JP2022019422A - Learning device, inference device, learning method, inference method and program - Google Patents
Learning device, inference device, learning method, inference method and program Download PDFInfo
- Publication number
- JP2022019422A JP2022019422A JP2020123246A JP2020123246A JP2022019422A JP 2022019422 A JP2022019422 A JP 2022019422A JP 2020123246 A JP2020123246 A JP 2020123246A JP 2020123246 A JP2020123246 A JP 2020123246A JP 2022019422 A JP2022019422 A JP 2022019422A
- Authority
- JP
- Japan
- Prior art keywords
- array
- feature
- sequence
- function value
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 108
- 230000006870 function Effects 0.000 claims abstract description 336
- 230000007246 mechanism Effects 0.000 claims abstract description 139
- 238000009795 derivation Methods 0.000 claims abstract description 122
- 230000008569 process Effects 0.000 claims abstract description 46
- 239000011159 matrix material Substances 0.000 claims description 138
- 238000002864 sequence alignment Methods 0.000 abstract description 15
- 238000013178 mathematical model Methods 0.000 description 59
- 239000013598 vector Substances 0.000 description 44
- 238000012545 processing Methods 0.000 description 34
- 238000013528 artificial neural network Methods 0.000 description 25
- 238000003491 array Methods 0.000 description 23
- 238000006243 chemical reaction Methods 0.000 description 21
- 230000015572 biosynthetic process Effects 0.000 description 20
- 238000003786 synthesis reaction Methods 0.000 description 20
- 238000012549 training Methods 0.000 description 18
- 230000008602 contraction Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 230000004913 activation Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000002457 bidirectional effect Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000005401 electroluminescence Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000003121 nonmonotonic effect Effects 0.000 description 2
- 238000004904 shortening Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
本発明は、学習装置、推論装置、学習方法、推論方法及びプログラムに関する。 The present invention relates to a learning device, an inference device, a learning method, an inference method and a program.
配列とは、順番に並べられた一続きのデータである。配列の例として、音声信号と音響信号と生体信号とがある。配列の各データは、数値や数値ベクトルなどであり、配列の要素と呼ばれる。配列の各データは、自然数などの添字を用いて識別される。 An array is a series of data arranged in order. Examples of arrays are audio signals, acoustic signals, and biological signals. Each data in the array is a numerical value, a numerical vector, etc., and is called an element of the array. Each piece of data in the array is identified using a subscript such as a natural number.
配列整列とは、複数の配列において互いに類似する領域を特定できるように、各配列の要素を整列させることである。配列の関係性を知る手がかりが配列整列によって与えられるので、配列整列は、例えば、動作認識、音声分析、生体信号分類及び署名認証等の多くの応用問題において重要である。特に、2個の配列の間に、局所的な変移と速度の変化とに関する非線形の時間変動が存在する場合、配列整列が必要となる。配列整列の代表的な方法として、動的時間伸縮法がある(非特許文献1参照)。 Sequence alignment is the alignment of the elements of each sequence so that regions similar to each other can be identified in a plurality of sequences. Sequence alignment is important in many application problems such as motion recognition, speech analysis, biosignal classification and signature authentication, as clues to know the relationship of sequences are given by sequence alignment. In particular, if there is a non-linear time variation between the two sequences with respect to local and velocity changes, sequence alignment is required. As a typical method of sequence alignment, there is a dynamic time expansion / contraction method (see Non-Patent Document 1).
動的時間伸縮法では、2個の配列における各要素間の距離が導出される。対応関係にある要素間の距離の合計が最小になるように、2個の配列における各要素間の対応関係が検出される。対応関係とは、互いに対応している2個の要素の組み合わせ、又は、互いに対応している2個の要素の添字の組み合わせである。 In the dynamic time expansion and contraction method, the distance between each element in the two arrays is derived. The correspondence between the elements in the two arrays is detected so that the sum of the distances between the elements in the correspondence is minimized. The correspondence relationship is a combination of two elements corresponding to each other or a combination of subscripts of two elements corresponding to each other.
動的時間伸縮法では、処理の並列化が困難である。このため、動的時間伸縮法と深層学習とを組み合わせることは難しい。また、動的時間伸縮法は、人手によって設計された特徴表現の使用に依存し、より複雑な特徴表現が必要な場合に性能が不十分である。従って、動的時間伸縮法は、所定の目的の応用問題には最適でない場合が多い。 In the dynamic time expansion / contraction method, it is difficult to parallelize the processes. For this reason, it is difficult to combine the dynamic time expansion and contraction method with deep learning. Also, the dynamic time expansion and contraction method relies on the use of manually designed feature representations and is inadequate in performance when more complex feature representations are required. Therefore, the dynamic time expansion and contraction method is often not optimal for a given application problem.
機械翻訳、音声合成及び音声変換等の分野では、深層学習と組み合わせることが容易な配列整列の方法として、注意機構を使用する方法がある(非特許文献2、3参照)。注意機構は、第1配列と第2配列との2個の配列に関して、第2配列の各要素に対する第1配列の各要素の重みを導出する。導出された各重みは、第1配列と第2配列との2個の配列の各要素が対応関係にある確率を表す。注意機構を使用する配列整列の方法では、第2配列の各要素に対する第1配列の各要素の重みに基づいて第1配列の各要素が並べ替えられることによって、配列整列が実現される。
In the fields of machine translation, speech synthesis, speech conversion, etc., there is a method of using an attention mechanism as a method of sequence alignment that can be easily combined with deep learning (see Non-Patent
第2配列の添字を独立変数とし、第2配列の添字との対応関係にある第1配列の添字を従属変数とする関数(以下「対応関数」という。)を用いて、2個の配列の各要素間の対応関係は表される。照合又は分類などの応用問題では、同じクラスに属する2個の配列において、対応関数が単調で連続的である場合が多い。これに対して、異なるクラスに属する2個の配列において、対応関数が非単調又は非連続的である場合が多い。 Using a function (hereinafter referred to as "correspondence function") in which the subscript of the second array is the independent variable and the subscript of the first array, which is in correspondence with the subscript of the second array, is the dependent variable, the two arrays The correspondence between each element is represented. In applied problems such as collation or classification, the corresponding functions are often monotonous and continuous in two arrays belonging to the same class. On the other hand, in two arrays belonging to different classes, the corresponding functions are often non-monotonic or discontinuous.
このような性質が利用されることによって、同じクラスに2個の配列が属するか否かを判定することが可能である。例えば、単調で連続的な対応関数が2個の配列から導出され、対応関係にある要素間の距離の合計が導出可能である。この合計が大きい場合には、異なるクラスに2個の配列が属すると判定することができる。 By utilizing such a property, it is possible to determine whether or not two arrays belong to the same class. For example, a monotonous and continuous correspondence function can be derived from two arrays, and the total distance between the elements in the correspondence can be derived. When this sum is large, it can be determined that two arrays belong to different classes.
このような性質を利用する代表的な配列整列方法として、動的時間伸縮法がある。しかしながら、動的時間伸縮法は、人手によって設計された特徴表現の使用に依存し、より複雑な特徴表現が必要な場合に性能が不十分である。従って、動的時間伸縮法は、所定の目的の応用問題には最適でない場合が多い。 As a typical sequence alignment method utilizing such a property, there is a dynamic time expansion / contraction method. However, the dynamic time expansion and contraction method relies on the use of manually designed feature representations and is inadequate in performance when more complex feature representations are required. Therefore, the dynamic time expansion and contraction method is often not optimal for a given application problem.
これに対して注意機構は、人手によって設計された特徴表現に依存しない。しかしながら従来では、注意機構を使用して照合又は分類などの応用問題を解決することができない。なぜなら、2個の配列の各要素が対応関係にある確率を従来の注意機構が導出したとしても、対応関数を確率から導出することができないためである。また、従来の注意機構が対応関数を導出したとしても、対応関数が単調で連続的であることを保証する方法がないためである。 Attention mechanisms, on the other hand, do not rely on manually designed feature representations. However, in the past, attention mechanisms have not been used to solve applied problems such as collation or classification. This is because even if the conventional attention mechanism derives the probability that each element of the two arrays has a correspondence relationship, the corresponding function cannot be derived from the probability. Also, even if the conventional attention mechanism derives the corresponding function, there is no way to guarantee that the corresponding function is monotonous and continuous.
従って、従来の注意機構を使用して整列された配列の間の距離が照合又は分類等の応用問題に適用された場合、配列間の距離が非常に小さく導出されることが多い。このため、異なるクラスに属する2個の配列を正しく区別することができないことが多い。 Therefore, when the distance between sequences aligned using conventional attention mechanisms is applied to application problems such as collation or classification, the distance between sequences is often derived very small. For this reason, it is often not possible to correctly distinguish between two arrays belonging to different classes.
図10は、重み行列の例を示す図である。重み行列は、2個の配列の各要素が対応関係にある確率を表す行列である。図10では、第1配列は一例として「LISTEN」であり、第2配列は一例として「SILENT」である。値が「1」である重み行列の要素は、該当する要素が対応関係にあることを表す。 FIG. 10 is a diagram showing an example of a weight matrix. The weight matrix is a matrix that represents the probability that each element of the two arrays has a correspondence relationship. In FIG. 10, the first sequence is "LISTEN" as an example, and the second sequence is "SILENT" as an example. The elements of the weight matrix having a value of "1" indicate that the corresponding elements have a correspondence relationship.
図10における左側に示された重み行列は、従来の注意機構によって導出された重み行列である。このように従来の注意機構は、非単調で非連続的な対応関数を導出する。異なるクラスに2個の配列が属していても、図10における左側に示された重み行列では、対応関係にある要素間の距離の合計が0となっているため、2個の配列を正しく区別することができていない。 The weight matrix shown on the left side in FIG. 10 is a weight matrix derived by a conventional attention mechanism. Thus, the conventional attention mechanism derives a non-monotonic and discontinuous correspondence function. Even if two arrays belong to different classes, the weight matrix shown on the left side in FIG. 10 correctly distinguishes the two arrays because the total distance between the corresponding elements is 0. I haven't been able to.
このため、照合又は分類などの応用問題において、図10における右側に示された重み行列における「1」の並び方のように単調で連続的な対応関数を導出及び使用可能な配列整列方法が必要とされている。このような配列整列方法によって、配列間の距離又は類似度が正しく導出され、異なるクラスに属する配列であるか否かを正しく推論することが可能である。 Therefore, in application problems such as collation or classification, there is a need for an array alignment method that can derive and use a monotonous and continuous correspondence function like the arrangement of "1" in the weight matrix shown on the right side in FIG. Has been done. By such an array alignment method, the distance or similarity between sequences can be correctly derived, and it is possible to correctly infer whether or not the sequences belong to different classes.
音声合成又は音声変換などの応用問題では、第1配列を第2配列に変換することが目的である。第1配列と第2配列との間において、局所的な変移と速度の変化とに関する非線形の時間変動が存在する場合、配列整列が必要となる。例えば、日本人の英語音声をアメリカ人の英語音声に変換する場合、英語音声のテンポに変動が存在するため、音声信号の配列を整列する必要がある。すなわち、2個の配列の各要素間の対応関係が推定され、推定された対応関係を使用して第1配列が整列され、整列された第1配列が第2配列に変換される必要がある。このような場合でも、2個の配列の間における対応関数が単調で連続的であることが多い。 In application problems such as speech synthesis or speech conversion, the purpose is to convert the first array to the second array. If there is a non-linear time variation between the first and second sequences with respect to local and velocity changes, sequence alignment is required. For example, when converting Japanese English voice to American English voice, it is necessary to align the arrangement of voice signals because the tempo of the English voice fluctuates. That is, the correspondence between each element of the two arrays needs to be estimated, the first sequence aligned using the estimated correspondence, and the aligned first sequence converted to the second array. .. Even in such cases, the corresponding function between the two arrays is often monotonous and continuous.
しかしながら、従来の注意機構を使用する方法では、単調で連続的な対応関数を注意機構が導出できるように、数理モデルの学習を誘導(ガイド)する機能がない。このため、注意機構が十分な性能を提供できるようになるまでには、長い学習時間が必要である場合が多い。 However, the conventional method using the attention mechanism does not have a function of guiding the learning of the mathematical model so that the attention mechanism can derive a monotonous and continuous correspondence function. For this reason, it often takes a long learning time before the attention mechanism can provide sufficient performance.
このため、音声合成又は音声変換などの応用問題においても、上述の配列整列方法が必要とされている。このような配列整列方法によって、音声合成又は音声変換などの推論精度の向上と学習時間の短縮とを両立させることが可能である。 Therefore, the above-mentioned arrangement method is also required for application problems such as speech synthesis or speech conversion. By such an arrangement method, it is possible to achieve both improvement of inference accuracy such as speech synthesis or speech conversion and shortening of learning time.
上記事情に鑑み、本発明は、人手によって設計された特徴表現の使用に依存することなく、より複雑な特徴表現を導出及び使用可能であると同時に、単調で連続的な対応関数を導出及び使用可能な配列整列を実現することが可能である学習装置、推論装置、学習方法、推論方法及びプログラムを提供することを目的としている。 In view of the above circumstances, the present invention can derive and use more complex feature representations without relying on the use of manually designed feature representations, while at the same time deriving and using monotonous and continuous correspondence functions. It is an object of the present invention to provide a learning device, an inference device, a learning method, an inference method, and a program capable of realizing a possible sequence arrangement.
本発明の一態様は、第1配列に基づく第1特徴配列と第2配列に基づく第2特徴配列とを用いて、前記第1特徴配列と前記第2特徴配列との各要素が対応関係にある確率を表す行列である重み行列を生成する注意機構と、同じクラスに前記第1配列と前記第2配列とが属するか否かを表すラベルと前記第1特徴配列と前記第2特徴配列とに応じた値である目的関数値を、前記重み行列に基づいて導出する目的関数値導出部と、前記目的関数値に基づいて所定の学習処理を実行することによって学習結果を生成する更新部とを備える学習装置である。 In one aspect of the present invention, the first feature sequence based on the first sequence and the second feature sequence based on the second sequence are used, and the elements of the first feature sequence and the second feature sequence correspond to each other. A caution mechanism for generating a weighting matrix, which is a matrix representing a certain probability, a label indicating whether or not the first array and the second array belong to the same class, the first feature array, and the second feature array. An objective function value derivation unit that derives an objective function value that is a value according to the above weight matrix based on the weight matrix, and an update unit that generates a learning result by executing a predetermined learning process based on the objective function value. It is a learning device provided with.
本発明の一態様は、第1配列に基づく第1特徴配列と第2配列に基づく第2特徴配列とを用いて、前記第1特徴配列と前記第2特徴配列との各要素が対応関係にある確率を表す行列である重み行列を生成する注意機構と、現在の時刻における前記第2配列の要素に対する前記第1特徴配列の各要素の重みと前記第1特徴配列とに基づいて、現在の時刻における前記第2配列の要素を導出する復号化部と、正解配列と前記第2配列とに応じた値である目的関数値を導出する目的関数値導出部と、前記目的関数値に基づいて所定の学習処理を実行することによって学習結果を生成する更新部とを備える学習装置である。 In one aspect of the present invention, the first feature sequence based on the first sequence and the second feature sequence based on the second sequence are used, and the elements of the first feature sequence and the second feature sequence correspond to each other. Based on the attention mechanism that creates a weighting matrix, which is a matrix representing a certain probability, and the weight of each element of the first feature array with respect to the elements of the second array at the current time, and the current first feature array. Based on the decoding unit that derives the elements of the second array at time, the objective function value derivation unit that derives the objective function value that is the value corresponding to the correct array and the second array, and the objective function value. It is a learning device including an update unit that generates a learning result by executing a predetermined learning process.
本発明の一態様は、第1配列に基づく第1特徴配列と第2配列に基づく第2特徴配列とを用いて、前記第1特徴配列と前記第2特徴配列との各要素が対応関係にある確率を表す行列である重み行列を生成する注意機構と、前記第1特徴配列と前記第2特徴配列と前記重み行列とに基づいて、前記第1配列と前記第2配列との間の距離を導出する照合部と、前記距離に基づいて所定の推論処理を実行することによって推論結果を生成する推論部とを備える推論装置である。 In one aspect of the present invention, the first feature sequence based on the first sequence and the second feature sequence based on the second sequence are used, and the elements of the first feature sequence and the second feature sequence correspond to each other. The distance between the first array and the second array based on the attention mechanism that generates the weight matrix, which is a matrix representing a certain probability, and the first feature array, the second feature array, and the weight matrix. This is an inference device including a collation unit for deriving the above and an inference unit for generating an inference result by executing a predetermined inference process based on the distance.
本発明の一態様は、第1配列に基づく第1特徴配列と第2配列に基づく第2特徴配列とを用いて、前記第1特徴配列と前記第2特徴配列との各要素が対応関係にある確率を表す行列である重み行列を生成する注意機構と、前記第1特徴配列と前記重み行列とに基づいて第2配列を導出する復号化部と、前記第2配列に基づいて所定の推論処理を実行することによって推論結果を生成する推論部とを備える推論装置である。 In one aspect of the present invention, the first feature sequence based on the first sequence and the second feature sequence based on the second sequence are used, and the elements of the first feature sequence and the second feature sequence correspond to each other. A caution mechanism that generates a weight matrix that represents a certain probability, a decoding unit that derives a second array based on the first feature array and the weight matrix, and a predetermined inference based on the second array. It is an inference device including an inference unit that generates an inference result by executing a process.
本発明の一態様は、学習装置が実行する学習方法であって、第1配列に基づく第1特徴配列と第2配列に基づく第2特徴配列とを用いて、前記第1特徴配列と前記第2特徴配列との各要素が対応関係にある確率を表す行列である重み行列を生成する注意ステップと、同じクラスに前記第1配列と前記第2配列とが属するか否かを表すラベルと前記第1特徴配列と前記第2特徴配列とに応じた値である目的関数値を、前記重み行列に基づいて導出する目的関数値導出ステップと、前記目的関数値に基づいて所定の学習処理を実行することによって学習結果を生成する更新ステップとを含む学習方法である。 One aspect of the present invention is a learning method executed by a learning device, wherein the first feature sequence and the first feature sequence are used by using a first feature sequence based on the first sequence and a second feature sequence based on the second sequence. A caution step to generate a weight matrix, which is a matrix representing the probability that each element of the two feature arrays has a correspondence relationship, a label indicating whether or not the first array and the second array belong to the same class, and the above. An objective function value derivation step for deriving an objective function value which is a value corresponding to the first feature array and the second feature array based on the weight matrix, and a predetermined learning process based on the objective function value are executed. It is a learning method including an update step for generating a learning result by doing so.
本発明の一態様は、推論装置が実行する推論方法であって、第1配列に基づく第1特徴配列と第2配列に基づく第2特徴配列とを用いて、前記第1特徴配列と前記第2特徴配列との各要素が対応関係にある確率を表す行列である重み行列を生成する注意ステップと、前記第1特徴配列と前記第2特徴配列と前記重み行列とに基づいて、前記第1配列と前記第2配列との間の距離を導出する照合ステップと、前記距離に基づいて所定の推論処理を実行することによって推論結果を生成する推論ステップとを含む推論方法である。 One aspect of the present invention is an inference method executed by an inference device, wherein the first feature sequence and the first feature sequence based on the second sequence are used. The first feature array is based on the attention step of generating a weight matrix, which is a matrix representing the probability that each element of the two feature array is in a correspondence relationship, and the first feature array, the second feature array, and the weight matrix. It is an inference method including a collation step for deriving a distance between an array and the second array, and an inference step for generating an inference result by executing a predetermined inference process based on the distance.
本発明の一態様は、学習装置が実行する学習方法であって、第1配列に基づく第1特徴配列と第2配列に基づく第2特徴配列とを用いて、前記第1特徴配列と前記第2特徴配列との各要素が対応関係にある確率を表す行列である重み行列を生成する注意ステップと、現在の時刻における前記第2配列の要素に対する前記第1特徴配列の各要素の重みと前記第1特徴配列とに基づいて、現在の時刻における前記第2配列の要素を導出する復号化ステップと、正解配列と前記第2配列とに応じた値である目的関数値を導出する目的関数値導出ステップと、前記目的関数値に基づいて所定の学習処理を実行することによって学習結果を生成する更新ステップとを含む学習方法である。 One aspect of the present invention is a learning method executed by a learning device, wherein the first feature sequence and the first feature sequence are used by using a first feature sequence based on the first sequence and a second feature sequence based on the second sequence. A caution step to generate a weighting matrix, which is a matrix representing the probability that each element of the two feature arrays has a correspondence relationship, and the weight of each element of the first feature array with respect to the element of the second array at the current time, and the above. A decoding step that derives the elements of the second array at the current time based on the first feature array, and an objective function value that derives an objective function value that is a value corresponding to the correct array and the second array. It is a learning method including a derivation step and an update step of generating a learning result by executing a predetermined learning process based on the objective function value.
本発明の一態様は、推論装置が実行する推論方法であって、第1配列に基づく第1特徴配列と第2配列に基づく第2特徴配列とを用いて、前記第1特徴配列と前記第2特徴配列との各要素が対応関係にある確率を表す行列である重み行列を生成する注意ステップと、前記第1特徴配列と前記重み行列とに基づいて第2配列を導出する復号化ステップと、前記第2配列に基づいて所定の推論処理を実行することによって推論結果を生成する推論ステップとを含む推論方法である。 One aspect of the present invention is an inference method executed by an inference device, wherein the first feature sequence and the first feature sequence based on the second sequence are used. A caution step for generating a weight matrix, which is a matrix representing the probability that each element of the two feature arrays has a correspondence relationship, and a decoding step for deriving a second array based on the first feature array and the weight matrix. , A reasoning method including a reasoning step of generating a reasoning result by executing a predetermined reasoning process based on the second array.
本発明の一態様は、上記に記載の学習装置としてコンピュータを機能させるためのプログラムである。 One aspect of the present invention is a program for operating a computer as the learning device described above.
本発明の一態様は、上記に記載の推論装置としてコンピュータを機能させるためのプログラムである。 One aspect of the present invention is a program for operating a computer as the inference device described above.
本発明により、人手によって設計された特徴表現の使用に依存することなく、より複雑な特徴表現を導出及び使用可能であると同時に、単調で連続的な対応関数を導出及び使用可能な配列整列を実現することが可能である。 INDUSTRIAL APPLICABILITY According to the present invention, more complicated feature representations can be derived and used without depending on the use of manually designed feature representations, and at the same time, monotonous and continuous correspondence functions can be derived and usable sequence alignment can be performed. It is possible to achieve it.
本発明の実施形態について、図面を参照して詳細に説明する。
以下では、配列の照合又は分類などの応用問題において、注意機構が使用される。これによって、人手によって設計された特徴表現の使用に依存することなく、より複雑な特徴表現を導出及び使用可能な配列整列が実現される。
Embodiments of the present invention will be described in detail with reference to the drawings.
In the following, attention mechanisms are used in application problems such as sequence matching or classification. This allows for derivation and usable sequence alignment of more complex feature representations without relying on the use of manually designed feature representations.
以下では、単調性制約と連続性制約とのうちの少なくとも一方を表す制約関数値が新たに提案される。単調で連続的な対応関数を注意機構が導出できるように、制約関数値が最小化されることによって、符号化部と注意機構とを含む数理モデルの学習を誘導(ガイド)することが可能である。 In the following, a new constraint function value representing at least one of a monotonic constraint and a continuity constraint is proposed. By minimizing the constraint function value so that the attention mechanism can derive a monotonous and continuous correspondence function, it is possible to guide the learning of the mathematical model including the coding part and the attention mechanism. be.
以下、単調性制約とは、第1配列の要素と第2配列の要素とに対応関係があり、第2配列の要素の添字(番号)の増加につれて、第2配列の要素との対応関係にある第1配列の要素の添字(番号)が減少しないという制約である。以下、連続性制約とは、第1配列の要素と第2配列の要素とに対応関係があり、第2配列において隣り合う要素の添字(番号)が連続している場合に、第2配列において隣り合う要素の添字との対応関係にある第1配列の要素の添字同士の差が所定の正値以下であるという制約である。 Hereinafter, the monotonic constraint has a correspondence relationship between the elements of the first array and the elements of the second array, and as the subscript (number) of the elements of the second array increases, the correspondence relationship with the elements of the second array becomes. It is a constraint that the subscripts (numbers) of the elements of a certain first array do not decrease. Hereinafter, the continuity constraint has a correspondence relationship between the elements of the first array and the elements of the second array, and when the subscripts (numbers) of adjacent elements in the second array are continuous, in the second array. It is a constraint that the difference between the subscripts of the elements of the first array that correspond to the subscripts of the adjacent elements is not more than a predetermined positive value.
(第1実施形態)
第1実施形態では、照合又は分類などの応用問題に、学習方法及び推論方法が適用される。照合又は分類などの応用問題として、例えば、動作認識、音声認識、生体信号分類及び署名認証等がある。
(First Embodiment)
In the first embodiment, a learning method and an inference method are applied to an applied problem such as collation or classification. Applied problems such as collation or classification include, for example, motion recognition, voice recognition, biological signal classification, signature authentication, and the like.
学習段階において、学習装置が注意機構を用いて、数理モデルの学習を実行する。すなわち学習段階において、学習装置は、多数のパラメータを持つ数理モデルを、学習データを用いて学習する。学習装置は、数理モデルのパラメータの数値を決定することによって、学習済の数理モデルを生成する。実行段階において、推論装置は、学習済の数理モデルを用いて、推論処理を実行する。例えば、推論装置は、照合又は分類等の目的のタスクを実行する。 At the learning stage, the learning device uses the attention mechanism to learn the mathematical model. That is, in the learning stage, the learning device learns a mathematical model having a large number of parameters using the learning data. The learning device generates a trained mathematical model by determining the numerical values of the parameters of the mathematical model. At the execution stage, the inference device executes the inference process using the trained mathematical model. For example, the inference device performs a task of interest such as collation or classification.
まず、実行段階における、照合又は分類などの応用問題に適用される推論方法について説明する。 First, an inference method applied to an applied problem such as collation or classification in the execution stage will be described.
図1は、第1実施形態における、推論装置1の構成例を示す図である。第1実施形態の実行段階では、照合又は分類などの応用問題に推論方法が適用される。推論装置1は、第1配列と第2配列を入力として取得する。例えば、動作認識では、推論装置1は、人体における複数の特徴点(例えば、関節位置)の座標などを時間順に並べた配列を、入力として取得する。署名認証では、推論装置1は、署名収集装置のディスプレイにおける署名座標又は筆圧などを時間順に並べた配列を、入力として取得する。推論装置1は、第1配列と第2配列の間の距離を導出する。推論装置1は、距離に基づいて推論処理を実行する。推論装置1は、推論結果を所定の外部装置(不図示)に出力する。
FIG. 1 is a diagram showing a configuration example of the
距離は、照合又は分類などの応用問題を解決するために使用可能である。例えば、分類問題では、推論装置1は、クラスが既知である学習配列と、クラスが未知である目標配列との間の距離を導出する。推論装置1は、K近傍法又はサポートベクターマシンなどを使用して、目標配列のクラスを推定する。探索問題では、推論装置1は、クエリ配列とデータベースにある配列との間の距離を導出する。推論装置1は、距離が最も短い配列を、探索結果として導出する。
Distances can be used to solve application problems such as matching or classification. For example, in a classification problem, the
推論装置1は、符号化部10-1と、符号化部10-2と、注意機構11と、照合部12と、推論部13とを備える。
The
推論装置1の機能部の詳細を説明する。
<符号化部10>
符号化部10-1は、第1配列を入力として取得する。符号化部10-2は、第2配列を入力として取得する。符号化部10-1は、第1特徴配列(第1特徴表現)を注意機構11と照合部12とに出力する。符号化部10-2は、第2特徴配列(第2特徴表現)を注意機構11と照合部12とに出力する。
The details of the functional part of the
<
The coding unit 10-1 acquires the first array as an input. The coding unit 10-2 acquires the second array as an input. The coding unit 10-1 outputs the first feature array (first feature expression) to the
符号化部10-1の動作は、符号化部10-2の動作と同様である。このため以下では、符号化部10-1の動作について説明する。また以下では、符号化部10-1と符号化部10-2とに共通する事項については、符号の一部を省略して、「符号化部10」と表記する。符号化部10は、第1配列に基づいて、数値又は数値ベクトルを要素とする配列を第1特徴配列として導出する。
The operation of the coding unit 10-1 is the same as the operation of the coding unit 10-2. Therefore, the operation of the coding unit 10-1 will be described below. In the following, items common to the coding unit 10-1 and the coding unit 10-2 will be referred to as "encoding
<符号化部10の第1例>
符号化部10の第1例では、符号化部10は、人工ニューラルネットワークを使用して、第1特徴配列を第1配列から導出する。学習段階において、人工ニューラルネットワークのパラメータは、学習データに基づいて決定される。
<First example of
In the first example of the
符号化部10の第1例の処理の詳細は、以下の通りである。
符号化部10の第1例では、符号化部10は、第1配列の長さを,所定の長さ(例えば、1024)に変更する。これは、人工ニューラルネットワークの学習が実行される場合に、バッチ学習又はミニバッチ学習を使用可能とするために必要である。第1配列の各要素は、1次元の数値又は多次元の数値ベクトルである。
The details of the processing of the first example of the
In the first example of the
長さが変更された第1配列の要素の各次元について、当該次元の全ての数値の平均が0になり、当該次元の全ての数値の分散が1になるように、符号化部10は、当該次元の全ての数値を正規化する。正規化された第1配列は、例えば、「1×1024×5」のテンソルである。この「1024」は、配列の長さの例である。この「5」は、配列の要素の次元数の例である。
For each dimension of the elements of the first array whose length has been changed, the
符号化部10は、正規化された第1配列を、畳み込みニューラルネットワークに入力する。畳み込みニューラルネットワークは、例えば、1個の「1×7×64」の畳み込み層と、1個の最大プーリング層と、2個の「1×3×64」の畳み込み層を備える。各畳み込み層の直後には、バッチ正規化層が備えられる。バッチ正規化層に続いて、ReLU層が活性化関数として備えられる。最後のReLU層は、多次元の数値ベクトルを要素とする配列を出力する。
The
符号化部10は、多次元の数値ベクトルを要素とする配列の各要素について、当該要素の全ての数値のL2ノルムが1になるように、当該要素の全ての数値を正規化する。符号化部10は、正規化された配列を第1特徴配列として、注意機構11と照合部12とに出力する。符号化部10の第1例では、畳み込みニューラルネットワークの代わりに、再帰型ニューラルネットワークなどが使用されてもよい。
The
<符号化部10の第2例>
符号化部10の第2例では、符号化部10は、入力された第1配列を第1特徴配列として、注意機構11と照合部12とに出力する。符号化部10の第2例では、符号化部10は、パラメータを持たない。
<Second example of
In the second example of the
<注意機構11>
注意機構11は、第1特徴配列を、符号化部10-1から取得する。注意機構11は、第2特徴配列を、符号化部10-2から取得する。注意機構11は、第1特徴配列の各要素と第2特徴配列の各要素とに基づいて、第2特徴配列の各要素に対する第1特徴配列の各要素の重みを導出する。第2特徴配列の各要素に対する、第1特徴配列の各要素の重みは、2個の要素が対応関係にある確率を表す。重みが大きいほど、2個の要素が対応関係にある確率が高い。注意機構11は、重み行列を照合部12に出力する。
<
The
<注意機構11の第1例>
注意機構11の第1例では、注意機構11は、人工ニューラルネットワークを使用して、第1特徴配列の各要素と第2特徴配列の各要素とに基づいて、第2特徴配列の各要素に対する第1特徴配列の各要素の重みを導出する。学習段階において、人工ニューラルネットワークのパラメータは、学習データに基づいて決定される。
<First example of
In the first example of the
注意機構11の第1例の処理の詳細は、以下の通りである。
注意機構11の第1例では、注意機構11は、第1特徴配列の各要素である数値ベクトルと、第2特徴配列の各要素である数値ベクトルとを、数値ベクトルの次元方向に沿って連結する。注意機構11は、連結された数値ベクトルを、人工ニューラルネットワークに入力する。
The details of the processing of the first example of the
In the first example of the
人工ニューラルネットワークは、例えば、3個の全結合層を備える。3個の全結合層において、1個目の全結合層が64個の隠れユニットを有し、2個目の全結合層が16個の隠れユニットを有し、3個目の全結合層が1個の隠れユニットを有する。1個目の全結合層の直後において、活性化関数としてReLU層が備えられる。2個目の全結合層の直後において、活性化関数としてReLU層が備えられる。3個目の全結合層は、1個の実数を出力する。 The artificial neural network includes, for example, three fully connected layers. Of the three fully bonded layers, the first fully bonded layer has 64 hidden units, the second fully bonded layer has 16 hidden units, and the third fully bonded layer has 16 hidden units. It has one hidden unit. Immediately after the first fully connected layer, a ReLU layer is provided as an activation function. Immediately after the second fully connected layer, a ReLU layer is provided as an activation function. The third fully connected layer outputs one real number.
第2特徴配列の各要素について、注意機構11は、当該要素と第1特徴配列の各要素とを用いて導出された実数を全て含む配列を、Softmax関数を用いて正規化する。この導出された実数を全て含む配列とは、第1特徴配列の各要素に対して出力された実数を配列としてまとめたものである。導出された実数を全て含む配列は、第1特徴配列の要素数と同じ数の実数を含む。注意機構11は、第2特徴配列の各要素に対する第1特徴配列の各要素の重みとして、正規化された実数を導出する。注意機構11は、第2特徴配列の各要素に対する第1特徴配列の各要素の重みを全て含む行列を、重み行列として照合部12に出力する。
For each element of the second feature array, the
<注意機構11の第2例>
注意機構11の第2例の処理の詳細は、以下の通りである。
注意機構11の第2例では、注意機構11は、第1特徴配列の各要素と第2特徴配列の各要素との内積を導出する。注意機構11は、第2特徴配列の各要素について、第2特徴配列の各要素と第1特徴配列の各要素との内積を全て含む配列を、Softmax関数によって正規化する。注意機構11は、第2特徴配列の各要素に対する第1特徴配列の各要素の重みとして、正規化された内積を導出する。注意機構11は、第2特徴配列の各要素に対する第1特徴配列の各要素の重みを全て含む行列を、重み行列として照合部12に出力する。
<Second example of
The details of the processing of the second example of the
In the second example of the
注意機構11の第2例では、注意機構11は、パラメータを持たない。符号化部10と注意機構11とを含む数理モデルを学習するためには、数理モデルがパラメータを持たなければ、数理モデルを学習することができない。従って、符号化部10の第2例が使用される場合には、注意機構11の第2例を使用することはできない。すなわち、パラメータを持たない符号化部10が使用される場合には、パラメータを持たない注意機構11を使用することはできない。
In the second example of the
<照合部12>
照合部12は、第1特徴配列を符号化部10-1から取得する。照合部12は、第2特徴配列を符号化部10-2から取得する。照合部12は、重み行列を注意機構11から取得する。照合部12は、第1特徴配列と第2特徴配列と重み行列とに基づいて、第1配列と第2配列との間の距離を導出する。照合部12は、第1配列と第2配列との間の距離(距離情報)を、推論部13に出力する。なお、照合部12は、所定の外部装置(不図示)に距離(距離情報)を出力してもよい。
<
The
<照合部12の第1例>
照合部12の第1例では、照合部12は、重み行列を使用して、第1特徴配列の各要素に対して重み付けを実行する。照合部12は、重み付けによって得られた新しい特徴配列を、変換特徴配列として導出する。照合部12は、変換特徴配列と第2特徴配列との間の距離を、第1配列と第2配列との間の距離として導出する。
<First example of
In the first example of the collating
照合部12の第1例の処理の詳細は、以下の通りである。
照合部12の第1例では、照合部12は、第2特徴配列の各要素について、第2特徴配列の各要素に対する第1特徴配列の各要素の重みを用いて、第1特徴配列の全ての要素の加重総和を導出する。これによって、第2特徴配列の各要素との対応関係にある第1特徴配列の要素が、加重総和として特定(抽出又は生成)される。すなわち、第2特徴配列の各要素との対応関係にある第1特徴配列の要素が整列される。従って、第1配列と第2配列との間に存在する局所的な変移と速度の変化とに関する非線形の時間変動が補償される。
The details of the processing of the first example of the collating
In the first example of the collating
照合部12は、第2特徴配列の各要素(数値又は数値ベクトル)と、当該要素に対して導出された第1特徴配列の全ての要素の加重総和(数値又は数値ベクトル)との距離(例えば、ユークリッド距離)を、局所距離として導出する。第1配列と第2配列との間の時間変動が既に補償されているため、第2特徴配列の各要素と当該要素に対して導出された加重総和とが対応関係にある確率は高い。従って、第2特徴配列の各要素と当該要素に対して導出された加重総和との距離を照合部12が導出することによって、第1特徴配列と第2特徴配列との間の局所的な差異をより正しく表す距離を照合部12が導出することが可能になる。
The
照合部12は、第2特徴配列の全ての要素に関する全ての局所距離の総和又は平均を導出する。照合部12は、局所距離の総和又は平均を、第1配列と第2配列との間の距離として推論部13に出力する。ここで、第1特徴配列は「X∈RW×K」と表記され、第2特徴配列は「Y∈RW×K」と表記される。「W」は、特徴配列の長さを表す。「K」は、特徴配列の要素である数値又は数値ベクトルの次元数を表す。「X」のj番目の行ベクトル「xj∈R1×K」は、「X」のj番目の要素を表す。同様に、「Y」のi番目の行ベクトル「yi∈R1×K」は、「Y」のi番目の要素を表す。
The
重み行列は「P∈RW×W」と表記される。「P」のi番目の行ベクトル「pi∈R1×W」は、「yi」に対する「x1,…,xW」の重み「pi1,…,piW」を含む。「pi」のj番目の要素「pij」は、「yi」に対する「xj」の重みを表す。 The weight matrix is written as "P ∈ R W × W ". The i-th row vector "pi ∈ R 1 × W " of "P" includes the weight " pi 1, ..., p i W " of "x 1 , ..., X W" with respect to "y i ". The jth element " pij " of " pi " represents the weight of "x j " with respect to "y i ".
「pi」がSoftmax関数によって正規化されているので、「pi1,…,piW」の合計は1である。従って、第1配列と第2配列との間の距離は、式(1)のように表される。 Since " pi " is normalized by the Softmax function, the sum of " pi1 , ..., piW " is 1. Therefore, the distance between the first sequence and the second sequence is expressed by the equation (1).
ここで、「piX」は、「yi」に対する「x1,…,xW」の加重総和を表す。「||piX-yi||」は、「piX」と「yi」との間のユークリッド距離、すなわち局所距離を表す。 Here, " pi X" represents the weighted sum of "x 1 , ..., X W " with respect to "y i ". "|| p i X-y i ||" represents the Euclidean distance between " pi X" and "y i ", that is, the local distance.
<照合部12の第2例>
照合部12の第2例では、照合部12は、第1特徴配列の各要素と第2特徴配列の各要素との間の距離を導出する。照合部12は、重み行列を使用して、距離に対して重み付けを実行する。照合部12は、重みに基づいて、第1配列と第2配列との間の距離を導出する。
<Second example of
In the second example of the collating
照合部12の第2例の処理の詳細は、以下の通りである。
照合部12の第2例では、照合部12は、第1特徴配列の各要素と第2特徴配列の各要素との間の距離(例えば、ユークリッド距離)を、局所距離として導出する。照合部12は、重み行列を使用して、局所距離の加重総和又は加重平均を導出する。照合部12は、第1配列と第2配列との間の距離として、局所距離の加重総和又は加重平均を推論部13に出力する。
The details of the processing of the second example of the collating
In the second example of the collating
第2特徴配列の各要素に対する第1特徴配列の各要素の重みは、2個の要素が対応関係にある確率を表す。重みが大きいほど、2個の要素が対応関係にある確率が高い。照合部12は、対応関係にある確率の高い2個の要素に対して、2個の要素の間の局所距離に対してより大きい重みを付与する。照合部12は、対応関係にある確率の低い2個の要素に対して、2個の要素の間の局所距離に対してより小さい重みを付与する。
The weight of each element of the first feature array for each element of the second feature array represents the probability that the two elements are in a correspondence relationship. The larger the weight, the higher the probability that the two elements are in a correspondence relationship. The
これによって、第1配列と第2配列との間に存在する局所的な変移と速度の変化とに関する非線形の時間変動が補償される。また、第1配列と第2配列との間の距離が、より正しく導出される。 This compensates for the non-linear time variation with respect to the local and velocity changes that exist between the first and second sequences. Also, the distance between the first array and the second array is more accurately derived.
照合部12の第1例と同様に、照合部12の第2例では、第1特徴配列は「X∈RW×K」と表記され、第2特徴配列は「Y∈RW×K」と表記される。特徴配列の長さは「W」と表記される。「X」のj番目の要素が「xj∈R1×K」と表記され、「Y」のi番目の要素は「yi∈R1×K」と表記される。重み行列は「P∈RW×W」と表記される。「yi」に対する「xj」の重みは「pij∈P」と表記される。従って、第1配列と第2配列との間の距離は、式(2)のように表される。
Similar to the first example of the collating
ここで、「||xj-yi||」は、「xj」と「yi」との間のユークリッド距離、すなわち局所距離を表す。 Here, "|| x j -y i ||" represents the Euclidean distance between "x j " and "y i ", that is, the local distance.
<推論部13>
推論部13は、第1配列と第2配列との間の距離として、局所距離の加重総和又は加重平均を、照合部12から取得する。推論部13は、第1配列と第2配列との間の距離に基づいて推論処理を実行する。推論部13は、所定の外部装置(不図示)に推論結果を出力する。推論処理は、特定の推論処理に限定されない。例えば、複数人の手書き署名の筆者が推論される場合、筆者が未知である署名(第1配列)と筆者が既知である署名(第2配列)とが学習済の数理モデルに入力される。推論部13は、照合部12から取得された第1配列と第2配列との間の距離が最も短い第2配列の筆者ID(identification number)を、第1配列の筆者ID(推論結果)として出力する。各筆者について第2配列が複数存在する場合には、推論部13は、距離の平均値が最も短い筆者IDを、推論結果として出力してもよい。
<
The
次に、学習段階における、照合又は分類などの応用問題に適用される学習方法について説明する。 Next, a learning method applied to an applied problem such as collation or classification in the learning stage will be described.
図2は、第1実施形態における、学習装置2の構成例を示す図である。第1実施形態の学習段階では、照合又は分類などの応用問題に学習方法が適用される。学習装置2は、第1配列と第2配列とラベルとを、入力として取得する。学習装置2は、目的関数値と制約関数値とを導出する。学習装置2は、目的関数値と制約関数値とに基づいて、学習済の数理モデル(学習結果)を所定の外部装置(不図示)に出力する。また、学習装置2は、学習済の数理モデルを、実行段階よりも前に推論装置1に出力する。
FIG. 2 is a diagram showing a configuration example of the
第1配列と第2配列とラベルとは、所定の目的(例えば、照合又は分類)のタスクを実行するための数理モデルを学習装置2が学習するために使用される学習データである。ラベルは、同じクラスに第1配列と第2配列とが属するか否かを表す。目的関数値と制約関数値とは、数理モデルを学習装置2が学習するために使用される。例えば、多数の学習データを使用して導出された目的関数値と制約関数値との加重総和又は加重平均が可能な限り小さくなるように(例えば、最小になるように)、学習装置2は数理モデルのパラメータを更新する。学習データの数が多いほど、数理モデルの性能が向上する。学習データの数は、例えば、2万から3万程度である。
The first array, the second array, and the label are learning data used by the
学習装置2は、符号化部20-1と、符号化部20-2と、注意機構21と、目的関数値導出部22と、制約関数値導出部23と、更新部24とを備える。
The
学習装置2の機能部の詳細を説明する。
<符号化部20>
符号化部20-1は、第1配列を入力として取得する。符号化部20-2は、第2配列を入力として取得する。符号化部20-1の動作は、符号化部20-2の動作と同様である。学習段階における符号化部20-1の処理は、実行段階における符号化部10-1の処理と同じである。学習段階における符号化部20-2の処理は、実行段階における符号化部10-2の処理と同じである。
The details of the functional unit of the
<Encoding unit 20>
The coding unit 20-1 acquires the first array as an input. The coding unit 20-2 acquires the second array as an input. The operation of the coding unit 20-1 is the same as the operation of the coding unit 20-2. The processing of the coding unit 20-1 in the learning stage is the same as the processing of the coding unit 10-1 in the execution stage. The processing of the coding unit 20-2 in the learning stage is the same as the processing of the coding unit 10-2 in the execution stage.
符号化部20-1は、第1特徴配列を注意機構21と目的関数値導出部22とに出力する。符号化部20-2は、第2特徴配列を注意機構21と目的関数値導出部22とに出力する。以下では、符号化部20-1と符号化部20-2とに共通する事項については、符号の一部を省略して、「符号化部20」と表記する。
The coding unit 20-1 outputs the first feature array to the
<注意機構21>
注意機構21は、第1特徴配列を符号化部20-1から取得する。注意機構21は、第2特徴配列を符号化部20-2から取得する。学習段階における注意機構21の処理は、実行段階における注意機構11の処理と同じである。注意機構21は、重み行列を目的関数値導出部22と制約関数値導出部23とに出力する。
<
The
<目的関数値導出部22>
目的関数値導出部22は、ラベルを入力として取得する。目的関数値導出部22は、第1特徴配列と第2特徴配列とを、符号化部20から取得する。目的関数値導出部22は、重み行列を注意機構21から取得する。目的関数値導出部22は、第1特徴配列と第2特徴配列と重み行列とに基づいて、第1特徴配列と第2特徴配列との間の差分を導出する。目的関数値導出部22は、導出された差分がラベルに関連付けられるように、目的関数値を導出する。
<Objective function
The objective function
同じクラスに第1配列と第2配列とが属する場合、差分が大きいほど、目的関数値が大きくなる。異なるクラスに第1配列と第2配列とが属する場合、差分が小さいほど、目的関数値が大きくなる。目的関数値導出部22は、このような目的関数値を更新部24に出力する。
When the first array and the second array belong to the same class, the larger the difference, the larger the objective function value. When the first array and the second array belong to different classes, the smaller the difference, the larger the objective function value. The objective function
<目的関数値導出部22の第1例>
実行段階において照合部12の第1例が使用される場合、学習段階において、目的関数値導出部22の第1例が使用されるほうが、目的関数値導出部22の第2例が使用されるよりも望ましい。目的関数値導出部22の第1例では、目的関数値導出部22は、重み行列を使用して、第1特徴配列の各要素に対して重み付けを実行する。目的関数値導出部22は、重み付けによって得られた新しい特徴配列を、変換特徴配列として導出する。目的関数値導出部22は、変換特徴配列と第2特徴配列との間の差分を導出する。目的関数値導出部22は、導出された差分がラベルに関連付けられるように、目的関数値を導出する。
<First example of objective function
When the first example of the
目的関数値導出部22の第1例の処理の詳細は、以下の通りである。
目的関数値導出部22の第1例では、目的関数値導出部22は、第2特徴配列の各要素について、第2特徴配列の各要素に対する第1特徴配列の各要素の重みを用いて、第1特徴配列の全ての要素の加重総和を導出する。
The details of the processing of the first example of the objective function
In the first example of the objective function
これによって、第2特徴配列の各要素との対応関係にある第1特徴配列の要素が、加重総和として特定(抽出又は生成)される。すなわち、第2特徴配列の各要素との対応関係にある第1特徴配列の要素が整列される。従って、第1配列と第2配列との間に存在する局所的な変移と速度の変化とに関する非線形の時間変動が補償される。 As a result, the elements of the first feature array that correspond to each element of the second feature array are specified (extracted or generated) as the weighted sum. That is, the elements of the first feature array that correspond to each element of the second feature array are aligned. Therefore, the non-linear time variation with respect to the local transition and the change in velocity existing between the first sequence and the second sequence is compensated.
目的関数値導出部22は、第1特徴配列の全ての要素の加重総和(数値又は数値ベクトル)と、第2特徴配列の各要素(数値又は数値ベクトル)との距離(例えば、ユークリッド距離)を、局所距離として導出する。目的関数値導出部22は、局所距離を用いて、局所目的関数値を導出する。同じクラスに第1配列と第2配列とが属する場合、局所距離が長いほど、局所目的関数値が大きくなる。異なるクラスに第1配列と第2配列とが属する場合、局所距離が短いほど、局所目的関数値が大きくなる。
The objective function
目的関数値導出部22は、第2特徴配列の全ての要素に関する全ての局所目的関数値の総和又は平均を導出する。目的関数値導出部22は、局所目的関数値の総和又は平均を、目的関数値として更新部24に出力する。ここで、第1特徴配列は「X∈RW×K」と表記される。第2特徴配列は「Y∈RW×K」と表記される。特徴配列の長さは「W」と表記される。「X」のj番目の要素は「xj∈R1×K」と表記される。「Y」のi番目の要素は「yi∈R1×K」と表記される。
The objective function
重み行列は、「P∈RW×W」と表記される。「P」のi番目の行ベクトル「pi∈R1×W」は、「yi」に対する「x1,…,xW」の重み「pi1,…,piW」を含む。ラベルが「z∈{0,1}」と表記される。同じクラスに第1配列と第2配列とが属する場合に、ラベルが「z=1」となる。異なるクラスに第1配列と第2配列とが属する場合に、ラベルが「z=0」となる。従って、目的関数値は、式(3)のように表される。 The weight matrix is expressed as "P ∈ R W × W ". The i-th row vector "pi ∈ R 1 × W " of "P" includes the weight " pi 1, ..., p i W " of "x 1 , ..., X W" with respect to "y i ". The label is written as "z ∈ {0,1}". When the first array and the second array belong to the same class, the label is "z = 1". When the first array and the second array belong to different classes, the label is "z = 0". Therefore, the objective function value is expressed as in Eq. (3).
ここで、「piX」は、「yi」に対する「x1,…,xW」の加重総和を表す。「||piX-yi||」は、「piX」と「yi」との間のユークリッド距離、すなわち局所距離を表す。「τ」は、ハイパーパラメータであって、正の実数である。 Here, " pi X" represents the weighted sum of "x 1 , ..., X W " with respect to "y i ". "|| p i X-y i ||" represents the Euclidean distance between " pi X" and "y i ", that is, the local distance. "Τ" is a hyperparameter and is a positive real number.
学習段階では、更新部24は、多数の学習データを使用して導出された目的関数値と制約関数値との加重総和又は加重平均が可能な限り小さくなるように(例えば、最小になるように)、符号化部20と注意機構21とを含む数理モデルのパラメータを更新する。目的関数値が最小化されることによって、同じクラスに第1配列と第2配列とが属する場合において数理モデルが局所距離をより小さく導出するようにパラメータが更新される。
At the learning stage, the
同じクラスに第1配列と第2配列とが属する場合において第2特徴配列の各要素と類似する第1特徴配列の要素を数理モデルがより正しく特定できるように、目的関数値導出部22の第1例の目的関数値に基づいて、パラメータが更新される。すなわち、同じクラスに第1配列と第2配列とが属する場合において第2特徴配列の各要素との対応関係にある第1特徴配列の要素を数理モデルがより正しく特定できるように、目的関数値導出部22の第1例の目的関数値に基づいて、パラメータが更新される。
The first of the objective function
このように学習された数理モデルが使用されることによって、第1特徴配列の各要素と第2特徴配列の各要素との間の対応関係が、より正しく特定される。第1配列と第2配列との間の距離が、より正しく導出される。また、人手によって設計された特徴表現の使用に依存することなく、動的時間伸縮法と比べてより複雑な特徴表現を導出及び使用可能な配列整列が実現される。 By using the mathematical model learned in this way, the correspondence between each element of the first feature array and each element of the second feature array is more accurately specified. The distance between the first array and the second array is derived more correctly. Also, without relying on the use of manually designed feature representations, more complex feature representations can be derived and available sequence alignments can be achieved as compared to the dynamic time expansion and contraction method.
<目的関数値導出部22の第2例>
実行段階において照合部12の第2例が使用される場合、学習段階において、目的関数値導出部22の第2例が使用されたほうが、目的関数値導出部22の第1例が使用されるよりも望ましい。目的関数値導出部22の第2例では、目的関数値導出部22は、第1特徴配列の各要素と第2特徴配列の各要素との間の距離を導出する。目的関数値導出部22は、重み行列を使用して、距離に対して重み付けを実行する。目的関数値導出部22は、第1特徴配列と第2特徴配列との間の類似度を導出する。目的関数値導出部22は、導出された類似度がラベルに関連付けられるように、目的関数値を導出する。
<Second example of objective function
When the second example of the collating
目的関数値導出部22の第2例の処理の詳細は、以下の通りである。
目的関数値導出部22の第2例では、目的関数値導出部22は、第1特徴配列の各要素と第2特徴配列の各要素の間の距離(例えば、ユークリッド距離)を、局所距離として導出する。目的関数値導出部22は、重み行列を使用して、局所距離の加重総和又は加重平均を導出する。目的関数値導出部22は、導出された加重総和又は加重平均がラベルに関連付けられるように、目的関数値を導出する。
The details of the processing of the second example of the objective function
In the second example of the objective function
ここで、第1特徴配列が「X∈RW×K」と表記される。第2特徴配列が「Y∈RW×K」と表記される。特徴配列の長さが「W」と表記される。「X」のj番目の要素が「xj∈R1×K」と表記される。「Y」のi番目の要素が「yi∈R1×K」と表記される。重み行列が「P∈RW×W」と表記される。「yi」に対する「xj」の重みが「pij∈P」と表記される。ラベルが「z∈{0,1}」と表記される。同じクラスに第1配列と第2配列とが属する場合に、ラベルが「z=1」となる。異なるクラスに第1配列と第2配列とが属する場合に、ラベルが「z=0」となる。従って、第1特徴配列と第2特徴配列との間の類似度は、式(4)のように表される。 Here, the first feature array is expressed as "X ∈ R W × K ". The second feature array is written as "Y ∈ R W × K ". The length of the feature array is written as "W". The jth element of "X" is written as "x j ∈ R 1 × K ". The i-th element of "Y" is written as "y i ∈ R 1 × K ". The weight matrix is written as "P ∈ R W × W ". The weight of "x j " for "y i " is expressed as " pij ∈ P". The label is written as "z ∈ {0,1}". When the first array and the second array belong to the same class, the label is "z = 1". When the first array and the second array belong to different classes, the label is "z = 0". Therefore, the degree of similarity between the first feature sequence and the second feature sequence is expressed by the equation (4).
ここで、「||xj-yi||」は、「xj」と「yi」との間のユークリッド距離、すなわち局所距離を表す。目的関数値は、式(5)のように表される。 Here, "|| x j -y i ||" represents the Euclidean distance between "x j " and "y i ", that is, the local distance. The objective function value is expressed by the equation (5).
学習段階では、多数の学習データを使用して導出された目的関数値が可能な限り小さくなるように(例えば、最小になるように)、更新部24は、符号化部20と注意機構21とを含む数理モデルのパラメータを更新する。目的関数値が最小化されることによって、同じクラスに第1配列と第2配列とが属する場合において数理モデルが局所距離をより小さく導出するようにパラメータが更新される。
In the learning stage, the
同じクラスに第1配列と第2配列とが属する場合、対応関係にある確率が高い2個の要素に対してより大きい重みが導出されるように、更新部24は数理モデルのパラメータを更新する。同じクラスに第1配列と第2配列とが属する場合、対応関係にある確率が低い2個の要素に対してより小さい重みが導出されるように、更新部24は数理モデルのパラメータを更新する。すなわち、第1特徴配列の各要素と第2特徴配列の各要素との間の対応関係がより正しく特定できるように、数理モデルのパラメータが更新される。
When the first array and the second array belong to the same class, the
このようにして学習された数理モデルが使用されることによって、第1特徴配列の各要素と第2特徴配列の各要素との間の対応関係がより正しく特定され、第1配列と第2配列との間の距離をより正しく導出することができる。また、人手によって設計された特徴表現の使用に依存することなく、動的時間伸縮法と比べてより複雑な特徴表現を導出及び使用可能な配列整列を実現することができる。 By using the mathematical model learned in this way, the correspondence between each element of the first feature array and each element of the second feature array is more correctly identified, and the first array and the second array are used. The distance between and can be derived more correctly. In addition, it is possible to derive more complicated feature representations and realize usable sequence alignment as compared with the dynamic time expansion / contraction method, without depending on the use of manually designed feature representations.
<制約関数値導出部23>
制約関数値導出部23は、重み行列を注意機構21から取得する。制約関数値導出部23は、重み行列を使用して、制約関数値を導出する。制約関数値導出部23は、単調性制約と連続性制約とのうちの少なくとも一方を満たす度合いが大きいほど制約関数値が小さくなるように、制約関数値を導出する。制約関数値導出部23は、制約関数値を更新部24に出力する。
<Constraint function
The constraint function
符号化部20と注意機構21とを含む数理モデルは、制約関数値が最小化されることによって、第1特徴配列の各要素と第2特徴配列の各要素との間の対応関係が単調性制約と連続性制約とのうちの少なくとも一方を満たす重み行列を導出するように学習される。
In the mathematical model including the coding unit 20 and the
制約関数値導出部23の処理の詳細は、以下の通りである。
重み行列は、第1特徴配列の各要素と第2特徴配列の各要素とが対応関係にある確率を表す行列であり、対応関係そのものではない。従って、単調性制約と連続性制約とのうちの少なくとも一方が満たされる度合いに関して、度合いを重み行列から直接評価することはできない。
The details of the processing of the constraint function
The weight matrix is a matrix representing the probability that each element of the first feature array and each element of the second feature array have a correspondence relationship, and is not the correspondence relationship itself. Therefore, the degree to which at least one of the monotonic constraint and the continuity constraint is satisfied cannot be evaluated directly from the weight matrix.
単調性制約と連続性制約とのうちの少なくとも一方が満たされる度合いを評価するために、対応関数のような形に重み行列を変換する必要がある。この対応関数は、例えば、第2特徴配列の各要素の添字を独立変数とし、第2特徴配列の各要素の添字との対応関係にある第1特徴配列の要素の添字を従属変数とした関数である。 In order to evaluate the degree to which at least one of the monotonicity constraint and the continuity constraint is satisfied, it is necessary to transform the weight matrix into a form like a corresponding function. This correspondence function is, for example, a function in which the subscript of each element of the second feature array is an independent variable and the subscript of the element of the first feature array that corresponds to the subscript of each element of the second feature array is a dependent variable. Is.
そこで、制約関数値導出部23は、重み行列と所定の等差数列との積を、対応配列として導出する。等差数列とは、隣り合う要素ごとに共通の差を持つ数列である。
Therefore, the constraint function
図3は、第1実施形態における、対応配列の例を示す図である。図3における上側には、単調性制約と連続性制約とが満たされた場合について、重み行列の例と、等差数列の例と、対応配列の例とが表されている。図3における下側には、単調性制約と連続性制約とが満たされていない場合について、重み行列の例と、等差数列の例と、対応配列の例とが表されている。すなわち、等号の左辺には、重み行列と等差数列「[1,2,3,4]T」との積が表されている。重み行列の各行は正規化済みであり、重み行列の各行では要素の合計が1である。等号の右辺には、対応配列が表されている。 FIG. 3 is a diagram showing an example of a corresponding sequence in the first embodiment. On the upper side in FIG. 3, an example of a weight matrix, an example of an arithmetic progression, and an example of a corresponding array are shown for the case where the monotonicity constraint and the continuity constraint are satisfied. On the lower side in FIG. 3, an example of a weight matrix, an example of an arithmetic progression, and an example of a corresponding array are shown for the case where the monotonicity constraint and the continuity constraint are not satisfied. That is, on the left side of the equal sign, the product of the weight matrix and the arithmetic progression "[1,2,3,4] T " is represented. Each row of the weight matrix has been normalized, and each row of the weight matrix has a sum of elements of 1. The corresponding array is shown on the right side of the equal sign.
等差数列を用いて導出された対応配列の添字は、第2特徴配列の各要素の添字(番号)を表す。対応配列の要素である数値は、第2特徴配列の各要素との対応関係にある第1特徴配列の要素の添字(番号)を表す。なお、対応配列の要素である数値は、第2特徴配列の各要素との対応関係にある第1特徴配列の要素の添字に比例する数値を表してもよい。 The subscript of the corresponding array derived using the arithmetic progression represents the subscript (number) of each element of the second feature array. The numerical value which is an element of the corresponding array represents the subscript (number) of the element of the first feature array which has a correspondence relationship with each element of the second feature array. The numerical value that is an element of the corresponding array may represent a numerical value that is proportional to the subscript of the element of the first feature array that has a corresponding relationship with each element of the second feature array.
図3では、重み行列と等差数列とを使用して、対応配列が導出されている。例えば、図3における上側に表された例では、第2特徴配列の1番目の要素が第1特徴配列の1番目の要素との対応関係にあることを、対応配列が表している。第2特徴配列の2番目の要素が第1特徴配列の2番目の要素との対応関係にあることを、対応配列が表している。第2特徴配列の3番目の要素が第1特徴配列の2番目の要素との対応関係にあることを、対応配列が表している。 In FIG. 3, a corresponding array is derived using a weight matrix and an arithmetic progression. For example, in the example shown on the upper side in FIG. 3, the corresponding array represents that the first element of the second feature array has a correspondence relationship with the first element of the first feature array. The corresponding array represents that the second element of the second feature array has a correspondence with the second element of the first feature array. The correspondence array represents that the third element of the second feature array has a correspondence with the second element of the first feature array.
第2特徴配列の4番目の要素との対応関係にある第1特徴配列の要素の添字は、整数を用いて表されているのではなく、実数を用いて「3.6」と表されている。このような対応配列が使用されることによって、単調性制約と連続性制約とのうちの少なくとも一方が満たされる度合いを評価することが可能になる。 The subscripts of the elements of the first feature array, which correspond to the fourth element of the second feature array, are not represented using integers, but are represented as "3.6" using real numbers. There is. By using such a corresponding array, it becomes possible to evaluate the degree to which at least one of the monotonic constraint and the continuity constraint is satisfied.
対応配列を使用して導出される制約関数値は、単調性制約と連続性制約とのうちの少なくとも一方が満たされる度合いが大きいほど小さくなる必要がある。なお、勾配法を使用して学習装置2が数理モデルを学習するために、重み行列又は対応配列に対して制約関数値が微分可能であることが望ましい。また、より高速な学習を可能とするために、制約関数値の導出の並列化が容易であることが望ましい。
The constraint function value derived using the corresponding array needs to be smaller as the degree to which at least one of the monotonic constraint and the continuity constraint is satisfied becomes larger. In order for the
制約関数値導出部23は、単調性制約関数値と連続性制約関数値とのうちの少なくとも一方を、制約関数値として導出する。
The constraint function
<単調性制約関数値>
制約関数値導出部23は、対応配列の各要素について、対応配列の要素の1個前の要素と対応配列の要素との大きさを比較することによって、局所的な単調性制約の関数値(以下「局所単調性制約関数値」という。)を導出する。局所単調性制約関数値は、対応配列の要素の1個前の要素が対応配列の要素よりも大きい場合、これら2個の要素の差の絶対値となる。局所単調性制約関数値は、対応配列の要素の1個前の要素が対応配列の要素以下である場合、0となる。
<Monotonic constraint function value>
The constraint function
制約関数値導出部23は、対応配列における全ての要素に関する全ての局所単調性制約関数値の総和又は平均を導出する。制約関数値導出部23は、局所単調性制約関数値の総和又は平均を、単調性制約関数値として更新部24に出力する。
The constraint function
ここで、重み行列は「P∈RW×W」と表記される。特徴配列の長さは「W」と表記される。対応配列は「F∈RW×1」と表記される。「F」のi番目の要素は「fi」と表記される。従って、単調性制約関数値は、式(6)のように表される。 Here, the weight matrix is expressed as "P ∈ R W × W ". The length of the feature array is written as "W". The corresponding array is written as "F ∈ R W × 1 ". The i -th element of "F" is written as "fi". Therefore, the monotonic constraint function value is expressed by Eq. (6).
ここで、「f0」は0である。畳み込みニューラルネットワークのライブラリを使用して式(6)が実装されることによって、単調性制約関数値がより高速に導出される。 Here, "f 0 " is 0. By implementing equation (6) using a library of convolutional neural networks, the monotonic constraint function value is derived at a higher speed.
図4は、第1実施形態における、単調性制約関数値の導出例を示す図である。図4における上側には、単調性制約と連続性制約とが満たされた場合について、単調性制約関数値の導出例が表されている。図4における下側には、単調性制約と連続性制約とが満たされていない場合について、単調性制約関数値の導出例が表されている。 FIG. 4 is a diagram showing an example of deriving the monotonic constraint function value in the first embodiment. On the upper side in FIG. 4, an example of deriving the monotonicity constraint function value is shown for the case where the monotonicity constraint and the continuity constraint are satisfied. On the lower side in FIG. 4, an example of deriving the monotonicity constraint function value is shown for the case where the monotonicity constraint and the continuity constraint are not satisfied.
図4には、左側から順に、対応配列の例と、フィルタの例と、対応配列において隣り合う2個の要素の差と、局所単調性制約関数値の例と、単調性制約関数値の例とが表されている。図4において、丸印に「×」の記号は畳み込みを表す。「損失」は単調性制約関数値を表す。対応配列が単調性制約を満たす度合いが大きいほど、より小さい単調性制約関数値が導出される。対応配列が単調性制約を満たす度合いが小さいほど、より大きい単調性制約関数値が導出される。 In FIG. 4, in order from the left side, an example of a corresponding array, an example of a filter, an example of the difference between two adjacent elements in the corresponding array, an example of a local monotonic constraint function value, and an example of a monotonic constraint function value. Is expressed. In FIG. 4, the symbol “x” in the circle indicates convolution. "Loss" represents a monotonic constraint function value. The greater the degree to which the corresponding array satisfies the monotonic constraint, the smaller the monotonic constraint function value is derived. The smaller the degree to which the corresponding array satisfies the monotonic constraint, the larger the monotonic constraint function value is derived.
図4において、対応配列とフィルタ「[1,-1]T」との畳み込みの結果として、対応配列において隣り合う2個の要素の差が導出される。制約関数値導出部23は、隣り合う2個の要素の差の配列に対して、「ReLU」を活性化関数として適用する。このようにして、局所単調性制約関数値が導出される。局所単調性制約関数値の配列における全ての要素の平均が導出されることによって、式(6)のような単調性制約関数値が容易に導出される。
In FIG. 4, as a result of the convolution of the corresponding array and the filter "[1, -1] T ", the difference between two adjacent elements in the corresponding array is derived. The constraint function
なお、フィルタは、対応配列において位置が互いに近い2個の要素の差を導出可能な任意のフィルタでよい。例えば、「[1,0,-1]T」又は「[2,1,-1,-2]T」等のフィルタが、「[1,-1]T」の代わりに使用されてもよい。 The filter may be any filter capable of deriving the difference between two elements whose positions are close to each other in the corresponding array. For example, a filter such as "[1,0, -1] T " or "[2,1, -1, -2] T " may be used in place of "[1, -1] T ". ..
<連続性制約関数値>
制約関数値導出部23は、対応配列の各要素について、対応配列の要素の1個前の要素と対応配列の要素との差の絶対値を導出する。制約関数値導出部23は、所定の正数を、導出された絶対値から減算する。この所定の正数は、ハイパーパラメータであり、例えば、1、2又は3などの正の整数である。「1.5」などの実数がハイパーパラメータとして使用されてもよい。
<Continuity constraint function value>
The constraint function
制約関数値導出部23は、減算結果の数値と0とのうちの最大値を、局所的な連続性制約の関数値(以下「局所連続性制約関数値」という。)として導出する。制約関数値導出部23は、対応配列における全ての要素に関する全ての局所連続性制約関数値の総和又は平均を導出する。制約関数値導出部23は、局所連続性制約関数値の総和又は平均を、連続性制約関数値として更新部24に出力する。
The constraint function
重み行列は「P∈RW×W」と表記される。特徴配列の長さは「W」と表記される。対応配列は「F∈RW×1」と表記される。「F」のi番目の要素は「fi」と表記される。従って、連続性制約関数値は、式(7)のように表される。 The weight matrix is written as "P ∈ R W × W ". The length of the feature array is written as "W". The corresponding array is written as "F ∈ R W × 1 ". The i -th element of "F" is written as "fi". Therefore, the continuity constraint function value is expressed as in Eq. (7).
ここで、「f0」は0である。畳み込みニューラルネットワークのライブラリを使用して式(7)が実装されることによって、連続性制約関数値がより高速に導出される。 Here, "f 0 " is 0. By implementing the equation (7) using the library of the convolutional neural network, the continuity constraint function value is derived at a higher speed.
図5は、第1実施形態における、連続性制約関数値の導出例を示す図である。図5における上側には、単調性制約と連続性制約とが満たされた場合について、連続性制約関数値の導出例が表されている。図5における下側には、単調性制約と連続性制約とが満たされていない場合について、連続性制約関数値の導出例が表されている。 FIG. 5 is a diagram showing an example of deriving the continuity constraint function value in the first embodiment. On the upper side in FIG. 5, an example of deriving the continuity constraint function value is shown for the case where the monotonicity constraint and the continuity constraint are satisfied. On the lower side in FIG. 5, an example of deriving the continuity constraint function value is shown for the case where the monotonicity constraint and the continuity constraint are not satisfied.
図4には、左側から順に、対応配列の例と、フィルタの例と、所定の正数の例と、対応配列において隣り合う2個の要素の差の絶対値から所定の正数が減算された結果と、局所連続性制約関数値の例と、連続性制約関数値の例とが表されている。図5において、丸印に「×」の記号は畳み込みを表す。「損失」は、連続性制約関数値を表す。 In FIG. 4, in order from the left side, an example of a corresponding array, an example of a filter, an example of a predetermined positive number, and an example of a predetermined positive number are subtracted from the absolute value of the difference between two adjacent elements in the corresponding array. The results, an example of the local continuity constraint function value, and an example of the continuity constraint function value are shown. In FIG. 5, the symbol “x” in the circle indicates convolution. "Loss" represents a continuity constraint function value.
図5において、対応配列とフィルタ「[-1,1]T」との畳み込みによって、対応配列において隣り合う2個の要素の差が導出される。制約関数値導出部23は、隣り合う2個の要素の差の配列における各要素の絶対値を導出する。制約関数値導出部23は、所定の正数(図5では、1)を、導出された絶対値から減算する。制約関数値導出部23は、減算結果の配列に対して、「ReLU」を活性化関数として適用する。このようにして、局所連続性制約関数値が導出される。局所連続性制約関数値の配列における全ての要素の平均が導出されることによって、式(7)のような連続性制約関数値が容易に導出される。
In FIG. 5, the convolution of the corresponding array and the filter "[-1,1] T " derives the difference between two adjacent elements in the corresponding array. The constraint function
なお、フィルタは、対応配列において位置が互いに近い2個の要素の差を導出可能な任意のフィルタでよい。例えば、「[1,0,-1]T」又は「[2,1,-1,-2]T」等のフィルタが、「[1,-1]T」の代わりに使用されてもよい。 The filter may be any filter capable of deriving the difference between two elements whose positions are close to each other in the corresponding array. For example, a filter such as "[1,0, -1] T " or "[2,1, -1, -2] T " may be used in place of "[1, -1] T ". ..
図5に表されているように、対応配列が連続性制約を満たす度合いが大きいほど、より小さい連続性制約関数値が導出される。対応配列が連続性制約を満たす度合いが小さいほど、より大きい連続性制約関数値が導出される。 As shown in FIG. 5, the greater the degree to which the corresponding array satisfies the continuity constraint, the smaller the continuity constraint function value is derived. The smaller the degree to which the corresponding array satisfies the continuity constraint, the larger the continuity constraint function value is derived.
<更新部24>
更新部24は、目的関数値を目的関数値導出部22から取得する。更新部24は、制約関数値を制約関数値導出部23から取得する。更新部24は、目的関数値と制約関数値とに基づいて学習処理を実行する。学習処理は、特定の学習処理に限定されない。更新部24は、制約関数値と目的関数値との加重総和又は加重平均が可能な限り小さくなるように(例えば、最小になるように)、符号化部20と注意機構21とを含む数理モデルのパラメータを更新する。更新部24は、所定の外部装置(不図示)に学習済の数理モデル(学習結果)を出力する。
<Update
The
以上のように、学習段階において、注意機構21は、第1配列に基づく第1特徴配列と第2配列に基づく第2特徴配列とを用いて、第1特徴配列と第2特徴配列との各要素が対応関係にある確率を表す行列である重み行列を生成する。目的関数値導出部22は、同じクラスに第1配列と第2配列とが属するか否かを表すラベルと第1特徴配列と第2特徴配列とに応じた値である目的関数値を、重み行列に基づいて導出する。制約関数値導出部23は、単調性制約と連続性制約とのうちの少なくとも一方を表す制約関数値を、重み行列に基づいて導出する。更新部24は、目的関数値と制約関数値とに基づいて所定の学習処理を実行することによって学習結果を生成する。目的関数値は、例えば、第1特徴配列と第2特徴配列との間の差分又は類似度と、ラベルとに応じた値である。更新部24は、数理モデルを更新する。
As described above, in the learning stage, the
学習段階において更新された数理モデルは、実行段階において推論処理の実行に使用される。実行段階において、注意機構11は、第1配列に基づく第1特徴配列と第2配列に基づく第2特徴配列とを用いて、第1特徴配列と第2特徴配列との各要素が対応関係にある確率を表す行列である重み行列を生成する。照合部12は、第1特徴配列と第2特徴配列と重み行列とに基づいて、第1配列と第2配列との間の距離を導出する。推論部13は、距離に基づいて所定の推論処理を実行することによって推論結果を生成する。
The mathematical model updated in the learning stage is used to execute the inference process in the execution stage. At the execution stage, the
このように、単調性制約と連続性制約とのうちの少なくとも一方を表す制約関数値を用いて学習された数理モデルを用いて符号化部が特徴配列を導出することによって、有効に働く重み行列を注意機構が特徴配列に基づいて生成する。 In this way, a weight matrix that works effectively by the coding unit deriving a feature array using a mathematical model trained using a constraint function value that represents at least one of a monotonic constraint and a continuity constraint. Is generated by the attention mechanism based on the feature array.
これによって、人手によって設計された特徴表現の使用に依存することなく、より複雑な特徴表現を導出及び使用可能であると同時に、単調で連続的な対応関数を導出及び使用可能な配列整列を実現することが可能である。人手によって設計された特徴表現の使用に依存することなく、より複雑な特徴表現を実現することが可能である。また、推論精度の向上と学習時間の短縮とを両立させることが可能である。 This makes it possible to derive and use more complex feature representations without relying on the use of manually designed feature representations, while at the same time deriving and using monotonous and continuous correspondence functions for array alignment. It is possible to do. It is possible to realize more complicated feature representations without relying on the use of manually designed feature representations. In addition, it is possible to improve the inference accuracy and shorten the learning time at the same time.
学習装置2、学習方法及びプログラムによれば、注意機構11が単調で連続的な対応関数を導出できるように、更新部24が数理モデルを学習する際に数理モデルの学習を誘導(ガイド)することが可能になる。学習済の数理モデルにおける注意機構11が使用されることによって、照合又は分類などの応用問題において、配列間の距離又は類似度を正しく導出することが可能である。異なるクラスに属する配列であるか否かを正しく推論することが可能である。また、注意機構11が十分な性能を提供できるようになるまでの学習時間(数理モデルの学習に必要とされる時間)を短縮することが可能になる。
According to the
(第2実施形態)
第2実施形態は、音声等の連続データの合成又は変換などの応用問題に学習方法及び推論方法を適用するための実施形態である。音声合成とは、人間の音声を人工的に作り出すことであり、例えば、音声を文章から合成することである。音声変換とは、個人の音声を別の個人又はキャラクタの音声に変換することである。
(Second Embodiment)
The second embodiment is an embodiment for applying a learning method and an inference method to an applied problem such as synthesis or conversion of continuous data such as voice. Speech synthesis is the artificial creation of human speech, for example, the synthesis of speech from text. Speech conversion is the conversion of an individual's speech into the speech of another individual or character.
なお、連続データとなるように不連続データ(例えば、手書き署名)が予め補正されるのであれば、第2実施形態における学習方法及び推論方法を不連続データに対して使うことは可能である。 If the discontinuous data (for example, a handwritten signature) is corrected in advance so as to be continuous data, the learning method and the inference method in the second embodiment can be used for the discontinuous data.
第2実施形態は、学習段階と実行段階とに分けられる。学習段階では、学習装置は、学習データを使用して、多数のパラメータを持つ数理モデルを学習する。学習装置は、数理モデルのパラメータの数値を決定する。実行段階では推論装置は、学習済の数理モデルを使用して、所定の目的(例えば、音声合成、音声変換)のタスクを実行する。 The second embodiment is divided into a learning stage and an execution stage. In the learning stage, the learning device uses the training data to train a mathematical model with many parameters. The learning device determines the numerical values of the parameters of the mathematical model. At the execution stage, the inference device uses the trained mathematical model to perform a task of a predetermined purpose (for example, speech synthesis, speech conversion).
まず、実行段階における、音声合成又は音声変換などの応用問題に適用される推論方法について説明する。 First, an inference method applied to an applied problem such as speech synthesis or speech conversion in the execution stage will be described.
図6は、第2実施形態における、推論装置3の構成例を示す図である。音声合成では、第1配列の要素は、例えば、文章の各単語の特徴を表す数値ベクトルである。文章の各単語の特徴は、例えば、単語のOne-Hotベクトルである。第2配列の要素は、例えば、音声の各時刻又は各フレームの特徴を表す数値ベクトルである。
FIG. 6 is a diagram showing a configuration example of the
音声変換では、第1配列の要素は、例えば、音声の各時刻又は各フレームの特徴を表す数値ベクトルである。音声の各時刻又は各フレームの特徴は、例えば、所定の抽出方法(参考文献1:Masanori Morise, Fumiya Yokomori, Kenji Ozawa, "WORLD: A vocoder-based high-quality speech synthesis system for real-time applications, " IEICE Trans. Inf. Syst. 99-D (7): 1877-1884 (2016))を用いて抽出された、メルケプストラム係数と対数F0パターンとを含む多次元ベクトルである。第2配列の要素は、例えば、第1配列の音声の個人とは別の個人又はキャラクタの音声における、各時刻又は各フレームの特徴を表す数値ベクトルである。 In speech conversion, the elements of the first array are, for example, numerical vectors representing the characteristics of each time or frame of speech. The characteristics of each time or frame of speech are, for example, a predetermined extraction method (Reference 1: Masanori Morise, Fumiya Yokomori, Kenji Ozawa, "WORLD: A vocoder-based high-quality speech synthesis system for real-time applications," It is a multidimensional vector containing a Melkeptrum coefficient and a logarithmic F0 pattern extracted using "IEICE Trans. Inf. Syst. 99-D (7): 1877-1884 (2016)). The elements of the second array are, for example, numerical vectors representing the characteristics of each time or each frame in the voice of an individual or character different from the individual voice of the first array.
推論装置3は、第1符号化部30と、第2符号化部31と、注意機構32と、復号化部33と、推論部34とを備える。
The
第1符号化部30は、第1配列を入力として取得する。第1符号化部30は、第1配列に対する符号化処理を例えば1回だけ実行することによって。第1特徴配列を導出する。第1符号化部30は、第1特徴配列を注意機構32と復号化部33とに出力する。
The
第2符号化部31は、1個前の時刻における第2配列の要素を、復号化部33から取得する。第2符号化部31は、1個前の時刻における第2配列の要素に対する符号化処理を実行することによって、1個前の時刻における第2特徴配列の要素を導出する。第2符号化部31は、1個前の時刻における第2特徴配列の要素を、注意機構32に出力する。
The
注意機構32は、第1特徴配列を、第1符号化部30から取得する。注意機構32は、1個前の時刻における第2特徴配列の要素を、第2符号化部31から取得する。注意機構32は、1個前の時刻における第2特徴配列の要素と第1特徴配列の各要素とを使用して、現在の時刻における第2配列の要素に対する第1特徴配列の各要素の重みを導出する。注意機構32は、現在の時刻における第2配列の要素に対する第1特徴配列の各要素の重みを、重み行列として復号化部33に出力する。
The
復号化部33は、第1特徴配列を第1符号化部30から取得する。復号化部33は、現在の時刻における第2配列の要素に対する第1特徴配列の各要素の重みを、重み行列として注意機構32から取得する。復号化部33は、現在の時刻における第2配列の要素に対する第1特徴配列の各要素の重みと、第1特徴配列とに基づいて、現在の時刻における第2配列の要素を導出する。復号化部33は、現在の時刻における第2配列の要素を、第2符号化部31と推論部34とに出力する。なお、復号化部33は、現在の時刻における第2配列の要素を、所定の外部装置(不図示)に出力してもよい。
The
第2符号化部31は、現在の時刻における第2配列の要素を、復号化部33から取得する。第2符号化部31は、現在の時刻における第2配列の要素を使用して、現在の時刻における第2特徴配列の要素を導出する。第2符号化部31は、現在の時刻における第2特徴配列の要素を、注意機構32に出力する。
The
このように、信号が第2符号化部31から出発し、注意機構32と復号化部33とを信号が経由し、第2符号化部31に信号が再び戻るという循環が、推論装置3に存在する。最初の時刻において第2配列の要素が初期化されてから、初期化された第2配列の要素が第2符号化部31に入力され、最後の時刻において第2配列の要素が復号化部33から出力されるまでの単位時間ごとに、この循環における推論処理が繰り返される。
In this way, the
注意機構32は、第2配列の各要素に対する第1特徴配列の各要素の重みを全て含む行列を、重み行列として復号化部33に出力する。また、復号化部33は、全ての時刻における第2配列の各要素を、第2配列として推論部34に出力する。
The
推論部34は、第2配列を、復号化部33から取得する。推論部34は、第2配列に基づいて推論結果を生成する。音声合成又は音声変換等の応用問題では、推論結果は、音声信号である。推論部34は、所定の外部装置(不図示)に推論結果を出力する。
The
推論装置3の機能部の詳細を説明する。
<第1符号化部30>
第1符号化部30は、第1配列を入力として取得する。第1符号化部30は、第1配列を使用して、数値又は数値ベクトルを要素とする配列を、第1特徴配列として導出する。例えば、第1符号化部30は、参考文献2(Jonathan Shen, Ruoming Pang, Ron J. Weiss, Mike Schuster, Navdeep Jaitly,Zongheng Yang, Zhifeng Chen, Yu Zhang, Yuxuan Wang, RJ-Skerrv Ryan, Rif A. Saurous, Yannis Agiomyrgiannakis, and Yonghui Wu, "Natural TTS synthesis by conditioning wavenet on MEL spectrogram predictions," In ICASSP, pp.4779-4783, 2018.)の人工ニューラルネットワークを使用して、第1特徴配列を第1配列から導出する。第1符号化部30は、人工ニューラルネットワークのパラメータを、学習段階において学習データを使用して決定する。第1符号化部30は、第1特徴配列を注意機構32と復号化部33に出力する。
The details of the functional part of the
<
The
第1符号化部30の処理の詳細は、以下の通りである。
第1配列は、例えば、「1×N×512」のテンソルである。「N」は配列の長さを表す。「512」は、配列の要素の次元数の例である。第1符号化部30は、第1配列を人工ニューラルネットワークに入力する。
The details of the processing of the
The first sequence is, for example, a "1 x N x 512" tensor. "N" represents the length of the array. "512" is an example of the number of dimensions of the elements of the array. The
人工ニューラルネットワークは、例えば、3個の「1×5×512」の畳み込み層と、1個の双方向長短期記憶(Bidirectional Long Short-Term Memory : BiLSTM)(以下「双方向LSTM」という。)とを備える。各畳み込み層の直後にバッチ正規化層が備えられる。バッチ正規化層の直後において、活性化関数としてReLU層が備えられる。双方向LSTMは、合計512個の隠れユニットを有する。第1符号化部30の双方向LSTMは、数値又は数値ベクトルを要素とする配列を第1特徴配列として、注意機構32と復号化部33とに出力する。
The artificial neural network has, for example, three "1 x 5 x 512" convolution layers and one bidirectional long short-term memory (BiLSTM) (hereinafter referred to as "bidirectional LSTM"). And. Immediately after each convolution layer is a batch normalization layer. Immediately after the batch normalization layer, a ReLU layer is provided as an activation function. The bidirectional LSTM has a total of 512 hidden units. The bidirectional LSTM of the
<第2符号化部31>
第2符号化部31は、第2配列を復号化部33から取得する。1個前の時刻における第2配列の要素を、復号化部33から取得する。第2符号化部31は、1個前の時刻における第2配列の要素を使用して、1個前の時刻における第2特徴配列の要素として、数値又は数値ベクトルを導出する。数値又は数値ベクトルの導出には、例えば、上述の参考文献2の人工ニューラルネットワークを使用することができる。人工ニューラルネットワークのパラメータは、学習段階で学習データを使用して決定される。第2符号化部31は、第2特徴配列を注意機構32に出力する。
<
The
第2符号化部31の処理の詳細は、以下の通りである。
1個前の時刻における第2配列の各要素は、例えば、512次元の数値ベクトルである。第2符号化部31は、1個前の時刻における第2配列の各要素を、人工ニューラルネットワークに入力する。この人工ニューラルネットワークは、例えば、2個の全結合層を備える。各全結合層は256個の隠れユニットを有する。各全結合層の直後には、活性化関数としてReLU層が備えられる。最後の全結合層は、1個前の時刻における第2特徴配列の要素として、数値又は数値ベクトルを注意機構32に出力する。
The details of the processing of the
Each element of the second array at the previous time is, for example, a 512-dimensional numerical vector. The
<注意機構32>
注意機構32は、第1特徴配列を第1符号化部30から取得する。注意機構32は、第2特徴配列を第2符号化部31から取得する。注意機構32は、1個前の時刻における第2特徴配列の要素と、第1特徴配列の各要素とを使用して、現在の時刻に対する第2配列の要素に対する第1特徴配列の各要素の重みを導出する。注意機構32として、例えば、人工ニューラルネットワークが使用されてもよいし、人工ニューラルネットワーク以外の数理モデル(例えば、線形回帰モデル、多項式回帰モデル、ロジスティック回帰モデル)が使用されてもよい。人工ニューラルネットワークのパラメータは、学習段階において、学習データを使用して決定される。注意機構32は、重み行列を復号化部33に出力する。
<
The
注意機構32の処理の詳細は、以下の通りである。
注意機構32は、1個前の時刻における第2特徴配列の要素である数値ベクトルと、第1特徴配列の各要素である数値ベクトルとを、数値ベクトルの次元方向に沿って連結する。注意機構32は、連結された数値ベクトルを、人工ニューラルネットワークに入力する。人工ニューラルネットワークは、例えば、3個の全結合層を備える。3個の全結合層において、1個目の全結合層が64個の隠れユニットを有し、2個目の全結合層が16個の隠れユニットを有し、3個目の全結合層が1個の隠れユニットを有する。1個目の全結合層の直後において、活性化関数としてReLU層が備えられる。2個目の全結合層の直後において、活性化関数としてReLU層が備えられる。3個目の全結合層は、1個の実数を出力する。
The details of the processing of the
注意機構32は、1個前の時刻における第2特徴配列の要素と第1特徴配列の各要素とを使用して導出された実数を全て含む配列を、Softmax関数によって正規化する。この導出された実数を全て含む配列とは、第1特徴配列の各要素に対して出力された実数を配列としてまとめたものである。導出された実数を全て含む配列は、第1特徴配列の要素数と同じ数の実数を含む。注意機構32は、現在の時刻における第2配列の要素に対する第1特徴配列の各要素の重みとして、正規化された実数を導出する。注意機構32は、現在の時刻における第2配列の要素に対する第1特徴配列の各要素の重みを全て含む行列を、重み行列として復号化部33に出力する。
<復号化部33>
復号化部33は、第1特徴配列を第1符号化部30から取得する。復号化部33は、重み行列を注意機構32から取得する。復号化部33は、現在の時刻における第2配列の要素に対する第1特徴配列の各要素の重みを使用して、第1特徴配列の各要素に対して重み付けを実行する。復号化部33は、重み付けによって得られた数値又は数値ベクトルを使用して、現在の時刻における第2配列の要素を導出する。例えば、復号化部33は、上述の参考文献2の人工ニューラルネットワークを使用して、現在の時刻における第2配列の要素を導出する。復号化部33は、人工ニューラルネットワークのパラメータを、学習段階において学習データを使用して決定する。復号化部33は、第2配列を推論部34に出力する。
<Decoding
The
復号化部33の処理の詳細は、以下の通りである。
復号化部33は、現在の時刻における第2配列の要素に対する第1特徴配列の各要素の重みを用いて、第1特徴配列の全ての要素の加重総和を導出する。これによって、現在の時刻における第2配列の要素との対応関係にある第1特徴配列の要素が、加重総和として特定(抽出又は生成)される。すなわち、現在の時刻における第2配列の要素との対応関係にある第1特徴配列の要素が整列される。従って、第1配列と第2配列との間に存在する局所的な変移と速度の変化とに関する非線形の時間変動が補償される。
The details of the processing of the
The
ここで、第1特徴配列は「X∈RW×K」と表記される。重み行列は「P∈RW×W」と表記される。現在の時刻における第2配列の要素に対する第1特徴配列の各要素の重みを全て含む行ベクトルは「pi∈R1×W」と表記される。現在の時刻は「i」と表記される。現在の時刻における第2配列の要素に対する第1特徴配列の全ての要素の加重総和は、「piX」と表記される。 Here, the first feature array is expressed as "X ∈ R W × K ". The weight matrix is written as "P ∈ R W × W ". The row vector containing all the weights of each element of the first feature array with respect to the elements of the second array at the current time is expressed as " pi ∈ R 1 × W ". The current time is written as "i". The weighted sum of all the elements of the first feature array with respect to the elements of the second array at the current time is expressed as " pi X".
加重総和は、例えば、128次元の数値ベクトルである。復号化部33は、この数値ベクトルを、人工ニューラルネットワークに入力する。人工ニューラルネットワークは、例えば、2個の双方向LSTMと1個の全結合層とを備える。各双方向LSTMは、1024個の隠れユニットを有する。全結合層は、数値又は数値ベクトルを、現在の時刻における第2配列の要素として推論部34に出力する。
The weighted sum is, for example, a 128-dimensional numerical vector. The
なお、復号化部33は、第2符号化部31から出力された第2特徴配列と、第1特徴配列と、重み行列とを使用して、第2配列を導出してもよい。この場合、復号化部33は、加重総和である数値ベクトルと、1個前の時刻における第2特徴配列の要素である数値ベクトルとを、数値ベクトルの次元方向に沿って連結する。復号化部33は、連結された数値ベクトルを、人工ニューラルネットワークに入力する。
The
<推論部34>
推論部34は、第2配列を復号化部33から取得する。推論部34は、第2配列に基づいて推論結果を生成する。音声合成又は音声変換等の応用問題では、推論結果は、音声信号である。推論部34は、例えば、所定の生成方法(参考文献3:Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew W. Senior, Koray Kavukcuoglu, "WaveNet: A generative model for raw audio, " SSW 2016: 125.)を用いて、第2配列に基づいて音声信号を生成する。推論部34は、所定の外部装置(不図示)に推論結果を出力する。
<
The
次に、学習段階における、音声合成又は音声変換などの応用問題に適用される学習方法について説明する。 Next, a learning method applied to an applied problem such as speech synthesis or speech conversion in the learning stage will be described.
図7は、第2実施形態における、学習装置4の構成例を示す図である。第2実施形態の学習段階では、音声合成又は音声変換などの応用問題に学習方法が適用される。学習装置4は、第1配列と正解配列とを入力として取得する。学習装置4は、目的関数値と制約関数値とを導出する。学習装置4は、目的関数値と制約関数値とに基づいて数理モデルを学習し、学習済の数理モデル(学習結果)を、所定の外部装置(不図示)に出力する。また、学習装置4は、学習済の数理モデルを、実行段階よりも前に推論装置3に出力する。
FIG. 7 is a diagram showing a configuration example of the
第1配列と正解配列とは、所定の目的(例えば、音声合成又は音声変換)のタスクを実行するための数理モデルを学習するために使用される学習データである。目的関数値と制約関数値とは、数理モデルを学習装置4が学習するために使用される。例えば、多数の学習データを使用して導出された目的関数値と制約関数値との加重総和又は加重平均が可能な限り小さくなるように(例えば、最小になるように)、学習装置4は、数理モデルのパラメータを更新する。学習データの数が多いほど、数理モデルの性能が向上する。学習データの数は、例えば、2万から3万程度である。
The first array and the correct array are training data used to train a mathematical model for performing a task of a predetermined purpose (for example, speech synthesis or speech conversion). The objective function value and the constraint function value are used for the
学習装置4は、第1符号化部40と、第2符号化部41と、注意機構42と、復号化部43と、目的関数値導出部44と、制約関数値導出部45と、更新部46とを備える。
The
第1符号化部40は、第1配列を入力として取得する。第1符号化部40は、第1配列に対する符号化処理を例えば1回だけ実行することによって。第1特徴配列を導出する。第1符号化部40は、第1特徴配列を注意機構42と復号化部43とに出力する。
The
第2符号化部41は、1個前の時刻における第2配列の要素を、復号化部43から取得する。第2符号化部41は、1個前の時刻における第2配列の要素に対する符号化処理を実行することによって、1個前の時刻における第2特徴配列の要素を導出する。
The
注意機構42は、第1特徴配列を、第1符号化部40から取得する。注意機構42は、1個前の時刻における第2特徴配列の要素を、第2符号化部41から取得する。注意機構42は、1個前の時刻における第2特徴配列の要素と第1特徴配列の各要素とを使用して、現在の時刻における第2配列の要素に対する第1特徴配列の各要素の重みを導出する。注意機構32は、現在の時刻における第2配列の要素に対する第1特徴配列の各要素の重みを、重み行列として復号化部43に出力する。
The
復号化部43は、第1特徴配列を第1符号化部40から取得する。復号化部43は、現在の時刻における第2配列の要素に対する第1特徴配列の各要素の重みを、重み行列として注意機構42から取得する。復号化部43は、現在の時刻における第2配列の要素に対する第1特徴配列の各要素の重みと、第1特徴配列とに基づいて、現在の時刻における第2配列の要素を導出する。復号化部43は、現在の時刻における第2配列の要素を、第2符号化部41と目的関数値導出部44とに出力する。
The
第2符号化部41は、現在の時刻における第2配列の要素を、復号化部43から取得する。第2符号化部41は、現在の時刻における第2配列の要素を使用して、現在の時刻における第2特徴配列の要素を導出する。第2符号化部41は、現在の時刻における第2特徴配列の要素を、注意機構42に出力する。
The
このように、信号が第2符号化部41から出発し、注意機構42と復号化部43とを信号が経由し、第2符号化部41に信号が再び戻るという循環が、学習装置4に存在する。この循環では、最初の時刻において第2配列の要素が初期化されてから、初期化された第2配列の要素が第2符号化部41に入力され、最後の時刻において第2配列の要素が復号化部43から出力されるまでの単位時間ごとに、学習処理が繰り返される。
In this way, the
注意機構42は、第2配列の各要素に対する第1特徴配列の各要素の重みを全て含む行列を、重み行列として復号化部43に出力する。また、復号化部43は、全ての時刻における第2配列の各要素を、第2配列として第2符号化部41と目的関数値導出部44とに出力する。
The
目的関数値導出部44は、正解配列を入力として取得する。目的関数値導出部44は、第2配列を復号化部43から取得する。目的関数値導出部44は、正解配列と第2配列とに基づいて、目的関数値を導出する。目的関数値導出部44が目的関数値を導出する処理は、例えば1回だけ実行される。目的関数値導出部44は、目的関数値を更新部46に出力する。
The objective function
制約関数値導出部45は、重み行列を注意機構42から取得する。制約関数値導出部45は、重み行列を使用して、制約関数値を導出する。制約関数値導出部45が制約関数値を導出する処理は、例えば1回だけ実行される。制約関数値導出部45は、制約関数値を更新部46に出力する。
The constraint function
更新部46は、目的関数値を目的関数値導出部44から取得する。更新部46は、制約関数値を制約関数値導出部45から取得する。更新部46は、目的関数値と制約関数値とに基づいて学習処理を実行する。更新部46は、制約関数値と目的関数値との加重総和又は加重平均が可能な限り小さくなるように(例えば、最小になるように)、第1符号化部40と第2符号化部41と注意機構42と復号化部43とを含む数理モデルを更新する。更新部46は、所定の外部装置(不図示)に、学習済の数理モデル(学習結果)を出力する。
The
学習装置4の機能部の詳細を説明する。
<第1符号化部40>
第1符号化部40は、第1配列を入力として取得する。学習段階における第1符号化部40が実行する処理は、実行段階における第1符号化部30が実行する処理と同じである。第1符号化部40は、第1特徴配列を注意機構42と復号化部43に出力する。
The details of the functional unit of the
<
The
<第2符号化部41>
第2符号化部41は、第2配列を復号化部43から取得し、第2特徴配列を注意機構42に出力する。学習段階における第2符号化部41の処理は、実行段階における第2符号化部31の処理と同じである。なお、学習段階における第2符号化部41は、第2配列を入力として使用する代わりに、正解配列を入力として使用してもよい。この場合、第2配列に対して実行される全ての処理は、第2配列の代わりに使用される正解配列に対して実行される。
<
The
<注意機構42>
注意機構42は、第1特徴配列を第1符号化部40から取得する。注意機構42は、第2特徴配列を第2符号化部41から取得する。学習段階における注意機構42の処理は、実行段階における注意機構32の処理と同じである。注意機構42は、重み行列を復号化部43と制約関数値導出部45とに出力する。
<
The
<復号化部43>
復号化部43は、第1特徴配列を第1符号化部40から取得する。復号化部43は、重み行列を注意機構42から取得する。学習段階における復号化部43の処理は、実行段階における復号化部33の処理と同じである。復号化部43は、第2配列を目的関数値導出部44に出力する。
<Decoding
The
<目的関数値導出部44>
目的関数値導出部44は、正解配列を入力として取得する。目的関数値導出部44は、第2配列を復号化部43から取得する。目的関数値導出部44は、正解配列と第2配列との間の差分を導出する。目的関数値導出部44は、導出された差分が大きいほど値が大きくなるような目的関数値を導出する。目的関数値導出部44は、目的関数値を更新部46に出力する。
<Objective function
The objective function
目的関数値導出部44の処理の詳細は、以下の通りである。
目的関数値導出部44は、例えば、正解配列と第2配列との間の残差平方和(類似度)を、目的関数値として導出する。ここで、正解配列は「Z*」と表記される。第2配列は「Z」と表記される。従って、目的関数値は、式(8)のように表される。
The details of the processing of the objective function
The objective function
ここで、「||・||」は、L2ノルムを表す。 Here, "|| · ||" represents the L2 norm.
<制約関数値導出部45>
制約関数値導出部45は、重み行列を注意機構42から取得する。制約関数値導出部45は、重み行列を使用して、制約関数値を導出する。ここで、単調性制約と連続性制約とのうちの少なくとも一方を満たす度合いが大きいほど、制約関数値が小さくなるように、制約関数値は導出される。制約関数値導出部45は、制約関数値を更新部46に出力する。
<Constraint function
The constraint function
制約関数値が最小化されることによって、第1特徴配列の各要素と第2配列の各要素との間の対応関係が単調性制約と連続性制約とのうちの少なくとも一方を満たすという重み行列を導出するように数理モデルは学習される。この数理モデルは、第1符号化部40と、第2符号化部41と、注意機構42と、復号化部43とを含む。
A weight matrix in which the correspondence between each element of the first feature array and each element of the second array satisfies at least one of the monotonic constraint and the continuity constraint by minimizing the constraint function value. The mathematical model is trained to derive. This mathematical model includes a
制約関数値導出部45の処理の詳細は、以下の通りである。
重み行列とは、第1特徴配列の各要素と第2配列の各要素とが対応関係にある確率を表す行列である。重み行列は、対応関係そのものではない。従って、単調性制約と連続性制約とのうちの少なくとも一方が満たされる度合いを、重み行列からは直接評価することができない。
The details of the processing of the constraint function
The weight matrix is a matrix that represents the probability that each element of the first feature array and each element of the second array have a correspondence relationship. The weight matrix is not the correspondence itself. Therefore, the degree to which at least one of the monotonic constraint and the continuity constraint is satisfied cannot be directly evaluated from the weight matrix.
単調性制約と連続性制約とのうちの少なくとも一方が満たされる度合いを評価することができるようになるためには、重み行列が変換される必要がある。例えば、第2配列の各要素の時刻を独立変数とし、第2配列の各要素の時刻との対応関係にある第1特徴配列の要素の添字を従属変数とした関数(対応関数)のような形に、重み行列が変換される必要がある。このために、制約関数値導出部45は、重み行列と所定の等差数列との積を、対応配列として導出する。等差数列とは、各項(各要素)がその直前の項(要素)に一定数(公差)を加えて得られる数列である。
The weight matrix needs to be transformed in order to be able to evaluate the degree to which at least one of the monotonicity constraint and the continuity constraint is satisfied. For example, a function (correspondence function) in which the time of each element of the second array is an independent variable and the subscript of the element of the first feature array having a correspondence with the time of each element of the second array is a dependent variable. The weight matrix needs to be transformed into a form. For this purpose, the constraint function
例えば図3では、「[1,2,3,4]T」が等差数列である。等差数列を用いて導出された対応配列において、対応配列の添字は第2配列の各要素の時刻を表す。対応配列の要素である数値は、第2配列の各要素との対応関係にある第1特徴配列の要素の添字又は添字に比例する数値を表す。図3における上側に表された例では、第2配列の1番目の要素が、第1特徴配列の1番目の要素との対応関係にある。第2配列の2番目の要素が第1特徴配列の2番目の要素との対応関係にある。第2配列の3番目の要素が、第1特徴配列の2番目の要素との対応関係にあることを、対応配列が表している。第2配列の4番目の要素との対応関係にある第1特徴配列の要素の添字は、整数を用いて表されているのではなく、実数を用いて「3.6」と表されている。このような対応配列が使用されることによって、単調性制約と連続性制約とのうちの少なくとも一方が満たされる度合いを評価することが可能になる。 For example, in FIG. 3, "[1,2,3,4] T " is an arithmetic progression. In the corresponding array derived using the arithmetic progression, the subscript of the corresponding array represents the time of each element of the second array. The numerical value that is an element of the corresponding array represents a subscript or a numerical value proportional to the subscript of the element of the first feature array that has a corresponding relationship with each element of the second array. In the example shown on the upper side in FIG. 3, the first element of the second array has a correspondence relationship with the first element of the first feature array. The second element of the second array has a correspondence with the second element of the first feature array. The correspondence array indicates that the third element of the second array has a correspondence relationship with the second element of the first feature array. The subscripts of the elements of the first feature array that correspond to the fourth element of the second array are not represented using integers, but are represented as "3.6" using real numbers. .. By using such a corresponding array, it becomes possible to evaluate the degree to which at least one of the monotonic constraint and the continuity constraint is satisfied.
対応配列を使用して導出される制約関数値は、単調性制約と連続性制約とのうちの少なくとも一方が満たされる度合いが大きいほど値が小さくなる必要がある。なお、勾配法を使用して学習装置4が数理モデルを学習するために、重み行列又は対応配列に対して制約関数値が微分可能であることが望ましい。また、より高速な学習を可能にするために、制約関数値の導出の並列化が容易であることが望ましい。
The constraint function value derived using the corresponding array needs to become smaller as the degree to which at least one of the monotonic constraint and the continuity constraint is satisfied is larger. In order for the
制約関数値導出部45は、単調性制約関数値と連続性制約関数値とのうちの少なくとも一方を、制約関数値として導出する。
The constraint function
<単調性制約関数値>
第2実施形態における単調性制約関数値に関する説明は、第1実施形態における単調性制約関数値に関する説明と同様である。
<Monotonic constraint function value>
The description of the monotonic constraint function value in the second embodiment is the same as the description of the monotonic constraint function value in the first embodiment.
<連続性制約関数値>
第2実施形態における連続性制約関数値に関する説明は、第1実施形態における連続性制約関数値に関する説明と同様である。
<Continuity constraint function value>
The description of the continuity constraint function value in the second embodiment is the same as the description of the continuity constraint function value in the first embodiment.
<更新部46>
更新部46は、目的関数値を目的関数値導出部44から取得する。更新部46は、制約関数値を制約関数値導出部45から取得する。更新部46は、目的関数値と制約関数値とに基づいて学習処理を実行する。更新部46は、所定の外部装置(不図示)に、学習済の数理モデル(学習結果)を出力する。学習処理は、特定の学習処理に限定されない。
<Update
The
以上のように、注意機構42は、第1配列に基づく第1特徴配列と第2配列に基づく第2特徴配列とを用いて、第1特徴配列と第2特徴配列との各要素が対応関係にある確率を表す行列である重み行列を生成する。復号化部43は、現在の時刻における第2配列の要素に対する第1特徴配列の各要素の重みと、第1特徴配列とに基づいて、現在の時刻における第2配列の要素を導出する。目的関数値導出部44は、正解配列と第2配列とに応じた値である目的関数値を導出する。制約関数値導出部45は、重み行列に基づいて制約関数値を導出する。更新部46は、目的関数値と制約関数値とに基づいて所定の学習処理を実行することによって、第1符号化部40と第2符号化部41と注意機構42と復号化部43とを含む数理モデルのパラメータを更新し、学習結果を生成する。目的関数値は、例えば、正解配列と第2配列との間の差分又は残差平方和である。更新部46は、数理モデルを更新する。
As described above, the
学習段階において更新された数理モデルは、実行段階において推論処理の実行に使用される。実行段階において、注意機構32は、第1配列に基づく第1特徴配列と第2配列に基づく第2特徴配列とを用いて、第1特徴配列と第2特徴配列との各要素が対応関係にある確率を表す行列である重み行列を生成する。復号化部33は、第1特徴配列と重み行列とに基づいて、第2配列を導出する。推論部34は、第2配列に基づいて所定の推論処理を実行することによって推論結果を生成する。
The mathematical model updated in the learning stage is used to execute the inference process in the execution stage. At the execution stage, the
このように、単調性制約と連続性制約とのうちの少なくとも一方を表す制約関数値を用いて学習された数理モデルを用いて符号化部が特徴配列を導出することによって、有効に働く重み行列を注意機構が生成する。 In this way, a weight matrix that works effectively by the coding unit deriving a feature array using a mathematical model trained using constraint function values that represent at least one of a monotonic constraint and a continuity constraint. The attention mechanism produces.
これによって、人手によって設計された特徴表現の使用に依存することなく、音声合成又は音声変換などの応用問題に対して、より複雑な特徴表現を導出及び使用可能であると同時に、単調で連続的な対応関数を導出及び使用可能な配列整列を実現することが可能である。人手によって設計された特徴表現の使用に依存することなく、音声合成又は音声変換などの応用問題に対して、より複雑な特徴表現を実現することが可能である。また、音声合成又は音声変換などの推論精度の向上と学習時間の短縮とを両立させることが可能である。 This makes it possible to derive and use more complex feature representations for applied problems such as speech synthesis or speech conversion without relying on the use of manually designed feature representations, while at the same time being monotonous and continuous. It is possible to derive various corresponding functions and realize usable array alignment. It is possible to realize more complicated feature expressions for application problems such as speech synthesis or speech conversion without depending on the use of manually designed feature expressions. In addition, it is possible to achieve both improvement of inference accuracy such as speech synthesis or speech conversion and shortening of learning time.
図8は、各実施形態における、推論装置1のハードウェア構成例を示す図である。推論装置1の各機能部のうちの一部又は全部は、CPU(Central Processing Unit)等のプロセッサ100が、不揮発性の記録媒体(非一時的な記録媒体)を有する記憶部200に記憶されたプログラムを実行することにより、ソフトウェアとして実現される。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM(Read Only Memory)、CD-ROM(Compact Disc Read Only Memory)等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置などの非一時的な記録媒体である。通信部300は、推論装置1による処理結果を外部装置(不図示)に送信する。通信部300は、通信回線を経由してプログラムを受信してもよい。表示部400は、推論装置1による処理結果を表示する。表示部400は、例えば、液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイである。
FIG. 8 is a diagram showing a hardware configuration example of the
推論装置1の各機能部のうちの一部又は全部は、例えば、LSI(Large Scale Integration circuit)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)又はFPGA(Field Programmable Gate Array)等を用いた電子回路(electronic circuit又はcircuitry)を含むハードウェアを用いて実現されてもよい。なお、推論装置3のハードウェア構成例は、推論装置1のハードウェア構成例と同様である。
A part or all of each functional part of the
図9は、各実施形態における、学習装置2のハードウェア構成例を示す図である。学習装置2の各機能部のうちの一部又は全部は、CPU等のプロセッサ101が、不揮発性の記録媒体(非一時的な記録媒体)を有する記憶部201に記憶されたプログラムを実行することにより、ソフトウェアとして実現される。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置などの非一時的な記録媒体である。通信部301は、学習装置2による処理結果を外部装置(不図示)に送信する。通信部301は、通信回線を経由してプログラムを受信してもよい。表示部401は、学習装置2による処理結果を表示する。表示部401は、例えば、液晶ディスプレイ、有機ELディスプレイである。
FIG. 9 is a diagram showing a hardware configuration example of the
学習装置2の各機能部のうちの一部又は全部は、例えば、LSI、ASIC、PLD又はFPGA等を用いた電子回路(electronic circuit又はcircuitry)を含むハードウェアを用いて実現されてもよい。なお、学習装置4のハードウェア構成例は、学習装置2のハードウェア構成例と同様である。
A part or all of each functional part of the
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 Although the embodiment of the present invention has been described in detail with reference to the drawings, the specific configuration is not limited to this embodiment, and the design and the like within a range not deviating from the gist of the present invention are also included.
本発明は、学習装置及び推論装置に適用可能である。 The present invention is applicable to learning devices and inference devices.
1…推論装置、2…学習装置、3…推論装置、4…学習装置、10…符号化部、11…注意機構、12…照合部、13…推論部、20…符号化部、21…注意機構、22…目的関数値導出部、23…制約関数値導出部、24…更新部、30…第1符号化部、31…第2符号化部、32…注意機構、33…復号化部、34…推論部、40…第1符号化部、41…第2符号化部、42…注意機構、43…復号化部、44…目的関数値導出部、45…制約関数値導出部、46…更新部、100…プロセッサ、101…プロセッサ、200…記憶部、201…記憶部、300…通信部、301…通信部、400…表示部、401…表示部 1 ... Inference device, 2 ... Learning device, 3 ... Inference device, 4 ... Learning device, 10 ... Coding unit, 11 ... Attention mechanism, 12 ... Collation unit, 13 ... Inference unit, 20 ... Coding unit, 21 ... Caution Mechanism, 22 ... Objective function value derivation unit, 23 ... Constraint function value derivation unit, 24 ... Update unit, 30 ... First coding unit, 31 ... Second coding unit, 32 ... Attention mechanism, 33 ... Decoding unit, 34 ... Inference unit, 40 ... First coding unit, 41 ... Second coding unit, 42 ... Attention mechanism, 43 ... Decoding unit, 44 ... Objective function value derivation unit, 45 ... Constraint function value derivation unit, 46 ... Update unit, 100 ... Processor, 101 ... Processor, 200 ... Storage unit, 201 ... Storage unit, 300 ... Communication unit, 301 ... Communication unit, 400 ... Display unit, 401 ... Display unit
Claims (15)
同じクラスに前記第1配列と前記第2配列とが属するか否かを表すラベルと前記第1特徴配列と前記第2特徴配列とに応じた値である目的関数値を、前記重み行列に基づいて導出する目的関数値導出部と、
前記目的関数値に基づいて所定の学習処理を実行することによって学習結果を生成する更新部と
を備える学習装置。 It is a matrix representing the probability that each element of the first feature sequence and the second feature sequence has a correspondence relationship by using the first feature array based on the first sequence and the second feature sequence based on the second sequence. Attention mechanism to generate weight matrix and
A label indicating whether or not the first array and the second array belong to the same class, and an objective function value which is a value corresponding to the first feature array and the second feature array are based on the weight matrix. Objective function value derivation part to be derived from
A learning device including an update unit that generates a learning result by executing a predetermined learning process based on the objective function value.
請求項1に記載の学習装置。 In the objective function value derivation unit, the difference or similarity between the first feature array and the second feature array or between the second feature array and the feature array derived from the weight matrix is displayed on the label. Determine the objective function value so that it can be associated,
The learning device according to claim 1.
現在の時刻における前記第2配列の要素に対する前記第1特徴配列の各要素の重みと前記第1特徴配列とに基づいて、現在の時刻における前記第2配列の要素を導出する復号化部と、
正解配列と前記第2配列とに応じた値である目的関数値を導出する目的関数値導出部と、
前記目的関数値に基づいて所定の学習処理を実行することによって学習結果を生成する更新部と
を備える学習装置。 It is a matrix representing the probability that each element of the first feature sequence and the second feature sequence has a correspondence relationship by using the first feature array based on the first sequence and the second feature sequence based on the second sequence. Attention mechanism to generate weight matrix and
A decoding unit that derives the elements of the second array at the current time based on the weight of each element of the first feature array with respect to the elements of the second array at the current time and the first feature array.
An objective function value derivation unit that derives an objective function value that is a value corresponding to the correct array and the second array, and
A learning device including an update unit that generates a learning result by executing a predetermined learning process based on the objective function value.
を備え、
前記単調性制約は、前記第2配列の要素の添字の増加につれて、前記第2配列の要素との対応関係にある前記第1配列の要素の添字が減少しないという制約であり、
前記連続性制約は、前記第2配列において隣り合う要素の添字が連続している場合に、前記第2配列において隣り合う要素の添字との対応関係にある前記第1配列の要素の添字同士の差が所定の正値以下であるという制約であり、
前記更新部は、前記目的関数値と前記制約関数値とに基づいて所定の学習処理を実行することによって学習結果を生成する、
請求項1から請求項3のいずれか一項に記載の学習装置。 When there is a correspondence between the elements of the first array and the elements of the second array, a constraint function that derives a constraint function value representing at least one of a monotonic constraint and a continuity constraint based on the weight matrix. Equipped with a value derivator
The monotonic constraint is a constraint that the subscripts of the elements of the first array that correspond to the elements of the second array do not decrease as the subscripts of the elements of the second array increase.
The continuity constraint is that when the subscripts of adjacent elements in the second array are continuous, the subscripts of the elements of the first array that correspond to the subscripts of the adjacent elements in the second array It is a constraint that the difference is less than or equal to a predetermined positive value.
The update unit generates a learning result by executing a predetermined learning process based on the objective function value and the constraint function value.
The learning device according to any one of claims 1 to 3.
請求項4に記載の学習装置。 The constraint function value derivation unit reduces the constraint function value as the degree to which at least one of the monotonic constraint and the continuity constraint is satisfied is greater.
The learning device according to claim 4.
請求項4又は請求項5に記載の学習装置。 The constraint function value derivation unit derives the product of the weight matrix and a predetermined equality sequence as a corresponding array, and sums or sums all the local monotonic constraint function values for all the elements in the corresponding array. Derivation of the mean as the constraint function value of monotonicity,
The learning device according to claim 4 or 5.
請求項4又は請求項5に記載の学習装置。 The constraint function value derivation unit derives the product of the weight matrix and a predetermined equality sequence as a corresponding array, and for each element of the corresponding array, the element immediately preceding the element of the corresponding array and the corresponding array. The absolute value of the difference from the element is derived, a predetermined positive number is subtracted from the derived absolute value, and the maximum value of the numerical value of the subtraction result and 0 is derived as the function value of the local continuity constraint. Then, the sum or average of the function values of all the local continuity constraints for all the elements in the corresponding array is derived as the constraint function values of continuity.
The learning device according to claim 4 or 5.
前記第1特徴配列と前記第2特徴配列と前記重み行列とに基づいて、前記第1配列と前記第2配列との間の距離を導出する照合部と、
前記距離に基づいて所定の推論処理を実行することによって推論結果を生成する推論部と
を備える推論装置。 It is a matrix representing the probability that each element of the first feature sequence and the second feature sequence has a correspondence relationship by using the first feature array based on the first sequence and the second feature sequence based on the second sequence. Attention mechanism to generate weight matrix and
A collation unit for deriving the distance between the first array and the second array based on the first feature array, the second feature array, and the weight matrix.
An inference device including an inference unit that generates an inference result by executing a predetermined inference process based on the distance.
前記第1特徴配列と前記重み行列とに基づいて第2配列を導出する復号化部と、
前記第2配列に基づいて所定の推論処理を実行することによって推論結果を生成する推論部と
を備える推論装置。 It is a matrix representing the probability that each element of the first feature sequence and the second feature sequence has a correspondence relationship by using the first feature array based on the first sequence and the second feature sequence based on the second sequence. Attention mechanism to generate weight matrix and
A decoding unit that derives a second array based on the first feature array and the weight matrix,
An inference device including an inference unit that generates an inference result by executing a predetermined inference process based on the second array.
第1配列に基づく第1特徴配列と第2配列に基づく第2特徴配列とを用いて、前記第1特徴配列と前記第2特徴配列との各要素が対応関係にある確率を表す行列である重み行列を生成する注意ステップと、
同じクラスに前記第1配列と前記第2配列とが属するか否かを表すラベルと前記第1特徴配列と前記第2特徴配列とに応じた値である目的関数値を、前記重み行列に基づいて導出する目的関数値導出ステップと、
前記目的関数値に基づいて所定の学習処理を実行することによって学習結果を生成する更新ステップと
を含む学習方法。 It is a learning method executed by the learning device.
It is a matrix representing the probability that each element of the first feature sequence and the second feature sequence has a correspondence relationship by using the first feature array based on the first sequence and the second feature sequence based on the second sequence. Attention step to generate weight matrix and
A label indicating whether or not the first array and the second array belong to the same class, and an objective function value which is a value corresponding to the first feature array and the second feature array are based on the weight matrix. The objective function value derivation step to be derived from
A learning method including an update step that generates a learning result by executing a predetermined learning process based on the objective function value.
第1配列に基づく第1特徴配列と第2配列に基づく第2特徴配列とを用いて、前記第1特徴配列と前記第2特徴配列との各要素が対応関係にある確率を表す行列である重み行列を生成する注意ステップと、
前記第1特徴配列と前記第2特徴配列と前記重み行列とに基づいて、前記第1配列と前記第2配列との間の距離を導出する照合ステップと、
前記距離に基づいて所定の推論処理を実行することによって推論結果を生成する推論ステップと
を含む推論方法。 It is an inference method executed by an inference device.
It is a matrix representing the probability that each element of the first feature sequence and the second feature sequence has a correspondence relationship by using the first feature array based on the first sequence and the second feature sequence based on the second sequence. Attention step to generate weight matrix and
A collation step for deriving the distance between the first sequence and the second sequence based on the first feature sequence, the second feature sequence, and the weight matrix.
An inference method that includes an inference step that produces an inference result by performing a predetermined inference process based on the distance.
第1配列に基づく第1特徴配列と第2配列に基づく第2特徴配列とを用いて、前記第1特徴配列と前記第2特徴配列との各要素が対応関係にある確率を表す行列である重み行列を生成する注意ステップと、
現在の時刻における前記第2配列の要素に対する前記第1特徴配列の各要素の重みと前記第1特徴配列とに基づいて、現在の時刻における前記第2配列の要素を導出する復号化ステップと、
正解配列と前記第2配列とに応じた値である目的関数値を導出する目的関数値導出ステップと、
前記目的関数値に基づいて所定の学習処理を実行することによって学習結果を生成する更新ステップと
を含む学習方法。 It is a learning method executed by the learning device.
It is a matrix representing the probability that each element of the first feature sequence and the second feature sequence has a correspondence relationship by using the first feature array based on the first sequence and the second feature sequence based on the second sequence. Attention step to generate weight matrix and
A decoding step for deriving the elements of the second array at the current time based on the weight of each element of the first feature array with respect to the elements of the second array at the current time and the first feature array.
An objective function value derivation step for deriving an objective function value that is a value corresponding to the correct array and the second array, and
A learning method including an update step that generates a learning result by executing a predetermined learning process based on the objective function value.
第1配列に基づく第1特徴配列と第2配列に基づく第2特徴配列とを用いて、前記第1特徴配列と前記第2特徴配列との各要素が対応関係にある確率を表す行列である重み行列を生成する注意ステップと、
前記第1特徴配列と前記重み行列とに基づいて第2配列を導出する復号化ステップと、
前記第2配列に基づいて所定の推論処理を実行することによって推論結果を生成する推論ステップと
を含む推論方法。 It is an inference method executed by an inference device.
It is a matrix representing the probability that each element of the first feature sequence and the second feature sequence has a correspondence relationship by using the first feature array based on the first sequence and the second feature sequence based on the second sequence. Attention step to generate weight matrix and
A decoding step for deriving a second sequence based on the first feature array and the weight matrix,
An inference method including an inference step that generates an inference result by executing a predetermined inference process based on the second array.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020123246A JP7340199B2 (en) | 2020-07-17 | 2020-07-17 | Learning device, reasoning device, learning method, reasoning method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020123246A JP7340199B2 (en) | 2020-07-17 | 2020-07-17 | Learning device, reasoning device, learning method, reasoning method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022019422A true JP2022019422A (en) | 2022-01-27 |
JP7340199B2 JP7340199B2 (en) | 2023-09-07 |
Family
ID=80203648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020123246A Active JP7340199B2 (en) | 2020-07-17 | 2020-07-17 | Learning device, reasoning device, learning method, reasoning method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7340199B2 (en) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020505650A (en) * | 2017-05-11 | 2020-02-20 | 三菱電機株式会社 | Voice recognition system and voice recognition method |
JP2020046792A (en) * | 2018-09-18 | 2020-03-26 | Zホールディングス株式会社 | Information processor, information processing method and program |
-
2020
- 2020-07-17 JP JP2020123246A patent/JP7340199B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020505650A (en) * | 2017-05-11 | 2020-02-20 | 三菱電機株式会社 | Voice recognition system and voice recognition method |
JP2020046792A (en) * | 2018-09-18 | 2020-03-26 | Zホールディングス株式会社 | Information processor, information processing method and program |
Also Published As
Publication number | Publication date |
---|---|
JP7340199B2 (en) | 2023-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lo Bosco et al. | Deep learning architectures for DNA sequence classification | |
Iwana et al. | DTW-NN: A novel neural network for time series recognition using dynamic alignment between inputs and weights | |
Ariav et al. | An end-to-end multimodal voice activity detection using wavenet encoder and residual networks | |
Huang et al. | Unsupervised domain adaptation for speech emotion recognition using PCANet | |
Deng | An overview of deep-structured learning for information processing | |
Bluche et al. | A comparison of sequence-trained deep neural networks and recurrent neural networks optical modeling for handwriting recognition | |
Alkhouly et al. | Improving the performance of deep neural networks using two proposed activation functions | |
CN109460737A (en) | A kind of multi-modal speech-emotion recognition method based on enhanced residual error neural network | |
Ogunfunmi et al. | A primer on deep learning architectures and applications in speech processing | |
Passricha et al. | Convolutional support vector machines for speech recognition | |
Jahangir et al. | Convolutional neural network-based cross-corpus speech emotion recognition with data augmentation and features fusion | |
Kim et al. | Cross-modal distillation with audio–text fusion for fine-grained emotion classification using BERT and Wav2vec 2.0 | |
Roy et al. | A survey of classification techniques in speech emotion recognition | |
Roy et al. | Speech emotion recognition using neural network and wavelet features | |
Hidayatullah et al. | Attention-based cnn-bilstm for dialect identification on javanese text | |
Mohammed et al. | An overview for assessing a number of systems for estimating age and gender of speakers | |
Nazir et al. | A computer-aided speech analytics approach for pronunciation feedback using deep feature clustering | |
Punithavathi et al. | [Retracted] Empirical Investigation for Predicting Depression from Different Machine Learning Based Voice Recognition Techniques | |
Chauhan et al. | A method for simplifying the spoken emotion recognition system using a shallow neural network and temporal feature stacking & pooling (TFSP) | |
JP7340199B2 (en) | Learning device, reasoning device, learning method, reasoning method and program | |
Palo et al. | Overview of machine learners in classifying of speech signals | |
Yu et al. | Automated english speech recognition using dimensionality reduction with deep learning approach | |
WO2022248676A1 (en) | Continual learning neural network system training for classification type tasks | |
Rashmi et al. | Convolution neural networks with hybrid feature extraction methods for classification of voice sound signals | |
Mohanty et al. | Improvement of speech emotion recognition by deep convolutional neural network and speech features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20200721 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220808 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230428 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230509 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230707 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230815 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230818 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7340199 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |