JP2021039215A - Learning device, learning method, and learning program - Google Patents

Learning device, learning method, and learning program Download PDF

Info

Publication number
JP2021039215A
JP2021039215A JP2019159950A JP2019159950A JP2021039215A JP 2021039215 A JP2021039215 A JP 2021039215A JP 2019159950 A JP2019159950 A JP 2019159950A JP 2019159950 A JP2019159950 A JP 2019159950A JP 2021039215 A JP2021039215 A JP 2021039215A
Authority
JP
Japan
Prior art keywords
data
symbol string
feature amount
learning
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019159950A
Other languages
Japanese (ja)
Inventor
成樹 苅田
Shigeki Karita
成樹 苅田
具治 岩田
Tomoharu Iwata
具治 岩田
小川 厚徳
Atsunori Ogawa
厚徳 小川
マーク デルクロア
Marc Delcroix
マーク デルクロア
渡部 晋治
Shinji Watabe
晋治 渡部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Johns Hopkins University
Original Assignee
Nippon Telegraph and Telephone Corp
Johns Hopkins University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Johns Hopkins University filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2019159950A priority Critical patent/JP2021039215A/en
Publication of JP2021039215A publication Critical patent/JP2021039215A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

To learn the parameters of a speech recognition model end-to-end by semi-supervised learning.SOLUTION: A learning device 20 learns, by a neural network (NN), the parameters of a speech recognition model that converts speech data into information that specifies a code string. A recognition error calculation unit 215 calculates, using data for learning, a speech recognition error that represents non-similarity between the estimation result of code string data estimated on the basis of information that specifies the code string obtained by converting speech data in the data for learning by the NN and the code string data in the data for learning. A restore error calculation unit 216 calculates, using unsupervised code string data, a restore error that represents non-similarity between the estimation result of code string data estimated on the basis of information that specifies the code string obtained by converting unsupervised code string data by the NN and the unsupervised code string data. An update unit 218 updates the parameters of the NN on the basis of the speech recognition error and the restore error.SELECTED DRAWING: Figure 3

Description

本発明は、学習装置、学習方法及び学習プログラムに関する。 The present invention relates to a learning device, a learning method and a learning program.

従来、ニューラルネットワーク(以降、NNと表記する場合がある。)を用いたモデルを、機械学習により学習する技術が知られている。例えば、音声データを、記号列を特定する情報(事後確率)に変換可能なend-to-endのNNを用いた音声認識モデルを、教師あり学習により学習する方法が知られている(例えば、非特許文献1を参照)。 Conventionally, a technique of learning a model using a neural network (hereinafter, may be referred to as NN) by machine learning is known. For example, there is known a method of learning a speech recognition model using end-to-end NN that can convert speech data into information that identifies a symbol string (posterior probability) by supervised learning (for example,). See Non-Patent Document 1).

また、例えば、画像変換を行うNN又は機械翻訳を行うend-to-endのNNを、教師なし学習により学習する方法が知られている(例えば、非特許文献2又は非特許文献3を参照)。 Further, for example, a method of learning an NN that performs image conversion or an end-to-end NN that performs machine translation by unsupervised learning is known (see, for example, Non-Patent Document 2 or Non-Patent Document 3). ..

また、例えば、end-to-endのNNである音声認識モデルにおいて、デコーダの一部として用いられているRNN−LM(Recurrent Neural Network Language Model)を、教師なし学習により学習する方法が知られている(例えば、非特許文献4を参照)。 Further, for example, in an end-to-end NN speech recognition model, a method of learning RNN-LM (Recurrent Neural Network Language Model) used as a part of a decoder by unsupervised learning is known. (See, for example, Non-Patent Document 4).

J. Chorowski et al., “Attention-Based Models for Speech Recognition,” Advances in Neural Information Processing Systems 28 (NIPS 2015), pp. 577-585, 2015.(URL:http://papers.nips.cc/paper/5847-attention-based-models-for-speech-recognition)J. Chorowski et al., “Attention-Based Models for Speech Recognition,” Advances in Neural Information Processing Systems 28 (NIPS 2015), pp. 577-585, 2015. (URL: http://papers.nips.cc/) paper / 5847-attention-based-models-for-speech-recognition) M.-Y. Liu, T. Breuel, and J. Kautz, “Unsupervised Image-to-Image Translation Networks,” in Neural Information Processing Systems, 2017, pp. 700-708.(URL:https://papers.nips.cc/paper/6672-unsupervised-image-to-image-translation-networks.pdf)M.-Y. Liu, T. Breuel, and J. Kautz, “Unsupervised Image-to-Image Translation Networks,” in Neural Information Processing Systems, 2017, pp. 700-708. (URL: https: // papers. nips.cc/paper/6672-unsupervised-image-to-image-translation-networks.pdf) M. Artetxe, G. Labaka, E. Agirre, and K. Cho, “Unsupervised Neural Machine Translation,” International Conference on Learning Representation, 2018.(URL:https://arxiv.org/pdf/1710.11041.pdf)M. Artetxe, G. Labaka, E. Agirre, and K. Cho, “Unsupervised Neural Machine Translation,” International Conference on Learning Representation, 2018. (URL: https://arxiv.org/pdf/1710.11041.pdf) Takaaki Hori, Shinji Watanabe, Yu Zhang, William Chan, “Advances in Joint CTC-Attention based End-to-End Speech Recognition with a Deep CNN Encoder and RNN-LM,” Interspeech 2017.(URL:https://arxiv.org/pdf/1706.02737.pdf)Takaaki Hori, Shinji Watanabe, Yu Zhang, William Chan, “Advances in Joint CTC-Attention based End-to-End Speech Recognition with a Deep CNN Encoder and RNN-LM,” Interspeech 2017. (URL: https: // arxiv. org / pdf / 1706.02737.pdf)

教師あり学習には、認識モデルの精度を高度化できるというメリットがある一方で、大量の教師ありの学習用データを準備することが困難であるというデメリットがある。また、教師なし学習には、認識モデルの精度では教師あり学習に劣るというデメリットがあるが、学習用データの準備が容易であるというメリットがある。 Supervised learning has the advantage that the accuracy of the recognition model can be improved, but it has the disadvantage that it is difficult to prepare a large amount of supervised learning data. In addition, unsupervised learning has the disadvantage that the accuracy of the recognition model is inferior to that of supervised learning, but it has the advantage that training data can be easily prepared.

半教師あり学習は、教師あり学習と教師なし学習の両方のメリットを持つ学習手法である。 Semi-supervised learning is a learning method that has the merits of both supervised learning and unsupervised learning.

これに対し、非特許文献1や非特許文献5の技術は、いずれもend-to-endのNNを用いた音声認識モデルを、半教師あり学習により学習するものではない。 On the other hand, the techniques of Non-Patent Document 1 and Non-Patent Document 5 do not learn a speech recognition model using end-to-end NN by semi-supervised learning.

また、非特許文献3と非特許文献4は、end-to-endのNNを教師なし学習により学習するものであるが、ここで対象とするend-to-endのNNは入力と出力のドメインが同じである。例えば、非特許文献3は入力と出力がともに画像データであり、非特許文献3は入力と出力がともにテキストデータである。 Further, in Non-Patent Document 3 and Non-Patent Document 4, end-to-end NN is learned by unsupervised learning, but the target end-to-end NN here is an input and output domain. Is the same. For example, in Non-Patent Document 3, both input and output are image data, and in Non-Patent Document 3, both input and output are text data.

これに対し、end-to-endの音声認識モデルは、入力が音声データであり、出力がテキストデータ(シンボル系列)を特定する情報であるため、入力と出力のドメインが異なる。このような入力と出力のドメインが異なるNNのend-to-endの学習に、非特許文献3や非特許文献4の教師なし学習の手法を適用することはできない。 On the other hand, in the end-to-end speech recognition model, since the input is speech data and the output is information that identifies text data (symbol sequence), the input and output domains are different. The unsupervised learning method of Non-Patent Document 3 and Non-Patent Document 4 cannot be applied to such end-to-end learning of NNs having different input and output domains.

以上の問題に鑑み、本発明では、音声認識モデルのパラメータを、半教師あり学習によりend-to-endで学習可能な技術を提供することを目的とする。ここで、end-to-endの学習とは、入力データをニューラルネットワークに入力することで得られる出力データに基づいて、ニューラルネットワークの全てのパラメータを一度に学習する手法である。 In view of the above problems, it is an object of the present invention to provide a technique in which the parameters of a speech recognition model can be learned end-to-end by semi-supervised learning. Here, end-to-end learning is a method of learning all the parameters of the neural network at once based on the output data obtained by inputting the input data to the neural network.

上述した課題を解決し、目的を達成するために、学習装置は、ニューラルネットワークにより、音声データを、記号列を特定する情報に変換する音声認識モデルのパラメータを学習する学習装置であって、音声データが対応付けられていない記号列データである教師なし記号列データを用いて、当該教師なし記号列データを前記ニューラルネットワークにより変換して得た記号列を特定する情報に基づき推定される記号列データの推定結果と、前記教師なし記号列データとの非類似度を表す復元エラーを計算する復元エラー計算部と、学習用に与えられた音声データを変換して得た中間特徴量の分布と、学習用に与えられた記号列データを変換して得た中間特徴量の分布との非類似度を表す特徴量エラーを計算する特徴量エラー計算部と、前記復元エラーと前記特徴量エラーとの少なくともいずれかに基づき、前記ニューラルネットワークのパラメータを更新する更新部とを有することを特徴とする。 In order to solve the above-mentioned problems and achieve the purpose, the learning device is a learning device that learns the parameters of a voice recognition model that converts voice data into information that identifies a symbol string by using a neural network. A symbol string estimated based on information that identifies a symbol string obtained by converting the unsupervised symbol string data by the neural network using the unsupervised symbol string data which is the symbol string data to which the data is not associated. A restoration error calculation unit that calculates a restoration error that represents the degree of dissimilarity between the data estimation result and the unsupervised neural network data, and a distribution of intermediate feature quantities obtained by converting the audio data given for learning. , The feature quantity error calculation unit that calculates the feature quantity error representing the dissimilarity with the distribution of the intermediate feature quantity obtained by converting the symbol string data given for learning, and the restoration error and the feature quantity error. It is characterized by having an update unit that updates the parameters of the neural network based on at least one of the above.

本発明によれば、音声認識モデルのパラメータを、半教師あり学習によりend-to-endで学習することができる。 According to the present invention, the parameters of the speech recognition model can be learned end-to-end by semi-supervised learning.

図1は、音声認識装置の構成の一例を示す図である。FIG. 1 is a diagram showing an example of a configuration of a voice recognition device. 図2は、音声認識装置の処理の流れを示すフローチャートである。FIG. 2 is a flowchart showing a processing flow of the voice recognition device. 図3は、第1の実施形態に係る学習装置の構成の一例を示す図である。FIG. 3 is a diagram showing an example of the configuration of the learning device according to the first embodiment. 図4は、第1の実施形態に係る学習装置の処理の流れを示すフローチャートである。FIG. 4 is a flowchart showing a processing flow of the learning device according to the first embodiment. 図5は、第1の実施形態に係る認識エラー計算処理の流れを示すフローチャートである。FIG. 5 is a flowchart showing the flow of the recognition error calculation process according to the first embodiment. 図6は、第1の実施形態に係る復元エラー計算処理の流れを示すフローチャートである。FIG. 6 is a flowchart showing the flow of the restoration error calculation process according to the first embodiment. 図7は、第1の実施形態に係る特徴量エラー計算処理の流れを示すフローチャートである。FIG. 7 is a flowchart showing the flow of the feature amount error calculation process according to the first embodiment. 図8は、第3の実施形態に係る学習装置の構成の一例を示す図である。FIG. 8 is a diagram showing an example of the configuration of the learning device according to the third embodiment. 図9は、第1の実験結果を示す図である。FIG. 9 is a diagram showing the results of the first experiment. 図10は、第2の実験結果を示す図である。FIG. 10 is a diagram showing the results of the second experiment. 図11は、学習プログラムを実行するコンピュータの一例を示す図である。FIG. 11 is a diagram showing an example of a computer that executes a learning program. 図12は、従来の学習装置の構成を示す図である。FIG. 12 is a diagram showing a configuration of a conventional learning device. 図13は、従来の学習装置の処理の流れを示すフローチャートである。FIG. 13 is a flowchart showing a processing flow of the conventional learning device.

以下に、本願に係る学習装置、学習方法及び学習プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。 Hereinafter, the learning device, the learning method, and the embodiment of the learning program according to the present application will be described in detail with reference to the drawings. The present invention is not limited to the embodiments described below.

[音声認識装置の構成]
ここで、学習装置の詳細を説明する前に、end-to-endの音声認識モデル(ニューラルネットワーク)を用いた音声認識装置について説明する。音声認識装置は、後述する学習装置において学習済みのパラメータが設定された音声認識モデルを用いて音声認識を行う。図1に示すように、音声認識装置10は、制御部11及び記憶部12を有する。
[Voice recognition device configuration]
Here, before explaining the details of the learning device, a speech recognition device using an end-to-end speech recognition model (neural network) will be described. The voice recognition device performs voice recognition using a voice recognition model in which learned parameters are set in the learning device described later. As shown in FIG. 1, the voice recognition device 10 includes a control unit 11 and a storage unit 12.

制御部11は、音声認識装置10全体を制御する。制御部11は、CPU(Central Processing Unit)等により実現される。制御部11は、変換部110及び探索部115を有する。また、変換部110には、音声特徴量符号化部111、中間特徴量符号化部113及び記号列復号化部114が含まれる。記憶部12は、HDD(Hard Disk Drive)及びSSD(Solid State Drive)等の記憶装置である。記憶部12は、ニューラルネットワークのパラメータΛを記憶する。 The control unit 11 controls the entire voice recognition device 10. The control unit 11 is realized by a CPU (Central Processing Unit) or the like. The control unit 11 has a conversion unit 110 and a search unit 115. Further, the conversion unit 110 includes a voice feature amount coding unit 111, an intermediate feature amount coding unit 113, and a symbol string decoding unit 114. The storage unit 12 is a storage device such as an HDD (Hard Disk Drive) and an SSD (Solid State Drive). The storage unit 12 stores the parameter Λ of the neural network.

変換部110は、ニューラルネットワークを用いて、音声データを中間特徴量に変換し、中間特徴量を「記号列を特定する情報」に変換する。このとき、変換部110は、学習済みのニューラルネットワークのパラメータΛを記憶部12から読み込み、読み込んだパラメータに応じた変換を行う。なお、Λは、複数のニューラルネットワークのパラメータの集合である。 The conversion unit 110 uses a neural network to convert voice data into intermediate features, and converts the intermediate features into "information that identifies a symbol string". At this time, the conversion unit 110 reads the learned neural network parameter Λ from the storage unit 12, and performs conversion according to the read parameter. Note that Λ is a set of parameters of a plurality of neural networks.

ここで、記号列とは、アルファベット、漢字、スペース等のあらゆる記号(シンボル)や、それらの系列である単語、認識結果の終端を示す記号などを含む記号の系列である。また、記号列を特定する情報とは、入力音声をある記号列に変換した際の尤度(事後確率)である。 Here, the symbol string is a series of symbols including all symbols (symbols) such as alphabets, kanji, and spaces, words that are a series thereof, and symbols that indicate the end of the recognition result. The information that identifies the symbol string is the likelihood (posterior probability) when the input voice is converted into a certain symbol string.

変換部110を構成するニューラルネットワークのうち、音声データを中間特徴量に変換する部分をエンコーダ層、中間特徴量を事後確率に変換する部分をデコーダ層と呼ぶこととすると、エンコーダ層が音声特徴量符号化部111と中間特徴量符号化部113とに対応し、デコーダ層が記号列復号化部114に対応する。 Of the neural networks constituting the conversion unit 110, if the part that converts voice data into intermediate features is called the encoder layer and the part that converts intermediate features into posterior probabilities is called the decoder layer, the encoder layer is called the voice features. Corresponding to the coding unit 111 and the intermediate feature amount coding unit 113, the decoder layer corresponds to the symbol string decoding unit 114.

ここで、変換部110に含まれる各部の処理について説明する。音声特徴量符号化部111は、入力された音声データx´´を、音声特徴量に変換(符号化)する。また、中間特徴量符号化部113は、音声特徴量を、中間特徴量に変換(符号化)する。また、記号列復号化部114は、中間特徴量を、記号列を特定する情報に変換(復号化)する。なお、音声特徴量符号化部111、中間特徴量符号化部113及び記号列復号化部114によって用いられるニューラルネットワークのパラメータは、Λに含まれるものとする。 Here, the processing of each unit included in the conversion unit 110 will be described. The voice feature amount coding unit 111 converts (encodes) the input voice data x ″ into a voice feature amount. Further, the intermediate feature amount coding unit 113 converts (encodes) the voice feature amount into the intermediate feature amount. Further, the symbol string decoding unit 114 converts (decodes) the intermediate feature amount into information for specifying the symbol string. It is assumed that the parameters of the neural network used by the voice feature amount coding unit 111, the intermediate feature amount coding unit 113, and the symbol string decoding unit 114 are included in Λ.

探索部115は、記号列を特定する情報を基に記号列を探索する。この探索結果である記号列が、音声認識結果(推定記号列)である。 The search unit 115 searches for the symbol string based on the information for specifying the symbol string. The symbol string that is the search result is the voice recognition result (estimated symbol string).

ここで、記号列復号化部114によって変換される記号列を特定する情報は、音声データx´´に対する音声認識結果の推定記号列y´´の事後確率p(y´´|x´´)である。このため、探索部115は、事後確率p(y´´|x´´)が最大化されるような記号列をビームサーチ等により探索する。 Here, the information for specifying the symbol string to be converted by the symbol string decoding unit 114 is the posterior probability p (y ″ | x ″) of the estimated symbol string y ″ of the voice recognition result for the voice data x ″. Is. Therefore, the search unit 115 searches for a symbol string that maximizes the posterior probability p (y ″ | x ″) by beam search or the like.

例えば、探索部115は、記号列の候補のうち1文字目の尤度の大きさが上位所定数に入るものを選択し、さらに、続く記号の尤度の大きさが上位所定数に入るものを選択していくことを繰り返すことで、出力する記号列を選択することができる。 For example, the search unit 115 selects one of the symbol string candidates whose likelihood magnitude of the first character is in the upper predetermined number, and further, in which the likelihood magnitude of the following symbol is in the upper predetermined number. By repeating the selection of, the symbol string to be output can be selected.

[音声認識装置の処理]
図2を用いて、音声認識装置10の処理の流れを説明する。図2は、音声認識装置の処理の流れを示すフローチャートである。図2に示すように、まず、音声認識装置10は、記憶部12からパラメータを読み込む(ステップS11)。また、音声認識装置10は、認識用の音声データの入力を受け付ける(ステップS12)。
[Processing of voice recognition device]
The processing flow of the voice recognition device 10 will be described with reference to FIG. FIG. 2 is a flowchart showing a processing flow of the voice recognition device. As shown in FIG. 2, first, the voice recognition device 10 reads the parameters from the storage unit 12 (step S11). Further, the voice recognition device 10 accepts an input of voice data for recognition (step S12).

ここで、音声認識装置10は、音声データを音声特徴量に変換する(ステップS13)。次に、音声認識装置10は、音声特徴量を中間特徴量に変換する(ステップS14)。そして、音声認識装置10は、中間特徴量を、記号列を特定する情報に変換する(ステップS15)。 Here, the voice recognition device 10 converts the voice data into a voice feature amount (step S13). Next, the voice recognition device 10 converts the voice feature amount into the intermediate feature amount (step S14). Then, the voice recognition device 10 converts the intermediate feature amount into information for specifying the symbol string (step S15).

なお、音声認識装置10は、ステップS13、ステップS14及びステップS15における変換を、ニューラルネットワークを用いて行う。また、各ニューラルネットワークのパラメータは、ステップS11で読み込まれたものである。 The voice recognition device 10 uses a neural network to perform the conversions in steps S13, S14, and S15. Further, the parameters of each neural network are read in step S11.

音声認識装置10は、変換した記号列を特定する情報を基に記号列を探索する(ステップS16)。そして、音声認識装置10は、探索によって得られた記号列を音声認識結果として出力する(ステップS17)。 The voice recognition device 10 searches for the symbol string based on the information for identifying the converted symbol string (step S16). Then, the voice recognition device 10 outputs the symbol string obtained by the search as the voice recognition result (step S17).

[第1の実施形態]
次に、図3を用いて、第1の実施形態の学習装置の構成について説明する。図3は、第1の実施形態に係る学習装置の構成の一例を示す図である。図3に示すように、学習装置20は、制御部21及び記憶部22を有する。
[First Embodiment]
Next, the configuration of the learning device of the first embodiment will be described with reference to FIG. FIG. 3 is a diagram showing an example of the configuration of the learning device according to the first embodiment. As shown in FIG. 3, the learning device 20 has a control unit 21 and a storage unit 22.

制御部21は、学習装置20全体を制御する。制御部21は、CPU等により実現される。制御部21は、変換部210、認識エラー計算部215、復元エラー計算部216、特徴量エラー計算部217、更新部218及び判定部219を有する。また、変換部210には、音声特徴量符号化部211、記号列特徴量符号化部212、中間特徴量符号化部213及び記号列復号化部214が含まれる。このうち、音声特徴量符号化部211と、中間特徴量符号化部213と、記号列復号化部214とが、音声認識装置10の変換部110で用いたニューラルネットワークと同じニューラルネットワークである。つまり、学習装置20のニューラルネットワークは、音声認識装置10では用いられない部分構造(記号列特徴量符号化部212)をさらに具備している点が異なる。 The control unit 21 controls the entire learning device 20. The control unit 21 is realized by a CPU or the like. The control unit 21 includes a conversion unit 210, a recognition error calculation unit 215, a restoration error calculation unit 216, a feature amount error calculation unit 217, an update unit 218, and a determination unit 219. Further, the conversion unit 210 includes a voice feature amount coding unit 211, a symbol string feature amount coding unit 212, an intermediate feature amount coding unit 213, and a symbol string decoding unit 214. Of these, the voice feature amount coding unit 211, the intermediate feature amount coding unit 213, and the symbol string decoding unit 214 are the same neural networks as the neural network used in the conversion unit 110 of the voice recognition device 10. That is, the neural network of the learning device 20 is different in that it further includes a partial structure (symbol string feature amount coding unit 212) that is not used in the voice recognition device 10.

記憶部22は、HDD及びSSD等の記憶装置である。記憶部22は、ニューラルネットワークのパラメータΛを記憶する。ニューラルネットワークのパラメータΛの各々の初期値は、予め適当な値を設定しておくものとする。 The storage unit 22 is a storage device such as an HDD and an SSD. The storage unit 22 stores the parameter Λ of the neural network. It is assumed that an appropriate value is set in advance for each initial value of the parameter Λ of the neural network.

ここで、学習装置20に入力されるデータ(学習用データ)について説明する。学習用データとして、
(1)学習用の音声データx´とそれに対応する記号列データy´(正解記号列データ)との組からなる教師あり学習用データ集合Zと、
(2)対応する音声データがない記号列データyのみからなる学習用データ(教師なし学習用記号列データ)集合Tと、
(3)対応する記号列データがない音声データxのみからなる学習用データ(教師なし学習用音声データ)集合Sと、
が予め与えられるものとする。
Here, the data (learning data) input to the learning device 20 will be described. As learning data
(1) A supervised learning data set Z consisting of a set of audio data x'for learning and corresponding symbol string data y'(correct answer symbol string data), and
(2) A set T of learning data (unsupervised learning symbol string data) consisting of only symbol string data y for which there is no corresponding audio data, and
(3) A set S of learning data (unsupervised learning voice data) consisting of only voice data x having no corresponding symbol string data, and
Shall be given in advance.

なお、学習用データに含まれる音声データ(x´またはx)及び記号列データ(y´またはy)は、いずれもベクトルで表現されていてよい。また、音声データや記号列の定義は、前述の音声認識装置における各用語の定義に従う。 The voice data (x'or x) and the symbol string data (y'or y) included in the learning data may both be represented by vectors. Further, the definitions of voice data and symbol strings follow the definitions of each term in the voice recognition device described above.

次に、学習装置20の各部の処理について説明する。変換部210は、ニューラルネットワークを用いて、音声データ又は記号列データを中間特徴量に変換し、中間特徴量を記号列を特定する情報に変換する。変換部210は、ニューラルネットワークであり、学習用データの各々を中間特徴量に変換するエンコーダ層と、中間特徴量を「記号列を特定する情報」に変換するデコーダ層とを有する。エンコーダ層は、音声特徴量符号化部211、記号列特徴量符号化部212、中間特徴量符号化部213とを含み、デコーダ層は、記号列復号化部214を含む。 Next, the processing of each part of the learning device 20 will be described. The conversion unit 210 uses a neural network to convert voice data or symbol string data into intermediate feature quantities, and converts the intermediate feature quantities into information that identifies the symbol string. The conversion unit 210 is a neural network, and has an encoder layer that converts each of the learning data into an intermediate feature amount, and a decoder layer that converts the intermediate feature amount into "information for specifying a symbol string". The encoder layer includes a voice feature amount coding unit 211, a symbol string feature amount coding unit 212, and an intermediate feature amount coding unit 213, and the decoder layer includes a symbol string decoding unit 214.

以降の説明では、ニューラルネットワークの各部(各層)で行われる演算(変換処理)を関数として表記する。例えば、音声特徴量符号化部211に対応するニューラルネットワークの演算を関数f(・)と表記する。この関数の出力値が、音声特徴量符号化部211の出力となる。 In the following description, the operations (conversion processing) performed in each part (each layer) of the neural network are described as functions. For example, the operation of the neural network corresponding to the voice feature amount coding unit 211 is expressed as a function f (.). The output value of this function is the output of the voice feature amount coding unit 211.

また、記号列特徴量符号化部212に対応するニューラルネットワークの演算を、関数g(・)と表記する。また、中間特徴量符号化部213に対応するニューラルネットワークの演算を、関数e(・)と表記する。また、記号列復号化部214に対応するニューラルネットワークの演算を、関数d(・)と表記する。 Further, the operation of the neural network corresponding to the symbol string feature amount coding unit 212 is referred to as a function g (.). Further, the operation of the neural network corresponding to the intermediate feature amount coding unit 213 is referred to as a function e (.). Further, the operation of the neural network corresponding to the symbol string decoding unit 214 is referred to as a function d (.).

なお、複数の層からなる多層ニューラルネットワークに対応する演算は、各層に対応する演算を表す関数の合成関数で表記できる。例えば、音声特徴量符号化部211と中間特徴量符号化部213とからなる多層ニューラルネットワークの演算は、e(f(・))のように表記することができる。 An operation corresponding to a multi-layer neural network composed of a plurality of layers can be expressed by a composite function of a function representing an operation corresponding to each layer. For example, the operation of the multi-layer neural network including the voice feature amount coding unit 211 and the intermediate feature amount coding unit 213 can be expressed as e (f (・)).

ここで、ニューラルネットワークの「層」と呼んでいるものは、必ずしも物理的に1層であることを意味するものではなく、複数層をまとめて「層」としてもよい。言い換えれば、ニューラルネットワーク全体の中で1以上の層からなる部分構造を「層」と呼ぶこととする。 Here, what is called a "layer" of a neural network does not necessarily mean that it is physically one layer, and a plurality of layers may be collectively referred to as a "layer". In other words, a partial structure consisting of one or more layers in the entire neural network is called a "layer".

音声特徴量符号化部211は、入力された学習用データ中の音声データを音声特徴量に変換(符号化)する。具体的には、音声特徴量符号化部211は、教師あり学習用データ中の音声データx´を音声特徴量f(x´)に、教師なし学習用音声データ中の音声データxを音声特徴量f(x)に変換する。 The voice feature amount coding unit 211 converts (encodes) the voice data in the input learning data into a voice feature amount. Specifically, the voice feature amount coding unit 211 sets the voice data x'in the supervised learning data as the voice feature amount f (x') and the voice data x in the unsupervised learning voice data as the voice feature. Convert to quantity f (x).

記号列特徴量符号化部212は、入力された教師なし学習用データ中の記号列データyを記号列特徴量に変換(符号化)する。ここで、記号列特徴量符号化部212の最終的な目標は、入力された記号列データyを変換して得られる記号列特徴量g(y)が、音声データを音声特徴量符号化部211で変換して得られる音声特徴量と近くなるような中間特徴量への変換を行うことである。つまり、学習が進むにしたがって、記号列データyを変換して得られる中間特徴量e(g(y))の分布が、音声データxを変換して得た中間特徴量e(f(x))の分布と類似するようになる。 The symbol string feature amount coding unit 212 converts (encodes) the symbol string data y in the input unsupervised learning data into the symbol string feature amount. Here, the ultimate goal of the symbol string feature amount coding unit 212 is that the symbol string feature amount g (y) obtained by converting the input symbol string data y converts the voice data into the voice feature amount coding unit. The conversion to an intermediate feature amount that is close to the voice feature amount obtained by the conversion in 211 is performed. That is, as the learning progresses, the distribution of the intermediate feature amount e (g (y)) obtained by converting the symbol string data y is the intermediate feature amount e (f (x)) obtained by converting the voice data x. ) Will be similar to the distribution.

中間特徴量符号化部213は、入力された音声特徴量または記号列特徴量を、中間特徴量に変換(符号化)する。具体的には、中間特徴量符号化部213は、音声特徴量f(x´)を中間特徴量e(f(x´))に、音声特徴量f(x)を中間特徴量e(f(x))に、記号列特徴量g(y)を中間特徴量e(g(y))に符号化する。 The intermediate feature amount coding unit 213 converts (encodes) the input voice feature amount or symbol string feature amount into the intermediate feature amount. Specifically, the intermediate feature amount coding unit 213 sets the voice feature amount f (x') as the intermediate feature amount e (f (x')) and the voice feature amount f (x) as the intermediate feature amount e (f). In (x)), the symbol string feature amount g (y) is encoded into the intermediate feature amount e (g (y)).

以下、教師あり学習用データの音声データx´を変換して得た中間特徴量e(f(x´))を「教師あり音声データに対応する中間特徴量」、教師なし学習用記号列データyを変換して得た中間特徴量e(g(y))を「教師なし記号列データに対応する中間特徴量」、教師なし学習用音声データxを変換して得た中間特徴量e(f(x))を「教師なし音声データに対応する中間特徴量」と呼ぶこととする。 Hereinafter, the intermediate feature amount e (f (x')) obtained by converting the voice data x'of the supervised learning data is referred to as "intermediate feature amount corresponding to the supervised voice data", and the unsupervised learning symbol string data. The intermediate feature amount e (g (y)) obtained by converting y is the "intermediate feature amount corresponding to the unsupervised symbol string data", and the intermediate feature amount e obtained by converting the unsupervised learning audio data x ( f (x)) will be referred to as "intermediate feature amount corresponding to unsupervised audio data".

記号列復号化部214は、入力された中間特徴量を、記号列を特定する情報に変換(復号化)する。ここで対象となる中間特徴量は、教師あり音声データに対応する中間特徴量e(f(x´))、教師なし記号列データに対応する中間特徴量e(g(y))である。 The symbol string decoding unit 214 converts (decodes) the input intermediate feature amount into information that identifies the symbol string. Here, the target intermediate features are the intermediate features e (f (x')) corresponding to the supervised speech data and the intermediate features e (g (y)) corresponding to the unsupervised symbol string data.

記号列復号化部214は、再帰型ニューラルネットワーク、例えば、アテンション機構を有する長短期記憶(Long Short Term Memory:LSTM)で実現される。 The symbol string decoding unit 214 is realized by a recurrent neural network, for example, a long short-term memory (Long Short Term Memory: LSTM) having an attention mechanism.

まず、教師あり音声データに対応する中間特徴量e(f(x´))を、記号列を特定する情報に変換する場合を例に説明する。記号列を特定する情報の推定結果に基づき特定される記号列を^w(以下「推定記号列データ」ともいう)とする。記号列復号化部214は、第tステップにおいて、直前のステップ(t−1ステップ)でニューラルネットワークから出力される状態ベクトルht−1と、t−1ステップまでに得た推定記号列データy´1:t−1と、中間特徴量符号化部213で得られた音声特徴量に対応する中間特徴量e(f(x´))に対応する特徴量とを入力として、次の出力記号に対応する状態ベクトルhに変換する。そして、hに基づき、推定記号^wが正解記号列データ中のt番目の記号(以下「正解記号」ともいう)y´と一致する事後確率P(^w=y´|y´1:t−1,e(f(x´)))を計算する。これを先頭から順に再帰的に繰り返す。 First, a case where the intermediate feature amount e (f (x')) corresponding to the supervised voice data is converted into the information for specifying the symbol string will be described as an example. The symbol string specified based on the estimation result of the information for specifying the symbol string is referred to as ^ w (hereinafter, also referred to as "estimated symbol string data"). In the t-step, the symbol string decoding unit 214 includes the state vector h t-1 output from the neural network in the immediately preceding step (t-1 step) and the estimated symbol string data y obtained up to the t-1 step. ' 1: t-1 and the feature amount corresponding to the intermediate feature amount e (f (x')) corresponding to the voice feature amount obtained by the intermediate feature amount coding unit 213 are input, and the following output symbols are used. It converted to the corresponding state vector h t to. Then, based on the h t, the estimated symbol ^ w t is (hereinafter also referred to as "correct symbol") t-th symbols in the correct symbol string data y't match to the posterior probability P (^ w t = y't | y'1 : t-1 , e (f (x'))) is calculated. This is repeated recursively from the beginning.

ここで得られる事後確率P(^w=y´|y´1:t−1,e(f(x´)))が「記号列を特定する情報」である。 Here are obtained posterior probability P (^ w t = y't | y'1: t-1, e (f (x'))) is "information that identifies the symbol string".

また、記号列復号化部214は、教師なし記号列データに対応する中間特徴量e(g(y))についても同様の処理を行い、事後確率P(^v=y|y1:t−1,e(g(y)))を計算する。ここで、教師なし記号列データに対応する中間特徴量e(g(y))を変換して得られる推定記号列データを^vと表記することとする。 Further, the symbol string decoding unit 214 performs the same processing on the intermediate feature amount e (g (y)) corresponding to the unsupervised symbol string data, and the posterior probability P (^ v t = y t | y 1: 1). Calculate t-1 , e (g (y))). Here, the estimated symbol string data obtained by converting the intermediate feature amount e (g (y)) corresponding to the unsupervised symbol string data is expressed as ^ v.

認識エラー計算部215は、教師あり学習用データ中の音声データを変換部210により変換して得られた結果(事後確率)を用いて認識エラーを計算する。具体的には、認識エラー計算部215は、微分可能な認識エラーLpairとして、(1)式の交差エントロピー損失を認識エラーとして計算する。 The recognition error calculation unit 215 calculates the recognition error using the result (posterior probability) obtained by converting the voice data in the supervised learning data by the conversion unit 210. Specifically, the recognition error calculation unit 215 calculates the cross entropy loss of the equation (1) as a recognition error as a differentiable recognition error L pair.

Figure 2021039215
Figure 2021039215

ここで、y´1:t−1は、y´からy´t−1までの記号列を表す。つまり、認識エラー計算部215は、変換部210によって教師あり音声データx´を変換して得た記号列を特定する情報P(^w=y´|y´1:t−1,e(f(x´)))を用いて認識エラーを計算する。 Here, y'1: t-1 represents the symbol string from y '1 to y' t-1. That is, recognition errors calculator 215, information identifying a symbol string obtained by converting the audio data x'supervised by the conversion section 210 P (^ w t = y' t | y'1: t-1, e (F (x'))) is used to calculate the recognition error.

(1)式は、教師あり音声データx´を変換して得た記号列を特定する情報P(^w=y´|y´1:t−1,e(f(x´)))に基づき推定される推定記号列データ^wと、学習用データ中で音声データx´にあらかじめ対応付けられた正解記号列データy´との近さを表す尺度といえる。 (1) expression, information to identify the supervised symbol string obtained by converting the voice data x'P (^ w t = y' t | y'1: t-1, e (f (x')) ), It can be said that it is a measure showing the closeness between the estimated symbol string data ^ w estimated based on) and the correct answer symbol string data y'preliminarily associated with the voice data x'in the training data.

復元エラー計算部216は、変換部210によって教師なし学習用記号列データyを変換して得た記号列を特定する情報P(^v=y|y1:t−1,e(g(y)))と、教師なし学習用記号列データyとの間のエラー(復元エラー)を計算する。 The restoration error calculation unit 216 converts information P (^ v t = y t | y 1: t-1 , e (g) obtained by converting the unsupervised learning symbol string data y by the conversion unit 210. The error (restoration error) between (y))) and the unsupervised learning symbol string data y is calculated.

既述の通り、記号列特徴量符号化部212を経由して中間特徴量符号化部213から出力される中間特徴量e(g(y))は、音声データに対応する中間特徴量e(f(x))と類似するようになる。この記号列データを変換して得た中間特徴量e(g(y))から記号列復号化部214で事後確率を求めることは、学習用に与えられた記号列データから求めた音声特徴量に類似の中間特徴量e(g(y))を、音声特徴量の代わりに代用して、音声認識結果を得ることを意味する。十分学習が進めば、記号列データを音声認識して得た音声認識結果^vは、元の記号列データyと一致するはずである。復元エラーは、記号列データyを音声認識して得た認識結果^vが、元の記号列データyにどの程度近づいたかを表す尺度といえる。 As described above, the intermediate feature amount e (g (y)) output from the intermediate feature amount coding unit 213 via the symbol string feature amount coding unit 212 is the intermediate feature amount e (g (y)) corresponding to the voice data. It becomes similar to f (x)). Obtaining the posterior probability by the symbol string decoding unit 214 from the intermediate feature quantity e (g (y)) obtained by converting the symbol string data is the voice feature quantity obtained from the symbol string data given for learning. It means that the intermediate feature amount e (g (y)) similar to the above is substituted for the voice feature amount to obtain the voice recognition result. If sufficient learning progresses, the voice recognition result ^ v obtained by voice-recognizing the symbol string data should match the original symbol string data y. The restoration error can be said to be a measure of how close the recognition result ^ v obtained by voice-recognizing the symbol string data y to the original symbol string data y.

つまり、教師なし記号列データyを正解とし、yを音声認識して得た推定結果がyに近づくようにニューラルネットワークのパラメータを学習することで、教師データがなくとも、正解に近づくようにニューラルネットワークのパラメータを学習させることを可能にするのである。 That is, by using the unsupervised symbol string data y as the correct answer and learning the neural network parameters so that the estimation result obtained by voice recognition of y approaches y, the neural network approaches the correct answer even without the teacher data. It makes it possible to train network parameters.

具体的には、復元エラー計算部216は、(2)式のように、記号列データyと、記号列データyを変換部210で変換して得た事後確率に基づき特定される推定記号列データ^vと、が一致する確率に基づく交差エントロピー損失を、微分可能な復元エラーLsymbolとして計算する。 Specifically, the restoration error calculation unit 216 is an estimated symbol string specified based on the posterior probability obtained by converting the symbol string data y and the symbol string data y by the conversion unit 210, as in Eq. (2). The cross-entropy loss based on the probability that the data ^ v matches is calculated as the divisible restoration error L symbol.

Figure 2021039215
Figure 2021039215

特徴量エラー計算部217は、学習用の音声データを変換して得た中間特徴量と、学習用の記号列データを変換して得た中間特徴量とに基づき、特徴量エラーLdomを計算する。 The feature amount error calculation unit 217 calculates the feature amount error L dom based on the intermediate feature amount obtained by converting the audio data for learning and the intermediate feature amount obtained by converting the symbol string data for learning. To do.

特徴量エラーとは、音声データを変換して得た中間特徴量と記号列データを変換して得た中間特徴量との非類似度を表す指標であり、例えば、カーネル法に基づく検定における指標であるMMD(Maximum Mean Discrepancy)に基づくエラーを用いることができる。この場合、特徴量エラー計算部217は、(3)式のように特徴量エラーLdomを計算する。ここで、(3)式において、カーネルkは微分可能であるため、Ldomは微分可能である。 The feature amount error is an index showing the degree of dissimilarity between the intermediate feature amount obtained by converting the voice data and the intermediate feature amount obtained by converting the symbol string data. For example, an index in a test based on the kernel method. An error based on MMD (Maximum Mean Discrepancy) can be used. In this case, the feature amount error calculation unit 217 calculates the feature amount error L dom as in the equation (3). Here, in the equation (3), since the kernel k is differentiable, the L dom is differentiable.

Figure 2021039215
Figure 2021039215

更新部218は、認識エラー計算部215によって計算された認識エラーと、復元エラー計算部216によって計算された復元エラーと、特徴量エラー計算部217によって計算された特徴量エラーと、に基づき、ニューラルネットワークの各パラメータを更新する。具体的には、更新部218は、(4)式のように、認識エラーと、復元エラーと、特徴量エラーと、の重み付き和Lを最小化するようにパラメータを更新する。 The update unit 218 is neural based on the recognition error calculated by the recognition error calculation unit 215, the restoration error calculated by the restoration error calculation unit 216, and the feature amount error calculated by the feature amount error calculation unit 217. Update each parameter of the network. Specifically, the update unit 218 updates the parameters so as to minimize the weighted sum L of the recognition error, the restoration error, and the feature amount error, as in the equation (4).

ここで、α、β、γは重みを表すパラメータであり、予め値が設定されるものとする。(4)式において、Lpair、Lsymbol、Ldomはいずれも微分可能であるため、Lは微分可能である。よって、更新部218は、周知の誤差伝播学習法等により、微分値に基づきニューラルネットワークのパラメータを更新していくことができる。精度を高める意味では、α、β、γはそれぞれ0より大きな値とすることが好ましいが、重みα、β、γのいずれかを0として学習してもよく、この場合、重み0としたエラーについては考慮しないことを意味する。 Here, α, β, and γ are parameters representing weights, and their values are assumed to be set in advance. In equation (4), L is differentiable because L pair , L symbol , and L dom are all differentiable. Therefore, the update unit 218 can update the parameters of the neural network based on the differential value by a well-known error propagation learning method or the like. In order to improve accuracy, it is preferable that α, β, and γ are values larger than 0, respectively, but any of the weights α, β, and γ may be learned as 0. In this case, an error with a weight of 0 is used. Means not to consider.

Figure 2021039215
Figure 2021039215

判定部219は、更新部218によって計算されたエラーが所定の基準を満たしたか否かを判定する。ここで、判定部219によってパラメータが所定の基準を満たしていないと判定された場合、学習装置20は、音声特徴量符号化部211に戻り処理を繰り返す。一方、判定部219によってパラメータが所定の基準を満たしたと判定された場合、学習装置20は、現在のニューラルネットワークのパラメータを学習済みパラメータとして出力する。 The determination unit 219 determines whether or not the error calculated by the update unit 218 satisfies a predetermined criterion. Here, when the determination unit 219 determines that the parameters do not satisfy the predetermined criteria, the learning device 20 returns to the voice feature amount coding unit 211 and repeats the process. On the other hand, when the determination unit 219 determines that the parameter satisfies a predetermined criterion, the learning device 20 outputs the parameter of the current neural network as a learned parameter.

なお、所定の基準としては、例えば、繰り返し処理の回数があらかじめ定められた回数に到達したこと、エラーが所定の閾値以下となったこと、パラメータの更新量(エラーの微分値)が所定の閾値以下となったこと、等を用いることができる。 As predetermined criteria, for example, the number of iteration processes has reached a predetermined number of times, the error has fallen below a predetermined threshold value, and the parameter update amount (differential value of the error) has a predetermined threshold value. The following can be used.

[第1の実施形態の学習装置の処理]
図4を用いて、本実施形態の学習装置20の処理の流れを説明する。図4は、第1の実施形態に係る学習装置の処理の流れを示すフローチャートである。図4に示すように、まず、学習装置20は、記憶部22から各ニューラルネットワークのパラメータを読み込む(ステップS21)。ここで、学習装置20は、教師ありの音声データ及び記号列データの入力を受け付ける(ステップS22)。また、学習装置20は、教師なしの音声データ及び記号列データの入力を受け付ける(ステップS23)。
[Processing of the learning device of the first embodiment]
The processing flow of the learning apparatus 20 of this embodiment will be described with reference to FIG. FIG. 4 is a flowchart showing a processing flow of the learning device according to the first embodiment. As shown in FIG. 4, first, the learning device 20 reads the parameters of each neural network from the storage unit 22 (step S21). Here, the learning device 20 accepts input of supervised voice data and symbol string data (step S22). Further, the learning device 20 accepts input of unsupervised voice data and symbol string data (step S23).

そして、学習装置20は、並列処理で認識エラー計算処理、復元エラー計算処理及び特徴量エラー計算処理を実行する(ステップS24)。なお、学習装置20は、ステップS24の各処理を必ずしも並列処理で行う必要はなく、ステップS25へ進む前に各処理を終了させていればよい。 Then, the learning device 20 executes the recognition error calculation process, the restoration error calculation process, and the feature amount error calculation process in parallel processing (step S24). It should be noted that the learning device 20 does not necessarily have to perform each process of step S24 in parallel processing, and may end each process before proceeding to step S25.

エラーの計算処理が終わると、学習装置20は、各エラーが小さくなるようにパラメータを更新する(ステップS25)。そして、学習装置20は、パラメータが収束したか否かを判定する(ステップS26)。学習装置20は、パラメータが収束していないと判定した場合(ステップS26、No)、ステップS21に戻り処理を繰り返す。一方、学習装置20は、パラメータが収束したと判定した場合(ステップS26、Yes)、パラメータを出力し(ステップS27)、処理を終了する。 When the error calculation process is completed, the learning device 20 updates the parameters so that each error becomes smaller (step S25). Then, the learning device 20 determines whether or not the parameters have converged (step S26). When the learning device 20 determines that the parameters have not converged (steps S26, No), the learning device 20 returns to step S21 and repeats the process. On the other hand, when it is determined that the parameters have converged (step S26, Yes), the learning device 20 outputs the parameters (step S27) and ends the process.

図5を用いて、認識エラー計算処理の流れを説明する。図5は、第1の実施形態に係る認識エラー計算処理の流れを示すフローチャートである。図5に示すように、学習装置20は、まず、教師ありの音声データ及び記号列データを読み込む(ステップS101)。 The flow of the recognition error calculation process will be described with reference to FIG. FIG. 5 is a flowchart showing the flow of the recognition error calculation process according to the first embodiment. As shown in FIG. 5, the learning device 20 first reads supervised voice data and symbol string data (step S101).

次に、学習装置20は、読み込んだ音声データを音声特徴量に変換する(ステップS102)。そして、学習装置20は、音声特徴量を中間特徴量に変換する(ステップS103)。さらに、学習装置20は、中間特徴量を記号列を特定する情報に変換する(ステップS104)。ここで、学習装置20は、読み込んだ記号列データと変換された記号列を特定する情報とに基づき認識エラーを計算する(ステップS105)。 Next, the learning device 20 converts the read voice data into voice features (step S102). Then, the learning device 20 converts the voice feature amount into the intermediate feature amount (step S103). Further, the learning device 20 converts the intermediate feature amount into the information for specifying the symbol string (step S104). Here, the learning device 20 calculates the recognition error based on the read symbol string data and the information for identifying the converted symbol string (step S105).

図6を用いて、復元エラー計算処理の流れを説明する。図6は、第1の実施形態に係る復元エラー計算処理の流れを示すフローチャートである。図6に示すように、学習装置20は、まず、教師なしの記号列データを読み込む(ステップS201)。 The flow of the restoration error calculation process will be described with reference to FIG. FIG. 6 is a flowchart showing the flow of the restoration error calculation process according to the first embodiment. As shown in FIG. 6, the learning device 20 first reads unsupervised symbol string data (step S201).

次に、学習装置20は、読み込んだ教師なしの記号列データを記号列特徴量に変換する(ステップS202)。そして、学習装置20は、記号列特徴量を中間特徴量に変換する(ステップS203)。このとき、学習装置20は、中間特徴量を特徴量エラー計算処理に受け渡す(ステップS204)。さらに、学習装置20は、中間特徴量を、記号列を特定する情報に変換する(ステップS205)。ここで、学習装置20は、読み込んだ記号列データと変換された記号列を特定する情報とに基づき復元エラーを計算する(ステップS206)。 Next, the learning device 20 converts the unsupervised symbol string data read into the symbol string features (step S202). Then, the learning device 20 converts the symbol string feature amount into the intermediate feature amount (step S203). At this time, the learning device 20 passes the intermediate feature amount to the feature amount error calculation process (step S204). Further, the learning device 20 converts the intermediate feature amount into information for specifying the symbol string (step S205). Here, the learning device 20 calculates the restoration error based on the read symbol string data and the information for identifying the converted symbol string (step S206).

図7を用いて、特徴量エラー計算処理の流れを説明する。図7は、第1の実施形態に係る特徴量エラー計算処理の流れを示すフローチャートである。図7に示すように、学習装置20は、まず、教師なしの音声データを読み込む(ステップS301)。 The flow of the feature amount error calculation process will be described with reference to FIG. 7. FIG. 7 is a flowchart showing the flow of the feature amount error calculation process according to the first embodiment. As shown in FIG. 7, the learning device 20 first reads unsupervised voice data (step S301).

次に、学習装置20は、読み込んだ音声データ(教師ありでも教師なしでもよい)を音声特徴量に変換する(ステップS302)。そして、学習装置20は、音声特徴量を中間特徴量に変換する(ステップS303)。このとき、学習装置20は、復元エラー計算処理から中間特徴量を受け取る(ステップS304)。ここで、学習装置20は、音声特徴量から変換した中間特徴量と、受け取った中間特徴量との間の特徴量エラーを計算する(ステップS305)。なお、ステップS304で受け取る中間特徴量は、図6のステップS204で受け渡された中間特徴量であり、記号列特徴量を変換した中間特徴量である。 Next, the learning device 20 converts the read voice data (with or without a teacher) into voice features (step S302). Then, the learning device 20 converts the voice feature amount into the intermediate feature amount (step S303). At this time, the learning device 20 receives the intermediate feature amount from the restoration error calculation process (step S304). Here, the learning device 20 calculates a feature amount error between the intermediate feature amount converted from the voice feature amount and the received intermediate feature amount (step S305). The intermediate feature amount received in step S304 is the intermediate feature amount delivered in step S204 of FIG. 6, and is an intermediate feature amount obtained by converting the symbol string feature amount.

[第1の実施形態の効果]
これまで説明してきたように、変換部210は、ニューラルネットワークを用いて、教師ありの音声データと教師なしの記号列データの各々を中間特徴量に変換し、各中間特徴量を、記号列を特定する情報に変換する。また、認識エラー計算部215は、変換部210によって教師ありの音声データを変換して得た記号列を特定する情報と、当該音声データにあらかじめ対応付けられた記号列データ(正解記号列データ)と、に基づくエラーである認識エラーを計算する。また、復元エラー計算部216は、変換部210によって当該教師なしの記号列データを変換して得た記号列を特定する情報に基づき復元エラーを計算する。また、特徴量エラー計算部217は、音声データを変換部210によって変換して得た中間特徴量と、記号列データを変換部210によって変換して得た中間特徴量と、の間のエラーである特徴量エラーを計算する。なお、特徴量エラー計算部217の対象とする音声データおよび記号列データは、教師あり/教師なしのいずれでもよい。また、更新部218は、認識エラーと、復元エラーと、特徴量エラーとに基づく所定のエラーが最小化されるように、ニューラルネットワークのパラメータを更新する。
[Effect of the first embodiment]
As described above, the conversion unit 210 uses a neural network to convert each of the supervised voice data and the unsupervised symbol string data into intermediate features, and converts each intermediate feature into a symbol string. Convert to specific information. In addition, the recognition error calculation unit 215 converts the voice data with the teacher by the conversion unit 210 to specify the symbol string, and the symbol string data (correct answer symbol string data) associated with the voice data in advance. And, the recognition error which is an error based on is calculated. Further, the restoration error calculation unit 216 calculates the restoration error based on the information for specifying the symbol string obtained by converting the symbol string data without the teacher by the conversion unit 210. Further, the feature amount error calculation unit 217 is an error between the intermediate feature amount obtained by converting the audio data by the conversion unit 210 and the intermediate feature amount obtained by converting the symbol string data by the conversion unit 210. Calculate a feature error. The voice data and the symbol string data targeted by the feature amount error calculation unit 217 may be supervised or unsupervised. Further, the update unit 218 updates the parameters of the neural network so that a predetermined error based on the recognition error, the restoration error, and the feature amount error is minimized.

復元エラーは、教師なし記号列データに基づいて算出することができる。つまり、復元エラーは、教師なし学習によって最小化を行うことができる。同様に、特徴量エラーについても、教師なし記号列データと教師なし音声データに基づいて算出することができる。そして、少量の教師あり学習用データに基づいて認識エラーを算出することができる。 Restoration errors can be calculated based on unsupervised symbol string data. That is, restore errors can be minimized by unsupervised learning. Similarly, the feature amount error can be calculated based on the unsupervised symbol string data and the unsupervised voice data. Then, the recognition error can be calculated based on a small amount of supervised learning data.

したがって、認識エラーと、復元エラーと、特徴量エラーとに基づく所定のエラーが最小化されるように、ニューラルネットワークのパラメータを更新することで、少量の教師あり学習用データと、教師なし学習用データに基づいて、半教師あり学習を行うことが可能となる。 Therefore, by updating the neural network parameters so that certain errors based on recognition errors, restore errors, and feature errors are minimized, a small amount of supervised learning data and unsupervised learning data can be used. Semi-supervised learning can be performed based on the data.

また、復元エラー計算部216は、教師なし記号列データと、変換部210によって教師なし記号列データを変換して得た記号列を特定する情報に基づき特定される推定記号列データと、が一致する確率に基づく交差エントロピー損失をエラーとして計算する。これにより、復元エラーを微分可能なエラーとして計算することができるため、誤差逆伝播法等の既知の手法でパラメータの最適化を行うことができる。 Further, the restoration error calculation unit 216 matches the unsupervised symbol string data with the estimated symbol string data specified based on the information for identifying the symbol string obtained by converting the unsupervised symbol string data by the conversion unit 210. Calculate the cross entropy loss based on the probability of doing as an error. As a result, the restoration error can be calculated as a differentiable error, so that the parameters can be optimized by a known method such as an error backpropagation method.

また、特徴量エラーは、音声データを変換して得た中間特徴量の分布と、記号列データを変換して得た中間特徴量の分布と、の間の分布間の非類似度に対応する。(3)式の特徴量エラーは、カーネル関数k(・)による再生核ヒルベルト空間上での非類似度として定義される。これにより、特徴量エラーを微分可能なエラーとして計算することができるため、誤差逆伝播法等の既知の手法でパラメータの最適化を行うことができる。 In addition, the feature amount error corresponds to the dissimilarity between the distributions of the intermediate feature amount obtained by converting the voice data and the distribution of the intermediate feature amount obtained by converting the symbol string data. .. The feature error in Eq. (3) is defined as the dissimilarity in the reproducing kernel Hilbert space by the kernel function k (・). As a result, the feature amount error can be calculated as a differentiable error, so that the parameters can be optimized by a known method such as an error backpropagation method.

そして、更新部218において、認識エラーと、復元エラーと、特徴量エラーと、に基づく所定の基準(各エラーの重み付き和)を最小化するように、ニューラルネットワークの全てのパラメータを更新することで、音声認識モデルを構成するニューラルネットワークのパラメータをend-to-endで半教師あり学習することができるのである。 Then, in the update unit 218, all the parameters of the neural network are updated so as to minimize a predetermined standard (weighted sum of each error) based on the recognition error, the restoration error, and the feature amount error. Therefore, the parameters of the neural network that composes the speech recognition model can be learned end-to-end with semi-supervised learning.

具体的には、認識エラーと復元エラーと特徴量エラーとの重み付け和における各重みは、どのエラーを優先して最小化するかを決定するものである。認識エラーは教師あり学習用データに基づくエラーであり、復元エラーと特徴量エラーは教師なし学習用データに基づくエラーである。つまり、重みを調整することで、教師あり学習用データと教師なし学習用データとのどちらのデータにより適合するようにニューラルネットワークを学習させるかを調整することができる。例えば、学習用データの量に応じて、データ量が多い方に対応するエラーが優先されるよう重みを調整することなどが可能となるといえる。 Specifically, each weight in the weighted sum of the recognition error, the restoration error, and the feature amount error determines which error is prioritized and minimized. Recognition errors are errors based on supervised learning data, and restore errors and feature errors are errors based on unsupervised learning data. That is, by adjusting the weight, it is possible to adjust whether the neural network is trained so as to be more suitable for the supervised learning data or the unsupervised learning data. For example, it can be said that it is possible to adjust the weight so that the error corresponding to the larger amount of data is prioritized according to the amount of learning data.

[第1の実施形態の変形例1]
上述の実施形態の説明では、学習用データとして、教師あり学習用データと、教師なし記号列データと、教師なし音声データの3種類を用いることとして説明した。ただし、教師なし音声データは必須ではない。教師なし音声データを使わない場合は、特徴量エラー計算部217において、教師あり音声データを変換して得た中間特徴量と、教師なし記号列データを変換して得た中間特徴量とに基づき、特徴量エラーを計算すればよい。つまり、教師なし音声データを変換して得た中間特徴量を、教師あり音声データを変換して得た中間特徴量に置き換えてもよい。
[Modification 1 of the first embodiment]
In the description of the above-described embodiment, it has been described that three types of learning data, supervised learning data, unsupervised symbol string data, and unsupervised audio data, are used. However, unsupervised audio data is not essential. When unsupervised voice data is not used, the feature error calculation unit 217 is based on the intermediate feature obtained by converting the supervised voice data and the intermediate feature obtained by converting the unsupervised symbol string data. , Feature error can be calculated. That is, the intermediate feature amount obtained by converting the unsupervised voice data may be replaced with the intermediate feature amount obtained by converting the supervised voice data.

[第1の実施形態の変形例2]
上述の実施形態の説明では、教師あり学習用データと教師なし学習用データを最初から併用して、学習する例を説明したが、これに限られるものではない。例えば、まず教師あり学習用データのみを用いて所定の第1の基準を満たすまで学習を行った後、教師なし学習用データも併用して所定の第2の基準を満たすまで学習を繰り返しても良い。
[Modification 2 of the first embodiment]
In the description of the above-described embodiment, an example of learning by using the supervised learning data and the unsupervised learning data together from the beginning has been described, but the present invention is not limited to this. For example, first, learning is performed using only supervised learning data until a predetermined first criterion is satisfied, and then learning is repeated until the unsupervised learning data is also used and a predetermined second criterion is satisfied. good.

例えば、最初の所定数は教師あり学習用データのみを用いて学習を行う。この場合、更新部218は、認識エラーに基づいてニューラルネットワークのパラメータを繰り返し更新する。そして、最初の所定数を超えたら、教師あり学習用データと教師なし学習用データを併用して、上述のように、認識エラーと復元エラーと特徴量エラーとに基づいてニューラルネットワークのパラメータを繰り返し更新していく。 For example, the first predetermined number is learned using only supervised learning data. In this case, the update unit 218 repeatedly updates the parameters of the neural network based on the recognition error. Then, when the initial predetermined number is exceeded, the supervised learning data and the unsupervised learning data are used together, and as described above, the neural network parameters are repeated based on the recognition error, the restoration error, and the feature amount error. I will update it.

これにより、学習済みの音声認識モデルの精度を向上させたり、学習を早期に収束させたりする効果が得られる。 As a result, the accuracy of the trained speech recognition model can be improved, and the learning can be converged at an early stage.

<補記>
教師あり学習用データおよび教師なし学習用データを、所定の単位(ミニバッチ)に分割し、ミニバッチ単位で上述の学習を行ってもよい。この場合、学習用データ集合Z,T,Sがそれぞれミニバッチであると置き換えて上述の処理を行い、当該ミニバッチについての学習が完了すると、次のミニバッチについて同様の処理を行うことを繰り返せば良い。
<Supplement>
The supervised learning data and the unsupervised learning data may be divided into predetermined units (mini-batch), and the above-mentioned learning may be performed in the mini-batch units. In this case, the above processing may be performed by replacing the training data sets Z, T, and S with each mini-batch, and when the learning about the mini-batch is completed, the same processing may be repeated for the next mini-batch.

[第2の実施形態]
第2の実施形態の学習装置20の構成は、第1の実施形態と同じである。ただし、特徴量エラー計算部217と、更新部218の処理が第1の実施形態と異なる。以下、第1の実施形態と異なる部を、特徴量エラー計算部217´、更新部218´とし、詳細を説明する。
[Second Embodiment]
The configuration of the learning device 20 of the second embodiment is the same as that of the first embodiment. However, the processing of the feature amount error calculation unit 217 and the update unit 218 is different from that of the first embodiment. Hereinafter, the parts different from the first embodiment will be referred to as a feature amount error calculation unit 217'and an update unit 218', and details will be described.

第1の実施形態の学習装置20では、特徴量エラー計算部217においてMMDに基づき特徴量エラーを計算していた。第2の実施形態の特徴量エラー計算部217´は、2クラス識別ニューラルネットワークを用いて特徴量エラーを計算する。 In the learning device 20 of the first embodiment, the feature amount error calculation unit 217 calculates the feature amount error based on the MMD. The feature amount error calculation unit 217'of the second embodiment calculates the feature amount error using the two-class identification neural network.

つまり、第2の実施形態の学習装置20は、第1の実施形態の学習装置20と同じ変換部210を構成するニューラルネットワークに加えて、特徴量エラー計算部217´に対応する2クラス識別ニューラルネットワークを別途備える点が異なる。したがって、記憶部22に記憶されるニューラルネットワークのパラメータΛは、変換部210を構成するニューラルネットワークのパラメータに加えて、特徴量エラー計算部217に含まれるニューラルネットワークのパラメータも含む。これらのパラメータの初期値は予め適当な値を設定しておくものとする。 That is, the learning device 20 of the second embodiment has a two-class identification neural network corresponding to the feature amount error calculation unit 217'in addition to the neural network constituting the same conversion unit 210 as the learning device 20 of the first embodiment. The difference is that it has a separate network. Therefore, the neural network parameter Λ stored in the storage unit 22 includes the neural network parameter included in the feature amount error calculation unit 217 in addition to the neural network parameter constituting the conversion unit 210. Appropriate values shall be set in advance for the initial values of these parameters.

特徴量エラー計算部217´が有する2クラス識別ニューラルネットワークについて説明する。2クラス識別ニューラルネットワークは、入力された中間特徴量が、音声データを変換して得たものであるか、記号列データを変換して得たものであるかを識別した識別結果を出力するニューラルネットワークである。2クラス識別ニューラルネットワークの演算を表す関数をh(・)と表記する。 The two-class identification neural network of the feature error calculation unit 217'will be described. The two-class discrimination neural network is a neural network that outputs a discrimination result that discriminates whether the input intermediate feature amount is obtained by converting voice data or symbol string data. It is a network. The function representing the operation of the two-class identification neural network is expressed as h (・).

例えば、2クラス識別ニューラルネットワークは、中間特徴量e(g(y))を入力として、h(e(g(y)))を識別結果として出力する。あるいは、中間特徴量e(f(x))を入力として、h(e(f(x)))を識別結果として出力する。 For example, the two-class discrimination neural network takes the intermediate feature amount e (g (y)) as an input and outputs h (e (g (y))) as the discrimination result. Alternatively, the intermediate feature amount e (f (x)) is input and h (e (f (x))) is output as the identification result.

特徴量エラー計算部217´は、2クラス識別ニューラルネットワークに中間特徴量を入力することで得た識別結果を用いて、(5)式により特徴量エラーLdomを計算する。 The feature amount error calculation unit 217'calculates the feature amount error L dom by the equation (5) using the identification result obtained by inputting the intermediate feature amount into the two-class identification neural network.

Figure 2021039215
Figure 2021039215

更新部218´は、更新部218と同様に、認識エラーと復元エラーと特徴量エラーとに基づく所定のエラーに基づいて、変換部210を構成するニューラルネットワークの各パラメータを更新する。 Similar to the update unit 218, the update unit 218'updates each parameter of the neural network constituting the conversion unit 210 based on a predetermined error based on the recognition error, the restoration error, and the feature amount error.

また、更新部218´は、特徴量エラーLdomの正負を反転した−Ldomに基づき、2クラス識別ニューラルネットワークのパラメータを更新する。具体的には、−Ldomの勾配に応じて、ニューラルネットワークh(・)の各パラメータの値を更新する。 Further, the update unit 218'updates the parameters of the two-class identification neural network based on the -L dom in which the positive and negative of the feature amount error L dom are reversed. Specifically, the value of each parameter of the neural network h (.) Is updated according to the gradient of −L dom.

特徴量エラーLdomは、音声データに基づく中間特徴量と記号列データに基づく中間特徴量との非類似の度合いを表している。つまり、特徴量エラー計算部217´によって計算されるエラーを小さくするようにニューラルネットワークのパラメータを学習することは、音声データに基づく中間特徴量と記号列を特定する情報に基づく中間特徴量との分布間距離を最小化するよう学習することを意味する。学習が進むに従い、記号列特徴量符号化部から出力される記号列特徴量が、音声特徴量符号化部から出力される音声特徴量と近くなり、結果として音声データに基づく中間特徴量なのか、記号列データに基づく特徴量なのか識別することが難しくなる。 The feature amount error L dom represents the degree of dissimilarity between the intermediate feature amount based on the voice data and the intermediate feature amount based on the symbol string data. That is, learning the parameters of the neural network so as to reduce the error calculated by the feature amount error calculation unit 217'is that the intermediate feature amount based on the voice data and the intermediate feature amount based on the information for specifying the symbol string are used. It means learning to minimize the distance between distributions. As the learning progresses, the symbol string feature amount output from the symbol string feature amount coding unit becomes closer to the voice feature amount output from the voice feature amount coding unit, and as a result, is it an intermediate feature amount based on the voice data? , It becomes difficult to identify whether the feature quantity is based on the symbol string data.

一方、−Ldomを最小化するよう学習することは、2クラス識別ニューラルネットワークhが、音声データに基づく中間特徴量を、記号列データに基づく中間特徴量ものと誤って識別し、記号列データに基づく中間特徴量を音声データに基づく中間特徴量と誤って識別することがないように、学習しようとすることを意味する。 On the other hand, learning to minimize -L dom causes the two-class identification neural network h to erroneously identify the intermediate features based on the voice data as those based on the symbol string data, and the symbol string data. It means trying to learn so that the intermediate feature amount based on is not mistakenly distinguished from the intermediate feature amount based on the voice data.

つまり、2クラス識別ニューラルネットワークh(・)の学習と変換部210を構成するニューラルネットワークの学習は、敵対的学習の関係にある。 That is, the learning of the two-class discrimination neural network h (.) And the learning of the neural network constituting the conversion unit 210 are in a hostile learning relationship.

最終的に、敵対的学習では、変換部210を構成するニューラルネットワークで得られる中間特徴量が、2クラス識別ニューラルネットワークhで適切に識別できない(十分騙すことができる)ように学習を行う。これにより、記号列特徴量符号化部212から出力される記号列特徴量が、音声特徴量変換部から出力される音声特徴量と十分近くなる(似る)ように変換可能なニューラルネットワークを学習できる。 Finally, in hostile learning, learning is performed so that the intermediate features obtained by the neural network constituting the conversion unit 210 cannot be properly identified (sufficiently deceived) by the two-class discrimination neural network h. As a result, it is possible to learn a neural network that can be converted so that the symbol string feature amount output from the symbol string feature amount coding unit 212 is sufficiently close to (similar to) the voice feature amount output from the voice feature amount conversion unit. ..

[第3の実施形態]
第1の実施形態及び第2の実施形態では、音声特徴量符号化部211で得られる音声特徴量(音声データに対応する中間特徴量)と、記号列特徴量符号化部212で得られる記号列特徴量(記号列データに対応する中間特徴量)との分布が近付くように、特徴量エラーを考慮してモデルを学習させることを特徴としていた。そして、一度分布が近いものに変換された音声特徴量又は中間特徴量(第1の中間特徴量とする)をさらに中間特徴量符号化部213で中間特徴量(第2の中間特徴量とする)に変換する構成として説明した。
[Third Embodiment]
In the first embodiment and the second embodiment, the voice feature amount (intermediate feature amount corresponding to the voice data) obtained by the voice feature amount coding unit 211 and the symbol obtained by the symbol string feature amount coding unit 212. The feature was to train the model in consideration of the feature amount error so that the distribution with the column feature amount (intermediate feature amount corresponding to the symbol string data) would be close. Then, the voice feature amount or the intermediate feature amount (referred to as the first intermediate feature amount) once converted to have a similar distribution is further referred to as the intermediate feature amount (the second intermediate feature amount) by the intermediate feature amount coding unit 213. ) Was explained as a configuration to be converted to.

ここで、音声データを変換して得られる第1の中間特徴量と、記号列データを変換して得られる第1の中間特徴量との分布を近づけるということは、結局、音声データを変換して得られる第2の中間特徴量と、記号列データを変換して得られる第2の中間特徴量との分布を近付けることになるとも捉えられる。 Here, bringing the distributions of the first intermediate feature amount obtained by converting the voice data and the first intermediate feature amount obtained by converting the symbol string data close to each other means that the voice data is converted in the end. It can be considered that the distribution of the second intermediate feature amount obtained by the above and the second intermediate feature amount obtained by converting the symbol string data will be brought closer to each other.

そこで、第3の実施形態では、学習装置20は、中間特徴量符号化部213を備えないものとする。ただし、第3の実施形態においても、学習装置20の変換部210の入出力はこれまでの実施形態と共通している。また、第3の実施形態の説明において、第1の実施形態又は第2の実施形態と共通する事項については適宜説明を省略する。 Therefore, in the third embodiment, the learning device 20 does not include the intermediate feature amount coding unit 213. However, also in the third embodiment, the input / output of the conversion unit 210 of the learning device 20 is common to the conventional embodiments. Further, in the description of the third embodiment, the description of matters common to the first embodiment or the second embodiment will be omitted as appropriate.

[第3の実施形態の学習装置の構成]
図8を用いて、第3の実施形態の学習装置の構成について説明する。図8は、第3の実施形態に係る学習装置の構成の一例を示す図である。図8に示すように、学習装置20は、制御部21及び記憶部22を有する。制御部21は、変換部210、教師あり学習エラー計算部220、教師なし学習エラー計算部230及び特徴量エラー計算部240を有する。
[Structure of the learning device of the third embodiment]
The configuration of the learning device of the third embodiment will be described with reference to FIG. FIG. 8 is a diagram showing an example of the configuration of the learning device according to the third embodiment. As shown in FIG. 8, the learning device 20 has a control unit 21 and a storage unit 22. The control unit 21 includes a conversion unit 210, a supervised learning error calculation unit 220, an unsupervised learning error calculation unit 230, and a feature amount error calculation unit 240.

変換部210は、ニューラルネットワークを用いて、音声データ又は記号列データを中間特徴量に変換し、中間特徴量を音声データ又は記号列を特定する情報に変換する。変換部210は、ニューラルネットワークであり、学習用データの各々を中間特徴量に変換するエンコーダ層と、中間特徴量を「記号列を特定する情報」に変換するデコーダ層とを有する。エンコーダ層は、音声特徴量符号化部2111及び記号列特徴量符号化部2121を含み、デコーダ層は、記号列復号化部2141を含む。 The conversion unit 210 uses a neural network to convert the voice data or the symbol string data into the intermediate feature amount, and converts the intermediate feature amount into the information for specifying the voice data or the symbol string. The conversion unit 210 is a neural network, and has an encoder layer that converts each of the learning data into an intermediate feature amount, and a decoder layer that converts the intermediate feature amount into "information for specifying a symbol string". The encoder layer includes a voice feature amount coding unit 2111 and a symbol string feature amount coding unit 2121, and the decoder layer includes a symbol string decoding unit 2141.

ここでの中間特徴量とは、音声特徴量符号化部2111の出力である音声特徴量、及び、記号列特徴量符号化部2121の出力である記号列特徴量である。第1の実施形態及び第2の実施形態では、音声特徴量及び記号列特徴量が中間特徴量に変換されるものとして説明した。一方で、第3の実施形態においては、音声特徴量及び記号列特徴量は、中間特徴量そのものである。 The intermediate feature amount here is a voice feature amount which is an output of the voice feature amount coding unit 2111 and a symbol string feature amount which is an output of the symbol string feature amount coding unit 2121. In the first embodiment and the second embodiment, it has been described that the voice feature amount and the symbol string feature amount are converted into the intermediate feature amount. On the other hand, in the third embodiment, the voice feature amount and the symbol string feature amount are the intermediate feature amount itself.

音声特徴量符号化部2111に対応するニューラルネットワークの演算は、第1の実施形態の音声特徴量符号化部211と中間特徴量符号化部213からなる多層ニューラルネットワークの演算と同じである。このため、音声特徴量符号化部2111に対応するニューラルネットワークの演算は、合成関数の形でe(f(・))と表記することができる。 The calculation of the neural network corresponding to the voice feature amount coding unit 2111 is the same as the calculation of the multi-layer neural network including the voice feature amount coding unit 211 and the intermediate feature amount coding unit 213 of the first embodiment. Therefore, the operation of the neural network corresponding to the voice feature amount coding unit 2111 can be expressed as e (f (・)) in the form of a composite function.

また、記号列特徴量符号化部2121に対応するニューラルネットワークの演算は、第1の実施形態の記号列特徴量符号化部212と中間特徴量符号化部213からなる多層ニューラルネットワークの演算と同じである。このため、記号列特徴量符号化部2121に対応するニューラルネットワークの演算は、合成関数の形でe(g(・))と表記することができる。 Further, the calculation of the neural network corresponding to the symbol string feature amount coding unit 2121 is the same as the calculation of the multi-layer neural network including the symbol string feature amount coding unit 212 and the intermediate feature amount coding unit 213 of the first embodiment. Is. Therefore, the operation of the neural network corresponding to the symbol string feature amount coding unit 2121 can be expressed as e (g (・)) in the form of a composite function.

教師あり学習エラー計算部220の音声認識エラー計算部222は、第1の実施形態における認識エラー計算部215と同様の処理を行う。すなわち、教師あり学習エラー計算部220の音声認識エラー計算部222は、教師あり学習用データ中の音声データを変換部210により変換して得られた結果(事後確率)を用いて音声認識エラーを計算する。具体的には、音声認識エラー計算部222は、微分可能な音声認識エラーLpairとして、(1)式の交差エントロピー損失を計算する。 The speech recognition error calculation unit 222 of the supervised learning error calculation unit 220 performs the same processing as the recognition error calculation unit 215 in the first embodiment. That is, the voice recognition error calculation unit 222 of the supervised learning error calculation unit 220 uses the result (posterior probability) obtained by converting the voice data in the supervised learning data by the conversion unit 210 to generate a voice recognition error. calculate. Specifically, the voice recognition error calculation unit 222 calculates the cross entropy loss of the equation (1) as a differentiable voice recognition error L pair.

また、教師なし学習エラー計算部230の記号列復元エラー計算部232は、第1の実施形態における復元エラー計算部216と同様の処理を行う。すなわち、記号列復元エラー計算部232は、(2)式のように、記号列データyと、記号列データyを変換部210で変換して得た事後確率に基づき特定される推定記号列データ^vと、が一致する確率に基づく交差エントロピー損失を、微分可能な記号列復元エラーLsymbolとして計算する。 Further, the symbol string restoration error calculation unit 232 of the unsupervised learning error calculation unit 230 performs the same processing as the restoration error calculation unit 216 in the first embodiment. That is, the symbol string restoration error calculation unit 232 is the estimated symbol string data specified based on the posterior probability obtained by converting the symbol string data y and the symbol string data y by the conversion unit 210 as in the equation (2). The cross-entropy loss based on the probability that ^ v matches is calculated as the divisible symbol string restoration error L symbol.

特徴量エラー計算部240は、学習用に与えられた音声データをニューラルネットワークにより変換して得た中間特徴量の分布と、学習用に与えられた音声データ又は記号列データをニューラルネットワークにより変換して得た中間特徴量の分布との非類似度を表す特徴量エラーLdomを計算する。 The feature amount error calculation unit 240 converts the distribution of the intermediate feature amount obtained by converting the voice data given for learning by the neural network and the voice data or the symbol string data given for learning by the neural network. The feature amount error L dom representing the degree of dissimilarity with the distribution of the intermediate feature amount obtained is calculated.

具体的には、特徴量エラー計算部240は音声認識のタスクに用いる中間特徴量と、他の補助タスクに用いる中間特徴量との非類似度として、特徴量エラーLdomを計算する。ここで、音声認識のタスクとは、教師あり音声データを音声特徴量符号化部211と記号列復号化部214で変換して記号列を特定する情報を得るタスクである、また、音声特徴量とは、教師あり音声データを音声特徴量符号化部211で変換して得た中間特徴量である。また、第3の実施形態において、補助タスクとは、記号列復元のタスクである。 Specifically, the feature amount error calculation unit 240 calculates the feature amount error L dom as the degree of dissimilarity between the intermediate feature amount used for the voice recognition task and the intermediate feature amount used for other auxiliary tasks. Here, the voice recognition task is a task of converting supervised voice data by a voice feature amount coding unit 211 and a symbol string decoding unit 214 to obtain information for specifying a symbol string, and a voice feature amount. Is an intermediate feature amount obtained by converting the supervised voice data by the voice feature amount coding unit 211. Further, in the third embodiment, the auxiliary task is a task of restoring the symbol string.

記号列復元のタスクとは、教師なし記号列データを記号列特徴量符号化部212と記号列復号化部214とにより変換して記号列を得るタスクである。記号列復元のタスクで用いる中間特徴量とは、教師なし記号列データを記号列特徴量符号化部212で変換して得られる中間特徴量である。 The symbol string restoration task is a task of obtaining a symbol string by converting the unsupervised symbol string data by the symbol string feature amount coding unit 212 and the symbol string decoding unit 214. The intermediate feature amount used in the task of symbol string restoration is an intermediate feature amount obtained by converting unsupervised symbol string data by the symbol string feature amount coding unit 212.

特徴量エラーとは、第1の中間特徴量Fn(u)と第2の中間特徴量Fn(v)との非類似度を表す指標であり、例えば、カーネル法に基づく検定における指標であるMMD(Maximum Mean Discrepancy)に基づくエラーを用いることができる。この場合、特徴量エラー計算部240は、(5)式のように特徴量エラーLdomを計算する。ここで、(5)式において、カーネルkは微分可能なものを用いるため、Ldomは微分可能である。 The feature error is an index showing the degree of dissimilarity between the first intermediate feature Fn 1 (u) and the second intermediate feature Fn 2 (v), and is, for example, an index in a test based on the kernel method. An error based on a certain MMD (Maximum Mean Discrepancy) can be used. In this case, the feature amount error calculation unit 240 calculates the feature amount error L dom as in the equation (5). Here, in the equation (5), since the kernel k uses a differentiable one, the L dom is differentiable.

Figure 2021039215
Figure 2021039215

なお、上記の音声認識のタスク及び各補助タスクで得られる各中間特徴量は、第1の特徴量及び第2の特徴量になり得る。また、関数Fn(・)及び関数Fnは、f(・)及びg(・)のいずれかである。例えば、第1の特徴量を音声認識のタスクで得られる音声特徴量f(x´)とし、第2の特徴量を記号列復元のタスクで得られる記号列特徴量g(y)とすることができる。 The voice recognition task and each intermediate feature amount obtained by each auxiliary task can be the first feature amount and the second feature amount. Further, the function Fn 1 (・) and the function Fn 2 are either f (・) or g (・). For example, the first feature amount is the voice feature amount f (x') obtained by the voice recognition task, and the second feature amount is the symbol string feature amount g (y) obtained by the symbol string restoration task. Can be done.

[第3の実施形態の学習装置の処理]
第3の実施形態の学習装置20の処理の流れは、図4に示す第1の実施形態の学習装置20の処理の流れと同様である。また、第3の実施形態の特徴量エラー計算処理は、図7に示す第1の実施形態の特徴量エラー計算処理の流れと同様である。ただし、第3の実施形態の学習装置20は、音声認識エラー計算処理において得られる音声特徴量と、記号列復元エラー計算処理において得られる記号列特徴量との間の特徴量エラーを計算することができる。
[Processing of the learning device of the third embodiment]
The processing flow of the learning device 20 of the third embodiment is the same as the processing flow of the learning device 20 of the first embodiment shown in FIG. Further, the feature amount error calculation process of the third embodiment is the same as the flow of the feature amount error calculation process of the first embodiment shown in FIG. 7. However, the learning device 20 of the third embodiment calculates the feature amount error between the voice feature amount obtained in the voice recognition error calculation process and the symbol string feature amount obtained in the symbol string restoration error calculation process. Can be done.

[第3の実施形態の効果]
第3の実施形態によれば、第1の実施形態と同等の効果を得ることができる。記号列復元エラーは、教師なし音声データに基づいて算出することができる。つまり、記号列復元エラーは、教師なし学習によって最小化を行うことができる。このため、少量の教師あり学習用データに基づいて音声認識エラーを算出することができる。
[Effect of the third embodiment]
According to the third embodiment, the same effect as that of the first embodiment can be obtained. The symbol string restoration error can be calculated based on unsupervised audio data. That is, the symbol string restoration error can be minimized by unsupervised learning. Therefore, the speech recognition error can be calculated based on a small amount of supervised learning data.

また、第3の実施形態では、教師ありの学習データ及び教師なしの学習データを用いて、特徴量エラーを使った学習を行うことができる。このため、第3の実施形態によれば、教師ありの学習データと教師なしの学習データの両方を有効に利用した半教師あり学習を行うことができる。 Further, in the third embodiment, learning using the feature amount error can be performed by using the supervised learning data and the unsupervised learning data. Therefore, according to the third embodiment, semi-supervised learning can be performed by effectively utilizing both the supervised learning data and the unsupervised learning data.

[実験結果]
ここで、図9を用いて、従来技術と実施形態を用いて行った実験について説明する。図9は、第1の実験結果を示す図である。実験では、第1の実施形態の半教師あり学習を用いて学習した音声認識モデルと、従来の教師あり学習手法を用いて学習した音声認識モデル(非特許文献1を参照)とを用いて連続単語認識処理を行った。また、実験条件は以下の通りである。
<従来技術と実施形態で共通の条件>
・教師ありのデータ:15時間、7138発話の小規模なデータセット
・音声データ:1フレーム当たり80次元のFBANK(入力単位は80次元×発話時間、学習用データに基づく平均分散モデルの正規化パラメータで正規化済み)
・記号列を特定する情報:アルファベットや数字等の文字単位の記号の系列
・パラメータ更新アルゴリズム:AdaDelta(並列処理する発話のミニバッチ数は30個)
<実施形態のみの条件>
・特徴量エラー:(3)式のMMD
・教師なしのデータ:81時間、37416発話の大規模なデータセット
[Experimental result]
Here, the experiments performed using the prior art and the embodiments will be described with reference to FIG. FIG. 9 is a diagram showing the results of the first experiment. In the experiment, the speech recognition model learned by using the semi-supervised learning of the first embodiment and the speech recognition model learned by using the conventional supervised learning method (see Non-Patent Document 1) are continuously used. Word recognition processing was performed. The experimental conditions are as follows.
<Conditions common to conventional technology and embodiments>
-Teached data: 15 hours, small dataset of 7138 utterances-Voice data: 80-dimensional FBANK per frame (input unit is 80 dimensions x utterance time, average distribution model normalization parameter based on training data Normalized with)
-Information for identifying symbol strings: Series of symbols in character units such as alphabets and numbers-Parameter update algorithm: AdaDelta (The number of mini-batch of utterances to be processed in parallel is 30)
<Conditions only for the embodiment>
-Feature quantity error: MMD of equation (3)
Unsupervised data: 81 hours, large dataset of 37416 utterances

実験の結果、図9に示すように、実施形態の方が文字誤り率(CER:Character Error Rate)が低くなった。これより、実施形態の手法によれば、従来技術よりも認識精度の高い音声認識モデルを得ることができるといえる。 As a result of the experiment, as shown in FIG. 9, the character error rate (CER) was lower in the embodiment. From this, it can be said that according to the method of the embodiment, a voice recognition model having higher recognition accuracy than the conventional technique can be obtained.

図10は、第2の実験結果を示す図である。実験条件は以下の通りである。
<従来技術と実施形態で共通の条件>
・教師ありのデータ:100時間の小規模なデータセット
・音声データ:1フレーム当たり80次元のFBANK(入力単位は80次元×発話時間、学習用データに基づく平均分散モデルの正規化パラメータで正規化済み)
・記号列を特定する情報:アルファベットや数字等の文字単位の記号の系列
・パラメータ更新アルゴリズム:AdaDelta(並列処理する発話のミニバッチ数は30個)
<実施形態のみの条件>
・特徴量エラー:(5)式のMMD
・教師なしのデータ:860時間の大規模なデータセット(音声のみ:360時間、記号列のみ500時間相当)
FIG. 10 is a diagram showing the results of the second experiment. The experimental conditions are as follows.
<Conditions common to conventional technology and embodiments>
-Teached data: 100 hours small data set-Voice data: 80-dimensional FBANK per frame (input unit is 80 dimensions x utterance time, normalized by the normalization parameter of the average variance model based on learning data Done)
-Information for identifying symbol strings: Series of symbols in character units such as alphabets and numbers-Parameter update algorithm: AdaDelta (The number of mini-batch of utterances to be processed in parallel is 30)
<Conditions only for the embodiment>
-Feature quantity error: MMD of equation (5)
-Unsupervised data: Large data set of 860 hours (voice only: 360 hours, symbol string only equivalent to 500 hours)

実験の結果、図10に示すように、実施形態の方が文字誤り率(CER:Character Error Rate)及び単語誤り率(WER:Word Error Rate)が低くなった。なお、開発CER及び開発WERは、開発セット、すなわちモデルの構築に使ったデータの認識結果である。また、評価CER及び評価WERは、評価セット、すなわちモデルの構築に使わなかったデータの認識結果である。 As a result of the experiment, as shown in FIG. 10, the character error rate (CER: Character Error Rate) and the word error rate (WER: Word Error Rate) were lower in the embodiment. The development CER and the development WE are the recognition results of the data used for constructing the development set, that is, the model. The evaluation CER and the evaluation WE are evaluation sets, that is, recognition results of data not used for building the model.

図10より、実施形態の手法によれば、従来技術よりも認識精度の高い音声認識モデルを得ることができるといえる。 From FIG. 10, it can be said that according to the method of the embodiment, a voice recognition model having higher recognition accuracy than the conventional technique can be obtained.

ここで、実施形態の学習装置との対比のため、従来の教師あり学習法によりend-to-end学習を行う学習装置について説明する。図12は、従来の学習装置の構成を示す図である。図12に示すように、従来の学習装置20aは、制御部21a及び記憶部22aを有する。また、制御部21aは、音声特徴量符号化部211a、記号列復号化部214a、認識エラー計算部215a、更新部218a及び判定部219aを有する。 Here, a learning device that performs end-to-end learning by a conventional supervised learning method will be described for comparison with the learning device of the embodiment. FIG. 12 is a diagram showing a configuration of a conventional learning device. As shown in FIG. 12, the conventional learning device 20a has a control unit 21a and a storage unit 22a. Further, the control unit 21a includes a voice feature amount coding unit 211a, a symbol string decoding unit 214a, a recognition error calculation unit 215a, an update unit 218a, and a determination unit 219a.

学習装置20aは、あらかじめ対応付けられた記号列を特定する情報及び音声データ(教師あり学習用データ)の入力を受け付ける。ここで、音声特徴量符号化部211aは、音声データを、ニューラルネットワークを用いて所定の特徴量に変換する。また、記号列復号化部214aは、音声特徴量符号化部211aによって変換された特徴量を、ニューラルネットワークを用いて記号列を特定する情報に変換する。なお、各ニューラルネットワークのパラメータは、記憶部22aに格納されているものとする。 The learning device 20a receives input of information for specifying a symbol string associated in advance and voice data (supervised learning data). Here, the voice feature amount coding unit 211a converts the voice data into a predetermined feature amount using a neural network. Further, the symbol string decoding unit 214a converts the feature amount converted by the voice feature amount coding unit 211a into information for specifying the symbol string by using the neural network. It is assumed that the parameters of each neural network are stored in the storage unit 22a.

また、認識エラー計算部215aは、記号列復号化部214aによって変換された記号列を特定する情報と、入力された記号列を特定する情報との間のエラーを計算する。更新部218aは、認識エラー計算部215aによって計算されたエラーが小さくなるように、パラメータを更新する。そして、判定部219aは、更新部218aによって更新されたエラーが収束したか否かを判定する。ここで、判定部219aによってパラメータが収束していないと判定された場合、学習装置20aは、さらに処理を繰り返す。 Further, the recognition error calculation unit 215a calculates an error between the information for specifying the symbol string converted by the symbol string decoding unit 214a and the information for specifying the input symbol string. The update unit 218a updates the parameters so that the error calculated by the recognition error calculation unit 215a becomes smaller. Then, the determination unit 219a determines whether or not the error updated by the update unit 218a has converged. Here, when the determination unit 219a determines that the parameters have not converged, the learning device 20a further repeats the process.

[従来の学習装置の処理]
図13を用いて、従来の学習装置の処理について説明する。図13は、従来の学習装置の処理の流れを示すフローチャートである。図13に示すように、まず、学習装置20aは、記憶部22からパラメータを読み込む(ステップS11a)。次に、学習装置20aは、教師ありの音声データ及び記号列を特定する情報の入力を受け付ける(ステップS12a)。
[Processing of conventional learning device]
The processing of the conventional learning apparatus will be described with reference to FIG. FIG. 13 is a flowchart showing a processing flow of the conventional learning device. As shown in FIG. 13, first, the learning device 20a reads the parameters from the storage unit 22 (step S11a). Next, the learning device 20a accepts input of supervised voice data and information for identifying a symbol string (step S12a).

ここで、学習装置20aは、入力された音声データを音声特徴量に変換する(ステップS13a)。次に、学習装置20aは、音声特徴量を記号列を特定する情報に変換する(ステップS14a)。そして、学習装置20aは、変換された記号列を特定する情報及び入力された記号列を特定する情報から認識エラーを計算する(ステップS15a)。 Here, the learning device 20a converts the input voice data into a voice feature amount (step S13a). Next, the learning device 20a converts the voice feature amount into information for specifying the symbol string (step S14a). Then, the learning device 20a calculates the recognition error from the information for specifying the converted symbol string and the information for specifying the input symbol string (step S15a).

ここで、学習装置20aは、認識エラーが小さくなるようにパラメータを更新する(ステップS16a)。そして、学習装置20aは、パラメータが収束したか否かを判定する(ステップS17a)。学習装置20aは、パラメータが収束していないと判定した場合(ステップS17a、No)、ステップS11aに戻り処理を繰り返す。一方、学習装置20aは、パラメータが収束したと判定した場合(ステップS17a、Yes)、処理を終了する。 Here, the learning device 20a updates the parameters so that the recognition error becomes small (step S16a). Then, the learning device 20a determines whether or not the parameters have converged (step S17a). When the learning device 20a determines that the parameters have not converged (steps S17a, No), the learning device 20a returns to step S11a and repeats the process. On the other hand, when the learning device 20a determines that the parameters have converged (steps S17a, Yes), the learning device 20a ends the process.

[その他の実施形態]
実施形態の学習装置20の、音声特徴量符号化部211、中間特徴量符号化部213及び記号列復号化部214のそれぞれに対応するニューラルネットワークは、従来の学習装置20aで用いられるものと同様のものであってもよい。このため、例えば、従来の学習装置20aを用いた教師あり学習により各ニューラルネットワークのパラメータの初期値を決定しておくことができる。つまり、学習装置20は、学習装置20aで学習されたニューラルネットワークf(・)、e(・)、d(・)に、ニューラルネットワークg(・)を(第二実施形態の場合はさらにニューラルネットワークh(・)も)加えてさらに学習を行うことができる。
[Other Embodiments]
The neural network corresponding to each of the voice feature amount coding unit 211, the intermediate feature amount coding unit 213, and the symbol string decoding unit 214 of the learning device 20 of the embodiment is the same as that used in the conventional learning device 20a. It may be. Therefore, for example, the initial values of the parameters of each neural network can be determined by supervised learning using the conventional learning device 20a. That is, the learning device 20 adds the neural network g (・) to the neural networks f (・), e (・), and d (・) learned by the learning device 20a (in the case of the second embodiment, further neural networks. In addition to h (・), further learning can be performed.

[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[System configuration, etc.]
Further, each component of each of the illustrated devices is a functional concept, and does not necessarily have to be physically configured as shown in the figure. That is, the specific form of distribution and integration of each device is not limited to the one shown in the figure, and all or part of the device is functionally or physically dispersed or physically distributed in arbitrary units according to various loads and usage conditions. Can be integrated and configured. Further, each processing function performed by each device may be realized by a CPU and a program analyzed and executed by the CPU, or may be realized as hardware by wired logic.

また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。 Further, among the processes described in the present embodiment, all or part of the processes described as being automatically performed can be manually performed, or the processes described as being manually performed can be performed. All or part of it can be done automatically by a known method. In addition, the processing procedure, control procedure, specific name, and information including various data and parameters shown in the above document and drawings can be arbitrarily changed unless otherwise specified.

[プログラム]
一実施形態として、学習装置20は、パッケージソフトウェアやオンラインソフトウェアとして上記の学習処理を実行する学習プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の学習プログラムを情報処理装置に実行させることにより、情報処理装置を学習装置20として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
[program]
In one embodiment, the learning device 20 can be implemented by installing a learning program that executes the above learning process as package software or online software on a desired computer. For example, by causing the information processing device to execute the above learning program, the information processing device can function as the learning device 20. The information processing device referred to here includes a desktop type or notebook type personal computer. In addition, information processing devices include smartphones, mobile communication terminals such as mobile phones and PHS (Personal Handyphone System), and slate terminals such as PDAs (Personal Digital Assistants).

また、学習装置20は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の学習処理に関するサービスを提供する学習サーバ装置として実装することもできる。例えば、学習サーバ装置は、音声データ及び記号列データを入力とし、パラメータを出力とする学習サービスを提供するサーバ装置として実装される。この場合、学習サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の学習処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。 Further, the learning device 20 can be implemented as a learning server device in which the terminal device used by the user is a client and the service related to the above learning process is provided to the client. For example, the learning server device is implemented as a server device that provides a learning service that inputs voice data and symbol string data and outputs parameters. In this case, the learning server device may be implemented as a Web server, or may be implemented as a cloud that provides the above-mentioned services related to the learning process by outsourcing.

図11は、学習プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。 FIG. 11 is a diagram showing an example of a computer that executes a learning program. The computer 1000 has, for example, a memory 1010 and a CPU 1020. The computer 1000 also has a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. Each of these parts is connected by a bus 1080.

メモリ1010は、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。 The memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM (Random Access Memory) 1012. The ROM 1011 stores, for example, a boot program such as a BIOS (Basic Input Output System). The hard disk drive interface 1030 is connected to the hard disk drive 1090. The disk drive interface 1040 is connected to the disk drive 1100. For example, a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1100. The serial port interface 1050 is connected to, for example, a mouse 1110 and a keyboard 1120. The video adapter 1060 is connected to, for example, the display 1130.

ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、学習装置20の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、学習装置20における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSDにより代替されてもよい。 The hard disk drive 1090 stores, for example, the OS 1091, the application program 1092, the program module 1093, and the program data 1094. That is, the program that defines each process of the learning device 20 is implemented as a program module 1093 in which a code that can be executed by a computer is described. The program module 1093 is stored in, for example, the hard disk drive 1090. For example, the program module 1093 for executing the same processing as the functional configuration in the learning device 20 is stored in the hard disk drive 1090. The hard disk drive 1090 may be replaced by an SSD.

また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020は、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した実施形態の処理を実行する。 Further, the setting data used in the processing of the above-described embodiment is stored as program data 1094 in, for example, a memory 1010 or a hard disk drive 1090. Then, the CPU 1020 reads the program module 1093 and the program data 1094 stored in the memory 1010 and the hard disk drive 1090 into the RAM 1012 as needed, and executes the processing of the above-described embodiment.

なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。 The program module 1093 and the program data 1094 are not limited to those stored in the hard disk drive 1090, but may be stored in, for example, a removable storage medium and read by the CPU 1020 via the disk drive 1100 or the like. Alternatively, the program module 1093 and the program data 1094 may be stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.). Then, the program module 1093 and the program data 1094 may be read by the CPU 1020 from another computer via the network interface 1070.

10 音声認識装置
11、21 制御部
12、22 記憶部
20 学習装置
110、210 変換部
111、211、2111 音声特徴量符号化部
113、213 中間特徴量符号化部
114、214、2141 記号列復号化部
212、2121 記号列特徴量符号化部
215 認識エラー計算部
216 復元エラー計算部
217、240 特徴量エラー計算部
218 更新部
219 判定部
220 教師あり学習エラー計算部
222 音声認識エラー計算部
230 教師なし学習エラー計算部
232 記号列復元エラー計算部
10 Speech recognition device 11, 21 Control unit 12, 22 Storage unit 20 Learning device 110, 210 Conversion unit 111, 211, 2111 Voice feature amount coding unit 113, 213 Intermediate feature amount coding unit 114, 214, 2141 Symbol string decoding Chemical unit 212, 2121 Symbol string feature quantity coding unit 215 Recognition error calculation unit 216 Restoration error calculation unit 217, 240 Feature quantity error calculation unit 218 Update unit 219 Judgment unit 220 Supervised learning error calculation unit 222 Speech recognition error calculation unit 230 Unsupervised learning error calculation unit 232 Symbol string restoration error calculation unit

Claims (6)

ニューラルネットワークにより、音声データを、記号列を特定する情報に変換する音声認識モデルのパラメータを学習する学習装置であって、
音声データと記号列データとが対応付けられた学習用データを用いて、前記学習用データ中の音声データを前記ニューラルネットワークにより変換して得た記号列を特定する情報に基づき推定される記号列データの推定結果と、前記学習用データ中の当該音声データに対応する記号列データとの非類似度を表す音声認識エラーを計算する音声認識エラー計算部と、
音声データが対応付けられていない記号列データである教師なし記号列データを用いて、当該教師なし記号列データを前記ニューラルネットワークにより変換して得た記号列を特定する情報に基づき推定される記号列データの推定結果と、前記教師なし記号列データとの非類似度を表す記号列復元エラーを計算する記号列復元エラー計算部と、
前記音声認識エラーと前記記号列復元エラーとから計算される所定の基準に基づき、前記ニューラルネットワークのパラメータを更新する更新部と、
を有することを特徴とする学習装置。
A learning device that learns the parameters of a speech recognition model that converts speech data into information that identifies a symbol string using a neural network.
A symbol string estimated based on information that identifies a symbol string obtained by converting the voice data in the training data by the neural network using the training data in which the voice data and the symbol string data are associated with each other. A voice recognition error calculation unit that calculates a voice recognition error representing a dissimilarity between the data estimation result and the symbol string data corresponding to the voice data in the training data.
A symbol estimated based on information that identifies a symbol string obtained by converting the unsupervised symbol string data by the neural network using unsupervised symbol string data that is symbol string data to which voice data is not associated. A symbol string restoration error calculation unit that calculates a symbol string restoration error indicating the degree of dissimilarity between the estimation result of the column data and the unsupervised symbol string data, and
An update unit that updates the parameters of the neural network based on a predetermined reference calculated from the voice recognition error and the symbol string restoration error.
A learning device characterized by having.
前記ニューラルネットワークは、
記号列データを中間特徴量に変換する記号列特徴量符号化部と、
音声データを中間特徴量に変換する音声特徴量符号化部と、
前記中間特徴量を記号列を特定する情報に変換する記号列復号化部と、
前記中間特徴量を音声データに変換する音声復号化部と、
を有し、
前記音声認識エラー計算部における前記記号列を特定する情報の推定結果は、前記学習用データ中の音声データを前記音声特徴量符号化部により変換して得た中間特徴量を、前記記号列復号化部により変換して得たものであり、
前記記号列復元エラー計算部における前記音声データの推定結果は、前記教師なし記号列データを前記記号列特徴量符号化部により変換して得た中間特徴量を、前記記号列復号化部により変換して得たものである
ことを特徴とする請求項1に記載の学習装置。
The neural network
A symbol string feature coding unit that converts symbol string data into intermediate features, and
A voice feature coding unit that converts voice data into intermediate features,
A symbol string decoding unit that converts the intermediate feature amount into information that identifies the symbol string, and
An audio decoding unit that converts the intermediate features into audio data,
Have,
The estimation result of the information for identifying the symbol string in the voice recognition error calculation unit is obtained by decoding the intermediate feature amount obtained by converting the voice data in the learning data by the voice feature amount coding unit. It was obtained by converting it by the conversion part.
The estimation result of the voice data in the symbol string restoration error calculation unit is obtained by converting the intermediate feature amount obtained by converting the unsupervised symbol string data by the symbol string feature quantity coding unit by the symbol string decoding unit. The learning device according to claim 1, wherein the learning device is obtained in the above manner.
学習用に与えられた音声データを前記ニューラルネットワークにより変換して得た中間特徴量の分布と、学習用に与えられた記号列データを前記ニューラルネットワークにより変換して得た中間特徴量の分布との非類似度を表す特徴量エラーを計算する特徴量エラー計算部をさらに有し、
前記更新部は、前記音声認識エラーと前記記号列復元エラーと前記特徴量エラーとに基づき、前記ニューラルネットワークのパラメータを更新する
ことを特徴とする請求項1又は2に記載の学習装置。
The distribution of the intermediate features obtained by converting the voice data given for learning by the neural network, and the distribution of the intermediate features obtained by converting the symbol string data given for learning by the neural network. It also has a feature error calculation unit that calculates feature errors that represent the dissimilarity of
The learning device according to claim 1 or 2, wherein the updating unit updates the parameters of the neural network based on the voice recognition error, the symbol string restoration error, and the feature amount error.
前記ニューラルネットワークのパラメータの更新は、前記所定の基準を最小化するように行われる
ことを特徴とする請求項1から3のいずれか1項に記載の学習装置。
The learning apparatus according to any one of claims 1 to 3, wherein the update of the parameters of the neural network is performed so as to minimize the predetermined reference.
ニューラルネットワークにより、音声データを、記号列を特定する情報に変換する音声認識モデルのパラメータを学習する学習装置が実行する学習方法であって、
音声データと記号列データとが対応付けられた学習用データを用いて、前記学習用データ中の音声データを前記ニューラルネットワークにより変換して得た記号列を特定する情報に基づき推定される記号列データの推定結果と、前記学習用データ中の当該音声データに対応する記号列データとの非類似度を表す音声認識エラーを計算する音声認識エラー計算工程と、
音声データが対応付けられていない記号列データである教師なし記号列データを用いて、当該教師なし記号列データを前記ニューラルネットワークにより変換して得た記号列を特定する情報に基づき推定される記号列データの推定結果と、前記教師なし記号列データとの非類似度を表す記号列復元エラーを計算する記号列復元エラー計算工程と、
前記音声認識エラーと前記記号列復元エラーとから計算される所定の基準に基づき、前記ニューラルネットワークのパラメータを更新する更新工程と、
を含むことを特徴とする学習方法。
It is a learning method executed by a learning device that learns the parameters of a speech recognition model that converts speech data into information that identifies a symbol string by a neural network.
A symbol string estimated based on information that identifies a symbol string obtained by converting the voice data in the training data by the neural network using the training data in which the voice data and the symbol string data are associated with each other. A voice recognition error calculation process for calculating a voice recognition error representing a dissimilarity between the data estimation result and the symbol string data corresponding to the voice data in the training data, and
A symbol estimated based on information that identifies a symbol string obtained by converting the unsupervised symbol string data by the neural network using unsupervised symbol string data that is symbol string data to which voice data is not associated. A symbol string restoration error calculation step for calculating a symbol string restoration error indicating the degree of dissimilarity between the estimation result of the column data and the unsupervised symbol string data, and
An update process for updating the parameters of the neural network based on a predetermined criterion calculated from the voice recognition error and the symbol string restoration error, and
A learning method characterized by including.
コンピュータを、請求項1から4のいずれか1項に記載の学習装置として機能させるための学習プログラム。 A learning program for operating a computer as the learning device according to any one of claims 1 to 4.
JP2019159950A 2019-09-02 2019-09-02 Learning device, learning method, and learning program Pending JP2021039215A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019159950A JP2021039215A (en) 2019-09-02 2019-09-02 Learning device, learning method, and learning program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019159950A JP2021039215A (en) 2019-09-02 2019-09-02 Learning device, learning method, and learning program

Publications (1)

Publication Number Publication Date
JP2021039215A true JP2021039215A (en) 2021-03-11

Family

ID=74849173

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019159950A Pending JP2021039215A (en) 2019-09-02 2019-09-02 Learning device, learning method, and learning program

Country Status (1)

Country Link
JP (1) JP2021039215A (en)

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KARITA, SHIGEKI, ET AL.: ""SEMI-SUPERVISED END-TO-END SPEECH RECOGNITION USING TEXT-TO-SPEECH AND AUTOENCODERS"", 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICES, SPEECH AND SIGNAL PROCESSING, JPN6022029639, 17 May 2019 (2019-05-17), pages 6166 - 6170, ISSN: 0004977026 *
呉 益明: "音楽音響信号に対するラベル・テクスチャ分離型変分自己符号化器を用いた半教師ありコード推定", 情報処理学会 研究報告 音楽情報科学(MUS) 2019−MUS−124 [ONLINE], JPN6023003283, 28 August 2019 (2019-08-28), JP, pages 1 - 6, ISSN: 0004977027 *

Similar Documents

Publication Publication Date Title
US11113479B2 (en) Utilizing a gated self-attention memory network model for predicting a candidate answer match to a query
JP6222821B2 (en) Error correction model learning device and program
US20190287515A1 (en) Adversarial Teacher-Student Learning for Unsupervised Domain Adaptation
KR102189688B1 (en) Mehtod for extracting synonyms
JP6831343B2 (en) Learning equipment, learning methods and learning programs
Mukherjee et al. Utilization of oversampling for multiclass sentiment analysis on amazon review dataset
US20230237993A1 (en) Systems and Methods for Training Dual-Mode Machine-Learned Speech Recognition Models
KR20190136578A (en) Method and apparatus for speech recognition
CN112634992A (en) Molecular property prediction method, training method of model thereof, and related device and equipment
CN115831102A (en) Speech recognition method and device based on pre-training feature representation and electronic equipment
CN113609284A (en) Method and device for automatically generating text abstract fused with multivariate semantics
US20210073645A1 (en) Learning apparatus and method, and program
US20220309292A1 (en) Growing labels from semi-supervised learning
CN116361442B (en) Business hall data analysis method and system based on artificial intelligence
JP2023542057A (en) Training a neural network using graph-based temporal classification
JP2021039220A (en) Speech recognition device, learning device, speech recognition method, learning method, speech recognition program, and learning program
JP7329393B2 (en) Audio signal processing device, audio signal processing method, audio signal processing program, learning device, learning method and learning program
JP2021039218A (en) Learning device, learning method, and learning program
CN111797220A (en) Dialog generation method and device, computer equipment and storage medium
JP2021039215A (en) Learning device, learning method, and learning program
Yang et al. A chaotic time series prediction model for speech signal encoding based on genetic programming
JP6646337B2 (en) Audio data processing device, audio data processing method, and audio data processing program
CN113849634B (en) Method for improving interpretability of depth model recommendation scheme
JP2021039217A (en) Learning device, learning method, and learning program
Luo et al. CoChat: Enabling bot and human collaboration for task completion

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20190917

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20190917

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20190924

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211021

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220711

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220719

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221017

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230131