JP6970345B2

JP6970345B2 - 学習装置、音声認識装置、学習方法、音声認識方法およびプログラム

Info

Publication number: JP6970345B2
Application number: JP2018154945A
Authority: JP
Inventors: 亮増村; 智大田中
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-08-21
Filing date: 2018-08-21
Publication date: 2021-11-24
Anticipated expiration: 2038-08-21
Also published as: US20210319783A1; WO2020039728A1; JP2020030286A

Description

本発明は、学習装置、音声認識装置、学習方法、音声認識方法およびプログラムに関する。

国際化の進展とともに、母国語でない言語を人が話す機会が増えてきている。特に、英語は世界的な共通語として、全世界で人が英語を話す様々な場面が見られる。以下では、ある言語を対象とした場合に、その言語を母国語とする話者をネイティブ話者と称し、その言語を母国語としない話者をノンネイティブ話者と称する。また、ネイティブ話者がその言語で発話した音声データをネイティブ音声データと称し、ノンネイティブ話者がその言語で発話した音声データをノンネイティブ音声データと称する。

ノンネイティブ話者が登場する具体的な場面として、国際会議などが挙げられる。国際会議では、英語についてのノンネイティブ話者同士が英語を介してコミュニケーションをとることが一般的になってきている。しかしながら、ノンネイティブ話者の発音は、ネイティブ話者の発音とは大きく異なるため、コミュニケーションが困難となることがある。特に、母国語が異なるノンネイティブ話者同士が会話する際にコミュニケーションが困難となることがある。例えば、インド人は日本人が話す英語を聞きとることが難しく、日本人はインド人が話す英語を聞きとることが難しいことなどが知られている。そこで、ある言語についてのノンネイティブ話者同士がコミュニケーションをとる場合において、音声認識を用いることでコミュニケーションの円滑化を図ることが期待される。すなわち、音声のままでは聞きとることが困難であっても、テキストに変換することができれば、発話内容を容易に理解できることが期待できる。そのためには、ノンネイティブ話者向けの音声認識の高度化が必要となる。

近年の音声認識システムで用いられている音響モデルは、Deep Neural Network（Convolutional Neural NetworkおよびRecurrent Neural Networkなどを含む）を用いた音響モデル（以下、「ＤＮＮ音響モデル」と称する）である。ＤＮＮ音響モデルは公知技術であり、代表的なモデル構造および計算方法などの詳細は、例えば、非特許文献１および非特許文献２に記載されている。

上述した背景から、ノンネイティブ話者向けの音声認識システムには、ノンネイティブ音声データから学習した音響モデルを用いることが有効である。しかしながら、ノンネイティブ話者向けの音響モデルを構築するために、ノンネイティブ音声データを大量に集めることは困難である。そこで、ノンネイティブ音声データとネイティブ音声データとを併用して音響モデルを学習することがしばしば行われる。例えば、非特許文献３には、ネイティブ音声データとノンネイティブ音声データとを併用してＤＮＮ音響モデルを学習する技術が記載されている。

背景技術としての非特許文献３に記載されている技術をより詳細に説明する。

＜ＤＮＮ音響モデルの学習＞
ＤＮＮ音響モデルの学習における入出力は以下の通りである。
入力：Ｄ＝ノンネイティブ音声データの集合＋ネイティブ音声データの集合
出力：θ＝ノンネイティブ向けＤＮＮ音響モデルのモデルパラメータ群
音声データの集合Ｄは、音声データＸとその音素列Ｓとのペア（Ｓ，Ｘ）が１個以上含まれたデータ集合である。学習では、以下の式（１）に基づき、モデルパラメータ群θが決定される。

＜ノンネイティブ話者向けの音声認識＞
ノンネイティブ話者向けの音声認識における入出力は以下の通りである。
入力：Ｘ＝ノンネイティブ音声、モデルパラメータ群θを有するＤＮＮ音響モデル
出力：Ｏ＝音素に対する事後確率系列
出力（事後確率系列Ｏ）をもとに音声認識が行われる。事後確率系列Ｏをもとに音声認識を行う方法は、公知であり、例えば、上述した非特許文献１および非特許文献２などに記載されているため、説明を省略する。

G. Hinton, L. Deng, D. Yu, G. Dahl, A. rahman Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen, B. Kingsbury, and T. Sainath, "Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups," IEEE Signal Processing Magazine, pp. 82-97, 2012. G. E. Dahl, D. Yu, L. Deng, and A. Acero, "Context-dependent pretrained deep neural networks for large-vocabulary speech recognition," IEEE transactions on Audio, Speech and Language Processing, vol. 20, pp. 30-42, 2012. 木菱裕志, 中川聖一, "DNN-HMMによる日本人英語音声の認識", 日本音響学会講演論文集, 2013年

上述した非特許文献３に記載されている技術は、ノンネイティブ音声データおよびネイティブ音声データの両方に対して音声認識性能（音素識別性能）が最大になるように学習したモデルパラメータ群を用いる技術である。そのため、非特許文献３に記載されている技術では、音声認識対象とするノンネイティブ音声の発音が、ネイティブ音声の発音と近い場合には、高い音声認識性能を得ることができる。一方、非特許文献３に記載されている技術では、音声認識対象とするノンネイティブ音声の発音が、ネイティブ音声の発音と大きく異なる場合には、ノンネイティブ音声に対する音声認識性能が低くなってしまうという課題がある。

例えば、日本人が英語で発話したノンネイティブ音声を音声認識対象とする場合、英語を十分に勉強し、ネイティブに近い発音が可能な話者によるノンネイティブ音声であれば、非特許文献３に記載されている技術により高い音声認識性能を実現することができる。一方、英語を勉強したばかりで日本語の音素をつないだような発音の話者によるノンネイティブ音声の場合、非特許文献３に記載されている技術では、高い音声認識性能を実現することができない。

なお、非特許文献３に記載されている技術では、ノンネイティブ話者の母国語の音声データを音響モデルの学習に活用することができない。例えば、日本人が話す英語向けの音響モデルを構築する場合に、非特許文献３に記載されている技術では、日本人が話す日本語の音声データを活用することができない。これは、ノンネイティブ話者の母国語の音声データに含まれる音素集合と、音声認識の対象としている言語の音素集合とが異なるため、ノンネイティブ話者の母国語の音声データが、音響モデルの学習データとして適合していないからである。

上記のような問題点に鑑みてなされた本発明の目的は、音声認識対象とするノンネイティブ音声データの発音が、ネイティブ音声データの発音と大きく異なる場合にも、音声認識性能の向上を図ることができる学習装置、音声認識装置、学習方法、音声認識方法およびプログラムを提供することにある。

上記課題を解決するため、本発明に係る学習装置は、入力音声の音声認識に用いられるパラメータを学習する学習装置であって、前記入力音声を、第１の言語において音素を識別するための情報を含む特徴量の系列である第１の言語向け音韻気付き特徴量系列に変換するための第１のモデルパラメータ群を、前記第１の言語を母国語とする話者が前記第１の言語で発話する音声データの集合を用いて学習する第１のモデルパラメータ群学習部と、前記入力音声を、第２の言語において音素を識別するための情報を含む特徴量の系列である第２の言語向け音韻気付き特徴量系列に変換するための第２のモデルパラメータ群を、前記第２の言語を母国語とする話者が前記第２の言語で発話する音声データの集合を用いて学習する第２のモデルパラメータ群学習部と、前記入力音声から前記第１の言語の音素に対する事後確率系列を生成するための第３のモデルパラメータ群を、前記第１のモデルパラメータ群、前記第２のモデルパラメータ群、および、前記第２の言語を母国語とする話者が前記第１の言語で発話する音声データの集合を用いて学習する第３のモデルパラメータ群学習部と、を備える。

また、上記課題を解決するため、本発明に係る音声認識装置は、上記の学習装置により学習された前記第１から第３のモデルパラメータ群を用いて、前記入力音声の音声認識を行う音声認識装置であって、前記第１のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列を、前記第１の言語向け音韻気付き特徴量系列に変換する第１の音韻気付き特徴量抽出部と、前記第２のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列を、前記第２の言語向け音韻気付き特徴量系列に変換する第２の音韻気付き特徴量抽出部と、前記第３のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列と、前記第１の言語向け音韻気付き特徴量系列と、前記第２の言語向け音韻気付き特徴量系列とから前記事後確率系列を生成する音韻認識部と、前記事後確率系列に基づき音声認識を行い、音声認識結果のテキストを出力する音声テキスト変換部と、を備える。

また、上記課題を解決するため、本発明に係る学習方法は、入力音声の音声認識に用いられるパラメータを学習する学習装置における学習方法であって、前記入力音声を、第１の言語において音素を識別するための情報を含む特徴量の系列である第１の言語向け音韻気付き特徴量系列に変換するための第１のモデルパラメータ群を、前記第１の言語を母国語とする話者が前記第１の言語で発話する音声データの集合を用いて学習するステップと、前記入力音声を、第２の言語において音素を識別するための情報を含む特徴量の系列である第２の言語向け音韻気付き特徴量系列に変換するための第２のモデルパラメータ群を、前記第２の言語を母国語とする話者が前記第２の言語で発話する音声データの集合を用いて学習するステップと、前記入力音声から前記第１の言語の音素に対する事後確率系列を生成するための第３のモデルパラメータ群を、前記第１のモデルパラメータ群、前記第２のモデルパラメータ群、および、前記第２の言語を母国語とする話者が前記第１の言語で発話する音声データの集合を用いて学習するステップと、を含む。

また、上記課題を解決するため、本発明に係る音声認識方法は、請求項３に記載の学習方法により学習された前記第１から第３のモデルパラメータ群を用いて、前記入力音声の音声認識を行う音声認識装置における音声認識方法であって、前記第１のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列を、前記第１の言語向け音韻気付き特徴量系列に変換するステップと、前記第２のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列を、前記第２の言語向け音韻気付き特徴量系列に変換するステップと、前記第３のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列と、前記第１の言語向け音韻気付き特徴量系列と、前記第２の言語向け音韻気付き特徴量系列とから前記事後確率系列を生成するステップと、前記事後確率系列に基づき音声認識を行い、音声認識結果のテキストを出力するステップと、を含む。

また、上記課題を解決するため、本発明に係るプログラムは、コンピュータを上記の学習装置として機能させる。

また、上記課題を解決するため、本発明に係るプログラムは、コンピュータを上記の音声認識装置として機能させる。

本発明に係る学習装置、音声認識装置、学習方法、音声認識方法およびプログラムによれば、音声認識対象とするノンネイティブ音声データの発音が、ネイティブ音声データの発音と大きく異なる場合にも、音声認識性能の向上を図ることができる。

本発明の一実施形態に係る音声認識装置の構成例を示す図である。本発明の一実施形態に係る学習装置の構成例を示す図である。図２に示す第１のモデルパラメータ群学習部によるモデルパラメータ群の学習について説明するための図である。図１に示す音声認識装置における音声認識方法について説明するためのフローチャートである。図２に示す学習装置における学習方法について説明するためのフローチャートである。

以下、本発明を実施するための形態について、図面を参照しながら説明する。各図中、同一符号は、同一または同等の構成要素を示している。

図１は、本発明の一実施形態に係る音声認識装置１０の構成例を示す図である。本実施形態に係る音声認識装置１０は、音声認識対象の言語についてのノンネイティブ話者が発話した音声を入力音声とし、その入力音声に対する音声認識結果のテキストを出力するものである。

以下では、２つの言語（言語１、言語２）と、３つのデータ集合（データ集合Ａ、データ集合Ｂ、データ集合Ｃ）を定義する。

第１の言語としての言語１は、ノンネイティブ話者が発話する音声認識対象の言語である。例えば、日本人が英語で発話する音声の音声認識を行う例では、言語1は英語である。第２の言語としての言語２は、音声認識対象の言語についてのノンネイティブ話者の母国語である。上述した、日本人が英語で発話する音声の音声認識を行う例では、言語２は日本語である。

データ集合Ａは、言語１を母国語とする話者が言語１で発話する音声データの集合である。データ集合Ｂは、言語２を母国語とする話者が言語２で発話する音声データの集合である。データ集合Ｃは、言語２を母国語とする話者が言語１で発話する音声データの集合である。すなわち、データ集合Ｃは、ノンネイティブ音声データの集合である。

図１に示す音声認識装置１０は、言語１向け音韻気付き特徴量抽出部１１と、言語２向け音韻気付き特徴量抽出部１２と、ノンネイティブ話者向け音韻識別部１３と、音声テキスト変換部１４とを備える。

第１の音韻気付き特徴量抽出部としての言語１向け音韻気付き特徴量抽出部１１は、第１のモデルパラメータ群としてのモデルパラメータ群θ_１を用いて、入力音声の音響特徴量系列Ｘを、第１の言語向け音韻気付き特徴量系列としての言語１向け音韻気付き特徴量系列Ａに変換する。

第２の音韻気付き特徴量抽出部としての言語２向け音韻気付き特徴量抽出部１２は、第２のモデルパラメータ群としてのモデルパラメータ群θ_２を用いて、入力音声の音響特徴量系列Ｘを、第２の言語向け音韻気付き特徴量系列としての言語２向け音韻気付き特徴量系列Ｂに変換する。

音韻認識部としてのノンネイティブ話者向け音韻識別部１３は、第３のモデルパラメータ群としてのモデルパラメータ群θ_３を用いて、入力音声の音響特徴量系列Ｘと、言語１向け音韻気付き特徴量系列Ａと、言語２向け音韻気付き特徴量系列Ｂとから、言語１の音素に対する事後確率系列Ｏを生成する。

音声テキスト変換部１４は、事後確率系列Ｏに基づき音声認識を行い、音声認識結果のテキストを出力する。

なお、入力音声は、音響特徴量系列Ｘに変換して、音声認識装置１０に入力される。音響特徴量としては任意のものを利用することができ、例えば、メル周波数ケプストラム係数、メル周波数ケプストラム係数に対して、正規化などの変換をしたもの、あるいは、時間的に前後する複数個の特徴量を結合したものなど、任意のものを利用することができる。音響特徴量は、短時間のインターバル（例えば、０．０１秒ごと）で抽出されるものであり、音声は、音響特徴量の系列（音響特徴量系列）として扱うことできる。以下では、音響特徴量系列Ｘ＝（ｘ_１，．．．，ｘ_Ｔ）と表す。なお、ｘ_ｔは、ｔフレーム目の音響特徴量である。

また、音韻気付き特徴量とは、音素を識別するための情報を含む特徴量である。具体的には、音韻気付き特徴量は、音素を弁別するように学習されたモデルを用いることで抽出できる特徴量である。

以下では、音声認識装置１０が備える各部の動作について、より詳細に説明する。まず、言語１向け音韻気付き特徴量抽出部１１について説明する。

言語１向け音韻気付き特徴量抽出部１１は、入力音声の音響特徴量系列Ｘ＝（ｘ_１，．．．，ｘ_Ｔ）およびモデルパラメータ群θ_１を入力とし、言語１向け音韻気付き特徴量系列Ａ＝（ａ_１，．．．，ａ_Ｔ）を出力する。言語１向け音韻気付き特徴量抽出部１１は、モデルパラメータ群θ_１を用いて、入力音声の音響特徴量系列Ｘ＝（ｘ_１，．．．，ｘ_Ｔ）を、言語１向け音韻気付き特徴量系列Ａ＝（ａ_１，．．．，ａ_Ｔ）に変換する。音響特徴量系列Ｘおよび言語１向け音韻気付き特徴量系列Ａはともに、長さがＴである。言語１向け音韻気付き特徴量抽出部１１は、以下の式（２）に従い、音響特徴量系列Ｘを言語１向け音韻気付き特徴量系列Ａに変換する。

DNN()は、上述したＤＮＮを用いた非線形変換関数であり、様々な構成を用いることが可能である。例えば、DNN()は、３層のニューラルネットワークを用いて実現することができる。モデルパラメータ群θ_１は、後述する学習により推定されるモデルパラメータ群である。

次に、言語２向け音韻気付き特徴量抽出部１２について説明する。

言語２向け音韻気付き特徴量抽出部１２は、入力音声の音響特徴量系列Ｘ＝（ｘ_１，．．．，ｘ_Ｔ）およびモデルパラメータ群θ_２を入力とし、言語２向け音韻気付き特徴量系列Ｂ＝（ｂ_１，．．．，ｂ_Ｔ）を出力する。言語２向け音韻気付き特徴量抽出部１２は、モデルパラメータ群θ_２を用いて、入力音声の音響特徴量系列Ｘ＝（ｘ_１，．．．，ｘ_Ｔ）を、言語２向け音韻気付き特徴量系列Ｂ＝（ｂ_１，．．．，ｂ_Ｔ）に変換する。ここで、音響特徴量系列Ｘおよび言語２向け音韻気付き特徴量系列Ｂはともに、長さがＴである。言語２向け音韻気付き特徴量抽出部１２は、以下の式（３）に従い、音響特徴量系列Ｘを言語２向け音韻気付き特徴量系列Ｂに変換する。

DNN()は、上述したＤＮＮを用いた非線形変換関数であり、様々な構成を用いることが可能である。例えば、DNN()は、３層のニューラルネットワークを用いて実現することができる。モデルパラメータ群θ_２は、後述する学習により推定されるモデルパラメータ群である。

次に、ノンネイティブ話者向け音韻識別部１３について説明する。

ノンネイティブ話者向け音韻識別部１３は、入力音声の音響特徴量系列Ｘ＝（ｘ_１，．．．，ｘ_Ｔ）、言語１向け音韻気付き特徴量系列Ａ＝（ａ_１，．．．，ａ_Ｔ）、言語２向け音韻気付き特徴量系列Ｂ＝（ｂ_１，．．．，ｂ_Ｔ）およびモデルパラメータ群θ_３を入力とし、音素に対する事後確率系列Ｏ＝（ｏ_１，．．．，ｏ_Ｔ）を出力する。ノンネイティブ話者向け音韻識別部１３は、モデルパラメータ群θ_３を用いて、入力音声の音響特徴量系列Ｘ＝（ｘ_１，．．．，ｘ_Ｔ）と、言語１向け音韻気付き特徴量系列Ａ＝（ａ_１，．．．，ａ_Ｔ）と、言語２向け音韻気付き特徴量系列Ｂ＝（ｂ_１，．．．，ｂ_Ｔ）とから、音素に対する事後確率系列Ｏ＝（ｏ_１，．．．，ｏ_Ｔ）を生成する。

具体的には、ノンネイティブ話者向け音韻識別部１３はまず、入力された各特徴量系列から新たなベクトル系列Ｃ＝（ｃ_１，．．．，ｃ_Ｔ）を作成する。ここで、ノンネイティブ話者向け音韻識別部１３は、ｃ_ｔを以下の式（４）に従い生成する。

式（４）において、Ｔは転置記号である。つまり、ｃ_ｔはｘ_ｔａ_ｔｂ_ｔを並べたベクトルとして表される。

ノンネイティブ話者向け音韻識別部１３は、以下の式（５）に従い、ベクトル系列Ｃから音素に対する事後確率系列Ｏを生成する。

INPUTtoPosteriorgram()は、上述したＤＮＮを用いた非線形変換関数であり、様々な構成を用いることが可能である。例えば、INPUTtoPosteriorgram()は、５層のニューラルネットワークで、最終層をソフトマックス関数とすることで実現することができる。モデルパラメータ群θ_３は、後述する学習により推定されるモデルパラメータ群である。

次に、音声テキスト変換部１４について説明する。

音声テキスト変換部１４は、音素に対する事後確率系列Ｏ＝（ｏ_１，．．．，ｏ_Ｔ）を入力とし、音声認識結果のテキストを出力する。音声テキスト変換部１４は、音素に対する事後確率系列Ｏ＝（ｏ_１，．．．，ｏ_Ｔ）に基づき音声認識を行い、音声認識結果のテキストを出力する。音素に対する事後確率系列Ｏに基づく音声認識の方法は公知であり、例えば、上述した非特許文献１および非特許文献２に記載されているため、説明を省略する。

図２は、本発明の一実施形態に係る学習装置２０の構成例を示す図である。本実施形態に係る学習装置２０は、図１を参照して説明した音声認識装置１０において用いられるモデルパラメータ群θ_１〜θ_３を学習するものである。

図２に示す学習装置２０は、第１のモデルパラメータ群学習部２１と、第２のモデルパラメータ群学習部２２と、第３のモデルパラメータ群学習部２３とを備える。

第１のモデルパラメータ群学習部２１は、データ集合Ａが入力され、上述した言語１向け音韻気付き特徴量抽出部１１で用いられるモデルパラメータ群θ_１を学習する。すなわち、第１のモデルパラメータ群学習部２１は、入力音声を、言語１向け音韻気付き特徴量系列Ａ（言語１において音素を識別するために情報を含む特徴量の系列）に変換するためのモデルパラメータ群θ_１を、データ集合Ａから学習する。

第２のモデルパラメータ群学習部２２は、データ集合Ｂが入力され、上述した言語２向け音韻気付き特徴量抽出部１２で用いられるモデルパラメータ群θ_２を学習する。すなわち、第２のモデルパラメータ群学習部２２は、入力音声を、言語２向け音韻気付き特徴量系列Ｂ（言語２において音素を識別するために情報を含む特徴量の系列）に変換するためのモデルパラメータ群θ_２を、データ集合Ｂから学習する。

以下では、学習装置２０が備える各部の動作について、より詳細に説明する。まず、第１のモデルパラメータ群学習部２１について説明する。

第１のモデルパラメータ群学習部２１は、データ集合Ａ：Ｄ_Ａを入力とし、モデルパラメータ群θ_１を出力する。第１のモデルパラメータ群学習部２１は、データ集合Ａ（データ集合Ｄ_Ａ）から、モデルパラメータ群θ_１を学習する。第１のモデルパラメータ群学習部２１は、言語１向け音韻気付き特徴量系列Ａ＝（ａ_１，．．．，ａ_Ｔ）を事後確率系列Ｏ＝（ｏ_１，．．．，ｏ_Ｔ）に変換するネットワークを連結したネットワークを構成する。このようなネットワークの具体的な構造を図３に示す。

図３に示すネットワーク構造は、以下の式（６）で表される。

なお、以下では、記号＾が付されたθは、右辺を満たす（右辺により推定された）θであることを意味する。また、ｏ_ｔ，ｓはｏ_ｔにおいて音素列Ｓにおけるｔ番目の音素に対応する次元の値を示す。式（７）に従う学習は、例えば、公知の方法であるバックプロパゲーション法などを利用することができる。

次に、第２のモデルパラメータ群学習部２２について説明する。

第２のモデルパラメータ群学習部２２は、データ集合Ｂ：Ｄ_Ｂを入力とし、モデルパラメータ群θ_２を出力する。第２のモデルパラメータ群学習部２２は、データ集合Ｂ（データ集合Ｄ_Ｂ）から、モデルパラメータ群θ_２を学習する。第２のモデルパラメータ群学習部２２は、言語２向け音韻気付き特徴量系列Ｂ＝（ｂ_１，．．．，ｂ_Ｔ）を事後確率系列Ｏ＝（ｏ_１，．．．，ｏ_Ｔ）に変換するネットワークを連結したネットワークを構成する。このようなネットワーク構造は、以下の式（８）で表される。

ここで、ｏ_ｔ，ｓはｏ_ｔにおいて音素列Ｓにおけるｔ番目の音素に対応する次元の値を示す。式（９）に従う学習は、例えば、公知の方法であるバックプロパゲーション法などを利用することができる。

次に、第３のモデルパラメータ群学習部２３について説明する。

第３のモデルパラメータ群学習部２３は、データ集合Ｃ：Ｄ_Ｃ、モデルパラメータ群θ_１およびモデルパラメータ群θ_２が入力され、モデルパラメータ群θ_３を出力する。第３のモデルパラメータ群学習部２３は、モデルパラメータ群θ_１およびモデルパラメータ群θ_２を用いて、データ集合Ｃ（データ集合Ｄ_Ｃ）からモデルパラメータ群θ_３を学習する。具体的には、第３のモデルパラメータ群学習部２３はまず、事前にデータ集合Ｄ_Ｃにおける音声データＸについて、決定されたモデルパラメータ群θ_１ ^＾およびモデルパラメータ群θ_２ ^＾を用いて、ベクトル系列Ｃに変換する。第３のモデルパラメータ群学習部２３は、以下の式（１０）に従い、ベクトル系列Ｃに変換する。

第３のモデルパラメータ群学習部２３は、作成したベクトル系列Ｃを用いて、モデルパラメータ群θ_３を学習する。第３のモデルパラメータ群学習部２３は、以下の式（１１）に従い、モデルパラメータ群θ_３を学習する。

ここで、ｏ_ｔ，ｓはｏ_ｔにおいて音素列Ｓにおけるｔ番目の音素に対応する次元の値を示す。式（１１）に従う学習は、例えば、公知の方法であるバックプロパゲーション法などを利用することができる。

なお、本実施形態においては、音声認識装置１０と学習装置２０とを分けて記載しているが、これらの装置は一体的に形成されていてもよい。したがって、音声認識装置１０が、学習装置２０が備える各部を備えていてもよい。また、学習装置２０が、音声認識装置１０が備える各部を備えていてもよい。

次に、本実施形態に係る音声認識装置１０における音声認識方法について、図４に示すフローチャートを参照して説明する。

言語１向け音韻気付き特徴量抽出部１１は、モデルパラメータ群θ_１を用いて、入力音声の音響特徴系列Ｘを言語１向け音韻気付き特徴量系列Ａ＝（ａ_１，．．．，ａ_Ｔ）に変換する（ステップＳ１１）。具体的には、言語１向け音韻気付き特徴量抽出部１１は、上述した式（２）に従い、入力音声の音響特徴系列Ｘを言語１向け音韻気付き特徴量系列Ａ＝（ａ_１，．．．，ａ_Ｔ）に変換する。

言語２向け音韻気付き特徴量抽出部１２は、モデルパラメータ群θ_２を用いて、入力音声の音響特徴系列Ｘを言語２向け音韻気付き特徴量系列Ｂ＝（ｂ_１，．．．，ｂ_Ｔ）に変換する（ステップＳ１２）。具体的には、言語２向け音韻気付き特徴量抽出部１２は、上述した式（３）に従い、入力音声の音響特徴系列Ｘを言語２向け音韻気付き特徴量系列Ｂ＝（ｂ_１，．．．，ｂ_Ｔ）に変換する。

なお、ステップＳ１１の処理とステップＳ１２の処理とは、いずれかが先に行われてもよいし、並行して行われてもよい。

ノンネイティブ話者向け音韻識別部１３は、モデルパラメータ群θ_３を用いて、入力音声の音響特徴量系列Ｘ＝（ｘ_１，．．．，ｘ_Ｔ）と、言語１向け音韻気付き特徴量系列Ａ＝（ａ_１，．．．，ａ_Ｔ）と、言語２向け音韻気付き特徴量系列Ｂ＝（ｂ_１，．．．，ｂ_Ｔ）とから、音素に対する事後確率系列Ｏ＝（ｏ_１，．．．，ｏ_Ｔ）を生成する（ステップＳ１３）。具体的には、ノンネイティブ話者向け音韻識別部１３は、上述した式（５）に従い、事後確率系列Ｏ＝（ｏ_１，．．．，ｏ_Ｔ）を生成する。

音声テキスト変換部１４は、事後確率系列Ｏ＝（ｏ_１，．．．，ｏ_Ｔ）に基づき音声認識を行い、音声認識結果のテキストを出力する（ステップＳ１４）。

次に、本実施形態に係る学習装置２０における学習方法について、図５に示すフローチャートを参照して説明する。

第１のモデルパラメータ群学習部２１は、入力音声を言語１向け音韻気付き特徴量系列Ａに変換するためのモデルパラメータ群θ_１を、データ集合Ｄ_Ａ（言語１を母国語とする話者が言語１で発話する音声データの集合）を用いて学習する（ステップＳ２１）。具体的には、第１のモデルパラメータ群学習部２１は、上述した式（７）に従い、モデルパラメータ群θ_１を学習する。

第２のモデルパラメータ群学習部２２は、入力音声を言語２向け音韻気付き特徴量系列Ｂに変換するためのモデルパラメータ群θ_２を、データ集合Ｄ_Ｂ（言語２を母国語とする話者が言語２で発話する音声データの集合）を用いて学習する（ステップＳ２２）。具体的には、第２のモデルパラメータ群学習部２２は、上述した式（９）に従い、モデルパラメータ群θ_２を学習する。

なお、ステップＳ２１の処理とステップＳ２２の処理とは、いずれかが先に行われてもよいし、並行して行われてもよい。

第３のモデルパラメータ群学習部２３は、入力音声から音素に対する事後確率系列Ｏを生成するためのモデルパラメータ群θ_３を、モデルパラメータ群θ_１、モデルパラメータ群θ_２およびデータ集合Ｄ_Ｃ（言語２を母国語とする話者が第１の言語で発話する音声データの集合）を用いて学習する（ステップＳ２３）。具体的には、第３のモデルパラメータ群学習部２３は、上述した式（１１）に従い、モデルパラメータ群θ_３を学習する。

このように本実施形態においては、音声認識装置１０は、モデルパラメータ群θ_３を用いて、入力音声の音響特徴量系列Ｘと、言語１向け音韻気付き特徴量系列Ａと、言語２向け音韻気付き特徴量系列Ｂとから、音素に対する事後確率系列Ｏを生成する。ここで、モデルパラメータ群θ_３は、言語２を母国語とする話者が言語１で発話する音声データの集合、すなわち、ノンネイティブ音声データの集合から学習されている。そのため、ノンネイティブ音声を入力音声とした場合に、高い音声認識性能を得ることができる。

さらに本実施形態においては、モデルパラメータ群θ_３の学習にあたり、言語２を母国語とする話者が言語２で発話する音声データの集合から学習されたモデルパラメータ群θ_２も用いられている。そのため、ノンネイティブ音声の発音が、ネイティブ音声の発音とは大きく異なり、ノンネイティブ話者の母国語に近い発音である場合にも、高い音声認識性能を得ることができる。したがって、音声認識対象とするノンネイティブ音声データの発音が、ネイティブ音声データの発音と大きく異なる場合にも、音声認識性能の向上を図ることができる。

また、本実施形態においては、モデルパラメータ群θ_３の学習にあたり、言語１を母国語とする話者が言語１で発話する音声データの集合から学習されたモデルパラメータ群θ_２も用いられている。そのため、ネイティブ音声およびネイティブ音声の発音に近い発音のノンネイティブ音声に対しても、高い音声認識性能を得ることができる。

以上、音声認識装置１０および学習装置２０について説明したが、音声認識装置１０および学習装置２０として機能させるために、コンピュータを用いることも可能である。そのようなコンピュータは、音声認識装置１０および学習装置２０の各機能を実現する処理内容を記述したプログラムを、該コンピュータの記憶部に格納しておき、該コンピュータのＣＰＵによってこのプログラムを読み出して実行させることで実現することができる。

また、プログラムは、コンピュータが読取り可能な記録媒体に記録されていてもよい。このような記録媒体を用いれば、プログラムをコンピュータにインストールすることが可能である。ここで、プログラムが記録された記録媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、ＣＤ−ＲＯＭおよびＤＶＤ−ＲＯＭなどの記録媒体であってもよい。

上述の実施形態は代表的な例として説明したが、本発明の趣旨および範囲内で、多くの変更および置換が可能であることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形および変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを１つに組み合わせたり、あるいは１つの構成ブロックを分割したりすることが可能である。

１０音声認識装置
１１言語１向け音韻気付き特徴量抽出部（第１の音韻気付き特徴量抽出部）
１２言語２向け音韻気付き特徴量抽出部（第２の音韻気付き特徴量抽出部）
１３ノンネイティブ話者向け音韻識別部（音韻認識部）
１４音声テキスト変換部
２０学習装置
２１第１のモデルパラメータ群学習部
２２第２のモデルパラメータ群学習部
２３第２のモデルパラメータ群学習部

Claims

入力音声の音声認識に用いられるパラメータを学習する学習装置であって、
前記入力音声を、第１の言語において音素を識別するための情報を含む特徴量の系列である第１の言語向け音韻気付き特徴量系列に変換するための第１のモデルパラメータ群を、前記第１の言語を母国語とする話者が前記第１の言語で発話する音声データの集合を用いて学習する第１のモデルパラメータ群学習部と、
前記入力音声を、第２の言語において音素を識別するための情報を含む特徴量の系列である第２の言語向け音韻気付き特徴量系列に変換するための第２のモデルパラメータ群を、前記第２の言語を母国語とする話者が前記第２の言語で発話する音声データの集合を用いて学習する第２のモデルパラメータ群学習部と、
前記入力音声から前記第１の言語の音素に対する事後確率系列を生成するための第３のモデルパラメータ群を、前記第１のモデルパラメータ群、前記第２のモデルパラメータ群、および、前記第２の言語を母国語とする話者が前記第１の言語で発話する音声データの集合を用いて学習する第３のモデルパラメータ群学習部と、を備えることを特徴とする学習装置。
請求項１に記載の学習装置により学習された前記第１から第３のモデルパラメータ群を用いて、前記入力音声の音声認識を行う音声認識装置であって、
前記第１のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列を、前記第１の言語向け音韻気付き特徴量系列に変換する第１の音韻気付き特徴量抽出部と、
前記第２のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列を、前記第２の言語向け音韻気付き特徴量系列に変換する第２の音韻気付き特徴量抽出部と、
前記第３のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列と、前記第１の言語向け音韻気付き特徴量系列と、前記第２の言語向け音韻気付き特徴量系列とから前記事後確率系列を生成する音韻認識部と、
前記事後確率系列に基づき音声認識を行い、音声認識結果のテキストを出力する音声テキスト変換部と、を備えることを特徴とする音声認識装置。
入力音声の音声認識に用いられるパラメータを学習する学習装置における学習方法であって、
前記入力音声を、第１の言語において音素を識別するための情報を含む特徴量の系列である第１の言語向け音韻気付き特徴量系列に変換するための第１のモデルパラメータ群を、前記第１の言語を母国語とする話者が前記第１の言語で発話する音声データの集合を用いて学習するステップと、
前記入力音声を、第２の言語において音素を識別するための情報を含む特徴量の系列である第２の言語向け音韻気付き特徴量系列に変換するための第２のモデルパラメータ群を、前記第２の言語を母国語とする話者が前記第２の言語で発話する音声データの集合を用いて学習するステップと、
前記入力音声から前記第１の言語の音素に対する事後確率系列を生成するための第３のモデルパラメータ群を、前記第１のモデルパラメータ群、前記第２のモデルパラメータ群、および、前記第２の言語を母国語とする話者が前記第１の言語で発話する音声データの集合を用いて学習するステップと、を含むことを特徴とする学習方法。
請求項３に記載の学習方法により学習された前記第１から第３のモデルパラメータ群を用いて、前記入力音声の音声認識を行う音声認識装置における音声認識方法であって、
前記第１のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列を、前記第１の言語向け音韻気付き特徴量系列に変換するステップと、
前記第２のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列を、前記第２の言語向け音韻気付き特徴量系列に変換するステップと、
前記第３のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列と、前記第１の言語向け音韻気付き特徴量系列と、前記第２の言語向け音韻気付き特徴量系列とから前記事後確率系列を生成するステップと、
前記事後確率系列に基づき音声認識を行い、音声認識結果のテキストを出力するステップと、を含むことを特徴とする音声認識方法。
コンピュータを請求項１に記載の学習装置として機能させるためのプログラム。
コンピュータを請求項２に記載の音声認識装置として機能させるためのプログラム。