JP5442016B2

JP5442016B2 - 音声モデルの生成方法

Info

Publication number: JP5442016B2
Application number: JP2011526956A
Authority: JP
Inventors: アンドレアヘイゲン，; ブライアンぺロム，; カドリハショーグル，
Original assignee: Rosetta Stone LLC
Current assignee: Rosetta Stone LLC
Priority date: 2008-09-12
Filing date: 2009-09-10
Publication date: 2014-03-12
Anticipated expiration: 2029-09-10
Also published as: CA2737142A1; CA2737142C; CN102203852B; US20100070278A1; KR20110084402A; EP2332139B1; KR101664815B1; EP2332139A1; CN102203852A; EP2332139A4; JP2012502327A; WO2010030742A1; US8645135B2

Description

本発明は一般的には音声認識に関し、より特には、大人の既知の音声モデルを利用して、コンピュータを用いた子供用の音声モデルを生成する方法に関する。

コンピュータを用いた言語認識は、産業における広範な応用を見いだした。言語認識の１つの有益な応用は、言語学習におけるものである。特に、生徒が実際に言語を話して、その音声がモニターされ批評された場合には、その言語は遥かにより自然な方法で修得されうる。ほとんど若しくは全く訓練を必要としない汎用の言語認識コンピュータプログラムは、そのような用途にとって理想的である。例えば、生徒はネイティブスピーカによって話された予め録音された言語を聞いて、その音声を復唱することを試みることが可能である。言語認識プログラムは生徒の音声をモニターし、正しい表現を認証し、間違いが起こった場合にはいつでも示す。そして、生徒は自らの発音が受け入れられるまで再び試みることができる。

今日、コンピュータを用いた音声モデルは多くの言語において利用されており、記載された方法で利用されている。このことは、生徒がパーソナルコンピュータ上で自分のペースで言語を学ぶことを可能にする。しかしながら、音声モデルは大人の音声のためにある傾向がある。一方、言語学習は子供にとって特に容易であり、それは言語を学習するのに特に有効なときである。子供用の音声モデルは簡単には入手できず、大人のモデルでは子供の音声の特別な特性のためにうまく機能しない。子供の音声は女性の音声に比べても音の調子が高く、女性の音声に比べてより変わりやすく、男性の音声に比べてもより変わりやすい。

したがって、同じ言語で既知の成人男性及び／又は成人女性の音声モデルのみを利用して、子供の音声用の音声認識モデルを生成することを可能にすることは非常に望ましいことである。

本発明は、大人の音声モデルから子供のそれを導き出すための変換の使用に関する。変換は成人男性音声及び成人女性音声から導き出されるが、この変換は男性音声を女性音声に変えるために必要であったそれである。本発明に関して、その変換は予め決められた修正の対象となりうると共に、修正された変換が女性音声モデルに適用されて有効な子供音声モデルを生成しうる。よって、好適な実施の形態は、次の３つの工程からなる。すなわち、１）２つの大人の音声モデルを用いてそれらの間の関係を表す変換を導き出して、その変換の第１の大人の音声モデルへの適用が実質的に第２のものを生成する工程と、２）その変換を修正する工程と、３）修正された変換を前記２つの大人の音声モデルのうちの第２のものに適用して第３の音声モデルを生成する工程である。

以下のセクションでは、男性及び女性のベクトルが記載されている。男性及び女性のモデルはベクトル（各音素状態のガウス分布の平均ベクトル）の集合からなる。各モデルは、数千のベクトルで構成されることもある。推定変換は、二つのモデルのうちの１つのモデルのすべての平均ベクトルに適用されたときには、二つのモデルの間の全体的な平均自乗誤差を最小にする。また、他の誤り基準も可能である。例えば、最大尤度である。変換は各モデルにおいて複数回適用され、各ベクトルについて一度適用される。このことは以下のように数学的にも示される。すなわち、１つの平均ベクトルは３９次元を有し、変換行列は３９次元的である。ガウス分布を用いたＨＭＭベースの音響モデルは、隠れマルコフモデルと音声認識における選択的応用のチュートリアルに示されている（Ｒａｂｉｎｅｒ、Ｌ．Ｒ．著１９８９年２月刊のＩＥＥＥ会報第７７巻第２号の第２５７頁乃至第２８６頁参照）。

好適には、男性音声モデルと女性音声モデルは、それぞれの音声モデルを画定するキー値を表すベクトルの観点から表現されうる。好適には、行列の形式で、男性モデルのベクトルを女性モデルのベクトルに変換する変換が導き出される。最も単純にいえば、この変換は、単に男性ベクトルに変換行列を掛けたものである。そして、変換行列が修正され、修正された行列が女性ベクトルを合成された子供のベクトルに変換するために用いられる。行列に対する修正は、０よりも大きくそして１よりも小さい値を有する指数ｐを適用することを含んでいる。好適には、ｐは約０．２５と約０．７の間にあり、より好適には、約０．４と約０．５の間にあり、最も好適には、約０．５である。

本発明の上記の簡単な説明と更なる目的、特徴、及び効果は、添付の図面に関し、本発明に関して現在好適であるが、にもかかわらず例示的である実施の形態の以下の詳細な説明からより完全に理解される。
システム用の隠れマルコフモデルを説明する状態遷移図である。英語において女性音声モデルの子供の音声モデルへの変換行列を生成するために使用される指数の値と擬陰性率の変化量を示すグラフである。スペイン語において女性音声モデルの子供の音声モデルへの変換行列を生成するために使用される指数の値と擬陰性率の変化量を示すグラフである。特許請求された方法の実施の形態を示す短いフローチャートである。

「隠れマルコフモデル」（ＨＭＭ）は、モデルとされるシステムがパラメータ未知のマルコフ過程であると想定される統計的モデルである。このモデルを使用するときには、隠れたパラメータが観測可能なパラメータから決定される。そして、抽出されたモデルパラメータは更なる分析を行うために使用される。

通常のマルコフモデルでは、システムの状態は直接観測者に可視であり、したがって、状態遷移確率は単なるパラメータである。ＨＭＭでは、状態は直接可視ではないが、状態によって影響された変数が可視である。各状態は可能な出力信号に亘る確率分布を有する。したがって、ＨＭＭによって生成された一連の出力信号は、一連の状態に関するある種の情報を与える。

例えば、図１はシステム用の隠れＨＭＭの状態遷移図である。このシステムは３つの状態Ｘ１、Ｘ２、Ｘ３を有する。状態遷移確率は、遷移を表す番号の前の「ａ」によって示されている。例えば、「ａ１２」は、状態Ｘ１から状態Ｘ２への遷移の確率である。一連の状態に応じて、各状態で可能な複数の出力も存在する。それらは２つの数の前の「ｂ」によって示されている。ブロックＹ１、Ｙ２、Ｙ３、Ｙ４は出力の可能な観測を示しているとともに、これらの観測から、各状態についての確定が成されうる。

当面のモデルにおいては、問題のパラメータはＨＭＭ状態平均値である。多くのこれらはグループ化されて「ベクトル」を定義する。例えば、男性音声モデルに対応する一連の状態平均値は、各状態の平均値に対応する成分を含む男性モデルソースベクトルｍに集合される。相似ベクトルｆが、女性ベクトルの対応成分に対する男性ベクトルマップのその各成分のような女性音声モデル用に構成される。そして、ｆ＝Ｔ^＊ｍのような行列形式の変換Ｔを定義することができる。ここでｆは女性ベクトルであり、ｍは男性ベクトルであり、Ｔ^＊ｍは行列とベクトル間の積であり、ベクトル変換である。

行列Ｔの良好な推定はＴ^＊ｍとｆの間の自乗誤差を最小にする。このことは以下の数式１として数学的に表現される。

この数式１の使用により、行列Ｔは帰納的に見られることができる。行列Ａは、単位行列として初期化されうる。そして、各行列エントリーａ_ｉｊは、以下の数式２によって示されるように、最急降下法（ｇｒａｄｉｅｎｔｄｅｓｃｅｎｔ）によって更新される。

ここでＡ_ｉは行列Ａのｉ番目の行である。

最急降下法は行列のすべてのベクトル対（ｍ，ｆ）に亘って複数回行われ、変換行列Ｔの許容近似値に収束する。

本発明に関して、合成された子供の音声モデルは、修正された形式の行列Ｔを女性音声ベクトルに適用し、女性音声モデルを子供のそれに変換することによって生成される。修正された変換行列は、行列Ｔに小数点指数ｐを適用して修正行列Ｔ'＝Ｔ^ｐ（ｐは０よりも大きく１よりも小さい）とすることによって得られる。好適には、ｐは約０．２５と約０．７の間にあり、より好適には、約０．４と約０．５の間にあり、最も好適には、約０．５である。更に、ｐは言語不変である。すなわち、言語にかかわらず、ｐのほぼ同じ最適値がすべての言語モデルに適用されるべきである。

図４のフローチャートは、開示された、子供用の音声モデルを生成するための方法を要約している。ブロック１００で方法がスタートし、ブロック１０２で既存の男性音声モデルと既存の女性音声モデルが相互処理されて、男性音声モデルが与えられているとして、女性音声モデルを生成する変換を導き出す。好適な実施の形態において、このことは、男性モデルを表すベクトルと女性モデルを表すベクトルが与えられているとして、変換行列を導き出す反復処理を通じて行われた。

ブロック１０４において、この変換が修正される。好適な実施の形態においては、このことは変換行列に０と１の間の指数値を適用することに等しくなる。

ブロック１０６においては、修正された変換が女性音声モデルに対して適用されて、合成された子供の音声モデルを生成すると共に、ブロック１０８で方法が終了する。

実験
数式１と２によって記載された方法を用いて、英語とスペイン語の既存の男性音声モデルと女性音声モデルに関して行列Ｔが発生された。有効な子供用の音声モデルもそれぞれの言語において得られた。変換行列Ｔがそれぞれの言語モデルで発生され、一連の修正変換行列が０と１の間のｐ値を用いてそれぞれの言語で発生された。そして、異なるｐ値を用いた変換行列は、実際の子供の音声と共に試験され、異なるｐ値によって得られたモデルの質を決定した。図２は、変換に適用されたｐ値の関数としての英語の合成された子供のモデルの相対的偽陰性率削減のグラフである。偽陰性（ＦＮ）は話した言葉が本当は正しいのにそれが誤りであるとして検出されるときに起こる。

表１は、男性モデルと女性モデルと合成された子供モデルと基準の子供モデルに関連して英語について得られた結果を要約している。この表は偽陰性率だけではなく偽陽性率も示している。偽陽性は、正しいとして示された誤った話し言葉である。

図３は図２と同様のグラフであり、スペイン語の合成された子供のモデルの相対的偽陰性率削減についてのｐ値の効果を示すグラフである。表２は、スペイン語における、男性モデルと女性モデルと合成された子供モデルと基準の子供モデルのパーフォーマンスを要約している。

子供の音声は大人の音声よりも遥かにより可変である。音声のばらつきが、各ＨＭＭ状態に関連する音響モデル共分散行列においてコード化される。これらの共分散の特徴は、音響モデルトレーニングにおいて決定され、基本的なトレーニングセットにおけるばらつきに影響する。子供の音声のばらつきを考慮して、共分散値が見積もられた。

ＨＭＭベースの音響モデルに良く適用された多変量ガウス分布にとって、対角共分散行列のみが使用される。これらの対角エントリは子供の音声における更なるばらつきを考慮して見積もられている。最初の６個のＭＦＣＣ共分散特徴が以下の格子に示されたファクターによって見積もられた。

そして、エネルギー値とデルタエネルギー値とデルタデルタエネルギー値が以下の格子に示されたように見積もられた。

すべての他の特徴は変わらなかった。そのようなスケーリングは、例として上記の合成された子供のモデルにおける改善をもたらした。英語の合成モデルに関しては、偽陰性率は８．１％以下であり、偽陽性率は０．７％であった。スペイン語の合成子供モデルに関しては、偽陽性率が０．１％で偽陰性率が７．７に減った。偽陽性率が上がって偽陰性率が下がったので、スケーリングは注意深く成されねばならない。

本発明の好適な実施の形態は例示目的で説明したが、業界において通常の技量を有する者であれば、添付の特許請求の範囲によって請求された本発明の範囲や精神を逸脱することなく、多くの追加や改変や代替をすることができることは明らかである。

Claims

言語を学習中の子供からなる第３の音声グループの子供音声モデルを発生する、コンピュータを用いた方法であって、
成人男性からなる第１の音声グループの成人男性音声モデルと成人女性からなる第２の音声グループの成人女性音声モデルを受信する工程であって、第１の音声グループと第２の音声グループの音声が学習中の言語である工程と、
変換行列が成人男性音声モデルに対して適用されるときに成人男性の音声モデルから成人女性の音声モデルを生成する変換行列を導き出す工程であって、成人男性の音声モデルが統計モデルシステムにおいて状態を表す値の男性のベクトルとして表され、成人女性の音声モデルが統計モデルシステムにおいて状態を表す値の女性のベクトルとして表され、前記変換行列が男性のベクトルを女性のベクトルに変換するように構成されている工程と、
前記変換行列に指数演算を適用して修正された変換行列を生成する工程と、
成人女性音声モデルに前記修正された変換行列を適用して、子供の音声モデルを生成する工程であって、該子供の音声モデルがその子供の音声モデルの状態に関連した共分散値を含んでいて、言語学習中の第３の音声グループのメンバーから音声を認識するように構成されている工程とからなる方法。
前記指数演算が０と１の間の指数値で適用される前記請求項１に記載の方法。
前記指数演算が約０．２５と約０．７の間の指数値で適用される前記請求項１に記載の方法。
前記指数演算が約０．４と約０．５の間の指数値で適用される前記請求項１に記載の方法。
前記指数演算が約０．５の指数値で適用される前記請求項１に記載の方法。
前記共分散値が対角行列の形式であり、最初の６個の共分散値が以下のように見積もられ、

そして、エネルギー値とデルタエネルギー値とデルタデルタエネルギー値が以下のように見積もられている前記請求項１に記載の方法。