JP5282737B2

JP5282737B2 - 音声認識装置および音声認識方法

Info

Publication number: JP5282737B2
Application number: JP2009529074A
Authority: JP
Inventors: 健花沢
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2007-08-22
Filing date: 2008-08-22
Publication date: 2013-09-04
Anticipated expiration: 2028-08-22
Also published as: CN101785051B; US20110196678A1; JPWO2009025356A1; WO2009025356A1; US8315870B2; CN101785051A

Description

本発明は、音声認識技術に関し、より具体的には、トーン（声調）などの韻律を用いる言語に対する音声認識技術に関する。

韻律を用いる言語としては、様々な言語があり、例えば、中国語などにおいては、トーンと呼ばれる韻律が用いられる。トーンは、意味の区別のために用いられる音の高低のパターンであり、主に母音において、上昇調、下降調など特有のトーンが存在する。従って、中国語などの音声認識においては、トーンの認識が重要となる。

トーンを利用した音声認識技術としては、特許第３１６２９９４号（文献１）に開示された技術が知られている。この文献１に記載されている中国語音声認識技術は、音節を前半部分と後半部分とに分割し、音節の後半部分のみをトーンに対応付け、対応付けたトーンを用いて音声認識を行っている。この技術によれば、トーンを利用して音声認識を行うので、トーンを利用しない場合に比較して声調音声の認識精度を高いものにすることができる。

しかし、文献１の技術では、音節を前半部分と後半部分とに分割するだけであるため、後半部分に子音が存在する可能性がある。従って、声調が存在しない子音に対してもトーン認識が行われる場合があり、このような場合、トーン認識結果が不正確なものとなり、音声認識精度が低下してしまうおそれがある。

本発明の目的は、トーン等の韻律を有する言語に対する音声認識精度を向上させることにある。

本発明にかかる音声認識装置は、入力音声の特徴量と音素モデルとの間の音響距離と、単語の音素および韻律ラベルを含む言語モデルにおける単語の音素とに基づいて単語サーチを行い、単語仮説とこの単語仮説の確からしさを示す第１のスコアとを単語サーチ結果として出力すると共に、入力音声の認識結果が単語仮説であるとした場合の、入力音声における韻律区間とその韻律ラベルとを出力する単語サーチ手段と、入力音声の特徴量の内の、単語サーチ手段から出力された韻律区間に対応する特徴量に基づいて、単語サーチ手段から出力された韻律ラベルに対する確からしさを示す第２のスコアを出力する韻律認識手段と、韻律認識手段から出力された第２のスコアを用いて、単語サーチ手段から出力された単語仮説に対する第１のスコアを補正するリスコア手段とを備える。

本発明にかかる音声認識方法は、入力音声の特徴量と音素モデルとの間の音響距離と、単語の音素および韻律ラベルを含む言語モデルにおける単語の音素とに基づいて単語サーチを行い、単語仮説とこの単語仮説の確からしさを示す第１のスコアとを単語サーチ結果として出力すると共に、入力音声の認識結果が単語仮説であるとした場合の、入力音声における韻律区間とその韻律ラベルとを出力するステップと、入力音声の特徴量の内の、出力された韻律区間に対応する特徴量に基づいて、出力された韻律ラベルに対する確からしさを示す第２のスコアを出力するステップと、出力された第２のスコアを用いて、出力された単語仮説に対する第１のスコアを補正するステップとを備える。

本発明によれば、トーン等の韻律を有する言語に対する音声認識精度を高いものにすることができる。

図１は、本発明にかかる音声認識装置の第１の実施形態の全体構成例を示すブロック図である。図２は、第１の実施形態の動作の一例を示すフローチャートである。図３は、第１の実施形態の実施例を示すブロック図である。図４Ａおよび図４Ｂは、単語の一例を示す図である。図５は、単語辞書の内容例を示す図である。図６は、第１の実施形態の実施例の動作を説明するための図である。図７は、トーンのモデル化方法を説明するための図である。図８は、本発明にかかる音声認識装置の第２の実施形態のブロック図である。図９は、第２の実施形態の実施例の全体構成例を示すブロック図である。図１０Ａおよび図１０Ｂは、連続単語の一例を示すブロック図である。図１１は、第２の実施形態の実施例の動作を説明するための図である。図１２は、本発明にかかる音声認識装置の第３の実施形態のブロック図である。

次に、本発明の実施形態について図面を参照して詳細に説明する。

〔本発明の第１の実施形態〕
本発明にかかる音声認識装置の第１の実施形態について説明する。

〔本発明の第１の実施形態の構成の説明〕
図１は本発明にかかる音声認識装置の第１の実施形態の全体構成例を示したブロック図である。

同図を参照すると、音声認識装置１は、音素をモデル化した音素モデルが登録された音素モデル記憶部１１と、単語の音素およびトーンラベルを含む言語モデルが登録された言語モデル記憶部１２と、トーンの音響的特徴をモデル化したトーンモデルが登録されたトーンモデル記憶部１３との３種類のモデル記憶部を備えている。

更に、音声認識装置１は、入力部１４と、音響分析部１５と、距離計算部１６と、単語サーチ部１７と、韻律認識手段であるトーン認識部２１と、リスコア部２２と、出力部２３とを備えている。

入力部１４は、音声を入力する機能を有する。音響分析部１５は、入力部１４から入力された音声を音響分析し、入力音声の特徴量を出力する機能を有する。距離計算部１６は、音響分析結果である特徴量と音素モデル記憶部１１に登録されている各音素モデルとの間の音響距離を計算する機能を有する。

単語サーチ部１７は、距離計算部１６で求められた音響距離と言語モデル記憶部１２に登録されている言語モデルとに基づいて、単語サーチを行い、単語サーチ結果として、複数の単語仮説（認識結果候補）と単語仮説それぞれの確からしさを示す第１のスコアとをリスコア部２２に対して出力する機能を有する。更に、本実施形態の単語サーチ部１７は、上記複数の単語仮説それぞれについて、その単語仮説が入力音声の認識結果であると仮定した場合の、上記入力音声における母音区間とそのトーンラベルとを出力する機能を有する。

この機能を実現するため、本実施形態の単語サーチ部１７は、単語仮説同定部１８、音素仮説同定部１９および母音区間同定部２０を備えている。単語仮説同定部１８は、単語サーチされた単語仮説を同定する。音素仮説同定部１９は、各単語仮説中の音素を同定する。母音区間同定部１９は、単語仮説毎に、同定された音素と、単語サーチ時に使用した音素と入力音声との対応関係とに基づいて入力音声における母音区間を同定し、同定した母音区間とそのトーンラベルとの対をトーン認識部２１に対して出力する。

トーン認識部２１は、単語仮説毎に、単語サーチ部１７から出力された母音区間に対応する特徴量とトーンモデル記憶部１３に登録されているトーンモデルとに基づいて、その単語仮説についてのトーンラベルの確からしさを示す第２のスコアを求め、リスコア部２２に対して出力する機能を有する。

リスコア部２２は、単語サーチ部１７から出力された各単語仮説の第１のスコアを、トーン認識部２１から出力された対応する単語仮説の第２のスコアを用いて補正する機能を有する。出力部２３は、補正された第１のスコアに基づいて、単語サーチされた複数の単語仮説の中から、認識結果とすべきものを選択し、出力する機能を有する。

なお、音声認識装置１は、コンピュータにより実現可能であり、この場合は例えば次のようにする。コンピュータを音声認識装置１として機能させるためのプログラムを記録したディスク、半導体メモリ、その他の記録媒体を用意し、コンピュータに上記プログラムを読み取らせる。コンピュータは、読み取ったプログラムに従って自身の動作を制御することにより、自コンピュータ上に音響分析部１５、距離計算部１６、単語サーチ部１７、トーン認識部２１、リスコア部２２、および出力部２３を実現する。

〔本発明の第１の実施形態の動作の説明〕
次に、図１および図２を用いて本実施形態の動作について詳細に説明する。

ユーザが発声した音声が入力部１４から入力されると（図２のステップＳ１００）、音響分析部１５は入力音声を音響分析し、その特徴量を求める（ステップＳ１０１）。その後、距離計算部１６が、ステップＳ１０１で求められた特徴量と音素モデル記憶部１１に登録されている各音素モデルとの音響距離（音素の音響的な確からしさを示す）を計算する（ステップＳ１０２）。

距離計算部１６において特徴量と各音素モデルとの間の音響距離が計算されると、単語サーチ部１７は、音響距離と言語モデル記憶部１２に登録されている言語モデルとに基づいて単語サーチを行い、単語サーチ結果として、複数の単語仮説と単語仮説それぞれの確からしさを示す第１のスコアとをリスコア部２２に対して出力する（ステップＳ１０３）。
次いで、単語サーチ部１７内の単語仮説同定部１８が、ステップＳ１０３でサーチされた単語仮説を同定し（ステップＳ１０４）、更に、音素仮説同定部１９が、ステップＳ１０４で同定された各単語仮説中の音素を言語モデルに基づいて同定する（ステップＳ１０５）。その後、母音区間同定部２０が、ステップＳ１０４で同定された単語仮説毎に、ステップＳ１０５で同定された音素と、ステップＳ１０３で単語サーチを行う際に利用した音素と入力音声との対応関係とに基づいて、入力音声における母音区間を同定し、同定した母音区間とそのトーンラベルとの対をトーン認識部２１に対して出力する（ステップＳ１０６）。

トーン認識部２１は、単語サーチ部１７から出力された母音区間とトーンラベルとの対それぞれについて、母音区間に対応する特徴量と、トーンモデル記憶部１３に登録されているトーンモデルとに基づいてトーン認識を行い、トーンラベルの確からしさを示す第２のスコアをリスコア部２２に対して出力する（ステップＳ１０７）。

リスコア部２２は、各単語仮説についての第１のスコアを、トーン認識部２１から出力された対応する単語仮説についての第２のスコアを用いて補正する（ステップＳ１０８）。出力部２３は、補正された第１のスコアに基づいて複数の単語仮説の中から認識結果を決定し、出力する（ステップＳ１０９）。

〔本発明の第１の実施形態の効果〕
本実施形態によれば、声調音声に対する音声認識を高精度で行うことが可能になる。その理由は、トーン認識の対象区間を、音響情報（特徴量）と言語情報とを最適に組み合わせることが可能な単語サーチの情報に基づいて求めた母音区間に限るようにしているからである。つまり、単純に音響情報のみからトーン認識の対象区間（母音区間）を求める場合に比較して母音区間以外の区間がトーン認識区間とされる危険性が少なくなり、トーン認識誤りの発生を抑えることができるので、認識精度を高いものとすることができる。

〔第１の実施形態の実施例〕
次に、第１の実施形態の実施例について説明する。

〔第１の実施形態の実施例の構成の説明〕
図３は本実施例にかかる音声認識装置１０の全体構成例を示すブロック図である。

本実施例の音声認識装置１０は、音素モデルとしてのＨＭＭ（隠れマルコフモデル）が登録されたＨＭＭ記憶部１１０と、認識対象にしている各単語の音素とトーンラベルとを持つ単語辞書が登録された単語辞書記憶部１２０と、トーンモデルとして四声の音響的特徴を例えばＧＭＭ(Gaussian Mixture Model)でモデル化した四声モデルが登録された四声モデル記憶部１３０との３つの記憶部を備えている。これらの記憶部１１０、１２０、１３０は、それぞれ図１に示した音素モデル記憶部１１、言語モデル記憶部１２、トーンモデル記憶部１３に対応する。

更に、音声認識装置１０は、入力部１４０と、音響分析部１５０と、距離計算部１６０と、単語仮説同定部１８０、音素仮説同定部１９０および母音区間同定部２００を有する単語サーチ部１７０と、四声認識部２１０と、リスコア部２２０と、出力部２３０とを備えている。これらの各機能部１４０、１５０、１６０、１７０、２１０、２２０、２３０は、それぞれ図１に示した入力部１４、音響分析部１５、距離計算部１６、単語サーチ部１７、トーン認識部２１、リスコア部２２、出力部２３と対応するものであり、それらと同様の機能を有する。

なお、本実施例の音声認識装置１０も、第１の実施形態の音声認識装置１と同様に、コンピュータによって実現可能なものである。

〔第１の実施形態の実施例の動作の説明〕
次に、本実施例の動作について詳細に説明する。

今、例えば、ユーザが、図４Ａに示す単語を発声したとする。なお、以下の説明においては、図４Ａに示す単語を単語Ａ、同図Ｂに示す単語を単語Ｂと称す。また、単語辞書記憶部１２０に登録されている単語辞書には、図５に示すように、単語Ａ、Ｂなどの単語が、トーンラベルである「i3」の「3(第三声)」や「in2」の「2(第二声)」と共に音素レベルで登録されているとする。

音響分析部１５０では、入力部１４０から入力された音声を音響分析し、その特徴量として、例えば、単位時間（フレーム）毎のケプストラムとピッチとを求める。

距離計算部１６０は、音響分析部１５０で求められたケプストラムとＨＭＭ記憶部１１０に登録されているＨＭＭとの距離計算をフレーム単位で行い、距離計算結果として、各フレームにおけるケプストラムと各音素との音響距離（確からしさを示すスコア）を出力する。

単語サーチ部１７０は、距離計算部１６０から距離計算結果が出力されると、単語辞書中の各単語を順次処理対象にして次のような処理を行う。処理対象にしている単語を構成する各音素と、距離計算部１６０から渡された距離計算結果とに基づいて、各音素毎に、その音素に対応するフレームと、音響的な確からしさを示す音響距離（スコア）とを求める。例えば、図４Ａに示した単語Ａを処理対象にした場合は、単語Ａを構成する音素が図５に示すように「n i3 h ao3」であるため、距離計算結果の先頭から「n」「i」「h」「ao」と連鎖する音素モデルのスコアをフレーム順に計算し、例えば、｛音素モデル「n」がフレーム「５〜１１」でスコアが「0.7」、続いて音素モデル「i」がフレーム「１２〜１９」でスコアが「0.8」、…｝や、｛音素モデル「n」がフレーム「４〜９」でスコアが「0.5」、続いて音素モデル「i」がフレーム「１０〜１７」でスコアが「0.6」、…｝といった情報が得られる。その後、上記各情報のスコア（例えば、各音素モデルのスコアの合計値）を求め、最も大きなスコアを処理対象にしている単語のスコアとすると共に、スコアが最も大きかった情報を単語サーチを行う際に利用した情報として図示を省略したフレーム情報記憶部に格納しておく。

単語サーチ部１７０は、単語辞書に登録されている全ての単語について上記した処理を行うと、各単語のスコアに基づいて、単語仮説（認識結果候補）とする単語を決定する。例えば、スコアが大きい方から所定個数の単語を選択し、選択した単語を単語仮説とする。

上記した単語サーチ処理により、図６に示すように、認識結果候補としてスコアが「3.2」の単語Ａと、スコアが「3.5」の単語Ｂとが得られたとする。

単語サーチ処理が完了すると、先ず、単語サーチ部１７０内の単語仮説同定部１８０が単語同定を行い、単語Ａ、Ｂを得る。次いで、音素仮説同定部１９０が単語辞書を用いて音素同定を行い、単語Ａから「n in2 h ao3」を、単語Ｂから「n i3 h ao3」をそれぞれトーンラベルとともに得る。その後、母音区間同定部２００が、音素同定結果と、フレーム情報記憶部に登録されている情報とに基づいて、単語Ａ、Ｂの母音区間を同定する。
この結果、単語Ａの母音部分「in2」「ao3」に対応する母音区間および単語Ｂの母音部分「i3」「ao3」に対応する母音区間が図６に示すように、時刻（フレーム）情報として得られる。

その後、母音区間同定部２００は、単語Ａ、Ｂの母音区間およびそのトーンラベルを四声認識部２１０に渡す。これにより、四声認識部２１０は、各単語の各母音区間を順次処理対象にして、次のような処理を行う。音響分析部１５０の分析結果であるピッチの内の、処理対象にしている母音区間に対応するピッチを対象にして、四声モデル記憶部１３０に登録されている四声モデルを適用した四声認識を行うことにより、上記母音区間のトーンラベルの確からしさを示すスコアStを算出する。例えば、単語Ｂの母音「i3」の母音区間「フレーム12〜19」を処理対象にした場合は、「フレーム12〜19」に対応するピッチを対象にして、四声モデルを適用した四声認識を行うことで、母音「i3」に対する確からしさを示すスコアを算出する。図６の例では、単語Ｂの母音「i3」に対応する母音区間の、第三声としての確からしさを示すスコアが「0.3」となっている。

四声認識結果のスコアStは、本実施例のようにＧＭＭをモデルとして用いている場合には、入力をN次元の特徴ベクトル x=(x1,x2,...,xN) 、ＧＭＭの混合数をMとして、次式のように計算できる。

ここで、μは四声モデルの平均ベクトル、Σiは共分散行列、ｗは重みである。ＧＭＭは、ここでは第一声から第四声までをそれぞれ表す４つのモデルを用意し、例えば認識対象のトーンラベルが第三声であれば第三声を表すＧＭＭを用いてスコアを計算する。同様に、母音「in2」についてはスコア「0.8」、母音「ao3」についてはどちらの単語仮説もスコア「0.9」が得られたとすると、この四声認識の結果を用いて上記単語サーチの結果である単語仮説に対するリスコアをリスコア部２２０にて行う。元々の単語仮説が持つスコアをSw、単語中に存在する各母音の四声認識結果のスコアをSt1, St2, ...とすると、全てのリスコア後のスコアSは例えば次式のように計算できる。

このとき、四声認識結果のスコアStは、母音の数やフレーム数で正規化されていても良い。リスコアの結果、単語Ａに対するスコアが「4.9」、単語Ｂに対するスコアが「4.7」になって順位の逆転が起こり、出力部２３０にて最も確からしい認識結果として単語Ａを出力する。

ここで、リスコアの実現方法としては、単語サーチにおいて処理中の単語仮説のスコアを補正しながらサーチする方法と、単語サーチが一発声分の処理を終えた段階の中間結果であるNbest候補やワードグラフを対象としてNbest候補やワードグラフ中に含まれる各単語仮説のスコアを補正する方法とが可能である。前者の場合は、すべての単語仮説を対象にできるため、処理量が増加する反面、その分精度向上が期待できる。後者の場合は、一般に中間結果には、生成された単語仮説のうちスコアの高いものしか残さないため、処理量は少なくて済むが、精度向上が充分でないことがある。

ＧＭＭによるトーンのモデル化方法としては、例えば図７に示すように対象となる母音区間のピッチ情報を、時間方向および周波数方向に正規化し、その外形をN点でサンプリングすることでN次元の特徴ベクトルとし、学習することでモデル化することが考えられる。このとき、ある時刻tの周波数Ftを正規化したFt~は、対象区間での周波数の最大値、最小値をそれぞれFmax, Fminとして、例えば次式のように計算できる。

このFt~を更に時間方向にＮ点で正規化すれば良い。

このような構成とすることで、ＨＭＭ記憶部１１０に登録するＨＭＭと、四声モデル記憶部１３０に登録する四声モデルとを独立に学習することが可能となる。例えば、「i」を表すＨＭＭは、「i2」「i3」などその四声に関わらず１つの「i」というモデルとして学習し、逆に、第三声を表す四声モデルは、「i3」「ao3」などその音素に関わらず１つの「第三声」というモデルとして学習することができる。これは、各トーンの外形は音素の種類に関わらず、ほぼ同じ形状を示すことによる。つまり、本実施例によれば、少ない学習量で高精度な音声認識を行うことを可能にするＨＭＭおよび四声モデルを得ることが可能になる。

本実施例では、１単語の認識の例を示したが、同様の方法で、１発声中に複数の単語を含む連続音声認識を行うことも可能である。その場合でも、単語仮説毎にリスコアを行って全体の和をとれば良い。

また、本実施例ではＧＭＭで四声をモデル化するようにしたが、例えばＳＶＭを用いることも可能である。この場合には、ＳＶＭは２値識別器であるため、例えば第一声と第二声との識別モデル、第一声と第三声との識別モデルなど、全ての組み合わせについて識別モデルを用意して識別を行い、その結果最も可能性の高い、すなわち識別結果の総和が最も大きい四声が、音素同定されたトーンラベルと同じであるかどうかをスコアとして出力し、リスコアすれば良い。例えば、トーンラベルが第二声のときに、識別結果の総和がもっとも大きい四声が第二声だった場合にはスコア1.0を出力するが、第一声だった場合にはスコア0を出力する。

〔本発明の第２の実施形態〕
次に、本発明にかかる音声認識装置の第２の実施形態について詳細に説明する。本実施形態は、トーン認識を行う際、トーンモデルに加えて、トーンの履歴情報であるコンテクスト情報をモデル化したコンテクストモデルも利用してトーン認識を行うことを特徴とする。

〔本発明の第２の実施形態の構成の説明〕
図８は本実施形態にかかる音声認識装置の全体構成例を示したブロック図である。図８に示した音声認識装置１ａと図１に示した音声認識装置１との相違点は、コンテクストモデル記憶部３１が追加されている点およびトーン認識部２１の代わりにトーン認識部２１ａを備えている点である。

コンテクストモデル記憶部３１には、トーンの履歴情報であるコンテクスト情報をモデル化したコンテクストモデルが登録されている。

トーン認識部２１ａは、単語仮説毎に、単語サーチ部１７内の母音区間同定部２０から出力された母音区間に対応する特徴量と、トーンモデル記憶部１３に登録されているトーンモデルと、コンテクストモデル記憶部３１に登録されているコンテクストモデルとに基づいて、その単語仮説についてのトーンラベルの確からしさを示す第２のスコアを求め、リスコア部２２に対して出力する機能を有する。

なお、本実施形態の音声認識装置１ａも音声認識装置１と同様にコンピュータによって実現可能である。

〔本発明の第２の実施形態の動作の説明〕
次に、本実施形態の動作について説明する。なお、前述した第１の実施形態との動作上の相違点は、トーン認識部２１ａの動作だけであるので、ここでは、トーン認識部２１ａの動作だけを説明する。

トーン認識部２１ａは、単語サーチ部１７から出力された、母音区間とトーンラベルとの対それぞれを対象にして、次のような処理を行う。母音区間に対応する特徴量と、トーンモデル記憶部１３に登録されているトーンモデルと、コンテクストモデル記憶部３１に登録されているコンテクストモデルとに基づいてトーン認識を行い、トーンラベルの確からしさを示す第２のスコアをリスコア部２２に対して出力する。

〔第２の実施形態の効果〕
本実施形態では、トーン認識時、トーンモデルに加えて、コンテクストモデルも利用してトーン認識を行うようにしているので、トーン認識精度を高めることができる。

〔第２の実施形態の実施例〕
次に、第２の実施形態の実施例について説明する。

〔第２の実施形態の実施例の構成の説明〕
図９は本実施例にかかる音声認識装置１０ａの全体構成例を示すブロック図であり、図３に示した第１の実施形態の実施例との相違点は、四声bigramモデルが登録された四声bigramモデル記憶部３１０が追加されている点、および四声認識部２１０の代わりに四声認識部２１０ａを備えている点である。なお、四声bigramモデル記憶部３１０、四声認識部２１０ａはそれぞれ図８に示したコンテクストモデル記憶部３１、トーン認識部２１ａに対応するものである。

四声bigramモデル記憶部３１０には、コンテクストモデルとして四声の連鎖確率をモデル化した四声bigramモデルが登録されている。

四声認識部２１０ａは、単語仮説毎に、単語サーチ部１７０内の母音区間同定部２００から出力された母音区間に対応する特徴量と、四声モデル記憶部１３０に登録されている四声モデルと、四声bigramモデル記憶部３１０に登録されている四声bigramモデルとに基づいて、その単語仮説についてのトーンラベルの確からしさを示す第２のスコアを求め、リスコア部２２０に対して出力する機能を有する。

なお、本実施例の音声認識装置１０ａも音声認識装置１ａと同様にコンピュータによって実現可能なものである。

〔第２の実施形態の実施例の動作の説明〕
次に、本実施例の動作について説明する。今、例えば、ユーザが、入力部１４０に対して図１０Ａに示す連続単語を発声したとする。なお、以下の説明においては、図１０Ａに示す連続単語を連続単語Ａ、同図Ｂに示す連続単語を連続単語Ｂと称す。

これにより、音響分析部１５０、距離計算部１６０および単語サーチ部１７０において、前述した処理と同様の処理が行われる。これにより、図１１に示すように、連続単語Ａ、Ｂが単語仮説（認識結果候補）として得られたとする。なお、図１１の例では、連続単語Ａ、Ｂのスコアはそれぞれ「24.8」「25.0」となっている。即ち、この時点では、連続単語Ｂの方が確からしさが高くなっている。

また、単語サーチ部１７０内の単語仮説同定部１８０、音素仮説同定部１９０、母音区間同定部２００においても前述した処理と同様の処理が行われ、四声認識部２１０ａに対して、連続単語Ａ、Ｂの母音区間およびそのトーンラベルが出力される。即ち、音素が「q ue4 r en4 m ei2 w en4 t i2」である連続単語Ａについては、母音「ue4」「en4」「ei2」「en4」「i2」の母音区間（フレーム情報）とそのトーンラベルとが出力され、音素が「q ue4 r en4 m ei2 y ou3 w en4 t i2」の連続単語Ｂについては、母音「ue4」「en4」「ei2」「ou3」「en4」「i2」の母音区間とそのトーンラベルとが出力される。

四声認識部２１０ａでは、単語サーチ部１７０から渡された連続単語Ａ、Ｂの各母音区間に対して、四声モデルと四声bigramモデルとを適用した四声認識を行う。

対象となる母音区間のピッチ外形と四声の連鎖確率から、例えば「m ei2 y ou3 w en4」という区間に対しては「ei2」「ou3」「en4」のピッチによるスコアが0.5, 0.3, 0.6、連鎖確率によるスコアが0.4, 0.2, 0.3とそれぞれ得られるとする。ここで、四声bigramモデルを用いた連鎖確率は、対象となる母音の四声T_iの確率を直前の母音の四声T_i-1を用いて次式で計算する。
Ｐ(Ｔ_i)＝Ｐ(Ｔ_i｜Ｔ_i-1)

例えば「ei2」については直前の母音が第４声の「en4」であるので、第２声と第４声の連鎖確率として0.4が得られるものとする。同様に「m ei2 w en4」という区間に対しては「ei2」「en4」のピッチによるスコアが0.7, 0.8、連鎖確率によるスコアが0.4, 0.7とそれぞれ得られたとすると、リスコア部２２０における全区間のリスコア結果として例えば連続単語Ａがスコア32.4、連続単語Ｂがスコア32.3として得られ、出力部２３０にて例えば最も確からしい結果として連続単語Ａを出力する。

このように、母音区間のピッチ情報だけでなく四声のつながりやすさである連鎖確率も併用することで、四声の認識精度を高めることが可能となる。

本実施例では、リスコア時にトーンモデルから得られるスコアとコンテクストモデルから得られるスコアを単純に加算したが、音節数やフレーム数で正規化しても良いし、例えば重み付け和をとっても良い。正規化を行うことで、連続音声認識時に各仮説に含まれる音節数の違いによるスコアのばらつきを抑えることが可能となり、より認識精度が上がる可能性がある。

なお、各実施形態ではトーンの場合を記載したが、辞書に記述可能かつ区間同定可能な韻律であればトーンに限らない。例えば英語のアクセントの場合は、アクセント型を単語ごとに辞書に記述しておき、各アクセント型の短時間音声パワーの時間変化を特徴量としてモデル化し、各単語における当該アクセント区間を認識対象の区間として区間同定すれば良い。

〔本発明の第３の実施形態〕
図１２は本発明の第３の実施形態にかかる音声認識装置の全体構成例を示したブロック図である。同図を参照すると、音声認識装置１ｂは、単語サーチ部１７ｂと、韻律認識部２１ｂと、リスコア部２２ｂとを備えている。

単語サーチ部１７ｂは、入力音声の特徴量と音素モデルとの間の音響距離と、言語モデルにおける単語の音素とに基づいて単語サーチを行い、単語仮説とこの単語仮説の確からしさを示す第１のスコアとを単語サーチ結果として出力する機能を有する。なお、言語モデルは単語の音素および韻律ラベルを含んでいる。単語サーチ部１７ｂはまた、入力音声の認識結果が単語仮説であるとした場合の、入力音声における韻律区間とその韻律ラベルとを出力する。

韻律認識部２１ｂは、入力音声の特徴量の内、単語サーチ部１７ｂから出力された韻律区間に対応する特徴量に基づいて、単語サーチ部１７ｂから出力された韻律ラベルに対する確からしさを示す第２のスコアを出力する機能を有する。リスコア部２２ｂは、韻律認識部２１ｂから出力された第２のスコアを用いて、単語サーチ部１７ｂから出力された単語仮説に対する第１のスコアを補正する機能を有する。

この音声認識装置１ｂは、図１における音素モデル記憶部１１、言語モデル記憶部１２、トーンモデル記憶部１３、入力部１４、音響分析部１５、距離計算部１６、出力部２３、あるいはこれらの機能部に加えて図８におけるコンテクストモデル記憶部３１が外部接続されたものであると捉えることもできる。

本実施形態においても、図１および図８に示した音声認識装置１，１ａと同様に、声調音声に対する音声認識を高精度で行うことができる。

なお、音声認識装置１ｂは、コンピュータにより実現可能であり、この場合は例えば次のようにする。コンピュータを音声認識装置１ｂとして機能させるためのプログラム４１を記録したディスク、半導体メモリ、その他の機械読み取り可能な記録媒体４を用意し、コンピュータに上記プログラム４１を読み取らせる。コンピュータは、読み取ったプログラム４１に従って自身の動作を制御することにより、単語サーチ部１７ｂ、韻律認識部２１ｂ、リスコア部２２ｂを実現する。

以上、実施形態および実施例を参照して本発明を説明したが、本発明は上記実施形態および上記実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

この出願は、２００７年８月２２日に出願された日本出願特願２００７−２１５９５８号を基礎とする優先権を主張し、その開示のすべてをここに取り込む。

本発明によれば、中国語等の声調言語の音声認識を用いたヒューマンインタフェースといった用途に適用できる。

Claims

入力音声の特徴量と音素モデルとの間の音響距離と、単語の音素および韻律ラベルを含む言語モデルにおける前記単語の音素とに基づいて単語サーチを行い、単語仮説とこの単語仮説の確からしさを示す第１のスコアとを単語サーチ結果として出力すると共に、前記入力音声の認識結果が前記単語仮説であるとした場合の、前記入力音声における韻律区間とその韻律ラベルとを出力する単語サーチ手段と、
前記入力音声の特徴量の内の、前記単語サーチ手段から出力された韻律区間に対応する特徴量に基づいて、前記単語サーチ手段から出力された韻律ラベルに対する確からしさを示す第２のスコアを出力する韻律認識手段と、
前記韻律認識手段から出力された前記第２のスコアを用いて、前記単語サーチ手段から出力された前記単語仮説に対する第１のスコアを補正するリスコア手段とを備え、
前記韻律ラベルは、トーンラベルおよびアクセント型のいずれかであり、
前記韻律区間は、母音区間およびアクセント区間のいずれかである音声認識装置。
請求項１記載の音声認識装置において、
前記リスコア手段は、単語サーチにおいて処理中の単語仮説のスコアを補正すること、および、単語サーチの結果として得られる中間結果のスコアを補正すること、のいずれかを行う音声認識装置。
請求項２記載の音声認識装置において、
前記中間結果は、Ｎｂｅｓｔ候補およびワードグラフのいずれかである音声認識装置。
請求項１に記載の音声認識装置において、
前記韻律ラベルはトーンラベルであり、前記韻律区間は母音区間である音声認識装置。
請求項４記載の音声認識装置において、
前記単語サーチ手段は、
単語および連続単語の少なくとも一方を同定する単語仮説同定手段と、
前記言語モデルを用いて前記単語および連続単語の少なくとも一方の中の音素を同定する音素仮説同定手段と、
前記音素のうちの母音の区間を同定する母音区間同定手段と
を備える音声認識装置。
請求項５記載の音声認識装置において、
前記母音区間同定手段は、単語サーチにおいて前記母音の仮説の始端時刻から終端時刻までを母音区間とする音声認識装置。
請求項４に記載の音声認識装置において、
前記韻律認識手段は、母音区間におけるピッチの時間変化を特徴量としてモデル化されたトーンモデルを用いて韻律認識を行う音声認識装置。
請求項７記載の音声認識装置において、
前記音響距離の計算に用いられる音素モデルと前記トーンモデルとは独立である音声認識装置。
請求項４に記載の音声認識装置において、
前記韻律認識手段は、母音区間におけるピッチの時間変化を特徴量としてモデル化されたトーンモデルと、韻律の履歴情報であるコンテクスト情報がモデル化されたコンテクストモデルとを用いて、韻律認識を行う音声認識装置。
請求項９記載の音声認識装置において、
前記コンテクストモデルは母音のトーンの連鎖確率がモデル化されたものである音声認識装置。
入力音声の特徴量と音素モデルとの間の音響距離と、単語の音素および韻律ラベルを含む言語モデルにおける前記単語の音素とに基づいて単語サーチを行い、単語仮説とこの単語仮説の確からしさを示す第１のスコアとを単語サーチ結果として出力すると共に、前記入力音声の認識結果が前記単語仮説であるとした場合の、前記入力音声における韻律区間とその韻律ラベルとを出力するステップと、
前記入力音声の特徴量の内の、出力された韻律区間に対応する特徴量に基づいて、出力された韻律ラベルに対する確からしさを示す第２のスコアを出力するステップと、
出力された前記第２のスコアを用いて、出力された前記単語仮説に対する第１のスコアを補正するステップとを備え、
前記韻律ラベルは、トーンラベルおよびアクセント型のいずれかであり、
前記韻律区間は、母音区間およびアクセント区間のいずれかである音声認識方法。
請求項１１記載の音声認識方法において、
補正するステップは、単語サーチにおいて処理中の単語仮説のスコアを補正するステップと、単語サーチの結果として得られる中間結果のスコアを補正するステップとのいずれかを備える音声認識方法。
請求項１２記載の音声認識方法において、
前記中間結果は、Ｎｂｅｓｔ候補およびワードグラフのいずれかである音声認識方法。
請求項１１に記載の音声認識方法において、
前記韻律ラベルはトーンラベルであり、前記韻律区間は母音区間である音声認識方法。
請求項１４記載の音声認識方法において、
単語サーチを行うステップは、
単語および連続単語の少なくとも一方を同定するステップと、
前記言語モデルを用いて前記単語および連続単語の少なくとも一方の中の音素を同定するステップと、
前記音素のうちの母音の区間を同定するステップと
を備える音声認識方法。
請求項１５記載の音声認識方法において、
区間を同定するステップは、単語サーチにおいて前記母音の仮説の始端時刻から終端時刻までを母音区間とするステップを備える音声認識方法。
請求項１４に記載の音声認識方法において、
第２のスコアを出力するステップは、母音区間におけるピッチの時間変化を特徴量としてモデル化されたトーンモデルを用いて韻律認識を行うステップを備える音声認識方法。
請求項１７記載の音声認識方法において、
前記音響距離の計算に用いる音素モデルと前記トーンモデルとは独立である音声認識方法。
請求項１４に記載の音声認識方法において、
第２のスコアを出力するステップは、母音区間におけるピッチの時間変化を特徴量としてモデル化されたトーンモデルと、韻律の履歴情報であるコンテクスト情報がモデル化されたコンテクストモデルとを用いて、韻律認識を行うステップを備える音声認識方法。
請求項１９記載の音声認識方法において、
前記コンテクストモデルは母音のトーンの連鎖確率がモデル化されたものである音声認識方法。
入力音声の特徴量と音素モデルとの間の音響距離と、単語の音素および韻律ラベルを含む言語モデルにおける前記単語の音素とに基づいて単語サーチを行い、単語仮説とこの単語仮説の確からしさを示す第１のスコアとを単語サーチ結果として出力すると共に、前記入力音声の認識結果が前記単語仮説であるとした場合の、前記入力音声における韻律区間とその韻律ラベルとを出力する単語サーチ手段、
前記入力音声の特徴量の内の、前記単語サーチ手段から出力された韻律区間に対応する特徴量に基づいて、前記単語サーチ手段から出力された韻律ラベルに対する確からしさを示す第２のスコアを出力する韻律認識手段、
前記韻律認識手段から出力された前記第２のスコアを用いて、前記単語サーチ手段から出力された前記単語仮説に対する第１のスコアを補正するリスコア手段
としてコンピュータを機能させるためのプログラムであって、
前記韻律ラベルは、トーンラベルおよびアクセント型のいずれかであり、
前記韻律区間は、母音区間およびアクセント区間のいずれかであるプログラム。
請求項２１記載のプログラムにおいて、
前記リスコア手段は、単語サーチにおいて処理中の単語仮説のスコアを補正すること、および、単語サーチの結果として得られる中間結果のスコアを補正すること、のいずれかを行うプログラム。
請求項２２記載のプログラムにおいて、
前記中間結果は、Ｎｂｅｓｔ候補およびワードグラフのいずれかであるプログラム。
請求項２１に記載のプログラムにおいて、
前記韻律ラベルはトーンラベルであり、前記韻律区間は母音区間であるプログラム。
請求項２４記載のプログラムにおいて、
前記単語サーチ手段は、
単語および連続単語の少なくとも一方を同定する単語仮説同定手段と、
前記言語モデルを用いて前記単語および連続単語の少なくとも一方の中の音素を同定する音素仮説同定手段と、
前記音素のうちの母音の区間を同定する母音区間同定手段と
を備えるプログラム。
請求項２５記載のプログラムにおいて、
前記母音区間同定手段は、単語サーチにおいて前記母音の仮説の始端時刻から終端時刻までを母音区間とするプログラム。
請求項２４に記載のプログラムにおいて、
前記韻律認識手段は、母音区間におけるピッチの時間変化を特徴量としてモデル化されたトーンモデルを用いて韻律認識を行うプログラム。
請求項２７記載のプログラムにおいて、
前記音響距離の計算に用いられる音素モデルと前記トーンモデルとは独立であるプログラム。
請求項２４に記載のプログラムにおいて、
前記韻律認識手段は、母音区間におけるピッチの時間変化を特徴量としてモデル化されたトーンモデルと、韻律の履歴情報であるコンテクスト情報がモデル化されたコンテクストモデルとを用いて、韻律認識を行うプログラム。
請求項２９記載のプログラムにおいて、
前記コンテクストモデルは母音のトーンの連鎖確率がモデル化されたものであるプログラム。