JP2015118354A

JP2015118354A - 音声認識装置および音声認識方法

Info

Publication number: JP2015118354A
Application number: JP2013263627A
Authority: JP
Inventors: 知宏成田; Tomohiro Narita
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2013-12-20
Filing date: 2013-12-20
Publication date: 2015-06-25

Abstract

【課題】学習コーパスへの付帯情報を含むパタンの追加で生じる言語尤度の偏りに起因した認識性能の低下を抑制するために必要なメモリ量を削減した音声認識装置を得る。
【解決手段】認識対象の単語に付して発話される認識対象の単語に関連した情報である付帯情報の表記の少なくとも一部と読みが音響的に類似する認識対象の単語に含まれた部分である対立候補の表記を記憶する付帯情報メモリ１０５と、対立候補の表記と組み合わされて認識対象の単語を構成するキーワードを記憶するキーワードメモリ１０７と、認識対象の単語に付帯情報を付した例文を学習コーパスに含んだ統計的言語モデルを用いて得られた複数の音声認識の結果候補の認識スコアをその音声認識の結果候補と付帯情報メモリに記憶された対立候補の表記とキーワードメモリに記憶されたキーワードに基づいて算出し、複数の音声認識の結果候補の順位付けを行う認識候補評価部１０４と、を備える。
【選択図】図１

Description

この発明は、統計的言語モデルを用いる音声認識技術に関する。

音声認識装置において用いられる統計的言語モデルでは単語間の接続のしやすさが言語尤度と呼ばれる数値で表されている。言語尤度は学習コーパスから学習され、学習コーパス内に高頻度で出現する単語の組み合わせに対して高い数値の言語尤度が与えられる。

統計的言語モデルは学習した単語数に応じてサイズが増大するため、メモリ量などのリソースに制限のある機器では統計的言語モデルの大きさが問題となる。このような場合、例えば「美術館」という１つの単語を「美術」と「館」というより小さな単語に分割して学習することが行われる。また、さらにこのような単語の組み合わせで表現できない単語については、例えば「近代」を「き」「ん」「だ」「い」という４つの音節の連鎖で学習することが行われる。このようにして統計的言語モデルに学習された単語数を一定数に保ったまま大語彙の音声認識に対応する。

上述のような統計的言語モデルを用いる音声認識装置において認識結果の精度をあげる方式の提案がなされている。例えば特許文献１には、検索対象辞書に記憶された単語の表記から生成したキーワード辞書に音声認識の結果候補と一致するものがあるか否かを判定して、一致した場合には言語尤度を使用せず音響モデルに基づく音響尤度のみを使用するようにして音声認識の結果候補の評価順位を変更する音声検索装置が開示されている。

特開2009-145548号公報（図１）

音声認識に用いられる統計的言語モデル（以降、単に言語モデルとも称す）の学習コーパスに、認識対象の単語にその単語の付帯情報を付したパタンの例文を追加することが行われる。ここで付帯情報とは、認識対象の単語に付して発話される認識対象の単語に関連した情報である。例えば施設名を認識対象の単語とする音声認識で使用される言語モデルの学習コーパスでは、施設名の前にその施設が所在する都道府県名を付帯情報として付したパタンが追加される場合がある。このようにすることで、所在地を含んだ発話がなされた場合にも認識対象の施設名を正しく認識することが可能となり、使用者の利便性を高めることができる。

しかしながら、このように付帯情報を付したパタンの例文を学習コーパスに追加した場合、学習コーパスにおいて付帯情報の単語の出現頻度が高くなるため、言語モデルにおけるその付帯情報の単語の言語尤度が高くなるという問題がある。
前述の施設名の音声認識の場合で考えると、例えば「国会議事堂」の所在地は東京都なので施設名単独の「国会議事堂」に加えて「東京都の国会議事堂」「東京都にある国会議事堂」等のパタンが学習コーパスに追加される。東京都に存在する施設について同様のパタンの追加を行った場合、学習コーパスにおいて付帯情報である「東京都」の出現頻度が過度に高くなり、このため言語モデルにおいて「東京都」の言語尤度が高くなる。

このとき、例えば「東京駅」という発話がなされ、音響的に類似した「東京駅」と「東京都き」を音声認識の結果候補として得た場合に、「東京」よりも「東京都」の方が高い言語尤度を有するために「東京都き」に誤認識してしまうという現象が発生する。
このように認識対象の単語に付帯情報を付したパタンを学習コーパスに追加した場合には、付帯情報の単語の出現頻度が高くなることによりその単語と音響的に類似した単語を含む音声認識の結果候補が認識されにくくなるという問題がある。

上述の特許文献１に記載された音声検索装置の従来の音声認識では、キーワード辞書に正解の音声認識の結果候補と一致するものが無い場合には、その正解の候補の評価に言語尤度が用いられる。したがって、この音声検索装置において上述の問題を解決するためには認識対象の単語をすべてキーワード辞書に記憶する必要があり、キーワード辞書を記憶するメモリが大規模化してしまうという課題がある。

この発明は上述のような課題を解決するためになされたものであり、認識対象の単語に付帯情報を加えたパタンの例文が追加された学習コーパスから作成された統計的言語モデルを使用する場合に、付帯情報を含むパタンの追加によって生じる言語尤度の偏りに起因した認識性能の低下を抑制するために必要なメモリ量を削減した音声認識装置を得ることを目的とする。

この発明の音声認識装置は、認識対象の単語に付して発話されるその認識対象の単語に関連した情報である付帯情報の表記の少なくとも一部と読みが音響的に類似する認識対象の単語に含まれた部分である対立候補の表記を記憶する付帯情報メモリと、対立候補の表記と組み合わされて認識対象の単語を構成するキーワードを記憶するキーワードメモリと、認識対象の単語にその単語の付帯情報を付した例文を含んだ学習コーパスを基に作られた統計的言語モデルを用いて行われる音声信号の認識処理によって得られた複数の音声認識の結果候補が入力され、その入力された音声認識の結果候補と付帯情報メモリに記憶された対立候補の表記とキーワードメモリに記憶されたキーワードに基づいて認識スコアを算出し、算出した認識スコアに基づいて入力された複数の音声認識の結果候補の順位付けを行う認識候補評価部と、を備えるようにしたものである。

この発明の音声認識方法は、プロセッサとメモリを備えたハードウェアのプロセッサに入力された音声信号の音声認識をさせる音声認識方法であって、認識対象の単語に付して発話されるその認識対象の単語に関連した情報である付帯情報をその認識対象の単語に付した例文を含んだ学習コーパスを基に作られた統計的言語モデルを用いて行われる音声信号の認識処理によって得られた複数の音声認識の結果候補を受信するステップと、付帯情報の少なくとも一部と音響的に類似した読みの認識対象の単語に含まれた部分である対立候補と対立候補と組み合わされて認識対象の単語を構成するキーワードと受信した音声認識の結果候補とに基づいてその音声認識の結果候補の認識スコアを算出するステップと、算出した認識スコアを基に複数の音声認識の結果候補の順位づけをするステップと、を有するようにしたものである。

この発明によれば、上述のように構成したので、認識対象の単語に付帯情報を加えたパタンが追加された学習コーパスから作成された統計的言語モデルを使用する場合に、付帯情報を含むパタンの追加によって生じる言語尤度の偏りに起因した認識性能の低下を抑制するために必要なメモリ量を削減することができる。

この発明の実施の形態１の音声認識装置の構成を示すブロック図である。この発明の実施の形態１の音声認識装置の付帯情報メモリの記憶例を説明するテーブルである。この発明の実施の形態１の音声認識装置のキーワードメモリの記憶例を説明するテーブルである。この発明の実施の形態１の音声認識装置の音声認識部の音声認識の結果候補の出力例を説明するテーブルである。この発明の実施の形態１の音声認識装置の認識候補評価部のフローチャートである。この発明の実施の形態１の音声認識装置の認識候補評価部の出力例を説明するテーブルである。この発明の実施の形態２の音声認識装置の構成を示すブロック図である。この発明の実施の形態２の言語モデル更新部のフローチャートである。この発明の実施の形態２の音声認識装置の言語モデルの１グラム確率及びバックオフ係数の例を説明するテーブルである。この発明の実施の形態２の言語モデル更新部の１グラム確率及びバックオフ係数を更新する処理のフローチャートである。この発明の実施の形態２の言語モデルメモリの更新後の１グラム確率及びバックオフ係数の記憶例を説明するテーブルである。この発明の実施の形態２の言語モデルメモリの２グラム確率の記憶例を説明するテーブルである。この発明の実施の形態２の言語モデル更新部の２グラム確率を更新する処理のフローチャートである。この発明の実施の形態２の言語モデルメモリの更新後の２グラム確率の記憶例を説明するテーブルである。この発明の実施の形態３の音声認識装置の構成を示すブロック図である。この発明の実施の形態３の音声データメモリの記憶例を説明するテーブルである。この発明の実施の形態３の再発声判定部のフローチャートである。

以下、この発明の実施の形態を、図面を参照して説明する。なお、参照する図面において同一もしくは相当する部分には同一の符号を付している。

実施の形態１．
図１は、この発明の実施の形態１に係る音声認識装置の構成を示すブロック図である。この実施の形態の音声認識装置は、音声認識部１０１、音響モデルメモリ１０２、言語モデルメモリ１０３、認識候補評価部１０４、付帯情報メモリ１０５、キーワードメモリ１０６を備えている。

音声認識部１０１は発話音声の音声信号が入力され、入力された音声信号の認識処理を行い、認識処理結果を出力する。ここで音声信号とは発話音声をデジタル化した信号である。なお、音声認識部１０１は認識処理結果として、複数の音声認識の結果候補（この複数個の候補をＮベスト候補とも称す）を出力する。

音響モデルメモリ１０２は音声認識部１０１が音声信号の認識処理において参照する音響モデルが格納されたメモリである。音響モデルは音声の特徴をモデル化したデータベースである。この実施の形態では一例としてＨＭＭ(Hidden Markov Model)の音響モデルが音響モデルメモリ１０２に格納されているものとする。また、音声の特徴は音声信号から抽出される例えばＭＦＣＣ（Mel Frequency Cepstrum Coefficient）やΔＭＦＣＣなどの特徴量で表される。なお、この発明は特定の形式の音響モデルに限定されるものではなく、他の形式の音響モデルであっても良い。また、この発明は音声信号の特徴量を特定の特徴量に限定するものではない。

言語モデルメモリ１０３は認識対象の単語とその単語に付帯情報を付したパタンを例文に含んだ学習コーパスから作成された統計的言語モデルが格納されたメモリである。ここで付帯情報とは上述の通り、認識対象の単語に付して発話される認識対象の単語に関連した情報である。なお、この実施の形態では統計的言語モデルはＮグラムモデルの言語モデルとする。また以降では、認識対象の単語を日本全国の施設名とし、付帯情報を認識対象の施設が所在する都道府県名として説明する。すなわち、この実施の形態の言語モデルは日本全国の施設名と付帯情報である都道府県名を前に付した施設名を学習コーパスとして作成されているものとする。なお、認識対象の単語を施設名とし、付帯情報を施設が所在する都道府県名とするのは一例であり、この発明はこの組み合わせに限定されるものではない。

またこの言語モデルでは、認識対象の施設名がより小さな単語に分割して表現できる場合には、その施設名は小さな単語に分割して学習されるものとする。例えば「美術館」は「美術」と「館」という単語に分割することができる。さらに、言語モデルに記憶される施設名に係る単語数に上限（例えば５０００個程度）を設け、施設名の中で出現頻度の高い単語が記憶されるものとする。また、それ以外の言語モデルに記憶された単語で表現できない施設名に係る単語は音節の連鎖で学習されるものとする。例えば「近代」という単語が音節の連鎖で学習される場合、「き」「ん」「だ」「い」という音節の連鎖として学習される。

認識候補評価部１０４は、音声認識部１０１が出力したＮベスト候補について、付帯情報メモリ１０５及びキーワードメモリ１０６の記憶内容を参照してＮベスト候補のそれぞれの認識スコアを算出し、この認識スコアに従ってＮベスト候補の順位づけをする。

付帯情報メモリ１０５は、付帯情報の対立候補の表記を示す付帯情報テーブルが格納されたメモリである。ここで対立候補とは、その読みが付帯情報の表記の一部（部分表記）もしくは全体の読みと音響的に類似する認識対象の単語の表記に含まれた部分である。なお以降では、付帯情報である都道府県名から「都」、「道」、「府」、「県」を除いたものを対立候補として説明する。例えば、付帯情報の表記である「東京都」に対し、施設名「東京タワー」における「東京」は対立候補の表記である。

ここで示す例では、付帯情報テーブルに付帯情報の表記と対応する対立候補の表記の組み合わせが登録されているものとする。この付帯情報の表記と対立候補の表記の組み合わせは、＜対立候補の表記＞＋＜キーワード＞で構成される音声認識の結果候補が、＜付帯情報の表記＞＋＜音節の連鎖＞で構成される音声認識の結果候補に対立する結果候補に該当することを示す。なお、ここでキーワードとはキーワードメモリに記憶されたキーワードである。付帯情報メモリ１０５に記憶された付帯情報テーブルの一例を図２に示す。この例のＩｎｄｅｘ＝１のエントリは、「東京都」＋＜音節の連鎖＞に対し、例えば「タワー」をキーワードとした場合の上述の「東京タワー」のような「東京」＋＜キーワード＞が対立する音声認識の結果候補になり得ることを意味している。

キーワードメモリ１０６は付帯情報テーブルに登録された対立候補の表記と組み合わされて認識対象の単語を構成する単語（キーワード）の表記を示すキーワードテーブルを記憶する。この実施の形態では重要度の高いキーワードのみを記憶することとし、ここでは「駅」「城」「ホテル」等の施設名の属性を明示する単語を重要度の高いキーワードとする。なお、上記とは別の基準で重要度を判定するようにしても良い。例えば付帯情報メモリ１０５に記憶された対立候補の表記と共起する頻度で重要度を判定すること、あるいは音節数の長い単語に比べて相対的に言語的な影響を受け易い音節数の短い単語の重要度を高くすることなどが考えられる。また、認識対象が施設名でない場合など、その認識対象に対応した基準で重要度を判定して良い。また、キーワードテーブルには言語モデルに学習された形態で記載されるものとする。例えば「公園」が言語モデルに「こ」「う」「え」「ん」という音節の連鎖で学習されている場合には「こうえん」という表記で記載される。この実施の形態のキーワードメモリ１０６に記憶されたキーワードテーブルの例を図３に示す。

上述の音声認識部１０１、音響モデルメモリ１０２、言語モデルメモリ１０３、認識候補評価部１０４、付帯情報メモリ１０５、キーワードメモリ１０６はそれぞれ専用の回路により構成されるものとする。しかしながらこの発明の特徴はこれらの回路によってなされる処理の方法にある。また、当業者であればこれらの説明から他の回路構成、例えば汎用的なＣＰＵなどで構成した制御回路とコンピュータプログラムとの組み合わせにより実現することは極めて容易なことである。また、音響モデルメモリ１０２等を着脱可能なデバイスを用いて構成することも可能であるし、あるいは音声認識部１０１と認識候補評価部１０４との間などを通信回線で接続し、地理的に離れた場所に配置して構成することも考えられる。

次にこの実施の形態の音声認識装置の動作を説明する。まず音声認識部１０１が音響モデルおよび言語モデルを参照して入力された音声信号の認識処理を行う。なお、音声認識部１０１が行う音声認識処理の方法に関しては例えば鹿野清宏、他編著「音声認識システム」（２００１年５月発行）に記載されているような既存の方法を使用すれば良い。

音声認識部１０１が備える入力端子（図示せず）に音声信号が入力されると、音声認識部１０１は音響モデルメモリ１０２に記憶されている音響モデルと言語モデルメモリ１０３に記憶されている言語モデルとを用いて音声信号の認識処理を行い、認識スコアの大きい順に上位Ｎ個（Ｎは２以上の自然数）の、単語もしくは音節もしくは単語と音節の１つ以上の連鎖で構成される組み合わせを音声認識の結果候補（すなわちＮベスト候補）としてその表記、音響尤度、言語尤度、および認識スコアを出力する。なお、ここでの認識スコアは音響尤度と言語尤度の和であるものとする。

一例として、入力された音声信号の内容が「東京駅」である場合の音声認識部１０１から出力されるＮベスト候補の出力例を図４に示す。この時点では正解の候補の「東京駅」は、音響尤度は一番高いものの、言語尤度が「東京都き」のほうが高いため認識スコアは第２位となっている。このような現象は言語モデルの学習コーパスで「東京都」＋（読みが「き」で始まる音節）に分解される施設名の例文の出現頻度が「東京」＋「駅」の出現頻度よりも高いために発生する。

次に認識候補評価部１０４が、音声認識部１０１から出力されたＮベスト候補の各候補について、付帯情報メモリ１０５に記憶された付帯情報テーブルとキーワードメモリ１０６に記憶されたキーワードを参照して認識スコアを再計算し、Ｎベスト候補の評価を行う。このとき、Ｎベスト候補の表記が付帯情報テーブルに記されている対立候補の表記とキーワードテーブルに記されているキーワードの表記の組合せになっている場合の認識スコアにおける言語尤度の影響度を、組み合わせになっていない場合の言語尤度の影響度よりも小さくして認識スコアの再計算を行う。図４に示したようにこの例では言語尤度が負の値をとっており、言語尤度の影響度を小さくすると認識スコアが高なる。図５は認識候補評価部１０４が行うＮベスト候補の評価の処理の一例の詳細フローである。以下に図５を参照して認識候補評価部１０４の具体的な処理内容を説明する。

まず、処理中の候補の識別子を保持する変数ｍを１に初期化する（ＳＴ１０１）。なお、入力されたＮベスト候補の順位をその候補を示す識別子とする。

次に全候補の認識スコアの再計算を完了したか判定する（ＳＴ１０２）。ｍがＮベスト候補の数（Ｍと表記する）以下の場合にＳＴ１０３に進む。

次に、ＳＴ１０３の処理ではｍ番目の候補の表記が付帯情報テーブルに記されている対立候補の表記とキーワードテーブルに記されているキーワードの表記の組合せとなっているか否かを判定する。対立候補の表記とキーワードの表記の組合せになっている場合はＳＴ１０４に進む。

次にＳＴ１０４の処理では、ｍ番目の候補について言語尤度に予め定められた重み係数を乗じて言語尤度の影響度を小さくして新しい認識スコアを計算する。ここでは以下の式（１）により更新することとする。これは重み係数が０である場合の例である。式（１）においてＳ’（ｍ）はｍ番目の候補の新しい認識スコアを、Ｓａ（ｍ）はｍ番目の候補の音響尤度を表している。

一方、ＳＴ１０３においてｍ番目の候補が対立候補の表記とキーワードの表記の組合せになっていないと判定した場合は、ＳＴ１０５に進む。ＳＴ１０５の処理では以下の式（２）で新しい認識スコアを計算する。式（２）においてＳｌ（ｍ）はｍ番目の候補の言語尤度を表している。ｗは新しい認識スコアにおける言語尤度の影響度を調整するための重み係数であり、この重み係数は新しい認識スコアにおける言語尤度の影響度がＳＴ１０４の処理の場合よりも大きくなるように調整して予め定められたものである。また、ｐは新しい認識スコアの値を調整する予め定められたペナルティ値（調整定数）である。ここではｗ＝１．０、ｐ＝０．０とする。
なお、上述のＳＴ１０４の処理およびＳＴ１０５の処理におけるそれぞれの重み係数およびペナルティ値は動作の整合性が保たれるように実験的に定められたものとする。

ＳＴ１０４もしくはＳＴ１０５の処理の後、次の候補を処理するためにｎに１を加算してＳＴ１０２に戻る（ＳＴ１０６）。ＳＴ１０２の処理ではｍがＭ以下である場合には前述の通りＳＴ１０３に進み、ＳＴ１０３以降の処理を実施する。また、ｍがＭを越えた場合にはＳＴ１０７に進む。

ＳＴ１０７の処理では新しい認識スコアの大きい順にＮベスト候補の並べ替えをしてＮベスト候補の順位付けを行う。図６は図５に示した例についてＳＴ１０７の処理後のＮベスト候補の順位と認識スコアを示している。図５の例では、「東京駅」は対立候補の表記である「東京」とキーワードである「駅」の組み合わせであるので、上述のＳＴ１０４の処理の対象となり、認識スコアが音響尤度と同じ値の１３０に更新されている。一方、「東京都き」は付帯情報の表記である「東京都」と音節「き」の組み合わせであり、対立候補の表記とキーワードの組み合わせではないので上述のＳＴ１０５の処理対象となり、式（２）に従って認識スコアは１１０に更新されている。この結果、ＳＴ１０７の処理で並べ替えが行われ、図６では「東京都き」の上位に「東京駅」が位置されている。なお、図６において１位の東京駅の言語尤度を０としているが、これは言語尤度が認識スコアに反映されなくなったことが分かり易く示すためにしたものであり、例えば括弧内に示すようにもともとの−３０のままであってもよい。

上述のようにこの実施の形態の音声認識装置は、付帯情報テーブルを記憶する付帯情報メモリ１０３とキーワードテーブルを記憶するキーワードメモリ１０６と、入力された複数の音声認識の結果候補の評価を行う認識候補評価部１０４を備え、入力された音声信号に対する音響モデルと言語モデルを参照して行う音声信号の認識処理により得られた複数の音声認識の結果候補について、認識候補評価部１０４が付帯情報テーブルとキーワードテーブルを参照して認識スコアを算出して評価し、この評価に基づいてこれらの複数の候補の順位付けを行うように構成した。

認識対象の単語の個数に比べて、上述の都道府県名のように付帯情報の個数は限られたものであり、また、施設名の属性を明示する単語のようにキーワードの個数も限られたものであるので、付帯情報メモリおよびキーワードメモリが必要とするメモリサイズを抑制することができる。そして、言語モデルの学習コーパスに認識対象の単語の付帯情報を付したパタンを追加したことにより言語尤度に偏りが生じた場合にも、認識候補評価部１０４において音声認識の結果候補の順位付けを行うことにより、＜付帯情報の表記＞＋＜音節の連鎖＞で構成される誤りの候補が正解の候補よりも尤度が高く評価される可能性を低減し、認識精度を向上することができる。

特に言語モデルが、学習コーパスから学習する単語数に上限があり、学習コーパスに現れる認識対象の単語の一部を単語として学習し、その他の認識対象の単語についてはその単語を構成する音節の連鎖を学習して作成されている場合には、＜付帯情報の表記＞＋＜音節の連鎖＞で学習される学習コーパスの例文が増えるため、＜付帯情報の表記＞＋＜音節の連鎖＞で構成される結果候補がＮベスト候補に含まれる可能性が高くなることからこの発明が有効である。

また、さらに認識対象の単語がより小さな単語に分解されて学習されている場合には、上述の「東京駅」の例のように分解後の小さな単語が付帯情報の対立候補になる可能性が高く、この対立候補の表記を含む正解の代わりに＜付帯情報の表記＞＋＜音節の連鎖＞で構成される候補に誤認識する可能性が高くなることからこの発明が有効である。

実施の形態２．
実施の形態１では音声認識部１０１の処理で得られたＮベスト候補を認識候補評価部１０４で評価をする構成を取っているため、Ｎベスト候補に正解候補が入っていない場合は正しい認識結果を得ることができないという問題がある。この実施の形態では、音声認識部１０１の処理で用いる言語モデルを調整し、正解の候補がＮベスト候補に残り易くすることで、正しい認識結果をより取得し易くすることを目的とする。

図７は、この発明の実施の形態２に係る音声認識装置の構成を示すブロック図である。図１に示した実施の形態１の音声認識装置と異なるのは言語モデル更新部１０７を設けた点と、言語モデル１０３ｂが記憶する言語モデルが言語モデル更新部１０７によって更新されるようになっている点である。なお、言語モデル更新部１０７は他のブロックと同様に専用の回路により構成されるものとする。また、言語モデル更新部１０７も他のブロックと同様に、例えば汎用的なＣＰＵなどで構成した制御回路とコンピュータプログラムとの組み合わせにより実現することが可能である。

言語モデル更新部１０７は付帯情報メモリ１０５に記憶された付帯情報の表記に係る言語モデルの言語尤度を更新する。なお、ここでは言語モデルメモリに記憶された言語モデルは２グラムのＮグラム言語モデルであるものとする。ただし、この発明は２グラム言語モデルに限定されるものではない。２グラムのＮグラム言語モデルでは、単語（音節を含む）１グラムの確率（１グラム確率）とそのバックオフ係数、および単語（音節を含む）２グラムの確率（２グラム確率）が規定される。

この実施の形態の言語モデル更新部１０７が行う言語モデルの言語尤度の更新は、付帯情報テーブルに登録された付帯情報の表記の単語の１グラム確率とバックオフ係数の値にそれぞれ予め定められた重み係数を乗じるとともに予め定められた定数を加算する（１グラムの更新）ことと、付帯情報の単語の表記が連続する２つの単語の先行する単語となっている２グラムの２グラム確率の値に予め定められた重み係数を乗じ、さらに予め定められた定数を加算する（２グラムの更新）ことで行われる。なお、１グラム確率、バックオフ係数、２グラム確率の更新は独立に行なうことが可能である。またこの発明は言語モデルの更新を行うタイミングを特定のタイミングに限定するものではない。例えば、言語モデル全体が変更された場合であるとか、あるいは付帯情報メモリ、キーワードメモリが変更されたときなど種々のタイミングが考えられる。

次に動作を説明する。言語モデル更新部１０７が行う言語モデルを更新する処理以外は実施の形態１と同様であるので、言語モデル更新部１０７が行う言語モデルを更新する処理について説明する。図８は言語モデル更新部１０７が行う言語モデルを更新する処理のフローチャートである。ＳＴ２００の処理で言語モデルの１グラムの更新を実施し、次にＳＴ３００の処理で２グラムの更新を行う。以下、ＳＴ２００とＳＴ３００の各処理を詳細に説明する。

図９は言語モデルの１グラム確率及びバックオフ係数の格納例を示すテーブルである。このテーブルでＩｎｄｅｘはこのテーブルの各エントリを識別するための番号であり、このテーブルの各エントリは単語とその１グラム確率とバックオフ係数を示す。ＳＴ２００の処理では言語モデル更新部１０７は言語モデルを参照してこのＩｎｄｅｘの順に更新処理を実施する。図１０は図８に示した１グラムの更新の処理（ＳＴ２００）の詳細なフローチャートである。以下、図１０を参照して１グラムの更新の処理を説明する。なお、ここでは１グラム確率とバックオフ係数を一緒に更新するようにしているが、別々に実施するようにしても良い。

まず処理中のエントリを識別するためにそのエントリのＩｎｄｅｘの値を保持する変数ｉを１に初期化する（ＳＴ２０１）

次に、ｉが図９に示したテーブルのエントリの総数（Ｉとする）を超えたか否かを判定する（ＳＴ２０２）。ｉがＩ以下の場合はＳＴ２０３に進む。

次に、ｉ番目のエントリの単語の表記が付帯情報メモリ１０５の付帯情報テーブルに登録されている付帯情報の表記と一致するか否かを判定する（ＳＴ２０３）。そして、一致する場合はＳＴ２０４に進む。

ＳＴ２０４に進むとこの処理では、下記の式（３）、式（４）によって１グラム確率とバックオフ係数を更新する。式（３）、式（４）においてＰ１（ｉ）、Ｂ（ｉ）は更新前の１グラム確率とバックオフ係数をそれぞれ示し、Ｐ１’（ｉ）、Ｂ’（ｉ）は更新後の１グラム確率とバックオフ係数を示す。なお、ｗ１、ｐ１はそれぞれ１グラム確率とバックオフ係数に重み付けをするための重み係数、ｗｂ、ｐｂはそれぞれ１グラム確率とバックオフ係数の値を調整するためのペナルティ値（調整定数）であり、いずれも予め定められた値を用いるものとする。ここでは、ｗ１＝０．００１、ｗｂ＝０．０、ｐ１＝０．０、ｐｂ＝０．０とする。なお、ｗｌ、ｐｌを変更してＰ１’（ｉ）の値が小さくなると１グラム確率から求める場合の言語尤度が低くなる。なお、これは２グラム確率においても同様である。また、ｗｂ、ｐｂを変更してＢ’（ｉ）が小さくなると、バックオフスムージングでバックオフ係数を用いて求める場合の言語尤度が低くなる。

ＳＴ２０３の処理において、ｉ番目のエントリの単語の表記と付帯情報メモリ１０５の付帯情報テーブルに登録されている付帯情報の表記が一致しなかった場合にはＳＴ２０５に進む。ＳＴ２０５に進むと、下記の式（５）、式（６）によって１グラム確率とバックオフ係数を更新する。

ＳＴ２０４もしくはＳＴ２０５の処理を実行後、ｉに１を加算してＳＴ２０２に戻る（ＳＴ２０６）。ＳＴ２０２の処理ではｉがＩ以下である場合には前述の通りＳＴ２０３に進み、ＳＴ２０３以降の処理を実施する。また、ｉがＩを越えた場合には１グラムの更新の処理を終了する。

図１１は、図１０を用いて説明した処理により図９に示した言語モデルの１グラム確率及びバックオフ係数の例を更新した時の更新後の１グラム確率及びバックオフ係数を示している。なお、付帯情報メモリ１０５には図２に示した付帯情報テーブルが記憶されているものとする。このとき、言語モデルの「東京都」は付帯情報テーブルの付帯情報の表記に一致するものがあるためＳＴ２０４の処理が行われ、１グラム確率とバックオフ係数が変更されている。一方、「東京」はＳＴ２０５の処理が行われて更新され、更新前と同じ値になっている。この例ではｗ１＝０．００１、ｐ１＝０．０であるので「東京都」の１グラム確率が０．００００１に引き下げられ、対立候補である「東京」と同じ値になっている。また、バックオフ係数は、ｗｂ＝０．０、ｐｂ＝０．０であることから０となり、「東京」よりも低い値に更新されている。

１グラム確率とバックオフ係数は値が小さいほどその単語を含む認識候補の言語尤度は低くなるので、「東京都」＋＜音節の連鎖＞の言語尤度が低く算出されることとなり、結果として「東京」+＜キーワード＞で構成される認識候補がＮベスト候補に残り易くなり、正しい認識結果をより取得し易くなる。

次にＳＴ３００の２グラムの更新の処理を詳細に説明する。図１２は言語モデルの２グラム確率の記憶例を示すテーブルである。このテーブルの各エントリには単語とその単語に後続する単語（音節を含む）の２単語の連鎖とその確率（２グラム確率）が記されている。ここで、２グラムにおいて先行する単語を先行単語、先行単語に後続する単語を後続単語と称することにする。図１３はＳＴ３００の２グラムの更新の処理の詳細を示すフローチャートである。以下、図１３を参照して２グラムの更新の処理を説明する。

まず処理中のエントリを識別するためにそのエントリのＩｎｄｅｘの値を保持する変数ｊを１に初期化する（ＳＴ３０１）

次に、ｊが図１２に示したテーブルのエントリの総数（Ｊとする）を超えたか否かを判定する（ＳＴ３０２）。ｊがＪ以下である場合はＳＴ３０３に進む。

ｊ番目のエントリの２グラムの先行単語の表記が付帯情報メモリ１０５に記憶されている付帯情報テーブルの付帯情報の表記と一致するか否かを判定する（ＳＴ３０３）。そして、一致するものがあった場合はＳＴ３０４に進む。

ＳＴ３０４に進むと、この処理では以下の式（７）により２グラム確率を更新する。式（７）においＰ２’（ｊ）はｊ番目のエントリの更新後の２グラム確率、Ｐ２（ｊ）は更新前の２グラム確率を表している。また、ｗ２は２グラム確率に重み付けをする重み係数、ｐ２は２グラム確率の値を調整するためのペナルティ値（調整定数）であり、いずれも予め定められた値を用いるものとする。なお、ここではｗ２＝０．０１、ｐ２＝０．０とする。

一方、ＳＴ３０３でｊ番目のエントリの２グラムの先行単語の表記と一致する付帯情報の表記が付帯情報テーブルに存在しなかった場合にはＳＴ３０５に進む。ＳＴ３０５の処理では以下の式（８）で２グラム確率を更新する。

ＳＴ３０４もしくはＳＴ３０５の処理を実行した後は、jに１を加算してＳＴ３０２に戻る（ＳＴ３０６）。ＳＴ３０２の処理ではｊがＪ以下である場合には前述の通りＳＴ３０３に進み、ＳＴ３０３以降の処理を実施する。また、ｊがＪを越えた場合には２グラムの更新の処理を終了する。

図１４は、図１３を用いて説明した処理により図１２に示した言語モデル２グラム確率の例を更新した時の更新後の２グラム確率を示している。なお、付帯情報メモリ１０５には図２に示した付帯情報テーブルが記憶されているものとする。「東京都」を先行単語に持つ２グラムの２グラム確率は式（７）によって変更されている。また、「東京」を先行単語にもつ２グラムの２グラム確率は式（８）よって更新され更新前の値のままとなっている。この結果、「東京都」を先行単語に持つ２グラムは、対立候補である「東京」を先行単語に持つ２グラムよりも２グラム確率が小さくなっている。これにより、「東京都」＋＜音節の連鎖＞の言語尤度が低く算出されるようになるため、「東京」+＜キーワード＞で構成される認識候補がＮベスト候補に残り易くなり、正しい認識結果をより取得し易くなる。

上述のように言語モデル更新部１０７を備え、付帯情報メモリに記憶された付帯情報テーブルに基づいて、付帯情報の単語の表記を含む音声認識の結果候補の言語尤度が、対立候補の単語を含む音声認識の結果候補の言語尤度よりも低くなるように言語モデルを更新するようにしたので、Ｎベスト候補に正解の候補が含まれる可能性を高くすることができ、これにより実施の形態１に示したこの発明の音声認識装置よりも正しい認識結果を取得する可能性を高くすることができる。

実施の形態３．
実施の形態２では付帯情報テーブルの登録内容に基づいて単語１グラムの１グラム確率とバックオフ係数、および単語２グラムの２グラム確率の更新を行なった言語モデルを用いて音声認識処理を行うようにした。このように構成することで、＜付帯情報の表記＞＋＜音節の連鎖＞の認識候補に対立する「東京」＋「駅」等の認識語彙に対しては正しい認識結果を取得しやすくなる。一方、付帯情報の表記に対応する１グラム確率、バックオフ係数、２グラム確率を過度に低くしてしまうと、施設名の付帯情報である「東京都」を含む「東京都の〇〇ホテル」のような発話を認識しづらくなるという問題が発生する。

この実施の形態は利用者が同じ発話内容を再発声しているかを判定し、再発声していると判定した場合のみ、言語モデル更新部１０７による言語モデルの更新を行なうようにすることで、付帯情報を含む発話の認識性能を低下させることなく、付帯情報を含まない＜対立候補の表記＞＋＜キーワード＞のような発話の認識誤りが繰り返されないようにすることを目的としている。

図１４は、この発明の実施の形態３に係る音声認識装置の構成を示すブロック図である。図７に示した実施の形態２の音声認識装置と異なるのは再発声判定部１０８と音声データメモリ１０９を設けた点である。なお、再発声判定部１０８および音声データメモリ１０９は他のブロックと同様に専用の回路により構成されるものとする。また、他のブロックと同様に、例えば汎用的なＣＰＵなどで構成した制御回路とコンピュータプログラムとの組み合わせにより実現することが可能である。

再発声判定部１０８は音声認識部１０１ｂに入力された音声信号が再発声された内容であるのか否かを判定し、言語モデル更新部１０７ｃが行う言語モデル更新処理を制御するブロックである。

また、音声データメモリ１０９は音声認識部１０１ｂに入力された音声信号の特徴量を発話毎に保存するメモリであり、再発声判定部１０８によって特徴量の読み書きが行われる。ここで音声信号の特徴量とは、音響モデルメモリ１０２に記憶された音響モデルを参照する際に音声認識部１０１ｂが入力された音声信号から抽出する特徴量であるものとする。

図１６は音声データメモリ１０９に記憶された音声信号の特徴量の例を示すテーブルである。なお、入力された音声信号からの特徴量の抽出は予め定められた単位時間（例えば５０ミリ秒）毎に行われるものとする。なお、この単位時間に区切られた音声信号を以降はフレームと称すこととする。図１６においてＶは個々の発話から抽出された音声信号の特徴量を表し、特徴量Ｖが時系列に沿ったフレームの特徴量ｖの集合であることを示している。例えば、１行目のＶ_１はｖ_１（０）からｖ_１（Ｕ_１）までのＵ_１＋１個のフレームの特徴量の集合である（Ｕ_１は１以上の自然数、Ｕ₂も同じ）。なお各発話の長さは同じとは限らないので各発話のフレームの特徴量の個数は同じとは限らない（つまりＵ_１＝Ｕ₂とは限らない）。

次に動作を説明する。実施の形態２の音声認識装置との主な差分は再発声判定部１０８の動作であるので、再発声判定部１０８の動作を中心に説明する。再発声判定部１０８は音声認識部１０１ｂより入力された音声信号から抽出された特徴量（以降、音声認識部１０１ｂより再発声判定部１０８が受け取った特徴量をＳと表記する）を受信して、入力された音声信号が再発声された内容であるか否かの判定処理を開始する。図１７はこの判定処理の詳細なフローチャートである。以下、図１７を参照して再発声判定部１０８の動作を説明する。

再発声判定部１０８は図１６に例を示した各発話の音声信号の特徴量を順に入力された特徴量Ｓと比較する。このためにまず、現在処理中の音声データメモリの特徴量を示す変数ｋを１に初期化する（ＳＴ４０１）。

ｋが音声データメモリに記憶されている音声信号の特徴量の総数（Ｋとする）以下であるか否かを判定する（ＳＴ４０２）。ｋがＫ以下であったはＳＴ４０３に進む。

ＳＴ４０３に進むと、この処理では音声認識部１０１ｂから入力された特徴量Ｓと音声データメモリ１０９に記憶されている特徴量Ｖ_ｋとの距離値Ｌ_ｋを算出する。特徴量Ｓと特徴量Ｖ_ｋはフレーム数が異なるが、このように長さの異なる時系列間の距離値を算出するアルゴリズムは様々なものが提案されている。ここでは、公知の技術であるＤＰ（Dynamic Programming）法により距離値を算出することとする。ＤＰ法による距離値の算出は、以下の擬似的なプログラムコードで定義されるように式（９）で逐次的に計算を行っていき、最終的に得られるＬ（Ｔ，Ｕ）を最終的な距離値Ｌ_ｋとするものである。ここでＴは入力音声の特徴量Ｓのフレーム数、Ｕは特徴量Ｖ_ｋのフレーム数である。また、Ｄ（ｔ，ｕ）は特徴量Ｓのｔフレーム目と特徴量Ｖ_ｋのｕフレーム目の特徴量間の局所的な距離値（例えばベクトル間のユークリッド距離）である。Ｌ_ｋが小さいほど入力音声の特徴量Ｓと特徴量Ｖ_ｋの一致度が高いことになる。

ＳＴ４０３で距離値Ｌ_ｋを求めた次に、Ｌ_ｋと予め定められたしきい値（Ｌ_ｔｈとする）の大小を判定する（ＳＴ４０４）。Ｌ_ｋがしきい値Ｌ_ｔｈよりも大きい場合には場合はＳＴ４０５へ進み、そうでない場合はＳＴ４０６へ進む。なお、しきい値Ｌ_ｔｈを大きく設定すると再発声判定の正解率が向上するが、再発声でないときに再発声と判定される湧き出しの頻度が増加する傾向がある。一方、しきい値Ｌ_ｔｈを小さく設定すると、再発声判定の正解率が低下するが、再発声でないときに再発声と判定される湧き出しの頻度は減少する傾向がある。

ＳＴ４０５に進むとこの処理では再発声判定フラグ（Ｒｅｆｌｇとする）に１を代入する。一方、ＳＴ４０６に進んだ場合には、ｋに１を加算してＳＴ４０２に戻る。ＳＴ４０２では、ｋがＫ以下である場合にはＳＴ４０３以降の処理を継続し、ｋがＫよりも大きい場合にはＳＴ４０７に進む。ＳＴ４０７に進むとこの処理では、再発声判定フラグＲｅｆｌｇに０を代入する。

ＳＴ４０５もしくはＳＴ４０７の処理の後、ＳＴ４０８に進むとＶ_ｋ＋１＝Ｖ_ｋ（ｋ＝Ｋ,…，ｋ＝１）となるように順に音声データメモリ１０９に記憶している特徴量のコピー処理を行う（ＳＴ４０８）。そしてＳＴ４０８の処理の後、音声データメモリ１０９のＶ_１にＳをコピーする（ＳＴ４０９）。

以上が再発声判定部１０８の動作例である。再発声判定部１０８は再発声判定フラグＲｅｆｌｇを言語モデル更新部１０７に対して出力する。言語モデル更新部１０７では再発声判定部１０８が出力する再発声判定フラグＲｅｆｌｇが１の場合に、実施の形態２で示した言語モデルの更新処理を実施し、Ｒｅｆｌｇが０の場合には更新処理を実施しない。

上述のように実施の形態２の構成に加えて、入力された音声信号の特徴量を記憶する音声データメモリ１０９と、音声データメモリ１０９を参照して入力された音声信号の内容が再発声されたものであるか否かを判定する再発声判定部１０８を備え、利用者が音声認識装置の認識誤りにより同じ発話内容を再発声しているかどうかを判定し、再発声と判定した場合のみ言語モデルの付帯情報の単語に対応する１グラム確率とバックオフ係数、および２グラム確率の更新を行なうようにしたので、付帯情報を含む発話内容に対する認識性能を低下させることなく、付帯情報メモリ１０４に記憶された付帯情報の対立候補を含む発話がなされた場合に、言語モデルに学習された付帯情報の影響によりその対立候補を含む発話の認識誤りが繰り返されることを防止することができる。

なお、ここでは再発声判定部１０８の再発声判定の結果に応じて言語モデル更新部１０７ｂが言語モデルの更新を実施するようにしたが、さらにＮベスト候補の中に付帯情報メモリ１０５に記憶された付帯情報の表記を含む候補があることを言語モデル更新部１０７ｂが言語モデルの更新を実施する条件に加えるようにしても良い。

上述の実施の形態１〜３では施設名を認識対象、施設の所在地である都道府県名を付帯情報として、説明を行なっているが、この発明はこの例に限定するものではないことは明らかである。例えば楽曲名を認識対象、その曲を歌っている歌手名を付帯情報とすることも可能である。この場合も施設名の例と同様に、＜歌手名＞＋＜楽曲名＞というパタンを学習コーパスに追加した場合、大量に存在する歌手名の言語尤度が高くなり、その歌手名の部分表記または部分表記と一致する読みをもつ表記が存在する楽曲名が＜歌手名＞＋＜音節の連鎖＞に誤認識し易くなる問題が生じる。本発明を適用することで、施設名の場合と同様にこの問題を解決することができる。

１０１，１０１ｂ音声認識部、１０２音響モデルメモリ、１０３，１０３ｂ言語モデルメモリ、１０４認識候補評価部、１０５付帯情報メモリ、１０６キーワードメモリ、１０７，１０７ｂ言語モデル更新部、１０８再発声判定部、１０９音声データメモリ

Claims

認識対象の単語に付して発話されるその認識対象の単語に関連した情報である付帯情報の表記の少なくとも一部と読みが音響的に類似する前記認識対象の単語に含まれた部分である対立候補の表記を記憶する付帯情報メモリと、
前記対立候補の表記と組み合わされて前記認識対象の単語を構成するキーワードを記憶するキーワードメモリと、
前記認識対象の単語にその単語の前記付帯情報を付した例文を含んだ学習コーパスを基に作られた統計的言語モデルを用いて行われる音声信号の認識処理によって得られた複数の音声認識の結果候補が入力され、その入力された音声認識の結果候補と前記付帯情報メモリに記憶された前記対立候補の表記と前記キーワードメモリに記憶された前記キーワードに基づいて認識スコアを算出し、算出した認識スコアに基づいて前記複数の音声認識の結果候補の順位付けを行う認識候補評価部と、
を備えることを特徴とする音声認識装置。
前記認識候補評価部は、前記音声認識の結果候補とともに前記統計的言語モデルに基づいて得られたその音声認識の結果候補に関する言語尤度と音響モデルに基づいて得られたその音声認識の結果候補に関する音響尤度が入力され、前記音声認識の結果候補の表記と一致する前記付帯情報メモリに記憶された前記対立候補の表記と前記キーワードメモリに記憶された前記キーワードの表記の組み合わせが存在した場合は存在しない場合よりも言語尤度の影響度を小さくして前記言語尤度と前記音響尤度からその音声認識の結果候補の前記認識スコアを算出することを特徴とする請求項１に記載の音声認識装置。
前記認識候補評価部は、前記音声認識の結果候補の表記と一致する前記組み合わせが存在した場合は予め定められた重み係数を乗じた前記言語尤度と前記音響尤度を加算してその音声認識の結果候補の前記認識スコアを算出し、前記音声認識の結果候補の表記と一致する前記組み合わせが存在しない場合は存在した場合の前記重み係数以上の予め定められた別の重み係数を乗じた言語尤度と前記音響尤度と予め定められた調整定数を加算してその音声認識の結果候補の前記認識スコアを算出することを特徴とする請求項２に記載の音声認識装置。
前記音声認識の結果候補は、前記学習コーパスに含まれる単語の一部をその単語を構成する音節の連鎖として学習した前記統計的言語モデルを用いた音声認識処理によって得られたことを特徴とする請求項１から請求項３のいずれか一項に記載の音声認識装置。
前記音声認識の結果候補は、前記学習コーパスに含まれる単語の一部をその単語を構成する２個以上の単語に分割してその分割された単語の連鎖として学習した前記統計的言語モデルを用いた音声認識処理によって得られたことを特徴とする請求項４に記載の音声認識装置。
前記音声認識の結果候補は、前記付帯情報に基づいて調整された前記統計的言語モデルを用いて得られたことを特徴とする請求項１から請求項５のいずれか一項に記載の音声認識装置。
前記統計的言語モデルはＮグラムモデルの言語モデルであり、前記音声認識の結果候補は、前記付帯情報の表記に係る前記統計的言語モデルの確率およびバックオフ係数にそれぞれ予め定められた重み係数を乗じ、予め定められた調整定数を加算して調整された前記統計的言語モデルを用いて得られたことを特徴とする請求項６に記載の音声認識装置。
前記付帯情報メモリは前記対立候補の表記に加えて前記対立候補の表記に対応する前記付帯情報の表記を記憶し、
前記付帯情報メモリに記憶された前記付帯情報に基づいて、前記統計的言語モデルに対して前記調整を行う言語モデル更新部を備えたことを特徴とする請求項６もしくは請求項７に記載の音声認識装置。
前記音声信号から抽出された特徴量を記憶する音声データメモリと、
前記音声信号から抽出された特徴量を受信して前記音声データメモリに受信した前記特徴量を保存して記憶させ、前記音声データメモリに記憶された過去に受信した前記特徴量と新たに受信した前記特徴量を比較して同じ発話が繰り返されたかどうかを判定する再発声判定部と、を備え、
前記言語モデル更新部は、前記再発声判定部が同じ発話が繰り返されたと判定した場合に前記統計的言語モデルの前記調整を行うことを特徴とする請求項８に記載の音声認識装置。
プロセッサとメモリを備えたハードウェアの前記プロセッサに入力された音声信号の音声認識をさせる音声認識方法であって、
認識対象の単語に付して発話されるその認識対象の単語に関連した情報である付帯情報をその認識対象の単語に付した例文を含んだ学習コーパスを基に作られた統計的言語モデルを用いて行われる前記音声信号の認識処理によって得られた複数の音声認識の結果候補を受信するステップと、
前記付帯情報の少なくとも一部と音響的に類似した読みの前記認識対象の単語に含まれた部分である対立候補と前記対立候補と組み合わされて前記認識対象の単語を構成するキーワードと受信した前記音声認識の結果候補とに基づいてその音声認識の結果候補の認識スコアを算出するステップと、
前記算出した認識スコアを基に前記複数の音声認識の結果候補の順位づけをするステップと、
を有することを特徴とする音声認識方法。