JP2009025411A

JP2009025411A - 音声認識装置およびプログラム

Info

Publication number: JP2009025411A
Application number: JP2007186184A
Authority: JP
Inventors: Yuji Hisaminato; 裕司久湊
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2007-07-17
Filing date: 2007-07-17
Publication date: 2009-02-05
Anticipated expiration: 2027-07-17
Also published as: JP5196114B2

Abstract

【課題】指定単語に関連する単語を高精度に認識する。
【解決手段】関連語特定部１２は、利用者が入力装置４２から入力した指定単語ＫＷについて複数の関連語ＲＷを特定する。記憶装置３０は、複数の単語の各々について出現確率Ｐを記憶する。確率調整部１４は、複数の単語のうち関連語特定部１２が特定した各関連語ＲＷの出現確率Ｐを関連語ＲＷ以外の単語の出現確率Ｐに対して相対的に上昇させる。音声認識部１６は、音声信号Ｓが表わす音声に対応した単語を、確率調整部１４による調整後の出現確率Ｐに基づいて特定する。
【選択図】図１

Description

本発明は、音声を認識する技術に関する。

音声信号から特定の単語（キーワード）を検索する技術が従来から提案されている。例えば特許文献１に開示された音声認識装置は、利用者が指定した単語（以下「指定単語」という）に対応した音響モデルと事前に収録された音声信号とを照合することで音声信号から指定単語を検索する。
特開２００１−２９０４９６号公報

音声認識の誤認識を完全に回避することは技術的に困難であるから、特許文献１の技術においては、指定単語以外の単語が検索される場合や指定単語が検索されない場合がある。複数の参加者が発声する会議での収録音から特定の指定単語を検索できれば、例えば議事録の作成に便利であるが、指定単語以外の単語が誤検出された場合には当該単語を利用者が除外する必要があり、指定単語が検索されない場合には議事録上での発言の欠落といった重大な問題が発生し得る。

また、特許文献１の構成においては、音声信号のうちひとつの指定単語と完全に合致する部分のみが検索され、指定単語と同様の意味で使用された別個の単語や指定単語に関連する単語は検索されない。したがって、所定の指定単語に関連する総ての単語を検出するためには各単語を指定単語に設定したうえで検索を反復する必要がある。以上の事情を考慮して、本発明は、誤認識の可能性を抑制しながら、指定単語に関連する単語を効率的に認識するという課題の解決をひとつの目的としている。

以上の課題を解決するために、本発明に係る音声認識装置は、利用者が指定した単語について複数の関連語を特定する関連語特定手段と、複数の単語の各々について出現確率を記憶する記憶手段と、複数の単語のうち関連語特定手段が特定した各関連語の出現確率を複数の関連語以外の単語の出現確率に対して相対的に上昇させる確率調整手段と、音声信号が表わす音声に対応した単語を確率調整手段による調整後の出現確率に基づいて特定する音声認識手段とを具備する。

以上の構成においては、指定単語に応じた複数の関連語の各々の出現確率を相対的に上昇させたうえで音声信号の認識が実行されるから、各単語の出現確率が初期値に維持されたまま音声認識が実行される構成と比較して、誤認識の可能性を抑制しながら各関連語を効率的に認識することが可能である。なお、「各関連語の出現確率を複数の関連語以外の単語の出現確率に対して相対的に上昇させる」とは、各関連語の出現確率を上昇させる処理（関連語以外の各単語の出現確率は変化させない）や、関連語以外の各単語の出現確率を低下させる処理（各関連語の出現確率は変化させない）を少なくとも包含する。また、関連語特定手段の特定する複数の関連語に指定単語（利用者の指定した単語）が含まれるか否かは本発明において不問である。

本発明の好適な態様に係る音声認識装置は、音声認識手段が特定した複数の単語から関連語を選択する選択手段と、選択手段が選択した関連語の文字列を表示装置に表示させる表示制御手段とを具備する。音声信号から特定された各関連語を利用者が容易に確認することが可能である。さらに好適な態様に係る音声認識装置は、表示装置に表示された関連語を利用者が指定した場合に、音声信号のうち当該関連語に対応した部分の音声を放音装置から出力する再生制御手段を具備する。本態様によれば、各関連語に対応した部分の音声が再生されるから、各関連語に対応した部分の発声の内容を利用者が容易に確認できるという利点がある。

本発明の好適な態様において、音声認識手段は、選択手段が選択した各関連語について当該音声認識手段による特定の結果の信頼度（例えば図１の信頼度Ａ1）を算定し、表示制御手段は、各関連語の文字列を、当該関連語について音声認識手段が算定した信頼度に応じた態様（サイズや表示色（色相，明度，彩度）や文字種）で表示装置に表示させる。以上の態様によれば、表示装置に表示された各関連語の音声認識の信頼度を利用者が直感的に認識できるという利点がある。

本発明の好適な態様に係る音声認識装置は、音声信号を発声者毎の発声区間に区分する話者識別手段を具備し、表示制御手段は、話者識別手段が区分した複数の発声区間のうち各関連語が発声された発声区間を特定することで、各関連語の文字列を発声者毎に表示装置に表示させる。以上の態様によれば、各発声者が発声した関連語を発声者毎に確認することが可能である。さらに好適な態様において、話者識別手段は、当該話者識別手段による区分の結果の信頼度（例えば図１の信頼度Ａ2）を発声区間毎に算定し、表示制御手段は、各関連語の文字列を、当該関連語が発声された発声区間について話者識別手段が算定した信頼度に応じた態様（サイズや表示色（色相，明度，彩度）や文字種）で表示装置に表示させる。以上の態様によれば、表示装置に表示された各関連語の音声認識の信頼度を利用者が直感的に認識できるという利点がある。

本発明に係る音声認識装置は、音声の処理に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、複数の単語の各々について出現確率を記憶する記憶手段を具備するコンピュータに、利用者が指定した単語について複数の関連語を特定する関連語特定処理と、複数の単語のうち関連語特定手段が特定した各関連語の出現確率を複数の関連語以外の単語の出現確率に対して相対的に上昇させる確率調整処理と、音声信号が表わす音声に対応した単語を確率調整処理後の出現確率に基づいて特定する音声認識処理とを実行させる。以上のプログラムによっても、本発明に係る音声認識装置と同様の作用および効果が奏される。なお、本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。

本発明は、音声を認識する方法としても特定される。具体的な態様に係る音声認識方法は、利用者が指定した単語について複数の関連語を特定する関連語特定過程と、複数の単語のうち関連語特定過程にて特定した各関連語の出現確率を初期値から上昇させる確率調整過程と、音声信号が表わす音声に対応した単語を確率調整過程による処理後の出現確率に基づいて特定する音声認識過程とを含む。以上の方法によれば、本発明に係る音声認識装置と同様の作用および効果が奏される。

図１は、本発明の実施の形態に係る音声認識装置１００の構成を示すブロック図である。同図に示すように、音声認識装置１００は、制御装置１０と記憶装置３０とを具備するコンピュータシステムである。制御装置１０には入力装置４２と表示装置４４と放音装置４６とが接続される。入力装置４２は、音声認識装置１００に対する指示を利用者が入力するための機器（キーボードやマウス）である。例えば、入力装置４２を適宜に操作することで利用者は所望の単語（キーワード）ＫＷを入力する。表示装置４４は、制御装置１０による制御のもとに各種の画像を表示する。放音装置４６は、制御装置１０から供給される信号に応じた音声を放音する機器（例えばスピーカやヘッドホン）である。

記憶装置３０は、制御装置１０が実行するプログラムや制御装置１０が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置など公知の記録媒体が記憶装置３０として任意に採用される。図１に示すように、記憶装置３０には、音声信号Ｓと共起データベース（ＤＢ）Ｃと認識辞書Ｄと音素モデル群Ｇとが格納される。なお、以上の各情報は別個の記憶装置に分散して記憶されてもよい。

音声信号Ｓは、収音機器（図示略）を利用して事前に採取された音声の波形を表わす。音声信号Ｓが表わす音声は、例えば、会議室などの空間内にて複数の参加者が随時に発声する会議にて収録された音声である。

共起データベースＣは、多数の単語の各々に複数の別の単語を対応させたデータベースである。ひとつの単語には、当該単語の同義語や意味的に連関する単語（同じ文脈にて出現する可能性が高い単語）が対応づけられる。

認識辞書Ｄは、音声信号Ｓの認識に使用されるデータベースである。図２は、認識辞書Ｄの内容を模式的に示す概念図である。同図に示すように、認識辞書Ｄは、複数（Ｎ個）の単語の各々について音素列ＤAと文字列ＤBと出現確率Ｐとを含む。音素列ＤAは、単語を構成する音素の配列である。文字列ＤBは、単語を表記したときの文字（例えば漢字）の配列である。出現確率Ｐは、単語が出現する確率である。出現確率Ｐは、新聞記事などの一般的な文章のなかで当該単語が使用される頻度を統計的に処理することで単語毎に事前に決定される。

図１の音素モデル群Ｇは、平均的な音声の音響的な特性を音素毎にモデル化する複数の音素モデルで構成される。音素モデルには、隠れマルコフモデルに代表される公知の確率モデルが任意に採用される。

制御装置１０は、記憶装置３０に格納されたプログラムを実行することで複数の要素（関連語特定部１２，確率調整部１４，音声認識部１６，話者識別部２２，表示制御部２４，再生制御部２６）として機能する。制御装置１０が実現する各要素の機能を以下に詳述する。なお、制御装置１０の各要素は、音声の処理に専用されるＤＳＰなどの電子回路によっても実現される。また、制御装置１０は、複数の集積回路に分散して実装されてもよい。

関連語特定部１２は、指定単語ＫＷについて複数の関連語ＲＷを特定する。関連語特定部１２が特定する複数の関連語ＲＷは、共起データベースＣにて指定単語ＫＷに対応づけられた単語と、利用者が入力装置４２から入力した指定単語ＫＷとを含む。

確率調整部１４は、認識辞書Ｄに登録された複数の単語のなかから各関連語ＲＷ（指定単語ＫＷを含む）を検索し、当該関連語ＲＷに対応する出現確率Ｐを初期値から上昇させる。例えば、確率調整部１４は、初期的な出現確率Ｐに所定の係数を乗算または加算することで更新後の出現確率Ｐを算定する。一方、関連語ＲＷ以外の各単語の出現確率Ｐは初期値のまま維持される。

音声認識部１６は、記憶装置３０に格納された音声信号Ｓを認識する手段である。さらに詳述すると、音声認識部１６は、音声信号Ｓの音声に対応した単語（関連語ＲＷおよび関連語ＲＷ以外の単語）の時系列と各単語が発声された時刻とを、認識辞書Ｄと音素モデル群Ｇとに基づいて順次に特定する。認識辞書Ｄに登録された複数の単語のうち評価値（スコア）ＳＣの高い単語が選択される。評価値ＳＣは、音響的評価値（音響スコア）ＡＳと言語的評価値（言語スコア）ＬＳとの加算値や加重和として算定される。

音響的評価値ＡＳは、音声信号Ｓからフレーム毎に抽出された音響的な特徴量（例えばＭＦＣＣ（Mel Frequency Cepstral Coefficients））の時系列と複数の単語の各々の音響モデルとの相関の指標となる数値（例えば両者の距離）である。各単語の音響モデルは、当該単語の音素列ＤAを構成する各音素の音素モデルを音素モデル群Ｇから選択して組合わせた確率モデルである。したがって、音響モデルが音声信号Ｓの特徴量の時系列に近似する単語ほど音響的評価値ＡＳは高い数値となる。一方、言語的評価値ＬＳは、確率調整部１４による調整後に認識辞書Ｄで各単語に設定されている出現確率Ｐに応じた数値である。本形態においては出現確率Ｐを言語的評価値ＬＳとして採用する。評価値ＳＣは音響的評価値ＡＳと言語的評価値ＬＳとの加算に基づいて算定されるから、音響的評価値ＡＳまたは言語的評価値ＬＳが増加するほど評価値ＳＣも増加する。

確率調整部１４が関連語ＲＷの出現確率Ｐを増加させることで関連語ＲＷの評価値ＳＣ（言語的評価値ＬＳ）は上昇するから、音声認識部１６が関連語ＲＷを認識する確率は、当該単語が関連語ＲＷとして特定されない場合と比較して上昇する。すなわち、各関連語ＲＷは音声認識部１６に認識され易くなる。

図１に示すように、音声認識部１６は選択部１６２を含む。選択部１６２は、音声認識部１６が以上の処理で認識した複数の単語の時系列から各関連語ＲＷを選択する。さらに、音声認識部１６は、選択部１６２が選択した関連語ＲＷを音声認識部１６が認識した結果の確度（以下「信頼度」という）Ａ1を関連語ＲＷ毎に算定する。評価値ＳＣが高いほど音声認識の結果の妥当性は高いと言えるから、本形態においては、音声認識にて複数の単語について算定した評価値ＳＣの総和に対する関連語ＲＷの評価値ＳＣの相対比（関連語ＲＷの評価値ＳＣ／評価値ＳＣの総和）を信頼度Ａ1として算定する。音声認識部１６は、選択部１６２が選択した関連語ＲＷの文字列ＤBと当該関連語ＲＷの発声の時刻Ｔ1と信頼度Ａ1とを関連語ＲＷ毎に順次に出力する。以上が音声認識部１６による処理の内容である。

話者識別部２２は、音声信号Ｓを発声者毎に時間軸上で複数の区間（以下「発声区間」という）に区分する。例えば、話者識別部２２は、音声信号Ｓのフレーム毎に抽出された音響的な特徴量（例えばＭＦＣＣ）を複数の集合（クラスタ）に分類する。すなわち、発声者毎に別のクラスタが設定される。さらに、話者識別部２２は、音声信号Ｓの複数のフレームの各々を、複数のクラスタのうち当該フレームの特徴量が最も類似する（距離が最小となる）中心ベクトルで規定されるクラスタに分類することで、音声信号Ｓを発声者毎（クラスタ毎）の発声区間に区分する。

また、話者識別部２２は、話者識別部２２による区分の結果の確度（以下「信頼度」という）Ａ2を発声区間毎に算定する。例えば、ひとつのクラスタに所属する発声区間の信頼度Ａ2は、発声区間内の各フレームから抽出された特徴量と当該クラスタの中心ベクトルとの距離の平均値の逆数として算定される。話者識別部２２は、各発声区間の発声者（各クラスタ）に固有に付与された識別符号Ｉと当該発声区間の始点および終点の時刻Ｔ2と当該発声区間の信頼度Ａ2とを発声区間毎に順次に出力する。

表示制御部２４は、音声認識部１６が特定した各関連語ＲＷの文字列ＤBを表示装置４４に表示させる。図３は、表示装置４４に表示される画面（以下「検索結果表示画面」という）４４２を例示する模式図である。同図に示すように、検索結果表示画面４４２には、話者識別部２２が識別した発声者毎の領域Ｒ（Ｒ1〜Ｒ3）が画定される。また、各領域Ｒに対応した発声者の識別符号Ｉ（Ｉ1〜Ｉ3）が当該領域Ｒの近傍に配置されるとともに、音声信号Ｓの始点を基準（0:00）とした時刻が上方から下方に向かって等間隔に配置される。

表示制御部２４は、音声認識部１６が特定した各関連語ＲＷの文字列ＤBを、当該関連語ＲＷの発声者に対応した領域Ｒ内に配置する。すなわち、各関連語ＲＷの文字列ＤBが発声者毎に区別して表示される。さらに詳述すると、表示制御部２４は、話者識別部２２が特定した時刻Ｔ2で特定される複数の発声区間のうち各関連語ＲＷの時刻Ｔ1を含む発声区間（すなわち関連語ＲＷが発声された区間）を特定し、当該発声区間の発声者の領域Ｒのうち時刻Ｔ1に対応した位置に関連語ＲＷの文字列ＤBを配置する。例えば、図３においては、「コスト」という指定単語ＫＷに対して特定された「削減」という関連語ＲＷを、識別符号Ｉ1の発声者が時刻“0:30”から“1:00”までの区間内に発声した場合が例示されている。表示制御部２４は、領域Ｒ毎（発声者毎）に別色で関連語ＲＷの文字列ＤBを表示させる。

また、表示制御部２４は、音声認識部１６が特定した関連語ＲＷ毎に信頼度Ａ0を算定する。信頼度Ａ0は、関連語ＲＷについて音声認識部１６が特定した信頼度Ａ1と、当該関連語ＲＷの時刻Ｔ1を含む発声区間について話者識別部２２が特定した信頼度Ａ2との加算値（または加重和）である。表示制御部２４は、各関連語ＲＷの文字列ＤBを、当該関連語ＲＷの信頼度Ａ0に応じた態様で表示装置４４に表示させる。例えば、表示制御部２４は、信頼度Ａ0に応じたサイズで関連語ＲＷの文字列ＤBを表示する。図３の例示において、識別符号Ｉ2の発声者が時刻“1:00”から“1:15”までの区間内で発声した「価格」という関連語ＲＷの信頼度Ａ0は、識別符号Ｉ2の発声者および識別符号Ｉ3の発声者の各々が時刻“0:15”から“0:30”までの区間内で発声した「価格」という関連語ＲＷの信頼度Ａ0と比較して高い（したがって文字列ＤBのサイズが大きい）。

利用者は、検索結果表示画面４４２に配置された何れかの関連語ＲＷを入力装置４２から指定することが可能である。図１の再生制御部２６は、記憶装置３０が記憶する音声信号Ｓのうち利用者が指定した関連語ＲＷの時刻Ｔ1に対応した時点以後の区間（関連語ＲＷに対応した部分）を順次に放音装置４６に出力する。したがって、関連語ＲＷを含む部分の音声が放音装置４６から出力される。なお、関連語ＲＷの時刻Ｔ1から所定の時間長だけ手前の時点を再生制御部２６による再生の開始点に設定してもよい。

以上に説明したように、本形態においては、複数の単語のうち各関連語ＲＷの出現確率Ｐが上昇するから、各関連語ＲＷの出現確率Ｐが初期値のまま音声認識に使用される構成と比較して、音声信号Ｓの誤認識の可能性が低減される。しかも、指定単語ＫＷに対応した複数の関連語ＲＷが特定されるから、指定単語ＫＷのみが音声信号Ｓから検索される構成と比較して、利用者の意図を反映した広範囲の単語（関連語ＲＷ）が効率的に検索されるという利点もある。

また、音声信号Ｓが発声者毎に区分されるとともに関連語ＲＷの文字列ＤBが発声者毎に区別して表示されるから、関連語ＲＷの発声者を利用者が容易に把握できるという利点がある。さらに、領域Ｒのうち時刻Ｔ1に応じた位置に関連語ＲＷの文字列ＤBが配置されるから、各発声者が関連語ＲＷを発声した時刻や各発声者による発声の先後を利用者が直感的に把握できるという利点もある。また、各関連語ＲＷの認識の信頼度Ａ0（Ａ1，Ａ2）に応じた態様で当該関連語ＲＷの文字列ＤBが表示されるから、各関連語ＲＷの信頼度Ａ0を利用者が直感的に把握することができ、さらには信頼度Ａ0の高い関連語ＲＷから順番に再生するといった効率的な利用が可能となる。

＜変形例＞
以上の形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から２以上の態様を任意に選択して組合わせてもよい。

（１）変形例１
以上の形態においては音声認識部１６が選択部１６２を含む構成を例示したが、表示制御部２４が選択部１６２を含む構成も採用される。例えば、音声認識部１６は、音声信号Ｓから認識した総ての単語（関連語ＲＷおよび関連語ＲＷ以外の単語）の各々について文字列ＤBと時刻Ｔ1と信頼度Ａ1とを表示制御部２４に出力する。表示制御部２４の選択部１６２は、音声認識部１６から通知された単語のなかから関連語ＲＷを選択して文字列ＤBを表示装置４４に表示させる。なお、図１の構成によれば、文字列ＤBと時刻Ｔ1と信頼度Ａ1との特定前に音声認識の結果から関連語ＲＷが抽出されるから、関連語ＲＷのみについて文字列ＤBと時刻Ｔ1と信頼度Ａ1とを特定すれば足りる（したがって処理量が削減される）という利点がある。

（２）変形例２
確率調整部１４を音声認識部１６とは別個の要素とした構成を便宜的に例示したが、確率調整部１４の機能を音声認識部１６に持たせてもよい。例えば、複数の単語の各々を順次に選択して当該単語の評価値ＳＣを算定するときに、音声認識部１６は、選択した単語が関連語ＲＷであれば当該単語の出現確率Ｐを上昇させたうえで評価値ＳＣを算定する一方、選択した単語が関連語ＲＷ以外であれば当該単語の出現確率Ｐを初期値に維持したまま評価値ＳＣを算定する。

（３）変形例３
音声認識部１６が認識した複数の単語のうち各関連語ＲＷを選択的に出力（検索）する構成は本発明において必須ではない。例えば、音声認識部１６が音声信号Ｓから特定した各単語（関連語ＲＷおよび関連語ＲＷ以外の単語）の文字列ＤBを、表示制御部２４が表示装置４４から順次に出力する構成も採用される。指定単語ＫＷに対応した各関連語ＲＷの出現確率Ｐが初期値から上昇するから、音声信号Ｓから特定された各単語の文字列ＤBを出力する構成であっても、誤認識の可能性を抑制しながら各関連語ＲＷを効率的に認識するという所期の効果は確かに奏される。以上のように、音声認識部１６が認識した複数の単語から関連語ＲＷを選択する選択部１６２（音声信号Ｓから関連語ＲＷを検索する要素）は適宜に省略される。また、音声信号Ｓを発声者毎に区分する話者識別部２２を省略してもよい。話者識別部２２を省略した構成においては、音声認識部１６の認識した各単語の文字列ＤBが時系列に表示される（発声者毎に区別されない）。

また、再生制御部２６も省略される。ただし、再生制御部２６を含む図１の構成によれば、所望の時点（音声信号Ｓのうち所望の発声者が特定の単語を発声した時点）の音声を利用者が容易に確認できるという利点がある。なお、以上の形態における話者識別部２２は音声信号Ｓを単に発声者毎に区別するのみである（各発声者の特定まではしない）から、利用者は、検索結果表示画面４４２を視認しただけでは各領域Ｒの発声者が誰であるかまでは特定できない。しかし、再生制御部２６を具備する構成によれば、音声信号Ｓの再生音を聴取することで、利用者は、各領域Ｒの関連語ＲＷの発声者を具体的に特定できる。

（４）変形例４
以上の形態においては話者識別部２２が音声信号Ｓを発声者毎に区分する構成を例示したが、話者識別部２２が各発声者の特定まで実行する構成も好適である。例えば、発声音から抽出された特徴量のモデル（例えばガウス混合モデル）と各発声者の氏名とを発声者毎に事前に記憶装置３０に格納しておく。話者識別部２２は、音声信号Ｓから抽出された特徴量と記憶装置３０に格納された特徴量のモデルとを対比することで音声信号Ｓの各発声区間における発声者の氏名を特定し、検索結果表示画面４４２の各領域Ｒの近傍に発声者の氏名を表示する。以上の構成によれば、音声信号Ｓの再生音を聴取しなくても、利用者は各関連語ＲＷの発声者を特定することが可能である。

（５）変形例５
以上の形態においては確率調整部１４が各関連語ＲＷの出現確率Ｐを上昇させたが、関連語ＲＷ以外の単語の出現確率Ｐを確率調整部１４が低下させる構成（各関連語ＲＷの出現確率Ｐは初期値のまま維持される構成）も採用される。もっとも、関連語ＲＷ以外の単語は関連語ＲＷと比較して充分に多いから、関連語ＲＷの出現確率Ｐを調整する形態によれば、関連語ＲＷ以外の単語の出現確率Ｐを調整する構成と比較して、確率調整部１４による処理量が軽減されるという利点がある。

（６）変形例６
信頼度Ａ0（Ａ1，Ａ2）を算定する構成は本発明において必須ではない。したがって、各関連語ＲＷの文字列ＤBの態様を可変に制御する構成は本発明において省略され得る。また、表示制御部２４が信頼度Ａ1のみに基づいて文字列ＤBの態様を制御する構成（信頼度Ａ2の算定を省略した構成）や、表示制御部２４が信頼度Ａ2のみに基づいて文字列ＤBの態様を制御する構成（信頼度Ａ1の算定を省略した構成）も採用される。

本発明の実施の形態に係る音声認識装置の構成を示すブロック図である。認識辞書の構成を模式的に示す概念図である。検索結果表示画面の内容を示す概念図である。

符号の説明

１００……音声認識装置、１０……制御装置、１２……関連語特定部、１４……確率調整部、１６……音声認識部、１６２……選択部、２２……話者識別部、２４……表示制御部、２６……再生制御部、３０……記憶装置、４２……入力装置、４４……表示装置、４６……放音装置、ＫＷ……指定単語、ＲＷ……関連語、Ｓ……音声信号、Ｃ……共起データベース、Ｄ……認識辞書、ＤA……音素列、ＤB……文字列、Ｐ……出現確率、Ｇ……音素モデル群。

Claims

利用者が指定した単語について複数の関連語を特定する関連語特定手段と、
複数の単語の各々について出現確率を記憶する記憶手段と、
前記複数の単語のうち前記関連語特定手段が特定した前記各関連語の出現確率を前記複数の関連語以外の単語の出現確率に対して相対的に上昇させる確率調整手段と、
音声信号が表わす音声に対応した単語を前記確率調整手段による調整後の出現確率に基づいて特定する音声認識手段と
を具備する音声認識装置。
前記音声認識手段が特定した複数の単語から前記関連語を選択する選択手段と、
前記選択手段が選択した関連語の文字列を表示装置に表示させる表示制御手段と
を具備する請求項１の音声認識装置。
前記表示装置に表示された関連語を利用者が指定した場合に、前記音声信号のうち当該関連語に対応した部分の音声を放音装置から出力する再生制御手段
を具備する請求項２の音声認識装置。
前記音声認識手段は、前記選択手段が選択した各関連語について当該音声認識手段による特定の結果の信頼度を算定し、
前記表示制御手段は、前記各関連語の文字列を、当該関連語について前記音声認識手段が算定した信頼度に応じた態様で前記表示装置に表示させる
請求項２または請求項３の音声認識装置。
前記音声信号を発声者毎の発声区間に区分する話者識別手段を具備し、
前記表示制御手段は、前記話者識別手段が区分した複数の発声区間のうち前記各関連語が発声された発声区間を特定することで、前記各関連語の文字列を発声者毎に前記表示装置に表示させる
請求項２から請求項４の何れかの音声認識装置。
前記話者識別手段は、当該話者識別手段による区分の結果の信頼度を発声区間毎に算定し、
前記表示制御手段は、前記各関連語の文字列を、当該関連語が発声された発声区間について前記話者識別手段が算定した信頼度に応じた態様で前記表示装置に表示させる
請求項５の音声認識装置。
複数の単語の各々について出現確率を記憶する記憶手段を具備するコンピュータに、
利用者が指定した単語について複数の関連語を特定する関連語特定処理と、
前記複数の単語のうち前記関連語特定手段が特定した前記各関連語の出現確率を前記複数の関連語以外の単語の出現確率に対して相対的に上昇させる確率調整処理と、
音声信号が表わす音声に対応した単語を前記確率調整処理後の出現確率に基づいて特定する音声認識処理と
を実行させるプログラム。