JP2007072393A

JP2007072393A - 音声認識装置及びプログラム

Info

Publication number: JP2007072393A
Application number: JP2005262231A
Authority: JP
Inventors: Shuichi Tsutsumi; 修一堤; Toshihiro Isobe; 俊洋磯部; Masatoshi Morishima; 昌俊森島
Original assignee: NTT Data Corp
Current assignee: NTT Data Group Corp
Priority date: 2005-09-09
Filing date: 2005-09-09
Publication date: 2007-03-22
Anticipated expiration: 2025-09-09
Also published as: JP4610451B2

Abstract

【課題】音声認識装置及びプログラムを提供する。
【解決手段】
単語認識部２０１は音声の単語認識を行い単語列候補と対数ゆう度を求める。音節認識部２１１は音声の音節認識を行い音節列候補と対数ゆう度を求める。音素認識部２２１は音声の音素認識を行い音素列候補と対数ゆう度を求める。単語正規化ゆう度計算部２０３は正規化ゆう度を求め、単語条件付確率計算部２０７は単語条件付確率を求める。音節正規化ゆう度計算部２１３は正規化ゆう度を求め、音節条件付確率計算部２１７は音節条件付確率を求める。音素正規化ゆう度計算部２２３は正規化ゆう度を求め、音素条件付確率計算部２２７は音素条件付確率を求める。対話管理部２０８は単語条件付確率と音節条件付確率と音素条件付確率とに基づいて信頼度を求め、単語列候補を受理又は棄却する。
【選択図】図２

Description

この発明は、音声認識装置及びプログラムに関する。

従来の音声認識技術においては、話者が発声した既知語を類似する他の既知語に音声認識装置が誤認識したり、話者が音声認識装置の未知語を発声することによって正しく音声を認識できないことがある。そのため、一般に音声認識装置は、音声の認識後にユーザに認識結果が正しいか否かを確認したり、複数の認識結果の候補の中からユーザの所望の候補をユーザに選択させたりする。しかし、このような処理はユーザにとって非常に煩わしく大きな負担となる。このように、音声認識装置には音声の認識結果に精度の高い信頼度尺度を付与することが要求される。

例えば、非特許文献１には、話者が発声した音声が認識可能な語彙に含まれるか否かを判定し、未知語を棄却する方法が開示されている。具体的には、音声認識装置は、マイクロフォンで取得した音声の単語認識を行い、単語認識結果と単語認識ゆう度とを求める。また、音声認識装置は、マイクロフォンで取得した音声の音節認識を行い、音節認識ゆう度を求める。そして、単語認識ゆう度と音節認識ゆう度との差を信頼度として計算し、信頼度が所定値以上であれば単語認識結果を受理し、所定値より小さければ単語認識結果を棄却する。

また、非特許文献２には、音響的に類似している単語候補の中から取得した音声に最も近いものを選択する方法が開示されている。具体的には、音声認識装置は、マイクロフォンで取得した音声の単語認識を行い、単語認識結果と単語認識ゆう度とを第１位候補から第Ｌ位候補（Ｌは正の整数）まで求める。また、音声認識装置は、第１位候補の単語認識ゆう度と競合候補の単語認識ゆう度の和との差を信頼度として計算し、この信頼度が所定値以上であれば単語認識結果を受理し、所定値より小さければ単語認識結果を棄却する。
社団法人電子情報通信学会論文誌Ｄ−ＩＩ、Ｖｏｌ．Ｊ７５−Ｄ−ＩＩ、Ｎｏ．１２（１９９２年）２００２〜２００９ページ、「音節認識を用いたゆう度補正による未知発話のリジェクション」渡辺隆夫・塚田聡社団法人情報処理学会研究報告２００３−ＳＬＰ−４９（２００３年）２８１〜２８６ページ、「２パス探索アルゴリズムにおける高速な単語事後確率に基づく信頼度算出法」李晃伸・河原達也・鹿野清宏

しかし、従来の手法は、話者が未知語を話すことが要因となる誤認識、あるいは、話者が話した既知語を類似する他の既知語と間違えることが要因となる誤認識のどちらか１つのみを解決するためのものである。すなわち、非特許文献１に開示されるような手法では、未知語を要因とする誤認識の検出には有効であるが、入力が既知語のみの場合の判別精度は低い。一方、非特許文献２に開示されるような手法では、既知語の判別には有効であるが、未知語を含む場合には判別精度は低い。そして、音声認識装置の実用場面では、これらの誤認識の要因が混在することが一般的であり、上述した従来の手法を組み合わせて用いても、誤認識の要因が混在する環境では正しく音声認識を行うことはできない。そのため、誤認識の要因が混在する状況でも精度よく音声認識を行うことができる音声認識装置が望まれている。

この発明は、上記実情に鑑みてなされたものであり、非言語、未知語、競合語が混在する条件下で精度よく音声認識を行うために好適な音声認識装置及びプログラムを提供することを目的とする。

上記目的を達成するため、本発明の第１の観点に係る音声認識装置は、
音声を認識して複数の音素列候補とゆう度とを求める音素認識部と、
前記音素認識部により求められたゆう度に基づいて、前記音声が音素列のいずれかであると仮定した場合に前記音声が音節列のいずれかである割合を示す第１の正規化ゆう度を求め、前記音声が前記音素列のいずれかである場合に前記音声が前記音節列のいずれかである第１の確率を求める第１の確率取得部と、
前記音声を認識して複数の音節列候補とゆう度とを求める音節認識部と、
前記音節認識部により求められたゆう度に基づいて、前記音声が前記音節列のいずれかであると仮定した場合に前記音声が既知の単語列のいずれかである割合を示す第２の正規化ゆう度を求め、前記音声が前記音節列のいずれかである場合に前記音声が前記既知の単語列のいずれかである第２の確率を求める第２の確率取得部と、
前記音声を認識して複数の単語列候補とゆう度とを求める単語認識部と、
前記単語認識部により求められた前記ゆう度に基づいて、前記音声が前記既知の単語列のいずれかであると仮定した場合に前記音声が前記単語列候補の中で最も大きいゆう度を持つ第１位の単語候補である割合を示す第３の正規化ゆう度を求め、前記音声が前記既知の単語列のいずれかである場合に前記音声が前記第１位の単語列候補である第３の確率を求める第３の確率取得部と、
前記第１の確率と前記第２の確率と前記第３の確率とに基づいて、前記第１位の単語候補を棄却する判定部と、を備える。

また、音素列に関するデータを格納する音素列言語モデル格納部と、
音節列に関するデータを格納する音節列言語モデル格納部と、
単語列に関するデータを格納する単語列言語モデル格納部と、
前記第１の確率取得部により求められる第１の正規化ゆう度と、前記音声が前記音素列言語モデル格納部に格納された音素列のいずれかである場合に前記音声が前記音節列言語モデル格納部に格納された音節列のいずれかである第１の確率との関係を示す第１の関数を格納する第１の関数格納部と、
前記第２の確率取得部により求められる第２の正規化ゆう度と、前記音声が前記音節列言語モデル格納部に格納された音節列のいずれかである場合に前記音声が前記単語列言語モデル格納部に格納された単語列のいずれかである第２の確率との関係を示す第２の関数を格納する第２の関数格納部と、
前記第３の確率取得部により求められる第３の正規化ゆう度と、前記音声が前記単語列候補のいずれかである場合に前記音声が前記第１位の単語列候補である第３の確率との関係を示す第３の関数を格納する第３の関数格納部と、を更に備え、
前記第１の確率取得部は、前記第１の正規化ゆう度と、前記第１の関数格納部に格納される第１の関数とに基づいて、前記第１の確率を求め、
前記第２の確率取得部は、前記第２の正規化ゆう度と、前記第２の関数格納部に格納される第２の関数とに基づいて、前記第２の確率を求め、
前記第３の確率取得部は、前記第３の正規化ゆう度と、前記第３の関数格納部に格納される第３の関数とに基づいて、前記第３の確率を求めてもよい。

また、前記第１、第２又は第３の確率取得部により求められる第１、第２又は第３の正規化ゆう度が取りうる範囲を所定の区間に分割した各区間ごとに、判別対象の音素列、音節列又は単語列に該当する対象事象のサンプル音声数と、前記対象事象に対応する対立事象のサンプル音声数とを求め、更に、
前記各区間ごとに前記音素列、音節列又は単語列に該当する対象事象のサンプル音声数の総サンプル数に対する割合を求め、更に、
各区間に対して前記割合をプロットして得られる分布において隣り合う区間の２点を直線で結んで得られる関数、又は、当該分布を示す近似曲線関数を求めて前記第１、第２又は第３の関数格納部に格納する関数決定部を更に備えてもよい。

また、前記第１、第２又は第３の確率取得部により求められる第１、第２又は第３の正規化ゆう度が取りうる範囲を所定の区間に分割した各区間ごとに、判別対象の音素列、音節列又は単語列に該当する対象事象のサンプル音声数の割合と、前記対象事象のに対応する対立事象のサンプル音声数の割合とを求め、更に、
前記各区間ごとに前記音素列、音節列又は単語列に該当する対象事象のサンプル音声数を累積した値の総サンプル数に対する累積割合を求め、更に、
各区間に対して前記累積割合をプロットして得られる分布において隣り合う区間の２点を直線で結んで得られる関数、又は、当該分布を示す近似曲線関数を求めて前記第１、第２又は第３の関数格納部に格納する関数決定部を更に備えてもよい。

また、前記第１、第２又は第３の確率取得部により求められる第１、第２又は第３の正規化ゆう度が取りうる範囲を所定の区間に分割した各区間ごとに、判別対象の音素列、音節列又は単語列に該当するサンプル音声数の割合を求め、更に、
前記各区間ごとに前記音素列、音節列又は単語列に該当する対象事象のサンプル音声数を累積した値の総サンプル数に対する累積割合を求め、更に、
前記各区間に対して前記累積割合をプロットして得られる分布において隣り合う区間の２点を直線で結んで得られる関数、又は、当該分布を示す近似曲線関数を求めて前記第１、第２又は第３の関数格納部に格納する関数決定部を更に備えてもよい。

上記目的を達成するため、本発明の第２の観点に係るプログラムは、
コンピュータを、
音声を認識して複数の音素列候補とゆう度とを求める音素認識部、
前記音素認識部により求められたゆう度に基づいて、前記音声が音素列のいずれかであると仮定した場合に前記音声が音節列のいずれかである割合を示す第１の正規化ゆう度を求め、前記音声が前記音素列のいずれかである場合に前記音声が前記音節列のいずれかである第１の確率を求める第１の確率取得部、
前記音声を認識して複数の音節列候補とゆう度とを求める音節認識部、
前記音節認識部により求められたゆう度に基づいて、前記音声が前記音節列のいずれかであると仮定した場合に前記音声が既知の単語列のいずれかである割合を示す第２の正規化ゆう度を求め、前記音声が前記音節列のいずれかである場合に前記音声が前記既知の単語列のいずれかである第２の確率を求める第２の確率取得部、
前記音声を認識して複数の単語列候補とゆう度とを求める単語認識部、
前記単語認識部により求められた前記ゆう度に基づいて、前記音声が前記既知の単語列のいずれかであると仮定した場合に前記音声が前記単語列候補の中で最も大きいゆう度を持つ第１位の単語列候補である割合を示す第３の正規化ゆう度を求め、前記音声が前記既知の単語列のいずれかである場合に前記音声が前記第１位の単語候補である第３の確率を求める第３の確率取得部、
前記第１の確率と前記第２の確率と前記第３の確率とに基づいて、前記第１位の単語候補を棄却する判定部、として機能させる。

この発明によれば、非言語、未知語、競合語が混在する条件下で精度よく音声認識を行うために好適な音声認識装置を提供することができる。

以下、この発明の実施形態に係る音声認識装置１００を説明する。

音声認識装置１００は、図１に示すように、制御部１１０、ＲＡＭ１１１、ＲＯＭ１１２、記憶部１１３、出力部１１４、Ｉ／Ｆ（インタフェース）１１５、入力部１１６及びシステムバス１１７を含む。

制御部１１０は、ＣＰＵ（Central Processing Unit）等の演算処理装置から構成され、音声認識装置１００の全体の制御を行う。また、制御部１１０は、ＲＯＭ１１２や記憶部１１３に格納されるプログラムを読み出して、プログラムに基づいて所定の処理を実行する。例えばマイクロフォンで取得した音声から予め登録された単語を判別する処理を行う。制御部１１０が実行する処理の詳細については後述する。

ＲＡＭ（Random Access Memory）１１１は、制御部１１０が所定の処理（例えば、音声認識処理、等）を実行するために読み出したプログラムや、制御部１１０が当該プログラムを実行するために必要なデータを格納する揮発性メモリである。

ＲＯＭ（Read Only Memory）１１２は、制御部１１０が所定の処理を実行するためのプログラム等を予め格納する不揮発性メモリである。制御部１１０は、ＲＯＭ１１２から必要に応じてプログラム等を読み出して、ＲＡＭ１１１に展開し、当該プログラム等に基づいて所定の処理を実行する。

記憶部１１３は、ハードディスクドライブ等の記憶装置から構成され、制御部１１０が後述する音声認識処理等を行うために用いるデータ（例えば、単語列、音節列及び音素列を定義するデータ等）を格納する。また、記憶部１１３は、制御部１１０がＲＯＭ１１２等に格納されたプログラムに従って処理を行った結果として得られるデータ（例えば、音声の単語認識により得られた単語列候補データ等）を所定の場所に格納する。

出力部１１４は、モニタ等の表示装置やスピーカ等の出力装置に接続され、制御部１１０からの指示により、制御部１１０がＲＯＭ１１２等に格納されたプログラムに従って実行した処理の結果として得られる音声認識結果等を出力する。つまり、ユーザは、出力部１１４によって出力される映像や音声等によって、制御部１１０が実行して得られる音声認識結果等を知ることができる。

Ｉ／Ｆ１１５は、ＣＤ（Compact Disc）等のリムーバルディスクに対して読み書きするためのＣＤ−ＲＯＭドライブ等のドライブ装置や、外部のネットワーク１２１（例えば、インターネット、ＬＡＮ（Local Area Network）等）に繋ぐＮＩＣ（Network Interface Card）などと接続するインタフェースである。

入力部１１６は、キーボード、マウス等の入力装置に接続され、これら入力装置を用いてユーザによって入力されるデータを受け付けて、入力されたデータを制御部１１０に入力する。また、入力部１１６は、マイクロフォン等の音声入力装置に接続される。そして、入力部１１６は、マイクロフォン等から入力されたアナログ音声をデジタル変換するＡ／Ｄコンバータを備え、デジタル変換した音声データを制御部１１０に入力する。

システムバス１１７は、制御部１１０、ＲＡＭ１１１、ＲＯＭ１１２、記憶部１１３、出力部１１４、Ｉ／Ｆ１１５及び入力部１１６の間で命令やデータを転送するための伝送経路である。

このように、画像解析装置１００は、一般的に普及しているコンピュータ等を用いて構成することができる。

次に、本実施の形態に係る音声認識装置１００の制御部１１０が実行する音声認識処理について、図２を用いて説明する。

制御部１１０は、（１）音声が既知の単語列のいずれかであると仮定した場合に、前記音声が第１位の単語列候補である確率ｐ（Ｃｗ１｜Ｃｗ）と、（２）音声が音節列のいずれかであると仮定した場合に、前記音声が既知の単語列のいずれかである確率ｐ（Ｃｗ｜Ｃｓ）と、（３）音声が音素列のいずれかであると仮定した場合に、前記音声が音節列のいずれかである確率ｐ（Ｃｓ｜Ｃｐ）と、を求める。
尚、単語列とは、単語一語、あるいは、複数の単語から構成されるもののことである。また、音素には母音と子音とがあり、日本語の場合、音素は５種類の母音と約２０種類の子音から構成される。また、音節は通常１つの母音と１つ又は複数の子音から構成され、日本語の場合、音節は約１００種類存在する。
制御部１１０は、例えば、ｐ（Ｃｗ１｜Ｃｗ）とｐ（Ｃｗ｜Ｃｓ）とｐ（Ｃｓ｜Ｃｐ）の３つの確率の積を信頼度として求め、信頼度が所定値以上の単語列候補を受理し、所定値に満たない単語列候補を棄却する。以下、詳述する。

まず、単語条件付確率ｐ（Ｃｗ１｜Ｃｗ）を求める方法について説明する。

単語認識部２０１は、制御部１１０から構成され、入力部１１６に接続されるマイクロフォンにより取得され入力部１１６のＡ／Ｄコンバータによりデジタル変換された音声を入力として、当該音声に含まれる単語列の認識を行う。単語認識部２０１は、単語列言語モデル格納部２０２から既知語である単語列データを読み込み、第Ｌ位候補までの単語認識結果と単語認識対数ゆう度Ｓｗ（ｉ）（ｉは１以上Ｌ以下の整数）を求める。そして、単語認識結果を対話管理部２０８に、単語認識対数ゆう度Ｓｗ（ｉ）を単語正規化ゆう度計算部２０３と音節正規化ゆう度計算部２１３とに入力する。

ここで、第ｉ位候補の単語認識対数ゆう度Ｓｗ（ｉ）は、単語列候補Ｘの音響モデルからの入力音声の特徴量系列Ｖの生起確率をＰ（Ｘ）とすると、数１の数式で表される。

単語認識部２０１は、音声を表現する一般的なモデルであるＨＭＭ（Hidden Markov Model）の集合である音響モデルと単語列言語モデルとを用いて単語認識を行い、単語列候補Ｘに対する音響モデルが入力音声の特徴量系列を生成する確率Ｐ（Ｘ）を求める。そして、Ｐ（Ｘ）が最も大きい単語列候補を第１位候補とする。
また、後述する音節認識部２１１と音素認識部２２１も同様に、ＨＭＭの集合である音響モデルと、音節列言語モデル又は音素列言語モデルと、を用いて音節認識又は音素認識を行う。なお、当該構成は、例えば、特開平１０−１７１４８９号等に記載される公知の技術である。

単語列言語モデル格納部２０２は、記憶部１１３から構成され、音声認識装置１００が認識対象とする単語、文法規則、言語統計データ等を格納する。

単語正規化ゆう度計算部２０３は、単語認識部２０１から入力される単語認識対数ゆう度Ｓｗ（ｉ）から、数２の数式を用いて、第１位の単語列候補の単語正規化ゆう度ＣＭｗを求める。

ここで、αはスケーリング係数であり、単語認識対数ゆう度Ｓｗ（ｉ）を線形拡大（又は縮小）し、単語正規化ゆう度ＣＭｗを求めるために最適な値に予め設定される。

単語正規化ゆう度格納部２０４は、記憶部１１３から構成され、単語正規化ゆう度計算部２０３によって求められた単語正規化ゆう度ＣＭｗを格納する。

単語正解確率変換関数決定部２０５は、制御部１１０から構成され、単語正規化ゆう度格納部２０４に格納される単語正規化ゆう度ＣＭｗから、単語正解確率変換関数ｆ（ＣＭｗ）を求めて、単語正解確率変換関数格納部２０６に格納する。

ここで、単語正解確率変換関数ｆ（ＣＭｗ）の決定方法について説明する。単語正規化ゆう度ＣＭｗを対応する条件付確率に変換するための確率変換関数は、事前実験により決定される。その際、単語正規化ゆう度ＣＭｗを所定のＣ個（Ｃは１以上の整数）の区間に分割し、各区間における条件付確率を以下の３つの方法のいずれかにより求める。
尚、以下の説明では、条件付確率ｐ（Ｂ｜Ａ）におけるＡを条件事象、Ｂを対象事象、Ｂの余事象を対立事象と呼ぶ。
例えば、対象事象が、音声認識装置１００の認識成功する既知の単語であるとすると、この対立事象は、音声認識装置１００が誤認識する既知の単語である。また、例えば、対象事象が、既知の単語であるとすると、この対立事象は、未知の単語である。また、例えば、対象事象が、音節列（言語）であるとすると、この対立事象は、音節列でない非言語である。

（方法１）
条件事象を満たすサンプルについて、図３（ａ）に示すような対象事象の単語正規化ゆう度ＣＭｗの頻度分布を作成する。同様に、図３（ｂ）に示すような対立事象の単語正規化ゆう度ＣＭｗの頻度分布を作成する。

そして、ある単語正規化ゆう度ＣＭｗの区間ｎ（ｎは１以上Ｃ以下の整数）における対象事象の頻度をＫｎ、対立事象の頻度をＵｎとすると、区間ｎにおける条件付確率ｐ（ｎ）は数３を用いて求められる。

尚、図３（ａ）及び（ｂ）に示されるような頻度分布は、認識率や未知語混入率に依存するため、頻度分布の総サンプル数で正規化し、確率分布として計算してもよい。

このように、ある単語正規化ゆう度ＣＭｗの区間ｎに対応する条件付確率ｐ（ｎ）に変換する変換関数ｆ（ＣＭｗ）が得られる。

ここで得られる変換関数ｆ（ＣＭｗ）は、各区間ごとに離散的に値を持った関数である。そこで、離散的な区間を連続化する方法としては、例えば、隣り合う２区間の条件付確率ｐ（ｎ）及びｐ（ｎ＋１）を直線で結んで近似する方法がある。例えば、図３（ｃ）は、各区間に対して条件付確率ｐ（ｎ）をプロットして得られる分布において隣り合う区間の２点を直線で結んで得られた確率分布、すなわち、変換関数ｆ（ＣＭｗ）を示す図である。あるいは、例えば、条件付確率ｐ（ｎ）の分布の全体を、数４で表されるようなシグモイド（Ｓ字形）関数を用いて条件付確率ｐ（ｎ）の分布の全体を示す近似曲線を求めて、変換関数ｆ（ＣＭｗ）を得る。

このようにして、連続化された変換関数ｆ（ＣＭｗ）を得る。

（方法２）
上述した方法１では、条件事象を満たす対象事象と対立事象とのサンプルを、全区間ｎについて十分な数だけ用意する必要がある。しかし、一般に、競合語や未知語による誤認識が発生するサンプルを大量に収集することは困難である。本方法では、少ないサンプル数で確率分布を累積した累積分布関数を用いる。

まず、方法１と同様に、条件事象を満たすサンプルについて、対象事象、対立事象ごとに単語正規化ゆう度ＣＭｗの頻度分布を作成し、各分布の総サンプル数で正規化して図３（ａ）及び図３（ｂ）に示すような確率分布を得る。

次に、対象事象の確率分布を単語正規化ゆう度ＣＭｗの正方向に、対立事象の確率分布を単語正規化ゆう度ＣＭｗの負の方向に累積し、それぞれ図４（ａ）、図４（ｂ）に示すような累積確率分布を得る。

そして、区間ｎにおける対象事象の累積確率をＫｎ、対立事象の累積確率をＵｎとすると、区間ｎにおける条件付確率ｐ（ｎ）は数３を用いて求められる。

方法１と同様に、得られる変換関数ｆ（ＣＭｗ）は、各区間ごとに離散的に値を持った関数である。そこで、離散的な区間を連続化する方法としては、例えば、方法１と同様に、各区間に対して条件付確率ｐ（ｎ）をプロットして得られる分布において隣り合う区間の２点の条件付確率ｐ（ｎ）及びｐ（ｎ＋１）を直線で結んで近似する。
あるいは、例えば、条件付確率ｐ（ｎ）の分布の全体を、数４で表されるようなシグモイド関数を用いて条件付確率ｐ（ｎ）の分布の全体を示す近似曲線を求めて、変換関数ｆ（ＣＭｗ）を得る。

単語正規化ゆう度ＣＭｗと条件付確率ｐ（ｎ）は正の相関関係にあるため、単語正規化ゆう度ＣＭｗが大きいほど対象事象に当てはまる度合いが高い。したがって、対象事象の確率分布を正方向に累積した累積確率は、区間ｎにおける対象事象に当てはまる度合いが下から何パーセントに当たるのかを示している。同様に、対立事象の確率分布を負方向に累積した累積確率は、区間ｎにおける対立事象に当てはまる度合いが下から何パーセントに当たるのかを示している。

（方法３）
本方法では、方法２と異なり、対象事象の累積確率分布のみを用いる。
まず、方法１と同様に、対象事象を満たすサンプルについて単語正規化ゆう度ＣＭｗの頻度分布を作成し、条件事象を包含する総サンプル数で正規化して図５（ａ）に示すような確率分布を得る。

次に、対象事象の確率分布を正規化ゆう度の正方向に累積し、図５（ｂ）に示すような累積確率分布を得る。

そして、区間ｎの対象事象の累積確率Ｋｎを、区間ｎの条件付確率ｐ（ｎ）とする。

方法１、２と同様に、得られる変換関数ｆ（ＣＭｗ）は離散的な関数である。したがって、例えば方法１と同様に、各区間に対して条件付確率ｐ（ｎ）をプロットして得られる分布において隣り合う区間の２点の条件付確率ｐ（ｎ）及びｐ（ｎ＋１）を直線で結んで近似する。あるいは方法２と同様に、シグモイド（Ｓ字形）関数を用いて近似して、図５（ｃ）に示されるような連続関数である変換関数ｆ（ＣＭｗ）を得る。

尚、単語正解確率変換関数ｆ（ＣＭｗ）を求めるための方法１乃至３は、後述する音節正解確率変換関数ｇ（ＣＭｔ）及び音素正解確率変換関数ｈ（ＣＭｖ）を求めるためにも用いられる。

図２に戻り、単語正解確率変換関数格納部２０６は、記憶部１１３から構成され、単語正解確率変換関数決定部２０５により求められた単語正解確率変換関数ｆ（ＣＭｗ）を格納する。

単語条件付確率計算部２０７は、単語正規化ゆう度計算部２０３により求められた単語正規化ゆう度ＣＭｗから、単語正解確率変換関数格納部２０６に格納される単語正解確率変換関数ｆ（ＣＭｗ）を用いて、第１位候補の単語条件付確率ｐ（Ｃｗ１｜Ｃｗ）を求める。そして、求めた単語条件付確率ｐ（Ｃｗ１｜Ｃｗ）を対話管理部２０８に入力する。

次に、音節条件付確率ｐ（Ｃｗ｜Ｃｓ）を求める方法について説明する。

音節認識部２１１は、制御部１１０から構成され、入力部１１６に接続されるマイクロフォンにより取得され入力部１１６のＡ／Ｄコンバータによりデジタル変換された音声を入力として、当該音声に含まれる音節列の認識を行う。音節認識部２１１は、音節列言語モデル格納部２１２から音節列データを読み込み、第Ｍ位候補（Ｍは１以上の整数）までの音節認識対数ゆう度Ｓｓ（ｊ）（ｊは１以上Ｍ以下の整数）を求める。そして、音節認識対数ゆう度Ｓｓ（ｊ）を音節正規化ゆう度計算部２１３と音素正規化ゆう度計算部２２３とに入力する。

ここで、第ｊ位候補の音節認識対数ゆう度Ｓｓ（ｊ）は、音声Ｖが入力された場合に音声Ｖに音節列候補Ｙが含まれる確率をＰ（Ｙ）とすると、数５の数式で表される。

例えば、音節認識部２１１は、音響モデルと音節列言語モデルとを用いて音声認識を行い、音節列候補Ｙに対する音響モデルが入力音声の特徴量系列を生成する確率Ｐ（Ｙ）を求める。そして、Ｐ（Ｙ）が最も大きい音節列候補を第１位候補とする。

音節列言語モデル格納部２１２は、記憶部１１３から構成され、音声認識装置１００が認識対象とする音節、文法規則、言語統計データ等を格納し、任意の音節列を規定する。

音節正規化ゆう度計算部２１３は、単語認識部２０１から入力される単語認識対数ゆう度Ｓｗ（ｉ）と、音節認識部２１１から入力される音節認識対数ゆう度Ｓｓ（ｊ）から、数６に示される数式を用いて、音節正規化ゆう度ＣＭｔを求める。

ここで、αはスケーリング係数であり、音節認識対数ゆう度Ｓｓ（ｊ）を線形拡大（又は縮小）し、音節正規化ゆう度ＣＭｔを求めるために最適な値に予め設定される。

音節正規化ゆう度格納部２１４は、記憶部１１３から構成され、音節正規化ゆう度計算部２１３によって求められた音節正規化ゆう度ＣＭｔを格納する。

音節正解確率変換関数決定部２１５は、制御部１１０から構成され、音節正規化ゆう度格納部２１４に格納される音節正規化ゆう度ＣＭｔから、音節正解確率変換関数ｇ（ＣＭｔ）を求めて、音節正解確率変換関数格納部２１６に格納する。

ここで、音節正解確率変換関数ｇ（ＣＭｔ）の決定方法は、上述した単語正解確率変換関数ｆ（ＣＭｗ）の決定方法と実質的に同じであるため、説明は省略する。

音節正解確率変換関数格納部２１６は、記憶部１１３から構成され、音節正解確率変換関数決定部２１５により求められた音節正解確率変換関数ｇ（ＣＭｔ）を格納する。

音節条件付確率計算部２１７は、音節正規化ゆう度計算部２１３により求められた音節正規化ゆう度ＣＭｔから、音節正解確率変換関数格納部２１６に格納される音節正解確率変換関数ｇ（ＣＭｔ）を用いて、音節条件付確率ｐ（Ｃｗ｜Ｃｓ）を求める。そして、求めた音節条件付確率ｐ（Ｃｗ｜Ｃｓ）を対話管理部２０８に入力する。

次に、音素条件付確率ｐ（Ｃｓ｜Ｃｐ）を求める方法について説明する。

音素認識部２２１は、制御部１１０から構成され、入力部１１６に接続されるマイクロフォンにより取得され入力部１１６のＡ／Ｄコンバータによりデジタル変換された音声を入力として、当該音声に含まれる音素の認識を行う。音素認識部２２１は、音素列言語モデル格納部２２２から音素列データを読み込み、第Ｎ位候補（Ｎは１以上の整数）までの音素認識対数ゆう度Ｓｐ（ｋ）（ｋは１以上Ｎ以下の整数）を求める。そして、音素認識対数ゆう度Ｓｐ（ｋ）を音素正規化ゆう度計算部２２３に入力する。

ここで、第ｋ位候補の音素認識対数ゆう度Ｓｐ（ｋ）は、音声Ｖが入力された場合に音声Ｖに音素列候補Ｚが含まれる確率をＰ（Ｚ）とすると、数７の数式で表される。

例えば、音素認識部２２１は、音響モデルと音素列言語モデルとを用いて音素認識を行い、音素列候補Ｚに対する音響モデルが入力音声の特徴量系列を生成する確率Ｐ（Ｚ）を求める。そして、Ｐ（Ｚ）が最も大きい音素列候補を第１位候補とする。

音素列言語モデル格納部２２２は、記憶部１１３から構成され、音声認識装置１００が認識対象とする音素、文法規則、言語統計データ等を格納し、任意の音素列を規定する。

音素正規化ゆう度計算部２２３は、音節認識部２１１から入力される音節認識対数ゆう度Ｓｓ（ｊ）と、音素認識部２２１から入力される音素認識対数ゆう度Ｓｐ（ｋ）から、数８に示される数式を用いて、音素正規化ゆう度ＣＭｖを求める。

ここで、αはスケーリング係数であり、音節認識対数ゆう度Ｓｓ（ｊ）及び音節認識対数ゆう度Ｓｐ（ｋ）を線形拡大（又は縮小）し、音素正規化ゆう度ＣＭｖを求めるために最適な値に予め設定される。

音素正規化ゆう度格納部２２４は、記憶部１１３から構成され、音素正規化ゆう度計算部２２３によって求められた音素正規化ゆう度ＣＭｖを格納する。

音素正解確率変換関数決定部２２５は、制御部１１０から構成され、音素正規化ゆう度格納部２２４に格納される音素正規化ゆう度ＣＭｖから、音素正解確率変換関数ｈ（ＣＭｖ）を求めて、音素正解確率変換関数格納部２２６に格納する。

ここで、音素正解確率変換関数ｈ（ＣＭｖ）の決定方法は、上述した単語正解確率変換関数ｆ（ＣＭｗ）の決定方法と実質的に同じであるため、説明は省略する。

音素正解確率変換関数格納部２２６は、記憶部１１３から構成され、音素正解確率変換関数決定部２２５により求められた音素正解確率変換関数ｈ（ＣＭｖ）を格納する。

音素条件付確率計算部２２７は、制御部１１０から構成され、音素正規化ゆう度計算部２２３により求められた音素正規化ゆう度ＣＭｖから、音素正解確率変換関数格納部２２６に格納される音素正解確率変換関数ｈ（ＣＭｖ）を用いて、音素条件付確率ｐ（Ｃｓ｜Ｃｐ）を求める。そして、求めた音素条件付確率ｐ（Ｃｓ｜Ｃｐ）を対話管理部２０８に入力する。

対話管理部２０８は、制御部１１０から構成され、単語条件付確率計算部２０７により求められた単語条件付確率ｐ（Ｃｗ１｜Ｃｗ）と、音節条件付確率計算部２１７により求められた音節条件付確率ｐ（Ｃｗ｜Ｃｓ）と、音素条件付確率計算部２２７により求められた音素条件付確率ｐ（Ｃｓ｜Ｃｐ）とから、数９の数式を用いて、取得した音声が第１位の単語候補であることを示す条件付確率ｐ（Ｃｗ１｜Ｃｐ）を求めて、これを単語認識結果の信頼度とする。

条件付確率ｐ（Ｃｗｉ｜Ｃｗ）は、入力された音声が、認識結果の単語である確率であり、競合語を判別するために有効な値である。例えば、単語条件付確率ｐ（Ｃｗ１｜Ｃｗ）は、音声が単語列言語モデル格納部２０２に格納される既知の単語列のいずれかであると仮定した場合に、前記音声が第１位候補の単語列候補である確率を示す値である。
また、条件付確率ｐ（Ｃｗ｜Ｃｓ）は、入力された音声が音節列言語モデル格納部２１２に格納される音節列のいずれかであると仮定した場合に、当該音声が単語列言語モデル格納部２０２に格納される既知語のいずれかである確率であり、入力された音声が既知語か未知語かを判別するために有効な値である。
また、条件付確率ｐ（Ｃｓ｜Ｃｐ）は、入力された音声が音素列言語モデル格納部２２２に格納される音素列のいずれかであると仮定した場合に、当該音声が音節列言語モデル格納部２１２に格納される音節列のいずれかである確率であり、入力された音声が言語か非言語かを判別するために有効な値である。
したがって、これらの積によって表される条件付確率ｐ（Ｃｗ１｜Ｃｐ）は、非言語が入力されることによる誤認識と、未知語が入力されることによる誤認識と、競合語による誤認識とをすべて考慮した信頼度として用いられる。言い換えれば、この条件付確率ｐ（Ｃｗ１｜Ｃｐ）を用いれば、誤認識が発生する要素である非言語、未知語、競合語が混在する条件下で精度よく音声認識を行うことができる。

また、対話管理部２０８は、例えば、求めた条件付確率ｐ（Ｃｗ１｜Ｃｐ）が予め決められたしきい値ｐ＿ｔｈ以上の場合に単語列候補を受理し、認識結果の単語であると判定する。一方、求めた条件付確率ｐ（Ｃｗ１｜Ｃｐ）が予め決められたしきい値ｐ＿ｔｈより小さい場合に単語列候補を棄却する。
尚、本実施形態では、音声認識装置１００は、単語正解確率変換関数決定部２０５、音節正解確率変換関数決定部２１５及び音素正解確率変換関数決定部２２５を装置内に備えるが、それぞれ別の装置により単語正解確率変換関数、音節正解確率変換関数及び音素正解確率変換関数を決定し、各関数格納部２０６，２１６，２２６に格納するように構成してもよい。

次に、本実施の形態に係る音声認識装置１００の制御部１１０が実行する音声認識処理の流れについて、図６及び図７のフローチャートを用いて説明する。

まず、制御部１１０は、判別対象の音声を取得する（ステップＳ６０１）。すなわち、制御部１１０は、入力部１１６に接続されるマイクロフォンにより取得され入力部１１６のＡ／Ｄコンバータによりデジタル変換された音声を取得する。

制御部１１０は、取得した音声の単語認識を行って、第１位候補から第Ｌ候補までの単語列候補を取得する（ステップＳ６０２）。ここで取得される単語列候補は、記憶部１１３に格納される単語列言語モデルによって規定される単語列である。

制御部１１０は、数１を用いて、選択した単語列候補の各々の単語認識対数ゆう度Ｓｗ（ｉ）を求める（ステップＳ６０３）。

制御部１１０は、求めた単語認識対数ゆう度Ｓｗ（ｉ）から、数２を用いて、単語正規化ゆう度ＣＭｗを求める（ステップＳ６０４）。

制御部１１０は、予め計算されて記憶部１１３に記憶された単語正解確率変換関数ｆ（ＣＭｗ）を用いて、単語正規化ゆう度ＣＭｗから単語条件付確率ｐ（Ｃｗ１｜Ｃｗ）を求める（ステップＳ６０５）。例えば、単語正解確率変換関数ｆ（ＣＭｗ）は、図４（ｃ）に示されるような確率分布である。制御部１１０は、例えば本図に示されるような予め求められた単語正解確率変換関数ｆ（ＣＭｗ）を用いて、ステップＳ６０４で求めた単語正規化ゆう度ＣＭｗに対応する単語条件付確率ｐ（Ｃｗ１｜Ｃｗ）を得る。尚、単語正解確率変換関数ｆ（ＣＭｗ）を計算する処理については、後述する。

制御部１１０は、他の単語候補の単語正規化ゆう度ＣＭｗ及び単語条件付確率ｐ（Ｃｗｉ｜Ｃｗ）を求めるか否かを判定する（ステップＳ６０６）。

本実施形態では、制御部１１０は、Ｌ個の中の第１位候補である単語列候補の単語条件付確率ｐ（Ｃｗ１｜Ｃｗ）のみを求めている。しかし、第２位候補の単語条件付確率ｐ（Ｃｗ２｜Ｃｗ）など他の単語列候補の単語条件付確率を求めるようにしてもよい。このようにすれば、例えば、制御部１１０は、複数の単語列候補を単語認識結果として取得して、複数の単語認識結果を出力部１１４に接続されるモニタ等を用いてユーザに通知することができる。そして、音声認識装置１００は、ユーザが信頼度の高い単語認識結果から所望の単語を選択する機能を更に備えることができる。

他の単語候補ｉについて単語正規化ゆう度ＣＭｗ及び単語条件付確率ｐ（Ｃｗｉ｜Ｃｗ）を求めると判定した場合（ステップＳ６０６；Ｙｅｓ）、制御部１１０は、ステップＳ６０４乃至Ｓ６０５の処理を繰り返して、他の単語候補ｉについて同様に単語正規化ゆう度ＣＭｗ及び単語条件付確率ｐ（Ｃｗｉ｜Ｃｗ）を求める。

一方、他の単語候補について求めないと判定した場合（ステップＳ６０６；Ｎｏ）、制御部１１０は、取得した音声の音節認識を行って、第１位候補から第Ｍ位候補までの音節列候補を取得する（ステップＳ６０７）。ここで取得される音節列候補は、記憶部１１６に格納される音節列言語モデルによって規定される任意の音節列である。

制御部１１０は、数５を用いて、選択した音節列候補の音節認識対数ゆう度Ｓｓ（ｊ）を求める（ステップＳ６０８）。

制御部１１０は、求めた音節認識対数ゆう度Ｓｓ（ｊ）とステップＳ６０３で求めた単語認識対数ゆう度Ｓｗ（ｉ）とから、数６を用いて音節正規化ゆう度ＣＭｔを求める（ステップＳ６０９）。

制御部１１０は、予め計算されて記憶部１１３に記憶された音節正解確率変換関数ｇ（ＣＭｔ）を用いて、音節正規化ゆう度ＣＭｔから音節条件付確率ｐ（Ｃｗ｜Ｃｓ）を求める（ステップＳ６１０）。例えば、音節正解確率変換関数ｇ（ＣＭｔ）は、図４（ｃ）に示されるような確率分布である。制御部１１０は、例えば本図に示されるような予め求められた音節正解確率変換関数ｇ（ＣＭｔ）を用いて、ステップＳ６０９で求めた音節正規化ゆう度ＣＭｔに対応する音節条件付確率ｐ（Ｃｗ｜Ｃｓ）を得る。尚、音節正解確率変換関数ｇ（ＣＭｔ）を計算する処理については、後述する。

次に制御部１１０は、取得した音声の音素認識を行って、第１位候補から第Ｎ位候補までの音素列候補を取得する（ステップＳ７０１）。ここで取得される音素列候補は、記憶部１１３に格納される音素列言語モデルによって規定される任意の音素列である。

制御部１１０は、数７を用いて、選択した音素列候補の音素認識対数ゆう度Ｓｐ（ｋ）を求める（ステップＳ７０２）。

制御部１１０は、求めた音素認識対数ゆう度Ｓｐ（ｋ）とステップＳ６０８で求めた音節認識対数ゆう度Ｓｓ（ｊ）とから、数８を用いて音素正規化ゆう度ＣＭｖを求める（ステップＳ７０３）。

制御部１１０は、予め計算されて記憶部１１３に記憶された音素正解確率変換関数ｈ（ＣＭｖ）を用いて、音素正規化ゆう度ＣＭｖから音素条件付確率ｐ（Ｃｓ｜Ｃｐ）を求める（ステップＳ７０４）。例えば、音素正解確率変換関数ｈ（ＣＭｖ）は、図４（ｃ）に示されるような確率分布である。制御部１１０は、例えば本図に示されるような予め求められた音素正解確率変換関数ｈ（ＣＭｖ）を用いて、ステップＳ７０３で求めた音素正規化ゆう度ＣＭｖに対応する音素条件付確率ｐ（Ｃｓ｜Ｃｐ）を得る。尚、音素正解確率変換関数ｈ（ＣＭｖ）を計算する処理については、後述する。

次に制御部１１０は、ステップＳ６０５で取得した単語条件付確率ｐ（Ｃｗ１｜Ｃｗ）と、ステップＳ６１０で取得した音節条件付確率ｐ（Ｃｗ｜Ｃｓ）と、ステップＳ７０４で取得した音素条件付確率ｐ（Ｃｓ｜Ｃｐ）とに基づいて、条件付確率ｐ（Ｃｗ１｜Ｃｐ）を求める（ステップＳ７０５）。例えば、制御部１１０は、数９に示されるように、信頼度を表す条件付確率ｐ（Ｃｗ１｜Ｃｐ）は、単語条件付確率ｐ（Ｃｗ１｜Ｃｗ）と音節条件付確率ｐ（Ｃｗ｜Ｃｓ）と音素条件付確率ｐ（Ｃｓ｜Ｃｐ）との積を信頼度とする。この条件付確率は、取得した第１位候補の単語列候補の信頼度を示す値である。

求めた条件付確率ｐ（Ｃｗ１｜Ｃｐ）が予め決められたしきい値ｐ＿ｔｈ以上の場合（ステップＳ７０６；Ｙｅｓ）、制御部１１０は、ステップＳ６０２で取得した認識結果である単語列候補を受理する（ステップＳ７０７）。

一方、求めた条件付確率ｐ（Ｃｗ１｜Ｃｐ）が予め決められたしきい値ｐ＿ｔｈより小さい場合（ステップＳ７０６；Ｎｏ）、制御部１１０は、認識結果である単語列候補を棄却する（ステップＳ７０８）。

尚、本実施形態では、予め決められたしきい値ｐ＿ｔｈに基づいてステップＳ７０６で単語列候補を受理又は棄却する判定を行うが、単語列候補を受理又は棄却する判定はこの方法に限定されるものではない。すなわち、３つの条件付確率ｐ（Ｃｗ１｜Ｃｗ）、ｐ（Ｃｗ｜Ｃｓ）及びｐ（Ｃｓ｜Ｃｐ）に基づいて、あるいは、これら３つの条件付確率と実質的に同等な値に基づいて、単語列候補を受理又は棄却する方法であればよい。

ステップＳ６０６で、他の単語列候補ｉについて単語正規化ゆう度ＣＭｗ及び単語条件付確率ｐ（Ｃｗｉ｜Ｃｗ）を求めた場合、制御部１１０は他に単語候補があると判定し（ステップＳ７０９；Ｙｅｓ）、当該他の単語列候補についても同様に条件付確率ｐ（Ｃｗｉ｜Ｃｐ）を求めて、当該単語列候補を受理又は棄却する（ステップＳ７０５乃至Ｓ７０８を繰り返す）。

一方、ステップＳ６０６で、他の単語列候補ｉについて単語正規化ゆう度ＣＭｗ及び単語条件付確率ｐ（Ｃｗｉ｜Ｃｗ）を求めない場合、制御部１１０は他に単語列候補はないと判定し（ステップＳ７０９；Ｎｏ）、次のステップに進む。

制御部１１０は、受理された単語列候補がある場合（ステップＳ７１０；Ｙｅｓ）、当該単語列候補を正解の単語として認識結果を取得する（ステップＳ７１１）。例えば、ステップＳ７１０で、受理された単語列候補が１つである場合、当該単語列候補を最終的な認識結果とする。あるいは、ステップＳ７１０で受理された単語列候補が複数である場合、制御部１１０は、出力部１１４に接続されたモニタ等に単語列候補を表示させ、ユーザによる選択結果を入力部１１６に接続されたキーボード等の入力装置から取得して、ユーザの所望の単語列候補を選択してもよい。
一方、受理された単語列候補がない場合（ステップＳ７１０；Ｎｏ）、制御部１１０は、取得した音声の認識に失敗したことをユーザに通知する（ステップＳ７１２）。例えば、制御部１１０は、出力部１１４に接続されたモニタ等に単語列候補が無い旨のメッセージ等を表示させる。あるいは、例えば、出力部１１４に接続されたスピーカ等に単語列候補が無い旨の音声アナウンスを出力させてもよい。

次に、制御部１１０が単語正解確率変換関数ｆ（ＣＭｗ）と音節正解確率変換関数ｇ（ＣＭｔ）と音素正解確率変換関数ｈ（ＣＭｖ）とを計算する処理について、図８、図９及び図１０のフローチャートを用いて説明する。

尚、単語正解確率変換関数ｆ（ＣＭｗ）と音節正解確率変換関数ｇ（ＣＭｔ）と音素正解確率変換関数ｈ（ＣＭｖ）とを計算する処理は、いずれも原理的には同様の処理である。そのため、以下の説明では、言語モデル（即ち、単語列言語モデル、音節列言語モデル又は音素列言語モデルのいずれか）を用いて認識（即ち、単語認識、音節認識又は音素認識のいずれか）を行い、対応する対数ゆう度（即ち、単語認識対数ゆう度、音節認識対数ゆう度又は音素認識対数ゆう度のいずれか）と、正規化ゆう度ＣＭｘ（即ち、ＣＭｗ、ＣＭｔ又はＣＭｖのいずれか）とから、確率変換関数（即ち、ｆ（ＣＭｗ）、ｇ（ＣＭｔ）又はｈ（ＣＭｖ）のいずれか）を求める場合を例に説明する。

上述したように、確率変換関数は事前実験により決定され、上述の３つの方法のいずれかにより求められる。以下、それぞれ３つの方法について説明する。

（方法１）
まず、制御部１１０は、対象事象である音声Ｖ１と、対立事象である音声Ｖ２とを取得する（図８、ステップＳ８０１）。尚、対象事象である音声Ｖ１や対立事象である音声Ｖ２の数は、なるべく多くのサンプル数であることが望ましい。

制御部１１０は、対象事象である音声Ｖ１について対応する言語モデル（即ち、単語列言語モデル、音節列言語モデル又は音素列言語モデル）を用いて認識（即ち、単語認識、音節認識又は音素認識）を行い、対数ゆう度（即ち、単語認識対数ゆう度、音節認識対数ゆう度又は音素認識対数ゆう度）を求める（ステップＳ８０２）。

同様に、制御部１１０は、対立事象である音声Ｖ２について対応する言語モデル（即ち、単語列言語モデル、音節列言語モデル又は音素列言語モデル）を用いて認識（即ち、単語認識、音節認識又は音素認識）を行い、対数ゆう度（即ち、単語認識対数ゆう度、音節認識対数ゆう度又は音素認識対数ゆう度）を求める（ステップＳ８０３）。

次に制御部１１０は、対象事象である音声Ｖ１の対数ゆう度から、数２を用いて正規化ゆう度を求め、記憶部１１３に記憶する（ステップＳ８０４）。

同様に、制御部１１０は、対立事象である音声Ｖ２の対数ゆう度から、数２を用いて正規化ゆう度を求め、記憶部１１３に記憶する（ステップＳ８０５）。

次に制御部１１０は、対象事象である音声Ｖ１の正規化ゆう度と、対応する正規化ゆう度を持つサンプル数との関係を示す、図３（ａ）に示されるような頻度分布を得る（ステップＳ８０６）。

同様に、制御部１１０は、対立事象である音声Ｖ２の正規化ゆう度と、対応する正規化ゆう度を持つサンプル数との関係を示す、図３（ｂ）に示されるような頻度分布を得る（ステップＳ８０７）。

更に制御部１１０は、数３を用いて、正規化ゆう度の各点に対応する条件付確率を求める（ステップＳ８０８）。

制御部１１０は、得られた離散的な条件付確率分布から、図３（ｃ）に示されるような連続的な条件付確率分布を求める（ステップＳ８０９）。例えば、上述したように、各区間に対して条件付確率ｐ（ｎ）をプロットして得られる分布において隣り合う区間の２点を結ぶ直線を求めて、近似的に連続した条件付確率分布を得る。得られた連続的な条件付確率分布は、正規化ゆう度から条件付確率を求めるための確率変換関数である。

制御部１１０は、記憶部１１３の所定の場所に確率変換関数を格納し（ステップＳ８１０）、条件付確率計算処理を終了する。

（方法２）
方法２が方法１と異なる点は、確率分布ではなく累積確率分布を用いる点である。
まず、制御部１１０は、対象事象である音声Ｖ１と、対立事象である音声Ｖ２とを取得する（図９、ステップＳ９０１）。尚、方法１と同様に、対象事象である音声Ｖ１や対立事象である音声Ｖ２の数はそれぞれ１つとは限らず、複数であることが望ましい。

制御部１１０は、対象事象である音声Ｖ１について対応する言語モデルを用いて認識を行い、頻度分布を総サンプル数で正規化して確率分布を求める（ステップＳ９０２）。

同様に、制御部１１０は、対立事象である音声Ｖ２について対応する言語モデルを用いて認識を行い、頻度分布を総サンプル数で正規化して確率分布を求める（ステップＳ９０３）。

次に制御部１１０は、対象事象の確率分布を正規化ゆう度の正方向に累積し、図４（ａ）に示すような累積確率分布を得る（ステップＳ９０４）。

同様に、制御部１１０は、対立事象の確率分布を正規化ゆう度の負の方向に累積し、図４（ｂ）に示すような累積確率分布を得る（ステップＳ９０５）。

更に制御部１１０は、数３を用いて、正規化ゆう度の各点に対応する条件付確率を求める（ステップＳ９０６）。

制御部１１０は、得られた離散的な条件付確率分布から、図４（ｃ）に示されるような連続的な条件付確率分布を求める（ステップＳ９０７）。例えば、上述したように、条件付確率分布の全体を、数４に示されるようなシグモイド関数あるいは直線近似を用いて近似し、連続した条件付確率分布を得る。得られた連続的な条件付確率分布は、正規化ゆう度から条件付確率を求めるための確率変換関数である。

制御部１１０は、記憶部１１３の所定の場所に確率変換関数を格納し（ステップＳ９０８）、条件付確率計算処理を終了する。

（方法３）
方法３が方法２と異なる点は、対象事象の累積確率分布のみを用いる点である。
まず、制御部１１０は、対象事象である音声Ｖ１を取得する（図１０、ステップＳ１００１）。尚、方法２と同様に、対象事象である音声Ｖ１の数は１つとは限らず、複数であることが望ましい。

制御部１１０は、対象事象である音声Ｖ１について対応する言語モデルを用いて認識を行い、頻度分布を総サンプル数で正規化して図５（ａ）に示すような確率分布を求める（ステップＳ１００２）。

次に制御部１１０は、対象事象の確率分布を正規化ゆう度の正方向に累積し、図５（ｂ）に示すような累積確率分布を得る（ステップＳ１００３）。

更に制御部１１０は、各正規化ゆう度における対象事象の累積確率を、当該正規化ゆう度における条件付確率とする（ステップＳ１００４）。

制御部１１０は、得られた離散的な条件付確率分布から、図５（ｃ）に示されるような連続的な条件付確率分布を求める（ステップＳ１００５）。例えば、上述したように、条件付確率分布の全体を、数４に示されるようなシグモイド関数あるいは直線近似を用いて近似し、連続した条件付確率分布を得る。得られた連続的な条件付確率分布は、正規化ゆう度から条件付確率を求めるための確率変換関数である。

制御部１１０は、記憶部１１３の所定の場所に確率変換関数を格納し（ステップＳ１００６）、条件付確率計算処理を終了する。

このように、制御部１１０は、事前実験により確率変換関数を決定し、記憶部１１３に記憶する。決定された確率変換関数は、上述した音声認識処理において、正規化ゆう度から条件付確率を求めるために用いられる。

以上説明したように、本発明によれば、非言語、未知語、競合語が混在する条件下で精度よく音声認識を行うために好適な音声認識装置及びプログラムを提供することができる。

音声認識装置の構成を説明するブロック図である。制御部が実行する音声認識処理を説明する図である。単語正解確率変換関数（又は、音節正解確率変換関数、音素正解確率変換関数）を求める方法（方法１）を説明する図である。単語正解確率変換関数（又は、音節正解確率変換関数、音素正解確率変換関数）を求める他の方法（方法２）を説明する図である。単語正解確率変換関数（又は、音節正解確率変換関数、音素正解確率変換関数）を求める他の方法（方法３）を説明する図である。制御部が実行する音声認識処理を説明するフローチャートである。制御部が実行する音声認識処理を説明するフローチャート（続き）である。制御部が実行する条件付確率計算処理（方法１）を説明するフローチャートである。制御部が実行する条件付確率計算処理（方法２）を説明するフローチャートである。制御部が実行する条件付確率計算処理（方法３）を説明するフローチャートである。

符号の説明

１００音声認識装置
１１０制御部
１１１ＲＡＭ
１１２ＲＯＭ
１１３記憶部
１１４出力部
１１５Ｉ／Ｆ
１１６入力部
１１７システムバス
１２１ネットワーク
２０１単語認識部
２０２単語列言語モデル格納部
２０３単語正規化ゆう度計算部
２０４単語正規化ゆう度格納部
２０５単語正解確率変換関数決定部
２０６単語正解確率変換関数格納部
２０７単語条件付確率計算部
２０８対話管理部
２１１音節認識部
２１２音節列言語モデル格納部
２１３音節正規化ゆう度計算部
２１４音節正規化ゆう度格納部
２１５音節正解確率変換関数決定部
２１６音節正解確率変換関数格納部
２１７音節条件付確率計算部
２２１音素認識部
２２２音素列言語モデル格納部
２２３音素正規化ゆう度計算部
２２４音素正規化ゆう度格納部
２２５音素正解確率変換関数決定部
２２６音素正解確率変換関数格納部
２２７音素条件付確率計算部

Claims

音声を認識して複数の音素列候補とゆう度とを求める音素認識部と、
前記音素認識部により求められたゆう度に基づいて、前記音声が音素列のいずれかであると仮定した場合に前記音声が音節列のいずれかである割合を示す第１の正規化ゆう度を求め、前記音声が前記音素列のいずれかである場合に前記音声が前記音節列のいずれかである第１の確率を求める第１の確率取得部と、
前記音声を認識して複数の音節列候補とゆう度とを求める音節認識部と、
前記音節認識部により求められたゆう度に基づいて、前記音声が前記音節列のいずれかであると仮定した場合に前記音声が既知の単語列のいずれかである割合を示す第２の正規化ゆう度を求め、前記音声が前記音節列のいずれかである場合に前記音声が前記既知の単語列のいずれかである第２の確率を求める第２の確率取得部と、
前記音声を認識して複数の単語列候補とゆう度とを求める単語認識部と、
前記単語認識部により求められた前記ゆう度に基づいて、前記音声が前記既知の単語列のいずれかであると仮定した場合に前記音声が前記単語列候補の中で最も大きいゆう度を持つ第１位の単語列候補である割合を示す第３の正規化ゆう度を求め、前記音声が前記既知の単語列のいずれかである場合に前記音声が前記第１位の単語列候補である第３の確率を求める第３の確率取得部と、
前記第１の確率と前記第２の確率と前記第３の確率とに基づいて、前記第１位の単語列候補を棄却する判定部と、
を備えることを特徴とする音声認識装置。
音素列に関するデータを格納する音素列言語モデル格納部と、
音節列に関するデータを格納する音節列言語モデル格納部と、
単語列に関するデータを格納する単語列言語モデル格納部と、
前記第１の確率取得部により求められる第１の正規化ゆう度と、前記音声が前記音素列言語モデル格納部に格納された音素列のいずれかである場合に前記音声が前記音節列言語モデル格納部に格納された音節列のいずれかである第１の確率との関係を示す第１の関数を格納する第１の関数格納部と、
前記第２の確率取得部により求められる第２の正規化ゆう度と、前記音声が前記音節列言語モデル格納部に格納された音節列のいずれかである場合に前記音声が前記単語列言語モデル格納部に格納された単語列のいずれかである第２の確率との関係を示す第２の関数を格納する第２の関数格納部と、
前記第３の確率取得部により求められる第３の正規化ゆう度と、前記音声が前記単語列候補のいずれかである場合に前記音声が前記第１位の単語列候補である第３の確率との関係を示す第３の関数を格納する第３の関数格納部と、を更に備え、
前記第１の確率取得部は、前記第１の正規化ゆう度と、前記第１の関数格納部に格納される第１の関数とに基づいて、前記第１の確率を求め、
前記第２の確率取得部は、前記第２の正規化ゆう度と、前記第２の関数格納部に格納される第２の関数とに基づいて、前記第２の確率を求め、
前記第３の確率取得部は、前記第３の正規化ゆう度と、前記第３の関数格納部に格納される第３の関数とに基づいて、前記第３の確率を求める
ことを特徴とする、請求項１に記載の音声認識装置。
前記第１、第２又は第３の確率取得部により求められる第１、第２又は第３の正規化ゆう度が取りうる範囲を所定の区間に分割した各区間ごとに、判別対象の音素列、音節列又は単語列に該当する対象事象のサンプル音声数と、前記対象事象に対応する対立事象のサンプル音声数とを求め、更に、
前記各区間ごとに前記音素列、音節列又は単語列に該当するサンプル音声数の総サンプル数に対する割合を求め、更に、
各区間に対して前記割合をプロットして得られる分布において隣り合う区間の２点を直線で結んで得られる関数、又は、当該分布を示す近似曲線関数を求めて前記第１、第２又は第３の関数格納部に格納する関数決定部
を更に備えることを特徴とする、請求項２に記載の音声認識装置。
前記第１、第２又は第３の確率取得部により求められる第１、第２又は第３の正規化ゆう度が取りうる範囲を所定の区間に分割した各区間ごとに、判別対象の音素列、音節列又は単語列に該当する対象事象のサンプル音声数の割合と、前記対象事象に対応する対立事象のサンプル音声数の割合とを求め、更に、
前記各区間ごとに前記音素列、音節列又は単語列に該当するサンプル音声数を累積した値の総サンプル数に対する累積割合を求め、更に、
各区間に対して前記累積割合をプロットして得られる分布において隣り合う区間の２点を直線で結んで得られる関数、又は、当該分布を示す近似曲線関数を求めて前記第１、第２又は第３の関数格納部に格納する関数決定部
を更に備えることを特徴とする、請求項２に記載の音声認識装置。
前記第１、第２又は第３の確率取得部により求められる第１、第２又は第３の正規化ゆう度が取りうる範囲を所定の区間に分割した各区間ごとに、判別対象の音素列、音節列又は単語列に該当する対象事象のサンプル音声数の割合を求め、更に、
前記各区間ごとに前記音素列、音節列又は単語列に該当する対象事象のサンプル音声数を累積した値の総サンプル数に対する累積割合を求め、更に、
前記各区間に対して前記累積割合をプロットして得られる分布において隣り合う区間の２点を直線で結んで得られる関数、又は、当該分布を示す近似曲線関数を求めて前記第１、第２又は第３の関数格納部に格納する関数決定部
を更に備えることを特徴とする、請求項２に記載の音声認識装置。
コンピュータを、
音声を認識して複数の音素列候補とゆう度とを求める音素認識部、
前記音素認識部により求められたゆう度に基づいて、前記音声が音素列のいずれかであると仮定した場合に前記音声が音節列のいずれかである割合を示す第１の正規化ゆう度を求め、前記音声が前記音素列のいずれかである場合に前記音声が前記音節列のいずれかである第１の確率を求める第１の確率取得部、
前記音声を認識して複数の音節列候補とゆう度とを求める音節認識部、
前記音節認識部により求められたゆう度に基づいて、前記音声が前記音節列のいずれかであると仮定した場合に前記音声が既知の単語列のいずれかである割合を示す第２の正規化ゆう度を求め、前記音声が前記音節列のいずれかである場合に前記音声が前記既知の単語列のいずれかである第２の確率を求める第２の確率取得部、
前記音声を認識して複数の単語列候補とゆう度とを求める単語認識部、
前記単語認識部により求められた前記ゆう度に基づいて、前記音声が前記既知の単語列のいずれかであると仮定した場合に前記音声が前記単語列候補の中で最も大きいゆう度を持つ第１位の単語候補である割合を示す第３の正規化ゆう度を求め、前記音声が前記既知の単語列のいずれかである場合に前記音声が前記第１位の単語列候補である第３の確率を求める第３の確率取得部、
前記第１の確率と前記第２の確率と前記第３の確率とに基づいて、前記第１位の単語列候補を棄却する判定部
として機能させることを特徴とするプログラム。