JP2011075973A

JP2011075973A - 音声認識装置とその方法と、プログラム

Info

Publication number: JP2011075973A
Application number: JP2009229338A
Authority: JP
Inventors: Satoru Kobashigawa; 哲小橋川; Taichi Asami; 太一浅見; Yoshikazu Yamaguchi; 義和山口; Hirokazu Masataki; 浩和政瀧; Satoshi Takahashi; 敏高橋
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2009-10-01
Filing date: 2009-10-01
Publication date: 2011-04-14
Anticipated expiration: 2029-10-01
Also published as: JP4922377B2

Abstract

【課題】音声認識結果の信頼度計算の処理時間を削減する。
【解決手段】この発明の音声認識装置の音素認識部が、音響モデルからモノフォン音響モデルを抽出し、そのモノフォン音響モデルを用いた認識文法で、音声特徴量系列の音素認識を行い音声ファイル単位で音素認識結果を出力する。そして、事前信頼度計算部は、フレーム毎の音素認識結果の音響スコアから当該フレームに信頼度を付与し、その信頼度を音声ファイル単位で平均した事前信頼度を計算する。音声認識処理部は、音声特徴量系列と事前信頼度を入力として、音声認識処理を行い音声認識結果と事前信頼度を出力する。
【選択図】図１

Description

この発明は、様々な音質の音声データを効率良く音声認識する音声認識装置とその方法と、プログラムに関する。

近年、音声データを記録するメモリ素子が安価になることに伴い大量の音声データを容易に入手することが可能になった。それらの音声データを音声認識する際に、音声データの品質によって認識精度や処理時間が大きく変動する問題が発生する。

そこで、従来から音声認識結果に信頼度を付与することで、音声認識誤りに起因する不具合を抑制する方法が検討されている。図１４に音声認識結果に信頼度を付与するようにした音声認識装置９００の機能構成を示す。音声認識装置９００は、音響分析部１２０、音響モデル格納部１４０、辞書・言語モデル格納部１５０、探索部１６０、信頼度計算部１９０、を備える。

音響分析部１２０は、入力音声信号１１０を、数十ｍｓのフレームと呼ばれる単位で例えばメル周波数ケプストラム係数（ＭＦＣＣ）分析して音響特徴パラメータ系列１３０を生成する。探索部１６０は、音響特徴パラメータ系列１３０について、音響モデル格納部１４０と辞書・言語モデル格納部１５０とを用いて認識結果候補の探索を行う。探索の結果、上位〜Ｎ位までのＮベストの音声認識結果１７０と、そのスコア１８０が出力される。

信頼度計算部１９０は、音声認識結果１７０とスコア１８０に基づいて複数の音声認識結果１７０にそれぞれ対応する信頼度スコア２００を計算して出力する。その信頼度スコア２００は、例えば音声認識結果として得られたＮベスト候補及びそれらのスコアの単純なスコア差と加算平均から求められる。

この信頼度スコア２００を参照することで、その信頼度スコア２００に対応する音声認識結果１７０を廃棄したり、発話者に対して認識結果を確認したりすることで、誤認識による不具合の発生を抑制していた。また、信頼度スコア２００が所定の値以下の場合は、その音声データについて認識処理を行わないようにすることで、処理効率を上げていた。

特開２００５−１４８３４２号公報

しかし、従来の音声認識装置９００では、信頼度スコアを、音声認識処理を行った後のスコアから計算していた。したがって、信頼度スコアを得るのに音声認識処理の処理時間を必要としていた。そのため、例えばＳ/Ｎ比が悪い等の理由により誤認識ばかりで利用不能な音声データに余分な処理時間をかけてしまう場合がある。また、大量の音声ファイルに対して音声認識処理を行う場合に、音声認識精度の低い音声ファイルの処理に時間がかかり、他の音声認識精度の高い音声ファイルの処理が進まず、音声認識処理全体の処理効率を低下させる場合がある。また、言語モデルを用いた音声認識結果に基づく処理のため、信頼度スコアの値が言語モデルに依存してしまう課題もあった。

この発明は、このような問題点に鑑みてなされたものであり、音声認識処理の全てを行うこと無く短い処理時間で信頼度スコアが計算可能であり、言語モデルに依存しない信頼度スコアを出力する音声認識装置とその方法と、プログラムを提供することを目的とする。

この発明の音声認識装置は、特徴量分析部と、音素認識部と、事前信頼度計算部と、音声認識処理部と、を具備する。特徴量分析部は、入力される音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する。音素認識部は、音響モデルパラメータメモリに記録された音響モデルからモノフォン音響モデルを抽出し、そのモノフォン音響モデルを用いた認識文法で、音声特徴量系列の音素認識を行い音声ファイル単位で音素認識結果を出力する。事前信頼度計算部は、フレーム毎の音素認識結果の音響スコアから当該フレームに信頼度を付与し、その信頼度を音声ファイル単位で平均した事前信頼度を計算する。音声認識処理部は、音声特徴量系列を入力として、音声認識処理を行い音声認識結果を出力する。

この発明の音声認識装置によれば、音素認識部がモノフォン音響モデルを用いた認識文法で音声特徴量系列の音素認識を行い、音素認識結果を出力する。そして、事前信頼度計算部が、フレーム毎の音素認識結果の音響スコアから当該フレームに信頼度を付与し、その信頼度を音声ファイル単位で平均した事前信頼度を計算する。従って、音素の音響スコアから信頼度を求めるので、従来の音声認識装置よりも軽い処理で事前信頼度が求められる。また、音素単位の処理なので、言語モデルに依存しない事前信頼度を得ることが出来る。また、求められた事前信頼度の値に応じて音声認識処理を行うか否かの判断をすることで、事前信頼度が低く音声認識精度の低い音声ファイルの音声認識処理に時間がかかる課題も解決される。

この発明の音声認識装置１００の機能構成例を示す図。音声認識装置１００の動作フローを示す図。音素認識部３０の機能構成例を示す図。音素タイプライタ文法を概念的に示す図。音素認識結果Ｎベストの例を示す図。事前信頼度計算部４０の機能構成例を示す図。音声・非音声文法を概念的に示す図。この発明の音声認識装置３００の機能構成例を示す図。認識処理制御部３０１の制御信号のビーム探索幅の設定方法を示す図。この発明の音声認識装置４００の機能構成例を示す図。音声認識装置４００の動作フローを示す図。この発明の音声認識装置５００の機能構成例を示す図。音声認識装置５００の動作フローを示す図。特許文献１に開示された従来の音声認識装置９００の機能構成を示す図。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

図１にこの発明の音声認識装置１００の機能構成例を示す。その動作フローを図２に示す。音声認識装置１００は、Ａ/Ｄ変換部１０と、特徴量分析部２０と、音素認識部３０と、事前信頼度計算部４０と、音声認識処理部５０と、音響モデルパラメータメモリ６０と、言語モデルパラメータメモリ７０と、を具備する。音声認識装置１００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

Ａ/Ｄ変換部１０は、音声信号を、例えばサンプリング周波数１６ｋＨｚで離散値化して音声ディジタル信号に変換する。なお、音声ディジタル信号が直接入力される場合は、Ａ/Ｄ変換部１０は不要である。

特徴量分析部２０は、音声ディジタル信号を入力として、例えば３２０個の音声ディジタル信号を１フレーム（２０ｍｓ）としたフレーム毎に、音声特徴量系列を出力する（ステップＳ２０）。音声特徴量としては、例えば、ＭＦＣＣ（Mel-Frequenct Cepstrum Coefficient）の１〜１２元と、その変化量であるΔＭＦＣＣ等の動的パラメータや、パワーやΔパワー等を用いる。また、ケプストラム平均正規化（ＣＭＮ）等の処理を行っても良い。

音素認識部３０は、音響モデルパラメータメモリ６０に記録された音響モデルからモノフォン音響モデルを抽出し、そのモノフォン音響モデルを用いた認識文法で、上記音声特徴量系列の音素認識を行い音声ファイル単位で音素認識結果を出力する（ステップＳ３０）。モノフォン音響モデルは、環境独立音素モデルのことであり、前後の音素環境に制約を持つ環境依存音素モデル（例えばトライホン）に対して、前後の音素の制約がなく、音素モデルの数も少ない。例えば、音素の数を３０個とした場合、モノフォン音響モデル中の音素モデルの数は３０個であるが、トライフォンの場合の数は３０^３個（２７００個）である。

ステップＳ２０の特徴量分析過程と、ステップＳ３０の音素認識過程は、音声ファイルの全フレームについて処理が終了するまで繰り返される。

事前信頼度計算部４０は、フレーム毎の音素認識結果の音響スコアから当該フレームに信頼度を付与し、その信頼度を音声ファイル単位で平均した事前信頼度を計算する（ステップＳ４０）。

音声認識処理部５０は、音響モデルパラメータメモリ６０に記録された音響モデルと、言語モデルパラメータメモリ７０に記録された言語モデルとを参照して、音声特徴量系列について音声認識処理を行い、その音声認識結果と事前信頼度を出力する（ステップＳ５０）。なお、音声認識処理部５０は、破線で示すように音声ファイルの事前信頼度の値に応じて音声認識処理の実行の有無を切り替えるようにしても良い。ステップＳ５０の音声認識処理過程は、音声ファイルの全フレームについて処理が終了するまで繰り返される。

音声認識装置１００によれば、音素認識部３０が、モノフォン音響モデルを用いた認識文法で、上記音声特徴量系列の音素認識を行い音声ファイル単位で音素認識結果を出力する。そして、事前信頼度計算部４０が、フレーム毎に信頼度を付与して音声ファイル単位で平均した事前信頼度を計算する。モノフォン音響モデルに基づいた事前信頼度は、モノフォン音響モデル中の音素モデルの数が少ないため従来の信頼度スコアを求める方法と比べて計算量が少なくて済む。また、複数の音声ファイルを処理する場合に、事前信頼度の値に応じて音声認識処理を行うか否かの判断をすることで、事前信頼度が低い、つまり音声認識精度が低い音声ファイルの音声認識処理に時間がかかる課題も解決される。次に、各部の具体的な構成例を示して更に詳しく音声認識装置１００の動作を説明する。

〔音素認識部〕
図３に、音素認識部３０の機能構成例を示す。音素認識部３０は、モノフォン音響モデル抽出手段３１と、音素タイプライタ文法作成手段３２と、信頼度計算用認識処理手段３３と、を備える。
モノフォン音響モデル抽出手段３１は、音響モデルパラメータメモリ６０に記録された音響モデルからモノフォン音響モデルを抽出する。ここで抽出とは、音響モデルパラメータメモリ６０に記録されているモノフォン、バイフォン、トライフォンの各音響モデルからモノフォン音響モデルを選択することを意味する。
音素タイプライタ文法作成手段３２は、モノフォン音響モデルを用いて任意の音素の繰り返しを許す音素タイプライタ文法を作成する。音素タイプライタ文法とは、フレーム毎に与えられる音声特徴量に応じて、遷移するモノフォン音響モデルを変えて音声を表現する方法である。図４に音素タイプライタ文法を概念的に示す。ノード１と２の間に、例えば音素モデルａ〜Ｎと、ポーズ（無音）モデルが配列されてモノフォン音響モデルが構成される。モノフォン音響モデルの−は左側依存、＋は右側依存を表す。この図において、入力されるフレーム毎の音声特徴量に応じて、ノード１と２の間の状態遷移が繰り返される。なお、図４の音素タイプライタ文法は、例えば「ｅｅ」の長母音と、「ｅ」の短母音を同じ音素として扱う例である。長母音と短母音を同じ音素として扱うことで信頼度が低くなってしまうのを回避することが出来る。

信頼度計算用認識処理手段３３は、モノフォン音響モデルを入力音響モデル、音素タイプライタ文法を入力言語モデルとして、音声特徴量系列について音素認識処理を行い所定数の音素認識結果Ｎベストを出力する。
音素認識結果Ｎベストとは、音素モデルを参照して、ビーム探索アルゴリズムに基づいて複数の音素認識結果を出力するものである。ビーム探索アルゴリズムとは、フレーム毎に尤度の高い認識結果の存在をおおよそ保証できる所定数（ビーム幅）の音素認識結果候補を残しながら探索する手順である。

図５に音素認識結果Ｎベストの一例を示す。＿はフレームを意味する。横方向に時間経過を表す。音素認識結果Ｎベストとは、Ｎ個の音素認識結果の時系列である。第１位とは、音響スコアの最も大きな音素認識結果を時系列に並べたものである。第２位とは、２番目に音響スコアの大きな音素認識結果を時系列に並べたものである。
なお、図３に破線で示すように予め信頼度計算用認識処理手段３３が、音素タイプライタ文法を具備するようにしても良い。その場合、音素タイプライタ文法作成手段３２は省略可能である。

図６に事前信頼度計算部４０の機能構成例を示す。事前信頼度計算部４０は、第２位以下の最尤音素検出手段４２と、信頼度スコア算出手段４３と、事前信頼度算出手段４４と、を備える。

第２位以下の最尤音素検出手段４２は、フレーム単位の時刻ｔ毎に音素認識結果Ｎベストの中に異なる音素の認識結果がある場合に２番目に尤度の高い音素認識結果を検出する。その動作を図５を参照して説明する。時刻ｔ＝１〜４の範囲は、「ポーズ」の音素認識結果のみであり、時刻ｔ＝５，６では「ポーズ」と「ｓ」が存在し、時刻ｔ＝７，８では「ポーズ」と「ｇ」と「ｓ」が存在する。時刻ｔにおいて複数の異なる音素認識結果がある場合に２番目に尤度の高い音素認識結果を検出する。第２位以下の音素認識結果として「ｇ」と「ｓ」の２つが存在する時刻ｔ＝７，８では、「ｓ」よりも上位の「ｇ」を選択する。

信頼度スコア算出手段４３は、信頼度を式（１）で計算する。

ここでＡＳは音響スコアであり、ＡＳ（ｔ，ｐ1）は時刻ｔの第１位の音素認識結果ｐ１の音響スコア、ＡＳ（ｔ，ｐ２）は時刻ｔのｐ１と異なる音素のうち最も尤度が高い音素ｐ２の音響スコアである。

つまり、同一時刻に異なる音素認識結果が存在する場合に、当該フレームの信頼度Ｃ（ｔ）は、第１位の音素認識結果の音響スコアと、異なる音素の最尤の音響スコアとの差として与えられる。同一時刻に異なる音素認識結果が存在しない場合は、そのフレームの信頼度は一定の高い信頼度スコア値Ｃ（ｔ）＝Ｃ_constが与えられる。

事前信頼度算出手段４４は、音声ファイル単位の事前信頼度Ｃを式（２）で計算する。

ここでＴは音声ファイルの継続時間長（総フレーム数）である。

このように、事前信頼度計算部４０は、発話単位の信頼度を音声ファイルの全フレームで平均化することで音声ファイル単位の信頼度を事前信頼度として得る。音声ファイル単位の全体の信頼度を求めるので精緻な処理を必要としない。モノフォン音響モデルを使う認識文法を用いるので、言語モデル（語彙セット）に依存しない処理が行え高速である。なお、音素認識３０で説明した長母音と短母音を同一音素として扱う処理を、事前信頼度計算部４０で行っても良い。

また、音素認識部３０は認識文法として音素タイプライタ文法を用い、音素認識結果として音素認識結果Ｎベストを出力する例で説明したが、他の方法も考えられる。認識文法として音声タイプライタ文法と音声・非音声文法の２つを備え、音声特徴量系列の音素認識を２つの文法でそれぞれ行いフレーム毎に２つの音素認識結果を出力するようにしても良い。

図７に音声・非音声文法を概念的に示す。ノード３と４の間に、音声ＧＭＭ７１と、非音声すなわちポーズＧＭＭ（無音ＧＭＭ）７２が配列されている。ＧＭＭは、混合正規分布モデル（Gaussian Mixture Model）である。

この図において、入力されるフレーム毎の音声特徴量に応じて、ノード３と４の間の状態遷移が繰り返される。つまり、フレーム毎に、音声か非音声かが判定され音声ＧＭＭとポーズＧＭＭの音響スコアが付与される。

音声ＧＭＭ７１とポーズＧＭＭ７２は、複数の正規分布を含む混合正規分布であるので、モノフォン音響モデルと比較すると分散が広く、その音響スコアの変化量は相対的に小さな値となる。よって、分散が狭いモノフォン音響モデルから求めた音響スコアと、分散が広いＧＭＭから求めた音響スコアとの差で音素認識結果の信頼度を評価することが出来る。

つまり、音素タイプライタ文法で求めた音響スコアは、音声特徴量がモノフォン音響モデルにぴったり合うと高く、合致しないと低くなる。この変化量の大きな音響スコアと、ＧＭＭから求めた変化量の小さな音響スコアとの差を取ることで信頼度を求めることが出来る。

認識文法として音声タイプライタ文法と音声・非音声文法の２つを備えた音素認識部３０′が出力する２つの音素認識結果が入力される事前信頼度計算部４０′は、その２つの音響スコアの差を、当該フレームの信頼度として音声ファイル単位で平均して事前信頼度Ｃを計算する。

音声認識処理部５０は、特徴量分析部２０が出力する音声特徴量と事前信頼度Ｃを入力として、音声認識処理を行い音声認識結果を出力する。この時、事前信頼度Ｃを同時に出力しても良い。ここでの音声認識処理は、音響モデルパラメータメモリ６０に記録された全ての音響モデルを用いた認識処理が行われる。音声認識処理部５０は、事前信頼度Ｃの値に応じて音声認識処理の実行の有無を切り替えるようにしても良い。また、事前信頼度Ｃの値に応じて音声認識処理部５０における探索ビーム幅を可変するようにしても良い。

図８にこの発明の音声認識装置３００の機能構成例を示す。音声認識装置３００は、認識処理制御部３０１を備える点で、音声認識装置１００と異なる。認識処理制御部３０１は、事前信頼度Ｃが一定値Ｃ_ｔｈ以下の場合に音声認識処理を停止させる制御信号を、音声認識処理部５０に出力する。事前信頼度Ｃは音声ファイル毎に計算される値であるので、音声認識処理部５０は音声ファイル単位で音声認識処理の実行の有無を切り替える。一定値Ｃ_ｔｈは、例えば、音響モデルの学習データに対する信頼度分布から算出する方法が考えられる。信頼度分布の平均値μ、標準偏差σとした場合に、例えばＣ_ｔｈ＝μ−２σとする。また、式（１）に示した一定の高い信頼度スコア値Ｃ_constは、Ｃ_const＝μ＋２σ等としても良い。

また、認識処理制御部３０１は、制御信号としてビーム探索幅Ｎ（Ｃ）を出力するようにしても良い。その一例を式（３）に示す。

図９に事前信頼度Ｃとビーム探索幅Ｎ（Ｃ）との関係を例示する。横軸は事前信頼度Ｃであり、縦軸はビーム探索幅Ｎ（Ｃ）である。
図９に示すように式（３）は、所定の範囲の事前信頼度Ｃ（Ｃ_ｍｉｎ〜Ｃ_ｍａｘ）に対応するビーム探索幅Ｎ（Ｃ）（Ｎ_ｍｉｎ〜Ｎ_ｍａｘ）を、事前信頼度Ｃの値で比例配分する考えである。ここでは、比例係数が負の値なので、事前信頼度Ｃが小でビーム探索幅Ｎ（Ｃ）が大であり、Ｃが大でＮ（Ｃ）が小となる関係である。もちろん、事前信頼度Ｃとビーム探索幅Ｎ（Ｃ）との関係は、非線形な関数で表せる関係であっても良い。また、制御信号としてビーム探索幅Ｎ（Ｃ）を用いる場合、ビーム探索幅は、個数ビーム幅に限定したものではなく、例えばスコアビーム幅、単語終端スコアビーム幅や、単語終端個数ビーム幅等であっても良い。

ここで、例えばＣ_ｍａｘ＝μ＋σ、Ｃ_ｍｉｎ＝μ―σとして、Ｎ_ｍａｘを通常用いるビーム幅の１.５倍、Ｎ_ｍｉｎを通常用いるビーム幅の半分等としても良い。また、平均音質が極端に悪い場合（例えばＣ＜Ｃ_ｍｉｎ）には、ビーム探索幅を拡大しても精度向上が望めず処理時間ばかり掛かるので、ビーム探索幅を小さく、例えばＮ_ｍｉｎにしても良い。また、制御信号に認識対象外指示信号を含ませて音声認識処理を行わせないようにしても良い。また、音声認識処理を停止させる信号とビーム探索幅の制御信号を並存させても良い。

このように、認識処理制御部３０１を備えた音声認識装置３００は、複数の音声ファイルの音声認識処理の効率化と、認識精度の向上を図ることが出来る。なお、認識処理制御部３０１の機能は、音声認識処理部５０に持たせても良い。

図１０にこの発明の音声認識装置４００の機能構成例を示す。図１１に動作フローを示す。音声認識装置４００は、音声ファイル処理部４０１と、ソート音声認識処理部４０２と、を備える点で音声認識装置１００，３００と異なる。

音声ファイル処理部４０１は、複数の音声ファイルの事前信頼度Ｃの高い順番に複数の音声ファイルを並び替える（ステップＳ４０１）。ソート音声認識処理部４０２は、事前信頼度Ｃの高い順番に音声認識処理を行う（ステップＳ４０２）。

このように事前信頼度Ｃの大きさ順に音声認識処理を実行することで、複数の音声ファイルの音声認識処理を行う場合の処理効率を向上させることが出来る。例えば、全音声ファイルに対して音声認識処理を行う事が、計算機資源や処理時間の関係等によって難しい場合には、事前信頼度Ｃが小さい音声ファイルは音声認識処理が行われず、音声認識精度が高い事が期待される事前信頼度Ｃが大きな音声ファイルにのみ音声認識処理が行われることになり、高精度な音声認識結果を収集することが可能になる。なお、音声ファイル処理部４０１の機能は、ソート音声認識処理部４０２の機能に含めても良い。

図１２にこの発明の音声認識装置５００の機能構成例を示す。図１３に動作フローを示す。音声認識装置５００は、教師なし適応制御部５０１と、教師なし適応部５０２と、適応後音響モデルパラメータメモリ５０３と、第２認識処理部５０４とを備える点で音声認識装置１００，３００，４００と異なる。なお、作図の都合でＡ/Ｄ変換部１０は省略している。

教師なし適応制御部５０１は、事前信頼度Ｃを入力として、その事前信頼度Ｃの値が一定範囲内（例えばＣ＞μ等）か否かを判定して教師なし適応制御信号を出力する（ステップＳ５０１）。事前信頼度Ｃの値が一定範囲内でない場合、その音声ファイルの処理を終了する（ステップＳ５０１のＮＯ）。教師なし適応制御信号とは、音声認識処理部５０が出力する音声認識結果を適応用ラベルとして用いるか否かを制御する信号である。

教師なし適応部５０２は、教師なし適応制御信号が、音声認識処理部５０が出力する音声認識結果を適応用ラベルとして用いることを指示していた場合、音声認識結果を適応用ラベルとして音響モデルパラメータメモリ６０に記録された音響モデルを学習して、適応後音響モデルを生成する（ステップＳ５０２）。適応後音響モデルは、適応後音響モデルパラメータメモリ５０３に記録される。

第２認識処理部５０４は、適応後音響モデルパラメータメモリ５０３に記録された適応後音響モデルを用いて音声特徴量系列の音声認識処理を行う（ステップＳ５０４）。

音声認識装置５００は、事前信頼度Ｃの値が一定範囲内にある場合に限って、音声認識結果を適応用ラベルとして音響モデルを学習し、更に音声認識処理を行う。したがって、事前信頼度Ｃが低く音声ファイルの認識精度の低い音声認識結果が出力されることがない。また、事前信頼度Ｃが高く音声ファイルの認識精度の高い音声認識結果を適応用ラベルとして音響モデルを学習するので、音響モデルの精度を自動的に向上させることが出来る。

以上述べたように、この発明の音声認識装置によれば、モノフォン音響モデルに基づいた信頼度を求め、音声ファイル単位でその信頼度を平均した事前信頼度を計算する。従って、従来の音声認識装置よりも軽い処理で事前信頼度が求められる。また、音素単位の処理なので、言語モデルに依存しない事前信頼度を得ることが出来る。また、求められた事前信頼度の値に応じて音声認識処理を行うか否かの判断をすることで、例えばＳ/Ｎ比が悪い等の理由により音声認識精度の低い音声ファイルの音声認識処理に時間がかかる問題も解決できる。

なお、上記方法及び装置において説明した処理は、記載の順に従って時系列に実行され
るのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）/ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

入力される音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する特徴量分析部と、
音響モデルパラメータメモリに記録された音響モデルからモノフォン音響モデルを抽出し、そのモノフォン音響モデルを用いた認識文法で、上記音声特徴量系列の音素認識を行い音声ファイル単位で音素認識結果を出力する音素認識部と、
上記フレーム毎の音素認識結果の音響スコアから当該フレームに信頼度を付与し、その信頼度を音声ファイル単位で平均した事前信頼度を計算する事前信頼度計算部と、
上記音声特徴量系列を入力として、音声認識処理を行い音声認識結果を出力する音声認識処理部と、
を具備する音声認識装置。
請求項１に記載した音声認識装置において、
上記音素認識部は、
上記認識文法が音素タイプライタ文法であり、且つ、上記音素認識結果として所定数の音素認識結果Ｎベストを出力するものであり、
上記事前信頼度計算部は、上記音素認識結果Ｎベストの中に、異なる音素の認識結果がある場合に、第１位の音素の音響スコアとその第１位の音素を除いた最尤の音素の音響スコアとの差をそのフレームの信頼度とし、異なる音素の認識結果がない場合にそのフレームに一定の高い信頼度を与え、上記信頼度を音声ファイル単位で平均して事前信頼度を計算するものである、
ことを特徴とする音声認識装置。
請求項１に記載した音声認識装置において、
上記音素認識部は、
上記認識文法として、音素タイプライタ文法と音声・非音声文法を備え、上記音声特徴量系列の音素認識をそれぞれの文法で行い上記フレーム毎に２つの音素認識結果を出力するものであり、
上記事前信頼度計算部は、上記２つの音素認識結果の音響スコアの差を、当該フレームの信頼度とし、その信頼度を音声ファイル単位で平均して事前信頼度を計算するものである、
ことを特徴とする音声認識装置。
請求項１乃至３の何れかに記載した音声認識装置において、
上記音声認識処理部は、上記事前信頼度の値に応じて探索ビーム幅を可変するものであることを特徴とする音声認識装置。
請求項１乃至４の何れかに記載した音声認識装置において、
上記事前信頼度を入力として、音声認識処理を行う音声ファイルを選択する制御信号を生成して上記音声認識処理部に出力する認識処理制御部を、
更に備えることを特徴とする音声認識装置。
請求項１乃至４の何れかに記載した音声認識装置において、
複数の音声ファイルの上記事前信頼度から、事前信頼度の高い順番に上記複数の音声ファイルを並び替える音声ファイル処理部と、
事前信頼度の高い順番で音声認識処理を行うソート音声認識処理部と、
を更に備えることを特徴とする音声認識装置。
請求項１乃至３の何れかに記載した音声認識装置において、
上記事前信頼度を入力として、その事前信頼度の値が一定範囲内か否かを判定して適応制御信号を出力する教師なし適応制御部と、
上記音声認識結果と上記教師なし適応制御信号を入力として、上記音声認識結果を適応用ラベルとして音響モデルを学習して適応後音響モデルを生成する教師なし適応部と、
上記適応後音響モデルが生成された場合に、その適応後音響モデルを用いて上記音声特徴量系列の音声認識処理を行う第２認識処理部と、
を更に備えることを特徴とする音声認識装置。
特徴量分析部が、入力される音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する特徴量分析過程と、
音素認識部が、音響モデルからモノフォン音響モデルを抽出し、そのモノフォン音響モデルを用いた認識文法で、上記音声特徴量系列の音素認識を行い音素認識結果を出力する音素認識過程と、
事前信頼度計算部が、上記フレーム毎の音素認識結果の音響スコアから当該フレームに信頼度を付与し、その信頼度を音声ファイル単位で平均して事前信頼度を計算する事前信頼度計算過程と、
音声認識処理部が、上記音声特徴量系列を入力として、音声認識処理を行い音声認識結果を出力する音声認識処理過程と、
を備える音声認識方法。
請求項１乃至７の何れかに記載した音声認識装置としてコンピュータを機能させるための装置プログラム。