JP5538350B2 - 音声認識方法とその装置とプログラム - Google Patents

音声認識方法とその装置とプログラム Download PDF

Info

Publication number
JP5538350B2
JP5538350B2 JP2011262492A JP2011262492A JP5538350B2 JP 5538350 B2 JP5538350 B2 JP 5538350B2 JP 2011262492 A JP2011262492 A JP 2011262492A JP 2011262492 A JP2011262492 A JP 2011262492A JP 5538350 B2 JP5538350 B2 JP 5538350B2
Authority
JP
Japan
Prior art keywords
score
speech
variation coefficient
score range
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011262492A
Other languages
English (en)
Other versions
JP2013114202A (ja
Inventor
哲 小橋川
義和 山口
貴明 堀
太一 浅見
厚徳 小川
理 吉岡
浩和 政瀧
敏 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011262492A priority Critical patent/JP5538350B2/ja
Publication of JP2013114202A publication Critical patent/JP2013114202A/ja
Application granted granted Critical
Publication of JP5538350B2 publication Critical patent/JP5538350B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

この発明は、音声認識対象の音声データの音質の変化の影響を受け難くい音声認識方法とその装置とプログラムに関する。
近年、音声データを記録するメモリ素子が安価になることに伴い大量の音声データを容易に入手することが可能になった。それらの音声データを音声認識する際に、音声データの品質によって認識精度や認識処理時間が大きく変動する問題が発生する。
音声データの音声品質が悪いと、ビーム探索アルゴリズムで探索した音声認識結果候補(仮説)の内の最尤の仮説とのスコア差が小さくなりビーム探索による枝刈りの効きが悪く処理速度が増加してしまう場合がある。ビーム探索アルゴリズムとは、フレーム毎に最も高い累積尤度(音響モデルの尤度と言語モデルの尤度の和)から最終的に最も累積尤度が高い認識結果の存在をおおよそ保証できる所定の範囲(探索ビーム幅)の音声認識結果候補(仮説)を残しながら探索する手順である。
この問題を解決する音声認識装置として、例えば、音声認識処理の前に音声信号の事前信頼度スコアを求め、その事前信頼度スコアの値が低い音声信号に対する音声認識処理を行わないようにした音声認識装置900(特許文献1)が知られている。図14を参照して音声認識装置900の動作を簡単に説明する。
音声認識装置900は、A/D変換部90、特徴量分析部91、事前信頼度スコア計算部92、音響モデルパラメータメモリ93、言語モデルパラメータメモリ94、音声認識処理部95、を備える。A/D変換部90は、音声信号を、例えばサンプリング周波数16kHzで離散値化して音声ディジタル信号に変換する。なお、破線は、音声ディジタル信号が直接入力される場合はA/D変換部90が不要であることを意味している。
特徴量分析部91は、音声ディジタル信号を入力として、例えば320個の音声ディジタル信号を1フレーム(20ms)としたフレーム毎に、音声特徴量系列を出力する。音声特徴量としては、例えば、MFCC(Mel-Frequenct Cepstrum Coefficient)の1〜12元と、その変化量であるΔMFCC等の動的パラメータや、パワーやΔパワー等を用いる。また、さらにケプストラム平均正規化(CMN)等の正規化処理を加えた音声特徴量を用いる場合もある。
事前信頼度スコア計算部92は、フレーム毎の音声特徴量系列を入力として、モノフォンの最尤状態の出力確率と音声モデル又はポーズモデル(に含まれるGMM)の中の最尤状態との差を当該フレームの事前信頼度とし、その事前信頼度を音声ファイル単位で平均した信頼度スコアを出力する。
音声認識処理部95は、音響モデルパラメータメモリ93に記録された音響モデルと、言語モデルパラメータメモリ94に記録された言語モデルとを参照して、音声特徴量系列について音声認識処理を行う。その際、音声ファイルの信頼度スコアの値に応じて音声認識処理の実行の有無を切り替える。
モノフォンの音響モデルを用いて求めた事前信頼度は、音声認識結果から信頼度スコアを求める方法に比べて計算量が少なくて済む。その信頼度スコアの値が低い、つまり音声認識精度が低い音声ファイルの認識処理を行わないことで、複数の音声ファイルの音声認識処理の処理効率を向上させることが出来る。
特開2011−112963号公報
しかし、従来の方法は、探索ビーム幅を変えず(固定)に信頼度スコアの値の低い音声ファイルの認識処理を行わないことで、認識処理時間の増加を抑制する考えである。したがって、認識処理が行われ無い音声ファイルが残存してしまう課題がある。また、全ての音声ファイルを音声認識しようとすると上記したように認識処理時間が膨大となる課題がある。また、音声認識処理に必要な認識処理時間の見積もりができず、必要な計算機リソースの事前確保が困難である等の課題がある。
この発明は、このような問題点に鑑みてなされたものであり、高速に事前推定した推定値に基づいて探索ビーム幅を可変して認識処理時間を制御するようにした音声認識方法と、その装置とプログラムを提供することを目的とする。
この発明の音声認識方法は、特徴量分析過程と、スコアレンジ計算過程と、認識処理制御過程と、音声認識処理過程と、を備える。特徴量分析過程は、入力される音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する。スコアレンジ計算過程は、音声特徴量系列を入力として、当該音声特徴量系列に対するモノフォン最尤スコアと最もスコアの低いモノフォン最低スコアを求め、その差分を音響スコアレンジとして計算し、当該音響スコアレンジを時間方向に平均した音響スコアレンジRを出力する。認識処理制御過程は、外部から入力されるスコアレンジ基準Rと音響スコアレンジRを入力として、音響スコアレンジRをスコアレンジ基準Rで除した値に基づくスコアビーム変動係数kを計算して出力する。音声認識処理過程は、音声特徴量系列とスコアビーム変動係数kを入力として、スコアビーム変動係数kの値に応じて探索ビーム幅を可変して音声認識処理を行う。
この発明の音声認識方法は、音声データの品質に対応させて探索ビーム幅を可変して認識処理を行う。よって、音声品質の悪い音声ディジタル信号の認識処理を行う際の探索ビーム幅を、音声品質の良い音声ファイルに対する探索ビーム幅よりも小さく可変することで、音声認識処理時間の増加を抑制することが出来る。つまり、音声品質の悪い音声ディジタル信号を適当な精度で音声認識処理することが可能である。また、スコアビーム変動係数kの値と認識処理時間との関係に着目することで、必要な認識処理時間を見積もることも可能になる効果を奏する。
正規分布を対数化した尤度y=f(x)の分布を示す図。 図1の縦軸と横軸を入れ替えて、横軸を尤度y、縦軸を特徴量xとおいた逆関数を示す図。 スコア差ΔL(x)を示す図。 特徴量xcleanと特徴量xnoisy付近のスコア差ΔL(x)を拡大して示す図。 高品質(clean)な音声に対する尤度分布と低品質(noisy)な音声に対する尤度分布の形状を示す図。 この発明の音声認識装置100の機能構成例を示す図。 音声認識装置100の動作フローを示す図。 スコアレンジ計算部10の機能構成例を示す図。 この発明の音声認識装置200の機能構成例を示す図。 認識処理する音声データ量と認識処理時間との関係を例示する図。 音声認識処理部60と実測認識処理部70の動作フローを示す図。 文字認識率とSN比との関係の評価実験結果を示す図。 実時間比とSN比との関係の評価実験結果を示す図。 従来の音声認識装置900の機能構成例を示す図。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。実施例の説明の前に、この発明の考えについて説明する。
〔この発明の考え方〕
この発明の音声認識方法は、簡単な処理で高速に音声ディジタル信号の音声品質を推定し、事前推定した音声品質に対応させて探索ビーム幅を設定して認識処理を行う全く新しい考えに基づくものである。音声ディジタル信号の音声品質を推定する方法を詳しく説明する。
図1に、正規分布を対数化した尤度y=f(x)の分布を示す。横軸は特徴量、縦軸は尤度(認識スコア)である。式(1)に示す最大尤度ymaxは、尤度分布の頂点に当たる。
この尤度分布を、例えば音素「ア」の特徴量xを与えると高い認識スコアを出す尤度分布であると仮定する。音素「ア」の音声品質が良好な場合は、その特徴量xはGMMの分布の頂点付近に集中し高い認識スコアが得られる。一方、同じ音素「ア」でも、音声品質が悪いと尤度分布の裾の方に特徴量xが分布するので認識スコアは低くなる。
スコアビーム幅が固定の場合、音声品質が悪いと認識スコアの差が出難くなるので、認識過程における仮説(以下、音声認識結果候補とも称する)数(枝の数)の削減(「枝刈り」とも称する)が行われ難くなるので、多くの仮設数が残り続けるため時間が掛かることになる。スコアビーム幅とは、探索ビーム幅に概念上含まれる文言であり、スコアに対応させた探索ビーム幅のことである。以降、「スコアビーム幅」の文言を用いて説明する。
このスコアビーム幅Bで枝刈りした後に生き残る仮説の割合は、y(h)>ythとなる範囲であり、スコアビーム幅が大きいと、対応する特徴量の範囲が広くなり小さな尤度の仮説が枝刈りされず残る事となる。ここで、スコアビーム幅Bで枝刈りをする場合の尤度の閾値ythは、式(2)で表せる。
y(h)>ythとなる範囲は、スコアビーム幅内に収まる尤度の総和、つまり面積Sで表せる。正規分布の拡がりは、分散(標準偏差)に依存するが、この面積Sの値が同一になるようにすれば異なる分散を持つ尤度分布であっても枝刈り後に生き残る仮説の割合が同一になり、処理速度も一定に保つ事が可能であると思われる。
面積Sを求める場合、図2に示すように図1の縦軸と横軸を入れ替えて、横軸を尤度y、縦軸を特徴量xとおいた逆関数(式3)を用いると簡単に積分により求めることが出来る(式(4))。ここでy^はスコア差である(図1参照)。
尤度分布は正規分布を対数化したものが通常用いられる(式(5))。簡単化のため、各音素は状態数1、分布数1として考える。
ここで、式(5)の第1項は尤度曲線の頂点ymaxに当たり、第2項が最大尤度ymaxとの差y^に当たる(式(6))。
ここで簡単のために式(7)とおくと、y^=αxとなる。
y^=αxから、xは式(8)となることから逆関数g(y^)(式(9))が求められる。
逆関数g(y^)の積分関数G(y^)を考えると式(10)となる。
式(10)を式(3)に代入すると面積Sは式(11)で表せる。
式(11)から面積Sは、分布の拡がり方に関わる係数αとスコアビーム幅Bに基づいて決まることが分かる。面積Sは逆関数を用いて求めたが、逆関数を用いないで面積Sを計算しても良い。例えば以下のように式変形して求めても良い。
y^=αxと、スコア差y^が2次関数で表現できることを説明したが、このスコア差は下に凸の2次関数となる。その根拠を式で説明する。最尤スコアLbestを式(13)と最低スコアLworstを式(14)で表して、そのスコア差ΔLを計算すると下記のようになる。
式(15)に示すようにスコア差ΔLは2次関数で表現できる。図3に、スコア差ΔL(x)を示す。点線で示す分布Aはある音素のGMMから得られる尤度分布である。一点鎖線で示す分布Bが他の音素のGMMから得られる尤度分布である。例えば、入力される特徴量に対して、最尤スコアを出力する分布Aを考える。分布Aに対応する音素が良好な音声品質で得られたと仮定すると、その特徴量xcleanに対応するスコア差ΔL(x)は、特徴量xcleanを通る破線と分布Aと分布Bとの交点部分の尤度差で与えられる。音質が悪い特徴量xnoisyで音素が得られた場合、その特徴量xnoisyに対応するスコア差ΔL(x)は、特徴量xcleanを通る破線と分布Aと分布Bとの交点部分の尤度差で与えられる。そのようにして求められるスコア差ΔL(x)を、図3に実線で示す。
図4に、特徴量xcleanと特徴量xnoisy付近のスコア差ΔL(x)を拡大して示す。式(15)を微分した傾きΔL′を式(16)に示す。
特徴量xclean付近の特徴量xに対するスコア差の傾きは大きく、特徴量xnoisy付近のスコア差の傾きは小さい。この特性からも、音声品質が悪いと枝刈りがし難くなることが分かる。
以上の考察の下、高品質(clean)な音声に対する尤度分布と低品質(noisy)な音声に対する尤度分布の形状は、図5に示すようになると考えられる。つまり、音声の品質によって尤度分布の分散に違いが出る。尤度分布の形状を2次曲線に例えて言えば、高品質な音声に対する尤度分布はその曲線の2次係数の値が大きく、低品質な音声に対する尤度分布の2次係数は相対的に小さい。
このことに着目して、基準となるスコアビーム幅BSbaseに対応する分布の拡がり方に関わる係数αbaseを予め決めておくことで、面積Sを等しくするスコアビーム幅αtaergetを求めることが出来る(式(17))。
ここで係数(式(19))を求める必要がある。
スコア差ΔL(x)=y^は、y^=αxで表せるようにαに比例する。したがって、尤度差の比率を見れば係数を求めることが可能である。そこで認識処理時間を高速化する目的でモノフォンに属する全状態の尤度を計測し、その最大値Lmax monoと最小値Lmin monoの差分ΔLmonoを元に係数(式(19))を計算する。すなわち差分ΔLmonoがαに比例するものと考える(式(20))。
従って、スコアビーム幅はモノフォンの全状態の尤度の差分を元に次式で決定することが可能である。
ここでBSbaseは基準となるスコアビーム幅、BStargetは求めたいスコアビーム幅である。基準となるスコアビーム幅BSbaseは、例えば予め開発用音声データベースを用いて調整を行ったものであり、従来のスコアビーム幅を固定して認識処理する場合のスコアビーム幅を用いる。
以上説明したように、モノフォン音響モデルから求めた音声ディジタル信号の尤度差からその音声品質を評価することが可能である。そして、その音声品質の評価結果を用いてスコアビーム幅を可変することで、例えば面積Sを一定にした音声認識処理を実現するのがこの発明の考えである。
図6に、この発明の音声認識装置100の機能構成例を示す。その動作フローを図7に示す。音声認識装置100は、特徴量分析部91と、スコアレンジ計算部10と、認識処理制御部20と、音声認識処理部30と、音響モデルパラメータメモリ93と、言語モデルパラメータメモリ94と、制御部40と、を具備する。特徴量分析部91と音響モデルパラメータメモリ93と言語モデルパラメータメモリ94は、従来の音声認識装置900と同じものである。アナログ信号の音声信号が入力される場合にA/D変換部90が設けられる点も、音声認識装置900と同じである。音声認識装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
音声認識装置100は、従来の音声認識装置900と比較してスコアレンジ計算部10と、認識処理制御部20を具備する点で新しい。以降の説明では、その異なる部分を中心に説明を行う。
特徴量分析部91は、入力される音声ディジタル信号の音声特徴量をフレーム単位(例えば1フレーム:20ms)で分析して音声特徴量系列を出力する(ステップS91)。スコアレンジ計算部10は、音声特徴量系列を入力として、当該音声特徴量系列に対するモノフォン最尤スコアと最もスコアの低いモノフォン最低スコアを求め、その差分をフレーム毎の音響スコアレンジとして計算し、当該音響スコアレンジを時間方向に平均した音響スコアレンジRを出力する(ステップS10)。
認識処理制御部20は、外部から入力されるスコアレンジ基準Rと音響スコアレンジRを入力として、音響スコアレンジRをスコアレンジ基準Rで除した値に基づくスコアビーム変動係数kを計算して出力する(ステップS20)。音声認識処理部30は、音声特徴量系列とスコアビーム変動係数kを入力として、スコアビーム変動係数kの値に応じてスコアビーム幅を可変して音声認識処理を行う(ステップS30)。
特徴量分析部91から音声認識処理部30の処理は、音声ディジタル信号の全てのフレームについての処理が終了するまで繰り返される(ステップS40)。この音声認識装置100の各部の動作及び繰り返し動作の制御は、制御部40が行う。なお、制御部40は、フレーム毎に処理するばかりでなく、音声ファイル単位や、発話単位毎に、上記した動作が繰り返されるように各部を制御しても良い。
音声認識装置100によれば、認識処理制御部20がフレーム毎に出力するスコアビーム変動係数kに応じてスコアビーム幅を適応的に可変して音声認識処理を行う。つまり、音声ディジタル信号の音声品質に対応させてスコアビーム幅を可変した認識処理を行うことが可能である。次に、各部の具体的な構成例を示して更に詳しく音声認識装置100の動作を説明する。
〔スコアレンジ計算部〕
図8に、スコアレンジ計算部10の機能構成例を示す。スコアレンジ計算部10は、音響スコアレンジ計算手段101と、音響スコアレンジ平均化手段102を備える。音響スコアレンジ計算手段101は、音声特徴量系列の各フレームの特徴量oに対するモノフォンHMM中のGMMから得られる出力確率(尤度)を計算し、モノフォンHMMのうち出力確率b(o)から得られたスコアlog(bs(o))が最も高い(最尤)状態のスコアをモノフォン最尤スコアlog(bSbest(o))とし、最も低い状態のスコアをモノフォン最低スコアlog(bSworst(o))として、例えばフレーム毎の音響スコアレンジr(o)を計算する(式(22))。
このとき、モノフォン最尤スコアおよびモノフォン最低スコアは当該フレーム内で選ぶこととするが、過去のフレームを含めた最尤・最低スコアを活用しても良い。
そして、音響スコアレンジ平均化手段102が、その差分r(o)を時間方向に平均化して音響スコアレンジRを計算する(式(23))。
この音響スコアレンジRは、上記したこの発明の考え方で述べたスコア差ΔLに相当する値であり、上記したαtargetに当たる。
〔認識処理制御部〕
認識処理制御部20は、外部から入力されるスコアレンジ基準Rと、スコアレンジ計算部10が出力する音響スコアレンジRを入力として、音声認識処理部30が認識処理をする際のスコアビーム幅を可変するスコアビーム変動係数kを計算して出力する(式(24))。
外部から入力されるスコアレンジ基準Rは、開発用音声データベースの音響スコアレンジRの平均値であり予め求めておく。開発用音声データベースとしては、音声認識対象の音声データと同じ種類の音声データを用いるのが望ましい。なお、経験的に良く用いる値をデフォルト値として用いても良い。
スコアレンジ基準Rは、認識処理速度を制御するパラメータとなる。スコアレンジ基準基準Rの値を大きくするとスコアビーム変動係数kは小さくなる。スコアレンジ基準Rの値を大きくするとスコアビーム変動係数kは大きくなる。後述する音声認識処理部30は、このスコアビーム変動係数kの値に応じてスコアビーム幅を、スコアビーム変動係数kが小で狭く、スコアビーム変動係数kが大で広くして音声認識処理を実行する。
〔音声認識処理部〕
音声認識処理部30は、音声特徴量系列oとスコアビーム変動係数kと、音響モデルパラメータメモリ93に記憶された音響モデルと、言語モデルパラメータメモリ94に記憶された言語モデルと、を入力として、上記スコアビーム変動係数kの値に応じてスコアビーム幅を可変して音声認識処理を行う。音声認識処理部30は、スコアビーム変動係数kの値に応じてスコアビーム幅を可変して認識処理を行う点が従来の音声認識処理部と異なる。
スコアビーム変動係数kに応じてスコアビーム幅を可変する際、過度なスコアビーム幅の変更は認識精度の大幅な劣化を招く場合がある。
そこで、スコアビーム変動係数kに制限を設けると良い。例えば、スコアビーム幅を狭くする方向のスコアビーム変動係数kの下限値を0.75とする。一方、スコアビーム幅を広くする方向のスコアビーム変動係数kの上限を1.0とすると、認識処理の処理時間の増加を抑制することが可能である。
スコアビーム幅は、基準とするスコアビーム幅BSbaseを例えば10とした場合には、スコアビーム変動係数k=1の時は例えば10、k=0.75の時は例えば0.75×10とする。なお、スコアビーム変動係数kの値を1以上にすることで認識精度を向上させることも可能である。基準とするスコアビーム幅BSbaseは、上記したように予め開発用音声データベースを用いて調整されたものであり、音声認識処理部30に予め設定しておいても良いし、外部から与えるようにしても良い。
上記した例では、スコアレンジ基準Rを、開発用音声データベースの音響スコアレンジRの平均値としたが、平均値の代わりに最大値を用いることで認識処理の処理時間を短縮することが出来る。なお、単純に最大値を用いると認識処理の動作が不安定になる場合も考えられる。そこで、音響スコアレンジRの平均値をμ、標準偏差をσとした時にμ+2σをスコアレンジ基準Rとしても良い。このように統計的に処理したスコアレンジ基準Rを用いることで認識処理の動作を安定化させることが出来る。
また、スコアレンジ基準Rを、音声区間に絞って決めることで、非音声区間の影響を排除することが可能である。つまり、非音声区間は他の音素の特徴量と大きく異なるので、枝刈りのされ方が変わってくる。スコアレンジ基準Rを、音声区間に絞って求めることで非音声区間の影響を排除した安定したスコアビーム幅の制御が可能となる。
図9に、この発明の音声認識装置200の機能構成例を示す。音声認識装置200は、上記した音声認識装置100に対して、更に音声データバッファ部50と実測認識処理部70を備える点で異なる。また、音声認識処理部60が、実測認識処理部70の出力する実測スコアビーム変動係数k′の値に応じた処理を行う点で異なる。
音声データバッファ部50は、音声認識対象の音声ディジタル信号を保持した後に当該音声ディジタル信号を経過時間順に出力すると共に、上記音声ディジタル信号の全体のデータ量情報Dtotalを出力する。実測認識処理部70は、スコアビーム幅情報BSprevと処理済音声データ量情報Dmeasureと、上記音声ディジタル信号の全体のデータ量情報Dtotalとを入力として、処理済時間Tmeasureを処理済音声データ量情報Dmeasureで除した実測実時間比RTFmeasureと、目標処理時間Ttotalから処理済時間Tmeasureを減算した時間を残りの音声データ量情報Dleftで除した目標実時間比RTFtargetとを計算し、実測実時間比RTFmeasureと目標実時間比RTFtargetとの比に依存する実測スコアビーム変動係数k′を計算して出力する。実測スコアビーム変動係数k′は後述する式(25)で計算する。音声ディジタル信号の全体のデータ量情報Dtotalは、予め実測認識処理部70に記憶されていても良いし、外部から設定するようにしても良い。
音声認識処理部60は、音声特徴量系列oとスコアビーム変動係数kと実測スコアビーム変動係数k′を入力として、スコアビーム変動係数kと実測スコアビーム変動係数k′の値に応じたスコアビーム幅情報BSprevを求めそのスコアビーム幅で音声認識処理を行い処理済音声データ量情報Dmeasureを計測し、音声認識結果とスコアビーム幅情報BSprevと処理済音声データ量情報Dmeasureを出力する。スコアビーム幅情報BSprevと処理済音声データ量情報Dmeasureは、実測認識処理部70に出力される。
図10に、音声認識装置200の認識処理する音声データ量Dtotalと、目標処理時間Ttotalとの関係を例示する。横軸は認識対象の音声認識対象の音声ディジタル信号のデータ量であり、縦軸はその音声ディジタル信号を音声認識処理した認識処理時間である。音声認識対象の音声ディジタル信号の音声品質が一定の水準に有れば、目標処理時間Ttotalを越えない範囲で認識処理時間は推移する。例えば、処理済時間Tmeasureは、原点と座標(Dtotal,Ttotal)を直線で結んだ直線を大きく越えない範囲で推移する。しかし、音声ディジタル信号の音声品質が一定の水準に達していない場合(音声品質が悪い場合)、上記したように探索ビームの枝刈りの効きが悪く認識処理時間が増大してしまい、図10中に破線で示すように認識処理時間が目標処理時間Ttotalをオーバーしてしまう。音声認識装置200は、音声認識処理の途中の実測の認識処理時間を元にして、音声ディジタル信号の全体のデータ量情報Dtotalを目標処理時間Ttotalで認識処理が終了するように処理速度を制御するようにしたものである。
認識処理時間をβ倍することを考える。上記したこの発明の考え方で説明したように、認識処理時間は面積Sに比例するので、式(17)をβ倍した式からスコアビーム変動係数kとβとの関係式を求める。
つまり、認識処理速度をβ倍にするには、スコアビーム幅はβ2/3倍にすれば良い。
そこで、実測認識処理部70は、所定の時間間隔で次式に示す計算によって実測スコアビーム変動係数k′を求め、その値を音声認識処理部60に出力する。
この時、βは目標とする目標実時間比RTFtargetと処理済の実測実時間比RTFmeasureの比から求める。また、直前まで使われていたスコアビーム幅が処理速度を決めるので、基準となるスコアビーム幅BSbaseとスコアビーム幅情報BSprevも計算に用いる。スコアビーム幅情報BSprevは、直前のスコアビーム幅を用いるか、または過去のスコアビーム幅を平均化したものを用いても良い。
図11に示す音声認識処理部60と実測認識処理部70の動作フローを参照して、音声認識装置200の動作を説明する。音声認識処理部60は、認識処理制御部20が出力するスコアビーム変動係数kに対応するスコアビーム幅BSprevを設定する(ステップS60)。例えば基準とするスコアビーム幅BSbaseをk倍(k=1)してスコアビーム幅BSprevをBSprev=10に設定する。
音声認識処理部60は、スコアビーム幅BSprev=10で認識処理を実行する(ステップS61)。そして、認識処理済データ量Dmeasureを集計する。集計するとは、認識処理済フレームを1フレーム加算することを意味する。スコアビーム幅BSprevと認識処理済データ量Dmeasureは実測認識処理部70に出力される。
実測認識処理部70は、認識処理済データ量Dmeasure若しくは他の計時手段から得た経過時間情報を元にスコアビーム幅BSprev=10での認識処理が所定時間実行されたか否かを判定する。所定時間に満たない場合は、スコアビーム幅BSprev=10での認識処理が繰り返される。
所定時間を経過した場合(ステップS70のY)、実測認識処理部70は実測スコアビーム変動係数k′(式(25))を計算して、音声認識処理部60に出力する(ステップS71)。ここで基準となるスコアビーム幅BSbaseは、予め開発用音声データベースを用いて決められた値であり、事前に音声認識処理部30に記憶させておいても良いし、外部から入力するようにしても良い。
音声認識処理部60は、実測スコアビーム変動係数k′に対応する新たなスコアビーム幅BSprevを設定する(ステップS63)。この時、例えばk′=0.75で有ったとすると新たなスコアビーム幅BSprevは例えばBSprev=0.75×10に設定される。音声認識処理部60は、新たに設定されたスコアビーム幅BSprev=0.75×10で認識処理を実行する(ステップS64)。そして、認識処理済データ量Dmeasureを集計する(ステップS65)。
実測認識処理部70は、新たなスコアビーム幅BSprev=0.75×10での認識処理が所定時間実行されたか否かを判定する(ステップS72)。所定時間に満たない場合は、スコアビーム幅BSprev=0.75×10での認識処理が継続される(ステップS72のN)。所定時間を経過した場合は、実測認識処理部70が実測スコアビーム変動係数k′を計算する処理から繰り返される(ステップS72のY)。
つまり、所定時間間隔を経過する度に、新たに実測スコアビーム変動係数k′が計算され、k′に対応するスコアビーム幅BSprevが更新される。このように、認識処理中のスコアビーム幅を適応的に制御することで、音声品質の異なる複数の音声信号を音声認識する処理を目標時間内に処理することが可能になる。
なお、図10に示した音声データ量Dtotalと目標処理時間Ttotalとの関係は、認識処理に必要なオーバーヘッド時間を含まない形で例示した。オーバーヘッド時間とは、認識処理に必要な音響・言語モデルのロード、アンロード等の時間であり、このオーバーヘッド時間を含めた時間を一般的に認識処理時間とする。したがって、オーバーヘッド時間を目標処理時間Ttotalに含めても良い。予めオーバーヘッド時間を計測しておき、それを処理済時間Tmeasureに含めて計算することで、オーバーヘッド時間を含めた認識処理時間の制御を容易に実現することが出来る。
なお、認識処理済データ量Dmeasureは、フレーム単位で全ての音声データを集計する例で説明を行ったが、音声・非音声判定結果を元にした音声区間に絞ってそのデータ量を集計しても良い。つまり、非音声区間のフレームは最初から処理対象外として扱っても良い。また、所定時間の間スコアビーム幅BSprevでの処理が継続される例で説明を行ったが、発話ごとにスコアビーム幅BSprevを変えるようにしても良い。
〔評価実験結果〕
この発明の音声認識装置の性能を確認する目的で、240個の音声ファイルを用いた音声認識実験を行った。図12に文字認識率とSN比との関係、図13に実時間比とSN比との関係を示す。横軸はSN比であり、縦軸は各SN比の音声ファイル240個を処理したそれぞれの値である。
文字認識率について、本発明の音声認識装置は、ベースライン(従来の音声認識装置)と同じ性能を示す(図12)。実時間比について、SN比が40〜20[dB]に低下するのにしたがってベースラインが増加するのに対して、本発明では実時間比が増加しない。SN比が20[dB]以下でベースラインと本発明の両者の実時間が低下しているのは、SN比が悪化し過ぎて無音に近づき音声と判定された区間が短くなってしまうためと考えられる。
このように、音声品質の劣化に対応させてスコアビーム幅を可変することで、認識率を悪化させずに認識処理の増加を抑制できることが分かる。
以上述べたように、簡単な処理で高速に音声ディジタル信号の音声品質を推定し、事前推定した音声品質に対応させてスコアビーム幅を設定して認識処理を行う全く新しい考えに基づく本発明の音声認識方法によれば、音声品質の悪い音声ディジタル信号の認識処理を行う際のスコアビーム幅を、音声品質の良い音声ファイルに対するスコアビーム幅よりも小さく可変することで、音声認識処理時間の増加を抑制することが出来る。つまり、音声品質の悪い音声ディジタル信号を適当な精度で音声認識処理することが可能である。
また、音声認識装置200で説明したようにスコアビーム変動係数k及び実測スコアビーム変動係数k′の値から音声認識処理に必要な処理時間を見積もることが出来る。したがって、その値から認識処理に必要な計算機リソースを適切に見積もることも出来る。また、音声品質が未知の大量の音声データに対する音声認識処理を、既存の計算機リソースを用いてある程度の精度で実行することが出来る効果も奏する。
なお、上記方法及び装置において説明した処理は、記載の順に従って時系列に実行され
るのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (8)

  1. 入力される音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する特徴量分析過程と、
    上記音声特徴量系列を入力として、当該音声特徴量系列に対するモノフォン最尤スコアと最もスコアの低いモノフォン最低スコアを求め、その差分を音響スコアレンジとして計算し、当該音響スコアレンジを時間方向に平均した音響スコアレンジRを出力するスコアレンジ計算過程と、
    外部から入力されるスコアレンジ基準Rと上記音響スコアレンジRを入力として、上記音響スコアレンジRを上記スコアレンジ基準Rで除した値に基づくスコアビーム変動係数kを計算して出力する認識処理制御過程と、
    上記音声特徴量系列と上記スコアビーム変動係数kを入力として、上記スコアビーム変動係数kの値に応じて探索ビーム幅を可変して音声認識処理を行う音声認識処理過程と、
    を備える音声認識方法。
  2. 音声認識対象の音声ディジタル信号を保持した後に当該音声ディジタル信号を経過時間順に出力すると共に、上記音声ディジタル信号の全体のデータ量情報を出力する音声データバッファ過程と、
    上記音声データバッファ過程が出力する音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する特徴量分析過程と、
    上記音声特徴量系列を入力として、当該音声特徴量系列に対するモノフォン最尤スコアと最もスコアの低いモノフォン最低スコアを求め、その差分を音響スコアレンジとして計算し、当該音響スコアレンジを時間方向に平均した音響スコアレンジRを出力するスコアレンジ計算過程と、
    外部から入力されるスコアレンジ基準Rと上記音響スコアレンジRを入力として、上記音響スコアレンジRを上記スコアレンジ基準Rで除した値に基づくスコアビーム変動係数kを計算して出力する認識処理制御過程と、
    スコアビーム幅情報BSprevと処理済音声データ量情報Dmeasureと、上記音声ディジタル信号の全体のデータ量情報とを入力として、処理済時間を上記処理済音声データ量情報で除した実測実時間比RTFmeasureと、目標処理時間から処理済時間を減算し
    た時間を残りの音声データ量情報で除した目標実時間比RTFtargetとを計算し、上記実測実時間比RTFmeasureと上記目標実時間比RTFtargetとの比に依存する実測スコアビーム変動係数k′を計算して出力する実測認識処理制御過程と、
    上記音声特徴量系列と上記スコアビーム変動係数kと上記実測スコアビーム変動係数k′を入力として、上記スコアビーム変動係数kと上記実測スコアビーム変動係数k′の値に応じた上記スコアビーム幅情報BSprevを求めそのスコアビーム幅で音声認識処理を行い上記処理済音声データ量情報Dmeasureを集計し、音声認識結果と上記スコアビーム幅情報BSprevと上記処理済音声データ量情報を出力する音声認識処理過程と、
    を備える音声認識方法。
  3. 請求項1又は2に記載した音声認識方法において、
    上記認識処理制御過程は、上記スコアビーム変動係数kを次式で、

    求める過程であることを特徴とする音声認識方法。
  4. 請求項2に記載した音声認識方法において、
    実測認識処理制御過程は、上記実測スコアビーム変動係数k′をスコアビーム幅の基準をBSbaseとして次式で、

    求める過程であることを特徴とする音声認識方法。
  5. 入力される音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する特徴量分析部と、
    上記音声特徴量系列を入力として、当該音声特徴量系列に対するモノフォン最尤スコアと最もスコアの低いモノフォン最低スコアを求め、その差分を音響スコアレンジとして計算し、当該音響スコアレンジを時間方向に平均した音響スコアレンジRを出力するスコアレンジ計算部と、
    外部から入力されるスコアレンジ基準Rと上記音響スコアレンジRを入力として、上記音響スコアレンジRを上記スコアレンジ基準Rで除した値に基づくスコアビーム変動係数kを計算して出力する認識処理制御部と、
    上記音声特徴量系列と上記スコアビーム変動係数kを入力として、上記スコアビーム変動係数kの値に応じて探索ビーム幅を可変して音声認識処理を行う音声認識処理部と、
    を具備する音声認識装置。
  6. 音声認識対象の音声ディジタル信号を保持した後に当該音声ディジタル信号を経過時間順に出力すると共に、上記音声ディジタル信号の全体のデータ量情報を出力する音声データバッファ部と、
    上記音声データバッファ部が出力する音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する特徴量分析部と、
    上記音声特徴量系列を入力として、当該音声特徴量系列に対するモノフォン最尤スコアと最もスコアの低いモノフォン最低スコアを求め、その差分を音響スコアレンジとして計算し、当該音響スコアレンジを時間方向に平均した音響スコアレンジRを出力するスコアレンジ計算部と、
    外部から入力されるスコアレンジ基準Rと上記音響スコアレンジRを入力として、上記音響スコアレンジRを上記スコアレンジ基準Rで除した値に基づくスコアビーム変動係数kを計算して出力する認識処理制御部と、
    スコアビーム幅情報BSprevと処理済音声データ量情報と、上記音声ディジタル信号の全体のデータ量情報とを入力として、処理済時間を上記処理済音声データ量情報で除した実測実時間比RTFmeasureと、目標処理時間から処理済時間を減算した時間を残りの音声データ量情報で除した目標実時間比RTFtargetとを計算し、上記実測実時間比RTFmeasureと上記目標実時間比RTFtargetとの比に依存する実測スコアビーム変動係数k′を計算して出力する実測認識処理制御部と、
    上記音声特徴量系列と上記スコアビーム変動係数kと上記実測スコアビーム変動係数k′を入力として、上記スコアビーム変動係数kと上記実測スコアビーム変動係数k′の値に応じた上記スコアビーム幅情報BSprevを求めそのスコアビーム幅で音声認識処理を行い上記処理済音声データ量情報Dmeasureを集計し、音声認識結果と上記スコアビーム幅情報BSprevと上記処理済音声データ量情報を出力する音声認識処理部と、
    を具備する音声認識装置。
  7. 請求項5又は6に記載した音声認識装置において、
    上記認識処理制御部は、上記スコアビーム変動係数kを次式で、

    求めることを特徴とする音声認識装置。
  8. 請求項1乃至4の何れかに記載した音声認識方法をコンピュータに実行させるためのプログラム。
JP2011262492A 2011-11-30 2011-11-30 音声認識方法とその装置とプログラム Active JP5538350B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011262492A JP5538350B2 (ja) 2011-11-30 2011-11-30 音声認識方法とその装置とプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011262492A JP5538350B2 (ja) 2011-11-30 2011-11-30 音声認識方法とその装置とプログラム

Publications (2)

Publication Number Publication Date
JP2013114202A JP2013114202A (ja) 2013-06-10
JP5538350B2 true JP5538350B2 (ja) 2014-07-02

Family

ID=48709756

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011262492A Active JP5538350B2 (ja) 2011-11-30 2011-11-30 音声認識方法とその装置とプログラム

Country Status (1)

Country Link
JP (1) JP5538350B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220246138A1 (en) * 2019-06-07 2022-08-04 Nippon Telegraph And Telephone Corporation Learning apparatus, speech recognition apparatus, methods and programs for the same
CN114627863B (zh) * 2019-09-24 2024-03-22 腾讯科技(深圳)有限公司 一种基于人工智能的语音识别方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0782357B2 (ja) * 1993-03-29 1995-09-06 株式会社エイ・ティ・アール自動翻訳電話研究所 適応的探索方法
JP4042176B2 (ja) * 1997-03-11 2008-02-06 三菱電機株式会社 音声認識方式
WO1999053477A1 (fr) * 1998-04-15 1999-10-21 Hitachi, Ltd. Systeme de reconnaissance vocale a micro-ordinateur parallele
JP4604424B2 (ja) * 2001-08-07 2011-01-05 カシオ計算機株式会社 音声認識装置及び方法、並びにプログラム
JP4922377B2 (ja) * 2009-10-01 2012-04-25 日本電信電話株式会社 音声認識装置とその方法と、プログラム

Also Published As

Publication number Publication date
JP2013114202A (ja) 2013-06-10

Similar Documents

Publication Publication Date Title
JP5411936B2 (ja) 音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体
JP5229234B2 (ja) 非音声区間検出方法及び非音声区間検出装置
JP6996570B2 (ja) 緊急度推定装置、緊急度推定方法、プログラム
JP5538350B2 (ja) 音声認識方法とその装置とプログラム
Vandecatseye et al. A fast, accurate and stream-based speaker segmentation and clustering algorithm.
JP4829871B2 (ja) 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体
JP5427140B2 (ja) 音声認識方法、音声認識装置及び音声認識プログラム
JP4922377B2 (ja) 音声認識装置とその方法と、プログラム
JP5961530B2 (ja) 音響モデル生成装置とその方法とプログラム
JP6526602B2 (ja) 音声認識装置、その方法、及びプログラム
JP4981850B2 (ja) 音声認識装置とその方法と、プログラムと記録媒体
JP5089651B2 (ja) 音声認識装置及び音響モデル作成装置とそれらの方法と、プログラムと記録媒体
JP5200080B2 (ja) 音声認識装置、音声認識方法、およびそのプログラム
JP5166195B2 (ja) 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体
KR101892736B1 (ko) 실시간 단어별 지속시간 모델링을 이용한 발화검증 장치 및 방법
JP2014092750A (ja) 音響モデル生成装置とその方法とプログラム
JP5496945B2 (ja) 話者分類装置、話者分類方法、プログラム
JP4843646B2 (ja) 音声認識装置とその方法と、プログラムと記録媒体
JP2010250161A (ja) 相違度利用型識別的学習装置とその方法、そのプログラム
JP5235849B2 (ja) 音声認識装置とその方法と、プログラム
US20190043530A1 (en) Non-transitory computer-readable storage medium, voice section determination method, and voice section determination apparatus
JP2009300716A (ja) 音声認識装置とその方法と、プログラムとその記録媒体
JP4690973B2 (ja) 信号区間推定装置、方法、プログラム及びその記録媒体
JP6618885B2 (ja) 音声区間検出装置、音声区間検出方法、プログラム
JP2020148899A (ja) 雑音抑圧装置、その方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130826

A977 Report on retrieval

Effective date: 20140224

Free format text: JAPANESE INTERMEDIATE CODE: A971007

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140311

A521 Written amendment

Effective date: 20140403

Free format text: JAPANESE INTERMEDIATE CODE: A523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Effective date: 20140422

Free format text: JAPANESE INTERMEDIATE CODE: A01

R150 Certificate of patent (=grant) or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5538350

Country of ref document: JP

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140428