JP5166195B2

JP5166195B2 - 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体

Info

Publication number: JP5166195B2
Application number: JP2008264911A
Authority: JP
Inventors: 哲小橋川; 義和山口
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2008-10-14
Filing date: 2008-10-14
Publication date: 2013-03-21
Anticipated expiration: 2028-10-14
Also published as: JP2010096808A

Description

この発明は、調整パラメータを用いて音響特徴量を求める音響分析パラメータ生成方法とその装置と、プログラムと記録媒体に関する。

近年、統計的手法に基づく音声認識技術は、色々な場面で使用されるようになって来た。よって、環境変動、特に雑音に対して頑健な音声認識技術の確立が重要な課題となっている。音声認識装置に雑音が重畳した音声信号が入力されると、その入力音声の音響特徴量の分布が変化し、音響モデルとのミスマッチが生じる。それが誤認識の原因となる。

従来の音声認識装置では、雑音抑圧を目的として調整パラメータを用いて音響分析特徴量の正規化を行う方法が用いられている。図１４にその方法を用いた音声認識装置１４０の機能構成を示して簡単に説明する。音声認識装置１４０は、Ａ/Ｄ変換部１４１、特徴量算出部１４２、言語モデルパラメータメモリ１４３、音響モデルパラメータメモリ１４４、音声認識部１４５、正解文メモリ１４６、精度評価部１４７、調整パラメータ管理部１４８、調整パラメータ記録部１４９を備える。

Ａ/Ｄ変換部１４１は、入力されるアナログ信号の音声を、例えばサンプリング周波数１６ｋＨｚで離散的なディジタル信号に変換する。特徴量算出部１４２は、離散値化された音声信号を入力として、調整パラメータ記録部１４９に記録された調整パラメータを用い、例えば３２０個の音声信号を１フレーム（２０ｍｓ）としたフレーム毎に、音響特徴量を算出する。音響特徴量は、例えばメル周波数ケプストラム係数（ＭＦＣＣ）分析によって算出される。

音声認識部１４５は、音響特徴量と、言語モデルパラメータメモリ１４３と音響モデルパラメータメモリ１４４とからの言語モデルと音響モデルとを入力として、音響モデル内の状態尤度と、言語尤度の総和が最も高い音声認識結果候補を音声認識結果として出力する。精度評価部１４７は、音声認識された単語列と、正解文メモリ１４６に記録されたその単語列に対応する正解文とを比較して認識精度を評価する。

調整パラメータ管理部１４８は、事前に用意された複数の調整パラメータの全てについての認識精度値の中から、最も認識精度値が高い調整パラメータを求めて調整パラメータ記録部１４９に記録する。最も認識精度が高くなる調整パラメータに設定された後は、その調整パラメータを用いて音声認識が行われる。

このように調整パラメータを用いて音響モデルと音響特徴量とのミスマッチを減らす音響分析パラメータ生成方法を用いることで、雑音に対して頑健な音声認識装置とすることが出来る。この音響分析パラメータ生成方法は、例えば非特許文献１にスペクトルサブトラクション法として示されている。
松本弘「雑音環境下の音声認識手法」、情報科学技術フォーラムＦＩＴ２００３,平成１５年９月１０日

従来の音響分析パラメータ生成方法は、認識精度値を求めるのに正解文を必要とするので正解文を作成するコストが必要であった。また、単語単位、文章単位で認識精度を求めるので調整パラメータを求めるのに多くの処理時間を要し、応答性が悪化する問題点があった。また、正解文を必要とするのでメモリを消費してしまう問題点もあった。
この発明は、このような点に鑑みてなされたものであり、高速・省メモリ化できる音響分析パラメータ生成方法とその装置と、プログラムと記録媒体を提供することを目的とする。

この発明の音響分析パラメータ生成方法は、入力フレーム選択過程と、出力確率計算過程と、スコア計算過程と、スコア評価過程と、最適調整パラメータ候補記録過程と、調整パラメータ管理過程とを含む。入力フレーム選択過程は、入力される音声ディジタル信号の一部の区間に対する音響特徴量を、調整パラメータを用いてフレーム単位で算出する。出力確率計算過程は、フレーム単位の音響特徴量と音響モデルとを入力として、上記フレーム毎の各状態の出力確率を計算する。スコア計算過程は、上記出力確率の最尤状態系列を所定フレーム数に渡って累積して出力確率スコアを求める。スコア評価過程は、上記出力確率スコアを評価して上記出力確率スコアが最大になる上記調整パラメータを最適調整パラメータ候補として出力する。最適調整パラメータ候補記録過程は、上記最適調整パラメータ候補を記録する。調整パラメータ管理過程は、上記調整パラメータを複数個備え上記所定フレーム数に対して上記調整パラメータをそれぞれ出力した後に上記最適調整パラメータ候補を、音声認識処理における音響特徴量の算出に用いる調整パラメータとして、音声認識処理の前に出力する。

この発明の音響分析パラメータ生成方法は、入力フレーム選択過程においてスコア計算に用いる音声ディジタル信号の一部の区間を選択する。そして、選択した区間の音響特徴量と音響モデルとを用いてフレーム毎の各状態の出力確率を計算し、最尤状態系列を所定フレーム数に渡って累積して出力確率スコアを求め、出力確率スコアが最大になる調整パラメータを、それ以降に使用する最適調整パラメータとして出力する。したがって、従来法のように正解文を必要とせずに調整パラメータが生成できるので、正解文を用意するコストが発生しない。また、所定フレーム数単位で処理するので調整パラメータが短時間で求められ応答性が改善される。また、所定フレーム数単位の状態系列を保存するだけで良く、正解文も必要としないので装置のメモリ資源を消費しない効果を奏する。また、スコア計算に用いるフレーム数が限られるので従来法よりも計算時間を短縮する効果も奏する。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

図１にこの発明の音響分析パラメータ生成装置１００を用いた音声認識装置２００の機能構成例を示す。音声認識装置２００は、音響分析パラメータ生成装置１００の生成する調整パラメータを、音響特徴量の算出に用いて雑音抑圧するものである。音声認識装置２００として特徴付けているＡ/Ｄ変換部７０、特徴量算出部７１、言語モデルパラメータメモリ７２、音響モデルパラメータメモリ７３、音声認識部７４は、従来の音声認識装置７００と同じものである。よって、その部分の説明は省略する。

音響分析パラメータ生成装置１００とそれを含んだ音声認識装置２００のそれぞれは、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

図２に音響分析パラメータ生成装置１００の動作フローを示し、図１と図２を参照して音響分析パラメータ生成装置１００の動作を説明する。音響分析パラメータ生成装置１００は、出力確率計算部１０と、スコア計算部１１と、スコア評価部１２と、最適調整パラメータ候補記録部１３と、調整パラメータ管理部１４とを備える。

出力確率計算部１０は、調整パラメータ管理部１４が出力する調整パラメータを用いて算出されたフレーム単位の音響特徴量と、音響モデルパラメータメモリ７３に記録された音響モデルとを入力としてフレーム毎の各状態の出力確率を計算する（ステップＳ１０）。音響モデルと各状態については後述する。

スコア計算部１１は、出力確率の最尤状態系列を所定フレーム数に渡って累積して出力確率スコアを求める（ステップＳ１１）。スコア評価部１２は、出力確率スコアを評価して出力確率スコアが最大になる調整パラメータを最適調整パラメータ候補として出力する（ステップＳ１２）。最適調整パラメータ候補記録部１３は、その最適調整パラメータ候補を記録する（ステップＳ１３）。

調整パラメータ管理部１４は、複数の調整パラメータを備え、その複数の調整パラメータを、出力確率スコアを求めた所定フレーム数に対してそれぞれ出力した後に、最適調整パラメータ候補記録部１３に記録された最適調整パラメータ候補を調整パラメータとして出力する（ステップＳ１４）。つまり、全ての調整パラメータを、所定フレーム数に対して出力するまでの間、ステップＳ１０〜ステップＳ１４までの動作が繰り返される。

以上述べたように動作することで、所定フレーム数の単位で調整パラメータが更新されて音響特徴量が算出され、その音響特徴量に対応する最尤状態系列から出力確率スコアが求められる。そして、出力確率スコアが最大になる最適調整パラメータ候補が調整パラメータとして出力される。したがって、予め用意された調整パラメータの数にもよるが、所定フレーム数の整数倍の比較的短い時間で調整パラメータを最適化することが出来る。また、従来法のように正解文を必要とすることも無い。

ここで各状態と音素モデルについて図３と図４を用いて説明する。音響モデルを構成する音素モデルは、図３に示す状態によって構築される。各状態ｓは、混合正規分布Ｍとして表現される。混合正規分布Ｍは、例えば３つの正規分布、Ｎ（μ_１，Ｕ_１），Ｎ（μ_２，Ｕ_２），Ｎ（μ_３，Ｕ_３），重み係数ｃ_１，ｃ_２，ｃ_３で構成される。μはベクトル、Ｕは行列である。

音素モデルは、状態ｓの数個〜十数個程度の確率連鎖によって構築される。図４に３状態で構成される音素モデルの概念図を一例として示す。図４に示す例は、left−ｔｏ−ｒｉｇｈｔ型ＨＭＭ（Hidden Markov Model）と呼ばれるもので、３つの状態ｓ_１（第１状
態）、ｓ_２（第２状態）、ｓ_３（第３状態）を並べたものであり、状態の確率連鎖（状態遷移）としては、自己遷移ａ_１１、ａ_２２、ａ_３３と、次状態へのａ_１２、ａ_２３、ａ_３４からなる。この状態遷移系列の中で最も尤度の高い音素モデルの組み合わせが、音声認識結果として出力される。

状態ｓから得られる出力確率Ｐ（ｓ，ｏ_ｔ（α_ｉ））は式（１）で求められる。

ここでｏ_ｔは調整パラメータα_iを用いて求めたフレームｔの音響特徴量、Ｎ（ｏ_ｔ（
α_ｉ）；μ_ｍｓ，Ｕ_ｍｓ）は平均ベクトルμ_ｍｓ，共分散行列Ｕ_ｍｓから計算されるスコア、ｃ_ｍｓは重み係数、Ｍ_ｓは状態ｓに属する分布数である。

図５に、状態ｓとフレームｔとの時系列の関係を示す。横軸は時間経過でありフレーム番号で表す。縦軸は、各フレームの状態ｓである。各状態ｓは図３に示したように混合正規分布からなる。●は各フレーム内で出力確率スコアが最大になる最尤状態Ｐ（ｓ_ｂｅｓｔ，ｏ_ｔ（α_ｉ））である。各フレームの最尤状態Ｐ（ｓ_ｂｅｓｔ，ｏ_ｔ（α_ｉ））を時系列で見たのが、●を線で結んだ最尤状態系列である。

図６に、音響分析パラメータ生成装置１００のより具体的な動作フローを示して更に詳しく説明する。調整パラメータ管理部１４は、予め調整パラメータα_ｉを複数個備える。調整パラメータ管理部１４が、例えば、０.８〜１.２の範囲を０.１の分解能で５種類の
調整パラメータα_ｉを持ち、例えば小さな値のパラメータから順に出力するものと仮定する。

音響分析パラメータ生成装置１００が動作を開始すると、調整パラメータ管理部１４は、調整パラメータα_ｉ＝０.８を出力する（ステップＳ１４０）。出力確率計算部１０は、調整パラメータα_ｉ＝０.８を用いて算出された音響特徴量ｏ_ｔ（α_ｉ）と音響モデル
μ_ｍｓ，Ｕ_ｍｓとを入力として式（１）により出力確率を計算する（ステップＳ１０）。スコア計算部１１は、調整パラメータα_ｉに対する出力確率スコアＳＣＯＲＥ（α_ｉ）を式（２）で求める（ステップＳ１１０）。

ここでＴは認識対象データの時間長である所定フレーム数、ｓ_ｂｅｓｔ（ｔ）はフレームｔにおける最尤状態である（図５の●）。フレームｔが所定フレーム数Ｔになるまで、ステップＳ１０〜Ｓ１１が繰り返される（ステップＳ１１１のＮ）。ここで、所定フレーム数Ｔは、認識対象データの時間長に限らず、計算量削減のため、認識対象データ長よりも短い時間長としても構わない。

スコア評価部１２は、フレームｔが所定フレーム数に達すると前回の出力確率スコアＳＣＯＲＥ（α_ｉ-１）と、今回計算した出力確率スコアＳＣＯＲＥ（α_ｉ）とを比較する
（ステップＳ１２）。最初の比較動作では、前回の出力確率スコアＳＣＯＲＥ（α_ｉ-１
）が存在しない。よって、スコア評価部１２は最適調整パラメータとして今回の調整パラメータα_i（初回ｉ＝０なのでα_０と等価）を最適調整パラメータ候補として出力する（
ステップＳ１２のＹ）。２回目以降の比較動作では、前回の出力確率スコアＳＣＯＲＥ（α_ｉ-１）と最新の出力確率スコアＳＣＯＲＥ（α_ｉ）とを比較して、出力確率スコアの大きい方の調整パラメータを最適調整パラメータ候補として出力する（ステップＳ１２のＹ又はＮ）。最適調整パラメータ候補記録部１３は、スコア評価部１２が出力する調整パラメータα_ｉを最適調整パラメータ候補として記録する（ステップＳ１３０又はＳ１３１）。

調整パラメータ管理部１４は、出力確率計算過程（ステップＳ１０）、スコア計算過程（ステップＳ１１）、スコア評価過程（ステップＳ１２）、最適調整パラメータ候補記録過程（ステップＳ１３）の動作を、調整パラメータα_ｉが最終値になるまで繰り返す（ステップＳ１４１のＮ）。調整パラメータα_ｉは、最終値になるまでステップＳ１４３で次の調整パラメータα_ｉ＋１に更新される。この例では、予め用意された調整パラメータα_ｉの種類が５種類であるので、ステップＳ１４３は４回繰り返される。調整パラメータ管理部１４は、全ての調整パラメータα_ｉを出力した後、最適調整パラメータ候補記録部１３に記録されている最適調整パラメータ候補を調整パラメータとして出力する。以上の動作により、調整パラメータ管理部１４は、所定フレーム数内で出力確率スコアＳＣＯＲＥ（α_ｉ）を最大にする調整パラメータα_ｉを出力する（ステップＳ１４２）。

実施例２の音響分析パラメータ生成装置１２０は、計算対象状態取得部２０を備える。実施例１を説明した図１中に計算対象状態取得部２０を破線で示す。その動作フローを図２に示す。計算対象状態取得部２０は、音響モデルパラメータメモリ７３に記録された音響モデルの内、環境独立音素モデル（モノフォン）に絞って、その音素モデルのみを出力確率計算部１０に出力する（ステップＳ２０、図２）。この場合、出力確率計算部１０と、スコア計算部１１とはモノフォンのみについて処理を行う。

モノフォンのみについて処理を行うことで、計算量を削減することができる。実施例１の場合では、前後の音素環境を考慮した環境独立音素（トライフォン）や片側依存音素（バイフォン）を用いるため、その状態数はおおよそ２０００状態である。音素数を３０とした場合のトライフォンの音素数は３０×３０×３０であり、バイフォンの音素数は２×３０×３０であるので最終的な音素数は計算上２８８００個になる。各音素の状態数を３とするとこの音素数に３を乗じた値が総状態数となる。しかし、存在しない音素や共有化することでおよそ２０００状態程度に縮退させることができる。

この２０００状態をモノフォンのみに絞ることで、音素数３０×状態数３＝９０状態にすることが出来る。計算量は約９０/２０００×１００＝４．５％で済む。よって処理を
高速化できる。

また、更に、計算量を削減する方法として、音声ＧＭＭと無音モデルに対応する状態尤度を用いて出力確率計算部１０が出力確率を計算するようにしても良い。通常、音声ＧＭＭは状態数１で表現されることが多く、また無音モデルを３状態とすると、合わせて４状態となり、モノフォンを用いた９０状態から統計量を蓄積する方法に比べて更に計算量を削減することが可能である。

実施例２で、状態をモノフォンに絞ることで計算量を削減する例を説明した。その考えは、上記した図５において縦方向の状態数を減らして計算量を削減するものである。更に図５における横方向、つまり、時間軸上のフレームを選択することで計算量を削減する方法も考えられる。

図７にその方法による音響分析パラメータ生成装置７００の機能構成例を実施例３として示す。音響分析パラメータ生成装置７００は、音響分析パラメータ生成装置１００に入力フレーム選択部７０を追加した構成である。その動作フローを図８に示す。

入力フレーム選択部７０は、信号選択部７１と、特徴量算出部７２とを備える。信号選択部７１は、Ａ/Ｄ変換部１４１でディジタル信号に変換された音声ディジタル信号を入力として、時間閾値Ｔｈ（秒）に達するまで音声ディジタル信号の一部の区間を選択して選択音声信号とする（ステップＳ７１）。時間閾値Ｔｈは例えば２０秒程度の時間である。特徴量算出部７２は、その選択音声信号の音響特徴量を、調整パラメータを用いてフレーム毎に算出する（ステップＳ７２）。ステップＳ７１とステップＳ７２とから成る入力フレーム選択過程（ステップＳ７０）は、音声ディジタル信号の一部のフレームに対する音響特徴量をフレーム単位で算出して、その音響特徴量のみを出力確率計算部１０に出力する動作を行う。

出力確率計算部１０、スコア計算部１１、スコア評価部１２、最適調整パラメータ候補記録部１３、調整パラメータ管理部１４は、その選択された音響特徴量のみに基づいて上記した音響分析パラメータ生成装置１００と同じ動作を、複数の調整パラメータそれぞれについて行う（ステップＳ１０〜ステップＳ１４）。つまり、この実施例３も、実施例１と２と同様に最適調整パラメータの抽出に対して、音声認識精度ではなく、音響モデルと音響特徴量から得られる出力確率のみから計算されるスコアを用いて、最尤となる調整パラメータを最適調整パラメータとして得る。

実施例３は、信号選択部７０が、時間閾値Ｔｈ（秒）に達するまでの音声ディジタル信号のフレームをスコア計算対象区間として選択する点が新しい。選択されるフレーム数Ｆは、フレーム長をｗ、フレームシフト長をｆｓとするとＦ＝（Ｔｈ−ｗ/２）/ｆｓである。

音響分析パラメータ生成装置７００は、音響モデル中の総状態数をＳ、調整パラメータの数をＮとすると、Ｓ×Ｆ×Ｎ回の出力確率を計算することになる。したがって、信号選択部７０が選択する信号区間によって、計算量を削減することができる。

信号選択の方法は、いくつか考えられる。図９に音声ディジタル信号の選択方法の例を示す。横軸は経過時間（秒）、縦方向は音声ディジタル信号の振幅である。図９（ａ）に示すように、音声ディジタル信号の先頭からＴｈ秒間を選択しても良い。この方法では、音響分析パラメータ生成装置７００及び、音響分析パラメータ生成装置７００を音声認識装置に応用した場合において、先頭のＴｈ秒間のみをスコア計算対象区間に用いるため、それぞれの機能の即時動作性（リアルタイム性）を確保することが可能である。

または、図９（ｂ）に示すように、所定の時間幅の複数の信号区間を等間隔に選択して全体でＴｈ秒（Ｔｈ＝ａ＋ｂ＋…＋ｎ）となるように信号区間を選んでも良い。この方法では、音響分析パラメータが求められるまでに対象音声全体を取得するための時間経過を必要とするので、即時動作性を持たせることは出来ない。しかし、広い範囲の音声ディジタル信号から音響分析パラメータが求められるので、話者変化や環境変化に追従した音響分析パラメータを求めることが可能である。

なお、時間閾値Ｔｈは、信号選択部７１に予め設定された値でも良いし、音響分析パラメータ生成装置７００が動作する時に、使用者に入力を求めるようにしても良い。なお、時間閾値Ｔｈ、フレーム長ｗ、フレームシフト長ｆｓとの関係によっては、フレームの数が整数に成らない場合もある。つまり、図９（ａ）のように音声ディジタル信号の先頭のＴｈ秒間を選択する場合は、時間閾値Ｔｈの終端においてフレーム単位で音声ディジタル信号が選択出来なくなることがある。また、図９（ｂ）の場合は、等間隔に音声ディジタル信号を選択する区間によって、始端と終端で同じ現象が起きることがある。フレーム長ｗに満たない音声ディジタル信号に対しては、その時間分、零を与えて処理する。

また、例えばΔＭＦＣＣやΔΔＭＦＣＣで動的に特徴量を求める際にも同様に問題である。例えば前後５フレームを使ってΔＭＦＣＣを計算する際にも、上記した理由により５個のフレームが揃わない場合がある。この場合は、不足するフレームは無いものとして計算するか、フレームの音声ディジタル信号を零として計算する。このような処理が、歪みの発生原因となる。そこで、動的特徴量を求める際に発生する歪みを防止した実施例４を次に説明する。

図１０に実施例４の音響分析パラメータ生成装置１１０の機能構成例を示す。その動作フローを図１１に示す。音響分析パラメータ生成装置１１０は、音響分析パラメータ生成装置７００の入力フレーム選択部７０が、入力フレーム選択部１１１に置き換わった点のみが異なる。

入力フレーム選択部１１１は、特徴量算出部８２と、特徴量選択部１１２とを備える。特徴量算出部８２は、調整パラメータ管理部１４から入力される調整パラメータα_iを用いて音声ディジタル信号のフレーム毎に音響特徴量を算出する（ステップＳ８２）。特徴量選択部１１２は、一部の音響特徴量Ｏ_ｔを選択して出力確率計算部１０に出力する（ステップＳ１１２）。

この方法によれば、フレーム単位で特徴量ベクトルに変換された音響特徴量Ｏ_ｔを、音響特徴量Ｏ_ｔの単位で所定数選択して出力確率計算部１０に出力するので、信号切り出しにおけるフレームの不安定性による歪みの発生が解消される。図１２に音響特徴量Ｏ_ｔを所定数選択する様子を模式的に示す。横方向は経過時間（秒）である。この例では、各フレームは、１/２フレームシフトによってフレームの前後半分ずつが隣のフレームと重なっている。例えば、等間隔に音響特徴量を選択して所定フレーム数とする。図１２では、音響特徴量Ｏ_０，Ｏ_８，…と８個毎に選択されている。また、先頭の音響特徴量から所定のフレーム数をまとめて選択するようにしても良い。

音響特徴量Ｏ_ｔの選択は、音声ファイルの時間長と時間閾値Ｔｈとの関係で行う。例えば、音声ファイルの時間長をＬ＝３０（秒）とし、時間閾値Ｔｈ＝１０（秒）とすると、フレーム数をＴｈ/Ｌ（１０/３０＝１/３）倍にすれば良い。すなわち、３個に１個の割合で音響特徴量Ｏ_ｔを選択するようにすれば良い。また、選択率Ｒを直接設定することで、音響特徴量Ｏ_ｔを選択するようにしても良い。選択率Ｒによって、音響特徴量Ｏ_ｔを選択するようにした特徴量選択部１１２の動作フローを図１３に示し、特徴量選択過程の動作を説明する。

特徴量選択過程（ステップＳ１１２）は、始めにフレーム番号ｉとカウンタIncの初期化を行う（ステップＳ１１２ａ）。そして、非選択率Ｒｄ＝１−Ｒを計算する（ステップＳ１１２ｂ）。この例では、非選択率Ｒｄ＝２/３である。カウンタIncを非選択率Ｒｄで積算する（ステップＳ１１２ｃ）。１回目のカウンタIncのカウント値は２/３である。

カウンタIncのカウント値が、１以上か否かを評価して１未満であれば当該フレームｔ_０の音響特徴量Ｏ_０を出力確率計算用として記録する（ステップＳ１１２ｅ）。若しくは、直ちにそのフレームの音響特徴量Ｏ_０を出力確率計算部１０に出力しても良い。ステップＳ１１２ｋでフレーム番号ｉが更新され、再び、カウンタIncに非選択率Ｒｄが積算されてカウント値は４/３となる。今度は、カウンタIncのカウント値が１以上であるので、当該フレームｔ_１の音響特徴量Ｏ_１を捨てる（ステップＳ１１２ｆ）。

そして、カウンタIncから、カウンタIncのカウント値を整数化した値（int（Inc））を減算する（ステップＳ１１２ｇ）。この例では、１/３がカウント値として残る。３回目のカウント値は、１/３＋２/３＝１となるので、再び当該フレームｔ_２の音響特徴量Ｏ_２は捨てられ、カウント値は１−１＝０となる。

４回目のカウント値は０＋２/３＝２/３となり、４個目のフレームｔ_３の音響特徴量Ｏ_３は、出力確率計算用として記録される。つまり、選択率Ｒ＝１/３とした場合は、音響特徴量Ｏ_０，Ｏ_３，Ｏ_６，…と、３個置きのフレームの音響特徴量が出力確率計算部１０に出力される。例えば選択率ＲをＲ＝２/５とすると、音響特徴量がＯ_０〜Ｏ_５の範囲においては、Ｏ_０とＯ_２の２個の音響特徴量が出力確率計算部１０に出力されるようになる。このように図１３に示す特徴量選択過程によれば、音響特徴量Ｏ_ｔの単位で所定の音声ディジタル信号を選択することが可能である。よって、動的特徴量を求める際のフレームの不安定性による歪みの発生を防止することが出来る。

選択率Ｒは、上記したように時間閾値Ｔｈとファイルの時間長から求めても良いし、選択率Ｒを直接、特徴量選択部１１２に入力するようにしても良い。選択率Ｒを直接与える場合は、ファイルの時間長が不明の場合でも、音響特徴量の選択が可能である。また、発話終了を待つ必要がなく即時動作性もあり、音声ファイルの後半の話者変化や環境変化にも対応が可能である。なお、実施例３と４に示した時間軸方向に信号を選択する方法は、実施例１と２のどちらにも適用することが可能である。

また、調整パラメータの最適化は、音響特徴量のフレーム数が少ない場合に正確に行えない可能性がある。このような場合、予め定められた最小時間長Ｔmin（例えば１秒程度）以下の短い音声ディジタル信号入力に対しては、調整パラメータ管理過程を行わず、予め設定したデフォルト値α_ｄｅｆ（例えば１.０など）を設定する方法も考えられる。デフォルト値α_ｄｅｆを、最も頻度の高い調整パラメータに設定して置くことにより、短い音声ディジタル信号入力に対する調整パラメータの設定誤りを低減することが出来る。また、この場合、処理時間を削減出来るので、高速化にも貢献する。

この発明の技術思想に基づく音響分析パラメータ生成方法とその装置は、上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。上記した装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

また、この発明の音響分析パラメータ生成装置は、声道長正規化に関する調整パラメータ等、他の目的の音響特徴量に関する調整パラメータの最適化に関して利用することも可能である。また、この発明の音響分析パラメータ生成方法は、音声認識装置への応用が可能であり、高速・省メモリ化した音声認識装置が実現出来る。なお、この発明の音響特徴量を選択する考え方は、音声認識装置の音響モデルの学習や教師無し適応に用いることも可能である。

また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ-ＲＡＭ
（Random Access Memory）、ＣＤ-ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ-Ｒ
（Recordable）/ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてフラッシュメモリー等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

この発明の音響分析パラメータ生成装置１００，１２０を用いた音声認識装置２００の機能構成例を示す図。音響分析パラメータ生成装置１００，１２０の動作フローを示す図。音素モデルを構成する１状態を模式的に示す図。音素モデルの一例を示す図。フレームと状態ｓとの関係を模式的に示す図。音響分析パラメータ生成装置１００，１２０のより具体的な動作フローを示す図。この発明の音響分析パラメータ生成装置７００の機能構成例を示す図。音響分析パラメータ生成装置７００の動作フローを示す図。音声ディジタル信号の選択方法の例を示す図であり、（ａ）は音声ディジタル信号の先頭からＴｈ秒間を選択する例、（ｂ）は複数の信号区間を選択して全体でＴｈ秒となるように選択する例を示す図である。この発明の音響分析パラメータ生成装置１１０の機能構成例を示す図。音響分析パラメータ生成装置１１０の動作フローを示す図。音響特徴量Ｏ_ｔを所定数選択する様子を模式的に例示する図。特徴量選択部１１２の動作フローの例を示す図。従来の音声認識装置１４０の機能構成例を示す図。

Claims

入力される音声ディジタル信号の一部の区間に対する音響特徴量を、調整パラメータを用いてフレーム単位で算出する入力フレーム選択過程と、
上記フレーム単位の上記音響特徴量と音響モデルとを入力として、上記フレーム毎の各状態の出力確率を計算する出力確率計算過程と、
上記出力確率の最尤状態系列を所定フレーム数に渡って累積して出力確率スコアを求めるスコア計算過程と、
上記出力確率スコアを評価して上記出力確率スコアが最大になる上記調整パラメータを最適調整パラメータ候補として出力するスコア評価過程と、
上記最適調整パラメータ候補を記録する最適調整パラメータ候補記録過程と、
上記調整パラメータを複数個備え上記所定フレーム数に対して上記調整パラメータをそれぞれ出力した後に上記最適調整パラメータ候補を、音声認識処理における音響特徴量の算出に用いる調整パラメータとして、音声認識処理の前に出力する調整パラメータ管理過程と、
を含む音響分析パラメータ生成方法。
請求項１に記載した音響分析方法において、
上記調整パラメータは、声道長正規化に関する調整パラメータであり、０．８〜１．２の範囲の数値であることを特徴とする音響分析パラメータ生成方法。
請求項１又は２に記載した音響分析パラメータ生成方法において、
上記入力フレーム選択過程は、
入力される音声ディジタル信号の一部の区間を選択音声信号として出力する信号選択ステップと、
調整パラメータを用いて上記選択音声信号の音響特徴量をフレーム毎に算出する特徴量算出ステップと、
を含むことを特徴とする音響分析パラメータ生成方法。
請求項１又は２に記載した音響分析パラメータ生成方法において、
上記入力フレーム選択過程は、
調整パラメータを用いて上記音声ディジタル信号のフレーム毎に音響特徴量を算出する特徴量算出ステップと、
上記音響特徴量の一部を選択して出力する特徴量選択ステップと、
を含むことを特徴とする音響分析パラメータ生成方法。
請求項１乃至４の何れかに記載した音響分析パラメータ生成方法において、
上記入力フレーム選択過程は、予め定められた上記区間を選択することを特徴とする音響分析パラメータ生成方法。
請求項１乃至４の何れかに記載した音響分析パラメータ生成方法において、
上記入力フレーム選択過程は、予め定められた割合で上記区間を選択することを特徴とする音響分析パラメータ生成方法。
請求項１乃至６の何れかに記載した音響分析パラメータ生成方法において、
上記入力フレーム選択過程は、上記入力される音声ディジタル信号の先頭から上記区間を選択する過程であることを特徴とする音響分析パラメータ生成方法。
請求項１乃至６の何れかに記載した音響分析パラメータ生成方法において、
上記入力フレーム選択過程は、上記入力される音声ディジタル信号から等間隔に上記区間を選択する過程であることを特徴とする音響分析パラメータ生成方法。
入力される音声ディジタル信号の一部の区間に対する音響特徴量をフレーム単位で算出する入力フレーム選択部と、
フレーム単位の音響特徴量と音響モデルとを入力として、上記フレーム毎の各状態の出力確率を計算する出力確率計算部と、
上記出力確率の最尤状態系列を所定フレーム数に渡って累積して出力確率スコアを求めるスコア計算部と、
上記出力確率スコアを評価して上記出力確率スコアが最大になる上記調整パラメータを最適調整パラメータ候補として出力するスコア評価部と、
上記最適調整パラメータ候補を記録する最適調整パラメータ候補記録部と、
上記調整パラメータを複数個備え上記所定フレーム数に対して上記調整パラメータをそれぞれ出力した後に上記最適調整パラメータ候補を、音声認識処理における音響特徴量の算出に用いる調整パラメータとして、音声認識処理の前に出力する調整パラメータ管理部と、
を具備する音響分析パラメータ生成装置。
請求項１乃至８の何れかに記載した音響分析パラメータ生成方法をコンピュータに機能させるための方法プログラム。
請求項１０に記載した何れかの方法プログラムを記録したコンピュータで読み取り可能な記録媒体。