JP5166195B2 - 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体 - Google Patents

音響分析パラメータ生成方法とその装置と、プログラムと記録媒体 Download PDF

Info

Publication number
JP5166195B2
JP5166195B2 JP2008264911A JP2008264911A JP5166195B2 JP 5166195 B2 JP5166195 B2 JP 5166195B2 JP 2008264911 A JP2008264911 A JP 2008264911A JP 2008264911 A JP2008264911 A JP 2008264911A JP 5166195 B2 JP5166195 B2 JP 5166195B2
Authority
JP
Japan
Prior art keywords
acoustic
adjustment parameter
output probability
score
acoustic analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008264911A
Other languages
English (en)
Other versions
JP2010096808A (ja
Inventor
哲 小橋川
義和 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008264911A priority Critical patent/JP5166195B2/ja
Publication of JP2010096808A publication Critical patent/JP2010096808A/ja
Application granted granted Critical
Publication of JP5166195B2 publication Critical patent/JP5166195B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、調整パラメータを用いて音響特徴量を求める音響分析パラメータ生成方法とその装置と、プログラムと記録媒体に関する。
近年、統計的手法に基づく音声認識技術は、色々な場面で使用されるようになって来た。よって、環境変動、特に雑音に対して頑健な音声認識技術の確立が重要な課題となっている。音声認識装置に雑音が重畳した音声信号が入力されると、その入力音声の音響特徴量の分布が変化し、音響モデルとのミスマッチが生じる。それが誤認識の原因となる。
従来の音声認識装置では、雑音抑圧を目的として調整パラメータを用いて音響分析特徴量の正規化を行う方法が用いられている。図14にその方法を用いた音声認識装置140の機能構成を示して簡単に説明する。音声認識装置140は、A/D変換部141、特徴量算出部142、言語モデルパラメータメモリ143、音響モデルパラメータメモリ144、音声認識部145、正解文メモリ146、精度評価部147、調整パラメータ管理部148、調整パラメータ記録部149を備える。
A/D変換部141は、入力されるアナログ信号の音声を、例えばサンプリング周波数16kHzで離散的なディジタル信号に変換する。特徴量算出部142は、離散値化された音声信号を入力として、調整パラメータ記録部149に記録された調整パラメータを用い、例えば320個の音声信号を1フレーム(20ms)としたフレーム毎に、音響特徴量を算出する。音響特徴量は、例えばメル周波数ケプストラム係数(MFCC)分析によって算出される。
音声認識部145は、音響特徴量と、言語モデルパラメータメモリ143と音響モデルパラメータメモリ144とからの言語モデルと音響モデルとを入力として、音響モデル内の状態尤度と、言語尤度の総和が最も高い音声認識結果候補を音声認識結果として出力する。精度評価部147は、音声認識された単語列と、正解文メモリ146に記録されたその単語列に対応する正解文とを比較して認識精度を評価する。
調整パラメータ管理部148は、事前に用意された複数の調整パラメータの全てについての認識精度値の中から、最も認識精度値が高い調整パラメータを求めて調整パラメータ記録部149に記録する。最も認識精度が高くなる調整パラメータに設定された後は、その調整パラメータを用いて音声認識が行われる。
このように調整パラメータを用いて音響モデルと音響特徴量とのミスマッチを減らす音響分析パラメータ生成方法を用いることで、雑音に対して頑健な音声認識装置とすることが出来る。この音響分析パラメータ生成方法は、例えば非特許文献1にスペクトルサブトラクション法として示されている。
松本 弘「雑音環境下の音声認識手法」、情報科学技術フォーラムFIT2003,平成15年9月10日
従来の音響分析パラメータ生成方法は、認識精度値を求めるのに正解文を必要とするので正解文を作成するコストが必要であった。また、単語単位、文章単位で認識精度を求めるので調整パラメータを求めるのに多くの処理時間を要し、応答性が悪化する問題点があった。また、正解文を必要とするのでメモリを消費してしまう問題点もあった。
この発明は、このような点に鑑みてなされたものであり、高速・省メモリ化できる音響分析パラメータ生成方法とその装置と、プログラムと記録媒体を提供することを目的とする。
この発明の音響分析パラメータ生成方法は、入力フレーム選択過程と、出力確率計算過程と、スコア計算過程と、スコア評価過程と、最適調整パラメータ候補記録過程と、調整パラメータ管理過程とを含む。入力フレーム選択過程は、入力される音声ディジタル信号の一部の区間に対する音響特徴量を、調整パラメータを用いてフレーム単位で算出する。出力確率計算過程は、フレーム単位の音響特徴量と音響モデルとを入力として、上記フレーム毎の各状態の出力確率を計算する。スコア計算過程は、上記出力確率の最尤状態系列を所定フレーム数に渡って累積して出力確率スコアを求める。スコア評価過程は、上記出力確率スコアを評価して上記出力確率スコアが最大になる上記調整パラメータを最適調整パラメータ候補として出力する。最適調整パラメータ候補記録過程は、上記最適調整パラメータ候補を記録する。調整パラメータ管理過程は、上記調整パラメータを複数個備え上記所定フレーム数に対して上記調整パラメータをそれぞれ出力した後に上記最適調整パラメータ候補を、音声認識処理における音響特徴量の算出に用いる調整パラメータとして、音声認識処理の前に出力する。
この発明の音響分析パラメータ生成方法は、入力フレーム選択過程においてスコア計算に用いる音声ディジタル信号の一部の区間を選択する。そして、選択した区間の音響特徴量と音響モデルとを用いてフレーム毎の各状態の出力確率を計算し、最尤状態系列を所定フレーム数に渡って累積して出力確率スコアを求め、出力確率スコアが最大になる調整パラメータを、それ以降に使用する最適調整パラメータとして出力する。したがって、従来法のように正解文を必要とせずに調整パラメータが生成できるので、正解文を用意するコストが発生しない。また、所定フレーム数単位で処理するので調整パラメータが短時間で求められ応答性が改善される。また、所定フレーム数単位の状態系列を保存するだけで良く、正解文も必要としないので装置のメモリ資源を消費しない効果を奏する。また、スコア計算に用いるフレーム数が限られるので従来法よりも計算時間を短縮する効果も奏する。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
図1にこの発明の音響分析パラメータ生成装置100を用いた音声認識装置200の機能構成例を示す。音声認識装置200は、音響分析パラメータ生成装置100の生成する調整パラメータを、音響特徴量の算出に用いて雑音抑圧するものである。音声認識装置200として特徴付けているA/D変換部70、特徴量算出部71、言語モデルパラメータメモリ72、音響モデルパラメータメモリ73、音声認識部74は、従来の音声認識装置700と同じものである。よって、その部分の説明は省略する。
音響分析パラメータ生成装置100とそれを含んだ音声認識装置200のそれぞれは、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
図2に音響分析パラメータ生成装置100の動作フローを示し、図1と図2を参照して音響分析パラメータ生成装置100の動作を説明する。音響分析パラメータ生成装置100は、出力確率計算部10と、スコア計算部11と、スコア評価部12と、最適調整パラメータ候補記録部13と、調整パラメータ管理部14とを備える。
出力確率計算部10は、調整パラメータ管理部14が出力する調整パラメータを用いて算出されたフレーム単位の音響特徴量と、音響モデルパラメータメモリ73に記録された音響モデルとを入力としてフレーム毎の各状態の出力確率を計算する(ステップS10)。音響モデルと各状態については後述する。
スコア計算部11は、出力確率の最尤状態系列を所定フレーム数に渡って累積して出力確率スコアを求める(ステップS11)。スコア評価部12は、出力確率スコアを評価して出力確率スコアが最大になる調整パラメータを最適調整パラメータ候補として出力する(ステップS12)。最適調整パラメータ候補記録部13は、その最適調整パラメータ候補を記録する(ステップS13)。
調整パラメータ管理部14は、複数の調整パラメータを備え、その複数の調整パラメータを、出力確率スコアを求めた所定フレーム数に対してそれぞれ出力した後に、最適調整パラメータ候補記録部13に記録された最適調整パラメータ候補を調整パラメータとして出力する(ステップS14)。つまり、全ての調整パラメータを、所定フレーム数に対して出力するまでの間、ステップS10〜ステップS14までの動作が繰り返される。
以上述べたように動作することで、所定フレーム数の単位で調整パラメータが更新されて音響特徴量が算出され、その音響特徴量に対応する最尤状態系列から出力確率スコアが求められる。そして、出力確率スコアが最大になる最適調整パラメータ候補が調整パラメータとして出力される。したがって、予め用意された調整パラメータの数にもよるが、所定フレーム数の整数倍の比較的短い時間で調整パラメータを最適化することが出来る。また、従来法のように正解文を必要とすることも無い。
ここで各状態と音素モデルについて図3と図4を用いて説明する。音響モデルを構成する音素モデルは、図3に示す状態によって構築される。各状態sは、混合正規分布Mとして表現される。混合正規分布Mは、例えば3つの正規分布、N(μ,U),N(μ,U),N(μ,U),重み係数c,c,cで構成される。μはベクトル、Uは行列である。
音素モデルは、状態sの数個〜十数個程度の確率連鎖によって構築される。図4に3状態で構成される音素モデルの概念図を一例として示す。図4に示す例は、left−to−right型HMM(Hidden Markov Model)と呼ばれるもので、3つの状態s(第1状
態)、s(第2状態)、s(第3状態)を並べたものであり、状態の確率連鎖(状態遷移)としては、自己遷移a11、a22、a33と、次状態へのa12、a23、a34からなる。この状態遷移系列の中で最も尤度の高い音素モデルの組み合わせが、音声認識結果として出力される。
状態sから得られる出力確率P(s,o(α))は式(1)で求められる。
Figure 0005166195
ここでoは調整パラメータαiを用いて求めたフレームtの音響特徴量、N(o
α);μms,Ums)は平均ベクトルμms,共分散行列Umsから計算されるスコア、cmsは重み係数、Mは状態sに属する分布数である。
図5に、状態sとフレームtとの時系列の関係を示す。横軸は時間経過でありフレーム番号で表す。縦軸は、各フレームの状態sである。各状態sは図3に示したように混合正規分布からなる。●は各フレーム内で出力確率スコアが最大になる最尤状態P(sbest,o(α))である。各フレームの最尤状態P(sbest,o(α))を時系列で見たのが、●を線で結んだ最尤状態系列である。
図6に、音響分析パラメータ生成装置100のより具体的な動作フローを示して更に詳しく説明する。調整パラメータ管理部14は、予め調整パラメータαを複数個備える。調整パラメータ管理部14が、例えば、0.8〜1.2の範囲を0.1の分解能で5種類の
調整パラメータαを持ち、例えば小さな値のパラメータから順に出力するものと仮定する。
音響分析パラメータ生成装置100が動作を開始すると、調整パラメータ管理部14は、調整パラメータα=0.8を出力する(ステップS140)。出力確率計算部10は、調整パラメータα=0.8を用いて算出された音響特徴量o(α)と音響モデル
μms,Umsとを入力として式(1)により出力確率を計算する(ステップS10)。スコア計算部11は、調整パラメータαに対する出力確率スコアSCORE(α)を式(2)で求める(ステップS110)。
Figure 0005166195
ここでTは認識対象データの時間長である所定フレーム数、sbest(t)はフレームtにおける最尤状態である(図5の●)。フレームtが所定フレーム数Tになるまで、ステップS10〜S11が繰り返される(ステップS111のN)。ここで、所定フレーム数Tは、認識対象データの時間長に限らず、計算量削減のため、認識対象データ長よりも短い時間長としても構わない。
スコア評価部12は、フレームtが所定フレーム数に達すると前回の出力確率スコアSCORE(αi-1)と、今回計算した出力確率スコアSCORE(α)とを比較する
(ステップS12)。最初の比較動作では、前回の出力確率スコアSCORE(αi-1
)が存在しない。よって、スコア評価部12は最適調整パラメータとして今回の調整パラメータαi(初回i=0なのでαと等価)を最適調整パラメータ候補として出力する(
ステップS12のY)。2回目以降の比較動作では、前回の出力確率スコアSCORE(αi-1)と最新の出力確率スコアSCORE(α)とを比較して、出力確率スコアの大きい方の調整パラメータを最適調整パラメータ候補として出力する(ステップS12のY又はN)。最適調整パラメータ候補記録部13は、スコア評価部12が出力する調整パラメータαを最適調整パラメータ候補として記録する(ステップS130又はS131)。
調整パラメータ管理部14は、出力確率計算過程(ステップS10)、スコア計算過程(ステップS11)、スコア評価過程(ステップS12)、最適調整パラメータ候補記録過程(ステップS13)の動作を、調整パラメータαが最終値になるまで繰り返す(ステップS141のN)。調整パラメータαは、最終値になるまでステップS143で次の調整パラメータαi+1に更新される。この例では、予め用意された調整パラメータαの種類が5種類であるので、ステップS143は4回繰り返される。調整パラメータ管理部14は、全ての調整パラメータαを出力した後、最適調整パラメータ候補記録部13に記録されている最適調整パラメータ候補を調整パラメータとして出力する。以上の動作により、調整パラメータ管理部14は、所定フレーム数内で出力確率スコアSCORE(α)を最大にする調整パラメータαを出力する(ステップS142)。
実施例2の音響分析パラメータ生成装置120は、計算対象状態取得部20を備える。実施例1を説明した図1中に計算対象状態取得部20を破線で示す。その動作フローを図2に示す。計算対象状態取得部20は、音響モデルパラメータメモリ73に記録された音響モデルの内、環境独立音素モデル(モノフォン)に絞って、その音素モデルのみを出力確率計算部10に出力する(ステップS20、図2)。この場合、出力確率計算部10と、スコア計算部11とはモノフォンのみについて処理を行う。
モノフォンのみについて処理を行うことで、計算量を削減することができる。実施例1の場合では、前後の音素環境を考慮した環境独立音素(トライフォン)や片側依存音素(バイフォン)を用いるため、その状態数はおおよそ2000状態である。音素数を30とした場合のトライフォンの音素数は30×30×30であり、バイフォンの音素数は2×30×30であるので最終的な音素数は計算上28800個になる。各音素の状態数を3とするとこの音素数に3を乗じた値が総状態数となる。しかし、存在しない音素や共有化することでおよそ2000状態程度に縮退させることができる。
この2000状態をモノフォンのみに絞ることで、音素数30×状態数3=90状態にすることが出来る。計算量は約90/2000×100=4.5%で済む。よって処理を
高速化できる。
また、更に、計算量を削減する方法として、音声GMMと無音モデルに対応する状態尤度を用いて出力確率計算部10が出力確率を計算するようにしても良い。通常、音声GMMは状態数1で表現されることが多く、また無音モデルを3状態とすると、合わせて4状態となり、モノフォンを用いた90状態から統計量を蓄積する方法に比べて更に計算量を削減することが可能である。
実施例2で、状態をモノフォンに絞ることで計算量を削減する例を説明した。その考えは、上記した図5において縦方向の状態数を減らして計算量を削減するものである。更に図5における横方向、つまり、時間軸上のフレームを選択することで計算量を削減する方法も考えられる。
図7にその方法による音響分析パラメータ生成装置700の機能構成例を実施例3として示す。音響分析パラメータ生成装置700は、音響分析パラメータ生成装置100に入力フレーム選択部70を追加した構成である。その動作フローを図8に示す。
入力フレーム選択部70は、信号選択部71と、特徴量算出部72とを備える。信号選択部71は、A/D変換部141でディジタル信号に変換された音声ディジタル信号を入力として、時間閾値Th(秒)に達するまで音声ディジタル信号の一部の区間を選択して選択音声信号とする(ステップS71)。時間閾値Thは例えば20秒程度の時間である。特徴量算出部72は、その選択音声信号の音響特徴量を、調整パラメータを用いてフレーム毎に算出する(ステップS72)。ステップS71とステップS72とから成る入力フレーム選択過程(ステップS70)は、音声ディジタル信号の一部のフレームに対する音響特徴量をフレーム単位で算出して、その音響特徴量のみを出力確率計算部10に出力する動作を行う。
出力確率計算部10、スコア計算部11、スコア評価部12、最適調整パラメータ候補記録部13、調整パラメータ管理部14は、その選択された音響特徴量のみに基づいて上記した音響分析パラメータ生成装置100と同じ動作を、複数の調整パラメータそれぞれについて行う(ステップS10〜ステップS14)。つまり、この実施例3も、実施例1と2と同様に最適調整パラメータの抽出に対して、音声認識精度ではなく、音響モデルと音響特徴量から得られる出力確率のみから計算されるスコアを用いて、最尤となる調整パラメータを最適調整パラメータとして得る。
実施例3は、信号選択部70が、時間閾値Th(秒)に達するまでの音声ディジタル信号のフレームをスコア計算対象区間として選択する点が新しい。選択されるフレーム数Fは、フレーム長をw、フレームシフト長をfsとするとF=(Th−w/2)/fsである。
音響分析パラメータ生成装置700は、音響モデル中の総状態数をS、調整パラメータの数をNとすると、S×F×N回の出力確率を計算することになる。したがって、信号選択部70が選択する信号区間によって、計算量を削減することができる。
信号選択の方法は、いくつか考えられる。図9に音声ディジタル信号の選択方法の例を示す。横軸は経過時間(秒)、縦方向は音声ディジタル信号の振幅である。図9(a)に示すように、音声ディジタル信号の先頭からTh秒間を選択しても良い。この方法では、音響分析パラメータ生成装置700及び、音響分析パラメータ生成装置700を音声認識装置に応用した場合において、先頭のTh秒間のみをスコア計算対象区間に用いるため、それぞれの機能の即時動作性(リアルタイム性)を確保することが可能である。
または、図9(b)に示すように、所定の時間幅の複数の信号区間を等間隔に選択して全体でTh秒(Th=a+b+…+n)となるように信号区間を選んでも良い。この方法では、音響分析パラメータが求められるまでに対象音声全体を取得するための時間経過を必要とするので、即時動作性を持たせることは出来ない。しかし、広い範囲の音声ディジタル信号から音響分析パラメータが求められるので、話者変化や環境変化に追従した音響分析パラメータを求めることが可能である。
なお、時間閾値Thは、信号選択部71に予め設定された値でも良いし、音響分析パラメータ生成装置700が動作する時に、使用者に入力を求めるようにしても良い。なお、時間閾値Th、フレーム長w、フレームシフト長fsとの関係によっては、フレームの数が整数に成らない場合もある。つまり、図9(a)のように音声ディジタル信号の先頭のTh秒間を選択する場合は、時間閾値Thの終端においてフレーム単位で音声ディジタル信号が選択出来なくなることがある。また、図9(b)の場合は、等間隔に音声ディジタル信号を選択する区間によって、始端と終端で同じ現象が起きることがある。フレーム長wに満たない音声ディジタル信号に対しては、その時間分、零を与えて処理する。
また、例えばΔMFCCやΔΔMFCCで動的に特徴量を求める際にも同様に問題である。例えば前後5フレームを使ってΔMFCCを計算する際にも、上記した理由により5個のフレームが揃わない場合がある。この場合は、不足するフレームは無いものとして計算するか、フレームの音声ディジタル信号を零として計算する。このような処理が、歪みの発生原因となる。そこで、動的特徴量を求める際に発生する歪みを防止した実施例4を次に説明する。
図10に実施例4の音響分析パラメータ生成装置110の機能構成例を示す。その動作フローを図11に示す。音響分析パラメータ生成装置110は、音響分析パラメータ生成装置700の入力フレーム選択部70が、入力フレーム選択部111に置き換わった点のみが異なる。
入力フレーム選択部111は、特徴量算出部82と、特徴量選択部112とを備える。特徴量算出部82は、調整パラメータ管理部14から入力される調整パラメータαiを用いて音声ディジタル信号のフレーム毎に音響特徴量を算出する(ステップS82)。特徴量選択部112は、一部の音響特徴量Oを選択して出力確率計算部10に出力する(ステップS112)。
この方法によれば、フレーム単位で特徴量ベクトルに変換された音響特徴量Oを、音響特徴量Oの単位で所定数選択して出力確率計算部10に出力するので、信号切り出しにおけるフレームの不安定性による歪みの発生が解消される。図12に音響特徴量Oを所定数選択する様子を模式的に示す。横方向は経過時間(秒)である。この例では、各フレームは、1/2フレームシフトによってフレームの前後半分ずつが隣のフレームと重なっている。例えば、等間隔に音響特徴量を選択して所定フレーム数とする。図12では、音響特徴量O,O,…と8個毎に選択されている。また、先頭の音響特徴量から所定のフレーム数をまとめて選択するようにしても良い。
音響特徴量Oの選択は、音声ファイルの時間長と時間閾値Thとの関係で行う。例えば、音声ファイルの時間長をL=30(秒)とし、時間閾値Th=10(秒)とすると、フレーム数をTh/L(10/30=1/3)倍にすれば良い。すなわち、3個に1個の割合で音響特徴量Oを選択するようにすれば良い。また、選択率Rを直接設定することで、音響特徴量Oを選択するようにしても良い。選択率Rによって、音響特徴量Oを選択するようにした特徴量選択部112の動作フローを図13に示し、特徴量選択過程の動作を説明する。
特徴量選択過程(ステップS112)は、始めにフレーム番号iとカウンタIncの初期化を行う(ステップS112a)。そして、非選択率Rd=1−Rを計算する(ステップS112b)。この例では、非選択率Rd=2/3である。カウンタIncを非選択率Rdで積算する(ステップS112c)。1回目のカウンタIncのカウント値は2/3である。
カウンタIncのカウント値が、1以上か否かを評価して1未満であれば当該フレームtの音響特徴量Oを出力確率計算用として記録する(ステップS112e)。若しくは、直ちにそのフレームの音響特徴量Oを出力確率計算部10に出力しても良い。ステップS112kでフレーム番号iが更新され、再び、カウンタIncに非選択率Rdが積算されてカウント値は4/3となる。今度は、カウンタIncのカウント値が1以上であるので、当該フレームtの音響特徴量Oを捨てる(ステップS112f)。
そして、カウンタIncから、カウンタIncのカウント値を整数化した値(int(Inc))を減算する(ステップS112g)。この例では、1/3がカウント値として残る。3回目のカウント値は、1/3+2/3=1となるので、再び当該フレームtの音響特徴量Oは捨てられ、カウント値は1−1=0となる。
4回目のカウント値は0+2/3=2/3となり、4個目のフレームtの音響特徴量Oは、出力確率計算用として記録される。つまり、選択率R=1/3とした場合は、音響特徴量O,O,O,…と、3個置きのフレームの音響特徴量が出力確率計算部10に出力される。例えば選択率RをR=2/5とすると、音響特徴量がO〜Oの範囲においては、OとOの2個の音響特徴量が出力確率計算部10に出力されるようになる。このように図13に示す特徴量選択過程によれば、音響特徴量Oの単位で所定の音声ディジタル信号を選択することが可能である。よって、動的特徴量を求める際のフレームの不安定性による歪みの発生を防止することが出来る。
選択率Rは、上記したように時間閾値Thとファイルの時間長から求めても良いし、選択率Rを直接、特徴量選択部112に入力するようにしても良い。選択率Rを直接与える場合は、ファイルの時間長が不明の場合でも、音響特徴量の選択が可能である。また、発話終了を待つ必要がなく即時動作性もあり、音声ファイルの後半の話者変化や環境変化にも対応が可能である。なお、実施例3と4に示した時間軸方向に信号を選択する方法は、実施例1と2のどちらにも適用することが可能である。
また、調整パラメータの最適化は、音響特徴量のフレーム数が少ない場合に正確に行えない可能性がある。このような場合、予め定められた最小時間長Tmin(例えば1秒程度)以下の短い音声ディジタル信号入力に対しては、調整パラメータ管理過程を行わず、予め設定したデフォルト値αdef(例えば1.0など)を設定する方法も考えられる。デフォルト値αdefを、最も頻度の高い調整パラメータに設定して置くことにより、短い音声ディジタル信号入力に対する調整パラメータの設定誤りを低減することが出来る。また、この場合、処理時間を削減出来るので、高速化にも貢献する。
この発明の技術思想に基づく音響分析パラメータ生成方法とその装置は、上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。上記した装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、この発明の音響分析パラメータ生成装置は、声道長正規化に関する調整パラメータ等、他の目的の音響特徴量に関する調整パラメータの最適化に関して利用することも可能である。また、この発明の音響分析パラメータ生成方法は、音声認識装置への応用が可能であり、高速・省メモリ化した音声認識装置が実現出来る。なお、この発明の音響特徴量を選択する考え方は、音声認識装置の音響モデルの学習や教師無し適応に用いることも可能である。
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM
(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R
(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてフラッシュメモリー等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
この発明の音響分析パラメータ生成装置100,120を用いた音声認識装置200の機能構成例を示す図。 音響分析パラメータ生成装置100,120の動作フローを示す図。 音素モデルを構成する1状態を模式的に示す図。 音素モデルの一例を示す図。 フレームと状態sとの関係を模式的に示す図。 音響分析パラメータ生成装置100,120のより具体的な動作フローを示す図。 この発明の音響分析パラメータ生成装置700の機能構成例を示す図。 音響分析パラメータ生成装置700の動作フローを示す図。 音声ディジタル信号の選択方法の例を示す図であり、(a)は音声ディジタル信号の先頭からTh秒間を選択する例、(b)は複数の信号区間を選択して全体でTh秒となるように選択する例を示す図である。 この発明の音響分析パラメータ生成装置110の機能構成例を示す図。 音響分析パラメータ生成装置110の動作フローを示す図。 音響特徴量Oを所定数選択する様子を模式的に例示する図。 特徴量選択部112の動作フローの例を示す図。 従来の音声認識装置140の機能構成例を示す図。

Claims (11)

  1. 入力される音声ディジタル信号の一部の区間に対する音響特徴量を、調整パラメータを用いてフレーム単位で算出する入力フレーム選択過程と、
    上記フレーム単位の上記音響特徴量と音響モデルとを入力として、上記フレーム毎の各状態の出力確率を計算する出力確率計算過程と、
    上記出力確率の最尤状態系列を所定フレーム数に渡って累積して出力確率スコアを求めるスコア計算過程と、
    上記出力確率スコアを評価して上記出力確率スコアが最大になる上記調整パラメータを最適調整パラメータ候補として出力するスコア評価過程と、
    上記最適調整パラメータ候補を記録する最適調整パラメータ候補記録過程と、
    上記調整パラメータを複数個備え上記所定フレーム数に対して上記調整パラメータをそれぞれ出力した後に上記最適調整パラメータ候補を、音声認識処理における音響特徴量の算出に用いる調整パラメータとして、音声認識処理の前に出力する調整パラメータ管理過程と、
    を含む音響分析パラメータ生成方法。
  2. 請求項1に記載した音響分析方法において、
    上記調整パラメータは、声道長正規化に関する調整パラメータであり、0.8〜1.2の範囲の数値であることを特徴とする音響分析パラメータ生成方法。
  3. 請求項1又は2に記載した音響分析パラメータ生成方法において、
    上記入力フレーム選択過程は、
    入力される音声ディジタル信号の一部の区間を選択音声信号として出力する信号選択ステップと、
    調整パラメータを用いて上記選択音声信号の音響特徴量をフレーム毎に算出する特徴量算出ステップと、
    を含むことを特徴とする音響分析パラメータ生成方法。
  4. 請求項1又は2に記載した音響分析パラメータ生成方法において、
    上記入力フレーム選択過程は、
    調整パラメータを用いて上記音声ディジタル信号のフレーム毎に音響特徴量を算出する特徴量算出ステップと、
    上記音響特徴量の一部を選択して出力する特徴量選択ステップと、
    を含むことを特徴とする音響分析パラメータ生成方法。
  5. 請求項1乃至の何れかに記載した音響分析パラメータ生成方法において、
    上記入力フレーム選択過程は、予め定められた上記区間を選択することを特徴とする音響分析パラメータ生成方法。
  6. 請求項1乃至の何れかに記載した音響分析パラメータ生成方法において、
    上記入力フレーム選択過程は、予め定められた割合で上記区間を選択することを特徴とする音響分析パラメータ生成方法。
  7. 請求項1乃至の何れかに記載した音響分析パラメータ生成方法において、
    上記入力フレーム選択過程は、上記入力される音声ディジタル信号の先頭から上記区間を選択する過程であることを特徴とする音響分析パラメータ生成方法。
  8. 請求項1乃至の何れかに記載した音響分析パラメータ生成方法において、
    上記入力フレーム選択過程は、上記入力される音声ディジタル信号から等間隔に上記区間を選択する過程であることを特徴とする音響分析パラメータ生成方法。
  9. 入力される音声ディジタル信号の一部の区間に対する音響特徴量をフレーム単位で算出する入力フレーム選択部と、
    フレーム単位の音響特徴量と音響モデルとを入力として、上記フレーム毎の各状態の出力確率を計算する出力確率計算部と、
    上記出力確率の最尤状態系列を所定フレーム数に渡って累積して出力確率スコアを求めるスコア計算部と、
    上記出力確率スコアを評価して上記出力確率スコアが最大になる上記調整パラメータを最適調整パラメータ候補として出力するスコア評価部と、
    上記最適調整パラメータ候補を記録する最適調整パラメータ候補記録部と、
    上記調整パラメータを複数個備え上記所定フレーム数に対して上記調整パラメータをそれぞれ出力した後に上記最適調整パラメータ候補を、音声認識処理における音響特徴量の算出に用いる調整パラメータとして、音声認識処理の前に出力する調整パラメータ管理部と、
    を具備する音響分析パラメータ生成装置。
  10. 請求項1乃至の何れかに記載した音響分析パラメータ生成方法をコンピュータに機能させるための方法プログラム。
  11. 請求項10に記載した何れかの方法プログラムを記録したコンピュータで読み取り可能な記録媒体。
JP2008264911A 2008-10-14 2008-10-14 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体 Expired - Fee Related JP5166195B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008264911A JP5166195B2 (ja) 2008-10-14 2008-10-14 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008264911A JP5166195B2 (ja) 2008-10-14 2008-10-14 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体

Publications (2)

Publication Number Publication Date
JP2010096808A JP2010096808A (ja) 2010-04-30
JP5166195B2 true JP5166195B2 (ja) 2013-03-21

Family

ID=42258560

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008264911A Expired - Fee Related JP5166195B2 (ja) 2008-10-14 2008-10-14 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体

Country Status (1)

Country Link
JP (1) JP5166195B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106560891A (zh) * 2015-10-06 2017-04-12 三星电子株式会社 使用声学建模的语音识别设备和方法
US11096790B2 (en) 2016-04-11 2021-08-24 Joint Innovation Technology, Llc System and method for side insertion of a bicondylar mini knee implant

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06214596A (ja) * 1993-01-14 1994-08-05 Ricoh Co Ltd 音声認識装置および話者適応化方法
JP4461557B2 (ja) * 2000-03-09 2010-05-12 パナソニック株式会社 音声認識方法および音声認識装置
JP4864783B2 (ja) * 2007-03-23 2012-02-01 Kddi株式会社 パタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法
JP4843646B2 (ja) * 2008-06-16 2011-12-21 日本電信電話株式会社 音声認識装置とその方法と、プログラムと記録媒体

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106560891A (zh) * 2015-10-06 2017-04-12 三星电子株式会社 使用声学建模的语音识别设备和方法
US11176926B2 (en) 2015-10-06 2021-11-16 Samsung Electronics Co., Ltd. Speech recognition apparatus and method with acoustic modelling
CN106560891B (zh) * 2015-10-06 2022-03-08 三星电子株式会社 使用声学建模的语音识别设备和方法
US11096790B2 (en) 2016-04-11 2021-08-24 Joint Innovation Technology, Llc System and method for side insertion of a bicondylar mini knee implant

Also Published As

Publication number Publication date
JP2010096808A (ja) 2010-04-30

Similar Documents

Publication Publication Date Title
US10297247B2 (en) Phonotactic-based speech recognition and re-synthesis
JP2023041843A (ja) 音声区間検出装置、音声区間検出方法及びプログラム
WO2007046267A1 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
JP7191792B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP4829871B2 (ja) 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体
JPWO2018163279A1 (ja) 音声処理装置、音声処理方法、および音声処理プログラム
WO2019107170A1 (ja) 緊急度推定装置、緊急度推定方法、プログラム
JP5166195B2 (ja) 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体
JP5852550B2 (ja) 音響モデル生成装置とその方法とプログラム
JP5427140B2 (ja) 音声認識方法、音声認識装置及び音声認識プログラム
JP4922377B2 (ja) 音声認識装置とその方法と、プログラム
JP4843646B2 (ja) 音声認識装置とその方法と、プログラムと記録媒体
JP4729078B2 (ja) 音声認識装置とその方法と、プログラムとその記録媒体
JP4852129B2 (ja) 音声認識装置とその方法と、プログラム
JP5961530B2 (ja) 音響モデル生成装置とその方法とプログラム
JP5722295B2 (ja) 音響モデル生成方法と音声合成方法とそれらの装置とプログラム
JP4981850B2 (ja) 音声認識装置とその方法と、プログラムと記録媒体
JP6526602B2 (ja) 音声認識装置、その方法、及びプログラム
JP4962930B2 (ja) 発音評定装置、およびプログラム
JP5089651B2 (ja) 音声認識装置及び音響モデル作成装置とそれらの方法と、プログラムと記録媒体
JP5369079B2 (ja) 音響モデル作成方法とその装置とプログラム
JP4798606B2 (ja) 音声認識装置、およびプログラム
JP5066668B2 (ja) 音声認識装置、およびプログラム
JP5235849B2 (ja) 音声認識装置とその方法と、プログラム
JP2019028301A (ja) 音響信号処理装置、方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110106

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110810

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120306

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120501

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121211

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121220

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151228

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5166195

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees