JP2005004018A - Speech recognition apparatus - Google Patents

Speech recognition apparatus Download PDF

Info

Publication number
JP2005004018A
JP2005004018A JP2003168641A JP2003168641A JP2005004018A JP 2005004018 A JP2005004018 A JP 2005004018A JP 2003168641 A JP2003168641 A JP 2003168641A JP 2003168641 A JP2003168641 A JP 2003168641A JP 2005004018 A JP2005004018 A JP 2005004018A
Authority
JP
Japan
Prior art keywords
acoustic
likelihood
acoustic likelihood
speech recognition
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2003168641A
Other languages
Japanese (ja)
Inventor
Michihiro Yamazaki
道弘 山崎
Jun Ishii
純 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2003168641A priority Critical patent/JP2005004018A/en
Publication of JP2005004018A publication Critical patent/JP2005004018A/en
Abandoned legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a means for preventing a recognition rate from decreasing when speech recognition processing is performed for an analog speech signal having an instantaneous interruption section or an overflow section exceeding the input range of an A/D converter. <P>SOLUTION: Even when the analog speech signal has an instantaneous interruption section or an overflow section exceeding the input range of an A/D converter, a sound analysis part 3 is provided which calculates an input speech feature quantities from an analog speech signal remaining in the unstable section to perform speech recognition by using even the speech signal in the unstable section. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
この発明は、入力音声のパワーがA/D変換器の入力レンジを超えたり、瞬断が発生しうる環境にある場合においても、音声認識の精度を向上する音声認識装置に係るものであり、特に入力レンジを超えた区間又は瞬断区間の信号処理又は尤度算出処理を工夫することによって、音声認識の精度を向上する技術に関する。
【0002】
【従来の技術】
従来の技術によれば、瞬断・オーバーフローが生じている区間において、すべての認識基本単位(ある音響モデル中に記憶されているすべての音素または音韻、音節)に対して同じ音響尤度(以下、単に尤度と呼ぶ)を与えるようにしていた。このようにすることで、音声信号の歪んだ区間で正しい認識基本単位の尤度が低くなり、そのために正解語彙の尤度が低くなることによる誤認識を防いでいる(例えば、非特許文献1)。
【0003】
また、瞬断・オーバーフローに対処する技術ではないが、パワーの低い区間を無音区間として、無音区間の音声特徴量をパターン照合から除外する方法などもある(例えば、特許文献1や特許文献2)。
【0004】
【特許文献1】
特開2001−13988「音声認識方法及び装置」第2図、第3頁−第7頁
【特許文献2】
特開2000−194385「音声認識処理装置」
【非特許文献】
日本音響学会講演論文集(1999年9月〜10月 Vol.1 P149 3−Q−16)
【0005】
【発明が解決しようとする課題】
従来の技術による音声認識装置では、オーバーフロー区間や瞬断区間、無音区間に残存する音声の情報を使用しないため、高精度な音声認識を行うことが難しく、特にオーバーフロー区間や瞬断区間が長くなると認識率が低下するという問題があった。
【0006】
一方、これらの区間に残存する音声の情報は不安定であり、例えば、瞬断区間のようにサンプル値0のディジタル信号が連続した区間に対して音響分析を行うと音響分析に失敗するという問題があった。このような問題を回避するため、従来技術では、この区間直前の音響分析結果を繰り返して使用する方法もあった。しかしこの方法では、瞬断区間が長くなるにつれて、直前の音響分析結果との乖離が大きくなり、誤ったデータにより照合を行うことになるという問題があった。
【0007】
この発明は上記のような問題点を解決するためになされたもので、瞬断やオーバーフローがある音声に対しても高精度な音声認識を行うことを目的とする。
【0008】
【課題を解決するための手段】
この発明に係る音声認識装置は、アナログ音声信号を入力し、A/D変換器によりディジタル信号に変換して、このディジタル信号から入力音声特徴量を算出するとともに、前記入力音声特徴量に基づいて前記アナログ音声信号の音声認識結果を算出する音声認識装置であって、
前記アナログ音声信号に、不安定区間が存在する場合であっても、この不安定区間に残存する前記アナログ音声信号に基づいて前記入力音声特徴量を算出する前記音響分析手段を備えたことを特徴とするものである。
【0009】
ここで、不安定区間とは、音声認識装置の有するA/D変換器に入力されるアナログ音声信号に含まれる瞬断区間又は前記A/D変換手段の入力レンジを超えるオーバーフロー区間をいうものとする。
【0010】
【発明の実施の形態】
以下、この発明の実施の形態について説明する。
実施の形態1.
図1は、この発明の実施の形態1による音声認識装置の構成を示すブロック図である。図において、A/D変換器1は入力された音声のアナログ信号をディジタル信号に変換する素子又は回路であって、例えばサンプリング周波数を8kHz、ビット数分解能を16ビットとし、線形パルス符号化(Pulse Code Modulation :PCM)によって入力信号をディジタル化するものである。このサンプル値は式(1)によって与えられる値域に含まれる値をとる。
【数1】

Figure 2005004018
【0011】
図2は、A/D変換器1に入力されるアナログ信号を示した波形図である。図3は、図2によって示されるアナログ信号をディジタル変換した後の波形図である。図において、SmaxとSminはA/D変換器1の入力レンジの上限と下限を示すものである。図の破線で描かれた円101における信号の状況を拡大して示したのが、破線で描かれた円102であって、入力信号のうちSmaxを超える部分(オーバーフローしたサンプル)については、入力レンジの上限であるSmaxに平滑化されていることを示している。
【0012】
また図4は、図2に示されたアナログ信号波形において、瞬断が発生した場合の入力音声の波形を示す波形図である。この場合は、A/D変換器1の入力レンジとは関係なく、一定区間の間のサンプル値が存在しないこととなり、A/D変換器1は、その区間においてサンプル値が0の出力信号を出力することになる。
【0013】
引き続き、図1によって、この発明の実施の形態1による音声認識装置の構成を説明する。微小信号出力部2は、A/D変換器1の出力信号に微小信号(微小雑音)を重畳する素子又は回路である。音響分析部3は、微小信号(微小雑音)が重畳されたディジタル信号から、一定時間毎の信号を用いて、音声認識を行うための音声特徴量(入力音声特徴量)を出力する部位である。音響尤度演算部4は、認識基本単位毎の音声の標準パタン(標準音声特徴量)と音響分析部3から出力された音声特徴量とを比較し、認識基本単位毎の尤度を算出する部位である。
【0014】
音響モデル記憶部5は、音響尤度演算部4が尤度を算出する認識基本単位の音声標準パタンを記憶する記憶媒体又は記憶素子及び回路(記憶装置と総称する)から構成されるが、さらにこの記憶装置を管理・構成するコンピュータプログラムやコントローラを含んでいてもよい。
【0015】
また、照合部6は、この音声認識装置が基づいている語彙・言語モデルに従って、認識基本単位毎に算出された尤度から語彙の尤度を算出し、この語彙の尤度が最大となる語彙を認識候補として算出する部位である。語彙・言語モデル記憶部7は、照合部6が参照する語彙・言語モデルを記憶する記憶媒体又は記憶素子及び回路(記憶装置)であって、この記憶装置を管理・構成するコンピュータプログラムやコントローラまでをも含んでもよいという点については、音響モデル記憶部5と同様である。
【0016】
なおA/D変換器1はA/D変換手段、微小信号出力部2は微小信号出力手段、音響分析部は音響分析手段、音響尤度演算部4と音響モデル記憶部5は音響尤度演算手段、照合部6と語彙・言語モデル記憶部7は照合手段にそれぞれ相当する。
【0017】
次にこの発明の実施の形態1による音声認識装置の動作について説明する。A/D変換器1は、アナログ信号として入力された音声信号をディジタル信号に変換する。微小信号出力手段2は、A/D変換器1が出力したディジタル信号に微小な信号を重畳し出力する。このような微小信号を重畳する処理を、ここでは非0化と呼ぶこととする。微小信号としては、例えば、サンプル値の最大値が2程度の白色雑音を出力する。
【0018】
なお、A/D変換器1と微小信号出力部2とを直列に接続する他に、例えばA/D変換器1において、パワーを検知することによって、瞬断やオーバーフローが発生したことを検出し、その検出結果に基づいて、可動端子をA/D変換器1の出力と、微小信号出力部2の出力とのいずれかに接続するスイッチを設けるようにしてもよい。
【0019】
また、非0化の方法としては、例えばA/D変換器1と微小信号出力部2との接続位置を入れ替えて、微小信号出力部2の出力がA/D変換器1の入力となるようにしてもよい。このようにすると、常に微小信号出力部2の出力がA/D変換器1に入力され続けるので、瞬断が発生しても、A/D変換器1が出力するサンプル値は一定期間以上連続して0になることがない。
【0020】
続いて、音響分析部3は、微小信号出力部2から出力される微小な雑音を重畳された音声(ディジタル信号)に対して、一定時間(例えばフレーム周期=10msec)毎に、一定時間分(例えばフレーム長=25msec)のディジタル信号を用いて特徴量(例えばLPCケプストラム係数)を算出する。その結果、音響分析部3の出力Oは、例えば式(2)に示すように特徴量の時系列となる。
【数2】
Figure 2005004018
【0021】
なお、式(2)において、o(t)はt番目のフレームにおける特徴量であって、式3に示すように次元数Kのベクトルとなる。
【数3】
Figure 2005004018
【0022】
ここで、音声特徴量をLPCケプストラム係数とした場合のn次のLPCケプストラムo’(t,n)は、式(4)〜(6)によって算出される。
【数4】
Figure 2005004018
なお、α(i=1,2,…,Na)は線形予測係数であり、以下のように求める。
【0023】
すなわち、まず窓長(1フレーム内のサンプル数)をNsとし、t番目のフレームにおける1〜Ns番目の音声信号にフレームの外側では0であるような有限長の窓関数(ハミング窓など)を乗じた音声信号をx(t,i)(0≦i≦Ns−1)として、式(7)により、自己相関数列R,R、R、…、RNaを算出する。
【数5】
Figure 2005004018
【0024】
次に、αについての連立方程式である式(8)を解く。
【数6】
Figure 2005004018
式(8)を行列表示に直すと、式(9)となる。
【数7】
Figure 2005004018
ただし、r=R/Rとする。
【0025】
この式(9)による行列のToeplitz性を利用して、レビンソン・ダービン(Levinson−Durbin)の巡回解法によりαを求めることができる。なお、ここでは、各αについてn=1からn=Naまで巡回させて計算するが、m回目(ただし1≦m≦Na)の計算で得られたαをα (m)と表し、特にm=nのときk=a (n)と表記することとする。そうすると、まず初期値として、
【数8】
Figure 2005004018
として、次の漸化式からm=2、3、4…について、順に、k、a (m)、E(m)を計算する。
【数9】
Figure 2005004018
【0026】
式(11)において、mを順次大きくしていき、Naになったところで、この漸化式による計算を終了し、α(i=1,2,…,Na)が算出される。ところで、以上のLPCケプストラムの演算過程において、得られた音声信号がすべて0であるとすると、x=0(t=0,1,2,…,N−1)となるので、式(7)によって算出するRは、次式のように0となる。
【数10】
Figure 2005004018
【0027】
その結果、式(9)におけるr=R/Rを求めようとすると、0で除算することとなってしまい、rを計算できない。このことは、LPCケプストラムo’(t,n)を算出することができないことを意味している。すなわち、瞬断やオーバーフローによってA/D変換器1の出力が0となると、LPCケプストラムが算出できないために、音声特徴量の計算でエラーが生じる。0による除算は、通常の計算機システムではトラップの発生で処理されるような重大エラーとして扱われる。このため従来は、不安定区間に残存している音声信号を用いて安定的に音声認識することができない。これが従来における入力信号に不安定区間が存在する場合の音声認識処理の問題点であった。
【0028】
しかし実施の形態1による音声認識装置では、微小信号出力部2を設けることにより、このような問題を解決している。すなわち不安定区間において、A/D変換器1の出力が0となっても、微小信号出力部2が非0成分からなる微小信号を補うので、音響分析部3の入力音声信号は決して0になることがない。したがって、不安定区間が存在する入力音声信号に対して音声特徴量を安定的に算出するので、不安定区間に残存している音声信号から音声特徴量を求める演算を行っても、上記のような問題は生じない。
【0029】
なお、実施の形態1では微小信号出力部2を設けることで、物理的に非0化、すなわち入力信号が0とならないような対策を講じたが、このような方法の他に、例えば音響分析部3において、入力音声信号の所定の下位ビット、例えば最下位ビットを1にマスクして非0化する方法を採用してもよいことはいうまでもない。
【0030】
以上が音響分析部3の動作である。引き続き、実施の形態1による音声認識装置の動作について説明する。
【0031】
音響モデル記憶部5は、認識基本単位毎の標準的な特徴量を表す標準パタンを記憶している。HMM(Hidden Marcov Model)においては標準パタンはガウス分布で表されることが多い。なお以後の説明において、認識基本単位として音素を用いることとするが、音素の代わりに音韻、音節等を用いる場合であっても、処理の流れは何ら変わることがない。
【0032】
音響尤度演算部4は、音響分析部3が出力した音声の特徴量の時系列Oと、音響モデル記憶部5が記憶している例えば音素毎の標準パタンとを比較し、各フレームの各音素に対する尤度を演算する。フレームtにおける特徴量o(t)の音素pに対する尤度B(p,t)は、対角共分散行列を用いたガウス分布では、式(14)によって算出される。
【数11】
Figure 2005004018
【0033】
照合部6は、音響尤度演算部4で求めた尤度と、語彙・言語モデル記憶部7により記憶される各語彙の音素系列から各認識語彙の尤度を算出し、最終的に最も尤度が高くなる語彙を認識結果として出力する。すなわち音響分析部3が出力した音声特徴量の時系列Oに対して下記の式(15)を用いて音声認識結果W’を抽出する。
【数12】
Figure 2005004018
【0034】
式(15)において、第1項のP(O|W)は音響的な確率である。この確率は認識対象語彙Wを仮定して計算する。最近では音響的な確率を計算するためにHMMを用いることが多い。また、第2項のP(W)は仮定された語彙Wの確率を表すものであり、言語的な確率である。最近では言語的な確率を求めるために統計的言語モデルを用いることが多い。
【0035】
ここで状態遷移系列をq={q(0),q(1),....q(T)} (但し、q(0)は初期状態、q(T)は最終状態の集合Fの要素)としたとき、式5のP(O|W)は下記の式(16)で表すことができる。
【数13】
Figure 2005004018
【0036】
なお、式(16)において、πはi番目の状態の初期確率(π=1,π,…,π=0)、a(i,j)はi番目の状態からj番目の状態への遷移確率、b(i,t)は時刻(フレーム)tでのi番目の状態の尤度をあらわす。またFは最終状態の集合を表す。ここで、i番目の状態が音素pを表す状態ならばb(i,t)=B(p,t)である。
【0037】
このようにして、実施の形態1による音声認識装置は入力音声信号について最尤の音声認識結果を出力するのである。
【0038】
以上から明らかなように、実施の形態1の音声認識装置によれば、アナログ音声信号またはこのアナログ音声信号をディジタル変換して得たディジタル信号を非0化することで、入力されるアナログ音声信号中に不安定区間が存在しても安定的に音声特徴量を算出する。したがって不安定区間に残存する音声信号に基づいて音声認識を行えるようになり、その結果、オーバーフローや瞬断のある音声信号に対しても認識率の低下を防ぐことができる。
【0039】
なお、実施の形態1の構成要素中、A/D変換器1、微小信号出力部2、音響分析部3以外の構成要素をその他の構成要素に代えても、この発明の特徴を損なうことはない。
【0040】
また、A/D変換部1、微小信号出力部2、音響分析部3、音響尤度演算部4、照合部5をハードウェアで構成してもよいが、これらの処理を行う音声認識プログラムを作成し、コンピュータがこの音声認識プログラムを実行するようにしてもよい。
【0041】
実施の形態2.
実施の形態1では、不安定区間において音声特徴量の算出が行えない問題点を、入力信号に微小信号を重畳する、あるいはディジタル信号の下位ビットを1にマスクすることで解決し、安定的に音声特徴量を算出するようにして、不安定区間に残存する音声信号を利用できるようにした。実施の形態2では、このような不安定区間における尤度の信頼性が低いことに着目し、不安定区間以外の尤度を用いて、不安定区間の尤度を補正することで、不安定区間の音響尤度の信頼性を向上するものである。
【0042】
図5は、実施の形態2による音声認識装置の構成を示すブロック図である。図において図1と同一の符号を付した構成要素については、実施の形態1と同様であるので説明を省略する。不安定区間検出部8は、A/D変換器1において瞬断やオーバーフローが発生したか否かを検出する部位である。また、音響尤度補正部9は、不安定区間について音響尤度演算部4で算出された尤度を補正する部位であって、不安定区間検出部8との間に不安定区間か否かを通知するための信号線が設けられている。
【0043】
なお、音響尤度演算部4と音響モデル記憶部5、不安定区間検出部8は音響尤度演算手段、音響尤度補正部9は音響尤度補正手段、照合部6と語彙・言語モデル記憶部7、不安定区間検出部8は照合手段にそれぞれ相当する。
【0044】
次に、実施の形態2による音声認識装置の動作について説明する。A/D変換器1は、実施の形態1と同じようにアナログ音声信号をディジタル信号に変換する。不安定区間検出部8は、A/D変換器1の入力線のパワーを監視していて、不安定区間の検出、すなわち瞬断の発生やオーバーフローの発生を検出すると、音響尤度補正部9への信号線をHiにする。また不安定区間にない場合は、この信号線をLowのままとする。
【0045】
音響分析部3、音響尤度演算部4は実施の形態1と同様に作用し、フレームtごとに音声特徴量o(t)と、音素pに対する音響尤度B(p,t)の算出を行う。
【0046】
音響尤度補正部9は、不安定区間検出部8からの信号線がLowである場合には、音響尤度演算部4が算出した尤度B(p,t)をそのまま出力する。また、信号線がHiの場合、音響尤度補正部9は、音響尤度演算部4により算出された尤度を次のように補正する。すなわち、不安定区間が開始する時刻と終了する時刻の時間軸上の点を始点tsと終点teとして、式(18)によって尤度を補正する。
【数14】
Figure 2005004018
【0047】
ここでNは不安定区間の前後の尤度(不安定区間の始点直前に算出された尤度および終点直後に算出された尤度)を用いて補正することを許容する最大時間であり、Bthは予め定められた値である。すなわち、式(18)では、始点と終点から時間Nを超える時間だけ離れている区間(上記(C))では、一定値Bthとし、始点と終点から離れている時間が時間N以内の区間(上記(A)と(B))では、始点直前の尤度と終点直後の尤度、さらに(C)のBthに連続な尤度分布となる尤度を与えるようにしている。時間Nは、例えば40msecとするなど、音響分析のフレーム長を考慮して定められる。
【0048】
次に照合部6は実施の形態1と同様にして、式(15)を用いて最尤なる音声認識結果を算出する。以上が実施の形態2による音声認識装置の動作である。
【0049】
以上から明らかなように、実施の形態2の音声認識装置によれば、不安定区間の音響尤度を、その区間の前後の尤度に基づいて補正することとした。これにより、不安定区間の前後の音素の尤度が不安定区間の始点または終点近傍に反映されるようになるので、オーバーフローや瞬断による音声情報の不連続性を補うことによって、誤認識を防ぐことができる。
【0050】
また始点と終点から離れるにつれて、始点直前の尤度と終点直後の尤度の影響が小さくなると考えられ、さらに一定以上離れた中間区間においては、始点や終点の効果がなくなると考えられることから、一定値を尤度とすることとした。これによって、不安定区間が長い場合に、始点直前の尤度と終点直後の尤度が必要以上に効果を及ぼすことを回避できる。
【0051】
また、不安定区間においても尤度を補正しながら、その区間に残存する音声信号に基づいて音声認識を行うので、その結果、オーバーフローや瞬断のある音声信号に対しても認識率の低下を防ぐことができる。
【0052】
なお、式(18)による補正以外にも、始点直前の尤度と終点直後の尤度とを不安定区間の尤度に反映させる方法が考えられる。例えば、始点直前の尤度から終点直後の尤度に向かって単調増加、あるいは単調減少するような尤度分布を仮定し、このような尤度分布に基づいて、不安定区間の尤度を決定するようにしてもよい。このような方法によっても、オーバーフローや瞬断による音声情報の不連続性を補うことができるので、誤認識を防ぐことができる。
【0053】
また、実施の形態1で示したように、不安定区間の入力信号を非0化して、安定的に音声特徴量を算出する技術と組み合わせて構成するようにしてもよいことはいうまでもない。
【0054】
さらに、実施の形態2による音声認識装置では、不安定区間検出部8を設けることによって、A/D変換器1で瞬断やオーバーフローが発生していることを検知するようにした。しかし、この他にも、例えば音響分析部3において、A/D変換器1によるサンプル値が所定の下限値以下または未満であれば、瞬断と判断し、さらにサンプル値の絶対値が所定の値以上または超えていれば、オーバーフローと判断し、このようなサンプル値に基づいて音声特徴量を生成する場合に、特別なフラグなどを立てて、音響尤度演算部4や音響尤度補正部5において判断できるようにしておいてもよい。例えば実施の形態1で示した微小信号出力部2を備えるようにして、さらに微小信号出力部で2程度の微小信号を重畳するのであれば、下限値は2程度として整合を図るようにしてもよい。またA/D変換器1のビット数分解能が16ビットならば、−32768〜32767が値域となるので、サンプル値の絶対値が32767以上となった場合をオーバーフロー発生と判断するようにしてもよい。
【0055】
実施の形態3.
実施の形態2による音声認識装置は、不安定区間における音響尤度の補正によって、最尤音素(あるいは他の認識基本単位でもよい)を適切に選択し、誤認識を防ぐものであった。その他に、語彙との照合時に不安定区間における音響尤度の重み付けを低くする方法も考えられる。実施の形態3による音声認識装置は、このような原理によって動作するものである。
【0056】
図6は、実施の形態3による音声認識装置の構成を示すブロック図である。図において、図5と同じ符号を付した構成要素は、実施の形態2と同様であるので説明を省略する。図6から明らかなように、不安定区間検出部8からの信号線が照合部6に至っていることが図5との相違点である。なお、実施の形態3における不安定区間検出部8は、不安定区間か否かを検出するだけでなく、不安定区間についてはオーバーフロー区間と瞬断区間のいずれであるかについても検出することとし、信号線は3つの状態(例えばNormal:不安定区間でない、Hi:オーバーフロー、Low:瞬断)をとりうるものとする。
【0057】
次に実施の形態3による音声認識装置の動作について説明する。A/D変換器1、不安定区間検出部8、音響分析部3、音響尤度演算部4の動作については、実施の形態2と同様であるので説明を省略する。続いて、照合部10は、不安定区間検出部8の信号線がNormal、Hi、Lowのいずれでであるかによって、音響尤度演算部4で算出された音素毎の尤度の、入力音声信号全体の尤度算出における寄与度を設定し、その後、音素毎の尤度と語彙・言語モデル7と寄与度とを用いて照合し、認識結果を出力する。
【0058】
ここでフレームtにおけるフレーム寄与度をf(t)とした場合の式(15)における音響的確率P(O|W)は、式(19)によって与えられる。
【数15】
Figure 2005004018
またフレーム寄与度f(t)は次のようにする。
【数16】
Figure 2005004018
【0059】
ここでf1 、f2を一定の値とし、例えばf1=0.5、f2=0.1などのように設定する。この例ではオーバーフロー区間の尤度の全体の寄与度は通常区間の半分、瞬断区間の尤度の全体への寄与度は通常区間の1/10としている。
【0060】
また、時刻tの1フレーム内で最大値をオーバーしている信号の割合を、ピーク検出率と呼び、Po(t)で表すこととし、時刻tの1フレーム内で瞬断状態の信号の割合を、瞬断検出率と呼び、Pc(t)で表すこととすると、式(22)に示すように、フレーム寄与度f(t)は、オーバーフロー時にはピーク検出率Po(t)、瞬断時にはPc(t)としてもよい。
【数17】
Figure 2005004018
【0061】
さらに具体的にこれらの演算方法を示すと、例えば式(23)や式(24)に示すような方法が考えられる。
【数18】
Figure 2005004018
【数19】
Figure 2005004018
【0062】
この例では、ピーク検出率が一定値以下(0.05)の場合は、求めた尤度が信用できるためフレーム寄与度は1(通常時と同じ)とし、またピーク検出率が一定値(0.3)より大きくなった場合は、入力歪みが大きすぎて尤度演算が信用できないため、フレーム寄与度を0(全体の尤度に寄与しない)としている。またピーク検出率が0.05と0.3との間の値では、ピーク検出率が大きくなるほどフレーム寄与度が小さくなるものとしている。
【0063】
またフレーム寄与度をオーバーフロー区間の始端、終端からの時間を用いてもよい。この場合の算出例を式(25)に示す。なお式(25)において、tsは不安定区間の始点、teは不安定区間の終点である。
【数20】
Figure 2005004018
なお、上式において、min(x,y)とは、xとyの小さい方を選択する演算である。この例では、始点と終点の寄与度は1となり、不安定区間の中間では0.5となる。
【0064】
以上から明らかなように、不安定区間検出部8により出力された瞬断区間又はオーバーフロー区間の尤度の全体の尤度への寄与度を小さくする(反映しにくくする)ことにより、不安定区間に残存する音声信号を利用しながら、一方で、尤度の信頼性の低い区間による誤認識を減らすことができる。
【0065】
また、ピーク検出率や、オーバーフロー区間の端からの時間差等に基づいて、フレーム寄与度を設定することにより、入力状態に応じた寄与度を設定することが可能となる。
【0066】
なお、実施の形態3では、不安定区間検出部8がオーバーフロ区間、瞬断区間、通常区間の3つの状態を判断することとしたが、実施の形態2と同じように、音響分析部3が判断するようにし、音声特徴量中にこれらの情報を識別するような成分やデータを含めるようにしてもよい。
【0067】
さらに、実施の形態1における微小信号出力部2や、実施の形態2における音響尤度補正部9と組み合わせて用いることが可能なことはいうまでもない。
【0068】
実施の形態4.
実施の形態1〜3による音声認識装置では、不安定区間においても安定的に音声特徴量を演算する方法、不安定区間の尤度を補正する方法、不安定区間の尤度の重み付けを不安定区間以外の尤度の重み付けより小さくする方法などによって、オーバーフローや瞬断の存在する音声信号に基づいて、音声認識を行うものであった。この他に、不安定区間における音声信号を認識することを前提とした音響モデルを準備する方法も考えられる。実施の形態4による音声認識装置はかかる原理により動作するものである。
【0069】
図7は、実施の形態4による音声認識装置の構成を示したブロック図である。図において、図6と同じ符号を付した構成要素については、実施の形態3と同様であるので、説明を省略する。ただし、実施の形態4において、音響モデル記憶部5は、複数の音響モデルを記憶しているものとする。また音響モデル選択部10は、音響モデル記憶部5が記憶している複数の音響モデルから条件に見合う音響モデルを選択する部位である。さらに不安定区間検出部8からの信号線は音響モデル選択部10に接続されている。
【0070】
次に、実施の形態4による音声認識装置の動作について説明する。A/D変換器1、不安定区間検出部8、音響分析部3の動作については実施の形態3と同様であるので説明を省略するが、実施の形態4においても、実施の形態3と同様、不安定区間検出部8の検出結果である信号線はHi(オーバーフロー区間を表す)、Low(瞬断区間を表す)、Normal(定常状態又は通常状態、あるいは安定区間を表す)の3つの状態を表すものとする。
【0071】
なお、音響尤度演算部4と音響モデル記憶部5、不安定区間検出部8、音響モデル選択部10は音響尤度演算手段に相当する。
【0072】
続いて音響モデル選択部10の動作について説明する。音響モデル選択部10は、不安定区間検出部8から出力される不安定区間検出結果に基づいて、ピーク検出率と瞬断検出率を算出する。そして算出されたピーク検出率・瞬断検出率に基づいて、音響モデル記憶部5が記憶している複数の音響モデルの中から最適な音響モデルを選択する。
【0073】
音響モデル記憶部5は、所定のピーク検出率・瞬断検出率となる環境下で学習された音響モデルをそれぞれのピーク検出率・瞬断検出率に関連づけて記憶している。音響モデル選択部10は、音響モデルが関連づけられているピーク検出率・瞬断検出率と、現在のピーク検出率・瞬断検出率とを比較し、現在のピーク検出率・瞬断検出率に最も距離値の小さいピーク検出率・瞬断検出率に関連づけられている音響モデルを選択する。すなわち、劣悪な環境下で学習した音響モデルと良好な環境下で学習した音響モデルとを準備しておき、現実の環境に近い音響モデルを選択するようにする。
【0074】
音響尤度演算部4は音響モデル選択部10がピーク検出率・瞬断検出率に基づいて選択した音響モデルから音素(又は音韻・音節などの基本認識単位)ごとの尤度を算出し、照合部6は算出された尤度に基づいて、最尤の認識結果を出力する。
【0075】
以上から明らかなように、実施の形態4による音声認識装置によれば、種々のピーク検出率・瞬断検出率にあわせて予め学習された音響モデルを複数準備しておき、現在のピーク検出率・瞬断検出率に最も近い音響モデルを選択することとした。これによって、不安定区間に残存する音声信号を利用し、劣悪な環境にあわせた音響モデルを使用して音声認識を行うので、精度を向上することができる。すなわち、瞬断やオーバーフローを興していない区間に対しても、量子化ノイズによるS/Nの劣化に応じた音響モデルを選択して、認識率を向上できるのである。
【0076】
なお、上記においてピーク検出率・瞬断検出率は実施の形態3において定義したとおりフレーム毎のオーバーフローした信号の割合、あるいは瞬断した信号の割合に基づいて算出されるものである。しかし、これらの率の算出の区間はフレームに限られるものではなく、例えば発話単位に算出してもよいし、所定の時間毎(例.40msecなど)に算出するようにしてもよい。
【0077】
また、音響モデルの学習条件として、ピーク検出率・瞬断検出率の代わりに各フレームのパワーを採用してもよい。すなわち所定のパワーの下で学習された複数の音響モデルを準備しておき、現実のフレームのパワーに基づいて音響モデルを選択するようにしてもよい。またこの場合においても、フレーム毎ではなく、発話毎や所定の時間の平均パワーに基づいて音響モデルを選択するようにしてもよいことはいうまでもない。
【0078】
【発明の効果】
この発明に係る音声認識装置は、不安定区間に残存する音声の情報を使用することとしたので、不安定区間が長い場合であっても、認識率の低下を防ぐことができる、という極めて顕著な効果を奏するものである。
【図面の簡単な説明】
【図1】この発明の実施の形態1による音声認識装置の構成を示したブロック図である。
【図2】この発明の実施の形態1による音声認識装置に入力されるオーバーフローしたアナログ音声信号の波形図である。
【図3】この発明の実施の形態1によるオーバーフローした音声信号が音声認識装置に入力され、ディジタル変換された後の波形図である。
【図4】この発明の実施の形態1による音声認識装置に入力される瞬断を含む音声信号の波形図である。
【図5】この発明の実施の形態2による音声認識装置の構成を示したブロック図である。
【図6】この発明の実施の形態3による音声認識装置の構成を示したブロック図である。
【図7】この発明の実施の形態4による音声認識装置の構成を示したブロック図である。
【符号の説明】
1 A/D変換器
2 微小信号出力部
3 音響分析部
4 音響尤度演算部
5 音響モデル記憶部
6 照合部
7 語彙・言語モデル記憶部
8 不安定区間検出部
9 音響尤度補正部
10 音響モデル選択部。[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a speech recognition device that improves the accuracy of speech recognition even when the power of the input speech exceeds the input range of the A / D converter or in an environment where instantaneous interruption may occur. In particular, the present invention relates to a technique for improving the accuracy of speech recognition by devising signal processing or likelihood calculation processing in a section exceeding an input range or an instantaneous interruption section.
[0002]
[Prior art]
According to the conventional technique, the same acoustic likelihood (hereinafter, all phonemes, phonemes, and syllables stored in a certain acoustic model) in the section where instantaneous interruption / overflow occurs. , Simply called likelihood). By doing so, the likelihood of the correct recognition basic unit is lowered in the distorted section of the audio signal, and thus the erroneous recognition due to the lower likelihood of the correct vocabulary is prevented (for example, Non-Patent Document 1). ).
[0003]
Further, although it is not a technique for dealing with instantaneous interruption / overflow, there is a method in which a low power section is set as a silent section and a voice feature amount of the silent section is excluded from pattern matching (for example, Patent Document 1 and Patent Document 2). .
[0004]
[Patent Document 1]
Japanese Patent Laid-Open No. 2001-13988 “Voice Recognition Method and Apparatus” FIG. 2, pages 3-7
[Patent Document 2]
JP 2000-194385 “Voice Recognition Processing Device”
[Non-patent literature]
Proceedings of the Acoustical Society of Japan (September to October 1999, Vol. 1 P149 3-Q-16)
[0005]
[Problems to be solved by the invention]
In the speech recognition device according to the prior art, it is difficult to perform highly accurate speech recognition because it does not use information of speech remaining in the overflow interval, the instantaneous interruption interval, and the silent interval, especially when the overflow interval or the instantaneous interruption interval becomes long. There was a problem that the recognition rate decreased.
[0006]
On the other hand, the information of the speech remaining in these sections is unstable. For example, if acoustic analysis is performed on a section in which a digital signal having a sample value of 0 continues like an instantaneous interruption section, the acoustic analysis fails. was there. In order to avoid such a problem, there is a method in which the acoustic analysis result immediately before this section is repeatedly used in the prior art. However, this method has a problem that, as the instantaneous interruption interval becomes longer, the deviation from the immediately preceding acoustic analysis result increases, and matching is performed using incorrect data.
[0007]
The present invention has been made to solve the above-described problems, and an object thereof is to perform highly accurate speech recognition even for speech with instantaneous interruption or overflow.
[0008]
[Means for Solving the Problems]
The speech recognition apparatus according to the present invention receives an analog speech signal, converts the analog speech signal into a digital signal by an A / D converter, calculates an input speech feature amount from the digital signal, and based on the input speech feature amount. A speech recognition device for calculating a speech recognition result of the analog speech signal,
The acoustic analysis means for calculating the input voice feature amount based on the analog voice signal remaining in the unstable section even when an unstable section exists in the analog voice signal. It is what.
[0009]
Here, the unstable period means an instantaneous interruption period included in an analog voice signal input to an A / D converter included in the voice recognition device or an overflow period exceeding the input range of the A / D conversion means. To do.
[0010]
DETAILED DESCRIPTION OF THE INVENTION
Embodiments of the present invention will be described below.
Embodiment 1 FIG.
FIG. 1 is a block diagram showing the configuration of a speech recognition apparatus according to Embodiment 1 of the present invention. In the figure, an A / D converter 1 is an element or circuit that converts an analog signal of an input voice into a digital signal. For example, the sampling frequency is 8 kHz, the bit number resolution is 16 bits, and linear pulse coding (Pulse) is performed. The input signal is digitized by Code Modulation (PCM). This sample value takes a value included in the range given by equation (1).
[Expression 1]
Figure 2005004018
[0011]
FIG. 2 is a waveform diagram showing an analog signal input to the A / D converter 1. FIG. 3 is a waveform diagram after digital conversion of the analog signal shown in FIG. In the figure, Smax and Smin indicate the upper and lower limits of the input range of the A / D converter 1. The enlarged state of the signal in the circle 101 drawn with a broken line in the figure is a circle 102 drawn with a broken line, and a portion exceeding the Smax (overflowed sample) of the input signal is input. It is shown that smoothing is performed to Smax which is the upper limit of the range.
[0012]
FIG. 4 is a waveform diagram showing the waveform of the input voice when an instantaneous interruption occurs in the analog signal waveform shown in FIG. In this case, regardless of the input range of the A / D converter 1, there is no sample value during a certain interval, and the A / D converter 1 outputs an output signal whose sample value is 0 in that interval. Will be output.
[0013]
Next, the configuration of the speech recognition apparatus according to Embodiment 1 of the present invention will be described with reference to FIG. The minute signal output unit 2 is an element or circuit that superimposes a minute signal (minute noise) on the output signal of the A / D converter 1. The acoustic analysis unit 3 is a part that outputs a speech feature amount (input speech feature amount) for performing speech recognition from a digital signal on which a minute signal (minute noise) is superimposed, using a signal at regular intervals. . The acoustic likelihood calculation unit 4 compares the standard pattern (standard speech feature amount) of speech for each recognition basic unit with the speech feature amount output from the acoustic analysis unit 3, and calculates the likelihood for each recognition basic unit. It is a part.
[0014]
The acoustic model storage unit 5 includes a storage medium or a storage element and a circuit (collectively referred to as a storage device) that stores a speech standard pattern of a recognition basic unit for which the acoustic likelihood calculation unit 4 calculates the likelihood. A computer program and a controller for managing and configuring the storage device may be included.
[0015]
Further, the collation unit 6 calculates the likelihood of the vocabulary from the likelihood calculated for each recognition basic unit according to the vocabulary / language model on which the speech recognition apparatus is based, and the vocabulary with the maximum likelihood of the vocabulary. Is a part that is calculated as a recognition candidate. The vocabulary / language model storage unit 7 is a storage medium or a storage element and a circuit (storage device) for storing the vocabulary / language model referred to by the collation unit 6, and includes computer programs and controllers that manage and configure the storage device. Is also the same as the acoustic model storage unit 5.
[0016]
The A / D converter 1 is A / D conversion means, the minute signal output unit 2 is minute signal output means, the acoustic analysis unit is acoustic analysis means, the acoustic likelihood calculation unit 4 and the acoustic model storage unit 5 are acoustic likelihood calculations. The means, collation unit 6 and vocabulary / language model storage unit 7 correspond to collation means.
[0017]
Next, the operation of the speech recognition apparatus according to Embodiment 1 of the present invention will be described. The A / D converter 1 converts an audio signal input as an analog signal into a digital signal. The minute signal output means 2 superimposes and outputs a minute signal on the digital signal output from the A / D converter 1. The process of superimposing such a minute signal is referred to as non-zeroing here. As the minute signal, for example, the maximum value of the sample value is 24Outputs about white noise.
[0018]
In addition to connecting the A / D converter 1 and the minute signal output unit 2 in series, for example, the A / D converter 1 detects the occurrence of momentary interruption or overflow by detecting the power. Based on the detection result, a switch for connecting the movable terminal to either the output of the A / D converter 1 or the output of the minute signal output unit 2 may be provided.
[0019]
Further, as a non-zero method, for example, the connection position of the A / D converter 1 and the minute signal output unit 2 is switched so that the output of the minute signal output unit 2 becomes the input of the A / D converter 1. It may be. In this way, since the output of the minute signal output unit 2 is always input to the A / D converter 1, the sample value output by the A / D converter 1 continues for a certain period or more even if an instantaneous interruption occurs. And never become 0.
[0020]
Subsequently, the acoustic analysis unit 3 applies a certain amount of time (for example, frame period = 10 msec) for a certain amount of time to the voice (digital signal) on which the minute noise output from the minute signal output unit 2 is superimposed. For example, a feature amount (for example, LPC cepstrum coefficient) is calculated using a digital signal having a frame length of 25 msec. As a result, the output O of the acoustic analysis unit 3 is a time series of feature amounts as shown in, for example, Expression (2).
[Expression 2]
Figure 2005004018
[0021]
In Equation (2), o (t) is a feature amount in the t-th frame, and is a vector of dimension number K as shown in Equation 3.
[Equation 3]
Figure 2005004018
[0022]
Here, the nth-order LPC cepstrum o ′ (t, n) when the speech feature value is the LPC cepstrum coefficient is calculated by the equations (4) to (6).
[Expression 4]
Figure 2005004018
Αi(I = 1, 2,..., Na) is a linear prediction coefficient and is obtained as follows.
[0023]
That is, first, a window length (number of samples in one frame) is Ns, and a finite-length window function (such as a Hamming window) that is 0 outside the frame is applied to the 1st to Nsth audio signals in the tth frame. Assuming that the multiplied speech signal is x (t, i) (0 ≦ i ≦ Ns−1), the autocorrelation sequence R is expressed by Equation (7).0, R1, R2... RNaIs calculated.
[Equation 5]
Figure 2005004018
[0024]
Next, αiEquation (8), which is a simultaneous equation for, is solved.
[Formula 6]
Figure 2005004018
When formula (8) is converted into a matrix display, formula (9) is obtained.
[Expression 7]
Figure 2005004018
Where ri= Ri/ R0And
[0025]
Using the Toeplitz property of the matrix according to Equation (9), the Levinson-Durbin cyclic solution solves for αiCan be requested. Here, each αnIs calculated by cycling from n = 1 to n = Na.nΑn (M)In particular, when m = n, kn= An (N)It shall be written as Then, as an initial value,
[Equation 8]
Figure 2005004018
As for m = 2, 3, 4,...m, Ai (M), E(M)Calculate
[Equation 9]
Figure 2005004018
[0026]
In equation (11), m is sequentially increased, and when it becomes Na, the calculation by this recurrence equation is terminated, and αi(I = 1, 2,..., Na) is calculated. By the way, in the above calculation process of the LPC cepstrum, if all the obtained audio signals are 0, xi= 0 (t = 0, 1, 2,..., N−1), R calculated by the equation (7)0Becomes 0 as in the following equation.
[Expression 10]
Figure 2005004018
[0027]
As a result, r in equation (9)i= Ri/ R0Would be divided by 0, riCannot be calculated. This means that the LPC cepstrum o '(t, n) cannot be calculated. That is, when the output of the A / D converter 1 becomes 0 due to a momentary interruption or overflow, an LPC cepstrum cannot be calculated, and an error occurs in the calculation of the voice feature amount. Division by zero is treated as a serious error that is handled by the occurrence of a trap in a normal computer system. For this reason, conventionally, it is impossible to stably recognize the voice using the voice signal remaining in the unstable section. This is a problem of speech recognition processing in the case where an unstable section exists in the conventional input signal.
[0028]
However, the speech recognition apparatus according to Embodiment 1 solves such a problem by providing the minute signal output unit 2. That is, even when the output of the A / D converter 1 becomes 0 in the unstable period, the minute signal output unit 2 compensates for the minute signal composed of non-zero components, so that the input voice signal of the acoustic analysis unit 3 is never zero. Never become. Therefore, since the speech feature amount is stably calculated for the input speech signal in which the unstable section exists, even if the computation for obtaining the speech feature amount from the speech signal remaining in the unstable section is performed as described above, No problem arises.
[0029]
In the first embodiment, by providing the minute signal output unit 2, a measure for physically non-zeroing, that is, preventing the input signal from becoming zero, has been taken. It goes without saying that the unit 3 may adopt a method of masking predetermined low-order bits of the input audio signal, for example, the least significant bit to 1 to make it non-zero.
[0030]
The above is the operation of the acoustic analysis unit 3. Subsequently, the operation of the speech recognition apparatus according to Embodiment 1 will be described.
[0031]
The acoustic model storage unit 5 stores a standard pattern representing a standard feature amount for each recognition basic unit. In HMM (Hidden Markov Model), the standard pattern is often expressed by a Gaussian distribution. In the following description, phonemes are used as recognition basic units. However, even if phonemes, syllables, etc. are used instead of phonemes, the flow of processing does not change at all.
[0032]
The acoustic likelihood calculation unit 4 compares the time series O of the feature amount of the sound output from the acoustic analysis unit 3 with, for example, a standard pattern for each phoneme stored in the acoustic model storage unit 5, and compares each time series of each frame. Compute the likelihood for a phoneme. The likelihood B (p, t) for the phoneme p of the feature quantity o (t) in the frame t is calculated by Expression (14) in a Gaussian distribution using a diagonal covariance matrix.
## EQU11 ##
Figure 2005004018
[0033]
The matching unit 6 calculates the likelihood of each recognized vocabulary from the likelihood obtained by the acoustic likelihood calculating unit 4 and the phoneme sequence of each vocabulary stored in the vocabulary / language model storage unit 7, and finally the most likely The vocabulary that becomes higher is output as the recognition result. That is, the speech recognition result W ′ is extracted using the following equation (15) for the time series O of the speech feature amount output by the acoustic analysis unit 3.
[Expression 12]
Figure 2005004018
[0034]
In equation (15), P (O | W) in the first term is an acoustic probability. This probability is calculated assuming the recognition target vocabulary W. Recently, HMMs are often used to calculate acoustic probabilities. The second term P (W) represents the assumed probability of the vocabulary W and is a linguistic probability. Recently, statistical language models are often used to obtain linguistic probabilities.
[0035]
Here, the state transition series is expressed as q = {q (0), q (1),. . . . q (T)} (where q (0) is the initial state and q (T) is the element of the final state set F), P (O | W) in Equation 5 is expressed by Equation (16) below. Can be represented.
[Formula 13]
Figure 2005004018
[0036]
In Equation (16), πiIs the initial probability of the i-th state (π0= 1, π1, ..., πT= 0), a (i, j) represents the transition probability from the i-th state to the j-th state, and b (i, t) represents the likelihood of the i-th state at time (frame) t. F represents a set of final states. Here, if the i-th state represents the phoneme p, b (i, t) = B (p, t).
[0037]
Thus, the speech recognition apparatus according to Embodiment 1 outputs the maximum likelihood speech recognition result for the input speech signal.
[0038]
As is apparent from the above, according to the speech recognition apparatus of the first embodiment, an analog speech signal that is input by de-zeroing an analog speech signal or a digital signal obtained by digitally converting this analog speech signal. Even if an unstable section exists, the voice feature amount is stably calculated. Therefore, it becomes possible to perform speech recognition based on the speech signal remaining in the unstable section, and as a result, it is possible to prevent the recognition rate from being lowered even for speech signals with overflow or instantaneous interruption.
[0039]
In addition, even if it replaces components other than the A / D converter 1, the minute signal output part 2, and the acoustic analysis part 3 in the component of Embodiment 1, the characteristic of this invention is impaired. Absent.
[0040]
Further, the A / D conversion unit 1, the minute signal output unit 2, the acoustic analysis unit 3, the acoustic likelihood calculation unit 4, and the matching unit 5 may be configured by hardware. It may be created and the computer may execute this speech recognition program.
[0041]
Embodiment 2. FIG.
In the first embodiment, the problem that the speech feature value cannot be calculated in the unstable section is solved by superimposing a minute signal on the input signal or by masking the low-order bits of the digital signal to 1, and stably. The audio feature amount is calculated so that the audio signal remaining in the unstable section can be used. In Embodiment 2, paying attention to the low reliability of the likelihood in such an unstable interval, the likelihood of the unstable interval is corrected by using the likelihood other than the unstable interval. This improves the reliability of the acoustic likelihood of the section.
[0042]
FIG. 5 is a block diagram showing the configuration of the speech recognition apparatus according to the second embodiment. In the figure, the components denoted by the same reference numerals as those in FIG. 1 are the same as those in the first embodiment, and thus the description thereof is omitted. The unstable section detection unit 8 is a part that detects whether an instantaneous interruption or overflow has occurred in the A / D converter 1. The acoustic likelihood correction unit 9 is a part that corrects the likelihood calculated by the acoustic likelihood calculation unit 4 for the unstable section, and whether or not the unstable section is in the unstable section detection unit 8. A signal line for notifying is provided.
[0043]
The acoustic likelihood calculation unit 4 and the acoustic model storage unit 5, the unstable section detection unit 8 is an acoustic likelihood calculation unit, the acoustic likelihood correction unit 9 is an acoustic likelihood correction unit, and the collation unit 6 and the vocabulary / language model storage. The unit 7 and the unstable section detection unit 8 correspond to collating means, respectively.
[0044]
Next, the operation of the speech recognition apparatus according to the second embodiment will be described. The A / D converter 1 converts an analog audio signal into a digital signal as in the first embodiment. The unstable section detection unit 8 monitors the power of the input line of the A / D converter 1 and detects the unstable section, that is, the occurrence of instantaneous interruption or the occurrence of overflow, the acoustic likelihood correction unit 9 The signal line to is set to Hi. Further, when not in an unstable section, this signal line is kept low.
[0045]
The acoustic analysis unit 3 and the acoustic likelihood calculation unit 4 operate in the same manner as in the first embodiment, and calculate the speech feature amount o (t) and the acoustic likelihood B (p, t) for the phoneme p for each frame t. Do.
[0046]
When the signal line from the unstable section detection unit 8 is Low, the acoustic likelihood correction unit 9 outputs the likelihood B (p, t) calculated by the acoustic likelihood calculation unit 4 as it is. When the signal line is Hi, the acoustic likelihood correction unit 9 corrects the likelihood calculated by the acoustic likelihood calculation unit 4 as follows. That is, the likelihood is corrected by the equation (18) with the points on the time axis of the time when the unstable section starts and the time when the unstable section starts as the start point ts and end point te.
[Expression 14]
Figure 2005004018
[0047]
Here, N is the maximum time allowed to be corrected using the likelihood before and after the unstable interval (the likelihood calculated immediately before the start point of the unstable interval and the likelihood calculated immediately after the end point), and Bth Is a predetermined value. That is, in the equation (18), in a section (the above (C)) that is separated from the start point and the end point by a time exceeding the time N, the constant value Bth is set, and a section in which the time that is separated from the start point and the end point is within the time N ( In the above (A) and (B)), the likelihood immediately before the start point, the likelihood immediately after the end point, and the likelihood that becomes a continuous likelihood distribution are given to Bth in (C). The time N is determined in consideration of the frame length of acoustic analysis, for example, 40 msec.
[0048]
Next, the collation unit 6 calculates the maximum likelihood speech recognition result using Expression (15) in the same manner as in the first embodiment. The above is the operation of the speech recognition apparatus according to the second embodiment.
[0049]
As is clear from the above, according to the speech recognition apparatus of the second embodiment, the acoustic likelihood of the unstable section is corrected based on the likelihood before and after the section. As a result, the likelihood of phonemes before and after the unstable section is reflected in the vicinity of the start point or end point of the unstable section. Can be prevented.
[0050]
Also, as the distance from the start point and the end point increases, the influence of the likelihood immediately before the start point and the likelihood immediately after the end point is considered to be small, and in the intermediate section further away from the fixed point, it is considered that the effect of the start point and the end point is lost. A certain value was taken as the likelihood. Thereby, when the unstable section is long, it is possible to avoid that the likelihood immediately before the start point and the likelihood immediately after the end point exert an effect more than necessary.
[0051]
In addition, since the speech recognition is performed based on the speech signal remaining in the section while correcting the likelihood even in the unstable section, the recognition rate is lowered even for the speech signal having an overflow or a momentary interruption. Can be prevented.
[0052]
In addition to the correction using the equation (18), a method of reflecting the likelihood immediately before the start point and the likelihood immediately after the end point in the likelihood of the unstable section is conceivable. For example, assuming a likelihood distribution that monotonically increases or decreases monotonically from the likelihood immediately before the start point to the likelihood immediately after the end point, the likelihood of the unstable interval is determined based on such likelihood distribution. You may make it do. Even by such a method, discontinuity of voice information due to overflow or instantaneous interruption can be compensated, and thus misrecognition can be prevented.
[0053]
Further, as shown in the first embodiment, it is needless to say that the configuration may be configured in combination with a technique for stably calculating an audio feature amount by de-zeroing an input signal in an unstable section. .
[0054]
Furthermore, in the speech recognition apparatus according to the second embodiment, by providing the unstable section detection unit 8, it is detected that an instantaneous interruption or overflow has occurred in the A / D converter 1. However, in addition to this, for example, in the acoustic analysis unit 3, if the sample value by the A / D converter 1 is less than or less than a predetermined lower limit value, it is determined that there is a momentary interruption, and the absolute value of the sample value is also predetermined If it exceeds or exceeds the value, it is determined that there is an overflow, and when generating a voice feature based on such sample values, a special flag or the like is set, and the acoustic likelihood calculation unit 4 or the acoustic likelihood correction unit You may make it possible to judge in 5. For example, the minute signal output unit 2 shown in the first embodiment is provided, and the minute signal output unit 2 further includes4If a small signal of the order is superimposed, the lower limit is 25You may make it match as a grade. If the bit number resolution of the A / D converter 1 is 16 bits, the range of −32768 to 32767 is in the range, so that the occurrence of overflow may be determined when the absolute value of the sample value is 32767 or more. .
[0055]
Embodiment 3 FIG.
The speech recognition apparatus according to Embodiment 2 appropriately selects the maximum likelihood phoneme (or another recognition basic unit) by correcting the acoustic likelihood in the unstable section, and prevents erroneous recognition. In addition, a method of lowering the weight of acoustic likelihood in an unstable section when collating with a vocabulary can be considered. The speech recognition apparatus according to Embodiment 3 operates according to such a principle.
[0056]
FIG. 6 is a block diagram showing the configuration of the speech recognition apparatus according to the third embodiment. In the figure, the components denoted by the same reference numerals as those in FIG. As is clear from FIG. 6, the signal line from the unstable section detection unit 8 reaches the verification unit 6, which is different from FIG. 5. The unstable section detection unit 8 in the third embodiment not only detects whether or not the section is unstable, but also detects whether the section is an overflow section or an instantaneous interruption section. The signal line can assume three states (for example, Normal: not an unstable section, Hi: overflow, Low: instantaneous interruption).
[0057]
Next, the operation of the speech recognition apparatus according to the third embodiment will be described. Since the operations of the A / D converter 1, the unstable section detection unit 8, the acoustic analysis unit 3, and the acoustic likelihood calculation unit 4 are the same as those in the second embodiment, description thereof is omitted. Subsequently, the collation unit 10 determines the input speech of the likelihood for each phoneme calculated by the acoustic likelihood calculation unit 4 depending on whether the signal line of the unstable section detection unit 8 is Normal, Hi, or Low. A contribution in the likelihood calculation of the entire signal is set, and then the likelihood for each phoneme is collated using the vocabulary / language model 7 and the contribution, and a recognition result is output.
[0058]
Here, the acoustic probability P (O | W) in the equation (15) when the frame contribution degree in the frame t is f (t) is given by the equation (19).
[Expression 15]
Figure 2005004018
The frame contribution f (t) is as follows.
[Expression 16]
Figure 2005004018
[0059]
Here, f1 and f2 are set to constant values, for example, f1 = 0.5 and f2 = 0.1 are set. In this example, the overall contribution of the likelihood of the overflow section is half that of the normal section, and the contribution of the likelihood of the instantaneous interruption section to the whole is 1/10 of the normal section.
[0060]
In addition, the ratio of the signal exceeding the maximum value in one frame at time t is referred to as a peak detection rate and is represented by Po (t), and the ratio of the signal in an instantaneous interruption state in one frame at time t Is called the instantaneous interruption detection rate and is expressed by Pc (t), as shown in the equation (22), the frame contribution degree f (t) is the peak detection rate Po (t) at the overflow, and at the instantaneous interruption Pc (t) may be used.
[Expression 17]
Figure 2005004018
[0061]
More specifically, these calculation methods are shown as methods shown in, for example, Expression (23) and Expression (24).
[Formula 18]
Figure 2005004018
[Equation 19]
Figure 2005004018
[0062]
In this example, when the peak detection rate is equal to or less than a certain value (0.05), the obtained likelihood can be trusted, so the frame contribution is set to 1 (same as normal), and the peak detection rate is constant (0). .3), if the input distortion is too large and the likelihood calculation cannot be trusted, the frame contribution is set to 0 (does not contribute to the overall likelihood). Further, when the peak detection rate is between 0.05 and 0.3, the greater the peak detection rate, the smaller the frame contribution.
[0063]
The frame contribution may be the time from the beginning and end of the overflow interval. An example of calculation in this case is shown in Expression (25). In Expression (25), ts is the start point of the unstable section, and te is the end point of the unstable section.
[Expression 20]
Figure 2005004018
In the above equation, min (x, y) is an operation for selecting the smaller of x and y. In this example, the contribution of the start point and the end point is 1, and is 0.5 in the middle of the unstable section.
[0064]
As is clear from the above, the unstable section is reduced by making the contribution of the likelihood of the instantaneous section or overflow section output by the unstable section detection unit 8 to the overall likelihood small (difficult to reflect). On the other hand, it is possible to reduce misrecognition due to a section with low reliability of likelihood.
[0065]
In addition, it is possible to set the contribution according to the input state by setting the frame contribution based on the peak detection rate, the time difference from the end of the overflow section, or the like.
[0066]
In the third embodiment, the unstable section detection unit 8 determines the three states of the overflow section, the instantaneous interruption section, and the normal section. However, as in the second embodiment, the acoustic analysis section 3 May be determined, and components and data for identifying these pieces of information may be included in the audio feature amount.
[0067]
Furthermore, it goes without saying that it can be used in combination with the minute signal output unit 2 in the first embodiment and the acoustic likelihood correction unit 9 in the second embodiment.
[0068]
Embodiment 4 FIG.
In the speech recognition apparatus according to the first to third embodiments, a method for stably calculating a speech feature amount even in an unstable section, a method for correcting likelihood in an unstable section, and unstable weighting in likelihood in an unstable section Voice recognition is performed on the basis of a voice signal in which overflow or instantaneous interruption exists by a method of making it smaller than the likelihood weighting other than the section. In addition to this, a method of preparing an acoustic model based on the recognition of a speech signal in an unstable section is also conceivable. The speech recognition apparatus according to the fourth embodiment operates on this principle.
[0069]
FIG. 7 is a block diagram showing the configuration of the speech recognition apparatus according to the fourth embodiment. In the figure, the components denoted by the same reference numerals as those in FIG. 6 are the same as those in the third embodiment, and thus the description thereof is omitted. However, in the fourth embodiment, it is assumed that the acoustic model storage unit 5 stores a plurality of acoustic models. The acoustic model selection unit 10 is a part that selects an acoustic model that meets a condition from a plurality of acoustic models stored in the acoustic model storage unit 5. Further, the signal line from the unstable section detector 8 is connected to the acoustic model selector 10.
[0070]
Next, the operation of the speech recognition apparatus according to the fourth embodiment will be described. Since the operations of the A / D converter 1, the unstable section detection unit 8, and the acoustic analysis unit 3 are the same as those in the third embodiment, description thereof will be omitted, but the same applies to the fourth embodiment as in the third embodiment. The signal line that is the detection result of the unstable section detection unit 8 has three states: Hi (represents an overflow section), Low (represents an instantaneous interruption section), and Normal (represents a steady state, a normal state, or a stable section). .
[0071]
The acoustic likelihood calculation unit 4, the acoustic model storage unit 5, the unstable section detection unit 8, and the acoustic model selection unit 10 correspond to acoustic likelihood calculation means.
[0072]
Next, the operation of the acoustic model selection unit 10 will be described. The acoustic model selection unit 10 calculates the peak detection rate and the instantaneous interruption detection rate based on the unstable section detection result output from the unstable section detection unit 8. Based on the calculated peak detection rate and instantaneous interruption detection rate, an optimal acoustic model is selected from a plurality of acoustic models stored in the acoustic model storage unit 5.
[0073]
The acoustic model storage unit 5 stores an acoustic model learned in an environment having a predetermined peak detection rate and instantaneous interruption detection rate in association with each peak detection rate and instantaneous interruption detection rate. The acoustic model selection unit 10 compares the peak detection rate / instantaneous interruption detection rate associated with the acoustic model with the current peak detection rate / instantaneous interruption detection rate, and obtains the current peak detection rate / instantaneous interruption detection rate. The acoustic model associated with the peak detection rate / instantaneous interruption detection rate with the smallest distance value is selected. That is, an acoustic model learned in a poor environment and an acoustic model learned in a good environment are prepared, and an acoustic model close to the actual environment is selected.
[0074]
The acoustic likelihood calculation unit 4 calculates the likelihood for each phoneme (or basic recognition unit such as phoneme / syllable) from the acoustic model selected by the acoustic model selection unit 10 based on the peak detection rate and the instantaneous interruption detection rate, and performs matching. The unit 6 outputs the maximum likelihood recognition result based on the calculated likelihood.
[0075]
As is clear from the above, according to the speech recognition apparatus according to the fourth embodiment, a plurality of acoustic models learned in advance according to various peak detection rates and instantaneous interruption detection rates are prepared, and the current peak detection rate is obtained.・ The acoustic model closest to the instantaneous interruption detection rate was selected. As a result, voice recognition is performed using an audio model that matches an inferior environment using a voice signal remaining in an unstable section, so that accuracy can be improved. That is, the recognition rate can be improved by selecting an acoustic model corresponding to the degradation of S / N due to quantization noise even in a section where no instantaneous interruption or overflow occurs.
[0076]
In the above, the peak detection rate and the instantaneous interruption detection rate are calculated based on the ratio of the overflowed signal or the instantaneous interruption signal for each frame as defined in the third embodiment. However, these rate calculation sections are not limited to frames, and may be calculated, for example, in units of utterances, or may be calculated every predetermined time (eg, 40 msec).
[0077]
Further, as a learning condition for the acoustic model, the power of each frame may be employed instead of the peak detection rate and the instantaneous interruption detection rate. That is, a plurality of acoustic models learned under a predetermined power may be prepared, and the acoustic model may be selected based on the actual frame power. Also in this case, it goes without saying that the acoustic model may be selected based on the average power for each utterance or for a predetermined time instead of for each frame.
[0078]
【The invention's effect】
Since the speech recognition apparatus according to the present invention uses the information of the speech remaining in the unstable section, it is extremely remarkable that the reduction of the recognition rate can be prevented even when the unstable section is long. It has a great effect.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a speech recognition apparatus according to Embodiment 1 of the present invention.
FIG. 2 is a waveform diagram of an overflowed analog speech signal input to the speech recognition apparatus according to Embodiment 1 of the present invention.
FIG. 3 is a waveform diagram after an overflow voice signal according to Embodiment 1 of the present invention is input to a voice recognition device and digitally converted;
FIG. 4 is a waveform diagram of an audio signal including a momentary interruption input to the speech recognition apparatus according to Embodiment 1 of the present invention.
FIG. 5 is a block diagram showing a configuration of a speech recognition apparatus according to Embodiment 2 of the present invention.
FIG. 6 is a block diagram showing a configuration of a speech recognition apparatus according to Embodiment 3 of the present invention.
FIG. 7 is a block diagram showing a configuration of a speech recognition apparatus according to Embodiment 4 of the present invention.
[Explanation of symbols]
1 A / D converter
2 Minute signal output section
3 Acoustic analysis section
4 Acoustic likelihood calculator
5 Acoustic model storage
6 verification part
7 Vocabulary / Language Model Storage
8 Unstable section detector
9 Acoustic likelihood correction unit
10 Acoustic model selection unit.

Claims (15)

アナログ音声信号を入力し、A/D変換器によりディジタル信号に変換して、このディジタル信号から入力音声特徴量を算出するとともに、前記入力音声特徴量に基づいて前記アナログ音声信号の音声認識結果を算出する音声認識装置において、
前記アナログ音声信号に、瞬断区間又は前記A/D変換器の入力レンジを超えるオーバーフロー区間(以下、不安定区間とする)が存在する場合であっても、この不安定区間に残存する前記アナログ音声信号に基づいて前記入力音声特徴量を算出する前記音響分析手段を備えたことを特徴とする音声認識装置。
An analog voice signal is input, converted into a digital signal by an A / D converter, an input voice feature quantity is calculated from the digital signal, and a voice recognition result of the analog voice signal is calculated based on the input voice feature quantity. In the speech recognition device to calculate,
Even if there is a momentary interruption interval or an overflow interval exceeding the input range of the A / D converter (hereinafter referred to as an unstable interval) in the analog audio signal, the analog remaining in the unstable interval A speech recognition apparatus comprising: the acoustic analysis unit that calculates the input speech feature quantity based on a speech signal.
前記音響分析手段は、非ゼロ値化された前記不安定区間の前記ディジタル信号から前記入力音声特徴量を算出することを特徴とする請求項1に記載の音声認識装置。The speech recognition apparatus according to claim 1, wherein the acoustic analysis unit calculates the input speech feature quantity from the digital signal in the unstable section that has been made non-zero. 前記アナログ音声信号に前記不安定区間が存在する場合であっても、微小信号を重畳して前記ディジタル信号を非ゼロ化する微小信号出力手段をさらに備え、
前記音響分析手段は、前記微小信号出力手段により非ゼロ化された前記ディジタル信号から前記入力音声特徴量を算出することを特徴とする請求項2に記載の音声認識装置。
Even if the unstable period is present in the analog audio signal, further comprising a minute signal output means for superimposing the minute signal to non-zero the digital signal,
The speech recognition apparatus according to claim 2, wherein the acoustic analysis unit calculates the input speech feature quantity from the digital signal that has been non-zeroed by the minute signal output unit.
前記入力音声特徴量と標準音声特徴量との音響尤度を算出する音響尤度演算手段と、
前記不安定区間の直前と直後において前記音響尤度演算手段が算出した音響尤度に基づいて前記不安定区間の音響尤度を補正する音響尤度補正手段と、
前記音響尤度演算手段算出した音響尤度又は前記音響尤度補正手段が補正した音響尤度に基づいて、前記入力音声特徴量について音声認識結果を算出する照合手段と、
をさらに備えることを特徴とする請求項1に記載の音声認識装置。
Acoustic likelihood calculating means for calculating the acoustic likelihood of the input voice feature quantity and the standard voice feature quantity;
Acoustic likelihood correcting means for correcting the acoustic likelihood of the unstable section based on the acoustic likelihood calculated by the acoustic likelihood calculating means immediately before and immediately after the unstable section;
A matching unit that calculates a speech recognition result for the input speech feature based on the acoustic likelihood calculated by the acoustic likelihood calculating unit or the acoustic likelihood corrected by the acoustic likelihood correcting unit;
The speech recognition apparatus according to claim 1, further comprising:
前記音響尤度補正手段は、前記不安定区間の音響尤度分布として、前記不安定区間の直前と直後の音響尤度のそれぞれに連続な音響尤度分布を仮定し、この音響尤度分布に基づいて前記不安定区間の音響尤度を補正することを特徴とする請求項4に記載の音声認識装置。The acoustic likelihood correcting means assumes a continuous acoustic likelihood distribution for each of the acoustic likelihood immediately before and immediately after the unstable section as the acoustic likelihood distribution of the unstable section, The speech recognition apparatus according to claim 4, wherein the acoustic likelihood of the unstable section is corrected based on the basis. 前記音響尤度補正手段は、前記不安定区間の時間長が所定の長さを超える場合に、前記区間の始点と終点の双方から一定時間離れた中間区間の音響尤度を一定値に補正することを特徴とする請求項4に記載の音声認識装置。The acoustic likelihood correction means corrects the acoustic likelihood of an intermediate section that is a fixed time away from both the start point and the end point of the section to a constant value when the time length of the unstable section exceeds a predetermined length. The speech recognition apparatus according to claim 4. 前記音響尤度補正手段は、前記不安定区間の直前の音響尤度から前記区間の直後の音響尤度に向かって単調増加又は単調減少する音響尤度分布を仮定し、この音響尤度分布に基づいて、前記不安定区間の音響尤度を補正することを特徴とする請求項4に記載の音声認識装置。The acoustic likelihood correcting means assumes an acoustic likelihood distribution that monotonously increases or decreases monotonically from the acoustic likelihood immediately before the unstable section toward the acoustic likelihood immediately after the section, and the acoustic likelihood distribution The speech recognition apparatus according to claim 4, wherein the acoustic likelihood of the unstable section is corrected based on the basis. 前記入力音声特徴量と標準音声特徴量との音響尤度を算出する音響尤度演算手段と、
前記音響尤度演算手段が算出した音響尤度のうち、前記不安定区間の音響尤度の重み付けをその不安定区間以外の区間の音響尤度の重み付けより小さくして、前記入力音声特徴量について音声認識結果を算出する照合手段と、
をさらに備えることを特徴とする請求項1に記載の音声認識装置。
Acoustic likelihood calculating means for calculating the acoustic likelihood of the input voice feature quantity and the standard voice feature quantity;
Among the acoustic likelihoods calculated by the acoustic likelihood calculating means, the acoustic likelihood weighting of the unstable section is made smaller than the acoustic likelihood weighting of the sections other than the unstable section, and the input speech feature amount Collation means for calculating a speech recognition result;
The speech recognition apparatus according to claim 1, further comprising:
前記照合手段は、前記A/D変換器において入力レンジ超過または瞬断が発生する割合に基づいて、前記不安定区間の音響尤度についての重み付けを変更することを特徴とする請求項8に記載の音声認識装置。The said collation means changes weighting about the acoustic likelihood of the said unstable area based on the ratio which the input range excess or instantaneous interruption generate | occur | produces in the said A / D converter. Voice recognition device. 前記音響分析手段及び前記音響尤度演算手段は、フレーム単位に、前記入力音声特徴量及び前記音響尤度を算出し、
前記照合手段は、前記フレームと前記不安定区間の開始点又は終了点との時間差が大きくなるにつれて、そのフレームについての前記音響尤度の重み付けを小さくすることを特徴とする請求項8又は9のいずれかに記載の音声認識装置。
The acoustic analysis means and the acoustic likelihood calculation means calculate the input speech feature quantity and the acoustic likelihood for each frame,
The said collating means reduces the weighting of the said acoustic likelihood about the said frame as the time difference of the said frame and the starting point or the end point of the said unstable area becomes large. The speech recognition device according to any one of the above.
前記A/D変換器の入力レンジ超過または瞬断が相異なる割合で発生する環境下において学習された複数の音響モデルを記憶する音響モデル記憶手段と、
前記音響尤度演算手段は、前記A/D変換器の入力レンジ超過または瞬断が発生する割合に基づいて、前記複数の音響モデルのいずれかを選択し、前記選択された音響モデルに記憶された標準音声特徴量と前記入力音声特徴量とを照合して音響尤度を算出することを特徴とする請求項1乃至請求項10のいずれか一に記載の音声認識装置。
Acoustic model storage means for storing a plurality of acoustic models learned in an environment where the input range of the A / D converter exceeds or the instantaneous interruption occurs at different rates;
The acoustic likelihood calculating means selects one of the plurality of acoustic models based on the rate at which the input range of the A / D converter exceeds or the instantaneous interruption occurs, and is stored in the selected acoustic model. The speech recognition apparatus according to claim 1, wherein the acoustic likelihood is calculated by comparing the standard speech feature quantity and the input speech feature quantity.
前記音響尤度演算手段は、一定の期間ごとに前記割合を算出し、その割合に基づいて前記複数の音響モデルのいずれかを選択することを特徴とする請求項11に記載の音声認識装置。The speech recognition apparatus according to claim 11, wherein the acoustic likelihood calculating unit calculates the ratio for each predetermined period and selects one of the plurality of acoustic models based on the ratio. 前記音響尤度演算手段は、各発話の期間を前記一定の期間とすることを特徴とする請求項12に記載の音声認識装置。The speech recognition apparatus according to claim 12, wherein the acoustic likelihood calculating means sets each utterance period to the certain period. 前記音響尤度演算手段は、各フレームの期間を前記一定の期間とすることを特徴とする請求項12に記載の音声認識装置。The speech recognition apparatus according to claim 12, wherein the acoustic likelihood calculating means sets the period of each frame as the fixed period. 前記音響モデル記憶手段は、入力レンジ超過または瞬断が発生する割合に代えて、異なるパワー環境で学習された複数の音響モデルを記憶し、
前記音響尤度手段は、入力レンジ超過または瞬断が発生する割合に代えて、前記A/D変換器におけるアナログ音声信号パワーに基づいて、前記複数の音響モデルのいずれかを選択することを特徴とする請求項11乃至請求項14のいずれか一に記載の音声認識装置。
The acoustic model storage means stores a plurality of acoustic models learned in different power environments, instead of the rate at which input range excess or instantaneous interruption occurs.
The acoustic likelihood means selects one of the plurality of acoustic models based on an analog audio signal power in the A / D converter, instead of a rate at which an input range exceeds or an instantaneous interruption occurs. The voice recognition device according to claim 11.
JP2003168641A 2003-06-13 2003-06-13 Speech recognition apparatus Abandoned JP2005004018A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003168641A JP2005004018A (en) 2003-06-13 2003-06-13 Speech recognition apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003168641A JP2005004018A (en) 2003-06-13 2003-06-13 Speech recognition apparatus

Publications (1)

Publication Number Publication Date
JP2005004018A true JP2005004018A (en) 2005-01-06

Family

ID=34094015

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003168641A Abandoned JP2005004018A (en) 2003-06-13 2003-06-13 Speech recognition apparatus

Country Status (1)

Country Link
JP (1) JP2005004018A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007156076A (en) * 2005-12-05 2007-06-21 Kddi Corp Voice input evaluation apparatus
WO2008108232A1 (en) * 2007-02-28 2008-09-12 Nec Corporation Audio recognition device, audio recognition method, and audio recognition program

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007156076A (en) * 2005-12-05 2007-06-21 Kddi Corp Voice input evaluation apparatus
JP4678773B2 (en) * 2005-12-05 2011-04-27 Kddi株式会社 Voice input evaluation device
WO2008108232A1 (en) * 2007-02-28 2008-09-12 Nec Corporation Audio recognition device, audio recognition method, and audio recognition program
JP5229216B2 (en) * 2007-02-28 2013-07-03 日本電気株式会社 Speech recognition apparatus, speech recognition method, and speech recognition program
US8612225B2 (en) 2007-02-28 2013-12-17 Nec Corporation Voice recognition device, voice recognition method, and voice recognition program

Similar Documents

Publication Publication Date Title
EP1557822B1 (en) Automatic speech recognition adaptation using user corrections
EP0907949B1 (en) Method and system for dynamically adjusted training for speech recognition
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
JP4301102B2 (en) Audio processing apparatus, audio processing method, program, and recording medium
US8886534B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition robot
US9002709B2 (en) Voice recognition system and voice recognition method
KR100651957B1 (en) System for using silence in speech recognition
US8301445B2 (en) Speech recognition based on a multilingual acoustic model
JP2000181482A (en) Voice recognition device and noninstruction and/or on- line adapting method for automatic voice recognition device
EP2048655A1 (en) Context sensitive multi-stage speech recognition
US20030200086A1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
US7181395B1 (en) Methods and apparatus for automatic generation of multiple pronunciations from acoustic data
KR101014086B1 (en) Voice processing device and method, and recording medium
EP1576580B1 (en) Method of optimising the execution of a neural network in a speech recognition system through conditionally skipping a variable number of frames
US6934681B1 (en) Speaker&#39;s voice recognition system, method and recording medium using two dimensional frequency expansion coefficients
JP6027754B2 (en) Adaptation device, speech recognition device, and program thereof
JP2002358097A (en) Voice recognition device
JP2005004018A (en) Speech recognition apparatus
JP2008026721A (en) Speech recognizer, speech recognition method, and program for speech recognition
JPH06214596A (en) Voice recognition device and speaker adaptive method
JP3285704B2 (en) Speech recognition method and apparatus for spoken dialogue
JPH09258783A (en) Voice recognizing device
JP2005091504A (en) Voice recognition device
US20090254335A1 (en) Multilingual weighted codebooks
EP1369847B1 (en) Speech recognition method and system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060120

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081104

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20081127