JP4201470B2 - 音声認識システム - Google Patents

音声認識システム Download PDF

Info

Publication number
JP4201470B2
JP4201470B2 JP2000277024A JP2000277024A JP4201470B2 JP 4201470 B2 JP4201470 B2 JP 4201470B2 JP 2000277024 A JP2000277024 A JP 2000277024A JP 2000277024 A JP2000277024 A JP 2000277024A JP 4201470 B2 JP4201470 B2 JP 4201470B2
Authority
JP
Japan
Prior art keywords
speech
inner product
determination
unit
residual power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000277024A
Other languages
English (en)
Other versions
JP2002091467A5 (ja
JP2002091467A (ja
Inventor
載 小林
光弥 駒村
聡一 外山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pioneer Corp
Original Assignee
Pioneer Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Corp filed Critical Pioneer Corp
Priority to JP2000277024A priority Critical patent/JP4201470B2/ja
Priority to EP01307684A priority patent/EP1189200B1/en
Priority to US09/948,762 priority patent/US20020049592A1/en
Priority to DE60142729T priority patent/DE60142729D1/de
Priority to CNB011328746A priority patent/CN1152366C/zh
Publication of JP2002091467A publication Critical patent/JP2002091467A/ja
Priority to US10/995,509 priority patent/US20050091053A1/en
Publication of JP2002091467A5 publication Critical patent/JP2002091467A5/ja
Application granted granted Critical
Publication of JP4201470B2 publication Critical patent/JP4201470B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Complex Calculations (AREA)
  • Machine Translation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、音声認識システムに関し、特に音声区間の検出の精度向上を図った音声認識システムに関する。
【0002】
【従来の技術】
音声認識システムでは、例えば雑音等のある環境下で発話された音声をそのまま音声認識した場合、雑音等の影響によって音声認識率の低下を招くことから、音声認識を行うためにはまず音声区間を正しく検出することが重要な課題となっている。
【0003】
従来、残差パワー法又は部分空間法を用いて音声区間の検出を行う音声認識システムが知られている。
【0004】
図6は、残差パワー法を用いた従来の音声認識システムの構成を示している。この音声認識システムは、隠れマルコフモデル(Hidden Markov Model:HMM)を用いて単語やサブワード(音素、音節等)単位の音響モデル(音声HMM)を作成しておき、認識すべき音声が発話されると、その入力音声のスペクトルの時系列である観測値系列を生成して、観測値系列と音声HMMとを照合し、最大尤度を与える音声HMMを選んでこれを認識結果として出力する。
【0005】
より具体的には、音声データベースに実験的に収集して記憶しておいた大量の音声データSmを所定期間(10〜20msec程度)のフレーム単位に区分けし、各フレーム単位のデータを順次にケプストラム(Cepstrum)演算することにより、ケプストラムの時系列を求め、更にこのケプストラムの時系列を音声の特徴量として学習処理し、音響モデル(音声HMM)のパラメータに反映させることで、単語やサブワード単位の音声HMMを作成している。
【0006】
実際に発話がなされると、入力音声データSaを上記同様のフレーム単位に区分けして入力する。そして、残差パワー法を適用して構成された音声区間検出部が、各フレーム単位の入力音声データに基づいて音声区間τを検出すると共に、検出した音声区間τ内の入力音声データSvcを切り出し、その入力音声データSvcのケプストラムの時系列である観測値系列と音声HMMとを単語やサブワード単位で照合することで、音声認識が行われている。
【0007】
ここで、音声区間検出部は、LPC分析部1、閾値生成部2、比較部3、切替え部4,5を備えて構成されている。
【0008】
LPC分析部1は、フレーム単位の入力音声データSaに対して線形予測(linear predictive coding:LPC)分析を行うことで予測残差パワーεを求め、切替え部4は、例えば発話者が発話開始スイッチ(図示省略)をオン操作してから実際に発話するまでの所定期間(非音声期間)内では、予測残差パワーεを閾値生成部2へ供給し、非音声期間の経過後は、予測残差パワーεを比較部3へ供給するようになっている。
【0009】
閾値生成部2は、非音声期間内に生じる予測残差パワーεの時間平均値ε’を求めると共に、予め決められている所定値αを加算することによって閾値THD(=ε’+α)を求め、その閾値THDを比較部3に供給する。
【0010】
比較部3は、非音声期間の経過後に切替え部4を介して供給される予測残差パワーεと閾値THDとを比較し、THD≦εとなったときには音声区間と判定して切替え部5をオン(導通)、THD>εとなったときには非音声区間と判定して切替え部5をオフ(非導通)にする。
【0011】
切替え部5は、比較部3による制御に従って上記のオン/オフ動作を行う。これにより、音声区間と判定された期間では、入力音声データSaから認識対象とすべき入力音声データSvcがフレーム単位で切り出され、その入力音声データSvcに基づいて上記のケプストラム演算が行われることで、音声HMMと照合させるための観測値系列が生成される。
【0012】
このように、残差パワー法を用いて音声区間の検出を行う従来の音声認識システムでは、非音声期間に生じる予測残差パワーεの時間平均値ε’に基づいて音声区間を検出するための閾値THDを決めておき、非音声期間の経過後に入力される入力音声データSaの予測残差パワーεが閾値THDより大きな値になるか否かを判定することで、音声区間の検出を行っている。
【0013】
図7は、部分空間法を用いた音声区間検出部の構成を示している。この音声区間検出部は、予め大量の音声データから学習した音声の特徴を表す空間(部分空間)に入力音声の特徴ベクトルを射影し、射影量が大きくなるときを音声区間と判定することとしている。
【0014】
つまり、予め実験的に収集した学習用の音声データ(学習データ)Smを所定のフレーム単位で音響分析し、M次元の特徴ベクトルxn=〔xn1n2n3 …xnMTを求めている。ここで、変数Mはベクトルの次元数、変数nはフレーム番号(n≦N)、符号Tは転置を表している。
【0015】
このM次元の特徴ベクトルxnから次式(1)で表される相関行列Rを求め、更に、次式(2)を解くことで相関行列Rを固有値展開し、M個の固有値λkと固有値ベクトルvkを求めている。
【0016】
【数1】
Figure 0004201470
【数2】
Figure 0004201470
【0017】
次に、固有値の大きいものからm個(m<M)の固有ベクトルv1,v2,…,vmを選び出し、それらを列ベクトルとする行列V=〔v1,v2,…,vm〕を求めている。すなわち、m個の固有ベクトルv1,v2,…,vmが張る空間が、学習よって求まる音声の特徴を最も良く表す部分空間であるものと推定している。
【0018】
次に、次式(3)に基づいて射影行列Pを求めている。
【数3】
Figure 0004201470
【0019】
こうして射影行列Pを予め求めておき、実際に発話によって入力音声データSaが入力されると、学習データSmに対する処理と同様に、所定のフレーム単位で音響分析することで入力音声データSaの特徴ベクトルaを求め、上記射影行列Pと特徴ベクトルaの積を求めることで、次式(4)で表される射影ベクトルPaの2乗ノルム‖Pa‖2を求める。
【0020】
【数4】
Figure 0004201470
【0021】
尚、ここでは、射影行列のべき等性PTP=Pが用いられている。
そして、予め決められた閾値θと上記の2乗ノルムを比較し、θ<‖Pa‖2となった場合には音声区間であると判定し、その音声区間内の入力音声データSaを切り出し、その切り出した音声データSvcに基づいて音声認識を行うようになっている。
【0022】
【発明が解決しようとする課題】
しかしながら、上記従来の残差パワー法を用いた音声区間の検出では、SN比が低くなると、雑音と本来の音声の予測残差パワーの差が小さくなり、音声区間の検出精度が低下するという問題があった。特に、パワーの小さな無声音の区間検出が困難となるという問題があった。
【0023】
また、上記従来の部分空間法を用いた音声区間の検出法は、音声(有声音と無声音)と雑音のスペクトルの差異に着目してなされたものであるが、それらのスペクトルの差異が明確に識別できないことから、音声区間の検出精度の向上が図れなくなる等の問題があった。
【0024】
具体的に、図8(a)〜(c)に基づいて、自動車の車室内で発話される音声を音声認識する場合の部分空間法の問題点を述べると、次のような問題点があった。尚、図8(a)は、代表的な有声音「ア」「イ」「ウ」「エ」「オ」のスペクトル包絡、図8(b)は、代表的な複数種類の無声音のスペクトル包絡、図8(c)は、エンジン排気量の異なる複数の自動車の車室内で生じた各走行雑音のスペクトル包絡を示している。
【0025】
これらのスペクトル包絡から解るように、有声音と走行雑音のスペクトルは類似しているため、有声音と走行雑音の識別が困難になるという問題があった。
【0026】
更に、母音、子音等によって特徴ベクトルのノルムが変化してしまい、射影前のベクトルの大きさが小さければ、いくらそのベクトルが部分空間にマッチしていたとしても、射影後のベクトルのノルムは小さくなってしまう。子音は特に特徴ベクトルのノルムが小さいため、音声区間として検出されなくなるという問題があった。
更に又、有声音のスペクトルは低周波域で大きく、無声音のスペクトルは高周波域で大きくなる。このため有声音と無声音を一緒に学習する従来の手法では、適切な部分空間を得ることが困難になるという問題があった。
【0027】
本発明は上記従来の問題点を克服し、音声区間の検出精度の向上を図った音声認識システムを提供することを目的とする。
【0030】
【課題を解決するための手段】
上記目的を達成するため請求項に記載の発明は、音声認識の対象とする音声の区間を検出する音声区間検出手段を備えた音声認識システムであって、前記音声区間検出手段は、前記データベースに記憶されている無声音のデータに基づいて、予め無声音の特徴を学習ベクトルとして生成する学習ベクトル生成手段と、非音声期間内に生じる入力音声の線形予測残差パワーに基づいて、音声と雑音とを識別するための閾値を生成する閾値生成手段と、発話によって生じる入力音声の特徴ベクトルと前記学習ベクトルとの内積値を演算し、その内積値が所定値以上となるときを音声区間と判定する内積値判定手段と、前記発話によって生じる入力音声の線形予測残差パワーが前記閾値生成手段で生成された閾値より大きくなるときを音声区間と判定する線形予測残差パワー判定手段と、前記内積値判定手段と線形予測残差パワー判定手段で判定される音声区間を、前記音声の区間として決定する音声区間決定手段と、を備え、前記音声区間決定手段により決定される音声の区間における前記入力音声を音声認識の対象とすること、を特徴とする。
【0031】
かかる構成によると、無声音に基づいて予め作成しておいた学習ベクトルと実際の発話によって生じる入力音声の特徴ベクトルとの内積を求め、得られた内積値が所定の閾値より大きくなるときを主として無声音の区間と判定する。また、非音声期間の予測残差パワーに基づいて求めた閾値と実際の発話によって生じる入力音声の予測残差パワーとを比較し、その閾値より予測残差パワーが大きくなるときを主として有声音の区間と判定する。そして、これらの判定結果に基づいて入力音声の音声区間を設定することにより、音声認識の対象とすべき音声を適切に求める。
【0032】
また、請求項に記載の発明は、請求項に記載の音声認識システムであって、更に、前記非音声期間内に生じる入力音声の特徴ベクトルと前記学習ベクトルとの内積値を演算し、その内積値が所定値以上になると、前記内積値判定手段の判定処理を停止させる誤判定制御手段を備え、音声区間決定手段は、前記誤判定制御手段により前記内積演算手段が停止されて前記音声区間の判定が停止された場合、前記線形予測残差パワー判定手段によって判定された音声区間を前記音声の区間として決定すること、を特徴とする。
【0033】
かかる構成によると、実際に発話のなされる以前の非音声期間、すなわち背景音だけが生じている期間に得られる特徴ベクトルと学習ベクトルの内積を求め、その内積値が所定の閾値以上になるときには、内積値判定手段の判定処理を停止させる。これにより、SN比が高くなって背景音のスペクトルが高域で高くなるような背景下において、背景音を子音として誤検出する事象を回避する。
【0034】
また、請求項に記載の発明は、請求項に記載の音声認識システムであって、更に、前記非音声期間内によって生じる入力音声の線形予測残差パワーを演算する演算手段と、前記演算手段が演算した前記線形予測残差パワーが所定値以下になると、前記内積値判定手段の判定処理を停止させる誤判定制御手段と、を備え、音声区間決定手段は、前記誤判定制御手段により前記内積演算手段が停止されて前記音声区間の判定が停止された場合、前記線形予測残差パワー判定手段によって判定された音声区間を前記音声の区間として決定すること、を特徴とする。
【0035】
かかる構成によると、実際に発話のなされる以前の非音声期間、すなわち背景音だけが生じている期間に得られる予測残差パワーが所定値以下になるときには、線形予測残差パワー判定手段の判定処理を停止させる。これにより、SN比が高くなって背景音のスペクトルが高域で高くなるような背景下において、背景音を子音として誤検出する事象を回避する。
【0036】
また、請求項に記載の発明は、請求項に記載の音声認識システムであって、更に、前記非音声期間内によって生じる入力音声の線形予測残差パワーを演算する演算手段と、前記非音声期間内に生じる入力音声の特徴ベクトルと前記学習ベクトルとの内積値を演算し、その内積値が所定値以上になるとき、または、前記非音声期間内に生じる入力音声の線形予測残差パワーが所定値以下になるときに、前記内積値判定手段の判定処理を停止させる誤判定制御手段と、を備え、音声区間決定手段は、前記誤判定制御手段により前記内積演算手段が停止されて前記音声区間の判定が停止された場合、前記線形予測残差パワー判定手段によって判定された音声区間を前記音声の区間として決定すること、を特徴とする。
【0037】
かかる構成によると、実際に発話のなされる以前の非音声期間、すなわち背景音だけが生じている期間に得られる特徴ベクトルと上記学習ベクトルの内積の値が所定値以上になるとき、または、非音声期間内に生じる入力音声の予測残差パワーが所定値以下になるときには、内積値判定手段の判定処理を停止させる。これにより、SN比が高くなって背景音のスペクトルが高域で高くなるような背景下において背景音を子音として誤検出する事象を回避する。
【0038】
【発明の実施の形態】
以下、本発明の実施の形態を図面を参照して説明する。尚、図1は本発明の音声認識システムの第1の実施の形態の構成を示すブロック図、図2は第2の実施の形態の構成を示すブロック図、図3は第3の実施の形態の構成を示すブロック図、図4は第4の実施の形態の構成を示すブロック図である。
【0039】
(第1の実施の形態)
本実施形態は、代表例として、音声認識の処理をHMM法によって行う音声認識システムであり、その音声認識処理のために音声の切り出しを行う手段を備えた音声認識システムである。
【0040】
図1において、本実施形態の音声認識システムには、隠れマルコフモデルを用いて作成された単語やサブワード単位の音響モデル(音声HMM)10と、認識部11と、ケプストラム演算部12とが備えられ、ケプストラム演算部12で生成される入力音声のケプストラムの時系列である観測値系列と音声HMM10とを認識部11が照合し、最大尤度を与える音声HMMを選んでこれを認識結果として出力する。
【0041】
すなわち、実験的に収集し音声データベース6に記憶した音声データSmをフレーム化部7が所定のフレーム単位に区分けし、フレーム単位の音声データをケプストラム演算部8が順次にケプストラム演算することにより、ケプストラムの時系列を求め、更にこのケプストラムの時系列を音声の特徴量として学習部9が学習処理することにより、単語やサブワード単位の音声HMM10が予め作成されている。
【0042】
そして、後述の音声区間の検出によって切り出される実際の入力音声データSvcをケプストラム演算部12がケプストラム演算することによって上記の観測値系列を生成し、認識部11がその観測値系列と音声HMM10とを単語やサブワード単位で照合することにより、音声認識を行うようになっている。
【0043】
更に、本音声認識システムには、実際に発話された音声(入力音声)Saの音声区間を検出し、音声認識対象としての上記入力音声データSvcを切り出すための音声区間検出部が備えられ、音声区間検出部は、第1の検出部100、第2の検出部200、音声区間決定部300、及び音声切り出し部400を備えて構成されている。
【0044】
ここで、第1の検出部100には、予め実験的に収集した音声の無声音部分のデータ(無声音データ)Scを記憶する無声音データベース13と、LPCケプストラム演算部14と、学習ベクトル生成部15が備えられている。
【0045】
LPCケプストラム演算部14は、無声音データベース13中の無声音データScを所定のフレーム単位でLPC分析することにより、ケプストラム領域でのM次元特徴ベクトルcn=〔cn1,cn2,…,cnMTを求める。
【0046】
学習ベクトル生成部15は、M次元の特徴ベクトルcnから次式(5)で表される相関行列Rを求め、更に相関行列Rを固有値展開することにより、M個の固有値λkと固有ベクトルvkを求めた後、M個の固有値λkのうちの最大固有値に対応する固有ベクトルを学習ベクトルVとする。尚、次式(5)中、変数nはフレーム番号、Tは転置を表している。
【0047】
【数5】
Figure 0004201470
【0048】
こうして、LPCケプストラム演算部14と学習ベクトル生成部15の処理を行うと、無声音の特徴を良く表した学習ベクトルVを求めることができる。ちなみに、図5は、学習ベクトルVから求めたスペクトル包絡を示している。次数はLPC分析次数(3次、8次、16次)である。図5に示すスペクトル包絡は、図8(b)に示した実際の無声音のスペクトル包絡に極めて類似することから、無声音の特徴を良く表した学習ベクトルVを求めることができることが確認された。
【0049】
更に第1の検出部100には、実際に発話された入力音声のデータSaを上記同様のフレーム単位に区分けして出力するフレーム化部16と、フレーム単位の入力音声データSafをLPC分析することにより、ケプストラム領域でのM次元の特徴ベクトルAと予測残差パワーεとを求めるLPCケプストラム演算部17と、学習ベクトルVと特徴ベクトルAの内積VTAを求める内積演算部18と、内積VTAを所定の閾値θと比較し、θ≦VTAのときに音声区間と判定する第1の閾値判定部19が備えられており、第1の閾値判定部19の判定結果D1を音声区間決定部300に供給するようになっている。
【0050】
尚、内積VTAは学習ベクトルVと特徴ベクトルAの方向情報を保持したスカラー量、すなわち正又は負値となるスカラー量であり、特徴ベクトルAが学習ベクトルVと同じ方向の場合には正値(0≦VTA)、特徴ベクトルAが学習ベクトルVと逆方向の場合には負値(0>VTA)となる。かかる関係から、本実施形態では、θ=0としている。
【0051】
第2の検出部200は、閾値生成部20と第2の閾値判定部21を備えて構成されている。
【0052】
閾値生成部20は、本音声認識システムに備えられている発話開始スイッチ(図示省略)を発話者がオン操作して、実際に発話を開始するまでの所定期間(非音声期間)内に、LPCケプストラム演算部17で求められる予測残差パワーεの時間平均値ε’を求めると共に、予め決められた所定値αを時間平均値ε’に加算することによって閾値THD(=ε’+α)を求める。
【0053】
第2の閾値判定部21は、非音声期間の経過後、LPCケプストラム演算部17で求められる予測残差パワーεと閾値THDとを比較し、THD≦εとなったときを音声区間と判定し、その判定結果D2を音声区間決定部300に供給する。
【0054】
音声区間決定部300は、第1の検出部100から判定結果D1が供給されるときと、第2の検出部200から判定結果D2が供給されるときを、入力音声Saの音声区間τと決定する。すなわち、θ≦VTA又はTHD≦εのいずれか一方の条件が満足されるときを音声区間τと決定し、更に非音声区間に挟まれた時間的に短い音声区間を非音声区間に変更し、音声区間に挟まれた時間的に短い非音声区間を音声区間に変更し、その決定結果D3を音声切り出し部400に供給する。
【0055】
音声切り出し部400は、上記の決定結果D3に基づいて、フレーム化部16より供給されるフレーム単位の入力音声データSafから、認識対象とする入力音声データSvcをフレーム単位で切り出してケプストラム演算部12へ供給する。
【0056】
そして、ケプストラム演算部12は、フレーム単位で切り出された入力音声データSvcからケプストラム領域での観測値系列を生成し、更に認識部11が観測値系列と音声HMM10との照合を行うことで、音声認識の処理を行う。
【0057】
このように本実施形態の音声認識システムによれば、第1の検出部100が無声音の音声区間を正しく検出し、第2の検出部100が有声音の音声区間を正しく検出することになる。
【0058】
すなわち、第1の検出部100は、学習用の無声音データScに基づいて予め作成しておいた無声音の学習ベクトルVと実際の発話によって生じる入力音声データSaの特徴ベクトルとの内積を求め、得られた内積値が閾値θ=0より大きな値(すなわち、正値)となったときを主として入力音声データSa中の無声音の区間と判断することになる。第2の検出部200は、予め非音声期間の予測残差パワーに基づいて求めた閾値THDと実際の発話によって生じる入力音声データSaの予測残差パワーεとを比較し、THD≦εとなったときを主として入力音声データSa中の有声音の区間と判断することになる。
【0059】
すなわち、第1の検出部100の処理を行うと、比較的パワーの小さな無声音を高精度で検出することが可能となり、第2の検出部200の処理によると、比較的パワーの大きな有声音を高精度で検出することが可能となる。
【0060】
そして、音声区間決定部が第1,第2の検出部100,200の判定結果D1,D2に基づいて音声区間(有声音又は無声音の区間)を最終的に決定し、その決定結果D3に基づいて、音声認識の対象とすべき入力音声データDvcを切り出すので、音声認識の精度向上を図ることができる。
【0061】
尚、図1に示した本実施形態の構成では、閾値判定部19の判定結果D1と閾値判定部21の判定結果D2に基づいて、音声区間決定部300が音声区間を示す決定結果D3を出力するようになっている。
【0062】
しかし、本発明はこれに限定されるものではない。内積部18と閾値判定部19によって音声区間の判断を行う第1の検出部100を備えておき、第2の検出部200を省略する構成とし、音声区間決定部300は判定結果Dに基づいて音声区間を示す決定結果D3を出力するようにしてもよい。
【0063】
(第2の実施の形態)
次に、第2の実施形態の音声認識システムを図2に基づいて説明する。尚、図2中、図1と同一又は相当する部分を同一符号で示している。
【0064】
図2において、第1の実施形態との相違点を述べると、本実施形態の音声認識システムには、内積演算部22と第3の閾値判定部23とを有する誤判定制御部500が設けられている。
【0065】
内積演算部22は、本音声認識システムに備えられている発話開始スイッチ(図示省略)を発話者がオン操作して実際に発話を開始するまでの非音声期間内に、LPCケプストラム演算部17が求めた特徴ベクトルAと、学習ベクトル生成部15が予め求めた無声音の学習ベクトルVとの内積を求める。すなわち、実際に発話が行われる以前の非音声期間内に、学習ベクトルVと特徴ベクトルAとの内積VTAを求める。
【0066】
第3の閾値判定部23は、予め決められている閾値θ’(=0)と内積演算部22が求めた内積VTAとを比較し、1フレームでもθ’<VTAとなった場合には、内積演算部18に対して内積演算を停止させるための制御信号CNTを供給する。すなわち、第3の閾値判定部23は、非音声期間内に求められた学習ベクトルVと特徴ベクトルAとの内積VTAが、閾値θ’より大きな値(正値)となった場合には、非音声期間の経過後に発話者が実際に発話しても、内積演算部18に内積演算の処理を行わせないようになっている。
【0067】
この結果、内積演算部18が制御信号CNTに従って内積演算の処理を停止すると、第1の閾値判定部19も音声区間の検出処理を実質的に停止し、判定結果D1が音声区間決定部300に供給されなくなる。つまり、音声区間決定部300は、第2の検出部200から供給される判定結果D2に基づいて、音声区間を最終的に判定する。
【0068】
かかる構成を有する本実施形態によれば次の効果が得られる。第1の検出部100は、無声音のスペクトルは高周波域で高くなり、背景雑音のスペクトルは低周波域で高くなるという両者の特徴を識別することを前提として音声区間の検出を行うものである。したがって、上記の誤判定制御部500を備えることなく、第1の検出部100だけで内積演算の処理をした場合でも、例えば自動車の車室内等においてSN比が低く走行雑音が支配的な背景下では、音声区間の検出精度の向上を図ることができる。
【0069】
しかし、SN比が高くなって背景雑音のスペクトルが高域で高くなるような背景下では、内積演算部18のみの処理では雑音区間を音声区間と誤判定する可能性が高くなるという問題を生じる。
【0070】
これに対し、誤判定制御部500では、内積演算部22が実際に発話のなされる以前の非音声期間、すなわち背景雑音だけが生じている期間に得られる特徴ベクトルAと無声音の学習ベクトルVとの内積VTAを求め、第3の閾値判定部23がθ’<VTAの関係が成立するか否か調べることで背景雑音のスペクトルが高域で高くなっているか否かを判定し、背景雑音のスペクトルが高域で高くなっていると判定したときには、第1の内積演算部18の処理を停止させるようにしている。
【0071】
したがって、誤判定制御部500を備えた本実施形態によれば、SN比が高くなって背景雑音のスペクトルが高域で高くなるような背景下では、例えば、子音の検出誤り(誤検出)を生じるような事象を回避することができるという効果が得られ、ひいては、音声認識率を向上させるように音声区間の検出を行うことが可能となる。
【0072】
尚、図2に示した本実施形態の構成では、閾値判定部19の判定結果D1と閾値判定部21の判定結果D2に基づいて、音声区間決定部300が音声区間を示す決定結果D3を出力するようになっている。
【0073】
しかし、本発明はこれに限定されるものではない。第2の検出部200を省略することにし、音声区間決定部300は、第1の検出部100と誤判定制御部500によって求められる判定結果D1に基づいて、音声区間を示す決定結果D3を出力するようにしてもよい。
【0074】
(第3の実施の形態)
次に、第3の実施形態の音声認識システムを図3に基づいて説明する。尚、図3中、図2と同一又は相当する部分を同一符号で示している。
【0075】
図3に示す本実施形態と図2に示した第2の実施形態との相違点を述べると、第2の実施形態の音声認識システムでは、図2に示したように、学習ベクトルVと実際に発話がなされる前の非音声期間内にLPCケプストラム演算部17が求めた特徴ベクトルAとの内積VTAを求め、その内積がθ’<VTAのときには、内積演算部18の処理を停止することで、音声区間の誤判定を回避することとしている。
【0076】
これに対し本実施形態では、図3に示すように、誤判定制御部600が備えられており、実際に発話がなされる前の非音声期間内にLPCケプストラム演算部17が求めた予測残差パワーεに基づいて、誤判定制御部600内の第3の閾値判定部24が音声区間の誤判定を回避するための判定処理を行い、制御信号CNTに基づいて第1の内積演算部18を制御する構成となっている。
【0077】
すなわち、第3の閾値判定部24は、発話者が発話開始スイッチ(図示省略)をオン操作して実際に発話を開始するまでの非音声期間内に、LPCケプストラム演算部17が背景音の予測残差パワーεを求めると、その予測残差パワーεの時間平均値ε’を求め、時間平均値ε’と予め決められている閾値THD’とを比較し、ε’<THD’のときには、内積演算部18に対して内積演算を停止させるための制御信号CNTを供給する。つまり、第3の閾値判定部24は、ε’<THD’となった場合には、非音声期間の経過後に発話者が実際に発話しても、内積演算部18に内積演算の処理を行わせないようになっている。
【0078】
尚、比較的静寂な環境下で得られる予測残差パワーε0を基準(0dB)とし、それより0dB〜50dB高い値を上記の閾値THD’に設定している。
【0079】
かかる構成を有する本実施形態によっても、上記第2の実施形態と同様に、SN比が高くなって背景雑音のスペクトルが高域で高くなるような背景下でも、音声区間の検出精度の維持を実現することができ、ひいては、音声認識率を向上させるように音声区間の検出を行うことが可能となる。
【0080】
尚、図3に示した本実施形態の構成では、閾値判定部19の判定結果D1と閾値判定部21の判定結果D2に基づいて、音声区間決定部300が音声区間を示す決定結果D3を出力するようになっている。
【0081】
しかし、本発明はこれに限定されるものではない。第2の検出部200を省略することにし、音声区間決定部300は、第1の検出部100と誤判定制御部600によって求められる判定結果D1に基づいて、音声区間を示す決定結果D3を出力するようにしてもよい。
【0082】
(第4の実施の形態)
次に、第4の実施形態の音声認識システムを図4に基づいて説明する。尚、図4中、図2と同一又は相当する部分を同一符号で示している。
【0083】
図4に示す本実施形態は、上記第2の実施形態(図2参照)に示した誤判定制御部500と第3の実施形態(図3参照)に示した誤判定制御部600との機能を併せ持った誤判定制御部700が設けられており、この誤判定制御部700は、内積演算部25と、閾値判定部26,28と、切替え判定部27を備えて構成されている。
【0084】
内積演算部25は、本音声認識システムに備えられている発話開始スイッチ(図示省略)を発話者がオン操作して実際に発話を開始するまでの非音声期間内に、LPCケプストラム演算部17が求めた特徴ベクトルAと、学習ベクトル生成部15が予め求めた無声音の学習ベクトルVとの内積VTAを求める。
【0085】
閾値判定部26は、予め決められている閾値θ’(=0)と内積演算部25が求めた内積VTAとを比較し、1フレームでもθ’<VTAとなった場合には、内積演算部18に対して内積演算を停止させるための制御信号CNT1を生成して出力する。
【0086】
閾値判定部28は、発話者が発話開始スイッチ(図示省略)をオン操作して実際に発話を開始するまでの非音声期間内に、LPCケプストラム演算部17が背景音の予測残差パワーεを求めると、その予測残差パワーεの時間平均値ε’を求め、時間平均値ε’と予め決められている閾値THD’とを比較し、ε’<THD’のときには、内積演算部18に対して内積演算を停止させるための制御信号CNT2を生成して出力する。
【0087】
切替え判定部27は、閾値判定部26,27から上記制御信号CNT1,CNT2のいずれか一方が供給されると、それらの制御信号CNT1又はCNT2を制御信号CNTとして第1の内積演算部18に供給することにより、内積演算の処理を停止させる。
【0088】
したがって、非音声期間内に求められた学習ベクトルVと特徴ベクトルAとの内積VTAが、1フレームでもθ’<VTAとなった場合、または、非音声期間内に求められた予測残差パワーεの時間平均値ε’が、ε’<THD’となった場合には、非音声期間の経過後に発話者が実際に発話しても、内積演算部18に内積演算の処理を行わせないようになっている。
【0089】
尚、比較的静寂な環境下で得られる予測残差パワーε0を基準(0dB)とし、それより0dB〜50dB高い値を上記の閾値THD’に設定している。また、閾値θ’は、θ’=0に設定されている。
【0090】
かかる構成を有する本実施形態によっても、上記第2,第3の実施形態と同様に、SN比が高くなって背景雑音のスペクトルが高域で高くなるような背景下では、音声認識率を向上させるように音声区間の検出を行うことが可能となるという効果が得られる。
【0091】
尚、図4に示した本実施形態の構成では、閾値判定部19の判定結果D1と閾値判定部21の判定結果D2に基づいて、音声区間決定部300が音声区間を示す決定結果D3を出力するようになっている。
【0092】
しかし、本発明はこれに限定されるものではない。第2の検出部200を省略することにし、音声区間決定部300は、第1の検出部100と誤判定制御部700によって求められる判定結果D1に基づいて、音声区間を示す決定結果D3を出力するようにしてもよい。
【0093】
尚、以上に説明した第1〜第4の実施形態の音声認識システムでは、図1中の構成要素8〜12に示すように、音声認識の処理を行う際、音の特性をマルコフモデルで記述する方法(すなわち、HMM法)を用いている。
【0094】
しかし、上記の各構成要素100,200,300,400,500,600,700によって構成されている各実施形態の音声切り出し手段、すなわち、入力音声データSafから認識対象とする入力音声データSvcをフレーム単位で切り出すための手段は、HMM法にのみ適応可能というものではなく、他の音声認識の処理方法にも適用することができる。例えば、動的計画法(dynamic programming:DP)を適用したDPマッチング法にも適用することが可能である。
【0095】
【発明の効果】
以上説明したように本発明の音声認識システムによれば、無声音に基づいて予め作成しておいた学習ベクトルと実際の発話によって生じる入力音声の特徴ベクトルとの内積の値が所定の閾値より大きくなるとき、又は、非音声期間の予測残差パワーに基づいて求めた閾値と実際の発話によって生じる入力音声の予測残差パワーとを比較しその閾値より予測残差パワーが大きくなるときの何れかの場合を声音区間とすることとしたので、音声認識の対象とすべき有声音と無声音を適切に求めることができる。
【0096】
また、非音声期間内に生じる背景音の特徴ベクトルと学習ベクトルの内積の値が所定値以上になる場合、又は、非音声期間内に生じる入力音声の線形予測残差パワーが所定値以下になる場合、又は、これら両者の場合に、入力音声の特徴ベクトルとの内積の値に基づいて音声区間の検出を行わず、実際の発話によって生じる入力音声の予測残差パワーが所定閾値より大きくなるときを声音区間とすることとしたので、SN比が高くなって背景音のスペクトルが高域で高くなるような背景下での音声区間の検出精度を向上させることができる。
【図面の簡単な説明】
【図1】第1の実施形態の音声認識システムの構成を示すブロック図である。
【図2】第2の実施形態の音声認識システムの構成を示すブロック図である。
【図3】第3の実施形態の音声認識システムの構成を示すブロック図である。
【図4】第4の実施形態の音声認識システムの構成を示すブロック図である。
【図5】無音声データの学習ベクトルから求めたスペクトル包絡を示す特性図である。
【図6】従来の残差パワー法を適用した音声区間検出部の構成を示すブロック図である。
【図7】従来の部分空間法を適用した音声区間検出部の構成を示すブロック図である。
【図8】音声と走行雑音のスペクトル包絡を示す特性図である。
【符号の説明】
13…無声音データベース
14,17…LPCケプストラム演算部
15…学習ベクトル生成部
16…フレーム化部
18,22,25…内積演算部
19,21,23,24,26,28…閾値判定部
20…閾値生成部
27…切替え判定部
100…第1の検出部
200…第2の検出部
300…音声区間決定部
400…音声切り出し部
500,600,700…誤判定制御部

Claims (4)

  1. 音声認識の対象とする音声の区間を検出する音声区間検出手段を備えた音声認識システムであって、
    前記音声区間検出手段は、
    データベースに記憶されている無声音のデータに基づいて、予め無声音の特徴を学習ベクトルとして生成する学習ベクトル生成手段と、
    非音声期間内に生じる入力音声の線形予測残差パワーに基づいて、音声と雑音とを識別するための閾値を生成する閾値生成手段と、
    発話によって生じる入力音声の特徴ベクトルと前記学習ベクトルとの内積値を演算し、その内積値が所定値以上となるときを音声区間と判定する内積値判定手段と、
    前記発話によって生じる入力音声の線形予測残差パワーが前記閾値生成手段で生成された閾値より大きくなるときを音声区間と判定する線形予測残差パワー判定手段と、
    前記内積値判定手段と線形予測残差パワー判定手段で判定される音声区間を、前記音声の区間として決定する音声区間決定手段と、
    を備え、
    前記音声区間決定手段により決定される音声の区間における前記入力音声を音声認識の対象とすること、
    を特徴とする音声認識システム。
  2. 更に、前記非音声期間内に生じる入力音声の特徴ベクトルと前記学習ベクトルとの内積値を演算し、その内積値が所定値以上になると、前記内積値判定手段の判定処理を停止させる誤判定制御手段を備え、
    音声区間決定手段は、前記誤判定制御手段により前記内積演算手段が停止されて前記音声区間の判定が停止された場合、前記線形予測残差パワー判定手段によって判定された音声区間を前記音声の区間として決定すること、
    を特徴とする請求項に記載の音声認識システム。
  3. 更に、前記非音声期間内によって生じる入力音声の線形予測残差パワーを演算する演算手段と、
    前記演算手段が演算した前記線形予測残差パワーが所定値以下になると、前記内積値判定手段の判定処理を停止させる誤判定制御手段と、
    を備え、
    音声区間決定手段は、前記誤判定制御手段により前記内積演算手段が停止されて前記音声区間の判定が停止された場合、前記線形予測残差パワー判定手段によって判定された音声区間を前記音声の区間として決定すること、
    を特徴とする請求項に記載の音声認識システム。
  4. 更に、前記非音声期間内によって生じる入力音声の線形予測残差パワーを演算する演算手段と、
    前記非音声期間内に生じる入力音声の特徴ベクトルと前記学習ベクトルとの内積値を演算し、その内積値が所定値以上になるとき、または、前記非音声期間内に生じる入力音声の線形予測残差パワーが所定値以下になるときに、前記内積値判定手段の判定処理を停止させる誤判定制御手段と、
    を備え、
    音声区間決定手段は、前記誤判定制御手段により前記内積演算手段が停止されて前記音声区間の判定が停止された場合、前記線形予測残差パワー判定手段によって判定された音声区間を前記音声の区間として決定すること、
    を特徴とする請求項に記載の音声認識システム。
JP2000277024A 2000-09-12 2000-09-12 音声認識システム Expired - Fee Related JP4201470B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2000277024A JP4201470B2 (ja) 2000-09-12 2000-09-12 音声認識システム
US09/948,762 US20020049592A1 (en) 2000-09-12 2001-09-10 Voice recognition system
DE60142729T DE60142729D1 (de) 2000-09-12 2001-09-10 Spracherkennungssystem
EP01307684A EP1189200B1 (en) 2000-09-12 2001-09-10 Voice recognition system
CNB011328746A CN1152366C (zh) 2000-09-12 2001-09-12 声音识别系统
US10/995,509 US20050091053A1 (en) 2000-09-12 2004-11-24 Voice recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000277024A JP4201470B2 (ja) 2000-09-12 2000-09-12 音声認識システム

Publications (3)

Publication Number Publication Date
JP2002091467A JP2002091467A (ja) 2002-03-27
JP2002091467A5 JP2002091467A5 (ja) 2005-10-27
JP4201470B2 true JP4201470B2 (ja) 2008-12-24

Family

ID=18762410

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000277024A Expired - Fee Related JP4201470B2 (ja) 2000-09-12 2000-09-12 音声認識システム

Country Status (5)

Country Link
US (2) US20020049592A1 (ja)
EP (1) EP1189200B1 (ja)
JP (1) JP4201470B2 (ja)
CN (1) CN1152366C (ja)
DE (1) DE60142729D1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI114358B (fi) * 2002-05-29 2004-09-30 Nokia Corp Menetelmä digitaalisessa verkkojärjestelmässä päätelaitteen lähetyksen ohjaamiseksi
US20050010413A1 (en) * 2003-05-23 2005-01-13 Norsworthy Jon Byron Voice emulation and synthesis process
US20050058978A1 (en) * 2003-09-12 2005-03-17 Benevento Francis A. Individualized learning system
KR100717396B1 (ko) 2006-02-09 2007-05-11 삼성전자주식회사 로컬 스펙트럴 정보를 이용하여 음성 인식을 위한 유성음을판단하는 방법 및 장치
JP4973731B2 (ja) * 2007-07-09 2012-07-11 富士通株式会社 音声認識装置、音声認識方法、および、音声認識プログラム
US20090030676A1 (en) * 2007-07-26 2009-01-29 Creative Technology Ltd Method of deriving a compressed acoustic model for speech recognition
KR100930060B1 (ko) * 2008-01-09 2009-12-08 성균관대학교산학협력단 신호 검출 방법, 장치 및 그 방법을 실행하는 프로그램이기록된 기록매체
JP5385810B2 (ja) * 2010-02-04 2014-01-08 日本電信電話株式会社 線形分類モデルに基づく音響モデルパラメータ学習方法とその装置、音素重み付き有限状態変換器生成方法とその装置、それらのプログラム
KR102238979B1 (ko) * 2013-11-15 2021-04-12 현대모비스 주식회사 음성 인식을 위한 전처리 장치 및 그 방법

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4592086A (en) * 1981-12-09 1986-05-27 Nippon Electric Co., Ltd. Continuous speech recognition system
JPS58143394A (ja) * 1982-02-19 1983-08-25 株式会社日立製作所 音声区間の検出・分類方式
EP0127718B1 (fr) * 1983-06-07 1987-03-18 International Business Machines Corporation Procédé de détection d'activité dans un système de transmission de la voix
JPS62169199A (ja) * 1986-01-22 1987-07-25 株式会社デンソー 音声認識装置
US5276765A (en) * 1988-03-11 1994-01-04 British Telecommunications Public Limited Company Voice activity detection
US5159637A (en) * 1988-07-27 1992-10-27 Fujitsu Limited Speech word recognizing apparatus using information indicative of the relative significance of speech features
EP0381507A3 (en) * 1989-02-02 1991-04-24 Kabushiki Kaisha Toshiba Silence/non-silence discrimination apparatus
JP3002204B2 (ja) * 1989-03-13 2000-01-24 株式会社東芝 時系列信号認識装置
JPH06332492A (ja) * 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 音声検出方法および検出装置
IN184794B (ja) * 1993-09-14 2000-09-30 British Telecomm
WO1996034382A1 (en) * 1995-04-28 1996-10-31 Northern Telecom Limited Methods and apparatus for distinguishing speech intervals from noise intervals in audio signals
US6084967A (en) * 1997-10-29 2000-07-04 Motorola, Inc. Radio telecommunication device and method of authenticating a user with a voice authentication token
EP0953971A1 (en) * 1998-05-01 1999-11-03 Entropic Cambridge Research Laboratory Ltd. Speech recognition system and method
US6615170B1 (en) * 2000-03-07 2003-09-02 International Business Machines Corporation Model-based voice activity detection system and method using a log-likelihood ratio and pitch
US6542869B1 (en) * 2000-05-11 2003-04-01 Fuji Xerox Co., Ltd. Method for automatic analysis of audio including music and speech

Also Published As

Publication number Publication date
US20050091053A1 (en) 2005-04-28
JP2002091467A (ja) 2002-03-27
CN1152366C (zh) 2004-06-02
DE60142729D1 (de) 2010-09-16
CN1343966A (zh) 2002-04-10
EP1189200A1 (en) 2002-03-20
US20020049592A1 (en) 2002-04-25
EP1189200B1 (en) 2010-08-04

Similar Documents

Publication Publication Date Title
US11996097B2 (en) Multilingual wakeword detection
US8532991B2 (en) Speech models generated using competitive training, asymmetric training, and data boosting
JP4355322B2 (ja) フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置
EP2048655B1 (en) Context sensitive multi-stage speech recognition
JP4911034B2 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
JP4224250B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP4340685B2 (ja) 音声認識装置及び音声認識方法
WO2010128560A1 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP4201470B2 (ja) 音声認識システム
JP3069531B2 (ja) 音声認識方法
JP4201471B2 (ja) 音声認識システム
US11282495B2 (en) Speech processing using embedding data
JP2797861B2 (ja) 音声検出方法および音声検出装置
JPH08211897A (ja) 音声認識装置
EP1063634A2 (en) System for recognizing utterances alternately spoken by plural speakers with an improved recognition accuracy
US20090254335A1 (en) Multilingual weighted codebooks
JP2001175276A (ja) 音声認識装置及び記録媒体
JP3457578B2 (ja) 音声合成を用いた音声認識装置および音声認識方法
JP2798919B2 (ja) 音声区間検出方式
Takahashi et al. Isolated word recognition using pitch pattern information
Herbig et al. Adaptive systems for unsupervised speaker tracking and speech recognition
JPH0635495A (ja) 音声認識装置
JPH0713590A (ja) 音声認識方式
JPH11288293A (ja) 音声認識装置および記憶媒体
JPH0220900A (ja) 音素判別方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050721

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050721

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080415

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080711

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080901

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080930

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081007

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111017

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees