JP4201471B2

JP4201471B2 - 音声認識システム

Info

Publication number: JP4201471B2
Application number: JP2000277025A
Authority: JP
Inventors: 載小林
Original assignee: Pioneer Corp
Current assignee: Pioneer Corp
Priority date: 2000-09-12
Filing date: 2000-09-12
Publication date: 2008-12-24
Anticipated expiration: 2020-09-12
Also published as: US20020046026A1; US7035798B2; CN1249665C; JP2002091468A; CN1343967A; EP1189201A1

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識システムに関し、特に音声区間の検出の精度向上を図った音声認識システムに関する。
【０００２】
【従来の技術】
音声認識システムでは、例えば雑音等のある背景下で発話された音声をそのまま音声認識した場合、雑音等の影響によって音声認識率の低下を招くことから、音声認識を行うためにはまず音声区間を正しく検出することが重要な課題となっている。
【０００３】
従来、ベクトル内積法を用いて音声区間の検出を行う音声認識システムとして、図４に示す構成のものが知られている。
【０００４】
この音声認識システムは、隠れマルコフモデル（Hidden Markov Model：ＨＭＭ）を用いて単語やサブワード（音素、音節等）単位の音響モデル（音声ＨＭＭ）を作成しておき、認識すべき音声が発話されると、その入力音声のケプストラムの時系列である観測値系列を生成して、観測値系列と音声ＨＭＭとを照合し、最大尤度を与える音声ＨＭＭを選んでこれを認識結果として出力する。
【０００５】
より具体的には、学習用音声データベースに実験的に収集して記憶しておいた大量の音声データＳmを所定期間（１０〜２０msec程度）のフレーム単位に区分けし、各フレーム単位のデータを順次にケプストラム（Cepstrum）演算することによってケプストラムの時系列を求め、更にこのケプストラムの時系列を音声の特徴量として学習処理して、音響モデル（音声ＨＭＭ）のパラメータに反映させることで、単語やサブワード単位の音声ＨＭＭを作成している。
【０００６】
また、音声区間の検出を行う音声区間検出部は、音響分析部１，３と、固有ベクトル生成部２、内積演算部４、比較部５、音声切り出し部６とによって構成されている。
【０００７】
ここで、音響分析部１は、学習用音声データベース中の音声データＳmを所定フレーム数ｎずつ音響分析することにより、Ｍ次元の特徴ベクトルｘ_n＝〔ｘ_n1 ｘ_n2 ｘ_n3 … ｘ_nM〕^Tを生成する。ここで、Ｔは転置を表す。
【０００８】
固有ベクトル生成部２は、Ｍ次元の特徴ベクトルｘ_nから次式（１）で表される相関行列Ｒを求め、更に次式（２）を解いて相関行列Ｒを固有値展開することにより、固有ベクトル（学習ベクトルと呼ばれる）Ｖを求めるようになっている。
【０００９】
【数１】

【００１０】
【数２】

【００１１】
こうして学習用の音声データＳmに基づいて予め学習ベクトルＶを求めておき、実際に発話によって入力音声データＳaが入力されると、音響分析部４が入力音声データＳaを音響分析することによって特徴ベクトルＡを生成し、内積演算部５が上記の学習ベクトルＶと特徴ベクトルＡの内積を求め、更に、比較部６が内積値Ｖ^TＡと予め決められた固定の閾値θとを比較して、内積値Ｖ^TＡが閾値θより大きな値となった場合に音声区間であると判定する。
【００１２】
そして、上記判定された音声区間の間、音声切り出し部７がオン（導通）になることで、入力音声データＳaから音声認識の対象とすべき入力音声データＳvcを切り出し、音声ＨＭＭと照合させるべき観測値系列を生成させることとしている。
【００１３】
【発明が解決しようとする課題】
ところで、上記従来のベクトル内積法を用いた音声区間の検出法では、閾値θを零（θ＝０）に固定している。そして、実際の環境下で得られる入力音声のデータＳaの特徴ベクトルＡと学習ベクトルＶとの内積値Ｖ^TＡがこの固定閾値θより大きくなったときを音声区間と判定することとしている。
【００１４】
このため、雑音の少ない背景下で発話が行われたような場合、図５（ａ）に示すように、実際の環境下で得られる入力音声中の雑音の特徴ベクトル（雑音ベクトル）と、本来の音声の特徴ベクトル（音声ベクトル）と、実際の環境下で得られる入力音声の特徴ベクトルＡと、学習ベクトルＶとの夫々の関係を、線形スペクトル領域上で見ると、雑音ベクトルは小さくなって、本来の音声の音声ベクトルは優勢になることから、実際の環境下で得られる入力音声の特徴ベクトルＡは、音声ベクトル及び学習ベクトルＶと同様の方向となる。
【００１５】
したがって、特徴ベクトルＡと学習ベクトルＶとの内積値Ｖ^TＡは正（プラス）の値となることから、固定閾値θ（＝０）を判定基準とすることで音声区間の検出が可能となる。
【００１６】
しかし、例えば自動車の車室内等のように、雑音が多くＳＮ比が低下するような場所では、図５（ｂ）に示すように、雑音ベクトルが優勢となって、音声ベクトルが相対的に小さくなることから、実際の環境下で得られる入力音声の特徴ベクトルＡは、音声ベクトル及び学習ベクトルＶとは逆の方向となる。したがって、特徴ベクトルＡと学習ベクトルＶとの内積値Ｖ^TＡは負（マイナス）の値となることから、固定閾値θ（＝０）を判定基準としたのでは、音声区間を正しく検出することができなくなるという問題があった。
【００１７】
別言すれば、雑音が多くＳＮ比が低下するような場所で音声認識を行うことにすると、図５（ｃ）に示すように、音声区間と判定すべきときでも、特徴ベクトルＡと学習ベクトルＶの内積値Ｖ^TＡが負の値（Ｖ^TＡ＜θ）となってしまい、音声区間を正しく検出することができなくなるという問題があった。
【００１８】
本発明は上記従来の問題点を克服し、音声区間の検出精度の向上を図った音声認識システムを提供することを目的とする。
【００１９】
【課題を解決するための手段】
上記目的を達成するため請求項１に記載の発明は、音声認識の対象とする音声の区間を検出する音声区間検出手段を備えた音声認識システムであって、前記音声区間検出手段は、データベースに記憶されている無声音のデータに基づいて、予め無声音の特徴を学習ベクトルとして生成する学習ベクトル生成手段と、非音声期間内に生じる音の特徴ベクトルと前記学習ベクトルとの内積値に基づいて第１の閾値を生成する第１の閾値生成手段と、発話によって生じる入力音声の特徴ベクトルと前記学習ベクトルとの内積値を演算し、その内積値が前記第１の閾値以上となるときを音声区間と判定する第１の判定手段と、前記非音声期間内に生じる音の予測残差パワーに基づいて第２の閾値を生成する第２の閾値生成手段と、前記入力音声の予測残差パワーが前記第２の閾値以上となるときを音声区間と判定する第２の判定手段と、を備え、前記第１の判定手段により判定される音声区間における前記入力音声又は前記第２の判定手段により判定される音声区間における前記入力音声を音声認識の対象とすること、を特徴とする。
【００２５】
【発明の実施の形態】
以下、本発明の実施の形態を図面を参照して説明する。尚、図１は本実施形態の音声認識システムの構成を示すブロック図である。
【００２６】
図１において、本音声認識システムには、隠れマルコフモデルを用いて作成された単語やサブワード単位の音響モデル（音声ＨＭＭ）１１と、認識部１２と、ケプストラム演算部１３とが備えられ、ケプストラム演算部１３で生成される入力音声のケプストラムの時系列である観測値系列と音声ＨＭＭ１１とを認識部１２が照合し、最大尤度を与える音声ＨＭＭを選んでこれを認識結果として出力する。
【００２７】
すなわち、実験的に収集し学習用音声データベース７に記憶した音声データＳmを、フレーム化部８が所定期間（１０〜２０msec程度）のフレーム単位に区分けし、フレーム単位の音声データをケプストラム演算部９が順次にケプストラム演算することにより、ケプストラムの時系列を求め、更にこのケプストラムの時系列を音声の特徴量として学習部１０が学習処理することにより、単語やサブワード単位の音声ＨＭＭ１１が予め作成されている。
【００２８】
そして、後述の音声区間の検出によって切り出される実際の入力音声データＳvcをケプストラム演算部１３がケプストラム演算することによって上記の観測値系列を生成し、認識部１２がその観測値系列と音声ＨＭＭ１１とを単語やサブワード単位で照合することにより、音声認識を行うようになっている。
【００２９】
更に、本音声認識システムには、実際に発話された音声（入力音声）の音声区間を検出し、音声認識対象としての上記入力音声データＳvcを切り出すための音声区間検出部が備えられ、音声区間検出部は、第１の検出部１００、第２の検出部２００、音声区間決定部３００、及び音声切り出し部４００を備えて構成されている。
【００３０】
ここで、第１の検出部１００には、予め実験的に収集した音声の無声音部分のデータ（無声音データ）Ｓcを記憶する学習用無声音データベース１４と、ＬＰＣケプストラム分析部１５と、学習ベクトル生成部１６が備えられている。
【００３１】
ＬＰＣケプストラム分析部１５は、学習用無声音データベース１４中の無声音データＳcを所定期間（１０〜２０msec程度）のフレーム単位でＬＰＣ（linear predictive coding）ケプストラム分析することにより、ケプストラム領域でのＭ次元特徴ベクトルｃ_n＝〔ｃ_n1，ｃ_n2，…，ｃ_nM〕^Tを生成する。
【００３２】
学習ベクトル生成部１６は、Ｍ次元の特徴ベクトルｃ_nから次式（３）で表される相関行列Ｒを求めると共に、相関行列Ｒを固有値展開することによりＭ個の固有値λ_kと固有ベクトルｖ_kを求め、更に、Ｍ個の固有値λ_kのうちの最大固有値に対応する固有ベクトルを学習ベクトルＶとすることで、無声音の特徴を良く表した学習ベクトルＶを生成する。尚、次式（３）中、変数ｎはフレーム番号、Ｔは転置を表している。
【００３３】
【数３】

【００３４】
更に第１の検出部１００には、実際に発話された入力音声のデータＳaを所定期間（１０〜２０msec程度）のフレーム単位に区分けして入力するフレーム化部１７と、ＬＰＣケプストラム分析部１８と、内積演算部１９、閾値生成部２０、第１の閾値判定部２１が備えられている。
【００３５】
ＬＰＣケプストラム分析部１８は、フレーム化部１７から出力されるフレーム単位の入力音声データＳafをＬＰＣ分析することにより、ケプストラム領域でのＭ次元の特徴ベクトルＡと、予測残差パワーεを求める。
【００３６】
内積演算部１９は、学習ベクトル生成部１６で予め生成されている上記の学習ベクトルＶと特徴ベクトルＡの内積値Ｖ^TＡを求める。
【００３７】
閾値生成部２０は、本音声認識システムに備えられている発話開始スイッチ（図示省略）を発話者がオン操作して、実際に発話を開始するまでの所定期間（非音声期間）τ１内に、内積演算部１８で求められる特徴ベクトルＡと学習ベクトルＶの内積を演算し、更に非音声期間τ１内に求めた複数フレーム分の内積値Ｖ^TＡの時間平均値Ｇを求める。そして、時間平均値Ｇと予め実験的に求めておいた調整値αとを加算し、その加算値を第１の閾値θv（＝Ｇ＋α）として、第１の閾値判定部２１に供給する。
【００３８】
第１の閾値判定部２１は、上記の非音声期間τ１の経過後、内積演算部１９から出力される内積値Ｖ^TＡを閾値θvと比較し、内積値Ｖ^TＡが閾値θvより大きいときを音声区間と判定し、その判定結果Ｄ１を音声区間決定部３００に供給する。
【００３９】
すなわち、非音声期間τ１の経過後、実際に発話が行われてフレーム化部１７が入力音声データＳaをフレーム単位の入力音声データＳafに区分けして入力すると、フレーム単位の入力音声データＳafをＬＰＣケプストラム分析部１８がＬＰＣケプストラム分析することで、入力音声データＳafの特徴ベクトルＡと予測残差パワーεを求め、更に、内積演算部１９が、入力音声データＳafの特徴ベクトルＡと学習ベクトルＶの内積を求める。そして、その内積値Ｖ^TＡと閾値θvとの比較を第１の閾値判定部２１が行い、内積値Ｖ^TＡが閾値θvより大きい場合に、音声区間と判定してその判定結果Ｄ１を音声区間検出部３００に供給する。
【００４０】
第２の検出部２００は、閾値生成部２２と第２の閾値判定部２３を備えて構成されている。
【００４１】
ここで、閾値生成部２２は、上記の発話開始スイッチを発話者がオン操作して、実際に発話を開始するまでの非音声期間τ１内に、ＬＰＣケプストラム分析部１８で求められる予測残差パワーεの時間平均値Ｅを求めると共に、予め実験的に決められた調整値βを時間平均値Ｅに加算することにより、閾値ＴＨＤ（＝Ｅ＋β）を求めて閾値判定部２３に供給する。
【００４２】
第２の閾値判定部２３は、非音声期間τ１の経過後、ＬＰＣケプストラム分析部１８で求められる予測残差パワーεと閾値ＴＨＤとを比較し、ＴＨＤ≦εとなったときを音声区間と判定し、その判定結果Ｄ２を音声区間決定部３００に供給する。
【００４３】
すなわち、非音声期間τ１の経過後、実際に発話が行われてフレーム化部１７が入力音声データＳaをフレーム単位の入力音声データＳafに区分けして入力すると、フレーム単位の入力音声データＳafをＬＰＣケプストラム分析部１８がＬＰＣ分析することで、入力音声データＳafの特徴ベクトルＡと予測残差パワーεを求め、更に、その予測残差パワーεと閾値ＴＨＤとの比較を第２の閾値判定部２３が行い、予測残差パワーεが閾値ＴＨＤより大きい場合に、音声区間と判定してその判定結果Ｄ２を音声区間検出部３００に供給する。
【００４４】
音声区間決定部３００は、第１の検出部１００から判定結果Ｄ１が供給されるときと、第２の検出部２００から判定結果Ｄ２が供給されるときを、入力音声Ｓaの音声区間τ２と決定する。すなわち、θv≦Ｖ^TＡ又はＴＨＤ≦εのいずれか一方の条件が満足されるときを音声区間τ２と決定し、その決定結果Ｄ３を音声切り出し部４００に供給する。
【００４５】
音声切り出し部４００は、上記の決定結果Ｄ３に基づいて最終的に音声区間を検出し、フレーム化部１７より供給されるフレーム単位の入力音声データＳafから、認識対象とする入力音声データＳvcをフレーム単位で切り出してケプストラム演算部１３へ供給する。
【００４６】
そして、ケプストラム演算部１３が、その切り出された入力音声データＳvcに基づいて、ケプストラム領域での観測値系列を生成し、更に認識部１２が観測値系列と音声ＨＭＭ１１とを照合することで、音声認識を行う。
【００４７】
このように本実施形態の音声認識システムによれば、第１の検出部１００は主に無声音の音声区間を正しく検出するのに有効な機能を発揮し、第２の検出部１００は主に有声音の音声区間を正しく検出するのに有効な機能を発揮することになる。
【００４８】
すなわち、第１の検出部１００は、学習用の無声音データＳcに基づいて予め作成しておいた無声音の学習ベクトルＶと実際の発話によって生じる入力音声データＳafの特徴ベクトルＡとの内積を求め、得られた内積値Ｖ^TＡが閾値θvより大きな値となったときを入力音声データＳa中の無声音の区間と判断することになる。つまり、比較的パワーの小さな無声音を高精度で検出することが可能となる。
【００４９】
第２の検出部２００は、予め非音声期間の予測残差パワーに基づいて求めた閾値ＴＨＤと実際の発話によって生じる入力音声データＳafの予測残差パワーεとを比較し、ＴＨＤ≦εとなったときを入力音声データＳa中の有声音の区間と判断することになる。つまり、比較的パワーの大きな有声音を高精度で検出することが可能となる。
【００５０】
そして、音声区間決定部が第１，第２の検出部１００，２００の判定結果Ｄ１，Ｄ２に基づいて音声区間（有声音又は無声音の区間）を最終的に決定し、その決定結果Ｄ３に基づいて、音声認識の対象とすべき入力音声データＤvcを切り出すので、音声認識の精度向上を図ることができる。
【００５１】
尚、第１の検出部１００の判定結果Ｄ１及び第２の検出部２００の判定結果Ｄ２に基づいて音声区間を決定しても良いし、第１の検出部１００の判定結果Ｄ１又は、第２の検出部２００の判定結果Ｄ２の何れか一方の判定結果に基づいて音声区間を決定しても良い。
【００５２】
更に、上記の非音声期間τ１、すなわち実際に発話が行われていない期間に、ＬＰＣケプストラム分析部１８が背景音だけの特徴ベクトルＡを生成し、その特徴ベクトルＡと学習ベクトルＶの内積値Ｖ^TＡに所定の調整値αを加えた値Ｖ^TＡ＋αを閾値θvとする。このため、音声区間を検出するための判定基準である閾値θvは、実際に背景雑音等が生じている環境に応じて適切に可変調整が行われ、音声区間の検出精度を向上させることが可能となる。
【００５３】
つまり、従来は、例えば自動車の車室内等のように、雑音が多くＳＮ比が低下するような場所では、図５（ｂ）に示したように、雑音ベクトルが優勢となって、音声ベクトルが相対的に小さくなることから、実際の環境下で得られる入力音声の特徴ベクトルＡは、音声ベクトル及び学習ベクトルＶとは逆の方向となり、したがって特徴ベクトルＡと学習ベクトルＶとの内積値Ｖ^TＡは負（マイナス）の値となることから、固定閾値θ（＝０）を判定基準としたのでは、音声区間を正しく検出することができなくなるという問題があった。
【００５４】
これに対し、本実施形態の音声認識システムでは、図２に示すように、特徴ベクトルＡと学習ベクトルＶとの内積値Ｖ^TＡが負の値になったとしても、予め閾値θvを背景雑音等に応じて適応的に可変調整するので、閾値θvを判定基準として内積値Ｖ^TＡを比較することで、音声区間の検出が可能となる。
【００５５】
別言すれば、図３に示すように、実際に発話された入力音声の特徴ベクトルＡと学習ベクトルＶの内積値Ｖ^TＡが閾値θvに掛かるように、その閾値θvを適切に可変調整することが可能となり、音声区間の検出精度の向上を可能にする。
【００５６】
尚、以上に述べた実施形態では、非音声期間τ１内に、内積演算部１８で求められる特徴ベクトルＡと学習ベクトルＶの内積を演算し、更に非音声期間τ１内に求めた複数フレーム分の内積値Ｖ^TＡの時間平均値Ｇを求め、この時間平均値Ｇに所定の調整値αを加算した値を閾値θvとしている。
【００５７】
ただし、本発明はこれに限定されるものではなく、非音声期間τ１内に求めた複数フレーム分の内積値Ｖ^TＡのうちの最大値（Ｖ^TＡ）maxを求め、最大値（Ｖ^TＡ）maxと実験的に決めた所定の閾値α’とを加算した値（Ｖ^TＡ）max＋α’を閾値θvとしてもよい。
【００５８】
【発明の効果】
以上説明したように本発明の音声認識システムによれば、非音声期間の音の特徴ベクトルと学習ベクトルの内積値に基づいて第１の閾値を生成し、実際に発話が行われると入力音声の特徴ベクトルと学習ベクトルの内積値を第１の閾値と比較して音声区間の検出を行うようにしたので、音声区間の検出精度を向上させることができる。すなわち、音声区間の判定基準となる第１の閾値を非音声期間の音に応じて適応的に可変調整するので、第１の閾値を判定基準として、入力音声の特徴ベクトルと学習ベクトルの内積値を比較することで、音声区間を適切に検出することができる。
【００５９】
また、第１の判定手段が入力音声の特徴ベクトルと学習ベクトルの内積値に基づいて音声区間を判定する他、第２の判定手段が入力音声の予測残差パワーに基づいて音声区間を判定し、これら一方の判定手段が判定した音声区間に該当する入力音声を音声認識対象とすることとしたので、無声音と有声音の音声区間を正しく検出することができる。
【図面の簡単な説明】
【図１】本実施形態の音声認識システムの構成を示すブロック図である。
【図２】低ＳＮ比における学習ベクトルと入力音声の特徴ベクトルと内積値の関係を示す図である。
【図３】可変閾値と内積値の関係を示す図である。
【図４】従来のベクトル内積法を適用して音声区間の検出を行う音声認識システムの構成を示したブロック図である。
【図５】従来のベクトル内積法を適用して音声区間を検出する検出法の問題点を説明するための図である。
【符号の説明】
７…学習用音声データベース
８，１７…フレーム化部
９，１３…ケプストラム演算部
１０…学習部
１１…音声ＨＭＭ
１２…認識部
１４…学習無音声データベース
１５，１８…ＬＰＣケプストラム分析部
１９…内積演算部
２０，２２…閾値生成部
２１，２３…閾値判定部
１００…第１の検出部
２００…第２の検出部
３００…音声区間決定部
４００…音声切り出し部

Claims

音声認識の対象とする音声の区間を検出する音声区間検出手段を備えた音声認識システムであって、
前記音声区間検出手段は、
データベースに記憶されている無声音のデータに基づいて、予め無声音の特徴を学習ベクトルとして生成する学習ベクトル生成手段と、
非音声期間内に生じる音の特徴ベクトルと前記学習ベクトルとの内積値に基づいて第１の閾値を生成する第１の閾値生成手段と、
発話によって生じる入力音声の特徴ベクトルと前記学習ベクトルとの内積値を演算し、その内積値が前記第１の閾値以上となるときを音声区間と判定する第１の判定手段と、
前記非音声期間内に生じる音の予測残差パワーに基づいて第２の閾値を生成する第２の閾値生成手段と、
前記入力音声の予測残差パワーが前記第２の閾値以上となるときを音声区間と判定する第２の判定手段と、を備え、
前記第１の判定手段により判定される音声区間における前記入力音声又は前記第２の判定手段により判定される音声区間における前記入力音声を音声認識の対象とすること、
を特徴とする音声認識システム。