JPH08211897A

JPH08211897A - 音声認識装置

Info

Publication number: JPH08211897A
Application number: JP7019490A
Authority: JP
Inventors: Shigeki Aoshima; 滋樹青島
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 1995-02-07
Filing date: 1995-02-07
Publication date: 1996-08-20
Also published as: EP0726561A3; EP0726561A2; US5732393A

Abstract

(57)【要約】【目的】時間に関して局所的に動的な特徴を捉え、子
音の判別および過渡部分における判別精度を上昇する。【構成】音響処理部１２においては、ＬＰＣケプスト
ラム、１次デルタケプストラム、２次デルタケプストラ
ムの３つに基づいた第１〜第３パラメータを計算する。
第１パラメータは、静的な特徴を捉え、第２パラメータ
は時間的に動的な特徴を捉え、第３パラメータは時間に
関し局所的に動的な特徴を捉える。そして、単語辞書１
４にも標準パターンについての第１〜第３パラメータが
記憶されている。そこで、ＤＰマッチング部１６におい
て、これら３つのパラメータの入力音声と標準パターン
の距離に基づく音声認識が行われる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、入力音声をパラメータ
化し、参照すべき単語辞書と比較して音声認識を行う音
声認識装置に関する。

【０００２】

【従来の技術】従来より、マンマシンインターフェース
の非常に優れた（操作者にとって負担が少ない）ものと
して、音声認識を利用したものが考えられている。例え
ば、各種の操作を操作者の発声によって指示できれば、
非常に操作性がよい。そこで、従来より、音声認識につ
いての各種の研究がなされ、各種音声認識装置について
の提案もある。

【０００３】音声認識のためのパラメータとしては、Ｌ
ＰＣ（線形予測コーディング）ケプストラムを利用する
ものが、よく知られている。この方法は、ＬＰＣ分析に
よって得られたスペクトル包絡のＬＰＣケプストラム係
数を利用するものであり、辞書にあるケプストラム係数
と、入力音声から得られたケプストラム係数の距離（Ｌ
ＰＣケプストラム距離）に基づいて音声認識を行う。

【０００４】このＬＰＣケプストラムに基づくパラメー
タは、ある１時点のみを表すものである。従って、母音
など同一波形がある程度繰り返すもの、すなわち静的な
特徴を持つ音素の認識に適している。ところが、このパ
ラメータでは、破裂音、鼻音など動的な特徴を捉えにく
い。

【０００５】そこで、パラメータとして、デルタケプス
トラムを利用することが知られている。このデルタケプ
ストラムは、ＬＰＣケプストラム法などにより得られた
数フレームのケプストラム（時間的に異なる数ケプスト
ラム）の１次回帰係数を求めたものである。従って、デ
ルタケプストラムは、ケプストラムの１次微分に対応
し、変化度合いを示すパラメータになる。従って、この
デルタケプストラムの距離（デルタケプストラム距離）
をパラメータとすることによって、ケプストラムの変化
状態をパラメータとして判定（ＤＰマッチング処理）す
ることができ、破裂音、鼻音等を効果的に認識できる。

【０００６】そして、実際の認識においては、ＬＰＣケ
プストラム距離とデルタケプストラム距離の両方を考慮
しなければならないため、それぞれに重み付けして加算
した距離に基づいて認識を行う。

【０００７】ここで、ＬＰＣケプストラム距離と、デル
タケプストラム距離は認識対象の音声に応じて有効な時
が異なる。そこで、これらに対する重みを入力音声の状
態により変更することが好ましい。特開平５−１９７３
９７号公報では、重みを音声の時間に関するスペクトル
変動に基づいて変更する。これによって、より正しい音
声認識が行える。

【０００８】

【発明が解決しようとする課題】このように、上記従来
例によれば、デルタケプストラムを用いるため、時間に
関して動的な特徴を考慮して、音声認識が行える。しか
し、デルタケプストラムはケプストラムの時間変化につ
いてのものであり、子音から母音への過渡部分などの特
徴をよく表すが、破裂音の破裂点自体ではその特徴を捉
えることができない。すなわち、一次回帰係数を求める
ための数フレームの中で、破裂音の破裂点は１フレーム
内に収まってしまうため、破裂点のデルタケプストラム
はほとんど０である。

【０００９】このように、デルタケプストラムでは、数
フレームにわたって平均化してしまうので、局所的に動
的なスペクトルの変化を捉えることができないという問
題点があった。

【００１０】本発明は、上記問題点を解決することを課
題としてなされたものであり、時間に関して局所的に動
的な特徴を捉え、子音の判別および過渡部分における判
別精度を上昇することができる音声認識装置を提供する
ことを目的とする。

【００１１】

【課題を解決するための手段】本発明は、入力音声をパ
ラメータ化し、参照すべき単語辞書と比較して音声認識
を行う音声認識装置において、入力音声の時間に関して
静的な特徴を捉えた第１パラメータと、入力音声の時間
に関して動的な特徴を捉えた第２パラメータと、入力音
声の時間的な動きについての変化を特徴としてとらえた
第３パラメータと、を生成する入力音声のパラメータ化
手段と、このパラメータ化手段において生成された各パ
ラメータに関する重み係数を算出する重み係数算出手段
と、前記第１、第２、第３パラメータおよびこれら各パ
ラメータについての重み係数に基づいて、前記単語辞書
を参照し、最適な単語を選択する単語認識手段と、を有
することを特徴とする。

【００１２】また、前記第１パラメータはＬＰＣケプス
トラムから求められるパラメータであり、第２パラメー
タはデルタケプストラムから求められるパラメータであ
り、第３パラメータは２次デルタケプストラムであるこ
とを特徴とする。

【００１３】また、前記単語辞書から得られる参照すべ
き単語情報のデルタケプストラムおよび２次デルタケプ
ストラムの大きさに基づいて前記重み係数を決定するこ
とを特徴とする。

【００１４】また、前記入力された音声と騒音の比に応
じて、前記重み係数を変化させることを特徴とする。

【００１５】また、前記単語認識手段は、入力音声を音
素毎に状態遷移する時系列モデルを用いる方式であり、
前記デルタケプストラムまたは２次デルタケプストラム
の値により状態遷移を特定することを特徴とする。

【００１６】

【作用】このように、本発明によれば、単語認識手段に
おいて、第１、第２のパラメータだけでなく時間に関し
て動的な特徴と捉えた第３パラメータを用いる。これに
よって、子音の判別および過渡部分の判別精度を上昇す
ることができる。

【００１７】ＬＰＣケプストラムは静的な特徴を捉え、
デルタケプストラムは時間に関して動的な特徴を捉え、
２次デルタケプストラムは、時間に関して局所的に動的
な特徴を捉える。第１〜第３パラメータにこれらを採用
することで、好適な音声認識が行える。

【００１８】また、各パラメータの重み係数を１次、２
次デルタケプストラムの大きさに基づいて設定すること
により、これら１次、２次デルタケプストラムが大き
く、重要であるときにこれらに大きな重みを付与するこ
とができる。これによって、入力音声の部分部分におい
て常に最適な認識が行える。

【００１９】また、定常的な騒音は、第１パラメータに
対する影響が大きい。そこで、入力音声のＳ／Ｎ比が小
さく騒音が大きいときに、比較的騒音の影響の小さい１
次、２次デルタケプストラムに基づく第２、第３パラメ
ータの重みを大きくすることができる。これによって、
騒音の影響を考慮して好適な音声認識が行える。

【００２０】また、デルタケプストラムまたは２次デル
タケプストラムの値が大きいところは、音が変わってい
るところであり、状態が遷移するところである。そこ
で、この値に応じて状態遷移を特定することができる。
これによって、計算量を大幅に減少することができる。

【００２１】

【実施例】以下、本発明の実施例について、図面に基づ
いて説明する。

【００２２】「第１実施例」図１は、実施例の全体構成
を示すブロック図であり、音声を電気的な音声信号に変
換するマイクロフォン１０、マイクロフォン１０からの
音声信号を処理しＬＰＣケプストラム等を算出する音響
処理部１２と、各種単語についてのＬＰＣケプストラム
等を記憶する単語辞書１４、音響処理部１２から供給さ
れるデータと単語辞書１４から供給されるデータの距離
の演算から音声認識を行うＤＰマッチング部１６からな
っている。なお、音響処理部１２とＤＰマッチング部１
６との間には切り換えスイッチ１８が設けられており、
音響処理部１２からの出力が単語辞書１４にも供給でき
るようになっている。

【００２３】そして、音響処理部１２においては、時間
に関して静的な特徴を捉えた第１パラメータと、時間に
関して動的な特徴を捉えた第２パラメータと、時間に関
して局所的に動的な特徴を捉えた第３パラメータを算出
する。また、単語辞書１４には、各単語について、これ
ら３つのパラメータが記憶されている。そこで、ＤＰマ
ッチング部１６においては、入力信号と辞書に記憶され
ている単語の間で、これら３つのパラメータについての
距離を求め、求められた３つの距離に所定の重み付け演
算を行い、距離が最小の単語を最適な単語として選択す
る。

【００２４】なお、単語辞書には、予め標準的な発音で
のデータが各単語毎に記憶されていてもよいが、車両に
搭載される音声認識装置など話者がある程度特定される
ものについては、切り換えスイッチ１８を切り換えて音
響処理部１２からのデータを単語辞書に供給し、単語辞
書において各単語のデータを学習により記憶するとよ
い。

【００２５】「３つのパラメータの説明」ここで、本実
施例において利用する３つのパラメータ（第１、第２、
第３パラメータ）について説明する。まず、第１のパラ
メータは、ＬＰＣケプストラムから求められるパラメー
タとする。通常の場合、所定数（例えば、８次の係数ま
での８つ）のＬＰＣケプストラム係数が採用される。第
２パラメータは、デルタケプストラムから求められるパ
ラメータであり、デルタケプストラムは２〜４フレーム
程度の各ＬＰＣケプストラムの一時回帰係数である。そ
して、第３パラメータは２次デルタケプストラムから求
められるパラメータであり、隣り合った２つのデルタケ
プストラムの差として算出される。

【００２６】このように、本実施例では、第３パラメー
タとして、２次デルタケプストラムを採用している。従
って、破裂音等の局所的に動的なスペクトルの変化を捉
えることができ、これを利用してより精度の高い音声認
識が行える。

【００２７】「重み付けの説明」各パラメータに対する
重み付けは、時間に関して静的な特徴の母音などの定常
部分は第１パラメータを重くし、時間に関して動的な特
徴との子音から母音の過渡部分は第２パラメータを重く
し、時間に関して局所的に動的な特徴の破裂点などは第
３パラメータを重くすることが望ましい。

【００２８】（ｉ）そこで、第１の方法では、各パラメ
ータについての重み係数を単語情報のデルタケプストラ
ムと２次デルタケプストラムの大きさから設定する。

【００２９】３つのパラメータの重み付け演算から得ら
れる距離Ｄsum は、次にように表される。

【００３０】Ｄsum ＝α（ｔ）Ｄ（ｃ）＋β（ｔ）Ｄ
（ｄｃ）＋γ（ｔ）Ｄ（ｄ²ｃ）ここで、Ｄ（ｃ）、Ｄ（ｄｃ）、Ｄ（ｄ²ｃ）はそれぞ
れ第１〜第３パラメータから求めた距離、α（ｔ）、β
（ｔ）、γ（ｔ）は時刻ｔにおけるそれぞれの重み係数
であり、α（ｔ）＋β（ｔ）＋γ（ｔ）＝１である。

【００３１】時刻ｔにおける単語辞書１４における標準
パターンの２次デルタケプストラムのｎ次の項をｄ²ｃ
ｎ（ｔ）、デルタケプストラムのｎ次の項をｄｃｎ
（ｔ）とし、２次デルタケプストラムの二乗和とγ
（ｔ）の変換関数をｆ（ｘ）、デルタケプストラムの二
乗和とβ（ｔ）の変換関数をｇ（ｘ）とする。そして、
重み係数γ（ｔ）およびβ（ｔ）を次式によって決定す
る。

【００３２】

【数１】ここで、ｋは１次、２次デルタケプストラムにおいて０
次〜ｎ次の項まで採用している場合には、ｋ＝１〜ｎ＋
１である。また、ａ，ｂは任意の定数であり、条件に応
じて決定する。

【００３３】このようにして、２つの重み係数γ
（ｔ）、β（ｔ）が決定されれば、α（ｔ）もこれらに
よって決定されるため、距離Ｄsum は次の式で表される
ことになる。

【００３４】

【数２】以上のようにして、重み係数を決定することで、２次デ
ルタケプストラムが大きいときにγ（ｔ）が大きくな
り、これに応じてβ（ｔ）が小さくなると共に、１次、
２次デルタケプストラム共その値が大きいほど重みも大
きくなる。従って、１次、２次デルタケプストラムの値
が大きな時、すなわちこれらの値が重要なときに重み係
数を大きくして、単語辞書の標準パターンとの比較が行
え、より正確な音声認識が行える。

【００３５】（ｉｉ）第２の方法では、各パラメータに
対する重み係数を入力の音声信号におけるＳ／Ｎ比（信
号対騒音比）に応じて決定する。

【００３６】空調におけるファンの音や、自動車内のエ
ンジン音などの騒音は時間に関して静的であると考えら
れる。この場合、第１のパラメータは騒音によって大き
く影響されるが、第２、第３のパラメータは時間的変化
量に基づいたパラメータであり、騒音の影響を受けにく
い。

【００３７】そこで、１度の音声認識処理の際に、時間
に関して一定の重み係数δを利用して、距離Ｄsum を次
式で決定する。

【００３８】Ｄsum ＝（１−２δ）Ｄ（ｃ）＋δＤ（ｄ
ｃ）＋δＤ（ｄ²ｃ）ここで、Ｓ／Ｎ比は、例えば発声直前の数１００ｍｓｅ
ｃの入力音声信号の平均信号レベルと、発声後の数１０
０ｍｓｅｃの平均信号レベル平均から求めてもよいし、
またこれらの期間のＬＰＣケプストラムの０次の係数の
比から求めてもよい。さらに、発生後の信号レベルは考
慮せず、発声直前の騒音の大きさのみからＳ／Ｎ比を決
定してもよい。

【００３９】そして、δは、求められたＳ／Ｎ比をｘと
した場合に、次の式によって決定する。

【００４０】δ＝（１／２ｂ）ｘ（ｘ＜ｂ） δ＝１／２（ｘ＞＝ｂ）従って、距離Ｄsum は、次にように表される。

【００４１】

【数３】Ｄsum ＝（１−ｘ／ｂ）Ｄ（ｃ）＋（ｘ／２
ｂ）Ｄ（ｄｃ）＋（ｘ／２ｂ）Ｄ（ｄ²ｃ）（ｘ
＜ｂのとき）Ｄsum ＝（１／２）Ｄ（ｄｃ）＋（１／２）Ｄ（ｄ
²ｃ）（ｘ＞＝ｂのとき）このようにして、騒音の大きいときに、この影響の少な
い第２、第３パラメータの重みを大きくして効果的な音
声認識を行うことができる。なお、第１の方法と第２の
方法の両方を組み合わせることも好適である。

【００４２】「第２実施例」図２は第２実施例の構成を
示すブロック図であり、マイクロフォン１０、音響処理
部１２は第１実施例と同様である。そして、第２実施例
では、音素認識部２０、音素辞書２２、単語認識部２４
および単語辞書２６を有しており、１次（通常のデルタ
ケプストラム）または２次デルタケプストラムを利用し
た確率モデルの最適状態遷移系列の算出により、音声認
識を行う。

【００４３】音素辞書２２は、子音母音を分離した半音
節毎のデータが含まれている。そこで、音素認識部２０
では、音素辞書２２に記憶されている標準音についての
データと音響処理部１２からのデータから半音節毎に音
素を認識する。例えば、発声音声が「トヨタ」という単
語であれば、この音素認識部２０からの出力は、「ｔｔ
ｏｏｏｏｙｙｙｏｏｏｔａ」のようなデータとなる。な
お、この音素の認識においても１次、２次デルタケプス
トラムの距離を利用するため、非常に効果的な認識が行
える。

【００４４】単語認識部２４は、音素認識部２０から出
力される上述のような音素のデータを単語辞書２６から
のデータを参照して、単語として認識するが、この際に
ＨＭＭ（Hidden Makov Model法）を利用する。ここで、
通常のＨＭＭを利用した認識では、状態遷移系列が分か
らないため、単語の出力確率の計算に際し、考えられる
すべての状態遷移系列で確率計算を行う。ところが、本
実施例では、デルタケプストラムまたは２次デルタケプ
ストラムの大きさが大きい時を状態が遷移した時と推定
し、ここに音素の割り付けを行う。

【００４５】すなわち、単語「トヨタ」のＨＭＭの認識
では、図３に示すように、Ｓ１〜Ｓ６の状態がそれぞれ
ｔ，ｏ，ｙ，ｏ，ｔ，ａに割り付けられ、単語が認識さ
れる。そして、通常の場合、図３のＨＭＭによる認識の
トレリスは図４に示すように、入力されてくる音素列
「ｔｔｏｏｏｏｙｙｙｏｏｏｔａ」に対し可能な状態遷
移について、すべての確率を計算し、最適なものを選択
する。

【００４６】しかし、本実施例では、各音素の認識の時
点における１次または２次デルタケプストラムの大きさ
に基づいて、状態遷移を特定する。すなわち、各音素の
認識における１次または２次のデルタケプストラムの値
を見れば、図４において、○印で示した音素のところで
その値が大きくなっている。そこで、この認識に基づい
て、図４において太線で示したものに状態遷移を限定す
る。そして、この状態遷移系列の特定されたモデルにつ
いて、単語辞書２６のデータとの間で確率計算を行い、
音声認識を行う。従って、単語認識部２４における計算
量を大幅に減少することができる。

【００４７】

【発明の効果】以上説明したように、本発明によれば、
単語認識手段において、第１、第２のパラメータだけで
なく時間に関して動的な特徴と捉えた第３パラメータを
用いる。これによって、子音の判別および過渡部分の判
別精度を上昇することができる。

【００４８】また、ＬＰＣケプストラムは静的な特徴を
捉え、デルタケプストラムは時間に関して動的な特徴を
捉え、２次デルタケプストラムは、時間に関して局所的
に動的な特徴を捉える。第１〜第３パラメータにこれら
を採用することで、好適な音声認識が行える。

【００４９】また、各パラメータの重み係数を１次、２
次デルタケプストラムの大きさに基づいて設定すること
により、これら１次、２次デルタケプストラムが大き
く、重要であるときにこれらに大きな重みを付与するこ
とができる。これによって、入力音声の部分部分におい
て常に最適な認識が行える。

【００５０】また、定常的な騒音は、第１パラメータに
対する影響が大きい。そこで、入力音声のＳ／Ｎ比が小
さく騒音が大きいときに、比較的騒音の影響の小さい１
次、２次デルタケプストラムに基づく第２、第３パラメ
ータの重みを大きくすることができる。これによって、
騒音の影響を考慮して好適な音声認識が行える。

【００５１】また、デルタケプストラムまたは２次デル
タケプストラムの値が大きいところは、音が変わってい
るところであり、状態が遷移するところである。そこ
で、この値に応じて状態遷移を特定することができる。
これによって、計算量を大幅に減少することができる。

【図面の簡単な説明】

【図１】第１実施例の構成を示すブロック図である。

【図２】第２実施例の構成を示すブロック図である。

【図３】単語「トヨタ」のＨＭＭの状態遷移を示す図
である。

【図４】図３に対応する状態遷移の例を示す図であ
る。

【符号の説明】

１０マイクロフォン、１２音響処理部、１４単語
辞書、１６ＤＰマッチング部、２０音素認識部、２
２音素辞書、２４単語認識部、２６単語辞書。

Claims

【特許請求の範囲】

【請求項１】入力音声をパラメータ化し、参照すべき
単語辞書と比較して音声認識を行う音声認識装置におい
て、入力音声の時間に関して静的な特徴を捉えた第１パラメ
ータと、入力音声の時間に関して動的な特徴を捉えた第
２パラメータと、入力音声の時間的な動きについての変
化を特徴としてとらえた第３パラメータと、を生成する
入力音声のパラメータ化手段と、このパラメータ化手段において生成された各パラメータ
に関する重み係数を算出する重み係数算出手段と、前記第１、第２、第３パラメータおよびこれら各パラメ
ータについての重み係数に基づいて、前記単語辞書を参
照し、最適な単語を選択する単語認識手段と、を有することを特徴とする音声認識装置。
【請求項２】請求項１に記載の装置において、前記第１パラメータはＬＰＣケプストラムから求められ
るパラメータであり、第２パラメータはデルタケプスト
ラムから求められるパラメータであり、第３パラメータ
は２次デルタケプストラムであることを特徴とする音声
認識装置。
【請求項３】請求項１または２に記載の装置におい
て、前記単語辞書から得られる参照すべき単語情報のデルタ
ケプストラムおよび２次デルタケプストラムの大きさに
基づいて前記重み係数を決定することを特徴とする音声
認識装置。
【請求項４】請求項１〜３のいずれかに記載の装置に
おいて、前記入力された音声と騒音の比に応じて、前記重み係数
を変化させることを特徴とする音声認識装置。
【請求項５】請求項１〜４のいずれかに記載の装置に
おいて、前記単語認識手段は、入力音声を音素毎に状態遷移する
時系列モデルを用いる方式であり、前記デルタケプスト
ラムまたは２次デルタケプストラムの値により状態遷移
を特定することを特徴とする音声認識装置。