JPH02248999A

JPH02248999A - 音声認識方式

Info

Publication number: JPH02248999A
Application number: JP1069773A
Authority: JP
Inventors: Tetsuya Muroi; 室井　哲也
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1989-03-22
Filing date: 1989-03-22
Publication date: 1990-10-04

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 ■！立夏本発明は、音声認識方式、より詳細には、音声認識にお
けるパターンマツチング技術に関する。

髪東跋！従来、音声認識において、音声パターンを複数の定常状
態の時系列とみなしてモデル化し、これを標準パターン
として、入力音声とのパターンマツチングを行なう方法
があった（日本音響学会講演論文集　昭和６２年１０月
、３−５−４、「状態モデルを用いた単語音声認識の一
手法ｊｐ、−ｐ、１０９−１２０）、この手法は、各状
態ごとに継続時間と状態を代表するベクトルとを登録し
て標準パターンとしており、マツチング時には、入力音
声の特徴ベクトルと標準パターンの代表ベクトルとの距
離ならびに入力音声のセグメント長と状態の継続時間と
の距離の両方を計算して、入力音声パターンと標準パタ
ーンとのパターン間距離としていた。

上記従来技術は、音声パターンが定常的なセグメントの
時系列と見なすことができる場合には。

忠実に音声パターンを表現することができる。しかしな
がら、拗音や母音連続の場合、その部分の特徴ベクトル
はゆるやかにしかも大きく遷移しており、この部分に対
して、上記従来技術のように、時間によって変動する成
分を持たない特徴ベクトルでこのセグメントの特徴ベク
トルを代表させる方法では、量子化歪が大きいため精密
なパターンマツチングが不可能であった。

１−一五本発明は、上述のごとき実情に鑑みてなされたもので、
特に、上記のような特徴ベクトルが遷移しているセグメ
ントに対しても、その遷移を表現できるような特徴ベク
トルの組を計算して求めることにより、量子化歪を小さ
くすることを目的とし、更には、標準パターンと、マツ
チング時における入力音声パターンの双方で、量子化歪
を小さくシ、パターンマツチング時の誤差を小さくし、
認識性能の向上を図ることを目的としてなされたもので
ある。

碧−１本発明は、上記目的を達成するために、入力した音声を
特徴ベクトルの時系列である音声パターンＸ、ｌ・・・
”ｔ（Ｉはフレーム数）に変換する特徴系列変換手段を
有し、上記入力音声パターンの部分パターンｘ、＋ｌｘ
、＋凰・・・ｘ、と標準パターンＹとのパターンマツチ
ングを行なって上記部分パターンと上記標準パターンと
のパターン間距離を求める音声ｌ！戴方式において。

上記標準パターンは、固定ベクトルｙと増分ベクトルｌ
の継続時間Ωとから構成されており、上記部分パターン
を時間軸上で回帰直線近似して固定ベクトルｐと増分ベ
クトル９を求め、上記部分パターンと上記標準パターン
との固定ベクトルの距離ｄｉｓｔ（ｐ、）’）と、増分
ベクトルｄｉｓｔ（（１、ｚ　）と継続時間の距離ｄｉ
ｓ　（ｉ−ｍ、　Ｊｌ　）との線形和によって上記パタ
ーン間距離を求めること、或いは、入力した音声を特徴
ベクトルの時系列である音声パターンＸ□Ｘｓ・・・Ｘ
□（工はフレーム数）に変換する特徴系列変換手段と該
音声パターンを時間軸上でＮ（≧１）ＩＩのセグメント
に分割する音声パターン分割手段を有する音声認識方式
において、標準パターンはＮ個の時系列の状態として表
現され、各状態ｊ（１≦ｊ≦Ｎ）ごとに固定ベクトルｙ
ｊと増分ベクトルｌｊとＪ１１１１時Ｎ１２ｊとが登録
されており、上記入力音声の第ｊ（１≦ｊ≦Ｎ）セグメ
ントに属する特徴ベクトル系列から固定ベクトルｐｊと
増分ベクトルｑｊと１１１１１Ｍ時間ｒｊを計算し。

上記入力音声の第ｊセグメントを標準パターンの第ｊ状
態に対応づけて、固定ベクトルの距離ｄｉｓｔ（ｐｊ、
）’ｘ）と増分ベクトルの距離ｄｉｓｔ（（ｌｊｅｌ）
と継続時間の距離ｄｉｓ（ｒ　ｊｐ　ｆＪ　ｊ）を計算
し。

ΣＣａ（ｊ）・ｄｉｓｔ（ｐ　、Ｌ　３’　ｉ）＋ｂ（
Ｊ）・ｄｉｓｔ（９，Ｌ　Ｚ　ｊ）ｊ＝１ ◆ＣＣｊ）　・ｄｉｓ（ｒ　ｊｔ　（ｉ　ｊ月（ただし
、　ａ（ｊＬ　ｂ（ｊＬ　ｃ（ｊ）は重み定数）を計算
して、入力音声パターンと標準パターンとのパターン間
距離とすることを特徴としたものである。

以下、本発明の実施例に基づいて説明する。

第１！！Ｉは、！求項第１項に記載した発明の一実ｔｌ
ｉＨ＆説明するための構成図で１図中、１はマイクロフ
ォン、２は特徴系列変換手段、３はパターンマツチング
部、４は標準パターンで、マイクロフォン１から入力さ
れた入力音声は特徴系列変換手段２により特徴ベクトル
の時系列ＸユＸ、・・・ｘｌに変換される。特徴ベクト
ルとしては、バンドパスフィルターの出力、ＦＦＴスペ
クトラム、ＬＰＣケプストラム等様々なものが考えられ
るが、本実施例では、ＬＰＧケプストラムを用いること
にする１例えば、１２ＫＨｚ程度のサンプリング周波数
でＡ／Ｄ変換し、８１％２５６ポイント、シフト＠１２
８ポイントでハミング窓をかけ、１４次のＬＰＣケプス
トラムを求めれば良い。

上記のようにして得ら九た音声パターンＸ、Ｘ。

・・・ｘ２の部分パターンＸ、＋□Ｘ、＋、・・・Ｘｔ
　（Ｏ≦ｍくｉ≦１）と標準パターンＹとのパターンマ
ツチングをパターンマツチング部３にて行なう。

標準パターンＹは、音素や音節など音響的に１つの特徴
を持つものを登録するが、さらに母音連続のわたりの部
分や鼻音→母音のわたりの部分など、直接音調記号と結
びつかないものを登録すれば、さらに認識性能の向上が
望める。

標準パターンは、固定ベクトルｙと増分ベクトルｌと継
続時間鳳とが登録されている。これは、標準パターンを
作成するために発声された特徴ベクトルａ、ａ、・・・
１．をモデル化したものであり、量子化誤差をＤとすれ
ば１＝１（ｄｉｓｔ　（ｂ、　ｃ）は２つのベクトルｂ、ｅの距
離を表わす、）と定義し、二のＤが小さくなるように、ｙ、ｚを求めれ
ば良い、なお、（１）式では固定ベクトルを特徴ベクト
ル系列１□復、・・・ａｍの初期ベクトルとして求めて
いるが、以下に述べる式（２）のように、中央のベクト
ルとして求めてもかまわない。

なお、本実施例では、式（１）によって説明することに
する。入力音声パターンの部分パターンｘ、＋ｌｘ１や
、・・・ｘ、につぃても標準パターンと同様にして時間
軸方向に回帰直線近似を行なう、即ち、なる量子化誤差
を定義し１式（３）におけるＤを最小化するようなｐ、
９　を求める。ここで、入力音声の部分パターンＸ、◆
１ｘ０１・・・ｘＩと標準パターン間距離ＤＩＳは。

ＤＩＳ＝ｗ１・ｄｉｓｔ（ｐ　、３’　）＋ｖ、　・ｄ
ｉｓｔ（ｑ　、ｌ　）＋ｗ、　・ｄｉｉ（ｉ−ｍ、　ｊ
ｌ　）・・・（４）となる。

ここで、Ｗｌｐ　’Ｎａ２　Ｗ３は正の定数であり、ｄ
ｉｓ（ｉ−ｍ、　Ｊｌ　）は、継続時間１１と慮との具
なり具合を距離に変換する関数である０例えば、ｄｉｓ
ｔとしてユークリッド距ｍｌ、ｄｉｇとして差の２乗を
用いれば、式（４）は、ＤＩＳ＝ｗ、・１ｐ−１／ｌ◆ｖｉｌｑ−ｚｌ◆ｗ、・
（ｉ−ｍ−１１）”・・・（５）として計算することができる。

第２図は、躍求項第２項に記載した発明の一実施例を説
明するための構成図で、ＷＩ中、工はマイクロフォン、
２は特徴系列変換手段、３はパターンマツチング部、４
は標準パターン、５は音声パターン分割手段で、マイク
ロフォンｌから入力された音声波形は、特徴系列変換手
段２によって特徴ベクトルｘＨの時系列Ｘ＝ｘ１ｘ２・
・・ＩＣ・・・ｘｌ（Ｉはフレーム数）に変換される。

特徴ベクトルは例えば中心周波数を２５０〜６３００Ｈ
ｚにｌ／３オクターブごとに配置した１５チヤンネルの
バンドパスフィルター群の出力を用いれば良い。

また、フレーム周期は１０＋ｓ程度に設定す九ば良い。

次に、上記のようにして得られた入力音声パターンＸを
時間軸でＮ（≧１）ＩＩＩのセグメントに分割する０分
割の方法は様々な方法が知ら九でいるが、ここで、その
分割の方法について簡単に説明する。

まず、第ｊ　（１≦ｊ≦Ｎ）セグメントに属する音声パ
ターンノ部分パターンをｘ　１ｓ（ｊ）＋１．　ｘ　１
ｓ（ｊ）＋２・・・Ｘ１６（ｊ）とする、このとき、こ
の部分パターンと固定ベクトルｐｊと増分ベクトルｑｊ
とによって回帰直線近似したときの量子化歪ＤＪは。

として表わすことができる。このとき、音声パターン全
体の量子化歪Ｄａｌｌは。

となる、但し、１ｓ（１）＝Ｏ，１ｓ（Ｎ）＝１．この
式（７）を動的計画法を用いて、　Ｄａｌｌが最も小さ
くなるような１ｓ（ｊ）と１ｅ（ｊ）との組を求める。

このとき、同時に任意の第ｊセグメントの固定ベクトル
ｐｊと増分ベクトルｑｊとが求められる。また、第ｊセ
グメントの継続時間ｒｊは。

ｒｊ＝ｉｅ（ｊ）　−１ｓ（ｊ）　　　　　　　　　・
・・（８）として求めることができる。

標準パターンＹは、８個の状態の時系列として表現され
ており、各状態ごとに、固定ベクトル’Ｊｅ増分ベクト
ルｌ、継続時間ｎｊとが登録されている。

このとき、入力音声パターンＸの第ｊセグメントと標準
パターンＹの第・ｊ状態とを対応づける（１≦ｊ≦Ｎ）
。

そして、各状態ごとに固定ベクトル間の距離。

増分ベクトル間の距離、継続時間同士の距離を算出し、
これらの線形和によって入力音声パターンＸと標準パタ
ーンＹとのパターン間距離ＤＩＳ（ｘ、ｙ）とする、即
ち。

ＤＩＳ（Ｘ、Ｙ）＝Σ［ａ（ｊ）・ｄｉｓｔ（ｐｊｔｙ
ｊ）＋ｂ（ｊ）・Ｊ＝１ｄｉｓｔ（ｑｊ＋　Ｚ　ｊ）”ｃ（ｊ）ｄｉｓ（ｒｊ、
Ｑ　ｊ）］・・・（９）ここで、　ａ（ｊＬ　ｂ（ｊ）、　ｃ（ｊ）は、固定ベ
クトル。

増分ベクトル、継続時間の距離に対する重みである。ま
た、ｄｉｓｔ（ａ　、　ｂ　）は、２つのベクトル復と
ｂとの距離を表わす関数であり１例えば、ユークリッド
距離を用いれば良い、また、ｄｉｓ（ｍ、ｎ）は２つの
スカラーｍ、ｎの距離を表わすもので１例えば、差の自
乗とすれば良い、そこで、式（９）は、◆ｃ（ｊ）−（
ｒｊ、慮ｊ）３コ　　　　　・・・（１０）として計算
することができる。

腹−一来以上の説明から明らかなように、請求項第１項の発明に
よると、入力音声パターンの増分ベクトル９と標準パタ
ーンの増分ベクトルｌを求め、この２つのベクトルの距
離ｄｉｓｔ（ｑ＊ｚ）を計算し。

パターン間距離に反映させているので、従来技術のよう
に、時間とともに変動する成分がないために、精密なパ
ターンマツチングが不可能であった拗音等の部分につい
ても精密なパターンマツチングを行なうことが可能とな
った。

また、請求項第２項の発明によると、時間とともに変動
する特徴ベクトル系列の成分を第ｊセグメントの増分ベ
クトルｑｊとして表現し、式（９）のように、全体のパ
ターン間距離へ反映させているので、従来技術のように
、音声パターンが定常状層の時系列と見なせる場合だけ
でなく、母音連続のように音声パターンが遷移している
部分を含む場合でも精密なパターンマツチングが可能に
なった・

【図面の簡単な説明】

第１図は、請求項第１項に記載した発明の一実施例を説
明するための構成図、第２ｒｊ！ｉは、請求項第２項に
記載した発明の一実施例を説明するための構成図である
。１・・・マイクロフォン、２・・・特徴系列変換手段、
３・・・パターンマツチング部、４・・・標準パターン
、５・・・音声パターン分割手段。第図第図りり

Claims

【特許請求の範囲】１、入力した音声を特徴ベクトルの時系列である音声パ
ターンｘ＿１ｘ＿２・・・ｘ＿Ｉ（Ｉはフレーム数）に
変換する特徴系列変換手段を有し、上記入力音声パター
ンの部分パターンｘ＿ｍ＿＋＿１ｘ＿ｍ＿＋＿２・・・
ｘ＿Ｉと標準パターンＹとのパターンマッチングを行な
って上記部分パターンと上記標準パターンとのパターン
間距離を求める音声認識方式において、上記標準パターンは、固定ベクトルｙと増分ベクトルｚ
の継続時間ｌとから構成されており、上記部分パターン
を時間軸上で回帰直線近似して固定ベクトルｐと増分ベ
クトルｑを求め、上記部分パターンと上記標準パターン
との固定ベクトルの距離ｄｉｓｔ（ｐ、ｙ）と、増分ベ
クトルｄｉｓｔ（ｑ、ｚ）と継続時間の距離ｄｉｓ（ｉ
−ｍ、ｌ）との線形和によって上記パターン間距離を求
めることを特徴とする音声認識方式。２、入力した音声を特徴ベクトルの時系列である音声パ
ターンｘ＿１ｘ＿２・・・ｘ＿Ｉ（Ｉはフレーム数）に
変換する特徴系列変換手段と該音声パターンを時間軸上
でＮ（≧１）個のセグメントに分割する音声パターン分
割手段を有する音声認識方式において、標準パターンはＮ個の時系列の状態として表現され、各
状態ｊ（１≦ｊ≦Ｎ）ごとに固定ベクトルｙｊと増分ベ
クトルｚｊと継続時間ｌｊとが登録されており、上記入
力音声の第ｊ（１≦ｊ≦Ｎ）セグメントに属する特徴ベ
クトル系列から固定ベクトルｐｊと増分ベクトルｑｊと
継続時間ｒｊを計算し、上記入力音声の第ｊセグメント
を標準パターンの第ｊ状態に対応づけて、固定ベクトル
の距離ｄｉｓｔ（ｐｊ、ｙｉ）と増分ベクトルの距離ｄ
ｉｓｔ（ｑｊ、ｚｊ）と継続時間の距離ｄｉｓ（ｒｊ、
ｌｊ）を計算し、▲数式、化学式、表等があります▼ （ただし、ａ（ｊ）、ｂ（ｊ）、ｃ（ｊ）は重み定数）
を計算して、入力音声パターンと標準パターンとのパタ
ーン間距離とすることを特徴とする音声認識方式。