JPH0451037B2

JPH0451037B2 -

Info

Publication number: JPH0451037B2
Application number: JP60251360A
Authority: JP
Inventors: Katsuyuki Futayada
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1985-11-08
Filing date: 1985-11-08
Publication date: 1992-08-17
Also published as: JPS62111293A

Description

【発明の詳細な説明】産業上の利用分野本発明は人間の声を機械に認識させる音声認識
方法に関するものである。

従来の技術近年音声認識技術の開発が活発に行なわれ、商
品化されているが、これらのほとんどは声を登録
した人のみを認識対象とする特定話者用である。
特定話者用の装置は認識すべき言葉をあらかじめ
装置に登録する手間を要するため、連続的に長時
間使用する場合を除けば、使用者にとつて大きな
負担となる。これに対し、声の登録を必要とせ
ず、使い勝手のよい不特定話者用の認識技術の研
究が最近では精力的に行なわれるようになつた。

音声認識方法を一般的に言うと、入力音声と辞
書中に格納してある標準的な音声（こけらはパラ
メータ化してある）のパターンマツチングを行な
つて、類似度が最も高い辞書中の音声を認識結果
として出力するということである。この場合、入
力音声と辞書中の音声が物理的に全く同じものな
らば問題はないわけであるが、一般には同一音声
であつても、人が違つたり、言い方が違つている
ため、全く同じにはならない。

人の違い、言い方の違いなどは、物理的にはス
ペクトルの特徴の違いと時間的な特徴の違いとし
て表現される。すなわち、調音器官（口、舌、の
どなど）の形状は人ごとに異なつているので、人
が違えば同じ言葉でもスペクトル形状は異なる。
また早口で発声するか、ゆつくり発声するかによ
つて時間的な特徴は異なる。

不特定話者用の認識技術では、このようなスペ
クトルおよびその時間的変動を正規化して、標準
パターンと比較する必要がある。

不特定話者の音声認識に有効な方法として、本
出願人は既にパラメータの時系列情報と統計的距
離尺度を併用する方法に関して特許を出願してい
る（特願昭60−29547号）ので、その方法を以下
に説明する。

第１０図は本願出願人が以前に提案した音声認
識方法の具現化を示す機能ブロツク図である。

図において、１は入力音声をデイジタル信号に
変換するAD変換部、２は音声を分析区間（フレ
ーム）毎に分析しスペクトル情報を求める音響分
析部、３は特徴パラメータを求める特徴パラメー
タ抽出部、４は始端フレームと終端フレームを検
出する音声区間検出部、５は単語長の伸縮を行う
時間軸正規化部、６は入力パターンと標準パター
ンとの類似度を計算する距離計算部、７は予め作
成された標準パターンを格納する標準パターン格
納部である。上記構成において以下その動作を説
明する。

入力音声をAD変換部１によつて12ビツトのデ
イジタル信号に変換する。標本化周波数は8KHz
である。音響分析部２では、１フレーム
（10msec）ごとに自己相関法によるLPC分析を行
なう。分析の次数は10次とし、線形予測係数〓０，
〓１，〓２…〓10を求める。またここではフレームご
との音声パワーW_pも求めておく。特徴パラメー
タ抽出部３では線形予測係数を用いて、LPCケ
プストラム係数C₁〜C_p（ｐは打切り次数）および
正規化対数残差パワーC_pを求める。なお、LPC
分析とLPCケプストラム係数の抽出法に関して
は、例えば、J.D.マーケル、A.H.グレイ著、鈴木
久喜訳「音声の線形予測」に詳しく記述してある
ので、ここでは説明を省略する。また特徴パラメ
ータ抽出部３では対数パワーLW_pを次式で求め
る。

LW_p＝10log10W_p （式１）音声区間検出部４は（式１）で求めたLW_pを閾
値θ_Sと比較し、LW_p＞θ_sのフレームがl_sフレーム
以上持続する場合、その最初のフレームを音声区
間の始端フレームF_sとする。またF_sの後におい
て、LW_pと閾値θ_eを比較し、LW_p＜θ_eとなるフレ
ームがl_eフレーム以上連続するとき、その最初の
フレームを音声区間の終端フレームF_eとする。
このようにしてF_sからF_eまでを音声区間とする。
いま説明を簡単にするために、改めてF_sを第１フ
レームと考え、フレームナンバーを（１，２，…
ｊ，…Ｊ）とする。ただし、Ｊ＝F_e−F_s＋１で
ある。

時間軸正規化部５では、単語長をＩフレームの
長さに分割することにより線形に伸縮をする。伸
縮後の第ｉフレームと入力音声の第ｊフレームは
（式２）の関係を持つ。

ｉ＝〔Ｊ−１／Ｊ−１ｊ＋Ｊ−／Ｊ−１＋0.5〕
（式２）ただし〔〕は、その数を超えない最大の整数
を表す。例ではＩ＝16としている。

次に伸縮後の特徴パラメータを時系列に並べ、
時系列パターン〓_xを作成する。いま第ｉフレー
ムの特徴パラメータ（LPCケプストラム係数）
をC^x _i，ｋ（ｋ＝０，１，２，…Ｐ：ｄ個）とする
と〓_xは次式となる。

〓_x＝（C^(x) ₁，０，C^(x) ₁，１，C^(x) ₁，２…C^(x) ₁
，ｐ
……C^(x) _i０，C^(x) _i，１…………C^(x)〓，0C^(x)〓，１
…
C^(x)〓，Ｐ）（式３）すなわち〓_xは、・（Ｐ＋１）すなわち・Ｄ
次元のベクトルとなる（Ｄは１フレームあたりの
パラメータ数）。

距離計算部６は入力パターン〓_xと標準パター
ン格納部７に格納されている各音声の標準パター
ンとの類似度を統計的な距離尺度を用いて計算
し、最も距離が小さくなる音声を認識結果として
出力する。標準パターン格納部７に格納されてい
る第ｋ番目の音声に対応する標準パターンを〓_k
（平均値）、対象とする全音声に共通な共分散行列
を〓とすると、入力パターン〓_kと第ｋ番目の標
準パターンとのマハラノビス距離S_kは次式で計算
される。

S_k＝（〓_x−〓_k）^t・〓^-1・（〓_x−〓_k）（式４）添字ｔは転置を、また−１は逆行列であること
を表す。（式４）を展開すると S_k＝〓^t _x・〓^-1・〓_x−２〓^t _k・〓^-1・〓_x ＋〓^t _x・〓^-1・〓_k （式５）（式５）の第１項はｎに無関係なので大小比較を
するときは考慮しなくてもよい。したがつて第１
項を取除いて、S_kをD_kに置きかえると、D_kは次
のようになる。

D_k＝b_k−〓^t _k・〓_x （式６）ただし〓_k＝２〓^-1・〓_k （式７） b_k＝〓^t/k・〓^-1・〓_k （式８） Dkを全てのｋ（ｋ＝１，２…Ｎ）について計算
し、Dkを最小とする音声を認識結果とする。こ
こでｋは標準パターン格納部７に格納されている
音声標準パターンの数である。実際には標準パタ
ーンは〓ｋとbkが１対として、音声の数（Ｋ種
類）だけ格納されている。

（式６）に要する計算量は積和演算がＩ・（Ｐ
＋１）回、減算が１回であり、非常に計算量が少
ないのが特長である。実用的にはＩ＝16，Ｐ＝４
とすれば十分なので、積和演算回数は１単語あた
り80回である。

次に標準パターン〓ｋ，〓（実際には〓ｋ，
bkに変換される）の作成方法について説明する。

標準パターンは、各音声ごとに多くのデータサ
ンプルを用いて作成する。各音声に対して、用い
るサンプルの数をＭとする。各サンプルに対して
（式２）を適用して、フレーム数をＩに揃える。
音声ｋに対して平均値ベクトルを求める。

〓ｋ＝（C^(k) ₁，０，C^(k) ₁，１，C^(k) ₁，２，…C^(k
) ₁，
ｐ……C^(k) _i，０，C^(k) _i，１…………C^(k)〓，０，C^(k)〓，
１，…C^(k)〓，Ｐ）（式９）ただし C^(k) _i，ｎ＝１／Ｍ_M 〓^m=1 Ci，^(k) _o，ｍ（式10）ｉ＝１，２，…Ｉ：Ｉフレームｎ＝０，１，２，…Ｐ：ｄ個ここでCi，ｎ，ｍは音声ｋの第ｍ番目のサンプ
ルで、第ｉフレームの第ｎ次のケプストラム係数
を示す。平均値ベクトルと同様な手順で音声ｋの
共分散行列W^kを求める。全音声に共通な共分散
行列〓は次式で求める。

〓＝１／Ｋ（〓(1)＋〓(2)＋…＋〓^k＋…＋〓^K）（式11）〓ｋ，〓を（式７），（式８）によつて〓ｋ，
bkに変換し、標準パターン格納部７にあらかじ
め格納しておく。

発明が解決しようとする問題点かかる方法における問題点は、パターンマツチ
ングを行なう以前に音声区間が一意に確実に決め
られていると仮定している点にある。現実の音声
データは種々のノイズを含んでいたり、語頭や語
尾における発生が不明瞭であるため、音声区間を
正確に決められない場合やも音声以外の区間を誤
まつて検出する場合が多々ある。誤まつた音声区
間に対して従来例の方法を適用すると、当然のこ
とながら、認識率が大きく低下してしまう。

本考案の目的は上記問題点を解決するもので、
音声区間の検出という操作を必要としないで、入
力信号中から音声を自動的に抽出して認識でき
る、高い認識率を有する音声認識方法を提供する
ものである。

問題点を解決するための手段本発明は上記目的を達成するもので、認識すべ
き音声とその前後の騒音を含む十分長い区間を入
力信号区間とし、この入力信号区間に、ある時間
的な基準点を設け、基準点を端点としてそれから
N₁フレームの区間とN₂フレームの区間（N₁＜
N₂）の２区間を設定して、これらを音声区間の
それぞれ最小値と最大値と考えて、N₂−N₁＋１
とおりの音声区間候補のそれぞれに対して、音声
区間長を一定時間長に伸縮しながら各単語の標準
パターンとのマツチングを行なつて各単語の類似
度または距離を求め、この操作を基準点を全入力
信号区間の始めから終りまで走査して行ない、全
ての基準点位置の全ての音声区間候補に対する類
似度または距離を各単語について比較し、類似度
を最大または距離を最小とする単語を認識結果と
して出力するものである。

作用本発明は、全入力信号区間を対象として１フレ
ームずつずらせながら線形伸縮した入力と標準パ
ターンとの間のパターンマツチングを行ない、類
似度最大または距離最小となる音声とその区間と
を自動的に求めるので音声区間の検出が必要でな
くなり、騒音環境下で発声した音声を高い確率で
認識することができる。

実施例以下に本発明の実施例を図面を用いて詳細に説
明する。第１図は本発明の一実施例における音声
認識方法の具現化を示す機能ブロツク図である。

まず実施例の考え方を第２図〜第４図を用いて
説明する。同じ言葉を発声しても、発声の時間的
な長さ（音声長）は発声方法によつても異なる
し、人の違いによつても異なる。パターンマツチ
ングによる音声認識方法では入力音声の長さを、
標準的な音声に正規化したうえで類似度計算を行
なつて音声長の認識を行なう。第２図は音声長の
正規化の様子を示したものである。入力音声の長
さの最小長をN₁、最大長をN₂とし、音声の標準
的な長さ（標準パターン長）をＩとすると、第２
図に示すように、長さＮ（N₁≦Ｎ≦N₂）の音声
長を伸縮して長さＩに正規化することになる。第
２図では音声の終端を一致させて、伸縮するよう
になつている。伸縮には（式２）と同様に、線形
伸縮式を用いる。

ｉ＝［Ｉ−１／Ｎ−１・ｎ＋Ｎ−Ｉ／Ｎ−１＋0.5
］（式12）未知入力と標準パターンの類似度を計算する場
合、未知入力の音声長Ｎを（式12）によつて標準
パターン長に伸縮することになるが、この様子を
図示したのが第３図である。よこ軸に入力長、た
て軸に標準パターン長をとり、終端を一致させる
と、入力音声長はN₁〜N₂の範囲であるから、入
力と標準パターンとのマツチングルートは、入力
軸のN₁≦Ｎ≦N₂内の１点を始点とし、Ｐを終端
とする直線となる。したがつて、類似度計算は全
て三角形の内側で行なわれることになる。

いま、時間長N_Uの未知入力があり、その内容
が音声ｋであつたとする。ただし、未知入力の終
端は既知であるが終端は未知である（したがつ
て、N_Uも未知である）とする。この未知入力と
単語ｋの標準パターンS_kの照合を行なう場合、Ｎ
をN₁からN₂まで、１フレームずつずらせなが
ら、各フレームに対して（式12）を用いて時間長
をＩに伸縮し、未知入力パラメータと標準パター
ンとの類似度を求める。このとき標準パターンは
S_kであるので、発声が正確ならば、Ｎ＝N_Uにお
いて類似度は最大となるはずである。また他の任
意の標準パターンS_k′に対するよりも、S_kに対し
て類似度が大きくなるはずである。このようにし
て、未知入力の始端が決められる（したがつて音
声長が決められる）と同時に音声ｋが認識でき
る。

さて、第３図においては終端が既知として説明
を行なつたが、両端が未知の場合（すなわち音声
区間が不明である場合）にも、この方法を拡張で
きる。第４図はその説明図である。図において終
端点の横軸（入力の時間軸）座標をｊとする。こ
こでもしｊの位置が入力音声の終端に一致してい
れば第３図の場合と同じであるが、今度は両端点
が未知という仮定であるので、必ずしもｊが音声
の終了点と一致するとは限らない。しかしなが
ら、ｊを音声区間が十分に入る広い範囲j₁≦ｊ≦
j₂でスキヤンすれば、ｊが音声の終端と一致する
時点ｊ＝j₀が必ず存在する。その場合、始端単は
j₀−N₂〜j₀−N₁の範囲内の点j₀−N_Uに存在するは
ずである。そして、このようにスキヤンした場合
においても、発声した言葉と標準パターンが一致
していれば、始端がj₀−N_U、終端がj₀のときの類
似度が、他のどのようなｊおよびＮの組合せより
も大きくなる。しかも、この類似度は他の標準パ
ターンに対する類似度よりも大きい。したがつ
て、認識結果が求められると同時に、音声の始端
点、終端点が定まる。

このように第４図に示した方法は、騒音と音声
が混在した信号から、標準パターンに最も類似し
た部分を切り出して認識することができる。した
がつて、一般に用いられているような複雑な音声
区間検出の手続きを必要とせず、音声区間は認識
された音声とともに結果として出力される。

類似度の計算は以下に述べるように、特徴パラ
メータの時系列パターンを用い、統計的距離尺度
（事後確率に基く距離）によつて計算する。

１フレームあたりの特徴パラメータの個数をＤ
とすると、Ｉフレームの時系列パターンはD_XＩ
次元のベクトルとなる。いま、未知入力の第ｉフ
レームのパラメータを〓_i、単語ｋの標準パター
ンの第ｉフレームの成分をa^k _iとすると、〓_i＝（x₁，ｉ，x₂，ｉ，…x_d，ｉ，…x_D，
ｉ）（式13）〓^k _i＝（a^k ₁，ｉ，…a^k ₂，ｉ，…a^k _d，ｉ，…a^k _D，
ｉ）（式14）時系列パターンをそれぞれ〓，〓_kとすると〓＝（〓₁，〓₂，…，〓_i，…，〓_I）（式15）〓_k＝（〓^k ₁，〓^k ₂，…〓^k _i，…，〓^k _I）（式16）である。単語ｋに対する類似度をL_kとすると、 L_k＝B_k−〓^t _k・〓（式17）＝B_k−_I 〓ⁱ⁼¹ （〓^k _i）^t・〓_i （式18）＝B_k−_I 〓ⁱ⁼¹ （_D 〓^z=1 a^k _d，ｉ・x_d，ｉ）（式19）ここで〓_k，B_kは単語ｋの標準パターンであ
る。

〓_k＝２〓^-1〓（〓_k−〓_e）（式20） B_k＝〓^t _k・〓^-1〓・〓_k−〓^t _x・〓^-1 _a・〓_e
（式21）ただし、〓_kは単語ｋの平均値ベクトル、〓_eは
全ての単語の周囲情報の平均値ベクトルである。
また〓_aは共分散行列であり、各単語の共分散行
列〓_kと周囲情報の共分散行列〓_eを用いて作成で
きる。_a ＝_k 〓^k=1 （〓W_k＋_e）／（Ｋ＋１）（式22）ｋは単語の種類である。

〓_e，〓_eは各単語に属する多くのサンプルを用
いて、次のように作成する。第５図に示すよう
に、音声とその周囲の区間に対して、１フレーム
ずつずらせながら複数の区間（区間長はＩフレー
ム）を設定する。このような操作を各単語の多く
のサンプルに対して行ない、それらの区間のパラ
メータの平均値ベクトル〓_eと共分散行列〓_eを作
成する。

（式17）は（式６）と同じ形であるので、類似
度計算に要する演算量は従来例と変わらない。標
準パターン作成の式（（式７），（式８）と（式
20），（式21））のみが異なつている。周囲情報を
〓_e，〓_eとして標準パターンに取り込んでいるの
が本発明の特徴である。このようにすると、（式
17）は擬似的な事後確率に基づく距離となる。

第１図において１０は入力信号をデイジタル信
号に変換するAD変換部、１１は音声分析区間
（フレーム）ごとに分析する音響分析部、１２は
特徴パラメータ抽出部であり、低次の６つの
LPCケプストラム係数（C₀〜C₅）をフレーム
（10msec）ごとに出力する。特徴パラメータ抽出
部１２の出力が（式13）の〓に相当する（したが
つてＤ＝６である）。なおブロツク10〜12の機能
は第１０図のブロツク１〜３の機能と同じであ
る。特徴パラメータはLPCケプストラム係数の
他に、自己相関係数、PARCOR係数、帯域通過
フイルタの出力などがある。

以下、各ブロツクの機能を第６図のフローチヤ
ートを参照しながら説明する。フレーム同期信号
発生部１３は、１フレームごとに同期信号を発生
する。フレーム番号をｊとし、入力音声を含む十
分広い区間j₁≦ｊ≦j₂で類似度の計算を行なうも
のとする。１フレームの期間で次の操作を行な
う。

標準パターン選択部１８は、認識対象とする音
声（ここでは単語）の１つ１つを選択する（単語
数をＫとする）。選択された標準パターンに対し
て、区間候補設定部１５では、各単語の最小音声
区間長N₁（ｋ）と最大音声区間長N₂（ｋ）を設定
する。そして、区間長Ｎ（N₁（ｋ）≦Ｎ＜N₂（ｋ））
に対して、特徴パラメータ抽出部１２で得られた
未知入力パラメータをｊ−ｎ〜ｊフレームの時間
分だけ並べて、入力パラメータの時系列を作り、
時間軸正規化部１４において、時系列パラメータ
の時間を（式12）を用いてＩフレームに伸縮し、
（式15）に相当するパラメータ系列を得る。類似
度計算部１６はこのパラメータ系列と、標準パタ
ーン選択部１８で選ばれた標準パターン格納部１
７中の標準パターン〓_k，B_kとの間で、（式17）
を用いて類似度L_k（Ｎ）を計算する。類似度比較
部２０では、L_k（Ｎ）と１次記憶１９に蓄積され
ているこの時点までの最大類似度値（距離の最小
値Lmin）を比較し、L_k（Ｎ）＜LminならばLmin
をL_k（Ｎ）に置きかえてその時のｋをk^として１
次記憶１９を更新し、L_kｎ≧Lminならば１次記
憶１９の内容は更新しない。

このような一連の操作を、１つの標準パターン
に対してN₂（ｋ）−N₁（ｋ）＋１回ずつ、１フレー
ムの間にＫ個の標準パターンに対して行なう。そ
して更に、それをj₁〜j₂フレームの期間に対して
行なう。認識結果は、j₂フレームまで到達した時
点におけるk^であり、その時の類似度値はLmin
である。また最大類似度を得た時点のフレームj^
とその時の区間長N^を１次記憶１９に蓄積してお
けば、これらを用いて音声区間を結果として求め
ることができる。

以上述べたように、本実施例はj₁〜j₂の区間を、
音声がその中に十分に入るように広く取つておき
さえすれば、音声区間検出という操作を必要とせ
ずに音声を認識することができる。第１図で示し
た第１の実施例は、解りやすいので、方法の説明
には有用であり、このとおりに実現することはも
ちろん可能である。しかし、リアルタイム化を図
ろうとした場合、計算量が多すぎるという難点が
ある。その原因は、区間候補設定部１５で設定し
た全ての区間について、まともに（式17）を計算
している点にある。

次に述べる第２の実施例は、計算量を削減し
た、より実用的な方法である。まず原理的な説明
を行なう。

認識結果を得るには類似度計算式（18）におい
て、L_kを最小とするｋ＝k^を求めればよい。すな
わち、 minL_k＝min｛B_k−_I 〓ⁱ⁼¹ （〓^k _i）^t・〓_i｝＝B_k−max｛_I 〓ⁱ⁼¹ （〓^k _i）^t・〓_i｝（式23）＝B_k−max｛_I 〓ⁱ⁼¹ l^k _i（Ｎ）｝（式24）＝B_k−maxM^k（Ｎ）（式25）ここで l^k _i（Ｎ）＝（a^k _i）^t・〓_i （式26）は、マツチングルートＮに従つて時間伸縮された
後の第ｉフレームの入力〓_iと標準パターンｋの
部分類似度である。次に時間伸縮の意味するとこ
ろを考えてみる。時間伸縮をされる前の未知入力
ベクトルを〓とすると、〓＝（〓₁，〓₂，…〓_o，…〓_N）（式27）と表わされる。ｎとｉは両方とも整数であり、
（式12）で関係づけられている。したがつて（式
15）のベクトル〓は（式27）の未知入力ベクトル
〓の中から、（式12）で関係づけられるフレーム
をＩフレーム分だけ選択して時間的順序を並べた
ものである。マツチングルートに従つて選択する
という操作を便宜上、次式で表わす。

〓_i＝〓〓_i〓Ｎ（式28）そうすると部分類似度（式26）は l^k _i（Ｎ）＝（^k _i）^t・〓〓_i〓Ｎ（式29）また部分類似度の和M^k（Ｎ）は M^k（Ｎ）＝_I 〓ⁱ⁼¹ l^k _i（Ｎ）＝_I 〓ⁱ⁼¹ （〓^k _i）^t・〓_i〓Ｎ（式30）すなわち（式17）は、部分類似度l^k _i（Ｎ）が先
に求められていれば、それらを（式12）の関係に
従つてＩフレーム分だけ加えるという操作に置き
かえられる。（式12）はＮを与えれば一意にｉと
ｎの関係が求まるので、N₁≦Ｎ＜N₂の範囲であ
らかじめ計算して、テーブルなどに蓄積しておく
ことができる。

次に第７図を参照してl^k _i（Ｎ）の求め方につい
て考えてみる。図において、点Ｐを標準パターン
と未知入力の終端点とし、未知入力の終端点の座
標をN₀とする。N₁，N₂は以前と同様に、音声の
最小長と最大長である。いま、未知入力の始端点
がＮの場合の類似度を求めるものとすると、マツ
チングルートは直線PNである。PN上で（式12）
を満足する、任意の一点（n′，ｉ）における部分
類似度l_i（Ｎ）は、入力のn′フレームのベクトルと
標準パターンのｉフレーム成分のベクトル〓₁の
積である。（n′，ｉ）点は、現時点ではPN上に位
置しているが、Ｐ点は時間とともにシフトするの
で、n′フレーム以前にはP′N′O上に存在していた
はずである。したがつて、Ｐ点の時点で（n′，
ｉ）の部分類似度を求めてそれを蓄積しておき、
P′の時点で使用することができる。（n′，ｉ）は
ΔPN₂N₁上の任意の点であるから、他の点につい
ても同様のことが言える。このように考えると、
各フレームにおける計算は次のように２つに分け
ることができる。

PN_O上での部分類似度を計算して、バツフア
に蓄積する。（積和演算）（式30）によつて計算する部分類似度和に用
いるl^k _i（Ｎ）は、それ以前のフレームで計算し
てバツフアに蓄積されていたものを取り出して
用いる。（加算演算）第８図はフレームあたりの計算方法をブロツク
図で示したものである。図において、３０はl^k _i
（N_O）を計算する積和器であり、標準パターンの
フレーム数（Ｉ）だけ用意されている。各積和器
の下部からは第ｊフレームの入力ベクトル〓
（ｊ）が入力され、左側から標準パターンが入力
される。そして（式29）に相当する計算を行な
い、l^k _i（N_O）を出力する。遅延バツフア３１は、
積和器の計算結果を１フレームの期間保存して、
次段へ伝播する。遅延バツフアの数は、１単語あ
たり、第７図のΔPN₂N₀内の点の数だけ用意され
ている。３２は加算器であり、（式30）に相当す
る計算を行なつて類似度和を求める。加算器３２
はＩ個の入力端を持ち、その各々は（式12）で規
定されるマツチングルートに従つて、遅延バツフ
アの出力端に接続されている。３３は比較器であ
り、maxM_k（Ｎ）を求める。３４は減算器であ
り、（式25）の計算を行なつて、単語ｋに対する
最小値を求める。

以上、第２の実施例における方法の説明を行な
つた。第９図は第２の実施例における音声認識装
置の具現化を示す機能ブロツク図である。第９図
において、第１図と同じ番号を有するブロツクは
同一機能を有するので、説明を省略または簡略化
する。

第９図において、AD変換部１０、音響分析部
１１、特徴パラメータ抽出部１２で入力音声をデ
イジタル化してLPC分析を行ない、特徴パラメ
ータ（LPCケプストラム係数）をフレームごと
に求める。１フレームの期間内に以下の操作を行
なう。

標準パターン選択部１８は、標準パターン格納
部１７に格納されているＫ個の標準パターンを、
１つずつ選択する。部分類似度計算部２１は、入
力特徴パラメータと選択された標準パターンとの
間で（式29）の計算を行ないl^k _i（N_O）を求め、類
似度バツフア２２へ蓄積する。類似度バツフア
は、１単語あたり第７図のΔPN₂N₀内の類似度を
蓄積できる容量を持つており、時間伸縮テーブル
２４で指定されたアドレスの内容を読み出す。時
間伸縮テーブルには入力長Ｎ（N₁≦Ｎ≦N₂）の
各々に対して（式12）で規定されるｎとｉの関係
が記述されている。N₁，N₂は単語ごとに異な
り、区間候補設定部１５によつて設定される。類
似度加算部２３は、マツチングルートN₁〜N₂の
各々に対して、時間伸縮テーブル２４で指定され
たアドレスで読出される類似度バツフア２２の出
力を加算して（式30）の計算を行ない、類似度和
M^k（Ｎ）を求める。類似度比較部２０はM^k（Ｎ）
と１次記憶１９の内容を比較し、M^k（Ｎ）の方が
大きい場合のみ、１次記憶の内容をM^k（Ｎ）に置
きかえる。Ｎ＝N₂まで計算し終えると（式18）
によつてL_kを求め、１次記憶１９に蓄積されて
いる、それ以前の最小値と比較し、L_kが小さい
場合のみ１次記憶１９の内容を更新する。そし
て、標準パターン選択部１８は次の単語を選択し
て同様の操作を行なう。さらに全単語を終了する
とフレームを進める。

対象とする全区間（ｊ＝j₁〜j₂）に対してこの
ような操作を行なうと、ｊ＝j₂フレームを終了し
た時点では、類似度の最小値L^とその時の単語名
k^を認識結果として求めることができる。

第２の実施例では、第１の実施例に比べて、類
似度を求めるための積和演算の回数が非常に少な
くなつている。いま、単語数Ｋ＝10、標準パター
ン長Ｉ＝16、平均最小時間長N₁＝21、平均最大
時間長N₂＝40、１フレームあたりのパラメータ
数Ｄ＝６とすると、第１の実施例における積和演
算量は19800回に対し、第２の実施例では960回で
ある。

本実施例の方法を用いて、成人男女計330名が
電話機を通して発生した10数字単語を評価した結
果、平均認識率93.75％を得た。高騒音下の発声
であることを考慮すれば、この値は低いとは言え
ない。また本実施例による認識誤まりの原因を分
析した結果、誤まりのほとんどはある単語の一部
を他の単語として認識してしまうために生ずるこ
とがわかつた。たとえば／Zero／の／ro／の部
分を／go／と誤認識するのがその１例である。
このため、第２候補までを正解とすると97％以上
の認識率を得る。したがつて、他の方法を少し併
用すれば、第１候補としてさらに高い認識率が得
られることが容易に推察される。

発明の効果以上要するに本発明は、認識すべき音声とその
前後の騒音を含む入力信号区間に、ある時間的な
基準点を設け、基準点を端点としてそれからN₁
フレームの区間とN₂フレームの区間（N₁＜N₂）
の２区間を設定して、これらを音声区間のそれぞ
れ最小値と最大値と考えて、N₂−N₁＋１とおり
の音声区間候補のそれぞれに対して、音声区間長
を一定時間長に伸縮しながら各単語の標準パター
ンとのマツチングを行なつて各単語の類似度また
は距離を求め、この操作を基準点を全入力信号区
間の始めから終りまで走査して行ない、全ての基
準点位置の全ての音声区間候補に対する類似度ま
たは距離を各単語について比較し、類似度を最大
または距離を最小とする単語を認識結果として出
力するもので、音声区間の検出を必要とせず、騒
音と音声が混在した信号から音声に相当する部分
のみを切出して認識でき、従来は複雑なルールを
用いて音声区間の検出を行なつていたが、それで
も騒音レベルが高い場合や非定常的なノイズが混
入する場合には音声区間の検出を誤まり、したが
つて誤認識をしていたが、本発明は複雑な音声区
間検出アルゴリズムを除去することによつて、シ
ステムを簡略化し、また高騒音入力に対して安定
した認識率を確保することができ、その効果は大
きい。

【図面の簡単な説明】

第１図は本発明の第１の実施例における音声認
識方法を具現化する機能ブロツク図、第２図乃至
第４図は同実施例の音声区間長の伸縮を説明する
概念図、第５図は同実施例の音声の標準パターン
作成時の、周囲情報の標準パターン作成法を説明
する概念図、第６図は同実施例の処理手順を説明
するフローチヤート、第７図は本発明の第２の実
施例における音声認識方法の部分類似度の求め方
を示す概念図、第８図は同実施例のフレームあた
りの計算方法を示すブロツク図、第９図は同実施
例における音声認識方法を具現化する機能ブロツ
ク図、第１０図は従来の音声認識方法を示す機能
ブロツク図である。１０……AD変換部、１１……音響分析部、１
２……特徴パラメータ抽出部、１３……フレーム
同期信号発生部、１４……時間軸正規化部、１５
……区間候補設定部、１６……類似度計算部、１
７……標準パターン格納部、１８……標準パター
ン選択部、１９……１次記憶、２０……類似度比
較部。

Claims

【特許請求の範囲】１予め、認識対象とする音声の各々の標準パタ
ーンを、各々の音声に属するデータと認識対象と
する全音声のデータおよび全音声のデータの周囲
情報を用いて作成しておき、一方、認識すべき音
声とその周囲の情報を含む未知入力内に時間的な
基準点を設け、基準点を端点としてそれから時間
長N₁およびN₂（N₁＜N₂）の２つの区間を設定し
て、基準点とN₁の間の区間を音声区間の最小値
そして基準点とN₂の間の区間を音声区間の最大
値と考えて、最小音声区間と最大音声区間の間に
複数の音声区間を仮定し、仮定したそれぞれの音
声区間長を一定時間長に伸縮しながら前記各音声
の標準パターンとの照合を行なつて各音声に対す
る類似度または距離を求め、仮定した全音声区間
の全標準パターンに対する最大類似度または最小
距離とその場合の標準パターン名を記憶し、次に
未知入力内の基準点を単位区間シフトさせて、同
様にして新たに最大類似度または最小距離を求
め、記憶されている以前の最大類似度または最小
距離と新たな最大類似度または最小距離を比較し
て大きい方の類似度または小さい方の距離とその
ときの標準パターン名を記憶し、このような操作
を、基準点を単位時間ずつシフトさせながら、未
知入力の十分広い区間に対して行ない、基準点が
最終点に到達したときに記憶されている標準パタ
ーン名に対応する音声を認識結果とすることを特
徴とする音声認識方法。２予め、音声区間長と、その音声区間長を一定
時間長に伸縮した時の標準パターンの時間的な位
置との対応関係を求めておき、一方、類似度また
は距離の計算においては未知入力と標準パターン
の部分類似度または距離を先に求め、仮定した音
声区間長の未知入力と標準パターンの類似度また
は距離を、前記対応関係を参照しながら部分類似
度を加算することを特徴とする特許請求の範囲第
１項記載の音声認識方法。３類似度または距離の計算を、事後確率を基本
とした尺度を用いて行なつたことを特徴とする特
許請求の範囲第１項記載の音声認識方法。４特徴パラメータがLPCケプストラム係数、
自己相関係数、帯域通過フイルタの出力のいずれ
かであることを特徴とする特許請求の範囲第１項
記載の音声認識方法。５周囲情報を正確な始端付近l₁フレームと正確
な終端付近l₂フレームを組合わせて定まる音声区
間を用い、全対象単語に属する多くのデータサン
プルから統計的に作成することを特徴とする特許
請求の範囲第１項記載の音声認識方法。６ある音声ｎの標準パターンを、ｎに属するデ
ータを用いて統計的に求めた標準パターンから周
囲情報を除去した形で求めることを特徴とする特
許請求の範囲第１項記載の音声認識方法。７類似度を計算する式が１次判別関数であるこ
とを特徴とする特許請求の範囲第１項記載の音声
認識方法。