JPH054680B2

JPH054680B2 -

Info

Publication number: JPH054680B2
Application number: JP60275365A
Authority: JP
Inventors: Katsuyuki Futayada
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1985-12-06
Filing date: 1985-12-06
Publication date: 1993-01-20
Also published as: JPS62134699A

Description

【発明の詳細な説明】産業上の利用分野本発明は人間の声を機械に認識させる音声認識
方法に関するものである。

従来の技術近年音声認識技術の開発が活発に行なわれ、商
品化されているが、これらのほとんどは声を登録
した人のみを認識対象とする特定話者用である。
特定話者用の装置は認識すべき言葉をあらかじめ
装置に登録する手間を要するため、連続的に長時
間使用する場合を除けば、使用者にとつて大きな
負担となる。これに対し、声の登録を必要とせ
ず、使い勝手のよい不特定話者用の認識技術の研
究が最近では精力的に行なわれるようになつた。

音声認識方法を一般的に言うと、入力音声と辞
書中に格納してある標準的な音声（これらはパラ
メータ化してある）のパターンマツチングを行な
つて、類似度が最も高い辞書中の音声を認識結果
として出力するということである。この場合、入
力音声と辞書中の音声が物理的に全く同じものな
らば問題はないわけであるが、一般には同一音声
であつても、人が違つたり、言い方が違つている
ため、全く同じにはならない。

人の違い、言い方の違いなどは、物理的にはス
ペクトルの特徴の違いと時間的な特徴の違いとし
て表現される。すなわち、調音器官（口、舌、の
どなど）の形状は人ごとに異なつているので、人
が違えば同じ言葉でもスペクトル形状は異なる。
また早口で発声するか、ゆつくり発声するかによ
つて時間的な特徴は異なる。

不特定話者用の認識技術では、このようなスペ
クトルおよびその時間的変動を正規化して、標準
パターンと比較する必要がある。

不特定話者の音声認識に有効な方法として、本
出願人は既にパラメータの時系列情報と統計的距
離尺度を併用する方法に関して特許を出願してい
る（特願昭60−29547）ので、その方法を以下に
説明する。

第１０図は本願出願人が以前に提案した音声認
識方法の具現化を示す機能ブロツク図である。

図において、１は入力音声をデイジタル信号に
変換するAD変換部、２は音声を分析区間（フレ
ーム）毎に分析しスペクトル情報を求める音響分
析部、３は特徴パラメータを求める特徴パラメー
タ抽出部、４は始端フレームと終端フレームを検
出する音声区間検出部、５は単語長の伸縮を行う
時間軸正規化部、６は入力パターンと標準パター
ンとの類似度を計算する距離計算部、７は予め作
成された標準パターンを格能する標準パターン格
納部である。上記構成において以下その動作を説
明する。

入力音声をAD変換部１によつて12ビツトのデ
イジタル信号に変換する。標本化周波数は8KHz
である。音響分析部２では、１フレーム
（10msec）ごとに自己相関法によるLPC分析を行
なう。分析の次数は10次とし、線形予測係数〓０，
〓，〓２…〓10を求める。またここではフレームごと
の音声パワーWoも求めておく。特徴パラメータ
抽出部３では線形予測係数を用いて、LPCケプ
ストラム係数C₁〜C_p（ｐは打切り次数）および正
規化対数残差パワーCoを求める。

なお、LPC分析とLPCケプストラム係数の抽
出法に関しては、例えば、J.D.マーケル、A.H.グ
レイ著、鈴木久喜訳「音声の線形予測」に詳しく
記述してあるので、ここでは説明を省略する。ま
た特徴パラメータ抽出部３では対数パワーLWo
を次式で求める。

LWo＝10log₁₀Wo (1) 音声区間検出部４は式(1)で求めたLWo閾値θ_s
と比較し、LWo＞θ_Sのフレームがl_Sフレーム以上
持続する場合、その最初のフレームを音声区間の
始端F_Sとする。またF_Sの後において、LWoと閾
値θ_eを比較し、LWo＜θ_eとなるフレームがl_eフレ
ーム以上連続するとき、その最初のフレームを音
声区間の終端フレームF_eとする。このようにし
てF_SからF_Sまでを音声区間とする。いま説明を簡
単にするために、改めてF_Sを第１フレームと考
え、フレームナンバーを（１，２，…ｊ，…Ｊ）
とする。ただし、Ｊ＝F_e−F_S＋１である。

時間軸正規化部５では、単語長をＩフレームの
長さに分割することにより線形に伸縮をする。伸
縮後の第ｉフレームと入力音声の第ｊフレームは
式(2)の関係を持つ。

ｉ＝〔Ｊ−１／Ｊ−１ｊ＋Ｊ−１／Ｊ−１＋0.5〕(2) ただし〔〕は、その数を超えない最大の整数
を表す。例ではＩ＝16としている。

次に伸縮後の特徴パラメータを時系列に並べ、
時系列パターン〓_xを作成する。いま第ｉフレー
ムの特徴パラメータ（LPCケプストラム係数）
をC^(x) _i,k（ｋ＝０，１，２，…Ｐ：ｄ個）とすると〓
_ｘは次式となる。

〓_x＝（C^(x) _1,0，C^(x) _1,1，C^(x) _1,2…C^(x) _1,
p……C^(x) _i,0，C^(x) _i,1……C^(x) _I,0C^(x) _I,1…C^(x) _I,p）
(3) すなわち〓_xは、Ｉ・（Ｐ＋１）すなわちＩ・Ｄ次
元のベクトルとなる（Ｄは１フレームあたりのパ
ラメータ数）。

距離計算部６は入力パターン〓_xと標準パター
ン格納部７に格納されている各音声の標準パター
ンとの類似度を統計的な距離尺度を用いて計算
し、最も距離が小さくなる音声を認識結果として
出力する。標準パターン格納部７に格納されてい
る第ｋ番目の音声に対応する標準パターンを〓_k
（平均値）、対象とする全音声に共通な共分散行列
を〓とすると、入力パターン〓_xと第ｋ番目の標
準パターンとのマハラノビス距離S_kは次式で計算
される。

S_k＝（〓_x−〓_k）ｔ・〓^-1・（〓_x−〓_k） (4) 添字ｔは転置を、また−１は逆行列であること
を表す。式(4)を展開すると S_k＝〓^t _x・〓−１・〓_x−２〓^t _k・〓−１・〓_x＋C^t _k・〓−１・〓_k (5) 式(5)の第１項はｎに無関係なので大小比較をする
ときは考慮しなくてもよい。したがつて第１項を
取除いて、S_kをD_kに置きかえると、D_kは次のよ
うになる。

D_k＝b_k−〓^t _k・〓_x (6) ただし〓_k＝２〓−１・〓_k (7) b_k＝〓^t _k・〓−１・〓_k (8) D_kを全てのｋ（ｋ＝１，２…Ｋ）について計算
し、D_kを最小とする音声を認識結果とする。こ
こでＫは標準パターン格納部７に格納されている
音声標準パターンの数である。実際には標準パタ
ーンは〓_kとb_kが１対として、音声の数（Ｋ種類）
だけ格納されている。

式(6)に要する計算量は積和演算がＩ・（Ｐ＋１）
回、減算が１回であり、非常に計算量が少ないの
が特長である。実用的にはＩ＝16，Ｐ＝４とすれ
ば十分なので、積和演算回数は１単語あたり80回
である。

次に標準パターン〓_k，〓（実際には〓_k，b_kに
変換される）の作成方法について説明する。

標準パターンは、各音声ごとに多くのデータサ
ンプルを用いて作成する。各音声に対して、用い
るサンプルの数をＭとする。各サンプルに対して
式(2)を適用して、フレーム数をＩに揃える。音声
ｋに対して平均値ベクトルを求める。

〓_k＝（C^(k) _1,0，C^(k) _1,1，C^(k) _1,2，…C^(k) _1,p……C^(k) _i,0，C^(k) _i,1…C^(k) _I,0，C^(k) _I,1，…C^(k) _1
,p）(9) ただし C^(k) _i,o＝¹ _MM 〓^m=1 C_i，^(k) _o,n (10) （ｉ＝１，２，…Ｉ：Ｉフレーム、ｎ＝０，
１，２，…Ｐ：ｄ個）ここでC^(k) _i,o,nは音声ｋの第ｍ番目のサンプルで、
第ｉフレームの第ｎ次のケプストラム係数を示
す。平均値ベクトルと同様な手順で音声ｋの共分
散行列〓^(k)を求める。全音声に共通な共分散行列
〓は次式で求める。

〓＝１／Ｋ（〓⁽¹⁾〓⁽²⁾＋…＋〓^(k)＋……＋〓^(k)）
(11) 〓_k，〓を式(7)式(8)によつて〓_k，b_kに変換し、
標準パターン格納部７にあらかじめ格納してお
く。

発明が解決しようとする問題点かかる方法における問題点は、パターンマツチ
ングを行なう以前に音声区間が一意に確実に決め
られていると仮定している点にある。現実の音声
データは種々のノイズを含んでいたり、語頭や語
尾における発声が不明瞭であるため、音声区間を
正確に決められない場合や、音声以外の区間を誤
まつて検出する場合が多々ある。誤まつた音声区
間に対して従来例の方法を適用すると、当然のこ
とながら、認識率が大きく低下してしまう。

本発明の目的は上記問題点を解決するので、音
声区間の正確な検出を必要としないで、入力信号
中から音声を自動的に抽出して認識でき、高い認
識率を有する音声認識方法を提供するものであ
る。

問題点を解決するための手段本発明は上記目的を達成するもので、パワー情
報を利用して認識すべき音声の存在を検出し、そ
の始端付近にある時間的な基準点となる始端点を
設け、基準点を端点としてそれからN₁フレーム
の区間とN₂フレームの区間（N₁＜N₂）の２区間
を設定して、これを音声区間のそれぞれ最小値と
最大値と考えて、N₂−N₁＋１とおりの音声区間
候補のそれぞれに対して、音声区間長を一定時間
長に伸縮しながら各単語の標準パターンとのマツ
チングを行なつて各単語の類似度又は距離を求
め、この操作を基準点を１フレームずつシフトし
ながら行なつてゆき、基準点の位置が検出された
音声の部分から一定区間ｈだけ経過した時点と類
似度又は距離がある値T_vよりも小さく又は大き
くなつた時点を用いて決められる終了点に到達し
たとき、始端点から終了点までの間の全ての基準
点位置の全ての音声区間候補に対する類似度また
は距離を各単語について比較し、類似度を最大ま
たは距離を最小とする単語を認識結果として出力
するものである。

作用本発明は、パワー情報と類似度情報を用いて検
出された、入力音声が確実に存在する十分広い区
間（入力信号区間）に対して、線形伸縮した入力
と標準パターンとの間のパターンマツチングを入
力信号区間の始端から終端まで走査しながら行な
うことによつて、類似度最大又は距離最小となる
音声とその区間を自動的に求める方法であり、正
確な音声区間の検出を必要とせず、騒音環境下で
発声した音声も高い確率で認識することができ
る。

実施例以下に本発明の実施例を図面を用いて詳細に説
明する。第１図は本発明の一実施例における音声
認識方法の具現化を示す機能ブロツク図である。

まず本実施例の考え方を第２図〜第４図を用い
て説明する。

同じ言葉を発声しても、発声の時間的な長さ
（音声長）は発声方法によつて異なるし、人の違
いによつても異なる。、パターンマツチングによ
る音声認識方法では入力音声の長さを、標準的な
音声長に正規化したうえ類似度計算を行なつて音
声の認識を行なう。第２図は音声長の正規化の様
子を示したものである。入力音声の長さの最小長
をN₁、最大長をN₂とし、音声の標準的な長さ
（標準パターン長）をＩとすると、第２図に示す
ように、長さＮ（N₁≦Ｎ≦N₂）の音声長を伸縮
して長さＩに正規化することになる。第２図では
音声の終端を一致させて、伸縮するようになつて
いる。伸縮には式(2)と同様に、線形伸縮式を用い
る。

ｉ＝〔Ｉ−１／Ｎ−１・ｎ＋Ｎ−１／Ｎ−１＋0.5〕(
12) 未知入力と標準パターンの類似度を計算する場
合、未知入力の音声長Ｎを式(12)によつて標準パタ
ーン長に伸縮することになるが、この様子を図示
したのが第３図である。よこ軸に入力長、たて軸
に標準パターン長をとり、終端を一致させると、
入力音長はN₁〜N₂の範囲であるから、入力と標
準パターンとのマツチングルートは、入力軸の
N₁≦Ｎ≦N₂内の１点を始点とし、Ｐを終端とす
る直線となる。したがつて、類似度計算は全て三
角形の内側（マツチング窓と呼ぶ）で行なわれる
ことになる。

いま、時間長N_Uの未知入力があり、その内容
が音声ｋであつたとする。ただし、未知入力の終
端は既知であるが始端は未知である（したがつ
て、N_Uも未知である）とする。この未知入力と
単語ｋの標準パターンS_kの照合を行なう場合、Ｎ
をN₁からN₂まで、フレームずつずらせながら、
各フレームに対して式(12)を用いて時間長をＩに伸
縮し、未知入力パラメータと標準パターンとの類
似度を求める。このとき標準パターンはS_kである
ので、発声が正確ならば、Ｎ＝N_Uにおいて類似
度は最大となるはずである。また他の任意の標準
パターンS_k′に対するよりも、S_kに対して類似度
が大きくなるはずである。このようにして、未知
入力の始端が決められる（したがつて音声長が決
められる）と同時に音声ｋが認識できる。

さて、第３図においては終端が既知として説明
を行なつたが、両端が未知の場合（すなわち音声
区間が不明である場合）にも、この方法を拡張で
きる。第４図はその説明図である。図において終
端点の横軸（入力の時間軸（座標をｊとする。こ
こでもしｊの位置が入力音声の終端に一致してい
れば第３図の場合と同じであるが、今度は両端点
が未知という仮定であるので、必ずしもｊが音声
の終了点と一致するとは限らない。しかしなが
ら、ｊを音声区間が十分に入る広い範囲j1≦ｊ≦
j2でスキヤンすれば、ｊが音声の終端と一致する
時点ｊ＝j0が必ず存在する。その場合、始端点は
j0−N2〜j0−N1の範囲内の点j0−N_Uに存在する
はずである。そして、このようなスキヤンした場
合においても、発声した言葉と標準パターンが一
致していれば、始端がj0−N_U、終端がj0のときの
類似度が、他のどのようなｊおよびＮの組合せよ
りも大きくなる。しかも、この類似度は他の標準
パターンに対する類似度よりも大きい。したがつ
て、認識結果が求められると同時に、音声の始端
点、終端点が定まる。

このように第４図に示した方法は、騒音と音声
が混在した信号から、標準パターンに最も類似し
た部分を切り出して認識することができる。した
がつて、一般に用いられているような複雑な音声
区間検出の手続きを必要とせず、音声区間は認識
された音声とともに結果として出力される。

類似度の計算は以下に述べるように、特徴パラ
メータの時系列パターンを用い、統計的距離尺度
（事後確率に基く距離）によつて計算する。

１フレームあたりの特徴パラメータの個数をＤ
とすると、Ｉフレームの時系列パターンはＤ・Ｉ
次元のベクトルとなる。いま、未知入力の第ｉフ
レームのパラメータを〓_i、単語ｋの標準パター
ンの第ｉフレームの成分を〓^k _iとすると、〓ｉ＝（x1，ｉ，x2，ｉ，…xd，ｉ，…XD，
ｉ） (13) 〓^k _i＝（a^k _1,i，a^k _2,i，…a^k _d,i，…a^k _D,i(14) 時系列パターンをそれぞれ〓，〓_kとすると〓＝（〓１，〓２，…，〓ｉ，…，〓Ｉ）(15) 〓_k＝（〓^k ₁，a^k ₂，…，〓^k _i，…，〓^k _I）〓である。単語ｋに対する類似度をL_kとすると、 L_k＝B_k−〓^t _k・〓 (17) ＝Bk−_I 〓ⁱ⁼¹ （〓^k _i）^t・〓ｉ (18) ＝B_k−_I 〓ⁱ⁼¹ （_D 〓^d=1 a^k _d,i・x_d,i） (19) ここで〓_k，B_kは単語ｋの標準パターンである。

〓_k＝２〓^-1 _a（〓_k−〓_e） (20) B_k＝〓^t _k・〓^-1 _a・〓_k−〓^t _x・〓^-1 _a・〓ｅ (21) ただし、〓ｋは単語ｋの平均値ベクトル、〓ｅ
は全ての単語の周囲情報の平均値ベクトルであ
る。また〓ａは共分散行列であり、各単語の共分
散行列〓ｋと周囲情報の共分散行列〓ｅを用いて
作成できる。

〓_a＝（_K 〓^k=1 〓_k＋〓_e）／（Ｋ＋１） (22) Ｋは単語の種類である。

〓ｅ，〓ｅは各単語に属する多くのサンプルを
用いて、次のように作成する。第５図に示すよう
に、音声とその周囲の区間に対して、１フレーム
ずつずらせながら複数の区間（区間長はＩフレー
ム）を設定する。このような操作を各単語の多く
のサンプルに対して行ない、それらの区間のパラ
メータの平均値ベクトル〓ｅと共分散行列〓ｅを
作成する。

式(17)は式(6)と同じ形であるので、類似度計算に
要する演算量は従来例と変わらない。標準パター
ン作成の式（式(7)，式(8)と式(20)，式(21)）のみが
異なつている。周囲情報を〓ｅ，〓ｅとして標準
パターンに取り込んでいるのが本発明の特徴であ
る。このようにすると、式(17)は擬似的な事後確率
に基く距離となる。なお、距離尺度は事後確率に
基づく尺度の他に一次判別関数、二次判別関数、
マハラノビス距離、ベイズ判定、複合類似度など
の統用して求める。パワー情報による方法は、人
の声の方が周囲の騒音よりも大きいことを利用す
る方法であるが、人の声の大きさは環境に影響さ
れるので、声の大きさのレベルをそのまま利用し
ても良い結果は得られない。しかし、人の発声
は、静かな環境では小さく、やかましい環境では
大きくなる傾向があるので、信号対ノイズ比
（Ｓ／Ｎ比）を用いれば、環境騒音の影響をあま
り受けずに音声を検出できる。

第６図において、実線はパワー（対数値）の時
間変化を示す。この例ではａ，ｂ，ｃの３つのパ
ワーピークが生じているが、このうちａはノイズ
による不要なピークであるとする。破線はノイズ
の平均レベル（P_N）、また一点鎖線はノイズの平
均レベルより常にθ_N（dB）だけ大きい、閾値レベ
ル（P〓）である。ノイズの平均レベルP_Nは次の
ようにして求める。パワー値をＰとすると P_N＝１／Ｍ_M 〓^m=1 P_n (23) ただし、P_nは閾値レベル以下のパワーレベル
を有する第ｍフレームパワー値である。すなわち
計的距離尺度を用いることができる。

さて、ここまでの説明では、第３図または第４
図で示した三角形のマツチング窓を、音声区間が
十分入る広い範囲j₁≦ｊ≦j₂でスキヤンするもの
と仮定してきたが、実際にはj₁およびj₂をどのよ
うに決めるかが問題となる。j₁が必要以上に小さ
い場合（すなわち音声の始端よりもずつと前に位
置する場合）はノイズなどによつて誤認識する割
合が多くなる。またj₂が必要以上に大きい場合
（音声の終端よりもずつと後に位置する場合）は、
話者が発声終了してから認識結果を出力するまで
に時間がかかり過ぎ、使いにくいシステムになつ
てしまう。したがつて、j₁やj₂は音声区間を適当
に含むように設定する必要がある。しかし、本実
施例においては音声区間と正確に対応する必要は
ない。以下第６図〜第８図を用いて走査区間（j₁
およびj₂の位置）の決め方を説明する。

本実施例においては、走査区間の始端はパワー
情報で求め、終端はパワー情報と類似度情報を併
P_Nは閾値レベル以下（ノイズレベル）のフレー
ムの平均値である。このようにすると、第６図の
破線で示すように、P_Nはパワー値を平滑化した
波形となる。また閾値レベルP〓は P〓＝P_N＋θ_N (24) である。

第６図を例として音声検出の方法を説明する。
信号の始まり部におけるパワーを初期ノイズレベ
ルとし、式(23)によつてノイズの平均レベルを求
めながら、パワーレベルとP〓を比較してゆく。最
初のパワーピークａはP〓以下であるので、音声と
して検出されない。パワーピークｂの立上りの部
分ｄでパワーレベルがP_N以上になると式(23)の操
作を中止し、以後Ｐ＝P〓になるまでP_NおよびP〓
を一定に保つ。そしてｅからｆにかけてＰ≦P〓と
なるので式(23)の操作を行なう。ｆからｇまでは
Ｐ＞P〓であるからP_N，P〓は一定となる。結果と
してＰ＞P〓となる区間Ｂ，Ｄを音声が存在する区
間とする。

このように、この音声検出方法はノイズの平均
レベルを基準として音声を検出しているので、環
境騒音が大きい場合でも音声パワーが大きけれ
ば、確実に音声の存在を検出できる。そして、閾
値θ_Nを十分高くしておけば、少々の騒音変動は感
知しない。

次に第７図によつて、認識の走査区間の決め方
を説明する。第７図ａはパワーの時間的な動きを
示しており、区間Ａは第６図の方法で検出した音
声の確実な存在範囲である。ｂは第３図または第
４図で説明したマツチング窓が時間的に動いてゆ
く様子を示す。そして、(c)は距離（全単語の最小
距離）の時間的な動きであり、式(17)の最小値
minL_kを用いている。

マツチング窓の先端が区間Ａの先端ｄに到達し
た時点から認識を開始する。すなわち、この時点
が第４図の説明におけるスキヤン（走査）の開始
点ｊ＝j₁である。ｄ点を通過した後は第４図の方
法で各標準パターンとの類似度（距離）を求め、
比較してゆく。そして、スキヤンの終了点ｊ＝j₂
まで認識操作を行なうことになるが、終了点j₂は
次の３つの条件によつて決定する。

パワーで検出された区間の開始点からの時間
長（フレーム数）がl_s以上である。

パワーで検出された区間の終了点からの時間
長（フレーム数）がl_e以上である。

各標準パターンとの距離の最小値（類似度の
最大値）が閾値以上（類似度の場合は閾値以
下）であること。

これら３つの条件を全て満足する最初の時点を走
査終了点ｊ＝j₂とする。

最初の２つの条件は、主に持続時間を考慮して
決めたものである。は、どの標準パターンとの
距離も遠くなつた時点は、音声部分から外れてい
るという条件である。第７図の例では、ｆが区間
Ａの終了点ｅからl_eが経過した時点、ｇが距離が
閾値を超えた時点、ｈがＡの始端点からl_sが経過
した時点であるが、最も後に位置するのはｈであ
るので、ｈを走査終了点j₂とする。

第８図は他の例である。(a)はパワーの動きであ
り、この場合は、パワーで検出された区間がＡと
Ｂの２つある。(b)は距離の動きである。このよう
にパワーで検出された区間が複数の場合は、最後
の区間からl_sを求める。そして、〜の条件に
よつて、ｈが走査終了点となる。

このように、本実施例による走査区間の設定法
は、Ｓ／Ｎ比を用いた音声の存在の検出と、類似
度が閾値を超えるか否かという、非常に粗い情報
を用いているので、種々のノイズによつて影響さ
れにくい。そして、もし開始点がノイズなどによ
つて実際の音声よりかなり前に位置したとして
も、認識処理の区間が増すだけであつて、認識率
に対する影響は小さい。また、終了点が誤まつて
かなり後に位置した場合も、発声終了から認識出
力までの時間が遅れるだけである。Ｓ／Ｎ比が低
すぎてパワーによる検出ができなかつた場合や、
類似度が小さ過ぎて終了点が検出されなかつた場
合は、認識拒否（リジエクト）となり、誤認識に
はならない。

次に上記の説明に基づいて、第１図の各ブロツ
クの機能を述べる。AD変換部１は入力信号に前
置フイルタを施した後、8KHzサンプリング、12
ビツトに量子化する。音響分析部１１は入力信号
を分析次数10次でLPC分析し、特徴パラメータ
（LPCケプストラム係数）に変換して、LPCケプ
ストラム係数（C₀〜C₅）をフレーム（10m_sec）
ごとに出力する。特徴パラメータ抽出部１２の出
力が式(13)の〓に相当する（したがつてＤ＝６であ
る）。なおブロツク10〜12の機能は第１０図のブ
ロツク１〜３の機能と同じである。特徴パラメー
タはLPCケプストラム係数の他に、自己相関係
数、PARCOR係数、帯域通過フイルタの出力な
どがある。

以下、その他の各ブロツクの機能を第９図のフ
ローチヤートを参照しながら説明する。フレーム
同期信号発生部１３は、１フレームごとに同期信
号を発生する。フレーム番号をｊとする。

パワー計算部２１はフレームごとのパワー（ま
たは帯域パワー）値を求める。パワー比較部２２
では、パワー計算部２１の出力P_jと、式(24)で求
められるノイズレベル学習部２３の出力P〓を比較
し（判断イ）、P_j＜P〓ならばノイズレベル学習部
２３はP〓を更新する（処理ロ）。初めてP_j≧P〓と
なつた時点で、走査区間設定部２４は走査を開始
する指示を出し、以下の処理を行なう。走査開始
後、１フレームの期間で次の操作を行なう。

標準パターン選択部１８は、認識対象とする音
声（ここでは単語）の１つ１つを選択する（処理
ハ）。ここで単語数をＫとする。選択された標準
パターンｋ＝１に対して、区間候補設定部１５で
は、各単語の最小音声区間長N₁（ｋ）と最大音声
区間長N₂（ｋ）を設定する（処理ニ）。そして、
区間長Ｎ（N₁（ｋ）≦Ｎ＜N₂（ｋ））に対して、特
徴パラメータ抽出部１２で得られた未知入力パラ
メータをｊ−Ｎ〜ｊフレームの時間分だけ並べ
て、入力パラメータの時系列を作り、時間軸正規
化部１４において、時系列パラメータの時間を式
(12)を用いてＩフレームに伸縮し、式(15)に相当する
パラメータ系列を得る（処理ホ）。類似度計算部
１６はそのパラメータ系列と、標準パターン選択
部１８で選ばれた標準パターン格納部１７中の標
準パターンA_k，B_kとの間で、式(17)を用いて類似
度L_k(N)を計算する（処理ヘ）。類似度比較部２０
では、L_k(N)と中間結果格納部１９に蓄積されて
いるこの時点までの最大類似度値（距離の最小値
Lmin）を比較し（判断ト）、L_k(N)≦Lminならば
LminをL_k(N)に置きかえてその時のｋをK^として
中間結果格納部１９を更新し（処理チ）、L_k(N)≧
Lminならば中間結果格納部１９の内容は更新し
ない。

このような一連の操作を、１つの標準パターン
に対してN₂（ｋ）−N₁（ｋ）＋１回ずつ（判断リ、
処理ヌ）、１フレームの間にＫ個の標準パターン
に対して行なう（判断ル、処理ヲ）。

以上の一連の処理が終了したら、走査区間設定
部２４は前記〜の終了条件をチエツクする
（判断ヨ）。終了条件を満足しない場合はｊ＝ｊ＋
Δj（Δjはｊの増分）として（処理タ）、同様の処
理を行なう。終了条件を満足した場合は、その時
のK^を認識結果、Lminを類似度値（距離値）と
して出力する。また最大類似度（最小距離）を得
た時点のフレームj^とその時の区間長N^を中間結
果格納部１９に蓄積しておけば、これらを用いて
音声区間を結果として求めることができる。

以上述べたように、本実施例はＳ／Ｎ比の時間
変化と類似度を用いて大きな音声の存在する区間
を検知しながら連続的に類似度計算を行なつて認
識を行なう方法であり、音声区間の正確な検出を
必要とせず、発声終了後速やかに結果を出力する
ことができる。

本実施例の方法を用いて、成人男女計330名が
電話機を通して発声した10数字単語を評価した結
果、平均認識率93.84％を得た。高騒音下の発声
であることを考慮すれば、この値は低いとは言え
ない。また本実施例による認識誤りの原因を分析
した結果、誤りのほとんどはある単語の一部を他
の単語と認識してしまうために生ずることがわか
つた。たとえば／Zero／の／ro／の部分を／
go／と誤認識するのがその１例である。このた
め、第２候補までを正解とすると97％以上の認識
率を得る。したがつて、他の方法を少し併用すれ
ば、第１候補としてさらに高い認識率が得られる
ことが容易に推察される。

また認識に要する時間は、発声終了後、長い場
合でも0.6秒以下であり、実用的に十分な認識速
度が得られた。そして、極端に声が小さいデータ
や、発声が不明瞭なデータはリジエクトされるこ
とが確認できた。

発明の効果以上要するに本発明は、ダイナミツクなパワー
情報と類似度情報を用いて設定した認識すべき音
声とその前後の騒音を含む入力信号区間に、ある
時間的な基準点を設け、基準点を端点としてそれ
からN₁フレームの区間とN₂フレームの区間（N₁
＜N₂）の２区間を設定して、これらを音声区間
のそれぞれ最小値と最大値と考えて、N₂−N₁＋
１とおりの音声区間候補のそれぞれに対して、音
声区間長を一定時間長に伸縮しながら各単語の標
準パターンとのマツチングを行なつて各単語の類
似度または距離を求め、この操作を基準点を全入
力信号区間の始めから終りまで走査して行ない、
全ての基準点位置の全ての音声区間候補に対する
類似度または距離を各単語について比較し、類似
度を最大または距離を最小とする単語を認識結果
として出力するもので、音声区間の正確な検出を
必要とせず、騒音と音声が混在した信号から音声
に相当する部分のみを切出して認識でき、従来は
複雑なルールを用いて音声区間の検出を行なつて
いたが、それでも騒音レベルが高い場合や非定常
的なノイズが混入する場合には音声区間の検出を
誤り、したがつて誤認識をしていたが、本発明は
複雑な音声区間検出アルゴリズムを除去すること
によつて、システムを簡略化し、また高騒音入力
に対して安定した認識率を確保することができ、
さらに発声終了後速やかに結果を出力することが
できるなど、その結果は大きい。

【図面の簡単な説明】

第１図は本発明の第１の実施例における音声認
識方法を具現化する機能ブロツク図、第２図乃至
第４図は同実施例の音声区間長の伸縮を説明する
概念図、第５図は同実施例の音声の標準パターン
作成時の、周囲情報の標準パターン作成法を説明
する概念図、第６図は同実施例の音声検出法を説
明する概念図、第７図は同実施例の認識の走査区
間の決め方を説明する図で、同図ａはパワーの動
きを示す概念図、同図ｂはマツチング窓の時間的
を移動を示す概念図、同図ｃは距離の時間的な動
きを示す概念図、第８図は走査区間の決め方の他
の実施例を説明する図で、同図ａはパワーの動き
を示す概念図、同図ｂは距離の時間的な動きを示
す概念図、第９図は本実施例の処理手順を説明す
るフローチヤート、第１０図は従来の音声認識方
法を示す機能ブロツク図である。１０……AD変換部、１１……音響分析部、１
２……特徴パラメータ抽出部、１３……フレーム
同期信号発生部、１４……時間軸正規化部、１５
……区間候補設定部、１６……類似度計算部、１
７……標準パターン格納部、１８……標準パター
ン選択部、１９……中間結果格納部、２０……類
似度比較部、２１……パワー計算部、２２……パ
ワー比較部、２３……ノイズレベル学習部、２４
……走査区間設定部。

Claims

【特許請求の範囲】１音声とその前後の騒音を含む未知入力信号か
らパワー情報を用いて音声の存在を検出し、検出
した時点を基準点として、基準点と基準点からＮ
（N₁≦Ｎ≦N₂）だけ離れた区間の未知入力信号
を区間長Ｌに線形伸縮し、伸縮した区間の特徴パ
ラメータを抽出し、この特徴パラメータと認識対
象とする複数の音声の標準パターンとの類似度又
は距離をそれぞれ求めて比較し、このような操作
をＮをN₁からN₂まで変化させて行ない、さらに
基準点を単位区間ずつずらせながら同様の操作を
行なつて類似度又は距離を次々と求めて比較して
ゆき、パワー情報の動きを用いて求めた音声の持
続時間と類似度の時間的な変化を併用して決定し
た処理終了時点へ基準点が到達した時における、
全ての基準点そして全ての時間伸縮に対して最大
類似度又は最小距離を得る標準パターンに対応す
る音声を認識結果として出力することを特徴とす
る音声認識方法。２音声信号とノイズの比率を用いて音声の存在
を検出することを特徴とする特許請求の範囲第１
項記載の音声認識方法。３未知入力信号の特徴パラメータを各音声の標
準パターンとの類似度又は距離を統計的距離尺度
を用いて計算することを特徴とする特許請求の範
囲第１項記載の音声認識方法。４統計的距離尺度が、事後確率に基づく尺度、
一次判別関数、二次判別関数、マハラノビス距
離、ベイズ判定、複合類似度に基づく尺度のうち
いずれかであることを特徴とする特許請求の範囲
第３項記載の音声認識方法。