JPH0668678B2

JPH0668678B2 - 音声認識装置

Info

Publication number: JPH0668678B2
Application number: JP59130714A
Authority: JP
Inventors: 曜一郎佐古; 篤信平岩; 誠赤羽; 雅男渡
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1984-06-25
Filing date: 1984-06-25
Publication date: 1994-08-31
Anticipated expiration: 2009-08-31
Also published as: JPS619696A

Description

【発明の詳細な説明】産業上の利用分野本発明は音声を認識する音声認識装置に関する。

背景技術とその問題点従来、音声の発声速度変動に対処した音声認識装置とし
て例えば特開昭50−96104号公報に示されるようなDPマ
ッチング処理を行なうようにしたものが提案されてい
る。

先ず、このDPマッチング処理にて音声認識を行なうよう
にした音声認識装置について説明する。

第１図において、（１）は音声信号入力部としてのマイ
クロホンを示し、このマイクロホン（１）からの音声信
号が音響分析部（２）に供給され、この音響分析部
（２）にて音響パラメータ時系列Pi（ｎ）が得られる。
この音響分析部（２）において例えばバンドパスフィル
タバンクの整流平滑化出力が音響パラメータ時系列Pi
（ｎ）（ｉ＝1,‥‥,I;Iはバンドパスフィルタバンクの
チャンネル数、ｎ＝1,‥‥,N;Nは音声区間判定により切
り出されたフレーム数である。）として得られる。

この音響分析部（２）の音響パラメータ時系列Pi（ｎ）
がモード切換スイッチ（３）により、登録モードにおい
ては認識対象語毎に標準パターンメモリ（４）に格納さ
れ、認識モードにおいてはDPマッチング距離計算部
（５）の一端に供給される。又、この認識モードにおい
ては標準パターンメモリ（４）に格納されている標準パ
ターンがDPマッチング距離計算部（５）の他端に供給さ
れる。

このDPマッチング距離計算部（５）にてその時入力され
ている音声の音響パラメータ時系列Pi（ｎ）よりなる入
力パターンと標準パターンメモリ（４）の標準パターン
とのDPマッチング距離計算処理がなされ、このDPマッチ
ング距離計算部（５）のDPマッチング距離を示す距離信
号が最小距離判定部（６）に供給され、この最小距離判
定部（６）にて入力パターンに対してDPマッチング距離
が最小となる標準パターンが判定され、この判定結果よ
り入力音声を示す認識結果が出力端子（７）に得られ
る。

ところで、一般に標準パターンメモリ（４）に格納され
る標準パターンのフレーム数Ｎは発声速度変動や単語長
の違いにより音なっている。DPマッチング処理によりこ
の発声速度変動や単語長の違いに対処する為の時間軸正
規化がなされる。

以下、このDPマッチング処理について説明する。ここ
で、簡単の為に音響パラメータ時系列Pi（ｎ）の周波数
軸方向ｉに対応する次元を省略して標準パターンのパラ
メータ時系列をb₁,‥‥,b_N、入力パターンのパラメータ
時系列をa₁,‥‥,a_Mとして、端点固定のDP−パスの場合
のDPマッチング処理について説明する。

第２図はDPマッチング処理の概念図を示し、横軸に入力
パラメータ（Ｍ＝19）が並べられ、縦軸に標準パラメー
タ（Ｎ＝12）が並べられ、この第２図に示す（M,N）格
子状平面に於ける・点はＭ×Ｎ個であり、この各・点に
１つの距離が対応する。例えばa₃とb₅との距離がa₃から
縦に伸した直線と、b₅から横に伸した直線との交点に位
置する・に対応する。この場合、距離として例えばチェ
ビシェフ距離を取れば、a₃とb₅とのチェビシェフ距離ｄ
（3,5）はとなる（この場合、周波数軸方向ｉに対応する次元を省
略しているのでＩ＝１である。）。そして、端点固定の
DP−パスとして、格子点（m,n）に対してこの格子点
（m,n）に結びつける前の状態として左側の格子点（ｍ
−1,n）、斜め左下側の格子点（ｍ−1,n−１）及び下側
の格子点（m,n−１）の３つだけを許した場合、始点、即ちa₁とb₁とのチェビシェフ
距離D₁₁を示すから出発し、パス（経路）として３方向を選び、終点、即ちa_Mとb_Nとのチェビシェフ距離ｄ（M,
N）を示すに至るパスで、通過する各格子点の距離の総和が最小に
なるものを求め、この距離の総和を入力パラメータ数Ｍ
と標準パラメータ数Ｎとの和より値１を減算した（Ｍ＋
Ｎ−１）にて除算して得られた結果が入力パターンのパ
ラメータ時系列a₁,‥‥,a_Mと標準パターンのパラメータ
時系列b₁,‥‥,b_NとのDPマッチング距離となされる。こ
の様な処理を示す初期条件及び漸化式は初期条件ｇ（1,1）＝ｄ（1,1）漸化式と表され、これよりDPマッチング距離Ｄ（A,B）はＤ（A,B）＝ｇ（M,N）／（Ｍ＋Ｎ−１）と表される（（Ｍ＋Ｎ−１）でｇ（M,N）を割っている
のは標準パターンのフレーム数Ｎの違いによる距離の値
の差を補正するためである。）。この様な処理により標
準パターンの数がＬ個ある場合には入力パターンに対す
るDPマッチング距離がＬ個求められ、このＬ個のDPマッ
チング距離中最小の距離となる標準パターンが認識結果
となされる。

この様なDPマッチング処理による音声認識装置によれば
発声速度変動や単語長の違いに対処、即ち時間軸正規化
のなされた音声認識を行なうことができる。

然し乍ら、この様なDPマッチング処理により音声認識を
行なうものにおいては、音声の定常部がDPマッチング距
離に大きく反映し、部分的に類似しているような語い間
に於いて語認識し易いということが明らかとなった。

即ち、音響パラメータ時系列Pi（ｎ）はそのパラメータ
空間で軌跡を描くと考えることができる。実際には各フ
レームｎのパラメータがパラメータ空間内の１点に対応
することから、点列ではあるが時系列方向に曲線で結ん
でいくと始点から終点迄の１つの軌跡が考えられる。例
えば２種類の単語“SAN"と“HAI"とを登録した場合、夫
々の標準パターンＡ′,B′は第３図に示す如く“S",
“A",“N",“H",“A",“I"の各音韻領域を通過する軌跡
を描く。そして、認識モードで“SAN"と発声した場合、
全体的にみれば入力パターンＡに対する標準パターン
Ｂ′の類似する部分は非常に少ないが、この入力パター
ンＡの“SAN"の“A"の部分が標準パターンＡ′の“SAN"
の“A"の部分より標準パターンＢ′の“HAI"の“A"の部
分により類似し、且つその部分（準定常部）に点数が多
い場合がある。

ここで、第３図に示す如く入力パターンＡのパラメータ
が全体的には標準パターンＡ′のパラメータに類似し、
部分的には標準パターンＢ′のパラメータに類似する場
合にDPマッチング処理により誤認識を招く場合を１次元
パラメータを例に説明する。この場合、第３図に示す状
況、即ち部分的に類似している語い間の関係と同様の１
次元パラメータ時系列として第４図に示す如き入力パタ
ーンA;2,4,6,8,8,8,8,6,4,4,4,6,8と、第５図に示す如
き標準パターンＡ′;3,5,7,9,9,9,9,7,5,5,7,9と、第６
図に示す如き標準パターンＢ′;7,6,6,8,8,8,8,6,4,4,4
とを考える。これら第４図乃至第６図のパターンより明
らかな如く入力パターンＡは標準パターンＡ′と判定さ
れて欲しいパターンである。ところが、入力パターンＡ
に対する標準パターンＡ′及びＢ′のDPマッチング距離
を計算すると、入力パターンＡは標準パターンＢ′に近
いことが示される。

即ち、入力パターンＡに対する標準パターンＡ′のDPマ
ッチング処理として第２図と同様、第７図に示す如く横
軸に入力パターンＡのパラメータ時系列;2,4,6,8,8,8,
8,6,4,4,4,6,8を並べ、縦軸に標準パターンＡ′のパラ
メータ時系列;3,5,7,9,9,9,9,7,5,5,7,9を並べ、格子状
平面に於ける交点に対応して入力パターンＡの個々のパ
ラメータに対する標準パターンＡ′の個々のパラメータ
のチェビシェフ距離を求める。そして、入力パラメータ
Ａのパラメータ時系列の第１番目のパラメータ２と、標
準パラメータＡ′のパラメータ時系列の第１番目のパラ
メータ３とのチェビシェフ距離ｄ（1,1）＝１の点を始
点とし、入力パターンＡのパラメータ時系列の第13番目
のパラメータ８と、標準パターンＡ′のパラメータ時系
列の第12番目のパラメータ９とのチェビシェフ距離ｄ
（13,12）＝１の点を終点とし、DP−パスとして第２図
の場合と同様、任意の点に対する前の状態としてその任
意の点の左側の点、下側の点及び斜め左下側の点を取る
ことを許した場合（このパスを実線矢印にて示す。）、
パス上の点はｄ（1,1）−ｄ（2,2）−ｄ（3,3）−ｄ
（4,4）−ｄ（5,5）−ｄ（6,6）−ｄ（7,7）−ｄ（8,
8）−ｄ（9,9）−ｄ（10,10）−ｄ（11,10）−ｄ（12,1
0）−ｄ（13,11）−ｄ（13,12）の14点であり、その距
離の総和は24であり、このDPマッチング距離Ｄ（A,
A′）は１である。

一方、入力パターンＡに対する標準パターンＢ′のDPマ
ッチング処理を上述第７図に示す場合と同様、第８図に
示す如く行なう。即ち、入力パターンＡの個々のパラメ
ータ;2,4,6,8,8,8,8,6,4,4,4,6,8に対する標準パターン
Ｂ′の個個のパラメータ;7,6,6,8,8,8,8,6,4,4,4のチェ
ビシェフ距離を求め、DP−パスとして任意の点に対する
前の状態としてのその任意の点の左側の点、下側の点及
び斜め左下側の点を取ることを許した場合（このパスを
実線矢印にて示す。）、パス上の点はｄ（1,1）−ｄ
（2,2）−ｄ（3,3）−ｄ（4,4）−ｄ（5,5）−ｄ（6,
6）−ｄ（7,7）−ｄ（8,8）−ｄ（9,9）−ｄ（10,10）
−ｄ（11,11）−ｄ（12,11）−ｄ（13,11）の13点であ
り、その距離の総和は15であり、このDPマッチング距離
Ｄ（A,B′）は0.65である。

このDP−パスを３方向とした結果より明らかな様に入力パターンＡがそのDPマ
ッチング距離の小さな標準パターンＢ′と判定され、判
定されるべき結果が得られない。この様にDPマッチング
処理においては部分的に類似しているような語い間に於
いて誤認識し易い。

又、DPマッチング処理においては上述した様に標準パタ
ーンのフレーム数Ｎが不定であり、しかも入力パターン
に対して全標準パターンをDPマッチング処理する必要が
あり、語いが多くなるとそれに伴って演算量が飛躍的に
増加し、標準パターンメモリ（４）の記憶容量や演算量
の点で問題があった。

この為、部分的に類似しているような語い間に於いても
誤認識することが比較的少なく、且つ標準パターンメモ
リ（４）の記憶容量や処理の為の演算量が比較的少ない
音声認識装置として第９図に示す如きものが考えられて
いる。

第９図において、（１）は音声信号入力部としてのマイ
クロホンを示し、このマイクロホン（１）からの音声信
号を音響分析部（２）の増幅器（８）に供給し、この増
幅器（８）の音声信号をカットオフ周波数5.5KHzのロー
パスフィルタ（９）を介してサンプリング周波数12.5KH
zの12ビットＡ／Ｄ変換器（10）に供給し、このＡ／Ｄ
変換器（10）のデジタル音声信号を15チャンネルのデジ
タルバンドパスフィルタバンク（11_A），（11_B），‥
‥，（11_O）に供給する。この15チャンネルのデジタル
バンドパスフィルタバンク（11_A），（11_B），‥‥，
（11_O）は例えばバターワース４次のデジタルフィルタ
にて構成し、250Hzから5.5KHzまでの帯域が対数軸上で
等間隔となるように割り振られている。そして、各デジ
タルバンドパスフィルタ（11_A），（11_B），‥‥，（11
_O）の出力信号を15チャンネルの整流器（12_A），（1
2_B），‥‥，（12_O）に夫々供給し、これら整流器（1
2_A），（12_B），‥‥，（12_O）の２乗出力を15チャンネ
ルのデジタルローパスフィルタ（13_A），（13_B），‥
‥，（13_O）に夫々供給する。これらデジタルローパス
フィルタ（13_A），（13_B），‥‥，（13_O）はカットオ
フ周波数52.8HzのFIR（有限インパルス応答形）ローパ
スフィルタにて構成する。

そして、各デジタルローパスフィルタ（13_A），（1
3_B），‥‥，（13_O）の出力信号をサンプリング周期5.1
2msのサンプラー（14）に供給する。このサンプラー（1
4）によりデジタルローパスフィルタ（13_A），（1
3_B），‥‥，（13_O）の出力信号をフレーム周期5.12ms
毎にサンプリングし、このサンプラー（14）のサンプリ
ング信号を音源情報正規化器（15）に供給する。この音
源情報正規化器（15）は認識しようとする音声の話者に
よる声帯音源特性の違いを除去するものである。

即ち、フレーム周期毎にサンプラー（14）から供給され
るサンプリング信号Ai（ｎ）（ｉ＝1,‥‥,15;n:フレー
ム番号）に対してＡ′ｉ（ｎ）＝log（Ai（ｎ）＋Ｂ）・・・（１）なる対数変換がなされる。この（１）式において、Ｂは
バイアスでノイズレベルが隠れる程度の値を設定する。
そして、声帯音源特性をyi＝ａ・ｉ＋ｂなる式で近似す
る。このａ及びｂの計数は次式により決定される。

そして、音源の正規化されたパラメータをPi（ｎ）とす
ると、ａ（ｎ）＜０のときパラメータPi（ｎ）は Pi（ｎ）＝Ａ′ｉ（ｎ）−｛ａ（ｎ）・ｉ＋ｂ（ｎ）｝
・・・（４）と表わされる。

又、ａ（ｎ）≧０のときレベルの正規化のみ行ない、パ
ラメータPi（ｎ）はと表わされる。

この様な処理により声帯音源特性の正規化されたパラメ
ータPi（ｎ）を音声区間内パラメータメモリ（16）に供
給する。この音声区間内パラメータメモリ（16）を後述
する音声区間判定部（17）からの音声区間判定信号を受
けて声帯音源特性の正規化されたパラメータPi（ｎ）を
音声区間毎に格納する。

一方、Ａ／Ｄ変換器（10）のデジタル音声信号を音声区
間判定部（17）のゼロクロスカウンタ（18）及びパワー
算出器（19）に夫々供給する。このゼロクロスカウンタ
（18）は5.12ms毎にその区間の64点のデジタル音声信号
のゼロクロス数をカウントし、そのカウント値を音声区
間判定器（20）の第１の入力端に供給する。又、パワー
算出器（19）は5.12ms毎にその区間のデジタル音声信号
をのパワー、即ち２乗和を求め、その区間内パワーを示
すパワー信号を音声区間判定器（20）の第２の入力端に
供給する。更に、音源情報正規化器（15）の音源正規化
情報ａ（ｎ）及びｂ（ｎ）を音声区間判定器（20）の第
３の入力端に供給する。そして、音声区間判定器（20）
においてはゼロクロス数、区間内パワー及び音源正規化
情報ａ（ｎ）,b（ｎ）を複合的に処理し、無音、無声音
及び有声音の判定処理を行ない、音声区間を決定する。
この音声区間判定器（20）の音声区間を示す音声区間判
定信号を音声区間判定部（17）の出力として音声区間内
パラメータメモリ（16）に供給する。

この音声区間内パラメータメモリ（16）に格納された音
声区間毎に声帯音源特性の正規化された音響パラメータ
Pi（ｎ）をその時系列方向にNAT（Normalization Along
Trajectory）処理部（21）に供給する。このNAT処理部
（21）は NAT処理として音響パラメータ時系列Pi
（ｎ）からそのパラメータ空間における軌跡を直線近似
にて推定し、この軌跡に沿って直線補間にて新たな音響
パラメータ時系列Qi（ｍ）を形成する。

ここで、このNAT処理部（21）について更に説明する。
音響パラメータ時系列Pi（ｎ）（ｉ＝1,‥‥,I;n＝1,‥
‥,N）はそのパラメータ空間に点列を描く。第10図に２
次元パラメータ空間に分布する点列の例を示す。この第
10図に示す如く音声の非定常部の点列は粗に分布し、準
定常部は密に分布する。この事は完全に定常であればパ
ラメータは変化せず、その場合には点列はパラメータ空
間に停留することからも明らかである。

第11図は第10図に示す如き点列上に滑らかな曲線上りな
る軌跡を推定し描いた例を示す。この第11図に示す如く
点列に対して軌跡を推定できれば、音声の発声速度変動
に対して軌跡を殆ど不変であると考えることができる。
何故ならば、音声の発声速度変動による時間長の違いは
殆どが準定常部の時間的伸縮（第10図に示す如き点列に
おいては準定常部の点列密度の違いに相当する。）に起
因し、非定常部の時間長の影響は少ないと考えられるか
らである。

NAT処理部（21）においてはこの様な音声の発声速度変
動に対する軌跡の不変性に着目して時間軸正規化を行な
う。

即ち、第１に音響パラメータ時系列Pi（ｎ）に対して始
点Pi（１）から終点Pi（Ｎ）迄を連続曲線で描いた軌跡
を推定し、この推定を示す曲線をとする。この場合、必ずしもである必要は無く、基本的にはが点列全体を近似的に通過するようなものであれば良
い。

第２に推定されたから軌跡の長さSLを求め、第12図に○印にて示す如く軌
跡に沿って一定長で新たな点列をリサンプリングする。
例えばＭ点にサンプリングする場合、一定長さ、即ちリ
サンプリング間隔Ｔ＝SL／（Ｍ−１）を基準として軌跡
上をリサンプリングする。このリサンプリングされた点
列をQi（ｍ）（ｉ＝1,‥‥,I;m＝1,‥‥,M）とすれば、である。

この様にして得られた新たなパラメータ時系列Qi（ｍ）
は軌跡の基本情報を有しており、しかも音声の発声速度
変動に対して殆ど不変なパラメータとなる。即ち、新た
なパラメータ時系列Qi（ｍ）は時間軸正規化がなされた
パラメータ時系列となる。

この様な処理の為に、音声区間内パラメータメモリ（1
6）の音響パラメータ時系列Pi（ｎ）を軌跡長算出器（2
2）に供給する。この軌跡長算出器（22）は音響パラメ
ータ時系列Pi（ｎ）がそのパラメータ空間において描く
直線近似による軌跡の長さ、即ち軌跡長を算出するもの
である。この場合、１次元ベクトルai及びbi間の距離と
して例えばユークリッド距離Ｄ（ai,bi）をとればである。尚、この距離としてはチェビシェフ距離、平方
距離等をとることを可とする。そこで、１次元の音響パ
ラメータ時系列Pi（ｎ）（ｉ＝1,‥‥,I;n＝1,‥‥,N）
より、直線近似により軌跡を推定した場合の時系列方向
に隣接するパラメータ間距離Ｓ（ｎ）はＳ（ｎ）＝Ｄ（pi（ｎ＋１）,Pi（ｎ）（ｎ＝1,‥‥,N
−１）・・・（７）と表わされる。そして、時系列方向における第１番目の
パラメータPi（１）から第ｎ番目のパラメータPi（ｎ）
迄の距離SL（ｎ）はと表わされる。尚、SL（１）＝０である。更に、軌跡長
SLはと表わされる。軌跡長算出器（22）はこの（７）式、
（８）式及び（９）式にて示す信号処理を行なう如くな
す。

この軌跡長算出器（22）の軌跡長SLを示す軌跡長信号を
補間間隔算出器（23）に供給する。この補間間隔算出器
（23）は軌跡に沿って直線補間により新たな点列をリサ
ンプリングする一定長のリサンプリング間隔Ｔを算出す
るものである。この場合、Ｍ点にリサンプリングすると
すれば、リサンプリング間隔ＴはＴ＝SL／（Ｍ−１）・・・（10）と表わされる。補間間隔算出器（23）はこの（10）式に
て示す信号処理を行なう如くなす。

この補間間隔算出器（23）のリサンプリング間隔Ｔを示
すリサンプリング間隔信号を補間点抽出器（24）の一端
に供給すると共に音声区間内パラメータメモリ（16）の
音響パラメータ時系列Pi（ｎ）を補間点抽出器（24）の
他端に供給する。この補間点抽出器（24）は音響パラメ
ータ時系列Pi（ｎ）のそのパラメータ空間における軌跡
例えばパラメータ間を直線近似した軌跡に沿ってリサン
プリング間隔Ｔで新たな点列をリサンプリングし、この
新たな点列より新たな音響パラメータ時系列Qi（ｍ）を
形成するものである。

ここで、この補間抽出器（24）における信号処理を第13
図に示す流れ図に沿って説明する。先ず、ブロック（24
a）にてリサンプリング点の時系列方向における番号を
示す変数Ｊに値１が設定されると共に音響パラメータ時
系列Pi（ｎ）の時系列方向における番号を示す変数ICに
値１が設定される。そして、ブロック（24b）にて変数
Ｊがインクリメントされ、ブロック（24c）にてそのと
きの変数Ｊが（Ｍ−１）以下であるかどうかにより、そ
のときのリサンプリング点の時系列方向における番号が
リサンプリングする必要のある最後の番号になっていな
いかどうかを判断し、なっていればこの補間点抽出器
（24）の信号処理を終了し、なっていなければブロック
（24d）にて第１番目のリサンプリング点から第Ｊ番目
のリサンプリング点までのリサンプル距離DLが算出さ
れ、ブロック（24e）にて変数ICがインクリメントさ
れ、ブロック（24f）にてリサンプル距離DLが音響パラ
メータ時系列Pi（ｎ）の第１番目のパラメータPi（１）
から第IC番目のパラメータPi（IC）までの距離SL（IC）
よりも小さいかどうかにより、そのときのリサンプリン
グ点が軌跡上においてそのときのパラメータPi（IC）よ
りも軌跡の始端側に位置するかどうかを判断し、位置し
ていなければブロック（24e）にて変数ICをインクリメ
ントした後再びブロック（24f）にてリサンプリング点
とパラメータPi（IC）との軌跡上における位置の比較を
し、リサンプリング点が軌跡上においてパラメータPi
（IC）よりも始端側に位置すると判断されたとき、ブロ
ック（24g）にてリサンプリングにより軌跡に沿う新た
な音響パラメータQi（Ｊ）が形成される。即ち、先ず第
Ｊ番目のリサンプリング点によるリサンプル距離DLから
この第Ｊ番目のリサンプリング点よりも始端側に位置す
る第（IC−１）番目のパラメータPi（IC−１）による距
離SL（IC−１）を減算して第（IC−１）番目のパラメー
タPi（IC−１）から第Ｊ番目のリサンプリング点迄の距
離SSを求める。次に、軌跡上においてこの第Ｊ番目のリ
サンプリング点の両側に位置するパラメータPi（IC−
１）及びパラメータPi（IC）間の距離Ｓ（IC−１）（こ
の距離Ｓ（IC−１）は（７）式にて示される信号処理に
て得られる。）にてこの距離SSを除算SS／Ｓ（IC−１）
し、この除算結果SS／Ｓ（IC−１）に軌跡上において第
Ｊ番目のリサンプリング点の両側に位置するパラメータ
Pi（IC）とPi（IC−１）との差（Pi（IC）−PI（IC−
１））を掛算（Pi（IC）−Pi（IC−１）＊SS／Ｓ（IC−
１）して、軌跡上において第Ｊ番目のリサンプリング点
のこのリサンプリング点よりも始端側に隣接して位置す
る第（IC−１）番目のパラメータPi（IC−１）からの補
間量を算出し、この補間量と第Ｊ番目のリサンプリング
点よりも始端側に隣接して位置する第（IC−１）番目の
パラメータPi（IC−１）とを加算して、軌跡に沿う新た
な音響パラメータQi（Ｊ）が形成される。第14図に２次
元の音響パラメータ時系列Ｐ（１）,P（２）‥‥,P
（８）に対してパラメータ間を直線近似して軌跡を推定
し、この軌跡に沿って直線補間により６点の新たな音響
パラメータ時系列Ｑ（１）,Q（２），‥‥,Q（６）を形
成した例を示す。又、このブロック（24g）においては
周波数系列方向にＩ次元分（ｉ＝1,‥‥,I）の信号処理
が行なわれる。

この様にしてブロック（24b）乃至（24g）にて始点及び
終点（これらはである。）を除く（Ｍ−２）点のリサンプリングにより
新たな音響パラメータ時系列Qi（ｍ）が形成される。

このNAT処理部（21）の新たな音響パラメータ時系列Qi
（ｍ）をモード切換スイッチ（３）により、登録モード
においては認識対象語毎に標準パターンメモリ（４）に
格納し、認識モードにおいてはチェビシェフ距離算出部
（25）の一端に供給する。又、この認識モードにおいて
は標準パターンメモリ（４）に格納されている標準パタ
ーンをチェビシェフ距離算出部（25）の他端に供給す
る。このチェビシェフ距離算出部（25）においてはその
時入力されている音声の時間軸の正規化された新たな音
響パラメータ時系列Qi（ｍ）よりなる入力パターンと、
標準パターンメモリ（４）の標準パターンとチェビシェ
フ距離算出処理がなされる。

そして、このチェビシェフ距離を示す距離信号を最小距
離判定部（６）に供給し、この最小距離判定部（６）に
て入力パターンに対するチェビシェフ距離が最小となる
標準パターンが判定され、この判定結果より入力音声を
示す認識結果を出力端子（７）に供給する。

この様にしてなる音声認識装置の動作について説明す
る。

マイクロホン（１）の音声信号が音響分析部（２）にて
音声区間毎に声帯音源特性の正規化された音響パラメー
タ時系列Pi（ｎ）に変換され、この音響パラメータ時系
列Pi（ｎ）がNAT処理部（21）に供給され、このNAT処理
部（21）にて音響パラメータ時系列Pi（ｎ）からそのパ
ラメータ空間における直線近似による軌跡が推定され、
この軌跡に沿って直線補間され時間軸正規化のなされた
新たな音響パラメータ時系列Qi（ｍ）が形成され、登録
モードにおいてはこの新たな音響パラメータ時系列Qi
（ｍ）がモード切換スイッチ（３）を介して標準パター
ンメモリ（４）に格納される。

又、認識モードにおいては、NAT処理部（21）の新たな
音響パラメータ時系列Qi（ｍ）がモード切換スイッチ
（３）を介してチェビシェフ距離算出部（25）に供給さ
れると共に標準パターンメモリ（４）の標準パターンが
チェビシェフ距離算出部（25）に供給される。第15図乃
至第17図に第４図乃至第６図に示す１次元の入力パター
ンＡのパラメータ時系列;2,4,6,8,8,8,8,6,4,4,4,6,8、
標準パターンＡ′のパラメータ時系列;3,5,7,9,9,9,9,
7,5,5,7,9、標準パターンＢ′のパラメータ時系列;7,6,
6,8,8,8,8,6,4,4,4をNAT処理部（21）にて直線近似にて
軌跡を推定し、リサンプリング点を８点とする処理をし
た１次元の入力パターンＡのパラメータ時系列;2,4,6,
8,6,4,6,8、標準パターンＡ′のパラメータ時系列;3,5,
7,9,7,5,7,9、標準パターンＢ′のパラメータ時系列;7,
6,7,8,7,6,5,4を夫々示す。この場合、音響パラメータ
時系列Pi（ｎ）からそのパラメータ空間における軌跡を
推定し、この軌跡に沿って新たな音響パラメータ時系列
Qi（ｍ）が形成されるので、入力音声を変換した音響パ
ラメータ時系列pi（ｎ）自身により時間軸正規化がなさ
れる。そして、チェビシェフ距離算出部（25）において
入力パターンＡと標準パターンＡ′との間のチェビシェ
フ距離８が算出されると共に入力パターンＡと標準パタ
ーンＢ′との間のチェビシェフ距離16が算出され、これ
ら距離８及び距離16を夫々示す距離信号が最小距離判定
部（６）に供給され、この最小距離判定部（６）にて距
離８が距離16よりも小さいことから標準パターンＡが入
力パターンＡ′であると判定され、この判定結果より入
力音声が標準パターンＡであることを示す認識結果が出
力端子（７）に得られる。従って、部分的に類似してい
るような語い間に於いても誤認識することが比較的少な
い音声認識を行なうことができる。

ここで、NAT処理を行なう音声認識装置のDPマッチング
処理を行なう音声認識装置との演算量における差異につ
いて説明する。

入力パターンに対する標準パターン１個当たりのDPマッ
チング距離計算部（５）における平均演算量をαとし、
チェビシェフ距離算出部（25）における平均演算量をβ
とし、NAT処理部（21）の平均の演算量をγとしたと
き、Ｊ個の標準パターンに対するDPマッチング処理によ
る演算量C₁は C₁＝α・Ｊ・・・（11）である。又、Ｊ個の標準パターンに対するNAT処理した
場合の演算量C₂は C₂＝β・Ｊ＋γ ・・・（12）である。一般に、平均算量αは平均演算量βに対してα
≫βなる関係がある。従って、なる関係が成り立つ、即ち認識対象語い数が増加するに
従って演算量C₁は演算量C₂に対してC₁≫C₂なる関係とな
り、NAT処理を行なう音声認識装置に依れば、演算量を
大幅に低減できる。

又、NAT処理部（21）より得られる新たな音響パラメー
タ時系列Qi（ｍ）はその時系列方向において一定のパラ
メータ数に設定できるので、標準パターンメモリ（４）
の記憶領域を有効に利用でき、その記憶容量を比較的少
なくできる。

ところで、この様なNAT処理を行うようにした音声認識
装置においては第18図に示す如き状況において入力パタ
ーンＡに対して判定されるべきでない標準パターンＢ′
が判定結果となされる。この第18図においては、パラメ
ータ空間における入力パターンA;“A"と、標準パターン
Ａ′；“A"と、標準パターンＢ′；“SAN"とを無音を示
す準定常部にて切断し展開して示す。この場合、入力パ
ターンＡは標準パターンＢ′に対して同一の音韻“A"を
含み、無音と“A"とを示す準定常部において入力パター
ンＡが標準パターンＡ′よりも標準パターンＢ′により
類似し、全体の軌跡は異なるがリサンプリング点が判定
されるべきでない標準パターンＢ′に近づいている。こ
のとき、チェビシェフ距離算出部（25）において入力パ
ターンＡに対する標準パターンＢ′のチェビシェフ距離
が標準パターンＡ′のチェビシェフ距離よりも小さな値
として得られ、判定されるべきでない標準パターンＢ′
が判定結果となされる。この様にNAT処理を行うように
した音声認識装置においては第18図に示す如く同一の音
韻を含み、全体の軌跡は異なるがリサンプリング点が判
定されるべきでない標準パターンＢ′に近づくことがあ
り、このとき誤認識し、認識率が低下するという不都合
があった。

発明の目的本発明は斯かる点に鑑み同一の音韻を含み全体の軌跡は
異なるがリサンプリング点が判定されるべきでない標準
パターンに近づくときに誤認識することが比較的少ない
ものを得ることを目的とする。

発明の概要本発明音声認識装置は例えば第19図に示す如く、音声信
号を入力するための音声信号入力部（１）と、この音声
信号入力部（１）からの音声入力を分析して音響パラメ
ータ系列を得るとともに、この音響パラメータ系列に係
るそのパラメータ空間における軌跡長信号を推定するた
めの音響分析部（２），（21）と、この音響パラメータ
系列及びこの軌跡長信号を標準パターンとして記憶する
標準パターンメモリ（４）と、この標準パターンのこの
音響パラメータ系列と入力パターンとしての音響パラメ
ータ系列とのマッチング処理を行うマッチング処理部
（25）と、この標準パターンのこの軌跡長信号とこの音
響分析部（２），（21）からの軌跡長信号とを比較して
ずれ量を算出し、このずれ量に基づいてこのマッチング
処理部（25）からのマッチング情報の補正処理を行う補
正器（27）とを有し、この音声入力部（１）に入力され
た音声入力を認識するようになすものであり、斯かる本
発明音声認識装置に依れば同一の音韻を含み全体の軌跡
は異なるがリサンプリング点が判定されるべきでない標
準パターンに近づくときに誤認識することを比較的少な
くできる利益がある。

実施例以下、第19図を参照しながら本発明音声認識装置の一実
施例について説明しよう。この第19図において第１図乃
至第18図と対応する部分に同一符号を付してその詳細な
説明は省略する。

本例においては第19図に示す如くNAT処理部（21）の補
間点抽出器（24）の新たな音響パラメータ時系列Qi
（ｍ）を軌跡長信号付加器（26）の一端に供給すると共
にNAT処理部（21）の軌跡長算出器（22）の軌跡長信号
を軌跡長信号付加器（26）の他端及び後述する距離信号
補正器（27）の一端に供給する。この軌跡長信号付加器
（26）はNAT処理部（21）の新たな音響パラメータ時系
列Qi（ｍ）毎にこの新たな音響パラメータ時系列Qi
（ｍ）の元となる音響分析部（２）の音響パラメータ時
系列Pi（ｎ）のパラメータ空間における軌跡の軌跡長SL
を示す軌跡長信号を付加する。

この軌跡長信号付加器（26）の軌跡長信号が付加された
新たな音響パラメータ時系列Qi（ｍ）をモード切換スイ
ッチ（３）により、登録モードにおいては認識対象語毎
に標準パターンメモリ（４）に格納し、認識モードにお
いてはチェビシェフ距離算出部（25）の一端に供給す
る。又、この認識モードにおいては標準パターンメモリ
（４）に格納されている標準パターンをチェビシェフ距
離算出部（25）の他端に供給する。このチェビシェフ距
離算出部（25）においてはチェビシェフ距離を示す距離
信号にこのチェビシェフ距離に対応する標準パターンの
軌跡長信号を付加した信号を形成する如くなす。

このチェビシェフ距離算出部（25）の軌跡長信号が付加
された距離信号を距離信号補正器（27）の他端に供給す
る。この距離信号補正器（27）はその時入力されている
入力パターンとしての新たな音響パラメータ時系列Qi
（ｍ）に付加された軌跡長信号と、距離信号に対応する
標準パターンの軌跡長信号とを比較し、この比較結果に
基づいて距離信号を補正する。

ここで、この距離信号補正器（27）について更に説明す
る。一般に、同一単語であればその音響パラメータ系列
はそのパラメータ空間において形状及び長さが略等しい
軌跡を描くと考えられる。距離信号補正器（27）におい
てはこの点に着目して、入力パターンと標準パターンと
の距離（本例においてはチェビシェフ距離である。）
を、入力パターン及び標準パターンの軌跡長のずれに応
じて補正する。即ち、標準パターンの軌跡長をTRLSと
し、入力パターンの軌跡長をTRLIとして、これら標準パ
ターンの軌跡長TRLSと入力パターンの軌跡長TRLIとの軌
跡長のずれTRLを例えばなる信号処理にて算出する。この場合、軌跡長のずれTR
Lは（14）式より明らかな如く標準パターンの軌跡長TRL
Sと入力パターンの軌跡長TRLIとが等しいTRLS＝TRLIと
きに最小値２をとる。そして、距離信号をChbsとしたと
きに、この距離信号Chbsに対して軌跡長のずれTRLによ
り次式にて示される如き信号処理よりなる補正を行い、
補正された距離信号CHBSを得る如くなす。

CHBS＝Chbs・TRLa（ａ＞０）・・（15）本例においてはａ＝２に設定する。

この距離信号補正器（27）の補正された距離信号CHBSを
最小距離判定部（６）に供給する。その他音響分析部
（２）等は上述第９図に示す音声認識装置と同様に構成
する。

この様にしてなる音声認識装置の動作について説明す
る。

マイクロホン（１）の音声信号が音響分析部（２）にて
音声区間毎に声帯音源特性の正規化された音響パラメー
タ時系列pi（ｎ）がNAT処理部（21）に供給され、このN
AT処理部（21）にて音響パラメータ時系列Pi（ｎ）から
そのパラメータ空間における直線近似による軌跡が推定
され、この軌跡に基づいて時間軸正規化のなされた新た
な音響パラメータ時系列Qi（ｍ）が形成される。そし
て、軌跡長信号付加器（26）にてこの新たな音響パラメ
ータ時系列Qi（ｍ）の元となる音響分析器（２）の音響
パラメータ時系列Pi（ｎ）のパラメータ空間における直
線近似による軌跡の軌跡長を示す軌跡長信号が付加され
る。そして、この軌跡長信号付加器（26）の軌跡長信号
が付加された新たな音響パラメータ時系列Qi（ｍ）が、
登録モードにおいてはモード切換スイッチ（３）を介し
て標準パターンメモリ（４）に格納される。

又、認識モードにおいては、軌跡長信号付加器（26）の
新たな音響パラメータ時系列Qi（ｍ）が入力パターンと
してモード切換スイッチ（３）を介してチェビシェフ距
離算出器（25）に供給されると共に標準パターンメモリ
（４）の標準パターンがチェビシェフ距離算出器（25）
に供給され、このチェビシェフ距離算出器（25）にて入
力パターンと標準パターンとのチェビシェフ距離が算出
され、このチェビシェフ距離を示す距離信号Chbsにこの
チェビシェフ距離に対応する標準パターンの軌跡長信号
を付加した信号が距離信号補正器（27）に供給される。

一方、軌跡長算出器（22）のその時入力されている入力
パターンとしての新たな音響パラメータ時系列Qi（ｍ）
に付加された軌跡長信号が距離信号補正器（27）に供給
され、この距離信号補正器（27）にて入力パターンの軌
跡長TRLIと標準パターンの軌跡長TRLSとのずれTRLが（1
4）式にて示される信号処理にて得られ、この軌跡長の
ずれTRLにより（15）式にて示される信号処理がなさ
れ、軌跡長のずれTRLに基づいて補正された距離信号CHB
Sが得られる。この場合、第18図に示す如く入力パター
ンＡとは異なる単語を示す標準パターンＢ′が入力パタ
ーンに対して同一の音韻“A"を含み全体の軌跡は異なる
がリサンプリング点が近づき、そのチェビシェフ距離が
同一単語を示す標準パターンＡ′等に比べ最小となると
きにおいても、同一単語を示す標準パターンＡ′の入力
パターンＡに対する軌跡長のずれTRLが略最小値２に等
しくなり、これに対して異なる単語を示す標準パターン
Ｂ′の入力パターンＡに対する軌跡長のずれTRLが比較
的大きな値をとる。従って、距離信号補正器（27）にて
入力パターンＡと同一単語を示す標準パターンＡ′より
なる補正された距離信号CHBSが得られ、この補正された
距離信号CHBSが最小距離判定部（６）にて判定処理さ
れ、入力パターンＡに対して判定されるべき標準パター
ンＡ′が判定結果として出力端子（７）に得られる。

以上述べた如く本例の音声認識装置に依れば、音声信号
入力部としてのマイクロホン（１）を有し、この音声信
号入力部（１）の音声信号を音響パラメータ時系列Pi
（ｎ）を軌跡長算出器（22）に供給し、この軌跡長算出
器（22）にて音響パラメータ時系列Pi（ｎ）からそのパ
ラメータ空間における軌跡の軌跡長を算出し、入力パタ
ーンと標準パターンとをマッチング処理した処理結果を
入力パターン及び標準パターンの軌跡長に応じて判定
し、音声を認識するようにした為、同一の音韻を含み全
体の軌跡は異なるがリサンプリング点が判定されるべき
でない標準パターンに近づくときに誤認識することを比
較的少なくできる利益がある。

尚、上述実施例においては距離信号補正器（27）におい
て（14）式及び（15）式にて表される信号処理を行うよ
うにた場合について述べたけれども、これら（14）式及
び（15）式に限らず適宜な関数にて表される信号処理を
行うようにすることを可とする。又、上述実施例におい
ては音響パラメータ時系列Pi（ｎ）からのそのパラメー
タ空間における軌跡の軌跡長を算出した場合について述
べたけれども、音響パラメータ周波数系列からそのパラ
メータ空間における軌跡の軌跡長を算出するようにして
も上述実施例と同様の作用効果を得ることができること
は容易に理解できよう。又、上述実施例においては音響
パラメータ時系列からそのパラメータ空間における直線
近似による軌跡の軌跡長を算出した場合について述べた
けれども、円弧近似、スプライン近似等による軌跡の軌
跡長を算出するようにしても上述実施例と同様の作用効
果を得ることができることは容易に理解できよう。更
に、上述実施例においては音響分析器（２）の音響パラ
メータ時系列Pi（ｎ）をNAT処理部（21）の軌跡長算出
器（22）に供給し、このNAT処理部（21）の軌跡長算出
器（22）より音響パラメータ時系列Pi（ｎ）からそのパ
ラメータ空間における軌跡の軌跡長を算出するようにし
た場合について述べたけれども、NAT処理部（21）の軌
跡長算出器（22）とは別途に軌跡長算出器を設け、この
軌跡長算出器にNAT処理部（21）の新たな音響パラメー
タ時系列Qi（ｍ）を供給し、新たな音響パラメータ時系
列Qi（ｍ）からそのパラメータ空間における軌跡の軌跡
長を算出し、この軌跡長に基づいて距離信号の補正を行
うようにしても上述実施例と同様の作用効果を得ること
ができることは容易に理解できよう。更に、第１図に示
す如きDPマッチング処理を行うようにした音声認識装置
においても、音響分析器（２）の音響パラメータ系列を
軌跡長算出器に供給し、この軌跡長算出器の軌跡長信号
を音響パラメータ系列に付加し、入力パターン及び標準
パターンの軌跡長に応じてDPマッチング距離を補正する
ようにしても誤認識を比較的少なくすることができる。
尚、本発明は上述実施例に限らず本発明の要旨を逸脱す
ることなくその他種々の構成を取り得ることは勿論であ
る。

発明の効果本発明音声認識装置に依れば音声信号入力部を有し、こ
の音声信号入力部の音声信号を音響分析部に供給し、こ
の音響分析部に基づいて得た音響パラメータ系列を軌跡
長算出器に供給し、この軌跡長算出器にて音響パラメー
タ系列からそのパラメータ空間における軌跡の軌跡長を
算出し、入力パターンと標準パターンとをマッチング処
理した処理結果を入力パターン及び標準パターンの軌跡
長に応じて判定し、音声を認識するようにした為、同一
の音韻を含む全体の軌跡は異なるがリサンプリング点が
判定されるべきでない標準パターンに近づくときに誤認
識することを比較的少なくできる利益がある。

【図面の簡単な説明】

第１図はDPマッチング処理により音声認識を行なうよう
にした音声認識装置の例を示す構成図、第２図はDPマッ
チング処理の説明に供する概念図、第３図は音響パラメ
ータ空間における軌跡の説明に供する線図、第４図、第
５図及び第６図は夫々１次元の入力パターンＡ、標準パ
ターンＡ′及び標準パターンＢ′の例を示す線図、第７
図は入力パターンＡのパラメータ時系列と標準パターン
Ａ′のパラメータ時系列とのDPマッチング処理による時
間軸正規化の説明に供する線図、第８図は入力パターン
Ａのパラメータ時系列と標準パターンＢ′のパラメータ
時系列とのDPマッチング処理による時間軸正規化の説明
に供する線図、第９図はNAT処理をして音声認識を行な
うようにした音声認識装置の例を示す構成図、第10図、
第11図、第12図及び第14図は夫々NAT処理部の説明に供
する線図、第13図は補間点抽出器の説明に供する流れ
図、第15図、第16図及び第17図は夫々NAT処理部にてNAT
処理した入力パターンＡ、標準パターンＡ′及び標準パ
ターンＢ′の１次元の音響パラメータ時系列を示す線
図、第18図は同一の音韻を含み全体の軌跡は異なるがリ
サンプリング点が近い関係にあるパラメータ時系列の例
を示す略線図、第19図は本発明音声認識装置の一実施例
を示す構成図である。（１）は音声信号入力部としてのマイクロホン、（２）
は音響分析部、（３）はモード切換スイッチ、（４）は
標準パターンメモリ、（６）は最小距離判定部、（1
1_A），（11_B），‥‥，（11_O）は15チャンネルのデジタ
ルバンドパスフィルタバンク、（16）は音声区間内パラ
メータメモリ、（21）はNAT処理部、（22）は軌跡長算
出器、（23）は補間間隔算出器、（24）は補間点抽出
器、（25）はチェビシェフ距離算出部、（26）は軌跡長
信号付加器、（27）は距離信号補正器である。

───────────────────────────────────────────────────── フロントページの続き (72)発明者渡雅男東京都品川区北品川６丁目７番35号ソニー株式会社内 (56)参考文献特開昭60−249198（ＪＰ，Ａ) 特開昭60−249199（ＪＰ，Ａ) 特開昭60−252396（ＪＰ，Ａ) 特開昭60−254198（ＪＰ，Ａ)

Claims

【特許請求の範囲】

【請求項１】音声信号を入力するための音声信号入力部
と、該音声信号入力部からの音声信号を分析して音響パラメ
ータ系列を得るとともに、該音響パラメータ系列に係る
そのパラメータ空間における軌跡長信号を推定するため
の音響分析部と、上記音響パラメータ系列及び上記軌跡長信号を標準パタ
ーンとして記憶する標準パターンメモリと、該標準パターンの上記音響パラメータ系列と入力パター
ンとしての音響パラメータ系列とのマッチング処理を行
うマッチング処理部と、上記標準パターンの上記軌跡長信号と上記音響分析部か
らの軌跡長信号とを比較してずれ量を算出し、該ずれ量
に基づいて上記マッチング処理部からのマッチング情報
の補正処理を行う補正器とを有し、上記音声入力部に入力された音声信号を認識するように
なすことを特徴とする音声認識装置。