JPH0632022B2

JPH0632022B2 - 音声認識装置

Info

Publication number: JPH0632022B2
Application number: JP59123443A
Authority: JP
Inventors: 曜一郎佐古; 雅男渡; 誠赤羽; 篤信平岩
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1984-06-15
Filing date: 1984-06-15
Publication date: 1994-04-27
Anticipated expiration: 2009-04-27
Also published as: JPS613200A

Description

【発明の詳細な説明】産業上の利用分野本発明は音声を認識する音声認識装置に関する。

背景技術とその問題点従来、音声の発声速度変動に対処した音声認識装置とし
て例えば特開昭50-96104号公報に示されるようなＤＰマ
ッチング処理を行なうようにしたものが提案されてい
る。

先ず、このＤＰマッチング処理にて音声認識を行なうよ
うにした音声認識装置について説明する。

第１図において、(1)は音声信号入力部としてのマイク
ロホンを示し、このマイクロホン(1)からの音声信号が
音響分析部(2)に供給され、この音響分析部(2)にて音響
パラメータ時系列Pi(n)が得られる。この音響分析部(2)
において例えばバンドパスフィルタバンクの整流平滑化
出力が音響パラメータ時系列Pi(n)（ｉ＝１，……，
Ｉ；Ｉはバンドパスフィルタバンクのチャンネル数、ｎ
＝１，……，Ｎ；Ｎは音声区間判定より切り出されたフ
レーム数である。）として得られる。

この音響分析部(2)の音響パラメータ時系列Pi(n)がモー
ド切換スイッチ(3)により、登録モードにおいては認識
対象語毎に標準パターンメモリ(4)に格納され、認識モ
ードにおいてはＤＰマッチング距離計算部(5)の一端に
供給される。又、この認識モードにおいては標準パター
ンメモリ(4)に格納されている標準パターンがＤＰマッ
チング距離計算部(5)の他端に供給される。

このＤＰマッチング距離計算部(5)にてその時入力され
ている音声の音響パラメータ時系列Pi(n)よりなる入力
パターンと標準パターンメモリ(4)の標準パターンとの
ＤＰマッチング距離離計算処理がなされ、このＤＰマッ
チング距離計算部(5)のＤＰマッチング距離を示す距離
信号が最小距離判定部(6)に供給され、この最小距離判
定部(6)にて入力パターンに対してＤＰマッチング距離
が最小となる標準パターンが判定され、この判定結果よ
り入力音声を示す認識結果が出力端子(7)に得られる。

ところで、一般に標準パターンメモリ(4)に格納される
標準パターンのフレーム数Ｎは発声速度変動や単語長の
違いにより異なっている。ＤＰマッチング処理によりこ
の発声速度変動や単語長の違いに対処する為の時間軸正
規化がなされる。

以下、このＤＰマッチング処理について説明する。ここ
で、簡単の為に音響パラメータ時系列Pi(n)の周波数軸
方向ｉに対応する次元を省略して標準パターンのパラメ
ータ時系列をｂ_１，……，ｂ_Ｎ、入力パターンのパラメ
ータ時系例をａ_１，……，ａ_Ｍとして、端点固定のＤＰ
−パスの場合のＤＰマッチング処理について説明する。

第２図はＤＰマッチング処理の概念図を示し、横軸に入
力パラメータ（Ｍ＝19）が並べられ、縦軸に標準パラメ
ータ（Ｎ＝12）が並べられ、この第２図に示す（Ｍ，
Ｎ）格子状平面に於ける・点はＭ×Ｎ個であり、この各
・点に１つの距離が対応する。例えばａ_３とｂ_５との距
離がａ_３から縦に伸した直線と、ｂ_５から横に伸した直
線との交点に位置する・に対応する。この場合、距離と
して例えばチェビシェフ距離を取れば、ａ_３とｂ_５との
チェビシェフ距離ｄ（３，５）はとなる（この場合、周波数軸方向ｉに対応する次元を省
略しているのでＩ＝１である。）。そして、端点固定の
ＤＰ−パスとして、格子点（ｍ，ｎ）に対してこの格子
点（ｍ，ｎ）に結びつける前の状態として左側の格子点
（ｍ−１，ｎ）、斜め左下側の格子点（ｍ−１，ｎ−
１）及び下側の格子点（ｍ，ｎ−１）の３つだけを許した場合、始点、即ちａ_１とｂ_１とのチェビシ
ェフ距離Ｄ_１１を示す点から出発し、パス（経路）として３方向を選び、終点、即ちａ_Ｍとｂ_Ｎとのテェビシェフ距離ｄ
（Ｍ，Ｎ）を示す点に至るパスで、通過する各格子点の距離の総和が最小に
なるものを求め、この距離の総和を入力パラメータ数Ｍ
と標準パラメータ数Ｎとの和より値１を減算した（Ｍ＋
Ｎ−１）にて除算して得られた結果が入力パターンのパ
ラメータ時系列ａ_１，……，ａ_Ｍと標準パターンのパラ
メータ時系列ｂ_１，……，ｂ_ＮとのＤＰマッチング距離
となされる。この様な処理を示す初期条件及び漸化式は初期条件ｇ（１，１）＝ｄ（１，１）漸化式と表され、これよりＤＰマッチング距離Ｄ（Ａ，Ｂ）はＤ（Ａ，Ｂ）＝ｇ（Ｍ，Ｎ）／（Ｍ＋Ｎ−１）と表され
る（（Ｍ＋Ｎ−１）でｇ（Ｍ，Ｎ）を割っているのは標
準パターンのフレーム数Ｎの違いによる距離の値の差を
補正するためである。）。この様な処理により標準パタ
ーンの数がＬ個ある場合には入力パターンに対するＤＰ
マッチング距離がＬ個求められ、このＬ個のＤＰマッチ
ング距離中最小の距離となる標準パターンが認識結果と
なされる。

この様なＤＰマッチング処理による音声認識装置によれ
ば発声速度変動や単語長の違いに対処、即ち時間軸正規
化のなされた音声認識を行なうことができる。

然し乍ら、この様なＤＰマッチング処理により音声認識
を行なうものにおいては、音声の定常部がＤＰマッチン
グ距離に大きく反映し、部分的に類似しているような語
い間に於いて誤認識し易いということが明らかとなっ
た。

即ち、音響パラメータ時系列Pi(n)はそのパラメータ空
間で軌跡を描くと考えることができる。実際には各フレ
ームｎのパラメータがパラメータ空間内の１点に対応す
ることから、点列ではあるが時系列方向に曲線で結んで
いくと始点から終点迄の１つの軌跡が考えられる。例え
ば２種類の単語“ＳＡＮ”と“ＨＡＩ”とを登録した場
合、夫々の標準パターンＡ′，Ｂ′は第３図に示す如く
“Ｓ”，“Ａ”，“Ｎ”，“Ｈ”，“Ａ”，“Ｉ”の各
音韻領域を通過する軌跡を描く。そして、認識モードで
“ＳＡＮ”と発声した場合、全体的にみれば入力パター
ンＡに対する標準パターンＢ′の類似する部分は非常に
少ないが、この入力パターンＡの“ＳＡＮ”の“Ａ”の
部分が標準パターンＡ′の“ＳＡＮ”の“Ａ”の部分よ
り標準パターンＢ′の“ＨＡＩ”の“Ａ”の部分により
類似し、且つその部分（準定常部）に点数が多い場合が
ある。

ここで、第３図に示す如く入力パターンＡのパラメータ
が全体的には標準パターンＡ′のパラメータに類似し、
部分的には標準パターンＢ′のパラメータに類似する場
合にＤＰマッチング処理により誤認識を招く場合を１次
元パラメータを例に説明する。この場合、第３図に示す
状況、即ち部分的に類似している語い間の関係と同様の
１次元パラメータ時系列として第４図に示す如き入力パ
ターンＡ；2,4,6,8,8,8,8,6,4,4,4,6,8と、第５図に示
す如き標準パターンＡ′；3,5,7,9,9,9,9,7,5,5,7,9
と、第６図に示す如き標準パターンＢ′；7,6,6,8,8,8,
8,6,4,4,4とを考える。これら第４図乃至第６図のパタ
ーンより明らかな如く入力パターンＡは標準パターン
Ａ′と判定されて欲しいパターンである。ところが、入
力パターンＡに対する標準パターンＡ′及びＢ′のＤＰ
マッチング距離を計算すると、入力パターンＡは標準パ
ターンＢ′に近いことが示される。

即ち、入力パターンＡに対する標準パターンＡ′のＤＰ
マッチング処理として第２図と同様、第７図に示す如く
横軸に入力パターンＡのパラメータ時系列；2,4,6,8,8,
8,8,6,4,4,4,6,8を並べ、縦軸に標準パターンＡ′のパ
ラメータ時系列；3,5,7,9,9,9,9,7,5,5,7,9を並べ、格
子状平面に於ける交点に対応して入力パターンＡの個々
のパラメータに対する標準パターンＡ′の個々のパラメ
ータのチェビシェフ距離を求める。そして、入力パラメ
ータＡのパラメータ時系列の第１番目のパラメータ２
と、標準パラメータＡ′のパラメータ時系列の第１番目
のパラメータ３とのチェビシェフ距離ｄ（１，１）＝１
の点を始点とし、入力パターンＡのパラメータ時系列の
第13番目のパラメータ８と、標準パターンＡ′のパラメ
ータ時系列の第12番目のパラメータ９とのチェビシェフ
距離ｄ（13，12）＝１の点を終点とし、ＤＰ−パスとし
て第２図の場合と同様、任意の点に対する前の状態とし
てその任意の点の左側の点、下側の点及び斜め左下側の
点を取ることを許した場合（このパスを実線矢印にて示
す。）、パス上の点はｄ（１，１）−ｄ（２，２）−ｄ
（３，３）−ｄ（４，４）−ｄ（５，５）−ｄ（６，
６）−ｄ（７，７）−ｄ（８，８）−ｄ（９，９）−ｄ
(10,10)−ｄ(11,10)−ｄ(12,10)−ｄ(13,11)−ｄ(13,1
2)の14点であり、その距離の総和は２４であり、このＤ
Ｐマッチング距離Ｄ（Ａ，Ａ′）は１である。

一方、入力パターンＡに対する標準パターンＢ′のＤＰ
マッチング処理を上述第７図に示す場合と同様、第８図
に示す如く行なう。即ち、入力パターンＡの個々のパラ
メータ；2,4,6,8,8,8,8,6,4,4,4,6,8に対する標準パタ
ーンＢ′の個個のパラメータ；7,6,6,8,8,8,8,6,4,4,4
のチェビシェフ距離を求め、ＤＰ−パスとして任意の点
に対する前の状態としてその任意の点の左側の点、下側
の点及び斜め左下側の点を取ることを許した場合（この
パスを実線矢印にて示す。）、パス上の点はｄ（１，
１）−ｄ（２，２）−ｄ（３，３）−ｄ（４，４）−ｄ
（５，５）−ｄ（６，６）−ｄ（７，７）−ｄ（８，
８）−ｄ（９，９）−ｄ(10,10)−ｄ(11,11)−ｄ(12,1
1)−ｄ(13,11)の13点であり、その距離の総和は15であ
り、このＤＰマッチング距離Ｄ（Ａ，Ｂ′）は0.65であ
る。

このＤＰ−パスを３方向とした結果より明らかな様に入力パターンＡがそのＤＰ
マッチング距離の小さな標準パターンＢ′と判定され、
判定されるべき結果が得られない。この様にＤＰマッチ
ング処理においては部分的に類似しているような語い間
に於いて誤認識し易い。

又、ＤＰマッチング処理においては上述した様に標準パ
ターンのフレーム数Ｎが不定であり、しかも入力パター
ンに対して全標準パターンをＤＰマッチング処理する必
要があり、語いが多くなるとそれに伴って演算量が飛躍
的に増加し、標準パターンメモリ(4)の記憶容量や演算
量の点で問題があった。

この為、部分的に類似しているような語い間に於いても
誤認識することが比較的少なく、且つ標準パターンメモ
リ(4)の記憶容量や処理の為の演算量が比較的少ない音
声認識装置として第９図に示す如きものが考えられてい
る。

第９図において、(1)は音声信号入力部としてのマイク
ロホンを示し、このマイクロホン(1)からの音声信号を
音響分析部(2)の増幅器(8)に供給し、この増幅器(8)の
音声信号をカットオフ周波数5.5KHzのローパスフイルタ
(9)を介してサンプリング周波数12.5KHzの12ビットＡ／
Ｄ変換器(10)に供給し、このＡ／Ｄ変換器(10)のデジタ
ル音声信号を15チャンネルのデジタルバンドパスフィル
タバンク(11_A)，(11_B)，……，(11_O)に供給する。この1
5チャンネルのデジタルバンドパスフィルタバンク(1
1_A)，(11_B)，……，(11_O)は例えばバターワース４次の
デジタルフィルタにて構成し、250Hzから5.5KHzまでの
帯域が対数軸上で等間隔となるように割り振られてい
る。そして、各デジタルバンドパスフイルタ(11_A)，(11
_B)，……，(11_O)の出力信号を15チャンネルの整流器(12
_A)，(12_B)，……，(12_O)に夫々供給し、これら整流器(1
2_A)，(12_B)，……，(12_O)の２乗出力を15チャンネルの
デジタルローパスフィルタ(13_A)，(13_B)，……，(13_O)
に夫々供給する。これらデジタルローパスフィルタ(1
3_A)，(13_B)，……，(13_O)はカットオフ周波数52.HzのＦ
ＩＲ（有効インパルス応答形）ローパスフィルタにて構
成する。

そして、各デジタルローパスフィルタ(13_A)，(13_B)，…
…，(13_O)の出力号をサンプリング周期5.12msのサンプ
ラー(14)に供給する。このサンプラー(14)によりデジタ
ルローパスフィルタ(13_A)，(13_B)，……，(13_O)の出力
信号をフレーム周期5.12ms毎にサンプリングし、このサ
ンプラー(14)のサンプリング信号を音響情報正規化器(1
5)に供給する。この音源情報正規化器(15)は認識しよう
とする音声の話者による声帯音源特性の違いを除去する
ものである。

即ち、フレーム周期毎にサンプラー(14)から供給される
サンプリング信号Ai(n)（ｉ＝１，……，15；ｎ：フレ
ーム番号）に対して A′i(n)＝log（Ai(n)＋Ｂ） ……(1) なる対数変換がされれる。この(1)式において、Ｂはバ
イアスでノイズレベルが隠れる程度の値を設定する。そ
して、声帯源特性をｙｉ＝ａ・ｉ＋ｂなる式で近似す
る。このａ及びｂの計数は次式により決定される。

そして、音源の正規化れたパラメータをPi(n)とする
と、a(n)＜０のときパラメータPi(n) Pi(n)＝A′i(n)−｛a(n)・ｉ＋b(n)｝ ……(4) と表わされる。

又、a(n)≧０のときレベルの正規化のみ行ない、パラメ
ータPi(n)はと表わされる。

この様な処理により声帯音源特性の正規化されたパラメ
ータPi(n)を音声区間内パラメータメモリ(16)に供給す
る。この音声区間内パラメータメモリ(16)は後述する音
声区間判定部(17)からの音声区間判定信号を受けて声帯
音源特性の正規化されたパラメータPi(n)を音声区間毎
に格納する。

一方、Ａ／Ｄ変換器(10)のデジタル音声信号を音声区間
判定部(17)のゼロクロスカウンタ(18)及びパワー算出器
(19)に夫々供給する。このゼロクロスカウンタ(18)は5.
12ms毎にその区間の64点のデジタル音声信号のゼロクロ
ス数をカウントし、そのカウント値を音声区間判定器(2
0)の第１の入力端に供給する。又、パワー算出器(19)は
5.12ms毎にその区間のデジタル音声信号のパワー、即ち
２乗和を求め、その区間内パワーを示すパワー信号を音
声区間判定器(20)の第２の入力端に供給する。更に、音
源情報正規化器(15)の音源正規化情報a(n)及びb(n)を音
声区間判定器(20)の第３の入力端に供給する。そして、
音声区間判定器(20)においてゼロクロス数、区間内パワ
ー及び音源正規化情報a(n)，b(n)を複合的に処理し、無
音、無声音及び有声音及の判定処理を行ない、音声区間
を決定する。この音声区間判定器(20)の音声区間を示す
音声区間判定信号を音声区間判定部(17)の出力として音
声区間内パラメータメモリ(16)に供給する。

この音声区間内パラメータメモリ(16)に格納された音声
区間毎に声帯音源特性の正規化された音響パラメータPi
(n)をその時系列方向にＮＡＴ(Normalization Along Tr
ajectory)処理部(21)に供給する。このＮＡＴ処理部(2
1)はＮＡＴ処理として音響パラメータ時系列Pi(n)から
そのパラメータ空間における軌跡を直線近似にて推定
し、この軌跡に沿って直線補間にて新たな音響パラメー
タ時系列Qi(m)を形成する。

ここで、このＮＡＴ処理部(21)について更に説明する。
音響パラメータ時系列Pi(n)（ｉ＝１，……，Ｉ；ｎ＝
１，……，Ｎ）はそのパラメータ空間に点列を描く。第
10図に２次元パラメータ空間に分布する点列の例を示
す。この第10図に示す如く音声の非定常部の点列は粗に
分布し、準定常部は密に分布する。この事は完全に定常
であればパラメータは変化せず、その場合には点列はパ
ラメータ空間に停留することからも明らかである。

第11図は第10図に示す如き点列上に滑らかな曲線よりな
る軌跡を推定し描いた例を示す。この第11図に示す如く
点列に対して軌跡を推定できれば、音声の発声速度変動
に対して軌跡は殆ど不変であると考えることのできる。
何故ならば、音声の発声速度変動による時間長の違いは
殆どが準定常部の時間的伸縮（第10図に示す如き点列に
おいては準定常部の点列密度の違いに相当する。）に起
因し、非定常部の時間長の影響は少ないと考えられるか
らである。

ＮＡＴ処理部(21)においてはこの様な音声の発声速度変
動に対する軌跡の不変性に着目して時間軸正規化を行な
う。

即ち、第１に音響パラメータ時系列Pi(n)に対して始点P
i(1)から終点Pi_(N)迄を連続曲線で描いた軌跡を推定
し、この軌跡を示す曲線をとする。この場合、必ずしもである必要は無く、基本的にはが点列全体を近似的に通過するようなものであれば良
い。

第２に推定されたから軌跡の長さSLを求め、第12図に○印にて示す如く軌
跡に沿って一定長で新たな点列をリサンプリングする。
例えばＭ点にサンプリングする場合、一定長さ、即ちリ
サンプリング間隔Ｔ＝SL／（Ｍ−１）を基準として軌跡
上をリサンプリングする。このリサンプリングされた点
列をQi(m)（ｉ＝１，……，Ｉ；ｍ＝１，……，Ｍ）と
すれば、である。

この様にして得られた新たなパラメータ時系列Qi(m)は
軌跡の基本情報を有しており、しかも音声の発声速度変
動に対して殆ど不変なパラメータとなる。即ち、新たな
パラメータ時系列Qi(m)は時間軸正規化がなされたパラ
メータ時系列となる。

この様な処理の為に、音声区間内パラメータメモリ(16)
の音響パラメータ時系列Pi(n)を軌跡長算出器(22)に供
給する。この軌跡長算出器(22)は音響パラメータ時系列
Pi(n)がそのパラメータ空間において描く直線近似によ
る軌跡の長さ、即ち軌跡長を算出するものである。この
場合、１次元ベクトルａ_ｉ及びｂ_ｉ間の距離として例え
ばユークリッド距離Ｄ（ａ_ｉ，ｂ_ｉ）をとればである。尚、この距離としてはチェビシェフ距離、平方
距離等をとることを可とする。そこで、Ｉ次元の音響パ
ラメータ時系列Pi(n)（ｉ＝１，……，Ｉ；ｎ＝１，…
…，Ｎ）より、直線近似により軌跡を推定した場合の時
系列方向に隣接するパラメータ間距離S(n)は S(n)＝Ｄ(Pi(n+1),Pi(n))(n=1,……,N-1)……(7) と表わされる。そして、時系列方向における第１番目の
パラメータPi(1)から第ｎ番目のパラメータPi(n)迄の距
離SL(n)はと表わされる。尚、SL(1)＝０である。更に、軌跡長SL
はと表わされる。軌跡長算出器(22)はこの(7)式、(8)式及
び(9)式にて示す信号処理を行なう如くなす。

この軌跡長算出器(22)の軌跡長SLを示す軌跡長信号を補
間間隔算出器(23)に供給する。この補間間隔算出器(23)
は軌跡に沿って直線補間により新たな点列をリサンプリ
ングする一定長のリサンプリング間隔Ｔを算出するもの
である。この場合、Ｍ点にリサンプリングするとすれ
ば、リサンプリング間隔ＴはＴ＝SL／（Ｍ−１） ……(10) と表わされる。補間間隔算出器(23)はこの(10)式にて示
す信号処理を行なう如くなす。

この補間間隔算出器(23)のリサンプリング間隔Ｔを示す
リサンプリング間隔信号を補間点抽出器(24)の一端に供
給すると共に音声区間内パラメータメモリ(16)の音響パ
ラメータ時系列Pi(n)を補間点抽出器(24)の他端に供給
する。この補間点抽出器(24)は音響パラメータ時系列Pi
(n)のそのパラメータ空間における軌跡例えばパラメー
タ間を直線近似した軌跡に沿ってサンプリング間隔Ｔで
新たな点列をリサンプリングし、この新たな点列より新
たな音響パラメータ時系列Qi(m)を形成するものであ
る。

ここで、この補間点抽出器(24)における信号処理を第13
図に示す流れ図に沿って説明する。先ず、ブロック(24
a)にてリサンプリング点の時系列方向における番号を示
す変数Ｊに値１が設定されると共に音響パラメータ時系
列Pi(n)の時系列方向における番号を示す変数ICに値１
が設定される。そして、ブロック(24b)にて変数Ｊがイ
ンクリメントされ、ブロック(24c)にてそのときの変数
Ｊが（Ｍ−１）以下であるかどうかにより、そのときの
リサンプリング点の時系列方向における番号がリサンプ
リングする必要のある最後の番号になっていないかどう
かを判断し、なっていればこの補間点抽出器(24)の信号
処理を終了し、なっていなければブロック(24d)にて第
１番目のリサンプリング点から第Ｊ番目のリサンプリン
グ点までのリサンプル距離DLが算出され、ブロック(24
e)にて変数ICがインクリメントされ、ブロック(24f)に
てリサンプル距離DLが音響パラメータ時系列Pi(n)の第
１番目のパラメータPi(1)から第IC番目のパラメータPi
_(IC)までの距離SL_(IC)よりも小さいかどうかにより、そ
のときのリサンプリング点が軌跡上においてそのときの
パラメータPi_(IC)よりも軌跡の始端側に位置するかどう
かを判断し、位置していなければブロック(24e)にて変
数ICをインクリメントした後再びブロック(24f)にてリ
サンプリング点とパラメータPi_(IC)との軌跡上における
位置の比較をし、リサンプリング点が軌跡上においてパ
ラメータPi_(IC)よりも始端側に位置すると判断されたと
き、ブロック(24g)にてリサンプリングにより軌跡に沿
う新たな音響パラメータQi_(J)が形成される。即ち、先
ず第Ｊ番目のリサンプリング点によるリサンプル距離DL
からこの第Ｊ番目のリサンプリング点よりも始端側に位
置する第(IC-1)番目のパラメータPi_(IC-1)による距離SL
_(IC-1)を減算して第(IC-1)番目のパラメータPi_(IC-1)か
ら第Ｊ番目のリサンプリング点迄の距離SSを求める。次
に、軌跡上においてこの第Ｊ番目のリサンプリング点の
両側に位置するパラメータPi_(IC-1)及びパラメータPi
_(IC)間の距離S_(IC-1)（この距離S_(IC-1)は(7)式にて示
される信号処理にて得られる。）にてこの距離SSを除算
SS／S_(IC-1)し、この除算結果SS／S_(IC-1)に軌跡上にお
いて第Ｊ番目のリサンプリング点の両側に位置するパラ
メータPi_(IC)とPi_(IC-1)との差(Pi_(IC)−Pi_(IC-1))を掛
算(Pi_(IC)−Pi_(IC-1))＊SS／S_(IC-1)して、軌跡上にお
いて第Ｊ番目のリサンプリング点のこのリサンプリング
点よりも始端側に隣接して位置する第(IC-1)番目のパラ
メータPi_(IC-1)から補間量を算出し、この補間量と第Ｊ
番目のリサンプリング点よりも始端側に隣接して位置す
る第(IC-1)番目のパラメータPi_(IC-1)とを加算して、軌
跡に沿う新たな音響パラメータQi_(J)が形成される。第1
4図に２次元の音響パラメータ時系列P(1)，P(2)，…
…，P(8)に対してパラメータ間を直線近似して軌跡を推
定し、この軌跡に沿って直線補間により６点の新たな音
響パラメータ時系列Q(1)，Q(2)，……，Q(6)を形成した
例を示す。又、このブロック(24g)においては周波数系
列方向に１次元分（ｉ＝１，……，Ｉ）の信号処理が行
なわれる。

この様にしてブロック(24g)乃至(24g)にて始点及び終点
（これらはである。）を除く（Ｍ−２）点のリサンプリングにより
新たな音響パラメータ時系列Qi(m)が形成される。

このＮＡＴ処理部(21)の新たな音響パラメータ時系列Qi
(m)をモード切換スイッチ(3)により、登録モードにおい
ては認識対象語毎に標準パターンメモリ(4)に格納し、
認識モードにおいてはチェビシェフ距離算出部(25)の一
端に供給する。又、この認識モードにおいては標準パタ
ーンメモリ(4)に格納されている標準パターンをチェビ
シェフ距離算出部(25)の他端に供給する。このチェビシ
ェフ距離算出部(25)においてはその時入力されている音
声の時間軸の正規化された新たな音響パラメータ時系列
Qi(m)よりなる入力パターンと、標準パターンメモリ(4)
の標準パターンとのチェビシェフ距離算出処理がなされ
る。

そして、このチェビシェフ距離を示す距離信号を最小距
離判定部(6)に供給し、この最小距離判定部(6)にて入力
パターンに対するチェビシェフ距離が最小となる標準パ
ターンが判定され、この判定結果より入力音声を示す認
識結果を出力端子(7)に供給する。

この様にしてなる音声認識装置の動作について説明す
る。

マイクロホン(1)の音声信号が音響分析部(2)にて音声区
間毎に声帯音源特性の正規化された音響パラメータ時系
列Pi(n)に変換され、この音響パラメータ時系列Pi(n)が
ＮＡＴ処理部(21)に供給され、このＮＡＴ処理部(21)に
て音響パラメータ時系列Pi(n)からそのパラメータ空間
における直線近似による軌跡が推定され、この軌跡に沿
って直線補間され時間軸正規化のされた新たな音響パラ
メータ時系列Qi(m)が形成され、登録モードにおいては
この新たな音響パラメータ時系列Qi(m)がモード切換ス
イッチ(3)を介して標準パターンメモリ(4)に格納され
る。

又、認識モードにおいては、ＮＡＴ処理部(21)の新たな
音響パラメータ時系列Qi(m)がモード切換スイッチ(3)を
介してチェビシェフ距離算出部(25)に供給されると共に
標準パターンメモリ(4)の標準パターンがチェビシェフ
距離算出部(25)に供給される。第15図乃至第17図に第４
図乃至第６図に示す１次元の入力パターンＡのパラメー
タ時系列；2,4,6,8,8,8,8,6,4,4,4,6,8、標準パターン
Ａ′のパラメータ時系列；3,5,7,9,9,9,9,7,5,5,7,9、
標準パターンＢ′のパラメータ時系列；7,6,6,8,8,8,8,
6,4,4,4をＮＡＴ処理部(21)にて直線近似にて軌跡を推
定し、リサンプリング点を８点とする処理をした１次元
の入力パターンＡのパラメータ時系列；2,4,6,8,6,4,6,
8、標準パターンＡ′のパラメータ時系列；3,5,7,9,7,
5,7,9、標準パターンＢ′のパラメータ時系列；7,6,7,
8,7,6,5,4を夫々示す。この場合、音響パラメータ時系
列Pi(n)からそのパラメータ空間における軌跡を推定
し、この軌跡に沿って新たな音響パラメータ時系列Qi
(m)が形成されるので、入力音声を変換した音響パラメ
ータ時系列Pi(n)自身により時間軸正規化がなされる。
そして、チェビシェフ距離算出部(25)において入力パタ
ーンＡと標準パターンＡ′との間のチェビシェフ距離８
が算出されると共に入力パターンＡと標準パターンＢ′
との間のチェビシェフ距離16が算出され、これら距離８
及び距離16を夫々示す距離信号が最小距離判定部(6)に
供給され、この最小距離判定部(6)にて距離８が距離16
よりも小さいことから標準パターンＡが入力パターン
Ａ′であると判定され、この判定結果より入力音声が標
準パターンＡであることを示す認識結果が出力端子(7)
に得られる。従って、部分的に類似しているような語い
間に於いても誤認識することが比較的少ない音声認識を
行なうことができる。

ここで、ＮＡＴ処理を行なう音声認識装置とＤＰマッチ
ング処理を行なう音声認識装置との演算量における差異
について説明する。

入力パターンに対する標準パターン１個当たりのＤＰマ
ッチング距離計算部(5)における平均演算量をαとし、
チェビシェフ距離算出部(25)における平均演算量をβと
し、ＮＡＴ処理部(21)の平均の演算量をγとしたとき、
Ｊ個の標準パターンに対するＤＰマッチング処理による
演算量Ｃ_１はＣ_１＝α・Ｊ ……(11) である。又、Ｊ個の標準パターンに対するＮＡＴ処理し
た場合の演算量Ｃ_２はＣ_２＝β・Ｊ＋γ ……(12) である。一般に、平均演算量αは平均演算量βに対して
α≫βなる関係がある。従って、なる関係が成り立つ。即ち認識対象語い数が増加するに
従って演算量Ｃ_１は演算量Ｃ_２に対してＣ_１≫Ｃ_２なる
関係となり、ＮＡＴ処理を行なう音声認識装置に依れ
ば、演算量を大幅に低減できる。

又、ＮＡＴ処理部(21)より得られる新たな音響パラメー
タ系列Qi(m)はその時系列方向において一定のパラメー
タ数に設定できるので、標準パターンメモリ(4)の記憶
領域を有効に利用でき、その記憶容量を比較的少なくで
きる。

この様にＮＡＴ処理を行うようにした音声認識装置にお
いてはＤＰマッチング処理を行うようにした音声認識装
置に比べ入力パターンに対する標準パターン１個当りの
平均演算量の違いにより認識対象語い数の増加に伴って
演算量が低減する。

然し乍ら、このＮＡＴ処理を行うようにした音声認識装
置においても、入力パターンに対して全標準パターンを
処理しており、処理のための演算の絶対量は依然として
多いという不都合があった。

発明の目的本発明は斯かる点に鑑み処理のための演算量の比較的少
ないものを得ることを目的とする。

発明の概要本発明音声認識装置は例えば第18図に示す如く、音声信
号を入力するための音声信号入力部(1)と、この音声信
号入力部(1)からの音声信号を分析して音響パラメータ
系列を得るとともに、この音響パラメータ系列に係るそ
のパラメータ空間における軌跡長信号を推定するための
音響分析部(2)，(21)と、この音響パラメータ系列を標
準パターンとして記憶する標準パターンメモリ(4)と、
この標準パターンの軌跡長とこの音響分析部(2)，(21)
で得た軌跡長とのずれを算出し、このずれに基づいてこ
の標準パラメータメモリ内の標準パターンを選択する標
準パターン選択部(27)と、この選択された標準パターン
と、入力パターンとしてのこの音響パラメータ系列との
マッチング処理を行うマッチング処理部(25)とを有し、
この音声入力部(1)に入力された音声信号を認識するよ
うになしたものであり、斯かる本発明音声認識装置に依
れば処理のための演算量を比較的少なくできる利益があ
る。

実施例以下、第18図乃至第20図を参照しながら本発明音声認識
装置の一実施例について説明しよう。この第18図乃至第
20図において第１図乃至第17図と対応する部分に同一符
号を付してその詳細な説明は省略する。

本例において第18図に示す如くＮＡＴ処理部(21)の補間
点抽出器(24)の新たな音響パラメータ時系列Qi(m)を軌
跡長信号付加器(26)の一端に供給すると共にＮＡＴ処理
部(21)の軌跡長算出器(22)の軌跡長信号を軌跡長信号付
加器(26)の他端及び後述する標準パターン選択部(27)の
一端に供給する。この軌跡長信号付加器(26)はＮＡＴ処
理部(21)の新たな音響パラメータ時系列Qi(m)毎にこの
新たな音響パラメータ時系列Qi(m)の元となる音響分析
部(2)の音響パラメータ時系列Pi(n)のパラメータ空間に
おける軌跡の軌跡長ＳＬを示す軌跡長信号を付加する。

この軌跡長信号付加器(26)の軌跡長信号が付加された新
たな音響パラメータ時系列Qi(m)をモード切換スイッチ
(3)により、登録モードにおいては認識対象語毎に標準
パターンメモリ(4)に格納し、認識モードにおいてはチ
ェビシェフ距離算出部(25)の一端に供給する。又、この
認識モードにおいては標準パターンメモリ(4)に格納さ
れている標準パターンを標準パターン選択部(27)の他端
に供給する。この標準パラメータ選択部(27)は認識モー
ドにおいてその時入力されている入力パターンとしての
新たな音響パラメータ時系列Qi(m)に付加された軌跡長
信号と、標準パターンメモリ(4)の標準パターン毎に付
加された軌跡長信号とを比較し、この比較結果に基づい
て入力パターンに対してマッチング処理する標準パター
ンを選択する。

ここで、この標準パターン選択部(27)について更に説明
する。一般に、同一単語であればその音響パラメータ系
列はそのパラメータ空間において形状及び長さが略等し
い軌跡を描くと考えられる。標準パターン選択部(27)に
おいてはこの点に着目して入力パターンの軌跡長に対し
てあまり大きなずれのない標準パターンを選択するもの
である。即ち、標準パターンの軌跡長をTRLSとし、入力
パターンの軌跡長をTRLIとして、これら標準パターンの
軌跡長TRLSと入力パターンの軌跡長TRLIの軌跡長のずれ
ＴＲＬを例えばなる信号処理にて算出する。尚、軌跡長のずれＴＲＬは
この(14)式に限らず適宜な関数を用いることができる。
この場合、軌跡長のずれＴＲＬは(14)式より明らかな如
く標準パターンの軌跡長TRLSと入力パターンの軌跡長TR
LIとが等しいTRLS＝TRLIときに最小値２をとる。本例に
おいては入力パターンの軌跡長TRLIに対して標準パター
ンの軌跡長TRLSの軌跡長のずれＴＲＬが値2.1以下をと
る標準パターンをチェビシェフ距離算出部(25)の他端に
供給する。その他は上述第９図に示す音声認識装置と同
様に構成する。

斯かる構成によれば、マイクロホン(1)の音声信号が音
響分析部(2)にて音声区間毎に声帯音源特性の正規化さ
れた音響パラメータ時系列Pi(n)にに変換され、この音
響パラメータ時系列Pi(n)がＮＡＴ処理部(21)に供給さ
れ、このＮＡＴ処理部(21)にて音響パラメータ時系列Pi
(n)からそのパラメータ空間における直線近似による軌
跡が推定され、この軌跡に基いて時間軸正規化のなされ
た新たな音響パラメータ時系列Qi(m)が形成される。そ
して、軌跡長信号付加器(26)にてこの新たな音響パラメ
ータ時系列Qi(m)にＮＡＴ処理部(21)の軌跡長算出器(2
2)のこの新たな音響パラメータ時系列QI(m)の元となる
音響分析部(2)の音響パラメータ時系列Pi(n)のパラメー
タ空間における直線近似による軌跡の軌跡長を示す軌跡
長信号が付加される。そして、この軌跡長信号付加器(2
6)の軌跡長信号が付加された新たな音響パラメータ時系
列Qi(m)が、登録モードにおいてはモード切換スイッチ
(3)を介して標準パターンメモリ(4)に格納される。

又、認識モードにおいては、軌跡長信号付加器(26)の軌
跡長信号が付加された入力パターンとしての新たな音響
パラメータ時系列Qi(m)がモード切換スイッチ(3)を介し
てチェビシェフ距離算出部(25)に供給される。又、軌跡
長算出器(22)の軌跡長信号と標準パターンメモリ(4)の
軌跡長信号の付加された標準パターンとが標準パターン
選択部(27)に供給され、この標準パターン選択部(27)に
て入力パターンの軌跡長に対する標準パターンの軌跡長
のずれＴＲＬが(14)式にて示される信号処理により算出
され、このずれＴＲＬが値2.1以下となる標準パターン
が選択され、この標準パターンがチェビシェフ距離算出
部(25)に供給される。このとき、標準パターンメモリ
(4)に格納されていた全標準パターンを第19図に示す如
き領域Ｆとすると、標準パターン選択部(27)を介してチ
ェビシェフ距離算出部(25)に供給される標準パターンは
第19図に示す如き狭い領域ｆにて表される。そして、こ
のチェビシェフ距離算出部(25)にて入力パターンと選択
された標準パターンとのチェビシェフ距離が算出され、
このチェビシェフ距離を示す距離信号が最小距離判定部
(6)にて判定され、入力パターンがどの標準パターンで
あるか、即ち入力音声が如何なる標準パターンであるか
を示す認識結果が出力端子(7)に得られる。この場合、
入力パターンに対して全標準パターンでなくその一部分
の標準パターンとマッチング処理すればよく、チェビシ
ェフ距離算出部(25)及び最小距離判定部(6)の処理のた
めの演算量が大幅に低減される。

又、異なる単語の標準パターンであるが第20図に示す如
く部分的に類似している部分があるためにチェビシェフ
距離が判定されるべき標準パターンより小さくなること
が希にある。第20図にこの様な状況を示す。この第20に
おいては、パラメータ空間における入力パターンＡ；
“Ａ”と、標準パターンＡ′；“Ａ”及びＢ′；“ＳＡ
Ｎ”とを無音を示す準定常部にて切断し展開して示す。
この場合、無音を示す準定常部と、“Ａ”を示す準定常
部とにおいて入力パターンＡが標準パターンＡ′よりも
標準パターンＢ′により類似し、その他の部分において
はあまり差を生じていない。この様な場合において本例
によれば、入力パターンＡ；“Ａ”の軌跡長と、標準パ
ターンＡ′；“Ａ”及びＢ′；“ＳＡＮ”の軌跡長とが
標準パターン選択部(27)にて比較され、標準パターン
Ｂ′の軌跡長が入力パターンＡの軌跡長に比べてずれＴ
ＲＬが大きすぎることが判断され、第20図に示す如き状
況にある標準パターンＢ′は選択されず、入力パターン
Ａとして判定されるべき標準パターンＡ′がチェビシェ
フ距離算出部(25)に供給され、その分だけ誤認識するこ
とがなくなる。

以上述べた如く本例の音声認識装置に依れば、音声信号
入力部としてのマイクロホン(1)を有し、この音声信号
入力部(1)の音声信号を音響分析部(2)に供給し、この音
響分析部(2)の音響パラメータ時系列Pi(n)を軌跡長算出
器(22)に供給し、この軌跡長算出器(22)にて音響パラメ
ータ時系列Pi(n)からそのパラメータ空間における軌跡
の軌跡長を算出し、入力パターンとこの入力パターンの
軌跡長に応じた標準パターンとをマッチング処理して音
声を認識するようにした為、入力パターンに対して標準
パターンメモリ(4)の全標準パターンをマッチング処理
する必要がなく、その分だけ演算量を比較的少なくでき
る利益がある。因みに、標準パターン選択部(27)の(14)
式にて示す軌跡長のずれＴＲＬの値を2.1以下に設定し
たところマッチング処理のための演算量が第９図に示す
ものに比べ略半減することが明らかとなった。

尚、上述実施例においては音響パラメータ時系列Pi(n)
からそのパラメータ空間における軌跡の軌跡長を算出し
た場合について述べたけれども、音響パラメータ周波数
系列からそのパラメータ空間における軌跡の軌跡長を算
出するようにしても上述実施例と同様の作用効果を得る
ことができることは容易に理解できよう。又、上述実施
例においては音響パラメータ時系列からそのパラメータ
空間における直線近似による軌跡の軌跡長を算出するよ
うにした場合について述べたけれども、円弧近似、スプ
ライン近似等による軌跡の軌跡長を算出するようにして
も上述実施例と同様の作用効果を得ることができること
は容易に理解できよう。更に、上述実施例においては音
響分折部(2)の音響パラメータ時系列Pi(n)をＮＡＴ処理
部(21)の軌跡長算出器(22)に供給し、このＮＡＴ処理部
(21)の軌跡長算出器(22)より音響パラメータ時系列Pi
(n)からそのパラメータ空間における軌跡の軌跡長を算
出するようにした場合について述べたけれども、ＮＡＴ
処理部(21)の軌跡長算出器(22)とは別途に軌跡長算出器
を設け、この軌跡長算出器にＮＡＴ処理部(21)の新たな
音響パラメータ時系列Qi(m)を供給し、新たな音響パラ
メータ時系列Qi(m)からそのパラメータ空間における軌
跡の軌跡長を算出し、この軌跡長に基づいて標準パター
ンを選択するようにしても上述実施例と同様の作用効果
を得ることができることは容易に理解できよう。更に、
第１図に示す如きＤＰマッチング処理を行うようにした
音声認識装置においても、音響分析部(2)の音響パラメ
ータ系列を軌跡長算出器に供給し、この軌跡長算出器の
軌跡長信号を音響パラメータ系列に付加し、入力パター
ンの軌跡長に応じて標準パターンを選択するようにして
もＤＰマッチング処理のための演算量を比較的少なくす
ることができる。更に、本発明は上述実施例に限らず本
発明の要旨を逸脱することなくその他種々の構成を取り
得ること勿論である。

発明の効果本発明音声認識装置に依れば、音声信号入力部を有し、
この音声信号入力部の音声信号を音響分析部に供給し、
この音響分析部に基づいて得た音響パラメータ系列を軌
跡長算出器に供給し、この軌跡長算出器にて音響パラメ
ータ系列からそのパラメータ空間における軌跡の軌跡長
を算出し、入力パターンとこの入力パターンの軌跡長に
応じた標準パターンとをマッチング処理して音声を認識
するようにした為、演算量を比較的少なくできる利益が
ある。

【図面の簡単な説明】

第１図はＤＰマッチング処理により音声認識を行なうよ
うにした音声認識装置の例を示す構成図、第２図はＤＰ
マッチング処理の説明に供する概念図、第３図は音響パ
ラメータ空間における軌跡の説明に供する線図、第４
図、第５図及び第６図は夫々１次元の入力パターンＡ、
標準パターンＡ′及び標準パターンＢ′の例を示す線
図、第７図は入力パターンＡのパラメータ時系列と標準
パターンＡ′のパラメータ時系列とのＤＰマッチング処
理による時間軸正規化の説明に供する線図、第８図は入
力パターンＡのパラメータ時系列と標準パターンＢ′の
パラメータ時系例とのＤＰマッチング処理による時間軸
正規化の説明に供する線図、第９図はＮＡＴ処理をして
音声認識を行なうようにした音声認識装置の例を示す構
成図、第10図、第11図、第12図及び第14図は夫々ＮＡＴ
処理部の説明に供する線図、第13図は補間点抽出器の説
明に供する流れ図、第15図、第16図及び第17図は夫々Ｎ
ＡＴ処理部にてＮＡＴ処理した入力パターンＡ、標準パ
ターンＡ′及び標準パターンＢ′の１次元の音響パラメ
ータ時系列を示す線図、第18図は本発明音声認識装置の
一実施例を示す構成図、第19図及び第20図は夫々第18図
の説明に供する線図である。 (1)は音声信号入力部としてのマイクロホン、(2)は音響
分析部、(3)はモード切換スイッチ、(4)は標準パターン
メモリ、(6)は最小距離判定部、(11_A)，(11_B)，……，
(11_O)は15チャンネルのデジタルバンドパスフィルタバ
ンク、(16)は音声区間内パラメータメモリ、(21)はＮＡ
Ｔ処理部、(22)は軌跡長算出器、(23)は補間間隔算出
器、(24)は補間点抽出器、(25)はチェビシェフ距離算出
部、(26)は軌跡長信号付加器、(27)は標準パターン選択
部である。

───────────────────────────────────────────────────── フロントページの続き (72)発明者平岩篤信東京都品川区北品川６丁目７番35号ソニー株式会社内 (56)参考文献特開昭60−249198（ＪＰ，Ａ) 特開昭60−249199（ＪＰ，Ａ) 特開昭60−252396（ＪＰ，Ａ) 特開昭60−254198（ＪＰ，Ａ)

Claims

【特許請求の範囲】

【請求項１】音声信号を入力するための音声信号入力部
と、該音声信号入力部からの音声信号を分析して音響パラメ
ータ系列を得るとともに、該音響パラメータ系列に係る
そのパラメータ空間における軌跡長信号を推定するため
の音響分析部と、上記音響パラメータ系列を標準パターンとして記憶する
標準パターンメモリと、該標準パターンの軌跡長と上記音響分析部で得た軌跡長
とのずれを算出し、該ずれに基づいて上記標準パターン
メモリ内の標準パターンを選択する標準パターン選択部
と、該選択された標準パターンと、入力パターンとしての上
記音響パラメータ系列とのマッチング処理を行うマッチ
ング処理部とを有し、上記音声入力部に入力された音声信号を認識するように
なすことを特徴とする音声認識装置。