JPH0632004B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH0632004B2
JPH0632004B2 JP59134894A JP13489484A JPH0632004B2 JP H0632004 B2 JPH0632004 B2 JP H0632004B2 JP 59134894 A JP59134894 A JP 59134894A JP 13489484 A JP13489484 A JP 13489484A JP H0632004 B2 JPH0632004 B2 JP H0632004B2
Authority
JP
Japan
Prior art keywords
parameter
acoustic
time series
acoustic parameter
quasi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP59134894A
Other languages
English (en)
Other versions
JPS6114699A (ja
Inventor
曜一郎 佐古
誠 赤羽
篤信 平岩
雅男 渡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP59134894A priority Critical patent/JPH0632004B2/ja
Publication of JPS6114699A publication Critical patent/JPS6114699A/ja
Publication of JPH0632004B2 publication Critical patent/JPH0632004B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 産業上の利用分野 本発明は音声を認識する音声認識装置に関する。
背景技術とその問題点 従来、音声の発声速度変動に対処した音声認識装置とし
て例えば特開昭50-96104号公報に示されるようなDPマ
ッチング処理を行なうようにしたものが提案されてい
る。
先ず、このDPマッチング処理にて音声認識を行なうよ
うにした音声認識装置について説明する。
第1図において、(1)は音声信号入力部としてのマイク
ロホンを示し、このマイクロホン(1)からの音声信号が
音響分析部(2)に供給され、この音響分析部(2)にて音響
パラメータ時系列Pi(n)が得られる。この音響分析部(2)
において例えばバンドパスフィルタバンクの整流平滑化
出力が音響パラメータ時系列Pi(n)(i=1,‥‥,
I;Iはバンドパスフィルタバンクのチャンネル数、n
=1,‥‥,N;Nは音声区間判定により切り出された
フレーム数である。)として得られる。
この音響分析部(2)の音響パラメータ時系列Pi(n)がモー
ド切換スイッチ(3)により、登録モードにおいては認識
対象語毎に標準パターンメモリ(4)に格納され、認識モ
ードにおいてはDPマッチング距離計算部(5)の一端に
供給される。又、この認識モードにおいては標準パター
ンメモリ(4)に格納されている標準パターンがDPマッ
チング距離計算部(5)の他端に供給される。
このDPマッチング距離計算部(5)にてその時入力され
ている音声の音響パラメータ時系列Pi(n)よりなる入力
パターンと標準パターンメモリ(4)の標準パターンとの
DPマッチング距離計算処理がなされ、このDPマッチ
ング距離計算部(5)のDPマッチング距離を示す距離信
号が最小距離判定部(6)に供給され、この最小距離判定
部(6)にて入力パターンに対してDPマッチング距離が
最小となる標準パターンが判定され、この判定結果より
入力音声を示す認識結果が出力端子(7)に得られる。
ところで、一般に標準パターンメモリ(4)に格納される
標準パターンのフレーム数Nは発声速度変動や単語長の
違いにより異なっている。DPマッチング処理によりこ
の発声速度変動や単語長の違いに対処する為の時間軸正
規化がなされる。
以下、このDPマッチング処理について説明する。ここ
で、簡単の為に音響パラメータ時系列Pi(n)の周波数軸
方向iに対応する次元を省略して標準パターンのパラメ
ータ時系列をb,‥‥,b、入力パターンのパラメ
ータ時系列をa,‥‥,aとして、端点固定のDP
−パスの場合のDPマッチング処理について説明する。
第2図はDPマッチング処理の概念図を示し、横軸に入
力パラメータ(M=19)が並べられ、縦軸に標準パラメ
ータ(N=12)が並べられ、この第2図に示す(M,
N)格子状平面に於ける・点はM×N個であり、この各
・点に1つの距離が対応する。例えばaとbとの距
離がaから縦に伸した直線と、bから横に伸した直
線との交点に位置する・に対応する。この場合、距離と
して例えばチェビシェフ距離を取れば、aとbとの
チェビシェフ距離d(3,5)は となる(この場合、周波数軸方向iに対応する次元を省
略しているのでI=1である。)。そして、端点固定の
DP−パスとして、格子点(m,n)に対してこの格子
点(m,n)に結びつける前の状態として左側の格子点
(m−1,n)、斜め左下側の格子点(m−1,n−
1)及び下側の格子点(m,n−1)の3つ だけを許した場合、始点、即ちaとbとのチェビシ
ェフ距離D11を示す点 から出発し、パス(経路)として3方向 を選び、終点、即ちaとbとのチェビシェフ距離d
(M,N)を示す点 に至るパスで、通過する各格子点の距離の総和が最小に
なるものを求め、この距離の総和を入力パラメータ数M
と標準パラメータ数Nとの和より値1を減算した(M+
N−1)にて除算して得られた結果が入力パターンのパ
ラメータ時系列a,‥‥,aと標準パターンのパラ
メータ時系列b,‥‥,bとのDPマッチング距離
となされる。この様な処理を示す初期条件及び漸化式は 初期条件 g(1,1)=d(1,1) 漸化式 と表され、これよりDPマッチング距離D(A,B)は D(A,B)=g(M,N)/(M+N−1) と表される((M+N−1)でg(M,N)を割ってい
るのは標準パターンのフレーム数Nの違いによる距離の
値の差を補正するためである。)。この様な処理により
標準パターンの数がL個ある場合には入力パターンに対
するDPマッチング距離がL個求められ、このL個のD
Pマッチング距離中最小の距離となる標準パターンが認
識結果となされる。
この様なDPマッチング処理による音声認識装置によれ
ば発声速度変動や単語長の違いに対処、即ち時間軸正規
化のなされた音声認識を行なうことができる。
然し乍ら、この様なDPマッチング処理により音声認識
を行なうものにおいては、音声の定常部がDPマッチン
グ距離に大きく反映し、部分的に類似しているような語
い間に於いて誤認識し易いということが明らかとなっ
た。
即ち、音響パラメータ時系列Pi(n)はそのパラメータ空
間で軌跡を描くと考えることができる。実際には各フレ
ームnのパラメータがパラメータ空間内の1点に対応す
ることから、点列ではあるが時系列方向に曲線で結んで
いくと始点から終点迄の1つの軌跡が考えられる。例え
ば2種類の単語“SAN”と“HAI”とを登録した場
合、夫々の標準パターンA′,B′は第3図に示す如く
“S”,“A”,“N”,“H”,“A”,“I”の各
音韻領域を通過する軌跡を描く。そして、認識モードで
“SAN”と発声した場合、全体的にみれば入力パター
ンAに対する標準パターンB′の類似する部分は非常に
少ないが、この入力パターンAの“SAN”の“A”の
部分が標準パターンA′の“SAN”の“A”の部分よ
り標準パターンB′の“HAI”の“A”の部分により
類似し、且つその部分(準定常部)に点数が多い場合が
ある。
ここで、第3図に示す如く入力パターンAのパラメータ
が全体的には標準パターンA′のパラメータに類似し、
部分的には標準パターンB′のパラメータに類似する場
合にDPマッチング処理により誤認識を招く場合を1次
元パラメータを例に説明する。この場合、第3図に示す
状況、即ち部分的に類似している語い間の関係と同様の
1次元パラメータ時系列として第4図に示す如き入力パ
ターンA;2,4,6,8,8,8,8,6,4,4,4,6,8と、第5図に示
す如き標準パターンA′;3,5,7,9,9,9,9,7,5,5,7,9
と、第6図に示す如き標準パターンB′;7,6,6,8,8,8,
8,6,4,4,4とを考える。これら第4図乃至第6図のパタ
ーンより明らかな如く入力パターンAは標準パターン
A′と判定されて欲しいパターンである。ところが、入
力パターンAに対する標準パターンA′及びB′のDP
マッチング距離を計算すると、入力パターンAは標準パ
ターンB′に近いことが示される。
即ち、入力パターンAに対する標準パターンA′のDP
マッチング処理として第2図と同様、第7図に示す如く
横軸に入力パターンAのパラメータ時系列;2,4,6,8,8,
8,8,6,4,4,4,6,8を並べ、縦軸に標準パターンA′のパ
ラメータ時系列;3,5,7,9,9,9,9,7,5,5,7,9を並べ、格
子状平面に於ける交点に対応して入力パターンAの個々
のパラメータに対する標準パターンA′の個々のパラメ
ータのチェビシェフ距離を求める。そして、入力パラメ
ータAのパラメータ時系列の第1番目のパラメータ2
と、標準パラメータA′のパラメータ時系列の第1番目
のパラメータ3とのチェビシェフ距離d(1,1)=1
の点を始点とし、入力パターンAのパラメータ時系列の
第13番目のパラメータ8と、標準パターンA′のパラメ
ータ時系列の第12番目のパラメータ9とのチェビシェフ
距離d(13,12)=1の点を終点とし、DP−パスとし
て第2図の場合と同様、任意の点に対する前の状態とし
てその任意の点の左側の点、下側の点及び斜め左下側の
点を取ることを許した場合(このパスを実線矢印にて示
す。)、パス上の点はd(1,1)−d(2,2)−d
(3,3)−d(4,4)−d(5,5)−d(6,
6)−d(7,7)−d(8,8)−d(9,9)−d
(10,10)−d(11,10)−d(12,10)−d(13,1
1)−d(13,12)の14点であり、その距離の総和は24
であり、このDPマッチング距離D(A,A′)は1で
ある。
一方、入力パターンAに対する標準パターンB′のDP
マッチング処理を上述第7図に示す場合と同様、第8図
に示す如く行なう。即ち、入力パターンAの個々のパラ
メータ;2,4,6,8,8,8,8,6,4,4,4,6,8に対する標準パタ
ーンB′の個個のパラメータ;7,6,6,8,8,8,8,6,4,4,4
のチェビシェフ距離を求め、DP−パスとして任意の点
に対する前の状態としてその任意の点の左側の点、下側
の点及び斜め左下側の点を取ることを許した場合(この
パスを実線矢印にて示す。)、パス上の点はd(1,
1)−d(2,2)−d(3,3)−d(4,4)−d
(5,5)−d(6,6)−d(7,7)−d(8,
8)−d(9,9)−d(10,10)−d(11,11)−d
(12,11)−d(13,11)の13点であり、その距離の総
和は155であり、このDPマッチング距離D(A,
B′)は0.65である。
このDP−パスを3方向 とした結果より明らかな様に入力パターンAがそのDP
マッチング距離の小さな標準パターンB′と判定され、
判定されるべき結果が得られない。この様にDPマッチ
ング処理においては部分的に類似しているような語い間
に於いて誤認識し易い。
又、DPマッチング処理においては上述した様に標準パ
ターンのフレーム数Nが不定であり、しかも入力パター
ンに対して全標準パターンをDPマッチング処理する必
要があり、語いが多くなるとそれに伴って演算量が飛躍
的に増加し、標準パターンメモリ(4)の記憶容量や演算
量の点で問題があった。
この為、部分的に類似しているような語い間に於いても
誤認識することが比較的少なく、且つ標準パターンメモ
リ(4)の記憶容量や処理の為の演算量が比較的少ない音
声認識装置として第9図に示す如きものが考えられてい
る。
第9図において、(1)は音声信号入力部としてのマイク
ロホンを示し、このマイクロホン(1)からの音声信号を
音響分析部(2)の増幅器(8)に供給し、この増幅器(8)の
音声信号をカットオフ周波数5.5KHzのローパスフィルタ
(9)を介してサンプリング周波数12.5KHzの12ビットA/
D変換器(10)に供給し、このA/D変換器(10)のデジタ
ル音声信号を15チャンネルのデジタルバンドパスフィル
タバンク(11A),(11B),‥‥,(11O)に供給する。この1
5チャンネルのデジタルバンドパスフィルタバンク(1
1A),(11B),‥‥,(11O)は例えばバターワース4次の
デジタルフィルタにて構成し、250Hzから5.5KHzまでの
帯域が対数軸上で等間隔となるように割り振られてい
る。そして、各デジタルバンドパスフィルタ(11A),(11
B),‥‥,(11O)の出力信号を15チャンネルの整流器(12
A),(12B),‥‥,(12O)に夫々供給し、これら整流器(1
2A),(12B),‥‥,(12O)の2乗出力を15チャンネルの
デジタルローパスフィルタ(13A),(13B),‥‥,(13O)
に夫々供給する。これらデジタルローパスフィルタ(1
3A),(13B),‥‥,(13O)はカットオフ周波数52.8Hzの
FIR(有限インパルス応答形)ローパスフィルタにて
構成する。
そして、各デジタルローパスフィルタ(13A),(13B),‥
‥,(13O)の出力信号をサンプリング周期5.12msのサン
プラー(14)に供給する。このサンプラー(14)によりデジ
タルローパスフィルタ(13A),(13B),‥‥,(13O)の出
力信号をフレーム周期5.12ms毎にサンプリング、このサ
ンプラー(14)のサンプリング信号を音源情報正規化器(1
5)に供給する。この音源情報正規化器(15)は認識しよう
とする音声の話者による声帯音源特性の違いを除去する
ものである。
即ち、フレーム周期毎にサンプラー(14)から供給される
サンプリング信号Ai(n)(i=1,‥‥,15;n:フレ
ーム番号)に対して A′i(n)=log(Ai(n)+B) (1) なる対数変換がなされる。この(1)式において、Bはバ
イアスでノイズレベルが隠れる程度の値を設定する。そ
して、声帯音源特性をyi=a.i+bなる式で近似す
る。このa及びbの計数は次式により決定される。
そして、音源の正規化されたパラメータをPi(n)とする
と、a(n)<0のときパラメータPi(n)は Pi(n)=A′i(n)−{a(n)・i+b(n) ・・・(4) と表わされる。
又、a(n)≧0のときレベルの正規化のみ行ない、パラ
メータPi(n)は と表わされる。
この様な処理により声帯音源特性の正規化されたパラメ
ータPi(n)を音声区間内パラメータメモリ(16)に供給す
る。この音声区間内パラメータメモリ(16)は後述する音
声区間判定部(17)からの音声区間判定信号を受けて声帯
音源特性の正規化されたパラメータPi(n)を音声区間毎
に格納する。
一方、A/D変換器(10)のデジタル音声信号を音声区間
判定部(17)のゼロクロスカウンタ(18)及びパワー算出部
(19)に夫々供給する。このゼロクロスカウンタ(18)は5.
12ms毎にその区間の64点のデジタル音声信号のゼロクロ
ス数をカウントし、そのカウント値を音声区間判定器(2
0)の第1の入力端に供給する。又、パワー算出器(19)は
5.12ms毎にその区間のデジタル音声信号のパワー、即ち
2乗和を求め、その区間内パワーを示すパワー信号を音
声区間判定器(20)の第2の入力端に供給する。更に、音
源情報正規化器(15)の音源正規化情報a(n)及びb(n)を
音声区間判定器(20)の第3の入力端に供給する。そし
て、音声区間判定器(20)においてはゼロクロス数、区間
内パワー及び音源正規化情報a(n),b(n)を複合的に処
理し、無音、無声音及び有声音の判定処理を行ない、音
声区間を決定する。この音声区間判定器(20)の音声区間
を示す音声区間判定信号を音声区間判定部(17)の出力と
して音声区間内パラメータメモリ(16)に供給する。
この音声区間内パラメータメモリ(16)に格納された音声
区間毎に声帯音源特性の正規化された音響パラメータPi
(n)をその時系列方向にNAT(Normalization Along Tr
ajectory)の処理部(21)に供給する。このNAT処理部
(21)はNAT処理として音響パラメータ時系列Pi(n)か
らそのパラメータ空間における軌跡を直線近似にて推定
し、、この軌跡に沿って直線補間にて新たな音響パラメ
ータ時系列Qi(m)を形成する。
ここで、このNAT処理部(21)について更に説明する。
音響パラメータ時系列Pi(n)(i=1,‥‥,I;n=
1,‥‥,N)はそのパラメータ空間に点列を描く。第
10図に2次元パラメータ空間に分布する点列の例を示
す。この第10図に示す如く音声の非定常部の点列は粗に
分布し、準定常部は密に分布する。この事は完全に定常
であればパラメータは変化せず、その場合には点列はパ
ラメータ空間に停留することからも明らかである。
第11図は第10図に示す如き点列上に滑らかな曲線よりな
る軌跡を推定し描いた例を示す。この第11図に示す如く
点列に対して軌跡を推定できれば、音声の発声速度変動
に対して軌跡は殆ど不変であると考えることができる。
何故ならば、音声の発声速度変動による時間長の違いは
殆どが準定常部の時間的伸縮(第10図に示す如き点列に
おいては準定常部の点列密度の違いに相当する。)に起
因し、非定常部の時間長の影響は少ないと考えられるか
らである。
NAT処理部(21)においてはこの様な音声の発声速度変
動に対する軌跡の不変性に着目して時間軸正規化を行な
う。
即ち、第1に音響パラメータ時系列Pi(n)に対して始点P
i(1)から終点Pi(N)迄を連続曲線で描いた軌跡を推定
し、この軌跡を示す曲線を とする。この場合、必ずしも である必要は無く、基本的には が点列全体を近似的に通過するようなものであれば良
い。
第2に推定された から軌跡の長さSLを求め、第12図に○印にて示す如く軌
跡に沿って一定長で新たな点列をリサンプリングする。
例えばM点にサンプリングする場合、一定長さ、即ちリ
サンプリング間隔T=SL/(M−1)を基準として軌跡
上をリサンプリングする。このリサンプリングされた点
列をQi(m)(i=1,‥‥,I;m=1,‥‥,M)と
すれば、 である。
この様にして得られた新たなパラメータ時系列Qi(m)は
軌跡の基本情報を有しており、しかも音声の発声速度変
動に対して殆ど不変なパラメータとなる。即ち、新たな
パラメータ時系列Qi(m)は時間軸正規化がなされたパラ
メータ時系列となる。
この様な処理の為に、音声区間内パラメータメモリ(16)
の音響パラメータ時系列Pi(n)を軌跡長算出器(22)に供
給する。この軌跡長算出器(22)は音響パラメータ時系列
Pi(n)がそのパラメータ空間において描く直線近似によ
る軌跡の長さ、即ち軌跡長を算出するものである。この
場合、I次元ベクトルa及びb間の距離として例え
ばユークリッド距離D(a,b)をとれば である。尚、この距離としてはチェビシェフ距離、平方
距離等をとることを可とする。そこで、I次元の音響パ
ラメータ時系列Pi(n)(i=1,‥‥,I;n=1,‥
‥,N)より、直線近似により軌跡を推定した場合の時
系列方向に隣接するパラメータ間距離S(n)は S(n)=D(Pi(n+1),Pi(n))(n=1,‥‥,N−1)・・・(7) と表わされる。そして、時系列方向における第1番目の
パラメータPi(1)から第n番目のパラメータPi(n)迄の距
離SL(n)は と表わされる。尚、SL(1)=0である。更に、軌跡長SL
と表わされる。軌跡長算出器(22)はこの(7)式、(8)式及
び(9)式にて示す信号処理を行なう如くなす。
この軌跡長算出器(22)の軌跡長SLを示す軌跡長信号を補
間間隔算出器(23)に供給する。この補間隔算出器(23)は
軌跡に沿って直線補間により新たな点列をリサンプリン
グする一定長のリサンプリング間隔Tを算出するもので
ある。この場合、M点にリサンプリングするとすれば、
リサンプリング間隔Tは T=SL/(M−1) ・・・(10) と表わされる。補間間隔算出器(23)はこの(10)式にて示
す信号処理を行なう如くなす。
この補間間隔算出器(23)のリサンプリング間隔Tを示す
リサンプリング間隔信号を補間点抽出器(24)の一端に供
給すると共に音声区間内パラメータメモリ(16)の音響パ
ラメータ時系列Pi(n)を補間点抽出器(24)の他端に供給
する。この補間点抽出器(24)は音響パラメータ時系列Pi
(n)のそのパラメータ空間における軌跡例えばパラメー
タ間を直線近似した軌跡に沿ってリサンプリング間隔T
で新たな点列をリサンプリングし、この新たな点列より
新たな音響パラメータ時系列Qi(m)を形成するものであ
る。
ここで、この補間点抽出器(24)における信号処理を第13
図に示す流れ図に沿って説明する。先ず、ブロック(24
a)にてリサンプリング点の時系列方向における番号を示
す変数Jに値1が設定されると共に音響パラメータ時系
列Pi(n)の時系列方向における番号を示す変数ICに値1
が設定される。そして、ブロック(24b)にて変数Jがイ
ンクリメントされ、ブロック(24c)にてそのときの変数
Jが(M−1)以下であるかどうかにより、そのときの
リサンプリング点の時系列方向における番号がリサンプ
リングする必要のある最後の番号になっていないかどう
かを判断し、なっていればこの補間点抽出器(24)の信号
処理を終了し、なっていなければブロック(24d)にて第
1番目のリサンプリング点から第J番目のリサンプリン
グ点までのリサンプル距離DLが算出され、ブロック(24
e)にて変数ICがインクリメントされ、ブロック(24f)に
てリサンプル距離DLが音響パラメータ時系列Pi(n)の第
1番目のパラメータPi(1)から第IC番目のパラメータPi
(IC)までの距離SL(IC)よりも小さいかどうかにより、そ
のときのリサンプリング点が軌跡上においてそのときの
パラメータPi(IC)よりも軌跡の始端側に位置するかどう
かを判断し、位置していなければブロック(24e)にて変
数ICをインクリメントした後再びブロック(24f)にてリ
サンプリング点とパラメータPi(IC)との軌跡上における
位置の比較をし、リサンプリング点が軌跡上においてパ
ラメータPi(IC)よりも始端側に位置すると判断されたと
き、ブロック(24g)にてリサンプリングにより軌跡に沿
う新たな音響パラメータQi(J)が形成される。即ち、先
ず第J番目のリサンプリング点によるリサンプル距離DL
からこの第J番目のリサンプリング点よりも始端側に位
置する第(IC−1)番目のパラメータPi(IC-1)による距
離SL(IC-1)を減算して第(IC−1)番目のパラメータPi
(IC-1)から第J番目のリサンプリング点迄の距離SSを求
める。次に、軌跡上においてこの第J番目のリサンプリ
ング点の両側に位置するパラメータPi(IC-1)及びパラメ
ータPi(IC)間の距離S(IC-1)(この距離S(IC-1)は(7)
式にて示される信号処理にて得られる。)にてこの距離
SSを除算SS/S(IC-1)し、この除算結果SS/S(IC-1)
軌跡上において第J番目のリサンプリング点の両側に位
置するパラメータPi(IC)とPi(IC-1)との差(Pi(IC)−Pi
(IC-1))を掛算(Pi(IC)−Pi(IC-1))*SS/S(IC-1)
て、軌跡上において第J番目のリサンプリング点のこの
リサンプリング点よりも始端側に隣接して位置する第
(IC−1)番目のパラメータPi(IC-1)からの補間量を算
出し、この補間量と第J番目のリサンプリング点よりも
始端側に隣接して位置する第(IC−1)番目のパラメー
タPi(IC-1)とを加算して、軌跡に沿う新たな音響パラメ
ータQi(J)が形成される。第14図に2次元の音響パラメ
ータ時系系列P(1),P(2),‥‥,P(8)に対してパラ
メータ間を直線近似して軌跡を推定し、この軌跡に沿っ
て直線補間により6点の新たな音響パラメータ時系列Q
(1),Q(2),‥‥,Q(6)を形成した例を示す。又、こ
のブロック(24g)においては周波数系列方向にI次元分
(i=1,‥‥,I)の信号処理が行なわれる。
この様にしてブロック(24b)乃至(24g)にて始点及び終点
(これらは である。)を除く(M−2)点のリサンプリングにより
新たな音響パラメータ時系列Qi(m)が形成される。
このNAT処理部(21)の新たな音響パラメータ時系列Qi
(m)をモード切換スイッチ(3)により、登録モードにおい
ては認識対象語毎に標準パターンメモリ(4)に格納し、
認識モードにおいてはチェビシェフ距離算出部(25)の一
端に供給する。又、この認識モードにおいては標準パタ
ーンメモリ(4)に格納されている標準パターンをチェビ
シェフ距離算出部(25)の他端に供給する。このチェビシ
ェフ距離算出部(25)においてはその時入力されている音
声の時間軸の正規化された新たな音響パラメータ時系列
Qi(m)よりなる入力パターンと、標準パターンメモリ(4)
の標準パターンとのチェビシェフ距離算出処理がなされ
る。
そして、このチェビシェフ距離を示す距離信号を最小距
離判定部(6)に供給し、この最小距離判定部(6)にて入力
パターンに対するチェビシェフ距離が最小となる標準パ
ターンが判定され、この判定結果より入力音声を示す認
識結果を出力端子(7)に供給する。
この様にしてなる音声認識装置の動作について説明す
る。
マイクロホン(1)の音声信号が音響分析部(2)にて音声区
間毎に声帯音源特性の正規化された音響パラメータ時系
列Pi(n)に変換され、この音響パラメータ時系列Pi(n)が
NAT処理部(21)に供給され、このNAT処理部(21)に
て音響パラメータ時系列Pi(n)からそのパラメータ空間
における直線近似による軌跡が推定され、この軌跡に沿
って直線補間され時間軸正規化のなされた新たな音響パ
ラメータ時系列Qi(m)が形成され、登録モードにおいて
はこの新たな音響パラメータ時系列Qi(m)がモード切換
スイッチ(3)を介して標準パターンメモリ(4)に格納され
る。
又、認識モードにおいては、NAT処理部(21)の新たな
音響パラメータ時系列Qi(m)がモード切換スイッチ(3)を
介してチェビシェフ距離算出部(25)に供給されると共に
標準パターンメモリ(4)の標準パターンがチェビシェフ
距離算出部(25)に供給されると共に標準パターンメモリ
(4)の標準パターンがチェビシェフ距離算出部(25)に供
給される。第15図乃至第17図に第4図乃至第6図に示す
1次元の入力パターンAのパラメータ時系列;2,4,6,8,
8,8,8,6,4,4,4,6,8、標準パターンA′のパラメータ時
系列;3,5,7,9,9,9,9,7,5,5,7,9、標準パターンB′の
パラメータ時系列;7,6,6,8,8,8,8,6,4,4,4をNAT処
理部(21)にて直線近似にて軌跡を推定し、リサンプリン
グ点を8点とする処理をした1次元の入力パターンAの
パラメータ時系列;2,4,6,8,6,4,6,8、標準パターン
A′のパラメータ時系列;3,5,7,9,7,5,7,9、標準パタ
ーンB′のパラメータ時系列;7,6,7,8,7,6,5,4を夫々
示す。この場合、音響パラメータ時系列Pi(n)からその
パラメータ空間における軌跡を推定し、この軌跡に沿っ
て新たな音響パラメータ時系列Qi(m)が形成されるの
で、入力音声を変換した音響パラメータ時系列Pi(n)自
身により時間軸正規化がなされる。そして、チェビシェ
フ距離算出部(25)において入力パターンAと標準パター
ンA′との間のチェビシェフ距離8が算出されると共に
入力パターンAと標準パターンB′との間のチェビシェ
フ距離16が算出され、これら距離8及び距離16を夫々示
す距離信号が最小距離判定部(6)に供給され、この最小
距離判定部(6)にて距離8が距離16よりも小さいことか
ら標準パターンAが入力パターンA′であると判定さ
れ、この判定結果より入力音声が標準パターンAである
ことを示す認識結果が出力端子(7)に得られる。従っ
て、部分的に類似しているような語い間に於いても誤認
識することが比較的少ない音声認識を行なうことができ
る。
ここで、NAT処理を行なう音声認識装置とDPマッチ
ング処理を行なう音声認識装置との演算量における差異
について説明する。
入力パターンに対する標準パターン1個当たりのDPマ
ッチング距離計算部(5)における平均演算量をαとし、
チェビシェフ距離算出部(25)における平均演算量をβと
し、NAT処理部(21)の平均の演算量をγとしたとき、
J個の標準パターンに対するDPマッチング処理による
演算量Cは C=α・J ・・・(11) である。又、J個の標準パターンに対するNAT処理し
た場合の演算量Cは C=β・J+γ ・・・(12) である。一般に、平均演算量αは平均演算量βに対して
α≫βなる関係があるる。従って、 なる関係が成り立つ、即ち認識対象語い数が増加するに
従って演算量Cは演算量Cに対してC≫Cなる
関係となり、NAT処理を行なう音声認識装置に依れ
ば、演算量を大幅に低減できる。
又、NAT処理部(21)より得られる新たな音響パラメー
タ時系列Qi(m)はその時系列方向において一定のパラメ
ータ数に設定できるので、標準パターンメモリ(4)の記
憶領域を有効に利用でき、その記憶容量を比較的少なく
できる。
ところで、音響パラメータ時系列Pi(n)はゆらぎ等によ
りそのパラメータ空間における準定常部において第10図
に示す如く複数の点を形成する。音響パラメータ時系列
Pi(n)は本来そのパラメータ空間における準定常部にお
いて1点に重なるべきものであり、準定常部において複
数の点を形成する音響パラメータ時系列Pi(n)は好まし
いパラメータではなく認識率が低下する原因の1つであ
った。
発明の目的 本発明は斯かる点に鑑み準定常部において1点をとる音
響パラメータ系列が得られる認識率の比較的高いものを
得ることを目的とする。
発明の概要 本発明音声認識装置は例えば第18図に示す如く音声信号
を入力するための音声信号入力部(1)と、この音声信号
入力部(1)からの音声信号を分析して第1の音響パラメ
ータを得るための音響分析部(2)と、この音響分析器(2)
に基づいて得た第1の音響パラメータ系列を入力してこ
の音響パラメータを補正するパラメータ補正部(26)と、
このパラメータ補正部(26)にて補正された第1の音響パ
ラメータ系列よりそのパラメータ空間における軌跡を推
定し、第2の音響パラメータ系列を得るための音響パラ
メータ処理部(21)と、この第2の音響パラメータ系列と
標準パターンとのマッチング処理を行うマッチング処理
部(25)とを有し、このパラメータ補正部(26)は、この第
1の音響パラメータ系列からそのパラメータ空間におけ
る準定常部を検出する準定常部検出器(29)と、この準定
常部のこの音響パラメータ系列を信号処理してこの準足
常部に1つの音響パラメータが存在するように補正する
パラメータ補正器(30)とを含み、この音響パラメータ処
理部(21)は、この準定常部に1つの音響パラメータが存
在するように補正された第1の音響パラメータ系列に基
づいてこの第2の音響パラメータ系列を形成するように
なすものであり、斯かる本発明音声認識装置に依れば準
定常部において1点をとる音響パラメータ系列が得られ
る認識率の比較的高いものを得ることができる利益があ
る。
実施例 以下、第18図乃至第20図を参照しながら本発明音声認識
装置の一実施例について説明しよう。この第18図乃至第
20図において第1図乃至第17図と対応する部分に同一符
号を付してその詳細な説明は省略する。
本例においては第18図に示す如く音響分析部(2)の音響
パラメータ時系列Pi(n)をパラメータ補正部(26)に供給
する。このパラメータ補正部(26)は音響パラメータ時系
列Pi(n)からそのパラメータ空間における準定常部を検
出し、この準定常部の音響パラメータ時系列を信号処理
して準定常部に1つのパラメータが存在するように補正
を行うものである。この為に、音響パラメータ時系列Pi
(n)を(6)式、(7)式、(8)式及び(9)式にて示す信号処理
によりパラメータ空間において描く直線近似による軌跡
の軌跡長SLを算出する軌跡長算出器(27)に供給し、この
軌跡長算出器(27)の軌跡長SLを示す軌跡長信号を閾値算
出器(28)に供給する。この閾値算出器(28)は軌跡長SL
と、時系列方向におけるパラメータ数(本例においては
Nである。)と、統計的に得られた係数a(a1であ
り、例えば0.2である。)とから例えば次式に示す如き
信号処理により閾値SHを示す閾値信号を形成する如くな
す。
この閾値SHは準定常部におけるパラメータ間の軌跡長が
統計的に全体におけるパラメータ間の平均の軌跡長の例
えば2割に満たないことに着目して定められる。
この閾値算出器(28)の閾値信号を準定常部検出器(29)の
一端に供給すると共に軌跡長算出器(27)の(6)式及び(7)
式にて示す信号処理により得られる時系列方向に隣接す
るパラメータ間距離S(n)を準定常部検出器(29)の他端
に供給する。この準定常部検出器(29)はパラメータ間距
離S(n)と閾値SHとを比較して、S(n)<SHなる音響パラ
メータPi(n)及びPi(n+1)を準定常部とみなし、更にS
(n+1)<SHであれば音響パラメータPi(n)、Pi(n+1)及びP
i(n+2)を準定常部とみなし、以下同様の処理により準定
常部を構成する音響パラメータを検出する。
この準定常部検出器(29)の検出出力をパラメータ補正器
(30)の一端に供給すると共に音響分析部(2)の音響パラ
メータ時系列Pi(n)をパラメータ補正器(30)の他端に供
給する。このパラメータ補正器(30)は準定常部検出器(2
9)の検出出力に応じて、準定常部を構成しない音響パラ
メータ時系列Pi(n)はそのままパラメータ補正部(26)の
補正された音響パラメータ時系列Pi(j)として出力し、
準定常部を構成する音響パラメータ時系列は補正処理し
た後にパラメータ補正部(26)の補正された音響パラメー
タPi(j)として出力する如くなす。この場合、補正処理
として例えは準定常部を構成する音響パラメータ時系列
がPi(n)及びPi(n+1)であればPi(j)=(Pi(n)+P
i(n+1)))/2なる1つの音響パラメータを形成し、準
定常部を構成する音響パラメータ時系列がPi(n)、Pi
(n+1)及びPi(n+2)であればPi(j)=(Pi(n)+Pi(n+1)+P
i(n+2))/3なる1つの音響パラメータを形成する補正
処理を行なう如くなす。
この様にして得られるパラメータ補正部(26)の補正され
た音響パラメータ時系列Pi(j)をNAT処理部(21)に供
給する。このNAT処理部(21)、音響分析部(2)、モー
ド切換スイッチ(3)、標準パターンメモリ(4)、チェビシ
ェフ距離算出部(25)、最小距離判定部(6)等は上述した
第9図に示す音声認識装置と同様に構成する。
斯かる音声認識装置の動作について説明する。
マイクロホン(1)の音声信号が音響分析部(2)にて音声区
間毎に声帯音源特性の正規化された音響パラメータ時系
列Pi(n)に変換され、この音響パラメータ時系列Pi(n)が
パラメータ補正部(26)に供給され、このパラメータ補正
部(26)にて音響パラメータ時系列Pi(n)の準定常部を構
成するパラメータが補正処理され、補正された音響パラ
メータ時系列Pi(j)が形成される。第19図に“NI”と
発生した場合のパラメータ空間における音響パラメータ
時系列Pi(n)を示す。この第19図より明らかな如く音響
パラメータ時系列Pi(n)は“N”及び“I”の準定常部
において1点ではなく複数の点を形成する。このとき、
準定常部“N”及び“I”を構成する複数の音響パラメ
ータがそのパラメータ間距離の小さいことにより検出さ
れ、検出された準定常部を構成する複数の音響パラメー
タから補正処理により1つの音響パラメータが形成さ
れ、補正された音響パラメータ時系列Pi(j)が形成され
る。
このパラメータ補正部(26)の補正された音響パラメータ
時系列Pi(j)がNAT処理部(21)にてNAT処理され
る。この場合、補正された音響パラメータ時系列Pi(j)
はそのパラメータ空間における準定常部において1つの
音響パラメータが存在することとなる。従って、この補
正された音響パラメータ時系列Pi(j)からそのパラメー
タ空間における軌跡を推定し、この軌跡に沿って新たな
音響パラメータ時系列Qi(m)を形成する場合に、準定常
部に複数でなく1つの音響パラメータが存在し、第19図
に示す如くパラメータ空間において準定常部に不要な軌
跡長を生じることがなく、その分だけ良好な新たな音響
パラメータ時系列Qi(m)が形成される。
以下、この様にして得られた新たな音響パラメータ時系
列Qi(m)が上述第9図に示す音声認識装置と同様にマッ
チング処理等がなされる。この場合、補正された音響パ
ラメータ時系列Pi(j)はその準定常部において平均的な
1つの音響パラメータが存在する良好なものであるた
め、ゆらぎ等の影響を比較的小さくすることができ、比
較的高い認識率が得られる。
以上述べた如く本例の音声認識装置に依れば、音声信号
入力部としてのマイクロホン(1)を有し、この音声信号
入力部(1)の音声信号を音響分析部(2)に供給し、この音
響分析部(2)の音響パラメータ時系列Pi(n)をパラメータ
補正部(26)に供給し、このパラメータ補正部(26)にて音
響パラメータ時系列Pi(n)からそのパラメータ空間にお
ける準定常部を検出し、この準定常部の音響パラメータ
時系列を信号処理して準定常部に1つの音響パラメータ
が存在するようになし、パラメータ補正部(26)の補正さ
れた音響パラメータ時系列Pi(j)をマッチング処理する
ことにより音声を認識するようにした為、準定常部にお
いて1つの音響パラメータが存在する音響パラメータ時
系列Pi(j)が得られ、認識率の比較的高いものを得るこ
とができる利益がある。
尚、上述実施例においては音響パラメータ時系列からそ
のパラメータ空間における直線近似による軌跡の軌跡長
を算出するようにした場合について述べたけれども、円
弧近似、スプライン近似等による軌跡の軌跡長を算出す
るようにしても上述実施例と同様の作用効果を得ること
ができることは容易に理解できよう。尚、この場合、準
定常部を検出するのにパラメータ間の軌跡長だけに依る
のでなく、パラメータ間を円弧近似しその曲率半径に基
づいて準定常部を検出するようにしても上述実施例と同
様の作用効果を得ることができることは容易に理解でき
よう。又、上述実施例においては準定常部を検出するの
に音響パラメータ時系列Pi(n)の周波数系列方向には何
等重み付けをしない場合について述べたけれども、チャ
ンネル毎又は帯域毎に重み付け例えばピッチの影響が少
なく且つゆらぎの影響が少ない中域の重みを重くし、低
域及び高域の重みを軽くしてピッチやゆらぎによる影響
を少なくしてより精密に準定常部を検出するようにして
も上述実施例と同様の作用効果を得ることができること
は容易に理解できよう。更に、上述実施例においては準
定常部を検出するのに周波数系列方向全帯域を一括した
一系統の音響パラメータ時系列Pi(n)の軌跡長とその閾
値とに基づいた場合について述べたけれども、周波数系
列方向を複数帯域に分割し、複数系統の音響パラメータ
時系列の軌跡長とそれらの閾値とに基づいて準定常部を
検出するようにしても上述実施例と同様の作用効果が得
られることは容易に理解できよう。更に、本発明は上述
実施例に限らず本発明の要旨を逸脱することなくその他
種々の構成を取り得ることは勿論である。
発明の効果 本発明音声認識装置に依れば音声信号入力部を有し、こ
の音声信号入力部の音声信号を音響分析部に供給し、こ
の音響分析部の音響パラメータ系列をパラメータ補正部
に供給し、このパラメータ補正部にて音響パラメータ系
列からそのパラメータ空間における準定常部を検出し、
この準定常部の音響パラメータ系列を信号処理して準定
常部に1つの音響パラメータが存在するようになし、パ
ラメータ補正部の補正された音響パラメータ系列をマッ
チング処理することにより音声を認識するようにした
為、準定常部において1つの音響パラメータが存在する
音響パラメータ系列が得られ、認識率の比較的高いもの
を得ることができる利益がある。
【図面の簡単な説明】
第1図はDPマッチング処理により音声認識を行なうよ
うにした音声認識装置の例を示す構成図、第2図はDP
マッチング処理の説明に供する概念図、第3図は音響パ
ラメータ空間における軌跡の説明に供する線図、第4
図、第5図及び第6図は夫々1次元の入力パターンA、
標準パターンA′及び標準パターンB′の例を示す線
図、第7図は入力パターンAのパラメータ時系列と標準
パターンA′のパラメータ時系列とのDPマッチング処
理による時間軸正規化の説明に供する線図、第8図は入
力パターンAのパラメータ時系列と標準パターンB′の
パラメータ時系列とのDPマッチング処理による時間軸
正規化の説明に供する線図、第9図はNAT処理をして
音声認識を行なうようにした音声認識装置の例を示す構
成図、第10図、第11図、第12図及び第14図は夫々NAT
処理部の説明に供する線図、第13図は補間点抽出器の説
明に供する流れ図、第15図、第16図及び第17図は夫々N
AT処理部にてNAT処理した入力パターンA、標準パ
ターンA′及び標準パターンB′の1次元の音響パラメ
ータ時系列を示す線図、第18図は本発明音声認識装置の
一実施例を示す構成図、第19図は第18図の説明に供する
線図である。 (1)は音声信号入力部としてのマイクロホン、(2)は音響
分析部、(3)はモード切換スイッチ、(4)は標準パターン
メモリ、(6)は最小距離判定部、(11A),(11B),‥‥,
(11O)は15チャンネルのデジタルバンドパスフィルタバ
ンク、(16)は音声区間内パラメータメモリ、(21)はNA
T処理部、(22)及び(27)は夫々軌跡長算出器、(23)は補
間間隔算出器、(24)は補間点抽出器、(25)はチェビシェ
フ距離算出部、(26)はパラメータ補正部、(28)は閾値算
出器、(29)は準定常部検出器、(30)はパラメータ補正器
である。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 渡 雅男 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (56)参考文献 特開 昭60−249198(JP,A) 特開 昭60−249199(JP,A) 特開 昭60−252396(JP,A) 特開 昭60−254198(JP,A) 特公 昭56−13957(JP,B2)

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】音声信号を入力するための音声信号入力部
    と、 該音声信号入力部からの音声信号を分析して第1の音響
    パラメータを得るための音響分析部と、 該音響分析部に基づいて得た第1の音響パメラータ系列
    を入力して該音響パラメータを補正するパラメータ補正
    部と、 該パラメータ補正部にて補正された第1の音響パラメー
    タ系列よりそのパラメータ空間における軌跡を推定し、
    第2の音響パラメータ系列を得るための音響パラメータ
    処理部と、 該第2の音響パラメータ系列と標準パターンとのマッチ
    ング処理を行うマッチング処理部とを有し、 上記パラメータ補正部は、 上記第1の音響パラメータ系列からそのパラメータ空間
    における準定常部を検出する準定常部検出部と、 該準定常部の上記音響パラメータ系列を信号処理して上
    記準定常部に1つの音響パラメータが存在するように補
    正するパラメータ補正器とを含み、 上記音響パラメータ処理部は、 上記準定常部に1つの音響パラメータが存在するように
    補正された第1の音響パラメータ系列に基づいて上記第
    2の音響パラメータ系列を形成するようになすことを特
    徴とする音声認識装置。
JP59134894A 1984-06-29 1984-06-29 音声認識装置 Expired - Fee Related JPH0632004B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59134894A JPH0632004B2 (ja) 1984-06-29 1984-06-29 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59134894A JPH0632004B2 (ja) 1984-06-29 1984-06-29 音声認識装置

Publications (2)

Publication Number Publication Date
JPS6114699A JPS6114699A (ja) 1986-01-22
JPH0632004B2 true JPH0632004B2 (ja) 1994-04-27

Family

ID=15139001

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59134894A Expired - Fee Related JPH0632004B2 (ja) 1984-06-29 1984-06-29 音声認識装置

Country Status (1)

Country Link
JP (1) JPH0632004B2 (ja)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4233519A (en) * 1979-06-18 1980-11-11 Varian Associates, Inc. Radiation therapy apparatus having retractable beam stopper

Also Published As

Publication number Publication date
JPS6114699A (ja) 1986-01-22

Similar Documents

Publication Publication Date Title
CA1227286A (en) Speech recognition method and apparatus thereof
US7567900B2 (en) Harmonic structure based acoustic speech interval detection method and device
US7756700B2 (en) Perceptual harmonic cepstral coefficients as the front-end for speech recognition
JP3298858B2 (ja) 低複雑性スピーチ認識器の区分ベースの類似性方法
WO2020250828A1 (ja) 発話区間検出装置、発話区間検出方法、および発話区間検出プログラム
JPH0632004B2 (ja) 音声認識装置
JPH0632022B2 (ja) 音声認識装置
JPH0668678B2 (ja) 音声認識装置
JPH0634181B2 (ja) 音声認識装置
JPH0634182B2 (ja) 音声認識装置
JPH0792674B2 (ja) 音声認識装置
JPH0634183B2 (ja) 音声認識装置
JP2502880B2 (ja) 音声認識方法
JPH0572598B2 (ja)
JPH0573036B2 (ja)
JPH0424717B2 (ja)
JPH05313695A (ja) 音声分析装置
JPH0654439B2 (ja) 音声認識装置
JPH0454960B2 (ja)
JPH02232698A (ja) 音声認識装置
Rabiner et al. Use of a Computer Voice‐Response System for Wiring Communications Equipment
JPH0632008B2 (ja) 音声認識装置
JPH06105399B2 (ja) 音声認識方式
JPH0632011B2 (ja) 音声認識装置
JPH05150796A (ja) 音声認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees