JPH0792674B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH0792674B2
JPH0792674B2 JP59138788A JP13878884A JPH0792674B2 JP H0792674 B2 JPH0792674 B2 JP H0792674B2 JP 59138788 A JP59138788 A JP 59138788A JP 13878884 A JP13878884 A JP 13878884A JP H0792674 B2 JPH0792674 B2 JP H0792674B2
Authority
JP
Japan
Prior art keywords
pattern
distance
time series
parameter
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP59138788A
Other languages
English (en)
Other versions
JPS6117196A (ja
Inventor
篤信 平岩
曜一郎 佐古
誠 赤羽
雅男 渡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP59138788A priority Critical patent/JPH0792674B2/ja
Publication of JPS6117196A publication Critical patent/JPS6117196A/ja
Publication of JPH0792674B2 publication Critical patent/JPH0792674B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 産業上の利用分野 本発明は音声を認識する音声認識装置に関する。
背景技術とその問題点 従来、音声の発生速度変動に対処した音声認識装置とし
て例えば特開昭50−96104号公報に示されるようなDPマ
ッチング処理を行なうようにしたものが提案されてい
る。
先ず、このDPマッチング処理にて音声認識を行なうよう
にした音声認識装置について説明する。
第1図において、(1)は音声信号入力部としてのマイ
クロホンを示し、このマイクロホン(1)からの音声信
号が音響分析部(2)に供給され、この音響分析部
(2)にて音響パラメータ時系列Pi(n)が得られる。
この音響分析部(2)において例えばバンドパスフィル
タバンクの整流平滑化出力が音響パラメータ時系列Pi
(n)(i=1,‥‥,I;Iはバンドパスフィルタバンクの
チャンネル数、n=1,‥‥,N;Nは音声区間判定により切
り出されたフレーム数である。)として得られる。
この音響分析部(2)の音響パラメータ時系列Pi(n)
がモード切換スイッチ(3)により、登録モードにおい
ては認識対象語毎に標準パターンメモリ(4)に格納さ
れ、認識モードにおいてはDPマッチング距離計算部
(5)の一端に供給される。又、この認識モードにおい
ては標準パターンメモリ(4)に格納されている標準パ
ターンがDPマッチング距離計算部(5)の他端に供給さ
れる。
このDPマッチング距離計算部(5)にてその時入力され
ている音声の音響パラメータ時系列Pi(n)よりなる入
力パターンと標準パターンメモリ(4)の標準パターン
とのDPマッチング距離計算処理がなされ、DPマッチング
距離計算部(5)のDPマッチング距離を示す距離信号が
最小距離判定部(6)に供給され、この最小距離判定部
(6)にて入力パターンに対してDPマッチング距離が最
小となる標準パターンが判定され、この判定結果より入
力音声を示す認識結果が出力端子(7)に得られる。
ところで、一般に標準パターンメモリ(4)に格納され
る標準パターンのフレーム数Nは発声速度変動や単語長
の違いにより異なっている。DPマッチング処理によりこ
の発声速度変動や単語長の違いに対処する為の時間軸正
規化がなされる。
以下、このDPマッチング処理について説明する。ここ
で、簡単の為に音響パラメータ時系列Pi(n)の周波数
軸方向iに対応する次元を省略して標準パターンのパラ
メータ時系列をb1,‥‥,bN、入力パターンのパラメータ
時系列をa1,‥‥,aMとして、端点固定のDP−パスの場合
のDPマッチング処理について説明する。
第2図はDPマッチング処理の概念図を示し、横軸に入力
パラメータ(M=19)が並べられ、縦軸に標準パラメー
タ(N=12)が並べられ、この第2図に示す(M,N)格
子状平面に於ける・点はM×N個であり、この各・点に
1つの距離が対応する。例えばa3とb5との距離がa3から
縦に伸した直線と、b5から横に伸した直線との交点に位
置する・に対応する。この場合、距離として例えばチェ
ビシェフ距離を取れば、a3とb5とのチェビシェフ距離d
(3,5)は となる(この場合、周波数軸方向iに対応する次元を省
略しているのでI=1である。)。そして、端点固定の
DP−パスとて、格子点(m,n)に対してこの格子点(m,
n)に結びつける前の状態として左側の格子点(m−1,
n)、斜め左下側の格子点(m−1,n−1)及び下側の格
子点(m,n−1)の3つ だけを許した場合、始点、即ちa1とb1とのチェビシェフ
距離D11を示す点 から出発し、パス(経路)として3方向 を選び、終点、即ちaMとbNとのチェビシェフ距離d(M,
N)を示す点 に至るパスで、通過する各格子点の距離の総和が最小に
なるものを求め、この距離の総和を入力パラメータ数M
と標準パラメータ数Nとの和より値1を減算した(M+
N−1)にて除算して得られた結果が入力パターンのパ
ラメータ時系列a1,‥‥,aMと標準パターンのパラメータ
時系列b1,‥‥,bNとのDPマッチング距離となされる。こ
の様な処理を示す初期条件及び漸化式は 初期条件 g(1,1)=d(1,1) 漸化式 と表され、これよりDPマッチング距離D(A,B)は D(A,B)=g(M,N)/(M+N−1) と表される((M+N−1)でg(M,N)を割っている
のは標準パターンのフレーム数Nの違いによる距離の値
の差を補正するためである。)。この様な処理により標
準パターンの数がL個ある場合には入力パターンに対す
るDPマッチング距離がL個求められ、このL個のDPマッ
チング距離中最小の距離となる標準パターンが認識結果
となされる。
この様なDPマッチング処理による音声認識装置によれば
発声速度変動や単語長の違いに対処、即ち時間軸正規化
のなされた音声認識を行なうことができる。
然し乍ら、この様なDPマッチング処理により音声認識を
行なうものにおいては、音声の定常部がDPマッチング距
離に大きく反映し、部分的に類似しているような語い間
に於いて誤認識し易いということが明らかとなった。
即ち、音響パラメータ時系列Pi(n)はそのパラメータ
空間で軌跡を描くと考えることができる。実際には各フ
レームnのパラメータがパラメータ空間内の1点に対応
することから、点列ではあるが時系列方向に曲線で結ん
でいくと始点から終点迄の1つの軌跡が考えられる。例
えば2種類の単語“SAN"と“HAI"とを登録した場合、夫
々の標準パターンA′,B′は第3図に示す如く“S",
“A",“N",“H",“A",“I"の各音韻領域を通過する軌跡
を描く。そして、認識モードで“SAN"と発生した場合、
全体的にみれば入力パターンAに対する標準パターン
B′の類似する部分は非常に少ないが、この入力パター
ンAの“SAN"の“A"の部分が標準パターンA′の“SAN"
の“A"の部分より標準パターンB′の“HAI"の“A"の部
分により類似し、且つその部分(準定常部)に点数が多
い場合がある。
ここで、第3図に示す如く入力パターンAのパラメータ
が全体的には標準パターンA′のパラメータに類似し、
部分的には標準パターンB′のパラメータに類似する場
合にDPマッチング処理により誤認識を招く場合を1次元
パラメータを例に説明する。この場合、第3図に示す状
況、即ち部分的に類似している語い間の関係と同様の1
次元パラメータ時系列として第4図に示す如き入力パタ
ーンA;2,4,6,8,8,8,8,6,4,4,4,6,8と、第5図に示す如
き標準パターンA′;3,5,7,9,9,9,9,7,5,5,7,9と、第6
図に示す如き標準パターンB′;7,6,6,8,8,8,8,6,4,4,4
とを考える。これら第4図乃至第6図のパターンより明
らかな如く入力パターンAは標準パターンA′と判定さ
れて欲しいパターンである。ところが、入力パターンA
に対する標準パターンA′及びB′のDPマッチング距離
を計算すると、入力パターンAは標準パターンB′に近
いことが示される。
即ち、入力パターンAに対する標準パターンA′のDPマ
ッチング処理として第2図と同様、第7図に示す如く横
軸に入力パターンAのパラメータ時系列;2,4,6,8,8,8,
8,6,4,4,4,6,8を並べ、縦軸に標準パターンA′のパラ
メータ時系列;3,5,7,9,9,9,9,7,5,5,7,9を並べ、格子状
平面に於ける交点に対応して入力パターンAの個々のパ
ラメータに対する標準パターンA′の個々のパラメータ
のチェビシェフ距離を求める。そして、入力パラメータ
Aのパラメータ時系列の第1番目のパラメータ2と、標
準パラメータA′のパラメータ時系列の第1番目のパラ
メータ3とのチェビシェフ距離d(1,1)=1の点を始
点とし、入力パターンAのパラメータ時系列の第13番目
のパラメータ8と、標準パターンA′のパラメータ時系
列の第12番目のパラメータ9とのチェビシェフ距離d
(13,12)=1の点を終点とし、DP−パスとして第2図
の場合と同様、任意の点に対する前の状態としてその任
意の点の左側の点、下側の点及び斜め左下側の点を取る
ことを許した場合(このパスを実線矢印にて示す。)、
パス上の点はd(1,1)−d(2,2)−d(3,3)−d
(4,4)−d(5,5)−d(6,6)−d(7,7)−d(8,
8)−d(9,9)−d(10,10)−d(11,10)−d(12,1
0)−d(13,11)−d(13,12)の14点であり、その距
離の総和は24であり、このDPマッチング距離D(A,
A′)1である。
一方、入力パターンAに対する標準パターンB′のDPマ
ッチング処理を上述第7図に示す場合と同様、第8図に
示す如く行なう。即ち、入力パターンAの個々のパラメ
ータ;2,4,6,8,8,8,8,6,4,4,4,6,8に対する標準パターン
B′の個個のパラメータ;7,6,6,8,8,8,8,6,4,4,4のチェ
ビシェフ距離を求め、DP−パスとして任意の点に対する
前の状態としてその任意の点の左側の点、下側の点及び
斜め左下側の点を取ることを許した場合(このパスを実
線矢印にて示す。)、パス上の点はd(1,1)−d(2,
2)−d(3,3)−d(4,4)−d(5,5)−d(6,6)−
d(7,7)−d(8,8)−d(9,9)−d(10,10)−d
(11,11)−d(12,11)−d(13,11)の13点であり、
その距離の総和は15であり、このDPマッチング距離D
(A,B′)は0.65である。
このDP−パスを3方向 とした結果より明らかな様に入力パターンAがそのDPマ
ッチング距離の小さな標準パターンB′と判定され、判
定されるべき結果が得られない。この様にDPマッチング
処理においては部分的に類似しているような語い間に於
いて誤認識し易い。
又、DPマッチング処理においては上述した様に標準パタ
ーンのフレーム数Nが不定であり、しかも入力パターン
に対して全標準パターンをDPマッチング処理する必要が
あり、語いが多くなるとそれに伴って演算量が飛躍的に
増加し、標準パターンメモリ(4)の記憶容量や演算量
の点で問題があった。
この為、部分的に類似しているような語い間に於いても
誤認識することが比較的少なく、且つ標準パターンメモ
リ(4)の記憶容量や処理の為の演算量が比較的少ない
音声認識装置として第9図に示す如きものが考えられて
いる。
第9図において、(1)は音声信号入力部としてのマイ
クロホンを示し、このマイクロホン(1)からの音声信
号を音響分析部(2)の増幅器(8)に供給し、この増
幅器(8)の音声信号をカットオフ周波数5.5KHzのロー
パスフィルタ(9)を介してサンプリング周波数12.5KH
zの12ビットA/D変換器(10)に供給し、このA/D変換器
(10)のデジタル音声信号を15チャンネルのデジタルバ
ンドパスフィルタバンク(11A),(11B),‥‥,(11
O)に供給する。この15チャンネルのデジタルバンドパ
スフィルタバンク(11A),(11B),‥‥,(11O)は
例えばバターワース4枚のデジタルフィルタにて構成
し、250Hzから5.5KHzまでの帯域が対数軸上で等間隔と
なるように割り振られている。そして、各デジタルバン
ドパスフィルタ(11A),(11B),‥‥,(11O)の出
力信号を15チャンネルの整流器(12A),(12B),‥
‥,(12O)に夫々供給し、これら整流器(12A),(12
B),‥‥,(12O)の2乗出力を15チャンネルのデジタ
ルローパスフィルタ(13A),(13B),‥‥,(13O
に夫々供給する。これらデジタルローパスフィルタ(13
A),(13B),‥‥,(13O)はカットオフ周波数52.8H
zのFIR(有限インパルス応答形)ローパフィルタにて構
成する。
そして、各デジタルローパスフィルタ(13A),(1
3B),‥‥,(13O)の出力信号をサンプリング周期5.1
2msのサンプラー(14)に供給する。このサンプラー(1
4)によりデジタルローパスフィルタ(13A),(1
3B),‥‥,(13O)の出力信号をフレーム周期5.12ms
毎にサンプリングし、このサンプラー(14)のサンプリ
ング信号を音源情報正規化器(15)に供給する。この音
源情報正規化器(15)は認識しようとする音声の話者に
よる声帯音源特性の違いを除去するものである。
即ち、フレーム周期毎にサンプラー(14)から供給され
るサンプリング信号Ai(n)(i=1,‥‥,15;n:フレー
ム番号)に対して A′i(n)=log(Ai(n)+B) ・・・(1) なる対数変換がなされる。この(1)式において、Bは
バイアスでノイズレベルが隠れる程度の値を設定する。
そして、声帯音源特性をyi=a・i+bなる式で近似す
る。このa及びbの計数は次式により決定される。
そして、音源の正規化されたパラメータをPi(n)とす
ると、a(n)<0のときパラメータPi(n)は Pi(n)=A′i(n)−{a(n)・i+b(n)}
・・・(4) と表わされる。
又、a(n)≧0のときレベルの正規化のみ行ない、パ
ラメータPi(n)は と表わされる。
この様な処理により声帯音源特性の正規化されたパラメ
ータPi(n)を音声区間内パラメータメモリ(16)に供
給する。この音声区間内パラメータメモリ(16)は後述
する音声区間判定部(17)からの音声区間判定信号を受
けて声帯音源特性の正規化されたパラメータPi(n)を
音声区間毎に格納する。
一方、A/D変換器(10)のデジタル音声信号を音声区間
判定部(17)のゼロクロスカウンタ(18)及びパワー算
出器(19)に夫々供給する。このゼロクロスカウンタ
(18)は5.12ms毎にその区間の64点のデジタル音声信号
のゼロクロス数をカウントし、そのカウント値を音声区
間判定器(20)の第1の入力端に供給する。又、パワー
算出器(19)は5.12ms毎にその区間のデジタル音声信号
のパワー、即ち2乗和を求め、その区間内パワーを示す
パワー信号を音声区間判定器(20)の第2の入力端に供
給する。更に、音源情報正規化器(15)の音源正規化情
報a(n)及びb(n)を音声区間判定器(20)の第3
の入力端に供給する。そして、音声区間判定器(20)に
おいてはゼロクロス数、区間内パワー及び音源正規化情
報a(n),b(n)を複合的に処理し、無音、無声音及
び有声音の判定処理を行ない、音声区間を決定する。こ
の音声区間判定器(20)の音声区間を示す音声区間判定
信号を音声区間判定部(17)の出力として音声区間内パ
ラメータメモリ(16)に供給する。
この音声区間内パラメータメモリ(16)に格納された音
声区間毎に声帯音源特性の正規化された音響パラメータ
Pi(n)をその時系列方向にNAT(Normalization Along
Trajectory)処理部(21)に供給する。このNAT処理部
(21)はNAT処理として音響パラメータ時系列Pi(n)
からそのパラメータ空間における軌跡を直線近似にして
推定し、この軌道に沿って直線補間にて新たな音響パラ
メータ時系列Qi(m)を形成する。
ここで、このNAT処理部(21)について更に説明する。
音響パラメータ時系列Pi(n)(i=1,‥‥,I;n=1,‥
‥,N)はそのパラメータ空間に点列を描く。第10図に2
次元パラメータ空間に分布する点列の例を示す。この第
10図に示す如く音声の非定常部の点列は粗に分布し、準
定常部は密に分布する。この事は完全に定常であればパ
ラメータは変化せず、その場合には点列はパラメータ空
間に停留することからも明らかである。
第11図は第10図に示す如き点列上に滑らかな曲線よりな
る軌跡を推定し描いた例を示す。この第11図に示す如く
点列に対して軌跡を推定できれば、音声の発生速度変動
に対して軌跡は殆ど不変であると考えることができる。
何故ならば、音声の発声速度変動により時間長の違いは
殆どが準定常部の時間的伸縮(第10図に示す如き点列に
おいては準定常部の点列密度の違いに相当する。)に起
因し、非定常部の時間長の影響は少ないと考えられるか
らである。
NAT処理部(21)においてはこの様な音声の発声速度変
動に対する軌跡の不変性に着目して時間軸正規化を行な
う。
即ち、第1に音響パラメータ時系列Pi(n)に対して始
点Pi(1)から終点Pi(N)迄を連続曲線で描いた軌跡
を推定し、この軌跡を示す曲線をi(s)(0≦s≦
S)とする。この場合、必ずしもi(o)=Pi
(1),i(S)=Pi(N)である必要は無く、基本
的にはi(s)が点列全体を近似的に通過するような
ものであれば良い。
第2に推定されたi(s)から軌跡の長さSLを求め、
第12図に○印にて示す如く軌跡に沿って一定長で新たな
点列をリサンプリングする。例えばM点にサンプリング
する場合、一定長さに、即ちリサンプリング間隔T=SL
/(M−1)を基準として軌跡上をリサンプリングす
る。このリサンプリングされた点列をQi(m)(i=1,
‥‥,I;m=1,‥‥,M)とすれば、Qi(1)=i
(o),Qi(M)=i(S)である。
この様にして得られた新たなパラメータ時系列Qi(m)
は軌跡の基本情報を有しており、しかも音声の発声速度
変動に対して殆ど不変なパラメータとなる。即ち、新た
なパラメータ時系列Qi(m)は時間軸正規化がなされた
パラメータ時系列となる。
この様な処理の為に、音声区間内パラメータメモリ(1
6)の音響パラメータ時系列Pi(n)を軌跡長算出器(2
2)に供給する。この軌跡長算出器(22)は音響パラメ
ータ時系列Pi(n)がそのパラメータ空間において描く
直線近似による軌跡の長さ、即ち軌跡長を算出するもの
である。この場合、I次元ベクトルai及びbi間の距離と
して例えばユークリッド距離D(ai,bi)をとれば である。尚、この距離としてはチェビシェフ距離、平方
距離等をとることを可とする。そこで、I次元の音響パ
ラメータ時系列Pi(n)(i=1,‥‥,I;n=1,‥‥,N)
より、直線近似により軌跡を推定した場合の時系列方向
に隣接するパラメータ間距離S(n)は S(n)=D(Pi(n+1),Pi(n))(n=1,‥‥,
N−1) ・・・(7) と表わされる。そして、時系列方向における第1番目の
パラメータPi(1)から第n番目のパラメータPi(n)
迄の距離SL(n)は と表わされる。尚、SL(1)=0である。更に、軌跡長
SLは と表わされる。軌跡長算出器(22)はこの(7)式、
(8)式及び(9)式にて示す信号処理を行なう如くな
す。
この軌跡長算出器(22)の軌跡長SLを示す軌跡長信号を
補間間隔算出器(23)に供給する。この補間間隔算出器
(23)は軌跡に沿って直線補間により新たな点列をリサ
ンプリングする一定長のリサンプリング間隔Tを算出す
るものである。この場合、M点にリサンプリングすると
すれば、リサンプリング間隔Tは T=SL/(M−1) ・・・(10) と表わされる。補間間隔算出器(23)はこの(10)式に
て示す信号処理を行なう如くなす。
この補間間隔算出器(23)のリサンプリング間隔Tを示
すリサンプリング間隔信号を補間点抽出器(24)の一端
に供給すると共に音声区間内パラメータメモリ(16)の
音響パラメータ時系列Pi(n)を補間点抽出器(24)の
他端に供給する。この補間点抽出器(24)は音響パラメ
ータ時系列Pi(n)のそのパラメータ空間における軌跡
例えばパラメータ間を直線近似した軌跡に沿ってリサン
プリング間隔Tで新たな点列をリサンプリングし、この
新たな点列より新たな音響パラメータ時系列Qi(m)を
形成するものである。
ここで、この補間点抽出器(24)における信号処理を第
13図に示す流れ図に沿って説明する。先ず、ブロック
(24a)にてリサンプリング点の時系列方向における番
号を示す変数Jに値1が設定されると共に音響パラメー
タ時系列Pi(n)の時系列方向における番号を示す変数
ICに値1が設定される。そして、ブロック(24b)にて
変数Jがインクリメントされ、ブロック(24c)にてそ
のときの変数Jが(M−1)以下であるかどうかによ
り、そのときのリサンプリング点の時系列方向における
番号がリサンプリングする必要のある最後の番号になっ
ていないかどうかを判断し、なっていればこの補間点抽
出器(24)の信号処理を終了し、なっていなければブロ
ック(24d)にて第1番目のリサンプリング点から第J
番目のリサンプリング点までのリサンプル距離DLが算出
され、ブロック(24e)にて変数ICがインクリメントさ
れ、ブロック(24f)にてリサンプル距離DLが音響パラ
メータ時系列Pi(n)の第1番目のパラメータPi(1)
から第IC番目のパラメータPi(IC)までの距離SL(IC)
よりも小さいかどうかにより、そのときのリサンプリン
グ点が軌跡上においてそのときのパラメータPi(IC)よ
りも軌跡の始端側に位置するかどうかを判断し、位置し
ていなければブロック(24e)にて変数ICをインクリメ
ントした後再びブロック(24f)にてリサンプリング点
とパラメータPi(IC)との軌跡上における位置の比較を
し、リサンプリング点が軌跡上においてパラメータPi
(IC)よりも始端側に位置すると判断されたとき、ブロ
ック(24g)にてリサンプリングにより軌跡を沿う新た
な音響パラメータQi(J)が形成される。即ち、先ず第
J番目のリサンプリング点によるリサンプル距離DLから
この第J番目のリサンプリング点よりも始端側に位置す
る第(IC−1)番目のパラメータPi(IC−1)による距
離SL(IC−1)を減算して第(IC−1)番目のパラメー
タPi(IC−1)から第J番目のリサンプリング点迄の距
離SSを求める。次に、軌跡上においてこの第J番目のリ
サンプリング点の両側に位置するパラメータPi(IC−
1)及びパラメータPi(IC)間の距離S(IC−1)(こ
の距離S(IC−1)は(7)式にて示される信号処理に
て得られる。)にてこの距離SSを除算SS/S(IC−1)
し、この除算結果SS/S(IC−1)に軌跡上において第J
番目のリサンプリング点の両側に位置するパラメータPi
(IC)とPi(IC−1)との差(Pi(IC)−Pi(IC−
1))を掛算(Pi(IC)−Pi(IC−1)*SS/S(IC−
1)して、軌跡上において第J番目のリサンプリング点
のこのリサンプリング点よりも始端側に隣接して位置す
る第(IC−1)番目のパラメータPi(IC−1)からの補
間量を算出し、この補間量と第J番目のリサンプリング
点よりも始端側に隣接して位置する第(IC−1)番目の
パラメータPi(IC−1)とを加算して、軌跡に沿う新た
な音響パラメータQi(J)が形成される。第14図に2次
元の音響パラメータ時系列P(1),P(2),‥‥,P
(8)に対してパラメータ間を直線近似して軌跡を推定
し、この軌跡に沿って直線補間により6点の新たな音響
パラメータ時系列Q(1),Q(2),‥‥,Q(6)を形
成した例を示す。又、このブロック(24g)においては
周波数系列方向にI次元分(i=1,‥‥,I)の信号処理
が行なわれる。
この様にしてブロック(24b)乃至(24g)にて始点及び
終点(これらはQi(1)=i(o),Qi(M)=i
(S)である。)を除く(M−2)点のリサンプリング
により新たな音響パラメータ時系列Qi(m)が形成され
る。
このNAT処理部(21)の新たな音響パラメータ時系列Qi
(m)をモード切換スイッチ(3)により、登録モード
においては認識対象語毎に標準パターンメモリ(4)に
格納し、認識モードにおいてはチェビシェフ距離算出部
(25)の一端に供給する。又、この認識モードにおいて
は標準パターンメモリ(4)に格納されている標準パタ
ーンをチェビシェフ距離算出部(25)の他端に供給す
る。このチェビシェフ距離算出部(25)においてはその
時入力されている音声の時間軸の正規化された新たな音
響パラメータ時系列Qi(m)よりなる入力パターンと、
標準パターンメモリ(4)の標準パターンとのチェビシ
ェフ距離算出処理がなされる。
そして、このチェビシェフ距離を示す距離信号を最小距
離判定部(6)に供給し、この最小距離判定部(6)に
て入力パターンに対するチェビシェフ距離が最小となる
標準パターンが判定され、この判定結果より入力音声を
示す認識結果を出力端子(7)に供給する。
この様にしてなる音声認識装置の動作について説明す
る。
マイクロホン(1)の音声信号が音響分析部(2)にて
音声区間毎に声帯音源特性の正規化された音響パラメー
タ時系列Pi(n)に変換され、この音響パラメータ時系
列Pi(n)がNAT処理部(21)に供給され、このNAT処理
部(21)にて音響パラメータ時系列Pi(n)からそのパ
ラメータ空間における直線近似による軌跡が推定され、
この軌跡に沿って直線補間され時間軸正規化のなされた
新たな音響パラメータ時系列Qi(m)が形成され、登録
モードにおいてはこの新たな音響パラメータ時系列Qi
(m)がモード切換スイッチ(3)を介して標準パター
ンメモリ(4)に格納される。
又、認識モードにおいては、NAT処理部(21)の新たな
音響パラメータ時系列Qi(m)がモード切換スイッチ
(3)を介してチェビシェフ距離算出部(25)に供給さ
れると共に標準パターンメモリ(4)の標準パターンが
チェビシェフ距離算出部(25)に供給される。第15図乃
至第17図に第4図乃至第6図に示す1次元の入力パター
ンAのパラメータ時系列;2,4,6,8,8,8,8,6,4,4,4,6,8、
標準パターンA′のパラメータ時系列;3,5,7,9,9,9,9,
7,5,5,7,9、標準パターンB′のパラメータ時系列;7,6,
6,8,8,8,8,6,4,4,4をNAT処理部(21)にて直線近似にて
軌跡を推定し、リサンプリング点を8点とする処理をし
た1次元の入力パターンAのパラメータ時系列;2,4,6,
8,6,4,6,8、標準パターンA′のパラメータ時系列;3,5,
7,9,7,5,7,9、標準パターンB′のパラメータ時系列;7,
6,7,8,7,6,5,4を夫々示す。この場合、音響パラメータ
時系列Pi(n)からそのパラメータ空間における軌跡を
推定し、この軌跡に沿って新たな音響パラメータ時系列
Qi(m)が形成されるので、入力音声を変換した音響パ
ラメータ時系列Pi(n)自身により時間軸正規化がなさ
れる。そして、チェビシェフ距離算出部(25)において
入力パターンAと標準パターンA′との間のチェビシェ
フ距離8が算出されると共に入力パターンAと標準パタ
ーンB′との間のチェビシェフ距離16が算出され、これ
ら距離8及び距離16を夫々示す距離信号が最小距離判定
部(6)に供給され、この最小距離判定部(6)にて距
離8が距離16よりも小さいことから標準パターンAが入
力パターンA′であると判定され、この判定結果より入
力音声が標準パターンAであることを示す認識結果が出
力端子(7)に得られる。従って、部分的に類似してい
るような語い間に於いても誤認識することが比較的少な
い音声認識を行なうことができる。
ここで、NAT処理を行なう音声認識装置とDPマッチング
処理を行なう音声認識装置との演算量における差異につ
いて説明する。
入力パターンに対する標準パターン1個当たりのDPマッ
チング距離計算部(5)における平均演算量をαとし、
チェビシェフ距離算出部(25)における平均演算量をβ
とし、NAT処理部(21)の平均の演算量をγとしたと
き、J個の標準パターンに対するDPマッチング処理によ
る演算量C1は C1=α・J ・・・(11) である。又、J個の標準パターンに対するNAT処理した
場合の演算量C2は C2=β・J+γ ・・・(12) である。一般に、平均演算量αは平均演算量βに対して
α≫βなる関係がある。従って、 なる関係が成り立つ。即ち認識対象語い数が増加するに
従って演算量C1は演算量C2に対してC1≫C2なる関係とな
り、NAT処理を行なう音声認識装置に依れば、演算量を
大幅に低減できる。
又、NAT処理部(21)より得られる新たな音響パラメー
タ時系列Qi(m)はその時系列方向において一定のパラ
メータ数に設定できるので、標準パターンメモリ(4)
の記憶領域を有効に利用でき、その記憶容量を比較的少
なくできる。
この様にNAT処理を行なうようにした音声認識装置にお
いてはNAT処理後のマッチング処理として入力パターン
に対する標準パターンのチェビシェフ距離を算出し、こ
のチェビシェフ距離が最小の値をとる標準パターンが入
力音声であると判定するようにしているのであるが、こ
のNAT処理によれば比較的大きな時間軸変動は取り除く
ことができるけれども、依然として比較的小さな時間軸
等の変動は残っており、入力パターンに対する標準パタ
ーンのチェビシェフ距離算出による単純マッチングでは
この比較的小さな時間軸等の変動を取り除くことができ
ないという不都合があった。この為、NAT処理した後にD
Pマッチング処理することが考えられる。然し乍ら、こ
のDPマッチング処理においては、整合窓の処理と、この
整合窓内の各点に対する処理と、パスに対する重みの処
理とが必要であり、時間軸変動を取り除くことはできる
けれども演算量が比較的多くなるという不都合があっ
た。
発明の目的 本発明は斯かる点に鑑み比較的少ない演算量で音声の発
声速度変動、音声区間のずれ等による比較的小さな時間
軸等の変動を取り除くことができる認識率の比較的高い
ものを得ることを目的とする。
発明の概要 本発明音声認識装置は例えば第18図及び第19図に示す如
く、音声信号を入力するための音声信号入力部(1)
と、この音声信号入力部(1)からの音声信号を分析し
て音響パラメータ系列を得る音響分析部(2)(21)
と、この音響パラメータ系列を標準パターンとして記憶
する標準パターンメモリ(4)と、この標準パターンの
この音響パラメータ系列と入力パターンとしての音響パ
ラメータ系列とのマッチング処理を行うマッチング処理
部(26)とを備え、この音声信号入力部(1)に入力さ
れた音声信号を認識する音声認識装置において、このマ
ッチング処理部(26)は、マッチングの範囲を限定する
ための特定範囲の整合窓を設定し、この入力パターンの
この音響パラメータ系列の各要素を中心にして、時間軸
上で前及び後の各要素と、この標準パターンのこの音響
パラメータ系列の各要素間の最小距離を整合窓内で求
め、各整合窓内のこの最小距離の和をパターン間距離と
して算出し、この入力パターンに対するこのパターン間
距離が最小となるこの標準パターンを検出するものであ
り、斯かる本発明音声認識装置に依れば、比較的少ない
演算量で音声の発声速度変動、音声区間のずれ等による
比較的小さな時間軸等の変動を取り除くことができる認
識率の比較的高いものを得ることができる利益がある。
実施例 以下、第18図及び第19図を参照しながら本発明音声認識
装置の一実施例について説明しよう。この第18図及び第
19図において第1図乃至第17図と対応する部分に同一符
号を付してその詳細な説明は省略する。
本例においては第18図に示す如く登録モードにおいてNA
T処理部(21)の新たな音響パラメータ時系列Qi(m)
(i=1,‥‥,I;m=1,‥‥,M)をモード切換スイッチ
(3)を介して標準パターンメモリ(4)に格納する。
又、識別モードにおいてはNAT処理部(21)の新たな音
響パラメータ時系列Qi(m)(i=1,‥‥,I;m=1,‥
‥,M)を入力パターンとしてモード切換スイッチ(3)
を介してスイングサーチ(26)の一端に供給すると共に
標準パターンメモリ(4)の標準パターンをスイングサ
ーチ部(26)の他端に供給する。
ここで、このスイングサーチ部(26)のスイングサーチ
処理について第19図を参照しながら説明する。このスイ
ングサーチ部(26)においては第19図に示す如く入力パ
ターンの音響パラメータ時系列 はi、即ち周波数系列を要素とするベクトルであり、NA
T処理部(21)の新たな音響パラメータ時系列Qi
(1),‥‥,Qi(M)である。)を横軸に並べ、標準
パターンの音響パラメータ時系列 はi、即ち周波数系列を要素とするベクトルであり、入
力パターンとしての新たな音響パラメータ時系列Qi
(1),‥‥,Qi(M)と同様のパラメータ数を有す
る。)を縦軸に並べ、この距離平面における整合窓内の
居Djk、即ち を算出処理し(但し、本例においてはλ=1のチェビシ
ェフ距離をとるものとする。)、この整合窓内の入力パ
ターン に対する標準パターン の距離Djj-1,Djj,Djj+1の内の最小値距離DMj、即ち を算出処理する如くなし、これら最小値距離DMj(j=
1,‥‥,M)の総和 を入力パターンに対する標準パターンのスイング距離と
して算出処理する如くなす。この第19図においては整合
窓としてr=1の場合を示す。
このスイングサーチ部(26)のスイングサーチ処理によ
るスイング処理を示す距離信号を最小距離判定部(6)
に供給する。その他音響分析部(2)、NAT処理部(2
1)、標準パターンメモリ(4)等は上述第9図に示す
音声認識装置と同様に構成する。
斯かる本例の音声認識装置の動作について説明する。
マイクロホン(1)の音声信号が音響分析部(2)にて
音声区間毎に声帯音源特性の正規化された音響パラメー
タ時系列Pi(n)に変換され、この音響パラメータ時系
列Pi(n)がNAT処理部(21)に供給され、このNAT処理
部(21)にて音響パラメータ時系列Pi(n)からそのパ
ラメータ空間における直線近似による軌跡が推定され、
この軌跡に沿って比較的大きな時間軸変動が取り除かれ
た、即ち時間軸正規化のなされた新たな音響パラメータ
時系列Qi(m)(i=1,‥‥,I;m=1,‥‥,M)が形成さ
れ、この新たな音響パラメータ時系列Qi(M)が登録モ
ードにおいてはモード切換スイッチ(3)を介して標準
パターンメモリ(4)に格納される。
又、認識モードにおいては、NAT処理部(21)の新たな
音響パラメータ時系列Qi(m)が入力パターンとしてモ
ード切換スイッチ(3)を介してスイングサーチ部(2
6)に供給されると共に標準パターンメモリ(4)の標
準パターンがスイングサーチ部(26)に供給され、この
スイングサーチ部(26)にて(14)式、(15)式及びこ
れらに関連するスイングサーチ処理がなされる。この場
合、スイングサーチ部(26)のスイングサーチ処理にお
いては第19図に矢印にて示す如く整合窓内において最小
値距離としてD11−D23−D32なるパスを取り得る。この
パスに沿って入力パターンを見るとその音響パラメータ
時系列 と順次時系列に沿い、このパスに沿って標準パターンを
見るとその音響パラメータ時系列は と時系列に対して1つ前の音響パラメータ を取る逆向きのパスを取り得る。音声の発声速度変動、
音声区間のずれ等による比較的小さな時間軸変動におい
てはある部分において比較的小さくではあるがその音響
パラメータ時系列に対して逆転に等しい現象が生じてい
る。従って、スイングサーチ処理によれば音声の発声速
度変動、音声区間のずれ等による比較的小さな時間軸等
の変動を取り除くことができる。
このスイングサーチ部(26)のスイングサーチ処理によ
り得られたスイング距離を示す距離信号が最小距離判定
部(6)にて判定処理され、入力音声を示す標準パター
ンが認識結果として出力端子(7)に得られる。この場
合、距離信号が入力パターンと標準パターンとのスイン
グ処理により音声の発声速度変動、音声区間のずれ等に
よる比較的小さな時間軸等の変動に対しても対処されて
いるので、その分だけ高い認識率が得られる。
以上述べた如く本例の音声認識装置に依れば、音声信号
入力部としてのマイクロホン(1)を有し、この音声信
号入力部(1)の音声信号を音響分析部(2)に供給
し、この音響分析部(2)の音響パラメータ時系列Pi
(n)を時間軸伸縮補正部としてのNAT処理部(21)に
供給し、このNAT処理部(21)の時間軸伸縮の補正され
た新たな音響パラメータ時系列Qi(m)(m=1,‥‥,
M)を入力パターン としてスイングサーチ部(26)の一端に供給すると共に
標準パターンメモリ(4)の標準パターン をスイングサーチ部(26)の他端に供給し、スイングサ
ーチ部(26)にて入力パターン と標準パターン とをスイングサーチ処理して音声信号を認識するように
した為、音声の発声速度変動、音声区間のずれ等による
比較的小さな時間軸等の変動を取り除くことができ、認
識率の比較的高いものを得ることができる利益がある。
又、音声の発声速度変動、音声区間のずれ等による比較
的小さな時間軸変動を取り除くにはスイングサーチ処理
における整合窓を比較的小さく設定できるのでDPマッチ
ング処理を行なう場合に比べて処理の為の演算量を大幅
に少なくできる利益がある。
尚、上述実施例においては時間軸伸縮補正部としてNAT
処理部(21)を設けた場合について述べたけれども、持
続時間が所定値となるように入力パターンを時間的に拡
大したり縮小する所謂線形伸縮マッチング部を設けるよ
うにしても上述実施例と同様の作用効果を得ることがで
きることは容易に理解できよう。又、上述実施例におい
てはスイングサーチ処理の距離平面における整合窓内の
距離Djkとして(14)式に示すλが値1のチェビシェフ
距離をとった場合について述べたけれども、その他λ=
2のユークリッド距離等をとっても上述実施例と同様の
作用効果を得ることができることは容易に理解できよ
う。更に、本発明は上述実施例に限らず本発明の要旨を
逸脱することなくその他種々の構成を取り得ることは勿
論である。
発明の効果 本発明音声認識装置に依れば、音声信号入力部を有し、
この音声信号入力部の音声信号を音響分析部に供給し、
この音響分析部の音響パラメータ時系列を時間軸伸縮補
正部に供給し、この時間軸伸縮補正部の時間軸伸縮の補
正された音響パラメータ時系列を入力パターンとしてス
イングサーチ部の一端に供給すると共に標準パターンメ
モリの標準パターンをスイングサーチ部の他端に供給
し、スイングサーチ部にて入力パターンと標準パターン
とをスイングサーチ処理して音声信号を認識するように
した為、音声の発声速度変動、音声区間のずれ等による
比較的小さな時間軸等の変動を取り除くことができ、認
識率の比較的高いものを得ることができる利益がある。
【図面の簡単な説明】
第1図はDPマッチング処理により音声認識を行なうよう
にした音声認識装置の例を示す構成図、第2図はDPマッ
チング処理の説明に供する概念図、第3図は音響パラメ
ータ空間における軌跡の説明に供する線図、第4図、第
5図及び第6図は夫々1次元の入力パターンA、標準パ
ターンA′及び標準パターンB′の例を示す線図、第7
図は入力パターンAのパラメータ時系列と標準パターン
A′のパラメータ時系列とのDPマッチング処理による時
間軸正規化の説明に供する線図、第8図は入力パターン
Aのパラメータ時系列と標準パターンB′のパラメータ
時系列とのDPマッチング処理による時間軸正規化の説明
に供する線図、第9図はNAT処理をして音声認識を行な
うようにした音声認識装置の例を示す構成図、第10図、
第11図、第12図及び第14図は夫々NAT処理部の説明に供
する線図、第13図は補間点抽出器の説明に供する流れ
図、第15図、第16図及び第17図は夫々NAT処理部にてNAT
処理した入力パターンA、標準パターンA′及び標準パ
ターンB′の1次元の音響パラメータ時系列を示す線
図、第18図は本発明音声認識装置の一実施例を示す構成
図、第19図は第18図の説明に供する線図である。 (1)は音声信号入力部としてのマイクロホン、(2)
は音響分析部、(3)はモード切換スイッチ、(4)は
標準パターンメモリ、(6)は最小距離判定部、(1
1A),(11B),‥‥,(11O)は15チャンネルのデジタ
ルバンドパスフィルタバンク、(16)は音声区間内パラ
メータメモリ、(21)はNAT処理部、(22)は軌跡長算
出器、(23)は補間間隔算出器、(24)は補間点抽出
器、(25)はチェビシェフ距離算出部、(26)はスイン
グサーチ部である。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 渡 雅男 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (56)参考文献 特開 昭56−151998(JP,A) 日本音響学会誌 27巻9号(昭46−9) P.483−490

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】音声信号を入力するための音声信号入力部
    と、 前記音声信号入力部からの音声信号を分析して音響パラ
    メータ系列を得る音響分析部と、 前記音響パラメータ系列を標準パターンとして記憶する
    標準パターンメモリと、 前記標準パターンの前記音響パラメータ系列と入力パタ
    ーンとしての音響パラメータ系列とのマッチング処理を
    行うマッチング処理部と、 を備え前記音声信号入力部に入力された音声信号を認識
    する音声認識装置において、 前記マッチング処理部は、 マッチングの範囲を限定するための特定範囲の整合窓を
    設定し、 前記入力パターンの前記音響パラメータ系列の各要素を
    中心にして、時間軸上で前及び後の各要素と、前記標準
    パターンの前記音響パラメータ系列の各要素間の最小距
    離を整合窓内で求め、 各整合窓内の前記最小距離の和をパターン間距離として
    算出し、 前記入力パターンに対する前記パターン間距離が最小と
    なる前記標準パターンを検出する ことを特徴とする音声認識装置。
JP59138788A 1984-07-04 1984-07-04 音声認識装置 Expired - Lifetime JPH0792674B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59138788A JPH0792674B2 (ja) 1984-07-04 1984-07-04 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59138788A JPH0792674B2 (ja) 1984-07-04 1984-07-04 音声認識装置

Publications (2)

Publication Number Publication Date
JPS6117196A JPS6117196A (ja) 1986-01-25
JPH0792674B2 true JPH0792674B2 (ja) 1995-10-09

Family

ID=15230222

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59138788A Expired - Lifetime JPH0792674B2 (ja) 1984-07-04 1984-07-04 音声認識装置

Country Status (1)

Country Link
JP (1) JPH0792674B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05249990A (ja) * 1992-03-04 1993-09-28 Sony Corp パターンマッチング方法およびパターン認識装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56151998A (en) * 1980-04-28 1981-11-25 Oki Electric Ind Co Ltd Voice recognizing method

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
日本音響学会誌27巻9号(昭46−9)P.483−490

Also Published As

Publication number Publication date
JPS6117196A (ja) 1986-01-25

Similar Documents

Publication Publication Date Title
EP0686965B1 (en) Speech recognition apparatus with speaker adaptation using acoustic category mean value calculus
EP1159737B1 (en) Speaker recognition
JP3886024B2 (ja) 音声認識装置及びそれを用いた情報処理装置
JPH08508107A (ja) 話者認識のための方法および装置
JP3451146B2 (ja) スペクトルサブトラクションを用いた雑音除去システムおよび方法
JP3130524B2 (ja) 音声信号認識方法およびその方法を実施する装置
US5487129A (en) Speech pattern matching in non-white noise
JPH0792674B2 (ja) 音声認識装置
JPH0668678B2 (ja) 音声認識装置
JPH0632022B2 (ja) 音声認識装置
KR930007790B1 (ko) 음성 인식방법
JP2502880B2 (ja) 音声認識方法
JP4576612B2 (ja) 音声認識方法および音声認識装置
JPH0634182B2 (ja) 音声認識装置
JPH0573036B2 (ja)
JPH0772899A (ja) 音声認識装置
JPH0634183B2 (ja) 音声認識装置
JPH0632004B2 (ja) 音声認識装置
JP3251430B2 (ja) 状態遷移モデル作成方法
JPH0572598B2 (ja)
JPH05249987A (ja) 音声検出方法および音声検出装置
JPH0247758B2 (ja)
JPH0449719B2 (ja)
JPH0273398A (ja) 音声標準パタン登録方式
JPS6310440B2 (ja)

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term