JPH0632011B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH0632011B2
JPH0632011B2 JP60047952A JP4795285A JPH0632011B2 JP H0632011 B2 JPH0632011 B2 JP H0632011B2 JP 60047952 A JP60047952 A JP 60047952A JP 4795285 A JP4795285 A JP 4795285A JP H0632011 B2 JPH0632011 B2 JP H0632011B2
Authority
JP
Japan
Prior art keywords
parameter
time series
recognition
acoustic
circuit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP60047952A
Other languages
English (en)
Other versions
JPS61208097A (ja
Inventor
震一 田村
曜一郎 佐古
篤信 平岩
誠 赤羽
雅男 渡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP60047952A priority Critical patent/JPH0632011B2/ja
Publication of JPS61208097A publication Critical patent/JPS61208097A/ja
Publication of JPH0632011B2 publication Critical patent/JPH0632011B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 以下の順序でこの発明を説明する。
A 産業上の利用分野 B 発明の概要 C 従来の技術 D 発明が解決しようとする問題点 E 問題点を解決するための手段(第1図) F 作用 G 実施例 G1 音響分析回路の説明(第2図) G2 時間正規化処理の説明 (第2図,第3図) G3 パターンマッチング処理の説明(第2図) G4 デジタルフィルタ(8)の説明(第4図〜第9
図) H 発明の効果 A 産業上の利用分野 この発明は、前もって作成し記憶してある認識対象語の
標準パターンと、認識したい語の入力パターンとのパタ
ーンマッチングを行うことにより音声認識を行なう装置
に関する。
B 発明の概要 この発明はパターンマッチングにより音声認識をなす装
置において、そのマッチングをとるパターンとして、入
力音声信号の音声区間で音響分析して得た音響パラメー
タ時系列がそのパラメータ空間で描く軌跡を推定しその
軌跡を所定間隔で再サンプリングして得た新たな認識パ
ラメータを用いるとともに、音響パラメータ時系列の信
号をローパスフィルタを通すことにより、入力音声の定
常部にゆらぎがあっても認識パラメータ時系列にはその
影響が殆んどないようにしたものである。
C 従来の技術 音声は時間軸に沿って変化する現象で、スペクトラム・
パターンが刻々と変化するように音声を発声することに
よって固有の単語や言葉が生まれる。この人間が発声す
る単語や言葉を自動認識する技術が音声認識であるが、
人間の聴覚機能に匹敵するような音声認識を実現するこ
とは現在のところ至難のことである。このため、現在実
用化されている音声認識の殆んどは、一定の使用条件の
下で、認識対象単語の標準パターンと入力パターンとの
パターンマッチングを行なうことによりなす方法であ
る。
第10図はこの音声認識装置の概要を説明するための図
で、マイクロホン(1)よりの音声入力が音響分析回路
(2)に供給される。この音響分析回路(2)では入力
音声パターンの特徴を表わす音響パラメータが抽出され
る。この音響パラメータを抽出する音響分析の方法は種
々考えられるが、例えばその一例してバンドパスフィル
タと整流回路を1チャンネルとし、このようなチャンネ
ルを通過帯域を変えて複数個並べ、このバンドパスフィ
ルタ群の出力としてスペクトラム・パターンの時間変化
を抽出する方法が知られている。この場合、音響パラメ
ータはその時系列Pi(n)(i=1,2・・・I;I
は例えばバンドパスフィルタのチャンネル数、n=1,
2・・・N;Nは音声区間判定により判定された区間に
おいて認識の利用されるフレーム数)で表わすことがで
きる。
この音響分析回路(2)よりの音響パラメータ時系列P
i(n)は、例えばスイッチからなるモード切換回路
(3)に供給される。この回路(3)のスイッチが端子
A側に切り換えられるときは登録モード時で、音響パラ
メータ時系列Pi(n)が認識パラメータとして標準パ
ターンメモリ(4)にストアされる。つまり、音声認識
に先だって話者の音声パターンが標準パターンとしてこ
のメモリ(4)に記憶される。なお、この登録時、発声
速度変動や単語長の違いにより一般に各登録標準パター
ンのフレーム数は異なっている。
一方、このスイッチ(3)が端子B側に切り換えられる
ときは認識モード時である。そして、この認識モード時
は、音響分析回路(2)からのそのときの入力音声の音
響パラメータ時系列が入力音声パターンメモリ(5)に
供給されて一時ストアされる。そしてこの入力パターン
と標準パターンメモリ(4)から読み出された複数の認
識対象単語の標準パターンのそれぞれとの違いの大きさ
が距離算出回路(6)にて計算され、そのうち入力パタ
ーンと標準パターンとの差が最小の認識対象単語が最小
値判定回路(7)にて検出され、これにて入力された単
語が認識される。
このように、登録された標準パターンと入力パターンの
パターンマッチング処理により入力音声の認識を行なう
ものであるが、この場合に同じ単語を同じように発声し
てもそのスペクトラムパターンは時間軸方向にずれたり
伸縮したりすることを考慮しなければならない。すなわ
ち、例えば「ハイ」という単語を認識する場合、標準パ
ターンが「ハイ」で登録されているとき、入力音声が
「ハーイ」と時間軸方向に伸びてしまった場合、これは
距離が大きく違い、全く違った単語とされてしまい、正
しい認識ができない。このため、音声認識のパターンマ
ッチングでは、この時間軸方向のずれ、伸縮を補正する
時間正規化の処理を行なう必要があり、また、この時間
正規化は認識精度を向上させるための重要な処理であ
る。
この時間正規化の一方法としてDP(Dynamic
Programming)マッチングと呼ばれる手法が
ある(例えば特開昭50−96104号公報参照)。
このDPマッチングは時間軸のずれを考慮した多数の標
準パターンを用意しておくのではなく、歪関数によって
多数の時間を正規化した標準パターンを生成し、これと
入力パターンとの距離を求め、その最小値のものを検知
することにより、音声認識をするものである。
ところで、このDPマッチングの手法を用いる場合、登
録される標準パターンのフレーム数は不定であり、しか
も全登録標準パターンと入力パターンとのDPマッチン
グ処理をする必要があり、語彙が多くなると演算量が飛
躍的に増加する欠点がある。
また、DPマッチングは、定常部(スペクトラムパター
ンの時間変化のない部分)を重視したマッチング方式で
あるので部分的類似パターン間で誤認識を生じる可能性
があった。
このような欠点を生じない時間正規化の手法を本出願人
は先に提案した(例えば特願昭59−106177
号)。
すなわち、音響パラメータ時系列Pi(n)は、そのパ
ラメータ空間を考えた場合、点列を描く。例えば認識対
象単語が「HAI」であるとき音響分析用バンドパスフ
ィルタの数が2個で、 Pi(n)=(P) であれば、入力音声の音響パラメータ時系列はその2次
元パラメータ空間には第11図に示すような点列を描
く。この図から明らかなように音声の非定常部の点列は
粗に分布し、準定常部が密に分布する。この場合、完全
に音声が定常であればパラメータは変化せず、その場合
には点列はパラメータ空間において一点に停留すること
になるが、人間は同じ音を発生しても、音声のゆらぎの
ため完全な定常にはならず、図のように準定常部とし
て、ゆらぎの影響がでる。
そして、以上のことから、音声の発声速度変動による時
間軸方向のずれは殆んどが準定常部の点列密度の違いに
起因し、非定常部の時間長の影響は少ないと考えられ
る。そこで、この入力パラメータ時系列Pi(n)の点
列から第12図に示すように点列全体を近似的に通過す
るような連続曲線で描いた軌跡を推定すれば、この軌跡
は音声の発声速度変動に対して殆んど不変であることが
わかる。
このことから、出願人は、次のような時間軸正規化方法
を提案した。すなわち、先ず入力パラメータの時系列P
i(n)の始端Pi(l)から終端Pi(N)までを連
続曲線 で描いた軌跡を推定する。この場合、この軌跡の推定は
例えば音響パラメータ時系列を第13図に示すように直
線近似することによって行なう。この推定した曲線 から軌跡の長さSを求める。そして第13図において〇
印で示すようにこの軌跡に沿って所定長Tで再サンプリ
ングする。例えばM個の点に再サンプリングする場合、 T=S/(M−1)・・・(1) の長さを基準として軌跡を再サンプリングする。この再
サンプリングされた点列を描くパラメータ時系列をQi
(m)(i=2,2・・・I,m=1,2・・・M)と
すれば、このパラメータ時系列Qi(m)は軌跡の基本
情報を有しており、しかも音声の発声速度変動に対して
殆んど不変なパラメータである。つまり、時間軸が正規
化された認識パラメータ時系列である。
したがって、このパラメータ時系列Qi(m)を標準パ
ターンとして登録しておくとともに、入力パターンもこ
のパラメータ時系列Qi(m)として得、このパラメー
タ時系列Qi(m)により両パターン間の距離を求め、
その距離が最小であるものを検知して音声認識を行うよ
うにすれば、時間軸方向のずれが正規化して除去された
状態で音声認識が常になされる。
そして、この処理方法によれば、登録時の発声速度変動
や単語長の違いに関係なく認識パラメータ時系列Qi
(m)のフレーム数は常にMであり、その上、認識パラ
メータ時系列Qi(m)は時間正規化されているので、
入力パターンと登録標準パターンとの距離の演算は最も
単純なチェビシェフ距離を求める演算でも良好な効果が
期待できる。
また、以上の方法は音声の非定常部をより重視した時間
正規化の手法であり、DPマッチング処理のような部分
的類似パターン間の誤認識が少なくなる。
さらに、発声速度の変動情報は正規化パラメータ時系列
Qi(m)には含まれず、このためパラメータ空間に配
位するパラメータ遷移構造のグローバルな特徴等の扱い
が容易となり、不特定話者認識に対しても有効な各種方
法の適用が可能となる。
なお、以下、以上のような時間正規化の処理をNAT
(Normalization Along Traj
ectory)処理と呼ぶ。
D 発明が解決しようとする問題点 上述したように、入力音声はモノトーンであっても音響
分析回路よりの音響パラメータPi(n)は定常状態に
はならず、第11図のようにゆらぐ。このため、NAT
処理において軌跡を推稚するときこのゆらぎの影響を受
ける。例えば第13図のように直線補間したときは、こ
のゆらぎの大きさがそのまま軌跡長に関与する。このた
め、正規化された認識パラメータ時系列Qi(n)にこ
のゆらぎによる誤差が生じ、音声認識率の低下につなが
る欠点がある。
E 問題点を解決するための手段 第1図はこの発明による音声認識装置の基本的構成の一
例を示す図で第10図と対応する部分には同一符号を付
す。
この例の場合、音響分析回路(2)はバンドパスフィル
タ群を用いたものが用いられる。すなわち、マイクロホ
ン(1)からの音声信号はA/Dコンバータ(21)に
供給されてデジタル信号に変換され、このデジタル信号
がデジタルバンドパスフィルタ群(22)に供給されて
複数の周波数成分からなる信号は変換される。このバン
ドパスフィルタ群(22)出力は特徴抽出回路(23)
に供給される。A/Dコンバータ(21)よりのデジタ
ル音声信号は、また、音声区間判定回路(25)に供給
されて、マイクロホン(1)に音声入力がなされた区間
が判定され、その判定出力が特徴抽出回路(23)に供
給される。
特徴抽出回路(23)では、この音声判定区間において
バンドパスフィルタ群(22)の出力から音響パラメー
タ時系列Pi(n)が作成され、これが音響分析回路
(2)の出力とされる。
この音声判定区間内における音響パラメータ時系列Pi
(n)はローパスフィルタ特性を有するデジタルフィル
タ(8)に供給される。このデジタルフィルタ(8)の
フィルタ特性は、原理的には音響分析回路(2)のバン
ドパスフィルタ群の出力帯域の0.3倍まで通すもので
あればよい。このデジタルフィルタ(8)の出力として
は定常部のゆらぎが抑圧された音響パラメータ時系列P
i(n)′が得られ、これがNAT処理回路(9)に供
給される。
このNAT処理回路(9)においては音響パラメータ時
系列Pi(n)′から前述したようにその音響パラメー
タ空間における軌跡が推定され、この軌跡に基づいて新
たな認識パラメータ時系列Qi(m)が形成される。
そして、このパラメータ時系列Qi(m)がモード切換
回路(3)を通じて、登録モード時は標準パターンメモ
リ(4)にストアされて登録され、認識モード時は距離
算出回路(6)に供給されて、標準パターンメモリ
(4)からの複数の登録標準パターンとの距離が計算さ
れ、その計算結果の最小の標準パターンが最小値判定回
路(7)にて判定され、その判定出力が認識出力とされ
る。
なお、実際的にはNAT処理はマイクロコンピュータを
用いて行なうもので、この場合、音声判定区間内の音響
パラメータ時系列Pi(n)′から軌跡を推定する際、
パラメータ時系列Pi(n)′の始点Pi(1)′を軌
跡の始点とせず、図の例のように必ず無音を始点として
推定するようにしてもよい。終端Pi(N)についても
同様にできる。
F 作用 音響分析回路(2)からの音響パラメータ時系列Pi
(n)はローパスフィルタ特性を有するデジタルフィル
タ(8)を通って定常部のゆらぎが軽減されたものにさ
れる。そしてこれがNAT処理回路(9)に供給されて
軌跡推定に供されるので、軌跡に対するゆらぎの影響は
抑圧され、新たな認識パラメータ時系列Qi(n)とし
て音声の認識率の向上が期待できるものが得られる。
G 実施例 第2図はこの発明による音声認識装置の一実施例で、こ
の例は音響分析に16チャンネルのバンドパスフィルタ
群を用いた場合である。
G1 音響分析回路(2)の説明 すなわち、音響分析回路(2)においては、マイクロホ
ン(1)からの音声信号がアンプ(211)及び帯域制
限用のローパスフィルタ(212)を介してA/Dコン
バータ(213)に供給され、例えば12.5kHzの
サンプリング周波数で12ビットのデジタル音声信号に
変換される。このデジタル音声信号は、15チャンネル
のバンドパスフィルタバンク(22)の各チャンネルの
デジタルバンドパスフィルタ(221),(22
),・・・・,(22116)に供給される。この
デジタルバンドパスフィルタ(221),(22
),・・・・,(22116)は例えばバターワー
ス4次のデジタルフィルタにて構成され、250Hzか
ら5.5KHzまでの帯域が対数軸上で等間隔で分割さ
れた各帯域が各フィルタの通過帯域となるようにされて
いる。そして、各デジタルバンドパスフィルタ(221
),(221),・・・・,(22116)の出力
信号はそれぞれ整流回路(221),(222),
・・・・,(22116)に供給され、これら整流回路
(222),,(222),・・・・,(222
16)の出力はそれぞれデジタルローパスフィルタ(2
23),(223),・・・・,(22316)に
供給される。これらデジタルローパスフィルタ(223
),(223),・・・・…,(22316)は例
えばカットオフ周波数52.8HzのFIRローパスフ
ィルタにて構成される。
音響分析回路(2)の出力である各デジタルローパスフ
ィルタ(223),(223),・・・・,(22
16)の出力信号は特徴抽出回路(23)を構成する
サンプラー(231)に供給される。このサンプラー
(231)ではデジタルローパスフィルタ(22
),(223),・・・・,(22316)の出
力信号をフレーム周期5.12mesc毎にサンプリン
グする。したがって、これよりはサンプル時系列Ai
(n)(i=1,2,・・・・16;nはフレーム番号
でn=1,2,・・・・,N)が得られる。
このサンプラー(231)からの出力、つまりサンプル
時系列Ai(n)は音源情報正規化回路(232)に供
給され、これにて認識しようとする音声の話者による声
帯音源特性の違いが除去される。
即ち、フレーム周期毎にサンプラー(231)から供給
されるサンプラ時系列Ai(n)に対して i(n)=log(Ai(n)+B)・・・(2) なる対数変換がなされる。この(1)式において、Bは
バイアスでノイズレベルが隠れる程度の値を設定する。
そして、声帯音源特性をyi=a・i+bなる式で近似
すると、このa及びbの係数は次式により決定される。
そして、音源の正規化されたパラメータをPi(n)と
すると、a(n)<0のときパラメータPi(n)は Pi(n)=i(n)−{a(n)・i+b(n)}
・・・(5) と表される。
又、a(n)≧0のときレベルの正規化のみ行ない、パ
ラメータPi(n)は と表される。
こうして声帯音源特性の違いが正規化されて除去された
音響パラメータ時系列Pi(n)がこの音源情報正規化
回路(232)より得られる。
この音響パラメータ時系列Pi(n)はデジタルフィル
タ(8)に供給される。このデジタルフィルタ(8)は
後述するようにローパスフィルタ特性を有する補間フィ
ルタで、この補間フィルタ(8)のローパスフィルタ特
性によって後段のNAT処理回路(9)において推定さ
れる軌跡の定常部でのゆらぎを除去するようにするとと
もに、音響パラメータPi(n)を補間し、より正確な
軌跡の推定を行なえるようにするものである。補間は音
響パラメータPi(n)の各々のデータ間に「0」のデ
ータを(P−1)個挿入した後、FIRフィルタリング
を行ってなし、これによりデータ数がP倍に増えた音響
パラメータPi(n)′がこれより得られる。
こうして、データサンプル数がP倍に増やされ、またロ
ーパスフィルタ特性により定常部のゆらぎの除去された
音響パラメータPi(n)′は音声区間内パラメータメ
モリ(200)に供給される。この音声区間内パラメー
タメモリ(200)では音声区間判定回路(24)から
の音声区間判定信号を受けて、パラメータPi(n)
が、判定された音声区間毎にストアされる。
音声区間判定回路(24)はゼロクロスカウンタ(24
1)とパワー算出回路(242)と音声区間決定回路
(243)とからなり、A/Dコンバータ(213)よ
りデジタル音声信号がゼロクロスカウンタ(241)及
びパワー算出回路(242)に供給される。ゼロクロス
カウンタ(241)では1フレーム周期5.12mse
c毎に、この1フレーム周期内の64サンプルのデジタ
ル音声信号のゼロクロス数をカウントし、そのカウント
値が音声区間決定回路(243)の第1の入力端に供給
される。パワー算出回路(242)では1フレーム周期
毎にこの1フレーム周期内のデジタル音声信号のパワ
ー、すなわち2乗和が求められ、その出力パワー信号が
音声区間決定回路(243)の第2の入力端に供給され
る。音声区間決定回路(243)には、さらに、その第
3の入力端に音源情報正規化回路(232)よりの音源
正規化情報が供給される。そして、この音声区間決定回
路(243)においてはゼロクロス数、区間内パワー及
び音源正規化情報が複合的に処理され、無音、無声音及
び有声音の判定処理が行なわれ、音声区間が決定され
る。
この音声区間決定回路(243)よりの判定された音声
区間を示す音声区間判定信号は音声区間判定回路(2
4)の出力として音声区間内パラメータメモリ(20
0)に供給される。
こうして、判定音声区間内においてメモリ(200)に
ストアされた音響パラメータ時系列Pi(n)′はNA
T処理回路(9)に供給される。
G2 時間正規化処理の説明 NAT処理回路(9)は軌跡長算出回路(91)と補間
間隔算出回路(92)と補間点抽出回路(93)からな
る。
パラメータメモリ(200)からのパラメータ時系列P
i(n)′(i=1,2,・・・・,16;n=1,
2,・・・・,N)は軌跡長算出回路(91)に供給さ
れる。この軌跡長算出回路(91)においては音響パラ
メータ時系列Pi(n)′がそのパラメータ空間におい
て前述の第13図に示すように描く直線近似による軌跡
の長さを算出する。
この場合、I次元ベクトルa及びb間のユークリッ
ド距離D(a,b)は である。そこで、I次元の音響パラメータ時系列Pi
(n)′より、直線近似により軌跡を推定した場合の時
系列方向に隣接するパラメータ間距離S(n)は S(n)=D(Pi(n+1)′,Pi(n)′) (n=1,・・・・,N)・・・(8) と表わされる。そして、時系列方向における第1番目の
パラメータPi(1)′から第n番目のパラメータPi
(n)′迄の距離SL(n)は と表わされる。なお、SL(1)=0である。
そして、全軌跡長SLは と表わされる。軌跡長算出回路(91)はこの(11)
式、(12)式及び(13)にて示す信号処理を行な
う。
この軌跡長算出回路(91)にて求められた軌跡長SL
を示す信号は補間間隔算出回路(92)に供給される。
この補間間隔算出回路(92)では軌跡に沿って再サン
プリングするときの再サンプリング間隔Tを算出する。
この場合、M点に再サンプリングするとすれば、再サン
プリング間隔Tは T=SL/(M−1)・・・(11) として求められる。
この補間間隔算出回路(92)よりの再サンプリング間
隔Tを示す信号は補間点抽出回路(93)に供給され
る。また、パラメータメモリ(200)よりの音響パラ
メータ時系列Pi(n)′も、また、この補間点抽出回
路(93)に供給される。この補間点抽出回路(93)
は音響パラメータ時系列Pi(n)′のそのパラメータ
空間における軌跡、例えばパラメータ間を直線近似した
軌跡に沿って第13図において〇印にて示すように再サ
ンプリング間隔Tで再サンプリングし、そのサンプリン
グにより得た新たな点列より認識パラメータ時系列Qi
(m)を形成する。
ここで、この補間点抽出回路(93)においては第3図
に示すフローチャートに従った処理がなされ、認識パラ
メータ時系列Qi(m)が形成される。
先ず、ステップ〔101〕にて再サンプリング点の時系
列方向における番号を示す変数Jに値1が設定されると
共に音響パラメータ時系列Pi(n)′のフレーム番号
を示す変数ICに値1が設定され、イニシャライズされ
る。次にステップ〔102〕にて変数Jがインクリメン
トされ、ステップ〔103〕にてそのときの変数Jが
(M−1)以下であるかどうかが判別されることによ
り、そのときの再サンプリング点の時系列方向における
番号がリサンプリングする必要のある最後の番号になっ
ているかどうかを判断する。最後の番号であればステッ
プ〔104〕に進み、再サンプリングは終了する。
最後の番号でなければステップ〔105〕にて第1番目
の再サンプリング点(これは必ず無音の部分である。)
から第J番目の再サンプリング点までの再サンプリング
距離DLが算出される。次にステップ〔106〕に進み
変数ICがインクリメントされる。次にステップ〔10
7〕にて再サンプル距離DLが音響パラメータ時系列P
i(n)′の第1番目のパラメータPi(l)′から第
IC番目のパラメータPi(lC′)までの距離SL
(lC′)よりも小さいかどうかにより、そのときの再
サンプリング点が軌跡上においてそのときのパラメータ
Pi(lC′)よりも軌跡の始点側に位置するかどうか
が判断され、始点側に位置していなければステップ〔1
06〕に戻り変数ICをインクリメントした後再びステ
ップ〔107〕にて再サンプリング点とパラメータPi
(lC′)との軌跡上における位置の比較をし、再サン
プリング点が軌跡上においてパラメータPi(lC′)
よりも始点側に位置すると判断されたとき、ステップ
〔108〕に進み認識パラメータQi(J)が形成され
る。
即ち、第J番目の再サンプリング点による再サンプリン
グ距離DLからこの第J番目の再サンプリング点よりも
始点側に位置する第(IC−1)番目のパラメータPi
(lC−1)′による距離SL(lC−1)を減算して
第(IC−1)番目のパラメータPi(lC−1)′か
ら第J番目の再サンプリング点迄の距離SSを求める。
次に、軌跡上においてこの第J番目の再サンプリング点
の両側に位置するパラメータPi(lC−1)′及びパ
ラメータPi(lC′)間の距離S(n)(この距離S
(n)は(11)式にて示される信号処理にて得られ
る。)にてこの距離SSを除算し、の除算結果SS/S
(IC−1)に軌跡上において第J番目の再サンプリン
グ点の両側に位置するパラメータPi(lC′)とPi
(lC−1)′との差(Pi(lC′)−Pi
(lC−1)′)を掛算して、軌跡上において第J番目
の再サンプリング点のこの再サンプリング点よりも始点
側に隣接して位置する第(IC−1)番目のパラメータ
Pi(lC−1)′からの補間量を算出し、この補間量
と第J番目の再サンプリング点よりも始点側に隣接して
位置する第(IC−1)番目のパラメータPi
(lC−1)′とを加算して、軌跡に沿う新たな認識パ
ラメータQi(J)が形成される。
このようにして始点及び終点(これらはそれぞれ無音で
あるときは である。)を除く(M−2)点の再サンプリングにより
認識パラメータ時系列Qi(m)が形成される。
G3 パターンマッチング処理の説明 このNAT処理回路(9)よりの認識パラメータ時系列
Qi(m)はモード切換スイッチ(3)により、登録モ
ードにおいては認識対象語毎に標準パターンメモリ
(4)にストアされる。また、認識モードにおいては距
離算出回路(6)に供給され、標準パターンメモリ
(4)よりの標準パターンのパラメータ時系列との距離
の算出がなされる。この場合の距離は例えば簡易的なチ
ェビシェフ距離として算出される。この距離算出回路
(6)よりの各標準パターンと入力パターンとの距離の
算出出力は最小値判定回路(7)に供給され、距離算出
値が最小となる標準パターンが判定され、この判定結果
により入力音声の認識結果が出力端(70)に得られ
る。
G4 補間フィルタ(8)の説明 第4図は補間フィルタ(8)の構成の一例を示すもの
で、各チャンネルのパラメータP(n),P
(n),・・・・,P16(n)のそれぞれに対して
データ間に0データを詰める零データ挿入回路(8
)(81)・・・・(8116)とFIRフィル
タ(82)(82)・・・・(8216)が設けら
れる。
零データ挿入回路(81)〜(8116)において
は、第5図Aに示すように隣接パラメータPi(k)と
Pi(k+1)との間に〇印で示す0データがP−1個
例えば3個挿入される。
したがって、零データ挿入回路(81i)からは、 Pi(n)′=〔Pi(0),φ,φ,φ,Pi
(1),φ,φ,φ,Pi(2)・・・・〕 なるパラメータ時系列Pi(n)′が得られる。すなわ
ち、このパラメータ時系列Pi(n)′はパラメータ時
系列Pi(n)に対しサンプルデータ数がP=4倍に増
えたものとなる。
この新たなパラメータ時系列Pi(n)′はFIRフィ
ルタ(82)〜(8216)のそれぞれに供給され
る。
このFIRフィルタ(82)〜(8216)のそれぞ
れは例えば第6図のように構成される。
すなわち、同図において、(820)は入力端子、ま
た、(821)(821)・・・・(821)は
それぞれ単位時間分の遅延素子で、この例では単位時間
はフレーム周期の1/4(=1/p)とされる。また、
(822)(822)(822)・・・・(82
)は乗算器で、それぞれ入力端(820)に得られ
るデータ、遅延素子(821)(821)・・・
・,(821)の出力に得られるデータをフィルタ係
数αj(j=0,1,2・・・・,J)倍する。そし
て、これら乗算器(822)〜(822)の各出力
は加算回路(823)に供給され、その加算出力が出力
端子(824)に得られる。したがって、この出力端子
(824)には、パラメータデータPi(k)とPi
(k+1)との間に、それぞれFIRフィルタリング処
理により第5図Bで●印で示すように入力パラメータP
i(n)から3個のサンプルデータがそれぞれ補間され
た状態の出力が得られる。すなわち、4倍にパラメータ
数が増やされたパラメータ時系列P(n)′,P
(n)・・・・P16(n)′がそれぞれ得られ、こ
れがパラメータメモリ(200)に記憶されこれに基づ
いてNAT処理がなされる。
そして、この場合のFIRフィルタ(82)〜(82
16)のそれぞれの乗算器(822)〜(822
の乗算係数αを選定することにより、FIRフィルタ
(82)〜(8216)のそれぞれはローパスフィル
タ特性を有するようにされている。しかも、α
α,α=αJ−1,α=αJ−2・・・・と選定
されて、位相特性がリニアであり、群遅延特性が全周波
数について一定となるようにされている。
このときのローパスフィルタ特性は第7図に示す通り
で、カットオフ周波数は、π/2P×β(0<β≦1)
とされ、β=1のときはローパスフィルタ特性なしであ
り、βが0に近づくにつれてローパスフィルタ特性が急
になる。つまり、ローパスフィルタによる通過帯域が
〔0,Ω/2×β〕となる。Ωは元のパラメータ時系列
Pi(n)のサンプリング周波数である。
以上のようにして、補間フィルタ(8)により、パラメ
ータ時系列Pi(n)は処理されて、データ数は増加さ
せられるとともにローパスフィルタを通されることによ
って定常部でのゆらぎが消失せしめられる。
したがって、これにより音声認識率の向上が期待でき
る。
例えば、I=16、P=4、ローパスフィルタの次数を
129次、β=0.4としたとき、(図中実線で示す)
と、β=1(ローパスフィルタスルー)としたとき(図
中破線で示す)との認識率の違いを第8図に示す。ま
た、第1チャンネルの音響パラメータ時系列Pi(n)
をこのローパスフィルタを通さなかったときと、通した
ときの出力変化を第9図A及びBに示す。
第8図から明らかなように、NAT処理のみをした場合
に比べて登録人数9名、発声回数(登録回数)3回で、
最高認識率として96.24%に対し97.45%が得
られ、1.21%の認識率の向上が得られた。
なお、これは、ローパスフィルタ特性により軌跡のゆら
ぎの影響を除去したことのみでなく、補間によりNAT
処理回路(9)の入力データ数が多くなり、NAT処理
での補間による誤差が小さくなったことにも起因するも
のである。
H 発明の効果 以上のように、この発明によれば、NAT処理をする前
に、ローパスフィルタを設け、音響分析回路よりの音響
パラメータ出力の高域成分をカットしたことにより、音
響パラメータ出力の定常部でのゆらぎが除去される。こ
れによりNAT処理回路での軌跡の推定に誤差が少なく
なり、これにより作成する認識パラメータ時系列の誤差
も小さくなり、音声認識率が向上するものである。
【図面の簡単な説明】
第1図はこの発明装置の一実施例のブロック図、第2図
はこの発明装置の具体的一実施例のブロック図、第3図
はその要部の動作の説明のためのフローチャートを示す
図、第4図及び第6図はその要部回路の一例の構成を示
すブロック図、第5図及び第7図〜第9図はその説明の
ための図、第10図は音声認識装置の基本構成を示すブ
ロック図、第11図〜第13図はNAT処理を説明する
ための図である。 (2)は音響分析回路、(4)は標準パターンメモリ、
(6)は標準パターンと入力パターンとの距離算出回
路、(7)は最小値判定回路、(8)はデジタルフィル
タ、(9)はNAT処理回路である。
フロントページの続き (72)発明者 赤羽 誠 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 渡 雅男 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (56)参考文献 日本音響学会講演論文集 昭和59年10月 1−9−9 P.17−18

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】入力音声信号の音響パラメータ時系列を得
    る音声分析手段と、この音響分析手段よりの音響パラメ
    ータ時系列がパラメータ空間で描く軌跡を推定しこの軌
    跡に沿って再サンプリングを行なうことにより時間正規
    化された認識パラメータ時系列を得る時間正規化手段
    と、認識対象語の標準パターンの認識パラメータ時系列
    が記憶されている標準パターンメモリと、上記時間正規
    化手段よりの入力パターンの認識パラメータ時系列と上
    記標準パターンメモリからの標準パターンの認識パラメ
    ータ時系列との差を算出する距離算出手段と、この距離
    算出手段で算出された値の最小のものを検知して認識出
    力を得る最小値判定手段とを有し、 上記音響分析手段よりの音響パラメータ時系列をローパ
    スフィルタを通じて上記時間正規化手段に供給して上記
    軌跡の準定常部におけるゆらぎの影響を除去するように
    した音声認識装置。
JP60047952A 1985-03-11 1985-03-11 音声認識装置 Expired - Lifetime JPH0632011B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60047952A JPH0632011B2 (ja) 1985-03-11 1985-03-11 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60047952A JPH0632011B2 (ja) 1985-03-11 1985-03-11 音声認識装置

Publications (2)

Publication Number Publication Date
JPS61208097A JPS61208097A (ja) 1986-09-16
JPH0632011B2 true JPH0632011B2 (ja) 1994-04-27

Family

ID=12789689

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60047952A Expired - Lifetime JPH0632011B2 (ja) 1985-03-11 1985-03-11 音声認識装置

Country Status (1)

Country Link
JP (1) JPH0632011B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4617668B2 (ja) * 2003-12-15 2011-01-26 ソニー株式会社 音声信号処理装置及び音声信号再生システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
日本音響学会講演論文集昭和59年10月1−9−9P.17−18

Also Published As

Publication number Publication date
JPS61208097A (ja) 1986-09-16

Similar Documents

Publication Publication Date Title
RU2731372C2 (ru) Способ и система для разложения акустического сигнала на звуковые объекты, а также звуковой объект и его использование
Smith et al. PARSHL: An analysis/synthesis program for non-harmonic sounds based on a sinusoidal representation
CA1227286A (en) Speech recognition method and apparatus thereof
US20020032563A1 (en) Method and system for synthesizing voices
KR20040004647A (ko) 오디토리 이벤트에 기초한 특성을 사용하여 오디오 신호를타임 정렬시키는 방법
EP2237266A1 (en) Apparatus and method for determining a plurality of local center of gravity frequencies of a spectrum of an audio signal
JPH0561496A (ja) 音声認識装置
KR20050049103A (ko) 포만트 대역을 이용한 다이얼로그 인핸싱 방법 및 장치
JPH0632011B2 (ja) 音声認識装置
JP3270866B2 (ja) 雑音除去方法および雑音除去装置
JP2003044077A (ja) 音声特徴量抽出方法と装置及びプログラム
JP3916834B2 (ja) 雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法
JPH0632008B2 (ja) 音声認識装置
JP3035939B2 (ja) 音声分析合成装置
JPH0654439B2 (ja) 音声認識装置
JPH0632010B2 (ja) 音声認識装置
JPH0632009B2 (ja) 音声認識装置
JP4313740B2 (ja) 残響除去方法、プログラムおよび記録媒体
JPH1062460A (ja) 信号分離装置
JPS613200A (ja) 音声認識装置
JP2003263189A (ja) 信号分離装置およびその方法、信号分離プログラム並びにそのプログラムを記録した記録媒体
KR940002853B1 (ko) 음성신호의 시작점 및 끝점의 적응적 추출방법
JP2898637B2 (ja) 音声信号分析方法
JP2880683B2 (ja) 雑音抑制装置
JPH0632025B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term