JPH0561496A

JPH0561496A - 音声認識装置

Info

Publication number: JPH0561496A
Application number: JP3220732A
Authority: JP
Inventors: Miyuki Tanaka; 幸田中; Masao Watari; 雅男渡; Yasuhiko Kato; 靖彦加藤
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1991-08-30
Filing date: 1991-08-30
Publication date: 1993-03-12
Also published as: US5355432A

Abstract

(57)【要約】【目的】音声認識装置の認識用のパラメータ作成処理
をフレーム周期毎に行うことで認識結果の得られるまで
の時間を短縮し、必要とするメモリの容量を削減する。【構成】音声認識装置において、音声を音響分析して
得たパラメータの時系列から音響パラメータ空間上の軌
跡を一定間隔で再サンプリングする処理を音響パラメー
タが得られるたびにフレーム周期毎に逐次行なう様にす
る。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明はパターンマッチングによ
る音声認識装置に係わり、特に、音声認識用のパラメー
タ作成処理を音声分析した所定のフレーム周期毎に行う
様にした音声認識装置に関する。

【０００２】

【従来の技術】音声は時間軸に沿って変化する現象で、
スペクトラム・パターンが刻々と変化するように音声を
発声することによって固有の単語や言葉が生まれる。こ
の人間が発声する単語や言葉を自動認識する技術が音声
認識であるが、人間の聴覚機能に匹敵するような音声認
識を実現することは現在のところ至難のことである。こ
のため、現在実用化されている音声認識の殆んどは、一
定の使用条件の下で、認識対象単語の標準パターンと入
力パターンとのパターンマッチングを行なうことにより
なす方法である。

【０００３】図７はこの音声認識装置の概要を説明する
ための図で、マイクロホン１よりの音声入力が音響分析
回路２に供給される。この音響分析回路２では入力音声
パターンの特徴を表わす音響パラメータが抽出されると
共に音響区間検出も行なわれる。この音響パラメータを
抽出する音響分析の方法は種々考えられるが、例えばそ
の一例としてバンドパスフィルタと整流回路を１チャン
ネルとし、このようなチャンネルを通過帯域を変えて複
数個並べ、このバンドパスフィルタ群の出力としてスペ
クトラム・パターンの時間変化を抽出する方法が知られ
ている。又、音声区間検出はマイクロホンからのパワー
及びゼロクロス数等から検出される。この場合、音響パ
ラメータはその時系列Ｐｉ（ｎ）（ｉ＝１，２‥‥Ｉ；
Ｉは例えばバンドパスフィルタのチャンネル数、ｎ＝
１，２‥‥Ｎ；Ｎは音声区間検出により判定された区間
において認識に利用されるフレーム数）で表わすことが
できる。

【０００４】この音響分析回路２よりの音響パラメータ
時系列Ｐｉ（ｎ）は、例えばスイッチからなるモード切
換回路３に供給される。この回路３のスイッチが端子Ａ
側に切り換えられるときは登録モード時で、音響パラメ
ータ時系列Ｐｉ（ｎ）が認識パラメータとして標準パタ
ーンメモリ４にストアされる。つまり、音声認識に先だ
って話者の音声パターンが標準パターンとしてこのメモ
リ４に記憶される。なお、この登録時、音声速度変動や
単語長の違いにより一般に各登録標準パターンのフレー
ム数は異なっている。

【０００５】一方、このスイッチ３が端子Ｂ側に切り換
えられるときは認識モード時である。そして、この認識
モード時は、音響分析回路２からのそのときの入力音声
の音響パラメータ時系列が入力音声パターンメモリ５に
供給されて一時ストアされる。そしてこの入力パターン
と標準パターンメモリ４から読み出された複数の認識対
象単語の標準パターンのそれぞれとの違いの大きさが距
離算出回路６にて計算され、そのうち入力パターンと標
準パターンとの差が最小の認識対象単語が最小値判定回
路７にて検出されて、距離算出回路６と、最小値判定回
路７でパターンマッチング回路８が構成され、これにて
入力された単語が認識される。

【０００６】このように、登録された標準パターンと入
力パターンのパターンマッチング処理により入力音声の
認識を行なうものであるが、この場合に同じ単語を同じ
ように発声してもそのスペクトラムパターンは時間軸方
向にずれたり伸縮したりすることを考慮しなければなら
ない。すなわち、例えば「ハイ」という単語を認識する
場合、標準パターンが「ハイ」で登録されているとき、
入力音声が「ハーイ」と時間軸方向に伸びてしまった場
合、これは距離が大きく違い、全く違った単語とされ
る。

【０００７】即ち、音声認識のパターンマッチングで
は、この時間軸方向のずれ、伸縮を補正する時間正規化
の処理を行なう必要があり、また、この時間正規化は認
識精度を向上されるための重要な処理である。

【０００８】この時間正規化の一方法としてＤＰ（Ｄｙ
ｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ：動的計画法）マ
ッチングと呼ばれる手法がある（例えば特開昭５０−９
６１０４号公報参照）。このＤＰマッチングは時間軸の
ずれを考慮した多数の標準パターンを用意しておくので
はなく、歪関数によって多数の時間を正規化した標準パ
ターンを生成し、これと入力パターンとの距離を求め、
その最小値のものを検知することにより、音声認識をす
るものである。

【０００９】ところで、このようなＤＰマッチングの手
法を用いる場合、登録される標準パターンのフレーム数
は不定であり、しかも全登録標準パターンと入力パター
ンとのＤＰマッチング処理をする必要があり、語彙が多
くなると演算量が飛躍的に増加する欠点がある。

【００１０】また、ＤＰマッチングは、定常部（スペク
トラムパターンの時間変化のない部分）を重視したマッ
チング方式であるので部分的類似パターン間で誤認識を
生じる可能性があった。

【００１１】このような欠点を生じない時間正規化の手
法を本出願人は先に提案した（例えば特願昭５９−１０
６１７８号）。

【００１２】すなわち、音響パラメータ時系列Ｐｉ
（ｎ）は、そのパラメータ空間を考えた場合、点列を描
く。例えば認識対象単語が「ＨＡＩ」であるとき音響分
析用バンドパスフィルタの数が２個で、Ｐｉ（ｎ）＝（Ｐ₁ Ｐ₂）であれば、入力音声の音響パラメータ時系列はその２次
元パラメータ空間には図８に示すような点列を描く。こ
の図から明らかなように音声の非定常部９の点列は粗に
分布し、準定常部１０は密に分布する。このことは完全
に音声が定常であればパラメータは変化せず、その場合
には点列はパラメータ空間において一点に停留すること
となることから明らかであろう。

【００１３】そして、以上のことから、音声の発声速度
変動による時間軸方向のずれは殆んどが準定常部１０の
点列密度の違いに起因し、非定常部９の時間長の影響は
少ないと考えられる。

【００１４】そこで、この入力パラメータ時系列Ｐｉ
（ｎ）の点列から図９に示すように点列全体を近似的に
通過するような連続曲線で描いた軌跡１１を推定すれ
ば、この軌跡１１は音声の発声速度変動に対して殆んど
不変であることがわかる。

【００１５】このことから、出願人は、更に次のような
時間軸正規化方法を提案した（例えば特願昭５９−１０
６１７７号）。すなわち、先ず入力パラメータの時系列
Ｐｉ（ｎ）の始端Ｐｉ（１）から終端Ｐｉ（Ｎ）までを
連続曲線Ｐｉ（ｓ）で描いた軌跡を推定し、この推定し
た曲線Ｐｉ（ｓ）から軌跡１１の長さＬを求める。そし
て図１０に示すようにこの軌跡に沿って所定長Ｌｅで再
サンプリングする。例えばＭ個の点に再サンプリングす
る場合、Ｌｅ＝Ｌ／（Ｍ−１）の長さを基準として軌跡１１を再サンプリングする。こ
の再サンプリングされた点列を描くパラメータ時系列を
Ｑｉ（ｍ）（ｉ＝１，２‥‥Ｉ，ｍ＝１，２‥‥Ｍ）と
すれば、このパラメータ時系列Ｑｉ（ｍ）は軌跡１１の
基本情報を有しており、しかも音声の発声速度変動に対
して殆んど不変なパラメータである。つまり、時間軸が
正規化された認識パラメータ時系列である。

【００１６】したがって、このパラメータ時系列Ｑｉ
（ｍ）を標準パターンとして登録しておくとともに、入
力パターンもこのパラメータ時系列Ｑｉ（ｍ）として
得、このパラメータ時系列Ｑｉ（ｍ）により両パターン
間の距離を求め、その距離が最小であるものを検知して
音声認識を行うようにすれば、時間軸方向のずれが正規
化されて除去された状態で音声認識がなされる。

【００１７】そして、この処理方法によれば、登録時の
発声速度変動や単語長の違いに関係なく認識パラメータ
時系列Ｑｉ（ｍ）のフレーム数は常にＭであり、その上
認識パラメータ時系列Ｑｉ（ｍ）は時間正規化されてい
るので、入力パターンと登録標準パターンとの距離の演
算は最も単純なチェビシェフ距離を求める演算でも良好
な効果が期待できる。

【００１８】また、以上の方法は音声の非定常部をより
重視した時間正規化の手法であり、ＤＰマッチング処理
のような部分的類似パターン間の誤認識が少なくなる。

【００１９】さらに、発声速度の変動情報は正規化パラ
メータ時系列Ｑｉ（ｍ）には含まれず、このためパラメ
ータ空間に配位するパラメータ遷移構造のグローバルな
特徴等の扱いが容易となり、不特定話者認識に対しても
有効な各種方法の適用が可能となる。なお、以下、この
時間正規化の処理をＮＡＴ（Ｎｏｒｍａｌｉｚａｔｉｏ
ｎＡｌｏｎｇＴｒａｊｅｃｔｏｒｙ）処理と呼ぶ。

【００２０】この様なＮＡＴ処理で音声のゆらぎや部分
的に類似する語彙の認識率の低下を防止するために、Ｎ
ＡＴ処理を複数回行なう様にした音声認識装置も、本出
願人は先に提案している（例えば特願昭５９−１０９１
７２号）。

【００２１】上記したＮＡＴ方式の音声認識の基本的構
成のブロック図は図１１の様に表すことが出来る。即
ち、マイクロホン１から入力された音声入力は音響分析
部２ａに入力されて音声の特徴の抽出が行なわれて、あ
る時間間隔（以下フレーム周期と記す）ごとに入力され
た特徴パラメータが得られる。

【００２２】この特徴パラメータはフレーム周期毎に音
声区間検出部２ｂに渡され、音声の始点、終点を決定す
る。この音声区間検出部２ｂと音響分析部２ａで図７に
示した音響分析回路２が構成されている。

【００２３】即ち、図１２に示すように認識処理がスタ
ートして、第１ステップＳ₁で示す音声区間判定処理が
１フレーム周期内の所定期間内で行なわれる。

【００２４】この場合の音声区間検出処理は図１３に示
す様に音声の始点及び終点の判定は１フレーム周期より
充分に短い時間ｔ₁に終了することが出来るので、１フ
レーム周期からｔ₁を引いたｔ₂は何もしない時間であ
る。

【００２５】この様な１フレーム周期の中の音声区間検
出処理が終了したか否かを第２ステップＳ₂で判断し、
音声終了状態でないＮＯであれば第１ステップＳ₁に戻
し、ＹＥＳであれば図１１に示すＮＡＴ処理回路１３に
よって上記した第１回目のＮＡＴ処理が第３ステップＳ
Ｔ₃で行なわれる。この第１回目のＮＡＴ処理終了後に
必要に応じて第２回目のＮＡＴ処理（第４ステップ
Ｓ₄）が行なわれる。これら、第１回目及び第２回目の
ＮＡＴ処理のフローの一例は後述する。

【００２６】この様にＮＡＴ処理が終了すると、求めら
れたサンプル点間距離Ｌｅ毎に軌跡上に求めた点によっ
てパターンマッチング回路８と標準パターンメモリ４に
基づいてパターンマッチング処理（第５ステップＳ₅）
が行なわれパターンマッチング回路８から認識結果が出
力されて（第６ステップＳ₆）エンドに至る。

【００２７】上記した第１回目及び第２回目のＮＡＴ処
理の一例を図１４のフローで簡単に説明しておく。

【００２８】図１４に示す様にＮＡＴ処理回路１３内で
は先ず軌跡１１の長さＬを算出する（第１ステップＳＴ
₁）このＬの算出方法は上記した様にチェビシェフ距
離、ユークリッド距離等が考えられる。

【００２９】次に第２ステップＳＴ₂では再サンプル点
間の距離Ｌｅを求める。これは再サンプルしたい点の数
をＭとしたとき上記した式Ｌｅ＝Ｌ／（Ｍ−１）或はＬ
ｅ＝Ｌ／Ｍ等でＬｅを求める。

【００３０】次にｋ＝１，Ｌ′＝Ｌｅとおき（第３ステ
ップＳＴ₃）ｋフレーム目とｋ＋１目のフレーム間距離
（ｄｋ）を算出する（第４ステップＳＴ₄）。

【００３１】第５ステップＳＴ₅ではｄｋ−Ｌ′≧０の
判断を行ないＮＯであれば第６ステップＳＴ₆でＬ′＝
Ｌ′−ｄｋ，ｋ＝ｋ＋１として第４ステップＳＴ₄に戻
し、ＹＥＳであれば第７ステップＳＴ₇に進める。

【００３２】第７ステップＳＴ₇ではｋフレームとｋ＋
１フレームのデータからなる２点間に再サンプル点を求
める。

【００３３】次に第８ステップＳＴ₈では再サンプル点
の数が求めたい点数に等しいか否かの判断を行ない等し
ければＮＡＴ処理の終了に至り、ＮＯであれば第９ステ
ップを介して第５ステップＳＴ₅に戻される。第９ステ
ップＳＴ₉ではＬ′＝Ｌ′＋Ｌｅの処理が成され、ｋ番
目のフレームとｋ＋１番目のフレームのデータからなる
２点間に再サンプル点を求められるだけ求める。

【００３４】

【発明が解決しようとする課題】上述の音声認識装置に
於けるＮＡＴ処理を考えると、再サンプルを行なう間隔
が軌跡１１の長さＬから算出されるので、ＮＡＴ処理を
開始する前に軌跡１１の長さＬが得られている必要があ
り、そのためには入力音声の始まりと終わりが検出済み
でなければならない。

【００３５】図１５で考えてみると横軸に時間ｔを縦軸
に音声レベルをとった場合の入力音声１５の認識結果出
力を得るまでの処理は入力音声１５の始まり１６と終わ
り１７まで音声区間検出処理時間ｔ₃、ＮＡＴ処理時間
ｔ₄並にパターンマッチング処理時間ｔ₅と直列的に処
理した時間ｔ₃＋ｔ₄＋ｔ₅を要する。即ち、入力音声
１５が終了しないとＮＡＴ処理を始めることができない
ため、音声が発声された後に認識結果が得られるまでに
より多くの時間を必要としていた。また、基本的に音響
分析されて得られたパラメータの時系列を、音声の始ま
りから終わり１７まですべて保持していなければならな
いため、それを格納するための充分なメモリ容量を確保
してある必要があった。

【００３６】本発明は叙上の問題点を解決するために成
されたもので、その目的とするところは、パターン作成
の時間を短縮し、音響パラメータのデータを保持するメ
モリの容量を削減出来る音声認識装置を提供しようとす
るものである。

【００３７】

【課題を解決するための手段】本発明の音声認識装置は
その例が図１に示されている様に、入力音声信号の音声
区間で音響分析して得た音響パターン時系列をそのパラ
メータ空間で描く軌跡を推定し、その軌跡を所定間隔で
再サンプリングして得た認識パラメータをパターンマッ
チングによって音声認識する様にした音声認識装置に於
いて、音響パターンのパラメータが得られるたび毎に逐
次、パラメータ空間上の軌跡を所定の一定値間隔で再サ
ンプリング処理する様にしている。

【００３８】

【作用】本発明の音声認識装置においては、ＮＡＴパタ
ーン作成処理を音響パラメータが得られる毎に逐次行な
うことで、認識結果が得られるまでにかかる時間を短縮
し、また同時に、必要となるメモリの記憶容量を削減し
たものが得られる。

【００３９】

【実施例】以下、本発明の一実施例を図１乃至図６につ
いて説明する。図１はこの発明による音声認識装置の一
実施例で、この例は音響分析に１５チャンネルのバンド
パスフィルタ群を用いた場合である。

【００４０】音響分析回路２は音響分析部２ａと音声区
間検出部２ｂより構成される。音響分析部２ａは、マイ
クロホン１からの音声信号がアンプ２０及び帯域制限用
のローパスフィルタ２１を介してＡ／Ｄコンバータ２３
に供給され、例えば１２．５ＫＨｚのサンプリング周波
数で１２ビットのデジタル音声信号に変換される。この
デジタル音声信号は、１５チャンネルのバンドパスフィ
ルタバンク２Ｃの各チャンネルのデジタルバンドパスフ
ィルタ２４ａ，２４ｂ，‥‥，２４ｏに供給される。こ
のデジタルバンドパスフィルタ２４ａ，２４ｂ，‥‥２
４ｏは例えばバターワース４次のデジタルフィルタにて
構成され、２５０Ｈｚから５．５ＫＨｚまでの帯域が対
数軸上で等間隔で分割された各帯域が各フィルタの通過
帯域となるようになされている。そして、各デジタルバ
ンドパスフィルタ２４ａ，２４ｂ，‥‥，２４ｏの出力
信号はそれぞれ整流回路２５ａ，２５ｂ，‥‥，２５ｏ
に供給され、これら整流回路２５ａ，２５ｂ，‥‥，２
５ｏの出力はそれぞれデジタルローパスフィルタ２６
ａ，２６ｂ，‥‥，２６ｏに供給される。これらデジタ
ルローパスフィルタ２６ａ，２６ｂ，‥‥，２６ｏは例
えばカットオフ周波数５２．８ＨｚのＦＩＲローパスフ
ィルタにて構成される。

【００４１】音響分析部２ａの出力である各デジタルロ
ーパスフィルタ２６ａ，２６ｂ，‥‥，２６ｏの出力信
号は特徴抽出を行うためのサンプラー２７に供給され
る。このサンプラー２７ではデジタルローパスフィルタ
２６ａ，２６ｂ，‥‥，２６ｏの出力信号をフレーム周
期５．１２ｍｓｅｃ毎にサンプリングする。したがっ
て、これよりはサンプル時系列Ａｉ（ｎ）（ｉ＝１，
２，‥‥１５；ｎはフレーム番号でｎ＝１，２，‥‥，
Ｎ）が得られる。

【００４２】このサンプラー２７からの出力、つまりサ
ンプル時系列Ａｉ（ｎ）は音源情報正規化回路２８に供
給され、これにて認識しようとする音声の話者による声
帯音源特性の違いが除去される。こうして音源特性の違
いが正規化されて除去されて音響パラメータ時系列Ｐｉ
（ｎ）がこの音源情報正規化回路２８より得られる。

【００４３】そして、このパラメータ時系列Ｐｉ（ｎ）
が音声区間内パラメータメモリ２９に供給される。この
音声区間内パラメータメモリ２９では音声区間検出部２
ｂからの音声区間判定信号を受けて音源特性の正規化さ
れたパラメータＰｉ（ｎ）が判定された音声区間毎（１
フレーム周期毎）にストアされる。

【００４４】音声区間検出部２ｂはゼロクロスカウンタ
３０とパワー算出回路３１と音声区間検出回路３２とか
らなり、Ａ／Ｄコンバータ２３よりのデジタル音声信号
がゼロクロスカウンタ３０及びパワー算出回路３１に供
給される。ゼロクロスカウンタ３０では１フレーム周期
５．１２ｍｓｅｃ毎に、この１フレーム周期内の６４サ
ンプルのデジタル音声信号のゼロクロス数をカウント
し、そのカウント値が音声区間検出回路３２の第１の入
力端に供給される。

【００４５】パワー算出回路３１では１フレーム周期毎
にこの１フレーム周期内のデジタル音声信号のパワー、
すなわち２乗和が求められ、その出力パワー信号が音声
区間検出回路３２の第２の入力端に供給される。音声区
間検出回路３２には、さらに、その第３の入力端に音源
情報正規化回路２８よりの音源正規化情報が供給され
る。

【００４６】そして、この音声区間検出回路３２におい
てはゼロクロス数、区間内パワー及び音源正規化情報が
複合的に処理され、無音、無声音及び有声音の判定処理
が行なわれ、音声区間が決定される。この音声区間検出
回路３２よりの判定された音声区間を示す音声区間判定
信号は音声区間検出部２ｂの出力として音声区間内パラ
メータメモリ２９に供給される。

【００４７】こうして、判定音声区間内においてメモリ
２９にストアされた音響パラメータ時系列Ｐｉ（ｎ）は
読み出されて逐次ＮＡＴ処理回路１３ａに供給される。

【００４８】逐次ＮＡＴ処理回路１３ａで処理された出
力は標準パターンメモリ４内の標準値とパターンマッチ
ング回路８でパターンマッチングが成される。

【００４９】逐次ＮＡＴ処理回路１３ａで処理された出
力は必要に応じて２回目のＮＡＴ処理回路１３ｂに供給
されてＮＡＴ処理を施した後にパターンマッチングを行
う様にしてもよい。

【００５０】上述の構成に於ける本発明の全体的な動作
を図２のフローチャートによって説明する。

【００５１】本例の場合は図２に示す様に認識処理のス
タートをすると、第１のステップＳＴＥ₁で音声区間検
出処理が音声区間検出部２ａで終了しメモリ２９から再
サンプル点データが出力されると、第２ステップＳＴＥ
₂の逐次ＮＡＴ処理に入る。

【００５２】この第１及び第２のステップＳＴＥ₁及び
ＳＴＥ₂は１フレーム周期の中で処理される。即ち、従
来は軌跡の長さから再サンプル点間の距離を算出してい
るので、ＮＡＴ処理そのものは、音声の終点が判定され
るまで始めることができず、図１５に示すように、音声
終点決定後にＮＡＴ処理が始まるが、本例では図３に示
す様に音響分析部２ａでは１フレーム周期毎に音声の特
徴量を音声区間検出部２ｂへ渡し、この音声区間検出部
２ｂでは音声の区間検出処理を１フレーム周期内の短い
時間で終了する（図３の期間ｔ₁）。

【００５３】そこで、図３に於いて１フレーム周期中の
従来の何もしていない時間ｔ₂内で第２ステップＳＴＥ
₂の逐次ＮＡＴ処理を例えば時間ｔ₆内で行なう。この
逐次ＮＡＴ処理後の時間ｔ₁₁が本例では何もしない時間
に相当する。

【００５４】この様にすれば入力音声１５の終点１７の
決定後にＮＡＴ処理を始めるよりも認識結果を出力する
までの時間は大幅に短縮される。

【００５５】これを実現するために、本例では再サンプ
ル点間の距離Ｌｅを算出する代わりに予め設定した固定
の長さＣで軌跡１１上を再サンプリングする。

【００５６】更に、フレーム周期毎の特徴パラメータが
得られるたび、前フレームの特徴パラメータとの差（軌
跡上で考えると前フレームと今フレームの２点間の距
離）を計算し、その２点間に再サンプル点が求められれ
ばそれを求める。

【００５７】これを入力音声の終了の判定がされる終点
１７まで毎フレーム繰り返すことで、音声終了とほぼ同
時に逐次ＮＡＴ処理も終了する。この様な逐次ＮＡＴ処
理動作は図４で後述する。

【００５８】図２に戻って第２ステップＳＴＥ₂が終了
すると、ＣＰＵ（図示せず）は第３ステップＳＴＥ₃の
様に音声終了か否かを判断し、ＮＯであれば第１ステッ
プＳＴＥ₁に戻されるが、ＹＥＳで音声終了であれば必
要に応じて２回目のＮＡＴ処理（第４ステップＳＴ
Ｅ₄）をＮＡＴ処理回路１３ｂで行なった後にマッチン
グ処理（第５ステップＳＴＥ₅）をパターンマッチング
回路（第５ステップＳＴＥ ₅）をパターンマッチング回
路８で行ない第６ステップＳＴＥ₆で認識結果を出力す
ることで終了に至る。

【００５９】上記した逐次ＮＡＴ処理のフローチャート
を図４によって説明する。

【００６０】図２の逐次ＮＡＴ処理ＳＴＥ₂がスタート
すると第１ステップＳＴＥＰ₁では現在のフレームは入
力音声１５の中にあるか否かを判断する。現在のフレー
ム中に入力音声１５がないＮＯの状態であれば次のフレ
ーム処理を待ち、ＹＥＳ状態であれば第２ステップＳＴ
ＥＰ₂に進む。

【００６１】第２ステップＳＴＥＰ₂では最初の音声フ
レームか否かを判断する。ＮＯであれば第４ステップＳ
ＴＥＰ₄に進み、ＹＥＳであれば第３ステップＳＴＥＰ
₃に進められる。

【００６２】第３ステップＳＴＥＰ₃ではＬ′＝Ｃと置
く、この場合のＣは予め設定され定数で再サンプル点間
の距離である。ここで軌跡１１が長さを求めずに音響パ
ラメータが得られた時点で逐次Ｃで再サンプリングす
る。

【００６３】次の第４ステップＳＴＥＰ₄では１つ前の
フレームと現在のフレームのデータからなる２点間の距
離（ｄｋ）を算出する。

【００６４】次の第５ステップＳＴＥＰ₅ではｄｋ−
Ｌ′≧０の判断を行ないＮＯであれば第７ステップＳＴ
ＥＰ₇に進んでＬ′＝Ｌ′−ｄｋの処理を行なって次の
フレームの処理を待ち、ＹＥＳであれば第６ステップＳ
ＴＥＰ₆に進む。

【００６５】第６ステップＳＴＥＰ₆では１つ前のフレ
ームと、現在のフレームのデータからなる２点間を結ぶ
線分上に再サンプル点を求める。

【００６６】第８ステップＳＴＥＰ₈ではＬ′＝Ｌ′＋
Ｃとし、第５ステップＳＴＥＰ₅に戻され、１つ前のフ
レームと現在のフレームのデータからなる２点間に再サ
ンプル点を求められるだけ求める。

【００６７】上述の如き処理によれば図１の破線で示す
２回目のＮＡＴ処理回路１３ｂを行なわない場合の逐次
ＮＡＴ処理時の認識結果出力を得るまで時間的な流れ図
の図５から解る様に、認識すべき入力音声１５が終了す
るすべての音声区間検出期間ｔ₃内に図１５で示すＮＡ
Ｔ処理期間のｔ₄と同様の逐次ＮＡＴ処理が終了してい
るので認識結果を出力するまでの時間は従来のｔ₃＋ｔ
₄＋ｔ₅に比べてｔ₃＋ｔ₅で済み、図１５で示すＮＡ
Ｔ処理時間ｔ₄分短縮される。

【００６８】また、従来のＮＡＴ処理では、音声の特徴
パラメータを少なくとも音声の開始時点から終了時点ま
で保持していなければならず、そのための記憶領域をパ
ラメータメモリに確保している必要があった、ところ
が、、ＮＡＴ処理をフレーム周期内の処理に組み込むこ
とで、必要な特徴パラメータは前フレームと現在のフレ
ームの２フレーム分でよくなるため、確保しておくべき
メモリの記憶容量の大幅な削減が図れる。

【００６９】尚、図１の破線及び図２のフローに示す様
に逐次ＮＡＴ処理並に２回目のＮＡＴ処理を行なう場合
には図６に示す様にｔ₈時間２回目のＮＡＴ処理時間が
加算されることは明らかである。

【００７０】本発明の音声認識装置によれば、音声の認
識時に、入力音声の終了の検出を待たずにパターン作成
が始められるので、音声入力されてから認識結果が得ら
れるまでの時間のうち、パターン作成の時間が短縮さ
れ、したがって、認識結果の応答が早まる。

【００７１】更に、音響分析されて得られたパラメータ
の代わりに、逐次処理されて得られた、再サンプル点の
データを保持するだけでよく、保持していなければなら
ないデータ量が少なくて済むので、必要となるメモリの
記憶容量を削減できる効果を生ずる。

【００７２】

【発明の効果】本発明の音声認識装置によれば音響パラ
メータが得られるたびに逐次ＮＡＴ処理を行なうので、
音声が入力されてから認識結果が得られるまでに要する
時間が短縮され、必要とされるメモリの容量を削減する
ことが出来る。

【図面の簡単な説明】

【図１】本発明の音声認識装置の一実施例を示す具体的
構成図である。

【図２】本発明の音声認識装置の流れ図である。

【図３】本発明の音声認識装置に用いる逐次のＮＡＴ処
理を含めたときのフレーム周期内の処理説明図である。

【図４】本発明の音声認識装置に用いる逐次ＮＡＴの流
れ図である。

【図５】本発明の音声認識装置の逐次ＮＡＴ処理を行な
ったときの認識結果出力までの時間の流れを示す図であ
る。

【図６】本発明の音声認識装置の逐次ＮＡＴ処理及び２
回目のＮＡＴ処理を行なったときの認識結果出力までの
時間の流れを示す図である。

【図７】音声認識装置の基本的構成のブロック図であ
る。

【図８】パラメータ空間に描く点列の例を示す図であ
る。

【図９】パラメータ空間に描く軌跡の例を示す図であ
る。

【図１０】軌跡上の再サンプル点を示す図である。

【図１１】ＮＡＴ方式の音声認識の基本的構成のブロッ
ク図である。

【図１２】従来の音声認識装置の流れ図である。

【図１３】従来のフレーム周期内の処理を示す図であ
る。

【図１４】ＮＡＴ処理の流れ図である。

【図１５】従来までの処理による認識結果出力までの時
間の流れ図である。

【符号の説明】

１マイクロホン２音響分析回路２ａ音響分析部２ｂ音声区間検出部４標準パターンメモリ８パターンマッチング回路１３ａ逐次ＮＡＴ処理回路１３ｂＮＡＴ処理回路

Claims

【特許請求の範囲】

【請求項１】入力音声信号の音声区間で音響分析して
得た音響パターン時系列をそのパラメータ空間で描く軌
跡を推定し、その軌跡を所定間隔で再サンプリングして
得た認識パラメータをパターンマッチングによって音声
認識する様にした音声認識装置に於いて、上記音響パターンのパラメータが得られるたび毎に逐
次、上記該パラメータ空間上の軌跡を所定の一定値間隔
で再サンプリング処理する様にして成ることを特徴とす
る音声認識装置。