JPH0561496A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH0561496A
JPH0561496A JP3220732A JP22073291A JPH0561496A JP H0561496 A JPH0561496 A JP H0561496A JP 3220732 A JP3220732 A JP 3220732A JP 22073291 A JP22073291 A JP 22073291A JP H0561496 A JPH0561496 A JP H0561496A
Authority
JP
Japan
Prior art keywords
voice
processing
voice section
parameter
nat
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3220732A
Other languages
English (en)
Inventor
Miyuki Tanaka
幸 田中
Masao Watari
雅男 渡
Yasuhiko Kato
靖彦 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP3220732A priority Critical patent/JPH0561496A/ja
Priority to US07/928,448 priority patent/US5355432A/en
Publication of JPH0561496A publication Critical patent/JPH0561496A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

(57)【要約】 【目的】 音声認識装置の認識用のパラメータ作成処理
をフレーム周期毎に行うことで認識結果の得られるまで
の時間を短縮し、必要とするメモリの容量を削減する。 【構成】 音声認識装置において、音声を音響分析して
得たパラメータの時系列から音響パラメータ空間上の軌
跡を一定間隔で再サンプリングする処理を音響パラメー
タが得られるたびにフレーム周期毎に逐次行なう様にす
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明はパターンマッチングによ
る音声認識装置に係わり、特に、音声認識用のパラメー
タ作成処理を音声分析した所定のフレーム周期毎に行う
様にした音声認識装置に関する。
【0002】
【従来の技術】音声は時間軸に沿って変化する現象で、
スペクトラム・パターンが刻々と変化するように音声を
発声することによって固有の単語や言葉が生まれる。こ
の人間が発声する単語や言葉を自動認識する技術が音声
認識であるが、人間の聴覚機能に匹敵するような音声認
識を実現することは現在のところ至難のことである。こ
のため、現在実用化されている音声認識の殆んどは、一
定の使用条件の下で、認識対象単語の標準パターンと入
力パターンとのパターンマッチングを行なうことにより
なす方法である。
【0003】図7はこの音声認識装置の概要を説明する
ための図で、マイクロホン1よりの音声入力が音響分析
回路2に供給される。この音響分析回路2では入力音声
パターンの特徴を表わす音響パラメータが抽出されると
共に音響区間検出も行なわれる。この音響パラメータを
抽出する音響分析の方法は種々考えられるが、例えばそ
の一例としてバンドパスフィルタと整流回路を1チャン
ネルとし、このようなチャンネルを通過帯域を変えて複
数個並べ、このバンドパスフィルタ群の出力としてスペ
クトラム・パターンの時間変化を抽出する方法が知られ
ている。又、音声区間検出はマイクロホンからのパワー
及びゼロクロス数等から検出される。この場合、音響パ
ラメータはその時系列Pi(n)(i=1,2‥‥I;
Iは例えばバンドパスフィルタのチャンネル数、n=
1,2‥‥N;Nは音声区間検出により判定された区間
において認識に利用されるフレーム数)で表わすことが
できる。
【0004】この音響分析回路2よりの音響パラメータ
時系列Pi(n)は、例えばスイッチからなるモード切
換回路3に供給される。この回路3のスイッチが端子A
側に切り換えられるときは登録モード時で、音響パラメ
ータ時系列Pi(n)が認識パラメータとして標準パタ
ーンメモリ4にストアされる。つまり、音声認識に先だ
って話者の音声パターンが標準パターンとしてこのメモ
リ4に記憶される。なお、この登録時、音声速度変動や
単語長の違いにより一般に各登録標準パターンのフレー
ム数は異なっている。
【0005】一方、このスイッチ3が端子B側に切り換
えられるときは認識モード時である。そして、この認識
モード時は、音響分析回路2からのそのときの入力音声
の音響パラメータ時系列が入力音声パターンメモリ5に
供給されて一時ストアされる。そしてこの入力パターン
と標準パターンメモリ4から読み出された複数の認識対
象単語の標準パターンのそれぞれとの違いの大きさが距
離算出回路6にて計算され、そのうち入力パターンと標
準パターンとの差が最小の認識対象単語が最小値判定回
路7にて検出されて、距離算出回路6と、最小値判定回
路7でパターンマッチング回路8が構成され、これにて
入力された単語が認識される。
【0006】このように、登録された標準パターンと入
力パターンのパターンマッチング処理により入力音声の
認識を行なうものであるが、この場合に同じ単語を同じ
ように発声してもそのスペクトラムパターンは時間軸方
向にずれたり伸縮したりすることを考慮しなければなら
ない。すなわち、例えば「ハイ」という単語を認識する
場合、標準パターンが「ハイ」で登録されているとき、
入力音声が「ハーイ」と時間軸方向に伸びてしまった場
合、これは距離が大きく違い、全く違った単語とされ
る。
【0007】即ち、音声認識のパターンマッチングで
は、この時間軸方向のずれ、伸縮を補正する時間正規化
の処理を行なう必要があり、また、この時間正規化は認
識精度を向上されるための重要な処理である。
【0008】この時間正規化の一方法としてDP(Dy
namic Programming:動的計画法)マ
ッチングと呼ばれる手法がある(例えば特開昭50−9
6104号公報参照)。このDPマッチングは時間軸の
ずれを考慮した多数の標準パターンを用意しておくので
はなく、歪関数によって多数の時間を正規化した標準パ
ターンを生成し、これと入力パターンとの距離を求め、
その最小値のものを検知することにより、音声認識をす
るものである。
【0009】ところで、このようなDPマッチングの手
法を用いる場合、登録される標準パターンのフレーム数
は不定であり、しかも全登録標準パターンと入力パター
ンとのDPマッチング処理をする必要があり、語彙が多
くなると演算量が飛躍的に増加する欠点がある。
【0010】また、DPマッチングは、定常部(スペク
トラムパターンの時間変化のない部分)を重視したマッ
チング方式であるので部分的類似パターン間で誤認識を
生じる可能性があった。
【0011】このような欠点を生じない時間正規化の手
法を本出願人は先に提案した(例えば特願昭59−10
6178号)。
【0012】すなわち、音響パラメータ時系列Pi
(n)は、そのパラメータ空間を考えた場合、点列を描
く。例えば認識対象単語が「HAI」であるとき音響分
析用バンドパスフィルタの数が2個で、 Pi(n)=(P1 2 ) であれば、入力音声の音響パラメータ時系列はその2次
元パラメータ空間には図8に示すような点列を描く。こ
の図から明らかなように音声の非定常部9の点列は粗に
分布し、準定常部10は密に分布する。このことは完全
に音声が定常であればパラメータは変化せず、その場合
には点列はパラメータ空間において一点に停留すること
となることから明らかであろう。
【0013】そして、以上のことから、音声の発声速度
変動による時間軸方向のずれは殆んどが準定常部10の
点列密度の違いに起因し、非定常部9の時間長の影響は
少ないと考えられる。
【0014】そこで、この入力パラメータ時系列Pi
(n)の点列から図9に示すように点列全体を近似的に
通過するような連続曲線で描いた軌跡11を推定すれ
ば、この軌跡11は音声の発声速度変動に対して殆んど
不変であることがわかる。
【0015】このことから、出願人は、更に次のような
時間軸正規化方法を提案した(例えば特願昭59−10
6177号)。すなわち、先ず入力パラメータの時系列
Pi(n)の始端Pi(1)から終端Pi(N)までを
連続曲線Pi(s)で描いた軌跡を推定し、この推定し
た曲線Pi(s)から軌跡11の長さLを求める。そし
て図10に示すようにこの軌跡に沿って所定長Leで再
サンプリングする。例えばM個の点に再サンプリングす
る場合、 Le=L/(M−1) の長さを基準として軌跡11を再サンプリングする。こ
の再サンプリングされた点列を描くパラメータ時系列を
Qi(m)(i=1,2‥‥I,m=1,2‥‥M)と
すれば、このパラメータ時系列Qi(m)は軌跡11の
基本情報を有しており、しかも音声の発声速度変動に対
して殆んど不変なパラメータである。つまり、時間軸が
正規化された認識パラメータ時系列である。
【0016】したがって、このパラメータ時系列Qi
(m)を標準パターンとして登録しておくとともに、入
力パターンもこのパラメータ時系列Qi(m)として
得、このパラメータ時系列Qi(m)により両パターン
間の距離を求め、その距離が最小であるものを検知して
音声認識を行うようにすれば、時間軸方向のずれが正規
化されて除去された状態で音声認識がなされる。
【0017】そして、この処理方法によれば、登録時の
発声速度変動や単語長の違いに関係なく認識パラメータ
時系列Qi(m)のフレーム数は常にMであり、その上
認識パラメータ時系列Qi(m)は時間正規化されてい
るので、入力パターンと登録標準パターンとの距離の演
算は最も単純なチェビシェフ距離を求める演算でも良好
な効果が期待できる。
【0018】また、以上の方法は音声の非定常部をより
重視した時間正規化の手法であり、DPマッチング処理
のような部分的類似パターン間の誤認識が少なくなる。
【0019】さらに、発声速度の変動情報は正規化パラ
メータ時系列Qi(m)には含まれず、このためパラメ
ータ空間に配位するパラメータ遷移構造のグローバルな
特徴等の扱いが容易となり、不特定話者認識に対しても
有効な各種方法の適用が可能となる。なお、以下、この
時間正規化の処理をNAT(Normalizatio
nAlong Trajectory)処理と呼ぶ。
【0020】この様なNAT処理で音声のゆらぎや部分
的に類似する語彙の認識率の低下を防止するために、N
AT処理を複数回行なう様にした音声認識装置も、本出
願人は先に提案している(例えば特願昭59−1091
72号)。
【0021】上記したNAT方式の音声認識の基本的構
成のブロック図は図11の様に表すことが出来る。即
ち、マイクロホン1から入力された音声入力は音響分析
部2aに入力されて音声の特徴の抽出が行なわれて、あ
る時間間隔(以下フレーム周期と記す)ごとに入力され
た特徴パラメータが得られる。
【0022】この特徴パラメータはフレーム周期毎に音
声区間検出部2bに渡され、音声の始点、終点を決定す
る。この音声区間検出部2bと音響分析部2aで図7に
示した音響分析回路2が構成されている。
【0023】即ち、図12に示すように認識処理がスタ
ートして、第1ステップS1 で示す音声区間判定処理が
1フレーム周期内の所定期間内で行なわれる。
【0024】この場合の音声区間検出処理は図13に示
す様に音声の始点及び終点の判定は1フレーム周期より
充分に短い時間t1 に終了することが出来るので、1フ
レーム周期からt1 を引いたt2 は何もしない時間であ
る。
【0025】この様な1フレーム周期の中の音声区間検
出処理が終了したか否かを第2ステップS2 で判断し、
音声終了状態でないNOであれば第1ステップS1 に戻
し、YESであれば図11に示すNAT処理回路13に
よって上記した第1回目のNAT処理が第3ステップS
3 で行なわれる。この第1回目のNAT処理終了後に
必要に応じて第2回目のNAT処理(第4ステップ
4 )が行なわれる。これら、第1回目及び第2回目の
NAT処理のフローの一例は後述する。
【0026】この様にNAT処理が終了すると、求めら
れたサンプル点間距離Le毎に軌跡上に求めた点によっ
てパターンマッチング回路8と標準パターンメモリ4に
基づいてパターンマッチング処理(第5ステップS5
が行なわれパターンマッチング回路8から認識結果が出
力されて(第6ステップS6 )エンドに至る。
【0027】上記した第1回目及び第2回目のNAT処
理の一例を図14のフローで簡単に説明しておく。
【0028】図14に示す様にNAT処理回路13内で
は先ず軌跡11の長さLを算出する(第1ステップST
1 )このLの算出方法は上記した様にチェビシェフ距
離、ユークリッド距離等が考えられる。
【0029】次に第2ステップST2 では再サンプル点
間の距離Leを求める。これは再サンプルしたい点の数
をMとしたとき上記した式Le=L/(M−1)或はL
e=L/M等でLeを求める。
【0030】次にk=1,L′=Leとおき(第3ステ
ップST3 )kフレーム目とk+1目のフレーム間距離
(dk)を算出する(第4ステップST4 )。
【0031】第5ステップST5 ではdk−L′≧0の
判断を行ないNOであれば第6ステップST6 でL′=
L′−dk,k=k+1として第4ステップST4 に戻
し、YESであれば第7ステップST7 に進める。
【0032】第7ステップST7 ではkフレームとk+
1フレームのデータからなる2点間に再サンプル点を求
める。
【0033】次に第8ステップST8 では再サンプル点
の数が求めたい点数に等しいか否かの判断を行ない等し
ければNAT処理の終了に至り、NOであれば第9ステ
ップを介して第5ステップST5 に戻される。第9ステ
ップST9 ではL′=L′+Leの処理が成され、k番
目のフレームとk+1番目のフレームのデータからなる
2点間に再サンプル点を求められるだけ求める。
【0034】
【発明が解決しようとする課題】上述の音声認識装置に
於けるNAT処理を考えると、再サンプルを行なう間隔
が軌跡11の長さLから算出されるので、NAT処理を
開始する前に軌跡11の長さLが得られている必要があ
り、そのためには入力音声の始まりと終わりが検出済み
でなければならない。
【0035】図15で考えてみると横軸に時間tを縦軸
に音声レベルをとった場合の入力音声15の認識結果出
力を得るまでの処理は入力音声15の始まり16と終わ
り17まで音声区間検出処理時間t3 、NAT処理時間
4 並にパターンマッチング処理時間t5 と直列的に処
理した時間t3 +t4 +t5 を要する。即ち、入力音声
15が終了しないとNAT処理を始めることができない
ため、音声が発声された後に認識結果が得られるまでに
より多くの時間を必要としていた。また、基本的に音響
分析されて得られたパラメータの時系列を、音声の始ま
りから終わり17まですべて保持していなければならな
いため、それを格納するための充分なメモリ容量を確保
してある必要があった。
【0036】本発明は叙上の問題点を解決するために成
されたもので、その目的とするところは、パターン作成
の時間を短縮し、音響パラメータのデータを保持するメ
モリの容量を削減出来る音声認識装置を提供しようとす
るものである。
【0037】
【課題を解決するための手段】本発明の音声認識装置は
その例が図1に示されている様に、入力音声信号の音声
区間で音響分析して得た音響パターン時系列をそのパラ
メータ空間で描く軌跡を推定し、その軌跡を所定間隔で
再サンプリングして得た認識パラメータをパターンマッ
チングによって音声認識する様にした音声認識装置に於
いて、音響パターンのパラメータが得られるたび毎に逐
次、パラメータ空間上の軌跡を所定の一定値間隔で再サ
ンプリング処理する様にしている。
【0038】
【作用】本発明の音声認識装置においては、NATパタ
ーン作成処理を音響パラメータが得られる毎に逐次行な
うことで、認識結果が得られるまでにかかる時間を短縮
し、また同時に、必要となるメモリの記憶容量を削減し
たものが得られる。
【0039】
【実施例】以下、本発明の一実施例を図1乃至図6につ
いて説明する。図1はこの発明による音声認識装置の一
実施例で、この例は音響分析に15チャンネルのバンド
パスフィルタ群を用いた場合である。
【0040】音響分析回路2は音響分析部2aと音声区
間検出部2bより構成される。音響分析部2aは、マイ
クロホン1からの音声信号がアンプ20及び帯域制限用
のローパスフィルタ21を介してA/Dコンバータ23
に供給され、例えば12.5KHzのサンプリング周波
数で12ビットのデジタル音声信号に変換される。この
デジタル音声信号は、15チャンネルのバンドパスフィ
ルタバンク2Cの各チャンネルのデジタルバンドパスフ
ィルタ24a,24b,‥‥,24oに供給される。こ
のデジタルバンドパスフィルタ24a,24b,‥‥2
4oは例えばバターワース4次のデジタルフィルタにて
構成され、250Hzから5.5KHzまでの帯域が対
数軸上で等間隔で分割された各帯域が各フィルタの通過
帯域となるようになされている。そして、各デジタルバ
ンドパスフィルタ24a,24b,‥‥,24oの出力
信号はそれぞれ整流回路25a,25b,‥‥,25o
に供給され、これら整流回路25a,25b,‥‥,2
5oの出力はそれぞれデジタルローパスフィルタ26
a,26b,‥‥,26oに供給される。これらデジタ
ルローパスフィルタ26a,26b,‥‥,26oは例
えばカットオフ周波数52.8HzのFIRローパスフ
ィルタにて構成される。
【0041】音響分析部2aの出力である各デジタルロ
ーパスフィルタ26a,26b,‥‥,26oの出力信
号は特徴抽出を行うためのサンプラー27に供給され
る。このサンプラー27ではデジタルローパスフィルタ
26a,26b,‥‥,26oの出力信号をフレーム周
期5.12msec毎にサンプリングする。したがっ
て、これよりはサンプル時系列Ai(n)(i=1,
2,‥‥15;nはフレーム番号でn=1,2,‥‥,
N)が得られる。
【0042】このサンプラー27からの出力、つまりサ
ンプル時系列Ai(n)は音源情報正規化回路28に供
給され、これにて認識しようとする音声の話者による声
帯音源特性の違いが除去される。こうして音源特性の違
いが正規化されて除去されて音響パラメータ時系列Pi
(n)がこの音源情報正規化回路28より得られる。
【0043】そして、このパラメータ時系列Pi(n)
が音声区間内パラメータメモリ29に供給される。この
音声区間内パラメータメモリ29では音声区間検出部2
bからの音声区間判定信号を受けて音源特性の正規化さ
れたパラメータPi(n)が判定された音声区間毎(1
フレーム周期毎)にストアされる。
【0044】音声区間検出部2bはゼロクロスカウンタ
30とパワー算出回路31と音声区間検出回路32とか
らなり、A/Dコンバータ23よりのデジタル音声信号
がゼロクロスカウンタ30及びパワー算出回路31に供
給される。ゼロクロスカウンタ30では1フレーム周期
5.12msec毎に、この1フレーム周期内の64サ
ンプルのデジタル音声信号のゼロクロス数をカウント
し、そのカウント値が音声区間検出回路32の第1の入
力端に供給される。
【0045】パワー算出回路31では1フレーム周期毎
にこの1フレーム周期内のデジタル音声信号のパワー、
すなわち2乗和が求められ、その出力パワー信号が音声
区間検出回路32の第2の入力端に供給される。音声区
間検出回路32には、さらに、その第3の入力端に音源
情報正規化回路28よりの音源正規化情報が供給され
る。
【0046】そして、この音声区間検出回路32におい
てはゼロクロス数、区間内パワー及び音源正規化情報が
複合的に処理され、無音、無声音及び有声音の判定処理
が行なわれ、音声区間が決定される。この音声区間検出
回路32よりの判定された音声区間を示す音声区間判定
信号は音声区間検出部2bの出力として音声区間内パラ
メータメモリ29に供給される。
【0047】こうして、判定音声区間内においてメモリ
29にストアされた音響パラメータ時系列Pi(n)は
読み出されて逐次NAT処理回路13aに供給される。
【0048】逐次NAT処理回路13aで処理された出
力は標準パターンメモリ4内の標準値とパターンマッチ
ング回路8でパターンマッチングが成される。
【0049】逐次NAT処理回路13aで処理された出
力は必要に応じて2回目のNAT処理回路13bに供給
されてNAT処理を施した後にパターンマッチングを行
う様にしてもよい。
【0050】上述の構成に於ける本発明の全体的な動作
を図2のフローチャートによって説明する。
【0051】本例の場合は図2に示す様に認識処理のス
タートをすると、第1のステップSTE1 で音声区間検
出処理が音声区間検出部2aで終了しメモリ29から再
サンプル点データが出力されると、第2ステップSTE
2の逐次NAT処理に入る。
【0052】この第1及び第2のステップSTE1 及び
STE2は1フレーム周期の中で処理される。即ち、従
来は軌跡の長さから再サンプル点間の距離を算出してい
るので、NAT処理そのものは、音声の終点が判定され
るまで始めることができず、図15に示すように、音声
終点決定後にNAT処理が始まるが、本例では図3に示
す様に音響分析部2aでは1フレーム周期毎に音声の特
徴量を音声区間検出部2bへ渡し、この音声区間検出部
2bでは音声の区間検出処理を1フレーム周期内の短い
時間で終了する(図3の期間t1 )。
【0053】そこで、図3に於いて1フレーム周期中の
従来の何もしていない時間t2 内で第2ステップSTE
2 の逐次NAT処理を例えば時間t6 内で行なう。この
逐次NAT処理後の時間t11が本例では何もしない時間
に相当する。
【0054】この様にすれば入力音声15の終点17の
決定後にNAT処理を始めるよりも認識結果を出力する
までの時間は大幅に短縮される。
【0055】これを実現するために、本例では再サンプ
ル点間の距離Leを算出する代わりに予め設定した固定
の長さCで軌跡11上を再サンプリングする。
【0056】更に、フレーム周期毎の特徴パラメータが
得られるたび、前フレームの特徴パラメータとの差(軌
跡上で考えると前フレームと今フレームの2点間の距
離)を計算し、その2点間に再サンプル点が求められれ
ばそれを求める。
【0057】これを入力音声の終了の判定がされる終点
17まで毎フレーム繰り返すことで、音声終了とほぼ同
時に逐次NAT処理も終了する。この様な逐次NAT処
理動作は図4で後述する。
【0058】図2に戻って第2ステップSTE2 が終了
すると、CPU(図示せず)は第3ステップSTE3
様に音声終了か否かを判断し、NOであれば第1ステッ
プSTE1 に戻されるが、YESで音声終了であれば必
要に応じて2回目のNAT処理(第4ステップST
4 )をNAT処理回路13bで行なった後にマッチン
グ処理(第5ステップSTE5 )をパターンマッチング
回路(第5ステップSTE 5 )をパターンマッチング回
路8で行ない第6ステップSTE6 で認識結果を出力す
ることで終了に至る。
【0059】上記した逐次NAT処理のフローチャート
を図4によって説明する。
【0060】図2の逐次NAT処理STE2 がスタート
すると第1ステップSTEP1 では現在のフレームは入
力音声15の中にあるか否かを判断する。現在のフレー
ム中に入力音声15がないNOの状態であれば次のフレ
ーム処理を待ち、YES状態であれば第2ステップST
EP2 に進む。
【0061】第2ステップSTEP2 では最初の音声フ
レームか否かを判断する。NOであれば第4ステップS
TEP4 に進み、YESであれば第3ステップSTEP
3 に進められる。
【0062】第3ステップSTEP3 ではL′=Cと置
く、この場合のCは予め設定され定数で再サンプル点間
の距離である。ここで軌跡11が長さを求めずに音響パ
ラメータが得られた時点で逐次Cで再サンプリングす
る。
【0063】次の第4ステップSTEP4 では1つ前の
フレームと現在のフレームのデータからなる2点間の距
離(dk)を算出する。
【0064】次の第5ステップSTEP5 ではdk−
L′≧0の判断を行ないNOであれば第7ステップST
EP7 に進んでL′=L′−dkの処理を行なって次の
フレームの処理を待ち、YESであれば第6ステップS
TEP6 に進む。
【0065】第6ステップSTEP6 では1つ前のフレ
ームと、現在のフレームのデータからなる2点間を結ぶ
線分上に再サンプル点を求める。
【0066】第8ステップSTEP8 ではL′=L′+
Cとし、第5ステップSTEP5 に戻され、1つ前のフ
レームと現在のフレームのデータからなる2点間に再サ
ンプル点を求められるだけ求める。
【0067】上述の如き処理によれば図1の破線で示す
2回目のNAT処理回路13bを行なわない場合の逐次
NAT処理時の認識結果出力を得るまで時間的な流れ図
の図5から解る様に、認識すべき入力音声15が終了す
るすべての音声区間検出期間t3 内に図15で示すNA
T処理期間のt4 と同様の逐次NAT処理が終了してい
るので認識結果を出力するまでの時間は従来のt3 +t
4 +t5 に比べてt3 +t5 で済み、図15で示すNA
T処理時間t4 分短縮される。
【0068】また、従来のNAT処理では、音声の特徴
パラメータを少なくとも音声の開始時点から終了時点ま
で保持していなければならず、そのための記憶領域をパ
ラメータメモリに確保している必要があった、ところ
が、、NAT処理をフレーム周期内の処理に組み込むこ
とで、必要な特徴パラメータは前フレームと現在のフレ
ームの2フレーム分でよくなるため、確保しておくべき
メモリの記憶容量の大幅な削減が図れる。
【0069】尚、図1の破線及び図2のフローに示す様
に逐次NAT処理並に2回目のNAT処理を行なう場合
には図6に示す様にt8 時間2回目のNAT処理時間が
加算されることは明らかである。
【0070】本発明の音声認識装置によれば、音声の認
識時に、入力音声の終了の検出を待たずにパターン作成
が始められるので、音声入力されてから認識結果が得ら
れるまでの時間のうち、パターン作成の時間が短縮さ
れ、したがって、認識結果の応答が早まる。
【0071】更に、音響分析されて得られたパラメータ
の代わりに、逐次処理されて得られた、再サンプル点の
データを保持するだけでよく、保持していなければなら
ないデータ量が少なくて済むので、必要となるメモリの
記憶容量を削減できる効果を生ずる。
【0072】
【発明の効果】本発明の音声認識装置によれば音響パラ
メータが得られるたびに逐次NAT処理を行なうので、
音声が入力されてから認識結果が得られるまでに要する
時間が短縮され、必要とされるメモリの容量を削減する
ことが出来る。
【図面の簡単な説明】
【図1】本発明の音声認識装置の一実施例を示す具体的
構成図である。
【図2】本発明の音声認識装置の流れ図である。
【図3】本発明の音声認識装置に用いる逐次のNAT処
理を含めたときのフレーム周期内の処理説明図である。
【図4】本発明の音声認識装置に用いる逐次NATの流
れ図である。
【図5】本発明の音声認識装置の逐次NAT処理を行な
ったときの認識結果出力までの時間の流れを示す図であ
る。
【図6】本発明の音声認識装置の逐次NAT処理及び2
回目のNAT処理を行なったときの認識結果出力までの
時間の流れを示す図である。
【図7】音声認識装置の基本的構成のブロック図であ
る。
【図8】パラメータ空間に描く点列の例を示す図であ
る。
【図9】パラメータ空間に描く軌跡の例を示す図であ
る。
【図10】軌跡上の再サンプル点を示す図である。
【図11】NAT方式の音声認識の基本的構成のブロッ
ク図である。
【図12】従来の音声認識装置の流れ図である。
【図13】従来のフレーム周期内の処理を示す図であ
る。
【図14】NAT処理の流れ図である。
【図15】従来までの処理による認識結果出力までの時
間の流れ図である。
【符号の説明】
1 マイクロホン 2 音響分析回路 2a 音響分析部 2b 音声区間検出部 4 標準パターンメモリ 8 パターンマッチング回路 13a 逐次NAT処理回路 13b NAT処理回路

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 入力音声信号の音声区間で音響分析して
    得た音響パターン時系列をそのパラメータ空間で描く軌
    跡を推定し、その軌跡を所定間隔で再サンプリングして
    得た認識パラメータをパターンマッチングによって音声
    認識する様にした音声認識装置に於いて、 上記音響パターンのパラメータが得られるたび毎に逐
    次、上記該パラメータ空間上の軌跡を所定の一定値間隔
    で再サンプリング処理する様にして成ることを特徴とす
    る音声認識装置。
JP3220732A 1991-08-30 1991-08-30 音声認識装置 Pending JPH0561496A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP3220732A JPH0561496A (ja) 1991-08-30 1991-08-30 音声認識装置
US07/928,448 US5355432A (en) 1991-08-30 1992-08-12 Speech recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3220732A JPH0561496A (ja) 1991-08-30 1991-08-30 音声認識装置

Publications (1)

Publication Number Publication Date
JPH0561496A true JPH0561496A (ja) 1993-03-12

Family

ID=16755663

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3220732A Pending JPH0561496A (ja) 1991-08-30 1991-08-30 音声認識装置

Country Status (2)

Country Link
US (1) US5355432A (ja)
JP (1) JPH0561496A (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2964881B2 (ja) * 1994-09-20 1999-10-18 日本電気株式会社 音声認識装置
US5790754A (en) * 1994-10-21 1998-08-04 Sensory Circuits, Inc. Speech recognition apparatus for consumer electronic applications
JP3716870B2 (ja) * 1995-05-31 2005-11-16 ソニー株式会社 音声認識装置および音声認識方法
JP3180655B2 (ja) * 1995-06-19 2001-06-25 日本電信電話株式会社 パターンマッチングによる単語音声認識方法及びその方法を実施する装置
US5724410A (en) * 1995-12-18 1998-03-03 Sony Corporation Two-way voice messaging terminal having a speech to text converter
US6076055A (en) * 1997-05-27 2000-06-13 Ameritech Speaker verification method
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
US6006186A (en) * 1997-10-16 1999-12-21 Sony Corporation Method and apparatus for a parameter sharing speech recognition system
US6161092A (en) * 1998-09-29 2000-12-12 Etak, Inc. Presenting information using prestored speech
US6598016B1 (en) 1998-10-20 2003-07-22 Tele Atlas North America, Inc. System for using speech recognition with map data
US6266642B1 (en) 1999-01-29 2001-07-24 Sony Corporation Method and portable apparatus for performing spoken language translation
US6278968B1 (en) 1999-01-29 2001-08-21 Sony Corporation Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system
US6282507B1 (en) 1999-01-29 2001-08-28 Sony Corporation Method and apparatus for interactive source language expression recognition and alternative hypothesis presentation and selection
US6356865B1 (en) 1999-01-29 2002-03-12 Sony Corporation Method and apparatus for performing spoken language translation
US6223150B1 (en) 1999-01-29 2001-04-24 Sony Corporation Method and apparatus for parsing in a spoken language translation system
US6442524B1 (en) 1999-01-29 2002-08-27 Sony Corporation Analyzing inflectional morphology in a spoken language translation system
US6243669B1 (en) 1999-01-29 2001-06-05 Sony Corporation Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation
US6374224B1 (en) 1999-03-10 2002-04-16 Sony Corporation Method and apparatus for style control in natural language generation
CN101154379B (zh) * 2006-09-27 2011-11-23 夏普株式会社 定位语音中的关键词的方法和设备以及语音识别系统
WO2013054347A2 (en) * 2011-07-20 2013-04-18 Tata Consultancy Services Limited A method and system for detecting boundary of coarticulated units from isolated speech

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU586167B2 (en) * 1984-05-25 1989-07-06 Sony Corporation Speech recognition method and apparatus thereof

Also Published As

Publication number Publication date
US5355432A (en) 1994-10-11

Similar Documents

Publication Publication Date Title
JPH0561496A (ja) 音声認識装置
JPH10508389A (ja) 音声検出装置
JP3219868B2 (ja) 音声のピッチ周期抽出装置およびピッチ区間自動抽出装置
CN112489692A (zh) 语音端点检测方法和装置
JP3458285B2 (ja) 音声認識装置
JP3063855B2 (ja) 音声認識におけるマッチング距離値の極小値探索方法
JPH0632008B2 (ja) 音声認識装置
JP2658104B2 (ja) 音声認識装置
JPH0654439B2 (ja) 音声認識装置
JPH0632010B2 (ja) 音声認識装置
JP3063856B2 (ja) 音声認識におけるマッチング距離値の極小値探索方法
JPH0776878B2 (ja) 音声認識方法および装置
JPH0567036B2 (ja)
JPH0632009B2 (ja) 音声認識装置
JP2891259B2 (ja) 音声区間検出装置
JPS61275799A (ja) 音声認識装置
JPS6147439B2 (ja)
JPH01260495A (ja) 音声認識法
JPH05313695A (ja) 音声分析装置
JPH0469959B2 (ja)
JPS61208097A (ja) 音声認識装置
JPS63292199A (ja) 音声認識装置
JPS61267098A (ja) 音声認識装置
JPS61252595A (ja) 音声認識処理方式
JPH04305698A (ja) 音声認識装置