JPH0416800B2 - - Google Patents

Info

Publication number
JPH0416800B2
JPH0416800B2 JP57048184A JP4818482A JPH0416800B2 JP H0416800 B2 JPH0416800 B2 JP H0416800B2 JP 57048184 A JP57048184 A JP 57048184A JP 4818482 A JP4818482 A JP 4818482A JP H0416800 B2 JPH0416800 B2 JP H0416800B2
Authority
JP
Japan
Prior art keywords
signal
frame
digit
standard word
speech pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP57048184A
Other languages
English (en)
Other versions
JPS57169800A (en
Inventor
Sukotsuto Maiaazu Korii
Kurisutofuaa Piatsu Furanku
Richaado Rabinaa Roorensu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Technologies Inc filed Critical AT&T Technologies Inc
Publication of JPS57169800A publication Critical patent/JPS57169800A/ja
Publication of JPH0416800B2 publication Critical patent/JPH0416800B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Description

【発明の詳細な説明】 発明の背景 本発明はパターン認識装置に関し、より詳細に
は連続する音声パターンを一連の単語として自動
的に認識する装置に関する。 通信、データ処理、制御等に使用される装置で
は、質問、命令、データまたはその他の情報を直
接入力するための手段として話しことばを使用す
ることが多い。言語認識装置を利用すれば端末装
置を手動操作する必要がなくなり、また、他の作
業に携りながら自動装置と通信することができ
る。しかしながら、話者によつて音声パターンは
多種多様であり、特定の個人の場合でさえパター
ンに差が生じるので、言語認識の精度には限界が
ある。そのため、言語認識装置の設置条件を特別
に配慮しなければ満足な結果は得られない。 一般に、言語認識装置は入力された音声信号を
複数組の所定の音響的特徴に変換する。次に、入
力音声信号の音響的特徴が、識別された標準単語
についてすでに記憶されている複数組の音響的特
徴と比較される。入力音声信号の特徴が所定の認
識基準に従つて特定の標準単語系列の特徴記憶と
一致することが判別されたとき、音声信号が識別
される。このような認識装置の精度は、どのよう
な特徴を選択するか、また認識基準としてどのよ
うなものを規定するかによつて大きく左右され
る。標準的特徴と入力音声の特徴を同じ人間から
取り、認識すべき入力音声パターンを1単語1単
語はつきりと区切つて発音すれば、最良の結果が
得られる。 入力音声の特徴の系列を、連続する音声から取
出される標準単語の特徴信号パターンについて考
えられるあらゆる組合せと比較することにより、
連続する音声パターンを認識できる。しかしなが
ら、このような認識方法では、標準単語パターン
のすべてを試験しなければならないので時間がか
かり、さらに標準単語の多数の組合せを1つ残ら
ず試して適合するものを捜し当てなければならな
い。周知のように、連続する単語の数が増せば、
それと指数相関関係で系列の数を増す。そのた
め、一般的には、1つの音声パターンに含まれる
単語の数が限られている場合にまですべてを網羅
して検索するのは無駄である。 ある種の情報を容易に分析できるように、検索
される系列の数を限定するために意味論および統
語論の規則を応用しても良い。たとえば、米国特
許第4156868号には、統語論による分析に基く認
識装置が記載されている。この場合、入力音声パ
ターンは統語論上可能である標準パターンのみと
比較される。しかし、一連の数字のような関連性
をもたない話しことばの場合、このような文脈上
の強制条件は当てはめても、話しことば系列の認
識能力は向上しない。 米国特許第4049913号および第4059725号には、
個々の標準単語の特徴パターンと入力音声パター
ンについて可能なすべてのインターバルの特徴と
の間の類似性を計算する連続的言語認識装置が記
載されている。この類似性測定値から、各々の標
準単語特徴パターンについて部分的な認識結果が
取出される。部分的な類似性測定値と、部分的な
認識結果の双方が1つの表に書込まれる。表から
得られる認識結果を抽出して、入力音声パターン
に対応する一連の標準単語を提供する。連続する
パターンを形成する組合せとして考えられるあら
ゆる部分的パターンの組合せを表から選択する。
次に、類似性が最も大きいパターンを選択する。
このような認識装置は連続することばの認識には
有効であるが、多くの場合、標準パターンと部分
的パターンとの類似性の測定値を得るための信号
処理過程がきわめて複雑で、不経済である。 本発明の譲受人に譲渡されている米国特許出願
第138647号に記載された連続的言語分析装置は、
発せられたことばを一連の標準単語として認識す
るもので、それらの標準単語について音響的特徴
信号が記憶されている。発せられたことばの音響
的特徴および標準単語の音響的特徴に応答して、
発せられたことばの構成部分として少なくとも1
つの標準単語系列が発生される。発せられたこと
ばの連続する語位置が識別される。各々の単語位
置において、発せられたことばの部分に対応する
標準単語を決定し、発せられたことばの部分に対
して所定の類似性を有する標準単語を前の単語位
置について選択された部分的候補系列と組合わせ
ることにより、連続する部分的候補系列が形成さ
れる。決定されたことば部分について、前の単語
位置の候補系列に対してことば部分の所定の範囲
を重ね合わせて、調音結合、および発せられたこ
とばの音響的特徴と区切つて発話された標準単語
の音響的特徴との間の差異に対処する。 この装置の場合、未知のことばの連続する各々
のインターバルについて特定の候補部分単語を選
択することにより信号処理が著しく簡単になり、
さらに、調音結合があるときの認識精度も改善さ
れている。しかしながら、各単語位置においてあ
るいくつかのことばのある候補を選択する際に、
各単語位置を認識して行く間にその他に考えられ
る標準単語系列の候補が考慮されない。そのた
め、長いことばに関して言語認識精度が制限され
る。本発明の目的は、信号処理に対する必要条件
が限定されている連続する音声パターンを認識す
る改良された装置を提供することである。 発明の概要 本発明は、連続する音声パターンを一連のあら
かじめ規定された標準単語として認識するもので
ある。個々の標準単語の音響的特徴の系列を表示
する信号がスタートフレームからエンドフレーム
まで記憶される。連続する音声パターンの音響的
特徴に対応する信号の音声時系列が形成される。
音声パターンの特徴信号と、標準単語の特徴信号
の双方に応答して、複数の標準単語列が発生され
る。音声パターンは、発生する標準単語列のうち
の1つとして識別される。 標準単語候補列を発生する間に、音声パターン
の連続する単語列を識別する一組の信号が供給さ
れる。連続する各々の桁に1つの音声パターン区
分が割当てられる。 連続する各々の桁において、標準単語の特徴パ
ターンの音響学的に可能なフレームについて、単
語桁の音声パターン区分の特徴信号と、各標準単
語の特徴信号とが時間的に記録される。それによ
り、各標準単語について、時間的記録の音声パタ
ーン区分のエンドフレーム信号と、時間的記録に
対応する信号とが発生される。各桁の時間的記録
エンドフレーム信号および対応する信号に応答し
て、標準単語列が選択される。 本発明の1つの面によれば、各桁のエンドフレ
ームについて最も良く対応する信号と、各桁のエ
ンドフレームについて最も良く対応する標準単語
を表示する信号と、最も良く対応する標準単語の
時間的記録に対するスタートフレームを表示する
信号とが記憶される。 本発明の別の面によれば、各桁の音声パターン
区分の時間的記録のスタートフレームが先行する
桁の時間的記録のエンドフレームに制限される。 本発明のさらに別の面によれば、各桁における
音声パターン区分の時間的記録のスタートフレー
ムは、先行する桁の最も良く対応する信号のうち
最小のものより小さい限界最良対応信号を有し、
かつ先行する桁のエンドフレームの範囲に制限さ
れる。 本発明のさらに別の面によれば、各音声パター
ン区分のフレームとの時間的記録のための標準単
語フレームの範囲は調音結合効果を減少させるよ
うに選択される。第1の所定数より少なく、かつ
選択された標準単語の下限フレームに応答して標
準単語範囲の下限フレームが標準単語のスタート
フレームまで拡張され、また、第2の所定数より
多く、かつ選択された標準単語の上限フレームに
応答して標準単語範囲の上限フレームが標準単語
のエンドフレームまで拡張される。 本発明のさらに別の面によれば、標準単語のエ
ンドフレームと等しいか、またはそれより広い標
準単語範囲の上限フレームに応答して時間的記録
の音声パターン区分のエンドフレームが検出され
る。 本発明のさらに別の面によれば、各桁の音声パ
ターン区分フレームについて、時間的記録の対応
信号が発生される。前記桁の音声パターン区分フ
レームに対応する最大許容信号が発生され、前記
フレームについて許容される最大の時間的記録対
応信号より大きい時間的記録対応信号に応答し
て、各標準単語の時間的記録が終了する。 本発明のさらに別の面によれば、各々の音声パ
ターン区分フレームとの時間的記録のための標準
単語範囲の下限フレームが標準単語のエンドフレ
ームと比較される。標準単語エンドフレームと等
しいか、またはそれより広い標準単語範囲の下限
フレームに応答して、各標準単語の時間的記録が
終了する。 本発明のさらに別の面によれば、各桁における
時間的記録のための標準単語は桁識別信号に応答
して選択される。 一般的考察 連結された複数の単語のように連続することば
を認識する場合、音響的特徴を示す信号の時系
列、 RV=RV(1),RV(2),…,RV(Mv) (1) が標準単語の各組について記憶される。この特徴
は、先行技術において良く知られているように、
各標準単語RV、1vVの発せられたことば
をスペクトル分析、予測分析またはその他の方法
により分析することによつて取出すことができ
る。音響的特徴をもつ信号の時系列、 T=T(1),T(2),…,T(Nm) (2) は入力音声パターンを同様の方法で分析すること
により得られる。一般に、標準単語について考え
られるあらゆる単語列が合成され、各単語列につ
いて特徴信号の系列が入力されたことばの特徴信
号の系列と比較される。その中で実際の発話に最
も近い関係で対応する単語列が入力されたことば
として認識される。話す速度には大きな差がある
ので、周知の技術である動的計画法を利用して、
標準単語列の特徴を入力されたことばの特徴に時
間的に記録しても良い。このようにすると、標準
単語列と入力されたことばとをかなり正確に対応
させることができる。 各標準単語列は複数の標準単語のつながりによ
り構成されている。 RS=RV1RV2…RVLmax (3) 単語列RSの音響的特徴をもつ信号は、発せら
れた実際のことばの特徴に動的に時間正規化
(DTW)されて、標準単語列の特徴ベクトル、 RS=RV1(1),RV1(2),…RV1(MV1),RV2
(1),RV2(2),…RV2(MV2),…RVLmax(1),
RVLmax(2),…RVLmax(Mvnax) (4) と発せられたことばの特徴ベクトル、 T=T(1),T(2)…T(n),…T(Nm) (5) との間の最短DTW距離信号を発生する。単語列
RSを発せられたことばの特徴ベクトルTに時間
正規化することにより得られる累積距離信号は、 D(T,RS)=nio W (n)Nno=1 d(T(n), RS(W(n))) (6) のように表わされる。ここで、W(n)は特徴ベ
クトルTと単語列RSとの間の時間正規化係数で
あり、RS(W(n))=(n,W(n))は発せら
れたことばTのフレームの特徴ベクトルと単語
列RSのフレームm=W(n)との間の局部的距離
である。W(n)は通常、発せられたことばの終
点が単語列の終点と一致するように制限されてお
り、また時間正規化係数W(n)の勾配は予測さ
れる音声パターンフレームの範囲に対応するよう
に選択されている。考えられるあらゆる単語列
RSに動的時間正規化を適用すると、使用する標
準単語の数がさほど多くないにもかかわらず、信
号の処理に時間がかかつて不経済である。 本発明によれば、動的時間正規化を複数の連続
する桁の分割しているので、信号の処理プロセス
がかなり簡単になつている。それにもかかわら
ず、入力されたことばの候補であると考えられる
単語列RSの数は制限されていないため、認識の
精度は損なわれていない。第1図は、桁処理の方
式を示す。第1図の横軸は発せられたことばの連
続するフレーム1,2,…n…Nnに対応する。
各桁にはことば部分が割当てられており、これは
音響的な時間記録を制限することにより規定され
る。縦軸は桁=1,2,…Lnaxに分割され、Lnax
は発せられたことばについて予測される最大数の
単語である。縦軸の各桁は標準単語のフレームに
分割される。各標準単語について、桁LはMW
のフレームを有する。標準単語パターンの継続時
間が各々異なつているため、一般に、各標準単語
のフレーム数は異なる。すべての標準単語の特徴
信号RVは桁のスタートフレームから始まつて発
せられたことばの部分にタイムワープされる。 各標準単語について、その桁の標準単語と発せ
られたことばの部分との間で考えられる時間的記
録経路を DA(n,m)=(n,m)+minDA(n−1,
j) m−I2j<m−I1 (7) に従つて点(n,m)によりグラフに記入する。
ただし、式(7)において1nNnは発せられた
ことばのフレームであり、1mMwはその桁
の標準単語フレーム、また、DA(n,m)は点
n,mにおける経路に沿つた累積距離信号であ
る。(n,m)は発せられたことばのフレーム
nにおける発せられたことばの特徴ベクトルと標
準単語フレームにおける標準単語の特徴ベクト
ルとの間の局部的距離である。式7の右辺の項は
発せられたことばのフレームn−1および標準単
語RSのフレームm−I2j<m−I1までの距離を
表わす。フレームI1は、話す速さの差について許
容されている範囲に適合するように選択され、通
常はW(n−1)=W(n−2)のとき1に設定さ
れ、その他の場合には0に設定される。I2は通常
2に設定される。従つて、はW(n−1)=W
(n−2)のときm−2からm−1の範囲内にあ
り、その他の場合にはm−2からmの範囲にあ
る。動的タームワープ方式は、“IEEE
Transactions on Acoustics,Speech,and
Signal Processing”,ASSP−23巻に掲載のF.イ
タクラ著の論文「言語認識に適用される最小予測
誤差」(Minimum Prediction Residual Applied
to Speech Recognition)(1975年2月、67〜72
ページ)および同雑誌ASSP−26巻に掲載のL.R.
ラビナー、A.E.ローゼンバーグ、S.E.レビンソン
(L.R.Rabiner,A.E.Rosenberg&S.E.Levinson)
共著の論文「単語認識のための動的時間正規化ア
ルゴリズムの考察」(Considerations in
Dynamic Time Warping Algorithms for
Discrete Word Recognition)(1978年12月、575
〜582ページ)により詳細に説明されている。 経路スタートフレームおよび経路エンドフレー
ム、並びに各経路における標準単語と発せられた
ことばの特徴との間の累積距離は、式7による動
的時間正規化処理により決定される。ある桁の発
せられたことばのエンドフレームは、次の桁につ
いて考えられる経路スタートフレームに対応す
る。桁の各エンドフレームについて、そのエンド
フレームまでの最短累積距離と、最短累積距離信
号に対応する標準単語と、最短累積距離経路に対
する桁スタートフレームとが記憶される。最後の
桁の処理が完了した後、記憶されていた距離信
号、標準単語、桁エンドフレームおよび桁スター
トフレームから、実際のことばに最も近い関係で
対応する系列が再構成される。 ここで本願明細書中で用いられる用語の説明を
しておく。 “音声パターン”とは音声信号系列であつて
“音響的特徴”信号に該当する。これらの特徴信
号は音声のスペクトルまたは予測特徴を同定する
ことができる。これは本願明細書中の式(1)と(2)に
表わされている。 “標準単語列”とは、標準単語の同定された系
列であり、その音響的特徴は同定されるべき音声
パターンとの比較のために蓄積されている。これ
は本願明細書中の式(3)で表わされている。 “フレーム”は音声が解析のために分割される
期間を指す(例えば派生音響的特徴)または、そ
の期間に解析された音声部分を表わす信号の集ま
りである。 各“桁”(後述を参照)はフレーム番号とそれ
を関連されているから、あるものは“スタートフ
レーム”と呼ばれ他は“エンドフレーム”と呼ば
れる。この点本願明細書中の式(7)以降の記述を参
照されたい。 “時間正規化”は異なる人の話す速度または同
じ人が異なる環境で話す速度を考慮するため音声
パターンを効果的に圧縮または伸張する周知の技
術を意味する。 “桁”とはここでは次の意味で用いられてい
る。 “単語桁”とは標準単語の系列の位置を示す。
Lは桁を指定する便宜のため用いられている。単
語桁L=1は系列の第1の語の位置であり、単語
桁L=2は第2の単語の位置である。最後の即ち
最大の単語位置はLnaxの単語桁となる。 単語桁Lnaxの総称は応用により決定される。例
えば、もし特定の7桁電話番号として接合された
単語の未知の発生を認識することが目的なら、単
語桁Lnax=7になるだろう。単語桁L=1,2…
…7の各々で、10個のあり得る標準単語(例え
ば、数字0,1,2,……,9)の1つが未知の
発声の一部に整合するだろう。 第1図はさらに試験単語対標準単語と単語桁と
の間の関係を示している。例示の便宜上、Lnax
4があり得る単語桁である。単語桁L=1,2,
3および4の各々で、2つのあり得る標準単語
(2数値0と1)の1つが入力発生に整合される。
入力発生は例えば“0,1,0,1”または
“0,0,1,0”のように連結して話された数
“0”と“1”の4つからなるとされている。 第1図の横軸は入力発声フレーム系列nを表わ
している。左縦軸は標準単語フレームmの系列を
表わしている。4つの単語桁が図表の右縦軸に沿
つて示されている。各標準単語wに関し桁Lでの
エンドフレームMLwは左縦軸に沿つて示されて
いる。標準単語w=0に関しては第1の単語位置
(桁1)はフレームm=1で始まりそしてフレー
ムM10で終わる。同様に、標準単語w=1に関し
ては桁1はフレームm=1で始まりそしてフレー
ムM11で終わる。標準単語w=0に関し桁2はフ
レームM10で始まり、そしてフレームM20で終
る。簡単化のため、この例では標準単語0と1は
同じ期間即ちML0=ML1を有している。 第1図に関して説明する。不必要な処理を避け
るために、動的時間正規化処理は予測される音声
フレームの領域にのみに限定されている。たとえ
ば、第1図のn=1である発せられたことばのス
タートフレームは音響学的にはすべての標準単語
のエンドフレームに対応できない。同様に、第1
図のその他の領域も音響学では考えられないもの
である。そのため、DTW処理は認識の精度を損
なうことなく、音響学的に存在すると思われる音
声フレームの領域に限定される。第1図におい
て、DTW処理は4語から成る入力され発せられ
たことばに対応する線101,102,103お
よび104により境界を限定されている領域にの
み限つて行なわれる。許容された領域の終端の点
は、考えられる標準単語列および実際に発せられ
たことばの終点に対応する。線101,102,
103および104により囲まれた平行四辺形
は、標準単語列と発せられたことばとの間の話す
速度の2:1の増加および2:1の減少を表わし
ている。これらの境界線は式7の範囲制限により
固定されている。第1図に示すDTW処理の領域
は本発明に適合するものであるが、先行技術にお
いて良く知られている他の制限方式を本発明と組
合せて使用しても良い。 第1図は、4単語で発話された二進数の系列
1001から成る音声パターンの桁形成認識過程を示
すグラフである。第6図のフローチヤートは桁形
成過程の動作系列を示す。標準単語、すなわち0
と1について音響的特徴をもつ信号を記憶した
後、オペレーシヨンボツクス601に指定されて
いる発せられたことばの分析が行なわれる。分析
工程において、入力されたことばに対応する音響
的特徴の系列が発声される。次に、単語桁が桁L
=0に初期設定される(ボツクス603)が、こ
れに対して、単一の発せられたことばのスタート
フレームn=1が存在する。 オペレーシヨンボツクス605に従つて桁L+
1=1の距離信号およびスタートフレーム信号を
初期設定することにより、最初の桁処理が開始さ
れる。第1図の第1の桁は横座標150から線1
60までであるが、これらの線は桁L=1の標準
単語のスタートフレームとエンドフレームに対応
する。横座標150に対応する桁L=0の終わり
が走査されて(ボツクス607)、その中の第1
のスタートフレームを検出する。走査によりスタ
ートフレームn=1が検出された後、桁L+1=
1について、オペレーシヨンボツクス609に従
つて、発せられたことばの特徴の標準単語の特徴
への動的時間正規化が開始される。 動的時間正規化処理の中で、まず最初に標準単
語フレームm=1からフレームM1 0まで、標準単
語「0」の特徴信号が発せられたことばの特徴信
号に動的に時間正規化されるが、この時間正規化
は実際のことばに対応するフレームn=1から開
始される。このようにして、第1の桁に於いて実
際に発せられたことばのパターン部分を表示する
線101,104および160により境界を限定
された領域において許容される経路が形成され
る。第1図に示すように、終点n1 1およびn1 2を有す
るパス110−1および110−2が決定され
る。そこで、これらの経路の終点と、これらの経
路に沿つた累積距離の対応と、標準単語識別信号
ゼロとが記憶される。さらに、標準単語「ゼロ」
について終点n1 3で終わる経路を決定しても良い
が、これらの経路は後に標準単語「ワン」につい
て得られる累積距離より長い累積距離を有する。 次に、標準単語「ワン」の特徴信号がフレーム
m=1からM=M1 1まで発せられたことばの特徴
信号に動的に時間正規化されるが、この時間正規
化は発せられたことばのフレームn=1から開始
される。第1図に示すように、標準単語1に対し
て経路110−3,110−4,110−5およ
び110−6が形成される。これらの経路の終点
n1 3,n1 4,n1 5およびn1 6が累積経路距離および標準単
語識別信号1と共に記憶される。標準単語「ワ
ン」について終点n1 1およびn1 2を有する経路を求め
ても良いが、第1図には最短累積距離の終点に向
かう経路のみが示されている。標準単語「ゼロ」
の経路と標準単語「ワン」の経路とが同じ終点で
終わつているときは、累積距離が短い方の経路を
選択する。従つて、終点n1 1およびn1 2で終わる標準
単語「ゼロ」の経路のみが保持され、標準単語
「ワン」の方は終点n1 3からn1 6で終わる経路のみが
保持される。このように、発せられたことばにつ
いて考えられる標準単語特徴信号のあらゆる組合
せが評価さえる。桁L+1=1の動的時間正規化
が終了すると、デシジヨンボツクス611に示す
ように、桁Lが最大桁(Lnax=4)と比較され
る。この比較の結果、桁がL=0からL=1へ増
分される。デシジヨンボツクス611を介してボ
ツクス605へ再び戻るので、桁L+1=2の距
離とスタートフレームの記憶が初期設定される。
ボツクス607において桁L=1の第1のスター
トフレームが走査されると、桁L+1=2の動的
時間正規化の最初のスタートフレームとしてフレ
ームn1 1が検出される。 第2の桁のDTW処理(ボツクス609)にお
ける標準単語の特徴信号のフレームの系列は線1
60と170との間にある。音声パターン区分の
線160,101,170,103および104
により境界を限定させた領域内にあるDTW処理
経路のみが許容される。第2の桁処理のスタート
フレームは第1の桁の経路のエンドフレームに対
応しているので、連続性が維持される。線160
上で始まる標準単語ゼロの特徴信号が、ことばフ
レームn1 1で始まることばの特徴信号に動的に時間
正規化される。第1図に示すように、その中で特
にDTW経路120−5,120−7,120−
8,120−9および120−10が形成されれ
る。これらの経路の終点n2 5,n2 7,n2 8,n2 9および
n2 10は発せられたことばの開始点からこれらの終
点までの累積距離、並びにゼロ標準単語識別信号
および決定された前記の経路の第2桁(L+1=
2)スタートフレームと共に記憶される。 次に、線160と170との間の標準単語「ワ
ン」の特徴信号がフレームn1 1で始まる発せられた
ことばの特徴信号に時間正規化されて、標準単語
「ワン」に対する第2の桁の経路が決定される。
その中で特に経路120−1,120−2,12
0−3,120−4および120−6が形成され
る。これらの経路のエンドフレームn2 1,n2 2,n2 3
n2 4およびn2 6について、発せられたことばのスター
トフレームからの累積距離と、標準単語1の識別
信号と、これらの経路の開始点となつている線1
60に沿つたフレームとが記憶される。第2の桁
(L+1=2)の時間的記録処理(オペレーシヨ
ンボツクス609)が終了すると、許容領域内部
のすべての2語部分単語列が評価され、可能な候
補単語列を限定する信号が記憶される。ここで再
びデシジヨンボツクス611へ戻る。最後の桁
Lnax=4がまだ処理されていないので、桁Lは2
に増分される(ボツクス615)。 次にボツクス605に入れ、次の桁L+1=3
の記憶が初期設定される。次に桁L=2が走査さ
れて(ボツクス607)、第3の桁(L+1=3)
の時間的記録処理の最初のスタートフレームとし
てエンドフレームn2 1が検出される。第3の桁の処
理(ボツクス609)の間に、標準単語の特徴信
号が線170と線180との間の第3の桁におい
て反復される。標準単語の特徴信号が線170上
の発せられたことばのフレームn2 1で始まる発せら
れたことばの特徴信号に動的に時間正規化される
と、その結果として、標準単語ゼロに対する最良
の距離の経路130−1,130−3,130−
4,130−5および130−6と、標準単語1
に対する最良の距離の経路130−2とが形成さ
れる。線170上のスタートフレームから発する
他の経路も考えられるが、これらの経路は線17
0,101,102,180および103により
限定される領域の外にあるために、または考慮に
入れるにしては余りに累積距離が長すぎるために
無効である。累積距離信号、標準単語識別信号、
および許容される終点に関するスタートフレーム
信号が記憶されると共に、第3の桁の終了的に3
つの標準単語について考えられるすべての単語列
が識別される。 ここで再びデシジヨンボツクス611に入り、
その結果、インデツクスボツクス615において
桁インデツクスがL=3に変化する。先の桁処理
に関して述べたように、オペレーシヨンボツクス
605において桁L+1=4の距離信号とフレー
ムの記憶が初期設定される。オペレーシヨンボツ
クス607により桁L=3について記憶されてい
るフレーム信号が走査され、桁L+1=4の動的
時間正規化の第1フレームとしてスタートフレー
ムn3 1が選択される。次に、オペレーシヨンボツク
ス609に示すように第4の桁のDTW処理が行
なわれる。 第1図に示すように、標準単語の特徴信号と発
せられたことばの特徴信号との間の第4の桁の動
的時間正規化の結果、線180上のことばフレー
ムn3 5と線190上のことばエンドフレームN1
の間に単一の経路140−1が形成される。第4
の桁のDTW処理の後、動的時間正規化経路と発
せられたことばのエンドフレームNの交差点が検
出され、デシジヨンボツクス611において桁処
理が終了する。次にオペレーシヨンボツクス61
3に入り、記憶されている桁データから最良の標
準単語列が再構成される。そこで、第1図におい
て、記憶された桁終点n3 5,n2 9およびn1 5により桁
4,3,2および1を通して経路140−1,1
30−5,120−8および110−5がバツク
トラツクされる。このようにして、入力されあこ
どばとして二進シーケンス1001が選択される。任
意の桁において2つ以上の経路が発せられたこと
ばの最終フレームNnで終わるとき、第1図にお
いて考えられる限りの時間的記録経路について累
積距離を比較することにより、最も近い関係で対
応する標準単語列を選択することができる。また
は、特定の数の数字を有する標準単語が選択され
る。 第1図に示す例において許容される記録経路の
領域は、発せられたことばの最終フレームNn
線190上の最後の標準単語エンドフレームと一
致させることにより、連結された所定数の単語か
ら成ることばのみを含むように定められている。
この方式はと容易に変更することができ、許容領
域を各桁について最低音声速度境界線104の上
方にある末端を含むように広げれば、より少ない
単語から成る発せられたことばを処理することが
できる。第1図において、動的時間正規化領域を
線104,170および180を延長した点線と
点線105により示される領域まで拡大すること
によつて、2単語または3単語の標準単語列を使
用して発せられたことばを処理することができ
る。このように領域を拡大すれば連結された様々
な長さのことばを認識することができる。ただ
し、入力されたことばの語の最大数があらかじめ
規定されるという制限がある。 第1図に示す例においては、第4の桁の経路1
40−1の終点は発せられたことばのエンドフレ
ームNを限定する線と交差していた。このような
必要条件を設定すると、競合する標準単語列を選
択する際に不当な制限が加わることがある。いく
つかのフレームについて1つの最終範囲が限定さ
れる方式では、入力されたことばのエンドフレー
ムの決定にある程度の誤りが許される。従つて、
第1図の場合には、線192と194との間の終
端範囲が適切な発せられたことばの終点領域を提
供している。より広い範囲の発せられたことばの
最終フレームを受容するため、線120が点線1
09の位置までずらされている。 先行技術においてよく知られているように、連
結された複数の語から成る音声パターンを孤立し
た標準単語パターンがつながつたものと共に時間
的に記録して行くと、連結された語の音声パター
ンにおける調音結合のために誤りが生じる。標準
単語は単独で発話されたとき、一般に長く伸びる
ため、このような誤りは語の開始領域と終了領域
との間のずれに起因するということができる。第
1図例示した方式を変形して、各桁の境界線にお
いてスタートフレームとエンドフレームとが最も
良く適応しているものを選択できるようにするこ
とにより、このような調音の結合に対処しても良
い。その結果、桁境界線に近接する時間的記録が
調音結合を受容するように調節される。 第1図の各桁における発せられたことばのスタ
ートフレームは先行する桁において形成されたエ
ンドフレームに対応するが、先行する桁の終点と
関連する累積距離の大きさとは無関係である。認
識方式を変形して、先行する桁の処理中に決定さ
れた最良の平均累積距離の規定された範囲に従つ
てスタートフレームを制限することにより、必要
な信号処理をさらに減少させても良い。このよう
な制限を加えても、存在すると思われる構成部分
のうち最小量のものが考慮から外されるだけであ
るので、認識精度は実質的に影響を受けない。 詳細な説明 第2図および第3図は本発明による連続的言語
認識装置の詳細なブロツク図を示す。第2図にお
いて、標準単語の特徴信号用記憶装置205は複
数のテンプレイト信号を記憶する。この記憶装置
205は、データ・インク(DATA INC.9889
ウイロー・クリーク・ロード、私書箱26875、サ
ン・デイエゴ、カリフオルニア州、アメリカ合衆
国92126)社刊のデータ・ブツク エレクトロニ
ツク・インフオメーシヨン・シリーズ(Data
Book Electronic Information Beries)に記載
されている745287型プログラマブル読出し専門メ
モリ(PROM)集積回路であつても良い。各テ
ンプレイト信号は1つの標準単語の音響的特徴の
系列を表示する。これらの音響的特徴は、先行技
術において良く知られている直線的予測分析によ
り、単語の孤立した複数の発話から取出される。
直線的予測パラメータは第2図および第3図の回
路において特徴信号として使用されるが、スペク
トルパラメータまたはフオルマントパラメータ等
の他の音響的特徴を本発明と組合わせて利用して
も良い。各標準単語として発せられたことばはM
語のフレームに分割され、各フレームについて
(p+1)番目の特徴ベクトル信号が発生される。
特徴ベクトル信号は、フレーム音声信号の自己相
関された直線的予測係数に対応する。そこで、標
準単語のテンプレイトは式1の信号により表わさ
れる。標準単語W1,W2…Wnのテンプレイト信
号は特徴記憶装置105に記憶され、単語カウン
タ220からのテンプレイト語数信号によりア
ドレスされる。この単語カウンタ220は、デー
タ・ブツク の74163型2進アツプ/ダウンカウ
ンタを具備していても良い。例えば、第2図およ
び第3図に示される認識装置が発話された数の系
列を認識するものとすれば、標準単語の組は0か
ら9までの数字から構成されることになる。 第2図の発せられたことばの特徴信号用発生器
201は、電気音響変換器200からの音声信号
を受信し且つ受信した話しことばを標準単語の特
徴信号用記憶装置105に記憶されている信号と
同種類の一連の音響的特徴信号に変換するように
調整されている。変換器200からの音声信号の
各々のフレームについて直線的な予測コード化分
析が行なわれて、そのフレームの(p+1)番目
の特徴ベクトル信号が形成される。この分析か
ら、式2に示した発せられたことばの特徴信号の
系列が得られる。特徴ベクトル信号T(n)は
次々に発せられたことばの特徴信号用記憶装置2
03(データ・ブツク の745207型ランダム・ア
クセス・メモリ(RAM)を複数具備する)へ転
送され、そこでフレームごとに記憶される。発せ
られたことばの特徴信号の発生器201は米国特
許第4092493号に記憶の直線的予測係数発生器ま
たは先行技術において良く知られている他の
LPC発生装置とすれば良い。 時間的記録処理は各桁について、記憶装置20
3からの発せられたことばの特徴信号と、記憶装
置205からの標準単語の特徴信号とに応答して
DTWプロセツサ207において行なわれる。プ
ロセツサ207で発生した累積距離信号dSは桁記
憶装置210の部分210−2に挿入される。桁
記憶装置210はデータ・ブツク 745207型ラン
ダム・アクセス・メモリを複数具備していても良
い。桁記憶装置は発せられたことばのフレーム数
nと桁Lの双方によりアドレスされる。部分21
0−1は、動的時間正規化処理の間にDTWプロ
セツサ207から得られるスタートフレーム数
SFNを記憶する。部分210−3は、時間正規
化処理と関連する標準単語識別信号を記憶す
る。信号nおよびLによりアドレスされた処理結
果は線路211−1,211−2および211−
3において各々スタートフレーム信号SFN、累
積距離信号dおよび標準単語識別信号Wとして利
用できる。 第3図のフレーム系列論理回路307は、記憶
装置203からの発せられたことばの特徴信号の
読出しを制御する発せられたことばのフレーム
の系列を提供すると共に、DTWプロセツサ20
7の動作を決定する制御信号を発生する。第2図
のハツクトラツク記憶装置260は最終桁の処理
が改良した時点で動作状態となつて、桁処理中に
決定されたDTW経路を記憶する。それにより、
最も近い関係で対応する標準単語列が選択され
る。例えば、第2図および第3図の言語認識装置
は、連続する最長5桁の数より成ることばを認識
するために使用されるものとする。ただし、この
言語認識装置を任意の文字から成る話しことばの
単語または句および単語以外の長さを有すること
ばを認識するために使用しても差しつかえない。
説明のために選択したことばは、128フレームに
わたる数字系列「4453」である。発せられたこと
ばを電気音響変換器200に印加する前に、スイ
ツチ206等の外部装置の制御の下で信号発生器
204により信号STARTは発生される。 START信号は、第4図に詳細に示すコントロ
ーラ350に印加される。第4図のコントローラ
は第2図および第3図の認識回路の全般的な動作
順序を決定するシーケンス制御回路400と、シ
ーケンス制御回路400により選択される個々の
動作モードを決定するコントローラ410,42
0,430,440および450とを具備する。
第4図の各制御回路は、“Electronic Design”4
号(1979年2月15日刊)の128〜139ページに掲載
されたステフアン・Y・ラオ(Stephan Y.Lau)
著の論文「バイポーラ・プロセツサの制御による
高速性の活用法」(Let A Bipolar Processor
Do Your Control and Take Advantage of
Ite High Speed)に記載されているもののよう
な先行技術において良く知られているマイクロコ
ンピユータである。先行技術において良く知られ
ているように、この種のコントローラはこれに印
加される信号の状態に応答して、1つ以上の選択
された出力信号を発生する。すべての制御回路は
読出し専用メモリを含み、このメモリの中に、制
御回路の動作シーケンスを指示する一組の命令が
記憶されている。シーケンス制御回路400への
命令は付録AにFORTRAN言語で示されている。
同様に、付録B,C,D,EおよびFに夫々コン
トローラ410,420,430,440および
450への命令を示す。 発生器204からの信号STARTはシーケンス
制御回路400に供給され、シーケンス制御回路
400はこの信号に応答して制御パルスSAと、
制御信号Aとを発生する。制御パルスSAは第2
図の発せられらことばの特徴信号用発生器201
に印加され、発生器201を調整して、変換器2
00からの音声パターン信号に応答して一連の発
せられたことばの特徴ベクトル信号T(n)およ
びフレームアドレス信号FSAを発生させる。フ
レームアドレス信号FSAはANDゲート222お
よびORゲート226を介して発せられたことば
の特徴信号用記憶装置203のアドレス入力端に
伝送される。一方、制御信号Aは動作可能状態と
なつている。 第7図のフローチヤートは発せられたことばの
分析動作を示す。ボツクス700に示すように信
号STARTが得られると、制御パルスSAが発生
され且つオペレーシヨンボツクス710に指示す
るように発せられたことばの特徴信号が発生され
記憶される。発せられたことばの分析と、特徴信
号の記憶装置203への書込みが完了すると、発
生器201により制御パルスEAが発生され、且
つ発せられたことばのエンドフレームNn=128が
発生器201からフレームカウンタ230へ転送
される。第4図のシーケンス制御回路400はパ
ルスEAに応答して制御パルスSBOおよびSLJM
を発生する。これらの信号は、第7図のオペレー
シヨンボツクス720に示すように桁処理を第1
の桁に初期設定するように動作する。制御パルス
SBOは第2図のバツクトラツク・カウンタ24
0のセツト入力端に印加され、それによりこのカ
ウンタはゼロ状態にリセツトされる。パルス
SLJMはORゲート467を通過て、ORゲート4
67からのSLJ信号は桁カウンタ250に印加さ
れる。桁カウンタ250はその結果としてゼロ状
態にリセツトされるので、カウンタ250からの
L出力はゼロであり、L+1出力は1である。カ
ウンタ250は74163型カウンタ回路と、74163型
加算回路と、7485型比較回路とを周知の配置で具
備している。 発せられたことばの分析が終了した時点で現わ
れるパルスEAはさらに、シーケンス制御回路4
00に第8図のフローチヤートに示すような制御
パルスSIを発生させる。制御パルスSIは、第2図
および第3図の認識回路を第1初期設定モードに
入るように調整する働きをする。この第1初期モ
ードにおいては、桁記憶装置210の桁L+1=
1記憶位置がプリセツトされる。このように、第
1の桁部分の音声パターンの特徴信号が第1の桁
の標準単語の特徴信号に動的に時間正規化される
前に、桁記憶装置210が初期設定される。第8
図のボツクス810に指示するように、記憶装置
210の桁L+1=1に対する音声パターンフレ
ームのアドレスは第1のフレームnS=1にセツト
される。オペレーシヨンボツクス820に示すよ
うに第1のフレームの距離信号記憶位置は第2図
および第3図の回路において利用しうる最大限の
数のコードLPNにセツトされ、また発生された
ことばのフレームnS=1と関連するスタートフレ
ーム記憶位置はゼロにセツトされる。発せられた
ことばのフレームの数が増分され(ボツクス83
0)た後、デシジヨンボツクス840を介して再
びオペレーシヨンボツクス820に入るので、次
のことばフレームの距離信号とスタートフレーム
数の記憶位置をプリセツトすることができる。記
憶初期設定動作は、ことばフレーム数が最大こと
ばフレームNn=128より大きくなるまで続き、大
きくなつた時点で時間制御パルスEIが発生する。 初期設定の開始時に、制御回路400からのパ
ルスSIが桁初期設定コントローラ410に供給さ
れる。コントローラ410により発生される制御
信号Iは、桁記憶装置アドレス論理回路290内
のORゲート231およびORゲート254に印
加される。制御信号Iに応答してANDゲート2
33が待機状態となる。同様に、ANDゲート2
56はORゲート254の出力により待機状態と
なる。次に、コントローラ410において制御パ
ルスSN1Iが発生されるので、信号のSN1が
ORゲート461からフレームカウンタ230の
リセツト入力端へ転送される。それによりフレー
ムカウンタは第1の状態に初期設定され、nS出力
が1にセツトされる。nS=1信号がANDゲート
233およびORゲート238を通過するので、
桁記憶装置210のn=1発生されたことばのフ
レームの記憶位置がアドレスされる。桁カウンタ
250はすでにリセツトされており、そのL+1
出力は1である。L+1=1信号はANDゲート
256およびORゲート259を通過し、それに
より、桁記憶装置210のL=1桁がアドレスさ
れる。このように、記憶装置210内の桁1の第
1の発せられたことばのフレーム記憶セルが選択
される。 記憶装置210は745207型RAMと、745287型
PROM集積回路とを具備し、3つの部分に分割
されている。選択したアドレスの時間的記録経路
のスタートフレームSFNは部分210−1に記
憶される。アドレスされたフレームに関する動的
正規化により得られる累積距離dは部分210−
2に記憶され、アドレスされたフレームに関する
動的時間正規化から得られる標準単語識別信号W
は部分210−3に記憶される。 記憶装置210において桁L+1=1の発生さ
れたことばのフレームnS=1がアドレスされた時
点で信号Iに応答してゼロコード信号がANDゲ
ート274およびORゲート286を通過する。
ゼロ信号は記憶装置の部分210ー1の情報入力
端に示されるANDゲート284が信号Iにより
待機状態となるので、LPN信号はこのAMDゲー
トを通過し、ORゲート282を介して記憶装置
の部分210−2の情報入力端に達する。コント
ローラ410は動作状態となつて信号WLSIを発
生し、書込み信号WLSがORゲート465を介し
て記憶装置210の書込み可能入力端に印加され
る。それにより、ゼロコードおよびLPNコード
が桁記憶装置の部分210−1および210−2
の記憶位置L=1,n=1に各々挿入される。 次にコントローラ410において制御パルス
IN1Iが発生されて、ORゲート463を介して
フレームカウンタ230に印加される。フレーム
カウンタが増加すると、フレームカウンタ230
から得られる信号nS=2により、桁記憶装置21
0の第2の発せられたことばのフレーム記憶位置
(L=1,n=2)がアドレスされる。コントロ
ーラ410から出力される次のWLS信号が動作
状態となつて、SFN(2)およびd(2)の記憶
位置を夫々ゼロおよびLPNに初期設定する。コ
ントローラ410からのIN1IパルスとWLSIパ
ルスのシーケンスは所定の速度で反復されて、桁
L+1=1の発せられたことばのフレームの記憶
位置1からNnをプリセツトする。フレームカウ
ンタ230のNMS出力は、このカウンタがnS
Nnの状態に達したときに動作可能となる。カウ
ンタ230からのNMS信号に応答して、コント
ローラ410は制御パルスEIを発生する。この
制御パルスEIは、記憶装置の部分210−1お
よび210−2のL=1とn=Nnの記憶位置が
夫々0とLPNにセツトされた後に、第1の桁の
初期設定を終了させる。 各桁処理の動的時間正規化は、先行する桁の、
最高のエンドフレームの検出と記憶が完了した後
に、先行する桁の最低エンドフレームにおいて開
始される。その結果、桁記憶装置の部分210ー
1におけるL=0記憶位置がフレームnS=1から
順に走査され、ゼロでない値のスタートフレーム
が存在する第1のフレームが検出される。桁L=
0は発せられたことばの開始点に対応し、フレー
ムnS=1に対してゼロでない値の単一スタートフ
レームSFN=1を有する。桁記憶装置210に
おいて、L=0エントリが固定され、ROM部分
に提供される。部分210−1のnS=1記憶位置
は永久的にSFN=1にセツトされており、部分
210−2の対応する記憶位置は固定的にd=0
にセツトされている。部分210−1内の桁L=
0に対する他のすべてのフレーム記憶位置は固定
的にSFN=1にセツトされており、部分210
−2の他のすべての記憶位置はd=LPNにセツ
トされている。 コントローラ410からのパルスEIに応答し
て走査モードが開始される。このパルスEIは、
シーケンス制御回路400に制御パルスSBを発
生させる。パルスSBに応答して、スキヤンコン
トローラ420は信号BBを発生し、この信号は
ORゲート469を介して信号Bとして、走査が
続いている間、桁記憶装置アドレス論理回路29
0のORゲート231および252に印加され
る。ORゲート231の出力はANDゲート233
を待機状態にするので、フレームカウンタ230
からのnS走査アドレス信号のシーケンスがORゲ
ート238を介して桁記憶装置210のnアドレ
ス入力端に印加される。ORゲート252の出力
はANDゲート258を待機状態とし、それによ
り、L=0信号がANDゲート258およびORゲ
ート259を通過して、桁記憶装置210のLア
ドレス入力端に印加される。 スキヤンコントローラ420は走査モードの開
始時にさらにパルスBDおよびSNMを発生する。
SNMパルスは、第9図のインデツクス設定ボツ
クス910に示すように、フレームカウンタを発
せられたことばの終点(nS=Nn)の状態にセツ
トする。次に、アドレス論理回路290は桁L=
0のnS=Nnフレームを選択し、フレームNnにつ
いてのSFN=0信号とd=LPN信号が夫々ゲー
ト335および除算器355に供給される。
SFN=0信号は比較器338はSFN=0信号に
応答して動作不能状態のままである。その結果、
ANDゲート381の出力端の信号DMTAも動作
不能状態のままである(オペレーシヨンボツクス
912)。次にスキヤンコントローラ420はパ
ルスDN1を発生し、このパルスはオペレーシヨ
ンボツクス914に従つてフレームカウンタ23
0を減少させる。nS=Nnのとき、信号NSOは動
作不能状態のままである。信号BDがあるとき、
比較器385においてnS信号がゼロと比較され
る。このようにして、フレームカウンタはnS=1
となるまで繰返し減少される。 nS=1のときSFN=1信号は比較器338の
出力を動作可能にする。桁記憶装置210の部分
210−2からのL=0,nS=1のd信号はゼロ
である。除算器335は信号d(1)/1=0を
発生し、この信号は比較器305において、先に
ラツチ309に記憶されていたLPN信号と比較
される。信号DMTは動作可能となり、且つゲー
ト381はANDゲート359を介して動作可能
のDMTA信号をラツチ360に供給する。それ
により、nS=1信号がラツチ350に入る(オペ
レーシヨンボツクス920)。DMTA信号はスキ
ヤンコントローラ420にも印加され、コントロ
ーラ420はこれに応答して信号BDを動作不能
にし、信号BUを動作可能にする。そこで、スキ
ヤンコントローラ420は信号SN1Bを発生し、
この信号はパルスSN1としてORゲート461
を通過してフレームカウンタ230を当初のnS
1状態にリセツトする(オペレーシヨンボツクス
922)。このように、記憶装置210において
桁L=0のnS=1発せられたことばのフレーム記
憶位置が選択される。次に、桁記憶装置の部分2
10−2からの、選択されたフレーム記憶位置に
関する距離信号d=0が線路211−2において
利用可能となる。距離信号d=0はこの線路21
1−2から除算器335およびゲート304を介
して第3図の比較器305の一方の入力端に供給
される。乗算器303からの比較器305への他
方の入力はこの時点ではゼロより大きく、比較器
305からの信号DMTは動作可能となる。動作
可能のDMT信号はゲート381に印加される。
比較器338に記憶装置210−1からのSFN
=1信号があるため、信号DMTAは動作可能と
なり且つANDゲート368を介してラツチ37
0がセツトされる。次に、スキヤンコントローラ
420がラツチ370からの信号DMTRに応答
して制御パルスEBを発生する。信号EBは走査動
作を終了させる。EBパルスは次にシーケンス制
御回路400にパルスFSLおよびSCを発生させ
る。 FSLパルスがフレームシーケンス論理回路30
7に印加されると、桁記憶装置の部分210−1
からのその時点でのSFNコード(nS=1)がフ
レームシーケンス論理回路307に挿入される。
このようにして、フレームn=1において第1の
桁の動的時間正規化が開始される。SCパルスは
DTWコントローラ430に制御信号シーケンス
を発生させる。この制御信号シーケンスは第2図
および第3図の回路を調整して、第1の桁の音声
パターン区分の特徴信号を発せられたことばのフ
レームSFN=1から第1の桁の標準単語の特徴
信号に動的に時間正規化させる。 第10図のフローチヤートは本発明による桁
を、動的に時間正規化する方式を示す。前述のよ
うに、動的時間正規化処理は、桁L=1に対する
時間的記憶経路の終点を決定し且つ累積距離信
号、最良の標準単語識別信号、および前記の終点
に対するスタートフレーム信号を桁記憶装置21
0に記憶させるように作用する。第10図におい
て、フラツグはボツクス1001に示すように初
期設定される。このフラツグは、有効桁エンドフ
レームが検出されたときにリセツトされる。第1
の標準単語W0(ゼロ)がボツクス1005におい
て選択され、動的時間正規化の最初のフレームは
直前の走査モードで決定されたスタートフレーム
SFN=1にセツトされる(ボツクス1010)。
標準単語ゼロの最初のフレームはフレームn=1
である。次に、音声パターン区分の特徴信号の標
準単語の特徴信号への動的時間正規化が開始され
る(ボツクス1015)。 DTW処理は、式7に示した一般的手順に続い
て行なわれる。本発明によれば、各桁の標準単語
フレームが3つの区分、すなわち最初の区分δR
1と最終区分δR2と、これら2つの区分の中間
にある区分とに分割される。式(7)に関して説明し
たように、許容される標準単語フレームは発生し
うる音響的条件に適合するように選択されてい
る。1つの桁の中間部分では、音声速度は式7の
制限に従つている。記憶装置205内の標準単語
の音響的特徴は、実際に単独で発話されたことば
から取出される。連結された複数の単語から成る
音声パターンの隣接する単語は一般に調音結合状
態にある。従つて、標準単語フレームの範囲は最
初の区分および最終区分においてこの調音結合を
考慮して調節される。最初の区分において、式7
の最後の項に対する標準フレームがδR1のフレ
ームの範囲全体にわたつて選択される。区分δR
1に関しては、I2であり、W(n−1)=W
(n−2)であればI1は1であり、その他の場合
にはゼロである。同様に、最終区分において領域
δR2全体にわたつてフレームが選択される。区
分δR2においては、W(n−1)=W(n−2)で
あればI1は1および0、その他の場合には標準単
語のエンドフレームmL Wであり、I2はδR2−ML W
である。このように、発せられたことばの特徴の
標準単語の特徴への時間的記録が調音結合が存在
するときより正確に行なわれる。典型的には、話
者に付随する標準特徴信号のテンプレイトに対し
てδR1=4,δR2=6である。話者とは無関係な
標準パターンの場合、δR1はゼロにセツトされ、
δR2=4である。 オペレーシヨンボツクス1015の動的時間正
規化は各々連続する発せられたことばのフレーム
nについて標準単語フレーム1mML Wの範囲
全体にわたつて行なわれる。DTWプロセツサ2
07において行なわれる動的時間処理動作のフレ
ーム選択は、第5図に詳細に示すフレームシーケ
ンス論理回路307により制御される。 第2図から第5図に示す実施例において、
DTWプロセツサ・コントローラ430はシーケ
ンス制御回路400からのパルスSCに応答して
制御パルスSW1およびFSR、並びに制御信号C
を提供する。第2図の単語カウンタ220はパル
スSW1によりW=W0状態にリセツトされる。
FSRパルスはカウンタ505を当初の状態にリ
セツトする。カウンタ505は、すでに処理され
た桁の発せられたことばのフレームの数を記憶す
る。ラツチ501に挿入された発せられたことば
のスタートフレームはパルスFSRによりカウン
タ503へ転送されるかカウンタ503の出力
はDTW処理のための入力音声パターンフレーム
信号を提供する。FSR信号はさらにORゲート3
69を介してフリツプフロツプ370をセツトす
る。これによりDMTR信号は各DTW走査の開始
時に動作可能となる。 コントローラ430からの信号Cは桁記憶装置
アドレス論理回路290のORゲート251およ
び252に印加される。次に、カウンタ503か
らのフレーム信号がANDゲート236を通過
して記憶装置210のnアドレス入力端に達す
る。ANDゲート258はORゲート252の出力
に応答して、桁信号Lを桁カウンタ250から記
憶装置210のLアドレス入力端へ通過させる。
その桁でのDTW処理が開始されるとき、第5図
のカウンタ503からの最初の音声パターン部分
のフレームが、ANDゲート224およびORゲー
ト226を介して、発せられたことばの特徴信号
用記憶装置203に対して音声パターン区分フレ
ームアドレス信号を提供する。フレーム信号
に対応する音声パターン特徴信号がDTWプロセ
ツサ207の入力端に供給される。DTWプロセ
ツサ207は最初に、その範囲下限出力端におい
て第1の標準単語フレーム信号(ML)を提供す
るようにあらかじめ調整される。このML=1信
号は第5図の比較供給524に供給される。比較
器524は、処理が桁の最初の部分δR1で行な
われているか否かを検出する。通常はδR1は4
つのフレームにセツトされる。1MLδR1の
とき、比較器524の出力は動作可能となり、そ
の時点での発せられたことばのフレームが先行す
る桁のエンドフレームであればANDゲート53
0から信号R1が得られ、また、フリツプフロツ
プ370からの信号DMTRが動作可能となる。
このDMTR信号は、音声区分フレームが先行す
る桁エンドフレームの範囲内にあるときに現われ
る。そこで、DMTR信号は桁から桁へと連続す
る動的時間正規化経路である。 DTW処理はDTWコントローラ430からの
制御パルスDSTにより開始される。プロセツサ
207からの標準単語フレーム信号MHは、標準
単語の特徴信号用記憶装置205をアドレスする
ために使用されるので、選択された単語の必要
なフレームの標準特徴信号は式(7)に従つてDTW
プロセツサに供給される。標準単語フレーム信号
MLがδR1を越えたとき、比較器524の出力は
動作不能となり且つ信号R1がDTWプロセツサか
ら排除される。その結果、式7のDTW処理に対
する制限が変化して、中間区分の音響的条件に適
合するようになる。 記憶装置205からの標準単語エンドフレーム
信号ML Wはアドレスされた標準単語のエンドフレ
ームに対応し、第5図のフレームシーケンス論理
回路の減算器515および比較器520に供給さ
れる。進行している動的時間正規化における標準
単語フレームの範囲の上限である信号MHはプロ
セツサ207から減算器515および比較器52
0に供給される。減算器515からの差信号ML W
−MHがその桁の最終部分に対応するδR2信号と
等しいか、またはそれより小さいとき、比較器5
18の出力(R2)が動作可能となる。信号R2
はプロセツサ207の制御入力端の1つに印加さ
れ、そのため、動的時間正規化に対する制限が変
化して、桁処理の最終部分を受入れるようにな
る。 プロセツサ207が動作している間、その時点
での標準単語の特徴と桁のフレーム(n)までの
音声パターン部分の特徴との間の距離を表示する
信号d′が第10図のデシジヨンボツクス1020
に示すように閾値T(n)と比較される。閾値T
(n)はROM509の出力であつて、その時点
のフレームにおける有効な構成部分である標準単
語について予測される最大の距離信号にセツトさ
れている。プロセツサ207からの距離信号d′が
閾値Tを越えた場合、標準単語に対する距離の処
理が阻止される。そこでインデツクスボツクス1
050に入り、その標準単語が選択される。次に
デシジヨンボツクス1055に入つて、その桁に
ついてすべての標準単語が処理された否かが決定
される。未処理の標準単語がある場合には、ボツ
クス1015に示すように、処理に関する発せら
れたことばのフレームが先行する走査動作におい
て決定されたスタートフレームにセツトされた
(ボツクス1010)後に、動的時間正規化が再
び開始される。 第2図および第5図に関して説明する。DTW
プロセツサ207からの信号d′は比較器511の
一方の入力端に供給され、この比較器511にお
いてポツクス1020の閾値決定が行なわれる。
前述のように、信号FSRにより距離の処理が開
始された時点でカウンタ505が1にリセツトさ
れる。音声区分フレームがボツクス1015に
おいて処理された後、カウンタ505は信号FSI
により増分される。カウンタ505のフレーム出
力はROM509をアドレスし、ROMからの最
大距離閾値信号T(n)が比較器511の他方の
入力端に供給される。信号d′(n)が、ROM50
9においてフレームに割当てられた閾値信号を越
えると、比較器511からの阻止信号ABが動作
可能となつて、コントローラ430に印加され
る。そこで、コントローラ430はIW1パルス
を発生するように動作する。このIW1パルスは
第2図の単語のカウンタ220を増分する。コン
トローラ430はさらに、カウンタ505をリセ
ツトし且つラツチ501内のフレーム信号をカウ
ンタ503に転送するFSRパルスを発生する。
これにより、第2図および第3図の回路は、次の
標準単語のレベルDTW処理を行なうように調整
される。 入力されたことば4453について第1の桁処理を
行う場合、まず最初に、プロセツサ207におい
てフレームn=1で始まる音声パターン区分が標
準単語「ゼロ」に動的に時間正規化される。しか
しながら「4」以外の標準単語の特徴信号が第1
語の音声パターン区分の特徴信号と類似していな
いため、「4」以外のすべての標準単語の第1の
桁処理は時間的記録経路を形成することなく終わ
る。標準単語「ゼロ」についてのDTW処理の
間、DTW記録経路の終点が検出される前に距離
信号d′(n)が閾値信号T(n)を越える。比較器
511からの信号ABが動作可能となり、この信
号ABに応答して第4図のDTWコントローラ4
30が制御パルスIW1およびFSRを発生する。
IW1パルスは第2の単語カウンタ220を増分
し、このカウンタ220からの出力は記憶装置
205内の標準語「ワン」に関する特徴信号をア
ドレスする。パルスFSRはカウンタ505を当
初の状態にリセツトすると共に、ラツチ501内
のフレーム信号をカウンタ503に転送させる。
このようにして、音声パターンの最初の部分の標
準単語「ワン」への動的時間正規化が開始され
る。標準単語「ワン」についてのDTW時間的記
録処理の間に、比較器511が再び動作可能とな
り、時間的記録の終点に達することなく処理が終
わる。標準単語「ツウ」および「スリー」の動的
時間正規化の場合にも、時間的記録経路の終点が
形成される前に、プロセツサ207からの距離信
号d′がROM509からの閾値信号T(n)を越え
てしまうので、抑止信号ABが発生する。 標準単語「スリー」についてのDTW処理が終
了した後、DTWコントローラ430はパルス
FSRおよびIW1を発生する。IW1パルスは単語
カウンタ220を増分するので、記憶装置205
内の標準単語「フオー」の特徴信号がアドレスさ
れる。パルスFSRはカウンタ503をラツチ5
01内の最初のDTW処理フレームn=1にリセ
ツトすると共に、カウンタ505を1にリセツト
する。次に、フレーム信号n=1がカウンタ50
3から発せられたことばの特徴信号用記憶装置2
03および桁記憶装置210に印加される。桁1
の発せられたことば部分の特徴信号がカウンタ5
03によりアドレスされて利用可能となり、
DTWプロセツサ207へ送られる。また、桁記
憶装置210は標準単語「フオー」に関する時間
的記録経路の結果を受信するように調整される。 次に、プロセツサ207は、フレーム1m<
ML 4について選択された標準単語(フオー)と特
徴信号をカウンタ503内に記憶されているフレ
ームについての発せられたことばの特徴信号に
時間正規化する。フレームn=1の時間正規化
は、コントローラ430からの信号DSTに応答
して開発されている。 DTWプロセツサ207は、データ・ジエネラ
ル・コーポレーシヨン(Data General
Corporation,ウエストボロ、マサチユーセツツ
州)刊・版権所有の“Microproducts
Hardware System Reference”(1979年)に記
載されている装置または先行技術において良く知
られている他のプロセツサシステムを具備してい
ても良い。プロセツサ207は、マイクロ・ノウ
ヴアMP100システム・プロセシング・ユニツト、
MP1004K/8Kダイナミツク・ランダム・アクセ
ス・メモリ、MP/100 8Kプログラマブル読出し
専用メモリ、および1つ以上の4222モデルデジタ
ルI/Oインターフエースユニツトを含んでいて
も良い。プロセツサ207の動作シーケンスは、
このプロセツサのROM内に永久的に記憶されて
いる命令により決定される。この命令を付録Gに
FORTRAN言語で列記した。プロセツサ207
は付録Gに示す、永久的に記憶されている命令に
従つて動作し、各々の音声パターン区分フレーム
nについて式(7)の動的時間正規化処理を行なう。
各フレームの時間的記録動作は信号DSTにより
開始される。時間的記録のための標準単語フレー
ムは、式(7)の方法を信号R1およびR2に応答して
変更したものに従つて選択される。 プロセツサ207は、フレームn=1に対する
その時点の桁の経路距離に対応する信号d′と、下
限標準単語フレームに対応する信号MIと、上限
標準単語フレームに対応する信号MHと、記録経
路のスタートフレームに対応する信号SFNと、
発せられたことば部分のスタートフレームから時
間的記録経路までの累積距離に対応する信号dS
を提供する。 フレームn=1について、プロセツサ207の
DTW動作が終了したとき、プロセツサ207か
ら信号DDNがDTWコントローラ430に印加さ
れる。比較器511において、プロセツサ207
からのd′信号がROM509からのフレーム1に
対するT(n)信号と比較される。d′(1)<T
(1)のとき、比較器のAB出力は動作不能とな
る。こと時点で、時間正規化の上限標準単語フレ
ームMHがプロセツサ207から出力され、比較
器520において記憶装置205からの標準単語
W4のエンドフレームML 4と比較される。MH<ML 4
であるので、比較器520のEP出力は動作不能
のままである。信号DDNと、動作不能の信号EP
およびABとに応答して、コントローラ430は
信号FSIを発生する。この信号FSIはカウンタ5
03および505をn=2状態に増分する。コン
トローラ430はさらに信号DSTを発生して、
プロセツサ207においてn=2フレームの
DTW動作を開始させる。 第10図のフローチヤートにおいて、デシジヨ
ンボツクス1020は各々の時間正規化動作にお
いてd′とT(n)とを比較するために使用され、
またデシジヨンボツクス1025に入ると、上限
標準単語フレームMHが標準単語エンドフレーム
ML Wと比較される。デシジヨンボツクス1025
により「ノー」の指示が出されたときは、デシジ
ヨンボツクス1040に入る。ボツクス1040
では、下限標準単語フレーム信号MLが標準単語
エンドフレームML Wと比較される共に、発せられ
たことばフレームがこのことばエンドフレーム
NMと比較される。M=ML WまたはnNMのいず
れかであれば、その桁における音声パターン部分
の終端に達していることになる。そこで、前述の
ように、インデツクス変更ボツクス1050にお
いて基準語の時間的記録動作が終了する。その他
の場合には、インデツクスボツクス1045にお
いて音声パターンフレームが増分される。 フレームまでの、またフレームを含む桁経
路距離d′(n)がROM509において固定された
閾値T(n)より小さく(デシジヨンボツクス1
020)且つ上限標準単語フレームMHが最後の
標準単語フレームM=ML W4と等しいか、またはそ
れより大きい(デシジヨンボツクス1025)場
合、有効な時間的記録経路が決定される。次に、
プロセツサ207から得られる、その経路の累積
距離信号dS(n)が、すでに桁記憶装置のn番目
のフレーム記憶位置に記憶されている累積距離信
号dと比較される。dS(n)<d(n)であれば、
プロセツサからの累積距離信号dS(n)が記憶装
置の部分210−2内の距離信号d(n)と入れ
換わり、プロセツサからのスタートフレーム信号
SFN(n)が記憶装置の部分210−1内の信号
SFN(n)と入れ換わる。最後に決定された経路
がフレームで終わるより良い標準単語構成部分
経路に対応しているために、ボツクス1035の
入れ換わり動作が起こる。しかしながら、dS(n)
d(n)であれば、先に決定されていた経路の
方が良いので、ボツクス1030からデシジヨン
ボツクス1040に入る。 図示した例では、第1の桁のフレームn=29に
おいてMHML W、dS(29)=15.2はd(29)=LPNよ
り小さい。その結果、d(29)は15.2となり且つ
SFN(29)は1となる。ボツクス1035の入れ
換わり動作が行なわれた後、デシジヨンボツクス
1040においてDTWプロセツサからの下限標
準単語フレームMLが標準単語エンドフレームML W
と比較され、また発せられたことばのフレーム
がことばエンドフレームNnと比較される。そこ
で、その桁の音声パターン区分の限界に達してい
る否かが決定される。下限MLML Wまたは
Nnのとき、標準単語「フオー」についての桁
DTW処理が完了し、インデツクスボツクス10
50に入る。その他の場合には、ボツクス104
5において発せられたことばのフレームが増分さ
れて、次のフレームの時間正規化が開始される。 第2図および第3図の回路において、標準単語
「フオー」の特徴を連続する発せられたことばの
フレームについてn=1から発せられたことばの
特徴に動的に時間正規化する動作はプロセツサ2
07で行なわれる。発せられたことばのフレーム
n=29についてDTW動作が終了したとき、プロ
セツサ207からの上限標準単語フレーム信号
MHは標準単語の特徴信号用記憶装置205から
のML 4信号と等しい。これは、終点に達したこと
を示唆する。MH信号とML 4信号が比較器520に
印加されて、比較器520は動作可能となる。比
較器520からの信号EPはDTWコントロール4
30に供給される。信号EPに応答して、コント
ローラ430は信号Cを動作不能にし且つ信号E
を動作可能にする。次に、第3図の比較器301
が、桁L+1=1の記憶装置部分210−2にフ
レーム29について記憶されていた累積距離信号
d=LPNより小さい、プロセツサ207からの
累積距離信号dS(29)=15.2に応答して動作可能と
なる。DTWプロセツサ207のSFN出力は、第
1の桁スタートフレームに対応して1である。プ
ロセツサdSの出力は、桁1の終端n=29までの累
積距離に対応して、15.2である。SFN=1信号は
ANDゲート272およびORゲート286を介し
て記憶装置の部分210−1の入力端へ供給さ
れ、また、dS=15.2信号はANDゲート280お
よびORゲート282を介して記憶装置の部分2
10−2の入力端へ供給される。単語カウンタ2
20のW=4出力はANDゲート281を介して
桁記憶装置の部分210−3の入力端に印加され
る。 動作可能となつた信号DSに応答して、コント
ローラ430からの信号WLSCは信号WLSとし
てORゲート465を介して記憶装置210の書
込み可能入力端に印加される。このようにして、
標準単語識別信号W=4、累積距離信号dS=15.2
およびスタートフレームコードSFN=1が桁記
憶装置210のn=29、L=1記憶位置に挿入さ
れる。WLSC信号はさらにフリツプフロツプ29
0を抑止する。書込みパルスWLSが終わつた後、
コントローラ430はパルスFSIを提供して、第
5図のカウンタ503および505を増分する。
信号Eは動作不能となり、信号Cは動作可能とな
る。コントローラ430からの信号DSTはプロ
セツサ207に送られて、発せられたことばのフ
レームn=30についての動的時間正規化を開始さ
せる。 フレーム29から40の各々について動的時間
正規化が行なわれると、その結果として桁L+1
=1のエンドフレームが発生する。各発せられた
ことばのフレームについての時間正規化の終了は
プロセツサ207からの信号DDNにより指示さ
れる。プロセツサ207からの終了信号DDNと、
フレームシーケンス論理回路の比較器520から
のエンドフレーム信号EPと、比較器301から
の信号DSが同時に動作可能となるので、音声パ
ターンフレーム29に関してすでに説明したよう
に、エンドフレーム経路の累積距離信号d、経路
のスタートフレーム信号SFNおよび標準単語識
別信号の桁記憶装置210への書込みが開始さ
れる。フレームn=29からn=40について標準単
語「フオー」のDTW処理を行なつた結果、スタ
ートフレームSFN=1を起点とする時間的記録
経路が得られる。 表1は、第1の桁についてフレームn=29から
n=40を処理した結果、桁記憶装置210に記憶
される標準単語識別信号W、累積距離信号dおよ
びスタートフレーム信号SFNを列挙したもので
ある。 【表】 〈 〈 〈 〈

Claims (1)

  1. 【特許請求の範囲】 1 音声パターンを所定の標準単語の列として認
    識するための音声パターン認識装置であつて、 各標準単語の音響的特徴の時間フレーム系列で
    あつてスタートフレームおよびエンドフレームを
    有する時間フレーム系列を表わす一組の標準単語
    音響特徴信号を記憶する手段と、該音声パターン
    の音響信号の時間フレーム系列を表わす一組の音
    声パターン音響特徴信号を発生するための手段
    と、該音声パターン音響特徴信号及び該標準単語
    音響特徴信号に応答して複数の標準単語列を発生
    するための標準単語列発生手段と、該発生された
    標準単語列の1つとして該音声パターンを識別す
    るための手段とを含む音声パターン認識装置にお
    いて、 該標準単語列発生手段が、連続する標準単語桁
    を識別するための一組の信号を発生する手段、該
    音声パターンの一区分を連続する各々の桁に割当
    てる手段、連続する各々の桁で動作し、その桁の
    音声パターン区分特徴信号を標準単語特徴信号と
    ともに時間的に記録してその桁の時間的記録音声
    パターン区分のエンドフレーム信号および該標準
    単語についての時間的記録対応信号を発生するた
    めの時間的記録手段、およびその桁の時間的記録
    エンドフレーム信号とその桁の時間的記録対応信
    号とに応答して、標準単語列を選択する標準単語
    列選択手段を含むことを特徴とする音声パターン
    認識装置。 2 特許請求の範囲第1項に記載の音声パターン
    認識装置において、 該時間的記録手段が、直前の桁の時間的記録音
    声パターンのエンドフレームに応答して、そのと
    きの桁についての時間的記録スタートフレームの
    範囲を制限するためのスタートフレーム制限手
    段、および該時間的記録対応信号と時間的記録音
    声パターンエンドフレーム信号とに応答して、各
    時間的記録エンドフレームについて最も良く対応
    する時間的記録最良対応信号と、各エンドフレー
    ムについて最も良く対応する最良対応標準単語を
    表わす信号と、各エンドフレームについての最適
    な標準単語に対応する時間的記録音声パターンの
    スタートフレームを表わす信号とを記憶する手段
    を含むことを特徴とする音声パターン認識装置。 3 特許請求の範囲第2項に記載の音声パターン
    認識装置において、 該音声パターンの該スタートフレーム制限手段
    が、先行する桁の時間的記録最良対応信号に応答
    して、先行する桁の最良対応信号のうち最小のも
    のを選択する手段、および先行する桁の時間的記
    録最良対応信号と該選択された最小の最良対応信
    号とに応答して、そのときの桁の時間的記録音声
    パターンのスタートフレームを選択する手段を含
    むことを特徴とする音声パターン認識装置。 4 特許請求の範囲第3項に記載の音声パターン
    認識装置において、 該標準単語列発生手段が、音声パターン特徴信
    号に応答して、音声パターンの最終フレームを表
    わす信号を発生する手段、各々の桁で動作し、該
    最小の最良対応信号に応答して、最小の最良対応
    信号を有する音声パターン区分のエンドフレーム
    を表わす最小最良対応エンドフレーム信号を発生
    する手段、および音声パターンの最終フレーム信
    号のあらかじめ規定された範囲の中にある最小最
    良対応エンドフレーム信号に応答して、該標準単
    語列選択手段の動作を開始させる手段をさらに含
    むことを特徴とする音声パターン認識装置。 5 特許請求の範囲第4項に記載の音声パターン
    認識装置において、 該標準単語列選択手段が、記憶されている時間
    記録音声パターン区分のエンドフレーム信号、ス
    タートフレーム信号および標準単語識別信号と、
    該音声パターンの最終フレーム信号とに応答し
    て、該音声パターンの最終フレームの該あらかじ
    め規定された範囲の中に時間的記録音声パターン
    のエンドフレームを有する各々の標準単語列を表
    わす信号を発生する手段を含むことを特徴とする
    音声パターン認識装置。 6 特許請求の範囲第1項に記載の音声パターン
    認識装置において、 該時間的記録手段が、各桁の音声パターン区分
    フレームとの時間記録のために、標準単語フレー
    ムの範囲を選択し、第1の予め定められた数より
    も小さい下限フレームであつてそのときの標準単
    語範囲の下限フレームに応答して標準単語範囲の
    下限フレームを標準単語のスタートフレームまで
    拡張する手段、および第2の予め定められた数よ
    りも大きい上限フレームであつてそのときの標準
    単語範囲の上限フレームに応答して、標準単語範
    囲の上限フレームを標準単語のエンドフレームま
    で拡張する手段を含み、それにより調音結合効果
    を減少させることを特徴とする音声パターン認識
    装置。 7 特許請求の範囲第1項に記載の音声パターン
    認識装置において、 該時間的記録手段が、該標準単語の特徴信号と
    該桁の音声パターン区分特徴信号とに応答して、
    各桁の音声パターン区分フレームとの時間的記録
    のために標準単語フレームの範囲を選択する手
    段、および標準単語エンドフレームと等しいかま
    たはそれよりも大きい標準単語範囲の下限フレー
    ムに応答して、桁の音声パターン区分の時間的記
    録エンドフレームを発生する手段を含むことを特
    徴とする音声パターン認識装置。 8 特許請求の範囲第1項に記載の音声パターン
    認識装置において、 該時間的記録手段が、そのときの桁の各々の標
    準単語の時間的記録の間に動作し、標準単語特徴
    信号および音声パターン区分の特徴信号に応答し
    て各音声パターン区分フレームについて標準単語
    フレームの範囲を選択する手段、および各音声パ
    ターン区分フレームにおいて動作し、標準単語の
    エンドフレームと等しいか、又はそれを越える標
    準単語の時間的記録下限フレームに応答して、該
    標準単語の時間的記録を終了させる手段を含むこ
    とを特徴とする音声パターン認識装置。 9 特許請求の範囲第8項に記載の音声パターン
    認識装置において、 該時間記録手段が、各桁の標準単語の時間的記
    録の間に動作し、標準単語特徴信号とその桁の音
    声パターン区分の特徴信号とに応答して、各桁の
    音声パターン区分フレームについて時間的記録対
    応信号を発生する手段、その桁の音声パターン区
    分フレームに応動して、該音声パターン区分フレ
    ームについて許容される最大の対応信号を発生す
    る手段、および音声パターン区分フレームについ
    て許容される最大の対応信号を越える音声パター
    ン区分フレームの該時間的記録対応信号に応答し
    て、該桁の標準単語の時間的記録を終了させる手
    段を含むことを特徴とする音声パターン認識装
    置。 10 特許請求の範囲第1項又は第2項又は第3
    項又は第4項又は第5項又は第6項又は第7項又
    は第8項又は第9項に記載の音声パターン認識装
    置において、該標準単語列発生手段が、該桁識別
    信号に応答して、各標準単語桁における時間的記
    録のためにあらかじめ規定された一組の標準単語
    を選択する手段をさらに含むことを特徴とする音
    声パターン認識装置。 11 特許請求の範囲第1項に記載の音声パター
    ン認識装置において、連続する各々の桁で動作し
    て、音声パターン区分の特徴信号を標準単語の特
    徴信号とともに時間的に記録する手段が、各標準
    単語の特徴信号を音声パターン区分の特徴信号と
    共に動的に時間正規化する手段を含むことを特徴
    とする音声パターン認識装置。
JP57048184A 1981-03-27 1982-03-27 Continuous speech pattern recognizer Granted JPS57169800A (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US06/248,570 US4400788A (en) 1981-03-27 1981-03-27 Continuous speech pattern recognizer

Publications (2)

Publication Number Publication Date
JPS57169800A JPS57169800A (en) 1982-10-19
JPH0416800B2 true JPH0416800B2 (ja) 1992-03-25

Family

ID=22939686

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57048184A Granted JPS57169800A (en) 1981-03-27 1982-03-27 Continuous speech pattern recognizer

Country Status (6)

Country Link
US (1) US4400788A (ja)
JP (1) JPS57169800A (ja)
CA (1) CA1167967A (ja)
DE (1) DE3211313A1 (ja)
FR (1) FR2502822A1 (ja)
GB (1) GB2095882B (ja)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58100195A (ja) * 1981-12-10 1983-06-14 日本電気株式会社 連続音声認識装置
JPS58111989A (ja) * 1981-12-25 1983-07-04 シャープ株式会社 音声認識装置
DE3215868A1 (de) * 1982-04-29 1983-11-03 Philips Patentverwaltung Gmbh, 2000 Hamburg Verfahren und anordnung zum erkennen der woerter in einer zusammenhaengenden wortkette
US4587670A (en) * 1982-10-15 1986-05-06 At&T Bell Laboratories Hidden Markov model speech recognition arrangement
USRE33597E (en) * 1982-10-15 1991-05-28 Hidden Markov model speech recognition arrangement
US4989248A (en) * 1983-01-28 1991-01-29 Texas Instruments Incorporated Speaker-dependent connected speech word recognition method
JPS60179797A (ja) * 1983-10-27 1985-09-13 日本電気株式会社 パタンマツチング装置
JPS60122475A (ja) * 1983-11-15 1985-06-29 Nec Corp パタン認識装置
JPS60211498A (ja) * 1984-04-05 1985-10-23 日本電気株式会社 連続音声認識装置
JP2607457B2 (ja) * 1984-09-17 1997-05-07 株式会社東芝 パターン認識装置
US4783809A (en) * 1984-11-07 1988-11-08 American Telephone And Telegraph Company, At&T Bell Laboratories Automatic speech recognizer for real time operation
US4718094A (en) * 1984-11-19 1988-01-05 International Business Machines Corp. Speech recognition system
JPS61145599A (ja) * 1984-12-19 1986-07-03 日本電気株式会社 連続音声認識装置
US5241649A (en) * 1985-02-18 1993-08-31 Matsushita Electric Industrial Co., Ltd. Voice recognition method
US4980918A (en) * 1985-05-09 1990-12-25 International Business Machines Corporation Speech recognition system with efficient storage and rapid assembly of phonological graphs
US4748670A (en) * 1985-05-29 1988-05-31 International Business Machines Corporation Apparatus and method for determining a likely word sequence from labels generated by an acoustic processor
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
JPS62169199A (ja) * 1986-01-22 1987-07-25 株式会社デンソー 音声認識装置
JPS62232000A (ja) * 1986-03-25 1987-10-12 インタ−ナシヨナル・ビジネス・マシ−ンズ・コ−ポレ−シヨン 音声認識装置
US4831550A (en) * 1986-03-27 1989-05-16 International Business Machines Corporation Apparatus and method for estimating, from sparse data, the probability that a particular one of a set of events is the next event in a string of events
US4827521A (en) * 1986-03-27 1989-05-02 International Business Machines Corporation Training of markov models used in a speech recognition system
US4941178A (en) * 1986-04-01 1990-07-10 Gte Laboratories Incorporated Speech recognition using preclassification and spectral normalization
US4918733A (en) * 1986-07-30 1990-04-17 At&T Bell Laboratories Dynamic time warping using a digital signal processor
DE3711342A1 (de) * 1987-04-03 1988-10-20 Philips Patentverwaltung Verfahren zum erkennen zusammenhaengend gesprochener woerter
DE3711348A1 (de) * 1987-04-03 1988-10-20 Philips Patentverwaltung Verfahren zum erkennen kontinuierlich gesprochener woerter
US4910669A (en) * 1987-04-03 1990-03-20 At&T Bell Laboratories Binary tree multiprocessor
US5027408A (en) * 1987-04-09 1991-06-25 Kroeker John P Speech-recognition circuitry employing phoneme estimation
US4843562A (en) * 1987-06-24 1989-06-27 Broadcast Data Systems Limited Partnership Broadcast information classification system and method
EP0316112A3 (en) * 1987-11-05 1989-05-31 AT&T Corp. Use of instantaneous and transitional spectral information in speech recognizers
US5168524A (en) * 1989-08-17 1992-12-01 Eliza Corporation Speech-recognition circuitry employing nonlinear processing, speech element modeling and phoneme estimation
US5119425A (en) * 1990-01-02 1992-06-02 Raytheon Company Sound synthesizer
WO1992006469A1 (en) * 1990-10-02 1992-04-16 The Dsp Group, Inc. Boundary relaxation for speech pattern recognition
DE19540859A1 (de) * 1995-11-03 1997-05-28 Thomson Brandt Gmbh Verfahren zur Entfernung unerwünschter Sprachkomponenten aus einem Tonsignalgemisch
GB9602691D0 (en) * 1996-02-09 1996-04-10 Canon Kk Word model generation
US5884259A (en) * 1997-02-12 1999-03-16 International Business Machines Corporation Method and apparatus for a time-synchronous tree-based search strategy
US6157731A (en) * 1998-07-01 2000-12-05 Lucent Technologies Inc. Signature verification method using hidden markov models
DE10015858C2 (de) * 2000-03-30 2002-03-28 Gunthard Born Verfahren zu einer auf semantische Inhalte bezogenen rechnergestützten Kommunikation in natürlichen Sprachen
DE10015859C2 (de) * 2000-03-30 2002-04-04 Gunthard Born Verfahren zu einer auf grammatische Inhalte bezogenen rechnergestützten Kommunikation in natürlichen Sprachen
US7050973B2 (en) * 2002-04-22 2006-05-23 Intel Corporation Speaker recognition using dynamic time warp template spotting
US8521529B2 (en) * 2004-10-18 2013-08-27 Creative Technology Ltd Method for segmenting audio signals
US7567903B1 (en) * 2005-01-12 2009-07-28 At&T Intellectual Property Ii, L.P. Low latency real-time vocal tract length normalization
US20080189109A1 (en) * 2007-02-05 2008-08-07 Microsoft Corporation Segmentation posterior based boundary point determination
JP5024154B2 (ja) * 2008-03-27 2012-09-12 富士通株式会社 関連付け装置、関連付け方法及びコンピュータプログラム
US9202520B1 (en) 2012-10-17 2015-12-01 Amazon Technologies, Inc. Systems and methods for determining content preferences based on vocal utterances and/or movement by a user

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS51104204A (ja) * 1975-03-12 1976-09-14 Nippon Electric Co
JPS5255414A (en) * 1975-10-31 1977-05-06 Nec Corp Continuous voice recognition equipment
JPS5326505A (en) * 1976-08-24 1978-03-11 Nippon Telegr & Teleph Corp <Ntt> Voice rec ognizing device
JPS552205A (en) * 1978-06-20 1980-01-09 Kogyo Gijutsuin Real time continuous sound discriminator

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3816722A (en) * 1970-09-29 1974-06-11 Nippon Electric Co Computer for calculating the similarity between patterns and pattern recognition system comprising the similarity computer
US4059725A (en) * 1975-03-12 1977-11-22 Nippon Electric Company, Ltd. Automatic continuous speech recognition system employing dynamic programming
GB1557286A (en) * 1975-10-31 1979-12-05 Nippon Electric Co Speech recognition
US4092493A (en) * 1976-11-30 1978-05-30 Bell Telephone Laboratories, Incorporated Speech recognition system
US4156868A (en) * 1977-05-05 1979-05-29 Bell Telephone Laboratories, Incorporated Syntactic word recognizer
US4349700A (en) * 1980-04-08 1982-09-14 Bell Telephone Laboratories, Incorporated Continuous speech recognition system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS51104204A (ja) * 1975-03-12 1976-09-14 Nippon Electric Co
JPS5255414A (en) * 1975-10-31 1977-05-06 Nec Corp Continuous voice recognition equipment
JPS5326505A (en) * 1976-08-24 1978-03-11 Nippon Telegr & Teleph Corp <Ntt> Voice rec ognizing device
JPS552205A (en) * 1978-06-20 1980-01-09 Kogyo Gijutsuin Real time continuous sound discriminator

Also Published As

Publication number Publication date
CA1167967A (en) 1984-05-22
DE3211313C2 (ja) 1988-06-16
FR2502822B1 (ja) 1985-02-08
GB2095882B (en) 1985-06-19
US4400788A (en) 1983-08-23
FR2502822A1 (fr) 1982-10-01
DE3211313A1 (de) 1982-11-11
JPS57169800A (en) 1982-10-19
GB2095882A (en) 1982-10-06

Similar Documents

Publication Publication Date Title
JPH0416800B2 (ja)
US5737723A (en) Confusable word detection in speech recognition
US6092045A (en) Method and apparatus for speech recognition
US4348550A (en) Spoken word controlled automatic dialer
US6912499B1 (en) Method and apparatus for training a multilingual speech model set
O'shaughnessy Interacting with computers by voice: automatic speech recognition and synthesis
US5995928A (en) Method and apparatus for continuous spelling speech recognition with early identification
US6078885A (en) Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems
US7813927B2 (en) Method and apparatus for training a text independent speaker recognition system using speech data with text labels
US7286989B1 (en) Speech-processing system and method
EP1139332A2 (en) Spelling speech recognition apparatus
JPH0422276B2 (ja)
USRE32012E (en) Spoken word controlled automatic dialer
JPH11272291A (ja) 音響判断ツリ―を用いたフォネティック・モデル化方法
KR101836430B1 (ko) 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버
KR100415217B1 (ko) 음성인식 장치
Vaissiere The use of prosodic parameters in automatic speech recognition
EP0949606B1 (en) Method and system for speech recognition based on phonetic transcriptions
JPH0713594A (ja) 音声合成において音声の質を評価するための方法
KR19980702608A (ko) 음성 합성기
Paliwal Lexicon-building methods for an acoustic sub-word based speech recognizer
JP2002539482A (ja) 見本音声を決定するための方法及び装置
Stöber et al. Speech synthesis using multilevel selection and concatenation of units from large speech corpora
Atal et al. Speech research directions
Colla et al. Automatic generation of linguistic, phonetic and acoustic knowledge for a diphone-based continuous speech recognition system