JPH03155600A - スピーチ信号内のワードストリングの認識方法 - Google Patents

スピーチ信号内のワードストリングの認識方法

Info

Publication number
JPH03155600A
JPH03155600A JP2244133A JP24413390A JPH03155600A JP H03155600 A JPH03155600 A JP H03155600A JP 2244133 A JP2244133 A JP 2244133A JP 24413390 A JP24413390 A JP 24413390A JP H03155600 A JPH03155600 A JP H03155600A
Authority
JP
Japan
Prior art keywords
word
sub
memory
address
location
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2244133A
Other languages
English (en)
Inventor
Volker Steinbiss
フォルカー スタインビス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Philips Gloeilampenfabrieken NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Gloeilampenfabrieken NV filed Critical Philips Gloeilampenfabrieken NV
Publication of JPH03155600A publication Critical patent/JPH03155600A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、スピーチ信号内の少なくとも1つのワードス
トリングの認識方法であって、このワードストリングよ
り連続時間インターバルを表わすテスト信号を導出し、
これらのテスト信号を第1メモリ内に記憶されている複
数個の所定ワードの基準信号と比較して差分値を形成し
、これらの差分値を加算し、第2メモリ内にこれらの差
分値の和をメモリアドレスのポインタと共に記憶し、こ
のメモリアドレスのポインタは、かくして得られた差分
和の列がワードの開始点においてスタートできる如くし
、さらに少なくともワードの境界において、丁度終了し
たワードのポインタで当該ワードが開始する点のポイン
タを第3メモリ内に記憶し、かつこのスピーチ信号の終
わりにおいて決定される少なくとも1つのワードストリ
ングで、最小の差分和が得られた当該ワードより少なく
とも開始し、この時に記憶されているワードの開始点を
経過し、また前位ワードに対するポインタよりそのワー
ド開始点に至るワードストリングをこの第3メモリに記
憶するスピーチ信号内のワードストリングの認識方法及
びその方法を実行する装置に関する。
〔従来の技術〕
このような方法はドイツ連邦共和国特許出願公開第DE
−O33215868号明細書から既知である。
この既知の方法では、スピーチ信号はダイナミックな時
間順応を用いることによって異なるワードと比較され、
それにより認識過程でスピーチ信号の経路中においてス
ピーチ信号への類似を持つ多数の並列ワードストリング
が得られ、該類似は当該ワードストリング内の累積差分
和によって書き取られる。最後に、最終のスピーチ信号
上に多数のワードストリングが終了して、最少累積差分
和を持つワードストリングが唯一の認識されたワードス
トリングとして出力される。
しかし異なる発音の結果として、例えばワードの終わり
の部分的抑圧の結果として、こうして得られたワードス
トリングは必ずしも発声されたスピーチ信号に対応する
ストリングとは限らない。
従って認識を改善するために、自然スピーチの規約に沿
って、今終わったワードに続く (単数又は複数の)ワ
ードの選択を制限するスピーチモデルを用いることが考
案された。−成約にはこれで認識の信頼性を改善するこ
とが可能となるが、その都度自然スピーチの規約に従う
ワード列のよく似て聞こえるワードの結果として、極め
て似てはいるが発声されたセンテンスの正確な表現とは
いえないワード列が、認識されたセンテンスとして出力
されたり、また一方でスピーチ信号の終わりに僅かに大
きい累積差分和に到達するワード列が実際には正確なセ
ンテンスであることが、やはりまだ究極的には稀ではな
い。従って多くの場合に、最善の類似を持つワード列す
なわちセンテンスだけでなく、特にもし最善とされたワ
ード列が不正確らしいと判ったならば、最善から2番目
の類似の別のセンテンスをも出力するのが効果的である
不正確らしいと判断するのは例えば複雑過ぎるという理
由で認識過程では無視されなければならないというよう
な知識源に基づく場合である。
このことは既知の方法を用いてはたやすく可能ではない
、その理由はスピーチ信号の終わりに比較されたワード
のすべてに対してただ1つのワードストリングのみが記
憶されており、従ってスピーチ信号への類似性が極く僅
かしか異ならず且つ同じワードで終わるワードストリン
グを違うものと判断することは出来ないからである。
〔発明の開示〕
従って本発明の目的は、スピーチ信号への最善から2番
目の類似性を持つ多数のワードストリングを個々のワー
ド列が少なくとも1つのワードに関し異なるという制限
以外には個々のワード列への制限を設けないで決定する
ようなやり方で、冒頭のパラグラフで定義したタイプの
方法を採用することである。
本発明によれば、この目的はスピーチ信号に最も良く類
似しているN個の異なるワードストリングを認識するた
め、第3メモリは各々が少なくともN個の副位置を有す
る複数個の記憶位置を有し、これらの各副位置は、第3
メモリのアドレス用の第1ポジションと、記憶位置内の
副位置のアドレス用の第2ポジションと、ワード表示用
の第3ポジションと、差分和の表示用の第4ポジション
とを有し、初めの2つのポジション内のアドレスがワー
ドの開始点のポインタを表わす如(したこと、各ワード
群中、最終ワードがテスト信号用のワードエンドに到達
するワード群に対しては、第3メモリ内に新規な記憶位
置をアドレスし、このアドレスを第2メモリ内に可能な
各後続ワードの開始点として、当該ワードの第1基準信
号上に記憶し、この副位置に書込まれた情報は、同じワ
ード群に属し、最終テスト信号に対し同時に終点に到達
した第1ワードの記憶位置に対し第2メモリ内にアドレ
スが記憶されている記憶位置より導出すること、前記副
位置中、差分和が記憶されているもののみを使用し、か
つ関連の第1ワードの基準信号との比較による差分和を
インクレメントして最小であるもののみを使用し、この
比較は前位のワードの列で、当該瞬時のワードを含み、
その瞬時迄の間が相違し、かつ新規な記憶位置のすべて
の副位置が充填される迄継続し、また情報を導出する際
には、当該副位置より情報を導出する記憶位置のアドレ
スの副位置のアドレスを第1ポジションに書込み、情報
を導出する副位置のポインタを第2ポジションに書込み
、丁度終了した関連の第1ワードを第3ポジションに書
込み、インクレメントされた差分和を第4ポジションに
書込むこと、及びスピーチ信号の最終テスト信号中に入
力された記憶位置のすべての副位置の内容より、各種の
異なるワードストリングを決定し、第3ポジション内の
ワードの表示を通じ、これを、前記副位置の第1及び第
2ポジション内に含まれている記憶位置のアドレス並び
にこれら副位置の内容等と共に出力することにより達成
される。
1988年にニューヨークで開催された学会の予稿集″
Proc、 IEEE Int、 Conf、 on 
Acoustics、 5peechand Sign
al Processing”、 New York 
1988の410−413ページから、首尾一貫したス
ピーチの認識に対するアルゴリズムは既知であって、こ
れは最善のワード列ばかりでなく最善から2番目の類似
性を持つワード列をも判定する。しかしこのためには異
なる認識原理、すなわち多段階(nun t−stag
e)の方法が用いられているが、その具体的な技術的実
現、特に記憶位置の割当てに対しては全(文献が発表さ
れていない。
本発明の方法では、3番目のメモリの内容はある特定の
やり方で拡大され、今や多数の異なるワード列の形成が
可能であって、毎回スピーチ信号への最善の類似性を持
つこれら異なるワード列のみが更に検討されることを、
3番目のメモリの新しい記憶位置に対する情報の生成の
ためのステップが保証している。更に本発明は、1つの
ワードの終わりがその後に全語常の任意の他のワードは
どれも続くことができないで、ある特定のグループのワ
ードすなわち好適には特定のシンクラス・クラスの今終
わったばかりのワード又はこのワードの出発点により指
令されたワードのみが続(ことができるスピーチモデル
の利用されることを可能とする。よく知られているよう
にこのことば認識の信頼性が著しく増大することを可能
にする。
3番目のメモリの各記憶位置では、差分和それ自身が各
副位置の4番目のポジションに記憶されることができる
。本発明の実施例による、より少ない計算時間しか必要
としないもう1つの可能性は、差分和の絶対値は各記憶
位置の1番目の副位置の4番目のポジションに記憶され
、この副位置における差分和間の差異と1番目の副位置
の差分和とは、各その次の副位置の4番目のポジション
に記憶されることを特徴とする。このようにして、ある
特定のテスト信号がただ1つのワードのみをもたらすな
らば特に、差分和間の差異がそのまま有効であり、従っ
て1番目の副位置の絶対値のみが増加させられなければ
ならないということが達成される。
同一テスト信号に対し多数のワードが同時に終わる場合
に、3番目のメモリの新しい記憶位置に対する情報を得
るためには、これらのワードに対応する記憶位置の副位
置は、最少差分和を持つ副位置のみが結局使用されるよ
うなやり方で混合されなければならない。本発明の又別
の実施例においてこの混合過程を実行する効率的な方法
は、同一テスト信号に関し終わりに到達するワードの内
の1つに対して、該ワードの差分和と共にアドレスが記
憶されている記憶位置の情報から、更に別の情報が得ら
れ且つこれを3番目のメモリ中の新しいアドレスを持つ
記憶位置に記憶して成り、また 各副位置に関しこれらのワードの1つ置きのものの該当
する記憶位置の情報は、新しい記憶位置のすべての副位
置の情報と順次比較され、もし2つの相互に比較された
副位置の情報がそれまでに詳しく調べられた同一ワード
列を示すならば、大きい方の差分和は抑制され、且つ あるワードの丁度今比較された副位置の抑制されなかっ
た情報が、比較された副位置の差分和よりその差分和が
大きいか小さい新しい記憶位置の2つの副位置の間に挿
入され、該新しい記憶位置の副位置の情報は必要なら1
副位置だけシフトされて成ることを特徴とする。
このやり方では、終結するワードの各々の個別の副位置
を通して繰り返し探索する必要はなく、該過程は多数の
同時に終結するワードのうちの任意のワードで始めてよ
いのであって、その始めたワードの情報から入るべき3
番目のメモリの新しいアドレスのデータが得られ、以下
順次同時に終結する他のワードの情報が新しい記憶位置
に搭載され、この新しい記憶位置に前からあったデータ
は消去またはシフトアウトされて終には同じグループの
同時に終結するワードはすべて処理されるに至る。この
ことは多数の同時に終結するワードのデータを組み合わ
せるのに要する時間を最少にする。
それまでに詳しく調べた先行ワード列が、比較された2
つの副位置からの情報に対して異なるかどうかをチエツ
クするために、副位置の1番目及び2番目のポジション
のデータから続く3番目のメモリの記憶位置の連鎖を毎
回詳しく調べなければならない。本発明の又別の実施例
ではこのことが、4番目のメモリにおいては、上記情報
が3番目のメモリの副位置へ書き込まれる度毎に、それ
までに詳しく調べられ丁度全路わったワードにより伸ば
されたワードストリングの指示が、終わったワードの指
示の代わりに、3番目のポジションで挿入された副位置
中に記憶されている新しいアドレスに記憶され、それま
でに詳しく調べられたワードストリングは4番目のメモ
リのアドレスを介して決定され、該アドレスは、挿入さ
れるべき副位置に関する情報がそれから得られる副位置
に記憶されることによって簡単化することが出来る。
これは更に別のメモリすなわち4番目のメモリを必要と
するが、2つの比較されたワードストリングが類似かど
うかをチエツクするために、このメモリへの対応する入
力のみが検討されなければならないのである。このこと
は処理時間の相当量を節約する。さらに、スピーチ信号
の終わりには最善の類似性を持つワードストリングが、
ワードストリングを副位置の1番目及び2番目のポジシ
ョンにおける規準又は指示をトレースバックすることに
より決定する必要無しに、この4番目のメモリから直接
読み出されることが出来る。
本発明による方法を実行するための装置であって、 特有のテスト信号を得るためのスピーチ信号処理デバイ
スと、 認識しようとしているワードに対する規準信号を記憶す
るための1番目のメモリと、 差分値を形成するため及び差分値を累積加算して差分和
を形成するために、各テスト信号を規準信号と比較する
ための比較回路と、 該当するワードに対する差分和及び差分和の列の始まり
の指示を記憶するための2番目のメモリと、 ワードの終わりに到達したとき、差分和の列の始まりへ
のポインタと丁度全路わったワードへのポインタとを記
憶する3番目のメモリとを有して成る装置においては、 ワードの終わりに到達したとき、新しくアドレスされた
各記憶位置に対して、3番目のメモリは多数の副位置を
有し、該副位置の各々は4つの記憶ポジションを持ち、 処理回路が設けられ、該処理回路は、同じワードのグル
ープに属し同じテスト信号で終わるすべてのワードに対
して3番目のメモリ内の同じ記憶位置にアドレスし、個
別の副位置の中へそれら記憶位置の副位置の読み出し内
容から得られた情報を書き込み、該情報の記憶アドレス
は2番目のメモリ内の当該終わったワードに対応する入
力により指示されるものであり、また 以下に記すような副位置すなわち、該副位置に対して差
分和がそこに記憶され且つ該当する最初のワードの規準
信号の比較の結果としての差分和の増加により増大した
該差分和が最少であるところの、且つ又、該副位置に対
してそれまでに詳しく調べられた瞬間的なワードを含む
先行ワードの列が異なるところの副位置のみから、上記
処理回路は情報を得て成ることを特徴とする。
以下、図面につき説明する。
検査すべきスピーチ信号からテスト信号を一般に規則的
な間隔で、例えばloms〜20m5の間隔て取出す。
これらテスト信号は例えばスピーチ信号の短時間スペク
トル、基本スピーチ周波数、ラウドネス或いは特にワー
ド認識のために準備しておくことのできる同様な値とす
ることができる。このようなテスト信号の発生方法は既
知であり、本発明の範囲外のものである。
スピーチ信号は語柔から由来する個々のワードから成っ
ているということは知られている。語案のワードは、個
別に発音されたワードから取出した基準信号のに列の組
に相当する。基準信号、従ってワードの列をk・l、−
−−にで示す。列に内の個々の基準信号に符号j=1.
−−−j(k)を付した。ここに、j(k)は基準信号
の列にの長さを示す。
コヒーレントワードストリング中のワードを認識する最
終的な目標は、スピーチ信号から取出したテスト信号の
列に最良に適応した基準信号列のうちの連続する複数個
を決定することにある。
前述したドイツ連邦共和国特許出願公開第DE−O33
215868号明細書から既知の、スピーチ信号に最良
に適応した単一のワード列を決定する方法を第1図につ
き詳細に説明する。スピーチ信号のテスト信号i及び個
々の列にの基準信号j (ここに各々が5つのワードよ
り成る5つの列1〜5を一例として示しである。)がマ
トリックス点(1+j、k)のマトリックス10を規定
する。局所差分値d(L  L k)は各マトリックス
点に割当てられており、対応する音響特性からのずれ或
いはこれらの音響特性間の差の目安となる。コヒーレン
トワードストリングを認識する上での問題は、テスト信
号と基準信号列の未知の連続との間の最良の適応を表わ
すマトリックス点(i、 jt k)のマトリックスを
通る通路を見い出す問題に変えることができる。換言す
れば、差分値d(+、 Jl k)の和は、関連の前の
マトリックス点の方向に依存する時間歪値だけ増大され
ると、上記の通路上のマトリックス点のすべてに対し最
大となる。この最適通路から開始すれば、基準信号列の
連続を第1図から明らかなように明瞭に決定しうる。
最適通路はテスト信号列を個々の基準信号列に非線形適
応することにより決定される。このために、マトリック
ス点(i、 j、 k)を通る最適通路は部分的にこの
マトリックス点に先行する最適副通路より成るという事
実を用いる。この目的のために、マトリックス点(1,
Jl k)へのすべての通路に沿う最小差分和D(i、
 j、 k)を決定する。この差分和は局所的な差分値
の和である為、これを先行点への最適通路に沿う差分値
とマトリックス点(i、 j、 k)の局所的な差分値
との和として順次簡単に決定しつる。次に、最適通路に
対し、最小差分和を有する先行点を決定する必要がある
。既知の方法では、このようにすることにより、時間歪
値を許容することなく、基準信号の列内の遷移に対する
以下の遷移規則をもたらす。
D(i、j、k)=d(i、j、k) + min D(i−1,j、 k)、 D(i−1,
j−1,k)、 D(i、 j−1,k)最適通路は未
だ分っていない為、上記の式は複数の通路をもたらす。
これら通路のうち、第1図には最終的に最適通路である
と見い出される通路P1に加えて例えば通路P2及びP
3をも示しである。
差分和に対ししきい値を用いない場合には、すべての差
分信号列の各基準値に対し実際に別々の通路が得られ、
これら通路は、ベルマンの最適性原理によると、特にワ
ードの境界で交差しない。
テスト信号に対し、すべての基準信号に対する差分和を
決定するためには、先行する点の差分和の全マトリック
スのうちの小部分のみを、すなわち上記の式から明らか
なように先行するテスト信号i−1と関連する差分和の
みを必要とする。これらの差分和はブロック12で線図
的に示すメモリにおいて区分12aに記憶され、新たな
各テスト信号時に書換えられる。
更に、最適通路をトレースバックしうるようにする、す
なわち基準信号の1つの列から他の列へめ各遷移位置、
すなわちワード境界に位置する通路の点をトレースバッ
クしつるようにする必要がある。従来の方法の最終的な
目標はスピーチ信号におけるワード又は基準信号の列の
未知の連続を決定することにある為、どのテスト信号に
対し、基準信号の列の終了点で終了する副通路を開始さ
せるかを決定するのが適している。しかし、ロードスト
リングにおけるワード認識に対しては、基準信号の列内
の副通路のデイテールは適切でない。
最初は未だ、基準信号の各列の終了点における最適通路
の副通路の終了点は分っておらず、この理由でトレース
バック情報を時間適応処理の全持続時間に対し保つ必要
がある。最適通路はマトリックス点(i、 j、 k)
毎にこの基準信号列に内の第1基準信号j・1に対する
独自の開始点を有する。従って、マトリックス点毎にト
レースバックポインタB(b Jl k)を、このマト
リックス点(L L k)に対する最良の通路を生じる
テスト信号アドレスとして決定することができる。
従って、差分和に対するのと同様に、トレースバックポ
インタB(j、 k)の1つの列(コラム)をその都度
記憶する必要がある。すなわち、基準信号列にの各々の
列の各基準信号j毎に、差分和に対する1つの記憶位置
12aとトレースバックポインタに対する1つの記憶位
置12bとが必要となる。このことを第1図の左側部分
に示す。
しかしトレースバックに対しては、関連の基準信号列に
おける副通路の開始を決定する必要がなく、前述したよ
うに最終の副通路の開始にすぐ先行する先行副通路の終
了を決定する必要がある。
従って、従来の方法は、開始のテスト信号アドレスの代
りに、先行する終了点のテスト信号アドレスをトレース
バックポインタB(j、 k)に直接記憶することによ
り簡単化される。
前述したように、終了点におけるトレースバックポイン
タのみが、すなわち個々の基準信号列にの最終基準信号
J(k)が、ワードの列を最適通路に沿ってトレースバ
ックしうるようにするものである。その理由は、終了点
におけるトレースバックポインタB(J(k)、 k)
が先行するすべての列の終了点を規定する為である。し
かし、メモリ12に記憶されたこれらの終了点における
トレースバックポインタは次のテスト信号の処理中に書
換えられる為、基準信号の個々の列の終了点でトレース
バックポインタを記憶する個別のメモリが必要となる。
このような終了点は各テスト信号i毎に生じうる、すな
わち前記の最適性原理によってスピーチモデルにかかわ
らず少なくとも1つの終了点が生じうる為、この別個の
メモリは各テスト信号毎にトレースバックポインタに対
する記憶位置を有するようにする必要がある。第1図で
は、この別個のメモリをマトリックス10の下側にブロ
ック14として線図的に示してあり、このメモリの区分
14aにはトレースバックポインタB(J(k)、k)
が常に、差分和D(J(k)、 k)が最小となる先行
の終了点のテスト信号アドレスF(i)の形態で記憶さ
れている。
しかし、テスト信号アドレスF(i)は各基準信号列内
の最適通路の個々の副通路の終了点自体ではなく、関連
の基準信号列と関連するワードである為、これらワード
を表わす基準信号列の列番号をも関連の初期アドレスF
(i)と−緒に記憶する必要がある。記憶された列番号
をT(i)で示し、これらは、終了点J(k)で最小の
差分和D(J(k)、 k)が同じテスト信号に対する
他のすべての基準信号列に対し現われる基準信号列にの
列番号である。
第1図から明らかなように、先行する基準信号列の終了
点のテスト信号アドレス1(L−1)と最終の基準信号
列の列番号k(L)とは最終のテスト信号工に対し記憶
された値から取出すことができる。同様に、記憶された
他のテスト信号アドレスF(i)は、メモリ14の記憶
位置1(t−1)、 1(L−2)。
1(L−3)等を接続する矢印で示すように、各先行す
る基準信号列の列番号k(t−1)、 k(t−2) 
−−−−とその前に終了する基準信号列の終了点のテス
ト信号アドレス1(L−2)、  1(L−3)−−一
とが記憶されているアドレスを直接もたらす。
この方法は、スピーチモデルに応じて他の特定の基準信
号列とのみ連続させることのできる2つ以上の基準信号
列を同じテスト信号に対し同時に終了せしめうる当該ス
ピーチモデルを用いる場合には、何らかの他のステップ
を講じることな(しては用いることができない。この場
合、最小の差分和を有する基準信号列の終了を以って単
に記憶したり進行したりすることができないが、大きな
差分和で終了する他の基準信号が最終的に、スピーチ信
号に後に良好に適応されるという点でこの終了時点で小
さな差分和をもたらすことができる。
しかし、この問題は、メモリ14を第4図で別個に、す
なわちテスト信号の列によらずにアドレスすることによ
り容易に解決することができ、この場合、メモリ14の
対応するアドレスを区分14aに記憶する必要があり、
これらアドレスをテスト信号の瞬時的な現在の列番号か
ら完全に取出しつるようにする必要がある。
しかし、スピーチ信号に最良に近似している、すなわち
終了時に最小の差分和を有しているワード列のみならず
、スピーチ信号に次に最良に類似している、すなわち次
に大きな差分和を有するワード列をも決定し且つ読出す
必要がある場合には、より大きな問題が生じる。その理
由は、順次に大きな差分和を有するワード列を表わし、
従ってどれが実際にスピーチ信号に最良に類似している
N個の最良のワード列であるかが終了時に確かめられる
まで記憶しておく必要がある同じ構文の群の複数のワー
ドが同じテスト信号に対し終了されるおそれがある為で
ある。
〔実施例〕
第2a図は、第1図のメモ1月4に対応するメモリの組
成を示す。この図は該メモリのトレースバック・ポイン
タに対する多数の記憶位置31ないし37を図式的に示
し、これらの記憶位置の各々は3つの最善のワード列を
決定するための3つのマルチポジション副位置を有する
。第2b図は、1つの記憶位置をさらに詳細に示すもの
である。本実施例では各記憶位置が3つの副位置TP1
. TP2. TP3に分割され、その各々が4つの記
憶ポジションStl。
Si2. Si2. Si4を持っている。これによっ
て3つの最善のワード列を決定することが可能になる。
最善から2番目のワード列もやはり決定しなければなら
ないならば、それに従って副位置の数は増さなければな
らないが、ポジションの数は同じままである。1番目の
副位置TPI中の情報は、スピーチ信号に最も良く類似
した最善のワード列を表し、副位置TP2は、その次に
大きい差分和を持つ最善から2番目のワード列を特定し
、以下同様である。
このメモリの、隣接テスト信号の場合または同じテスト
信号で終わる他のシンクラス群のワードの場合に結果的
に満たされる隣接類似記憶位置は明らかに、かなり大き
い差分和か、かなり小さい差分和を持つワード列を含む
であろう、その理由は最適列はスピーチ信号が終わりに
到達するまで決定できないからである。
個別のポジションの内容は次の通りである:ポジション
Sttは、今終わったワードに続くこのメモリの先行記
憶位置のアドレスLを含む。ポジションSt2は、その
アドレスがポジションStlに記憶されている副位置n
を特定し、それから当該副位置の情報が以下に説明する
やり方で得られる。
ポジションSt3に対しては、差し当たり規準信号、す
なわち即座に終わるワード列の列番号kを記憶するもの
とする。最後に、ポジションSt4は、今終わったワー
ドとこのワードに先行するワードストリングに対して到
達した差分和を含む。
第2a図においては、記憶位置31ないし37は記憶位
置を表す各ブロックの右上端に示される更に別の記憶ポ
ジションを有し、これは各副位置のこの記憶位置ポジシ
ョンSt4のすべての副位置の最少差分和を記憶し、そ
の後では関連差分和間の差及び上記最少差分和のみを含
んでいる。しかしこの場合、副位置TPIが最少差分和
を陰伏的に含むから1番目の副位置TPIのポジション
St4は本来的に値0を含んでいるので、この1番目の
副位置TPIのポジションSt4はこの記憶位置の最少
差分和の絶対値を記憶するために用いることができ、一
方、2番目の副位置TP2のポジションSt4及びそれ
以後は、当該副位置に付随する差分和と上記最少差分和
との差dを含む。従って、第2a図のブロック31ない
し37中に示された最少差分和のための上記更に別の記
憶ポジションは実際には必要でない。
スピーチ信号の終わりでもあり得るところの終わりのワ
ードに先行するワードストリングのトレースバックの過
程は、第2a図中の矢印を用いて実例で説明される。す
なわち、記憶位置37における差分和に基づいて最善か
ら2番目であることが判ったワードストリングが読み出
されて、それにより最後の終わりのワードの列番号kが
記憶位置37の第2行の第3ポジションから読み出され
、第2行の第1ポジションにあるアドレスLを用いて記
憶位置35、すなわち記憶位置37の2番目の副位置の
2番目のポジションにおける対応する指示nに基づく2
番目の副位置がアドレスされ、また記憶位置35の2番
目の副位置の3番目のポジションに記憶されている先行
ワードの列番号を読み出すことができる。さらに、記憶
位置35の2番目の副位置の1番目のポジションにある
アドレスを用いて記憶位置34すなわち記憶位置34の
1番目の副位置が、記憶位置35の2番目のポジション
における対応する情報に基づいてアドレスされ、以下こ
のようにして経路が更に始めの方すなわち記憶位置32
の1番目の副位置にまでトレースバックされ、そこで最
善から2番目のワードストリングの最初のワードが終了
する。実際、他のワードストリングに属するその先の記
憶位置が記憶位置30から37までの間に位置しており
、その内の記憶位置31.33.36のみが例示されて
いる。
記憶位置37で最少差分和を持つと判ったワードストリ
ングは、例えば上述のように記憶位置36.35.33
.31を経由して、すなわち毎回1番目の副位置を経由
して拡大できる、その理由は、スピーチ信号は同等又は
更に高次の副位置を通ってしか進まない故に、−旦記憶
位置の2番目の副位置を通って拡大したワードストリン
グは記憶位置の1番目の副位置を通って伸ばすことは最
早できないからである。
各新規記憶位置の情報が、第2a図の記憶位置の情報に
従っていかにして生成され若しくは得られるかは、第3
図および第4図により説明される。
それはノードと介在リンクを持つグラフの形態のスピー
チ、モデルに基づいてなされ、該ノードは同様の路を進
むすべてのリンクに共通の点と見做すことができる。第
3図はそのようなスピーチモデルの一部分を示し、これ
は3つのノードN1、N2、N3と2つのワードすなわ
ちスピーチモデルの慣用術語に従えばノードN1に向か
う2つのリンクに4、k5を有する。「リンク」という
術語を用いる方がより適切である、何故なら1つの同じ
ワードが2つ又はそれ以上の異なるリンクにより表すこ
とができる、すなわちスピーチモデル内でリンクは唯一
であるにも拘わらず異なる位置に再起できるからである
同様にしてリンクに6、k7はノードN2に向かう。
実際、大多数のノードに向かうリンクの数は許容語案が
拡大するのに伴って増加する。
更に別のリンクが各ノードから設けられる、という意味
は例えばスピーチモデル中のリンクに4は特定の別のリ
ンクとのみ連続できるということで、その内のりンクに
1が第3図にさらに詳細に示されている。このことはリ
ンクに5についても云える。
同様に、この場合のリンクに6及びリンクに7も例えば
リンクに2及びリンクR3とのみ連続できる。2つのノ
ードN1及びN2は必ずしも同時に対応するリンクによ
り到達されなければならない訳ではな(、また、適用さ
れるダイナミックな時間順応及びその結果としての各個
別のリンクに沿った経路数の増加の故に、異なる且つ一
般的に継起的なテスト信号が繰り返しこのリンクの終端
に到達するであろうことを、念頭に置くべきである。
リンクに1、リンクに2及びリンクに3は今やノードN
3に通じている、すなわちリンクに8からリンクに9ま
でに対応するワードがこれに続(であろう。スピーチモ
デルに依存して、ノードNlの後に更にもう1つ別のノ
ードがもう1つ別のリンクにより到達され得る、すなわ
ち既にノードN1まで伸びて来ているセンテンス部分が
2つ又はそれ以上の異なる文法的な路の中に連続され得
ることも可能であるが、これはスピーチモデルの詳細に
係わることであり、在ではこれ以上議論しない。原理的
には、スピーチモデルを使用しないで記述された方法を
用いることも可能であり、すなわちその場合はスピーチ
モデルはただ1つだけのノードを有し、このノードから
設けられるリンクはすべてこのノードに戻るのである。
第3図は何らのタイミング条件も与えていない、すなわ
ちこの図は何時、どのテスト信号に対して、転移がノー
ドに到達するかを示していない。しかし蕊ではリンクk
l、リンクに2は同時に、すなわち同じテスト信号に対
してノードN3に到達するものとする。こうすれば第1
図に対応するマトリクスでは、数個の経路が1点に組み
合わされ、これらの経路は今までこの実際のスピーチ信
号とは異なる類似性をもって詳論されたワード列を示し
、その内のあるものは連続されなければならないもので
あり、それらは終端からのトレースバックが可能である
ことを必要とする。連続されるべき経路数はノードN3
に終端する各リンクに沿った経路数に等しい、すなわち
経路の総数は減少しなければならない。トレースバック
の可能性を維持しながらのこの減少は第4図を用いて更
に詳細に説明される。結果としてこれは特に、スピーチ
信号に基づいて最善の類似性を持つと判ったワード列を
トレースバックするため個々の列の該当の初期アドレス
に対するメモリ、すなわち第1図のメモリ14に対応す
るメモリに係わる。1つのワードに、従って1つの規準
信号列に明確に割り当てられた各リンクは、メモリ14
中の記憶位置のアドレスを、このリンクの始めに形成さ
れ第1図のメモ1月2のセクション12bに記憶されて
いるトレースバック・ポインタB(j、k)を用いて伝
達する。リンクklに対してはこれはアドレスL1であ
るとし、リンクに2に対してはこれはアドレスL2であ
るとする。
アドレスL3を持つメモリ14中の新しい記憶位置がリ
ンクに1及びリンクに2の終わりに読み込まれる。これ
を実現する最も簡単なやり方は、その次の空き記憶位置
を選択することである。
記憶位置し3の内容すなわちそこに書き込まれる情報は
記憶位置し1から逐次得られ、そのアドレスは既に述べ
たようにリンクklの終わりにあるメモリ12bから読
み出される。この記憶位置tlの総ての副位置の1番目
のポジションは関連の先行アドレスを含み、アドレスt
a及びアドレスLbは個々では例示として示されている
。2番目のポジションの内容は、アドレスta及びアド
レスLbを持つどの副位置から該当価が得られたかを示
している、すなわち本例では両記憶位置の1番目の副位
置から得られたことを示している。以下に述べるように
、副位置の情報がそこから生起する関連リンクの順序は
3番目のポジションに記憶される、すなわちリンクに4
はもつと小さい差分和S′をもたらし、リンクに5は値
d’ lだけ大きい差分和をもたらしている。このアド
レスtlは同一のテスト信号に対してはノードNlから
でているすべてのリンクに対して伝達されるが、この場
合にはリンクklのみを考える。差分和S′はノードN
1からでているすべてのリンクの、結果的には始めのリ
ンクklの、値D(J、 K)として用いられる、すな
わちリンクに1の1番目の規準信号を瞬間的テスト信号
と比較する前に且つリンクの経路中に、それはテスト信
号と規準信号との次の比較の間のダイナミックな時間順
応に従って増大する。
リンクklの終わりにおいて、付随する量D(J(kl
)。
k)は値S1に達し、これは記憶位置し3中の1番目の
副位置の4番目のポジションに書き込まれる。
この副位置の3番目のポジションは順序に1を記憶し、
一方2番目のポジションは、そこから情報が得られる先
行記憶位置tlの副位置の数、すなわち値lを記憶する
。最後にアドレスtlが1番目の副位置の1番目のポジ
ションに入る。2番目及び3番目の副位置も同様のやり
方で搭載され、第4図の実例中の最初に2番目の副位置
にあった情報が3番目の副位置に進む、というのは、2
番目の副位置では、2番目の同時に終わるリンクに2か
らの情報すなわちこのリンクと共に記憶されているアド
レスL2を持つ記憶位置からの情報従ってまた1番目の
副位置からの情報は、リンクに2に沿った差分値により
増大した差分和S′の方が記憶位置し1の2番目の副位
置、に始めから存在する差分和よりも小さいが故に、引
き続いて挿入されていたからである。すると、リンクに
2の終わりの絶対差分和は1番目の副位置の差分和Sl
に付託されて、差分d1をもたらし、一方、記憶位置t
lの2番目の副位置からの差分値d’ 1は記憶位置し
3の3番目の副位置の最後のポジション中に記憶された
差分値d2に直接対応する。記憶位置し1の3番目の副
位置から生起した記憶位置し3の3番目の副位置の始め
の内容は、今や記憶位置し3からの入力によりシフトア
ウトする、というのは、それがあまりに大きい差分和を
表すからである。同様に、記憶位置し3に対する情報は
記憶位置し2の2番目及び3番目の副位置から得られて
いる。
アドレスL3は、トレースバック・ポインタB (1,
k)としてノードN3からでているリンクに8ないしに
9の各々の1番目の規準値と共に記憶され、かように転
移し、対応する値D(1,k)は従って差分和S1及び
各リンクの1番目の規準信号との比較から形成される。
テスト信号が考察されているとき、少なくとももう1つ
別のリンクが同時にノードN3以外のノードに終端する
場合は、もう1つ別の記憶位置、例えばアドレスL4を
持つものが設けられなければならず、それに対して入力
されるべき情報は上述したのと同じやり方で得られる。
−成約に、記憶位置は同じテスト信号に対し少なくとも
1つのリンクが終端しているノード毎に設けられなけれ
ばならない。
しかしながら、記憶位置し2の第1副位置からの情報が
記憶位置し3の第2副位置内へ負荷される前に、結局は
スピーチ信号る対して異なる類似性の異なるワード列が
決定されねばならぬので、記憶位置し3の最後の記憶位
置から適切に出発して、この情報が記憶位置し1を介し
て記憶位置し3へ到達したワードストリングに関係しな
いかどうかが確かめられねばならない。副位置内へ負荷
されるべき情報がこの記憶位置の副位置の一つに既に存
在しているワード列を表現する場合には、この情報は抑
制されるべきであり、すなわちこの情報はより大きい絶
対差分和を表現している。これが空虚にされている記憶
位置し3の副位置となる場合には、若し他の副位置と挿
入されるべき副位置との差分和に基づいてこれができれ
ば、この空いている副位置内へ挿入されるべき情報を書
き込むことができるであろう。この場合には、記憶位置
し3内で既に可能な副位置は新しい副位置が挿入される
べき場合にシフトされる必要はない。
挿入されるべきワード列に相当するワード列が記憶位置
L3に既に存在するかどうかを確かめるために、記憶位
置し2からのリンク発行が記憶位置し3内の副位置の一
つの第3位置に既に存在しているかどうかが最初にチエ
ツクされねばならず、且つその場合には、リンクの対応
する先の列は、リンクのこれらの列が少なくとも−ポジ
ション異なるかあるいは始まりまで一致するかどうかを
決定するために遡られねばならない。
最後の終了リンクの順の代わりに各副位置の第3のポジ
ションで、付加的なワード列メモリのアドレスが記憶さ
れている場合には、このむしろ複雑な遡上は回避され得
て、そのメモリ内では、このメモリがまだこのワード列
を含んでいない場合には、前記リンクまで横断され且つ
そのリンクを含んでいるリンク列についてリンク情報の
あらゆる終端に対して新しい記憶位置に記憶される。こ
れは、スピーチ信号の端部において、そのとき読み込ま
れたメモリ14の最後の記憶位置内の第3ポジションの
個別に決定されたワード列が、スピーチ信号とのそれら
の増大する類似性と一致して前記付加的ワード列メモリ
を介して直接的に読み出され得る。
このワード列メモリの可能な組織を第5図及び第6図を
参照して幾らかもっと詳細に説明しよう。
例としての第5図はスピーチ信号を認識する過程で生じ
得る幾らかのワード列を与えているが、単純化のために
たった数ワード列が辿られているのみである。円W1〜
W2が個別のワードの端部を表し且つ内容が第6図に図
解されているワード列メモリのアドレスを表現する。
かつてワードが終わったことのない出発点WOから出発
して、なかんずく二つのワード“who”と“when
″とが、例えば所定のスピーチモデルに基づいてスピー
チ信号と比較される。ワード“who”が終わった場合
に第6図に示したワード列メモリのアドレスW1に登録
され、その登録はWOへのバックポインタを有するセク
ションElとリンク“who”を有するセクションE2
とを具える。セクションE3はその時は空のままである
。例えば少しだけ異なる瞬間に、ワード“when”が
終わった場合に、即ちもう一つの試験信号に対してアド
レスW2で第6図のワード列メモリ内に別の登録がされ
た場合に、セクションEl内のバックポインタも出発点
wOを指示し、セクションE2はリンク“when”を
含んでいる。
さて、比較はなかんずくワード“has”と“WaS”
とについてなされる。点W1から発生するワード“ha
s”が終端に到達する次のワードである場合には、アド
レスW3でワード列メモリ内に新しい登録がなされ、そ
のメモリはセクションEl内にwlへのバックポインタ
とセクションE2内にリンク″has”とを含む。同時
に、リンク“has”がアドレスwlにおいてセクショ
ンE3内に点W1から生じるリンクとして記入される。
続いて点W1からワード“WaS”が生じている場合に
は、このアドレスWlでのセクションE3内にこのリン
クが既に存在するかどうかがチエツクされる。これがま
だである場合を想定すると、アドレスW4でワード列メ
モリ内に登録がなされ、その登録はセクションEl内に
WlへのバックポインタとセクションE2内にリンク“
WaS”とを具える。更にその上、アドレスWlでのセ
クションE3内の登録はこのリンク“WaS”により完
成される。
同様にして、点tV2から発生しているワード“WaS
”と“has”とが終わり、対応するワードがセクショ
ンE3内でアドレスW2においても完成された場合に、
新しいアドレスW5及び〜v6が作り出される。
さて、なかんずくワード“written”と“mai
led”とが点〜v3から出発して比較される。単純化
のために実際にW4〜W6に続くワードは考えられてい
ない。
ワード“written”が終わった場合に、新しい登
録W7がワード列メモリ内になされ、その登録はセクシ
ョンEl内にW3へのバックポインタとセクションE2
内にリンク“written”とを具える。このワード
はアドレスW3におけるセクションE3内にも完成され
る。同様のことをアドレスW8に書き込まれる他方のワ
ード“mailed”にも、且つアドレス〜V9. W
IO。
Wit及びWlでの登録を発生するその他のワードにも
適用する。先のアドレスにおけるすべてのセクションE
3が同様に完成される。
さて、例えば点Wlから出発して、ワード“hasはも
う一つの通路を介して最新の瞬間に終わった場合に、登
録E3からの初期アドレスW1を介してこのワード列が
すでに存在することを直ちに確かめることか可能である
スピーチ信号の終端において、第3メモリ14内の最後
の記憶位置から、ワードストリング及びこれを介する先
のワードその他の先の終端と同時に最後のワードを、ワ
ード列メモリのすべての副位置の第3位置に含まれるア
ドレスの第2セクシヨンE2によって毎回決定すること
、及びこれらをワード列として読み出すことがか今や可
能である。
第7図に示したブロック線図において、認識されるべき
スピーチ信号がマイクロホン30へ印加され、スピーチ
信号処理回路42へ供給される電気信号に変換される。
この回路においては特性試験信号がそのスピーチ信号か
ら得られ、−船釣に大きい給電の場合にはリアルタイム
処理は不可能であるから、例えば複数の隣接するスペク
トル領域内のIomsの短い連続した時間間隔にわたる
例えばスピーチ信号の振幅及び適切なこれらの試験信号
とが一時的に記憶される。この図示されていない中間メ
モリはアドレス発生器44によってアドレスされる。
続いて、試験信号は接続線43を介して比較器回路16
へ印加され、その回路は同時に基準メモリ兇から基準信
号を受は取る。この基準メモリ18はアドレス発生器2
4により制御され、そのアドレス発生器はすべての基準
信号を連続して読み出すか、あるいはしきい値が用いら
れる場合には基準メモリ18に記憶された基準信号の特
定の基準信号を読み出す。いったんすべての関連する基
準値が比較器回路16へ印加され、アドレス発生器24
が接続線25を介してアドレス発生器44へ信号を供給
するので、次の試験信号が比較器回路16へ印加される
比較器回路は各試験信号を印加された基準信号と比較し
、印加された各基準信号に対する差分値を形成し、且つ
例えばドイツ連邦共和国特許出願公開第DE−O332
15868号公報から知られるようなダイナミックプロ
グラミングの規則に従って、差分和がこれらの値から得
られ、これもアドレス発生器24によりアドレスされる
メモリ12内に記憶される。更にその上、バックポイン
タが、どの位置であるいはどの信号に対して関連するワ
ードを横断する差分信号の列がこのワード内で始まった
かを指示するために、各アドレスにおいてこのメモリ内
に記憶される。
各ワードの終端において、すなわちアドレス発生器24
がワードにの最後の基準信号j=J(k)をアドレスし
た場合に、処理回路20が働かされ、その処理回路が接
続線13を介してメモリ12からこのアドレスに記憶さ
れるバックポインタBを読み出し、接続線21を介して
この記憶位置を読み出すための前記バックポインタに一
致するアドレスにおけるメモ1月4内の記憶位置を駆動
する。丁度終了したワードが関連する試験信号内の最初
の終了ワード、あるいは若しスピーチモデルが用いられ
ればは、スピーチモデルメモリ14によって処理回路2
0により決定されたワードの文法的に付随した組の第1
ワードである場合には、メモリ14内の次の自由な記憶
位置が接続線23を介してアドレスされ、読み出された
記憶位置の内容がその中に記憶される。しかしながら、
丁度終了したワードがこの試験信号に対する第1ワード
でない場合には、メモ1月4の読み出された記憶位置の
すべての副位置の内容が、そこに含まれ且つ瞬間的に通
過されたワードにより増大した差分和がメモリ14内の
記憶位置の副位置の差分和より小さいかどうかを決定す
ることをチエツクし、そのメモリはこの試験信号のため
に第1終了ワードに対して新しく記入され、且つそのメ
モリのためにこの新しく記入されたワードの内容が例え
ば処理回路20内に維持される。そのような副位置が見
出された場合には、その副位置の内容と次の副位置の内
容とが一つの副位置により進められ、最後の副位置の内
容は消失し、読み込まれるべき副位置の丁度比較された
内容は、かくして空にされた副位置に記入される。
そこに記憶された増大された差分和が、最後に読み込ま
れた記憶位置の最後の副位置の差分和より大きい副位置
が見出されるまで、これがすべての2副位置に対して連
続的に影響される。新しい副位置を読み出している間に
個別の記憶位置の内容が上述の方法で明らかに更新され
、丁度終わったワードの数kがアドレス発生器24から
得られる。
新しい試験信号の場合には最初に終わるワードに対する
メモリ14内の新しい記憶位置に読み込む代わりに、少
なくともしきい値が差分和に対して用いられる場合に若
し比較が許容されるならば、基準メモリ18のすべての
ワードのすべての基準信号が瞬間的な試験信号と比較さ
れるまで、この記憶位置の全体の内容が最初に処理回路
20内に中間的に記憶され、この試験信号に対して次の
終了ワードにより完成され得る。従って得られた情報は
このときメモリ14内の新しい記憶位置内へ負荷され得
る。本質的特徴は、この記憶位置の個別の副位置がそれ
らの差分和の列で配列されることである。
各場合にメモリ14内のこの新しく読み込まれた記憶位
置のアドレスは、接続線23を介して比較器回路16へ
も印加され、その回路がこのアドレスをすべての新しく
始めるワードに対するパックポインタBとしてメモリ1
2内へ書き込む。この方法において、メモリ14は認識
されるべきスピーチ信号の最後の試験信号が比較されま
で連続して読み込まれ、この後に認識されたワード列が
ここに先に記載したようにメモリ14を読み出すことに
より処理回路20により出力され、且つ認識された文章
の別の処理のために出力装置38、例えばプリンタ又は
メモリ又はさらに別の処理回路へ印加される。
比較器回路16と処理回路20とは一緒にプログラムで
きるコンピュータによって構成してもよく、そのコンピ
ュータはそのとき例えばアドレス発生器24と44とを
具え、及びそれとも個別のメモリ、特に二つのメモリ1
2と14と力(共通メモリの相当するアドレス部分によ
り形成されてもよい。
【図面の簡単な説明】
第1図は、1つのワードストリングを決定する方法を示
す線図、 第2a及び2b図は、本発明による方法での第3メモリ
の記憶位置の組織化及びそのワードストリングのトレー
スバックを示す説明図、 第3図は、スピーチモデルのグラフの一部を示す線図、 第4図は、第3メモリの新たな記憶位置の情報を形成す
る方法を示す説明図、 第5図は、典型的なスピーチ信号に対し得られたワード
列の可能な結合を示す線図、 第6図は、第5図に示すワードの結合に対応する第4メ
モリの内容を表わす説明図、 第7図は、本発明による方法を実施する装置を示すブロ
ック線図である。 IO・・・マトリックス 12、 14・・・メモリ 12a、 12b、 31〜37・・・記憶位置14a
、 14b・・・記憶区分 16・・・比較回路 18・・・基準メモリ 20・・・処理回路 24、44・・・アドレス発生器 38・・・出力装置

Claims (1)

  1. 【特許請求の範囲】 1、スピーチ信号内の少なくとも1つのワードストリン
    グの認識方法であって、 このワードストリングより連続時間インタ ーバルを表わすテスト信号を導出し、これらのテスト信
    号を第1メモリ内に記憶されている複数個の所定ワード
    の基準信号と比較して差分値を形成し、これらの差分値
    を加算し、第2メモリ内にこれらの差分値の和をメモリ
    アドレスのポインタと共に記憶し、このメモリアドレス
    のポインタは、かくして得られた差分和の列がワードの
    開始点においてスタートできる如くし、さらに少なくと
    もワードの境界において、丁度終了したワードのポイン
    タで当該ワードが開始する点のポインタを第3メモリ内
    に記憶し、かつこのスピーチ信号の終わりにおいて決定
    される少なくとも1つのワードストリングで、最小の差
    分和が得られた当該ワードより少なくとも開始し、この
    時に記憶されているワードの開始点を経過し、また前位
    ワードに対するポインタよりそのワード開始点に至るワ
    ードストリングをこの第3メモリに記憶するスピーチ信
    号内のワードストリングの認識方法において、 スピーチ信号に最も良く類似しているN個 の異なるワードストリングを認識するため、第3メモリ
    は各々が少なくともN個の副位置を有する複数個の記憶
    位置を有し、これらの各副位置は、 第3メモリのアドレス用の第1ポジション と、 記憶位置内の副位置のアドレス用の第2ポ ジションと、 ワード表示用の第3ポジションと、 差分和の表示用の第4ポジションと を有し、初めの2つのポジション内のアドレスがワード
    の開始点のポインタを表わす如くしたこと、 各ワード群中、最終ワードがテスト信号用 のワードエンドに到達するワード群に対しては、第3メ
    モリ内に新規な記憶位置をアドレスし、このアドレスを
    第2メモリ内に可能な各後続ワードの開始点として、当
    該ワードの第1基準信号上に記憶し、この副位置に書込
    まれた情報は、同じワード群に属し、最終テスト信号に
    対し同時に終点に到達した第1ワードの記憶位置に対し
    第2メモリ内にアドレスが記憶されている記憶位置より
    導出すること、 前記副位置中、差分和が記憶されているも ののみを使用し、かつ関連の第1ワードの基準信号との
    比較による差分和をインクレメントして最小であるもの
    のみを使用し、この比較は前位のワードの列で、当該瞬
    時のワードを含み、その瞬時迄の間が相違し、かつ新規
    な記憶位置のすべての副位置が充填される迄継続し、ま
    た情報を導出する際には、当該副位置より情報を導出す
    る記憶位置のアドレスの副位置のアドレスを第1ポジシ
    ョンに書込み、情報を導出する副位置のポインタを第2
    ポジションに書込み、丁度終了した関連の第1ワードを
    第3ポジションに書込み、インクレメントされた差分和
    を第4ポジションに書込むこと、及び スピーチ信号の最終テスト信号中に入力さ れた記憶位置のすべての副位置の内容より、各種の異な
    るワードストリングを決定し、第3ポジション内のワー
    ドの表示を通じ、これを、前記副位置の第1及び第2ポ
    ジション内に含まれている記憶位置のアドレス並びにこ
    れら副位置の内容等と共に出力することを特徴とするス
    ピーチ信号内のワードストリングの認識方法。 2、差分和の絶対値は各記憶位置の1番目の副位置の4
    番目のポジションに記憶され、この副位置における差分
    和間の差異と1番目の副位置の差分和とは、各その次の
    副位置の4番目のポジションに記憶されることを特徴と
    する請求項1に記載の方法。 3、同一テスト信号に関し終わりに到達するワードの内
    の1つに対して、該ワードの差分和と共にアドレスが記
    憶されている記憶位置の情報から、更に別の情報が得ら
    れ且つこれを3番目のメモリ中の新しいアドレスを持つ
    記憶位置に記憶して成り、また 各副位置に関しこれらのワードの1つ置き のものの該当する記憶位置の情報は、新しい記憶位置の
    すべての副位置の情報と順次比較され、もし2つの相互
    に比較された副位置の情報がそれまでに詳しく調べられ
    た同一ワード列を示すならば、大きい方の差分和は抑制
    され、且つ あるワードの丁度今比較された副位置の抑 制されなかった情報が、比較された副位置の差分和より
    その差分和が大きいか小さい新しい記憶位置の2つの副
    位置の間に挿入され、該新しい記憶位置の副位置の情報
    は必要なら1副位置だけシフトされて成ることを特徴と
    する請求項1又は2に記載の方法。 4、4番目のメモリにおいては、上記情報が3番目のメ
    モリの副位置へ書き込まれる度毎に、それまでに詳しく
    調べられ丁度今終わったワードにより伸ばされたワード
    ストリングの指示が、終わったワードの指示の代わりに
    、3番目のポジションで挿入された副位置中に記憶され
    ている新しいアドレスに記憶され、それまでに詳しく調
    べられたワードストリングは4番目のメモリのアドレス
    を介して決定され、該アドレスは、挿入されるべき副位
    置に関する情報がそれから得られる副位置に記憶されて
    成ることを特徴とする請求項1ないし3のうちのいずれ
    か1項に記載の方法。 5、請求項1ないし4のうちのいずれか1項に記載の方
    法を実行するための装置であって、特有のテスト信号を
    得るためのスピーチ信 号処理デバイスを有して成り、また 認識しようとしているワードに対する規準 信号を記憶するための1番目のメモリと、 差分値を形成するため及び差分値を累積加 算して差分和を形成するために、各テスト信号を規準信
    号と比較するための比較回路と、該当するワードに対す
    る差分和及び差分和 の列の始まりの指示を記憶するための2番目のメモリと
    、 ワードの終わりに到達したとき、差分和の 列の始まりへのポインタと丁度今終わったワードへのポ
    インタとを記憶する3番目のメモリとを有して成る装置
    において、 ワードの終わりに到達したとき、新しくア ドレスされた各記憶位置に対して、3番目のメモリ(1
    4)は多数の副位置(TP1、TP2、・・・)を有し
    、該副位置の各々は4つの記憶ポジション(l、n、k
    、d)を持ち、 処理回路(20)が設けられ、該処理回路(20)は、
    同じワードのグループに属し同じテスト信号(i)で終
    わるすべてのワードに対して3番目のメモリ(14)内
    の同じ記憶位置 (l1、l2、l3、・・・)にアドレスし、個別の副
    位置の中へそれら記憶位置の副位置の読み出し内容から
    得られた情報を書き込み、該情報の記憶アドレスは2番
    目のメモリ (12)内の当該終わったワードに対応する入力(B、
    j、k)により指示されるものであり、また以下に記す
    ような副位置すなわち、該副位 置に対して差分和がそこに記憶され且つ該当する最初の
    ワードの規準信号の比較の結果としての差分和の増加に
    より増大した該差分和が最少であるところの、且つ又、
    該副位置に対してそれまでに詳しく調べられた瞬間的な
    ワードを含む先行ワードの列が異なるところの副位置の
    みから、上記処理回路(20)は情報を得て成ることを
    特徴とする装置。
JP2244133A 1989-09-15 1990-09-17 スピーチ信号内のワードストリングの認識方法 Pending JPH03155600A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE3930889.8 1989-09-15
DE3930889A DE3930889A1 (de) 1989-09-15 1989-09-15 Verfahren zur erkennung von n unterschiedlichen wortketten in einem sprachsignal

Publications (1)

Publication Number Publication Date
JPH03155600A true JPH03155600A (ja) 1991-07-03

Family

ID=6389533

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2244133A Pending JPH03155600A (ja) 1989-09-15 1990-09-17 スピーチ信号内のワードストリングの認識方法

Country Status (4)

Country Link
EP (1) EP0417854B1 (ja)
JP (1) JPH03155600A (ja)
AT (1) ATE147184T1 (ja)
DE (2) DE3930889A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4130632A1 (de) * 1991-09-14 1993-03-18 Philips Patentverwaltung Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal
GB9602699D0 (en) * 1996-02-09 1996-04-10 Canon Kk Pattern matching method and apparatus
US5960395A (en) * 1996-02-09 1999-09-28 Canon Kabushiki Kaisha Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming
DE19624988A1 (de) * 1996-06-22 1998-01-02 Peter Dr Toma Verfahren zur automatischen Erkennung eines gesprochenen Textes

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3710507A1 (de) * 1987-03-30 1988-10-20 Philips Patentverwaltung Verfahren zum erkennen kontinuierlich gesprochener woerter

Also Published As

Publication number Publication date
EP0417854A2 (de) 1991-03-20
DE59010620D1 (de) 1997-02-13
ATE147184T1 (de) 1997-01-15
EP0417854A3 (en) 1992-11-25
EP0417854B1 (de) 1997-01-02
DE3930889A1 (de) 1991-03-28

Similar Documents

Publication Publication Date Title
US5228110A (en) Method for recognizing N different word strings in a speech signal
US5581655A (en) Method for recognizing speech using linguistically-motivated hidden Markov models
JP3860613B2 (ja) 音声信号中の発声単語列の認識方法及び装置
JP2717652B2 (ja) 連続音声認識システム
US5515475A (en) Speech recognition method using a two-pass search
CA1320274C (en) Constructing markov model word baseforms from multiple utterances by concatenating model sequences for word segments
US5987409A (en) Method of and apparatus for deriving a plurality of sequences of words from a speech signal
KR100350002B1 (ko) 음성신호에응답하여대화정보를출력하는시스템및방법
US20080228487A1 (en) Speech synthesis apparatus and method
JPH0314200B2 (ja)
JPS62246097A (ja) 音声認識のための単語マルコフ・モデル合成装置
JPH05197394A (ja) 音声信号のワードシーケンス認識方法および装置
Schwartz et al. Efficient, high-performance algorithms for n-best search
JPS62118399A (ja) 有限状態マシン内での遷移解析装置及び方法
CN109087645A (zh) 一种解码网络生成方法、装置、设备及可读存储介质
JP2000293191A (ja) 音声認識装置及び音声認識方法並びにその方法に用いられる木構造辞書の作成方法
CN111105787A (zh) 一种文本匹配方法、设备及计算机可读存储介质
JPH03155600A (ja) スピーチ信号内のワードストリングの認識方法
Ney A comparative study of two search strategies for connected word recognition: Dynamic programming and heuristic search
JP3950957B2 (ja) 言語処理装置および方法
US7818172B2 (en) Voice recognition method and system based on the contexual modeling of voice units
US7676366B2 (en) Adaptation of symbols
JP3484077B2 (ja) 音声認識装置
JP4054610B2 (ja) 音声認識装置および音声認識方法、音声認識プログラム、並びに、プログラム記録媒体
JPS63158600A (ja) 単語検出装置