JPH03155600A - Identification of word string in speech signal - Google Patents

Identification of word string in speech signal

Info

Publication number
JPH03155600A
JPH03155600A JP2244133A JP24413390A JPH03155600A JP H03155600 A JPH03155600 A JP H03155600A JP 2244133 A JP2244133 A JP 2244133A JP 24413390 A JP24413390 A JP 24413390A JP H03155600 A JPH03155600 A JP H03155600A
Authority
JP
Japan
Prior art keywords
word
sub
memory
address
location
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2244133A
Other languages
Japanese (ja)
Inventor
Volker Steinbiss
フォルカー スタインビス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Philips Gloeilampenfabrieken NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Gloeilampenfabrieken NV filed Critical Philips Gloeilampenfabrieken NV
Publication of JPH03155600A publication Critical patent/JPH03155600A/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Character Discrimination (AREA)

Abstract

PURPOSE: To output a second best similar different sentence as well and to improve the reliability of recognition by providing the plural pieces of storage positions respectively provided with the N pieces of sub positions in a third memory. CONSTITUTION: A difference value is formed by comparing test signals with the reference signals of the plural pieces of prescribed words stored inside a first memory and the sum of the difference values is stored inside a second memory. In this case, the third memory for storing the pointer of a point where the word starts is provided with the plural pieces of the storage positions respectively provided with at least N pieces of the sub positions and the respective sub positions are provided with a first position for the address of the third memory, a second position for the address of the sub position within the storage position, a third position for word display and a forth position for the display of a difference sum. Then, by the contents of all the sub positions of the storage position inputted in the final test signal of speech signals, the respective kinds of different word strings are decided. Thus, many word strings provided with second best similarity to the speech signals are outputted.

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、スピーチ信号内の少なくとも1つのワードス
トリングの認識方法であって、このワードストリングよ
り連続時間インターバルを表わすテスト信号を導出し、
これらのテスト信号を第1メモリ内に記憶されている複
数個の所定ワードの基準信号と比較して差分値を形成し
、これらの差分値を加算し、第2メモリ内にこれらの差
分値の和をメモリアドレスのポインタと共に記憶し、こ
のメモリアドレスのポインタは、かくして得られた差分
和の列がワードの開始点においてスタートできる如くし
、さらに少なくともワードの境界において、丁度終了し
たワードのポインタで当該ワードが開始する点のポイン
タを第3メモリ内に記憶し、かつこのスピーチ信号の終
わりにおいて決定される少なくとも1つのワードストリ
ングで、最小の差分和が得られた当該ワードより少なく
とも開始し、この時に記憶されているワードの開始点を
経過し、また前位ワードに対するポインタよりそのワー
ド開始点に至るワードストリングをこの第3メモリに記
憶するスピーチ信号内のワードストリングの認識方法及
びその方法を実行する装置に関する。
DETAILED DESCRIPTION OF THE INVENTION Field of the Invention The present invention is a method for recognizing at least one word string in a speech signal, comprising deriving from the word string a test signal representing a continuous time interval;
These test signals are compared with a plurality of predetermined words of reference signals stored in a first memory to form difference values, these difference values are added together, and the difference values are stored in a second memory. The sum is stored together with a pointer to a memory address such that the sequence of difference sums thus obtained can start at the beginning of a word and, at least at a word boundary, with a pointer to the word just ended. storing in a third memory a pointer to the point at which the word starts, and in at least one word string determined at the end of the speech signal, starting at least from the word for which the smallest sum of differences was obtained; A method for recognizing a word string in a speech signal, and a method for recognizing a word string in a speech signal, in which a word string is stored in the third memory, passing the start point of the word stored at the time and reaching the start point of the word by a pointer to the previous word. related to a device for

〔従来の技術〕[Conventional technology]

このような方法はドイツ連邦共和国特許出願公開第DE
−O33215868号明細書から既知である。
Such a method is described in the Federal Republic of Germany Patent Application No. DE
- known from specification 033215868.

この既知の方法では、スピーチ信号はダイナミックな時
間順応を用いることによって異なるワードと比較され、
それにより認識過程でスピーチ信号の経路中においてス
ピーチ信号への類似を持つ多数の並列ワードストリング
が得られ、該類似は当該ワードストリング内の累積差分
和によって書き取られる。最後に、最終のスピーチ信号
上に多数のワードストリングが終了して、最少累積差分
和を持つワードストリングが唯一の認識されたワードス
トリングとして出力される。
In this known method, a speech signal is compared with different words by using dynamic time adaptation,
Thereby, in the path of the speech signal in the recognition process a number of parallel word strings with similarities to the speech signal are obtained, which similarities are noted by the cumulative difference sums in the word strings. Finally, multiple word strings are terminated on the final speech signal, and the word string with the smallest cumulative difference sum is output as the only recognized word string.

しかし異なる発音の結果として、例えばワードの終わり
の部分的抑圧の結果として、こうして得られたワードス
トリングは必ずしも発声されたスピーチ信号に対応する
ストリングとは限らない。
However, as a result of different pronunciations, for example as a result of partial suppression of the ends of words, the word string thus obtained is not necessarily the string that corresponds to the uttered speech signal.

従って認識を改善するために、自然スピーチの規約に沿
って、今終わったワードに続く (単数又は複数の)ワ
ードの選択を制限するスピーチモデルを用いることが考
案された。−成約にはこれで認識の信頼性を改善するこ
とが可能となるが、その都度自然スピーチの規約に従う
ワード列のよく似て聞こえるワードの結果として、極め
て似てはいるが発声されたセンテンスの正確な表現とは
いえないワード列が、認識されたセンテンスとして出力
されたり、また一方でスピーチ信号の終わりに僅かに大
きい累積差分和に到達するワード列が実際には正確なセ
ンテンスであることが、やはりまだ究極的には稀ではな
い。従って多くの場合に、最善の類似を持つワード列す
なわちセンテンスだけでなく、特にもし最善とされたワ
ード列が不正確らしいと判ったならば、最善から2番目
の類似の別のセンテンスをも出力するのが効果的である
Therefore, in order to improve recognition, it has been devised to use a speech model that restricts the selection of the word(s) following the word just finished, in line with the conventions of natural speech. - Although this makes it possible to improve the reliability of recognition, each time as a result of similar-sounding words in a sequence of words that follow the conventions of natural speech, very similar but uttered sentences A word sequence that is not an accurate representation may be output as a recognized sentence, while a word sequence that reaches a slightly larger cumulative difference sum at the end of the speech signal may actually be a correct sentence. , it is still ultimately not rare. Therefore, in many cases, not only the word sequence or sentence with the best similarity is output, but also another sentence with the second-to-best similarity, especially if the best word sequence turns out to be inaccurate. It is effective to do so.

不正確らしいと判断するのは例えば複雑過ぎるという理
由で認識過程では無視されなければならないというよう
な知識源に基づく場合である。
A judgment of likely inaccuracy is based on a knowledge source that, for example, is too complex and must be ignored in the cognitive process.

このことは既知の方法を用いてはたやすく可能ではない
、その理由はスピーチ信号の終わりに比較されたワード
のすべてに対してただ1つのワードストリングのみが記
憶されており、従ってスピーチ信号への類似性が極く僅
かしか異ならず且つ同じワードで終わるワードストリン
グを違うものと判断することは出来ないからである。
This is not easily possible using known methods, since only one word string is stored for all of the compared words at the end of the speech signal, and therefore This is because word strings that differ only slightly in similarity and end with the same word cannot be determined to be different.

〔発明の開示〕[Disclosure of the invention]

従って本発明の目的は、スピーチ信号への最善から2番
目の類似性を持つ多数のワードストリングを個々のワー
ド列が少なくとも1つのワードに関し異なるという制限
以外には個々のワード列への制限を設けないで決定する
ようなやり方で、冒頭のパラグラフで定義したタイプの
方法を採用することである。
It is therefore an object of the present invention to combine a large number of word strings with next-to-last similarity to a speech signal with no restriction on the individual word sequences other than that the individual word sequences differ with respect to at least one word. The solution is to adopt a method of the type defined in the opening paragraph, in such a way that the

本発明によれば、この目的はスピーチ信号に最も良く類
似しているN個の異なるワードストリングを認識するた
め、第3メモリは各々が少なくともN個の副位置を有す
る複数個の記憶位置を有し、これらの各副位置は、第3
メモリのアドレス用の第1ポジションと、記憶位置内の
副位置のアドレス用の第2ポジションと、ワード表示用
の第3ポジションと、差分和の表示用の第4ポジション
とを有し、初めの2つのポジション内のアドレスがワー
ドの開始点のポインタを表わす如(したこと、各ワード
群中、最終ワードがテスト信号用のワードエンドに到達
するワード群に対しては、第3メモリ内に新規な記憶位
置をアドレスし、このアドレスを第2メモリ内に可能な
各後続ワードの開始点として、当該ワードの第1基準信
号上に記憶し、この副位置に書込まれた情報は、同じワ
ード群に属し、最終テスト信号に対し同時に終点に到達
した第1ワードの記憶位置に対し第2メモリ内にアドレ
スが記憶されている記憶位置より導出すること、前記副
位置中、差分和が記憶されているもののみを使用し、か
つ関連の第1ワードの基準信号との比較による差分和を
インクレメントして最小であるもののみを使用し、この
比較は前位のワードの列で、当該瞬時のワードを含み、
その瞬時迄の間が相違し、かつ新規な記憶位置のすべて
の副位置が充填される迄継続し、また情報を導出する際
には、当該副位置より情報を導出する記憶位置のアドレ
スの副位置のアドレスを第1ポジションに書込み、情報
を導出する副位置のポインタを第2ポジションに書込み
、丁度終了した関連の第1ワードを第3ポジションに書
込み、インクレメントされた差分和を第4ポジションに
書込むこと、及びスピーチ信号の最終テスト信号中に入
力された記憶位置のすべての副位置の内容より、各種の
異なるワードストリングを決定し、第3ポジション内の
ワードの表示を通じ、これを、前記副位置の第1及び第
2ポジション内に含まれている記憶位置のアドレス並び
にこれら副位置の内容等と共に出力することにより達成
される。
According to the invention, the third memory has a plurality of storage locations each having at least N sub-locations, since this purpose is to recognize the N different word strings that most closely resemble the speech signal. and each of these sub-positions is
a first position for the address of the memory, a second position for the address of a sub-location within the memory location, a third position for displaying a word, and a fourth position for displaying the sum of differences; The address in the two positions represents a pointer to the start of a word (so that for each group of words, where the last word reaches the end of the word for the test signal, a new address a storage location, store this address as the starting point of each possible subsequent word in a second memory on the first reference signal of that word, and the information written to this sub-location will be stored in the same word. deriving from a memory location in which an address is stored in a second memory for a memory location of a first word that belongs to the group and reaches the end point simultaneously with respect to the final test signal; , and increment the sum of differences by comparison with the reference signal of the related first word and use only the smallest one. Contains the word
continues until all sub-locations of the new storage location are filled, and when deriving information, sub-locations of the address of the storage location from which information is to be derived from the sub-location. Write the address of the position in the first position, write the pointer of the sub-position from which the information is derived in the second position, write the just-ended first word of the association in the third position, and write the incremented sum of differences in the fourth position. and from the contents of all sub-locations of the memory locations entered during the final test signal of the speech signal, determine various different word strings and, through the display of the word in the third position, This is achieved by outputting the addresses of the storage locations included in the first and second positions of the sub-locations, the contents of these sub-locations, etc.

1988年にニューヨークで開催された学会の予稿集″
Proc、 IEEE Int、 Conf、 on 
Acoustics、 5peechand Sign
al Processing”、 New York 
1988の410−413ページから、首尾一貫したス
ピーチの認識に対するアルゴリズムは既知であって、こ
れは最善のワード列ばかりでなく最善から2番目の類似
性を持つワード列をも判定する。しかしこのためには異
なる認識原理、すなわち多段階(nun t−stag
e)の方法が用いられているが、その具体的な技術的実
現、特に記憶位置の割当てに対しては全(文献が発表さ
れていない。
Proceedings of an academic conference held in New York in 1988''
Proc, IEEE Int, Conf, on
Acoustics, 5peechand Sign
al Processing”, New York
1988, pages 410-413, an algorithm for coherent speech recognition is known, which determines not only the best word sequence but also the word sequence with the next-to-last similarity. However, this requires a different recognition principle, namely multi-stage (num t-stag)
Method e) has been used, but no literature has been published regarding its specific technical implementation, especially the allocation of storage locations.

本発明の方法では、3番目のメモリの内容はある特定の
やり方で拡大され、今や多数の異なるワード列の形成が
可能であって、毎回スピーチ信号への最善の類似性を持
つこれら異なるワード列のみが更に検討されることを、
3番目のメモリの新しい記憶位置に対する情報の生成の
ためのステップが保証している。更に本発明は、1つの
ワードの終わりがその後に全語常の任意の他のワードは
どれも続くことができないで、ある特定のグループのワ
ードすなわち好適には特定のシンクラス・クラスの今終
わったばかりのワード又はこのワードの出発点により指
令されたワードのみが続(ことができるスピーチモデル
の利用されることを可能とする。よく知られているよう
にこのことば認識の信頼性が著しく増大することを可能
にする。
In the method of the invention, the contents of the third memory are enlarged in a certain way so that it is now possible to form a large number of different word sequences, each time these different word sequences with the best similarity to the speech signal. that only the following will be considered further:
A step for the generation of information for a new storage location in the third memory is guaranteed. Furthermore, the present invention provides that the end of a word cannot be followed by any other word of the whole word, but the end of a word of a certain group, preferably of a certain synclass class. This allows the use of a speech model in which only the word just read or the word commanded by the starting point of this word can be followed.As is well known, the reliability of this word recognition increases significantly. make it possible.

3番目のメモリの各記憶位置では、差分和それ自身が各
副位置の4番目のポジションに記憶されることができる
。本発明の実施例による、より少ない計算時間しか必要
としないもう1つの可能性は、差分和の絶対値は各記憶
位置の1番目の副位置の4番目のポジションに記憶され
、この副位置における差分和間の差異と1番目の副位置
の差分和とは、各その次の副位置の4番目のポジション
に記憶されることを特徴とする。このようにして、ある
特定のテスト信号がただ1つのワードのみをもたらすな
らば特に、差分和間の差異がそのまま有効であり、従っ
て1番目の副位置の絶対値のみが増加させられなければ
ならないということが達成される。
In each storage location of the third memory, the difference sum itself can be stored in the fourth position of each sub-location. Another possibility according to embodiments of the invention, which requires less calculation time, is that the absolute value of the difference sum is stored in the fourth position of the first sub-location of each storage location, The difference between the difference sums and the difference sum of the first sub-position are characterized in that they are stored in the fourth position of each subsequent sub-position. In this way, especially if a particular test signal results in only one word, the difference between the difference sums remains valid and therefore only the absolute value of the first sub-position has to be increased. This is achieved.

同一テスト信号に対し多数のワードが同時に終わる場合
に、3番目のメモリの新しい記憶位置に対する情報を得
るためには、これらのワードに対応する記憶位置の副位
置は、最少差分和を持つ副位置のみが結局使用されるよ
うなやり方で混合されなければならない。本発明の又別
の実施例においてこの混合過程を実行する効率的な方法
は、同一テスト信号に関し終わりに到達するワードの内
の1つに対して、該ワードの差分和と共にアドレスが記
憶されている記憶位置の情報から、更に別の情報が得ら
れ且つこれを3番目のメモリ中の新しいアドレスを持つ
記憶位置に記憶して成り、また 各副位置に関しこれらのワードの1つ置きのものの該当
する記憶位置の情報は、新しい記憶位置のすべての副位
置の情報と順次比較され、もし2つの相互に比較された
副位置の情報がそれまでに詳しく調べられた同一ワード
列を示すならば、大きい方の差分和は抑制され、且つ あるワードの丁度今比較された副位置の抑制されなかっ
た情報が、比較された副位置の差分和よりその差分和が
大きいか小さい新しい記憶位置の2つの副位置の間に挿
入され、該新しい記憶位置の副位置の情報は必要なら1
副位置だけシフトされて成ることを特徴とする。
If a large number of words end simultaneously for the same test signal, in order to obtain information for new storage locations in the third memory, the sublocations of the storage locations corresponding to these words must be the sublocations with the smallest sum of differences. must be mixed in such a way that only the ingredients are ultimately used. An efficient way of carrying out this mixing process in another embodiment of the invention is that for one of the words arriving at the end for the same test signal, the address is stored together with the sum of the differences of that word. Further information is obtained from the information of the memory location in which it is located and is stored in a memory location with a new address in a third memory, and for each sub-location the corresponding of every other one of these words is determined. The information of the memory location to be compared is sequentially compared with the information of all sub-locations of the new memory location, and if the information of the two mutually compared sub-locations indicate the same word sequence previously examined, The larger difference sum is suppressed, and the unsuppressed information of the just compared sub-locations of a word is added to the two new storage locations whose difference sum is greater or less than the difference sum of the compared sub-locations. inserted between the sub-locations, and the sub-location information of the new storage location is 1 if necessary.
It is characterized in that only the sub-position is shifted.

このやり方では、終結するワードの各々の個別の副位置
を通して繰り返し探索する必要はなく、該過程は多数の
同時に終結するワードのうちの任意のワードで始めてよ
いのであって、その始めたワードの情報から入るべき3
番目のメモリの新しいアドレスのデータが得られ、以下
順次同時に終結する他のワードの情報が新しい記憶位置
に搭載され、この新しい記憶位置に前からあったデータ
は消去またはシフトアウトされて終には同じグループの
同時に終結するワードはすべて処理されるに至る。この
ことは多数の同時に終結するワードのデータを組み合わ
せるのに要する時間を最少にする。
In this way, there is no need to iteratively search through each individual sub-position of a terminating word; the process may begin with any of a number of simultaneously terminating words, and information about the starting word is not required. 3 to enter from
The data at the new address of the th memory is obtained, and the information of other words that end at the same time are loaded into the new memory location, and the data that was previously in this new memory location is erased or shifted out and finally All words of the same group ending at the same time end up being processed. This minimizes the time required to combine data from multiple simultaneously terminating words.

それまでに詳しく調べた先行ワード列が、比較された2
つの副位置からの情報に対して異なるかどうかをチエツ
クするために、副位置の1番目及び2番目のポジション
のデータから続く3番目のメモリの記憶位置の連鎖を毎
回詳しく調べなければならない。本発明の又別の実施例
ではこのことが、4番目のメモリにおいては、上記情報
が3番目のメモリの副位置へ書き込まれる度毎に、それ
までに詳しく調べられ丁度全路わったワードにより伸ば
されたワードストリングの指示が、終わったワードの指
示の代わりに、3番目のポジションで挿入された副位置
中に記憶されている新しいアドレスに記憶され、それま
でに詳しく調べられたワードストリングは4番目のメモ
リのアドレスを介して決定され、該アドレスは、挿入さ
れるべき副位置に関する情報がそれから得られる副位置
に記憶されることによって簡単化することが出来る。
The preceding word sequences that have been examined in detail are compared with the two
In order to check whether the information from the two sub-locations is different, the chain of third memory locations following the data in the first and second sub-locations must be examined each time. In yet another embodiment of the invention, this is achieved in the fourth memory, each time the information is written to a sub-location of the third memory, by a word that has been previously examined and just passed. The instruction of the stretched word string is stored in place of the instruction of the finished word at the new address stored in the sub-position inserted in the third position, and the previously examined word string is It is determined via the address of the fourth memory, which can be simplified in that the information about the sub-location to be inserted is stored in the sub-location obtained therefrom.

これは更に別のメモリすなわち4番目のメモリを必要と
するが、2つの比較されたワードストリングが類似かど
うかをチエツクするために、このメモリへの対応する入
力のみが検討されなければならないのである。このこと
は処理時間の相当量を節約する。さらに、スピーチ信号
の終わりには最善の類似性を持つワードストリングが、
ワードストリングを副位置の1番目及び2番目のポジシ
ョンにおける規準又は指示をトレースバックすることに
より決定する必要無しに、この4番目のメモリから直接
読み出されることが出来る。
This requires yet another memory, a fourth memory, but only the corresponding inputs to this memory have to be considered to check whether the two compared word strings are similar. . This saves a considerable amount of processing time. Furthermore, at the end of the speech signal the word string with the best similarity is
The word string can be read directly from this fourth memory without having to determine it by tracing back the criteria or instructions in the first and second sub-locations.

本発明による方法を実行するための装置であって、 特有のテスト信号を得るためのスピーチ信号処理デバイ
スと、 認識しようとしているワードに対する規準信号を記憶す
るための1番目のメモリと、 差分値を形成するため及び差分値を累積加算して差分和
を形成するために、各テスト信号を規準信号と比較する
ための比較回路と、 該当するワードに対する差分和及び差分和の列の始まり
の指示を記憶するための2番目のメモリと、 ワードの終わりに到達したとき、差分和の列の始まりへ
のポインタと丁度全路わったワードへのポインタとを記
憶する3番目のメモリとを有して成る装置においては、 ワードの終わりに到達したとき、新しくアドレスされた
各記憶位置に対して、3番目のメモリは多数の副位置を
有し、該副位置の各々は4つの記憶ポジションを持ち、 処理回路が設けられ、該処理回路は、同じワードのグル
ープに属し同じテスト信号で終わるすべてのワードに対
して3番目のメモリ内の同じ記憶位置にアドレスし、個
別の副位置の中へそれら記憶位置の副位置の読み出し内
容から得られた情報を書き込み、該情報の記憶アドレス
は2番目のメモリ内の当該終わったワードに対応する入
力により指示されるものであり、また 以下に記すような副位置すなわち、該副位置に対して差
分和がそこに記憶され且つ該当する最初のワードの規準
信号の比較の結果としての差分和の増加により増大した
該差分和が最少であるところの、且つ又、該副位置に対
してそれまでに詳しく調べられた瞬間的なワードを含む
先行ワードの列が異なるところの副位置のみから、上記
処理回路は情報を得て成ることを特徴とする。
Apparatus for carrying out the method according to the invention, comprising: a speech signal processing device for obtaining a characteristic test signal; a first memory for storing a reference signal for the word to be recognized; and a difference value. a comparator circuit for comparing each test signal with a reference signal and an indication of the difference sum and the beginning of the column of difference sums for the corresponding word in order to a second memory for storing, and a third memory for storing, when the end of the word is reached, a pointer to the beginning of the sequence of difference sums and a pointer to the word just passed. When the end of the word is reached, for each newly addressed storage location, the third memory has a number of sub-locations, each of the sub-locations having four storage positions; A processing circuit is provided which addresses the same storage location in the third memory for all words belonging to the same group of words and ending with the same test signal and stores them into separate sub-locations. Write the information obtained from the read contents of the sub-location of the location, the storage address of that information being the one indicated by the input corresponding to the finished word in the second memory, and the sub-location as described below. i.e., for the sub-position for which the sum of differences is stored and where the sum of differences increased by the increase in the sum of differences as a result of the comparison of the reference signals of the corresponding first word is the smallest, and , the processing circuit is characterized in that the processing circuit obtains information only from sub-positions for which the sequence of preceding words containing the instantaneous words examined up to that point differs.

以下、図面につき説明する。The drawings will be explained below.

検査すべきスピーチ信号からテスト信号を一般に規則的
な間隔で、例えばloms〜20m5の間隔て取出す。
Test signals are generally taken at regular intervals from the speech signal to be examined, for example at intervals of roms to 20 m5.

これらテスト信号は例えばスピーチ信号の短時間スペク
トル、基本スピーチ周波数、ラウドネス或いは特にワー
ド認識のために準備しておくことのできる同様な値とす
ることができる。このようなテスト信号の発生方法は既
知であり、本発明の範囲外のものである。
These test signals can be, for example, the short-term spectrum of the speech signal, the fundamental speech frequency, the loudness or similar values that can be prepared especially for word recognition. Methods for generating such test signals are known and are outside the scope of the present invention.

スピーチ信号は語柔から由来する個々のワードから成っ
ているということは知られている。語案のワードは、個
別に発音されたワードから取出した基準信号のに列の組
に相当する。基準信号、従ってワードの列をk・l、−
−−にで示す。列に内の個々の基準信号に符号j=1.
−−−j(k)を付した。ここに、j(k)は基準信号
の列にの長さを示す。
It is known that speech signals consist of individual words derived from vocabulary. A draft word corresponds to a set of columns of reference signals derived from individually pronounced words. Let the reference signal, and therefore the sequence of words, be k·l,−
-- Indicated by. Each reference signal in the column has a sign j=1.
---j(k) was attached. Here, j(k) indicates the length of the reference signal string.

コヒーレントワードストリング中のワードを認識する最
終的な目標は、スピーチ信号から取出したテスト信号の
列に最良に適応した基準信号列のうちの連続する複数個
を決定することにある。
The ultimate goal of recognizing words in a coherent word string is to determine the consecutive plurality of reference signal sequences that best adapt to the test signal sequence derived from the speech signal.

前述したドイツ連邦共和国特許出願公開第DE−O33
215868号明細書から既知の、スピーチ信号に最良
に適応した単一のワード列を決定する方法を第1図につ
き詳細に説明する。スピーチ信号のテスト信号i及び個
々の列にの基準信号j (ここに各々が5つのワードよ
り成る5つの列1〜5を一例として示しである。)がマ
トリックス点(1+j、k)のマトリックス10を規定
する。局所差分値d(L  L k)は各マトリックス
点に割当てられており、対応する音響特性からのずれ或
いはこれらの音響特性間の差の目安となる。コヒーレン
トワードストリングを認識する上での問題は、テスト信
号と基準信号列の未知の連続との間の最良の適応を表わ
すマトリックス点(i、 jt k)のマトリックスを
通る通路を見い出す問題に変えることができる。換言す
れば、差分値d(+、 Jl k)の和は、関連の前の
マトリックス点の方向に依存する時間歪値だけ増大され
ると、上記の通路上のマトリックス点のすべてに対し最
大となる。この最適通路から開始すれば、基準信号列の
連続を第1図から明らかなように明瞭に決定しうる。
The aforementioned Federal Republic of Germany Patent Application No. DE-O33
A method for determining a single word sequence best adapted to a speech signal, known from German Patent No. 215,868, is explained in detail with reference to FIG. A test signal i of a speech signal and a reference signal j in the individual columns (here five columns 1 to 5 of five words each are shown by way of example) form a matrix 10 of matrix points (1+j,k). stipulates. A local difference value d(L L k) is assigned to each matrix point and serves as a measure of the deviation from the corresponding acoustic characteristic or the difference between these acoustic characteristics. The problem in recognizing coherent word strings is transformed into the problem of finding a path through a matrix of matrix points (i, jt k) that represents the best adaptation between a test signal and an unknown succession of reference signal sequences. Can be done. In other words, the sum of the difference values d(+, Jl k), when increased by a time distortion value that depends on the direction of the previous matrix point of association, becomes maximum for all the matrix points on the above path. Become. Starting from this optimum path, the succession of the reference signal train can be determined unambiguously, as is clear from FIG.

最適通路はテスト信号列を個々の基準信号列に非線形適
応することにより決定される。このために、マトリック
ス点(i、 j、 k)を通る最適通路は部分的にこの
マトリックス点に先行する最適副通路より成るという事
実を用いる。この目的のために、マトリックス点(1,
Jl k)へのすべての通路に沿う最小差分和D(i、
 j、 k)を決定する。この差分和は局所的な差分値
の和である為、これを先行点への最適通路に沿う差分値
とマトリックス点(i、 j、 k)の局所的な差分値
との和として順次簡単に決定しつる。次に、最適通路に
対し、最小差分和を有する先行点を決定する必要がある
。既知の方法では、このようにすることにより、時間歪
値を許容することなく、基準信号の列内の遷移に対する
以下の遷移規則をもたらす。
The optimal path is determined by non-linear adaptation of the test signal train to the respective reference signal train. For this purpose, we use the fact that the optimal path through a matrix point (i, j, k) consists in part of the optimal subpaths preceding this matrix point. For this purpose, we use a matrix point (1,
The minimum difference sum D(i,
j, k). Since this difference sum is a sum of local difference values, it can be easily converted into the sum of the difference value along the optimal path to the preceding point and the local difference value of matrix point (i, j, k). Decided. Next, for the optimal path, it is necessary to determine the leading point with the smallest sum of differences. In the known method, doing so results in the following transition rules for transitions within a train of reference signals, without allowing for time distortion values:

D(i、j、k)=d(i、j、k) + min D(i−1,j、 k)、 D(i−1,
j−1,k)、 D(i、 j−1,k)最適通路は未
だ分っていない為、上記の式は複数の通路をもたらす。
D(i, j, k) = d(i, j, k) + min D(i-1, j, k), D(i-1,
j-1,k), D(i, j-1,k) Since the optimal path is not yet known, the above equation yields multiple paths.

これら通路のうち、第1図には最終的に最適通路である
と見い出される通路P1に加えて例えば通路P2及びP
3をも示しである。
Among these passages, FIG. 1 shows, in addition to passage P1, which is finally found to be the optimum passage, passages P2 and P
3 is also shown.

差分和に対ししきい値を用いない場合には、すべての差
分信号列の各基準値に対し実際に別々の通路が得られ、
これら通路は、ベルマンの最適性原理によると、特にワ
ードの境界で交差しない。
If we do not use a threshold for the difference sum, we actually get a separate path for each reference value of all the difference signal sequences;
These paths do not intersect, especially at word boundaries, according to Bellman's optimality principle.

テスト信号に対し、すべての基準信号に対する差分和を
決定するためには、先行する点の差分和の全マトリック
スのうちの小部分のみを、すなわち上記の式から明らか
なように先行するテスト信号i−1と関連する差分和の
みを必要とする。これらの差分和はブロック12で線図
的に示すメモリにおいて区分12aに記憶され、新たな
各テスト信号時に書換えられる。
For a test signal, in order to determine the difference sum with respect to all reference signals, only a small part of the total matrix of difference sums of the preceding points is used, i.e., the preceding test signal i Only the difference sum associated with -1 is needed. These difference sums are stored in a memory, diagrammatically shown in block 12, in section 12a and are rewritten on each new test signal.

更に、最適通路をトレースバックしうるようにする、す
なわち基準信号の1つの列から他の列へめ各遷移位置、
すなわちワード境界に位置する通路の点をトレースバッ
クしつるようにする必要がある。従来の方法の最終的な
目標はスピーチ信号におけるワード又は基準信号の列の
未知の連続を決定することにある為、どのテスト信号に
対し、基準信号の列の終了点で終了する副通路を開始さ
せるかを決定するのが適している。しかし、ロードスト
リングにおけるワード認識に対しては、基準信号の列内
の副通路のデイテールは適切でない。
Furthermore, it is possible to trace back the optimal path, i.e. each transition position from one column of the reference signal to another,
That is, it is necessary to trace back points of paths located at word boundaries. Since the ultimate goal of conventional methods is to determine unknown sequences of words or sequences of reference signals in a speech signal, for which test signals a subpath is initiated that ends at the end of the sequence of reference signals. It is appropriate to decide whether to do so. However, for word recognition in the load string, the subpath details within the reference signal train are not appropriate.

最初は未だ、基準信号の各列の終了点における最適通路
の副通路の終了点は分っておらず、この理由でトレース
バック情報を時間適応処理の全持続時間に対し保つ必要
がある。最適通路はマトリックス点(i、 j、 k)
毎にこの基準信号列に内の第1基準信号j・1に対する
独自の開始点を有する。従って、マトリックス点毎にト
レースバックポインタB(b Jl k)を、このマト
リックス点(L L k)に対する最良の通路を生じる
テスト信号アドレスとして決定することができる。
Initially, the end point of the subpath of the optimal path at the end of each column of the reference signal is not yet known, and for this reason it is necessary to keep traceback information for the entire duration of the time-adaptive processing. The optimal path is the matrix point (i, j, k)
Each reference signal sequence has its own starting point for the first reference signal j·1 in this reference signal sequence. Therefore, for each matrix point a traceback pointer B (b Jl k) can be determined as the test signal address that yields the best path to this matrix point (L L k).

従って、差分和に対するのと同様に、トレースバックポ
インタB(j、 k)の1つの列(コラム)をその都度
記憶する必要がある。すなわち、基準信号列にの各々の
列の各基準信号j毎に、差分和に対する1つの記憶位置
12aとトレースバックポインタに対する1つの記憶位
置12bとが必要となる。このことを第1図の左側部分
に示す。
Therefore, one column of the traceback pointer B(j, k) needs to be stored each time, as for the difference sum. That is, one storage location 12a for the difference sum and one storage location 12b for the traceback pointer is required for each reference signal j of each column in the reference signal string. This is illustrated in the left part of FIG.

しかしトレースバックに対しては、関連の基準信号列に
おける副通路の開始を決定する必要がなく、前述したよ
うに最終の副通路の開始にすぐ先行する先行副通路の終
了を決定する必要がある。
However, for traceback, it is not necessary to determine the start of the subpath in the associated reference signal sequence, but rather the end of the preceding subpath immediately preceding the start of the final subpath, as described above. .

従って、従来の方法は、開始のテスト信号アドレスの代
りに、先行する終了点のテスト信号アドレスをトレース
バックポインタB(j、 k)に直接記憶することによ
り簡単化される。
Therefore, the conventional method is simplified by directly storing the preceding ending test signal address in the traceback pointer B(j, k) instead of the starting test signal address.

前述したように、終了点におけるトレースバックポイン
タのみが、すなわち個々の基準信号列にの最終基準信号
J(k)が、ワードの列を最適通路に沿ってトレースバ
ックしうるようにするものである。その理由は、終了点
におけるトレースバックポインタB(J(k)、 k)
が先行するすべての列の終了点を規定する為である。し
かし、メモリ12に記憶されたこれらの終了点における
トレースバックポインタは次のテスト信号の処理中に書
換えられる為、基準信号の個々の列の終了点でトレース
バックポインタを記憶する個別のメモリが必要となる。
As previously mentioned, only the traceback pointer at the end point, i.e. the final reference signal J(k) for each reference signal sequence, allows the sequence of words to be traced back along the optimal path. . The reason is that the traceback pointer B(J(k), k) at the end point
This is because it defines the end point of all the columns that precede it. However, since the traceback pointers at these end points stored in the memory 12 are rewritten during the processing of the next test signal, a separate memory is required to store the traceback pointers at the end points of each column of the reference signal. becomes.

このような終了点は各テスト信号i毎に生じうる、すな
わち前記の最適性原理によってスピーチモデルにかかわ
らず少なくとも1つの終了点が生じうる為、この別個の
メモリは各テスト信号毎にトレースバックポインタに対
する記憶位置を有するようにする必要がある。第1図で
は、この別個のメモリをマトリックス10の下側にブロ
ック14として線図的に示してあり、このメモリの区分
14aにはトレースバックポインタB(J(k)、k)
が常に、差分和D(J(k)、 k)が最小となる先行
の終了点のテスト信号アドレスF(i)の形態で記憶さ
れている。
Since such an end point can occur for each test signal i, i.e. at least one end point can occur regardless of the speech model due to the optimality principle described above, this separate memory stores a traceback pointer for each test signal i. It is necessary to have a storage location for . This separate memory is diagrammatically shown in FIG. 1 as a block 14 below the matrix 10, with a traceback pointer B(J(k),k) in a section 14a of this memory.
is always stored in the form of the test signal address F(i) of the preceding end point where the difference sum D(J(k), k) is the minimum.

しかし、テスト信号アドレスF(i)は各基準信号列内
の最適通路の個々の副通路の終了点自体ではなく、関連
の基準信号列と関連するワードである為、これらワード
を表わす基準信号列の列番号をも関連の初期アドレスF
(i)と−緒に記憶する必要がある。記憶された列番号
をT(i)で示し、これらは、終了点J(k)で最小の
差分和D(J(k)、 k)が同じテスト信号に対する
他のすべての基準信号列に対し現われる基準信号列にの
列番号である。
However, since the test signal addresses F(i) are not the end points themselves of the individual sub-paths of the optimal path within each reference signal train, but are words associated with the associated reference signal train, the reference signal strings representing these words are Also the column number of the associated initial address F
It is necessary to memorize it together with (i). We denote the stored column numbers by T(i), and these are the ones with the smallest difference sum D(J(k), k) at the end point J(k) for the same test signal with respect to all other reference signal columns. This is the column number of the reference signal column that appears.

第1図から明らかなように、先行する基準信号列の終了
点のテスト信号アドレス1(L−1)と最終の基準信号
列の列番号k(L)とは最終のテスト信号工に対し記憶
された値から取出すことができる。同様に、記憶された
他のテスト信号アドレスF(i)は、メモリ14の記憶
位置1(t−1)、 1(L−2)。
As is clear from FIG. 1, the test signal address 1 (L-1) at the end point of the preceding reference signal train and the row number k (L) of the final reference signal train are stored in the final test signal engineer. can be extracted from the given value. Similarly, the other test signal addresses F(i) stored are storage locations 1(t-1) and 1(L-2) of the memory 14.

1(L−3)等を接続する矢印で示すように、各先行す
る基準信号列の列番号k(t−1)、 k(t−2) 
−−−−とその前に終了する基準信号列の終了点のテス
ト信号アドレス1(L−2)、  1(L−3)−−一
とが記憶されているアドレスを直接もたらす。
1 (L-3), etc., the column numbers k (t-1), k (t-2) of each preceding reference signal sequence
--- and the test signal addresses 1(L-2), 1(L-3)--1 of the end points of the reference signal sequence ending before it directly yield the stored addresses.

この方法は、スピーチモデルに応じて他の特定の基準信
号列とのみ連続させることのできる2つ以上の基準信号
列を同じテスト信号に対し同時に終了せしめうる当該ス
ピーチモデルを用いる場合には、何らかの他のステップ
を講じることな(しては用いることができない。この場
合、最小の差分和を有する基準信号列の終了を以って単
に記憶したり進行したりすることができないが、大きな
差分和で終了する他の基準信号が最終的に、スピーチ信
号に後に良好に適応されるという点でこの終了時点で小
さな差分和をもたらすことができる。
In this method, when using a speech model in which two or more reference signal sequences that can be continued only with other specific reference signal sequences depending on the speech model can be terminated at the same time for the same test signal, some In this case, it is not possible to simply store or proceed with the end of the reference signal sequence with the smallest difference sum, but with a large difference sum. Other reference signals ending at can ultimately yield small difference sums at this end point in that they are later better adapted to the speech signal.

しかし、この問題は、メモリ14を第4図で別個に、す
なわちテスト信号の列によらずにアドレスすることによ
り容易に解決することができ、この場合、メモリ14の
対応するアドレスを区分14aに記憶する必要があり、
これらアドレスをテスト信号の瞬時的な現在の列番号か
ら完全に取出しつるようにする必要がある。
However, this problem can be easily solved by addressing the memory 14 separately in FIG. need to remember,
These addresses must be completely derived from the instantaneous current column number of the test signal.

しかし、スピーチ信号に最良に近似している、すなわち
終了時に最小の差分和を有しているワード列のみならず
、スピーチ信号に次に最良に類似している、すなわち次
に大きな差分和を有するワード列をも決定し且つ読出す
必要がある場合には、より大きな問題が生じる。その理
由は、順次に大きな差分和を有するワード列を表わし、
従ってどれが実際にスピーチ信号に最良に類似している
N個の最良のワード列であるかが終了時に確かめられる
まで記憶しておく必要がある同じ構文の群の複数のワー
ドが同じテスト信号に対し終了されるおそれがある為で
ある。
However, not only the word sequence that best approximates the speech signal, i.e., has the smallest sum of differences at the end, but also the sequence that is the next best similar to the speech signal, i.e., has the next largest sum of differences. A bigger problem arises when word sequences also need to be determined and read out. The reason is that it represents a word string with sequentially large difference sums,
Therefore, multiple words of the same syntactic group may appear in the same test signal, which must be remembered at the end until it is ascertained which is the N best sequence of words that actually best resembles the speech signal. This is because there is a risk that it will be terminated.

〔実施例〕〔Example〕

第2a図は、第1図のメモ1月4に対応するメモリの組
成を示す。この図は該メモリのトレースバック・ポイン
タに対する多数の記憶位置31ないし37を図式的に示
し、これらの記憶位置の各々は3つの最善のワード列を
決定するための3つのマルチポジション副位置を有する
。第2b図は、1つの記憶位置をさらに詳細に示すもの
である。本実施例では各記憶位置が3つの副位置TP1
. TP2. TP3に分割され、その各々が4つの記
憶ポジションStl。
FIG. 2a shows the composition of the memory corresponding to the memo January 4 of FIG. This figure diagrammatically shows a number of memory locations 31 to 37 for the traceback pointer of the memory, each of these locations having three multi-position sub-locations for determining the three best word sequences. . Figure 2b shows one storage location in more detail. In this embodiment, each storage location has three sub-locations TP1.
.. TP2. TP3, each of which has four storage positions Stl.

Si2. Si2. Si4を持っている。これによっ
て3つの最善のワード列を決定することが可能になる。
Si2. Si2. I have a Si4. This allows determining the three best word sequences.

最善から2番目のワード列もやはり決定しなければなら
ないならば、それに従って副位置の数は増さなければな
らないが、ポジションの数は同じままである。1番目の
副位置TPI中の情報は、スピーチ信号に最も良く類似
した最善のワード列を表し、副位置TP2は、その次に
大きい差分和を持つ最善から2番目のワード列を特定し
、以下同様である。
If the next-to-last word sequence also has to be determined, the number of sub-positions must increase accordingly, but the number of positions remains the same. The information in the first sub-position TPI represents the best word sequence that most closely resembles the speech signal, and the sub-position TP2 identifies the second-to-best word sequence with the next largest sum of differences, as follows: The same is true.

このメモリの、隣接テスト信号の場合または同じテスト
信号で終わる他のシンクラス群のワードの場合に結果的
に満たされる隣接類似記憶位置は明らかに、かなり大き
い差分和か、かなり小さい差分和を持つワード列を含む
であろう、その理由は最適列はスピーチ信号が終わりに
到達するまで決定できないからである。
Adjacent similar storage locations of this memory that are eventually filled in the case of adjacent test signals or in the case of words of other synclass groups ending in the same test signal obviously have significantly larger or significantly smaller difference sums. word sequences, since the optimal sequence cannot be determined until the end of the speech signal is reached.

個別のポジションの内容は次の通りである:ポジション
Sttは、今終わったワードに続くこのメモリの先行記
憶位置のアドレスLを含む。ポジションSt2は、その
アドレスがポジションStlに記憶されている副位置n
を特定し、それから当該副位置の情報が以下に説明する
やり方で得られる。
The contents of the individual positions are as follows: Position Stt contains the address L of the previous storage location of this memory following the word just finished. Position St2 is a sub-position n whose address is stored in position Stl.
, and then the information of that sub-location is obtained in the manner described below.

ポジションSt3に対しては、差し当たり規準信号、す
なわち即座に終わるワード列の列番号kを記憶するもの
とする。最後に、ポジションSt4は、今終わったワー
ドとこのワードに先行するワードストリングに対して到
達した差分和を含む。
For the position St3, it is assumed that the reference signal, ie, the column number k of the immediately ending word string, is stored. Finally, position St4 contains the difference sum arrived at for the word just finished and the word string preceding this word.

第2a図においては、記憶位置31ないし37は記憶位
置を表す各ブロックの右上端に示される更に別の記憶ポ
ジションを有し、これは各副位置のこの記憶位置ポジシ
ョンSt4のすべての副位置の最少差分和を記憶し、そ
の後では関連差分和間の差及び上記最少差分和のみを含
んでいる。しかしこの場合、副位置TPIが最少差分和
を陰伏的に含むから1番目の副位置TPIのポジション
St4は本来的に値0を含んでいるので、この1番目の
副位置TPIのポジションSt4はこの記憶位置の最少
差分和の絶対値を記憶するために用いることができ、一
方、2番目の副位置TP2のポジションSt4及びそれ
以後は、当該副位置に付随する差分和と上記最少差分和
との差dを含む。従って、第2a図のブロック31ない
し37中に示された最少差分和のための上記更に別の記
憶ポジションは実際には必要でない。
In FIG. 2a, storage locations 31 to 37 have a further storage position shown at the top right corner of each block representing storage locations, which corresponds to all sub-locations of this storage location St4 of each sub-location. The minimum difference sum is stored and thereafter includes only the difference between the related difference sums and the minimum difference sum. However, in this case, since the sub-position TPI implicitly includes the minimum difference sum, the position St4 of the first sub-position TPI inherently contains the value 0, so the position St4 of the first sub-position TPI is It can be used to store the absolute value of the minimum difference sum of this storage position, while position St4 of the second sub-position TP2 and thereafter can be used to store the absolute value of the minimum difference sum of the second sub-position TP2 and the above-mentioned minimum difference sum. including the difference d. Therefore, the further storage positions for the minimum difference sums shown in blocks 31 to 37 of FIG. 2a are not actually required.

スピーチ信号の終わりでもあり得るところの終わりのワ
ードに先行するワードストリングのトレースバックの過
程は、第2a図中の矢印を用いて実例で説明される。す
なわち、記憶位置37における差分和に基づいて最善か
ら2番目であることが判ったワードストリングが読み出
されて、それにより最後の終わりのワードの列番号kが
記憶位置37の第2行の第3ポジションから読み出され
、第2行の第1ポジションにあるアドレスLを用いて記
憶位置35、すなわち記憶位置37の2番目の副位置の
2番目のポジションにおける対応する指示nに基づく2
番目の副位置がアドレスされ、また記憶位置35の2番
目の副位置の3番目のポジションに記憶されている先行
ワードの列番号を読み出すことができる。さらに、記憶
位置35の2番目の副位置の1番目のポジションにある
アドレスを用いて記憶位置34すなわち記憶位置34の
1番目の副位置が、記憶位置35の2番目のポジション
における対応する情報に基づいてアドレスされ、以下こ
のようにして経路が更に始めの方すなわち記憶位置32
の1番目の副位置にまでトレースバックされ、そこで最
善から2番目のワードストリングの最初のワードが終了
する。実際、他のワードストリングに属するその先の記
憶位置が記憶位置30から37までの間に位置しており
、その内の記憶位置31.33.36のみが例示されて
いる。
The process of tracing back the word string preceding the end word, which could also be the end of the speech signal, is illustrated by means of the arrows in FIG. 2a. That is, the word string found to be the next best based on the sum of differences in memory location 37 is read so that the column number k of the last ending word is the second best word string in memory location 37 in the second row. 2 based on the corresponding instruction n in the second position of the second sub-location of memory location 35, i.e. the second sub-location of memory location 37, read from position 3 and using the address L in the first position of the second row.
The th sub-location is addressed and the column number of the preceding word stored in the third position of the second sub-location of memory location 35 can be read. Furthermore, using the address in the first position of the second sub-location of memory location 35, memory location 34, i.e. the first sub-location of memory location 34, is updated to the corresponding information in the second position of memory location 35. The path is then further directed towards the beginning, i.e. memory location 32.
is traced back to the first sub-position of , where the first word of the second-best word string ends. In fact, further locations belonging to other word strings are located between locations 30 to 37, of which only locations 31, 33, and 36 are illustrated.

記憶位置37で最少差分和を持つと判ったワードストリ
ングは、例えば上述のように記憶位置36.35.33
.31を経由して、すなわち毎回1番目の副位置を経由
して拡大できる、その理由は、スピーチ信号は同等又は
更に高次の副位置を通ってしか進まない故に、−旦記憶
位置の2番目の副位置を通って拡大したワードストリン
グは記憶位置の1番目の副位置を通って伸ばすことは最
早できないからである。
The word string found to have the minimum difference sum at memory location 37 is stored in memory location 36, 35, 33, for example as described above.
.. 31, i.e. each time via the first sub-location, because the speech signal only travels through equivalent or higher-order sub-locations - once the second storage location. This is because a word string extended through the sub-locations of can no longer extend through the first sub-location of the memory location.

各新規記憶位置の情報が、第2a図の記憶位置の情報に
従っていかにして生成され若しくは得られるかは、第3
図および第4図により説明される。
How each new storage location information is generated or obtained in accordance with the storage location information of FIG. 2a is explained in Section 3.
This is explained with reference to FIG.

それはノードと介在リンクを持つグラフの形態のスピー
チ、モデルに基づいてなされ、該ノードは同様の路を進
むすべてのリンクに共通の点と見做すことができる。第
3図はそのようなスピーチモデルの一部分を示し、これ
は3つのノードN1、N2、N3と2つのワードすなわ
ちスピーチモデルの慣用術語に従えばノードN1に向か
う2つのリンクに4、k5を有する。「リンク」という
術語を用いる方がより適切である、何故なら1つの同じ
ワードが2つ又はそれ以上の異なるリンクにより表すこ
とができる、すなわちスピーチモデル内でリンクは唯一
であるにも拘わらず異なる位置に再起できるからである
It is based on a speech,model in the form of a graph with nodes and intervening,links, where a node can be seen as a common point for all,links following a similar path. FIG. 3 shows a portion of such a speech model, which has three nodes N1, N2, N3 and two words, 4, k5, according to the speech model idiom, two links towards node N1. . It is more appropriate to use the term "link", since one and the same word can be represented by two or more different links, i.e. links are unique but different within the speech model. This is because you can return to the same position.

同様にしてリンクに6、k7はノードN2に向かう。Similarly, link 6 and k7 go to node N2.

実際、大多数のノードに向かうリンクの数は許容語案が
拡大するのに伴って増加する。
In fact, the number of links pointing to the majority node increases as the allowed word possibilities expand.

更に別のリンクが各ノードから設けられる、という意味
は例えばスピーチモデル中のリンクに4は特定の別のリ
ンクとのみ連続できるということで、その内のりンクに
1が第3図にさらに詳細に示されている。このことはリ
ンクに5についても云える。
Furthermore, another link is provided from each node, which means that, for example, a 4 link in the speech model can only be continuous with a specific other link, and a 1 link is shown in more detail in Figure 3. has been done. This can also be said about 5 links.

同様に、この場合のリンクに6及びリンクに7も例えば
リンクに2及びリンクR3とのみ連続できる。2つのノ
ードN1及びN2は必ずしも同時に対応するリンクによ
り到達されなければならない訳ではな(、また、適用さ
れるダイナミックな時間順応及びその結果としての各個
別のリンクに沿った経路数の増加の故に、異なる且つ一
般的に継起的なテスト信号が繰り返しこのリンクの終端
に到達するであろうことを、念頭に置くべきである。
Similarly, in this case, link 6 and link 7 can be continued only with link 2 and link R3, for example. The two nodes N1 and N2 do not necessarily have to be reached by the corresponding links at the same time (also due to the dynamic time adaptation applied and the consequent increase in the number of paths along each individual link). It should be borne in mind that , different and generally successive test signals will repeatedly reach the end of this link.

リンクに1、リンクに2及びリンクに3は今やノードN
3に通じている、すなわちリンクに8からリンクに9ま
でに対応するワードがこれに続(であろう。スピーチモ
デルに依存して、ノードNlの後に更にもう1つ別のノ
ードがもう1つ別のリンクにより到達され得る、すなわ
ち既にノードN1まで伸びて来ているセンテンス部分が
2つ又はそれ以上の異なる文法的な路の中に連続され得
ることも可能であるが、これはスピーチモデルの詳細に
係わることであり、在ではこれ以上議論しない。原理的
には、スピーチモデルを使用しないで記述された方法を
用いることも可能であり、すなわちその場合はスピーチ
モデルはただ1つだけのノードを有し、このノードから
設けられるリンクはすべてこのノードに戻るのである。
Link 1, Link 2 and Link 3 are now nodes N
This will be followed by the word leading to 3, i.e. corresponding to link 8 to link 9. Depending on the speech model, after node Nl there will be one more node. It is also possible that the part of the sentence that can be reached by another link, i.e. that has already extended to node N1, can be continued in two or more different grammatical paths, but this is not the case in the speech model. This is a matter of detail and will not be discussed further at present.In principle, it is also possible to use the method described without using a speech model, i.e. in that case the speech model consists of only one node. , and all links established from this node return to this node.

第3図は何らのタイミング条件も与えていない、すなわ
ちこの図は何時、どのテスト信号に対して、転移がノー
ドに到達するかを示していない。しかし蕊ではリンクk
l、リンクに2は同時に、すなわち同じテスト信号に対
してノードN3に到達するものとする。こうすれば第1
図に対応するマトリクスでは、数個の経路が1点に組み
合わされ、これらの経路は今までこの実際のスピーチ信
号とは異なる類似性をもって詳論されたワード列を示し
、その内のあるものは連続されなければならないもので
あり、それらは終端からのトレースバックが可能である
ことを必要とする。連続されるべき経路数はノードN3
に終端する各リンクに沿った経路数に等しい、すなわち
経路の総数は減少しなければならない。トレースバック
の可能性を維持しながらのこの減少は第4図を用いて更
に詳細に説明される。結果としてこれは特に、スピーチ
信号に基づいて最善の類似性を持つと判ったワード列を
トレースバックするため個々の列の該当の初期アドレス
に対するメモリ、すなわち第1図のメモリ14に対応す
るメモリに係わる。1つのワードに、従って1つの規準
信号列に明確に割り当てられた各リンクは、メモリ14
中の記憶位置のアドレスを、このリンクの始めに形成さ
れ第1図のメモ1月2のセクション12bに記憶されて
いるトレースバック・ポインタB(j、k)を用いて伝
達する。リンクklに対してはこれはアドレスL1であ
るとし、リンクに2に対してはこれはアドレスL2であ
るとする。
FIG. 3 does not give any timing conditions, ie, it does not indicate when and for which test signals the transitions arrive at the nodes. However, the link k
l, 2 on the links shall arrive at node N3 at the same time, ie for the same test signal. If you do this, the first
In the matrix corresponding to the figure, several paths are combined to one point, and these paths represent word sequences that have hitherto been elaborated with a different similarity to this real speech signal, some of which are continuous They require traceback from the end to be possible. The number of routes to be continued is node N3
equal to the number of paths along each link terminating in , i.e. the total number of paths must decrease. This reduction while preserving the possibility of traceback is explained in more detail using FIG. As a result, this is done in particular in the memory for the respective initial address of the individual column, i.e. the memory corresponding to memory 14 in FIG. Involved. Each link that is specifically assigned to one word and therefore to one reference signal sequence is stored in the memory 14.
The address of the storage location within is communicated using the traceback pointer B(j,k) formed at the beginning of this link and stored in section 12b of note January 2 of FIG. For link kl this is address L1 and for link 2 this is address L2.

アドレスL3を持つメモリ14中の新しい記憶位置がリ
ンクに1及びリンクに2の終わりに読み込まれる。これ
を実現する最も簡単なやり方は、その次の空き記憶位置
を選択することである。
A new storage location in memory 14 with address L3 is read at the end of Link 1 and Link 2. The simplest way to accomplish this is to select the next free storage location.

記憶位置し3の内容すなわちそこに書き込まれる情報は
記憶位置し1から逐次得られ、そのアドレスは既に述べ
たようにリンクklの終わりにあるメモリ12bから読
み出される。この記憶位置tlの総ての副位置の1番目
のポジションは関連の先行アドレスを含み、アドレスt
a及びアドレスLbは個々では例示として示されている
。2番目のポジションの内容は、アドレスta及びアド
レスLbを持つどの副位置から該当価が得られたかを示
している、すなわち本例では両記憶位置の1番目の副位
置から得られたことを示している。以下に述べるように
、副位置の情報がそこから生起する関連リンクの順序は
3番目のポジションに記憶される、すなわちリンクに4
はもつと小さい差分和S′をもたらし、リンクに5は値
d’ lだけ大きい差分和をもたらしている。このアド
レスtlは同一のテスト信号に対してはノードNlから
でているすべてのリンクに対して伝達されるが、この場
合にはリンクklのみを考える。差分和S′はノードN
1からでているすべてのリンクの、結果的には始めのリ
ンクklの、値D(J、 K)として用いられる、すな
わちリンクに1の1番目の規準信号を瞬間的テスト信号
と比較する前に且つリンクの経路中に、それはテスト信
号と規準信号との次の比較の間のダイナミックな時間順
応に従って増大する。
The content of memory location 3, ie the information written therein, is obtained sequentially from memory location 1, the address of which is read from memory 12b at the end of link kl, as already mentioned. The first position of all sub-locations of this memory location tl contains the associated preceding address, and the address t
a and address Lb are shown individually as examples. The contents of the second position indicate from which sub-location with address ta and address Lb the corresponding value was obtained, that is, in this example, it was obtained from the first sub-location of both storage locations. ing. As described below, the order of the associated links from which the sub-position information originates is stored in the third position, i.e.
5 results in a smaller difference sum S', while 5 results in a larger difference sum by the value d'l. This address tl is transmitted to all links emanating from node Nl for the same test signal, but in this case only link kl is considered. The sum of differences S' is node N
of all links emanating from 1, and consequently of the starting link kl, is used as the value D(J, K), i.e. before comparing the first reference signal of 1 to the link with the instantaneous test signal. and during the path of the link, it increases according to a dynamic time adaptation between subsequent comparisons of the test signal and the reference signal.

リンクklの終わりにおいて、付随する量D(J(kl
)。
At the end of link kl, the associated quantity D(J(kl
).

k)は値S1に達し、これは記憶位置し3中の1番目の
副位置の4番目のポジションに書き込まれる。
k) reaches the value S1, which is written in the fourth position of the first sub-position in the storage location 3.

この副位置の3番目のポジションは順序に1を記憶し、
一方2番目のポジションは、そこから情報が得られる先
行記憶位置tlの副位置の数、すなわち値lを記憶する
。最後にアドレスtlが1番目の副位置の1番目のポジ
ションに入る。2番目及び3番目の副位置も同様のやり
方で搭載され、第4図の実例中の最初に2番目の副位置
にあった情報が3番目の副位置に進む、というのは、2
番目の副位置では、2番目の同時に終わるリンクに2か
らの情報すなわちこのリンクと共に記憶されているアド
レスL2を持つ記憶位置からの情報従ってまた1番目の
副位置からの情報は、リンクに2に沿った差分値により
増大した差分和S′の方が記憶位置し1の2番目の副位
置、に始めから存在する差分和よりも小さいが故に、引
き続いて挿入されていたからである。すると、リンクに
2の終わりの絶対差分和は1番目の副位置の差分和Sl
に付託されて、差分d1をもたらし、一方、記憶位置t
lの2番目の副位置からの差分値d’ 1は記憶位置し
3の3番目の副位置の最後のポジション中に記憶された
差分値d2に直接対応する。記憶位置し1の3番目の副
位置から生起した記憶位置し3の3番目の副位置の始め
の内容は、今や記憶位置し3からの入力によりシフトア
ウトする、というのは、それがあまりに大きい差分和を
表すからである。同様に、記憶位置し3に対する情報は
記憶位置し2の2番目及び3番目の副位置から得られて
いる。
The third position of this sub-position stores 1 in the order,
The second position, on the other hand, stores the number of sub-locations of the previous storage location tl from which information is obtained, ie the value l. Finally, the address tl enters the first position of the first sub-position. The second and third sub-locations are loaded in a similar manner so that the information initially in the second sub-location in the example of FIG.
In the second sub-location, the information from 2 to the second simultaneously ending link, i.e. the information from the storage location with the address L2 stored with this link, and therefore also the information from the first sub-location, to the link 2. This is because the difference sum S' increased by the difference value along the line is smaller than the difference sum that originally existed at the second sub-location of storage location 1, and therefore was subsequently inserted. Then, the absolute difference sum at the end of link 2 is the difference sum Sl at the first sub-position.
is submitted to yield a difference d1, while storage location t
The difference value d' 1 from the second sub-position of l corresponds directly to the difference value d2 stored during the last position of the third sub-position of storage position 3. The content at the beginning of the third sub-location of memory location 3 that originated from the third sub-location of memory location 1 is now shifted out by the input from memory location 3 because it is too large. This is because it represents the sum of differences. Similarly, information for storage location 3 is obtained from the second and third sub-locations of storage location 2.

アドレスL3は、トレースバック・ポインタB (1,
k)としてノードN3からでているリンクに8ないしに
9の各々の1番目の規準値と共に記憶され、かように転
移し、対応する値D(1,k)は従って差分和S1及び
各リンクの1番目の規準信号との比較から形成される。
Address L3 is traceback pointer B (1,
k) in the links emanating from the node N3 together with the first criterion value of each of 8 or 9, and thus transferred, the corresponding value D(1,k) is therefore the difference sum S1 and each link. is formed from a comparison with a first reference signal.

テスト信号が考察されているとき、少なくとももう1つ
別のリンクが同時にノードN3以外のノードに終端する
場合は、もう1つ別の記憶位置、例えばアドレスL4を
持つものが設けられなければならず、それに対して入力
されるべき情報は上述したのと同じやり方で得られる。
When a test signal is being considered, if at least one other link simultaneously terminates to a node other than node N3, another storage location must be provided, for example with address L4. , the information to be input thereto is obtained in the same way as described above.

−成約に、記憶位置は同じテスト信号に対し少なくとも
1つのリンクが終端しているノード毎に設けられなけれ
ばならない。
- To be successful, a storage location must be provided for each node where at least one link terminates for the same test signal.

しかしながら、記憶位置し2の第1副位置からの情報が
記憶位置し3の第2副位置内へ負荷される前に、結局は
スピーチ信号る対して異なる類似性の異なるワード列が
決定されねばならぬので、記憶位置し3の最後の記憶位
置から適切に出発して、この情報が記憶位置し1を介し
て記憶位置し3へ到達したワードストリングに関係しな
いかどうかが確かめられねばならない。副位置内へ負荷
されるべき情報がこの記憶位置の副位置の一つに既に存
在しているワード列を表現する場合には、この情報は抑
制されるべきであり、すなわちこの情報はより大きい絶
対差分和を表現している。これが空虚にされている記憶
位置し3の副位置となる場合には、若し他の副位置と挿
入されるべき副位置との差分和に基づいてこれができれ
ば、この空いている副位置内へ挿入されるべき情報を書
き込むことができるであろう。この場合には、記憶位置
し3内で既に可能な副位置は新しい副位置が挿入される
べき場合にシフトされる必要はない。
However, before the information from the first sub-location of storage location 2 is loaded into the second sub-location of storage location 3, different word sequences of different affinities for the speech signal must eventually be determined. Therefore, starting appropriately from the last memory location of memory location 3, it must be ascertained whether this information does not relate to the word string that reached memory location 3 via memory location 1. If the information to be loaded into a sub-location represents a word sequence that is already present in one of the sub-locations of this storage location, this information should be suppressed, i.e. this information is larger It represents the absolute sum of differences. If this becomes a sub-location of memory location 3 that has been emptied, if this can be done based on the sum of the differences between the other sub-positions and the sub-position to be inserted, It would be possible to write the information to be inserted. In this case, the already possible sub-locations within storage location 3 do not need to be shifted if a new sub-location is to be inserted.

挿入されるべきワード列に相当するワード列が記憶位置
L3に既に存在するかどうかを確かめるために、記憶位
置し2からのリンク発行が記憶位置し3内の副位置の一
つの第3位置に既に存在しているかどうかが最初にチエ
ツクされねばならず、且つその場合には、リンクの対応
する先の列は、リンクのこれらの列が少なくとも−ポジ
ション異なるかあるいは始まりまで一致するかどうかを
決定するために遡られねばならない。
In order to check whether a word string corresponding to the word string to be inserted already exists in memory location L3, a link issue from memory location L3 is inserted into the third position of one of the sub-locations in memory location L3. It must first be checked whether it already exists, and in that case the corresponding destination columns of the link determine whether these columns of the link differ by at least -position or match up to the beginning. must be traced back to do so.

最後の終了リンクの順の代わりに各副位置の第3のポジ
ションで、付加的なワード列メモリのアドレスが記憶さ
れている場合には、このむしろ複雑な遡上は回避され得
て、そのメモリ内では、このメモリがまだこのワード列
を含んでいない場合には、前記リンクまで横断され且つ
そのリンクを含んでいるリンク列についてリンク情報の
あらゆる終端に対して新しい記憶位置に記憶される。こ
れは、スピーチ信号の端部において、そのとき読み込ま
れたメモリ14の最後の記憶位置内の第3ポジションの
個別に決定されたワード列が、スピーチ信号とのそれら
の増大する類似性と一致して前記付加的ワード列メモリ
を介して直接的に読み出され得る。
This rather complicated retracing can be avoided if an additional word string memory address is stored in the third position of each sub-location instead of in the order of the last ending link, and that memory Within, if this memory does not already contain this word string, it is traversed to the link and stored in a new storage location for every end of link information for the link string containing the link. This means that at the end of the speech signal, the individually determined word strings of the third position in the last storage location of the memory 14 read at that time coincide with their increasing similarity with the speech signal. can be directly read out via the additional word string memory.

このワード列メモリの可能な組織を第5図及び第6図を
参照して幾らかもっと詳細に説明しよう。
A possible organization of this word string memory will now be explained in some more detail with reference to FIGS. 5 and 6.

例としての第5図はスピーチ信号を認識する過程で生じ
得る幾らかのワード列を与えているが、単純化のために
たった数ワード列が辿られているのみである。円W1〜
W2が個別のワードの端部を表し且つ内容が第6図に図
解されているワード列メモリのアドレスを表現する。
As an example, FIG. 5 gives some word sequences that may occur in the process of recognizing a speech signal, but for simplicity only a few word sequences are traced. Yen W1~
W2 represents the end of an individual word and the contents represent the address of the word string memory illustrated in FIG.

かつてワードが終わったことのない出発点WOから出発
して、なかんずく二つのワード“who”と“when
″とが、例えば所定のスピーチモデルに基づいてスピー
チ信号と比較される。ワード“who”が終わった場合
に第6図に示したワード列メモリのアドレスW1に登録
され、その登録はWOへのバックポインタを有するセク
ションElとリンク“who”を有するセクションE2
とを具える。セクションE3はその時は空のままである
。例えば少しだけ異なる瞬間に、ワード“when”が
終わった場合に、即ちもう一つの試験信号に対してアド
レスW2で第6図のワード列メモリ内に別の登録がされ
た場合に、セクションEl内のバックポインタも出発点
wOを指示し、セクションE2はリンク“when”を
含んでいる。
Starting from the starting point WO, where no word has ever ended, we begin with two words above all: “who” and “when.”
'' is compared with the speech signal based on a predetermined speech model, for example. When the word "who" ends, it is registered at address W1 of the word string memory shown in FIG. Section El with back pointer and section E2 with link “who”
and. Section E3 remains empty at that time. For example, if the word "when" ends at a slightly different moment, i.e. if another entry is made in the word string memory of FIG. 6 at address W2 for another test signal, then in section El. The back pointer of also points to the starting point wO, and section E2 contains the link "when".

さて、比較はなかんずくワード“has”と“WaS”
とについてなされる。点W1から発生するワード“ha
s”が終端に到達する次のワードである場合には、アド
レスW3でワード列メモリ内に新しい登録がなされ、そ
のメモリはセクションEl内にwlへのバックポインタ
とセクションE2内にリンク″has”とを含む。同時
に、リンク“has”がアドレスwlにおいてセクショ
ンE3内に点W1から生じるリンクとして記入される。
Now, the comparison is especially between the words “has” and “WaS”.
It is made about. The word “ha” generated from point W1
If ``s'' is the next word to reach the end, a new entry is made in the word string memory at address W3, and that memory has a back pointer to wl in section El and a link ``has'' in section E2. At the same time, the link "has" is entered in section E3 at address wl as a link originating from point W1.

続いて点W1からワード“WaS”が生じている場合に
は、このアドレスWlでのセクションE3内にこのリン
クが既に存在するかどうかがチエツクされる。これがま
だである場合を想定すると、アドレスW4でワード列メ
モリ内に登録がなされ、その登録はセクションEl内に
WlへのバックポインタとセクションE2内にリンク“
WaS”とを具える。更にその上、アドレスWlでのセ
クションE3内の登録はこのリンク“WaS”により完
成される。
If the word "WaS" subsequently originates from point W1, it is checked whether this link already exists in section E3 at this address W1. Assuming this is not the case yet, a registration is made in the word column memory at address W4, and that registration has a back pointer to Wl in section El and a link in section E2.
Furthermore, the registration in section E3 at address Wl is completed by this link "WaS".

同様にして、点tV2から発生しているワード“WaS
”と“has”とが終わり、対応するワードがセクショ
ンE3内でアドレスW2においても完成された場合に、
新しいアドレスW5及び〜v6が作り出される。
Similarly, the word “WaS” generated from point tV2
” and “has” are completed and the corresponding word is also completed in section E3 at address W2, then
New addresses W5 and ~v6 are created.

さて、なかんずくワード“written”と“mai
led”とが点〜v3から出発して比較される。単純化
のために実際にW4〜W6に続くワードは考えられてい
ない。
Now, above all, the words "written" and "mai"
"led" are compared starting from point ~v3. For simplicity, the words actually following W4-W6 are not considered.

ワード“written”が終わった場合に、新しい登
録W7がワード列メモリ内になされ、その登録はセクシ
ョンEl内にW3へのバックポインタとセクションE2
内にリンク“written”とを具える。このワード
はアドレスW3におけるセクションE3内にも完成され
る。同様のことをアドレスW8に書き込まれる他方のワ
ード“mailed”にも、且つアドレス〜V9. W
IO。
When the word "writen" is finished, a new registration W7 is made in the word string memory, which registers a back pointer to W3 in section El and a back pointer to section E2.
It includes a link "written" within. This word is also completed in section E3 at address W3. The same thing is written to the other word "mailed" written to address W8, and also to address ~V9. W
I.O.

Wit及びWlでの登録を発生するその他のワードにも
適用する。先のアドレスにおけるすべてのセクションE
3が同様に完成される。
It also applies to other words that generate registration in Wit and Wl. All section E at the destination address
3 is completed in the same way.

さて、例えば点Wlから出発して、ワード“hasはも
う一つの通路を介して最新の瞬間に終わった場合に、登
録E3からの初期アドレスW1を介してこのワード列が
すでに存在することを直ちに確かめることか可能である
Now, starting from the point Wl, for example, if the word “has ended at the latest moment via another path, we immediately know that this word sequence already exists via the initial address W1 from the register E3. Is it possible to be sure?

スピーチ信号の終端において、第3メモリ14内の最後
の記憶位置から、ワードストリング及びこれを介する先
のワードその他の先の終端と同時に最後のワードを、ワ
ード列メモリのすべての副位置の第3位置に含まれるア
ドレスの第2セクシヨンE2によって毎回決定すること
、及びこれらをワード列として読み出すことがか今や可
能である。
At the end of the speech signal, from the last storage location in the third memory 14, the last word at the same time as the end of the word string and other previous words through it, is transferred to the third memory location of all sub-locations of the word string memory. It is now possible to determine each time by the second section E2 of the address contained in the position and to read these out as a word sequence.

第7図に示したブロック線図において、認識されるべき
スピーチ信号がマイクロホン30へ印加され、スピーチ
信号処理回路42へ供給される電気信号に変換される。
In the block diagram shown in FIG. 7, the speech signal to be recognized is applied to a microphone 30 and converted into an electrical signal that is supplied to a speech signal processing circuit 42. In the block diagram shown in FIG.

この回路においては特性試験信号がそのスピーチ信号か
ら得られ、−船釣に大きい給電の場合にはリアルタイム
処理は不可能であるから、例えば複数の隣接するスペク
トル領域内のIomsの短い連続した時間間隔にわたる
例えばスピーチ信号の振幅及び適切なこれらの試験信号
とが一時的に記憶される。この図示されていない中間メ
モリはアドレス発生器44によってアドレスされる。
In this circuit a characteristic test signal is obtained from the speech signal - since real-time processing is not possible in the case of large power supplies for fishing boats, for example short consecutive time intervals of Ioms in several adjacent spectral regions. The amplitudes of, for example, speech signals and appropriate test signals are temporarily stored. This intermediate memory, not shown, is addressed by an address generator 44.

続いて、試験信号は接続線43を介して比較器回路16
へ印加され、その回路は同時に基準メモリ兇から基準信
号を受は取る。この基準メモリ18はアドレス発生器2
4により制御され、そのアドレス発生器はすべての基準
信号を連続して読み出すか、あるいはしきい値が用いら
れる場合には基準メモリ18に記憶された基準信号の特
定の基準信号を読み出す。いったんすべての関連する基
準値が比較器回路16へ印加され、アドレス発生器24
が接続線25を介してアドレス発生器44へ信号を供給
するので、次の試験信号が比較器回路16へ印加される
Subsequently, the test signal is passed through the connection line 43 to the comparator circuit 16.
The circuit simultaneously receives and receives the reference signal from the reference memory. This reference memory 18 is connected to the address generator 2
4, the address generator reads out all the reference signals in succession or, if a threshold is used, reads out a particular reference signal of the reference signals stored in the reference memory 18. Once all relevant reference values are applied to the comparator circuit 16 and the address generator 24
supplies a signal to the address generator 44 via the connection line 25, so that the next test signal is applied to the comparator circuit 16.

比較器回路は各試験信号を印加された基準信号と比較し
、印加された各基準信号に対する差分値を形成し、且つ
例えばドイツ連邦共和国特許出願公開第DE−O332
15868号公報から知られるようなダイナミックプロ
グラミングの規則に従って、差分和がこれらの値から得
られ、これもアドレス発生器24によりアドレスされる
メモリ12内に記憶される。更にその上、バックポイン
タが、どの位置であるいはどの信号に対して関連するワ
ードを横断する差分信号の列がこのワード内で始まった
かを指示するために、各アドレスにおいてこのメモリ内
に記憶される。
A comparator circuit compares each test signal with an applied reference signal and forms a difference value for each applied reference signal, and for example as described in German Patent Application No. DE-O332.
According to the rules of dynamic programming as known from the publication No. 15868, a difference sum is obtained from these values and stored in the memory 12 which is also addressed by the address generator 24. Furthermore, a back pointer is stored in this memory at each address to indicate at which position or for which signal the sequence of differential signals traversing the associated word began within this word. .

各ワードの終端において、すなわちアドレス発生器24
がワードにの最後の基準信号j=J(k)をアドレスし
た場合に、処理回路20が働かされ、その処理回路が接
続線13を介してメモリ12からこのアドレスに記憶さ
れるバックポインタBを読み出し、接続線21を介して
この記憶位置を読み出すための前記バックポインタに一
致するアドレスにおけるメモ1月4内の記憶位置を駆動
する。丁度終了したワードが関連する試験信号内の最初
の終了ワード、あるいは若しスピーチモデルが用いられ
ればは、スピーチモデルメモリ14によって処理回路2
0により決定されたワードの文法的に付随した組の第1
ワードである場合には、メモリ14内の次の自由な記憶
位置が接続線23を介してアドレスされ、読み出された
記憶位置の内容がその中に記憶される。しかしながら、
丁度終了したワードがこの試験信号に対する第1ワード
でない場合には、メモ1月4の読み出された記憶位置の
すべての副位置の内容が、そこに含まれ且つ瞬間的に通
過されたワードにより増大した差分和がメモリ14内の
記憶位置の副位置の差分和より小さいかどうかを決定す
ることをチエツクし、そのメモリはこの試験信号のため
に第1終了ワードに対して新しく記入され、且つそのメ
モリのためにこの新しく記入されたワードの内容が例え
ば処理回路20内に維持される。そのような副位置が見
出された場合には、その副位置の内容と次の副位置の内
容とが一つの副位置により進められ、最後の副位置の内
容は消失し、読み込まれるべき副位置の丁度比較された
内容は、かくして空にされた副位置に記入される。
At the end of each word, i.e. the address generator 24
addresses the last reference signal j=J(k) in a word, the processing circuit 20 is activated and it retrieves the back pointer B stored at this address from the memory 12 via the connection line 13. Read and drive the memory location in the note 1/4 at the address that corresponds to the back pointer to read this memory location via the connection line 21. The just finished word is the first finished word in the associated test signal, or if a speech model is used, the processing circuit 2 by the speech model memory 14.
the first of the grammatically contiguous set of words determined by 0
If it is a word, the next free storage location in the memory 14 is addressed via the connection line 23 and the contents of the read storage location are stored therein. however,
If the word just finished is not the first word for this test signal, the contents of all sub-locations of the read memory location of note January 4 are filled by the word contained therein and momentarily passed. Checks to determine whether the increased difference sum is less than the difference sum of the sub-locations of the memory location in memory 14, which memory is newly filled for this test signal for the first ending word, and The contents of this newly filled word are maintained for its memory, for example in the processing circuit 20. If such a sublocation is found, the content of that sublocation and the content of the next sublocation are advanced by one sublocation, the content of the last sublocation is lost, and the content of the sublocation to be read is The just compared contents of the positions are then written into the emptied sub-positions.

そこに記憶された増大された差分和が、最後に読み込ま
れた記憶位置の最後の副位置の差分和より大きい副位置
が見出されるまで、これがすべての2副位置に対して連
続的に影響される。新しい副位置を読み出している間に
個別の記憶位置の内容が上述の方法で明らかに更新され
、丁度終わったワードの数kがアドレス発生器24から
得られる。
This is applied successively to all two sub-positions until a sub-position is found whose increased difference sum stored therein is greater than the difference sum of the last sub-position of the last memory location read. Ru. While reading a new sub-location, the contents of the individual storage locations are obviously updated in the manner described above, and the number k of the word just finished is obtained from the address generator 24.

新しい試験信号の場合には最初に終わるワードに対する
メモリ14内の新しい記憶位置に読み込む代わりに、少
なくともしきい値が差分和に対して用いられる場合に若
し比較が許容されるならば、基準メモリ18のすべての
ワードのすべての基準信号が瞬間的な試験信号と比較さ
れるまで、この記憶位置の全体の内容が最初に処理回路
20内に中間的に記憶され、この試験信号に対して次の
終了ワードにより完成され得る。従って得られた情報は
このときメモリ14内の新しい記憶位置内へ負荷され得
る。本質的特徴は、この記憶位置の個別の副位置がそれ
らの差分和の列で配列されることである。
Instead of reading into a new memory location in the memory 14 for the first ending word in the case of a new test signal, at least if a threshold value is used for the difference sum, if the comparison is allowed, the reference memory The entire contents of this storage location are initially stored intermediately in the processing circuit 20 until all reference signals of all 18 words have been compared with the instantaneous test signal, and the next can be completed by the end word of . The information obtained can then be loaded into a new storage location in memory 14. The essential feature is that the individual sub-locations of this storage location are arranged in columns of their difference sums.

各場合にメモリ14内のこの新しく読み込まれた記憶位
置のアドレスは、接続線23を介して比較器回路16へ
も印加され、その回路がこのアドレスをすべての新しく
始めるワードに対するパックポインタBとしてメモリ1
2内へ書き込む。この方法において、メモリ14は認識
されるべきスピーチ信号の最後の試験信号が比較されま
で連続して読み込まれ、この後に認識されたワード列が
ここに先に記載したようにメモリ14を読み出すことに
より処理回路20により出力され、且つ認識された文章
の別の処理のために出力装置38、例えばプリンタ又は
メモリ又はさらに別の処理回路へ印加される。
The address of this newly read memory location in the memory 14 in each case is also applied via the connection 23 to the comparator circuit 16, which circuit stores this address as a pack pointer B for every new starting word. 1
Write into 2. In this method, the memory 14 is read successively until the last test signal of the speech signal to be recognized is compared, after which the recognized word sequence is read out by reading out the memory 14 as hereinabove described. It is output by the processing circuit 20 and applied to an output device 38, such as a printer or a memory or further processing circuitry, for further processing of the recognized text.

比較器回路16と処理回路20とは一緒にプログラムで
きるコンピュータによって構成してもよく、そのコンピ
ュータはそのとき例えばアドレス発生器24と44とを
具え、及びそれとも個別のメモリ、特に二つのメモリ1
2と14と力(共通メモリの相当するアドレス部分によ
り形成されてもよい。
The comparator circuit 16 and the processing circuit 20 may be constituted by a jointly programmable computer, which computer then comprises, for example, address generators 24 and 44 and/or separate memories, in particular two memories 1.
2 and 14 (may be formed by the corresponding address portions of the common memory).

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は、1つのワードストリングを決定する方法を示
す線図、 第2a及び2b図は、本発明による方法での第3メモリ
の記憶位置の組織化及びそのワードストリングのトレー
スバックを示す説明図、 第3図は、スピーチモデルのグラフの一部を示す線図、 第4図は、第3メモリの新たな記憶位置の情報を形成す
る方法を示す説明図、 第5図は、典型的なスピーチ信号に対し得られたワード
列の可能な結合を示す線図、 第6図は、第5図に示すワードの結合に対応する第4メ
モリの内容を表わす説明図、 第7図は、本発明による方法を実施する装置を示すブロ
ック線図である。 IO・・・マトリックス 12、 14・・・メモリ 12a、 12b、 31〜37・・・記憶位置14a
、 14b・・・記憶区分 16・・・比較回路 18・・・基準メモリ 20・・・処理回路 24、44・・・アドレス発生器 38・・・出力装置
1 is a diagram illustrating a method for determining a word string; FIGS. 2a and 2b are illustrations illustrating the organization of the storage locations of the third memory and the traceback of the word string in the method according to the invention; FIG. Figure 3 is a diagram showing a part of the graph of the speech model; Figure 4 is an explanatory diagram showing a method of forming information on a new storage location in the third memory; Figure 5 is a typical diagram. FIG. 6 is an explanatory diagram showing the contents of the fourth memory corresponding to the combination of words shown in FIG. 5; FIG. 1 is a block diagram illustrating an apparatus for implementing the method according to the invention; FIG. IO...Matrix 12, 14...Memory 12a, 12b, 31-37...Storage location 14a
, 14b...Storage section 16...Comparison circuit 18...Reference memory 20...Processing circuits 24, 44...Address generator 38...Output device

Claims (1)

【特許請求の範囲】 1、スピーチ信号内の少なくとも1つのワードストリン
グの認識方法であって、 このワードストリングより連続時間インタ ーバルを表わすテスト信号を導出し、これらのテスト信
号を第1メモリ内に記憶されている複数個の所定ワード
の基準信号と比較して差分値を形成し、これらの差分値
を加算し、第2メモリ内にこれらの差分値の和をメモリ
アドレスのポインタと共に記憶し、このメモリアドレス
のポインタは、かくして得られた差分和の列がワードの
開始点においてスタートできる如くし、さらに少なくと
もワードの境界において、丁度終了したワードのポイン
タで当該ワードが開始する点のポインタを第3メモリ内
に記憶し、かつこのスピーチ信号の終わりにおいて決定
される少なくとも1つのワードストリングで、最小の差
分和が得られた当該ワードより少なくとも開始し、この
時に記憶されているワードの開始点を経過し、また前位
ワードに対するポインタよりそのワード開始点に至るワ
ードストリングをこの第3メモリに記憶するスピーチ信
号内のワードストリングの認識方法において、 スピーチ信号に最も良く類似しているN個 の異なるワードストリングを認識するため、第3メモリ
は各々が少なくともN個の副位置を有する複数個の記憶
位置を有し、これらの各副位置は、 第3メモリのアドレス用の第1ポジション と、 記憶位置内の副位置のアドレス用の第2ポ ジションと、 ワード表示用の第3ポジションと、 差分和の表示用の第4ポジションと を有し、初めの2つのポジション内のアドレスがワード
の開始点のポインタを表わす如くしたこと、 各ワード群中、最終ワードがテスト信号用 のワードエンドに到達するワード群に対しては、第3メ
モリ内に新規な記憶位置をアドレスし、このアドレスを
第2メモリ内に可能な各後続ワードの開始点として、当
該ワードの第1基準信号上に記憶し、この副位置に書込
まれた情報は、同じワード群に属し、最終テスト信号に
対し同時に終点に到達した第1ワードの記憶位置に対し
第2メモリ内にアドレスが記憶されている記憶位置より
導出すること、 前記副位置中、差分和が記憶されているも ののみを使用し、かつ関連の第1ワードの基準信号との
比較による差分和をインクレメントして最小であるもの
のみを使用し、この比較は前位のワードの列で、当該瞬
時のワードを含み、その瞬時迄の間が相違し、かつ新規
な記憶位置のすべての副位置が充填される迄継続し、ま
た情報を導出する際には、当該副位置より情報を導出す
る記憶位置のアドレスの副位置のアドレスを第1ポジシ
ョンに書込み、情報を導出する副位置のポインタを第2
ポジションに書込み、丁度終了した関連の第1ワードを
第3ポジションに書込み、インクレメントされた差分和
を第4ポジションに書込むこと、及び スピーチ信号の最終テスト信号中に入力さ れた記憶位置のすべての副位置の内容より、各種の異な
るワードストリングを決定し、第3ポジション内のワー
ドの表示を通じ、これを、前記副位置の第1及び第2ポ
ジション内に含まれている記憶位置のアドレス並びにこ
れら副位置の内容等と共に出力することを特徴とするス
ピーチ信号内のワードストリングの認識方法。 2、差分和の絶対値は各記憶位置の1番目の副位置の4
番目のポジションに記憶され、この副位置における差分
和間の差異と1番目の副位置の差分和とは、各その次の
副位置の4番目のポジションに記憶されることを特徴と
する請求項1に記載の方法。 3、同一テスト信号に関し終わりに到達するワードの内
の1つに対して、該ワードの差分和と共にアドレスが記
憶されている記憶位置の情報から、更に別の情報が得ら
れ且つこれを3番目のメモリ中の新しいアドレスを持つ
記憶位置に記憶して成り、また 各副位置に関しこれらのワードの1つ置き のものの該当する記憶位置の情報は、新しい記憶位置の
すべての副位置の情報と順次比較され、もし2つの相互
に比較された副位置の情報がそれまでに詳しく調べられ
た同一ワード列を示すならば、大きい方の差分和は抑制
され、且つ あるワードの丁度今比較された副位置の抑 制されなかった情報が、比較された副位置の差分和より
その差分和が大きいか小さい新しい記憶位置の2つの副
位置の間に挿入され、該新しい記憶位置の副位置の情報
は必要なら1副位置だけシフトされて成ることを特徴と
する請求項1又は2に記載の方法。 4、4番目のメモリにおいては、上記情報が3番目のメ
モリの副位置へ書き込まれる度毎に、それまでに詳しく
調べられ丁度今終わったワードにより伸ばされたワード
ストリングの指示が、終わったワードの指示の代わりに
、3番目のポジションで挿入された副位置中に記憶され
ている新しいアドレスに記憶され、それまでに詳しく調
べられたワードストリングは4番目のメモリのアドレス
を介して決定され、該アドレスは、挿入されるべき副位
置に関する情報がそれから得られる副位置に記憶されて
成ることを特徴とする請求項1ないし3のうちのいずれ
か1項に記載の方法。 5、請求項1ないし4のうちのいずれか1項に記載の方
法を実行するための装置であって、特有のテスト信号を
得るためのスピーチ信 号処理デバイスを有して成り、また 認識しようとしているワードに対する規準 信号を記憶するための1番目のメモリと、 差分値を形成するため及び差分値を累積加 算して差分和を形成するために、各テスト信号を規準信
号と比較するための比較回路と、該当するワードに対す
る差分和及び差分和 の列の始まりの指示を記憶するための2番目のメモリと
、 ワードの終わりに到達したとき、差分和の 列の始まりへのポインタと丁度今終わったワードへのポ
インタとを記憶する3番目のメモリとを有して成る装置
において、 ワードの終わりに到達したとき、新しくア ドレスされた各記憶位置に対して、3番目のメモリ(1
4)は多数の副位置(TP1、TP2、・・・)を有し
、該副位置の各々は4つの記憶ポジション(l、n、k
、d)を持ち、 処理回路(20)が設けられ、該処理回路(20)は、
同じワードのグループに属し同じテスト信号(i)で終
わるすべてのワードに対して3番目のメモリ(14)内
の同じ記憶位置 (l1、l2、l3、・・・)にアドレスし、個別の副
位置の中へそれら記憶位置の副位置の読み出し内容から
得られた情報を書き込み、該情報の記憶アドレスは2番
目のメモリ (12)内の当該終わったワードに対応する入力(B、
j、k)により指示されるものであり、また以下に記す
ような副位置すなわち、該副位 置に対して差分和がそこに記憶され且つ該当する最初の
ワードの規準信号の比較の結果としての差分和の増加に
より増大した該差分和が最少であるところの、且つ又、
該副位置に対してそれまでに詳しく調べられた瞬間的な
ワードを含む先行ワードの列が異なるところの副位置の
みから、上記処理回路(20)は情報を得て成ることを
特徴とする装置。
Claims: 1. A method for recognizing at least one word string in a speech signal, comprising deriving from the word string test signals representing continuous time intervals and storing these test signals in a first memory. forming a difference value by comparing the reference signals of a plurality of predetermined words, adding these difference values, storing the sum of these difference values together with a memory address pointer in a second memory; The pointer to the memory address is such that the sequence of difference sums thus obtained can start at the start of a word, and furthermore, at least at a word boundary, the pointer to the point at which the word just ended can be used to point to the point at which the word starts. at least one word string stored in memory and determined at the end of this speech signal starting at least from the word for which the smallest sum of differences was obtained and passing through the start of the word currently stored; and a method for recognizing a word string in a speech signal in which a word string leading to the start of the word from a pointer to the previous word is stored in this third memory. To recognize a string, the third memory has a plurality of storage locations each having at least N sub-locations, each of these sub-locations consisting of: a first position for an address of the third memory; and a storage location. It has a second position for the address of the sub-position within, a third position for displaying the word, and a fourth position for displaying the sum of differences, and the address in the first two positions is the starting point of the word. For each group of words whose last word reaches the end of the word for the test signal, a new storage location is addressed in the third memory, and this address is transferred to the second memory. The information written in this sub-position belongs to the same group of words and reaches the end point at the same time for the final test signal. deriving an address from a storage location stored in a second memory for the storage location of the first word stored in the first word; The sum of differences obtained by comparing a word with a reference signal is incremented and only the smallest one is used. , and continues until all sub-locations of the new storage location are filled, and when deriving information, the address of the sub-location of the address of the storage location from which information is to be derived is placed in the first position. Write the second pointer to the sub-position to derive the information.
position, write the just-finished associated first word to the third position, write the incremented difference sum to the fourth position, and all of the memory locations entered during the final test signal of the speech signal. From the contents of the sub-locations, various different word strings are determined and, through the representation of the word in the third position, are expressed as the addresses of the memory locations contained in the first and second positions of said sub-locations and A method for recognizing a word string in a speech signal, characterized in that the word string is output together with the contents of these sub-positions. 2. The absolute value of the difference sum is 4 of the first sub-position of each storage location.
4th position of each subsequent sub-position, and the difference between the difference sums at this sub-position and the difference sum of the first sub-position are stored in the fourth position of each subsequent sub-position. The method described in 1. 3. For one of the words reaching the end for the same test signal, further information is obtained from the information of the storage location where the address is stored together with the difference sum of that word, and this is added to the third , and for each sub-location, the information of the corresponding memory location of every other one of these words is sequentially combined with the information of all the sub-locations of the new memory location. are compared, and if the information of the two mutually compared sub-positions indicates the same word sequence examined previously, the larger difference sum is suppressed and the just-compared sub-position of a word is The unsuppressed information of a position is inserted between two sub-locations of a new storage location whose difference sum is greater or less than the difference sum of the compared sub-locations, and the information of the sub-locations of the new storage location is required. 3. A method as claimed in claim 1, characterized in that the method is shifted by one sub-position. 4. In the fourth memory, each time the above information is written to a sublocation of the third memory, the word string pointed to by the previously scrutinized word just finished is replaced by the word just finished. Instead of the instruction in the sub-location inserted in the third position, the word string stored in the new address stored in the inserted sub-location and previously examined is determined via the address of the fourth memory; 4. Method according to claim 1, characterized in that the address is stored in the sub-location from which information regarding the sub-location to be inserted is obtained. 5. Apparatus for carrying out the method according to any one of claims 1 to 4, comprising a speech signal processing device for obtaining a characteristic test signal and for performing recognition. a first memory for storing a reference signal for the word in which the test signals are stored, and a comparator for comparing each test signal with the reference signal to form a difference value and to cumulatively add the difference values to form a difference sum. a second memory for storing the difference sum for the word in question and an indication of the beginning of the series of difference sums, and when the end of the word is reached, a pointer to the beginning of the series of difference sums and a pointer to the beginning of the series of difference sums that has just ended; and a third memory for storing a pointer to a word that has been addressed. When the end of the word is reached, for each newly addressed memory location
4) has a number of sub-locations (TP1, TP2,...), each of which has four storage positions (l, n, k
, d), and a processing circuit (20) is provided, the processing circuit (20) having:
Address the same memory location (l1, l2, l3,...) in the third memory (14) for all words belonging to the same group of words and ending with the same test signal (i) and separate Write into the locations the information obtained from the read contents of the sub-locations of those storage locations, the storage address of which information is the input (B,
j, k), and for which sub-positions the difference sum is stored and as a result of the comparison of the reference signals of the corresponding first word. where the increased difference sum is the minimum due to an increase in the difference sum, and
Apparatus characterized in that the processing circuit (20) obtains information only from sub-positions for which the sequence of preceding words containing the instantaneous words examined up to that point differs. .
JP2244133A 1989-09-15 1990-09-17 Identification of word string in speech signal Pending JPH03155600A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE3930889.8 1989-09-15
DE3930889A DE3930889A1 (en) 1989-09-15 1989-09-15 METHOD FOR DETECTING N DIFFERENT WORD CHAINS IN A VOICE SIGNAL

Publications (1)

Publication Number Publication Date
JPH03155600A true JPH03155600A (en) 1991-07-03

Family

ID=6389533

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2244133A Pending JPH03155600A (en) 1989-09-15 1990-09-17 Identification of word string in speech signal

Country Status (4)

Country Link
EP (1) EP0417854B1 (en)
JP (1) JPH03155600A (en)
AT (1) ATE147184T1 (en)
DE (2) DE3930889A1 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4130632A1 (en) * 1991-09-14 1993-03-18 Philips Patentverwaltung METHOD FOR RECOGNIZING THE SPOKEN WORDS IN A VOICE SIGNAL
GB9602699D0 (en) * 1996-02-09 1996-04-10 Canon Kk Pattern matching method and apparatus
US5960395A (en) * 1996-02-09 1999-09-28 Canon Kabushiki Kaisha Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming
DE19624988A1 (en) * 1996-06-22 1998-01-02 Peter Dr Toma Method for the automatic recognition of a spoken text

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3710507A1 (en) * 1987-03-30 1988-10-20 Philips Patentverwaltung METHOD FOR DETECTING CONTINUOUSLY SPOKEN WORDS

Also Published As

Publication number Publication date
EP0417854A2 (en) 1991-03-20
DE59010620D1 (en) 1997-02-13
ATE147184T1 (en) 1997-01-15
EP0417854A3 (en) 1992-11-25
EP0417854B1 (en) 1997-01-02
DE3930889A1 (en) 1991-03-28

Similar Documents

Publication Publication Date Title
US5228110A (en) Method for recognizing N different word strings in a speech signal
US5581655A (en) Method for recognizing speech using linguistically-motivated hidden Markov models
JP3860613B2 (en) Method and apparatus for recognizing spoken word sequence in speech signal
JP2717652B2 (en) Continuous speech recognition system
US5515475A (en) Speech recognition method using a two-pass search
CA1320274C (en) Constructing markov model word baseforms from multiple utterances by concatenating model sequences for word segments
US5987409A (en) Method of and apparatus for deriving a plurality of sequences of words from a speech signal
KR100350002B1 (en) System and method for outputting conversation information in response to voice signals
US20080228487A1 (en) Speech synthesis apparatus and method
JPH0314200B2 (en)
JPS62246097A (en) Word base form synthesizer for voice recognition
JPH05197394A (en) Method and apparatus for recognizing word sequence of audio signal
Schwartz et al. Efficient, high-performance algorithms for n-best search
JPS62118399A (en) Transmission/analysis apparatus and method in finite machine
CN109087645A (en) A kind of decoding network generation method, device, equipment and readable storage medium storing program for executing
JP2000293191A (en) Device and method for voice recognition and generating method of tree structured dictionary used in the recognition method
CN111105787A (en) Text matching method and device and computer readable storage medium
JPH03155600A (en) Identification of word string in speech signal
Ney A comparative study of two search strategies for connected word recognition: Dynamic programming and heuristic search
JP3950957B2 (en) Language processing apparatus and method
US7818172B2 (en) Voice recognition method and system based on the contexual modeling of voice units
US7676366B2 (en) Adaptation of symbols
JP3484077B2 (en) Voice recognition device
JP4054610B2 (en) Voice recognition apparatus, voice recognition method, voice recognition program, and program recording medium
JPS63158600A (en) Word detector