JPH01502610A - Continuous speech recognition system - Google Patents
Continuous speech recognition systemInfo
- Publication number
- JPH01502610A JPH01502610A JP50337286A JP50337286A JPH01502610A JP H01502610 A JPH01502610 A JP H01502610A JP 50337286 A JP50337286 A JP 50337286A JP 50337286 A JP50337286 A JP 50337286A JP H01502610 A JPH01502610 A JP H01502610A
- Authority
- JP
- Japan
- Prior art keywords
- link
- record
- link record
- node
- recognizing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 81
- 238000011524 similarity measure Methods 0.000 claims abstract description 31
- 238000012545 processing Methods 0.000 claims description 31
- 230000001186 cumulative effect Effects 0.000 claims description 28
- 230000008569 process Effects 0.000 claims description 24
- 238000013480 data collection Methods 0.000 claims description 6
- 238000013500 data storage Methods 0.000 claims 2
- 238000004220 aggregation Methods 0.000 claims 1
- 230000002776 aggregation Effects 0.000 claims 1
- 238000002372 labelling Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 35
- 238000012360 testing method Methods 0.000 description 17
- 101001073211 Solanum lycopersicum Suberization-associated anionic peroxidase 2 Proteins 0.000 description 13
- 238000003491 array Methods 0.000 description 10
- 230000007246 mechanism Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 2
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 2
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 2
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 244000309464 bull Species 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 244000013123 dwarf bean Species 0.000 description 1
- 238000005755 formation reaction Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 235000021331 green beans Nutrition 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000135 prohibitive effect Effects 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/193—Formal grammars, e.g. finite state automata, context free grammars or word networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
Description
【発明の詳細な説明】 連続音声認識システム 発明の背景 本発明は音声認識システムに関し、特に、話された単語(word)の終点(e nd polnt)があらかじめ決まっていない音声の認識に関する。[Detailed description of the invention] continuous speech recognition system Background of the invention TECHNICAL FIELD The present invention relates to speech recognition systems, and more particularly, to the endpoint (e) of a spoken word (word). This invention relates to the recognition of speech whose nd, polnt) are not predetermined.
既知の話し手(speaker)について所定の文法((rammar)から孤 立した単語を認識することは長い間知られている。isolated from a given grammar ((rammar) for a known speaker). It has been known for a long time that humans can recognize words that are set up.
文法の単語を個別のテンプレート(型板)としてあらかじめ記憶しておき、各テ ンプレートが文法により単語に対する音のパターンを表わすようにする。孤立し た単語が話されると、システムはその単語を文法を表わす各個別のテンプレート と比較する。この方法は一般に完全単語テンプレート合致法(who!e−wo rd tesplaie matching)と言われている。好結果を与える 認識システムの多くは動的プログラミングを用いた完全単語テンプレート合致法 を採用して、話された単語とあらかじめ記憶しであるテンプレートとの間の非線 形時間尺度の変化に対処している。Memorize grammar words in advance as individual templates and use them for each test. Let templates represent sound patterns for words using grammar. isolated When a word is spoken, the system converts the word into each individual template representing the grammar. Compare with. This method is generally used as the exact word template matching method (who!e-wo rd tesplaie matching). give good results Most recognition systems use complete word template matching using dynamic programming. is adopted to detect non-linearity between spoken words and pre-memorized templates. It deals with changes in the shape time scale.
この手法は孤立した単語を認識する用途には有効であるが、多くの実用的用途に は連続した単語の認識が必要である。連続単語の認識では、語句中の単語の数は 限定しなくてよく、始めの方の単語の本体は語句が終る前に決定することができ るが、孤立単語認識では、入カバターンの始まりと終りとを特定するのに区切り 記号(deliciter)を用い、認識は一度に1語ずつ行われる。更に、連 続音声認識システムは入カバターンを他の認識可能なパターン、背景雑音、呼吸 雑音のような話し手から出る雑音から区別しなければならず、一方孤立認識は通 常、単語の始まりまたは終りに他の認識可能なパターンを容認できない。Although this method is effective for recognizing isolated words, it is not suitable for many practical applications. requires recognition of consecutive words. In continuous word recognition, the number of words in a phrase is There is no need to limit, the body of the word at the beginning can be determined before the end of the phrase. However, in isolated word recognition, a delimiter is used to identify the beginning and end of an input pattern. Recognition is done one word at a time using deliciters. Furthermore, the series The continuous speech recognition system recognizes incoming patterns from other recognizable patterns, background noise, and breathing. It must be distinguished from the noise coming from the speaker, such as background noise, while isolated recognition is Usually cannot tolerate other recognizable patterns at the beginning or end of words.
IEEE)ランザクジョン、音響学、音声および信号処理、vol、 ASSP −27,No、8. pp、sgg 〜595 (1979年12月)のH,5 akoeによる「2レベルDP合致法−接続(connected)単語認識の ためのパターン合致アルゴリズムに基づく動的プログラミング」では、完全単語 テンプレート合致の方法が接続単語認識を取扱うように拡張されている。この論 文は入カバターン全体に最もよく合う一連の単語テンプレートを見出す2パス( two−pass)動的プログラミング・アルゴリズムを提示している。第1の パスでは、入カバターンの各可能な部分に対して合致(watch) した各テ ンプレート間の類似性を示すスコアを発生する。第2のパスでは、このスコアを 使用して入カバターン全体に対応する最良のテンプレート列を見出す。IEEE) Analysis, Acoustics, Speech and Signal Processing, vol, ASSP -27, No, 8. pp, sgg ~595 (December 1979) H, 5 ``Two-level DP matching method - Connected word recognition'' by akoe Dynamic Programming Based on Pattern Matching Algorithm for Complete Words The template matching method has been extended to handle connected word recognition. this theory Sentences are created using two passes ( two-pass) dynamic programming algorithm. first In the path, each text is matched against each possible part of the input pattern. Generates a score indicating the similarity between templates. In the second pass, this score is to find the best template sequence that corresponds to the entire input pattern.
この拡張された方法には明らかな欠点がある。この技法の1つの欠点は必要な計 算時間の量である。特定の設計要件によっては、この限度のため高価な高速プロ セッサを不当に必要とすることがある。This expanded method has obvious drawbacks. One drawback of this technique is that the required is the amount of computing time. Depending on your specific design requirements, this limit may make expensive high-speed Sessa may be unreasonably needed.
この方法の他の欠点は入カバターンの終点をあらかじめ定めねばならず、入カバ ターン全体をテンプレートの合致が正確に生ずるまでシステム内に格納しなけれ ばならないということである。入カバターンがかなり長い場合には、認識応答時 間が実質上悪くなる。また、終点検出時の誤差が認識器の性能を甚だしく低下さ せる。更に、この情報を格納するのに必要なメモリが極端に多くなることもある 。Another disadvantage of this method is that the end point of the input pattern must be determined in advance; The entire turn must be stored in the system until an exact template match occurs. This means that it must be done. If the input pattern is quite long, the recognition response The gap actually gets worse. In addition, the error in detecting the end point can seriously degrade the performance of the recognizer. let Furthermore, the memory required to store this information can be prohibitive. .
IEEE)ランザクジョン、音響学、音声および信号処理、vol、 ASSP −27,No、 6. pp、 588〜595 (1979年12月)のP、 Brown、 J、 5pohrers P、 Rochschild 、 J、 Bakerによる「部分的トレースバック(traeeback) ’お よび動的プログラミング」では、終点をあらかじめ定めずに任意の長さの入カバ ターンの連続音声認識を考慮した技法が述べられている。これは部分的トレース バックと呼ばれる技法を使用して行われる。部分的トレースバックでは、認識器 の性能を犠牲にすることなしに完全な入カバターンの完成の前に認識された単語 が出力される。しかしながら、記されている部分的トレースバック技法はプロセ ッサの負担になるとともに実行が厄介なように思われる。IEEE) Analysis, Acoustics, Speech and Signal Processing, vol, ASSP -27, No, 6. pp, 588-595 (December 1979), Brown, J, 5pohrers P, Rochschild, “Partial traceback” by Baker, J. Dynamic programming allows you to program inputs of arbitrary length without predetermining the end point. A technique considering continuous speech recognition of turns is described. This is a partial trace It is done using a technique called backing. For partial traceback, the recognizer words recognized before the completion of a complete input pattern without sacrificing performance. is output. However, the described partial traceback technique It seems to be a burden on the user and difficult to implement.
したがって、容易に実行することができ、しかも実時間で効果的かつ安価に動作 することができる連続音声認識システムの必要性が存在する。Therefore, it is easy to implement and works effectively and cheaply in real time. There is a need for a continuous speech recognition system that can perform continuous speech recognition.
発明の目的と概要 本発明の目的は実時間用途に対して実施し安価なハードウェアで連続音声を認識 することができる音声認識の機構と方法とを提供することである。Purpose and outline of the invention The purpose of the present invention is to implement it for real-time applications and to recognize continuous speech using inexpensive hardware. It is an object of the present invention to provide a speech recognition mechanism and method that can perform speech recognition.
本発明の更に他の目的は認識プロセス中音声認識メモリを効果的にメモリ管理で きる音声認識の機構と方法とを提供することである。Still another object of the present invention is to effectively manage speech recognition memory during the recognition process. An object of the present invention is to provide a speech recognition mechanism and method that can perform speech recognition.
本発明の更に他の目的はループを有する文法を与える音声認識の機構と方法とを 提供することである。Still another object of the present invention is to provide a speech recognition mechanism and method that provides a grammar with loops. It is to provide.
手短かに言えば、本発明は音声認識システムに使用する音声認識の方法と機構と に関するものであって、文法モデルがメモリ、にあらかじめ格納してあり、この 文法モデルはメモリにあらかじめ格納しである関連のテンプレート(templ ate)およびそれぞれの起点(originating)ノード(nodes )と終端(teriinattng)ノードとを有するアーク(弧; arcs )により接続されているノードから構成されており、更に入力フレーム群がテン プレートと比較されて類似性尺度パラメータを発生する。本発明はアークが構造 内でループを描くように文法モデルを構成する操作を含んでいる。この種の構造 を実現するため、本発明は選択されたアークに対する終点ノードを含む1つ以上 のノードに対する第1パラメータ記憶装置と第2パラメータ記憶装置とを偏性尺 度パラメータをめること、そのアークに対する終点ノードでアークに関連するテ ンプレートと先にめた類似性尺度パラメータとを用いて類似性尺度パラメータを めることを含んでいる。更に、終点ノードでめられた類似性パラメータは終点ノ ードに対する第1のパラメータ記憶装置に格納される。第1パラメータ記憶装置 の内容は終点ノードに対する第2のパラメータ記憶装置に移され、入力フレーム 群が終点ノードに関するパラメータ記憶装置の内容を用いて認識される。Briefly, the present invention provides a speech recognition method and mechanism for use in a speech recognition system. , the grammar model is stored in memory in advance, and this Grammar models are pre-stored in memory and associated templates. ate) and their respective originating nodes. ) and a terminal node. ), and the input frame group is a template. is compared with the plate to generate a similarity measure parameter. The present invention has an arc structure. Contains operations to construct a grammar model such as drawing a loop within. This kind of structure To achieve this, the present invention provides one or more The first parameter storage device and the second parameter storage device for the node of setting the parameters related to the arc at the end node for that arc. The similarity measure parameter is calculated using the sample template and the similarity measure parameter determined earlier. It includes being able to understand. Furthermore, the similarity parameter determined at the end node is is stored in the first parameter storage for the parameter. First parameter storage device The contents of the input frame are moved to the second parameter store for the destination node and Groups are recognized using the contents of the parameter store for the destination nodes.
図面の簡単な説明 本発明の特徴で新規であると信ぜられるものは特許請求の範囲に特異性とともに 示しである。本発明は、その他の目的と利点とともに、付図と関連して行う次の 説明を参照することにより最も良く理解されるが、付図のいくつかの図面で同じ 参照数字は同じ要素を示している。Brief description of the drawing Features of the invention believed to be novel are included in the claims with specificity. This is an indication. The invention, among other objects and advantages, comprises the following: Although best understood by referring to the description, the same Reference numbers indicate the same elements.
第1図は本発明にしたがって描いた音声認識システムのハードウェアのブロック 図である。Figure 1 is a hardware block diagram of a speech recognition system according to the present invention. It is a diagram.
第2図は本発明にしたがって実施した音声認識システムの1つの局面を示す認識 文法モデルの図式表現である。FIG. 2 shows recognition illustrating one aspect of a speech recognition system implemented in accordance with the present invention. This is a diagrammatic representation of a grammar model.
第3図は第1図の音声文法モデルによるすべての可能なパス(径路; path s)を列挙した音声文法トリー(tree)の図式表現である。Figure 3 shows all possible paths (paths) according to the speech grammar model in Figure 1. s) is a diagrammatic representation of a phonetic grammar tree that enumerates the following.
第4図は本発明による文法モデルの図式表現である。FIG. 4 is a diagrammatic representation of a grammar model according to the invention.
第5a図、第5b図、およびMSc図は本発明による認識プロセスを実施するの に行われる一連のステップを描く流れ図である。Figures 5a, 5b and MSc illustrate the implementation of the recognition process according to the invention. 1 is a flowchart depicting a series of steps performed in a process.
第6図は第5C図のブロック72を一層詳細に示す流れ図である。FIG. 6 is a flowchart illustrating block 72 of FIG. 5C in more detail.
第7a図、第7b図、第7C図、および第7d図は第5a図のブロック44を一 層詳細に示す流れ図である。Figures 7a, 7b, 7c, and 7d combine block 44 of figure 5a. FIG. 3 is a flowchart showing layer details; FIG.
第8図は本発明による「トレースバック」の1例を示す一連の文法トリー図であ る。FIG. 8 is a series of grammar tree diagrams illustrating an example of "traceback" according to the present invention. Ru.
好ましい実施例の詳細な説明 第1図を参照すると、本発明を実施するのに使用することができる音声認識シス テムのブロック図が示されている。DETAILED DESCRIPTION OF PREFERRED EMBODIMENTS Referring to FIG. 1, a speech recognition system that can be used to implement the present invention is shown. A block diagram of the system is shown.
ブロック図はあらかじめ格納した文法が入っているテンプレート・メモリ10を 含んでいる。典型的なあらかじめ格納した文法の形成はアメリカ音響学会誌、6 g (5)、1980年11月のり、 R,Rablner 、 J、 G、 Wilponによる「訓練された話者に対する簡略化した強力訓練手順、孤立語 認識システム」に述べられている。音響学、音声、および信号処理に関するI EEE )ランザクジョン、vol、 ASSP−31゜PP、 793〜80 B (1983年8月)のB、 A、 Dautrich、 L、 R。The block diagram shows a template memory 10 containing pre-stored grammars. Contains. Typical pre-stored grammar formations can be found in Journal of the Acoustical Society of America, 6. g (5), November 1980 Nori, R, Rablner, J, G, Wilpon, “A Simplified Powerful Training Procedure for Trained Speakers, Isolated Words” Recognition System”. I on Acoustics, Speech, and Signal Processing EEE) Ranzakjon, vol, ASSP-31゜PP, 793-80 B (August 1983), B, A, Dautrich, L, R.
Rablner sおよびT、 B、 Martinによる「孤立語認識のフィ ルタ・バンク・パラメータに変化をつけることの効果について」に述べられてい るような音響プロセッサ12は入力音声を、一般に「フレーム」と言う、一連の 音声セグメン) (segments)に変換することができる。各フレームは 入力音声の時間セグメントを、通常はLPGまたはフィルタのバンク・データの 形で表わす。音響プロセッサからのフレームは認識器14に伝えられる。Rablners and T. B. Martin, ``Field of isolated word recognition''. ``On the effects of varying the router bank parameters''. An audio processor 12, such as the audio segments). Each frame is A time segment of the input audio, typically of LPG or filter bank data. Expressed in form. Frames from the acoustic processor are passed to recognizer 14 .
認識器14はテンプレート・メモリ10にあらかじめ格納しである文法から単語 テンプレートにアクセスし、音響プロセッサ12からの各入力フレームを単語テ ンプレートのセグメントを用いて処理する。このような技法は多くの音声認識シ ステムに固有のものであり、「テンプレート処理」と言うことができる。The recognizer 14 selects words from a grammar previously stored in the template memory 10. access the template and convert each input frame from the sound processor 12 into a word template. process using segments of the template. Such techniques are used in many speech recognition systems. It is unique to the stem and can be referred to as "template processing."
認識器14はリンク・テーブル用メモリ16とノード・テーブル用メモリ19と の2つのテーブルに双方向的にアクセスする。リンク用メモリテーブル16は5 個の関連アレイを格納するのに使用される。ノード・テーブル用メモリ19は文 法モデルに関連するパラメータを格納するのに使用される。これらのテーブルに ついては、文法モデルとともに、以下に更に説明する。The recognizer 14 has a link table memory 16 and a node table memory 19. Access the two tables bidirectionally. The link memory table 16 is 5 used to store related arrays. The node table memory 19 is Used to store parameters related to the legal model. on these tables This will be further explained below along with the grammar model.
認識器14は2つのプロセッサ、すなわち認識プロセッサ18とリンク・トレー スバック・プロセッサ20とを用いて実現することができる。認識プロセッサ1 8はテンプレート合致、文法、制御、およびリンク・トレースバックψプロセッ サ20との通信のすべてを処理する。リンク・トレースバック−プロセッサ20 はリンク争テーブル用メモリを維持する(walntaln)のに使用される。The recognizer 14 includes two processors: a recognition processor 18 and a link tray. This can be realized using the Subac processor 20. recognition processor 1 8 includes template matching, grammar, control, and link traceback ψ processes. handles all communications with the server 20; Link Traceback - Processor 20 is used to maintain memory for the link contention table.
この機能は連続音声を入力しながら可能なテンプレート合致を記録すること、関 連情報をリンク・テーブル用メモリ16に格納すること、リンク・テーブル用メ モリ16のスペースを他の情報のため自由にすること、および入力音声が特定さ れるにつれて認識結果を出力することを含む。認識プロセッサ18とリンク・ト レースバック・プロセッサ20との機能は1つのプロセッサに組合せたり、ある いは、図示のように分離することができ、これにより認識プロセッサ18を音響 学、音声および信号処理に関するI EEE国際会a:i事録pp、 899〜 902 (1982年)のJ、 Br1dle s M、 Brown。This feature allows you to record possible template matches while inputting continuous audio, storing link information in the link table memory 16; 16 space for other information, and if the input audio is This includes outputting recognition results as the process progresses. Recognition processor 18 and link Functions with raceback processor 20 can be combined into one processor or Alternatively, the recognition processor 18 can be separated as shown, thereby making the recognition processor 18 IEEE International Conference on Science, Speech and Signal Processing A:i Proceedings pp, 899- 902 (1982) J, Br1dles M, Brown.
およびR,Chamberlainの「接続単語認識のアルゴリズム」に詳細に 説明されているように実現することができる。リンク・トレースバック・プロセ ッサは、本発明にしたがって使用するときは、モトローラのM C6801のよ うな8ビツトのプロセッサを用いて実現することができる。and R. Chamberlain, “Algorithms for Connected Word Recognition” in detail. It can be implemented as described. Link traceback process When used in accordance with the present invention, a processor such as the Motorola MC6801 This can be realized using a similar 8-bit processor.
文法のモデル化 今度は第2図を参照すると、システムが認識することができるすさての可能な単 語シーケンスを示す簡略化した認志文法モデルが示されている。このモデルは示 されている文法が、例示の目的で、一般的に必要なものから、ひどく限定されて いるので、「簡略化した」と言う。第2図には、各々が2語から成る6つの可能 な単語ストリングが存在する(第3図で更に説明する)。典型的な音声認識シス テムでは、文法モデルは各々が敷詰を含む一層多くの可能な単語ストリング(ア ーク)を備えることができる。文法モデルのトポロジー(topology)は 、各々が起点ノードと終点ノードとを有する相互に接続されたアークのネットワ ークとして一層メモリに格納される。各アークはテンプレート・メモリ内の対応 するテンプレートを指す1つ以上のポインタを備えることもできる。Grammar modeling Now referring to Figure 2, we can see all the possible units that the system can recognize. A simplified recognition grammar model showing word sequences is shown. This model is The grammar provided is for illustrative purposes and is severely limited from what is generally needed. Therefore, it is said to be ``simplified''. Figure 2 shows six possibilities, each consisting of two words. There are word strings (further explained in Figure 3). Typical speech recognition system In the system, the grammar model can be used to generate more possible word strings, each containing a Park) can be provided. The topology of the grammar model is , a network of interconnected arcs, each having a source node and a destination node. It is stored further in memory as a archive. Each arc has a corresponding one in template memory There may also be one or more pointers to templates to be used.
文法バスのモデル化 第3図において、第2図からの6つの可能な単語ストリングの各々がトリー図に 列挙されている。3つの可能な第1語、rONEJ (ワン)、rTWOJ ( )ウー)、およびrTHREEJ (スリー)が存在する。各可能な第1語には 2つの可能な第2語rFOURJ (フォー)およびrFIVEJ (ファイブ )が続く。テンプレート合致の期間中、すなわち、入力フレームがあら力)じめ 格納した単語テンプレートと比較されている間、認識プロセッサは可能な「単語 終端」を認識する。可能な「単語終端」は一連の入力フレームが単語テンプレー トと合致する可能性があれば見つかる。特定された単語テンプレートは、先に述 べたリンク・テーブルに格納されているリンク情報と、処理されている一連の入 力フレームとノードに導くテンプレートとの間の類似性の尺度を示す累積距離と を通してトリー図に付加される。たとえば、第2図および第3図の文法ストリン グの可能性を与えて、入力フレームのシーケンスが単語rTWOJと合致する可 能性があるものとして特定されると、「TWO」が始めのノード、すなわちノー ド24からトリー図に付加される。第3図は別のフレームが入力され処理されて から、単語rONEJが可能性のある合致となったことを示している。したがっ て、これは次にノード24でトリー図にも付加される。次に単語rTHREEJ がトリー図に付加され、次いでrFOURJがノード26に付加され、その後同 じノードにrF IVEJが付加され、以下同様となる。これは各可能性ある合 致テンプレートが早晩特定されるにつれてこれをトリー図に付加しながら続けら れる。Modeling the grammar bus In Figure 3, each of the six possible word strings from Figure 2 is plotted in a tree diagram. are listed. Three possible first words, rONEJ (one), rTWOJ ( ) Wu), and rTHREEJ (three) exist. For each possible first word Two possible second words rFOURJ (four) and rFIVEJ (five) ) is followed. During template matching, i.e. if the input frame While being compared to the stored word templates, the recognition processor selects possible Recognize the terminus. Possible "word endings" are when a sequence of input frames is a word template. If there is a possibility of a match, it will be found. The identified word templates are link information stored in the input link table and the set of inputs being processed. The cumulative distance and the measure of similarity between the force frame and the template leading to the node. is added to the tree diagram through For example, the grammar strings in Figures 2 and 3 It is possible that the sequence of input frames matches the word rTWOJ. Once identified as possible, “TWO” becomes the first node, i.e. It is added to the tree diagram from step 24. Figure 3 shows another frame being input and processed. , indicating that the word rONEJ is a possible match. Therefore This is then also added to the tree diagram at node 24. Then the word rTHREEJ is added to the tree diagram, then rFOURJ is added to node 26, and then the same rF IVEJ is added to the same node, and so on. This is for each possible case. Continue to add these to the tree diagram as matching templates are identified. It will be done.
「トリー・ノード」と言う言葉、あるいはトリー図中のノードへの参照はリンク −レコード(link(ed) record)という言葉と相互に交換可能に 使用することにする。一般に、リンク・レコードはトリー図中の接続を規定する メモリに格納されているデータ集合体(data 5et)であり、特定のトリ ー・ノードの特定とトリー・トポロジー内の前のノードとの関係とを含む。The term "tree node" or a reference to a node in a tree diagram is a link - Interchangeable with the word record (link (ed) record) I decide to use it. In general, link records specify connections in a tree diagram It is a data collection (data 5et) stored in memory, and it is - Contains the identification of a node and its relationship to previous nodes in the tree topology.
単語の終端の可能性があるフレームごとに、新しいエントリー、またはリンク・ レコードが代表的トリー図中のリンクに対応するリンク・テーブルに追加される 。きわめて頻繁に、典型的には状態図の形で(状態を表わす)一連のフレームと して表わされている単語テンプレートに、入力フレームが処理されるにつれて、 単語の終端である可能性が複数現われることになる。単語の終端の可能性が検出 されるごとに、対応するテンプレートが新しいリンクとしてトリーに追加される 。更に、各テンプレートの各状態は、現在の入力フレームを通して処理された蓄 積距離と、そのテンプレートに対するデコーディングが始まるトリーのリンクに 対応するリンク・テーブルのリンク・レコードを指すリンク・ポインタとを記録 している。テンプレート合致に関するこれ以上の事項については、音響学、音声 、および信号処理に関するI EEE国際会議議事録、pp、899〜902. 19F12年のJ、Br1dle、 M、 BrownおよびRoChambe rlainの「接続語認識のアルゴリズム」を参考にすることができる。A new entry, or link Records are added to the link table corresponding to the links in the representative tree diagram. . Very often, a series of frames (representing a state), typically in the form of a state diagram, and As the input frame is processed, the word template, represented as There are multiple possibilities for the end of a word. Possible end of word detected each time the corresponding template is added to the tree as a new link. . Furthermore, each state of each template represents the storage processed through the current input frame. The product distance and the tree link from which decoding begins for that template. Record a link pointer pointing to a link record in the corresponding link table are doing. For further information on template matching, please refer to Acoustics, Audio , and Proceedings of the IEEE International Conference on Signal Processing, pp. 899-902. 19F12 J, Br1dle, M, Brown and RoChambe You can refer to rlain's "Algorithm for Connecting Word Recognition".
残念ながら、文法が大きいと、トリーに絶えず付加するテンプレートから問題が 生ずる。第1に、これによって認識応答時間が遅れる。入力フレームのシーケン スが長くなるほど、オペレータは、システムが認識しその認識した単語に対して 処理を行うまで待たなければならない時間が長くなる。Unfortunately, large grammars cause problems from constantly appending templates to the tree. arise. First, this delays recognition response time. Sequence of input frames The longer the sequence, the more the operator can use the words the system recognizes. The amount of time you have to wait for processing increases.
第2に、テンプレートを絶えず追加するにはトリー図の情報をリンクするための 多大なメモリが必要である。文法モデルが複雑でかつ各可能性のある単語に対し て、いくつかの可能性のある単語終端フレームが、合致する場合、リンク・テー ブル(トリー)に必要なメモリは非常に急速な割合で大きくなる。大きくなる割 合が大きすぎれば、メモリの所要条件は非実用的となる。Second, templates are constantly being added for linking tree diagram information. Requires a large amount of memory. The grammar model is complex and for each possible word If several possible end-of-word frames match, the link table is The memory required for bulls (trees) grows at a very rapid rate. As it gets bigger If the ratio is too large, the memory requirements become impractical.
第3の問題は実際に文法をモデル化することに関係している。連続音声に適用す るとき、不定に長い接続単語シーケンスを認識できることが望ましく、ときには 必要である。The third problem has to do with actually modeling the grammar. Applies to continuous audio It is desirable to be able to recognize indefinitely long connected word sequences when is necessary.
このような単語シーケンスを持つモデル構造を「不離定長モデル」と称すること にする。上述のように、第2図の文法モデルはいくらか簡略化されている。音声 認工技術に関する当業者には無限に長いシーケンスをメモリ内にモデルとして表 わそうとすることは実用的でないことが明らかなはずである。その上、モデルの セグメントを計算するのは実時間処理の用途では非実用的である。これらの理由 のため本発明は無限長のモデルを、計算およびメモリの必要条件を可能な限り少 なくして収容するようになっている。A model structure with such a word sequence is called a "non-separable fixed length model". Make it. As mentioned above, the grammar model in Figure 2 is somewhat simplified. audio For those skilled in the art of certification, it is not possible to represent an infinitely long sequence as a model in memory. It should be clear that it is impractical to try to do so. Moreover, the model Computing segments is impractical for real-time processing applications. These reasons Therefore, the present invention allows infinite-length models to be created with as few computational and memory requirements as possible. It is designed to be accommodated without having to do so.
無限長モデル 今度は第4図を参照すると、無限長のシーケンスをメモリおよび計算時間を可能 な限り少なくして収容することができる特定の文法モデルの図式表現が描かれて いる。当業者には、所与の文法には特定のモデル化基準が必要であることが、理 解されるはずである。したがって、第4図に示す例は実用的に必要な文法を収容 するように修正することが可能であることが明らかなはずである。infinite length model Now referring to Figure 4, an infinitely long sequence can be stored in memory and in computation time. A diagrammatic representation of a particular grammatical model that can be accommodated with as little as possible is drawn. There is. Those skilled in the art will understand that a given grammar requires specific modeling criteria. It should be understood. Therefore, the example shown in Figure 4 accommodates the practically necessary grammar. It should be obvious that it can be modified to do so.
文法は0から9までの任意の数字を認識することができ、そのどれかを無音期間 (period or 5ilence)で分離してもよいし分離しなくてもよ い。このモデルでは、認識プロセスへの入力は言葉rstopJで終結する。た とえば、シーケンスr 0−l−1−9−8−0−4−stopJは随意的に無 音を表わすダッシュで認識することができる。The grammar can recognize any number from 0 to 9, and any of them can be designated as a silent period. (period or 5 ilence) may or may not be separated. stomach. In this model, the input to the recognition process ends with the word rstopJ. Ta For example, the sequence r0-l-1-9-8-0-4-stopJ is optionally It can be recognized by the dash that represents the sound.
この種の文法モデルの2つの特徴には、ノード間に無効アーク(null ar c)を使用することと、文法モデル内にループを使用することがある。無効アー クは実質的に2つのノード間を仮想的に接続するものである。これによってシー ケンスあるいは単語を、文法モデル内にこれらの単語を表わすアークを複製せず に、認識することができる。たとえば、ノード27で、言葉rstopJを無効 アークを使用せずに認識しようとする場合には、まず始めに無音を検出しなけれ ばならない。言葉rstopJの前に無音を置く必要がない場合には、文法モデ ルはrstopJを表わすアークをもノード27から出すように修正しなければ ならない。したがって、無効アークによって、無効アークの始発ノードで終る特 定のアークが、その始発ノードから無効アークの終端ノードまで複製されること が゛、なくなる。Two characteristics of this type of grammar model include null arcs (null arcs) between nodes. c) and loops within the grammar model. invalid arc A network is essentially a virtual connection between two nodes. This will cans or words without duplicating the arcs representing these words in the grammar model. can be recognized. For example, at node 27, disable the word rstopJ If you want to recognize without using an arc, you must first detect silence. Must be. If you do not need silence before the word rstopJ, use the grammar model The arc representing rstopJ must also be modified to exit from node 27. No. Therefore, an invalid arc allows a characteristic that ends at the starting node of the invalid arc to A given arc is replicated from its starting node to the terminal node of the invalid arc. It disappears.
この種の文法モデルが実現する2番目の利点はループ自身である。ループを許容 することにより、文法モデル内でテンプレート表現が複製されるのを回避するこ とができる。The second advantage that this type of grammar model provides is the loop itself. Allow loops By doing this, you can avoid duplicating template expressions in the grammar model. I can do it.
たとえば、単語シーケンスr 0−O−0−1−3−9Jを認識しなければなら ない場合、単語モデルを通る経過を、モデル−内で「0」を3回複製せずに認識 することができる。For example, we have to recognize the word sequence r 0-O-0-1-3-9J If not, recognize the progression through the word model without duplicating ``0'' three times within the model. can do.
この種の単語モデルを収容するのに、本発明は特別なパラメータを取入れている 。これらのパラメータは、各ノードに対して、現行累積距離、その累積距離の始 点となる現行リンク、前に累積された距離、および前に累積された距離の始点と なる前のリンクを含む。これらパラメータはノード・テーブルに格納されており 、次のように構成することができる。To accommodate this kind of word model, the present invention introduces special parameters. . These parameters include, for each node, the current cumulative distance, the beginning of its cumulative distance, The current link as a point, the previously accumulated distance, and the starting point of the previously accumulated distance. Contains previous links. These parameters are stored in the node table , can be constructed as follows.
ノード・テーブル ノード・テーブルはノードに導く入力フレーム・アーク(input rra■ e arcs)を処理するとき各ノードの情報を一時的に格納するのに使用する 。ノードに導くアークは無効アークでもよいし、関連テンプレートを備えている アークでもよい。node table The node table contains input frame arcs (input rra■ Used to temporarily store information on each node when processing . Arcs leading to nodes can be invalid arcs and have associated templates. It can also be an arc.
各ノードに対して、テーブルへの2組のエントリが割当てられている。第1II iのエントリは前に蓄積された距離とその関連リンクとである。この情報は一時 的に格納されてノードへの「最良」アークに対する累積距離を決定するのに使用 することができる。Two sets of entries in the table are assigned to each node. 1 II The entries in i are the previously accumulated distances and their associated links. This information is temporary used to determine the cumulative distance for the "best" arc to the node. can do.
第2組のエントリは現在の累積距離とその関連リンクとである。一旦、ノードに 導くアークがすべて所定の入力フレームに対して処理されてしまえば、前の「パ ラメータ」が「現行」パラメータにコピーされる。すなわち、左の2つの欄から の情報が右の2つの欄にコピーされ、これによリノードに導く最良累積距離と、 始発するアークに対するリンクとが保持される。また、前の欄の累積距離がすべ て活動しなくなる。ノード・テーブルについてはtJ S a図および第5b図 の認識流れ図を用いて更に説明することにする。The second set of entries are the current cumulative distances and their associated links. Once on the node Once all leading arcs have been processed for a given input frame, the previous parameter' is copied to the 'current' parameter. That is, from the two columns on the left information is copied into the two columns on the right, which gives the best cumulative distance leading to the linode, and A link to the starting arc is maintained. Also, the cumulative distance in the previous column is and become inactive. For the node table, see Figure 5a and Figure 5b. This will be further explained using a recognition flowchart.
リンク・テーブル リンク・テーブルは、第2図と同様のトリー・ネットワークの形に合うように、 考察中の可能性のある単語シーケンスのすべてを表わすものである。単語シーケ ンスは、事実、テンプレート合致期間中に検出された可能な単語終端を有する連 結されたテンプレートである。このような方法でネットワークを設定することに より可能性のあるあらゆる単語シーケンスの明瞭な部分であるこれらのリンクを 分析することができる。この分析プロセスをトレースバック(tracebac k)と言う。適格に利用すれば、トレースバックにより、もはや明らかになお考 察中のシーケンスの一部ではなくなっているリンク・レコードを解放する効率的 な方法が可能となる。link table The link table is configured to fit the tree network shape similar to Figure 2. It represents all possible word sequences under consideration. word sequence In fact, strings with possible word endings detected during the template matching period are This is a combined template. Setting up the network in this way These links are distinct parts of any more likely word sequence. can be analyzed. This analysis process can be traced back (traceback). k). If used properly, tracebacks can make things no longer obvious. An efficient way to free link records that are no longer part of the sequence being monitored. method becomes possible.
トリー図の各リンク、あるいはノード式トリー接続には数種類の情報を格納して おかなければならない。この情報は第1図のリンク・テーブル16のメモリのL −ACT。Each link in a tree diagram or node-style tree connection stores several types of information. I have to keep it. This information is stored in memory L of link table 16 in FIG. -ACT.
L−FWRD、L−BACK、L−WORD、およびL−PTRのアレイに格納 される。この実施例では、各アレイは長さが255バイトで、256バイトのバ ウンダリから1バイト過ぎた位置に配置されて、効率的アクセスができるように なっている。各アレイからの対応する要素は「リンク・レコード」を構成してい る。リンク・レコードは2リンク式リストになるようにチェインされている。1 つのリストは自由リンク・レコード、すなわち、追加リンクに利用できる空きレ コード・スペースを備えている。第2のリストは設定したリストであり、現在使 用されているリンクのレコードを備えている。これらのリストはL−PTRアレ イによって互いにチェインされている。この場合し−PTR内の1つのエントリ は、設定リストまたは自由リストからの、テーブル内の次のリンク・レコードを 示しており、各レコードは各5つのアレイからの1バイトを含んでいる。たとえ ば、設定リスト内の所定のリンク・レコードについて、L−PTRアレイの対応 するバイトが数「2」の2進表現を含んでいれば、設定リスト内の次のレコード は5つのアレイすべての第2バイト目に存在することになる。L−PTRアレイ の「0」エントリはリンク式リストの終端を画定している。Stored in L-FWRD, L-BACK, L-WORD, and L-PTR arrays be done. In this example, each array is 255 bytes long with a 256-byte buffer. It is placed one byte past the boundary to allow efficient access. It has become. Corresponding elements from each array constitute a "link record". Ru. Linked records are chained into a two-linked list. 1 A list of free link records, that is, free records available for additional links. It has a code space. The second list is the list you have configured and is currently in use. Contains a record of links used. These lists are for L-PTR arrays. are chained together by i. In this case - one entry in the PTR returns the next linked record in the table from the set or free list. As shown, each record contains one byte from each of the five arrays. parable For example, for a given link record in the configuration list, the L-PTR array's correspondence the next record in the configuration list if the byte to be will be present in the second byte of all five arrays. L-PTR array The "0" entry in defines the end of the linked list.
L−BACKアレイとL−WORDアレイとは実際のリンク情報を備えている。The L-BACK array and L-WORD array contain actual link information.
L−BACKはデコード・パス内の前のリンク、すなわち、トリー図の前のノー ドを指すポインタを備えており、一方、L−WORDは現行リンクの終りにデコ ードされた単語を表わす記号を備えている。たとえば、第3図において、トリー ・ノード26に単語「FOURJを付加してから、L−WORDは単語rFOU RJを表わす8ビット記号を備え、L−BACKはトリー・ノード26に対応す るリンク・レコードを指すポインタを備えることになる。その他の2つのアレイ 、L−ACTとL−FWRDとはデコード・パスを通る「トレースバック」(可 能性ある単語シーケンス)に使用される。L−ACTは合致の可能性あるものと してなお考察中のデコード・パスを示すのに使用され、L−FWRDはトリー国 内の後続ノード、すなわちL−BACKの逆、をポイントするのに使用される。L-BACK is the previous link in the decoding path, i.e. the previous node in the tree diagram. The L-WORD has a pointer pointing to the current link, while the L-WORD has a pointer pointing to the current link. It has symbols to represent the coded words. For example, in Figure 3, the tree ・After adding the word “FOURJ” to node 26, L-WORD becomes the word “rFOU” with an 8-bit symbol representing RJ, and L-BACK corresponds to tree node 26. A pointer to the linked record will be provided. Two other arrays , L-ACT and L-FWRD are “traceback” (possible) through the decoding path. possible word sequences). L-ACT is a possible match is used to indicate the decoding path still under consideration, and L-FWRD is is used to point to the successor node within, i.e. the inverse of L-BACK.
今後、認識される可能性あるパス(アクティブ・パス(actlve path ) )の一部として考察されているとフラグが立てられたリンク・レコードをア クティブ・リンク・レコードと称することにする。Paths that may be recognized in the future (active paths) ) )). This will be referred to as an active link record.
リンク・レコードはトレースバック情報を示すので、その状態に到達するのに使 用される単語モデルを通るアークを確認することができる。トレースバックはト リーから役に立たない情報を切払うこともできる。これは情報がメモリ内に余分 に蓄積されないようにするのに必要である。トレースバックは明瞭に認識されて いる単語、すなわちアクティブ・パスすべてに共通な単語を出力するのに使用す ることもできる。リンク・テーブルのL−BACKエントリはテーブル内の前の エントリを指しており、これはトリー国内の前に接続したノードに対応する。し たがって、トレースバックはトリー図を通ってすべてのパスが会合する点、すな わちトリー・ノードまで逆に追跡する(traclng back)プロセスで あると言われる。すべてのパスが会合する点まで追跡して戻るという概念は当業 者にはよく知られている。Link records show traceback information and can be used to reach that state. You can see the arc passing through the word model used. The traceback is You can also remove useless information from Lee. This means that the information is redundant in memory. This is necessary to prevent it from accumulating. Tracebacks are clearly recognized is used to output words that are common to all active paths. You can also The L-BACK entry in the link table is the previous link in the table. It points to the entry, which corresponds to the previously connected node within the tree. death Therefore, the traceback is the point where all paths meet through the tree diagram, i.e. In the process of tracing back to the tree node, It is said that there is. The concept of tracing all paths back to the point where they meet is well within the skill of the art. well known to those who
というのは「トレースバック」の一般的説明は前掲の「部分的トレースバックお よび動的プログラミング」を参照して行われるからである。This is because the general explanation of "traceback" is the same as "partial traceback" and "partial traceback" mentioned above. This is because it is done with reference to ``and dynamic programming''.
上述のアレイを後続の図の説明中の参考のため以下に掲げる。The arrays described above are listed below for reference in the description of subsequent figures.
L−PTR: 255バオト。各バイトはトリー図(テーブル)に設定リストに 対する時開の関数として付加された前のリンク・レコードを指すポインタとして 利用できる。また自由リストの自由リンク・レコードをチェインするのにも使用 される。L-PTR: 255 baots. Each byte is set in a tree diagram (table) list as a pointer to the previous link record appended as a function of time to Available. Also used to chain free linked records in free lists. be done.
L−BACK:25’5バイト。各バイトはトリー図の前のリンク・レコードを 指すポインタとして利用できる。L-BACK: 25'5 bytes. Each byte represents the previous link record in the tree diagram. It can be used as a pointer.
L−WORD : 255バイト。各バイトは現行リンク・レコードに対応する 、可能性のある認識単語を示す記号として利用できる。L-WORD: 255 bytes. Each byte corresponds to the current link record , can be used as a symbol to indicate a potentially recognized word.
L−ACT : 255バイト。各バイトは現行リンク・レコードがアクティブ か否かを示すのに利用することができる(トレースバック中に使用される)。L-ACT: 255 bytes. Each byte has the current link record active (used during traceback).
L−FWRD:255バイト。各バイトはトリー図中の後続有効リンク・レコー ドを示すポインタとして利用できる(トレースバック中に使用される)。L-FWRD: 255 bytes. Each byte is a subsequent valid link record in the tree diagram. (used during traceback).
上述のアレイの他に、別の5つのポインタが使用される。In addition to the array described above, another five pointers are used.
それらは次の通りである。They are as follows.
HEAD : L−PTRアレイによフてチェインされた、設定リスト内の最初 の、すなわち最も最近に追加されたリンク・レコードを示す1バイトのポインタ 。HEAD: First in the configuration list chained by the L-PTR array , a 1-byte pointer to the most recently added link record. .
FREE 二L−PTRアレイによってチェインされた、自由リストの最初のリ ンク・レコードを示す1バイトのポインタ。FREE First list of free list chained by two L-PTR arrays A 1-byte pointer to the link record.
PTR:処理中の現行トリー・ノードを参照する1バイトのポインタ。PTR: 1-byte pointer to the current tree node being processed.
TMPIとTMP2:それぞれ認識流れ図に使用される1バイトのテンポラリ( temporary) ・ポインタである。TMPI and TMP2: 1-byte temporary ( temporary) pointer.
構造的に、設定リスト内に10個のエントリだけを備えたテーブルを仮定すると 、これらのアレイは次のように配列することができる。Structurally, assuming a table with only 10 entries in the configuration list , these arrays can be arranged as follows.
レコード番号 L−PTRL−BACK L−1jORD L−ACT L−F WRD8 5 5 ” 9 0 0 上記テーブルのエントリを付録Aにトリー図で示す。HEADはレコード#(番 号)7を指し、レコード#3のL−PTRエントリの「0」はリストの最後のレ コードを示すことに注目すべきである。FREEは図示してない。Record number L-PTRL-BACK L-1jORD L-ACT L-F WRD8 5 5” 9 0 0 The entries in the table above are shown in a tree diagram in Appendix A. HEAD is record # number) 7, and “0” in the L-PTR entry of record #3 indicates the last record in the list. It should be noted that the code is shown. FREE is not shown.
L−PTRにより、設定リスト内のレコードを、レコードを自由リストから単に 取出してそのL−PTRエントリ1: HE A Dレコードを指示させ、HE ADとFREEとを更新することにより、入れることができる。トレースバック 中にレコードをテーブルの設定リストから削除すると、そのレコードは、レコー ド・エントリを自由リストにリンクし、L−PTRエントリを利用して設定リス トの除去レコードにわたってリンクすることにより、テーブルを配列しなおすこ となく利用できるようになる。L−ACTおよびL−FWRDのエントリはトレ ースバック中にのみ使用され、その他の場合は常にOにリセットされている。L-PTR allows you to simply delete records in the configuration list and records from the free list. Take it out and specify its L-PTR entry 1: HE AD record, and It can be inserted by updating AD and FREE. traceback If you delete a record from a table's configuration list during link the set list to the free list and use the L-PTR entry to link the set list to the free list. You can reorder the table by linking across the removed records. It will be available for free. Entries for L-ACT and L-FWRD are Used only during backup, otherwise always reset to O.
認識流れ図 今度は第5a図から第5c図までを参照すると、認識流れ図が本発明にしたがっ て示されている。第5a図の流れ図はリンク・テーブルとその関連ポインタとを リセットすることによりブロック30から始まる。リセット手順にはL−FRW DとL−ACTとの各バイトを0に等しくセットすること、HEADポインタを 1に等しくセットして設定リストの始まりを示すこと、およびL−PTR(1) とL−PTR(255)とを等しく0にセットしてそれぞれ設定リストと自由リ ストとの終りを示すことが含まれる。Recognition flow chart Referring now to FIGS. 5a through 5c, the recognition flowchart is shown in accordance with the present invention. is shown. The flowchart in Figure 5a shows the link table and its associated pointers. We begin at block 30 by resetting. L-FRW for reset procedure Setting each byte of D and L-ACT equal to 0, setting the HEAD pointer to set equal to 1 to indicate the beginning of the configuration list, and L-PTR(1) and L-PTR (255) are set equal to 0 to create the configuration list and free read respectively. This includes indicating the end of the strike.
また、典型的には一層メモリに格納されているテンプレート状態メモリがインア クティブ(inactive)にされる。したがって、第1のレコードは設定リ ストから構成され、レコード2から255まではL−PTRエントリを使用して 自由リストを形成するようにチェインされる。ここでHEADは設定リストの始 まりを指し、FREEは自由リストの始まり(リンク・レコード#2)を指す。Additionally, the template state memory, which is typically stored in more memory, is be made inactive. Therefore, the first record is records 2 to 255 use L-PTR entries. Chained to form a free list. Here HEAD is the beginning of the settings list. FREE points to the beginning of the free list (link record #2).
第5a図のブロック32で、認識文法モデルはノード・テーブルを初期設定する 二とによって初期設定される。これは初、期ノードの前の累積距離に、低い累積 距離尺度を、任意に割当て、文法の出発点を示すことにより行うことができる。At block 32 of Figure 5a, the recognition grammar model initializes the node table. Initialized by 2 and 2. This corresponds to the cumulative distance before the initial, period node, and the low cumulative This can be done by arbitrarily assigning a distance measure to indicate the starting point of the grammar.
初期ノードの前のリンク・ポインタが、リンク・テーブルの最初のエントリに対 応する1にセットされる。The link pointer before the initial node points to the first entry in the link table. is set to 1 accordingly.
文法モデルの他のすべてのノードはインアクティブに初期設定される。文法ノー ドはノード・テーブルの前の累積距離を無限大に等しく設定することによりイン アクティブに設定することができ、これにより処理の始めに他のノードに可能性 が存在しないことを示すことができる。All other nodes in the grammar model are initialized to inactive. grammar no The node is imported by setting the cumulative distance before the node table equal to infinity. Can be set to active, which makes it possible for other nodes to It can be shown that it does not exist.
ブロック34で、トレースバック・カウンタが10に初期設定される。トレース バック・カウンタはトレースバック・プロセスを行うべきことを周期的に示すの に使用される。この実施例では、トレースバックは10個の入力フレームが処理 されるごとに行われる。At block 34, a traceback counter is initialized to ten. trace The back counter periodically indicates that a traceback process should be performed. used for. In this example, the traceback is processed when 10 input frames are processed. It is done every time it is done.
ブロック36で次の入力フレームが先に述べたテンプレート合致のためにシステ ムに入力される。この流れ図の残りのステップはすべて現在の入力フレームの処 理に関係する。At block 36, the next input frame is sent to the system for template matching as described above. input into the system. All remaining steps in this flowchart process the current input frame. related to reason.
トレースバック・カウンタはブロック38でデクレメン) (decremen t) してフレームが丁度入力されたことを示す。The traceback counter is decremented in block 38. t) to indicate that the frame has just been input.
ブロック39で、入力フレームを処理する前にノード・テーブルが更新される。At block 39, the node table is updated before processing the input frame.
前のノード・パラメータ(「パラメータ」とは累積距離とどこから始まったかを 示すリンクとを指す)はノード・テーブルの現行ノード・パラメータにコピーさ れる。また、先に累積された距離がすべてインアクティブになる。Previous node parameters ('parameters' are the cumulative distance and where it started) (pointing to the link indicated) is copied to the current node parameter in the node table. It will be done. Additionally, all previously accumulated distances become inactive.
ブロック40で文法モデルのすべてのノードが処理されたか否かを確認する試験 が行われる。換言すれば、入力フレームが文法モデル全体について処理されたか 否かについてである。文法モデルのすべてのノードが処理されてしまっていれば 、流れはブロック42に進んでトレースバック・カウンタがトレースバックをこ のフレームで行うべきことを示しているか確認する。もしそうなっていれば、第 7a図から第7d図までの後に説明するトレースバック・サブルーチン44を呼 んでトレースバックが行われる。トレースバックに続き、ブロック36で次の入 力フレームを処理する前に、ブロック46でトレースバック・カウンタがリセッ トされる。Test to see if all nodes of the grammar model have been processed in block 40 will be held. In other words, has the input frame been processed for the entire grammar model? It's about whether or not. If all nodes of the grammar model have been processed , flow proceeds to block 42 where the traceback counter registers the traceback. Check if the frame indicates what to do. If so, then 7a to 7d, which will be described later. A traceback is then performed. Following the traceback, block 36 Before processing the input frame, the traceback counter is reset at block 46. will be played.
文法モデルのノードがすべては処理されてしまっていなければ、流れは第5a図 のブロック40から第5b@のブロック50に進む。ブロック50で、認識文法 モデルの処理が次のノードまで進む。このフレームについてノードが処理されて いなければ、「次のノード」は無効アークに対する終結ノードではない任意のノ ードとすることができる。If all the nodes in the grammar model have not been processed, the flow is as shown in Figure 5a. The process proceeds from block 40 to block 50 of 5b@. At block 50, the recognition grammar Model processing continues to the next node. Nodes have been processed for this frame. If not, "next node" is any node that is not the terminal node for the invalid arc. It can be a code.
特に、処理のためのノードの順序は無効アークが始まるノードが無効アークに対 する終結ノードであるノードの前に処理されるようになっていなければならない 。これはノード累積距離とリンクとがテンプレートの始発ノードについて、これ らのテンプレートが処理される前に確実に更新されるようにするためである。In particular, the order of nodes for processing is such that the node where the invalid arc begins is relative to the invalid arc. must be processed before the node that is the final node . This means that the node cumulative distance and links are the same for the starting node of the template. This is to ensure that these templates are updated before being processed.
ブロック52でこのノードで終るすべてのテンプレートが処理されてしまったか 否かを確認する試験が行われる。Have all templates ending in this node been processed in block 52? A test will be conducted to confirm whether this is the case.
その後文法モデルの各ノードの直ぐ前の各テンプレートが他のノードに進む前に 処理されることが認識される。二〇ノードで終るテンプレートのすべてが処理さ れてしまうと、流れは後に説明する第5c図のブロック68に進む。すべてのテ ンプレートがまだ処理されていなければ、流れはブロック54に進み、このノー ドで処理すべき次のアークが無効アークであるか確認する。次のアークが無効ア ークであれば、流れはブロック55に進む。Then each template immediately before each node in the grammar model before proceeding to other nodes Recognized to be processed. All of the templates ending in 20 nodes are processed. If this occurs, flow proceeds to block 68 of FIG. 5c, discussed below. All Tees If the sample plate has not yet been processed, flow continues to block 54 to process this node. Check whether the next arc to be processed by the code is an invalid arc. The next arc is invalid If so, flow proceeds to block 55.
ブロック55で、累積距離とそのノードに導くリンクとが、ノード・テーブルに 格納されている、前の累積距離と無効アークの始発ノードに対するリンクとにセ ットされる。At block 55, the cumulative distance and the links leading to that node are entered into the node table. The stored previous cumulative distance and the link to the starting node of the invalid arc are will be cut.
この時点で、これまで認識流れ図で示された認識文法モデルの処理を要約するの が有用であろう。もう一度第2図を参照すると、文法モデルの初期ノード22が アクティブにセットされ、対応するリンク・テーブル・エントリが可能性のある すべての文法バス(トリーの枝)が発生する基準を示すように初期設定される。At this point, we can summarize the processing of the recognition grammar model shown in the recognition flow diagram so far. would be useful. Referring again to Figure 2, the initial node 22 of the grammar model is set to active and the corresponding link table entry may All grammar buses (branches of the tree) are initialized to indicate the criteria on which they occur.
入力フレームが処理されるごとに、文法モデルは一度に1ノードずっ始発ノード から終了ノードまで進む。更に、文法モデルの各ノードに対して、そのノードで 終る各テンプレートが、後に説明するように、1度に1つのテンプレートを処理 する。したがって、各入力フレームごとに、各ノードが処理され、各ノードごと に、そのノードで終る各テンプレートが処理される。Each time an input frame is processed, the grammar model returns one node at a time to the starting node. Proceed from to the end node. Furthermore, for each node in the grammar model, at that node Each template that ends processes one template at a time, as explained below. do. Therefore, for each input frame, each node is processed, and for each node Then, each template ending at that node is processed.
ブロック56で示したように、トレースバックが必要であるか否かに無関係に、 現在アークに対する次のテンプレートがブロック58かブロック60かで処理さ れる。いずれかのブロックでテンプレートが合致すると、現在の入力フレーム、 テンプレート、および現行累積距離とノード・テーブル内のノードが始まるアー クのリンク・ポインタとに基づいて、累積距離とテンプレートのすべての状態に 対するリンク・ポインタとが更新される。現行累積距離とリンクとが計算された 時刻(前のフレーム)およびそれらが利用されている時刻(現在のフレーム)か ら1フレーム処理時間遅れているため、この情報は前のフレームに対する処理で あるかのようにテンプレート処理により利用されなければならない。換言すれば 、テンプレート処理は現在フレームに対するテンプレート処理を行う前に現行累 積距離と現行リンクとを使用して前のフレームの処理を終了することになる。現 在のフレームのこのテンプレートに対して単語終端である可能性が存在すれば、 可能性ある単語終端に対応する累積距離とリンク・ポインタとが発生する。前掲 の接続単語認識のアルゴリズム。As indicated at block 56, regardless of whether a traceback is required, The next template for the current arc will be processed at block 58 or block 60. It will be done. If the template matches in any block, the current input frame, template, and the current cumulative distance and the arch from which the node in the node table starts. The cumulative distance and all states of the template based on the link pointer of the The link pointer for the link is updated. The current cumulative distance and links have been calculated time (previous frame) and the time they are used (current frame) Since the processing time for the previous frame is delayed by one frame, this information is not processed for the previous frame. It must be utilized by template processing as if it were. In other words , template processing is performed on the current cumulative frame before performing template processing on the current frame. The product distance and current link will be used to finish processing the previous frame. current If there is a possibility that it is a word end for this template in the current frame, Cumulative distances and link pointers corresponding to possible word ends are generated. Above Connected word recognition algorithm.
流れがブロック56からブロック60に進み、トレースバックが、上述のテンプ レート処理の他に、このフレームを処理していることを示すと、そのテンプレー ト内の各アクティブ状態に対するリンク・ポインタが指すリンク・レコードに対 応するL−ACTエントリのすべてが非ゼロにセットされる。「アクティブ」テ ンプレート状態は有限累積距離を有するものである。Flow proceeds from block 56 to block 60, where the traceback follows the template described above. In addition to rate processing, if you indicate that you are processing this frame, its template The link record pointed to by the link pointer for each active state in the All corresponding L-ACT entries are set to non-zero. "Active" A template state is one that has a finite cumulative distance.
次に流れはブロック62に進み、ここで現行テンブレー距離がこのフレームに対 するノードで終る先に処理された最良のテンプレート(アーク)(これはこれが このノードに対して処理された最初のテンプレートである場合には無限大になる )に対応する現行累積距離より良いか否かを確認する試験が行われる。この試験 の結果は現在の入力フレームのテンプレート合致が単語テンプレートの単語終端 である可能性があることを示す場合にのみ真である。先に述べたとおり、単語終 端である可能性があれば入力フレームのシーケンスがテンプレート・メモリに格 納されている単語テンプレートと対応する、すなわち合致することを示す。Flow then proceeds to block 62 where the current tenbray distance is The best template (arc) processed earlier that ends in a node that Infinite if this is the first template processed for this node ) will be tested to see if it is better than the current cumulative distance corresponding to this exam The result is that the current input frame's template match is the word end of the word template. is true only if it indicates that it is possible that As mentioned earlier, word-final The sequence of input frames is stored in template memory if there is a possibility of an edge. Indicates that it corresponds to, or matches, the stored word template.
テンプレートに現在の入力フレームに対して単語終端の可能性がなければ、その 関連の累積距離は無限になる。If the template has no end-of-word possibility for the current input frame, then The cumulative distance of association becomes infinite.
最も最近に処理されたテンプレート(アーク)にそのノードに関して格納されて いる現行′Am距離より良い累積距離がないことがわかれば流れはブロック52 に戻り、ここでそのノードで終る別のテンプレートが処理される。The most recently processed template (arc) stored for that node If it is found that there is no cumulative distance better than the current 'Am distance, the flow goes to block 52. , where another template ending at that node is processed.
最も最近処理されたアークに対する累積距離がそのノードに関して今まで処理さ れたものの中で最良であることがわかれば、流れはブロック64に進んでこの情 報を記録する。ブロック64で、上で処理されたアークに対応する累積距離とリ ンク・ポインタとがノード・テーブルの文法モデルのノードに対する現行累積距 離および現行リンクとして記録される。他に、テンプレートを表わす単語番号、 あるいは記号が記録される。単語番号は、後に認識されたと確認されれば単語を 引続き出力するために記録される。ブロック64から、流れは上に説明したよう にブロック52に進む。The cumulative distance for the most recently processed arc so far processed for that node. If the information is found to be the best, flow proceeds to block 64 where this information is record information. At block 64, the cumulative distance and distance corresponding to the arc processed above are determined. The link pointer is the current cumulative distance to the node in the grammar model in the node table. Recorded as separated and current links. In addition, the word number representing the template, Or a symbol is recorded. The word number will indicate the word if it is later confirmed as recognized. Recorded for subsequent output. From block 64, the flow is as described above. Then proceed to block 52.
ブロック54で、そのノードで終るすべてのアークが処理されたことが示されれ ば、流れは第5C図のブロック68に進む。第5c図で、ブロック68から74 まではリンク・レコードをトリーに加えるべかき否かを確認し、もし加えるべき である場合には、リンク・レコードがリンク・アレイを通してトリーに加えられ る。Block 54 indicates that all arcs ending at that node have been processed. If so, flow continues to block 68 of FIG. 5C. In Figure 5c, blocks 68 to 74 Check whether a linked record should be added to the tree until , the linked record is added to the tree through the linked array. Ru.
ブロック68で、文法モデルのノードがアクティブであるか確認する試験が行わ れる。ノードがアクティブになっていることができる唯一の態様は、そのノード に対して処理された少なくとも1つの単語テンプレートが現在の入力フレームに 対して単語終端である可能性がある場合である。At block 68, a test is performed to see if the node in the grammar model is active. It will be done. The only way a node can be active is when that node At least one word template processed for is in the current input frame On the other hand, there is a possibility that it is the end of a word.
ノードがインアクティブである場合には、流れは第5a図のブロック40に進み 、現在フレームに対して処理する他のノードを探す。それ以外の場合は、流れは ブロック70に進む。If the node is inactive, flow continues to block 40 of FIG. 5a. , find other nodes to process on the current frame. Otherwise, the flow is Proceed to block 70.
ブロック70で、そのノードで終る最良アークが対応する単語テンプレートを備 えているか否かを確認する試験が行われる。ある例では、無音テンプレートのよ うな別種のテンプレートであってもよく、あるいは無効アークであってもよい。At block 70, the best arc ending at that node is equipped with a corresponding word template. A test will be conducted to confirm whether the In some cases, like the silent template. It may be a different type of template, such as a template, or it may be an invalid arc.
この場合には流れは第5a図のブロック40に進む。無音テンプレートは、典型 的には認識されているような無音を出力する必要がないから、トリーには加えら れない。そのノードで終る最良のアークが単語テンプレートを表わしている場合 には、LINKサブルーチン(第6図)が呼出されてリンク・レコードをトリー 図に加える。そのテンプレートのリンク・レコードに対応するリンク・ポインタ とテンプレートを表わす単語番号とを示すパラメータはLINKサブルーチンに 送られる。In this case, flow continues to block 40 of Figure 5a. The silent template is typical Since there is no need to output silence that is recognized as such, it is not added to the tree. Not possible. If the best arc ending at that node represents a word template The LINK subroutine (Figure 6) is called to read the link record. Add to diagram. the link pointer corresponding to that template's link record and the word number representing the template are sent to the LINK subroutine. Sent.
以下に説明するように、リンク・レコードが加えられてから、新しいリンク・ポ インタがLINKから戻される。After a link record is added, a new link point is added, as described below. Inter is returned from LINK.
ブロック74で、文法モデルのノードに対する現行リンク・ポインタがLINK から送られたリンク・ポインタにセットされる。At block 74, the current link pointer for the node of the grammar model is set to LINK. Set to the link pointer sent from.
ブロック74に続いて、流れは第5a図のブロック40に進み、文法トリーのす べてのノードが現在の入力フレームに対して処理されてしまったかチェックする 。Following block 74, flow continues to block 40 of Figure 5a, where all grammar trees are check if all nodes have been processed for the current input frame .
リンクのトリーへの付加 今度は第6図を参照すると、先に説明したようにこのサブルーチンはリンク・レ コードをリンク・アレイで規定されたようにトリー図に追加する。サブルーチン に送られるパラメータはそこから加えられるトリー〇ノードに対応する単語番号 とリンク・ポインタとである。Adding links to the tree Referring now to Figure 6, as explained earlier, this subroutine Add code to the tree diagram as specified by the link array. subroutine The parameter sent to is the word number corresponding to the tree node added from there. and a link pointer.
ブロック78で、自由リンク・レコードが存在するか否かを確認する試験が行わ れる。これはFREEと0とを比較することにより行われる。FREEが0に等 しければ、もはや自由リンク争レコードは存在しない。上に説明したが、リンク ・アレイ内のレコードは、L−PTRアレイで互いにチェインされており、自由 リンク・レコードと設定リンク・レコードとから構成されている。自由リンク・ レコードは別のリンク・レコードをトリー図に追加できるようにする。したがっ て、自由リンク・レコードが存在しなければ、すべてのリンク・レコードは使用 されており、流れはブロック80に進んでエラーが報告され、システムがリセッ トされる。ブロック80のこのステップはリンク・テーブルをオーバフローさせ るおそれのある異常状態から保護するときにのみ使用することに注意すべきであ る。正常状態では、本発明は適当な長さのリンク・テーブルを使用して自由リン ク・レコードがなくならないようにしている。At block 78, a test is performed to determine if a free link record exists. It will be done. This is done by comparing FREE to 0. FREE equals 0 If so, the free link competition record no longer exists. As explained above, link ・Records in the array are chained together in the L-PTR array and are free It consists of a link record and a setting link record. Free link/ The record allows another linked record to be added to the tree diagram. Therefore If no free link records exist, all link records are used. has been reset, flow continues to block 80 where an error is reported and the system is reset. will be played. This step in block 80 causes the link table to overflow. It should be noted that they should only be used to protect against abnormal conditions that may cause Ru. Under normal conditions, the invention uses a link table of appropriate length to perform free linking. I'm trying not to run out of records.
1つ以上の自由リンク・レコードがあれば、流れはブロック82に進み、次の利 用可能なリンク・レコードが自由リストから取出され、HEADおよびFREE のポインタを更新することにより設定リストの最上部、すなわち始まりに挿入さ れる。FREEは次の自由レコードのインデックス(index)を指すように セットされ、HEADは丁度加えられたばかりのリンク会レコードを指すように セットされる。新しいrHE A DJリンク・レコードのL−JPTRは新し いレコードを設定リストにチェインする、前の「HEADJリンク争レコードを 指すようにセットされる。If there is one or more free link records, flow continues to block 82 where the next The available link records are retrieved from the free list and set to HEAD and FREE. is inserted at the top of the configuration list, i.e. at the beginning, by updating the pointer of It will be done. FREE points to the index of the next free record. set and HEAD points to the link meeting record that was just added. Set. New rHE A DJ link record L-JPTR is new Chain the new record to the settings list. set to point.
ブロック86では、HEADは設定リストに丁度加えられたばかりのリンク・レ コードを指すので、このサブルーチンに送られた単語番号がL −WORDアレ イに新しいレコードとして記録される。また、このサブルーチンに送られたリン ク・ポインタはL−BACKアレイにリンク・レコードとして記録される。At block 86, the HEAD selects the link record just added to the configuration list. code, so the word number sent to this subroutine is the L-WORD array. recorded as a new record. Also, the link sent to this subroutine The link pointer is recorded in the L-BACK array as a link record.
ブロック88で現在の入力フレームにトレースバックが必要であるか否かを確認 する試験が行われる。必要であれば、流れはブロック90に進み、新しく加えら れたリンク・レコードにアクティブの印が付く。これはそのレコードのL−AC Tアレイを1に等しくセットすることにより行われる。現在の入力フレームに対 してトレースバックが必要でなければ、サブルーチンは終り、流れは第5C図の ブロック74に戻る。Block 88 checks whether a traceback is required for the current input frame A test will be conducted. If necessary, flow continues to block 90 to add new The linked record that was added is marked active. This is the L-AC of that record This is done by setting the T array equal to one. for the current input frame. If traceback is not required, the subroutine ends and the flow continues as shown in Figure 5C. Return to block 74.
トリーを通るトレーシング・バック 今度は第7a図から第7d図までを参照すると、トレースバック・サブルーチン 、すなわち、第5a図のブロック44が詳細に示されている。トレースバック・ サブルーチンはトリー図を通して可能性のある合致として特定されている単語を 探し、合致の一義性(uniqueness)にあいまいさくambiguit y)があるか否か確認する。一義的に特定されている単語は認識システムから2 2された単語として出力される。更に、トレースバック・サブルーチンは死んだ すべてのリンク・レコード、すなわち、もはや可能性ある合致として考察してい ないレコードを自由リストに取出し、メモリを将来のリンク・レコードに利用で きるようにする。tracing back through tree Referring now to Figures 7a through 7d, the traceback subroutine , block 44 of FIG. 5a is shown in detail. Traceback The subroutine searches through the tree diagram for words that have been identified as possible matches. ambiguit, ambiguous about the uniqueness of the match Check whether y) exists. Words that are uniquely identified are recognized by the recognition system as 2 It is output as a 2 word. Furthermore, the traceback subroutine is dead All linked records, i.e., are no longer considered as possible matches. records that are not available in the free list, freeing up memory for future linked records. make it possible to do so.
トレースバックに入る前に、L−ACTが上述のようにすべてのアクティブ・リ ンク・レコードに対してセットされる、すなわちフラグが掲げられる。トレース バックのはじめに、アクティブ・リンク・レコードはトリーを通るまだ考察中の すべてのパスの終りを表わす。トレースバックの基本概念はトリーを通してすべ てのアクティブ・パスの終り(はじめにL−ACTアレイにより印がつけられて いる)から「トレー・スパックしてすべてのアクティブ・パスがどこで会合する かを見つけることである。すべてのアクティブ・パスに共通なトリーの部分は明 確な部分パスを表わし識されているとして出力することができる。トレースバッ ク中、L−FWRDアレイは部分パスを順方向に(トリーの終りの方に向って) チェインするのに使用される。これら部分バスが形成されるにつれて各部分バス の基本ノードがL−ACTアレイを経由してアクティブとされる。部分バスを( L−BACK情報を使用して)現行ノードから既にアクティブと記されている前 のノードに拡張しようとすると、1つ以上の可能なパスがこの前のノードから発 生して両ノードからの部分バスが削除される(順方向ポインタΦチェイン(L− FWRD)が0にリセットする)。アクティブと記されているすべてのノードは このような仕方で処理される。ノード処理の順序はリンク・レコードがリンク・ テーブルに追加された時間の順序とは反対の順序である。この順序は設定リスト の構造に固有のものである。処理される最後のノードはトリーのルート(roo t)・ノードである。この点でそのノードから出る順方向チェイン(部分バス) は明確な部分バスを表わしており、対応する認識された単語が出力される。トレ ースバック手順はまたL−FWRDおよびL−ACTアレイが0へのリセットを 完了したら直ちにそれ自身「掃除する(cleans up) J。更に、アク ティブ争パス上にないすべてのリンク・レコードは、既に出力されている明確な 部分パス上のリンク・レコードとともに、自由リストに戻される。Before entering the traceback, L-ACT checks all active resources as described above. flag is set or flagged for the link record. trace At the beginning of the back, active link records are still being considered through the tree. Represents the end of all paths. The basic concept of traceback is to end of active path (first marked by L-ACT array) ) to ``tray-spack'' to see where all active paths meet. It's about finding out. The parts of the tree that are common to all active paths are The exact partial path can be represented and output as known. traceback During the process, the L-FWRD array moves the partial path in the forward direction (towards the end of the tree). Used to chain. Each partial bus as these partial buses are formed. The elementary nodes of are made active via the L-ACT array. Partial bus ( Previously marked as active from the current node (using L-BACK information) If you try to expand to a node, one or more possible paths originate from this previous node. The partial buses from both nodes are deleted (forward pointer Φ chain (L- FWRD) is reset to 0). All nodes marked as active are It is processed in this way. The order of node processing is This is the opposite order of the times they were added to the table. This order is set list is specific to the structure of The last node processed is the root of the tree (roo t)-node. the forward chain (partial bus) leaving that node at this point represents a distinct partial bus, and the corresponding recognized word is output. training The reset back procedure also causes the L-FWRD and L-ACT arrays to reset to zero. Immediately after completion, it “cleans up” itself. All link records that are not on the active contention path are explicitly Returned to the free list along with link records on the partial path.
トレースバック・サブルーチンを詳細に説明する前に、図示例に入るのが役に立 つであろう。第8図を参照すると、図Aでは、トリーはトレースバックの前に示 されており、アクティブ・リンク会レコード、すなわち、アクティブ単語リンク が出ているリンクはリンクの右側に太い点で記しである。トレースバックの第1 のステップは丁度良い時期に加えられた最も最近のアクティブ・リンク・レコー ド、この場合は25と記したノード、を確定することである。Before explaining the traceback subroutine in detail, it may be helpful to go through an illustrated example. Probably one. Referring to Figure 8, in Figure A the tree is shown before the traceback. active link records, i.e. active word links Links that appear are marked with a thick dot on the right side of the link. 1st traceback The step is the most recent active link record added at just the right time. node, in this case the node marked 25.
トリーのこのノードの直前にアクティブ・ノードが存在するか確認する試験が行 われる。存在すれば、この例でノード25を経由するかまたはノード21を経由 するというように、どのパスがノード21に戻るかに関してあいまいさが存在す る。あいまいさが生ずるとあいまいなノードに対する順方向ポインタがそのチェ インされた順方向ポインタを、もし存在すれば、取除く。これは各後続のリンク ・レコードに対してL−FWRDアレイに0を挿入することによって行われる。A test is performed to see if there is an active node immediately before this node in the tree. be exposed. If it exists, it will be routed through node 25 or node 21 in this example. There is an ambiguity as to which path returns to node 21, such that Ru. When an ambiguity occurs, the forward pointer to the ambiguous node is Removes the forward pointer that was inserted, if it exists. This is for each subsequent link - Done by inserting a 0 into the L-FWRD array for the record.
この例では、どのノードにも順方向ポインタがない。すなわちL−FWRD−0 である。In this example, there are no forward pointers for any nodes. That is, L-FWRD-0 It is.
次の最も最近加えられたアクティブ・リンク・レコードが特定される(ノード2 4)。ノード24の先行リンクもノード21であり、上述のノード25の処理と 同様に処理される。The next most recently added active link record is identified (node 2 4). The preceding link of node 24 is also node 21, and the processing of node 25 described above is performed. Processed similarly.
次の最も最近加えられたアクティブ・ノードはノード23である。このノードに はアクティブな先行ノードがないので、トレースバック量プロセスは先行ノード をアクティブとし、現在処理しているノード、ノード23、に等しい、先行ノー ド、ノード19、の順方向ポインタ(L−FWRD)を記録する。図Bはノード 23を処理した後の図Aを示しており、ノード19に加えられた順方向ポインタ を太線で描いである。各ノードが処理されたら、それがアクティブ・ノードであ ることを示しているそのL−ACTエントリが取除かれる。したがって、トリー 図Bはもはやノード23.24、および25をアクティブと描いていない。The next most recently added active node is node 23. to this node Since there is no active predecessor node, the traceback amount process is is active and the preceding node is equal to the node currently being processed, node 23. The forward direction pointer (L-FWRD) of node 19 is recorded. Diagram B is a node Figure A is shown after processing 23 and the forward pointer added to node 19. is drawn with a thick line. After each node is processed, it becomes the active node. The L-ACT entry indicating that the Therefore, the tree Diagram B no longer depicts nodes 23, 24, and 25 as active.
ノード22はアクティブ・ノードを備えている、次に最も最近加えられたエント リである。これにはアクティブな先行ノードがない。したがって、ノード23に 対して行ったように、ノード18の順方向ポインタがノード22に等しくセット され、ノード18にアクティブの印が付けられ。Node 22 comprises the active node, the next most recently added entry. It is li. It has no active predecessor nodes. Therefore, at node 23 As we did for node 18, the forward pointer is set equal to node 22. and node 18 is marked active.
る。図Cはノード22を処理した後のトリーを示す。Ru. Diagram C shows the tree after processing node 22.
ノード21は、図りに示すように、その先行ノードがアクティブでないので、ノ ード22と同様に処理される。Node 21, as shown in the diagram, is active because its predecessor node is not active. It is processed in the same way as code 22.
ノード20は次に処理されるべきアクティブ・ノードである。ノード20に先行 するノードはアクティブであり、これはあいまいさを示す。あいまいさが生ずる と、あいまいさのノード、この場合ノード18と20、に対する順方向ポインタ はその順方向ポインタ・チェインが解かれる。Node 20 is the next active node to be processed. Precedent node 20 is active, indicating ambiguity. Ambiguity arises and forward pointers to the nodes of ambiguity, in this case nodes 18 and 20. has its forward pointer chain unraveled.
この例ではノード18にだけ順方向ポインタがある。ノード18の後に太線で示 したように、ノード18に対する順方向ポインタはノード22と等しくセットさ れている。したがって、図Eで、ノード18の順方向ポインタを0に等しくセッ トすることにより、太線が除去される。In this example, only node 18 has a forward pointer. Indicated by a thick line after node 18 As before, the forward pointer for node 18 is set equal to node 22. It is. Therefore, in Figure E, we set the forward pointer of node 18 equal to 0. By doing so, the thick lines are removed.
ノード19は次に最も最近加えられた、アクティブ・ノードを備えているエント リである。その先行ノードはアクティブであるから、図Fに示すように、あいま いさによって両ノード16および19に対する順方向ポインタ・チェインを外さ なければならない。Node 19 is the next most recently added entry with an active node. It is li. Since its predecessor is active, the ambiguous The forward pointer chain for both nodes 16 and 19 is removed due to the There must be.
ノード18が次に処理される。その先行ノード、16、はアクティブであるが、 ノード16または18はいずれも順方向ポインタを備えていないので、ノードの アクティビティを示す太い点を除去すること以外何らの処置も取られない。Node 18 is processed next. Its predecessor node, 16, is active, but Since neither node 16 or 18 has a forward pointer, the No action is taken other than removing the thick dots that indicate activity.
次のアクティブ・ノードはノード16であり、これの先行ノードはアクティブで ない。この場合には、トレースバック・プロセスは先行ノードをアクティブとし 、現在処理されているノード、ノード16、に等しい、先行ノード、ノード13 、に対する順方向ポインタを記録する。図Gはノード16を処理した後のトリー 図Aを示す。The next active node is node 16, whose predecessor nodes are active do not have. In this case, the traceback process makes the predecessor node active. , the predecessor node, node 13, is equal to the currently processed node, node 16 , record the forward pointer to . Figure G shows the tree after processing node 16. Figure A is shown.
ノード13はノード16と同様に処理される。したがって、図Hではトリーはノ ード11だけをアクティブと記して示してあり、ノード11と13とに対する順 方向ポインタだけが残っている。Node 13 is treated similarly to node 16. Therefore, in Figure H, the tree is Only node 11 is shown marked as active; the order for nodes 11 and 13 is Only the direction pointer remains.
一旦トレースバック・プロセスが、先行する他のノードが無いトリーのルート・ ノード(ノード11)に到達すれば、順方向ポインタを通してチェインした単語 を認識単語として出力する。これはチェインされた順方向ポインタを備えている リンク・レコードをL−FWRD内でルート・ノードから出発して引続き探すこ とにより行われる。図1で示すように、そのそれぞれのL−WORDアレイにr eight Jおよびr「1veJを記録するリンク・レコードを出力する。そ の他、図Hで、ノード11と16との間のリンクを表わすリンク・レコードが設 定リストから除去され、L−PTRアレイおよびFREEポインタで示したよう に、自由リストにリンクされる。この時点でのトリーの新しいルート・ノードは ノード16である。残りのトリーは図Iに示してあり、これは別の入力フレーム が処理されるとき、すなわち、流れが認識流れ図の第5a図のブロック46に戻 る場合に使用される。Once the traceback process has reached the root of the tree with no other nodes ahead of it, When the node (node 11) is reached, the word chained through the forward pointer Output as a recognized word. This has a chained forward pointer Continue searching for link records in L-FWRD starting from the root node. This is done by As shown in Figure 1, r eight J and r "Output a link record that records 1veJ. Additionally, in Figure H, a link record representing the link between nodes 11 and 16 is set. removed from the fixed list, as shown by the L-PTR array and the FREE pointer. will be linked to the free list. The new root node of the tree at this point is This is node 16. The remaining tree is shown in Figure I, which represents another input frame. is processed, i.e., flow returns to block 46 of Figure 5a of the recognition flow diagram. Used when
今度は第7a〜7d図を参照してトレースバック流れ図を詳細に説明することに する。第7a図で、リンク・テーブルから最も最近加えられたアクティブである リンク・レコードを探す。ブロック94で、リンク・テーブルの最初のレコード が設定レコード・リスト内の唯一のレコードであるか否かを確認する試験が行わ れる。これはHE A D Eより指示されているL−PTRアレイのインデッ クスを探すことによって行われる。前述のとおり、HE A Dは最も最近加え られたリンク・レコードのインデックスを備えている。HEADに対応するL− PTRエントリがOに等、しければ、チェインは終結し、テーブルの中には他に レコードがない。この場合には、流れはブロック96に進み、対応するL−AC Tエントリがインアクティブに設定される。The traceback flowchart will now be explained in detail with reference to Figures 7a to 7d. do. In Figure 7a, the most recently added active from the link table is Find link records. At block 94, the first record of the link table is the only record in the configuration record list. It will be done. This is the index of the L-PTR array instructed by HE ADD. This is done by looking for Kusu. As mentioned above, HEAD is the most recently added Contains an index of linked records. L- corresponding to HEAD If the PTR entry is equal to O, the chain is terminated and there are no other entries in the table. There are no records. In this case, flow proceeds to block 96 where the corresponding L-AC T entry is set to inactive.
ブロック96から、サブルーチンは認識流れ図の第5a図のブロック46に戻る 。From block 96, the subroutine returns to block 46 of FIG. 5a of the recognition flow diagram. .
テーブルの中に別のリンク・レコードが存在する場合には、ブロック98で最初 のリンク・レコードがアクティブであるか確認する試験が行われる。その対応す るL−ACTエントリが0に等しくなければリンク・レコードはアクティブであ る。If another link record exists in the table, block 98 A test is performed to see if the link record for is active. The corresponding A link record is active if its L-ACT entry is not equal to 0. Ru.
リンク・レコードがアクティブであれば、流れはブロック100に進む。ブロッ ク100で、リンク・レコードが既に考慮に入れられてしまっていることを示す には、リンク・レコードをインアクティブに設定する。次に流れはブロック11 0に進み、HEADで指示されたレコードがテンポラリ・ポインタPTHに格納 される。ブロック110から、流れは、引続き説明するが、ブロック120に進 む。If the link record is active, flow continues to block 100. Block check 100 indicates that the link record has already been taken into account. , set the linked record to inactive. Next, the flow is block 11 Go to 0 and store the record pointed to by HEAD in temporary pointer PTH. be done. From block 110, flow continues to block 120, as will be described. nothing.
最初のリンク・レコードがインアクティブに戻ってしまえば、流れはブロック9 8からブロック112に進む。ブロック112で、L−PTRはアクティブ・リ ンク・レコードが見つかるまで動き回り、アクティブ・リンク・レコードが見つ かると、そのアクティブ・レコードに対するインゲン、クスがPTRに格納され る。ブロック114で、アクティブのインジケータがクリアされ、ブロック10 0で行ったと同様に、そのリンク・レコードに対する処理を示す。Once the first link record returns to inactive, the flow continues at block 9 8, proceed to block 112. At block 112, the L-PTR Move around until you find a link record, and then move around until you find an active link record. Then, the green beans and sour beans for that active record are stored in the PTR. Ru. At block 114, the active indicator is cleared and at block 10 0, the processing for that link record is shown.
ブロック116で、ポインタHEADとPTRとの間で示されたように、インア クティブであるとわかったリンク・レコードが将来の使用のため自由リストに戻 される。At block 116, the inner Link records found to be active are returned to the free list for future use. be done.
ブロック118で、リンク・テーブル内に更にリンクがあるか確認する試験が行 われる。この試験は上のブロック94で行われた試験と同じである。At block 118, a test is performed to see if there are more links in the link table. be exposed. This test is the same as the test performed in block 94 above.
設定リスト内にもはやリンク・レコードが存在しなければ、サブルーチンは認識 流れ図に第5a図のブロック46で戻る。If there are no more linked records in the configuration list, the subroutine is recognized. The flow diagram returns to block 46 of FIG. 5a.
ブロック120で現行リンクに先行するリンク(ノード)がインアクティブであ るか否かを確認する試験が行われる。Block 120 indicates that the link (node) preceding the current link is inactive. A test will be conducted to confirm whether the
これは現行リンク・レコードのバック・ポインタを探し、その対応するL−AC Tエントリを探すことにより行われる。先行ノードがアクティブであれば、流れ は第7b図のブロック124に進み、先に説明したあいまいさの問題を処理する 。先行ノードがインアクティブであれば、流れは第7c図のブロック142に進 む。This looks for the back pointer of the current link record and its corresponding L-AC This is done by looking for T entries. If the predecessor node is active, the flow proceeds to block 124 of FIG. 7b to handle the ambiguity problem discussed above. . If the predecessor node is inactive, flow continues to block 142 of Figure 7c. nothing.
今度は第7b図を参照すると、ここのステップは、先行ノードがなお合致につい て考察中のノードから発生する2つ以上のリンク・レコードがある可能性のある ことを示しているとき、あいまいさを処理する。この状態はアクティブ・ノード に先行するノードもアクティブであるときに起る。リンク・レコード・データを 操作するため第7b図で3つのテンポラリ・ポインタ(TMPI、TMP2およ びPTR)を使用する。ブロック121のステップは順方向ポインタ・チェイン を前のリンクから取外す。このステップにはブロック124.126.128、 および130が含まれている。第7b図にはPTRが現在処理されているノード 、あるいはリンク・レコードを指示した状態で入る。Referring now to Figure 7b, the steps here are There may be more than one link record originating from the node under consideration. Handle ambiguity when indicating that This state is an active node Occurs when the node preceding it is also active. link record data Three temporary pointers (TMPI, TMP2 and and PTR). The step in block 121 is a forward pointer chain. Remove from previous link. This step includes blocks 124.126.128, and 130 are included. Figure 7b shows the node where the PTR is currently being processed. , or enter with a link record pointed to.
リンクQレコードに対応するL−BACKエントリは、上述のように、現在処理 されているノードの直前のノードを指している。リンク・レコードに関連するL −FWRDエントリは可能性のある子孫リンク・レコードだけを指示する。The L-BACK entry corresponding to the link Q record is currently being processed as described above. Points to the node immediately before the node being displayed. L related to link record -FWRD entries point only to possible descendant link records.
ブロック124で、現行アクティブ・ノードの直前のノードを指すポインタがT MPIに格納される。ブロック126で、先行ノードの、L−FWRDにより指 示された子孫リンク・レコードがTMP2に格納される。At block 124, a pointer to the node immediately preceding the current active node is Stored in MPI. At block 126, the predecessor node's The indicated descendant link record is stored in TMP2.
ブロック128で、TMP2で指示されたノードが実、際のL−FWRDエント リを備えているか、あるいはそれが0にセットされているかを確認する試験が行 われる。TMP2で指示されたノードが順方向ポインタを備えていれば(L−F WRDが0に等しくなければ)、流れはブロック130に進み、そのノードに対 する順方向ポインタが除去される。ブロック130で、TMP2の内容もTMP Iに移動し、これにより現行ノードの参照が一時的にTMP2により指示されて いるノードに移動し、次いで、ブロック126から始まって、上記のステップが 後続のノードに対して、順方向チェイン内に、ブロック128で示したように、 順方向チェモレ終りを示す順方向ポインタを持たないノードが見つかるまで、繰 返される。At block 128, the node indicated by TMP2 determines whether the actual L-FWRD entry is A test is performed to verify that the be exposed. If the node pointed to by TMP2 has a forward pointer (L-F if WRD is not equal to 0), flow continues to block 130 where the The forward pointer that points to is removed. At block 130, the contents of TMP2 are also TMP I, which causes the current node reference to be temporarily directed by TMP2. , and then, starting at block 126, the above steps are performed. For subsequent nodes, in the forward chain, as indicated by block 128, Iterate until a node is found that does not have a forward pointer indicating the end of the forward chemole. returned.
ブロック122のステップは、PTRで示されているように、現行リンクから順 方向ポインタ・チェインを除去する。ブロック132で、現行リンク・レコード ・ポインタPTRがTMPIに格納される。ブロック134で、そのリンク・レ コードに対するL−FWRDエントリがT M P2に格納される。ブロック1 36で、上のブロック128で行われたように、このリンク・レコードに対する 順方向ポインタが存在するか確認する試験が行われる。このリンク・レコードに 対する順方向ポインタが存在すれば、流れはブロック138に進み、ここで順方 向ポインタが除去され、子孫ノードが、その順方向ポインタをも同様に除去する ため、TMPIに格納される。ブロック134から始めて、上のステップは、現 行ノードからチェインされている順方向ポインタがすべて削除されるまで繰返さ れる。次に、ブロック136から、流れは第6C図のブロック144に進み、次 のアクティブ・リンク・レコードを処理する。The steps in block 122 start with the current link, as indicated by PTR. Remove directional pointer chain. At block 132, the current link record - Pointer PTR is stored in TMPI. At block 134, the link record is The L-FWRD entry for the code is stored in TMP2. block 1 36, for this link record as done in block 128 above. A test is made to see if a forward pointer exists. to this link record If a forward pointer exists for the forward pointer, flow continues to block 138 where the forward The forward pointer is removed, and the descendant node removes its forward pointer as well. Therefore, it is stored in TMPI. Starting at block 134, the above steps Repeats until all forward pointers chained from the row node are removed. It will be done. From block 136, flow then proceeds to block 144 of FIG. Process active link records.
第7a図のブロック120に戻って参照すると、現行ノードに先行するノードが インアクティブである場合には、流れは第7c図のブロック142に進む。これ について説明する。Referring back to block 120 of FIG. 7a, the node preceding the current node is If so, flow continues to block 142 of Figure 7c. this I will explain about it.
第7c図のブロック142では、先行ノード(リンク・レコード)がインアクテ ィブであるとわかっているので、二〇ノードがアクティブにセットされ、その順 方向ポインタが現行リンク・レコードを指すようにセットされる。ブロック14 4で、現行リンク・レコードから始めて、次のアクティブ・リンク・レコードが 見つかり、PTRがこのレコードを指すようにセットされ、新しい現行リンクレ コードを示すようになるまでテーブルが捜索される。ブロック146で、ブロッ ク144のステップ中に遭遇したすべてのインアクティブ・レコードが、L−P TRアレイ中の適切なエントリを修正することにより、自由リストに戻される。In block 142 of Figure 7c, the predecessor node (link record) is inactive. 20 nodes are set active, and in that order A direction pointer is set to point to the current link record. Block 14 4, starting from the current link record, the next active link record is found, the PTR is set to point to this record, and a new current link record is created. The table is searched until a code is found. At block 146, the block All inactive records encountered during step 144 are stored in the L-P It is returned to the free list by modifying the appropriate entry in the TR array.
ブロック148で、新しいノードがインアクティブにセットされて、第7a図の ブロック100および114で行われたと同扛に、そのノードが既に考慮に入れ られていることを示す。At block 148, the new node is set to inactive, as shown in FIG. 7a. In the same way as was done in blocks 100 and 114, the node is already taken into account. Indicates that the
ブロック152でこの新しいリンク・レコードがチェインの最後であるか否かを 確認する試験が行われる。最後である場合には、すべてのリンク・レコードが処 理されてしまっており、流れは第7d図のブロック156に進んでトレースバッ ク・プロセス中に認識された単語を出力する。Block 152 determines whether this new link record is the last in the chain. Tests will be conducted to confirm this. If last, all link records are processed. 7d, flow continues to block 156 of Figure 7d to write the traceback. Outputs the words recognized during the checking process.
この新しいリンク・レコードがチェインの最後でなければ、流れは更に処理する ため第7a図のブロック120に進む。If this new link record is not the last in the chain, the flow continues processing Therefore, proceed to block 120 of FIG. 7a.
今度は第7d図を参照すると、ブロック156で現行リンク・レコードのインデ ックスが、これはトリーのルート・ノードであるが、TMPlに格納される。ブ ロック158で、現行ノードの順方向ポインタによって表わされているノード( リンク・レコード)がTMP2に格納される。Referring now to FIG. 7d, block 156 sets the index of the current link record. The box, which is the root node of the tree, is stored in TMPl. Bu At lock 158, the node represented by the current node's forward pointer ( link record) is stored in TMP2.
たとえば、第8図の図Hを参照すると、TMPlは11(ノード11)を含んで おり、TMP2は13(ノード13)を含んでいる。For example, referring to Figure H in Figure 8, TMPl includes 11 (node 11). Therefore, TMP2 includes 13 (node 13).
ブロック160で、TMPIに格納されているノードからの子孫となる順方向ポ インタが存在するか確認する試験が行われる。これはTMP2の内容と0とを比 較して行われる。存在すれば、流れはブロック162に進み、現行ノードに対す る順方向ポインタが除去され、現行ノードが、TMP2に格納されている現行ノ ードの順方向ポインタによって示されているように、順方向チェイン内の次のノ ードまで持ち上げられる。ブロック164で、現行リンク・レコードに関連する 単語が認識された単語として出力される。ブロック158から始まって、上記の ステップは、順方向ポインタ・チェインの各リンク・レコードが、認識された単 語としてその関連単語を備えるようになるまで、繰返される。ブロック160で のステップ中、順方向ポインタを備えていない子孫リンク・レコードが見つかる が、この場合には、流れはブロック168に進み、TMPlおよびPTRO間に 示されているように、すべての死んだリンク・レコードが自由リストに戻される 。その他に、ブロック168でL−PTRアレイがPTRにより現在指示されて いる新しい基底(base)ノードに対するL−PTRエントリをOにセットす ることにより更新される。このレコード内の0はトリーのルート(root)と リンク・レコードの設定リストの終りとを示す。ブロック168で、トレースバ ックは完了し、流れは第5a図のブロック46に進む。At block 160, the forward point that is a descendant from the node stored in the TMPI is A test is performed to check if the interface exists. This compares the contents of TMP2 and 0. This is done by comparing. If so, flow continues to block 162 where the The forward pointer stored in TMP2 is removed and the current node is changed to the current node stored in TMP2. the next node in the forward chain, as indicated by the forward pointer of the be lifted up to the board. At block 164, associated with the current link record The word is output as a recognized word. Starting at block 158, the above A step is a process in which each link record in a forward pointer chain is It is repeated until the related word is included as a word. in block 160 During the step, a descendant link record is found that does not have a forward pointer. However, in this case, flow proceeds to block 168 where the flow is transferred between TMPL and PTRO. All dead link records are returned to the free list as shown . Additionally, block 168 determines whether the L-PTR array is currently pointed to by the PTR. Set the L-PTR entry for the new base node to O. It is updated by 0 in this record is the root of the tree. Indicates the end of the link record settings list. At block 168, the tracebar The check is complete and flow continues to block 46 of Figure 5a.
本発明はしたがって連続音声認識のための新しいかつ改良されたシステムと方法 とを提供する。本発明は効率的に様式化した上述の流れ図により説明したように 簡単かつ安価な8ビツトのプロセッサで実時間認工を行うように簡単に実現する ことができる。本発明は更に入力フレームを処理するとき最小限の数のリンク・ レコードだけを格納すればよいようなすぐれたメモリ管理法を提供する。The present invention therefore provides a new and improved system and method for continuous speech recognition. and provide. As illustrated by the above-described flowcharts, the present invention is efficiently stylized. Easily implement real-time verification using a simple and inexpensive 8-bit processor be able to. The present invention further provides a method for minimizing the number of links when processing an input frame. Provides an excellent memory management method that only requires storing records.
本発明について特に好ましい実施例を参照して図示し、説明したが、当業者には 上述の本発明に対しその精神および範囲を逸脱することなく各種修正および変更 を行い得ることが理解されるであろう。Although the invention has been illustrated and described with reference to particularly preferred embodiments, those skilled in the art will appreciate that the invention Various modifications and changes may be made to the invention described above without departing from its spirit and scope. It will be understood that this can be done.
国際調査報告international search report
Claims (68)
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US1986/001222 WO1987007748A1 (en) | 1986-06-02 | 1986-06-02 | Continuous speech recognition system |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH01502610A true JPH01502610A (en) | 1989-09-07 |
Family
ID=22195540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP50337286A Pending JPH01502610A (en) | 1986-06-02 | 1986-06-02 | Continuous speech recognition system |
Country Status (3)
Country | Link |
---|---|
JP (1) | JPH01502610A (en) |
CA (1) | CA1336017C (en) |
WO (1) | WO1987007748A1 (en) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62275300A (en) * | 1986-05-16 | 1987-11-30 | 沖電気工業株式会社 | Continuous voice recognition |
-
1986
- 1986-06-02 JP JP50337286A patent/JPH01502610A/en active Pending
- 1986-06-02 WO PCT/US1986/001222 patent/WO1987007748A1/en unknown
-
1987
- 1987-06-01 CA CA000538502A patent/CA1336017C/en not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62275300A (en) * | 1986-05-16 | 1987-11-30 | 沖電気工業株式会社 | Continuous voice recognition |
Also Published As
Publication number | Publication date |
---|---|
WO1987007748A1 (en) | 1987-12-17 |
CA1336017C (en) | 1995-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH01502611A (en) | Continuous speech recognition system | |
Soong et al. | A Tree. Trellis based fast search for finding the n best sentence hypotheses in continuous speech recognition | |
JP2739945B2 (en) | Voice recognition method | |
KR100312920B1 (en) | Method and apparatus for connected speech recognition | |
JP5409931B2 (en) | Voice recognition device and navigation device | |
US5987409A (en) | Method of and apparatus for deriving a plurality of sequences of words from a speech signal | |
EP0573553A1 (en) | Method for recognizing speech using linguistically-motivated hidden markov models | |
WO2005103951A1 (en) | Tree index based method for accessing automatic directory | |
JPS63259697A (en) | Voice recognition | |
JP3834169B2 (en) | Continuous speech recognition apparatus and recording medium | |
JPH0583918B2 (en) | ||
WO2004049240A1 (en) | Method and device for determining and outputting the similarity between two data strings | |
US6507815B1 (en) | Speech recognition apparatus and method | |
EP0248377B1 (en) | Continuous speech recognition system | |
JP2841404B2 (en) | Continuous speech recognition device | |
Ney | A comparative study of two search strategies for connected word recognition: Dynamic programming and heuristic search | |
JPH01502610A (en) | Continuous speech recognition system | |
JP3440840B2 (en) | Voice recognition method and apparatus | |
JP3265864B2 (en) | Voice recognition device | |
KR101095864B1 (en) | Apparatus and method for generating N-best hypothesis based on confusion matrix and confidence measure in speech recognition of connected Digits | |
JP3059207B2 (en) | Network creation device | |
JP3818154B2 (en) | Speech recognition method | |
JPH09244688A (en) | Speech recognizing method | |
JPH0720891A (en) | Method for detection of best path through probable network in order to recognize, especially, voice and image | |
Wang | DTW and Search |