JPH09212191A - Speech recognition system - Google Patents

Speech recognition system

Info

Publication number
JPH09212191A
JPH09212191A JP8017974A JP1797496A JPH09212191A JP H09212191 A JPH09212191 A JP H09212191A JP 8017974 A JP8017974 A JP 8017974A JP 1797496 A JP1797496 A JP 1797496A JP H09212191 A JPH09212191 A JP H09212191A
Authority
JP
Japan
Prior art keywords
feature pattern
unit
terminal symbol
standard feature
recognition method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8017974A
Other languages
Japanese (ja)
Inventor
Yoshinaga Kato
喜永 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP8017974A priority Critical patent/JPH09212191A/en
Publication of JPH09212191A publication Critical patent/JPH09212191A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To improve the efficiency of the system by increasing the precision of key word extraction, narrowing down the range of collation and making the collation fast, and reducing the storage capacity that standard feature patterns original require. SOLUTION: A prediction type syntax analysis part 9 consists of a prediction part 9e which predicts termination symbols in order, a grammar part 9a which stores a context free grammar, a chart part 9c which stores the termination symbols and nontermination symbols, an operation table part 9d which stores an LR table and information needed to control the process procedure of recognition according to the table, a state list part 9b which stores the predicted termination symbols by position numbers indicating positions in an input speech, and an analysis part 9f which takes an analysis according to analysis algorithm. The prediction type syntax analysis part 9 selects standard feature patterns corresponding to the predicted termination symbols out of a standard feature pattern storage part 4, and a collation part 5 collates the input speech feature pattern with the selected standard feature patterns to extract the most likelihood word.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、音声認識方式、よ
り詳細には、連続音声中の重要な単語を抽出して認識す
るのに好敵な音声認識方式に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice recognition system, and more particularly to a voice recognition system suitable for extracting and recognizing important words in continuous voice.

【0002】[0002]

【従来の技術】従来の音声認識方式は、入力音声中から
キーワード(重要な単語)を抽出して認識する場合の問
題として、発声時に未登録語部分が登録語のいずれかと
なって抽出される湧き出しが起きたり、登録語部分が登
録語として抽出されずに脱落が生じることがある。
2. Description of the Related Art In the conventional voice recognition method, as a problem in extracting and recognizing a keyword (important word) from an input voice, an unregistered word portion is extracted as one of registered words at the time of utterance. It may spring out, or the registered word part may drop out without being extracted as a registered word.

【0003】最初に、湧き出しの問題を例を挙げて説明
する。例えば、抽出したい単語に/赤い四角/があったと
する。発声者の発話方法はさまざまであり、/赤い四角/
と発話する人もいれば/赤い_四角/(_:若干の無音区間)
と発話する人もいる。ここで、/赤い/と/四角/が登録し
てあったならば、前者の発声の場合、認識システムは正
しい結果を返すかもしれない。しかし、後者の場合に
は、無音という特殊な未登録語の部分があるために、/
赤い/という単語を抽出した後に、無音の特徴パタンに
類似する/四角/以外の他の語を誤って抽出する可能性が
ある。このような問題に対処するために、特開平6−2
66386号公報に掲載されているように、ガーベジモ
デルを用いる方法がある。これは、登録語以外の語に相
当するモデルを作成して、キーワード以外の発声部分を
前記モデルで吸収することにより、湧き出しを抑えるも
のである。
First, the problem of springing out will be described with an example. For example, suppose the word you want to extract has / red square /. There are various ways of speaking by the speaker, such as / red square /
Some people say / red square / (_: some silence)
Some people say. If / red / and / square / are registered here, the recognition system may return the correct result in the case of the former utterance. However, in the latter case, there is a special unregistered word called silence, so /
After extracting the word red /, it is possible to accidentally extract other words other than the / square / that are similar to the silent feature pattern. To deal with such a problem, Japanese Patent Laid-Open No. 6-2
As disclosed in Japanese Patent No. 66386, there is a method using a garbage model. In this method, a model corresponding to a word other than the registered word is created, and the vocalized portion other than the keyword is absorbed by the model, thereby suppressing the springing.

【0004】次に脱落の問題を例を挙げて説明する。例
えば、/赤い四角/という語が登録してあった時に、/赤
い_四角/と発声したとする。この場合には、発声した無
音部分の特徴パタンが登録してあるパタンと異なるため
に、認識されずに脱落が起こる可能性がある。/赤い_四
角/にあたる標準特徴パタンを追加登録すれば対処でき
るが、このような組合せは多数存在するので、パタンの
登録に必要な記憶量が増大する。この問題に対処するた
め、“日本音響学会講演論文集、pp.141-142、(1991-0
3)”に記載されているように、キーワードラティスを作
成する方法がある。この方法では、まず入力音声特徴パ
タン中のあらゆる照合区間を標準特徴パタンと比較し、
複数のキーワード候補を生成し、その後、できあがった
ラティスから、構文解析機を用いて、キーワードとして
受理可能であり、かつ、最も尤もらしい候補を認識結果
とする
Next, the problem of dropout will be described with an example. For example, suppose that the word / red_square / is registered and you say / red_square /. In this case, the characteristic pattern of the uttered silent portion is different from the registered pattern, and therefore the character may be dropped without being recognized. It can be dealt with by additionally registering a standard feature pattern corresponding to / red_square /, but since there are many such combinations, the amount of memory required to register the pattern increases. To address this issue, “Proceedings of the Acoustical Society of Japan, pp.141-142, (1991-0)
3) ”, there is a method of creating a keyword lattice. In this method, first, every matching section in the input speech feature pattern is compared with the standard feature pattern,
Generate a plurality of keyword candidates, and then use a parser to recognize the most likely candidate as a recognition result from the resulting lattice using a parser.

【0005】[0005]

【発明が解決しようとする課題】上述の従来の音声認識
方式のうち、ガーベジモデルを用いる方式では、登録語
以外のモデルを一つのモデルとして扱うために、抽出す
べき単語もガーベジモデルに引き寄せられ、吸収されて
しまう可能性がある。そのため、モデルパラメータを注
意深く制御しなければならない。また、不必要な吸収を
避けるために、ガーベジモデルの数を増やすことも考え
られるが、この場合、モデルの記憶量が増大する。
Among the conventional speech recognition methods described above, in the method using the garbage model, since the models other than the registered words are treated as one model, the words to be extracted are also attracted to the garbage model. , May be absorbed. Therefore, model parameters must be carefully controlled. It is also possible to increase the number of garbage models in order to avoid unnecessary absorption, but in this case, the memory capacity of the models increases.

【0006】また、キーワードラティスを用いる方式で
は、ラティス構造を作成するため、標準特徴パタンとの
照合回数が多くなり演算量が増大する。また、ラティス
は最終的な結果を得るための中間出力であり、さらに構
文解析機を用いなければならないため、システムの効率
が悪い。
Further, in the method using the keyword lattice, since the lattice structure is created, the number of collations with the standard feature pattern increases and the amount of calculation increases. In addition, the lattice is an intermediate output for obtaining the final result, and since a parser must be used, the system efficiency is low.

【0007】本発明は、上述のごとき実情に鑑みてなさ
れたもので、機構が単純で、記憶容量の小さい予測型構
文解析部を直接標準パタン選択に使用して、音声認識の
照合範囲を狭くし、照合を高速化させ、さらには、高精
度な単語抽出を可能にする音声認識方式を提供すること
を目的としてなされたものである。
The present invention has been made in view of the above circumstances, and a predictive parser having a simple mechanism and a small memory capacity is directly used for standard pattern selection to narrow the collation range of speech recognition. However, the object of the present invention is to provide a speech recognition method that speeds up the matching and enables highly accurate word extraction.

【0008】[0008]

【課題を解決するための手段】請求項1の発明は、入力
音声の特徴パタンを作成する手段と、音声中に出現する
一つ以上の単語に対応する各終端記号を順次予測する予
測型構文解析手段と、前記終端記号に対応する標準特徴
パタンを記憶する手段とを備え、前記標準特徴パタンと
入力音声の特徴パタンとを比較することによって、入力
音声中に発せられた単語を抽出する音声認識方式におい
て、前記予測型構文解析手段は、終端記号を順次予測す
る予測部と、文脈自由文法を記憶する文法部と、終端記
号または非終端記号を記憶するチャート部と、LR表を
記憶する動作表部と、予測された終端記号を位置番号ご
とに記憶する状態リスト部とを有し、前記予測された終
端記号に対応する標準特徴パタンと入力音声特徴パタン
とを照合してもっともらしい単語を抽出するようにした
ことを特徴とし、もって、照合の範囲を狭くして照合を
高速化し、システムの効率を向上させるようにしたもの
である。
According to a first aspect of the present invention, there is provided means for creating a characteristic pattern of an input voice, and a predictive syntax for sequentially predicting each terminal symbol corresponding to one or more words appearing in the voice. A voice including an analyzing means and a means for storing a standard feature pattern corresponding to the terminal symbol, and comparing the standard feature pattern with a feature pattern of an input voice to extract a word uttered in the input voice. In the recognition method, the predictive-type syntactic analysis unit stores a prediction unit that sequentially predicts terminal symbols, a grammar unit that stores a context-free grammar, a chart unit that stores terminal symbols or nonterminal symbols, and an operation that stores an LR table. It has a table part and a state list part for storing predicted terminal symbols for each position number, and compares the standard feature pattern corresponding to the predicted terminal symbol with the input voice feature pattern. Characterized in that so as to extract a word seems also have to speed matching to narrow the scope of the verification, in which so as to improve the efficiency of the system.

【0009】請求項2の発明は、請求項1に記載の音声
認識方式において、前記得点記憶部を有し、前記標準特
徴パタンと入力音声特徴パタンとの照合を、終端記号を
予測するごとに行い、照合時点における累積得点を前記
得点記憶部に記憶しながらもっともらしい単語を順序通
りに抽出するようにしたことを特徴とし、もって、単語
抽出の基準を数値化して精度を高め、システムの効率を
向上させるようにしたものである。
According to a second aspect of the present invention, in the voice recognition system according to the first aspect, the score storage unit is provided, and the standard feature pattern and the input voice feature pattern are collated each time a terminal symbol is predicted. It is characterized in that the plausible words are extracted in order while storing the accumulated score at the time of matching in the score storage unit, and thus the accuracy of the system is improved by digitizing the criterion of the word extraction. It is intended to improve.

【0010】請求項3の発明は、請求項2に記載の音声
認識方式において、位置記憶部を有し、後続する終端記
号に対応する標準特徴パタンの照合開始位置を入力音声
特徴パタンの始端以降に設定し、前記照合開始位置を当
該終端記号に対応する標準特徴パタンと入力特徴パタン
との照合によって抽出した単語区間の終了位置付近にす
るようにして、もって、照合の位置を正確に定めて、照
合の範囲を狭め、よって、照合を高速化して、システム
の効率を上げるようにしたものである。
According to a third aspect of the present invention, in the voice recognition system according to the second aspect, a position storage unit is provided, and the collation start position of the standard feature pattern corresponding to the subsequent terminal symbol is the start end of the input voice feature pattern or later. And set the collation start position to be near the end position of the word section extracted by collation of the standard feature pattern and the input feature pattern corresponding to the terminal symbol, thereby accurately determining the collation position. , The range of collation is narrowed, so that the collation is speeded up and the efficiency of the system is improved.

【0011】請求項4の発明は、請求項2又は3に記載
の音声認識方式において、枝刈り部を有し、標準特徴パ
タンと入力音声特徴パタンとの照合を、終端記号を予測
するごとに行い、照合時点における累積得点のもっとも
らしい候補を前記枝刈り部に所定数残し、残りの候補を
刈るようにしたことを特徴とし、もって、湧き出しや脱
落を押さえ、照合の範囲を狭め、照合を高速化して、シ
ステムの効率を上げるようにしたものである。
According to a fourth aspect of the present invention, in the voice recognition system according to the second or third aspect, a pruning unit is provided, and the standard feature pattern and the input voice feature pattern are collated each time a terminal symbol is predicted. The number of plausible candidates for the cumulative score at the time of matching is left in the pruning unit to trim the remaining candidates. Is to speed up the system and improve the efficiency of the system.

【0012】請求項5の発明は、請求項1乃至4のいず
れかに記載の音声認識方式において、予測した終端記号
に対応する標準特徴パタンを、終端記号の単位よりも小
さい単位を持つ特徴パタンを連結して作成するようにし
たことを特徴とし、もって、標準特徴パタンが本来必要
とする記憶量を節減し、システムの効率を向上させるよ
うにしたものである。
According to a fifth aspect of the present invention, in the speech recognition system according to any one of the first to fourth aspects, the standard feature pattern corresponding to the predicted terminal symbol has a unit pattern smaller than the terminal symbol unit. It is characterized in that the standard feature patterns are created by connecting them, so that the storage amount originally required by the standard feature pattern is reduced and the efficiency of the system is improved.

【0013】請求項6の発明は、請求項5に記載の音声
認識方式において、予測した終端記号に対応する標準特
徴パタンを、終端記号の単位よりも小さい単位をもち、
かつ、先行及び後続の音響的環境に依存した特徴パタン
を連結して作成するようにしたことを特徴とし、もっ
て、標準特徴パタンが本来必要とする記憶量を節減し、
加えて照合の精度を高め、システムの効率を向上させる
ようにしたものである。
According to a sixth aspect of the present invention, in the speech recognition system according to the fifth aspect, the standard feature pattern corresponding to the predicted terminal symbol has a unit smaller than the terminal symbol unit.
In addition, it is characterized in that the characteristic patterns depending on the acoustic environment of the preceding and succeeding ones are connected and created, so that the memory amount originally required by the standard characteristic pattern is reduced,
In addition, the accuracy of collation is improved and the efficiency of the system is improved.

【0014】請求項7の発明は、請求項5又は6に記載
の音声認識方式において、終端記号に対応する標準特徴
パタンをあらかじめ終端記号の単位よりも小さい単位を
持つ特徴パタンで作成し、照合時には終端記号番号を参
照して標準特徴パタンを選択し、入力特徴パタンと照合
するようにしたことを特徴とし、もって、標準特徴パタ
ンが本来必要とする記憶量を節減し、加えて照合の手続
きを単純化して高速な照合を可能にし、システムの効率
を上げるようにしたものである。
According to a seventh aspect of the present invention, in the voice recognition system according to the fifth or sixth aspect, a standard feature pattern corresponding to a terminal symbol is created in advance with a feature pattern having a unit smaller than the unit of the terminal symbol and collation is performed. The feature is that sometimes the standard feature pattern is selected by referring to the terminal symbol number, and the input feature pattern is matched, so that the memory amount originally required by the standard feature pattern is saved, and in addition, the matching procedure is performed. Is simplified to enable high-speed matching and improve the efficiency of the system.

【0015】[0015]

【発明の実施の形態】図1は、本発明の一実施例の概略
ブロック図で、図1において、入力された音声1は、新
美、“音声認識”、共立出版(1979)などで詳述されてい
るような分析手法によって、特徴パタン作成部2で特徴
パタンに変換される。ここでは、10次元のケプストラム
パラメタとパワおよびパワの時間方向に関する一次差分
を抽出し、特徴パタンとする。ただし、分析条件とし
て、標本化周波数16kHz 、ハミング窓による窓がけ(窓
幅16ms)、線形予測係数分析次数14とする。また、1フ
レームあたりのシフト幅は10msec間隔である。分析手法
は上記の方法に限られたものではなく、周波数分析な
ど、どのような音響分析手法を用いてもよい。
DESCRIPTION OF THE PREFERRED EMBODIMENTS FIG. 1 is a schematic block diagram of an embodiment of the present invention. In FIG. 1, the input voice 1 is described in detail by Niimi, "Voice Recognition", Kyoritsu Shuppan (1979) and the like. The feature pattern creating unit 2 converts the feature pattern into a feature pattern by the analysis method as described above. Here, the 10-dimensional cepstrum parameter, the power, and the first-order difference in the time direction of the power are extracted and used as the feature pattern. However, as the analysis conditions, the sampling frequency is 16 kHz, the windowing by the Hamming window (window width 16 ms), and the linear prediction coefficient analysis order 14 are used. The shift width per frame is 10 msec. The analysis method is not limited to the above method, and any acoustic analysis method such as frequency analysis may be used.

【0016】次に入力された音声特徴パタンと比較する
標準特徴パタンを、予測型構文解析部9により予測した
終端記号に対応させて選定する。図2は、予測型構文解
析部のブロック図で、文法部9aには表1に示す文法を格
納しておく。終端記号は、‘*'で始まり、それ以外の記
号は非終端記号である。表1は、実施例を示すために簡
単に記述してあるが、文法部9aでは文脈自由文法による
記法であれば、さらに複雑な記述が可能である。
Next, a standard feature pattern to be compared with the input voice feature pattern is selected in association with the terminal symbol predicted by the predictive syntax analysis unit 9. FIG. 2 is a block diagram of the predictive syntax analysis unit. The grammar shown in Table 1 is stored in the grammar unit 9a. Terminal symbols start with '*' and all other symbols are non-terminal symbols. Table 1 is briefly described to show the embodiment, but the grammar section 9a can make a more complicated description if the notation is based on the context-free grammar.

【0017】[0017]

【表1】 [Table 1]

【0018】次に、文法から得られる動作表を動作表部
9dに、表2に示すような形で、記憶しておく。表2の内
容は、 A. V. Aho 他、“Compilers - Principles, Te
chniques, and Tools", Addison - Wesley(1986)などに
詳述されるLR解析表と同じで、ACTION部とGOTO部とか
ら成り立っている。動作には、状態の遷移、文法の適
用、受理、誤りの4種類がある。ACTION部で‘s'で始ま
るものが状態遷移動作であり、‘r'で始まるものが文法
の適用動作である。表2中で、空欄であるものは誤りで
あることを示している。表2では、ACTION部の状態0で
/*赤い/と/*青い/とにそれぞれ[s3]、[s4]という状
態遷移動作が記されているが、これは/*赤い/を予測し
た後は状態3へ、/*青い/を予測した後は状態4へ進む
ことを示している。状態5では、‘*$'に[r1]という
文法の適用動作が与えられている。これは、記号の終わ
りであれば表1の1番目の文法を適用することを示して
いる。‘*$'は最後を表す終端記号で予測した終端記号
列の最後の位置に設定される。
Next, the action table obtained from the grammar is used as the action table section.
It is stored in 9d in the form shown in Table 2. The contents of Table 2 are AV Aho et al., “Compilers-Principles, Te
chniques, and Tools ", Addison-Wesley (1986), which is the same as the LR analysis table, which is composed of an ACTION part and a GOTO part. Actions include state transition, grammar application, acceptance, There are four types of error: In the ACTION part, the one that starts with's 'is the state transition action, and the one that starts with'r' is the grammar application action. In Table 2, in the ACTION part state 0
The state transition behaviors of [s3] and [s4] are written in / * red / and / * blue / respectively, but after predicting / * red /, go to state 3 and / * blue / It indicates that after the prediction, the process proceeds to the state 4. In state 5, '* $' is given the action of applying the grammar [r1]. This indicates that the first grammar in Table 1 applies if it is the end of the symbol. '* $' Is set to the last position of the terminal symbol string predicted by the terminal symbol representing the end.

【0019】[0019]

【表2】 [Table 2]

【0020】次に、解析部9fと予測部9eでは、予測され
た終端記号を先頭から1つずつ取り出して、表3、表4
および表5に示すアルゴリズムを適用し、その結果を表
6に示すような形でチャート部9cと状態リスト部9bに記
録する。最終的に受理の動作を行なえばその文は正しい
ことになる。また、チャート部9cには文法で正しいと規
定された全ての句構造が記録される。
Next, in the analyzing unit 9f and the predicting unit 9e, the predicted terminal symbols are taken out one by one from the head, and Table 3 and Table 4 are taken.
Then, the algorithm shown in Table 5 is applied, and the result is recorded in the chart section 9c and the status list section 9b in the form shown in Table 6. The sentence will be correct if the acceptance operation is finally performed. Further, all the phrase structures defined as correct in the grammar are recorded in the chart portion 9c.

【0021】[0021]

【表3】 [Table 3]

【0022】[0022]

【表4】 [Table 4]

【0023】[0023]

【表5】 [Table 5]

【0024】表3、表4および表5を参照しながら、処
理の流れ(1)〜(9)を以下に記す。 (1) PARSE:位置番号1の状態リストに開始状態番
号が格納されている。開始状態番号はいま文頭であるか
ら、0である。この状態番号から遷移が可能な終端記号
を予測すると/*赤い/ と/*青い/ である。また開始位置
番号、終了位置番号は、表2のGOTO部が示すように、そ
れぞれ1,2であるので、(*赤い,1,2)と(*青い,1,
2)とを記憶する。 ここで、開始位置番号とは終端記号
の開始位置を表している。終了位置番号とは、同様に終
了位置を表す。このようにして、ADDARC(*赤い,
1,2)とADDARC(*青い,1,2)とが発生して、そ
れぞれ並列に処理を進めて行く。
The process flows (1) to (9) will be described below with reference to Tables 3, 4, and 5. (1) PARSE: The start state number is stored in the state list of position number 1. The start state number is 0 because it is the beginning of the sentence. Predicting terminal symbols that can be transitioned from this state number is / * red / and / * blue /. Also, the start position number and end position number are 1 and 2, respectively, as shown in the GOTO section of Table 2, so (* red, 1,2) and (* blue, 1 ,,
2) and are memorized. Here, the start position number represents the start position of the terminal symbol. The end position number similarly represents the end position. In this way, ADDARC (* red,
1, 2) and ADDARC (* blue, 1, 2) occur, and the processing proceeds in parallel.

【0025】(2) ADDARC(*赤い,1,2): チャー
ト部に(*赤い,1,2)はまだ記憶されていないので、C
HECKARC(*赤い,1,2)を実行する。以下、A
DDARC(*青い,1,2)以降の処理に関しては、同様
であるので省略する。
(2) ADDARC (* red, 1,2): (* red, 1,2) is not yet stored in the chart part, so C
Run HECKARC (* red, 1,2). Hereinafter, A
Since the processing after DDARC (* blue, 1, 2) is the same, it is omitted.

【0026】(3) CHECKARC(*赤い,1,2):位
置番号1の状態リストを取り出すと、[0]である。次
に表2の動作表から状態0における終端記号/*赤い/の
状態遷移先を調べる。3が遷移先状態番号であるのがわ
かるので、リストL=[3]とする。リストL中の状態番
号3に対して、状態遷移先を表2の動作表から調べる。
表2の状態番号3の欄のACTION部には‘s'で始まるもの
がなく、還元動作しかないので状態遷移は不可能であ
る。そこで表5の手続き(4)に進み、動作が[r4]と記
憶されているので、RL=4とする。リストRLの中の
文法番号4を表1の文法部から取り出すと(COLO
R,*赤い)である。右辺の最右要素を除いたR´hは空
[ ]である。そこで、ADDARC(COLOR,1,2)
を実行する。
(3) CHECKARC (* red, 1, 2): When the status list of position number 1 is taken out, it is [0]. Next, the state transition destination of the terminal symbol / * red / in state 0 is examined from the operation table of Table 2. Since it is known that 3 is the transition destination state number, the list L = [3]. For the state number 3 in the list L, the state transition destination is checked from the operation table of Table 2.
Since there is nothing beginning with's' in the ACTION part of the state number 3 column in Table 2 and there is only reduction operation, state transition is impossible. Therefore, the procedure proceeds to the procedure (4) in Table 5, and the operation is stored as [r4], so RL = 4. When the grammar number 4 in the list RL is taken out from the grammar section of Table 1, (COLO
R, * red). R'h is empty, except for the top-right elements of the right-hand side
[] Therefore, ADDARC (COLOR, 1,2)
Execute

【0027】(4) ADDARC(COLOR,1,2):チ
ャート部に(COLOR,1,2)はまだ記憶されていない
のでCHECKARC(COLOR,1,2)を実行す
る。
(4) ADDARC (COLOR, 1,2): Since (COLOR, 1,2) is not yet stored in the chart part, CHECKARC (COLOR, 1,2) is executed.

【0028】(5) CHECKARC(COLOR,1,
2):表2のGOTO部が示す通り、位置番号1の状態リス
トを取り出すと[0]である。次に表2の動作表から状
態0における非終端記号/COLOR/の状態遷移先を調
べる。表2のGOTO部が示すように2が遷移先番号である
ことがわかるので、L=[2]とする。Lの中の状態番
号2に対して、状態遷移先を表2の動作表から調べる。
表2のACTION部が示すように、状態2において遷移動作
が可能であるので、状態番号2を位置番号2の状態リス
ト部9bに記録する。Lの状態番号2に対して、適用でき
る文法番号を表2の動作表から調べると適用文法番号を
示す‘r'で始まるものがなく、還元動作がないので、前
記処理の流れ(3)に述べた、表5の手続き(4)におけるR
Lは空[ ]になる。ここまでで変数Ret=1であるの
で、CHECKARC(COLOR,1,2)を成功して
終了し、ADDARC(COLOR,1,2) に戻る。
(5) CHECKARC (COLOR, 1,
2): As shown in the GOTO section of Table 2, it is [0] when the status list of position number 1 is taken out. Next, the state transition destination of the non-terminal symbol / COLOR / in state 0 is checked from the operation table of Table 2. Since it can be seen that 2 is the transition destination number as shown in the GOTO section of Table 2, L = [2]. For state number 2 in L, the state transition destination is checked from the operation table of Table 2.
As shown in the ACTION section of Table 2, since the transition operation is possible in the state 2, the state number 2 is recorded in the state list portion 9b of the position number 2. When the applicable grammar number for the state number 2 of L is checked from the operation table of Table 2, there is nothing that starts with'r 'indicating the applicable grammar number, and there is no reduction operation. Therefore, in the process flow (3) As mentioned, R in procedure (4) of Table 5
L becomes empty []. Since the variable Ret = 1 so far, CHECKARC (COLOR, 1,2) is successfully completed, and ADDARC (COLOR, 1,2) is returned to.

【0029】(6) ADDARC(COLOR,1,2):
(COLOR,1,2)をチャート部9cに記憶し、成功し
て終了し、CHECKARC(*赤い,1,2)に戻る。
(6) ADDARC (COLOR, 1, 2):
(COLOR, 1, 2) is stored in the chart portion 9c, the process ends successfully, and the process returns to CHECKARC (* red, 1, 2).

【0030】(7) CHECKARC(*赤い,1,2):
変数Ret=1であるのでCHECKARC(*赤い,1,
2)を成功して終了し、ADDARC(*赤い,1,2)
に戻る。
(7) CHECKARC (* red, 1, 2):
Since the variable Ret = 1, CHECKARC (* red, 1,
2) Succeeded and finished, ADDARC (* red, 1, 2)
Return to

【0031】(8) ADDARC(*赤い,1,2):(*赤
い,1,2)をチャート部9cに記憶し、成功して終了し、
PARSEに戻る。
(8) ADDARC (* red, 1,2): (* red, 1,2) is stored in the chart portion 9c, and the process ends successfully.
Return to PARSE.

【0032】(9) PARSE:ADDARC(*赤い,
1,2)とADDARC(*青い,1,2)の解析は成功し
ているので、/*赤い/、/*青い/ に対応するインデック
ス番号を標準特徴パタン記憶部4へ送る。以上のような
解析動作を繰り返すと、最終的には表6に示すような6
つの文が候補として予測される。キーワードの抽出は、
これらの予測系列を、予測した終端記号に対応する標準
特徴パタンで検証することにより実現できる。
(9) PARSE: ADDARC (* red,
Since 1,2) and ADDARC (* blue, 1,2) have been analyzed successfully, the index numbers corresponding to / * red / and / * blue / are sent to the standard feature pattern storage unit 4. When the analysis operation as described above is repeated, finally, as shown in Table 6, 6
One sentence is predicted as a candidate. Keyword extraction is
This can be realized by verifying these prediction sequences with standard feature patterns corresponding to the predicted terminal symbols.

【0033】[0033]

【表6】 [Table 6]

【0034】さて、上に述べた予測型構文解析部9の動
作により、終端記号のインデックス番号が入力された音
声の順序に沿って標準特徴パタン記憶部4に送られる。
終端記号は、標準特徴パタン記憶部4にあらかじめ格納
されている標準特徴パタンに対応しており、照合部5で
当該入力音声特徴パタンとの照合を行なう。
By the operation of the predictive syntax analysis unit 9 described above, the index number of the terminal symbol is sent to the standard feature pattern storage unit 4 in the order of the input voice.
The terminal symbol corresponds to the standard feature pattern stored in advance in the standard feature pattern storage unit 4, and the collation unit 5 collates with the input voice feature pattern.

【0035】[0035]

【数1】 [Equation 1]

【0036】なお、以下の記述においては、表7のA欄
の記号を用いるが、正しくは、それに対応するB欄の記
号であるので、B欄の記号に読み換えて読むものとす
る。
In the following description, the symbol in column A of Table 7 is used, but since it is the symbol in column B corresponding to it, it should be read as the symbol in column B.

【0037】[0037]

【表7】 [Table 7]

【0038】ここで、Pq(l)は、系列中のl(小文字の
エル)(1≦l≦L)番目に対応する標準特徴パタンの
インデックスであり、V個の標準特徴パタンをもつ。実
施例において、式1のW[(s)]は、予測型構文解析部
9により受理された終端記号系列に対応している。表6
の例に示されているように、予測された終端記号列は、
どの場合も2つの終端記号によって構成されているので
L=2である。標準特徴パタン数は、この場合終端記号
(/*赤い/、/*青い/、/*△/、/*□/、/*○/)の数に等し
いので、V=5である。同様にして、入力音声特徴パタ
ンXを以下のように表す。 X={x1,...,m,...,M} …(式2) 照合部5では、発声した音声特徴パタンのXのm1フレ
ームからm2フレームまでの部分区間と、該部分区間に
対応づけられる標準特徴パタン系列との得点を以下の式
3により求める。
Here, P q (l) is an index of the standard feature pattern corresponding to the l (lowercase L) (1 ≦ l ≦ L) th in the sequence, and has V standard feature patterns. In the embodiment, W [(s)] in Expression 1 corresponds to the terminal symbol sequence accepted by the predictive syntax analysis unit 9. Table 6
As shown in the example of
In each case, L = 2 since it is composed of two terminal symbols. In this case, the number of standard feature patterns is the terminal symbol.
Since it is equal to the number of (/ * red /, / * blue /, / * △ /, / * □ /, / * ○ /), V = 5. Similarly, the input voice feature pattern X is expressed as follows. X = {x 1, ..., x m, ..., x M} and (Expression 2) subintervals of the verification unit 5, the utterance and X of m 1 frame of speech feature patterns were up to m 2 frame , And a score with the standard feature pattern sequence associated with the partial section are obtained by the following Expression 3.

【0039】[0039]

【数2】 [Equation 2]

【0040】m1[q(l)]、m2[q(l)]は、モデルq(l)
に対応する単語の抽出区間の端点でそれぞれ始点と終点
を表す。また、M[q(l)]= (m2[q(l)]− m1[q
(l)])は抽出区間の長さである。式4は、抽出区間と整
合関数rに関して得点を計算する。整合関数は、照合経
路を表す関数であり、よく知られた動的計画法などによ
って求めることができる。整合関数により、mフレーム
目の入力音声特徴量と、r(m)フレーム目の標準特徴量
とが対応づけられる。このように対応づけられた得点を
以下のように定義する。
M 1 [q (l)] and m 2 [q (l)] are model q (l)
The start point and the end point are respectively represented by the end points of the extraction section of the word corresponding to. In addition, M [q (l)] = (m 2 [q (l)] − m 1 [q
(l)]) is the length of the extraction section. Equation 4 calculates the score for the extraction interval and the matching function r. The matching function is a function that represents a matching path, and can be obtained by well-known dynamic programming or the like. The matching function associates the m-th frame input speech feature amount with the r (m) -th frame standard feature amount. The scores associated in this way are defined as follows.

【0041】[0041]

【数3】 (Equation 3)

【0042】hは、得点のしきい操作に用いられる正の
値である。式5によれば、得点が大きいほど、認識結果
として尤もらしい候補となるが、得点の測り方はこれに
限ったものではなく、ユークリッド距離による基準のよ
うに、得点が小さくなると、尤もらしくなるように設計
してもよい。式3のl(エル)が増えるたびに累積得点
記憶部6においてD[(s)]を計算していく。比較部7で
は現時点での候補に対するD[(s)]を得点の大きい順に
並べる。そして、枝刈部8で得点の大きい候補からJ個
(例えば5個)の候補を選んで保存し、残りの候補を枝
刈部8で刈りとる。保存した候補に関してl(エル)を
1増やし再び予測型構文解析部9で次の終端記号を予測
する。この処理を繰り返し、予測型構文解析部9で全て
の候補を予測した段階で、式3のD[(s)]の中で最も得
点の高い候補を認識結果として出力する。図1の実施例
において、式4で以下のような条件を導入することによ
り、照合時間を短くすることができる。
H is a positive value used for the threshold operation of the score. According to Equation 5, the larger the score, the more likely the candidate is as a recognition result. However, the method of measuring the score is not limited to this. When the score becomes small like the criterion based on the Euclidean distance, it becomes more likely. May be designed to Every time l (L) in Expression 3 increases, D [(s)] is calculated in the accumulated score storage unit 6. The comparison unit 7 arranges D [(s)] for the current candidates in descending order of score. Then, the pruning unit 8 selects and saves J candidates (for example, 5 candidates) from the candidates with a large score, and the pruning unit 8 prunes the remaining candidates. With respect to the saved candidate, l (ell) is incremented by 1 and the prediction-type parsing unit 9 predicts the next terminal symbol again. This process is repeated, and when all the candidates are predicted by the predictive syntax analysis unit 9, the candidate with the highest score in D [(s)] of Expression 3 is output as the recognition result. In the embodiment of FIG. 1, the matching time can be shortened by introducing the following condition in Expression 4.

【0043】[0043]

【数4】 (Equation 4)

【0044】この式6は、入力音声特徴パタン中で(l
(エル)−1)番目の標準特徴パタンを用いて検出された
区間内に収まるフレームから次の標準特徴パタン、すな
わちl番目の標準特徴パタンの照合を開始することを示
している。m*1[q(l-1)]、m*2[q(l-1)]は、既に検出さ
れた区間の始点および終点である。図5に/赤い/が検出
された後に/□/を抽出する場合の照合開始点を示してあ
る。図5による方法では、/赤い/の終点m*2[q(l)]から
‘α'だけ前の地点から/□/の照合を開始している。
This equation 6 is (l) in the input voice feature pattern.
This indicates that the collation of the next standard feature pattern, that is, the l-th standard feature pattern is started from the frame within the section detected using the (L) -1) th standard feature pattern. m * 1 [q (l-1)] and m * 2 [q (l-1)] are the start point and end point of the already detected section. FIG. 5 shows the matching start point when / □ / is extracted after / red / is detected. In the method according to FIG. 5, the verification of / □ / is started from the point'α 'before the end point m * 2 [q (l)] of / red /.

【0045】図3は、他の実施例を示す概略ブロック図
である。図3の音素特徴パタン記憶部11は、図1の標準
特徴パタン記憶部4に比べて、小さい音素単位の標準パ
タンを記憶するようにしている。従って、/赤い/という
終端記号が予測型構文解析部9で予測された時には、音
素特徴パタン記憶部11の/a/、/k/、/i/という特徴パタ
ンを連結部12で連結して/akai/という標準特徴パタンを
作成する。終端記号が予測された時に音素特徴パタンを
選択できるように文法部を表8に示すように作成する。
この表8の文法部の終端記号は、音素記号で書かれてい
るので、音素ごとに作成されている特徴パタンを直接選
択することができる。
FIG. 3 is a schematic block diagram showing another embodiment. The phoneme feature pattern storage unit 11 of FIG. 3 stores a standard pattern in units of phonemes smaller than the standard feature pattern storage unit 4 of FIG. Therefore, when the terminal symbol "/ red /" is predicted by the predictive parsing unit 9, the feature patterns "/ a /, / k /, / i /" of the phoneme feature pattern storage unit 11 are linked by the linking unit 12. Create a standard feature pattern called / akai /. The grammar section is created as shown in Table 8 so that the phoneme feature pattern can be selected when the terminal symbol is predicted.
Since the terminal symbol of the grammar section in Table 8 is written as a phoneme symbol, the feature pattern created for each phoneme can be directly selected.

【0046】[0046]

【表8】 [Table 8]

【0047】また、抽出精度を高くするために音素の先
行および後続の音響的環境を考慮した特徴パタンを使う
こともできる。この時の音素特徴パタン記憶部11には同
様の例で/-ak/、/aka/、/kai/、/ai-/という音素特徴パ
タンをあらかじめ記憶しておく。例えば、/aka/という
特徴パタンは、先行および後続音素がどちらも‘a'であ
るような/k/の音素を表す。‘-'は、どの音素が先行ま
たは後続していてもよいことを示す。このような特徴パ
タンを用いる場合には、表9のような文法を用いる。
Further, in order to improve the extraction accuracy, it is also possible to use a feature pattern considering the acoustic environment before and after the phoneme. At this time, the phoneme feature pattern storage unit 11 stores phoneme feature patterns such as / -ak /, / aka /, / kai /, and / ai- / in advance in a similar example. For example, the feature pattern of / aka / represents a phoneme of / k / where both the preceding and following phonemes are'a '. The'- 'indicates that any phoneme may precede or follow. When such a feature pattern is used, the grammar shown in Table 9 is used.

【0048】[0048]

【表9】 [Table 9]

【0049】図4は、本発明の他の実施例を示す概略ブ
ロック図である。本実施例は、音素特徴パタンを連結し
て、終端記号に対応する単語特徴パタンをあらかじめ作
成しておくようにしたものである。まず、スイッチS2
をAに入れ、スイッチS1を切って、単語特徴パタンを
作成する。終端記号−音素記号対応リスト13には、表10
のようなデータを格納しておく。この表10に基づいて、
終端記号に対応する特徴パタンを音素特徴パタンを連結
部12で連結して作成し、単語特徴パタン記憶部14に格納
していく。この時作成された単語特徴パタンには終端記
号番号と同じ番号を付しておく。
FIG. 4 is a schematic block diagram showing another embodiment of the present invention. In the present embodiment, phoneme feature patterns are connected to create a word feature pattern corresponding to a terminal symbol in advance. First, switch S 2
Is put in A and the switch S 1 is turned off to create a word feature pattern. The terminal symbol-phoneme symbol correspondence list 13 has Table 10
Data such as is stored. Based on this table 10,
The feature patterns corresponding to the terminal symbols are created by connecting the phoneme feature patterns by the connecting unit 12 and stored in the word feature pattern storage unit 14. The word feature pattern created at this time is given the same number as the terminal symbol number.

【0050】[0050]

【表10】 [Table 10]

【0051】次に、スイッチS2をAからBに切替え、
さらにスイッチS1を入れることで認識を行なうことが
できる。認識時には、予測型構文解析部9により終端記
号を予測し、この終端記号番号を単語特徴パタン記憶部
14に送れば、単語特徴パタンを選択することができ、入
力音声特徴パタンとの照合が可能になる。以後の処理は
既に説明した実施例と同じであるので省略する。なお、
本実施例は、先行および後続の音素環境を考慮した特徴
パタンに対しても、表10に示すような形で音素記号と終
端記号を対応づけて実施することができる。
Next, switch S 2 is switched from A to B,
Further, by turning on the switch S 1 , recognition can be performed. At the time of recognition, the predictive syntax analysis unit 9 predicts a terminal symbol, and the terminal symbol number is used as the word feature pattern storage unit.
If sent to 14, the word feature pattern can be selected and can be matched with the input voice feature pattern. Subsequent processing is the same as that of the above-described embodiment, and will be omitted. In addition,
In the present embodiment, the phoneme symbol and the terminal symbol can be associated with each other in the form as shown in Table 10 even for the characteristic patterns in which the preceding and subsequent phoneme environments are taken into consideration.

【0052】[0052]

【発明の効果】請求項1,3,4または7の発明によ
り、単純な機構で音声認識の照合範囲を狭くし、照合の
速度を高めることができる。請求項2の発明により、単
語抽出の基準を数量化し、精度を高めることができる。
請求項5の発明により、標準特徴パタン群が本来必要と
する記億量を少なくすることができる。請求項6の発明
により、前記請求項5の発明の効果である記憶量節減に
加えて、単語抽出の精度を高くすることができる。かく
して、本発明により、話ことばのように比較的自由に発
話された連続音声の中から、必要な情報だけを抽出して
照合の速度と精度を高めることが可能になり、音声によ
る情報検索などへの適用を可能にする。
According to the invention of claim 1, 3, 4 or 7, it is possible to narrow the collation range of the voice recognition and increase the collation speed with a simple mechanism. According to the invention of claim 2, it is possible to quantify the criteria for word extraction and improve the accuracy.
According to the invention of claim 5, the storage amount originally required by the standard feature pattern group can be reduced. According to the invention of claim 6, in addition to the memory saving which is the effect of the invention of claim 5, the accuracy of word extraction can be increased. Thus, according to the present invention, it is possible to improve the speed and accuracy of matching by extracting only the necessary information from the continuous speech that is relatively freely uttered like a spoken word. Can be applied to.

【0053】[0053]

【図面の簡単な説明】[Brief description of drawings]

【図1】 本発明の一実施例による連続音声認識の概略
ブロック図である。
FIG. 1 is a schematic block diagram of continuous speech recognition according to an embodiment of the present invention.

【図2】 予測型構文解析部の実施例を示すブロック図
である。
FIG. 2 is a block diagram showing an embodiment of a predictive syntax analysis unit.

【図3】 本発明の他の実施例の概略ブロック図であ
る。
FIG. 3 is a schematic block diagram of another embodiment of the present invention.

【図4】 本発明のその他の実施例の概略ブロック図で
ある。
FIG. 4 is a schematic block diagram of another embodiment of the present invention.

【図5】 請求項3の実施例を説明する図である。FIG. 5 is a diagram illustrating an embodiment of claim 3;

【符号の説明】[Explanation of symbols]

1…音声、2…特徴パタン作成部、4…標準特徴パタン
記憶部、5…照合部、6…累積得点記憶部、7…比較
部、8…枝刈部、9…予測型構文解析部、9a…文法
部、9b…状態リスト部、9c…チャート部、9d…動
作表部、9e…予測部、9f…解析部、10…認識結
果、11…音素特徴パタン記憶部、12…連結部、13
…終端記号−音素記号対応リスト、14…単語特徴パタ
ン記憶部、A…Bとの切替スイッチ、B…Aとの切替ス
イッチ、C…On/Off切替スイッチ。
DESCRIPTION OF SYMBOLS 1 ... Speech, 2 ... Feature pattern creation part, 4 ... Standard feature pattern storage part, 5 ... Collation part, 6 ... Cumulative score storage part, 7 ... Comparison part, 8 ... Pruning part, 9 ... Predictive syntax analysis part, 9a ... Grammar part, 9b ... State list part, 9c ... Chart part, 9d ... Action table part, 9e ... Prediction part, 9f ... Analysis part, 10 ... Recognition result, 11 ... Phoneme feature pattern storage part, 12 ... Connection part, Thirteen
... Terminal symbol-phoneme symbol correspondence list, 14 ... Word feature pattern storage unit, A ... B changeover switch, B ... A changeover switch, C ... On / Off changeover switch.

─────────────────────────────────────────────────────
─────────────────────────────────────────────────── ───

【手続補正書】[Procedure amendment]

【提出日】平成8年3月15日[Submission date] March 15, 1996

【手続補正1】[Procedure amendment 1]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0001[Correction target item name] 0001

【補正方法】変更[Correction method] Change

【補正内容】[Correction contents]

【0001】[0001]

【発明の属する技術分野】本発明は、音声認識方式、よ
り詳細には、連続音声中の重要な単語を抽出して認識す
るのに好適な音声認識方式に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice recognition system, and more particularly to a voice recognition system suitable for extracting and recognizing an important word in continuous voice.

【手続補正2】[Procedure amendment 2]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0009[Correction target item name] 0009

【補正方法】変更[Correction method] Change

【補正内容】[Correction contents]

【0009】請求項2の発明は、請求項1に記載の音声
認識方式において、前記得点記憶部を有し、前記標準特
徴パタンと入力音声特徴パタンとの照合を、終端記号を
予測するごとに行い、照合時点における累積得点を前記
得点記憶部に記憶しながらもっともらしい単語を順序通
りに抽出するようにしたことを特徴とし、もって、照合
時間を高速化して、システムの効率を向上させるように
したものである。
According to a second aspect of the present invention, in the voice recognition system according to the first aspect, the score storage unit is provided, and the standard feature pattern and the input voice feature pattern are collated each time a terminal symbol is predicted. performed, the accumulated score in matching point is characterized in that so as to extract in sequence word plausible while stored in the score storage unit, has, matching
It is designed to speed up the time and improve the efficiency of the system.

【手続補正3】[Procedure 3]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0039[Correction target item name] 0039

【補正方法】変更[Correction method] Change

【補正内容】[Correction contents]

【0039】[0039]

【数2】 [Equation 2]

【手続補正4】[Procedure amendment 4]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0052[Correction target item name] 0052

【補正方法】変更[Correction method] Change

【補正内容】[Correction contents]

【0052】[0052]

【発明の効果】請求項1,2,3,4または7の発明に
より、単純な機構で音声認識の照合範囲を狭くし、照合
の速度を高めることができる。請求項5の発明により、
標準特徴パタン群が本来必要とする記億量を少なくする
ことができる。請求項6の発明により、前記請求項5の
発明の効果である記憶量節減に加えて、単語抽出の精度
を高くすることができる。かくして、本発明により、話
ことばのように比較的自由に発話された連続音声の中か
ら、必要な情報だけを抽出して照合の速度と精度を高め
ることが可能になり、音声による情報検索などへの適用
を可能にする。
Claim 1, 2 according to the present invention, the 3, 4 or seventh invention, by narrowing the comparison range of the speech recognition in a simple mechanism, Ru can increase the speed of matching. In accordance with the invention of Motomeko 5,
It is possible to reduce the amount of memory originally required by the standard feature pattern group. According to the invention of claim 6, in addition to the memory saving which is the effect of the invention of claim 5, the accuracy of word extraction can be increased. Thus, according to the present invention, it is possible to improve the speed and accuracy of matching by extracting only the necessary information from the continuous speech that is relatively freely uttered like a spoken word. Can be applied to.

Claims (7)

【特許請求の範囲】[Claims] 【請求項1】 入力音声の特徴パタンを作成する手段
と、音声中に出現する一つ以上の単語に対応する各終端
記号を順次予測する予測型構文解析手段と、前記終端記
号に対応する標準特徴パタンを記憶する手段とを備え、
前記標準特徴パタンと入力音声の特徴パタンとを比較す
ることによって、入力音声中に発せられた単語を抽出す
る音声認識方式において、前記予測型構文解析手段は、
終端記号を順次予測する予測部と、文脈自由文法を記憶
する文法部と、終端記号または非終端記号を記憶するチ
ャート部と、LR表を記憶する動作表部と、予測された
終端記号を位置番号ごとに記憶する状態リスト部とを有
し、前記予測された終端記号に対応する標準特徴パタン
と入力音声特徴パタンとを照合し、もっともらしい単語
を抽出することを特徴とする音声認識方式。
1. A means for creating a characteristic pattern of an input speech, a predictive syntax analysis means for sequentially predicting each terminal symbol corresponding to one or more words appearing in the speech, and a standard corresponding to the terminal symbol. And means for storing the characteristic pattern,
In the speech recognition method for extracting the words uttered in the input voice by comparing the standard feature pattern and the feature pattern of the input voice, the predictive syntax analysis means,
A prediction unit that sequentially predicts terminal symbols, a grammar unit that stores context-free grammars, a chart unit that stores terminal symbols or non-terminal symbols, an operation table unit that stores LR tables, and position numbers of predicted terminal symbols. A voice recognition method characterized by having a state list section for storing each of them, collating a standard feature pattern corresponding to the predicted terminal symbol with an input voice feature pattern, and extracting a plausible word.
【請求項2】 請求項1に記載の音声認識方式におい
て、前記標準特徴パタンと入力音声特徴パタンとの照合
を、終端記号を予測するごとに行い、照合時点における
累積得点を得点記憶部に記憶しながら、もっともらしい
単語を順序通りに抽出することを特徴とする音声認識方
式。
2. The voice recognition method according to claim 1, wherein the standard feature pattern and the input voice feature pattern are collated each time a terminal symbol is predicted, and a cumulative score at the time of collation is stored in a score storage unit. However, the speech recognition method is characterized by extracting plausible words in order.
【請求項3】 請求項2に記載の音声認識方式におい
て、位置記憶部を有し、後続する終端記号に対応する標
準特徴パタンの照合開始位置を入力音声特徴パタンの始
端以降に設定し、前記照合開始位置を当該終端記号に対
応する標準特徴パタンと入力特徴パタンとの照合によっ
て抽出した単語区間の終了位置付近にすることを特徴と
する音声認識方式。
3. The voice recognition method according to claim 2, further comprising a position storage unit, wherein a collation start position of a standard feature pattern corresponding to a subsequent terminal symbol is set after a start end of an input voice feature pattern, A speech recognition method characterized in that a matching start position is near an end position of a word section extracted by matching a standard feature pattern corresponding to the terminal symbol with an input feature pattern.
【請求項4】 請求項2又は3に記載の音声認識方式に
おいて、枝刈り部を有し、標準特徴パタンと入力音声特
徴パタンとの照合を、終端記号を予測するごとに行い、
照合時点における累積得点のもっともらしい候補を前記
枝刈り部に所定数残し、残りの候補を刈ることを特徴と
する音声認識方式。
4. The voice recognition method according to claim 2, further comprising a pruning unit, wherein the standard feature pattern and the input voice feature pattern are collated each time a terminal symbol is predicted,
A voice recognition method, characterized in that a predetermined number of plausible candidates of cumulative points at the time of matching are left in the pruning unit and the remaining candidates are pruned.
【請求項5】 請求項1乃至4のいずれかに記載の音声
認識方式において、予測した終端記号に対応する標準特
徴パタンを、終端記号の単位よりも小さい単位を持つ特
徴パタンを連結して作成することを特徴とする音声認識
方式。
5. The speech recognition method according to claim 1, wherein a standard feature pattern corresponding to a predicted terminal symbol is created by concatenating feature patterns having units smaller than the terminal symbol unit. A voice recognition method characterized by:
【請求項6】 請求項5に記載の音声認識方式におい
て、予測した終端記号に対応する標準特徴パタンを、終
端記号の単位よりも小さい単位をもち、かつ、先行及び
後続の音響的環境に依存した特徴パタンを連結して作成
することを特徴とする音声認識方式。
6. The speech recognition system according to claim 5, wherein the standard feature pattern corresponding to the predicted terminal symbol has a unit smaller than the unit of the terminal symbol and depends on the preceding and subsequent acoustic environments. A speech recognition method characterized by connecting and creating created characteristic patterns.
【請求項7】 請求項5又は6に記載の音声認識方式に
おいて、終端記号に対応する標準特徴パタンをあらかじ
め終端記号の単位よりも小さい単位を持つ特徴パタンで
作成し、照合時には終端記号番号を参照して標準特徴パ
タンを選択し、入力特徴パタンと照合することを特徴と
する音声認識方式。
7. The voice recognition method according to claim 5, wherein a standard feature pattern corresponding to a terminal symbol is created in advance with a feature pattern having a unit smaller than the unit of the terminal symbol, and the terminal symbol number is set at the time of matching. A speech recognition method characterized by selecting a standard feature pattern with reference to matching with an input feature pattern.
JP8017974A 1996-02-02 1996-02-02 Speech recognition system Pending JPH09212191A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8017974A JPH09212191A (en) 1996-02-02 1996-02-02 Speech recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8017974A JPH09212191A (en) 1996-02-02 1996-02-02 Speech recognition system

Publications (1)

Publication Number Publication Date
JPH09212191A true JPH09212191A (en) 1997-08-15

Family

ID=11958710

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8017974A Pending JPH09212191A (en) 1996-02-02 1996-02-02 Speech recognition system

Country Status (1)

Country Link
JP (1) JPH09212191A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030025507A (en) * 2001-09-21 2003-03-29 정용석 Speech Recognition EMR(Electronic Medical Record) System
CN111090411A (en) * 2019-12-10 2020-05-01 重庆锐云科技有限公司 Intelligent shared product recommendation system and method based on user voice input

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030025507A (en) * 2001-09-21 2003-03-29 정용석 Speech Recognition EMR(Electronic Medical Record) System
CN111090411A (en) * 2019-12-10 2020-05-01 重庆锐云科技有限公司 Intelligent shared product recommendation system and method based on user voice input

Similar Documents

Publication Publication Date Title
JP4301102B2 (en) Audio processing apparatus, audio processing method, program, and recording medium
US7983912B2 (en) Apparatus, method, and computer program product for correcting a misrecognized utterance using a whole or a partial re-utterance
JPH08278794A (en) Speech recognition device and its method and phonetic translation device
JP2000035799A (en) Position operation in speech recognition
JPWO2007097176A1 (en) Speech recognition dictionary creation support system, speech recognition dictionary creation support method, and speech recognition dictionary creation support program
US6868382B2 (en) Speech recognizer
JP4072718B2 (en) Audio processing apparatus and method, recording medium, and program
US6963834B2 (en) Method of speech recognition using empirically determined word candidates
US20050038647A1 (en) Program product, method and system for detecting reduced speech
JP4269625B2 (en) Voice recognition dictionary creation method and apparatus and voice recognition apparatus
JPH08248980A (en) Voice recognition device
JPH09212191A (en) Speech recognition system
JP2000056795A (en) Speech recognition device
JP2001312293A (en) Method and device for voice recognition, and computer- readable storage medium
JP4048473B2 (en) Audio processing apparatus, audio processing method, program, and recording medium
JP3790038B2 (en) Subword type speakerless speech recognition device
JP3494338B2 (en) Voice recognition method
JP3575904B2 (en) Continuous speech recognition method and standard pattern training method
JPH1097275A (en) Large-vocabulary speech recognition system
JP3061292B2 (en) Accent phrase boundary detection device
JPH08248979A (en) Speech rcognizer
JP3355248B2 (en) Continuous speech recognition method
JP3550350B2 (en) Voice recognition method and program recording medium
Chung Towards multi-domain speech understanding with flexible and dynamic vocabulary
JPH09212190A (en) Speech recognition device and sentence recognition device