JPH06266386A - Word spotting method - Google Patents

Word spotting method

Info

Publication number
JPH06266386A
JPH06266386A JP5056214A JP5621493A JPH06266386A JP H06266386 A JPH06266386 A JP H06266386A JP 5056214 A JP5056214 A JP 5056214A JP 5621493 A JP5621493 A JP 5621493A JP H06266386 A JPH06266386 A JP H06266386A
Authority
JP
Japan
Prior art keywords
word
time
state
speech
automaton
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5056214A
Other languages
Japanese (ja)
Inventor
Akihiro Imamura
明弘 今村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP5056214A priority Critical patent/JPH06266386A/en
Publication of JPH06266386A publication Critical patent/JPH06266386A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To detect a key word in an input speech precisely at a high speed in synchronism with the time of the input speech. CONSTITUTION:A likelihood calculation part inputs a time series of speech feature quantities from a speech analytic part 2 and finds the likelihood between all partial word series consisting of recognition object words and unknown words, which are receivable from the start state of automaton set in a storage part 9 to respective stages and the feature series of the input speech from a speech start end to each time in synchronism with time by using a key word and a garbage hidden Markov model showing partial word sequences in storage parts 7 and 8. A posterior probability calculation part 4 finds the posterior probability at the end of the vocalization of each partial word series including a recognition object word as a tail word and posterior probability in the vocalization of each partial word series at each time. A recognition decision part 5 compares those posterior probability values with each other at each time to decide a recognition object word present in a partial word series.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】この発明は、人間が自由に発声し
た音声の中に存在するキーワードを、機械に認識あるい
は検出させるワードスポッティング方法に関するもので
ある。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a word spotting method in which a machine recognizes or detects a keyword present in a voice freely uttered by a human.

【0002】[0002]

【従来の技術】近年音声認識技術の研究開発が活発に行
われ、いくつかの商品化も行われている。なかでも、人
間が連続的に発声した文章を認識対象とする連続音声認
識が可能となれば、多くの人間と機械間のインタフェー
スを飛躍的に改善できる。しかし現状では、数百程度の
限られた語彙数での連続音声認識が可能であるに過ぎ
ず、入力音声中に認識装置に登録されていない未知語が
存在する場合には、正しい認識結果が得られないという
問題が起こる。
2. Description of the Related Art In recent years, research and development of voice recognition technology have been actively carried out, and some of them have been commercialized. In particular, if continuous speech recognition can be performed on sentences that are continuously uttered by humans, the interface between many humans and machines can be dramatically improved. However, at present, continuous speech recognition is possible only with a limited number of vocabularies of several hundreds, and if there is an unknown word that is not registered in the recognition device in the input speech, a correct recognition result is obtained. The problem arises that you cannot get it.

【0003】ワードスポッティング技術は、このような
問題の解決を目指したもので、連続的に発声された文章
音声あるいは発声時の周囲環境雑音などが音声区間の前
後に付加した入力音声信号中のどの位置に、認識装置に
登録されているキーワードが存在しているかを推定する
ものであり、入力音声中での未知語の存在を許容する認
識技術となっている。
The word spotting technique aims to solve such a problem, and continuously detects a sentence voice that is continuously uttered, ambient noise during utterance, or the like in an input voice signal that is added before and after a voice section. This is a technique for estimating whether or not a keyword registered in the recognition device exists at the position, and is a recognition technique that allows the existence of an unknown word in the input voice.

【0004】このようなワードスポッティング方法の従
来技術としては、例えば、日本音響学会平成2年度春季
研究発表会講演論文集I(1990年3月)の29〜3
0ページに掲載されている論文「HMMによる電話音声
スポッティング」(以下、第一の方法と称する)や、I
EEE Transactions on Acoustics,Speech,andS
ignal Processing,Vol.38,No.11(1990年
11月)の1870〜1878ページに掲載されている
論文「Automatic Recognition of Keywordsin Unco
nstrained Speech Using Hidden Markov Models」
(以下、第二の方法と称する)がある。
As a conventional technique of such a word spotting method, for example, 29th to 3rd of Proceedings I of the Acoustical Society of Japan Spring Research Presentation Meeting I (March 1990) 29-3.
The article "Telephone voice spotting with HMM" on page 0 (hereinafter referred to as the first method) and I
EEE Transactions on Acoustics, Speech, and S
ignal Processing, Vol. 38, No. 11 (November 1990), pages 1870-1878, "Automatic Recognition of Keywordsin Unco."
nstrained Speech Using Hidden Markov Models "
(Hereinafter referred to as the second method).

【0005】第一の方法では、認識装置は認識対象語に
ついてだけ統計的な確率音響モデル(キーワード隠れマ
ルコフモデル)を持ち、入力音声の各時刻を各認識対象
語の終端と仮定しながら、尤もらしい始端時刻を探索す
る方法をとっている。キーワードは、推定された単語の
時間的な長さや、推定された区間に対する確率音響モデ
ルからの尤度が、キーワード毎に決められた閾値範囲内
に入っている場合に、検出されるようになっている。し
たがって、第一の方法では入力音声中に未知語が存在し
ていても、時刻に同期してその時点で終端するキーワー
ドを高速に求めることができる。
In the first method, the recognizing device has a statistical stochastic acoustic model (keyword hidden Markov model) only for the recognition target word, and assuming that each time of the input speech is the end of each recognition target word, The method is to search for a unique start time. A keyword is detected when the estimated temporal length of the word or the likelihood from the stochastic acoustic model for the estimated section is within the threshold range determined for each keyword. ing. Therefore, according to the first method, even if an unknown word is present in the input voice, the keyword that ends at that time can be obtained at high speed in synchronization with the time.

【0006】一方、第二の方法では、入力音声中でのキ
ーワードおよび未知語相互の出現順序を有限状態オート
マトンで規定し、認識対象単語を表す確率音響モデル
(キーワード隠れマルコフモデル)と、音声以外の雑音
区間や想定される複数の未知語を用いて作成した確率音
響モデル(ガーベッジ隠れマルコフモデル)を用いてい
る。認識は、与えられたオートマトンで受理することが
可能であるような未知語を途中に含む全単語モデル列に
対する入力音声の尤度を求め、尤度が最大となる単語列
を検出することにより行うものである。このように、第
二の方法では単語の出現順序を考慮することで、誤った
位置でのキーワードの検出や正解の脱落の低減が可能で
ある。
On the other hand, in the second method, the order of appearance of keywords and unknown words in the input speech is defined by a finite state automaton, and a stochastic acoustic model (keyword hidden Markov model) representing the recognition target word and other than speech are used. We use a stochastic acoustic model (garbage hidden Markov model) created by using the noise intervals of and the assumed multiple unknown words. The recognition is performed by finding the likelihood of the input speech for all word model strings including unknown words in the middle that can be accepted by a given automaton, and detecting the word string with the maximum likelihood. It is a thing. As described above, in the second method, by considering the appearance order of words, it is possible to detect a keyword at an incorrect position and reduce omission of correct answer.

【0007】[0007]

【発明が解決しようとする課題】上記従来技術におい
て、第一の方法では、入力音声中に未知語が存在してい
ても、時刻に同期してその時点で終端するキーワードを
高速に求められる反面、キーワード検出のための閾値範
囲の設定によっては、誤った位置でのキーワードの検出
や正解の脱落などを生じてしまう問題がある。この問題
に対応するためには、ワードスポッティング結果を用い
た繁雑な後処理が必要である。また、入力音声中でのキ
ーワードおよび未知語相互の出現順序に関する情報や、
未知語に関する確率音響モデルを利用していないため、
時間的に長い単語の中に存在する短い単語を検出してし
まうという部分マッチングの問題も生じることがあり、
これを解決するためには、部分マッチングが生じる可能
性のある単語対について、その相互位置関係に関する情
報を用いた後処理も必要であるという問題がある。
In the above-mentioned prior art, in the first method, even if an unknown word is present in the input voice, a keyword that terminates at that point in synchronization with time can be obtained at high speed. However, depending on the setting of the threshold value range for keyword detection, there is a problem that a keyword is detected at a wrong position or a correct answer is dropped. To deal with this problem, complicated post-processing using word spotting results is necessary. Also, information on the order of appearance of keywords and unknown words in the input voice,
Since we do not use the stochastic acoustic model for unknown words,
The problem of partial matching that a short word existing in a long word in time may be detected may occur.
In order to solve this, there is a problem that it is necessary to perform post-processing on the word pair for which partial matching may occur, using information on the mutual positional relationship.

【0008】これに対し、第二の方法では、入力音声中
でのキーワードおよび未知語相互の出現順序を考慮し、
認識対象単語を表すキーワード隠れマルコフモデルと、
発声以外の雑音区間や想定される複数の未知語を用いて
作成したガーベッジ隠れマルコフモデルを用いること
で、第一の方法で問題となるキーワードの誤った位置で
の検出や正解の脱落、部分マッチングの低減を可能とし
ている。しかし、この方法では、未知語を一つの単語と
みなしており、入力音声がオートマトンで受理されるど
の単語列であるかを推定する連続単語認識を行っている
のと等価であるから、第一の方法のように、入力の時刻
に同期して、各時点で終端するキーワードを求めること
は不可能であり、入力される音声区間が確定、すなわち
発声が終了しなければ、認識結果が求められないという
問題がある。
On the other hand, in the second method, the order of appearance of the keywords and unknown words in the input speech is considered,
A keyword hidden Markov model that represents the recognition target word,
By using the Garbage Hidden Markov Model created using noise intervals other than utterance and multiple unknown words that are supposed to be used, detection of keywords at the wrong position in the first method, omission of correct answer, partial matching It is possible to reduce However, in this method, the unknown word is regarded as one word, and it is equivalent to performing continuous word recognition to estimate which word string the input speech is accepted by the automaton. It is impossible to find a keyword that ends at each time point in synchronization with the input time, as in the method described in (1), and the recognition result is obtained if the input voice section is fixed, that is, if the utterance has not ended. There is a problem that there is no.

【0009】この発明は、上記第一および第二の方法に
代表される従来のワードスポッティング方法が持つ問題
点を解消し、キーワードや未知語の出現順序を考慮しな
がら、入力音声の時刻に同期して高速に、かつ精度良
く、入力音声中に存在するキーワードおよびいくつかの
キーワードの時間的連鎖を検出することが可能なワード
スポッティング方法を提供することを目的とする。
The present invention solves the problems of the conventional word spotting methods represented by the above first and second methods, and synchronizes with the time of the input voice while considering the appearance order of keywords and unknown words. It is therefore an object of the present invention to provide a word spotting method capable of detecting a keyword existing in an input voice and a temporal chain of several keywords at high speed and with high accuracy.

【0010】[0010]

【課題を解決するための手段】この目的を達成するため
に、この発明では、まず、予め検出したい認識対象単語
とその他の未知が出現する順序関係を規定した有限状態
オートマトンと、認識対象単語の音声特徴時系列を表す
キーワード隠れマルコフモデルおよび未知語の音声特徴
時系列や雑音などの非音声の特徴時系列を包括的に表す
ガーベッジ隠れマルコフモデルを作成しておく。次いで
発声者から音声が入力されると、設定したオートマトン
の開始状態から各状態までで受理可能な認識単語および
未知語からなる全ての部分単語系列と、音声始端から各
時刻までの入力音声の特徴系列との間で、部分単語列を
表すキーワードおよびガーベッジ隠れマルコフモデルを
用いて、尤度を時刻に同期して逐次的に求める。さら
に、この尤度を用いて、各時刻が認識対象単語を最後尾
単語とするような各部分単語系列の発声終了である場合
の事後確率と、各時刻が各部分系列の発声途中である場
合の事後確率を算出する。これらの事後確率を時刻毎に
比較して、そのうちで最大値を示すものが、ある部分単
語系列の発声終了である場合に対応する時に、その部分
単語系列中に存在する認識対象単語が部分単語系列内で
の出現順序通りに、最大値を検出した時刻までに現われ
たと認識する。
In order to achieve this object, in the present invention, first, a finite state automaton that defines the order relation in which a recognition target word to be detected and other unknowns appear, and a recognition target word are defined. We create a keyword hidden Markov model that represents a time series of speech features and a garbage hidden Markov model that comprehensively represents a time series of speech features of unknown words and non-speech feature time series such as noise. Next, when a voice is input from the speaker, all subword sequences consisting of recognized words and unknown words that can be accepted from the set state of the automaton to each state, and the characteristics of the input voice from the beginning of the voice to each time With respect to the sequence, the likelihood is sequentially calculated in synchronization with time by using a keyword representing a partial word string and a garbage hidden Markov model. Further, using this likelihood, the posterior probability when each time is the end of the utterance of each partial word sequence that makes the recognition target word the last word, and when each time is in the middle of utterance of each partial sequence Calculate the posterior probability of. These posterior probabilities are compared for each time, and when the one showing the maximum value corresponds to the case where the utterance end of a certain partial word sequence corresponds, the recognition target word existing in the partial word sequence is a partial word. Recognize that they appear by the time when the maximum value is detected, in the order of appearance in the sequence.

【0011】[0011]

【作用】この発明では、予め用意した認識対象単語およ
び未知語の出現順序を規定した有限状態オートマトンと
認識対象単語を表すガーベッジ隠れマルコフモデルおよ
び未知語や雑音などを包括的に表すガーベッジ隠れマル
コフモデルを用いて、設定したオートマトンの開始状態
から各状態までで受理可能な認識対象単語および未知語
からなる全ての部分単語系列と、音声始端から各時刻ま
での入力音声の特徴系列との間で、尤度を時刻に同期し
て逐次的に求め、この尤度から各時刻が認識対象単語を
最後尾単語とするような各部分単語系列の発声終了であ
る場合の事後確率と、各時刻が各部分単語系列の発声途
中である場合の事後確率を算出している。さらに、これ
らの事後確率を時刻毎に比較して、そのうちで最大値を
示すものが、ある部分単語系列の発声終了である場合に
対応する時に、その部分単語系列中に存在する認識対象
単語がその時刻までに現われたと認識する方法となって
いる。すなわち、この発明は、入力音声が最後まで発声
されて音声区間が確定する以前に、オートマトンで規定
されるような一連の単語連鎖の一部分までが発声された
かどうかを、入力の時刻に同期して検出できる方法とな
っている。
According to the present invention, a finite state automaton that defines the appearance order of a recognition target word and an unknown word prepared in advance and a garbage hidden Markov model that represents the recognition target word and a garbage hidden Markov model that comprehensively represents unknown words and noises. Using, all the partial word series consisting of recognition target words and unknown words that can be accepted from the start state of the automaton set to each state, and between the feature series of the input speech from the speech start end to each time, The likelihood is sequentially calculated in synchronization with time, and from this likelihood, the posterior probability when each time is the end of utterance of each partial word sequence such that the recognition target word is the last word, and each time is The posterior probability when the partial word sequence is in the middle of utterance is calculated. Furthermore, these posterior probabilities are compared for each time, and when the one showing the maximum value corresponds to the case where the utterance end of a certain partial word sequence corresponds, the recognition target words existing in the partial word sequence are It is a method to recognize that it appeared by that time. That is, the present invention synchronizes with the time of input whether or not a part of a series of word chains as defined by the automaton is uttered before the input voice is uttered to the end and the voice section is determined. It is a method that can be detected.

【0012】[0012]

【実施例】以下、この発明の一実施例を図面を参照しな
がら説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention will be described below with reference to the drawings.

【0013】図1は、この発明の一実施例を示す認識装
置のブロック図である。この図において、1は音声入力
部、2は音声分析部、3は尤度計算部、4は事後確率計
算部、5は認識判定部、6は認識結果出力部、7はキー
ワード隠れマルコフモデル記憶部、8はカーベッジ隠れ
マルコフモデル記憶部、9はオートマトン記憶部、10
は全体の制御部である。
FIG. 1 is a block diagram of a recognition apparatus showing an embodiment of the present invention. In this figure, 1 is a voice input unit, 2 is a voice analysis unit, 3 is a likelihood calculation unit, 4 is a posterior probability calculation unit, 5 is a recognition determination unit, 6 is a recognition result output unit, and 7 is a keyword hidden Markov model storage. Section, 8 is a Carbage hidden Markov model storage section, 9 is an automaton storage section, 10
Is the overall control unit.

【0014】この認識装置の動作の中心は尤度計算部
3、事後確率計算部4、認識判定部5にあるが、最初
に、音声分析部2、キーワード隠れマルコフモデル記憶
部7、ガーベッジ隠れマルコフモデル記憶部8およびオ
ートマトン記憶部9について、以下に説明する。なお、
ここでは、ワードスポッティングの対象としてNw個の
単語からなる認識対象単語セット{Nw}と、入力され
る音声中に現れる認識対象語以外の未知語や雑音を表す
ものとしてNg個の単語からなる未知単語セット{Ng
を考え、合計N=Nw+Ng}個からなる語彙を、有限オ
ートマトンで用いる単語セット{N}とする。
The main part of the operation of this recognizing device is the likelihood calculating unit 3, the posterior probability calculating unit 4, and the recognition determining unit 5. First, the speech analyzing unit 2, the keyword hidden Markov model storage unit 7, and the garbage hidden Markov model. The model storage unit 8 and the automaton storage unit 9 will be described below. In addition,
Here, a recognition target word set {N w } consisting of N w words as a target of word spotting, and N g words representing an unknown word or noise other than the recognition target words appearing in the input speech. Unknown word set consisting of {N g }
, And let the vocabulary consisting of N = N w + N g } in total be the word set {N} used in the finite automaton.

【0015】この認識装置では、認識が可能な入力音声
における認識対象語および認識対象語以外の未知語の出
現順序には制約があり、図2に示すような状態数がQ+
1個の有限状態オートマトンで規定されているとする。
図2のオートマトンにおいて、状態0は開始状態であ
り、この状態を出発点として遷移枝の上に書かれた単語
の内いずれか一つを出力しながら、次々と状態を遷移
し、その結果、ある状態まで達したところまでで得られ
た出力済みの単語列が、その状態まででこのオートマト
ンが受理できる単語列、すなわち、この認識装置で認識
可能な単語列となる。このようなオートマトンによって
規定された状態pから状態qへ単語nを出力しての遷移
を、δ(p,n)=qと表記することにする。オートマ
トン記憶部9には、このような認識対象語とその他の未
知語が出現する順序関係を規定した有限状態オートマト
ンがあらかじめ記憶されている。
In this recognition apparatus, there are restrictions on the appearance order of the recognition target words and the unknown words other than the recognition target words in the recognizable input speech, and the number of states as shown in FIG. 2 is Q +.
It is assumed that it is specified by one finite state automaton.
In the automaton of FIG. 2, state 0 is a start state, and while this state is used as a starting point, one of the words written on the transition branch is output, and the states are transitioned one after another. As a result, The output word string obtained up to a certain state becomes a word string that can be accepted by this automaton up to that state, that is, a word string that can be recognized by this recognition device. The transition of outputting the word n from the state p to the state q defined by such an automaton will be expressed as δ (p, n) = q. The automaton storage unit 9 stores in advance a finite state automaton that defines the order relationship in which such recognition target words and other unknown words appear.

【0016】音声入力部1に入力される音声信号は、音
声分析部2によって特徴抽出が行われ、ある一定時間間
隔(以下では、これをフレームと称する)ごとに特徴量
tへ変換される。この音声分析部2において抽出され
る特徴量としては、線形予測分析法、フーリエ変換法、
フィルタバンク分析法など種々の手法を用いることがで
きる。
The voice signal input to the voice input unit 1 is feature-extracted by the voice analysis unit 2 and is converted into a feature amount x t at a fixed time interval (hereinafter, referred to as a frame). . The feature amount extracted by the voice analysis unit 2 includes a linear prediction analysis method, a Fourier transform method,
Various methods such as a filter bank analysis method can be used.

【0017】各認識対象単語および未知語は、音声分析
部2からの出力として得られる特徴量xtの時系列が、
単語毎にどのような出現順序や出現頻度をもって現れる
かを表現する隠れマルコフモデルで表わすことができ
る。各単語nの隠れマルコフモデルの構造を特徴づける
基本的なパラメータとしては、状態数Jn、隠れマルコ
フモデルの状態jが初期状態となる確率πj n、状態iか
ら状態jへの遷移確率an ij、状態iから状態jへの状
態遷移において入力された音声のある特徴量xtを出力
するというシンボル出力確率bij n(xt)がある。各単
語nの隠れマルコフモデルの状態の内、初期状態確率π
j nが0ではなく初期状態になり得るものの集合を{SI
n}とし、単語の終点を表す最終状態であるものの集合
を{SFn}と表すことにする。認識対象単語に対する
これらのパラメータは、キーワード隠れマルコフモデル
記憶部7に、未知語に対しては、ガーベッジ隠れマルコ
フモデル記憶部8に、それぞれ記憶されているものとす
る。これら、初期状態確率πj n、状態遷移確率aij n
シンボル出力確率bij n(xt)については、例えば、I
EEE ASSP Magazine,Vol.3,No.1(198
6年1月)の4〜16ページに掲載されている論文「A
n Introduction to Hidden Markov Models」で紹介
されているバウムウェルヒ再推定法を応用することによ
り、学習データを用いて各単語に最適な値に設定するこ
とができる。
For each recognition target word and unknown word, the time series of the feature quantity x t obtained as an output from the voice analysis unit 2 is
It can be expressed by a hidden Markov model that expresses the appearance order and appearance frequency of each word. The basic parameters that characterize the structure of the hidden Markov model of each word n are the number of states J n , the probability π j n that the state j of the hidden Markov model becomes the initial state, and the transition probability a from the state i to the state j. n ij, is the symbol output probability of outputting a feature amount x t in the state i of voice inputted in the state transition to state j b ij n (x t) . Of the states of the hidden Markov model of each word n, the initial state probability π
If the set of j n that can be in the initial state instead of 0 is {SI
n }, and a set of final states that represent the end points of words is represented as {SF n }. It is assumed that these parameters for the recognition target word are stored in the keyword hidden Markov model storage unit 7 and the unknown words are stored in the garbage hidden Markov model storage unit 8, respectively. These initial state probability π j n , state transition probability a ij n ,
For the symbol output probability b ij n (x t ), for example, I
EEE ASSP Magazine, Vol.3, No.1 (198
The paper "A
By applying the Baumwelhi re-estimation method introduced in “Introduction to Hidden Markov Models”, it is possible to set the optimum value for each word by using the learning data.

【0018】次に、図1の尤度計算部3、事後確率計算
部4および認識判定部5の動作の説明に現れるいくつか
の変数を以下のように定義する。
Next, some variables appearing in the description of the operations of the likelihood calculating section 3, the posterior probability calculating section 4 and the recognition determining section 5 in FIG. 1 will be defined as follows.

【0019】Lq n(t,j):オートマトンの状態qに
至る単語nの隠れマルコフモデルの状態jでのフレーム
時刻tまでの累積尤度。
L q n (t, j): Cumulative likelihood up to the frame time t in the state j of the hidden Markov model of the word n leading to the state q of the automaton.

【0020】Bq n(t,j):上記Lq n(t,j)に対
応する最適状態遷移パスに対するバックポインタ。
B q n (t, j): Back pointer to the optimum state transition path corresponding to L q n (t, j).

【0021】Lq(t) :フレーム時刻tでオート
マトンの状態qに至る単語列の隠れマルコフモデルの最
大累積尤度。
L q (t): Maximum cumulative likelihood of a hidden Markov model of a word string reaching the state q of the automaton at frame time t.

【0022】Nq(t) :Lq(t)に対応する単
語列の最後尾の単語名。
N q (t): The last word name of the word string corresponding to L q (t).

【0023】Bq(t) :Nq(t)に対応する単
語の開始フレーム時刻から1を引いた値。
B q (t): A value obtained by subtracting 1 from the start frame time of the word corresponding to N q (t).

【0024】Qq(t) :Lq(t)に対応する単
語列の状態qの直前の状態番号。
Q q (t): The state number immediately before the state q of the word string corresponding to L q (t).

【0025】Pq n(t,j):オートマトンの状態qに
至る単語nの隠れマルコフモデルの状態jでのフレーム
時刻tまでの事後確率。
P q n (t, j): posterior probability until the frame time t in the state j of the hidden Markov model of the word n leading to the state q of the automaton.

【0026】PFq n(t):オートマトンの状態qに至
る単語nがフレーム時刻tで発声終了である事後確率。
PF q n (t): posterior probability that the word n reaching the state q of the automaton is the end of utterance at frame time t.

【0027】PCq n(t):オートマトンの状態qに至
る単語nがフレーム時刻tで発声途中である事後確率。
PC q n (t): posterior probability that the word n reaching the state q of the automaton is in the middle of utterance at the frame time t.

【0028】Sq n(t) :オートマトンの状態qに至
る単語nのフレーム時刻tでの隠れマルコフモデルの最
適最終状態。
S q n (t): Optimal final state of the hidden Markov model at the frame time t of the word n leading to the state q of the automaton.

【0029】図3は、図1の認識装置におけるワードス
ポッティング手順の全体的フローチャートを示したもの
で、尤度計算、事後確率計算、認識判定は、それぞれ尤
度計算部3、事後確率計算部4、認識判定部5で行われ
る処理である。ここで、尤度計算、事後確率計算、認識
判定の各処理はフレーム時刻毎に繰り返し行われる
()。さらに、この間に、尤度計算と事後確率計算の
各処理が、まず、オートマトンの状態qに至る単語毎に
繰り返され(と)、それがオートマトンの状態毎に
繰り返される(と)。この繰り返し制御は、制御部
10が司る。また、制御部10は、ワードスポッティン
グ処理に先立って所定の初期設定を行う。
FIG. 3 shows an overall flow chart of the word spotting procedure in the recognition apparatus of FIG. 1. Likelihood calculation, posterior probability calculation, and recognition determination are performed in the likelihood calculation unit 3 and the posterior probability calculation unit 4, respectively. The processing performed by the recognition determination unit 5. Here, each process of likelihood calculation, posterior probability calculation, and recognition determination is repeatedly performed at each frame time (). Further, during this period, the processes of likelihood calculation and posterior probability calculation are first repeated for each word reaching the state q of the automaton (and), and then repeated for each state of the automaton (and). The control unit 10 controls this repetitive control. Further, the control unit 10 performs a predetermined initial setting prior to the word spotting process.

【0030】以下、この発明の実施例におけるワードス
ポッティンク手順を詳述する。ワードスポッティング
は、以下のステップ1〜21を繰り返し行うことによっ
て動作する。なお、ステップ1、2および21は制御部
10での処理、ステップ3からステップ11までは尤度
計算部3で、ステップ12からステップ14までは事後
確率計算部4で、ステップ15からステップ20までは
認識判定部5でそれぞれ行われる処理である。
The word spotting procedure in the embodiment of the present invention will be described in detail below. Word spotting operates by repeating the following steps 1 to 21. Note that steps 1, 2 and 21 are the processes in the control unit 10, steps 3 to 11 are the likelihood calculator 3, steps 12 to 14 are the posterior probability calculator 4, and steps 15 to 20 are the same. Are processes performed by the recognition determination unit 5, respectively.

【0031】<初期設定>ステップ1(初期設定) まず、音声が入力される前に初期設定として、各変数に
次のような値を設定する。
<Initial Setting> Step 1 (Initial Setting) First, the following values are set to each variable as initial setting before voice input.

【0032】[0032]

【数1】 [Equation 1]

【0033】<フレームの繰り返し制御> ステップ2(フレーム時刻毎の繰り返し) フレーム時刻t=1,2,…,Tについて、ステップ3
からステップ21までを繰り返す。ただし、ここでT
は、入力される音声のフレーム総数である。
<Repetition Control of Frame> Step 2 (Repeat every frame time ) For frame time t = 1, 2, ..., T, step 3
To step 21 are repeated. However, here T
Is the total number of frames of input speech.

【0034】<尤度計算> ステップ3(オートマトンの状態毎の繰り返し) オートマトンの状態q=1,2,…,Qについて、ステ
ップ4からステップ11までを繰り返す。
<Likelihood Calculation> Step 3 (Repeat for each state of automaton ) Steps 4 to 11 are repeated for states q = 1, 2, ..., Q of the automaton.

【0035】ステップ4(オートマトンの状態qに至る
単語毎の繰り返し) 次式で与えられるような、オートマトンの状態qに至る
すべての単語nについて、ステップ5からステップ10
までを繰り返す。
Step 4 (reaching the state q of the automaton )
Repeat for each word) Steps 5 to 10 for all words n up to the state q of the automaton as given by
Repeat up to.

【0036】[0036]

【数2】 [Equation 2]

【0037】ステップ5(単語nの初期状態毎の繰り返
し) 単語nのすべての初期状態j∈{SIn}について、ス
テップ6からステップ7を繰り返す。
Step 5 (Repeat every initial state of word n )
Then , steps 6 to 7 are repeated for all initial states jε {SI n } of word n.

【0038】ステップ6(最適パスの決定> もし、オトーマトンの状態qに至る単語nの隠れマルコ
フモデルの初期状態jでのフレーム時刻t−1までの累
積尤度Lq n(t−1,j)が、次式の条件を満たせば、
ステップ7を実行する。
Step 6 (Determination of Optimal Path> If the initial state j of the hidden Markov model of the word n leading to the state q of the otomaton, the cumulative likelihood L q n (t-1, j) up to the frame time t-1. ) Satisfies the following condition,
Perform step 7.

【0039】[0039]

【数3】 [Equation 3]

【0040】ステップ7(最適パスのバックポインタの
再設定) オートマトンの状態q至る単語nの隠れマルコフモデル
の初期状態jでのフレーム時刻t−1までの累積尤度L
q n(t−1,j)およびそれに対応する最適パスのバッ
クポインタBq n(t−1,j)を、次のように再設定す
る。
Step 7 (of the back pointer of the optimum path )
Accumulated likelihood L to frame time t-1 in the initial state j of the hidden Markov model of the state q leading word n reconfiguration) automaton
q n a (t-1, j) and optimal path back pointer B q n of the corresponding (t-1, j), and re-set as follows.

【0041】[0041]

【数4】 [Equation 4]

【0042】ステップ8(単語nの状態毎の繰り返し) 単語nの各状態(j=1,2,…,Jn)について、ス
テップ9を繰り返す。
Step 8 (repeat every state of word n ) Repeat step 9 for each state (j = 1, 2, ..., J n ) of word n.

【0043】ステップ9(尤度および最適パスの計算) オートマトンの状態qに至る単語nの隠れマルコフモデ
ルの各状態jでのフレーム時刻tまでの累積尤度L
q n(t,j)およびそれに対応する最適パスのバックポ
インタBq n(t,j)を、単語nの隠れマルコフモデル
の各パラメータおよびフレーム時刻tにおける入力音声
の特徴量xtを用いて、次のように計算する。
Step 9 (Calculation of Likelihood and Optimal Path) Cumulative likelihood L up to the frame time t in each state j of the hidden Markov model of the word n reaching the state q of the automaton.
q n (t, j) and its corresponding back pointer B q n (t, j) of the optimal path are calculated by using the parameters of the hidden Markov model of the word n and the feature quantity x t of the input speech at the frame time t. , Calculate as follows:

【0044】[0044]

【数5】 [Equation 5]

【0045】このステップ9の動作によって、オートマ
トンの開始状態から各状態までで受理可能な認識対象単
語および未知語からなるすべての部分単語系列と、音声
始端からフレーム時刻tまでの入力音声の特徴系列との
間で、部分単語列を表すキーワードおよびガーベッジ隠
れマルコフモデルによって計算される尤度を求めたこと
になる。
By the operation of this step 9, all partial word sequences consisting of recognition target words and unknown words that can be accepted from the start state of the automaton to each state, and the feature sequence of the input voice from the voice start end to the frame time t Between and, the keywords that represent the partial word string and the likelihood calculated by the Garbage Hidden Markov Model are obtained.

【0046】ステップ10(フレーム時刻tでの最適最
終状態の決定) オートマトンの状態qに至る単語nのフレーム時刻tで
の隠れマルコフモデルの最適最終状態Sq n(t)を、次
式のように決定する。
Step 10 (optimum maximum at frame time t
Determination of Final State) The optimal final state S q n (t) of the hidden Markov model at the frame time t of the word n that reaches the state q of the automaton is determined by the following equation.

【0047】[0047]

【数6】 [Equation 6]

【0048】ステップ11(最適単語列の決定) フレーム時刻tでオートマトンの状態pに至る各単語n
の内で最適なものを選び、次のLq(t),Nq(t),
q(t),Qq(t)を求める。
Step 11 (determination of optimum word string) Each word n reaching the state p of the automaton at frame time t
Of the following L q (t), N q (t),
Find Bq (t) and Qq (t).

【0049】[0049]

【数7】 [Equation 7]

【0050】<事後確率計算> ステップ12(オートマトンの状態毎の繰り返し) オートマトンの状態q=1,2,…,Qについて、ステ
ップ13からステップ14までを繰り返す。
<Posterior Probability Calculation> Step 12 (Repeat for Each State of Automata ) Steps 13 to 14 are repeated for states q = 1, 2, ..., Q of the automaton.

【0051】ステップ13(オートマトンの状態qに至
る単語毎の繰り返し) 次式で与えられるような、オートマトンの状態qに至る
単語nについて、ステップ14を繰り返す。
Step 13 (reaching the state q of the automaton
Repeat for each word) Step 14 is repeated for the word n that reaches the state q of the automaton as given by the following equation.

【0052】[0052]

【数8】 [Equation 8]

【0053】ステップ14(事後確率の算出) 次式によって、オートマトンの状態qに至る認識対象単
語n∈{Nw}がフレーム時刻tで時刻tで発声終了で
ある事後確率PFq n(t)と、オートマトンの状態qに
至る認識対象単語あるいは未知語n∈{N}がフレーム
時刻tで発声途中である事後確率PCq n(t)が求めら
れる。
Step 14 (Calculation of Posterior Probability) The posterior probability PF q n (t) that the recognition target word nε {N w } reaching the state q of the automaton is the utterance end at the frame time t at the time t is calculated by the following equation. Then, the posterior probability PC q n (t) that the recognition target word or the unknown word nε {N} reaching the state q of the automaton is in the middle of utterance at the frame time t is obtained.

【0054】[0054]

【数9】 [Equation 9]

【0055】<認識判定> ステップ15(事後確率最大の単語の決定) ステップ14で求めたオートマトンの状態qに至る認識
対象単語nがフレーム時刻tで発声終了である事後確率
PFq n(t)と、オトーマトンの状態qに至る認識対象
単語あるいは未知語nがフレーム時刻tで発声途中であ
る事後確率PCq n(t)から、フレーム時刻tが単語の
発声終了であるとした場合の最大事後確率を持つ単語n
Fとそれに対応するオートマトンの状態qF、および単語
の発声途中であるとした場合の最大事後確率を持つ単語
Cとそれに対応するオートマトンの状態qCを次のよう
にして求める。
<Recognition Determination> Step 15 (Determination of Word with Maximum Posterior Probability) Posterior probability PF q n (t) that the recognition target word n reaching the state q of the automaton obtained in step 14 is the end of utterance at frame time t. And the posterior probability PC q n (t) that the recognition target word or the unknown word n reaching the state of the otomaton is in the middle of utterance at the frame time t, the maximum posterior when the frame time t is the end of utterance of the word Word n with probability
F and the state q F of the automaton corresponding thereto, and the word n C having the maximum posterior probability when the word is in the middle of utterance and the state q C of the automaton corresponding thereto are obtained as follows.

【0056】[0056]

【数10】 [Equation 10]

【0057】ここで、それぞれの最大事後確率を次のよ
うに定義する。
Here, each maximum posterior probability is defined as follows.

【0058】[0058]

【数11】 [Equation 11]

【0059】このステップ15では、さらに、このAと
Bの大小を比較し、Aの方が大きい場合には、現在のフ
レーム時刻tで終端する単語nFからなるワードスポッ
ティング結果があると判断し、ステップ16へ移る。ま
た、Bの方が大きい場合には、ワードスポッティング結
果なしと判断し、ステップ21へ移る。
In step 15, the magnitudes of A and B are further compared. If A is larger, it is determined that there is a word spotting result consisting of the word n F ending at the current frame time t. , Go to step 16. When B is larger, it is determined that there is no word spotting result, and the process proceeds to step 21.

【0060】ステップ16(ワードスポッティング結果
の単語列の決定) ワードスポッティングされたオートマトンの状態qF
至る最後尾単語がnFであるような単語列を構成する各
認識対象単語を求めるために、q0=qFおよびb0
t,i=0,k=0として、ステップ17からステップ
19を繰り返す。
Step 16 (Word spotting result
Determination of each word string of) In order to obtain each recognition target word that constitutes the word string such that the last word reaching the state q F of the word-spotted automaton is n F , q 0 = q F and b 0 =
Steps 17 to 19 are repeated with t, i = 0 and k = 0.

【0061】ステップ17(認識対象かどうかの判定) もし、Nqi(bi)が認識対象単語であれば、次式のよ
うにkを1増加させると同時に、認識結果Wkとして登
録する。
Step 17 (determination as to whether or not it is a recognition target) If N qi (b i ) is a recognition target word, k is incremented by 1 as shown in the following expression and, at the same time, it is registered as a recognition result W k .

【0062】[0062]

【数12】 [Equation 12]

【0063】ステップ18(直前の単語の終端時刻と状
態の決定)qi(bi)の直前の単語の終端フレーム時刻bi+1と、
その単語が至ったオートマトンの状態qi+1を、次式に
よって求める。
Step 18 (Termination time and status of the immediately preceding word
Determining the state) End frame time b i + 1 of the word immediately before N qi (b i ),
The state of the automaton q i + 1 at which the word has arrived is determined by the following equation.

【0064】[0064]

【数13】 [Equation 13]

【0065】ステップ19(音声の始端まで達したかど
うかの判定) もし、bi+1=0ならば、音声の始端にまで遡って単語
をすべて検索し終ったことになり、ステップ20へ移
る。それ以外の場合は、i=i+1として、ステップ1
7へ戻る。
Step 19 (whether the beginning of the voice has been reached
Emergence of determination) if, if b i + 1 = 0, all become retrieved finished with it the words back to the beginning of the speech, and then proceeds to step 20. Otherwise, set i = i + 1 and go to step 1
Return to 7.

【0066】ステップ20(ワードスポッティング結果
の出力) 認識結果出力部6に、フレーム時刻tで終端するk個の
認識対象単語からなる単語列Wk,Wk-1,…,W1がワ
ードスポッティングされたことを出力する。
Step 20 (Word spotting result
The output of the word string W k , W k−1 , ..., W 1 consisting of k recognition target words ending at the frame time t is output to the recognition result output unit 6.

【0067】<フレーム時刻の更新制御>ステップ21(フレーム時刻の更新) フレーム時刻tを一つ進めて、入力音声の終端に達して
いないならば、ステップ2に戻る。
<Frame Time Update Control> Step 21 (Frame Time Update) The frame time t is advanced by one, and if the end of the input voice has not been reached, the process returns to step 2.

【0068】以上のような動作によって、図1の実施例
では、予め作成して各記憶部7,8,9に記憶しておい
た、認識対象単語とその他の未知語が出現する順序関係
を規定した有限状態オートマトンと、認識対象単語の音
声特徴時系列をあらわすキーワード隠れマルコフモデル
および未知語の音声特徴時系列や雑音などの非音声の特
徴時系列を包括的にあらわすガーベッジ隠れマルコフモ
デルを用いて、制御部10の繰り返し動作制御下で、尤
度計算部3では、オートマトンの開始状態から各状態ま
でで受理可能な認識対象単語および未知語からなる全て
の部分単語系列と、音声始端から各時刻までの入力音声
の特徴系列との間で、部分単語列を表すキーワードおよ
びガーベッジ隠れマルコフモデルによって計算される尤
度が時刻に同期して逐次的に求められる。同様に、事後
確率計算部4では、この尤度を用いることによって、各
時刻が認識対象単語を最後尾単語とするような各部分単
語系列の発声終了である場合の事後確率と、各時刻が各
部分単語系列の発声途中である場合の事後確率が算出さ
れる。認識判定部5では、これらの事後確率のうちで最
大値を示すものが、ある部分単語系列の発声終了である
場合に対応するときに、その部分単語系列中に存在する
認識対象単語が部分単語系列内での出現順序通りに現れ
たと判定し、その認識結果が認識結果出力部6から出力
される。
With the above-described operation, in the embodiment shown in FIG. 1, the order relation in which the recognition target word and the other unknown words appear, which are created in advance and stored in the respective storage units 7, 8 and 9, appear. We use a defined finite state automaton, a keyword hidden Markov model that represents the speech feature time series of recognition target words, and a garbage hidden Markov model that comprehensively represents the speech feature time series of unknown words and non-speech feature time series such as noise. Under the repetitive operation control of the control unit 10, the likelihood calculation unit 3 detects all the partial word sequences consisting of the recognition target word and the unknown word that are acceptable from the start state of the automaton to each state, and from the speech start end. The likelihood calculated by the keyword representing the subword sequence and the Garbage Hidden Markov Model is synchronized with the time to the feature sequence of the input speech up to the time. They are sequentially required. Similarly, the posterior probability calculation unit 4 uses this likelihood to calculate the posterior probability and the time when each time is the end of utterance of each partial word sequence in which the recognition target word is the last word. The posterior probability when each partial word sequence is in the middle of utterance is calculated. In the recognition determination unit 5, when the one showing the maximum value among these posterior probabilities corresponds to the case where the utterance end of a certain partial word series corresponds, the recognition target word existing in the partial word series is a partial word. It is determined that they have appeared in the order of appearance in the series, and the recognition result is output from the recognition result output unit 6.

【0069】したがって、入力音声の時刻に同期して、
各時刻までに存在するキーワードの連鎖を高速に検出で
き、また、オートマトンによって単語列を規定すること
によって誤ったキーワードの検出や脱落を最小限にとど
めることが可能となる。
Therefore, in synchronization with the time of the input voice,
It is possible to detect a chain of keywords existing up to each time at high speed, and by defining a word string by an automaton, it is possible to minimize detection and omission of erroneous keywords.

【0070】[0070]

【発明の効果】以上説明したように、この発明によるワ
ードスポッティング方法では、入力音声が最後まで発声
されて音声区間が確定する以前に、オートマトンで推定
されるような一連の単語連鎖の一部分までが達成された
かどうかを、入力の時刻に同期して検出できる。したが
って、従来の代表的方法が持つ問題点、すなわち、先の
第一の方法のような、誤った位置でのキーワードの検出
や正解の脱落などを生じてしまうという問題点、部分マ
ッチングに対応するために単語対の相互位置関係に関す
る情報を用いた後処理が必要であるという問題点、ま
た、先の第二の方法のような、入力の時刻に同期して、
各時点で終端するキーワードを求めることが不可能であ
り、入力される音声区間が確定(発声が終了)しなけれ
ば認識結果が求められないという問題点をいずれも同時
に解消し、キーワードや未知語の出現順序を考慮しなが
ら、入力音声の時刻に同期して高速に、かつ精度良く、
入力音声中に存在するキーワードおよびいくつかのキー
ワードの時間的連鎖を検出することが可能になる。
As described above, in the word spotting method according to the present invention, even a part of a series of word chains that is estimated by an automaton is detected before the input voice is uttered to the end and the voice section is determined. Whether it has been achieved can be detected synchronously with the time of input. Therefore, it corresponds to the problem of the conventional representative method, that is, the problem that the keyword is detected at the wrong position or the correct answer is lost, like the first method, and the partial matching. In order to do this, post-processing using information about the mutual positional relationship of word pairs is necessary. Also, like the second method above, in synchronization with the time of input,
At the same time, the problem that it is not possible to find the keyword that terminates at each point in time and the recognition result is not obtained unless the input voice section is fixed (utterance ends) is solved. In consideration of the appearance order of, the synchronization with the time of the input voice is fast and accurate,
It becomes possible to detect the keywords present in the input speech and the temporal chain of several keywords.

【図面の簡単な説明】[Brief description of drawings]

【図1】この発明を適用した認識装置の一実施例のブロ
ック構成図である。
FIG. 1 is a block configuration diagram of an embodiment of a recognition device to which the present invention is applied.

【図2】この発明の実施例において用いられている有限
状態オートマトンの一例を示す図である。
FIG. 2 is a diagram showing an example of a finite state automaton used in an embodiment of the present invention.

【図3】この発明の実施例におけるワードスポッティン
グ手順の全体的フローチャートである。
FIG. 3 is an overall flowchart of a word spotting procedure in the embodiment of the present invention.

【符号の説明】[Explanation of symbols]

1 音声入力部 2 音声分析部 3 尤度計算部 4 事後確率計算部 5 認識判定部 6 認識結果出力部 7 キーワード隠れマルコフモデル記憶部 8 ガーベッジ隠れマルコフモデル記憶部 9 オートマトン記憶部 10 制御部 1 voice input unit 2 voice analysis unit 3 likelihood calculation unit 4 posterior probability calculation unit 5 recognition determination unit 6 recognition result output unit 7 keyword hidden Markov model storage unit 8 garbage hidden Markov model storage unit 9 automaton storage unit 10 control unit

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】 予め、認識対象単語とその他の未知語が
出現する順序関係を規定した有限状態オートマトンと、
認識対象単語の音声特徴時系列を表すキーワード隠れマ
ルコフモデルおよび未知語の音声特徴時系列や雑音など
の非音声の特徴時系列を包括的に表すガーベッジ隠れマ
ルコフモデルを作成しておき、 オートマトンの開始状態から各状態までで受理可能な認
識対象単語および未知語からなる全ての部分単語系列
と、音声始端から各時刻までの入力音声の特徴系列との
間で、部分単語列を表すキーワードおよびガーベッジ隠
れマルコフモデルを用いて、尤度を時刻に同期して逐次
的に求め、 上記尤度を用いて、各時刻が認識対象単語を最後尾単語
とするような各部単語系列の発声終了である場合の事後
確率と、各時刻が各部分単語系列の発声途中である場合
の事後確率を算出し、 上記事後確率のうちで最大値を示すものが、ある部分単
語系列の発声終了である場合に対応する時に、その部分
単語系列中に存在する認識対象単語が部分単語系列内で
の出現順序通りに現れたと認識する、ことを特徴とする
ワードスポッティング方法。
1. A finite-state automaton that defines in advance the order relation in which a recognition target word and other unknown words appear.
Create a keyword hidden Markov model that represents the speech feature time series of the recognition target word and a garbage hidden Markov model that comprehensively represents the speech feature time series of unknown words and non-speech feature time series such as noise, and start the automaton. Between all the partial word sequences consisting of recognition target words and unknown words that can be accepted from each state to each state, and the characteristic sequence of the input speech from the beginning of the speech to each time, the keyword representing the partial word string and the garbage hiding Using the Markov model, the likelihood is sequentially obtained in synchronization with time, and using the above likelihood, when each time is the end of utterance of each part word sequence such that the recognition target word is the last word The posterior probability and the posterior probability when each time is in the midst of utterance of each partial word sequence are calculated. When corresponding to the case where the voice termination, word spotting method for the recognition target words that are present in that part word sequence appeared occurrence in sequence in the partial word sequence recognized, characterized in that.
JP5056214A 1993-03-16 1993-03-16 Word spotting method Pending JPH06266386A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5056214A JPH06266386A (en) 1993-03-16 1993-03-16 Word spotting method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5056214A JPH06266386A (en) 1993-03-16 1993-03-16 Word spotting method

Publications (1)

Publication Number Publication Date
JPH06266386A true JPH06266386A (en) 1994-09-22

Family

ID=13020862

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5056214A Pending JPH06266386A (en) 1993-03-16 1993-03-16 Word spotting method

Country Status (1)

Country Link
JP (1) JPH06266386A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0762709A2 (en) * 1995-09-12 1997-03-12 Texas Instruments Incorporated Method and system for enrolling addresses in a speech recognition database
KR100434522B1 (en) * 1997-04-29 2004-07-16 삼성전자주식회사 Voice recognition method using time-base correlation, especially in relation to improving a voice recognition rate by using a time-base correlation without largely modifying a voice recognition system having a prior hmm scheme
EP1758351A3 (en) * 1995-09-12 2008-06-25 Texas Instruments Incorporated Method and system for enrolling addresses in a speech recognition database
US7653541B2 (en) 2002-11-21 2010-01-26 Sony Corporation Speech processing device and method, and program for recognition of out-of-vocabulary words in continuous speech
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
CN112420020A (en) * 2019-08-23 2021-02-26 株式会社东芝 Information processing apparatus and information processing method
KR20230006055A (en) * 2018-07-13 2023-01-10 구글 엘엘씨 End-to-end streaming keyword spotting

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0762709A2 (en) * 1995-09-12 1997-03-12 Texas Instruments Incorporated Method and system for enrolling addresses in a speech recognition database
EP0762709A3 (en) * 1995-09-12 2000-03-29 Texas Instruments Incorporated Method and system for enrolling addresses in a speech recognition database
EP1758351A3 (en) * 1995-09-12 2008-06-25 Texas Instruments Incorporated Method and system for enrolling addresses in a speech recognition database
KR100434522B1 (en) * 1997-04-29 2004-07-16 삼성전자주식회사 Voice recognition method using time-base correlation, especially in relation to improving a voice recognition rate by using a time-base correlation without largely modifying a voice recognition system having a prior hmm scheme
US7653541B2 (en) 2002-11-21 2010-01-26 Sony Corporation Speech processing device and method, and program for recognition of out-of-vocabulary words in continuous speech
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
KR20230006055A (en) * 2018-07-13 2023-01-10 구글 엘엘씨 End-to-end streaming keyword spotting
CN112420020A (en) * 2019-08-23 2021-02-26 株式会社东芝 Information processing apparatus and information processing method

Similar Documents

Publication Publication Date Title
CN108305634B (en) Decoding method, decoder and storage medium
US10074363B2 (en) Method and apparatus for keyword speech recognition
US5995928A (en) Method and apparatus for continuous spelling speech recognition with early identification
US20110077943A1 (en) System for generating language model, method of generating language model, and program for language model generation
US20030088412A1 (en) Pattern recognition using an observable operator model
US8494847B2 (en) Weighting factor learning system and audio recognition system
US7177810B2 (en) Method and apparatus for performing prosody-based endpointing of a speech signal
JPS62231996A (en) Allowance evaluation of word corresponding to voice input
EP1385147A2 (en) Method of speech recognition using time-dependent interpolation and hidden dynamic value classes
US20020026309A1 (en) Speech processing system
EP1443495A1 (en) Method of speech recognition using hidden trajectory hidden markov models
CN111951796A (en) Voice recognition method and device, electronic equipment and storage medium
CN112767921A (en) Voice recognition self-adaption method and system based on cache language model
CN112509560A (en) Voice recognition self-adaption method and system based on cache language model
CN109065026B (en) Recording control method and device
JP3496706B2 (en) Voice recognition method and its program recording medium
JPH06266386A (en) Word spotting method
CN114530141A (en) Chinese and English mixed offline voice keyword recognition method under specific scene and system implementation thereof
JP4666129B2 (en) Speech recognition system using speech normalization analysis
JP2012053218A (en) Sound processing apparatus and sound processing program
JP2996925B2 (en) Phoneme boundary detection device and speech recognition device
EP1488410B1 (en) Distortion measure determination in speech recognition
JPH0777998A (en) Successive word speech recognition device
JP3368989B2 (en) Voice recognition method
JPH08314490A (en) Word spotting type method and device for recognizing voice