JP2000099089A - Search device for continuous voice recognition and search method for continuous voice recognition - Google Patents

Search device for continuous voice recognition and search method for continuous voice recognition

Info

Publication number
JP2000099089A
JP2000099089A JP10268590A JP26859098A JP2000099089A JP 2000099089 A JP2000099089 A JP 2000099089A JP 10268590 A JP10268590 A JP 10268590A JP 26859098 A JP26859098 A JP 26859098A JP 2000099089 A JP2000099089 A JP 2000099089A
Authority
JP
Japan
Prior art keywords
word
string
syllable
optimal
difference model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10268590A
Other languages
Japanese (ja)
Other versions
JP3583299B2 (en
Inventor
Yoshiharu Abe
芳春 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP26859098A priority Critical patent/JP3583299B2/en
Publication of JP2000099089A publication Critical patent/JP2000099089A/en
Application granted granted Critical
Publication of JP3583299B2 publication Critical patent/JP3583299B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To prevent the omission of an optimum word train in search of the first stage and to enable searching candidates of word train without increasing search space in search of the second stage. SOLUTION: An analyzed result made by a voice analyzing means 102 is inputted, an optimum syllable train 4 obtained by an optimum solution obtaining means 2 refers to a difference model 6 in which likelihood corresponding to a syllable train of right solution and a word dictionary 7 in which standard syllable train of words is described. Then, candidates of a word train are searched, and a word train candidate 8 is outputted from a word train searching means 5.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】この発明は、大語彙からなる
連続音声を認識して正解の単語列侯補を求めることがで
きる連続音声認識用の探索装置および探索方法に関する
ものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a search device and a search method for continuous speech recognition capable of recognizing continuous speech composed of large vocabulary words and finding a correct word string candidate.

【0002】[0002]

【従来の技術】大語彙からなる連続音声を認識して単語
列の侯補を求める連続音声認識において、単語列の侯補
を求める探索方法として、1段で探索する方法、およ
び、多段で探索する方法があり、1段で探索する方法と
してはビーム探索法がある。また、多段で探索する方法
としては、1段目で単語グラフを作成し、2段目で単語
グラフの中で単語列侯補を求める方法がある。
2. Description of the Related Art In continuous speech recognition for recognizing continuous speech composed of large vocabulary words and finding candidates for word strings, a single-step search method and a multi-step search method for finding candidate word strings are available. There is a beam search method as a method of searching in one stage. In addition, as a method of searching in multiple stages, there is a method in which a word graph is created in the first stage, and a word string candidate is found in the word graph in the second stage.

【0003】ビーム探索法は、単語列侯補の部分列を表
す仮説として空の単語列の仮説から出発して、入力フレ
ームと同期して、仮説の展開処理を行い単語列を成長さ
せる方法であり、このビーム探索法では、入力フレーム
の進行と共に、可能な単語の組合わせが増え、単語列の
侯補数が増大するので、音響モデルの尤度と言語モデル
の尤度を用いて尤度の低い仮説について枝刈処理が行わ
れる。枝刈処理により、仮説を一定数に押さえて、正解
の単語列が単語列侯補の中から脱落しないようにして探
索を進める。なお、尤度とは、標準音節列が最適音節列
に対応づけられる確率の対数値である。
[0003] The beam search method is a method of starting from an empty word string hypothesis as a hypothesis representing a partial string of a word string candidate, developing the hypothesis in synchronization with an input frame, and growing the word string. In this beam search method, as the number of possible word combinations increases with the progress of the input frame, and the number of candidates of the word string increases, the likelihood of the acoustic model and the likelihood of the language model are used. The pruning process is performed on the low hypothesis. By the pruning process, the number of hypotheses is reduced to a certain number, and the search is advanced so that the correct word string does not drop out of the candidate word strings. The likelihood is a logarithmic value of a probability that a standard syllable string is associated with an optimal syllable string.

【0004】一方、単語グラフを用いる方法は、2段階
で探索を進めるものである。まず、1段目の探索で単語
の候補を残すが、例えば、直前の1単語から派生する単
語の侯補のみを残すことで行う。次の2段目の探索で
は、1段目で作成された単語の侯補を組合わせて、単語
列の侯補を作成する。この際、音響モデルの尤度と言語
モデルの尤度を加えて、尤度の大きい単語列侯補を探索
する。2段目の探索では、スタックデコーダを用いた探
索が用いられる。
On the other hand, the method using a word graph advances the search in two stages. First, word candidates are left in the first-stage search. For example, the search is performed by leaving only candidate words derived from the immediately preceding word. In the next search at the second stage, candidates of the word string are created by combining candidates of the word created at the first stage. At this time, the likelihood of the acoustic model and the likelihood of the language model are added to search for a candidate word string having a large likelihood. In the second search, a search using a stack decoder is used.

【0005】また、多段階で探索する探索方法として
は、1段目で最適解を求め、1段目の最適解の変形によ
り2段目の探索を行うものがあり、特開平5−1814
98号公報に開示されている。この発明では、1段目
で、荒い精度で動的計画法(以下、DP:Dynami
c Programming法という)を用いて最適単
語を高速に求め、2段目で1段目で選択された複数の侯
補パターンデータの中からDP法で認識結果を求めるも
のである。この方法では、最適単語列は必ずしも正解単
語列と一致しないが、正解単語列とかなり類似してい
る。しかし、1段目で正解単語列のパターンデータが見
いだされなければ、2段目でも、正解単語列を求めるこ
とはできない。
As a search method for searching in multiple stages, there is a method in which an optimum solution is obtained in the first stage and a search in the second stage is performed by modifying the optimum solution in the first stage.
No. 98 is disclosed. According to the present invention, in the first stage, dynamic programming (hereinafter referred to as DP: Dynami
c is called a programming method), and a recognition result is obtained by the DP method from a plurality of candidate pattern data selected in the first stage in the second stage. In this method, the optimal word string does not always match the correct word string, but is quite similar to the correct word string. However, if the pattern data of the correct word string is not found in the first row, the correct word string cannot be obtained even in the second row.

【0006】[0006]

【発明が解決しようとする課題】従来の連続音声認識用
の探索装置および連続音声認識用の探索方法は以上のよ
うに構成されているので、1段目の探索で単語侯補の中
に正解が残らない場合、2段目で正解を求めることがで
きないなどの課題があった。また、1段目で正解を残そ
うとすると、単語侯補の数が増大し、2段目の処理で考
慮すべき単語の組み合わせが増大し探索空間が増大する
などの課題があった。さらに、音響的に類似した単語列
侯補が探索されるため認識精度が低下するなどの課題が
あった。
The conventional search device for continuous speech recognition and the conventional search method for continuous speech recognition are constructed as described above. However, there is a problem that the correct answer cannot be obtained in the second stage when the error does not remain. In addition, when trying to leave a correct answer in the first row, there is a problem that the number of word candidates increases, the number of combinations of words to be considered in the processing in the second row increases, and the search space increases. Furthermore, there is a problem that the recognition accuracy is reduced because a word string candidate that is acoustically similar is searched.

【0007】この発明は上記のような課題を解決するた
めになされたもので、1段目の探索では最適な単語列が
脱落することを防止し、2段目の探索では探索空間を増
大させずに単語列の侯補を探索することができる連続音
声認識用の探索装置および連続音声認識用の探索方法を
得ることを目的とする。
SUMMARY OF THE INVENTION The present invention has been made to solve the above-described problems. In the first stage search, an optimal word string is prevented from being dropped, and in the second stage search, the search space is increased. It is an object of the present invention to obtain a search device for continuous speech recognition and a search method for continuous speech recognition that can search for candidates of a word string without having to search.

【0008】[0008]

【課題を解決するための手段】この発明に係る連続音声
認識用の探索装置は、1段目で求めた最適解と正解とが
対応する尤度を表現した差分モデルを設け、1段目で求
めた最適解から差分モデルを適用して、2段目の探索を
行うようにしたものである。
A search device for continuous speech recognition according to the present invention is provided with a difference model expressing the likelihood that the optimal solution obtained in the first stage corresponds to the correct solution, and the first stage provides a difference model. A second stage search is performed by applying a difference model from the obtained optimal solution.

【0009】この発明に係る連続音声認識用の探索装置
は、入力音声を分析する音声分析手段の作成した分析結
果を入力し、音節間の接続を表すオートマトンで制御さ
れ最適な音節列を最適解取得手段により求め、最適解取
得手段が求めた最適音節列を入力し、最適解取得手段が
求めた最適な音節列が正解の音節列に対応する尤度を記
述した差分モデルと単語の標準的な音節列を記述した単
語辞書とを参照し単語列の侯補を探索し単語列の侯補を
単語列探索手段により出力するようにしたものである。
A search device for continuous speech recognition according to the present invention inputs an analysis result created by speech analysis means for analyzing an input speech, and controls an automaton representing a connection between syllables to find an optimal syllable string. A standard model of words and a difference model that describes the likelihood that the optimal syllable sequence obtained by the optimal solution obtaining device is input and the optimal syllable sequence obtained by the optimal solution obtaining device corresponds to the correct syllable sequence. A candidate word string is described with reference to a word dictionary describing a syllable string, and the candidate word string is output by a word string search unit.

【0010】この発明に係る連続音声認識用の探索装置
は、差分モデルにおいて、最適な音節列の部分音節列と
正解の音節列の部分音節列とこれらの対応する尤度を記
述した音節列間変換尤度テーブルとし、単語列探索手段
は音節列間変換尤度テーブルに記述された尤度に基づい
て単語列の侯補を探索するようにしたものである。
A search apparatus for continuous speech recognition according to the present invention is characterized in that, in the difference model, a partial syllable sequence of an optimum syllable sequence, a partial syllable sequence of a correct syllable sequence, and a corresponding syllable sequence describing the likelihood thereof are described. The conversion likelihood table is used, and the word string search means searches for a candidate of a word string based on the likelihood described in the inter-syllable string conversion likelihood table.

【0011】この発明に係る連続音声認識用の探索装置
は、差分モデルにおいて、最適な音節列の部分音節列と
正解の音節列の部分音節列とこれらの対応する尤度を記
述した音節列間変換尤度テーブルと、最適な音節列の長
さと単語辞書の音節列の長さとこれらが対応する尤度を
記述した単語音節長変換尤度テーブルを備え、単語列探
索手段は音節列間変換尤度テーブルと単語音節長変換尤
度テーブルとに記述された尤度に基づいて単語列の侯補
を探索するようにしたものである。
The search apparatus for continuous speech recognition according to the present invention is characterized in that, in the difference model, a partial syllable string of an optimal syllable string, a partial syllable string of a correct syllable string, and a corresponding syllable string describing the likelihood thereof are described. A word syllable length conversion likelihood table which describes an optimal syllable string length, a syllable string length of a word dictionary, and a likelihood corresponding to the syllable string length, and a word string search means. A candidate of a word string is searched based on the likelihood described in the degree table and the word syllable length conversion likelihood table.

【0012】この発明に係る連続音声認識用の探索装置
は、入力音声を分析する音声分析手段の作成した分析結
果を入力し、音節間の接続を表すオートマトンで制御さ
れ最適な音節列を最適解取得手段により求め、最適解取
得手段が求めた最適な音節列が正解の音節列に対応する
尤度を記述した差分モデルと単語の標準的な音節列を記
述した単語辞書を参照し、最適解取得手段が求めた最適
音節列を入力し、単語辞書の各単語について、単語と差
分モデルに記述に基づいて単語辞書の標準的な音節列を
変形した音節グラフとを記述した差分モデル適用単語辞
書を参照し単語列の侯補を探索し単語列の侯補を単語列
探索手段により出力するようにしたものである。
A search device for continuous speech recognition according to the present invention inputs an analysis result created by speech analysis means for analyzing an input speech, and controls an automaton representing a connection between syllables to find an optimal syllable string. The optimal solution obtained by the obtaining means is referred to a difference model describing the likelihood that the optimal syllable string obtained by the obtaining means corresponds to the correct syllable string, and the word dictionary describing the standard syllable string of the word. A difference model-applied word dictionary in which the optimal syllable string obtained by the acquisition means is input, and for each word in the word dictionary, a word and a syllable graph obtained by transforming a standard syllable string of the word dictionary based on the description in the difference model are described. And searches for candidates for the word string, and outputs the candidates for the word string by the word string search means.

【0013】この発明に係る連続音声認識用の探索装置
は、入力音声を分析する音声分析手段の作成した分析結
果を入力し、音節間の接続を表すオートマトンで制御さ
れ最適な音節列を最適解取得手段により求め、最適な音
節列を入力し、最適解取得手段が求めた最適な音節列が
正解の音節列に対応する尤度を記述した差分モデルの記
述に基づいて最適な音節列を変形してグラフを差分モデ
ル適用音節グラフ作成手段により作成し、差分モデル適
用音節グラフ作成手段が作成したグラフを入力して、単
語の標準的な音節列を記述した単語辞書を参照し単語列
の侯補を探索し単語列の侯補を単語列探索手段により出
力するようにしたものである。
A search device for continuous speech recognition according to the present invention inputs an analysis result created by speech analysis means for analyzing input speech, and controls an automaton representing connections between syllables to find an optimal syllable string. The optimal syllable string is input based on the optimal syllable string determined by the acquisition means, and the optimal syllable string determined by the optimal solution acquiring means is transformed based on the description of the difference model describing the likelihood corresponding to the correct syllable string. Then, a graph is created by the difference model applied syllable graph creating means, and the graph created by the difference model applied syllable graph creating means is input, and a word dictionary is described by referring to a word dictionary describing a standard syllable string of the word. In this method, a complement is searched for and a candidate of a word string is output by a word string search unit.

【0014】この発明に係る連続音声認識用の探索装置
は、入力音声を分析する音声分析手段の作成した分析結
果を入力し、音節間の接続を表すオートマトンで制御さ
れ最適な上位N個の音節からなる音節列をNベスト解取
得手段により求め、Nベスト解取得手段が求めた最適な
上位N個の音節からなる音節列を入力し、Nベスト解取
得手段が求めた最適な上位N個の音節からなる音節列が
正解の音節列に対応する尤度を記述した差分モデルと単
語の標準的な音節列を記述した単語辞書とを参照し単語
列の侯補を探索し単語列の侯補を単語列探索手段により
出力するようにしたものである。
A search device for continuous speech recognition according to the present invention inputs an analysis result created by a speech analysis means for analyzing an input speech, and is controlled by an automaton representing a connection between syllables to form an optimum top N syllables. Is obtained by the N best solution obtaining means, and a syllable string composed of the optimum upper N syllables obtained by the N best solution obtaining means is inputted, and the optimum upper N syllables obtained by the N best solution obtaining means are obtained. Search for candidate word strings by referring to a difference model that describes the likelihood that a syllable string consisting of syllables corresponds to the correct syllable string and a word dictionary that describes a standard syllable string of words. Is output by the word string search means.

【0015】この発明に係る連続音声認識用の探索装置
は、入力音声を分析する音声分析手段の作成した分析結
果を入力し、音節間の接続を表すオートマトンで制御さ
れ最適なN個の音節からなる音節列をNベスト解取得手
段により求め、Nベスト解取得手段が求めた最適なN個
の音節からなる音節列が正解の音節列に対応する尤度を
記述した差分モデルと単語の標準的な音節列を記述した
単語辞書を参照し、Nベスト解取得手段が求めた最適音
節列を入力し、単語辞書の各単語について、単語と差分
モデルに記述に基づいて単語辞書の標準的な音節列を変
形した音節グラフとを記述した差分モデル適用単語辞書
を参照し単語列の侯補を探索し単語列の侯補を単語列探
索手段により出力するようにしたものである。
A search device for continuous speech recognition according to the present invention receives an analysis result created by a speech analysis means for analyzing an input speech, and controls the optimal N syllables controlled by an automaton representing connections between syllables. A standard model of a word and a difference model that describes the likelihood that the optimal syllable string composed of N syllables obtained by the N best solution obtaining means determines the likelihood corresponding to the correct syllable string. The syllable string described by the N best solution obtaining means is input by referring to the word dictionary describing the various syllable strings, and for each word in the word dictionary, the standard syllable of the word dictionary is described based on the word and the difference model. A candidate of a word string is searched for with reference to a difference model-applied word dictionary describing a syllable graph in which a string is transformed, and a candidate of a word string is output by a word string search unit.

【0016】この発明に係る連続音声認識用の探索装置
は、入力音声を分析する音声分析手段の作成した分析結
果を入力し、音節間の接続を表すオートマトンで制御さ
れ最適なN個の音節からなる音節列をNベスト解取得手
段により求め、最適な音節列を入力し、Nベスト解取得
手段が求めた最適なN個の音節からなる音節列が正解の
音節列に対応する尤度を記述した差分モデルの記述に基
づいて最適なN個の音節からなる音節列を変形してグラ
フを差分モデル適用音節グラフ作成手段により作成し、
差分モデル適用音節グラフ作成手段が作成したグラフを
入力して、単語の標準的な音節列を記述した単語辞書を
参照し単語列の侯補を探索し単語列の侯補を単語列探索
手段により出力するようにしたものである。
A search device for continuous speech recognition according to the present invention inputs an analysis result created by a speech analysis means for analyzing an input speech, and controls an optimal N syllables controlled by an automaton representing connections between syllables. The best syllable string is obtained by the N best solution obtaining means, and the likelihood that the optimum N syllable string obtained by the N best solution obtaining means corresponds to the correct syllable string is described. Based on the description of the difference model, the optimal syllable string composed of N syllables is transformed to create a graph by the difference model applied syllable graph creation means,
By inputting the graph created by the difference model applied syllable graph creating means, referring to a word dictionary describing a standard syllable string of the word, searching for a candidate of the word string, and finding a candidate of the word string by the word string searching means. This is to output.

【0017】この発明に係る連続音声認識用の探索装置
は、差分モデルにおいて、最適な音節列の長さと単語辞
書の音節列の長さとこれらが対応する尤度を記述した単
語音節長変換尤度テーブルを備え、単語列探索手段は、
単語音節長変換尤度テーブルの尤度に基づいて単語列の
侯補を探索するようにしたものである。
The search apparatus for continuous speech recognition according to the present invention provides a word syllable length conversion likelihood describing an optimal syllable string length, a syllable string length of a word dictionary, and a likelihood corresponding thereto in a difference model. Comprising a table, the word string search means comprises:
A candidate for a word string is searched for based on the likelihood of the word syllable length conversion likelihood table.

【0018】この発明に係る連続音声認識用の探索装置
は、入力音声を分析する音声分析手段の作成した分析結
果を入力し、単語間の接続を表すオートマトンで制御さ
れ最適な単語列を最適解取得手段により求め、最適解取
得手段が求めた最適な単語列を音節列変換手段により音
節列に変換し、音節列変換手段が求めた最適音節列を入
力し、音節列変換手段が求めた音節列が正解の音節列に
対応する尤度を記述した差分モデルと単語の標準的な音
節列を記述した単語辞書とを参照し、単語列の侯補を探
索し単語列の侯補を単語列探索手段により出力するよう
にしたものである。
A search device for continuous speech recognition according to the present invention inputs an analysis result created by speech analysis means for analyzing an input speech, and controls an automaton representing a connection between words to find an optimal word sequence. The syllable string obtained by the syllable string conversion means is converted by the syllable string conversion means into the syllable string obtained by the syllable string conversion means. Referencing the difference model describing the likelihood corresponding to the correct syllable sequence and the word dictionary describing the standard syllable sequence of the word, searching for the candidate of the word sequence and searching for the candidate of the word sequence in the word sequence This is output by the search means.

【0019】この発明に係る連続音声認識用の探索装置
は、入力音声を分析する音声分析手段の作成した分析結
果を入力し、単語間の接続を表すオートマトンで制御さ
れ最適な単語列を最適解取得手段により求め、最適解取
得手段が求めた最適単語列を入力し、最適解取得手段が
求めた最適な単語列が正解の単語列に対応する尤度を記
述した差分モデルと単語を記述した単語辞書とを参照し
単語列の侯補を探索し単語列の侯補を単語列探索手段に
より出力するようにしたものである。
A search device for continuous speech recognition according to the present invention inputs an analysis result created by speech analysis means for analyzing an input speech, and controls an automaton representing a connection between words to find an optimal word sequence. The difference model and the word that describe the likelihood that the optimum word string obtained by the optimum solution obtaining means is input and the optimum word string obtained by the optimum solution obtaining means corresponds to the correct word string are described. A candidate for a word string is searched for with reference to a word dictionary, and a candidate for a word string is output by a word string search unit.

【0020】この発明に係る連続音声認識用の探索装置
は、差分モデルにおいて、単語辞書の単語と対応する最
適な単語列の長さとその尤度を記述した単語音節長変換
尤度テーブルを備え、単語列探索手段は、単語音節長変
換尤度テーブルの尤度に基づいて単語列の侯補を探索す
るようにしたものである。
A search device for continuous speech recognition according to the present invention includes a word syllable length conversion likelihood table in which a difference model describes the length of an optimal word string corresponding to a word in a word dictionary and the likelihood thereof. The word string search means is configured to search for a candidate for a word string based on the likelihood of the word syllable length conversion likelihood table.

【0021】この発明に係る連続音声認識用の探索方法
は、1段目で求めた最適解と正解とが対応する尤度を表
現した差分モデルを設け、1段目で求めた最適解から差
分モデルを適用して、2段目の探索を行うようにしたも
のである。
In the search method for continuous speech recognition according to the present invention, a difference model expressing a likelihood corresponding to the optimum solution obtained in the first step and the correct answer is provided, and the difference is calculated from the optimum solution obtained in the first step. A second-stage search is performed by applying a model.

【0022】この発明に係る連続音声認識用の探索方法
は、入力音声の分析結果を入力し、音節間の接続を表す
オートマトンで制御された最適な音節列を求め、この最
適な音節列が正解の音節列に対応する尤度を記述した差
分モデルと単語の標準的な音節列を記述した単語辞書と
を参照し単語列の侯補を探索し、単語列の侯補を出力す
るようにしたものである。
In the search method for continuous speech recognition according to the present invention, an analysis result of an input speech is inputted, and an optimal syllable string controlled by an automaton representing a connection between syllables is obtained. Search for candidate words in a word string by referring to a difference model describing the likelihood corresponding to the syllable string and a word dictionary describing a standard syllable string of words, and output candidate words in the word string Things.

【0023】この発明に係る連続音声認識用の探索方法
は、入力音声の分析結果を入力し、音節間の接続を表す
オートマトンで制御された最適な音節列を求め、この最
適な音節列が正解の音節列に対応する尤度を記述した差
分モデルと単語の標準的な音節列を記述した単語辞書と
を参照し、単語辞書の各単語について、単語と差分モデ
ルに記述に基づいて単語辞書の標準的な音節列を変形し
た音節グラフとを記述した差分モデル適用単語辞書を参
照し、単語列の侯補を探索し単語列の侯補を出力するよ
うにしたものである。
In the search method for continuous speech recognition according to the present invention, an analysis result of an input speech is inputted, and an optimal syllable string controlled by an automaton representing a connection between syllables is obtained. For each word in the word dictionary, reference is made to the difference model describing the likelihood corresponding to the syllable sequence of the word and the word dictionary describing the standard syllable sequence of the word. With reference to a difference model-applied word dictionary that describes a syllable graph obtained by transforming a standard syllable string, a candidate for the word string is searched for and a candidate for the word string is output.

【0024】この発明に係る連続音声認識用の探索方法
は、入力音声の分析結果を入力し、音節間の接続を表す
オートマトンで制御された最適な音節列を求め、この最
適な音節列が正解の音節列に対応する尤度を記述した差
分モデルの記述に基づいて最適な音節列を変形してグラ
フを作成し、この作成したグラフを入力して、単語の標
準的な音節列を記述した単語辞書を参照し単語列の侯補
を探索し単語列の侯補を出力するようにしたものであ
る。
In the search method for continuous speech recognition according to the present invention, an analysis result of an input speech is input, and an optimum syllable string controlled by an automaton representing a connection between syllables is obtained. Based on the description of the difference model that describes the likelihood corresponding to the syllable sequence of, a graph was created by transforming the optimal syllable sequence, and the created graph was input to describe the standard syllable sequence of words The candidate of the word string is searched by referring to the word dictionary, and the candidate of the word string is output.

【0025】この発明に係る連続音声認識用の探索方法
は、入力音声の分析結果を入力し、音節間の接続を表す
オートマトンで制御され最適な上位N個の音節からなる
音節列を求め、これら最適な上位N個の音節からなる音
節列を入力し、最適な上位N個の音節からなる音節列が
正解の音節列に対応する尤度を記述した差分モデルと単
語の標準的な音節列を記述した単語辞書とを参照し、単
語列の侯補を探索し、単語列の侯補を出力するようにし
たものである。
In the search method for continuous speech recognition according to the present invention, an analysis result of an input speech is input, and an optimal syllable string composed of upper N syllables controlled by an automaton representing a connection between syllables is obtained. Input a syllable string consisting of the optimal top N syllables, a difference model describing the likelihood that the optimal syllable string consisting of the top N syllables corresponds to the correct syllable string, and a standard syllable string of words. By referring to the described word dictionary, a candidate for a word string is searched for, and a candidate for the word string is output.

【0026】この発明に係る連続音声認識用の探索方法
は、入力音声の分析結果を入力し、音節間の接続を表す
オートマトンで制御され最適なN個の音節からなる音節
列を求め、この最適音節列を入力し、この最適なN個の
音節からなる音節列が正解の音節列に対応する尤度を記
述した差分モデルと単語の標準的な音節列を記述した単
語辞書を参照し、この単語辞書の各単語について、単語
と差分モデルに記述に基づいて単語辞書の標準的な音節
列を変形した音節グラフとを記述した差分モデル適用単
語辞書を参照し、単語列の侯補を探索し、単語列の侯補
を出力するようにしたものである。
In the search method for continuous speech recognition according to the present invention, an analysis result of an input speech is inputted, and a syllable string composed of N optimal syllables controlled by an automaton representing a connection between syllables is obtained. A syllable string is input, and a difference model describing the likelihood that the optimal syllable string composed of N syllables corresponds to a correct syllable string and a word dictionary describing a standard syllable string of words are referred to. For each word in the word dictionary, refer to the difference model applied word dictionary that describes a word and a syllable graph obtained by transforming a standard syllable string of the word dictionary based on the description in the difference model, and search for a candidate for the word string. , The candidate of the word string is output.

【0027】この発明に係る連続音声認識用の探索方法
は、入力音声の分析結果を入力し、音節間の接続を表す
オートマトンで制御され最適なN個の音節からなる音節
列を求め、この最適なN個の音節からなる音節列が正解
の音節列に対応する尤度を記述した差分モデルの記述に
基づいて最適なN個の音節からなる音節列を変形してグ
ラフを作成し、この作成したグラフを入力して、単語の
標準的な音節列を記述した単語辞書を参照し単語列の侯
補を探索し単語列の侯補を出力するようにしたものであ
る。
In the search method for continuous speech recognition according to the present invention, an analysis result of an input speech is inputted, and a syllable string composed of N optimal syllables controlled by an automaton representing a connection between syllables is obtained. A graph is created by deforming an optimal syllable string of N syllables based on the description of the difference model that describes the likelihood that the syllable string of N syllables corresponds to the correct syllable string. Then, the input graph is input, a candidate word string is searched for by referring to a word dictionary describing a standard syllable string of the word, and the candidate word string is output.

【0028】この発明に係る連続音声認識用の探索方法
は、入力音声の分析結果を入力し、単語間の接続を表す
オートマトンで制御された最適な単語列を求め、この最
適な単語列を音節列に変換し、この音節列が正解の音節
列に対応する尤度を記述した差分モデルと単語の標準的
な音節列を記述した単語辞書とを参照し、単語列の侯補
を探索し、単語列の侯補を出力するようにしたものであ
る。
In the search method for continuous speech recognition according to the present invention, an analysis result of an input speech is inputted, an optimum word string controlled by an automaton representing a connection between words is obtained, and this optimum word string is converted to a syllable. Converted into a sequence, this syllable sequence is referred to a difference model that describes the likelihood corresponding to the correct syllable sequence and a word dictionary that describes a standard syllable sequence of words, and searches for candidates for the word sequence. A candidate for a word string is output.

【0029】この発明に係る連続音声認識用の探索方法
は、入力音声の分析結果を入力し、単語間の接続を表す
オートマトンで制御された最適な単語列を求め、この最
適な単語列が正解の単語列に対応する尤度を記述した差
分モデルと単語を記述した単語辞書とを参照し、単語列
の侯補を探索し、単語列の侯補を出力するようにしたも
のである。
In the search method for continuous speech recognition according to the present invention, an analysis result of an input speech is inputted, and an optimal word sequence controlled by an automaton representing a connection between words is obtained. With reference to a difference model describing the likelihood corresponding to the word string and a word dictionary describing the word, a candidate for the word string is searched for, and a candidate for the word string is output.

【0030】[0030]

【発明の実施の形態】以下、この発明の実施の一形態を
説明する。 実施の形態1.図1はこの発明の実施の形態1による連
続音声認識用の探索装置を示す構成図であり、図におい
て、101は入力音声、102は入力音声101を分析
して特徴ベクトル時系列103に変換する音声分析手
段、2は特徴ベクトル時系列103を入力し音節ネット
ワーク3に従った最適音節列4を得る最適解取得手段、
5は最適音節列4を入力し差分モデル6と単語辞書7を
参照し単語列侯補8を探索する単語列探索手段である。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS One embodiment of the present invention will be described below. Embodiment 1 FIG. FIG. 1 is a configuration diagram showing a search device for continuous speech recognition according to a first embodiment of the present invention. In FIG. 1, reference numeral 101 denotes an input speech, and 102 analyzes the input speech 101 and converts it into a feature vector time series 103. Voice analysis means 2, an optimal solution obtaining means for inputting the feature vector time series 103 and obtaining an optimal syllable string 4 according to the syllable network 3;
Reference numeral 5 denotes a word string search unit that inputs the optimal syllable string 4 and refers to the difference model 6 and the word dictionary 7 to search for a word string candidate 8.

【0031】図2はこの発明の実施の形態1による連続
音声認識用の探索装置において、音節ネットワークを示
す説明図、図3はこの発明の実施の形態1による連続音
声認識用の探索装置において、基本HMMを示す説明図
である。音節ネットワーク3は音節(一般に単語あるい
はサブワード)の接続をネットワーク表現したものであ
り、図2のように音節間を接続するためのノードと音節
を表すアークから構成される。音節のアークは図3のよ
うな基本HMMの連鎖によって表される。音節内あるい
は音節間の調音結合の影響を考慮するため、基本HMM
として音素環境依存の音素モデルを用いる。
FIG. 2 is an explanatory diagram showing a syllable network in the search device for continuous speech recognition according to the first embodiment of the present invention. FIG. 3 is a diagram showing the search device for continuous speech recognition according to the first embodiment of the present invention. FIG. 3 is an explanatory diagram showing a basic HMM. The syllable network 3 is a network representation of the connection of syllables (generally words or subwords), and is composed of nodes for connecting syllables and arcs representing syllables as shown in FIG. Syllable arcs are represented by a chain of elementary HMMs as shown in FIG. To consider the effect of articulatory coupling within or between syllables, the basic HMM
Is used as a phoneme environment-dependent phoneme model.

【0032】図4はこの発明の実施の形態1による連続
音声認識用の探索装置において、オートマトン制御を示
すアルゴリズム、図5はこの発明の実施の形態1による
連続音声認識用の探索装置において、単語辞書の例を示
す説明図である。最適解取得手段2は、図4に示すオー
トマトン制御1パスDPアルゴリズムに基づいて特徴ベ
クトル時系列103に対応する最適な音節列を取得し、
最適音節列4として出力する。単語列探索手段5は最適
音節列4が入力されると単語列の侯補を単語辞書7を参
照して探索する。単語辞書7は図5のように単語の表記
と標準的な音節列の記述から構成される。
FIG. 4 is an algorithm showing an automaton control in the search apparatus for continuous speech recognition according to the first embodiment of the present invention. FIG. 5 is a diagram showing a search method for continuous speech recognition according to the first embodiment of the present invention. FIG. 4 is an explanatory diagram illustrating an example of a dictionary. The optimal solution acquiring means 2 acquires an optimal syllable string corresponding to the feature vector time series 103 based on the automaton control one-pass DP algorithm shown in FIG.
Output as optimal syllable string 4. When the optimal syllable string 4 is input, the word string search means 5 searches for a candidate of the word string with reference to the word dictionary 7. The word dictionary 7 includes word descriptions and standard syllable string descriptions as shown in FIG.

【0033】図6はこの発明の実施の形態1による連続
音声認識用の探索装置において、差分モデルを示す構成
図、図7はこの発明の実施の形態1による連続音声認識
用の探索装置において、音節列間変換尤度テーブルの例
を示す表図である。差分モデル6は図6のように音節列
間変換尤度テーブル601から構成される。音節列間変
換尤度テーブル601には、図7のように、標準音節列
と対応する最適音節列、および、標準音節列が最適音節
列に変換される尤度が記述されている。この尤度は、標
準音節列が最適音節列に対応づけられる確率の対数値と
してある。標準音節列及び最適音節列の長さは0以上の
任意の値でよい。図では、標準音節列は長さ1、最適音
節列は長さ1〜2の範囲にある。
FIG. 6 is a block diagram showing a difference model in the search device for continuous speech recognition according to the first embodiment of the present invention. FIG. 7 is a diagram showing a search device for continuous speech recognition according to the first embodiment of the present invention. It is a table | surface figure which shows the example of the conversion likelihood table between syllable strings. The difference model 6 includes a syllable string conversion likelihood table 601 as shown in FIG. As shown in FIG. 7, the inter-syllable string conversion likelihood table 601 describes the optimal syllable string corresponding to the standard syllable string, and the likelihood that the standard syllable string is converted into the optimum syllable string. This likelihood is a logarithmic value of the probability that the standard syllable string is associated with the optimal syllable string. The length of the standard syllable string and the optimum syllable string may be any value equal to or greater than zero. In the figure, the standard syllable string has a length of 1 and the optimal syllable string has a length of 1-2.

【0034】図8はこの発明の実施の形態1による連続
音声認識用の探索装置において、差分モデルの学習手段
の例を示す構成図である。差分モデルは図8に示すよう
な構成の学習手段で学習される。音声データベース10
から入力音声101を得て、音声分析手段102で特徴
ベクトル時系列103に変換する。最適解取得手段2は
特徴ベクトル時系列103に対して、音節ネットワーク
3を参照し最適音節列4を出力する。最適音節列4は音
声データベース10から得られる正解単語列11と正解
音節列12とともに、差分モデル学習手段9に入力され
る。差分モデル学習手段9は最適音節列4と正解音節列
12との間でDPマッチングを行い、両者の時間軸上の
対応づけを求める。これを音声データベース10のすべ
ての音声について行うことで、最適音節列4の部分音節
列12が正解音節列の部分音節列と対応する尤度を求
め、差分モデル6を出力する。
FIG. 8 is a block diagram showing an example of learning means for a difference model in the search device for continuous speech recognition according to the first embodiment of the present invention. The difference model is learned by learning means having a configuration as shown in FIG. Voice database 10
, An input speech 101 is obtained, and is converted into a feature vector time series 103 by a speech analysis unit 102. The optimal solution obtaining means 2 refers to the syllable network 3 and outputs the optimal syllable sequence 4 for the feature vector time series 103. The optimal syllable string 4 is input to the difference model learning means 9 together with the correct word string 11 and the correct syllable string 12 obtained from the speech database 10. The difference model learning means 9 performs DP matching between the optimal syllable string 4 and the correct syllable string 12, and finds a correspondence between them on the time axis. By performing this for all the speeches in the speech database 10, the likelihood that the partial syllable sequence 12 of the optimal syllable sequence 4 corresponds to the partial syllable sequence of the correct syllable sequence is obtained, and the difference model 6 is output.

【0035】次に動作について説明する。図9はこの発
明の実施の形態1による連続音声認識用の探索装置にお
いて、単語列探索手段の動作手順を示すフローチャート
である。探索はスタックデコーダに基づいて、図9に示
すフローチャートに沿って行われる。このスタックデコ
ーダでは、最適音節列4の始端から単語の検索を始め
て、単語辞書7の単語を順次結合し、最適音節列4の始
端から終端までをカバーする単語列の侯補を求める。こ
こでは、最適音節列4の始端から途中までをカバーする
単語列侯補を仮説とする。一つの仮説は、属性として、
単語列、終端時刻、評価値を有する。終端時刻はその仮
説の単語列がカバーしている最適音節列4の長さであ
り、最適音節列4の全体の長さをTとすると、終端時刻
は0〜Tの範囲の整数値である。
Next, the operation will be described. FIG. 9 is a flowchart showing an operation procedure of the word string searching means in the search device for continuous speech recognition according to the first embodiment of the present invention. The search is performed according to the flowchart shown in FIG. 9 based on the stack decoder. In this stack decoder, a word search is started from the beginning of the optimal syllable string 4, words in the word dictionary 7 are sequentially combined, and a candidate for a word string covering from the beginning to the end of the optimal syllable string 4 is obtained. Here, a word string candidate covering the beginning to the middle of the optimal syllable string 4 is assumed to be a hypothesis. One hypothesis is that
It has a word string, an end time, and an evaluation value. The end time is the length of the optimal syllable string 4 covered by the word string of the hypothesis, and if the entire length of the optimal syllable string 4 is T, the end time is an integer value in the range of 0 to T. .

【0036】例えば、最適音節列4が「おんせえにんし
きそおち」であった場合、最適音節列4全体をカバーす
る仮説の単語列は「音声(おんせえ)認識(にんしき)
装置(そおち)」であり、その終端時刻は11である。
また、仮説の単語列が「音声(おんせえ)認識(にんし
き)」であった場合、この仮説の終端時刻は8である。
For example, if the optimal syllable string 4 is "Onse-nen-shiki-sochi", the word string of the hypothesis covering the entire optimal syllable string 4 is "speech (onse-e) recognition". )
The end time is 11.
If the word string of the hypothesis is “speech recognition, the end time of the hypothesis is 8.

【0037】つぎに、本実施の形態1で用いたスタック
デコーダの動作を説明する。まず、空の単語列からなる
仮説を作成し、スタックに格納し(ステップST10
1)、スタックが空か否かを判断し(ステップST10
2)、スタックが空となった時点で処理を終了する(ス
テップST103)。次に、ステップST102の判断
でスタックが空でない場合には、スタックの中から評価
値が最大の仮説H0を取り出し(ステップST10
4)、仮説H0の終端時刻をT0とする。次に、仮説H
0の終端時刻T0が最適音節長Tと等しいか否かを判断
し(ステップST111)、最適音節長Tと等しいなら
ば、その仮説の単語列を単語列侯補8の一つとして出力
した後(ステップST112)、ステップST104に
戻る。一方、ステップST111で仮説H0の終端時刻
T0が最適音節長Tと等しくない場合には、単語辞書7
から単語を一つ取り出しその単語をnとする(ステップ
ST105)。以下ステップST106〜ST110ま
での処理を単語辞書の任意の単語nについて行う。
Next, the operation of the stack decoder used in the first embodiment will be described. First, a hypothesis consisting of an empty word string is created and stored in the stack (step ST10).
1) It is determined whether or not the stack is empty (step ST10)
2) When the stack becomes empty, the process ends (step ST103). Next, when the stack is not empty in the judgment of step ST102, the hypothesis H0 having the largest evaluation value is extracted from the stack (step ST10).
4), let T0 be the end time of hypothesis H0. Next, hypothesis H
It is determined whether the end time T0 of 0 is equal to the optimal syllable length T (step ST111). If it is equal to the optimal syllable length T, the word string of the hypothesis is output as one of the word string candidates 8. (Step ST112), and returns to step ST104. On the other hand, if the end time T0 of the hypothesis H0 is not equal to the optimal syllable length T in step ST111, the word dictionary 7
, One word is taken out from the list and the word is set as n (step ST105). Hereinafter, the processing of steps ST106 to ST110 is performed for an arbitrary word n in the word dictionary.

【0038】ステップST106では、T0+1を始端
時刻として終端Tまでの範囲を終端時刻T1(T1:T
0+1〜T)として最適音節列と単語nの標準音節列と
の照合を行う。この照合では部分最適音節列W1と単語
nの標準音節列W2との間で、標準音節列と最適音節列
とが対応する尤度から照合尤度を求める。
In step ST106, the range from T0 + 1 as the start time to the end T is set to the end time T1 (T1: T
0 + 1 to T), and collate the optimal syllable string with the standard syllable string of the word n. In this collation, a matching likelihood is obtained from the likelihood that the standard syllable string and the optimal syllable string correspond between the partial optimal syllable string W1 and the standard syllable string W2 of the word n.

【0039】 W1=X(T0+1)、X(T0+2)〜X(T1) ・・・(1) W2=Y(1)、Y(2)〜Y(J(n)) ・・・(2) T1:T0〜Tの範囲の整数 J(n):単語nの標準音節列長W1 = X (T0 + 1), X (T0 + 2) to X (T1) (1) W2 = Y (1), Y (2) to Y (J (n)) (2) T1: integer in the range of T0 to T J (n): standard syllable string length of word n

【0040】次に、最適音節列と単語nの標準音節列と
の照合は図10のフローチャートに基づいて行う。図1
0はこの発明の実施の形態1による連続音声認識用の探
索装置において、最適音節列と単語nの標準音節列との
照合手順を示すフローチャートである。まず、最適音節
列および単語nの標準音節列を与え(ステップST20
1)、それぞれについて、標準音節列および最適音節列
を状態と遷移からなるグラフG1およびG2に変換する
(ステップST202,ST203)。次に、差分モデ
ルの適用対象が最適音節列か標準音節列かを判断し(ス
テップST204)、差分モデルの適用対象を最適音節
列とした場合、グラフG1に差分モデル6を適用し、変
更後のグラフG1’を求める(ステップST205)。
一方、ステップST204の判断の結果、差分モデルの
適用対象を標準音節列とした場合、グラフG2に差分モ
デル6を適用し、変更後のグラフG2’を求める(ステ
ップST207)。
Next, the collation between the optimal syllable string and the standard syllable string of the word n is performed based on the flowchart of FIG. FIG.
0 is a flowchart showing a procedure for collating the optimum syllable string with the standard syllable string of the word n in the search device for continuous speech recognition according to the first embodiment of the present invention. First, an optimal syllable string and a standard syllable string of the word n are given (step ST20).
1) For each, the standard syllable string and the optimal syllable string are converted into graphs G1 and G2 composed of states and transitions (steps ST202 and ST203). Next, it is determined whether the application target of the difference model is the optimal syllable sequence or the standard syllable sequence (step ST204). When the application target of the difference model is the optimal syllable sequence, the difference model 6 is applied to the graph G1, and Is obtained (step ST205).
On the other hand, as a result of the determination in step ST204, when the application target of the difference model is a standard syllable string, the difference model 6 is applied to the graph G2 to obtain a graph G2 ′ after the change (step ST207).

【0041】ここで、図11を用いてステップST20
2〜ST208の動作を具体例を示して説明する。図1
1はこの発明の実施の形態1による連続音声認識用の探
索装置において、照合動作を示す説明図である。図11
では最適音節列が「おんせにんひそおち」であり、その
うち音節列「にんひ」の部分と標準音節列「にんしき」
との間で照合するときを示す。このとき、ステップST
202によって最適音節列のグラフはG1に、また、ス
テップST203によって標準音節列のグラフはG2と
なる。また、差分モデル6としての音節列間変換尤度テ
ーブル601には、「しき/ひ[−2.3]」、「しき
/しき[−0.1]」、「ひ/ひ[−0.1]」、その
他の音節(Xとする)については、「X/X[0.
0]」という記述があったとする。ステップST204
で差分モデル6の適用対象を最適音節列とした場合、ス
テップST205でグラフG1は差分モデル6により、
G1’「にん(ひ[−0.1]−しき[−2.3])」
と変形される。この結果、グラフG2の「にんしき」と
最適音節列の照合が可能となり、単語列侯補として正解
の単語「認識(にんしき)」を含む単語列を探索できる
ようになる。
Here, referring to FIG. 11, step ST20 will be described.
2 to ST208 will be described with reference to specific examples. FIG.
FIG. 1 is an explanatory diagram showing a collation operation in the search device for continuous speech recognition according to the first embodiment of the present invention. FIG.
The optimal syllable sequence is "Onsenninhisosochi", of which the syllable sequence "Ninhi" and the standard syllable sequence "Ninshiki"
Indicates when to match between At this time, step ST
The graph of the optimal syllable string becomes G1 by 202, and the graph of the standard syllable string becomes G2 by step ST203. In addition, in the syllable string conversion likelihood table 601 as the difference model 6, “dish / hi [−2.3]”, “dish / hide [−0.1]”, “hi / hi [−0. 1] ”and other syllables (referred to as X) are“ X / X [0.
0]]. Step ST204
When the application target of the difference model 6 is an optimal syllable string, the graph G1 is represented by the difference model 6 in step ST205.
G1 '"Nin (hi [-0.1] -shiki [-2.3])"
Is transformed. As a result, it is possible to collate “Ninshi” in the graph G2 with the optimal syllable string, and to search for a word string including the correct word “recognition (Ninshi)” as a candidate word string.

【0042】また、ステップST204で差分モデル6
の適用対象を標準音節列とした場合にも、ステップST
207でグラフG2は差分モデルにより、G2’「にん
(しき[−0.1])−ひ[−2.3]」と変形され
る。この結果、グラフG2の「にんしき」と最適音節列
の照合が可能となり、単語列侯補として正解の単語「認
識(にんしき)」を含む単語列を探索できるようにな
る。ステップST206あるいはステップST208で
変更後のグラフの間(G1’とG2あるいはG1とG
2’)で、次の漸化式を計算することで照合尤度D(W
1,W2)を求める。
In step ST204, the difference model 6
When the target of application is a standard syllable string, the step ST
In 207, the graph G2 is transformed into G2 ′ “Nin ([−0.1]) − H [−2.3]” by the difference model. As a result, it is possible to collate “Ninshi” in the graph G2 with the optimal syllable string, and to search for a word string including the correct word “recognition (Ninshi)” as a candidate word string. Between the graphs changed in step ST206 or ST208 (G1 ′ and G2 or G1 and G
2 ′), the following recurrence formula is calculated to obtain the matching likelihood D (W
1, W2).

【0043】 G(j,n)=0、(j,n)∈{初期ノードの組} ・・・(3) G(j,n)=−∞、(j,n)∈{初期ノードの組以外} ・・・(4) G(j,n)=max G(i,m)+g(i→j)+g(m→n)+ e(i→j,m→n)、(i,m)∈{ノード(j,n)に可能 な遷移} ・・・(5) D(W1,W2)=max G(j,n)、(j,n)∈{最終ノードの組} ・・・(6) ここで、i,jは最適音節列側のグラフの状態、m,n
は標準音節列側のグラフの状態、g(i→j)及びg
(m→n)はそれぞれ、状態遷移i→j及び状態遷移m
→nの対数尤度、e(i→j,m→n)は状態遷移i→
j及び状態遷移m→nに関連づけられた最適音節列側の
音節X(i→j)及び標準音節列側の音節Y(m→n)
の一致度を表し、ここでは、一致したとき0を、不一致
の時−∞としている。
G (j, n) = 0, (j, n) {set of initial nodes} (3) G (j, n) = −), (j, n) {initial node Other than the set} (4) G (j, n) = max G (i, m) + g (i → j) + g (m → n) + e (i → j, m → n), (i, m) {possible transition for node (j, n)} (5) D (W1, W2) = max G (j, n), (j, n) {set of last node} (6) where i and j are graph states on the optimal syllable string side, and m and n
Is the state of the graph on the standard syllable string side, g (i → j) and g
(M → n) are the state transition i → j and the state transition m, respectively.
→ log likelihood of n, e (i → j, m → n) is the state transition i →
j and syllable X (i → j) on the optimal syllable string side and syllable Y (m → n) on the standard syllable string side associated with state transition m → n
Here, 0 is determined when the values match, and −∞ when the values do not match.

【0044】図9のフローチャートにおいて、照合尤度
D(W1,W2)が閾値より高いか否かを判断し(ステ
ップST107)、照合尤度D(W1,W2)が閾値よ
り高くない場合は、ステップST108〜ステップST
110の処理は行わない。一方、ステップST107の
判断の結果、照合尤度D(W1,W2)が閾値より高い
場合は、ステップST108〜ステップST110の処
理を行う。ステップST108では仮説H0をコピーし
て仮説H1を作成し、仮説H1の終端時刻を更新してT
1とし(ステップST109)、仮説H1の単語列に単
語nを加えて単語列を1単語分成長させる。また、仮説
H1の評価値を照合尤度D(W1、W2)分だけ増加す
る。次に、仮説H1をスタックに格納する(ステップS
T110)。なお、仮説H1の評価値には、照合尤度と
共に、単語列の言語モデルの尤度を計算して加える。こ
の場合、言語モデルの尤度は、単語列に対するNグラム
モデルを用いて計算する。
In the flowchart of FIG. 9, it is determined whether or not the matching likelihood D (W1, W2) is higher than the threshold (step ST107). If the matching likelihood D (W1, W2) is not higher than the threshold, Step ST108 to Step ST
Step 110 is not performed. On the other hand, if the result of determination in step ST107 is that the matching likelihood D (W1, W2) is higher than the threshold, the processing of steps ST108 to ST110 is performed. In step ST108, the hypothesis H0 is copied to create the hypothesis H1, the end time of the hypothesis H1 is updated, and
1 (step ST109), the word n is added to the word string of the hypothesis H1, and the word string is grown by one word. Further, the evaluation value of the hypothesis H1 is increased by the matching likelihood D (W1, W2). Next, the hypothesis H1 is stored in the stack (step S1).
T110). The likelihood of the language model of the word string is calculated and added to the evaluation value of the hypothesis H1 together with the matching likelihood. In this case, the likelihood of the language model is calculated using the N-gram model for the word string.

【0045】以上のように、この実施の形態1によれ
ば、探索の1段目の最適解取得手段で求めた最適解から
差分モデルを適用して、探索の2段目で、1段目の最適
解を入力し、差分モデルと単語を記述した単語辞書を参
照し単語列の侯補を探索する単語列探索手段とを備えた
ため、1段目で最適解の脱落を防止できるとともに、2
段目で、正解の脱落を少なくすることができるなどの効
果が得られる。
As described above, according to the first embodiment, the difference model is applied from the optimal solution obtained by the optimal solution obtaining means at the first stage of the search, and the first stage of the search is performed at the second stage of the search. And a word string search unit for searching for a candidate for a word string by referring to a difference model and a word dictionary describing words, thereby preventing dropout of the optimum solution at the first stage.
At the stage, effects such as a decrease in the number of correct answers can be obtained.

【0046】実施の形態2.図12はこの発明の実施の
形態2による連続音声認識用の探索装置において、単語
辞書を示す説明図、図13はこの発明の実施の形態2に
よる連続音声認識用の探索装置において、差分モデルを
示す構成図、図14はこの発明の実施の形態2による連
続音声認識用の探索装置において、単語音節長変換尤度
テーブルの例を示す表図であり、図において、実施の形
態1と同一の符号については同一または相当部分を示す
ので説明を省略する。この実施の形態2の単語辞書7は
図12のように単語nを構成する標準音節列の長さJ
(n)を含んでいる。また、この実施の形態2の差分モ
デル6は図13のように音節列間変換尤度テーブル60
1と単語音節長変換尤度テーブル602を備える。単語
音節長変換尤度テーブル602は、図14のような単語
を構成する標準音節列の長さと最適音節列の長さに対応
づけられる尤度が記述されている。
Embodiment 2 FIG. 12 is an explanatory diagram showing a word dictionary in the search device for continuous speech recognition according to the second embodiment of the present invention. FIG. 13 is a diagram showing a difference model in the search device for continuous speech recognition according to the second embodiment of the present invention. FIG. 14 is a diagram showing an example of a word syllable length conversion likelihood table in the search device for continuous speech recognition according to the second embodiment of the present invention. The same reference numerals are used to indicate the same or corresponding parts, and a description thereof will be omitted. The word dictionary 7 of the second embodiment has a length J of a standard syllable string forming a word n as shown in FIG.
(N). The difference model 6 according to the second embodiment has a syllable sequence conversion likelihood table 60 as shown in FIG.
1 and a word syllable length conversion likelihood table 602. The word syllable length conversion likelihood table 602 describes the likelihood associated with the length of the standard syllable string and the length of the optimal syllable string forming a word as shown in FIG.

【0047】次に動作について説明する。図9のステッ
プST106の照合において、部分最適音節列W1と単
語nの標準音節列W2との照合の尤度には、実施の形態
1で説明した方法で求めた照合尤度D(W1、W2)に
加えて、単語音節長の尤度を加える。この単語音節長の
尤度は、現在照合中の最適の音節長(これは、T1−T
0である)と単語nを構成する標準音節列の長さ(これ
はJ(n)であり、単語辞書7から得られる)とから、
単語音節長変換尤度テーブル602を引いて尤度を求め
る。これにより、最適音節長が単語標準音節長と大きく
異って照合する場合、尤度は小さくなり、図9のステッ
プST107の照合尤度と閾値との判定処理により、ス
テップST108〜ST110の処理がされないことに
なる。
Next, the operation will be described. In the matching in step ST106 in FIG. 9, the likelihood of matching between the sub-optimal syllable string W1 and the standard syllable string W2 of the word n includes the matching likelihood D (W1, W2) obtained by the method described in the first embodiment. ), And the likelihood of the word syllable length is added. The likelihood of the word syllable length is determined by the optimal syllable length currently being matched (this is T1-T
0) and the length of the standard syllable string constituting word n (this is J (n) and obtained from word dictionary 7),
The likelihood is obtained by subtracting the word syllable length conversion likelihood table 602. Accordingly, when the matching is performed with the optimal syllable length largely different from the word standard syllable length, the likelihood is reduced, and the processing of steps ST108 to ST110 is performed by the determination processing of the matching likelihood and the threshold in step ST107 in FIG. Will not be.

【0048】以上のように、この実施の形態2によれ
ば、極端な照合を防ぐことができ、無駄な仮説の生成が
削減され、探索処理の量が減少するなどの効果が得られ
る。
As described above, according to the second embodiment, effects such as extreme collation can be prevented, unnecessary generation of hypotheses can be reduced, and the amount of search processing can be reduced.

【0049】実施の形態3.図15はこの発明の実施の
形態3による連続音声認識用の探索装置を示す構成図で
あり、図において実施の形態1および実施の形態2と同
一の符号については同一または相当部分を示すので説明
を省略する。単語列探索手段5での認識処理に先だっ
て、差分モデル適用単語辞書作成手段14は、単語辞書
7の標準音節列をグラフに変換して差分モデル適用単語
辞書13として記憶する。次に、単語列探索手段5の処
理において、実施の形態1の図9のステップST106
における仮説H0の終端時刻T0より後に単語nを追加
するとき、照合尤度の計算は図10のステップST20
3及びST207の標準音節列をグラフに変換する処理
を省略できる。
Embodiment 3 FIG. 15 is a block diagram showing a search device for continuous speech recognition according to a third embodiment of the present invention. In the figure, the same reference numerals as those in the first and second embodiments denote the same or corresponding parts, and will be described. Is omitted. Prior to the recognition processing by the word string search means 5, the difference model applied word dictionary creating means 14 converts the standard syllable string of the word dictionary 7 into a graph and stores it as the difference model applied word dictionary 13. Next, in the processing of the word string search means 5, step ST106 of FIG.
When the word n is added after the end time T0 of the hypothesis H0 in FIG.
Steps 3 and ST207 for converting the standard syllable string into a graph can be omitted.

【0050】以上のように、この実施の形態3によれ
ば、単語標準音節列を予めグラフに変換した結果をすべ
ての単語について記憶しておくので、メモリ量が増加す
るが、単語列探索手段5の処理において、動的な変換の
演算を省略できるため、演算処理が高速化されるなどの
効果が得られる。
As described above, according to the third embodiment, since the result of previously converting a word standard syllable string into a graph is stored for all words, the amount of memory is increased. In the processing of No. 5, the operation of the dynamic conversion can be omitted, so that effects such as speeding up of the arithmetic processing can be obtained.

【0051】実施の形態4.図16はこの発明の実施の
形態4による連続音声認識用の探索装置を示す構成図で
あり、図において、実施の形態1から実施の形態3と同
一の符号については同一または相当部分を示すので説明
を省略する。この実施の形態4では、差分モデル適用音
節グラフ作成手段15を備え、最適音節列4に対して、
差分モデル6を適用して差分モデル適用入力音節グラフ
16を作成するものである。単語列探索手段5は差分モ
デル適用入力音節グラフ16を入力として単語辞書7を
参照して、単語列侯補8を出力する。したがって、最適
音節列に対して差分モデル6を適用するので、1つの最
適音声について、1回だけ差分モデル6を適用するだけ
で済む。
Embodiment 4 FIG. FIG. 16 is a configuration diagram showing a search device for continuous speech recognition according to a fourth embodiment of the present invention. In the figure, the same reference numerals as those in the first to third embodiments indicate the same or corresponding parts. Description is omitted. In the fourth embodiment, a difference model applied syllable graph creating unit 15 is provided.
The difference model 6 is applied to create a difference model applied input syllable graph 16. The word string search means 5 outputs the word string candidate 8 with reference to the word dictionary 7 with the input syllable graph 16 to which the difference model is applied. Therefore, since the difference model 6 is applied to the optimum syllable string, it is only necessary to apply the difference model 6 only once for one optimum voice.

【0052】以上のように、この実施の形態4によれ
ば、実施の形態1のように、単語列探索の中で、単語n
ごとに最適音節列あるいは単語nの標準音節列に対して
差分モデル6を適用する処理が必要がないため、演算処
理を高速化することができるなどの効果が得られる。
As described above, according to the fourth embodiment, as in the first embodiment, the word n
Since it is not necessary to apply the difference model 6 to the optimal syllable string or the standard syllable string of the word n for each case, it is possible to obtain effects such as speeding up the arithmetic processing.

【0053】実施の形態5.図17はこの発明の実施の
形態5による連続音声認識用の探索装置を示す構成図で
あり、図において実施の形態1と同一の符号については
同一または相当部分を示すので説明を省略する。実施の
形態1では最適な音節列に差分モデル6を適用して、最
適な音節列の変形で正解を求めるものであるが、可能性
としては、正解を求めることができないケースがあっ
た。しかし、この実施の形態5は、実施の形態1の最適
解取得手段2の代りにNベスト解取得手段21を用い
て、音節のNベスト侯補を求めNベスト音節グラフ22
を出力するものである。
Embodiment 5 FIG. 17 is a configuration diagram showing a search device for continuous speech recognition according to a fifth embodiment of the present invention. In the figure, the same reference numerals as those in the first embodiment denote the same or corresponding parts, and a description thereof will be omitted. In the first embodiment, the difference model 6 is applied to the optimum syllable string, and the correct answer is obtained by the deformation of the optimum syllable string. However, in some cases, the correct answer cannot be obtained. However, in the fifth embodiment, the N best solutions of the syllables are obtained by using the N best solution obtaining means 21 instead of the optimum solution obtaining means 2 of the first embodiment, and the N best syllable graph 22 is obtained.
Is output.

【0054】以上のように、この実施の形態5によれ
ば、最適音節のNベスト侯補を求めて、これをNベスト
音節グラフ22として、差分モデル6を用いた単語列侯
補8の探索を行うので、正解が求められないケースが減
少し、認識率を向上させることができるなどの効果が得
られる。
As described above, according to the fifth embodiment, the N best candidates of the optimum syllable are obtained, and the obtained N best candidates are used as the N best syllable graph 22 to search for the word sequence candidates 8 using the difference model 6. Is performed, the number of cases in which a correct answer is not required is reduced, and effects such as an improvement in recognition rate can be obtained.

【0055】実施の形態6.図18はこの発明の実施の
形態6による連続音声認識用の探索装置を示す構成図で
あり、図において実施の形態1から実施の形態5と同一
の符号については同一または相当部分を示すので説明を
省略する。この実施の形態6では、実施の形態3の最適
解取得手段2の代りにNベスト侯補を含むNベスト音節
グラフ22を出力するNベスト解取得手段21を設けた
ものである。実施の形態3では、単語辞書7の単語の標
準音節列に差分モデル6を適用して予め作成した差分モ
デル適用単語辞書13を用いて、最適な音節列から単語
列侯補の探索を行うため、最適音節列は1種類であっ
た。このため、可能性としては差分モデル適用単語辞書
13では、正解の単語列を探索できないことがあった。
しかし、この実施の形態6によれば、最適音節のNベス
ト侯補を求めて、これを曖昧性を許した最適音節グラフ
として、差分モデル適用単語辞書13を用いて単語列侯
補の探索を行うものである。
Embodiment 6 FIG. FIG. 18 is a configuration diagram showing a search device for continuous speech recognition according to a sixth embodiment of the present invention. In the figure, the same reference numerals as those in the first to fifth embodiments denote the same or corresponding parts, and thus will be described. Is omitted. In the sixth embodiment, an N best solution obtaining means 21 for outputting an N best syllable graph 22 including the N best candidates is provided in place of the optimum solution obtaining means 2 of the third embodiment. In the third embodiment, a word sequence candidate is searched from an optimal syllable sequence using a difference model applied word dictionary 13 created in advance by applying the difference model 6 to a standard syllable sequence of words in the word dictionary 7. The optimal syllable sequence was one type. For this reason, there is a possibility that the difference model applied word dictionary 13 cannot search for a correct word string.
However, according to the sixth embodiment, the N best candidates of the optimum syllables are obtained, and the search for the word sequence candidates is performed using the difference model applied word dictionary 13 as the optimum syllable graph allowing ambiguity. Is what you do.

【0056】以上のように、この実施の形態6によれ
ば、正解の単語列が求められないケースを減少させ、認
識率を向上させるという効果が得られるとともに、同じ
Nベスト解取得手段21を用いる実施の形態5に比べ
て、辞書側の音節系列を変形する点が異なり、傾向の異
なる認識結果を得ることができるなどの効果が得られ
る。
As described above, according to the sixth embodiment, it is possible to reduce the number of cases in which a correct word string cannot be obtained and to improve the recognition rate. Compared to Embodiment 5 in which the syllable sequence on the dictionary side is modified, it is possible to obtain an effect such that a recognition result having a different tendency can be obtained.

【0057】実施の形態7.図19はこの発明の実施の
形態7による連続音声認識用の探索装置を示す構成図で
あり、図において実施の形態1から実施の形態6と同一
の符号については同一または相当部分を示すので説明を
省略する。この実施の形態7は、実施の形態4の最適解
取得手段2の代りにNベスト解取得手段21として、音
節のNベスト侯補を求めNベスト音節グラフ22を出力
するものである。実施の形態4では最適解取得手段2で
得られる1通りの最適音節列4に差分モデル6を適用し
て、差分モデル適用入力音節グラフ16を作成し、これ
を最適として単語列侯補8の探索を行っていた。このた
め、可能性としては差分モデル6適用の単語辞書7で
は、正解の単語列を探索できないことがあった。しか
し、実施の形態7においては、最適音節のNベスト侯補
を求め、これに基づいてNベスト音節グラフ22を作成
し、さらに、差分モデル6を適用した上で単語列侯補8
の探索を行うものである。
Embodiment 7 FIG. FIG. 19 is a configuration diagram showing a search device for continuous speech recognition according to a seventh embodiment of the present invention. In the figure, the same reference numerals as those in the first to sixth embodiments denote the same or corresponding parts, and thus will be described. Is omitted. In the seventh embodiment, instead of the optimum solution obtaining means 2 of the fourth embodiment, the N best solution obtaining means 21 obtains the N best candidates of syllables and outputs the N best syllable graph 22. In the fourth embodiment, the difference model 6 is applied to one optimal syllable string 4 obtained by the optimum solution obtaining means 2 to create a difference model applied input syllable graph 16. I was searching. Therefore, there is a possibility that the word dictionary 7 to which the difference model 6 is applied cannot search for a correct word string. However, in the seventh embodiment, the N best candidates of the optimal syllable are obtained, the N best syllable graph 22 is created based on this, and the word sequence candidate 8 is applied after applying the difference model 6.
The search is performed.

【0058】以上のように、この実施の形態7によれ
ば、正解の単語列が求められないケースを減少させ、認
識率を向上させるとともに、同じNベスト解取得手段2
1を用いる実施の形態6に比べて、最適側の音節系列を
変形する点が異なり、傾向の異なる認識結果を得ること
ができるなどの効果が得られる。
As described above, according to the seventh embodiment, the number of cases in which a correct word string cannot be obtained is reduced, the recognition rate is improved, and the same N best solution obtaining means 2 is used.
Compared to the sixth embodiment using No. 1, the difference is that the syllable sequence on the optimum side is deformed, and effects such as recognition results having different tendencies can be obtained.

【0059】実施の形態8.図20はこの発明の実施の
形態8による連続音声認識用の探索装置を示す構成図で
あり、図において実施の形態1から実施の形態7と同一
の符号については同一または相当部分を示すので説明を
省略する。この実施の形態8では、最適解取得手段2
が、単語ネットワーク17を用いて、最適単語列18を
求め、音節列変換手段19によってこれを音節列に戻し
て、最適音節列4を求め、単語列探索手段5の入力とす
るものである。したがって、最適解取得手段2は参照す
るネットワークとして、音節の代りに音響的により長い
単位である単語を用いるため、調音結合の影響を受ける
ことが少ない最適単語列18を求めることができる。
Embodiment 8 FIG. FIG. 20 is a block diagram showing a search apparatus for continuous speech recognition according to an eighth embodiment of the present invention. In the figure, the same reference numerals as those in the first to seventh embodiments denote the same or corresponding parts, and will be described. Is omitted. In the eighth embodiment, the optimal solution obtaining means 2
However, using the word network 17, an optimum word string 18 is obtained, and converted into a syllable string by the syllable string conversion means 19 to obtain the optimum syllable string 4, which is input to the word string search means 5. Therefore, since the optimal solution obtaining means 2 uses a word which is an acoustically longer unit instead of a syllable as a network to be referred to, the optimal word string 18 which is less affected by articulation coupling can be obtained.

【0060】以上のように、この実施の形態8によれ
ば、調音結合の影響を受けることが少ない最適単語列1
8を最適音節列4に戻すため、正解を求める可能性が増
大するなどの効果が得られる。
As described above, according to the eighth embodiment, the optimal word string 1 that is less affected by articulation coupling
Since 8 is returned to the optimal syllable string 4, effects such as an increased possibility of finding a correct answer are obtained.

【0061】実施の形態9.図21はこの発明の実施の
形態9による連続音声認識用の探索装置を示す構成図、
図22はこの発明の実施の形態9による連続音声認識用
の探索装置において、差分モデルを示す構成図、図23
はこの発明の実施の形態9による連続音声認識用の探索
装置において、単語列単語間変換テーブルを示す表図で
あり、図において、実施の形態1から実施の形態8と同
一の符号については同一または相当部分を示すので説明
を省略する。この実施の形態9では、最適解取得手段2
が、単語ネットワーク17を用いて、最適単語列18を
求め、これを単語列探索手段5の入力とするものであ
り、単語列探索手段5は差分モデル6と単語辞書7を参
照して単語列侯補8を探索するものである。
Embodiment 9 FIG. FIG. 21 is a configuration diagram showing a search device for continuous speech recognition according to Embodiment 9 of the present invention.
FIG. 22 is a block diagram showing a difference model in the search device for continuous speech recognition according to the ninth embodiment of the present invention.
FIG. 15 is a table showing a word string word-to-word conversion table in the search device for continuous speech recognition according to the ninth embodiment of the present invention. In the figure, the same reference numerals as those in the first to eighth embodiments denote the same parts. Or, since a corresponding portion is shown, the description is omitted. In the ninth embodiment, the optimal solution obtaining means 2
Is obtained by using the word network 17 to obtain an optimum word string 18 and using the word string as an input to the word string search means 5. The word string search means 5 refers to the difference model 6 and the word dictionary 7 to search for the word string. Search for candidate 8.

【0062】この実施の形態9では、差分モデル6は図
22のように単語列単語間変換尤度テーブル603から
構成され、図23のように最適単語列18の部分単語列
の欄と対応する正解の単語の欄と尤度が記述されてい
る。最適単語列18の部分単語列が単語とともに与えら
れるとこのテーブルを検索することで尤度が得られる。
In the ninth embodiment, the difference model 6 is composed of a word string inter-word conversion likelihood table 603 as shown in FIG. 22, and corresponds to the partial word string column of the optimum word string 18 as shown in FIG. The column of the correct word and the likelihood are described. When the partial word string of the optimum word string 18 is given together with the word, the table is searched to obtain the likelihood.

【0063】次に動作について説明する。図24はこの
発明の実施の形態9による連続音声認識用の探索装置に
おいて、単語列探索手段の単語列探索手順を示すフロー
チャート、図25はこの発明の実施の形態9による連続
音声認識用の探索装置において、単語と最適単語列の部
分単語列と照合手順を示すフローチャートである。単語
列探索手段5における単語列探索は図24のフローチャ
ートに基づいて行われる。ステップST301では図2
5のフローチャートに基づいて行われる。まず、最適単
語列18と単語nとが与えられて(ステップST40
1)、単語nと最適単語列18の部分単語列と照合を行
い、照合の尤度を求める。照合の尤度は、最適単語列1
8の部分が単語nに対応する尤度を差分モデル6の単語
列単語間変換尤度テーブル603を引いて求める(ステ
ップST402)。
Next, the operation will be described. FIG. 24 is a flowchart showing a word string search procedure of the word string search means in the search device for continuous speech recognition according to the ninth embodiment of the present invention, and FIG. 25 is a search for continuous speech recognition according to the ninth embodiment of the present invention. 6 is a flowchart showing a word and a partial word string of an optimum word string and a collation procedure in the apparatus. The word string search in the word string search means 5 is performed based on the flowchart of FIG. In step ST301, FIG.
5 is performed based on the flowchart of FIG. First, the optimal word string 18 and the word n are given (step ST40).
1) Match the word n with the partial word string of the optimum word string 18 to obtain the likelihood of the matching. Matching likelihood is optimal word string 1
The likelihood corresponding to the word n in part 8 is obtained by subtracting the word string inter-word conversion likelihood table 603 of the difference model 6 (step ST402).

【0064】以上のように、この実施の形態9によれ
ば、単語列探索手段5における単語nと最適単語列18
の部分単語列との照合がテーブル検索で実現されるた
め、単語列侯補8の探索が容易になるなどの効果が得ら
れる。
As described above, according to the ninth embodiment, the word n and the optimum word string 18
Since the collation with the partial word string is realized by the table search, effects such as that the search for the word string candidate 8 becomes easy can be obtained.

【0065】[0065]

【発明の効果】以上のように、この発明によれば、1段
目で求めた最適解と正解とが対応する尤度を表現した差
分モデルを設け、1段目で求めた最適解から差分モデル
を適用して、2段目の探索を行うように構成したので、
1段目で最適解の脱落を防止でき、また、2段目で、正
解の脱落を少なくすることができる効果がある。
As described above, according to the present invention, a difference model expressing the likelihood corresponding to the optimal solution obtained at the first stage and the correct solution is provided, and the difference model is obtained from the optimal solution obtained at the first stage. Since the second stage search was performed by applying the model,
The first stage has the effect of preventing the drop of the optimal solution, and the second stage has the effect of reducing the drop of the correct solution.

【0066】この発明によれば、入力音声を分析する音
声分析手段の作成した分析結果を入力し、音節間の接続
を表すオートマトンで制御された最適音節列を最適解取
得手段により求め、最適解取得手段が求めた最適音節列
を入力し、最適解取得手段が求めた最適音節列が正解の
音節列に対応する尤度を記述した差分モデルと単語の標
準的な音節列を記述した単語辞書とを参照し、単語列の
侯補を探索し、単語列侯補を単語列探索手段から出力す
るように構成したので、1段目で最適解の脱落を防止で
き、また、2段目で、正解の脱落を少なくすることがで
きる効果がある。
According to the present invention, the analysis result prepared by the voice analysis means for analyzing the input voice is input, and the optimum syllable string controlled by the automaton representing the connection between syllables is obtained by the optimum solution obtaining means, and the optimum solution is obtained. A difference model that describes the likelihood that the optimal syllable string determined by the acquisition means corresponds to the correct syllable string, and a word dictionary that describes the standard syllable string of words , The candidate of the word string is searched for, and the candidate of the word string is output from the word string searching means. This has the effect of reducing the dropout of correct answers.

【0067】この発明によれば、差分モデルにおいて、
最適音節列の部分音節列と正解の音節列の部分音節列と
これらの対応する尤度を記述した音節列間変換尤度テー
ブルとし、単語列探索手段は音節列間変換尤度テーブル
に記述された尤度に基づいて単語列の侯補を探索するよ
うに構成したので、1段目で最適解の脱落を防止でき、
また、2段目で、正解の脱落を少なくすることができる
効果がある。
According to the present invention, in the difference model,
An inter-syllable string conversion likelihood table describing the partial syllable string of the optimal syllable string and the partial syllable string of the correct syllable string and their corresponding likelihoods, and the word string search means is described in the inter-syllable string conversion likelihood table. The candidate of the word string is searched based on the likelihood, so that the first stage can prevent the drop of the optimal solution,
In the second stage, there is an effect that the drop of correct answers can be reduced.

【0068】この発明によれば、差分モデルにおいて、
最適音節列の部分音節列と正解の音節列の部分音節列と
これらの対応する尤度を記述した音節列間変換尤度テー
ブルと、最適音節列の長さと単語辞書の音節列の長さと
これらが対応する尤度を記述した単語音節長変換尤度テ
ーブルを備え、単語列探索手段は音節列間変換尤度テー
ブルと単語音節長変換尤度テーブルとに記述された尤度
に基づいて単語列侯補を探索するように構成したので、
極端な照合を防ぐことができ、無駄な仮説の生成が削減
され、探索処理の量を減少させることができる効果があ
る。
According to the present invention, in the difference model,
An inter-syllable string conversion likelihood table describing the partial syllable string of the optimal syllable string, the partial syllable string of the correct syllable string, and their corresponding likelihood, the length of the optimal syllable string, the length of the syllable string of the word dictionary, and the like. Has a word syllable length conversion likelihood table describing the likelihood corresponding thereto, and the word string search means uses the word string based on the likelihood described in the inter-syllable string conversion likelihood table and the word syllable length conversion likelihood table. Since it was configured to search for a candidate,
Extreme collation can be prevented, useless hypotheses are reduced, and the amount of search processing can be reduced.

【0069】この発明によれば、入力音声を分析する音
声分析手段の作成した分析結果を入力し、音節間の接続
を表すオートマトンで制御された最適音節列を最適解取
得手段により求め、最適解取得手段が求めた最適音節列
が正解の音節列に対応する尤度を記述した差分モデルと
単語の標準的な音節列を記述した単語辞書を参照し、最
適解取得手段が求めた最適音節列を入力し、単語辞書の
各単語について、単語と差分モデルに記述に基づいて単
語辞書の標準的な音節列を変形した音節グラフとを記述
した差分モデル適用単語辞書を参照し、単語列の侯補を
探索し、単語列侯補を単語列探索手段から出力するよう
に構成したので、メモリ量が増加するが、単語列探索手
段の処理において、動的な変換の演算を省略できるた
め、演算処理を高速化することができる効果がある。
According to the present invention, the analysis result prepared by the voice analysis means for analyzing the input voice is input, and the optimum syllable sequence controlled by the automaton representing the connection between syllables is obtained by the optimum solution obtaining means, and the optimum solution is obtained. The optimal syllable string obtained by the optimal solution obtaining means is referred to the difference model describing the likelihood that the optimum syllable string obtained by the obtaining means corresponds to the correct syllable string and the word dictionary describing the standard syllable string of words. For each word in the word dictionary, refer to the difference model applied word dictionary that describes the word and a syllable graph obtained by transforming the standard syllable string of the word dictionary based on the description in the difference model, Although the configuration is such that the word string candidate is searched for and the word string candidate is output from the word string search means, the amount of memory is increased. However, in the processing of the word string search means, the operation of dynamic conversion can be omitted. Fast processing There is an effect that can be.

【0070】この発明によれば、入力音声を分析する音
声分析手段の作成した分析結果を入力し、音節間の接続
を表すオートマトンで制御された最適音節列を最適解取
得手段により求め、最適音節列を入力し、最適解取得手
段が求めた最適音節列が正解の音節列に対応する尤度を
記述した差分モデルの記述に基づいて最適音節列を変形
してグラフを差分モデル適用音節グラフ作成手段により
作成し、差分モデル適用音節グラフ作成手段が作成した
グラフを入力して、単語の標準的な音節列を記述した単
語辞書を参照し、単語列の侯補を探索し、単語列の侯補
を単語列探索手段から出力するように構成したので、演
算処理を高速化することができる効果がある。
According to the present invention, the analysis result prepared by the voice analysis means for analyzing the input voice is input, the optimum syllable sequence controlled by the automaton representing the connection between syllables is obtained by the optimum solution obtaining means, and the optimum syllable is obtained. Input a sequence and transform the optimal syllable sequence based on the description of the difference model that describes the likelihood that the optimal syllable sequence determined by the optimal solution obtaining means corresponds to the correct syllable sequence. Means, input the graph created by the difference model applied syllable graph creating means, refer to a word dictionary describing a standard syllable string of words, search for candidates of word strings, Since the complement is configured to be output from the word string search means, there is an effect that the arithmetic processing can be sped up.

【0071】この発明によれば、入力音声を分析する音
声分析手段の作成した分析結果を入力し、音節間の接続
を表すオートマトンで制御された最適な上位N個の音節
からなる音節列をNベスト解取得手段により求め、Nベ
スト解取得手段が求めた最適な上位N個の音節からなる
音節列を入力し、Nベスト解取得手段が求めた最適な上
位N個の音節からなる音節列が正解の音節列に対応する
尤度を記述した差分モデルと単語の標準的な音節列を記
述した単語辞書とを参照し単語列の侯補を探索し単語列
の侯補を単語列探索手段により出力するように構成した
ので、正解が求められないケースを減少し、認識率を向
上させることができる効果がある。
According to the present invention, the analysis result created by the speech analysis means for analyzing the input speech is input, and the optimal syllable string composed of the upper N syllables controlled by the automaton representing the connection between the syllables is converted to N. The best syllable string composed of the top N syllables obtained by the best solution obtaining means and obtained by the N best solution obtaining means is inputted. By referring to the difference model describing the likelihood corresponding to the correct syllable sequence and the word dictionary describing the standard syllable sequence of the word, the candidate of the word sequence is searched, and the candidate of the word sequence is searched by the word sequence searching means. Since it is configured to output, it is possible to reduce the number of cases where a correct answer is not required and to improve the recognition rate.

【0072】この発明によれば、入力音声を分析する音
声分析手段の作成した分析結果を入力し、音節間の接続
を表すオートマトンで制御され最適なN個の音節からな
る音節列をNベスト解取得手段により求め、Nベスト解
取得手段が求めた最適なN個の音節からなる音節列が正
解の音節列に対応する尤度を記述した差分モデルと単語
の標準的な音節列を記述した単語辞書を参照し、Nベス
ト解取得手段が求めた最適音節列を入力し、単語辞書の
各単語について、単語と差分モデルに記述に基づいて単
語辞書の標準的な音節列を変形した音節グラフとを記述
した差分モデル適用単語辞書を参照し単語列の侯補を探
索し単語列の侯補を単語列探索手段により出力するよう
に構成したので、正解の単語列が求められないケースを
減少させ、認識率を向上させるという効果が得られると
ともに、辞書側の音節系列を変形する点が異なり、傾向
の異なる認識結果を得ることができる効果がある。
According to the present invention, the analysis result created by the speech analysis means for analyzing the input speech is input, and the optimal syllable string controlled by the automaton representing the connection between syllables and composed of N syllables is converted into the N best syllables. A difference model describing the likelihood that the optimal syllable string composed of N syllables obtained by the obtaining means and obtained by the N best solution obtaining means corresponds to the correct syllable string, and a word describing the standard syllable string of the word A syllable graph obtained by inputting the optimal syllable sequence obtained by the N best solution obtaining means with reference to the dictionary, and transforming a standard syllable sequence of the word dictionary based on the description in the word and the difference model for each word in the word dictionary; Is configured to search for candidates for word strings by referring to the difference model applied word dictionary that describes the word strings, and to output candidates for word strings by means of word string search means. , Recognition rate With effect that improves, except that it modified the syllable sequence of dictionary side, there is an effect that it is possible to obtain different recognition results tend.

【0073】この発明によれば、入力音声を分析する音
声分析手段の作成した分析結果を入力し、音節間の接続
を表すオートマトンで制御され最適なN個の音節からな
る音節列をNベスト解取得手段により求め、最適な音節
列を入力し、Nベスト解取得手段が求めた最適なN個の
音節からなる音節列が正解の音節列に対応する尤度を記
述した差分モデルの記述に基づいて最適なN個の音節か
らなる音節列を変形してグラフを差分モデル適用音節グ
ラフ作成手段により作成し、差分モデル適用音節グラフ
作成手段が作成したグラフを入力して、単語の標準的な
音節列を記述した単語辞書を参照し単語列の侯補を探索
し単語列の侯補を単語列探索手段により出力するように
構成したので、正解の単語列が求められないケースを減
少させ、認識率を向上させるとともに、最適側の音節系
列を変形する点が異なり、傾向の異なる認識結果を得る
ことができるなどの効果が得られる。
According to the present invention, the analysis result created by the speech analysis means for analyzing the input speech is input, and the optimal syllable string composed of N syllables controlled by the automaton representing the connection between the syllables is converted into the N best solution. The optimal syllable string obtained by the obtaining means is input, and the optimal syllable string composed of N syllables obtained by the N best solution obtaining means is described based on the description of the difference model describing the likelihood corresponding to the correct syllable string. A syllable string composed of N syllables is transformed to create a graph by the syllable graph applying means applying the difference model, and the graph created by the syllable graph applying means applying the difference model is inputted, and a standard syllable of the word is input. It is configured to search for candidates of word strings by referring to the word dictionary describing the strings and output candidates of word strings by the word string search means. Rate Causes the above, except that it modified the syllable sequence of optimal side effects such as can be obtained with different recognition results tend to obtain.

【0074】この発明によれば、差分モデルにおいて、
最適な音節列の長さと単語辞書の音節列の長さとこれら
が対応する尤度を記述した単語音節長変換尤度テーブル
を備え、単語列探索手段は、単語音節長変換尤度テーブ
ルの尤度に基づいて単語列の侯補を探索するように構成
したので、極端な照合を防ぐことができ、無駄な仮説の
生成が削減され、探索処理の量を減少させることができ
る効果がある。
According to the present invention, in the difference model,
A word syllable length conversion likelihood table describing the length of an optimal syllable string, the length of a syllable string in a word dictionary, and the likelihood corresponding thereto; Is configured to search for candidates of a word string based on the above. Therefore, it is possible to prevent an extreme collation, reduce the generation of useless hypotheses, and reduce the amount of search processing.

【0075】この発明によれば、入力音声を分析する音
声分析手段の作成した分析結果を入力し、単語間の接続
を表すオートマトンで制御され最適な単語列を最適解取
得手段により求め、最適解取得手段が求めた最適な単語
列を音節列変換手段により音節列に変換し、音節列変換
手段が求めた最適音節列を入力し、音節列変換手段が求
めた音節列が正解の音節列に対応する尤度を記述した差
分モデルと単語の標準的な音節列を記述した単語辞書と
を参照し、単語列の侯補を探索し単語列の侯補を単語列
探索手段により出力するように構成したので、調音結合
の影響を受けることが少ない最適単語列を最適音節列に
戻すため、正解を求める可能性が増大することができる
効果がある。
According to the present invention, the analysis result created by the speech analysis means for analyzing the input speech is input, and the optimum word string controlled by the automaton representing the connection between words is obtained by the optimum solution obtaining means, and the optimum solution is obtained. The optimal word string obtained by the acquiring means is converted into a syllable string by the syllable string converting means, and the optimal syllable string obtained by the syllable string converting means is inputted, and the syllable string obtained by the syllable string converting means becomes a correct syllable string. Referring to the difference model describing the corresponding likelihood and the word dictionary describing the standard syllable string of the word, the candidate of the word string is searched, and the candidate of the word string is output by the word string search means. With this configuration, the optimal word string that is less affected by articulation coupling is returned to the optimal syllable string, so that there is an effect that the possibility of finding a correct answer can be increased.

【0076】この発明によれば、入力音声を分析する音
声分析手段の作成した分析結果を入力し、単語間の接続
を表すオートマトンで制御され最適な単語列を最適解取
得手段により求め、最適解取得手段が求めた最適単語列
を入力し、最適解取得手段が求めた最適な単語列が正解
の単語列に対応する尤度を記述した差分モデルと単語を
記述した単語辞書とを参照し単語列の侯補を探索し単語
列の侯補を単語列探索手段により出力するように構成し
たので、単語列侯補の探索を容易にすることができる効
果がある。
According to the present invention, the analysis result created by the speech analysis means for analyzing the input speech is input, and the optimum word string controlled by the automaton representing the connection between words is obtained by the optimum solution obtaining means. The optimal word string obtained by the obtaining means is input, and the optimal word string obtained by the optimal solution obtaining means is referred to a difference model describing the likelihood corresponding to the correct word string and the word dictionary describing the word. Since the candidate of the string is searched and the candidate of the word string is output by the word string searching means, there is an effect that the search for the candidate of the word string can be facilitated.

【0077】この発明によれば、差分モデルにおいて、
単語辞書の単語と対応する最適な単語列の長さとその尤
度を記述した単語音節長変換尤度テーブルを備え、単語
列探索手段は、単語音節長変換尤度テーブルの尤度に基
づいて単語列の侯補を探索するように構成したので、極
端な照合を防ぐことができ、無駄な仮説の生成が削減さ
れ、探索処理の量を減少させることができる効果があ
る。
According to the present invention, in the difference model,
A word syllable length conversion likelihood table describing the length and likelihood of an optimal word string corresponding to a word in the word dictionary; and a word string search unit, based on the likelihood of the word syllable length conversion likelihood table. Since it is configured to search for a candidate in a column, it is possible to prevent extreme collation, to reduce generation of useless hypotheses, and to reduce the amount of search processing.

【0078】この発明によれば、1段目で求めた最適解
と正解とが対応する尤度を表現した差分モデルを設け、
1段目で求めた最適解から差分モデルを適用して、2段
目の探索を行うように構成したので、1段目で最適解の
脱落を防止でき、また、2段目で、正解の脱落を少なく
することができる効果がある。
According to the present invention, a difference model expressing the likelihood that the optimal solution obtained in the first stage corresponds to the correct solution is provided,
Since the second step is performed by applying the difference model from the optimal solution obtained in the first step, it is possible to prevent the optimal solution from dropping out in the first step, and to determine the correct answer in the second step. There is an effect that the dropout can be reduced.

【0079】この発明によれば、入力音声の分析結果を
入力し、音節間の接続を表すオートマトンで制御された
最適な音節列を求め、この最適な音節列が正解の音節列
に対応する尤度を記述した差分モデルと単語の標準的な
音節列を記述した単語辞書とを参照し単語列の侯補を探
索し、単語列の侯補を出力するように構成したので、極
端な照合を防ぐことができ、無駄な仮説の生成が削減さ
れ、探索処理の量を減少させることができる効果があ
る。
According to the present invention, an analysis result of an input speech is input, and an optimal syllable string controlled by an automaton representing a connection between syllables is obtained, and this optimal syllable string corresponds to a correct syllable string. It is configured to search for candidate word strings and output candidate word strings by referring to a difference model describing the degree and a word dictionary describing a standard syllable string of words. Thus, the generation of useless hypotheses can be reduced, and the amount of search processing can be reduced.

【0080】この発明によれば、入力音声の分析結果を
入力し、音節間の接続を表すオートマトンで制御された
最適な音節列を求め、この最適な音節列が正解の音節列
に対応する尤度を記述した差分モデルと単語の標準的な
音節列を記述した単語辞書とを参照し、単語辞書の各単
語について、単語と差分モデルに記述に基づいて単語辞
書の標準的な音節列を変形した音節グラフとを記述した
差分モデル適用単語辞書を参照し、単語列の侯補を探索
し単語列の侯補を出力するように構成したので、メモリ
量が増加するが、単語列探索手段の処理において、動的
な変換の演算を省略できるため、演算処理を高速化する
ことができる効果がある。
According to the present invention, an analysis result of an input speech is input, and an optimal syllable string controlled by an automaton representing a connection between syllables is obtained, and this optimal syllable string corresponds to a correct syllable string. By referring to the difference model describing the degree and the word dictionary describing the standard syllable string of the word, for each word in the word dictionary, the standard syllable string of the word dictionary is transformed based on the description in the word and the difference model. By referring to the difference model applied word dictionary describing the syllable graph and the candidate word string, the candidate word string is searched for and the candidate word string is output, so that the memory amount increases. In the processing, since the operation of the dynamic conversion can be omitted, there is an effect that the operation process can be sped up.

【0081】この発明によれば、入力音声の分析結果を
入力し、音節間の接続を表すオートマトンで制御された
最適な音節列を求め、この最適な音節列が正解の音節列
に対応する尤度を記述した差分モデルの記述に基づいて
最適な音節列を変形してグラフを作成し、この作成した
グラフを入力して、単語の標準的な音節列を記述した単
語辞書を参照し単語列の侯補を探索し単語列の侯補を出
力するように構成したので、演算処理を高速化すること
ができる効果がある。
According to the present invention, an analysis result of an input speech is inputted, and an optimal syllable string controlled by an automaton representing a connection between syllables is obtained, and this optimal syllable string corresponds to a correct syllable string. A graph is created by transforming the optimal syllable sequence based on the description of the difference model describing the degree, and the created graph is input, and the word sequence is referred to the word dictionary that describes the standard syllable sequence of the word. Since the candidate is searched for and the candidate of the word string is output, there is an effect that the arithmetic processing can be speeded up.

【0082】この発明によれば、入力音声の分析結果を
入力し、音節間の接続を表すオートマトンで制御され最
適な上位N個の音節からなる音節列を求め、これら最適
な上位N個の音節からなる音節列を入力し、最適な上位
N個の音節からなる音節列が正解の音節列に対応する尤
度を記述した差分モデルと単語の標準的な音節列を記述
した単語辞書とを参照し、単語列の侯補を探索し、単語
列の侯補を出力するように構成したので、正解が求めら
れないケースを減少し、認識率を向上させることができ
る効果がある。
According to the present invention, an analysis result of an input speech is input, and an optimal syllable string composed of upper N syllables controlled by an automaton representing connections between syllables is obtained. Syllable string consisting of the following, and refer to the difference model that describes the likelihood that the optimal syllable string consisting of the top N syllables corresponds to the correct syllable string and the word dictionary that describes the standard syllable string of words Since the candidate of the word string is searched for and the candidate of the word string is output, it is possible to reduce the number of cases in which a correct answer is not required and to improve the recognition rate.

【0083】この発明によれば、入力音声の分析結果を
入力し、音節間の接続を表すオートマトンで制御され最
適なN個の音節からなる音節列を求め、この最適音節列
を入力し、この最適なN個の音節からなる音節列が正解
の音節列に対応する尤度を記述した差分モデルと単語の
標準的な音節列を記述した単語辞書を参照し、この単語
辞書の各単語について、単語と差分モデルに記述に基づ
いて単語辞書の標準的な音節列を変形した音節グラフと
を記述した差分モデル適用単語辞書を参照し、単語列の
侯補を探索し、単語列の侯補を出力するように構成した
ので、正解の単語列が求められないケースを減少させ、
認識率を向上させるという効果が得られるとともに、辞
書側の音節系列を変形する点が異なり、傾向の異なる認
識結果を得ることができる効果がある。
According to the present invention, an analysis result of an input speech is inputted, a syllable string composed of N optimum syllables controlled by an automaton representing a connection between syllables is obtained, and this optimum syllable string is inputted. With reference to the difference model describing the likelihood that the syllable string composed of the optimal N syllables corresponds to the correct syllable string and the word dictionary describing the standard syllable string of the word, for each word in this word dictionary, By referring to the difference model applied word dictionary that describes a word and a syllable graph obtained by transforming a standard syllable string of the word dictionary based on the description in the difference model, searching for a candidate for the word string, and finding a candidate for the word string. Because it was configured to output, reduce the case where the correct word string is not found,
The effect of improving the recognition rate is obtained, and the effect is that the syllable sequence on the dictionary side is different, so that recognition results with different tendencies can be obtained.

【0084】この発明によれば、入力音声の分析結果を
入力し、音節間の接続を表すオートマトンで制御され最
適なN個の音節からなる音節列を求め、この最適なN個
の音節からなる音節列が正解の音節列に対応する尤度を
記述した差分モデルの記述に基づいて最適なN個の音節
からなる音節列を変形してグラフを作成し、この作成し
たグラフを入力して、単語の標準的な音節列を記述した
単語辞書を参照し単語列の侯補を探索し単語列の侯補を
出力するように構成したので、正解の単語列が求められ
ないケースを減少させ、認識率を向上させるとともに、
最適側の音節系列を変形する点が異なり、傾向の異なる
認識結果を得ることができるなどの効果が得られる。
According to the present invention, an analysis result of an input speech is input, and an optimal syllable string composed of N syllables controlled by an automaton representing a connection between syllables is obtained. Based on the description of the difference model that describes the likelihood that the syllable string corresponds to the correct syllable string, a graph is created by modifying the optimal syllable string composed of N syllables, and the created graph is input. By referring to a word dictionary that describes a standard syllable string of words, searching for candidates for word strings and outputting candidates for word strings, the number of cases where correct word strings are not obtained is reduced, While improving the recognition rate,
The difference is that the syllable sequence on the optimum side is modified, and effects such as the recognition results having different tendencies can be obtained.

【0085】この発明によれば、入力音声の分析結果を
入力し、単語間の接続を表すオートマトンで制御された
最適な単語列を求め、この最適な単語列を音節列に変換
し、この音節列が正解の音節列に対応する尤度を記述し
た差分モデルと単語の標準的な音節列を記述した単語辞
書とを参照し、単語列の侯補を探索し、単語列の侯補を
出力するように構成したので、調音結合の影響を受ける
ことが少ない最適単語列を最適音節列に戻すため、正解
を求める可能性が増大することができる効果がある。
According to the present invention, an analysis result of an input speech is input, an optimum word string controlled by an automaton representing a connection between words is obtained, and this optimum word string is converted into a syllable string. Referencing a difference model describing the likelihood corresponding to the correct syllable sequence and a word dictionary describing the standard syllable sequence of words, searching for candidate words and outputting candidate words With this configuration, the optimal word string that is less affected by articulation coupling is returned to the optimal syllable string, so that the possibility of finding the correct answer can be increased.

【0086】この発明によれば、入力音声の分析結果を
入力し、単語間の接続を表すオートマトンで制御された
最適な単語列を求め、この最適な単語列が正解の単語列
に対応する尤度を記述した差分モデルと単語を記述した
単語辞書とを参照し、単語列の侯補を探索し、単語列の
侯補を出力するように構成したので、単語列侯補の探索
を容易にすることができる効果がある。
According to the present invention, an analysis result of an input speech is input, and an optimal word sequence controlled by an automaton representing a connection between words is obtained. This optimal word sequence corresponds to a correct word sequence. By referring to the difference model describing the degree and the word dictionary describing the word, the candidate of the word string is searched, and the candidate of the word string is output, so that the search for the candidate of the word string can be easily performed. There is an effect that can be.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 この発明の実施の形態1による連続音声認識
用の探索装置を示す構成図である。
FIG. 1 is a configuration diagram showing a search device for continuous speech recognition according to a first embodiment of the present invention.

【図2】 この発明の実施の形態1による連続音声認識
用の探索装置において、音節ネットワークを示す説明図
である。
FIG. 2 is an explanatory diagram showing a syllable network in the search device for continuous speech recognition according to the first embodiment of the present invention.

【図3】 この発明の実施の形態1による連続音声認識
用の探索装置において、基本HMMを示す説明図であ
る。
FIG. 3 is an explanatory diagram showing a basic HMM in the search device for continuous speech recognition according to the first embodiment of the present invention;

【図4】 この発明の実施の形態1による連続音声認識
用の探索装置において、オートマトン制御を示すアルゴ
リズムである。
FIG. 4 is an algorithm showing automaton control in the search device for continuous speech recognition according to the first embodiment of the present invention.

【図5】 この発明の実施の形態1による連続音声認識
用の探索装置において、単語辞書の例を示す説明図であ
る。
FIG. 5 is an explanatory diagram showing an example of a word dictionary in the search device for continuous speech recognition according to the first embodiment of the present invention.

【図6】 この発明の実施の形態1による連続音声認識
用の探索装置において、差分モデルを示す構成図であ
る。
FIG. 6 is a configuration diagram showing a difference model in the search device for continuous speech recognition according to the first embodiment of the present invention.

【図7】 この発明の実施の形態1による連続音声認識
用の探索装置において、音節列間変換尤度テーブルの例
を示す表図である。
FIG. 7 is a table showing an example of an inter-syllable string conversion likelihood table in the search device for continuous speech recognition according to the first embodiment of the present invention;

【図8】 この発明の実施の形態1による連続音声認識
用の探索装置において、差分モデルの学習手段の例を示
す構成図である。
FIG. 8 is a configuration diagram showing an example of a difference model learning means in the search device for continuous speech recognition according to the first embodiment of the present invention;

【図9】 この発明の実施の形態1による連続音声認識
用の探索装置において、単語列探索手段の動作手順を示
すフローチャートである。
FIG. 9 is a flowchart showing an operation procedure of a word string search unit in the search device for continuous speech recognition according to the first embodiment of the present invention.

【図10】 この発明の実施の形態1による連続音声認
識用の探索装置において、最適音節列と単語nの標準音
節列との照合手順を示すフローチャートである。
FIG. 10 is a flowchart showing a procedure for collating an optimal syllable string with a standard syllable string of word n in the search device for continuous speech recognition according to the first embodiment of the present invention.

【図11】 この発明の実施の形態1による連続音声認
識用の探索装置において、照合動作を示す説明図であ
る。
FIG. 11 is an explanatory diagram showing a collation operation in the search device for continuous speech recognition according to the first embodiment of the present invention.

【図12】 この発明の実施の形態2による連続音声認
識用の探索装置において、単語辞書を示す説明図であ
る。
FIG. 12 is an explanatory diagram showing a word dictionary in the search device for continuous speech recognition according to the second embodiment of the present invention.

【図13】 この発明の実施の形態2による連続音声認
識用の探索装置において、差分モデルを示す構成図であ
る。
FIG. 13 is a configuration diagram showing a difference model in the search device for continuous speech recognition according to the second embodiment of the present invention.

【図14】 この発明の実施の形態2による連続音声認
識用の探索装置において、単語音節長変換尤度テーブル
の例を示す表図である。
FIG. 14 is a table showing an example of a word syllable length conversion likelihood table in the search device for continuous speech recognition according to the second embodiment of the present invention.

【図15】 この発明の実施の形態3による連続音声認
識用の探索装置を示す構成図である。
FIG. 15 is a configuration diagram showing a search device for continuous speech recognition according to a third embodiment of the present invention.

【図16】 この発明の実施の形態4による連続音声認
識用の探索装置を示す構成図である。
FIG. 16 is a configuration diagram showing a search device for continuous speech recognition according to a fourth embodiment of the present invention.

【図17】 この発明の実施の形態5による連続音声認
識用の探索装置を示す構成図である。
FIG. 17 is a configuration diagram showing a search device for continuous speech recognition according to a fifth embodiment of the present invention.

【図18】 この発明の実施の形態6による連続音声認
識用の探索装置を示す構成図である。
FIG. 18 is a configuration diagram showing a search device for continuous speech recognition according to a sixth embodiment of the present invention.

【図19】 この発明の実施の形態7による連続音声認
識用の探索装置を示す構成図である。
FIG. 19 is a configuration diagram showing a search device for continuous speech recognition according to a seventh embodiment of the present invention.

【図20】 この発明の実施の形態8による連続音声認
識用の探索装置を示す構成図である。
FIG. 20 is a configuration diagram showing a search device for continuous speech recognition according to an eighth embodiment of the present invention.

【図21】 この発明の実施の形態9による連続音声認
識用の探索装置を示す構成図である。
FIG. 21 is a configuration diagram showing a search device for continuous speech recognition according to a ninth embodiment of the present invention.

【図22】 この発明の実施の形態9による連続音声認
識用の探索装置において、差分モデルを示す構成図であ
る。
FIG. 22 is a configuration diagram showing a difference model in the search device for continuous speech recognition according to the ninth embodiment of the present invention.

【図23】 この発明の実施の形態9による連続音声認
識用の探索装置において、単語列単語間変換テーブルを
示す表図である。
FIG. 23 is a table showing a word string word-to-word conversion table in the search device for continuous speech recognition according to the ninth embodiment of the present invention;

【図24】 この発明の実施の形態9による連続音声認
識用の探索装置において、単語列探索手段の単語列探索
手順を示すフローチャートである。
FIG. 24 is a flowchart showing a word string search procedure of the word string search means in the search device for continuous speech recognition according to the ninth embodiment of the present invention.

【図25】 この発明の実施の形態9による連続音声認
識用の探索装置において、単語と最適単語列の部分単語
列と照合手順を示すフローチャートである。
FIG. 25 is a flowchart showing a word and a partial word string of an optimal word string and a collation procedure in the search device for continuous speech recognition according to the ninth embodiment of the present invention;

【符号の説明】 2 最適解取得手段、4 最適音節列、5 単語列探索
手段、6 差分モデル、7 単語辞書、8 単語列侯
補、13 差分モデル適用単語辞書、15 差分モデル
適用音節グラフ作成手段、21 Nベスト解取得手段、
101 入力音声、102 音声分析手段、601 音
節列間変換尤度テーブル、602 単語音節長変換尤度
テーブル。
[Description of Signs] 2 Optimum solution obtaining means, 4 Optimum syllable string, 5 Word string searching means, 6 Difference model, 7 Word dictionary, 8 Word string candidate, 13 Difference model applied word dictionary, 15 Difference model applied syllable graph creation Means, 21 N best solution obtaining means,
101 input speech, 102 speech analysis means, 601 syllable sequence conversion likelihood table, 602 word syllable length conversion likelihood table.

Claims (22)

【特許請求の範囲】[Claims] 【請求項1】 入力音声を分析する音声分析手段と、 上記音声分析手段の作成した分析結果について、1段目
で最適解を求めるとともに、上記1段目の最適解の変形
により2段目の探索を行う連続音声認識用の探索装置に
おいて、 上記1段目で求めた最適解と正解とが対応する尤度を表
現した差分モデルを設け、 上記1段目で求めた最適解から上記差分モデルを適用し
て、上記2段目の探索を行うことを特徴とする連続音声
認識用の探索装置。
1. An audio analysis means for analyzing an input audio, and an analysis result created by the audio analysis means is searched for an optimal solution at a first stage, and a second stage is obtained by modifying the optimal solution at the first stage. In a search device for continuous speech recognition performing a search, a difference model expressing a likelihood corresponding to an optimal solution obtained in the first step and a correct answer is provided, and the difference model is calculated from the optimal solution obtained in the first step. A search device for continuous speech recognition, wherein the search is performed in the second stage by applying the search.
【請求項2】 入力音声を分析する音声分析手段と、 上記音声分析手段の作成した分析結果を入力し、音節間
の接続を表すオートマトンで制御された最適音節列を求
める最適解取得手段と、 上記最適解取得手段が求めた最適音節列が正解の音節列
に対応する尤度を記述した差分モデルと、 単語の標準的な音節列を記述した単語辞書と、 上記最適解取得手段が求めた最適音節列を入力し、上記
差分モデルと上記単語辞書とを参照し、単語列の侯補を
探索し、単語列の侯補を出力する単語列探索手段とを備
えたことを特徴とする請求項1記載の連続音声認識用の
探索装置。
2. Speech analysis means for analyzing an input speech, an optimum solution obtaining means for inputting an analysis result created by the speech analysis means and obtaining an optimum syllable sequence controlled by an automaton representing a connection between syllables, A difference model describing the likelihood that the optimal syllable string determined by the optimal solution obtaining means corresponds to a correct syllable string; a word dictionary describing a standard syllable string of words; Word string searching means for inputting an optimal syllable string, referring to the difference model and the word dictionary, searching for a candidate for the word string, and outputting a candidate for the word string. Item 2. A search device for continuous speech recognition according to Item 1.
【請求項3】 差分モデルは、最適音節列の部分音節列
と正解の音節列の部分音節列とこれらの対応する尤度を
記述した音節列間変換尤度テーブルとし、単語列探索手
段は上記音節列間変換尤度テーブルに記述された尤度に
基づいて単語列侯補を探索することを特徴とする請求項
2記載の連続音声認識用の探索装置。
3. The difference model is a syllable string conversion likelihood table that describes a partial syllable string of an optimal syllable string, a partial syllable string of a correct syllable string, and their corresponding likelihoods. 3. The search device for continuous speech recognition according to claim 2, wherein the search for a candidate word string is performed based on the likelihood described in the syllable string conversion likelihood table.
【請求項4】 差分モデルは、最適音節列の部分音節列
と正解の音節列の部分音節列とこれらの対応する尤度を
記述した音節列間変換尤度テーブルと、最適音節列の長
さと単語辞書の音節列の長さとこれらが対応する尤度を
記述した単語音節長変換尤度テーブルを備え、 単語列探索手段は、上記音節列間変換尤度テーブルと上
記単語音節長変換尤度テーブルとに記述された尤度に基
づいて単語列侯補を探索することを特徴とする請求項2
記載の連続音声認識用の探索装置。
4. A difference model comprises: a syllable string conversion likelihood table describing a partial syllable string of an optimal syllable string, a partial syllable string of a correct syllable string, and their corresponding likelihoods; A word syllable length conversion likelihood table that describes the lengths of syllable strings in the word dictionary and the likelihoods corresponding to the word syllable strings; the word string search means includes the inter-syllable string conversion likelihood table and the word syllable length conversion likelihood table. 3. A candidate word string is searched for based on the likelihood described in (2).
A search device for continuous speech recognition according to any of the preceding claims.
【請求項5】 入力音声を分析する音声分析手段と、 上記音声分析手段の作成した分析結果を入力し、音節間
の接続を表すオートマトンで制御された最適音節列を求
める最適解取得手段と、 上記最適解取得手段が求めた最適音節列が正解の音節列
に対応する尤度を記述した差分モデルと、 単語の標準的な音節列を記述した単語辞書と、 上記差分モデルと上記単語辞書を参照し、単語辞書の各
単語について、単語と差分モデルの記述に基づいて単語
辞書の標準的な音節列を変形した音節グラフとを記述し
た差分モデル適用単語辞書と、 上記最適解取得手段が求めた最適音節列を入力し、上記
差分モデル適用単語辞書を参照し、単語列の侯補を探索
し、単語列の侯補を出力する単語列探索手段とを備えた
ことを特徴とする請求項1記載の連続音声認識用の探索
装置。
5. Speech analysis means for analyzing an input speech, an optimum solution obtaining means for inputting the analysis result created by the speech analysis means and obtaining an optimum syllable string controlled by an automaton representing a connection between syllables, A difference model describing the likelihood that the optimal syllable sequence obtained by the optimal solution obtaining means corresponds to a correct syllable sequence, a word dictionary describing a standard syllable sequence of words, the difference model and the word dictionary A difference model-applied word dictionary that describes a word and a syllable graph obtained by transforming a standard syllable string of the word dictionary based on the description of the difference model for each word in the word dictionary; And a word string searching means for inputting the optimal syllable string, referring to the difference model applied word dictionary, searching for a candidate for the word string, and outputting a candidate for the word string. 1 continuous sound Searching device for recognition.
【請求項6】 入力音声を分析する音声分析手段と、 上記音声分析手段の作成した分析結果を入力し、音節間
の接続を表すオートマトンで制御された最適音節列を求
める最適解取得手段と、 上記最適解取得手段が求めた最適な音節列が正解の音節
列に対応する尤度を記述した差分モデルと、 上記最適な音節列を入力し上記差分モデルの記述に基づ
いて上記最適な音節列を変形してグラフを作成する差分
モデル適用音節グラフ作成手段と、 単語の標準的な音節列を記述した単語辞書と、 上記差分モデル適用音節グラフ作成手段が作成したグラ
フを入力して、上記単語辞書を参照し、単語列侯補を探
索し、単語列の侯補を出力する単語列探索手段とを備え
たことを特徴とする請求項1記載の連続音声認識用の探
索装置。
6. Speech analysis means for analyzing input speech, optimal solution obtaining means for inputting the analysis result created by the speech analysis means and obtaining an optimal syllable string controlled by an automaton representing connections between syllables, A difference model describing the likelihood that the optimum syllable string obtained by the optimum solution obtaining means corresponds to the correct syllable string; and the optimum syllable string based on the description of the difference model by inputting the optimum syllable string. Inputting the graph created by the difference model applied syllable graph creating means, and a word dictionary describing a standard syllable string of words; 2. The search apparatus for continuous speech recognition according to claim 1, further comprising: a word string search unit that searches for a word string candidate by referring to a dictionary and outputs a candidate word string.
【請求項7】 入力音声を分析する音声分析手段と、 上記音声分析手段の作成した分析結果を入力し、音節間
の接続を表すオートマトンで制御され最適な上位N個の
音節からなる音節列を求めるNベスト解取得手段と、 上記Nベスト解取得手段が求めた最適な上位N個の音節
からなる音節列が正解の音節列に対応する尤度を記述し
た差分モデルと、 単語の標準的な音節列を記述した単語辞書と、 上記Nベスト解取得手段が求めた最適な上位N個の音節
からなる音節列を入力し、上記差分モデルと上記単語辞
書とを参照し、単語列侯補を探索し、単語列侯補を出力
する単語列探索手段とを備えたことを特徴とする請求項
1記載の連続音声認識用の探索装置。
7. Speech analysis means for analyzing an input speech, and an analysis result created by the speech analysis means is inputted, and a syllable string composed of upper N best syllables controlled by an automaton representing connections between syllables is obtained. A N-best solution obtaining means to be obtained, a difference model describing the likelihood that the optimal syllable string composed of the top N syllables obtained by the N-best solution obtaining means corresponds to a correct syllable string, A word dictionary that describes a syllable string and a syllable string composed of the optimal top N syllables obtained by the N best solution obtaining means are input, and the difference model and the word dictionary are referenced to find a word string candidate. 2. A search device for continuous speech recognition according to claim 1, further comprising: a word string search means for searching and outputting a word string candidate.
【請求項8】 入力音声を分析する音声分析手段と、 上記音声分析手段の作成した分析結果を入力し、音節間
の接続を表すオートマトンで制御された最適なN個の音
節からなる音節列を求めるNベスト解取得手段と、 上記Nベスト解取得手段が求めた最適なN個の音節から
なる音節列が正解の音節列に対応する尤度を記述した差
分モデルと、 単語の標準的な音節列を記述した単語辞書と、 上記差分モデルと上記単語辞書を参照し、単語辞書の各
単語について、単語と差分モデルに記述に基づいて単語
辞書の標準的な音節列を変形した音節グラフとを記述し
た差分モデル適用単語辞書と、 上記Nベスト解取得手段が求めた最適音節列を入力し、
上記差分モデル適用単語辞書を参照し、単語列侯補を探
索し、単語列侯補を出力する単語列探索手段とを備えた
ことを特徴とする請求項1記載の連続音声認識用の探索
装置。
8. A voice analysis means for analyzing an input voice, and an analysis result created by the voice analysis means is input, and a syllable string composed of N optimal syllables controlled by an automaton representing connections between syllables is obtained. N-best solution obtaining means to be obtained, a difference model describing the likelihood that the optimal syllable string composed of N syllables obtained by the N-best solution obtaining means corresponds to a correct syllable string, and a standard syllable of a word A word dictionary describing a sequence, and a syllable graph obtained by transforming a standard syllable sequence of the word dictionary based on the description of the word and the difference model for each word of the word dictionary with reference to the difference model and the word dictionary. The described difference model application word dictionary and the optimal syllable string obtained by the N best solution obtaining means are input,
2. A search device for continuous speech recognition according to claim 1, further comprising: a word string search means for searching for a word string candidate with reference to the difference model applied word dictionary and outputting the word string candidate. .
【請求項9】 入力音声を分析する音声分析手段と、 上記音声分析手段の作成した分析結果を入力し、音節間
の接続を表すオートマトンで制御され最適なN個の音節
からなる音節列を求めるNベスト解取得手段と、 上記Nベスト解取得手段が求めた最適なN個の音節から
なる音節列が正解の音節列に対応する尤度を記述した差
分モデルと、 上記最適な音節列を入力し、上記差分モデルの記述に基
づいて上記最適なN個の音節からなる音節列を変形して
グラフを作成する差分モデル適用音節グラフ作成手段
と、 単語の標準的な音節列を記述した単語辞書と、 上記差分モデル適用音節グラフ作成手段が作成したグラ
フを入力して、上記単語辞書を参照し、単語列侯補を探
索し、単語列侯補を出力する単語列探索手段とを備えた
ことを特徴とする請求項1記載の連続音声認識用の探索
装置。
9. Speech analysis means for analyzing an input speech, and an analysis result created by the speech analysis means is inputted, and an optimal syllable string composed of N syllables controlled by an automaton representing a connection between syllables is obtained. N best solution acquiring means, a difference model describing the likelihood that the optimal N syllable string obtained by the N best solution acquiring means corresponds to a correct syllable string, and the optimal syllable string are input. And a difference model-applied syllable graph creating means for creating a graph by transforming the optimal syllable string of N syllables based on the description of the difference model, and a word dictionary describing a standard syllable string of words And word string search means for inputting a graph created by the difference model applied syllable graph creation means, referring to the word dictionary, searching for word string candidates, and outputting word string candidates. Characterized by Motomeko 1 Continuous seeker for speech recognition according.
【請求項10】 差分モデルとして、最適音節列の長さ
と単語辞書の音節列の長さとこれらが対応する尤度を記
述した単語音節長変換尤度テーブルを備え、単語列探索
手段は、上記単語音節長変換尤度テーブルの尤度に基づ
いて単語列侯補を探索することを特徴とする請求項5か
ら請求項9のうちのいずれか1項記載の連続音声認識用
の探索装置。
10. A word syllable length conversion likelihood table which describes an optimal syllable string length, a syllable string length of a word dictionary, and a likelihood corresponding to each other as a difference model. The search device for continuous speech recognition according to any one of claims 5 to 9, wherein a candidate word string is searched for based on the likelihood of the syllable length conversion likelihood table.
【請求項11】 入力音声を分析する音声分析手段と、 上記音声分析手段の作成した分析結果を入力し、単語間
の接続を表すオートマトンで制御された最適単語列を求
める最適解取得手段と、 上記最適解取得手段が求めた最適単語列を音節列に変換
する音節列変換手段と、 上記音節列変換手段が求めた音節列が正解の音節列に対
応する尤度を記述した差分モデルと、 単語の標準的な音節列を記述した単語辞書と、 上記音節列変換手段が求めた最適音節列を入力し、上記
差分モデルと上記単語辞書とを参照し、単語列侯補を探
索し、単語列侯補を出力する単語列探索手段とを備えた
ことを特徴とする請求項1記載の連続音声認識用の探索
装置。
11. Speech analysis means for analyzing input speech, optimal solution acquisition means for inputting an analysis result created by the speech analysis means and obtaining an optimal word string controlled by an automaton representing a connection between words, A syllable string conversion means for converting the optimum word string obtained by the optimum solution obtaining means into a syllable string, and a difference model describing the likelihood that the syllable string obtained by the syllable string conversion means corresponds to a correct syllable string, A word dictionary describing a standard syllable string of a word, and an optimal syllable string obtained by the syllable string conversion means are input, and the difference model and the word dictionary are referred to, a word string candidate is searched, and a word is searched. 2. The search apparatus for continuous speech recognition according to claim 1, further comprising: a word string search unit that outputs a candidate string.
【請求項12】 入力音声を分析する音声分析手段と、 上記音声分析手段の作成した分析結果を入力し、単語間
の接続を表すオートマトンで制御された最適単語列を求
める最適解取得手段と、 上記最適解取得手段が求めた最適単語列が正解の単語列
に対応する尤度を記述した差分モデルと、 単語を記述した単語辞書と、 上記最適解取得手段が求めた最適単語列を入力し、上記
差分モデルと上記単語辞書とを参照し、単語列の侯補を
探索し、単語列の侯補を出力する単語列探索手段とを備
えたことを特徴とする請求項1記載の連続音声認識用の
探索装置。
12. Speech analysis means for analyzing an input speech, an optimum solution obtaining means for inputting the analysis result created by the speech analysis means and obtaining an optimal word string controlled by an automaton representing a connection between words, A difference model describing the likelihood that the optimal word sequence obtained by the optimal solution obtaining means corresponds to the correct word sequence, a word dictionary describing the words, and the optimal word sequence obtained by the optimal solution obtaining device are input. 2. The continuous speech according to claim 1, further comprising: a word string search unit that searches for a candidate of a word string by referring to the difference model and the word dictionary, and outputs a candidate of the word string. Search device for recognition.
【請求項13】 差分モデルとして、単語辞書の単語と
対応する最適な単語列の長さとその尤度を記述した単語
音節長変換尤度テーブルを備え、単語列探索手段は、上
記単語音節長変換尤度テーブルの尤度に基づいて単語列
侯補を探索することを特徴とする請求項11または請求
項12記載の連続音声認識用の探索装置。
13. A word syllable length conversion likelihood table which describes an optimal word string length corresponding to a word in a word dictionary and its likelihood as a difference model. 13. The search device for continuous speech recognition according to claim 11, wherein a search for a candidate word string is performed based on the likelihood of the likelihood table.
【請求項14】 入力音声の分析結果について、1段目
で最適解を求めるとともに、上記1段目の最適解の変形
により2段目の探索を行う連続音声認識用の探索方法に
おいて、 上記1段目で求めた最適解と正解とが対応する尤度を表
現した差分モデルを設け、 上記1段目で求めた最適解から上記差分モデルを適用し
て、上記2段目の探索を行うことを特徴とする連続音声
認識用の探索方法。
14. A search method for continuous speech recognition in which an analysis result of an input speech is obtained in a first step and a search in a second step is performed by modifying the optimum solution in the first step. Providing a difference model expressing the likelihood between the optimal solution obtained in the first stage and the correct solution, and performing the second stage search by applying the difference model from the optimal solution obtained in the first stage A search method for continuous speech recognition characterized by the following.
【請求項15】 入力音声の分析結果を入力し、音節間
の接続を表すオートマトンで制御された最適音節列を求
め、この最適音節列が正解の音節列に対応する尤度を記
述した差分モデルと単語の標準的な音節列を記述した単
語辞書とを参照し単語列侯補を探索し、単語列侯補を出
力することを特徴とする請求項14記載の連続音声認識
用の探索方法。
15. A difference model in which an analysis result of an input speech is input, an optimal syllable sequence controlled by an automaton representing connections between syllables is obtained, and a likelihood corresponding to the optimal syllable sequence corresponding to a correct syllable sequence is described. 15. The search method for continuous speech recognition according to claim 14, wherein a candidate word string is searched for with reference to a word dictionary describing a standard syllable string of words and a candidate word string is output.
【請求項16】 入力音声の分析結果を入力し、音節間
の接続を表すオートマトンで制御された最適音節列を求
め、この最適音節列が正解の音節列に対応する尤度を記
述した差分モデルと単語の標準的な音節列を記述した単
語辞書とを参照し、上記単語辞書の各単語について、単
語と上記差分モデルの記述に基づいて単語辞書の標準的
な音節列を変形した音節グラフとを記述した差分モデル
適用単語辞書を参照し、単語列侯補を探索し、単語列侯
補を出力することを特徴とする請求項14記載の連続音
声認識用の探索方法。
16. A difference model in which an analysis result of an input speech is input, an optimal syllable sequence controlled by an automaton representing a connection between syllables is obtained, and a likelihood corresponding to the optimal syllable sequence corresponding to a correct syllable sequence is described. And a word dictionary describing a standard syllable string of the word, and for each word of the word dictionary, a syllable graph obtained by transforming the standard syllable string of the word dictionary based on the description of the word and the difference model. The search method for continuous speech recognition according to claim 14, wherein a candidate word sequence is searched for by referring to a difference model application word dictionary describing the word sequence and the candidate word sequence is output.
【請求項17】 入力音声の分析結果を入力し、音節間
の接続を表すオートマトンで制御された最適音節列を求
め、この最適音節列が正解の音節列に対応する尤度を記
述した差分モデルの記述に基づいて、上記最適音節列を
変形してグラフを作成し、この作成したグラフを入力し
て、単語の標準的な音節列を記述した単語辞書を参照
し、単語列侯補を探索し、単語列侯補を出力することを
特徴とする請求項14記載の連続音声認識用の探索方
法。
17. A difference model in which an analysis result of an input speech is input, an optimal syllable sequence controlled by an automaton representing a connection between syllables is obtained, and a likelihood corresponding to the optimal syllable sequence corresponding to a correct syllable sequence is described. Based on the description, a graph is created by transforming the above optimal syllable sequence, and the created graph is input, and a word dictionary describing standard syllable sequences of words is searched for word sequence candidates. 15. The search method for continuous speech recognition according to claim 14, wherein a candidate word string is output.
【請求項18】 入力音声の分析結果を入力し、音節間
の接続を表すオートマトンで制御された最適な上位N個
の音節からなる音節列を求め、これら最適な上位N個の
音節からなる音節列を入力し、最適な上位N個の音節か
らなる音節列が正解の音節列に対応する尤度を記述した
差分モデルと単語の標準的な音節列を記述した単語辞書
とを参照し、単語列侯補を探索し、単語列侯補を出力す
ることを特徴とする請求項14記載の連続音声認識用の
探索方法。
18. An analysis result of an input voice is input, and an optimal syllable string composed of upper N syllables controlled by an automaton representing a connection between syllables is obtained, and a syllable composed of these optimal upper N syllables is obtained. The sequence is input, and a difference model that describes the likelihood that the optimal syllable sequence consisting of the top N syllables corresponds to the correct syllable sequence and a word dictionary that describes a standard syllable sequence of words are referred to. 15. The search method for continuous speech recognition according to claim 14, further comprising searching for candidate strings and outputting candidate word strings.
【請求項19】 入力音声の分析結果を入力し、音節間
の接続を表すオートマトンで制御され最適なN個の音節
からなる音節列を求め、この最適音節列を入力し、この
最適なN個の音節からなる音節列が正解の音節列に対応
する尤度を記述した差分モデルと単語の標準的な音節列
を記述した単語辞書を参照し、この単語辞書の各単語に
ついて、単語と上記差分モデルの記述に基づいて上記単
語辞書の標準的な音節列を変形した音節グラフとを記述
した差分モデル適用単語辞書を参照し、単語列侯補を探
索し、単語列侯補を出力することを特徴とする請求項1
4記載の連続音声認識用の探索方法。
19. An analysis result of an input voice is input, a syllable string composed of N optimum syllables controlled by an automaton representing a connection between syllables is obtained, and this optimum syllable string is input. Reference is made to a difference model describing the likelihood that a syllable string composed of syllables corresponds to a correct syllable string and a word dictionary describing a standard syllable string of words. Referring to a difference model applied word dictionary describing a syllable graph obtained by transforming a standard syllable string of the word dictionary based on the model description, searching for a word string candidate, and outputting a word string candidate. Claim 1.
5. The search method for continuous speech recognition according to 4.
【請求項20】 入力音声の分析結果を入力し、音節間
の接続を表すオートマトンで制御され最適なN個の音節
からなる音節列を求め、この最適なN個の音節からなる
音節列が正解の音節列に対応する尤度を記述した差分モ
デルの記述に基づいて最適なN個の音節からなる音節列
を変形してグラフを作成し、この作成したグラフを入力
して、単語の標準的な音節列を記述した単語辞書を参照
し、単語列侯補を探索し、単語列侯補を出力することを
特徴とする請求項14記載の連続音声認識用の探索方
法。
20. An analysis result of an input speech is input, and an optimal syllable string composed of N syllables controlled by an automaton representing connection between syllables is obtained. A graph is created by transforming an optimal syllable string composed of N syllables based on the description of the difference model that describes the likelihood corresponding to the syllable string of the syllable string. 15. The search method for continuous speech recognition according to claim 14, wherein a candidate word string is searched for by referring to a word dictionary describing a syllable string, and the candidate word string is output.
【請求項21】 入力音声の分析結果を入力し、単語間
の接続を表すオートマトンで制御された最適単語列を求
め、この最適単語列を音節列に変換し、この音節列が正
解の音節列に対応する尤度を記述した差分モデルと単語
の標準的な音節列を記述した単語辞書とを参照し、単語
列侯補を探索し、単語列侯補を出力することを特徴とす
る請求項14記載の連続音声認識用の探索方法。
21. An analysis result of an input voice is inputted, an optimum word string controlled by an automaton representing a connection between words is obtained, and the optimum word string is converted into a syllable string, and the syllable string is a correct syllable string. And searching for a candidate word string and outputting a candidate word string by referring to a difference model describing the likelihood corresponding to the word and a word dictionary describing a standard syllable string of the word. 15. The search method for continuous speech recognition according to 14.
【請求項22】 入力音声の分析結果を入力し、単語間
の接続を表すオートマトンで制御された最適単語列を求
め、この最適単語列が正解の単語列に対応する尤度を記
述した差分モデルと単語を記述した単語辞書とを参照
し、単語列侯補を探索し、単語列侯補を出力することを
特徴とする請求項14記載の連続音声認識用の探索方
法。
22. A difference model in which an analysis result of an input speech is input, an optimum word string controlled by an automaton representing a connection between words is obtained, and a likelihood that the optimum word string corresponds to a correct word string is described. 15. The search method for continuous speech recognition according to claim 14, further comprising: searching for a candidate word string and outputting the candidate word string with reference to the word dictionary describing the word.
JP26859098A 1998-09-22 1998-09-22 Search device for continuous speech recognition and search method for continuous speech recognition Expired - Fee Related JP3583299B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP26859098A JP3583299B2 (en) 1998-09-22 1998-09-22 Search device for continuous speech recognition and search method for continuous speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP26859098A JP3583299B2 (en) 1998-09-22 1998-09-22 Search device for continuous speech recognition and search method for continuous speech recognition

Publications (2)

Publication Number Publication Date
JP2000099089A true JP2000099089A (en) 2000-04-07
JP3583299B2 JP3583299B2 (en) 2004-11-04

Family

ID=17460655

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26859098A Expired - Fee Related JP3583299B2 (en) 1998-09-22 1998-09-22 Search device for continuous speech recognition and search method for continuous speech recognition

Country Status (1)

Country Link
JP (1) JP3583299B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004157337A (en) * 2002-11-06 2004-06-03 Nippon Telegr & Teleph Corp <Ntt> Method, device and program for topic boundary determination
US9466291B2 (en) 2013-10-21 2016-10-11 Fujitsu Limited Voice retrieval device and voice retrieval method for detecting retrieval word from voice data
CN112233664A (en) * 2020-10-15 2021-01-15 北京百度网讯科技有限公司 Network training method, device, equipment and storage medium

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004157337A (en) * 2002-11-06 2004-06-03 Nippon Telegr & Teleph Corp <Ntt> Method, device and program for topic boundary determination
US9466291B2 (en) 2013-10-21 2016-10-11 Fujitsu Limited Voice retrieval device and voice retrieval method for detecting retrieval word from voice data
CN112233664A (en) * 2020-10-15 2021-01-15 北京百度网讯科技有限公司 Network training method, device, equipment and storage medium
US11823660B2 (en) 2020-10-15 2023-11-21 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus and device for training network and storage medium

Also Published As

Publication number Publication date
JP3583299B2 (en) 2004-11-04

Similar Documents

Publication Publication Date Title
US10176802B1 (en) Lattice encoding using recurrent neural networks
US5983177A (en) Method and apparatus for obtaining transcriptions from multiple training utterances
US8510111B2 (en) Speech recognition apparatus and method and program therefor
EP0705473A1 (en) Speech recognition method using a two-pass search
JPH10512686A (en) Method and apparatus for speech recognition adapted to individual speakers
US5956676A (en) Pattern adapting apparatus using minimum description length criterion in pattern recognition processing and speech recognition system
JPH10274995A (en) Method and device for large-vocabulary speech recognition
US4488243A (en) Dynamic time warping arrangement
JP2751856B2 (en) Pattern adaptation method using tree structure
JP2002215187A (en) Speech recognition method and device for the same
WO2009139230A1 (en) Language model score lookahead value imparting device and method for the same, and program recording medium
JP3583299B2 (en) Search device for continuous speech recognition and search method for continuous speech recognition
US20020143536A1 (en) Method for generating candidate word strings in speech recognition
JPH1185186A (en) Nonspecific speaker acoustic model forming apparatus and speech recognition apparatus
JP2938865B1 (en) Voice recognition device
JP3315565B2 (en) Voice recognition device
US7818172B2 (en) Voice recognition method and system based on the contexual modeling of voice units
JPH07104780A (en) Continuous voice recognizing method for unspecified number of people
JP2003140685A (en) Continuous voice recognition device and its program
JPH10133686A (en) Nonnative language speech recognition device
JPH08248975A (en) Standard pattern learning device and speech recognizer using the same device
JP2976795B2 (en) Speaker adaptation method
JP3368989B2 (en) Voice recognition method
JPH0822296A (en) Pattern recognition method
JP3439700B2 (en) Acoustic model learning device, acoustic model conversion device, and speech recognition device

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040629

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040728

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070806

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080806

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees