JP2008083165A - Voice recognition processing program and voice recognition processing method - Google Patents
Voice recognition processing program and voice recognition processing method Download PDFInfo
- Publication number
- JP2008083165A JP2008083165A JP2006260477A JP2006260477A JP2008083165A JP 2008083165 A JP2008083165 A JP 2008083165A JP 2006260477 A JP2006260477 A JP 2006260477A JP 2006260477 A JP2006260477 A JP 2006260477A JP 2008083165 A JP2008083165 A JP 2008083165A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- recognized
- keywords
- dictionary
- vocabulary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、音声認識に関するものである。 The present invention relates to speech recognition.
近年、携帯電話やカーナビゲーションなどの情報機器において、音声認識技術を用いたインタフェースが普及しつつある。音声認識技術には、キーワード認識技術がある。この、入力された音声から予め定められた単語であるキーワードを抽出し、抽出されたキーワードに応じて処理を行なうものである。キーワード認識技術は、自由な発話の中からのユーザの意図抽出や、音声検索のためのインデクシング作成などに用いられている。 In recent years, interfaces using voice recognition technology are becoming popular in information devices such as mobile phones and car navigation systems. Speech recognition technology includes keyword recognition technology. A keyword, which is a predetermined word, is extracted from the input voice, and processing is performed according to the extracted keyword. The keyword recognition technique is used for extracting a user's intention from a free utterance and creating an index for voice search.
このキーワード認識を実現するための技術が特許文献1に記載されている。特許文献1には、予め定められているキーワードを受理するために生成されるキーワードモデルとキーワード以外の語句を受理するためのガーベッジモデルとを用意し、入力音声との照合の結果から得られたスコアを比較して、キーワードの抽出を行うことが記載されている。 A technique for realizing this keyword recognition is described in Patent Document 1. In Patent Document 1, a keyword model generated for receiving a predetermined keyword and a garbage model for receiving a phrase other than the keyword are prepared, and obtained from the result of collation with the input speech. It describes that keywords are extracted by comparing scores.
現状では、キーワード認識の認識精度はまだ十分ではない。キーワードの誤認識は2つに分けられる。ひとつは、キーワードAとして発声された音声を誤ってキーワードBとして認識してしまう誤りである。もうひとつは、キーワードでない入力音声をキーワードとして受理してしまう誤りである。 At present, the recognition accuracy of keyword recognition is not yet sufficient. Keyword misrecognition can be divided into two categories. One is an error in which a voice uttered as the keyword A is erroneously recognized as the keyword B. The other is an error in which input speech that is not a keyword is accepted as a keyword.
前者の誤りは、例えば、「羽田空港」や「世田谷高校」の発声に対し、キーワード登録されている「空港」や「高校」のみを抽出するなど、通常の音声認識で登録する辞書エントリーの一部分だけを認識対象とする。このため、類似した語句がキーワードの対象となりやすい。また、キーワードのエントリー数が多いほど類似する語句が増加するため、誤り頻度は増加する。 The former error is a part of the dictionary entry that is registered by normal speech recognition, such as extracting only “Airport” and “High School” registered as keywords for utterances of “Haneda Airport” and “Setagaya High School”, for example. Only the recognition target. For this reason, similar phrases are likely to be the target of keywords. Also, as the number of keyword entries increases, the number of similar words increases, and the error frequency increases.
後者の誤りは、例えば、「調布空港」という発声に対し、キーワード登録されている「調布高校」として認識してしまうなど、キーワードでない音声に対しキーワードであると認識することである。この誤りを防止するために、特許文献1には、類似語を生成している。しかし、キーワード内の類似した語が含まれているような場合には解決できない。また、キーワード外の語句を追加したために、キーワードの発話がキーワード外の語句として誤認識される危険性も生じる。 The latter error is, for example, recognizing a voice of non-keyword as a keyword, such as recognizing “Chofu Airport” as “Chofu High School” registered as a keyword. In order to prevent this error, Patent Literature 1 generates similar words. However, it cannot be solved when similar words in the keyword are included. In addition, since a word outside the keyword is added, there is a risk that the utterance of the keyword is erroneously recognized as a word outside the keyword.
本発明は、前述した問題点に鑑みてなされたものであり、キーワード認識における誤認識を減少させることを目的とする。 The present invention has been made in view of the above-described problems, and an object thereof is to reduce erroneous recognition in keyword recognition.
本発明は上記の目的を達成するためになされたもので、認識すべき語彙として定められているキーワードのうち、互いに類似しないものを記憶装置に記憶しておき、入力された音声が互いに類似しないキーワードである場合、第1の処理を実行し、入力された音声が互いに類似するキーワードである場合、第2の処理を実行することを特徴とする。 The present invention has been made to achieve the above-mentioned object, and among the keywords defined as vocabularies to be recognized, those that are not similar to each other are stored in a storage device, and the input voices are not similar to each other. If it is a keyword, the first process is executed, and if the input speech is a keyword similar to each other, the second process is executed.
また、本発明は、入力された音声に含まれる単語であるキーワードを認識するための、コンピュータ実行可能な音声認識プログラムにおいて、複数のキーワードを、互いに音韻的に類似するキーワードが含まれない第1のキーワード群と、該第1のキーワード群に含まれないキーワードである第2のキーワード群とに分類して記憶する記憶手段、を有する前記コンピュータに、入力された音声に含まれる少なくとも1つの前記キーワードを認識するキーワード認識ステップと、前記認識されたキーワードが前記第1のキーワード群に含まれる場合、第1の処理を実行する第1の処理実行ステップと、前記認識されたキーワードが前記第2のキーワード群に含まれる場合、第2の処理を実行する第2の処理実行ステップと、を実行させることを特徴とする。 According to the present invention, in a computer-executable speech recognition program for recognizing a keyword that is a word included in input speech, a plurality of keywords are not included in a keyword that is phonologically similar to each other. Storage means for classifying and storing the keyword group and a second keyword group that is a keyword not included in the first keyword group, and the computer includes at least one of the at least one included in the input voice A keyword recognizing step for recognizing a keyword; a first process executing step for executing a first process when the recognized keyword is included in the first keyword group; and A second process execution step for executing the second process is included in the keyword group. And butterflies.
本発明の技術によれば、キーワード認識における誤認識を減少させることが可能となる。 According to the technique of the present invention, it is possible to reduce erroneous recognition in keyword recognition.
以下、本発明の一実施形態を、図面を参照して詳細に説明する。 Hereinafter, an embodiment of the present invention will be described in detail with reference to the drawings.
<第1の実施形態>
まず、第1の実施形態を説明する。
<First Embodiment>
First, the first embodiment will be described.
図1は、音声認識処理装置1の構成例である。音声認識処理装置1は、第1の実施の形態のキーワード認識を用いた音声インタフェースを実現する。 FIG. 1 is a configuration example of the speech recognition processing device 1. The voice recognition processing device 1 realizes a voice interface using the keyword recognition of the first embodiment.
音声認識処理装置1は、例えば、ナビゲーションシステムや携帯端末、CTI(Computer Telephony Integration)システム等の情報処理装置である。音声認識処理装置1は、CPU(Central Processing Unit)101、メモリ102、2次記憶装置103、入力装置104、出力装置105、通信インタフェース106等を有する。CPU101、メモリ102、2次記憶装置103、入力装置104、出力装置105、通信インタフェース106等はバス107により接続されている。
The speech recognition processing device 1 is an information processing device such as a navigation system, a portable terminal, or a CTI (Computer Telephony Integration) system. The speech recognition processing device 1 includes a CPU (Central Processing Unit) 101, a
2次記憶装置103には、キーワードモデル161、コンフュージョンマトリクス164、ガーベッジモデル165等が格納されている。
The
キーワードモデル161は、抽出すべきキーワードの音声の音響モデル系列である。なお、本実施形態の特徴として、キーワードモデル161は、キーワードクラスA162、キーワードクラスB163の2つに分けられている。キーワードクラスA162は、互いに類似しないキーワードが含まれている。キーワードクラスB163は、キーワードモデル161内のキーワードのうちキーワードクラスA162に含まれていないキーワードが含まれる。従って、キーワードクラスB163には、互いに類似するキーワードも含まれている。
The
なお、キーワードクラスA162、キーワードクラスB163のデータ構造は任意である。例えば、キーワードクラスA162、キーワードクラスB163は、異なるテーブルやデータベース等に格納されていてもよく、また、キーワードクラスA162、キーワードクラスB163は、同じテーブルやデータベース等に格納され、各キーワードに付与されたフラグ等によりキーワードクラスA162、キーワードクラスB163に分類されていてもよい。 The data structure of keyword class A162 and keyword class B163 is arbitrary. For example, the keyword class A 162 and the keyword class B 163 may be stored in different tables or databases, and the keyword class A 162 and the keyword class B 163 are stored in the same table or database and assigned to each keyword. It may be classified into keyword class A162 and keyword class B163 by a flag or the like.
コンフュージョンマトリクス164は、複数の音声の各々に対し、同一の音声及び他の音声と一致すると認識される度合いである類似度を格納する。
The
ガーベッジモデル165は、キーワード以外の音声の音響モデル列を格納する。このガーベッジモデル165内の音響モデル列は、一般的な音声認識で用いられるものと同じである。
The
CPU101は、プログラム(図示略)を実行することにより、クラス分類部151、分析部152、照合部153、判定部154、処理実行部155、処理実行部A156、処理実行部B157等を実現する。
The
クラス分類部151は、コンフュージョンマトリクス164から、キーワードクラスA162、キーワードクラスB163を生成する。分析部152は、入力した音声波形を特徴パラメータに変換する。照合部153は、分析部152で変換された入力音声の特徴パラメータ系列とキーワードモデル161およびガーベッジモデル165との照合を行い、スコアが最大となるモデルを求める。照合部153で行われる照合は、一般的な音声認識で用いられる照合と同じである。判定部154は、照合部153で得られた結果に基づいて入力音声に含まれるキーワードを判定する。また、判定部154は、キーワードがキーワードクラスA162、キーワードクラスB163の何れかに該当するキーワードであるかを判定する。
The
処理実行部155は、判定部154で検出されたキーワードに基づいて処理を実行する。処理実行部155は、処理実行部A156、処理実行部B157等を有する。キーワードがキーワードクラスA162に属するものであれば、処理実行部A156が処理を実行する。具体的には、処理実行部A156は、認識されたキーワードに応じた処理を実行する。また、キーワードがキーワードクラスB163に属するものであれば、処理実行部B157が処理を実行する。具体的には、処理実行部B157が、そのキーワードを確認するための情報を出力等する。
The
入力装置104は、例えば、マイクロフォン、キーボード、マウス、スキャナ等である。出力装置105は、例えば、ディスプレイ、スピーカ、プリンタ等である。音声認識処理装置1は、通信インタフェース106、及び、通信ネットワーク(図示略)を介して、他の通信端末(図示略)等と接続する。
The
次に、2次記憶装置103内の情報について説明する。
Next, information in the
まず、キーワードモデル161について説明する。
First, the
キーワードモデル161は、予め登録されている一つ以上のキーワードから生成される音響モデル系列である。ここで用いるキーワードとは、検索クエリやコマンドなど後述する処理実行部155での処理に対応づけられて登録されている語句である。音響モデルは特に限定するものではないが、例えば、従来技術のHMM(Hidden Markov Model)を用いるとよい。HMMとは、マルコフモデルに従って遷移する内部状態及び内部状態における観測信号の出現確率分布から構成される確率モデルである。
The
ここで、音響モデルの例を、図2を参照して具体的に説明する。 Here, an example of the acoustic model will be specifically described with reference to FIG.
図2は、キーワード「駅」に対する音響モデル系列の例である。この例では音響モデルとして3状態のトライフォンHMMを用いている。図2において、HMMモデル201はトライフォン“*/e/k”のモデルである。HMMモデル202は、トライフォン“e/k/i”のモデルである。HMMモデル203は、トライフォン“k/i/*”のモデルである。この3つのHMMモデル201〜203を連結することで、「駅」というキーワードの音響モデルを構成する。
FIG. 2 is an example of an acoustic model series for the keyword “station”. In this example, a tri-state triphone HMM is used as an acoustic model. In FIG. 2, an HMM
なお、上述のように、本実施形態では、モデルに登録されているキーワードをキーワードクラスA162とキーワードクラスB163に分類しておく。キーワードクラスA162には音響的に類似しない語句のみが登録されており、キーワードクラスA162に登録されないキーワードはキーワードクラスB163に登録する。
As described above, in the present embodiment, the keywords registered in the model are classified into the
次に、コンフュージョンマトリクス164について、図3、図4を参照して説明する。
Next, the
図3は、単語単位のコンフュージョンマトリクス164の例である。図3において、コンフュージョンマトリクス164は、縦軸311、横軸312、マトリクス部313から成る。縦軸311、横軸312は、各キーワードの発声である。マトリクス部313は、縦軸311の発声のキーワードに対し、横軸312の発声のキーワードであると認識する確率である。
FIG. 3 is an example of the
ここで、「駅」というキーワードの発声の場合の例を説明する。図3のコンフュージョンマトリクス164において、縦軸311「駅」という発声に対し、正しく横軸312「駅」と認識される確率は、マトリクス部313「98.2」パーセントである。また、横軸312「高校」と誤って認識してしまう確率は、マトリクス部313「0.1」パーセントである。
Here, an example in the case of the utterance of the keyword “station” will be described. In the
また、「高校」というキーワードの発声の場合の例を説明する。図3のコンフュージョンマトリクス164において、縦軸311「高校」という発声に対し、正しく横軸312「高校」と認識される確率は、マトリクス部313「90.1」パーセントである。また、横軸312「空港」と誤って認識される確率は、マトリクス部313「5.1」パーセントである。
An example in the case of the utterance of the keyword “high school” will be described. In the
次に、他のコンフュージョンマトリクス164の例を説明する。
Next, an example of another
図4は、音素単位のコンフュージョンマトリクスの例である。図4において、コンフュージョンマトリクス164は、縦軸411、横軸412、マトリクス部413から成る。縦軸411、横軸412は、各音素の発声である。マトリクス部413は、縦軸411の発声の音素に対し、横軸412の発声の音素であると認識する確率である。
FIG. 4 shows an example of a phoneme unit confusion matrix. In FIG. 4, the
次に、ガーベッジモデル165について説明する。
Next, the
ガーベッジモデル165は、キーワードモデル161に登録されているキーワード以外の音声の音響モデルである。音響モデルは特に限定するものではないが、上述のキーワードモデル161と同様に、例えば、従来技術のHMMを用いるとよい。
The
ここで、音響モデルの例を、図5を参照して具体的に説明する。 Here, an example of the acoustic model will be specifically described with reference to FIG.
図5において、HMMモデル501は、中心音素が“a”のモデルである。HMMモデル502は中心音素が“i”のモデルである。HMMモデル503は中心音素が“N”のモデルである。このように、全ての音素に対応するモデルを並列に並べたHMMモデルに対して終端ノード(HMMモデル505)から始端(HMMモデル504)へのループ(HMMモデル506)を作ることで、あらゆる音素系列の組み合わせをHMMモデル化する。
In FIG. 5, an HMM
次に、音声認識処理装置1の動作例を、図6を参照して説明する。 Next, an operation example of the speech recognition processing apparatus 1 will be described with reference to FIG.
音声データは、マイクロフォン等の入力装置104、通信インタフェース106等から音声認識処理装置1に入力される。音声認識処理装置1のクラス分類部151は、音声データの入力を受け付けると(S601)、キーワードモデル161のキーワードをキーワードクラスA162、キーワードクラスB163に分類する(S602)。そのために、例えば、クラス分類部151は、キーワードモデル161内のキーワードを1つ選択し、そのキーワードが、他のキーワードと誤認識される率が所定閾値未満であるものをキーワードクラスA162とし、所定閾値以上であるものをキーワードクラスB163とする。
The voice data is input to the voice recognition processing apparatus 1 from the
この具体的例を、図3の場合を例にして説明する。ここでは、判定基準の閾値が4パーセントである場合の例を説明する。 A specific example will be described by taking the case of FIG. 3 as an example. Here, an example in which the threshold value of the criterion is 4% will be described.
例えば、キーワード「駅」の場合を説明する。図3のコンフュージョンマトリクス164の場合、「駅」というキーワードに対し、他の単語と誤認識してしまう確率は全て4%以下である。従って、クラス分類部151は、キーワード「駅」をキーワードクラスA162に分類する。
For example, the case of the keyword “station” will be described. In the case of the
また、キーワード「高校」の場合の例を説明する。図3のコンフュージョンマトリクス164の場合、「高校」というキーワードが、「空港」というキーワードに誤認識される可能性は5.1%である。従って、クラス分類部151は、キーワード「高校」をキーワードクラスB163に分類する。
An example of the keyword “high school” will be described. In the case of the
図4に一例を示すコンフュージョンマトリクス164の場合、クラス分類部151は、キーワードを構成する各音素に対して上述の図3の場合と同じ処理を行なうので、その詳細な説明は省略する。
In the case of the
図6において、分析部152は、入力した音声波形を特徴パラメータに変換する(S603)。この分析部152による変換処理は従来技術の音声認識と同じである。即ち、特徴パラメータは、音声信号を短期間(数十ms)毎に分割し、その区間の信号をMFCC(Mel frequency cepstrum coefficient)等に変換した多次元ベクトル量である。従って、分析部152は、多次元ベクトルとして表される特徴ベクトルの時系列データを取得する。
In FIG. 6, the
照合部153は、分析部152で変換された入力音声の特徴パラメータ系列とキーワードモデル161およびガーベッジモデル165との照合を行い、スコアが最大となるモデルを求める(S604)。この照合部153で行われる照合処理は、従来技術の音声認識と同じである。例えば、照合部153は、特徴パラメータ系列とキーワードモデル161内のモデルとの類似性をスコアとして算出する。また、照合部153は、特徴パラメータ系列とガーベッジモデル165内のモデルとの類似性をスコアとして算出し、スコアの高いものを選択する。なお、通常、ガーベッジモデルを含む照合では、ガーベッジモデルのスコアにペナルティーをつけることで、キーワードモデルとガーベッジモデルとのスコアバランスを調節するのが一般的である。
The
判定部154は、照合部153で得られた結果に基づいて、スコアが最大となるモデルがキーワードクラスA162であるか否か判定する(S605)。
Based on the result obtained by the
S605の判定の結果、スコアが最大となるモデルがキーワードクラスA162内のキーワードのモデルである場合、判定部154は、処理実行部155に、そのキーワードにより定まる処理の実行を指示する。処理実行部155は、そのキーワードに基づいて処理を実行する(S606)。具体的には、例えば、処理実行部155の処理実行部A156は、認識されたキーワードに対応した処理を実行する。この処理は、例えば、予め、記憶音声認識処理装置102に、認識されたキーワードと、そのキーワードを認識した場合に実行する処理又はアプリケーション等とを対応付けたテーブル(図示略)を記憶しておき、処理実行部155は、そのテーブルを参照して実行する処理又は実行するアプリケーション等を決定してもよい。
As a result of the determination in S605, when the model having the maximum score is the model of the keyword in the keyword class A162, the
具体的には、例えば、キーワード「メール」が認識された場合、処理実行部A156は、予め「メール」とのキーワードに対応づけられている「メールアプリケーション」を実行する。また、全国施設名称の検索タスクでは、限られた計算リソースで大量なデータを検索する必要があるため、施設名称をカテゴリー毎に分類することで検索対象を絞り込むことで処理効率を図ることが多い。この場合、キーワード「高校」が認識されると、検索対象のカテゴリーが「高校」に絞り込まれる。 Specifically, for example, when the keyword “mail” is recognized, the process execution unit A156 executes the “mail application” associated with the keyword “mail” in advance. In addition, the nationwide facility name search task requires a large amount of data to be searched with limited computational resources, so it is often possible to improve processing efficiency by narrowing down the search target by classifying the facility name into categories. . In this case, when the keyword “high school” is recognized, the search target category is narrowed down to “high school”.
一方、S605の判定の結果、スコアが最大となるモデルがキーワードクラスA162内のキーワードのモデルでない場合、判定部154は、スコアが最大となるモデルがキーワードクラスB163内のキーワードのモデルであるか否か判定する(S607)。
On the other hand, as a result of the determination in S605, if the model having the maximum score is not the keyword model in the keyword class A162, the
S608の判定の結果、スコアが最大となるモデルがキーワードクラスB163内のキーワードのモデルでない場合、判定部154は、処理を終了する。
As a result of the determination in S608, when the model having the maximum score is not a keyword model in the keyword class B163, the
S608の判定の結果、スコアが最大となるモデルがキーワードクラスB163内のキーワードのモデルである場合、判定部154は、処理実行部155に処理の実行を指示する。処理実行部155は、認識したキーワードの正否を確認する(S608)。そのために、処理実行部155の処理実行部B157は、スコアが最大となるモデルのキーワードを、ディスプレイやスピーカ等の出力装置105、又は、通信インタフェース106から通信端末等に出力し、ユーザに確認を要求する。ユーザは、入力装置104、又は、通信端末の入力装置(図示略)を用いて、そのキーワードが正しいか否かを示す情報を音声認識処理装置1に入力する。
As a result of the determination in S608, when the model having the maximum score is a keyword model in the keyword class B163, the
ここで、認識したキーワードの正否を確認するためにディスプレイに表示される画面例を、図7を参照して説明する。図7において、画面701は、認識したキーワードを確認するために、音声認識処理装置1から出力された情報に基づき表示される例である。ユーザは、入力装置を用いて、ラジオボタン711、ラジオボタン712の何れかをチェック等して、表示されているキーワードが正しいか否かを示す。なお、画面701の例では、表示されているキーワードが正しくない場合、ユーザは、領域713に正しいキーワードを入力する。ユーザがボタン714を押下等すると、キーワードの正否を示す情報、正しいキーワード等が音声認識処理装置1に入力される。
Here, an example of a screen displayed on the display to confirm the correctness of the recognized keyword will be described with reference to FIG. In FIG. 7, a
なお、処理実行部B157は、認識したキーワードと類似したキーワードを複数提示して、ユーザに選択させてもよく、また、認識結果に対する信頼度スコアを算出等してもよい。認識したキーワードと類似したキーワードを複数提示するために、処理実行部B157は、コンフュージョンマトリクス164から、認識したキーワードと誤認識される確率が所定閾値以上の単語を選択し、この単語を、認識したキーワードと共に出力等してもよい。また、認識結果に対するスコアを算出等するために、上述の照合部153の処理により算出されたモデル毎のスコアと任意の数式とから信頼度スコアを算出する。処理実行部B157は、キーワードを、信頼度スコアの上位から任意の数選択し、この信頼度スコアとキーワードとを出力しても良い。
Note that the process execution unit B157 may present a plurality of keywords similar to the recognized keyword and allow the user to select, or may calculate a reliability score for the recognition result. In order to present a plurality of keywords similar to the recognized keyword, the process execution unit B157 selects a word having a probability that it is erroneously recognized as the recognized keyword from the
図6に戻り、処理実行部B157は、正しいキーワードを取得すると、そのキーワードを用いた処理を行なう(S609)。この処理は任意でよく、上述のS606のよりのように、認識されたキーワードに応じて定まる処理でもよく、また、上述のキーワード確認の際にユーザに指定された処理等でもよい。 Returning to FIG. 6, when the process execution unit B157 acquires a correct keyword, the process execution unit B157 performs a process using the keyword (S609). This process may be arbitrary, and may be a process determined according to the recognized keyword as in S606 described above, or may be a process designated by the user at the time of the keyword confirmation described above.
なお、処理実行部B157は、認識されたキーワードに対応した処理を行う代わりに、認識されたキーワードクラスに対応した処理を行ってもよい。この具体例を、上述した検索タスクの場合で説明する。上述した検索タスクにおいて、キーワードに対応した処理では、認識されたキーワードに基づいて検索対象のカテゴリーが絞り込まれる。例えば、キーワード「高校」が認識された場合、検索カテゴリーが「高校」に絞り込まれる。この時、認識されたキーワード「高校」が「空港」という発話が誤って認識されたとすると、検索カテゴリーの絞込みは失敗する。このため、認識されたキーワードがキーワードクラスB163に属する場合には、認識されたキーワードに基づく検索カテゴリーの絞込みは行わず、キーワードクラスB163に属する全キーワードの論理和(or)で検索カテゴリーを絞り込む。絞込みの制約が緩すぎて検索対象が多すぎる場合には、例えば、「都道府県を指定してください」などキーワードで設定されるジャンル以外の質問をすることによって、再度検索対象の絞り込みを行うことも可能である。 The process execution unit B157 may perform a process corresponding to the recognized keyword class instead of performing a process corresponding to the recognized keyword. A specific example will be described in the case of the search task described above. In the search task described above, in the process corresponding to the keyword, the search target category is narrowed down based on the recognized keyword. For example, when the keyword “high school” is recognized, the search category is narrowed down to “high school”. At this time, if the recognized keyword “high school” is mistakenly recognized as “airport”, the search category narrowing down fails. Therefore, when the recognized keyword belongs to the keyword class B163, the search category based on the recognized keyword is not narrowed down, and the search category is narrowed down by the logical sum (or) of all the keywords belonging to the keyword class B163. If there are too many search targets due to too narrow restrictions, narrow down the search target again by asking questions other than the genre set by the keyword, such as “Please specify prefectures”. Is also possible.
このように、キーワードクラスA162に属するキーワードに関しては、お互いに類似するエントリーが存在しないので、誤ったキーワードを認識してしまう可能性は低い。そのため、認識結果を信頼し、ユーザへの確認なしに処理を実行しても、ユーザの意図に反した処理を実行してしまう危険性は少ない。反面、キーワードクラスB163に属するキーワードに関しては、お互いに類似するエントリーが存在する可能性がある。従って、処理実行部B157では、認識されたキーワード如何にかかわらず、認識結果の確認や全キーワードジャンルでの検索等を行うことで、仮にキーワード認識に誤りがあった場合でも、ユーザの意図に反する処理を実行することはない。
<第2の実施形態>
次に、第2の実施形態を説明する。第2の実施形態は、定められたキーワードを含むサブセット辞書を作成し、認識されたキーワードを含む語彙をサブセット辞書から選択する点が、上述の第1の実施形態とは異なる。なお、ここでは、1つ以上の単語を含む言葉を語彙という。
As described above, since there are no entries similar to each other for the keywords belonging to the keyword class A162, the possibility of recognizing an incorrect keyword is low. Therefore, even if the recognition result is trusted and the process is executed without confirmation to the user, there is little risk that the process contrary to the user's intention is executed. On the other hand, for keywords belonging to the keyword class B163, there may be entries similar to each other. Therefore, the process execution unit B157 is contrary to the user's intention even if there is an error in keyword recognition by checking the recognition result or performing a search in all keyword genres regardless of the recognized keyword. The process is not executed.
<Second Embodiment>
Next, a second embodiment will be described. The second embodiment is different from the first embodiment described above in that a subset dictionary including a predetermined keyword is created and a vocabulary including a recognized keyword is selected from the subset dictionary. Here, a word including one or more words is called a vocabulary.
以下で説明する第2の実施形態は、上述の第1の実施形態と一部同じであるので、同じ構成に対しては同じ符号を付与して説明を省略し、異なる構成のみ詳細に説明する。 Since the second embodiment described below is partially the same as the first embodiment described above, the same reference numerals are given to the same components, the description thereof is omitted, and only different components will be described in detail. .
音声認識処理装置801の構成例を、図8を参照して説明する。
A configuration example of the speech
第2の実施形態の音声認識処理装置801は、第1の実施形態の音声認識処理装置1の処理実行部155の換わりに、音声再認識部811を有する。また、メイン辞書851、サブセット辞書A852、サブセット辞書B853、音階モデル854等をさらに有する。
The speech
メイン辞書851は、音声認識処理装置801の認識対象音声を格納する。サブセット辞書A852、サブセット辞書B853は、後述する処理により生成される。音階モデル854は、メイン辞書851内の語彙の音響モデルを格納する。
The
音声再認識部811は、分析部152、照合部153、判定部154で認識されたキーワードに基づき、分析部152で生成された特徴ベクトル系列に対して音声の認識を行う。音声再認識部811は、再認識部A812、再認識部B813等を有する。
The
再認識部A812は、認識されたキーワードがキーワードクラスA162に属するモデルのキーワードである場合に、そのキーワードを含む言葉を認識する。再認識部A812は、辞書生成部821、照合部822、判定部823等を有する。辞書生成部821は、分析部152、照合部153、判定部154で認識されたキーワードと、メイン辞書851とから、サブセット辞書A852に格納するサブセットを生成する。照合部822は、サブセット辞書A852と音階モデル854とを用いて、入力した特徴ベクトル系列との照合を行いスコア出力する。判定部823は、照合スコアが最大となる仮説を探索することで入力音声の認識結果を求める。
When the recognized keyword is a keyword of a model belonging to the keyword class A162, the re-recognition unit A812 recognizes a word including the keyword. The re-recognition unit A812 includes a
再認識部B813は、認識されたキーワードがキーワードクラスB163に属するモデルのキーワードである場合に、そのキーワードを含む語彙を認識する。再認識部B813は、辞書生成部831、照合部832、判定部833等を有する。辞書生成部831は、キーワードクラスB163と、メイン辞書851とから、サブセット辞書B853に格納するサブセットを生成する。照合部832は、サブセット辞書B853と音階モデル854とを用いて、入力した特徴ベクトル系列との照合を行いスコア出力する。判定部833は、照合スコアが最大となる仮説を探索することで入力音声の認識結果を求める。
When the recognized keyword is a model keyword belonging to the keyword class B163, the re-recognition unit B813 recognizes a vocabulary including the keyword. The
次に、図9を参照して動作例を説明する。 Next, an operation example will be described with reference to FIG.
音声データは、マイクロフォン等の入力装置104、通信インタフェース106等から音声認識処理装置1に入力される。音声認識処理装置801のクラス分類部151は、音声データの入力を受け付けると(S901)、モデル161のキーワードをキーワードクラスA162、キーワードクラスB163に分類する(S902)。この処理は、上述のS601、S602と同じである。
The voice data is input to the voice recognition processing apparatus 1 from the
音声認識処理装置801の分析部152は、音声データの入力を受け付けると、入力した音声波形を特徴パラメータに変換する(S903)。この分析部152による変換処理は、上述のS603と同じである。
When receiving the input of voice data, the
照合部153は、分析部152で変換された入力音声の特徴パラメータ系列とキーワードモデル161およびガーベッジモデル165との照合を行い、スコアが最大となるモデルを求める(S904)。この処理は、上述のS604と同じである。
The
判定部154は、照合部153で得られた結果に基づいて、スコアが最大となるモデルがキーワードクラスA162であるか否か判定する(S905)。この処理は、上述のS605と同じである。
Based on the result obtained by the
S905の判定の結果、スコアが最大となるモデルがキーワードクラスA162内のキーワードのモデルである場合、判定部154は、再認識部A812に処理実行を指示する。再認識部A812の辞書生成部821は、認識したキーワードと、メイン辞書851とから、サブセット辞書A852を生成する(S906)。具体的には、例えば、辞書生成部821は、メイン辞書851から、認識したキーワードを含む語彙を抽出し、サブセット辞書A852に格納する。
If the model having the maximum score is the model of the keyword in the keyword class A162 as a result of the determination in S905, the
ここで、S906の処理の例について、図10を参照して具体的に説明する。 Here, an example of the processing of S906 will be specifically described with reference to FIG.
図10において、メイン辞書851には、「厚木市役所」、「厚木高校」、「井の頭公園」、「砧公園」、「京都大学」、「国分寺駅」、「国分寺市役所」、「草津温泉」、「世田谷公園」、「世田谷美術館」、「世田谷高校」、「東京駅」、「品川駅」、「羽田空港」の14個の語彙が登録されている。ここで、キーワードとして「公園」が認識された場合の例を説明する。
In FIG. 10, the
辞書生成部821は、メイン辞書851に登録されている単語のうち、「公園」を含む語彙「井の頭公園」、「砧公園」を抽出し、サブセット辞書A852として格納する。このとき、辞書生成部821は、表記である「公園」のみだけではなく、音素列「コウエン」を含む語彙(例えば「公演」、「後援」、「講演」等)を選択してもよい。
The
図9において、照合部822は、サブセット辞書A852と音階モデル854とを用いて、入力した特徴ベクトル系列との照合を行い、スコアを算出する(S907)。この処理は、上述のS604と同じである。
In FIG. 9, the
判定部823は、照合スコアが最大となる語彙を決定する(S908)。この処理は、上述のS604と同じである。
The
一方、S905の判定の結果、スコアが最大となるモデルがキーワードクラスA162内のキーワードのモデルでない場合、判定部154は、スコアが最大となるモデルがキーワードクラスB163であるか否か判定する(S909)。この処理は、上述のS608と同じである。
On the other hand, as a result of the determination in S905, if the model having the maximum score is not the model of the keyword in the keyword class A162, the
S909の判定の結果、スコアが最大となるモデルがキーワードクラスB163内のキーワードのモデルでない場合、処理を終了する。 As a result of the determination in S909, if the model having the maximum score is not the model of the keyword in the keyword class B163, the process ends.
S909の判定の結果、スコアが最大となるモデルがキーワードクラスB163内のキーワードのモデルである場合、判定部154は、再認識部B813に処理実行を指示する。再認識部B813の辞書生成部831は、キーワードクラスB163と、メイン辞書851とから、サブセット辞書B853を生成する(S910)。具体的には、例えば、辞書生成部821は、メイン辞書851から、キーワードクラスB163内のキーワードを含む語彙を抽出し、サブセット辞書B853に格納する。
As a result of the determination in S909, when the model having the maximum score is the model of the keyword in the keyword class B163, the
S910の具体例を、図11を参照して説明する。 A specific example of S910 will be described with reference to FIG.
図11において、メイン辞書851には、「厚木市役所」、「厚木高校」、「井の頭公園」、「砧公園」、「京都大学」、「国分寺駅」、「国分寺市役所」、「草津温泉」、「世田谷公園」、「世田谷美術館」、「世田谷高校」、「東京駅」、「品川駅」、「羽田空港」の14個の語彙が登録されている。また、キーワードクラスB163には、「高校」、「温泉」、「空港」の語彙が登録されているものとする。
In FIG. 11, the
辞書生成部831は、メイン辞書851の単語の中から、キーワードクラスB163内の何れかのキーワードが含まれる単語をサブセット辞書B853に登録する。図11の例では、サブセット辞書に登録される単語は、「厚木高校」、「草津温泉」、「世田谷高校」、「羽田空港」の4単語である。
The
図9において、照合部832は、サブセット辞書B853と音階モデル854とを用いて、入力した特徴ベクトル系列との照合を行い、スコアを算出する(S911)。この処理は、上述のS604と同じである。具体的には、例えば、上述の図11の場合、照合部832は、「高校」、「温泉」、「空港」のいずれのキーワードが認識された場合にも、「厚木高校」、「草津温泉」、「世田谷高校」、「羽田空港」の4単語で構成されるサブセット辞書B853を用いて音声を認識する。
In FIG. 9, the
判定部833は、照合スコアが最大となる語彙を決定する(S912)。この処理は、上述のS604と同じである。
The
判定部823、判定部833は、照合スコアが最大となる語彙を、出力装置105、通信インタフェース106に出力する(S913)。なお、照合スコアが最大となる語彙を、図示しないプログラムによる処理に用いてもよい。この処理とは、例えば、上述の第1の実施形態で説明した処理実行部A156、処理実行部B157等による処理を同じでもよい。
The
第2の実施形態では、上述のように、キーワードに基づいたサブセット辞書を用いて音声認識をおこなうことで、メイン辞書を用いた音声認識にくらべて、少ない計算量、メモリ量での処理が可能となる。 In the second embodiment, as described above, by performing speech recognition using a subset dictionary based on keywords, it is possible to perform processing with a small amount of calculation and memory compared to speech recognition using a main dictionary. It becomes.
また、キーワードクラスA162は、予め音韻系列が類似しているキーワードが混在しないように設計しているのに対し、キーワードクラスB163には、「高校」と「空港」のように音韻系列が類似しているために認識誤りしやすいキーワードが含まれている可能性がある。しかし、キーワードクラスB163では、認識したキーワードによらずにサブセット辞書B853を作成しているため、誤認識を低減させることが可能となる。即ち、例えば、「厚木高校」の発声に対してキーワードを誤って「空港」と認識してしまったとしても、サブセット辞書B853には「厚木高校」のエントリーが含まれているため、正しい認識結果を得ることができる。 The keyword class A162 is designed so that keywords with similar phoneme sequences are not mixed in advance, whereas the keyword class B163 has similar phoneme sequences such as “high school” and “airport”. Therefore, there is a possibility that a keyword that is easy to recognize incorrectly is included. However, in the keyword class B163, since the subset dictionary B853 is created regardless of the recognized keyword, it is possible to reduce erroneous recognition. That is, for example, even if the keyword is mistakenly recognized as “airport” for the utterance of “Atsugi high school”, the subset dictionary B853 includes an entry of “Atsugi high school”, so the correct recognition result Can be obtained.
また、キーワードクラスA162には、音韻的に類似したキーワードが共存することがないため、誤ったキーワードに基いてサブセット辞書を生成する可能性は少ない。また、キーワードクラスBのキーワードに関しては、たとえキーワード認識が誤っているとしても、キーワードに依存しないサブセット辞書を用いることで、正しい認識結果を得ることが可能となる。
In addition, since the
また、サブセット辞書を作成し、この辞書から、認識すべき音声を特定する。従って、認識すべき音声が、例えば、「厚木高校」のように、地名や人名等の様々なパターンが考えられる名詞と、一般名詞との組み合わせから成るような場合に、特に有効である。 Also, a subset dictionary is created, and the speech to be recognized is specified from this dictionary. Therefore, it is particularly effective when the speech to be recognized is composed of a combination of a general noun and a noun in which various patterns such as place names and personal names are considered, such as “Atsugi High School”.
以上、この発明の実施形態を図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等も含まれる。 The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes design changes and the like within a scope not departing from the gist of the present invention.
例えば、上述の実施形態では、音声認識処理装置がコンフュージョンマトリクスから類似する語彙を分類するものとしたが、これに限られるわけではない。例えば、キーワードクラスA、キーワードクラスBへの分類は、設計者が恣意的に分類してもよく、また、任意の判定基準に基づいて分類してもよい。 For example, in the above-described embodiment, the speech recognition processing apparatus classifies similar vocabularies from the confusion matrix, but the present invention is not limited to this. For example, the classification into the keyword class A and the keyword class B may be arbitrarily performed by the designer, or may be performed based on an arbitrary determination criterion.
また、サブセット辞書の生成タイミングは任意である。例えば、予め生成され記憶されていてもよく、また、キーワードが認識される毎、所定時間毎、設計者による指示が入力された場合等に作成してもよい。また、複数のサブセット辞書を事前に作成しておき、与えられたキーワードに応じて、作成済みのサブセット辞書の中から適切な辞書を選択するようにしてもよい。 Also, the generation timing of the subset dictionary is arbitrary. For example, it may be generated and stored in advance, or may be created every time a keyword is recognized, every predetermined time, or when an instruction from a designer is input. A plurality of subset dictionaries may be created in advance, and an appropriate dictionary may be selected from the created subset dictionaries according to a given keyword.
また、サブセット辞書の別の作成法として、キーワードクラスA162に属するキーワードをまったく含まない単語を対象としてサブセット辞書を作成してもよい。この一例を図12を参照して説明する。図12において、キーワードクラスA162に属するキーワード1201は、「駅」、「公園」、「市役所」の3つである。メイン辞書851の語彙のうち、これらのキーワードを含む語彙1202を除外すると、残りの単語は、「厚木高校」、「京都大学」、「草津温泉」、「世田谷美術館」、「世田谷高校」、「羽田空港」の6単語である。サブセット辞書B853には、この6単語を登録する。以降の処理は、上述と同じである。
As another method of creating a subset dictionary, a subset dictionary may be created for words that do not include any keywords belonging to keyword class A162. An example of this will be described with reference to FIG. In FIG. 12, there are three
1:音声認識処理装置、101:CPU、102:メモリ、103:2次記憶装置、104:入力装置、105:出力装置、106:通信インタフェース、151:クラス分類部、152:分析部、153:照合部、154:判定部、155:処理実行部、156:処理実行部A、157:処理実行部B、161:キーワードモデル、162:キーワードクラスA、163:キーワードクラスB、164:コンフュージョンマトリクス、165:ガーベッジモデル、801:音声認識処理装置、811:音声再認識部、812:再認識部A、813:再認識部B、821:辞書生成部、822:照合部、823:判定部、831:辞書生成部、832:照合部、833:判定部、851:メイン辞書、852:サブセット辞書A、853:サブセット辞書B、854:音階モデル 1: speech recognition processing device, 101: CPU, 102: memory, 103: secondary storage device, 104: input device, 105: output device, 106: communication interface, 151: class classification unit, 152: analysis unit, 153: Collation unit, 154: determination unit, 155: processing execution unit, 156: processing execution unit A, 157: processing execution unit B, 161: keyword model, 162: keyword class A, 163: keyword class B, 164: confusion matrix 165: Garbage model, 801: Speech recognition processing device, 811: Speech re-recognition unit, 812: Re-recognition unit A, 813: Re-recognition unit B, 821: Dictionary generation unit, 822: Verification unit, 823: Determination unit, 831: Dictionary generation unit, 832: Verification unit, 833: Determination unit, 851: Main dictionary, 852: Subset dictionary A, 853: Support Set dictionary B, 854: scale model
Claims (5)
複数のキーワードを、互いに音韻的に類似するキーワードが含まれない第1のキーワード群と、該第1のキーワード群に含まれないキーワードである第2のキーワード群とに分類して記憶する記憶手段、を有する前記コンピュータに、
入力された音声に含まれる少なくとも1つの前記キーワードを認識するキーワード認識ステップと、
前記認識されたキーワードが前記第1のキーワード群に含まれる場合、第1の処理を実行する第1の処理実行ステップと、
前記認識されたキーワードが前記第2のキーワード群に含まれる場合、第2の処理を実行する第2の処理実行ステップと、を実行させること
を特徴とする音声認識処理プログラム。 In a computer-executable speech recognition program for recognizing a keyword that is a word included in input speech,
Storage means for classifying and storing a plurality of keywords into a first keyword group that does not include phonologically similar keywords and a second keyword group that is a keyword that is not included in the first keyword group The computer having
A keyword recognition step for recognizing at least one of the keywords included in the input voice;
When the recognized keyword is included in the first keyword group, a first process execution step of executing a first process;
When the recognized keyword is included in the second keyword group, a second process execution step for executing a second process is executed.
前記記憶手段に、複数の音声の各々に対し、同一の音声及び他の音声と一致すると認識される度合いを示す類似度を含むコンフュージョンマトリクスをさらに記憶する前記コンピュータに、
前記コンフュージョンマトリクスと前記キーワードとから、前記キーワードのうち類似度が所定閾値に満たない単語を選択し、該単語を前記第1のキーワード群として分類し、前記選択したキーワード以外のキーワードを、前記第2のキーワード群として分類する分類ステップ、
をさらに実行させることを特長とする音声認識処理プログラム。 A speech recognition processing program according to claim 1,
In the computer further storing a confusion matrix including a degree of similarity indicating a degree recognized as matching the same voice and another voice for each of a plurality of voices in the storage means,
From the confusion matrix and the keyword, a word whose similarity is less than a predetermined threshold is selected from the keywords, the word is classified as the first keyword group, and keywords other than the selected keyword are A classification step for classifying as a second keyword group;
A speech recognition processing program characterized by further executing
前記第1の処理は、前記認識されたキーワードに応じて定まる処理であり、
前記第2の処理は、特定の処理であること
を特徴とする音声認識処理プログラム。 A speech recognition processing program according to claim 1 or 2,
The first process is a process determined according to the recognized keyword,
The voice recognition processing program, wherein the second process is a specific process.
前記第2の処理は、前記認識されたキーワードを確認するための情報を出力手段に出力すること
を特徴とする音声認識処理プログラム。 A speech recognition processing program according to claim 3,
The voice recognition processing program characterized in that the second processing outputs information for confirming the recognized keyword to an output means.
複数のキーワードを、互いに音韻的に類似するキーワードが含まれない第1のキーワード群と、該第1のキーワード群に含まれないキーワードである第2のキーワード群と、1つ以上の単語から成る語彙を複数含む辞書とを記憶する記憶手段、を有する前記コンピュータに、
入力された音声に含まれる少なくとも1つの前記キーワードを認識するキーワード認識ステップと、
前記認識されたキーワードが前記第1のキーワード群に含まれる場合、前記辞書から、前記認識されたキーワードを含む語彙を選択し、該選択した語彙を第1のサブセット辞書として前記記憶手段に記憶させ、前記入力された音声から、前記第1のサブセット辞書に含まれる語彙であり、かつ、前記認識されたキーワードを含む語彙であるものを抽出する第1の語彙認識ステップと、
前記認識されたキーワードが前記第2のキーワード群に含まれる場合、前記辞書から、前記複数のキーワードを含む語彙を選択し、該選択した語彙を第二のサブセット辞書として前記記憶手段に記憶させ、前記入力された音声から、前記第2のサブセット辞書に含まれる語彙であり、かつ、前記認識されたキーワードを含む語彙であるものを抽出する第2の語彙認識ステップと、
前記抽出した語彙を出力するステップと、を実行させること
を特徴とする音声認識処理プログラム。 In a computer-executable speech recognition program for recognizing a keyword that is a word included in input speech,
The plurality of keywords include a first keyword group that does not include phonologically similar keywords, a second keyword group that is a keyword that is not included in the first keyword group, and one or more words. A storage means for storing a dictionary including a plurality of vocabularies,
A keyword recognition step for recognizing at least one of the keywords included in the input voice;
When the recognized keyword is included in the first keyword group, a vocabulary including the recognized keyword is selected from the dictionary, and the selected vocabulary is stored in the storage unit as a first subset dictionary. A first vocabulary recognition step for extracting from the input speech a vocabulary included in the first subset dictionary and a vocabulary including the recognized keyword;
When the recognized keyword is included in the second keyword group, the vocabulary including the plurality of keywords is selected from the dictionary, and the selected vocabulary is stored in the storage unit as a second subset dictionary. A second vocabulary recognition step of extracting, from the input speech, a vocabulary included in the second subset dictionary and a vocabulary including the recognized keyword;
And a step of outputting the extracted vocabulary.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006260477A JP2008083165A (en) | 2006-09-26 | 2006-09-26 | Voice recognition processing program and voice recognition processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006260477A JP2008083165A (en) | 2006-09-26 | 2006-09-26 | Voice recognition processing program and voice recognition processing method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008083165A true JP2008083165A (en) | 2008-04-10 |
Family
ID=39354139
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006260477A Pending JP2008083165A (en) | 2006-09-26 | 2006-09-26 | Voice recognition processing program and voice recognition processing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008083165A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009116075A (en) * | 2007-11-07 | 2009-05-28 | Xanavi Informatics Corp | Speech recognition device |
JP2009284473A (en) * | 2008-04-23 | 2009-12-03 | Canon Inc | Camera control apparatus and method |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07210188A (en) * | 1994-01-26 | 1995-08-11 | Fujitsu Ten Ltd | Voice recognition device |
JPH1078964A (en) * | 1996-06-25 | 1998-03-24 | Microsoft Corp | Method and system for identifying and analyzing generally confused word by natural language parser |
JPH11153998A (en) * | 1997-11-19 | 1999-06-08 | Canon Inc | Audio response equipment and its method, and computer readable memory |
JP2005267399A (en) * | 2004-03-19 | 2005-09-29 | Nec Personal Products Co Ltd | Speech dictionary search system and speech dictionary search program |
-
2006
- 2006-09-26 JP JP2006260477A patent/JP2008083165A/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07210188A (en) * | 1994-01-26 | 1995-08-11 | Fujitsu Ten Ltd | Voice recognition device |
JPH1078964A (en) * | 1996-06-25 | 1998-03-24 | Microsoft Corp | Method and system for identifying and analyzing generally confused word by natural language parser |
JPH11153998A (en) * | 1997-11-19 | 1999-06-08 | Canon Inc | Audio response equipment and its method, and computer readable memory |
JP2005267399A (en) * | 2004-03-19 | 2005-09-29 | Nec Personal Products Co Ltd | Speech dictionary search system and speech dictionary search program |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009116075A (en) * | 2007-11-07 | 2009-05-28 | Xanavi Informatics Corp | Speech recognition device |
JP2009284473A (en) * | 2008-04-23 | 2009-12-03 | Canon Inc | Camera control apparatus and method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11580991B2 (en) | Speaker based anaphora resolution | |
US10453117B1 (en) | Determining domains for natural language understanding | |
US11594215B2 (en) | Contextual voice user interface | |
US10210862B1 (en) | Lattice decoding and result confirmation using recurrent neural networks | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US10170107B1 (en) | Extendable label recognition of linguistic input | |
US9646605B2 (en) | False alarm reduction in speech recognition systems using contextual information | |
JP5480760B2 (en) | Terminal device, voice recognition method and voice recognition program | |
KR101309042B1 (en) | Apparatus for multi domain sound communication and method for multi domain sound communication using the same | |
JP5089955B2 (en) | Spoken dialogue device | |
JP5706384B2 (en) | Speech recognition apparatus, speech recognition system, speech recognition method, and speech recognition program | |
JP5200712B2 (en) | Speech recognition apparatus, speech recognition method, and computer program | |
KR20060037086A (en) | Method and apparatus for speech recognition, and navigation system using for the same | |
JP5703491B2 (en) | Language model / speech recognition dictionary creation device and information processing device using language model / speech recognition dictionary created thereby | |
EP2308042A2 (en) | Method and device for generating vocabulary entry from acoustic data | |
US20070016420A1 (en) | Dictionary lookup for mobile devices using spelling recognition | |
US10417345B1 (en) | Providing customer service agents with customer-personalized result of spoken language intent | |
WO2006093092A1 (en) | Conversation system and conversation software | |
WO2014033855A1 (en) | Speech search device, computer-readable storage medium, and audio search method | |
JP2014164261A (en) | Information processor and information processing method | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
KR101424496B1 (en) | Apparatus for learning Acoustic Model and computer recordable medium storing the method thereof | |
JPH10274996A (en) | Voice recognition device | |
JP2008083165A (en) | Voice recognition processing program and voice recognition processing method | |
JP2001242885A (en) | Device and method for speech recognition, and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090617 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20100212 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111003 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120213 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120814 |