JP4951422B2 - Speech recognition apparatus and speech recognition method - Google Patents
Speech recognition apparatus and speech recognition method Download PDFInfo
- Publication number
- JP4951422B2 JP4951422B2 JP2007164538A JP2007164538A JP4951422B2 JP 4951422 B2 JP4951422 B2 JP 4951422B2 JP 2007164538 A JP2007164538 A JP 2007164538A JP 2007164538 A JP2007164538 A JP 2007164538A JP 4951422 B2 JP4951422 B2 JP 4951422B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition result
- user
- recognition
- language model
- vocabulary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 16
- 239000000284 extract Substances 0.000 claims abstract 3
- 230000004044 response Effects 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 12
- 230000000452 restraining effect Effects 0.000 claims description 11
- 238000010586 diagram Methods 0.000 description 4
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Images
Landscapes
- Navigation (AREA)
- Traffic Control Systems (AREA)
Abstract
Description
本発明は、音声を認識するための音声認識装置、および音声認識方法に関する。 The present invention relates to a speech recognition apparatus and a speech recognition method for recognizing speech.
次のような音声認識装置が知られている。この音声認識装置は、音声認識エンジンと規定コマンド用辞書とを備え、音声認識エンジンは、使用者の発話音声を規定コマンド辞書と照合することによって、認識結果を出力する(例えば、特許文献1)。 The following voice recognition devices are known. This speech recognition apparatus includes a speech recognition engine and a prescribed command dictionary, and the speech recognition engine outputs a recognition result by collating the user's uttered speech with the prescribed command dictionary (for example, Patent Document 1). .
しかしながら、従来の音声認識装置では、使用者が規定コマンドの表現を変更して発話した場合には、誤認識が生じる恐れがあった。 However, in the conventional speech recognition apparatus, when the user changes the expression of the specified command and speaks, there is a possibility that erroneous recognition occurs.
本発明は、使用者による発話音声を入力し、前記発話音声を認識するために設けられ、音声で操作される機器に対する目的語および前記機器を操作するための操作語を含む語彙を、使用者の発話内容を拘束するレベルが異なる複数の言語モデルで表した待ち受け語彙として記憶し、記憶手段に記憶した前記待ち受け語彙と、音声入力手段で入力した前記発話音声との一致度を、前記複数の言語モデルについてそれぞれ演算し、前記一致度演算手段により演算された一致度に基づいて、前記複数の言語モデルにおける待ち受け語彙の中から、一致度が高い順に複数個の待ち受け語彙を選択して認識結果候補として抽出し、候補抽出手段で抽出した複数個の認識結果候補の中で使用者の発話内容を拘束
するレベルが高い言語モデル(第1レベル言語モデル)の認識結果候補の中で最も高い一致度と、前記候補抽出手段で抽出した複数個の認識結果候補の中で最も高い一致度との差を演算し、その差が所定値より小さいときは前記第1レベル言語モデルの認識結果候補を認識結果として特定し、そうでないときは、前記候補抽出手段で抽出した複数個の認識結果候補の中で次に拘束するレベルが高い言語モデル(第2レベル言語モデル)の認識結果候補の中で最も高い一致度と、前記候補抽出手段で抽出した複数個の認識結果候補の中で最も高い一致度との差を演算し、その差が所定値より小さいときは前記第2レベル言語モデルの認識結果候補を認識結果として特定する音声認識装置、または方法である。
The present invention provides a user with a vocabulary provided for inputting speech speech by a user and recognizing the speech speech, including an object for a device operated by speech and an operation word for operating the device. Is stored as a standby vocabulary expressed by a plurality of language models with different levels of restraining the utterance content, and the degree of coincidence between the standby vocabulary stored in the storage means and the uttered speech input by the voice input means Each of the language models is calculated, and based on the degree of coincidence calculated by the degree of coincidence calculating means, a plurality of standby vocabularies are selected from the standby vocabulary in the plurality of language models in descending order of the degree of coincidence. A language model (first level language) that is extracted as a candidate and has a high level of restraining the user's utterance content among a plurality of recognition result candidates extracted by the candidate extraction means. When the difference between the highest matching degree among the recognition result candidates of the model) and the highest matching degree among the plurality of recognition result candidates extracted by the candidate extracting means is calculated, and the difference is smaller than a predetermined value Identifies a recognition result candidate of the first level language model as a recognition result, and if not, a language model (first one) that is next constrained among a plurality of recognition result candidates extracted by the candidate extraction means. The difference between the highest matching degree among the recognition result candidates of the two-level language model) and the highest matching degree among the plurality of recognition result candidates extracted by the candidate extraction means is calculated, and the difference is a predetermined value. When it is smaller, the speech recognition apparatus or method identifies a recognition result candidate of the second level language model as a recognition result.
本発明によれば、認識結果候補の中に、より拘束性のレベルが高い言語モデルの待ち受け語彙が含まれている場合であっても、その一致度が低い場合には、それが優先的に採用されることを防いで、誤認識を防止することができる。According to the present invention, even when a standby vocabulary of a language model having a higher level of restraint is included in the recognition result candidates, if the matching degree is low, it is preferentially used. It is possible to prevent misrecognition by preventing the adoption.
図1は、本実施の形態における音声認識装置の一実施の形態の構成を示すブロック図である。音声認識装置100は、マイク101と、スピーカ102と、信号処理ユニット103と、入力装置104と、ディスプレイ105とを備えている。
FIG. 1 is a block diagram showing a configuration of an embodiment of a speech recognition apparatus according to the present embodiment. The voice recognition device 100 includes a microphone 101, a speaker 102, a signal processing unit 103, an
信号処理ユニット103は、A/Dコンバータ1031、D/Aコンバータ1032、出力アンプ1033、信号処理装置1034、および外部記憶装置1035を備えている。信号処理装置1034は、CPU1034a、メモリ1034b、およびその他周辺回路により構成されている。また、入力装置104は、発話スイッチ104aおよび訂正スイッチ104bを備えている。
The signal processing unit 103 includes an A /
音声認識装置100においては、使用者は、発話スイッチ104aを押下することによって、音声認識の開始を指示することができる。使用者によって音声認識の開始が指示された場合、使用者による発話音声はマイク101を通して信号処理ユニット103へ入力される。信号処理ユニット103へ入力された音声信号(入力音声信号)は、A/Dコンバータ1031でデジタル信号に変換された後、信号処理装置1034へ入力される。
In the speech recognition apparatus 100, the user can instruct the start of speech recognition by pressing the
信号処理装置1034では、CPU1034aは、図2により後述する処理を実行して、使用者による発話音声を音声認識する。また、音声認識の結果に基づいて、使用者への応答文を生成する。生成した応答文は、D/Aコンバータ1032でアナログ信号に変換され、出力アンプ1033で増幅された後、スピーカ102を介して出力される。使用者は、応答文の内容から音声認識結果が誤認識であると判断した場合には、訂正ボタン104bを押下して訂正指示をすることができる。また、使用者は、訂正ボタン104bを一定時間押下(長押し)することにより、音声認識を途中で中断することもできる。
In the signal processing device 1034, the CPU 1034a executes processing to be described later with reference to FIG. 2 and recognizes speech uttered by the user. Further, a response sentence to the user is generated based on the result of the speech recognition. The generated response sentence is converted into an analog signal by the D /
図2は、本実施の形態における音声認識装置100の処理を示すフローチャートである。図2に示す処理は、使用者によって発話スイッチ104aが押下されると起動するプログラムとして、CPU1034aによって実行される。
FIG. 2 is a flowchart showing processing of the speech recognition apparatus 100 according to the present embodiment. The processing shown in FIG. 2 is executed by the CPU 1034a as a program that is activated when the
ステップS10において、CPU1034aは、音声認識に使用する認識対象語彙を外部記憶装置1035からメモリ1034bに読み込んで、音声認識処理のための待ち受け設定を行う。ここで読み込む認識対象語彙は、使用者の発話内容を拘束する拘束性のレベルが異なる複数の言語モデルで表される。以下、言語モデルの具体例について、図3〜図8を用いて説明する。
In step S10, the CPU 1034a reads the recognition target vocabulary used for speech recognition from the
CPU1034aは、まず、外部記憶装置1035から拘束性の高レベルの言語モデルで表される認識対象語彙を読み込む。拘束性の高レベルの言語モデルとは、認識対象語彙を構成する単語列の中に任意の音素列の挿入を許容しない規定コマンド用の言語モデルであって、例えば、図3に示すように、第一階層A、第二階層B、および第三階層Cとで構成される階層構造になっている。なお、図3は、車両に搭載されるナビゲーション装置を音声操作するためのコマンドを待ち受けるための言語モデルを表しており、以下の説明では、使用者がナビゲーション装置を音声操作する場合の音声認識処理について説明する。
First, the CPU 1034a reads a recognition target vocabulary represented by a high-level language model with restraint from the
図3において、第一階層Aは、「行き先設定」、「ルート設定」などのナビゲーション装置を操作するためのコマンドを保持している。第二階層Bは、第一階層Aのコマンドの下位コマンドを保持しており、例えば、第一階層Aに含まれる「行き先設定」の下位コマンドとして、「自宅設定」や「登録地表示」などのコマンドを保持している。第三階層Cは、第二階層Bの下位コマンドを保持しており、例えば、第二階層Bに含まれる「登録地表示」の下位コマンドとして、「○○さん」や「○○社」などの具体的な登録地の名称を保持している。 In FIG. 3, the first hierarchy A holds commands for operating navigation devices such as “destination setting” and “route setting”. The second layer B holds lower commands of the commands of the first layer A. For example, as a lower command of “destination setting” included in the first layer A, “home setting”, “registered place display”, etc. Holds the command. The third layer C holds the lower commands of the second layer B. For example, as a lower command of “Registered location display” included in the second layer B, “Mr. The name of a specific registered place is held.
ここでは、CPU1034aは、この図3に示す拘束性の高レベルの言語モデルの中から、第一階層Aに含まれる全てのコマンド、第二階層Bに含まれる一部のコマンド、および第三階層Cに含まれる一部のコマンドを抽出して読み込む。例えば、図3に示す枠3a内に含まれるコマンドを抽出して読み込む。この拘束性の高レベルの言語モデルとして、例えば、図4に示すような語彙を認識対象語彙として待ち受けることが可能になる。すなわち、使用者が行き先を設定しようとして「行き先設定」と発話した場合に、認識対象語彙4aによってこれを音声認識することができる。
Here, the CPU 1034a selects all the commands included in the first hierarchy A, some commands included in the second hierarchy B, and the third hierarchy from the high-level language model shown in FIG. Some commands included in C are extracted and read. For example, the commands included in the
次に、CPU1034aは、外部記憶装置1035から拘束性の中レベルの言語モデルで表される認識対象語彙を読み込む。拘束性の中レベルの言語モデルとは、認識対象語彙を構成する単語列の中に任意の音素列の挿入を許容し、かつ認識可能な単語列が確定している言語モデルである。例えば図5に示すように、「行き先」、「目的地」など、ナビゲーション装置を操作する上での目的語5aと、「設定」、「決定」などナビゲーション装置を操作するための操作語5bとをガベージ5cを挟んで接続し、さらに目的語5aの前にもガベージ5dを挟んで操作語5eを接続することによって、目的語と操作語の倒置も許した言語モデルである。
Next, the CPU 1034a reads a recognition target vocabulary represented by a restrictive medium-level language model from the
なお、ガベージは、操作語や目的語などのキーワード以外の部分を吸収する。この拘束性の中レベルの言語モデルで表される認識対象語彙を読み込むことによって、例えば、図6に示すような語彙を認識対象語彙として待ち受けることが可能になる。すなわち、使用者が行き先を設定しようとして「行き先を設定」と発話した場合でも、認識対象語彙6aにより、これを音声認識することができる。
Garbage absorbs parts other than keywords such as operation words and objects. By reading the recognition target vocabulary represented by this restrictive medium-level language model, for example, a vocabulary as shown in FIG. 6 can be awaited as the recognition target vocabulary. That is, even when the user utters “set destination” in an attempt to set a destination, the
最後に、CPU1034aは、外部記憶装置1035から拘束性の低レベルの言語モデルで表される認識対象語彙を読み込む。拘束性の低レベルの言語モデルとは、認識対象語彙を構成する単語列の中に任意の音素列の挿入を許容し、かつ認識可能な単語列が確定していない言語モデルである。例えば、図7に示すように、「行き先」、「目的地」などのナビゲーション装置を操作する上での目的語および「設定」、「決定」などナビゲーション装置を操作するための操作語からなる語彙7aをガベージ7bおよび7cを挟んで任意に接続することを許した言語モデルである。
Lastly, the CPU 1034a reads the recognition target vocabulary represented by the low-level language model with restraint from the
この拘束性の低レベルの言語モデルで表される認識対象語彙を読み込むことによって、例えば、図8に示すような語彙を認識対象語彙として待ち受けることが可能になる。すなわち、使用者が行き先を設定しようとして「行き先、行き先設定」のように誤った発話した場合でも、認識対象語彙8aにより、これを音声認識することができる。
By reading the recognition target vocabulary represented by this low-level language model of restriction, for example, it is possible to wait for a vocabulary as shown in FIG. 8 as the recognition target vocabulary. That is, even when the user tries to set a destination and makes an erroneous utterance such as “destination, destination setting”, this can be recognized by the
次に、ステップS20へ進み、CPU1034aは、例えば図9に示すような音声入力用のメニュー画面をディスプレイ105へ出力して表示する。図9(a)は、ステップS10で読み込んだ拘束性の高レベルの言語モデルの第一階層Aに含まれるコマンドを表示して、使用者に発話を促すためのメニュー画面例である。また、図9(b)は、第二階層Bに含まれるコマンドを表示して、使用者に発話を促すためのメニュー画面例であり、図9(c)は、第三階層Cに含まれるコマンドを表示して、使用者に発話を促すためのメニュー画面例である。CPU1034aは、まず、図9(a)に示すメニュー画面を表示して、使用者に対して、第一階層Aに含まれるコマンドを発話するように促す。 Next, proceeding to step S20, the CPU 1034a outputs a menu screen for voice input as shown in FIG. FIG. 9A shows an example of a menu screen for prompting the user to speak by displaying commands included in the first hierarchy A of the restrictive high-level language model read in step S10. FIG. 9B shows an example of a menu screen for displaying commands included in the second level B and prompting the user to speak, and FIG. 9C is included in the third level C. It is an example of a menu screen for displaying a command and prompting a user to speak. First, the CPU 1034a displays a menu screen shown in FIG. 9A to prompt the user to speak a command included in the first hierarchy A.
このようなメニュー画面例を表示して、使用者に発話可能なコマンドを提示することによって、使用者は、どのようなコマンドを発話すればよいかを把握することができる。なお、ここでメニュー画面上に表示されるのは、第一階層Aに含まれるコマンドのうちの一部であるが、このメニュー画面に表示されているコマンドは、全て目的語と操作語の組み合わせとなっている。このため、使用者は、他のコマンドを発話しようとした場合であっても、このメニュー画面を見ることによって、目的語と操作語とからなるコマンドを発話すればよいことを把握することができる。 By displaying such a menu screen example and presenting commands that can be spoken to the user, the user can grasp what commands should be spoken. Here, what is displayed on the menu screen is a part of the commands included in the first hierarchy A, but all the commands displayed on this menu screen are combinations of the object word and the operation word. It has become. For this reason, even when a user tries to speak another command, the user can grasp that it is only necessary to speak a command composed of an object word and an operation word by looking at this menu screen. .
次に、CPU1034aは、処理を開始した旨を使用者に通知するために、外部記憶装置1035に記憶されている音声メッセージ、例えば「処理を開始しました」や「発話を開始してください」などを出力する。すなわちCPU1034aは、音声メッセージの音声データを外部記憶装置1035から読み込み、D/Aコンバータ1032へ出力する。音声メッセージの音声データは、D/Aコンバータ1032でアナログデータに変換され、出力アンプ1033で増幅された後、スピーカ102を介して出力される。使用者は、音声メッセージを受けて発話を行う。
Next, the CPU 1034a notifies the user that processing has started, such as a voice message stored in the
CPU1034aは、マイク101を介した音声入力を監視して、使用者による発話音声の入力開始を検出する。具体的には、CPU1034aは、次のようにして発話音声の入力開始を検出する。CPU1034aは、使用者によって、発話スイッチ104aが押下されるまでの間は、マイク101およびA/Dコンバータ1031を介して入力されるデジタル信号の平均パワーを演算している。
The CPU 1034a monitors the voice input via the microphone 101 and detects the start of input of the spoken voice by the user. Specifically, the CPU 1034a detects the start of speech voice input as follows. The CPU 1034a calculates the average power of the digital signal input through the microphone 101 and the A /
そして、使用者によって発話スイッチ104aが押下された後は、マイク101およびA/Dコンバータ1031を介して入力されるデジタル信号の瞬間パワーが、上記平均パワーを所定値以上大きくなったときに、使用者による発話音声の入力が開始されたと検出する。そして、発話音声の入力が開始されたことを検出した場合には、CPU1034aは、音声の取り込みを開始する。
After the
その後、ステップS30へ進み、CPU1034aは、上述したステップS10でメモリ1034bに読み込んだ認識対象語彙(待ち受け単語)と、取り込んだ音声との一致度を演算する。一致度とは、認識対象語彙と取り込んだ音声とがどの程度似ているかを表す指標であって、本実施の形態では、一致度はスコアとして算出される。このスコアは、数値で表され、値が大きいほど認識対象語彙と取り込んだ音声とが似ていることを意味する。なお、CPU1034aがこの一致度を演算している間も、発話音声の取り込みは継続されている。
Thereafter, the process proceeds to step S30, and the CPU 1034a calculates the degree of coincidence between the recognition target vocabulary (standby word) read into the
ステップS40では、CPU1034aは、入力されるデジタル信号の瞬間パワーが、所定時間以上継続して所定値以下である場合には、発話音声の入力は終了したと判断して、音声の取り込みを終了する。 In step S40, if the instantaneous power of the input digital signal is not more than a predetermined value for a predetermined time or longer, the CPU 1034a determines that the input of the uttered voice has been completed and ends the voice capturing. .
その後、ステップS50へ進み、CPU1034aは、ステップS30で開始した一致度の演算が終了したら、一致度の最も大きな認識対象語彙から順番にN個の認識対象語彙を認識結果N−bestとして出力する。図10は、使用者が、ナビゲーション装置を操作するための規定コマンドである「行き先設定」を発話した場合の認識結果N−bestを示す図である。なお、図10では、Nが5の場合、すなわち認識結果N−bestとして、一致度が上位の5個の認識対象語彙が出力された場合の具体例を示している。 Thereafter, the process proceeds to step S50, and when the coincidence calculation started in step S30 ends, the CPU 1034a outputs N recognition target vocabularies in order from the recognition target vocabulary having the largest coincidence as recognition results N-best. FIG. 10 is a diagram illustrating a recognition result N-best when the user utters “destination setting” which is a prescribed command for operating the navigation device. FIG. 10 shows a specific example in the case where N is 5, that is, when the five recognition target words having higher matching degrees are output as the recognition result N-best.
この図10に示す例では、使用者による実際の発話内容と一致する認識対象語彙「行き先設定」は、その一致度が第四位と低く算出されている。この場合、従来の一般的な音声認識方法と同様に一致度の最上位の認識対象語彙を最終的な認識結果として採用した場合には、誤認識が生じることになる。よって、本実施の形態では、次のようにして誤認識を防止する。 In the example shown in FIG. 10, the recognition target word “destination setting” that matches the actual utterance content by the user is calculated as low as the fourth rank. In this case, as in the conventional general speech recognition method, when the recognition target vocabulary having the highest matching score is adopted as the final recognition result, erroneous recognition occurs. Therefore, in this embodiment, erroneous recognition is prevented as follows.
CPU1034aは、認識結果N−bestの中で、最も拘束性のレベルが高い言語モデルから出力された認識対象語彙を選択する。例えば、図10に示す例では、第一位の認識結果である「(ガベージ)・(ガベージ)」は拘束性の低レベルの言語モデルから出力された認識対象語彙である。第二位の認識結果である「駅・(ガベージ)・探す」は、拘束性の中レベルの言語モデルから出力された認識対象語彙である。第三位の認識結果である「地図・見せて」は、拘束性の中レベルの言語モデルから出力された認識対象語彙である。第四位の認識結果である「行き先設定」は、拘束性の高レベルの言語モデルから出力された認識対象語彙である。第五位の認識結果である「(ガベージ)・設定」は、拘束性の低レベルの言語モデルから出力された認識対象語彙である。 The CPU 1034a selects the recognition target vocabulary output from the language model having the highest level of restraint among the recognition results N-best. For example, in the example shown in FIG. 10, “(garbage) · (garbage)”, which is the first recognition result, is a recognition target vocabulary output from a low-level language model with constraints. The second recognition result “station / (garbage) / search” is a recognition target vocabulary output from a middle-level language model of restraint. The third recognition result “Map / Show” is the recognition target vocabulary output from the middle-level language model of restraint. “Destination setting”, which is the fourth recognition result, is a recognition target vocabulary output from a highly restrictive language model. The fifth recognition result “(garbage) / setting” is a recognition target vocabulary output from a language model with a low level of restraint.
よって、この図10に示す例では、CPU1034aは、最も拘束性のレベルが高い第四位の認識結果である「行き先設定」を選択する。そして、CPU1034aは、この第四位の認識結果である「行き先設定」を最終的な認識結果として優先採用するか否かの判定を行う。本実施の形態では、CPU1034aは、(A)判定対象の認識結果の順位が所定の順位Nthより高く、かつ(B)第一位の認識機結果と判定対象の認識結果とのスコア差が所定値Lthより小さい場合には、判定対象の認識結果を上位の他の認識結果よりも優先して採用する。なお、判定時の閾値として用いるNthとLthは、それぞれ実験的に求められる値であって、ここでは、Nth=5、Lth=0.10とする。 Therefore, in the example shown in FIG. 10, the CPU 1034a selects “destination setting” which is the fourth recognition result with the highest level of restraint. Then, the CPU 1034a determines whether or not to preferentially adopt the “destination setting” that is the fourth recognition result as the final recognition result. In this embodiment, the CPU 1034a has (A) the recognition result rank of the determination target is higher than the predetermined rank Nth, and (B) the score difference between the first recognition machine result and the determination target recognition result is predetermined. When the value is smaller than the value Lth, the recognition result to be determined is adopted with priority over the other recognition results at the top. Note that Nth and Lth used as threshold values at the time of determination are values obtained experimentally, and here, Nth = 5 and Lth = 0.10.
ここで、判定対象の認識結果である第四位の認識結果についてみると、順位は第四位であるので閾値Nthより大きく条件(A)を満たす。また、第一位の認識結果のスコア(0.25)と第四位の認識結果のスコア(0.18)の差は0.07であって閾値Lthより小さく条件(B)も満たす。よって、CPU1034aは、図10に示す例では、第四位の認識結果を他の上位の認識結果よりも優先して採用すると判定し、第四位の認識結果である「行き先設定」を最終的な認識結果とする。そして、CPU1034aは、音声合成処理を行い、認識結果「行き先設定」を音声信号に変換した後、D/Aコンバータ1032、出力アンプ1033を介して、スピーカ102から音声出力する。
Here, regarding the recognition result of the fourth place, which is the recognition result of the determination target, the rank is the fourth place and satisfies the condition (A) larger than the threshold value Nth. The difference between the score of the first recognition result (0.25) and the score of the fourth recognition result (0.18) is 0.07 , which is smaller than the threshold value Lth and satisfies the condition (B). Therefore, in the example illustrated in FIG. 10, the CPU 1034a determines that the fourth recognition result is prioritized over the other higher recognition results, and finally sets the fourth destination “destination setting”. Recognition results. The CPU 1034a performs voice synthesis processing, converts the recognition result “destination setting” into a voice signal, and then outputs the voice from the speaker 102 via the D /
また、別の例として、使用者が、ナビゲーション装置を操作するための規定コマンドとは異なる「行き先をえーと探す」を発話した場合に、認識結果N−bestが図11に示すように出力された場合について説明する。この場合もCPU1034aは、認識結果N−bestの中で、最も拘束性のレベルが高い言語モデルから出力された認識対象語彙、すなわち第四位の「ルート設定」を選択する。そして、この第四位の認識結果である「ルート設定」が上述した(A)および(B)の条件を満たすか否かを判定して、最終的な認識結果として優先して採用するか否かを判定する。 As another example, when the user utters “search for a destination” which is different from the prescribed command for operating the navigation device, the recognition result N-best is output as shown in FIG. The case will be described. Also in this case, the CPU 1034a selects the recognition target vocabulary output from the language model having the highest level of restriction, that is, the fourth “route setting” from the recognition result N-best. Then, it is determined whether or not “ route setting” that is the fourth recognition result satisfies the above-described conditions (A) and (B), and whether or not the final recognition result is preferentially adopted. Determine whether.
この場合には、順位は第四位であるので閾値Nthより大きく条件(A)を満たすが、第一位の認識結果のスコア(0.25)と第四位の認識結果のスコア(0.02)の差は0.23であって閾値Lthより大きいため条件(B)は満たさない。よって、CPU1034aは、この第四位の認識結果は優先して採用しない。 In this case, since the rank is fourth, the condition (A) is satisfied larger than the threshold value Nth, but the first recognition result score (0.25) and the fourth recognition result score (0. The difference of 02) is 0.23 , which is larger than the threshold value Lth, so the condition (B) is not satisfied. Therefore, the CPU 1034a does not adopt the fourth recognition result with priority.
CPU1034aは、次に、認識結果N−bestの中から2番目に拘束性のレベルが高い言語モデルから出力された認識対象語彙を選択する。図11に示す例では、拘束性の中レベルの言語モデルから出力された第二位の認識結果である「行き先・(ガベージ)・探す」を選択する。そして、この第二位の認識結果が上述した(A)および(B)の条件を満たすか否かを判定して、最終的な認識結果として優先して採用するか否かを判定する。 Next, the CPU 1034a selects the recognition target vocabulary output from the language model having the second highest level of restriction from the recognition result N-best. In the example shown in FIG. 11, “destination / (garbage) / search”, which is the second recognition result output from the restrictive middle-level language model, is selected. Then, it is determined whether or not the second recognition result satisfies the conditions (A) and (B) described above, and it is determined whether or not the final recognition result is preferentially adopted.
この場合には、順位は第2位であるので閾値Nthより大きく条件(A)を満たす。また、第一位の認識結果のスコア(0.25)と第二位の認識結果のスコア(0.22)の差は0.03であって閾値Lthより小さいため条件(B)も満たす。よって、CPU1034aは、この第二位の認識結果を優先して採用する。 In this case, since the rank is second, the condition (A) is satisfied which is greater than the threshold value Nth. Further, since the difference between the score of the first recognition result (0.25) and the score of the second recognition result (0.22) is 0.03 , which is smaller than the threshold value Lth, the condition (B) is also satisfied. Therefore, the CPU 1034a preferentially adopts the second recognition result.
以上より、CPU1034aは、図11に示す例では、第二位の認識結果を他の上位の認識結果よりも優先して採用すると判定し、第二位の認識結果である「行き先・(ガベージ)・探す」を最終的な認識結果とする。この場合、最終的な認識結果である「行き先・(ガベージ)・探す」をナビゲーション装置用の規定コマンドに変換する必要があるため、「行き先・(ガベージ)・探す」を対応する規定コマンド「行き先設定」に変換する。そして、CPU1034aは、音声合成処理を行い、認識結果「行き先設定」を音声信号に変換した後、D/Aコンバータ1032、出力アンプ1033を介して、スピーカ102から音声出力する。
As described above, in the example illustrated in FIG. 11, the CPU 1034a determines that the second recognition result is prioritized over other higher recognition results, and the second recognition result “destination / (garbage)”. “Find” is the final recognition result. In this case, since it is necessary to convert the final recognition result “destination / (garbage) / search” into a specified command for the navigation device, the corresponding specified command “destination / (garbage) / search” Convert to "setting". The CPU 1034a performs voice synthesis processing, converts the recognition result “destination setting” into a voice signal, and then outputs the voice from the speaker 102 via the D /
なお、この場合、認識結果である「行き先・(ガベージ)・探す」に基づいて、使用者の発話内容に近い「行き先を探す」を音声出力する方法も考えられる。しかしながら、本実施の形態では、使用者に規定コマンドの習得を促すために、規定コマンドに変換した後の「行き先設定」を音声出力するようにしている。 In this case, based on the recognition result “destination / (garbage) / search”, a method of outputting “search for destination” close to the utterance content of the user by voice is also conceivable. However, in this embodiment, in order to prompt the user to learn the specified command, the “destination setting” after being converted into the specified command is output as a voice.
ステップS60では、CPU1034aは、入力装置104からの出力に基づいて、使用者によって訂正スイッチ104bが操作されたか否かを判断する。例えば、使用者は、「行き先設定」と発話したのに対して、認識結果として異なる認識対象語彙、例えば「電話」が音声出力された場合には、誤認識が発生したと判断して訂正スイッチ104bを押下する。CPU1034aは、認識結果を音声出力した後、所定時間、使用者による訂正スイッチ104bの操作を受け付ける。
In step S60, the CPU 1034a determines whether the
CPU1034aは、所定時間以内に使用者によって訂正スイッチ104bが操作されたと判断した場合には、認識結果を取り消して、ステップS10へ戻り、使用者からの再発話を受け付ける。一方、CPU1034aは、所定時間以内に訂正スイッチ104bが操作されないと判断した場合には、使用者は認識結果を容認したものとして認識結果を確定し、ステップS70へ進む。
If the CPU 1034a determines that the
ステップS70では、CPU1034aは、認識結果として確定した認識対象語彙に下位の階層があるか否かを判断する。下位の階層が存在すると判断した場合には、ステップS10へ戻って、下位階層を対象とした待ち受け設定を行う。例えば、確定した認識結果が「行き先設定」である場合には、当該認識結果は、図3に示したように、第一階層Aに含まれる認識対象語彙であることから、下位階層として第二階層と第三階層が存在すると判断する。そして、この場合には、CPU1034aは、図9(b)および図9(c)に示した音声入力用のメニュー画面をディスプレイ105へ出力して、使用者に下位階層に含まれるコマンドの発話を促す。 In step S70, the CPU 1034a determines whether or not the recognition target vocabulary determined as the recognition result has a lower hierarchy. If it is determined that there is a lower hierarchy, the process returns to step S10 to perform standby setting for the lower hierarchy. For example, when the confirmed recognition result is “destination setting”, the recognition result is the recognition target vocabulary included in the first hierarchy A as shown in FIG. It is determined that a hierarchy and a third hierarchy exist. In this case, the CPU 1034a outputs the voice input menu screen shown in FIG. 9B and FIG. 9C to the display 105, and utters the command included in the lower layer to the user. Prompt.
これに対して、下位階層がないと判断した場合、すなわち最も下の階層まで音声認識が完了したと判断した場合には、ステップS80へ進む。ステップS80では、CPU1034aは、下位階層まで音声認識したことによって特定される使用者からの操作指示に基づいて、処理を実行する。例えば、ナビゲーション装置上で目的地設定や経路探索を行う。 On the other hand, if it is determined that there is no lower hierarchy, that is, if it is determined that speech recognition has been completed up to the lowest hierarchy, the process proceeds to step S80. In step S80, the CPU 1034a executes processing based on an operation instruction from the user specified by performing voice recognition up to the lower layer. For example, destination setting and route search are performed on the navigation device.
図12は、本実施の形態における音声認識装置100を使用してナビゲーション装置を操作する場合の使用者による発話と音声認識装置100による応答の具体例を示した図である。この図12は、使用者が規定のコマンドを発話して、ナビゲーション装置を操作する場合を示している。 FIG. 12 is a diagram illustrating a specific example of the utterance by the user and the response by the voice recognition device 100 when the navigation device is operated using the voice recognition device 100 according to the present embodiment. FIG. 12 shows a case where the user speaks a prescribed command and operates the navigation device.
CPU1034aは、使用者に対してコマンドの発話を促すためのシステムメッセージAとして「コマンドをどうぞ」をスピーカ102から出力し、使用者からの発話を待ち受ける。同時に、CPU1034aは、ディスプレイ105に、図9(a)に示した拘束性の高レベルの言語モデルの第一階層Aに含まれるコマンドを表示したメニュー画面を表示する。使用者は、これに対応して、ナビゲーション装置で行き先を設定するためのユーザ発話Bとして規定コマンドである「行き先設定」を発話する。 The CPU 1034a outputs “command please” from the speaker 102 as a system message A for prompting the user to speak a command, and waits for a speech from the user. At the same time, the CPU 1034a displays a menu screen displaying commands included in the first hierarchy A of the high-level language model shown in FIG. 9A on the display 105. In response to this, the user utters “destination setting”, which is a specified command, as user utterance B for setting the destination with the navigation device.
CPU1034aは、使用者による発話を受け付けて、上述した音声認識処理を実行し、図10で上述したように、認識結果N−bestの中から「行き先設定」を認識結果として特定する。そして、CPU1034aは、使用者に対して下位の階層のコマンドの発話を促すためのシステムメッセージCとして「行き先設定のコマンドをどうぞ」をスピーカ102から出力し、使用者からの発話を待ち受ける。同時に、CPU1034aは、ディスプレイ105に、図9(b)に示した拘束性の高レベルの言語モデルの第二階層Bに含まれるコマンドを表示したメニュー画面を表示する。使用者は、これに対応して、登録地の中から行き先を選択するためのユーザ発話Dとして規定コマンドである「登録地表示」を発話する。 The CPU 1034a receives the speech from the user, executes the above-described speech recognition process, and identifies “destination setting” as the recognition result from the recognition result N-best as described above with reference to FIG. Then, the CPU 1034a outputs “Destination setting command please” from the speaker 102 as a system message C for prompting the user to utter a command in a lower hierarchy, and waits for an utterance from the user. At the same time, the CPU 1034a displays on the display 105 a menu screen on which commands included in the second hierarchy B of the high-level language model shown in FIG. 9B are displayed. In response to this, the user utters “registration location display”, which is a specified command, as user utterance D for selecting a destination from the registration locations.
CPU1034aは、使用者による発話を受け付けて、上述した音声認識処理を実行し、
認識結果N−bestの中から「登録地表示」を認識結果として特定する。そして、CPU1034aは、使用者に対してさらに下位の階層のコマンドの発話を促すためのシステムメッセージEとして「登録地表示の番号をどうぞ」をスピーカ102から出力し、使用者からの発話を待ち受ける。同時に、CPU1034aは、ディスプレイ105に、図9(c)に示した拘束性の高レベルの言語モデルの第三階層Cに含まれるコマンドを表示したメニュー画面を表示する。使用者は、これに対応して、登録地の中から登録地の番号を選択するためのユーザ発話Fとして「3番」を発話する。
CPU1034a receives the speech by a user, performs the speech recognition process mentioned above,
“Registered place display” is specified as the recognition result from the recognition result N-best. Then, the CPU 1034a outputs “Registration location display number please” from the speaker 102 as a system message E for prompting the user to utter a command in a lower hierarchy, and waits for an utterance from the user. At the same time, the CPU 1034a displays on the display 105 a menu screen on which commands included in the third layer C of the high-level language model shown in FIG. In response to this, the user utters “No. 3” as the user utterance F for selecting a registration place number from the registration places.
CPU1034aは、以上の処理によって、「△△社」を行き先として設定するようにナビゲーション装置を制御する。これによって、使用者は音声操作によりナビゲーション装置を操作できる。 The CPU 1034a controls the navigation device so as to set “△△ Company” as the destination by the above processing. Thereby, the user can operate the navigation device by voice operation.
次に、図13により、使用者が規定のコマンドとは異なる内容を発話した場合の具体例について説明する。使用者に対してコマンドの発話を促すためのシステムメッセージAとして「コマンドをどうぞ」をスピーカ102から出力し、使用者からの発話を待ち受ける。同時に、CPU1034aは、ディスプレイ105に、図9(a)に示した拘束性の高レベルの言語モデルの第一階層Aに含まれるコマンドを表示したメニュー画面を表示する。使用者は、これに対応して、ナビゲーション装置で行き先を設定するためのユーザ発話Bとして規定コマンドとは異なる内容の「行き先をえーと探す」を発話する。 Next, referring to FIG. 13, a specific example when the user utters content different from the prescribed command will be described. As a system message A for prompting the user to speak a command, “command please” is output from the speaker 102, and the user speaks for a speech. At the same time, the CPU 1034a displays a menu screen displaying commands included in the first hierarchy A of the high-level language model shown in FIG. 9A on the display 105. In response to this, the user utters “search for a destination”, which is different from the prescribed command, as user utterance B for setting the destination with the navigation device.
CPU1034aは、使用者による発話を受け付けて、上述した音声認識処理を実行し、図11で上述したように、認識結果N−bestの中から「行き先・(ガベージ)・探す」を認識結果として特定し、これを対応する規定コマンド「行き先設定」に変換する。そして、CPU1034aは、使用者に対して下位の階層のコマンドの発話を促すためのシステムメッセージCとして「行き先設定のコマンドをどうぞ」をスピーカ102から出力し、使用者からの発話を待ち受ける。同時に、CPU1034aは、ディスプレイ105に、図9(b)に示した拘束性の高レベルの言語モデルの第二階層Bに含まれるコマンドを表示したメニュー画面を表示する。使用者は、これに対応して、登録地の中から行き先を選択するためのユーザ発話Dとして規定コマンドである「登録地表示」を発話する。 The CPU 1034a receives the utterance by the user, executes the above-described speech recognition process, and identifies “destination / (garbage) / search” as the recognition result from the recognition result N-best as described above with reference to FIG. Then, this is converted into a corresponding prescribed command “destination setting”. Then, the CPU 1034a outputs “Destination setting command please” from the speaker 102 as a system message C for prompting the user to utter a command in a lower hierarchy, and waits for an utterance from the user. At the same time, the CPU 1034a displays on the display 105 a menu screen on which commands included in the second hierarchy B of the high-level language model shown in FIG. 9B are displayed. In response to this, the user utters “registration location display”, which is a specified command, as user utterance D for selecting a destination from the registration locations.
CPU1034aは、使用者による発話を受け付けて、上述した音声認識処理を実行し、
認識結果N−bestの中から「登録地表示」を認識結果として特定する。そして、CPU1034aは、使用者に対してさらに下位の階層のコマンドの発話を促すためのシステムメッセージEとして「登録地表示の番号をどうぞ」をスピーカ102から出力し、使用者からの発話を待ち受ける。同時に、CPU1034aは、ディスプレイ105に、図9(c)に示した拘束性の高レベルの言語モデルの第三階層Cに含まれるコマンドを表示したメニュー画面を表示する。使用者は、これに対応して、登録地の中から登録地の番号を選択するためのユーザ発話Fとして「3番」を発話する。
CPU1034a receives the speech by a user, performs the speech recognition process mentioned above,
“Registered place display” is specified as the recognition result from the recognition result N-best. Then, the CPU 1034a outputs “Registration location display number please” from the speaker 102 as a system message E for prompting the user to utter a command in a lower hierarchy, and waits for an utterance from the user. At the same time, the CPU 1034a displays on the display 105 a menu screen on which commands included in the third layer C of the high-level language model shown in FIG. In response to this, the user utters “No. 3” as the user utterance F for selecting a registration place number from the registration places.
以上説明した本実施の形態によれば、以下のような作用効果を得ることができる。
(1)使用者の発話内容を拘束する拘束性のレベルが異なる複数の言語モデルで表される語彙を音声認識実行時の認識対象語彙として待ち受け、使用者による発話音声と認識対象語彙との一致度を演算して、認識結果候補として認識結果N−bestを抽出する。そして、認識結果N−bestに含まれる認識対象語彙の一致度、およびその認識結果候補を含む言語モデルの拘束性のレベルに基づいて、認識結果N−bestの中から認識結果を特定するようにした。これによって、使用者が規定コマンドを表現を変更して、拘束性の低い語彙を発話した場合でも、誤認識が生じる可能性を低減することができる。
According to the present embodiment described above, the following operational effects can be obtained.
(1) A vocabulary expressed by a plurality of language models with different levels of restraint that restricts the user's utterance content is awaited as a recognition target vocabulary when executing speech recognition, and the user's utterance speech matches the recognition target vocabulary. The degree is calculated, and the recognition result N-best is extracted as a recognition result candidate. Then, the recognition result is specified from the recognition result N-best based on the matching degree of the recognition target vocabulary included in the recognition result N-best and the level of restriction of the language model including the recognition result candidate. did. As a result, even when the user changes the expression of the specified command and utters a vocabulary with low restraint, the possibility of erroneous recognition can be reduced.
(2)拘束性のレベルが異なる複数の言語モデルは、認識対象語彙を構成する単語列の中に任意の音素列の挿入を許容しない拘束性の高レベルの言語モデル、認識対象語彙を構成する単語列の中に任意の音素列の挿入を許容し、かつ認識可能な単語列が確定している拘束性の中レベルの言語モデル、および認識対象語彙を構成する単語列の中に任意の音素列の挿入を許容し、かつ認識可能な単語列が確定していない拘束性の低レベルの言語モデルを含むようにした。これによって、使用者による様々な態様の発話を待ち受けて、精度高く音声認識することができる。 (2) A plurality of language models having different levels of restrictiveness constitutes a recognition-target vocabulary and a high-level language model that does not allow insertion of an arbitrary phoneme string in a word string constituting the recognition-target vocabulary Arbitrary phoneme strings are allowed to be inserted into word strings, and a recognizable medium-level language model in which recognizable word strings are established, and arbitrary phonemes into word strings constituting recognition vocabulary Including a low-level language model that allows insertion of strings and has no recognizable word strings. As a result, it is possible to recognize speech with high accuracy while waiting for various modes of speech by the user.
(3)認識結果候補である認識結果N−bestの中から、より拘束性のレベルが高い言語モデルの認識対象語彙を優先して認識結果として特定するようにした。これによって、使用者が規定コマンドのような拘束性のレベルが高い言語モデルの発話を行った場合に、拘束性のレベルが低い言語モデルの認識対象語彙が誤って認識されることを防止することができる。 (3) From the recognition result N-best which is a recognition result candidate, the recognition target vocabulary of the language model having a higher level of restraint is preferentially specified as the recognition result. This prevents the recognition target vocabulary of a language model with a low level of restriction when the user utters a language model with a high level of restriction such as a specified command. Can do.
(4)認識結果候補である認識結果N−bestの中から、より拘束性のレベルが高い言語モデルの認識対象語彙であって、かつその認識対象語彙の一致度と、最も一致度が高い認識対象語彙の一致度との差(スコア差)が所定の閾値より小さい場合に、その認識対象語彙を優先して認識結果として特定するようにした。これによって、認識結果N−bestの中に、より拘束性のレベルが高い言語モデルの認識対象語彙が含まれている場合であっても、その一致度が低い場合には、それが優先的に採用されることを防いで、誤認識を防止することができる。 (4) A recognition target vocabulary of a language model having a higher level of restraint among the recognition results N-best which are recognition result candidates, and the recognition with the highest matching degree and the matching degree of the recognition target vocabulary When the difference (score difference) from the matching degree of the target vocabulary is smaller than a predetermined threshold, the recognition target vocabulary is specified with priority as a recognition result. As a result, even if the recognition result vocabulary of the language model having a higher level of restraint is included in the recognition result N-best, if the degree of coincidence is low, it is preferentially used. It is possible to prevent misrecognition by preventing the adoption.
(5)使用者が発話可能な認識対象語彙をディスプレイ105に表示して提示するようにした。これによって、使用者は、発話すべき語彙をあらかじめ把握することができる。 (5) The recognition target vocabulary that the user can utter is displayed on the display 105 and presented. As a result, the user can grasp in advance the vocabulary to be uttered.
(6)認識結果に基づいて、使用者に対する応答文を生成して出力するようにした。これによって、使用者は、直前の発話内容が正しく認識されたかを把握することができる。 (6) A response sentence for the user is generated and output based on the recognition result. As a result, the user can grasp whether or not the content of the immediately preceding utterance has been correctly recognized.
(7)一致度の演算によって得られる一致度が所定値以上となる所定数の認識対象語彙を認識結果N−bestとして抽出するようにした。これによって、使用者による発話内容と一致する可能性が高い語彙を認識結果の候補とすることができる。 (7) A predetermined number of recognition target vocabularies having a matching degree obtained by calculating the matching degree equal to or greater than a predetermined value are extracted as recognition results N-best. Thus, a vocabulary that is highly likely to match the content of the utterance by the user can be set as a recognition result candidate.
―変形例―
なお、上述した実施の形態の音声認識装置は、以下のように変形することもできる。
(1)上述した実施の形態では、CPU1034aは、認識結果N−bestの中から、より拘束性のレベルが高い言語モデルの認識対象語彙であって、かつその認識対象語彙の一致度と、最も一致度が高い認識対象語彙とスコア差が所定の閾値より小さい場合に、その認識対象語彙を優先して認識結果として特定するようにした。しかしながら、CPU1034aは、認識結果N−bestに含まれる認識対象語彙の一致度、およびその認識対象語彙を含む言語モデルの拘束性のレベルの少なくともいずれか一方に基づいて、認識結果を特定するようにしてもよい。例えば、認識結果N−bestの中から、より拘束性のレベルが高い言語モデルの認識対象語彙を優先して認識結果として特定するようにしてもよい。
-Modification-
Note that the speech recognition apparatus of the above-described embodiment can be modified as follows.
(1) In the above-described embodiment, the CPU 1034a is the recognition target vocabulary of the language model having a higher level of restraint among the recognition results N-best, and the matching degree of the recognition target vocabulary is the highest. When the recognition target vocabulary having a high degree of coincidence and the score difference is smaller than a predetermined threshold, the recognition target vocabulary is specified with priority as a recognition result. However, the CPU 1034a specifies the recognition result based on at least one of the matching degree of the recognition target vocabulary included in the recognition result N-best and the level of restriction of the language model including the recognition target vocabulary. May be. For example, the recognition target vocabulary of the language model having a higher level of restriction may be specified as the recognition result with priority from the recognition result N-best.
(2)上述した実施の形態では、CPU1034aは、認識結果N−bestの中から、より拘束性のレベルが高い言語モデルの認識対象語彙であって、かつその認識対象語彙の一致度と、最も一致度が高い認識対象語彙とスコア差が所定の閾値より小さい場合に、その認識対象語彙を優先して認識結果として特定するようにした。しかしながら、CPU1034aは、一致度演算に際して、拘束性のレベルが高い言語モデルの認識対象語彙のスコアに所定のスコアを加算する、あるいは所定の重み付け係数を乗算することにより、前記語彙を優先して認識結果として特定するようにしてもよい。 (2) In the above-described embodiment, the CPU 1034a is the recognition target vocabulary of the language model having a higher level of restraint among the recognition results N-best, and the matching degree of the recognition target vocabulary is the highest. When the recognition target vocabulary having a high degree of coincidence and the score difference is smaller than a predetermined threshold, the recognition target vocabulary is specified with priority as a recognition result. However, the CPU 1034a preferentially recognizes the vocabulary by adding a predetermined score to the score of the recognition target vocabulary of the language model having a high level of constraining or multiplying by a predetermined weighting coefficient when calculating the degree of coincidence. It may be specified as a result.
(3)上述した実施の形態では、音声認識装置100を用いて音声操作が可能なナビゲーション装置を操作する例について説明した。しかしながら、音声認識装置100は、音声操作可能な他の機器に適用することも可能である。 (3) In the above-described embodiment, the example in which the navigation apparatus capable of voice operation is operated using the voice recognition apparatus 100 has been described. However, the speech recognition apparatus 100 can also be applied to other devices that can perform voice operations.
なお、本発明の特徴的な機能を損なわない限り、本発明は、上述した実施の形態における構成に何ら限定されない。 Note that the present invention is not limited to the configurations in the above-described embodiments as long as the characteristic functions of the present invention are not impaired.
100 音声認識装置、101 マイク、102 スピーカ、103 信号処理ユニット、1031 A/Dコンバータ、1032 D/Aコンバータ、1033 出力アンプ、1034 信号処理装置、1034a CPU、1034b メモリ、1035 外部記憶装置、104 入力装置、104a 発話スイッチ、104b 訂正スイッチ、105 ディスプレイ DESCRIPTION OF SYMBOLS 100 Speech recognition apparatus, 101 Microphone, 102 Speaker, 103 Signal processing unit, 1031 A / D converter, 1032 D / A converter, 1033 Output amplifier, 1034 Signal processing apparatus, 1034a CPU, 1034b Memory, 1035 External storage device, 104 input Device, 104a speech switch, 104b correction switch, 105 display
Claims (8)
前記発話音声を認識するために設けられ、音声で操作される機器に対する目的語および前記機器を操作するための操作語を含む語彙を、使用者の発話内容を拘束するレベルが異なる複数の言語モデルで表した待ち受け語彙として記憶する記憶手段と、
前記記憶手段に記憶した前記待ち受け語彙と、前記音声入力手段で入力した前記発話音声との一致度を、前記複数の言語モデルについてそれぞれ演算する一致度演算手段と、
前記一致度演算手段により演算された一致度に基づいて、前記複数の言語モデルにおける待ち受け語彙の中から、一致度が高い順に複数個の待ち受け語彙を選択して認識結果候補として抽出する候補抽出手段と、
前記候補抽出手段で抽出した複数個の認識結果候補の中で最も使用者の発話内容を拘束
するレベルが高い言語モデル(第1レベル言語モデル)の認識結果候補の中で最も高い一致度と、前記候補抽出手段で抽出した複数個の認識結果候補の中で最も高い一致度との差を演算し、その差が所定値より小さいときは前記第1レベル言語モデルの認識結果候補を認識結果として特定し、そうでないときは、前記候補抽出手段で抽出した複数個の認識結果候補の中で次に拘束するレベルが高い言語モデル(第2レベル言語モデル)の認識結果候補の中で最も高い一致度と、前記候補抽出手段で抽出した複数個の認識結果候補の中で最も高い一致度との差を演算し、その差が所定値より小さいときは前記第2レベル言語モデルの認識結果候補を認識結果として特定する認識結果特定手段とを備えたことを特徴とする音声認識装置。 A voice input means for inputting speech voice by the user;
A plurality of language models that are provided for recognizing the spoken speech and that include a target word for a device operated by voice and a vocabulary that includes an operation word for operating the device, with different levels of restraining the user's speech content Storage means for storing as a standby vocabulary represented by
A degree of coincidence calculating means for calculating the degree of coincidence between the standby vocabulary stored in the storage means and the uttered speech input by the voice input means for each of the plurality of language models;
Candidate extraction means for selecting a plurality of standby vocabulary words in descending order of matching degree from the standby vocabularies in the plurality of language models and extracting them as recognition result candidates based on the matching degree calculated by the matching degree calculation means. When,
Among the plurality of recognition result candidates extracted by the candidate extraction means , the highest degree of coincidence among the recognition result candidates of the language model (first level language model) having the highest level of restraining the user's utterance content; A difference with the highest degree of coincidence among a plurality of recognition result candidates extracted by the candidate extraction means is calculated, and when the difference is smaller than a predetermined value, the recognition result candidate of the first level language model is used as a recognition result. If not, if not, among the plurality of recognition result candidates extracted by the candidate extraction means, the highest match among the recognition result candidates of the language model (second level language model) with the next highest level of restriction And when the difference is smaller than a predetermined value, the recognition result candidate of the second level language model is selected. Recognition result And a recognition result specifying means for specifying the voice recognition device.
前記複数の言語モデルは、
(1)前記待ち受け語彙が、前記目的語と操作語とを含み、両語の間に任意の音素列の挿入を許容しない単語列で構成され、使用者の発話内容を拘束するレベルが高い言語モデル、
(2)前記待ち受け語彙が、前記目的語と操作語とを含み、両語の間に任意の音素列の挿入を許容し、かつ認識可能な単語列が有限個となるようにモデル化され、使用者の発話内容を拘束するレベルが中位の言語モデル、および、
(3)前記待ち受け語彙が、前記目的語と操作語とを含み、両語の間に任意の音素列の挿入を許容し、かつ認識可能な単語列が無限個となるようにモデル化され、使用者の発話内容を拘束するレベルが低位の言語モデルであることを特徴とする音声認識装置。 The speech recognition apparatus according to claim 1,
The plurality of language models are:
(1) The language in which the standby vocabulary includes the object word and the operation word, is composed of a word string that does not allow any phoneme string to be inserted between the two words, and has a high level of restraining the user's utterance content model,
(2) The standby vocabulary includes the object word and the operation word, is modeled such that an arbitrary phoneme string is allowed to be inserted between both words, and the recognizable word string is a finite number of words, A medium-level language model that restrains the user's utterance content, and
(3) The standby vocabulary includes the object word and the operation word, is modeled so that an arbitrary phoneme string is allowed to be inserted between the two words, and the recognizable word string is infinite. A speech recognition apparatus, characterized in that a language model with a low level for constraining a user's utterance content.
使用者が発話可能な前記待ち受け語彙を表示装置に表示する表示制御手段をさらに備えることを特徴とする音声認識装置。 The speech recognition apparatus according to claim 1 or 2,
A speech recognition apparatus, further comprising display control means for displaying the standby vocabulary that a user can utter on a display device.
前記認識結果特定手段で特定した前記認識結果に基づいて、使用者に対する応答文を生成して出力する応答文出力手段をさらに備えることを特徴とする音声認識装置。 The speech recognition apparatus according to any one of claims 1 to 3,
A speech recognition apparatus, further comprising: response sentence output means for generating and outputting a response sentence for a user based on the recognition result specified by the recognition result specifying means.
前記候補抽出手段は、前記一致度演算手段による演算の結果、前記一致度が所定値以上となる所定数の前記待ち受け語彙を前記認識結果候補として抽出することを特徴とする音声認識装置。 The speech recognition device according to any one of claims 1 to 4,
The speech recognition apparatus characterized in that the candidate extraction unit extracts a predetermined number of the standby vocabulary having the matching level equal to or higher than a predetermined value as the recognition result candidates as a result of the calculation by the matching level calculation unit.
前記目的語は、行き先、施設を含み、前記操作語は、設定、探索、表示を含むことを特徴とする音声認識装置。 The speech recognition apparatus according to any one of claims 1 to 5,
The speech recognition apparatus characterized in that the object word includes a destination and a facility, and the operation word includes setting, search, and display.
前記発話音声を認識するために設けられ、音声で操作される機器に対する目的語および前記機器を操作するための操作語を含む語彙を、使用者の発話内容を拘束するレベルが異なる複数の言語モデルで表した待ち受け語彙として記憶し、
記憶手段に記憶した前記待ち受け語彙と、音声入力手段で入力した前記発話音声との一致度を、前記複数の言語モデルについてそれぞれ演算し、
一致度演算手段により演算された一致度に基づいて、前記複数の言語モデルにおける待ち受け語彙の中から、一致度が高い順に複数個の待ち受け語彙を選択して認識結果候補として抽出し、
候補抽出手段で抽出した複数個の認識結果候補の中で最も使用者の発話内容を拘束
するレベルが高い言語モデル(第1レベル言語モデル)の認識結果候補の中で最も高い一致度と、前記候補抽出手段で抽出した複数個の認識結果候補の中で最も高い一致度との差を演算し、その差が所定値より小さいときは前記第1レベル言語モデルの認識結果候補を認識結果として特定し、そうでないときは、前記候補抽出手段で抽出した複数個の認識結果候補の中で次に拘束するレベルが高い言語モデル(第2レベル言語モデル)の認識結果候補の中で最も高い一致度と、前記候補抽出手段で抽出した複数個の認識結果候補の中で最も高い一致度との差を演算し、その差が所定値より小さいときは前記第2レベル言語モデルの認識結果候補を認識結果として特定することを特徴とする音声認識方法。 Enter the voice spoken by the user,
A plurality of language models that are provided for recognizing the spoken speech and that include a target word for a device operated by voice and a vocabulary that includes an operation word for operating the device, with different levels of restraining the user's speech content As a standby vocabulary expressed in
The degree of coincidence between the standby vocabulary stored in the storage means and the uttered speech input by the voice input means is calculated for each of the plurality of language models,
Based on the degree of coincidence calculated by the degree of coincidence calculating means , from the standby vocabulary in the plurality of language models, select a plurality of standby vocabularies in descending order of the degree of coincidence and extract them as recognition result candidates.
Among the plurality of recognition result candidates extracted by the candidate extraction means, the highest degree of coincidence among the recognition result candidates of the language model (first level language model) having the highest level of restraining the utterance content of the user, The difference with the highest matching score among a plurality of recognition result candidates extracted by the candidate extraction means is calculated, and when the difference is smaller than a predetermined value, the recognition result candidate of the first level language model is specified as the recognition result. If not, among the plurality of recognition result candidates extracted by the candidate extraction means , the highest degree of coincidence among recognition result candidates of the language model (second level language model) having the next highest level of restriction And the highest matching score among the plurality of recognition result candidates extracted by the candidate extraction means, and when the difference is smaller than a predetermined value, the recognition result candidate of the second level language model is recognized. as a result A speech recognition method characterized by specifying.
前記複数の言語モデルは、
(1)前記待ち受け語彙が、前記目的語と操作語とを含み、両語の間に任意の音素列の挿入を許容しない単語列で構成され、使用者の発話内容を拘束するレベルが高い言語モデル、
(2)前記待ち受け語彙が、前記目的語と操作語とを含み、両語の間に任意の音素列の挿入を許容し、かつ認識可能な単語列が有限個となるようにモデル化され、使用者の発話内容を拘束するレベルが中位の言語モデル、および、
(3)前記待ち受け語彙が、前記目的語と操作語とを含み、両語の間に任意の音素列の挿入を許容し、かつ認識可能な単語列が無限個となるようにモデル化され、使用者の発話内容を拘束するレベルが低位の言語モデルであることを特徴とする音声認識方法。 The speech recognition method according to claim 7,
The plurality of language models are:
(1) The language in which the standby vocabulary includes the object word and the operation word, is composed of a word string that does not allow any phoneme string to be inserted between the two words, and has a high level of restraining the user's utterance content model,
(2) The standby vocabulary includes the object word and the operation word, is modeled such that an arbitrary phoneme string is allowed to be inserted between both words, and the recognizable word string is a finite number of words, A medium-level language model that restrains the user's utterance content, and
(3) The standby vocabulary includes the object word and the operation word, is modeled so that an arbitrary phoneme string is allowed to be inserted between the two words, and the recognizable word string is infinite. A speech recognition method, characterized in that the language model has a low level of restraining the user's utterance content.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007164538A JP4951422B2 (en) | 2007-06-22 | 2007-06-22 | Speech recognition apparatus and speech recognition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007164538A JP4951422B2 (en) | 2007-06-22 | 2007-06-22 | Speech recognition apparatus and speech recognition method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009003205A JP2009003205A (en) | 2009-01-08 |
JP4951422B2 true JP4951422B2 (en) | 2012-06-13 |
Family
ID=40319653
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007164538A Expired - Fee Related JP4951422B2 (en) | 2007-06-22 | 2007-06-22 | Speech recognition apparatus and speech recognition method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4951422B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8639507B2 (en) | 2007-12-25 | 2014-01-28 | Nec Corporation | Voice recognition system, voice recognition method, and program for voice recognition |
JP6983405B2 (en) * | 2017-10-25 | 2021-12-17 | 株式会社パロマ | Cooker |
JP7489928B2 (en) | 2021-02-04 | 2024-05-24 | Toa株式会社 | Information processing device, system, device control device, and program for operating a device by voice |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08211893A (en) * | 1994-12-08 | 1996-08-20 | Toshiba Corp | Speech recognition device |
JP3039634B2 (en) * | 1997-06-16 | 2000-05-08 | 日本電気株式会社 | Voice recognition device |
JP4226273B2 (en) * | 2002-05-27 | 2009-02-18 | パイオニア株式会社 | Speech recognition apparatus, speech recognition method, and speech recognition program |
JP4246703B2 (en) * | 2002-08-01 | 2009-04-02 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | Automatic speech recognition method |
JP2005208198A (en) * | 2004-01-21 | 2005-08-04 | Nissan Motor Co Ltd | Voice recognition device and voice recognition method |
-
2007
- 2007-06-22 JP JP2007164538A patent/JP4951422B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009003205A (en) | 2009-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2015151157A1 (en) | Device and method for understanding user intent | |
JP4845118B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
US20020123894A1 (en) | Processing speech recognition errors in an embedded speech recognition system | |
JP4867622B2 (en) | Speech recognition apparatus and speech recognition method | |
JP6866715B2 (en) | Information processing device, emotion recognition method, and program | |
JP2008009153A (en) | Voice interactive system | |
WO2006083020A1 (en) | Audio recognition system for generating response audio by using audio data extracted | |
JP2010048953A (en) | Interaction sentence generating device | |
JP5189858B2 (en) | Voice recognition device | |
JP2003114696A (en) | Speech recognition device, program, and navigation system | |
JP2008033198A (en) | Voice interaction system, voice interaction method, voice input device and program | |
JP2006208486A (en) | Voice inputting device | |
JP4951422B2 (en) | Speech recognition apparatus and speech recognition method | |
CN111145748A (en) | Audio recognition confidence determining method, device, equipment and storage medium | |
JP4639094B2 (en) | Speech recognition system, speech recognition apparatus, and speech recognition program | |
KR101283271B1 (en) | Apparatus for language learning and method thereof | |
JP4661239B2 (en) | Voice dialogue apparatus and voice dialogue method | |
JP4639990B2 (en) | Spoken dialogue apparatus and speech understanding result generation method | |
JP4094255B2 (en) | Dictation device with command input function | |
JP4930014B2 (en) | Speech recognition apparatus and speech recognition method | |
JP2006172110A (en) | Response data output device, and response data outputting method and program | |
JP2012255867A (en) | Voice recognition device | |
JP2007183516A (en) | Voice interactive apparatus and speech recognition method | |
WO2019142447A1 (en) | Information processing device and information processing method | |
JP4736423B2 (en) | Speech recognition apparatus and speech recognition method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20100215 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100426 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110630 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110712 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110912 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111018 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111216 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120214 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120312 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150316 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4951422 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |