JP2008309864A - Voice recognition device and voice recognition method - Google Patents

Voice recognition device and voice recognition method Download PDF

Info

Publication number
JP2008309864A
JP2008309864A JP2007155212A JP2007155212A JP2008309864A JP 2008309864 A JP2008309864 A JP 2008309864A JP 2007155212 A JP2007155212 A JP 2007155212A JP 2007155212 A JP2007155212 A JP 2007155212A JP 2008309864 A JP2008309864 A JP 2008309864A
Authority
JP
Japan
Prior art keywords
vocabulary
speech recognition
speech
utterance
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007155212A
Other languages
Japanese (ja)
Inventor
Shigefumi Kirino
成史 桐野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Ten Ltd
Original Assignee
Denso Ten Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Ten Ltd filed Critical Denso Ten Ltd
Priority to JP2007155212A priority Critical patent/JP2008309864A/en
Publication of JP2008309864A publication Critical patent/JP2008309864A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a voice recognition device and a voice recognition method, in which a speaker who speaks to an in-vehicle device for controlling the device is free from switch press operation, and which causes no malfunction by clearly recognizing whether or not the speaking is to the in-vehicle device. <P>SOLUTION: In the voice recognition device 10a, when a voice recognition processing result determination processing section 13b determines that an uttered vocabulary received by a voice recognition processing section 13a is included in a keyword dictionary 12a, the voice recognition processing section 13a converts it to a corresponding command by referring to a voice recognition dictionary 12b, and forwards the voice recognition result to a command conversion output processing section 13c for outputting to a car navigation device 20. When the voice recognition processing result determination processing section 13b determines that the uttered vocabulary received by the voice recognition processing section 13a is not included in the keyword dictionary 12a, the voice recognition processing section 13a does not forward the voice recognition result to the command conversion output processing section 13c. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

本発明は、車両の搭乗者によって発話された発話語彙を音声認識する音声認識手段と、該音声認識手段によって音声認識された該発話語彙を対応するコマンドへ変換して車載装置へと受け渡すコマンド変換手段とを有する音声認識装置および該音声認識装置による音声認識方法に関し、特に、車載装置へ向かってその制御のために発話する発話者をトークスイッチの押下操作のわずらわしさから開放し、かつ該発話が車載装置に対するものであるか否かを明確に認識して誤作動を起こさない音声認識装置および音声認識方法に関する。   The present invention provides a speech recognition means for recognizing a speech vocabulary spoken by a passenger of a vehicle, and a command for converting the speech vocabulary recognized by the speech recognition means into a corresponding command and delivering it to an in-vehicle device In particular, the speech recognition device having the conversion means and the speech recognition method using the speech recognition device free from the trouble of pressing down the talk switch for the speaker who speaks for the control toward the in-vehicle device, and The present invention relates to a speech recognition device and a speech recognition method that clearly recognizes whether or not an utterance is directed to an in-vehicle device and does not cause a malfunction.

近年、利用者の音声を認識する技術の実現に向けて、各種考案がなされている。利用者の音声を認識することができれば、利用者は各種機器の操作を音声によって実行することが可能であり、特に車載装置では運転者による手動操作の運転への影響が懸念されることから音声操作技術の実用化が切望されている。   In recent years, various ideas have been made for realizing a technology for recognizing a user's voice. If the user's voice can be recognized, it is possible for the user to perform various device operations by voice. Especially, in-vehicle devices are concerned about the influence of manual operation by the driver on the driving. The practical application of operation technology is eagerly desired.

ところで、現在では、車両の音声認識機能を搭載した車載装置は、トークスイッチを押下した後に発話された特定のコマンドを認識する仕様となっている。このトークスイッチを使用することによって、車載装置は、特定のコマンドをより的確に認識することが可能となる(例えば、特許文献1参照)。   By the way, at present, an in-vehicle device equipped with a vehicle voice recognition function has a specification for recognizing a specific command uttered after pressing a talk switch. By using this talk switch, the in-vehicle device can recognize a specific command more accurately (see, for example, Patent Document 1).

特開平10−97281号公報JP-A-10-97281

しかしながら、上記特許文献1に代表される従来技術では、トークスイッチを押下するという操作が発話者の負担になるが、特に、発話者が運転者である場合には、運転操作以外の負荷を与える要因となる。このため、将来的には、トークスイッチを使用しない常時音声認識が主流となってくることが予想される。   However, in the conventional technique represented by the above-mentioned Patent Document 1, the operation of pressing the talk switch is a burden on the speaker. In particular, when the speaker is a driver, a load other than the driving operation is given. It becomes a factor. Therefore, in the future, it is expected that continuous speech recognition without using a talk switch will become the mainstream.

しかし、車両に搭乗している発話者が車載装置以外へ向かって発話した場合(例えば、同乗者へ向かう発話や独り言など)にも、車載装置は、自装置へ向かう発話として認識してしまい、この発話に基づいて誤動作を起こしてしまうおそれがあった。   However, even when a speaker on the vehicle speaks to a device other than the vehicle-mounted device (for example, utterance or self-speaking toward the passenger), the vehicle-mounted device recognizes the utterance to the device itself, There was a risk of malfunctioning based on this utterance.

本発明は、上記問題点(課題)を解消するためになされたものであって、車載装置へ向かってその制御のために発話する発話者をトークスイッチの押下操作のわずらわしさから開放し、かつ該発話が車載装置に対するものであるか否かを明確に認識して誤作動を起こさない音声認識装置および音声認識方法を提供することを目的とする。   The present invention has been made to solve the above problems (problems), and frees the speaker who speaks to the in-vehicle device for the control from the trouble of pressing the talk switch, and It is an object of the present invention to provide a voice recognition device and a voice recognition method that clearly recognizes whether or not the utterance is for an in-vehicle device and does not cause a malfunction.

上述した問題を解決し、目的を達成するため、本発明は、車両の搭乗者によって発話された発話語彙を音声認識する音声認識手段と、該音声認識手段によって音声認識された該発話語彙を対応するコマンドへ変換して車載装置へと受け渡すコマンド変換手段とを有する音声認識装置であって、前記音声認識手段によって音声認識された発話語彙が前記車載装置へ向けられた発話であるか否かを判定する音声認識結果判定手段をさらに有し、前記音声認識手段は、前記音声認識手段によって音声認識された発話語彙が前記車載装置へ向けられた発話であると前記音声認識結果判定手段により判定された場合にのみ該音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを特徴とする。   In order to solve the above-described problems and achieve the object, the present invention provides a speech recognition unit that recognizes a speech vocabulary spoken by a vehicle occupant and a speech vocabulary that is speech-recognized by the speech recognition unit. Whether or not the utterance vocabulary recognized by the voice recognition means is an utterance directed to the in-vehicle device. Voice recognition result determination means for determining whether the utterance vocabulary recognized by the voice recognition means is an utterance directed to the in-vehicle device. The speech vocabulary recognized by the speech is transferred to the command conversion means only when the command is received.

また、本発明は、上記発明において、前記音声認識手段は、前記音声認識手段によって音声認識された発話語彙が特定語彙であると前記音声認識結果判定手段により判定された場合に、該特定語彙以降に音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを特徴とする。   Further, the present invention provides the speech recognition unit according to the above invention, wherein when the speech recognition result determination unit determines that the utterance vocabulary recognized by the speech recognition unit is a specific vocabulary, the speech recognition unit The speech vocabulary that has been voice-recognized is transferred to the command conversion means.

また、本発明は、上記発明において、前記音声認識手段は、前記音声認識手段によって音声認識された発話語彙が特定語彙であると前記音声認識結果判定手段により判定された場合に、該特定語彙以前に音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを特徴とする。   Further, the present invention provides the speech recognition unit according to the above invention, wherein when the speech recognition result determination unit determines that the utterance vocabulary speech-recognized by the speech recognition unit is a specific vocabulary, The speech vocabulary that has been voice-recognized is transferred to the command conversion means.

また、本発明は、上記発明において、前記音声認識手段は、前記音声認識手段によって音声認識された発話語彙が第1の特定語彙であると前記音声認識結果判定手段により判定された場合に、該第1の特定語彙より後に音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを開始し、前記音声認識手段によって該第1の特定語彙以降に音声認識された発話語彙が第2の特定語彙であると前記音声認識結果判定手段により判定された場合に、該第2の特定語彙以降に音声認識した発話語彙を音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを終了すことを特徴とする。   Further, the present invention provides the speech recognition unit according to the above invention, wherein the speech recognition result determination unit determines that the utterance vocabulary recognized by the speech recognition unit is the first specific vocabulary. An utterance vocabulary speech-recognized after the first specific vocabulary is started to be transferred to the command conversion means, and an utterance vocabulary speech-recognized after the first specific vocabulary by the speech recognition means is a second specific vocabulary. When the speech recognition result determination means determines that the vocabulary is a vocabulary, the speech vocabulary obtained by speech recognition of the utterance vocabulary speech recognized after the second specific vocabulary is terminated to the command conversion means. It is characterized by.

また、本発明は、上記発明において、前記音声認識手段によって音声認識された発話語彙を所定数だけバッファリングするバッファリング手段と、前記発話語彙に、該発話語彙が属するカテゴリを対応付けて記憶する語彙カテゴリ記憶手段とをさらに有し、前記音声認識手段は、前記バッファリング手段にバッファリングされる発話語彙のカテゴリに基づいて、音声認識された発話語彙が前記車載装置へ向けられた発話であると前記音声認識結果判定手段により判定された場合にのみ該音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを特徴とする。   Further, according to the present invention, in the above invention, buffering means for buffering a predetermined number of utterance vocabulary speech-recognized by the speech recognition means, and a category to which the utterance vocabulary belongs is stored in association with the utterance vocabulary. Vocabulary category storage means, and the speech recognition means is an utterance in which the utterance vocabulary recognized by speech based on the category of the utterance vocabulary buffered in the buffering means is directed to the in-vehicle device. The speech vocabulary that has been speech-recognized is transferred to the command conversion means only when it is determined by the speech recognition result determination means.

また、本発明は、上記発明において、前記音声認識手段は、前記バッファリング手段にバッファリングされる発話語彙のなかで特定カテゴリの出現率が所定値以上となったとして、音声認識された発話語彙が前記車載装置へ向けられた発話であると前記音声認識結果判定手段により判定された場合に、該音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを特徴とする。   Further, the present invention provides the speech recognition unit according to the above-described invention, wherein the speech recognition unit assumes that the appearance rate of the specific category is a predetermined value or more in the speech vocabulary buffered by the buffering unit. When the speech recognition result determining means determines that the speech is directed to the in-vehicle device, the speech vocabulary recognized by the speech is transferred to the command conversion means.

また、本発明は、上記発明において、前記音声認識手段は、前記バッファリング手段にバッファリングされる発話語彙のなかで特定カテゴリの出現率が所定値以上となったとして、音声認識された発話語彙が前記車載装置へ向けられた発話であると前記音声認識結果判定手段により判定されなかった場合が所定回数連続して以降、該音声認識した発話語彙を前記コマンド変換手段へと受け渡すことをキャンセルすることを特徴とする。   Further, the present invention provides the speech recognition unit according to the above-described invention, wherein the speech recognition unit assumes that the appearance rate of the specific category is a predetermined value or more in the speech vocabulary buffered by the buffering unit. Canceling the delivery of the speech-recognized speech vocabulary to the command conversion means after a predetermined number of times that the speech recognition result judgment means has not determined that the speech is directed to the in-vehicle device It is characterized by doing.

また、本発明は、上記発明において、前記音声認識手段は、前記バッファリング手段にバッファリングされる発話語彙のなかで特定カテゴリが所定回数連続したとして、音声認識された発話語彙が前記車載装置へ向けられた発話であると前記音声認識結果判定手段により判定された場合に、該音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを特徴とする。   Further, according to the present invention, in the above invention, the voice recognition unit assumes that a specific category continues a predetermined number of times in the utterance vocabulary buffered by the buffering unit, and the utterance vocabulary that has been voice-recognized is transferred to the in-vehicle device. When the speech recognition result determining unit determines that the utterance is directed, the speech vocabulary recognized by the speech is transferred to the command conversion unit.

また、本発明は、上記発明において、前記音声認識手段は、前記バッファリング手段にバッファリングされる発話語彙のなかで特定カテゴリが所定回数連続したとして、音声認識された発話語彙が前記車載装置へ向けられた発話であると前記音声認識結果判定手段により判定されなかった場合が所定回数連続して以降、該音声認識した発話語彙を前記コマンド変換手段へと受け渡すことをキャンセルすることを特徴とする。   Further, according to the present invention, in the above invention, the voice recognition unit assumes that a specific category continues a predetermined number of times in the utterance vocabulary buffered by the buffering unit, and the utterance vocabulary that has been voice-recognized is transferred to the in-vehicle device. Canceling the delivery of the speech-recognized speech vocabulary to the command conversion means after a predetermined number of times that the speech recognition result judgment means has not determined that the speech is directed. To do.

また、本発明は、車両の搭乗者によって発話された発話語彙を音声認識する音声認識工程と、該音声認識手段によって音声認識された該発話語彙を対応するコマンドへ変換して車載装置へと受け渡すコマンド変換工程とを含む音声認識方法であって、前記音声認識工程によって音声認識された発話語彙が前記車載装置へ向けられた発話であるか否かを判定する音声認識結果判定工程をさらに含み、前記音声認識工程は、前記音声認識工程によって音声認識された発話語彙が前記車載装置へ向けられた発話であると前記音声認識結果判定工程により判定された場合にのみ、該音声認識した発話語彙を前記コマンド変換肯定へと受け渡すことを特徴とする。   The present invention also provides a speech recognition step for recognizing speech vocabulary spoken by a vehicle occupant and converting the speech vocabulary speech recognized by the speech recognition means into a corresponding command to be received by an in-vehicle device. A speech recognition method including a command conversion step to pass, further including a speech recognition result determination step of determining whether or not the utterance vocabulary recognized by the speech recognition step is an utterance directed to the in-vehicle device. In the speech recognition step, only when the speech recognition result determination step determines that the utterance vocabulary recognized by the speech recognition step is an utterance directed to the in-vehicle device, the speech recognition vocabulary recognized by the speech Is transferred to the affirmative command conversion.

本発明によれば、音声認識手段は、音声認識された発話語彙が車載装置へ向けられた発話であると音声認識結果判定手段により判定された場合にのみ該音声認識した発話語彙をコマンド変換手段へと受け渡すので、トークスイッチを必要としないために搭乗者はトークスイッチの押下操作のわずらわしさから開放され、かつ音声認識によって、車載装置へ向けられた発話語彙とに車載装置へ向けられたものではない発話語彙とを常時区別し、誤った音声認識に基づくコマンドによって車載装置が誤作動することを防止するという効果を奏する。   According to the present invention, the speech recognition means converts the speech utterance vocabulary recognized by the speech recognition result determination means into a command conversion means only when the speech recognition result determination means determines that the speech utterance vocabulary is directed to the in-vehicle device. Since the talk switch is not required, the passenger is freed from the troublesome operation of pressing the talk switch, and the voice vocabulary is directed to the in-vehicle device by voice recognition. It is possible to always distinguish the utterance vocabulary that is not a thing and prevent the in-vehicle device from malfunctioning due to a command based on erroneous voice recognition.

また、本発明によれば、音声認識手段によって音声認識された発話語彙が特定語彙であると音声認識結果判定手段により判定された場合に、該特定語彙以降に音声認識した発話語彙を前記コマンド変換手段へと受け渡すので、車載装置の制御のための発話を開始するためのトークスイッチの押下を必要とせず発話開始を音声認識手段に明確に認識させるとともに、搭乗者はトークスイッチの押下操作のわずらわしさから開放されるという効果を奏する。   Further, according to the present invention, when the speech recognition result determining means determines that the utterance vocabulary recognized by the speech recognition means is the specific vocabulary, the command conversion is performed on the utterance vocabulary recognized after the specific vocabulary. Therefore, the voice recognition means clearly recognizes the start of the utterance without the need to press the talk switch for starting the utterance for controlling the in-vehicle device. It has the effect of being free from bothersomeness.

また、本発明によれば、音声認識手段によって音声認識された発話語彙が特定語彙であると音声認識結果判定手段により判定された場合に、該特定語彙以降に音声認識した発話語彙を前記コマンド変換手段へと受け渡すので、車載装置の制御のための発話を開始するためのトークスイッチの押下を必要とせず発話開始を音声認識手段に明確に認識させるとともに車載装置の制御のための発話の終了を音声認識手段に明確に認識させることができ、搭乗者はトークスイッチの押下操作のわずらわしさから開放されるという効果を奏する。   Further, according to the present invention, when the speech recognition result determining means determines that the utterance vocabulary recognized by the speech recognition means is the specific vocabulary, the command conversion is performed on the utterance vocabulary recognized after the specific vocabulary. Therefore, the voice recognition means clearly recognizes the start of the utterance without the need to press the talk switch for starting the utterance for controlling the in-vehicle device, and ends the utterance for controlling the in-vehicle device. Can be clearly recognized by the voice recognition means, and the passenger is freed from the troublesome operation of pressing the talk switch.

また、本発明によれば、音声認識手段は、バッファリング手段にバッファリングされる発話語彙のカテゴリに基づいて、音声認識された発話語彙が車載装置へ向けられた発話であると音声認識結果判定手段により判定された場合にのみ該音声認識した発話語彙をコマンド変換手段へと受け渡すので、常時音声認識をしつつも、搭乗者が車載装置を制御するための発話の開始を意識しなくても、車載装置へ向けられた発話語彙とに車載装置へ向けられたものではない発話語彙とが区別され、発話者の負担を軽減するとともに、誤った音声認識に基づくコマンドによって車載装置が誤作動することを防止するという効果を奏する。   Further, according to the present invention, the speech recognition means determines the speech recognition result based on the category of the utterance vocabulary buffered by the buffering means if the utterance vocabulary recognized by the speech is directed to the in-vehicle device. Since the speech vocabulary recognized by the voice is transferred to the command conversion means only when it is determined by the means, the passenger does not have to be aware of the start of the utterance for controlling the in-vehicle device while always performing the voice recognition. In addition, the vocabulary directed to the in-vehicle device is distinguished from the utterance vocabulary that is not directed to the in-vehicle device, reducing the burden on the speaker and causing the in-vehicle device to malfunction due to an incorrect voice recognition command. This has the effect of preventing this.

また、本発明によれば、音声認識手段は、バッファリング手段にバッファリングされる発話語彙のなかで特定カテゴリの出現率が所定値以上となったとして、音声認識された発話語彙が車載装置へ向けられた発話であると音声認識結果判定手段により判定された場合に、該音声認識した発話語彙をコマンド変換手段へと受け渡すので、発話内容が特定の傾向を示すことを認識することによって、搭乗者が車載装置を制御するための発話を意識しなくても、車載装置へ向けられた発話語彙と車載装置へ向けられたものではない発話語彙とが区別され、発話者の負担を軽減するとともに、誤った音声認識に基づくコマンドによって車載装置が誤作動することを防止するという効果を奏する。   Further, according to the present invention, the speech recognition means determines that the appearance rate of the specific category among the utterance vocabulary buffered by the buffering means exceeds a predetermined value, and the speech utterance vocabulary is transferred to the in-vehicle device. When the speech recognition result determining means determines that the utterance is directed, the speech recognition speech vocabulary is transferred to the command conversion means, so that by recognizing that the utterance content shows a specific tendency, Even if the passenger is not conscious of the utterance for controlling the in-vehicle device, the utterance vocabulary directed to the in-vehicle device and the utterance vocabulary not directed to the in-vehicle device are distinguished, reducing the burden on the utterer At the same time, the in-vehicle device is prevented from malfunctioning due to a command based on erroneous voice recognition.

また、本発明によれば、音声認識手段は、バッファリング手段にバッファリングされる発話語彙のなかで特定カテゴリの出現率が所定値以上となったとして、音声認識された発話語彙が車載装置へ向けられた発話であると音声認識結果判定手段により判定されなかった場合が所定回数連続して以降、該音声認識した発話語彙を前記コマンド変換手段へと受け渡すことをキャンセルするので、発話内容が特定の傾向を示さなくなったことを認識することによって、搭乗者が車載装置を制御するための発話の終了を意識しなくても、車載装置へ向けられた発話語彙と車載装置へ向けられたものではない発話語彙とが区別され、発話者の負担を軽減するとともに、誤った音声認識に基づくコマンドによって車載装置が誤作動することを防止するという効果を奏する。   Further, according to the present invention, the speech recognition means determines that the appearance rate of the specific category among the utterance vocabulary buffered by the buffering means exceeds a predetermined value, and the speech utterance vocabulary is transferred to the in-vehicle device. Since the case where the speech recognition result determination means does not determine that the speech is directed is canceled after a predetermined number of consecutive times, the speech utterance vocabulary transferred to the command conversion means is canceled. By recognizing that a specific tendency is no longer shown, utterance vocabulary intended for in-vehicle devices and in-vehicle devices, even if the passenger is not aware of the end of the utterance to control the in-vehicle devices Utterance vocabulary is not distinguished, reducing the burden on the speaker, and preventing the in-vehicle device from malfunctioning due to commands based on incorrect voice recognition. An effect.

また、本発明によれば、バッファリング手段にバッファリングされる発話語彙のなかで特定カテゴリが所定回数連続したとして、音声認識された発話語彙が車載装置へ向けられた発話であると音声認識結果判定手段により判定された場合に、該音声認識した発話語彙をコマンド変換手段へと受け渡すので、発話内容が特定の傾向を一時的であっても強く示すことを認識することによって、搭乗者が車載装置を制御するための発話を意識しなくても、車載装置へ向けられた発話語彙と車載装置へ向けられたものではない発話語彙とが区別され、発話者の負担を軽減するとともに、誤った音声認識に基づくコマンドによって車載装置が誤作動することを防止するという効果を奏する。   Further, according to the present invention, the speech recognition result indicates that the speech utterance vocabulary is an utterance directed to the in-vehicle device, assuming that the specific category continues for a predetermined number of times in the utterance vocabulary buffered by the buffering means. When judged by the judging means, the voice-recognized utterance vocabulary is transferred to the command converting means, so that the passenger can recognize the utterance content strongly even if it shows a specific tendency temporarily. Even if you are not conscious of the utterances to control the in-vehicle device, the utterance vocabulary directed to the in-vehicle device and the utterance vocabulary not directed to the in-vehicle device are distinguished, reducing the burden on the speaker and This has the effect of preventing the in-vehicle device from malfunctioning due to a command based on the voice recognition.

また、本発明によれば、音声認識手段は、バッファリング手段にバッファリングされる発話語彙のなかで特定カテゴリが所定回数連続したとして、音声認識された発話語彙が前記車載装置へ向けられた発話であると音声認識結果判定手段により判定されなかった場合が所定回数連続して以降、該音声認識した発話語彙をコマンド変換手段へと受け渡すことをキャンセルするので、発話内容が特定の傾向を一時的に強く示さなくなったことを認識することによって、搭乗者が車載装置を制御するための発話の終了を意識しなくても、車載装置へ向けられた発話語彙と車載装置へ向けられたものではない発話語彙とが区別され、発話者の負担を軽減するとともに、誤った音声認識に基づくコマンドによって車載装置が誤作動することを防止するという効果を奏する。   Further, according to the present invention, the speech recognition means determines that a specific category continues for a predetermined number of times in the utterance vocabulary buffered by the buffering means, and the speech recognition utterance vocabulary is directed to the in-vehicle device. If the speech recognition result determination means does not determine that the speech recognition result is determined, the speech utterance vocabulary is cancelled from being transferred to the command conversion means after a predetermined number of consecutive times. By recognizing that the utterance is no longer shown strongly, the utterance vocabulary for the in-vehicle device and the in-vehicle device are not intended even if the passenger is unaware of the end of the utterance for controlling the in-vehicle device. It is distinguished from the utterance vocabulary not to reduce the burden on the speaker and to prevent the in-vehicle device from malfunctioning due to a command based on erroneous voice recognition. Achieve the cormorant effect.

以下に添付図面を参照し、本発明の音声認識装置および音声認識方法に係る実施例を詳細に説明する。   Exemplary embodiments according to a speech recognition apparatus and speech recognition method of the present invention will be described below in detail with reference to the accompanying drawings.

以下に図1〜図3を参照して、本発明にかかる実施例1を説明する。実施例1は、車両の搭乗者による発話語彙の常時音声認識において、予め設定されている特定のキーワードが音声認識されると、該キーワードの直後に音声認識された発話語彙を、カーナビゲーション装置などを制御可能なコマンドへ変換するために所定のコマンド変換部へと受け渡す実施例である。   Embodiment 1 according to the present invention will be described below with reference to FIGS. In the first embodiment, when a specific keyword set in advance is recognized by voice recognition in the continuous voice recognition of an utterance vocabulary by a vehicle occupant, the utterance vocabulary recognized immediately after the keyword is converted into a car navigation device or the like. This is an embodiment in which a command is transferred to a predetermined command conversion unit in order to convert it into a controllable command.

先ず、実施例1にかかる音声認識装置の構成について説明する。図1は、実施例1にかかる音声認識装置の構成を示す機能ブロック図である。同図に示すように、車両1において、CAN(Controller Area Network)2を介して、実施例1にかかる音声認識装置10aと、音声認識された発話内容に基づく制御コマンドによる制御対象であるカーナビゲーション装置20とが接続されている。以下の実施例では、音声認識された発話内容が変換された、カーナビゲーション装置20などの車載装置を制御する制御コマンドを、単に“コマンド”と呼ぶ。   First, the configuration of the speech recognition apparatus according to the first embodiment will be described. FIG. 1 is a functional block diagram of the configuration of the speech recognition apparatus according to the first embodiment. As shown in the figure, in a vehicle 1, via a CAN (Controller Area Network) 2, a voice recognition device 10a according to the first embodiment and a car navigation that is a control target by a control command based on the speech-recognized utterance content. The apparatus 20 is connected. In the following embodiment, a control command for controlling an in-vehicle device such as the car navigation device 20 in which the speech-recognized utterance content is converted is simply referred to as a “command”.

音声認識装置10aは、所定の表示画面を有するディスプレイ装置などの表示手段である表示部11aと、音声を発するスピーカー装置などの音声発生手段である音声発生部11bと、揮発性または不揮発性の記憶手段である記憶部12と、制御部13とを有する。また、音声認識装置10aには、外部から検知した音声データを音声認識装置10aへと入力するマイク14が接続されている。   The voice recognition device 10a includes a display unit 11a that is a display unit such as a display device having a predetermined display screen, a voice generation unit 11b that is a voice generation unit such as a speaker device that emits voice, and a volatile or nonvolatile memory. It has the memory | storage part 12 and the control part 13 which are means. The voice recognition device 10a is connected to a microphone 14 for inputting voice data detected from the outside to the voice recognition device 10a.

記憶部12は、キーワード辞書12aと、音声認識辞書12bとを格納している。キーワード辞書12aおよび音声認識辞書12bは、所定のテーブルとして記憶部12に格納されている。キーワード辞書12aは、予め設定された特定の語彙のリストである。また、音声認識辞書12bは、音声認識された発話内容から変換されるべきコマンドのリストである。   The storage unit 12 stores a keyword dictionary 12a and a voice recognition dictionary 12b. The keyword dictionary 12a and the speech recognition dictionary 12b are stored in the storage unit 12 as predetermined tables. The keyword dictionary 12a is a list of specific words set in advance. The voice recognition dictionary 12b is a list of commands to be converted from the speech-recognized utterance contents.

制御部13は、音声認識装置10aの全体制御をつかさどるが、特に実施例1に関連する特徴的な機能構成としては、音声認識処理部13aと、音声認識処理結果判定処理部13bと、コマンド変換出力処理部13cとを有する。その他の機能構成については省略している。   The control unit 13 is responsible for overall control of the voice recognition device 10a. In particular, the characteristic functional configuration related to the first embodiment includes a voice recognition processing unit 13a, a voice recognition processing result determination processing unit 13b, and a command conversion. And an output processing unit 13c. Other functional configurations are omitted.

音声認識処理部13aは、車両1の搭乗者によって発話された語彙がマイク14によって検知されると、その検知された発話語彙をひとまず受け付けて一時記憶しておく。そして、その発話語彙がキーワード辞書12aに含まれている場合(以上を前段の音声認識と呼ぶ)に、該発話語彙より後に検知された語彙を音声認識処理(この音声認識処理による音声認識を、後段の音声認識と呼ぶ)する。なお、単に音声認識と呼ぶ場合は、検知された発話語彙が音声認識辞書12bに含まれていると判定された場合を示し、音声認識処理は、音声認識を試みる処理である。   When the vocabulary spoken by the passenger of the vehicle 1 is detected by the microphone 14, the speech recognition processing unit 13 a accepts the detected utterance vocabulary for a while and temporarily stores it. When the utterance vocabulary is included in the keyword dictionary 12a (the above is called speech recognition in the previous stage), the vocabulary detected after the utterance vocabulary is subjected to speech recognition processing (speech recognition by this speech recognition processing is performed) Called later speech recognition). Note that the term “speech recognition” simply indicates a case where it is determined that the detected utterance vocabulary is included in the speech recognition dictionary 12b, and the speech recognition process is a process of attempting speech recognition.

音声認識処理結果判定処理部13bは、音声認識処理部13aによって受け付けられた発話語彙がキーワード辞書12aに含まれているか否かを判定する処理部である。音声認識処理結果判定処理部13bが音声認識処理部13aによって受け付けられた発話語彙がキーワード辞書12aに含まれていると判定する場合には、音声認識処理部13aは、音声認識結果をコマンド変換出力処理部13cへと受け渡す。なお、音声認識処理結果判定処理部13bが音声認識処理部13aによって受け付けられた発話語彙がキーワード辞書12aに含まれていると判定されない場合には、音声認識処理部13aは、音声認識結果をコマンド変換出力処理部13cへ受け渡さない。   The speech recognition processing result determination processing unit 13b is a processing unit that determines whether or not the utterance vocabulary accepted by the speech recognition processing unit 13a is included in the keyword dictionary 12a. When the speech recognition processing result determination processing unit 13b determines that the utterance vocabulary accepted by the speech recognition processing unit 13a is included in the keyword dictionary 12a, the speech recognition processing unit 13a outputs the speech recognition result as a command conversion output. The data is transferred to the processing unit 13c. When the speech recognition processing result determination processing unit 13b does not determine that the utterance vocabulary accepted by the speech recognition processing unit 13a is included in the keyword dictionary 12a, the speech recognition processing unit 13a uses the speech recognition result as a command. The data is not delivered to the conversion output processing unit 13c.

コマンド変換出力処理部13cは、音声認識処理部13aから受け渡された音声認識結果を、音声認識辞書12bを参照して対応するコマンドへと変換し、カーナビゲーション装置20へと出力する。   The command conversion output processing unit 13c converts the voice recognition result delivered from the voice recognition processing unit 13a into a corresponding command with reference to the voice recognition dictionary 12b, and outputs the command to the car navigation device 20.

次に、実施例1の音声認識処理(その1)について説明する。実施例1の音声認識処理(その1)は、前段の音声認識による音声認識結果がキーワードである場合に、そのキーワードの直後に音声認識された1語彙をコマンド変換する場合の処理である。図2は、実施例1の音声認識処理手順(その1)を示すフローチャートである。   Next, the speech recognition process (part 1) of the first embodiment will be described. The voice recognition process (No. 1) according to the first embodiment is a process in the case of converting a vocabulary speech-recognized immediately after the keyword into a command when the voice recognition result by the voice recognition in the previous stage is a keyword. FIG. 2 is a flowchart illustrating the speech recognition processing procedure (part 1) according to the first embodiment.

先ず、音声認識処理部13aは、マイク14を介して入力された発話語彙の音声認識処理をおこない、その処理結果を音声認識処理結果判定処理部13bへと出力する(ステップS101)。続いて、音声認識処理結果判定処理部13bは、所定の記憶領域に格納される「コマンド変換フラグ」がオンであるか否かを判定する(ステップS102)。「コマンド変換フラグ」がオンであると判定された場合に(ステップS102肯定)、ステップS103へ移り、「コマンド変換フラグ」がオンであると判定されなかった場合に(ステップS102否定)、ステップS105へ移る。   First, the speech recognition processing unit 13a performs speech recognition processing on the utterance vocabulary input via the microphone 14, and outputs the processing result to the speech recognition processing result determination processing unit 13b (step S101). Subsequently, the speech recognition processing result determination processing unit 13b determines whether or not the “command conversion flag” stored in the predetermined storage area is on (step S102). When it is determined that the “command conversion flag” is ON (Yes at Step S102), the process proceeds to Step S103, and when it is not determined that the “command conversion flag” is ON (No at Step S102), Step S105 is performed. Move on.

ステップS103では、音声認識処理部13aは、音声認識処理結果判定処理部13bによる判定処理結果に基づき、入力された発話語彙の音声認識処理結果をコマンド変換出力処理部13cへ受け渡す。続いて、音声認識処理結果判定処理部13bは、所定の記憶領域に格納される「コマンド変換フラグ」をオフにする(ステップS104)。   In step S103, the speech recognition processing unit 13a delivers the speech recognition processing result of the input utterance vocabulary to the command conversion output processing unit 13c based on the determination processing result by the speech recognition processing result determination processing unit 13b. Subsequently, the speech recognition processing result determination processing unit 13b turns off the “command conversion flag” stored in the predetermined storage area (step S104).

ステップS105では、音声認識処理結果判定処理部13bは、キーワード辞書12aを参照し、音声認識処理部13aから入力された音声認識処理結果がキーワードであるか否かを判定する。音声認識処理部13aから入力された音声認識処理結果がキーワードであると判定された場合に(ステップS105肯定)、ステップS106へ移り、音声認識処理部13aから入力された音声認識処理結果がキーワードであると判定されなかった場合に(ステップS105否定)、ステップS107へ移る。   In step S105, the speech recognition processing result determination processing unit 13b refers to the keyword dictionary 12a and determines whether or not the speech recognition processing result input from the speech recognition processing unit 13a is a keyword. When it is determined that the speech recognition processing result input from the speech recognition processing unit 13a is a keyword (Yes in step S105), the process proceeds to step S106, and the speech recognition processing result input from the speech recognition processing unit 13a is a keyword. If it is not determined that there is any (No in step S105), the process proceeds to step S107.

ステップS106では、音声認識処理結果判定処理部13bは、所定の記憶領域に格納される「コマンド変換フラグ」をオンにする。また、ステップS107では、音声認識処理結果判定処理部13bは、所定の記憶領域に格納される「コマンド変換フラグ」をオフにする。これらの処理が終了すると、ステップS108へ移る。   In step S106, the speech recognition processing result determination processing unit 13b turns on a “command conversion flag” stored in a predetermined storage area. In step S107, the speech recognition processing result determination processing unit 13b turns off the “command conversion flag” stored in the predetermined storage area. When these processes are completed, the process proceeds to step S108.

ステップS108では、音声認識処理部13aは、音声認識結果のコマンド変換出力処理部13cへの出力を終了するか否かを判定し、音声認識結果のコマンド変換出力処理部13cへの出力を終了する場合は(ステップS108肯定)、実施例1の音声認識処理(その1)は終了し、音声認識結果のコマンド変換出力処理部13cへの出力を終了しない場合は(ステップS108否定)、ステップS101へ移る。   In step S108, the voice recognition processing unit 13a determines whether or not to end the output of the voice recognition result to the command conversion output processing unit 13c, and ends the output of the voice recognition result to the command conversion output processing unit 13c. In the case (Yes at Step S108), the voice recognition process (No. 1) of the first embodiment is finished, and when the output of the voice recognition result to the command conversion output processing unit 13c is not finished (No at Step S108), the process goes to Step S101. Move.

次に、実施例1の音声認識処理(その2)について説明する。実施例1の音声認識処理(その2)は、前段の音声認識による音声認識結果がキーワードである場合に、そのキーワードの直前に音声認識された1語彙をコマンド変換する場合の処理である。図3は、実施例1の音声認識処理手順(その2)を示すフローチャートである。   Next, the voice recognition process (part 2) of the first embodiment will be described. The voice recognition process (No. 2) of the first embodiment is a process in the case of converting a vocabulary voice-recognized immediately before the keyword into a command when the voice recognition result by the voice recognition in the previous stage is a keyword. FIG. 3 is a flowchart illustrating the voice recognition processing procedure (part 2) according to the first embodiment.

先ず、音声認識処理部13aは、「所定のバッファ」をクリアする(ステップS111)。このバッファは、揮発性または不揮発性の記憶手段に設けられる。   First, the speech recognition processing unit 13a clears the “predetermined buffer” (step S111). This buffer is provided in volatile or non-volatile storage means.

続いて、音声認識処理部13aは、マイク14を介して入力された発話語彙の音声認識処理をおこない、その処理結果を音声認識処理結果判定処理部13bへと出力する(ステップS112)。続いて、音声認識処理部13aは、「所定のバッファ」がクリアされているか否かを判定する(ステップS113)。「所定のバッファ」がクリアされていると判定される場合に(ステップS113肯定)、ステップS117へ移り、「所定のバッファ」がクリアされていると判定されない場合に(ステップS113否定)、ステップS114へ移る。   Subsequently, the speech recognition processing unit 13a performs speech recognition processing on the utterance vocabulary input via the microphone 14, and outputs the processing result to the speech recognition processing result determination processing unit 13b (step S112). Subsequently, the speech recognition processing unit 13a determines whether or not the “predetermined buffer” has been cleared (step S113). When it is determined that the “predetermined buffer” is cleared (Yes at Step S113), the process proceeds to Step S117, and when it is not determined that the “predetermined buffer” is cleared (No at Step S113), Step S114 is performed. Move on.

ステップS114では、音声認識処理結果判定処理部13bは、キーワード辞書12aを参照し、音声認識処理部13aから入力された音声認識結果がキーワードであるか否かを判定する。音声認識処理部13aから入力された音声認識結果がキーワードであると判定された場合に(ステップS114肯定)、ステップS115へ移り、音声認識処理部13aから入力された音声認識結果がキーワードであると判定されなかった場合に(ステップS114否定)、ステップS117へ移る。   In step S114, the speech recognition processing result determination processing unit 13b refers to the keyword dictionary 12a and determines whether or not the speech recognition result input from the speech recognition processing unit 13a is a keyword. When it is determined that the speech recognition result input from the speech recognition processing unit 13a is a keyword (Yes in step S114), the process proceeds to step S115, and the speech recognition result input from the speech recognition processing unit 13a is a keyword. If not determined (No at step S114), the process proceeds to step S117.

ステップS115では、音声認識処理部13aは、音声認識処理結果判定処理部13bによる判定処理結果に基づき、入力された発話語彙の音声認識処理結果をコマンド変換出力処理部13cへ受け渡す。続いて、音声認識処理結果判定処理部13bは、所定の記憶領域に格納される「コマンド変換フラグ」をオフにする(ステップS116)。   In step S115, the speech recognition processing unit 13a delivers the speech recognition processing result of the input utterance vocabulary to the command conversion output processing unit 13c based on the determination processing result by the speech recognition processing result determination processing unit 13b. Subsequently, the speech recognition processing result determination processing unit 13b turns off the “command conversion flag” stored in the predetermined storage area (step S116).

続いて、音声認識処理部13aは、ステップS112で入力された音声認識結果を「所定のバッファ」に記憶する(ステップS117)。このステップS117の処理の際に、すでに「所定のバッファ」に音声認識結果が記憶されている場合は、この古い音声認識結果を消去して、新しい音声認識結果を記憶する。続いて、音声認識処理部13aは、音声認識結果のコマンド変換出力処理部13cへの出力を終了するか否かを判定し(ステップS118)、音声認識結果のコマンド変換出力処理部13cへの出力を終了する場合は(ステップS118肯定)、実施例1の音声認識処理(その2)は終了し、音声認識結果のコマンド変換出力処理部13cへの出力を終了しない場合は(ステップS118否定)、ステップS112へ移る。   Subsequently, the speech recognition processing unit 13a stores the speech recognition result input in step S112 in the “predetermined buffer” (step S117). If a speech recognition result is already stored in the “predetermined buffer” during the process of step S117, the old speech recognition result is deleted and a new speech recognition result is stored. Subsequently, the voice recognition processing unit 13a determines whether or not to end the output of the voice recognition result to the command conversion output processing unit 13c (step S118), and outputs the voice recognition result to the command conversion output processing unit 13c. Is terminated (Yes at step S118), the speech recognition process (part 2) of the first embodiment is terminated, and when the output of the speech recognition result to the command conversion output processing unit 13c is not terminated (No at step S118), Control goes to step S112.

以下に図4および図5を参照して、本発明にかかる実施例2を説明する。実施例1は、車両の搭乗者による発話語彙の常時音声認識において、予め設定されている特定の開始キーワードが音声認識されると、該キーワード以降に音声認識された発話語彙を、カーナビゲーション装置などを制御可能なコマンドへ変換するために所定のコマンド変換部へと受け渡し、特定の開始キーワードが音声認識された以降に特定の終了キーワードが音声認識されると、声認識された発話語彙を所定のコマンド変換部へと受け渡すことを終了する実施例である。以下は、実施例1との差異のみを説明することとする。   A second embodiment according to the present invention will be described below with reference to FIGS. 4 and 5. In the first embodiment, when a specific start keyword set in advance is recognized by voice recognition in the continuous speech recognition of the utterance vocabulary by the vehicle occupant, the utterance vocabulary recognized after the keyword is converted into the car navigation device or the like. Is converted to a controllable command to a predetermined command conversion unit, and when a specific end keyword is recognized after speech recognition of a specific start keyword, a voice-recognized utterance vocabulary is It is an Example which complete | finishes delivery to a command conversion part. Only the differences from the first embodiment will be described below.

先ず、実施例2にかかる音声認識装置の構成について説明する。図4は、実施例2にかかる音声認識装置の構成を示す機能ブロック図である。実施例2の音声認識装置10bは、実施例1の音声認識装置10aと比較して、記憶部12においてキーワード辞書12aに代えて開始キーワード辞書12cおよび終了キーワード辞書12dが含まれる構成となっている。これらの構成以外は、実施例2の音声認識装置10bは、実施例1の音声認識装置10aと同一であるので、説明を省略する。   First, the configuration of the speech recognition apparatus according to the second embodiment will be described. FIG. 4 is a functional block diagram of the configuration of the speech recognition apparatus according to the second embodiment. Compared with the speech recognition device 10a of the first embodiment, the speech recognition device 10b of the second embodiment has a configuration in which the storage unit 12 includes a start keyword dictionary 12c and an end keyword dictionary 12d instead of the keyword dictionary 12a. . Except for these configurations, the speech recognition device 10b according to the second embodiment is the same as the speech recognition device 10a according to the first embodiment, and a description thereof will be omitted.

開始キーワード辞書12cおよび終了キーワード辞書12dは、所定のテーブルとして記憶部12に格納されている。開始キーワード辞書12cおよび終了キーワード辞書12dは、予め設定された特定の語彙のリストである。特に、開始キーワード辞書12cには、カーナビゲーション装置20などの車載装置へ向けた発話の開始を示すキーワードが格納されており、終了キーワード辞書12dには、カーナビゲーション装置20などの車載装置へ向けた発話の終了を示すキーワードが格納されている。   The start keyword dictionary 12c and the end keyword dictionary 12d are stored in the storage unit 12 as predetermined tables. The start keyword dictionary 12c and the end keyword dictionary 12d are lists of specific vocabularies set in advance. In particular, the start keyword dictionary 12c stores a keyword indicating the start of an utterance toward an in-vehicle device such as the car navigation device 20, and the end keyword dictionary 12d is directed to the in-vehicle device such as the car navigation device 20. A keyword indicating the end of the utterance is stored.

次に、実施例2の音声認識処理について説明する。実施例2の音声認識処理は、前段の音声認識による音声認識結果が開始キーワードである場合に、そのキーワード以降に音声認識された語彙をコマンド変換し、その後終了キーワードが音声認識されると、音声認識された語彙のコマンド変換を終了する処理である。図5は、実施例2の音声認識処理手順を示すフローチャートである。   Next, the speech recognition process according to the second embodiment will be described. In the voice recognition process of the second embodiment, when the voice recognition result by the voice recognition in the previous stage is a start keyword, the vocabulary recognized after the keyword is command-converted, and then the end keyword is voice-recognized. This is a process for ending the command conversion of the recognized vocabulary. FIG. 5 is a flowchart illustrating a voice recognition processing procedure according to the second embodiment.

先ず、音声認識処理部13aは、マイク14を介して入力された発話語彙の音声認識処理をおこない、その処理結果を音声認識処理結果判定処理部13bへと出力する(ステップS121)。続いて、音声認識処理結果判定処理部13bは、所定の記憶領域に格納される「コマンド変換フラグ」がオンであるか否かを判定する(ステップS122)。「コマンド変換フラグ」がオンであると判定された場合に(ステップS122肯定)、ステップS123へ移り、「コマンド変換フラグ」がオンであると判定されなかった場合に(ステップS122否定)、ステップS126へ移る。   First, the speech recognition processing unit 13a performs speech recognition processing on the utterance vocabulary input via the microphone 14, and outputs the processing result to the speech recognition processing result determination processing unit 13b (step S121). Subsequently, the speech recognition processing result determination processing unit 13b determines whether or not the “command conversion flag” stored in the predetermined storage area is on (step S122). When it is determined that the “command conversion flag” is ON (Yes at Step S122), the process proceeds to Step S123, and when it is not determined that the “command conversion flag” is ON (No at Step S122), Step S126. Move on.

ステップS123では、音声認識処理結果判定処理部13bは、終了キーワード辞書12dを参照し、音声認識処理部13aから入力された音声認識結果が終了キーワードであるか否かを判定する。音声認識処理部13aから入力された音声認識結果が終了キーワードであると判定された場合に(ステップS123肯定)、ステップS124へ移り、音声認識処理部13aから入力された音声認識結果が終了キーワードであると判定されなかった場合に(ステップS123否定)、ステップS125へ移る。   In step S123, the speech recognition processing result determination processing unit 13b refers to the end keyword dictionary 12d and determines whether or not the speech recognition result input from the speech recognition processing unit 13a is an end keyword. When it is determined that the speech recognition result input from the speech recognition processing unit 13a is the end keyword (Yes at Step S123), the process proceeds to Step S124, and the speech recognition result input from the speech recognition processing unit 13a is the end keyword. If it is not determined that there is (No at Step S123), the process proceeds to Step S125.

ステップS124では、音声認識処理結果判定処理部13bは、所定の記憶領域に格納される「コマンド変換フラグ」をオフにする。ステップS125では、音声認識処理部13aは、音声認識処理結果判定処理部13bによる判定処理結果に基づき、入力された発話語彙の音声認識処理結果をコマンド変換出力処理部13cへ受け渡す。   In step S124, the speech recognition processing result determination processing unit 13b turns off the “command conversion flag” stored in the predetermined storage area. In step S125, the speech recognition processing unit 13a delivers the speech recognition processing result of the input utterance vocabulary to the command conversion output processing unit 13c based on the determination processing result by the speech recognition processing result determination processing unit 13b.

一方、ステップS126では、音声認識処理結果判定処理部13bは、開始キーワード辞書12cを参照し、音声認識処理部13aから入力された音声認識結果が開始キーワードであるか否かを判定する。音声認識処理部13aから入力された音声認識結果が開始キーワードであると判定された場合に(ステップS126肯定)、ステップS127へ移り、音声認識処理部13aから入力された音声認識結果が開始キーワードであると判定されなかった場合に(ステップS126否定)、ステップS129へ移る。   On the other hand, in step S126, the speech recognition processing result determination processing unit 13b refers to the start keyword dictionary 12c and determines whether or not the speech recognition result input from the speech recognition processing unit 13a is a start keyword. When it is determined that the speech recognition result input from the speech recognition processing unit 13a is the start keyword (Yes at Step S126), the process proceeds to Step S127, and the speech recognition result input from the speech recognition processing unit 13a is the start keyword. If it is not determined that there is any (No in step S126), the process proceeds to step S129.

ステップS127では、音声認識処理部13aは、音声認識処理結果判定処理部13bによる判定処理結果に基づき、入力された発話語彙の音声認識処理結果をコマンド変換出力処理部13cへ受け渡す。続いて、音声認識処理結果判定処理部13bは、所定の記憶領域に格納される「コマンド変換フラグ」をオンにする(ステップS128)この処理が終了すると、ステップS129へ移る。   In step S127, the speech recognition processing unit 13a delivers the speech recognition processing result of the input utterance vocabulary to the command conversion output processing unit 13c based on the determination processing result by the speech recognition processing result determination processing unit 13b. Subsequently, the speech recognition processing result determination processing unit 13b turns on the “command conversion flag” stored in the predetermined storage area (step S128). When this process ends, the process proceeds to step S129.

ステップS129では、音声認識処理部13aは、音声認識結果のコマンド変換出力処理部13cへの出力を終了するか否かを判定し、音声認識結果のコマンド変換出力処理部13cへの出力を終了する場合は(ステップS129肯定)、実施例2の音声認識処理は終了し、音声認識結果のコマンド変換出力処理部13cへの出力を終了しない場合は(ステップS129否定)、ステップS121へ移る。   In step S129, the speech recognition processing unit 13a determines whether or not to end the output of the speech recognition result to the command conversion output processing unit 13c, and ends the output of the speech recognition result to the command conversion output processing unit 13c. In such a case (Yes at Step S129), the voice recognition process of the second embodiment is finished. When the output of the voice recognition result to the command conversion output processing unit 13c is not finished (No at Step S129), the process proceeds to Step S121.

以下に図6〜図9を参照して、本発明にかかる実施例3を説明する。実施例3は、車両の搭乗者による発話語彙の常時音声認識において、特定のカテゴリの語彙が一定時間において音声認識された語彙のなかで所定割合を占める、あるいは特定のカテゴリの語彙が一定回数連続して音声認識されると、これらの条件が充足された以降に音声認識された発話語彙を、カーナビゲーション装置などを制御可能なコマンドへ変換するために所定のコマンド変換部へと受け渡する実施例である。以下は、実施例1または2実施例との差異のみを説明することとする。   A third embodiment according to the present invention will be described below with reference to FIGS. In the third embodiment, in the continuous speech recognition of the utterance vocabulary by the vehicle occupant, the vocabulary in the specific category occupies a predetermined ratio among the vocabulary recognized in a certain time, or the vocabulary in the specific category continues for a certain number of times. When speech recognition is performed, an utterance vocabulary recognized after the above conditions are satisfied is transferred to a predetermined command conversion unit to convert the car navigation device into a controllable command. It is an example. In the following, only the differences from the first or second embodiment will be described.

先ず、実施例3にかかる音声認識装置の構成について説明する。図6は、実施例3にかかる音声認識装置の構成を示す機能ブロック図である。実施例3の音声認識装置10cは、実施例1の音声認識装置10aと比較して、記憶部12においてキーワード辞書12aに代えて語彙カテゴリ分類テーブル12eおよび認識語彙格納バッファ12fが含まれる構成となっている。これらの構成以外は、実施例3の音声認識装置10cは、実施例1の音声認識装置10aと同一であるので、説明を省略する。   First, the configuration of the speech recognition apparatus according to the third embodiment will be described. FIG. 6 is a functional block diagram of the configuration of the speech recognition apparatus according to the third embodiment. Compared with the speech recognition device 10a of the first embodiment, the speech recognition device 10c of the third embodiment includes a vocabulary category classification table 12e and a recognized vocabulary storage buffer 12f in the storage unit 12 instead of the keyword dictionary 12a. ing. Except for these configurations, the speech recognition device 10c according to the third embodiment is the same as the speech recognition device 10a according to the first embodiment, and thus the description thereof is omitted.

語彙カテゴリ分類テーブル12eは、音声認識された発話語彙にその所属カテゴリを少なくとも一つ対応付けて記憶するテーブルである。例えば図7にそのテーブル例を示すように、「語彙」“そば”には、「所属カテゴリ」として“食事”、“和食”などが対応付けられている。また、「語彙」“目的地”には、「所属カテゴリ」として“ナビ”、“地図”などが対応付けられている。「語彙」“xxテレビ局”には、「所属カテゴリ」として“テレビ”、“オーディオ”などが対応付けられている。   The vocabulary category classification table 12e is a table that stores at least one affiliation category associated with a speech-recognized utterance vocabulary. For example, as shown in the table example in FIG. 7, “meal”, “Japanese food”, and the like are associated with “vocabulary” and “soba” as “affiliation category”. In addition, “navigation”, “map”, and the like are associated with “vocabulary” and “destination” as “affiliation category”. “Vocabulary” “xx television station” is associated with “TV”, “audio”, etc. as “affiliation category”.

このように、音声認識処理結果判定処理部13bによって語彙カテゴリ分類テーブル12eに含まれると判定された語彙は、該語彙カテゴリ分類テーブル12eに基づきその所属カテゴリが少なくとも一つ取得されることとなる。   As described above, at least one affiliation category of the vocabulary determined to be included in the vocabulary category classification table 12e by the speech recognition processing result determination processing unit 13b is acquired based on the vocabulary category classification table 12e.

認識語彙格納バッファ12fは、音声認識処理部13aによって連続して音声認識がなされた語彙を所定数(例えば、500語彙など)だけバッファリングする記憶領域である。この認識語彙格納バッファ12fにバッファリングされる語彙は、先入れ先出しによって管理され、前述の所定数を超えて新たに音声認識された語彙が格納されようとしたならば、時間的に最も古く格納された語彙を消去して該新たに音声認識された語彙が格納される。   The recognized vocabulary storage buffer 12f is a storage area for buffering a predetermined number (for example, 500 vocabularies) of words that have been continuously recognized by the speech recognition processing unit 13a. The vocabulary buffered in the recognized vocabulary storage buffer 12f is managed in a first-in first-out manner, and if a vocabulary newly recognized by voice exceeding the predetermined number is stored, it is stored the oldest in terms of time. The vocabulary is deleted and the newly recognized vocabulary is stored.

次に、実施例3の音声認識処理(その1)について説明する。実施例3の音声認識処理(その3)は、認識語彙格納バッファ12fにバッファリングされている音声認識結果の語彙のうち同一の所属カテゴリである語彙の割合が所定閾値以上であると判定される場合に、その判定以後に音声認識された語彙をコマンド変換する場合の処理である。図8は、実施例3の音声認識処理手順(その1)を示すフローチャートである。   Next, the speech recognition process (No. 1) according to the third embodiment will be described. In the speech recognition process (No. 3) of the third embodiment, it is determined that the ratio of the vocabulary belonging to the same category among the vocabulary of the speech recognition result buffered in the recognized vocabulary storage buffer 12f is equal to or greater than a predetermined threshold. In this case, the vocabulary recognized after the determination is command-converted. FIG. 8 is a flowchart illustrating the speech recognition processing procedure (part 1) according to the third embodiment.

先ず、音声認識処理部13aは、マイク14を介して入力された発話語彙の音声認識処理をおこない、その処理結果を音声認識処理結果判定処理部13bへと出力する(ステップS131)。続いて、音声認識処理結果判定処理部13bは、語彙カテゴリ分類テーブル12eを参照して、入力された音声認識結果の語彙の所属カテゴリを取得する(ステップS132)。   First, the speech recognition processing unit 13a performs speech recognition processing on the utterance vocabulary input via the microphone 14, and outputs the processing result to the speech recognition processing result determination processing unit 13b (step S131). Subsequently, the speech recognition processing result determination processing unit 13b refers to the vocabulary category classification table 12e and acquires the affiliation category of the input speech recognition result vocabulary (step S132).

続いて、音声認識処理結果判定処理部13bは、入力された音声認識結果を、認識語彙格納バッファ12fに所定数(例えば、500語彙など)だけバッファリングする(ステップS133)。   Subsequently, the speech recognition processing result determination processing unit 13b buffers the input speech recognition result by a predetermined number (for example, 500 vocabulary) in the recognized vocabulary storage buffer 12f (step S133).

続いて、音声認識処理結果判定処理部13bは、認識語彙格納バッファ12fにバッファリングされている音声認識結果の語彙のうち同一所属カテゴリの語彙の割合が所定閾値以上(例えば、80%など)であるか否かを判定する(ステップS134)。認識語彙格納バッファ12fにバッファリングされている音声認識結果の語彙のうち同一所属カテゴリの語彙の割合が所定閾値以上と判定された場合に(ステップS134肯定)、ステップS135へ移り、認識語彙格納バッファ12fにバッファリングされている音声認識結果の語彙のうち同一所属カテゴリの語彙の割合が所定閾値以上であると判定さなかった場合に(ステップS134否定)、ステップS137へ移る。   Subsequently, the speech recognition processing result determination processing unit 13b determines that the ratio of the vocabulary of the same category among the vocabulary of the speech recognition result buffered in the recognition vocabulary storage buffer 12f is equal to or higher than a predetermined threshold (for example, 80%). It is determined whether or not there is (step S134). When it is determined that the ratio of the vocabulary of the same category belongs to the vocabulary of the same affiliation category among the vocabulary of the speech recognition result buffered in the recognition vocabulary storage buffer 12f (Yes in step S134), the process proceeds to step S135, and the recognition vocabulary storage buffer If it is not determined that the vocabulary of the same affiliation category among the vocabulary of the speech recognition result buffered in 12f is greater than or equal to the predetermined threshold (No at step S134), the process proceeds to step S137.

ステップS135では、音声認識処理部13aは、音声認識処理結果判定処理部13bによる判定処理結果に基づき、入力された発話語彙の音声認識処理結果をコマンド変換出力処理部13cへ受け渡す。続いて、音声認識処理結果判定処理部13bは、所定の記憶領域に格納される「コマンド変換フラグ」をオンにする(ステップS136)。この処理が終了すると、ステップS141へ移る。   In step S135, the speech recognition processing unit 13a transfers the speech recognition processing result of the input utterance vocabulary to the command conversion output processing unit 13c based on the determination processing result by the speech recognition processing result determination processing unit 13b. Subsequently, the speech recognition processing result determination processing unit 13b turns on the “command conversion flag” stored in a predetermined storage area (step S136). When this process ends, the process proceeds to step S141.

一方、ステップS137では、音声認識処理結果判定処理部13bは、所定の記憶領域に格納される「コマンド変換フラグ」がオンであるか否かを判定する。「コマンド変換フラグ」がオンであると判定された場合に(ステップS137肯定)、ステップS138へ移り、「コマンド変換フラグ」がオンであると判定されなかった場合に(ステップS137否定)、ステップS139へ移る。   On the other hand, in step S137, the speech recognition processing result determination processing unit 13b determines whether or not the “command conversion flag” stored in the predetermined storage area is on. When it is determined that the “command conversion flag” is on (Yes at step S137), the process proceeds to step S138. When it is not determined that the “command conversion flag” is on (No at step S137), step S139 is performed. Move on.

続いて、音声認識処理結果判定処理部13bは、認識語彙格納バッファ12fにバッファリングされている音声認識結果の語彙のうち同一所属カテゴリの語彙の割合が所定閾値以上であると所定回数判定されなかったか(すなわち、ステップS134否定が所定回数連続したか)否かを判定する(ステップS139)。ステップS134否定が所定回数連続した場合に(ステップS139肯定)、音声認識処理結果判定処理部13bは、所定の記憶領域に格納される「コマンド変換フラグ」をオフにし(ステップS140)、ステップS134否定が所定回数連続しなかった場合に(ステップS139否定)、ステップS141へ移る。   Subsequently, the speech recognition processing result determination processing unit 13b does not determine the predetermined number of times that the vocabulary of the same affiliation category in the vocabulary of the speech recognition result buffered in the recognition vocabulary storage buffer 12f is equal to or greater than a predetermined threshold. (That is, whether negative in step S134 has continued for a predetermined number of times) or not (step S139). When step S134 is negative for a predetermined number of times (Yes at step S139), the speech recognition processing result determination processing unit 13b turns off the “command conversion flag” stored in the predetermined storage area (step S140), and negative at step S134. Does not continue for a predetermined number of times (No at step S139), the process proceeds to step S141.

ステップS141では、音声認識処理部13aは、音声認識結果のコマンド変換出力処理部13cへの出力を終了するか否かを判定し、音声認識結果のコマンド変換出力処理部13cへの出力を終了する場合は(ステップS141肯定)、実施例3の音声認識処理は終了し、音声認識結果のコマンド変換出力処理部13cへの出力を終了しない場合は(ステップS141否定)、ステップS131へ移る。   In step S141, the speech recognition processing unit 13a determines whether or not to end the output of the speech recognition result to the command conversion output processing unit 13c, and ends the output of the speech recognition result to the command conversion output processing unit 13c. In such a case (Yes at Step S141), the voice recognition process of the third embodiment is finished. When the output of the voice recognition result to the command conversion output processing unit 13c is not finished (No at Step S141), the process proceeds to Step S131.

以上のステップS134の判定処理によって、発話語彙のカテゴリ分類による発話内容の傾向がある時間内にある程度現れた場合に、音声認識結果をコマンド変換処理部へと受け渡してコマンド変換をおこなうようにし、ステップS139の判定処理によって、発話語彙のカテゴリ分類による発話内容の傾向が現れなくなった場合に、音声認識結果をコマンド変換処理部へと受け渡すことをキャンセルしてコマンド変換をおこなわせないように制御することが可能になる。   When the determination processing in step S134 described above shows some tendency in the content of the utterance content due to the categorization of the utterance vocabulary, the speech recognition result is transferred to the command conversion processing unit, and the command conversion is performed. When the tendency of the utterance contents due to the categorization of the utterance vocabulary does not appear as a result of the determination process of S139, control is performed so that the command conversion is not performed by transferring the speech recognition result to the command conversion processing unit. It becomes possible.

なお、ステップS134の判定条件として、「認識語彙格納バッファ12fにバッファリングされている音声認識結果の語彙のうち同一所属カテゴリの語彙の割合が所定閾値以上であるか否か」に代えて「認識語彙格納バッファ12fにバッファリングされている音声認識結果の語彙のうち同一所属カテゴリの語彙が所定数連続しているか否か」を採用してもよい。これを図8のステップS134に代えてステップS134aとする(図9参照)。   In addition, instead of “whether or not the ratio of the vocabulary of the same affiliation category among the vocabulary of the speech recognition result buffered in the recognized vocabulary storage buffer 12f is a predetermined threshold or more” It may be adopted whether or not a predetermined number of vocabularies of the same category belong to the vocabulary of the speech recognition result buffered in the vocabulary storage buffer 12f. This is changed to step S134a in place of step S134 in FIG. 8 (see FIG. 9).

これに応じて、図8のステップS139の判定条件として、「認識語彙格納バッファ12fにバッファリングされている音声認識結果の語彙のうち同一所属カテゴリの語彙の割合が所定閾値以上であると所定回数判定されなかったか(すなわち、ステップS134否定が所定回数連続したか)否か」に代えて「認識語彙格納バッファ12fにバッファリングされている音声認識結果の語彙のうち同一所属カテゴリの語彙が所定数連続していると所定回数判定されなかったか(すなわち、ステップS134a否定が所定回数連続したか)否か」を採用することとなる。これを図8のステップS139に代えてステップS139aとする(図9参照)。   Accordingly, the determination condition in step S139 of FIG. 8 is that “the ratio of the vocabulary of the same affiliation category in the vocabulary of the speech recognition result buffered in the recognized vocabulary storage buffer 12f is a predetermined number of times or more. Instead of whether or not determination is made (that is, whether or not the negative in step S134 is continued for a predetermined number of times), a predetermined number of vocabularies of the same category belong to the vocabulary of the speech recognition result buffered in the recognized vocabulary storage buffer 12f Whether or not the predetermined number of times is determined to be continuous (that is, whether or not negative in step S134a has been continued a predetermined number of times) is adopted. This is replaced with step S139 in FIG. 8 and is referred to as step S139a (see FIG. 9).

以上のステップS134aの判定処理によって、発話語彙のカテゴリ分類による発話内容に一時的な強い傾向が現れた場合に、音声認識結果をコマンド変換処理部へと受け渡してコマンド変換をおこなうようにし、ステップS139aの判定処理によって、発話語彙のカテゴリ分類による発話内容の一時的な強い傾向が現れなくなった場合に、音声認識結果をコマンド変換処理部へと受け渡すことをキャンセルしてコマンド変換をおこなわせないように制御することが可能になる。   When a strong tendency appears temporarily in the utterance content by the category classification of the utterance vocabulary by the determination processing in the above step S134a, the voice recognition result is transferred to the command conversion processing unit to perform command conversion, and step S139a. If there is no temporary strong tendency of the utterance content due to the categorization of the utterance vocabulary by the judgment processing of, the transfer of the speech recognition result to the command conversion processing unit is canceled and the command conversion is not performed. It becomes possible to control.

以上、本発明の実施例を説明したが、本発明は、これに限られるものではなく、特許請求の範囲に記載した技術的思想の範囲内で、更に種々の異なる実施例で実施されてもよいものである。また、実施例に記載した効果は、これに限定されるものではない。   As mentioned above, although the Example of this invention was described, this invention is not limited to this, In the range of the technical idea described in the claim, even if it implements in a various different Example, it is. It ’s good. Moreover, the effect described in the Example is not limited to this.

また、上記実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記実施例で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。   In addition, among the processes described in the above embodiment, all or part of the processes described as being automatically performed can be manually performed, or the processes described as being manually performed can be performed. All or a part can be automatically performed by a known method. In addition, the processing procedure, control procedure, specific name, information including various data and parameters shown in the above embodiment can be arbitrarily changed unless otherwise specified.

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。   Each component of each illustrated device is functionally conceptual and does not necessarily need to be physically configured as illustrated. In other words, the specific form of distribution / integration of each device is not limited to that shown in the figure, and all or a part thereof may be functionally or physically distributed or arbitrarily distributed in arbitrary units according to various loads or usage conditions. Can be integrated and configured.

さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPU(Central Processing Unit)(またはMPU(Micro Processing Unit)、MCU(Micro Controller Unit)などのマイクロ・コンピュータ)および当該CPU(またはMPU、MCUなどのマイクロ・コンピュータ)にて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現されてもよい。   Furthermore, each or all of the processing functions performed in each device are entirely or partially a CPU (Central Processing Unit) (or a microcomputer such as an MPU (Micro Processing Unit) or MCU (Micro Controller Unit)) and It may be realized by a program that is analyzed and executed by the CPU (or a microcomputer such as MPU or MCU), or may be realized as hardware by wired logic.

本発明は、音声認識装置において、車載装置へ向かってその制御のために発話する発話者をトークスイッチの押下操作のわずらわしさから開放し、かつ該発話が車載装置に対するものであるか否かを明確に認識して誤作動を起こさないようにしたい場合に有用である。   According to the present invention, in a voice recognition device, a speaker who speaks for control to an in-vehicle device is released from the troublesome operation of pressing the talk switch, and whether or not the utterance is for the in-vehicle device. This is useful when you want to clearly recognize and avoid malfunctions.

実施例1にかかる音声認識装置の構成を示す機能ブロック図である。1 is a functional block diagram illustrating a configuration of a speech recognition apparatus according to Embodiment 1. FIG. 実施例1の音声認識処理手順(その1)を示すフローチャートである。6 is a flowchart illustrating a voice recognition processing procedure (part 1) according to the first embodiment. 実施例1の音声認識処理手順(その2)を示すフローチャートである。It is a flowchart which shows the speech recognition process sequence (the 2) of Example 1. FIG. 実施例2にかかる音声認識装置の構成を示す機能ブロック図である。It is a functional block diagram which shows the structure of the speech recognition apparatus concerning Example 2. FIG. 実施例2の音声認識処理手順を示すフローチャートである。10 is a flowchart illustrating a voice recognition processing procedure according to the second embodiment. 実施例3にかかる音声認識装置の構成を示す機能ブロック図である。FIG. 6 is a functional block diagram illustrating a configuration of a speech recognition apparatus according to a third embodiment. 語彙カテゴリ分類テーブルの例を示す図である。It is a figure which shows the example of a vocabulary category classification | category table. 実施例3の音声認識処理手順(その1)を示すフローチャートである。12 is a flowchart illustrating a voice recognition processing procedure (No. 1) according to the third embodiment. 実施例3の音声認識処理手順(その2)を示すフローチャートである。10 is a flowchart illustrating a voice recognition processing procedure (No. 2) according to the third embodiment.

符号の説明Explanation of symbols

1 車両
10a 音声認識装置
10b 音声認識装置
10c 音声認識装置
11a 表示部
11b 音声発生部
12 記憶部
12a キーワード辞書
12b 音声認識辞書
12c 開始キーワード辞書
12d 終了キーワード辞書
12e 語彙カテゴリ分類テーブル
12f 認識語彙格納バッファ
13 制御部
13a 音声認識処理部
13b 音声認識処理結果判定処理部
13c コマンド変換出力処理部
14 マイク
20 カーナビゲーション装置
1 vehicle 10a speech recognition device 10b speech recognition device 10c speech recognition device 11a display unit 11b speech generation unit 12 storage unit 12a keyword dictionary 12b speech recognition dictionary 12c start keyword dictionary 12d end keyword dictionary 12e vocabulary category classification table 12f recognition vocabulary storage buffer 13 Control unit 13a Speech recognition processing unit 13b Speech recognition processing result determination processing unit 13c Command conversion output processing unit 14 Microphone 20 Car navigation device

Claims (10)

車両の搭乗者によって発話された発話語彙を音声認識する音声認識手段と、該音声認識手段によって音声認識された該発話語彙を対応するコマンドへ変換して車載装置へと受け渡すコマンド変換手段とを有する音声認識装置であって、
前記音声認識手段によって音声認識された発話語彙が前記車載装置へ向けられた発話であるか否かを判定する音声認識結果判定手段をさらに有し、
前記音声認識手段は、前記音声認識手段によって音声認識された発話語彙が前記車載装置へ向けられた発話であると前記音声認識結果判定手段により判定された場合にのみ該音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを特徴とする音声認識装置。
Speech recognition means for recognizing speech vocabulary spoken by a passenger of the vehicle, and command conversion means for converting the speech vocabulary recognized by the speech recognition means into a corresponding command and delivering it to the in-vehicle device A voice recognition device comprising:
Further comprising speech recognition result determination means for determining whether the utterance vocabulary recognized by the voice recognition means is an utterance directed to the in-vehicle device;
The speech recognition means determines the speech vocabulary recognized by the speech recognition only when the speech recognition result determination means determines that the utterance vocabulary recognized by the speech recognition means is an utterance directed to the in-vehicle device. A speech recognition device, wherein the speech recognition device is passed to a command conversion means.
前記音声認識手段は、前記音声認識手段によって音声認識された発話語彙が特定語彙であると前記音声認識結果判定手段により判定された場合に、該特定語彙以降に音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを特徴とする請求項1に記載の音声認識装置。   The speech recognition means, when the speech recognition result determination means determines that the utterance vocabulary recognized by the speech recognition means is a specific vocabulary, the command conversion is performed on the utterance vocabulary recognized after the specific vocabulary. The voice recognition apparatus according to claim 1, wherein the voice recognition apparatus is transferred to a means. 前記音声認識手段は、前記音声認識手段によって音声認識された発話語彙が特定語彙であると前記音声認識結果判定手段により判定された場合に、該特定語彙以前に音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを特徴とする請求項1に記載の音声認識装置。   The speech recognition means, when the speech recognition result determination means determines that the utterance vocabulary recognized by the speech recognition means is a specific vocabulary, converts the utterance vocabulary speech recognized before the specific vocabulary to the command conversion The voice recognition apparatus according to claim 1, wherein the voice recognition apparatus is transferred to a means. 前記音声認識手段は、前記音声認識手段によって音声認識された発話語彙が第1の特定語彙であると前記音声認識結果判定手段により判定された場合に、該第1の特定語彙より後に音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを開始し、前記音声認識手段によって該第1の特定語彙以降に音声認識された発話語彙が第2の特定語彙であると前記音声認識結果判定手段により判定された場合に、該第2の特定語彙以降に音声認識した発話語彙を音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを終了すことを特徴とする請求項1に記載の音声認識装置。   The speech recognition means recognizes speech after the first specific vocabulary when the speech recognition result determination means determines that the utterance vocabulary recognized by the speech recognition means is the first specific vocabulary. The speech recognition result determining means starts to deliver the utterance vocabulary to the command conversion means, and the speech vocabulary recognized after the first specific vocabulary by the speech recognition means is the second specific vocabulary. 2. The method according to claim 1, wherein when the determination is performed, the utterance vocabulary obtained by speech recognition of the utterance vocabulary recognized after the second specific vocabulary is terminated to the command conversion means. Voice recognition device. 前記音声認識手段によって音声認識された発話語彙を所定数だけバッファリングするバッファリング手段と、
前記発話語彙に、該発話語彙が属するカテゴリを対応付けて記憶する語彙カテゴリ記憶手段と
をさらに有し、
前記音声認識手段は、前記バッファリング手段にバッファリングされる発話語彙のカテゴリに基づいて、音声認識された発話語彙が前記車載装置へ向けられた発話であると前記音声認識結果判定手段により判定された場合にのみ該音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを特徴とする請求項1に記載の音声認識装置。
Buffering means for buffering a predetermined number of speech vocabularies recognized by the voice recognition means;
Vocabulary category storage means for storing the utterance vocabulary in association with the category to which the utterance vocabulary belongs, and
The voice recognition means is determined by the voice recognition result determination means that the utterance vocabulary that has been voice-recognized is an utterance directed to the in-vehicle device based on the category of the utterance vocabulary buffered in the buffering means. 2. The speech recognition apparatus according to claim 1, wherein the speech vocabulary that has been speech-recognized is transferred to the command conversion means only when the speech recognition is performed.
前記音声認識手段は、前記バッファリング手段にバッファリングされる発話語彙のなかで特定カテゴリの出現率が所定値以上となったとして、音声認識された発話語彙が前記車載装置へ向けられた発話であると前記音声認識結果判定手段により判定された場合に、該音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを特徴とする請求項5に記載の音声認識装置。   The speech recognition means is an utterance where the speech utterance vocabulary recognized as speech is directed to the in-vehicle device, assuming that the appearance rate of a specific category among the utterance vocabulary buffered by the buffering means is a predetermined value or more. 6. The speech recognition apparatus according to claim 5, wherein if the speech recognition result determination means determines that there is, the speech vocabulary recognized by the speech is transferred to the command conversion means. 前記音声認識手段は、前記バッファリング手段にバッファリングされる発話語彙のなかで特定カテゴリの出現率が所定値以上となったとして、音声認識された発話語彙が前記車載装置へ向けられた発話であると前記音声認識結果判定手段により判定されなかった場合が所定回数連続して以降、該音声認識した発話語彙を前記コマンド変換手段へと受け渡すことをキャンセルすることを特徴とする請求項6に記載の音声認識装置。   The speech recognition means is an utterance where the speech utterance vocabulary recognized as speech is directed to the in-vehicle device, assuming that the appearance rate of a specific category among the utterance vocabulary buffered by the buffering means is a predetermined value or more. 7. The method according to claim 6, further comprising: canceling delivery of the speech-recognized utterance vocabulary to the command conversion means after a predetermined number of consecutive cases where the speech recognition result determination means does not determine. The speech recognition apparatus according to the description. 前記音声認識手段は、前記バッファリング手段にバッファリングされる発話語彙のなかで特定カテゴリが所定回数連続したとして、音声認識された発話語彙が前記車載装置へ向けられた発話であると前記音声認識結果判定手段により判定された場合に、該音声認識した発話語彙を前記コマンド変換手段へと受け渡すことを特徴とする請求項5に記載の音声認識装置。   The speech recognition means recognizes that the speech recognition is a speech directed to the in-vehicle device, assuming that a specific category continues for a predetermined number of times in the speech vocabulary buffered by the buffering means. 6. The speech recognition apparatus according to claim 5, wherein, when judged by the result judging means, the speech vocabulary recognized by the speech is transferred to the command converting means. 前記音声認識手段は、前記バッファリング手段にバッファリングされる発話語彙のなかで特定カテゴリが所定回数連続したとして、音声認識された発話語彙が前記車載装置へ向けられた発話であると前記音声認識結果判定手段により判定されなかった場合が所定回数連続して以降、該音声認識した発話語彙を前記コマンド変換手段へと受け渡すことをキャンセルすることを特徴とする請求項8に記載の音声認識装置。   The speech recognition means recognizes that the speech recognition is a speech directed to the in-vehicle device, assuming that a specific category continues for a predetermined number of times in the speech vocabulary buffered by the buffering means. 9. The voice recognition apparatus according to claim 8, wherein after the case where the result is not judged by the result judgment means continues for a predetermined number of times, the delivery of the utterance vocabulary recognized by the voice to the command conversion means is cancelled. . 車両の搭乗者によって発話された発話語彙を音声認識する音声認識工程と、該音声認識手段によって音声認識された該発話語彙を対応するコマンドへ変換して車載装置へと受け渡すコマンド変換工程とを含む音声認識方法であって、
前記音声認識工程によって音声認識された発話語彙が前記車載装置へ向けられた発話であるか否かを判定する音声認識結果判定工程をさらに含み、
前記音声認識工程は、前記音声認識工程によって音声認識された発話語彙が前記車載装置へ向けられた発話であると前記音声認識結果判定工程により判定された場合にのみ、該音声認識した発話語彙を前記コマンド変換肯定へと受け渡すことを特徴とする音声認識方法。
A speech recognition step for recognizing an utterance vocabulary spoken by a vehicle occupant, and a command conversion step for converting the utterance vocabulary recognized by the speech recognition means into a corresponding command and transferring it to an in-vehicle device. A speech recognition method including:
A speech recognition result determination step of determining whether or not the utterance vocabulary recognized by the speech recognition step is an utterance directed to the in-vehicle device;
In the speech recognition step, only when the speech recognition result determination step determines that the speech vocabulary speech-recognized by the speech recognition step is an utterance directed to the in-vehicle device, the speech recognition speech vocabulary is The speech recognition method, wherein the command conversion is passed to the positive.
JP2007155212A 2007-06-12 2007-06-12 Voice recognition device and voice recognition method Pending JP2008309864A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007155212A JP2008309864A (en) 2007-06-12 2007-06-12 Voice recognition device and voice recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007155212A JP2008309864A (en) 2007-06-12 2007-06-12 Voice recognition device and voice recognition method

Publications (1)

Publication Number Publication Date
JP2008309864A true JP2008309864A (en) 2008-12-25

Family

ID=40237550

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007155212A Pending JP2008309864A (en) 2007-06-12 2007-06-12 Voice recognition device and voice recognition method

Country Status (1)

Country Link
JP (1) JP2008309864A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014232289A (en) * 2013-05-30 2014-12-11 三菱電機株式会社 Guide voice adjustment device, guide voice adjustment method and guide voice adjustment program
WO2014208231A1 (en) * 2013-06-28 2014-12-31 株式会社ATR-Trek Voice recognition client device for local voice recognition
JP2015501106A (en) * 2011-12-07 2015-01-08 クゥアルコム・インコーポレイテッドQualcomm Incorporated Low power integrated circuit for analyzing digitized audio streams
JP2016076007A (en) * 2014-10-03 2016-05-12 株式会社Nttドコモ Interactive apparatus and interactive method
JPWO2015029304A1 (en) * 2013-08-29 2017-03-02 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America Speech recognition method and speech recognition apparatus
US9992745B2 (en) 2011-11-01 2018-06-05 Qualcomm Incorporated Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate
JP2022095759A (en) * 2013-02-07 2022-06-28 アップル インコーポレイテッド Voice trigger for digital assistant

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0497400A (en) * 1990-08-16 1992-03-30 Fujitsu Ten Ltd Voice recognition device
JP2001296891A (en) * 2000-04-14 2001-10-26 Mitsubishi Electric Corp Method and device for voice recognition
JP2002132290A (en) * 2000-10-24 2002-05-09 Kenwood Corp On-vehicle speech recognizer
JP2002372986A (en) * 2002-05-09 2002-12-26 Denso Corp Voice recognizing device and navigation system
JP2004069426A (en) * 2002-08-05 2004-03-04 Matsushita Electric Ind Co Ltd Navigation apparatus
JP2005157086A (en) * 2003-11-27 2005-06-16 Matsushita Electric Ind Co Ltd Speech recognition device
JP2005229420A (en) * 2004-02-13 2005-08-25 Toshiba Corp Voice input device
JP2005234332A (en) * 2004-02-20 2005-09-02 Honda Motor Co Ltd Electronic equipment controller

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0497400A (en) * 1990-08-16 1992-03-30 Fujitsu Ten Ltd Voice recognition device
JP2001296891A (en) * 2000-04-14 2001-10-26 Mitsubishi Electric Corp Method and device for voice recognition
JP2002132290A (en) * 2000-10-24 2002-05-09 Kenwood Corp On-vehicle speech recognizer
JP2002372986A (en) * 2002-05-09 2002-12-26 Denso Corp Voice recognizing device and navigation system
JP2004069426A (en) * 2002-08-05 2004-03-04 Matsushita Electric Ind Co Ltd Navigation apparatus
JP2005157086A (en) * 2003-11-27 2005-06-16 Matsushita Electric Ind Co Ltd Speech recognition device
JP2005229420A (en) * 2004-02-13 2005-08-25 Toshiba Corp Voice input device
JP2005234332A (en) * 2004-02-20 2005-09-02 Honda Motor Co Ltd Electronic equipment controller

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9992745B2 (en) 2011-11-01 2018-06-05 Qualcomm Incorporated Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate
US9564131B2 (en) 2011-12-07 2017-02-07 Qualcomm Incorporated Low power integrated circuit to analyze a digitized audio stream
US11810569B2 (en) 2011-12-07 2023-11-07 Qualcomm Incorporated Low power integrated circuit to analyze a digitized audio stream
JP2015501106A (en) * 2011-12-07 2015-01-08 クゥアルコム・インコーポレイテッドQualcomm Incorporated Low power integrated circuit for analyzing digitized audio streams
US11069360B2 (en) 2011-12-07 2021-07-20 Qualcomm Incorporated Low power integrated circuit to analyze a digitized audio stream
US10381007B2 (en) 2011-12-07 2019-08-13 Qualcomm Incorporated Low power integrated circuit to analyze a digitized audio stream
JP2022095759A (en) * 2013-02-07 2022-06-28 アップル インコーポレイテッド Voice trigger for digital assistant
JP7101322B2 (en) 2013-02-07 2022-07-14 アップル インコーポレイテッド Voice trigger for digital assistant
US11557310B2 (en) 2013-02-07 2023-01-17 Apple Inc. Voice trigger for a digital assistant
US11636869B2 (en) 2013-02-07 2023-04-25 Apple Inc. Voice trigger for a digital assistant
US11862186B2 (en) 2013-02-07 2024-01-02 Apple Inc. Voice trigger for a digital assistant
US12009007B2 (en) 2013-02-07 2024-06-11 Apple Inc. Voice trigger for a digital assistant
JP2014232289A (en) * 2013-05-30 2014-12-11 三菱電機株式会社 Guide voice adjustment device, guide voice adjustment method and guide voice adjustment program
CN105408953A (en) * 2013-06-28 2016-03-16 株式会社ATR-Trek Voice recognition client device for local voice recognition
JP2015011170A (en) * 2013-06-28 2015-01-19 株式会社ATR−Trek Voice recognition client device performing local voice recognition
WO2014208231A1 (en) * 2013-06-28 2014-12-31 株式会社ATR-Trek Voice recognition client device for local voice recognition
JPWO2015029304A1 (en) * 2013-08-29 2017-03-02 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America Speech recognition method and speech recognition apparatus
US10446151B2 (en) 2013-08-29 2019-10-15 Panasonic Intellectual Property Corporation Of America Speech recognition method and speech recognition apparatus
JP2016076007A (en) * 2014-10-03 2016-05-12 株式会社Nttドコモ Interactive apparatus and interactive method

Similar Documents

Publication Publication Date Title
JP2008309864A (en) Voice recognition device and voice recognition method
EP2894633B1 (en) Image display apparatus
US8005681B2 (en) Speech dialog control module
US8738368B2 (en) Speech processing responsive to a determined active communication zone in a vehicle
JP2009020423A (en) Speech recognition device and speech recognition method
JP6227209B2 (en) In-vehicle voice recognition device and in-vehicle device
US20200053611A1 (en) Wireless device connection handover
WO2012137263A1 (en) Voice recognition device and navigation device
US20060212291A1 (en) Speech recognition system, speech recognition method and storage medium
EP1493993A1 (en) Method and device for controlling a speech dialog system
US9812129B2 (en) Motor vehicle device operation with operating correction
JP2016161754A (en) Vehicle-mounted device
US11521612B2 (en) Vehicle control apparatus and method using speech recognition
WO2016157782A1 (en) Speech recognition system, speech recognition device, speech recognition method, and control program
CN111199735A (en) Vehicle-mounted device and voice recognition method
JP4104313B2 (en) Voice recognition device, program, and navigation system
US20070244705A1 (en) Electronic instrument
JP4056711B2 (en) Voice recognition device
US20060282268A1 (en) Method for a menu-based voice-operated device, and menu-based voice-operated device for realizing the method
JP3916861B2 (en) Voice recognition device
JP2019211599A (en) Voice recognition device, voice recognition method, and program
US20220415318A1 (en) Voice assistant activation system with context determination based on multimodal data
JP2008309865A (en) Voice recognition device and voice recognition method
US20190189119A1 (en) Electronic device
JP6996944B2 (en) Speech recognition system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100520

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110407

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110909

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111004

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120221