JP2007219207A - Speech recognition device - Google Patents
Speech recognition device Download PDFInfo
- Publication number
- JP2007219207A JP2007219207A JP2006040397A JP2006040397A JP2007219207A JP 2007219207 A JP2007219207 A JP 2007219207A JP 2006040397 A JP2006040397 A JP 2006040397A JP 2006040397 A JP2006040397 A JP 2006040397A JP 2007219207 A JP2007219207 A JP 2007219207A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- voice input
- speech
- person
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
Description
本発明は音声認識装置に関し、より詳細には、音声認識技術が採用され、使用者から発せられた音声を認識するための音声認識装置に関する。 The present invention relates to a speech recognition apparatus, and more particularly, to a speech recognition apparatus that employs speech recognition technology and recognizes speech emitted from a user.
音声認識装置は、様々な分野で用いられており、例えば、ナビゲーションシステムなどの車載機器に採用されている。運転者から発せられた音声がマイクロフォンで入力され、マイクロフォンで入力音声が電気信号へ変換される。電気信号へ変換された入力音声は音声処理部で解析され、運転者から発声されたコマンドが認識され、そしてその認識結果に従ってナビゲーション装置が動作することになる。 Voice recognition devices are used in various fields, and are used in in-vehicle devices such as navigation systems. The voice emitted from the driver is input by a microphone, and the input voice is converted into an electric signal by the microphone. The input voice converted into the electrical signal is analyzed by the voice processing unit, the command uttered by the driver is recognized, and the navigation device operates according to the recognition result.
音声認識装置においては、音声認識率の高さが非常に重要であるため、マイクロフォンで入力された音声に対する認識処理を行う期間である処理区間を特定することも大切になる。処理区間を特定せずに、常時認識処理を行うようにしてしまうと、同乗者との会話やカーステレオからの音楽、ノイズなどの影響を受けて誤動作を招くおそれがある。
そのため、従来の音声認識装置には、音声入力の際に使用者に操作される発話スイッチ(トークスイッチ)が設けられているものが多い。発話スイッチには、発話開始スイッチとプレストークスイッチとがある。
In a speech recognition apparatus, since a high speech recognition rate is very important, it is also important to specify a processing section that is a period for performing recognition processing on speech input by a microphone. If the recognition process is always performed without specifying the processing section, malfunction may occur due to the influence of conversation with passengers, music from the car stereo, noise, and the like.
For this reason, many conventional speech recognition devices are provided with an utterance switch (talk switch) that is operated by a user when inputting voice. The utterance switch includes an utterance start switch and a press talk switch.
発話開始スイッチは、使用者によって発話開始の直前に操作されるものであって、発話開始スイッチが操作されると、その操作直後からマイクロフォンで入力された音声に対する認識処理が行われることになる。
他方、プレストークスイッチは、使用者によって発話開始から終了まで押し続けられるものであって、プレストークスイッチが押下されている間、マイクロフォンで入力された音声に対する認識処理が行われることになる。
The utterance start switch is operated immediately before the start of utterance by the user. When the utterance start switch is operated, a recognition process is performed on the voice input from the microphone immediately after the operation.
On the other hand, the press talk switch is continuously pressed from the start to the end of the utterance by the user, and while the press talk switch is being pressed, the recognition process for the voice input by the microphone is performed.
しかしながら、このような音声認識装置では、使用者は発声の度に発話スイッチを操作しなければならず、非常に操作が煩雑になるという問題がある。特に、走行中の運転者による発話スイッチの操作は決して好ましいことではない。音声認識装置を採用するのであれば、手動操作を不要とするのが望ましい。 However, in such a speech recognition apparatus, the user must operate the speech switch every time he speaks, and there is a problem that the operation becomes very complicated. In particular, the operation of the speech switch by the driver while traveling is not preferable. If a voice recognition device is employed, it is desirable that manual operation is unnecessary.
このような問題を解決する技術として、例えば、下記の特許文献1に、使用者の顔がマイクロフォンの方を向いている場合や使用者の唇が動いたり、使用者の視線がマイクロフォンを見るといったような外観状態を検出して、使用者の発声の有無を判定し、使用者による発声が始まったと判定すると、音声認識を開始するようにした技術について開示されている。
As a technique for solving such a problem, for example, in
しかしながら、車両内に同乗者がいる場合など、その使用環境下において音声入力対象者以外の別の人間が存在する場合には、別の人間に話し掛けているのか、音声入力のためにマイクロフォンに向かって声を発しているのか区別がつかず、本来ならば必要がないにも拘らず、音声認識処理が開始され、誤動作を招くおそれがある。例えば、同乗者との会話で音声認識処理が開始されることが考えられる。
本発明は上記課題に鑑みなされたものであって、その使用環境下において、音声入力対象者以外の別の人間が存在しても、適切な音声認識を実現することのできる音声認識装置を提供することを目的としている。 The present invention has been made in view of the above problems, and provides a speech recognition device capable of realizing appropriate speech recognition even in the presence of another person other than the speech input target person. The purpose is to do.
上記目的を達成するために本発明に係る音声認識装置(1)は、音声入力対象者から発せられた音声を認識する音声認識装置において、音声入力対象者による発声の有無を判定する第1の判定手段と、音声入力対象者以外の者による発声の有無を判定する第2の判定手段と、音声認識を開始する音声認識開始条件が成立したか否かを判断する条件成立判断手段とを備えると共に、前記音声認識開始条件に、前記第1の判定手段に音声入力対象者による発声有りと判定されることと、音声入力対象者による発声から所定期間が経過するまで、前記第2の判定手段に音声入力対象者以外の者による発声有りと判定されないことと、が含まれていることを特徴としている。 In order to achieve the above object, a speech recognition device (1) according to the present invention is a speech recognition device that recognizes speech uttered by a speech input target person, and determines whether or not the speech input target person utters. A determination unit; a second determination unit that determines the presence or absence of utterance by a person other than the voice input target person; and a condition establishment determination unit that determines whether or not a voice recognition start condition for starting voice recognition is satisfied. Along with the voice recognition start condition, it is determined that there is utterance by the voice input target person in the first determination means, and the second determination means until a predetermined period has elapsed from the utterance by the voice input target person. Are not determined to be uttered by a person other than the voice input target person.
上記音声認識装置(1)によれば、音声認識を開始する音声認識開始条件に、音声入力対象者(例えば、運転者)が発声することが含まれているので、音声入力対象者の発声をトリガとして、音声認識を開始させることができる。従って、音声入力対象者にスイッチ押下などの手動操作を行わせなくても、音声入力対象者の所望するタイミングで音声認識を開始することができる。 According to the voice recognition device (1), the voice recognition start condition for starting voice recognition includes that the voice input target person (for example, the driver) speaks. Speech recognition can be started as a trigger. Therefore, voice recognition can be started at a timing desired by the voice input target person without causing the voice input target person to perform a manual operation such as pressing a switch.
また、前記音声認識開始条件に、音声入力対象者による発声から所定期間が経過するまで(例えば、発声終了から2秒経過するまで)、音声入力対象者以外の者(例えば、同乗者)が発声していないことが含まれているので、音声入力対象者の発声直後に音声入力対象者以外の者が発声した場合には、音声認識は開始されないことになる。 Moreover, a person other than the voice input target person (for example, a fellow passenger) speaks until the predetermined period has passed since the voice input target person uttered (for example, until 2 seconds have elapsed from the end of the utterance). Therefore, if a person other than the voice input target person speaks immediately after the voice input target person speaks, the voice recognition is not started.
音声入力対象者の発声直後に、音声入力対象者以外の者が発声する場合というのは、両者間で会話が交わされている可能性が高い。従って、音声入力対象者による発声が、音声入力対象者以外の者との間の会話の一部である可能性が高い場合には、音声認識は開始されないので、不要な時に音声認識が開始されるのを防止することができる。 When a person other than the voice input target person speaks immediately after the voice input target person speaks, there is a high possibility that a conversation is being exchanged between them. Therefore, when there is a high possibility that the utterance by the voice input target person is a part of the conversation with a person other than the voice input target person, the voice recognition is not started. Can be prevented.
例えば、下記のようなケースの場合、音声認識は開始されない。
1.音声入力対象者である運転者による発声。
2.上記1の発声より2秒以内に、音声入力対象者以外の者である同乗者による発声。
3.上記2の発声後の運転者による発声。
4.上記3の発声より2秒以内に、同乗者による発声。
For example, in the following cases, voice recognition is not started.
1. Speech by the driver who is the target of voice input.
2. Speech produced by a passenger who is not a voice input subject within 2 seconds from the speech of 1 above.
3. The utterance by the driver after the utterance of 2 above.
4). Speaking by passengers within 2 seconds of utterance 3 above.
また、本発明に係る音声認識装置(2)は、上記音声認識装置(1)において、音声入力手段で入力された音声に含まれる個人性情報に基づいて、発声主が音声入力対象者であるか否かを判断する発声主判断手段を備え、該発声主判断手段による判断結果に基づいて、前記第1の判定手段による判定、及び前記第2の判定手段による判定を行うように構成されていることを特徴としている。 Further, in the voice recognition device (2) according to the present invention, in the voice recognition device (1), the utterer is the voice input target person based on the personality information included in the voice input by the voice input means. A voicing main judgment means for judging whether or not, and based on the judgment result by the utterance main judgment means, the judgment by the first judgment means and the judgment by the second judgment means are made. It is characterized by being.
上記音声認識装置(2)によれば、音声入力手段で入力された音声に含まれる個人性情報に基づいて、発声主が音声入力対象者であるか否かが判断され、この判断結果に基づいて、音声入力対象者による発声の有無、及び音声入力対象者以外の者による発声の有無が判定される。個人性情報としては、例えば、声紋、ホルマント(声道の共振周波数)などが挙げられる。 According to the voice recognition device (2), it is determined whether or not the utterer is the voice input target person based on the personality information included in the voice input by the voice input means, and based on the determination result. Thus, the presence or absence of utterance by the voice input target person and the presence or absence of utterance by a person other than the voice input target person are determined. Examples of the personality information include a voice print, formant (resonance frequency of the vocal tract), and the like.
発声主が音声入力対象者である(又はその可能性が高い)と判断されれば、音声入力対象者が発声したと判定され、他方、発声主が音声入力対象者ではない(又はその可能性が高い)と判断されれば、音声入力対象者以外の者が発声したと判定されることになる。従って、音声入力対象者の音声に含まれる個人性情報があれば、これら判定を適切に行うことができる。例えば、音声入力対象者である運転者の声紋データがあれば、運転者の発声及び同乗者の発声を適切に判定することができる。 If it is determined that the utterer is a voice input target person (or the possibility is high), it is determined that the voice input target person uttered, while the utterance person is not the voice input target person (or the possibility). If it is determined that a person other than the voice input target person has uttered, it is determined. Therefore, if there is personality information included in the voice of the voice input target person, these determinations can be made appropriately. For example, if there is voiceprint data of a driver who is a voice input target, it is possible to appropriately determine the voice of the driver and the voice of the passenger.
また、本発明に係る音声認識装置(3)は、上記音声認識装置(1)において、音声入力手段で入力された音声から得られる音源方向に基づいて、発声主が音声入力対象者であるか否かを判断する発声主判断手段を備え、該発声主判断手段による判断結果に基づいて、前記第1の判定手段による判定、及び前記第2の判定手段による判定を行うように構成されていることを特徴としている。 Further, in the voice recognition device (3) according to the present invention, in the voice recognition device (1), based on the sound source direction obtained from the voice input by the voice input means, is the utterer the voice input target person? A voicing main judgment means for judging whether or not, and based on a judgment result by the utterance main judgment means, the judgment by the first judgment means and the judgment by the second judgment means are made. It is characterized by that.
上記音声認識装置(3)によれば、音声入力手段で入力された音声から得られる音源方向に基づいて、発声主が音声入力対象者であるか否かが判断され、この判断結果に基づいて、音声入力対象者による発声の有無、及び音声入力対象者以外の者による発声の有無が判定される。 According to the voice recognition device (3), it is determined whether or not the utterer is a voice input target person based on the sound source direction obtained from the voice input by the voice input means, and based on the determination result. The presence or absence of utterance by the voice input target person and the presence or absence of utterance by a person other than the voice input target person are determined.
発声主が音声入力対象者である(又はその可能性が高い)と判断されれば、音声入力対象者が発声したと判定され、他方、発声主が音声入力対象者ではない(又はその可能性が高い)と判断されれば、音声入力対象者以外の者が発声したと判定されることになる。従って、音声入力対象者がどの位置に存在するかを示すデータがあれば、これら判定を適切に行うことができる。例えば、運転者が音声入力対象者であれば、運転席の位置を示すデータがあれば、運転者の発声及び同乗者の発声を適切に判定することができる。 If it is determined that the utterer is a voice input target person (or the possibility is high), it is determined that the voice input target person uttered, while the utterance person is not the voice input target person (or the possibility). If it is determined that a person other than the voice input target person has uttered, it is determined. Therefore, if there is data indicating where the voice input target person exists, these determinations can be made appropriately. For example, if the driver is a voice input target, if there is data indicating the position of the driver's seat, the driver's voice and the passenger's voice can be appropriately determined.
また、本発明に係る音声認識装置(4)は、上記音声認識装置(1)において、画像入力手段で入力された画像から得られる音声入力対象者、もしくは音声入力対象者以外の者、あるいは音声入力対象者及び音声入力対象者以外の者の外観状態に基づいて、発声主が音声入力対象者であるか否かを判断する発声主判断手段を備え、該発声主判断手段による判断結果に基づいて、前記第1の判定手段による判定、及び前記第2の判定手段による判定を行うように構成されていることを特徴としている。 Further, the speech recognition device (4) according to the present invention is a speech input target person obtained from an image input by the image input means in the speech recognition device (1), a person other than the speech input target person, or a speech. Based on the appearance state of a person other than the input target person and the voice input target person, a voice main judgment means for judging whether or not the voice main person is the voice input target person is provided, and based on the judgment result by the voice main judgment means The determination by the first determination means and the determination by the second determination means are performed.
上記音声認識装置(4)によれば、画像入力手段で入力された音声から得られる音声入力対象者、もしくは音声入力対象者以外の者、あるいは音声入力対象者及び音声入力対象者以外の者の外観状態に基づいて、発声主が音声入力対象者であるか否かが判断され、この判断結果に基づいて、音声入力対象者による発声の有無、及び音声入力対象者以外の者による発声の有無が判定される。 According to the voice recognition device (4), the voice input target person obtained from the voice input by the image input means, the person other than the voice input target person, or the voice input target person and the person other than the voice input target person. Based on the appearance state, it is determined whether or not the utterer is a voice input target person. Based on the determination result, the presence or absence of utterance by the voice input target person and the utterance by a person other than the voice input target person Is determined.
顔がマイクロフォンの方を向いたり、唇が動くといったような外観状態は、その者が発声主である可能性が高い。例えば、マイクロフォンで発声が検知された時に、音声入力対象者の唇が動いていれば、発声主は音声入力対象者と判断することができ、他方、マイクロフォンで発声が検知された時に、音声入力対象者以外の者の唇が動いていれば、発声主は音声入力対象者以外の者と判断することができる。また、マイクロフォンで発声が検知された時に、音声入力対象者の唇が動いていなければ、発声主は音声入力対象者以外の者と判断することができる。 In the appearance state where the face faces the microphone or the lips move, the person is likely to be the main speaker. For example, if the lip of the voice input target person is moving when the utterance is detected with the microphone, the utterer can be determined as the voice input target person, while the voice input is performed when the utterance is detected with the microphone. If the lips of a person other than the target person are moving, the utterer can be determined to be a person other than the voice input target person. Further, when the utterance of the voice input target person is not moving when the utterance is detected by the microphone, the utterer can be determined to be a person other than the voice input target person.
発声主が音声入力対象者である(又はその可能性が高い)と判断されれば、音声入力対象者が発声したと判定され、他方、発声主が音声入力対象者ではない(又はその可能性が高い)と判断されれば、音声入力対象者以外の者が発声したと判定されることになる。従って、音声入力対象者、もしくは音声入力対象者以外の者、あるいは音声入力対象者及び音声入力対象者以外の者の外観状態を監視することによって、これら判定を適切に行うことができる。例えば、音声入力対象者である運転者の顔を監視すれば、運転者の発声及び同乗者の発声を適切に判定することができる。 If it is determined that the utterer is a voice input target person (or the possibility is high), it is determined that the voice input target person uttered, while the utterance person is not the voice input target person (or the possibility). If it is determined that a person other than the voice input target person has uttered, it is determined. Therefore, these determinations can be made appropriately by monitoring the appearance of the voice input target person, the person other than the voice input target person, or the voice input target person and the person other than the voice input target person. For example, if the face of the driver who is the voice input target is monitored, the utterance of the driver and the utterance of the passenger can be appropriately determined.
また、本発明に係る音声認識装置(5)は、上記音声認識装置(1)〜(4)のいずれかにおいて、音声入力対象者による発声から前記所定期間が経過するまでに、前記第2の判定手段により音声入力対象者以外の者が発声したと判定された場合、前記音声認識開始条件を成立させない保留期間を設定する保留期間設定手段を備えていることを特徴としている。 In addition, the speech recognition device (5) according to the present invention may be configured such that, in any of the speech recognition devices (1) to (4), the second period until the predetermined period elapses after the speech is input by the speech input target person. When it is determined by the determination means that a person other than the voice input target person has uttered, there is provided a holding period setting means for setting a holding period in which the voice recognition start condition is not satisfied.
音声入力対象者による発声から前記所定期間が経過するまで、音声入力対象者以外の者による発声が無かったとしても、それまで両者の間で会話が交わされていたのであれば、その時の音声入力対象者による発声は、操作対象機器に対するものではなく、会話の一部である可能性が高い。 Even if there was no utterance by a person other than the voice input target until the predetermined period has passed since the voice by the voice input target person, if there was a conversation between the two until then, the voice input at that time The utterance by the target person is not for the operation target device but is likely to be part of the conversation.
例えば、下記のようなケースが考えられる。
1.音声入力対象者である運転者による発声。
2.上記1の発声より2秒以内に、音声入力対象者以外の者である同乗者による発声。
3.上記2の発声より2秒以内に、運転者による発声。
4.上記3の発声から2秒経過しても、同乗者による発声無し。
上記3での運転者による発声は、操作対象機器に対するものではなく、会話の一部である可能性が高い。
For example, the following cases can be considered.
1. Speech by the driver who is the target of voice input.
2. Speech produced by a passenger who is not a voice input subject within 2 seconds from the speech of 1 above.
3. The utterance by the driver within 2 seconds from the
4). Even if 2 seconds have passed since the above utterance 3, there is no utterance by the passenger.
The utterance by the driver in the above 3 is not for the operation target device but is likely to be part of the conversation.
上記音声認識装置(5)によれば、音声入力対象者による発声から前記所定期間が経過するまでに、音声入力対象者以外の者が発声したと判定された場合(すなわち、両者間で会話が交わされている可能性が高い場合)、前記音声認識開始条件を成立させない保留期間(例えば、10秒間)が設定される。これにより、上記3での運転者による発声で音声認識が開始されないようにすることができ、不必要な音声認識の開始を防止することができる。 According to the voice recognition device (5), when it is determined that a person other than the voice input target person has uttered before the predetermined period has elapsed since the voice input target person uttered (that is, a conversation between the two is performed). When there is a high possibility that the voice recognition is exchanged, a holding period (for example, 10 seconds) in which the voice recognition start condition is not satisfied is set. Thereby, it is possible to prevent the voice recognition from being started by the utterance by the driver in the above 3, and to prevent unnecessary voice recognition from starting.
以下、本発明に係る音声認識装置の実施の形態を図面に基づいて説明する。図1は、実施の形態(1)に係る音声認識装置が採用されたナビゲーションシステムの要部を概略的に示したブロック図である。図中1は、音声認識装置を示しており、音声認識装置1はマイクロフォン6からの音声信号をディジタル信号に変換するA/D変換器2と、マイクロフォン6から得られる数秒程度の(ディジタル信号に変換後の)音声信号を記憶するFIFO(先入れ先出し)タイプのバッファメモリ3と、音声入力対象者である運転手の音声に含まれる個人性情報(例えば、声紋データ)が記憶されたEEPROM4と、CPUやROM、RAMなどを有した音声処理部5とを含んで構成されている。
Embodiments of a speech recognition apparatus according to the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram schematically showing a main part of a navigation system in which the speech recognition apparatus according to the embodiment (1) is employed. In the figure,
音声処理部5には、マイクロフォン6で入力された音声に含まれる個人性情報、及びEEPROM4に記憶されている個人性情報に基づいて、発声主が運転者(音声入力対象者)であるか否かを判断する機能(話者認識機能)や、マイクロフォン6からの音声信号に対する音声認識処理を行う機能などが装備されている。また、音声処理部5で認識処理されることによって得られた音声コマンドに応じた信号が車内通信でナビゲーション装置7へ送信されるようになっている。
図2に示したように、マイクロフォン6は車両8の運転席9及び助手席10の前方略中央部に設置され、運転者により発せられた音声及び同乗者により発せられた音声の両方を適切に取得することができるようになっている。
The
As shown in FIG. 2, the
次に、実施の形態(1)に係る音声認識装置1における音声処理部5の行う処理動作[1]を図3に示したフローチャートに基づいて説明する。なお、この処理動作[1]はナビゲーション装置7からの起動要求、又はイグニッションスイッチONを受けて行われる動作である。
Next, the processing operation [1] performed by the
まず、マイクロフォン6で音声の入力があったか否か(例えば、ある大きさ以上の音量の音声入力があったか否か)を判断し(ステップS1)、音声入力があったと判断すれば、入力音声に含まれる個人性情報、及びEEPROM4に記憶されている(運転者の音声に含まれる)個人性情報に基づいて、話者認識処理を行い(ステップS2)、発声主が音声入力対象者の運転者であるか否かを判断する(ステップS3)。一方、音声入力は無いと判断すれば、そのままステップS1へ戻る。 First, it is determined whether or not a sound is input from the microphone 6 (for example, whether or not a sound having a volume of a certain level or more is input) (step S1). If it is determined that a sound is input, it is included in the input sound. Speaker recognition processing is performed based on the personality information to be recorded and the personality information stored in the EEPROM 4 (included in the driver's voice) (step S2). It is determined whether or not there is (step S3). On the other hand, if it is determined that there is no voice input, the process directly returns to step S1.
ステップS3において、発声主が運転者であると判断すれば、つまり音声認識開始条件の1つが成立したと判断すれば、次に、マイクロフォン6での音声入力が終了したか否か(例えば、ある大きさ以上の音量の音声入力がなくなったか否か)を判断する(ステップS4)。一方、発声主が運転者でないと判断すれば、そのままステップS1へ戻る。
If it is determined in step S3 that the speaker is the driver, that is, if it is determined that one of the voice recognition start conditions is satisfied, next, whether or not the voice input with the
ステップS4において、音声入力が終了した(すなわち、運転者による発声が終了した)と判断すれば、次に、マイクロフォン6で音声の入力があったか否か(すなわち、改めて別の音声入力があったか否か)を判断する(ステップS5)。
音声入力があったと判断すれば、入力音声に含まれる個人性情報、及びEEPROM4に記憶されている(運転者の音声に含まれる)個人性情報に基づいて、話者認識処理を行い(ステップS6)、発声主が同乗者(音声入力対象者以外の者)であるか否かを判断する(ステップS7)。
If it is determined in step S4 that the voice input has been completed (that is, the utterance by the driver has been completed), it is next determined whether there has been a voice input with the microphone 6 (that is, whether there has been another voice input). ) Is determined (step S5).
If it is determined that there is a voice input, speaker recognition processing is performed based on the personality information included in the input voice and the personality information stored in the EEPROM 4 (included in the driver's voice) (step S6). ), It is determined whether or not the speaker is a passenger (a person other than the voice input target person) (step S7).
発声主は同乗者ではないと判断すれば、次に、運転者の発声終了から2秒経過しているか否かを判断する(ステップS8)。ステップS5において、音声入力が無いと判断した場合にも、ステップS8へ進み、上記と同様の判断処理を行う。ここで、運転者の発声終了から2秒経過していると判断されるのは、運転者の発声終了から2秒経過するまでに、同乗者が発声していない場合である。つまり、運転者の発声直後に、同乗者が発声していない場合である。
運転者による発声直後に同乗者が発声する場合というのは、両者間で会話が交わされている可能性が高い。換言すれば、その直後に同乗者による発声の無い運転者の発声は、会話ではなく、ナビゲーション装置7に対する音声操作の意思表示である可能性が高い。
If it is determined that the speaker is not a passenger, it is then determined whether or not 2 seconds have elapsed since the driver's end of speaking (step S8). If it is determined in step S5 that there is no voice input, the process proceeds to step S8 and the same determination process as described above is performed. Here, it is determined that 2 seconds have elapsed from the end of the driver's utterance when the passenger does not utter until 2 seconds have elapsed from the end of the driver's utterance. That is, it is a case where the passenger does not speak immediately after the driver speaks.
When the passenger speaks immediately after the driver speaks, there is a high possibility that a conversation is being exchanged between the two. In other words, there is a high possibility that the driver's utterance without the utterance by the passenger immediately after that is not a conversation but a voice operation intention display for the
ステップS8において、運転者の発声終了から2秒経過していると判断すれば、つまり音声認識開始条件の1つが成立したと判断すれば、次に、バッファメモリ3から音声信号を読み出して、その音声信号に対する認識処理を行い(ステップS9)、認識処理によって得られた音声コマンドに応じた信号を車内通信でナビゲーション装置7へ送信する(ステップS10)。
In step S8, if it is determined that 2 seconds have elapsed since the end of the driver's utterance, that is, if it is determined that one of the voice recognition start conditions is satisfied, then the voice signal is read from the buffer memory 3, A recognition process is performed on the voice signal (step S9), and a signal corresponding to the voice command obtained by the recognition process is transmitted to the
その後、音声認識終了条件が成立したか否かを判断し(ステップS11)、音声認識終了条件が成立していると判断すれば、ステップS1へ戻り、音声認識終了条件が成立していないと判断すれば、ステップS9へ戻り、音声認識処理を継続する。なお、音声認識終了条件としては、例えば、音声入力がある時間以上継続して検出されないことが挙げられる。一方、ステップS8において、運転者の発声終了から2秒経過していないと判断すればステップS5へ戻る。 Thereafter, it is determined whether or not the voice recognition end condition is satisfied (step S11). If it is determined that the voice recognition end condition is satisfied, the process returns to step S1, and it is determined that the voice recognition end condition is not satisfied. If it does, it will return to step S9 and will continue a speech recognition process. Note that the voice recognition end condition includes, for example, that voice input is not continuously detected for a certain period of time. On the other hand, if it is determined in step S8 that 2 seconds have not elapsed since the end of the driver's speech, the process returns to step S5.
また、ステップS7において、発声主は同乗者であると判断すれば、つまり運転者の発声終了から2秒経過するまでに同乗者が発声したと判断すれば、運転者の発声は両者の間での会話の一部である可能性が高い(すなわち、ナビゲーション装置7に対する音声操作の意思表示である可能性は低い)ので、音声認識開始条件は不成立として、ステップS1へ戻る。 In step S7, if it is determined that the speaker is the passenger, that is, if it is determined that the passenger has spoken within 2 seconds after the end of the driver's speech, the driver's speech is Therefore, it is determined that the voice recognition start condition is not satisfied, and the process returns to step S1.
上記実施の形態(1)に係る音声認識装置によれば、音声認識を開始する音声認識開始条件に、音声入力対象者(運転者)が発声したことが含まれているので、音声入力対象者の発声をトリガとして、音声認識を開始させることができる。従って、音声入力対象者にスイッチ押下などの手動操作を行わせなくても、音声入力対象者の所望するタイミングで音声認識を開始することができる。 According to the voice recognition device according to the above embodiment (1), since the voice recognition start condition for starting voice recognition includes that the voice input target person (driver) uttered, the voice input target person Voice recognition can be started with the utterance of. Therefore, voice recognition can be started at a timing desired by the voice input target person without causing the voice input target person to perform a manual operation such as pressing a switch.
また、前記音声認識開始条件に、音声入力対象者による発声終了から2秒経過するまで、音声入力対象者以外の者(同乗者)が発声していないことが含まれているので、音声入力対象者の発声直後に、音声入力対象者以外の者が発声した場合には、音声認識は開始されないことになる。 In addition, since the voice recognition start condition includes that a person other than the voice input target person (passenger) does not utter until two seconds have elapsed from the end of the utterance by the voice input target person. If a person other than the voice input target person utters immediately after the person utters, the speech recognition is not started.
音声入力対象者の発声直後に、音声入力対象者以外の者が発声する場合というのは、両者間で会話が交わされている可能性が高い。従って、音声入力対象者による発声が、音声入力対象者以外の者との間での会話の一部である可能性が高い場合には、音声認識は開始されないので、不要な時に音声認識が開始されるのを防止することができる。 When a person other than the voice input target person speaks immediately after the voice input target person speaks, there is a high possibility that a conversation is being exchanged between them. Therefore, when there is a high possibility that the utterance by the voice input target person is part of a conversation with a person other than the voice input target person, the voice recognition is not started. Can be prevented.
図4は、実施の形態(2)に係る音声認識装置が採用されたナビゲーションシステムの要部を概略的に示したブロック図である。図中21は、音声認識装置を示しており、音声認識装置21はマイクロフォン26、27からの音声信号をディジタル信号に変換するA/D変換器22、23と、マイクロフォン26、27から得られる数秒程度の(ディジタル信号に変換後の)音声信号を記憶するFIFOタイプのバッファメモリ24と、CPUやROM、RAMなどを有した音声処理部25とを含んで構成されている。
FIG. 4 is a block diagram schematically showing a main part of a navigation system in which the speech recognition apparatus according to the embodiment (2) is employed. In the figure,
音声処理部25には、マイクロフォン26、27で入力された音声から音源方向を特定する機能や、マイクロフォン26、27からの音声信号に対する音声認識処理を行う機能などが装備されている。また、音声処理部25で認識処理されることによって得られた音声コマンドに応じた信号が車内通信でナビゲーション装置7へ送信されるようになっている。
The
マイクロフォン26、27は指向性を有しており、図5に示したように、マイクロフォン26は車両8の助手席10の前方にその指向性が運転席9を向くように設置され、マイクロフォン27は車両8の運転席9の前方にその指向性が助手席10を向くように設置され、運転者により発せられた音声がマイクロフォン26で、同乗者により発せられた音声がマイクロフォン27で適切に取得することができるようになっている。
The
次に、実施の形態(2)に係る音声認識装置21における音声処理部25の行う処理動作[2]を図6に示したフローチャートに基づいて説明する。なお、この処理動作[2]はナビゲーション装置7からの起動要求、又はイグニッションスイッチONを受けて行われる動作である。
Next, the processing operation [2] performed by the
まず、マイクロフォン26、27で音声の入力があったか否か(例えば、ある大きさ以上の音量の音声入力があったか否か)を判断し(ステップS21)、音声入力があったと判断すれば、マイクロフォン26、27で入力された音声からその音源方向を特定する処理を行い(ステップS22)、発声主が音声入力対象者の運転者であるか否かを判断する(ステップS23)。一方、音声入力は無いと判断すれば、そのままステップS21へ戻る。
First, it is determined whether or not a sound is input from the
マイクロフォン26へ入力される音量の方が、マイクロフォン27へ入力される音量よりも大きい場合、音源方向は運転席9の方向であると判断することができ、その逆に、マイクロフォン26へ入力される音量の方が、マイクロフォン27へ入力される音量よりも小さい場合、音源方向は助手席10の方向であると判断することができる。
When the volume input to the
ステップS23において、発声主が運転者であると判断すれば、つまり音声認識開始条件の1つが成立したと判断すれば、次に、マイクロフォン26、27での音声入力が終了したか否か(例えば、ある大きさ以上の音量の音声入力がなくなったか否か)を判断する(ステップS24)。一方、発声主が運転者でないと判断すれば、そのままステップS21へ戻る。
If it is determined in step S23 that the speaker is the driver, that is, if it is determined that one of the voice recognition start conditions is satisfied, then whether or not the voice input with the
ステップS24において、音声入力が終了した(すなわち、運転者による発声が終了した)と判断すれば、次に、マイクロフォン26、27で音声の入力があったか否か(すなわち、改めて別の音声入力があったか否か)を判断する(ステップS25)。
音声入力があったと判断すれば、マイクロフォン26、27で入力された音声からその音源方向を特定する処理を行い(ステップS26)、発声主が同乗者(音声入力対象者以外の者)であるか否かを判断する(ステップS27)。
If it is determined in step S24 that the voice input has been completed (that is, the utterance by the driver has been completed), next, whether or not there has been a voice input by the
If it is determined that there is a voice input, a process of specifying the sound source direction from the voices input from the
発声主は同乗者ではないと判断すれば、次に、運転者の発声終了から2秒経過しているか否かを判断する(ステップS28)。ステップS25において、音声入力が無いと判断した場合にも、ステップS28へ進み、上記と同様の判断処理を行う。ここで、運転者の発声終了から2秒経過していると判断されるのは、運転者の発声終了から2秒経過するまでに、同乗者が発声していない場合である。つまり、運転者の発声直後に、同乗者が発声していない場合である。
運転者による発声直後に同乗者が発声する場合というのは、両者間で会話が交わされている可能性が高い。換言すれば、その直後に同乗者による発声の無い運転者の発声は、会話ではなく、ナビゲーション装置7に対する音声操作の意思表示である可能性が高い。
If it is determined that the speaker is not a passenger, it is then determined whether 2 seconds have elapsed since the driver's utterance was completed (step S28). If it is determined in step S25 that there is no voice input, the process proceeds to step S28, and the same determination process as described above is performed. Here, it is determined that 2 seconds have elapsed from the end of the driver's utterance when the passenger does not utter until 2 seconds have elapsed from the end of the driver's utterance. That is, it is a case where the passenger does not speak immediately after the driver speaks.
When the passenger speaks immediately after the driver speaks, there is a high possibility that a conversation is being exchanged between the two. In other words, there is a high possibility that the driver's utterance without the utterance by the passenger immediately after that is not a conversation but a voice operation intention display for the
ステップS28において、運転者の発声終了から2秒経過していると判断すれば、つまり音声認識開始条件の1つが成立したと判断すれば、次に、バッファメモリ24から音声信号を読み出して、その音声信号に対する認識処理を行い(ステップS29)、認識処理によって得られた音声コマンドに応じた信号を車内通信でナビゲーション装置7へ送信する(ステップS30)。
In step S28, if it is determined that two seconds have elapsed since the end of the driver's utterance, that is, if it is determined that one of the voice recognition start conditions is satisfied, then the voice signal is read from the
その後、音声認識終了条件が成立したか否かを判断し(ステップS31)、音声認識終了条件が成立していると判断すれば、ステップS21へ戻り、音声認識終了条件が成立していないと判断すれば、ステップS29へ戻り、音声認識処理を継続する。なお、音声認識終了条件としては、例えば、音声入力がある時間以上継続して検出されないことが挙げられる。一方、ステップS28において、運転者の発声終了から2秒経過していないと判断すればステップS25へ戻る。 Thereafter, it is determined whether or not the voice recognition end condition is satisfied (step S31). If it is determined that the voice recognition end condition is satisfied, the process returns to step S21, and it is determined that the voice recognition end condition is not satisfied. If it does, it will return to step S29 and will continue a speech recognition process. Note that the voice recognition end condition includes, for example, that voice input is not continuously detected for a certain period of time. On the other hand, if it is determined in step S28 that 2 seconds have not elapsed since the end of the driver's speech, the process returns to step S25.
また、ステップS27において、発声主は同乗者であると判断すれば、つまり運転者の発声終了から2秒経過するまでに同乗者が発声したと判断すれば、運転者の発声は両者の間での会話の一部である可能性が高い(すなわち、ナビゲーション装置7に対する音声操作の意思表示である可能性は低い)ので、音声認識開始条件は不成立として、ステップS21へ戻る。 In step S27, if it is determined that the speaker is the passenger, that is, if it is determined that the passenger has spoken within 2 seconds from the end of the driver's speech, the driver's speech is between the two. Therefore, since the voice recognition start condition is not satisfied, the process returns to step S21.
図7は、実施の形態(3)に係る音声認識装置が採用されたナビゲーションシステムの要部を概略的に示したブロック図である。図中31は、音声認識装置を示しており、音声認識装置31はマイクロフォン36からの音声信号をディジタル信号に変換するA/D変換器32と、マイクロフォン36から得られる数秒程度の(ディジタル信号に変換後の)音声信号を記憶するFIFOタイプのバッファメモリ33と、CPUやROM、RAMなどを有した音声処理部34と、CPUやROM、RAMなどを有し、CCDカメラ37からの画像データを処理する画像処理部35とを含んで構成されている。
FIG. 7 is a block diagram schematically showing a main part of a navigation system in which the speech recognition apparatus according to the embodiment (3) is employed. In the figure,
音声処理部34には、マイクロフォン36からの音声信号に対する音声認識処理を行う機能などが装備されている。また、音声処理部34で認識処理されることによって得られた音声コマンドに応じた信号が車内通信でナビゲーション装置7へ送信されるようになっている。画像処理部35には、CCDカメラ37から得られる画像データに基づいて、運転者及び同乗者の外観状態(特に唇の動き)を監視し、発声主が音声入力対象者の運転者、同乗者のいずれであるのかを特定する機能などが装備されている。
The
マイクロフォン36は指向性を有しており、図8に示したように、車両8の運転席9の前方にその指向性が運転席9を向くように設置され、運転者により発せられた音声を適切に取得することができるようになっている。またCCDカメラ37は運転席9及び助手席10の前方中央部に設置され、運転者及び同乗者の外観状態を撮影することができるようになっている。
The
次に、実施の形態(3)に係る音声認識装置31における音声処理部34の行う処理動作[3]を図9に示したフローチャートに基づいて説明する。なお、この処理動作[3]はナビゲーション装置7からの起動要求、又はイグニッションスイッチONを受けて行われる動作である。
Next, the processing operation [3] performed by the
まず、マイクロフォン36で音声の入力があったか否か(例えば、ある大きさ以上の音量の音声入力があったか否か)を判断し(ステップS41)、音声入力があったと判断すれば、画像処理部35へ発声主特定情報の送信を要求し(ステップS42)、画像処理部35から送られてきた発声主特定情報に基づいて、発声主が音声入力対象者の運転者であるか否かを判断する(ステップS43)。一方、音声入力は無いと判断すれば、そのままステップS41へ戻る。
First, it is determined whether or not a sound is input from the microphone 36 (for example, whether or not a sound having a volume higher than a certain level is input) (step S41). If it is determined that a sound is input, the
ステップS43において、発声主が運転者であると判断すれば、つまり音声認識開始条件の1つが成立したと判断すれば、次に、マイクロフォン36での音声入力が終了したか否か(例えば、ある大きさ以上の音量の音声入力がなくなったか否か)を判断する(ステップS44)。一方、発声主が運転者でないと判断すれば、そのままステップS41へ戻る。
If it is determined in step S43 that the speaker is the driver, that is, if it is determined that one of the voice recognition start conditions is satisfied, then whether or not the voice input with the
ステップS44において、音声入力が終了した(すなわち、運転者による発声が終了した)と判断すれば、次に、マイクロフォン36で音声の入力があったか否か(すなわち、改めて別の音声入力があったか否か)を判断する(ステップS45)。
音声入力があったと判断すれば、画像処理部35へ発声主特定情報の送信を要求し(ステップS46)、画像処理部35から送られてきた発声主特定情報に基づいて、発声主が同乗者(音声入力対象者以外の者)であるか否かを判断する(ステップS47)。
If it is determined in step S44 that the voice input has ended (that is, the utterance by the driver has ended), next, whether or not there has been a voice input with the microphone 36 (that is, whether another voice input has been made again). ) Is determined (step S45).
If it is determined that there has been a voice input, the
発声主は同乗者ではないと判断すれば、次に、運転者の発声終了から2秒経過しているか否かを判断する(ステップS48)。ステップS45において、音声入力が無いと判断した場合にも、ステップS48へ進み、上記と同様の判断処理を行う。ここで、運転者の発声終了から2秒経過していると判断されるのは、運転者の発声終了から2秒経過するまでに、同乗者が発声していない場合である。つまり、運転者の発声直後に、同乗者が発声していない場合である。
運転者による発声直後に同乗者が発声する場合というのは、両者間で会話が交わされている可能性が高い。換言すれば、その直後に同乗者による発声の無い運転者の発声は、会話ではなく、ナビゲーション装置7に対する音声操作の意思表示である可能性が高い。
If it is determined that the speaker is not a fellow passenger, it is then determined whether or not 2 seconds have elapsed since the end of the driver's utterance (step S48). If it is determined in step S45 that there is no voice input, the process proceeds to step S48 and the same determination process as described above is performed. Here, it is determined that 2 seconds have elapsed from the end of the driver's utterance when the passenger does not utter until 2 seconds have elapsed from the end of the driver's utterance. That is, it is a case where the passenger does not speak immediately after the driver speaks.
When the passenger speaks immediately after the driver speaks, there is a high possibility that a conversation is being exchanged between the two. In other words, there is a high possibility that the driver's utterance without the utterance by the passenger immediately after that is not a conversation but a voice operation intention display for the
ステップS48において、運転者の発声終了から2秒経過していると判断すれば、つまり音声認識開始条件の1つが成立したと判断すれば、次に、バッファメモリ33から音声信号を読み出して、その音声信号に対する認識処理を行い(ステップS49)、認識処理によって得られた音声コマンドに応じた信号を車内通信でナビゲーション装置7へ送信する(ステップS50)。
If it is determined in step S48 that two seconds have elapsed since the end of the driver's utterance, that is, if it is determined that one of the voice recognition start conditions is satisfied, the voice signal is then read from the
その後、音声認識終了条件が成立したか否かを判断し(ステップS51)、音声認識終了条件が成立していると判断すれば、ステップS41へ戻り、音声認識終了条件が成立していないと判断すれば、ステップS49へ戻り、音声認識処理を継続する。なお、音声認識終了条件としては、例えば、音声入力がある時間以上継続して検出されないことが挙げられる。一方、ステップS48において、運転者の発声終了から2秒経過していないと判断すればステップS45へ戻る。 Thereafter, it is determined whether or not the voice recognition end condition is satisfied (step S51). If it is determined that the voice recognition end condition is satisfied, the process returns to step S41, and it is determined that the voice recognition end condition is not satisfied. Then, the process returns to step S49 and the voice recognition process is continued. Note that the voice recognition end condition includes, for example, that voice input is not continuously detected for a certain period of time. On the other hand, if it is determined in step S48 that 2 seconds have not elapsed since the end of the driver's speech, the process returns to step S45.
また、ステップS47において、発声主は同乗者であると判断すれば、つまり運転者の発声終了から2秒経過するまでに同乗者が発声したと判断すれば、運転者の発声は両者の間での会話の一部である可能性が高い(すなわち、ナビゲーション装置7に対する音声操作の意思表示である可能性は低い)ので、音声認識開始条件は不成立として、ステップS41へ戻る。 In step S47, if it is determined that the speaker is the passenger, that is, if it is determined that the passenger has spoken within 2 seconds from the end of the driver's speech, the driver's speech is Therefore, since the voice recognition start condition is not satisfied, the process returns to step S41.
上記実施の形態(1)〜(3)に係る音声認識装置では、音声入力対象者である運転者の発声直後に、同乗者による発声があると(ステップS7、S27、S47で「Y」と判断)、音声認識開始条件は不成立として、ステップS1、S21、S41へ戻るようにしているが、別の実施の形態に係る音声認識装置では、例えば、図10に示したように、音声入力対象者である運転者の発声直後に、同乗者による発声があった場合、ステップS7Aへ進んで保留するいった、保留期間(例えば、10秒)を設けるようにしても良い。このような保留期間を設けるのは、下記のようなケースでの会話による音声認識処理の開始を防止するためである。 In the speech recognition apparatuses according to the above embodiments (1) to (3), if there is a utterance by the passenger immediately after the utterance of the driver who is the voice input target (“Y” in steps S7, S27, and S47) Judgment), the voice recognition start condition is not established, and the process returns to steps S1, S21, and S41. However, in the voice recognition device according to another embodiment, for example, as shown in FIG. If there is an utterance by the passenger immediately after the driver's utterance, a suspension period (for example, 10 seconds) may be provided in which the process proceeds to step S7A and is suspended. The reason for providing such a holding period is to prevent the start of speech recognition processing by conversation in the following cases.
運転者による発声直後に、同乗者による発声が無かったとしても、それまで両者の間で会話が交わされていたのであれば、その時の運転者による発声は、ナビゲーション装置7に対するものではなく、同乗者への応答である可能性が高い。例えば、下記のようなケースが考えられる。
1.運転者による発声。
2.上記1の発声より2秒以内に、同乗者による発声。
3.上記2の発声より2秒以内に、運転者による発声。
4.上記3の発声から2秒経過しても、同乗者による発声無し。
上記3での運転者による発声は、ナビゲーション装置7に対するものではなく、同乗者に対する応答である可能性が高い。
Even if there is no utterance by the passenger immediately after the utterance by the driver, the utterance by the driver at that time is not for the
1. Speaking by the driver.
2. Speaking by passengers within 2 seconds of
3. The utterance by the driver within 2 seconds from the
4). Even if 2 seconds have passed since the above utterance 3, there is no utterance by the passenger.
It is highly possible that the utterance by the driver in the above 3 is not a response to the
1、21、31 音声認識装置
2、22、23、32 A/D変換器
3、24、33 バッファメモリ
4 EEPROM
5、25、34 音声処理部
6、26、27、36 マイクロフォン
7 ナビゲーション装置
35 画像処理部
37 CCDカメラ
1, 21, 31
5, 25, 34
Claims (5)
音声入力対象者による発声の有無を判定する第1の判定手段と、
音声入力対象者以外の者による発声の有無を判定する第2の判定手段と、
音声認識を開始する音声認識開始条件が成立したか否かを判断する条件成立判断手段とを備えると共に、
前記音声認識開始条件に、前記第1の判定手段に音声入力対象者による発声有りと判定されることと、
音声入力対象者による発声から所定期間が経過するまで、前記第2の判定手段に音声入力対象者以外の者による発声有りと判定されないことと、が含まれていることを特徴とする音声認識装置。 In a speech recognition apparatus that recognizes speech emitted from a speech input target person,
First determination means for determining presence or absence of utterance by a voice input target person;
Second determination means for determining the presence or absence of utterance by a person other than the voice input target person;
A condition establishment determination means for determining whether or not a voice recognition start condition for starting voice recognition is satisfied;
The voice recognition start condition is determined to be uttered by a voice input target person in the first determination means;
The speech recognition apparatus characterized in that the second determination means does not determine that there is a utterance by a person other than the speech input subject until a predetermined period has elapsed since the speech by the speech input subject. .
該発声主判断手段による判断結果に基づいて、前記第1の判定手段による判定、及び前記第2の判定手段による判定を行うように構成されていることを特徴とする請求項1記載の音声認識装置。 Based on the personality information included in the voice input by the voice input means, the voice judgment means for judging whether or not the voice is the voice input target person,
The speech recognition according to claim 1, wherein the determination by the first determination unit and the determination by the second determination unit are performed based on a determination result by the main utterance determination unit. apparatus.
該発声主判断手段による判断結果に基づいて、前記第1の判定手段による判定、及び前記第2の判定手段による判定を行うように構成されていることを特徴とする請求項1記載の音声認識装置。 Based on the sound source direction obtained from the voice input by the voice input means, comprises a speaker main judgment means for judging whether or not the voice owner is a voice input target person,
The speech recognition according to claim 1, wherein the determination by the first determination unit and the determination by the second determination unit are performed based on a determination result by the main utterance determination unit. apparatus.
該発声主判断手段による判断結果に基づいて、前記第1の判定手段による判定、及び前記第2の判定手段による判定を行うように構成されていることを特徴とする請求項1記載の音声認識装置。 Based on the appearance of the voice input target obtained from the image input means, the person other than the voice input target, or the voice input target and the person other than the voice input target, the speaker speaks. It has a utterance main judgment means for judging whether or not it is a target person,
The speech recognition according to claim 1, wherein the determination by the first determination unit and the determination by the second determination unit are performed based on a determination result by the main utterance determination unit. apparatus.
前記音声認識開始条件を成立させない保留期間を設定する保留期間設定手段を備えていることを特徴とする請求項1〜4のいずれかの項に記載の音声認識装置。 When it is determined by the second determination means that a person other than the voice input target person has uttered before the predetermined period has elapsed since the voice input target person uttered,
The speech recognition apparatus according to claim 1, further comprising a holding period setting unit that sets a holding period in which the voice recognition start condition is not satisfied.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006040397A JP2007219207A (en) | 2006-02-17 | 2006-02-17 | Speech recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006040397A JP2007219207A (en) | 2006-02-17 | 2006-02-17 | Speech recognition device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007219207A true JP2007219207A (en) | 2007-08-30 |
Family
ID=38496582
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006040397A Withdrawn JP2007219207A (en) | 2006-02-17 | 2006-02-17 | Speech recognition device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007219207A (en) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009086132A (en) * | 2007-09-28 | 2009-04-23 | Pioneer Electronic Corp | Speech recognition device, navigation device provided with speech recognition device, electronic equipment provided with speech recognition device, speech recognition method, speech recognition program and recording medium |
JP2009284473A (en) * | 2008-04-23 | 2009-12-03 | Canon Inc | Camera control apparatus and method |
JP2010102163A (en) * | 2008-10-24 | 2010-05-06 | Xanavi Informatics Corp | Vehicle interior voice interaction device |
US8411160B2 (en) | 2007-08-31 | 2013-04-02 | Casio Computer Co., Ltd. | Apparatus including function to specify image region of main subject from obtained image, method to specify image region of main subject from obtained image and computer readable storage medium storing program to specify image region of main subject from obtained image |
JP2015501106A (en) * | 2011-12-07 | 2015-01-08 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | Low power integrated circuit for analyzing digitized audio streams |
WO2016051519A1 (en) * | 2014-09-30 | 2016-04-07 | 三菱電機株式会社 | Speech recognition system |
JP2018025603A (en) * | 2016-08-08 | 2018-02-15 | 株式会社デンソー | Announce controller for vehicle and speech control program for vehicle |
JP2018060207A (en) * | 2017-11-08 | 2018-04-12 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | Low power integrated circuit to analyze digitized audio stream |
US9992745B2 (en) | 2011-11-01 | 2018-06-05 | Qualcomm Incorporated | Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate |
WO2018173526A1 (en) * | 2017-03-21 | 2018-09-27 | 富士通株式会社 | Computer program for sound processing, sound processing device, and sound processing method |
US10196038B2 (en) | 2014-01-15 | 2019-02-05 | Denso Corporation | Vehicular communication control system |
WO2019175960A1 (en) * | 2018-03-13 | 2019-09-19 | 三菱電機株式会社 | Voice processing device and voice processing method |
JP2020098342A (en) * | 2020-01-17 | 2020-06-25 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | Low power integrated circuit for analyzing digitized audio streams |
CN112585674A (en) * | 2018-08-31 | 2021-03-30 | 三菱电机株式会社 | Information processing apparatus, information processing method, and program |
-
2006
- 2006-02-17 JP JP2006040397A patent/JP2007219207A/en not_active Withdrawn
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8411160B2 (en) | 2007-08-31 | 2013-04-02 | Casio Computer Co., Ltd. | Apparatus including function to specify image region of main subject from obtained image, method to specify image region of main subject from obtained image and computer readable storage medium storing program to specify image region of main subject from obtained image |
JP2009086132A (en) * | 2007-09-28 | 2009-04-23 | Pioneer Electronic Corp | Speech recognition device, navigation device provided with speech recognition device, electronic equipment provided with speech recognition device, speech recognition method, speech recognition program and recording medium |
JP2009284473A (en) * | 2008-04-23 | 2009-12-03 | Canon Inc | Camera control apparatus and method |
JP2010102163A (en) * | 2008-10-24 | 2010-05-06 | Xanavi Informatics Corp | Vehicle interior voice interaction device |
US9992745B2 (en) | 2011-11-01 | 2018-06-05 | Qualcomm Incorporated | Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate |
JP2015501106A (en) * | 2011-12-07 | 2015-01-08 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | Low power integrated circuit for analyzing digitized audio streams |
US11810569B2 (en) | 2011-12-07 | 2023-11-07 | Qualcomm Incorporated | Low power integrated circuit to analyze a digitized audio stream |
US11069360B2 (en) | 2011-12-07 | 2021-07-20 | Qualcomm Incorporated | Low power integrated circuit to analyze a digitized audio stream |
US10381007B2 (en) | 2011-12-07 | 2019-08-13 | Qualcomm Incorporated | Low power integrated circuit to analyze a digitized audio stream |
US10196038B2 (en) | 2014-01-15 | 2019-02-05 | Denso Corporation | Vehicular communication control system |
WO2016051519A1 (en) * | 2014-09-30 | 2016-04-07 | 三菱電機株式会社 | Speech recognition system |
US10475448B2 (en) | 2014-09-30 | 2019-11-12 | Mitsubishi Electric Corporation | Speech recognition system |
CN106796786A (en) * | 2014-09-30 | 2017-05-31 | 三菱电机株式会社 | Speech recognition system |
JPWO2016051519A1 (en) * | 2014-09-30 | 2017-04-27 | 三菱電機株式会社 | Speech recognition system |
JP2018025603A (en) * | 2016-08-08 | 2018-02-15 | 株式会社デンソー | Announce controller for vehicle and speech control program for vehicle |
WO2018173526A1 (en) * | 2017-03-21 | 2018-09-27 | 富士通株式会社 | Computer program for sound processing, sound processing device, and sound processing method |
US10951978B2 (en) | 2017-03-21 | 2021-03-16 | Fujitsu Limited | Output control of sounds from sources respectively positioned in priority and nonpriority directions |
JP2018060207A (en) * | 2017-11-08 | 2018-04-12 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | Low power integrated circuit to analyze digitized audio stream |
WO2019175960A1 (en) * | 2018-03-13 | 2019-09-19 | 三菱電機株式会社 | Voice processing device and voice processing method |
CN112585674A (en) * | 2018-08-31 | 2021-03-30 | 三菱电机株式会社 | Information processing apparatus, information processing method, and program |
DE112018007847B4 (en) | 2018-08-31 | 2022-06-30 | Mitsubishi Electric Corporation | INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND PROGRAM |
CN112585674B (en) * | 2018-08-31 | 2024-08-02 | 三菱电机株式会社 | Information processing apparatus, information processing method, and storage medium |
JP2020098342A (en) * | 2020-01-17 | 2020-06-25 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | Low power integrated circuit for analyzing digitized audio streams |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2007219207A (en) | Speech recognition device | |
JP6198432B2 (en) | Voice recognition control device | |
US9230538B2 (en) | Voice recognition device and navigation device | |
JP2012128440A (en) | Voice interactive device | |
JP2008299221A (en) | Speech detection device | |
JP5018773B2 (en) | Voice input system, interactive robot, voice input method, and voice input program | |
US9792901B1 (en) | Multiple-source speech dialog input | |
JP2003308079A (en) | Voice input device | |
EP1494208A1 (en) | Method for controlling a speech dialog system and speech dialog system | |
JP2008026463A (en) | Voice interaction apparatus | |
JP6459330B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
CN111199735A (en) | Vehicle-mounted device and voice recognition method | |
JPH1152976A (en) | Voice recognition device | |
JP2004354930A (en) | Speech recognition system | |
JP2010023639A (en) | In-cabin conversation assisting device | |
JP2008250236A (en) | Speech recognition device and speech recognition method | |
JP6673243B2 (en) | Voice recognition device | |
JPH11352987A (en) | Voice recognition device | |
JP4478146B2 (en) | Speech recognition system, speech recognition method and program thereof | |
JP7493875B2 (en) | Audio processing device and audio processing method | |
JP6332072B2 (en) | Dialogue device | |
WO2019175960A1 (en) | Voice processing device and voice processing method | |
KR102394510B1 (en) | Apparatus and method for recognizing voice in vehicle | |
JP2019191477A (en) | Voice recognition device and voice recognition method | |
EP3971891B1 (en) | Voice information processing apparatus and voice information processing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20090512 |