JP2009069202A - Speech processor - Google Patents
Speech processor Download PDFInfo
- Publication number
- JP2009069202A JP2009069202A JP2007234443A JP2007234443A JP2009069202A JP 2009069202 A JP2009069202 A JP 2009069202A JP 2007234443 A JP2007234443 A JP 2007234443A JP 2007234443 A JP2007234443 A JP 2007234443A JP 2009069202 A JP2009069202 A JP 2009069202A
- Authority
- JP
- Japan
- Prior art keywords
- operator
- hand
- voice recognition
- voice
- movement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は音声処理装置、特に音声認識結果の取消に関する。 The present invention relates to a voice processing device, and more particularly to cancellation of a voice recognition result.
操作者の発話により機器の動作を制御する技術が公知であるが、当該機器がDVDドライブやカーオーディオ装置、カーナビゲーションシステム等の音声を出力する機器である場合、操作者の発話と当該機器からの音声が混在することになるため誤認識が生じやすい。このため、誤認識が生じた場合には操作者が容易かつ確実に認識結果を取り消せることが望まれる。 A technique for controlling the operation of a device by an operator's utterance is known, but when the device is a device that outputs audio, such as a DVD drive, a car audio device, or a car navigation system, the operator's utterance and the device Are likely to cause misrecognition. For this reason, it is desired that the operator can easily and reliably cancel the recognition result when erroneous recognition occurs.
下記の特許文献1には、音声認識から所定時間経過しない間に無効指示が入力された場合に、音声認識結果を無効にすることが開示されており、無効指示として「チガウ」等の音声入力、キーボードやマウス等からの入力が例示されている。 Patent Document 1 below discloses that a speech recognition result is invalidated when an invalid instruction is input before a predetermined time has elapsed since the speech recognition. Examples of input from a keyboard or a mouse are illustrated.
また、下記の特許文献2にも、「チガウ」、「トリケシ」、「ムコウ」等の音声入力により直前の音声コマンドを無効とすることが開示されている。 Patent Document 2 below also discloses that the immediately preceding voice command is invalidated by voice input such as “Chiga”, “Trikes”, and “Muko”.
しかしながら、操作者の発話と当該機器からの音声が混在するため誤認識が生じやすい状況において、操作者の「チガウ」あるいは「トリケシ」等の音声で取消あるいは無効化する場合、その取消あるいは無効のための発話自体が誤認識されるおそれがある。一方、キーボードやマウス等からコマンドを入力することで取消あるいは無効化する方法では、操作者はこれらの入力デバイスを操作することを余儀なくされるため、音声認識により機器を操作する利点が失われるだけでなく、操作者がこれらの入力デバイスを操作できない場合には取り消すことができない問題がある。もちろん、音声認識自体は正しくても操作者が意思を変える場合もあり、この場合にも迅速に取り消せることが望ましい。 However, if the operator's utterance and the voice from the device are mixed, it is likely that misrecognition is likely to occur. When canceling or invalidating with the operator's voice such as “Chigau” or “Trikes”, the cancellation or invalidation Therefore, the utterance itself may be misrecognized. On the other hand, in the method of canceling or invalidating by inputting a command from a keyboard, mouse, etc., the operator is forced to operate these input devices, so the advantage of operating the device by voice recognition is only lost. In addition, there is a problem that cannot be canceled if the operator cannot operate these input devices. Of course, even if the voice recognition itself is correct, the operator may change his / her intention. In this case, it is desirable that it can be canceled quickly.
本発明の目的は、音声認識の誤認識等が生じた場合に、容易かつ確実に認識結果を取り消す(あるいは無効とする)ことができる装置を提供することにある。 An object of the present invention is to provide an apparatus capable of canceling (or invalidating) a recognition result easily and surely when erroneous recognition of voice recognition occurs.
本発明は、操作者の音声を認識して音声出力処理を含む処理を実行する音声処理装置であって、前記操作者の音声を認識する音声認識手段と、前記操作者の手の動きを非接触で検出する動体検出手段と、音声認識後に前記動体検出手段で前記操作者の手の第1の動きを検出した場合に前記音声認識手段による直前の音声認識結果を取り消す制御手段とを有することを特徴とする。 The present invention is a voice processing device that recognizes an operator's voice and executes processing including voice output processing, wherein the voice recognition means for recognizing the operator's voice and the movement of the operator's hand A moving object detecting means for detecting by contact; and a control means for canceling the immediately preceding voice recognition result by the voice recognizing means when the first movement of the operator's hand is detected by the moving object detecting means after the voice recognition. It is characterized by.
本発明の1つの実施形態では、前記制御手段は、前記動体検出手段で前記操作者の手の第2の動きを検出した場合に前記音声認識手段による音声認識を開始させる。 In one embodiment of the present invention, the control means starts voice recognition by the voice recognition means when the moving body detection means detects a second movement of the operator's hand.
また、本発明の他の実施形態では、前記制御手段は、音声認識後に前記動体検出手段で前記操作者の手の第3の動きを検出した場合に前記音声認識手段による直前の音声認識結果を確定する。 In another embodiment of the present invention, the control unit may display a voice recognition result immediately before by the voice recognition unit when the moving body detection unit detects a third movement of the operator's hand after voice recognition. Determine.
本発明によれば、音声の誤認識等が生じた場合に、容易かつ迅速にこれを取り消すことができる。 According to the present invention, when erroneous voice recognition or the like occurs, it can be easily and quickly canceled.
以下、図面に基づき本発明の実施形態について説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図1に、本実施形態における音声処理装置の構成ブロック図を示す。マイクロフォン10は、操作者(ユーザ)からの発話を入力し、電気信号に変換して音声認識部/装置制御部12に出力する。
FIG. 1 is a block diagram showing the configuration of the speech processing apparatus according to this embodiment. The
音声認識部/装置制御部12は、マイクロフォン10からの操作者の発話を解析して音声認識し、認識結果に応じて制御用コマンドを音響装置14に出力する。音声認識は公知の技術を用いることができ、予め音声データベースを記憶しておき、入力された発話と音声データベースとを照合して音声認識を行ってもよい。
The speech recognition unit /
音響装置14はDVDプレーヤやカーオーディオ、カーナビゲーション、ゲーム機、通信端末装置等の各種機器であって、少なくとも音声を出力する機器である。音声認識部/装置制御部12からの制御用コマンドは例えば再生コマンド、停止コマンド、早送りコマンド、録音/録画コマンド、スクロールコマンド、トレイ開閉コマンド等である。音響装置14からの音声信号はスピーカ16に供給され音声出力される。
The
動体検出部18は、操作者の手の動きを非接触で検出し、手の動きに応じて異なる検出信号を音声認識部/装置制御部12及び動作メモリ部20に出力する。動体検出部18は、手の動きを例えば赤外線検知器を用いて検出する。操作者の手の動きは、操作者が容易に実現できる手の動きであり、手の開閉や手の左右の振りである。本実施形態では、手の左右の振りを検出する場合を例示する。動体検出部18は、手の左右の振りを検出するが、手を左から右に振った場合、手を右から左に振った場合とを互いに区別して検出する。そして、手を左から右に振った場合を音声認識を開始させるトリガ信号として音声認識部/装置制御部12に出力し、手を右から左に振った場合を音声認識を取り消す(UNDO)取消信号(あるいは戻り信号)として動作メモリ部20に出力する。
The moving
動作メモリ部20は、音声認識結果に応じて新たな動作を行う前の音響装置14の動作状態を記憶する。そして、動体検出部18から取消信号が供給された場合、動作メモリ部20は直前の動作状態を音声認識部/装置制御部12に出力して現在のコマンド、すなわち音声認識結果に応じたコマンドを取り消して直前の動作状態に復帰する。例えば、音響装置14が再生中であるときに音声認識の結果停止コマンドが出力された場合、動作メモリ部20は直前の動作状態として再生状態を音声認識部/装置制御部12に供給する。音声認識部/装置制御部12は、これに応じて再生コマンドを音響装置14に出力する。
The
図2に、動体検出部18の構成を示す。動体検出部18は、2個の赤外線検知器30、32及び方向検知器34を含んで構成される。2個の赤外線検知器30は、左右方向に所定距離だけ離間して近接配置され、それぞれ赤外線を検出して方向検知器34に出力する。
FIG. 2 shows the configuration of the moving
方向検知器34は、2個のコンパレータ36、38及び2個のフリップフロップ40、42を含んで構成される。コンパレータ36の一方の入力端子(+)には赤外線検知器30が接続され、他方の入力端子(−)は所定の電圧(しきい値電圧)が印加される。コンパレータ36は、赤外線検知器30の出力を所定のしきい電圧と比較しその大小関係に応じてHiあるいはLowの2値信号をフリップフロップ40、42に出力する。また、コンパレータ38の一方の入力端子(+)には赤外線検知器32が接続され、他方の入力端子(−)は所定の電圧(しきい値電圧)が印加される。コンパレータ38は、赤外線検知器32の出力を所定のしきい電圧と比較しその大小関係に応じてHiあるいはLowの2値信号をフリップフロップ40、42に出力する。
The
フリップフロップ40、42はD型フリップフロップである。フリップフロップ40のD端子にはコンパレータ38の出力が供給され、クロック(CK)端子にはコンパレータ36の出力が供給される。また、フリップフロップ42のD端子にはコンパレータ36の出力が供給され、クロック(CK)端子にはコンパレータ38の出力が供給される。従って、コンパレータ38のHi出力はコンパレータ36のHi出力のタイミングで出力されることとなり、コンパレータ36のHi出力はコンパレータ38のHi出力のタイミングで出力されることになる。コンパレータ36は赤外線検知器30で操作者の手から発する赤外線を検知したときにHi出力となり、コンパレータ38は赤外線検知器32で操作者の手から発する赤外線を検知したときにHi出力となる。結局、図中Aで示すように操作者がまず赤外線検知器30の前に手をかざし、次に赤外線検知器32の前に手をかざすように手を振った場合にフリップフロップ42からHi出力が動作メモリ部20に供給され、図中Bに示すように操作者がまず赤外線検知器32の前に手をかざし、次に赤外線検知器30の前に手をかざすように手を振った場合にフリップフロップ40からHi出力が装置制御部12に供給される。フリップフロップ40のHi出力を音声認識のトリガ信号とし、フリップフロップ42のHi出力を取消信号とすると、図中A方向に手を振った場合に取消、B方向に手を振った場合に音声認識トリガ/決定を指示できることになる。図中A方向を右から左への手の振り方向、図中B方向を左から右への手の振り方向に対応させると、操作者は単に手の振り方向を変えることで音声認識開始と取消とを区別して指示できることになる。
The flip-
図3に、本実施形態の全体処理フローチャートを示す。装置を起動すると、音声認識部/装置制御部12は、操作者が手を左から右に振ったか否かを判定する(S101)。具体的には、動体検出部18から手を左から右に振った場合の検出信号を受信したか否かを判定する。手を左から右に振った場合の検出信号を受信した場合、音声認識部/装置制御部12は所定の音声認識処理を開始し(S102)、マイクロフォン10から入力された操作者の音声を解析して認識する(S103、S104)。手を左から右に振った場合の検出信号を受信しない場合、音声認識は開始しない。
FIG. 3 shows an overall process flowchart of the present embodiment. When the device is activated, the voice recognition unit /
音声認識を開始した場合、動作メモリ部20は音声認識を開始する前、あるいは音声認識を開始したときの動作状態(これらを総称して直前状態とする)を記憶する(S105)。例えば、音声認識を開始したときに停止状態であればその停止状態を記憶する。音声認識を開始したときに再生状態であればその再生状態を記憶する。再生位置をさらに記憶してもよい。現在の状態を記憶するのはコンピュータ等におけるレジューム機能として公知である。直前の動作状態を記憶した後、音声認識部/装置制御部12は音声認識結果に応じた制御用コマンドを音響装置14に出力し、音響装置13は当該コマンドに応じた動作を行う(S106)。
When the voice recognition is started, the
音響装置14がコマンドに応じた動作を行った後、操作者が手を右から左に振ったか否かを判定する(S107)。具体的には、動体検出部18から手を右から左に振った場合の検出信号を受信したか否かを判定する。手を右から左に振った場合の検出信号を受信した場合、音声認識部/装置制御部12はS106で実行したコマンドを取り消し、動作メモリ部20に記憶された直前の動作状態を読み出して音響装置14を直前の動作状態に復帰させる(S108)。一方、手を右から左に振った場合の検出信号を受信しなかった場合、S106で実行したコマンドを引き続き実行する。
After the
ここで、S107の判定をS106で音声認識の結果新たなコマンド実行を開始してから所定時間内に行ってもよい。つまり、新たなコマンド実行を開始してから所定時間以内に操作者が手を右から左に振ったか否かを判定する。所定時間内に操作者が手を右から左に振った場合にのみコマンドを取り消し、所定時間を経過した場合には操作者は取り消す意思がないものとみなして引き続きコマンドを実行する。あるいは、S107でNOと判定された場合、さらに操作者が手を左から右に振ったか否かを判定してもよい。具体的には、S101の判定と同様に動体検出部18から手を左から右に振った場合の検出信号を受信したか否かを判定する。そして、操作者が手を右から左に振らず、左から右に振った場合には、S106で実行したコマンドを操作者が肯定したものとしてS106で実行したコマンドを確定し引き続きコマンドを実行する。このように、音声認識結果に対して操作者が手を右から左に振った場合に取り消し、手を左から右に振った場合に決定(あるいは確定)とすることで、操作者は単に手を振るだけで済むことになる。単に手を振るだけで音声認識の結果の取り消し/決定を指示できる利点は、音声認識の結果に応じたコマンドにより音響装置14から音声出力された場合に顕著となる。すなわち、音響装置14から音声出力されている状況で音声により取り消しあるいは決定を指示することは誤認識の可能性が高くなるため困難であるが、手を振る動作であればこのような問題は生じない。
Here, the determination in S107 may be performed within a predetermined time after the execution of a new command as a result of speech recognition in S106. That is, it is determined whether or not the operator swings his / her hand from right to left within a predetermined time after starting execution of a new command. The command is canceled only when the operator shakes his / her hand from right to left within a predetermined time, and when the predetermined time elapses, the operator continues to execute the command assuming that there is no intention to cancel. Or when it determines with NO by S107, you may determine whether the operator further swung the hand from the left to the right. Specifically, it is determined whether or not a detection signal when the hand is shaken from the left to the right is received from the moving
本実施形態では、動体検出部18として互いに左右に近接配置された2個の赤外線検知器30、32を用いているが、これに限定されないのは言うまでもなく、赤外線以外の波長の光を検出する光検知器、超音波を検出する超音波検知器、画像を検出するカメラ等、操作者の手の動きを非接触で検出できる任意の検知器が含まれる。
In the present embodiment, the two
また、本実施形態では手の動きとして操作者の手の振りを例示したが、手を開閉する、指を振る、指を移動する、指を特定の形状にする等も含まれる。例えば、人差し指を振ることで取り消し、親指を立てることで決定を指示するように構成することも可能である。 In this embodiment, the hand movement of the operator is exemplified as the movement of the hand. However, opening and closing the hand, shaking the finger, moving the finger, making the finger a specific shape, and the like are also included. For example, it can be configured to cancel by waving an index finger and to instruct a decision by placing a thumb.
10 マイクロフォン、12 音声認識部/装置制御部、14 音響装置、16 スピーカ、18 動体検出部、20 動作メモリ部。 10 microphone, 12 voice recognition unit / device control unit, 14 acoustic device, 16 speaker, 18 moving object detection unit, 20 operation memory unit.
Claims (3)
前記操作者の音声を認識する音声認識手段と、
前記操作者の手の動きを非接触で検出する動体検出手段と、
音声認識後に前記動体検出手段で前記操作者の手の第1の動きを検出した場合に前記音声認識手段による直前の音声認識結果を取り消す制御手段と、
を有することを特徴とする音声処理装置。 A voice processing device that recognizes an operator's voice and executes processing including voice output processing,
Voice recognition means for recognizing the voice of the operator;
Moving object detection means for detecting the movement of the operator's hand in a non-contact manner;
Control means for canceling the immediately preceding voice recognition result by the voice recognition means when the first movement of the operator's hand is detected by the moving object detection means after voice recognition;
A speech processing apparatus comprising:
前記制御手段は、前記動体検出手段で前記操作者の手の第2の動きを検出した場合に前記音声認識手段による音声認識を開始させることを特徴とする音声処理装置。 The apparatus of claim 1.
The voice processing apparatus, wherein the control means starts voice recognition by the voice recognition means when the moving body detection means detects a second movement of the operator's hand.
前記制御手段は、音声認識後に前記動体検出手段で前記操作者の手の第3の動きを検出した場合に前記音声認識手段による直前の音声認識結果を確定することを特徴とする音声処理装置。 The apparatus according to claim 1,
The speech processing apparatus characterized in that the control means determines a speech recognition result immediately before by the speech recognition means when a third movement of the operator's hand is detected by the moving object detection means after speech recognition.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007234443A JP2009069202A (en) | 2007-09-10 | 2007-09-10 | Speech processor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007234443A JP2009069202A (en) | 2007-09-10 | 2007-09-10 | Speech processor |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009069202A true JP2009069202A (en) | 2009-04-02 |
Family
ID=40605573
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007234443A Pending JP2009069202A (en) | 2007-09-10 | 2007-09-10 | Speech processor |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009069202A (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010128015A (en) * | 2008-11-25 | 2010-06-10 | Toyota Central R&D Labs Inc | Device and program for determining erroneous recognition in speech recognition |
JP2015535952A (en) * | 2012-09-29 | 2015-12-17 | シェンジェン ピーアールテック カンパニー リミテッド | Voice control system and method for multimedia device and computer storage medium |
JP2016522925A (en) * | 2013-04-25 | 2016-08-04 | オフラ セルフセイフ リミテッド | Fraud detection by mobile devices that do not rely on the network |
US9513711B2 (en) | 2011-01-06 | 2016-12-06 | Samsung Electronics Co., Ltd. | Electronic device controlled by a motion and controlling method thereof using different motions to activate voice versus motion recognition |
JPWO2017104207A1 (en) * | 2015-12-16 | 2018-11-08 | ソニー株式会社 | Information processing apparatus, information processing method, and program |
WO2022003822A1 (en) * | 2020-06-30 | 2022-01-06 | 日産自動車株式会社 | Information processing device and information processing method |
-
2007
- 2007-09-10 JP JP2007234443A patent/JP2009069202A/en active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010128015A (en) * | 2008-11-25 | 2010-06-10 | Toyota Central R&D Labs Inc | Device and program for determining erroneous recognition in speech recognition |
US9513711B2 (en) | 2011-01-06 | 2016-12-06 | Samsung Electronics Co., Ltd. | Electronic device controlled by a motion and controlling method thereof using different motions to activate voice versus motion recognition |
JP2015535952A (en) * | 2012-09-29 | 2015-12-17 | シェンジェン ピーアールテック カンパニー リミテッド | Voice control system and method for multimedia device and computer storage medium |
JP2016522925A (en) * | 2013-04-25 | 2016-08-04 | オフラ セルフセイフ リミテッド | Fraud detection by mobile devices that do not rely on the network |
JPWO2017104207A1 (en) * | 2015-12-16 | 2018-11-08 | ソニー株式会社 | Information processing apparatus, information processing method, and program |
WO2022003822A1 (en) * | 2020-06-30 | 2022-01-06 | 日産自動車株式会社 | Information processing device and information processing method |
JP7396490B2 (en) | 2020-06-30 | 2023-12-12 | 日産自動車株式会社 | Information processing device and information processing method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10586534B1 (en) | Voice-controlled device control using acoustic echo cancellation statistics | |
US10930303B2 (en) | System and method for enhancing speech activity detection using facial feature detection | |
JP5601045B2 (en) | Gesture recognition device, gesture recognition method and program | |
JP2009069202A (en) | Speech processor | |
US9741338B2 (en) | System and method for machine-mediated human-human conversation | |
JP6012877B2 (en) | Voice control system and method for multimedia device and computer storage medium | |
KR102216048B1 (en) | Apparatus and method for recognizing voice commend | |
JP5911796B2 (en) | User intention inference apparatus and method using multimodal information | |
US11699442B2 (en) | Methods and systems for speech detection | |
KR20160009344A (en) | Method and apparatus for recognizing whispered voice | |
US20150033130A1 (en) | Audio input from user | |
US9392088B2 (en) | Intelligent muting of a mobile device | |
US20180009118A1 (en) | Robot control device, robot, robot control method, and program recording medium | |
TWI557722B (en) | Method to filter out speech interference, system using the same, and computer readable recording medium | |
WO2017148006A1 (en) | Terminal control method and device, terminal, and computer storage medium | |
US10091343B2 (en) | Mobile device and method for determining its context | |
JP6599803B2 (en) | Utterance device | |
US20140297257A1 (en) | Motion sensor-based portable automatic interpretation apparatus and control method thereof | |
KR101463450B1 (en) | Apparatus and method for recognizing user interface | |
US20180267618A1 (en) | Method for gesture based human-machine interaction, portable electronic device and gesture based human-machine interface system | |
JP2016530481A (en) | Switch actuating device, mobile device, and method for actuating a switch by the presence of a part that releases heat | |
JP2007155985A (en) | Robot and voice recognition device, and method for the same | |
JP5709955B2 (en) | Robot, voice recognition apparatus and program | |
WO2020195457A1 (en) | Speech interaction device, input device, and output device | |
JPH1115490A (en) | Microphone system and speech recognition system |