JP5430382B2 - Input device and method - Google Patents
Input device and method Download PDFInfo
- Publication number
- JP5430382B2 JP5430382B2 JP2009285106A JP2009285106A JP5430382B2 JP 5430382 B2 JP5430382 B2 JP 5430382B2 JP 2009285106 A JP2009285106 A JP 2009285106A JP 2009285106 A JP2009285106 A JP 2009285106A JP 5430382 B2 JP5430382 B2 JP 5430382B2
- Authority
- JP
- Japan
- Prior art keywords
- input
- gesture
- command
- voice
- recognition score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、操作者による音声及びジェスチャに基づいて操作対象装置へ入力するコマンドを決定する入力装置及び方法に関する。 The present invention relates to an input device and method for determining a command to be input to an operation target device based on a voice and a gesture by an operator.
近年、音声認識技術や画像認識技術等各種認識技術の発達により、音声やジェスチャ等の複数の入力手段を用いて操作対象装置にコマンドを入力することができる入力装置が提案されている。例えば、特許文献1には、操作者の音声及びジェスチャの内容に対応するコマンド候補のうち操作者の意図したコマンドに該当する確率が最も高いコマンドを操作対象装置に入力する技術が記載されている。 In recent years, with the development of various recognition technologies such as voice recognition technology and image recognition technology, input devices capable of inputting commands to an operation target device using a plurality of input means such as voice and gestures have been proposed. For example, Patent Literature 1 describes a technique for inputting a command having the highest probability of corresponding to a command intended by the operator, out of command candidates corresponding to the voice and gesture content of the operator, to the operation target device. .
上記従来技術では、常に操作者の音声及びジェスチャの内容に対応するコマンド候補の両方に基づいて操作対象装置に入力するコマンドを決定する。しかしながら、操作対象装置に対するコマンド入力を意図していない日常の会話や身振り手振り等が認識阻害要因となり、操作者による音声やジェスチャが正しく認識されないことがある。上記従来技術では、操作者の音声又はジェスチャのいずれかが認識阻害要因等のために正常に認識できない場合には、操作者が意図しないコマンドが誤って操作対象装置に入力されてしまう可能性があった。 In the prior art, a command to be input to the operation target device is always determined based on both the operator's voice and command candidates corresponding to the content of the gesture. However, daily conversation and gesture gestures that are not intended for command input to the operation target device may be a recognition impediment, and voices and gestures by the operator may not be recognized correctly. In the above prior art, if either the operator's voice or gesture cannot be recognized normally due to a recognition hindrance factor or the like, there is a possibility that a command not intended by the operator may be erroneously input to the operation target device. there were.
そこで、本発明は、操作者による音声及びジェスチャに基づいて操作対象装置へ入力するコマンドを決定する入力装置において、操作者の意図しないコマンドが操作対象装置へ入力されることを抑制することを目的とする。 In view of the above, an object of the present invention is to suppress a command unintended by the operator from being input to the operation target device in an input device that determines a command to be input to the operation target device based on the voice and gesture by the operator. And
本発明は、操作対象装置へ入力するコマンドを操作者による音声及びジェスチャの両方に基づいて決定する入力装置であって、
操作者による音声が入力される音声入力部と、
操作者によるジェスチャを撮影した画像が入力される画像入力部と、
前記入力される音声に対して音声認識処理を行い、操作対象装置へコマンドを入力するための音声として予め定められた音声のうち該入力される音声と一致する音声の候補を特定し、該入力される音声が該特定した候補に一致する確からしさの指標である音声認識スコアを算出する第1の算出部と、
前記入力される画像に対して画像認識処理を行い、操作対象装置へコマンドを入力するためのジェスチャとして予め定められたジェスチャのうち該入力される画像に撮影されたジェスチャと一致するジェスチャの候補を特定し、該入力される画像に撮影されたジェスチャが該特定した候補に一致する確からしさの指標であるジェスチャ認識スコアを算出する第2の算出部と、
前記特定した候補に基づいて操作対象装置へ入力するコマンドを決定する決定部と、
を備え、
前記決定部は、前記算出した音声認識スコア及びジェスチャ認識スコアのいずれか一方が所定の第1の閾値より小さい場合、他方の認識スコアに対応する候補のみに基づいて操作対象装置へ入力するコマンドを決定し、前記算出した音声認識スコア及びジェスチャ認識スコアの少なくとも一方が、前記第1の閾値より小さい所定の第2の閾値より小さい場合、前記特定した両方の候補を破棄し、前記特定した候補に基づく操作対象装置へ入力するコマンドの決定を行わないことを特徴とする入力装置である。
The present invention is an input device that determines a command to be input to an operation target device based on both voice and gesture by an operator,
A voice input unit for inputting voices by an operator;
An image input unit for inputting an image of a gesture made by an operator;
Voice recognition processing is performed on the input voice, and voice candidates that match the input voice are identified from voices that are predetermined as voices for inputting commands to the operation target device. A first calculation unit that calculates a speech recognition score that is an index of probability that the speech to be matched with the identified candidate;
Image recognition processing is performed on the input image, and gesture candidates that match the gesture photographed in the input image among gestures predetermined as gestures for inputting a command to the operation target device are selected. A second calculation unit that calculates a gesture recognition score that is an index of the probability that the gesture captured in the input image is identified and matches the identified candidate;
And determine tough that determine the command to be input to the operation target device based on the identified candidate,
With
Before Kike' tough, if either one of the speech recognition score and gesture recognition score the calculated is smaller than a predetermined first threshold value, and inputs to the operation target apparatus based on only the candidate corresponding to the other recognition score A command is determined , and at least one of the calculated speech recognition score and gesture recognition score is smaller than a predetermined second threshold value smaller than the first threshold value, the both identified candidates are discarded and the identified An input device is characterized in that a command to be input to an operation target device based on a candidate is not determined .
また、本発明は、操作対象装置へ入力するコマンドを操作者による音声及びジェスチャの両方に基づいて決定する入力装置であって、
操作者による音声が入力される音声入力部と、
操作者によるジェスチャを撮影した画像が入力される画像入力部と、
前記入力される音声に対して音声認識処理を行い、操作対象装置へコマンドを入力するための音声として予め定められた音声のうち該入力される音声と一致する音声の候補を特定し、該入力される音声が該特定した候補に一致する確からしさの指標である音声認識スコアを算出する第1の算出部と、
前記入力される画像に対して画像認識処理を行い、操作対象装置へコマンドを入力するためのジェスチャとして予め定められたジェスチャのうち該入力される画像に撮影されたジェスチャと一致するジェスチャの候補を特定し、該入力される画像に撮影されたジェスチャが該特定した候補に一致する確からしさの指標であるジェスチャ認識スコアを算出する第2の算出部と、
前記特定した候補に基づいて操作対象装置へ入力するコマンドを決定する決定部と、
を備え、
前記決定部は、前記算出した音声認識スコアとジェスチャ認識スコアとの差の大きさが所定の第3の閾値より大きい場合、該音声認識スコアとジェスチャ認識スコアのうち大きい方に対応する候補のみに基づいて操作対象装置へ入力するコマンドを決定することを特徴とする入力装置である。
Further, the present invention is an input device for determining a command to be input to the operation target device based on both voice and gesture by the operator,
A voice input unit for inputting voices by an operator;
An image input unit for inputting an image of a gesture made by an operator;
Voice recognition processing is performed on the input voice, and voice candidates that match the input voice are identified from voices that are predetermined as voices for inputting commands to the operation target device. A first calculation unit that calculates a speech recognition score that is an index of probability that the speech to be matched with the identified candidate;
Image recognition processing is performed on the input image, and gesture candidates that match the gesture photographed in the input image among gestures predetermined as gestures for inputting a command to the operation target device are selected. A second calculation unit that calculates a gesture recognition score that is an index of the probability that the gesture captured in the input image is identified and matches the identified candidate;
And determine tough that determine the command to be input to the operation target device based on the identified candidate,
With
Before Kike' tough corresponds towards the magnitude of the difference between the speech recognition score and gesture recognition score and the calculated larger of the predetermined case third greater than the threshold value, the voice recognition score and gesture recognition candidate score The input device is characterized in that a command to be input to the operation target device is determined based only on the command.
また、本発明は、操作対象装置へ入力するコマンドを操作者による音声及びジェスチャの両方に基づいて決定する入力方法であって、
操作者による音声が入力される音声入力工程と、
操作者によるジェスチャを撮影した画像が入力される画像入力工程と、
前記入力される音声に対して音声認識処理を行い、操作対象装置へコマンドを入力するための音声として予め定められた音声のうち該入力される音声と一致する音声の候補を特定し、該入力される音声が該特定した候補に一致する確からしさの指標である音声認識スコアを算出する第1の算出工程と、
前記入力される画像に対して画像認識処理を行い、操作対象装置へコマンドを入力するためのジェスチャとして予め定められたジェスチャのうち該入力される画像に撮影されたジェスチャと一致するジェスチャの候補を特定し、該入力される画像に撮影されたジェスチャが該特定した候補に一致する確からしさの指標であるジェスチャ認識スコアを算出する第2の算出工程と、
前記特定した候補に基づいて操作対象装置へ入力するコマンドを決定する決定工程と、を有し、
前記決定工程は、前記算出した音声認識スコア及びジェスチャ認識スコアのいずれか一方が所定の第1の閾値より小さい場合、他方の認識スコアに対応する候補のみに基づいて操作対象装置へ入力するコマンドを決定し、前記算出した音声認識スコア及びジェスチャ
認識スコアの少なくとも一方が、前記第1の閾値より小さい所定の第2の閾値より小さい場合、前記特定した両方の候補を破棄し、前記特定した候補に基づく操作対象装置へ入力するコマンドの決定を行わないことを特徴とする入力方法である。
Further, the present invention is an input method for determining a command to be input to an operation target device based on both voice and gesture by an operator,
A voice input process in which the voice of the operator is input;
An image input process in which an image of a gesture made by an operator is input;
Voice recognition processing is performed on the input voice, and voice candidates that match the input voice are identified from voices that are predetermined as voices for inputting commands to the operation target device. A first calculation step of calculating a speech recognition score that is an index of probability that the speech to be matched with the identified candidate;
Image recognition processing is performed on the input image, and gesture candidates that match the gesture photographed in the input image among gestures predetermined as gestures for inputting a command to the operation target device are selected. A second calculation step of determining a gesture recognition score that is an index of the probability that the gesture captured in the input image is identified and matches the identified candidate;
Anda decision step that determine the command to be input to the operation target device based on the candidate that the identified,
Before Kike' constant step, if either one of the speech recognition score and gesture recognition score the calculated is smaller than a predetermined first threshold value, and inputs to the operation target apparatus based on only the candidate corresponding to the other recognition score The command is determined, and the calculated speech recognition score and gesture
When at least one of the recognition scores is smaller than a predetermined second threshold value that is smaller than the first threshold value, both of the identified candidates are discarded, and a command to be input to the operation target device based on the identified candidate is determined. This is an input method that is not performed .
また、本発明は、操作対象装置へ入力するコマンドを操作者による音声及びジェスチャの両方に基づいて決定する入力方法であって、
操作者による音声が入力される音声入力工程と、
操作者によるジェスチャを撮影した画像が入力される画像入力工程と、
前記入力される音声に対して音声認識処理を行い、操作対象装置へコマンドを入力するための音声として予め定められた音声のうち該入力される音声と一致する音声の候補を特定し、該入力される音声が該特定した候補に一致する確からしさの指標である音声認識スコアを算出する第1の算出工程と、
前記入力される画像に対して画像認識処理を行い、操作対象装置へコマンドを入力するためのジェスチャとして予め定められたジェスチャのうち該入力される画像に撮影されたジェスチャと一致するジェスチャの候補を特定し、該入力される画像に撮影されたジェスチャが該特定した候補に一致する確からしさの指標であるジェスチャ認識スコアを算出する第2の算出工程と、
前記特定した候補に基づいて操作対象装置へ入力するコマンドを決定する決定工程と、を有し、
前記決定工程は、前記算出した音声認識スコアとジェスチャ認識スコアとの差の大きさが所定の第3の閾値より大きい場合、該音声認識スコアとジェスチャ認識スコアのうち大きい方に対応する候補のみに基づいて操作対象装置へ入力するコマンドを決定することを特徴とする入力方法である。
Further, the present invention is an input method for determining a command to be input to an operation target device based on both voice and gesture by an operator,
A voice input process in which the voice of the operator is input;
An image input process in which an image of a gesture made by an operator is input;
Voice recognition processing is performed on the input voice, and voice candidates that match the input voice are identified from voices that are predetermined as voices for inputting commands to the operation target device. A first calculation step of calculating a speech recognition score that is an index of probability that the speech to be matched with the identified candidate;
Image recognition processing is performed on the input image, and gesture candidates that match the gesture photographed in the input image among gestures predetermined as gestures for inputting a command to the operation target device are selected. A second calculation step of determining a gesture recognition score that is an index of the probability that the gesture captured in the input image is identified and matches the identified candidate;
Anda decision step that determine the command to be input to the operation target device based on the candidate that the identified,
Before Kike' constant step corresponds towards the magnitude of the difference between the speech recognition score and gesture recognition score and the calculated larger of the predetermined larger than the third threshold value, the voice recognition score and gesture recognition candidate score The input method is characterized in that a command to be input to the operation target device is determined based only on the above.
本発明によれば、操作者による音声及びジェスチャに基づいて操作対象装置へ入力するコマンドを決定する入力装置において、操作者の意図しないコマンドが操作対象装置へ入力されることを抑制できる。 ADVANTAGE OF THE INVENTION According to this invention, in the input device which determines the command input into an operation target apparatus based on the voice and gesture by an operator, it can suppress that the command which an operator does not intend is input into an operation target apparatus.
(実施例1)
以下、図面を参照して本発明の具体的な実施の形態について説明する。以下の実施例は本発明を実施するための一例であって、本発明の範囲を限定する趣旨のものではない。
図1は、本発明の第1の実施例に係るコマンド入力装置101の概略構成を示すブロック図である。このコマンド入力装置101は、操作者による音声及びジェスチャの両方に基づいて操作対象装置110へ入力するコマンドを決定する入力装置である。本実施例に係るコマンド入力装置101を適用可能な操作対象装置110としては、テレビ、レコーダ、パーソナルコンピュータ、ゲーム機、メディアプレーヤ等、操作者の音声及びジェスチャによる操作指示に従って動作するよう構成された種々の機器を例示できる。例えば、操作対象装置がテレビ受信装置の場合、操作対象装置へ入力されるコマンドはチャンネルの切り換え、音量調整、画質調整、入力切り換え等を例示できる。
Example 1
Hereinafter, specific embodiments of the present invention will be described with reference to the drawings. The following examples are examples for carrying out the present invention, and are not intended to limit the scope of the present invention.
FIG. 1 is a block diagram showing a schematic configuration of a
図1に示すように、コマンド入力装置101は、音声入力部102と、音声コマンド認識スコア判定部103と、音声コマンドデータベース104と、ジェスチャ入力部105と、ジェスチャコマンド認識スコア判定部106と、を有する。コマンド入力装置101は更に、ジェスチャコマンドデータベース107と、閾値比較部108と、コマンド決定部109と、を有する。なお、図1において破線で示した認識スコア差分判定部402、音声コマンド認識スコア判定部103及びジェスチャコマンド認識スコア判定部106か
ら該認識スコア差分判定部402への入力線は後述する実施例2に関する構成要素である。また、閾値比較部及びコマンド決定部における括弧書きの符号も、実施例2における参照符号であり、本実施例とは無関係である。
As illustrated in FIG. 1, the
音声入力部102は、マイクロフォンにて操作者が発声した音声を集音し、音声信号に変換して音声コマンド認識スコア判定部103に出力する。
The
音声コマンド認識スコア判定部103は、入力された音声信号に対して音声認識処理を行い、操作者が発声した音声の内容を特定する。そして、その音声の内容に基づいて、操作対象装置110へコマンドを入力するための音声として予め定められた音声(音声コマンド)のうち、当該入力される音声と一致する音声コマンドの候補を複数抽出する。音声コマンドは音声コマンドデータベース104に予め記憶している。
The voice command recognition
音声コマンド認識スコア判定部103は、前記抽出した音声コマンド候補それぞれに対して、認識スコアを付与する。ここで、認識スコアとは、入力される音声が音声コマンドデータベース104に格納された音声コマンドに一致する確からしさ、すなわち一致度合の指標となる量である。例えば、音声コマンド認識スコア判定部103に入力される音声信号と、各音声コマンドの典型的な音声信号(予め記憶しておく)との相関を計算することにより、認識スコアを算出することができる。操作者の音声と音声コマンドとの一致の度合の指標となる量であればどのような方法で認識スコアを算出しても良い。
The voice command recognition
音声コマンドデータベース104は、音声コマンド認識スコア判定部103にて行う音声認識処理において用いる音声信号解析用のデータを格納している。本実施例では、音声コマンドデータベース104に格納されたデータを用いて音声コマンド候補の特定及び認識スコアの算出を行う音声コマンド認識スコア判定部103が、本発明の第1の算出部を構成する。
The
ジェスチャ入力部105は、カメラにて操作者が行うジェスチャを撮影し、画像信号に変換してジェスチャコマンド認識スコア判定部106に出力する。本実施例では、ジェスチャ入力部105が、本発明の画像入力部を構成する。
The
ジェスチャコマンド認識スコア判定部106は、入力された画像信号に対して画像認識処理を行い、操作者が行ったジェスチャの内容を特定する。そのジェスチャの内容に基づいて、操作対象装置110へコマンドを入力するためのジェスチャとして予め定められたジェスチャ(ジェスチャコマンド)のうち、当該入力される画像に撮影されたジェスチャと一致するジェスチャコマンドの候補を複数抽出する。ジェスチャコマンドはジェスチャコマンドデータベース107に予め記憶している。
The gesture command recognition
ジェスチャコマンド認識スコア判定部106は、前記抽出したジェスチャコマンド候補それぞれに対して、認識スコアを付与する。ここで、認識スコアとは、入力される画像に撮影されたジェスチャがジェスチャコマンドデータベース107に格納されたジェスチャコマンドに一致する確からしさ、すなわち一致度合の指標となる量である。例えば、ジェスチャコマンド認識スコア判定部106に入力される画像信号と、各ジェスチャコマンドの典型的な画像信号(予め記憶しておく)との相関を計算することにより、認識スコアを算出することができる。操作者のジェスチャとジェスチャコマンドとの一致の度合の指標となる量であればどのような方法で認識スコアを算出しても良い。本実施例では、認識スコアとして、一致の度合が高いほど大きい数値が算出されるような量を用いる。
The gesture command recognition
ジェスチャコマンドデータベース107は、ジェスチャコマンド認識スコア判定部106にて行う画像認識処理において用いる画像信号解析用のデータを格納している。本実施例では、ジェスチャコマンドデータベース107に記憶されたデータを用いてジェスチャコマンド候補の特定及び認識スコアの算出を行うジェスチャコマンド認識スコア判定部106が、本発明の第2の算出部を構成する。
The
閾値比較部108は、音声コマンド認識スコア判定部103から入力される音声コマンド候補毎の認識スコアの最大値と、予め記憶している所定の第1の閾値及び第2の閾値とを比較する。また、ジェスチャコマンド認識スコア判定部106から入力されるジェスチャコマンド候補毎の認識スコアの最大値と、前記第1の閾値及び第2の閾値と、を比較する。そして、比較結果をコマンド決定部109に出力する。比較の処理については後述する。
The
コマンド決定部109は、閾値比較部108から入力される比較結果に応じて、上記抽出した音声コマンド候補及びジェスチャコマンド候補に基づいて操作対象装置110へ入力するコマンドを決定する方法を以下の3つのうちから選択する。第1のコマンド決定方法では、音声コマンド候補及びジェスチャコマンド候補の両方に基づいて入力コマンドを決定する。第2のコマンド決定方法では、音声コマンド候補又はジェスチャコマンド候補の一方に基づいて入力コマンドを決定する。第3のコマンド決定方法では、音声コマンド候補及びジェスチャコマンド候補を破棄し、操作対象装置110へのコマンド入力を行わない。コマンド決定部109は、選択したコマンド決定方法により操作対象装置110へ入力するコマンドを決定する。本実施例では、閾値比較部108及びコマンド決定部109が、本発明における決定部を構成する。
The
図2は、本実施例において、音声入力部102及びジェスチャ入力部105への音声及びジェスチャの入力を契機として開始される処理を示すフローチャートである。
FIG. 2 is a flowchart illustrating processing that is started in response to voice and gesture input to the
S201において、音声入力部102から音声コマンド認識スコア判定部103に音声信号が入力され、ジェスチャ入力部105からジェスチャコマンド認識スコア判定部106にジェスチャを撮影した画像信号が入力されると、S202に遷移する。
In S201, when an audio signal is input from the
S202において、音声コマンド認識スコア判定部103は、入力された音声信号に基づいて音声コマンド候補を抽出し、抽出した音声コマンド候補それぞれについて認識スコアを算出し、S203に遷移する。
In S202, the voice command recognition
S203において、閾値比較部108は、S202で算出した音声コマンド候補毎の認識スコアの最大値と、予め記憶している第1の閾値(例えば50%)とを比較し、認識スコアの最大値が第1の閾値以上の場合には、S204に遷移する。一方、認識スコアの最大値が第1の閾値より小さい場合には、S205に遷移する。
ここで、第1の閾値は、抽出したコマンド候補が、それに基づいて操作対象装置110へ入力するコマンドを決定し得るほどの確からしさを有するものか判断するための認識スコアの基準値である。第1の閾値は、実験等により最適値を求めて予め記憶しておく。本実施例で示した50%という数値は一例であって、第1の閾値として最適な数値は実施の形態に応じて異なり得る。
コマンド候補毎に算出される認識スコアの最大値が第1の閾値以上であれば、当該コマンド候補はそれに基づいて入力コマンドを決定し得るほどの確からしさを有すると判断する。一方、認識スコアの最大値が第1の閾値未満であれば、抽出されたコマンド候補はそれに基づいて入力コマンドを決定し得るほどの確からしさを有しないと判断する。
In S203, the threshold
Here, the first threshold is a reference value of a recognition score for determining whether the extracted command candidate has a certainty that can determine a command to be input to the
If the maximum value of the recognition score calculated for each command candidate is equal to or greater than the first threshold value, it is determined that the command candidate has such a certainty that the input command can be determined based on the maximum value. On the other hand, if the maximum value of the recognition score is less than the first threshold, it is determined that the extracted command candidate does not have such a certainty that the input command can be determined based on the command candidate.
S204において、閾値比較部108は、音声入力に基づいて抽出した音声コマンド候補を操作対象装置110へ入力するコマンドの決定に用いることをコマンド決定部109に通知して、S207に遷移する。
In S204, the
S205において、閾値比較部108は、S202で算出した音声コマンド候補毎の認識スコアの最大値と、予め記憶している第2の閾値(例えば5%)とを比較し、認識スコアの最大値が第2の閾値以上の場合には、S206に遷移する。一方、認識スコアの最大値が第2の閾値より小さい場合には、S212に遷移する。
ここで、第2の閾値は、操作者が操作対象装置110へのコマンドの入力を意図して発声やジェスチャを行っているのか、また、音声やジェスチャの認識に関して著しい認識阻害要因が存在するか、を判断するための認識スコアの基準値である。第2の閾値は、実験等により最適値を求めて予め記憶しておく。本実施例で示した5%という数値は一例であって、第2の閾値として最適な数値は実施の形態に応じて異なり得る。
コマンド候補毎に算出される認識スコアの最大値が第2の閾値以上であれば、操作者は操作対象装置110へのコマンド入力を意図して発声やジェスチャを行っており、また、著しい認識阻害要因は無いと判断する。一方、認識スコアの最大値が第2の閾値未満であれば、入力された音声信号や画像信号は、操作者が操作対象装置110へのコマンド入力を意図して行った発声やジェスチャを捉えたものではないか、又は、著しい認識阻害要因が存在すると判断する。このような場合、音声及びジェスチャに基づいて操作対象装置110へ入力するコマンドを決定しない。
In S205, the threshold
Here, the second threshold is whether the operator is making a utterance or a gesture with the intention of inputting a command to the
If the maximum value of the recognition score calculated for each command candidate is greater than or equal to the second threshold value, the operator is making a voice or gesture with the intention of inputting a command to the
S206において、閾値比較部108は、音声入力に基づいて抽出した音声コマンド候補を操作対象装置110へ入力するコマンドの決定に用いないことをコマンド決定部109に通知して、S207に遷移する。
In S206, the
S207において、ジェスチャコマンド認識スコア判定部106は、入力された画像信号に基づいてジェスチャコマンド候補を抽出し、抽出したジェスチャコマンド候補それぞれについて認識スコアを算出し、S208に遷移する。
In S207, the gesture command recognition
S208において、閾値比較部108は、S207で算出したジェスチャコマンド候補毎の認識スコアの最大値と、予め記憶している第1の閾値(50%)とを比較し、認識スコアの最大値が第1の閾値以上の場合には、S209に遷移する。一方、認識スコアの最大値が第1の閾値より小さい場合には、S210に遷移する。
In S208, the threshold
S209において、閾値比較部108は、ジェスチャ入力に基づいて抽出したジェスチャコマンド候補を操作対象装置110へ入力するコマンドの決定に用いることをコマンド決定部109に通知して、S213に遷移する。
In step S209, the
S210において、閾値比較部108は、S207で算出したジェスチャコマンド候補毎の認識スコアの最大値と、予め記憶している第2の閾値(5%)とを比較し、認識スコアの最大値が第2の閾値以上の場合には、S211に遷移する。一方、認識スコアの最大値が第2の閾値より小さい場合には、S212に遷移する。
In S210, the
S211において、閾値比較部108は、ジェスチャ入力に基づいて抽出したジェスチャコマンド候補を操作対象装置110へ入力するコマンドの決定に用いないことをコマンド決定部109に通知して、S213に遷移する。
なお、本実施例では、音声コマンド候補の認識スコアについての第1の閾値及び第2の閾値をジェスチャコマンド候補の認識スコアについての閾値としてそのまま用いる場合を例示したが、ジェスチャコマンド候補の認識スコアについての閾値を別途定めても良い。
In S211, the
In this embodiment, the first threshold value and the second threshold value for the voice command candidate recognition score are used as they are as the threshold value for the gesture command candidate recognition score, but the gesture command candidate recognition score is used. The threshold may be determined separately.
S212において、閾値比較部108は、音声入力に基づいて抽出した音声コマンド候補及びジェスチャ入力に基づいて抽出したジェスチャコマンド候補を破棄する。これは、各コマンド候補の認識スコアが第2の閾値よりも小さいことから、操作者はコマンド入力
のための音声及びジェスチャを行っていないか、又は著しい認識阻害要因が存在すると判断できるからである。
In S212, the
S213において、コマンド決定部109は、閾値比較部108から通知されたコマンド決定方法に基づいて、操作対象装置110へ入力するコマンドを決定する。
音声コマンド候補及びジェスチャコマンド候補の両方を用いて入力コマンドを決定する場合(S204且つS209を実行した場合)は、両者で共通するコマンド候補について認識スコアを積算し、その値が最も大きいコマンド候補を入力コマンドとして決定する。
また、音声コマンド候補又はジェスチャコマンド候補のいずれか一方を用いて入力コマンドを決定する場合(S204且つS211を実行又はS206且つS209を実行した場合)は、該一方のコマンド候補のうちの認識スコアが最大のものを入力コマンドとする。
また、音声コマンド候補及びジェスチャコマンド候補の両方とも用いないと通知された場合(S206且つS211を実行した場合)は、S212と同様両コマンド候補を破棄し、操作対象装置110へコマンドを入力しない。
In step S <b> 213, the
When the input command is determined using both the voice command candidate and the gesture command candidate (when S204 and S209 are executed), the recognition score is integrated for the command candidates common to both, and the command candidate having the largest value is selected. Determine as an input command.
In addition, when an input command is determined using either one of the voice command candidate and the gesture command candidate (when S204 and S211 are executed or when S206 and S209 are executed), the recognition score of the one command candidate is The largest command is the input command.
Further, when it is notified that neither the voice command candidate nor the gesture command candidate is used (when S206 and S211 are executed), both command candidates are discarded as in S212, and the command is not input to the
なお、上記のフローチャートでは、音声コマンド候補の抽出、認識スコア算出、閾値との比較、コマンド決定に用いるか否かの判定処理(S202からS206)の後に、ジェスチャコマンド候補についての同様の処理(S207からS211)を行う例を示した。しかしながら、この処理に関して音声入力についての処理とジェスチャ入力についての処理は順不同であり、ジェスチャ入力についての処理が先でも良い。また、音声入力についての処理及びジェスチャ入力に関する処理を並行して行っても良い。 In the above flowchart, similar processing (S207) for gesture command candidates is performed after voice command candidate extraction, recognition score calculation, comparison with a threshold value, and processing for determining whether to use a command (S202 to S206). To S211). However, the processing for voice input and the processing for gesture input are out of order with respect to this processing, and the processing for gesture input may be performed first. Further, the process for voice input and the process for gesture input may be performed in parallel.
図3は、上述した認識スコアに応じたコマンド決定方法を示す図である。図3に示すように、音声認識スコア及びジェスチャ認識スコアの両方が第1の閾値以上の場合には、音声コマンド候補及びジェスチャコマンド候補の両方を用いて入力コマンドを決定する。この場合、音声認識スコア及びジェスチャ認識スコアが高いため、操作者がコマンド入力のために音声及びジェスチャの両方を行っており、且つ、認識阻害要因がない状態と判断できるからである。 FIG. 3 is a diagram illustrating a command determination method according to the above-described recognition score. As shown in FIG. 3, when both the voice recognition score and the gesture recognition score are equal to or higher than the first threshold, the input command is determined using both the voice command candidate and the gesture command candidate. In this case, since the voice recognition score and the gesture recognition score are high, it can be determined that the operator performs both voice and gesture for command input, and there is no recognition inhibition factor.
また、音声認識スコア及びジェスチャ認識スコアの一方が第1の閾値以上であり、且つ他方が第2の閾値以上第1の閾値未満である場合は、当該一方の認識スコアに対応する候補に基づいて入力コマンドを決定する。この場合、音声又はジェスチャの一方の認識スコアが低いため、操作者はコマンド入力のための音声及びジェスチャの両方を行っているものの、音声又はジェスチャの一方に関して認識阻害要因があると判断できるからである。 In addition, when one of the voice recognition score and the gesture recognition score is equal to or greater than the first threshold value and the other is equal to or greater than the second threshold value and less than the first threshold value, based on the candidate corresponding to the one recognition score. Determine the input command. In this case, since the recognition score of one of the voice and the gesture is low, the operator can determine that there is a recognition impediment factor for either the voice or the gesture, although both the voice and the gesture for inputting the command are performed. is there.
また、音声認識スコア及びジェスチャ認識スコアの少なくとも一方が第2の閾値より小さい場合は、音声コマンド候補及びジェスチャコマンド候補を破棄し、コマンド入力を行わない。この場合、音声又はジェスチャの一方の認識スコアが非常に低いため、操作者が音声又はジェスチャの他方でのみコマンド入力を行ったか、又は、当該他方によるコマンド入力は操作者の日常の会話や所作等を誤認識したものと判断できるからである。なお、音声認識スコア及びジェスチャ認識スコアの両方が第2の閾値以上第1の閾値未満である場合も、同様に判断して音声コマンド候補及びジェスチャコマンド候補を破棄する。 If at least one of the voice recognition score and the gesture recognition score is smaller than the second threshold, the voice command candidate and the gesture command candidate are discarded and no command is input. In this case, since the recognition score of one of the voice and gesture is very low, the operator inputs a command only on the other side of the voice or gesture, or the command input by the other side is the daily conversation or action of the operator. It is because it can be judged that it was misrecognized. Even when both the voice recognition score and the gesture recognition score are greater than or equal to the second threshold and less than the first threshold, the voice command candidate and the gesture command candidate are discarded in the same manner.
本実施例に係るコマンド入力装置101によれば、認識阻害要因によって音声コマンド候補又はジェスチャコマンド候補のいずれか一方の認識スコアが低下した場合に、当該一方のコマンド候補を用いずに入力コマンドを決定する。従って、認識阻害要因によって操作者の意図と異なるコマンドが認識されても、それが操作対象装置110への入力コマンドとして決定されることを抑制できる。
また、音声コマンド候補又はジェスチャコマンド候補の認識スコアがいずれか一方でも
著しく低い場合には、操作者が行っている発声又はジェスチャはコマンド入力のための発声又はジェスチャとして正しくないと判断する。或いは、そもそも操作者はコマンド入力のための発声及びジェスチャ自体を行っていないと判断する。そして、音声及びジェスチャに基づく操作対象装置110へのコマンド入力を行わない。従って、操作者が操作対象装置110へのコマンドの入力を意図していない場合に、操作者の意図していないコマンドが操作対象装置110へ入力されてしまうことを抑制できる。
According to the
If the recognition score of either the voice command candidate or the gesture command candidate is remarkably low, it is determined that the utterance or gesture performed by the operator is not correct as the utterance or gesture for command input. Alternatively, in the first place, it is determined that the operator does not perform utterance and gesture for command input. Then, no command is input to the
なお、上記本実施例で説明した、音声認識スコア又はジェスチャ認識スコアの少なくとも一方が第2の閾値未満であれば特定したコマンド候補を全て破棄する処理は、必ずしも行わなくても良い。また、入力される音声信号や画像信号に基づいて複数のコマンド候補を特定する例について説明したが、コマンド候補は複数でなくても良い。コマンド候補が1つのみの場合は、上記実施例における最大値を、当該特定した1つのコマンド候補の認識スコアに読み替えればよい。 If at least one of the voice recognition score or the gesture recognition score described in the present embodiment is less than the second threshold value, the process of discarding all the specified command candidates is not necessarily performed. Moreover, although the example which specifies a some command candidate based on the audio | voice signal and image signal which were input was demonstrated, a command candidate does not need to be plural. When there is only one command candidate, the maximum value in the above embodiment may be read as the recognition score of the specified one command candidate.
(実施例2)
次に、本発明の第2の実施例について説明する。実施例1では音声及びジェスチャのコマンド候補の認識スコアを閾値と直接比較した結果に基づいてコマンド決定方法を選択したが、実施例2では音声及びジェスチャのコマンド候補の認識スコアの差分を閾値と比較した結果に基づいてコマンド決定方法を選択する。
(Example 2)
Next, a second embodiment of the present invention will be described. In the first embodiment, the command determination method is selected based on the result of directly comparing the recognition scores of the voice and gesture command candidates with the threshold. However, in the second embodiment, the difference between the recognition scores of the voice and gesture command candidates is compared with the threshold. The command determination method is selected based on the result.
以下、実施例1と異なる部分を中心に詳細に説明する。実施例2に係るコマンド入力装置の構成は、実施例1のコマンド入力装置101に、図1で破線で示した認識スコア差分判定部402及び認識スコア差分判定部402に関する入出力線を追加した構成である。
Hereinafter, a description will be made in detail focusing on the differences from the first embodiment. The configuration of the command input device according to the second embodiment is a configuration in which input / output lines related to the recognition score
閾値比較部401は、音声コマンド認識スコア判定部103から入力される音声コマンド候補毎の認識スコアの最大値と、予め記憶している第2の閾値とを比較する。また、ジェスチャコマンド認識スコア判定部106から入力されるジェスチャコマンド候補毎の認識スコアの最大値と、予め記憶している第2の閾値とを比較する。そして、比較結果をコマンド決定部403に出力する。ここで、第2の閾値は、実施例1で説明した第2の閾値と同じものである。
The
認識スコア差分判定部402は、音声コマンド認識スコア判定部103から入力されるコマンド候補毎の認識スコアの最大値と、ジェスチャコマンド認識スコア判定部106から入力されるコマンド候補毎の認識スコアの最大値と、の差分を算出する。そして、算出結果をコマンド決定部403に出力する。
The recognition score
コマンド決定部403は、閾値比較部401から入力される比較結果と、認識スコア差分判定部402から入力される差分と、に応じて、操作対象装置110へ入力するコマンドを決定する方法を実施例1で説明した3つの方法のうちから選択する。
The
図4は、本実施例において、音声入力部102及びジェスチャ入力部105への音声及びジェスチャの入力を契機として開始される処理を示すフローチャートである。
FIG. 4 is a flowchart illustrating processing that is started in response to voice and gesture input to the
S501及びS502は、実施例1のS201及びS202と同一の処理のため、説明を省略する。 Since S501 and S502 are the same processes as S201 and S202 of the first embodiment, description thereof will be omitted.
S503において、閾値比較部401は、S502で算出した音声コマンド候補毎の認識スコアの最大値と、予め記憶している第2の閾値(例えば5%)とを比較し、認識スコアの最大値が第2の閾値以上の場合には、S505に遷移する。一方、認識スコアの最大値が第2の閾値より小さい場合には、S504に遷移する。
In S503, the threshold
S504において、音声コマンド候補の認識スコアが第2の閾値よりも小さいため、操作者はコマンド入力のための発声を行っていないか、又は音声認識に関して著しい認識阻害要因があると判断して、音声コマンド候補を破棄する。 In S504, since the recognition score of the voice command candidate is smaller than the second threshold value, it is determined that the operator has not made a utterance for command input or there is a significant recognition hindrance factor regarding voice recognition. Discard command candidates.
S505の処理は、実施例1のS207と同一の処理のため、説明を省略する。 Since the process of S505 is the same as S207 of the first embodiment, a description thereof will be omitted.
S506において、閾値比較部401は、S505で算出したジェスチャコマンド候補毎の認識スコアの最大値と、予め記憶している第2の閾値(5%)とを比較し、認識スコアの最大値が第2の閾値以上の場合には、S507に遷移する。一方、認識スコアの最大値が第2の閾値より小さい場合には、S504に遷移する。
In S506, the threshold
S504において、ジェスチャコマンド候補の認識スコアが第2の閾値よりも小さいため、操作者はジェスチャによるコマンド入力を行っていないと判断して、ジェスチャコマンド候補を破棄する。 In S504, since the recognition score of the gesture command candidate is smaller than the second threshold value, the operator determines that the command input by the gesture is not performed, and discards the gesture command candidate.
S507において、認識スコア差分判定部402は、S502で算出した音声コマンド候補毎の認識スコアの最大値と、S505で算出したジェスチャコマンド候補毎の認識スコアの最大値と、の差分を算出する。そして、当該算出された差分の絶対値が第3の閾値(例えば50%)以下である場合は、S508に遷移し、差分の絶対値が第3の閾値(50%)より大きい場合は、S509に遷移する。
第3の閾値は、抽出された音声コマンド候補又はジェスチャコマンド候補のいずれかが、それに基づいて操作対象装置110へ入力するコマンドを決定し得るほどの確からしさを有しないか判断するための基準値であり、実験等により最適値を求めて記憶しておく。本実施例で示した50%という数値は一例であって、第3の閾値として最適な数値は実施の形態に応じて異なり得る。
音声コマンド候補の認識スコアの最大値とジェスチャコマンド候補の認識スコアの最大値との差分の絶対値が第3の閾値以下であれば、両コマンド候補はいずれもそれに基づいて入力コマンドを決定し得る確からしさを有すると判断する。一方、当該差分の絶対値が第3の閾値より大きい場合、両コマンド候補のいずれか一方は認識スコアがかなり低く、当該一方のコマンド候補はそれに基づいて入力コマンドを決定し得る確からしさを有さないと判断する。
In S507, the recognition score
The third threshold value is a reference value for determining whether any of the extracted voice command candidates or gesture command candidates has such a certainty that the command to be input to the
If the absolute value of the difference between the maximum recognition score of the voice command candidate and the maximum recognition score of the gesture command candidate is equal to or smaller than the third threshold, both command candidates can determine an input command based on the absolute value. Judge that it has certainty. On the other hand, when the absolute value of the difference is larger than the third threshold value, either one of the command candidates has a considerably low recognition score, and the one command candidate has a certainty that an input command can be determined based on the recognition score. Judge that there is no.
S508において、認識スコア差分判定部402は、音声コマンド候補及びジェスチャコマンド候補の両方に基づいて操作対象装置110へ入力するコマンドを決定することをコマンド決定部403に通知して、S510に遷移する。
In S508, the recognition score
S509において、認識スコア差分判定部402は、音声コマンド候補又はジェスチャコマンド候補のうち認識スコアの最大値が大きい方に基づいて操作対象装置110へ入力するコマンドを決定することをコマンド決定部403に通知して、S510に遷移する。
In step S509, the recognition score
S510において、コマンド決定部403は、認識スコア差分判定部402から通知されたコマンド決定方法に基づいて、操作対象装置110へ入力するコマンドを決定する。
音声コマンド候補及びジェスチャコマンド候補の両方を用いて入力コマンドを決定する場合(S508を実行した場合)は、両者で共通するコマンド候補について認識スコアを積算し、その値が最も大きいコマンド候補を入力コマンドとして決定する。
また、音声コマンド候補又はジェスチャコマンド候補のいずれか一方を用いて入力コマンドを決定する場合(S509を実行した場合)は、該一方のコマンド候補のうちの認識スコアが最大のものを入力コマンドとして決定する。
In S <b> 510, the
When the input command is determined using both the voice command candidate and the gesture command candidate (when S508 is executed), the recognition score is integrated for the command candidate common to both, and the command candidate having the largest value is input command. Determine as.
In addition, when an input command is determined using either one of voice command candidates or gesture command candidates (when S509 is executed), the command with the largest recognition score is determined as the input command. To do.
なお、上記のフローチャートでは、音声コマンド候補の抽出、認識スコア算出及び第2の閾値との比較の処理(S502からS503)の後に、ジェスチャコマンド候補についての同様の処理(S505からS506)を行う例を示した。しかしながら、この処理に関して音声入力についての処理とジェスチャ入力についての処理は順不同であり、ジェスチャ入力についての処理が先でも良い。また、音声入力についての処理及びジェスチャ入力に関する処理を並行して行っても良い。 In the above flowchart, the same processing (S505 to S506) for the gesture command candidate is performed after the voice command candidate extraction, recognition score calculation, and comparison with the second threshold value (S502 to S503). showed that. However, the processing for voice input and the processing for gesture input are out of order with respect to this processing, and the processing for gesture input may be performed first. Further, the process for voice input and the process for gesture input may be performed in parallel.
図5は、上述した認識スコアに応じたコマンド決定方法を示す図である。図5に示すように、音声コマンド候補の認識スコアの最大値又はジェスチャコマンド候補の認識スコアの最大値の少なくとも一方が第2の閾値より小さい場合は、音声コマンド候補及びジェスチャコマンド候補を破棄し、コマンド入力を行わない。この点は実施例1と同様である。 FIG. 5 is a diagram showing a command determination method according to the above-described recognition score. As shown in FIG. 5, when at least one of the maximum recognition score of the voice command candidate or the maximum recognition score of the gesture command candidate is smaller than the second threshold, the voice command candidate and the gesture command candidate are discarded, Do not enter commands. This is the same as in the first embodiment.
それ以外の場合であって、音声コマンド候補の認識スコアの最大値とジェスチャコマンド候補の認識スコアの最大値との差分の絶対値が第3の閾値(50%)以下の場合には、音声コマンド候補及びジェスチャコマンド候補の両方を用いて入力コマンドを決定する。この場合、音声コマンド候補及びジェスチャコマンド候補の認識スコアの偏りが小さいことから、操作者は音声及びジェスチャの両方でコマンド入力を行っており、且つ認識阻害要因もないと判断できるからである。 In other cases, when the absolute value of the difference between the maximum recognition score of the voice command candidate and the maximum recognition score of the gesture command candidate is equal to or smaller than the third threshold (50%), the voice command An input command is determined using both candidates and gesture command candidates. In this case, since the bias of recognition scores of the voice command candidates and the gesture command candidates is small, it is possible for the operator to input commands by both voice and gesture and determine that there is no recognition hindrance factor.
一方、音声コマンド候補の認識スコアの最大値とジェスチャコマンド候補の認識スコアの最大値との差分の絶対値が第3の閾値より大きい場合には、認識スコアの最大値の大きい方に対応するコマンド候補を用いて入力コマンドを決定する。この場合、音声コマンド候補及びジェスチャコマンド候補の一方の認識スコアが低いことから、操作者は音声及びジェスチャの両方でコマンド入力を行っているものの、音声又はジェスチャの一方の認識に関して認識阻害要因があると判断できるからである。 On the other hand, if the absolute value of the difference between the maximum recognition score of the voice command candidate and the maximum recognition score of the gesture command candidate is greater than the third threshold, the command corresponding to the larger recognition score The input command is determined using the candidate. In this case, since the recognition score of one of the voice command candidate and the gesture command candidate is low, the operator inputs a command by both the voice and the gesture, but there is a recognition obstructing factor regarding the recognition of either the voice or the gesture. This is because it can be determined.
本実施例に係るコマンド入力装置101によれば、認識阻害要因によって音声コマンド候補又はジェスチャコマンド候補のいずれかの認識スコアが低下したことを、両コマンド候補の認識スコアの最大値の差分に基づいて判断することができる。そして、操作対象装置110へ入力するコマンドの決定において、認識阻害要因によって認識スコアが低下した方のコマンド候補を用いない。従って、実施例1と同様に、認識阻害要因によって操作者の意図と異なるコマンドが認識されても、それが操作対象装置110への入力コマンドとして決定されることを抑制できる。
また、音声コマンド候補又はジェスチャコマンド候補の少なくとも一方でも認識スコアが著しく低い場合には、操作者が行っている発声又はジェスチャはコマンド入力のための発声又はジェスチャとして正しくないと判断する。或いは、そもそも操作者はコマンド入力のための発声及びジェスチャ自体を行っていないと判断する。そして、音声及びジェスチャに基づく操作対象装置110へのコマンド入力を行わない。従って、操作者が操作対象装置110へのコマンドの入力を意図していない場合に、操作者の意図しないコマンドが操作対象装置110へ入力されてしまうことを抑制できる。
According to the
If at least one of the voice command candidate and the gesture command candidate has a remarkably low recognition score, it is determined that the utterance or gesture performed by the operator is not correct as the utterance or gesture for command input. Alternatively, in the first place, it is determined that the operator does not perform utterance and gesture for command input. Then, no command is input to the
102:音声入力部、105:ジェスチャ入力部、103:音声コマンド認識スコア判定部、106:ジェスチャコマンド認識スコア判定部、108:閾値比較部、109:コマンド決定部 102: Voice input unit, 105: Gesture input unit, 103: Voice command recognition score determination unit, 106: Gesture command recognition score determination unit, 108: Threshold comparison unit, 109: Command determination unit
Claims (16)
操作者による音声が入力される音声入力部と、
操作者によるジェスチャを撮影した画像が入力される画像入力部と、
前記入力される音声に対して音声認識処理を行い、操作対象装置へコマンドを入力するための音声として予め定められた音声のうち該入力される音声と一致する音声の候補を特定し、該入力される音声が該特定した候補に一致する確からしさの指標である音声認識スコアを算出する第1の算出部と、
前記入力される画像に対して画像認識処理を行い、操作対象装置へコマンドを入力するためのジェスチャとして予め定められたジェスチャのうち該入力される画像に撮影されたジェスチャと一致するジェスチャの候補を特定し、該入力される画像に撮影されたジェスチャが該特定した候補に一致する確からしさの指標であるジェスチャ認識スコアを算出する第2の算出部と、
前記特定した候補に基づいて操作対象装置へ入力するコマンドを決定する決定部と、
を備え、
前記決定部は、前記算出した音声認識スコア及びジェスチャ認識スコアのいずれか一方が所定の第1の閾値より小さい場合、他方の認識スコアに対応する候補のみに基づいて操作対象装置へ入力するコマンドを決定し、前記算出した音声認識スコア及びジェスチャ認識スコアの少なくとも一方が、前記第1の閾値より小さい所定の第2の閾値より小さい場合、前記特定した両方の候補を破棄し、前記特定した候補に基づく操作対象装置へ入力するコマンドの決定を行わないことを特徴とする入力装置。 An input device that determines a command to be input to an operation target device based on both voice and gesture by an operator,
A voice input unit for inputting voices by an operator;
An image input unit for inputting an image of a gesture made by an operator;
Voice recognition processing is performed on the input voice, and voice candidates that match the input voice are identified from voices that are predetermined as voices for inputting commands to the operation target device. A first calculation unit that calculates a speech recognition score that is an index of probability that the speech to be matched with the identified candidate;
Image recognition processing is performed on the input image, and gesture candidates that match the gesture photographed in the input image among gestures predetermined as gestures for inputting a command to the operation target device are selected. A second calculation unit that calculates a gesture recognition score that is an index of the probability that the gesture captured in the input image is identified and matches the identified candidate;
And determine tough that determine the command to be input to the operation target device based on the identified candidate,
With
Before Kike' tough, if either one of the speech recognition score and gesture recognition score the calculated is smaller than a predetermined first threshold value, and inputs to the operation target apparatus based on only the candidate corresponding to the other recognition score A command is determined , and at least one of the calculated speech recognition score and gesture recognition score is smaller than a predetermined second threshold value smaller than the first threshold value, the both identified candidates are discarded and the identified An input device that does not determine a command to be input to an operation target device based on a candidate .
決定する入力装置であって、
操作者による音声が入力される音声入力部と、
操作者によるジェスチャを撮影した画像が入力される画像入力部と、
前記入力される音声に対して音声認識処理を行い、操作対象装置へコマンドを入力するための音声として予め定められた音声のうち該入力される音声と一致する音声の候補を特定し、該入力される音声が該特定した候補に一致する確からしさの指標である音声認識スコアを算出する第1の算出部と、
前記入力される画像に対して画像認識処理を行い、操作対象装置へコマンドを入力するためのジェスチャとして予め定められたジェスチャのうち該入力される画像に撮影されたジェスチャと一致するジェスチャの候補を特定し、該入力される画像に撮影されたジェスチャが該特定した候補に一致する確からしさの指標であるジェスチャ認識スコアを算出する第2の算出部と、
前記特定した候補に基づいて操作対象装置へ入力するコマンドを決定する決定部と、
を備え、
前記決定部は、前記算出した音声認識スコアとジェスチャ認識スコアとの差の大きさが所定の第3の閾値より大きい場合、該音声認識スコアとジェスチャ認識スコアのうち大きい方に対応する候補のみに基づいて操作対象装置へ入力するコマンドを決定することを特徴とする入力装置。 An input device that determines a command to be input to an operation target device based on both voice and gesture by an operator,
A voice input unit for inputting voices by an operator;
An image input unit for inputting an image of a gesture made by an operator;
Voice recognition processing is performed on the input voice, and voice candidates that match the input voice are identified from voices that are predetermined as voices for inputting commands to the operation target device. A first calculation unit that calculates a speech recognition score that is an index of probability that the speech to be matched with the identified candidate;
Image recognition processing is performed on the input image, and gesture candidates that match the gesture photographed in the input image among gestures predetermined as gestures for inputting a command to the operation target device are selected. A second calculation unit that calculates a gesture recognition score that is an index of the probability that the gesture captured in the input image is identified and matches the identified candidate;
And determine tough that determine the command to be input to the operation target device based on the identified candidate,
With
Before Kike' tough corresponds towards the magnitude of the difference between the speech recognition score and gesture recognition score and the calculated larger of the predetermined case third greater than the threshold value, the voice recognition score and gesture recognition candidate score An input device that determines a command to be input to the operation target device based only on the command.
前記決定部は、前記複数の候補の音声認識スコアの最大値と、前記第1の閾値及び前記第2の閾値と、を比較する請求項1又は2に記載の入力装置。The input device according to claim 1, wherein the determination unit compares the maximum value of the plurality of candidate speech recognition scores with the first threshold value and the second threshold value.
前記決定部は、前記複数の候補のジェスチャ認識スコアの最大値と、前記第1の閾値及び前記第2の閾値と、を比較する請求項1又は2に記載の入力装置。The input device according to claim 1, wherein the determination unit compares the maximum value of the plurality of candidate gesture recognition scores with the first threshold value and the second threshold value.
操作者による音声が入力される音声入力工程と、
操作者によるジェスチャを撮影した画像が入力される画像入力工程と、
前記入力される音声に対して音声認識処理を行い、操作対象装置へコマンドを入力するための音声として予め定められた音声のうち該入力される音声と一致する音声の候補を特定し、該入力される音声が該特定した候補に一致する確からしさの指標である音声認識スコアを算出する第1の算出工程と、
前記入力される画像に対して画像認識処理を行い、操作対象装置へコマンドを入力するためのジェスチャとして予め定められたジェスチャのうち該入力される画像に撮影されたジェスチャと一致するジェスチャの候補を特定し、該入力される画像に撮影されたジェスチャが該特定した候補に一致する確からしさの指標であるジェスチャ認識スコアを算出する第2の算出工程と、
前記特定した候補に基づいて操作対象装置へ入力するコマンドを決定する決定工程と、を有し、
前記決定工程は、前記算出した音声認識スコア及びジェスチャ認識スコアのいずれか一方が所定の第1の閾値より小さい場合、他方の認識スコアに対応する候補のみに基づいて操作対象装置へ入力するコマンドを決定し、前記算出した音声認識スコア及びジェスチャ認識スコアの少なくとも一方が、前記第1の閾値より小さい所定の第2の閾値より小さい場合、前記特定した両方の候補を破棄し、前記特定した候補に基づく操作対象装置へ入力するコマンドの決定を行わないことを特徴とする入力方法。 An input method for determining a command to be input to an operation target device based on both voice and gesture by an operator,
A voice input process in which the voice of the operator is input;
An image input process in which an image of a gesture made by an operator is input;
Voice recognition processing is performed on the input voice, and voice candidates that match the input voice are identified from voices that are predetermined as voices for inputting commands to the operation target device. A first calculation step of calculating a speech recognition score that is an index of probability that the speech to be matched with the identified candidate;
Image recognition processing is performed on the input image, and gesture candidates that match the gesture photographed in the input image among gestures predetermined as gestures for inputting a command to the operation target device are selected. A second calculation step of determining a gesture recognition score that is an index of the probability that the gesture captured in the input image is identified and matches the identified candidate;
Anda decision step that determine the command to be input to the operation target device based on the candidate that the identified,
Before Kike' constant step, if either one of the speech recognition score and gesture recognition score the calculated is smaller than a predetermined first threshold value, and inputs to the operation target apparatus based on only the candidate corresponding to the other recognition score A command is determined , and at least one of the calculated speech recognition score and gesture recognition score is smaller than a predetermined second threshold value smaller than the first threshold value, the both identified candidates are discarded and the identified An input method characterized by not determining a command to be input to an operation target device based on a candidate .
操作者による音声が入力される音声入力工程と、
操作者によるジェスチャを撮影した画像が入力される画像入力工程と、
前記入力される音声に対して音声認識処理を行い、操作対象装置へコマンドを入力するための音声として予め定められた音声のうち該入力される音声と一致する音声の候補を特定し、該入力される音声が該特定した候補に一致する確からしさの指標である音声認識スコアを算出する第1の算出工程と、
前記入力される画像に対して画像認識処理を行い、操作対象装置へコマンドを入力するためのジェスチャとして予め定められたジェスチャのうち該入力される画像に撮影されたジェスチャと一致するジェスチャの候補を特定し、該入力される画像に撮影されたジェスチャが該特定した候補に一致する確からしさの指標であるジェスチャ認識スコアを算出する第2の算出工程と、
前記特定した候補に基づいて操作対象装置へ入力するコマンドを決定する決定工程と、を有し、
前記決定工程は、前記算出した音声認識スコアとジェスチャ認識スコアとの差の大きさが所定の第3の閾値より大きい場合、該音声認識スコアとジェスチャ認識スコアのうち大きい方に対応する候補のみに基づいて操作対象装置へ入力するコマンドを決定することを特徴とする入力方法。 An input method for determining a command to be input to an operation target device based on both voice and gesture by an operator,
A voice input process in which the voice of the operator is input;
An image input process in which an image of a gesture made by an operator is input;
Voice recognition processing is performed on the input voice, and voice candidates that match the input voice are identified from voices that are predetermined as voices for inputting commands to the operation target device. A first calculation step of calculating a speech recognition score that is an index of probability that the speech to be matched with the identified candidate;
Image recognition processing is performed on the input image, and gesture candidates that match the gesture photographed in the input image among gestures predetermined as gestures for inputting a command to the operation target device are selected. A second calculation step of determining a gesture recognition score that is an index of the probability that the gesture captured in the input image is identified and matches the identified candidate;
Anda decision step that determine the command to be input to the operation target device based on the candidate that the identified,
Before Kike' constant step corresponds towards the magnitude of the difference between the speech recognition score and gesture recognition score and the calculated larger of the predetermined larger than the third threshold value, the voice recognition score and gesture recognition candidate score An input method for determining a command to be input to an operation target device based only on the command.
を算出する請求項9〜12のいずれか1項に記載の入力方法。The input method according to any one of claims 9 to 12, wherein the value is calculated.
前記決定工程では、前記複数の候補の音声認識スコアの最大値と、前記第1の閾値及び前記第2の閾値と、を比較する請求項9又は10に記載の入力方法。The input method according to claim 9 or 10, wherein in the determining step, the maximum value of the plurality of candidate speech recognition scores is compared with the first threshold value and the second threshold value.
前記決定工程では、前記複数の候補のジェスチャ認識スコアの最大値と、前記第1の閾値及び前記第2の閾値と、を比較する請求項9又は10に記載の入力方法。The input method according to claim 9 or 10, wherein in the determination step, the maximum value of the plurality of candidate gesture recognition scores is compared with the first threshold value and the second threshold value.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009285106A JP5430382B2 (en) | 2009-12-16 | 2009-12-16 | Input device and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009285106A JP5430382B2 (en) | 2009-12-16 | 2009-12-16 | Input device and method |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2011128766A JP2011128766A (en) | 2011-06-30 |
JP2011128766A5 JP2011128766A5 (en) | 2013-01-31 |
JP5430382B2 true JP5430382B2 (en) | 2014-02-26 |
Family
ID=44291324
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009285106A Expired - Fee Related JP5430382B2 (en) | 2009-12-16 | 2009-12-16 | Input device and method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5430382B2 (en) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6123121B2 (en) * | 2011-10-14 | 2017-05-10 | ヴイアールアイ株式会社 | Voice control system and program |
JP6169864B2 (en) | 2012-03-21 | 2017-07-26 | 株式会社デンソーアイティーラボラトリ | Speech recognition apparatus, speech recognition program, and speech recognition method |
DE112014002536T5 (en) * | 2013-05-21 | 2016-04-28 | Fairlight Au Pty Ltd | User interface for controlling software applications |
JP6377328B2 (en) * | 2013-08-21 | 2018-08-22 | 東急テクノシステム株式会社 | Train watchman training simulator |
DE112015003357B4 (en) * | 2014-07-22 | 2021-01-14 | Mitsubishi Electric Corporation | Method and system for recognizing a spoken announcement containing a sequence of words |
DE112014007015B4 (en) * | 2014-09-30 | 2021-01-14 | Mitsubishi Electric Corporation | Speech recognition system |
JP6768323B2 (en) * | 2016-03-25 | 2020-10-14 | パイオニア株式会社 | Speech recognition devices and methods, as well as computer programs and recording media |
WO2018003862A1 (en) * | 2016-06-28 | 2018-01-04 | 株式会社ニコン | Control device, display device, program, and detection method |
JP6719434B2 (en) * | 2017-09-25 | 2020-07-08 | Kddi株式会社 | Device control device, device control method, and device control system |
JPWO2019239738A1 (en) * | 2018-06-12 | 2021-07-15 | ソニーグループ株式会社 | Information processing device, information processing method |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11272293A (en) * | 1998-03-24 | 1999-10-08 | Sanyo Electric Co Ltd | Remote controller |
JP2001229180A (en) * | 2000-02-17 | 2001-08-24 | Nippon Telegr & Teleph Corp <Ntt> | Contents retrieval device |
-
2009
- 2009-12-16 JP JP2009285106A patent/JP5430382B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011128766A (en) | 2011-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5430382B2 (en) | Input device and method | |
EP3614377B1 (en) | Object recognition method, computer device and computer readable storage medium | |
EP3155500B1 (en) | Portable electronic equipment and method of operating a user interface | |
CN106973305B (en) | Method and device for detecting bad content in video | |
US9330673B2 (en) | Method and apparatus for performing microphone beamforming | |
KR101501183B1 (en) | Two Mode AGC for Single and Multiple Speakers | |
EP2994910B1 (en) | Method and apparatus for detecting a target keyword | |
JP5060224B2 (en) | Signal processing apparatus and method | |
US8855424B2 (en) | Word recognition method, word recognition program, and information processing device | |
US20090177466A1 (en) | Detection of speech spectral peaks and speech recognition method and system | |
JP2007264473A (en) | Voice processor, voice processing method, and voice processing program | |
JP5849761B2 (en) | Speech recognition system, speech recognition method, and speech recognition program | |
JP2018169494A (en) | Utterance intention estimation device and utterance intention estimation method | |
JP2014081441A (en) | Command determination device, determination method thereof, and command determination program | |
JP2011128766A5 (en) | ||
JP2006251266A (en) | Audio-visual coordinated recognition method and device | |
US7050973B2 (en) | Speaker recognition using dynamic time warp template spotting | |
JP6827536B2 (en) | Voice recognition device and voice recognition method | |
CN107533415B (en) | Voiceprint detection method and device | |
KR101122591B1 (en) | Apparatus and method for speech recognition by keyword recognition | |
JP6616182B2 (en) | Speaker recognition device, discriminant value generation method, and program | |
JP2829014B2 (en) | Speech recognition device and method | |
JP6916130B2 (en) | Speaker estimation method and speaker estimation device | |
JP2018087838A (en) | Voice recognition device | |
KR20130068621A (en) | Apparatus and method for automated processing the large speech data based on utterance verification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121211 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121211 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130725 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130730 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130930 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131105 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131203 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5430382 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |