JP2006251266A - Audio-visual coordinated recognition method and device - Google Patents
Audio-visual coordinated recognition method and device Download PDFInfo
- Publication number
- JP2006251266A JP2006251266A JP2005066512A JP2005066512A JP2006251266A JP 2006251266 A JP2006251266 A JP 2006251266A JP 2005066512 A JP2005066512 A JP 2005066512A JP 2005066512 A JP2005066512 A JP 2005066512A JP 2006251266 A JP2006251266 A JP 2006251266A
- Authority
- JP
- Japan
- Prior art keywords
- face
- detected
- speaker
- voice
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、画像認識と音声認識の両者を用いたヒューマンインタフェース技術に関する。特に、画像認識機能と音声認識機能、および機構制御機能を持つロボットに関する。 The present invention relates to a human interface technique using both image recognition and voice recognition. In particular, the present invention relates to a robot having an image recognition function, a voice recognition function, and a mechanism control function.
近年のロボットは、産業用ロボットのように決められた作業だけを実行するものから、状況を判断し、人間とのコミュニケーション(対話)をはかるものへと進歩しつつある。人間との対話には、周囲環境から対話相手を検出する技術と音声を認識する技術が必要がある。 Recent robots are progressing from performing only predetermined tasks like industrial robots to determining situations and communicating with humans. For dialogue with humans, technology for detecting a conversation partner from the surrounding environment and technology for recognizing speech are required.
従来のロボットと人間の対話では、ロボットの前で対話する人間はあらかじめ決められた1人であり、話者が接話マイクをつけることにより、ロボットに対話者の声のみを認識させていた。接話マイクを用いることにより、話者検出技術は不要となるうえ、周囲の雑音を入力することなく話者の声だけを認識することができた。 In the conventional dialogue between a robot and a human, the person who talks in front of the robot is a predetermined person, and the speaker attaches a close-up microphone so that the robot recognizes only the voice of the conversation person. By using a close-up microphone, speaker detection technology is no longer necessary, and only the voice of the speaker can be recognized without inputting ambient noise.
次に、接話マイクを使わずに対話相手の方向を検出する手段として、複数のマイクを配置して各マイクの位相差を用いて音源の方向を推定する技術がある。さらに、カメラを用いて人間の顔を検出することにより、話者の位置を検出する技術もある。 Next, as a means for detecting the direction of the conversation partner without using the close-talking microphone, there is a technique of arranging a plurality of microphones and estimating the direction of the sound source using the phase difference of each microphone. Further, there is a technique for detecting the position of a speaker by detecting a human face using a camera.
しかしながら、音声のみの場合、人間の声以外のノイズに誤反応するという問題があった。さらに、画像のみの場合は複雑な背景を顔と誤認識することや、照明や顔の角度などの条件により、顔を検出できないという問題があった。このため、画像認識と音声認識の両方を用いて、音声方向に顔があれば、その顔の人物を話者とする技術が考案された。この観点での公知例としては特許文献1〜3がある。特許文献1では、動体検出結果、顔検出結果、音源方向検出結果のいずれかに移動するように制御する。移動中に顔検出された場合に、顔方向に移動し、所定の範囲内に入れば停止する。特許文献2では、顔認識と音源方向推定などを用いて話者を同定している。特許文献3では、顔認識、音声認識などの認識機能の出力結果のいずれか1個以上の結果を用いて話者をトラッキングしている。
However, in the case of only voice, there is a problem that it reacts erroneously to noise other than human voice. Further, in the case of only an image, there are problems that a complicated background is misrecognized as a face, and the face cannot be detected due to conditions such as illumination and face angle. For this reason, a technique has been devised that uses both image recognition and voice recognition, and if there is a face in the voice direction, the person with that face is the speaker. Known examples in this respect include Patent Documents 1 to 3. In Patent Document 1, control is performed to move to any one of a moving object detection result, a face detection result, and a sound source direction detection result. When a face is detected during movement, the face moves in the direction of the face and stops when it falls within a predetermined range. In
本発明で解決しようとする第1の課題は、ロボットの周囲に雑音があり複数の人物が存在する状況下において、正確に対話相手を検出し、対話を実行することである。
特許文献1では、顔認識および音源方向推定の結果のいずれかの方向に移動し、顔が検出された場合、顔方向に移動する。しかしながら、特許文献1の方法では、音源方向に向いた際に見つけた顔を話者とする。音源方向の推定の精度は高くないため、音源方向に複数の人物がいる場合は正確に話者を特定できないという問題点がある。
A first problem to be solved by the present invention is to accurately detect a conversation partner and execute a conversation in a situation where there are noises around the robot and there are a plurality of persons.
In Patent Literature 1, when the face is detected and the face is detected and the face is detected, the face is moved in the face direction. However, in the method of Patent Document 1, the face found when facing the sound source direction is the speaker. Since the accuracy of estimation of the sound source direction is not high, there is a problem that a speaker cannot be specified accurately when there are a plurality of persons in the sound source direction.
本発明で解決しようとする第2の課題は、話者がカメラの視野外に存在し、話者でない人物が視野内に存在するような状況においても、正しく話者を認識することである。特許文献3では、顔認識と音声認識のいずれか1個以上の結果を用いて話者をトラッキングしている。この方法では、認識処理の優先度についての詳細な記述がない。仮に上記の状況においては顔認識を優先した場合、話者の検出を誤るという問題がある。
The second problem to be solved by the present invention is to correctly recognize the speaker even in a situation where the speaker is outside the field of view of the camera and a person who is not the speaker is in the field of view. In
本発明で解決しようとする第3の課題は、音声認識と顔認識が誤認識や認識不能の場合でも適切な制御を行って話者を検出することである。顔認識では、照明条件や話者との距離および顔の角度などの条件により、視野内に顔が存在しても検出できない場合や誤検出する場合がある。音声認識では、静かな室内においては話者の声しか検出されないが、屋外などでは話者の声以外の雑音が存在するため、話者の声と雑音を間違える場合がある。このような状況では、認識が正しく動作することを前提としている従来手法では対応できないという問題点がある。 The third problem to be solved by the present invention is to detect a speaker by performing appropriate control even when voice recognition and face recognition are misrecognized or unrecognizable. In face recognition, depending on conditions such as lighting conditions, distance to the speaker, and face angle, even if a face is present in the field of view, it may not be detected or may be detected incorrectly. In speech recognition, only the voice of the speaker is detected in a quiet room, but noise other than the voice of the speaker is present outdoors and the like, so the voice of the speaker may be mistaken for the noise. In such a situation, there is a problem that the conventional method which assumes that recognition works correctly cannot be dealt with.
特許文献1では、音源方向と顔方向が一致していることが前提条件であるため、認識機能のいずれかが誤認識や認識不能となった場合には話者の特定ができないという問題点がある。 In Patent Document 1, since it is a precondition that the sound source direction and the face direction coincide with each other, there is a problem that the speaker cannot be specified if any of the recognition functions is erroneously recognized or cannot be recognized. is there.
特許文献2では、顔認識と音源方向推定などを用いて、複数の人物が存在する状況下で話者を同定している。しかしながら、この方式では、顔認識や音源方向推定などの各認識機能が常に正しく認識していることが前提となっている。しかし、上記の環境で認識を行う場合、音声認識の誤りや画像処理の誤りは不可避であり、特許文献2の方式では正しく認識できないという問題がある。
In
特許文献3では、顔認識、音声認識などの認識機能の出力結果のいずれか1個以上の結果を用いて話者をトラッキングする。しかしながら、顔認識と音声認識の詳細な制御については説明されておらず、この例だけでは誤認識や認識不能の際に適切な制御はできないという問題点がある。
In
このような課題を解決するために発明された視聴覚連携認識方法は、音声入力と画像入力に基づいて処理を実行する視聴覚連携認識方法であって、話者が発する会話の最初に利用する特定の単語もしくは文の音声とその方向とを認識し、認識に失敗すれば初期状態に戻り、認識に成功すれば検出された音声の方向にカメラを向け、移動中もしくは移動後にカメラから入力された画像から人物の顔を検出し、顔が検出されなかった場合には初期状態に戻り、顔が検出された場合には対話処理を行う。 An audiovisual linkage recognition method invented to solve such a problem is an audiovisual linkage recognition method that executes processing based on voice input and image input, and is a specific method used at the beginning of a conversation uttered by a speaker. Recognize the voice of a word or sentence and its direction, and if the recognition fails, return to the initial state, and if the recognition succeeds, point the camera in the direction of the detected voice and input images from the camera while moving The face of the person is detected, and if no face is detected, the process returns to the initial state, and if a face is detected, a dialogue process is performed.
本発明の効果は、周辺雑音がある環境において、離れた位置から対話者を特定することができることである。さらに詳しくは、接話マイクを用いずに周辺雑音と対話者の声を正しく聞き分けることができることである。本発明の第2の効果は、周囲に複数の人物が存在する場合にも対話者を特定できることである。本発明の第3の効果は、環境条件が悪い場合においても、認識の頑強性が高いことである。周辺に雑音がある場合や複数の人物が存在する場合などにおいて、音声認識や顔認識の一方もしくは両方を誤るか認識できないことがある。このような状況においても、自律的に正しい対話を成功させるよう制御することができる。 The effect of the present invention is that an interlocutor can be identified from a remote location in an environment with ambient noise. More specifically, it is possible to correctly distinguish between ambient noise and a conversation person's voice without using a close-up microphone. The second effect of the present invention is that a conversation person can be specified even when there are a plurality of persons around. The third effect of the present invention is that the robustness of recognition is high even when the environmental conditions are bad. When there is noise in the vicinity or when there are a plurality of persons, one or both of voice recognition and face recognition may be wrong or unrecognizable. Even in such a situation, it is possible to control autonomously to succeed in a correct dialogue.
以下では本発明の全体的な記述のためにいくつかの特定な詳細例を提供する。しかしながら本発明がこれらの特定な詳細なしでも実用化できることは当業者にとっては明白である。本明細書の記述および図面は、当業者が別当業者に発明の内容を開示するのに使用される通常手段である。なお、本明細書において「一実施例」という記述がある場合、必ずしも同じ実施例のみに当てはまるのではなく、個別の実施例は互いに限定的ではない。さらに、本発明の実施例を示す処理の作業順序は、例示であって限定はされない。 The following provide some specific details for an overall description of the invention. However, it will be apparent to those skilled in the art that the present invention may be practiced without these specific details. The descriptions and drawings in this specification are typical means used by those skilled in the art to disclose the subject matter to others skilled in the art. In addition, when there is a description of “one embodiment” in the present specification, it does not necessarily apply only to the same embodiment, and individual embodiments are not limited to each other. Furthermore, the processing order of the processing according to the embodiment of the present invention is illustrative and not limited.
まず、本発明における視聴覚連携装置の構成を図1に示す。100はそれぞれ異なる位置に設置される複数のマイクから構成されるマイクロホンアレイである。110ではマイクロホンアレイからの音声信号から音源の方向を検出する。120では、音源方向の音声を認識する。130は画像を入力するカメラである。140では入力された画像から顔領域を検出する。140においては、顔検出に加えて、検出された顔が登録済みの誰であるかを識別する機能を持っても良い。150はマイクロホンアレイ100やカメラ130の向きや位置を移動させる機構制御部である。移動には、水平垂直方向の回転運動や前進後退や上下左右などの移動運動を含む。160では、話者の位置や話者の話の内容に基づいて対話を制御する。160によって決められたロボットの発話内容がスピーカ170を通じてロボットの声として発せられる。180は全体制御部である。音声認識と顔認識の結果を統合して話者の方向を検出して、その結果に基づいてマイクロホンアレイ100やカメラ130を機構制御部150を通じて移動させ、対話制御部160によって話者と会話する。
First, FIG. 1 shows the configuration of an audiovisual cooperation apparatus according to the present invention.
まず、本実施例の特徴を説明する。本実施例の第1の特徴は、話者の方向を正確に推定するため、音声認識による音源方向と顔検出による顔方向の両者が一致した場合のみ対話を行うことである。一致が条件になっているため、いずれか一方のみを用いる場合に比べて誤認識が少ない。 First, features of the present embodiment will be described. The first feature of the present embodiment is that, in order to accurately estimate the direction of the speaker, the dialogue is performed only when both the sound source direction by voice recognition and the face direction by face detection match. Since coincidence is a condition, there are fewer false recognitions than when only one of them is used.
第2の特徴は、話者方向の検出には音源方向推定の結果を優先して移動し、話者の方向に振り向いた後は顔の方向を優先して話者の方向を詳細に決定することである。これにより、視野内に複数の人物が存在する場合でも話者を特定することができる。 The second feature is that the direction of the sound source direction is preferentially moved for detection of the speaker direction, and after turning around the direction of the speaker, the direction of the face is preferentially determined with priority on the face direction. That is. Thereby, a speaker can be specified even when there are a plurality of persons in the field of view.
第3の特徴は、話者の呼びかけに対しては広い指向性で音源方向推定を行うかわりに、認識可能な単語を限定することである。音源方向推定の範囲を広げることにより周辺雑音と話者の声の判別が難しくなるかわりに、単語を限定することで判別の性能を上げる。 The third feature is that the recognizable words are limited to the speaker's call instead of performing the sound source direction estimation with wide directivity. Although it becomes difficult to discriminate between ambient noise and the voice of the speaker by expanding the range of sound source direction estimation, the discrimination performance is improved by limiting the words.
第4の特徴は、対話開始以降は話者方向のみに指向性を限定することである。指向性を限定することにより、周辺雑音と話者の声を明確に分離できる。
以上の特徴により、高精度な話者検出と対話を実現することができる。
The fourth feature is that directivity is limited only to the speaker direction after the start of the dialogue. By limiting the directivity, the ambient noise and the voice of the speaker can be clearly separated.
With the above features, highly accurate speaker detection and dialogue can be realized.
本発明の第1の実施例として、話者を検出して対話を行う処理のフローを図2と図3を用いて説明する。図2は全体フローであり、図3はステップ250の対話処理部分のみのフローである。
As a first embodiment of the present invention, a processing flow for detecting a speaker and having a conversation will be described with reference to FIGS. FIG. 2 is an overall flow, and FIG. 3 is a flow of only the dialog processing part of
まず、図2について説明する。ステップ200からステップ240までの処理は、話者の方向を検出するための処理である。ステップ200では、話者からロボットへの呼びかけの声を検出する。この処理においては、音源方向の推定範囲を広範囲に設定する。音声入力の範囲は、マイクロホンアレイからの入力の合成により制御することができる。この処理においては、ノイズと呼びかけを精度よく判別するため、呼びかけに用いる単語や文を限定することも可能である。音源方向の推定方法については後述する。ステップ210では、呼びかけの音声と方向が認識されたか否かを判定する。呼びかけが検出されなかった場合には、ステップ200に戻る。すなわち、ロボットは何も反応しないため、話者は再度呼びかけを行うことになる。
First, FIG. 2 will be described. The processing from
ステップ210で呼びかけが検出された場合には、ステップ220で呼びかけ方向に移動する。移動には、角度の変更や前進後退や上下左右等の動作を含む。移動では、対象物や周辺の物体との距離情報を用いることがある。距離情報を得る一実施例としては、ステップ200で音声情報から求めることや、レーザレーダ等の利用、複数のカメラを用いたステレオ視などが挙げられる。ステップ230では呼びかけ方向に向かって顔検出を行う。顔検出処理の一実施例としては、特開平8−272973号公報(特許文献4)に開示された技術がある。これは、画像中から肌色領域を判定することにより顔領域を検出するものであり、画像のH(色相)、S(彩度)、V(明度)の画像情報から顔領域を検出するものである。通常のカメラからの入力を利用するには、RGB信号をHSV信号に変換すればよい。ステップ240では、顔が検出されたか否かを判定する。顔が検出されなかった場合には、ステップ200に戻る。すなわち、ロボットは何も反応しないため、話者は再度呼びかけを行うことになる。ステップ240で顔が検出された場合には、対話相手が検出されたと判断して、ステップ250の対話処理を行う。
If a call is detected in
図3は、図2のステップ250の対話処理の詳細フローである。まず、ステップ300において、呼びかけ者に対してロボットから発話する。ステップ300の発話内容に対応して呼びかけ者が会話を行った場合、ステップ310においてその音声を認識する。この際に、音声認識可能な音源方向の範囲を視野角内、もしくは呼びかけ方向に限定すれば、周辺雑音と会話の音声を分離する精度が高くなる。ステップ310では、音源方向も再度推定する。ステップ320では、音声認識が成功したか否かを判定する。成功しない場合はステップ310に戻る。すなわち、ロボットは何も反応しないため、話者は再度話しかけることになる。
FIG. 3 is a detailed flow of the dialog processing in
音声認識が成功した場合、ステップ330において顔検出を行う。ステップ340では、画像中から顔が検出されたか否かを判定する。顔が検出されなかった場合にはステップ350でロボットが発話する。この場合の発話内容の例としては、顔が検出できないことを伝えるための「顔が検出できません。」や、正面を向いてもらうための「こちらを向いてください。」、立ち位置を変えて照明や背景を変更する「少し右(もしくは左)へ移動してください。」などがある。なお、ステップ350の処理を規定回数以上繰り返した場合、話者は存在しなかったと判断して対話を終了してもよい。また、ステップ350を省略し、検出失敗の場合は直接ステップ330に戻ってもよい。ステップ340で顔が検出された場合には、ステップ360において、ステップ310で求めた音源方向とステップ330で求めた顔方向が一致するか否かを判定する。
If the speech recognition is successful, face detection is performed in step 330. In
方向が一致しない場合には、ステップ370において話者方向に移動する。この移動は、顔の位置がカメラの視野の中心になるようにカメラを移動させることである。ステップ370を行う理由は、音源方向と顔方向の両者が検出された場合、顔方向の検出精度の方が高いからである。これにより、視野内に複数の人物が存在する場合においても、正確に話者を特定することができる。以降の処理においては、ステップ310の音声認識において、指向性を話者方向により強くすることにより、さらに精度の高い認識も可能である。また、ステップ370においては、実際の移動をせずに、視野内での対話相手の判別だけでも良い。
If the directions do not match, move to the speaker direction in
ステップ360において方向が一致した場合には、ステップ380において対話内容に応じて対話を継続するか否かを判定する。対話を継続する場合にはステップ300に戻る。この場合のステップ300の発話内容は、対話の内容により異なる。対話を継続しない場合には、対話を終了する。対話終了後は、図2のステップ200に戻って次の対話の開始を待機してもよい。
If the directions match in
本発明の第2の実施例として、話者を検出して対話を行う処理のフローを図4を用いて説明する。図4において、図2と同じ番号は同じ処理であるため、説明を省略する。
ステップ240で顔が検出されなかった場合、照明条件や顔の角度によって顔が検出できていない可能性がある。このような状況に対応するため、ステップ260において後述のリトライの回数制限をする。リトライが規定回数数以内であれば、ステップ270において、顔検出を改善するためにユーザに対して姿勢変更を要求する発話を行う。具体的な例としては、「こちらを向いてください。」や「(照明の影響のため)少し右(もしくは左)に移動してください。」などがある。規定回数を超えれば、ステップ200における呼びかけ音声の検出が誤っていたと判断してステップ200へ戻る。
As a second embodiment of the present invention, a flow of processing for detecting a speaker and performing a dialogue will be described with reference to FIG. In FIG. 4, the same numbers as those in FIG.
If no face is detected in
以下、実施例1と2で用いている音源方向推定技術の一実施例について説明する。マイクロホンを複数使って、音源の方向を推定する技術の一実施例としては、非特許文献1に示す死角形成型音源定位技術がある。この技術では、判定対象の方向以外に存在する音源方向に死角を形成し、判定対象の方向の音のみを抽出することで、方向毎の音のパワーを算出する。そして、その方向毎の音のパワーから音源方向を推定する。死角形成型音源定位技術は、音源数がマイク数を下回る場合、高精度に音源方向を推定できることが知られている。
Hereinafter, an embodiment of the sound source direction estimation technique used in
100:マイクロホンアレイ、110:音源方向推定部、120:音声認識部、130:カメラ、140:顔認識部、150:機構制御部、160:対話制御部、170:全体制御部。 100: Microphone array, 110: Sound source direction estimation unit, 120: Speech recognition unit, 130: Camera, 140: Face recognition unit, 150: Mechanism control unit, 160: Dialog control unit, 170: Overall control unit
Claims (4)
マイクロホンアレイから入力される音声に基づき、話者が発する会話の最初に利用する特定の単語もしくは文の音声とその方向とを認識し、
該音声認識に失敗すれば初期状態に戻り、
該音声認識に成功すれば検出された音声の方向にカメラを向け、
該カメラから入力された画像から人物の顔を検出し、
顔が検出されなかった場合には初期状態に戻り、
顔が検出された場合には対話処理を行うことを特徴とする視聴覚連携認識方法。 An audiovisual linkage recognition method for executing processing based on audio input and image input,
Based on the voice input from the microphone array, it recognizes the voice and direction of a specific word or sentence used at the beginning of the conversation made by the speaker,
If the speech recognition fails, it returns to the initial state,
If the speech recognition is successful, point the camera in the direction of the detected speech,
Detecting a human face from an image input from the camera,
If no face is detected, it returns to the initial state,
An audio-visual cooperative recognition method characterized in that dialogue processing is performed when a face is detected.
マイクロホンアレイから入力される音声に基づき、話者が発する会話の最初に利用する特定の単語もしくは文の音声とその方向とを認識し、
認識に失敗すれば初期状態に戻り、
認識に成功すれば検出された音声の方向にカメラを向け、
該カメラから入力された画像から人物の顔を検出し、
顔が検出されなかった場合にはユーザに顔が検出できないことを伝えて顔検出処理に戻り、
顔が検出された場合には対話処理を行うことを特徴とする視聴覚連携認識方法。 An audiovisual linkage recognition method for executing processing based on audio input and image input,
Based on the voice input from the microphone array, it recognizes the voice and direction of a specific word or sentence used at the beginning of the conversation made by the speaker,
If recognition fails, it returns to the initial state,
If recognition succeeds, point the camera in the direction of the detected voice,
Detecting a human face from an image input from the camera,
If no face is detected, inform the user that the face cannot be detected and return to the face detection process.
An audio-visual cooperative recognition method characterized in that dialogue processing is performed when a face is detected.
請求項1もしくは請求項2で検出した話者方向に指向性を限定して、話者の音声と方向を認識し、
音声認識に失敗すれば音声認識の待機状態に戻り、
音声認識に成功すれば顔検出処理を行い、
顔が検出されなかった場合には顔が検出されていないことを発話にて伝えて顔検出処理に戻り、
顔が検出された場合には前記音声認識において検出された話者の方向と顔の方向が一致しているか否かを判定し、
一致していなかった場合には請求項1もしくは請求項2で認識した話者方向を修正して、検出された顔方向に移動し、
一致していた場合には対話を継続するか否かを判断し、
対話を継続する場合には、対話の状態遷移に応じて発話内容を選択して発話に戻り、
継続しない場合には、処理を終了することを特徴とする視聴覚連携認識方法。 In the dialogue processing of the audiovisual linkage method according to claim 1 or 2, utterance is performed in response to a talk from a speaker,
Limiting directivity to the speaker direction detected in claim 1 or claim 2, recognizing the voice and direction of the speaker,
If voice recognition fails, it returns to the voice recognition standby state,
If speech recognition is successful, face detection processing is performed.
If no face is detected, tell the utterance that no face is detected and return to the face detection process.
If a face is detected, determine whether the direction of the speaker and the direction of the speaker detected in the voice recognition match,
If they do not match, correct the speaker direction recognized in claim 1 or claim 2 and move to the detected face direction,
If they match, decide whether to continue the conversation,
To continue the dialogue, select the utterance content according to the state transition of the dialogue, return to the utterance,
An audiovisual linkage recognition method characterized in that the processing is terminated if not continued.
複数のマイクから音声情報を採取し、採取した音声情報から音声の方向を推定する音源方向推定部と、推定した音源方向からの音声を認識する音声認識部を有し、
カメラからの画像情報を採取し、採取した画像情報から人間の顔領域を検出する顔認識部を有し、
前記カメラとマイクの位置や方向を移動させるための機構制御部を有し、
前記音源方向推定部と音声認識部、および顔認識部の結果を統合して話者方向の検出と、装置の機構制御部、および会話内容の理解を行う全体制御部を有し、
音声認識結果に応じて対話の状態遷移を判断して発話内容を選択する対話制御部と、発話を行うスピーカを有し、
前記音源方向推定部は、対話の状態に応じて方向推定の指向性を変更する処理と、
前記機構制御部では、前記制御部において推定した音源方向に装置を移動させる処理と、
前記全体制御部では、音声情報と画像情報のを用いた話者方向推定結果の両方が一致したときのみ対話を行う処理を実行することを特徴とする視聴覚連認識携装置。 An audio-visual cooperative recognition device that executes processing based on audio input and image input,
Collecting voice information from a plurality of microphones, having a sound source direction estimation unit that estimates the direction of the voice from the collected voice information, and a voice recognition unit that recognizes the voice from the estimated sound source direction,
It has a face recognition unit that collects image information from the camera and detects a human face area from the collected image information,
A mechanism control unit for moving the position and direction of the camera and microphone;
The sound source direction estimation unit, the speech recognition unit, and the result of the face recognition unit are integrated to detect the speaker direction, the mechanism control unit of the device, and the overall control unit to understand the conversation content,
A dialog control unit that determines the state transition of the dialog according to the speech recognition result and selects the utterance content, and a speaker that utters,
The sound source direction estimating unit changes the directionality of direction estimation according to the state of dialogue;
In the mechanism control unit, a process of moving the device in the sound source direction estimated in the control unit;
The audio-visual recognizing and recognizing portable apparatus characterized in that the overall control unit executes a process of performing a dialogue only when both of the speech direction estimation results using the voice information and the image information match.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005066512A JP2006251266A (en) | 2005-03-10 | 2005-03-10 | Audio-visual coordinated recognition method and device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005066512A JP2006251266A (en) | 2005-03-10 | 2005-03-10 | Audio-visual coordinated recognition method and device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006251266A true JP2006251266A (en) | 2006-09-21 |
Family
ID=37091858
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005066512A Pending JP2006251266A (en) | 2005-03-10 | 2005-03-10 | Audio-visual coordinated recognition method and device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006251266A (en) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100936244B1 (en) * | 2008-02-01 | 2010-01-12 | 전자부품연구원 | Intelligent Robot Voice Input Apparatus and The Method thereof |
WO2013097075A1 (en) * | 2011-12-26 | 2013-07-04 | Intel Corporation | Vehicle based determination of occupant audio and visual input |
JP2014519665A (en) * | 2011-06-10 | 2014-08-14 | アマゾン・テクノロジーズ、インコーポレイテッド | Improved facial recognition in video |
CN105094136A (en) * | 2015-09-14 | 2015-11-25 | 桂林电子科技大学 | Adaptive microphone array sound positioning rescue robot and using method thereof |
JP2018165881A (en) * | 2017-03-28 | 2018-10-25 | カシオ計算機株式会社 | Face detection device, face detection method, and program |
JP2019062435A (en) * | 2017-09-27 | 2019-04-18 | 沖電気工業株式会社 | Equipment control device, equipment control program, equipment control method, dialog device, and communication system |
WO2019093123A1 (en) * | 2017-11-07 | 2019-05-16 | ソニー株式会社 | Information processing device and electronic apparatus |
JP2019152737A (en) * | 2018-03-02 | 2019-09-12 | 株式会社日立製作所 | Speaker estimation method and speaker estimation device |
WO2019198405A1 (en) * | 2018-04-12 | 2019-10-17 | ソニー株式会社 | Information processing device, information processing system, information processing method and program |
JP2019219509A (en) * | 2018-06-20 | 2019-12-26 | カシオ計算機株式会社 | Robot, control method of the same, and program |
CN111421557A (en) * | 2019-01-10 | 2020-07-17 | 三星电子株式会社 | Electronic device and control method thereof |
WO2022019423A1 (en) * | 2020-07-24 | 2022-01-27 | Samsung Electronics Co., Ltd. | Electronic apparatus and method of controlling thereof |
-
2005
- 2005-03-10 JP JP2005066512A patent/JP2006251266A/en active Pending
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100936244B1 (en) * | 2008-02-01 | 2010-01-12 | 전자부품연구원 | Intelligent Robot Voice Input Apparatus and The Method thereof |
JP2014519665A (en) * | 2011-06-10 | 2014-08-14 | アマゾン・テクノロジーズ、インコーポレイテッド | Improved facial recognition in video |
US9355301B2 (en) | 2011-06-10 | 2016-05-31 | Amazon Technologies, Inc. | Enhanced face recognition in video |
WO2013097075A1 (en) * | 2011-12-26 | 2013-07-04 | Intel Corporation | Vehicle based determination of occupant audio and visual input |
CN105094136A (en) * | 2015-09-14 | 2015-11-25 | 桂林电子科技大学 | Adaptive microphone array sound positioning rescue robot and using method thereof |
CN105094136B (en) * | 2015-09-14 | 2017-09-01 | 桂林电子科技大学 | The sound positioning rescue robot and its application method of adaptive microphone array |
US10713513B2 (en) | 2017-03-28 | 2020-07-14 | Casio Computer Co., Ltd. | Object detection device, object detection method, and recording medium |
JP2018165881A (en) * | 2017-03-28 | 2018-10-25 | カシオ計算機株式会社 | Face detection device, face detection method, and program |
JP2019062435A (en) * | 2017-09-27 | 2019-04-18 | 沖電気工業株式会社 | Equipment control device, equipment control program, equipment control method, dialog device, and communication system |
WO2019093123A1 (en) * | 2017-11-07 | 2019-05-16 | ソニー株式会社 | Information processing device and electronic apparatus |
JP2019152737A (en) * | 2018-03-02 | 2019-09-12 | 株式会社日立製作所 | Speaker estimation method and speaker estimation device |
WO2019198405A1 (en) * | 2018-04-12 | 2019-10-17 | ソニー株式会社 | Information processing device, information processing system, information processing method and program |
US11545153B2 (en) | 2018-04-12 | 2023-01-03 | Sony Corporation | Information processing device, information processing system, and information processing method, and program |
JP2019219509A (en) * | 2018-06-20 | 2019-12-26 | カシオ計算機株式会社 | Robot, control method of the same, and program |
JP7176244B2 (en) | 2018-06-20 | 2022-11-22 | カシオ計算機株式会社 | Robot, robot control method and program |
CN111421557A (en) * | 2019-01-10 | 2020-07-17 | 三星电子株式会社 | Electronic device and control method thereof |
EP3680754A3 (en) * | 2019-01-10 | 2020-08-12 | Samsung Electronics Co., Ltd. | Orientation of an electronic device toward a user using utterance localization and image processing. |
US11216655B2 (en) | 2019-01-10 | 2022-01-04 | Samsung Electronics Co., Ltd. | Electronic device and controlling method thereof |
WO2022019423A1 (en) * | 2020-07-24 | 2022-01-27 | Samsung Electronics Co., Ltd. | Electronic apparatus and method of controlling thereof |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2006251266A (en) | Audio-visual coordinated recognition method and device | |
US10019992B2 (en) | Speech-controlled actions based on keywords and context thereof | |
JP4204541B2 (en) | Interactive robot, interactive robot speech recognition method, and interactive robot speech recognition program | |
Lang et al. | Providing the basis for human-robot-interaction: A multi-modal attention system for a mobile robot | |
JP4557919B2 (en) | Audio processing apparatus, audio processing method, and audio processing program | |
US7536029B2 (en) | Apparatus and method performing audio-video sensor fusion for object localization, tracking, and separation | |
JP5456832B2 (en) | Apparatus and method for determining relevance of an input utterance | |
JP4847022B2 (en) | Utterance content recognition device | |
US20200098385A1 (en) | Speech enhancement method and apparatus for same | |
WO2015172630A1 (en) | Camera shooting device and focusing method therefor | |
EP1643769B1 (en) | Apparatus and method performing audio-video sensor fusion for object localization, tracking and separation | |
CN112088315A (en) | Multi-mode speech positioning | |
JP5328744B2 (en) | Speech recognition apparatus and speech recognition method | |
KR102230667B1 (en) | Method and apparatus for speaker diarisation based on audio-visual data | |
WO2007138503A1 (en) | Method of driving a speech recognition system | |
KR100822880B1 (en) | User identification system through sound localization based audio-visual under robot environments and method thereof | |
US11790900B2 (en) | System and method for audio-visual multi-speaker speech separation with location-based selection | |
CN108665907B (en) | Voice recognition device, voice recognition method, recording medium, and robot | |
JP3838159B2 (en) | Speech recognition dialogue apparatus and program | |
JP2008052178A (en) | Voice recognition device and voice recognition method | |
US11107476B2 (en) | Speaker estimation method and speaker estimation device | |
Kim et al. | Auditory and visual integration based localization and tracking of humans in daily-life environments | |
KR20060044008A (en) | A voice recognition apparatus for a number of speaker division | |
JP2015177490A (en) | Image/sound processing system, information processing apparatus, image/sound processing method, and image/sound processing program | |
WO2021206679A1 (en) | Audio-visual multi-speacer speech separation |