JP2002264052A - Robot audio-visual system - Google Patents
Robot audio-visual systemInfo
- Publication number
- JP2002264052A JP2002264052A JP2001067848A JP2001067848A JP2002264052A JP 2002264052 A JP2002264052 A JP 2002264052A JP 2001067848 A JP2001067848 A JP 2001067848A JP 2001067848 A JP2001067848 A JP 2001067848A JP 2002264052 A JP2002264052 A JP 2002264052A
- Authority
- JP
- Japan
- Prior art keywords
- module
- stream
- visual
- event
- robot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Image Processing (AREA)
- Closed-Circuit Television Systems (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Image Analysis (AREA)
- Manipulator (AREA)
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明はロボット、特に人型
または動物型ロボットにおける視聴覚システムに関する
ものである。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an audiovisual system for a robot, particularly a humanoid or animal robot.
【0002】[0002]
【従来の技術】近年、このような人型または動物型ロボ
ットにおいては、視覚,聴覚の能動知覚が注目されてき
ている。能動知覚とは、ロボット視覚やロボット聴覚等
の知覚を担当する知覚装置を、知覚すべき対象に追従す
るように、これらの知覚装置を支持する例えば頭部を駆
動機構により姿勢制御するものである。2. Description of the Related Art In recent years, attention has been paid to active perception of sight and hearing in such humanoid or animal type robots. Active perception is to control the posture of a head that supports these perception devices, such as a head, by a drive mechanism so that the perception device that is responsible for perception such as robot vision and robot hearing follows an object to be perceived. .
【0003】ここで、能動視覚に関しては、少なくとも
知覚装置であるカメラが、駆動機構による姿勢制御によ
ってその光軸方向が対象に向かって保持され、対象に対
して自動的にフォーカシングやズームイン,ズームアウ
ト等が行なわれることにより、対象がカメラによって撮
像されるようになっており、種々の研究が行なわれてい
る。Here, with regard to active vision, at least a camera, which is a perceptual device, holds its optical axis direction toward a subject by attitude control by a driving mechanism, and automatically focuses, zooms in, and zooms out on the subject. As a result, the object is imaged by a camera, and various studies have been made.
【0004】これに対して、能動聴覚に関しては、少な
くとも知覚装置であるマイクが、駆動機構による姿勢制
御によってその指向性が対象に向かって保持され、対象
からの音がマイクによって集音される。このような能動
聴覚は、例えば本出願人による特願2000−2267
7号(ロボット聴覚システム)に開示されており、視覚
情報を参照して音源の方向付けを行なうようにしてい
る。[0004] On the other hand, regarding active hearing, at least a microphone, which is a perceptual device, maintains its directivity toward an object by attitude control by a drive mechanism, and sounds from the object are collected by the microphone. Such active hearing is disclosed, for example, in Japanese Patent Application No. 2000-2267 by the present applicant.
No. 7 (robot hearing system), which directs a sound source with reference to visual information.
【0005】[0005]
【発明が解決しようとする課題】ところで、これらの能
動視覚及び能動聴覚は、ロボットの向き(水平方向)を
変更するためのモータ制御モジュールと密接に関連があ
り、特定の対象に対して能動視覚及び能動聴覚を働かせ
るためには、ロボットを特定の対象に向ける、即ちアテ
ンション制御を行なう必要がある。しかしながら、視覚
及び聴覚をモータ制御モジュールの制御と統合させるた
めには、視覚及び聴覚の追跡を行なうためのリアルタイ
ム処理が必要であると共に、このような視覚及び聴覚の
追跡状態をリアルタイム処理に視覚化することは、ロボ
ット内部におけるリアルタイム処理を把握するために非
常に有用であるが、従来のロボット開発においては、単
一音源を対象としたリアルタイム処理を行なうものは実
現されているが、例えば複数の人間が互いに話をしてい
るような状況において、リアルタイム処理により各人を
同定して、能動聴覚を行なうことは行なわれておらず、
さらにこのようなリアルタイム処理を視覚化することも
行なわれていない。Incidentally, these active vision and active hearing are closely related to a motor control module for changing the orientation (horizontal direction) of the robot, and the active vision and the active hearing are performed for a specific object. In order to activate active hearing, it is necessary to aim the robot at a specific target, that is, to perform attention control. However, in order to integrate vision and hearing with the control of the motor control module, real-time processing for tracking vision and hearing is required, and such visual and auditory tracking status is visualized in real-time processing. It is very useful to understand the real-time processing inside the robot, but in the conventional robot development, one that performs real-time processing for a single sound source has been realized. In a situation where humans are talking to each other, it is not performed to identify each person by real-time processing and perform active hearing,
Further, visualization of such real-time processing has not been performed.
【0006】この発明は、以上の点にかんがみて、対象
に対する視覚及び聴覚の追跡を行なうためのリアルタイ
ム処理を可能にすると共に、このリアルタイム処理を視
覚化するようにした、ロボット視聴覚システムを提供す
ることを目的としている。In view of the above points, the present invention provides a robot audio-visual system that enables real-time processing for tracking the visual and auditory sense of an object and visualizes the real-time processing. It is intended to be.
【0007】[0007]
【課題を解決するための手段】前記目的は、この発明に
よれば、外部の音を集音する少なくとも一対のマイクを
含む聴覚モジュールと、ロボットの前方を撮像するカメ
ラを含む視覚モジュールと、ロボットを水平方向に回動
させる駆動モータを含むモータ制御モジュールと、聴覚
モジュール,視覚モジュール及びモータ制御モジュール
からのイベントを統合してストリームを生成するアソシ
エーションモジュールと、アソシエーションモジュール
により生成されたストリームに基づいてアテンション制
御を行なうアテンション制御モジュールと、を備えてい
るロボット視聴覚システムであって、聴覚モジュール
が、マイクからの音響信号に基づいて、ピッチ抽出,音
源の分離及び定位から、少なくとも一人の話者の音源を
同定してその聴覚イベントを抽出し、視覚モジュール
が、カメラにより撮像された画像に基づいて、各話者の
顔識別と定位からその視覚イベントを抽出し、モータ制
御モジュールが、駆動モータの回転位置に基づいて、モ
ータイベントを抽出することにより、アソシエーション
モジュールが、聴覚イベント,視覚イベント及びモータ
イベントから、聴覚ストリーム及び視覚ストリームと、
これらを関連付けたアソシエーションストリームを生成
して、アテンション制御モジュールが、これらのストリ
ームに基づいてモータ制御モジュールの駆動モータ制御
のプランニングのためのアテンション制御を行なうと共
に、聴覚モジュールによる聴覚情報,視覚モジュールに
よる視覚情報及びモータモジュールによるモータ情報、
そしてアソシエーションモジュールによるストリーム情
報の少なくとも一部を表示する表示部を備えていること
を特徴とするロボット視聴覚システムにより、達成され
る。According to the present invention, there is provided a hearing module including at least a pair of microphones for collecting external sounds, a visual module including a camera for capturing an image in front of the robot, and a robot. A motor control module that includes a drive motor that rotates the camera horizontally, an association module that integrates events from the auditory module, the vision module, and the motor control module to generate a stream, and a stream generated by the association module. An attention control module for performing attention control, wherein the hearing module is configured to detect at least one speaker's sound source from pitch extraction, sound source separation and localization based on a sound signal from a microphone. To identify the auditory The visual module extracts the visual event from the face identification and localization of each speaker based on the image captured by the camera, and the motor control module outputs the motor event based on the rotational position of the drive motor. By extracting the events, the association module divides the auditory, visual and motor events into auditory and visual streams,
An association control stream is generated by associating them with each other, and the attention control module performs attention control for planning the drive motor control of the motor control module based on these streams. Information and motor information by motor module,
The present invention is attained by a robot audio-visual system that includes a display unit that displays at least a part of stream information by an association module.
【0008】また、前記目的は、この発明によれば、外
部の音を集音する少なくとも一対のマイクを含む聴覚モ
ジュールと、ロボットの前方を撮像するカメラを含む視
覚モジュールと、ロボットを水平方向に回動させる駆動
モータを含むモータ制御モジュールと、聴覚モジュー
ル,視覚モジュール及びモータ制御モジュールからのイ
ベントを統合してストリームを生成するアソシエーショ
ンモジュールと、アソシエーションモジュールにより生
成されたストリームに基づいてアテンション制御を行な
うアテンション制御モジュールと、を備えている人型ま
たは動物型のロボットの視聴覚システムであって、聴覚
モジュールが、マイクからの音響信号に基づいて、ピッ
チ抽出,音源の分離及び定位から、少なくとも一人の話
者の音源を同定してその聴覚イベントを抽出し、視覚モ
ジュールが、カメラにより撮像された画像に基づいて、
各話者の顔識別と定位からその視覚イベントを抽出し、
モータ制御モジュールが、駆動モータの回転位置に基づ
いて、モータイベントを抽出することにより、アソシエ
ーションモジュールが、聴覚イベント,視覚イベント及
びモータイベントから、聴覚ストリーム及び視覚ストリ
ームと、これらを関連付けたアソシエーションストリー
ムを生成して、アテンション制御モジュールが、これら
のストリームに基づいてモータ制御モジュールの駆動モ
ータ制御のプランニングのためのアテンション制御を行
なうと共に、聴覚モジュールによる聴覚情報,視覚モジ
ュールによる視覚情報及びモータモジュールによるモー
タ情報、そしてアソシエーションモジュールによるスト
リーム情報の少なくとも一部を表示する表示部を備えて
いることを特徴とするロボット視聴覚システムにより、
達成される。Further, according to the present invention, there is provided a hearing module including at least a pair of microphones for collecting external sounds, a visual module including a camera for capturing an image in front of the robot, and A motor control module including a driving motor to be rotated; an association module that integrates events from the hearing module, the vision module, and the motor control module to generate a stream; and performs attention control based on the stream generated by the association module. An audio-visual system for a humanoid or animal-type robot, comprising: an attention control module, the audio-visual module comprising at least one talker based on an acoustic signal from a microphone, from pitch extraction, sound source separation and localization. Identify the sound source of the person To extract the auditory event, visual module, based on the image captured by the camera,
Extracting the visual event from each speaker's face identification and localization,
The motor control module extracts a motor event based on the rotational position of the drive motor, so that the association module converts the auditory stream, the visual stream, and the motor event from the auditory stream, the visual stream, and the association stream that associates the audio stream and the visual stream with each other. Then, the attention control module performs attention control for the planning of the drive motor control of the motor control module based on these streams, and outputs the auditory information by the auditory module, the visual information by the visual module, and the motor information by the motor module. And a robot audiovisual system, comprising a display unit for displaying at least a part of the stream information by the association module,
Achieved.
【0009】本発明によるロボット聴覚装置は、好まし
くは、前記表示部が、聴覚情報として音源からの音響信
号のスペクトル及び抽出されたピーク、そして聴覚イベ
ントを表示する聴覚表示部を備えている。[0009] In the robot hearing device according to the present invention, preferably, the display unit includes an auditory display unit that displays a spectrum of an acoustic signal from a sound source, an extracted peak, and an auditory event as auditory information.
【0010】本発明によるロボット聴覚装置は、好まし
くは、前記聴覚表示部が、縦軸をロボットを中心とする
相対的な方位角,横軸をピッチとし、直径を確信度とす
る円により聴覚イベントを表示する。In the robot auditory apparatus according to the present invention, preferably, the auditory display unit comprises an auditory event represented by a circle having a vertical axis representing a relative azimuth about the robot, a horizontal axis representing a pitch, and a diameter representing a certainty factor. Is displayed.
【0011】本発明によるロボット聴覚装置は、好まし
くは、前記表示部が、視覚情報として、抽出した顔を枠
で示すカメラ画像と、視覚イベントを表示する視覚表示
部を備えている。Preferably, in the robot hearing device according to the present invention, the display unit includes a camera image indicating the extracted face as a frame as visual information and a visual display unit for displaying a visual event.
【0012】本発明によるロボット聴覚装置は、好まし
くは、前記視覚表示部が、確信度付きで抽出した顔識別
及び顔定位のリストにより視覚イベントを表示する。In the robot hearing device according to the present invention, preferably, the visual display unit displays a visual event by a list of face identification and face localization extracted with certainty.
【0013】本発明によるロボット聴覚装置は、好まし
くは、前記表示部が、モータ情報として、ロボットの向
き及び動作の速度をリアルタイムに三次元表示するモー
タ表示部を備えている。[0013] In the robot hearing device according to the present invention, preferably, the display unit includes a motor display unit that three-dimensionally displays the direction and the operation speed of the robot in real time as motor information.
【0014】本発明によるロボット聴覚装置は、好まし
くは、前記表示部が、ストリーム情報として、ストリー
ムチャート及びレーダチャートを表示するストリーム表
示部を備えている。In the robot hearing device according to the present invention, preferably, the display unit includes a stream display unit that displays a stream chart and a radar chart as stream information.
【0015】本発明によるロボット聴覚装置は、好まし
くは、前記ストリーム表示部が、ストリームチャートに
て、各聴覚ストリーム及び視覚ストリームそしてアソシ
エーションストリームによりストリーム情報を表示す
る。[0015] In the robot hearing device according to the present invention, preferably, the stream display unit displays stream information in the form of a stream chart with each of an auditory stream, a visual stream, and an association stream.
【0016】本発明によるロボット聴覚装置は、好まし
くは、前記ストリーム表示部が、レーダチャートにて、
カメラ視野と音源定位によりそのときのストリーム状態
を表示する。[0016] In the robot hearing device according to the present invention, preferably, the stream display unit includes a radar chart.
The stream state at that time is displayed by the camera's visual field and sound source localization.
【0017】前記構成によれば、聴覚モジュールが、マ
イクが集音した外部の対象からの音から調波構造を利用
してピッチ抽出を行なうことにより音源毎の方向を得
て、個々の話者の音源を同定し、その聴覚イベントを抽
出する。また、視覚モジュールが、カメラにより撮像さ
れた画像から、パターン認識による各話者の顔識別と定
位から個々の話者の視覚イベントを抽出する。さらに、
モータ制御モジュールが、ロボットを水平方向に回動さ
せる駆動モータの回転位置に基づいて、ロボットの方向
を検出することによって、モータイベントを抽出する。
尚、前記イベントとは、各時点において音または顔が検
出され、ピッチ及び方向等の特徴が抽出されて、話者同
定や顔識別等が行なわれること、あるいは駆動モータが
回転される状態を示しており、ストリームとは、時間的
に連続するイベントを示している。According to the above configuration, the auditory module obtains the direction of each sound source by performing pitch extraction using the harmonic structure from the sound from the external object collected by the microphone, thereby obtaining the direction of each sound source. And the auditory event is extracted. Further, the visual module extracts, from the image captured by the camera, a visual event of each speaker from face identification and localization of each speaker by pattern recognition. further,
A motor control module extracts a motor event by detecting a direction of the robot based on a rotation position of a drive motor that rotates the robot in a horizontal direction.
Note that the event indicates a state in which a sound or face is detected at each time point, features such as pitch and direction are extracted, speaker identification and face identification are performed, or a drive motor is rotated. The stream indicates an event that is temporally continuous.
【0018】ここで、アソシエーションモジュールは、
このようにしてそれぞれ抽出された聴覚イベント,視覚
イベント及びモータイベントに基づいて、各話者の聴覚
ストリーム及び視覚ストリームを生成し、さらにこれら
のストリームを関連付けてアソシエーションストリーム
を生成して、アテンション制御モジュールが、これらの
ストリームに基づいてアテンション制御を行なうことに
より、モータ制御モジュールの駆動モータ制御のプラン
ニングを行なう。アテンションとは、ロボットが対象で
ある話者を、聴覚的及び/又は視覚的に「注目」するこ
とであり、アンテンション制御とは、モータ制御モジュ
ールによりその向きを変えることにより、ロボットが前
記話者に注目するようにすることである。そして、アテ
ンション制御モジュールは、このプランニングに基づい
て、モータ制御モジュールの駆動モータを制御すること
により、ロボットの方向を対象である話者に向ける。こ
れにより、ロボットが対象である話者に対して正対する
ことにより、聴覚モジュールが当該話者の声をマイクに
より正確に集音することができる共に、視覚モジュール
が当該話者の画像をカメラにより良好に撮像することが
できるようになる。Here, the association module is
Based on the auditory event, visual event, and motor event thus extracted, an auditory stream and a visual stream of each speaker are generated, and the streams are associated with each other to generate an association stream. However, by performing attention control based on these streams, planning of drive motor control of the motor control module is performed. Attention refers to the auditory and / or visual "attention" of the speaker to which the robot is intended. Attention control means that the robot changes its orientation by means of a motor control module so that the robot can speak. To pay attention to the person. Then, the attention control module controls the drive motor of the motor control module based on the planning, thereby directing the robot to the target speaker. This allows the robot to face the target speaker so that the auditory module can accurately collect the speaker's voice with the microphone, and the visual module can capture the speaker's image with the camera. Good imaging can be performed.
【0019】従って、このような聴覚モジュール,視覚
モジュール及びモータ制御モジュールと、アソシエーシ
ョンモジュール及びアテンション制御モジュールとの連
携によって、ロボットの聴覚及び視覚がそれぞれ有する
曖昧性が互いに補完されることになり、所謂ロバスト性
が向上し、複数の話者であっても各話者をそれぞれ知覚
することができる。また、例えば聴覚イベントまたは視
覚イベントの何れか一方が欠落したときであっても、視
覚イベントまたは聴覚イベントのみに基づいて、対象で
ある話者をアテンション制御モジュールが追跡すること
ができるので、リアルタイムにモータ制御モジュールの
制御を行なうことができる。Therefore, the cooperation of the hearing module, the vision module, and the motor control module with the association module and the attention control module complements the ambiguity of the hearing and vision of the robot. Robustness is improved, and even if there are a plurality of speakers, each speaker can be perceived. Also, for example, even when either the auditory event or the visual event is missing, the attention control module can track the target speaker based on only the visual event or the auditory event, so that The control of the motor control module can be performed.
【0020】さらに、表示部により、前記聴覚モジュー
ルによる聴覚情報,視覚モジュールによる視覚情報及び
モータモジュールによるモータ情報、そしてアソシエー
ションモジュールによるストリーム情報の少なくとも一
部を表示して、アソシエーションモジュールによるリア
ルタイム処理を視覚化することにより、リアルタイム処
理の状態を視覚により直感的に把握することができる。Further, the display unit displays at least a part of the auditory information by the auditory module, the visual information by the visual module, the motor information by the motor module, and the stream information by the association module, and visualizes the real-time processing by the association module. This makes it possible to visually and intuitively grasp the state of the real-time processing.
【0021】前記表示部が、聴覚情報として、音源から
の音響信号のスペクトル及び抽出されたピーク、そして
聴覚イベントを表示する聴覚表示部を備えている場合、
そして前記聴覚表示部が、縦軸をロボットを中心とする
相対的な方位角,横軸をピッチとし、直径を確信度とす
る円により聴覚イベントを表示する場合には、聴覚表示
部を見ることによって、聴覚情報を直感的に把握するこ
とができる。In the case where the display unit includes an auditory display unit that displays, as auditory information, a spectrum of an acoustic signal from a sound source, an extracted peak, and an auditory event.
When the auditory display unit displays an auditory event by a circle having a relative azimuth centered on the robot on the vertical axis, a pitch on the horizontal axis, and a certainty factor on the diameter, look at the auditory display unit. Thereby, the auditory information can be grasped intuitively.
【0022】前記表示部が、視覚情報として、抽出した
顔を枠で示すカメラ画像と、視覚イベントを表示する視
覚表示部を備えている場合、そして前記視覚表示部が、
確信度付きで抽出した顔識別及び顔定位のリストによ
り、視覚イベントを表示する場合には、視覚表示部を見
ることによって、視覚情報を直感的に把握することがで
きる。前記表示部が、モータ情報として、ロボットの向
き及び動作の速度をリアルタイムに三次元表示するモー
タ表示部を備えている場合には、モータ表示部を見るこ
とによって、モータ情報を直感的に把握することができ
る。When the display unit includes a camera image indicating the extracted face as a frame as visual information, and a visual display unit for displaying a visual event, the visual display unit includes:
When a visual event is displayed based on the list of face identification and face localization extracted with certainty, visual information can be intuitively grasped by looking at the visual display unit. When the display unit includes a motor display unit that three-dimensionally displays the direction and the speed of the robot in real time as the motor information, the motor information is intuitively grasped by looking at the motor display unit. be able to.
【0023】前記表示部が、ストリーム情報として、ス
トリームチャート及びレーダチャートを表示するストリ
ーム表示部を備えている場合、そして前記ストリーム表
示部が、ストリームチャートにて、各聴覚ストリーム及
び視覚ストリームそしてアソシエーションストリームに
よりストリーム情報を表示する場合、さらに前記ストリ
ーム表示部が、レーダチャートにて、カメラ視野と音源
定位によりそのときのストリーム状態を表示する場合に
は、ストリーム表示部を見ることによってそのときのス
トリームの状態及び各ストリームの変化状態を直感的に
把握することができる。When the display unit has a stream display unit for displaying a stream chart and a radar chart as stream information, and the stream display unit displays each of an auditory stream, a visual stream, and an association stream in a stream chart. When the stream information is displayed by, the stream display unit further displays the stream state by the camera chart and the sound source localization in the radar chart. The state and the change state of each stream can be grasped intuitively.
【0024】このようにして、聴覚情報及び視覚情報と
して、シンボリックなイベント及びストリームという情
報を扱っていることにより、生の音声データや画像デー
タを扱う場合と比較して、データ量が大幅に圧縮される
ことになるので、表示部におけるリアルタイム表示が可
能となる。As described above, since the information of symbolic events and streams is handled as the auditory information and the visual information, the data amount is greatly reduced as compared with the case where the raw audio data and the image data are handled. Therefore, real-time display on the display unit becomes possible.
【0025】[0025]
【発明の実施の形態】以下、図面に示した実施形態に基
づいて、この発明を詳細に説明する。図1乃至図4はこ
の発明によるロボット視聴覚システムの一実施形態を備
えた実験用の人型ロボットの全体構成を示している。図
1において、人型ロボット10は、4DOF(自由度)
のロボットとして構成されており、ベース11と、ベー
ス11上にて一軸(垂直軸)周りに回動可能に支持され
た胴体部12と、胴体部12上にて、三軸方向(垂直
軸,左右方向の水平軸及び前後方向の水平軸)の周りに
揺動可能に支持された頭部13と、を含んでいる。DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, the present invention will be described in detail based on embodiments shown in the drawings. 1 to 4 show the overall configuration of an experimental humanoid robot provided with an embodiment of the robot audiovisual system according to the present invention. In FIG. 1, the humanoid robot 10 has 4 DOF (degree of freedom).
The robot includes a base 11, a body 12 supported on the base 11 so as to be rotatable around one axis (vertical axis), and a three-axis direction (vertical axis, (A horizontal axis in the left-right direction and a horizontal axis in the front-rear direction).
【0026】前記ベース11は固定配置されていてもよ
く、脚部として動作可能としてもよい。また、ベース1
1は、移動可能な台車等の上に載置されていてもよい。
前記胴体部12は、ベース11に対して垂直軸の周り
に、図1にて矢印Aで示すように回動可能に支持されて
おり、図示しない駆動手段によって回転駆動されると共
に、図示の場合、防音性の外装によって覆われている。The base 11 may be fixedly arranged, and may be operable as a leg. Also base 1
1 may be mounted on a movable cart or the like.
The body portion 12 is rotatably supported as shown by an arrow A in FIG. 1 around a vertical axis with respect to the base 11, and is driven to rotate by driving means (not shown). , Covered by a soundproof exterior.
【0027】前記頭部13は胴体部12に対して連結部
材13aを介して支持されており、この連結部材13a
に対して前後方向の水平軸の周りに、図1にて矢印Bで
示すように揺動可能に、また左右方向の水平軸の周り
に、図2にて矢印Cで示すように揺動可能に支持されて
いると共に、前記連結部材13aが、胴体部12に対し
てさらに前後方向の水平軸の周りに、図1にて矢印Dで
示すように揺動可能に支持されており、それぞれ図示し
ない駆動手段によって、各矢印A,B,C,D方向に回
転駆動される。The head 13 is supported on the body 12 via a connecting member 13a.
Can swing about a horizontal axis in the front-rear direction, as shown by an arrow B in FIG. 1, and can swing about a horizontal axis in the left-right direction, as shown by an arrow C in FIG. In addition, the connecting member 13a is swingably supported as shown by an arrow D in FIG. It is rotationally driven in the directions of the arrows A, B, C, and D by the non-driving means.
【0028】ここで、前記頭部13は、図3に示すよう
に全体が防音性の外装14により覆われていると共に、
前側にロボット視覚を担当する視覚装置としてのカメラ
15を、また両側にロボット聴覚を担当する聴覚装置と
しての一対のマイク16(16a,16b)を備えてい
る。Here, the head 13 is entirely covered with a soundproof exterior 14 as shown in FIG.
A camera 15 is provided on the front side as a visual device in charge of robot vision, and a pair of microphones 16 (16a, 16b) are provided on both sides as hearing devices in charge of robot hearing.
【0029】前記外装14は、例えばウレタン樹脂等の
吸音性の合成樹脂から構成されており、頭部13の内部
をほぼ完全に密閉することにより、頭部13の内部の遮
音を行なうように構成されている。尚、胴体部12の外
装も、同様にして吸音性の合成樹脂から構成されてい
る。前記カメラ15は公知の構成であって、例えば所謂
パン,チルト,ズームの3DOF(自由度)を有する市
販のカメラが適用できる。The exterior 14 is made of a sound-absorbing synthetic resin such as a urethane resin, for example. The interior of the head 13 is sound-insulated by almost completely sealing the interior of the head 13. Have been. The exterior of the body 12 is also made of a synthetic resin having a sound absorbing property. The camera 15 has a known configuration, and for example, a commercially available camera having a so-called pan, tilt, and zoom 3DOF (degree of freedom) can be applied.
【0030】前記マイク16は、それぞれ頭部13の側
面において、前方に向かって指向性を有するように取り
付けられている。ここで、マイク16の左右の各マイク
16a,16bは、それぞれ図1及び図2に示すよう
に、外装14の両側にて前方に向いた段部14a,14
bにて内側に取り付けられ、段部14a,14bに設け
られた貫通穴を通して前方の音を集音すると共に、外装
14の内部の音を拾わないように、適宜の手段により遮
音されている。これにより、マイク16a,16bは、
所謂バイノーラルマイクとして構成されている。なお、
マイク16a,16bの取付位置の近傍において、外装
14は人間の外耳形状に形成されていてもよい。The microphones 16 are mounted on the side surfaces of the head 13 so as to have directivity toward the front. Here, the left and right microphones 16a and 16b of the microphone 16 are, as shown in FIG. 1 and FIG.
b, the sound is collected by a suitable means so as to collect sound from the front through through holes provided in the steps 14a and 14b and not to pick up sound inside the exterior 14. Thus, the microphones 16a and 16b
It is configured as a so-called binaural microphone. In addition,
In the vicinity of the mounting positions of the microphones 16a and 16b, the exterior 14 may be formed in the shape of a human outer ear.
【0031】図4は、前記マイク16及びカメラ15を
含むロボット視聴覚システムの電気的構成を示してい
る。図4において、視聴覚システム17は、パーティ受
付及びコンパニオン用ロボットとしての構成であり、聴
覚モジュール20,視覚モジュール30,モータ制御モ
ジュール40,対話モジュール50及びアソシエーショ
ンモジュール60から構成されている。以下、図4の各
部を拡大して示す図5〜図9をも参照しつつさらに説明
する。説明の便宜上、聴覚モジュール20をブロック1
として図5に拡大して示し、視覚モジュール30をブロ
ック2として図6に拡大して示し、モータ制御モジュー
ル40をブロック3として図7に拡大して示し、対話モ
ジュール50をブロック4として図8に拡大して示し、
さらに、アソシエーションモジュール60をブロック5
として図9に拡大して示す。ここで、アソシエーション
モジュール60(ブロック5、図9)はサーバから構成
されていると共に、他のモジュール、即ち聴覚モジュー
ル20(ブロック1、図5),視覚モジュール30(ブ
ロック2、図6),モータ制御モジュール40(ブロッ
ク3、図7),対話モジュール50(ブロック4、図
8)は、それぞれクライアントから構成されており、互
いに非同期で動作する。FIG. 4 shows an electrical configuration of the robot audiovisual system including the microphone 16 and the camera 15. In FIG. 4, the audiovisual system 17 is configured as a party reception and companion robot, and includes an audio module 20, a visual module 30, a motor control module 40, a dialog module 50, and an association module 60. Hereinafter, a further description will be given with reference to FIGS. For convenience of explanation, the auditory module 20 is block 1
5, the visual module 30 is shown as a block 2 in FIG. 6, the motor control module 40 is shown as a block 3 in FIG. 7, and the dialogue module 50 is a block 4 in FIG. Shown enlarged,
Further, the association module 60 is set to block 5
FIG. 9 is an enlarged view of FIG. Here, the association module 60 (block 5, FIG. 9) is composed of a server, and has other modules, ie, the hearing module 20 (block 1, FIG. 5), the visual module 30 (block 2, FIG. 6), and the motor. The control module 40 (block 3, FIG. 7) and the dialogue module 50 (block 4, FIG. 8) are each composed of a client and operate asynchronously with each other.
【0032】尚、前記サーバ及び各クライアントは、例
えばパーソナルコンピュータにより構成されており、例
えば100Base−T等のネットワーク70を介し
て、例えばTCP/IPプロトコルにより、相互にLA
N接続されている。また、各モジュール20,30,4
0,50,60は、それぞれ階層的に分散して、具体的
には下位から順次にデバイス層,プロセス層,特徴層,
イベント層から構成されている。The server and each client are composed of, for example, a personal computer, and are mutually LA-connected via a network 70 such as 100Base-T using, for example, the TCP / IP protocol.
N connections are made. In addition, each module 20, 30, 4
0, 50, and 60 are hierarchically distributed, and specifically, are device layers, process layers, feature layers,
It consists of an event layer.
【0033】図5に示すように、前記聴覚モジュール2
0は、デバイス層としてのマイク16と、プロセス層と
してのピーク抽出部21,音源定位部22,音源分離部
23と、特徴層(データ)としてのピッチ24,水平方
向25と、イベント層としての聴覚イベント生成部26
及びビューア27と、から構成されている。As shown in FIG. 5, the hearing module 2
0 denotes a microphone 16 as a device layer, a peak extraction unit 21, a sound source localization unit 22, and a sound source separation unit 23 as process layers, a pitch 24 as a characteristic layer (data), a horizontal direction 25, and an event layer as an event layer. Auditory event generator 26
And a viewer 27.
【0034】これにより、聴覚モジュール20は、マイ
ク16からの音響信号に基づいて、ピーク抽出部21に
より左右のチャンネル毎に一連のピークを抽出して、左
右のチャンネルで同じか類似のピークをペアとする。こ
こで、ピーク抽出は、パワーがしきい値以上で且つ極大
値であって、例えば90Hz乃至3kHzの間の周波数
であるという条件のデータのみを透過させる帯域フィル
タを使用することにより行なわれる。このしきい値は、
周囲の暗騒音を計測して、さらに感度パラメータ、例え
ば10dBを加えた値として定義される。Thus, the hearing module 20 extracts a series of peaks for each of the left and right channels by the peak extracting unit 21 based on the acoustic signal from the microphone 16, and pairs the same or similar peaks in the left and right channels. And Here, the peak extraction is performed by using a bandpass filter that transmits only data under the condition that the power is equal to or higher than the threshold value and has a maximum value, for example, a frequency between 90 Hz and 3 kHz. This threshold is
It is defined as a value obtained by measuring ambient noise and adding a sensitivity parameter, for example, 10 dB.
【0035】そして、聴覚モジュール20は、各ピーク
が調波構造を有していることを利用して、左右のチャン
ネル間でより正確なピークのペアを見つけ、左右のチャ
ンネルのピークの各ペアについて、音源分離部23によ
り、逆FFT(高速フーリエ変換)を適用して、各音源
からの混合音から調波構造を有する音を分離する。これ
により、聴覚モジュール20は、分離した各音につい
て、音源定位部22により、左右のチャンネルから同じ
周波数の音響信号を選択して、例えば5度毎にIPD
(両耳間位相差)及びIID(両耳間強度差)を求め
る。The hearing module 20 uses the fact that each peak has a harmonic structure to find a more accurate pair of peaks between the left and right channels, and for each pair of peaks of the left and right channels. The sound source separation unit 23 applies an inverse FFT (Fast Fourier Transform) to separate a sound having a harmonic structure from a mixed sound from each sound source. Thereby, the hearing module 20 selects the sound signal of the same frequency from the left and right channels by the sound source localization unit 22 for each of the separated sounds, and for example, performs the IPD every 5 degrees.
(Interaural phase difference) and IID (aural intensity difference).
【0036】そして、聴覚モジュール20の音源定位部
22は、所謂聴覚エピポーラ幾何を利用して、ロボット
10の正面を0度として±90度の範囲で、仮説推論に
よるIPD Phの仮説を生成して、The sound source localization unit 22 of the auditory module 20 generates a hypothesis of the IPD Ph by hypothesis inference within a range of ± 90 degrees with the front of the robot 10 being 0 degrees by using a so-called auditory epipolar geometry. ,
【数1】 により分離した音と各仮説間の距離d(θ)を計算す
る。ここで、nf <1.5kHzは、周波数が1.5k
Hz以下である倍音である。これは、左右のマイク15
のベースラインからIPDが1.2乃至1.5kHz以
下の周波数に対して有効であるので、今回の実験では
1.5kHz以下としたものである。(Equation 1) Then, the distance d (θ) between the sound separated by the above and each hypothesis is calculated. Here, n f <1.5 kHz means that the frequency is 1.5 kHz
Hz. This is the left and right microphone 15
Since the IPD is effective for frequencies of 1.2 to 1.5 kHz or less from the baseline, the experiment was performed at 1.5 kHz or less in this experiment.
【0037】IIDについては、IPDと同様に、分離
した音の各倍音の左右チャンネル間のパワー差から求め
られる。ただし、IIDについては、仮説推論ではな
く、The IID is obtained from the power difference between the left and right channels of each overtone of the separated sound, similarly to the IPD. However, IID is not hypothetical inference,
【数2】 による判別関数を用いて、音源が左右何れかを判定する
ものとする。即ち、周波数fの各倍音のIIDをI
s (f)としたとき、音源は、Iが正であればロボット
の左方向に、Iが負であれば右方向に、そしてほぼ0で
あれば正面方向に存在することになる。ここで、IID
の仮説生成には、ロボット10の頭部形状を考慮した膨
大な計算が必要となることから、リアルタイム処理を考
慮して、IPDと同様の仮説推論は行なわない。(Equation 2) The sound source is determined to be either left or right using a discriminant function based on That is, the IID of each overtone of the frequency f is I
Assuming that s (f), the sound source exists in the left direction of the robot when I is positive, in the right direction when I is negative, and in the front direction when I is almost zero. Where IID
Since the generation of a hypothesis requires an enormous amount of calculation considering the shape of the head of the robot 10, a hypothesis inference similar to that of the IPD is not performed in consideration of real-time processing.
【0038】そして、聴覚モジュール20の音源定位部
22は、前記距離d(θ)から、確立密度関数The sound source localization unit 22 of the hearing module 20 calculates the probability density function from the distance d (θ).
【数3】 を利用して、IPDの確信度BFIPD (θ)を計算す
る。ここで、m,sは、それぞれd(θ)の平均と分散
であり、nはdの個数である。また、IIDの確信度B
FIID (θ)は、30度<θ≦90度で、前記Iが+の
とき0.35,−のとき0.65、−30度<θ≦90
度で、前記Iが+のとき0.5,−のとき0.5、−9
0度<θ≦−30度で、前記Iが+のとき0.65,−
のとき0.35となる。(Equation 3) Is used to calculate the IPD certainty factor BF IPD (θ). Here, m and s are the average and variance of d (θ), respectively, and n is the number of d. In addition, the confidence B of the IID
F IID (θ) is 30 degrees <θ ≦ 90 degrees, 0.35 when I is +, 0.65 when −, and −30 degrees <θ ≦ 90.
In degrees, 0.5 when I is +, 0.5 when −, -9
0 degree <θ ≦ −30 degrees and 0.65−
It becomes 0.35 at the time of.
【0039】そして、このようにして得られたIPDの
確信度BFIPD (θ)及びIIDの確信度BF
IID (θ)を、Then, the confidence BF IPD (θ) of the IPD thus obtained and the confidence BF of the IID
IID (θ)
【数4】 で示されるDempster−Shafer理論により
統合して、確信度BFIP D+IID (θ)を生成する。これ
により、聴覚モジュール20は、聴覚イベント生成部2
6により、音源方向として尤度の高い順に上位20個の
確信度BFIPD+IID (θ)と方向(θ)のリストと、ピ
ッチにより、聴覚イベント28を生成する。(Equation 4) Are integrated according to the Dempster-Shafer theory shown by the formula (1) to generate a certainty factor BF IP D + IID (θ). As a result, the auditory module 20 can generate the auditory event generator 2
6, the auditory event 28 is generated from the list of the top 20 certainty factors BF IPD + IID (θ) and the directions (θ) in the descending order of the likelihood as the sound source direction, and the pitch.
【0040】このようにして、聴覚モジュール20は、
マイク16からの音響信号に基づいて、ピッチ抽出,音
源の分離及び定位から、少なくとも一人の話者の音源を
同定して、その聴覚イベントを抽出し、ネットワーク7
0を介してアソシエーションモジュール60に対して送
信するようになっている。尚、聴覚モジュール20にお
ける上述した処理は、40m秒毎に行なわれる。In this way, the hearing module 20
Based on the sound signal from the microphone 16, at least one speaker's sound source is identified from pitch extraction, sound source separation and localization, and its auditory event is extracted.
0 to the association module 60. The above-described processing in the hearing module 20 is performed every 40 msec.
【0041】ビューア27は、このようにして生成され
た聴覚イベント28をクライアントの画面上に表示する
ものであり、具体的には図11(A)に示すように、左
側のウインドウ27aに、測定している聴覚イベント2
8のパワースペクトルを例えば黒色の曲線27bにより
表示するとともに、そのピークを例えば青色の縦線27
cにより、さらに自動計測される暗騒音のレベルを例え
ば赤色の曲線27dにより表示し、右側のウインドウ2
7eに、縦軸を相対的な方位角,横軸をピッチ(周波
数)とする聴覚イベント28のグラフを表示する。ここ
で、各聴覚イベントは、それぞれ音源定位の確信度を円
の直径とする円27fにより表現されている。これによ
り、ビューア27の表示を見ることによって、聴覚イベ
ント28のパワースペクトルと抽出したピーク、さらに
グラフ上の円表示により、聴覚イベント28を視覚によ
り直感的に把握することができるようになっている。The viewer 27 displays the auditory event 28 generated as described above on the screen of the client. Specifically, as shown in FIG. Hearing event 2
8 is displayed by, for example, a black curve 27b, and its peak is displayed by, for example, a blue vertical line 27b.
c, the automatically measured background noise level is displayed by, for example, a red curve 27d.
In FIG. 7e, a graph of the auditory event 28 having a relative azimuth on the vertical axis and a pitch (frequency) on the horizontal axis is displayed. Here, each auditory event is represented by a circle 27f in which the certainty factor of the sound source localization is the diameter of the circle. Thereby, by looking at the display of the viewer 27, the auditory event 28 can be visually and intuitively grasped by the power spectrum of the auditory event 28, the extracted peak, and the circle display on the graph. .
【0042】図6に示すように、前記視覚モジュール3
0は、デバイス層としてのカメラ15と、プロセス層と
しての顔発見部31,顔識別部32,顔定位部33と、
特徴層(データ)としての顔ID34,顔方向35と、
イベント層としての視覚イベント生成部36及びビュー
ア37と、から構成されている。As shown in FIG. 6, the visual module 3
0 indicates a camera 15 as a device layer, a face detection unit 31, a face identification unit 32, and a face localization unit 33 as process layers;
A face ID 34 and a face direction 35 as feature layers (data);
It comprises a visual event generator 36 and a viewer 37 as an event layer.
【0043】これにより、視覚モジュール30は、カメ
ラからの画像信号に基づいて、顔発見部31により例え
ば肌色抽出により各話者の顔を検出し、顔識別部32に
て前もって登録されている顔データベース38により検
索して、一致した顔があった場合、その顔ID34を決
定して当該顔を識別すると共に、顔定位部33により当
該顔方向35を決定(定位)する。尚、顔識別部32に
よる顔データベース38の検索の結果、一致した顔がな
かった場合には、顔学習部38aが、顔発見部31が検
出した顔を顔データベース38に登録する。Thus, the visual module 30 detects the face of each speaker by, for example, extracting skin color by the face detecting unit 31 based on the image signal from the camera, and the face registered in advance by the face identifying unit 32. When there is a matched face searched by the database 38, the face ID 34 is determined to identify the face, and the face direction 35 is determined (localized) by the face localization unit 33. When the face identification unit 32 searches the face database 38 and finds no matching face, the face learning unit 38a registers the face detected by the face finding unit 31 in the face database 38.
【0044】ここで、視覚モジュール30は、顔発見部
31が画像信号から複数の顔を見つけた場合、各顔につ
いて前記処理、即ち識別及び定位そして追跡を行なう。
その際、顔発見部31により検出された顔の大きさ,方
向及び明るさがしばしば変化するので、顔発見部31
は、顔領域検出を行なって、肌色抽出と相関演算に基づ
くパターンマッチングの組合せによって、200m秒以
内に複数の顔を正確に検出できるようになっている。Here, when the face finding unit 31 finds a plurality of faces from the image signal, the visual module 30 performs the above-described processing, that is, identification, localization, and tracking for each face.
At this time, since the size, direction, and brightness of the face detected by the face detection unit 31 often change, the face detection unit 31
Is capable of accurately detecting a plurality of faces within 200 msec by performing face area detection and combining pattern extraction based on skin color extraction and correlation calculation.
【0045】また、顔識別部32は、顔発見部31によ
り検出された各顔領域画像を、判別空間に射影し、顔デ
ータベース38に前もって登録された顔データとの距離
dを計算する。この距離dは、登録顔数(L)に依存す
るので、The face identifying section 32 projects each face area image detected by the face finding section 31 into the discrimination space, and calculates a distance d from the face data registered in the face database 38 in advance. Since this distance d depends on the number of registered faces (L),
【数5】 により、パラメータの依存しない確信度Pvに変換され
る。ここで、判別空間の基底となる判別行列は、公知の
オンラインLDAにより、通常のLDAと比較して少な
い計算により更新され得るので、リアルタイムに顔デー
タを登録することが可能である。(Equation 5) Is converted to a certainty factor Pv independent of parameters. Here, the discriminant matrix serving as the basis of the discriminant space can be updated by a known online LDA with a smaller number of calculations compared to a normal LDA, so that face data can be registered in real time.
【0046】顔定位部33は、二次元の画像平面におけ
る顔位置を三次元空間に変換し、顔が画像平面にて
(x,y)に位置する幅と高さがそれぞれX及びYであ
るw×wピクセルであるとすると、三次元空間における
顔位置は、以下の各式で与えられる方位角θ,高さφ及
び距離rのセットとして得られる。The face localization unit 33 converts the face position on the two-dimensional image plane into a three-dimensional space, and the width and height of the face at (x, y) on the image plane are X and Y, respectively. Assuming that there are w × w pixels, the face position in the three-dimensional space is obtained as a set of an azimuth angle θ, a height φ, and a distance r given by the following equations.
【数6】 (Equation 6)
【数7】 (Equation 7)
【数8】 ここで、C1 及びC2 は、探索画像サイズ(X,Y)と
カメラの画角そして実際の顔の大きさにより定義される
定数である。(Equation 8) Here, C 1 and C 2 are constants defined by the search image size (X, Y), the angle of view of the camera, and the actual face size.
【0047】そして、視覚モジュール30は、各顔毎
に、顔ID(名前)34及び顔方向35から、視覚イベ
ント生成部36により視覚イベント39を生成する。詳
細には、視覚イベント39は、各顔毎に、上位5つの確
信度付きの顔ID(名前)34と位置(距離r,水平角
度θ及び垂直角度φ)から構成されている。Then, the visual module 30 generates a visual event 39 from the face ID (name) 34 and the face direction 35 for each face by the visual event generator 36. In detail, the visual event 39 includes, for each face, the top five face IDs (names) 34 with certainty factors and positions (distance r, horizontal angle θ, and vertical angle φ).
【0048】ビューア37は、視覚イベントをクライア
ントの画面上に表示するものであり、具体的には、図1
1(B)に示すように、カメラ15による画像37a
と、抽出した顔毎の顔IDと位置のリスト37bと、抽
出した顔毎の顔IDと確信度.距離のリスト37cを表
示する。ここで、カメラ15による画像37aには、発
見し同定された顔が長方形の枠で囲まれて表示されてい
る。図示の場合には、複数の顔が発見されたので、各顔
について、それぞれ同定を示す長方形の枠37d(例え
ば赤色表示)及び37e(例えば黄色表示)が表示され
る。これに伴って、図示の場合にはリスト37bも各顔
毎に表示されている。これにより、ビューア37の表示
を見ることによって、枠37c.37dで示される抽出
した顔と、顔定位のリスト37bと、確信度付きで抽出
した顔IDのリストにより、視覚イベント39を視覚に
より直感的に把握することができるようになっている。The viewer 37 displays a visual event on the screen of the client.
As shown in FIG. 1 (B), the image 37a by the camera 15
, A list 37b of face IDs and positions of the extracted faces, a face ID of each extracted face, and a certainty factor. A list 37c of distances is displayed. Here, in the image 37a by the camera 15, the face found and identified is displayed by being surrounded by a rectangular frame. In the case shown in the figure, since a plurality of faces are found, rectangular frames 37d (for example, red display) and 37e (for example, yellow display) indicating the identification are displayed for each face. Along with this, in the case shown, the list 37b is also displayed for each face. By viewing the display of the viewer 37, the frame 37c. The visual event 39 can be visually and intuitively grasped by the extracted face indicated by 37d, the face localization list 37b, and the face ID list extracted with certainty.
【0049】図7に示すように、前記モータ制御モジュ
ール40は、デバイス層としてのモータ41及びポテン
ショメータ42と、プロセス層としてのPWM制御回路
43,AD変換回路44及びモータ制御部45と、特徴
層としてのロボット方向46と、イベント層としてのモ
ータイベント生成部47と、ビューア48と、から構成
されている。As shown in FIG. 7, the motor control module 40 includes a motor 41 and a potentiometer 42 as device layers, a PWM control circuit 43, an AD conversion circuit 44 and a motor control unit 45 as process layers, and a characteristic layer. , A motor event generator 47 as an event layer, and a viewer 48.
【0050】これにより、モータ制御モジュール40
は、アテンション制御モジュール64(後述)からの指
令に基づいてモータ制御部45によりPWM制御回路4
3を介してモータ41を駆動制御すると共に、モータ4
1の回転位置をポテンショメータ42により検出して、
AD変換回路44を介してモータ制御部45によりロボ
ット方向46を抽出し、モータイベント生成部47によ
りモータ方向情報から成るモータイベント49を生成す
る。Thus, the motor control module 40
Is controlled by the motor control unit 45 based on a command from the attention control module 64 (described later).
The drive of the motor 41 is controlled via the
1 is detected by the potentiometer 42,
A motor control unit 45 extracts a robot direction 46 via an AD conversion circuit 44, and a motor event generation unit 47 generates a motor event 49 including motor direction information.
【0051】ビューア48は、モータイベントをクライ
アントの画面上に三次元的に表示するものであって、具
体的には図12(A)に示すように、例えばOpenG
Lにより実装されている三次元ビューアを利用して、モ
ータイベント49によるロボット10の向きを、三次元
表示のロボット48aの向き及び例えば赤色表示の矢印
48bの方向により、そしてロボット10の動作速度を
矢印48bの長さにより、リアルタイムに三次元表示す
るようになっている。これにより、ビューア48の表示
を見ることによって、モータイベント49によるロボッ
ト10の三次元表示により、モータイベント49を視覚
により直感的に把握することができるようになってい
る。尚、ロボット10に対する視点は、任意に変更可能
であり、またズームアップ及びズームアウトも可能であ
る。The viewer 48 is for displaying motor events three-dimensionally on the screen of the client. Specifically, as shown in FIG.
Using the three-dimensional viewer implemented by L, the direction of the robot 10 due to the motor event 49 is determined by the direction of the robot 48a in the three-dimensional display and the direction of the arrow 48b in the red display, and the operation speed of the robot 10 Three-dimensional display is performed in real time by the length of the arrow 48b. Thus, by viewing the display of the viewer 48, the three-dimensional display of the robot 10 by the motor event 49 allows the motor event 49 to be grasped visually and intuitively. Note that the viewpoint of the robot 10 can be arbitrarily changed, and zoom-up and zoom-out are also possible.
【0052】図8に示すように、前記対話モジュール5
0は、デバイス層としてのスピーカ51及びマイク16
と、プロセス層としての音声合成回路52,対話制御回
路53及び自声抑制回路54,音声認識回路55と、か
ら構成されている。As shown in FIG.
0 is a speaker 51 and a microphone 16 as device layers.
And a speech synthesis circuit 52 as a process layer, a dialogue control circuit 53, a self-voice suppression circuit 54, and a speech recognition circuit 55.
【0053】これにより、対話モジュール50は、後述
するアソシエーションモジュール60により対話制御回
路53を制御し、音声合成回路52によりスピーカ51
を駆動することによって、対象とする話者に対して所定
の音声を発すると共に、マイク16からの音響信号から
自声抑制回路54によりスピーカ51からの音を除去し
た後、音声認識回路55により対象とする話者の音声を
認識する。なお、前記対話モジュール50は、階層とし
ての特徴層及びイベント層を備えていない。Thus, the dialogue module 50 controls the dialogue control circuit 53 by the later-described association module 60 and the speaker 51 by the voice synthesis circuit 52.
, A predetermined sound is emitted to the target speaker, the sound from the speaker 51 is removed from the acoustic signal from the microphone 16 by the self-voice suppression circuit 54, and then the target Recognize the speaker's voice. The interaction module 50 does not have a feature layer and an event layer as a hierarchy.
【0054】ここで、対話制御回路53は、例えばパー
ティ受付ロボットの場合には、現在のアテンションを継
続することが最優先となるが、パーティロボットの場合
には、最も最近に関連付けられたストリームに対してア
テンション制御される。Here, for example, in the case of a party reception robot, the top priority is to continue the current attention, but in the case of a party robot, the dialog control circuit 53 assigns the most recently associated stream to the stream. Attention control is performed.
【0055】図9に示すように、前記アソシエーション
モジュール60は、上述した聴覚モジュール20,視覚
モジュール30,モータ制御モジュール40,対話モジ
ュール50に対して、階層的に上位に位置付けられてお
り、各モジュール20,30,40,50のイベント層
の上位であるストリーム層を構成している。具体的に
は、前記アソシエーションモジュール60は、聴覚モジ
ュール20,視覚モジュール30及びモータ制御モジュ
ール40からの非同期イベント61a即ち聴覚イベント
28,視覚イベント39及びモータイベント49を同期
させて同期イベント61bにする同期回路62と、これ
らの同期イベント61bを相互に関連付けて、聴覚スト
リーム65,視覚ストリーム66及びアソシエーション
ストリーム67を生成するストリーム生成部63と、さ
らにアテンション制御モジュール64と、ビューア68
を備えている。As shown in FIG. 9, the association module 60 is hierarchically positioned higher than the above-described auditory module 20, visual module 30, motor control module 40, and dialog module 50. The stream layer, which is the upper layer of the 20, 30, 40, and 50 event layers, is configured. Specifically, the association module 60 synchronizes the asynchronous event 61a from the auditory module 20, the visual module 30, and the motor control module 40, that is, the auditory event 28, the visual event 39, and the motor event 49 into a synchronous event 61b. A circuit 62, a stream generation unit 63 that correlates these synchronization events 61b to generate an auditory stream 65, a visual stream 66, and an association stream 67; an attention control module 64;
It has.
【0056】前記同期回路62は、聴覚モジュール20
からの聴覚イベント28,視覚モジュール30からの視
覚イベント38及びモータ制御モジュール40からのモ
ータイベント49を同期させて、同期聴覚イベント,同
期視覚イベント及び同期モータイベントを生成する。そ
の際、聴覚イベント28及び視覚イベント38は、同期
モータイベントによって、その座標系が絶対座標系に変
換されることになる。The synchronizing circuit 62 is connected to the hearing module 20.
The synchronizing auditory event 28, the visual event 38 from the visual module 30, and the motor event 49 from the motor control module 40 are synchronized to generate a synchronous auditory event, a synchronous visual event, and a synchronous motor event. At that time, the coordinate system of the auditory event 28 and the visual event 38 is converted into the absolute coordinate system by the synchronous motor event.
【0057】ここで、各イベントの実際に観測されてか
らネットワーク70を介してアソシエーションモジュー
ル60に到着するまでの遅延時間は、例えば聴覚イベン
ト28では40m秒、視覚イベント39では200m
秒、モータイベント49では100mであり、ネットワ
ーク70における遅延が10乃至200m秒であり、さ
らに到着周期も異なることによるものである。従って、
各イベントの同期を取るために、聴覚モジュール20,
視覚モジュール30及びモータ制御モジュール40から
の聴覚イベント28,視覚イベント39及びモータイベ
ント49は、それぞれ実際の観測時間を示すタイムスタ
ンプ情報を備えており、図示しない短期記憶回路にて、
例えば2秒間の間だけ一旦記憶される。Here, the delay time from when each event is actually observed to when it reaches the association module 60 via the network 70 is, for example, 40 msec for the auditory event 28 and 200 m for the visual event 39.
Second, the motor event 49 is 100 m, the delay in the network 70 is 10 to 200 msec, and the arrival period is also different. Therefore,
To synchronize each event, the hearing module 20,
The auditory event 28, the visual event 39, and the motor event 49 from the visual module 30 and the motor control module 40 each have time stamp information indicating the actual observation time.
For example, it is temporarily stored only for two seconds.
【0058】そして、同期回路62は、短期記憶回路に
記憶された各イベントを、上述した遅延時間を考慮し
て、実際の観測時間と比較して500m秒の遅延時間を
備えるように、同期プロセスにより取り出す。これによ
り、同期回路62の応答時間は500m秒となる。ま
た、このような同期プロセスは例えば100m秒周期で
動作するようになっている。尚、各イベントは、それぞ
れ互いに非同期でアソシエーションモジュール60に到
着するので、同期を取るための観測時刻と同時刻のイベ
ントが存在するとは限らない。従って、同期プロセス
は、同期を取るための観測時刻前後に発生したイベント
に対して、線形補間による補間を行なうようになってい
る。The synchronization circuit 62 compares the events stored in the short-term storage circuit with a delay time of 500 ms in comparison with the actual observation time in consideration of the delay time described above. Remove by As a result, the response time of the synchronization circuit 62 becomes 500 ms. Further, such a synchronization process operates at a period of, for example, 100 ms. Since each event arrives at the association module 60 asynchronously with each other, an event at the same time as the observation time for synchronization is not always present. Therefore, in the synchronization process, interpolation is performed by linear interpolation on events that occur before and after the observation time for synchronization.
【0059】また、ストリーム生成部63は、以下の点
に基づいて、ストリーム65,66,67の生成を行な
う。 1. 聴覚イベント28は、同等または倍音関係にある
ピッチを備え、方向が±10度以内で最も近い聴覚スト
リーム65に接続される。尚、±10度以内の値は、聴
覚エピポーラ幾何の精度を考慮して選定されたもので
あ。 2. 視覚イベント39は、共通の顔ID34を有し且
つ40cmの範囲内で最も近い視覚ストリーム66に接
続される。尚、40cmの範囲内の値は、秒速4m以上
で人間が移動することがないということを前提として選
定されたものである。 3. すべてのストリームに対して探索を行なった結
果、接続可能なストリーム65,66が存在しないイベ
ントがある場合には、当該イベント28,39は、新た
なストリーム65,66を構成することになる。 4. 既に存在しているストリーム65,66は、これ
らに接続されるイベント28,39がない場合には、最
大で500m秒間は存続するが、その後もイベントが接
続されない状態が継続すると、消滅する。 5. 聴覚ストリーム65と視覚ストリーム66が±1
0度以内に近接する状態が1秒間のうち500m秒以上
継続する場合、これの聴覚ストリーム65と視覚ストリ
ーム66は、同一話者に由来するものであるとみなさ
れ、互いに関係付けられて、アソシエーションストリー
ム67が生成される。 6. アソシエーションストリーム67は、聴覚イベン
ト28または視覚イベント39が3秒間以上接続されな
い場合には、関係付けが解除され、既存の聴覚ストリー
ム65または視覚ストリーム66のみが存続する。 7. アソシエーションストリーム67は、聴覚ストリ
ーム65及び視覚ストリーム66の方向差が3秒間、±
30度以上になった場合には、関係付けが解除され、個
々の聴覚ストリーム65及び視覚ストリーム66に戻
る。The stream generator 63 generates streams 65, 66, and 67 based on the following points. 1. The auditory event 28 is connected to the nearest auditory stream 65 with pitches that are equivalent or harmonically related and within ± 10 degrees of direction. The value within ± 10 degrees is selected in consideration of the accuracy of the auditory epipolar geometry. 2. The visual event 39 has a common face ID 34 and is connected to the closest visual stream 66 within 40 cm. The value in the range of 40 cm is selected on the assumption that a human does not move at a speed of 4 m or more per second. 3. As a result of searching all the streams, if there is an event for which there is no connectable stream 65, 66, the event 28, 39 constitutes a new stream 65, 66. 4. The streams 65 and 66 that have already existed remain for a maximum of 500 ms when there are no events 28 and 39 connected to them, but disappear when the event continues to be disconnected. 5. Auditory stream 65 and visual stream 66 are ± 1
If the proximity state within 0 degrees continues for 500 ms or more in one second, the auditory stream 65 and the visual stream 66 are considered to be of the same speaker, and are associated with each other and associated. A stream 67 is generated. 6. The association stream 67 is dissociated if the auditory event 28 or visual event 39 is not connected for more than 3 seconds, and only the existing auditory stream 65 or visual stream 66 remains. 7. The association stream 67 has a direction difference between the auditory stream 65 and the visual stream 66 of 3 seconds, ±
If the angle exceeds 30 degrees, the association is released, and the process returns to the individual auditory streams 65 and the visual streams 66.
【0060】これにより、ストリーム生成部63は、同
期回路62からの同期聴覚イベント及び同期視覚イベン
トに基づいて、これらの時間的つながりを考慮してイベ
ントを接続することにより、聴覚ストリーム65及び視
覚ストリーム66を生成すると共に、相互の結び付きの
強い聴覚ストリーム65及び視覚ストリーム66を関係
付けて、アソシエーションストリーム67を生成するよ
うになっており、逆にアソシエーションストリーム67
を構成する聴覚ストリーム65及び視覚ストリーム66
の結び付きが弱くなれば、関係付けを解除するようにな
っている。Thus, based on the synchronous auditory event and the synchronous visual event from the synchronous circuit 62, the stream generation unit 63 connects the events in consideration of their temporal connection, thereby forming the auditory stream 65 and the visual stream. In addition to generating the association stream 67, the association stream 67 is generated by associating the auditory stream 65 and the visual stream 66 that are strongly connected to each other.
Auditory stream 65 and visual stream 66 constituting
When the connection becomes weak, the association is broken.
【0061】また、アテンション制御モジュール64
は、モータ制御モジュール40の駆動モータ制御のプラ
ンニングのためのアテンション制御を行なうものであ
り、その際アソシエーションストリーム67,聴覚スト
リーム65そして視覚ストリーム66の順に優先的に参
照して、アテンション制御を行なう。そして、アテンシ
ョン制御モジュール64は、聴覚ストリーム65及び視
覚ストリーム66の状態とアソシエーションストリーム
67の存否に基づいて、ロボット10の動作プランニン
グを行ない、駆動モータ41の動作の必要があれば、モ
ータ制御モジュール40に対して動作指令としてのモー
タイベントをネットワーク70を介して送信する。The attention control module 64
Performs attention control for planning the drive motor control of the motor control module 40. At this time, the attention control is performed by preferentially referring to the association stream 67, the auditory stream 65, and the visual stream 66 in this order. Then, the attention control module 64 performs the operation planning of the robot 10 based on the state of the auditory stream 65 and the visual stream 66 and the presence or absence of the association stream 67. If the operation of the drive motor 41 is required, the motor control module 40 , A motor event as an operation command is transmitted via the network 70.
【0062】ここで、アテンション制御モジュール64
におけるアテンション制御は、連続性とトリガに基づい
ており、連続性により同じ状態を保持しようとし、トリ
ガにより最も興味のある対象を追跡しようとする。従っ
て、アテンション制御は、 1. アソシエーションストリームの存在は、ロボット
10に対して正対して話している人が現在も存在してい
る、あるいは近い過去に存在していたことを示している
ので、このようなロボット10に対して話している人に
対して、高い優先度でアテンションを向けて、トラッキ
ングを行なう必要がある。 2. マイク16は無指向性であるので、カメラの視野
角のような検出範囲が存在せず、広範囲の聴覚情報を得
ることができるので、視覚ストリームより聴覚ストリー
ムの優先度を高くすべきである。という二つの点を考慮
して、以下の原則に従ってアテンションを向けるストリ
ームを選択して、トラッキングを行なう。 1. アソシエーションストリームのトラッキングを最
優先する。 2. アソシエーションストリームが存在しない場合、
聴覚ストリームのトラッキングを優先する。 3. アソシエーションストリーム及び聴覚ストリーム
が存在しない場合、視覚ストリームのトラッキングを優
先する。 4. 複数の同じ種類のストリームが存在する場合、最
も古いストリームのトラッキングを優先する。 このようにして、アテンション制御モジュール64は、
アテンション制御を行なって、モータ制御モジュール4
0の駆動モータ41の制御のプランニングを行ない、こ
のプランニングに基づいて、モータコマンド66を生成
し、ネットワーク70を介してモータ制御モジュール4
0に伝送する。これにより、モータ制御モジュール40
では、このモータコマンド66に基づいて、モータ制御
部45がPWM制御を行なって、駆動モータ41を回転
駆動させて、ロボット10を所定方向に向けるようにな
っている。Here, the attention control module 64
Attention control in is based on continuity and triggers, trying to keep the same state with continuity and trying to track the objects of most interest with triggers. Therefore, attention control includes: The presence of the association stream indicates that the person who is speaking directly to the robot 10 is still present or has been present in the near future, It is necessary to focus attention on a person who has high priority and perform tracking. 2. Since the microphone 16 is omnidirectional, there is no detection range such as the viewing angle of the camera, and a wide range of auditory information can be obtained. Therefore, the priority of the auditory stream should be higher than that of the visual stream. In consideration of these two points, a stream to which attention is directed is selected and tracking is performed according to the following principle. 1. Prioritize association stream tracking. 2. If there is no association stream,
Prioritize audio stream tracking. 3. If the association stream and the auditory stream do not exist, priority is given to tracking the visual stream. 4. If there are multiple streams of the same type, priority is given to tracking the oldest stream. In this way, the attention control module 64
By performing attention control, the motor control module 4
0, the control of the drive motor 41 is planned, a motor command 66 is generated based on the plan, and the motor control module 4 is controlled via the network 70.
Transmit to 0. Thereby, the motor control module 40
Then, based on the motor command 66, the motor control unit 45 performs PWM control to rotate and drive the drive motor 41 so as to direct the robot 10 in a predetermined direction.
【0063】ビューア68は、このようにして生成され
た各ストリームをサーバの画面上に表示するものであ
り、具体的には図12(B)に示すように、レーダチャ
ート68a及びストリームチャート68bにより表示す
る。ここで、レーダチャート68aは、その瞬間におけ
るアソシエーションストリームの状態を、例えば広く明
るい(図示の場合ピンク色)扇形で示されるカメラの視
野角68a1と共に、狭く暗い扇形で示されるストリー
ムの方向68a2により示す。ここで、ストリームの方
向68a2は、聴覚ストリーム及び視覚ストリームがあ
る場合には例えば赤色表示され、また聴覚ストリームの
みの場合には例えば青色表示され、視覚ストリームのみ
の場合には例えば緑色表示される。また、ストリームチ
ャート68bは、太線により示されるアソシエーション
ストリーム68b1と、細線により示される聴覚ストリ
ームまたは視覚ストリーム68b2を示している。ここ
で、アソシエーションストリーム68b1は、聴覚スト
リーム及び視覚ストリームが存在する場合には例えば赤
色表示され、聴覚ストリームのみの場合には例えば青色
表示され、また視覚ストリームのみの場合には例えば緑
色表示される。また、細線によるストリーム68b2
は、聴覚ストリームの場合には例えば青色表示され、視
覚ストリームの場合には例えば緑色表示されるようにな
っている。これにより、ビューア68の表示を見ること
によって、レーダチャート68aにより、そのときの視
覚ストリーム及び聴覚ストリームを視覚にて直観的に把
握することができると共に、ストリームチャート68b
により、視覚ストリーム及び聴覚ストリームの時間的流
れを視覚により直感的に把握することができるようにな
っている。その際、表示の色を視認することにより、ど
のようなストリームでアテンション制御が行なわれてい
るかを容易に把握することが可能である。The viewer 68 displays each stream generated in this way on the screen of the server. Specifically, as shown in FIG. 12 (B), the viewer 68 uses a radar chart 68a and a stream chart 68b. indicate. Here, the radar chart 68a shows the state of the association stream at that moment, for example, with the camera viewing angle 68a1 shown as a wide and bright (pink in the figure) fan shape and the stream direction 68a2 shown as a narrow dark fan shape. . Here, the stream direction 68a2 is displayed, for example, in red when there is an auditory stream and a visual stream, is displayed in blue, for example, when there is only an auditory stream, and is displayed in green, for example, when there is only a visual stream. The stream chart 68b shows an association stream 68b1 indicated by a thick line and an auditory stream or visual stream 68b2 indicated by a thin line. Here, the association stream 68b1 is displayed, for example, in red when the auditory stream and the visual stream exist, is displayed in blue, for example, in the case of only the audio stream, and is displayed, for example, in green when the audio stream is only the visual stream. Also, a stream 68b2 formed by a thin line
Are displayed, for example, in blue in the case of an auditory stream, and in green, for example, in the case of a visual stream. Thus, by looking at the display of the viewer 68, the visual stream and the auditory stream at that time can be visually and intuitively grasped by the radar chart 68a, and the stream chart 68b
Thereby, the temporal flow of the visual stream and the auditory stream can be grasped more intuitively by visual observation. At this time, by visually recognizing the color of the display, it is possible to easily grasp in which stream the attention control is being performed.
【0064】本発明実施形態による人型ロボット10は
以上のように構成されており、パーティ受付ロボットと
して対象とする話者に対して、図5を参照して、以下の
ように動作する。先ず、図10(A)に示すように、ロ
ボット10は、パーティ会場の入口前に配置されてい
る。そして、図10(B)に示すように、パーティ参加
者Pがロボット10に接近してくるが、ロボット10
は、まだ当該参加者Pを認識していない。ここで、参加
者Pがロボット10に対して例えば「こんにちは」と話
し掛けると、ロボット10は、マイク16が当該参加者
Pの音声を拾って、聴覚モジュール20が音源方向を伴
う聴覚イベント28を生成して、ネットワーク70を介
してアソシエーションモジュール60に伝送する。The humanoid robot 10 according to the embodiment of the present invention is configured as described above, and operates as follows with reference to FIG. 5 for a target speaker as a party reception robot. First, as shown in FIG. 10A, the robot 10 is disposed in front of the entrance of the party venue. Then, as shown in FIG. 10B, the party participant P approaches the robot 10,
Has not yet recognized the participant P. Here, the participant P has talks with the robot 10, for example, "Hello", the robot 10 includes a microphone 16 picking up the sound of the participant P, generate an auditory event 28 hearing module 20 involves a sound source direction Then, the data is transmitted to the association module 60 via the network 70.
【0065】これにより、アソシエーションモジュール
60は、この聴覚イベント28に基づいて聴覚ストリー
ム29を生成する。このとき、視覚モジュール30は参
加者Pがカメラ15の視野内に入っていないので、視覚
イベント39を生成しない。従って、アソシエーション
モジュール60は、聴覚イベント28のみに基づいて、
聴覚ストリーム29を生成し、アテンション制御モジュ
ール64は、この聴覚ストリーム29をトリガーとし
て、ロボット10を参加者Pの方向に向けるようなアテ
ンション制御を行なう。As a result, the association module 60 generates an auditory stream 29 based on the auditory event 28. At this time, the visual module 30 does not generate the visual event 39 because the participant P is not in the field of view of the camera 15. Accordingly, the association module 60 may use only the auditory event 28
The auditory stream 29 is generated, and the attention control module 64 uses the auditory stream 29 as a trigger to perform attention control such that the robot 10 is directed to the participant P.
【0066】このようにして、図10(C)に示すよう
に、ロボット10が参加者Pの方向を向き、所謂声によ
るトラッキングが行なわれる。そして、視覚モジュール
30がカメラ15による参加者Pの顔の画像を取り込ん
で、視覚イベント39を生成して、当該参加者Pの顔を
顔データベース38により検索し、顔識別を行なうと共
に、その結果である顔ID24及び画像をネットワーク
70を介してアソシエーションモジュール60に伝送す
る。尚、当該参加者Pの顔が顔データベース38に登録
されていない場合には、視覚モジュール30は、その旨
をネットワーク70を介してアソシエーションモジュー
ルに伝送する。In this way, as shown in FIG. 10C, the robot 10 faces the participant P, and tracking is performed by a so-called voice. Then, the visual module 30 captures the image of the face of the participant P by the camera 15, generates a visual event 39, searches the face of the participant P by the face database 38, performs face identification, and determines the result. Is transmitted to the association module 60 via the network 70. If the face of the participant P is not registered in the face database 38, the visual module 30 transmits the fact to the association module via the network 70.
【0067】このとき、ロボット10は、聴覚イベント
28及び視覚イベント39によりアソシエーションスト
リーム65を生成しており、このアソシエーションスト
リーム65によりアテンション制御モジュール64は、
そのアテンション制御を変更しないので、ロボット10
は、参加者Pの方向を向き続ける。従って、参加者Pが
移動したとしても、ロボット10は、アソシエーション
ストリーム65によりモータ制御モジュール40を制御
することにより、参加者Pを追跡して、視覚モジュール
30のカメラ15が参加者Pを継続して撮像し得るよう
になっている。At this time, the robot 10 has generated an association stream 65 based on the auditory event 28 and the visual event 39, and the attention control module 64 uses the association stream 65 to generate the attention stream.
Since the attention control is not changed, the robot 10
Keeps pointing in the direction of the participant P. Therefore, even if the participant P moves, the robot 10 tracks the participant P by controlling the motor control module 40 by the association stream 65, and the camera 15 of the visual module 30 continues the participant P. It is possible to take an image.
【0068】そして、アソシエーションモジュール60
は、聴覚モジュール20の音声認識回路55に入力を与
えて、音声認識回路55はその音声認識結果を対話制御
回路53に与える。これにより、対話制御回路53は音
声合成を行なってスピーカ51から発声する。このと
き、音声認識回路55がマイク16からの音響信号から
スピーカ51からの音を自声抑制回路54により低減す
ることにより、ロボット10は自身の発声を無視して、
相手の声をより正確に認識することができる。Then, the association module 60
Gives an input to the speech recognition circuit 55 of the hearing module 20, and the speech recognition circuit 55 gives the speech recognition result to the dialogue control circuit 53. As a result, the dialog control circuit 53 performs voice synthesis and utters voice from the speaker 51. At this time, the voice recognition circuit 55 reduces the sound from the speaker 51 from the sound signal from the microphone 16 by the self-voice suppression circuit 54, so that the robot 10 ignores its own utterance,
The other party's voice can be more accurately recognized.
【0069】ここで、音声合成による発声は、参加者P
の顔が前記顔データベース38に登録されているか否か
で異なる。参加者Pの顔が顔データベース38に登録さ
れている場合には、アソシエーションモジュール60
は、視覚モジュール30からの顔ID24に基づいて、
対話モジュール50を制御して、音声合成により「こん
にちは。XXXさんですか?」と参加者Pに対して質問
する。これに対して、参加者Pが「はい。」と答える
と、対話モジュール50がマイク16からの音響信号に
基づいて、音声認識回路55により「はい」を認識して
対話制御回路53により音声合成を行ない、スピーカ5
1から「ようこそXXXさん、どうぞ部屋にお入り下さ
い。」と発声する。Here, the utterance by the speech synthesis is based on the participant P
Is registered in the face database 38 or not. If the face of the participant P is registered in the face database 38, the association module 60
Is based on the face ID 24 from the vision module 30,
To control the interaction module 50, to ask questions to participants P as "Hello .XXX-san?" By the speech synthesis. On the other hand, if the participant P answers "Yes.", The dialogue module 50 recognizes "Yes" by the voice recognition circuit 55 based on the acoustic signal from the microphone 16, and the voice is synthesized by the dialogue control circuit 53. And the speaker 5
From 1, he says, "Welcome XXX, please enter the room."
【0070】また、参加者Pの顔が顔データベース38
に登録されていない場合には、アソシエーションモジュ
ール60は、対話モジュール50を制御して、音声合成
により「こんにちは。あなたのお名前を教えていただけ
ますか?」と参加者Pに対して質問する。これに対し
て、参加者Pが「XXXです。」と自分の名前を答える
と、対話モジュール50がマイク16からの音響信号に
基づいて、音声認識回路55により「XXX」を認識し
て、対話制御回路53により音声合成を行ない、スピー
カ51から「ようこそXXXさん、どうぞ部屋にお入り
下さい。」と発声する。このようにして、ロボット10
は参加者Pの認識を行なって、パーティ会場への入場を
誘導すると共に、視覚モジュール30にて当該参加者P
の顔の画像と名前「XXX」を顔データベース38に登
録させる。The face of the participant P is stored in the face database 38.
If that is not registered, the association module 60 is to control the interaction module 50, the question for the "Hello. Can you tell me your name?" And participants P by speech synthesis. On the other hand, when the participant P answers his name "XXX.", The dialogue module 50 recognizes "XXX" by the voice recognition circuit 55 based on the acoustic signal from the microphone 16, and the dialogue is performed. Speech synthesis is performed by the control circuit 53, and the speaker 51 utters "Welcome XXX, please enter the room." In this way, the robot 10
Performs recognition of the participant P, guides entry to the party venue, and uses the visual module 30 to
The face image and the name “XXX” are registered in the face database 38.
【0071】また、人型ロボット10は、コンパニオン
用ロボットとして、例えば図13を参照して、以下のよ
うに動作する。先ず、人型ロボット10は、特に明確な
シナリオを有しているのではなく、例えば図13におい
ては、登場する4人の話者に関して一人の話者を追跡し
たり、途中で他の話者にアテンションを切換えるように
動作する。そして、その動作は、各ビューア27,3
7,48,68における表示を視認することにより容易
に把握され、評価され得るようになっている。ここで、
図13(A)乃至(H)の各図は、それぞれ左上のスナ
ップショット,右上のビューア68の表示,左下のビュ
ーア27の表示そして右下のビューア28の表示から構
成されている。先ず図13(A)において、人型ロボッ
ト10は、その視覚モジュール30により、右下のビュ
ーア28の表示にて長方形の枠で示すように、一番左の
話者の顔を検出する。当該話者の視覚イベント38は、
右上のストリームチャート68bにおいては、細い線6
8b1で示される視覚ストリームを構成する。The humanoid robot 10 operates as a companion robot as follows, for example, with reference to FIG. First, the humanoid robot 10 does not have a particularly clear scenario. For example, in FIG. 13, the humanoid robot 10 tracks one speaker with respect to the four speakers appearing, and tracks other speakers along the way. The operation is performed so as to switch the attention. The operation is performed by each viewer 27, 3
The display at 7, 48, 68 can be easily grasped and evaluated by visually recognizing the display. here,
Each of FIGS. 13A to 13H includes an upper left snapshot, an upper right viewer 68, a lower left viewer 27, and a lower right viewer 28. First, in FIG. 13A, the humanoid robot 10 detects the face of the leftmost speaker as indicated by a rectangular frame on the display of the lower right viewer 28 by the visual module 30. The visual event 38 of the speaker is
In the upper right stream chart 68b, a thin line 6
8b1.
【0072】次に、当該話者が話し始めると、図13
(B)に示すように、聴覚モジュール20が聴覚イベン
ト28を検出して、この聴覚イベント28は、左下のビ
ューア27の右側のウインドウ27bにて小さな円とし
て表示されると共に、左側のウインドウ27aにて、パ
ワースペクトルにおける一組の倍音のピークとして抽出
される。そして、この聴覚イベント28は、アソシエー
ションモジュール60にて聴覚ストリームに変換され、
右上のビューア68のレーダチャート68aにて狭く暗
い扇形68a2として示される。Next, when the speaker starts speaking, FIG.
As shown in (B), the auditory module 20 detects the auditory event 28, and the auditory event 28 is displayed as a small circle in the right window 27b of the lower left viewer 27 and is displayed in the left window 27a. And extracted as a set of overtone peaks in the power spectrum. The auditory event 28 is converted into an auditory stream by the association module 60,
This is shown as a narrow and dark sector 68a2 in the radar chart 68a of the upper right viewer 68.
【0073】このとき、当該話者の聴覚イベント28と
視覚イベント38からアソシエーションモジュール60
により生成された聴覚ストリーム65及び視覚ストリー
ム66が一定の時間以上、共通の方向を有していること
から、アソシエーションモジュール60のストリーム生
成部63にて、アソシエーションストリーム67が生成
され、図7(C)に示すように、右上のビューア68の
ストリームチャート68bにて、太線によりアソシエー
ションストリームが表示され、当該話者に対してアテン
ション制御が行なわれる。At this time, the association module 60 is obtained from the auditory event 28 and the visual event 38 of the speaker.
Since the auditory stream 65 and the visual stream 66 generated by the above have a common direction for a certain period of time or more, the stream generator 63 of the association module 60 generates the association stream 67, and FIG. As shown in ()), the association stream is displayed as a thick line on the stream chart 68b of the viewer 68 at the upper right, and attention control is performed on the speaker.
【0074】この状態から、図13(D)に示すよう
に、当該話者が話を中断すると、前記アソシエーション
ストリームの関連付けが解除されると共に、当該話者に
対するアテンションが解放され、アテンション制御が中
断される。そして、一番右の人が話し始めたので、この
話者に対してアテンションが向けられ、人型ロボット1
0がこの話者に対して向きを変えようとしたところで、
この話者が話を止めた。その際、視覚モジュール30が
左から二番目の話者の顔を偶然に検出したので、人型ロ
ボット10は水平回転を中断した。In this state, as shown in FIG. 13D, when the speaker interrupts the talk, the association of the association stream is released, the attention for the speaker is released, and the attention control is interrupted. Is done. Then, since the rightmost person started speaking, attention was directed to this speaker, and the humanoid robot 1
When 0 tries to turn around this speaker,
This speaker stopped talking. At that time, the humanoid robot 10 interrupted the horizontal rotation because the visual module 30 accidentally detected the face of the second speaker from the left.
【0075】続いて、図13(E)に示すように、左か
ら二番目の話者が話し始め、当該話者のアソシエーショ
ンストリームが生成されたので、アテンションが当該話
者に向けられた。その後、図13(F)に示すように、
当該話者が話を止めたが、当該話者の視覚イベント38
は継続して検出されるので、アソシエーションストリー
ム67は数秒間存続している。Subsequently, as shown in FIG. 13E, the second speaker from the left began to speak, and an association stream of the speaker was generated, so that attention was directed to the speaker. Thereafter, as shown in FIG.
The speaker stopped talking, but the visual event 38 of the speaker
Is continuously detected, so that the association stream 67 has existed for several seconds.
【0076】そして、図13(G)に示すように、アソ
シエーションストリーム67が消滅した後、左から三番
目の話者が話し始めたので、人型ロボット10は当該話
者に向こうとするが、視覚モジュール30が当該話者を
検出できないので、視覚イベント38そして視覚ストリ
ーム66が生成されず、従ってアソシエーションストリ
ームが生成されない。Then, as shown in FIG. 13 (G), after the association stream 67 has disappeared, the third speaker from the left has begun to speak, so that the humanoid robot 10 tries to turn to that speaker. Since the visual module 30 cannot detect the speaker, no visual event 38 and no visual stream 66 are generated, and thus no association stream is generated.
【0077】その後、図13(H)に示すように、再び
一番左の話者が話し始めると、当該話者が視覚モジュー
ル30により検出されておらず、従って視覚イベント3
8,視覚ストリーム66が生成されておらず、さらにア
ソシエーションストリームも生成されていないので、人
型ロボット10は、当該話者の聴覚イベント28をトリ
ガーとして当該話者に向きを変える。Thereafter, as shown in FIG. 13 (H), when the leftmost speaker starts speaking again, the relevant speaker is not detected by the visual module 30, and therefore the visual event 3
8. Since the visual stream 66 has not been generated and the association stream has not been generated, the humanoid robot 10 turns to the speaker using the auditory event 28 of the speaker as a trigger.
【0078】このようにして、人型ロボット10は、聴
覚モジュール20による聴覚イベント28及び視覚モジ
ュール30による視覚イベント39と、アソシエーショ
ンモジュール60によるアソシエーションストリーム6
5に基づいて、複数の話者を聴覚及び視覚により認識し
ていると共に、複数の話者のうちの一人の話者を追跡し
たり、あるいは途中で他の話者に切り換えて追跡するこ
とができる。なお、コンパニオン用ロボットの場合に
は、ロボット10は受動的な役割を果たす、即ちパーテ
ィ参加者の「話を聴き」あるいは「話者を見る」のみで
あり、対話モジュール50により発声することはない。In this way, the humanoid robot 10 is able to perform the auditory event 28 by the auditory module 20, the visual event 39 by the visual module 30, and the association stream 6 by the association module 60.
5 and a plurality of speakers can be recognized by hearing and vision, and one of the plurality of speakers can be tracked or switched to another speaker along the way. it can. In the case of a companion robot, the robot 10 plays a passive role, that is, plays only "listen" or "looks at the speaker" of the party participant, and does not utter by the dialog module 50. .
【0079】また、コンパニオン用ロボットとしての人
型ロボット10は、パーティ受付ロボットと顔データベ
ース38を共用し、あるいはパーティ受付ロボットの顔
データベース38が転送または複写されるようにしても
よい。この場合、コンパニオン用ロボットとしての人型
ロボット10は、パーティ参加者全員を常に顔識別によ
って認識することができる。Further, the humanoid robot 10 as a companion robot may share the face database 38 with the party reception robot, or the face database 38 of the party reception robot may be transferred or copied. In this case, the humanoid robot 10 as the companion robot can always recognize all the party participants by face identification.
【0080】このようにして、本発明実施形態による人
型ロボット10によれば、聴覚モジュール20及び視覚
モジュール30からの聴覚イベント及び視覚イベントに
基づいて、アソシエーションモジュール60が聴覚スト
リーム,視覚ストリームそしてアソシエーションストリ
ームを生成することによって、複数の対象である話者を
認識しているので、何れかのイベントが欠落したり明確
に認識できなくなった場合、例えば話者が移動して「見
えなく」なった場合でも聴覚により、また話者が話をせ
ず「聞こえなく」なった場合でも視覚により、リアルタ
イムに複数の話者を聴覚的及び/又は視覚的にトラッキ
ングすることができる。また、各モジュールのビューア
により、聴覚情報,視覚情報,モータ情報及びストリー
ム情報が表示されているので、これらの情報を視覚によ
り直感的に把握し、人型ロボット10の動作状況を容易
に評価することができる。その際、各ビューアにおける
表示色が、アソシエーションストリームの状態に応じて
異なると共に、各ビューア間で統一されていることか
ら、アソシエーションストリームの状態を容易に把握す
ることが可能である。As described above, according to the humanoid robot 10 according to the embodiment of the present invention, based on the auditory event and the visual event from the auditory module 20 and the visual module 30, the association module 60 performs the auditory stream, the visual stream, and the association. Generating a stream recognizes multiple speakers, so if any of the events are missing or cannot be clearly recognized, for example, the speaker moves and becomes "invisible" In some cases, multiple speakers can be tracked audibly and / or visually in real time, and also visually, even if the speaker does not speak and becomes "inaudible." In addition, since the auditory information, visual information, motor information, and stream information are displayed by the viewer of each module, the information is intuitively grasped visually and the operation status of the humanoid robot 10 is easily evaluated. be able to. At this time, the display colors of the respective viewers differ depending on the status of the association stream, and are unified among the viewers, so that the status of the association stream can be easily grasped.
【0081】上述した実施形態において、人型ロボット
10は、4DOF(自由度)を有するように構成されて
いるが、これに限らず、任意の動作を行なうように構成
されたロボットに本発明によるロボット聴覚システムを
組み込むことも可能である。また、上述した実施形態に
おいては、本発明によるロボット視聴覚システムを人型
ロボット10に組み込んだ場合について説明したが、こ
れに限らず、犬型等の各種動物型ロボットや、その他の
形式のロボットに組み込むことも可能であることは明ら
かである。さらに、上述した実施形態においては、アテ
ンション制御の際に、複数の同じ種類のストリームが存
在する場合、最も古いストリームのトラッキングを優先
するようになっているが、これに限らず、他のストリー
ム、例えば最も新しいストリームのトラッキングを優先
させるようにしてもよい。In the above-described embodiment, the humanoid robot 10 is configured to have 4 DOF (degree of freedom). However, the present invention is not limited thereto, and the robot according to the present invention may be configured to perform any operation. It is also possible to incorporate a robot hearing system. Further, in the above-described embodiment, the case where the robot audiovisual system according to the present invention is incorporated in the humanoid robot 10 has been described. However, the present invention is not limited to this. Obviously, it is also possible to incorporate. Further, in the above-described embodiment, when a plurality of streams of the same type exist during the attention control, the tracking of the oldest stream is prioritized. However, the present invention is not limited to this. For example, the tracking of the newest stream may be prioritized.
【0082】[0082]
【発明の効果】以上述べたように、この発明によれば、
聴覚モジュール,視覚モジュール及びモータ制御モジュ
ールと、アソシエーションモジュール及びアテンション
制御モジュールとの連携によって、ロボットの聴覚及び
視覚がそれぞれ有する曖昧性が互いに補完されることに
なり、所謂ロバスト性が向上し、複数の話者であっても
各話者をそれぞれ知覚することができる。また、例えば
聴覚イベントまたは視覚イベントの何れか一方が欠落し
たときであっても、視覚イベントまたは聴覚イベントの
みに基づいて、対象である話者をアソシエーションモジ
ュールが知覚することができるので、リアルタイムにモ
ータ制御モジュールの制御を行なうことができる。さら
に、表示部により、前記聴覚モジュールによる聴覚情
報,視覚モジュールによる視覚情報及びモータモジュー
ルによるモータ情報、そしてアソシエーションモジュー
ルによるストリーム情報の少なくとも一部を表示して、
アソシエーションモジュールによるリアルタイム処理を
視覚化することにより、リアルタイム処理の状態を視覚
により直感的に把握することができる。これにより、本
発明によれば、対象に対する視覚及び聴覚の追跡を行な
うためのリアルタイム処理を可能にすると共に、このリ
アルタイム処理を視覚化するようにした極めて優れたロ
ボット視聴覚システムが提供される。As described above, according to the present invention,
The cooperation between the hearing module, the vision module, and the motor control module, and the association module and the attention control module complements the ambiguities of the hearing and vision of the robot, thereby improving the so-called robustness. Even speakers can perceive each speaker. Also, for example, even when either the auditory event or the visual event is missing, the association module can perceive the target speaker based on only the visual event or the auditory event. Control of the control module can be performed. Further, the display unit displays at least a part of auditory information by the auditory module, visual information by the visual module, motor information by the motor module, and stream information by the association module,
By visualizing the real-time processing by the association module, the state of the real-time processing can be visually and intuitively grasped. Thus, according to the present invention, an extremely excellent robot audio-visual system that enables real-time processing for performing visual and auditory tracking of an object and visualizes the real-time processing is provided.
【図1】この発明によるロボット聴覚装置の第一の実施
形態を組み込んだ人型ロボットの外観を示す正面図であ
る。FIG. 1 is a front view showing the appearance of a humanoid robot incorporating a first embodiment of a robot hearing device according to the present invention.
【図2】図1の人型ロボットの側面図である。FIG. 2 is a side view of the humanoid robot of FIG. 1;
【図3】図1の人型ロボットにおける頭部の構成を示す
概略拡大図である。FIG. 3 is a schematic enlarged view showing a configuration of a head in the humanoid robot of FIG. 1;
【図4】図1の人型ロボットにおけるロボット視聴覚シ
ステムの電気的構成を示すブロック図である。FIG. 4 is a block diagram showing an electrical configuration of a robot audiovisual system in the humanoid robot of FIG. 1;
【図5】図4におけるブロック1の聴覚モジュールを拡
大して示す電気的構成のブロック図である。5 is a block diagram of an electrical configuration showing an enlarged view of a hearing module of block 1 in FIG. 4;
【図6】図4におけるブロック2の視覚モジュールを拡
大して示す電気的構成のブロック図である。6 is a block diagram of an electrical configuration showing a visual module of a block 2 in FIG. 4 in an enlarged manner.
【図7】図4におけるブロック3のモータ制御モジュー
ルを拡大して示す電気的構成のブロック図である。FIG. 7 is a block diagram of an electric configuration showing a motor control module of a block 3 in FIG. 4 in an enlarged manner.
【図8】図4におけるブロック4の対話モジュールを拡
大して示す電気的構成のブロック図である。FIG. 8 is a block diagram of an electric configuration showing a dialog module of block 4 in FIG. 4 in an enlarged manner.
【図9】図4におけるブロック5のアソシエーションモ
ジュールを拡大して示す電気的構成のブロック図であ
る。9 is an enlarged block diagram of an electrical configuration showing an association module of a block 5 in FIG. 4;
【図10】図4のロボット視聴覚システムにおけるパー
ティ受付ロボットとしての動作例を示す図である。FIG. 10 is a diagram showing an operation example as a party reception robot in the robot audiovisual system of FIG. 4;
【図11】図4のロボット視聴覚システムにおける
(A)聴覚モジュール,(B)視覚モジュールのビュー
アの画面例を示す図である。(C)モータ制御モジュー
ル及び(D)アソシエーションモジュールのビューアの
画面例を示す図である。11 is a diagram showing an example of a screen of a viewer of (A) an auditory module and (B) a viewer of a visual module in the robot audiovisual system of FIG. It is a figure which shows the example of a screen of the viewer of (C) motor control module and (D) association module.
【図12】図4のロボット視聴覚システムにおける
(C)モータ制御モジュール,(D)アソシエーション
モジュールのビューアの画面例を示す図である。12 is a diagram showing an example of a screen of a viewer of (C) a motor control module and (D) an association module in the robot audiovisual system of FIG. 4;
【図13】図4のロボット視聴覚システムにおけるコン
パニオン用ロボットとしての動作例を示す図である。13 is a diagram illustrating an operation example as a companion robot in the robot audiovisual system of FIG. 4;
10 人型ロボット 11 ベース 12 胴体部 13 頭部 13a 連結部材 14 外装 15 カメラ(ロボット視覚) 16,16a,16b マイク(ロボット聴覚) 17 ロボット視聴覚システム 20 聴覚モジュール 30 視覚モジュール 40 モータ制御モジュール 50 対話モジュール 60 アソシエーションモジュール 70 ネットワーク Reference Signs List 10 humanoid robot 11 base 12 torso 13 head 13a connecting member 14 exterior 15 camera (robot vision) 16, 16a, 16b microphone (robot hearing) 17 robot audiovisual system 20 hearing module 30 visual module 40 motor control module 50 dialog module 60 Association Module 70 Network
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 11/04 H04N 7/18 Z 5D045 13/00 13/00 5L096 15/28 G10L 3/00 C 17/00 Q 15/00 511 15/20 545F 21/02 551H 15/02 3/02 301C H04N 7/18 9/00 301A 13/00 Fターム(参考) 3C007 AS34 AS36 CS08 JS03 KS04 KS08 KS18 KS39 KT01 KT11 KT15 LT08 NS01 WA02 WA03 WB19 WC07 5B057 AA05 BA02 CA12 CA16 DA06 DB02 5C054 CC05 CD03 CG02 FC12 FD01 FE16 FF07 HA04 5C061 AA06 AA21 AA25 AB01 AB08 AB12 AB14 AB17 5D015 AA03 DD02 KK01 KK04 5D045 AB11 5L096 BA05 CA02 FA69 HA09 ──────────────────────────────────────────────────続 き Continued on the front page (51) Int.Cl. 7 Identification symbol FI Theme coat ゛ (Reference) G10L 11/04 H04N 7/18 Z 5D045 13/00 13/00 5L096 15/28 G10L 3/00 C 17 / 00 Q 15/00 511 15/20 545F 21/02 551H 15/02 3/02 301C H04N 7/18 9/00 301A 13/00 F term (reference) 3C007 AS34 AS36 CS08 JS03 KS04 KS08 KS18 KS39 KT01 KT11 KT15 LT08 NS01 WA02 WA03 WB19 WC07 5B057 AA05 BA02 CA12 CA16 DA06 DB02 5C054 CC05 CD03 CG02 FC12 FD01 FE16 FF07 HA04 5C061 AA06 AA21 AA25 AB01 AB08 AB12 AB14 AB17 5D015 AA03 DD02 KK01 KK04 5D069 AB05
Claims (10)
イクを含む聴覚モジュールと、 ロボットの前方を撮像するカメラを含む視覚モジュール
と、 ロボットを水平方向に回動させる駆動モータを含むモー
タ制御モジュールと、 前記聴覚モジュール,視覚モジュール及びモータ制御モ
ジュールからのイベントを統合してストリームを生成す
るアソシエーションモジュールと、 アソシエーションモジュールにより生成されたストリー
ムに基づいてアテンション制御を行なうアテンション制
御モジュールと、を備えているロボット視聴覚システム
であって、 前記聴覚モジュールが、マイクからの音響信号に基づい
て、ピッチ抽出,音源の分離及び定位から、少なくとも
一人の話者の音源を同定してその聴覚イベントを抽出
し、 前記視覚モジュールが、カメラにより撮像された画像に
基づいて、各話者の顔識別と定位からその視覚イベント
を抽出し、 前記モータ制御モジュールが、駆動モータの回転位置に
基づいてモータイベントを抽出することにより、 前記アソシエーションモジュールが、聴覚イベント,視
覚イベント及びモータイベントから、聴覚ストリーム及
び視覚ストリームと、これらを関連付けたアソシエーシ
ョンストリームを生成して、 前記アテンション制御モジュールが、これらのストリー
ムに基づいてモータ制御モジュールの駆動モータ制御の
プランニングのためのアテンション制御を行なうと共
に、 前記聴覚モジュールによる聴覚情報,視覚モジュールに
よる視覚情報及びモータモジュールによるモータ情報、
そしてアソシエーションモジュールによるストリーム情
報の少なくとも一部を表示する表示部を備えていること
を特徴とする、ロボット視聴覚システム。1. A hearing module including at least a pair of microphones for collecting external sounds, a visual module including a camera for capturing an image in front of the robot, and a motor control module including a drive motor for rotating the robot in a horizontal direction. An association module that integrates events from the hearing module, the vision module, and the motor control module to generate a stream, and an attention control module that performs attention control based on the stream generated by the association module. A robot audiovisual system, wherein the auditory module identifies a sound source of at least one speaker and extracts its auditory event from pitch extraction, sound source separation and localization based on an acoustic signal from a microphone; Visual module By extracting the visual event from the face identification and localization of each speaker based on the image captured by the camera, the motor control module extracts the motor event based on the rotational position of the drive motor, The association module generates an audio stream and a visual stream and an association stream associating the audio stream and the visual stream from the audio event, the visual event, and the motor event, and the attention control module drives the motor control module based on the streams. While performing attention control for planning of motor control, the auditory information by the auditory module, the visual information by the visual module and the motor information by the motor module,
A robot audiovisual system, comprising: a display unit that displays at least a part of the stream information by the association module.
イクを含む聴覚モジュールと、 ロボットの前方を撮像するカメラを含む視覚モジュール
と、 ロボットを水平方向に回動させる駆動モータを含むモー
タ制御モジュールと、 前記聴覚モジュール,視覚モジュール及びモータ制御モ
ジュールからのイベントを統合してストリームを生成す
るアソシエーションモジュールと、 アソシエーションモジュールにより生成されたストリー
ムに基づいてアテンション制御を行なうアテンション制
御モジュールと、を備えている人型または動物型のロボ
ットの視聴覚システムであって、 前記聴覚モジュールが、マイクからの音響信号に基づい
て、ピッチ抽出,音源の分離及び定位から、少なくとも
一人の話者の音源を同定してその聴覚イベントを抽出
し、 前記視覚モジュールが、カメラにより撮像された画像に
基づいて、各話者の顔識別と定位からその視覚イベント
を抽出し、 前記モータ制御モジュールが、駆動モータの回転位置に
基づいてモータイベントを抽出することにより、 前記アソシエーションモジュールが、聴覚イベント,視
覚イベント及びモータイベントから、聴覚ストリーム及
び視覚ストリームと、これらを関連付けたアソシエーシ
ョンストリームを生成して、 前記アテンション制御モジュールが、これらのストリー
ムに基づいてモータ制御モジュールの駆動モータ制御の
プランニングのためのアテンション制御を行なうと共
に、 前記聴覚モジュールによる聴覚情報,視覚モジュールに
よる視覚情報及びモータモジュールによるモータ情報、
そしてアソシエーションモジュールによるストリーム情
報の少なくとも一部を表示する表示部を備えていること
を特徴とする、ロボット視聴覚システム。2. A hearing module including at least a pair of microphones for collecting external sounds, a visual module including a camera for capturing an image in front of the robot, and a motor control module including a driving motor for rotating the robot in a horizontal direction. An association module that integrates events from the hearing module, the vision module, and the motor control module to generate a stream, and an attention control module that performs attention control based on the stream generated by the association module. An audiovisual system for a humanoid or animal robot, wherein the auditory module identifies a sound source of at least one speaker based on a sound signal from a microphone from pitch extraction, sound source separation and localization. Extract auditory events The visual module extracts a visual event from face identification and localization of each speaker based on an image captured by a camera, and the motor control module extracts a motor event based on a rotational position of a driving motor. Accordingly, the association module generates an audio stream, a visual stream, and an association stream that associates the audio stream and the visual stream from the audio event, the visual event, and the motor event, and the attention control module performs motor control based on the streams. Performing attention control for planning of the drive motor control of the module, hearing information by the hearing module, visual information by the visual module, and motor information by the motor module;
A robot audiovisual system, comprising: a display unit that displays at least a part of the stream information by the association module.
らの音響信号のスペクトル及び抽出されたピーク、そし
て聴覚イベントを表示する聴覚表示部を備えていること
を特徴とする、請求項1又は2に記載のロボット視聴覚
システム。3. The display unit according to claim 1, wherein the display unit includes an auditory display unit that displays, as auditory information, a spectrum of an acoustic signal from a sound source, an extracted peak, and an auditory event. 3. The robot audiovisual system according to 2.
心とする相対的な方位角,横軸をピッチとし、直径を確
信度とする円により聴覚イベントを表示することを特徴
とする、請求項3に記載のロボット視聴覚システム。4. The auditory display unit displays an auditory event as a circle having a vertical axis representing a relative azimuth around a robot, a horizontal axis representing a pitch, and a circle having a diameter as a certainty factor. The robot audiovisual system according to claim 3.
た顔を枠で示すカメラ画像と、視覚イベントを表示する
視覚表示部を備えていることを特徴とする、請求項1か
ら4の何れかに記載のロボット視聴覚システム。5. The display device according to claim 1, wherein the display unit includes a camera image indicating the extracted face as a frame as visual information and a visual display unit displaying a visual event. A robot audio-visual system according to the present invention.
た顔識別及び顔定位のリストにより視覚イベントを表示
することを特徴とする、請求項5に記載のロボット視聴
覚システム。6. The robot audiovisual system according to claim 5, wherein the visual display unit displays a visual event by using a list of face identification and face localization extracted with certainty.
ットの向き及び動作の速度をリアルタイムに三次元表示
するモータ表示部を備えていることを特徴とする、請求
項1から6の何れかに記載のロボット視聴覚システム。7. The display device according to claim 1, wherein the display unit includes a motor display unit that three-dimensionally displays a direction and an operation speed of the robot in real time as motor information. The described robot audiovisual system.
ストリームチャート及びレーダチャートを表示するスト
リーム表示部を備えていることを特徴とする、請求項7
に記載のロボット視聴覚システム。8. The display unit, as stream information,
8. A stream display unit for displaying a stream chart and a radar chart.
Robot audiovisual system according to 4.
ャートにて、各聴覚ストリーム及び視覚ストリームそし
てアソシエーションストリームにより、ストリーム情報
を表示することを特徴とする、請求項8に記載のロボッ
ト視聴覚システム。9. The robot audiovisual system according to claim 8, wherein the stream display unit displays stream information in the form of a stream chart, each of an auditory stream, a visual stream, and an association stream.
ートにて、カメラ視野と音源定位により、そのときのス
トリーム状態を表示することを特徴とする、請求項8に
記載のロボット視聴覚システム。10. The robot audio-visual system according to claim 8, wherein the stream display unit displays a stream state at that time on a radar chart based on a camera visual field and a sound source localization.
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001067848A JP3843742B2 (en) | 2001-03-09 | 2001-03-09 | Robot audio-visual system |
US10/468,396 US6967455B2 (en) | 2001-03-09 | 2002-03-08 | Robot audiovisual system |
PCT/JP2002/002204 WO2002072317A1 (en) | 2001-03-09 | 2002-03-08 | Robot audiovisual system |
EP02702847A EP1375084A4 (en) | 2001-03-09 | 2002-03-08 | Robot audiovisual system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001067848A JP3843742B2 (en) | 2001-03-09 | 2001-03-09 | Robot audio-visual system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002264052A true JP2002264052A (en) | 2002-09-18 |
JP3843742B2 JP3843742B2 (en) | 2006-11-08 |
Family
ID=18926123
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001067848A Expired - Fee Related JP3843742B2 (en) | 2001-03-09 | 2001-03-09 | Robot audio-visual system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3843742B2 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012045706A (en) * | 2006-06-01 | 2012-03-08 | Samsung Electronics Co Ltd | Device and method of preventing collision for remote control of mobile robot |
JP2015132955A (en) * | 2014-01-10 | 2015-07-23 | 富士ソフト株式会社 | robot, face detection method, and computer program |
JP2016038552A (en) * | 2014-08-11 | 2016-03-22 | 日本板硝子環境アメニティ株式会社 | Phoneme dividing device, voice processing system, phoneme dividing method, and phoneme dividing program, and noise measuring device |
JP2018025706A (en) * | 2016-08-12 | 2018-02-15 | 株式会社カプコン | Voice generator |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000148184A (en) * | 1998-11-06 | 2000-05-26 | Sanyo Electric Co Ltd | Speech recognizing device |
JP2001175869A (en) * | 1999-12-07 | 2001-06-29 | Samsung Electronics Co Ltd | Device and method for detecting speaker's hand position |
JP2001188779A (en) * | 1999-12-28 | 2001-07-10 | Sony Corp | Device and method for processing information and recording medium |
JP2001212780A (en) * | 2000-01-31 | 2001-08-07 | Sony Corp | Behavior controller, behavior control method, and recording medium |
-
2001
- 2001-03-09 JP JP2001067848A patent/JP3843742B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000148184A (en) * | 1998-11-06 | 2000-05-26 | Sanyo Electric Co Ltd | Speech recognizing device |
JP2001175869A (en) * | 1999-12-07 | 2001-06-29 | Samsung Electronics Co Ltd | Device and method for detecting speaker's hand position |
JP2001188779A (en) * | 1999-12-28 | 2001-07-10 | Sony Corp | Device and method for processing information and recording medium |
JP2001212780A (en) * | 2000-01-31 | 2001-08-07 | Sony Corp | Behavior controller, behavior control method, and recording medium |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012045706A (en) * | 2006-06-01 | 2012-03-08 | Samsung Electronics Co Ltd | Device and method of preventing collision for remote control of mobile robot |
JP2015132955A (en) * | 2014-01-10 | 2015-07-23 | 富士ソフト株式会社 | robot, face detection method, and computer program |
JP2016038552A (en) * | 2014-08-11 | 2016-03-22 | 日本板硝子環境アメニティ株式会社 | Phoneme dividing device, voice processing system, phoneme dividing method, and phoneme dividing program, and noise measuring device |
JP2018025706A (en) * | 2016-08-12 | 2018-02-15 | 株式会社カプコン | Voice generator |
Also Published As
Publication number | Publication date |
---|---|
JP3843742B2 (en) | 2006-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6967455B2 (en) | Robot audiovisual system | |
Okuno et al. | Human-robot interaction through real-time auditory and visual multiple-talker tracking | |
Nakadai et al. | Real-time auditory and visual multiple-object tracking for humanoids | |
JP3627058B2 (en) | Robot audio-visual system | |
Nakadai et al. | Active audition for humanoid | |
Okuno et al. | Social interaction of humanoid robot based on audio-visual tracking | |
US20090030552A1 (en) | Robotics visual and auditory system | |
JP3780516B2 (en) | Robot hearing device and robot hearing system | |
US6975991B2 (en) | Wearable display system with indicators of speakers | |
JP3632099B2 (en) | Robot audio-visual system | |
US6005610A (en) | Audio-visual object localization and tracking system and method therefor | |
Aarabi et al. | Robust sound localization using multi-source audiovisual information fusion | |
JP3843740B2 (en) | Robot audio-visual system | |
JP3843743B2 (en) | Robot audio-visual system | |
JP3843741B2 (en) | Robot audio-visual system | |
JP3843742B2 (en) | Robot audio-visual system | |
Shen et al. | A system for visualizing sound source using augmented reality | |
Okuno et al. | Sound and visual tracking for humanoid robot | |
Okuno et al. | Human–robot non-verbal interaction empowered by real-time auditory and visual multiple-talker tracking | |
Kim et al. | Auditory and visual integration based localization and tracking of humans in daily-life environments | |
Okuno et al. | Realizing audio-visually triggered ELIZA-like non-verbal behaviors | |
Haritaoglu et al. | Attentive Toys. | |
JP2004357014A (en) | Monitor report system | |
Okuno et al. | Realizing personality in audio-visually triggered non-verbal behaviors | |
Bayram et al. | Audio-visual multi-person tracking for active robot perception |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20031031 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20031210 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060509 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060710 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060801 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060807 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090825 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100825 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110825 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110825 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120825 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130825 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |