JP2011097531A - System for continuing listening interaction - Google Patents

System for continuing listening interaction Download PDF

Info

Publication number
JP2011097531A
JP2011097531A JP2009252276A JP2009252276A JP2011097531A JP 2011097531 A JP2011097531 A JP 2011097531A JP 2009252276 A JP2009252276 A JP 2009252276A JP 2009252276 A JP2009252276 A JP 2009252276A JP 2011097531 A JP2011097531 A JP 2011097531A
Authority
JP
Japan
Prior art keywords
user
robot
listening
utterance
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009252276A
Other languages
Japanese (ja)
Other versions
JP5407069B2 (en
Inventor
Tomoko Yonezawa
朋子 米澤
Yuichi Kamiyama
祐一 神山
Hirotake Yamazoe
大丈 山添
Shinji Abe
伸治 安部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2009252276A priority Critical patent/JP5407069B2/en
Publication of JP2011097531A publication Critical patent/JP2011097531A/en
Application granted granted Critical
Publication of JP5407069B2 publication Critical patent/JP5407069B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Manipulator (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephone Function (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a video phone for continuing an interaction between persons handicapped in communication. <P>SOLUTION: A listening interaction continuation system 100 includes a monitor 16a, a PC 14a to which a microphone 20a and a monitor camera 22a are connected, and a robot 10a including a belly camera 12a. In the PC 14a, the action of a user A is determined based on an image of the user A captured by the monitor camera 22a and the belly camera 12a, and the sound of the user A collected by the microphone 20a, and stored in a memory. In the PC 14a, a condition of the user A is recognized based on action data for a first predetermined time. When the condition of the user is recognized as "active talk monitor", the PC 14a gives an operating instruction to the robot 10a to perform simulated listening to the user A. <P>COPYRIGHT: (C)2011,JPO&INPIT

Description

この発明は、傾聴対話持続システムに関し、特にたとえば、テレビ電話を利用して対話を行う、傾聴対話システムに関する。   The present invention relates to a listening dialog sustaining system, and more particularly to a listening dialog system that performs a dialog using, for example, a videophone.

特許文献1に開示されている、対話型アノテーションシステムでは、認知症患者である被介護者が利用するテレビ電話が、ネットワークを介して介護者が利用するコンピュータと接続される。ネットワークにはコンピュータおよびテレビ電話の間で、コマンドの転送を行うサーバが接続され、さらにサーバには写真の画像データが蓄えられるデータベースが結合される。また、介護者は、コンピュータによってサーバのURLを開いて写真を指定することで、相手(被介護者)が利用するテレビ電話に表示させることができる。これにより、介護の一環として、テレビ電話を利用して介護者と被介護者とが会話をすることができる。
特開2007−150955号公報[H04N 7/14]
In the interactive annotation system disclosed in Patent Document 1, a videophone used by a care recipient who is a dementia patient is connected to a computer used by a caregiver via a network. A server for transferring commands between the computer and the videophone is connected to the network, and a database for storing picture image data is coupled to the server. Also, the caregiver can display the videophone used by the partner (caregiver) by opening the URL of the server with a computer and designating the photo. Thereby, as a part of care, a caregiver and a cared person can have a conversation using a videophone.
JP 2007-150955 A [H04N 7/14]

近年、軽度認知症患者や、高齢者および言語障害のある人の話を聴き、情緒的なサポートを行う傾聴活動が注目されている。そして、傾聴活動の一環として、傾聴ボランティアが特許文献1の介護者として、軽度認知症患者などの被介護者と会話するようになっている。しかし、傾聴ボランティアの人数は、話し相手を求める介護者の人数に対して少ない。そこで、軽度認知症患者などは対話を行うことも可能であるため、話し相手を求める軽度認知症患者同士で対話を行う活動が進められている。   In recent years, attention activities have been focused on listening to stories of patients with mild dementia, elderly people, and people with speech impairments and providing emotional support. As a part of the listening activity, the listening volunteer is talking with a care recipient such as a patient with mild dementia as a caregiver of Patent Document 1. However, the number of listening volunteers is smaller than the number of caregivers seeking a conversation partner. Therefore, since patients with mild dementia and the like can also have a dialogue, activities for conducting a dialogue between patients with mild dementia who seek a talking partner are being promoted.

ところが、軽度認知症患者同士の対話では、軽度認知症患者が対話に対して集中力を欠如してしまい、対話が持続しないことが多々ある。   However, in a dialogue between patients with mild dementia, the patient with mild dementia often lacks concentration on the dialogue, and the dialogue often does not continue.

それゆえに、この発明の主たる目的は、新規な、傾聴対話持続システムを提供することである。   Therefore, the main object of the present invention is to provide a novel listening dialogue sustaining system.

この発明の他の目的は、コミュニケーション障害のある者同士の対話を持続させる、傾聴対話持続システムを提供することである。   Another object of the present invention is to provide a listening dialog sustaining system that maintains a dialog between persons with communication disabilities.

この発明は、上記の課題を解決するために、以下の構成を採用した。なお、括弧内の参照符号および補足説明等は、この発明の理解を助けるために記述する実施形態との対応関係を示したものであって、この発明を何ら限定するものではない。   The present invention employs the following configuration in order to solve the above problems. The reference numerals in parentheses, supplementary explanations, and the like indicate the corresponding relationship with the embodiments described in order to help understanding of the present invention, and do not limit the present invention.

第1の発明は、第1カメラおよびマイクを含むテレビ電話機およびロボットを含む、傾聴対話持続システムであって、第1カメラによって撮影された画像およびマイクによって集音された音声に基づいて、ユーザの行動を判定する判定手段、判定手段によって判定された第1所定時間分の行動から、ユーザの状態を認識する認識手段、および認識手段によって認識されたユーザの状態に基づいて、対話を持続させるようにロボットを動作させる動作付与手段を備える、傾聴対話持続システムである。   A first invention is a listening dialogue sustaining system including a video phone and a robot including a first camera and a microphone, and based on an image captured by the first camera and a sound collected by the microphone, the user's Based on the determination means for determining the action, the recognition means for recognizing the user's state from the action for the first predetermined time determined by the determination means, and the conversation based on the user's state recognized by the recognition means It is a listening dialogue continuous system provided with the operation | movement provision means to operate a robot.

第1の発明では、傾聴対話持続システム(100)は、モニタ(16a,16b)の近くに設けられる第1カメラ(22a,22b)およびユーザが発話する音声を集音するマイク(20a,20b)と接続されるテレビ電話機(14a,14b)と、ぬいぐるみ型のロボット(10a,10b,14a,14b)とを含む。   In the first invention, the listening dialogue sustaining system (100) includes a first camera (22a, 22b) provided near the monitor (16a, 16b) and a microphone (20a, 20b) that collects a voice spoken by the user. And a stuffed toy robot (10a, 10b, 14a, 14b).

判定手段(64,S65,S67)は、第1カメラによって撮影された画像に対して、所定のテンプレートマッチング処理や顔認識処理を加えた結果と、マイクによって集音された音声の音声レベルとに基づいて、ユーザの行動を判定する。認識手段(64,S75−S81)は、たとえば30秒である第1所定時間分の行動に基づいて、ユーザの状態を認識する。動作付与手段(64,S171,S173,S177,S179)は、ユーザの状態に基づいて、たとえばユーザの発話を疑似傾聴したり、ユーザの発話を調節したり、ユーザの注意を引きつけたりするようにロボットを動作させることで、対話を持続させる。   The determination means (64, S65, S67) uses a result obtained by performing predetermined template matching processing and face recognition processing on the image captured by the first camera, and the sound level of the sound collected by the microphone. Based on this, the user's behavior is determined. The recognition means (64, S75-S81) recognizes the state of the user based on the action for the first predetermined time that is, for example, 30 seconds. The action giving means (64, S171, S173, S177, S179), for example, pseudo-listens the user's utterance, adjusts the user's utterance, or attracts the user's attention based on the user's state. The conversation is sustained by operating the robot.

第1の発明によれば、ユーザの状態に応じてロボットが対話を持続させるように動作するため、コミュニケーション障害のある者同士の対話を持続させることができる。   According to the first aspect, since the robot operates so as to maintain the dialogue according to the user's state, the dialogue between persons with communication disabilities can be sustained.

第2の発明は、第1の発明に従属し、認識手段は、対話に対する積極的および非積極的を認識する積極性認識手段を含み、動作付与手段は、積極性認識手段の認識結果に基づき、ユーザに対する疑似傾聴をロボットに行わせる傾聴動作付与手段を含む。   A second invention is dependent on the first invention, and the recognition means includes a positive recognition means for recognizing positive and non-positive actions, and the action giving means is based on the recognition result of the positive recognition means. A listening operation giving means for causing the robot to perform a pseudo-listening with respect to.

第2の発明では、積極性認識手段(64,S75)は、たとえばユーザが相手を見る時間(WT)、前傾視線の時間(FT)および相槌の頻度(RF)に基づいて、対話に対する積極的(アクティブ状態)および非積極的(パッシブ状態)を認識する。傾聴動作付与手段(64,S171,S173,S201,S225,S265,S285,S305,S367,S435,S441,S443)は、たとえばユーザが対話に対して積極的である場合に、ユーザの発話を疑似傾聴するようにロボットを動作させる。   In the second invention, the aggressiveness recognition means (64, S75) is configured to actively respond to the dialogue based on, for example, the time when the user looks at the other party (WT), the forward tilt line of sight time (FT), and the frequency of conflict (RF). Recognize (active state) and inactive (passive state). The listening motion giving means (64, S171, S173, S201, S225, S265, S285, S305, S367, S435, S441, S443) simulates the user's utterance, for example, when the user is active in dialogue. Move the robot to listen.

第2の発明によれば、ユーザは、ロボットの疑似傾聴によって、自身の話を聴いてもらっているように感じることができるため、対話が持続するようになる。   According to the second aspect of the invention, the user can feel as if he / she is listening to his / her story by the pseudo-listening of the robot, so that the dialogue continues.

第3の発明は、第1の発明または第2の発明に従属し、認識手段は、対話における聴取側状態および話手側状態を認識する話者状態認識手段をさらに含み、ユーザまたは相手の発声時間を計測する計測手段をさらに備え、動作付与手段は、計測手段によって計測された発声時間に基づき、ユーザの発話を制御するように、ロボットを動作させる発話制御動作付与手段をさらに含む。   A third invention is dependent on the first invention or the second invention, and the recognition means further includes a speaker state recognition means for recognizing a listener side state and a speaker side state in a dialog, and the utterance of the user or the other party Measuring means for measuring time is further provided, and the action giving means further includes utterance control action giving means for operating the robot so as to control the user's utterance based on the utterance time measured by the measuring means.

第3の発明では、話者状態認識手段(64,S77)は、ユーザの発話の有無に基づいて、対話における傾聴(リッスン状態)および発話(トーク状態)を認識する。計測手段(64,S141,S143,S145)は、たとえば音声レベルが所定値以上であるとき、ユーザまたは相手の発声時間を計測する。発話制御動作付与手段(64,S207,S227,S297,S319)は、たとえばとちらかのユーザが一方的に話している状態で発声時間が閾値以上になったとき、ユーザの発話を制御するように、ロボットを動作させる。   In the third invention, the speaker state recognition means (64, S77) recognizes the listening (listen state) and the utterance (talk state) in the dialogue based on the presence or absence of the user's utterance. The measuring means (64, S141, S143, S145) measures the utterance time of the user or the other party when, for example, the sound level is a predetermined value or more. The utterance control operation giving means (64, S207, S227, S297, S319) controls the user's utterance when the utterance time exceeds a threshold value, for example, in a state where one of the users is speaking unilaterally. Next, operate the robot.

第3の発明によれば、発話が制御されることでお互いがバランス良く発話するようになるため、対話が持続するようになる。   According to the third invention, since the utterances are controlled, the utterances are uttered in a well-balanced manner, so that the dialogue continues.

第4の発明は、第3の発明に従属し、発話制御手段は、積極性認識手段によって積極的と認識され、かつ話者状態認識手段によって話手状態と認識される積極的発話状態であり、かつ発声時間が閾値以上になったとき、ユーザの発話が抑制されるように、ロボットを動作させる発話抑制動作付与手段を含む。   A fourth invention is dependent on the third invention, and the utterance control means is an active utterance state that is recognized as active by the aggressiveness recognition means and is recognized as a speaker state by the speaker state recognition means, And the speech suppression operation | movement provision part which operates a robot is included so that a user's speech may be suppressed when speech time becomes more than a threshold value.

第4の発明では、発話抑制動作付与手段(64,S297,S405,S411,S417,S423,S425)は、ユーザが対話に対して積極的に発話している場合に、発声時間が閾値以上になると、ユーザの発話を抑制するように、ロボットを動作させる。   In the fourth invention, the utterance suppression operation giving means (64, S297, S405, S411, S417, S423, S425) is configured such that the utterance time exceeds the threshold when the user is actively speaking. Then, the robot is operated so as to suppress the user's speech.

第4の発明によれば、ユーザが一方的に話しすぎている場合には、発話が抑制される。   According to the fourth invention, when the user is unilaterally speaking, the utterance is suppressed.

第5の発明は、第4の発明に従属し、発話抑制動作付与手段は、ユーザの注意を誘導するように、ロボットを動作させる注意誘導手段を含む。   A fifth invention is dependent on the fourth invention, and the utterance suppression operation giving means includes attention guiding means for operating the robot so as to guide the user's attention.

第5の発明では、注意誘導手段(64,S425,S455,S461)は、たとえばユーザと相手が表示されるモニタ(16)とを交互に見るように、ロボットを動作させることでユーザの注意を誘導する。   In the fifth aspect of the invention, the attention guiding means (64, S425, S455, S461), for example, operates the robot so that the user and the monitor (16) on which the other party is displayed are alternately viewed so as to alert the user. Induce.

第5の発明によれば、一方的に話すユーザの注意が誘導されるため、発話が抑制される。また、ユーザの注意が相手に誘導される場合には、相手が発話する機会を得ることができ、対話がより持続するようになる。   According to the fifth aspect, since the user's unilaterally speaking user's attention is induced, the utterance is suppressed. In addition, when the user's attention is guided to the other party, the other party can have an opportunity to speak, and the dialogue is more sustained.

第6の発明は、第3の発明ないし第5の発明のいずれかに従属し、発話制御手段は、積極性認識手段によって積極的と認識され、かつ話者状態認識手段によって聴取側状態と認識される積極的聴取側状態であるとき、ユーザの発話が促進されるように、ロボットを動作させる発話促進動作付与手段をさらに含む。   The sixth invention is dependent on any one of the third to fifth inventions, and the utterance control means is recognized as positive by the positiveness recognition means and is recognized as the listening state by the speaker state recognition means. In the active listening side state, the apparatus further includes an utterance promoting action giving means for operating the robot so that the user's utterance is promoted.

第6の発明では、発話促進動作付与手段(64,S227,S319,S471)は、ユーザが積極的に相手の話を聴き取っている(傾聴している)場合に、たとえば相手の発声時間が閾値以上になれば、ユーザの発話が促進されるように、ロボットを動作させる。   In the sixth invention, when the user actively listens to (listens to) the other party's story, the utterance promoting action giving means (64, S227, S319, S471), for example, If the threshold value is exceeded, the robot is operated so that the user's speech is promoted.

第6の発明によれば、ユーザが相手の話を積極的に傾聴している状態が長く続けば、発話が促進される。   According to the sixth aspect of the invention, speech is promoted if the user is actively listening to the other party for a long time.

第7の発明は、第2の発明ないし第5の発明のいずれかに従属し、動作付与手段は、積極性認識手段によって非積極的と認識されたとき、ユーザを対話に参加させるように、ロボットを動作させる参加動作付与手段をさらに含む。   A seventh invention is according to any one of the second to fifth inventions, and the motion giving means causes the user to participate in the dialogue when recognized as inactive by the positiveness recognition means. It further includes a participation action giving means for operating the.

第7の発明では、参加動作付与手段(64,S177,S231,S319,S321)は、ユーザが対話に非積極的であれば、ユーザを対話に参加させるように、ロボットを動作させる。   In the seventh invention, the participation operation giving means (64, S177, S231, S319, S321) operates the robot so as to cause the user to participate in the dialogue if the user is inactive in the dialogue.

第7の発明によれば、対話に非積極的なユーザを対話に参加させることで、対話を持続させる。   According to the seventh aspect of the present invention, the dialog is maintained by allowing users who are not active in the dialog to participate in the dialog.

第8の発明は、第7の発明に従属し、参加動作付与手段は、ユーザの注意を引きつけるようにロボットを動作させる注意引付手段を含む。   An eighth invention is according to the seventh invention, and the participation motion giving means includes attention attracting means for operating the robot so as to attract the user's attention.

第8の発明では、注意引付手段(64,S321,S335,S341,S343)は、たとえば、ユーザを見たり、話しかけたりするようにロボットを動作させることで、ユーザの注意を引きつける。   In the eighth invention, the attention attracting means (64, S321, S335, S341, S343) attracts the user's attention by, for example, operating the robot so as to see or talk to the user.

第8の発明によれば、対話に非積極的なユーザの注意を引きつけることで、対話に参加させる。   According to the eighth aspect of the invention, the user is allowed to participate in the dialogue by attracting the attention of the non-aggressive user.

第9の発明は、第7の発明または第8の発明に従属し、参加動作付与手段は、ユーザの発話を促すようにロボットを動作させる、発話促し手段をさらに含む。   A ninth invention is dependent on the seventh invention or the eighth invention, and the participation motion giving means further includes speech prompting means for operating the robot so as to prompt the user to speak.

第9の発明では、発話促し手段(64,S319,S471)は、たとえばユーザに対して質問をするようにロボットを動作させることで、ユーザの発話を促す。   In the ninth invention, the speech prompting means (64, S319, S471) prompts the user to speak by operating the robot so as to ask the user a question, for example.

第9の発明によれば、対話に非積極的なユーザに発話させることで、対話に参加させる。   According to the ninth aspect of the present invention, the user who is not active in the dialogue is allowed to speak to participate in the dialogue.

第10の発明は、第1の発明ないし第9の発明のいずれかに従属し、ロボットが接続されるネットワーク、ネットワークに接続されるサーバ、判定手段によって判定されたユーザの行動をサーバに送信する送信手段、およびサーバから相手ユーザの行動を取得する取得手段をさらに備え、動作付与手段は、取得手段によって取得された相手ユーザの行動とユーザの行動とに基づき、相手ユーザに対する疑似傾聴をロボットに行わせる相手傾聴動作付与手段をさらに含む。   A tenth invention is according to any one of the first to ninth inventions, and transmits a network to which the robot is connected, a server connected to the network, and a user action determined by the determination means to the server. The transmission means and an acquisition means for acquiring the other user's action from the server are further provided, and the action giving means gives the robot a pseudo-listening to the other user based on the other user's action and the user's action acquired by the acquisition means. It further includes an opponent listening operation giving means to be performed.

第10の発明では、ネットワーク(200)には、たとえば無線LANなどでロボットおよびサーバ(24)が接続される。送信手段(64,S69)は、ユーザの行動を一定時間毎にサーバに送信する。取得手段(64,S269,S289,S309)は、サーバに送信された相手ユーザの行動を取得する。相手傾聴動作付与手段(64,S275,S295,S315,S385,S391,S393)は、相手ユーザが発話していれば、たとえば相手ユーザが表示されるモニタに対して疑似傾聴動作を行うように、ロボットを動作させる。   In the tenth invention, a robot and a server (24) are connected to the network (200) by, for example, a wireless LAN. A transmission means (64, S69) transmits a user's action to a server for every fixed time. The acquisition means (64, S269, S289, S309) acquires the other user's action transmitted to the server. If the other user is speaking, the other party listening operation giving means (64, S275, S295, S315, S385, S391, S393) performs, for example, a pseudo listening operation on the monitor on which the other user is displayed. Move the robot.

第10の発明によれば、たとえユーザが相手ユーザの話を傾聴していなくても、ロボットが相手の話を傾聴することで、相手ユーザは自身の話を聴いてもらっているように感じることができる。   According to the tenth aspect, even if the user is not listening to the other user's story, the robot may feel as if the other user is listening to his / her story because the robot listens to the other's story. it can.

第11の発明は、第1の発明ないし第10の発明のいずれかに従属し、認識手段は、ユーザの興味対象を認識する興味対象認識手段をさらに含み、動作付与手段は、興味対象認識手段による認識結果に基づき、ユーザが対話に興味を持つように、ロボットを動作させる興味動作付与手段をさらに含む。   An eleventh invention is according to any one of the first to tenth inventions, wherein the recognition means further includes an interest object recognition means for recognizing a user's interest object, and the action giving means is the interest object recognition means. The robot further includes an interest motion giving means for operating the robot so that the user is interested in the dialogue based on the recognition result obtained by the above.

第11の発明では、興味対象認識手段(64,S79)は、ユーザが見ているものをユーザの興味対象として認識する。興味動作付与手段(64,S179,S241,S321,S335,S341,S343,S405)は、ユーザの興味が、たとえばロボットでなければ、ユーザが対話に興味を持つように、ロボットを動作させる。   In the eleventh invention, the object recognition means (64, S79) recognizes what the user is viewing as the user's object of interest. The interest motion giving means (64, S179, S241, S321, S335, S341, S343, S405) operates the robot so that the user is interested in the dialogue if the user is not interested in the robot, for example.

第11の発明によれば、ユーザに対話に興味を持たせることで、対話が持続するようになる。   According to the eleventh aspect of the present invention, the dialog is sustained by making the user interested in the dialog.

第12の発明は、第11の発明に従属し、ロボットは、第2カメラを含み、第1カメラおよび第2カメラによるそれぞれの画像に対して顔認識処理を実行する顔認識手段をさらに備え、興味対象認識手段は、顔認識手段による第2所定時間分の顔認識結果から第1カメラの第1認識率を算出する第1認識率算出手段、顔認識手段による第2所定時間分の顔認識結果から第2カメラの第2認識率を算出する第2認識率算出手段および第1認識率と第2認識率とに基づいて認識結果を設定する設定手段を含む。   A twelfth invention is according to the eleventh invention, wherein the robot further includes a face recognition unit that includes a second camera and performs face recognition processing on each image by the first camera and the second camera, The interest object recognition means includes first recognition rate calculation means for calculating a first recognition rate of the first camera from a face recognition result for a second predetermined time by the face recognition means, and face recognition for a second predetermined time by the face recognition means. A second recognition rate calculating means for calculating a second recognition rate of the second camera from the result; and a setting means for setting the recognition result based on the first recognition rate and the second recognition rate.

第12の発明では、ロボットは、たとえば腹部に第2カメラ(12)が設けられる。顔認識手段(64,S41)は、第1カメラおよび第2カメラによって撮影されたユーザの顔を認識する。第1認識率算出手段(64,S123)は、第1カメラによって撮影されたユーザの顔の第1認識率(M)を算出する。第2認識率算出手段(64,S125)は、第2カメラによって撮影されたユーザの顔の第2認識率(S)を算出する。そして、設定手段(64,S131,S133,S135)は、第1認識率および第2認識率に基づいて、ユーザの興味対象を設定する。   In the twelfth invention, the robot is provided with the second camera (12) in the abdomen, for example. The face recognition means (64, S41) recognizes the user's face photographed by the first camera and the second camera. The first recognition rate calculating means (64, S123) calculates the first recognition rate (M) of the user's face taken by the first camera. The second recognition rate calculation means (64, S125) calculates the second recognition rate (S) of the user's face photographed by the second camera. And a setting means (64, S131, S133, S135) sets a user's interest object based on a 1st recognition rate and a 2nd recognition rate.

第12の発明によれば、興味対象がユーザの顔の認識率M,Sに基づいて設定されるため、ユーザが見ている対象を正確に認識することができる。   According to the twelfth aspect, since the object of interest is set based on the recognition rates M and S of the user's face, the object the user is looking at can be accurately recognized.

第13の発明は、第12の発明に従属し、設定手段によって設定された興味対象に基づいて第1カメラまたは第2カメラの画像のどちらか一方を送信する画像送信手段をさらに備える。   A thirteenth invention is according to the twelfth invention, and further comprises image transmission means for transmitting either the first camera image or the second camera image based on the object of interest set by the setting means.

第13の発明では、画像送信手段(64,S489,S491)は、たとえばユーザの興味対象がテレビ電話機であれば第1カメラの画像を送信し、ロボットであれば第2カメラの画像を送信する。   In the thirteenth invention, the image transmission means (64, S489, S491) transmits the image of the first camera if, for example, the user's interest is a videophone, and transmits the image of the second camera if the user is a robot. .

第13の発明によれば、相手は、たとえユーザがロボットに話しかけている状態であったとしても、相手にはユーザの顔が正面に写る画像が送られる。そのため、相手は自身に話しかけられているように感じるため、対話が持続するようになる。   According to the thirteenth aspect, even if the partner is in a state where the user is talking to the robot, an image of the user's face in front is sent to the partner. As a result, the other party feels as if they are speaking to them, and the dialogue continues.

第14の発明は、第1の発明ないし第13の発明のいずれかに従属し、判定手段は、ユーザの姿勢を判定する姿勢判定手段、ユーザの発話の有無を判定する発話判定手段、ユーザの頭部方向を判定する頭部方向判定手段、ユーザの視線方向を判定する視線方向判定手段、ユーザの頷きの有無を判定する頷き判定手段およびユーザの相槌を判定する相槌判定手段を含み、ユーザの行動は、姿勢判定結果、発話判定結果、頭部方向判定結果、視線方向判定結果、頷き判定結果および相槌判定結果に基づいて決定される。   A fourteenth invention is dependent on any one of the first to thirteenth inventions, and the determining means is a posture determining means for determining the user's posture, an utterance determining means for determining the presence or absence of the user's utterance, A head direction determining means for determining a head direction, a gaze direction determining means for determining a user's gaze direction, a whirling determining means for determining the presence or absence of a user's whisper, and a conflict determining means for determining a user's conflict, The behavior is determined based on the posture determination result, the utterance determination result, the head direction determination result, the gaze direction determination result, the whirl determination result, and the conflict determination result.

第14の発明では、姿勢判定手段(64,S9)、頭部方向判定手段(64,S25)、視線方向判定手段(64,S33)および頷き判定手段(64,S49)は、ユーザが写る画像に基づいて判定する。発話判定手段(64,S17)はユーザの音声に基づいて判定する。さらに、相槌判定手段(64,S59)は、ユーザの発話と頷きの判定結果に基づいて判定する。そして、ユーザの行動は、各判定結果に基づいて決められる。   In the fourteenth invention, the posture determination means (64, S9), the head direction determination means (64, S25), the gaze direction determination means (64, S33) and the whirl determination means (64, S49) Determine based on. The utterance determination means (64, S17) determines based on the user's voice. Further, the conflict determination means (64, S59) determines based on the determination result of the user's speech and whisper. And a user's action is decided based on each judgment result.

第14の発明によれば、ユーザの行動データに複数の判定結果が含まれることで、ユーザの状態を適確に認識できるようになる。   According to the fourteenth aspect, a plurality of determination results are included in the user's behavior data, so that the user's state can be recognized accurately.

この発明によれば、ユーザの状態に応じてロボットが対話を持続させるように動作するため、コミュニケーション障害のある者同士の対話を持続させることができる。   According to the present invention, since the robot operates so as to maintain the conversation according to the state of the user, it is possible to maintain the conversation between persons with communication disabilities.

この発明の上述の目的、その他の目的、特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。   The above object, other objects, features, and advantages of the present invention will become more apparent from the following detailed description of embodiments with reference to the drawings.

図1はこの発明の一実施例の傾聴対話持続システムの概要を示す図解図である。FIG. 1 is an illustrative view showing an outline of a listening dialogue sustaining system according to an embodiment of the present invention. 図2は図1に示すモニタカメラとモニタとロボットとユーザとの側面的な位置関係およびそのモニタカメラと腹部カメラとの撮影範囲の一例を示す図解図である。FIG. 2 is an illustrative view showing an example of a lateral positional relationship among the monitor camera, the monitor, the robot, and the user shown in FIG. 1 and an imaging range of the monitor camera and the abdominal camera. 図3は図1に示すロボットの外観を正面から見た図解図である。FIG. 3 is an illustrative view showing the appearance of the robot shown in FIG. 1 from the front. 図4は図1に示すロボットの電気的な構成の一例を示すブロック図である。FIG. 4 is a block diagram showing an example of the electrical configuration of the robot shown in FIG. 図5は図1に示すPCの電気的な構成の一例を示すブロック図である。FIG. 5 is a block diagram showing an example of the electrical configuration of the PC shown in FIG. 図6は図4に示すメモリに記憶される行動テーブルの一例を示す図解図である。FIG. 6 is an illustrative view showing one example of an action table stored in the memory shown in FIG. 図7は図1に示すモニタカメラおよび腹部カメラによる顔認識結果の一例を示す図解図である。FIG. 7 is an illustrative view showing one example of a face recognition result by the monitor camera and the abdominal camera shown in FIG. 図8は図1に示すサーバの電気的な構成の一例を示すブロック図である。FIG. 8 is a block diagram showing an example of the electrical configuration of the server shown in FIG. 図9は図4に示すPCのメモリのメモリマップの一例を示す図解図である。FIG. 9 is an illustrative view showing one example of a memory map of the memory of the PC shown in FIG. 図10は図9に示すデータ記憶領域の一例を示す図解図である。FIG. 10 is an illustrative view showing one example of a data storage area shown in FIG. 図11は図9に示す状況認識プログラムの構成の一例を示す図解図である。FIG. 11 is an illustrative view showing one example of a configuration of the situation recognition program shown in FIG. 図12は図9に示すロボット制御プログラムの構成の一例を示す図解図である。FIG. 12 is an illustrative view showing one example of a configuration of the robot control program shown in FIG. 図13は図5に示すPCのプロセッサの画像/音声取得処理を示すフロー図である。FIG. 13 is a flowchart showing image / sound acquisition processing of the processor of the PC shown in FIG. 図14は図5に示すPCのプロセッサの姿勢判定処理を示すフロー図である。FIG. 14 is a flowchart showing the attitude determination processing of the processor of the PC shown in FIG. 図15は図5に示すPCのプロセッサの発話判定処理を示すフロー図である。FIG. 15 is a flowchart showing speech determination processing of the processor of the PC shown in FIG. 図16は図5に示すPCのプロセッサの頭部方向判定処理を示すフロー図である。FIG. 16 is a flowchart showing head direction determination processing of the processor of the PC shown in FIG. 図17は図5に示すPCのプロセッサの視線方向判定処理を示すフロー図である。FIG. 17 is a flowchart showing the gaze direction determination processing of the processor of the PC shown in FIG. 図18は図5に示すPCのプロセッサの顔認識処理を示すフロー図である。FIG. 18 is a flowchart showing face recognition processing of the processor of the PC shown in FIG. 図19は図5に示すPCのプロセッサの頷き判定処理を示すフロー図である。FIG. 19 is a flowchart showing the whirling determination process of the PC processor shown in FIG. 図20は図5に示すPCのプロセッサの相槌判定処理を示すフロー図である。FIG. 20 is a flowchart showing the compatibility determination process of the processor of the PC shown in FIG. 図21は図5に示すPCのプロセッサの同期処理を示すフロー図である。FIG. 21 is a flowchart showing synchronization processing of the processor of the PC shown in FIG. 図22は図5に示すPCのプロセッサの状態認識処理を示すフロー図である。FIG. 22 is a flowchart showing state recognition processing of the processor of the PC shown in FIG. 図23は図5に示すPCのプロセッサのAc/Pa認識処理を示すフロー図である。FIG. 23 is a flowchart showing the Ac / Pa recognition process of the processor of the PC shown in FIG. 図24は図5に示すPCのプロセッサのTa/Li認識処理を示すフロー図である。FIG. 24 is a flowchart showing Ta / Li recognition processing of the processor of the PC shown in FIG. 図25は図5に示すPCのプロセッサの興味対象認識処理を示すフロー図である。FIG. 25 is a flowchart showing the interest object recognition processing of the processor of the PC shown in FIG. 図26は図5に示すPCのプロセッサの発声時間計測処理を示すフロー図である。FIG. 26 is a flowchart showing the utterance time measurement processing of the processor of the PC shown in FIG. 図27は図5に示すPCのプロセッサの全体処理を示すフロー図である。FIG. 27 is a flowchart showing the overall processing of the processor of the PC shown in FIG. 図28は図5に示すPCのプロセッサのアクティブトーク処理を示すフロー図である。FIG. 28 is a flowchart showing the active talk processing of the processor of the PC shown in FIG. 図29は図5に示すPCのプロセッサのアクティブリッスン処理を示すフロー図である。FIG. 29 is a flowchart showing an active listening process of the processor of the PC shown in FIG. 図30は図5に示すPCのプロセッサの非アクティブ処理を示すフロー図である。FIG. 30 is a flowchart showing inactive processing of the processor of the PC shown in FIG. 図31は図5に示すPCのプロセッサのアザー処理を示すフロー図である。FIG. 31 is a flowchart showing the other processing of the processor of the PC shown in FIG. 図32は図5に示すPCの発話継続処理を示すフロー図である。FIG. 32 is a flowchart showing the utterance continuation processing of the PC shown in FIG. 図33は図5に示すPCのプロセッサの発話抑制処理を示すフロー図である。FIG. 33 is a flowchart showing speech suppression processing of the processor of the PC shown in FIG. 図34は図5に示すPCのプロセッサの発話促進処理を示すフロー図である。FIG. 34 is a flowchart showing the speech promotion process of the processor of the PC shown in FIG. 図35は図5に示すPCのプロセッサの注意引きつけ処理を示すフロー図である。FIG. 35 is a flowchart showing the attention attracting process of the processor of the PC shown in FIG. 図36は図5に示すPCのプロセッサの傍参与者的疑似傾聴処理を示すフロー図である。FIG. 36 is a flowchart showing an attendant pseudo-listening process of the processor of the PC shown in FIG. 図37は図5に示すPCのプロセッサの第1積極的疑似傾聴処理を示すフロー図である。FIG. 37 is a flowchart showing the first positive pseudo-listening process of the processor of the PC shown in FIG. 図38は図5に示すPCのプロセッサのユーザ発話抑制処理を示すフロー図である。FIG. 38 is a flowchart showing user utterance suppression processing of the processor of the PC shown in FIG. 図39は図5に示すPCのプロセッサの第2積極的疑似傾聴処理を示すフロー図である。FIG. 39 is a flowchart showing the second active pseudo-listening process of the processor of the PC shown in FIG. 図40は図5に示すPCのプロセッサの注意誘導処理を示すフロー図である。FIG. 40 is a flowchart showing attention guidance processing of the processor of the PC shown in FIG. 図41は図5に示すPCのプロセッサのユーザ発話促進処理を示すフロー図である。41 is a flowchart showing user utterance promotion processing of the processor of the PC shown in FIG. 図42は図5に示すPCのプロセッサのカメラ制御処理を示すフロー図である。FIG. 42 is a flowchart showing camera control processing of the processor of the PC shown in FIG.

図1を参照して、この実施例の傾聴対話持続システム100は、たとえば認知症患者のような軽度脳障害を持つユーザAと遠隔地に居るユーザBとの対話に利用される。そのため、傾聴対話持続システム100には、ユーザAが居る部屋1に設置される腹部カメラ12a(第2カメラ)を含むぬいぐるみ型ロボット(以下、単に「ロボット」と言う。)10a、PC14a、モニタ16a、スピーカ18a、マイク20aおよびモニタカメラ22a(第1カメラ)と、ユーザBが居る部屋2(遠隔地)に設置される腹部カメラ12bを含むロボット10b、PC14b、モニタ16b、スピーカ18b、マイク20bおよびモニタカメラ22bと、ネットワーク200に接続されるサーバ24とを備える。なお、本明細書では、部屋1および部屋2において対応する機器および人間を、区別なく説明する必要がある場合には、符号にアルファベットを添えずに参照番号だけで表示されることがあることに留意されたい。   Referring to FIG. 1, the listening dialogue sustaining system 100 of this embodiment is used for a dialogue between a user A having a mild brain disorder such as a dementia patient and a user B in a remote place. Therefore, the listening dialogue sustaining system 100 includes a stuffed robot (hereinafter simply referred to as “robot”) 10a, a PC 14a, and a monitor 16a including an abdominal camera 12a (second camera) installed in the room 1 where the user A is present. A robot 10b, a PC 14b, a monitor 16b, a speaker 18b, a microphone 20b, and a speaker 18a, a microphone 20a, a monitor camera 22a (first camera), and an abdominal camera 12b installed in a room 2 (remote location) where the user B is located. A monitor camera 22b and a server 24 connected to the network 200 are provided. In addition, in this specification, when it is necessary to describe the corresponding devices and people in the room 1 and the room 2 without distinction, the reference numerals may be displayed only without reference numerals. Please keep in mind.

ロボット10はPC14による制御信号に基づいて傾聴動作や、発話を行う。ロボット10の腹部に設けられた腹部カメラ12はユーザを撮影し、ロボット10を介して画像をPC14に出力する。PC14は、ロボット10に対して制御信号を出力するとともに、腹部カメラ12およびモニタカメラ22によって撮影された画像と、マイク20によって集音される音声とが入力される。そして、PC14は、入力された画像と音声とに基づいてユーザの行動および状態を判定および認識し、その結果をネットワーク200を介してサーバ24に送信する。   The robot 10 listens and speaks based on the control signal from the PC 14. An abdominal camera 12 provided on the abdomen of the robot 10 captures the user and outputs an image to the PC 14 via the robot 10. The PC 14 outputs a control signal to the robot 10 and receives an image captured by the abdominal camera 12 and the monitor camera 22 and a sound collected by the microphone 20. Then, the PC 14 determines and recognizes the user's action and state based on the input image and sound, and transmits the result to the server 24 via the network 200.

PC14、モニタ16、スピーカ18、マイク20およびモニタカメラ22はテレビ電話機として機能する。たとえば、PC14aは、ユーザB側のPC14bから送信されたユーザBの画像および音声を受信する。そのため、モニタ16aはユーザBの画像を表示し、スピーカ18はユーザBの音声を出力する。さらに、マイク20はユーザAの音声を集音してPC14に出力し、モニタカメラ22はユーザAの画像を撮影してPC14に出力する。そして、PC14は、ユーザAの画像と音声とを、ネットワーク200を介してPC14bに送信する。   The PC 14, the monitor 16, the speaker 18, the microphone 20, and the monitor camera 22 function as a video phone. For example, the PC 14a receives the image and sound of the user B transmitted from the PC 14b on the user B side. Therefore, the monitor 16a displays the image of the user B, and the speaker 18 outputs the user B's voice. Further, the microphone 20 collects the voice of the user A and outputs it to the PC 14, and the monitor camera 22 captures an image of the user A and outputs it to the PC 14. Then, the PC 14 transmits the image and sound of the user A to the PC 14b via the network 200.

サーバ24は、PC14aおよびPC14bから送信される、ユーザAおよびユーザBの行動や状態のデータを受信すると、データベース(DB)に蓄積させる。そして、PC14から行動および状態のデータを取得する要求がある場合に、その要求に応じてデータをPC14に送信する。   When the server 24 receives the data of the actions and states of the user A and the user B transmitted from the PC 14a and the PC 14b, the server 24 accumulates them in a database (DB). And when there exists a request | requirement which acquires the data of action and a state from PC14, data are transmitted to PC14 according to the request | requirement.

なお、他の実施例では、ロボット10とPC14とが有線接続ではなく、無線接続であってもよい。また、PC14およびサーバ24のネットワーク200との接続も、有線接続であってもよいし、無線接続であってもよい。   In another embodiment, the robot 10 and the PC 14 may be wirelessly connected instead of wiredly connected. Further, the connection between the PC 14 and the server 24 with the network 200 may be a wired connection or a wireless connection.

図2は図1に示す実施例を側面から見た実施例である。図2から分かるように、モニタカメラ22はモニタ16の上に置かれ、ロボット12とモニタ16とは机の上に置かれる。ユーザは、机の上に置かれるモニタ16およびモニタカメラ22に対面する状態で、腹部カメラ12およびモニタカメラ22によって撮影される。さらに、ロボット10は、ユーザとモニタ16との間に配置されるため、モニタカメラ22はロボット10とユーザとを同時に撮影する。これにより、ロボット10は、ユーザAに対して疑似的な傾聴動作(疑似傾聴動作)を行ったり、ユーザBが表示されるモニタ16aに対して疑似傾聴動作を行ったりする。   FIG. 2 shows an embodiment of the embodiment shown in FIG. 1 viewed from the side. As can be seen from FIG. 2, the monitor camera 22 is placed on the monitor 16, and the robot 12 and the monitor 16 are placed on the desk. The user is photographed by the abdominal camera 12 and the monitor camera 22 while facing the monitor 16 and the monitor camera 22 placed on the desk. Furthermore, since the robot 10 is disposed between the user and the monitor 16, the monitor camera 22 photographs the robot 10 and the user at the same time. Thereby, the robot 10 performs a pseudo-listening operation (pseudo-listening operation) on the user A, or performs a pseudo-listening operation on the monitor 16a on which the user B is displayed.

なお、ロボット10は、モニタカメラ22によって撮影され、かつユーザを撮影可能な位置であれば、机の上に置かれていなくてもよい。   Note that the robot 10 does not have to be placed on the desk as long as it is captured by the monitor camera 22 and can capture the user.

図3にはロボット10の外観が図示される。このロボット10は、頭部26とそれを支える胴体28とを含む。胴体28の上部(人間の肩に相当)の左右に左腕30Lおよび右腕30Rが設けられ、胴体28の腹部には腹部カメラ12が設けられる。この腹部カメラ12には、たとえばCCDやCMOSのような固体撮像素子を用いるカメラを採用することができる。また、頭部26には、前面に口32が配置され、その口32の上方には眼球34が設けられる。そして、頭部26の上部側面には耳36が取り付けられている。   FIG. 3 illustrates the appearance of the robot 10. The robot 10 includes a head 26 and a body 28 that supports the head 26. The left arm 30L and the right arm 30R are provided on the left and right of the upper part of the body 28 (corresponding to a human shoulder), and the abdomen camera 12 is provided on the abdomen of the body 28. As the abdomen camera 12, for example, a camera using a solid-state imaging device such as CCD or CMOS can be employed. The head 26 is provided with a mouth 32 on the front surface, and an eyeball 34 is provided above the mouth 32. An ear 36 is attached to the upper side surface of the head 26.

頭部26は、胴体28によって旋回・俯仰可能に支持され、眼球34も稼働的に保持されている。また、胴体28は、腰の部分を中心として左右方向に傾くことが可能である。さらに、口32にはスピーカ56(図4)が内蔵され、耳36にはマイク58(図4)が内蔵される。   The head 26 is supported by the body 28 so as to be able to turn and rise, and the eyeball 34 is also operatively held. In addition, the body 28 can be tilted in the left-right direction around the waist. Further, a speaker 56 (FIG. 4) is built in the mouth 32, and a microphone 58 (FIG. 4) is built in the ear 36.

なお、マイク58を両方の耳36にそれぞれ内蔵すれば、ステレオマイクとして機能し、それによって、そのステレオマイクに入力された音声の位置を必要に応じて特定することができる。また、ロボット10の外見は、熊だけに限らず、他の動物や、人型であってもよい。   If the microphones 58 are incorporated in both ears 36, they function as stereo microphones, whereby the position of the sound input to the stereo microphones can be specified as necessary. Further, the appearance of the robot 10 is not limited to a bear, but may be another animal or a humanoid.

図4にはロボット10の電気的な構成を示すブロック図が示される。ロボット10には、マイクロコンピュータ或いはCPUとも呼ばれる、プロセッサ38が内蔵されており、通信路の一例であるバス40を介して、腹部カメラ12、メモリ42、モータ制御ボード44、音声入力/出力ボード54、センサ入力/出力ボード60およびI/O62に接続される。   FIG. 4 is a block diagram showing an electrical configuration of the robot 10. The robot 10 incorporates a processor 38, also called a microcomputer or a CPU, via a bus 40, which is an example of a communication path, via an abdominal camera 12, a memory 42, a motor control board 44, and an audio input / output board 54. , Connected to the sensor input / output board 60 and the I / O 62.

メモリ42は、図示しないROMやRAMが組み込まれており、ROMには主として、ロボット10による傾聴動作や、発話を行うためのプログラムや、発話を行う際にスピーカ56から出力される音声データなどが予め記憶されている。また、RAMは一時記憶メモリとして用いられるとともに、ワーキングメモリとして利用される。   The memory 42 includes a ROM and a RAM (not shown). The ROM mainly includes a listening operation by the robot 10, a program for uttering, voice data output from the speaker 56 when uttering, and the like. Stored in advance. The RAM is used as a temporary storage memory and a working memory.

モータ制御ボード44は、たとえばDSP(Digital Signal Processor)で構成され、図3に示すロボット10の各腕や頭部の各軸モータを制御する。すなわち、モータ制御ボード44は、プロセッサ38からの制御データを受け、右腕30R(図3)を前後や左右に動かすことができるように、X,YおよびZ軸のそれぞれの角度を制御する3つのモータ(図4ではまとめて、「右腕モータ」として示す。)46Rの回転角度を調節する。また、モータ制御ボード44は、左腕30Lの3つのモータ(図4ではまとめて、「左腕モータ」として示す。)46Lの回転角度を調節する。モータ制御ボード44は、また、頭部26の旋回角や俯仰角を制御する3つのモータ(図4ではまとめて、「頭部モータ」として示す。)48の回転角度を調節する。モータ制御ボード44は、また、眼球34を動かす眼球モータ50および胴体28を傾ける腰モータ52も制御する。   The motor control board 44 is constituted by, for example, a DSP (Digital Signal Processor), and controls each axis motor of each arm and head of the robot 10 shown in FIG. That is, the motor control board 44 receives the control data from the processor 38 and controls the three angles for controlling the X, Y, and Z axes so that the right arm 30R (FIG. 3) can be moved back and forth and left and right. The rotation angle of the motor 46R (collectively shown as “right arm motor” in FIG. 4) 46R is adjusted. Further, the motor control board 44 adjusts the rotation angle of three motors 46L of the left arm 30L (collectively shown as “left arm motor” in FIG. 4) 46L. The motor control board 44 also adjusts the rotation angle of three motors 48 (collectively shown as “head motors” in FIG. 4) that control the turning angle and the elevation angle of the head 26. The motor control board 44 also controls an eyeball motor 50 that moves the eyeball 34 and a waist motor 52 that tilts the body 28.

なお、上述のモータは、制御を簡単化するために、それぞれステッピングモータまたはパルスモータであるが、直流モータであってもよい。   Note that the motors described above are stepping motors or pulse motors in order to simplify the control, but may be direct current motors.

スピーカ56には音声入出力ボード54を介して、プロセッサ38から合成音声データが与えられ、それに応じて、スピーカ56からはそのデータに従った音声または声が出力される。そして、マイク58によって集音された音声は、音声入出力ボード54を介して、プロセッサ38に取り込まれる。   The speaker 56 is provided with the synthesized voice data from the processor 38 via the voice input / output board 54, and accordingly, the speaker 56 outputs voice or voice according to the data. Then, the sound collected by the microphone 58 is taken into the processor 38 via the sound input / output board 54.

センサ入力/出力ボード60は、モータ制御ボード44と同様に、DSPで構成され、腹部カメラ12からの信号を取り込んで、プロセッサ38に与える。腹部カメラ12からの映像信号が、必要に応じてセンサ入力/出力ボード60で所定の処理を施してからプロセッサ38に入力される。   Similar to the motor control board 44, the sensor input / output board 60 is composed of a DSP, takes in a signal from the abdominal camera 12, and provides it to the processor 38. The video signal from the abdominal camera 12 is input to the processor 38 after being subjected to predetermined processing by the sensor input / output board 60 as necessary.

I/O62は、各々入力/出力の制御が可能なディジタルポートであり、出力ポートからは映像信号が出力され、PC14に与えられる。一方、PC14からは、制御信号が出力され、入力ポートに与えられる。   The I / O 62 is a digital port that can control input / output, and a video signal is output from the output port and applied to the PC 14. On the other hand, a control signal is output from the PC 14 and applied to the input port.

図5にはPC14の電気的な構成を示すブロック図が示される。PC14には、ロボット10と同様、マイクロコンピュータ或いはCPUとも呼ばれる、プロセッサ64が内蔵されており、バス66を介して、メモリ68、視線サーバ70、音声入力/出力ボード72およびI/O74に接続される。なお、プロセッサ64には、日時情報を出力するRTC(Real Time Clock)64aが内蔵されている。   FIG. 5 is a block diagram showing the electrical configuration of the PC 14. Like the robot 10, the PC 14 includes a processor 64, which is also called a microcomputer or CPU, and is connected to the memory 68, the line-of-sight server 70, the audio input / output board 72, and the I / O 74 via the bus 66. The The processor 64 has a built-in RTC (Real Time Clock) 64a for outputting date information.

メモリ68は、図示しないROM、RAMおよびHDDが組み込まれており、ROMには主として、電話機能を実現するためのプログラムや、後述のフローチャート(図13−図42)で表現されるプログラムが記憶される。また、RAMには主として、腹部カメラ12およびモニタカメラ22によって撮影された画像や、マイク20によって集音された音声などが一時的に記憶されるバッファなどが設定されている。そして、HDDには主として、ユーザの行動を判断した結果や、状態を認識した結果などが随時記憶される。   The memory 68 incorporates a ROM, a RAM, and an HDD (not shown). The ROM mainly stores a program for realizing a telephone function and a program expressed by flowcharts (FIGS. 13 to 42) described later. The The RAM is mainly set with a buffer for temporarily storing images taken by the abdominal camera 12 and the monitor camera 22 and sounds collected by the microphone 20. The HDD mainly stores the result of determining the user's action, the result of recognizing the state, and the like as needed.

視線サーバ70は、腹部カメラ12およびモニタカメラ22によって撮影されたユーザの顔の画像から、ユーザの視線方向や位置をリアルタイムで検出する。そして、プロセッサ20は、視線サーバ70が特定または検出したユーザの視線方向や位置を示すデータを、バス66を通して刻々受け取ることで、ユーザが注視する対象を判定する。   The line-of-sight server 70 detects the user's line-of-sight direction and position in real time from the image of the user's face taken by the abdominal camera 12 and the monitor camera 22. Then, the processor 20 receives the data indicating the user's line-of-sight direction and position identified or detected by the line-of-sight server 70 through the bus 66 to determine an object to be watched by the user.

なお、視線サーバ70によるユーザの視線方向や位置の検出方法については、本件出願人が先に出願し既に公開された、特開2008−113875号公報に開示されているので、ここでは記述を省略する。   Note that the method of detecting the user's line-of-sight direction and position by the line-of-sight server 70 has been disclosed in Japanese Patent Application Laid-Open No. 2008-113875 previously filed by the applicant of the present application and is therefore omitted here. To do.

スピーカ18には、音声入力/出力ボード72を介して、プロセッサ64から相手ユーザの音声データが与えられ、それに応じて、スピーカ18からはそのデータに従った音声が出力される。そして、マイク20によって集音された相手ユーザの音声は、音声入力/出力ボード72を介して、プロセッサ64に取り込まれる。   The audio data of the other user is given to the speaker 18 from the processor 64 via the audio input / output board 72, and the audio according to the data is output from the speaker 18 accordingly. Then, the voice of the partner user collected by the microphone 20 is taken into the processor 64 via the voice input / output board 72.

I/O74は、ロボット10のI/O62と同様に、各々入力/出力の制御が可能なディジタルポートであり、出力ポートからは、制御信号がロボット10に出力され、画像信号がモニタ16に出力される。また、ロボット10およびモニタカメラ22からは、映像信号が出力され、入力ポートに与えられる。なお、スピーカ18が出力する音声データおよびマイク20から入力される音声データは、I/O74を介して音声入力/出力ボード72に入出力されるようにされてもよい。   Similar to the I / O 62 of the robot 10, the I / O 74 is a digital port capable of controlling input / output. From the output port, a control signal is output to the robot 10 and an image signal is output to the monitor 16. Is done. In addition, a video signal is output from the robot 10 and the monitor camera 22 and applied to the input port. Note that the audio data output from the speaker 18 and the audio data input from the microphone 20 may be input / output to / from the audio input / output board 72 via the I / O 74.

また、プロセッサ64は、バス66を介して通信LANボード76に接続される。この通信LANボード76は、たとえばDSPで構成され、プロセッサ64から与えられた送信データを無線通信装置78に与える。無線通信装置78は送信データを、ネットワーク200を介して外部のコンピュータ(サーバ24および相手のPC14)に送信する。また、通信LANボード76は、無線通信装置78を介してデータを受信し、受信したデータをプロセッサ64に与える。   The processor 64 is connected to the communication LAN board 76 via the bus 66. The communication LAN board 76 is constituted by, for example, a DSP, and supplies transmission data given from the processor 64 to the wireless communication device 78. The wireless communication device 78 transmits the transmission data to an external computer (the server 24 and the partner PC 14) via the network 200. The communication LAN board 76 receives data via the wireless communication device 78 and gives the received data to the processor 64.

たとえば、送信データとしては、テレビ電話機として必要なコマンド、画像データおよび音声データや、ユーザの行動を判定した結果およびユーザの状態を認識した結果であったりする。また、受信データとしては、テレビ電話機として得られる相手の画像データおよび音声データや、相手ユーザの行動を判定した結果および状態を認識した結果であったりする。   For example, the transmission data may be a command, image data and audio data necessary for a videophone, a result of determining a user's action, and a result of recognizing the user's state. The received data may be image data and audio data of the other party obtained as a video phone, or a result of determining the action and state of the other user and recognizing the state.

図6にはPC14のメモリ68に記憶される、行動テーブルが示される。この行動テーブルとは、ユーザの行動が判定された結果が行動データにされ、その行動データが一定時間(たとえば、1秒)毎に刻々と記録されるテーブルである。   FIG. 6 shows an action table stored in the memory 68 of the PC 14. The behavior table is a table in which the result of determining the user's behavior is used as behavior data, and the behavior data is recorded every predetermined time (for example, 1 second).

図6を参照して、行動テーブルは、左側から「時刻」、「前傾姿勢」、「発話」、「頭部方向(腹部)」、「視線方向(腹部)」、「顔認識(腹部)」、「頭部方向(モニタ)」、「視線方向(モニタ)」、「顔認識(モニタ)」、「頷き」および「相槌」の列で構成されている。そして、各行動データは、「時刻」の列に同期して、各欄に記録される判定結果から構成される。   Referring to FIG. 6, the action table includes “time”, “forward tilt posture”, “utterance”, “head direction (abdomen)”, “gaze direction (abdomen)”, “face recognition (abdomen) from the left side. ”,“ Head direction (monitor) ”,“ line-of-sight direction (monitor) ”,“ face recognition (monitor) ”,“ blink ”and“ contrast ”. Each action data is composed of a determination result recorded in each column in synchronization with the “time” column.

「時刻」の列に記録される数値は、RTC64aが出力する日時情報であり、たとえば「10:00:30」は「10時00分30秒」を表す。   The numerical value recorded in the “time” column is the date and time information output by the RTC 64a. For example, “10:00:30” represents “10:00:30”.

「前傾姿勢」の列には、ユーザがモニタ16に対して前傾姿勢を取っているか否かを示す判定結果が記録される。たとえば、「前傾姿勢」の列に「あり」が記録されていればユーザがモニタ16に対して前傾姿勢を取っており、「なし」が記録されていれば、ユーザがモニタ16に対して前傾姿勢を取っていないことを示す。そして、前傾姿勢の「あり」/「なし」は、腹部カメラ12およびモニタカメラ22によって撮影された画像に対して、テンプレートマッチング処理を加えて判定される。たとえば、ユーザの姿勢が前傾視線のテンプレートと一致する場合に前傾姿勢が「あり」と判定され、テンプレートと一致しない場合に前傾姿勢が「なし」と判定される。なお、ロボット10に超音波センサなどの距離を計測可能なセンサを取りつけて、ユーザの姿勢を判定するようにしてもよい。   In the column of “forward leaning posture”, a determination result indicating whether or not the user is leaning forward with respect to the monitor 16 is recorded. For example, if “Yes” is recorded in the “Forward leaning” column, the user is leaning forward with respect to the monitor 16, and if “None” is recorded, the user is directed to the monitor 16. It shows that it is not taking forward leaning posture. Then, the presence / absence of the forward tilt posture is determined by applying a template matching process to images taken by the abdominal camera 12 and the monitor camera 22. For example, the forward tilt posture is determined as “present” when the user posture matches the template of the forward tilt line of sight, and the forward tilt posture is determined as “none” when it does not match the template. Note that a sensor that can measure a distance, such as an ultrasonic sensor, may be attached to the robot 10 to determine the user's posture.

「発話」の列には、ユーザが発話しているか否かを示す判定結果が記録される。たとえば、「発話」の列に「あり」が記録されていれば、ユーザが発話していることを示し、「なし」が記録されていれば、ユーザが発話していないことを示す。そして、発話の「あり」/「なし」は、マイク20によって集音された音声データの音声レベルから判定される。たとえば、音声データの音声レベルが決められた値以上であれば「あり」と判定され、決められた値未満であれば「なし」と判定される。   In the “utterance” column, a determination result indicating whether or not the user is speaking is recorded. For example, if “Yes” is recorded in the “Speech” column, it indicates that the user is speaking, and if “None” is recorded, it indicates that the user is not speaking. Then, “Yes” / “No” of the utterance is determined from the voice level of the voice data collected by the microphone 20. For example, if the sound level of the sound data is greater than or equal to a predetermined value, it is determined as “present”, and if it is less than the determined value, it is determined as “not present”.

「頭部方向(腹部)」および「頭部方向(モニタ)」の列には、ユーザの頭部が向いている方向に有る物が記録される。たとえば、「モニタ」が記録されていれば、ユーザの頭部が向く方向にはモニタ16が有ることを示し、「ロボット」が記録されていれば、ユーザの頭部が向く方向にはロボット10が有ることを示し、「アザー」が記録されていれば、ユーザの頭部が向く方向にはロボット10およびモニタ16が無いことを示す。そして、「頭部方向(腹部)」の列については、腹部モニタ12によって撮影された画像に対してテンプレートマッチング処理を加えて判定される。一方、「頭部方向(モニタ)」の列については、モニタカメラ22によって撮影された画像に対してテンプレートマッチング処理を加えて判定される。たとえば、ユーザの頭部の形がモニタ16の方向を向くテンプレートと一致していれば「モニタ」と判定され、ユーザの頭部の形がロボット10の方向を向くテンプレートと一致していれば「ロボット」と判定され、ユーザの頭部の形がいずれのテンプレートとも一致しなければ「アザー」と判定される。   In the columns of “head direction (abdomen)” and “head direction (monitor)”, an object in the direction in which the user's head is facing is recorded. For example, if “monitor” is recorded, it indicates that the monitor 16 is in the direction facing the user's head, and if “robot” is recorded, the robot 10 is directed in the direction toward the user's head. If “other” is recorded, it indicates that the robot 10 and the monitor 16 are not in the direction in which the user's head faces. The column of “head direction (abdomen)” is determined by applying template matching processing to the image captured by the abdomen monitor 12. On the other hand, the column of “head direction (monitor)” is determined by applying template matching processing to the image captured by the monitor camera 22. For example, if the shape of the user's head matches the template facing the direction of the monitor 16, it is determined as “monitor”. If the shape of the user's head matches the template facing the direction of the robot 10, “ If the shape of the user's head does not match any of the templates, it is determined as “other”.

「視線方向(腹部)」および「視線方向(モニタ)」の列には、ユーザの視線が向いている方向に有る物が記録される。また、「視線方向(腹部)」および「視線方向(モニタ)」の列には、「頭部方向(腹部)」の列と同様に、「モニタ」、「ロボット」および「アザー」が記録される。そして、「視線方向(腹部)」および「視線方向(モニタ)」の列における、「モニタ」、「ロボット」および「アザー」は視線サーバ70の出力に基づいて判定される。たとえば、ユーザの視線方向がモニタ16に向いていれば「モニタ」と判定され、ユーザの視線方向がロボット10に向いていれば「ロボット」と判定され、ユーザの視線方向がロボット10およびモニタ16のいずれの方向にも向いていなければ、「アザー」と判定される。   In the columns “line-of-sight direction (abdomen)” and “line-of-sight direction (monitor)”, objects in the direction in which the user's line of sight faces are recorded. Similarly to the “head direction (abdomen)” column, “monitor”, “robot”, and “other” are recorded in the “line of sight direction (abdomen)” and “line of sight direction (monitor)” columns. The Then, “monitor”, “robot”, and “other” in the columns of “line-of-sight direction (abdomen)” and “line-of-sight direction (monitor)” are determined based on the output of the line-of-sight server 70. For example, if the user's line-of-sight direction is directed to the monitor 16, it is determined as “monitor”, and if the user's line-of-sight direction is directed toward the robot 10, it is determined as “robot”, and the user's line-of-sight direction is determined as the robot 10 and the monitor 16. If it is not in any direction, it is determined as “other”.

「顔認識(腹部)」および「顔認識(モニタ)」の列には、ユーザの顔の認識結果が記録される。たとえば、ユーザの顔が認識されていれば「成功」が記録され、ユーザの顔が認識されていなければ「失敗」が記録される。そして、「顔認識(腹部)」の列については、腹部モニタ12によって撮影された画像に対して顔認識処理が実施されることで判定される。一方、「顔認識(モニタ)」の列については、モニタカメラ22によって撮影された画像に対して所定の顔認識処理が実施されることで判定される。   In the columns of “face recognition (abdomen)” and “face recognition (monitor)”, the recognition results of the user's face are recorded. For example, “success” is recorded if the user's face is recognized, and “failure” is recorded if the user's face is not recognized. The column of “face recognition (abdomen)” is determined by performing face recognition processing on an image photographed by the abdomen monitor 12. On the other hand, the column “face recognition (monitor)” is determined by performing a predetermined face recognition process on the image captured by the monitor camera 22.

図7(A)にはモニタカメラ22による顔認識結果の成功列が示され、図7(B)には腹部カメラ12による顔認識結果の成功例が示される。まず、図7(A)を参照して、左側が腹部カメラ12による画像であり、右側がモニタカメラ22による画像であり、どちらの画像も同じ時刻に撮影された画像である。このとき、ユーザはモニタカメラ22を注視している状態である。そのため、モニタカメラ22による画像では、ユーザの顔が正面に写っているため、顔認識が成功している。一方、腹部カメラ12による画像では、ユーザの顔は傾いて写っているため、顔認識が失敗している。   7A shows a success sequence of face recognition results by the monitor camera 22, and FIG. 7B shows a successful example of face recognition results by the abdominal camera 12. FIG. First, referring to FIG. 7A, the left side is an image by the abdominal camera 12, the right side is an image by the monitor camera 22, and both images are images taken at the same time. At this time, the user is watching the monitor camera 22. Therefore, in the image by the monitor camera 22, the face of the user is reflected in the front, and thus the face recognition is successful. On the other hand, in the image obtained by the abdominal camera 12, the user's face is tilted and the face recognition fails.

次に、図7(B)を参照して、図7(A)と同様に、左側が腹部カメラ12による画像であり、右側がモニタカメラ22による画像であり、同じ時刻に撮影された画像である。このとき、ユーザは腹部カメラ12を注視しているため、腹部カメラ12による画像では顔認識が成功している。一方、モニタカメラ22による画像では顔認識が失敗している。   Next, referring to FIG. 7B, as in FIG. 7A, the left side is an image by the abdominal camera 12, the right side is an image by the monitor camera 22, and is an image taken at the same time. is there. At this time, since the user is gazing at the abdomen camera 12, the face recognition is successful in the image by the abdomen camera 12. On the other hand, face recognition has failed in the image by the monitor camera 22.

図6に戻って、「頷き」の列には、ユーザによる頷きの有無が記録される。たとえば、「頷き」の列に「あり」が記録されていればユーザが頷いたことを示し、「なし」が記録されていればユーザが頷かなかったことを示す。そして、ユーザの頷きの有無は、腹部カメラ12およびモニタカメラ22によって撮影された画像に対して、所定のテンプレートマッチング処理を加えることで判定する。たとえば、ユーザの頭部の形が頷いている状態のテンプレートと一致していれば「あり」と判定され、テンプレートと一致していなければ「なし」と判定される。   Returning to FIG. 6, the presence / absence of whispering by the user is recorded in the “whispering” column. For example, if “yes” is recorded in the “whispering” column, it indicates that the user has asked, and if “none” is recorded, it indicates that the user has not spoken. The presence / absence of the user's whisper is determined by applying a predetermined template matching process to the images taken by the abdominal camera 12 and the monitor camera 22. For example, “Yes” is determined if the user's head shape matches the crawling template, and “No” is determined if the template does not match the template.

「相槌」の列には、ユーザによる相槌の有無が記録される。たとえば、「相槌」の列に「あり」と記録されていればユーザが頷いたことを示し、「なし」と記録されていればユーザが頷かなかったことを示す。そして、相槌の有無については、頷きの判定結果と、音声データにおける「あー」や「うん」などの相槌らしい音を判定可能な、音声プロソディの判定結果とに基づいて判断する。たとえば、ユーザの頷きが「あり」ときに相槌らしい音があれば、相槌の判定結果は「あり」と判定される。   The presence / absence of a user's conflict is recorded in the “contrast” column. For example, if “Yes” is recorded in the column of “Consideration”, it indicates that the user has asked, and if “No” is recorded, it indicates that the user has not asked. The presence / absence of the conflict is determined based on the determination result of the whispering and the determination result of the voice prosody that can determine a sound that is compatible with the voice data such as “Ah” and “Ye”. For example, if there is a sound that is compatible when the user's whisper is “Yes”, the determination result of the conflict is determined as “Yes”.

なお、上述したテンプレートマッチング処理および顔認識処理は、広く一般的な手法が用いられているため、詳細な説明は省略する。   Note that the template matching process and the face recognition process described above use widely general methods, and thus detailed description thereof is omitted.

そして、PC14では、これらの処理によって一定時間毎に記録された行動データから、ユーザの状態を第1所定時間(たとえば、30秒)毎に認識する。具体的には、第1所定時間毎の行動データに基づいて、Ac/Pa認識、Ta/Li認識および興味対象認識の処理を実行し、各処理の認識結果からユーザの状態を決定する。   And PC14 recognizes a user's state for every 1st predetermined time (for example, 30 seconds) from the action data recorded for every fixed time by these processes. Specifically, Ac / Pa recognition, Ta / Li recognition, and interest recognition processing are executed based on the behavior data for each first predetermined time, and the state of the user is determined from the recognition result of each processing.

まず、Ac/Pa認識とは、ユーザが対話に積極的に参加し、対話に集中している「アクティブ:Active(Ac)」状態か、ユーザが対話に非積極的であり、他のものに集中または注意力が散漫な「パッシブ:Passive(Pa)」状態かを認識する処理である。そのため、本実施例のAc/Pa認識では、第1所定時間分のユーザの行動データのうち、視線方向、前傾姿勢、頷きおよび相槌に基づいて、アクティブ状態らしさを示すAC値を算出することで、アクティブ状態またはパッシブ状態を認識する。   First, Ac / Pa recognition refers to an “active (Ac)” state where the user actively participates in the dialogue and concentrates on the dialogue, or the user is inactive in the dialogue, This is a process for recognizing a “passive (Pa)” state in which concentration or attention is distracting. Therefore, in the Ac / Pa recognition of the present embodiment, the AC value indicating the likelihood of the active state is calculated based on the line-of-sight direction, the forward leaning posture, the whirling, and the conflict among the user behavior data for the first predetermined time. To recognize the active or passive state.

たとえば、相手を見る時間をWT、体を倒して近づく前傾姿勢の時間をAT、相槌の頻度をRFで示す場合に、相手を見る時間WTは、行動テーブルにおける「視線方向(腹部)」および「視線方向(モニタ)」の列で、第1所定時間分の行のうち、「あり」と判定された回数をカウントすることで求めることができる。また、前傾姿勢の時間FTは、「前傾姿勢」の列で、第1所定時間分の行のうち、「あり」と判定された回数をカウントすることで求めることができる。さらに、相槌の頻度RFは、「相槌」の列で「あり」と判定された回数を、「頷き」の列で「あり」と判定された回数で割ることで求めることができる。   For example, when WT is the time to watch the opponent, AT is the time of the forward leaning posture approaching the body, and RF is the frequency of reciprocity, the time WT to look at the opponent is the “sight line direction (abdomen)” in the action table and It can be obtained by counting the number of times determined as “present” in the row of “first line of sight (monitor)” for the first predetermined time. Further, the forward tilt posture time FT can be obtained by counting the number of times determined to be “present” in the first predetermined time row in the “forward tilt posture” column. Further, the frequency RF of the conflict can be obtained by dividing the number of times determined as “Yes” in the column of “Consult” by the number of times determined as “Yes” in the column of “Swing”.

また、算出した相手を見る時間WT、体を倒して近づく時間ATおよび相槌の頻度RFから、数1に示す式に基づいてAC値を算出する。   Further, the AC value is calculated based on the equation shown in Formula 1 from the calculated time WT for watching the opponent, the time AT for approaching the body by defeating, and the frequency RF of the companion.

[数1]
C1×WT+C2×FT+C3×RF=AC値
C1,C2,C3:定数
そして、このように算出されたAC値を閾値Aに基づいて判断することで、アクティブ状態またはパッシブ状態を認識することができる。つまり、数1に示す式で算出されたAC値が閾値Aより大きければアクティブ状態と認識され、AC値が閾値以下であればパッシブ状態と認識される。なお、定数C1,C2およびC3の値を変化させることで、各パラメータに重みを付けることができる。
[Equation 1]
C1 × WT + C2 × FT + C3 × RF = AC values C1, C2, C3: constants By determining the AC value calculated in this way based on the threshold A, the active state or the passive state can be recognized. That is, if the AC value calculated by the equation shown in Equation 1 is larger than the threshold value A, the active state is recognized, and if the AC value is equal to or less than the threshold value, the passive state is recognized. Each parameter can be weighted by changing the values of the constants C1, C2, and C3.

次に、Ta/Li認識とは、ユーザが話し手となり発話している「トーク:Talk(Ta)」状態(話手側状態)であるか、相手ユーザの話を傾聴している「リッスン:Listen(Li)」状態(聴取側状態)であるかを認識する処理である。そのため、Ta/Li認識では、第1所定時間分のユーザの行動のうち、ユーザの発話に基づいて認識する。この実施例では、ユーザの発声時間を発話量とし、この発話量が閾値Tに基づいて、トーク状態またはリッスン状態を認識する。   Next, Ta / Li recognition is a “talk: Talk (Ta)” state (speaker side state) in which a user speaks as a speaker, or “listen: Listen” listening to the other user's story. This is a process of recognizing whether the state is (Li) ”(listening side state). Therefore, in Ta / Li recognition, it recognizes based on a user's utterance among a user's action for the 1st predetermined time. In this embodiment, the utterance amount of the user is used as the utterance amount, and the utterance amount recognizes the talk state or the listen state based on the threshold value T.

たとえば、発話量をTaとする場合に、発話量Taは、行動テーブルにおける「発話」の列で、第1所定時間分の行のうち、「あり」と判定された回数をカウントすることで求めることができる。そして、このように算出された発話量Taを閾値Tと比較することで、トーク状態またはパッシブ状態を認識することができる。つまり、発話量Taが閾値Tより大きければトーク状態と認識され、発話量Taが閾値T以下であれば、リッスン状態と認識される。   For example, when the utterance amount is Ta, the utterance amount Ta is obtained by counting the number of times determined to be “present” in the row of the first predetermined time in the “utterance” column in the action table. be able to. Then, the talk state or the passive state can be recognized by comparing the utterance amount Ta thus calculated with the threshold value T. That is, if the utterance amount Ta is larger than the threshold value T, it is recognized as a talk state, and if the utterance amount Ta is equal to or less than the threshold value T, it is recognized as a listening state.

そして、興味対象認識とは、ユーザの興味が「ロボット」、「モニタ」および「アザー」のいずれであるかを認識する処理である。そのため、興味対象認識では、第2所定時間(たとえば、10秒)分のユーザの行動データのうち、ユーザの顔認識および視線方向に基づいて、モニタカメラ22側の顔の認識率Mと、腹部カメラ12側の顔の認識率Sとを算出することで、ユーザの興味が有る物を認識する。   Interest object recognition is processing for recognizing whether the user's interest is “robot”, “monitor”, or “other”. Therefore, in interest recognition, the recognition rate M of the face on the monitor camera 22 side and the abdomen based on the user's face recognition and line-of-sight direction of the user's behavior data for a second predetermined time (for example, 10 seconds) By calculating the face recognition rate S on the camera 12 side, an object that the user is interested in is recognized.

たとえば、認識率Mは、行動テーブルにおける「顔認識(モニタ)」および「視線方向(モニタ)」の列で、第1所定時間分の行のうち、「成功」および「モニタ」と判定された回数をカウントすることで求めることができる。一方、認識率Sは、行動テーブルにおける「顔認識(腹部)」および「視線方向」の列で、「成功」および「ロボット」と判定された回数をカウントすることで求めることができる。そして、このように算出された認識率Mおよび認識率Sと閾値Inとを比較することでユーザの興味対象を認識することができる。つまり、認識率Mおよび認識率Sが共に閾値In以下であれば、興味対象が「アザー」と認識される。また、認識率Mおよび認識率Sが共に閾値Inより大きく、かつ認識率Mが認識率Sより大きければ、興味対象が「モニタ」と認識され、認識率Sが認識率Mより大きければ、興味対象が「ロボット」と認識される。   For example, the recognition rate M is determined as “success” and “monitor” in the first predetermined time row in the columns of “face recognition (monitor)” and “gaze direction (monitor)” in the action table. It can be obtained by counting the number of times. On the other hand, the recognition rate S can be obtained by counting the number of times determined as “success” and “robot” in the columns of “face recognition (abdomen)” and “gaze direction” in the action table. Then, the user's interest can be recognized by comparing the recognition rate M and the recognition rate S calculated in this way with the threshold value In. That is, if both the recognition rate M and the recognition rate S are equal to or less than the threshold value In, the object of interest is recognized as “other”. If the recognition rate M and the recognition rate S are both greater than the threshold value In and the recognition rate M is greater than the recognition rate S, the object of interest is recognized as “monitor”, and if the recognition rate S is greater than the recognition rate M, The target is recognized as a “robot”.

なお、認識率Sおよび認識率Mは、顔認識の結果だけで求められてもよい。また、顔認識の結果が百分率で示される場合には、1秒毎の認識結果の総積を認識率としてもよい。さらに、興味対象認識では、認識率の代わりに、前傾姿勢の時間割合と視線方向の時間割合と頭部方向の時間割合とから求められる数値に基づいて認識されてもよい。そして、第1所定時間と第2所定時間とは同じ長さであってもよい。   Note that the recognition rate S and the recognition rate M may be obtained only from the result of face recognition. Further, when the result of face recognition is shown as a percentage, the total product of recognition results every second may be used as the recognition rate. Furthermore, in interest recognition, instead of the recognition rate, recognition may be performed based on numerical values obtained from the time ratio of the forward tilt posture, the time ratio in the line-of-sight direction, and the time ratio in the head direction. The first predetermined time and the second predetermined time may be the same length.

このようにして、Ac/Pa認識、Ta/Li認識および興味対象認識の処理が行われた後に、ユーザの状態は各認識結果を組み合わせることで決定する。具体的なユーザの状態としては、ユーザの興味対象がモニタ16である「アクティブ・トーク・モニタ」、「アクティブ・リッスン・モニタ」、「パッシブ・トーク・モニタ」および「パッシブ・リッスン・モニタ」の4種類と、ユーザの興味対象がロボット10である「アクティブ・トーク・ロボット」、「アクティブ・リッスン・ロボット」、「パッシブ・トーク・ロボット」、「パッシブ・リッスン・ロボット」の4種類と、ユーザの興味対象がロボット10でもモニタ16でもない「アクティブ・トーク・アザー」、「アクティブ・リッスン・アザー」、「パッシブ・トーク・アザー」および「パッシブ・リッスン・アザー」の4種類とから成る、合計12種類である。   Thus, after the process of Ac / Pa recognition, Ta / Li recognition, and interest object recognition is performed, a user's state is determined by combining each recognition result. Specific user states include “active talk monitor”, “active listen monitor”, “passive talk monitor”, and “passive listen monitor” in which the user is interested in the monitor 16. There are four types, “Active Talk Robot”, “Active Listen Robot”, “Passive Talk Robot”, and “Passive Listen Robot” whose users are interested in the robot 10, and the user A total of 4 types of "active talk other", "active listen other", "passive talk other", and "passive listen other" that are not interested in robot 10 or monitor 16 There are 12 types.

ここで、一定時間が1秒、第1所定時間を30秒とした場合に、「アクティブ・トーク・モニタ」、「アクティブ・リッスン・モニタ」、「パッシブ・トーク・モニタ」および「パッシブ・リッスン・モニタ」と認識されるユーザの状態の一例について説明する。なお、「ロボット」および「アザー」におけるユーザの状態については、ユーザの興味対象が異なるだけで「モニタ」の場合と同じであるため、詳細な説明は省略する。   Here, when the predetermined time is 1 second and the first predetermined time is 30 seconds, "active talk monitor", "active listen monitor", "passive talk monitor" and "passive listen monitor" An example of the state of the user recognized as “monitor” will be described. Note that the user states of “robot” and “other” are the same as in the case of “monitor” except that the user's interests are different, and thus detailed description thereof is omitted.

まず、ユーザの興味対象が「モニタ」と認識されている状態で、発話の継続時間が15秒(50%)以上であり、視線方向の判定において「モニタ」が30回のうち18回(60%)以上判定され、さらに頷きが2回以上あれば「アクティブ・トーク・モニタ」と認識される。   First, in a state where the user's interest is recognized as “monitor”, the duration of the utterance is 15 seconds (50%) or more, and “monitor” is 18 times out of 30 times (60 %) Or more is judged, and if there are two or more whisperings, it is recognized as “active talk monitor”.

次に、ユーザの興味対象が「モニタ」と認識されている状態で、発話の継続時間が9秒(30%)以下であり、視線方向の判定において「モニタ」が30回のうち15回(50%)以上判定され、さらに前傾姿勢の判定において「あり」が30回のうち21回(70%)以上判定されていれば、「アクティブ・リッスン・モニタ」と認識される。   Next, in a state where the user's interest is recognized as “monitor”, the duration of the utterance is 9 seconds (30%) or less, and “monitor” is determined 15 times out of 30 times in the determination of the gaze direction ( 50%) or more, and if “Yes” is determined 21 times out of 30 (70%) or more in the determination of the forward tilt posture, it is recognized as “active listen monitor”.

次に、ユーザの興味対象が「モニタ」と認識されている状態で、発話の継続時間が12秒(40%)以下であり、視線方向の判定において「モニタ」が30回のうち6回(20%)以上判定され、さらに頷きが一度のなければ、「パッシブ・トーク・モニタ」と認識される。   Next, in a state where the user's interest is recognized as “monitor”, the duration of the utterance is 12 seconds (40%) or less, and “monitor” is 6 times out of 30 times in the determination of the line-of-sight direction ( 20%) or more, and if there is no further whispering, it is recognized as “passive talk monitor”.

そして、ユーザの興味対象が「モニタ」と認識されている状態で、発話の継続時間が9秒(30%)以下であり、頷きが一度も無く、さらに前傾姿勢の判定において「あり」が30回のうち6回(20%)以下であれば、「パッシブ・リッスン・モニタ」と認識される。   Then, in a state where the user's interest is recognized as “monitor”, the duration of the utterance is 9 seconds (30%) or less, there is no whispering, and there is “Yes” in the determination of the forward leaning posture. If it is 6 times (20%) or less out of 30 times, it is recognized as a “passive listen monitor”.

なお、このようにして認識されたユーザの状態は、状態データ354(図10)としてメモリ64に記憶されると共に、サーバ24に送信される。また、ユーザの状態の認識には、SVM(Support Vector Machine)が利用されてもよい。   The user status recognized in this way is stored in the memory 64 as status data 354 (FIG. 10) and transmitted to the server 24. Further, a support vector machine (SVM) may be used for recognizing the user state.

図8にはサーバ24の電気的な構成を示すブロック図が示される。サーバ24は、プロセッサ38,64と同様に、マイクロコンピュータ或いはCPUとも呼ばれる、プロセッサ80が内蔵されている。また、プロセッサ80は、バス82を介して、メモリ84、第1ロボット情報DB86、第2ロボット情報DB88および通信LANボード90に接続されている。   FIG. 8 is a block diagram showing the electrical configuration of the server 24. Similarly to the processors 38 and 64, the server 24 includes a processor 80 called a microcomputer or CPU. The processor 80 is connected to the memory 84, the first robot information DB 86, the second robot information DB 88, and the communication LAN board 90 via the bus 82.

メモリ84は、図示しないROMやRAMが組み込まれており、ROMには主として、サーバ24とPC14a,14bなどとのデータ通信を行うためのプログラムなどが予め記憶されている。また、RAMは、一時記憶メモリとして用いられるとともに、ワーキングメモリとして利用される。   The memory 84 incorporates a ROM and a RAM (not shown), and the ROM mainly stores a program for performing data communication between the server 24 and the PCs 14a and 14b and the like. The RAM is used as a temporary storage memory and a working memory.

第1ロボット情報DB86は、PC14aから送信されるユーザAの行動データおよび状態データを蓄積するためのデータベースである。また、第2ロボットDB88は、PC14bから送信されるユーザBの行動データおよび状態データを蓄積するためのデータベースである。そして、第1ロボット情報DB86および第2ロボット情報DB88は、HDDやSSDのような記憶媒体を用いて構成される。   The first robot information DB 86 is a database for accumulating user A's action data and state data transmitted from the PC 14a. The second robot DB 88 is a database for accumulating user B's action data and state data transmitted from the PC 14b. The first robot information DB 86 and the second robot information DB 88 are configured using a storage medium such as an HDD or an SSD.

通信LANボード90は、PC14の通信LANボード76と同様に、たとえばDSPで構成され、プロセッサ80から与えられた送信データを無線通信装置92に与える。無線通信装置92は送信データを、ネットワーク200を介して外部のコンピュータ(PC14a,14b)に送信する。また、通信LANボード90は、無線通信装置92を介してデータを受信し、受信データをプロセッサ80に与える。   Similar to the communication LAN board 76 of the PC 14, the communication LAN board 90 is configured by a DSP, for example, and provides transmission data given from the processor 80 to the wireless communication device 92. The wireless communication device 92 transmits the transmission data to an external computer (PC 14a, 14b) via the network 200. The communication LAN board 90 receives data via the wireless communication device 92 and provides the received data to the processor 80.

たとえば、受信データはPC14aから送信されるユーザAの行動データであり、プロセッサ80はユーザAの行動データを第1ロボット情報DB86に保存する。さらに、受信データとして、PC14bからユーザAの行動データ取得要求がプロセッサ80に与えられると、プロセッサ80は、ユーザAの行動データを送信データとして、通信LANボード90に与える。   For example, the received data is the action data of the user A transmitted from the PC 14a, and the processor 80 stores the action data of the user A in the first robot information DB 86. Further, when the action data acquisition request of the user A is given to the processor 80 from the PC 14b as the received data, the processor 80 gives the action data of the user A to the communication LAN board 90 as transmission data.

ここで、本願発明の傾聴対話持続システムでは、ユーザの行動データおよび状態データや、相手ユーザの行動データや状態データに基づいて、2人の対話が持続するように、ロボット10の動作を制御する。そして、ロボット10は、ユーザAとユーザBとの対話に対して、「疑似傾聴動作」、「発話制御動作」および「注意の引きつけの動作」の3種類の動作を行い、対話を持続させる。   Here, in the listening dialogue sustaining system of the present invention, the operation of the robot 10 is controlled based on the user's behavior data and state data and the other user's behavior data and state data so that the conversation between the two people is sustained. . Then, the robot 10 performs three types of operations, “pseudo-listening operation”, “speech control operation”, and “attention attracting operation”, with respect to the dialogue between the user A and the user B, and continues the dialogue.

また、疑似傾聴動作とは、ユーザAとユーザBとが積極的に対話している場合には、どちらか一方の発話を傾聴しているかのように振る舞う動作のことである。さらに、発話制御動作とは、どちらかのユーザが一方的に話している場合に、2人の発話のバランスを取るため、ユーザを見ることで発話を抑制したり、ユーザに話しかけたりすることで発話を促進したりする動作のことである。そして、注意の誘導や引きつけの動作は、ユーザが対話に対して集中していない場合に、ユーザに話しかけることでユーザの注意を引きつける動作の事である。なお、具体的なロボット10の動作については、図27−図41に示すフローチャートを用いて説明する。   The pseudo-listening operation is an operation that behaves as if listening to one of the utterances when the user A and the user B are actively interacting with each other. Furthermore, when one user is speaking unilaterally, the utterance control action is to suppress the utterance by looking at the user or to talk to the user in order to balance the two utterances. It is an action that promotes speech. The attention inducing and attracting actions are actions to attract the user's attention by talking to the user when the user is not concentrated on the dialogue. A specific operation of the robot 10 will be described with reference to flowcharts shown in FIGS.

図9は、図5に示すPC14におけるメモリ68のメモリマップ300の一例を示す図解図である。図9に示すようにメモリ68はプログラム記憶領域302およびデータ記憶領域304を含む。プログラム記憶領域302には、PC14を動作させるためのプログラムとして、データ通信プログラム312、状況認識プログラム314、ロボット制御プログラム316、カメラ制御プログラム318、発声時間計測プログラム320および乱数生成プログラム322などが記憶される。   FIG. 9 is an illustrative view showing one example of a memory map 300 of the memory 68 in the PC 14 shown in FIG. As shown in FIG. 9, the memory 68 includes a program storage area 302 and a data storage area 304. The program storage area 302 stores a data communication program 312, a situation recognition program 314, a robot control program 316, a camera control program 318, an utterance time measurement program 320, and a random number generation program 322 as programs for operating the PC 14. The

データ通信プログラム312は、サーバ24とデータ通信を行うためのプログラムである。状況認識プログラム314は、ユーザの行動を判定し、状態を認識するためのプログラムである。ロボット制御プログラム316は、ロボット10の動作を決定するためのプログラムである。カメラ制御プログラム318は、相手に送信するカメラ画像を決定するためのプログラムである。発声時間計測プログラム320は、ユーザAおよびユーザBの発声時間を計測するためのプログラムである。乱数生成プログラム322は、ロボット10の動作をランダムに決定する際に実行される処理である。   The data communication program 312 is a program for performing data communication with the server 24. The situation recognition program 314 is a program for determining a user's action and recognizing a state. The robot control program 316 is a program for determining the operation of the robot 10. The camera control program 318 is a program for determining a camera image to be transmitted to the other party. The utterance time measurement program 320 is a program for measuring the utterance time of the user A and the user B. The random number generation program 322 is a process executed when determining the operation of the robot 10 at random.

なお、図示は省略するが、PC14を動作させるためのプログラムとしては、テレビで話機能を実現するためのプログラムなどを含む。   Although illustration is omitted, the program for operating the PC 14 includes a program for realizing a speech function on a television.

また、図10を参照して、データ記憶領域304には、時刻バッファ330、モニタカメラバッファ332、腹部カメラバッファ334、音声バッファ336、判定結果バッファ338、顔認識結果バッファ340、興味対象認識結果バッファ342、データ通信バッファ344、相手行動データバッファ346、状態データバッファ348および乱数バッファ350が設けられる。さらに、データ記憶領域304には、行動テーブルデータ352および状態データ354が記憶されるとともに、Ac/Paフラグ356、Ta/Liフラグ358、状態カウンタ360および発声カウンタ362がさらに設けられる。   Referring to FIG. 10, the data storage area 304 includes a time buffer 330, a monitor camera buffer 332, an abdominal camera buffer 334, an audio buffer 336, a determination result buffer 338, a face recognition result buffer 340, and an interest recognition result buffer. 342, a data communication buffer 344, a partner action data buffer 346, a state data buffer 348, and a random number buffer 350 are provided. Further, the action table data 352 and the state data 354 are stored in the data storage area 304, and an Ac / Pa flag 356, a Ta / Li flag 358, a state counter 360, and an utterance counter 362 are further provided.

時刻バッファ330は、RTC64aが出力する日時情報が一時的に記憶されるバッファである。モニタカメラバッファ332は、モニタカメラ22によって撮影された画像が一時的に記憶されるバッファである。腹部カメラバッファ334は、腹部カメラ12によって撮影された画像が一時的に記憶されるバッファである。音声バッファ336は、マイク20によって集音された音声が一時的に記憶されるバッファである。   The time buffer 330 is a buffer in which date / time information output from the RTC 64a is temporarily stored. The monitor camera buffer 332 is a buffer in which an image taken by the monitor camera 22 is temporarily stored. The abdominal camera buffer 334 is a buffer in which an image taken by the abdominal camera 12 is temporarily stored. The audio buffer 336 is a buffer in which audio collected by the microphone 20 is temporarily stored.

判定結果バッファ338は、ユーザの前傾姿勢の有無を判定する姿勢判定、ユーザの発話の有無を判定する発話判定、ユーザの頭部方向を判定する頭部方向判定、ユーザの視線方向を判定する視線方向判定、ユーザの頷きを判定する頷き判定およびユーザの相槌を判定する相槌判定の各判定結果を一時的に記憶するためのバッファである。顔認識結果バッファ340は、モニタカメラ22および腹部カメラ12によって撮影された画像に対して行われる顔認識の結果が一時的に記憶されるバッファである。興味対象認識結果バッファ342は、ユーザが興味を持っていると判定された結果が一時的に記憶されるバッファであり、たとえば「ロボット」、「モニタ」および「アザー」を示すデータが一時的に記憶される。   The determination result buffer 338 determines the presence / absence of the user's forward tilt posture, determines the user's utterance, determines the user's head direction, determines the user's head direction, and determines the user's gaze direction. It is a buffer for temporarily storing each determination result of gaze direction determination, whirl determination for determining a user's whirl, and conflict determination for determining a user's conflict. The face recognition result buffer 340 is a buffer that temporarily stores the results of face recognition performed on images taken by the monitor camera 22 and the abdominal camera 12. The interest recognition result buffer 342 is a buffer for temporarily storing a result determined that the user is interested. For example, data indicating “robot”, “monitor”, and “other” is temporarily stored. Remembered.

データ通信バッファ344は、サーバ24とのデータ通信によって得られた相手の行動データや、状態データなどが一時的に記憶されるバッファである。相手動作データバッファ346は、相手の行動データを一時的に記憶するためのバッファである。状態データバッファ348は、相手の状態データや、こちら側のユーザの状態データを一時的に記憶するためのバッファである。乱数データバッファ350は、乱数生成プログラム322によって生成された乱数が一時的に記憶されるバッファである。   The data communication buffer 344 is a buffer that temporarily stores the other party's action data, state data, and the like obtained by data communication with the server 24. The opponent action data buffer 346 is a buffer for temporarily storing the action data of the opponent. The status data buffer 348 is a buffer for temporarily storing the status data of the other party and the status data of the user on this side. The random number data buffer 350 is a buffer in which random numbers generated by the random number generation program 322 are temporarily stored.

行動テーブルデータ352は、図6に示す行動テーブルであり、一定時間毎に最新の行動データが追記される。状態データ354は、第1所定時間分の行動データから認識されるユーザの状態を示すデータであり、たとえば「アクティブ・トーク・ロボット」を示す文字列で構成される。   The action table data 352 is the action table shown in FIG. 6, and the latest action data is added every certain time. The state data 354 is data indicating the state of the user recognized from the action data for the first predetermined time, and is composed of, for example, a character string indicating “active talk robot”.

Ac/Paフラグ356は、Ac/Pa認識結果を示すフラグである。たとえばAc/Paフラグ356は1ビットのレジスタで構成される。Ac/Paフラグ356がオン(成立)されると、レジスタにはデータ値「1」が設定される。一方、Ac/Paフラグ356がオフ(不成立)されると、レジスタにはデータ値「0」が設定される。また、Ac/Paフラグ356は、アクティブ状態と認識されるとオンになり、パッシブ状態と認識されるとオフになる。Ta/Liフラグ358は、Ta/Li認識結果を示すフラグである。つまり、Ta/Liフラグ358はトーク状態と認識されるとオンになり、リッスン状態と認識されるとオフになる。なお、Ta/Liフラグ358の構成については、Ac/Paフラグ356と同様であるため、詳細な説明は省略する。   The Ac / Pa flag 356 is a flag indicating an Ac / Pa recognition result. For example, the Ac / Pa flag 356 is composed of a 1-bit register. When the Ac / Pa flag 356 is turned on (established), a data value “1” is set in the register. On the other hand, when the Ac / Pa flag 356 is turned off (not established), a data value “0” is set in the register. Further, the Ac / Pa flag 356 is turned on when recognized as an active state, and is turned off when recognized as a passive state. The Ta / Li flag 358 is a flag indicating a Ta / Li recognition result. That is, the Ta / Li flag 358 is turned on when recognized as a talk state, and turned off when recognized as a listen state. The configuration of the Ta / Li flag 358 is the same as that of the Ac / Pa flag 356, and thus detailed description thereof is omitted.

状態カウンタ360は、ユーザの状態を認識する際に、第1所定時間分の行動データを取得するために用いられるカウンタである。たとえば、状態カウンタ360は、PC14の電源がオンにされるとカウントされ始め、第1所定時間分の行動データが取得される毎にリセットされる。発声カウンタ362は、発声時間計測プログラム320によって計測される発声時間をカウントするためのカウンタである。   The state counter 360 is a counter used for acquiring action data for a first predetermined time when recognizing the state of the user. For example, the state counter 360 starts counting when the power of the PC 14 is turned on, and is reset every time action data for a first predetermined time is acquired. The utterance counter 362 is a counter for counting the utterance time measured by the utterance time measurement program 320.

なお、図示は省略するが、データ記憶領域304には、各判定に利用されるテンプレートのデータや、様々な計算の結果を一時的に格納するバッファなどが設けられると共に、PC14の動作に必要な他のカウンタやフラグなども設けられる。   Although not shown, the data storage area 304 is provided with a template for use in each determination, a buffer for temporarily storing various calculation results, and the like, and is necessary for the operation of the PC 14. Other counters and flags are also provided.

図11には状況認識プログラム314を構成するプログラムが示される。図11を参照して、状況認識プログラム314は、画像/音声取得プログラム314a、視線判定プログラム314b、発話判定プログラム314c、頭部方向判定プログラム314d、視線方向判定プログラム314e、顔認識プログラム314f、頷き判定プログラム314g、相槌判定プログラム314h、同期プログラム314j、状態認識プログラム314k、Ac/Pa認識プログラム314m、Ta/Li認識プログラム314nおよび興味対象認識プログラム314pから構成される。   FIG. 11 shows programs constituting the situation recognition program 314. Referring to FIG. 11, the situation recognition program 314 includes an image / sound acquisition program 314a, a gaze determination program 314b, an utterance determination program 314c, a head direction determination program 314d, a gaze direction determination program 314e, a face recognition program 314f, and a whisper determination. The program 314g, the conflict determination program 314h, the synchronization program 314j, the state recognition program 314k, the Ac / Pa recognition program 314m, the Ta / Li recognition program 314n, and the interest recognition program 314p.

画像/音声取得プログラム314aは、モニタカメラ22および腹部カメラ12によって撮影された画像と、マイク20によって集音された音声とを、バッファに取り込むためのプログラムである。姿勢判定プログラム314bは、ユーザの姿勢が前傾姿勢であるか否かを判定するためのプログラムである。発話判定プログラム314cは、ユーザが発話しているか否かを判定するためのプログラムである。頭部方向判定プログラム314dは、ユーザの頭部方向を判定するためのプログラムである。視線方向判定プログラム314eは、ユーザの視線方向を判定するためのプログラムである。顔認識プログラム314fは、モニタカメラ22および腹部カメラ12によって撮影された画像における顔領域を認識するためのプログラムである。頷き判定プログラム314gは、ユーザが頷いたか否かを判定するためのプログラムである。相槌判定プログラム314hは、ユーザが相槌をしたか否かを判定するためのプログラムである。同期プログラム314jは、姿勢判定結果、発話判定結果、頭部方向判定結果、視線方向判定結果、顔認識結果、頷き判定結果および相槌判定結果を同期して、行動データとするためのプログラムである。   The image / sound acquisition program 314a is a program for taking in an image captured by the monitor camera 22 and the abdominal camera 12 and the sound collected by the microphone 20 into a buffer. The posture determination program 314b is a program for determining whether or not the user's posture is a forward leaning posture. The speech determination program 314c is a program for determining whether or not the user is speaking. The head direction determination program 314d is a program for determining the user's head direction. The gaze direction determination program 314e is a program for determining the gaze direction of the user. The face recognition program 314f is a program for recognizing a face area in images taken by the monitor camera 22 and the abdominal camera 12. The whisper determination program 314g is a program for determining whether or not the user has whispered. The conflict determination program 314h is a program for determining whether or not the user has a conflict. The synchronization program 314j is a program for synchronizing action determination data, speech determination results, head direction determination results, gaze direction determination results, face recognition results, whisper determination results, and conflict determination results into action data.

状態認識プログラム314kは、ユーザの状態を第1所定時間毎に認識するためのプログラムである。Ac/Pa認識プログラム314mは、ユーザがアクティブ状態かパッシブ状態かを認識するためのプログラムである。Ta/Li認識プログラム314nは、ユーザがトーク状態かリッスン状態かを認識するためのプログラムである。興味対象認識プログラム314pは、ユーザの興味対対象を認識するためのプログラムである。   The state recognition program 314k is a program for recognizing the user state every first predetermined time. The Ac / Pa recognition program 314m is a program for recognizing whether the user is in an active state or a passive state. The Ta / Li recognition program 314n is a program for recognizing whether the user is in a talk state or a listen state. The interest object recognition program 314p is a program for recognizing a user's interest versus object.

図12にはロボット制御プログラム316を構成するプログラムが示される。図12を参照して、全体プログラム316a、アクティブトークプログラム316b、アクティブリッスンプログラム316c、非アクティブプログラム316d、アザープログラム316e、発話継続プログラム316f、発話抑制プログラム316g、発話促進プログラム316h、注意引きつけプログラム316j、傍参与者的疑似傾聴プログラム316k、第1積極的疑似傾聴プログラム316m、ユーザ発話抑制プログラム316m、第2積極的疑似傾聴プログラム316p、注意誘導プログラム316qおよびユーザ発話促進プログラム316rから構成される。   FIG. 12 shows programs constituting the robot control program 316. Referring to FIG. 12, overall program 316a, active talk program 316b, active listen program 316c, inactive program 316d, other program 316e, speech continuation program 316f, speech suppression program 316g, speech promotion program 316h, attention attracting program 316j, It consists of a by-participant pseudo-listening program 316k, a first active pseudo-listening program 316m, a user utterance suppression program 316m, a second active pseudo-listening program 316p, an attention guidance program 316q, and a user utterance promotion program 316r.

全体プログラム316aは、メインルーチンとも呼ばれ、状態データに応じて、対話が持続するようにロボット10を制御するための全体的な処理を行うプログラムである。アクティブトークプログラム316bは、状態データが「アクティブ・トーク・ロボット」である場合に実行されるプログラムである。アクティブリッスンプログラム316cは、状態データが「アクティブ・リッスン・ロボット」である場合に実行されるプログラムである。非アクティブプログラム316dは、ユーザがパッシブ状態であるか、興味対象が「ロボット」と認識されている場合に実行されるプログラムである。アザープログラム316eは、ユーザの興味対象が「アザー」である場合に実行されるプログラムである。   The overall program 316a is also called a main routine, and is a program that performs overall processing for controlling the robot 10 so as to maintain a dialogue according to state data. The active talk program 316b is a program that is executed when the state data is “active talk robot”. The active listen program 316c is a program executed when the state data is “active listen robot”. The inactive program 316d is a program that is executed when the user is in a passive state or when the object of interest is recognized as a “robot”. The other program 316e is a program that is executed when the user's interest is “other”.

発話継続プログラム316fは、2人のユーザの対話が継続されるようにロボット10を動作させるためのプログラムである。発話抑制プログラム316gは、ユーザが一方的に発話している場合に発話を抑制するようにロボット10を動作させるためのプログラムである。発話促進プログラム316hは、ユーザが発話をせずに、相手ユーザの発話を一方的に傾聴している場合に、発話を促すようロボット10を動作させるログラムである。注意引きつけプログラム316jは、対話に興味を失っているユーザの注意を引けつけるようにロボット10動作させるためのプログラムである。   The utterance continuation program 316f is a program for operating the robot 10 so that the dialogue between the two users is continued. The speech suppression program 316g is a program for operating the robot 10 so as to suppress speech when the user is speaking unilaterally. The utterance promotion program 316h is a program for operating the robot 10 to encourage utterance when the user unilaterally listens to the other user's utterance without speaking. The attention attracting program 316j is a program for operating the robot 10 so as to attract the attention of a user who has lost interest in the dialogue.

傍参与者的疑似傾聴プログラム316kは、2人のユーザの対話が継続している場合に、どちらか一方のユーザの話を傾聴しているかのように、ロボット10を動作させるためのプログラムである。なお、「傍参与者」とは、会話に参加しているが「話し手」でも「聴き手」でもない人物を示す。   The bystander-like pseudo-listening program 316k is a program for operating the robot 10 as if listening to the story of one of the users when the conversation between the two users continues. . The “collateral participant” indicates a person who participates in a conversation but is neither a “speaker” nor a “listener”.

第1積極的疑似傾聴プログラム316mは、相手ユーザの話を傾聴しているかのように、ロボット10を動作させるためのプログラムである。ユーザ発話抑制プログラム316nは、たとえばロボット10aの傍に居るユーザAの発話を抑制するように、ロボット10aを動作させるためのプログラムである。第2積極的疑似傾聴プログラム316pは、たとえばロボット10aの傍に居るユーザAの発話を傾聴しているかのように、ロボット10aを動作させるためのプログラムである。注意誘導プログラム316qは、ユーザの注意を誘導するように、ロボット10を動作させるためのプログラムである。ユーザ発話促進プログラム316rは、たとえばロボット10aの傍に居るユーザAの発話を促すように、ロボット10を動作させるためのプログラムである。   The first active pseudo-listening program 316m is a program for operating the robot 10 as if listening to the other user's story. The user utterance suppression program 316n is a program for operating the robot 10a so as to suppress, for example, the utterance of the user A who is near the robot 10a. The second active pseudo-listening program 316p is a program for operating the robot 10a, for example, as if listening to the utterance of the user A near the robot 10a. The attention guidance program 316q is a program for operating the robot 10 so as to guide the user's attention. The user utterance promotion program 316r is a program for operating the robot 10 so as to urge the user A who is in the vicinity of the robot 10a, for example.

以下、PC14によって実行される本願発明のフロー図について説明する。また、図13−図25のフロー図は状況認識プログラム314を構成する各プログラムの処理を示し、図26は発声時間計測プログラム320による処理を示し、図27−図41はロボット制御プログラム316を構成する各プログラムの処理を示し、図42はカメラ制御プログラム318による処理を示す。   Hereinafter, a flowchart of the present invention executed by the PC 14 will be described. 13 to 25 show the processing of each program constituting the situation recognition program 314, FIG. 26 shows the processing by the utterance time measurement program 320, and FIGS. 27 to 41 show the robot control program 316. FIG. 42 shows processing by the camera control program 318.

図13には画像/音声取得プログラム314aの処理を示すフロー図が示される。たとえば、PC14のプロセッサ64は、ユーザによってPC14の電源がオンにされると、ステップS1で腹部カメラ12による画像データを取得する。つまり、ロボット10から入力される映像信号から画像データを取得し、腹部カメラバッファ334に一旦記憶させる。続いて、ステップS3では、モニタカメラ22による画像データを取得する。つまり、モニタカメラ22から入力される映像信号から画像データを取得し、モニタカメラバッファ332に一旦記憶させる。続いて、ステップS5では、音声データを取得し、ステップS1に戻る。つまり、マイク20によって集音された音声から音声データを抽出し、音声バッファ336に一旦記憶させる。なお、ステップS1−S5の処理は、約1秒毎に繰り返される。   FIG. 13 is a flowchart showing the processing of the image / sound acquisition program 314a. For example, when the power of the PC 14 is turned on by the user, the processor 64 of the PC 14 acquires image data from the abdominal camera 12 in step S1. That is, image data is acquired from the video signal input from the robot 10 and is temporarily stored in the abdominal camera buffer 334. Subsequently, in step S3, image data obtained by the monitor camera 22 is acquired. That is, image data is acquired from the video signal input from the monitor camera 22 and temporarily stored in the monitor camera buffer 332. Subsequently, in step S5, audio data is acquired, and the process returns to step S1. That is, voice data is extracted from the voice collected by the microphone 20 and temporarily stored in the voice buffer 336. In addition, the process of step S1-S5 is repeated about every 1 second.

図14には姿勢判定プログラム314bの処理を示すフロー図が示される。プロセッサ64は、ステップS7で画像データを取得したか否かを判断する。つまり、モニタカメラバッファ332および腹部カメラバッファ334に新たな画像データが記憶されたか否かを判断する。ステップS7で“NO”であれば、つまり画像データが取得されていなければステップS7の処理を繰り返し実行する。一方、ステップS7で“YES”であれば、つまり画像データが取得されていれば、ステップS9でユーザの姿勢を判定する。たとえば、モニタカメラバッファ332および腹部カメラバッファ334に記憶される画像データに対してユーザの前傾姿勢の有無を判定する。そして、どちらの画像でも前傾姿勢が「あり」と判定された場合に、姿勢判定結果を「あり」とする。なお、ステップS9の処理を実行するプロセッサ64は姿勢判定手段として機能する。   FIG. 14 is a flowchart showing the processing of the posture determination program 314b. The processor 64 determines whether image data has been acquired in step S7. That is, it is determined whether new image data is stored in the monitor camera buffer 332 and the abdomen camera buffer 334. If “NO” in the step S7, that is, if the image data is not acquired, the process of the step S7 is repeatedly executed. On the other hand, if “YES” in the step S7, that is, if image data is acquired, the posture of the user is determined in a step S9. For example, the presence or absence of the user's forward leaning posture is determined with respect to the image data stored in the monitor camera buffer 332 and the abdomen camera buffer 334. If the forward tilt posture is determined to be “present” in both images, the posture determination result is determined to be “present”. Note that the processor 64 that executes the process of step S9 functions as an attitude determination unit.

続いて、ステップS11では、現在時刻を取得する。つまり、時刻バッファ330に記憶される日時情報を取得する。続いて、ステップS13では、姿勢の判定結果に現在時刻を対応付ける。つまり、複数の判定結果を同期させるために、現在時刻を対応付ける。そして、現在時刻が対応付けられた姿勢の判定結果は判定結果バッファ338に一時的に記憶される。   Subsequently, in step S11, the current time is acquired. That is, the date information stored in the time buffer 330 is acquired. In step S13, the current time is associated with the posture determination result. That is, the current time is associated in order to synchronize a plurality of determination results. The posture determination result associated with the current time is temporarily stored in the determination result buffer 338.

なお、他の実施例では、モニタカメラ22または腹部カメラ12のどちらか一方の画像だけで姿勢判定を行ってもよい。また、図15−図20に示す他の判定処理でも、ステップS11と同様に日時情報を取得し、ステップS13と同様に日時情報を対応付ける処理が存在するが、処理内容は全て同じであるため、他のフロー図では詳細な説明は省略する。   In another embodiment, posture determination may be performed using only one image of the monitor camera 22 or the abdominal camera 12. Also, in the other determination processes shown in FIGS. 15 to 20, there is a process for acquiring date / time information in the same manner as in step S <b> 11 and associating the date / time information as in step S <b> 13. Detailed description is omitted in other flowcharts.

図15には発話判定プログラム314cの処理を示すフロー図が示される。プロセッサ64は、ステップS15で音声データを取得したか否かを判断する。つまり、音声バッファ336に新たな音声データが記憶されたか否かを判断する。ステップS15で“NO”であれば、つまり音声データが取得されていなければステップS15の処理を繰り返し実行する。一方、ステップS15で“YES”であれば、つまり音声データが取得されていればステップS17でユーザの発話を判定する。たとえば、音声バッファ336に記憶される音声データの音声レベルが一定値以上であるか否かを判定する。ステップS19では現在時刻を取得し、ステップS21では発話の判定結果に現在時刻を対応付ける。そして、ステップS19の処理が終了するとステップS15に戻る。なお、ステップS19では、現在時刻が対応付けられた発話の判定結果は、判定結果バッファ338に一旦記憶される。なお、ステップS17の処理を実行するプロセッサ64は発話判定手段として機能する。   FIG. 15 is a flowchart showing the processing of the utterance determination program 314c. The processor 64 determines whether or not audio data has been acquired in step S15. That is, it is determined whether or not new audio data is stored in the audio buffer 336. If “NO” in the step S15, that is, if audio data is not acquired, the process of the step S15 is repeatedly executed. On the other hand, if “YES” in the step S15, that is, if voice data is acquired, the user's utterance is determined in a step S17. For example, it is determined whether or not the sound level of the sound data stored in the sound buffer 336 is greater than or equal to a certain value. In step S19, the current time is acquired, and in step S21, the current time is associated with the speech determination result. Then, when the process of step S19 ends, the process returns to step S15. In step S 19, the determination result of the utterance associated with the current time is temporarily stored in the determination result buffer 338. The processor 64 that executes the process of step S17 functions as an utterance determination unit.

図16には頭部方向判定プログラム314dの処理を示すフロー図が示される。プロセッサ64は、ステップS23で画像データを取得したか否かを判断する。つまり、モニタカメラバッファ332および腹部カメラバッファ334に新たな画像データが記憶されたか否かを判断する。ステップS23で“NO”であれば、つまり画像データが新たに取得されていなければステップS23の処理を繰り返す。一方、ステップS23で“YES”であれば、つまり新たな画像データが取得されていればステップS25でユーザの頭部方向を判定する。たとえば、モニタカメラバッファ332に記憶される画像に対してテンプレートマッチング処理を実行することで、「モニタ」、「ロボット」および「アザー」を判定する。さらに、腹部カメラバッファ334に記憶される画像に対しても同様に判定する。なお、ステップS25の処理を実行するプロセッサ64は頭部方向判定手段として機能する。   FIG. 16 is a flowchart showing the processing of the head direction determination program 314d. The processor 64 determines whether or not image data has been acquired in step S23. That is, it is determined whether new image data is stored in the monitor camera buffer 332 and the abdomen camera buffer 334. If “NO” in the step S23, that is, if the image data is not newly acquired, the process in the step S23 is repeated. On the other hand, if “YES” in the step S23, that is, if new image data is acquired, the head direction of the user is determined in a step S25. For example, “monitor”, “robot”, and “other” are determined by executing template matching processing on the image stored in the monitor camera buffer 332. Further, the same determination is made for the image stored in the abdominal camera buffer 334. The processor 64 that executes the process of step S25 functions as a head direction determination unit.

続いて、ステップS27では現在時刻を取得し、ステップS29では頭部方向の判定結果に現在時刻を対応付ける。そして、ステップS29の処理が終了するとステップS23に戻る。なお、ステップS29では、モニタカメラ22によって撮影された画像の頭部方向の判定結果と、腹部カメラ12によって撮影された画像の頭部方向の判定結果とをそれぞれ判定結果バッファ338に記憶させる。   Subsequently, in step S27, the current time is acquired, and in step S29, the current time is associated with the determination result of the head direction. Then, when the process of step S29 ends, the process returns to step S23. In step S29, the determination result of the head direction of the image captured by the monitor camera 22 and the determination result of the head direction of the image captured by the abdominal camera 12 are stored in the determination result buffer 338, respectively.

図17には視線方向判定結果プログラム314eの処理を示すフロー図が示される。プロセッサ64は、ステップS31で画像データを取得したか否かを判断する。つまり、モニタカメラバッファ332および腹部カメラバッファ334に新しい画像が記憶されたか否かを判断する。ステップ31で“NO”であれば、つまり新しい画像データが取得されていなければステップS31の処理を繰り返し実行する。一方、ステップS31で“YES”であれば、つまり画像データが取得されれば、ステップS33でユーザの視線方向を判定する。たとえば、ステップS33では、まず視線サーバ70にモニタカメラバッファ332に記憶される画像データを入力することで、ユーザの視線方向を特定する。次に、視線サーバ70によって特定された視線方向に基づいて「モニタ」、「ロボット」および「アザー」を判定する。そして、腹部カメラバッファ334に記憶される画像に対しても、同様の判定を行う。なお、ステップS33の処理を実行するプロセッサ64は視線方向判定手段として機能する。   FIG. 17 is a flowchart showing the processing of the gaze direction determination result program 314e. The processor 64 determines whether image data has been acquired in step S31. That is, it is determined whether or not a new image is stored in the monitor camera buffer 332 and the abdomen camera buffer 334. If “NO” in the step 31, that is, if new image data is not acquired, the process of the step S31 is repeatedly executed. On the other hand, if “YES” in the step S31, that is, if the image data is acquired, the user's line-of-sight direction is determined in a step S33. For example, in step S <b> 33, first, the image data stored in the monitor camera buffer 332 is input to the line-of-sight server 70, thereby identifying the user's line-of-sight direction. Next, “monitor”, “robot”, and “other” are determined based on the line-of-sight direction specified by the line-of-sight server 70. The same determination is performed on the image stored in the abdominal camera buffer 334. The processor 64 that executes the process of step S33 functions as a line-of-sight direction determination unit.

続いて、ステップS35では現在時刻を取得し、ステップS37で視線方向の判定結果に現在時刻を対応付ける。そして、ステップS37の処理が終了すれば、ステップS31に戻る。なお、ステップS37の処理では、ステップS29(図16)と同様に、モニタカメラ22によって撮影された画像の視線方向の判定結果と、腹部カメラ12によって撮影された画像の視線方向の判定結果とをそれぞれ判定結果バッファ338に記憶させる。   Subsequently, in step S35, the current time is acquired, and in step S37, the current time is associated with the visual line direction determination result. And if the process of step S37 is complete | finished, it will return to step S31. In the process of step S37, the determination result of the line-of-sight direction of the image captured by the monitor camera 22 and the determination result of the line-of-sight direction of the image captured by the abdominal camera 12 are obtained as in step S29 (FIG. 16). Each is stored in the determination result buffer 338.

図18には顔認識処理プログラム314fの処理を示すフロー図が示される。プロセッサ64は、ステップS39で画像データを取得したか否かを判断する。つまり、モニタカメラバッファ332および腹部カメラバッファ334に新しい画像が記憶され、更新されたか否かを判断する。ステップS39で“NO”であれば、つまり画像データが取得されていなければ、ステップS39の処理を繰り返す。一方、ステップS39で“YES”であれば、つまり画像データが取得されれば、ステップS41でユーザの顔を認識する。たとえば、モニタカメラバッファ332に記憶される画像データに対して所定の顔認識処理を加えることで、顔領域を認識できたか否かを判断する。そして、認識できた場合には顔認識結果を「成功」と判定し、認識できなかった場合には顔認識結果を「失敗」と判定する。そして、腹部カメラバッファ334に記憶される画像データに対しても同様の判定を行う。なお、ステップS41の処理を実行するプロセッサ64は顔認識手段として機能する。   FIG. 18 is a flowchart showing the processing of the face recognition processing program 314f. The processor 64 determines whether or not image data has been acquired in step S39. That is, it is determined whether new images are stored and updated in the monitor camera buffer 332 and the abdomen camera buffer 334. If “NO” in the step S39, that is, if the image data is not acquired, the process of the step S39 is repeated. On the other hand, if “YES” in the step S39, that is, if image data is acquired, the user's face is recognized in a step S41. For example, it is determined whether or not the face area has been recognized by applying a predetermined face recognition process to the image data stored in the monitor camera buffer 332. If the face is recognized, the face recognition result is determined as “success”. If the face recognition result is not recognized, the face recognition result is determined as “failure”. The same determination is performed on the image data stored in the abdominal camera buffer 334. The processor 64 that executes the process of step S41 functions as a face recognition unit.

続いて、ステップS43では現在時刻を取得し、ステップS45では顔認識結果に現在時刻を対応付ける。そして、ステップS45の処理が終了すれば、ステップS39に戻る。また、ステップS39の処理では、現在時刻が対応付けられた各認識結果を顔認識結果バッファ340に一旦記憶させる。   Subsequently, in step S43, the current time is acquired, and in step S45, the current time is associated with the face recognition result. And if the process of step S45 is complete | finished, it will return to step S39. In the process of step S39, each recognition result associated with the current time is temporarily stored in the face recognition result buffer 340.

図19には頷き判定プログラム314gの処理を示すフロー図が示される。プロセッサ64は、ステップS47で画像データを取得したか否かを判断する。つまり、モニタカメラバッファ332および腹部カメラバッファ334が更新されたか否かを判断する。ステップS47で“NO”であれば、つまり画像データが取得されていなければ、ステップS47を繰り返す。一方、ステップS47で“YES”であれば、つまり画像データが取得されれば、ステップS49でユーザの頷きを判定する。たとえば、モニタカメラバッファ332および腹部カメラバッファ334に記憶される画像データに対して、テンプレートマッチング処理を加えて、ユーザの頷きの有無をそれぞれ判定する。そして、2つの判定結果で頷きが「あり」と判定される場合に、ユーザの頷きが「あり」と判定される。なお、ステップS49の処理を実行するプロセッサ64は頷き判定手段として機能する。   FIG. 19 is a flowchart showing the processing of the whirl determination program 314g. The processor 64 determines whether or not image data has been acquired in step S47. That is, it is determined whether or not the monitor camera buffer 332 and the abdomen camera buffer 334 have been updated. If “NO” in the step S47, that is, if the image data is not acquired, the step S47 is repeated. On the other hand, if “YES” in the step S47, that is, if the image data is acquired, it is determined whether or not the user is whispered in a step S49. For example, a template matching process is applied to the image data stored in the monitor camera buffer 332 and the abdomen camera buffer 334 to determine whether or not the user has whispered. Then, when it is determined that the whisper is “Yes” based on the two determination results, the user's whisper is determined to be “Yes”. Note that the processor 64 that executes the process of step S49 functions as a whirl determination unit.

続いて、ステップS51で現在時刻を取得し、ステップS53で頷きの判定結果に現在時刻を対応付ける。そして、ステップS53の処理が終了すれば、ステップS47に戻る。また、日時情報が対応付けられた頷きの判定結果は、判定結果バッファ338に記憶される。   Subsequently, the current time is acquired in step S51, and the current time is associated with the result of the determination in step S53. And if the process of step S53 is complete | finished, it will return to step S47. In addition, the determination result of the whisper associated with the date / time information is stored in the determination result buffer 338.

図20には相槌判定プログラム314hの処理を示すフロー図が示される。プロセッサ64は、ステップS55で頷き判定が終了したか否かを判断する。たとえば、頷きの判定結果が判定結果バッファ338に記憶されているか否かを判断する。ステップS55で“NO”であれば、つまり頷き判定が終了していなければ、ステップS55の処理を繰り返す。一方、ステップS55で“YES”であれば、つまり頷き判定が終了していれば、ステップS57で発話判定が終了したか否かを判断する。たとえば、発話の判定結果が判定結果バッファ338に記憶されているか否かを判断する。ステップS57で“NO”であれば、つまり発話判定が終了していなければステップS55に戻る。一方、ステップS57で“YES”であれば、つまり発話判定が終了していれば、ステップS59で日時情報に基づいてユーザの相槌を判定する。たとえば、発話判定結果と頷き判定結果とに対応付けられている日時情報に基づいて、それぞれを同期する。そして、頷きの判定結果が「あり」である場合に、音声バッファに記憶される音声データに対して、上記した音声プロソディを判定することで、相槌の判定をする。なお、ステップS59の処理を実行するプロセッサ64は相槌判定手段として機能する。   FIG. 20 shows a flowchart showing the processing of the conflict determination program 314h. The processor 64 determines whether or not the whisper determination has been completed in step S55. For example, it is determined whether or not the determination result of whispering is stored in the determination result buffer 338. If “NO” in the step S55, that is, if the whispering determination is not ended, the process of the step S55 is repeated. On the other hand, if “YES” in the step S55, that is, if the whispering determination is completed, it is determined whether or not the speech determination is completed in a step S57. For example, it is determined whether or not an utterance determination result is stored in the determination result buffer 338. If “NO” in the step S57, that is, if the speech determination is not ended, the process returns to the step S55. On the other hand, if “YES” in the step S57, that is, if the speech determination is completed, the user's conflict is determined based on the date information in a step S59. For example, each is synchronized based on date and time information associated with an utterance determination result and a whisper determination result. Then, when the determination result of “whit” is “Yes”, the above-described sound method is determined for the sound data stored in the sound buffer, thereby determining the conflict. The processor 64 that executes the process of step S59 functions as a conflict determination unit.

続いて、ステップS61では、相槌の判定結果に時刻を対応付けて、ステップS55に戻る。つまり、ステップS61では、発話または頷きの判定結果に対応付けられている日時情報を、相槌の判定結果に対応付ける。そして、時刻が対応付けられた相槌の判定結果は、判定結果バッファ340に記憶される。   Subsequently, in step S61, time is associated with the determination result of the conflict, and the process returns to step S55. That is, in step S61, the date / time information associated with the speech or whisper determination result is associated with the conflict determination result. Then, the determination result of the conflict associated with the time is stored in the determination result buffer 340.

図21には同期プログラム314jの処理を示すフロー図が示される。プロセッサ64は、ステップS63で各判定が終了したか否かを判断する。たとえば、判定結果バッファ338に姿勢、発話、頭部方向、視線方向、頷きおよび相槌の判定結果が記憶され、かつ顔認識結果バッファ340に顔認識結果が記憶されているか否かを判定する。ステップS63で“NO”であれば、つまり各判定が終了していなければ、ステップS63の処理を繰り返し実行する。一方、ステップS63で“YES”であれば、つまり各判定が終了していれば、ステップS65で各判定結果および顔認識結果を時刻に基づいて同期する。つまり、各判定結果および顔認識結果に対応付けられた時刻に基づいて同期する。   FIG. 21 is a flowchart showing the processing of the synchronization program 314j. The processor 64 determines whether or not each determination is completed in step S63. For example, it is determined whether or not the determination result buffer 338 stores posture, speech, head direction, line-of-sight direction, whispering, and conflict determination results, and the face recognition result buffer 340 stores face recognition results. If “NO” in the step S63, that is, if each determination is not completed, the process of the step S63 is repeatedly executed. On the other hand, if “YES” in the step S63, that is, if each determination is completed, each determination result and the face recognition result are synchronized on the basis of the time in a step S65. That is, synchronization is performed based on the time associated with each determination result and the face recognition result.

続いて、ステップS67では、同期した各判定結果を行動データとし、行動テーブルに記録する。つまり、図6に示す行動テーブルにおいて、新たな行に各判定結果および顔認識結果を記録する。続いて、ステップS69では、現在の行動データをサーバ24に送信する。そして、ステップS69の処理が終了すればステップS63に戻る。つまり、ステップS69では、行動テーブルにおいて、新たに追加された行に対応する行動データをサーバ24に送信する。   Subsequently, in step S67, each synchronized determination result is set as action data and recorded in the action table. That is, in the action table shown in FIG. 6, each determination result and face recognition result are recorded in a new line. Subsequently, in step S69, the current behavior data is transmitted to the server 24. And if the process of step S69 is complete | finished, it will return to step S63. That is, in step S69, the action data corresponding to the newly added row is transmitted to the server 24 in the action table.

このように、図13−図21の処理が一定時間毎に並列的に実行されることで、ユーザの行動データが判定されるとともに、サーバ24に送信される。そして、ユーザの行動データに複数の判定結果が含まれるため、ユーザの状態が適確に認識される。   As described above, the processing of FIG. 13 to FIG. 21 is executed in parallel at regular time intervals, whereby the user behavior data is determined and transmitted to the server 24. And since a several determination result is contained in a user's action data, a user's state is recognized correctly.

なお、ステップS65,S67の処理を実行するプロセッサ64は判定手段として機能する。また、ステップS69の処理を実行するプロセッサ64は送信手段として機能する。   The processor 64 that executes the processes of steps S65 and S67 functions as a determination unit. The processor 64 that executes the process of step S69 functions as a transmission unit.

図22には状態認識プログラム314kの処理を示すフロー図が示される。たとえば、PC14のプロセッサ64は、ユーザによってPC14の電源がオンにされると、ステップS71で第1所定時間が経過したか否かを判断する。たとえば、状態カウンタ360の値が第1所定時間を示す値と超えたか否かを判断する。ステップS71で“NO”であれば、つまり第1所定時間が経過していなければ、ステップS71の処理を繰り返し実行する。一方、ステップS71で“YES”であれば、つまり第1所定時間が経過してれば、ステップS73で第1所定時間分の行動データを取得する。つまり、行動テーブルから、現在時刻から第1所定時間前までの行動データを取得する。なお、ステップS73の処理が終了すると、状態カウンタ360はリセットされる。   FIG. 22 is a flowchart showing the processing of the state recognition program 314k. For example, when the power of the PC 14 is turned on by the user, the processor 64 of the PC 14 determines whether or not a first predetermined time has elapsed in step S71. For example, it is determined whether or not the value of the status counter 360 exceeds a value indicating the first predetermined time. If “NO” in the step S71, that is, if the first predetermined time has not elapsed, the process of the step S71 is repeatedly executed. On the other hand, if “YES” in the step S71, that is, if the first predetermined time has elapsed, the action data for the first predetermined time is acquired in a step S73. That is, action data from the current time to the first predetermined time before is acquired from the action table. Note that when the process of step S73 ends, the state counter 360 is reset.

続いて、ステップS75ではAc/Pa認識処理を実行し、ステップS77ではTa/Li認識処理を実行し、ステップS79では興味対象認識処理を実行する。なお、ステップS75,S77およびS79の処理については、図23、図24および図25に示すフロー図を用いて後述するため、ここでの詳細な説明は省略する。   Subsequently, Ac / Pa recognition processing is executed in step S75, Ta / Li recognition processing is executed in step S77, and interest recognition processing is executed in step S79. Note that the processing in steps S75, S77, and S79 will be described later with reference to the flowcharts shown in FIGS. 23, 24, and 25, and thus detailed description thereof is omitted here.

続いて、ステップS81では、各認識結果を状態データ354として記憶する。たとえば、Ac/Pa認識結果がアクティブ状態であり、Ta/Li認識結果がトークであり、興味対象認識結果が「ロボット」であれば、状態データ354は、「アクティブ・トーク・ロボット」としてメモリ68に記憶される。続いて、ステップS83では、状態データ354をサーバ24に送信し、ステップS71に戻る。   Subsequently, in step S81, each recognition result is stored as state data 354. For example, if the Ac / Pa recognition result is active, the Ta / Li recognition result is talk, and the interest recognition result is “robot”, the state data 354 is stored in the memory 68 as “active talk robot”. Is remembered. Subsequently, in step S83, the status data 354 is transmitted to the server 24, and the process returns to step S71.

なお、ステップS75の処理を実行するプロセッサ64は積極性認識手段として機能し、ステップS77の処理を実行するプロセッサ64は話者状態認識手段として機能し、ステップS79の処理を実行するプロセッサ64は興味対象認識手段として機能する。そして、ステップS75−81の処理を実行するプロセッサ64は認識手段として機能する。   The processor 64 that executes the process of step S75 functions as an aggressiveness recognition unit, the processor 64 that executes the process of step S77 functions as a speaker state recognition unit, and the processor 64 that executes the process of step S79 is an interesting object. Functions as a recognition means. And the processor 64 which performs the process of step S75-81 functions as a recognition means.

図23にはAc/Pa認識プログラム314mの処理を示すフロー図が示される。プロセッサ64はステップS91で相手を見る時間WTを算出し、ステップS93では前傾姿勢の時間FTを算出し、ステップS95では相槌の頻度RFを算出する。つまり、ステップS91,S93およびS95では、上位ルーチンのステップS73で取得された行動データに基づいて、相手を見る時間WT、前傾姿勢の時間FTおよび相槌の頻度RFを算出する。そして、ステップS97では、各算出結果からAC値を算出する。つまり、上述の数1に示す式に基づいてAC値を算出する。続いて、ステップS99では、算出したAC値が閾値Aより大きいか否かを判断する。   FIG. 23 is a flowchart showing the processing of the Ac / Pa recognition program 314m. The processor 64 calculates the opponent watching time WT in step S91, calculates the forward tilting time FT in step S93, and calculates the conflict frequency RF in step S95. In other words, in steps S91, S93, and S95, based on the action data acquired in step S73 of the upper routine, the time WT for watching the opponent, the time FT of the forward tilt posture, and the frequency RF of the conflict are calculated. In step S97, an AC value is calculated from each calculation result. That is, the AC value is calculated based on the formula shown in the above equation 1. Subsequently, in step S99, it is determined whether or not the calculated AC value is larger than a threshold value A.

ステップS99で“YES”であれば、つまりAC値が閾値Aよりも大きければ、ステップS101でアクティブ状態に設定する。つまり、Ac/Paフラグ356をオンに設定する。一方、ステップS99で“NO”であれば、つまりAC値が閾値A以下であれば、ステップS103でパッシブ状態に設定する。つまり、Ac/Paフラグ356をオフに設定する。なお、ステップS101またはステップS103の処理が終了すれば、Ac/Pa認識処理を終了して状態認識処理に戻る。   If “YES” in the step S99, that is, if the AC value is larger than the threshold A, the active state is set in a step S101. That is, the Ac / Pa flag 356 is set to ON. On the other hand, if “NO” in the step S99, that is, if the AC value is equal to or less than the threshold A, the passive state is set in a step S103. That is, the Ac / Pa flag 356 is set to off. In addition, if the process of step S101 or step S103 is complete | finished, an Ac / Pa recognition process is complete | finished and it returns to a state recognition process.

図24にはTa/Li認識プログラム314nの処理を示すフロー図が示される。プロセッサ64はステップS111で第1所定時間分の発話判定結果から発話量Taを算出する。つまり、上位ルーチンのステップS73で取得された行動データに基づいて、発話量Taを算出する。続いて、ステップS113では算出された発話量Taが閾値Tよりも大きいか否かを判断する。ステップS113で“YES”であれば、つまり発話量Taが閾値Tよりも大きければ、ステップS115でトーク状態に設定する。つまり、ステップS115ではTa/Liフラグ358をオンにする。一方、ステップS113で“NO”であれば、つまり発話量Taが閾値Ta以下であれば、ステップS117でリッスン状態に設定する。つまり、ステップS117ではTa/Liフラグ358をオフにする。   FIG. 24 is a flowchart showing the processing of the Ta / Li recognition program 314n. In step S111, the processor 64 calculates the utterance amount Ta from the utterance determination result for the first predetermined time. That is, the utterance amount Ta is calculated based on the action data acquired in step S73 of the upper routine. Subsequently, in step S113, it is determined whether or not the calculated utterance amount Ta is larger than a threshold value T. If “YES” in the step S113, that is, if the utterance amount Ta is larger than the threshold T, the talk state is set in a step S115. That is, in step S115, the Ta / Li flag 358 is turned on. On the other hand, if “NO” in the step S113, that is, if the utterance amount Ta is equal to or less than the threshold value Ta, the listening state is set in a step S117. That is, in step S117, the Ta / Li flag 358 is turned off.

そして、ステップS115またはステップS117の処理が終了すれば、Ta/Li認識処理を終了して、状態認識処理に戻る。   And if the process of step S115 or step S117 is complete | finished, a Ta / Li recognition process will be complete | finished and it will return to a state recognition process.

図25には興味対象認識プログラム314pの処理を示すフロー図が示される。プロセッサ64はステップS121で第2所定時間分の行動データを取得する。つまり、上位ルーチンである、ステップS73で取得された行動データから、第2所定時間分の行動データを取得する。続いて、ステップS123では、モニタカメラ123の顔認識結果および視線判定結果から認識率Mを算出し、ステップS125では、腹部カメラ12の顔認識の結果および視線判定結果から認識率Sを算出する。つまり、ステップS123,S125では、ステップS121で取得した第2所定時間分の行動データに基づいて、認識率Mおよび認識率Sを算出する。なお、ステップS123の処理を実行するプロセッサ64は第1認識率算出手段として機能し、ステップS125の処理を実行するプロセッサ64は第2認識率算出手段として機能する。   FIG. 25 is a flowchart showing the processing of the interest recognition program 314p. The processor 64 acquires action data for the second predetermined time in step S121. That is, the action data for the second predetermined time is acquired from the action data acquired in step S73, which is the upper routine. Subsequently, in step S123, the recognition rate M is calculated from the face recognition result and the line-of-sight determination result of the monitor camera 123, and in step S125, the recognition rate S is calculated from the face recognition result and the line-of-sight determination result of the abdominal camera 12. That is, in steps S123 and S125, the recognition rate M and the recognition rate S are calculated based on the behavior data for the second predetermined time acquired in step S121. The processor 64 that executes the process of step S123 functions as a first recognition rate calculation unit, and the processor 64 that executes the process of step S125 functions as a second recognition rate calculation unit.

続いて、ステップS127では、各認識率は閾値Inより大きいか否かを判断する。つまり、認識率Mおよび認識率Sが閾値Inより大きいか否かを判断する。ステップS127で“NO”であれば、つまり認識率Mおよび認識率Sが共に閾値In以下であれば、ステップS135に進む。ステップS127で“YES”であれば、つまり認識率Mおよび認識率Sが閾値Inより大きければ、ステップS129で、認識率Mが認識率Sよりも大きいか否かを判断する。   Subsequently, in step S127, it is determined whether each recognition rate is greater than a threshold value In. That is, it is determined whether the recognition rate M and the recognition rate S are larger than the threshold value In. If “NO” in the step S127, that is, if both the recognition rate M and the recognition rate S are equal to or less than the threshold value In, the process proceeds to a step S135. If “YES” in the step S127, that is, if the recognition rate M and the recognition rate S are larger than the threshold value In, it is determined whether or not the recognition rate M is larger than the recognition rate S in a step S129.

ステップS129で“YES”であれば、つまり認識率Mが認識率Sよりも大きければ、ステップS131でモニタ状態に設定する。つまり、ユーザの興味対象がモニタ16であるため、興味対象結果バッファ342に「モニタ」を示すデータを一時記憶させる。一方、ステップS129で“NO”であれば、つまり認識率Mが認識率S以下であれば、ステップS133でロボット状態に設定する。つまり、ユーザの認識対象がロボット12であるため、興味対象認識結果バッファ342に「ロボット」を示すデータを一時的に記憶させる。そして、認識率Mおよび認識率Sが閾値In以下である場合、ステップS135でアザー状態に設定する。つまり、ステップS135では、ユーザの興味対象がロボット12およびモニタ16ではないため、興味対象認識結果バッファ342に「アザー」を示すデータを一時的に記憶させる。   If “YES” in the step S129, that is, if the recognition rate M is larger than the recognition rate S, the monitor state is set in a step S131. That is, since the user's interest is the monitor 16, data indicating “monitor” is temporarily stored in the interest result buffer 342. On the other hand, if “NO” in the step S129, that is, if the recognition rate M is equal to or less than the recognition rate S, the robot state is set in a step S133. That is, since the user's recognition target is the robot 12, the data indicating “robot” is temporarily stored in the interest target recognition result buffer 342. If the recognition rate M and the recognition rate S are less than or equal to the threshold value In, the other state is set in step S135. That is, in step S135, since the user's interest is not the robot 12 or the monitor 16, the data indicating “other” is temporarily stored in the interest recognition result buffer 342.

なお、ステップS131,S133およびステップS135の処理が終了すれば、興味対象認識処理を終了して、状態認識処理に戻る。また、本実施例では、興味対象がユーザの顔の認識率M,Sに基づいて設定されるため、ユーザが見る対象を正確に認識することができる。   In addition, if the process of step S131, S133, and step S135 is complete | finished, an interested object recognition process will be complete | finished and it will return to a state recognition process. In the present embodiment, since the object of interest is set based on the recognition rates M and S of the user's face, the object that the user sees can be accurately recognized.

また、ステップS131,S133およびS135の処理を実行するプロセッサ64は設定手段として機能する。   The processor 64 that executes the processes of steps S131, S133, and S135 functions as a setting unit.

このように、図22−図25に示す処理が実行されることで、ユーザの状態データがメモリ68に記憶されるとともに、サーバ24に送信される。また、他の実施例ではAc/Pa認識処理、Ta/Li認識処理および興味対象認識処理が並列的に処理されてもよく、この場合は、興味対象認識処理に限り、行動データを第2所定時間毎に取得することで、ユーザの興味対象を認識する。   As described above, by executing the processing shown in FIGS. 22 to 25, the user status data is stored in the memory 68 and transmitted to the server 24. In another embodiment, the Ac / Pa recognition process, the Ta / Li recognition process, and the interest object recognition process may be performed in parallel. Recognize the user's interest by acquiring it every hour.

図26には発声時間計測プログラム320の処理を示すフロー図が示される。プロセッサ20はステップS141で音声レベルが所定値以上か否かを判断する。たとえば、マイク20によって集音された音声の音声レベルが、人間の発話と判断できる所定値以上であるか否かを判断する。ステップS141で“NO”であれば、つまり音声レベルが所定値未満であれば、ステップS141の処理を繰り返す。一方、ステップS141で“YES”であれば、つまり音声レベルが所定値以上であれば、ステップS143で発声カウンタ362をインクリメントする。つまり、ステップS143では発声時間をカウントするために、発声カウンタ362をインクリメントする。なお、ステップS141−S145の処理を実行するプロセッサ64は計測手段として機能する。   FIG. 26 is a flowchart showing the processing of the utterance time measurement program 320. In step S141, the processor 20 determines whether or not the sound level is equal to or higher than a predetermined value. For example, it is determined whether or not the sound level of the sound collected by the microphone 20 is equal to or higher than a predetermined value that can be determined as a human speech. If “NO” in the step S141, that is, if the sound level is less than a predetermined value, the process of the step S141 is repeated. On the other hand, if “YES” in the step S141, that is, if the sound level is equal to or higher than a predetermined value, the utterance counter 362 is incremented in a step S143. That is, in step S143, the utterance counter 362 is incremented to count the utterance time. The processor 64 that executes the processes of steps S141 to S145 functions as a measurement unit.

続いて、ステップS145では、音声レベルが所定値未満になったか否かを判断する。たとえば、マイク20によって集音された音声の音声レベルが所定値未満になったか否かを判断する。つまり、ステップS145で“NO”であれば、つまり音声レベルが所定値以上であれば、ステップS143に戻る。一方、ステップS145で“YES”であれば、つまり音声レベルが所定値未満であれば、ステップS147で発声カウンタ362を初期化し、ステップS141に戻る。つまり、ユーザの発話が終了したため、発声時間を計測する発声カウンタ362を初期化する。   Subsequently, in step S145, it is determined whether or not the audio level has become less than a predetermined value. For example, it is determined whether or not the sound level of the sound collected by the microphone 20 has become less than a predetermined value. That is, if “NO” in the step S145, that is, if the sound level is equal to or higher than a predetermined value, the process returns to the step S143. On the other hand, if “YES” in the step S145, that is, if the sound level is less than a predetermined value, the utterance counter 362 is initialized in a step S147, and the process returns to the step S141. That is, since the user's utterance is completed, the utterance counter 362 for measuring the utterance time is initialized.

なお、ステップS141およびステップS145では、マイク20に入力される音声の音声レベルだけに限らず、スピーカ18から出力される音声の音声レベルに基づいて判断する。これにより、相手ユーザの発声時間を計測することも可能になる。   In step S141 and step S145, the determination is made not only based on the sound level of the sound input to the microphone 20, but also based on the sound level of the sound output from the speaker 18. Thereby, it is also possible to measure the utterance time of the other user.

また、他の実施例では、発声カウンタ362を利用せず、行動テーブルにおける発話の判定結果に基づいて発声時間が計測されてもよい。つまり、発話判定において連続して「あり」と判定される回数をカウントすることで、発声時間を測定することができる。また、この場合、たとえばユーザAだけに特化して、発声時間を計測することが可能になり、ユーザAとユーザBとが同時に発話しているときには、正確に各ユーザの発声時間を計測できるようになる。さらに、対話中の全ての発話判定結果が行動テーブルに記録されるようにすれば、対話中の総合発声時間や、各発声時間をそれぞれ算出することができる。   In another embodiment, the utterance time may be measured based on the utterance determination result in the action table without using the utterance counter 362. That is, the utterance time can be measured by counting the number of times that “Yes” is continuously determined in the utterance determination. Further, in this case, for example, it becomes possible to measure the utterance time only for the user A, and when the user A and the user B speak at the same time, the utterance time of each user can be accurately measured. become. Furthermore, if all the utterance determination results during the conversation are recorded in the action table, the total utterance time during the conversation and each utterance time can be calculated.

図27には、ロボット制御プログラム316に含まれる全体プログラム316aの処理を示すフロー図が示される。たとえば、PC14のプロセッサ64は、テレビ電話機能による通話が開始されると、ステップS161で終了操作か否かを判断する。たとえば、テレビ電話機能による通話を終了する操作がされたか否かを判断する。ステップS161で“YES”であれば、つまり終了操作が行われると、全体処理を終了する。一方、ステップS161で“NO”であれば、つまり終了操作が行われなければ、ステップS163で状態データ354を参照する。   FIG. 27 is a flowchart showing the processing of the entire program 316a included in the robot control program 316. For example, when the telephone call by the videophone function is started, the processor 64 of the PC 14 determines whether or not the end operation is performed in step S161. For example, it is determined whether or not an operation for ending a call using the videophone function has been performed. If “YES” in the step S161, that is, if an end operation is performed, the entire process is ended. On the other hand, if “NO” in the step S161, that is, if the end operation is not performed, the state data 354 is referred to in a step S163.

続いて、ステップS165ではモニタ状態か否かを判断する。つまり、状態データ354に、ユーザの興味対象がモニタ16であること示す「モニタ」が含まれているか否かを判断する。ステップS165で“NO”であれば、つまりユーザの興味対象がモニタ16でなければ、ステップS175に進む。一方、ステップS165で“YES”であれば、つまりユーザの興味対象がモニタ16であれば、ステップS167でアクティブか否かを判断する。つまり、状態データ354に、ユーザがアクティブ状態であることを示す「アクティブ」が含まれているか否かを判断する。ステップS167で“NO”であれば、つまりユーザがパッシブ状態であれば、ステップS177に進む。   Subsequently, in step S165, it is determined whether or not the monitor state is set. That is, it is determined whether or not the status data 354 includes “monitor” indicating that the user is interested in the monitor 16. If “NO” in the step S165, that is, if the user's interest is not the monitor 16, the process proceeds to a step S175. On the other hand, if “YES” in the step S165, that is, if the user's interest is the monitor 16, it is determined whether or not it is active in a step S167. That is, it is determined whether or not the status data 354 includes “active” indicating that the user is in the active status. If “NO” in the step S167, that is, if the user is in a passive state, the process proceeds to a step S177.

一方、ステップS167で“YES”であれば、つまりユーザがアクティブ状態であれば、ステップS169でトークであるか否かを判断する。つまり、状態データ354に、ユーザがトーク状態であることを示す「トーク」が含まれるか否かを判断する。ステップS169で“YES”であれば、つまり、ユーザがトーク状態であれば状態データ354は「アクティブ・トーク・モニタ」であるため、ステップS171でアクティブトーク処理を実行し、ステップS161に戻る。なお、このアクティブトーク処理については、図28に示すフロー図を用いて後述するため、ここでの詳細な説明は省略する。   On the other hand, if “YES” in the step S167, that is, if the user is in an active state, it is determined whether or not the talk is in a step S169. That is, it is determined whether or not the status data 354 includes “talk” indicating that the user is in the talk state. If “YES” in the step S169, that is, if the user is in the talk state, the state data 354 is “active talk monitor”, so the active talk process is executed in a step S171, and the process returns to the step S161. Since this active talk process will be described later with reference to the flowchart shown in FIG. 28, a detailed description thereof is omitted here.

ステップS169で“NO”であれば、つまりユーザがリッスン状態であれば状態データ354は「アクティブ・リッスン・モニタ」であるため、ステップS173でアクティブリッスン処理を実行し、ステップS161に戻る。なお、このアクティブリッスン処理については、図29に示すフロー図を用いて後述するため、ここでの詳細な説明は省略する。   If “NO” in the step S169, that is, if the user is in a listening state, the state data 354 is “active listening monitor”, so an active listening process is executed in a step S173, and the process returns to the step S161. Since this active listening process will be described later with reference to the flowchart shown in FIG. 29, a detailed description thereof will be omitted here.

また、ユーザの興味対象がモニタ16以外である場合、ステップS175で、ロボット状態か否かを判断する。つまり、状態データ354に、ユーザの興味対象がロボット10であることを示す「ロボット」が含まれているか否かを判断する。ステップS175で“YES”であれば、つまりユーザの興味対象がロボット10であれば、ステップS177で非アクティブ処理を実行し、ステップS161に戻る。なお、この非アクティブ処理については図30に示すフロー図を用いて後述するため、ここでの詳細な説明は省略する。一方、ステップS175で“NO”であれば、つまりユーザの興味対象がロボット10でもモニタ16でもなければ、ステップS179でアザー処理を実行し、ステップS161に戻る。なお、アザー処理については図31に示すフロー図を用いて後述するため、ここでの詳細な説明は省略する。   If the user's interest is other than the monitor 16, it is determined in step S175 whether the robot is in the robot state. That is, it is determined whether or not the status data 354 includes “robot” indicating that the user is interested in the robot 10. If “YES” in the step S175, that is, if the user's object of interest is the robot 10, an inactive process is executed in a step S177, and the process returns to the step S161. Since this inactive process will be described later with reference to the flowchart shown in FIG. 30, a detailed description thereof will be omitted here. On the other hand, if “NO” in the step S175, that is, if the user is not interested in the robot 10 or the monitor 16, the other process is executed in a step S179, and the process returns to the step S161. Since the other process will be described later with reference to the flowchart shown in FIG. 31, detailed description thereof is omitted here.

なお、他の実施例では、ステップS165,S175およびS179の処理を省略し、ステップS167で、アクティブ・モニタか否かを判断するようにしてもよい。また、ステップS171,S173,S177およびS179の処理を実行するプロセッサ64は動作付与手段として機能する。   In other embodiments, the processes in steps S165, S175, and S179 may be omitted, and it may be determined in step S167 whether or not the monitor is an active monitor. In addition, the processor 64 that executes the processes of steps S171, S173, S177, and S179 functions as an operation providing unit.

図28にはアクティブトークプログラム316bの処理を示すフロー図が示される。なお、図28−図42までのフロー図に示される処理は、PC14aによって実行されるもとして説明する。そのため、「ユーザ」はユーザAを示し、「相手」はユーザB、つまり相手ユーザを示す。   FIG. 28 is a flowchart showing the processing of the active talk program 316b. Note that the processing shown in the flowcharts of FIGS. 28 to 42 will be described as being executed by the PC 14a. Therefore, “user” indicates user A, and “partner” indicates user B, that is, the partner user.

PC14aのプロセッサ64は、ステップS171の処理が実行されると、ステップS191でサーバ24とのデータ通信を確立する。つまり、データ通信処理を実行することで、サーバ24とのデータ通信を確立する。続いて、ステップS193では、相手の状態データを取得する。つまり、サーバ24に記憶されるユーザBの状態データを、サーバ24とのデータ通信によって取得する。そして、取得された相手の状態データは、データ通信バッファ344に一時的に記憶される。   When the process of step S171 is executed, the processor 64 of the PC 14a establishes data communication with the server 24 in step S191. That is, data communication with the server 24 is established by executing data communication processing. Subsequently, in step S193, the other party's state data is acquired. That is, the state data of user B stored in the server 24 is acquired by data communication with the server 24. The acquired partner status data is temporarily stored in the data communication buffer 344.

続いて、ステップS195では、相手がモニタ状態か否かを判断する。つまり、データ通信バッファ344に一時的に記憶されたユーザBの状態データに基づいて、ユーザBの興味対象がモニタ16bであるか否かを判断する。ステップS195で“NO”であれば、つまりユーザBの興味対象がモニタ16bでなければ、ステップS207に進む。一方、ステップS195で“YES”であれば、つまりユーザBの興味対象がモニタ16bであれば、ステップS197で相手がアクティブか否かを判断する。つまり、取得されたユーザBの状態データに基づいて、ユーザBがアクティブ状態であるか否かを判断する。ステップS197で“NO”であれば、つまりユーザBがパッシブ状態であれば、ステップS207に進む。   Subsequently, in step S195, it is determined whether or not the partner is in a monitoring state. That is, based on the state data of the user B temporarily stored in the data communication buffer 344, it is determined whether or not the object of interest of the user B is the monitor 16b. If “NO” in the step S195, that is, if the user B is not interested in the monitor 16b, the process proceeds to a step S207. On the other hand, if “YES” in the step S195, that is, if the object of interest of the user B is the monitor 16b, it is determined whether or not the partner is active in a step S197. That is, based on the acquired state data of user B, it is determined whether or not user B is in an active state. If “NO” in the step S197, that is, if the user B is in a passive state, the process proceeds to a step S207.

一方、ステップS197で“YES”であれば、つまりユーザBがアクティブ状態であれば、ステップS199で相手がトークであるか否かを判断する。つまり、ユーザBの状態データに基づいて、ユーザBがトーク状態であるか否かを判断する。ステップS199で“YES”であれば、つまりユーザBがトーク状態であればステップS201で発話継続処理を実行する。そして、発話継続処理が終了すれば、アクティブトーク処理を終了して、全体処理に戻る。なお、この発話継続処理については、図32に示すフロー図を用いて後述するため、ここでの詳細な説明は省略する。   On the other hand, if “YES” in the step S197, that is, if the user B is in an active state, it is determined whether or not the other party is a talk in a step S199. That is, based on the state data of the user B, it is determined whether or not the user B is in the talk state. If “YES” in the step S199, that is, if the user B is in a talk state, the speech continuation process is executed in a step S201. When the utterance continuation process ends, the active talk process ends, and the process returns to the overall process. Since this utterance continuation process will be described later with reference to the flowchart shown in FIG. 32, detailed description thereof will be omitted here.

また、ステップS199で“NO”であれば、つまりユーザBがリッスン状態であれば、ステップS203でユーザと相手との状態データを一時記憶する。つまり、ユーザAの状態を示す状態データ354と、データ通信バッファ344に記憶されるユーザBの状態データとを状態データバッファ348に一旦格納する。続いて、ステップS205では、発声時間が閾値Lより短いか否かを判断する。つまり、発声カウンタ362によってカウントされたユーザAの発声時間が閾値Lより短いか否かを判断する。   If “NO” in the step S199, that is, if the user B is in the listening state, the state data of the user and the partner is temporarily stored in a step S203. That is, the status data 354 indicating the status of the user A and the status data of the user B stored in the data communication buffer 344 are temporarily stored in the status data buffer 348. Subsequently, in step S205, it is determined whether or not the utterance time is shorter than the threshold value L. That is, it is determined whether or not the utterance time of the user A counted by the utterance counter 362 is shorter than the threshold value L.

ステップS205で“YES”であれば、つまりユーザAの発声時間が閾値Lよりも短ければ、ステップS201に進む。一方、ステップS205で“NO”であれば、つまりユーザAの発声時間が閾値L以上であれば、ユーザAが一方的に話しすぎている状態のため、ステップS207で発話抑制処理を実行する。そして、ステップS207の処理が終了すれば、アクティブトーク処理を終了して、全体処理に戻る。なお、発話抑制処理については、図33に示すフロー図を用いて後述するため、ここでの詳細な説明は省略する。   If “YES” in the step S205, that is, if the utterance time of the user A is shorter than the threshold L, the process proceeds to a step S201. On the other hand, if “NO” in the step S205, that is, if the utterance time of the user A is equal to or more than the threshold L, the utterance suppression process is executed in a step S207 because the user A is speaking unilaterally. When the process in step S207 is completed, the active talk process is terminated and the process returns to the overall process. Note that the utterance suppression process will be described later with reference to the flowchart shown in FIG. 33, and thus detailed description thereof is omitted here.

以下、図29−図31に示すフロー図において、図28のフローと重複するフローについては、詳細な説明を省略する。   In the flowcharts shown in FIGS. 29 to 31, the detailed description of the same flow as that in FIG. 28 is omitted.

図29にはアクティブリッスンプログラム316cの処理を示すフロー図が示される。PC14aのプロセッサ64は、ステップS173の処理が実行されると、ステップS211でサーバ24とのデータ通信を確立し、ステップS213では相手の状態データを取得する。続いて、ステップS215では、相手がモニタ状態であるか否かを判断する。ステップS215で“NO”であれば、つまりユーザBの興味対象がモニタ16b以外であれば、ステップS227に進む。   FIG. 29 is a flowchart showing the processing of the active listen program 316c. When the process of step S173 is executed, the processor 64 of the PC 14a establishes data communication with the server 24 in step S211 and acquires the partner state data in step S213. Subsequently, in step S215, it is determined whether or not the partner is in a monitoring state. If “NO” in the step S215, that is, if the object of interest of the user B is other than the monitor 16b, the process proceeds to a step S227.

ステップS215で“YES”であれば、つまりユーザBの興味対象がモニタ16bであれば、ステップS217で相手がアクティブか否かを判断する。ステップS217で“NO”であれば、つまりユーザBがパッシブ状態であれば、ステップS227に進む。一方、ステップS217で“YES”であれば、つまりユーザBがアクティブ状態であれば、ステップS219で相手がトークであるか否かを判断する。ステップS219で“NO”であれば、つまりユーザBがリッスン状態であれば、ステップS227に進む。一方、ステップS219で“YES”であれば、つまりユーザBがトーク状態であれば、ステップS221でユーザと相手との状態データを一時記憶する。   If “YES” in the step S215, that is, if the object of interest of the user B is the monitor 16b, it is determined whether or not the partner is active in a step S217. If “NO” in the step S217, that is, if the user B is in a passive state, the process proceeds to a step S227. On the other hand, if “YES” in the step S217, that is, if the user B is in an active state, it is determined whether or not the other party is a talk in a step S219. If “NO” in the step S219, that is, if the user B is in the listening state, the process proceeds to a step S227. On the other hand, if “YES” in the step S219, that is, if the user B is in the talk state, the state data of the user and the other party are temporarily stored in a step S221.

続いて、ステップS223では発声時間が閾値Lよりも短いか否かを判断する。つまり、発声カウンタ362によってカウントされたユーザBの発声時間が、閾値Lよりも短いか否かを判断する。ステップS223で“YES”であれば、つまりユーザBの発声時間が閾値Lよりも短ければ、ステップS225で発話継続処理を実行する。そして、ステップS225の処理が終了すれば、アクティブリッスン処理を終了して、全体処理に戻る。一方、ステップS223で“NO”であれば、つまりユーザBの発声時間が閾値L以上であれば、相手ユーザであるユーザBが一方的に話しすぎている状態のため、ステップS227で発話促進処理を実行する。また、ステップS227の処理が終了すれば、アクティブリッスン処理を終了して、全体処理に戻る。なお、発話促進処理については、図34に示すフロー図を用いて後述するため、ここでの詳細な説明は省略する。   Subsequently, in step S223, it is determined whether or not the utterance time is shorter than the threshold value L. That is, it is determined whether or not the utterance time of the user B counted by the utterance counter 362 is shorter than the threshold value L. If “YES” in the step S223, that is, if the utterance time of the user B is shorter than the threshold L, the utterance continuing process is executed in a step S225. When the process of step S225 ends, the active listen process ends, and the process returns to the overall process. On the other hand, if “NO” in the step S223, that is, if the utterance time of the user B is equal to or greater than the threshold value L, the user B who is the partner user is unilaterally speaking, so the utterance promoting process in the step S227. Execute. When the process of step S227 is completed, the active listen process is terminated and the process returns to the overall process. Note that the utterance promotion process will be described later with reference to the flowchart shown in FIG. 34, and thus detailed description thereof is omitted here.

そして、ステップS207の発話抑制処理およびステップS227の発話促進処理が実行されると、ロボット10aはユーザAの発話を制御するように動作する。したがって、ユーザAとユーザBとがバランス良く発話するようになるため、対話が持続するようになる。   When the speech suppression process in step S207 and the speech promotion process in step S227 are executed, the robot 10a operates to control the user A's speech. Therefore, since the user A and the user B speak in a well-balanced manner, the dialogue continues.

図30には非アクティブプログラム316dの処理を示すフロー図が示される。PC14aのプロセッサ64は、ステップS177の処理が実行されると、ステップS231で発話促進処理を実行する。そして、ステップS231の処理が終了すれば、非アクティブ処理を終了して、全体処理に戻る。たとえば、対話に非積極的なユーザの発話を促進することで、ユーザを対話に参加させ、対話を持続させる。   FIG. 30 is a flowchart showing the processing of the inactive program 316d. When the process of step S177 is executed, the processor 64 of the PC 14a executes the speech promotion process in step S231. And if the process of step S231 is complete | finished, an inactive process will be complete | finished and it will return to the whole process. For example, by promoting the utterance of a user who is not active in the dialogue, the user is allowed to participate in the dialogue and the dialogue is continued.

図31にはアザープログラム316eの処理を示すフロー図が示される。PC14aのプロセッサ64は、ステップS179の処理が実行されると、ステップS241で注意引きつけ処理を実行する。そして、ステップS241の処理が終了すると、アザー処理を終了して、全体処理に戻る。   FIG. 31 is a flowchart showing the processing of the other program 316e. When the processing of step S179 is executed, the processor 64 of the PC 14a executes attention attracting processing in step S241. Then, when the process of step S241 ends, the other process ends, and the process returns to the overall process.

なお、注意引きつけ処理の詳細な説明は省略するが、この処理が実行されると、ロボット10aは、ユーザAの注意を引きつけるように動作する。つまり、ユーザAの興味対象がモニタ16(ユーザB)でも、ロボット10aでなければ、ロボット10aは、ユーザAが対話に興味を持つように注意を引きつける。このように、アクティブ状態ではないユーザに、対話へ興味を持たせることで、対話が持続するようになる。   Although a detailed description of the attention attracting process is omitted, when this process is executed, the robot 10a operates to attract the user A's attention. That is, even if the object of interest of the user A is the monitor 16 (user B) but not the robot 10a, the robot 10a attracts attention so that the user A is interested in the dialogue. In this way, the conversation is continued by making the user who is not in an active state interested in the conversation.

図32には発話継続プログラム316fの処理を示すフロー図が示される。PC14aのプロセッサ64は、ステップS201またはステップS225の処理が実行されると、ステップS261で行動データを参照する。つまり、ステップS261では、ユーザAの行動データを、行動テーブルデータ352から参照する。続いて、ステップS263では、発話しているか否かを判断する。つまり、ユーザAの行動データにおいて、発話判定結果が「あり」であるか否かを判断する。ステップS263で“YES”であれば、つまりユーザAが発話していれば、ステップS265で傍参与者的疑似傾聴処理を実行する。また、ステップS265の処理が終了すると、発話継続処理を終了して、上位ルーチンに戻る。なお、傍参与者的疑似傾聴処理については、図36のフロー図を用いて後述するため、ここでの詳細な説明は省略する。   FIG. 32 is a flowchart showing the processing of the utterance continuation program 316f. When the process of step S201 or step S225 is executed, the processor 64 of the PC 14a refers to the behavior data in step S261. That is, in step S261, the action data of the user A is referred from the action table data 352. Subsequently, in step S263, it is determined whether or not the user is speaking. That is, it is determined whether or not the utterance determination result is “Yes” in the action data of the user A. If “YES” in the step S263, that is, if the user A is speaking, an attendant pseudo-listening process is executed in a step S265. When the process of step S265 is completed, the speech continuation process is terminated and the process returns to the upper routine. Note that the attendant-like pseudo-listening process will be described later with reference to the flowchart of FIG. 36, and a detailed description thereof will be omitted here.

また、ステップS263で“NO”であれば、つまりユーザAが発話していなければ、ステップS267で、ステップS191と同様に、サーバ24とのデータ通信を確立する。続いて、ステップS269では相手の行動データを取得する。つまり、ユーザBの行動データをサーバ24から取得する。続いて、ステップS271では、相手の行動データを一時記憶する。つまり、取得されたユーザBの行動データを相手行動データバッファ346に一旦格納する。   If “NO” in the step S263, that is, if the user A is not speaking, the data communication with the server 24 is established in a step S267 similarly to the step S191. In step S269, the other party's action data is acquired. That is, the action data of the user B is acquired from the server 24. Subsequently, in step S271, the other party's action data is temporarily stored. That is, the acquired action data of the user B is temporarily stored in the opponent action data buffer 346.

続いて、ステップS273では、相手が発話しているか否かを判断する。つまり、相手行動データバッファ346に記憶されている、ユーザBの行動データを読み出し、発話判定結果が「あり」となっているか否かを判断する。   Subsequently, in step S273, it is determined whether or not the other party is speaking. That is, the behavior data of the user B stored in the partner behavior data buffer 346 is read, and it is determined whether or not the speech determination result is “Yes”.

ステップS273で“YES”であれば、つまりユーザBが発話していれば、ステップS275で第1積極的疑似傾聴処理を実行する。また、ステップS275の処理が終了すれば、発話継続処理を終了して上位ルーチンに戻る。なお、第1積極的疑似傾聴処理については、図37に示すフロー図を用いて後述するため、ここでの詳細な説明は省略する。一方、ステップS273で“NO”であれば、つまりユーザBが発話していなければ、ステップS277で直前の動作を継続し、処理が終了すれば、発話継続処理を終了して上位ルーチンに戻る。たとえば、ステップS277では、前回の処理で「ユーザAを見る」の動作命令が発行されていれば、今回の処理でも同じ動作命令を発行する。   If “YES” in the step S273, that is, if the user B is speaking, the first positive pseudo-listening process is executed in a step S275. When the process of step S275 is completed, the utterance continuation process is terminated and the process returns to the upper routine. Since the first active pseudo-listening process will be described later with reference to the flowchart shown in FIG. 37, a detailed description thereof is omitted here. On the other hand, if “NO” in the step S273, that is, if the user B is not speaking, the immediately preceding operation is continued in a step S277, and if the process is ended, the utterance continuing process is ended and the process returns to the upper routine. For example, in step S277, if an operation command “view user A” has been issued in the previous process, the same operation command is issued in the current process.

なお、傍参与者的疑似傾聴処理および第1積極的疑似傾聴処理では、ユーザAまたはユーザBに対して、ロボット10が疑似傾聴を行うように動作命令が付与される。つまり、ユーザAおよびユーザBは、ロボット10の疑似傾聴によって、自身の話を聴いてもらっているように感じることができるため、対話が持続するようになる。   In the bystander-like pseudo-listening process and the first positive pseudo-listening process, an operation command is given to the user A or the user B so that the robot 10 performs the pseudo-listening. That is, since the user A and the user B can feel as if they are listening to their own stories by the pseudo-listening of the robot 10, the dialogue continues.

以下、図33,図34に示すフロー図において、図32のフローと重複するフローについては、詳細な説明を省略する。   In the flow charts shown in FIGS. 33 and 34, detailed description of the same flow as that in FIG. 32 is omitted.

図33には発話抑制プログラム316gの処理を示すフロー図が示される。PC14aのプロセッサ64は、ステップS207の処理が実行されると、ステップS281で行動データを取得する。続いて、ステップS283では発話しているか否かを判断する。ステップS283で“YES”であれば、つまりユーザAが発話していれば、ステップS285で傍参与者的疑似傾聴処理を実行し、ステップS285の処理が終了すれば、発話抑制処理を終了してアクティブトーク処理に戻る。   FIG. 33 is a flowchart showing the processing of the speech suppression program 316g. When the process of step S207 is executed, the processor 64 of the PC 14a acquires behavior data in step S281. Subsequently, in step S283, it is determined whether or not a speech is being made. If “YES” in the step S283, that is, if the user A is speaking, the by-participant pseudo-listening process is executed in a step S285, and if the process in the step S285 is ended, the speech suppressing process is ended. Return to the active talk process.

一方、ステップS283で“NO”であれば、つまりユーザAが発話していなければ、ステップS287でサーバ24とのデータ通信を確立し、ステップS289で相手の行動データを取得する。そして、ステップS291では相手の行動データを一時記憶する。続いて、ステップS293では、相手が発話しているか否かを判断する。ステップS293で“YES”であれば、つまりユーザBが発話してれば、ステップS295で第1積極的疑似傾聴処理を実行する。また、ステップS295の処理が終了すれば、発話抑制処理を終了してアクティブトーク処理に戻る。   On the other hand, if “NO” in the step S283, that is, if the user A is not speaking, the data communication with the server 24 is established in a step S287, and the action data of the other party is acquired in a step S289. In step S291, the other party's action data is temporarily stored. Subsequently, in step S293, it is determined whether or not the other party is speaking. If “YES” in the step S293, that is, if the user B speaks, the first positive pseudo-listening process is executed in a step S295. When the process of step S295 ends, the speech suppression process ends and the process returns to the active talk process.

また、ステップS293で“NO”であれば、つまりユーザBが発話していなければ、ステップS297でユーザ発話抑制処理を実行する。そして、ステップS297の処理が終了すれば、発話抑制処理を終了してアクティブトーク処理に戻る。   If “NO” in the step S293, that is, if the user B does not speak, the user utterance suppressing process is executed in a step S297. And if the process of step S297 is complete | finished, an utterance suppression process will be complete | finished and it will return to an active talk process.

なお、ユーザ発話抑制処理の詳細な説明は後述するが、この処理が実行されると、ロボット10はユーザの発話を抑制するように動作する。つまり、ユーザAが一方的に発話している場合には、ユーザAの発話が抑制される。   Although detailed description of the user utterance suppression process will be described later, when this process is executed, the robot 10 operates to suppress the user's utterance. That is, when user A speaks unilaterally, user A's speech is suppressed.

図34には発話促進プログラム316hの処理を示すフロー図が示される。PC14aのプロセッサ64は、ステップS227またはステップS231の処理が実行されると、ステップS301で行動データを参照する。続いて、ステップS303では発話しているか否かを判断する。ステップS303で“YES”であれば、つまりユーザAが発話していれば、ステップS305で傍参与者的疑似傾聴処理を実行する。一方、ステップS303で“NO”であれば、つまりユーザAが発話していなければ、ステップS307でサーバ24とのデータ通信を確立し、ステップS309で相手の行動データを取得する。そして、ステップS311では、相手の行動データを一時記憶する。続いて、ステップS313では、相手が発話しているか否かを判断する。ステップS313で“YES”であれば、つまりユーザBが発話していれば、ステップS315で第1積極的疑似傾聴処理を実行する。   FIG. 34 is a flowchart showing the processing of the speech promotion program 316h. When the process of step S227 or step S231 is executed, the processor 64 of the PC 14a refers to the behavior data in step S301. Subsequently, in step S303, it is determined whether or not the user is speaking. If “YES” in the step S303, that is, if the user A is speaking, an attendant pseudo-listening process is executed in a step S305. On the other hand, if “NO” in the step S303, that is, if the user A is not speaking, the data communication with the server 24 is established in a step S307, and the action data of the other party is acquired in a step S309. In step S311, the other party's action data is temporarily stored. Subsequently, in step S313, it is determined whether or not the other party is speaking. If “YES” in the step S313, that is, if the user B is speaking, the first positive pseudo-listening process is executed in a step S315.

また、ステップS313で“NO”であれば、つまりユーザBが発話していなければステップS317でユーザがロボット10を見ているか否かを判断する。つまり、ユーザAの行動データで、視線方向判定結果が「ロボット」であるか否かを判断する。   If “NO” in the step S313, that is, if the user B is not speaking, it is determined whether or not the user is watching the robot 10 in a step S317. That is, it is determined from the action data of the user A whether the gaze direction determination result is “robot”.

ステップS317で“YES”であれば、つまりユーザAがロボット10aを見ていれば、ステップS319でユーザ発話促進処理を実行する。そして、ステップS319の処理が終了すれば、発話促進処理を終了して、上位ルーチンに戻る。   If “YES” in the step S317, that is, if the user A is looking at the robot 10a, the user speech promoting process is executed in a step S319. And if the process of step S319 is complete | finished, a speech promotion process will be complete | finished and it will return to a high-order routine.

なお、ユーザ発話促進処理の詳細な説明は後述するが、この処理が実行されると、ロボット10aはユーザAが発話するように動作する。たとえば、上位ルーチンが非アクティブ処理であれば、ユーザAが会話に参加できるように発話を促進、つまり促すようにロボット10が動作する。これにより、対話に非積極的なユーザが発話するため、ユーザAが対話に参加するようになる。   Although detailed description of the user utterance promotion process will be described later, when this process is executed, the robot 10a operates so that the user A speaks. For example, if the upper routine is an inactive process, the robot 10 operates so as to promote, that is, encourage, speech so that the user A can participate in the conversation. As a result, a user who is not active in the dialogue speaks, so that the user A participates in the dialogue.

また、ステップS207,S227,S297およびS319の処理を実行するプロセッサ64は、発話制御動作付与手段として機能する。さらに、ステップS269,S289およびS309の処理を実行するプロセッサ64は取得手段として機能する。   The processor 64 that executes the processes of steps S207, S227, S297, and S319 functions as an utterance control operation giving unit. Furthermore, the processor 64 that executes the processes of steps S269, S289, and S309 functions as an acquisition unit.

一方、ステップS317で“NO”であれば、つまりユーザAがロボット10aを見ていなければ、ステップS321で注意引きつけ処理を実行する。そして、ステップS321の処理が終了すれば、発話促進処理を終了して、上位ルーチンに戻る。   On the other hand, if “NO” in the step S317, that is, if the user A is not looking at the robot 10a, the attention attracting process is executed in a step S321. And if the process of step S321 is complete | finished, a speech promotion process will be complete | finished and it will return to a high-order routine.

なお、注意引きつけ処理の詳細な説明は後述するが、この処理が実行されると、ロボット10aはユーザAの注意を引きつけるように動作する。たとえば、上位ルーチンが非アクティブ処理であれば、ユーザAの注意を引きつけることで、ユーザAが会話に参加できるようにロボット10が動作する。これにより、対話に非積極的なユーザは注意を引きつけられ、対話に参加する。   Although a detailed description of the attention attracting process will be described later, when this process is executed, the robot 10a operates to attract the user A's attention. For example, if the upper routine is an inactive process, the robot 10 operates to attract the user A's attention so that the user A can participate in the conversation. This attracts the attention of users who are not active in the dialogue and participates in the dialogue.

なお、ステップS177,S231,S319およびS321の処理を実行するプロセッサ64は参加動作付与手段として機能する。   Note that the processor 64 that executes the processes of steps S177, S231, S319, and S321 functions as a participation operation giving unit.

ここで、発話促進処理の上位ルーチンがアクティブリッスン処理である場合に、ステップS319またはステップS321の処理でユーザの発話を促進したり、注意を引きつけたりするようにロボット10が動作することで、ユーザAが発話するようになる。つまり、ユーザが相手の話を積極的に傾聴している状態が長く続けば、ユーザAが発話が求められる。   Here, when the upper routine of the speech promotion process is the active listen process, the robot 10 operates to promote the user's speech or attract attention in the process of step S319 or step S321, so that the user A begins to speak. That is, if the user is actively listening to the other person's story for a long time, the user A is required to speak.

図35には注意引きつけプログラム316jの処理を示すフロー図が示される。PC14aのプロセッサ64は、たとえば、ステップS251の処理が実行されると、ステップS331で乱数生成処理を実行する。たとえば、ステップS331では乱数生成処理では桁数の少ない疑似乱数を1つ生成し、生成した乱数を乱数バッファ350に格納する。   FIG. 35 is a flowchart showing the processing of the attention attracting program 316j. For example, when the process of step S251 is executed, the processor 64 of the PC 14a executes a random number generation process in step S331. For example, in step S331, one random number with a small number of digits is generated in the random number generation process, and the generated random number is stored in the random number buffer 350.

続いて、ステップS333では、乱数が奇数であるか否かを判断する。つまり、乱数バッファ350に格納される乱数を「2」で割ったときの余りが「1」であるか否かを判断する。ステップS333で“YES”であれば、つまり乱数が奇数であれば、ステップS335で「ユーザを見る」の動作命令を発行する。つまり、ユーザAを見るような動作命令をロボット10aに付与する。そして、ステップS335の処理が終了すれば、注意引きつけ処理を終了して上位ルーチンに戻る。   Subsequently, in step S333, it is determined whether or not the random number is an odd number. That is, it is determined whether or not the remainder when the random number stored in the random number buffer 350 is divided by “2” is “1”. If “YES” in the step S333, that is, if the random number is an odd number, an operation command “view user” is issued in a step S335. That is, an operation command for viewing the user A is given to the robot 10a. When the process of step S335 ends, the attention attracting process ends and the process returns to the upper routine.

また、ステップS333で“NO”であれば、つまり乱数が偶数であればステップS337で、再び乱数生成処理を実行する。また、ステップS337の処理で作成された乱数は、ステップS331で作成された乱数を消去した後に記憶される。つまり、ステップS337の処理が実行されると、乱数バッファ350に記憶される乱数が更新される。   If “NO” in the step S333, that is, if the random number is an even number, the random number generation process is executed again in a step S337. In addition, the random number created in the process of step S337 is stored after the random number created in step S331 is deleted. That is, when the process of step S337 is executed, the random number stored in the random number buffer 350 is updated.

続いて、ステップS339では、乱数が奇数か否かを判断する。つまり、ステップS337で生成された乱数が奇数であるか否かを判断する。ステップS339で“YES”であれば、つまり乱数が奇数であれば、ステップS341で「ユーザに声をかける」の動作命令を発行する。たとえば、発行される動作命令は、「ねえねえ」などの合成音声を、口32に設けられたスピーカ56から出力させる。そして、ユーザAは、合成音声を聴くことで、ロボット10aに話しかけられたように感じる。   Subsequently, in step S339, it is determined whether or not the random number is an odd number. That is, it is determined whether or not the random number generated in step S337 is an odd number. If “YES” in the step S339, that is, if the random number is an odd number, an operation command “speak to the user” is issued in a step S341. For example, the issued operation command causes a synthesized voice such as “Hey” to be output from the speaker 56 provided in the mouth 32. Then, the user A feels as if talking to the robot 10a by listening to the synthesized voice.

また、ステップS339で“NO”であれば、つまり乱数が偶数であれば、ステップS343で「ユーザと同じものを見る」の動作命令を発行する。つまり、ユーザAの行動データにおける、視線判定結果に基づいて、ロボット10aの頭部モータ48および眼球モータ50を駆動させる動作命令を、ロボット10aに付与する。   If “NO” in the step S339, that is, if the random number is an even number, an operation command “view the same as the user” is issued in a step S343. That is, an operation command for driving the head motor 48 and the eyeball motor 50 of the robot 10a is given to the robot 10a based on the line-of-sight determination result in the action data of the user A.

たとえば、ユーザAの視線判定結果が「ロボット」であれば、ロボット10aが自身の胴体28を見るように、頭部モータ48および眼球モータ50を駆動させる動作命令を発行する。また、視線判定結果が「モニタ」であれば、ロボット10aがモニタ16aを見るように、頭部28を動作させる動作命令を発行する。そして、視線判定結果が「アザー」であれば、ロボット10aが周囲をきょろきょろするように、頭部28を動作させる動作命令を発行する。なお、視線判定結果が4パターン以上ある場合には、さらに動作命令が多様化する。また、行動データにおける視線判定結果が空間座標で示される場合には、ロボット10aの空間座標位置と視線判定結果の空間座標位置とに基づいて、ユーザAが注視する対象をより正確に判断して、見るようにしてもよい。   For example, if the user A's line-of-sight determination result is “robot”, the robot 10a issues an operation command for driving the head motor 48 and the eyeball motor 50 so as to look at its body 28. If the line-of-sight determination result is “monitor”, an operation command for operating the head 28 is issued so that the robot 10a looks at the monitor 16a. If the line-of-sight determination result is “other”, an operation command for operating the head 28 is issued so that the robot 10a stumbles around. When there are four or more line-of-sight determination results, the operation commands are further diversified. Further, when the line-of-sight determination result in the behavior data is indicated by spatial coordinates, the target to be watched by the user A is more accurately determined based on the space coordinate position of the robot 10a and the space coordinate position of the line-of-sight determination result. You may make it look.

このように、注意引きつけ処理では、ユーザを見たり、ユーザに声を掛けたり、ユーザと同じものを見たりするようにロボット10を動作させる動作命令がランダムに発行される。そして、このようにロボット10が動作することで、ユーザの注意が引きつけられる。   As described above, in the attention attracting process, an operation command for operating the robot 10 so as to look at the user, speak to the user, or look at the same thing as the user is randomly issued. And the user's attention is attracted by the robot 10 operating in this way.

なお、右腕30Lまたは左腕30Lを動かしてユーザAの注意を引きつけてもようにしてもよい。また、ステップS321,S335,S341およびS343の処理を実行するプロセッサ64は注意引付手段として機能する。   The user A's attention may be drawn by moving the right arm 30L or the left arm 30L. Further, the processor 64 that executes the processes of steps S321, S335, S341, and S343 functions as an attention attracting unit.

以下、図36−図40に示すフロー図において、図35のフローと重複するフローについては、詳細な説明を省略する。   In the flowcharts shown in FIGS. 36 to 40, the detailed description of the same flow as that in FIG. 35 is omitted.

図36には傍参与者的疑似傾聴プログラム316kの処理を示すフロー図が示される。PC14aのプロセッサ64は、ステップS361で行動データを参照する。続いて、ステップS363では、話し始めかを判断する。たとえば、発声カウンタ362で発声時間がカウントされる場合には、発声カウンタ362の値が所定の値(たとえば、2秒を示す値)よりも小さいか否かを判断する。また、行動テーブルにおける発話判定結果に基づいて発声時間が計測されている場合には、発話判定結果が「なし」から「あり」となってから所定回数(たとえば、2回)以内であるか否かを判断する。   FIG. 36 shows a flowchart showing the processing of the by-participant pseudo-listening program 316k. The processor 64 of the PC 14a refers to the behavior data in step S361. Subsequently, in step S363, it is determined whether to start talking. For example, when the utterance time is counted by the utterance counter 362, it is determined whether or not the value of the utterance counter 362 is smaller than a predetermined value (for example, a value indicating 2 seconds). Further, when the utterance time is measured based on the utterance determination result in the action table, whether or not the utterance determination result is within a predetermined number of times (for example, two times) after “None” is changed to “Yes”. Determine whether.

ステップS363で“YES”であれば、つまりユーザAが話し始めていれば、ステップS367で第2積極疑似傾聴処理を実行する。そして、ステップS367の処理が終了すれば、傍参与者的疑似傾聴処理を終了して、上位ルーチンに戻る。なお、第2積極的疑似傾聴処理については、図39に示すフロー図を用いて後述するため、ここでの詳細な説明は省略する。   If “YES” in the step S363, that is, if the user A starts speaking, the second positive pseudo-listening process is executed in a step S367. And if the process of step S367 is complete | finished, an attendant pseudo-listening process will be complete | finished and it will return to a high-order routine. Since the second active pseudo-listening process will be described later with reference to the flowchart shown in FIG. 39, detailed description thereof is omitted here.

また、ステップS363で“NO”であれば、ステップS365でロボット10aを見ているか否かを判断する。つまり、参照されたユーザAの行動データで、視線方向判定が「ロボット」であるか否かを判断する。ステップS365で“YES”であれば、つまりユーザAがロボット10aを見ていれば、ステップS367に進む。一方、ステップS365で“NO”であれば、つまりユーザAがロボット10aを見ていなければ、ステップS369で乱数生成処理を実行し、ステップS371で生成された乱数が奇数であるか否かを判断する。ステップS371で“NO”であれば、つまり乱数が偶数であれば、ステップS367に進む。一方、ステップS371で“YES”であれば、つまり乱数が奇数であれば、ステップS373で第1積極的疑似傾聴処理を実行する。そして、ステップS373の処理が終了すると、傍参与者的疑似傾聴処理を終了して、上位ルーチンに戻る。   If “NO” in the step S363, it is determined whether or not the robot 10a is viewed in a step S365. That is, it is determined whether or not the line-of-sight direction determination is “robot” based on the action data of the user A referred to. If “YES” in the step S365, that is, if the user A is looking at the robot 10a, the process proceeds to a step S367. On the other hand, if “NO” in the step S365, that is, if the user A is not looking at the robot 10a, a random number generation process is executed in a step S369, and it is determined whether or not the random number generated in the step S371 is an odd number. To do. If “NO” in the step S371, that is, if the random number is an even number, the process proceeds to a step S367. On the other hand, if “YES” in the step S371, that is, if the random number is an odd number, the first positive pseudo-listening process is executed in a step S373. Then, when the process of step S373 is finished, the attendant pseudo-listening process is finished, and the process returns to the upper routine.

このように、傍参与者的疑似傾聴処理では、ユーザBに対して疑似傾聴を行う第1疑似傾聴処理と、ユーザAに対して疑似傾聴を行う第2疑似傾聴処理とが、ユーザAの発話や、視線に基づいて選択される。   Thus, in the by-participant pseudo-listening process, the first pseudo-listening process for performing pseudo-listening with respect to the user B and the second pseudo-listening process for performing pseudo-listening with respect to the user A include the utterance of the user A. Or based on the line of sight.

図37には第1積極的疑似傾聴プログラム316mの処理を示すフロー図が示される。PC14aのプロセッサ64は、たとえばステップS373の処理が実行されると、ステップS381で、乱数生成処理を実行し、ステップS383では生成された乱数が奇数であるか否かを判断する。ステップS383で“YES”であれば、つまり乱数が奇数であれば、ステップS385で「モニタ16aに顔を向ける」の動作命令を発行する。つまり、ユーザBの映像が表示されるモニタ16aの方向に、頭部28の頭部方向および眼球34の視線方向が向くように、頭部モータ48および眼球モータ50を駆動させる動作命令を、ロボット10aに付与する。そして、ステップS385の処理が終了すれば、第1積極的疑似傾聴処理を終了して、上位ルーチンに戻る。   FIG. 37 shows a flowchart showing the processing of the first active pseudo-listening program 316m. For example, when the process of step S373 is executed, the processor 64 of the PC 14a executes a random number generation process in step S381, and determines in step S383 whether or not the generated random number is an odd number. If “YES” in the step S383, that is, if the random number is an odd number, an operation command “face to the monitor 16a” is issued in a step S385. That is, an operation command for driving the head motor 48 and the eyeball motor 50 so that the head direction of the head 28 and the line-of-sight direction of the eyeball 34 are directed in the direction of the monitor 16a on which the image of the user B is displayed. To 10a. Then, when the process of step S385 ends, the first active pseudo-listening process ends, and the process returns to the upper routine.

また、ステップS383で“NO”であれば、つまり乱数が偶数であれば、ステップS387で再び乱数生成処理を実行し、ステップS389で乱数が奇数であるか否かを判断する。ステップS389で“YES”であれば、つまり乱数が奇数であればステップS391で「モニタ16a側に体を傾ける」の動作命令を発行する。つまり、体(頭部26および胴体28など)がモニタ16aに傾くように、腰モータ52を駆動させる動作命令を、ロボット10aに付与する。そして、ステップS391の処理が終了すれば、第1積極的疑似傾聴処理を終了して、上位ルーチンに戻る。   If “NO” in the step S383, that is, if the random number is an even number, the random number generation process is executed again in a step S387, and it is determined whether or not the random number is an odd number in a step S389. If “YES” in the step S389, that is, if the random number is an odd number, an operation command “tilt the body toward the monitor 16a” is issued in a step S391. That is, an operation command for driving the waist motor 52 is given to the robot 10a so that the body (the head 26, the torso 28, etc.) is tilted toward the monitor 16a. And if the process of step S391 is complete | finished, a 1st active pseudo-listening process will be complete | finished, and it returns to a high-order routine.

さらに、ステップS389で“NO”であれば、つまり乱数が偶数であれば、ステップS393で「相槌をうつ」の動作命令を発行する。たとえば、人間の相槌のように、スピーカ56から「あー」などの合成音声を出力するとともに、頭部26がモニタ16a側に頷くように頭部モータ48を駆動させる動作命令を、ロボット10aに付与する。そして、ステップS393の処理が終了すれば、第1積極的疑似傾聴処理を終了して、上位ルーチンに戻る。   Further, if “NO” in the step S389, that is, if the random number is an even number, an operation instruction “depress the companion” is issued in a step S393. For example, a synthetic voice such as “Ah” is output from the speaker 56 like a human interaction, and an operation command for driving the head motor 48 so that the head 26 crawls toward the monitor 16a is given to the robot 10a. To do. When the process of step S393 is completed, the first positive pseudo-listening process is terminated, and the process returns to the upper routine.

このように、第1積極的疑似傾聴処理では、相手ユーザの映像が映るモニタ16に対して、ロボット10の顔(頭部26および眼球34の方向)を向けたり、ロボット10の体を傾けたり、相槌をうったりすることで、相手ユーザに対して傾聴しているかのようにロボット10が動作する。そのため、たとえユーザAがユーザBの話を傾聴していなくても、ロボッ10aがユーザBの話を疑似傾聴することで、ユーザBは自身の話を聴いてもらっているように感じることができる。   In this way, in the first active pseudo-listening process, the face of the robot 10 (the direction of the head 26 and the eyeball 34) is directed toward the monitor 16 on which the image of the other user is reflected, or the body of the robot 10 is tilted. The robot 10 operates as if it is listening to the other user by reciprocal. Therefore, even if the user A is not listening to the user B's story, the robot 10a can pseudo-listen to the user B's story, so that the user B can feel as if he / she is listening to his / her own story.

なお、ステップSS275,S295,S315,S373,S385,S391およびS393の処理を実行するプロセッサ64は相手傾聴動作付与手段として機能する。   In addition, the processor 64 which performs the process of step SS275, S295, S315, S373, S385, S391, and S393 functions as an other party listening action provision means.

図38にはユーザ発話抑制プログラム316nの処理を示すフロー図が示される。PC14aのプロセッサ64は、ステップS297の処理が実行されると、ステップS401で、行動データを参照する。続いて、ステップS403では、ステップS365と同様に、ロボット10aを見ているか否かを判断する。ステップ403で“NO”であれば、つまりユーザAがロボット10aを見ていなければ、ステップS405で注意引きつけ処理を実行する。そして、ステップS405の処理が終了すれば、ユーザ発話抑制処理を終了して、発話抑制処理に戻る。なお、ステップS179,S241,S321,S335,S341,S343およびS405の処理を実行するプロセッサ64は興味動作付与手段として機能する。   FIG. 38 is a flowchart showing the processing of the user utterance suppression program 316n. When the process of step S297 is executed, the processor 64 of the PC 14a refers to the action data in step S401. Subsequently, in step S403, as in step S365, it is determined whether or not the robot 10a is being viewed. If “NO” in the step 403, that is, if the user A is not looking at the robot 10a, the attention attracting process is executed in a step S405. And if the process of step S405 is complete | finished, a user utterance suppression process will be complete | finished and it will return to an utterance suppression process. In addition, the processor 64 which performs the process of step S179, S241, S321, S335, S341, S343, and S405 functions as an interest motion giving means.

また、ステップS403で“YES”であれば、つまりユーザAがロボット10aを見ていなければ、ステップS407で乱数生成処理を実行し、ステップS409で乱数が奇数か否かを判断する。ステップS409で“YES”であれば、つまり乱数が奇数であれば、ステップS411で「ユーザを見る」の動作命令を発行する。つまり、ユーザAの方向に、頭部28および眼球34の方向が向くように、頭部モータ48および眼球モータ50を駆動させる動作命令を、ロボット10aに付与する。そして、ステップS411の処理が終了すれば、ユーザ発話抑制処理を終了して、発話抑制処理に戻る。   If “YES” in the step S403, that is, if the user A is not looking at the robot 10a, a random number generation process is executed in a step S407, and it is determined whether or not the random number is an odd number in a step S409. If “YES” in the step S409, that is, if the random number is an odd number, an operation command “view user” is issued in a step S411. That is, an operation command for driving the head motor 48 and the eyeball motor 50 is given to the robot 10a so that the head 28 and the eyeball 34 are directed toward the user A. And if the process of step S411 is complete | finished, a user utterance suppression process will be complete | finished and it will return to an utterance suppression process.

一方、ステップS409で“NO”であれば、ステップS413で乱数生成処理を再度実行し、ステップS415で乱数が奇数であるか否かを判断する。ステップS415で“YES”であれば、つまり乱数が奇数であれば、ステップS417で「発話を止める」の動作命令を発行する。つまり、ステップS417では、発話を止めさせるような合成音声をスピーカ56から出力させる動作命令を、ロボット10aに付与する。また、発話を止めさせるような合成音声とは「ちょっと待って」などである。そして、ステップS417の処理が終了すれば、ユーザ発話抑制処理を終了して、発話抑制処理に戻る。   On the other hand, if “NO” in the step S409, the random number generation process is executed again in a step S413, and it is determined whether or not the random number is an odd number in a step S415. If “YES” in the step S415, that is, if the random number is an odd number, an operation command “stop utterance” is issued in a step S417. That is, in step S417, an operation command for outputting the synthesized voice that stops the speech from the speaker 56 is given to the robot 10a. Synthetic speech that stops speech is “wait a moment”. And if the process of step S417 is complete | finished, a user's speech suppression process will be complete | finished and it will return to a speech suppression process.

さらに、ステップS415で“NO”であれば、つまり乱数が偶数であれば、ステップS419で再び乱数生成処理を実行し、ステップS421で乱数が奇数であるか否かを判断する。ステップS421で“YES”であれば、つまり生成された乱数が奇数であればステップS423で「モニタ16aを指し示す」の動作命令を発行する。つまり、左腕30Lまたは右腕30Rの先端がモニタ16aの方を指し示すように、右腕モータ46Rまたは左腕モータ46Lを駆動させる動作命令を、ロボット10aに付与する。そして、ステップS423の処理が終了すれば、ユーザ発話抑制処理を終了して、発話抑制処理に戻る。   Furthermore, if “NO” in the step S415, that is, if the random number is an even number, the random number generation process is executed again in a step S419, and it is determined whether or not the random number is an odd number in a step S421. If “YES” in the step S421, that is, if the generated random number is an odd number, an operation command “point to the monitor 16a” is issued in a step S423. That is, an operation command for driving the right arm motor 46R or the left arm motor 46L is given to the robot 10a so that the tip of the left arm 30L or the right arm 30R points toward the monitor 16a. And if the process of step S423 is complete | finished, a user utterance suppression process will be complete | finished and it will return to an utterance suppression process.

そして、ステップS421で“NO”であれば、つまり生成された乱数が偶数であれば、ステップS425で注意誘導処理を実行する。また、ステップS425の処理が終了すれば、ユーザ発話抑制処理を終了して、発話抑制処理に戻る。なお、注意誘導処理については、図40に示すフロー図を用いて後述するため、ここでの詳細な説明は省略する。   If “NO” in the step S421, that is, if the generated random number is an even number, the attention guidance process is executed in a step S425. Moreover, if the process of step S425 is complete | finished, a user utterance suppression process will be complete | finished and it will return to an utterance suppression process. Note that the attention guidance process will be described later with reference to the flowchart shown in FIG. 40, and thus detailed description thereof will be omitted.

このように、ユーザ発話抑制処理では、積極的に発話するユーザAに対して、ロボット10aがユーザAを見たり、発話を止める音声を発したり、モニタ16aを指示したり、注意を引きつけたり、注意を誘導したりすることで、発話を抑制する。したがって、一方的に話すユーザの注意が誘導されるため、発話が抑制される。また、ユーザの注意が相手に誘導される場合には、相手が発話する機会を得ることができるため、対話がより持続するようになる。   In this way, in the user utterance suppression process, the robot 10a watches the user A, utters a voice that stops the utterance, instructs the monitor 16a, attracts attention to the user A who speaks actively, Suppress utterances by inducing attention. Accordingly, since the user's attention is guided, the utterance is suppressed. In addition, when the user's attention is guided to the other party, the other party can have an opportunity to speak, and thus the dialogue is further sustained.

なお、ステップS297,S405,S411,S417,S423およびS425の処理を実行するプロセッサ64は発話抑制動作付与手段として機能する。   In addition, the processor 64 which performs the process of step S297, S405, S411, S417, S423, and S425 functions as an utterance suppression operation | movement provision means.

図39には第2積極的疑似傾聴プログラム316pの処理を示すフロー図が示される。PC14aのプロセッサ64は、ステップS367の処理が実行されると、ステップS431で乱数生成処理を実行し、ステップS433で乱数が奇数か否かを判断する。ステップS433で“YES”であれば、つまり乱数が奇数であれば、ステップS435で「ユーザに顔を向ける」の動作命令を発行する。つまり、つまりユーザAの方向に、顔(頭部26および眼球34)の方向が向くように、頭部モータ48および眼球モータ50を駆動させる動作命令を、ロボット10aに付与する。また、ステップS435の処理が終了すれば、第2積極的疑傾聴処理を終了して、傍参与者的疑似傾聴処理に戻る。   FIG. 39 is a flowchart showing the processing of the second active pseudo-listening program 316p. When the process of step S367 is executed, the processor 64 of the PC 14a executes a random number generation process in step S431, and determines whether or not the random number is an odd number in step S433. If “YES” in the step S433, that is, if the random number is an odd number, an operation command “face the user” is issued in a step S435. That is, an operation command for driving the head motor 48 and the eyeball motor 50 is given to the robot 10a so that the face (head 26 and eyeball 34) faces the direction of the user A. Moreover, if the process of step S435 is complete | finished, a 2nd active doubt listening process will be complete | finished, and it will return to a by-participant pseudo-listening process.

一方、ステップS433で“NO”であれば、つまり乱数が偶数であれば、ステップS437で乱数生成処理を実行し、ステップS439で乱数が奇数か否かを再び判断する。ステップS439で“YES”であれば、つまり乱数が奇数であれば、ステップS441で「ユーザA側に体を傾ける」の動作命令を発行する。つまり、ロボット10aの体(頭部26および胴体28)がユーザA側に傾くように、腰モータ52を駆動させる動作命令を、ロボット10aに付与する。   On the other hand, if “NO” in the step S433, that is, if the random number is an even number, a random number generation process is executed in a step S437, and it is determined again whether or not the random number is an odd number in a step S439. If “YES” in the step S439, that is, if the random number is an odd number, an operation command “tilt the user A side” is issued in a step S441. That is, an operation command for driving the waist motor 52 is given to the robot 10a so that the body (head 26 and torso 28) of the robot 10a is inclined toward the user A side.

また、ステップS439で“NO”であれば、つまり乱数が偶数であれば、ステップS443で「相槌をうつ」の動作命令を発行する。つまり、頭部26がユーザA側に頷くように頭部モータ48を駆動させ、人間の相槌のような合成音声をスピーカ56から出力させる動作命令を、ロボット10aに付与する。そして、ステップS443の処理が終了すれば、第2積極的疑似傾聴処理を終了して、傍参与者的疑似傾聴処理に戻る。   If “NO” in the step S439, that is, if the random number is an even number, an operation instruction “depress the companion” is issued in a step S443. That is, the head motor 48 is driven so that the head 26 crawls toward the user A side, and an operation command for outputting synthesized speech like a human interaction from the speaker 56 is given to the robot 10a. And if the process of step S443 is complete | finished, a 2nd positive pseudo-listening process will be complete | finished, and it will return to an attendant pseudo-listening process.

このように、ロボット10aは、ユーザAに対して顔を向けたり、体を傾けたり、相槌をうったりすることで、ユーザAの発話を傾聴しているかのような動作を行う。   In this way, the robot 10a performs an operation as if listening to the user A's utterance by turning his / her face, tilting his / her body, or listening to the user A.

なお、ステップS171,S173,S201,S225,S265,S285,S305,S367,S435,S441およびS443の処理を実行するプロセッサ64は傾聴動作付与手段として機能する。   The processor 64 that executes the processes of steps S171, S173, S201, S225, S265, S285, S305, S367, S435, S441, and S443 functions as a listening operation imparting unit.

図40には注意誘導プログラム316qの処理を示すフロー図が示される。PC14aのプロセッサ64は、ステップS425の処理が実行されると、ステップS451で乱数生成処理を実行し、ステップS453で乱数が奇数であるか否かを判断する。そして、ステップS453で“YES”であれば、つまり乱数が奇数であれば、ステップS455で「モニタ16aを見る」の動作命令を発行する。たとえば、ステップS455では、モニタ16aの方向に、頭部28の頭部方向および眼球34の視線方向が向くように、頭部モータ48および眼球モータ50を駆動させる動作命令を、ロボット10aに付与する。そして、ステップS455の処理が終了すれば、注意誘導処理を終了して、ユーザ発話抑制処理に戻る。   FIG. 40 is a flowchart showing the processing of the attention guidance program 316q. When the process of step S425 is executed, the processor 64 of the PC 14a executes a random number generation process in step S451, and determines whether or not the random number is an odd number in step S453. If “YES” in the step S453, that is, if the random number is an odd number, an operation command “view the monitor 16a” is issued in a step S455. For example, in step S455, an operation command for driving the head motor 48 and the eyeball motor 50 is given to the robot 10a so that the head direction of the head 28 and the line-of-sight direction of the eyeball 34 are directed toward the monitor 16a. . And if the process of step S455 is complete | finished, an attention guidance process will be complete | finished and it will return to a user utterance suppression process.

一方、ステップS453で“NO”であれば、つまり乱数が偶数であれば、ステップS457で乱数生成処理を再度実行し、ステップS459で乱数が奇数であるか否かを判断する。そして、ステップS459で“YES”であれば、つまり乱数が奇数であれば、ステップS455に進む。一方、ステップS459で“NO”であれば、つまり生成された乱数が偶数であれば、ステップS461で、ステップS411と同様に、「ユーザAを見る」の動作命令を発行する。そして、ステップS461の処理が終了すれば、注意誘導処理を終了して、ユーザ発話抑制処理に戻る。   On the other hand, if “NO” in the step S453, that is, if the random number is an even number, the random number generation process is executed again in a step S457, and it is determined whether or not the random number is an odd number in a step S459. If “YES” in the step S459, that is, if the random number is an odd number, the process proceeds to a step S455. On the other hand, if “NO” in the step S459, that is, if the generated random number is an even number, an operation command “view user A” is issued in a step S461 similarly to the step S411. And if the process of step S461 is complete | finished, an attention guidance process will be complete | finished and it will return to a user utterance suppression process.

このように、注意誘導処理が何度か実行されると、ユーザAとモニタ16aとを交互に見るような動作を行うようになるため、ユーザAの注意が誘導される。特に本実施例では、ロボット10aは、ユーザAよりもモニタ16aを見る回数が多くなるように設定されているため、ユーザAの注意はモニタ16a、つまりユーザBに誘導される。また、他の実施例では、注意誘導処理を複数回繰り返すことで、より効果的にユーザAの注意を誘導してもよい。   As described above, when the attention inducing process is executed several times, the user A and the monitor 16a are alternately viewed so that the user A's attention is induced. In particular, in this embodiment, the robot 10a is set so that the number of times of watching the monitor 16a is larger than that of the user A, so that the user A's attention is guided to the monitor 16a, that is, the user B. In another embodiment, the user A's attention may be more effectively guided by repeating the attention guidance process a plurality of times.

なお、ステップS425,S455およびS461の処理を実行するプロセッサ64は注意誘導手段として機能する。   The processor 64 that executes the processes of steps S425, S455, and S461 functions as a caution guiding unit.

図41にはユーザ発話促進プログラム316rの処理を示すフロー図が示される。PC14aのプロセッサ64は、ステップS319の処理が実行されると、ステップS471で「ユーザに質問する」の動作命令を発行する。たとえば、ステップS471では、「今日の食事のことについて聞いてみたら?」などの合成音声を、口32に設けられたスピーカ56から出力されるような動作命令を、ロボット10aに付与する。そして、ステップS471の処理が終了すれば、ユーザ発話促進処理を終了して、発話促進処理に戻る。   FIG. 41 is a flowchart showing the processing of the user utterance promotion program 316r. When the process of step S319 is executed, the processor 64 of the PC 14a issues an operation command “Ask the user a question” in step S471. For example, in step S471, an operation command is output to the robot 10a so that a synthesized voice such as “What should I ask about today's meal?” Is output from the speaker 56 provided in the mouth 32. And if the process of step S471 is complete | finished, a user's speech promotion process will be complete | finished and it will return to a speech promotion process.

このように、ユーザAがユーザBに対して質問をさせるようなことを、ロボット10aが発話することで、ユーザBが発話するようになり、対話が持続するようになる。   Thus, when the robot 10a speaks that the user A asks the user B a question, the user B speaks, and the dialogue continues.

なお、ステップS227,S319およびS471の処理を実行するプロセッサ64は発話促進動作付与手段として機能する。また、ステップS319およびS471の処理を実行するプロセッサ64は発話促し手段として機能する。   Note that the processor 64 that executes the processes of steps S227, S319, and S471 functions as an utterance promoting operation imparting unit. In addition, the processor 64 that executes the processes of steps S319 and S471 functions as a speech prompting unit.

図42にはカメラ制御プログラム318の処理を示すフロー図が示される。PC14aのプロセッサ64は、テレビ電話機能によって通話が始まると、ステップS481でモニタカメラ22aの画像を送信する。つまり、テレビ電話機能において利用される画像データを、ネットワーク200を介してPC14bに送信する。続いて、ステップS483では、興味対象認識結果を参照する。つまり、状態データ354に含まれる、興味対象の認識結果を参照する。   FIG. 42 is a flowchart showing the processing of the camera control program 318. When a call is started by the videophone function, the processor 64 of the PC 14a transmits an image of the monitor camera 22a in step S481. That is, the image data used in the videophone function is transmitted to the PC 14b via the network 200. Subsequently, in step S483, an interest recognition result is referred to. That is, the recognition result of the object of interest included in the state data 354 is referred to.

続いて、ステップS485では、アザー状態か否かを判断する。つまり、ユーザAの興味対象の認識結果が「アザー」であるか否かを判断する。ステップS485で“YES”であれば、つまりユーザAがロボット10aまたはモニタ16aを見ていなければ、ステップS483に戻る。一方、ステップS485で“NO”であれば、つまりユーザAがロボット10aまたはモニタ16aを見ていれば、ステップS487でモニタ状態か否かを判断する。つまり、ユーザAの興味対象がモニタ16であるか否かを判断する。   Subsequently, in step S485, it is determined whether or not the state is the other state. That is, it is determined whether or not the recognition result of the object of interest of the user A is “other”. If “YES” in the step S485, that is, if the user A is not looking at the robot 10a or the monitor 16a, the process returns to the step S483. On the other hand, if “NO” in the step S485, that is, if the user A is looking at the robot 10a or the monitor 16a, it is determined whether or not the monitor state is in a step S487. That is, it is determined whether or not the object of interest of the user A is the monitor 16.

ステップS487で“YES”であれば、つまりユーザAの興味対象がモニタ16aであれば、ステップS489でモニタカメラ22aの画像を送信する。つまり、ユーザAがモニタ16を見ることで、ユーザAの顔がモニタカメラ22aによって正面から撮影されていれば、ステップS489で、モニタカメラ22aの画像をPC14bに送信する。一方、ステップS487で“NO”であれば、つまりユーザAの興味対象がロボット10aであれば、ステップS491で腹部カメラ12aの画像を送信する。つまり、ユーザAがロボット10aを見ることで、ユーザAの顔が腹部カメラ12aによって正面から撮影されていれば、ステップS491で、腹部カメラ12aの画像をPC14bに送信する。   If “YES” in the step S487, that is, if the object of interest of the user A is the monitor 16a, the image of the monitor camera 22a is transmitted in a step S489. That is, if the user A looks at the monitor 16 and the face of the user A is photographed from the front by the monitor camera 22a, the image of the monitor camera 22a is transmitted to the PC 14b in step S489. On the other hand, if “NO” in the step S487, that is, if the object of interest of the user A is the robot 10a, the image of the abdominal camera 12a is transmitted in a step S491. That is, if the user A looks at the robot 10a and the face of the user A is photographed from the front by the abdominal camera 12a, the image of the abdominal camera 12a is transmitted to the PC 14b in step S491.

なお、ステップS489またはステップS491の処理が終了すれば、ステップS483に戻る。また、ステップS489およびS491の処理を実行するプロセッサ64は画像送信手段として機能する。   In addition, if the process of step S489 or step S491 is completed, the process returns to step S483. The processor 64 that executes the processes of steps S489 and S491 functions as an image transmission unit.

これにより、たとえばユーザAの顔が認識されている画像がPC14bに送信されるため、モニタ16bに表示される画像には必ずユーザAの顔が表示されるようになる。そのため、ユーザBは、たとえユーザAがロボット10aに話しかけている状態であったとしても、ユーザB自身に話しかけられているように感じるため、対話が持続するようになる。   Thereby, for example, an image in which the face of the user A is recognized is transmitted to the PC 14b, so that the face of the user A is always displayed in the image displayed on the monitor 16b. Therefore, even if the user A is in a state where the user A is talking to the robot 10a, the user B feels that the user B is talking to the user B himself, so that the dialogue continues.

この実施例によれば、傾聴対話持続システム100は、相手ユーザが表示されるモニタ16、ユーザの音声が集音されるマイク20およびユーザを撮影するモニタカメラ22と接続されるPC14と、腹部カメラ12が設けられるロボット10とを含む。   According to this embodiment, the listening dialogue sustaining system 100 includes a monitor 16 on which the other user is displayed, a microphone 20 on which the user's voice is collected, and a PC 14 connected to the monitor camera 22 that photographs the user, and an abdominal camera. And a robot 10 provided with 12.

PC14では、モニタカメラ22および腹部カメラ12によって撮影されたユーザの画像と、マイク20によって集音された音声とに基づいてユーザの行動が判定され、さらにメモリ68に記憶される。また、PC14では、第1所定時間分の行動データからユーザの状態を認識する。そして、たとえばユーザの状態が「アクティブ・トーク・モニタ」と認識されていれば、ロボット10は、ユーザに対して疑似傾聴を行うように、動作命令がPC14から付与される。また、ユーザの状態が「パッシブ・リッスン・モニタ」と認識されていれば、ロボット10はユーザに対して話しかけるなどして注意を引きつけ、ユーザを対話に参加させる。   In the PC 14, the user's action is determined based on the user's image taken by the monitor camera 22 and the abdominal camera 12 and the sound collected by the microphone 20, and is further stored in the memory 68. Further, the PC 14 recognizes the state of the user from the action data for the first predetermined time. For example, if the user's state is recognized as “active talk monitor”, the robot 10 is given an operation command from the PC 14 so as to perform pseudo-listening to the user. Further, if the user's state is recognized as “passive listen monitor”, the robot 10 draws attention by talking to the user and causes the user to participate in the dialogue.

このように、ユーザの状態に応じてロボット10が対話を持続させるように動作するため、コミュニケーション障害のある者同士の対話を持続させることができる。   Thus, since the robot 10 operates so as to maintain the dialogue according to the state of the user, the dialogue between persons with communication disabilities can be sustained.

なお、腹部カメラ12およびモニタカメラ22以外に、モニタ16およびロボット10以外の位置でユーザの顔を撮影する第3カメラを設置し、その第3カメラによってユーザの興味対象が「アザー」であるか否かの判定を補完的に行うようにしてもよい。つまり、第3カメラによって、ユーザの顔認識が失敗した状態と、ユーザの興味対象が「アザー」である状態とを区別できるようにする。そして、たとえば顔認識が失敗したときの行動データを興味対象認識処理に反映させないようにすることで、傾聴対話持続システム100がユーザの興味対象を精度よく認識できるようにしてもよい。   In addition to the abdominal camera 12 and the monitor camera 22, a third camera that captures the face of the user at a position other than the monitor 16 and the robot 10 is installed, and whether the user's interest is “other” by the third camera. You may make it complementarily determine whether it is no. In other words, the third camera can distinguish between a state in which the user's face recognition has failed and a state in which the user's interest is “other”. Then, for example, by not reflecting the action data when the face recognition fails in the interest recognition process, the listening dialogue sustaining system 100 may recognize the user's interest with high accuracy.

さらに、ユーザの視線方向を特定する第4カメラを設置し、その第4カメラによってユーザの視界にロボット10が入っているか否かの判定を補完的に行うようにしてもよい。そして、傾聴対話持続システム100では、上記判定結果に基づいて、ロボット10による発話や、ユーザの注意の引きつけの必要性が判断されてもよい。たとえば、PC14は、ユーザの視界にロボット10が入っていなければ、ロボット10を必ず発話するように動作させる。一方、PC14は、ユーザの視界にロボット10が入っていれば、ロボット10を必ずユーザの注意の引きつけるように動作させる。   Furthermore, a fourth camera for specifying the user's line-of-sight direction may be installed, and the determination of whether or not the robot 10 is in the user's field of view may be performed complementarily by the fourth camera. Then, in the listening dialogue sustaining system 100, the necessity of utterance by the robot 10 or the user's attention may be determined based on the determination result. For example, if the robot 10 is not in the user's field of view, the PC 14 operates the robot 10 to speak. On the other hand, if the robot 10 is in the user's field of view, the PC 14 always operates the robot 10 so as to attract the user's attention.

このように、カメラを3台以上設置することで、興味対象の認識精度を向上させたり、ロボット10をより効果的に動作させたりすることができる。なお、第3カメラおよび第4カメラの代わりに、1台のカメラで上記2つの判定が行われてもよい。また、より多くのカメラを設置することで、ユーザの行動の判定および状態の認識の精度を向上させたり、ロボット10に付与される動作命令の判断をより高度なものにしたりしてもよい。   In this way, by installing three or more cameras, it is possible to improve the recognition accuracy of the object of interest or to operate the robot 10 more effectively. Note that the above two determinations may be performed by one camera instead of the third camera and the fourth camera. Further, by installing more cameras, it is possible to improve the accuracy of the determination of the user's action and the recognition of the state, or to make the determination of the operation command given to the robot 10 more advanced.

また、他の実施例は、PC14がロボット10に内蔵されていてもよく、この場合にロボット10は自律的に傾聴動作や発話機能を実行する。また、この場合、ロボット10は、ユーザのようなコミュニケーションの対象(コミュニケーション対象)との間で、身振り手振りのような身体動作および音声の少なくとも一方を含むコミュニケーション行動を実行する機能を有する相互作用指向のロボット(コミュニケーションロボット)であってもよい。   In another embodiment, the PC 14 may be built in the robot 10, and in this case, the robot 10 autonomously performs a listening operation and a speech function. Further, in this case, the robot 10 has an interaction-oriented function having a function of executing a communication action including at least one of a body motion such as gesture gesture and a voice with a communication target (communication target) such as a user. Or a robot (communication robot).

また、PC14およびネットワーク200を利用せずに電話網などを介して、ユーザの画像と音声とがPC14に送受信されてもよい。また、電話機能をモニタ16などが有していれば、PC14を利用せずに、モニタ16、スピーカ18、マイク20およびモニタカメラ22のみでテレビ電話機の機能が実現されてもよい。そして、モニタ16、スピーカ18、マイク20およびモニタカメラ22が同一の筐体に組み込まれてもよい。さらに、この場合、ロボット10とテレビ電話機とが接続された状態で、テレビ電話の通話が開始される。   Further, the user's image and sound may be transmitted to and received from the PC 14 via a telephone network or the like without using the PC 14 and the network 200. If the monitor 16 or the like has a telephone function, the video phone function may be realized by using only the monitor 16, the speaker 18, the microphone 20, and the monitor camera 22 without using the PC 14. And the monitor 16, the speaker 18, the microphone 20, and the monitor camera 22 may be integrated in the same housing | casing. Further, in this case, a videophone call is started with the robot 10 and the videophone connected.

また、PC14に代えて、サーバ24によってユーザの行動および状態が判定および認識され、ロボット10に対して動作命令を付与するようにしてもよい。この場合、腹部カメラ12およびモニタカメラ22によって撮影された画像と、マイク20によって集音された音声とはサーバ24に直接送信され、ロボット10はサーバ24からの動作命令に従って動作する。さらに、ユーザの状態を認識する処理だけが、サーバ24で実行されてもよい。つまり、図22−図25に示す処理がサーバ24のプロセッサ80によって実行され、PC14は第1所定時間毎に状態認識結果を取得する。   Further, instead of the PC 14, the user's action and state may be determined and recognized by the server 24, and an operation command may be given to the robot 10. In this case, the image captured by the abdominal camera 12 and the monitor camera 22 and the sound collected by the microphone 20 are directly transmitted to the server 24, and the robot 10 operates according to an operation command from the server 24. Further, only the process for recognizing the user state may be executed by the server 24. That is, the processing shown in FIGS. 22 to 25 is executed by the processor 80 of the server 24, and the PC 14 acquires the state recognition result every first predetermined time.

また、傾聴対話持続システム100の他の実施例としては、ユーザAおよびユーザBの状態認識結果によらず、ユーザAの状態データのみに基づいてロボット10aが「疑似傾聴動作」、「発話制御動作」および「注意の引きつけの動作」を行ってもよい。たとえば、ユーザAが発話すれば、ロボット10aが疑似傾聴動作を行い、ユーザAの発声時間が長くなれば、ロボット10aがユーザAを見ることで発話を抑制する。そして、ユーザAが発話していなかったり、モニタ16aおよびロボット10aを見ていなかったりすれば、ロボット10aはユーザAの注意を引きつける動作を行う。   As another example of the listening dialogue sustaining system 100, the robot 10 a performs “pseudo-listening operation”, “utterance control operation” based on only the state data of the user A regardless of the state recognition results of the user A and the user B. And “attracting attention” may be performed. For example, if the user A speaks, the robot 10a performs a pseudo-listening operation, and if the speaking time of the user A becomes longer, the robot 10a looks at the user A and suppresses the utterance. If the user A is not speaking or is not looking at the monitor 16a and the robot 10a, the robot 10a performs an operation to attract the user A's attention.

そして、状態データは行動データと同様、図6に示すテーブルのような形式で記憶されてもよい。また、状態データがテーブル形式で記憶される際には、ユーザの状態変化を示すログデータとして利用されてもよい。そして、状態データのテーブルに基づいて作成されるグラフが、モニタ16に表示されてもよい。   And state data may be memorize | stored in the format like the table shown in FIG. 6 similarly to action data. Further, when the state data is stored in a table format, it may be used as log data indicating a user state change. A graph created based on the state data table may be displayed on the monitor 16.

10a,10b …ロボット
12a,12b …腹部カメラ
14a,14b …PC
16a,16b …モニタ
20a,20b …マイク
22a,22b …モニタカメラ
24 …サーバ
26 …頭部
28 …胴体
30R …右腕
30L …左腕
32 …口
34 …眼球
46R …右腕モータ
46L …左腕モータ
48 …頭部モータ
50 …眼球モータ
52 …腰モータ
56 …スピーカ
64 …プロセッサ
68 …メモリ
70 …視線サーバ
72 …通信LANボード
70 …無線通信装置
100 …傾聴対話持続システム
200 …ネットワーク
10a, 10b ... Robot 12a, 12b ... Abdominal camera 14a, 14b ... PC
16a, 16b ... monitor 20a, 20b ... microphone 22a, 22b ... monitor camera 24 ... server 26 ... head 28 ... trunk 30R ... right arm 30L ... left arm 32 ... mouth 34 ... eyeball 46R ... right arm motor 46L ... left arm motor 48 ... head Motor 50 ... Eye motor 52 ... Waist motor 56 ... Speaker 64 ... Processor 68 ... Memory 70 ... Line of sight server 72 ... Communication LAN board 70 ... Wireless communication device 100 ... Listening dialogue sustaining system 200 ... Network

Claims (14)

第1カメラおよびマイクを含むテレビ電話機およびロボットを含む、傾聴対話持続システムであって、
前記第1カメラによって撮影された画像および前記マイクによって集音された音声に基づいて、ユーザの行動を判定する判定手段、
前記判定手段によって判定された第1所定時間分の行動から、前記ユーザの状態を認識する認識手段、および
前記認識手段によって認識された前記ユーザの状態に基づいて、対話を持続させるように前記ロボットを動作させる動作付与手段を備える、傾聴対話持続システム。
A listening dialogue sustaining system comprising a video phone and a robot including a first camera and a microphone,
Determining means for determining a user's action based on an image captured by the first camera and sound collected by the microphone;
Recognizing means for recognizing the state of the user from the action for the first predetermined time determined by the determining means, and the robot so as to maintain the conversation based on the state of the user recognized by the recognizing means. A listening dialogue sustaining system, comprising an action imparting means for operating the device.
前記認識手段は、対話に対する積極的および非積極的を認識する積極性認識手段を含み、
前記動作付与手段は、前記積極性認識手段の認識結果に基づき、前記ユーザに対する疑似傾聴を前記ロボットに行わせる傾聴動作付与手段を含む、請求項1記載の傾聴対話持続システム。
The recognizing means includes positive recognition means for recognizing active and inactive dialogues,
2. The listening dialogue sustaining system according to claim 1, wherein the motion giving unit includes a listening motion giving unit that causes the robot to perform a pseudo-listening to the user based on a recognition result of the positiveness recognition unit.
前記認識手段は、対話における聴取側状態および話手側状態を認識する話者状態認識手段をさらに含み、
前記ユーザまたは相手の発声時間を計測する計測手段をさらに備え、
前記動作付与手段は、前記計測手段によって計測された発声時間に基づき、前記ユーザの発話を制御するように、前記ロボットを動作させる発話制御動作付与手段をさらに含む、請求項1または2記載の傾聴対話持続システム。
The recognizing means further includes a speaker state recognizing means for recognizing a listener side state and a speaker side state in a dialogue,
It further comprises measuring means for measuring the utterance time of the user or the other party,
3. The listening according to claim 1, wherein the action giving unit further includes an utterance control action giving unit that moves the robot so as to control the user's utterance based on the utterance time measured by the measuring unit. Dialog persistence system.
前記発話制御手段は、前記積極性認識手段によって積極的と認識され、かつ話者状態認識手段によって話手側状態と認識される積極的発話状態であり、かつ発声時間が閾値以上になったとき、前記ユーザの発話が抑制されるように、前記ロボットを動作させる発話抑制動作付与手段を含む、請求項3記載の傾聴対話持続システム。   The utterance control means is an active utterance state that is recognized as active by the aggressiveness recognition means and is recognized as a speaker side state by the speaker state recognition means, and when the utterance time exceeds a threshold value, The listening dialogue sustaining system according to claim 3, further comprising an utterance suppression operation giving unit that operates the robot so that the user's utterance is suppressed. 前記発話抑制動作付与手段は、前記ユーザの注意を誘導するように、前記ロボットを動作させる注意誘導手段を含む、請求項4記載の傾聴対話持続システム。   5. The listening dialogue sustaining system according to claim 4, wherein the utterance suppression operation giving unit includes a caution induction unit that operates the robot so as to guide the user's attention. 前記発話制御手段は、前記積極性認識手段によって積極的と認識され、かつ話者状態認識手段によって聴取側状態と認識される積極的聴取側状態であるとき、前記ユーザの発話が促進されるように、前記ロボットを動作させる発話促進動作付与手段をさらに含む、請求項3ないし5のいずれかに記載の傾聴対話持続システム。   When the utterance control means is in an active listening state that is recognized as active by the positiveness recognition means and is recognized as a listening state by the speaker state recognition means, the utterance of the user is promoted. The listening dialogue sustaining system according to any one of claims 3 to 5, further comprising an utterance promotion operation giving means for operating the robot. 前記動作付与手段は、前記積極性認識手段によって非積極的と認識されたとき、前記ユーザを対話に参加させるように、前記ロボットを動作させる参加動作付与手段をさらに含む、請求項2ないし5のいずれかに記載の傾聴対話持続システム。   6. The operation giving means further includes participation action giving means for operating the robot so that the user participates in a dialogue when the action recognition means is recognized as inactive by the positiveness recognition means. Listening dialog system described in Crab. 前記参加動作付与手段は、前記ユーザの注意を引きつけるように前記ロボットを動作させる注意引付手段を含む、請求項7記載の傾聴対話持続システム。   The listening dialogue sustaining system according to claim 7, wherein the participation motion giving means includes attention attracting means for operating the robot to attract the user's attention. 前記参加動作付与手段は、前記ユーザの発話を促すように前記ロボットを動作させる、発話促し手段をさらに含む、請求項7または8記載の傾聴対話持続システム。   The listening dialogue sustaining system according to claim 7 or 8, wherein the participation motion giving unit further includes an utterance prompting unit that operates the robot so as to prompt the user to speak. 前記ロボットが接続されるネットワーク、
前記ネットワークに接続されるサーバ、
前記判定手段によって判定されたユーザの行動を前記サーバに送信する送信手段、および
前記サーバから相手ユーザの行動を取得する取得手段をさらに備え、
前記動作付与手段は、前記取得手段によって取得された相手ユーザの行動とユーザの行動とに基づき、前記相手ユーザに対する疑似傾聴を前記ロボットに行わせる相手傾聴動作付与手段をさらに含む、請求項1ないし9のいずれかに記載の傾聴対話持続システム。
A network to which the robot is connected;
A server connected to the network;
A transmission means for transmitting the action of the user determined by the determination means to the server; and an acquisition means for acquiring the action of the other user from the server,
The said action provision means further contains the other party listening action provision means which makes the said robot perform pseudo-listening with respect to the said other party user based on the other party's action acquired by the said acquisition means, and a user's action. 9. The listening dialogue sustaining system according to any of 9
前記認識手段は、前記ユーザの興味対象を認識する興味対象認識手段をさらに含み、
前記動作付与手段は、前記興味対象認識手段による認識結果に基づき、前記ユーザが対話に興味を持つように、前記ロボットを動作させる興味動作付与手段をさらに含む、請求項1ないし10のいずれかに記載の対話傾聴持続システム。
The recognition means further includes an interest object recognition means for recognizing the interest object of the user,
11. The action giving means further includes an interest action giving means for operating the robot so that the user is interested in a dialogue based on a recognition result by the interest object recognition means. The dialogue listening and sustaining system described.
前記ロボットは、第2カメラを含み、
前記第1カメラおよび第2カメラによるそれぞれの画像に対して顔認識処理を実行する顔認識手段をさらに備え、
前記興味対象認識手段は、前記顔認識手段による第2所定時間分の顔認識結果から第1カメラの第1認識率を算出する第1認識率算出手段、前記顔認識手段による第2所定時間分の顔認識結果から第2カメラの第2認識率を算出する第2認識率算出手段および前記第1認識率と前記第2認識率とに基づいて認識結果を設定する設定手段を含む、請求項11記載の対話傾聴持続システム。
The robot includes a second camera;
Face recognition means for executing face recognition processing on each of the images from the first camera and the second camera;
The interesting object recognition means includes a first recognition rate calculation means for calculating a first recognition rate of the first camera from a face recognition result for a second predetermined time by the face recognition means, and a second predetermined time by the face recognition means. And a setting means for setting a recognition result based on the first recognition rate and the second recognition rate. 11. The dialogue listening and sustaining system according to 11.
前記設定手段によって設定された興味対象に基づいて前記第1カメラまたは前記第2カメラの画像のどちらか一方を送信する画像送信手段をさらに備える、請求項12記載の対話傾聴持続システム。   13. The dialogue listening sustaining system according to claim 12, further comprising image transmission means for transmitting either the image of the first camera or the second camera based on the object of interest set by the setting means. 前記判定手段は、前記ユーザの姿勢を判定する姿勢判定手段、前記ユーザの発話の有無を判定する発話判定手段、前記ユーザの頭部方向を判定する頭部方向判定手段、前記ユーザの視線方向を判定する視線方向判定手段、前記ユーザの頷きの有無を判定する頷き判定手段および前記ユーザの相槌を判定する相槌判定手段を含み、
前記ユーザの行動は、姿勢判定結果、発話判定結果、頭部方向判定結果、視線方向判定結果、頷き判定結果および相槌判定結果に基づいて決定される、請求項1ないし13のいずれかに記載の対話傾聴持続システム。
The determination unit includes a posture determination unit that determines the posture of the user, an utterance determination unit that determines the presence or absence of the user's utterance, a head direction determination unit that determines the head direction of the user, and a gaze direction of the user. Gaze direction determining means for determining;
The said user action is determined based on a posture determination result, an utterance determination result, a head direction determination result, a gaze direction determination result, a whisper determination result, and a conflict determination result. Interactive listening system.
JP2009252276A 2009-11-02 2009-11-02 Listening dialog system Active JP5407069B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009252276A JP5407069B2 (en) 2009-11-02 2009-11-02 Listening dialog system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009252276A JP5407069B2 (en) 2009-11-02 2009-11-02 Listening dialog system

Publications (2)

Publication Number Publication Date
JP2011097531A true JP2011097531A (en) 2011-05-12
JP5407069B2 JP5407069B2 (en) 2014-02-05

Family

ID=44113936

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009252276A Active JP5407069B2 (en) 2009-11-02 2009-11-02 Listening dialog system

Country Status (1)

Country Link
JP (1) JP5407069B2 (en)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012244285A (en) * 2011-05-17 2012-12-10 Nippon Telegr & Teleph Corp <Ntt> Conference device, conference method, and conference program
JP2015184597A (en) * 2014-03-25 2015-10-22 国立大学法人埼玉大学 Communication Support robot system
WO2016031405A1 (en) * 2014-08-26 2016-03-03 学校法人塚本学院 大阪芸術大学 Device for supporting everyday life of patients with cerebral dysfunction
JP2017164319A (en) * 2016-03-16 2017-09-21 国立大学法人電気通信大学 Video chat robot system, hand delivery play control method and program
JP2018050161A (en) * 2016-09-21 2018-03-29 公立大学法人首都大学東京 Communication system
WO2018056169A1 (en) * 2016-09-21 2018-03-29 日本電気株式会社 Interactive device, processing method, and program
JP2019018336A (en) * 2017-07-18 2019-02-07 パナソニックIpマネジメント株式会社 Device, method, program, and robot
JP2019072787A (en) * 2017-10-13 2019-05-16 シャープ株式会社 Control device, robot, control method and control program
JP2021044723A (en) * 2019-09-12 2021-03-18 富士通株式会社 Visual line information processing program, information processing device, and visual line processing method

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09185488A (en) * 1995-12-27 1997-07-15 Tetsuya Fuchiguchi Multimedia doll system
JPH11289523A (en) * 1995-02-16 1999-10-19 Sumitomo Electric Ind Ltd Bidirectional interactive system
JP2001162573A (en) * 1999-12-08 2001-06-19 Fujitsu Ltd Robot device
JP2002261966A (en) * 2000-09-08 2002-09-13 Matsushita Electric Works Ltd Communication support system and photographing equipment
JP2007336445A (en) * 2006-06-19 2007-12-27 Nippon Telegr & Teleph Corp <Ntt> Conversation support system
JP2009106325A (en) * 2007-10-26 2009-05-21 Advanced Telecommunication Research Institute International Communication induction system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11289523A (en) * 1995-02-16 1999-10-19 Sumitomo Electric Ind Ltd Bidirectional interactive system
JPH09185488A (en) * 1995-12-27 1997-07-15 Tetsuya Fuchiguchi Multimedia doll system
JP2001162573A (en) * 1999-12-08 2001-06-19 Fujitsu Ltd Robot device
JP2002261966A (en) * 2000-09-08 2002-09-13 Matsushita Electric Works Ltd Communication support system and photographing equipment
JP2007336445A (en) * 2006-06-19 2007-12-27 Nippon Telegr & Teleph Corp <Ntt> Conversation support system
JP2009106325A (en) * 2007-10-26 2009-05-21 Advanced Telecommunication Research Institute International Communication induction system

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012244285A (en) * 2011-05-17 2012-12-10 Nippon Telegr & Teleph Corp <Ntt> Conference device, conference method, and conference program
JP2015184597A (en) * 2014-03-25 2015-10-22 国立大学法人埼玉大学 Communication Support robot system
WO2016031405A1 (en) * 2014-08-26 2016-03-03 学校法人塚本学院 大阪芸術大学 Device for supporting everyday life of patients with cerebral dysfunction
JP2017164319A (en) * 2016-03-16 2017-09-21 国立大学法人電気通信大学 Video chat robot system, hand delivery play control method and program
JP2018050161A (en) * 2016-09-21 2018-03-29 公立大学法人首都大学東京 Communication system
WO2018056169A1 (en) * 2016-09-21 2018-03-29 日本電気株式会社 Interactive device, processing method, and program
JP2019018336A (en) * 2017-07-18 2019-02-07 パナソニックIpマネジメント株式会社 Device, method, program, and robot
JP7075168B2 (en) 2017-07-18 2022-05-25 パナソニックホールディングス株式会社 Equipment, methods, programs, and robots
JP2019072787A (en) * 2017-10-13 2019-05-16 シャープ株式会社 Control device, robot, control method and control program
JP2021044723A (en) * 2019-09-12 2021-03-18 富士通株式会社 Visual line information processing program, information processing device, and visual line processing method
JP7284401B2 (en) 2019-09-12 2023-05-31 富士通株式会社 Line-of-sight information processing program, information processing device, and line-of-sight information processing method

Also Published As

Publication number Publication date
JP5407069B2 (en) 2014-02-05

Similar Documents

Publication Publication Date Title
JP5407069B2 (en) Listening dialog system
JP7190434B2 (en) Automatic control of wearable display devices based on external conditions
JP5688574B2 (en) Robot with tactile display
CN109120790B (en) Call control method and device, storage medium and wearable device
JP6203696B2 (en) robot
KR20070029794A (en) A method and a system for communication between a user and a system
KR20180068975A (en) Information processing system, and information processing method
JP7012953B2 (en) Sensory stimulation presentation system, program and method
CN109698021B (en) Method for operating a medical image acquisition device and image acquisition device
WO2018173383A1 (en) Information processing device, information processing method, and program
WO2020115972A1 (en) Information processing apparatus, information processing method and program
JP7120060B2 (en) VOICE DIALOGUE DEVICE, CONTROL DEVICE AND CONTROL PROGRAM FOR VOICE DIALOGUE DEVICE
JP2019106220A (en) Program executed by computer to provide virtual space via head mount device, method, and information processing device
US20180197564A1 (en) Information processing apparatus, information processing method, and program
WO2022091832A1 (en) Information processing device, information processing system, information processing method, and information processing terminal
JP2012010856A (en) State recognition device, listening interaction continuing system, state recognition program and state recognition method
US20230390608A1 (en) Systems and methods including ear-worn devices for vestibular rehabilitation exercises
JP2019208167A (en) Telepresence system
US11816886B1 (en) Apparatus, system, and method for machine perception
JP2019023768A (en) Information processing apparatus and video display device
US20240089539A1 (en) System, apparatus, and method for broadcasting content
JP7313523B1 (en) Program and information processing system
CN113438303B (en) Remote auxiliary work system and method, electronic equipment and storage medium
WO2021100515A1 (en) Information processing device and information processing method
JP2024062266A (en) EMPATHY ASSISTANCE SYSTEM, EMPATHY ASSISTANCE DEVICE, AND EMPATHY ASSISTANCE PROGRAM

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120928

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130822

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130902

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131008

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131015

R150 Certificate of patent or registration of utility model

Ref document number: 5407069

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250