JP2017123027A - Conversation support system, conversation support device, and conversation support program - Google Patents

Conversation support system, conversation support device, and conversation support program Download PDF

Info

Publication number
JP2017123027A
JP2017123027A JP2016001340A JP2016001340A JP2017123027A JP 2017123027 A JP2017123027 A JP 2017123027A JP 2016001340 A JP2016001340 A JP 2016001340A JP 2016001340 A JP2016001340 A JP 2016001340A JP 2017123027 A JP2017123027 A JP 2017123027A
Authority
JP
Japan
Prior art keywords
utterance
speaker
next speaker
participant
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016001340A
Other languages
Japanese (ja)
Other versions
JP6445473B2 (en
Inventor
亮 石井
Akira Ishii
亮 石井
和弘 大塚
Kazuhiro Otsuka
和弘 大塚
史朗 熊野
Shiro Kumano
史朗 熊野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016001340A priority Critical patent/JP6445473B2/en
Publication of JP2017123027A publication Critical patent/JP2017123027A/en
Application granted granted Critical
Publication of JP6445473B2 publication Critical patent/JP6445473B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To provide a conversation support system, a conversation support device, and a conversation support program that encourage a participant of a conversation who has missed a chance to speak at an appropriate timing in the conversation to speak.SOLUTION: In a conversation support system 100, a next speaker probability estimation unit 108 estimates a probability with which a participant of a conversation will become the next speaker at an arbitrary time based on the result of measuring the non-verbal behavior of the participant in the conversation. A control unit 109 estimates an anticipated next speaker, who is a participant to speak next, based on the probability of each participant becoming the next speaker, and a timing when the anticipated next speaker starts to speak, and promotes the anticipated next speaker to speak if the control unit has determined that the anticipated next speaker did not speak at the estimated timing. Speech inducing units 111 to 119 receive an instruction from the control unit and promote a subject to speak.SELECTED DRAWING: Figure 1

Description

本発明は、会話支援システム、会話支援装置及び会話支援プログラムに関する。   The present invention relates to a conversation support system, a conversation support apparatus, and a conversation support program.

会話の参加者が適切なタイミングで発話すると、良い雰囲気で会話が進行する。会話の目的は様々であるが、良い雰囲気の会話はその目的の達成に効果的であり、参加者の満足度も高い。しかしながら、会話中に適切なタイミングで発話することは、高度なコミュニケーションスキルを要する。そのため、発話が期待される場面でも、発話のタイミングをつかむことが苦手であるために、あるいは、他の参加者が先に話し出してしまったために、発話の機会を逃してしまう参加者もいる。また、会話の雰囲気から最も発話すべきと期待される参加者が発話を行わないときには、他の参加者もその参加者の発話を待って発話を躊躇してしまい、結果として会話が止まってしまうことがある。   When a conversation participant speaks at an appropriate time, the conversation proceeds in a good atmosphere. The purpose of the conversation is various, but conversation with a good atmosphere is effective in achieving the purpose, and the satisfaction of participants is high. However, speaking at an appropriate time during a conversation requires advanced communication skills. Therefore, even in a scene where utterance is expected, some participants miss the opportunity to speak because they are not good at grasping the timing of utterance or because other participants have spoken first. In addition, when the participant who is expected to speak most from the atmosphere of the conversation does not speak, the other participants wait for the participant's speech and hesitate to speak, and as a result, the conversation stops. Sometimes.

一方、会議において次話者に発話を行わせる技術がある。この技術では、多人数TV(テレビ)会議において、身体動作や発話情報から各参加者の発話欲求を推定し、その欲求に基づいて次の次話者を決定する。そして、その次話者に確実に発話を行わせるために、その人物のフィラーなどを他の参加者に聞かせる制御を行う。また、多人数TV会議において、万人が隔たりなく発話できるように、発言が多い人物を検出し、その人物の発話を抑制するように音声を生成する技術がある(例えば、特許文献2参照)。   On the other hand, there is a technique for making the next speaker speak in a conference. In this technology, in a multi-person TV (television) conference, the utterance desire of each participant is estimated from physical motion and utterance information, and the next next speaker is determined based on the desire. Then, in order to make the next speaker surely speak, control is performed to let other participants hear the filler of the person. In addition, in a multi-person TV conference, there is a technique for detecting a person with many utterances and generating voice so as to suppress the utterance of the person so that everyone can speak without any difference (see, for example, Patent Document 2). .

特開2012−146072号公報JP 2012-146072 A 特開2007−158526号公報JP 2007-158526 A

上述した特許文献1の技術は、システムが次話者にしようとした参加者以外の発話開始を阻止するものであり、特許文献2の技術は、特定の参加者の発話を阻止(妨害)することで、他の参加者の発話を促進するものである。しかし、これらの従来技術は、参加者が発話のタイミングを逸してしまったときに、その参加者や他の参加者に発話を促すものではない。   The technique of Patent Document 1 described above prevents the start of utterances by a system other than the participant who tried to be the next speaker, and the technique of Patent Document 2 blocks (disturbs) the speech of a specific participant. This is to promote the speech of other participants. However, these conventional techniques do not prompt the participant or other participants to speak when the participant misses the timing of speaking.

上記事情に鑑み、本発明は、会話の参加者が会話中に適切な発話のタイミングを逸してしまったときに、発話を促すことができる会話支援システム、会話支援装置及び会話支援プログラムを提供することを目的としている。   In view of the above circumstances, the present invention provides a conversation support system, a conversation support apparatus, and a conversation support program capable of prompting an utterance when a participant of the conversation misses an appropriate utterance timing during the conversation. The purpose is that.

本発明の一態様は、会話中の各参加者の非言語行動の計測結果に基づいて、前記参加者それぞれが任意の時刻に次発話となる確率である次話者確率を推定する次話者確率推定部と、前記参加者の前記次話者確率に基づいて次に発話を行うべき参加者である予測次話者及び前記予測次話者が発話を開始するタイミングを推定し、推定された前記タイミングに前記予測次話者が発話を行わなかったことを検出した場合に、前記予測次話者を対象者として発話を促すよう指示する制御部と、前記制御部からの指示を受け、前記対象者に発話を促す処理を行う発話誘導部と、を備える会話支援システムである。   One aspect of the present invention is a next speaker that estimates a next speaker probability, which is a probability that each of the participants becomes a next utterance at an arbitrary time, based on a measurement result of non-verbal behavior of each participant in conversation. Based on the probability estimation unit and the next speaker probability of the participant, a predicted next speaker who is a participant to speak next and a timing at which the predicted next speaker starts speaking are estimated and estimated. When it is detected that the predicted next speaker does not speak at the timing, a control unit that instructs the predicted next speaker to be uttered as a target, and receives an instruction from the control unit, A conversation support system including an utterance guidance unit that performs processing for prompting a subject to speak.

本発明の一態様は、上述した会話支援システムであって、前記制御部は、推定された前記タイミングに前記予測次話者が発話を行わなかったことを検出した場合に、前記次話者以外の話者を対象者として発話を促すよう前記発話誘導部に指示する。   One aspect of the present invention is the above-described conversation support system, in which the control unit detects a speech other than the next speaker when the predicted next speaker does not speak at the estimated timing. The utterance guidance unit is instructed to urge utterance with the speaker as the target person.

本発明の一態様は、上述した会話支援システムであって、前記発話誘導部は、前記対象者に発話権の移譲を示す動作を行うようロボットを、又は、表示装置に表示される話者を制御する。   One aspect of the present invention is the conversation support system described above, in which the utterance guide unit selects a robot or a speaker displayed on a display device to perform an operation indicating transfer of the utterance right to the target person. Control.

本発明の一態様は、上述した会話支援システムであって、前記発話誘導部は、前記対象者に視線を向けるようロボットの、又は、表示装置に表示される話者の眼、頭部、又は、胴部のうち1以上を制御する。   One aspect of the present invention is the conversation support system described above, in which the utterance guiding unit is a robot or a speaker's eye, head, or display displayed on a display device so as to direct a line of sight toward the subject. Control one or more of the body parts.

本発明の一態様は、上述した会話支援システムであって、前記発話誘導部は、ロボットの、又は、表示装置に表示される話者の上肢を前記対象者に差し出すよう制御する。   One aspect of the present invention is the above-described conversation support system, in which the utterance guide unit controls the robot or the speaker's upper limb displayed on the display device to be presented to the subject.

本発明の一態様は、上述した会話支援システムであって、前記発話誘導部は、前記対象者の発話を促す音声を出力する。   One aspect of the present invention is the above-described conversation support system, in which the utterance guiding unit outputs a voice that urges the subject to speak.

本発明の一態様は、会話中の各参加者の非言語行動の計測結果に基づいて、前記参加者それぞれが任意の時刻に次発話となる確率である次話者確率を推定する次話者確率推定部と、前記参加者の前記次話者確率に基づいて次に発話を行うべき参加者である予測次話者及び前記予測次話者が発話を開始するタイミングを推定し、推定された前記タイミングに前記予測次話者が発話を行わなかったことを検出した場合に、発話を促す処理を行う発話誘導部に、前記予測次話者を対象者として発話を促すよう指示する制御部と、を備える会話支援装置である。   One aspect of the present invention is a next speaker that estimates a next speaker probability, which is a probability that each of the participants becomes a next utterance at an arbitrary time, based on a measurement result of non-verbal behavior of each participant in conversation. Based on the probability estimation unit and the next speaker probability of the participant, a predicted next speaker who is a participant to speak next and a timing at which the predicted next speaker starts speaking are estimated and estimated. A control unit that instructs the utterance guiding unit that performs the process of prompting the utterance to prompt the utterance with the predicted next speaker as the target person when it is detected that the predicted next speaker has not uttered at the timing; , A conversation support device.

本発明の一態様は、コンピュータに、会話中の各参加者の非言語行動の計測結果に基づいて、前記参加者それぞれが任意の時刻に次発話となる確率である次話者確率を推定する次話者確率推定ステップと、前記参加者の前記次話者確率に基づいて次に発話を行うべき参加者である予測次話者及び前記予測次話者が発話を開始するタイミングを推定し、推定された前記タイミングに前記予測次話者が発話を行わなかったことを検出した場合に、発話を促す処理を行う発話誘導部に、前記予測次話者を対象者として発話を促すよう指示する制御ステップと、を実行させるための会話支援プログラムである。   According to one aspect of the present invention, a computer estimates a next speaker probability, which is a probability that each participant will make a next utterance at an arbitrary time, based on a measurement result of non-verbal behavior of each participant in conversation. A next speaker probability estimating step, and estimating a timing at which the predicted next speaker and the predicted next speaker who are to be uttered next based on the next speaker probability of the participant start utterance, When it is detected that the predicted next speaker does not speak at the estimated timing, an instruction is given to the speech guidance unit that performs processing for prompting speech to promote the speech with the predicted next speaker as the target person. And a control step for executing a control step.

本発明により、会話の参加者が会話中に適切な発話のタイミングを逸してしまったときに、発話を促すことができる。   According to the present invention, when a participant of a conversation misses an appropriate utterance timing during the conversation, the utterance can be prompted.

第1の実施形態におけるロボット100が備える機能構成の概略を示す図である。It is a figure which shows the outline of a function structure with which the robot 100 in 1st Embodiment is provided. 第1の実施形態におけるセンサ103の具体的な構成例を示す図である。It is a figure which shows the specific structural example of the sensor 103 in 1st Embodiment. 第1の実施形態における次話者確率推定部108が出力する次話者確率Pns (t)の例を示す図である。It is a diagram illustrating an example of the next speaker probability P ns i output by the next speaker probability estimation unit 108 (t) in the first embodiment. 第1の実施形態における音制御部110の構成の詳細の具体例を示す図である。It is a figure which shows the specific example of the detail of a structure of the sound control part 110 in 1st Embodiment. 第1の実施形態におけるロボット100の外観及び構成の具体例を示す図である。It is a figure which shows the specific example of the external appearance and structure of the robot 100 in 1st Embodiment. 第1の実施形態におけるロボット100の動作を示すフロー図である。It is a flowchart which shows operation | movement of the robot 100 in 1st Embodiment. 第2の実施形態におけるロボット100Aが備える機能構成の概略を示す図である。It is a figure which shows the outline of a function structure with which the robot 100A in 2nd Embodiment is provided. 第2の実施形態におけるロボット100Aの動作を示すフロー図である。It is a flowchart which shows operation | movement of 100 A of robots in 2nd Embodiment. 息の吸い込み区間の例を示す図である。It is a figure which shows the example of a breath inhalation area. 注視対象遷移パターンを例示した図である。It is the figure which illustrated the gaze object transition pattern. 時間構造情報を例示した図である。It is the figure which illustrated time structure information.

以下、図面を参照して、本発明の実施形態について説明する。
(第1の実施形態)
図1は、第1の実施形態におけるロボット100が備える機能構成の概略を示す図である。ロボット100は、会話支援システムの一例である。第1の実施形態におけるロボット100は、複数人の参加者と会話を行うロボットである。図1に示すように、ロボット100は、マイク101と、カメラ102と、センサ103と、音声入力部104と、映像入力部105と、センサ入力部106と、発話区間検出部107と、次話者確率推定部108と、制御部109と、音制御部110と、口部制御部111と、視線制御部112と、頭部制御部113と、胴部制御部114と、スピーカ115と、口部駆動部116と、眼部駆動部117と、頭部駆動部118と、胴部駆動部119とを備える。
Embodiments of the present invention will be described below with reference to the drawings.
(First embodiment)
FIG. 1 is a diagram illustrating an outline of a functional configuration included in the robot 100 according to the first embodiment. The robot 100 is an example of a conversation support system. The robot 100 according to the first embodiment is a robot that has a conversation with a plurality of participants. As shown in FIG. 1, the robot 100 includes a microphone 101, a camera 102, a sensor 103, a voice input unit 104, a video input unit 105, a sensor input unit 106, a speech segment detection unit 107, and a next story. Person probability estimation unit 108, control unit 109, sound control unit 110, mouth control unit 111, gaze control unit 112, head control unit 113, torso control unit 114, speaker 115, mouth A head drive unit 116, an eye drive unit 117, a head drive unit 118, and a torso drive unit 119.

マイク101は、会話する参加者の音声等を含むロボット100の周囲の音を集音して、音声信号を含む音信号(以下の説明では単に音声信号という)を出力する。マイク101が少なくとも参加者の音声を集音可能であれば、マイク101の設置位置と数は任意とすることができる。例えば、マイク101は、複数の各参加者それぞれに装着された複数のマイクで構成される。このようにマイク101を参加者の口元に近く、参加者個別に装着することで精度よく集音することができる。また、例えば、マイク101は、ロボット100に搭載されてもよく、参加者やロボット100以外の外界に設置されてもよい。ロボット100において、複数のマイク101と音声入力部104とは、有線又は無線で音声信号の送受信が可能に接続された構成である。   The microphone 101 collects sounds around the robot 100 including voices of participants who are talking, and outputs a sound signal including a voice signal (hereinafter simply referred to as a voice signal). As long as the microphone 101 can collect at least the voices of the participants, the installation position and number of the microphones 101 can be set arbitrarily. For example, the microphone 101 is composed of a plurality of microphones attached to each of a plurality of participants. In this manner, the microphone 101 is close to the participant's mouth and can be collected with high accuracy by wearing the participant individually. For example, the microphone 101 may be mounted on the robot 100 or may be installed in the outside world other than the participants and the robot 100. In the robot 100, the plurality of microphones 101 and the voice input unit 104 are connected so as to be able to transmit and receive voice signals by wire or wirelessly.

カメラ102は、会話する参加者の映像を撮影して、映像信号を出力する。カメラ102が参加者全員を撮影可能であれば、カメラ102の設置位置と台数は任意とすることができる。例えば、カメラ102は、参加者全員の姿が画角にはいるよう広角な画角を有する撮像装置である。また、例えば、カメラ102は、参加者全員の姿をそれぞれ撮影する参加者の人数分の複数のカメラであってもよい。この場合には、ロボット100において、映像入力部105と、複数のカメラとは、有線又は無線で映像信号を送受信可能に接続された構成となる。   The camera 102 captures images of participants who are talking and outputs a video signal. If the camera 102 can photograph all the participants, the installation position and the number of the cameras 102 can be arbitrary. For example, the camera 102 is an imaging device having a wide angle of view so that all participants are in view. Further, for example, the camera 102 may be a plurality of cameras for the number of participants who respectively photograph the appearance of all participants. In this case, in the robot 100, the video input unit 105 and the plurality of cameras are connected so as to be able to transmit and receive video signals by wire or wirelessly.

センサ103は、ロボット100の位置に対する、会話する参加者の位置を計測する第1のセンサ、参加者の呼吸動作を計測する第2のセンサ、参加者の注視対象を検出する第3のセンサ及び参加者の頭部動作を検出する第4のセンサ等の複数のセンサを備え、それらの各センサからのセンサ信号をセンサ入力部106へ出力する。   The sensor 103 is a first sensor that measures the position of a participant who has a conversation with respect to the position of the robot 100, a second sensor that measures the breathing motion of the participant, a third sensor that detects a gaze target of the participant, and A plurality of sensors such as a fourth sensor for detecting the participant's head movement are provided, and sensor signals from these sensors are output to the sensor input unit 106.

図2は、第1の実施形態におけるセンサ103の具体的な構成例を示す図である。
図2に示すように、センサ103は、ロボット100の位置に対する、会話する参加者の位置(特に顔位置)を計測する位置計測装置(第1のセンサ)201と、参加者の呼吸動作を計測する呼吸動作計測装置(第2のセンサ)202と、参加者の注視対象を検出する注視対象検出装置(第3のセンサ)203と、参加者の頭部動作を検出する頭部動作検出装置(第4のセンサ)204とを備える。位置計測装置201は、例えばロボット100内に設置される。呼吸動作計測装置202は、参加者の体幹等に装着され、注視対象検出装置203及び頭部動作検出装置204は、参加者の頭部等に装着される。位置計測装置201は、センサ入力部106と接続されている。呼吸動作計測装置202、注視対象検出装置203及び頭部動作検出装置204は、センサ入力部106と、有線又は無線でセンサ信号の送受信が可能に接続されている。
FIG. 2 is a diagram illustrating a specific configuration example of the sensor 103 according to the first embodiment.
As shown in FIG. 2, the sensor 103 measures a position measuring device (first sensor) 201 that measures the position (particularly the face position) of the participant who talks with respect to the position of the robot 100 and the breathing motion of the participant. A breathing motion measuring device (second sensor) 202, a gaze target detecting device (third sensor) 203 for detecting a participant's gaze target, and a head motion detecting device for detecting a participant's head motion ( 4th sensor) 204. The position measuring device 201 is installed in the robot 100, for example. The breathing motion measurement device 202 is attached to the trunk of the participant, and the gaze target detection device 203 and the head motion detection device 204 are attached to the participant's head. The position measuring device 201 is connected to the sensor input unit 106. The respiratory motion measurement device 202, the gaze target detection device 203, and the head motion detection device 204 are connected to the sensor input unit 106 so as to be able to transmit and receive sensor signals in a wired or wireless manner.

図1の音声入力部104は、マイク101からの音声信号を入力とし、発話区間検出部107、次話者確率推定部108及び音制御部110へ音声信号を出力する。音声入力部104は、マイク101からの音声信号を、ロボット100内で処理可能な信号形式の音声信号に変換する等の処理を行う。映像入力部105は、カメラ102からの映像信号を入力とし、次話者確率推定部108へ映像信号を出力する。映像入力部105は、カメラ102からの映像信号を、ロボット100内で処理可能な信号形式の映像信号に変換する等の処理を行う。センサ入力部106は、センサ103からのセンサ信号を入力とし、次話者確率推定部108へセンサ信号を出力する。センサ入力部106は、センサ103からのセンサ信号を、ロボット100内で処理可能な信号形式のセンサ信号に変換する等の処理を行う。   The voice input unit 104 in FIG. 1 receives the voice signal from the microphone 101 and outputs the voice signal to the utterance section detection unit 107, the next speaker probability estimation unit 108, and the sound control unit 110. The voice input unit 104 performs processing such as converting the voice signal from the microphone 101 into a voice signal in a signal format that can be processed in the robot 100. The video input unit 105 receives the video signal from the camera 102 and outputs the video signal to the next speaker probability estimation unit 108. The video input unit 105 performs processing such as converting the video signal from the camera 102 into a video signal in a signal format that can be processed in the robot 100. The sensor input unit 106 receives the sensor signal from the sensor 103 and outputs the sensor signal to the next speaker probability estimation unit 108. The sensor input unit 106 performs processing such as converting the sensor signal from the sensor 103 into a sensor signal in a signal format that can be processed in the robot 100.

発話区間検出部107は、既存の任意の技術により、音声入力部104からの音声信号から得られる音声特徴量に基づいて、各参加者が発話を行った区間を検出する。例えば、発話区間検出部107は、音声入力部104からの音声信号に基づいて、任意の窓幅を設けてその区間内の音声信号のパワー、ゼロ交差数、周波数などを、音声の特徴を示す値である音声特徴量として算出する。発話区間検出部107は、算出した音声特徴量と所定の閾値を比較して発話区間を検出する。発話区間検出部107は、検出した発話区間に関する情報である発話区間情報を次話者確率推定部108、制御部109及び音制御部110へ出力する。発話区間情報には、発話の開始及び終了の時刻、及び、発話者の情報が含まれる。なお、マイク101から取得される音声信号において、音声の存在する区間(発話区間)と音声の存在しない区間(非発話区間)を自動的に検出するVAD(Voice Activity Detection)技術は、以下の参考文献1に示すように公知の技術である。発話区間検出部107は、公知のVAD技術を用いて発話区間を検出する。
参考文献1:澤田 宏、外4名、"多人数多マイクでの発話区間検出〜ピンマイクでの事例〜"、日本音響学会 春季研究発表会、pp.679−680、2007年3月
The utterance section detection unit 107 detects a section in which each participant uttered based on the voice feature amount obtained from the voice signal from the voice input unit 104 by an existing arbitrary technique. For example, the utterance section detection unit 107 provides an arbitrary window width based on the voice signal from the voice input unit 104 and indicates the voice characteristics such as the power, the number of zero crossings, and the frequency of the voice signal in the section. It is calculated as a voice feature value that is a value. The utterance section detection unit 107 detects the utterance section by comparing the calculated voice feature quantity with a predetermined threshold. The utterance section detection unit 107 outputs utterance section information, which is information related to the detected utterance section, to the next speaker probability estimation unit 108, the control unit 109, and the sound control unit 110. The utterance section information includes the start and end times of the utterance and the information of the speaker. Note that the VAD (Voice Activity Detection) technique for automatically detecting a section where speech is present (speech section) and a section where speech is not present (non-speech section) in a speech signal acquired from the microphone 101 is as follows. As shown in Document 1, it is a known technique. The utterance interval detection unit 107 detects an utterance interval using a known VAD technique.
Reference 1: Hiroshi Sawada and four others, "Detection of utterance section with multi-microphones with multi-persons -Example with pin microphones", Acoustical Society of Japan Spring Research Presentation, pp. 679-680, March 2007

次話者確率推定部108は、音声入力部104からの音声信号と、映像入力部105からの映像信号と、センサ入力部106からのセンサ信号と、発話区間検出部107からの発話区間情報とを入力とし、各参加者が時刻tに次話者となる確率である次話者確率を出力する。次話者確率推定部108は、音声信号、映像信号、センサ信号及び発話区間情報に基づいて、発話区間情報で特定される発話区間の発話者を示す発話者情報を取得する。次話者確率推定部108は、音声信号、映像信号、センサ信号及び取得した発話者情報に基づいて、各参加者iが時刻tに次話者となる確率である次話者確率Pns (t)を算出して、制御部109へ出力する。次話者確率推定部108は、参加者の非言語行動に基づいて次話者確率Pns (t)を算出している。すなわち、次話者確率推定部108は、次話者確率Pns (t)の算出に、参加者の発話内容を解析等して利用者の言語行動に関する情報を得る必要はない。次話者確率推定部108は、次話者確率Pns (t)の他に、発話者情報及び参加者の位置情報を制御部109へ出力する。 The next speaker probability estimation unit 108 includes an audio signal from the audio input unit 104, a video signal from the video input unit 105, a sensor signal from the sensor input unit 106, and speech segment information from the speech segment detection unit 107. And the next speaker probability, which is the probability that each participant will be the next speaker at time t, is output. The next speaker probability estimation unit 108 acquires speaker information indicating a speaker in the speech section specified by the speech section information based on the audio signal, the video signal, the sensor signal, and the speech section information. The next speaker probability estimation unit 108 is based on the audio signal, the video signal, the sensor signal, and the acquired speaker information, and the next speaker probability P ns i that is the probability that each participant i will be the next speaker at time t. (T) is calculated and output to the control unit 109. The next speaker probability estimation unit 108 calculates the next speaker probability P ns i (t) based on the non-language behavior of the participant. That is, the next-speaker probability estimating unit 108 does not need to obtain information on the user's language behavior by calculating the next-speaker probability P ns i (t) by analyzing the utterance contents of the participants. The next speaker probability estimation unit 108 outputs the speaker information and the participant position information to the control unit 109 in addition to the next speaker probability P ns i (t).

なお、次話者確率推定部108は、参加者の位置情報を、例えば、センサ103の参加者の位置を計測したセンサ信号に基づいて取得してもよいし、映像信号に基づいて取得してもよいし、センサ103の参加者の位置を計測したセンサ信号及び映像信号に基づいて取得してもよい。   Note that the next speaker probability estimation unit 108 may acquire the position information of the participant based on, for example, a sensor signal obtained by measuring the position of the participant of the sensor 103 or based on a video signal. Alternatively, it may be acquired based on a sensor signal and a video signal obtained by measuring the positions of the participants of the sensor 103.

図3は、第1の実施形態における次話者確率推定部108が出力する次話者確率Pns (t)の例を示す図である。図3においては、4名の参加者A〜Dについて参加者Aの発話の切れ目となる時刻tbue以降における次話者確率Pns (t)の変化例を示している。符号31を付与した矩形は、参加者Aの発話区間を示している。発話区間31は、発話終了時刻tbueで終了している。次話者確率Pns (t)32で示す点線は、発話終了時刻tbue以降の時刻tにおける参加者Aの次話者確率の変化を示している。次話者確率Pns (t)33で示す点線は、発話終了時刻tbue以降の時刻tにおける参加者Bの次話者確率の変化を示している。次話者確率Pns (t)34で示す点線は、発話終了時刻tbue以降の時刻tにおける参加者Cの次話者確率の変化を示している。次話者確率Pns (t)35で示す点線は、発話終了時刻tbue以降の時刻tにおける参加者Dの次話者確率の変化を示している。このように、次話者確率推定部108は、参加者i(i∈{A,B,C,D})の発話終了時刻tbue以降の時刻tにおける次話者確率Pns (t)の変化を算出する。なお、次話者確率推定部108における次話者の推定処理の詳細については後述する。 FIG. 3 is a diagram illustrating an example of the next speaker probability P ns i (t) output by the next speaker probability estimation unit 108 according to the first embodiment. FIG. 3 shows an example of change in the next speaker probability P ns i (t) after time t bu when the participants A to D break the utterance of the participant A. The rectangle to which reference numeral 31 is assigned indicates the utterance section of participant A. The utterance section 31 ends at the utterance end time t bu . The dotted line indicated by the next speaker probability P ns A (t) 32 indicates the change in the next speaker probability of the participant A at time t after the utterance end time t bu . The dotted line indicated by the next speaker probability P ns B (t) 33 indicates the change in the next speaker probability of the participant B at the time t after the utterance end time t bu . The dotted line indicated by the next speaker probability P ns C (t) 34 indicates the change in the next speaker probability of the participant C at time t after the utterance end time t bu . A dotted line indicated by a next speaker probability P ns D (t) 35 indicates a change in the next speaker probability of the participant D at time t after the utterance end time t bu . Thus, the next speaker probability estimation unit 108 determines the next speaker probability P ns i (t) at time t after the utterance end time t bu of the participant i (iε {A, B, C, D}). Calculate the change in. Details of the next speaker estimation processing in the next speaker probability estimation unit 108 will be described later.

図1の制御部109は、次話者確率推定部108からの次話者確率を入力とし、入力した次話者確率に基づいて次に発話を行うと予測される参加者である予測次話者と、予測次話者が発話を開始するタイミング(発話開始タイミング)を推定する。制御部109は、動作パターン情報格納部1091を備える。動作パターン情報格納部1091は、ロボット100が発話を促す動作を示す動作パターン情報を格納している。   The control unit 109 in FIG. 1 receives the next speaker probability from the next speaker probability estimation unit 108 as an input, and a predicted next episode that is a participant predicted to speak next based on the input next speaker probability. And the predicted next speaker start timing (utterance start timing). The control unit 109 includes an operation pattern information storage unit 1091. The motion pattern information storage unit 1091 stores motion pattern information indicating a motion that the robot 100 prompts to speak.

制御部109は、以下に示す第1〜第5の次話者選択方法のいずれかを用いて予測次話者を選択する。なお、以下の説明においては、参加者A、B、C、Dの4名とロボット100とが会話を行う場合について説明する。制御部109は、次話者確率推定部108からA〜Dの次話者確率Pns (t),(i∈{A,B,C,D})を取得する。 The control unit 109 selects a predicted next speaker using any one of first to fifth next speaker selection methods described below. Note that, in the following description, a case will be described in which four participants A, B, C, and D have a conversation with the robot 100. The control unit 109 acquires the next speaker probabilities P ns i (t), (i∈ {A, B, C, D}) of A to D from the next speaker probability estimation unit 108.

(第1の次話者選択方法)
制御部109は、参加者A〜Dそれぞれの次話者確率Pns (t),(i∈{A,B,C,D})を比較する。制御部109は、次話者確率Pns (t)の最大値が最も高い参加者A〜Dのいずれかを予測次話者と判断する。制御部109は、予測次話者の次話者確率Pns (t)が最大値を取るときの時刻tを予測次話者の発話開始タイミングとする。なお、制御部109は、参加者A〜Dのいずれの次話者確率Pns (t)も第1の閾値を超えない場合、予測次話者がロボット100であると判断してもよい。
(First speaker selection method)
The control unit 109 compares the next speaker probabilities P ns i (t), (iε {A, B, C, D}) of the participants A to D, respectively. The control unit 109 determines any of the participants A to D having the highest maximum value of the next speaker probability P ns i (t) as the predicted next speaker. The control unit 109 sets time t when the next speaker probability P ns i (t) of the predicted next speaker takes the maximum value as the speech start timing of the predicted next speaker. Note that the control unit 109 may determine that the predicted next speaker is the robot 100 when any of the next speaker probabilities P ns i (t) of the participants A to D does not exceed the first threshold. .

(第2の次話者選択方法)
制御部109は、参加者A〜Dのうち、次話者確率Pns (t),(i∈{A,B,C,D})が最も早い時刻に第2の閾値以上の最大値をとる参加者を予測次話者と判断する。制御部109は、予測次話者の次話者確率Pns (t)が最大値を取るときの時刻tを予測次話者の発話開始タイミングとする。なお、制御部109は、参加者A〜Dのいずれの次話者確率Pns (t)も第2の閾値を超えない場合、予測次話者がロボット100であると判断してもよい。
(Second next speaker selection method)
The control unit 109 has a maximum value greater than or equal to the second threshold value at the earliest time among the participants A to D when the next speaker probability P ns i (t), (iε {A, B, C, D}). Participants who take are determined to be predicted next speakers. The control unit 109 sets time t when the next speaker probability P ns i (t) of the predicted next speaker takes the maximum value as the speech start timing of the predicted next speaker. Note that the control unit 109 may determine that the predicted next speaker is the robot 100 when any of the next speaker probabilities P ns i (t) of the participants A to D does not exceed the second threshold. .

(第3の次話者選択方法)
制御部109は、参加者A〜Dの次話者確率Pns (t),(i∈{A,B,C,D})それぞれを、時刻tについて所定時間(例えば、発話終了時刻から3〜4秒以上の時間)積分して、積分値Pns を取得する。なお、積分区間を発話終了時刻から無限時間としてもよく、全参加者A〜Dの次話者確率Pns (t)が所定値未満となり有意な値ではなくなる時間までとしてもよい。制御部109は、この積分値Pns が最も大きい参加者A〜Dのいずれかを予測次話者と判断する。制御部109は、予測次話者の次話者確率Pns (t)が最大値を取るときの時刻tを予測次話者の発話開始タイミングとする。なお、制御部109は、全ての参加者A〜Dとも積分値Pns が第3の閾値を超えないときには、予測次話者がロボット100であると判断してもよい。
(Third next speaker selection method)
The control unit 109 sets each of the next speaker probabilities P ns i (t), (iε {A, B, C, D}) of the participants A to D for a predetermined time (for example, from the utterance end time). Integrate for 3 to 4 seconds or more) to obtain an integral value P ns i . The integration interval may be an infinite time from the utterance end time, or may be a time until the next speaker probability P ns i (t) of all the participants A to D becomes less than a predetermined value and becomes no significant value. The control unit 109 determines any of the participants A to D having the largest integral value P ns i as a predicted next speaker. The control unit 109 sets time t when the next speaker probability P ns i (t) of the predicted next speaker takes the maximum value as the speech start timing of the predicted next speaker. Note that the control unit 109 may determine that the predicted next speaker is the robot 100 when the integral value P ns i does not exceed the third threshold value for all the participants A to D.

(第4の次話者選択方法)
制御部109は、参加者A〜Dの次話者確率Pns (t),(i∈{A,B,C,D})を加算した加算値(Pns (t)+Pns (t)+Pns (t)+Pns (t))を取得し、第4の閾値である任意の確率Pγと比較する。制御部109は、参加者A〜D全員の次話者確率の加算値が確率Pγ以上である((Pns (t)+Pns (t)+Pns (t)+Pns (t))≧Pγ)場合は、上記の第1〜第3のいずれかの次話者選択方法によって、予測次話者と発話開始タイミングを得る。ただし、第1〜第3の次話者選択方法において、第1〜第3の閾値との比較は行わなくてもよい。制御部109は、参加者A〜D全員の次話者確率の加算値が確率Pγ未満である((Pns (t)+Pns (t)+Pns (t)+Pns (t))<Pγ)場合は、予測次話者がロボット100であると判断する。
(Fourth speaker selection method)
The control unit 109 adds the next speaker probability P ns i (t), (i∈ {A, B, C, D}) of the participants A to D (P ns A (t) + P ns B (T) + P ns C (t) + P ns D (t)) is acquired and compared with an arbitrary probability P γ that is the fourth threshold value. The control unit 109 determines that the added value of the next speaker probabilities of all the participants A to D is equal to or greater than the probability P γ ((P ns A (t) + P ns B (t) + P ns C (t) + P ns D ( When t)) ≧ ), the predicted next speaker and the utterance start timing are obtained by any one of the first to third next speaker selection methods described above. However, in the first to third next speaker selection methods, the comparison with the first to third threshold values may not be performed. The control unit 109 adds the next speaker probabilities of all the participants A to D to be less than the probability P γ ((P ns A (t) + P ns B (t) + P ns C (t) + P ns D ( If t)) <P γ ), it is determined that the predicted next speaker is the robot 100.

(第5の次話者選択方法)
制御部109は、参加者A〜Dの次話者確率Pns (t),(i∈{A,B,C,D})のそれぞれを、時刻tについて所定時間(例えば、3〜4秒以上の時間)積分して、積分値Pns を取得する。なお、積分区間を発話終了から無限時間としてもよく、全参加者の次話者確率Pns (t)が所定値未満となる時間までとしてもよい。制御部109は、参加者A〜Dの全員の積分値Pns を加算した加算値(Pns +Pns +Pns +Pns )を取得し、第5の閾値である任意の確率Pθと比較する。制御部109は、参加者A〜Dの積分値の加算値が確率Pθ以上である((Pns +Pns +Pns +Pns )≧Pθ)場合は、上記の第1〜第3のいずれかの次話者選択方法によって、予測次話者と発話開始タイミングを得る。ただし、第1〜第3の次話者選択方法において、第1〜第3の閾値との比較は行わなくてもよい。制御部109は、参加者A〜Dの全員の積分値の加算値が確率Pθ未満である((Pns +Pns +Pns +Pns )<Pθ)場合は、予測次話者がロボット100であると判断する。
(Fifth speaker selection method)
The control unit 109 sets each of the next speaker probabilities P ns i (t), (iε {A, B, C, D}) of the participants A to D for a predetermined time (for example, 3 to 4). sec or longer) is integrated to obtain the integrated value P ns i. The integration interval may be an infinite time from the end of the utterance, or may be a time until the next speaker probability P ns i (t) of all participants is less than a predetermined value. The control unit 109 acquires an added value (P ns A + P ns B + P ns C + P ns D ) obtained by adding the integral values P ns i of all the participants A to D, and an arbitrary probability that is the fifth threshold value Compare with . When the added value of the integral values of the participants A to D is equal to or higher than the probability P θ (the control unit 109) ((P ns A + P ns B + P ns C + P ns D ) ≧ P θ ), The predicted next speaker and the utterance start timing are obtained by any of the third next speaker selection methods. However, in the first to third next speaker selection methods, the comparison with the first to third threshold values may not be performed. Control unit 109, if the sum of integral values of all participants A~D is less than the probability P θ ((P ns A + P ns B + P ns C + P ns D) <P θ) is predicted next story It is determined that the person is the robot 100.

次話者確率Pns (t),(i∈{A,B,C,D})は、図3に示したように、発話終了から所定時間後にピークを有する場合が多い。そこで、制御部109は、第1〜第5の次話者選択方法において、次話者確率Pns (t)を求める時刻tを含む窓幅を設けて、その窓幅の中における次話者確率の最大値を、時刻tにおける次話者確率Pns (t)として用いるようにしてもよい。また、制御部109は、第1〜第5の次話者選択方法において、次話者確率Pns (t)を求める時刻tを含む窓幅を設けて、その窓幅の中における次話者確率に複数のピークがある場合に、n番目(nは1以上の整数)のピークの次話者確率を、時刻tにおける次話者確率Pns (t)として用いるようにしてもよい。 The next speaker probability P ns i (t), (iε {A, B, C, D}) often has a peak after a predetermined time from the end of the utterance, as shown in FIG. Therefore, in the first to fifth next speaker selection methods, the control unit 109 provides a window width including the time t for obtaining the next speaker probability P ns i (t), and the next story within the window width. The maximum speaker probability may be used as the next speaker probability P ns i (t) at time t. In addition, in the first to fifth next speaker selection methods, the control unit 109 provides a window width including the time t for obtaining the next speaker probability P ns i (t), and the next talk within the window width is provided. When the speaker probability has a plurality of peaks, the next speaker probability of the nth peak (n is an integer of 1 or more) may be used as the next speaker probability P ns i (t) at time t. .

制御部109は、第1〜第5の次話者選択方法により予測次話者がロボット100であると判断した場合、音制御部110に対して発話を行うよう指示する発話制御信号を出力する。制御部109は、予測次話者が参加者A〜Dのいずれかであると判断した場合、音制御部110に対して発話を抑制するよう指示する発話制御信号を出力するとともに、推定された発話開始タイミングに予測次話者が発話を行ったか否かを判断する。制御部109は、推定された発話開始タイミングに予測次話者が発話を行わなかったことを検出すると、動作パターン情報格納部1091から動作パターン情報を読み出す。制御部109は、読み出した動作パターン情報が示す動作を行わせるよう指示する発話誘導動作制御信号を、音制御部110、口部制御部111、視線制御部112、頭部制御部113、及び、胴部制御部114のうち1以上に出力する。発話誘導動作制御信号は、発話誘導対象者に対して発話を促す動作を行うよう指示する信号である。動作パターン情報は、例えば、発話誘導対象者に対して発話を促す内容の発話の音声を出力する、視線を発話誘導対象者の方向に向ける、発話誘導対象者の方向に上肢を差し出す、などの動作を示す。発話誘導動作制御信号には、発話誘導対象者を特定する情報が含まれる。制御部109は、発話誘導対象者を、予測次話者又は予測次話者とは異なる参加者とする。視線制御部112、頭部制御部113、又は、胴部制御部114に出力する発話誘導動作制御信号には、発話誘導対象者の位置の情報がさらに含まれる。   When the control unit 109 determines that the predicted next speaker is the robot 100 by the first to fifth next speaker selection methods, the control unit 109 outputs an utterance control signal that instructs the sound control unit 110 to utter. . When the control unit 109 determines that the predicted next speaker is one of the participants A to D, the control unit 109 outputs an utterance control signal that instructs the sound control unit 110 to suppress the utterance and is estimated. It is determined whether or not the predicted next speaker has spoken at the utterance start timing. When the control unit 109 detects that the predicted next speaker does not utter at the estimated utterance start timing, the control unit 109 reads the operation pattern information from the operation pattern information storage unit 1091. The control unit 109 transmits an utterance guidance operation control signal instructing to perform the operation indicated by the read operation pattern information to the sound control unit 110, the mouth control unit 111, the line-of-sight control unit 112, the head control unit 113, and Output to one or more of the body controller 114. The utterance guidance operation control signal is a signal for instructing the utterance guidance target person to perform an operation for prompting utterance. The action pattern information includes, for example, outputting utterance sound with a content urging the utterance guidance target person, directing the line of sight toward the utterance guidance target person, and presenting the upper limb in the direction of the utterance guidance target person. The operation is shown. The utterance guidance operation control signal includes information for specifying the utterance guidance target person. The control unit 109 sets the utterance induction target person as a participant different from the predicted next speaker or the predicted next speaker. The speech guidance operation control signal output to the line-of-sight control unit 112, the head control unit 113, or the torso control unit 114 further includes information on the position of the speech guidance target person.

制御部109は、発話誘導動作制御信号を出力したのち所定のタイミングまでに発話区間の開始を検出しなかった場合、新たな発話誘導対象者を選択する。制御部109は、新たな発話誘導対象者に対して発話を促す動作を行うよう指示する発話誘導動作制御信号を生成し、発話誘導動作制御信号を音制御部110、口部制御部111、視線制御部112、頭部制御部113、及び、胴部制御部114のうち一以上に出力する。   When the control unit 109 does not detect the start of the utterance section by a predetermined timing after outputting the utterance induction operation control signal, the control unit 109 selects a new utterance induction target person. The control unit 109 generates an utterance guidance operation control signal for instructing a new utterance guidance target person to perform an utterance urging operation, and the utterance guidance operation control signal is transmitted to the sound control unit 110, the mouth control unit 111, and the line of sight. Output to one or more of the control unit 112, the head control unit 113, and the torso control unit 114.

口部制御部111と、視線制御部112と、頭部制御部113と、胴部制御部114と、スピーカ115と、口部駆動部116と、眼部駆動部117と、頭部駆動部118と、胴部駆動部119とは、制御部109からの指示を受け、発話誘導対象者に発話を促す処理を行う発話誘導部として動作する。   Mouth control unit 111, line-of-sight control unit 112, head control unit 113, torso control unit 114, speaker 115, mouth drive unit 116, eye drive unit 117, and head drive unit 118 Then, the body drive unit 119 operates as an utterance guidance unit that receives an instruction from the control unit 109 and performs processing for prompting the utterance guidance target person to speak.

音制御部110は、制御部109からの発話制御信号又は発話誘導動作制御信号に基づいて、スピーカ115に対して音信号を出力する。音制御部110は、発話制御信号に基づいて、ロボット100に発話を行わせるか否かを判断する。音制御部110は、発話制御信号に基づいて、ロボット100に発話を行わせると判断した場合には、ロボット100に発話させる会話内容(言葉)を含む会話情報を生成し、生成した会話情報に基づいた音信号を出力する。音制御部110は、例えば、音声信号及び発話区間情報に基づいて参加者の会話内容を解析し、解析結果に基づいて、ロボット100に発話させるための会話情報を生成する。また、音制御部110は、発話誘導動作制御信号を受信した場合、発話誘導動作制御信号に設定されている発話誘導対象者に発話を促す内容の会話情報を生成し、生成した会話情報に基づいた音信号を出力する。   The sound control unit 110 outputs a sound signal to the speaker 115 based on the utterance control signal or the utterance guidance operation control signal from the control unit 109. The sound control unit 110 determines whether or not to cause the robot 100 to speak based on the speech control signal. When the sound control unit 110 determines that the robot 100 is to speak based on the speech control signal, the sound control unit 110 generates conversation information including conversation contents (words) to be uttered by the robot 100, and the generated conversation information is included in the generated conversation information. Based sound signal is output. For example, the sound control unit 110 analyzes the conversation content of the participant based on the voice signal and the utterance section information, and generates conversation information for causing the robot 100 to utter based on the analysis result. In addition, when receiving the utterance guidance operation control signal, the sound control unit 110 generates conversation information that urges the utterance guidance target person set in the utterance guidance operation control signal to speak, and based on the generated conversation information. Output a sound signal.

ここで、第1の実施形態における音制御部110の構成の詳細について一例を示して説明する。
図4は、第1の実施形態における音制御部110の構成の詳細の具体例を示す図である。音制御部110は、音声解析部401と、会話情報生成部402と、会話情報DB(データベース)403と、発声情報生成部404と、音信号生成部405とを備える。
Here, the details of the configuration of the sound control unit 110 in the first embodiment will be described with reference to an example.
FIG. 4 is a diagram illustrating a specific example of details of the configuration of the sound control unit 110 according to the first embodiment. The sound control unit 110 includes a voice analysis unit 401, a conversation information generation unit 402, a conversation information DB (database) 403, an utterance information generation unit 404, and a sound signal generation unit 405.

会話情報DB403は、ロボット100に会話させるための会話サンプル情報を格納する。会話サンプル情報とは、日常の会話でよく使われる名詞、「こんにちは」等の挨拶及び「ありがとうございます」、「大丈夫ですか」等の日常会話でよく利用するフレーズの音声信号を含む情報である。さらに、会話情報DB403は、各話者の名前の音声信号と、「〜さんは、どう思いますか」、「〜さんは、何かありますか」などの発話を促すフレーズの音声信号を記憶する。   The conversation information DB 403 stores conversation sample information for allowing the robot 100 to speak. The conversation sample information, noun often used in everyday conversation, "Hello" greeting and "Thank you" such as, it is the information that contains the phrase of the speech signal that frequently used in everyday conversation, such as "Are you okay?" . Furthermore, the conversation information DB 403 stores a voice signal of each speaker's name and a voice signal of a phrase that prompts utterances such as “What do you think?” And “Do you have something?” .

音声解析部401は、音声入力部104からの音声信号と、発話区間検出部107からの発話区間情報とに基づいて、音声信号を解析して、その内容(言葉)を特定し、解析結果を出力する。   The voice analysis unit 401 analyzes the voice signal based on the voice signal from the voice input unit 104 and the utterance section information from the utterance section detection unit 107, specifies the contents (words), and determines the analysis result. Output.

会話情報生成部402は、発話制御信号を受信した場合、音声解析部401の解析結果に基づいて、ロボット100の発話内容となる会話情報を生成する。会話情報生成部402は、音声解析部401の解析結果に基づいて、会話する内容に応じた会話サンプル情報を会話情報DB403から取得する。会話情報生成部402は、取得した会話サンプル情報に基づいて、会話情報を生成する。会話情報生成部402は、発声情報生成部404からの会話情報の要求に応じて、会話情報を生成し、発声情報生成部404へ出力する。
また、会話情報生成部402は、発話誘導動作制御信号を受信した場合、その発話誘導動作制御信号に設定されている発話誘導対象者の名前の音声信号と、発話を促すフレーズの音声信号とを会話情報DB403から取得する。会話情報生成部402は、これらの音声信号を続けて出力する会話情報を生成し、発声情報生成部404へ出力する。
When the conversation information generation unit 402 receives the utterance control signal, the conversation information generation unit 402 generates conversation information that is the utterance content of the robot 100 based on the analysis result of the voice analysis unit 401. The conversation information generation unit 402 acquires conversation sample information corresponding to the content of conversation from the conversation information DB 403 based on the analysis result of the voice analysis unit 401. The conversation information generation unit 402 generates conversation information based on the acquired conversation sample information. The conversation information generation unit 402 generates conversation information in response to a request for conversation information from the utterance information generation unit 404 and outputs the conversation information to the utterance information generation unit 404.
In addition, when the speech information generation unit 402 receives the speech guidance operation control signal, the conversation information generation unit 402 generates a speech signal of the name of the speech guidance target person set in the speech guidance operation control signal and a speech signal of the phrase that prompts speech. Obtained from the conversation information DB 403. The conversation information generation unit 402 generates conversation information for continuously outputting these audio signals, and outputs the conversation information to the utterance information generation unit 404.

発声情報生成部404は、会話情報生成部402からの会話情報と、制御部109からの発話制御信号又は発話誘導動作制御信号とを入力として、発話信号を出力する。発声情報生成部404は、制御部109からの発話制御信号又は発話誘導動作制御信号に基づいて、会話情報生成部402に対して会話情報を要求する。発声情報生成部404は、要求に応じて会話情報生成部402から取得した会話情報と、制御部109からの発話制御信号又は発話誘導動作制御信号とに基づいて、ロボット100が発声するための発話信号を生成する。発声情報生成部404は、生成した発話信号を音信号生成部405へ出力する。   The utterance information generation unit 404 receives the conversation information from the conversation information generation unit 402 and the utterance control signal or utterance guidance operation control signal from the control unit 109 and outputs an utterance signal. The utterance information generation unit 404 requests the conversation information generation unit 402 for conversation information based on the utterance control signal or the utterance guidance operation control signal from the control unit 109. The utterance information generation unit 404 generates an utterance for the robot 100 to utter based on the conversation information acquired from the conversation information generation unit 402 upon request and the utterance control signal or utterance guidance operation control signal from the control unit 109. Generate a signal. The utterance information generation unit 404 outputs the generated utterance signal to the sound signal generation unit 405.

音信号生成部405は、発声情報生成部404からの発話信号を入力とし、音信号を出力する。音信号生成部405は、発声情報生成部404からの発話信号に基づいてスピーカ115から発話させるための音信号を生成して、スピーカ115へ出力する。   The sound signal generation unit 405 receives the utterance signal from the utterance information generation unit 404 and outputs a sound signal. The sound signal generation unit 405 generates a sound signal for uttering from the speaker 115 based on the utterance signal from the utterance information generation unit 404 and outputs the sound signal to the speaker 115.

図1に示す口部制御部111は、制御部109からの発話誘導動作制御信号に基づいて、口部駆動部116に対して口部駆動信号を出力する。視線制御部112は、制御部109からの発話誘導動作制御信号に基づいて、眼部駆動部117に対して眼部駆動信号を出力する。頭部制御部113は、制御部109からの発話誘導動作制御信号に基づいて、頭部駆動部118に対して頭部駆動信号を出力する。胴部制御部114は、制御部109からの発話誘導動作制御信号に基づいて、胴部駆動部119に対して胴部駆動信号を出力する。   The mouth control unit 111 shown in FIG. 1 outputs a mouth drive signal to the mouth drive unit 116 based on the speech guidance operation control signal from the control unit 109. The line-of-sight control unit 112 outputs an eye part drive signal to the eye part drive unit 117 based on the speech guidance operation control signal from the control unit 109. The head control unit 113 outputs a head drive signal to the head drive unit 118 based on the speech guidance operation control signal from the control unit 109. The torso control unit 114 outputs a torso drive signal to the torso drive unit 119 based on the speech guidance operation control signal from the control unit 109.

図5は、第1の実施形態におけるロボット100の外観及び構成の具体例を示す図である。第1の実施形態におけるロボット100は、例えば図5に示す外観を有し、図1に示す機能構成を有する。   FIG. 5 is a diagram illustrating a specific example of the appearance and configuration of the robot 100 according to the first embodiment. The robot 100 in the first embodiment has, for example, the appearance shown in FIG. 5 and the functional configuration shown in FIG.

図5に示すように、ロボット100は、例えば、人間の上半身をモデルとした形状のヒューマノイドロボット(人型ロボット)である。ロボット100は、発話を行う発話機能、人の音声を認識する音声認識機能、参加者を撮影するカメラ機能を少なくとも備える。ロボット100は、右目51a及び左目51bと、口部52とが配置された顔を有する頭部53を備える。   As shown in FIG. 5, the robot 100 is, for example, a humanoid robot (humanoid robot) having a shape modeled on a human upper body. The robot 100 includes at least a speech function for speaking, a voice recognition function for recognizing a human voice, and a camera function for photographing a participant. The robot 100 includes a head 53 having a face on which a right eye 51a and a left eye 51b and a mouth portion 52 are arranged.

ロボット100は、頭部53を支持する頸部54と、頸部54を支える胴部55とを備える。胴部55は、上肢である右腕55aと左腕55bとが側面上部に設けられている。また、頭部53の右目51a、左目51bの間には、カメラ102が設置されている。以下の説明において、右目51a、左目51bをまとめて説明する場合は、眼部51と称する。   The robot 100 includes a neck 54 that supports the head 53 and a body 55 that supports the neck 54. The torso 55 has a right arm 55a and a left arm 55b, which are upper limbs, provided on the upper side. A camera 102 is installed between the right eye 51 a and the left eye 51 b of the head 53. In the following description, the right eye 51a and the left eye 51b are collectively referred to as the eye part 51.

図1に示す構成の内、図5に示しているのは、カメラ102のみであるので、カメラ102以外の図1に示す構成の設置位置の一例について説明する。マイク101及びセンサ103は、ロボット100の胴部55内における任意の位置又は胴部55から離れた位置(例えば参加者の位置)に設置される。図1に示すマイク101、カメラ102及びセンサ103以外の構成は、ロボット100内部に設置されるものであり、例えば、スピーカ115は、図5に示した口部52の内部に設置されている。   Since only the camera 102 is shown in FIG. 5 in the configuration shown in FIG. 1, an example of the installation position of the configuration shown in FIG. The microphone 101 and the sensor 103 are installed at an arbitrary position in the body 55 of the robot 100 or a position away from the body 55 (for example, the position of the participant). The configuration other than the microphone 101, the camera 102, and the sensor 103 shown in FIG. 1 is installed inside the robot 100. For example, the speaker 115 is installed inside the mouth portion 52 shown in FIG.

ここで、ロボット100が備える口部駆動部116、眼部駆動部117、頭部駆動部118及び胴部駆動部119の配置と駆動する対象について説明する。頭部53は、右目51a及び左目51bの黒目(視線)を移動させる眼部駆動部117と、口部52の開閉を行う口部駆動部116とを備える。   Here, the arrangement of the mouth drive unit 116, the eye drive unit 117, the head drive unit 118, and the torso drive unit 119 included in the robot 100 and the objects to be driven will be described. The head 53 includes an eye drive unit 117 that moves the black eyes (line of sight) of the right eye 51 a and the left eye 51 b, and a mouth drive unit 116 that opens and closes the mouth 52.

頸部54は、頭部53に対して所定の動き(例えば、頷かせたり、顔の方向を変えたりする動き)を行わせる頭部駆動部118を備え、頭部53を支持する。胴部55は、呼吸をしているかのように、肩を動かしたり、胸の部分を膨らませたりする胴部駆動部119を備える。口部駆動部116は、口部制御部111からの口部駆動信号に基づいてロボット100の口部52の開閉を行う。眼部駆動部117は、視線制御部112からの眼部駆動信号に基づいてロボット100の眼部51における黒目の方向(=ロボット100の視線の方向)を制御する。   The neck portion 54 includes a head drive unit 118 that causes the head 53 to perform a predetermined movement (for example, a movement that changes the direction of the face or the face), and supports the head 53. The torso 55 includes a torso drive unit 119 that moves the shoulder and inflates the chest part as if breathing. The mouth drive unit 116 opens and closes the mouth 52 of the robot 100 based on the mouth drive signal from the mouth control unit 111. The eye drive unit 117 controls the direction of black eyes (= the direction of the line of sight of the robot 100) in the eye 51 of the robot 100 based on the eye drive signal from the line of sight control unit 112.

頭部駆動部118は、頭部制御部113からの頭部駆動信号に基づいてロボット100の頭部53の動きを制御する。胴部駆動部119は、胴部制御部114からの胴部駆動信号に基づいてロボット100の胴部55の形状を制御する。また、胴部駆動部119は、胴部制御部114からの胴部駆動信号に基づいてロボット100の右腕55aと左腕55bの動きも制御する。   The head drive unit 118 controls the movement of the head 53 of the robot 100 based on the head drive signal from the head control unit 113. The torso drive unit 119 controls the shape of the torso 55 of the robot 100 based on the torso drive signal from the torso controller 114. The torso driving unit 119 also controls the movement of the right arm 55a and the left arm 55b of the robot 100 based on the torso driving signal from the torso control unit 114.

次に、第1の実施形態におけるロボット100の動作について説明する。
図6は、第1の実施形態におけるロボット100の動作を示すフロー図である。図6に示す処理は、ロボット100において、複数の参加者と会話を行う動作を開始した際に行う処理である。以下では、参加者A〜Dとロボット100が会話に参加している場合を例に説明する。
Next, the operation of the robot 100 in the first embodiment will be described.
FIG. 6 is a flowchart showing the operation of the robot 100 according to the first embodiment. The process shown in FIG. 6 is a process that is performed when the robot 100 starts an operation of having a conversation with a plurality of participants. Hereinafter, a case where the participants A to D and the robot 100 are participating in the conversation will be described as an example.

音声入力部104は、マイク101からの音声信号が入力され、映像入力部105は、カメラ102からの映像信号が入力され、センサ入力部106は、センサ103からのセンサ信号が入力される(ステップS101)。発話区間検出部107は、音声入力部104からの音声信号に基づいて、音声特徴量を算出し、算出した音声特徴量と所定の閾値を比較して発話区間を検出する(ステップS102)。   The audio input unit 104 receives the audio signal from the microphone 101, the video input unit 105 receives the video signal from the camera 102, and the sensor input unit 106 receives the sensor signal from the sensor 103 (step). S101). The utterance section detection unit 107 calculates a speech feature amount based on the speech signal from the speech input unit 104, and compares the calculated speech feature amount with a predetermined threshold value to detect a speech section (step S102).

次話者確率推定部108は、音声信号、映像信号、センサ信号及び取得した発話者情報に基づいて、各参加者i(i∈{A,B,C,D})が時刻tに次話者となる確率である次話者確率Pns (t)を算出する(ステップS103)。制御部109は、次話者確率推定部108が算出した各参加者の次話者確率に基づいて、上述した第1〜第5の次話者選択方法のいずれかを用いて、予測次話者と予測次話者の発話開始タイミングを得る(ステップS104)。 The next speaker probability estimation unit 108 determines that each participant i (iε {A, B, C, D}) at the time t based on the audio signal, the video signal, the sensor signal, and the acquired speaker information. Next speaker probability P ns i (t), which is the probability of becoming a speaker, is calculated (step S103). Based on the next-speaker probability of each participant calculated by the next-speaker probability estimating unit 108, the control unit 109 uses one of the first to fifth next-speaker selection methods described above to predict a predicted next talk. The utterance start timing of the speaker and the predicted next speaker is obtained (step S104).

制御部109は、予測次話者が参加者A〜Dのいずれかであるかを判断する(ステップS105)。制御部109は、予測次話者が参加者A〜Dのいずれかであると判断した場合(ステップS105のNO)、音制御部110に、発話を行わないよう指示する発話制御信号を出力する。制御部109は、発話誘導タイミングが経過するまでの間に参加者A〜Dのいずれかが発話したか否かを判断する(ステップS106)。この発話誘導タイミングは、発話開始タイミング以降のタイミングであり、発話開始タイミングの直後であってもよく、会話中に沈黙が継続した場合に不自然と感じる時間に基づいて決められたタイミングであってもよい。後者のタイミングの場合、例えば、発話終了時刻から所定時間(例えば、2〜3秒)経過後としてもよく、推定された発話開始タイミングから所定時間経過後としてもよい。また、発話誘導タイミングは、予測次話者の次話者確率が所定値以下となる時刻であってもよい。   The control unit 109 determines whether the predicted next speaker is one of the participants A to D (step S105). When the control unit 109 determines that the predicted next speaker is one of the participants A to D (NO in step S105), the control unit 109 outputs an utterance control signal that instructs the sound control unit 110 not to utter. . The control unit 109 determines whether any of the participants A to D has uttered before the utterance induction timing elapses (step S106). This utterance induction timing is a timing after the utterance start timing, may be immediately after the utterance start timing, and is a timing determined based on a time when it feels unnatural when silence continues during a conversation. Also good. In the latter timing, for example, a predetermined time (for example, 2 to 3 seconds) may elapse from the utterance end time, or a predetermined time may elapse from the estimated utterance start timing. Further, the utterance induction timing may be a time at which the next speaker probability of the predicted next speaker becomes a predetermined value or less.

制御部109は、発話区間検出部107が発話誘導タイミングまでに発話区間の開始を検出した場合、参加者A〜Dのいずれかが発話したと判断し(ステップS106のYES)、ステップS107の処理を実行する。   When the utterance section detection unit 107 detects the start of the utterance section by the utterance guidance timing, the control unit 109 determines that any of the participants A to D has uttered (YES in step S106), and performs the process in step S107. Execute.

一方、制御部109は、発話区間検出部107が発話誘導タイミングまでに発話区間の開始を検出しない場合(ステップS106のNO)、発話誘導処理を行う(ステップS108)。発話誘導処理において、制御部109は、発話誘導対象者を、予測次話者、又は、予測次話者の次に次話者確率が高い話者とする。発話誘導対象者を、予測次話者にするか、予測次話者の次に次話者確率が高い話者とするかは予め決められてもよく、動的に決定してもよい。動的に決定する場合、例えば、予測次話者である参加者x(xはA〜Dのいずれか)に対して過去に発話を促したときに参加者xが発話を行った確率Pxや、予測次話者の次に次話者確率が高い参加者y(y≠x、yはA〜Dのいずれか)に対して過去に発話を促したときに参加者yが発話を行った確率Pyに基づいて決定することができる。具体的には、Pxが所定の閾値以上である場合や、Px>Pyの場合に参加者xを予測次話者とし、Pxが所定の閾値よりも低い場合や、Px<Pyの場合に参加者yを予測次話者とする。   On the other hand, when the utterance section detection unit 107 does not detect the start of the utterance section by the utterance guidance timing (NO in step S106), the control unit 109 performs utterance guidance processing (step S108). In the utterance guidance process, the control unit 109 sets the utterance guidance target person as the predicted next speaker or the speaker having the next next speaker probability next to the predicted next speaker. Whether the utterance induction target person is a predicted next speaker or a speaker having the next speaker probability that is next to the predicted next speaker may be determined in advance or may be determined dynamically. In the case of dynamic determination, for example, the probability Px that the participant x uttered when the participant x (x is any one of A to D) who is the predicted next speaker is urged in the past. Participant y uttered when utterance was urged in the past to participant y (y ≠ x, y is any one of A to D) with the next speaker probability next to the predicted next speaker It can be determined based on the probability Py. Specifically, if Px is greater than or equal to a predetermined threshold, or if Px> Py, participant x is the predicted next speaker, and if Px is lower than the predetermined threshold or if Px <Py Let y be the predicted next speaker.

制御部109は、発話誘導対象者を特定する情報を設定した発話誘導動作制御信号を音制御部110、口部制御部111、視線制御部112、頭部制御部113、及び、胴部制御部114のうち1以上に出力する。制御部109は、視線制御部112、頭部制御部113、又は、胴部制御部114に出力する発話誘導動作制御信号に、発話誘導対象者の位置の情報をさらに設定する。これにより、ロボット100は、以下の(動作1)〜(動作5)いずれかまたは複数の動作を行い、発話誘導対象者への発話権の委譲を合図する。   The control unit 109 uses the sound control unit 110, the mouth control unit 111, the line-of-sight control unit 112, the head control unit 113, and the torso control unit to generate an utterance guide operation control signal in which information for specifying the utterance guide target is set. Output to one or more of 114. The control unit 109 further sets information on the position of the speech guidance target person in the speech guidance operation control signal output to the line-of-sight control unit 112, the head control unit 113, or the torso control unit 114. Thereby, the robot 100 performs any one or a plurality of operations (Operation 1) to (Operation 5) below, and signals the transfer of the utterance right to the utterance induction target person.

(動作1)音制御部110は、発話誘導対象者に対して発話を促す内容の発話の音声をスピーカ115から出力する。例えば、発話誘導対象者に対して質問や要求を行う内容の発話を出力する。具体的には、「XXさんはどう思いますか?」(「XXさん」は、発話誘導対象者の名前)といった発話を行う。同時に、口部制御部111は、口部駆動信号を口部駆動部116に出力し、音声をスピーカ115から出力している間、口部52を開閉するよう制御する。 (Operation 1) The sound control unit 110 outputs, from the speaker 115, speech sound whose content prompts the speech guidance target person to speak. For example, an utterance of contents for making a question or request to the utterance guidance target person is output. Specifically, utterances such as "What do you think about Mr. XX?" At the same time, the mouth control unit 111 controls the mouth 52 to open and close while the mouth drive signal is output to the mouth drive unit 116 and the sound is output from the speaker 115.

(動作2)視線制御部112は、眼部駆動信号を眼部駆動部117に出力し、眼部21における黒目の方向を、発話誘導対象者の方向となるように制御する。なお、視線を向けることは発話促進になることが知られている(参考文献2)。
参考文献2:石井 亮、外2名、“アバタ音声チャットシステムにおける会話促進のための注視制御”、ヒューマンインタフェース学会論文誌、Vol.10、No.1、p.87−94、2008年
(Operation 2) The line-of-sight control unit 112 outputs an eye part drive signal to the eye part drive unit 117, and controls the direction of the black eye in the eye part 21 to be the direction of the speech guidance target person. In addition, it is known that turning the line of sight will promote speech (Reference 2).
Reference 2: Ryo Ishii and two others, “Gaze control for conversation promotion in avatar voice chat system”, Journal of Human Interface Society, Vol. 10, no. 1, p. 87-94, 2008

(動作3)頭部制御部113は、頭部駆動信号を頭部駆動部118に出力し、頸部54を動かして頭部53を発話誘導対象者の方向に向けるように制御する。これにより、頭部53と視線を予測次話者の方向となるように制御する。 (Operation 3) The head control unit 113 outputs a head driving signal to the head driving unit 118 and moves the neck 54 to control the head 53 toward the utterance guidance target person. Thus, the head 53 and the line of sight are controlled to be in the direction of the predicted next speaker.

(動作4)胴部制御部114は、胴部駆動信号を胴部駆動部119に出力し、胴部55を発話誘導対象者の方向に回転させるように制御する。これにより、胴部、頭部、及び、視線を発話誘導対象者の方向となるように制御する。 (Operation 4) The torso control unit 114 outputs a torso drive signal to the torso drive unit 119, and controls the torso 55 to rotate in the direction of the speech guidance target person. Thereby, it controls so that a trunk | drum, a head, and a eyes | visual_axis may become the direction of a speech guidance object person.

(動作5)胴部制御部114は、胴部駆動信号を胴部駆動部119に出力し、右腕55aと左腕55bの一方又は両方を発話誘導対象者の方向に差し出すように制御する。 (Operation 5) The torso control unit 114 outputs a torso drive signal to the torso drive unit 119, and controls so that one or both of the right arm 55a and the left arm 55b are directed toward the utterance guidance target person.

制御部109は、ステップS108において発話誘導処理を行った後、次の発話誘導タイミングが経過するまでの間に参加者A〜Dのいずれかが発話したか否かを判断する(ステップS109)。制御部109は、次の発話誘導タイミングが経過するまでの間に、発話区間検出部107が発話区間の開始を検出しない場合(ステップS109のNO)、再び、発話誘導処理を行う(ステップS108)。   The control unit 109 determines whether any of the participants A to D has uttered before the next utterance guidance timing has elapsed after performing the utterance guidance process in step S108 (step S109). When the utterance section detection unit 107 does not detect the start of the utterance section until the next utterance guidance timing elapses (NO in step S109), the control unit 109 performs the utterance guidance process again (step S108). .

制御部109は、ステップS109でNOと判断した後に発話誘導処理を行う場合、発話誘導対象者を、直前の発話誘導処理における発話誘導対象者としてもよく、直前の発話誘導処理において発話誘導対象者とした参加者の次に次話者確率が高い参加者としてもよい。例えば、制御部109は、同じ参加者がm回(mは1以上の整数)以上連続して発話誘導対象者となった場合に、その参加者の次に次話者確率が高い話者としてもよい。また、制御部109は、発話誘導対象者を、次話者確率が最大値となる時刻が直前の発話誘導処理における発話誘導対象者の次の参加者としてもよい。また、あるいは、制御部109は、予測次話者がまだ発話誘導対象者となっていない場合、発話誘導対象者を予測次話者としてもよい。   When performing the utterance guidance process after determining NO in step S109, the control unit 109 may set the utterance guidance target person as the utterance guidance target person in the immediately preceding utterance guidance process, or in the immediately preceding utterance guidance process. It is good also as a participant with the next speaker probability next to the said participant. For example, when the same participant becomes an utterance induction target consecutively m times (m is an integer of 1 or more), the control unit 109 determines that the next speaker has the next highest probability of the speaker. Also good. Further, the control unit 109 may set the utterance induction target person as the next participant of the utterance induction target person in the utterance induction process immediately before the time when the next speaker probability has the maximum value. Alternatively, the control unit 109 may set the utterance guidance target person as the predicted next speaker when the predicted next speaker has not yet become the utterance guidance target person.

具体的には、第1又は第4の次話者選択方法において、参加者xの次話者確率Pns (t)が最も高く、発話開始タイミングが時刻t1であったとき、時刻t1に参加者xが発話を開始しない条件下で、次話者確率Pns (t)がある任意の確率oを下回る時刻をt2(Pns (t2)<o)とする。時刻t2において次話者確率Pns (t2)を上回る他の参加者yがいるとき(Pns (t2)<Pns (t2))、ロボット100は参加者yに時刻t2で発話を促す(t2≧t1)。 Specifically, in the first or fourth next speaker selection method, when the next speaker probability P ns i (t) of the participant x is the highest and the utterance start timing is the time t1, the time t1 Let t2 (P ns x (t2) <o) be a time when the next speaker probability P ns x (t) falls below a certain probability o under the condition that the participant x does not start speaking. When there is another participant y exceeding the next speaker probability P ns x (t2) at time t2 (P ns x (t2) <P ns y (t2)), the robot 100 speaks to the participant y at time t2. (T2 ≧ t1).

また、第3又は第5の次話者選択方法において、参加者xの積分値Pns が最も高く、次話者確率Pns (t)が最大となる時刻t1(発話開始タイミング)に参加者xが発話を開始しない条件下で、次話者確率Pns (t)がある任意の確率oを下回る時刻をt2(Pns (t2)<o)とする。時刻t2において次話者確率Pns (t2)を上回る他の参加者yがいるとき(Pns (t2)<Pns (t2))、ロボット100は参加者yに時刻t2で発話を促す(t2≧t1)。 Further, in the third or fifth next speaker selection method, at the time t1 (speech start timing) when the integral value P ns i of the participant x is the highest and the next speaker probability P ns x (t) is the maximum. Let t2 (P ns x (t2) <o) be a time when the next speaker probability P ns x (t) falls below a certain probability o under the condition that the participant x does not start speaking. When there is another participant y exceeding the next speaker probability P ns x (t2) at time t2 (P ns x (t2) <P ns y (t2)), the robot 100 speaks to the participant y at time t2. (T2 ≧ t1).

なお、第2の次話者選択方法において、参加者xの次話者確率Pns (t)が最大となる時刻t1の次に、次話者確率が最大値をとる他の参加者yがいるとき、ロボット100は参加者yに時刻t2で発話を促す(t2≧t1)。 In the second next speaker selection method, after the time t1 at which the next speaker probability P ns x (t) of the participant x is maximized, another participant y whose next speaker probability has the maximum value is obtained. When there is, the robot 100 prompts the participant y to speak at time t2 (t2 ≧ t1).

制御部109は、次の発話誘導タイミングが経過するまでの間に、発話区間検出部107が発話区間の開始を検出した場合(ステップS109のYES)、参加者A〜Dのいずれかが発話したと判断し、ステップS107の処理を実行する。   When the utterance section detection unit 107 detects the start of the utterance section before the next utterance guidance timing elapses (YES in step S109), one of the participants A to D speaks. And the process of step S107 is executed.

ステップS105において、制御部109は、予測次話者がロボット100であると判断した場合(ステップS105:YES)、ロボット100に発話を行わせるよう制御する発話制御信号を出力する。音制御部110は、制御部109からの発話制御信号に基づいて発話を行わせると判断し、ロボット100に発話させるための会話情報を生成し、生成した会話情報に基づいた音信号をスピーカ115へ出力する(ステップS110)。これにより、ロボット100は、音信号に応じた発話をスピーカ115から発音する。   In step S105, when the control unit 109 determines that the predicted next speaker is the robot 100 (step S105: YES), the control unit 109 outputs an utterance control signal for controlling the robot 100 to utter. The sound control unit 110 determines that speech is to be performed based on the speech control signal from the control unit 109, generates conversation information for causing the robot 100 to speak, and outputs a sound signal based on the generated conversation information to the speaker 115. (Step S110). As a result, the robot 100 generates an utterance corresponding to the sound signal from the speaker 115.

音制御部110は、制御部109からの発話制御信号に基づいて、ロボット100の発話を終了するか否かを判断する(ステップS111)。ここで、ロボット100の発話を終了しない場合(ステップS111のNO)には、音制御部110は、ステップS110の処理に戻る。ロボット100の発話を終了する場合(ステップS111のYES)には、音制御部110は、会話情報の生成を停止することに応じて音信号の出力を停止する。   The sound control unit 110 determines whether or not to end the utterance of the robot 100 based on the utterance control signal from the control unit 109 (step S111). If the utterance of the robot 100 is not terminated (NO in step S111), the sound control unit 110 returns to the process in step S110. When the utterance of the robot 100 is ended (YES in step S111), the sound control unit 110 stops outputting the sound signal in response to stopping the generation of the conversation information.

ステップS106、ステップS109、又はステップS111においてYESと判断された後、ロボット100は、複数の参加者と会話を行う会話動作を終了するか否かを判断する(ステップS107)。ここで、会話動作を終了しないと判断した場合(ステップS107のNO)には、ステップS101の処理に戻る。会話動作を終了すると判断した場合(ステップS107のYES)には、ロボット100は、会話動作を終了する。例えば、参加者が電源スイッチ(図示せず)を入れたタイミングや会話モードのスイッチ(図示せず)をオンにしたタイミングで、ロボット100は、会話動作を開始し、参加者が電源スイッチを切ったタイミングや会話モードのスイッチをオフにしたタイミングで、ロボット100は、会話動作を終了する。   After YES is determined in step S106, step S109, or step S111, the robot 100 determines whether or not to end the conversation operation for performing conversation with a plurality of participants (step S107). If it is determined that the conversation operation is not terminated (NO in step S107), the process returns to step S101. If it is determined that the conversation operation is to be ended (YES in step S107), the robot 100 ends the conversation operation. For example, when the participant turns on a power switch (not shown) or turns on a conversation mode switch (not shown), the robot 100 starts a conversation operation, and the participant turns off the power switch. The robot 100 ends the conversation operation at the timing when the switch of the conversation mode or the switch of the conversation mode is turned off.

以上に説明したとおり、第1の実施形態におけるロボット100は、複数の参加者と会話する際に、各参加者の次話者確率に基づいて次話者を推定し、推定された次話者が発話のタイミングを逸した場合、次話者に発話を促す。これにより、発話のタイミングを逸した参加者が発話しやすいように誘導することができる。また、推定された次話者が発話のタイミングを逸した場合、他の話者に発話を促すことも可能である。例えば、参加者は意図的に発話を控えていることもある。そこで、他の参加者に発話を促すことにより、会話中に沈黙が発生して、参加者が気まずさを感じたりすることが少なくなる。   As described above, the robot 100 according to the first embodiment estimates the next speaker based on the next speaker probability of each participant when conversing with a plurality of participants, and the estimated next speaker. If the timing of utterance is missed, the next speaker is urged to speak. Thereby, it can guide so that the participant who missed the timing of speech may speak easily. Further, when the estimated next speaker misses the utterance timing, it is possible to urge other speakers to speak. For example, the participant may intentionally refrain from speaking. Therefore, by prompting other participants to speak, silence is generated during the conversation, and the participants are less likely to feel awkward.

なお、上記のステップS109において、次の発話誘導タイミングが経過するまでの間に、発話区間検出部107が発話区間の開始を検出しない場合、ロボット100は、ステップS103からの処理を行い、各参加者A〜Dの次話者確率を算出しなおしてもよい。   In step S109, if the utterance section detection unit 107 does not detect the start of the utterance section until the next utterance guidance timing elapses, the robot 100 performs the process from step S103 and performs each participation. The next speaker probabilities of the speakers A to D may be recalculated.

また、上記のステップS106において、制御部109は、いずれかの参加者の発話を検出したと判断した場合(ステップS106のYES)、さらに、発話者が予測次話者であるか否かを判断するようにしてもよい。制御部109は、発話者が予測次話者であると判断した場合、ステップS107の処理を実行する。一方、制御部109は、発話者が予測次話者ではないと判断した場合、予測次話者である参加者xが発話行う予定だったにもかかわらず、他の参加者yが割り込んで発話を行ったとみなし、参加者xに発話を促すようロボット100を制御する。促すタイミングは任意とすることができる。例えば、参加者yの発話の切れ目を検出し、この切れ目を検出した直後、又は、切れ目から所定時間後に、予測次話者を発話誘導対象者として発話誘導処理を行う。切れ目とは、例えば、「〜です。」といった語尾が発話された際や、無音区間がある任意の時間Dsを超えた時とすることができる。また、制御部109は、参加者yの発話を検出した直後、あるいは、参加者yの発話開始時刻から所定時間後に、参加者yの発話を制止する内容の音声を出力するよう指示する制御信号を音制御部110に出力してもよい。これにより、音制御部110は、「YYさん、ちょっと待ってください」といった内容の発話の音声をスピーカ115から出力する。その後、ロボット100は、予測次話者を発話誘導対象者として、ステップS108からの処理を実行してもよい。このように、参加者yの発話を制止する内容の音声によって、予測次話者の発話を促してもよい。   In step S106, when the control unit 109 determines that the speech of any participant has been detected (YES in step S106), the control unit 109 further determines whether or not the speaker is the predicted next speaker. You may make it do. When the control unit 109 determines that the speaker is the predicted next speaker, the control unit 109 performs the process of step S107. On the other hand, when the control unit 109 determines that the speaker is not the predicted next speaker, the other participant y interrupts and speaks even though the participant x who is the predicted next speaker is scheduled to speak. The robot 100 is controlled to urge the participant x to speak. The timing of prompting can be arbitrary. For example, an utterance break of the participant y is detected, and immediately after the break is detected or after a predetermined time from the break, the utterance guidance process is performed with the predicted next speaker as the utterance guidance target person. The break can be defined as, for example, when a ending such as “to” is uttered or when a silent period exceeds an arbitrary time Ds. Further, the control unit 109 instructs to output a voice with a content for stopping the utterance of the participant y immediately after detecting the utterance of the participant y or a predetermined time after the utterance start time of the participant y. May be output to the sound control unit 110. As a result, the sound control unit 110 outputs the voice of the utterance with the content “Please wait a moment, Mr. YY” from the speaker 115. Thereafter, the robot 100 may execute the processing from step S108 with the predicted next speaker as a speech guidance target person. In this way, the speech of the predicted next speaker may be urged by the voice whose content is to stop the speech of the participant y.

また、上記のステップS109において、制御部109は、いずれかの参加者の発話を検出したと判断した場合(ステップS109のYES)、発話者が発話誘導対象者であるか否かを判断するようにしてもよい。制御部109は、発話者が発話誘導対象者であると判断した場合、ステップS107の処理を実行する。一方、制御部109は、発話者が発話誘導対象者ではないと判断した場合、発話誘導対象者である参加者xが発話行う予定だったにもかかわらず、他の参加者yが割り込んで発話を行ったとみなし、参加者xに発話を促すようロボット100を制御する。例えば、上記と同様に、制御部109は、参加者yの発話の切れ目を検出した直後、又は、切れ目から所定時間後に、同じ発話誘導対象者について発話誘導処理を行う。あるいは、制御部109は、参加者yの発話を検出した直後、あるいは、参加者yの発話開始時刻から所定時間後に、参加者yの発話を制止する内容の音声を出力するよう指示する制御信号を音制御部110に出力する。   In step S109, when it is determined that the utterance of any participant is detected (YES in step S109), the control unit 109 determines whether or not the utterer is the utterance guidance target person. It may be. When the control unit 109 determines that the utterer is the utterance guidance target person, the control unit 109 executes the process of step S107. On the other hand, when the control unit 109 determines that the speaker is not the speech guidance target person, the other participant y interrupts and speaks even though the participant x who is the speech guidance target person is scheduled to speak. The robot 100 is controlled to urge the participant x to speak. For example, as described above, the control unit 109 performs the utterance guidance process for the same utterance guidance target person immediately after detecting the utterance break of the participant y or after a predetermined time from the break. Alternatively, the control unit 109 instructs to output a voice whose content is to stop the utterance of the participant y immediately after detecting the utterance of the participant y or a predetermined time after the utterance start time of the participant y. Is output to the sound control unit 110.

なお、本実施形態では、ロボット100が会話に参加する場合を例に記載したが、ロボット100は、会話に参加せず、参加者の発話を促す動作のみを行ってもよい。   In this embodiment, the case where the robot 100 participates in the conversation has been described as an example. However, the robot 100 may perform only the operation of prompting the participant to speak without participating in the conversation.

(第2の実施形態)
第2の実施形態では、ロボット自身の動き(呼吸動作、視線動作、頭部動作)からロボット自身の次話者確率Pns (t)を求める。ロボットは、求めた次話者確率Pns (t)と他の参加者の次話者確率とに基づいて、予測次話者及び発話開始タイミングを推定する。そのため、ロボットは、会話に参加し、会話中に、会話中の人間同様の動きを行う。つまり、ロボットは、会話中に、呼吸音を発したり胸の膨らみを変化させたりする呼吸動作、視線を話者に向ける等の視線動作、会話に応じて頷いたりする頭部動作を行う。以下では、第1の実施形態との差分を中心に説明する。
(Second Embodiment)
In the second embodiment, the next speaker probability P ns R (t) of the robot itself is obtained from the movement of the robot itself (breathing motion, line-of-sight motion, head motion). The robot estimates the predicted next speaker and the utterance start timing based on the obtained next speaker probability P ns R (t) and the next speaker probabilities of other participants. Therefore, the robot participates in the conversation and performs the same movement as the person in the conversation during the conversation. That is, during the conversation, the robot performs a breathing action that emits a breathing sound or changes the swelling of the chest, a gaze action such as directing the line of sight toward the speaker, and a head action that crawls according to the conversation. Below, it demonstrates centering on the difference with 1st Embodiment.

図7は、第2の実施形態におけるロボット100Aが備える機能構成の概略を示す図である。図7に示す第2の実施形態におけるロボット100Aは、第1の実施形態におけるロボット100と同じ構成要素を含む。よって、ロボット100Aの説明においては、第1の実施形態におけるロボット100と同じ構成要素については、同じ符号を付与して説明を省略する。   FIG. 7 is a diagram illustrating an outline of a functional configuration provided in the robot 100A according to the second embodiment. A robot 100A in the second embodiment shown in FIG. 7 includes the same components as the robot 100 in the first embodiment. Therefore, in the description of the robot 100A, the same components as those of the robot 100 according to the first embodiment are denoted by the same reference numerals and description thereof is omitted.

図7に示すように、ロボット100Aは、マイク101と、カメラ102と、センサ103と、音声入力部104と、映像入力部105と、センサ入力部106と、発話区間検出部107と、次話者確率推定部108Aと、制御部109Aと、音制御部110と、口部制御部111と、視線制御部112と、頭部制御部113と、胴部制御部114と、スピーカ115と、口部駆動部116と、眼部駆動部117と、頭部駆動部118と、胴部駆動部119と、センサ信号変換部120とを備える。   As shown in FIG. 7, the robot 100A includes a microphone 101, a camera 102, a sensor 103, an audio input unit 104, a video input unit 105, a sensor input unit 106, an utterance section detection unit 107, and a next story. Person probability estimation unit 108A, control unit 109A, sound control unit 110, mouth control unit 111, line of sight control unit 112, head control unit 113, torso control unit 114, speaker 115, mouth Unit driving unit 116, eye unit driving unit 117, head driving unit 118, torso driving unit 119, and sensor signal conversion unit 120.

次話者確率推定部108Aは、音声入力部104からの音声信号と、映像入力部105からの映像信号と、センサ入力部106からのセンサ信号と、発話区間検出部107からの発話区間情報と、制御部109Aからの疑似センサ信号とを入力とし、各参加者及びロボット100Aのそれぞれが時刻tに次話者となる確率である次話者確率を出力する。疑似センサ信号は、制御部109Aが生成する動作制御信号に基づいてロボット100を動作させ、かつ、そのロボット100Aの動作をセンサ103で検出したと仮定した場合に、センサ103が出力するセンサ信号である。   The next speaker probability estimation unit 108A includes an audio signal from the audio input unit 104, a video signal from the video input unit 105, a sensor signal from the sensor input unit 106, and speech segment information from the speech segment detection unit 107. Then, the pseudo sensor signal from the control unit 109A is input, and the next speaker probability, which is the probability that each participant and the robot 100A become the next speaker at time t, is output. The pseudo sensor signal is a sensor signal output by the sensor 103 when it is assumed that the robot 100 is operated based on the operation control signal generated by the control unit 109A and the operation of the robot 100A is detected by the sensor 103. is there.

次話者確率推定部108Aは、音声信号、映像信号、センサ信号及び発話区間情報に基づいて、発話区間情報で特定される発話区間の発話者を示す発話者情報を取得する。次話者確率推定部108Aは、音声信号、映像信号、センサ信号、疑似センサ信号及び取得した発話者情報に基づいて、ロボット100Aが時刻tに次話者となる確率であるPns R(t)及び各参加者iが時刻tに次話者となる確率である次話者確率Pns (t)を算出して、制御部109Aへ出力する。次話者確率推定部108Aは、次話者確率Pns R(t)及びPns (t)の他に、発話者情報及び参加者の位置情報を制御部109Aへ出力する。 The next speaker probability estimation unit 108A acquires speaker information indicating the speaker in the speech section specified by the speech section information based on the audio signal, the video signal, the sensor signal, and the speech section information. The next speaker probability estimation unit 108A, based on the audio signal, the video signal, the sensor signal, the pseudo sensor signal, and the acquired speaker information, is the probability that the robot 100A will be the next speaker at time t, P ns R (t ) And the next speaker probability P ns i (t), which is the probability that each participant i will be the next speaker at time t, is output to the control unit 109A. The next speaker probability estimation unit 108A outputs the speaker information and the participant position information to the control unit 109A in addition to the next speaker probabilities P ns R (t) and P ns i (t).

次話者確率推定部108Aは、参加者の位置情報を、例えば、センサ103の参加者の位置を計測したセンサ信号に基づいて取得してもよいし、映像信号に基づいて取得してもよいし、センサ103の参加者の位置を計測したセンサ信号及び映像信号に基づいて取得してもよい。   The next speaker probability estimation unit 108A may acquire the position information of the participant based on, for example, a sensor signal obtained by measuring the position of the participant of the sensor 103 or based on a video signal. Alternatively, the position of the participant of the sensor 103 may be acquired based on the sensor signal and the video signal.

制御部109Aは、次話者確率推定部108Aからの次話者確率Pns (t)、発話者情報及び参加者の位置情報を入力とし、発話制御信号又は発話誘導動作制御信号を出力する。制御部109Aは、各参加者及びロボット100Aの次話者確率Pns (t)に基づいて予測次話者と発話開始タイミングを推定する。制御部109Aは、具体的には、以下に示す第6〜第10の次話者選択方法のいずれかを用いて次話者を選択する。なお、以下の説明においては、参加者A、B、C、Dの4名とロボット100Aとが会話を行う場合について説明する。制御部109Aは、次話者確率推定部108Aから次話者確率Pns (t),(i∈{A,B,C,D,R})を取得する。 The control unit 109A receives the next speaker probability P ns i (t) from the next speaker probability estimation unit 108A, the speaker information, and the position information of the participant, and outputs a speech control signal or a speech guidance operation control signal. . The control unit 109A estimates the predicted next speaker and the utterance start timing based on each participant and the next speaker probability P ns i (t) of the robot 100A. Specifically, the control unit 109A selects the next speaker using any of the sixth to tenth next speaker selection methods described below. In the following description, a case will be described in which four participants A, B, C, and D have a conversation with the robot 100A. The control unit 109A acquires the next speaker probability P ns i (t), (iε {A, B, C, D, R}) from the next speaker probability estimation unit 108A.

(第6の次話者選択方法)
制御部109Aは、参加者A〜D及びロボット100Aの次話者確率Pns (t),(i∈{A,B,C,D,R})を比較する。制御部109Aは、Pns (t)が最大であると判断した場合は、ロボット100Aを予測次話者とする。制御部109Aは、Pns (t)が最大ではないと判断した場合は、次話者確率Pns (t)の最大値が最も高い参加者A〜Dのいずれかを予測次話者と判断する。制御部109Aは、予測次話者の次話者確率Pns (t)が最大値を取るときの時刻tを予測次話者の発話開始タイミングとする。
(Sixth speaker selection method)
The control unit 109A compares the participants A to D and the next speaker probability P ns i (t), (iε {A, B, C, D, R}) of the robot 100A. When the control unit 109A determines that P ns R (t) is the maximum, the control unit 109A sets the robot 100A as a predicted next speaker. When the control unit 109A determines that P ns R (t) is not the maximum, the control unit 109A predicts one of the participants A to D having the highest maximum value of the next speaker probability P ns i (t). Judge. The control unit 109A sets the time t when the next speaker probability P ns i (t) of the predicted next speaker takes the maximum value as the speech start timing of the predicted next speaker.

(第7の次話者選択方法)
制御部109Aは、次話者確率Pns (t),(i∈{A,B,C,D,R})が最も早い時刻に最大値をとる参加者又はロボット100Aのいずれかを予測次話者と判断する。制御部109Aは、予測次話者の次話者確率Pns (t)が最大値を取るときの時刻tを予測次話者の発話開始タイミングとする。
(Seventh speaker selection method)
The control unit 109A predicts either the participant or the robot 100A whose next speaker probability P ns i (t), (iε {A, B, C, D, R}) takes the maximum value at the earliest time. Judge as the next speaker. The control unit 109A sets the time t when the next speaker probability P ns i (t) of the predicted next speaker takes the maximum value as the speech start timing of the predicted next speaker.

(第8の次話者選択方法)
制御部109Aは、参加者A〜D及びロボット100Aの次話者確率Pns (t),(i∈{A,B,C,D,R})それぞれを、時刻tについて所定時間(例えば、発話終了から3〜4秒以上の時間)積分して、積分値Pns を取得する。なお、積分区間を発話終了から無限時間としてもよく、全参加者の次話者確率Pns (t)が所定値未満となり有意な値ではなくなる時間までとしてもよい。制御部109Aは、この積分値Pns が最も大きい参加者A〜D又はロボット100Aのいずれかを予測次話者と判断する。制御部109Aは、予測次話者の次話者確率Pns (t)が最大値を取るときの時刻tを予測次話者の発話開始タイミングとする。
(Eighth next speaker selection method)
The control unit 109A sets the next speaker probabilities P ns i (t), (i∈ {A, B, C, D, R}) of the participants A to D and the robot 100A for a predetermined time (for example, Then, the integration value P ns i is obtained. The integration interval may be infinite time from the end of the utterance, or may be the time until the next speaker probability P ns i (t) of all the participants becomes less than a predetermined value and is not significant. The control unit 109A determines that one of the participants A to D or the robot 100A having the largest integral value P ns i is the predicted next speaker. The control unit 109A sets the time t when the next speaker probability P ns i (t) of the predicted next speaker takes the maximum value as the speech start timing of the predicted next speaker.

(第9の次話者選択方法)
制御部109Aは、参加者A〜Dの次話者確率Pns (t),(i∈{A,B,C,D})を加算した加算値(Pns (t)+Pns (t)+Pns (t)+Pns (t))を取得する。制御部109Aは、この加算値と、ロボット100Aの次話者確率Pns (t)に定数ιを乗算したPns (t)・ιと比較する(ιは正の値となる任意の定数)。制御部109Aは、加算値(Pns (t)+Pns (t)+Pns (t)+Pns (t))<Pns (t)・ιと判断した場合は、ロボット100Aを予測次話者とする。制御部109Aは、加算値(Pns (t)+Pns (t)+Pns (t)+Pns (t))≧Pns (t)・ιと判断した場合は、第1の実施形態の第1〜第3のいずれかの次話者選択方法によって、予測次話者と発話開始タイミングを得る。ただし、第1〜第3の次話者選択方法において、第1〜第3の閾値との比較は行わなくてもよい。このときの予測次話者は、参加者A〜Dのいずれかである。
(9th next speaker selection method)
The control unit 109A adds the next speaker probability P ns i (t), (i∈ {A, B, C, D}) of the participants A to D (P ns A (t) + P ns B (T) + P ns C (t) + P ns D (t)) is acquired. The control unit 109A compares this added value with P ns R (t) · ι obtained by multiplying the next speaker probability P ns R (t) of the robot 100A by a constant ι (ι is an arbitrary value having a positive value). constant). When the control unit 109A determines that the addition value (P ns A (t) + P ns B (t) + P ns C (t) + P ns D (t)) <P ns R (t) · ι, Is the predicted next speaker. When the control unit 109A determines that the added value (P ns A (t) + P ns B (t) + P ns C (t) + P ns D (t)) ≧ P ns R (t) · ι, The predicted next speaker and the utterance start timing are obtained by any one of the first to third next speaker selection methods of the embodiment. However, in the first to third next speaker selection methods, the comparison with the first to third threshold values may not be performed. The predicted next speaker at this time is one of the participants A to D.

(第10の次話者選択方法)
制御部109Aは、参加者A〜D及びロボット100Aの次話者確率Pns (t),(i∈{A,B,C,D,R})それぞれを、時刻tについて所定時間(例えば、3〜4秒以上の時間)積分して、積分値Pns を取得する。制御部109Aは、参加者A〜Dの全員の積分値Pns を加算した加算値(Pns +Pns +Pns +Pns )と、ロボット100Aの積分値Pns に定数ζを乗算したPns ・ζと比較する(ζは正の値となる任意の定数)。制御部109Aは、(Pns +Pns +Pns +Pns )<Pns ・ζと判断した場合は、ロボット100Aを予測次話者とする。制御部109Aは、(Pns +Pns +Pns +Pns )≧Pns ・ζと判断した場合は、第1の実施形態の第1〜第3のいずれかの次話者選択方法によって、予測次話者と発話開始タイミングを得る。ただし、第1〜第3の次話者選択方法において、第1〜第3の閾値との比較は行わなくてもよい。このときの予測次話者は、参加者A〜Dのいずれかである。
(10th next speaker selection method)
The control unit 109A sets the next speaker probabilities P ns i (t), (i∈ {A, B, C, D, R}) of the participants A to D and the robot 100A for a predetermined time (for example, , Integration time P ns i is obtained. The control unit 109A adds a constant ζ to an addition value (P ns A + P ns B + P ns C + P ns D ) obtained by adding the integration values P ns i of all the participants A to D, and the integration value P ns R of the robot 100A. Is compared with P ns R · ζ multiplied by (ζ is an arbitrary constant having a positive value). Control unit 109A, if it is determined that <P ns R · ζ (P ns A + P ns B + P ns C + P ns D), the robot 100A and predicted next talker. When the control unit 109A determines that (P ns A + P ns B + P ns C + P ns D ) ≧ P ns R · ζ, the controller selects one of the first to third speakers in the first embodiment. According to the method, the predicted next speaker and the utterance start timing are obtained. However, in the first to third next speaker selection methods, the comparison with the first to third threshold values may not be performed. The predicted next speaker at this time is one of the participants A to D.

次話者確率Pns (t),(i∈{A,B,C,D,R})は、図3に示したように、発話終了から所定時間後にピークを有する場合が多い。そこで、制御部109Aは、第6〜第10の次話者選択方法において、次話者確率Pns (t)を求める時刻tを含む窓幅を設けて、その窓幅の中における次話者確率の最大値を、時刻tにおける次話者確率Pns (t)として用いるようにしてもよい。また、制御部109Aは、第6〜第10の次話者選択方法において、次話者確率Pns (t)を求める時刻tを含む窓幅を設けて、その窓幅の中における次話者確率に複数のピークがある場合に、n番目(nは1以上の整数)のピークの次話者確率を、時刻tにおける次話者確率Pns (t)として用いるようにしてもよい。 The next speaker probability P ns i (t), (iε {A, B, C, D, R}) often has a peak after a predetermined time from the end of the utterance, as shown in FIG. Therefore, in the sixth to tenth next speaker selection methods, control unit 109A provides a window width including time t for determining next speaker probability P ns i (t), and the next episode within the window width. The maximum speaker probability may be used as the next speaker probability P ns i (t) at time t. In addition, in the sixth to tenth next speaker selection methods, the control unit 109A provides a window width including the time t for obtaining the next speaker probability P ns i (t), and the next story within the window width. When the speaker probability has a plurality of peaks, the next speaker probability of the nth peak (n is an integer of 1 or more) may be used as the next speaker probability P ns i (t) at time t. .

制御部109Aが備える動作パターン情報格納部1091Aは、第1の実施形態の動作パターン情報格納部1091が記憶する動作パターンに加え、ロボット100Aが会話中に行う動作の動作パターン情報を格納する。ロボット100Aが会話中に行う動作とは、例えば、発話を開始する前に、これから発話を行うことを周りの人に察知させるよう人が行っている動作と同様の動作である。例えば、複数人が会話している際に、非話者である人が次話者として発話する直前に行う行動を解析した結果、以下の(1)〜(3)の行動が「次は私が話を始めます」ということを周囲に示す行動であると考えられる。
(1)吸気音又はフィラーを発声する
(2)現話者に視線向ける
(3)現話者の会話に頷く
The operation pattern information storage unit 1091A included in the control unit 109A stores operation pattern information of operations performed by the robot 100A during conversation in addition to the operation patterns stored in the operation pattern information storage unit 1091 of the first embodiment. The operation performed by the robot 100A during the conversation is, for example, the same operation as the operation performed by a person so as to let other people know that an utterance is to be performed before the utterance is started. For example, as a result of analyzing behaviors performed immediately before a non-speaker speaks as the next speaker when multiple people are talking, the following behaviors (1) to (3) are It is thought that this is an action that indicates to the surroundings.
(1) Speaking inspiratory sound or filler (2) Directing gaze toward the current speaker (3) Speaking into the current speaker's conversation

上述した解析結果を参考にして、制御部109Aは、ロボット100Aの発話前に、ロボット100Aに上述した(1)〜(3)の動作を行わせるよう制御することで、ロボット100Aがもうすぐ発話を開始することを参加者に予見させることができる。ロボット100Aが上述した(1)〜(3)の動作を行うと次話者確率推定部108Aが推定するロボット100Aの次話者確率Pns (t)が上昇する。すなわち、発話を行うことを周りの人に察知させる動作とは、例えば、現話者に視線を移動させる動作、頭を頷かせる動作、吸気音とともに吸気する動作等を含む。 With reference to the analysis result described above, the control unit 109A controls the robot 100A to perform the operations (1) to (3) described above before the robot 100A speaks, so that the robot 100A speaks soon. Let participants foresee to start. When the robot 100A performs the operations (1) to (3) described above, the next speaker probability P ns R (t) of the robot 100A estimated by the next speaker probability estimation unit 108A increases. That is, the operation of making the surrounding people sense that the utterance is performed includes, for example, an operation of moving the line of sight to the current speaker, an operation of raising the head, an operation of inhaling with the intake sound, and the like.

制御部109Aは、以下の公知文献に記載の技術を用いてロボット100Aに上述した(1)〜(3)の動作を行わせるよう制御してもよい。
(1)の吸気音を発声する動作をロボット100Aに行わせるための技術として以下の参考文献3に記載された公知技術がある。
参考文献3:吉田直人、外3名、“吐息と腹部運動を伴う呼吸表現に関する因子分析に基づいた生物的身体感情インタラクションの設計”、HAIシンポジウム2014、2014年
(2)の現話者に視線を向ける動作をロボット100Aに行わせるための技術として上記の参考文献2に記載された公知技術がある。
(3)の現話者の会話に頷く動作をロボット100Aに行わせるための技術として以下の参考文献4に記載された公知技術がある。
参考文献4:渡辺富夫、外3名、“InterActorを用いた発話音声に基づく身体的インタラクションシステム”、ヒューマンインタフェース学会論文誌、Vol.2、No.2、pp.21−29、2000年
The control unit 109A may control the robot 100A to perform the above-described operations (1) to (3) using a technique described in the following publicly known document.
There is a known technique described in Reference Document 3 below as a technique for causing the robot 100A to perform the action of uttering the intake sound of (1).
Reference 3: Naoto Yoshida, 3 others, “Design of biological body emotion interaction based on factor analysis on breathing expression with breathing and abdominal movement”, HAI Symposium 2014, 2014 (2) gaze at current speaker As a technique for causing the robot 100 </ b> A to perform the operation of directing the above, there is a known technique described in Reference Document 2 above.
There is a known technique described in Reference Document 4 below as a technique for causing the robot 100 </ b> A to perform the action of speaking the current speaker in (3).
Reference 4: Tomio Watanabe and 3 others, “Physical interaction system based on speech using InterActor”, Journal of Human Interface Society, Vol. 2, No. 2, pp. 21-29, 2000

制御部109Aは、予測次話者がいずれかの参加者である場合、第1の実施形態の制御部109と同様の動作を行う。制御部109Aは、予測次話者がロボット100Aの場合、ロボット100Aの発話の制御を行う発話制御信号を音制御部110に出力する。さらに、制御部109Aは、呼吸音やフィラーを発音するよう指示する発音指示信号を音制御部110へ出力する。ここで、フィラーとは、言い淀み時などに出現する場つなぎのための発声であり、例えば、「あのー」、「そのー」、「えっと」、等の音声である。また、制御部109Aは、次話者確率推定部108Aからの発話者情報及び参加者の位置情報に基づいて、動作パターン情報格納部1091Aから動作パターン情報を取得して動作制御信号を生成し、生成した動作制御信号を口部制御部111、視線制御部112、頭部制御部113及び胴部制御部114へ出力する。   When the predicted next speaker is any participant, the control unit 109A performs the same operation as the control unit 109 of the first embodiment. When the predicted next speaker is the robot 100A, the control unit 109A outputs an utterance control signal for controlling the utterance of the robot 100A to the sound control unit 110. Further, the control unit 109A outputs a sound generation instruction signal for instructing to sound a breathing sound or a filler to the sound control unit 110. Here, the filler is an utterance for joining the scenes that appears at the time of complaining, for example, “Ao”, “That”, “Et”, and the like. Further, the control unit 109A acquires the operation pattern information from the operation pattern information storage unit 1091A based on the speaker information and the participant position information from the next speaker probability estimation unit 108A, and generates an operation control signal. The generated motion control signal is output to the mouth control unit 111, the line-of-sight control unit 112, the head control unit 113, and the torso control unit 114.

センサ信号変換部120は、制御部109Aが生成した動作制御信号を疑似センサ信号に変換して次話者確率推定部108Aに出力する。   The sensor signal conversion unit 120 converts the motion control signal generated by the control unit 109A into a pseudo sensor signal and outputs the pseudo sensor signal to the next speaker probability estimation unit 108A.

第2の実施形態におけるロボット100Aの外観は、図2に示したロボット100と同一である。   The appearance of the robot 100A in the second embodiment is the same as that of the robot 100 shown in FIG.

以上の構成により、ロボット100Aは、発話を行いたい場合に、発話前に、動作制御信号に基づいて視線を参加者に向けたり、呼吸音やフィラーを発音したりすることができる。参加者は、ロボット100Aが発話を開始する前に、ロボット100Aがまもなく発話することを予見することができる。この予見により、参加者とロボット100Aとの発話衝突を防ぎ、スムーズな会話を実現することができる。   With the above configuration, the robot 100A can turn the line of sight toward the participant based on the operation control signal, or can generate a breathing sound or a filler before speaking, when it is desired to speak. The participant can foresee the robot 100A speaking soon before the robot 100A starts speaking. By this prediction, it is possible to prevent a speech collision between the participant and the robot 100A and realize a smooth conversation.

次に、第2の実施形態におけるロボット100Aの動作について説明する。
図8は、第2の実施形態におけるロボット100Aの動作を示すフロー図である。図8に示す処理は、図6に示した処理と同様に、ロボット100Aにおいて、複数の参加者と会話を行う動作を開始した際に行う処理である。
Next, the operation of the robot 100A in the second embodiment will be described.
FIG. 8 is a flowchart showing the operation of the robot 100A in the second embodiment. The process illustrated in FIG. 8 is a process performed when the robot 100A starts an operation of having conversations with a plurality of participants, similarly to the process illustrated in FIG.

音声入力部104は、マイク101からの音声信号が入力され、映像入力部105は、カメラ102からの映像信号が入力され、センサ入力部106は、センサ103からのセンサ信号が入力される。また、制御部109Aの制御によりロボット100Aの会話動作を行う(ステップS201)。ロボット100Aの会話動作には、上述した(1)〜(3)の動作が含まれる。このロボット100Aの会話動作に応じて、センサ信号変換部120は、疑似センサ信号を次話者確率推定部108Aに出力する。   The audio input unit 104 receives the audio signal from the microphone 101, the video input unit 105 receives the video signal from the camera 102, and the sensor input unit 106 receives the sensor signal from the sensor 103. Further, the conversation operation of the robot 100A is performed under the control of the control unit 109A (step S201). The conversation operation of the robot 100A includes the operations (1) to (3) described above. In response to the conversation operation of the robot 100A, the sensor signal conversion unit 120 outputs a pseudo sensor signal to the next speaker probability estimation unit 108A.

発話区間検出部107は、音声入力部104からの音声信号に基づいて、音声特徴量を算出し、算出した音声特徴量と所定の閾値を比較して発話区間を検出する(ステップS202)。次話者確率推定部108Aは、音声信号、映像信号、センサ信号、疑似センサ信号及び発話者情報に基づいて、ロボット100A及び各参加者iが時刻tに次話者となる確率である次話者確率Pns (t)を算出する(ステップS203)。 The utterance section detection unit 107 calculates a speech feature amount based on the speech signal from the speech input unit 104, compares the calculated speech feature amount with a predetermined threshold value, and detects a speech section (step S202). The next-speaker probability estimating unit 108A is a next-speak that is the probability that the robot 100A and each participant i will be the next speaker at time t based on the audio signal, video signal, sensor signal, pseudo sensor signal, and speaker information. A person probability P ns i (t) is calculated (step S203).

制御部109Aは、次話者確率推定部108Aからのロボット100A及び各参加者の次話者確率に基づいて、上述した第6〜第10の次話者選択方法のいずれかを用いて、予測次話者と予測次話者の発話開始タイミングを得る(ステップS204)。
ロボット100AのステップS205〜ステップS211の処理は、第1の実施形態のステップS105〜ステップS111の処理と同様である。ただし、ロボット100Aは、ステップS210の処理の前に、動作制御信号に基づいて視線を参加者に向けたり、発音指示信号に基づいて呼吸音やフィラーを発音したりする。
Based on the robot 100A from the next-speaker probability estimating unit 108A and the next-speaker probability of each participant, the control unit 109A performs prediction using any of the sixth to tenth next-speaker selection methods described above. The utterance start timing of the next speaker and the predicted next speaker is obtained (step S204).
The processing of step S205 to step S211 of the robot 100A is the same as the processing of step S105 to step S111 of the first embodiment. However, the robot 100A directs the line of sight to the participant based on the operation control signal or sounds the breathing sound or filler based on the sound generation instruction signal before the process of step S210.

以上に説明したとおり、第2の実施形態におけるロボット100Aは、他の参加者と発話のタイミングが重なる発話衝突の発生を低減し、適切なタイミングで発話を行いながらも、参加者が発話のタイミングを逸した場合に、発話を促すことができる。   As described above, the robot 100 </ b> A according to the second embodiment reduces the occurrence of utterance collisions in which the timing of utterances overlaps with other participants, and the utterance timing of the participants while speaking at an appropriate timing. If you miss, you can encourage utterance.

(第1、第2の実施形態に共通の次話者を推定する処理の具体例)
次に、上述したロボット100および第2の実施形態におけるロボット100Aに共通である次話者を推定する処理の具体例について説明する。ロボット100及びロボット100Aにおける次話者推定には、例えば、以下の参考文献5、6の技術などを適用することができるが、任意の既存の技術を利用してもよい。参考文献5、6記載の技術を利用した場合は、注視対象検出装置203が出力する注視対象情報に基づく発話者と非発話者の注視行動の遷移パターンを用いて、次話者確率推定部108又は次話者確率推定部108Aは、次話者および発話のタイミングを予測する。
(Specific example of processing for estimating next speaker common to the first and second embodiments)
Next, a specific example of the process for estimating the next speaker common to the robot 100 described above and the robot 100A in the second embodiment will be described. For example, the techniques of the following references 5 and 6 can be applied to the estimation of the next speaker in the robot 100 and the robot 100A, but any existing technique may be used. When the techniques described in References 5 and 6 are used, the next speaker probability estimation unit 108 is used by using the transition pattern of the gaze behavior of the speaker and the non-speaker based on the gaze target information output by the gaze target detection device 203. Alternatively, the next speaker probability estimation unit 108A predicts the next speaker and the timing of the utterance.

参考文献5:特開2014−238525号公報
参考文献6:石井亮、外4名、“複数人対話における注視遷移パターンに基づく次話者と発話タイミングの予測”、人工知能学会研究会資料、SIG-SLUD-B301-06、pp.27-34、2013年
Reference 5: Japanese Patent Application Laid-Open No. 2014-238525 Reference 6: Ryo Ishii and 4 others, “Prediction of next speaker and utterance timing based on gaze transition pattern in multi-person dialogue”, Japanese Society for Artificial Intelligence, SIG -SLUD-B301-06, pp.27-34, 2013

以下に、本実施形態に適用可能な参考文献5、6以外の次話者推定技術の例を示す。
会話の参加者の呼吸動作は次発話者と発話のタイミングに深い関連性がある。このことを利用して、会話の参加者の呼吸動作をリアルタイムに計測し、計測された呼吸動作から発話の開始直前に行われる特徴的な呼吸動作を検出し、この呼吸動作を基に次発話者とその発話タイミングを高精度に算出する。具体的には、発話開始直前におこなわれる呼吸動作の特徴として、発話を行っている発話者は、継続して発話する際(発話者継続時)には、発話終了直後にすぐに急激に息を吸い込む。逆に発話者が次に発話を行わない際(発話者交替時)には、発話者継続時に比べて、発話終了時から間を空けて、ゆっくりと息を吸い込む。また、発話者交替時に、次に発話をおこなう次発話者は、発話を行わない非発話者に比べて大きく息を吸い込む。このような発話の前におこなわれる呼吸は、発話開始に対しておおよそ決められたタイミングで行われる。このように、発話の直前に次発話者は特徴的な息の吸い込みを行うため、このような息の吸い込みの情報は、次発話者とその発話タイミングを予測するのに有用である。本次話者推定技術では、人物の息の吸い込みに着目し、息の吸い込み量や吸い込み区間の長さ、タイミングなどの情報を用いて、次発話者と発話タイミングを予測する。
Below, the example of the next speaker estimation technique other than the references 5 and 6 applicable to this embodiment is shown.
The breathing behavior of conversation participants is closely related to the next speaker and the timing of the speech. Using this, the breathing motion of the participant in the conversation is measured in real time, the characteristic breathing motion performed immediately before the start of the utterance is detected from the measured breathing motion, and the next utterance is based on this breathing motion And the utterance timing are calculated with high accuracy. Specifically, as a feature of breathing movement performed immediately before the start of utterance, when a speaker who is speaking continuously speaks (when the speaker continues), he immediately breathes immediately after the end of the utterance. Inhale. Conversely, when the speaker does not speak next (speaker change), inhale slowly after the end of the speech, compared to when the speaker continues. Further, at the time of changing the speaker, the next speaker who speaks next inhales more greatly than the non-speaker who does not speak. Breathing performed before such utterance is performed at a timing roughly determined with respect to the start of the utterance. As described above, since the next speaker performs a characteristic breath inhalation immediately before the utterance, such breath inhalation information is useful for predicting the next speaker and the timing of the utterance. In this next speaker estimation technique, attention is paid to a person's breath inhalation, and information such as the amount of breath inhalation, the length of the breathing section, and timing is used to predict the next speaker and the speech timing.

以下では、A人の参加者P,…,Pが対面コミュニケーションを行う状況を想定する。参加者P(ただし、a=1,…,A、A≧2)には呼吸動作計測装置202およびマイク101が装着される。呼吸動作計測装置202は、参加者Pの呼吸動作を計測し、各離散時刻tでの計測結果を表す呼吸情報Ba,tを得て、次話者確率推定部108又は次話者確率推定部108Aに出力する。呼吸動作計測装置202が、バンド式の呼吸装置を備える構成について説明する。バンド式の呼吸装置は、バンドの伸縮の強さによって呼吸の深さの度合いを示す値を出力する。息の吸い込みが大きいほどバンドの伸びが大きくなり、逆に息の吐き出しが大きいほどバンドの縮みが大きくなる(バンドの伸びが小さくなる)。以降、この値をRSP値と呼ぶ。なお、RSP値は、バンドの伸縮の強さに応じて参加者Pごとに異なる大きさを取る。そこで、これに起因するPごとのRSP値の相違を排除するために、各参加者PのRSP値の平均値μと標準偏差値δを用いて、μが1、μ−δが−1になるように参加者PごとにRSP値を正規化する。これによって、すべての参加者Pの呼吸動作データを同一に分析することが可能となる。各呼吸動作計測装置202は、正規化されたRSP値を呼吸情報Ba,tとして次話者確率推定部108又は次話者確率推定部108Aに送る。 In the following, the participants P 1 of the A's, ..., P A is assumed a situation to perform a face-to-face communication. Participants P a (where a = 1,..., A, A ≧ 2) are equipped with the respiratory motion measuring device 202 and the microphone 101. Respiration measuring device 202 measures the respiration of the participant P a, respiration information B a representative of the measurement results for each discrete time t, to obtain t, next speaker probability estimation unit 108 or the next speaker probability It outputs to the estimation part 108A. A configuration in which the respiratory motion measuring device 202 includes a band-type respiratory device will be described. The band-type breathing apparatus outputs a value indicating the degree of breathing depth according to the strength of expansion and contraction of the band. The greater the inhalation of the breath, the greater the stretch of the band, and the greater the exhalation of the breath, the greater the contraction of the band (the less the stretch of the band). Hereinafter, this value is referred to as an RSP value. It should be noted, RSP value, take a different size each participant P a according to the strength of the expansion and contraction of the band. Therefore, in order to eliminate the difference of RSP values for each P a resulting therefrom, using the average value mu a and the standard deviation value [delta] a of RSP values for each participant P a, μ a + δ a is 1 , μ a a normalizes RSP values for each participant P a to be -1. This makes it possible to analyze the same respiratory motion data for all participants P a. Each breathing motion measuring apparatus 202 sends the normalized RSP value to the next speaker probability estimating unit 108 or the next speaker probability estimating unit 108A as the breathing information Ba , t .

さらに、マイク101は、参加者Pの音声を取得し、各離散時刻tでの参加者Pの音声を表す音声信号Va,tを得て、次話者確率推定部108又は次話者確率推定部108Aに出力する。次話者確率推定部108又は次話者確率推定部108Aは、入力された音声信号Va,t(ただし、a=1,…,A)から雑音を除去し、さらに発話区間U(ただし、kは発話区間Uの識別子)とその発話者Pukとを抽出する。ただし、「Puk」の下付き添え字はu=1,…,Aを表す。1つの発話区間UをTd[ms]連続した無音区間で囲まれた区間と定義し、この発話区間Uを発話の一つの単位と規定する。これにより、次話者確率推定部108又は次話者確率推定部108Aは、各発話区間Uを表す発話区間情報、およびその発話者Pukを表す発話者情報(参加者P,…,Pのうち何れが発話区間Uでの発話者Pukであるかを表す発話者情報)を得る。 Further, the microphone 101 acquires the voice of the participant P a, the audio signals V a representative of the speech of the participant P a at each discrete time t, to obtain t, next speaker probability estimation unit 108 or Tsugihanashi To the person probability estimation unit 108A. The next speaker probability estimator 108 or the next speaker probability estimator 108A removes noise from the input speech signal V a, t (where a = 1,..., A), and further utters the speech interval U k (where , K is an identifier of the utterance section U k ) and its speaker P uk . However, the subscript “P uk ” represents u k = 1,. One utterance section U k is defined as a section surrounded by Td [ms] continuous silence sections, and this utterance section U k is defined as one unit of utterance. Thus, the following speaker probability estimation unit 108 or the next speaker probability estimation unit 108A, the speech period information representing each speech segment U k, and speaker information (participant P 1 representing the speaker P uk, ..., any get speaker information) indicating whether the speaker P uk in the speech segment U k of P a.

次話者確率推定部108又は次話者確率推定部108Aは、各参加者Pの呼吸情報Ba,tを用いて、各参加者Pの息の吸い込み区間Ia,kを抽出し、さらに息の吸い込みに関するパラメータλa,kを取得する。息の吸い込み区間とは、息を吐いている状態から、息を吸い込みだす開始位置と、息を吸い込み終わる終了位置との間の区間を示す。 Next speaker probability estimation unit 108 or the next speaker probability estimation unit 108A, the breathing information B a of each participant P a, with t, suction section I a, the k extracted breath of each participant P a Further, parameters λ a, k relating to breath inhalation are acquired. The breath inhaling section indicates a section between a start position where the breath is inhaled and an end position where the breath is finished after the breath is being exhaled.

図9は、息の吸い込み区間の例を示す図である。図9を用いて、息の吸い込み区間Ia,kの算出方法を例示する。ここで参加者Pの離散時刻tでのRSP値をRa,tと表記する。RSP値Ra,tは呼吸情報Ba,tに相当する。図9に例示するように、例えば、以下の(式1)が成り立つとき、 FIG. 9 is a diagram illustrating an example of a breath inhaling section. Using FIG. 9, a method for calculating the breath inhalation interval I a, k will be exemplified. Here referred to the RSP value in the discrete time t of the participant P a R a, and t. The RSP value R a, t corresponds to the respiration information B a, t . As illustrated in FIG. 9, for example, when the following (Equation 1) holds,

Figure 2017123027
Figure 2017123027

離散時刻t=ts(k)の前2フレームでRSP値Ra,tが連続して減少し、その後2フレームでRSP値Ra,tが連続して上昇しているから、離散時刻ts(k)を息の吸い込みの開始位置とする。さらに、以下の(式2)が成り立つとき、 RSP value R a in the previous two frames discrete time t = t s (k), t continuously decreases, RSP value R a in the subsequent two frames, since t is increasing continuously, discrete time t Let s (k) be the inhalation start position. Furthermore, when the following (Equation 2) holds,

Figure 2017123027
Figure 2017123027

離散時刻t=te(k)の前2フレームのRSP値Ra,tが連続して上昇し、その後2フレームのRSP値Ra,tが連続して減少しているから、離散時刻te(k)を息の吸い込みの終了位置とする。このとき、参加者Pの息の吸い込み区間Ia,kはts(k)からte(k)までの区間となり、息の吸い込み区間の長さはte(k)−ts(k)となる。 Since the RSP values R a, t of the previous two frames at the discrete time t = te (k) continuously increase and then the RSP values Ra, t of the two frames decrease continuously, the discrete time t Let e (k) be the end position of breath inhalation. In this case, the suction section I a breath of participants P a, k becomes the interval from t s (k) to t e (k), the length of the suction section of breath t e (k) -t s ( k) .

次話者確率推定部108又は次話者確率推定部108Aは、息の吸い込み区間Ia,kが抽出されると、息の吸い込み区間Ia,k、呼吸情報Ba,t、および発話区間Uの少なくとも一部を用い、息の吸い込みに関するパラメータλ’a,kを抽出する。パラメータλ’a,kは、参加者Pの吸い込み区間Ia,kでの息の吸い込みの量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,kとの時間関係の少なくとも一部を表す。パラメータλ’a,kは、これらの一つのみを表してもよいし、これらのうち複数を表してもよいし、これらすべてを表してもよい。パラメータλ’a,kは、例えば以下のパラメータMINa,k,MAXa,k,AMPa,k,DURa,k,SLOa,k,INT1a,kの少なくとも一部を含む。パラメータλ’a,kは、これらの1つのみを含んでいてもよいし、これらのうち複数を含んでいてもよいし、これらのすべてを含んでいてもよい。
・MINa,k:参加者Pの息の吸い込み開始時のRSP値Ra,t、すなわち、息の吸い込み区間Ia,kのRSP値Ra,tの最小値。
・MAXa,k:参加者Pの息の吸い込み終了時のRSP値Ra,t、すなわち、息の吸い込み区間Ia,kのRSP値Ra,tの最大値。
・AMPa,k:参加者Pの息の吸い込み区間Ia,kのRSP値Ra,tの振幅、すなわち、MAXa,k−MINa,kで算出される値。吸い込み区間Ia,kでの息の吸い込み量を表す。
・DURa,k:参加者Pの息の吸い込み区間Ia,kの長さ、すなわち、息の吸い込み区間Ia,kの終了位置の離散時刻te(k)から開始位置の離散時刻ts(k)を減じて得られる値te(k)−ts(k)
・SLOa,k:参加者Pの息の吸い込み区間Ia,kにおけるRSP値Ra,tの単位時間当たりの傾きの平均値、すなわち、AMPa,k/DURa,kで算出される値。吸い込み区間Ia,kでの息の吸い込み量の時間変化を表す。
・INT1a,k:手前の発話区間Uの終了時刻tue(k)(発話区間末)から参加者Pの息の吸い込みが開始されるまでの間隔、すなわち、息の吸い込み区間Ia,kの開始位置の離散時刻ts(k)から発話区間Uの終了時刻tue(k)を減じて得られる値ts(k)−tue(k)。発話区間Uと吸い込み区間Ia,kとの時間関係を表す。
Next speaker probability estimation unit 108 or the next speaker probability estimation unit 108A, the suction section I a breath, when k is extracted, the suction section I a breath, k, respiration information B a, t, and speech section Using at least part of U k , parameters λ ′ a, k relating to breath inhalation are extracted. Parameter lambda 'a, k is suction section I a participant P a, the amount of suction breath at k, the suction section I a, the length of k, the suction section I a, the suction amount of the breath at the k It represents at least part of the temporal change and the time relationship between the utterance section U k and the suction section I a, k . The parameters λ ′ a, k may represent only one of them, or a plurality of them, or all of them. The parameters λ ′ a, k include, for example, at least a part of the following parameters MIN a, k , MAX a, k , AMP a, k , DUR a, k , SLO a, k , INT1 a, k . The parameter λ ′ a, k may include only one of these, may include a plurality of these, or may include all of them.
· MIN a, k: RSP value R a at the start of the suction of the breath of the participants P a, t, that is, the suction section I a breath, k of the RSP value R a, minimum value of t.
· MAX a, k: RSP value R a of at the end of the suction of the breath of the participants P a, t, that is, the suction section I a breath, k of the RSP value R a, the maximum value of t.
· AMP a, k: Participants P a suction section I a breath, k of RSP values R a, the amplitude of t, i.e., MAX a, k -MIN a, value calculated by k. This represents the amount of breath inhaled in the inhalation section Ia, k .
· DUR a, k: the suction section I a breath of participants P a, length of k, that is, the suction section I a breath, the discrete time of the start position from the discrete time t e of the end position of k (k) the value obtained by subtracting t s (k) t e ( k) -t s (k).
· SLO a, k: Participants P a suction section I a breath, RSP value R a, the average value of the slope per unit time t in k, i.e., AMP a, k / DUR a , calculated in k Value. It represents the time change of the amount of breath inhaled in the inhalation section Ia, k .
· INT1 a, k: distance to the front of the suction from the end time t ue of the speech segment U k (k) (the end of the speech segment) of the breath of the participants P a is started, ie, the suction of breath interval I a , discrete time t s (k) from the speech segment U k of the end time t ue value obtained by subtracting the (k) t s of the start position of k (k) -t ue (k ). This represents the time relationship between the utterance section U k and the suction section I a, k .

次話者確率推定部108又は次話者確率推定部108Aは、さらに以下のパラメータINT2a,kを生成してもよい。
・INT2a,k:参加者Pの息の吸い込み終了時から次発話者の発話区間Uk+1が開始されるまでの間隔、すなわち、次発話者の発話区間Uk+1の開始時刻tus(k+1)から息の吸い込み区間Ia,kの終了位置の離散時刻te(k)を減じて得られる値tus(k+1)−te(k)。発話区間Uk+1と吸い込み区間Ia,kとの時間関係を表す。パラメータλ’a,kにINT2a,kを加えたものをパラメータλa,kと表記する。
The next speaker probability estimation unit 108 or the next speaker probability estimation unit 108A may further generate the following parameters INT2a , k .
· INT2 a, k: interval up to the speech segment U k + 1 of the next speaker is started from the time of the end intake of breath of the participants P a, ie, the next speaker of the speech segment U k + 1 of the start time t us (k + 1 ) ( T ) (k + 1) −te (k) obtained by subtracting the discrete time te (k) at the end position of the breath inhalation interval I a, k . The time relationship between the utterance section U k + 1 and the suction section I a, k is represented. Parameters λ 'a, INT2 a, a plus k is denoted as parameter lambda a, k to k.

次話者確率推定部108又は次話者確率推定部108Aは、例えば発話区間Uk+1を表す情報が得られ、さらに、パラメータλa,kが得られた以降(発話区間Uk+1が開始された後)に、発話区間Uおよびその発話者Puk、発話区間Uk+1およびその発話者Puk+1とその発話開始タイミングTuk+1を表す情報とともにデータベースに記録する。次発話者Puk+1の発話タイミングとは、発話区間Uk+1の何れかの時点またはそれに対応する時点であればよい。発話タイミングTuk+1は、発話区間Uk+1の開始時刻tus(k+1)であってもよいし、時刻tus(k+1)+γ(ただし、γは正または負の定数)であってもよいし、発話区間Uk+1の終了時刻tue(k+1)であってもよいし、時刻tue(k+1)+γであってもよいし、発話区間Uk+1の中心時刻tus(k+1)+(tue(k+1)−tus(k+1))/2であってもよい。λa,k,U,Puk,Puk+1,Tuk+1を表す情報の一部またはすべてがデータベースに保持され、次話者確率推定部108又は次話者確率推定部108Aが発話区間Uk+1よりも後の次発話者とその発話タイミングを予測するために使用される。 The next speaker probability estimator 108 or the next speaker probability estimator 108A obtains, for example, information representing the utterance interval U k + 1 , and after the parameters λ a, k are obtained (the utterance interval U k + 1 is started). After), it is recorded in the database together with information indicating the utterance section U k and its utterer P uk , the utterance section U k + 1, its utterer P uk + 1 and its utterance start timing T uk + 1 . The utterance timing of the next speaker P uk + 1 may be any time point in the utterance section U k + 1 or a time point corresponding thereto. The utterance timing T uk + 1 may be the start time t us (k + 1) of the utterance interval U k + 1 , or the time t us (k + 1) + γ (where γ is a positive or negative constant), It may be the end time t ue (k + 1) of the utterance interval U k + 1 , may be the time t ue (k + 1) + γ, or may be the central time t us (k + 1) + (t ue ( ) of the utterance interval U k + 1. k + 1) -tus (k + 1) ) / 2. Part or all of the information representing λ a, k , U k , P uk , P uk + 1 , T uk + 1 is held in the database, and the next speaker probability estimation unit 108 or the next speaker probability estimation unit 108A performs the utterance interval U k + 1. It is used to predict the next utterer later and the utterance timing.

次話者確率推定部108又は次話者確率推定部108Aは、発話者情報Puk、発話区間U、参加者Pの吸い込み区間Ia,kでの息の吸い込み量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,kとの時間関係の少なくとも一部に基づき、参加者P,…,Pのうち何れが次発話者Puk+1であるか、および次発話者Puk+1の発話タイミングの少なくとも一方を表す推定情報を得る。ただし、「Puk+1」の下付き添え字「uk+1」はuk+1を表す。発話区間Uの発話者Pukが発話区間Uk+1でも発話を行う場合(発話継続する場合)、次発話者は発話区間Uの発話者Pukと同一である。一方、発話区間Uの発話者Puk以外の参加者が発話区間Uk+1でも発話を行う場合(すなわち発話交替する場合)、次発話者は発話区間Uの発話者Puk以外の参加者である。 The next-speaker probability estimating unit 108 or the next-speaker probability estimating unit 108 </ b > A includes the speaker information P uk , the utterance interval U k , the breath intake amount of the participant Pa in the intake interval I a, k , and the intake interval I a. , the length of k, the suction section I a, suction amount of time variation of the breath at k, and speech periods U k and the suction section I a, based on at least part of the time relationship between k, participants P 1, ..., obtain estimation information either is or is the next speaker P uk + 1, and representing at least one of the following speaker P uk + 1 of the utterance timings of the P a. However, subscript "uk + 1" of the "P uk + 1" represents a u k + 1. (If speech continues) if speaker P uk speech period U k performs speech even speech section U k + 1, the next speaker is the same as the speaker P uk speech period U k. On the other hand, (if That utterance replacement) when uttered P uk other participants in the speech period U k performs speech even speech section U k + 1, the following speaker is other than speaker P uk speech period U k participants It is.

次話者確率推定部108又は次話者確率推定部108Aは、発話者情報Puk、発話区間U、参加者Pの吸い込み区間Ia,kでの息の吸い込み量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,kとの時間関係の少なくとも一部に対応する特徴量fa,kに対する推定情報を得るためのモデルを機械学習し、このモデルを用いて特徴量に対する推定情報を得る。特徴量fa,kは、発話者情報Puk、発話区間U、参加者Pの吸い込み区間Ia,kでの息の吸い込み量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,kとの時間関係の1つのみに対応してもよいし、これらのうち複数に対応してもよいし、すべてに対応してもよい。モデルの機械学習には、例えば、過去の吸い込み区間Ia,i(ただし、i<k)での息の吸い込み量、吸い込み区間Ia,iの長さ、吸い込み区間Ia,iでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,iとの時間関係の少なくとも一部に対応する特徴量fa,k、ならびに発話区間U,Ui+1およびそれらの発話者Puk,Puk+1の情報が学習データとして用いられる。 The next-speaker probability estimating unit 108 or the next-speaker probability estimating unit 108 </ b > A includes the speaker information P uk , the utterance interval U k , the breath intake amount of the participant Pa in the intake interval I a, k , and the intake interval I a. , the length of k, the suction section I a, suction amount of time variation of the breath at k, and section suction and speech period U k I a, the feature amount corresponding to at least part of the time relationship between k f a, A model for obtaining estimation information for k is machine-learned, and estimation information for feature quantities is obtained using this model. Feature value f a, k is the speaker information P uk, speech segment U k, the suction section I a participant P a, suction amount of breath at k, the suction section I a, the length of k, the suction section I It may correspond to only one of the temporal changes in the amount of inhalation of breath at a, k and the time relationship between the utterance interval U k and the inhalation interval I a, k , or may correspond to a plurality of these. It may be good or all. The machine learning model, for example, past suction section I a, i (although, i <k) suction of breath, the suction section I a, the length of the i, suction section I a, breath in i , The feature quantity f a, k corresponding to at least a part of the temporal change in the amount of ingestion and the time relationship between the utterance section U i and the ingestion section I a, i , and the utterance sections U i , U i + 1 and their speakers Information of P uk and P uk + 1 is used as learning data.

次話者確率推定部108又は次話者確率推定部108Aによる次発話者/発話タイミング推定処理を例示する。この例では、次発話者Puk+1を推定するモデルである次発話者推定モデルと、次発話者Puk+1の発話タイミングを推定するモデルである発話タイミング推定モデルとが生成され、それぞれのモデルを用いて次発話者Puk+1とその発話タイミングが推定される。 The next speaker / speech timing estimation processing by the next speaker probability estimation unit 108 or the next speaker probability estimation unit 108A will be exemplified. In this example, the next speaker estimation model is a model that estimates the next speaker P uk + 1, and the response timing estimation model is a model for estimating the response timing of the next speaker P uk + 1 is generated, using each model Thus, the next speaker P uk + 1 and its speech timing are estimated.

次発話者推定モデルを学習する場合、次話者確率推定部108又は次話者確率推定部108Aは、学習データとして、データベースから過去のパラメータλa,i(ただし、a=1,…,Aであり、i<kである)の少なくとも一部、および発話区間U,Ui+1およびそれらの発話者Pui,Pui+1を表す情報を読み出す。次話者確率推定部108又は次話者確率推定部108Aは、パラメータλa,iの少なくとも一部に対応する特徴量F1a,iおよびU,Ui+1,Pui,Pui+1を学習データとして、次発話者推定モデルを機械学習する。次発話者推定モデルには、例えば、SVM(Support Vector Machine)、GMM(Gaussian Mixture Model)、HMM(Hidden Markov Model)等を用いることができる。 When learning the next speaker estimation model, the next speaker probability estimation unit 108 or the next speaker probability estimation unit 108A uses the past parameters λ a, i (where a = 1,. And i <k), and information representing the utterance sections U i and U i + 1 and the speakers P ui and P ui + 1 are read out. The next speaker probability estimator 108 or the next speaker probability estimator 108A learns feature data F1 a, i and U i , U i + 1 , P ui , P ui + 1 corresponding to at least a part of the parameters λ a, i. Then, the next speaker estimation model is machine-learned. As the next speaker estimation model, for example, SVM (Support Vector Machine), GMM (Gaussian Mixture Model), HMM (Hidden Markov Model), or the like can be used.

次話者確率推定部108又は次話者確率推定部108Aは、パラメータλ’a,kの少なくとも一部に対応する特徴量F1a,kを次発話者推定モデルに適用し、それによって推定された次発話Puk+1を表す情報を「推定情報」の一部とする。なお、次発話Puk+1を表す情報は、何れかの参加者Pを確定的に表すものであってもよいし、確率的に表すものであってもよい。参加者Pが次話者になる確率を、P1とする。 Next speaker probability estimation unit 108 or the next speaker probability estimation unit 108A, the parameter lambda 'a, the feature amount corresponding to at least a portion of the k F1 a, the k is applied to the next speaker estimation models are estimated thereby Information representing the next utterance P uk + 1 is a part of the “estimated information”. Note that the information indicating the next utterance P uk + 1 may be a definite representation of any participant Pa or may be a probability representation. The probability that participant P a becomes the next speaker, and P1 a.

発話タイミング推定モデルを学習する場合、次話者確率推定部108又は次話者確率推定部108Aは、学習データとして、データベースから過去のパラメータλa,i(ただし、a=1,…,Aであり、i<kである)の少なくとも一部、発話区間U,Ui+1およびそれらの発話者Pui,Pui+1、および発話区間Ui+1の発話開始タイミングTui+1を表す情報を読み出す。次話者確率推定部108又は次話者確率推定部108Aは、パラメータλa,iの少なくとも一部に対応する特徴量F2a,iおよびU,Ui+1,Pui,Pui+1,Tui+1を学習データとして、発話タイミング推定モデルを機械学習する。次発話者推定モデルには、例えば、SVM、GMM、HMM等を用いることができる。 When learning the utterance timing estimation model, the next speaker probability estimation unit 108 or the next speaker probability estimation unit 108A uses the past parameters λ a, i (where a = 1,. Yes, i <k), and information indicating the utterance sections U i and U i + 1 and the utterers P ui and P ui + 1 and the utterance start timing T ui + 1 of the utterance section U i + 1 is read. The next speaker probability estimator 108 or the next speaker probability estimator 108A includes the feature amounts F2 a, i and U i , U i + 1 , P ui , P ui + 1 , T ui + 1 corresponding to at least a part of the parameters λ a, i. Is used as learning data to machine-learn an utterance timing estimation model. As the next speaker estimation model, for example, SVM, GMM, HMM or the like can be used.

次話者確率推定部108又は次話者確率推定部108Aは、発話者Puk、パラメータλ’a,kの少なくとも一部、および次発話者推定モデルにより推定された次発話者Puk+1が得られると、パラメータλ’a,kの少なくとも一部に対応する特徴量F2a,kを発話タイミング推定モデルに適用する。次話者確率推定部108又は次話者確率推定部108Aは、特徴量F2a,kを発話タイミング推定モデルに適用して推定された次の発話区間Uk+1の発話タイミングTuk+1(例えば、発話区間Uk+1の開始時刻)を表す情報を「推定情報」の一部として出力する。なお、発話タイミングを表す情報は、何れかの発話タイミングを確定的に表すものであってもよいし、確率的に表すものであってもよい。参加者Pが時刻tに発話を開始する確率(時刻tが参加者Pの発話タイミングである確率)を、P2(t)とする。
上述した実施形態の次話者確率推定部108又は次話者確率推定部108Aが推定する参加者iの時刻tにおける次話者確率Pns (t)は、参加者iが本次話者推定技術における参加者Pである場合、確率P1×確率P2(t)により算出される。
The next speaker probability estimation unit 108 or the next speaker probability estimation unit 108A obtains the speaker P uk , at least a part of the parameters λ ′ a, k , and the next speaker P uk + 1 estimated by the next speaker estimation model. Then, the feature amount F2 a, k corresponding to at least a part of the parameter λ ′ a, k is applied to the utterance timing estimation model. The next speaker probability estimator 108 or the next speaker probability estimator 108A applies the feature amount F2 a, k to the utterance timing estimation model and utterance timing T uk + 1 of the next utterance section U k + 1 (for example, utterance Information indicating the start time of the section U k + 1 ) is output as part of the “estimated information”. Note that the information representing the utterance timing may be deterministically representing any utterance timing or may be represented probabilistically. The probability that the participant P a to start a speech to the time t (the probability time t is the utterance timing of the participant P a), and P2 a (t).
The next speaker probability P ns i (t) at time t of the participant i estimated by the next speaker probability estimating unit 108 or the next speaker probability estimating unit 108A of the above-described embodiment is determined by the participant i being the primary speaker. If a participant P a in the estimation technique, is calculated by the probability P1 a × probability P2 a (t).

上述の次話者確率推定部108又は次話者確率推定部108Aは、呼吸動作の観測値に基づいて次に発話を開始する参加者およびタイミングを推定しているが、さらに、視線の観測値を用いてもよい。
視線行動をさらに利用する場合、各参加者P(ただし、a=1,…,A)には注視対象検出装置203がさらに装着される。注視対象検出装置203は、参加者Pが誰を注視しているか(注視対象)を検出し、参加者Pおよび各離散時刻tでの注視対象Ga,tを表す情報を次話者確率推定部108又は次話者確率推定部108Aに送る。次話者確率推定部108又は次話者確率推定部108Aは、注視対象情報G1,t,…,GA,t、発話区間U、および話者情報Pukを入力とし、発話区間終了前後における注視対象ラベル情報θv,k(ただし、v=1,…,V、Vは注視対象ラベルの総数)を生成する。注視対象ラベル情報は、発話区間Uの終了時点Tseに対応する時間区間における参加者の注視対象を表す情報である。ここでは、終了時点Tseを含む有限の時間区間における参加者Pの注視対象をラベル付けした注視対象ラベル情報θv,kを例示する。この場合、例えば、発話区間Uの終了時点Tseよりも前の時点Tse−Tから終了時点Tseよりも後の時点Tse+Tまでの区間に出現した注視行動を扱う。T,Tは0以上の任意の値でよいが、目安として、Tは0秒〜2.0秒、Tは0秒〜3.0秒程度にするのが適当である。
The next-speaker probability estimating unit 108 or the next-speaker probability estimating unit 108A estimates the participant and timing to start the next utterance based on the observation value of the breathing motion. May be used.
When the gaze behavior is further used, a gaze target detection device 203 is further attached to each participant P a (where a = 1,..., A). Gaze object detection device 203, participant P a detects someone or gazing (gaze target), the participant P a and gaze target G a, next speaker information representing a t at each discrete time t This is sent to the probability estimator 108 or the next speaker probability estimator 108A. Next speaker probability estimation unit 108 or next speaker probability estimation unit 108A receives gaze target information G 1, t ,..., G A, t , utterance interval U k , and speaker information P uk , and ends the utterance interval. Before and after gaze target label information θ v, k (where v = 1,..., V, V are the total number of gaze target labels) is generated. Gaze target label information is information indicating the gaze target participants in time interval corresponding to the end time T se speech period U k. Here, an example is shown of the gaze target label information theta v, k was labeled gaze target participants P a in the finite time interval including end time T se. In this case, for example, deals with watching action that appeared in the interval from the speech interval U time before the end time T se of k T se -T b to the time point T se + T a subsequent to the end point T se. T b, T a is may be any value from 0 or more, as a guide, T b is 0 seconds to 2.0 seconds, T a is appropriate to about 0 seconds to 3.0 seconds.

次話者確率推定部108又は次話者確率推定部108Aは、注視対象の参加者を以下のような種別に分類し、注視対象のラベリングを行う。なお、ラベルの記号に意味はなく、判別できればどのような表記でも構わない。
・ラベルS:話者(すなわち、話者である参加者Pukを表す)
・ラベルLξ:非話者(ただし、ξは互いに異なる非話者である参加者を識別し、ξ=1,…,A−1である。例えば、ある参加者が、非話者P、非話者P、の順に注視をしていたとき、非話者PにLというラベル、非話者PにLというラベルが割り当てられる。)
・ラベルX:誰も見ていない
The next speaker probability estimator 108 or the next speaker probability estimator 108A classifies the participants to be watched into the following types, and performs labeling on the eyes to be watched. Note that the symbol of the label has no meaning, and any notation may be used as long as it can be identified.
Label S: speaker (ie, representing participant P uk who is a speaker)
Label L ξ : Non-speaker (where ξ identifies participants who are non-speakers different from each other, and ξ = 1,..., A−1. For example, a participant is a non-speaker P 2. , non-speaker P 3 when, had a gaze sequentially labeled L 1 to the non-speaker P 2, labeled L 2 to the non-speaker P 3 is assigned.)
・ Label X: No one is watching

ラベルがSまたはLξのときには、相互注視(視線交差)が起きたか否かという情報を付与する。本形態では、相互注視が起きた際には、S,LξM(下付き添え字の「ξM」はξを表す)のように、ラベルS,Lξの末尾にMラベルを付与する。 When the label is S or , information indicating whether or not mutual gaze (gaze crossing) has occurred is given. In this embodiment, when mutual gaze occurs, an M label is added to the end of the labels S and L ξ as in S M , L ξM (subscript “ ξM ” represents ξ M ). .

図10は、注視対象ラベルの具体例を示す図である。図10はA=4の例であり、発話区間U,Uk+1と各参加者の注視対象が時系列に示されている。図10の例では、参加者Pが発話した後、発話交替が起き、新たに参加者Pが発話をした際の様子を示している。ここでは、話者である参加者Pが参加者Pを注視した後、参加者Pを注視している。Tse−Tの時点からTse+Tの時点までの区間では、参加者Pが参加者Pを見ていたとき、参加者Pは参加者Pを見ている。これは、参加者Pと参加者Pとで相互注視が起きていることを表す。この場合、参加者Pの注視対象情報G1,tから生成される注視対象ラベルはLとL2Mの2つとなる。上述の区間では、参加者Pは参加者Pを注視した後、話者である参加者Pを注視している。この場合、参加者Pの注視対象ラベルはLとSの2つとなる。また、上述の区間では、参加者Pは話者である参加者Pを注視している。この場合、参加者Pの注視対象ラベルはSとなる。また、上述の区間では、参加者Pは誰も見ていない。この場合、参加者Pの注視対象ラベルはXとなる。したがって、図10の例では、V=6である。 FIG. 10 is a diagram illustrating a specific example of a gaze target label. FIG. 10 is an example of A = 4, and the speech sections U k and U k + 1 and the gaze targets of each participant are shown in time series. In the example of FIG. 10, after the participant P 1 speaks, an utterance change occurs and the participant P 2 newly speaks. Here, participants P 1 is a speaker after watching the participant P 4, gazing at the participant P 2. In the period from the time of T se -T b up to the point of T se + T a, when a participant P 1 had seen the participants P 2, participants P 2 has seen participants P 1. This indicates that what is happening is mutual gaze between the participants P 1 and participants P 2. In this case, there are two gaze target labels L 1 and L 2M generated from the gaze target information G 1, t of the participant P 1 . In the above-mentioned period, the participants P 2 is gazing after watching the participant P 4, the participants P 1 is a speaker. In this case, you gaze target label participants P 2 is two and the L 1 and S M. In addition, in the above-mentioned period, the participants P 3 is gazing at the participant P 1 is a speaker. In this case, the gaze target label of participants P 3 is a S. In addition, in the above-mentioned period, the participants P 4 is not anyone seen. In this case, the gaze target label of participants P 4 is the X. Therefore, in the example of FIG. 10, V = 6.

次話者確率推定部108又は次話者確率推定部108Aは、注視対象ラベルごとの開始時刻、終了時刻も取得する。ここで、誰(R∈{S,L})のどの注視対象ラベル(GL∈{S,S,L,L1M,L,L2M,…})であるかを示す記号としてRGL、その開始時刻をST_RGL、終了時刻をET_RGLと定義する。ただし、Rは参加者の発話状態(話者か非話者か)を表し、Sは話者、Lは非話者である。例えば、図10の例において、参加者Pの最初の注視対象ラベルはSL1であり、その開始時刻はST_SL1、終了時刻はET_SL1である。注視対象ラベル情報θv,kは注視対象ラベルRGL、開始時刻ST_RGL、および終了時刻ET_RGLを含む情報である。 The next speaker probability estimation unit 108 or the next speaker probability estimation unit 108A also acquires a start time and an end time for each gaze target label. Here, as a symbol indicating which gaze target label (GLε {S, S M , L 1 , L 1M , L 2 , L 2M ,...) Of which (Rε {S, L}) is R GL, the start time ST_R GL, the end time is defined as ET_R GL. Here, R represents the utterance state (speaker or non-speaker) of the participant, S is a speaker, and L is a non-speaker. For example, in the example of FIG. 10, the first fixation target label participants P 1 is S L1, the start time ST_S L1, the end time is ET_S L1. The gaze target label information θv , k is information including a gaze target label R GL , a start time ST_R GL , and an end time ET_R GL .

次話者確率推定部108又は次話者確率推定部108Aは、注視対象ラベル情報θv,kを用いて、各参加者Pの注視対象遷移パターンEa,kを生成する。注視対象遷移パターンの生成は、注視対象ラベルRGLを構成要素として、時間的な順序を考慮した遷移n−gramを生成して行う。ここで、nは正の整数である。例えば、図10の例を考えると、参加者P1の注視対象ラベルから生成される注視対象遷移パターンE1,kはL−L2Mである。同様にして、参加者Pの注視対象遷移パターンE2,kはL−S、参加者Pの注視対象遷移パターンE3,kはS、参加者Pの注視対象遷移パターンE4,kはXとなる。 Next speaker probability estimation unit 108 or the next speaker probability estimation unit 108A, by using the gaze target label information theta v, k, gaze target transition pattern E a of each participant P a, generates a k. The gaze target transition pattern is generated by generating a transition n-gram considering the temporal order using the gaze target label RGL as a constituent element. Here, n is a positive integer. For example, considering the example of FIG. 10, the gaze target transition pattern E 1, k generated from the gaze target label of the participant P1 is L 1 -L 2M . Similarly, gaze target transition pattern E 2 participants P 2, k is L 1 -S M, gaze target transition patterns E 3, k participants P 3 is S, gaze target transition patterns E participants P 4 4, k becomes X.

注視対象遷移パターンEa,kは、例えば発話区間Uk+1が開始された後に、発話区間Uおよびその発話者Puk、発話区間Uk+1に該当する発話を行う次発話者Puk+1および次発話開始タイミングTuk+1を表す情報とともにデータベースに送られる。データベースでは、注視対象遷移パターンEa,kが、パラメータλa,kと併合され、Ea,k,λa,k,U,Puk,Puk+1,Tuk+1を表す情報の一部またはすべてがデータベースに保持される。 The gaze target transition pattern E a, k is, for example, after the utterance section U k + 1 is started, the utterance section U k and its utterer P uk , the next utterer P uk + 1 and the next utterance who perform the utterance corresponding to the utterance section U k + 1. It is sent to the database together with information representing the start timing T uk + 1 . In the database, the gaze target transition pattern E a, k is merged with the parameters λa, k, and a part or all of the information representing E a, k , λ a, k , U k , P uk , P uk + 1 , T uk + 1. Is retained in the database.

次話者確率推定部108又は次話者確率推定部108Aは、注視対象ラベル情報θv,kを入力とし、注視対象ラベルごとの時間構造情報Θv,kを生成する。時間構造情報は参加者の視線行動の時間的な関係を表す情報であり、(1)注視対象ラベルの時間長、(2)注視対象ラベルと発話区間の開始時刻または終了時刻との間隔、(3)注視対象ラベルの開始時刻または終了時刻と他の注視対象ラベルの開始時刻または終了時刻との間隔、をパラメータとして持つ。 Next speaker probability estimation unit 108 or the next speaker probability estimation unit 108A inputs the gaze target label information theta v, k, and generates a time structure information theta v, k for each gaze target label. The time structure information is information representing the temporal relationship of the gaze behavior of the participant, and (1) the time length of the gaze target label, (2) the interval between the gaze target label and the start time or end time of the utterance section, ( 3) An interval between the start time or end time of the gaze target label and the start time or end time of another gaze target label is used as a parameter.

具体的な時間構造情報のパラメータを以下に示す。以下では、発話区間の開始時刻をST_U、発話区間の終了時刻をET_Uと定義する。
・INT1(=ET_RGL−ST_RGL):注視対象ラベルRGLの開始時刻ST_RGLと終了時刻ET_RGLの間隔
・INT2(=ST_U−ST_RGL):注視対象ラベルRGLの開始時刻ST_RGLが発話区間の開始時刻ST_Uよりもどれくらい前であったか
・INT3(=ET_U−ST_RGL):注視対象ラベルRGLの開始時刻ST_RGLが発話区間の終了時刻ET_Uよりもどれくらい前であったか
・INT4(=ET_RGL−ST_U):注視対象ラベルRGLの終了時刻ET_RGLが発話区間の開始時刻ST_Uよりもどれくらい後であったか
・INT5(=ET_U−ET_RGL):注視対象ラベルRGLの終了時刻ET_RGLが発話区間の終了時刻ET_Uよりもどれくらい前であったか
・INT6(=ST_RGL−ST_RGL’):注視対象ラベルRGLの開始時刻ST_RGLが他の注視対象ラベルRGL’の開始時刻ST_RGL’よりもどれくらい後であったか
・INT7(=ET_RGL’−ST_RGL):注視対象ラベルRGLの開始時刻ST_RGLが他の注視対象ラベルRGL’の終了時刻ET_RGL’よりもどれくらい前であったか
・INT8(=ET_RGL−ST_RGL’):注視対象ラベルRGLの終了時刻ET_RGLが注視対象ラベルRGL’の開始時刻ST_RGL’よりもどれくらい後であったか
・INT9(=ET_RGL−ET_RGL’):注視対象ラベルRGLの終了時刻ET_RGLが注視対象ラベルRGL’の終了時刻ET_RGL’よりもどれくらい後であったか
Specific parameters of the time structure information are shown below. Hereinafter, the start time of the utterance section is defined as ST_U, and the end time of the utterance section is defined as ET_U.
· INT1 (= ET_R GL -ST_R GL ): gazing target label R GL of the start time ST_R GL and end time ET_R interval of GL · INT2 (= ST_U-ST_R GL): start time ST_R GL of the gaze target label R GL utterance How long before the start time ST_U of the section INT3 (= ET_U-ST_R GL ): How long before the start time ST_R GL of the gaze target label R GL is before the end time ET_U of the speech section INT4 (= ET_R GL -ST_U): gazing target label R GL of the end time ET_R GL Do · INT5 was after much than the start time ST_U of the speech segment (= ET_U-ET_R GL): end time ET_R GL is the utterance section of the gaze target label R GL Than the end time ET_U of Have either · INT6 had been before (= ST_R GL -ST_R GL ') : the gaze target label R GL of the start time ST_R GL other of the gaze target label R GL' of the start time ST_R GL or was after much than INT7 ( = ET_R GL '-ST_R GL): gazing target label R GL of the start time ST_R GL other of the gaze target label R GL' of the end time ET_R GL 'or was before much than · INT8 (= ET_R GL -ST_R GL ' ): gaze target label R GL of the end time ET_R GL is gazing target label R GL 'of the start time ST_R GL' or was after much than · INT9 (= ET_R GL -ET_R GL '): the end of the gazing target label R GL time ET_R GL is none than the 'end time ET_R GL of' gaze target label R GL Did even after leprosy

なお、INT6〜INT9については、すべての参加者の注視対象ラベルとの組み合わせに対して取得する。図10の例では、注視対象ラベル情報は全部で6つ(L,L2M,L,S,S,X)あるため、INT6〜INT9は、それぞれ6×5=30個のデータが生成される。 Note that INT6 to INT9 are acquired for combinations with the gaze target labels of all participants. In the example of FIG. 10, since there are a total of six gaze target label information (L 1 , L 2M , L 1 , S M , S, X), INT6 to INT9 each have 6 × 5 = 30 data. Generated.

時間構造情報Θv,kは注視対象ラベル情報θv,kについてのパラメータINT1〜INT9からなる情報である。時間構造情報Θv,kを構成する上記の各パラメータについて、図11を用いて具体的に示す。図11は、話者である参加者P1(R=S)の注視対象ラベルL1についての時間構造情報を示す図である。すなわち、RGL=SL1における時間構造情報である。なお、INT6〜INT9については、図示を簡略化するために、参加者P2の注視対象ラベルL1、すなわちRGL=LL1との関係のみを示す。図11の例では、INT1〜INT9は以下のように求められることがわかる。
・INT1=ET_SL1−ST_SL1
・INT2=ST_U−ST_SL1
・INT3=ET_U−ST_SL1
・INT4=ET_SL1−ST_U
・INT5=ET_U−ET_SL1
・INT6=ST_SL1−ST_LL1
・INT7=ET_LL1−ST_SL1
・INT8=ET_SL1−ST_LL1
・INT9=ET_SL1−ET_LL1
The time structure information Θ v, k is information including parameters INT1 to INT9 for the gaze target label information θ v, k . Each of the above parameters constituting the time structure information Θ v, k will be specifically described with reference to FIG. FIG. 11 is a diagram showing time structure information about the gaze target label L1 of the participant P1 (R = S) who is a speaker. That is, time structure information in R GL = S L1 . Note that for INT6 to INT9, only the relationship with the gaze target label L1 of the participant P2, that is, R GL = L L1 is shown in order to simplify the illustration. In the example of FIG. 11, it can be seen that INT1 to INT9 are obtained as follows.
INT1 = ET_S L1 −ST_S L1
-INT2 = ST_U-ST_S L1
・ INT3 = ET_U-ST_S L1
・ INT4 = ET_S L1 −ST_U
・ INT5 = ET_U-ET_S L1
INT6 = ST_S L1 -ST_L L1
INT7 = ET_L L1 -ST_S L1
INT8 = ET_S L1 −ST_L L1
INT9 = ET_S L1 -ET_L L1

時間構造情報Θv,kは、例えば発話区間Uk+1が開始された後に、発話区間Uおよびその発話者Puk、発話区間Uk+1に該当する発話を行う次発話者Puk+1および次発話開始タイミングTuk+1を表す情報とともにデータベースに送られる。データベースでは、時間構造情報Θv,kが、パラメータλa,kと併合され、Θv,k,λa,k,U,Puk,Uk+1,Puk+1,Tuk+1を表す情報の一部またはすべてがデータベースに保持される。 The time structure information Θ v, k is, for example, after the utterance section U k + 1 is started, the utterance section U k and its utterer P uk , the next utterer P uk + 1 who performs the utterance corresponding to the utterance section U k + 1 and the next utterance start. It is sent to the database together with information representing the timing T uk + 1 . In the database, the time structure information Θ v, k is merged with the parameters λ a, k and one piece of information representing Θ v, k , λ a, k , U k , P uk , U k + 1 , P uk + 1 , T uk + 1. Parts or all are kept in the database.

次話者確率推定部108又は次話者確率推定部108Aは、注視対象遷移パターンEa,k、時間構造情報Θv,k、発話者情報Puk、発話区間U、参加者Pの吸い込み区間Ia,kでの息の吸い込み量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,kとの時間関係の少なくとも一部に対応する特徴量fa,kに対する推定情報を得るためのモデルを機械学習し、モデルを用いて特徴量に対する推定情報である次話者確率Pns (t)を得て出力する。 The next-speaker probability estimating unit 108 or the next-speaker probability estimating unit 108A includes gaze target transition patterns E a, k , time structure information Θ v, k , speaker information P uk , utterance interval U k , and participant P a . suction section I a, suction amount of breath at k, the suction section I a, the length of k, the suction section I a, suction amount of time variation of the breath at k, and speech periods U k and the suction section I a, Machine learning is performed on a model for obtaining estimation information for the feature quantity f a, k corresponding to at least part of the temporal relationship with k, and the next speaker probability P ns i (estimation information for the feature quantity is used using the model. t) is obtained and output.

上述の次話者確率推定部108又は次話者確率推定部108Aは、呼吸動作の観測値および視線の観測値に基づいて次に発話を開始する参加者およびタイミングを推定しているが、さらに、参加者の頭部の動きに関する情報を用いてもよい。これは、人は発話の直前に大きく頷く傾向があることを利用するものである。次話者確率推定部108又は次話者確率推定部108Aは、映像入力部105からの各参加者の画像データを解析して、頭部が上下に動いたか否かにより参加者が頷いたか否かを判定する。次話者確率推定部108又は次話者確率推定部108Aは、参加者iが時刻tの数秒前に頷いたと判定した場合には、参加者iの時刻tにおける次話者確率Pns (t)に所定値を加算する処理等を行う。また、次話者確率推定部108又は次話者確率推定部108Aは、呼吸動作の観測値、視線の観測値および、参加者の頭部の動きに関する情報の少なくとも一つに基づいて次話者確率Pns (t)を算出してもよい。 The next-speaker probability estimating unit 108 or the next-speaker probability estimating unit 108A described above estimates the participant and timing to start the next utterance based on the observation value of the breathing motion and the observation value of the line of sight. Information regarding the movement of the participant's head may be used. This takes advantage of the fact that people tend to crawl right before utterance. The next speaker probability estimation unit 108 or the next speaker probability estimation unit 108A analyzes the image data of each participant from the video input unit 105, and whether or not the participant has struck depending on whether or not the head has moved up and down. Determine whether. If the next speaker probability estimation unit 108 or the next speaker probability estimation unit 108A determines that the participant i has reached several seconds before the time t, the next speaker probability P ns i ( A process of adding a predetermined value to t) is performed. Further, the next speaker probability estimation unit 108 or the next speaker probability estimation unit 108 </ b> A is based on at least one of the observation value of the breathing movement, the observation value of the line of sight, and the information on the movement of the participant's head. The probability P ns i (t) may be calculated.

また、次話者確率推定部108又は次話者確率推定部108Aが呼吸動作の観測値、視線の観測値および、参加者の頭部の動きに関する情報の少なくとも一つを用いている場合は、次話者確率推定部108又は次話者確率推定部108Aで用いる情報に応じて、センサ103は、位置計測装置201、呼吸動作計測装置202、注視対象検出装置203及び頭部動作検出装置204のいずれか一つ又は複数を備える構成でよい。   Further, when the next speaker probability estimation unit 108 or the next speaker probability estimation unit 108A uses at least one of the observation value of the breathing movement, the observation value of the line of sight, and the movement of the participant's head, In accordance with information used by the next speaker probability estimation unit 108 or the next speaker probability estimation unit 108A, the sensor 103 is used for the position measurement device 201, the respiratory motion measurement device 202, the gaze target detection device 203, and the head motion detection device 204. Any one or more may be provided.

なお、上述した第1の実施形態におけるロボット100及び第2の実施形態におけるロボット100Aは、マイク101、カメラ102、センサ103、音声入力部104、映像入力部105、センサ入力部106、発話区間検出部107、次話者確率推定部108又は次話者確率推定部108A及び制御部109又は制御部109Aを内蔵する構成としたが、この構成に限られるものではない。マイク101、カメラ102、センサ103、音声入力部104、映像入力部105、センサ入力部106、発話区間検出部107、次話者確率推定部108(又は次話者確率推定部108A)及び制御部109(又は制御部109A)の少なくとも一部を備える会話支援装置をロボット100(又はロボット100A)と別装置で設ける構成としてもよい。会話支援装置は、ロボット100(又はロボット100A)と通信可能な構成であり、制御部109(又は制御部109A)からの制御信号をロボット100(又はロボット100A)へ送信することで、ロボット100(又はロボット100A)の発話を制御する。   Note that the robot 100 in the first embodiment and the robot 100A in the second embodiment include a microphone 101, a camera 102, a sensor 103, a voice input unit 104, a video input unit 105, a sensor input unit 106, and an utterance section detection. Although the unit 107, the next speaker probability estimation unit 108 or the next speaker probability estimation unit 108A, and the control unit 109 or the control unit 109A are built in, the present invention is not limited to this configuration. Microphone 101, camera 102, sensor 103, voice input unit 104, video input unit 105, sensor input unit 106, utterance section detection unit 107, next speaker probability estimation unit 108 (or next speaker probability estimation unit 108A) and control unit The conversation support device including at least a part of 109 (or control unit 109A) may be provided as a separate device from robot 100 (or robot 100A). The conversation support apparatus is configured to be able to communicate with the robot 100 (or the robot 100A). By transmitting a control signal from the control unit 109 (or the control unit 109A) to the robot 100 (or the robot 100A), the robot 100 (or the robot 100A) is configured. Alternatively, the utterance of the robot 100A) is controlled.

ロボット100及びロボット100Aは、その体の一部をディスプレイ等の表示部に体の一部を表示する構成であってもよく、全身が仮想的な人物であるエージェントとして表示部に表示されるものであってもよい。ロボット100及びロボット100Aの体の一部を表示部で表現するとは、例えば、顔全体が表示部となっており、その表示部に顔の画像を表示する構成等が考えられる。表示部に表示した顔の画像を変化させていろいろな表現を行うことができる。なお、ロボット100及びロボット100Aは、複数のマイク101及びセンサ103を備えない構成であってもよく、例えば、ロボット100及びロボット100Aの外部に設置された複数のマイク101及びセンサ103と有線又は無線にて信号を送受信可能な構成であってもよい。   The robot 100 and the robot 100A may be configured such that a part of the body is displayed on a display unit such as a display, and is displayed on the display unit as an agent whose whole body is a virtual person. It may be. The expression of a part of the body of the robot 100 and the robot 100A on the display unit may be, for example, a configuration in which the entire face is a display unit and a face image is displayed on the display unit. Various expressions can be performed by changing the face image displayed on the display unit. Note that the robot 100 and the robot 100A may be configured not to include the plurality of microphones 101 and the sensors 103. For example, the robot 100 and the robots 100A installed outside the robot 100 and the robot 100A may be wired or wirelessly connected. The signal transmission / reception may be possible.

実施形態におけるロボット100及び第2の実施形態におけるロボット100Aにおいて、上述した発話制御処理の妨げにならない範囲であれば、図1及び図7に示した機能以外の通常のロボットが備えている機能等を備えてもよい。また、第1の実施形態におけるロボット100は、第2の実施形態におけるロボット100Aのような呼吸動作等の会話時の人間と同様の動作を行うことができる構成としてもよい。   In the robot 100 according to the embodiment and the robot 100A according to the second embodiment, as long as the above-described speech control processing is not hindered, functions or the like provided by ordinary robots other than the functions shown in FIGS. May be provided. Further, the robot 100 according to the first embodiment may be configured to be able to perform an operation similar to that of a human during conversation such as a breathing operation like the robot 100A according to the second embodiment.

以上説明した実施形態によれば、会話支援システムは、例えばロボットであり、会話中の各参加者の視線、呼吸、頭部の動きなどの非言語行動の計測結果に基づいて、参加者それぞれが任意の時刻に次発話となる確率である次話者確率を推定する。会話支援システムは、各参加者の次話者確率に基づいて、次に発話を行うべき参加者である予測次話者と、予測次話者が発話を開始するタイミングとを推定し、推定されたタイミングに予測次話者が発話を行わなかったことを検出した場合に、予測次話者又は予測次話者とは異なる参加者を対象者として発話を促す。会話支援システムは、発話を促すために、対象者に発話権の移譲を示す動作を行うよう、ロボット、又は、表示装置に表示される話者(全身が仮想的な人物であるエージェント)を制御する。例えば、ロボット、又は、表示装置に表示される話者は、対象者の発話を促す音声を出力したり、眼、頭部、胴部を動かして対象者に視線や顔を向ける、上肢を対象者に差し出すなどの非言語行動をとったりする。
上述した実施形態によれば、発話のタイミングを逸してしまった参加者に対して、ロボット、又は、表示装置に表示される話者が発話を促すことで、その参加者の発話を促すことができる。また、会話中の沈黙が長くなり、会話の雰囲気が悪くなってしまわないように、参加者へ発話を促すことができる。
According to the embodiment described above, the conversation support system is, for example, a robot, and each participant is based on measurement results of non-verbal behavior such as gaze, breathing, and head movement of each participant during the conversation. The next speaker probability, which is the probability of the next utterance at an arbitrary time, is estimated. The conversation support system estimates the estimated next speaker who is the next participant to speak based on each participant's next speaker probability and the timing when the predicted next speaker starts speaking. When it is detected that the predicted next speaker does not speak at the determined timing, speech is urged with the predicted next speaker or a participant different from the predicted next speaker as the target person. The conversation support system controls the robot or the speaker displayed on the display device (agent whose body is a virtual person) so as to perform the operation indicating the transfer of the right to speak to the target person in order to promote the speech. To do. For example, a speaker displayed on a robot or a display device targets an upper limb that outputs a voice prompting the subject's utterance, or moves his eyes, head, or torso to direct his gaze or face toward the subject. Take nonverbal behaviors such as presenting to the person.
According to the above-described embodiment, the robot or the speaker displayed on the display device prompts the participant to speak by the participant who has missed the timing of the speech, thereby prompting the participant to speak. it can. In addition, it is possible to encourage the participants to speak so that the silence during the conversation is prolonged and the conversation atmosphere is not deteriorated.

上述した本実施形態におけるロボット100又はロボット100Aの備える各機能部は、例えば、コンピュータで実現することができる。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。   Each function part with which robot 100 or robot 100A in this embodiment mentioned above is provided is realizable with a computer, for example. In that case, a program for realizing this function may be recorded on a computer-readable recording medium, and the program recorded on this recording medium may be read into a computer system and executed. Here, the “computer system” includes an OS and hardware such as peripheral devices. The “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Furthermore, the “computer-readable recording medium” dynamically holds a program for a short time like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory inside a computer system serving as a server or a client in that case may be included and a program held for a certain period of time. Further, the program may be a program for realizing a part of the above-described functions, and may be a program capable of realizing the functions described above in combination with a program already recorded in a computer system. You may implement | achieve using programmable logic devices, such as FPGA (Field Programmable Gate Array).

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。   The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes designs and the like that do not depart from the gist of the present invention.

参加者と会話を行うロボットの制御に適用したり、参加者と会話を行う表示装置に表示されたエージェント(仮想的な人物)の動きの制御に適用したりすることができる。   The present invention can be applied to control of a robot that has a conversation with a participant, or can be applied to control of the movement of an agent (virtual person) displayed on a display device that has a conversation with a participant.

51a…右目,51b…左目,52…口部,53…頭部,54…頸部,55…胴部,55a…右腕,55b…左腕,100、100A…ロボット, 101…マイク, 102…カメラ, 103…センサ, 104…音声入力部, 105…映像入力部, 106…センサ入力部, 107…発話区間検出部, 108、108A…次話者確率推定部, 109、109A…制御部, 110…音制御部, 111…口部制御部, 112…視線制御部, 113…頭部制御部, 114…胴部制御部, 115…スピーカ, 116…口部駆動部, 117…眼部駆動部, 118…頭部駆動部, 119…胴部駆動部, 120…センサ信号変換部, 201…位置計測装置, 202…呼吸動作計測装置, 203…注視対象検出装置, 204…頭部動作検出装置, 401…音声解析部, 402…会話情報生成部, 403…会話情報DB, 404…発声情報生成部, 405…音信号生成部, 1091、1091A…動作パターン情報格納部 51a ... right eye, 51b ... left eye, 52 ... mouth, 53 ... head, 54 ... neck, 55 ... trunk, 55a ... right arm, 55b ... left arm, 100, 100A ... robot, 101 ... microphone, 102 ... camera, DESCRIPTION OF SYMBOLS 103 ... Sensor, 104 ... Audio | voice input part, 105 ... Image | video input part, 106 ... Sensor input part, 107 ... Speech area detection part, 108, 108A ... Next speaker probability estimation part, 109, 109A ... Control part, 110 ... Sound Control unit, 111 ... Mouth control unit, 112 ... Gaze control unit, 113 ... Head control unit, 114 ... Body control unit, 115 ... Speaker, 116 ... Mouth drive unit, 117 ... Eye drive unit, 118 ... Head drive unit, 119 ... trunk drive unit, 120 ... sensor signal conversion unit, 201 ... position measurement device, 202 ... breathing motion measurement device, 203 ... gaze target detection device, 204 ... head Operation detecting apparatus, 401 ... voice analysis unit, 402 ... conversation information generation unit, 403 ... conversation information DB, 404 ... voicing information generation unit, 405 ... sound signal generating unit, 1091,1091A ... operation pattern information storage unit

Claims (8)

会話中の各参加者の非言語行動の計測結果に基づいて、前記参加者それぞれが任意の時刻に次発話となる確率である次話者確率を推定する次話者確率推定部と、
前記参加者の前記次話者確率に基づいて次に発話を行うべき参加者である予測次話者及び前記予測次話者が発話を開始するタイミングを推定し、推定された前記タイミングに前記予測次話者が発話を行わなかったことを検出した場合に、前記予測次話者を対象者として発話を促すよう指示する制御部と、
前記制御部からの指示を受け、前記対象者に発話を促す処理を行う発話誘導部と、
を備えることを特徴とする会話支援システム。
Based on the measurement result of the non-verbal behavior of each participant in the conversation, a next speaker probability estimation unit that estimates a next speaker probability that is a probability that each of the participants will be the next utterance at an arbitrary time;
Based on the probability of the next speaker of the participant, a predicted next speaker who is a participant to speak next and a timing at which the predicted next speaker starts speaking are estimated, and the prediction is performed at the estimated timing. A control unit for instructing utterance with the predicted next speaker as a target when it is detected that the next speaker does not speak;
An utterance guidance unit that receives an instruction from the control unit and performs processing for prompting the subject to speak;
A conversation support system characterized by comprising:
前記制御部は、推定された前記タイミングに前記予測次話者が発話を行わなかったことを検出した場合に、前記次話者以外の話者を対象者として発話を促すよう前記発話誘導部に指示する、
ことを特徴とする請求項1に記載の会話支援システム。
When the control unit detects that the predicted next speaker has not spoken at the estimated timing, the control unit causes the utterance guide unit to prompt the utterance with a speaker other than the next speaker as a target person. Instruct,
The conversation support system according to claim 1.
前記発話誘導部は、前記対象者に発話権の移譲を示す動作を行うようロボットを、又は、表示装置に表示される話者を制御する、
ことを特徴とする請求項1又は請求項2に記載の会話支援システム。
The utterance guiding unit controls the robot or the speaker displayed on the display device to perform an operation indicating transfer of the utterance right to the target person,
The conversation support system according to claim 1 or 2, characterized in that
前記発話誘導部は、前記対象者に視線を向けるようロボットの、又は、表示装置に表示される話者の眼、頭部、又は、胴部のうち1以上を制御する、
ことを特徴とする請求項3に記載の会話支援システム。
The utterance guide unit controls one or more of a robot's eyes, a head, or a torso displayed on a display device to direct a line of sight toward the subject.
The conversation support system according to claim 3.
前記発話誘導部は、ロボットの、又は、表示装置に表示される話者の上肢を前記対象者に差し出すよう制御する、
ことを特徴とする請求項3又は請求項4に記載の会話支援システム。
The utterance guide unit controls the robot or the speaker to display the upper limb of the speaker displayed on the display device.
The conversation support system according to claim 3 or 4, characterized by the above.
前記発話誘導部は、前記対象者の発話を促す音声を出力する、
ことを特徴とする請求項1から請求項5のいずれか一項に記載の会話支援システム。
The utterance guiding unit outputs a voice prompting the subject to speak;
The conversation support system according to any one of claims 1 to 5, wherein
会話中の各参加者の非言語行動の計測結果に基づいて、前記参加者それぞれが任意の時刻に次発話となる確率である次話者確率を推定する次話者確率推定部と、
前記参加者の前記次話者確率に基づいて次に発話を行うべき参加者である予測次話者及び前記予測次話者が発話を開始するタイミングを推定し、推定された前記タイミングに前記予測次話者が発話を行わなかったことを検出した場合に、発話を促す処理を行う発話誘導部に、前記予測次話者を対象者として発話を促すよう指示する制御部と、
を備えることを特徴とする会話支援装置。
Based on the measurement result of the non-verbal behavior of each participant in the conversation, a next speaker probability estimation unit that estimates a next speaker probability that is a probability that each of the participants will be the next utterance at an arbitrary time;
Based on the probability of the next speaker of the participant, a predicted next speaker who is a participant to speak next and a timing at which the predicted next speaker starts speaking are estimated, and the prediction is performed at the estimated timing. A control unit that instructs the utterance guiding unit that performs the process of prompting the utterance to detect the next speaker as the target person when detecting that the next speaker has not made the utterance;
A conversation support device comprising:
コンピュータに、
会話中の各参加者の非言語行動の計測結果に基づいて、前記参加者それぞれが任意の時刻に次発話となる確率である次話者確率を推定する次話者確率推定ステップと、
前記参加者の前記次話者確率に基づいて次に発話を行うべき参加者である予測次話者及び前記予測次話者が発話を開始するタイミングを推定し、推定された前記タイミングに前記予測次話者が発話を行わなかったことを検出した場合に、発話を促す処理を行う発話誘導部に、前記予測次話者を対象者として発話を促すよう指示する制御ステップと、
を実行させるための会話支援プログラム。
On the computer,
Based on the measurement result of the non-verbal behavior of each participant in the conversation, the next speaker probability estimating step for estimating the next speaker probability, which is the probability that each of the participants will be the next utterance at an arbitrary time,
Based on the probability of the next speaker of the participant, a predicted next speaker who is a participant to speak next and a timing at which the predicted next speaker starts speaking are estimated, and the prediction is performed at the estimated timing. A control step for instructing an utterance guiding unit that performs processing for prompting an utterance to prompt an utterance with the predicted next speaker as a target when it is detected that the next speaker has not made an utterance;
Conversation support program for running.
JP2016001340A 2016-01-06 2016-01-06 Conversation support system, conversation support apparatus, and conversation support program Active JP6445473B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016001340A JP6445473B2 (en) 2016-01-06 2016-01-06 Conversation support system, conversation support apparatus, and conversation support program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016001340A JP6445473B2 (en) 2016-01-06 2016-01-06 Conversation support system, conversation support apparatus, and conversation support program

Publications (2)

Publication Number Publication Date
JP2017123027A true JP2017123027A (en) 2017-07-13
JP6445473B2 JP6445473B2 (en) 2018-12-26

Family

ID=59306426

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016001340A Active JP6445473B2 (en) 2016-01-06 2016-01-06 Conversation support system, conversation support apparatus, and conversation support program

Country Status (1)

Country Link
JP (1) JP6445473B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020088637A (en) * 2018-11-27 2020-06-04 株式会社イトーキ Conference support system and conference robot
JP2021012384A (en) * 2017-11-02 2021-02-04 グーグル エルエルシーGoogle LLC Automated assistant having conferencing ability
JP2021033621A (en) * 2019-08-23 2021-03-01 株式会社日立製作所 Conference support system and conference support method

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070192910A1 (en) * 2005-09-30 2007-08-16 Clara Vu Companion robot for personal interaction
JP2007336445A (en) * 2006-06-19 2007-12-27 Nippon Telegr & Teleph Corp <Ntt> Conversation support system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070192910A1 (en) * 2005-09-30 2007-08-16 Clara Vu Companion robot for personal interaction
JP2007336445A (en) * 2006-06-19 2007-12-27 Nippon Telegr & Teleph Corp <Ntt> Conversation support system

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
石井亮ほか4名: ""複数人対話における注視遷移パターンに基づく次話者と発話開始タイミングの予測"", 電子情報通信学会論文誌A[ONLINE], vol. 第J97-A巻, 第6号, JPN6018020462, 1 June 2014 (2014-06-01), JP, pages 453 - 468 *
長谷川孔明ほか1名: ""非言語的な意思伝達を行う遠隔会議ロボットの提案"", 第28回日本ロボット学会学術講演会予稿集[DVD−ROM], JPN6018020464, 24 September 2010 (2010-09-24), JP *
関口海良ほか3名: ""ロボットは会議に潜む多重文脈の表出を支援できるか"", 第68回(平成18年)全国大会講演論文集(4), JPN6018020463, 7 March 2006 (2006-03-07), JP, pages pp.4-39〜4-40 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021012384A (en) * 2017-11-02 2021-02-04 グーグル エルエルシーGoogle LLC Automated assistant having conferencing ability
JP7032504B2 (en) 2017-11-02 2022-03-08 グーグル エルエルシー Automatic assistant with meeting ability
US11470022B2 (en) 2017-11-02 2022-10-11 Google Llc Automated assistants with conference capabilities
JP2020088637A (en) * 2018-11-27 2020-06-04 株式会社イトーキ Conference support system and conference robot
JP7286303B2 (en) 2018-11-27 2023-06-05 株式会社イトーキ Conference support system and conference robot
JP2021033621A (en) * 2019-08-23 2021-03-01 株式会社日立製作所 Conference support system and conference support method
JP7347994B2 (en) 2019-08-23 2023-09-20 株式会社日立製作所 Conference support system

Also Published As

Publication number Publication date
JP6445473B2 (en) 2018-12-26

Similar Documents

Publication Publication Date Title
US11017779B2 (en) System and method for speech understanding via integrated audio and visual based speech recognition
US20190371318A1 (en) System and method for adaptive detection of spoken language via multiple speech models
KR20200091839A (en) Communication device, communication robot and computer readable storage medium
JP2017118364A (en) Communication system, communication device, and communication program
US20220101856A1 (en) System and method for disambiguating a source of sound based on detected lip movement
JP6445473B2 (en) Conversation support system, conversation support apparatus, and conversation support program
WO2008069187A1 (en) Presentation support device, method, and program
CN111002303B (en) Recognition device, robot, recognition method, and storage medium
JP2008509455A (en) Communication method and system between user and system
JP5294315B2 (en) Dialogue activation robot
JPWO2019093392A1 (en) Communication skill evaluation systems, devices, methods, and programs
JP6480351B2 (en) Speech control system, speech control device and speech control program
CN111935573A (en) Audio enhancement method and device, storage medium and wearable device
JP7120060B2 (en) VOICE DIALOGUE DEVICE, CONTROL DEVICE AND CONTROL PROGRAM FOR VOICE DIALOGUE DEVICE
JP6363987B2 (en) Voice processing system, voice processing apparatus, and voice processing program
Bilac et al. Gaze and filled pause detection for smooth human-robot conversations
JP7205533B2 (en) Information processing device, information processing method, and robot device
JP2007155986A (en) Voice recognition device and robot equipped with the same
JP6887035B1 (en) Control systems, control devices, control methods and computer programs
JP2004234631A (en) System for managing interaction between user and interactive embodied agent, and method for managing interaction of interactive embodied agent with user
JP6502865B2 (en) Conversation support system, conversation support device and conversation support program
JP6383349B2 (en) Communication skill evaluation system, communication skill evaluation device, and communication skill evaluation program
JP2018149625A (en) Communication robot, program, and system
JP6335157B2 (en) Conversation support system, conversation support apparatus, and conversation support program
JP6363986B2 (en) Communication skill evaluation system, communication skill evaluation device, and communication skill evaluation program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170828

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180605

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180731

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181129

R150 Certificate of patent or registration of utility model

Ref document number: 6445473

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150