JP6445473B2

JP6445473B2 - 会話支援システム、会話支援装置及び会話支援プログラム

Info

Publication number: JP6445473B2
Application number: JP2016001340A
Authority: JP
Inventors: 石井　亮; 亮石井; 大塚　和弘; 和弘大塚; 史朗熊野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-01-06
Filing date: 2016-01-06
Publication date: 2018-12-26
Anticipated expiration: 2036-01-06
Also published as: JP2017123027A

Description

本発明は、会話支援システム、会話支援装置及び会話支援プログラムに関する。

会話の参加者が適切なタイミングで発話すると、良い雰囲気で会話が進行する。会話の目的は様々であるが、良い雰囲気の会話はその目的の達成に効果的であり、参加者の満足度も高い。しかしながら、会話中に適切なタイミングで発話することは、高度なコミュニケーションスキルを要する。そのため、発話が期待される場面でも、発話のタイミングをつかむことが苦手であるために、あるいは、他の参加者が先に話し出してしまったために、発話の機会を逃してしまう参加者もいる。また、会話の雰囲気から最も発話すべきと期待される参加者が発話を行わないときには、他の参加者もその参加者の発話を待って発話を躊躇してしまい、結果として会話が止まってしまうことがある。

一方、会議において次話者に発話を行わせる技術がある。この技術では、多人数ＴＶ（テレビ）会議において、身体動作や発話情報から各参加者の発話欲求を推定し、その欲求に基づいて次の次話者を決定する。そして、その次話者に確実に発話を行わせるために、その人物のフィラーなどを他の参加者に聞かせる制御を行う。また、多人数ＴＶ会議において、万人が隔たりなく発話できるように、発言が多い人物を検出し、その人物の発話を抑制するように音声を生成する技術がある（例えば、特許文献２参照）。

特開２０１２−１４６０７２号公報特開２００７−１５８５２６号公報

上述した特許文献１の技術は、システムが次話者にしようとした参加者以外の発話開始を阻止するものであり、特許文献２の技術は、特定の参加者の発話を阻止（妨害）することで、他の参加者の発話を促進するものである。しかし、これらの従来技術は、参加者が発話のタイミングを逸してしまったときに、その参加者や他の参加者に発話を促すものではない。

上記事情に鑑み、本発明は、会話の参加者が会話中に適切な発話のタイミングを逸してしまったときに、発話を促すことができる会話支援システム、会話支援装置及び会話支援プログラムを提供することを目的としている。

本発明の一態様は、会話中の各参加者の非言語行動の計測結果に基づいて、前記参加者それぞれが任意の時刻に次発話となる確率である次話者確率を推定する次話者確率推定部と、前記参加者の前記次話者確率に基づいて次に発話を行うべき参加者である予測次話者及び前記予測次話者が発話を開始するタイミングを推定し、推定された前記タイミングに前記予測次話者が発話を行わなかったことを検出した場合に、前記予測次話者を対象者として発話を促すよう指示する制御部と、前記制御部からの指示を受け、前記対象者に発話を促す処理を行う発話誘導部と、を備える会話支援システムである。

本発明の一態様は、上述した会話支援システムであって、前記制御部は、推定された前記タイミングに前記予測次話者が発話を行わなかったことを検出した場合に、前記次話者以外の話者を対象者として発話を促すよう前記発話誘導部に指示する。

本発明の一態様は、上述した会話支援システムであって、前記発話誘導部は、前記対象者に発話権の移譲を示す動作を行うようロボットを、又は、表示装置に表示される話者を制御する。

本発明の一態様は、上述した会話支援システムであって、前記発話誘導部は、前記対象者に視線を向けるようロボットの、又は、表示装置に表示される話者の眼、頭部、又は、胴部のうち１以上を制御する。

本発明の一態様は、上述した会話支援システムであって、前記発話誘導部は、ロボットの、又は、表示装置に表示される話者の上肢を前記対象者に差し出すよう制御する。

本発明の一態様は、上述した会話支援システムであって、前記発話誘導部は、前記対象者の発話を促す音声を出力する。

本発明の一態様は、会話中の各参加者の非言語行動の計測結果に基づいて、前記参加者それぞれが任意の時刻に次発話となる確率である次話者確率を推定する次話者確率推定部と、前記参加者の前記次話者確率に基づいて次に発話を行うべき参加者である予測次話者及び前記予測次話者が発話を開始するタイミングを推定し、推定された前記タイミングに前記予測次話者が発話を行わなかったことを検出した場合に、発話を促す処理を行う発話誘導部に、前記予測次話者を対象者として発話を促すよう指示する制御部と、を備える会話支援装置である。

本発明の一態様は、コンピュータに、会話中の各参加者の非言語行動の計測結果に基づいて、前記参加者それぞれが任意の時刻に次発話となる確率である次話者確率を推定する次話者確率推定ステップと、前記参加者の前記次話者確率に基づいて次に発話を行うべき参加者である予測次話者及び前記予測次話者が発話を開始するタイミングを推定し、推定された前記タイミングに前記予測次話者が発話を行わなかったことを検出した場合に、発話を促す処理を行う発話誘導部に、前記予測次話者を対象者として発話を促すよう指示する制御ステップと、を実行させるための会話支援プログラムである。

本発明により、会話の参加者が会話中に適切な発話のタイミングを逸してしまったときに、発話を促すことができる。

第１の実施形態におけるロボット１００が備える機能構成の概略を示す図である。第１の実施形態におけるセンサ１０３の具体的な構成例を示す図である。第１の実施形態における次話者確率推定部１０８が出力する次話者確率Ｐ^ｎｓ _ｉ（ｔ）の例を示す図である。第１の実施形態における音制御部１１０の構成の詳細の具体例を示す図である。第１の実施形態におけるロボット１００の外観及び構成の具体例を示す図である。第１の実施形態におけるロボット１００の動作を示すフロー図である。第２の実施形態におけるロボット１００Ａが備える機能構成の概略を示す図である。第２の実施形態におけるロボット１００Ａの動作を示すフロー図である。息の吸い込み区間の例を示す図である。注視対象遷移パターンを例示した図である。時間構造情報を例示した図である。

以下、図面を参照して、本発明の実施形態について説明する。
（第１の実施形態）
図１は、第１の実施形態におけるロボット１００が備える機能構成の概略を示す図である。ロボット１００は、会話支援システムの一例である。第１の実施形態におけるロボット１００は、複数人の参加者と会話を行うロボットである。図１に示すように、ロボット１００は、マイク１０１と、カメラ１０２と、センサ１０３と、音声入力部１０４と、映像入力部１０５と、センサ入力部１０６と、発話区間検出部１０７と、次話者確率推定部１０８と、制御部１０９と、音制御部１１０と、口部制御部１１１と、視線制御部１１２と、頭部制御部１１３と、胴部制御部１１４と、スピーカ１１５と、口部駆動部１１６と、眼部駆動部１１７と、頭部駆動部１１８と、胴部駆動部１１９とを備える。

マイク１０１は、会話する参加者の音声等を含むロボット１００の周囲の音を集音して、音声信号を含む音信号（以下の説明では単に音声信号という）を出力する。マイク１０１が少なくとも参加者の音声を集音可能であれば、マイク１０１の設置位置と数は任意とすることができる。例えば、マイク１０１は、複数の各参加者それぞれに装着された複数のマイクで構成される。このようにマイク１０１を参加者の口元に近く、参加者個別に装着することで精度よく集音することができる。また、例えば、マイク１０１は、ロボット１００に搭載されてもよく、参加者やロボット１００以外の外界に設置されてもよい。ロボット１００において、複数のマイク１０１と音声入力部１０４とは、有線又は無線で音声信号の送受信が可能に接続された構成である。

カメラ１０２は、会話する参加者の映像を撮影して、映像信号を出力する。カメラ１０２が参加者全員を撮影可能であれば、カメラ１０２の設置位置と台数は任意とすることができる。例えば、カメラ１０２は、参加者全員の姿が画角にはいるよう広角な画角を有する撮像装置である。また、例えば、カメラ１０２は、参加者全員の姿をそれぞれ撮影する参加者の人数分の複数のカメラであってもよい。この場合には、ロボット１００において、映像入力部１０５と、複数のカメラとは、有線又は無線で映像信号を送受信可能に接続された構成となる。

センサ１０３は、ロボット１００の位置に対する、会話する参加者の位置を計測する第１のセンサ、参加者の呼吸動作を計測する第２のセンサ、参加者の注視対象を検出する第３のセンサ及び参加者の頭部動作を検出する第４のセンサ等の複数のセンサを備え、それらの各センサからのセンサ信号をセンサ入力部１０６へ出力する。

図２は、第１の実施形態におけるセンサ１０３の具体的な構成例を示す図である。
図２に示すように、センサ１０３は、ロボット１００の位置に対する、会話する参加者の位置（特に顔位置）を計測する位置計測装置（第１のセンサ）２０１と、参加者の呼吸動作を計測する呼吸動作計測装置（第２のセンサ）２０２と、参加者の注視対象を検出する注視対象検出装置（第３のセンサ）２０３と、参加者の頭部動作を検出する頭部動作検出装置（第４のセンサ）２０４とを備える。位置計測装置２０１は、例えばロボット１００内に設置される。呼吸動作計測装置２０２は、参加者の体幹等に装着され、注視対象検出装置２０３及び頭部動作検出装置２０４は、参加者の頭部等に装着される。位置計測装置２０１は、センサ入力部１０６と接続されている。呼吸動作計測装置２０２、注視対象検出装置２０３及び頭部動作検出装置２０４は、センサ入力部１０６と、有線又は無線でセンサ信号の送受信が可能に接続されている。

図１の音声入力部１０４は、マイク１０１からの音声信号を入力とし、発話区間検出部１０７、次話者確率推定部１０８及び音制御部１１０へ音声信号を出力する。音声入力部１０４は、マイク１０１からの音声信号を、ロボット１００内で処理可能な信号形式の音声信号に変換する等の処理を行う。映像入力部１０５は、カメラ１０２からの映像信号を入力とし、次話者確率推定部１０８へ映像信号を出力する。映像入力部１０５は、カメラ１０２からの映像信号を、ロボット１００内で処理可能な信号形式の映像信号に変換する等の処理を行う。センサ入力部１０６は、センサ１０３からのセンサ信号を入力とし、次話者確率推定部１０８へセンサ信号を出力する。センサ入力部１０６は、センサ１０３からのセンサ信号を、ロボット１００内で処理可能な信号形式のセンサ信号に変換する等の処理を行う。

発話区間検出部１０７は、既存の任意の技術により、音声入力部１０４からの音声信号から得られる音声特徴量に基づいて、各参加者が発話を行った区間を検出する。例えば、発話区間検出部１０７は、音声入力部１０４からの音声信号に基づいて、任意の窓幅を設けてその区間内の音声信号のパワー、ゼロ交差数、周波数などを、音声の特徴を示す値である音声特徴量として算出する。発話区間検出部１０７は、算出した音声特徴量と所定の閾値を比較して発話区間を検出する。発話区間検出部１０７は、検出した発話区間に関する情報である発話区間情報を次話者確率推定部１０８、制御部１０９及び音制御部１１０へ出力する。発話区間情報には、発話の開始及び終了の時刻、及び、発話者の情報が含まれる。なお、マイク１０１から取得される音声信号において、音声の存在する区間（発話区間）と音声の存在しない区間（非発話区間）を自動的に検出するＶＡＤ（Voice Activity Detection）技術は、以下の参考文献１に示すように公知の技術である。発話区間検出部１０７は、公知のＶＡＤ技術を用いて発話区間を検出する。
参考文献１：澤田宏、外４名、"多人数多マイクでの発話区間検出〜ピンマイクでの事例〜"、日本音響学会春季研究発表会、ｐｐ．６７９−６８０、２００７年３月

次話者確率推定部１０８は、音声入力部１０４からの音声信号と、映像入力部１０５からの映像信号と、センサ入力部１０６からのセンサ信号と、発話区間検出部１０７からの発話区間情報とを入力とし、各参加者が時刻ｔに次話者となる確率である次話者確率を出力する。次話者確率推定部１０８は、音声信号、映像信号、センサ信号及び発話区間情報に基づいて、発話区間情報で特定される発話区間の発話者を示す発話者情報を取得する。次話者確率推定部１０８は、音声信号、映像信号、センサ信号及び取得した発話者情報に基づいて、各参加者ｉが時刻ｔに次話者となる確率である次話者確率Ｐ^ｎｓ _ｉ（ｔ）を算出して、制御部１０９へ出力する。次話者確率推定部１０８は、参加者の非言語行動に基づいて次話者確率Ｐ^ｎｓ _ｉ（ｔ）を算出している。すなわち、次話者確率推定部１０８は、次話者確率Ｐ^ｎｓ _ｉ（ｔ）の算出に、参加者の発話内容を解析等して利用者の言語行動に関する情報を得る必要はない。次話者確率推定部１０８は、次話者確率Ｐ^ｎｓ _ｉ（ｔ）の他に、発話者情報及び参加者の位置情報を制御部１０９へ出力する。

なお、次話者確率推定部１０８は、参加者の位置情報を、例えば、センサ１０３の参加者の位置を計測したセンサ信号に基づいて取得してもよいし、映像信号に基づいて取得してもよいし、センサ１０３の参加者の位置を計測したセンサ信号及び映像信号に基づいて取得してもよい。

図３は、第１の実施形態における次話者確率推定部１０８が出力する次話者確率Ｐ^ｎｓ _ｉ（ｔ）の例を示す図である。図３においては、４名の参加者Ａ〜Ｄについて参加者Ａの発話の切れ目となる時刻ｔ_ｂｕｅ以降における次話者確率Ｐ^ｎｓ _ｉ（ｔ）の変化例を示している。符号３１を付与した矩形は、参加者Ａの発話区間を示している。発話区間３１は、発話終了時刻ｔ_ｂｕｅで終了している。次話者確率Ｐ^ｎｓ _Ａ（ｔ）３２で示す点線は、発話終了時刻ｔ_ｂｕｅ以降の時刻ｔにおける参加者Ａの次話者確率の変化を示している。次話者確率Ｐ^ｎｓ _Ｂ（ｔ）３３で示す点線は、発話終了時刻ｔ_ｂｕｅ以降の時刻ｔにおける参加者Ｂの次話者確率の変化を示している。次話者確率Ｐ^ｎｓ _Ｃ（ｔ）３４で示す点線は、発話終了時刻ｔ_ｂｕｅ以降の時刻ｔにおける参加者Ｃの次話者確率の変化を示している。次話者確率Ｐ^ｎｓ _Ｄ（ｔ）３５で示す点線は、発話終了時刻ｔ_ｂｕｅ以降の時刻ｔにおける参加者Ｄの次話者確率の変化を示している。このように、次話者確率推定部１０８は、参加者ｉ（ｉ∈｛Ａ，Ｂ，Ｃ，Ｄ｝）の発話終了時刻ｔ_ｂｕｅ以降の時刻ｔにおける次話者確率Ｐ^ｎｓ _ｉ（ｔ）の変化を算出する。なお、次話者確率推定部１０８における次話者の推定処理の詳細については後述する。

図１の制御部１０９は、次話者確率推定部１０８からの次話者確率を入力とし、入力した次話者確率に基づいて次に発話を行うと予測される参加者である予測次話者と、予測次話者が発話を開始するタイミング（発話開始タイミング）を推定する。制御部１０９は、動作パターン情報格納部１０９１を備える。動作パターン情報格納部１０９１は、ロボット１００が発話を促す動作を示す動作パターン情報を格納している。

制御部１０９は、以下に示す第１〜第５の次話者選択方法のいずれかを用いて予測次話者を選択する。なお、以下の説明においては、参加者Ａ、Ｂ、Ｃ、Ｄの４名とロボット１００とが会話を行う場合について説明する。制御部１０９は、次話者確率推定部１０８からＡ〜Ｄの次話者確率Ｐ^ｎｓ _ｉ（ｔ），（ｉ∈｛Ａ，Ｂ，Ｃ，Ｄ｝）を取得する。

（第１の次話者選択方法）
制御部１０９は、参加者Ａ〜Ｄそれぞれの次話者確率Ｐ^ｎｓ _ｉ（ｔ），（ｉ∈｛Ａ，Ｂ，Ｃ，Ｄ｝）を比較する。制御部１０９は、次話者確率Ｐ^ｎｓ _ｉ（ｔ）の最大値が最も高い参加者Ａ〜Ｄのいずれかを予測次話者と判断する。制御部１０９は、予測次話者の次話者確率Ｐ^ｎｓ _ｉ（ｔ）が最大値を取るときの時刻ｔを予測次話者の発話開始タイミングとする。なお、制御部１０９は、参加者Ａ〜Ｄのいずれの次話者確率Ｐ^ｎｓ _ｉ（ｔ）も第１の閾値を超えない場合、予測次話者がロボット１００であると判断してもよい。

（第２の次話者選択方法）
制御部１０９は、参加者Ａ〜Ｄのうち、次話者確率Ｐ^ｎｓ _ｉ（ｔ），（ｉ∈｛Ａ，Ｂ，Ｃ，Ｄ｝）が最も早い時刻に第２の閾値以上の最大値をとる参加者を予測次話者と判断する。制御部１０９は、予測次話者の次話者確率Ｐ^ｎｓ _ｉ（ｔ）が最大値を取るときの時刻ｔを予測次話者の発話開始タイミングとする。なお、制御部１０９は、参加者Ａ〜Ｄのいずれの次話者確率Ｐ^ｎｓ _ｉ（ｔ）も第２の閾値を超えない場合、予測次話者がロボット１００であると判断してもよい。

（第３の次話者選択方法）
制御部１０９は、参加者Ａ〜Ｄの次話者確率Ｐ^ｎｓ _ｉ（ｔ），（ｉ∈｛Ａ，Ｂ，Ｃ，Ｄ｝）それぞれを、時刻ｔについて所定時間（例えば、発話終了時刻から３〜４秒以上の時間）積分して、積分値Ｐ^ｎｓ _ｉを取得する。なお、積分区間を発話終了時刻から無限時間としてもよく、全参加者Ａ〜Ｄの次話者確率Ｐ^ｎｓ _ｉ（ｔ）が所定値未満となり有意な値ではなくなる時間までとしてもよい。制御部１０９は、この積分値Ｐ^ｎｓ _ｉが最も大きい参加者Ａ〜Ｄのいずれかを予測次話者と判断する。制御部１０９は、予測次話者の次話者確率Ｐ^ｎｓ _ｉ（ｔ）が最大値を取るときの時刻ｔを予測次話者の発話開始タイミングとする。なお、制御部１０９は、全ての参加者Ａ〜Ｄとも積分値Ｐ^ｎｓ _ｉが第３の閾値を超えないときには、予測次話者がロボット１００であると判断してもよい。

（第４の次話者選択方法）
制御部１０９は、参加者Ａ〜Ｄの次話者確率Ｐ^ｎｓ _ｉ（ｔ），（ｉ∈｛Ａ，Ｂ，Ｃ，Ｄ｝）を加算した加算値（Ｐ^ｎｓ _Ａ（ｔ）＋Ｐ^ｎｓ _Ｂ（ｔ）＋Ｐ^ｎｓ _Ｃ（ｔ）＋Ｐ^ｎｓ _Ｄ（ｔ））を取得し、第４の閾値である任意の確率Ｐ_γと比較する。制御部１０９は、参加者Ａ〜Ｄ全員の次話者確率の加算値が確率Ｐ_γ以上である（（Ｐ^ｎｓ _Ａ（ｔ）＋Ｐ^ｎｓ _Ｂ（ｔ）＋Ｐ^ｎｓ _Ｃ（ｔ）＋Ｐ^ｎｓ _Ｄ（ｔ））≧Ｐ_γ）場合は、上記の第１〜第３のいずれかの次話者選択方法によって、予測次話者と発話開始タイミングを得る。ただし、第１〜第３の次話者選択方法において、第１〜第３の閾値との比較は行わなくてもよい。制御部１０９は、参加者Ａ〜Ｄ全員の次話者確率の加算値が確率Ｐ_γ未満である（（Ｐ^ｎｓ _Ａ（ｔ）＋Ｐ^ｎｓ _Ｂ（ｔ）＋Ｐ^ｎｓ _Ｃ（ｔ）＋Ｐ^ｎｓ _Ｄ（ｔ））＜Ｐ_γ）場合は、予測次話者がロボット１００であると判断する。

（第５の次話者選択方法）
制御部１０９は、参加者Ａ〜Ｄの次話者確率Ｐ^ｎｓ _ｉ（ｔ），（ｉ∈｛Ａ，Ｂ，Ｃ，Ｄ｝）のそれぞれを、時刻ｔについて所定時間（例えば、３〜４秒以上の時間）積分して、積分値Ｐ^ｎｓ _ｉを取得する。なお、積分区間を発話終了から無限時間としてもよく、全参加者の次話者確率Ｐ^ｎｓ _ｉ（ｔ）が所定値未満となる時間までとしてもよい。制御部１０９は、参加者Ａ〜Ｄの全員の積分値Ｐ^ｎｓ _ｉを加算した加算値（Ｐ^ｎｓ _Ａ＋Ｐ^ｎｓ _Ｂ＋Ｐ^ｎｓ _Ｃ＋Ｐ^ｎｓ _Ｄ）を取得し、第５の閾値である任意の確率Ｐ_θと比較する。制御部１０９は、参加者Ａ〜Ｄの積分値の加算値が確率Ｐ_θ以上である（（Ｐ^ｎｓ _Ａ＋Ｐ^ｎｓ _Ｂ＋Ｐ^ｎｓ _Ｃ＋Ｐ^ｎｓ _Ｄ）≧Ｐ_θ）場合は、上記の第１〜第３のいずれかの次話者選択方法によって、予測次話者と発話開始タイミングを得る。ただし、第１〜第３の次話者選択方法において、第１〜第３の閾値との比較は行わなくてもよい。制御部１０９は、参加者Ａ〜Ｄの全員の積分値の加算値が確率Ｐ_θ未満である（（Ｐ^ｎｓ _Ａ＋Ｐ^ｎｓ _Ｂ＋Ｐ^ｎｓ _Ｃ＋Ｐ^ｎｓ _Ｄ）＜Ｐ_θ）場合は、予測次話者がロボット１００であると判断する。

次話者確率Ｐ^ｎｓ _ｉ（ｔ），（ｉ∈｛Ａ，Ｂ，Ｃ，Ｄ｝）は、図３に示したように、発話終了から所定時間後にピークを有する場合が多い。そこで、制御部１０９は、第１〜第５の次話者選択方法において、次話者確率Ｐ^ｎｓ _ｉ（ｔ）を求める時刻ｔを含む窓幅を設けて、その窓幅の中における次話者確率の最大値を、時刻ｔにおける次話者確率Ｐ^ｎｓ _ｉ（ｔ）として用いるようにしてもよい。また、制御部１０９は、第１〜第５の次話者選択方法において、次話者確率Ｐ^ｎｓ _ｉ（ｔ）を求める時刻ｔを含む窓幅を設けて、その窓幅の中における次話者確率に複数のピークがある場合に、ｎ番目（ｎは１以上の整数）のピークの次話者確率を、時刻ｔにおける次話者確率Ｐ^ｎｓ _ｉ（ｔ）として用いるようにしてもよい。

制御部１０９は、第１〜第５の次話者選択方法により予測次話者がロボット１００であると判断した場合、音制御部１１０に対して発話を行うよう指示する発話制御信号を出力する。制御部１０９は、予測次話者が参加者Ａ〜Ｄのいずれかであると判断した場合、音制御部１１０に対して発話を抑制するよう指示する発話制御信号を出力するとともに、推定された発話開始タイミングに予測次話者が発話を行ったか否かを判断する。制御部１０９は、推定された発話開始タイミングに予測次話者が発話を行わなかったことを検出すると、動作パターン情報格納部１０９１から動作パターン情報を読み出す。制御部１０９は、読み出した動作パターン情報が示す動作を行わせるよう指示する発話誘導動作制御信号を、音制御部１１０、口部制御部１１１、視線制御部１１２、頭部制御部１１３、及び、胴部制御部１１４のうち１以上に出力する。発話誘導動作制御信号は、発話誘導対象者に対して発話を促す動作を行うよう指示する信号である。動作パターン情報は、例えば、発話誘導対象者に対して発話を促す内容の発話の音声を出力する、視線を発話誘導対象者の方向に向ける、発話誘導対象者の方向に上肢を差し出す、などの動作を示す。発話誘導動作制御信号には、発話誘導対象者を特定する情報が含まれる。制御部１０９は、発話誘導対象者を、予測次話者又は予測次話者とは異なる参加者とする。視線制御部１１２、頭部制御部１１３、又は、胴部制御部１１４に出力する発話誘導動作制御信号には、発話誘導対象者の位置の情報がさらに含まれる。

制御部１０９は、発話誘導動作制御信号を出力したのち所定のタイミングまでに発話区間の開始を検出しなかった場合、新たな発話誘導対象者を選択する。制御部１０９は、新たな発話誘導対象者に対して発話を促す動作を行うよう指示する発話誘導動作制御信号を生成し、発話誘導動作制御信号を音制御部１１０、口部制御部１１１、視線制御部１１２、頭部制御部１１３、及び、胴部制御部１１４のうち一以上に出力する。

口部制御部１１１と、視線制御部１１２と、頭部制御部１１３と、胴部制御部１１４と、スピーカ１１５と、口部駆動部１１６と、眼部駆動部１１７と、頭部駆動部１１８と、胴部駆動部１１９とは、制御部１０９からの指示を受け、発話誘導対象者に発話を促す処理を行う発話誘導部として動作する。

音制御部１１０は、制御部１０９からの発話制御信号又は発話誘導動作制御信号に基づいて、スピーカ１１５に対して音信号を出力する。音制御部１１０は、発話制御信号に基づいて、ロボット１００に発話を行わせるか否かを判断する。音制御部１１０は、発話制御信号に基づいて、ロボット１００に発話を行わせると判断した場合には、ロボット１００に発話させる会話内容（言葉）を含む会話情報を生成し、生成した会話情報に基づいた音信号を出力する。音制御部１１０は、例えば、音声信号及び発話区間情報に基づいて参加者の会話内容を解析し、解析結果に基づいて、ロボット１００に発話させるための会話情報を生成する。また、音制御部１１０は、発話誘導動作制御信号を受信した場合、発話誘導動作制御信号に設定されている発話誘導対象者に発話を促す内容の会話情報を生成し、生成した会話情報に基づいた音信号を出力する。

ここで、第１の実施形態における音制御部１１０の構成の詳細について一例を示して説明する。
図４は、第１の実施形態における音制御部１１０の構成の詳細の具体例を示す図である。音制御部１１０は、音声解析部４０１と、会話情報生成部４０２と、会話情報ＤＢ（データベース）４０３と、発声情報生成部４０４と、音信号生成部４０５とを備える。

会話情報ＤＢ４０３は、ロボット１００に会話させるための会話サンプル情報を格納する。会話サンプル情報とは、日常の会話でよく使われる名詞、「こんにちは」等の挨拶及び「ありがとうございます」、「大丈夫ですか」等の日常会話でよく利用するフレーズの音声信号を含む情報である。さらに、会話情報ＤＢ４０３は、各話者の名前の音声信号と、「〜さんは、どう思いますか」、「〜さんは、何かありますか」などの発話を促すフレーズの音声信号を記憶する。

音声解析部４０１は、音声入力部１０４からの音声信号と、発話区間検出部１０７からの発話区間情報とに基づいて、音声信号を解析して、その内容（言葉）を特定し、解析結果を出力する。

会話情報生成部４０２は、発話制御信号を受信した場合、音声解析部４０１の解析結果に基づいて、ロボット１００の発話内容となる会話情報を生成する。会話情報生成部４０２は、音声解析部４０１の解析結果に基づいて、会話する内容に応じた会話サンプル情報を会話情報ＤＢ４０３から取得する。会話情報生成部４０２は、取得した会話サンプル情報に基づいて、会話情報を生成する。会話情報生成部４０２は、発声情報生成部４０４からの会話情報の要求に応じて、会話情報を生成し、発声情報生成部４０４へ出力する。
また、会話情報生成部４０２は、発話誘導動作制御信号を受信した場合、その発話誘導動作制御信号に設定されている発話誘導対象者の名前の音声信号と、発話を促すフレーズの音声信号とを会話情報ＤＢ４０３から取得する。会話情報生成部４０２は、これらの音声信号を続けて出力する会話情報を生成し、発声情報生成部４０４へ出力する。

発声情報生成部４０４は、会話情報生成部４０２からの会話情報と、制御部１０９からの発話制御信号又は発話誘導動作制御信号とを入力として、発話信号を出力する。発声情報生成部４０４は、制御部１０９からの発話制御信号又は発話誘導動作制御信号に基づいて、会話情報生成部４０２に対して会話情報を要求する。発声情報生成部４０４は、要求に応じて会話情報生成部４０２から取得した会話情報と、制御部１０９からの発話制御信号又は発話誘導動作制御信号とに基づいて、ロボット１００が発声するための発話信号を生成する。発声情報生成部４０４は、生成した発話信号を音信号生成部４０５へ出力する。

音信号生成部４０５は、発声情報生成部４０４からの発話信号を入力とし、音信号を出力する。音信号生成部４０５は、発声情報生成部４０４からの発話信号に基づいてスピーカ１１５から発話させるための音信号を生成して、スピーカ１１５へ出力する。

図１に示す口部制御部１１１は、制御部１０９からの発話誘導動作制御信号に基づいて、口部駆動部１１６に対して口部駆動信号を出力する。視線制御部１１２は、制御部１０９からの発話誘導動作制御信号に基づいて、眼部駆動部１１７に対して眼部駆動信号を出力する。頭部制御部１１３は、制御部１０９からの発話誘導動作制御信号に基づいて、頭部駆動部１１８に対して頭部駆動信号を出力する。胴部制御部１１４は、制御部１０９からの発話誘導動作制御信号に基づいて、胴部駆動部１１９に対して胴部駆動信号を出力する。

図５は、第１の実施形態におけるロボット１００の外観及び構成の具体例を示す図である。第１の実施形態におけるロボット１００は、例えば図５に示す外観を有し、図１に示す機能構成を有する。

図５に示すように、ロボット１００は、例えば、人間の上半身をモデルとした形状のヒューマノイドロボット（人型ロボット）である。ロボット１００は、発話を行う発話機能、人の音声を認識する音声認識機能、参加者を撮影するカメラ機能を少なくとも備える。ロボット１００は、右目５１ａ及び左目５１ｂと、口部５２とが配置された顔を有する頭部５３を備える。

ロボット１００は、頭部５３を支持する頸部５４と、頸部５４を支える胴部５５とを備える。胴部５５は、上肢である右腕５５ａと左腕５５ｂとが側面上部に設けられている。また、頭部５３の右目５１ａ、左目５１ｂの間には、カメラ１０２が設置されている。以下の説明において、右目５１ａ、左目５１ｂをまとめて説明する場合は、眼部５１と称する。

図１に示す構成の内、図５に示しているのは、カメラ１０２のみであるので、カメラ１０２以外の図１に示す構成の設置位置の一例について説明する。マイク１０１及びセンサ１０３は、ロボット１００の胴部５５内における任意の位置又は胴部５５から離れた位置（例えば参加者の位置）に設置される。図１に示すマイク１０１、カメラ１０２及びセンサ１０３以外の構成は、ロボット１００内部に設置されるものであり、例えば、スピーカ１１５は、図５に示した口部５２の内部に設置されている。

ここで、ロボット１００が備える口部駆動部１１６、眼部駆動部１１７、頭部駆動部１１８及び胴部駆動部１１９の配置と駆動する対象について説明する。頭部５３は、右目５１ａ及び左目５１ｂの黒目（視線）を移動させる眼部駆動部１１７と、口部５２の開閉を行う口部駆動部１１６とを備える。

頸部５４は、頭部５３に対して所定の動き（例えば、頷かせたり、顔の方向を変えたりする動き）を行わせる頭部駆動部１１８を備え、頭部５３を支持する。胴部５５は、呼吸をしているかのように、肩を動かしたり、胸の部分を膨らませたりする胴部駆動部１１９を備える。口部駆動部１１６は、口部制御部１１１からの口部駆動信号に基づいてロボット１００の口部５２の開閉を行う。眼部駆動部１１７は、視線制御部１１２からの眼部駆動信号に基づいてロボット１００の眼部５１における黒目の方向（＝ロボット１００の視線の方向）を制御する。

頭部駆動部１１８は、頭部制御部１１３からの頭部駆動信号に基づいてロボット１００の頭部５３の動きを制御する。胴部駆動部１１９は、胴部制御部１１４からの胴部駆動信号に基づいてロボット１００の胴部５５の形状を制御する。また、胴部駆動部１１９は、胴部制御部１１４からの胴部駆動信号に基づいてロボット１００の右腕５５ａと左腕５５ｂの動きも制御する。

次に、第１の実施形態におけるロボット１００の動作について説明する。
図６は、第１の実施形態におけるロボット１００の動作を示すフロー図である。図６に示す処理は、ロボット１００において、複数の参加者と会話を行う動作を開始した際に行う処理である。以下では、参加者Ａ〜Ｄとロボット１００が会話に参加している場合を例に説明する。

音声入力部１０４は、マイク１０１からの音声信号が入力され、映像入力部１０５は、カメラ１０２からの映像信号が入力され、センサ入力部１０６は、センサ１０３からのセンサ信号が入力される（ステップＳ１０１）。発話区間検出部１０７は、音声入力部１０４からの音声信号に基づいて、音声特徴量を算出し、算出した音声特徴量と所定の閾値を比較して発話区間を検出する（ステップＳ１０２）。

次話者確率推定部１０８は、音声信号、映像信号、センサ信号及び取得した発話者情報に基づいて、各参加者ｉ（ｉ∈｛Ａ，Ｂ，Ｃ，Ｄ｝）が時刻ｔに次話者となる確率である次話者確率Ｐ^ｎｓ _ｉ（ｔ）を算出する（ステップＳ１０３）。制御部１０９は、次話者確率推定部１０８が算出した各参加者の次話者確率に基づいて、上述した第１〜第５の次話者選択方法のいずれかを用いて、予測次話者と予測次話者の発話開始タイミングを得る（ステップＳ１０４）。

制御部１０９は、予測次話者が参加者Ａ〜Ｄのいずれかであるかを判断する（ステップＳ１０５）。制御部１０９は、予測次話者が参加者Ａ〜Ｄのいずれかであると判断した場合（ステップＳ１０５のＮＯ）、音制御部１１０に、発話を行わないよう指示する発話制御信号を出力する。制御部１０９は、発話誘導タイミングが経過するまでの間に参加者Ａ〜Ｄのいずれかが発話したか否かを判断する（ステップＳ１０６）。この発話誘導タイミングは、発話開始タイミング以降のタイミングであり、発話開始タイミングの直後であってもよく、会話中に沈黙が継続した場合に不自然と感じる時間に基づいて決められたタイミングであってもよい。後者のタイミングの場合、例えば、発話終了時刻から所定時間（例えば、２〜３秒）経過後としてもよく、推定された発話開始タイミングから所定時間経過後としてもよい。また、発話誘導タイミングは、予測次話者の次話者確率が所定値以下となる時刻であってもよい。

制御部１０９は、発話区間検出部１０７が発話誘導タイミングまでに発話区間の開始を検出した場合、参加者Ａ〜Ｄのいずれかが発話したと判断し（ステップＳ１０６のＹＥＳ）、ステップＳ１０７の処理を実行する。

一方、制御部１０９は、発話区間検出部１０７が発話誘導タイミングまでに発話区間の開始を検出しない場合（ステップＳ１０６のＮＯ）、発話誘導処理を行う（ステップＳ１０８）。発話誘導処理において、制御部１０９は、発話誘導対象者を、予測次話者、又は、予測次話者の次に次話者確率が高い話者とする。発話誘導対象者を、予測次話者にするか、予測次話者の次に次話者確率が高い話者とするかは予め決められてもよく、動的に決定してもよい。動的に決定する場合、例えば、予測次話者である参加者ｘ（ｘはＡ〜Ｄのいずれか）に対して過去に発話を促したときに参加者ｘが発話を行った確率Ｐｘや、予測次話者の次に次話者確率が高い参加者ｙ（ｙ≠ｘ、ｙはＡ〜Ｄのいずれか）に対して過去に発話を促したときに参加者ｙが発話を行った確率Ｐｙに基づいて決定することができる。具体的には、Ｐｘが所定の閾値以上である場合や、Ｐｘ＞Ｐｙの場合に参加者ｘを予測次話者とし、Ｐｘが所定の閾値よりも低い場合や、Ｐｘ＜Ｐｙの場合に参加者ｙを予測次話者とする。

制御部１０９は、発話誘導対象者を特定する情報を設定した発話誘導動作制御信号を音制御部１１０、口部制御部１１１、視線制御部１１２、頭部制御部１１３、及び、胴部制御部１１４のうち１以上に出力する。制御部１０９は、視線制御部１１２、頭部制御部１１３、又は、胴部制御部１１４に出力する発話誘導動作制御信号に、発話誘導対象者の位置の情報をさらに設定する。これにより、ロボット１００は、以下の（動作１）〜（動作５）いずれかまたは複数の動作を行い、発話誘導対象者への発話権の委譲を合図する。

（動作１）音制御部１１０は、発話誘導対象者に対して発話を促す内容の発話の音声をスピーカ１１５から出力する。例えば、発話誘導対象者に対して質問や要求を行う内容の発話を出力する。具体的には、「ＸＸさんはどう思いますか？」（「ＸＸさん」は、発話誘導対象者の名前）といった発話を行う。同時に、口部制御部１１１は、口部駆動信号を口部駆動部１１６に出力し、音声をスピーカ１１５から出力している間、口部５２を開閉するよう制御する。

（動作２）視線制御部１１２は、眼部駆動信号を眼部駆動部１１７に出力し、眼部２１における黒目の方向を、発話誘導対象者の方向となるように制御する。なお、視線を向けることは発話促進になることが知られている（参考文献２）。
参考文献２：石井亮、外２名、“アバタ音声チャットシステムにおける会話促進のための注視制御”、ヒューマンインタフェース学会論文誌、Ｖｏｌ．１０、Ｎｏ．１、ｐ．８７−９４、２００８年

（動作３）頭部制御部１１３は、頭部駆動信号を頭部駆動部１１８に出力し、頸部５４を動かして頭部５３を発話誘導対象者の方向に向けるように制御する。これにより、頭部５３と視線を予測次話者の方向となるように制御する。

（動作４）胴部制御部１１４は、胴部駆動信号を胴部駆動部１１９に出力し、胴部５５を発話誘導対象者の方向に回転させるように制御する。これにより、胴部、頭部、及び、視線を発話誘導対象者の方向となるように制御する。

（動作５）胴部制御部１１４は、胴部駆動信号を胴部駆動部１１９に出力し、右腕５５ａと左腕５５ｂの一方又は両方を発話誘導対象者の方向に差し出すように制御する。

制御部１０９は、ステップＳ１０８において発話誘導処理を行った後、次の発話誘導タイミングが経過するまでの間に参加者Ａ〜Ｄのいずれかが発話したか否かを判断する（ステップＳ１０９）。制御部１０９は、次の発話誘導タイミングが経過するまでの間に、発話区間検出部１０７が発話区間の開始を検出しない場合（ステップＳ１０９のＮＯ）、再び、発話誘導処理を行う（ステップＳ１０８）。

制御部１０９は、ステップＳ１０９でＮＯと判断した後に発話誘導処理を行う場合、発話誘導対象者を、直前の発話誘導処理における発話誘導対象者としてもよく、直前の発話誘導処理において発話誘導対象者とした参加者の次に次話者確率が高い参加者としてもよい。例えば、制御部１０９は、同じ参加者がｍ回（ｍは１以上の整数）以上連続して発話誘導対象者となった場合に、その参加者の次に次話者確率が高い話者としてもよい。また、制御部１０９は、発話誘導対象者を、次話者確率が最大値となる時刻が直前の発話誘導処理における発話誘導対象者の次の参加者としてもよい。また、あるいは、制御部１０９は、予測次話者がまだ発話誘導対象者となっていない場合、発話誘導対象者を予測次話者としてもよい。

具体的には、第１又は第４の次話者選択方法において、参加者ｘの次話者確率Ｐ^ｎｓ _ｉ（ｔ）が最も高く、発話開始タイミングが時刻ｔ１であったとき、時刻ｔ１に参加者ｘが発話を開始しない条件下で、次話者確率Ｐ^ｎｓ _ｘ（ｔ）がある任意の確率ｏを下回る時刻をｔ２（Ｐ^ｎｓ _ｘ（ｔ２）＜ｏ）とする。時刻ｔ２において次話者確率Ｐ^ｎｓ _ｘ（ｔ２）を上回る他の参加者ｙがいるとき（Ｐ^ｎｓ _ｘ（ｔ２）＜Ｐ^ｎｓ _ｙ（ｔ２））、ロボット１００は参加者ｙに時刻ｔ２で発話を促す（ｔ２≧ｔ１）。

また、第３又は第５の次話者選択方法において、参加者ｘの積分値Ｐ^ｎｓ _ｉが最も高く、次話者確率Ｐ^ｎｓ _ｘ（ｔ）が最大となる時刻ｔ１（発話開始タイミング）に参加者ｘが発話を開始しない条件下で、次話者確率Ｐ^ｎｓ _ｘ（ｔ）がある任意の確率ｏを下回る時刻をｔ２（Ｐ^ｎｓ _ｘ（ｔ２）＜ｏ）とする。時刻ｔ２において次話者確率Ｐ^ｎｓ _ｘ（ｔ２）を上回る他の参加者ｙがいるとき（Ｐ^ｎｓ _ｘ（ｔ２）＜Ｐ^ｎｓ _ｙ（ｔ２））、ロボット１００は参加者ｙに時刻ｔ２で発話を促す（ｔ２≧ｔ１）。

なお、第２の次話者選択方法において、参加者ｘの次話者確率Ｐ^ｎｓ _ｘ（ｔ）が最大となる時刻ｔ１の次に、次話者確率が最大値をとる他の参加者ｙがいるとき、ロボット１００は参加者ｙに時刻ｔ２で発話を促す（ｔ２≧ｔ１）。

制御部１０９は、次の発話誘導タイミングが経過するまでの間に、発話区間検出部１０７が発話区間の開始を検出した場合（ステップＳ１０９のＹＥＳ）、参加者Ａ〜Ｄのいずれかが発話したと判断し、ステップＳ１０７の処理を実行する。

ステップＳ１０５において、制御部１０９は、予測次話者がロボット１００であると判断した場合（ステップＳ１０５：ＹＥＳ）、ロボット１００に発話を行わせるよう制御する発話制御信号を出力する。音制御部１１０は、制御部１０９からの発話制御信号に基づいて発話を行わせると判断し、ロボット１００に発話させるための会話情報を生成し、生成した会話情報に基づいた音信号をスピーカ１１５へ出力する（ステップＳ１１０）。これにより、ロボット１００は、音信号に応じた発話をスピーカ１１５から発音する。

音制御部１１０は、制御部１０９からの発話制御信号に基づいて、ロボット１００の発話を終了するか否かを判断する（ステップＳ１１１）。ここで、ロボット１００の発話を終了しない場合（ステップＳ１１１のＮＯ）には、音制御部１１０は、ステップＳ１１０の処理に戻る。ロボット１００の発話を終了する場合（ステップＳ１１１のＹＥＳ）には、音制御部１１０は、会話情報の生成を停止することに応じて音信号の出力を停止する。

ステップＳ１０６、ステップＳ１０９、又はステップＳ１１１においてＹＥＳと判断された後、ロボット１００は、複数の参加者と会話を行う会話動作を終了するか否かを判断する（ステップＳ１０７）。ここで、会話動作を終了しないと判断した場合（ステップＳ１０７のＮＯ）には、ステップＳ１０１の処理に戻る。会話動作を終了すると判断した場合（ステップＳ１０７のＹＥＳ）には、ロボット１００は、会話動作を終了する。例えば、参加者が電源スイッチ（図示せず）を入れたタイミングや会話モードのスイッチ（図示せず）をオンにしたタイミングで、ロボット１００は、会話動作を開始し、参加者が電源スイッチを切ったタイミングや会話モードのスイッチをオフにしたタイミングで、ロボット１００は、会話動作を終了する。

以上に説明したとおり、第１の実施形態におけるロボット１００は、複数の参加者と会話する際に、各参加者の次話者確率に基づいて次話者を推定し、推定された次話者が発話のタイミングを逸した場合、次話者に発話を促す。これにより、発話のタイミングを逸した参加者が発話しやすいように誘導することができる。また、推定された次話者が発話のタイミングを逸した場合、他の話者に発話を促すことも可能である。例えば、参加者は意図的に発話を控えていることもある。そこで、他の参加者に発話を促すことにより、会話中に沈黙が発生して、参加者が気まずさを感じたりすることが少なくなる。

なお、上記のステップＳ１０９において、次の発話誘導タイミングが経過するまでの間に、発話区間検出部１０７が発話区間の開始を検出しない場合、ロボット１００は、ステップＳ１０３からの処理を行い、各参加者Ａ〜Ｄの次話者確率を算出しなおしてもよい。

また、上記のステップＳ１０６において、制御部１０９は、いずれかの参加者の発話を検出したと判断した場合（ステップＳ１０６のＹＥＳ）、さらに、発話者が予測次話者であるか否かを判断するようにしてもよい。制御部１０９は、発話者が予測次話者であると判断した場合、ステップＳ１０７の処理を実行する。一方、制御部１０９は、発話者が予測次話者ではないと判断した場合、予測次話者である参加者ｘが発話行う予定だったにもかかわらず、他の参加者ｙが割り込んで発話を行ったとみなし、参加者ｘに発話を促すようロボット１００を制御する。促すタイミングは任意とすることができる。例えば、参加者ｙの発話の切れ目を検出し、この切れ目を検出した直後、又は、切れ目から所定時間後に、予測次話者を発話誘導対象者として発話誘導処理を行う。切れ目とは、例えば、「〜です。」といった語尾が発話された際や、無音区間がある任意の時間Ｄｓを超えた時とすることができる。また、制御部１０９は、参加者ｙの発話を検出した直後、あるいは、参加者ｙの発話開始時刻から所定時間後に、参加者ｙの発話を制止する内容の音声を出力するよう指示する制御信号を音制御部１１０に出力してもよい。これにより、音制御部１１０は、「ＹＹさん、ちょっと待ってください」といった内容の発話の音声をスピーカ１１５から出力する。その後、ロボット１００は、予測次話者を発話誘導対象者として、ステップＳ１０８からの処理を実行してもよい。このように、参加者ｙの発話を制止する内容の音声によって、予測次話者の発話を促してもよい。

また、上記のステップＳ１０９において、制御部１０９は、いずれかの参加者の発話を検出したと判断した場合（ステップＳ１０９のＹＥＳ）、発話者が発話誘導対象者であるか否かを判断するようにしてもよい。制御部１０９は、発話者が発話誘導対象者であると判断した場合、ステップＳ１０７の処理を実行する。一方、制御部１０９は、発話者が発話誘導対象者ではないと判断した場合、発話誘導対象者である参加者ｘが発話行う予定だったにもかかわらず、他の参加者ｙが割り込んで発話を行ったとみなし、参加者ｘに発話を促すようロボット１００を制御する。例えば、上記と同様に、制御部１０９は、参加者ｙの発話の切れ目を検出した直後、又は、切れ目から所定時間後に、同じ発話誘導対象者について発話誘導処理を行う。あるいは、制御部１０９は、参加者ｙの発話を検出した直後、あるいは、参加者ｙの発話開始時刻から所定時間後に、参加者ｙの発話を制止する内容の音声を出力するよう指示する制御信号を音制御部１１０に出力する。

なお、本実施形態では、ロボット１００が会話に参加する場合を例に記載したが、ロボット１００は、会話に参加せず、参加者の発話を促す動作のみを行ってもよい。

（第２の実施形態）
第２の実施形態では、ロボット自身の動き（呼吸動作、視線動作、頭部動作）からロボット自身の次話者確率Ｐ^ｎｓ _Ｒ（ｔ）を求める。ロボットは、求めた次話者確率Ｐ^ｎｓ _Ｒ（ｔ）と他の参加者の次話者確率とに基づいて、予測次話者及び発話開始タイミングを推定する。そのため、ロボットは、会話に参加し、会話中に、会話中の人間同様の動きを行う。つまり、ロボットは、会話中に、呼吸音を発したり胸の膨らみを変化させたりする呼吸動作、視線を話者に向ける等の視線動作、会話に応じて頷いたりする頭部動作を行う。以下では、第１の実施形態との差分を中心に説明する。

図７は、第２の実施形態におけるロボット１００Ａが備える機能構成の概略を示す図である。図７に示す第２の実施形態におけるロボット１００Ａは、第１の実施形態におけるロボット１００と同じ構成要素を含む。よって、ロボット１００Ａの説明においては、第１の実施形態におけるロボット１００と同じ構成要素については、同じ符号を付与して説明を省略する。

図７に示すように、ロボット１００Ａは、マイク１０１と、カメラ１０２と、センサ１０３と、音声入力部１０４と、映像入力部１０５と、センサ入力部１０６と、発話区間検出部１０７と、次話者確率推定部１０８Ａと、制御部１０９Ａと、音制御部１１０と、口部制御部１１１と、視線制御部１１２と、頭部制御部１１３と、胴部制御部１１４と、スピーカ１１５と、口部駆動部１１６と、眼部駆動部１１７と、頭部駆動部１１８と、胴部駆動部１１９と、センサ信号変換部１２０とを備える。

次話者確率推定部１０８Ａは、音声入力部１０４からの音声信号と、映像入力部１０５からの映像信号と、センサ入力部１０６からのセンサ信号と、発話区間検出部１０７からの発話区間情報と、制御部１０９Ａからの疑似センサ信号とを入力とし、各参加者及びロボット１００Ａのそれぞれが時刻ｔに次話者となる確率である次話者確率を出力する。疑似センサ信号は、制御部１０９Ａが生成する動作制御信号に基づいてロボット１００を動作させ、かつ、そのロボット１００Ａの動作をセンサ１０３で検出したと仮定した場合に、センサ１０３が出力するセンサ信号である。

次話者確率推定部１０８Ａは、音声信号、映像信号、センサ信号及び発話区間情報に基づいて、発話区間情報で特定される発話区間の発話者を示す発話者情報を取得する。次話者確率推定部１０８Ａは、音声信号、映像信号、センサ信号、疑似センサ信号及び取得した発話者情報に基づいて、ロボット１００Ａが時刻ｔに次話者となる確率であるＰ^ｎｓ _R（ｔ）及び各参加者ｉが時刻ｔに次話者となる確率である次話者確率Ｐ^ｎｓ _ｉ（ｔ）を算出して、制御部１０９Ａへ出力する。次話者確率推定部１０８Ａは、次話者確率Ｐ^ｎｓ _R（ｔ）及びＰ^ｎｓ _ｉ（ｔ）の他に、発話者情報及び参加者の位置情報を制御部１０９Ａへ出力する。

次話者確率推定部１０８Ａは、参加者の位置情報を、例えば、センサ１０３の参加者の位置を計測したセンサ信号に基づいて取得してもよいし、映像信号に基づいて取得してもよいし、センサ１０３の参加者の位置を計測したセンサ信号及び映像信号に基づいて取得してもよい。

制御部１０９Ａは、次話者確率推定部１０８Ａからの次話者確率Ｐ^ｎｓ _ｉ（ｔ）、発話者情報及び参加者の位置情報を入力とし、発話制御信号又は発話誘導動作制御信号を出力する。制御部１０９Ａは、各参加者及びロボット１００Ａの次話者確率Ｐ^ｎｓ _ｉ（ｔ）に基づいて予測次話者と発話開始タイミングを推定する。制御部１０９Ａは、具体的には、以下に示す第６〜第１０の次話者選択方法のいずれかを用いて次話者を選択する。なお、以下の説明においては、参加者Ａ、Ｂ、Ｃ、Ｄの４名とロボット１００Ａとが会話を行う場合について説明する。制御部１０９Ａは、次話者確率推定部１０８Ａから次話者確率Ｐ^ｎｓ _ｉ（ｔ），（ｉ∈｛Ａ，Ｂ，Ｃ，Ｄ，Ｒ｝）を取得する。

（第６の次話者選択方法）
制御部１０９Ａは、参加者Ａ〜Ｄ及びロボット１００Ａの次話者確率Ｐ^ｎｓ _ｉ（ｔ），（ｉ∈｛Ａ，Ｂ，Ｃ，Ｄ，Ｒ｝）を比較する。制御部１０９Ａは、Ｐ^ｎｓ _Ｒ（ｔ）が最大であると判断した場合は、ロボット１００Ａを予測次話者とする。制御部１０９Ａは、Ｐ^ｎｓ _Ｒ（ｔ）が最大ではないと判断した場合は、次話者確率Ｐ^ｎｓ _ｉ（ｔ）の最大値が最も高い参加者Ａ〜Ｄのいずれかを予測次話者と判断する。制御部１０９Ａは、予測次話者の次話者確率Ｐ^ｎｓ _ｉ（ｔ）が最大値を取るときの時刻ｔを予測次話者の発話開始タイミングとする。

（第７の次話者選択方法）
制御部１０９Ａは、次話者確率Ｐ^ｎｓ _ｉ（ｔ），（ｉ∈｛Ａ，Ｂ，Ｃ，Ｄ，Ｒ｝）が最も早い時刻に最大値をとる参加者又はロボット１００Ａのいずれかを予測次話者と判断する。制御部１０９Ａは、予測次話者の次話者確率Ｐ^ｎｓ _ｉ（ｔ）が最大値を取るときの時刻ｔを予測次話者の発話開始タイミングとする。

（第８の次話者選択方法）
制御部１０９Ａは、参加者Ａ〜Ｄ及びロボット１００Ａの次話者確率Ｐ^ｎｓ _ｉ（ｔ），（ｉ∈｛Ａ，Ｂ，Ｃ，Ｄ，Ｒ｝）それぞれを、時刻ｔについて所定時間（例えば、発話終了から３〜４秒以上の時間）積分して、積分値Ｐ^ｎｓ _ｉを取得する。なお、積分区間を発話終了から無限時間としてもよく、全参加者の次話者確率Ｐ^ｎｓ _ｉ（ｔ）が所定値未満となり有意な値ではなくなる時間までとしてもよい。制御部１０９Ａは、この積分値Ｐ^ｎｓ _ｉが最も大きい参加者Ａ〜Ｄ又はロボット１００Ａのいずれかを予測次話者と判断する。制御部１０９Ａは、予測次話者の次話者確率Ｐ^ｎｓ _ｉ（ｔ）が最大値を取るときの時刻ｔを予測次話者の発話開始タイミングとする。

（第９の次話者選択方法）
制御部１０９Ａは、参加者Ａ〜Ｄの次話者確率Ｐ^ｎｓ _ｉ（ｔ），（ｉ∈｛Ａ，Ｂ，Ｃ，Ｄ｝）を加算した加算値（Ｐ^ｎｓ _Ａ（ｔ）＋Ｐ^ｎｓ _Ｂ（ｔ）＋Ｐ^ｎｓ _Ｃ（ｔ）＋Ｐ^ｎｓ _Ｄ（ｔ））を取得する。制御部１０９Ａは、この加算値と、ロボット１００Ａの次話者確率Ｐ^ｎｓ _Ｒ（ｔ）に定数ιを乗算したＰ^ｎｓ _Ｒ（ｔ）・ιと比較する（ιは正の値となる任意の定数）。制御部１０９Ａは、加算値（Ｐ^ｎｓ _Ａ（ｔ）＋Ｐ^ｎｓ _Ｂ（ｔ）＋Ｐ^ｎｓ _Ｃ（ｔ）＋Ｐ^ｎｓ _Ｄ（ｔ））＜Ｐ^ｎｓ _Ｒ（ｔ）・ιと判断した場合は、ロボット１００Ａを予測次話者とする。制御部１０９Ａは、加算値（Ｐ^ｎｓ _Ａ（ｔ）＋Ｐ^ｎｓ _Ｂ（ｔ）＋Ｐ^ｎｓ _Ｃ（ｔ）＋Ｐ^ｎｓ _Ｄ（ｔ））≧Ｐ^ｎｓ _Ｒ（ｔ）・ιと判断した場合は、第１の実施形態の第１〜第３のいずれかの次話者選択方法によって、予測次話者と発話開始タイミングを得る。ただし、第１〜第３の次話者選択方法において、第１〜第３の閾値との比較は行わなくてもよい。このときの予測次話者は、参加者Ａ〜Ｄのいずれかである。

（第１０の次話者選択方法）
制御部１０９Ａは、参加者Ａ〜Ｄ及びロボット１００Ａの次話者確率Ｐ^ｎｓ _ｉ（ｔ），（ｉ∈｛Ａ，Ｂ，Ｃ，Ｄ，Ｒ｝）それぞれを、時刻ｔについて所定時間（例えば、３〜４秒以上の時間）積分して、積分値Ｐ^ｎｓ _ｉを取得する。制御部１０９Ａは、参加者Ａ〜Ｄの全員の積分値Ｐ^ｎｓ _ｉを加算した加算値（Ｐ^ｎｓ _Ａ＋Ｐ^ｎｓ _Ｂ＋Ｐ^ｎｓ _Ｃ＋Ｐ^ｎｓ _Ｄ）と、ロボット１００Ａの積分値Ｐ^ｎｓ _Ｒに定数ζを乗算したＰ^ｎｓ _Ｒ・ζと比較する（ζは正の値となる任意の定数）。制御部１０９Ａは、（Ｐ^ｎｓ _Ａ＋Ｐ^ｎｓ _Ｂ＋Ｐ^ｎｓ _Ｃ＋Ｐ^ｎｓ _Ｄ）＜Ｐ^ｎｓ _Ｒ・ζと判断した場合は、ロボット１００Ａを予測次話者とする。制御部１０９Ａは、（Ｐ^ｎｓ _Ａ＋Ｐ^ｎｓ _Ｂ＋Ｐ^ｎｓ _Ｃ＋Ｐ^ｎｓ _Ｄ）≧Ｐ^ｎｓ _Ｒ・ζと判断した場合は、第１の実施形態の第１〜第３のいずれかの次話者選択方法によって、予測次話者と発話開始タイミングを得る。ただし、第１〜第３の次話者選択方法において、第１〜第３の閾値との比較は行わなくてもよい。このときの予測次話者は、参加者Ａ〜Ｄのいずれかである。

次話者確率Ｐ^ｎｓ _ｉ（ｔ），（ｉ∈｛Ａ，Ｂ，Ｃ，Ｄ，Ｒ｝）は、図３に示したように、発話終了から所定時間後にピークを有する場合が多い。そこで、制御部１０９Ａは、第６〜第１０の次話者選択方法において、次話者確率Ｐ^ｎｓ _ｉ（ｔ）を求める時刻ｔを含む窓幅を設けて、その窓幅の中における次話者確率の最大値を、時刻ｔにおける次話者確率Ｐ^ｎｓ _ｉ（ｔ）として用いるようにしてもよい。また、制御部１０９Ａは、第６〜第１０の次話者選択方法において、次話者確率Ｐ^ｎｓ _ｉ（ｔ）を求める時刻ｔを含む窓幅を設けて、その窓幅の中における次話者確率に複数のピークがある場合に、ｎ番目（ｎは１以上の整数）のピークの次話者確率を、時刻ｔにおける次話者確率Ｐ^ｎｓ _ｉ（ｔ）として用いるようにしてもよい。

制御部１０９Ａが備える動作パターン情報格納部１０９１Ａは、第１の実施形態の動作パターン情報格納部１０９１が記憶する動作パターンに加え、ロボット１００Ａが会話中に行う動作の動作パターン情報を格納する。ロボット１００Ａが会話中に行う動作とは、例えば、発話を開始する前に、これから発話を行うことを周りの人に察知させるよう人が行っている動作と同様の動作である。例えば、複数人が会話している際に、非話者である人が次話者として発話する直前に行う行動を解析した結果、以下の（１）〜（３）の行動が「次は私が話を始めます」ということを周囲に示す行動であると考えられる。
（１）吸気音又はフィラーを発声する
（２）現話者に視線向ける
（３）現話者の会話に頷く

上述した解析結果を参考にして、制御部１０９Ａは、ロボット１００Ａの発話前に、ロボット１００Ａに上述した（１）〜（３）の動作を行わせるよう制御することで、ロボット１００Ａがもうすぐ発話を開始することを参加者に予見させることができる。ロボット１００Ａが上述した（１）〜（３）の動作を行うと次話者確率推定部１０８Ａが推定するロボット１００Ａの次話者確率Ｐ^ｎｓ _Ｒ（ｔ）が上昇する。すなわち、発話を行うことを周りの人に察知させる動作とは、例えば、現話者に視線を移動させる動作、頭を頷かせる動作、吸気音とともに吸気する動作等を含む。

制御部１０９Ａは、以下の公知文献に記載の技術を用いてロボット１００Ａに上述した（１）〜（３）の動作を行わせるよう制御してもよい。
（１）の吸気音を発声する動作をロボット１００Ａに行わせるための技術として以下の参考文献３に記載された公知技術がある。
参考文献３：吉田直人、外３名、“吐息と腹部運動を伴う呼吸表現に関する因子分析に基づいた生物的身体感情インタラクションの設計”、ＨＡＩシンポジウム２０１４、２０１４年
（２）の現話者に視線を向ける動作をロボット１００Ａに行わせるための技術として上記の参考文献２に記載された公知技術がある。
（３）の現話者の会話に頷く動作をロボット１００Ａに行わせるための技術として以下の参考文献４に記載された公知技術がある。
参考文献４：渡辺富夫、外３名、“InterActorを用いた発話音声に基づく身体的インタラクションシステム”、ヒューマンインタフェース学会論文誌、Ｖｏｌ．２、Ｎｏ．２、ｐｐ．２１−２９、２０００年

制御部１０９Ａは、予測次話者がいずれかの参加者である場合、第１の実施形態の制御部１０９と同様の動作を行う。制御部１０９Ａは、予測次話者がロボット１００Ａの場合、ロボット１００Ａの発話の制御を行う発話制御信号を音制御部１１０に出力する。さらに、制御部１０９Ａは、呼吸音やフィラーを発音するよう指示する発音指示信号を音制御部１１０へ出力する。ここで、フィラーとは、言い淀み時などに出現する場つなぎのための発声であり、例えば、「あのー」、「そのー」、「えっと」、等の音声である。また、制御部１０９Ａは、次話者確率推定部１０８Ａからの発話者情報及び参加者の位置情報に基づいて、動作パターン情報格納部１０９１Ａから動作パターン情報を取得して動作制御信号を生成し、生成した動作制御信号を口部制御部１１１、視線制御部１１２、頭部制御部１１３及び胴部制御部１１４へ出力する。

センサ信号変換部１２０は、制御部１０９Ａが生成した動作制御信号を疑似センサ信号に変換して次話者確率推定部１０８Ａに出力する。

第２の実施形態におけるロボット１００Ａの外観は、図２に示したロボット１００と同一である。

以上の構成により、ロボット１００Ａは、発話を行いたい場合に、発話前に、動作制御信号に基づいて視線を参加者に向けたり、呼吸音やフィラーを発音したりすることができる。参加者は、ロボット１００Ａが発話を開始する前に、ロボット１００Ａがまもなく発話することを予見することができる。この予見により、参加者とロボット１００Ａとの発話衝突を防ぎ、スムーズな会話を実現することができる。

次に、第２の実施形態におけるロボット１００Ａの動作について説明する。
図８は、第２の実施形態におけるロボット１００Ａの動作を示すフロー図である。図８に示す処理は、図６に示した処理と同様に、ロボット１００Ａにおいて、複数の参加者と会話を行う動作を開始した際に行う処理である。

音声入力部１０４は、マイク１０１からの音声信号が入力され、映像入力部１０５は、カメラ１０２からの映像信号が入力され、センサ入力部１０６は、センサ１０３からのセンサ信号が入力される。また、制御部１０９Ａの制御によりロボット１００Ａの会話動作を行う（ステップＳ２０１）。ロボット１００Ａの会話動作には、上述した（１）〜（３）の動作が含まれる。このロボット１００Ａの会話動作に応じて、センサ信号変換部１２０は、疑似センサ信号を次話者確率推定部１０８Ａに出力する。

発話区間検出部１０７は、音声入力部１０４からの音声信号に基づいて、音声特徴量を算出し、算出した音声特徴量と所定の閾値を比較して発話区間を検出する（ステップＳ２０２）。次話者確率推定部１０８Ａは、音声信号、映像信号、センサ信号、疑似センサ信号及び発話者情報に基づいて、ロボット１００Ａ及び各参加者ｉが時刻ｔに次話者となる確率である次話者確率Ｐ^ｎｓ _ｉ（ｔ）を算出する（ステップＳ２０３）。

制御部１０９Ａは、次話者確率推定部１０８Ａからのロボット１００Ａ及び各参加者の次話者確率に基づいて、上述した第６〜第１０の次話者選択方法のいずれかを用いて、予測次話者と予測次話者の発話開始タイミングを得る（ステップＳ２０４）。
ロボット１００ＡのステップＳ２０５〜ステップＳ２１１の処理は、第１の実施形態のステップＳ１０５〜ステップＳ１１１の処理と同様である。ただし、ロボット１００Ａは、ステップＳ２１０の処理の前に、動作制御信号に基づいて視線を参加者に向けたり、発音指示信号に基づいて呼吸音やフィラーを発音したりする。

以上に説明したとおり、第２の実施形態におけるロボット１００Ａは、他の参加者と発話のタイミングが重なる発話衝突の発生を低減し、適切なタイミングで発話を行いながらも、参加者が発話のタイミングを逸した場合に、発話を促すことができる。

（第１、第２の実施形態に共通の次話者を推定する処理の具体例）
次に、上述したロボット１００および第２の実施形態におけるロボット１００Ａに共通である次話者を推定する処理の具体例について説明する。ロボット１００及びロボット１００Ａにおける次話者推定には、例えば、以下の参考文献５、６の技術などを適用することができるが、任意の既存の技術を利用してもよい。参考文献５、６記載の技術を利用した場合は、注視対象検出装置２０３が出力する注視対象情報に基づく発話者と非発話者の注視行動の遷移パターンを用いて、次話者確率推定部１０８又は次話者確率推定部１０８Ａは、次話者および発話のタイミングを予測する。

参考文献５：特開２０１４−２３８５２５号公報
参考文献６：石井亮、外４名、“複数人対話における注視遷移パターンに基づく次話者と発話タイミングの予測”、人工知能学会研究会資料、SIG-SLUD-B301-06、pp.27-34、2013年

以下に、本実施形態に適用可能な参考文献５、６以外の次話者推定技術の例を示す。
会話の参加者の呼吸動作は次発話者と発話のタイミングに深い関連性がある。このことを利用して、会話の参加者の呼吸動作をリアルタイムに計測し、計測された呼吸動作から発話の開始直前に行われる特徴的な呼吸動作を検出し、この呼吸動作を基に次発話者とその発話タイミングを高精度に算出する。具体的には、発話開始直前におこなわれる呼吸動作の特徴として、発話を行っている発話者は、継続して発話する際（発話者継続時）には、発話終了直後にすぐに急激に息を吸い込む。逆に発話者が次に発話を行わない際（発話者交替時）には、発話者継続時に比べて、発話終了時から間を空けて、ゆっくりと息を吸い込む。また、発話者交替時に、次に発話をおこなう次発話者は、発話を行わない非発話者に比べて大きく息を吸い込む。このような発話の前におこなわれる呼吸は、発話開始に対しておおよそ決められたタイミングで行われる。このように、発話の直前に次発話者は特徴的な息の吸い込みを行うため、このような息の吸い込みの情報は、次発話者とその発話タイミングを予測するのに有用である。本次話者推定技術では、人物の息の吸い込みに着目し、息の吸い込み量や吸い込み区間の長さ、タイミングなどの情報を用いて、次発話者と発話タイミングを予測する。

以下では、Ａ人の参加者Ｐ_１，…，Ｐ_Ａが対面コミュニケーションを行う状況を想定する。参加者Ｐ_ａ（ただし、ａ＝１，…，Ａ、Ａ≧２）には呼吸動作計測装置２０２およびマイク１０１が装着される。呼吸動作計測装置２０２は、参加者Ｐ_ａの呼吸動作を計測し、各離散時刻ｔでの計測結果を表す呼吸情報Ｂ_ａ，ｔを得て、次話者確率推定部１０８又は次話者確率推定部１０８Ａに出力する。呼吸動作計測装置２０２が、バンド式の呼吸装置を備える構成について説明する。バンド式の呼吸装置は、バンドの伸縮の強さによって呼吸の深さの度合いを示す値を出力する。息の吸い込みが大きいほどバンドの伸びが大きくなり、逆に息の吐き出しが大きいほどバンドの縮みが大きくなる（バンドの伸びが小さくなる）。以降、この値をＲＳＰ値と呼ぶ。なお、ＲＳＰ値は、バンドの伸縮の強さに応じて参加者Ｐ_ａごとに異なる大きさを取る。そこで、これに起因するＰ_ａごとのＲＳＰ値の相違を排除するために、各参加者Ｐ_ａのＲＳＰ値の平均値μ_ａと標準偏差値δ_ａを用いて、μ_ａ+δ_ａが１、μ_ａ−δ_ａが−１になるように参加者Ｐ_ａごとにＲＳＰ値を正規化する。これによって、すべての参加者Ｐ_ａの呼吸動作データを同一に分析することが可能となる。各呼吸動作計測装置２０２は、正規化されたＲＳＰ値を呼吸情報Ｂ_ａ，ｔとして次話者確率推定部１０８又は次話者確率推定部１０８Ａに送る。

さらに、マイク１０１は、参加者Ｐ_ａの音声を取得し、各離散時刻ｔでの参加者Ｐ_ａの音声を表す音声信号Ｖ_ａ，ｔを得て、次話者確率推定部１０８又は次話者確率推定部１０８Ａに出力する。次話者確率推定部１０８又は次話者確率推定部１０８Ａは、入力された音声信号Ｖ_ａ，ｔ（ただし、ａ＝１，…，Ａ）から雑音を除去し、さらに発話区間Ｕ_ｋ（ただし、ｋは発話区間Ｕ_ｋの識別子）とその発話者Ｐ_ｕｋとを抽出する。ただし、「Ｐ_ｕｋ」の下付き添え字はｕ_ｋ＝１，…，Ａを表す。１つの発話区間Ｕ_ｋをＴｄ［ｍｓ］連続した無音区間で囲まれた区間と定義し、この発話区間Ｕ_ｋを発話の一つの単位と規定する。これにより、次話者確率推定部１０８又は次話者確率推定部１０８Ａは、各発話区間Ｕ_ｋを表す発話区間情報、およびその発話者Ｐ_ｕｋを表す発話者情報（参加者Ｐ_１，…，Ｐ_Ａのうち何れが発話区間Ｕ_ｋでの発話者Ｐ_ｕｋであるかを表す発話者情報）を得る。

次話者確率推定部１０８又は次話者確率推定部１０８Ａは、各参加者Ｐ_ａの呼吸情報Ｂ_ａ，ｔを用いて、各参加者Ｐ_ａの息の吸い込み区間Ｉ_ａ，ｋを抽出し、さらに息の吸い込みに関するパラメータλ_ａ，ｋを取得する。息の吸い込み区間とは、息を吐いている状態から、息を吸い込みだす開始位置と、息を吸い込み終わる終了位置との間の区間を示す。

図９は、息の吸い込み区間の例を示す図である。図９を用いて、息の吸い込み区間Ｉ_ａ，ｋの算出方法を例示する。ここで参加者Ｐ_ａの離散時刻ｔでのＲＳＰ値をＲ_ａ，ｔと表記する。ＲＳＰ値Ｒ_ａ，ｔは呼吸情報Ｂ_ａ，ｔに相当する。図９に例示するように、例えば、以下の（式１）が成り立つとき、

離散時刻ｔ＝ｔ_ｓ（ｋ）の前２フレームでＲＳＰ値Ｒ_ａ，ｔが連続して減少し、その後２フレームでＲＳＰ値Ｒ_ａ，ｔが連続して上昇しているから、離散時刻ｔ_ｓ（ｋ）を息の吸い込みの開始位置とする。さらに、以下の（式２）が成り立つとき、

離散時刻ｔ＝ｔ_ｅ（ｋ）の前２フレームのＲＳＰ値Ｒ_ａ，ｔが連続して上昇し、その後２フレームのＲＳＰ値Ｒ_ａ，ｔが連続して減少しているから、離散時刻ｔ_ｅ（ｋ）を息の吸い込みの終了位置とする。このとき、参加者Ｐ_ａの息の吸い込み区間Ｉ_ａ，ｋはｔ_ｓ（ｋ）からｔ_ｅ（ｋ）までの区間となり、息の吸い込み区間の長さはｔ_ｅ（ｋ）−ｔ_ｓ（ｋ）となる。

次話者確率推定部１０８又は次話者確率推定部１０８Ａは、息の吸い込み区間Ｉ_ａ，ｋが抽出されると、息の吸い込み区間Ｉ_ａ，ｋ、呼吸情報Ｂ_ａ，ｔ、および発話区間Ｕ_ｋの少なくとも一部を用い、息の吸い込みに関するパラメータλ’_ａ，ｋを抽出する。パラメータλ’_ａ，ｋは、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込みの量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係の少なくとも一部を表す。パラメータλ’_ａ，ｋは、これらの一つのみを表してもよいし、これらのうち複数を表してもよいし、これらすべてを表してもよい。パラメータλ’_ａ，ｋは、例えば以下のパラメータＭＩＮ_ａ，ｋ，ＭＡＸ_ａ，ｋ，ＡＭＰ_ａ，ｋ，ＤＵＲ_ａ，ｋ，ＳＬＯ_ａ，ｋ，ＩＮＴ１_ａ，ｋの少なくとも一部を含む。パラメータλ’_ａ，ｋは、これらの１つのみを含んでいてもよいし、これらのうち複数を含んでいてもよいし、これらのすべてを含んでいてもよい。
・ＭＩＮ_ａ，ｋ：参加者Ｐ_ａの息の吸い込み開始時のＲＳＰ値Ｒ_ａ，ｔ、すなわち、息の吸い込み区間Ｉ_ａ，ｋのＲＳＰ値Ｒ_ａ，ｔの最小値。
・ＭＡＸ_ａ，ｋ：参加者Ｐ_ａの息の吸い込み終了時のＲＳＰ値Ｒ_ａ，ｔ、すなわち、息の吸い込み区間Ｉ_ａ，ｋのＲＳＰ値Ｒ_ａ，ｔの最大値。
・ＡＭＰ_ａ，ｋ：参加者Ｐ_ａの息の吸い込み区間Ｉ_ａ，ｋのＲＳＰ値Ｒ_ａ，ｔの振幅、すなわち、ＭＡＸ_ａ，ｋ−ＭＩＮ_ａ，ｋで算出される値。吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量を表す。
・ＤＵＲ_ａ，ｋ：参加者Ｐ_ａの息の吸い込み区間Ｉ_ａ，ｋの長さ、すなわち、息の吸い込み区間Ｉ_ａ，ｋの終了位置の離散時刻ｔ_ｅ（ｋ）から開始位置の離散時刻ｔ_ｓ（ｋ）を減じて得られる値ｔ_ｅ（ｋ）−ｔ_ｓ（ｋ）。
・ＳＬＯ_ａ，ｋ：参加者Ｐ_ａの息の吸い込み区間Ｉ_ａ，ｋにおけるＲＳＰ値Ｒ_ａ，ｔの単位時間当たりの傾きの平均値、すなわち、ＡＭＰ_ａ，ｋ／ＤＵＲ_ａ，ｋで算出される値。吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化を表す。
・ＩＮＴ１_ａ，ｋ：手前の発話区間Ｕ_ｋの終了時刻ｔ_{ｕｅ（ｋ）}（発話区間末）から参加者Ｐ_ａの息の吸い込みが開始されるまでの間隔、すなわち、息の吸い込み区間Ｉ_ａ，ｋの開始位置の離散時刻ｔ_ｓ（ｋ）から発話区間Ｕ_ｋの終了時刻ｔ_{ｕｅ（ｋ）}を減じて得られる値ｔ_ｓ（ｋ）−ｔ_{ｕｅ（ｋ）}。発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係を表す。

次話者確率推定部１０８又は次話者確率推定部１０８Ａは、さらに以下のパラメータＩＮＴ２_ａ，ｋを生成してもよい。
・ＩＮＴ２_ａ，ｋ：参加者Ｐ_ａの息の吸い込み終了時から次発話者の発話区間Ｕ_ｋ＋１が開始されるまでの間隔、すなわち、次発話者の発話区間Ｕ_ｋ＋１の開始時刻ｔ_{ｕｓ（ｋ＋１）}から息の吸い込み区間Ｉ_ａ，ｋの終了位置の離散時刻ｔ_ｅ（ｋ）を減じて得られる値ｔ_{ｕｓ（ｋ＋１）}−ｔ_ｅ（ｋ）。発話区間Ｕ_ｋ＋１と吸い込み区間Ｉ_ａ，ｋとの時間関係を表す。パラメータλ’_ａ，ｋにＩＮＴ２_ａ，ｋを加えたものをパラメータλ_ａ，ｋと表記する。

次話者確率推定部１０８又は次話者確率推定部１０８Ａは、例えば発話区間Ｕ_ｋ＋１を表す情報が得られ、さらに、パラメータλ_ａ，ｋが得られた以降（発話区間Ｕ_ｋ＋１が開始された後）に、発話区間Ｕ_ｋおよびその発話者Ｐ_ｕｋ、発話区間Ｕ_ｋ＋１およびその発話者Ｐ_ｕｋ＋１とその発話開始タイミングＴ_ｕｋ＋１を表す情報とともにデータベースに記録する。次発話者Ｐ_ｕｋ＋１の発話タイミングとは、発話区間Ｕ_ｋ＋１の何れかの時点またはそれに対応する時点であればよい。発話タイミングＴ_ｕｋ＋１は、発話区間Ｕ_ｋ＋１の開始時刻ｔ_{ｕｓ（ｋ＋１）}であってもよいし、時刻ｔ_{ｕｓ（ｋ＋１）}＋γ（ただし、γは正または負の定数）であってもよいし、発話区間Ｕ_ｋ＋１の終了時刻ｔ_{ｕｅ（ｋ＋１）}であってもよいし、時刻ｔ_{ｕｅ（ｋ＋１）}＋γであってもよいし、発話区間Ｕ_ｋ＋１の中心時刻ｔ_{ｕｓ（ｋ＋１）}＋（ｔ_{ｕｅ（ｋ＋１）}−ｔ_{ｕｓ（ｋ＋１）}）／２であってもよい。λ_ａ，ｋ，Ｕ_ｋ，Ｐ_ｕｋ，Ｐ_ｕｋ＋１，Ｔ_ｕｋ＋１を表す情報の一部またはすべてがデータベースに保持され、次話者確率推定部１０８又は次話者確率推定部１０８Ａが発話区間Ｕ_ｋ＋１よりも後の次発話者とその発話タイミングを予測するために使用される。

次話者確率推定部１０８又は次話者確率推定部１０８Ａは、発話者情報Ｐ_ｕｋ、発話区間Ｕ_ｋ、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係の少なくとも一部に基づき、参加者Ｐ_１，…，Ｐ_Ａのうち何れが次発話者Ｐ_ｕｋ＋１であるか、および次発話者Ｐ_ｕｋ＋１の発話タイミングの少なくとも一方を表す推定情報を得る。ただし、「Ｐ_ｕｋ＋１」の下付き添え字「ｕｋ＋１」はｕ_ｋ＋１を表す。発話区間Ｕ_ｋの発話者Ｐ_ｕｋが発話区間Ｕ_ｋ＋１でも発話を行う場合（発話継続する場合）、次発話者は発話区間Ｕ_ｋの発話者Ｐ_ｕｋと同一である。一方、発話区間Ｕ_ｋの発話者Ｐ_ｕｋ以外の参加者が発話区間Ｕ_ｋ＋１でも発話を行う場合（すなわち発話交替する場合）、次発話者は発話区間Ｕ_ｋの発話者Ｐ_ｕｋ以外の参加者である。

次話者確率推定部１０８又は次話者確率推定部１０８Ａは、発話者情報Ｐ_ｕｋ、発話区間Ｕ_ｋ、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係の少なくとも一部に対応する特徴量ｆ_ａ，ｋに対する推定情報を得るためのモデルを機械学習し、このモデルを用いて特徴量に対する推定情報を得る。特徴量ｆ_ａ，ｋは、発話者情報Ｐ_ｕｋ、発話区間Ｕ_ｋ、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係の１つのみに対応してもよいし、これらのうち複数に対応してもよいし、すべてに対応してもよい。モデルの機械学習には、例えば、過去の吸い込み区間Ｉ_ａ，ｉ（ただし、ｉ＜ｋ）での息の吸い込み量、吸い込み区間Ｉ_ａ，ｉの長さ、吸い込み区間Ｉ_ａ，ｉでの息の吸い込み量の時間変化、および発話区間Ｕ_ｉと吸い込み区間Ｉ_ａ，ｉとの時間関係の少なくとも一部に対応する特徴量ｆ_ａ，ｋ、ならびに発話区間Ｕ_ｉ，Ｕ_ｉ＋１およびそれらの発話者Ｐ_ｕｋ，Ｐ_ｕｋ＋１の情報が学習データとして用いられる。

次話者確率推定部１０８又は次話者確率推定部１０８Ａによる次発話者／発話タイミング推定処理を例示する。この例では、次発話者Ｐ_ｕｋ＋１を推定するモデルである次発話者推定モデルと、次発話者Ｐ_ｕｋ＋１の発話タイミングを推定するモデルである発話タイミング推定モデルとが生成され、それぞれのモデルを用いて次発話者Ｐ_ｕｋ＋１とその発話タイミングが推定される。

次発話者推定モデルを学習する場合、次話者確率推定部１０８又は次話者確率推定部１０８Ａは、学習データとして、データベースから過去のパラメータλ_ａ，ｉ（ただし、ａ＝１，…，Ａであり、ｉ＜ｋである）の少なくとも一部、および発話区間Ｕ_ｉ，Ｕ_ｉ＋１およびそれらの発話者Ｐ_ｕｉ，Ｐ_ｕｉ＋１を表す情報を読み出す。次話者確率推定部１０８又は次話者確率推定部１０８Ａは、パラメータλ_ａ，ｉの少なくとも一部に対応する特徴量Ｆ１_ａ，ｉおよびＵ_ｉ，Ｕ_ｉ＋１，Ｐ_ｕｉ，Ｐ_ｕｉ＋１を学習データとして、次発話者推定モデルを機械学習する。次発話者推定モデルには、例えば、ＳＶＭ（Support Vector Machine）、ＧＭＭ（Gaussian Mixture Model）、ＨＭＭ（Hidden Markov Model）等を用いることができる。

次話者確率推定部１０８又は次話者確率推定部１０８Ａは、パラメータλ’_ａ，ｋの少なくとも一部に対応する特徴量Ｆ１_ａ，ｋを次発話者推定モデルに適用し、それによって推定された次発話Ｐ_ｕｋ＋１を表す情報を「推定情報」の一部とする。なお、次発話Ｐ_ｕｋ＋１を表す情報は、何れかの参加者Ｐ_ａを確定的に表すものであってもよいし、確率的に表すものであってもよい。参加者Ｐ_ａが次話者になる確率を、Ｐ１_ａとする。

発話タイミング推定モデルを学習する場合、次話者確率推定部１０８又は次話者確率推定部１０８Ａは、学習データとして、データベースから過去のパラメータλ_ａ，ｉ（ただし、ａ＝１，…，Ａであり、ｉ＜ｋである）の少なくとも一部、発話区間Ｕ_ｉ，Ｕ_ｉ＋１およびそれらの発話者Ｐ_ｕｉ，Ｐ_ｕｉ＋１、および発話区間Ｕ_ｉ＋１の発話開始タイミングＴ_ｕｉ＋１を表す情報を読み出す。次話者確率推定部１０８又は次話者確率推定部１０８Ａは、パラメータλ_ａ，ｉの少なくとも一部に対応する特徴量Ｆ２_ａ，ｉおよびＵ_ｉ，Ｕ_ｉ＋１，Ｐ_ｕｉ，Ｐ_ｕｉ＋１，Ｔ_ｕｉ＋１を学習データとして、発話タイミング推定モデルを機械学習する。次発話者推定モデルには、例えば、ＳＶＭ、ＧＭＭ、ＨＭＭ等を用いることができる。

次話者確率推定部１０８又は次話者確率推定部１０８Ａは、発話者Ｐ_ｕｋ、パラメータλ’_ａ，ｋの少なくとも一部、および次発話者推定モデルにより推定された次発話者Ｐ_ｕｋ＋１が得られると、パラメータλ’_ａ，ｋの少なくとも一部に対応する特徴量Ｆ２_ａ，ｋを発話タイミング推定モデルに適用する。次話者確率推定部１０８又は次話者確率推定部１０８Ａは、特徴量Ｆ２_ａ，ｋを発話タイミング推定モデルに適用して推定された次の発話区間Ｕ_ｋ＋１の発話タイミングＴ_ｕｋ＋１（例えば、発話区間Ｕ_ｋ＋１の開始時刻）を表す情報を「推定情報」の一部として出力する。なお、発話タイミングを表す情報は、何れかの発話タイミングを確定的に表すものであってもよいし、確率的に表すものであってもよい。参加者Ｐ_ａが時刻ｔに発話を開始する確率（時刻ｔが参加者Ｐ_ａの発話タイミングである確率）を、Ｐ２_ａ（ｔ）とする。
上述した実施形態の次話者確率推定部１０８又は次話者確率推定部１０８Ａが推定する参加者ｉの時刻ｔにおける次話者確率Ｐ^ｎｓ _ｉ（ｔ）は、参加者ｉが本次話者推定技術における参加者Ｐ_ａである場合、確率Ｐ１_ａ×確率Ｐ２_ａ（ｔ）により算出される。

上述の次話者確率推定部１０８又は次話者確率推定部１０８Ａは、呼吸動作の観測値に基づいて次に発話を開始する参加者およびタイミングを推定しているが、さらに、視線の観測値を用いてもよい。
視線行動をさらに利用する場合、各参加者Ｐ_ａ（ただし、ａ＝１，…，Ａ）には注視対象検出装置２０３がさらに装着される。注視対象検出装置２０３は、参加者Ｐ_ａが誰を注視しているか（注視対象）を検出し、参加者Ｐ_ａおよび各離散時刻ｔでの注視対象Ｇ_ａ，ｔを表す情報を次話者確率推定部１０８又は次話者確率推定部１０８Ａに送る。次話者確率推定部１０８又は次話者確率推定部１０８Ａは、注視対象情報Ｇ_１，ｔ，…，Ｇ_Ａ，ｔ、発話区間Ｕ_ｋ、および話者情報Ｐ_ｕｋを入力とし、発話区間終了前後における注視対象ラベル情報θ_ｖ，ｋ（ただし、ｖ＝１，…，Ｖ、Ｖは注視対象ラベルの総数）を生成する。注視対象ラベル情報は、発話区間Ｕ_ｋの終了時点Ｔ_ｓｅに対応する時間区間における参加者の注視対象を表す情報である。ここでは、終了時点Ｔ_ｓｅを含む有限の時間区間における参加者Ｐ_ａの注視対象をラベル付けした注視対象ラベル情報θ_ｖ，ｋを例示する。この場合、例えば、発話区間Ｕ_ｋの終了時点Ｔ_ｓｅよりも前の時点Ｔ_ｓｅ−Ｔ_ｂから終了時点Ｔ_ｓｅよりも後の時点Ｔ_ｓｅ＋Ｔ_ａまでの区間に出現した注視行動を扱う。Ｔ_ｂ，Ｔ_ａは０以上の任意の値でよいが、目安として、Ｔ_ｂは０秒〜２．０秒、Ｔ_ａは０秒〜３．０秒程度にするのが適当である。

次話者確率推定部１０８又は次話者確率推定部１０８Ａは、注視対象の参加者を以下のような種別に分類し、注視対象のラベリングを行う。なお、ラベルの記号に意味はなく、判別できればどのような表記でも構わない。
・ラベルＳ：話者（すなわち、話者である参加者Ｐ_ｕｋを表す）
・ラベルＬ_ξ：非話者（ただし、ξは互いに異なる非話者である参加者を識別し、ξ＝１，…，Ａ−１である。例えば、ある参加者が、非話者Ｐ_２、非話者Ｐ_３、の順に注視をしていたとき、非話者Ｐ_２にＬ_１というラベル、非話者Ｐ_３にＬ_２というラベルが割り当てられる。）
・ラベルＸ：誰も見ていない

ラベルがＳまたはＬ_ξのときには、相互注視（視線交差）が起きたか否かという情報を付与する。本形態では、相互注視が起きた際には、Ｓ_Ｍ，Ｌ_ξＭ（下付き添え字の「_ξＭ」はξ_Ｍを表す）のように、ラベルＳ，Ｌ_ξの末尾にＭラベルを付与する。

図１０は、注視対象ラベルの具体例を示す図である。図１０はＡ＝４の例であり、発話区間Ｕ_ｋ，Ｕ_ｋ＋１と各参加者の注視対象が時系列に示されている。図１０の例では、参加者Ｐ_１が発話した後、発話交替が起き、新たに参加者Ｐ_２が発話をした際の様子を示している。ここでは、話者である参加者Ｐ_１が参加者Ｐ_４を注視した後、参加者Ｐ_２を注視している。Ｔ_ｓｅ−Ｔ_ｂの時点からＴ_ｓｅ＋Ｔ_ａの時点までの区間では、参加者Ｐ_１が参加者Ｐ_２を見ていたとき、参加者Ｐ_２は参加者Ｐ_１を見ている。これは、参加者Ｐ_１と参加者Ｐ_２とで相互注視が起きていることを表す。この場合、参加者Ｐ_１の注視対象情報Ｇ_１，ｔから生成される注視対象ラベルはＬ_１とＬ_２Ｍの２つとなる。上述の区間では、参加者Ｐ_２は参加者Ｐ_４を注視した後、話者である参加者Ｐ_１を注視している。この場合、参加者Ｐ_２の注視対象ラベルはＬ_１とＳ_Ｍの２つとなる。また、上述の区間では、参加者Ｐ_３は話者である参加者Ｐ_１を注視している。この場合、参加者Ｐ_３の注視対象ラベルはＳとなる。また、上述の区間では、参加者Ｐ_４は誰も見ていない。この場合、参加者Ｐ_４の注視対象ラベルはＸとなる。したがって、図１０の例では、Ｖ＝６である。

次話者確率推定部１０８又は次話者確率推定部１０８Ａは、注視対象ラベルごとの開始時刻、終了時刻も取得する。ここで、誰（Ｒ∈｛Ｓ，Ｌ｝）のどの注視対象ラベル（ＧＬ∈｛Ｓ，Ｓ_Ｍ，Ｌ_１，Ｌ_１Ｍ，Ｌ_２，Ｌ_２Ｍ，…｝）であるかを示す記号としてＲ_ＧＬ、その開始時刻をＳＴ＿Ｒ_ＧＬ、終了時刻をＥＴ＿Ｒ_ＧＬと定義する。ただし、Ｒは参加者の発話状態（話者か非話者か）を表し、Ｓは話者、Ｌは非話者である。例えば、図１０の例において、参加者Ｐ_１の最初の注視対象ラベルはＳ_Ｌ１であり、その開始時刻はＳＴ＿Ｓ_Ｌ１、終了時刻はＥＴ＿Ｓ_Ｌ１である。注視対象ラベル情報θ_ｖ，ｋは注視対象ラベルＲ_ＧＬ、開始時刻ＳＴ＿Ｒ_ＧＬ、および終了時刻ＥＴ＿Ｒ_ＧＬを含む情報である。

次話者確率推定部１０８又は次話者確率推定部１０８Ａは、注視対象ラベル情報θ_ｖ，ｋを用いて、各参加者Ｐ_ａの注視対象遷移パターンＥ_ａ，ｋを生成する。注視対象遷移パターンの生成は、注視対象ラベルＲ_ＧＬを構成要素として、時間的な順序を考慮した遷移ｎ−ｇｒａｍを生成して行う。ここで、ｎは正の整数である。例えば、図１０の例を考えると、参加者Ｐ１の注視対象ラベルから生成される注視対象遷移パターンＥ_１，ｋはＬ_１−Ｌ_２Ｍである。同様にして、参加者Ｐ_２の注視対象遷移パターンＥ_２，ｋはＬ_１−Ｓ_Ｍ、参加者Ｐ_３の注視対象遷移パターンＥ_３，ｋはＳ、参加者Ｐ_４の注視対象遷移パターンＥ_４，ｋはＸとなる。

注視対象遷移パターンＥ_ａ，ｋは、例えば発話区間Ｕ_ｋ＋１が開始された後に、発話区間Ｕ_ｋおよびその発話者Ｐ_ｕｋ、発話区間Ｕ_ｋ＋１に該当する発話を行う次発話者Ｐ_ｕｋ＋１および次発話開始タイミングＴ_ｕｋ＋１を表す情報とともにデータベースに送られる。データベースでは、注視対象遷移パターンＥ_ａ，ｋが、パラメータλａ，ｋと併合され、Ｅ_ａ，ｋ，λ_ａ，ｋ，Ｕ_ｋ，Ｐ_ｕｋ，Ｐ_ｕｋ＋１，Ｔ_ｕｋ＋１を表す情報の一部またはすべてがデータベースに保持される。

次話者確率推定部１０８又は次話者確率推定部１０８Ａは、注視対象ラベル情報θ_ｖ，ｋを入力とし、注視対象ラベルごとの時間構造情報Θ_ｖ，ｋを生成する。時間構造情報は参加者の視線行動の時間的な関係を表す情報であり、（１）注視対象ラベルの時間長、（２）注視対象ラベルと発話区間の開始時刻または終了時刻との間隔、（３）注視対象ラベルの開始時刻または終了時刻と他の注視対象ラベルの開始時刻または終了時刻との間隔、をパラメータとして持つ。

具体的な時間構造情報のパラメータを以下に示す。以下では、発話区間の開始時刻をＳＴ＿Ｕ、発話区間の終了時刻をＥＴ＿Ｕと定義する。
・ＩＮＴ１（＝ＥＴ＿Ｒ_ＧＬ−ＳＴ＿Ｒ_ＧＬ）：注視対象ラベルＲ_ＧＬの開始時刻ＳＴ＿Ｒ_ＧＬと終了時刻ＥＴ＿Ｒ_ＧＬの間隔
・ＩＮＴ２（＝ＳＴ＿Ｕ−ＳＴ＿Ｒ_ＧＬ）：注視対象ラベルＲ_ＧＬの開始時刻ＳＴ＿Ｒ_ＧＬが発話区間の開始時刻ＳＴ＿Ｕよりもどれくらい前であったか
・ＩＮＴ３（＝ＥＴ＿Ｕ−ＳＴ＿Ｒ_ＧＬ）：注視対象ラベルＲ_ＧＬの開始時刻ＳＴ＿Ｒ_ＧＬが発話区間の終了時刻ＥＴ＿Ｕよりもどれくらい前であったか
・ＩＮＴ４（＝ＥＴ＿Ｒ_ＧＬ−ＳＴ＿Ｕ）：注視対象ラベルＲ_ＧＬの終了時刻ＥＴ＿Ｒ_ＧＬが発話区間の開始時刻ＳＴ＿Ｕよりもどれくらい後であったか
・ＩＮＴ５（＝ＥＴ＿Ｕ−ＥＴ＿Ｒ_ＧＬ）：注視対象ラベルＲ_ＧＬの終了時刻ＥＴ＿Ｒ_ＧＬが発話区間の終了時刻ＥＴ＿Ｕよりもどれくらい前であったか
・ＩＮＴ６（＝ＳＴ＿Ｒ_ＧＬ−ＳＴ＿Ｒ_ＧＬ’）：注視対象ラベルＲ_ＧＬの開始時刻ＳＴ＿Ｒ_ＧＬが他の注視対象ラベルＲ_ＧＬ’の開始時刻ＳＴ＿Ｒ_ＧＬ’よりもどれくらい後であったか
・ＩＮＴ７（＝ＥＴ＿Ｒ_ＧＬ’−ＳＴ＿Ｒ_ＧＬ）：注視対象ラベルＲ_ＧＬの開始時刻ＳＴ＿Ｒ_ＧＬが他の注視対象ラベルＲ_ＧＬ’の終了時刻ＥＴ＿Ｒ_ＧＬ’よりもどれくらい前であったか
・ＩＮＴ８（＝ＥＴ＿Ｒ_ＧＬ−ＳＴ＿Ｒ_ＧＬ’）：注視対象ラベルＲ_ＧＬの終了時刻ＥＴ＿Ｒ_ＧＬが注視対象ラベルＲ_ＧＬ’の開始時刻ＳＴ＿Ｒ_ＧＬ’よりもどれくらい後であったか
・ＩＮＴ９（＝ＥＴ＿Ｒ_ＧＬ−ＥＴ＿Ｒ_ＧＬ’）：注視対象ラベルＲ_ＧＬの終了時刻ＥＴ＿Ｒ_ＧＬが注視対象ラベルＲ_ＧＬ’の終了時刻ＥＴ＿Ｒ_ＧＬ’よりもどれくらい後であったか

なお、ＩＮＴ６〜ＩＮＴ９については、すべての参加者の注視対象ラベルとの組み合わせに対して取得する。図１０の例では、注視対象ラベル情報は全部で６つ（Ｌ_１，Ｌ_２Ｍ，Ｌ_１，Ｓ_Ｍ，Ｓ，Ｘ）あるため、ＩＮＴ６〜ＩＮＴ９は、それぞれ６×５＝３０個のデータが生成される。

時間構造情報Θ_ｖ，ｋは注視対象ラベル情報θ_ｖ，ｋについてのパラメータＩＮＴ１〜ＩＮＴ９からなる情報である。時間構造情報Θ_ｖ，ｋを構成する上記の各パラメータについて、図１１を用いて具体的に示す。図１１は、話者である参加者Ｐ１（Ｒ＝Ｓ）の注視対象ラベルＬ１についての時間構造情報を示す図である。すなわち、Ｒ_ＧＬ＝Ｓ_Ｌ１における時間構造情報である。なお、ＩＮＴ６〜ＩＮＴ９については、図示を簡略化するために、参加者Ｐ２の注視対象ラベルＬ１、すなわちＲ_ＧＬ＝Ｌ_Ｌ１との関係のみを示す。図１１の例では、ＩＮＴ１〜ＩＮＴ９は以下のように求められることがわかる。
・ＩＮＴ１＝ＥＴ＿Ｓ_Ｌ１−ＳＴ＿Ｓ_Ｌ１
・ＩＮＴ２＝ＳＴ＿Ｕ−ＳＴ＿Ｓ_Ｌ１
・ＩＮＴ３＝ＥＴ＿Ｕ−ＳＴ＿Ｓ_Ｌ１
・ＩＮＴ４＝ＥＴ＿Ｓ_Ｌ１−ＳＴ＿Ｕ
・ＩＮＴ５＝ＥＴ＿Ｕ−ＥＴ＿Ｓ_Ｌ１
・ＩＮＴ６＝ＳＴ＿Ｓ_Ｌ１−ＳＴ＿Ｌ_Ｌ１
・ＩＮＴ７＝ＥＴ＿Ｌ_Ｌ１−ＳＴ＿Ｓ_Ｌ１
・ＩＮＴ８＝ＥＴ＿Ｓ_Ｌ１−ＳＴ＿Ｌ_Ｌ１
・ＩＮＴ９＝ＥＴ＿Ｓ_Ｌ１−ＥＴ＿Ｌ_Ｌ１

時間構造情報Θ_ｖ，ｋは、例えば発話区間Ｕ_ｋ＋１が開始された後に、発話区間Ｕ_ｋおよびその発話者Ｐ_ｕｋ、発話区間Ｕ_ｋ＋１に該当する発話を行う次発話者Ｐ_ｕｋ＋１および次発話開始タイミングＴ_ｕｋ＋１を表す情報とともにデータベースに送られる。データベースでは、時間構造情報Θ_ｖ，ｋが、パラメータλ_ａ，ｋと併合され、Θ_ｖ，ｋ，λ_ａ，ｋ，Ｕ_ｋ，Ｐ_ｕｋ，Ｕ_ｋ＋１，Ｐ_ｕｋ＋１，Ｔ_ｕｋ＋１を表す情報の一部またはすべてがデータベースに保持される。

次話者確率推定部１０８又は次話者確率推定部１０８Ａは、注視対象遷移パターンＥ_ａ，ｋ、時間構造情報Θ_ｖ，ｋ、発話者情報Ｐ_ｕｋ、発話区間Ｕ_ｋ、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係の少なくとも一部に対応する特徴量ｆ_ａ，ｋに対する推定情報を得るためのモデルを機械学習し、モデルを用いて特徴量に対する推定情報である次話者確率Ｐ^ｎｓ _ｉ（ｔ）を得て出力する。

上述の次話者確率推定部１０８又は次話者確率推定部１０８Ａは、呼吸動作の観測値および視線の観測値に基づいて次に発話を開始する参加者およびタイミングを推定しているが、さらに、参加者の頭部の動きに関する情報を用いてもよい。これは、人は発話の直前に大きく頷く傾向があることを利用するものである。次話者確率推定部１０８又は次話者確率推定部１０８Ａは、映像入力部１０５からの各参加者の画像データを解析して、頭部が上下に動いたか否かにより参加者が頷いたか否かを判定する。次話者確率推定部１０８又は次話者確率推定部１０８Ａは、参加者ｉが時刻ｔの数秒前に頷いたと判定した場合には、参加者ｉの時刻ｔにおける次話者確率Ｐ^ｎｓ _ｉ（ｔ）に所定値を加算する処理等を行う。また、次話者確率推定部１０８又は次話者確率推定部１０８Ａは、呼吸動作の観測値、視線の観測値および、参加者の頭部の動きに関する情報の少なくとも一つに基づいて次話者確率Ｐ^ｎｓ _ｉ（ｔ）を算出してもよい。

また、次話者確率推定部１０８又は次話者確率推定部１０８Ａが呼吸動作の観測値、視線の観測値および、参加者の頭部の動きに関する情報の少なくとも一つを用いている場合は、次話者確率推定部１０８又は次話者確率推定部１０８Ａで用いる情報に応じて、センサ１０３は、位置計測装置２０１、呼吸動作計測装置２０２、注視対象検出装置２０３及び頭部動作検出装置２０４のいずれか一つ又は複数を備える構成でよい。

なお、上述した第１の実施形態におけるロボット１００及び第２の実施形態におけるロボット１００Ａは、マイク１０１、カメラ１０２、センサ１０３、音声入力部１０４、映像入力部１０５、センサ入力部１０６、発話区間検出部１０７、次話者確率推定部１０８又は次話者確率推定部１０８Ａ及び制御部１０９又は制御部１０９Ａを内蔵する構成としたが、この構成に限られるものではない。マイク１０１、カメラ１０２、センサ１０３、音声入力部１０４、映像入力部１０５、センサ入力部１０６、発話区間検出部１０７、次話者確率推定部１０８（又は次話者確率推定部１０８Ａ）及び制御部１０９（又は制御部１０９Ａ）の少なくとも一部を備える会話支援装置をロボット１００（又はロボット１００Ａ）と別装置で設ける構成としてもよい。会話支援装置は、ロボット１００（又はロボット１００Ａ）と通信可能な構成であり、制御部１０９（又は制御部１０９Ａ）からの制御信号をロボット１００（又はロボット１００Ａ）へ送信することで、ロボット１００（又はロボット１００Ａ）の発話を制御する。

ロボット１００及びロボット１００Ａは、その体の一部をディスプレイ等の表示部に体の一部を表示する構成であってもよく、全身が仮想的な人物であるエージェントとして表示部に表示されるものであってもよい。ロボット１００及びロボット１００Ａの体の一部を表示部で表現するとは、例えば、顔全体が表示部となっており、その表示部に顔の画像を表示する構成等が考えられる。表示部に表示した顔の画像を変化させていろいろな表現を行うことができる。なお、ロボット１００及びロボット１００Ａは、複数のマイク１０１及びセンサ１０３を備えない構成であってもよく、例えば、ロボット１００及びロボット１００Ａの外部に設置された複数のマイク１０１及びセンサ１０３と有線又は無線にて信号を送受信可能な構成であってもよい。

実施形態におけるロボット１００及び第２の実施形態におけるロボット１００Ａにおいて、上述した発話制御処理の妨げにならない範囲であれば、図１及び図７に示した機能以外の通常のロボットが備えている機能等を備えてもよい。また、第１の実施形態におけるロボット１００は、第２の実施形態におけるロボット１００Ａのような呼吸動作等の会話時の人間と同様の動作を行うことができる構成としてもよい。

以上説明した実施形態によれば、会話支援システムは、例えばロボットであり、会話中の各参加者の視線、呼吸、頭部の動きなどの非言語行動の計測結果に基づいて、参加者それぞれが任意の時刻に次発話となる確率である次話者確率を推定する。会話支援システムは、各参加者の次話者確率に基づいて、次に発話を行うべき参加者である予測次話者と、予測次話者が発話を開始するタイミングとを推定し、推定されたタイミングに予測次話者が発話を行わなかったことを検出した場合に、予測次話者又は予測次話者とは異なる参加者を対象者として発話を促す。会話支援システムは、発話を促すために、対象者に発話権の移譲を示す動作を行うよう、ロボット、又は、表示装置に表示される話者（全身が仮想的な人物であるエージェント）を制御する。例えば、ロボット、又は、表示装置に表示される話者は、対象者の発話を促す音声を出力したり、眼、頭部、胴部を動かして対象者に視線や顔を向ける、上肢を対象者に差し出すなどの非言語行動をとったりする。
上述した実施形態によれば、発話のタイミングを逸してしまった参加者に対して、ロボット、又は、表示装置に表示される話者が発話を促すことで、その参加者の発話を促すことができる。また、会話中の沈黙が長くなり、会話の雰囲気が悪くなってしまわないように、参加者へ発話を促すことができる。

上述した本実施形態におけるロボット１００又はロボット１００Ａの備える各機能部は、例えば、コンピュータで実現することができる。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、ＦＰＧＡ（Field Programmable Gate Array）等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

参加者と会話を行うロボットの制御に適用したり、参加者と会話を行う表示装置に表示されたエージェント（仮想的な人物）の動きの制御に適用したりすることができる。

５１ａ…右目，５１ｂ…左目，５２…口部，５３…頭部，５４…頸部，５５…胴部，５５ａ…右腕，５５ｂ…左腕，１００、１００Ａ…ロボット，１０１…マイク，１０２…カメラ，１０３…センサ，１０４…音声入力部，１０５…映像入力部，１０６…センサ入力部，１０７…発話区間検出部，１０８、１０８Ａ…次話者確率推定部，１０９、１０９Ａ…制御部，１１０…音制御部，１１１…口部制御部，１１２…視線制御部，１１３…頭部制御部，１１４…胴部制御部，１１５…スピーカ，１１６…口部駆動部，１１７…眼部駆動部，１１８…頭部駆動部，１１９…胴部駆動部，１２０…センサ信号変換部，２０１…位置計測装置，２０２…呼吸動作計測装置，２０３…注視対象検出装置，２０４…頭部動作検出装置，４０１…音声解析部，４０２…会話情報生成部，４０３…会話情報ＤＢ，４０４…発声情報生成部，４０５…音信号生成部，１０９１、１０９１Ａ…動作パターン情報格納部

Claims

会話中の各参加者の非言語行動の計測結果に基づいて、前記参加者それぞれが任意の時刻に次発話となる確率である次話者確率を推定する次話者確率推定部と、
前記参加者の前記次話者確率に基づいて次に発話を行うべき参加者である予測次話者及び前記予測次話者が発話を開始するタイミングを推定し、推定された前記タイミングに前記予測次話者が発話を行わなかったことを検出した場合に、前記予測次話者を対象者として発話を促すよう指示する制御部と、
前記制御部からの指示を受け、前記対象者に発話を促す処理を行う発話誘導部と、
を備え、
前記制御部は、推定された前記タイミングに前記予測次話者が発話を行わなかったことを検出した場合に、前記予測次話者以外の話者を対象者として発話を促すよう前記発話誘導部に指示する、
ことを特徴とする会話支援システム。
前記発話誘導部は、前記対象者に発話権の移譲を示す動作を行うようロボットを、又は、表示装置に表示される話者を制御する、
ことを特徴とする請求項１に記載の会話支援システム。
前記発話誘導部は、前記対象者に視線を向けるようロボットの、又は、表示装置に表示される話者の眼、頭部、又は、胴部のうち１以上を制御する、
ことを特徴とする請求項２に記載の会話支援システム。
前記発話誘導部は、ロボットの、又は、表示装置に表示される話者の上肢を前記対象者に差し出すよう制御する、
ことを特徴とする請求項２又は請求項３に記載の会話支援システム。
前記発話誘導部は、前記対象者の発話を促す音声を出力する、
ことを特徴とする請求項１から請求項４のいずれか一項に記載の会話支援システム。
会話中の各参加者の非言語行動の計測結果に基づいて、前記参加者それぞれが任意の時刻に次発話となる確率である次話者確率を推定する次話者確率推定部と、
前記参加者の前記次話者確率に基づいて次に発話を行うべき参加者である予測次話者及び前記予測次話者が発話を開始するタイミングを推定し、推定された前記タイミングに前記予測次話者が発話を行わなかったことを検出した場合に、発話を促す処理を行う発話誘導部に、前記予測次話者を対象者として発話を促すよう指示する制御部と、
を備え、
前記制御部は、推定された前記タイミングに前記予測次話者が発話を行わなかったことを検出した場合に、前記予測次話者以外の話者を対象者として発話を促すよう前記発話誘導部に指示する、
ことを特徴とする会話支援装置。
コンピュータに、
会話中の各参加者の非言語行動の計測結果に基づいて、前記参加者それぞれが任意の時刻に次発話となる確率である次話者確率を推定する次話者確率推定ステップと、
前記参加者の前記次話者確率に基づいて次に発話を行うべき参加者である予測次話者及び前記予測次話者が発話を開始するタイミングを推定し、推定された前記タイミングに前記予測次話者が発話を行わなかったことを検出した場合に、発話を促す処理を行う発話誘導部に、前記予測次話者を対象者として発話を促すよう指示する制御ステップと、
を実行させ、
前記制御ステップにおいて、推定された前記タイミングに前記予測次話者が発話を行わなかったことを検出した場合に、前記予測次話者以外の話者を対象者として発話を促すよう前記発話誘導部に指示する、
ための会話支援プログラム。