JP2017122815A

JP2017122815A - 会話支援システム、会話支援装置及び会話支援プログラム

Info

Publication number: JP2017122815A
Application number: JP2016001342A
Authority: JP
Inventors: 亮石井; Akira Ishii; 和弘大塚; Kazuhiro Otsuka; 史朗熊野; Shiro Kumano
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-01-06
Filing date: 2016-01-06
Publication date: 2017-07-13
Anticipated expiration: 2036-01-06
Also published as: JP6502865B2

Abstract

【課題】利用者がロボットの発話の開始を予見できるよう支援することができる会話支援システム、会話支援装置及び会話支援プログラムを提供する。
【解決手段】ロボットと利用者との会話を、又は、表示装置に表示される話者と利用者との会話を支援する会話支援システムであって、ロボットを、又は、表示装置に表示される話者を制御する動作制御部と、ロボット又は話者が発話するタイミングを制御する制御信号を出力する発話制御部とを備え、動作制御部は、発話制御部からの発話のタイミングに基づいて、発話の前にロボット又は話者が会話を支援する動作を行うよう制御する。
【選択図】図４

Description

本発明は、会話支援システム、会話支援装置及び会話支援プログラムに関する。

従来、ヒューマノイドロボット及びコンピュータグラフィックにより描画されたエージェント（仮想的な人物）を表示するエージェントシステムは、周囲にいる利用者と会話を行う会話機能を有するものがある。しかし、従来のヒューマノイドロボット及びエージェントの発話（以下、単に「ロボットの発話」という）は、利用者にとっていきなりの発話と感じることが多い。

人同士の会話では、人は自分が発話を始める前に何らかのサインを出していることが多い。このため、会話の参加者は、次にどの人が発話を始めるのか、その人が発話を始める数秒前に予見することができる場合がある。しかし、ロボットの発話では、ロボットが発話を始める前に何のサインも出していないので、利用者にとっていきなりの発話と感じることが多くなる。

同じ理由により、利用者がロボットの発話に気がつかなかったり、ロボットの発話に驚いたりすることがある。また、利用者は、ロボットが発話を開始すること予見できないため、利用者の発話とロボットの発話が重なってしまう発話衝突が生じてしまうことがある。

また、エージェントが人に対し視線動作により情報を伝達する際に、対話時の周辺事情による視線動作への影響が考慮された自然な視線動作を実現する技術がある（例えば、特許文献１を参照。）。この特許文献１に記載の技術では、エージェントの視線行動が自然となるように制御を行うことがなされている。

特開２０１３−６２３２号公報

しかしながら、特許文献１に記載の技術では、上述したロボットの発話に対して、利用者がいきなりの発話と感じることを防ぐことはできない。すなわち、利用者は、ロボットの発話の開始を予見できないという問題がある。

上記事情に鑑み、本発明は、利用者がロボットの発話の開始を予見できるよう支援する会話支援システム、会話支援装置及び会話支援プログラムを提供することを目的としている。

本発明の一態様は、ロボットを、又は、表示装置に表示される話者を制御する動作制御部と、前記ロボット又は前記話者が発話するタイミングを制御する制御信号を出力する発話制御部と、を備え、前記動作制御部は、前記発話制御部からの発話のタイミングに基づいて、前記発話の前に前記ロボット又は前記話者が会話を支援する動作を行うよう制御する会話支援システムである。

本発明の一態様は、前記の会話支援システムであって、前記会話を支援する動作は、呼吸音を発する動作である。

本発明の一態様は、前記の会話支援システムであって、前記呼吸音は吸気音である。

本発明の一態様は、前記の会話支援システムであって、前記ロボット又は前記話者は、眼部を備え、前記ロボット又は前記表示装置は、前記眼部の視線を制御する視線制御部を備える構成であり、前記会話を支援する動作は、前記眼部の前記視線を制御する動作である。

本発明の一態様は、前記の会話支援システムであって、前記ロボット又は前記話者は、顔を有する頭部と、前記頭部を可動に支える頸部とを備える構成であり、前記会話を支援する動作は、前記頭部の動きを制御する動作である。

本発明の一態様は、前記の会話支援システムであって、前記会話を支援する動作は、フィラーを発する動作である。

本発明の一態様は、ロボットを、又は、表示装置に表示される話者を制御する動作制御部と、前記ロボット又は前記話者が発話するタイミングを制御する制御信号を出力する発話制御部と、を備え、前記動作制御部は、前記発話制御部からの発話のタイミングに基づいて、前記発話の前に前記ロボット又は前記話者が会話を支援する動作を行うよう制御する会話支援装置である。

本発明の一態様は、ロボットを、又は、表示装置に表示される話者を制御する会議支援プログラムであって、前記ロボット又は前記話者が発話するタイミングを制御する制御信号を出力する発話制御ステップと、前記発話制御ステップにおいて出力された発話のタイミングに基づいて、前記発話の前に前記ロボット又は前記話者が会話を支援する動作を行うよう制御する制御ステップと、をコンピュータに実行させるための会話支援プログラムである。

本発明により、利用者がロボットの発話の開始を予見できるよう支援することができる。

本実施形態におけるロボット１００が備える機能構成の概略を示す図である。本実施形態におけるロボット１００の外観及び構成の具体例を示す図である。本実施形態における動作制御部１０９の構成の詳細の具体例を示す図である。本実施形態における音制御部１１０の構成の詳細の具体例を示す図である。本実施形態におけるロボット１００の会話支援動作の具体例を示す図である。本実施形態におけるロボット１００の会話動作を示すフロー図である。公知文献２において、現話者が、話者継続時と話者交替時とで、どのような視線行動を行うかを、分析した結果を示す図である。公知文献２において、非話者が、発話継続時と話者交替時とで、どのような視線行動を行うかを、分析した結果を示す図である。公知文献３において、現話者が、話者継続時と話者交替時とで、頭部の位置及び回転角のそれぞれの変化量、振幅、周波数の平均値を分析した結果を示す図である。公知文献３において、非話者が、話者継続時と話者交替時とで、頭部の位置及び回転角のそれぞれの変化量、振幅、周波数の平均値を分析した結果を示す図である。

以下、図面を参照して、本発明の実施形態について説明する。
図１は、本実施形態におけるロボット（会話支援システム）１００が備える機能構成の概略を示す図である。ロボット１００は、一人又は複数人の利用者と会話を行うことができるロボットである。

図１に示すように、ロボット１００は、マイク１０１と、カメラ１０２と、センサ１０３と、音声入力部１０４と、映像入力部１０５と、センサ入力部１０６と、発話区間検出部１０７と、利用者情報取得部１０８と、動作制御部１０９と、音制御部１１０と、口部制御部１１１と、視線制御部１１２と、頭部制御部１１３と、胴部制御部１１４と、スピーカ１１５と、口部駆動部１１６と、眼部駆動部１１７と、頭部駆動部１１８と、胴部駆動部１１９とを備える。

マイク１０１は、会話する利用者の音声等を含むロボット１００の周囲の音を集音して、音声信号を含む音信号（以下の説明では単に音声信号という）を出力する。カメラ１０２は、会話する利用者の映像を撮影して、映像信号を出力する。センサ１０３は、会話する利用者の位置を感知するセンサであり、センサ信号を出力する。

音声入力部１０４は、マイク１０１からの音声信号が入力され、発話区間検出部１０７、利用者情報取得部１０８及び音制御部１１０に音声信号を出力する。音声入力部１０４は、マイク１０１からの音声信号を、ロボット１００内で処理可能な信号形式の音声信号に変換する等の処理を行う。映像入力部１０５は、カメラ１０２からの映像信号を入力とし、利用者情報取得部１０８へ映像信号を出力する。映像入力部１０５は、カメラ１０２からの映像信号を、ロボット１００内で処理可能な信号形式の映像信号に変換する等の処理を行う。センサ入力部１０６は、センサ１０３からのセンサ信号を入力とし、利用者情報取得部１０８へセンサ信号を出力する。センサ入力部１０６は、センサ１０３からのセンサ信号を、ロボット１００内で処理可能な信号形式のセンサ信号に変換する等の処理を行う。

発話区間検出部１０７は、音声入力部１０４からの音声信号に基づいて、任意の窓幅を設けてその区間内の音声信号のパワー、ゼロ交差数、周波数などを、音声の特徴を示す値である音声特徴量として算出する。発話区間検出部１０７は、算出した音声特徴量と所定の閾値を比較して発話区間を検出する。発話区間検出部１０７は、検出した発話区間に関する情報である発話区間情報を利用者情報取得部１０８及び音制御部１１０へ出力する。なお、マイク１０１から取得される音声信号において、音声の存在する区間（発話区間）と音声の存在しない区間（非発話区間）を自動的に検出するＶＡＤ（Voice Activity Detection）技術は、以下の公知文献１に示すように公知の技術である。発話区間検出部１０７は、公知のＶＡＤ技術を用いて発話区間を検出する。
公知文献１：澤田宏、外４名、"多人数多マイクでの発話区間検出〜ピンマイクでの事例〜"、日本音響学会春季研究発表会、ｐｐ．６７９−６８０、２００７年３月

利用者情報取得部１０８は、音声入力部１０４からの音声信号と、映像入力部１０５からの映像信号と、センサ入力部１０６からのセンサ信号と、発話区間検出部１０７からの発話区間情報とに基づいて、利用者に関する情報である利用者情報を取得する。利用者情報取得部１０８は、取得した利用者情報を動作制御部１０９へ出力する。利用者情報としては、例えば、利用者の位置に関する情報である位置情報及び利用者の中で発話中である現話者の位置を特定する現話者情報がある。

位置情報は、センサ１０３のセンサ信号に基づいて取得してもよいし、映像信号に基づいて取得してもよいし、センサ１０３のセンサ信号及び映像信号に基づいて取得してもよい。現話者情報は、位置情報と、発話区間検出部１０７からの発話区間情報と、映像信号とに基づいて取得する。なお、マイク１０１は、複数の各利用者それぞれに装着された複数のマイクで構成される。発話区間情報は、どのマイクからの音声信号に基づいた発話区間であるか識別するための情報を含む。利用者情報取得部１０８は、このマイクを識別することで、映像信号に基づいて識別したマイクを装着している現話者及び当該現話者の位置を特定して現話者情報を取得する。

動作制御部１０９は、利用者情報取得部１０８からの利用者情報を入力とし、音制御部１１０、口部制御部１１１、視線制御部１１２、頭部制御部１１３及び胴部制御部１１４に対して動作制御信号を出力する。

複数人が会話している際に、非話者である人が次話者として発話する直前に行う行動を解析した結果、以下の（１）〜（３）の行動が「次は私が話を始めます」ということを周囲に示す行動であると考えられる。
（１）吸気音又はフィラーを発声する
（２）現話者に視線向ける
（３）現話者の会話に頷く

上述した解析結果を参考にして、動作制御部１０９は、ロボット１００の発話前に、ロボット１００に上述した（１）〜（３）の動作（会話支援動作）を行わせるよう制御することで、ロボット１００がもうすぐ発話を開始することを利用者に予見させることができる。ロボット１００が行う発話開始を前もって周囲に伝える会話支援動作は、他の動作パターンもあり、その詳細については後述する。

利用者情報取得部１０８からの利用者情報を入力とし、音制御部１１０、口部制御部１１１、視線制御部１１２、頭部制御部１１３及び胴部制御部１１４に対して動作制御信号を出力する。動作制御部１０９は、音制御部１１０へ動作制御信号として音制御信号を出力する。動作制御部１０９は、口部制御部１１１へ動作制御信号として口部制御信号を出力する。動作制御部１０９は、視線制御部１１２へ動作制御信号として視線制御信号を出力する。動作制御部１０９は、頭部制御部１１３へ動作制御信号として頭部制御信号を出力する。動作制御部１０９は、胴部制御部１１４へ動作制御信号として胴部制御信号を出力する。

音制御部１１０は、音声入力部１０４からの音声信号と、発話区間検出部１０７からの発話区間情報と、動作制御部１０９からの音制御信号とに基づいて、スピーカ１１５に対して音信号を出力する。口部制御部１１１は、動作制御部１０９からの口部制御信号に基づいて、口部駆動部１１６に対して口部駆動信号を出力する。視線制御部１１２は、動作制御部１０９からの視線制御信号に基づいて、眼部駆動部１１７に対して眼部駆動信号を出力する。頭部制御部１１３は、動作制御部１０９からの頭部制御信号に基づいて、頭部駆動部１１８に対して頭部駆動信号を出力する。胴部制御部１１４は、動作制御部１０９からの胴部制御信号に基づいて、胴部駆動部１１９に対して胴部駆動信号を出力する。

ここで、本実施形態におけるロボット１００の外観及び構成の一例について説明するとともに、口部駆動部１１６、眼部駆動部１１７、頭部駆動部１１８及び胴部駆動部１１９の各駆動部が駆動する対象について説明する。図２は、本実施形態におけるロボット１００の外観及び構成の具体例を示す図である。図２に示すように、ロボット１００は、例えば、人間の上半身をモデルとした形状のヒューマノイドロボット（人型ロボット）である。ロボット１００は、発話を行う発話機能、人の音声を認識する音声認識機能、利用者を撮影するカメラ機能を少なくとも備える。ロボット１００は、黒目を移動可能な右目２１ａ及び左目２１ｂと、開閉可能な口部２２とが配置された顔を有する頭部２３を備える。頭部２３は、右目２１ａ及び左目２１ｂの黒目（視線）を移動させる眼部駆動部１１７と、口部２２の開閉を行う口部駆動部１１６とを内蔵している。

ロボット１００は、頭部２３に対して所定の動き（例えば、頷かせたり、顔の方向を変えたりする動き）を行わせる頭部駆動部１１８を備え、頭部２３を支持する頸部２４と、頸部２４を支える胴部２５とを備える。胴部２５は、右腕２５ａと左腕２５ｂとが側面上部に設けられている。胴部２５は、呼吸をしているかのように、肩を動かしたり、胸の部分を膨らませたりする胴部駆動部１１９を内蔵している。また、頭部２３の右目２１ａ、左目２１ｂの間には、カメラ１０２が設置されている。以下の説明において、右目２１ａ、左目２１ｂをまとめて眼部２１とする。

スピーカ１１５は、音制御部１１０からの音信号に基づいて発音する。スピーカ１１５は、例えば、口部２２の内部に設置され、ロボット１００が発話する音声を出力する。口部駆動部１１６は、口部制御部１１１からの口部駆動信号に基づいてロボット１００の口部２２の開閉を行う。眼部駆動部１１７は、視線制御部１１２からの眼部駆動信号に基づいてロボット１００の眼部２１における黒目の方向（＝ロボット１００の視線の方向）を制御する。

頭部駆動部１１８は、頭部制御部１１３からの頭部駆動信号に基づいてロボット１００の頭部２３の動きを制御する。胴部駆動部１１９は、胴部制御部１１４からの胴部駆動信号に基づいてロボット１００の胴部２５の形状を制御する。また、胴部駆動部１１９は、胴部制御部１１４からの胴部駆動信号に基づいてロボット１００の右腕２５ａ及び左腕２５ｂの動きも制御する。

次に、本実施形態における動作制御部１０９の構成の詳細について一例を示して説明する。
図３は、本実施形態における動作制御部１０９の構成の詳細の具体例を示す図である。動作制御部１０９は、発話制御部３０１と、動作パターン情報格納部３０２と、動作制御信号生成部３０３とを備える。発話制御部３０１は、ロボット１００の発話の開始タイミングを指示する発話タイミング信号を出力する。この発話タイミング信号は、所定秒数後または任意の秒数後にロボット１００が発話を開始するよう音制御部１１０へ指示する信号である。

発話制御部３０１が、ロボット１００においてどのタイミングで発話を行うかを判断する方法は、どのような方法であってもよく公知の技術を用いてよい。例えば、利用者が近づいてきた数秒後に発話を開始したり、利用者から特定の言葉をかけられた数秒後に発話を開始したり、利用者の発話が終わって数秒後に発話を開始したり、色々な方法が考えられる。図３には示していないが、発話制御部３０１は、必要に応じて、音声入力部１０４から音声信号を受信したり、映像入力部１０５から映像信号を受信したりする構成としてもよく、受信した音声信号や映像信号に基づいて発話の開始タイミングを制御してもよい。

動作パターン情報格納部３０２は、ロボット１００が発話を開始する前に、これから発話を行うことを利用者に察知させるようロボット１００に行わせる動作の動作パターンの情報である動作パターン情報を格納する。なお、動作パターン情報は、例えば、現話者に視線を移動させる動作パターン及び頭部２３を頷かせる動作パターンを含む。動作制御信号生成部３０３は、発話制御部３０１からの発話タイミング信号と、利用者情報取得部１０８からの利用者情報とに基づいて、動作パターン情報格納部３０２から動作パターン情報を取得して、ロボット１００が発話を開始する前に、これから発話を行うことを利用者に察知させる動作をロボット１００に行わせるための動作制御信号を生成し、出力する。動作制御信号生成部３０３は、発話タイミング信号を動作制御信号に含めて出力する。

動作制御信号生成部３０３は、音制御部１１０からロボット１００の発話する内容を含む会話情報を取得する。動作制御信号生成部３０３は、会話情報と発話タイミング信号とから、ロボット１００の発話の終了時間を推定する。動作制御信号生成部３０３は、ロボット１００が発話中に、推定した終了時間に基づいて発話の残り時間を定期的に監視し、残り時間が所定時間以上であれば、継続信号を生成し、動作制御信号に含めて出力する。動作制御信号生成部３０３は、終了時間を経過したと判断した場合は、非話者の動作を行う動作制御信号を生成し出力する。

次に、本実施形態における音制御部１１０の構成の詳細について一例を示して説明する。
図４は、本実施形態における音制御部１１０の構成の詳細の具体例を示す図である。音制御部１１０は、音声解析部４０１と、会話情報生成部４０２と、会話情報ＤＢ（データベース）４０３と、会話支援情報生成部４０４と、呼吸音情報格納部４０５と、フィラー情報格納部４０６と、発声情報生成部４０７と、音信号生成部４０８とを備える。ここで、フィラーとは、言い淀み時などに出現する場つなぎのための発声であり、例えば、「あのー」、「そのー」、「えっと」、等の音声である。

会話情報ＤＢ４０３は、ロボット１００に会話させるための会話サンプル情報を格納する。会話サンプル情報とは、日常の会話でよく使われる名詞、「こんにちは」等の挨拶及び「ありがとうございます」、「大丈夫ですか」等の日常会話でよく利用するフレーズの音声信号を含む情報である。

呼吸音情報格納部４０５は、ロボット１００に発音させる呼吸音の情報である呼吸音情報を格納する。呼吸音情報は、例えば、「スーッ」又は「シュー」という人が吸気する際に出す吸気音の音声信号を含む情報である。フィラー情報格納部４０６は、ロボット１００に発音させるフィラーの情報であるフィラー情報を格納する。フィラー情報は、「あのー」、「そのー」、「えっと」等のフィラーの音声信号を含む情報である。

音声解析部４０１は、音声入力部１０４からの音声信号と、発話区間検出部１０７からの発話区間情報とに基づいて、音声を解析しその内容（言葉）を特定し、解析結果を出力する。音制御部１１０が動作制御部１０９から受信する音制御信号は、ロボット１００の発話開始の発話タイミング信号又は継続信号を含む。

会話情報生成部４０２は、音声解析部４０１の解析結果に基づいて、ロボット１００の発話内容となる会話情報を生成する。会話情報生成部４０２は、音声解析部４０１の解析結果に基づいて、会話する内容に応じた会話サンプル情報を会話情報ＤＢ４０３から取得する。会話情報生成部４０２は、取得した会話サンプル情報に基づいて、会話情報を生成する。会話情報生成部４０２は、動作制御部１０９からの音制御信号を受信したことに応じて、生成した会話情報を、動作制御部１０９及び発声情報生成部４０７へ出力する。

会話支援情報生成部４０４は、動作制御部１０９からの音制御信号に基づいて、呼吸音情報格納部４０５から呼吸音情報を取得し、フィラー情報格納部４０６からフィラー情報を取得する。会話支援情報生成部４０４は、取得した呼吸音情報及びフィラー情報の少なくとも一つを含む会話支援情報を生成し、発声情報生成部４０７へ出力する。この会話支援情報は、ロボット１００が発話する前に発音する呼吸音及びフィラーの少なくとも一つを含む。

なお、会話支援情報生成部４０４は、動作制御部１０９からの音制御信号に基づいて、呼吸音情報及びフィラー情報を取得しない場合もあり、この場合は、会話支援情報を出力しない。なお、図４には示していないが、会話支援情報生成部４０４は、会話情報生成部４０２が生成した会話情報を受信して、受信した会話情報に基づいて呼吸音やフィラーの種類を決定する構成としてもよい。

発声情報生成部４０７は、会話情報生成部４０２からの会話情報と、会話支援情報生成部４０４からの会話支援情報とに基づいて、ロボット１００が発声するための発声情報を生成する。発声情報生成部４０７は、生成した発声情報を音信号生成部４０８へ出力する。音信号生成部４０８は、発声信号に基づいてスピーカ１１５から発音させるための音信号を生成して、スピーカ１１５へ出力する。

以上の構成により、ロボット１００は、発話を行う前に、動作制御信号に基づいて視線を利用者に向けたり、呼吸音やフィラーを発音したりすることができる。これにより、利用者は、ロボット１００が発話を開始する前に、ロボット１００がまもなく発話することを予見することができる。この予見により、利用者とロボット１００との発話衝突を防ぎ、スムーズな会話を実現することができる。

図５は、本実施形態におけるロボット１００の会話支援動作の具体例を示す図である。図５に示すとおり、ロボット１００と発話中の利用者である現話者５０とがいる場合の具体例について説明する。図５の左側は、現話者５０の話をロボット１００が聞いている状態を示している。図５の右側は、図５の左側の状態からロボット１００が発話を開始する直前の動作を示している。図５の右側に示すとおり、ロボット１００は、発話開始の直前に、頭部２３を矢印５１に示す方向に回転させることで、視線を現話者５０に向ける。その頭部２３の回転と同時又は前後して口部２２内にあるスピーカ１１５から「スーッ」という吸気音５２を発音する。これにより、現話者５０は、ロボット１００がもうすぐ発話することを予見することができる。

次に、本実施形態におけるロボット１００の会話動作について説明する。
図６は、本実施形態におけるロボット１００の会話動作を示すフロー図である。図６に示すように、ロボット１００が会話モードに設定されることにより会話動作を開始する（ステップＳ１００）。利用者の発話を集音したマイク１０１から音声信号が音声入力部１０４に入力され、利用者を撮影したカメラ１０２から映像信号が映像入力部１０５に入力され、利用者の位置を検出したセンサ１０３からセンサ信号がセンサ入力部１０６に入力される（ステップＳ１０１）。
なお、動作制御部１０９は、ステップＳ１０１において、ロボット１００の動作を非話者の動作に制御する。ここで非話者とは、発話していない者のことであり、現話者の話を聞いている者のことでもある。また、非話者の動作とは、例えば、任意のタイミングで軽く頷いたり、任意のタイミングで瞬きしたり、任意のタイミングで相槌を打ったりする動作である。

発話区間検出部１０７は、音声入力部１０４からの音声信号に基づいて発話区間を検出する。利用者情報取得部１０８は、音声信号、映像信号、センサ信号及び発話区間情報に基づいて、利用者に関する情報であって現話者を特定する情報を含む利用者情報を取得する（ステップＳ１０２）。

ここで、動作制御部１０９内の発話制御部３０１が所定時間後の発話開始を指示する発話タイミング信号を出力した場合（ステップＳ１０３のＹＥＳ）は、動作制御信号生成部３０３が発話開始前に行う会話支援動作を指示する動作制御信号を生成する。この動作制御信号に応じて音制御部１１０、口部制御部１１１、視線制御部１１２、頭部制御部１１３及び胴部制御部１１４は、ロボット１００の各部を動かし、発話開始前の所定のタイミングで会話支援動作を行わせる（ステップＳ１０４）。また、動作制御部１０９内の発話制御部３０１が発話タイミング信号を出力していない場合（ステップＳ１０３のＮＯ）は、ステップＳ１０１に戻る。

音制御部１１０は、発話タイミングに応じて発話するための音声信号を生成し、スピーカ１１５に出力する。これによりスピーカ１１５は、発話する。この時、動作制御部１０９は、発話に合わせて口部２２を開閉したり、発話内容に合わせてロボット１００の頭部２３、右腕２５ａ及び左腕２５ｂを動かしたりする（ステップＳ１０５）。これにより、ロボット１００は、発話に応じた動作である発話動作を行う。

動作制御部１０９は、所定時間内に発話が終了するか否かを判断する（ステップＳ１０８）。ここで所定時間内に発話が終了しないと判断した場合（ステップＳ１０８のＮＯ）には、動作制御部１０９は、ロボット１００に対して発話の継続を周囲に知らせる会話支援動作を行わせるように、継続信号を含む動作制御信号を出力する。これにより、ロボット１００は、利用者から視線をそらす等の発話を継続することを周囲の利用者に知らせる会話支援動作を行う（ステップＳ１０７）。ステップＳ１０７の処理の後は、ステップＳ１０５に進む。また、所定時間内に発話が終了すると判断した場合（ステップＳ１０６のＹＥＳ）には、動作制御部１０９は、発話が終了したか否かを判断する（ステップＳ１０８）。

発話が終了したと判断した場合（ステップＳ１０８のＹＥＳ）には、動作制御部１０９は、会話動作を終了するか否かを判断する（ステップＳ１０９）。また、発話が終了していない判断した場合（ステップＳ１０８のＮＯ）には、動作制御部１０９は、ステップＳ１０８に戻り、発話が終了するまで発話を続けるようロボット１００を制御する。

会話動作を終了すると判断した場合（ステップＳ１０９のＹＥＳ）には、動作制御部１０９は、会話動作を終了する（ステップＳ１１０）。会話動作を終了しないと判断した場合（ステップＳ１０９のＮＯ）には、動作制御部１０９は、ステップＳ１０１に戻る。

以上に説明したように、本実施形態におけるロボット１００は、会話動作として、発話前又は発話継続時に行う会話支援動作と、発話時に行う発話動作とを含む会話動作を行うことができる。また、本実施形態におけるロボット１００は、発話を行う前に、動作制御信号に基づいて視線を利用者に向けたり、呼吸音やフィラーを発音したりすることができる。これにより、利用者は、ロボット１００が発話を開始する前に、ロボット１００がまもなく発話することを予見することができる。また、ロボット１００は、発話中に、まだ発話が終わらないことを示す発話継続を周囲の利用者に予め知らせることができる。これにより、ロボット１００の発話がまだ終わっていないのに、終わったと勘違いした利用者が発話を初めてしまうことを防ぐことができる。ロボット１００は、上述したような会話支援動作を行うことで、利用者との発話衝突を防ぎ、利用者とのスムーズな会話を実現することができる。

次に、動作パターン情報格納部３０２格納する動作パターン情報の具体例について、視線の動作パターン情報及び頭部の動きの動作パターン情報のそれぞれについて説明する。

＜視線の動作パターン情報＞
たとえば、下記の公知文献２には、人間が現話者の発話末（次発話の直前）に行う視線移動のパターンについて調査結果が記載されている。図７は、公知文献２において、現話者が、話者継続時と話者交替時とで、どのような視線行動を行うかを、分析した結果を示す図である。
公知文献２：石井亮、外４名、“複数人対話における注視遷移パターンに基づく次話者と発話タイミングの予測”、人工知能学会研究会資料、SIG-SLUD-B301-06、pp.27-34、2013年

図７において、パターンなし（白色）の棒は、話者継続時に現話者がどのような視線行動をどれくらいの頻度で行うかを示している。斜線パターンの棒は、話者交替時に現話者がどのような視線行動をどれくらいの頻度で行うかを示している。また、図７における視線行動のラベルは下記のような意味を持つ。
Ｘ：人物以外を注視
Ｌ_１〜Ｌ_２：非話者を注視（相互注視無）
Ｌ_１Ｍ〜Ｌ_２Ｍ：非話者と相互注視

図８は、公知文献２において、非話者が、発話継続時と話者交替時とで、どのような視線行動を行うかを、分析した結果を示す図である。図８において、パターンなし（白色）の棒は、話者継続時に非話者がどのような視線行動をどれくらいの頻度で行うかを示している。斜線パターンの棒は、話者交替時に非話者がどのような視線行動をどれくらいの頻度で行うかを示している。また、図８における視線行動のラベルは下記のような意味を持つ。
Ｓ：現話者を注視（相互注視無）
Ｓ_Ｍ：現話者と相互注視
Ｌ_１〜Ｌ₂：非話者を注視（相互注視無）
Ｌ_１Ｍ〜Ｌ_2Ｍ：非話者と相互注視

このような図７、図８の結果に基づいて、ロボット１００の発話直前の視線行動を制御する動作パターン情報を生成し、動作パターン情報格納部３０２に格納する。具体的には、ロボット１００が、現話者であり、次に発話を続けるとき（話者継続時）は、図７のパターン無しの棒で示される視線行動と発生頻度に基づいて、視線行動の動作パターン情報を生成する。ロボット１００が、非話者であり、次の発話を始めるとき（話者交替時）は、図８の斜線パターンの棒で示される視線行動と発生頻度に基づいて、視線行動の動作パターン情報を生成する。このとき、Ｓ_Ｍと、Ｌ_１Ｍ〜Ｌ_２Ｍは、それぞれ現話者と非話者との相互注視を示しているが、人間の視線行動を計測しないとこの相互注視の判定はできない。よって、Ｓ_Ｍと、Ｌ_１Ｍ〜Ｌ_２Ｍは、それぞれ、Ｓと、Ｌ_１〜Ｌ_２に置き換えて考えても良い。また、各視線行動の開始タイミングは、例えば、早くとも発話開始の５秒前から始める。

＜頭部の動きの動作パターン情報＞
たとえば、下記の公知文献３には、人間の発話の直前に起こる頭部動作を分析した結果が記載されている。公知文献３では、人間の頭部の位置（Ｘ，Ｙ，Ｚ）、回転角（Azimuth, Elevation, Roll）を３０Ｈｚで計測している。また、現話者の発話末から前３秒間における、頭部の位置（Ｘ，Ｙ，Ｚ）及び回転角（Azimuth, Elevation, Roll）のそれぞれの1秒間の平均変化量（ＭＯ）、パラメータ変化を波系として捉えた時の平均振幅（ＡＭ）、１秒間の波形の平均周波数（ＦＱ）を求めて分析している。

図９は、公知文献３において、現話者が、話者継続時と話者交替時とで、頭部の位置（Ｘ，Ｙ，Ｚ）及び回転角（Azimuth, Elevation, Roll）のそれぞれの1秒間の平均変化量（ＭＯ）、パラメータ変化を波系として捉えた時の平均振幅（ＡＭ）、１秒間の波形の平均周波数（ＦＱ）の平均値を分析した結果を示す図である。
公知文献３：石井亮、外３名、“複数人対話での話者交替に関する頭部動作の分析〜次話者と発話開始タイミングの予測モデルの構築に向けて〜”、ＨＣＧシンポジウム、２０１４年

図９において、パターンなし（白色）の棒は、話者継続時における現話者の頭部の動きを示している。斜線パターンの棒は、話者交替時における現話者の頭部の動きを示している。図１０は、公知文献３において、非話者が、話者継続時と話者交替時とで、頭部の位置（Ｘ，Ｙ，Ｚ）及び回転角（Azimuth, Elevation, Roll）のそれぞれの1秒間の平均変化量（ＭＯ）、パラメータ変化を波系として捉えた時の平均振幅（ＡＭ）、１秒間の波形の平均周波数（ＦＱ）を分析した結果を示す図である。図１０において、パターンなし（白色）の棒は、話者継続時における非話者の頭部の動きを示している。斜線パターンの棒は、話者交替時における非話者の頭部の動きを示している。縦線パターンの棒は、話者交替時における次話者の頭部の動きを示している。

このような図９、図１０の結果に基づいて、ロボット１００の発話直前の頭部の動きを制御する動作パターン情報を生成し、動作パターン情報格納部３０２に格納する。具体的には、ロボット１００が、現話者であり、次に発話を続けるとき（話者継続時）は、図９のパターン無しの棒で示される頭部行動の結果に基づいて、頭部の位置（Ｘ，Ｙ，Ｚ）及び回転角（Azimuth, Elevation, Roll）のパラメータを規定する動作パターン情報を生成する。

具体的に、図９、図１０に示す各棒は、各パラメータの発話末から前３秒間の平均値を示している。このため、実際にはこの平均値からある程度のばらつきを加味して、動作パターンのパラメータを設定する。例えば、これらの各パラメータが正規分布にのっとって現れるとして、正規分布の確率にのっとって、各パラメータが平均値からばらついた値を出力する。これにより、動作パターンのパラメータとして出力されるのは、３秒間の間に生成する頭部の位置（Ｘ，Ｙ，Ｚ）及び回転角（Azimuth, Elevation, Roll）のパラメータの１秒間の平均変化量（ＭＯ）、パラメータ変化を波系として捉えた時の平均振幅（ＡＭ）及び１秒間の波形の平均周波数（ＦＱ）の各々に、正規分布に応じたばらつきが加味された値である。このパラメータを利用して、ロボット１００が３秒間で行う頭部運動として、パラメータの条件を満たすような頭部運動となる動作パターンのパラメータを生成する。具体的な動作例として、（Ｘ，Ｙ，Ｚ）のパラメータについてのみ簡単に説明すると、（Ｘ，Ｙ，Ｚ）のパラメータのＭＯがそれぞれ３０ｃｍ、（Ｘ，Ｙ，Ｚ）のパラメータのＡＭがそれぞれ２ｃｍ、（Ｘ，Ｙ，Ｚ）のパラメータＦＱが３Ｈｚである場合は、３秒間の内に、（Ｘ，Ｙ，Ｚ）の各パラメータがそれぞれ９０ｃｍ移動し、（Ｘ，Ｙ，Ｚ）の各パラメータの波形の振幅が平均して２ｃｍに、（Ｘ，Ｙ，Ｚ）のパラメータが３秒間で９つの波を打つように頭部運動させる（Ｘ，Ｙ，Ｚ）の動作パターンの各パラメータを変化させる。

ロボット１００が、非話者であり、次の発話を始めるとき（話者交替時）は、図１０の斜線のパターンの棒で示される頭部行動の結果に基づいて、頭部の位置（Ｘ，Ｙ，Ｚ）及び回転角（Azimuth, Elevation, Roll）のパラメータを規定する動作パターン情報を生成する。また、頭部動作の開始タイミングは、例えば、早くとも発話開始の５秒前から始める。

次に、呼吸音動作の具体例について説明する。
たとえば、下記の公知文献４には、人間の発話の直前に起こる呼吸動作の特徴が明らかにされている。公知文献４に記載されているように、現話者は話者継続時に、発話終了直後すぐに、短く、急激に吸気する。またその吸気開始のタイミングは、次発話開始から平均３５０ミリ秒前である。話者交替時の次話者の発話直前の呼気は、多く、急激に、深く、吸気を行う。またその吸気開始のタイミングは、次発話開始から平均９００ミリ秒前である。

よって、ロボット１００が、発話を継続するときは、次発話開始から平均３５０ミリ秒前に、短い、急激な吸気を行っているような吸気音をスピーカ１１５から出力する動作パターン情報を生成する。また、ロボット１００が、新たに発話を開始する際には、次発話開始から平均９００ミリ秒前に、多く、急激に、深い吸気を行っているような吸気音を出力する動作パターン情報を生成する。例えば動作パターンの一例として、多く、急激に、深い吸気を行う場合は、通常の吸気音に比べて、音量が大きく、継続時間が長いような吸気音声の生成を行う。また、これに伴って、人間が吸気をした際と同じように、吸気時に胴部２５における胸付近（人間であれば肺がある付近）を膨らませて、肩を少し上げる、頭部２３の顎を上げるという動作の動作パターン情報を合わせて生成しても良い。

またより詳細な、呼吸動作の制御方法として、公知文献４に挙げられている人間の呼吸動作を再現するような呼吸動作を行う動作パターンを生成しても良い。公知文献４では、人間の腹部または胸部にバンド式の呼吸センサを装着し、腹部や胸部の長さを基に、肺気量（公知文献４ではＲＳＰ値と定義している）を計測している。そして、話者継続、交替時の現話者や次話者の吸気の特徴を分析的に明らかにしている。ここでいう肺気量を、各人物の平均肺気量を０、平均値＋標準偏差の値が−１，１となるように正規化されている。具体的には、公知文献４に示す図４〜７は、話者継続時と交替時に、現在の話者（現話者）が発話終了直後にどのような吸気を行うかを、下記のパラメータを定義して、分析した結果（いくつかのサンプルから平均値を求めた結果）である。

・MIN: 息の吸い込み開始時のＲＳＰ値、すなわち、息の吸い込み区間のＲＳＰ値の最小値
・MAX: 息の吸い込み終了時のＲＳＰ値、すなわち、息の吸い込み区間のＲＳＰ値の最大値
・AMP: 息の吸い込み区間のＲＳＰ値の波形の振幅
・DUR: 息の吸い込み区間の長さ
・SLO: 息の吸い込み区間におけるＲＳＰ値の波形の１秒間当たりの傾きの平均値
・INT1: 現話者のＩＰＵ（Inter-Pausal Unit）末から息の吸い込みが開始されるまでの間隔
・INT2: 息の吸い込み開始時から次話者のＩＰＵが開始されるまでの間隔
・INT3: 息の吸い込み終了時から次話者のＩＰＵが開始されるまでの間隔
これらのパラメータを利用すれば、ロボット１００の肺気量（胸部、腹部の長さ）を制御することが可能である。

具体的にロボット１００が現話者であり続けて発話を行う際には、公知文献４の図４〜７の青い棒が人間の話者継続時の発話終了直後（次の発話の開始直前）に起こる吸気の各パラメータの分析結果であるから、ロボット１００も同じ値を取るような吸気行動を行わせるような制御を行う。具体的には、胸部、腹部の長さをMIN、MAX、AMP、DUR、SLOの値にのっとって制御する。また、INT1、INT2、INT3のパラメータから、発話の終了時刻に対して、吸気の開始・終了時刻、次の発話の開始時刻を取得して、人間と同じようなタイミングで吸気と次の発話の制御を合わせて行うことも可能である。公知文献４に示された吸気の各パラメータは、頭部運動の際と同様に、あくまでも平均値であるから、ある程度ばらつきを考慮して、パラメータを生成しても良い。

次に、ロボット１００以外の人物が発話者であり、ロボット１００が非話者であって、新たに発話を行う際の動作パラメータについて説明する。公知文献４に示す図８〜図１１の紫の棒は、人間の話者交替時の次話者が、現話者の発話終了付近で（次の発話の開始直前で）、どのような吸気を行うかを、上記の各パラメータを用いて分析をおこなった結果である。上述した吸気の動作と同様に、ロボット１００は、人間の吸気行動と同じような吸気行動を行わせるような腹部・胸部の長さの制御を行うことで発話開始を合図することが可能である。具体的には、胸部、腹部の長さをMIN、MAX、AMP、DUR、SLOの値にのっとって制御する。また、INT1、INT2、INT3のパラメータから、発話の終了時刻に対して、吸気の開始・終了時刻と、次の発話の開始時刻を合わせて制御可能である。公知文献４に示された吸気の各パラメータは、頭部運動の際と同様に、あくまでも平均値であるから、ある程度ばらつきを考慮して、パラメータを生成しても良い。

公知文献４：石井亮、外３名、“複数人対話での話者交替に関する呼吸動作の分析〜次話者と発話開始タイミングの予測モデルの構築に向けて〜”、信学技報、ｖｏｌ．１１４、ｎｏ１８９、ＨＣＳ２０１４−４９、ｐｐ．３５−４０、２０１４年

次に、フィラー動作の具体例について説明する。
公知文献５には、フィラーが発生する局面の一つとしてとして、発話の冒頭や、発話と発話の合間に現れることが記載されている。このようなフィラーは、発話の開始の合図や、発話の継続を周囲の利用者に知らせる機能を有することも記載されている。
公知文献５：山根智恵（２００２）『日本語の談話におけるフィラー』、日本語研究叢書１５、くろしお出版
ロボット１００は、早くとも発話開始の５秒前にフィラーを発生することによって、発話開始を事前に通知する。

なお、本実施形態におけるロボット１００は、マイク１０１、カメラ１０２、センサ１０３、音声入力部１０４、映像入力部１０５、センサ入力部１０６、発話区間検出部１０７、利用者情報取得部１０８及び動作制御部１０９を内蔵する構成としたが、それらを備える別装置を設ける構成としてもよい。例えば、ロボット１００と通信可能な会話支援装置を設け、その会話支援装置が、マイク１０１、カメラ１０２、センサ１０３、音声入力部１０４、映像入力部１０５、センサ入力部１０６、発話区間検出部１０７、利用者情報取得部１０８及び動作制御部１０９を備える構成としてもよい。なお、会話支援装置は少なくとも動作制御部１０９を備える構成であればよい。すなわち、動作制御部１０９以外の構成については、会話支援装置内に備える構成しても、ロボット１００内に備える構成としてもよい。

ロボット１００は、その体の一部をディスプレイ等の表示部に体の一部を表示する構成であっても良く、全身が仮想的な人物であるエージェントとして表示部に表示されるものであってもよい。ロボット１００の体の一部を表示部で表現するとは、例えば、顔全体が表示部となっており、その表示部に顔の画像を表示する構成等が考えられる。表示部に表示した顔の画像を変化させていろいろな表現を行うことができる。話者となるエージェントを表示部に表示する表示装置は、ロボット１００と同様に、マイク１０１と、カメラ１０２と、センサ１０３と、音声入力部１０４と、映像入力部１０５と、センサ入力部１０６と、発話区間検出部１０７と、利用者情報取得部１０８と、動作制御部１０９と、音制御部１１０と、口部制御部１１１と、視線制御部１１２と、頭部制御部１１３と、胴部制御部１１４と、スピーカ１１５とを備える。エージェントは、例えば、口を含む口部及び目を含む眼部を有する顔があり、顔を含む頭部の下には手、腕、及び足を有する胴部がある人物である。表示装置は、口部制御部１１１、視線制御部１１２、頭部制御部１１３及び胴部制御部１１４からの制御信号に応じて、表示部に表示中のエージェントの口、目の視線、頭及び胴体（手、腕及び足等を含む）を動かす画像処理部をさらに備える。

上述した実施形態においては、センサ１０３等を用いて利用者の位置を特定したが、他の構成であってもよい。例えば、複数のマイクロホンから入力される音声情報から、話者の位置を特定する下記の公知文献６に記載の技術を用いてもよい。
公知文献６：特開２００３−８９７４号公報

上述した本実施形態におけるロボット１００の備える各機能部は、例えば、コンピュータで実現することができる。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、ＦＰＧＡ（Field Programmable Gate Array）等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

利用者と会話を行うロボットの制御に適用したり、利用者と会話を行う表示装置に表示されたエージェント（仮想的な人物）の動きの制御に適用したりすることができる。

２１ａ…右目，２１ｂ…左目，２２…口部，２３…頭部，２４…頸部，２５…胴部，１００…ロボット，１０１…マイク，１０２…カメラ，１０３…センサ，１０４…音声入力部，１０５…映像入力部，１０６…センサ入力部，１０７…発話区間検出部，１０８…利用者情報取得部，１０９…動作制御部，１１０…音制御部，１１１…口部制御部，１１２…視線制御部，１１３…頭部制御部，１１４…胴部制御部，１１５…スピーカ（発音部），１１６…口部駆動部，１１７…眼部駆動部，１１８…頭部駆動部，１１９…胴部駆動部，３０１…発話制御部，３０２…動作パターン情報格納部，３０３…動作制御信号生成部，４０１…音声解析部，４０２…会話情報生成部，４０３…会話情報ＤＢ，４０４…会話支援情報生成部，４０５…呼吸音情報格納部，４０６…フィラー情報格納部，４０７…発声情報生成部，４０８…音信号生成部

Claims

ロボットを、又は、表示装置に表示される話者を制御する動作制御部と、
前記ロボット又は前記話者が発話するタイミングを制御する制御信号を出力する発話制御部と、
を備え、
前記動作制御部は、前記発話制御部からの発話のタイミングに基づいて、前記発話の前に前記ロボット又は前記話者が会話を支援する動作を行うよう制御する会話支援システム。
前記会話を支援する動作は、呼吸音を発する動作である請求項１に記載の会話支援システム。
前記呼吸音は吸気音である請求項２に記載の会話支援システム。
前記ロボット又は前記話者は、眼部を備え、
前記ロボット又は前記表示装置は、前記眼部の視線を制御する視線制御部を備える構成であり、
前記会話を支援する動作は、前記眼部の前記視線を制御する動作である請求項１から請求項３のいずれか一項に記載の会話支援システム。
前記ロボット又は前記話者は、顔を有する頭部と、前記頭部を可動に支える頸部とを備える構成であり、
前記会話を支援する動作は、前記頭部の動きを制御する動作である請求項１から請求項４のいずれか一項に記載の会話支援システム。
前記会話を支援する動作は、フィラーを発する動作である請求項１から請求項４のいずれか一項に記載の会話支援システム。
ロボットを、又は、表示装置に表示される話者を制御する動作制御部と、
前記ロボット又は前記話者が発話するタイミングを制御する制御信号を出力する発話制御部と、
を備え、
前記動作制御部は、前記発話制御部からの発話のタイミングに基づいて、前記発話の前に前記ロボット又は前記話者が会話を支援する動作を行うよう制御する会話支援装置。
ロボットを、又は、表示装置に表示される話者を制御する会議支援プログラムであって、
前記ロボット又は前記話者が発話するタイミングを制御する制御信号を出力する発話制御ステップと、
前記発話制御ステップにおいて出力された発話のタイミングに基づいて、前記発話の前に前記ロボット又は前記話者が会話を支援する動作を行うよう制御する制御ステップと、
をコンピュータに実行させるための会話支援プログラム。