JP6604912B2

JP6604912B2 - 発話動作提示装置、方法およびプログラム

Info

Publication number: JP6604912B2
Application number: JP2016124780A
Authority: JP
Inventors: 正典横山; 崇由望月; 智広山田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-06-23
Filing date: 2016-06-23
Publication date: 2019-11-13
Anticipated expiration: 2036-06-23
Also published as: JP2017226051A

Description

この発明は、ロボットが発話動作をするための発話動作提示装置、方法およびプログラムに関する。

従来、ユーザとの会話を行うコミュニケーションロボットや遠隔地にいるユーザの代理を務めるテレプレゼンスロボットなどが研究開発されている。これらのロボットには、ロボット自身が発話しているような印象をユーザに与えるために、発話動作を行うものがある。ロボットの発話動作を表現する方法として、例えば物理的な動作（物理動作）を利用する方法（非特許文献１）と、ＬＥＤなどの発光部による動作（発光動作）を行う方法（非特許文献２）とがある。

物理動作は、例えばロボットの発話に合わせて口の開閉を行うものがある。この場合、ユーザは、ロボットが声を出すための動きをしているように感じる（即ち、発話動作をしている印象を持つ）ことはあるが、ロボットが実際に声に出しているように感じる（即ち、発話している印象を持つ）ことは少ない。これは、ロボットの口の動きと発話音声との一致（リップシンク）を取ることが難しく、対話しているユーザに対して不自然な印象を与えてしまうことに起因する。つまるところ、物理動作は、実際の人間の口の開閉の動きのような複雑な動作をする機構を作ることが難しく、またそれらの機構を駆動するモータの回転速度にも限界がある。

発光動作は、例えばロボットの発話に合わせて口の部分を発光させるものがある。この場合、ユーザは、発話動作をしている印象を持つことは少ない。これは、ロボットの口が実際に動かないため、発話動作をしている印象をユーザに与えることができないことに起因する。しかしながら、発光による明滅であれば高速に動作させることが可能であるため、リップシンクを取ることは容易である。尚、発光動作に類似するものとして、プロジェクションマッピングを利用する方法も考えられるが、小型化が難しいことや高価であることから利用するための障壁が高い。

以上のことから、物理動作および発光動作には、発話動作に関してそれぞれ一長一短な点があり、ユーザに対してロボットが発話動作をしている印象与え、且つ、ユーザに対してロボットが発話をしている印象を与えるような発話動作提示装置はまだ知られていない。

「遠隔操作アンドロイドへの身体感覚転移 ―遠隔操作アンドロイドのエージェンシー―」、西尾他、日本ロボット学会誌Ｖｏｌ．３１Ｎｏ．９，ｐｐ．８５４−８５７，２０１３「感性会話型ロボット「ｉｆｂｏｔ」の表情制御の感情空間へのマッピング」、加納他、情報処理学会第６６回全国大会、２００４

この発明は上記事情に着目してなされたもので、その目的とするところは、低価格かつ小型のデバイスであっても、ユーザに対してロボットが発話をしているような印象を与える発話動作を提示する発話動作提示装置、方法およびプログラムを提供することにある。

上記課題を解決するためにこの発明の第１の態様は、発話動作提示装置が、感情の強さを示す感情情報に応じて、発話音声の音量に関する抑揚の幅を動作範囲として決定する感情動作決定手段と、発話音声の音量に応じて、発話に関する動作の大きさを動作量として動作範囲内で決定する音声動作決定手段と、動作量に基づいて、発話における口以外の動作として物理動作を行う物理動作手段と、動作量に基づいて、口自体の動作および口以外の動作の少なくとも一方の動作として発光動作を行う発光動作手段と、発話音声を出力する音声出力手段とを備え、発話音声の出力と同期するように物理動作および発光動作を行えるようにしたものである。

この発明の第２の態様は、上記第１の態様において、発話音声の音量が所定の閾値未満である状態が一定時間継続した場合に、動作量を動作範囲内でランダムに決定するランダム動作決定手段をさらに備えるようにしたものである。

この発明の第３の態様は、上記第１の態様または上記第２の態様において、感情動作決定手段が、発話音声から感情情報を推定することをさらに含むようにしたものである。

この発明の第１の態様によれば、感情の強さを示す感情情報に応じて、発話音声の音量に関する抑揚の幅を動作範囲として決定し、発話音声の音量に応じて、発話に関する動作の大きさを動作量として上記動作範囲内で決定する。そして、発話音声と同期するように、動作量に基づいて、発話における口以外の動作として物理動作と、口自体の動作および口以外の動作の少なくとも一方の動作として発光動作とを行うようにしている。

従って、口自体の動作に物理動作を割り当てないことにより、リップシンクの不一致によるユーザの違和感が軽減されるため、ユーザに対してロボットが発話をしているような印象を与える発話動作を提示することができる。

この発明の第２の態様によれば、発話音声の音量が所定の閾値未満である状態が一定時間継続した場合に、動作量を動作範囲内でランダムに決定する。よって、ユーザに対して自然な動作でロボットが発話をしているような印象を与えることができる。

すなわちこの発明によれば、ユーザに対してロボットが発話をしている印象を与える発話動作を提示する発話動作提示装置、方法およびプログラムを提供することができる。

この発明の一実施形態に係る発話動作提示装置を例示する図。図１の発話動作提示装置の動作を例示するフローチャート。図１の感情動作決定部における、感情の強さと抑揚の幅との関係を例示する図。図１の物理動作部の構成例を示す図。図４Ａの物理動作部の動作例などを示す図。図１の物理動作部の構成例を示す図。図５Ａの物理動作部の動作例などを示す図。図１の物理動作部の構成例を示す図。図６Ａの物理動作部の動作例などを示す図。図１の発光動作部の構成例を示す図。図７Ａの発光動作部の動作例などを示す図。図１の発話動作提示装置の別の実施例を示す図。図１の発話動作提示装置の別の実施例を示す図。

以降では、発話動作は、発話のために必要な動作やユーザから見たときに発話に必要であると感じられる動作のことをいう。これらの動作は、例えば口自体の動作および発話の動作に付随する動作（発話における口以外の動作）の二つから構成されるものとする。具体的には、口自体の動作は、口或いは唇の開閉動作であり、口以外の動作は、発話することで動いてしまう（或いは動いていると感じられる）頭の上下動や頬の動き、顎の動き、首の動きなどである。尚、発話動作には、会話に対して頷く、首を横に振る、天を仰ぐ、恐怖や寒さによって肩をふるわせる、手を振るなどのジェスチャは含まないものとする。

以下、図面を参照してこの発明に係わる実施形態を説明する。
［一実施形態］
（構成）
図１に例示されるように、この発明の一実施形態に係る発話動作提示装置１００は、音声入力部１１０と、通信部１２０と、発話動作決定部１３０と、発話動作部１４０とを備える。発話動作決定部１３０は、感情動作決定部１３１と、音声動作決定部１３２と、ランダム動作決定部１３３とを含む。発話動作部１４０は、物理動作部１４１と、発光動作部１４２と、音声出力部１４３とを含む。

発話動作提示装置１００は、例えばコミュニケーションロボットやテレプレゼンスロボットに相当する。発話動作提示装置１００の動作の概要は、話者の音声を入力し、図示されない処理装置によって処理された、入力音声に対応する発話音声を、当該話者に対して発話動作とともに提示することである。尚、発話動作提示装置１００は、図示されない処理装置をさらに備えてもよく、この場合は、通信部１２０と置き換えられてもよい。

音声入力部１１０は、話者の音声を入力音声信号としてデジタル音声信号の形式で入力する。音声入力部１１０として、マイクロフォンなどの既存の音声入力デバイスが用いられてもよい。音声入力部１１０は、入力音声信号を通信部１２０へと出力する。

通信部１２０は、音声入力部１１０から入力音声信号を受け取る。通信部１２０として、無線ＬＡＮ（Local Area Network）、Ｗｉ−Ｆｉ（商標登録）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、および赤外線通信などを利用した無線通信デバイスが用いられてもよいし、ＵＳＢ通信およびシリアル通信などを利用した有線通信デバイスが用いられてもよい。通信部１２０は、入力音声信号を図示しない処理装置へと出力する。また、通信部１２０は、図示しない処理装置から後述される発話音声信号と感情情報とを受け取り、発話動作決定部１３０へと出力する。

上記処理装置は、スマートフォンやパーソナルコンピュータなどに相当する。処理装置は、例えば通信部１２０から受け取った入力音声への受け答えとして、当該処理装置を操作するユーザが回答した発話音声である発話音声信号を生成する処理を行う。また、処理装置は、当該発話音声の感情の強さを示す感情情報を生成する処理を行う。処理装置は、発話音声信号と感情情報とを通信部１２０へと出力する。尚、上記感情情報は、上記ユーザが指定することによって生成されてもよい。

感情動作決定部１３１は、発話動作決定部１３０が受け取った感情情報に応じて、発話音声の音量に関する抑揚の幅を動作範囲として決定する。具体的には、感情動作決定部１３１は、図３に例示されるように、感情の強さが弱い場合は抑揚の幅を小さく（即ち、動作範囲を狭く）し、感情の強さが強い場合は抑揚の幅を大きく（即ち、動作範囲を広く）するように動作範囲を決定してもよい。動作範囲は、例えば後述する物理動作部１４１における可動域や、後述する発光動作部１４２における発光強度などに関連付けられる。感情動作決定部１３１は、決定した動作範囲の情報を音声動作決定部１３２およびランダム動作決定部１３３へと出力する。

また、感情動作決定部１３１は、発話動作決定部１３０が感情情報を受け取らなかった場合に、発話動作決定部１３０が受け取った発話音声信号から感情情報を推定してもよい。尚、音声信号から感情を推定する技術は、ＢｅｙｏｎｄＶｅｒｂａｌ（http://www.beyondverbal.com）などを用いてもよい。

音声動作決定部１３２は、感情動作決定部１３１から動作範囲の情報を受け取る。音声動作決定部１３２は、発話動作決定部１３０が受け取った発話音声信号の音量に応じて、発話に関する動作の大きさを動作量として動作範囲内で決定する。例えば、音声動作決定部１３２は、音量に対する閾値を設けることによって、段階的に動作量を決定してもよいし、出力される音量の最大値および最小値を設定し、連続的に動作量を決定してもよい。音声動作決定部１３２は、発話音声の音量に対応する動作量の情報を物理動作部１４１および発光動作部１４２へと出力する。尚、音声動作決定部１３２は、後述するランダム動作決定部１３３から受け取ったランダムに決定した動作量を反映させて、発話音声に対応する動作量の情報として物理動作部１４１および発光動作部１４２へと出力してもよい。

ランダム動作決定部１３３は、感情動作決定部１３１から動作範囲の情報を受け取る。ランダム動作決定部１３３は、発話動作決定部１３０が受け取った発話音声信号の音量が所定の閾値未満である状態が一定時間継続した場合に、発話音声の音量に対応する動作量を動作範囲内でランダムに決定する。ランダム動作決定部１３３は、ランダムに決定した動作量の情報を音声動作決定部１３２へと出力する。

また、ランダム動作決定部１３３は、動作範囲の情報に応じて所定の閾値を変化させてもよい。例えば、動作範囲が広い（即ち、感情が強い）場合、ランダム動作決定部１３３は、発話音声の音量も大きいものと仮定して所定の閾値を大きくする。そうすることで、発話音声の音量が大きいにもかかわらず抑揚がない場合に、音量が所定の閾値を下回るようになるため、ランダム動作を取り入れることができる。一方、動作範囲が狭い（即ち、感情が弱い）場合、ランダム動作決定部１３３は、発話音声の音量も小さいものと仮定して、所定の閾値を小さくする。そうすることで、発話音声の音量が小さいにもかかわらず抑揚がある場合に、音量が所定の閾値を上回るようになるため、ランダム動作を取り入れる必要がなくなる。

物理動作部１４１は、音声動作決定部１３２から動作量の情報を受け取る。物理動作部１４１は、動作量に基づいて、発話における口以外の動作として物理動作を行う。物理動作部１４１は、頭部、頬、および首の伸縮、首、頭部の曲げ伸ばし、および、頭部、頬の可動などの発話の動作に付随する動作を行う。物理動作の具体例は後述される。

発光動作部１４２は、音声動作決定部１３２から動作量の情報を受け取る。発光動作部１４２は、動作量に基づいて、口自体の動作および口以外の動作の少なくとも一方の動作として発光動作を行う。発光動作部１４２は、目、頬および顔全体の発光などの発話の動作に付随する動作、並びに、口の発光などの口自体の動作の少なくとも一方を行う。発光動作の具体例は後述される。

音声出力部１４３は、発話動作決定部１３０から発話音声信号を受け取る。音声出力部として、スピーカなどの既存の音声出力デバイスが用いられてもよい。音声出力部１４３は、発話音声信号を出力する。このとき、発話動作部１４０は、音声出力部１４３の発話音声の出力と同期するように物理動作部１４１の物理動作および発光動作部１４２の発光動作を行う。

（動作）
次に、以上のように構成された発話動作提示装置１００の動作を説明する。図２は、例えば発話動作提示装置１００が備える制御部（図示せず）の指示による処理手順と処理内容を示すフローチャートである。図２の動作は、通信部１２０が入力音声信号を図示しない処理装置へと出力し、当該入力音声への受け答えとしての発話音声を通信部１２０が入力待ちしている状態から開始する。

ステップＳ２０１では、通信部１２０は、図示しない処理装置から感情情報を受信したか否かを判定する。感情情報を受信した場合は、処理はステップＳ２０２へと進み、そうでなければ処理はステップＳ２０３へと進む。

ステップＳ２０２において、感情動作決定部１３１は、感情情報に応じて、発話音声の音量に関する抑揚の幅を動作範囲として決定する。

ステップＳ２０３において、通信部１２０は、発話音声を受信する。

ステップＳ２０４では、ランダム動作決定部１３３は、ある時点の発話音声の音量が所定の閾値を越えたか否かを判定する。所定の閾値を越えた場合は、処理はステップＳ２０５へと進み、そうでなければ処理はステップＳ２０６へと進む。

ステップＳ２０５において、音声動作決定部１３２は、発話音声の音量に応じて、発話に関する動作の大きさを動作量として動作範囲内で決定する。ステップＳ２０５の後に処理はステップＳ２０９へと進む。

ステップＳ２０６では、ランダム動作決定部１３３は、ステップＳ２０３における発話音声の受信から一定時間経過したか否かを判定する。一定時間経過した場合は、処理はステップＳ２０７へと進み、そうでなければ処理はステップＳ２０５へと進む。

ステップＳ２０７において、ランダム動作決定部１３３は、発話音声の音量に対応する動作量を動作範囲内でランダムに決定する。

ステップＳ２０８において、ランダム動作決定部１３３は、ステップＳ２０６などで用いた時間経過を示すタイマをリセットする。

ステップＳ２０９において、音声動作決定部１３２は、動作量に応じた可動量を物理動作部１４１へと指示し、動作量に応じた発光強度を発光動作部１４２へと指示する。

ステップＳ２１０において、発話動作決定部１３０は、発話音声を音声出力部１４３へと出力する。このとき、発話動作部１４０は、音声出力部１４３の発話音声の出力と同期するように、ステップＳ２０９における指示に従った各部の動作を行う。

（物理動作部の実施例）
図４Ａにおいて、物理動作部１４１の構成例が示される。図４Ａの構成例では、物理動作部１４１は、筐体４１０と、土台４２０と、モータ４３０と、ワイヤ４３１とを備える。物理動作部１４１は、図示されない制御部によってモータ４３０を制御し、動作量に基づいて、発話における口以外の動作として物理動作を行う。尚、図４Ａ（ａ），（ｂ），（ｃ）は、それぞれ上面、正面、側面から見た断面図を示す。

筐体４１０は、人の頭部を模した形状である。筐体４１０は、例えばシリコンやゴムなどの柔軟性のある素材で構成される。筐体４１０は、内部に土台４２０と、モータ４３０と、ワイヤ４３１とが収納される。

土台４２０は、筐体４１０の内部に配置され、土台４２０の任意の位置にモータ４３０が配置される。

モータ４３０は、土台４２０に固定され、モータ４３０の回転軸にワイヤ４３１の一端が取り付けられている。モータ４３０は、回転軸を回転させることによって、回転軸に取り付けられたワイヤ４３１を巻き取ることができる。

ワイヤ４３１は、一端がモータ４３０の回転軸に取り付けられ、他端が筐体４１０の内部の任意の位置に取り付けられる。ワイヤ４３１は、モータ４３０の回転軸が回転することによって、モータ４３０の回転軸に巻き取られる。ワイヤ４３１は、モータ４３０の回転軸に巻き取られることによって、筐体４１０に取り付けられた部分を引っ張り、筐体４１０を変形させることができる。

図４Ｂにおいて、図４Ａの構成例などを用いた動作例が示される。図４Ｂ（ａ）は、頭部の伸縮動作を例示している。この例では、ワイヤが筐体内部の天頂に取り付けられている。そのため、筐体は、ワイヤで引っ張られることによって、頭部が縮むような表現を行うことができる。

図４Ｂ（ｂ）は、頬の伸縮動作を例示している。この例では、ワイヤが筐体の内部の下部２点にそれぞれ取り付けられている。そのため、筐体は、ワイヤで引っ張られることによって、頬の部分がへこむような表現を行うことができる。

図４Ｂ（ｃ）は、首の伸縮動作を例示している。この例では、土台が頭部筐体の内部ではなく、胸部筐体の内部に配置され、ワイヤが頭部筐体の天頂に取り付けられている。そのため、筐体は、ワイヤで引っ張られることによって、首が縮むような表現を行うことができる。

図５Ａにおいて、物理動作部１４１の別の構成例が示される。図５Ａの構成例では、物理動作部１４１は、上部筐体５１０と、下部筐体５１１と、土台５２０と、モータ５３０と、軸５３１と、固定板５３２とを備える。物理動作部１４１は、図示されない制御部によってモータ５３０を制御し、動作量に基づいて、発話における口以外の動作として物理動作を行う。尚、図５Ａ（ａ），（ｂ），（ｃ），（ｄ）は、それぞれ上面、正面、側面、動作中の側面から見た断面図を示す。

上部筐体５１０および下部筐体５１１は、それぞれ人の頭部および胸部を模した形状である。上部筐体５１０および下部筐体５１１は、例えばシリコンやゴムなどの柔軟性のある素材で構成される。上部筐体５１０および下部筐体５１１は、内部に土台５２０と、モータ５３０と、軸５３１と、固定板５３２とが収納される。

土台５２０は、下部筐体５１１の内部に配置され、土台５２０の任意の位置にモータ５３０が配置される。

モータ５３０は、土台５２０に固定され、モータ５３０の回転軸に軸５３１の一端が取り付けられている。モータ５３０は、回転軸を回転させることによって、回転軸に取り付けられた軸５３１を傾けることができる。

軸５３１は、一端がモータ５３０の回転軸に取り付けられ、他端が固定板５３２の任意の位置に取り付けられる。軸５３１は、モータ５３０の回転軸が回転することによって、回転方向に傾けられる。軸５３１は、モータ５３０の回転軸の回転方向に傾けられることによって、他端に取り付けられた固定板５３２を傾けることができる。

固定板５３２は、任意の位置に軸５３１の他端が取り付けられる。固定板５３２は、軸５３１が傾くことによって、軸５３１と同じように傾けられる。固定板５３２は、軸５３１によって傾けられることによって、図５Ａ（ｄ）のように上部筐体５１０を変形させることができる
図５Ｂにおいて、図５Ａの構成例などを用いた動作例が示される。図５Ｂ（ａ）は、首の曲げ伸ばし動作を例示している。この例は、図５Ａと同様の構成であり、筐体は、軸が傾けられることによって、首を曲げるような表現を行うことができる。

図５Ｂ（ｂ）は、頭部の曲げ伸ばし動作を例示している。この例では、土台が上部筐体の内部に配置されている。そのため、筐体は、軸が傾けられることによって、頭部が曲がるような表現を行うことができる。

図６Ａにおいて、物理動作部１４１の別の構成例が示される。図６Ａの構成例では、物理動作部１４１は、頭部筐体６１０と、顔部筐体６１１と、土台６２０と、モータ６３０と、第１のギア６３１と、第２のギア６３２と、ねじ６３３とを備える。物理動作部１４１は、図示されない制御部によってモータ６３０を制御し、動作量に基づいて、発話における口以外の動作として物理動作を行う。尚、図６Ａ（ａ），（ｂ），（ｃ）は、それぞれ上面、正面、側面から見た断面図を示す。

頭部筐体６１０および顔部筐体６１１は、それぞれ人の頭部および顔部を模した形状である。頭部筐体６１０および顔部筐体６１１は、例えばプラスチックや金属などの硬質な素材で構成される。頭部筐体６１０および顔部筐体６１１は、内部に土台６２０と、モータ６３０と、第１のギア６３１と、第２のギア６３２と、ねじ６３３とが収納される。

土台６２０は、顔部筐体６１１に固定され、頭部筐体６１０の内部に隠れるように配置される。また、土台６２０の任意の位置には、モータ６３０が配置される。

モータ６３０は、土台６２０に固定され、モータ６３０の回転軸に第１のギア６３１が取り付けられている。第１のギア６３１は、モータ６３０の回転軸と同方向に回転することによって、第２のギア６３２に回転力を伝える。第２のギア６３２は、第１のギア６３１とかみ合うように配置され、第１のギア６３１が回転することによって、モータ６３０の回転軸の回転方向から任意に傾けられた回転方向に回転が可能である。モータ６３０は、回転軸を回転させることによって、第２のギア６３２の中心軸に設けられた溝にかみ合うように取り付けられたねじ６３３を締めたり緩めたりすることができる。

ねじ６３３は、第２のギア６３２の中心軸に設けられた溝とかみ合うように溝が切られ、一端が頭部筐体６１０の内部の任意の位置に取り付けられる。ねじ６３３は、モータ６３０の回転軸が回転することによって、回転軸に取り付けられた第１のギア６３１の力を受けた第２のギア６３２が回転し、第２のギア６３２の中心軸とのかみ合う位置が移動させられる。ねじ６３３は、第２のギア６３２の中心軸とのかみ合う位置が移動させられることによって、ねじ６３３の一端に取り付けられた頭部筐体６１０を動かすことができる。

図６Ｂにおいて、図６Ａの構成例などを用いた動作例が示される。図６Ｂ（ａ）は、頭部の可動を例示している。この例は、図６Ａと同様の構成であり、ねじが緩められることによって頭部が顔部から離れ、ねじが締められることによって頭部が顔部へ近づくような、頭部の可動を表現することができる。

図６Ｂ（ｂ）は、頬の可動を例示している。この例では、ねじの一端が頬の部分に取り付けられている。そのため、ねじが緩められることによって頬が顔部から離れ、ねじが締められることによって頬が顔部へ近づくような、頬の可動を表現することができる。

尚、ねじの締める方向と、ねじが取り付けられた筐体が移動する方向は上記の例に限らず、異なっていてもよい。

（発光動作部の実施例）
図７Ａにおいて、発光動作部１４２の構成例が示される。図７Ａの構成例では、発光動作部１４２は、筐体７１０と、土台７２０と、ＬＥＤ７３０とを備える。発光動作部１４２は、図示されない制御部によってＬＥＤ７３０を制御し、動作量に基づいて、口自体の動作および口以外の動作の少なくとも一方の動作として発光動作を行う。尚、図７Ａ（ａ），（ｂ），（ｃ）は、それぞれ上面、正面、側面から見た断面図を示す。

筐体７１０は、人の頭部を模した形状である。筐体７１０は、例えば光を透過する素材（例えば、薄いプラスチック、シリコン、およびゴム）で構成される。筐体７１０は、内部に土台７２０と、ＬＥＤ７３０とが収納される。

土台７２０は、筐体７１０の内部に配置され、土台７２０の任意の位置にＬＥＤ７３０が配置される。

ＬＥＤ７３０は、土台７２０に固定され、筐体７１０の所望の部位を発光させるようにＬＥＤ７３０の発光部が任意の方向に向けられている。

図７Ｂにおいて、図７Ａの構成例などを用いた動作例が示される。図７Ｂでは、音量に合わせて変化させる明るさの度合い（発光強度）として「消灯」、「暗」、「中」、「明」の４段階で示しているが、明るさの段階はこれに限らない。

図７Ｂ（ａ）は、目の発光動作を例示している。この例では、ＬＥＤの発光部がロボットの目の位置に取り付けられている。図７Ｂ（ｂ）は、頬の発光動作を例示している。この例では、ＬＥＤの発光部がロボットの頬の位置に取り付けられている。図７Ｂ（ｃ）は、顔全体の発光動作を例示している。この例では、ＬＥＤの発光部がロボットの顔全体を照らす位置に取り付けられている。図７Ｂ（ｄ）は、口の発光動作を例示している。この例では、ＬＥＤの発光部がロボットの口の位置に取り付けられている。尚、発光動作はＬＥＤに限らず、筐体の内部に備えたプロジェクタで筐体の内壁に光を投光してもよく、液晶ディスプレイなどを筐体表面に埋め込むことによって光の明滅を行ってもよい。

（実施形態の効果）
以上詳述したように一実施形態では、感情の強さを示す感情情報に応じて、発話音声の音量に関する抑揚の幅を動作範囲として決定し、発話音声の音量に応じて、発話に関する動作の大きさを動作量として上記動作範囲内で決定する。そして、発話音声と同期するように、動作量に基づいて、発話における口以外の動作として物理動作と、口自体の動作および口以外の動作の少なくとも一方の動作として発光動作とを行うようにしている。

従って、口自体の動作に物理動作を割り当てないことにより、リップシンクの不一致によるユーザの違和感が軽減され、且つ、口以外の動作に物理動作を割り当てることにより、発話動作をしている印象を与えられる。そのため、ユーザに対してロボットが発話をしているような印象を与える発話動作を提示することができる。

また、発話音声の抑揚が小さい場合でも、動作量を動作範囲内でランダムに決定することにより、ユーザに対して自然な動作でロボットが発話をしているような印象を与えることができる。

［他の実施形態］
前記一実施形態では、発話動作提示装置が受け取った入力音声信号に対して、処理装置を操作するユーザが回答することによって発話音声信号の生成処理を行ったが、当該生成処理を、ユーザを介さずに行ってもよい。

図８では、コミュニケーションロボットとして発話動作提示装置が用いられる。図８に例示されるように、処理装置８００は、発話動作提示装置１００から受け取った入力音声信号に対して音声認識処理を行うことによって音声認識結果を生成する。処理装置８００は、音声認識結果を雑談対話ＡＰＩ８１０へと出力する。

雑談対話ＡＰＩ８１０は、処理装置８００から音声認識結果を受け取る。雑談対話ＡＰＩ８１０は、音声認識結果（入力音声）に対して自然な会話となるような応答文をテキスト形式で生成する。雑談対話ＡＰＩ８１０は、応答文を、処理装置８００を介して音声合成ＡＰＩ８２０へと出力する。

音声合成ＡＰＩ８２０は、処理装置８００を介して雑談対話ＡＰＩ８１０から応答文を受け取る。音声合成ＡＰＩ８２０は、テキスト形式の応答文に対して自然な読み上げとなるような発話音声を生成する。音声合成ＡＰＩ８２０は、発話音声を処理装置８００へと出力する。

別の実施例が図９に示される。図９では、テレプレゼンスロボットとして発話動作提示装置が用いられる。例えば、第１の話者と第２の話者とでそれぞれテレプレゼンスロボットを介して対話をする場合、第１の話者が発話動作提示装置１００ａに話しかけることによって、処理装置８００ａおよび処理装置８００ｂを介して、発話動作提示装置１００ｂが当該第１の話者の発話を模擬し（或いは変声して）、発話動作と共に第２の話者へ伝える。また、第２の話者が発話動作提示装置１００ｂに話しかけることによって、処理装置８００ｂおよび処理装置８００ａを介して、発話動作提示装置１００ａが第２の話者の発話を模擬し（或いは変声して）、発話動作と共に第１の話者へ伝える。

以上のように発話動作提示装置は、様々なシーンで用いることが可能であり、装置の構成や認識処理手順と処理内容等についても、この発明の要旨を逸脱しない範囲で種々変形して実施可能である。

要するにこの発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。

１００，１００ａ，１００ｂ…発話動作提示装置、１１０…音声入力部、１２０…通信部、１３０…発話動作決定部、１３１…感情動作決定部、１３２…音声動作決定部、１３３…ランダム動作決定部、１４０…発話動作部、１４１…物理動作部、１４２…発光動作部、１４３…音声出力部、４１０，７１０…筐体、４２０，５２０，６２０，７２０…土台、４３０，５３０，６３０…モータ、４３１…ワイヤ、５１０…上部筐体、５１１…下部筐体、５３１…軸、５３２…固定板、６１０…頭部筐体、６２１…顔部筐体、６３１…第１のギア、６３２…第２のギア、６３３…ねじ、７３０…ＬＥＤ、８００，８００ａ，８００ｂ…処理装置、８１０…雑談対話ＡＰＩ、８２０…音声合成ＡＰＩ。

Claims

感情の強さを示す感情情報に応じて、発話音声の音量に関する抑揚の幅を動作範囲として決定する感情動作決定手段と、
前記発話音声の音量に応じて、発話に関する動作の大きさを動作量として前記動作範囲内で決定する音声動作決定手段と、
前記動作量に基づいて、発話における口以外の動作として物理動作を行う物理動作手段と、
前記動作量に基づいて、口自体の動作および前記口以外の動作の少なくとも一方の動作として発光動作を行う発光動作手段と、
前記発話音声の音量が所定の閾値未満である状態が一定時間継続した場合に、前記動作量を前記動作範囲内でランダムに決定するランダム動作決定手段と、
前記発話音声を出力する音声出力手段と
を具備し、
前記発話音声の出力と同期するように前記物理動作および前記発光動作を行う発話動作提示装置。
前記感情動作決定手段は、前記発話音声から前記感情情報を推定することをさらに含む、請求項１に記載の発話動作提示装置。
感情の強さを示す感情情報に応じて、発話音声の音量に関する抑揚の幅を動作範囲として決定する過程と、
前記発話音声の音量に応じて、発話に関する動作の大きさを動作量として前記動作範囲内で決定する過程と、
前記動作量に基づいて、発話における口以外の動作として物理動作を行う過程と、
前記動作量に基づいて、口自体の動作および前記口以外の動作の少なくとも一方の動作として発光動作を行う過程と、
前記発話音声の音量が所定の閾値未満である状態が一定時間継続した場合に、前記動作量をランダムに決定する過程と、
前記発話音声を出力する過程と、
前記発話音声の出力と同期するように前記物理動作および前記発光動作を行う過程と
を具備する、発話動作提示方法。
前記動作範囲を決定する過程は、前記発話音声から前記感情情報を推定することをさらに含む、請求項３に記載の発話動作提示方法。
コンピュータを、請求項１または請求項２に記載の発話動作提示装置の前記各手段として実行させるためのプログラム。