JP7452363B2

JP7452363B2 - 制御装置、制御方法、およびプログラム

Info

Publication number: JP7452363B2
Application number: JP2020165801A
Authority: JP
Inventors: 夏樹橋口; 純也吉野
Original assignee: Sintokogio Ltd
Current assignee: Sintokogio Ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2024-03-19
Anticipated expiration: 2040-09-30
Also published as: JP2022057507A

Description

本発明は、ユーザと対話するロボットを制御する技術に関する。

ユーザと対話するロボットを制御する技術が知られている。例えば、特許文献１には、音イベントが発生した方向にロボットを振り向かせる技術が記載されている。ただし、当該ロボットは、ユーザの顔がロボットの正面にあり、かつ、ロボットの方を向いている場合には、音イベントの発生を無視する。これにより、このロボットは、正面に存在するユーザとのコミュニケーションを維持する。

特開２０１９－９５５２３号公報

しかしながら、特許文献１に記載のロボットには、ユーザとの対話中に視線がちらつくという課題がある。なぜなら、このロボットは、対話中のユーザが一時的に音イベントの発生方向を向くだけでも、音イベントの発生方向に振り向くからである。

本発明の一態様は、上述した課題を解決するためになされたものであり、対話中のロボットの視線のちらつきを抑制する技術を実現することを目的とする。

上記の課題を解決するために、本発明の一態様に係る制御装置は、１または複数のプロセッサを含む。前記１または複数のプロセッサは、検出処理と、第１制御処理と、算出処理と、第２制御処理とを実行する。また、本発明の一態様に係る制御方法は、１または複数のプロセッサがロボットを制御する方法であって、検出ステップと、第１制御ステップと、算出ステップと、第２制御ステップとを含む。

検出処理（検出ステップ）において、前記１または複数のプロセッサは、第１の話者の発話を検出する。第１制御処理（第１制御ステップ）において、前記１または複数のプロセッサは、前記ロボットの視線を前記第１の話者が存在する方向に制御する。算出処理（算出ステップ）において、前記１または複数のプロセッサは、前記ロボットとの対話に対する前記第１の話者の関心の度合いを示す関心度を、直近の所定期間における前記第１の話者の状態に基づき算出する。第２制御処理（第２制御ステップ）において、前記１または複数のプロセッサは、前記第１の話者とは異なる第２の話者の発話を検出した場合、前記関心度が低いことを判定するための判定条件が満たされれば、前記ロボットの視線を前記第２の話者の方向に制御する。

本発明の一態様によれば、対話中のロボットの視線のちらつきを抑制することができる。

本発明の一実施形態に係るロボットの構成を示すブロック図である。本発明の一実施形態に係るロボットの外観の一例を示す図である。本発明の一実施形態における通常モードおよび傾聴モード間の自動切り替えを説明する図である。本発明の一実施形態においてロボットを通常モードで制御する制御方法の流れを示すフローチャートである。本発明の一実施形態においてロボットを傾聴モードで制御する制御方法の流れを示すフローチャートである。本発明の一実施形態において視線を第１の話者の方向に制御する処理の流れを示すフローチャートである。本発明の一実施形態において関心度を算出する処理の流れを示すフローチャートである。

〔実施形態〕
以下、本発明の一実施形態に係るロボット１０について、詳細に説明する。

＜ロボット１０の概要＞
ロボット１０は、話者の発話を検出すると、当該話者が存在する方向に視線を向けて話者との対話を行うロボットである。ロボット１０は、傾聴モードおよび通常モードの何れかで動作する。

（傾聴モード）
傾聴モードは、ロボット１０が特定の話者との対話を行うモードである。特定の話者を、以降、第１の話者と記載する。傾聴モードでは、ロボット１０は、第１の話者の発話を検出し、第１の話者の方向に視線を向ける。また、ロボット１０は、第１の話者の対話に対する関心度を算出する。関心度は、直近の所定期間における第１の話者の状態に基づいて算出される。ロボット１０は、第１の話者とは異なる第２の話者の発話を検出した場合、判定条件が満たされれば、視線を第２の話者の方向に制御する。判定条件は、第１の話者の関心度が低いことを判定するための条件である。ロボット１０は、当該判定条件が満たされなければ、視線を第１の話者の方向に維持する。

（判定条件の一例）
一例として、判定条件は、関心度に含まれる注視度、近接度、および発話度の全てが閾値未満であるとの条件である。以降、判定条件が満たされることを、単に「関心度が閾値未満である」とも記載する。また、この場合、関心度に含まれる注視度、近接度、および発話度の何れかが閾値以上であると、判定条件が満たされない。以降、判定条件が満たされないことを、単に「関心度が閾値以上である」とも記載する。

（通常モード）
通常モードは、ロボット１０が複数の話者との対話を行うか、または、話者の出現を待機するモードである。通常モードでは、ロボット１０は、複数の話者のうち発話した話者の方向に視線を向ける。通常モードでは、ロボット１０は、対話中の話者の関心度を算出しない。

＜ロボット１０の構成＞
ロボット１０の構成について、図１および図２を参照して説明する。図１は、ロボット１０の構成を示すブロック図である。図２は、ロボット１０の外観の一例を示す図である。図１に示すように、ロボット１０は、制御装置１１０と、頭部１２０と、胴部１３０と、眼球部１４０と、カメラ１５０と、マイクアレイ１６０と、スピーカ１７０と、頭部制御装置１８０とを含む。

図２において、ロボット１０Ａは、視線ｄを正面方向に向けたロボット１０の外観の一例を示している。なお、ロボット１０には、正面方向が規定されている。また、ロボット１０Ｂは、頭部１２０を回転させることにより、視線ｄを正面以外に変化させたロボット１０の外観の一例を示している。また、ロボット１０Ｃは、眼球部１４０における黒目領域Ｒ２の位置を変化させることにより、視線ｄを正面以外に変化させたロボット１０の外観の一例を示している。

頭部１２０は、胴部１３０に対して定められた軸まわりに回転可能に連結される。頭部１２０が回転することにより、頭部１２０の表面に配置された眼球部１４０の方向が変化し、その結果、ロボット１０の視線ｄが変化する。

眼球部１４０は、ディスプレイによって構成され、頭部１２０の表面に配置される。眼球部１４０は、制御装置１１０から出力される右目画像１４０－１と、左目画像１４０－２とを表示する。右目画像１４０－１および左目画像１４０－２は、それぞれ、白目領域Ｒ１を含む。白目領域Ｒ１は、黒目領域Ｒ２を含む。白目領域Ｒ１における黒目領域Ｒ２の位置の変化に応じて、視線ｄが変化する。

カメラ１５０は、胴部１３０に配置される。カメラ１５０は、ロボット１０の周辺を撮像した画像データを所定間隔で生成する。なお、カメラ１５０の撮像方向は、ロボット１０の正面方向に固定されていてもよいし、視線ｄの方向に連動して変化してもよい。画像データは、制御装置１１０に入力され、入力画像データとして二次メモリ１３に格納される。

マイクアレイ１６０は、マイク１６０－ｉ（ｉ＝１、２、・・・）からなる。各マイク１６０－ｉは、胴部１３０に配列される。マイクアレイ１６０は、周囲の音声を検出し、検出した音声信号を制御装置１１０に入力する。入力された音声信号は、入力音声データとして二次メモリ１３に格納される。

スピーカ１７０は、図２には図示していないが、例えば、頭部１２０に配置される。スピーカ１７０は、制御装置１１０から出力される合成音声を出力する。

頭部制御装置１８０は、頭部１２０の方向を制御する。頭部１２０の方向とは、頭部１２０の表面のうち眼球部１４０が配置されている領域が向く方向である。例えば、頭部制御装置１８０は、頭部１２０を回転させる回転機構（不図示）を制御する装置である。回転機構としては、例えば、アクチュエータ、またはサーボモータ等が挙げられるが、これに限られない。頭部制御装置１８０および回転機構は、例えば、頭部１２０または胴部１３０に内蔵される。

制御装置１１０は、ロボット１０全体の動作を制御する。制御装置１１０は、例えば、頭部１２０または胴部１３０に内蔵される。図１に示すように、制御装置１１０は、プロセッサ１１と、一次メモリ１２と、二次メモリ１３と、入出力インタフェース１４とを含む。プロセッサ１１、一次メモリ１２、二次メモリ１３、および入出力インタフェース１４は、バスを介して相互に接続されている。

二次メモリ１３には、プログラムＰ１、入力データ群Ｄ１、関心度データ群Ｄ２が格納されている。入力データ群Ｄ１は、入力画像データおよび入力音声データを含む。関心度データ群Ｄ２は、注視度、近接度、および発話度を含む。プログラムＰ１、入力データ群Ｄ１、および関心度データ群Ｄ２の詳細については後述する。

プロセッサ１１として利用可能なデバイスとしては、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphic Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＭＰＵ（Micro Processing Unit）、ＦＰＵ（Floating point number Processing Unit）、ＰＰＵ（Physics Processing Unit）、マイクロコントローラ、又は、これらの組み合わせを挙げることができる。プロセッサ１１は、「演算装置」と呼ばれることもある。

また、一次メモリ１２として利用可能なデバイスとしては、例えば、半導体ＲＡＭ（Random Access Memory）を挙げることができる。一次メモリ１２は、「主記憶装置」と呼ばれることもある。また、二次メモリ１３として利用可能なデバイスとしては、例えば、フラッシュメモリ、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、ＯＤＤ（Optical Disk Drive）、ＦＤＤ（Floppy（登録商標） Disk Drive）、又は、これらの組み合わせを挙げることができる。二次メモリ１３は、「補助記憶装置」と呼ばれることもある。なお、二次メモリ１３は、制御装置１１０に内蔵されていてもよいし、通信インタフェース（図示せず）または入出力インタフェース１４を介して制御装置１１０（ロボット１０）と接続された他のコンピュータに内蔵されていてもよい。なお、本実施形態においては、制御装置１１０における記憶を２つのメモリ（一次メモリ１２および二次メモリ１３）により実現しているが、これに限定されない。すなわち、制御装置１１０における記憶を１つのメモリにより実現してもよい。この場合、例えば、そのメモリの或る記憶領域を一次メモリ１２として利用し、そのメモリの他の記憶領域を二次メモリ１３として利用すればよい。

入出力インタフェース１４には、カメラ１５０、マイクアレイ１６０、スピーカ１７０、頭部制御装置１８０、および眼球部１４０が接続される。入出力インタフェース１４としては、例えば、ＵＳＢ（Universal Serial Bus）、ＡＴＡ（Advanced Technology Attachment）、ＳＣＳＩ（Small Computer System Interface）、ＰＣＩ（Peripheral Component Interconnect）などのインタフェースが挙げられる。

＜二次メモリ１３に格納されるデータ＞
二次メモリ１３に格納されるデータの詳細について説明する。

（プログラムＰ１）
プログラムＰ１は、後述する制御方法Ｓ１、Ｓ２をプロセッサ１１に実行させるためのプログラムである。プロセッサ１１は、二次メモリ１３に格納されているプログラムＰ１を一次メモリ１２上に展開する。そして、プロセッサ１１は、一次メモリ１２上に展開されたプログラムＰ１に含まれる命令に従って、制御方法Ｓ１、Ｓ２に含まれる各ステップを実行する。

（入力データ群Ｄ１）
入力データ群Ｄ１は、入力画像データと、入力音声データとを含む。入力画像データは、カメラ１５０から入力された画像データである。入力画像データは、カメラ１５０から所定間隔で制御装置１１０に入力され、入力時刻と関連付けられて二次メモリ１３に格納される。また、入力音声データは、マイクアレイ１６０を構成する各マイク１６０－ｉから入力された音声信号を示す。入力音声データは、マイク１６０－ｉの識別子と関連付けられて二次メモリ１３に格納される。

（関心度データ群Ｄ２）
関心度データ群Ｄ２は、関心度を示すデータ群であり、注視度と、近接度と、発話度とを含む。注視度、近接度、および発話度は、それぞれ、ロボット１０との対話に対する第１の話者の関心の度合いを示す。注視度、近接度、および発話度は、傾聴モードにおいて、直近の所定期間における第１の話者の状態に基づいて、周期的に算出される。二次メモリ１３には、少なくとも最新の注視度、近接度、および発話度が格納される。

＜通常モードおよび傾聴モード間の自動切り替え＞
以上のように構成されたロボット１０を制御する制御方法について、図３を参照して説明する。プロセッサ１１は、ロボット１０を、通常モードおよび傾聴モードの何れかのモードで制御する。プロセッサ１１は、通常モードおよび傾聴モード間を自動で切り替える。図３は、通常モードおよび傾聴モード間の自動切り替えを説明する図である。以下、「ロボット１０が通常モード（または傾聴モード）で制御される」ことを、「ロボット１０が通常モード（または傾聴モード）で動作する」とも記載する。また、「通常モード（または傾聴モード）で制御されるロボット１０」を、「通常モード（または傾聴モード）のロボット１０」とも記載する。傾聴モードのロボット１０は、第１の状態または第２の状態である。

（通常モード）
図３に示すように、ロボット１０は、起動時には通常モードで動作する。通常モードにおいて、プロセッサ１１は、制御方法Ｓ１を実行する。制御方法Ｓ１の詳細については後述する。通常モードにおいて、ロボット１０の周囲の話者が１人になると、ロボット１０は、通常モードから傾聴モードに移行し、第１の状態となる。

（傾聴モード）
傾聴モードは、第１の話者との対話を行うモードである。傾聴モードにおいて、プロセッサ１１は、制御方法Ｓ２を実行する。制御方法Ｓ２の詳細については後述する。傾聴モードでは、第１の話者の対話に対する関心の度合いである関心度データ群Ｄ２が周期的に算出される。

（第１の状態）
傾聴モードにおける第１の状態は、第１の話者の関心度が閾値未満の状態である。本実施形態では、「関心度が閾値未満の状態」とは、関心度データ群Ｄ２に含まれる注視度、近接度、および発話度の全てが閾値未満の状態である。第１の状態において、第１の話者とは異なる第２の話者が検出されると、ロボット１０は、傾聴モードから通常モードに移行する。また、周囲の話者が０人になると、ロボット１０は、傾聴モードから通常モードに移行する。また、関心度が閾値以上になると、ロボット１０は、第１の状態から第２の状態に遷移する。

（第２の状態）
傾聴モードにおける第２の状態は、第１の話者の関心度が閾値以上の状態である。本実施形態では、「関心度が閾値以上の状態」は、関心度データ群Ｄ２に含まれる注視度、近接度、および発話度の少なくとも何れかが閾値以上の状態である。第２の状態において、第１の話者とは異なる第２の話者が検出された場合、第２の状態が維持される。また、周囲の話者が０人になった場合も、第２の状態が維持される。また、関心度が閾値未満になると、ロボット１０は、第２の状態から第１の状態に遷移する。

＜通常モードにおける制御方法Ｓ１の流れ＞
次に、通常モードにおいてプロセッサ１１が実行する制御方法Ｓ１について、図４を参照して説明する。図４は、制御方法Ｓ１の流れを示すフローチャートである。制御方法Ｓ１は、ステップＳ１１１～Ｓ１１４を含む。

（ステップＳ１１１）
ステップＳ１１１において、プロセッサ１１は、周囲に存在する話者の数を検出し、１人であるか否かを判断する。

（人数検出処理の具体例）
例えば、プロセッサ１１は、最新の入力画像データに基づいて話者の数を検出する。具体的には、プロセッサ１１は、当該入力画像データにおいて人の顔として認識した顔領域の個数を、話者の数として検出する。

当ステップでＹｅｓと判断した場合、プロセッサ１１は、傾聴モードにおける制御方法Ｓ２を実行する。つまり、プロセッサ１１は、ロボットの周囲に存在する話者の数が１であることを検出した場合に、通常モードから傾聴モードに切り替える。制御方法Ｓ２の詳細については後述する。

当ステップでＮｏと判断した場合、プロセッサ１１は、通常モードを継続し、次のステップＳ１１２の処理を実行する。つまり、この場合、ロボット１０の周囲には、複数の話者がいるか、または、誰もいないかのどちらかである。

（ステップＳ１１２）
ステップＳ１１２において、プロセッサ１１は、話者の発話を検出したか否かを判断する。

（発話の検出処理の具体例）
例えば、プロセッサ１１は、マイク１６０－ｉからの各入力音声データの到来時刻の差に基づいて、音声到来方向を特定する。また、例えば、プロセッサ１１は、入力画像データにおいて顔領域を検出することにより、人が存在する方向を特定する。音声到来方向および人が存在する方向は、いずれも、ロボット１０から見た方向である。そして、プロセッサ１１は、音声到来方向と人の顔が存在する方向とが一致する場合、話者の発話を検出したと判断する。

当ステップでＮｏと判断した場合、プロセッサ１１は、ステップＳ１１１からの処理を繰り返す。つまり、この場合、ロボット１０の周囲に、複数の話者がいるが誰も発言していないか、または、誰もいないかのどちらかである。そこで、プロセッサ１１は、いずれかの話者の発話、または、話者の出現を待機する。当ステップでＹｅｓと判断した場合、プロセッサ１１は、次のステップＳ１１３の処理を実行する。

（ステップＳ１１３）
ステップＳ１１４において、プロセッサ１１は、ロボット１０の視線を、発話した話者が存在する方向に制御する。これにより、発話した話者は、ロボット１０と視線が合っていると感じる。発話した話者が存在する方向は、発話の検出処理において一致すると判断した、音声到来方向および人の顔が存在する方向である。

（視線の制御処理の具体例）
例えば、プロセッサ１１は、右目画像１４０－１および左目画像１４０－２における黒目領域Ｒ２の位置を制御することにより、発話した話者の方向に視線ｄを制御する。また、例えば、プロセッサ１１は、頭部制御装置１８０を用いて頭部１２０を回転させることにより、発話した話者の方向に視線ｄを制御する。また、例えば、プロセッサ１１は、黒目領域Ｒ２の位置の制御および頭部１２０の回転の制御を組み合わせて、発話した話者の方向に視線ｄを制御してもよい。

（ステップＳ１１４）
ステップＳ１１４において、プロセッサ１１は、発話した話者との対話を制御する。例えば、プロセッサ１１は、発話内容に応答する応答音声を出力する。

（対話の制御処理の具体例）
例えば、プロセッサ１１は、マイクアレイ１６０からの入力音声データに対して音声認識処理を行い、音声認識結果を参照して応答テキストを生成する。また、プロセッサ１１は、応答テキストから音声合成により応答音声を生成し、応答音声をスピーカ１７０から出力する。

（ステップＳ１１１からの処理の繰り返し）
その後、プロセッサ１１は、ステップＳ１１１からＳ１１４までの処理を繰り返す。なお、次のステップＳ１１２において発話を検出した話者（次の話者）が、前回のステップＳ１１２において発話を検出した話者（前回の話者）と同一であるか否かに応じて、ロボット１０の視線の動きは、次のように異なる。

（視線が同一の話者に追従）
次の話者が前回の話者と同一である場合、プロセッサ１１が続いてステップＳ１１３を実行することにより、ロボット１０の視線は、当該話者に追従する。つまり、複数の話者のうち１人が継続して発話する場合、ロボット１０の視線は、当該話者に追従する。

（視線が他の話者に遷移）
次の話者が前回の話者と異なる場合、プロセッサ１１が続いてステップＳ１１３を実行することにより、ロボット１０の視線は、前回の話者から次の話者に遷移する。つまり、発話する話者が変わる度に、ロボット１０の視線は複数の話者間を遷移する。

＜傾聴モードにおける制御方法Ｓ２の流れ＞
次に、傾聴モードにおいてプロセッサ１１が実行する制御方法Ｓ２について、図５を参照して説明する。図５は、制御方法Ｓ２の流れを示すフローチャートである。制御方法Ｓ２は、ステップＳ２１１～Ｓ２２０を含む。

（ステップＳ２１１）
ステップＳ２１１において、プロセッサ１１は、第１の話者を特定する。ここで、当ステップの処理は、通常モードにおいて話者が１人であると判断された場合（ステップＳ１１１でＹｅｓ）に実行される。そこで、プロセッサ１１は、ステップＳ１１１で１人であるとして検出した話者を、第１の話者として特定する。また、プロセッサ１１は、第１の話者の特徴情報を、一次メモリ１２に記憶する。例えば、プロセッサ１１は、入力画像データにおける第１の話者の顔領域から特徴情報を抽出し、抽出した特徴情報を一次メモリ１２に記憶してもよい。

（ステップＳ２１２）
ステップＳ２１２において、プロセッサ１１は、視線の制御処理を第１周期で実行する。視線の制御処理は、本発明における第１制御処理の一例である。これにより、傾聴モードが終了するまでの間、ロボット１０の視線は、第１周期で第１の話者の方向に制御される。視線の制御処理の詳細については後述する。

（ステップＳ２１３）
ステップＳ２１３において、プロセッサ１１は、関心度の算出処理を第２周期で実行する。これにより、傾聴モードが終了するまでの間、第１の話者の関心度データ群Ｄ２が第２周期で更新される。関心度の算出処理の詳細については後述する。

（ステップＳ２１４）
ステップＳ２１４において、プロセッサ１１は、第１の話者の発話を検出したか否かを判断する。当ステップの処理は、本発明における検出処理の一例を含む。当ステップでＹｅｓと判断した場合、プロセッサ１１は、次のステップＳ２１５の処理を実行する。当ステップでＮｏと判断した場合、プロセッサ１１は、後述するステップＳ２１６の処理を実行する。

（第１の話者の検出処理の具体例）
例えば、プロセッサ１１は、マイク１６０－ｉからの各入力音声データの到来時刻の差に基づいて、音声到来方向を特定する。また、例えば、プロセッサ１１は、入力画像データにおいて顔領域を検出することにより、人が存在する方向を特定する。そして、プロセッサ１１は、音声到来方向と人が存在する方向とが一致しており、かつ、一致する方向に存在する人の顔領域の特徴情報が、一次メモリ１２に記憶した第１の話者の特徴情報と一致するか否かを判断する。

当該顔領域の特徴情報が第１の話者の特徴情報に一致する場合、プロセッサ１１は、第１の話者の発話を検出したと判断する。当該顔領域の特徴情報が第１の話者の特徴情報に一致しない場合、プロセッサ１１は、第１の話者の発話を検出していないと判断する。また、プロセッサ１１は、直近の入力音声データに所定レベル以上の音声が含まれていない場合にも、第１の話者の発話を検出していないと判断する。

（ステップＳ２１５）
ステップＳ２１５において、プロセッサ１１は、第１の話者との対話を制御する。対話の制御処理の具体例については、通常モードにおいて説明した通りである。そして、プロセッサ１１は、ステップＳ２１４からの処理を繰り返す。これにより、ロボット１０は、発話した第１の話者の方向に視線を向けながら対話を継続する。

（ステップＳ２１６）
ステップＳ２１６において、プロセッサ１１は、第１の話者とは異なる第２の話者の発話を検出したか否かを判断する。当ステップでＹｅｓと判断した場合、プロセッサ１１は、次のステップＳ２１７の処理を実行する。当ステップでＮｏと判断した場合、プロセッサ１１は、後述するステップＳ２１９の処理を実行する。

（第２の話者の検出処理の具体例）
例えば、プロセッサ１１は、ステップＳ２１４において、当該顔領域の特徴情報が第１の話者の特徴情報に一致しないと判断していた場合に、当ステップで第２の話者の発話を検出したと判断する。また、プロセッサ１１は、直近の入力音声データに所定レベル以上の音声が含まれない場合にも、第２の話者の発話を検出していないと判断する。

（ステップＳ２１７）
ステップＳ２１７において、プロセッサ１１は、第１の話者の関心度が閾値以上であるか否かを判断する。

例えば、プロセッサ１１は、二次メモリ１３に記憶した関心度データ群Ｄ２を参照し、注視度、近接度、および発話度の少なくとも何れかが閾値以上である場合に、関心度が閾値以上であると判断する。また、プロセッサ１１は、これらの全てが閾値未満の場合、関心度が閾値未満であると判断する。なお、注視度、近接度、および発話度の閾値は、それぞれに応じた値が設定されている。なお、これらの閾値は、二次メモリ１３にあらかじめ格納されていてもよい。この場合、これらの閾値は、設定により変更可能である。プロセッサ１１は、二次メモリ１３からこれらの閾値を読み込んで、当該ステップの判断処理を行う。

当ステップでＹｅｓと判断した場合、プロセッサ１１は、ステップＳ２１４からの処理を繰り返す。これにより、第１の話者の関心度が高い状態では、第２の話者の発話があっても傾聴モードが継続するので、ロボット１０の視線のちらつきが抑制される。

当ステップでＮｏの判断した場合、プロセッサ１１は、次のステップＳ２１８の処理を実行する。

（ステップＳ２１８）
ステップＳ２１８において、プロセッサ１１は、ロボット１０の視線を第２の話者の方向に制御する。当ステップの処理は、本発明における第２制御処理の一例である。そして、プロセッサ１１は、通常モードにおける制御方法Ｓ１を実行する。つまり、プロセッサ１１は、ロボットの視線を第２の話者の方向に制御した場合に、傾聴モードから通常モードに切り替える。これにより、第１の話者の関心度が低い状態では、第２の話者の発話があれば、ロボット１０の視線が第２の話者に遷移し、以降、ロボット１０の視線が特定の話者に固定されなくなる。その結果、ロボット１０の視線の動きがより自然になる。

（ステップＳ２１９）
ステップＳ２１９において、プロセッサ１１は、周囲に存在する話者の数を検出し、検出人数が０であるか否かを判断する。人数の検出処理の具体例については、通常モードで説明した通りである。

当ステップでＮｏと判断した場合、プロセッサ１１は、ステップＳ２１４からの処理を繰り返す。これにより、第１の話者が一時的に発話していない状況でも傾聴モードが継続するので、ロボット１０の視線のちらつきが抑制される。

当ステップでＹｅｓと判断した場合、プロセッサ１１は、次のステップＳ２２０の処理を実行する。

（ステップＳ２２０）
ステップＳ２２０において、プロセッサ１１は、第１の話者の関心度が閾値以上であるか否かを判断する。当ステップの処理の具体例は、ステップＳ２１７と同様である。

当ステップでＹｅｓと判断した場合、プロセッサ１１は、ステップＳ２１４からの処理を繰り返す。これにより、第１の話者の関心度が高い状態では、第１の話者が一時的に不在となっても傾聴モードが継続するので、ロボット１０の視線のちらつきが抑制される。

当ステップでＮｏと判断した場合、プロセッサ１１は、通常モードにおける制御方法Ｓ１を実行する。これにより、第１の話者の関心度が低い状態で第１の話者が不在となった場合には、ロボット１０のモードは、傾聴モードから通常モードへ移行する。

＜視線の制御処理の流れ＞
次に、ステップＳ２１２における視線の制御処理（第１制御処理）の詳細な流れについて、図６を参照して説明する。図６に示す視線の制御処理は、ステップＳ３１１～Ｓ３１４を含む。

（ステップＳ３１１）
ステップＳ３１１において、プロセッサ１１は、第１の話者の方向を特定する。例えば、プロセッサ１１は、入力画像データにおいて、一次メモリ１２に記憶した第１の話者の特徴情報に合致する顔領域を検出し、検出した領域に基づいて、ロボット１０から見た第１の話者の方向を特定する。なお、当該ステップにおいて第１の話者の方向を特定する手法は、上述した手法に限られない。

（ステップＳ３１２）
ステップＳ３１２において、プロセッサ１１は、ロボット１０の視線を、第１の話者の方向に制御する。

（ステップＳ３１３）
ステップＳ３１３において、プロセッサ１１は、傾聴モードが終了したか否かを判断する。当ステップでＹｅｓと判断した場合、プロセッサ１１は、Ｓ２１２における視線の制御処理を終了する。当ステップでＮｏと判断した場合、プロセッサ１１は、次のステップＳ３１４の処理を実行する。

（ステップＳ３１４）
ステップＳ３１４において、プロセッサ１１は、前回の周期で視線の制御処理を実行してから第１周期が経過したか否かを判断する。第１周期の一例として、例えば、１秒が挙げられるが、これに限られない。第１周期は、後述する第２周期より短い。

＜関心度の算出処理の流れ＞
次に、ステップＳ２１３における関心度の算出処理の詳細な流れについて、図７を参照して説明する。図７に示す算出処理は、ステップＳ４１１～Ｓ４１６を含む。

（ステップＳ４１１）
ステップＳ４１１において、プロセッサ１１は、二次メモリ１３から、直近の所定期間における入力データ群Ｄ１（入力画像データおよび入力音声データ）を取得する。例えば、所定期間が１０秒間であり、カメラ１５０から画像データが入力される間隔が１秒であれば、プロセッサ１１は、二次メモリ１３から、過去１０秒間における１０枚の入力画像データを取得する。また、例えば、所定期間が１０秒間であるとすると、二次メモリ１３に記憶された入力音声データのうち、現在までの直近１０秒間の部分的な音声データを取得する。

（ステップＳ４１２）
ステップＳ４１２において、プロセッサ１１は、ステップＳ４１１で取得した入力データ群Ｄ１を参照して、第１の話者の注視度を算出する。プロセッサ１１は、算出した注視度を二次メモリ１３に記憶する。これにより、二次メモリ１３に記憶された注視度は、最新の値に更新される。

（注視度）
ここで、注視度は、直近の所定期間において第１の話者の視線がロボット１０を向いている度合いである。例えば、プロセッサ１１は、ステップＳ４１１で取得した各入力画像データについて、第１の話者の視線がロボット１０を向いているか否かを判定する。プロセッサ１１は、当該判定を、例えば、入力画像データにおける第１の話者の顔領域が正面を向いた顔であるか否かにより行ってもよい。また、プロセッサ１１は、各入力画像データの判定結果に基づいて、所定期間において第１の話者の視線がロボット１０に向いている時間の割合を、注視度として算出する。

（ステップＳ４１３）
ステップＳ４１３において、プロセッサ１１は、ステップＳ４１１で取得した入力データ群Ｄ１を参照して、第１の話者の近接度を算出する。プロセッサ１１は、算出した近接度を二次メモリ１３に記憶する。これにより、二次メモリ１３に記憶された近接度は、最新の値に更新される。

（近接度）
ここで、近接度は、直近の所定期間において第１の話者がロボット１０に近接している度合いである。例えば、プロセッサ１１は、ステップＳ４１１で取得した各入力画像データについて、第１の話者とロボット１０との距離を検出する。例えば、プロセッサ１１は、入力画像データにおける第１の話者の顔領域の大きさに応じて、距離を検出してもよい。また、検出する距離は、「５０センチ」、「１メートル」等といった絶対的な長さであってもよいし、「遠い」、「近い」といった相対的な長さを段階的に表したものであってもよい。検出する距離が絶対的な長さである場合、プロセッサ１１は、各入力画像データの判定結果に基づいて、所定期間において第１の話者とロボット１０との距離が閾値以下である時間の割合を、近接度として算出する。また、検出する距離が相対的な長さである場合、プロセッサ１１は、各入力画像データの判定結果に基づいて、所定期間において第１の話者とロボット１０との距離が所定の段階（例えば、「近い」）である時間の割合を、近接度として算出する。

（ステップＳ４１４）
ステップＳ４１４において、プロセッサ１１は、ステップＳ４１１で取得した入力データ群Ｄ１を参照して、第１の話者の発話度を算出する。プロセッサ１１は、算出した発話度を二次メモリ１３に記憶する。これにより、二次メモリ１３に記憶された発話度は、最新の値に更新される。

（発話度）
ここで、発話度は、直近の所定期間において第１の話者が発話した度合いである。例えば、プロセッサ１１は、ステップＳ４１１で取得した所定期間の音声データのうち、所定レベル以上の音声を示す時間の割合を、発話度として算出する。

（ステップＳ４１５）
ステップＳ４１５において、プロセッサ１１は、傾聴モードが終了したか否かを判断する。当ステップでＹｅｓと判断した場合、プロセッサ１１は、ステップＳ２１３における関心度の算出処理を終了する。当ステップでＮｏと判断した場合、プロセッサ１１は、次のステップＳ４１６の処理を実行する。

（ステップＳ４１６）
ステップＳ４１６において、プロセッサ１１は、前回の周期で関心度の算出処理を実行してから第２周期が経過したか否かを判断する。第２周期の一例として、例えば、１０秒が挙げられるが、これに限られない。ただし、第２周期は、前述した第１周期より長い。

＜本実施形態の効果＞
以上説明したように、本実施形態は、傾聴モードにおいて、第１の話者の関心度を、直近の所定期間における第１の話者の状態に基づいて算出するので、第１の話者の関心が高いか否かを精度よく判定できる。これは、第１の話者が、関心が薄れた場合と似たような状態に一時的になったとしても、所定期間全体でみれば関心が高い状態であれば、算出される関心度は低下しにくくなるからである。その結果、本実施形態は、第１の話者の対話に対する関心が実際には薄れていないにも関わらず、関心が薄れたと判定することを低減する。これにより、ロボット１０の視線が第１の話者から外れることが少なくなり、視線のちらつきが抑制される。視線のちらつきが抑制される具体例について次に説明する。

（視線のちらつきが抑制される具体例１）
視線のちらつきが抑制される具体例として、例えば、第１の話者が傾聴モードのロボット１０との対話中に、第２の話者が第１の話者に話しかける場合について説明する。このような場合、第１の話者は、視線を第２の話者の方に向ける可能性が高い。このため、第１の話者の視線は、一時的にロボット１０の方に向いていない状態となる。しかしながら、第１の話者は、第２の話者が話しかけるまではロボット１０と対話していたため、直近の所定期間においては、第１の話者がロボット１０に視線を向けていた時間の割合（すなわち注視度）が閾値以上となる。したがって、このような場合に、第１の話者が第２の話者の話しかけに応じただけでは、ロボット１０の視線がすぐに第２の話者の方向に向くことが無く、ロボット１０の視線は第１の話者の方向に向いたままとなる。

その後、第１の話者は、第２の話者への応答を終了し、再度ロボット１０の方向に視線を向ける。その結果、注視度は引き続き閾値以上となり、ロボット１０の視線は第１の話者の方向に維持される。

このように、第１の話者がロボット１０との対話中に第２の話者の発話があっても、ロボット１０の視線は第１の話者の方向に維持されるので、視線のちらつきが抑制される。

（視線のちらつきが抑制される具体例２）
視線のちらつきが抑制される他の具体例として、例えば、第１の話者が、傾聴モードのロボット１０との対話しながら、一時的にカメラ１５０の撮像範囲外に移動する場合について説明する。例えば、第１の話者が、ロボット１０との対話中に、テーブルの下にある物を拾うためにかがむことがある。この場合、テーブルの上に配置されたロボット１０のカメラ１５０は、第１の話者の顔を撮像できない。このため、ロボット１０は、周囲の話者が０人であると判断する。しかしながら、第１の話者は、物を拾う前まではロボット１０と対話していたため、直近の所定期間においては、第１の話者がロボット１０に視線を向けていた時間の割合（すなわち、注視度）が閾値以上である。したがって、このような場合に、第１の話者が物を拾うだけではロボット１０がすぐに通常モードに移行することが無く、傾聴モードが維持される。

その後、第１の話者は、物を拾い終わって上体を起こし、再度ロボット１０の方向に視線を向ける。その結果、注視度は引き続き閾値以上となり、ロボット１０の視線は第１の話者の方向に維持される。

このように、第１の話者が一時的にロボット１０の撮像範囲外に移動しただけでは、ロボット１０の視線は第１の話者の方向に維持されるので、視線のちらつきが抑制される。

＜変形例＞
（モード切替の変形例）
上述した実施形態では、プロセッサ１１は、傾聴モードおよび通常モードを自動で切り替える。ただし、プロセッサ１１は、ユーザの操作に応じて、傾聴モードおよび通常モードを切り替えてもよい。換言すると、ロボット１０のモードは、手動で切り替え可能であってもよい。

この場合、例えば、ロボット１０は、操作ボタン（不図示）を有する。プロセッサ１１は、傾聴モードにおいて、ユーザの操作ボタンに対する操作に応答して、通常モードに切り替える。また、プロセッサ１１は、通常モードにおいて、ユーザの操作ボタンに対する操作に応答して、傾聴モードに切り替える。

また、ロボット１０は、モード切替を指示するユーザの音声に応答して、傾聴モードおよび通常モードを切り替えてもよい。この場合、ロボット１０は、必ずしも操作ボタンを有していなくてもよい。

（判定条件の変形例）
また、上述した実施形態では、第１の話者の関心度が低いことを判定するための判定条件は、注視度、近接度、および発話度の全てが閾値未満であるとの条件であった。ただし、判定条件は、これに限られない。例えば、判定条件は、注視度、近接度、および発話度の少なくとも何れかが閾値未満であるとの条件であってもよい。また、判定条件は、注視度、近接度、および発話度から算出される統合値（加重和、平均値、最大値、または最小値等）が閾値未満であるとの条件であってもよい。また、判定条件は、注視度、近接度、発話度、および上述した統合値の一部または全部の低下率が閾値以上であるとの条件であってもよい。この場合、二次メモリ１３は、最新の関心度データ群Ｄ２に加えて、過去に算出した関心度データ群Ｄ２を格納しておく。また、プロセッサ１１は、関心度データ群Ｄ２の履歴を用いて当該低下率を算出する。

（関心度の変形例）
また、上述した実施形態では、関心度データ群Ｄ２は、注視度、近接度、および発話度の一部または全部を必ずしも含んでいなくてもよい。また、関心度データ群Ｄ２は、注視度、近接度、および発話度以外の他の尺度を含んでもよい。他の尺度は、第１の話者の対話に対する関心の度合いを示すものであればよい。

（第１の話者の状態を取得するセンサの変形例）
また、上述した実施形態は、カメラ１５０からの入力画像データおよびマイクアレイ１６０からの入力音声データを参照して、関心度データ群Ｄ２を算出した。これに限らず、プロセッサ１１は、カメラ１５０およびマイクアレイ１６０以外のセンサからの入力データを参照して関心度データ群Ｄ２を算出してもよい。例えば、そのようなセンサの一例として、距離センサが挙げられる。この場合、ロボット１０は、近接度を算出するための距離センサを含む。距離センサは、関心度を算出するための所定期間より短い間隔で、第１の話者までの距離を測定し、測定データを制御装置１１０に入力する。プロセッサ１１は、直近の所定期間に入力された複数の距離データを参照して、第１の話者の近接度を算出する。

（眼球部の変形例）
また、上述した実施形態では、眼球部１４０は、ディスプレイによって構成される代わりに、眼球を模した２つの球体によって構成されてもよい。この場合、各球体は、表面に黒目領域を有する。また、ロボット１０は、２つの球体をそれぞれ連動して回転させる回転機構、および回転機構を制御する回転制御装置を有する。プロセッサ１１は、回転制御装置を用いて２つの球体を連動して回転させることにより、視線ｄを変化させる。

（頭部の変形例）
また、上述した実施形態において、頭部１２０は、ディスプレイによって構成されてもよい。この場合、頭部１２０は、胴部１３０に対して回転可能に連結されていなくてもよい。当該変形例では、頭部１２０の機械的な回転を制御する頭部制御装置１８０の構成は省略可能である。ロボット１０の頭の回転は、頭部１２０が表示する頭部画像の変化によって表現され、プロセッサ１１によって制御される。具体的には、頭部１２０は、制御装置１１０から出力される頭部画像を表示する。頭部画像は、右目画像１４０－１および左目画像１４０－２を含む。つまり、この場合、頭部１２０は、眼球部１４０を含んでいる。例えば、頭部画像における右目画像１４０－１および左目画像１４０－２の位置の変化は、ロボット１０の頭の回転を表す。プロセッサ１１は、頭部画像において、右目画像１４０－１および左目画像１４０－２の位置、および、各黒目領域Ｒ２の位置の一方または両方を変化させることにより、視線ｄの方向を制御する。

（応答音声の変形例）
また、上述した実施形態において、プロセッサ１１は、応答音声を、音声合成により生成する代わりに、事前に二次メモリ１３に記憶していてもよい。この場合、例えば、二次メモリ１３には、キーワードに関連付けて応答音声が記憶される。プロセッサ１１は、入力音声データに対する音声認識結果に含まれるキーワードを特定し、当該キーワードに関連付けられた応答音声を出力する。

〔まとめ〕
態様１に係る制御装置は、ロボットを制御する制御装置であって、１または複数のプロセッサを含む。前記１または複数のプロセッサは、検出処理と、第１制御処理と、算出処理と、第２制御処理とを実行する。検出処理は、第１の話者の発話を検出する処理である。第１制御処理は、前記ロボットの視線を前記第１の話者が存在する方向に制御する処理である。算出処理は、前記ロボットとの対話に対する前記第１の話者の関心の度合いを示す関心度を、直近の所定期間における前記第１の話者の状態に基づき算出する処理である。第２制御処理は、前記第１の話者とは異なる第２の話者の発話を検出した場合、前記関心度が低いことを判定するための判定条件が満たされれば、前記ロボットの視線を前記第２の話者の方向に制御する処理である。

上記構成により、直近の所定期間における第１の話者の状態に基づいて関心度を算出するので、第１の話者の関心が高いか否かを精度よく判定できる。その結果、第１の話者の対話に対する関心が実際には薄れていないにも関わらず関心度が薄れたと判定することが低減される。これにより、ロボット１０の視線が第１の話者から外れることが少なくなり、視線のちらつきが抑制される。

態様２に係る制御装置は、態様１に係る制御装置の特徴に加えて、以下の特徴を有している。すなわち、態様２に係る制御装置において、前記１または複数のプロセッサは、前記第１制御処理を第１周期で実行し、前記算出処理を前記第１周期より長い第２周期で実行する。

上記構成により、算出処理において高い関心度（関心度が低いことを判定する判定条件を満たさない関心度）が算出された場合、少なくとも第２周期の間は、第１の話者の状態および第２の話者の発話の有無に関わらず、ロボットの視線は第１の話者に追従する。このため、視線のちらつきがさらに抑制される。

態様３に係る制御装置は、態様１または態様２に係る制御装置の特徴に加えて、以下の特徴を有している。すなわち、態様３に係る制御装置において、前記関心度は、直近の所定期間において前記第１の話者の視線が前記ロボットを向いている度合いである注視度を含む。

上記構成により、第１の話者が一時的にロボットに視線を向けていないときに第２の話者の発話があっても、ロボットの視線が第１の話者から外れることが少なくなる。

態様４に係る制御装置は、態様１から態様３の何れか一態様に係る制御装置の特徴に加えて、以下の特徴を有している。すなわち、態様４に係る制御装置において、前記関心度は、直近の所定期間において前記第１の話者が前記ロボットに近接している度合いである近接度を含む。

上記構成により、第１の話者が一時的にロボットから遠ざかっているときに第２の話者の発話があっても、ロボットの視線が第１の話者から外れることが少なくなる。

態様５に係る制御装置は、態様１から態様４の何れか一態様に係る制御装置の特徴に加えて、以下の特徴を有している。すなわち、態様５に係る制御装置において、前記関心度は、直近の所定期間において前記第１の話者が発話した度合いである発話度を含む。

上記構成により、第１の話者が一時的に発話していないときに第２の話者の発話があっても、ロボット１０の視線が第１の話者から外れることが少なくなる。

態様６に係る制御装置は、態様１から態様５の何れか一態様に係る制御装置の特徴に加えて、以下の特徴を有している。すなわち、態様６に係る制御装置において、前記１または複数のプロセッサは、傾聴モードと通常モードとのいずれかのモードで前記ロボットを制御する。前記傾聴モードは、前記検出処理、前記第１制御処理、前記算出処理、および前記第２制御処理を実行するモードである。前記通常モードは、複数の話者のうち発話した話者の方向に前記ロボットの視線を制御する処理を実行するモードである。

上記構成により、複数の話者と対話する通常モードではロボットの視線が特定の話者に固定されないので、ロボットの視線の動きがより自然なものとなる。

態様７に係る制御装置は、態様６に係る制御装置の特徴に加えて、以下の特徴を有している。すなわち、態様７に係る制御装置において、前記１または複数のプロセッサは、前記傾聴モードの前記第２制御処理において、前記ロボットの視線を前記第２の話者の方向に制御した場合に、通常モードに切り替える。

例えば第２の話者が新たに対話に参加する場合、第２の話者の発話を検出したときに第１の話者の関心度が低くなっている可能性が高い。上記構成により、第２の話者が新たに対話に参加したことに応じて、ロボットは、傾聴モードから通常モードに自動的に切り替わる。その結果、傾聴モードおよび通常モードの切り替えを話者が意識することなく、ロボットの視線の動きが、話者の数に応じた自然なものとなる。

態様８に係る制御装置は、態様６または態様７に係る制御装置の特徴に加えて、以下の特徴を有している。すなわち、態様８に係る制御装置において、前記１または複数のプロセッサは、前記通常モードにおいて、前記ロボットの周囲に存在する話者の数が１であることを検出した場合に、前記傾聴モードに切り替える。

上記構成により、話者の数が１人になったことに応じて、通常モードから傾聴モードに自動的に切り替わる。その結果、傾聴モードおよび通常モードの切り替えを話者が意識することなく、ロボットの視線の動きが、話者の数に応じた自然なものとなる。

態様９に係る制御装置は、態様６から態様８の何れか一態様に係る制御装置の特徴に加えて、以下の特徴を有している。すなわち、態様９に係る制御装置において、前記１または複数のプロセッサは、ユーザ操作に応じて前記傾聴モードおよび前記通常モードを切り替える。

上記構成により、話者は、傾聴モードおよび通常モードのうち所望のモードを選択することができる。

態様１０に係るロボットは、態様１から態様９の何れか一態様に係る制御装置を含む。

上記構成により、態様１に係る制御装置と同様の効果を奏するロボットを実現できる。

態様１０に係るプログラムは、態様１から態様９の何れか一態様に係る制御装置を動作させるためのプログラムであって、前記１または複数のプロセッサに前記各処理を実行させる。

上記構成により、態様１に係る制御装置と同様の効果を奏する。

態様１２に係る制御方法は、１または複数のプロセッサがロボットを制御する制御方法であり、検出ステップと、第１制御ステップと、算出ステップと、第２制御ステップとを含む。検出ステップにおいて、前記１または複数のプロセッサが、第１の話者の発話を検出する。第１制御ステップにおいて、前記１または複数のプロセッサが、前記ロボットの視線を前記第１の話者が存在する方向に制御する。算出ステップにおいて、前記１または複数のプロセッサが、前記ロボットとの対話に対する前記第１の話者の関心の度合いを示す関心度を、直近の所定期間における前記第１の話者の状態に基づき算出する。第２制御ステップにおいて、前記第１の話者とは異なる第２の話者の発話を検出した場合、前記関心度が低いことを示す判定条件が満たされれば、前記ロボットの視線を前記第２の話者の方向に制御する。

１０ロボット
１１０制御装置
１１プロセッサ
１２一次メモリ
１３二次メモリ
１４入出力インタフェース
１２０頭部
１３０胴部
１４０眼球部
１５０カメラ
１６０マイクアレイ
１６０－ｉマイク
１７０スピーカ
１８０頭部制御装置

Claims

ロボットを制御する制御装置であって、１または複数のプロセッサを含み、
前記１または複数のプロセッサは、
第１の話者の発話を検出する検出処理と、
前記ロボットの視線を前記第１の話者が存在する方向に制御する第１制御処理と、
前記ロボットとの対話に対する前記第１の話者の関心の度合いを示す関心度を、直近の所定期間における前記第１の話者の状態に基づき算出する算出処理と、
前記第１の話者とは異なる第２の話者の発話を検出した場合、前記関心度が低いことを判定するための判定条件が満たされれば、前記ロボットの視線を前記第２の話者の方向に制御する第２制御処理と、を実行する、
ことを特徴とする制御装置。
前記１または複数のプロセッサは、
前記第１制御処理を第１周期で実行し、
前記算出処理を前記第１周期より長い第２周期で実行する、
ことを特徴とする請求項１に記載の制御装置。
前記関心度は、直近の所定期間において前記第１の話者の視線が前記ロボットを向いている度合いである注視度を含む、
ことを特徴とする請求項１または２に記載の制御装置。
前記関心度は、直近の所定期間において前記第１の話者が前記ロボットに近接している度合いである近接度を含む、
ことを特徴とする請求項１から３の何れか１項に記載の制御装置。
前記関心度は、直近の所定期間において前記第１の話者が発話した度合いである発話度を含む、
ことを特徴とする請求項１から４の何れか１項に記載の制御装置。
前記１または複数のプロセッサは、
傾聴モードと通常モードとのいずれかのモードで前記ロボットを制御し、
前記傾聴モードは、前記検出処理、前記第１制御処理、前記算出処理、および前記第２制御処理を実行するモードであり、
前記通常モードは、複数の話者のうち発話した話者の方向に前記ロボットの視線を制御する処理を実行するモードである、
ことを特徴とする請求項１から５の何れか１項に記載の制御装置。
前記１または複数のプロセッサは、
前記第２制御処理において、前記ロボットの視線を前記第２の話者の方向に制御した場合に、前記傾聴モードから通常モードに切り替える、
ことを特徴とする請求項６に記載の制御装置。
前記１または複数のプロセッサは、
前記通常モードにおいて、前記ロボットの周囲に存在する話者の数が１であることを検出した場合に、前記傾聴モードに切り替える、
ことを特徴とする請求項６または７に記載の制御装置。
前記１または複数のプロセッサは、
ユーザ操作に応じて前記傾聴モードおよび前記通常モードを切り替える、
ことを特徴とする請求項６から８の何れか１項に記載の制御装置。
請求項１から９の何れか１項に記載の制御装置を含むロボット。
請求項１から９の何れか１項に記載の制御装置を動作させるためのプログラムであって、前記１または複数のプロセッサに前記各処理を実行させるプログラム。
１または複数のプロセッサがロボットを制御する制御方法であって、
前記１または複数のプロセッサが、第１の話者の発話を検出する検出ステップと、
前記１または複数のプロセッサが、前記ロボットの視線を前記第１の話者が存在する方向に制御する第１制御ステップと、
前記１または複数のプロセッサが、前記ロボットとの対話に対する前記第１の話者の関心の度合いを示す関心度を、直近の所定期間における前記第１の話者の状態に基づき算出する算出ステップと、
前記第１の話者とは異なる第２の話者の発話を検出した場合、前記関心度が低いことを示す判定条件が満たされれば、前記ロボットの視線を前記第２の話者の方向に制御する第２制御ステップと、を含む、
ことを特徴とする制御方法。