JP7452363B2 - 制御装置、制御方法、およびプログラム - Google Patents
制御装置、制御方法、およびプログラム Download PDFInfo
- Publication number
- JP7452363B2 JP7452363B2 JP2020165801A JP2020165801A JP7452363B2 JP 7452363 B2 JP7452363 B2 JP 7452363B2 JP 2020165801 A JP2020165801 A JP 2020165801A JP 2020165801 A JP2020165801 A JP 2020165801A JP 7452363 B2 JP7452363 B2 JP 7452363B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- robot
- degree
- sight
- control device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 107
- 230000008569 process Effects 0.000 claims description 74
- 238000001514 detection method Methods 0.000 claims description 19
- 230000003993 interaction Effects 0.000 claims description 10
- 230000015654 memory Effects 0.000 description 51
- 210000003128 head Anatomy 0.000 description 38
- 230000004044 response Effects 0.000 description 14
- 210000005252 bulbus oculi Anatomy 0.000 description 12
- 210000001508 eye Anatomy 0.000 description 12
- 238000010586 diagram Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 241001469893 Oxyzygonectes dovii Species 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000003292 diminished effect Effects 0.000 description 2
- 210000000887 face Anatomy 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000007667 floating Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Landscapes
- Manipulator (AREA)
- User Interface Of Digital Computer (AREA)
Description
以下、本発明の一実施形態に係るロボット10について、詳細に説明する。
ロボット10は、話者の発話を検出すると、当該話者が存在する方向に視線を向けて話者との対話を行うロボットである。ロボット10は、傾聴モードおよび通常モードの何れかで動作する。
傾聴モードは、ロボット10が特定の話者との対話を行うモードである。特定の話者を、以降、第1の話者と記載する。傾聴モードでは、ロボット10は、第1の話者の発話を検出し、第1の話者の方向に視線を向ける。また、ロボット10は、第1の話者の対話に対する関心度を算出する。関心度は、直近の所定期間における第1の話者の状態に基づいて算出される。ロボット10は、第1の話者とは異なる第2の話者の発話を検出した場合、判定条件が満たされれば、視線を第2の話者の方向に制御する。判定条件は、第1の話者の関心度が低いことを判定するための条件である。ロボット10は、当該判定条件が満たされなければ、視線を第1の話者の方向に維持する。
一例として、判定条件は、関心度に含まれる注視度、近接度、および発話度の全てが閾値未満であるとの条件である。以降、判定条件が満たされることを、単に「関心度が閾値未満である」とも記載する。また、この場合、関心度に含まれる注視度、近接度、および発話度の何れかが閾値以上であると、判定条件が満たされない。以降、判定条件が満たされないことを、単に「関心度が閾値以上である」とも記載する。
通常モードは、ロボット10が複数の話者との対話を行うか、または、話者の出現を待機するモードである。通常モードでは、ロボット10は、複数の話者のうち発話した話者の方向に視線を向ける。通常モードでは、ロボット10は、対話中の話者の関心度を算出しない。
ロボット10の構成について、図1および図2を参照して説明する。図1は、ロボット10の構成を示すブロック図である。図2は、ロボット10の外観の一例を示す図である。図1に示すように、ロボット10は、制御装置110と、頭部120と、胴部130と、眼球部140と、カメラ150と、マイクアレイ160と、スピーカ170と、頭部制御装置180とを含む。
二次メモリ13に格納されるデータの詳細について説明する。
プログラムP1は、後述する制御方法S1、S2をプロセッサ11に実行させるためのプログラムである。プロセッサ11は、二次メモリ13に格納されているプログラムP1を一次メモリ12上に展開する。そして、プロセッサ11は、一次メモリ12上に展開されたプログラムP1に含まれる命令に従って、制御方法S1、S2に含まれる各ステップを実行する。
入力データ群D1は、入力画像データと、入力音声データとを含む。入力画像データは、カメラ150から入力された画像データである。入力画像データは、カメラ150から所定間隔で制御装置110に入力され、入力時刻と関連付けられて二次メモリ13に格納される。また、入力音声データは、マイクアレイ160を構成する各マイク160-iから入力された音声信号を示す。入力音声データは、マイク160-iの識別子と関連付けられて二次メモリ13に格納される。
関心度データ群D2は、関心度を示すデータ群であり、注視度と、近接度と、発話度とを含む。注視度、近接度、および発話度は、それぞれ、ロボット10との対話に対する第1の話者の関心の度合いを示す。注視度、近接度、および発話度は、傾聴モードにおいて、直近の所定期間における第1の話者の状態に基づいて、周期的に算出される。二次メモリ13には、少なくとも最新の注視度、近接度、および発話度が格納される。
以上のように構成されたロボット10を制御する制御方法について、図3を参照して説明する。プロセッサ11は、ロボット10を、通常モードおよび傾聴モードの何れかのモードで制御する。プロセッサ11は、通常モードおよび傾聴モード間を自動で切り替える。図3は、通常モードおよび傾聴モード間の自動切り替えを説明する図である。以下、「ロボット10が通常モード(または傾聴モード)で制御される」ことを、「ロボット10が通常モード(または傾聴モード)で動作する」とも記載する。また、「通常モード(または傾聴モード)で制御されるロボット10」を、「通常モード(または傾聴モード)のロボット10」とも記載する。傾聴モードのロボット10は、第1の状態または第2の状態である。
図3に示すように、ロボット10は、起動時には通常モードで動作する。通常モードにおいて、プロセッサ11は、制御方法S1を実行する。制御方法S1の詳細については後述する。通常モードにおいて、ロボット10の周囲の話者が1人になると、ロボット10は、通常モードから傾聴モードに移行し、第1の状態となる。
傾聴モードは、第1の話者との対話を行うモードである。傾聴モードにおいて、プロセッサ11は、制御方法S2を実行する。制御方法S2の詳細については後述する。傾聴モードでは、第1の話者の対話に対する関心の度合いである関心度データ群D2が周期的に算出される。
傾聴モードにおける第1の状態は、第1の話者の関心度が閾値未満の状態である。本実施形態では、「関心度が閾値未満の状態」とは、関心度データ群D2に含まれる注視度、近接度、および発話度の全てが閾値未満の状態である。第1の状態において、第1の話者とは異なる第2の話者が検出されると、ロボット10は、傾聴モードから通常モードに移行する。また、周囲の話者が0人になると、ロボット10は、傾聴モードから通常モードに移行する。また、関心度が閾値以上になると、ロボット10は、第1の状態から第2の状態に遷移する。
傾聴モードにおける第2の状態は、第1の話者の関心度が閾値以上の状態である。本実施形態では、「関心度が閾値以上の状態」は、関心度データ群D2に含まれる注視度、近接度、および発話度の少なくとも何れかが閾値以上の状態である。第2の状態において、第1の話者とは異なる第2の話者が検出された場合、第2の状態が維持される。また、周囲の話者が0人になった場合も、第2の状態が維持される。また、関心度が閾値未満になると、ロボット10は、第2の状態から第1の状態に遷移する。
次に、通常モードにおいてプロセッサ11が実行する制御方法S1について、図4を参照して説明する。図4は、制御方法S1の流れを示すフローチャートである。制御方法S1は、ステップS111~S114を含む。
ステップS111において、プロセッサ11は、周囲に存在する話者の数を検出し、1人であるか否かを判断する。
例えば、プロセッサ11は、最新の入力画像データに基づいて話者の数を検出する。具体的には、プロセッサ11は、当該入力画像データにおいて人の顔として認識した顔領域の個数を、話者の数として検出する。
ステップS112において、プロセッサ11は、話者の発話を検出したか否かを判断する。
例えば、プロセッサ11は、マイク160-iからの各入力音声データの到来時刻の差に基づいて、音声到来方向を特定する。また、例えば、プロセッサ11は、入力画像データにおいて顔領域を検出することにより、人が存在する方向を特定する。音声到来方向および人が存在する方向は、いずれも、ロボット10から見た方向である。そして、プロセッサ11は、音声到来方向と人の顔が存在する方向とが一致する場合、話者の発話を検出したと判断する。
ステップS114において、プロセッサ11は、ロボット10の視線を、発話した話者が存在する方向に制御する。これにより、発話した話者は、ロボット10と視線が合っていると感じる。発話した話者が存在する方向は、発話の検出処理において一致すると判断した、音声到来方向および人の顔が存在する方向である。
例えば、プロセッサ11は、右目画像140-1および左目画像140-2における黒目領域R2の位置を制御することにより、発話した話者の方向に視線dを制御する。また、例えば、プロセッサ11は、頭部制御装置180を用いて頭部120を回転させることにより、発話した話者の方向に視線dを制御する。また、例えば、プロセッサ11は、黒目領域R2の位置の制御および頭部120の回転の制御を組み合わせて、発話した話者の方向に視線dを制御してもよい。
ステップS114において、プロセッサ11は、発話した話者との対話を制御する。例えば、プロセッサ11は、発話内容に応答する応答音声を出力する。
例えば、プロセッサ11は、マイクアレイ160からの入力音声データに対して音声認識処理を行い、音声認識結果を参照して応答テキストを生成する。また、プロセッサ11は、応答テキストから音声合成により応答音声を生成し、応答音声をスピーカ170から出力する。
その後、プロセッサ11は、ステップS111からS114までの処理を繰り返す。なお、次のステップS112において発話を検出した話者(次の話者)が、前回のステップS112において発話を検出した話者(前回の話者)と同一であるか否かに応じて、ロボット10の視線の動きは、次のように異なる。
次の話者が前回の話者と同一である場合、プロセッサ11が続いてステップS113を実行することにより、ロボット10の視線は、当該話者に追従する。つまり、複数の話者のうち1人が継続して発話する場合、ロボット10の視線は、当該話者に追従する。
次の話者が前回の話者と異なる場合、プロセッサ11が続いてステップS113を実行することにより、ロボット10の視線は、前回の話者から次の話者に遷移する。つまり、発話する話者が変わる度に、ロボット10の視線は複数の話者間を遷移する。
次に、傾聴モードにおいてプロセッサ11が実行する制御方法S2について、図5を参照して説明する。図5は、制御方法S2の流れを示すフローチャートである。制御方法S2は、ステップS211~S220を含む。
ステップS211において、プロセッサ11は、第1の話者を特定する。ここで、当ステップの処理は、通常モードにおいて話者が1人であると判断された場合(ステップS111でYes)に実行される。そこで、プロセッサ11は、ステップS111で1人であるとして検出した話者を、第1の話者として特定する。また、プロセッサ11は、第1の話者の特徴情報を、一次メモリ12に記憶する。例えば、プロセッサ11は、入力画像データにおける第1の話者の顔領域から特徴情報を抽出し、抽出した特徴情報を一次メモリ12に記憶してもよい。
ステップS212において、プロセッサ11は、視線の制御処理を第1周期で実行する。視線の制御処理は、本発明における第1制御処理の一例である。これにより、傾聴モードが終了するまでの間、ロボット10の視線は、第1周期で第1の話者の方向に制御される。視線の制御処理の詳細については後述する。
ステップS213において、プロセッサ11は、関心度の算出処理を第2周期で実行する。これにより、傾聴モードが終了するまでの間、第1の話者の関心度データ群D2が第2周期で更新される。関心度の算出処理の詳細については後述する。
ステップS214において、プロセッサ11は、第1の話者の発話を検出したか否かを判断する。当ステップの処理は、本発明における検出処理の一例を含む。当ステップでYesと判断した場合、プロセッサ11は、次のステップS215の処理を実行する。当ステップでNoと判断した場合、プロセッサ11は、後述するステップS216の処理を実行する。
例えば、プロセッサ11は、マイク160-iからの各入力音声データの到来時刻の差に基づいて、音声到来方向を特定する。また、例えば、プロセッサ11は、入力画像データにおいて顔領域を検出することにより、人が存在する方向を特定する。そして、プロセッサ11は、音声到来方向と人が存在する方向とが一致しており、かつ、一致する方向に存在する人の顔領域の特徴情報が、一次メモリ12に記憶した第1の話者の特徴情報と一致するか否かを判断する。
ステップS215において、プロセッサ11は、第1の話者との対話を制御する。対話の制御処理の具体例については、通常モードにおいて説明した通りである。そして、プロセッサ11は、ステップS214からの処理を繰り返す。これにより、ロボット10は、発話した第1の話者の方向に視線を向けながら対話を継続する。
ステップS216において、プロセッサ11は、第1の話者とは異なる第2の話者の発話を検出したか否かを判断する。当ステップでYesと判断した場合、プロセッサ11は、次のステップS217の処理を実行する。当ステップでNoと判断した場合、プロセッサ11は、後述するステップS219の処理を実行する。
例えば、プロセッサ11は、ステップS214において、当該顔領域の特徴情報が第1の話者の特徴情報に一致しないと判断していた場合に、当ステップで第2の話者の発話を検出したと判断する。また、プロセッサ11は、直近の入力音声データに所定レベル以上の音声が含まれない場合にも、第2の話者の発話を検出していないと判断する。
ステップS217において、プロセッサ11は、第1の話者の関心度が閾値以上であるか否かを判断する。
ステップS218において、プロセッサ11は、ロボット10の視線を第2の話者の方向に制御する。当ステップの処理は、本発明における第2制御処理の一例である。そして、プロセッサ11は、通常モードにおける制御方法S1を実行する。つまり、プロセッサ11は、ロボットの視線を第2の話者の方向に制御した場合に、傾聴モードから通常モードに切り替える。これにより、第1の話者の関心度が低い状態では、第2の話者の発話があれば、ロボット10の視線が第2の話者に遷移し、以降、ロボット10の視線が特定の話者に固定されなくなる。その結果、ロボット10の視線の動きがより自然になる。
ステップS219において、プロセッサ11は、周囲に存在する話者の数を検出し、検出人数が0であるか否かを判断する。人数の検出処理の具体例については、通常モードで説明した通りである。
ステップS220において、プロセッサ11は、第1の話者の関心度が閾値以上であるか否かを判断する。当ステップの処理の具体例は、ステップS217と同様である。
次に、ステップS212における視線の制御処理(第1制御処理)の詳細な流れについて、図6を参照して説明する。図6に示す視線の制御処理は、ステップS311~S314を含む。
ステップS311において、プロセッサ11は、第1の話者の方向を特定する。例えば、プロセッサ11は、入力画像データにおいて、一次メモリ12に記憶した第1の話者の特徴情報に合致する顔領域を検出し、検出した領域に基づいて、ロボット10から見た第1の話者の方向を特定する。なお、当該ステップにおいて第1の話者の方向を特定する手法は、上述した手法に限られない。
ステップS312において、プロセッサ11は、ロボット10の視線を、第1の話者の方向に制御する。
ステップS313において、プロセッサ11は、傾聴モードが終了したか否かを判断する。当ステップでYesと判断した場合、プロセッサ11は、S212における視線の制御処理を終了する。当ステップでNoと判断した場合、プロセッサ11は、次のステップS314の処理を実行する。
ステップS314において、プロセッサ11は、前回の周期で視線の制御処理を実行してから第1周期が経過したか否かを判断する。第1周期の一例として、例えば、1秒が挙げられるが、これに限られない。第1周期は、後述する第2周期より短い。
次に、ステップS213における関心度の算出処理の詳細な流れについて、図7を参照して説明する。図7に示す算出処理は、ステップS411~S416を含む。
ステップS411において、プロセッサ11は、二次メモリ13から、直近の所定期間における入力データ群D1(入力画像データおよび入力音声データ)を取得する。例えば、所定期間が10秒間であり、カメラ150から画像データが入力される間隔が1秒であれば、プロセッサ11は、二次メモリ13から、過去10秒間における10枚の入力画像データを取得する。また、例えば、所定期間が10秒間であるとすると、二次メモリ13に記憶された入力音声データのうち、現在までの直近10秒間の部分的な音声データを取得する。
ステップS412において、プロセッサ11は、ステップS411で取得した入力データ群D1を参照して、第1の話者の注視度を算出する。プロセッサ11は、算出した注視度を二次メモリ13に記憶する。これにより、二次メモリ13に記憶された注視度は、最新の値に更新される。
ここで、注視度は、直近の所定期間において第1の話者の視線がロボット10を向いている度合いである。例えば、プロセッサ11は、ステップS411で取得した各入力画像データについて、第1の話者の視線がロボット10を向いているか否かを判定する。プロセッサ11は、当該判定を、例えば、入力画像データにおける第1の話者の顔領域が正面を向いた顔であるか否かにより行ってもよい。また、プロセッサ11は、各入力画像データの判定結果に基づいて、所定期間において第1の話者の視線がロボット10に向いている時間の割合を、注視度として算出する。
ステップS413において、プロセッサ11は、ステップS411で取得した入力データ群D1を参照して、第1の話者の近接度を算出する。プロセッサ11は、算出した近接度を二次メモリ13に記憶する。これにより、二次メモリ13に記憶された近接度は、最新の値に更新される。
ここで、近接度は、直近の所定期間において第1の話者がロボット10に近接している度合いである。例えば、プロセッサ11は、ステップS411で取得した各入力画像データについて、第1の話者とロボット10との距離を検出する。例えば、プロセッサ11は、入力画像データにおける第1の話者の顔領域の大きさに応じて、距離を検出してもよい。また、検出する距離は、「50センチ」、「1メートル」等といった絶対的な長さであってもよいし、「遠い」、「近い」といった相対的な長さを段階的に表したものであってもよい。検出する距離が絶対的な長さである場合、プロセッサ11は、各入力画像データの判定結果に基づいて、所定期間において第1の話者とロボット10との距離が閾値以下である時間の割合を、近接度として算出する。また、検出する距離が相対的な長さである場合、プロセッサ11は、各入力画像データの判定結果に基づいて、所定期間において第1の話者とロボット10との距離が所定の段階(例えば、「近い」)である時間の割合を、近接度として算出する。
ステップS414において、プロセッサ11は、ステップS411で取得した入力データ群D1を参照して、第1の話者の発話度を算出する。プロセッサ11は、算出した発話度を二次メモリ13に記憶する。これにより、二次メモリ13に記憶された発話度は、最新の値に更新される。
ここで、発話度は、直近の所定期間において第1の話者が発話した度合いである。例えば、プロセッサ11は、ステップS411で取得した所定期間の音声データのうち、所定レベル以上の音声を示す時間の割合を、発話度として算出する。
ステップS415において、プロセッサ11は、傾聴モードが終了したか否かを判断する。当ステップでYesと判断した場合、プロセッサ11は、ステップS213における関心度の算出処理を終了する。当ステップでNoと判断した場合、プロセッサ11は、次のステップS416の処理を実行する。
ステップS416において、プロセッサ11は、前回の周期で関心度の算出処理を実行してから第2周期が経過したか否かを判断する。第2周期の一例として、例えば、10秒が挙げられるが、これに限られない。ただし、第2周期は、前述した第1周期より長い。
以上説明したように、本実施形態は、傾聴モードにおいて、第1の話者の関心度を、直近の所定期間における第1の話者の状態に基づいて算出するので、第1の話者の関心が高いか否かを精度よく判定できる。これは、第1の話者が、関心が薄れた場合と似たような状態に一時的になったとしても、所定期間全体でみれば関心が高い状態であれば、算出される関心度は低下しにくくなるからである。その結果、本実施形態は、第1の話者の対話に対する関心が実際には薄れていないにも関わらず、関心が薄れたと判定することを低減する。これにより、ロボット10の視線が第1の話者から外れることが少なくなり、視線のちらつきが抑制される。視線のちらつきが抑制される具体例について次に説明する。
視線のちらつきが抑制される具体例として、例えば、第1の話者が傾聴モードのロボット10との対話中に、第2の話者が第1の話者に話しかける場合について説明する。このような場合、第1の話者は、視線を第2の話者の方に向ける可能性が高い。このため、第1の話者の視線は、一時的にロボット10の方に向いていない状態となる。しかしながら、第1の話者は、第2の話者が話しかけるまではロボット10と対話していたため、直近の所定期間においては、第1の話者がロボット10に視線を向けていた時間の割合(すなわち注視度)が閾値以上となる。したがって、このような場合に、第1の話者が第2の話者の話しかけに応じただけでは、ロボット10の視線がすぐに第2の話者の方向に向くことが無く、ロボット10の視線は第1の話者の方向に向いたままとなる。
視線のちらつきが抑制される他の具体例として、例えば、第1の話者が、傾聴モードのロボット10との対話しながら、一時的にカメラ150の撮像範囲外に移動する場合について説明する。例えば、第1の話者が、ロボット10との対話中に、テーブルの下にある物を拾うためにかがむことがある。この場合、テーブルの上に配置されたロボット10のカメラ150は、第1の話者の顔を撮像できない。このため、ロボット10は、周囲の話者が0人であると判断する。しかしながら、第1の話者は、物を拾う前まではロボット10と対話していたため、直近の所定期間においては、第1の話者がロボット10に視線を向けていた時間の割合(すなわち、注視度)が閾値以上である。したがって、このような場合に、第1の話者が物を拾うだけではロボット10がすぐに通常モードに移行することが無く、傾聴モードが維持される。
(モード切替の変形例)
上述した実施形態では、プロセッサ11は、傾聴モードおよび通常モードを自動で切り替える。ただし、プロセッサ11は、ユーザの操作に応じて、傾聴モードおよび通常モードを切り替えてもよい。換言すると、ロボット10のモードは、手動で切り替え可能であってもよい。
また、上述した実施形態では、第1の話者の関心度が低いことを判定するための判定条件は、注視度、近接度、および発話度の全てが閾値未満であるとの条件であった。ただし、判定条件は、これに限られない。例えば、判定条件は、注視度、近接度、および発話度の少なくとも何れかが閾値未満であるとの条件であってもよい。また、判定条件は、注視度、近接度、および発話度から算出される統合値(加重和、平均値、最大値、または最小値等)が閾値未満であるとの条件であってもよい。また、判定条件は、注視度、近接度、発話度、および上述した統合値の一部または全部の低下率が閾値以上であるとの条件であってもよい。この場合、二次メモリ13は、最新の関心度データ群D2に加えて、過去に算出した関心度データ群D2を格納しておく。また、プロセッサ11は、関心度データ群D2の履歴を用いて当該低下率を算出する。
また、上述した実施形態では、関心度データ群D2は、注視度、近接度、および発話度の一部または全部を必ずしも含んでいなくてもよい。また、関心度データ群D2は、注視度、近接度、および発話度以外の他の尺度を含んでもよい。他の尺度は、第1の話者の対話に対する関心の度合いを示すものであればよい。
また、上述した実施形態は、カメラ150からの入力画像データおよびマイクアレイ160からの入力音声データを参照して、関心度データ群D2を算出した。これに限らず、プロセッサ11は、カメラ150およびマイクアレイ160以外のセンサからの入力データを参照して関心度データ群D2を算出してもよい。例えば、そのようなセンサの一例として、距離センサが挙げられる。この場合、ロボット10は、近接度を算出するための距離センサを含む。距離センサは、関心度を算出するための所定期間より短い間隔で、第1の話者までの距離を測定し、測定データを制御装置110に入力する。プロセッサ11は、直近の所定期間に入力された複数の距離データを参照して、第1の話者の近接度を算出する。
また、上述した実施形態では、眼球部140は、ディスプレイによって構成される代わりに、眼球を模した2つの球体によって構成されてもよい。この場合、各球体は、表面に黒目領域を有する。また、ロボット10は、2つの球体をそれぞれ連動して回転させる回転機構、および回転機構を制御する回転制御装置を有する。プロセッサ11は、回転制御装置を用いて2つの球体を連動して回転させることにより、視線dを変化させる。
また、上述した実施形態において、頭部120は、ディスプレイによって構成されてもよい。この場合、頭部120は、胴部130に対して回転可能に連結されていなくてもよい。当該変形例では、頭部120の機械的な回転を制御する頭部制御装置180の構成は省略可能である。ロボット10の頭の回転は、頭部120が表示する頭部画像の変化によって表現され、プロセッサ11によって制御される。具体的には、頭部120は、制御装置110から出力される頭部画像を表示する。頭部画像は、右目画像140-1および左目画像140-2を含む。つまり、この場合、頭部120は、眼球部140を含んでいる。例えば、頭部画像における右目画像140-1および左目画像140-2の位置の変化は、ロボット10の頭の回転を表す。プロセッサ11は、頭部画像において、右目画像140-1および左目画像140-2の位置、および、各黒目領域R2の位置の一方または両方を変化させることにより、視線dの方向を制御する。
また、上述した実施形態において、プロセッサ11は、応答音声を、音声合成により生成する代わりに、事前に二次メモリ13に記憶していてもよい。この場合、例えば、二次メモリ13には、キーワードに関連付けて応答音声が記憶される。プロセッサ11は、入力音声データに対する音声認識結果に含まれるキーワードを特定し、当該キーワードに関連付けられた応答音声を出力する。
態様1に係る制御装置は、ロボットを制御する制御装置であって、1または複数のプロセッサを含む。前記1または複数のプロセッサは、検出処理と、第1制御処理と、算出処理と、第2制御処理とを実行する。検出処理は、第1の話者の発話を検出する処理である。第1制御処理は、前記ロボットの視線を前記第1の話者が存在する方向に制御する処理である。算出処理は、前記ロボットとの対話に対する前記第1の話者の関心の度合いを示す関心度を、直近の所定期間における前記第1の話者の状態に基づき算出する処理である。第2制御処理は、前記第1の話者とは異なる第2の話者の発話を検出した場合、前記関心度が低いことを判定するための判定条件が満たされれば、前記ロボットの視線を前記第2の話者の方向に制御する処理である。
110 制御装置
11 プロセッサ
12 一次メモリ
13 二次メモリ
14 入出力インタフェース
120 頭部
130 胴部
140 眼球部
150 カメラ
160 マイクアレイ
160-i マイク
170 スピーカ
180 頭部制御装置
Claims (12)
- ロボットを制御する制御装置であって、1または複数のプロセッサを含み、
前記1または複数のプロセッサは、
第1の話者の発話を検出する検出処理と、
前記ロボットの視線を前記第1の話者が存在する方向に制御する第1制御処理と、
前記ロボットとの対話に対する前記第1の話者の関心の度合いを示す関心度を、直近の所定期間における前記第1の話者の状態に基づき算出する算出処理と、
前記第1の話者とは異なる第2の話者の発話を検出した場合、前記関心度が低いことを判定するための判定条件が満たされれば、前記ロボットの視線を前記第2の話者の方向に制御する第2制御処理と、を実行する、
ことを特徴とする制御装置。 - 前記1または複数のプロセッサは、
前記第1制御処理を第1周期で実行し、
前記算出処理を前記第1周期より長い第2周期で実行する、
ことを特徴とする請求項1に記載の制御装置。 - 前記関心度は、直近の所定期間において前記第1の話者の視線が前記ロボットを向いている度合いである注視度を含む、
ことを特徴とする請求項1または2に記載の制御装置。 - 前記関心度は、直近の所定期間において前記第1の話者が前記ロボットに近接している度合いである近接度を含む、
ことを特徴とする請求項1から3の何れか1項に記載の制御装置。 - 前記関心度は、直近の所定期間において前記第1の話者が発話した度合いである発話度を含む、
ことを特徴とする請求項1から4の何れか1項に記載の制御装置。 - 前記1または複数のプロセッサは、
傾聴モードと通常モードとのいずれかのモードで前記ロボットを制御し、
前記傾聴モードは、前記検出処理、前記第1制御処理、前記算出処理、および前記第2制御処理を実行するモードであり、
前記通常モードは、複数の話者のうち発話した話者の方向に前記ロボットの視線を制御する処理を実行するモードである、
ことを特徴とする請求項1から5の何れか1項に記載の制御装置。 - 前記1または複数のプロセッサは、
前記第2制御処理において、前記ロボットの視線を前記第2の話者の方向に制御した場合に、前記傾聴モードから通常モードに切り替える、
ことを特徴とする請求項6に記載の制御装置。 - 前記1または複数のプロセッサは、
前記通常モードにおいて、前記ロボットの周囲に存在する話者の数が1であることを検出した場合に、前記傾聴モードに切り替える、
ことを特徴とする請求項6または7に記載の制御装置。 - 前記1または複数のプロセッサは、
ユーザ操作に応じて前記傾聴モードおよび前記通常モードを切り替える、
ことを特徴とする請求項6から8の何れか1項に記載の制御装置。 - 請求項1から9の何れか1項に記載の制御装置を含むロボット。
- 請求項1から9の何れか1項に記載の制御装置を動作させるためのプログラムであって、前記1または複数のプロセッサに前記各処理を実行させるプログラム。
- 1または複数のプロセッサがロボットを制御する制御方法であって、
前記1または複数のプロセッサが、第1の話者の発話を検出する検出ステップと、
前記1または複数のプロセッサが、前記ロボットの視線を前記第1の話者が存在する方向に制御する第1制御ステップと、
前記1または複数のプロセッサが、前記ロボットとの対話に対する前記第1の話者の関心の度合いを示す関心度を、直近の所定期間における前記第1の話者の状態に基づき算出する算出ステップと、
前記第1の話者とは異なる第2の話者の発話を検出した場合、前記関心度が低いことを示す判定条件が満たされれば、前記ロボットの視線を前記第2の話者の方向に制御する第2制御ステップと、を含む、
ことを特徴とする制御方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020165801A JP7452363B2 (ja) | 2020-09-30 | 2020-09-30 | 制御装置、制御方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020165801A JP7452363B2 (ja) | 2020-09-30 | 2020-09-30 | 制御装置、制御方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022057507A JP2022057507A (ja) | 2022-04-11 |
JP7452363B2 true JP7452363B2 (ja) | 2024-03-19 |
Family
ID=81110627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020165801A Active JP7452363B2 (ja) | 2020-09-30 | 2020-09-30 | 制御装置、制御方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7452363B2 (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014030865A (ja) | 2012-08-01 | 2014-02-20 | Fujitsu Ltd | 視線制御装置、視線制御方法及び視線制御プログラム並びに端末装置 |
-
2020
- 2020-09-30 JP JP2020165801A patent/JP7452363B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014030865A (ja) | 2012-08-01 | 2014-02-20 | Fujitsu Ltd | 視線制御装置、視線制御方法及び視線制御プログラム並びに端末装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2022057507A (ja) | 2022-04-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6848881B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
WO2016190060A1 (ja) | 情報処理装置および情報処理方法、並びにプログラム | |
JP5456832B2 (ja) | 入力された発話の関連性を判定するための装置および方法 | |
JP5982840B2 (ja) | 対話装置、対話プログラムおよび対話方法 | |
US9423870B2 (en) | Input determination method | |
JP2022539794A (ja) | マルチモーダルユーザインターフェース | |
CN110774285A (zh) | 人形机器人和执行人形机器人与用户之间的对话的方法 | |
EP3373301A1 (en) | Apparatus, robot, method and recording medium having program recorded thereon | |
JP2008509455A (ja) | ユーザとシステムとの間の通信方法及びシステム | |
JP7020159B2 (ja) | コミュニケーション装置およびその制御プログラム | |
WO2022033236A1 (zh) | 音频增强方法、装置、存储介质及可穿戴设备 | |
JP2018185362A (ja) | ロボットおよびその制御方法 | |
WO2019171780A1 (ja) | 個人識別装置および特徴収集装置 | |
JPWO2016151956A1 (ja) | 情報処理システムおよび情報処理方法 | |
US11682389B2 (en) | Voice conversation system, control system for voice conversation system, and control program, and control method | |
JP7452363B2 (ja) | 制御装置、制御方法、およびプログラム | |
EP3520970A2 (en) | Communication robot and control program therefor | |
JPWO2018135304A1 (ja) | 情報処理装置、および情報処理方法、並びにプログラム | |
JP7435641B2 (ja) | 制御装置、ロボット、制御方法およびプログラム | |
JP7075168B2 (ja) | 装置、方法、プログラム、及びロボット | |
JP2018055232A (ja) | コンテンツ提供装置、コンテンツ提供方法、及びプログラム | |
JP7252313B2 (ja) | ヘッドマウント情報処理装置 | |
US20240212681A1 (en) | Voice recognition device having barge-in function and method thereof | |
US20240119684A1 (en) | Display control apparatus, display control method, and program | |
CN116631453A (zh) | 对话系统以及对话单元 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230208 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231220 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240219 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7452363 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |