JP2022147989A

JP2022147989A - 発話制御装置、発話制御方法及び発話制御プログラム

Info

Publication number: JP2022147989A
Application number: JP2021049491A
Authority: JP
Inventors: 祐太星; Yuta Hoshi; 真利奈上村; Marina Uemura; 勇太萩尾; Yuta Hagio; 豊金子; Yutaka Kaneko; 正男山本; Masao Yamamoto
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2022-10-06

Abstract

【課題】ロボットが複数のユーザの中から発話する対象者及びタイミングを決定できる発話制御装置を提供すること。【解決手段】発話制御装置１は、画像からユーザを検出するユーザ検出部１１と、画像からテレビを検出するテレビ検出部１３と、ユーザ及びテレビの位置情報を方向情報に変換する方向情報変換部１４と、テレビの方向からの音声入力を減衰させたうえで、音源定位によりユーザごとの方向に分類された音声情報を取得する音声解析部１５と、時系列の複数の画像フレームに基づいて、ユーザの行動を学習モデルにより取得する行動推定部１６と、ユーザごとに分類された音声情報に基づいて発話頻度を算出し、当該発話頻度が閾値以下のユーザを、ロボットが発話する対象ユーザとして決定する発話判定部１７と、ユーザの行動ごとに予め定義された傾聴係数の値に応じて、所定の発話動作をロボットに実行させる発話実行部１８と、を備える。【選択図】図２

Description

本発明は、ロボットの発話動作を制御するための装置、方法及びプログラムに関する。

従来、家庭内でユーザと一緒にテレビ番組などの映像コンテンツを視聴するロボットがユーザの行動を妨げることなく、発話するためのタイミングを制御する手法が考案されている。
例えば、特許文献１では、ユーザの言動及び感情の少なくともいずれかを示す情報を用いて、発話決定テーブルに基づいて発話するか否かを決定する手法が提案されている。
また、特許文献２では、話かけ対象者の行動及び状態の推定結果から、対象者が話かけを許容する状態か否かを判定する手法が提案されている。

特開２０１８－１４０４７７号公報国際公開第２０１９／１８７２５６号

しかしながら、従来の手法では、ロボットが話しかける対象者は固定されており、複数人でコンテンツを視聴している場合に、話しかける対象者を決定して発話のタイミングを制御することはできなかった。

本発明は、人と一緒にテレビを視聴するロボットが、複数のユーザの中から発話する対象者及びタイミングを決定できる発話制御装置、発話制御方法及び発話制御プログラムを提供することを目的とする。

本発明に係る発話制御装置は、ロボットの周囲を撮像した画像からユーザを検出するユーザ検出部と、前記画像からテレビを検出するテレビ検出部と、前記ユーザ及び前記テレビの位置情報を方向情報に変換する方向情報変換部と、前記ロボットの周囲から収音した音声のうち、前記テレビの方向からの音声入力を減衰させたうえで、音源定位により前記ユーザごとの方向に分類された音声情報を取得する音声解析部と、前記ユーザそれぞれの方向を撮像した時系列の複数の画像フレームに基づいて、当該ユーザの行動を学習モデルにより取得する行動推定部と、前記ユーザごとに分類された音声情報に基づいて発話頻度を算出し、当該発話頻度が閾値以下のユーザを、前記ロボットが発話する対象ユーザとして決定する発話判定部と、前記ユーザの行動ごとに予め定義された傾聴係数の値に応じて、所定の発話動作を前記ロボットに実行させる発話実行部と、を備える。

前記発話制御装置は、複数の前記画像から、特徴点を重ねることでパノラマ画像を生成するパノラマ画像生成部を備え、前記方向情報変換部は、前記パノラマ画像における座標を方向情報に変換してもよい。

前記音声解析部は、前記音源定位により得られた方向で前記ユーザの方向を補正してもよい。

前記発話実行部は、前記発話動作の初期動作として、発話の前に所定時間の発光を行ってもよい。

前記発話実行部は、前記発話動作の初期動作として、発話の前に通知音の出力を行ってもよい。

前記発話実行部は、前記初期動作の後、前記対象ユーザからの音声入力があった場合にのみ発話を行ってもよい。

本発明に係る発話制御方法は、ロボットの周囲を撮像した画像からユーザを検出するユーザ検出ステップと、前記画像からテレビを検出するテレビ検出ステップと、前記ユーザ及び前記テレビの位置情報を方向情報に変換する方向情報変換ステップと、前記ロボットの周囲から収音した音声のうち、前記テレビの方向からの音声入力を減衰させたうえで、音源定位により前記ユーザごとの方向に分類された音声情報を取得する音声解析ステップと、前記ユーザそれぞれの方向を撮像した時系列の複数の画像フレームに基づいて、当該ユーザの行動を学習モデルにより取得する行動推定ステップと、前記ユーザごとに分類された音声情報に基づいて発話頻度を算出し、当該発話頻度が閾値以下のユーザを、前記ロボットが発話する対象ユーザとして決定する発話判定ステップと、前記ユーザの行動ごとに予め定義された傾聴係数の値に応じて、所定の発話動作を前記ロボットに実行させる発話実行ステップと、をコンピュータが実行する。

本発明に係る発話制御プログラムは、前記発話制御装置としてコンピュータを機能させるためのものである。

本発明によれば、人と一緒にテレビを視聴するロボットが、複数のユーザの中から発話する対象者を決定できる。

実施形態における発話制御装置を搭載したロボットの利用シーンを示す図である。実施形態における発話制御装置の機能構成を示す図である。実施形態における発話制御処理の流れを示すフローチャートである。実施形態におけるユーザ検出処理の詳細を示すフローチャートである。実施形態におけるパノラマ画像生成処理の詳細を説明する図である。実施形態におけるテレビ検出処理の詳細を示すフローチャートである。実施形態における方向情報変換処理の詳細を示すフローチャートである。実施形態における座標情報と方向情報との関係を例示する図である。実施形態における音声解析処理の詳細を示すフローチャートである。実施形態における行動推定処理の詳細を示すフローチャートである。実施形態における発話判定処理の詳細を示すフローチャートである。実施形態におけるユーザ情報テーブルを例示する図である。実施形態におけるロボット動作テーブルを例示する図である。実施形態における発話実行処理の詳細を示すフローチャートである。実施形態における発話文データベースを例示する図である。

以下、本発明の実施形態の一例について説明する。
本実施形態の発話制御装置は、ユーザと一緒にテレビ番組などの映像コンテンツを視聴するロボットに搭載され、特にユーザが複数いるときに、ユーザそれぞれの行動を推定し、発話するタイミングと対象者を決定する。これにより、ロボットは、ユーザの視聴行動を妨げることなく、ユーザ同士の会話のきっかけとなる発話を行う。

図１は、本実施形態における発話制御装置１を搭載したロボットの利用シーンを示す図である。
テレビ番組などの映像コンテンツをユーザ（例えば、Ｕ１及びＵ２）が視聴する状況において、ユーザと一緒に映像コンテンツを視聴するロボットＲがテーブルなどに設けられる。

発話制御装置１の後述の処理により、例えば、ユーザらが視聴するコンテンツの内容を契機に会話を楽しんでいるときに、ロボットＲは、自ら発話して会話を妨げることを避けることができる。また、ユーザの行動に応じてロボットＲの発話動作を変更し、ユーザの反応を確認しながら発話するか否かを決定することで、発話制御装置１は、ロボットＲの発話動作がユーザに飽きられることを防ぐ。
さらに、例えば、一方のユーザがコンテンツの視聴への興味が薄れてしまい、スマートフォンなどの電子機器を操作している状況では、ロボットＲがこのようなユーザを選定して、話し相手になることができる。

図２は、本実施形態における発話制御装置１の機能構成を示す図である。
発話制御装置１は、制御部１０と、撮像部２０と、音声入力部３０と、駆動部４０と、音声出力部５０と、記憶部６０と、時刻部７０と、点灯部８０とを備える。

制御部１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓＭｅｍｏｒｙ）を有するコンピュータであってよい。ＣＰＵがＲＯＭに記憶された動作プログラム（発話制御プログラム）を読み出してＲＡＭ上で実行することにより、制御部１０は、発話制御装置１全体の動作を制御する。

制御部１０は、撮像部２０で取得したロボット周囲の画像から、ユーザの方向とテレビの方向とを検出し、音声入力部３０から入力されるテレビの方向の音声を減衰させて、ユーザの音声のみを入力とする。その後、制御部１０は、会話中か、スマートフォンを操作中か、食事中かなど、ユーザ別に行動を推定し、ユーザの行動及び発話頻度から、ロボットが発話するか否か、及び発話する対象者を決定すると、発話動作を実行して音声出力部５０から音声を出力させる。
なお、制御部１０の詳細機能は後述する。

撮像部２０は、レンズ、及びＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）又はＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｌｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）などの撮像素子を備えるカメラであり、ロボットの周囲を撮像する。撮像部２０は、図２のように、複数のカメラがロボットの円周上に搭載されたカメラアレイにより構成される。
なお、撮像部２０は、１台のカメラが円周上を回転しつつ周囲を定期的に撮像するように構成されてもよい。この場合、撮像部２０（カメラ）の向きは、ロボットの筐体の向き（顔の向き）と合致するように制御されてよい。

音声入力部３０は、マイク、Ａ／Ｄ変換器などで構成され、ロボットの周囲の音声を集音する。音声入力部３０は、集音した音声を増幅し、Ａ／Ｄ変換、符号化などを施したデジタル信号データを制御部１０へ出力する。
音声入力部３０は、図１のように、ロボットの側面に設置され、複数のマイクがロボットの円周上に搭載されたマイクアレイにより構成される。

駆動部４０は、音声出力部５０を搭載した架台又は筐体などに取り付けられたモータであり、音声出力部５０のスピーカをユーザに向けてロボットの音声を出力させる。駆動部４０は、回転角度により制御されてよいが、モータを取り付ける軸に対して、回転角度を抵抗値として取得するポテンショメータを取り付け、この抵抗値を制御値として利用してもよい。

音声出力部５０は、スピーカ、Ｄ／Ａ変換器などで構成され、制御部１０から転送された音声データに対して復号化、Ｄ／Ａ変換、増幅などを施したアナログ音声信号を、例えば図１のように、ロボットの顔などに配置されたスピーカから出力する。

記憶部６０は、制御部１０が必要なデータを記憶する記憶媒体であり、例えば、不揮発性のフラッシュメモリ、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、又はハードディスクなどであってよい。記憶部６０には、後述の顔情報、音声情報、発話文データベースなどのユーザに関する情報が格納される。

時刻部７０は、ユーザを検出した時の時刻とユーザの音声を取得した時の時刻の照合、及び後述するユーザの行動を推定する際に、複数の画像フレームを取得するときの時間の計測を行う。

点灯部８０は、ロボットが発話するとき、又は発話のためにユーザの反応を確認するときに点灯する。点灯部８０は、ＬＥＤ（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）などの光源素子で構成され、例えば、図１のように、ロボットの全周が発光するように配置される。

制御部１０は、ユーザ検出部１１と、パノラマ画像生成部１２と、テレビ検出部１３と、方向情報変換部１４と、音声解析部１５と、行動推定部１６と、発話判定部１７と、発話実行部１８とを備える。

図３は、本実施形態における発話制御装置１の制御部１０による発話制御処理の流れを示すフローチャートである。
発話制御処理により、制御部１０は、ロボットの周囲のテレビ及びユーザの方向を把握し、発話対象とするユーザと、このユーザに対して実際に発話するか否かを決定する。

ステップＳ１０１において、制御部１０は、撮像部２０により撮像されたロボットの周囲の画像を取得する。

ステップＳ１０２において、制御部１０（ユーザ検出部１１）は、ロボットの周囲のユーザを検出する（ユーザ検出処理）。ユーザ検出処理の詳細は、後述する。

ステップＳ１０３において、制御部１０は、ステップＳ１０２においてユーザを検出したか否かを判定する。この判定がＹＥＳの場合、処理はステップＳ１０４に移り、判定がＮＯの場合、処理はステップＳ１０１に戻る。ユーザが検出されるまで、ステップＳ１０１～Ｓ１０２の処理が繰り返し実行される。

ステップＳ１０４において、制御部１０（パノラマ画像生成部１２）は、ロボットの周囲の画像からパノラマ画像を生成する（パノラマ画像生成処理）。パノラマ画像生成処理の詳細は、後述する。

ステップＳ１０５において、制御部１０は、ステップＳ１０４で生成されたパノラマ画像から、画像中のユーザの位置を示す画素情報を取得し、記憶部６０へ保存する。

ステップＳ１０６において、制御部１０（テレビ検出部１３）は、ロボットの周囲にあるテレビの位置を検出し、テレビの位置を示す画素情報を抽出して記憶部６０へ保存する（テレビ検出処理）。テレビ検出処理の詳細は、後述する。

ステップＳ１０７において、制御部１０（方向情報変換部１４）は、ユーザ及びテレビの位置を示す画素情報を、ロボットの周囲の方向情報に変換する（方向情報変換処理）。方向情報変換処理の詳細は、後述する。

ステップＳ１０８において、制御部１０は、音声入力部３０より音声情報を取得する。

ステップＳ１０９において、制御部１０（音声解析部１５）は、テレビの音声とユーザの音声とが同時に入力されることを防ぐために、テレビの音声入力を減衰させる。また、音声解析部１５は、複数のユーザが存在した場合、音源定位し、音声方向からユーザを識別する（音声解析処理）。音声解析処理の詳細は、後述する。

ステップＳ１１０において、制御部１０（行動推定部１６）は、識別されたユーザごとの行動を推定し、記憶部６０へ保存する（行動推定処理）。行動推定処理の詳細は、後述する。

ステップＳ１１１において、制御部１０（発話判定部１７）は、ユーザの発話頻度と推定された行動から、ロボットが発話する対象のユーザ（対象ユーザ）を決定する（発話判定処理）。発話判定処理の詳細は、後述する。

ステップＳ１１２において、制御部１０は、ユーザに発話することを決定したか否かを判定する。この判定がＹＥＳの場合、処理はステップＳ１１３に移り、判定がＮＯの場合、処理は終了する。

ステップＳ１１３において、制御部１０（発話実行部１８）は、対象ユーザに対して発話動作を行う（発話実行処理）。発話実行処理の詳細は、後述する。

図４は、本実施形態におけるユーザ検出処理（図３のステップＳ１０２）の詳細を示すフローチャートである。

ステップＳ２０１において、ユーザ検出部１１は、撮像部２０より取得した画像から顔検出処理を行う。顔検出には、例えば、オープンソースのライブラリであるＦａｓｔｅｒＲ－ＣＮＮを用いるが、これに限らず、ＯｐｅｎＣＶなど、各種の手法を適用できる。

ステップＳ２０２において、ユーザ検出部１１は、検出した顔の特徴量を抽出し、抽出した特徴量を記憶部６０へ保存する。
特徴量には、例えば、画像中の局所領域の明暗情報を扱うＨａａｒ－ｌｉｋｅ特徴量を用いるが、これに限らず、画像勾配の強度を方向別ヒストグラムで表現したＨＯＧ（ＨｉｓｔｏｇｒａｍｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔｓ）特徴量など、各種の特徴量を適用できる。

ステップＳ２０３において、ユーザ検出部１１は、ステップＳ２０１において複数の顔が検出されたか否かを判定する。この判定がＹＥＳの場合、処理はステップＳ２０４に移り、判定がＮＯの場合、処理は終了する。

ステップＳ２０４において、ユーザ検出部１１は、特徴量に基づいて、検出された複数のユーザを分類する。
例えば、時刻Ｔ１で顔１及び顔２の特徴量が抽出された場合、ユーザ検出部１１は、それぞれの特徴量に顔１：ユーザ１、顔２：ユーザ２のように互いに異なるユーザＩＤを割り振り、記憶部６０へ保存する。さらに、ユーザ検出部１１は、時刻Ｔ２で顔３の特徴量が抽出された場合、この顔３の特徴量を記憶部６０に保存されている顔１及び顔２の特徴量と比較し、例えば、顔２の特徴量との差が所定の基準よりも小さい場合、顔３をユーザ２と分類する。

図５は、本実施形態におけるパノラマ画像生成処理（図３のステップＳ１０４）の詳細を説明する図である。

パノラマ画像生成部１２は、カメラアレイ（撮像部２０）における方向１のカメラから画像１を取得し、方向２のカメラから画像２を取得した場合、画像１と画像２で特徴点が一致する部分を探索し、この一致する部分で画像１と画像２を重ねて合成する。パノラマ画像生成部１２は、この処理を、ロボットの周囲の画像に渡って行うことで、パノラマ画像を生成する。

特徴点の抽出には、例えば、画像上の局所特徴量を特徴ベクトルで表現するＳＵＲＦ（ＳｐｅｅｄｅｄＵｐＲｏｂｕｓｔＦｅａｔｕｒｅｓ）を用いてよいが、これに限らず、ＳＩＦＴ（ＳｃａｌｅＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍ）など、各種の手法を適用できる。

図６は、本実施形態におけるテレビ検出処理（図３のステップＳ１０６）の詳細を示すフローチャートである。

ステップＳ３０１において、テレビ検出部１３は、撮像部２０から取得した画像からテレビの位置を検出する。テレビの検出には、例えば、オープンソースのライブラリＦａｓｔｅｒＲ－ＣＮＮを用いる。

ステップＳ３０２において、テレビ検出部１３は、テレビが存在するか否か、すなわちステップＳ３０１でテレビが検出されたか否かを判定する。この判定がＹＥＳの場合、処理はステップＳ３０３に移り、判定がＮＯの場合、処理は終了する。

ステップＳ３０３において、テレビ検出部１３は、画像中のテレビが存在する中心位置の画素情報（パノラマ画像上の座標）を取得し、記憶部６０へ保存する。

図７は、本実施形態における方向情報変換処理（図３のステップＳ１０７）の詳細を示すフローチャートである。

ステップＳ４０１において、方向情報変換部１４は、ユーザ検出部１１により抽出されたユーザの位置の画素情報を取得する。

ステップＳ４０２において、方向情報変換部１４は、テレビ検出部１３により抽出されたテレビの位置の画素情報を取得する。

ステップＳ４０３において、方向情報変換部１４は、ユーザ及びテレビの画素情報をロボットの周囲の方向情報に変換する。

図８は、本実施形態における座標情報と方向情報との関係を例示する図である。
この例では、方向情報変換部１４は、ユーザＵ_１の画素情報（ｘ_１，ｙ_１）、ユーザＵ_２の画素情報（ｘ_２，ｙ_２）、テレビの画素情報（ｘ_ＴＶ，ｙ_ＴＶ）を取得している。
例えば、パノラマ画像のサイズが（１８００，３６０）、ユーザＵ_１の画素情報（５００，２００）、ｘが０の位置をロボットの正面の０度とした場合、角度分解能は１８００／３６０＝５（ｐｉｘｅｌ／度）となり、ユーザＵ_１の方向までの角度θ_１は、５００／５＝１００度と算出できる。同様に、ユーザＵ_２及びテレビの位置の画素情報も、それぞれ方向情報θ_２，θ_ＴＶに変換される。

なお、この例では、方向情報は、ロボットの周囲を０度から３６０度の角度として表現されているが、これに限らず、例えば、駆動部４０のポテンショメータから取得した抵抗値を方向情報として用いてもよい。
この場合、抵抗値と駆動部４０の回転角度とは、予め対応付けられ、方向情報変換部１４は、画像上の位置を角度へ、続いて、角度を抵抗値へ変換する。

図９は、本実施形態における音声解析処理（図３のステップＳ１０９）の詳細を示すフローチャートである。

ステップＳ５０１において、音声解析部１５は、ユーザの音声とテレビの音声とが同時に入力されるのを防ぐために、テレビの方向から入力される音声を減衰させる。

ステップＳ５０２において、音声解析部１５は、テレビ方向からの音声が減衰されたユーザの方向のみからの音声を取得する。

ステップＳ５０３において、音声解析部１５は、複数のユーザが検出されているか否かを判定する。この判定がＹＥＳの場合、処理はステップＳ５０４に移り、判定がＮＯの場合、処理は終了する。

ステップＳ５０４において、音声解析部１５は、ユーザ別の音声を取得するため音源定位を行う。音源定位の手法は、例えば、オープンソースソフトウェアであるＨＡＲＫ（https://www.hark.jp/document/2.4.0/hark-document-ja/index.html）、ＭＵＳＩＣ法（浅野太，音を分ける，計測と制御，2004，43巻，4号，pp. 325-330）などを利用できる。

ステップＳ５０５において、音声解析部１５は、音源定位した方向を、検出されている各ユーザに対応付ける。例えば、音源定位された方向と、画像から取得されたユーザの方向とが所定以内にあれば、ユーザと音声とが対応付けられる。これにより、ユーザ別の音声が取得される。

図１０は、本実施形態における行動推定処理（図３のステップＳ１１０）の詳細を示すフローチャートである。

ステップＳ６０１において、行動推定部１６は、ユーザ別に、ユーザ方向の複数の画像フレームを取得する。

ステップＳ６０２において、行動推定部１６は、ユーザ別に行動を推定し、例えば、ユーザ１が「会話中」、ユーザ２が「スマートフォン操作」、ユーザ３が「食事中」といった結果を取得する。

ここで、行動の推定には、行動にラベル付けした大規模な動画データセットで学習した学習モデルを用いる。例えば、学習用のデータセットには、Ｋｉｎｅｔｉｃｓ又はＡｃｔｉｖｉｔｙＮｅｔなどを利用できる。
ユーザの行動は、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋ：ＣＮＮ）を用いて推定される。ただし、推定手法はこれに限られない。

ステップＳ６０３において、行動推定部１６は、推定した結果を、ユーザ行動としてユーザ別に記憶部６０に保存する。

図１１は、本実施形態における発話判定処理（図３のステップＳ１１１）の詳細を示すフローチャートである。

ステップＳ７０１において、発話判定部１７は、ユーザ方向それぞれからの音声の入力回数を計測する。音声入力の回数は、取得した音声レベルが所定の閾値を越えたときに入力があったとして計測される。このとき、複数のユーザがいた場合、発話判定部１７は、ユーザ別に音声の入力回数を計測する。

ステップＳ７０２において、発話判定部１７は、音声の入力回数をユーザの発話回数として、記憶部６０に保存する。

ステップＳ７０３において、発話判定部１７は、所定の時間内のユーザの発話頻度を算出する。
なお、発話頻度は、１分以内の発話回数、５分以内の発話回数、１０分以内の発話回数などと、適宜時間を設定でき、設定した時間に応じて、発話回数の所定の閾値が設定される。

ステップＳ７０４において、発話判定部１７は、ユーザの発話頻度が所定の閾値以下であるか否かを判定する。この判定がＹＥＳの場合、処理はステップＳ７０５に移り、判定がＮＯの場合、処理は終了する。

ステップＳ７０５において、発話判定部１７は、発話頻度が低くユーザが会話をしている可能性が低いと判定し、ロボットが発話する対象ユーザとして選定する。
つまり、発話判定部１７は、発話頻度が閾値を超えていれば、ユーザが会話をしている可能性が高いと判定し、ロボットが発話する対象者を選定しない。

例えば、ユーザ１の１分以内の発話頻度が５、閾値が２０の場合、発話頻度が閾値以下となるため、発話判定部１７は、ユーザ１を発話する対象ユーザとする。また、複数のユーザがおり、ユーザ１の１分以内の発話頻度３０、ユーザ２の１分以内の発話頻度が５、閾値が２０の場合、発話判定部１７は、ユーザ２を発話する対象ユーザとする。
なお、発話頻度が低いユーザが複数存在する場合、発話判定部１７は、例えば、この中で最も発話頻度が低いユーザ、あるいは、ランダムに選択したユーザを対象ユーザとして決定してよい。

発話実行部１８は、発話判定部１７により選定された発話する対象ユーザに対して、記憶部６０に格納されたロボット動作テーブルに基づいて、ユーザの行動に応じた発話動作を実行する。
ここで、推定されるユーザの行動には、それぞれ、ロボットの発話への傾聴しやすさの度合いを示す傾聴係数ｆｕが予め設定されており、この値に応じてロボットの動作が規定される。

図１２は、本実施形態におけるユーザ情報テーブルを例示する図である。
ユーザ情報テーブルには、検出されたユーザごとに、パノラマ画像上での画像位置（座標）、方向（角度）、発話頻度、推定されたユーザ行動、及び行動に対応する傾聴係数ｆｕが格納されている。

図１３は、本実施形態におけるロボット動作テーブルを例示する図である。
例えば、ユーザが会話中（ｆｕ＝０．１）のときは、発話実行部１８は、初期動作としてＬＥＤを点灯させ、ユーザの反応があった場合に発話させる。また、ユーザがテレビ視聴中（ｆｕ＝０．５）のときは、発話実行部１８は、初期動作として通知音「あの～」とともにＬＥＤを点灯させ、ユーザの反応があった場合に発話させる。ユーザがスマートフォンなどの電子機器を操作しているとき（ｆｕ＝０．９）は、発話実行部１８は、事前のＬＥＤ点灯などの動作をさせずに発話させる。

このように、発話実行部１８は、ユーザの行動に対して予め設定された傾聴係数ｆｕに応じて、ロボットの動作を変化させて発話させる。また、発話実行部１８は、ユーザの反応がなくロボットに興味がなかったときは発話させないなど、発話し続けてユーザに飽きられることを避けるような動作を実行する。

図１４は、本実施形態における発話実行処理（図３のステップＳ１１３）の詳細を示すフローチャートである。

ステップＳ８０１において、発話実行部１８は、対象ユーザの行動に基づく傾聴係数ｆｕを記憶部６０から取得する。傾聴係数ｆｕは、行動ごとに予め設定されており、ここでは、例えば、０から１．０までの値が０．１刻みで設定されているものとする。

ステップＳ８０２において、発話実行部１８は、傾聴係数ｆｕが大きい（例えば、０．７～１．０）か否かを判定する。この判定がＹＥＳの場合、処理はステップＳ８０３に移り、判定がＮＯの場合、処理はステップＳ８０４に移る。

ステップＳ８０３において、発話実行部１８は、ロボット動作テーブルに規定された動作３、すなわち発話を実行し、処理は終了する。発話の内容は、例えば、発話文データベースに登録されている「ケーキを食べたいな」といった開示文や「京都の鴨川に行ったことある？」といった質問文がランダムに選択されてよい。

ステップＳ８０４において、発話実行部１８は、傾聴係数ｆｕが中程度（例えば、０．３～０．６）か否かを判定する。この判定がＹＥＳの場合、処理はステップＳ８０５に移り、判定がＮＯの場合、処理はステップＳ８０７に移る。

ステップＳ８０５において、発話実行部１８は、ロボット動作テーブルに規定された動作２、すなわち通知音の出力及びＬＥＤ点灯を実行する。
通知音の内容は、例えば、発話文データベースに登録されている「あの～」や「そういえば」などの言葉であってよい。また、ＬＥＤ点灯は、５秒間に５回だけ点滅する、１０秒間に渡り点灯し続けるなど、ユーザに認知されやすいように適宜設定されてよい。

ステップＳ８０６において、発話実行部１８は、動作２に対してユーザの反応があったか否かを判定する。例えば、一定時間内にユーザから音声入力がない場合に反応なしと判定されてよい。この判定がＹＥＳの場合、処理はステップＳ８０３に移り、判定がＮＯの場合、処理はステップＳ８０７に移る。

ステップＳ８０７において、発話実行部１８は、傾聴係数ｆｕが小さい（例えば、０～０．２）か否かを判定する。この判定がＹＥＳの場合、処理はステップＳ８０８に移り、判定がＮＯの場合、処理は終了する。

ステップＳ８０８において、発話実行部１８は、ロボット動作テーブルに規定された動作１、すなわちＬＥＤ点灯を実行する。なお、点灯動作は、ステップＳ８０５と同様であってよい。

ステップＳ８０９において、発話実行部１８は、動作１に対してユーザの反応があったか否かを判定する。判定方法は、ステップＳ８０６と同様である。この判定がＹＥＳの場合、処理はステップＳ８０３に移り、判定がＮＯの場合、処理は終了する。

図１５は、本実施形態における発話文データベースを例示する図である。
発話文データベースには、例えば、ロボット動作テーブルの動作２で出力される通知音と、発話文の候補として開示文及び質問文とが登録されている。

この例では、通知音には、「あの～」や「そういえば」といった発話する前にユーザの注意をひく言葉が登録されているが、これに限らず、例えば、「ピコーン」や「プルルル」など発話を知らせるロボット独自の音声でもよい。

開示文は、ロボット自身の気持ちや感情を表出する言葉で、「食べたい」や「行きたい」などの単語を含んで構成された文章が登録されている。
質問文は、特定の場所に行ったことがあるか、食べ物を食べたことがあるかなどの質問文が登録されている。
なお、これらの発話文に使用される食べ物、場所などの単語は、視聴中のコンテンツの内容、例えば字幕情報又は画像情報などに応じて動的に更新されてもよい。

本実施形態によれば、発話制御装置１は、検出したユーザのうち、発話頻度が低いユーザを対象として、行動に対応する傾聴係数に応じた発話動作をロボットに実行させる。
したがって、発話制御装置１を搭載し、ユーザと一緒にテレビを視聴するロボットは、ユーザ同士の会話を妨げることなく、複数のユーザの中から話し掛ける対象を決定することができ、かつ、ユーザの反応から話し掛けるか否かのタイミングを柔軟に決定することができる。

発話制御装置１は、複数の画像の特徴点を抽出し、重ね合わせることでパノラマ画像を生成し、このパノラマ画像上の座標に基づいて、ユーザの位置する方向を容易に把握することができる。

発話制御装置１は、収音した音声の音源定位により、音声の入力された方向、すなわちユーザの位置する方向を特定して、ユーザ情報を適切に補正できる。

発話制御装置１は、発話動作の初期動作として、短時間の発光又は通知音の出力を行うことにより、対象ユーザの注意を引いたうえで、ロボットに適時に発話させることができる。
さらに、発話制御装置１は、これらの初期動作に対してユーザからの応答があった場合にのみロボットに発話させることで、ユーザが望まない無用なタイミングでの発話を抑制することができる。

以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、前述の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載されたものに限定されるものではない。

本実施形態では、主に発話制御装置１の構成と動作について説明したが、本発明はこれに限られず、各構成要素を備え、ロボットに発話させるための方法、又はプログラムとして構成されてもよい。

さらに、発話制御装置１の機能を実現するためのプログラムをコンピュータで読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。

ここでいう「コンピュータシステム」とは、ＯＳや周辺機器などのハードウェアを含むものとする。また、「コンピュータで読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭなどの可搬媒体、コンピュータシステムに内蔵されるハードディスクなどの記憶装置のことをいう。

さらに「コンピュータで読み取り可能な記録媒体」とは、インターネットなどのネットワークや電話回線などの通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでもよい。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

１発話制御装置
１０制御部
１１ユーザ検出部
１２パノラマ画像生成部
１３テレビ検出部
１４方向情報変換部
１５音声解析部
１６行動推定部
１７発話判定部
１８発話実行部
２０撮像部
３０音声入力部
４０駆動部
５０音声出力部
６０記憶部
７０時刻部
８０点灯部

Claims

ロボットの周囲を撮像した画像からユーザを検出するユーザ検出部と、
前記画像からテレビを検出するテレビ検出部と、
前記ユーザ及び前記テレビの位置情報を方向情報に変換する方向情報変換部と、
前記ロボットの周囲から収音した音声のうち、前記テレビの方向からの音声入力を減衰させたうえで、音源定位により前記ユーザごとの方向に分類された音声情報を取得する音声解析部と、
前記ユーザそれぞれの方向を撮像した時系列の複数の画像フレームに基づいて、当該ユーザの行動を学習モデルにより取得する行動推定部と、
前記ユーザごとに分類された音声情報に基づいて発話頻度を算出し、当該発話頻度が閾値以下のユーザを、前記ロボットが発話する対象ユーザとして決定する発話判定部と、
前記ユーザの行動ごとに予め定義された傾聴係数の値に応じて、所定の発話動作を前記ロボットに実行させる発話実行部と、を備える発話制御装置。
複数の前記画像から、特徴点を重ねることでパノラマ画像を生成するパノラマ画像生成部を備え、
前記方向情報変換部は、前記パノラマ画像における座標を方向情報に変換する請求項１に記載の発話制御装置。
前記音声解析部は、前記音源定位により得られた方向で前記ユーザの方向を補正する請求項１又は請求項２に記載の発話制御装置。
前記発話実行部は、前記発話動作の初期動作として、発話の前に所定時間の発光を行う請求項１から請求項３のいずれかに記載の発話制御装置。
前記発話実行部は、前記発話動作の初期動作として、発話の前に通知音の出力を行う請求項１から請求項４のいずれかに記載の発話制御装置。
前記発話実行部は、前記初期動作の後、前記対象ユーザからの音声入力があった場合にのみ発話を行う請求項４又は請求項５に記載の発話制御装置。
ロボットの周囲を撮像した画像からユーザを検出するユーザ検出ステップと、
前記画像からテレビを検出するテレビ検出ステップと、
前記ユーザ及び前記テレビの位置情報を方向情報に変換する方向情報変換ステップと、
前記ロボットの周囲から収音した音声のうち、前記テレビの方向からの音声入力を減衰させたうえで、音源定位により前記ユーザごとの方向に分類された音声情報を取得する音声解析ステップと、
前記ユーザそれぞれの方向を撮像した時系列の複数の画像フレームに基づいて、当該ユーザの行動を学習モデルにより取得する行動推定ステップと、
前記ユーザごとに分類された音声情報に基づいて発話頻度を算出し、当該発話頻度が閾値以下のユーザを、前記ロボットが発話する対象ユーザとして決定する発話判定ステップと、
前記ユーザの行動ごとに予め定義された傾聴係数の値に応じて、所定の発話動作を前記ロボットに実行させる発話実行ステップと、をコンピュータが実行する発話制御方法。
請求項１から請求項６のいずれかに記載の発話制御装置としてコンピュータを機能させるための発話制御プログラム。