JP2019113696A - 発話タイミング判定装置、ロボット、発話タイミング判定方法及びプログラム - Google Patents
発話タイミング判定装置、ロボット、発話タイミング判定方法及びプログラム Download PDFInfo
- Publication number
- JP2019113696A JP2019113696A JP2017246949A JP2017246949A JP2019113696A JP 2019113696 A JP2019113696 A JP 2019113696A JP 2017246949 A JP2017246949 A JP 2017246949A JP 2017246949 A JP2017246949 A JP 2017246949A JP 2019113696 A JP2019113696 A JP 2019113696A
- Authority
- JP
- Japan
- Prior art keywords
- information
- speech
- timing determination
- user
- predetermined object
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Toys (AREA)
Abstract
【課題】円滑な会話の契機を提供することができる発話タイミング判定装置、ロボット、発話タイミング判定方法及びプログラムを提供する。【解決手段】ロボット100は、ユーザ情報取得部113と、発話タイミング判定部116とを備える。ユーザ情報取得部113は、所定の対象の情報を取得する。発話タイミング判定部116は、ユーザ情報取得部113が取得した所定の対象の情報に基づいて、所定の対象に話しかける発話タイミングであるか否かを判定する。【選択図】図2
Description
本発明は、発話タイミング判定装置、ロボット、発話タイミング判定方法及びプログラムに関する。
人とコミュニケーションするロボット等の機器の開発が進められている。例えば、特許文献1は、人から発せられた音声を認識し、会話の最中に相槌をするタイミングを判定し、判定結果に応じて相槌音を出力する技術を開示している。
人とロボット等の機器との円滑な会話を実現するためには、人に不快感等を与えることなく会話を開始する契機を提供することが必要であるが、特許文献1においては考慮されていない。
本発明は、前述のような事情に鑑みてなされたものであり、円滑な会話の契機を提供することができる発話タイミング判定装置、ロボット、発話タイミング判定方法及びプログラムを提供することを目的とする。
前記目的を達成するため、本発明に係る発話タイミング判定装置の一様態は、
所定の対象の情報を取得する取得手段と、
前記所定の対象の情報に基づいて前記所定の対象に話しかける発話タイミングであるか否かを判定する発話タイミング判定手段と、
を備える、
ことを特徴とする。
所定の対象の情報を取得する取得手段と、
前記所定の対象の情報に基づいて前記所定の対象に話しかける発話タイミングであるか否かを判定する発話タイミング判定手段と、
を備える、
ことを特徴とする。
前記目的を達成するため、本発明に係るロボットの一様態は、
前記に記載の前記発話タイミング判定装置と、
前記発話タイミング判定装置の前記発話タイミング判定手段により、前記所定の対象に話しかける前記発話タイミングであると判定されたときに、前記所定の対象に音声を出力する音声出力装置と、
を備える、
ことを特徴とする。
前記に記載の前記発話タイミング判定装置と、
前記発話タイミング判定装置の前記発話タイミング判定手段により、前記所定の対象に話しかける前記発話タイミングであると判定されたときに、前記所定の対象に音声を出力する音声出力装置と、
を備える、
ことを特徴とする。
また、前記目的を達成するため、本発明に係る発話タイミング判定方法の一様態は、
所定の対象の情報を取得する取得ステップと、
前記所定の対象の情報に基づいて前記所定の対象に話しかける発話タイミングであるか否かを判定する発話タイミング判定ステップと、
を含む、
ことを特徴とする。
所定の対象の情報を取得する取得ステップと、
前記所定の対象の情報に基づいて前記所定の対象に話しかける発話タイミングであるか否かを判定する発話タイミング判定ステップと、
を含む、
ことを特徴とする。
また、前記目的を達成するため、本発明に係るプログラムの一様態は、
発話タイミング判定装置のコンピュータを、
所定の対象の情報を取得する取得手段、
前記所定の対象の情報に基づいて前記所定の対象に話しかける発話タイミングであるか否かを判定する発話タイミング判定手段、
として機能させる、
ことを特徴とする。
発話タイミング判定装置のコンピュータを、
所定の対象の情報を取得する取得手段、
前記所定の対象の情報に基づいて前記所定の対象に話しかける発話タイミングであるか否かを判定する発話タイミング判定手段、
として機能させる、
ことを特徴とする。
本発明によれば、円滑な会話の契機を提供することができる発話タイミング判定装置、ロボット、発話タイミング判定方法及びプログラムを提供することが可能となる。
以下、本発明の実施の形態について図面を参照しながら詳細に説明する。以下の実施の形態では、発話タイミング判定装置を備えるロボットを例にして説明する。
実施の形態に係るロボット100は、所定の対象の状態に応じて適切な発話タイミングで話しかけるロボットである。ここで、所定の対象とは、ロボット100を利用するユーザであり、典型的には、ロボット100の所有者や所有者の家族又は友人等である。また、所定の対象には、人以外に、例えばペットとして飼われている動物も含まれる。また、以下の説明において、ユーザに対して会話の契機となる話しかけをするタイミングを「発話タイミング」と称する。また、発話タイミングにおいてロボット100がユーザに話しかける行為を「発話する」、「話しかける」等と称することがある。
ロボット100は、図1に示すように、外観的には人を模した立体的な形状を有するロボットである。また、ロボット100の外装は、合成樹脂を主たる材料として形成されている。ロボット100は、胴体部101と、胴体部101の上部に接続する頭部102と、胴体部101の左右のそれぞれに接続する手部103と、胴体部101から下部に接続する2本の足部104と、を有する。また、頭部102は、左右一対の目部105、鼻部106、口部107を有する。なお、図1の上側、下側、左側、右側を、各々、ロボット100の上側、下側、右側、左側とする。
ロボット100は、図2に示すように、制御部110、記憶部120、撮像部130、音声入力部140、音声出力部150、距離検出部160を備える。各部は、バスラインBLを介して相互に電気的に接続されている。
制御部110は、ロボット100全体の動作を制御する。制御部110は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)を有するコンピュータにより構成される。制御部110は、CPUがROMに記憶された動作プログラムを読み出してRAM上で実行することにより、ロボット100の各部の動作を制御する。
制御部110は、動作プログラムを実行することにより、例えば、撮像部130から取得した各種データに基づいて、ロボット100を動作させるための制御信号を生成して各部に送信することにより、ロボット100の動作を制御する。制御部110は、動作プログラムの実行にあたり生成した情報をRAMに一時的に記憶する。RAMには、例えば、音声入力部140を介して取得した音声情報が有効であるか否かを示す有効音声フラグ、音声情報が示す音声がユーザの音声であるか否かを示すユーザ音声フラグ、所定時間内においてユーザが会話した回数を示す会話カウンタ、ユーザの姿勢状態の区分を示すユーザ姿勢情報、ユーザの行動状態の区分を示すユーザ行動情報等を記憶する。
制御部110は、機能的には、ユーザ検知部111、ユーザ特定部112、ユーザ情報取得部113、画像解析部114、音声解析部115、発話タイミング判定部116、感情推定部117、発話タイミング評価部118、計時部119を有する。
ユーザ検知部111は、ロボット100の周囲(例えば、半径2m以内)に存在するユーザを検知する。ユーザ検知部111は、例えば、後述する撮像部130を制御して、ロボット100の周囲を撮像し、物体の動きや頭、顔等の検出に応じてユーザの存在を検知する。
ユーザ特定部112は、ユーザ検知部111が検知したユーザを特定する。ユーザ特定部112は、例えば、撮像部130による撮像画像からユーザの顔を検出してその特徴量を抽出し、後述する記憶部120のユーザ情報データベースに登録された、顔の特徴量を示す顔情報と照合して類似度を算出し、所定の基準を満たすか否かに応じてユーザを特定する。特徴量は、ユーザを識別可能な情報であればよく、例えば、目、鼻、口の形状、大きさ、配置等の外観的特徴を数値で示した情報である。以下の説明では、ロボット100の周囲に存在し、ユーザ検知部111により検知され、ユーザ特定部112により特定されたユーザを対象ユーザと称する。
ユーザ情報取得部113は、対象ユーザの状態を示すユーザ情報を取得する。本実施の形態において、ユーザ情報取得部113は、ユーザ情報として、撮像部130、音声入力部140、距離検出部160を介して、画像情報、音声情報、距離情報を取得する。このように、ユーザ情報取得部113は、本発明の取得手段として機能する。
画像解析部114は、ユーザ情報取得部113が取得した画像情報が示す撮像画像を解析し、対象ユーザの現在の状態を判定する。画像解析部114は、例えば、画像情報が示す撮像画像における対象ユーザの顔の位置、距離情報が示す対象ユーザとの距離等を参酌して、対象ユーザの姿勢状態を、立っている状態(立位)、座っている状態(座位)、横たわっている状態(臥位)のいずれか、対象ユーザの行動状態を、行動している状態(行動中)、静止している状態(静止中)のいずれかに判定する。このように、画像解析部114は、本発明の状態判定手段として機能する。
音声解析部115は、音声認識機能を有し、ユーザ情報取得部113が取得した音声情報が示す音声を解析し、対象ユーザの現在の状態を判定する。音声解析部115は、例えば、対象ユーザから発せられた音声(ユーザ音声)とそれ以外の環境音とを識別する。また、音声解析部115は、音声情報が示す音声の内容を文字列に変換し、ユーザ情報データベースに登録された登録音声を参照して音声情報が示す音声が対象ユーザのものであるか否かを判定する。このように、音声解析部115は、本発明の状態判定手段として機能する。
発話タイミング判定部116は、画像解析部114及び音声解析部115によって判定された対象ユーザの姿勢状態、行動状態、会話状態等に基づいて、発話タイミングを判定する。
感情推定部117は、画像情報、音声情報に基づいて、対象ユーザの表情、向き、発言を推定することにより、ロボット100の発話に対する対象ユーザの感情を推定する。このように、感情推定部117は、本発明の感情推定手段として機能する。本実施の形態において、感情推定部117は、対象ユーザの感情をポジティブ(肯定的感情)とネガティブ(否定的感情)との2パターンに推定するが、例えば、喜、怒、哀、楽等の多数パターンに推定してもよい。
発話タイミング評価部118は、感情推定部117が推定した対象ユーザの感情推定結果に基づき、ロボット100の発話タイミングを評価する。発話タイミング評価部118は、本発明の発話タイミング評価手段として機能する。
計時部119は、例えばCPUに付設されたRTC(Real Time Clock)が計測する現在時刻情報に基づいて、各種の時間を計測する。計時部119は、例えば、ロボット100の周囲に存在するユーザを特定した時点からの経過時間、所定時間内におけるユーザの会話の累積時間(会話累積時間)を計測する。
なお、ユーザ検知部111、ユーザ特定部112、ユーザ情報取得部113、画像解析部114、音声解析部115、発話タイミング判定部116、感情推定部117、発話タイミング評価部118、計時部119は、単一のコンピュータで各機能を実現してもよいし、各々別個のコンピュータによって各機能を実現してもよい。
記憶部120は、記憶内容が書き換え可能な不揮発性の半導体メモリ、ハードディスクドライブ等を備え、制御部110がロボット100の各部を制御するために必要な各種データを記憶する。記憶部120は、顔情報、音声情報等の各ユーザに関する情報が格納されたユーザ情報データベースを有する。
ユーザ情報データベースは、例えば、図3に示す発話タイミング判定テーブルを記憶する。この発話タイミング判定テーブルは、発話タイミング判定部116が発話タイミングを判定する際等に参照するテーブルである。発話タイミング判定テーブルは、ユーザを識別するために予め付与された「ユーザID」毎に、発話タイミング判定部116が発話タイミングを判定した回数を示す「判定回数」と評価ポイントとが対応付けられている。評価ポイントは、ユーザの姿勢状態、行動状態、環境音の各区分において発話が実行された際の対象ユーザの感情毎に示されている。なお、図3に示す発話タイミング判定テーブルにおいて、感情推定部117が推定する対象ユーザの感情の区分である、ポジティブ(肯定的感情)を「P」、ネガティブ(否定的感情)を「N」と記している。また、行動状態の区分である、行動中を「行動」、静止中を「静止」と記している。
撮像部130は、レンズ、CCD(Charge Coupled Device)イメージセンサやCMOS(Complementary Metal Oxide Semiconductor)イメージセンサ等の撮像素子を備えるカメラで構成され、ロボット100の周囲を撮像する。撮像部130は、例えば鼻部106に設置され、頭部102の前方を撮像し、デジタル画像データを生成して出力する。カメラは、レンズが向く方向を変えるように動作可能なモータ駆動の架台(ジンバル等)に取り付けられ、ユーザの顔等を追尾することができるように構成される。
音声入力部140は、複数のマイクで構成されるマイクユニット、A/D(Analog to Digital)変換器等で構成され、例えば頭部102に所定間隔で設置された複数のマイクで集音した音声を増幅し、A/D変換、符号化等の信号処理を施したデジタル音声データ(音声情報)を制御部110に出力する。
音声出力部150は、スピーカ、D/A(Digital to Analog)変換器等で構成され、制御部110から供給される音声データに復号化、D/A変換、増幅等の信号処理を施し、アナログ音声信号を例えば口部107に設置されたスピーカから出力する。このように、音声出力部150は、本発明の音声出力手段として機能する。
ロボット100は、音声入力部140のマイクでユーザの音声を集音し、制御部110の制御のもと、ユーザの発話内容に対応する音声を音声出力部150のスピーカから出力することにより、ユーザと会話をしてコミュニケーションをとることができる。
距離検出部160は、赤外線、超音波、レーザ等を利用する距離センサ、ライトフィールドカメラ等で構成され、ロボット100からユーザまでの距離を検出する。
次に、図4に示すフローチャートを参照しながら、ロボット100が実行する発話制御処理について説明する。発話タイミング制御処理は、ユーザ情報に基づいて発話タイミングを制御する処理である。制御部110は、ロボット100の電源が投下されたことにより、発話タイミング制御処理を開始する。
制御部110は、発話タイミング制御処理を開始すると、まず、画像情報を取得する(ステップS101)。制御部110は、撮像部130を制御して、ロボット100の周囲を撮像し、撮像部130から画像情報を取得する。
次に、制御部110は、ロボット100の周囲にユーザが存在するか否かを判定する(ステップS102)。制御部110は、撮像部130から取得した画像情報に基づいて、ユーザ検知部111がユーザを検知したか否かに応じて判定する。ロボット100の周囲にユーザが存在しないと判定した場合(ステップS102:NO)、制御部110は、ユーザを検知するまで、ステップS102の処理を繰り返し実行する。
一方、ロボット100の周囲にユーザが存在すると判定した場合(ステップS102:YES)、制御部110は、ユーザ特定処理を実行する(ステップS103)。ここで、図5に示すフローチャートを参照して、ユーザ特定処理について説明する。ユーザ特定処理は、ロボット100の周囲に存在するユーザを特定する処理である。
制御部110は、ユーザ特定処理を開始すると、まず、ユーザの顔情報を検出する(ステップS201)。制御部110(ユーザ特定部112)は、例えば、撮像部130から取得した画像情報が示す撮像画像に含まれる顔画像から特徴量を抽出することにより、ユーザの顔情報を検出する。
続いて、制御部110は、検出した顔情報(以下、検出顔情報と称する)に対応する予め登録された顔情報(以下、登録顔情報と称する)を検索する(ステップS202)。制御部110(ユーザ特定部112)は、記憶部120のユーザ情報データベースを参照し、検出顔情報と登録顔情報とを比較して類似度を算出し、類似度が所定の基準以上である登録顔情報を検索する。
そして、制御部110は、検出顔情報に対応する登録顔情報があるか否かを判定する(ステップS203)。制御部110は、ステップS202において、ユーザ特定部112が検出顔情報と類似度とが所定の基準以上の登録顔情報が検索できたか否かに応じて判定する。
検出顔情報に対応する登録顔情報がないと判定した場合(ステップS203:NO)、制御部110は、対象ユーザに関する情報を取得するための行為(情報取得行為)を実施する(ステップS204)。制御部110は、例えば、ユーザ情報データベースにおいて名前は登録されているが顔情報が登録されていないユーザがある場合、情報取得行為として、音声出力部150を制御して、その名前が対象ユーザのものであるかを問いかける音声(「あなたは○○?」等)を出力する。
そして、制御部110は、対象ユーザが判明したか否かを判定する(ステップS205)。制御部110は、例えば、情報取得行為の実施によって、ユーザ情報データベースにおいて名前は登録されているが顔情報が登録されていないユーザが、対象ユーザであることが確認できた場合には、対象ユーザが判明したと判定する。検知したユーザが判明していないと判定した場合(ステップS205:NO)、制御部110は、処理をステップS204に戻し、更に情報取得行為を実施する。
一方、対象ユーザが判明したと判定した場合(ステップS205:YES)、制御部110は、検出顔情報を対象ユーザの顔情報としてユーザ情報データベースに登録する(ステップS206)。
ステップS203において検出顔情報に対応する登録顔情報があると判定した場合(ステップS203:YES)、又は、ステップS206の処理を実行した後、制御部110は、対象ユーザを特定する(ステップS207)。制御部110は、例えば、ユーザ情報データベースにおいて、検索した登録顔情報に対応付けられたユーザIDを取得して、ロボット100の周囲に存在する対象ユーザを特定する。
制御部110は、ステップS207の処理を実行した後、ユーザ特定処理を終了し、処理を発話タイミング制御処理に戻す。
図4に戻り、ユーザ特定処理(ステップS103)を実行した後、制御部110は、対象ユーザを特定した時点からの経過時間の計測を開始する(ステップS104)。制御部110(計時部119)は、RTCの現在時刻情報に基づいて経過時間を計測する。
続いて、制御部110は、音声情報を取得する(ステップS105)。制御部110は、音声入力部140を制御して、ロボット100の周囲の音声を集音することにより、音声情報を取得する。
また、制御部110は、距離情報を取得する(ステップS106)。制御部110は、距離検出部160を制御して、ロボット100からユーザまでの距離を検出することにより、距離情報を取得する。
次に、制御部110(画像解析部114)は、画像解析処理を実行する(ステップS107)。ここで、図6に示すフローチャートを参照して、画像解析処理について説明する。画像解析処理は、画像情報及び距離情報に基づいてユーザ状態を判定する処理である。
制御部110(画像解析部114)は、画像解析処理を開始すると、まず、ロボット100とユーザとの高さ差を算出する(ステップS301)。制御部110(画像解析部114)は、例えば、ユーザ特定部112が画像情報から検出した顔情報と距離検出部160による距離情報とに基づいて、ロボット100のカメラが内蔵された目部105とユーザの目とのそれぞれの高さを算出することにより、両者の高さ差を算出する。
次に、制御部110は、姿勢情報の登録数が所定数以上であるか否かを判定する(ステップS302)。制御部110は、記憶部120のユーザ情報データベースを参照し、対象ユーザの姿勢情報の登録数に応じて判定する。
姿勢情報の登録数が所定数より少ないと判定した場合(ステップS302:NO)、制御部110は、対象ユーザの姿勢状態を判定するための情報である姿勢情報の量が不十分であるため、対象ユーザの現在の姿勢状態を取得するための情報取得行為を実施する(ステップS303)。制御部110は、例えば、情報取得行為として、音声出力部150を制御して、対象ユーザの姿勢を問いかける音声(「今座っている?」等)を出力する。
そして、制御部110は、対象ユーザの姿勢状態が判明したか否かを判定する(ステップS304)。制御部110は、例えば、情報取得行為の実施によって、対象ユーザの姿勢状態を示す情報(例えば、問いかけに対する応答)が取得できたか否かに応じて判定する。対象ユーザの姿勢状態が判明していないと判定した場合(ステップS304:NO)、制御部110は、処理をステップS303に戻し、更に情報取得行為を実施する。
一方、対象ユーザの姿勢状態が判明したと判定した場合(ステップS304:YES)、制御部110は、姿勢状態と、ロボット100とユーザとの高さ差と、を対応付けて、対象ユーザの姿勢情報としてユーザ情報データベースに登録する(ステップS305)。
ステップS302において姿勢情報の登録数が所定数以上であると判定した場合(ステップS302:YES)、又は、ステップS305の処理を実行した後、制御部110は、対象ユーザの現在の姿勢状態を特定する(ステップS306)。制御部110は、ユーザ情報データベース内の姿勢情報において、ステップS301において算出したロボット100とユーザとの高さ差に対応付けられた姿勢状態を、対象ユーザの現在の姿勢状態として特定する。
次に、制御部110は、対象ユーザの現在の行動状態を特定する(ステップS307)。制御部110は、例えば、ユーザ情報取得部113が取得した画像情報が示す撮像画像における顔画像の動きから、対象ユーザの現在の行動状態を、行動中、静止中のいずれかに特定する。制御部110は、ステップS307の処理を実行した後、画像解析処理を終了し、処理を発話タイミング制御処理に戻す。
図4に戻り、画像解析処理(ステップS107)を実行した後、制御部110は、音声解析処理を実行する(ステップS108)。ここで、図7に示すフローチャートを参照して、音声解析処理について説明する。画像解析処理は、音声情報に基づいてユーザ状態を判定する処理である。
制御部110は、音声解析処理を開始すると、まず、ユーザ情報取得部113が取得した音声情報が示す音声(以下、入力音声と称する)の音量が所定の音量以上であるか否かを判定する(ステップS401)。本処理において、音声解析部115は、入力音声がその音量の大小に応じて有効な音声であるか無効な音声であるかを判別する。
入力音声の音量が所定の音量以上ではないと判定した場合(ステップS401:NO)、制御部110は、RAMに記憶された有効音声フラグをオフにセットし(ステップS402)、音声解析処理を終了して、処理を発話タイミング制御処理に戻す。
一方、入力音声の音量が所定の音量以上であると判定した場合(ステップS401:YES)、制御部110は、対象ユーザの予め登録された音声情報(以下、登録音声情報と称する)を取得する(ステップS403)。制御部110は、記憶部120のユーザ情報データベースから対象ユーザの登録音声情報を読み出して取得する。
次に、制御部110は、ステップS404〜ステップS406の処理により、入力音声に対象ユーザの音声が含まれるか否かを確認する。まず、制御部110は、ユーザの口が動いているか否かを判定する(ステップS404)。制御部110(画像解析部114)は、画像情報が示す撮像画像に含まれる顔画像における口部分の動きの有無に基づいて判定する。
ユーザの口が動いていると判定した場合(ステップS404:YES)、制御部110は、入力音声の入力方向(以下、音声入力方向と称する)と対象ユーザの顔の向きとが一致するか否かを判定する(ステップS405)。制御部110は、音声入力部140が有する各マイクの集音時間差に基づいて音声入力方向を特定するとともに、画像情報が示す撮像画像に基づいて対象ユーザの顔の向きを特定し、両者の比較結果に応じて判定する。
音声入力方向と対象ユーザの顔の向きとが一致すると判定した場合(ステップS405:YES)、制御部110は、入力音声と登録音声情報とが示す音声(以下、登録音声と称する)とが一致するか否かを判定する(ステップS406)。制御部110は、入力音声と登録音声とのそれぞれの特徴量(周波数分布における音声の強弱のピーク出現位置、周波数の変動の度合い等)を抽出し、両者の特徴量の類似度に応じて判定する。
入力音声と登録音声とが一致すると判定した場合(ステップS406:YES)、制御部110は、RAMが記憶するユーザ音声フラグをオンにセットし(ステップS407)、ユーザ情報取得部113が取得した音声情報を対象ユーザの登録音声情報としてユーザ情報データベースに追加登録する(ステップS408)。
次に、制御部110は、会話累積時間を計測中であるか否かを判定する(ステップS410)。制御部110は、計時部119が会話累積時間を計測しているか否かに応じて判定する。会話累積時間を計測中であると判定した場合(ステップS410:YES)、制御部110は、音声解析処理を終了して、処理を発話タイミング制御処理に戻す。
一方、会話累積時間を計測中ではないと判定した場合(ステップS410:NO)、制御部110(計時部119)は、会話累積時間の計測を開始する(ステップS411)。また、制御部110は、RAMに記憶された会話カウンタをインクリメントする(ステップS412)。そして、制御部110は、音声解析処理を終了して、処理を発話タイミング制御処理に戻す。
ステップS404〜ステップS406のいずれかの処理においてNOと判定した場合、制御部110は、会話累積時間を計測中であるか否かを判定する(ステップS413)。会話累積時間を計測中であると判定した場合(ステップS413:YES)、制御部110は、計時部119による会話累積時間の計測を停止する(ステップS414)。そして、制御部110は、RAMが記憶するユーザ音声フラグをオフにセットする(ステップS415)。ステップS415の処理を実行した後、または、ステップS413において会話累積時間を計測中であると判定した場合(ステップS413:NO)、制御部110は、有効音声フラグをオンにセットし(ステップS416)、音声解析処理を終了して、処理を発話タイミング制御処理に戻す。
図4に戻り、制御部110は、音声解析処理(ステップS108)を実行した後、ユーザを特定した時点からの経過時間が所定時間以上であるか否かを判定する(ステップS109)。経過時間が所定時間に達していないと判定した場合(ステップS109:NO)、制御部110は、処理をステップS105に戻し、ステップS105〜S108の処理を再実行する。
一方、経過時間が所定時間に達したと判定した場合(ステップS109:YES)、制御部110は、経過時間の計測を停止し(ステップS110)、発話タイミング判定処理を実行する(ステップS111)。ここで、図8に示すフローチャートを参照して、発話タイミング判定処理について説明する。発話タイミング判定処理は、対象ユーザに対して声をかける発話タイミングであるか否かを判定する処理である。
制御部110は、発話タイミング判定処理を開始すると、まず、発話タイミングの判定回数が所定回数以上であるか否かを判定する(ステップS501)。制御部110は、対象ユーザのユーザ情報テーブル内の「判定回数」に格納された数値に応じて判定する。発話タイミングの判定回数が所定回数未満であると判定した場合(ステップS501:NO)、制御部110は、RAM内の発話タイミングフラグをオンにセットする(ステップS510)。これは、対象ユーザの状態に応じた適切な発話タイミングを判定するために必要となる評価データが不足しているため、発話タイミングの判定回数が所定回数以上となるまでは対象ユーザの状態に関わらず話しかけを試みることにより、十分な評価データを収集することを意図する。ステップS510を実行した後、制御部110は、発話タイミング判定処理を終了し、処理を発話タイミング制御処理に戻す。
一方、発話タイミングの判定回数が所定回数以上であると判定した場合(ステップS501:YES)、制御部110は、対象ユーザが会話中であるか否かを判定する(ステップS502)。制御部110は、RAM内のユーザ音声フラグがオン状態であるか否かに応じて判定する。
対象ユーザが会話中ではないと判定した場合(ステップS502:NO)、制御部110は、対象ユーザの現在の姿勢状態が、話しかけると不機嫌になる傾向が高い姿勢状態であるか否かを判定する(ステップS503)。制御部110は、RAM内のユーザ姿勢情報と、ユーザ情報データベースの発話タイミング判定テーブルと、を参照し、発話タイミング判定テーブルにおいて、ユーザ姿勢情報が示す対象ユーザの姿勢状態に対応付けられた評価ポイントに応じて判定する。
対象ユーザの現在の姿勢状態が、話しかけると不機嫌になる傾向が高い姿勢状態ではないと判定した場合(ステップS503:NO)、制御部110は、対象ユーザの現在の行動状態が、話しかけると不機嫌になる傾向が高い行動状態であるか否かを判定する(ステップS504)。制御部110は、RAM内のユーザ行動情報と、ユーザ情報データベースの発話タイミング判定テーブルと、を参照し、発話タイミング判定テーブルにおいて、ユーザ行動情報が示す対象ユーザの行動状態に対応付けられた評価ポイントの数値に応じて判定する。
対象ユーザの現在の行動状態が、話しかけると不機嫌になる傾向が高い行動状態ではないと判定した場合(ステップS504:NO)、制御部110は、現在の環境音が、話しかけると不機嫌になる傾向が高い環境音であるか否かを判定する(ステップS505)。制御部110は、RAM内の環境音情報と、ユーザ情報データベースの発話タイミング判定テーブルと、を参照し、発話タイミング判定テーブルにおいて、環境音情報が示す環境音の区分に対応付けられた評価ポイントの数値に応じて判定する。
現在の環境音が、話しかけると不機嫌になる傾向が高い環境音ではないと判定した場合(ステップS505:NO)、制御部110(発話タイミング判定部116)は、RAM内の発話タイミングフラグをオンにセットし(ステップS510)、発話タイミング判定処理を終了し、処理を発話タイミング制御処理に戻す。
ステップS503〜ステップS505のいずれかの処理においてYESと判定した場合、制御部110は、RAM内の発話タイミングフラグをオフにセットし(ステップS511)、発話タイミング判定処理を終了し、処理を発話タイミング制御処理に戻す。
ステップS502において、対象ユーザが会話中であると判定した場合(ステップS502:YES)、制御部110は、対象ユーザの会話累積時間が、対象ユーザの会話累積時間の評価基準である閾値THt以上であるか否かを判定する(ステップS506)。制御部110は、計時部119が測定する会話累積時間と閾値THtとの比較結果に応じて判定する。
対象ユーザの会話累積時間が閾値THtに達したと判定した場合(ステップS506:YES)、制御部110は、対象ユーザの会話回数が、対象ユーザの会話回数の評価基準である閾値THf以上であるか否かを判定する(ステップS507)。制御部110は、RAM内の会話カウンタのカウント値と閾値THfとの比較結果に応じて判定する。
対象ユーザの会話回数が閾値THf以上であると判定した場合(ステップS507:YES)、制御部110は、RAM内の発話タイミングフラグをオフにセットし(ステップS511)、発話タイミング判定処理を終了し、処理を発話タイミング制御処理に戻す。
ステップS506又はステップS507のいずれかの処理においてNOと判定した場合、制御部110は、対象ユーザの現在の姿勢状態が、話しかけると不機嫌になる傾向が高い姿勢状態であるか否かを判定する(ステップS508)。制御部110は、ステップS503の処理と同様、RAM内のユーザ姿勢情報と、ユーザ情報データベースの発話タイミング判定テーブルと、を参照し、発話タイミング判定テーブルにおいて、ユーザ姿勢情報が示す対象ユーザの姿勢状態に対応付けられた評価ポイントの数値に応じて判定する。
対象ユーザの現在の姿勢状態が、話しかけると不機嫌になる傾向が高い姿勢状態ではないと判定した場合(ステップS508:NO)、制御部110は、対象ユーザの現在の行動状態が、話しかけると不機嫌になる傾向が高い行動状態であるか否かを判定する(ステップS509)。制御部110は、ステップS504の処理と同様、RAM内のユーザ行動情報と、ユーザ情報データベースの発話タイミング判定テーブルと、を参照し、発話タイミング判定テーブルにおいて、ユーザ行動情報が示す対象ユーザの行動状態に対応付けられた評価ポイントの数値に応じて判定する。
対象ユーザの現在の行動状態が、話しかけると不機嫌になる傾向が高い行動状態ではないと判定した場合(ステップS509:NO)、RAM内の発話タイミングフラグをオンにセットし(ステップS510)、発話タイミング判定処理を終了して、処理を発話タイミング制御処理に戻す。
ステップS508又はステップS509のいずれかの処理においてYESと判定した場合、制御部110は、RAM内の発話タイミングフラグをオフにセットし(ステップS511)、発話タイミング判定処理を終了し、処理を発話タイミング制御処理に戻す。
図4に戻り、発話タイミング判定処理(ステップS111)を実行した後、制御部110は、対象ユーザに対して話しかけるか否かを判定する(ステップS112)。制御部110は、RAM内の発話タイミングフラグのオン/オフ状態に応じて判定する。対象ユーザに対して発話しないと判定した場合(ステップS112:NO)、制御部110は、発話タイミング制御処理を終了する。
対象ユーザに対して発話すると判定した場合(ステップS112:YES)、制御部110は、対象ユーザに対する発話(声かけ)を実行する(ステップS113)。制御部110は、音声出力部150を制御して、発話音声を出力する。
続いて、制御部110は、感情推定処理を実行する(ステップS114)。ここで、図9に示すフローチャートを参照して、感情推定処理について説明する。感情推定処理は、ロボット100からの発話に対する対象ユーザの感情(以下、対象ユーザ感情と称する)を推定する処理である。
制御部110は、感情推定処理を開始すると、まず、対象ユーザの表情から、表情に基づく感情を推定する(ステップS601)。制御部110(感情推定部117)は、例えば、画像情報が示す撮像画像に含まれる顔画像における特徴点の変化量等に応じて表情を推定し、推定表情に基づいて、表情に基づく感情としてポジティブ(肯定的感情)とネガティブ(否定的感情)とのいずれかを推定する。制御部110(感情推定部117)は、例えば、推定表情が微笑む表情であれば、表情に基づく感情をポジティブ(肯定的感情)と推定する。一方、制御部110(感情推定部117)は、推定表情が困った表情であれば、表情に基づく感情をネガティブ(否定的感情)と推定する。
次に、制御部110は、対象ユーザの向きから向きに基づく感情を推定する(ステップS602)。制御部110(感情推定部117)は、例えば、画像情報が示す撮像画像における対象ユーザの顔の向きの変化に基づいて、向きに基づく感情としてポジティブ(肯定的感情)とネガティブ(否定的感情)とのいずれかを推定する。制御部110(感情推定部117)は、例えば、撮像画像においてロボット100の発話後に対象ユーザの顔がロボット100に向いたまま変化しない場合には、向きに基づく感情をポジティブ(肯定的感情)と推定する。一方、制御部110(感情推定部117)は、撮像画像においてロボット100の発話後に対象ユーザがロボット100から顔を逸らした場合には、向きに基づく感情をネガティブ(否定的感情)と推定する。
次に、制御部110は、対象ユーザの発言から、発言に基づく感情を推定する(ステップS603)。制御部110(感情推定部117)は、例えば、ロボット100の発話後の入力音声に含まれる対象ユーザの音声を認識し、その認識結果に基づいて、発言に基づく感情としてポジティブ(肯定的感情)とネガティブ(否定的感情)とのいずれかを推定する。制御部110(感情推定部117)は、例えば、対象ユーザの発言がロボット100の発話に応答するものである場合(ロボット100の「おはよう」という発話に対して対象ユーザが「おはよう」と返した場合等)には、発言に基づく感情をポジティブ(肯定的感情)と推定する。一方、制御部110(感情推定部117)は、ロボット100の発話に対して対象ユーザの発言が否定的なものである場合(ロボット100の「おはよう」という発話に対して対象ユーザが「うるさい」と返した場合や無言であった場合等)には、音声に基づく感情をネガティブ(否定的感情)と推定する。
ステップS603の処理を実行した後、制御部110は、発言に基づく感情がネガティブ(否定的感情)であるか否かを判定する(ステップS604)。制御部110は、ステップS603の処理において推定した発言に基づく感情に応じて判定する。
発言に基づく感情がネガティブ(否定的感情)であると判定した場合(ステップS604:YES)、制御部110は、対象ユーザ感情をネガティブ(否定的感情)と推定する(ステップS607)。そして、制御部110は、感情推定処理を終了し、処理を発話タイミング制御処理に戻す。
一方、発言に基づく感情がポジティブ(肯定的感情)であると判定した場合(ステップS604:NO)、制御部110は、表情に基づく感情がネガティブ(否定的感情)であるか否かを判定する(ステップS605)。制御部110は、ステップS601の処理において推定した発言に基づく感情に応じて判定する。
表情に基づく感情がネガティブ(否定的感情)であると判定した場合(ステップS605:YES)、制御部110は、向きに基づく感情がネガティブ(否定的感情)であるか否かを判定する(ステップS606)。向きに基づく感情がネガティブ(否定的感情)であると判定した場合(ステップS606:YES)、制御部110は、対象ユーザ感情をネガティブ(否定的感情)と推定し(ステップS607)、感情推定処理を終了して、処理を発話タイミング制御処理に戻す。
ステップS605又はステップS606においてNOと判定した場合、制御部110は、対象ユーザ感情をポジティブ(肯定的感情)と推定し(ステップS608)する。そして、制御部110は、感情推定処理を終了して、処理を発話タイミング制御処理に戻す。
図4に戻り、感情推定処理(ステップS114)を実行した後、制御部110は、発話タイミング評価処理を実行する(ステップS115)。ここで、図10に示すフローチャートを参照して、発話タイミング評価処理について説明する。発話タイミング評価処理は、ロボット100の対象ユーザに対する発話タイミングを評価し、発話タイミング評価結果を以降の発話タイミングに反映する処理である。
制御部110は、発話タイミング評価処理を開始すると、まず、今回のロボット100の発話に対する対象ユーザ感情がネガティブ(否定的感情)であるか否かを判定する(ステップS701)。制御部110(発話タイミング評価部118)は、感情推定処理において推定した対象ユーザ感情に応じて判定する。
対象ユーザ感情がポジティブ(肯定的感情)であると判定した場合(ステップS701:NO)、制御部110は、今回ロボット100が発話した際の対象ユーザの姿勢状態に、対象ユーザ感情がポジティブ(肯定的感情)であったことを反映する(ステップS702)。具体的には、制御部110(発話タイミング評価部118)は、発話タイミング判定テーブルにおいて、今回ロボット100が発話した際の対象ユーザの姿勢状態の「P」の評価ポイントに発話適正ポイントとして一定ポイント(例えば、1ポイント)加算する。これによりポジティブなユーザ感情が得られた対象ユーザの姿勢状態において、次回ロボット100が対象ユーザに発話する確率を高めることができる。
次に、制御部110は、今回ロボット100が発話した際の対象ユーザの行動状態に、対象ユーザ感情がポジティブ(肯定的感情)であったことを反映する(ステップS703)。具体的には、制御部110(発話タイミング評価部118)は、発話タイミング判定テーブルにおいて、今回ロボット100が発話した際の対象ユーザの行動状態の「P」の評価ポイントに発話適正ポイントとして一定ポイント(例えば、1ポイント)加算する。これにより、ポジティブなユーザ感情が得られた対象ユーザの行動状態において、次回ロボット100が対象ユーザに発話する確率を高めることができる。
次に、制御部110は、今回ロボット100が発話した際の対象ユーザの環境音に、対象ユーザ感情がポジティブ(肯定的感情)であったことを反映する(ステップS704)。具体的には、制御部110(発話タイミング評価部118)は、発話タイミング判定テーブルにおいて、今回ロボット100が発話した際の環境音の「P」の評価ポイントに発話適正ポイントとして一定ポイント(例えば、1ポイント)加算する。これにより、ポジティブなユーザ感情が得られた環境音において、次回ロボット100が対象ユーザに発話する確率を高めることができる。
続いて、制御部110は、会話累積時間が閾値THt未満であるか否かを判定する(ステップS705)。制御部110は、計時部119が計測した会話累積時間と閾値THtとの比較結果に応じて判定する。
会話累積時間が閾値THt未満であると判定した場合(ステップS705:YES)、制御部110は、会話回数が閾値THf未満であるか否かを判定する(ステップS706)。制御部110は、RAM内の会話カウンタのカウント値と閾値THtとの比較結果に応じて判定する。
会話回数が閾値THf未満であると判定した場合(ステップS706:YES)、制御部110は、閾値THtを一定時間減少し(ステップS707)、閾値THtを一定回数減少する(ステップS708)。ポジティブなユーザ感情が得られたことに応じて、閾値THt及び閾値THfをともに減少させることにより、発話タイミング判定処理において、所定時間内に対象ユーザに対する発話を実行する確率を高めることができる(図8のステップS506,ステップS507参照)。
ステップS705又はステップS706のいずれかにおいてNOと判定した場合、制御部110は、発話タイミング評価処理を終了し、処理を発話タイミング制御処理に戻す。
ステップS701において、対象ユーザ感情がネガティブ(否定的感情)であると判定した場合(ステップS701:YES)、制御部110は、会話累積時間が閾値THt以上であるか否かを判定する(ステップS709)。制御部110は、計時部119が計測した会話累積時間と閾値THtとの比較結果に応じて判定する。会話累積時間が閾値THt未満であると判定した場合(ステップS709:NO)、制御部110は、処理をステップS711に進める。
会話累積時間が閾値THt以上であると判定した場合(ステップS709:YES)、制御部110は、閾値THtを一定時間増加する(ステップS710)。これにより、所定時間内に対象ユーザに対する発話を実行する確率を下げることができる。
次に、会話回数が閾値THf以上であるか否かを判定する(ステップS711)。制御部110は、RAM内の会話カウンタのカウント値と閾値THtとの比較結果に応じて判定する。会話回数が閾値THf未満であると判定した場合(ステップS711:NO)、制御部110は、発話タイミング評価処理を終了し、処理を発話タイミング制御処理に戻す。
会話回数が閾値THf以上であると判定した場合(ステップS711:YES)、制御部110は、閾値THfを一定回数増加する(ステップS712)。これにより、ステップS710の場合と同様、所定時間内に対象ユーザに対する発話を実行する確率を下げることができる。
ステップS708又はステップS712の処理を実行した後、制御部110は、発話タイミング評価処理を終了し、処理を発話タイミング制御処理に戻す。
図4に戻り、発話タイミング評価処理(ステップS115)を実行した後、制御部110は、発話タイミング制御処理を終了する。
以上に説明したように、本実施の形態によれば、ロボット100は、画像情報、音声情報、距離情報に基づいて、対象ユーザの姿勢状態、行動状態、会話状態を判定し、この状態判定結果に応じて発話タイミングを判定し、発話タイミング判定結果に応じて対象ユーザに対して発話音声を出力する。これにより、ロボット100は、対象ユーザに対して適切なタイミングで話しかけることができ、円滑な会話の契機を提供することができる。
また、ロボット100は、ロボット100の発話に対する対象ユーザの感情を推定して発話タイミングの評価を行い、その評価結果を以降の発話タイミングの判定に反映させる。これにより、ロボット100は、対象ユーザに対する発話を実行する度に、より適切な発話タイミングを判定することができ、更に円滑な会話の契機を提供することができる。
なお、本発明は、前記の実施の形態に限定されず、種々の変形及び応用が可能である。前記の実施の形態は、次のように変形されてもよい。
例えば、ロボット100は、画像情報、音声情報、距離情報に基づいて、対象ユーザの姿勢状態、行動状態、会話状態を判定して対象ユーザに対して発話音声を出力するように構成してもよい。また、ロボット100は、画像情報、音声情報、距離情報に基づいて、これらの情報と対象ユーザの状態とが対応付けられた情報状態対応テーブル等を参照することで、対象ユーザの姿勢状態、行動状態、会話状態を判定して対象ユーザに対して発話音声を出力するように構成してもよい。
例えば、ロボット100は、外部機器と無線通信を行うための無線通信モジュール及びアンテナを備え、ネットワークを介して、外部機器に画像情報、音声情報等を供給し、供給した情報に基づいて生成された制御信号を外部機器から取得することにより、ユーザに対する発話を実行するように構成してもよい。
前記の実施の形態では、発話タイミング判定装置としてロボットを例にして説明したが、本発明はロボットに限定されない。例えば、電子機器であって、電子機器の周囲に存在するユーザに関するユーザ情報(画像情報、音声情報、距離情報等)を取得し、このユーザ情報に基づいてユーザの状態を判定することにより、発話タイミングを判定してもよい。
前記の実施の形態において、制御部110のCPUが実行する動作プログラムは、あらかじめROM等に記憶されていた。しかしながら、本発明は、これに限定されず、前記の各種処理を実行させるための動作プログラムを、既存の汎用コンピュータや、フレームワーク、ワークステーション等の電子機器に実装することにより、前記の実施の形態に係るロボットに相当する装置として機能させてもよい。
このようなプログラムの提供方法は任意であり、例えば、コンピュータが読取可能な記録媒体(フレキシブルディスク、CD(Compact Disc)−ROM、DVD(Digital Versatile Disc)−ROM)等に格納して配布してもよいし、インターネット等のネットワーク上のストレージにプログラムを格納しておき、これをダウンロードさせることにより提供してもよい。
また、前記の処理をOS(Operating System)とアプリケーションプログラムとの分担、又は、OSとアプリケーションプログラムとの協働によって実行する場合には、アプリケーションプログラムのみを記録媒体やストレージに格納してもよい。また、搬送波にプログラムを重畳し、ネットワークを介して配信することも可能である。例えば、ネットワーク上の掲示板(Bulletin Board System:BBS)に前記プログラムを掲示し、ネットワークを介してプログラムを配信してもよい。そして、配信されたプログラムを起動し、OSの制御下で、他のアプリケーションプログラムと同様に実行することにより、前記の処理を実行できるように構成してもよい。
本発明は、本発明の広義の精神と範囲とを逸脱することなく、様々な実施の形態及び変形が可能とされるものである。また、前述した実施の形態は、この発明を説明するためのものであり、本発明の範囲を限定するものではない。すなわち、本発明の範囲は、実施の形態ではなく、特許請求の範囲によって示される。そして、特許請求の範囲内及び特許請求の範囲と同等の発明の意義の範囲内で施される様々な変形が、この発明の範囲内とみなされる。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
(付記)
(付記1)
所定の対象の情報を取得する取得手段と、
前記所定の対象の情報に基づいて前記所定の対象に話しかける発話タイミングであるか否かを判定する発話タイミング判定手段と、
を備える、
ことを特徴とする発話タイミング判定装置。
(付記1)
所定の対象の情報を取得する取得手段と、
前記所定の対象の情報に基づいて前記所定の対象に話しかける発話タイミングであるか否かを判定する発話タイミング判定手段と、
を備える、
ことを特徴とする発話タイミング判定装置。
(付記2)
前記所定の対象の情報に基づいて、前記所定の対象の状態を判定する状態判定手段を更に備え、
前記発話タイミング判定手段は、前記状態判定手段による状態判定結果に基づいて、前記所定の対象に話しかける前記発話タイミングであるか否かを判定する、
ことを特徴とする付記1に記載の発話タイミング判定装置。
前記所定の対象の情報に基づいて、前記所定の対象の状態を判定する状態判定手段を更に備え、
前記発話タイミング判定手段は、前記状態判定手段による状態判定結果に基づいて、前記所定の対象に話しかける前記発話タイミングであるか否かを判定する、
ことを特徴とする付記1に記載の発話タイミング判定装置。
(付記3)
前記発話タイミング判定手段による発話タイミング判定結果に応じて、音声を出力する音声出力手段と、
前記音声出力手段が音声を出力した後に前記取得手段が取得した前記所定の対象の情報に基づいて、前記所定の対象の感情を推定する感情推定手段と、
前記感情推定手段による感情推定結果に基づいて、前記発話タイミングを評価する発話タイミング評価手段と、
を更に備え、
前記発話タイミング判定手段は、前記発話タイミング評価手段による発話タイミング評価結果に基づいて、前記発話タイミングであるか否かを判定する、
ことを特徴とする付記1又は2に記載の発話タイミング判定装置。
前記発話タイミング判定手段による発話タイミング判定結果に応じて、音声を出力する音声出力手段と、
前記音声出力手段が音声を出力した後に前記取得手段が取得した前記所定の対象の情報に基づいて、前記所定の対象の感情を推定する感情推定手段と、
前記感情推定手段による感情推定結果に基づいて、前記発話タイミングを評価する発話タイミング評価手段と、
を更に備え、
前記発話タイミング判定手段は、前記発話タイミング評価手段による発話タイミング評価結果に基づいて、前記発話タイミングであるか否かを判定する、
ことを特徴とする付記1又は2に記載の発話タイミング判定装置。
(付記4)
前記所定の対象の情報は、前記所定の対象の画像を示す画像情報、前記所定の対象の音声を含む音声情報、自装置から前記所定の対象までの距離を示す距離情報を含む、
ことを特徴とする付記3に記載の発話タイミング判定装置。
前記所定の対象の情報は、前記所定の対象の画像を示す画像情報、前記所定の対象の音声を含む音声情報、自装置から前記所定の対象までの距離を示す距離情報を含む、
ことを特徴とする付記3に記載の発話タイミング判定装置。
(付記5)
前記所定の対象の状態は、前記所定の対象の姿勢を示す姿勢状態、前記所定の対象の行動を示す行動状態、前記所定の対象が自装置以外と会話中であるか否かを示す会話状態、を含む、
ことを特徴とする付記4に記載の発話タイミング判定装置。
前記所定の対象の状態は、前記所定の対象の姿勢を示す姿勢状態、前記所定の対象の行動を示す行動状態、前記所定の対象が自装置以外と会話中であるか否かを示す会話状態、を含む、
ことを特徴とする付記4に記載の発話タイミング判定装置。
(付記6)
前記状態判定手段は、
前記画像情報と前記距離情報とに基づいて、前記姿勢状態を判定し、
前記画像情報に基づいて、前記行動状態を判定する、
ことを特徴とする付記5に記載の発話タイミング判定装置。
前記状態判定手段は、
前記画像情報と前記距離情報とに基づいて、前記姿勢状態を判定し、
前記画像情報に基づいて、前記行動状態を判定する、
ことを特徴とする付記5に記載の発話タイミング判定装置。
(付記7)
前記状態判定手段は、前記画像情報と前記音声情報とに基づいて、前記会話状態を判定し、
前記発話タイミング判定手段は、所定の時間内における前記会話状態の累積時間と回数とが、それぞれ、閾値を超えるか否かに基づいて、前記発話タイミングであるか否かを判定する、
ことを特徴とする付記5又は6に記載の発話タイミング判定装置。
前記状態判定手段は、前記画像情報と前記音声情報とに基づいて、前記会話状態を判定し、
前記発話タイミング判定手段は、所定の時間内における前記会話状態の累積時間と回数とが、それぞれ、閾値を超えるか否かに基づいて、前記発話タイミングであるか否かを判定する、
ことを特徴とする付記5又は6に記載の発話タイミング判定装置。
(付記8)
前記発話タイミング評価手段は、前記発話タイミング評価結果に応じて、前記閾値を変更する、
ことを特徴とする付記7に記載の発話タイミング判定装置。
前記発話タイミング評価手段は、前記発話タイミング評価結果に応じて、前記閾値を変更する、
ことを特徴とする付記7に記載の発話タイミング判定装置。
(付記9)
前記取得手段は、前記所定の対象の情報が不十分な場合には、前記所定の対象の情報を更に取得するための情報取得行為を実施する、
ことを特徴とする付記1乃至8の何れか1つに記載の発話タイミング判定装置。
前記取得手段は、前記所定の対象の情報が不十分な場合には、前記所定の対象の情報を更に取得するための情報取得行為を実施する、
ことを特徴とする付記1乃至8の何れか1つに記載の発話タイミング判定装置。
(付記10)
前記所定の対象は人又は動物である、
ことを特徴とする付記1乃至9の何れか1つに記載の発話タイミング判定装置。
前記所定の対象は人又は動物である、
ことを特徴とする付記1乃至9の何れか1つに記載の発話タイミング判定装置。
(付記11)
付記1乃至10の何れか1つに記載の前記発話タイミング判定装置と、
前記発話タイミング判定装置の前記発話タイミング判定手段により、前記所定の対象に話しかける前記発話タイミングであると判定されたときに、前記所定の対象に音声を出力する音声出力装置と、
を備える、
ことを特徴とするロボット。
付記1乃至10の何れか1つに記載の前記発話タイミング判定装置と、
前記発話タイミング判定装置の前記発話タイミング判定手段により、前記所定の対象に話しかける前記発話タイミングであると判定されたときに、前記所定の対象に音声を出力する音声出力装置と、
を備える、
ことを特徴とするロボット。
(付記12)
所定の対象の情報を取得する取得ステップと、
前記所定の対象の情報に基づいて前記所定の対象に話しかける発話タイミングであるか否かを判定する発話タイミング判定ステップと、
を含む、
ことを特徴とする発話タイミング判定方法。
所定の対象の情報を取得する取得ステップと、
前記所定の対象の情報に基づいて前記所定の対象に話しかける発話タイミングであるか否かを判定する発話タイミング判定ステップと、
を含む、
ことを特徴とする発話タイミング判定方法。
(付記13)
発話タイミング判定装置のコンピュータを、
所定の対象の情報を取得する取得手段、
前記所定の対象の情報に基づいて前記所定の対象に話しかける発話タイミングであるか否かを判定する発話タイミング判定手段、
として機能させる、
ことを特徴とするプログラム。
発話タイミング判定装置のコンピュータを、
所定の対象の情報を取得する取得手段、
前記所定の対象の情報に基づいて前記所定の対象に話しかける発話タイミングであるか否かを判定する発話タイミング判定手段、
として機能させる、
ことを特徴とするプログラム。
100…ロボット、101…胴体部、102…頭部、103…手部、104…足部、105…目部、106…鼻部、107…口部、110…制御部、111…ユーザ検知部、112…ユーザ特定部、113…ユーザ情報取得部、114…画像解析部、115…音声解析部、116…発話タイミング判定部、117…感情推定部、118…発話タイミング評価部、119…計時部、120…記憶部、130…撮像部、140…音声入力部、150…音声出力部、160…距離検出部、BL…バスライン
Claims (13)
- 所定の対象の情報を取得する取得手段と、
前記所定の対象の情報に基づいて前記所定の対象に話しかける発話タイミングであるか否かを判定する発話タイミング判定手段と、
を備える、
ことを特徴とする発話タイミング判定装置。 - 前記所定の対象の情報に基づいて、前記所定の対象の状態を判定する状態判定手段を更に備え、
前記発話タイミング判定手段は、前記状態判定手段による状態判定結果に基づいて、前記所定の対象に話しかける前記発話タイミングであるか否かを判定する、
ことを特徴とする請求項1に記載の発話タイミング判定装置。 - 前記発話タイミング判定手段による発話タイミング判定結果に応じて、音声を出力する音声出力手段と、
前記音声出力手段が音声を出力した後に前記取得手段が取得した前記所定の対象の情報に基づいて、前記所定の対象の感情を推定する感情推定手段と、
前記感情推定手段による感情推定結果に基づいて、前記発話タイミングを評価する発話タイミング評価手段と、
を更に備え、
前記発話タイミング判定手段は、前記発話タイミング評価手段による発話タイミング評価結果に基づいて、前記発話タイミングであるか否かを判定する、
ことを特徴とする請求項1又は2に記載の発話タイミング判定装置。 - 前記所定の対象の情報は、前記所定の対象の画像を示す画像情報、前記所定の対象の音声を含む音声情報、自装置から前記所定の対象までの距離を示す距離情報を含む、
ことを特徴とする請求項3に記載の発話タイミング判定装置。 - 前記所定の対象の状態は、前記所定の対象の姿勢を示す姿勢状態、前記所定の対象の行動を示す行動状態、前記所定の対象が自装置以外と会話中であるか否かを示す会話状態、を含む、
ことを特徴とする請求項4に記載の発話タイミング判定装置。 - 前記状態判定手段は、
前記画像情報と前記距離情報とに基づいて、前記姿勢状態を判定し、
前記画像情報に基づいて、前記行動状態を判定する、
ことを特徴とする請求項5に記載の発話タイミング判定装置。 - 前記状態判定手段は、前記画像情報と前記音声情報とに基づいて、前記会話状態を判定し、
前記発話タイミング判定手段は、所定の時間内における前記会話状態の累積時間と回数とが、それぞれ、閾値を超えるか否かに基づいて、前記発話タイミングであるか否かを判定する、
ことを特徴とする請求項5又は6に記載の発話タイミング判定装置。 - 前記発話タイミング評価手段は、前記発話タイミング評価結果に応じて、前記閾値を変更する、
ことを特徴とする請求項7に記載の発話タイミング判定装置。 - 前記取得手段は、前記所定の対象の情報が不十分な場合には、前記所定の対象の情報を更に取得するための情報取得行為を実施する、
ことを特徴とする請求項1乃至8の何れか1項に記載の発話タイミング判定装置。 - 前記所定の対象は人又は動物である、
ことを特徴とする請求項1乃至9の何れか1項に記載の発話タイミング判定装置。 - 請求項1乃至10の何れか1項に記載の前記発話タイミング判定装置と、
前記発話タイミング判定装置の前記発話タイミング判定手段により、前記所定の対象に話しかける前記発話タイミングであると判定されたときに、前記所定の対象に音声を出力する音声出力装置と、
を備える、
ことを特徴とするロボット。 - 所定の対象の情報を取得する取得ステップと、
前記所定の対象の情報に基づいて前記所定の対象に話しかける発話タイミングであるか否かを判定する発話タイミング判定ステップと、
を含む、
ことを特徴とする発話タイミング判定方法。 - 発話タイミング判定装置のコンピュータを、
所定の対象の情報を取得する取得手段、
前記所定の対象の情報に基づいて前記所定の対象に話しかける発話タイミングであるか否かを判定する発話タイミング判定手段、
として機能させる、
ことを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017246949A JP2019113696A (ja) | 2017-12-22 | 2017-12-22 | 発話タイミング判定装置、ロボット、発話タイミング判定方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017246949A JP2019113696A (ja) | 2017-12-22 | 2017-12-22 | 発話タイミング判定装置、ロボット、発話タイミング判定方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019113696A true JP2019113696A (ja) | 2019-07-11 |
Family
ID=67221460
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017246949A Pending JP2019113696A (ja) | 2017-12-22 | 2017-12-22 | 発話タイミング判定装置、ロボット、発話タイミング判定方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019113696A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021053949A1 (ja) * | 2019-09-17 | 2021-03-25 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP2021086354A (ja) * | 2019-11-27 | 2021-06-03 | Tis株式会社 | 情報処理システム、情報処理方法、及びプログラム |
-
2017
- 2017-12-22 JP JP2017246949A patent/JP2019113696A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021053949A1 (ja) * | 2019-09-17 | 2021-03-25 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP2021086354A (ja) * | 2019-11-27 | 2021-06-03 | Tis株式会社 | 情報処理システム、情報処理方法、及びプログラム |
JP7123028B2 (ja) | 2019-11-27 | 2022-08-22 | Tis株式会社 | 情報処理システム、情報処理方法、及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107799126B (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
US20220032482A1 (en) | Information processing device and storage medium | |
WO2016150001A1 (zh) | 语音识别的方法、装置及计算机存储介质 | |
EP1503368B1 (en) | Head mounted multi-sensory audio input system | |
CN112037791B (zh) | 会议纪要转录方法、设备和存储介质 | |
CN111475206B (zh) | 用于唤醒可穿戴设备的方法及装置 | |
US20210232807A1 (en) | Information processing system, storage medium, and information processing method | |
US20050033571A1 (en) | Head mounted multi-sensory audio input system | |
US20050027515A1 (en) | Multi-sensory speech detection system | |
CN114051639A (zh) | 使用说话者基线进行情绪检测 | |
JP7416295B2 (ja) | ロボット、対話システム、情報処理方法及びプログラム | |
JP2004101901A (ja) | 音声対話装置及び音声対話プログラム | |
WO2016183961A1 (zh) | 智能设备的界面切换方法、系统、设备及非易失性计算机存储介质 | |
CN110634505A (zh) | 声音期间检测装置、声音期间检测方法、存储介质、声音认识装置以及机器人 | |
JP2019113696A (ja) | 発話タイミング判定装置、ロボット、発話タイミング判定方法及びプログラム | |
JP2015175983A (ja) | 音声認識装置、音声認識方法及びプログラム | |
KR20150114310A (ko) | 동물움직임을 이용한 동물 통역 시스템 | |
US20190295526A1 (en) | Dialogue control device, dialogue system, dialogue control method, and recording medium | |
WO2021166811A1 (ja) | 情報処理装置および行動モード設定方法 | |
JP6887035B1 (ja) | 制御システム、制御装置、制御方法及びコンピュータプログラム | |
JP6629172B2 (ja) | 対話制御装置、その方法及びプログラム | |
JP2019154575A (ja) | 個人識別装置および特徴収集装置 | |
JP7370050B2 (ja) | 読唇装置及び読唇方法 | |
EP3502940A1 (en) | Information processing device, robot, information processing method, and program | |
JP7176244B2 (ja) | ロボット、ロボットの制御方法及びプログラム |