JP6795387B2

JP6795387B2 - 音声対話装置、音声対話方法、音声対話プログラム及びロボット

Info

Publication number: JP6795387B2
Application number: JP2016242180A
Authority: JP
Inventors: 聖弥樋口; 勇次國武; 太田　雄策; 雄策太田; 亮太宮崎
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2016-12-14
Filing date: 2016-12-14
Publication date: 2020-12-02
Anticipated expiration: 2036-12-14
Also published as: CN108231070A; CN108231070B; JP2018097185A; US10650815B2; US20180166076A1

Description

本開示は、複数のユーザと音声対話する音声対話装置、音声対話方法、音声対話プログラム及びロボットに関するとともに、ユーザと音声対話する音声対話装置、音声対話方法、音声対話プログラム及びロボットに関するものである。

従来技術では、対話者同士の発話に関連する事柄を話題として提供している（例えば、特許文献１、特許文献２及び特許文献３参照）。

特開２０１６−６６０７号公報特開２０１３−７３３５５号公報特許第５３００４９７号明細書

大人と幼児との対話においては、幼児が話しやすい話題を提供することが望ましい。

しかしながら、上記従来の技術では、更なる改善が必要とされていた。

本開示は、上記の問題を解決するためになされたもので、幼児の活動内容に応じた話題を提供することができ、幼児が会話しやすい話題を提供することができる音声対話装置、音声対話方法、音声対話プログラム及びロボットを提供することを目的とするものである。

本開示の一態様に係る装置は、複数のユーザと音声対話する装置であって、前記装置の周辺の画像データを取得するセンサと、前記装置の周辺の音を取得するマイクと、前記複数のユーザに対応する複数の画像データを記憶しているメモリと、前記複数のユーザは、大人と幼児とを含み、前記取得された画像データと前記記憶されている複数の画像データとに基づいて、前記取得された画像データに含まれる人物を推定し、前記推定した人物を示すユーザ情報を出力する推定部と、前記取得された音から音声を抽出し、前記音声に対応するテキストデータと前記音声の特徴量とを抽出し、前記テキストデータと前記特徴量とを対応付けて第１データベースに記録する音声認識部と、前記ユーザ情報と前記第１データベースとに基づいて、前記大人と前記幼児とが会話しているか否かを判定し、前記推定された人物が前記大人と前記幼児とであり、且つ、前記特徴量が互いに異なる複数の特徴量を含む場合、前記大人と前記幼児とが会話していると判定する第１判定部と、前記大人と前記幼児とが会話していると判定された場合、前記第１データベースに基づいて、前記大人と前記幼児とに新たに話題を提供する必要があるか否かを判定し、前記テキストデータに、第１キーワードが含まれている場合、前記大人と前記幼児とに新たに話題を提供する必要があると判定する第２判定部と、前記話題を提供する必要があると判定された場合、前記第１データベースと第２データベースとに基づいて、前記話題の候補を抽出する抽出部と、前記第２データベースは、前記幼児が第１所定期間に活動した項目を示す活動項目を記憶し、前記話題の候補は、前記活動項目に対応し、且つ、前記第１データベースに記録された前記テキストデータに含まれる活動項目に対応しておらず、前記話題の候補から前記大人と前記幼児とに提供する一の話題を選択する選択部と、前記一の話題を含む音声データを生成する生成部と、前記生成された音声データを出力するスピーカと、を備える。

本開示によれば、幼児の活動内容に応じた話題を提供することができ、幼児が会話しやすい話題を提供することができる。

話題提供装置が子どもと対話し、子どもが現在活動している活動項目を特定するとともに、子どもの運動量及び声の音量を測定し、活動項目と運動量と音量とをデータベース化する処理を説明するためのイメージ図である。親子が対話中である際に、話題提供装置が対話の話題を特定する処理を説明するためのイメージ図である。親子に対して次に提供する話題を話題提供装置が選択する処理を説明するためのイメージ図である。選択された話題を話題提供装置が親子に対して提供する処理を説明するためのイメージ図である。本実施の形態１における話題提供装置の全体構成を示す図である。本実施の形態１における話題提供装置の第１処理部の構成を示す図である。本実施の形態１における対話履歴データベースの一例を示す図である。本実施の形態１における幼児活動データベースの一例を示す図である。本実施の形態１における提供話題判断部が話題の候補から大人と幼児とに提供する一の話題を選択する処理について説明するための図である。本実施の形態１における話題提供装置による話題提供処理の一例を示すフローチャートである。図１０のステップＳ１３の提供話題文生成処理について説明するためのフローチャートである。本実施の形態２における話題提供装置の第２処理部の構成を示す図である。本実施の形態２において、活動項目推定部が活動項目を推定する際に用いる、活動項目と人体の各部位の運動量と姿勢の状態とを対応付けた表を示す図である。本実施の形態２における話題提供装置による登録処理の一例を示す第１のフローチャートである。本実施の形態２における話題提供装置による登録処理の一例を示す第２のフローチャートである。本実施の形態３に係るロボットの外観図である。本実施の形態３に係るロボットの構成を示すブロック図である。

（本開示の基礎となった知見）
特許文献１は、ネットワークを介して行われる対話型の通話を円滑に進める対話型通信システムを開示している。特許文献１では、対話型通信システムは、複数ユーザの会話が停滞した場合に、ワードデータベースから最近数ヶ月以内に対話型通信システムの会話に出現したワードを無作為に抽出するとともに、位置情報データベースから最近数ヶ月以内に対話型通信システムを利用したユーザ端末の位置情報を無作為に抽出し、抽出したワードと位置情報とに合致する話題を検索サイト又はニュースサイトへアクセスして検索し、検索した話題を提供している（例えば、段落００３８参照）。また、特許文献１の対話型通信システムは、検索した話題に含まれるテキストデータ又は画像データを対話型通信画面に表示する（例えば、段落００３９参照）。

また、特許文献２は、複数の話者による対話を支援する対話支援装置を開示している。特許文献２では、対話支援装置は、対話に機械翻訳が介在する場合に、対話に応じて知識を補うための補足情報を提示する。特許文献２の対話支援装置は、対話者の発話内容からキーワードを抽出し、補足説明データベースからキーワードに対応する複数の補足情報を出力し、複数の補足情報の中から、優先度が高い順に、予め定められた個数の補足情報を選択して提示する（例えば、段落００９１、００９５及び００９７参照）。

また、特許文献３は、ユーザと対話する対話装置を開示している。特許文献３では、対話装置は、ユーザの発話に対してユーザの関心度に応じた応答を行う。特許文献３の対話装置は、ユーザが表した言語を構成する単語から主要語を抽出し、ユーザの関心度について少なくとも高低を示すユーザ関心度を判定し、関連語データベースからユーザ関心度に応じて主要語と関連する関連語を選択し、主要語と関連語とをそれらの主要語及び関連語の間の概念上の上下関係に対応する定型文に挿入して応答文を作成する（例えば、段落００１１参照）。

しかしながら、上記の特許文献１では、無作為に抽出された過去に出現したワードと、無作為に抽出されたユーザ端末の位置情報とに合致する話題が、検索サイト又はニュースサイトから検索されて提供されるので、幼児の活動内容に応じた話題を提供することはできず、幼児が会話しやすい話題を提供することはできない。

また、上記の特許文献２では、対話者の発話内容からキーワードが抽出され、キーワードに対応する補足情報が優先度の順に提示されるので、幼児の活動内容に応じた話題を提供することはできず、幼児が会話しやすい話題を提供することはできない。

また、上記の特許文献３では、ユーザの発話に対してユーザの関心度に応じた応答を行っているが、幼児の活動内容に応じた話題を提供しておらず、幼児が会話しやすい話題を提供することはできない。

以上の課題を解決するために、本開示の一態様に係る装置は、複数のユーザと音声対話する装置であって、前記装置の周辺の画像データを取得するセンサと、前記装置の周辺の音を取得するマイクと、前記複数のユーザに対応する複数の画像データを記憶しているメモリと、前記複数のユーザは、大人と幼児とを含み、前記取得された画像データと前記記憶されている複数の画像データとに基づいて、前記取得された画像データに含まれる人物を推定し、前記推定した人物を示すユーザ情報を出力する推定部と、前記取得された音から音声を抽出し、前記音声に対応するテキストデータと前記音声の特徴量とを抽出し、前記テキストデータと前記特徴量とを対応付けて第１データベースに記録する音声認識部と、前記ユーザ情報と前記第１データベースとに基づいて、前記大人と前記幼児とが会話しているか否かを判定し、前記推定された人物が前記大人と前記幼児とであり、且つ、前記特徴量が互いに異なる複数の特徴量を含む場合、前記大人と前記幼児とが会話していると判定する第１判定部と、前記大人と前記幼児とが会話していると判定された場合、前記第１データベースに基づいて、前記大人と前記幼児とに新たに話題を提供する必要があるか否かを判定し、前記テキストデータに、第１キーワードが含まれている場合、前記大人と前記幼児とに新たに話題を提供する必要があると判定する第２判定部と、前記話題を提供する必要があると判定された場合、前記第１データベースと第２データベースとに基づいて、前記話題の候補を抽出する抽出部と、前記第２データベースは、前記幼児が第１所定期間に活動した項目を示す活動項目を記憶し、前記話題の候補は、前記活動項目に対応し、且つ、前記第１データベースに記録された前記テキストデータに含まれる活動項目に対応しておらず、前記話題の候補から前記大人と前記幼児とに提供する一の話題を選択する選択部と、前記一の話題を含む音声データを生成する生成部と、前記生成された音声データを出力するスピーカと、を備える。

この構成によれば、装置の周辺の画像データが取得される。装置の周辺の音が取得される。複数のユーザに対応する複数の画像データがメモリに記憶されている。複数のユーザは、大人と幼児とを含む。取得された画像データと記憶されている複数の画像データとに基づいて、取得された画像データに含まれる人物が推定され、推定された人物を示すユーザ情報が出力される。取得された音から音声が抽出され、音声に対応するテキストデータと音声の特徴量とが抽出され、テキストデータと特徴量とが対応付けられて第１データベースに記録される。ユーザ情報と第１データベースとに基づいて、大人と幼児とが会話しているか否かが判定される。推定された人物が大人と幼児とであり、且つ、特徴量が互いに異なる複数の特徴量を含む場合、大人と幼児とが会話していると判定される。大人と幼児とが会話していると判定された場合、第１データベースに基づいて、大人と幼児とに新たに話題を提供する必要があるか否かが判定される。テキストデータに、第１キーワードが含まれている場合、大人と幼児とに新たに話題を提供する必要があると判定される。話題を提供する必要があると判定された場合、第１データベースと第２データベースとに基づいて、話題の候補が抽出される。第２データベースは、幼児が第１所定期間に活動した項目を示す活動項目を記憶している。話題の候補は、活動項目に対応し、且つ、第１データベースに記録されたテキストデータに含まれる活動項目に対応していない。話題の候補から大人と幼児とに提供する一の話題が選択される。一の話題を含む音声データが生成される。生成された音声データが出力される。

したがって、大人と幼児との対話を示すテキストデータを記憶する第１データベースと、幼児が第１所定期間に活動した項目を示す活動項目を記憶する第２データベースとに基づいて、活動項目に対応し、且つ、第１データベースに記録されたテキストデータに含まれる活動項目に対応していない話題の候補が抽出され、話題の候補から大人と幼児とに提供する一の話題が選択されるので、幼児の活動内容に応じた話題を提供することができ、幼児が会話しやすい話題を提供することができる。

また、上記の装置において、前記第２データベースは、更に、前記活動項目に対応する運動量を示す運動量情報と、前記活動項目に対応する音量を示す音量情報と、前記活動項目に対応する日付を示す日付情報とを記憶し、前記抽出部は、前記第２データベースに基づいて、最新の活動項目を特定し、前記最新の活動項目と前記テキストデータに含まれる活動項目とは異なる第２活動項目を、前記話題の候補として抽出し、前記選択部は、前記最新の活動項目に対応する第１運動量と、前記最新の活動項目に対応する第１音量と、前記活動項目のうち第２活動項目に対応する第２運動量と、前記第２活動項目に対応する第２音量とに基づいて、前記第２活動項目から第３活動項目を前記一の話題として選択してもよい。

この構成によれば、第２データベースは、更に、活動項目に対応する運動量を示す運動量情報と、活動項目に対応する音量を示す音量情報と、活動項目に対応する日付を示す日付情報とを記憶している。第２データベースに基づいて、最新の活動項目が特定され、最新の活動項目とテキストデータに含まれる活動項目とは異なる第２活動項目が、話題の候補として抽出される。最新の活動項目に対応する第１運動量と、最新の活動項目に対応する第１音量と、活動項目のうち第２活動項目に対応する第２運動量と、第２活動項目に対応する第２音量とに基づいて、第２活動項目から第３活動項目が一の話題として選択される。

したがって、最新の活動項目とテキストデータに含まれる活動項目とは異なる第２活動項目が、話題の候補として抽出されるので、既に大人と幼児との対話で登場した活動項目を、話題の候補から除外することができ、新たな話題を提供することができる。

また、上記の装置において、前記選択部は、前記第１運動量に対する前記第２運動量の相対運動量の二乗と、前記第１音量に対する前記第２音量の相対音量の二乗との和が最大となる第２活動項目を前記第３活動項目として選択してもよい。

この構成によれば、第１運動量に対する第２運動量の相対運動量の二乗と、第１音量に対する第２音量の相対音量の二乗との和が最大となる第２活動項目が第３活動項目として選択される。

したがって、最新の活動項目とは、運動量及び音量が大きく異なる第２活動項目が第３活動項目として選択されるので、対話中の現在の話題とは全く異なる話題を提供することができる。

また、上記の装置において、前記抽出部は、前記最新の活動項目と前記テキストデータに含まれる活動項目とは異なり、且つ第２所定期間に記録された第２活動項目を、前記話題の候補として抽出してもよい。

この構成によれば、最新の活動項目とテキストデータに含まれる活動項目とは異なり、且つ第２所定期間に記録された第２活動項目が、話題の候補として抽出されるので、比較的新しい第２活動項目の中から話題の候補を抽出することができる。

また、上記の装置において、前記運動量情報は、前記運動量に第１係数が乗算された値であり、前記音量情報は、前記音量に第２係数が乗算された値であってもよい。

この構成によれば、運動量情報は、運動量に第１係数が乗算された値であり、音量情報は、音量に第２係数が乗算された値であるので、運動量のスケールと音量のスケールとを合わせることができる。

また、上記の装置において、前記生成部は、前記第２データベースに基づいて、前記第３活動項目に対応する第３運動量が第１閾値以上である場合は、第２キーワードを含む前記音声データを生成し、前記第２データベースに基づいて、前記第３活動項目に対応する第３運動量が前記第１閾値未満である場合は、第３キーワードを含む前記音声データを生成してもよい。

この構成によれば、第２データベースに基づいて、第３活動項目に対応する第３運動量が第１閾値以上である場合は、第２キーワードを含む音声データが生成される。また、第２データベースに基づいて、第３活動項目に対応する第３運動量が第１閾値未満である場合は、第３キーワードを含む音声データが生成される。したがって、運動量の大きさに応じて、異なる音声データを出力することができる。

また、上記の装置において、前記第２キーワード及び前記第３キーワードは、前記第３活動項目に取り組む前記幼児の活発さを示す修飾語を含み、前記第２キーワードが示す意味は、前記第３キーワードが示す意味とは反対の意味であってもよい。

この構成によれば、第２キーワード及び第３キーワードは、第３活動項目に取り組む幼児の活発さを示す修飾語を含む。第２キーワードが示す意味は、第３キーワードが示す意味とは反対の意味である。したがって、より幼児が話しやすい話題を提供することができる。

また、上記の装置において、前記生成部は、前記第２データベースに基づいて、前記第３活動項目に対応する第３音量が第１閾値以上である場合は、第２キーワードを含む前記音声データを生成し、前記第２データベースに基づいて、前記第３活動項目に対応する第３音量が第１閾値未満である場合は、第３キーワードを含む前記音声データを生成してもよい。

この構成によれば、第２データベースに基づいて、第３活動項目に対応する第３音量が第１閾値以上である場合は、第２キーワードを含む音声データが生成される。また、第２データベースに基づいて、第３活動項目に対応する第３音量が第１閾値未満である場合は、第３キーワードを含む音声データが生成される。したがって、音量の大きさに応じて、異なる音声データを出力することができる。

また、上記の装置において、前記特徴量は、前記音声を発話した発話者の声紋を含んでもよい。この構成によれば、音声を発話した発話者の声紋により、人物をより正確に認識することができる。

また、上記の装置において、前記第１キーワードは、話題を示す単語を含んでもよい。この構成によれば、大人又は幼児は、装置に対して新たな話題を要求することができる。

本開示の他の態様に係るロボットは、請求項１記載の装置と、前記装置を内蔵する筐体と、前記筐体を移動させる移動機構と、を備える。この構成によれば、上記の装置をロボットに適用することができる。

本開示の他の態様に係る方法は、複数のユーザと音声対話する装置における方法であって、前記装置の周辺の画像データを取得し、前記装置の周辺の音を取得し、前記取得した画像データと、前記複数のユーザに対応する複数の画像データを記憶するメモリに記憶されている複数の画像データとに基づいて、前記取得した画像データに含まれる人物を推定し、前記推定した人物を示すユーザ情報を出力し、前記複数のユーザは、大人と幼児とを含み、前記取得した音から音声を抽出し、前記音声に対応するテキストデータと前記音声の特徴量とを抽出し、前記テキストデータと前記特徴量とを対応付けて第１データベースに記録し、前記ユーザ情報と前記第１データベースとに基づいて、前記大人と前記幼児とが会話しているか否かを判定し、前記推定した人物が前記大人と前記幼児とであり、且つ、前記特徴量が互いに異なる複数の特徴量を含む場合、前記大人と前記幼児とが会話していると判定し、前記大人と前記幼児とが会話していると判定した場合、前記第１データベースに基づいて、前記大人と前記幼児とに新たに話題を提供する必要があるか否かを判定し、前記テキストデータに、第１キーワードが含まれている場合、前記大人と前記幼児とに新たに話題を提供する必要があると判定し、前記話題を提供する必要があると判定した場合、前記第１データベースと第２データベースとに基づいて、前記話題の候補を抽出し、前記第２データベースは、前記幼児が第１所定期間に活動した項目を示す活動項目を記憶し、前記話題の候補は、前記活動項目に対応し、且つ、前記第１データベースに記録された前記テキストデータに含まれる活動項目に対応しておらず、前記話題の候補から前記大人と前記幼児とに提供する一の話題を選択し、前記一の話題を含む音声データを生成し、前記生成した音声データを出力する。

この構成によれば、装置の周辺の画像データが取得される。装置の周辺の音が取得される。取得した画像データと、複数のユーザに対応する複数の画像データを記憶するメモリに記憶されている複数の画像データとに基づいて、取得した画像データに含まれる人物が推定され、推定された人物を示すユーザ情報が出力される。複数のユーザは、大人と幼児とを含む。取得された音から音声が抽出され、音声に対応するテキストデータと音声の特徴量とが抽出され、テキストデータと特徴量とが対応付けられて第１データベースに記録される。ユーザ情報と第１データベースとに基づいて、大人と幼児とが会話しているか否かが判定される。推定された人物が大人と幼児とであり、且つ、特徴量が互いに異なる複数の特徴量を含む場合、大人と幼児とが会話していると判定される。大人と幼児とが会話していると判定された場合、第１データベースに基づいて、大人と幼児とに新たに話題を提供する必要があるか否かが判定される。テキストデータに、第１キーワードが含まれている場合、大人と幼児とに新たに話題を提供する必要があると判定される。話題を提供する必要があると判定された場合、第１データベースと第２データベースとに基づいて、話題の候補が抽出される。第２データベースは、幼児が第１所定期間に活動した項目を示す活動項目を記憶している。話題の候補は、活動項目に対応し、且つ、第１データベースに記録されたテキストデータに含まれる活動項目に対応していない。話題の候補から大人と幼児とに提供する一の話題が選択される。一の話題を含む音声データが生成される。生成された音声データが出力される。

本開示の他の態様に係るプログラムは、複数のユーザと音声対話するためのプログラムであって、前記複数のユーザと音声対話する装置が備えるプロセッサを、センサによって取得された前記装置の周辺の画像データと、前記複数のユーザに対応する複数の画像データを記憶しているメモリに記憶されている複数の画像データとに基づいて、前記取得された画像データに含まれる人物を推定し、前記推定した人物を示すユーザ情報を出力する推定部と、前記複数のユーザは、大人と幼児とを含み、マイクによって取得された前記装置の周辺の音から音声を抽出し、前記音声に対応するテキストデータと前記音声の特徴量とを抽出し、前記テキストデータと前記特徴量とを対応付けて第１データベースに記録する音声認識部と、前記ユーザ情報と前記第１データベースとに基づいて、前記大人と前記幼児とが会話しているか否かを判定し、前記推定された人物が前記大人と前記幼児とであり、且つ、前記特徴量が互いに異なる複数の特徴量を含む場合、前記大人と前記幼児とが会話していると判定する第１判定部と、前記大人と前記幼児とが会話していると判定された場合、前記第１データベースに基づいて、前記大人と前記幼児とに新たに話題を提供する必要があるか否かを判定し、前記テキストデータに、第１キーワードが含まれている場合、前記大人と前記幼児とに新たに話題を提供する必要があると判定する第２判定部と、前記話題を提供する必要があると判定された場合、前記第１データベースと第２データベースとに基づいて、前記話題の候補を抽出する抽出部と、前記第２データベースは、前記幼児が第１所定期間に活動した項目を示す活動項目を記憶し、前記話題の候補は、前記活動項目に対応し、且つ、前記第１データベースに記録された前記テキストデータに含まれる活動項目に対応しておらず、前記話題の候補から前記大人と前記幼児とに提供する一の話題を選択する選択部と、前記一の話題を含む音声データを生成し、前記生成した音声データをスピーカに出力する生成部として機能させる。

この構成によれば、センサによって取得された装置の周辺の画像データと、複数のユーザに対応する複数の画像データを記憶しているメモリに記憶されている複数の画像データとに基づいて、取得された画像データに含まれる人物が推定され、推定された人物を示すユーザ情報が出力される。複数のユーザは、大人と幼児とを含む。マイクによって取得された装置の周辺の音から音声が抽出され、音声に対応するテキストデータと音声の特徴量とが抽出され、テキストデータと特徴量とが対応付けられて第１データベースに記録される。ユーザ情報と第１データベースとに基づいて、大人と幼児とが会話しているか否かが判定される。推定された人物が大人と幼児とであり、且つ、特徴量が互いに異なる複数の特徴量を含む場合、大人と幼児とが会話していると判定される。大人と幼児とが会話していると判定された場合、第１データベースに基づいて、大人と幼児とに新たに話題を提供する必要があるか否かが判定される。テキストデータに、第１キーワードが含まれている場合、大人と幼児とに新たに話題を提供する必要があると判定される。話題を提供する必要があると判定された場合、第１データベースと第２データベースとに基づいて、話題の候補が抽出される。第２データベースは、幼児が第１所定期間に活動した項目を示す活動項目を記憶している。話題の候補は、活動項目に対応し、且つ、第１データベースに記録されたテキストデータに含まれる活動項目に対応していない。話題の候補から大人と幼児とに提供する一の話題が選択される。一の話題を含む音声データが生成される。生成された音声データがスピーカに出力される。

本開示の他の態様に係る装置は、ユーザと音声対話する装置であって、前記装置の周辺の画像データと、前記装置の周辺に存在する人物を含む物体までの距離を示す距離データとを取得するセンサと、前記装置の周辺の音を取得するマイクと、メモリと、前記取得された音から音声を抽出し、前記抽出した音声の音量を示す音量情報を出力する音量測定部と、前記取得された画像データと前記メモリに記憶されている前記ユーザに対応する画像データとに基づいて、前記取得された画像データに含まれる人物を推定し、前記推定した人物を示すユーザ情報を出力する人物推定部と、前記ユーザは幼児を含み、前記ユーザ情報が示す人物が前記幼児である場合、前記取得された画像データと、前記取得された距離データと、前記メモリに記憶されている人体の各姿勢における３次元骨格位置を示す人体モデルデータとに基づいて、前記幼児の姿勢を推定し、前記推定した幼児の姿勢を示す姿勢情報を出力する姿勢推定部と、前記ユーザ情報が示す人物が前記幼児である場合、前記取得された画像データと、前記取得された距離データと、前記記憶されている人体モデルデータとに基づいて、前記幼児の特定部位の第１所定期間における位置の変化量を運動量として算出し、前記運動量を示す運動量情報を出力する運動量測定部と、前記姿勢情報と、前記運動量情報と、前記メモリに記憶されている前記幼児が行う活動項目と当該活動項目に対応する運動量と当該活動項目に対応する幼児の姿勢との対応関係を示したテーブルとに基づいて、もしくは、前記抽出された音声に含まれる名詞に基づいて、前記幼児が現在行っている活動項目を推定し、前記推定した活動項目を示す活動情報を出力する活動項目推定部と、前記活動情報に示された活動項目に対応するキーワードを含む第１音声データを生成する生成部と、前記第１音声データは疑問文で表され、前記第１音声データを出力するスピーカと、前記第１音声データが出力された後に、取得された音から抽出された音声の内容を認識し、認識された音声の内容を示すテキストデータを出力する音声認識部と、前記テキストデータに肯定語が含まれているか否かを判定する判定部と、前記テキストデータに肯定語が含まれていると判定された場合、前記活動情報と前記運動量情報と前記音量情報とを対応付けてデータベースに記録する記録部と、を備える。

この構成によれば、装置の周辺の画像データと、装置の周辺に存在する人物を含む物体までの距離を示す距離データとが取得される。装置の周辺の音が取得される。取得された音から音声が抽出され、抽出された音声の音量を示す音量情報が出力される。取得された画像データとメモリに記憶されているユーザに対応する画像データとに基づいて、取得された画像データに含まれる人物が推定され、推定された人物を示すユーザ情報が出力される。ユーザは幼児を含む。ユーザ情報が示す人物が幼児である場合、取得された画像データと、取得された距離データと、メモリに記憶されている人体の各姿勢における３次元骨格位置を示す人体モデルデータとに基づいて、幼児の姿勢が推定され、推定された幼児の姿勢を示す姿勢情報が出力される。ユーザ情報が示す人物が幼児である場合、取得された画像データと、取得された距離データと、記憶されている人体モデルデータとに基づいて、幼児の特定部位の第１所定期間における位置の変化量が運動量として算出され、運動量を示す運動量情報が出力される。姿勢情報と、運動量情報と、メモリに記憶されている幼児が行う活動項目と当該活動項目に対応する運動量と当該活動項目に対応する幼児の姿勢との対応関係を示したテーブルとに基づいて、もしくは、抽出された音声に含まれる名詞に基づいて、幼児が現在行っている活動項目が推定され、推定された活動項目を示す活動情報が出力される。活動情報に示された活動項目に対応するキーワードを含む第１音声データが生成される。第１音声データは疑問文で表される。第１音声データが出力される。第１音声データが出力された後に、取得された音から抽出された音声の内容が認識され、認識された音声の内容を示すテキストデータが出力される。テキストデータに肯定語が含まれているか否かが判定される。テキストデータに肯定語が含まれていると判定された場合、活動情報と運動量情報と音量情報とが対応付けられてデータベースに記録される。

したがって、幼児の姿勢と幼児の運動量とに基づいて、もしくは、抽出された音声に含まれる名詞に基づいて、幼児が現在行っている活動項目が推定され、推定された活動項目を示す活動情報と運動量情報と音量情報とが対応付けられてデータベースに記録されるので、幼児に応じたデータベースを容易に作成することができる。

また、活動項目を示す活動情報と運動量情報と音量情報とが対応付けられたデータベースを用いることで、幼児の活動内容に応じた話題を提供することができ、幼児が会話しやすい話題を提供することができる。

また、上記の装置において、前記第１音声データは、前記幼児が前記推定された活動項目を行っているか否かを尋ねるテキストデータを含んでもよい。

この構成によれば、第１音声データは、幼児が推定された活動項目を行っているか否かを尋ねるテキストデータを含むので、幼児が実際に行っている活動項目を確実に特定することができる。

また、上記の装置において、前記判定部は、前記テキストデータに前記肯定語が含まれていないと判定した場合、前記テキストデータに否定語が含まれているか否かを判定し、前記活動項目推定部は、前記判定部によって前記テキストデータに前記否定語が含まれていないと判定された場合、前記テキストデータに名詞が含まれているか否かを判定し、前記テキストデータに前記名詞が含まれていると判定した場合は、前記名詞が、前記幼児が現在行っている活動項目を示していると推定してもよい。

この構成によれば、テキストデータに肯定語が含まれていないと判定された場合、テキストデータに否定語が含まれているか否かが判定される。テキストデータに否定語が含まれていないと判定された場合、テキストデータに名詞が含まれているか否かが判定され、テキストデータに名詞が含まれていると判定された場合は、名詞が、幼児が現在行っている活動項目を示していると推定される。

したがって、推定した活動項目が幼児によって否定された場合、幼児が応答したテキストデータに含まれる名詞を、幼児が現在行っている活動項目として特定することができる。

また、上記の装置において、前記生成部は、前記活動項目推定部によって前記テキストデータに前記名詞が含まれていないと判定された場合、前記幼児に何をしているか尋ねるための第２音声データを生成し、前記スピーカは、前記第２音声データを出力してもよい。

この構成によれば、テキストデータに名詞が含まれていないと判定された場合、幼児に何をしているか尋ねるための第２音声データが生成され、第２音声データが出力されるので、幼児が現在行っている活動項目を確実に特定することができる。

また、上記の装置において、前記運動量測定部は、前記第１所定期間を含む第２所定期間における前記変化量の平均値を前記運動量として算出し、前記音量測定部は、前記第２所定期間において抽出された音声の音量の平均値を前記音量情報として出力してもよい。

この構成によれば、第１所定期間を含む第２所定期間における変化量の平均値が運動量として算出される。また、第２所定期間において抽出された音声の音量の平均値が音量情報として出力される。

したがって、第２所定期間における変化量の平均値を運動量として算出することができるとともに、第２所定期間において抽出された音声の音量の平均値を音量情報として出力することができる。

また、上記の装置において、前記記録部は、第１係数が乗算された前記運動量を前記運動量情報として前記データベースに記録するとともに、第２係数が乗算された前記音量を前記音量情報として前記データベースに記録し、前記第１係数は、所定の第１定数を第２定数で除算した値であり、前記第２係数は、所定の第３定数を前記第２定数で除算した値であってもよい。

この構成によれば、第１係数が乗算された運動量が運動量情報としてデータベースに記録されるとともに、第２係数が乗算された音量が音量情報としてデータベースに記録される。第１係数は、所定の第１定数を第２定数で除算した値であり、第２係数は、所定の第３定数を第２定数で除算した値である。したがって、運動量のスケールと音量のスケールとを合わせることができる。

本開示の他の態様に係るロボットは、請求項１５記載の装置と、前記装置を内蔵する筐体と、前記筐体を移動させる移動機構と、を備える。この構成によれば、上記の装置をロボットに適用することができる。

本開示の他の態様に係る方法は、ユーザと音声対話する装置における方法であって、前記装置の周辺の画像データと、前記装置の周辺に存在する人物を含む物体までの距離を示す距離データとを取得し、前記装置の周辺の音を取得し、前記取得した音から音声を抽出し、前記抽出した音声の音量を示す音量情報を出力し、前記取得した画像データとメモリに記憶されている前記ユーザに対応する画像データとに基づいて、前記取得した画像データに含まれる人物を推定し、前記推定した人物を示すユーザ情報を出力し、前記ユーザは幼児を含み、前記ユーザ情報が示す人物が前記幼児である場合、前記取得した画像データと、前記取得した距離データと、前記メモリに記憶されている人体の各姿勢における３次元骨格位置を示す人体モデルデータとに基づいて、前記幼児の姿勢を推定し、前記推定した幼児の姿勢を示す姿勢情報を出力し、前記ユーザ情報が示す人物が前記幼児である場合、前記取得した画像データと、前記取得した距離データと、前記記憶されている人体モデルデータとに基づいて、前記幼児の特定部位の第１所定期間における位置の変化量を運動量として算出し、前記運動量を示す運動量情報を出力し、前記姿勢情報と、前記運動量情報と、前記メモリに記憶されている前記幼児が行う活動項目と当該活動項目に対応する運動量との対応関係を示したテーブルとに基づいて、もしくは、前記抽出した音声に含まれる名詞に基づいて、前記幼児が現在行っている活動項目を推定し、前記推定した活動項目を示す活動情報を出力し、前記活動情報に示された活動項目に対応するキーワードを含む第１音声データを生成し、前記第１音声データは疑問文で表され、前記第１音声データを出力し、前記第１音声データを出力した後に、取得した音から抽出した音声の内容を認識し、認識した音声の内容を示すテキストデータを出力し、前記テキストデータに肯定語が含まれているか否かを判定し、前記テキストデータに肯定語が含まれていると判定した場合、前記活動情報と前記運動量情報と前記音量情報とを対応付けてデータベースに記録する。

本開示の他の態様に係るプログラムは、ユーザと音声対話するためのプログラムであって、前記ユーザと音声対話する装置が備えるプロセッサを、マイクによって取得された前記装置の周辺の音から音声を抽出し、前記抽出した音声の音量を示す音量情報を出力する音量測定部と、センサによって取得された前記装置の周辺の画像データとメモリに記憶されている前記ユーザに対応する画像データとに基づいて、前記取得された画像データに含まれる人物を推定し、前記推定した人物を示すユーザ情報を出力する人物推定部と、前記ユーザは幼児を含み、前記ユーザ情報が示す人物が前記幼児である場合、前記取得された画像データと、前記センサによって取得された前記装置の周辺に存在する人物を含む物体までの距離を示す距離データと、前記メモリに記憶されている人体の各姿勢における３次元骨格位置を示す人体モデルデータとに基づいて、前記幼児の姿勢を推定し、前記推定した幼児の姿勢を示す姿勢情報を出力する姿勢推定部と、前記ユーザ情報が示す人物が前記幼児である場合、前記取得された画像データと、前記取得された距離データと、前記記憶されている人体モデルデータとに基づいて、前記幼児の特定部位の第１所定期間における位置の変化量を運動量として算出し、前記運動量を示す運動量情報を出力する運動量測定部と、前記姿勢情報と、前記運動量情報と、前記メモリに記憶されている前記幼児が行う活動項目と当該活動項目に対応する運動量との対応関係を示したテーブルとに基づいて、もしくは、前記抽出された音声に含まれる名詞に基づいて、前記幼児が現在行っている活動項目を推定し、前記推定した活動項目を示す活動情報を出力する活動項目推定部と、前記活動情報に示された活動項目に対応するキーワードを含む第１音声データを生成し、前記第１音声データをスピーカへ出力する生成部と、前記第１音声データは疑問文で表され、前記第１音声データを出力した後に、取得された音から抽出された音声の内容を認識し、認識された音声の内容を示すテキストデータを出力する音声認識部と、前記テキストデータに肯定語が含まれているか否かを判定する判定部と、前記テキストデータに肯定語が含まれていると判定された場合、前記活動情報と前記運動量情報と前記音量情報とを対応付けてデータベースに記録する記録部として機能させる。

この構成によれば、マイクによって取得された装置の周辺の音から音声が抽出され、抽出された音声の音量を示す音量情報が出力される。センサによって取得された装置の周辺の画像データとメモリに記憶されているユーザに対応する画像データとに基づいて、取得された画像データに含まれる人物が推定され、推定された人物を示すユーザ情報が出力される。ユーザは幼児を含む。ユーザ情報が示す人物が幼児である場合、取得された画像データと、センサによって取得された装置の周辺に存在する人物を含む物体までの距離を示す距離データと、メモリに記憶されている人体の各姿勢における３次元骨格位置を示す人体モデルデータとに基づいて、幼児の姿勢が推定され、推定された幼児の姿勢を示す姿勢情報が出力される。ユーザ情報が示す人物が幼児である場合、取得された画像データと、取得された距離データと、記憶されている人体モデルデータとに基づいて、幼児の特定部位の第１所定期間における位置の変化量が運動量として算出され、運動量を示す運動量情報が出力される。姿勢情報と、運動量情報と、メモリに記憶されている幼児が行う活動項目と当該活動項目に対応する運動量との対応関係を示したテーブルとに基づいて、もしくは、抽出された音声に含まれる名詞に基づいて、幼児が現在行っている活動項目が推定され、推定された活動項目を示す活動情報が出力される。活動情報に示された活動項目に対応するキーワードを含む第１音声データが生成され、第１音声データがスピーカへ出力される。第１音声データは疑問文で表される。第１音声データを出力した後に、取得された音から抽出された音声の内容が認識され、認識された音声の内容を示すテキストデータが出力される。テキストデータに肯定語が含まれているか否かが判定される。テキストデータに肯定語が含まれていると判定された場合、活動情報と運動量情報と音量情報とが対応付けられてデータベースに記録される。

以下、本開示の各実施の形態について、図面を参照しながら説明する。なお、以下の実施の形態は、本開示を具体化した一例であって、本開示の技術的範囲を限定するものではない。また、各図面において、同じ構成要素については同じ符号が用いられている。

（実施の形態１）
まず始めに、話題提供装置と子ども（例えば、幼児）と大人（例えば、子どもの親等）との対話について、図１、図２、図３及び図４を用いて説明する。話題提供装置１００と子どもと大人との対話は、図１、図２、図３及び図４に示される場面順で進行する。

なお、本開示の各実施の形態において、子どもは、３歳〜６歳の幼児を示す。

図１は、話題提供装置が子どもと対話し、子どもが現在活動している活動項目を特定するとともに、子どもの運動量及び声の音量を測定し、活動項目と運動量と音量とをデータベース化する処理を説明するためのイメージ図である。図１では、話題提供装置１００が子ども１１と対話し、子ども１１が今何をしているか、すなわち子ども１１の活動項目（例えば、ダンス）を特定する。また、その際、話題提供装置１００は、子ども１１の声の音量と子ども１１の運動量とを測定し、活動項目と運動量と音量とをデータベース化する。なお、図１の処理は、話題提供装置１００の第２処理部が行う処理に対応し、第２処理部については実施の形態２において詳細を説明する。

図２は、親子が対話中である際に、話題提供装置が対話の話題を特定する処理を説明するためのイメージ図である。図２では、例として、話題提供装置１００が特定した話題が「絵本」であった場合を示している。例えば、夜に、親１２は、子ども１１に対して、今日何をして遊んでいたかを尋ねている。これに対し、子ども１１は、絵本を読んでいたと返答している。このとき、話題提供装置１００は、親１２と子ども１１との現在の話題が「絵本」であることを特定している。なお、図２の処理は、話題提供装置１００の第１処理部が行う処理に対応し、第１処理部については実施の形態１において詳細を説明する。

図３は、親子に対して次に提供する話題を話題提供装置が選択する処理を説明するためのイメージ図である。話題提供装置１００は、現在の話題（図２）と、予め生成されたデータベース（図１）とに基づいて、親１２及び子ども１１に対して次に提供する話題を選択する。図３では、例として、話題提供装置１００が「ヒーローごっこ」を親１２と子ども１１とに提供する次の話題として選択した場合を示している。なお、本開示の目的は、起伏に富んだ話題を親子に対話させることによって親子間の対話を充足させるきっかけを与えることを目的としている。そのため、話題提供装置１００は、現在の話題（例えば、絵本等の比較的動きが少ない活動項目）から子ども１１の運動量及び子ども１１の声の音量が大きく異なる話題（例えば、ヒーローごっこ等の比較的動きが活発な活動項目）を次に提供する話題として選択している。図３の処理は、話題提供装置１００の第１処理部が行う処理に対応し、第１処理部については実施の形態１において詳細を説明する。

図４は、選択された話題を話題提供装置が親子に対して提供する処理を説明するためのイメージ図である。図４では、例として、話題提供装置１００が「ヒーローごっこ」を次の話題として提供している場合を示している。この場合、話題提供装置１００は、「そういえば、今日はヒーローごっこをして遊んだよね」という音声を出力している。話題提供装置１００の音声出力に対して子ども１１は「うん！」と答えている。このように、新たな話題を提供することにより、特に親１２は今日子どもが何をしていたのかを認識し、親１２及び子１１に対して次は「ヒーローごっこ」について話してみたいというモチベーションを与えることになる。なお、図４の処理は、話題提供装置１００の第１処理部が行う処理に対応し、第１処理部については実施の形態１において詳細を説明する。

図５は、本実施の形態１における話題提供装置の全体構成を示す図である。第１処理部２００と第２処理部３００は、時間軸が違うタイミングで呼び出されるため、便宜上分けている。図６は、本実施の形態１における話題提供装置の第１処理部の構成を示す図である。なお、話題提供装置の第２処理部の構成については、実施の形態２において説明する。

図５及び図６に示す話題提供装置１００は、センサ１０１と、マイク１０２と、人物推定部１０３と、音声認識部１０４と、応答文生成部１０５と、音声合成部１０６と、スピーカ１０７と、メモリ１０８と、第１処理部２００と、第２処理部３００と、対話履歴データベース（ＤＢ）２０２と、幼児活動データベース（ＤＢ）２０４とを備える。第１処理部２００は、親子対話判断部２０１と、話題提供判断部２０３と、対話話題判断部２０５と、話題候補抽出部２０６と、提供話題判断部２０７とを備える。

センサ１０１は、話題提供装置１００の周辺の画像データを取得する。センサ１０１は、例えばカメラであり、人物を撮影した画像データを人物推定部１０３へ出力する。なお、センサ１０１は、距離センサであってもよく、人物の３次元のモデルデータを取得し、人物推定部１０３へ出力してもよい。つまり、センサ１０１は、人物ごとの身体的な特徴を示すデータを取得できればよい。

マイク１０２は、話題提供装置１００の周辺の音を取得する。マイク１０２は、ユーザが発話した音声を収音し、音声認識部１０４へ出力する。

メモリ１０８は、複数のユーザに対応する複数の画像データを記憶している。複数のユーザは、大人と幼児とを含む。すなわち、メモリ１０８は、話題提供装置１００が配置される家の家族の構成員を撮影した複数の画像データを記憶する。家族の構成員は、例えば、父及び母である親と、幼児である子どもとを含む。話題提供装置１００は、大人（親）と幼児（子ども）と音声対話する。

人物推定部１０３は、センサ１０１によって取得された画像データと、メモリ１０８に記憶されている複数の画像データとに基づいて、取得された画像データに含まれる人物を推定し、推定した人物を示すユーザ情報を出力する。人物推定部１０３は、センサ１０１が出力した画像データ内の人物の顔の特徴点の情報と、メモリ１０８に予め記憶された特定のユーザ毎の画像データ内のユーザの顔の特徴点の情報とを用いて、パターンマッチング等の公知の人物推定処理により、センサ１０１が出力した画像データ内に含まれる人物を推定する。また、人物推定部１０３は、センサ１０１が出力した画像データ内に複数の人物が撮影されている場合は、当該画像データ内の人物それぞれに、上記の人物推定処理を行い、複数の人物に対応する複数のユーザ情報を同時に出力してもよい。人物推定部１０３は、推定したユーザ情報を親子対話判断部２０１へ出力する。

音声認識部１０４は、マイク１０２によって取得された音から音声を抽出し、音声に対応するテキストデータと音声の特徴量とを抽出し、テキストデータと特徴量とを対応付けて対話履歴データベース２０２（第１データベース）に記録する。なお、特徴量は、音声を発話した発話者の声紋を含む。

音声認識部１０４は、まず、マイク１０２で収音したアナログデータをデジタルデータに変換する。例えば、音声認識部１０４は、パルス符号変調（ＰＣＭ：ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）等を用いてアナログの音声をデジタル化する。音声認識部１０４は、デジタル化された音声データに対してメモリ１０８内に記憶された音響モデル及び言語モデルを用いた公知の音声認識処理を実行することにより、音声データが示す音声に含まれている人物の発話の音声を検知し、音声データを当該発話の内容を表すテキストデータに変換する。なお、音声認識部１０４は、クラウドサーバ上に記憶された音響モデル及び言語モデルを利用してもよい。音響モデルは、音の波形サンプルを保持しており、言語モデルは、所定の言語の単語の並び方といった言葉の情報を保持している。クラウドサーバ上に記憶された音響モデル及び言語モデルを利用する場合は、話題提供装置１００は、デジタル化された音声データをクラウドサーバに送信し、クラウドサーバ上で変換されたテキストデータを受信する。

音声認識部１０４が生成するテキストデータは、生成過程において、上記の音声データの音声特性から同一人物であるか否かを示す属性情報を付加している。例えば、２人の人物が存在し、３つの音声データＡ、Ｂ、Ｃを取得し、音声データＡ及びＢが第１の人物による発話であり、音声データＣが第２の人物による発話である場合、音声認識部１０４は、所定の方法で音声データＡ及びＢには同一の第１の人物による発話であることを示すタグを付与し、音声データＣには第２の人物による発話であることを示すタグを付与する。音声認識部１０４は、生成したテキストデータを対話履歴データベース２０２へ出力する。

図７は、本実施の形態１における対話履歴データベースの一例を示す図である。図７に示すように、対話履歴データベース２０２は、音声認識部１０４が出力したテキストデータと、当該テキストデータを登録したタイミングを示すタイムスタンプと、当該テキストデータの発話者を識別する情報とを対応付けて登録する。対話履歴データベース２０２は、親子対話判断部２０１と話題提供判断部２０３と対話話題判断部２０５とで使用される。

親子対話判断部２０１は、ユーザ情報と対話履歴データベース２０２とに基づいて、親（大人）と子ども（幼児）とが会話しているか否かを判定する。親子対話判断部２０１は、推定された人物が親子であり、且つ、特徴量が互いに異なる複数の特徴量を含む場合、親子が会話していると判定する。

親子対話判断部２０１は、複数の人物が親子であり、親子が対話しているか否かを判断する。親子対話判断部２０１は、人物推定部１０３の推定結果により複数の人物が親子であるか否かを判断し、対話履歴データベース２０２から親子が対話状態にあるか否かを判断する。

親子対話判断部２０１は、人物推定部１０３が出力したユーザ情報が親及び子どものいずれか一方を示し、所定の時間内に、ユーザ情報が親及び子どものいずれか他方を示す場合に、親と子どもとが同時に存在していると判断する。もしくは、複数のユーザ情報が特定され、親と子どもとが同時に検出されてもよい。人物推定部１０３が出力したユーザ情報が、例えば親である場合、親を検出してから所定時間内に、人物推定部１０３が子どものユーザ情報を出力したときに、親子対話判断部２０１は、親と子どもとが同時に存在していると判断する。

また、親子対話判断部２０１は、親子が同時に存在していると判断している場合に、対話履歴データベース２０２を参照して、所定の時間内に、二人の人物が発話をしている場合に親子が対話していると判断する。親子対話判断部２０１は、対話履歴データベース２０２を参照して、親子が対話していると認識したテキストデータのタイムスタンプが示す時刻から１つ前のテキストデータのタイムスタンプが示す時刻までの経過時間が所定時間以内である場合、当該１つ前のテキストデータは親子で対話中の発話内容であると判断する。そして、親子対話判断部２０１は、１つ前のテキストデータのタイムスタンプを順に遡って確認し、経過時間が所定時間より長い場合、テキストデータのタイムスタンプを親子が対話を開始した時刻を示す開始時間であると判断する。親子対話判断部２０１は、親子が対話していると判断した場合に、親子の対話の開始時間をメモリ１０８に記録する。

話題提供判断部２０３は、親（大人）と子ども（幼児）とが会話していると判定された場合、対話履歴データベース２０２に基づいて、親子に新たに話題を提供する必要があるか否かを判断する。話題提供判断部２０３は、テキストデータに、所定のキーワード（第１キーワード）が含まれている場合、親子に新たに話題を提供する必要があると判断する。所定のキーワードは、話題を示す単語を含む。

話題提供判断部２０３は、親子対話判断部２０１によって親子が対話していると判断されたときに、対話履歴データベース２０２のテキストデータを用いて話題を提供する必要があるか否かを判断する。話題提供判断部２０３は、対話履歴データベース２０２内の最新のテキストデータを参照して、当該テキストデータに所定のキーワードが含まれている場合、話題を提供する必要があると判断する。所定のキーワードとは、例えば「話題をちょうだい」というような話題を要求するようなキーワードである。話題提供判断部２０３は、このようなキーワードがテキストデータに含まれている場合に、話題を提供する必要があると判断する。

話題提供判断部２０３は、親と子どもが存在しており、且つ、テキストデータが最後に対話履歴データベース２０２に記録されてから所定時間経過した場合に、話題を提供する必要があると判断してもよい。この場合、親と子どもとが対話している間に、話題がなくなり、沈黙が続いた場合に、新たな話題が提供されることになる。

幼児活動データベース２０４は、子ども（幼児）が第１所定期間に活動した項目を示す活動項目を記憶する。また、幼児活動データベース２０４は、更に、活動項目に対応する運動量を示す運動量情報と、活動項目に対応する音量を示す音量情報と、活動項目に対応する日付を示す日付情報とを記憶する。すなわち、幼児活動データベース２０４は、活動項目と、運動量情報と、音量情報と、日付情報とを対応付けて記憶している。

図８は、本実施の形態１における幼児活動データベースの一例を示す図である。幼児活動データベース２０４は、幼児が活動した内容を示す活動項目と、幼児の活動時の運動量と、幼児の活動時の音量と、幼児が活動した日時とが記憶されている。幼児が活動した内容は、幼児の遊びの内容であり、例えば「ヒーローごっこ」、「汽車の物まね」、「人形遊び」、「絵本」又は「積み木」等がある。幼児の活動時の運動量は、活動中に幼児がどれだけ動いたかを表す指標である。運動量情報は、運動量に第１係数が乗算された値である。幼児の活動時の音量とは、活動中に発生した音の大きさを表す指標である。音量情報は、音量に第２係数が乗算された値である。幼児活動データベース２０４の作成方法に関する詳細は後述する実施の形態２で説明する。

対話話題判断部２０５は、親子の対話中に既に登場した話題を判断する。対話話題判断部２０５は、メモリ１０８から親子対話の開始時間を参照し、対話履歴データベース２０２からユーザ間の開始時間から現在までの対話履歴を参照し、対話の開始時間から現在までのテキストデータを取得する。対話話題判断部２０５は、幼児活動データベース２０４の活動項目をキーワードとしたときに、取得したテキストデータ内にキーワードと一致する文字列が存在する場合、一致した当該キーワードを対話中に既に登場した話題と判断する。対話話題判断部２０５は、例えばキーワードとなる活動項目を「絵本」とし、テキストデータに「ピノキオの絵本を読んだよ」という内容を含んでいた場合に、テキストデータ内にキーワードと一致する文字列「絵本」が存在するため、対話中に「絵本」に関する話題が登場したと判断する。

対話話題判断部２０５は、対話履歴データベース２０２に登録しているテキストデータを時系列に沿って参照する場合は、最新の時刻のテキストデータに含まれる話題を、ユーザ間で行われた対話の最新の話題であると判断する。すなわち、対話話題判断部２０５は、幼児活動データベース２０４（第２データベース）に基づいて、最新の活動項目を特定する。対話話題判断部２０５は、対話中に既に登場した話題を示す情報を、話題候補抽出部２０６へ出力する。また、対話話題判断部２０５は、最新の話題を示す情報を提供話題判断部２０７へ出力する。

話題候補抽出部２０６は、話題を提供する必要があると判定された場合、対話履歴データベース２０２（第１データベース）と幼児活動データベース２０４（第２データベース）とに基づいて、話題の候補を抽出する。話題の候補は、活動項目に対応し、且つ、対話履歴データベース２０２（第１データベース）に記録されたテキストデータに含まれる活動項目に対応していない。話題候補抽出部２０６は、最新の活動項目とテキストデータに含まれる活動項目とは異なる活動項目（第２活動項目）を、話題の候補として抽出する。

話題候補抽出部２０６は、幼児活動データベース２０４の活動項目を、親子に提供する話題の候補として抽出する。話題候補抽出部２０６は、対話話題判断部２０５からユーザ間の対話中に既に登場した話題を示す情報を受け取り、受け取った話題を話題の候補から除外する。

また、話題候補抽出部２０６は、最新の活動項目とテキストデータに含まれる活動項目とは異なり、且つ所定の期間（第２所定期間）に記録された活動項目（第２活動項目）を、話題の候補として抽出する。所定の期間（第２所定期間）は、例えば当日を示す期間である。話題候補抽出部２０６は、幼児活動データベース２０４内の日時情報を参照し、話題の候補から当日以外の活動項目を除外する。話題候補抽出部２０６は、話題の候補を提供話題判断部２０７へ出力する。

提供話題判断部２０７は、話題の候補から親（大人）と子ども（幼児）とに提供する一の話題を選択する。提供話題判断部２０７は、最新の活動項目に対応する第１運動量と、最新の活動項目に対応する第１音量と、活動項目のうち第２活動項目に対応する第２運動量と、第２活動項目に対応する第２音量とに基づいて、第２活動項目から第３活動項目を一の話題として選択する。提供話題判断部２０７は、第１運動量に対する第２運動量の相対運動量の二乗と、第１音量に対する第２音量の相対音量の二乗との和が最大となる第２活動項目を第３活動項目として選択する。

提供話題判断部２０７は、幼児の活動データをもとに、情操教育的な観点から提供する話題を判断する。提供話題判断部２０７は、幼児の活動項目と運動量と音量とを含む活動データを幼児活動データベース２０４から受け取り、ユーザ間で対話された最新の話題を示す情報を対話話題判断部２０５から受け取り、話題の候補を示す情報を話題候補抽出部２０６から受け取る。提供話題判断部２０７は、幼児活動データベース２０４の活動データの属性である運動量と音量とをそれぞれ直交する座標軸とする座標辺面上に、最新の話題の活動データと話題の候補の活動データとを設定する。提供話題判断部２０７は、最新の話題の活動データに対応する座標と、話題の候補の活動データに対応する座標との間の相対的な距離（ユークリッド距離）が最も大きくなる活動データの話題の候補を提供話題として判断する。提供話題判断部２０７は、最新の話題の活動データが当日の運動量と音量とを含んでいない場合、当日より前の過去に行われた同一の活動項目に対応する運動量と音量とを幼児活動データベース２０４から取得する。また、提供話題判断部２０７は、過去に同一の活動項目に対応する運動量と音量とが存在しない場合、所定の値を最新の話題の運動量及び音量とする。提供話題判断部２０７は、提供話題の判断結果により、提供する話題を示す情報を応答文生成部１０５へ出力する。

図９は、本実施の形態１における提供話題判断部が話題の候補から大人と幼児とに提供する一の話題を選択する処理について説明するための図である。図９において、横軸は運動量を示し、縦軸は音量を示す。

図９では、例えば、対話に登場した最新の話題５０１が「絵本」であり、第１の話題の候補５１１が「ヒーローごっこ」であり、第２の話題の候補５１２が「汽車の物まね」であり、第３の話題の候補５１３が「積み木」である。また、最新の話題５０１、第１の話題の候補５１１、第２の話題の候補５１２及び第３の話題の候補５１３の各活動データは、図８に示す幼児活動データベース２０４に格納されている。最新の話題５０１である「絵本」の運動量は２．１であり、音量は１．５である。また、第１の話題の候補５１１である「ヒーローごっこ」の運動量は８．３であり、音量は７．２である。そのため、最新の話題５０１と第１の話題の候補５１１とのユークリッド距離は、｛（２．１−８．３）^２＋（１．５−７．２）^２｝^１／２で計算される。提供話題判断部２０７は、最新の話題５０１と他の話題の候補とのユークリッド距離も同様に算出し、算出したユークリッド距離が最も大きい話題の候補を、大人と幼児とに提供する提供話題として選択する。

応答文生成部１０５は、提供する話題に関する情報を提供話題判断部２０７から受け取り、ユーザに提供する話題の内容を伝える応答文をテキストデータとして生成する。例えば、提供する話題が「ヒーローごっこ」である場合、応答文生成部１０５は、「今日は、ヒーローごっこをやっていたね」という応答文を生成する。

なお、応答文生成部１０５は、活動項目を含ませるだけでなく、他の属性を組み合わせて応答文を生成することが好ましい。すなわち、応答文生成部１０５は、幼児活動データベース２０４に基づいて、提供話題（第３活動項目）に対応する運動量（第３運動量）が第１閾値以上である場合は、第２キーワードを含む音声データを生成する。また、応答文生成部１０５は、幼児活動データベース２０４に基づいて、提供話題（第３活動項目）に対応する運動量（第３運動量）が第１閾値未満である場合は、第３キーワードを含む音声データを生成する。このとき、第２キーワード及び第３キーワードは、提供話題（第３活動項目）に取り組む幼児の活発さを示す修飾語を含む。第２キーワードが示す意味は、第３キーワードが示す意味とは反対の意味である。

また、応答文生成部１０５は、幼児活動データベース２０４に基づいて、提供話題（第３活動項目）に対応する音量（第３音量）が第１閾値以上である場合は、第２キーワードを含む音声データを生成する。また、応答文生成部１０５は、幼児活動データベース２０４に基づいて、提供話題（第３活動項目）に対応する音量（第３音量）が第１閾値未満である場合は、第３キーワードを含む音声データを生成する。

例えば、提供する話題が「ヒーローごっこ」である場合、応答文生成部１０５は、運動量又は音量の大きさを参照して、応答文を生成してもよい。例えば、応答文生成部１０５は、運動量が所定の値より大きい場合は、「今日は、ヒーローごっこをやって、いっぱい動いていたね」という応答文を生成したり、音量が所定の値より大きい場合は、「今日は、ヒーローごっこをやって、すごく騒いでいたね」という応答文を生成したりして、幼児の活動の状態を付与した応答文を生成する。もしくは、応答文生成部１０５は、「今日は、ヒーローごっこをやって、いっぱい動いて、すごく騒いでいたね」といったように、運動量及び音量の両方の属性に対応する活動の状態を付与した応答文を生成してもよい。応答文生成部１０５は、生成した応答文を表すテキストデータを音声合成部１０６へ出力する。

音声合成部１０６は、話題の候補から選択された大人と幼児とに提供する一の話題を含む音声データを生成する。音声合成部１０６は、応答文を表すテキストデータを応答文生成部１０５から受け取り、公知の音声合成処理を実行することにより、応答文を表すテキストデータを音声データに変換する。音声合成部１０６は、変換した音声データをスピーカ１０７へ出力する。

スピーカ１０７は、音声合成部１０６によって生成された音声データを出力する。スピーカ１０７は、音声合成部１０６から受け取った音声データを出力する。

なお、本実施の形態１において、センサ１０１、マイク１０２及びスピーカ１０７以外の構成の一部又は全部は、話題提供装置１００とネットワークを介して互いに通信可能に接続されたサーバに設けられていてもよい。

以下、実施の形態１において、対話を行っているユーザが親子であるか否かを判断し、話題を提供するか否かを判断し、提供する話題を選択し、話題を提供するまでの話題提供処理について図１０を用いて説明する。

図１０は、本実施の形態１における話題提供装置による話題提供処理の一例を示すフローチャートである。

まず、センサ１０１は、入力情報として、複数のユーザを撮影した画像データを取得する（ステップＳ１）。センサ１０１は、取得した画像データを人物推定部１０３へ出力する。

次に、人物推定部１０３は、メモリ１０８に記憶されているユーザ情報を参照して、センサ１０１から出力された画像データに対して人物推定処理を実行することにより、画像データに含まれる人物を推定する（ステップＳ２）。

次に、人物推定部１０３は、画像データに含まれる人物が推定されたか否かを判断する（ステップＳ３）。ここで、人物が推定されたと判断された場合（ステップＳ３でＹＥＳ）、人物推定部１０３は、画像データに含まれる人物に対応するユーザ情報を親子対話判断部２０１へ出力する（ステップＳ４）。

一方、画像データに含まれる人物が、メモリ１０８に記憶されているユーザ情報に該当せずに、人物が推定されなかったと判断された場合（ステップＳ３でＮＯ）、ステップＳ１の処理に戻る。

次に、マイク１０２は、入力情報として、複数のユーザによって発話された音声を表す音声データを取得する（ステップＳ５）。マイク１０２は、取得した音声データを音声認識部１０４へ出力する。

次に、音声認識部１０４は、マイク１０２から出力された音声データに対して音声認識処理を実行し、音声データに含まれる人物の発話内容をテキストデータに変換する（ステップＳ６）。

次に、音声認識部１０４は、音声認識処理過程で抽出された音声データの音声特性から、発話者が同一人物であるか否かを示す属性情報をテキストデータに付加し、テキストデータとタイムスタンプとを対話履歴データベース２０２に登録する（ステップＳ７）。

次に、親子対話判断部２０１は、人物推定部１０３によって出力されたユーザ情報に基づいて、話題提供装置１００の周辺に親子が存在するか否かを判断する（ステップＳ８）。ステップＳ１〜Ｓ７の処理を複数回行うことで、親子で対話しているか否かの判断が可能になる。親子対話判断部２０１は、所定時間内に親を示すユーザ情報又は子どもを示すユーザ情報のいずれか一方のみが出力される場合、話題提供装置１００の周辺に親子が存在しないと判断し、所定時間内に親を示すユーザ情報と子どもを示すユーザ情報との両方が出力される場合、話題提供装置１００の周辺に親子が存在すると判断する。ここで、話題提供装置１００の周辺に親子が存在しないと判断された場合（ステップＳ８でＮＯ）、ステップＳ１の処理に戻る。

一方、話題提供装置１００の周辺に親子が存在すると判断された場合（ステップＳ８でＹＥＳ）、親子対話判断部２０１は、対話履歴データベース２０２を参照して、親子が対話しているか否かを判断する（ステップＳ９）。親子対話判断部２０１は、対話履歴データベース２０２を参照して、所定時間内に２人の異なる人物が発話している場合、すなわち、所定時間内に２人の異なる発話者に対応するテキストデータが対話履歴データベース２０２に存在する場合、親子が対話していると判断する。また、親子対話判断部２０１は、対話履歴データベース２０２を参照して、所定時間内に１人の人物のみが発話している場合、すなわち、所定時間内に１人の発話者のみに対応するテキストデータが対話履歴データベース２０２に存在する場合、又は、所定時間内に人物が発話していない場合、すなわち、所定時間内にテキストデータが対話履歴データベース２０２に存在していない場合、親子が対話していないと判断する。ここで、親子が対話していないと判断された場合（ステップＳ９でＮＯ）、ステップＳ１の処理に戻る。

なお、親子対話判断部２０１は、対話履歴データベース２０２を参照して、親子が対話していると認識したテキストデータのタイムスタンプが示す時刻から１つ前のテキストデータのタイムスタンプが示す時刻までの経過時間が所定時間以内である場合、当該１つ前のテキストデータは親子で対話中の発話内容であると判断する。そして、親子対話判断部２０１は、１つ前のテキストデータを順に判断することで、親子が対話を開始した時刻を示す開始時間を特定する。親子対話判断部２０１は、親子が対話していると判断した時に、親子が対話を開始した時刻を示す開始時間をメモリ１０８に記録する。

一方、親子が対話していると判断された場合（ステップＳ９でＹＥＳ）、話題提供判断部２０３は、対話履歴データベース２０２から最新のテキストデータを参照し、話題を提供する必要があるか否かを判断する（ステップＳ１０）。話題提供判断部２０３は、最新のテキストデータ内に所定のキーワードが含まれている場合、話題を提供する必要があると判断する。なお、所定のキーワードは、例えば、「話題をちょうだい」などの話題の提供を求める文言である。また、話題提供判断部２０３は、最新のテキストデータ内に所定のキーワードが含まれていない場合、話題を提供する必要がないと判断する。ここで、話題を提供する必要がないと判断された場合（ステップＳ１０でＮＯ）、ステップＳ１の処理に戻る。

一方、話題を提供する必要があると判断された場合（ステップＳ１０でＹＥＳ）、対話話題判断部２０５は、親子の対話中に登場した話題を特定する（ステップＳ１１）。対話話題判断部２０５は、メモリ１０８に保存している親子の対話の開始時間を読み出し、対話履歴データベース２０２の開始時間から現在時刻までのテキストデータを取得する。対話話題判断部２０５は、幼児活動データベース２０４内の幼児の活動項目をキーワードとして、取得したテキストデータを検索する。対話話題判断部２０５は、テキストデータ内にキーワードと一致する単語があった場合は、当該キーワードに対応する活動項目を、親子の対話中に登場した既出話題として特定する。

次に、対話話題判断部２０５は、親子の対話中に登場した話題のうちの最新の話題を特定する（ステップＳ１２）。対話話題判断部２０５は、幼児活動データベース２０４内の幼児の活動項目に対応するキーワードを含むテキストデータの中で、最新のテキストデータ内のキーワードを最新の話題として特定する。

次に、話題候補抽出部２０６、提供話題判断部２０７及び応答文生成部１０５は、親子に話題を提供するための応答文を生成する提供話題文生成処理を実行する（ステップＳ１３）。なお、提供話題文生成処理の詳細については、図１１を用いて後述する。

次に、音声合成部１０６は、提供する話題の応答文を表すテキストデータを音声データに変換する（ステップＳ１４）。

次に、スピーカ１０７は、音声データを出力する（ステップＳ１５）。

続いて、図１０のステップＳ１３の提供話題文生成処理について図１１を用いて説明する。

図１１は、図１０のステップＳ１３の提供話題文生成処理について説明するためのフローチャートである。

まず、話題候補抽出部２０６は、幼児活動データベース２０４から幼児の当日の活動データを取得する（ステップＳ２１）。

次に、話題候補抽出部２０６は、幼児の活動データの当日に行われた活動項目の中から、対話話題判断部２０５によって判断された親子の対話中に登場した話題と一致する活動項目を除外した活動項目を話題候補として抽出する（ステップＳ２２）。

次に、提供話題判断部２０７は、当日の活動データの中に、対話話題判断部２０５によって判断された最新の話題に対応する活動データが存在するか否かを判断する（ステップＳ２３）。ここで、最新の話題に対応する活動データが存在すると判断された場合（ステップＳ２３でＹＥＳ）、ステップＳ２７の処理へ移行する。

一方、最新の話題に対応する活動データが存在しないと判断された場合（ステップＳ２３でＮＯ）、提供話題判断部２０７は、幼児活動データベース２０４内の幼児の過去の活動データを参照して、最新の話題に一致する活動項目を含む活動データが過去に存在するか否かを判断する（ステップＳ２４）。ここで、最新の話題に一致する活動項目を含む活動データが過去に存在すると判断された場合（ステップＳ２４でＹＥＳ）、提供話題判断部２０７は、最新の話題に一致する活動項目を含む過去の活動データを幼児活動データベース２０４から抽出する。

一方、最新の話題に一致する活動項目を含む活動データが過去に存在しないと判断された場合（ステップＳ２４でＮＯ）、提供話題判断部２０７は、メモリ１０８に予め記憶されている所定の値（所定の運動量及び所定の音量）を含む活動データを、最新の話題の活動データとして生成する（ステップＳ２６）。

次に、提供話題判断部２０７は、活動データ内の運動量と音量とをそれぞれ座標軸とする座標平面内において、最新の話題の活動データに対する話題候補の活動データの相対ベクトルを算出する（ステップＳ２７）。

次に、提供話題判断部２０７は、抽出された全ての話題候補に対応する相対ベクトルを算出したか否かを判断する（ステップＳ２８）。ここで、全ての話題候補に対応する相対ベクトルを算出していないと判断された場合（ステップＳ２８でＮＯ）、ステップＳ２７の処理へ戻る。

一方、全ての話題候補に対応する相対ベクトルを算出したと判断された場合（ステップＳ２８でＹＥＳ）、提供話題判断部２０７は、相対ベクトルの値（ユークリッド距離）が最大となる話題候補を、提供話題として選択する。

次に、応答文生成部１０５は、提供話題判断部２０７によって選択された提供話題の活動データに基づいて、応答文を生成する（ステップＳ３０）。応答文生成部１０５は、提供話題に対応する活動項目と、提供話題の活動データに含まれる運動量及び／又は音量とに応じた応答文を生成する。

このように、大人と幼児との対話を示すテキストデータを記憶する対話履歴データベース２０２と、幼児が第１所定期間に活動した項目を示す活動項目を記憶する幼児活動データベース２０４とに基づいて、活動項目に対応し、且つ、対話履歴データベース２０２に記録されたテキストデータに含まれる活動項目に対応していない話題の候補が抽出され、話題の候補から大人と幼児とに提供する一の話題が選択されるので、幼児の活動内容に応じた話題を提供することができ、幼児が会話しやすい話題を提供することができる。

（実施の形態２）
実施の形態２では、話題提供装置１００が幼児活動データベース２０４を作成する処理について説明する。

図１２は、本実施の形態２における話題提供装置の第２処理部の構成を示す図である。なお、以下の説明では、説明の簡略化のため上記実施の形態１と同様の構成については同一の符号を付けて説明を省略する。

図１２に示す第２処理部３００は、姿勢推定部３０１と、運動量測定部３０２と、活動項目推定部３０３と、音量測定部３０４と、活動項目判断部３０５と、活動項目登録部３０６とを備える。本実施の形態２では、スピーカ１０７が幼児に対して質問する音声を出力し、マイク１０２が幼児の応答音声を取得する処理が含まれる。幼児の応答内容によっては、上記の処理が繰り返されることもある。

センサ１０１は、話題提供装置１００の周辺の画像データと、センサ１０１から話題提供装置１００の周辺に存在する人物を含む物体までの距離を示す距離データとを取得する。センサ１０１は、例えば、ステレオカメラ又は距離センサであり、画像データと、幼児の３次元空間の距離データとを取得する。センサ１０１は、取得した画像データ及び距離データを人物推定部１０３へ出力する。

人物推定部１０３は、実施の形態１と同様に、センサ１０１によって取得された画像データとメモリ１０８に記憶されているユーザに対応する画像データとに基づいて、取得された画像データに含まれる人物を推定し、推定した人物を示すユーザ情報を出力する。人物推定部１０３は、推定した人物を示すユーザ情報と、センサ１０１から取得した距離データとを姿勢推定部３０１及び運動量測定部３０２へ出力する。

姿勢推定部３０１は、ユーザ情報が示す人物が幼児である場合、センサ１０１から取得された画像データと、センサ１０１から取得された距離データと、メモリ１０８に記憶されている人体の各姿勢における３次元骨格位置を示す人体モデルデータとに基づいて、幼児の姿勢を推定し、推定した幼児の姿勢を示す姿勢情報を出力する。

姿勢推定部３０１は、画像データと３次元空間の距離データとから幼児の姿勢を推定する。姿勢推定部３０１は、人物の各部位の姿勢（位置）から、姿勢の状態を推定する。部位とは、多関節物体の構成要素、例えば、頭部、胴体、腕及び足などを示す。各部位の状態から「立っている」、「座っている」、「屈んでいる」、「歩いている」、「走っている」及び「寝そべっている」等が、姿勢の状態として事前にメモリ１０８に定義されている。

姿勢推定部３０１は、各部位の状態を要素として、各部位の状態から姿勢の状態を推定する。例えば、足の姿勢が地面に対して直立である場合は、姿勢の状態は「立っている」という条件を満たす要素となる。足の姿勢が地面に対して平行である場合は、姿勢の状態は「座っている」又は「寝そべっている」の条件を満たす要素となる。また、例えば両足の姿勢が地面に対して直立であり、胴体の姿勢が地面に対して直立である場合は、姿勢の状態は「立っている」の条件を満たす要素となる。姿勢推定部３０１は、センサ１０１から取得した距離データと、メモリ１０８に予め記憶されている幼児の人体モデルとをマッチングなどの公知の姿勢推定技術により、事前に定義した姿勢の状態を推定結果とし、推定した姿勢の状態を活動項目推定部３０３へ出力する。

運動量測定部３０２は、ユーザ情報が示す人物が幼児である場合、センサ１０１から取得された画像データと、センサ１０１から取得された距離データと、メモリ１０８に記憶されている人体モデルデータとに基づいて、幼児の特定部位の第１所定期間における位置の変化量を運動量として算出し、運動量を示す運動量情報を出力する。また、運動量測定部３０２は、第１所定期間を含む第２所定期間における変化量の平均値を運動量として算出する。

運動量測定部３０２は、画像データと３次元空間の距離データとから幼児の運動量を測定する。運動量は、スケルトントラッキング等により人物の部位をトラッキングし、各部位の３次元空間上の変化量の時間平均とする。例えば、まず手が三次元空間上の座標（ｘ０、ｙ０、ｚ０）に存在するとき、所定時間後に手が存在する座標（ｘ１、ｙ１、ｚ１）における変化量は｛（ｘ０−ｘ１）^２＋（ｙ０−ｙ１）^２＋（ｚ０−ｚ１）^２｝^１／２である。運動量測定部３０２は、人物の部位の変化量を所定時間加算し、加算した変化量を所定時間で除算した値を運動量として算出する。運動量測定部３０２は、算出した運動量を活動項目推定部３０３と活動項目登録部３０６とへ出力する。

活動項目推定部３０３は、姿勢情報と、運動量情報と、メモリ１０８に記憶されている幼児が行う活動項目と当該活動項目に対応する運動量と当該活動項目に対応する幼児の姿勢との対応関係を示したテーブルとに基づいて、もしくは、抽出された音声に含まれる名詞に基づいて、幼児が現在行っている活動項目を推定し、推定した活動項目を示す活動情報を出力する。

活動項目推定部３０３は、姿勢の状態とメモリ１０８に定義した各部位の運動量とから幼児の活動項目（活動内容）を推定する。もしくは、活動項目推定部３０３は、幼児の発話内容から幼児の活動項目を推定する。推定結果は、複数の活動項目を候補として挙げてもよい。活動項目は、姿勢の状態と各部位の所定の運動量よりも高い又は低い状態を所定時間継続した結果から推定される。

図１３は、本実施の形態２において、活動項目推定部が活動項目を推定する際に用いる、活動項目と人体の各部位の運動量と姿勢の状態とを対応付けた表を示す図である。例えば、５分間続けて各部位の運動量が測定されるとともに姿勢の状態が推定された場合、活動項目推定部３０３は、各部位の運動量と姿勢の状態とが図１３に示す条件を満たす活動項目を推定結果とする。

例えば、測定された頭部の運動量が２．０であり、測定された胴部の運動量が２．５であり、測定された腕部の運動量が２．５であり、測定された脚部の運動量が０であり、推定された姿勢の状態が「座っている」である場合は、活動項目推定部３０３は、頭部の運動量が「３．０以下」であり、かつ胴部の運動量が「３．０以下」であり、かつ腕部の運動量が「３．０以下」であり、かつ姿勢の状態が「座っている」であるという条件を満たす「絵本」を活動項目として推定する。

また、例えば、測定された頭部の運動量が８．５であり、測定された胴部の運動量が８．０であり、測定された腕部の運動量が８．２であり、測定された脚部の運動量が８．２であり、推定された姿勢の状態が「歩いている」である場合は、活動項目推定部３０３は、頭部の運動量が「８．０以上」であり、かつ胴部の運動量が「８．０以上」であり、かつ腕部の運動量が「８．０以上」であり、かつ脚部の運動量が「８．０」であり、かつ姿勢の状態が「歩いている」であるという条件を満たす「ヒーローごっこ」と、頭部の運動量が「７．０以上」であり、かつ胴部の運動量が「７．０以上」であり、かつ腕部の運動量が「７．０以上」であり、かつ姿勢の状態が「歩いている」であるという条件を満たす「ダンス」との２つを活動項目として推定する。複数の活動項目の候補が存在する場合は、活動項目推定部３０３は、無差別に１つの候補を選択する。

活動項目推定部３０３は、推定した活動項目に動詞を付けて応答文生成部１０５へ出力する。例えば、推定結果が「絵本」だった場合は、活動項目推定部３０３は、「絵本を読む」を応答文生成部１０５へ出力する。

応答文生成部１０５は、活動項目推定部３０３から取得した推定結果を疑問文に変換したテキストデータを生成する。例えば、生成するテキストデータは、推定結果が「絵本を読む」であった場合は、応答文生成部１０５は、「絵本を読んでいるの？」というテキストデータを生成する。また、例えば、推定結果が「ヒーローごっこをする」であった場合は、応答文生成部１０５は、「ヒーローごっこをしているの？」というテキストデータを生成する。応答文生成部１０５は、生成したテキストデータを音声合成部１０６へ出力する。

音声合成部１０６は、応答文生成部１０５から受け取ったテキストデータを音声データに変換し、スピーカ１０７へ出力する。音声合成部１０６は、活動情報に示された活動項目に対応するキーワードを含む音声データ（第１音声データ）を生成する。音声データは疑問文で表される。また、音声データは、幼児が推定された活動項目を行っているか否かを尋ねるテキストデータを含む。スピーカ１０７は、音声データ（第１音声データ）を出力する。

マイク１０２は、話題提供装置１００の周辺の音を取得する。マイク１０２は、人物推定部１０３が幼児を検出している間、周辺の環境音を常時取得し続け、音量測定部３０４へ出力する。また、マイク１０２は、スピーカ１０７から出力された質問に対する幼児の応答音声を取得し、音声認識部１０４へ出力する。なお、マイク１０２は、幼児の発話と環境音との違いを認識できないため、音声認識部１０４と音量測定部３０４とへ出力される音は同じである。

音声認識部１０４は、実施の形態１と同様の処理を行い、マイク１０２から取得した幼児の応答音声をテキストデータに変換し、活動項目判断部３０５へ出力する。音声認識部１０４は、スピーカ１０７から音声データ（第１音声データ）が出力された後に、マイク１０２によって取得された音から抽出された音声の内容を認識し、認識された音声の内容を示すテキストデータを出力する。

音量測定部３０４は、マイク１０２によって取得された音から音声を抽出し、抽出した音声の音量を示す音量情報を出力する。また、音量測定部３０４は、第１所定期間を含む第２所定期間において抽出された音声の音量の平均値を音量情報として出力する。音量測定部３０４は、マイク１０２から取得した音の大きさ（音量）を公知の騒音測定処理により測定する。音の大きさは音圧の大きさで表される。音量測定部３０４は、測定した音量を活動項目登録部３０６へ出力する。

活動項目判断部３０５は、幼児の応答内容から活動項目を判断する。活動項目判断部３０５は、音声認識部１０４からのテキストデータに肯定語が含まれているか否かを判定する。また、活動項目判断部３０５は、テキストデータに肯定語が含まれていないと判定した場合、テキストデータに否定語が含まれているか否かを判定する。

活動項目判断部３０５は、幼児の応答内容を単語毎に分解し、単語が肯定の意味を示すか、否定の意味を示すか、その他の意味を示すかを判断する。活動項目判断部３０５は、スピーカ１０７が音声出力した質問に対する幼児の応答内容が「うん」又は「そうだよ」といった肯定を意味している場合に、活動項目推定部３０３によって推定された活動項目を幼児の活動項目と判断する。また、活動項目判断部３０５は、幼児の応答内容が、否定を意味している場合又は別の活動項目を示唆する内容である場合、幼児の活動項目は判明していない、又は幼児が活動していないと判断する。

例えば、スピーカ１０７が「絵本を読んでいるの？」という質問の音声データを出力し、幼児が「うん、絵本を読んでいるの」という応答音声を発話した場合は、活動項目判断部３０５は、「うん」という肯定を意味する発話から活動項目は「絵本」であると判断する。また、スピーカ１０７が、「何をしているの？」という質問の音声データを出力し、幼児が「ヒーローごっこをしている」という肯定又は否定を示す表現が存在しない応答音声を発話した場合は、活動項目判断部３０５は、幼児の活動項目を特定できないと判断する。また、幼児が「何もしていないよ」という応答音声を発話した場合は、活動項目判断部３０５は、幼児が活動行為を行っていないと判断する。また、幼児が長時間応答音声を発話しない場合、又は話題提供装置１００が複数回数質問しても幼児が応答音声を発話しなかった場合、活動項目判断部３０５は、幼児は活動行為を行っていないと判断する。

活動項目判断部３０５は、幼児の活動項目を特定した場合は、特定した活動項目を活動項目登録部３０６へ出力する。活動項目判断部３０５は、幼児の活動項目を特定できなかった場合は、単語毎に分解した幼児の応答内容を示すテキストデータを活動項目推定部３０３へ出力する。

活動項目推定部３０３は、活動項目判断部３０５によってテキストデータに否定語が含まれていないと判定された場合、テキストデータに名詞が含まれているか否かを判定し、テキストデータに名詞が含まれていると判定した場合は、名詞が、幼児が現在行っている活動項目を示していると推定する。

活動項目推定部３０３は、活動項目判断部３０５によって幼児の活動項目が特定されない場合、幼児の応答内容を示すテキストデータに基づいて活動項目を推定する。活動項目推定部３０３は、単語毎に分解された幼児の応答内容を示すテキストデータから名詞句を抽出する。活動項目推定部３０３は、抽出した名詞句を幼児が行っている活動項目と推定する。例えば、幼児の応答内容が「ヒーローごっこをしている」であった場合は、活動項目推定部３０３は、名詞句である「ヒーローごっこ」を抽出する。活動項目推定部３０３は、推定結果に動詞を付けて応答文生成部１０５へ出力する。

また、例えば、幼児の応答内容が「違うよ」であり、応答内容を示すテキストデータに名詞句が含まれず、活動項目を推定できなかった場合は、活動項目推定部３０３は、「何をしているの？」といった幼児の行為を問い合わせる内容のテキストデータを推定結果とする。この場合、応答文生成部１０５は、活動項目推定部３０３によってテキストデータに名詞が含まれていないと判定された場合、幼児に何をしているか尋ねるための音声データ（第２音声データ）を生成する。スピーカ１０７は、音声データ（第２音声データ）を出力する。

活動項目登録部３０６は、活動項目判断部３０５によってテキストデータに肯定語が含まれていると判定された場合、活動情報と運動量情報と音量情報とを対応付けて幼児活動データベース２０４に記録する。活動項目登録部３０６は、幼児の活動項目と運動量と音量と活動日付を幼児活動データベース２０４に登録する。活動項目登録部３０６は、運動量及び音量を０．０〜１０．０の評価値に変換し、幼児活動データベース２０４へ登録する。なお、評価値は、運動量及び音量のように単位の違う２つ以上の値のスケールを所定の方法で合わせた値である。例えば、事前に幼児の様々な活動に伴う運動量及び音量のデータを取得し、取得したそれぞれのデータの最小値を０．０に設定し、最大値を１０．０に設定してもよい。活動項目登録部３０６は、変換した運動量と、変換した音量と、活動項目判断部３０５が判断した活動項目と、活動日付とを幼児活動データベース２０４に登録する。活動項目登録部３０６は、正規化した運動量を運動量情報として幼児活動データベース２０４に記録するとともに、正規化した音量を音量情報として幼児活動データベース２０４に記録する。すなわち、活動項目登録部３０６は、第１係数が乗算された運動量を運動量情報として幼児活動データベース２０４に記録するとともに、第２係数が乗算された音量を音量情報として幼児活動データベース２０４に記録する。そして、第１係数は、所定の第１定数を第２定数で除算した値であり、第２係数は、所定の第３定数を第２定数で除算した値である。

なお、活動項目登録部３０６は、幼児の体の各部位の運動量の平均値を、活動項目に対応する運動量として幼児活動データベース２０４へ登録する。また、活動項目登録部３０６は、幼児の体の各部位の運動量の最大値又は最小値を、活動項目に対応する運動量として幼児活動データベース２０４へ登録してもよい。

また、本実施の形態２において、センサ１０１、マイク１０２及びスピーカ１０７以外の構成の一部又は全部は、話題提供装置１００とネットワークを介して互いに通信可能に接続されたサーバに設けられていてもよい。

以下、実施の形態２において、幼児の活動項目と運動量情報と音声情報と日付とを幼児活動データベースに登録する登録処理について図１４及び図１５を用いて説明する。

図１４は、本実施の形態２における話題提供装置による登録処理の一例を示す第１のフローチャートであり、図１５は、本実施の形態２における話題提供装置による登録処理の一例を示す第２のフローチャートである。

まず、センサ１０１は、画像データと三次元距離データとを取得する（ステップＳ４１）。センサ１０１は、取得した画像データを人物推定部１０３へ出力する。また、センサ１０１は、取得した画像データと三次元距離データとを姿勢推定部３０１にも出力する。

次に、人物推定部１０３は、メモリ１０８に記憶されているユーザ情報を参照して、センサ１０１から出力された画像データに対して人物推定処理を実行することにより、画像データに含まれる人物を推定する（ステップＳ４２）。

次に、人物推定部１０３は、画像データに含まれる幼児が推定されたか否かを判断する（ステップＳ４３）。ここで、幼児が推定されなかった場合（ステップＳ４３でＮＯ）、ステップＳ４１の処理に戻り、幼児が検出されるまでステップＳ４１〜ステップＳ４３の処理が繰り返される。

一方、幼児が推定されたと判断された場合（ステップＳ４３でＹＥＳ）、運動量測定部３０２は、幼児の動きをトラッキングし、トラッキングした幼児の三次元距離データ上の変化量を運動量として測定する（ステップＳ４４）。なお、運動量測定部３０２は、幼児の体全体を、手、足、胴体及び頭の４つの部位に切り分けて、それぞれの部位の運動量を測定する。

次に、運動量測定部３０２は、測定した各部位の運動量を示す運動量情報をメモリ１０８に保存する（ステップＳ４５）。

次に、マイク１０２は、幼児の活動に伴う音声データを取得する（ステップＳ４６）。マイク１０２は、取得した音声データを音量測定部３０４へ出力する。

次に、音量測定部３０４は、取得した音声データの音量を測定する（ステップＳ４７）。

次に、音量測定部３０４は、測定した音量を示す音量情報をメモリ１０８に保存する（ステップＳ４８）。

次に、姿勢推定部３０１は、センサ１０１から取得した画像データ及び距離データに対して、メモリ１０８に保持されている人体モデルの姿勢をマッチングし、類似度が最も大きい姿勢を幼児の姿勢として推定する（ステップＳ４９）。姿勢推定部３０１は、推定した幼児の姿勢の状態を示す姿勢情報を活動項目推定部３０３へ出力する。

次に、活動項目推定部３０３は、メモリ１０８に事前に定義された幼児の姿勢と各部位の運動量と活動項目とを対応付けたテーブルを利用して、幼児の活動項目を推定する（ステップＳ５０）。例えば、幼児の姿勢が座っている状態であることが所定時間以上推定され、手の部位の運動量が所定の運動量より大きく、且つ他の部位の運動量が所定の運動量よりも小さいとことが所定時間以上検出された場合は、活動項目推定部３０３は、幼児が絵本を読んでいる又は幼児が絵を描いていると推定する。例えば、活動項目推定部３０３は、「絵本」という推定した活動項目を示す名詞に「読む」という動詞を付けたテキストデータを応答文生成部１０５へ出力する。なお、日本語の場合は、活動項目推定部３０３は、「を」という助詞も活動項目に付加し、「絵本を読む」というテキストデータを出力してもよい。また、他の言語では、活動項目推定部３０３は、代名詞などの他の品詞を活動項目に付加してもよい。

次に、活動項目推定部３０３は、幼児の活動項目が推定されたか否かを判断する（ステップＳ５１）。ここで、活動項目が推定されなかったと判断された場合（ステップＳ５１でＮＯ）、ステップＳ４１の処理に戻り、ステップＳ４１〜ステップＳ５１と同様の処理が行われる。

一方、活動項目が推定されと判断された場合（ステップＳ５１でＹＥＳ）、応答文生成部１０５は、活動項目推定部３０３から受け取った幼児の活動項目を含むテキストデータを、現在進行形の疑問文の形式に変換したテキストデータを生成する（ステップＳ５２）。例えば、受け取った幼児の活動項目を含むテキストデータが「絵本を読む」であった場合、応答文生成部１０５は、「絵本を読んでいるの？」という疑問文形式のテキストデータを生成し、音声合成部１０６へ出力する。

次に、音声合成部１０６は、応答文生成部１０５から取得したテキストデータを音声データに変換する（ステップＳ５３）。音声合成部１０６は、音声データをスピーカ１０７へ出力する。

次に、スピーカ１０７は、音声合成部１０６から受け取った音声データを出力する（ステップＳ５４）。これにより、話題提供装置１００が、幼児に質問することになる。

次に、マイク１０２は、スピーカ１０７から出力された質問内容に関して、幼児の応答内容を示す音声データを取得する（ステップＳ５５）。マイク１０２は、取得した幼児の応答内容を示す音声データを音声認識部１０４へ出力する。

次に、音声認識部１０４は、マイク１０２から出力された音声データに対して音声認識処理を実行し、取得した音声データに含まれる幼児の応答内容をテキストデータに変換する（ステップＳ５６）。

次に、音声認識部１０４は、幼児が応答したか否かを判断する（ステップＳ５７）。音声認識部１０４は、テキストデータに変換した結果の信頼値が所定値以下である場合、変換したテキストデータを棄却する。テキストデータの棄却は、幼児が話題提供装置１００に対して応答していないことを示す。また、活動項目を含む疑問形式の音声データがスピーカ１０７から出力されてから所定時間経過しても幼児の応答内容を示す音声データが取得されない場合も、音声認識部１０４は、幼児が応答していないと判断してもよい。ここで、幼児が応答していないと判断された場合（ステップＳ５７でＮＯ）、ステップＳ５５の処理に戻り、ステップＳ５５〜ステップＳ５７の処理が行われる。

一方、幼児が応答したと判断された場合（ステップＳ５７でＹＥＳ）、活動項目判断部３０５は、音声認識部１０４から取得したテキストデータが肯定語を含むか否かを判断する（ステップＳ５８）。肯定語は、例えば、「はい」、「うん」又は「そうだよ」といったワードである。テキストデータが肯定語を含む場合は、話題提供装置１００が推定した活動を幼児が行っていると判断することができる。そのため、活動項目判断部３０５は、活動項目を活動項目登録部３０６へ出力する。

ここで、テキストデータが肯定語を含まないと判断された場合（ステップＳ５８でＮＯ）、活動項目判断部３０５は、テキストデータが否定語を含むか否かを判断する（ステップＳ５９）。否定語は、例えば、「いいえ」、「違うよ」又は「そんなことしてないよ」といったワードである。

ここで、テキストデータが否定語を含むと判断された場合（ステップＳ５９でＹＥＳ）、ステップＳ５０の処理に戻り、活動項目推定部３０３は、テキストデータを単語ごとに分解し、テキストデータから名詞句を抽出する。活動項目推定部３０３は、抽出した名詞句を幼児が行っている活動項目と推定する。例えば、テキストデータが「違うよ、お絵かきしてるんだよ」だった場合は、活動項目推定部３０３は、「お絵かき」を抽出し、活動項目に対応する動詞をつけて「お絵かきをする」というテキストデータを出力する。また、テキストデータが「違うよ」又は「そんなことしていないよ」といった名詞句を含まない場合、活動項目推定部３０３は、活動項目を推定することができないため、例えば「何をしている？」といった活動項目を問いかける内容のテキストデータを推定結果として生成する。活動項目を推定した後は、ステップＳ５０以降の処理が行われる。

一方、テキストデータが否定語を含まないと判断された場合（ステップＳ５９でＮＯ）、処理を終了する。すなわち、活動項目判断部３０５は、幼児が自身の活動そのものを否定したとき、幼児が活動していないと判断する。例えば、テキストデータが、「何もしていないよ」又は「遊んでいないよ」というような「何かをする」ことや「遊ぶ」ことに対して否定するワードを含む場合は、活動項目判断部３０５は、幼児が活動を否定したと判断して、処理を終了する。

また、テキストデータが肯定語を含むと判断された場合（ステップＳ５８でＹＥＳ）、活動項目登録部３０６は、幼児の活動項目と運動量と音量と日付とを幼児活動データベース２０４に登録する（ステップＳ６０）。活動項目登録部３０６は、活動項目を検出したタイミングから所定時間遡った時間までにメモリ１０８に保存している音量と各部位の運動量とを参照する。活動項目登録部３０６は、参照した音量のスケールと各部位の運動量のスケールとを所定の方法で合わせる。例えば、事前に想定される音量又は各部位の運動量に対して、最大値及び最小値を定めておき、最小値を０．０とし、最大値を１０．０としたときに、最大値及び最小値の幅から０．０〜１０．０のスケールに落とし込む。なお、参照した音量又は各部位の運動量が最小値よりも小さかった場合は０．０とし、参照した音量又は各部位の運動量が最大値よりも大きかった場合は１０．０とする。スケールに落とし込む音量又は各部位の運動量は、例えば所定時間分の参照した音量の平均値又は各部位の運動量の平均値とする。

このように、幼児の姿勢と幼児の運動量とに基づいて、もしくは、抽出された音声に含まれる名詞に基づいて、幼児が現在行っている活動項目が推定され、推定された活動項目を示す活動情報と運動量情報と音量情報とが対応付けられて幼児活動データベース２０４に記録されるので、幼児に応じたデータベースを容易に作成することができる。

また、活動項目を示す活動情報と運動量情報と音量情報とが対応付けられた幼児活動データベース２０４を用いることで、幼児の活動内容に応じた話題を提供することができ、幼児が会話しやすい話題を提供することができる。

（実施の形態３）
実施の形態３では、話題提供装置１００をロボット４００に実装した例について図１６及び図１７を用いて説明する。なお、以下の説明では、説明の簡略化のため上記実施の形態１，２と同様の構成については同一の符号を付けて説明を省略する。

図１６は、本実施の形態３に係るロボットの外観図である。図１７は、本実施の形態３に係るロボットの構成を示すブロック図である。

ロボット４００は、図１６に示すように、球帯状のメイン筐体４０５と、球冠部４０６とを備えており、メイン筐体４０５と球冠部４０６とは全体として球体を構成する。すなわち、ロボット４００は球体形状を有する。また、ロボット４００は、図１６に示すように、球冠部４０６にセンサ１０１とマイク１０２とスピーカ１０７とを備える。また、ロボット４００は、図１７に示すように、制御回路４０１を備える。センサ１０１は、２つのカメラを用いたステレオカメラであるため、周辺環境の画像データと距離データとを取得する。制御回路４０１は、ロボットの各種動作を制御する。制御回路４０１の詳細は、図１７を参照しながら後述する。なお、本実施の形態３において、ロボット４００は、全体として球体を構成しているが、これに限られるものではなく、少なくとも移動機構を有した構成であればよい。

図１７に示すロボット４００は、センサ１０１と、マイク１０２と、スピーカ１０７と、制御回路４０１と、駆動制御部４０３と、駆動部４０４とを備える。

制御回路４０１は、人物推定部１０３と、音声認識部１０４と、対話履歴データベース２０２と、幼児活動データベース２０４と、第１処理部２００と、第２処理部３００と、主制御部４０２と、応答文生成部１０５と、音声合成部１０６と、メモリ１０８とを備える。

センサ１０１は、実施の形態２と同様に、人物推定部１０３に画像データと距離データとを出力する。

マイク１０２は、実施の形態１，２と同様に、音声認識部１０４へ音声データを出力する。

人物推定部１０３は、実施の形態１と同様の処理を行い、第１処理部２００へ人物の推定結果を出力する。また、人物推定部１０３は、実施の形態２と同様の処理を行い、第２処理部３００へ人物（幼児）の推定結果を出力する。

音声認識部１０４は、実施の形態１と同様の処理を行い、テキストデータ等を対話履歴データベース２０２へ出力する。また、音声認識部１０４は、実施の形態２と同様の処理を行い、テキストデータ等を第２処理部３００へ出力する。

対話履歴データベース２０２は、実施の形態１と同様に用いられる。なお、対話履歴データベース２０２は、クラウド上に存在してもよい。

幼児活動データベース２０４は、実施の形態１及び実施の形態２と同様に用いられる。なお、幼児活動データベース２０４は、クラウド上に存在してもよい。

第１処理部２００は、実施の形態１と同様の処理を行い、ユーザへ提供する話題の抽出が完了した場合に、提供話題に関する情報を主制御部４０２へ出力する。

第２処理部３００は、実施の形態２と同様の処理を行い、幼児の活動項目の推定が完了した場合に、推定結果を主制御部４０２へ出力する。

主制御部４０２は、ロボット４００の行動を管理する。主制御部４０２は、所定の条件を満たすことで、駆動制御部４０３へコマンドを送信する。これにより、ロボット４００は移動する。主制御部４０２は、第１処理部２００から提供話題に関する情報を取得する。主制御部４０２は、提供話題に関する情報を取得した場合、提供話題に関する情報を応答文生成部１０５へ出力する。

主制御部４０２は、第２処理部３００から幼児の活動項目の推定結果を取得する。主制御部４０２は、幼児の活動項目の推定結果を取得した場合、推定結果を応答文生成部１０５へ出力する。

駆動制御部４０３は、主制御部４０２から送信されるコマンドに応じて、ロボット４００の駆動部４０４を動作させる。主制御部４０２から送信されるコマンドが、例えばユーザを探索することを指示するコマンドであれば、ロボット４００は、周辺を見渡すように旋回する。

駆動部４０４は、球帯状のメイン筐体４０５を回転させることで、前進又は後進する。また、駆動部４０４は、メイン筐体４０５の内部の重心位置を、例えば内蔵した振り子により、変えることで旋回運動することができる。

応答文生成部１０５は、実施の形態１及び実施の形態２と同様の処理を行い、テキストデータを生成し、音声合成部１０６へ出力する。

音声合成部１０６は、実施の形態１及び実施の形態２と同様の処理を行い、テキストデータを音声データに変換する。スピーカ１０７は、音声データを出力する。

本開示において、ユニット、装置、部材又は部の全部又は一部、又は図に示されるブロック図の機能ブロックの全部又は一部は、半導体装置、半導体集積回路（ＩＣ）、又はＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）を含む一つ又は複数の電子回路によって実行されてもよい。ＬＳＩ又はＩＣは、一つのチップに集積されてもよいし、複数のチップを組み合わせて構成されてもよい。例えば、記憶素子以外の機能ブロックは、一つのチップに集積されてもよい。ここでは、ＬＳＩやＩＣと呼んでいるが、集積の度合いによって呼び方が変わり、システムＬＳＩ、ＶＬＳＩ（ＶｅｒｙＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）、若しくはＵＬＳＩ（ＵｌｔｒａＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）と呼ばれるものであってもよい。ＬＳＩの製造後にプログラムされる、ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ（ＦＰＧＡ）、又はＬＳＩ内部の接合関係の再構成又はＬＳＩ内部の回路区画のセットアップができるＲｅｃｏｎｆｉｇｕｒａｂｌｅＬｏｇｉｃＤｅｖｉｃｅも同じ目的で使うことができる。

さらに、ユニット、装置、部材又は部の全部又は一部の機能又は操作は、ソフトウエア処理によって実行することが可能である。この場合、ソフトウエアは一つ又は複数のＲＯＭ、光学ディスク、ハードディスクドライブなどの非一時的記録媒体に記録され、ソフトウエアが処理装置（Ｐｒｏｃｅｓｓｏｒ）によって実行されたときに、そのソフトウエアで特定された機能が処理装置（Ｐｒｏｃｅｓｓｏｒ）および周辺装置によって実行される。システム又は装置は、ソフトウエアが記録されている一つ又は複数の非一時的記録媒体、処理装置（Ｐｒｏｃｅｓｓｏｒ）、及び必要とされるハードウエアデバイス、例えばインターフェース、を備えていてもよい。

本開示に係る音声対話装置、音声対話方法、音声対話プログラム及びロボットは、幼児の活動内容に応じた話題を提供することができ、幼児が会話しやすい話題を提供することができ、複数のユーザと音声対話する音声対話装置、音声対話方法、音声対話プログラム及びロボットとして有用である。

１００話題提供装置
１０１センサ
１０２マイク
１０３人物推定部
１０４音声認識部
１０５応答文生成部
１０６音声合成部
１０７スピーカ
１０８メモリ
２００第１処理部
２０１親子対話判断部
２０２対話履歴データベース
２０３話題提供判断部
２０４幼児活動データベース
２０５対話話題判断部
２０６話題候補抽出部
２０７提供話題判断部
３００第２処理部
３０１姿勢推定部
３０２運動量測定部
３０３活動項目推定部
３０４音量測定部
３０５活動項目判断部
３０６活動項目登録部
４００ロボット
４０１制御回路
４０２主制御部
４０３駆動制御部
４０４駆動部
４０５メイン筐体
４０６球冠部

Claims

複数のユーザと音声対話する装置であって、
前記装置の周辺の画像データを取得するセンサと、
前記装置の周辺の音を取得するマイクと、
前記複数のユーザに対応する複数の画像データを記憶しているメモリと、前記複数のユーザは、大人と幼児とを含み、
前記取得された画像データと前記記憶されている複数の画像データとに基づいて、前記取得された画像データに含まれる人物を推定し、前記推定した人物を示すユーザ情報を出力する推定部と、
前記取得された音から音声を抽出し、前記音声に対応するテキストデータと前記音声の特徴量とを抽出し、前記テキストデータと前記特徴量とを対応付けて第１データベースに記録する音声認識部と、
前記ユーザ情報と前記第１データベースとに基づいて、前記大人と前記幼児とが会話しているか否かを判定し、前記推定された人物が前記大人と前記幼児とであり、且つ、前記特徴量が互いに異なる複数の特徴量を含む場合、前記大人と前記幼児とが会話していると判定する第１判定部と、
前記大人と前記幼児とが会話していると判定された場合、前記第１データベースに基づいて、前記大人と前記幼児とに新たに話題を提供する必要があるか否かを判定し、前記テキストデータに、第１キーワードが含まれている場合、前記大人と前記幼児とに新たに話題を提供する必要があると判定する第２判定部と、
前記話題を提供する必要があると判定された場合、前記第１データベースと第２データベースとに基づいて、前記話題の候補を抽出する抽出部と、前記第２データベースは、前記幼児が第１所定期間に活動した項目を示す活動項目を記憶し、前記話題の候補は、前記活動項目に対応し、且つ、前記第１データベースに記録された前記テキストデータに含まれる活動項目に対応しておらず、
前記話題の候補から前記大人と前記幼児とに提供する一の話題を選択する選択部と、
前記一の話題を含む音声データを生成する生成部と、
前記生成された音声データを出力するスピーカと、
を備える、
装置。
前記第２データベースは、更に、前記活動項目に対応する運動量を示す運動量情報と、前記活動項目に対応する音量を示す音量情報と、前記活動項目に対応する日付を示す日付情報とを記憶し、
前記抽出部は、前記第２データベースに基づいて、最新の活動項目を特定し、前記最新の活動項目と前記テキストデータに含まれる活動項目とは異なる第２活動項目を、前記話題の候補として抽出し、
前記選択部は、前記最新の活動項目に対応する第１運動量と、前記最新の活動項目に対応する第１音量と、前記活動項目のうち第２活動項目に対応する第２運動量と、前記第２活動項目に対応する第２音量とに基づいて、前記第２活動項目から第３活動項目を前記一の話題として選択する、
請求項１に記載の装置。
前記選択部は、前記第１運動量に対する前記第２運動量の相対運動量の二乗と、前記第１音量に対する前記第２音量の相対音量の二乗との和が最大となる第２活動項目を前記第３活動項目として選択する、
請求項２に記載の装置。
前記抽出部は、前記最新の活動項目と前記テキストデータに含まれる活動項目とは異なり、且つ第２所定期間に記録された第２活動項目を、前記話題の候補として抽出する、
請求項２に記載の装置。
前記運動量情報は、前記運動量に第１係数が乗算された値であり、
前記音量情報は、前記音量に第２係数が乗算された値である、
請求項２に記載の装置。
前記生成部は、前記第２データベースに基づいて、前記第３活動項目に対応する第３運動量が第１閾値以上である場合は、第２キーワードを含む前記音声データを生成し、前記第２データベースに基づいて、前記第３活動項目に対応する第３運動量が第１閾値未満である場合は、第３キーワードを含む前記音声データを生成する、
請求項２に記載の装置。
前記第２キーワード及び前記第３キーワードは、前記第３活動項目に取り組む前記幼児の活発さを示す修飾語を含み、
前記第２キーワードが示す意味は、前記第３キーワードが示す意味とは反対の意味である、
請求項６に記載の装置。
前記生成部は、前記第２データベースに基づいて、前記第３活動項目に対応する第３音量が第１閾値以上である場合は、第２キーワードを含む前記音声データを生成し、前記第２データベースに基づいて、前記第３活動項目に対応する第３音量が前記第１閾値未満である場合は、第３キーワードを含む前記音声データを生成する、
請求項２に記載の装置。
前記第２キーワード及び前記第３キーワードは、前記第３活動項目に取り組む前記幼児の活発さを示す修飾語を含み、
前記第２キーワードが示す意味は、前記第３キーワードが示す意味とは反対の意味である、
請求項８に記載の装置。
前記特徴量は、前記音声を発話した発話者の声紋を含む、
請求項１に記載の装置。
前記第１キーワードは、話題を示す単語を含む、
請求項１に記載の装置。
請求項１記載の装置と、
前記装置を内蔵する筐体と、
前記筐体を移動させる移動機構と、
を備えるロボット。
複数のユーザと音声対話する装置における方法であって、
前記装置の周辺の画像データを取得し、
前記装置の周辺の音を取得し、
前記取得した画像データと、前記複数のユーザに対応する複数の画像データを記憶するメモリに記憶されている複数の画像データとに基づいて、前記取得した画像データに含まれる人物を推定し、前記推定した人物を示すユーザ情報を出力し、前記複数のユーザは、大人と幼児とを含み、
前記取得した音から音声を抽出し、前記音声に対応するテキストデータと前記音声の特徴量とを抽出し、前記テキストデータと前記特徴量とを対応付けて第１データベースに記録し、
前記ユーザ情報と前記第１データベースとに基づいて、前記大人と前記幼児とが会話しているか否かを判定し、前記推定した人物が前記大人と前記幼児とであり、且つ、前記特徴量が互いに異なる複数の特徴量を含む場合、前記大人と前記幼児とが会話していると判定し、
前記大人と前記幼児とが会話していると判定した場合、前記第１データベースに基づいて、前記大人と前記幼児とに新たに話題を提供する必要があるか否かを判定し、前記テキストデータに、第１キーワードが含まれている場合、前記大人と前記幼児とに新たに話題を提供する必要があると判定し、
前記話題を提供する必要があると判定した場合、前記第１データベースと第２データベースとに基づいて、前記話題の候補を抽出し、前記第２データベースは、前記幼児が第１所定期間に活動した項目を示す活動項目を記憶し、前記話題の候補は、前記活動項目に対応し、且つ、前記第１データベースに記録された前記テキストデータに含まれる活動項目に対応しておらず、
前記話題の候補から前記大人と前記幼児とに提供する一の話題を選択し、
前記一の話題を含む音声データを生成し、
前記生成した音声データを出力する、
方法。
複数のユーザと音声対話するためのプログラムであって、
前記複数のユーザと音声対話する装置が備えるプロセッサを、
センサによって取得された前記装置の周辺の画像データと、前記複数のユーザに対応する複数の画像データを記憶しているメモリに記憶されている複数の画像データとに基づいて、前記取得された画像データに含まれる人物を推定し、前記推定した人物を示すユーザ情報を出力する推定部と、前記複数のユーザは、大人と幼児とを含み、
マイクによって取得された前記装置の周辺の音から音声を抽出し、前記音声に対応するテキストデータと前記音声の特徴量とを抽出し、前記テキストデータと前記特徴量とを対応付けて第１データベースに記録する音声認識部と、
前記ユーザ情報と前記第１データベースとに基づいて、前記大人と前記幼児とが会話しているか否かを判定し、前記推定された人物が前記大人と前記幼児とであり、且つ、前記特徴量が互いに異なる複数の特徴量を含む場合、前記大人と前記幼児とが会話していると判定する第１判定部と、
前記大人と前記幼児とが会話していると判定された場合、前記第１データベースに基づいて、前記大人と前記幼児とに新たに話題を提供する必要があるか否かを判定し、前記テキストデータに、第１キーワードが含まれている場合、前記大人と前記幼児とに新たに話題を提供する必要があると判定する第２判定部と、
前記話題を提供する必要があると判定された場合、前記第１データベースと第２データベースとに基づいて、前記話題の候補を抽出する抽出部と、前記第２データベースは、前記幼児が第１所定期間に活動した項目を示す活動項目を記憶し、前記話題の候補は、前記活動項目に対応し、且つ、前記第１データベースに記録された前記テキストデータに含まれる活動項目に対応しておらず、
前記話題の候補から前記大人と前記幼児とに提供する一の話題を選択する選択部と、
前記一の話題を含む音声データを生成し、前記生成した音声データをスピーカに出力する生成部として機能させる、
プログラム。