JP2018013595A - Information processing device, terminal device, system, information processing method, and program - Google Patents
Information processing device, terminal device, system, information processing method, and program Download PDFInfo
- Publication number
- JP2018013595A JP2018013595A JP2016142734A JP2016142734A JP2018013595A JP 2018013595 A JP2018013595 A JP 2018013595A JP 2016142734 A JP2016142734 A JP 2016142734A JP 2016142734 A JP2016142734 A JP 2016142734A JP 2018013595 A JP2018013595 A JP 2018013595A
- Authority
- JP
- Japan
- Prior art keywords
- answer
- questioner
- question
- state
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、情報処理装置、端末装置、システム、情報処理方法及びプログラムに関する。 The present invention relates to an information processing device, a terminal device, a system, an information processing method, and a program.
近年、音声認識技術が様々な製品に搭載され、普及が進んでいる。音声認識技術の一つが音声対話技術である。音声対話技術とは、質問者からの音声による質問に対して適切な回答を行うというものであり、1つの質問に対して少なくとも1つ以上の回答が関係づけられている。音声対話技術における質問には、大きく分けて2種類の質問がある。1つは回答が1つに限定される質問で、例えば富士山の高さを質問する場合がこれに該当する。この質問に対する回答は、「3776メートルです」という内容となる。もう1つは、回答が複数存在する質問で、例えば、現在地周辺で提供されるお薦めランチ等を質問する場合が該当する。近年では前者の質問に加え、後者の質問に対して適切に回答することが望まれている。回答が複数存在する質問に対して適切な回答を行うためには、質問を行った際の質問者の状態を把握したうえで質問に回答する必要がある。質問者の状態を把握しないと、回答内容と質問者が所望する内容とに不一致が生じ、質問者の要求が満たされないという事態が発生する。
近年、質問者の状態を把握して質問に回答する方法には、様々な方法がある。例えば、質問者の性別や年齢、現在地等の質問者の意思に関係なくセンサ等を利用して取得できる情報から質問者の状態を推定し、推定した状態に応じて回答を決める方法がある。質問者の意思に関係なく取得できる情報から推定される質問者の状態を、以下では、質問者の客観的状態とする。特許文献1では、質問者の客観的状態である属性情報をもとに回答内容を決定する方法が提案されている。特許文献1には、より具体的には、自動車に搭載するナビゲーションシステムにおいて、ゴルフ場を検索する際に、質問者の年齢・平均スコア・現在地等の質問者の客観的状態から、最適なゴルフ場を回答する方法が開示されている。
In recent years, voice recognition technology has been installed in various products and is becoming popular. One of speech recognition technologies is speech dialogue technology. Spoken dialogue technology is to give an appropriate answer to a question by a voice from a questioner, and at least one answer is related to one question. There are roughly two types of questions in spoken dialogue technology. One is a question that is limited to one answer, and this is the case, for example, when asking the height of Mt. Fuji. The answer to this question is “It is 3776 meters”. The other is a question that has a plurality of answers, for example, a question about a recommended lunch provided around the current location. In recent years, in addition to the former question, it is desired to appropriately answer the latter question. In order to give an appropriate answer to a question with multiple answers, it is necessary to answer the question after grasping the state of the questioner when the question is asked. If the state of the questioner is not grasped, there is a mismatch between the content of the answer and the content desired by the questioner, and a situation occurs in which the request of the questioner is not satisfied.
In recent years, there are various methods for grasping the state of the questioner and answering the question. For example, there is a method of estimating a questioner's state from information that can be acquired using a sensor or the like regardless of the questioner's intention such as the gender, age, and current location of the questioner, and deciding an answer according to the estimated state. Hereinafter, the state of the questioner estimated from the information that can be acquired regardless of the intention of the questioner is referred to as an objective state of the questioner. Patent Document 1 proposes a method for determining the content of an answer based on attribute information that is an objective state of a questioner. More specifically, in Patent Document 1, when searching for a golf course in a navigation system mounted on an automobile, the optimal golf is determined based on the objective state of the questioner such as the age, average score, and current location of the questioner. A method for answering a place is disclosed.
同じ質問内容であっても、質問を行った質問者の主観的状態により、求める回答に違いが生じる。質問者の主観的状態とは、例えば、質問者の心理的状態等の、質問者の意思により決定される状態である。
例えば、質問者に時間的な余裕がなく、回答をすぐに求めている場合、質問者の主観的状態(例えば、焦っている等の状態)に応じた回答が求められる。例えば、質問者がカメラ等の装置を操作している場合、急いでいるのであれば、少ない操作で使用できる操作方法の回答が求められる。
しかし、特許文献1では質問者の客観的状態しか考慮していない。
本発明の目的は、音声対話技術において、より適切な回答を決定することを目的とする。
Even if the content of the question is the same, there is a difference in the desired answer depending on the subjective state of the questioner who asked the question. The subjective state of the interrogator is a state determined by the inquirer's intention, such as the psychological state of the interrogator.
For example, when the questioner has no time allowance and is immediately seeking an answer, an answer corresponding to the questioner's subjective state (for example, a state of being impatient) is required. For example, when a questioner is operating a device such as a camera, if he / she is in a hurry, an answer for an operation method that can be used with few operations is required.
However, Patent Document 1 considers only the objective state of the questioner.
An object of the present invention is to determine a more appropriate answer in a voice interaction technique.
本発明の情報処理装置は、質問者からの質問を示す音声信号の音響特徴量に基づいて、前記質問者の主観的状態を推定する第1の推定手段と、前記第1の推定手段により推定された前記質問者の主観的状態に基づいて、前記質問に対する回答を決定する決定手段と、を有する。 The information processing apparatus according to the present invention is estimated by a first estimating unit that estimates a subjective state of the questioner based on an acoustic feature amount of an audio signal indicating a question from the questioner, and the first estimating unit. Determining means for determining an answer to the question based on the subjective state of the questioner.
本発明によれば、音声対話技術において、より適切な回答を決定することができる。 According to the present invention, it is possible to determine a more appropriate answer in the voice interaction technique.
以下、本発明の実施形態について図面に基づいて説明する。以下では、質問の際に質問者が発した質問に関する音声情報を、質問発話情報とする。質問発話情報は、発声した言葉の意味を示す質問内容の情報と、発声した音の情報である音響情報と、を含む。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In the following, voice information related to a question made by a questioner at the time of a question is referred to as question utterance information. The question utterance information includes information on the contents of the question indicating the meaning of the spoken word, and acoustic information that is information on the uttered sound.
<実施形態1>
本実施形態では、音声対話システムにおける質問者の質問発話情報に対し、質問者の客観的状態だけでなく、主観的状態に基づいて、適切な回答を提示する処理を説明する。
図1は、本実施形態の音声対話システムのシステム構成の一例を示す図である。
音声対話システムは、情報端末10、カメラ20、サーバー30を含む。情報端末10、カメラ20、サーバー30は、例えば、インターネット等のネットワークを介して相互に接続されている。質問者は、カメラ20を用いて、撮影を行っているものとする。そして、質問者は、情報端末に対して、音声で質問を行う。質問者からの質問を受付けた情報端末10は、質問発話情報を、サーバー30に送信する。サーバー30は、送信された質問発話情報に基づいて、質問者の質問に対する適切な回答を決定し、情報端末に送信する。情報端末10は、送信された回答を、音声で出力したり、表示部12に表示したりして質問者に提示する。
情報端末10は、例えば、スマートフォンやタブレット端末、ウェアラブル端末等の端末装置である。情報端末10は、質問者から質問発話情報を取得し、質問発話情報に対する回答を表示等することができる。情報端末10は、質問発話情報に対して音声信号処理を行うことや、取得した音声認識結果の保存等を行うことができる。情報端末10は、種々のセンサを含み、センサからの情報に基づいて、現在位置や現在時刻等を取得することができる。
<Embodiment 1>
In the present embodiment, a process of presenting an appropriate answer to the question utterance information of the questioner in the voice dialogue system based on not only the objective state of the questioner but also the subjective state will be described.
FIG. 1 is a diagram illustrating an example of a system configuration of the voice interaction system according to the present embodiment.
The voice interaction system includes an
The
カメラ20は、カメラ等の撮像装置である。カメラ20は、画像やセンサ情報等を取得することができる。カメラ20は、質問者からの質問に対する回答を決定する処理を行うわけではなく、情報端末10から設定情報を受信し、受信した設定情報をカメラ20に反映する処理を行う。
サーバー30は、情報端末10やカメラ20と接続されるパーソナルコンピュータ、タブレット装置、サーバー装置等の情報処理装置である。情報端末から受信した質問発話情報に基づいて音声認識や回答検索を行ったり、ウェブサービス等から取得した情報をデータベースとして保存したりすることができる。
本実施形態では、音声対話システムは、3つの構成要素を含むとした。しかし、情報端末10がサーバー30の機能を有する場合、音声対話システムは、情報端末10、カメラ20のみを含むこととしてもよい。また、カメラ20が情報端末10及びサーバー30の機能を含む場合、音声対話システムは、カメラ20のみで構成されることとしてもよい。
The
The
In the present embodiment, the voice interaction system includes three components. However, when the
図2は、音声対話システムの各構成要素のハードウェア構成の一例を示す図である。
情報端末10は、操作部11、表示部12、通信部13、CPU14、メモリ15、記憶装置16、マイク17、センサ18を含む。操作部11、表示部12、通信部13、CPU14、メモリ15、記憶装置16、マイク17、センサ18は、情報端末10のシステムバスを介して相互に接続されている。
操作部11は、情報端末10の操作部である。操作部11は、例えば、質問者の操作を受け付ける際に利用されるボタンやタッチパネル式ディスプレイ等である。質問者は、操作部11を介して、質問に対する回答についての満足の可否等を、情報端末10に入力することができる。
表示部12は、情報端末10の表示部である。表示部12は、例えば、ディスプレイ等である。表示部12は、例えば、入力された質問や回答等の内容を表示することができる。
FIG. 2 is a diagram illustrating an example of a hardware configuration of each component of the voice interaction system.
The
The
The
通信部13は、情報端末10の通信部である。通信部13は、マイク17やセンサ18等を介して取得されたデータをサーバー30に送信したり、サーバー30で処理された音声認識結果や回答等の情報を受信したりする際に利用される。
CPU14は、情報端末10のCPUである。CPU14は、メモリ15や記憶装置16に格納されているコンピュータプログラムやデータを用いて各種処理を行う。また、CPU14は、音声情報の雑音除去処理や回答情報の表示レイアウト作成処理等を行う。
メモリ15は、情報端末10のメモリである。メモリ15は、マイクやセンサ等から取得したデータや、記憶装置16に格納されているコンピュータプログラムを一時的に保持するワークエリアを含む。
記憶装置16は、情報端末10の記憶装置である。記憶装置16は、音声処理等を行うためのコンピュータプログラムや回答情報の表示レイアウトフォーマット等の情報を記憶する。記憶装置16は、例えば、ハードディスクドライブ(HDD)やソリッドステートドライブ(SSD)等である。
The
The
The
The
マイク17は、情報端末10のマイクである。マイク17は、質問者からの質問発話情報を取得することができる。CPU14は、質問発話情報を、通信部13を経てサーバーに送信する。
センサ18は、情報端末10のセンサである。センサ18は、例えば、GPSや近接センサ等である。センサ18は、情報端末10の現在地や現在質問者が所持しているデバイスやアタッチメント等に関する情報を取得することができる。
CPU14が、メモリ15又は記憶装置16に記憶されたプログラムに基づき処理を実行することによって、図3で後述する情報端末10の機能及び図4、5で後述するフローチャートにおける情報端末10の処理等が実現される。
The
The
When the
カメラ20は、通信部21、CPU22、メモリ23、記憶装置24、センサ25を含む。通信部21、CPU22、メモリ23、記憶装置24、センサ25は、カメラ20のシステムバスを介して相互に接続されている。
通信部21は、カメラ20の通信部である。通信部21は、センサ25等を介して取得されたデータを情報端末10やサーバー30に送信したり、情報端末10やサーバー30から情報を受信したりする際に利用される。
CPU22は、カメラ20のCPUである。CPU22は、メモリ23や記憶装置24に格納されているコンピュータプログラムやデータを用いて各種処理を行う。
メモリ23は、カメラ20のメモリである。メモリ23は、センサ25等から取得したデータや、記憶装置24に格納されているコンピュータプログラムを一時的に保持するワークエリアを含む。
The
The
The
The
記憶装置24は、カメラ20の記憶装置である。記憶装置24は、撮影処理等を行うためのコンピュータプログラム等の情報を記憶する。記憶装置24は、例えば、HDDやSSD等である。
センサ25は、カメラ20のセンサである。センサ25は、例えば、撮像素子、ジャイロセンサ、照度センサ等を含む。センサ25は、カメラ20の姿勢に関する情報を取得できる。CPU22は、センサ25を介して、撮影処理を行う。
CPU22が、メモリ23又は記憶装置24に記憶されたプログラムに基づき処理を実行することによって、図3で後述するカメラ20の機能及びカメラ20の処理等が実現される。
The
The
When the
サーバー30は、通信部31、CPU32、メモリ33、記憶装置34を含む。通信部31、CPU32、メモリ33、記憶装置34は、サーバー30のシステムバスを介して相互に接続されている。
通信部31はサーバー30の通信部である。通信部31は、情報端末10やカメラ20が取得・処理したデータの受信や、サーバー30で処理した音声認識結果や回答等の情報の送信に利用される。
CPU32は、サーバー30のCPUである。CPU32は、メモリ33や記憶装置34に格納されているコンピュータプログラムやデータを用いて各種処理を行う。CPU32は、情報端末10やカメラ20では処理に時間がかかるような処理を行う。
メモリ33は、サーバー30のメモリである。メモリ33は、例えば、情報端末10のマイク17やセンサ18等から取得したデータを、一時的に保持するためのワークエリアを有する。また、メモリ33は、CPU32が処理を実行する際に必要となるワークエリアも有する。
記憶装置34は、サーバー30の記憶装置である。記憶装置34は、各種処理を行うためのコンピュータプログラムや、音声認識に必要な各種モデル、質問に対する回答候補を記憶するデータベース等を記憶する。記憶装置34は、例えば、HDDやSSD等である。
CPU32が、メモリ33又は記憶装置34に記憶されたプログラムに基づき処理を実行することによって、図3で後述するサーバー30の機能及び図4〜8で後述するフローチャートにおけるサーバー30の処理等が実現される。
The
The
The
The
The
The
図3は、音声対話システムに含まれる情報端末10、カメラ20、サーバー30の機能構成の一例を示す図である。
情報端末10は、情報端末制御部311、音声取得部312、内容提示部313、表示操作部314、操作内容取得部315、センサ情報取得部316、表示条件設定部317を含む。
情報端末制御部311は、情報端末10による質問発話情報取得、センサ情報取得、内容表示等を滞りなく行うよう、タスクの制御を行う。
音声取得部312は、マイク17を介して、質問者からの質問を受け付け、質問発話情報を取得することができる。また必要に応じて質問発話情報以外に、交通音や水の流れる音、雑踏音等の音声以外の環境音を取得することもできる。
内容提示部313は、表示部12に対して、質問者からの質問や質問に対する回答の内容を表示し、質問者に提示することができる。
表示操作部314は、操作部11を介して、表示部12に表示させる内容を切り替えたり、選択したりすることができる。
操作内容取得部315は、操作部11を介した質問者の操作に基づいて、質問者がどの回答に目を通したか、実行したか、提示した回答に満足したか否か等の情報を取得することができる。
センサ情報取得部316は、情報端末10に含まれるセンサ18から、質問者の現在地や現在所持しているデバイスやアタッチメント等の情報を取得することができる。
表示条件設定部317は、表示操作部314を介して、表示部12に表示させる内容の決定方法や、表示する回答数の上限数等の表示条件を設定できる。
FIG. 3 is a diagram illustrating an example of functional configurations of the
The
The information terminal control unit 311 controls the task so that the question utterance information acquisition, sensor information acquisition, content display, and the like by the
The
The
The
Based on the operation of the questioner via the
The sensor
The display
カメラ20は、カメラ制御部321、パラメータ設定部322、センサ情報取得部323を含む。
カメラ制御部321は、カメラ20による撮像、パラメータ設定、センサ情報取得等の処理が滞りなく行われるよう、カメラ20を制御する。
パラメータ設定部322は、カメラ20の動作に関するパラメータを、カメラ20に反映させる。パラメータ設定部322は、例えば、質問者から質問発話情報として、カメラ20の使い方や設定についての質問の情報が取得された場合、質問者による回答確認後に、カメラのパラメータを変更することができる。パラメータ設定部322は、カメラ20の操作部を介した質問者の操作に基づいて、又は、情報端末10から受信される設定情報に基づいて、カメラ20のパラメータを更新できる。
センサ情報取得部323は、センサ25から、カメラの向いている方向や周囲の明るさ等の情報を取得することができる。
The
The
The
The sensor
サーバー30は、サーバー制御部331、音声認識部332、初期設定実行部333、客観状態推定部334、主観状態推定部335、回答情報記憶部336、質問者情報記憶部337、感情情報記憶部338、回答決定部339を含む。
サーバー制御部331は、サーバー30による音声認識、回答決定、データベースの更新等の処理が滞りなく行われるように、タスクの制御を行う。
音声認識部332は、音声取得部312により取得された質問発話情報に基づいて、質問発話情報に係る質問者の音声の音響特徴量の抽出と、発話内容のテキスト化を行うことができる。
初期設定実行部333は、以下の二つの機能がある。一つは、質問者の性別、年齢、居住地等の質問者の客観的情報を取得及び記憶装置34等に登録する機能である。もう一つは、質問者の発声の音響情報といった質問が発声して入力された場合に初めて取得可能となる質問者の主観的情報を取得及び、記憶装置34等に登録する機能である。初期設定実行部333は、予め、感情が平常な状態の質問者から取得された音声情報から音響情報を抽出し、記憶装置34等に登録するものとする。
The
The
Based on the question utterance information acquired by the
The initial
感情が平常な場合の音声情報を取得するためには、例えば、以下のような方法がある。音声取得部312が、感情が平常な状態の質問者に予め用意された文章を発声してもらい、その発生された音声情報を取得するという方法である。本実施形態では、例えば、情報端末10は、表示部12に、「気分を落ち着けて、以下の文章を発声してください」等のメッセージを表示し、質問者に提示する。情報端末10は、表示部12に、そのメッセージと併せて、発声させる文章を表示する。質問者は、表示部12に表示された文章を発声する。音声取得部312は、その音声を取得することになる。
また、音声取得部312は、一定期間、感情が平常な状態の質問者に任意の文章や単語を発声してもらい、その発声された任意の文章や単語の音声を取得することとしてもよい。また、音声取得部312は、これらの方法以外の方法で、感情が平常な状態の質問者の音声を取得することとしてもよい。また、質問者情報記憶部337は、音声取得部312により取得された感情が平常な状態の質問者の音声から抽出した音響情報を、質問者の状態推定処理に利用される情報を格納するデータベースに記憶する。以下では、質問者の状態推定処理に利用される情報を格納するデータベースを質問者データベースとする。
In order to acquire voice information when emotion is normal, for example, there are the following methods. In this method, the
In addition, the
客観状態推定部334は、質問者の客観的状態を推定する。質問者の客観的状態とは、質問者の意思に関係なく取得できる客観的情報から推定される質問者の状態である。質問者の身体的状態等の質問者の客観的状態は、センサ等で取得される客観的情報から推定可能な状態である。客観的情報とは、例えば、質問者の現在地や現在所持しているデバイスやアタッチメント等の情報のように、質問者の意思とは直接的に関係のない情報のことである。質問者の身体的状態とは、質問者の性別や年齢、身長、何を所持しているか等の質問者の身体や所持している物に関する状態である。また、事前に登録されている質問者の性別や年齢等の質問者の身体的な情報も客観的情報に含まれる。客観状態推定部334は、1つの客観的情報に対応する客観的状態を、質問者の客観的状態として推定してもよいし、複数の客観的情報に対応する客観的状態を、質問者の客観的状態として推定してもよい。例えば、客観状態推定部334は、センサ25によりカメラ20に望遠レンズが接続されていることを示す客観的情報が取得された場合、望遠レンズを所持している状態を、質問者の客観的状態として推定してもよい。
主観状態推定部335は、質問者の主観的状態を推定する。質問者の主観的状態とは、例えば、質問者の心理的状態等の質問者の意思により決定される状態である。質問者の心理的状態とは、「焦っている」、「落ち着いている」等の質問者の心理の状態である。質問者の主観的状態は、例えば、質問発話情報の音響情報とセンサ等を介して取得される情報等に基づいて推定可能である。主観状態推定部335は、例えば、質問発話情報の発声の速度が、予め定義された平常状態に比べ速い場合は、質問者が焦っている状態であると推定することができる。主観状態推定部335は、センサ等から取得される情報のうち、単一の情報に基づいて、質問者の主観的状態を推定してもよいし、複数の情報に基づいて、質問者の主観的状態を推定してもよい。
The objective
The subjective
回答情報記憶部336は、質問内容と回答内容と付属情報との組みを回答データという1つの単位とし、複数の回答データを含むデータベース(以下では、回答データベース)の記憶と、更新を行う。回答データベースは、例えば、記憶装置34等に実装される。回答データは、例えば、質問内容として「運動会での徒競走の写真の撮り方」というテキスト情報、回答内容としてシーンモードやシャッタースピードの設定値の情報を含む。更に、回答データは、例えば、付属情報として、回答に対応する客観的状態や回答に対応する主観的状態、及び、その回答データについての質問者の満足度の情報等を含む。回答データは、例えば、回答に対応する主観的状態として、その回答が過去、使用された際の質問者の主観的状態のうち、最も多かった主観的状態を含むこととしてもよい。回答内容と付属情報とを含む回答データは、回答候補と回答候補に対応する主観的状態と回答候補に対する前記質問者の満足の度合いを示す満足度との対応を示す対応情報の一例である。
本実施形態では、音声取得部312により取得された質問発話情報が音声認識部332により認識された後、回答決定部339が音声認識部332による認識結果と回答データベースとに基づいて、適切な回答を抽出する。そして、内容提示部313が、抽出された回答を、質問者に提示する。回答の提示後に質問者が行った操作内容は、操作内容取得部315によって取得され、その内容に応じて回答情報記憶部336が回答データベースを更新する。より具体的には、回答情報記憶部336は、回答データベースの項目のうち、その回答が選択された際の質問者の主観的状態の比率や、回答に対する満足度等の項目を更新する。本実施形態では、回答情報記憶部336は、回答データベースの更新において以上のような方法を用いているが、この方法に限定するものではない。回答情報記憶部336は、例えば、回答を、ウェブ等を介して外部から新たに取得した情報に基づいて、回答データベースを更新することとしてもよい。
The answer
In this embodiment, after the question utterance information acquired by the
質問者情報記憶部337は、質問者の質問発話情報に加えて、質問者の客観的状態の推定に利用可能な情報と質問者の主観的状態の推定に利用可能な情報との両方を記憶する質問者データベースの記憶と、更新を行う。
本実施形態では、質問者情報記憶部337は、質問者データベースに質問発話情報の発話内容、音響情報、センサ情報等を記憶する。また、質問者情報記憶部337は、初期設定実行部333により取得された質問者の性別や年齢等の情報や、感情が平常である場合の質問者の音響情報等の情報も、質問者データベースに記憶する。また、質問者情報記憶部337は、質問発話情報の発話内容と音響情報、更にセンサ情報取得部316とセンサ情報取得部323により取得されたセンサ情報の内容で、質問者データベースを更新する。質問者情報記憶部337は、質問者データベースに、全てのデータを取得時間と紐づけて一元的に管理可能なように情報を記憶したり、質問者の主観的状態及び客観的状態のデータ等のデータの属性ごとに分類して管理可能なように記憶したりする。質問者データベースの更新方法は、このような方法に限定されるものではない。
感情情報記憶部338は、各種音響特徴量と感情を示すラベル(怒り、悲しみ、焦り、平常状態などのテキスト)との組を一つのデータ(以下では、感情データ)とし、複数の感情データを含むデータベース(以下では、感情データベース)の記憶を行う。音響特徴量としては、発話速度や基本周波数、音量、抑揚の大きさ、パワーや発話持続期間、更にはMFCCやその分散等がある。また、本実施形態では、それぞれの音響特徴量は、ラベルが示す感情の状態における複数の人の発声データから導出された平均的な特徴量である。本実施形態では、回答情報記憶部336、質問者情報記憶部337、感情情報記憶部338は、それぞれ別個の機能構成要素となっているが、これらのうちの幾つかを適宜統合した機能構成要素がサーバー30に含まれることとしてもよい。
In addition to the question utterance information of the questioner, the questioner
In the present embodiment, the questioner
The emotion
回答決定部339は、質問者が所望する回答を提示するために、質問者からの質問に対しての適切な回答の決定を行う。
回答決定部339は、例えば、以下の三つの機能を含む。
一つ目は、回答データベースの中から現在受けている質問と同じ質問内容を含む回答データを抽出して、抽出した回答データを回答候補に決定する。そして、現在の質問者の客観的状態と回答候補に対応する客観的状態とを比較して、類似であるか否かを判定する機能である。客観的状態が類似か否かの判定処理は、例えば以下のように行われる。現在所持している三脚やレンズといったカメラ20の付属品についての情報が客観的情報として利用される場合、回答決定部339は、付属品毎に、質問の際の質問者と回答データとにおいて、所持状態が同一か否かを判定する。回答決定部339は、半数以上の付属品について所持状態が同一である場合は、客観的状態が類似であると判定する。回答決定部339は、客観的状態の類似判定方法として、以上の方法以外の方法を用いてもよい。
二つ目は、客観的状態を比較した上で類似であると判定した回答データの主観的状態と、質問の際の質問者の主観的状態を比較して、同一であるか否かを判定する機能である。即ち、質問の際の質問者の主観的状態が「焦っている」と推定された場合、比較中の回答データに対応する主観的状態が「焦っている」であるか否かを判定する機能である。
三つ目は、客観的状態、及び主観的状態が、回答データに対応する客観的状態、及び主観的状態と類似又は同一であると判断された回答データにおいて、満足度が閾値以上である回答データを質問者の質問に対する回答に決定する機能である。本実施形態では、回答決定部339は、最適な回答を提示するために以上のような方法を行うが、他の方法を行ってもよい。
The
The
First, answer data including the same question content as the question currently received is extracted from the answer database, and the extracted answer data is determined as an answer candidate. And it is a function which compares the objective state of a present questioner, and the objective state corresponding to an answer candidate, and determines whether it is similar. The process for determining whether or not the objective state is similar is performed, for example, as follows. When information about accessories of the
Second, compare the subjective state of the answer data determined to be similar after comparing the objective state and the subjective state of the questioner at the time of the question to determine whether or not they are the same It is a function to do. That is, a function for determining whether or not the subjective state corresponding to the answer data being compared is “impressed” when the subjective state of the questioner at the time of the question is estimated to be “impressed” It is.
Third, in the answer data that the objective state and the subjective state are judged to be similar or identical to the objective state and the subjective state corresponding to the answer data, the answer with the satisfaction level equal to or greater than the threshold value This function determines data as answers to the questioner's question. In the present embodiment, the
図4は、回答選択処理の一例を示すフローチャートである。
S401において、表示条件設定部317は、表示操作部314を介して、操作部11に対する質問者の操作に基づいて、表示部12への表示処理に関する条件を決定する。
S402において、初期設定実行部333は、質問者の音声対話システムの使用履歴に応じて、初期設定を行う。S402の処理の詳細は、図5で後述する。
S403において、音声取得部312は、質問者による質問の発声を、マイク17を介して取得し、取得した音声情報から、質問発話情報を取得する。そして、音声取得部312は、取得した質問発話情報を、サーバー30に送信する。音声取得部312による質問発話情報のサーバー30への送信処理は、音声送信処理の一例である。
S404において、音声認識部332は、通信部13及び通信部31を介して、S403で音声取得部312により取得された質問者の質問発話情報を取得する。音声認識部332は、取得した質問発話情報から、音響情報と意味情報とを取得する。
S405において、客観状態推定部334は、センサ情報取得部316とカメラのセンサ情報取得部323を介して、センサ18、センサ25により取得された情報を取得する。そして、客観状態推定部334は、取得した情報に基づいて、質問者の客観的状態を推定する。
S406において、主観状態推定部335は、S404で音声認識部332により取得された質問発話情報の音響情報と、センサ情報取得部316及びセンサ情報取得部323により取得されたセンサ18、センサ25からの情報と、に基づいて、次の処理を行う。即ち、主観状態推定部335は、質問者の主観的状態を推定する。S406の処理の詳細は、図6で後述する。
FIG. 4 is a flowchart illustrating an example of an answer selection process.
In step S <b> 401, the display
In step S402, the initial
In S403, the
In S404, the
In step S <b> 405, the objective
In S406, the subjective
S407において、回答決定部339は、以下の処理を実行する。
まず、回答決定部339は、音声認識部332から取得した質問発話情報の意味情報をもとに、回答情報記憶部336により記憶された回答データベースの中から、同じ質問内容を含む回答データを抽出して回答候補に決定する。そして、回答決定部339は、客観状態推定部334により取得された質問の際の質問者の客観的状態が、回答候補に対応する客観的状態と類似するか否かを判定する。
次に、回答決定部339は、対応する客観的状態が質問の際の質問者の客観的状態と類似であると判定した回答候補を特定する。そして、回答決定部339は、特定した回答候補それぞれについて、対応する主観的状態が、主観状態推定部335により取得された質問の際の質問者の主観的状態と同一であるか否かを判定する。
そして、回答決定部339は、対応する主観的状態が質問の際の質問者の主観的状態と同一である回答候補について、対応する満足度が設定された閾値以上であるか否かを判定する。そして、回答決定部339は、対応する満足度が設定された閾値以上である回答候補を質問者の質問に対する回答として決定する。本実施形態では、回答決定部339は、最適な回答を決定するために以上のような方法で回答の決定を行っているが、この方法に限定するものではない。S407の処理の詳細は、図7で後述する。
In S407, the
First, the
Next, the
Then, the
S408において、回答決定部339は、S407で回答として決定した回答データの内容を、内容提示部313を介して質問者に提示する。例えば、回答決定部339は、S407で回答として決定した回答データの情報を情報端末10に送信し、内容提示部313を介して、情報端末10に送信した回答データの内容を、表示部12に表示するよう指示する。回答決定部339によるS407で回答として決定された回答データの内容を情報端末10に送信処理は、回答送信処理の一例である。そして、内容提示部313は、回答データの内容を表示部12に表示することで、質問者に提示する。また、内容提示部313は、表示部12に、提示した回答データに対する質問者からの応答を受け付ける受付画面を表示する。受付画面は、例えば、提示された回答データに満足したか否かの選択ボタンや、回答データを確認したか否かの選択ボタン、回答データに対応するパラメータをカメラ20に反映させるか否かの選択ボタン等を含む。
S409において、操作内容取得部315は、S408で提示された回答データに対する質問者の応答を、表示操作部314を介して取得する。操作内容取得部315は、例えば、質問者がS408で表示された受付画面に対しての入力に応じて、質問者がどの回答に目を通したか否か、回答で提示された操作を実行したか否か、提示した回答に満足したか否か等の情報を取得する。回答情報記憶部336は、操作内容取得部315により取得されたこれらの情報を用いて、適切なタイミングで、回答データベースを更新する。S409の処理の詳細は、図8で後述する。
In step S <b> 408, the
In S409, the operation
図5は、初期設定処理の一例を示すフローチャートである。
S501において、初期設定実行部333は、質問者による音声対話システムの利用が初めてか否かを判定する。初期設定実行部333は、質問者による音声対話システムの利用が初めてと判定した場合、S502に進み、質問者による音声対話システムの利用が初めてでないと判定した場合、図5の処理を終了する。初期設定実行部333は、例えば、表示部12に利用が初めてか否かを選択するYES/NO形式のボタンを含む選択画面を表示させ、質問者による選択画面を介した操作に基づいて、利用が初めてか否かの情報を取得することとしてもよい。
また、情報端末10は、質問者のログイン処理等により質問者の情報を取得することとして、初期設定実行部333は、情報端末10から質問者の情報を取得する。そして、初期設定実行部333は、取得した質問者について、感情状態が平常な場合の発声の音響情報が質問者データベース内に記憶されているか否かを判定することとしてもよい。その場合、初期設定実行部333は、質問者データベース内に記憶されていると判定した場合、その質問者による音声対話システムの利用は初めてではないと判定する。初期設定実行部333は、質問者データベース内に記憶されていないと判定した場合、その質問者による音声対話システムの利用は初めてであると判定する。
FIG. 5 is a flowchart illustrating an example of the initial setting process.
In step S <b> 501, the initial
Further, the
S502において、初期設定実行部333は、質問者の感情状態が平常である場合の音響情報を質問者データベースから取得する。感情状態が平常であるとは、怒りや悲しみ等の感情を感じていない落ち着いた感情状態である。
感情状態が平常である場合の音響情報を取得するには、例えば以下の手順の実行が必要である。まず、内容提示部313が、質問者に発話してもらうテキストを表示部12に表示する。表示されるテキストは少なくとも一つ以上の文を含む。次に、音声認識部332は、質問者が発話したテキスト音声を、音声取得部312を介して取得し、取得した音声情報を認識し、その音声情報に対応する音響情報を取得する。そして、質問者情報記憶部337は、音声認識部332により取得された音響情報を、その質問者の感情状態が平常な状態の音響情報として質問者データベースに記憶する。例えば、音響情報は、発話速度や音量、抑揚の大きさ、基本周波数、パワーや発話持続時間、更にはMFCCやその分散等の音響特徴量である。本実施形態では、質問者の感情状態が平常である場合の音響情報の取得を、音声対話システムを初めて使用する場合にのみ取得されることとする。しかし、例えば、過去に音声対話システムを利用したことのある質問者が改めて音声対話システムを利用し始めた際に、音声対話システムは、質問者の感情状態が平常である場合の音響情報を取得することとしてもよい。
In step S <b> 502, the initial
In order to acquire acoustic information when the emotional state is normal, for example, the following procedure must be executed. First, the
図6は、質問者の主観的状態の推定処理の一例を示すフローチャートである。
S601において、主観状態推定部335は、質問者の感情状態を感情データベースに保存されているモデル感情データと比較するために、質問者の感情データとモデル感情データとの関係Fを取得する。モデル感情データとは、ラベルが示す感情の状態における複数の人の音声データから導出された平均的な特徴量である。本実施形態では、主観状態推定部335は、感情が平常な状態での感情データの特徴量に基づいて、関係Fを取得する。また、関係Fは、モデル感情データのある特徴量が質問者の感情データの同じ特徴量の何倍に相当するか、で算出される。例えば、感情状態が平常な状態でのモデル感情データの特徴量が(a1、a2、a3、…)であり、感情状態が平常な状態での質問者の感情データの特徴量が(b1、b2、b3、…)であり、関係Fが(f1、f2、f3、…)であるとする。その場合、a1=f1×b1、a2=f2×b2、…の関係を満たす。主観状態推定部335は、この関係から、関係Fを算出する。
S602において、主観状態推定部335は、S601で算出した関係Fを、ある感情状態の質問者の感情データの特徴量に適用する。即ち、主観状態推定部335は、ある感情状態の質問者の感情データの特徴量(B1、B2、B3、…)に対して、関係Fを適用する。その結果、適用後の特徴量は(B'1、B'2、B'3、…)(B'1=f1×B1、B'2=f2×B2、…)となる。これにより、ある感情状態の質問者の感情データの特徴量を感情データベースに保存されているモデル感情データと比較できるようになる。即ち、ある感情状態の質問者の感情データの特徴量に関係Fを適用した特徴量が、感情データベースに保存されているモデル感情データの特徴量と比較される特徴量となる。
FIG. 6 is a flowchart illustrating an example of the process of estimating the subjective state of the questioner.
In step S601, the subjective
In S602, the subjective
S603において、主観状態推定部335は、感情データベースより感情データを1つ選択する。選択された感情データの特徴量を(A1、A2、A3、…)とする。
S604において、主観状態推定部335は、S602で算出したある感情状態の質問者の特徴量に関係Fを適用した特徴量(B'1、B'2、B'3、…)と、S603で選択した感情データの特徴量(A1、A2、A3、…)について類似度Mを算出する。類似度Mは、特徴量(B'1、B'2、B'3、…)を要素とするベクトルB'と特徴量(A1、A2、A3、…)を要素とするベクトルAを用いて、ベクトルB'とベクトルAの内積からベクトルAの絶対値の二乗を引いた値である。即ち、主観状態推定部335は、M=|B'・A−|A|2|の式を用いて、類似度Mを算出する。
S605において、主観状態推定部335は、感情データベースに含まれる全ての感情データに対して、類似度Mを算出したか否かを判定する。主観状態推定部335は、全ての感情データに対して類似度Mを算出した場合は、特徴量の類似度比較処理を終了し、S607に進む。主観状態推定部335は、類似度Mを算出していない感情データがある場合は、S606の処理に進む。
S606において、主観状態推定部335は、感情データベースから、S603〜S604の処理が行われていない感情データを取得した後、取得した感情データについて、S603〜S604の処理を行う。
S607において、主観状態推定部335は、感情データベースに含まれる感情データのうち、S604で算出した類似度Mが最小となる感情データに対応する感情を示すラベルを、質問の際の質問者の主観的状態として推定する。
In S603, the subjective
In S604, the subjective
In S605, the subjective
In S <b> 606, the subjective
In S <b> 607, the subjective
図7は、回答決定処理の一例を示すフローチャートである。
S701において、回答決定部339は、回答データベースより、回答データを一つ選択する。
S702において、回答決定部339は、客観状態推定部334により取得された質問の際の質問者の客観的状態と、S701で選択した回答データに対応する客観的状態とを比較し、客観的状態が類似であるか否かを判定する。回答決定部339は、類似であると判定した場合、S703に進み、類似でないと判定した場合、S709に進む。
S702における客観状態推定部334により取得された質問の際の質問者の客観的状態と、S701で選択した回答データに対応する客観的状態と、の類似か否かの判定処理について説明する。
例えば、客観的状態として、カメラ20に接続される付属品(三脚、望遠レンズ等)の情報が利用される場合について説明する。本実施形態では、カメラ20に接続される付属品は、三脚と望遠レンズとの2つであるとする。客観状態推定部334は、カメラ20からカメラ20に接続されている付属品の情報を、質問者の客観的情報として取得する。客観状態推定部334は、例えば、カメラ20から客観的情報として、三脚が接続されていることを示す情報を取得する。その場合、客観状態推定部334は、三脚が接続されていることを示す客観的情報に基づいて、質問者の客観的状態を、三脚を所持している状態として推定する。
FIG. 7 is a flowchart illustrating an example of an answer determination process.
In step S701, the
In S702, the
A process for determining whether or not the objective state of the questioner at the time of the question acquired by the objective
For example, a case where information on accessories (tripod, telephoto lens, etc.) connected to the
また、客観状態推定部334は、例えば、カメラ20から客観的情報として、三脚が接続されていることを示す情報、及び望遠レンズが接続されていることを示す客観的情報を取得した場合、以下のように推定する。即ち、客観状態推定部334は、質問者の客観的状態を、三脚及び望遠レンズを所持している状態として推定する。客観状態推定部334は、例えば、カメラ20から客観的情報として、三脚が接続されていないことを示す情報、及び望遠レンズが接続されていないことを示す情報を取得した場合、質問者の客観的状態を、何も所持していない状態として推定する。
回答決定部339は、例えば、客観状態推定部334により推定された質問の際の質問者の客観的状態に対応する客観的情報と、S701で取得した回答データに対応する客観的状態に対応する客観的情報と、を比較することで、双方が類似するか否か判定する。回答決定部339は、例えば、双方の客観的状態について、客観的状態に対応する客観的情報のうち、半数以上が共通する場合、双方の客観的状態を類似すると決定する。
本実施形態では、回答決定部339は、客観状態推定部334により推定された客観的状態に対応する客観的情報である付属品の所持状態と、S701で取得した回答データに対応する客観的状態が示す付属品の所持状態と、を比較する。
例えば、客観状態推定部334により推定された客観的状態が付属品を所持していない状態である場合、質問の際の質問者の客観的状態に対応する客観的情報は、以下の情報である。即ち、質問の際の質問者の客観的状態に対応する客観的情報は、三脚が接続されていないことを示す情報、及び望遠レンズが接続されていないことを示す情報である。S701で取得された回答データに対応する客観的状態が付属品を所持していない状態である場合は、S701で取得された回答データに対応する客観的状態に対応する客観的情報は、同様に、以下の情報となる。即ち、S701で取得された回答データに対応する客観的状態に対応する客観的情報は、三脚が接続されていないことを示す情報、及び望遠レンズが接続されていないことを示す情報である。その場合、回答決定部339は、双方の客観的状態に対応する客観的情報の全てが共通しているので、双方の客観的状態を類似していると判定する。
Further, for example, when the objective
The
In this embodiment, the
For example, when the objective state estimated by the objective
また、例えば、客観状態推定部334により推定された客観的状態が付属品を所持していない状態である場合、質問の際の質問者の客観的状態に対応する客観的情報は、以下の情報である。即ち、質問の際の質問者の客観的状態に対応する客観的情報は、三脚が接続されていないことを示す情報、及び望遠レンズが接続されていないことを示す情報である。S701で取得された回答データに対応する客観的状態が三脚及び望遠レンズを所持している状態である場合、その客観的状態に対応する客観的情報は、三脚が接続されていることを示す情報及び、望遠レンズが接続されていることを示す情報である。その場合、回答決定部339は、双方の客観的状態に対応する客観的情報のうち共通しているものがないので、双方の客観的状態を類似でないと判定する。
また、例えば、客観状態推定部334により推定された客観的状態が三脚を所持している状態の場合、質問の際の質問者の客観的状態に対応する客観的情報は、三脚が接続されていることを示す情報、及び望遠レンズが接続されていないことを示す情報である。S701で取得された回答データに対応する客観的状態が三脚及び望遠レンズを所持している状態である場合、その客観的状態に対応する客観的情報は、三脚が接続されていることを示す情報及び、望遠レンズが接続されていることを示す情報である。その場合、回答決定部339は、三脚が接続されていることを示す情報が共通しており、2つの客観的情報のうち半数以上である1つの客観的情報が共通することになるので、双方の客観的状態を類似であると判定する。
本実施形態では、音声対話システムは、客観的情報として、付属品がカメラ20に接続されているか否かの情報を利用することとしたが、他の情報を利用してもよい。例えば、音声対話システムは、客観的情報として、カメラ20の照度センサからのセンサ値が設定された閾値以上であるか否かを示す情報を、質問者の客観的情報として利用してもよい。
For example, when the objective state estimated by the objective
Further, for example, when the objective state estimated by the objective
In the present embodiment, the voice interaction system uses information as to whether the accessory is connected to the
S703において、回答決定部339は、S701で選択した回答データに対応する主観的状態と、主観状態推定部335により推定された質問の際の質問者の主観的状態と、が同一か否かを判定する。例えば、主観状態推定部335が質問の際の質問者の主観的状態を、「焦っている」状態と推定した場合、回答決定部339は、S701で選択した回答データに対応する主観的状態が「焦っている」状態であるか否かを判定する。回答決定部339は、双方の主観的状態を同一と判定した場合、S704に進み、同一でないと判定した場合、S709に進む。
S704において、回答決定部339は、S701で選択した回答データに対応する満足度pが設定された閾値(以下では、p_bound)以上であるか否かを判定する。表示条件設定部317は、閾値p_boundを決定し、決定した閾値p_boundの情報を、記憶装置34に記憶するようサーバー30に指示する。表示条件設定部317は、例えば、表示部12に、閾値p_boundの値の入力を受け付けるための入力画面を表示する。そして、表示条件設定部317は、入力画面への質問者による入力に基づいて、閾値p_boundの値を決定することができる。
回答決定部339は、S701で選択した回答データに対応する満足度pが閾値p_bound以上であると判定した場合、S705に進み、閾値p_bound未満であると判定した場合、S709に進む。
In S703, the
In step S704, the
If the
S705において、回答決定部339は、S708で質問者からの質問に対する回答として決定された回答データの個数が設定された回答上限数Lより少ないか否かを判定する。表示条件設定部317は、回答上限数Lを決定し、決定した回答上限数Lの情報を、記憶装置34に記憶するようサーバー30に指示する。表示条件設定部317は、例えば、表示部12に、回答上限数Lの入力を受け付けるための入力画面を表示する。そして、表示条件設定部317は、入力画面への質問者による入力に基づいて、回答上限数Lの値を決定することができる。
回答決定部339は、S708で質問者からの質問に対する回答として決定された回答データの個数が設定された回答上限数Lより少ないと判定した場合、S708に進む。回答決定部339は、S708で質問者からの質問に対する回答として決定された回答データの個数が設定された回答上限数L以上であると判定した場合、S706に進む。
S706において、回答決定部339は、S701で選択した回答データに対応する満足度pが、S708で質問に対する回答として決定された回答データに対応する満足度の中の最小値pminより大きいか否かを判定する。回答決定部339は、pがpminより大きいと判定した場合、S707に進み、pがpmin以下であると判定した場合、S709に進む。
In S705, the
If the
In S706, the
S707において、回答決定部339は、S708で質問に対する回答として決定された回答データの中の対応する満足度がpminである回答データを、質問者の質問に対する回答から除外する。回答決定部339は、S708で質問に対する回答として決定された回答データの中に、対応する満足度がpminである回答データが複数存在する場合、それら全てを質問者の質問に対する回答から除外する。これにより、回答決定部339は、質問に対する回答として、過剰な数の回答を質問者に提示する可能性を低減できる。
S708において、回答決定部339は、S701で選択した回答データを、質問者からの質問に対しての回答として決定する。
S709において、回答決定部339は、回答データベース内の全ての回答データに対して、S702〜S708の処理を行ったか否かを判定する。回答決定部339は、回答データベース内の全ての回答データに対して、S702〜S708の処理を行ったと判定した場合、S711に進む。回答決定部339は、回答データベース内にS702〜S708の処理を行っていない回答データがあると判定した場合、S710で、回答データベースにおける今回の処理で処理した回答データを除いた回答候補を参照し、S701に進む。S701では、回答候補から再び1つの回答データが選択される。
S711において、回答決定部339は、S708で質問者からの質問に対しての回答として決定した回答データが存在するか否かを判定する。回答決定部339は、S708で質問者からの質問に対しての回答として決定した回答データが存在すると判定した場合、図7の処理を終了する。回答決定部339は、S708で質問者からの質問に対しての回答として決定した回答データが存在しないと判定した場合、S712に進む。
In S707, the
In S708, the
In S709, the
In S711, the
S712において、回答決定部339は、回答データベースに含まれる回答データの中に、対応する主観的状態が質問の際の質問者の主観的状態と同一なものが存在するか否かを判定する。回答決定部339は、回答データベースに含まれる回答データの中に、対応する主観的状態が質問の際の質問者の主観的状態と同一なものが存在すると判定した場合、S713に進む。回答決定部339は、回答データベースに含まれる回答データの中に、対応する主観的状態が質問の際の質問者の主観的状態と同一なものが存在しないと判定した場合、S714に進む。
S713において、回答決定部339は、回答データベース中の回答データのうち、S712で対応する主観的状態が質問の際の質問者の主観的状態と同一と判定した回答データの中から、質問者の質問に対する回答とする回答データを決定する。回答決定部339は、例えば、S712で対応する主観的状態が質問の際の質問者の主観的状態と同一と判定した回答データのうち、対応する満足度がp_bound以上のものの中から、満足度が大きいものからL個を質問者の質問に対する回答に決定する。
In step S712, the
In S713, the
S714において、回答決定部339は、回答データベース中の回答データのうち、対応する客観的状態が質問の際の質問者の客観的状態と類似するものが存在するか否かを判定する。回答決定部339は、回答データベース中の回答データのうち、対応する客観的状態が質問の際の質問者の客観的状態と類似するものが存在すると判定した場合、S715に進む。回答決定部339は、回答データベース中の回答データのうち、対応する客観的状態が質問の際の質問者の客観的状態と類似するものが存在しないと判定した場合、S716に進む。
S715において、回答決定部339は、回答データベース中の回答データのうち、S714で対応する客観的状態が質問の際の質問者の客観的状態と類似すると判定した回答データの中から、質問者の質問に対する回答とする回答データを決定する。回答決定部339は、例えば、S714で対応する客観的状態が質問の際の質問者の客観的状態と類似すると判定した回答データのうち、対応する満足度がp_bound以上のものの中から、満足度が大きいものからL個を質問者の質問に対する回答に決定する。
S716において、回答決定部339は、回答データベース中の回答データのうち、対応する満足度がp_bound以上のものの中から、満足度が大きいものからL個を、質問者の質問に対する回答として決定する。
本実施形態では、回答決定部339は、図7の処理で回答を決定したが、この方法に限定されるものではない。例えば、回答決定部339は、S711で回答として決定されている回答データが存在しないと判定した場合、S712〜S716の処理を行う代わりに、適切な回答がない旨を示す情報を表示部12に表示するよう情報端末10に指示することとしてもよい。
In S <b> 714, the
In S715, the
In S716, the
In the present embodiment, the
図8は、回答データベースの更新処理の一例を示すフローチャートである。
S801において、操作内容取得部315は、質問者が提示された質問に対する回答に対して満足したか否かを評価したか否かを判定する。操作内容取得部315は、例えば、内容提示部313を介して表示部12に質問に対する回答と併せて、回答について満足か又は不満足かを選択できるボタン等を表示し、質問者に入力を促す。操作内容取得部315は、表示部12に表示したボタン等を介した質問者の操作に基づいて、質問者が質問に対する回答に満足したか否かを示す情報を取得することができる。操作内容取得部315は、質問者が提示された質問に対する回答に対して満足したか否かを評価したと判定した場合、S802に進む。操作内容取得部315は、質問者が提示された質問に対する回答に対して満足したか否かを評価していないと判定した場合、図8の処理を終了する。
S802において、操作内容取得部315は、質問者が提示された回答に対して満足したか否かを判定する。操作内容取得部315は、S801で説明した方法で、表示部12に表示したボタン等を介した質問者の操作に基づいて、回答に満足したか否かを示す情報を取得する。操作内容取得部315は、取得した情報が回答に満足したことを示す情報である場合、質問者が回答に満足したと判定し、取得した情報が回答に満足していないことを示す情報である場合、質問者が回答に満足していないと判定する。操作内容取得部315は、質問者が提示された回答に対して満足したと判定した場合、S803の処理に進み、質問者が提示された回答に対して満足していないと判定した場合は、図8の処理を終了する。
FIG. 8 is a flowchart illustrating an example of update processing of the answer database.
In step S <b> 801, the operation
In step S <b> 802, the operation
S803において、回答情報記憶部336は、質問者が提示された回答に満足したことを示す情報を用いて、回答データベースを更新する。回答情報記憶部336は、例えば、回答データベース中の今回提示された回答データについて対応する満足度を更新する。回答情報記憶部336は、例えば、回答データに対する満足度を、提示された回答データにおける満足の有無の評価数全てに対して、満足したと回答した数の比率として算出する。例えば、音声対話システムは、回答を質問者に提示した後、質問者から満足又は不満足であるかを示す情報が入力された場合、入力された情報を、履歴情報として記憶装置34等に記憶する。回答情報記憶部336は、例えば、現在までに、ある回答データが提示されたことのある場合全てについて、質問者から入力された満足又は不満足を示す履歴情報を記憶装置34等から取得する。そして、回答情報記憶部336は、満足、不満足に関わらず回答データに対する評価の総数で、質問者が満足と評価した数を割ったものを、満足度として算出する。そして、回答情報記憶部336は、算出した満足度の値で、回答データベース内のその回答データに対応する満足度を更新する。
また、音声対話システムは、質問者により回答が不満足であることを示す情報が入力された場合、他の回答を改めて提示することとしてもよい。
In step S803, the answer
In addition, the voice interactive system may present another answer again when information indicating that the answer is unsatisfactory is input by the questioner.
図9は、表示条件の設定と質問発話情報の入力から回答の提示までの処理で利用されるインターフェース画面の一例を示す図である。図9(a)は、表示条件等の各種条件の設定に利用されるインターフェース画面の一例を示す図である。また、図9(b)は、質問発話情報の入力に利用されるインターフェース画面の一例を示す図である。また、図9(c)は、質問に対する回答を表示する際に利用されるインターフェース画面の一例を示す図である。
本実施形態では、表示操作部314は、S401で、図9(a)のインターフェース画面を表示部12に表示することとするが、図9(a)のインターフェース画面と同様の機能を含む他の画面を表示してもよい。
ウィンドウ901は、図9(a)のインターフェース画面のウィンドウである。本実施形態では、表示条件設定部317は、各種条件の設定や質問発話情報の入力、回答結果の表示等を、ウィンドウ901を介して行う。
スペース902は、表示条件を設定する項目が並ぶスペースである。質問者は、例えば、質問に対する回答を表示する画面において、一度に表示される回答の数をスペース902の入力ボックスに入力することができる。本実施形態では、回答数は数字で設定されるため、質問者は、スペース902の入力ボックス内に所望の数値を記入して入力する。回答決定部339は、例えば、図7の処理において、スペース902に入力された値を、回答上限数Lの値として用いる。
FIG. 9 is a diagram illustrating an example of an interface screen used in processing from setting display conditions and inputting question utterance information to presenting an answer. FIG. 9A is a diagram illustrating an example of an interface screen used for setting various conditions such as display conditions. FIG. 9B is a diagram showing an example of an interface screen used for inputting question utterance information. FIG. 9C is a diagram illustrating an example of an interface screen used when displaying an answer to a question.
In this embodiment, the
A
A
スペース903は、質問に対する回答の決定に利用される決定条件についての項目が並ぶスペースである。例えば、スペース903は、回答候補を評価する処理内で使用される満足度の閾値p_boundの入力に利用されるスライドバー904を含む。また、例えば、スペース903は、回答候補を評価する処理において主観的状態と客観的状態とのどちらの優先順位を高くするかの決定に利用されるラジオボタン905等を含む。回答決定部339は、スペース903に入力された決定条件の情報に基づいて、質問者からの質問に対する回答を決定することになる。
スライドバー904は、満足度の閾値p_boundを決定する際に利用されるスライドバーである。つまみを左右に移動させることにより閾値を変更することが可能である。表示条件設定部317は、スライドバー904上でのつまみの位置に応じて、閾値p_boundの値を決定する。
A
The
ラジオボタン905は、回答候補を評価する処理において主観的状態と客観的状態のどちらを優先するかの選択に利用されるラジオボタンである。音声対話システムは、例えば、ラジオボタン905を介して主観的状態を優先することが選択された場合、以下のようにしてもよい。即ち、音声対話システムは、質問の際の質問者の主観的状態と、回答データベース内の回答データに対応する主観的状態と、が同一であるか否かを比較し、客観的状態については比較しないこととしてもよい。また、音声対話システムは、例えば、ラジオボタン905を介して客観的状態を優先することが選択された場合、以下のようにしてもよい。即ち、音声対話システムは、質問の際の質問者の客観的状態と、回答データベース内の回答データに対応する客観的状態と、が類似するか否かを比較し、主観的状態については比較しないこととしてもよい。
また、音声対話システムは、例えば、ラジオボタン905の代わりに客観的状態と、主観的状態とに対応するチェックボックスを含むこととしてもよい。そして、音声対話システムは、チェックボックスにチェックが入っている状態について、質問の際の質問者の状態と、回答データに対応する状態とを比較することとしてもよい。
ボタン906は、スペース902、903に入力された条件を反映させるか否かの選択に利用される「OK」ボタン、「キャンセル」ボタンである。表示条件設定部317は、「OK」ボタンの選択を検知した場合、スペース902、903に入力された条件の反映を確定する。表示条件設定部317は、「キャンセル」ボタンの選択を検知した場合、スペース902、903に入力された条件の反映を取り消す。
表示操作部314は、スペース902やスペース903に入力された条件の情報を、サーバー30に送信する。この送信処理は、条件送信処理の一例である。
The
Further, for example, the voice interaction system may include check boxes corresponding to an objective state and a subjective state instead of the
A
The
図9(b)は、質問者による質問発話情報の入力に利用されるインターフェース画面の一例を示す図である。表示操作部314は、S403で、表示部12に図9(b)のインターフェース画面を表示することとするが、図9(b)のインターフェース画面と同様の機能を含む他の画面を表示してもよい。
スペース907は、質問文を入力する方法等を案内する情報が表示されるスペースである。質問者は、スペース907に表示された文を参考に質問を発声することができる。表示条件設定部317は、スペース907に表示する文の数や内容を、状況に応じて変更してもよい。
ボタン908は、質問者による質問発話情報の入力を開始する際に、選択されるボタンである。質問者は、ボタン908を選択後にマイク17に向かって、質問を発話する。
表示操作部314は、質問発話情報を入力可能であることを示すために、ボタン908が選択される前と後とでボタン908の色を異なる色で表示する等してもよい。更に、音声取得部312は、質問者による質問の発話が終了した際には、ボタン908の選択を検知することで、質問発話情報の入力が終了したことを検知してもよい。また、音声認識部332は、音声区間を検出し、一定期間、質問者から発話が入力されない場合、質問発話情報の入力を終了してもよい。また、表示操作部314は、質問発話情報の入力を終了した場合は、ボタン908の色を質問発話情報の入力開始前と同じ色に戻してもよい。
本実施形態では、音声取得部312は、ボタン908により質問発話情報の入力を制御しているが、この方法に限定するものではない。例えば、音声取得部312は、質問者からの発話が途切れたタイミングで、質問発話情報の入力を終了することとしてもよい。
FIG. 9B is a diagram illustrating an example of an interface screen used for inputting question utterance information by a questioner. In S403, the
A space 907 is a space for displaying information for guiding a method for inputting a question sentence and the like. The questioner can utter a question with reference to the sentence displayed in the space 907. The display
A
The
In the present embodiment, the
図9(c)は、質問者からの質問に対する回答の表示に利用されるインターフェース画面の一例を示す図である。内容提示部313は、S408で、表示部12に図9(c)のインターフェース画面を表示することとするが、図9(c)のインターフェース画面と同様の機能を含む他の画面を表示してもよい。
ボタン908は、図9(c)のインターフェース画面にも含まれる。音声取得部312は、図9(c)のインターフェース画面が表示されている状態で、ボタン908の選択を検知した場合、図9(b)のインターフェース画面が表示されていなくても、質問者からの質問発話情報の入力を受け付けることができる。
スペース909は、質問者からの質問の内容が表示されるスペースである。質問者は、スペース909の内容を目にすることで、質問者が望む質問が音声対話システムに入力できているか否かを確認できる。
一覧910は、質問者に提示される回答の要約の一覧である。本実施形態では、一覧910は、表形式であり、カメラ20の各パラメータをどのような値に設定すればよいかの情報を含む。本実施形態では、一覧910には、回答決定部339により質問者の質問に対する回答として決定された回答データの要約情報が、上から対応する満足度が高い順に表示されている。なお、一覧910は、表形式でなく、他の形式で回答の要約の一覧を含むこととしてもよい。例えば、一覧910は、箇条書きの形式の回答の要約の一覧を含むこととしてもよい。
FIG. 9C is a diagram illustrating an example of an interface screen used for displaying an answer to a question from a questioner. The
The
A
A
スペース911は、1つの回答データの詳細が表示されるスペースである。スペース911は、回答データに応じた操作の手順を記述した文章や、操作部11の写真や図面等を利用したどこをどのように操作すればよいかの説明等を含む。また、スペース911は、表示中の回答データに応じた操作を実行することで、どのような写真が撮影できるのかを示すイメージ写真等を含むこととしてもよい。本実施形態では、スペース911は、回答の詳細表示に操作手順や撮影可能なイメージ写真等を含むこととしたが、これら以外にも例えば、カメラ20による撮影についてのアドバイス情報等を含むこととしてもよい。
内容提示部313は、例えば、質問者の操作部11を介したタッチ操作等に基づいて、一覧910に表示される回答のうちの何れかの選択を検知する。そして、内容提示部313は、選択された回答についての詳細な情報を、回答データベースから取得し、スペース911に表示することとしてもよい。
A
The
ボタン912は、スペース911に表示されている回答データに対する質問者の満足不満足を回答できるボタンである。内容提示部313は、ボタン912を、S408で回答データを質問者に提示する段階で表示してよい。また、内容提示部313は、ボタン912を、質問者に提示する段階では表示せず、回答データに対応する操作を質問者が実行した後で表示してもよい。例えば、質問者は、スペース911に表示されている操作手順に従って、カメラ20のパラメータを変更したとする。内容提示部313は、カメラ20からパラメータがスペース911に表示されている回答に応じて変更されたことを示す情報を取得すると、ボタン912を表示することとしてもよい。
また、回答決定部339は、質問に対する回答として決定した回答データが示すカメラ20のパラメータの情報を、カメラ20に送信し、カメラ20に対して、送信したパラメータを反映させるように指示することとしてもよい。これにより、質問者が回答で示された操作を行わずとも、カメラ20は、回答で示されたパラメータを反映できる。
回答情報記憶部336は、質問者によるボタン912の選択結果に基づいて、回答データベース内の回答データに対応する満足度を更新する。これにより、音声対話システムは、質問者が以降の質問においてより所望の回答を取得できる可能性を高めることができる。
The
In addition, the
The answer
図10は、種々の条件下における提示される回答等の一例を示す図である。
図10の例では、回答候補となるデータが5種類あるとする。また、質問者の状態(主観的状態、客観的状態)を回答データに対応する状態(主観的状態、客観的状態)と比較する処理(S702、S704の処理)を行うかどうかに関する4種類の条件(状態推定結果の利用条件[1]〜[4])があるとする。また、タスクである質問発話情報がタスクA〜Cの3種類あるとする。5つの回答候補は、図10(a)に示すとおりである。また、3種類のタスク、4種類の条件は、それぞれ以下の通りである。
(3種類のタスク)
タスクA:質問発話テキスト=「運動会での徒競走の写真の撮り方」
客観的状態=三脚、望遠レンズともに未所持
主観的状態=焦り
タスクB:質問発話テキスト=「運動会での徒競走の写真の撮り方」
客観的状態=三脚、望遠レンズともに未所持
主観的状態=平常心
タスクC:質問発話テキスト=「運動会での徒競走の写真の撮り方」
客観的状態=三脚、望遠レンズともに所持
主観的状態=平常心
(4種類の条件)
状態推定結果の利用条件[1]:客観的状態を利用しない、主観的状態を利用しない(S702、S703の判定処理が行われない)
状態推定結果の利用条件[2]:客観的状態を利用する、主観的状態を利用しない(S703の判定処理が行われない)
状態推定結果の利用条件[3]:客観的状態を利用しない、主観的状態を利用する(S702の判定処理が行われない)
状態推定結果の利用条件[4]:客観的状態を利用する、主観的状態を利用する(S702、S704の処理が行われる)
FIG. 10 is a diagram illustrating an example of answers presented under various conditions.
In the example of FIG. 10, it is assumed that there are five types of data as answer candidates. In addition, four types of whether or not to perform processing (S702, S704 processing) for comparing a questioner's state (subjective state, objective state) with a state (subjective state, objective state) corresponding to the answer data It is assumed that there is a condition (use conditions [1] to [4] of the state estimation result). Further, it is assumed that there are three types of task utterance information, which are tasks A to C. The five answer candidates are as shown in FIG. The three types of tasks and the four types of conditions are as follows.
(Three types of tasks)
Task A: Question utterance text = “How to take a picture of a race at an athletic meet”
Objective state = no tripod or telephoto lens
Subjective state = impatience Task B: Text of question utterance = "How to take a picture of an athletic meet"
Objective state = no tripod or telephoto lens
Subjective state = Normal mind Task C: Question utterance text = "How to take a picture of an athlete at an athletic meet"
Objective state = possessing both a tripod and a telephoto lens
Subjective state = normal mind (4 conditions)
Condition of use of state estimation result [1]: Do not use objective state, do not use subjective state (determination process of S702 and S703 is not performed)
Use condition of state estimation result [2]: Use objective state, do not use subjective state (determination process of S703 is not performed)
Condition of use of state estimation result [3]: Do not use objective state, use subjective state (determination process of S702 is not performed)
Condition of use of state estimation result [4]: Use objective state, use subjective state (processing of S702 and S704 is performed)
図10(a)は、回答候補の一例を示す図である。図10(a)に表示されている回答候補は、何れもS407において質問者が所望する可能性の高いと評価された回答データである。各回答データは、大きく分けて2つの情報を含む。1つは、質問に対する回答の情報であり、図10(a)の例では「カメラの設定」であるモード、シャッタースピードの情報である。もう1つは、回答データが質問者の要求に合致するか否かを判定する際に利用される情報であり、図10(a)の例では、客観的状態(三脚所持有無、望遠レンズ所持有無)、主観的状態(焦りや平常等)、その回答に対しての質問者の満足度の情報である。回答データに対応する主観的状態は、これまでその回答データが採用された場合における質問者の主観的状態の中で最も多い状態としてもよい。
図10(b)は、各タスクに対して、条件毎に最も質問者が所望する回答が選択された結果を示す図である。タスクA〜Cは、何れも客観的状態、及び主観的状態が異なるので、それに応じて異なる回答が期待される。図10(b)の表中のアルファベットは、指定した条件においてそのタスクが最適と判断した回答データを示している。
FIG. 10A illustrates an example of answer candidates. The answer candidates displayed in FIG. 10A are all answer data evaluated as having a high possibility that the questioner desires in S407. Each answer data roughly includes two pieces of information. One is information on the answer to the question. In the example of FIG. 10A, information on the mode and shutter speed, which is “camera setting”. The other is information used when determining whether or not the answer data matches the requester's request. In the example of FIG. 10A, an objective state (whether a tripod is held or a telephoto lens is held). Presence / absence), subjective state (impression, normality, etc.), and information on the satisfaction of the questioner with respect to the answer. The subjective state corresponding to the answer data may be the largest state of the questioner's subjective state when the answer data has been adopted so far.
FIG. 10B is a diagram illustrating a result of selecting an answer most desired by the questioner for each condition for each task. Since all of the tasks A to C have different objective states and subjective states, different answers are expected accordingly. The alphabets in the table of FIG. 10B indicate the answer data that the task has determined to be optimal under the specified conditions.
図10(b)に示される結果を、状態推定結果の利用条件毎に見ていく。
状態推定結果の利用条件[1]においては、全てのタスクで同じ回答(E)が最適だと判定されている。これは、質問発話情報のテキスト情報のみが利用されており、音響情報から推定される主観的状態やセンサ等の情報から推定される客観的状態が利用されていないためである。この結果は、回答決定部339がS704で回答データに対応する満足度について、閾値判定を行うことで、質問に対する回答を決定する処理の結果である。このように状態推定結果の利用条件[1]では、音声対話システムは、質問者が異なる状態におかれていても毎回同じ回答しか提示することができない。そのため、質問者は、最適な回答を取得することはできない。
状態推定結果の利用条件[2]においては、カメラ付属所持品に応じてタスク毎の回答が変化しているのが分かる(タスクA、Bは回答D、タスクCは回答E)。この結果は、回答決定部339がS702で客観的状態が類似するか否かの判定と、S704で回答データに対応する満足度について閾値判定と、を行うことで、質問に対する回答を決定する処理の結果である。これにより、所持していないカメラ付属品を用いた操作を行うことを示す回答が提示されることはなくなり、状態推定結果の利用条件[1]下に比べると、音声対話システムは、質問者の置かれている客観的状態に則して回答を提示できる。しかし、音声対話システムは、状態推定結果の利用条件[2]の下では、質問発話情報の音響情報から取得できる主観的状態を利用していない。そのため、音声対話システムは、例えば、質問者が短時間で手早く設定できる回答を所望する場合でも、より設定に時間がかかる操作を示す回答を提示するといった場合がある。
The result shown in FIG. 10B will be seen for each use condition of the state estimation result.
In the use condition [1] of the state estimation result, it is determined that the same answer (E) is optimal for all tasks. This is because only text information of question utterance information is used, and a subjective state estimated from acoustic information and an objective state estimated from information such as sensors are not used. This result is the result of the process in which the
In the use condition [2] of the state estimation result, it can be seen that the answer for each task changes according to the camera accessories (task A and B are answer D, and task C is answer E). As a result, the
状態推定結果の利用条件[3]において、状態推定結果の利用条件[1]及び[2]では区別ができなかったタスク1と2とについて、音響情報から推定できる質問者の主観的状態に応じて、異なる回答を提示しているのが分かる。これにより、例えば質問者が短時間で手早く設定できる回答を所望する場合に、より設定に時間を必要とする回答が提示されることはなくなる。したがって、音声対話システムは、状態推定結果の利用条件[1]に比べると質問者の置かれている主観的状態に則して回答を提示している。しかし、センサ等の情報から取得できる質問者の客観的状態を使用していないため、例えば質問者が三脚や望遠レンズ等を所持していない場合でも、それらについての操作を示す回答を提示するといった場合がある。
状態推定結果の利用条件[4]において、全てのタスクで回答が異なるのが分かる。これは、音声対話システムが質問者の主観的状態と、カメラ付属品の所持の有無といった質問者の客観的状態の両方を利用しているためである。音声対話システムは、状態推定結果の利用条件[3]下と同様に、タスク1と2に対しても、それぞれ別の回答を提示している。更に、音声対話システムは、状態推定結果の利用条件[2]下と同様に、客観的状態を主観的状態の両方を使用することにより、質問者のカメラ付属品の所持状態に応じた回答を提示することができる。したがって、音声対話システムは、状態推定結果の利用条件[4]下では、質問者の客観的状態及び主観的状態に応じてより適切な回答を提示できる。即ち、本実施形態の音声対話システムは、状態推定結果の利用条件[4]を実現するための技術を提供するものである。
In the use condition [3] of the state estimation result, the tasks 1 and 2 that cannot be distinguished in the use condition [1] and [2] of the state estimation result depend on the subjective state of the questioner who can be estimated from the acoustic information You can see that they are presenting different answers. Thereby, for example, when the questioner desires an answer that can be set quickly in a short time, an answer that requires more time for setting is not presented. Therefore, the spoken dialogue system presents an answer in accordance with the subjective state where the questioner is placed as compared to the use condition [1] of the state estimation result. However, since the objective state of the questioner that can be obtained from information such as sensors is not used, for example, even when the questioner does not have a tripod, a telephoto lens, etc., an answer indicating the operation about them is presented. There is a case.
It can be seen that in the use condition [4] of the state estimation result, the answers are different for all tasks. This is because the voice dialogue system uses both the subjective state of the questioner and the objective state of the questioner, such as whether or not the camera accessory is possessed. The spoken dialogue system presents different answers for tasks 1 and 2 as well, under the usage condition [3] of the state estimation result. Furthermore, the speech dialogue system uses both the objective state and the subjective state as in the condition [2] for use of the state estimation result, thereby providing an answer according to the possession state of the questioner's camera accessory. Can be presented. Therefore, the speech dialogue system can present a more appropriate answer according to the objective state and the subjective state of the questioner under the use condition [4] of the state estimation result. That is, the voice interaction system of the present embodiment provides a technique for realizing the use condition [4] of the state estimation result.
以上、本実施形態では、音声対話システムは、質問者からの質問を音声で受付け、受け付けた質問者の質問発話情報に基づいて、質問を発話した際の質問者の主観的状態を推定する。そして、音声対話システムは、対応する主観的状態が、質問を発話した際の質問者の主観的状態と同一である回答データを、質問者の質問に対する回答として決定する。これにより、音声対話システムは、質問者に対して、質問者の主観的状態に応じて、より適切な回答を決定し、提示することができる。
また、音声対話システムは、対応する主観的状態が、質問の際の質問者の主観的状態と同一であり、対応する客観的状態が、質問の際の質問者の客観的状態と類似する回答データを、質問者の質問に対する回答として決定することもできる。これにより、音声対話システムは、質問者に対して、質問者の主観的状態及び客観的状態に応じて、より適切な回答を決定し、提示することができる。
As described above, in this embodiment, the voice interaction system accepts a question from a questioner by voice, and estimates the subjective state of the questioner when the question is uttered based on the question utterance information of the accepted questioner. Then, the spoken dialogue system determines answer data whose corresponding subjective state is the same as the subjective state of the questioner when the question is uttered as an answer to the questioner's question. Thereby, the voice interaction system can determine and present a more appropriate answer to the questioner according to the subjective state of the questioner.
In addition, the spoken dialogue system has an answer in which the corresponding subjective state is the same as the subjective state of the questioner at the time of the question, and the corresponding objective state is similar to the objective state of the questioner at the time of the question. The data can also be determined as an answer to the questioner's question. Thereby, the voice interaction system can determine and present a more appropriate answer to the questioner according to the subjective state and objective state of the questioner.
<その他の実施形態>
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではない。
例えば、上述した音声対話システムの機能構成の一部又は全てをハードウェアとして情報端末10やサーバー30に実装してもよい。
<Other embodiments>
The present invention supplies a program that realizes one or more functions of the above-described embodiments to a system or apparatus via a network or a storage medium, and one or more processors in the computer of the system or apparatus read and execute the program This process can be realized. It can also be realized by a circuit (for example, ASIC) that realizes one or more functions.
As mentioned above, although preferable embodiment of this invention was explained in full detail, this invention is not limited to the specific embodiment which concerns.
For example, a part or all of the functional configuration of the above-described voice interaction system may be implemented in the
10 情報端末
20 カメラ
30 サーバー
10
Claims (25)
前記第1の推定手段により推定された前記質問者の主観的状態に基づいて、前記質問に対する回答を決定する決定手段と、
を有する情報処理装置。 First estimating means for estimating a subjective state of the questioner based on an acoustic feature of an audio signal indicating a question from the questioner;
Determining means for determining an answer to the question based on the subjective state of the questioner estimated by the first estimating means;
An information processing apparatus.
前記第1の推定手段は、前記登録手段により登録された音響特徴量を含む前記複数の心理的な状態それぞれに対応する音響特徴量のうち、前記音声信号の音響特徴量と最も類似する音響特徴量に対応する心理的な状態を、前記質問者の心理的な状態として推定する請求項4記載の情報処理装置。 A registration means for registering an acoustic feature amount in the subjective state set by the questioner;
The first estimation unit is an acoustic feature most similar to the acoustic feature amount of the audio signal among acoustic feature amounts corresponding to each of the plurality of psychological states including the acoustic feature amount registered by the registration unit. The information processing apparatus according to claim 4, wherein a psychological state corresponding to the amount is estimated as a psychological state of the questioner.
前記決定手段は、回答候補と回答候補に対応する主観的状態と回答候補に対応する客観的状態と回答候補に対する満足度との対応を示す前記対応情報と、前記第1の推定手段により推定された前記質問者の主観的状態と、前記第2の推定手段により推定された前記質問者の客観的状態とに基づいて、前記質問に対する回答を決定する請求項6記載の情報処理装置。 A second estimating means for estimating an objective state of the questioner;
The determination means is estimated by the first estimation means, the correspondence information indicating the correspondence between the answer candidate, the subjective state corresponding to the answer candidate, the objective state corresponding to the answer candidate, and the satisfaction with the answer candidate. The information processing apparatus according to claim 6, wherein an answer to the question is determined based on the subjective state of the questioner and the objective state of the questioner estimated by the second estimating unit.
前記受付手段により受付けられた前記応答に基づいて、前記対応情報を更新する更新手段と、
を更に有する請求項7乃至12何れか1項記載の情報処理装置。 Accepting means for accepting a response to an answer to the question determined by the determining means;
Updating means for updating the correspondence information based on the response received by the receiving means;
The information processing apparatus according to claim 7, further comprising:
前記更新手段は、前記質問に対する回答について、前記受付手段により受付けられた複数の回答に基づいて、前記質問に対する回答に対する前記質問者の満足度を算出し、算出した満足度で、前記対応情報の中の前記質問に対する回答に対応する回答候補の満足度を更新する請求項13記載の情報処理装置。 The accepting means accepts an answer indicating whether or not the answer to the question determined by the determining means is satisfactory;
The updating means calculates the satisfaction of the questioner with respect to the answer to the question based on a plurality of answers received by the receiving means with respect to the answer to the question. The information processing apparatus according to claim 13, wherein the satisfaction level of answer candidates corresponding to an answer to the question is updated.
前記受付手段により受け付けた前記音声に対応する音声信号を、情報処理装置に送信する音声送信手段と、
前記音声送信手段により送信された前記音声信号に対する応答として、前記情報処理装置から送信された前記質問に対する回答の情報を出力する出力手段と、
を有する端末装置。 A reception means for receiving a voice indicating the question from the questioner;
Audio transmission means for transmitting an audio signal corresponding to the audio received by the reception means to an information processing device;
An output means for outputting information on an answer to the question transmitted from the information processing apparatus as a response to the sound signal transmitted by the sound transmitting means;
A terminal device.
前記設定手段により設定された前記決定条件の情報を前記情報処理装置に送信する条件送信手段と、
を更に有する請求項17記載の端末装置。 Setting means for setting conditions for determining the answer to the question;
Condition transmitting means for transmitting information on the determination condition set by the setting means to the information processing apparatus;
The terminal device according to claim 17, further comprising:
前記端末装置は、
質問者から質問を示す音声を受付ける受付手段と、
前記受付手段により受け付けた前記音声に対応する音声信号を、前記情報処理装置に送信する音声送信手段と、
前記音声送信手段により送信された前記音声信号に対する応答として、前記情報処理装置から送信された前記質問に対する回答の情報を出力する出力手段と、
を有し、
前記情報処理装置は、
前記端末装置から送信された前記音声信号の音響特徴量に基づいて、前記質問者の主観的状態を推定する推定手段と、
前記推定手段により推定された前記質問者の主観的状態に基づいて、前記質問に対する回答を決定する決定手段と、
前記決定手段により決定された前記質問に対する回答の情報を前記端末装置に送信する回答送信手段と、
を有するシステム。 A system including a terminal device and an information processing device,
The terminal device
A reception means for receiving a voice indicating the question from the questioner;
Audio transmission means for transmitting an audio signal corresponding to the audio received by the reception means to the information processing apparatus;
An output means for outputting information on an answer to the question transmitted from the information processing apparatus as a response to the sound signal transmitted by the sound transmitting means;
Have
The information processing apparatus includes:
Estimating means for estimating a subjective state of the questioner based on an acoustic feature amount of the voice signal transmitted from the terminal device;
Determining means for determining an answer to the question based on the subjective state of the questioner estimated by the estimating means;
Answer sending means for sending answer information to the question determined by the determining means to the terminal device;
Having a system.
質問者からの質問を示す音声信号の音響特徴量に基づいて、前記質問者の主観的状態を推定する推定ステップと、
前記推定ステップで推定された前記質問者の主観的状態に基づいて、前記質問に対する回答を決定する決定ステップと、
を含む情報処理方法。 An information processing method executed by an information processing apparatus,
An estimation step for estimating a subjective state of the questioner based on an acoustic feature amount of an audio signal indicating a question from the questioner;
A determination step of determining an answer to the question based on the subjective state of the questioner estimated in the estimation step;
An information processing method including:
質問者から質問を示す音声を受付ける受付ステップと、
前記受付ステップで受け付けた前記音声に対応する音声信号を、情報処理装置に送信する音声送信ステップと、
前記音声送信ステップで送信された前記音声信号に対する応答として、前記情報処理装置から送信された前記質問に対する回答の情報を出力する出力ステップと、
を含む情報処理方法。 An information processing method executed by a terminal device,
A reception step for receiving a voice indicating the question from the questioner;
An audio transmission step of transmitting an audio signal corresponding to the audio received in the reception step to an information processing device;
As a response to the audio signal transmitted in the audio transmission step, an output step of outputting information on an answer to the question transmitted from the information processing device;
An information processing method including:
前記端末装置が、質問者から質問を示す音声を受付ける受付ステップと、
前記端末装置が、前記受付ステップで受け付けた前記音声に対応する音声信号を、前記情報処理装置に送信する音声送信ステップと、
前記情報処理装置が、前記端末装置から送信された前記音声信号の音響特徴量に基づいて、前記質問者の主観的状態を推定する推定ステップと、
前記情報処理装置が、前記推定ステップで推定された前記質問者の主観的状態に基づいて、前記質問に対する回答を決定する決定ステップと、
前記情報処理装置が、前記決定ステップで決定された前記質問に対する回答の情報を前記端末装置に送信する回答送信ステップと、
前記端末装置が、前記回答送信ステップで前記情報処理装置から送信された前記質問に対する回答の情報を出力する出力ステップと、
を含む情報処理方法。 An information processing method in a system including a terminal device and an information processing device,
A receiving step in which the terminal device receives a voice indicating a question from a questioner;
An audio transmission step in which the terminal device transmits an audio signal corresponding to the audio received in the reception step to the information processing device;
The information processing apparatus estimates the subjective state of the interrogator based on the acoustic feature amount of the audio signal transmitted from the terminal device; and
The information processing apparatus determines a response to the question based on the subjective state of the questioner estimated in the estimation step;
The information processing apparatus transmits an answer information for the question determined in the determination step to the terminal apparatus;
An output step in which the terminal device outputs information of an answer to the question transmitted from the information processing device in the answer transmission step;
An information processing method including:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016142734A JP2018013595A (en) | 2016-07-20 | 2016-07-20 | Information processing device, terminal device, system, information processing method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016142734A JP2018013595A (en) | 2016-07-20 | 2016-07-20 | Information processing device, terminal device, system, information processing method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018013595A true JP2018013595A (en) | 2018-01-25 |
Family
ID=61021270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016142734A Pending JP2018013595A (en) | 2016-07-20 | 2016-07-20 | Information processing device, terminal device, system, information processing method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2018013595A (en) |
-
2016
- 2016-07-20 JP JP2016142734A patent/JP2018013595A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10452982B2 (en) | Emotion estimating system | |
US9824687B2 (en) | System and terminal for presenting recommended utterance candidates | |
US20200027456A1 (en) | Electronic device and method for providing artificial intelligence services based on pre-gathered conversations | |
US20200074993A1 (en) | Electronic device, method for determining utterance intention of user thereof, and non-transitory computer-readable recording medium | |
US20160379643A1 (en) | Group Status Determining Device and Group Status Determining Method | |
US11238871B2 (en) | Electronic device and control method thereof | |
EP3622510A1 (en) | Intercom-style communication using multiple computing devices | |
WO2017100334A1 (en) | Vpa with integrated object recognition and facial expression recognition | |
JP6983118B2 (en) | Dialogue system control methods, dialogue systems and programs | |
US20180047030A1 (en) | Customer service device, customer service method, and customer service system | |
US10836044B2 (en) | Robot control device and robot control method | |
US11763690B2 (en) | Electronic apparatus and controlling method thereof | |
JP2017009825A (en) | Conversation state analyzing device and conversation state analyzing method | |
JP2019158975A (en) | Utterance system | |
Metcalf et al. | Mirroring to build trust in digital assistants | |
JP5309070B2 (en) | Multimodal dialogue device | |
CN116018791A (en) | Multi-person call using single request in assistant system | |
JP2020173714A (en) | Device, system, and program for supporting dialogue | |
KR102511517B1 (en) | Voice input processing method and electronic device supportingthe same | |
KR20200115695A (en) | Electronic device and method for controlling the electronic devic thereof | |
CN107170447B (en) | Sound processing system and sound processing method | |
CN109427332B (en) | Electronic device performing operation using voice command and method of operating the same | |
JP2018013595A (en) | Information processing device, terminal device, system, information processing method, and program | |
US20190035420A1 (en) | Information processing device, information processing method, and program | |
JP6866731B2 (en) | Speech recognition device, speech recognition method, and program |