JP6585733B2

JP6585733B2 - 情報処理装置

Info

Publication number: JP6585733B2
Application number: JP2017551560A
Authority: JP
Inventors: 真一本多; 博之勢川; 真一狩谷
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2015-11-17
Filing date: 2016-09-08
Publication date: 2019-10-02
Anticipated expiration: 2036-09-08
Also published as: US20180350362A1; US10755704B2; JPWO2017085992A1; WO2017085992A1

Description

本発明は、ユーザーから音声による入力を受け付ける情報処理装置、情報処理方法、プログラム、及び情報記憶媒体に関する。

ユーザーが発話する音声を受け付けて、その音声の内容に応じて情報処理を実行する情報処理装置が知られている。このような技術によれば、ユーザーはキーボードやタッチパネルで文字を入力する代わりに、声で各種の指示や情報を入力することができる。

Kikuo Maekawa and Hiroki Mori、"VOICE-QUALITY ANALYSIS OF JAPANESE FILLED PAUSES: A PRELIMINARY REPORT"、［online］、[平成27年11月16日検索]、インターネット<URL:http://www2.ninjal.ac.jp/kikuo/Maekawa-DISS2015.pdf>

上記従来例の技術では、ユーザーから単純な指示や文字列情報などを受け付けることはできたとしても、ユーザーの感情や態度などを読み取ることは難しい。ユーザーの感情や態度などは、発話内容以外の情報にも表れるからである（例えば非特許文献１参照）。

本発明は上記実情を考慮してなされたものであって、その目的の一つは、ユーザーの発話から発話内容以外の情報を読み取ることのできる情報処理装置、情報処理方法、プログラム、及び情報記憶媒体を提供することにある。

本発明に係る情報処理装置は、ユーザーの声を集音して得られる音声信号を取得する音声信号取得部と、前記取得された音声信号を用いて、前記ユーザーの声が含まれていない時間、及び前記ユーザーが意味をなさない発声をしている時間の少なくとも一方を含む評価対象時間を特定する時間特定部と、前記特定された評価対象時間に応じた出力を行う出力部と、を含むことを特徴とする。

本発明に係る情報処理方法は、ユーザーの声を集音して得られる音声信号を取得するステップと、前記取得された音声信号を用いて、前記ユーザーの声が含まれていない時間、及び前記ユーザーが意味をなさない発声をしている時間の少なくとも一方を含む評価対象時間を特定するステップと、前記特定された評価対象時間に応じた出力を行うステップと、を含むことを特徴とする。

本発明に係るプログラムは、ユーザーの声を集音して得られる音声信号を取得する音声信号取得部、前記取得された音声信号を用いて、前記ユーザーの声が含まれていない時間、及び前記ユーザーが意味をなさない発声をしている時間の少なくとも一方を含む評価対象時間を特定する時間特定部、及び、前記特定された評価対象時間に応じた出力を行う出力部、としてコンピュータを機能させるためのプログラムである。このプログラムは、コンピュータ読み取り可能で非一時的な情報記憶媒体に格納されて提供されてよい。

本発明の実施の形態に係る情報処理装置の構成を示す構成ブロック図である。本発明の実施の形態に係る情報処理装置の機能を示す機能ブロック図である。本発明の実施の形態に係る情報処理装置が特定する思考時間の一例を示す図である。エージェントの発言候補及びその選択基準の一例を示す図である。エージェントの好感度の変化量を決定するモデルの一例を示す図である。本発明の実施の形態に係る情報処理装置が実行する処理の流れの一例を示すフロー図である。

以下、本発明の実施形態について、図面に基づき詳細に説明する。

図１は、本発明の一実施形態に係る情報処理装置１の構成を示す構成ブロック図である。情報処理装置１は、例えば家庭用ゲーム機や携帯型ゲーム機、パーソナルコンピュータ、スマートホン等であって、図１に示すように、制御部１１と、記憶部１２と、インタフェース部１３と、を含んで構成されている。また、情報処理装置１は、表示装置１４、マイクロホン１５、スピーカー１６、及びカメラ１７と接続されている。

制御部１１はＣＰＵ等を含んで構成され、記憶部１２に記憶されているプログラムを実行して各種の情報処理を実行する。本実施形態において制御部１１が実行する処理の具体例については、後述する。記憶部１２は、ＲＡＭ等のメモリデバイスを含み、制御部１１が実行するプログラム、及び当該プログラムによって処理されるデータを格納する。インタフェース部１３は、情報処理装置１が表示装置１４、マイクロホン１５、スピーカー１６、及びカメラ１７との間で各種の情報を授受するためのインタフェースである。

表示装置１４は、家庭用テレビ受像機や液晶ディスプレイ等であって、情報処理装置１が出力する映像信号に応じた画像を画面上に表示する。マイクロホン１５は、情報処理装置１のユーザーが発する声を集音して得られる音声信号を情報処理装置１に対して出力する。スピーカー１６は、情報処理装置１が出力する音声信号に従って音声を鳴動させる。カメラ１７は、ユーザーの様子を示す映像を撮像し、撮像された映像を情報処理装置１に入力する。なお、表示装置１４、マイクロホン１５、及びスピーカー１６は、いずれも情報処理装置１の筐体内に内蔵されてもよいし、情報処理装置１と有線又は無線により接続される別個の装置であってもよい。また、情報処理装置１は、ユーザーの頭部の動きを検出するために、３軸加速度センサーや地磁気センサーなどの姿勢検出センサーを備えたデバイスと接続されてもよい。このようなデバイスをユーザーが装着することで、ユーザーの頭部の動作を検出できる。また、情報処理装置１は、ユーザーの操作入力を受け付ける操作入力デバイス（コントローラ等）と接続されてもよい。

以下、情報処理装置１が実現する機能について、図２を用いて説明する。図２に示すように、情報処理装置１は、機能的に、エージェント処理部２１、音声信号取得部２２、音声認識部２３、及び思考時間特定部２４を含んで構成されている。これらの機能は、制御部１１が記憶部１２に記憶されたプログラムに従って動作することにより実現される。このプログラムは、インターネット等の通信ネットワークを介して情報処理装置１に提供されてもよいし、光ディスク等のコンピュータ読み取り可能な情報記憶媒体に格納されて提供されてもよい。

エージェント処理部２１は、ユーザーとコミュニケーションを行う仮想的なエージェントを実現し、エージェントによるユーザーとの会話処理を実行する。具体的にエージェント処理部２１は、後述する音声認識部２３によって特定されるユーザーの発話内容を受け付ける。さらにエージェント処理部２１は、受け付けたユーザーの発話内容などに応じて、エージェントの発言内容を決定する。そして、決定したエージェントの発言内容を話す音声信号を生成し、スピーカー１６に対して出力する。これにより、エージェントの発言がスピーカー１６から音声として再生される。

具体例として、エージェント処理部２１は、まずユーザーに対して投げかける質問を決定し、その内容を音声として再生する。そして、その質問に対するユーザーの応答の内容に基づいて、次のエージェントの発言内容を決定する。このような処理を繰り返すことによって、エージェント処理部２１はユーザーとの会話を実現する。

本実施形態における特徴の一つとして、エージェント処理部２１は、エージェントの発言内容を決定する際に、後述する思考時間特定部２４によって特定される評価対象時間を使用する。以下では、思考時間特定部２４によって特定される評価対象時間を思考時間Ｔと表記する。この思考時間Ｔは、エージェントの発言（ここではユーザーへの質問）が再生されてユーザーに提示されてから、ユーザーが当該発言に対する応答を開始するまでの間の特定の条件に合致する時間である。なお、ここでは便宜上思考時間と表記しているが、思考時間Ｔは必ずしもユーザーが応答内容を思考している時間だけに限らず、応答を躊躇して黙っている時間なども含まれてよい。思考時間Ｔに応じてエージェント処理部２１が実行する処理の具体例については、後述する。

さらにエージェント処理部２１は、ユーザーの発話内容や思考時間Ｔだけでなく、その他にもユーザーの発話の特徴に関する各種の情報を用いてエージェントの発言内容を決定してもよい。また、カメラ１７によって撮像されたユーザーの表情や動作などに関する情報を用いてエージェントの発言内容を決定してもよい。このような制御によって、エージェント処理部２１は、ユーザーの話した内容（言語情報）のみならず、ユーザーの感情や思考を反映した各種のパラ言語情報、非言語情報を考慮して、それに応じた会話を実現することができる。

また、エージェント処理部２１は、エージェントの発言を音声として再生するだけでなく、エージェントを表すキャラクターなどの画像を表示装置１４の画面に表示してもよい。さらに、ユーザーの発話内容やエージェントの発言内容などに応じてこのキャラクターが動作する様子を示す映像を表示してもよい。

また、エージェント処理部２１は、エージェントの感情や、ユーザーに対する心理的距離感、好感度などの状態を示す各種のパラメータを保持してもよい。これらのパラメータの内容は、ユーザーの発話内容などに基づいて随時更新される。そして、エージェント処理部２１は、エージェントの発言内容をその時点のパラメータの値に応じて決定する。例えばユーザーが相手を怒らせるような言動をした場合、エージェント処理部２１はエージェントの怒り度合いを示すパラメータの数値を上昇させ、その数値に応じて発言内容を決定する。このような制御によれば、エージェントが感情を持っているかのように演出することができる。

音声信号取得部２２は、マイクロホン１５によって集音された音声信号を取得し、後述する音声認識部２３、及び思考時間特定部２４に対して出力する。本実施形態において音声信号取得部２２は、エージェントの発言内容に対して応答するユーザーの声を含んだ音声信号を取得することになる。

音声認識部２３は、音声信号取得部２２が取得した音声信号を解析することによって、ユーザーの発話内容を特定する。このような発話内容の特定は、隠れマルコフモデルを用いた統計的手法や動的時間伸縮法など、各種公知の音声認識技術などを用いて実現できる。特定されたユーザーの発話内容は、エージェント処理部２１による会話処理に用いられる。

思考時間特定部２４は、音声信号取得部２２が取得した音声信号に基づいて思考時間Ｔを特定する。前述したように、思考時間Ｔは、ユーザーがエージェントの発言に対する応答を開始する前の特定の条件に合致する時間である。例えば思考時間Ｔは、エージェントの発言の再生が終了した時点（すなわち、エージェントの発言のユーザーへの提示が完了した時点）を始期として、ユーザーが当該質問に対する応答の発声を開始する時点を終期とする経過時間の全体であってもよい。また、この経過時間のうち、後述する条件に合致する一部の時間であってもよい。

以下、思考時間特定部２４が思考時間Ｔを特定する方法の具体例について、説明する。思考時間特定部２４は、音声信号中にユーザーの声が含まれていない時間、及びユーザーが意味をなさない発声をしている時間の少なくとも一方を思考時間Ｔとして特定する。以下では、音声信号中にユーザーの声が含まれていないと判定される時間を無音時間という。また、ユーザーが意味をなさない発声をしていると判定される時間をフィラー時間という。思考時間Ｔは、無音時間及びフィラー時間のいずれか一方のみであってもよいし、これら二種類の時間を合計した時間であってもよい。また、後述するように、無音時間及びフィラー時間の双方をそれぞれ個別に特定してもよい。

例えば思考時間特定部２４は、音声信号に含まれる音声の大きさ（音声信号の振幅）が所定の閾値Ｔｈ１以下の時間を無音時間と判定する。無音時間のみを思考時間Ｔとする場合、思考時間特定部２４は、エージェントの発言が終了した後、音声信号取得部２２によって取得される音声信号のレベルが所定の閾値Ｔｈ１を最初に超えたタイミングでユーザーが応答を開始したと判定し、そのタイミングまでの経過時間を思考時間Ｔとして特定することになる。

フィラー時間は、ユーザーが声を発しているものの、言語的に意味のある発言をしていない時間である。一般的に、人は何かを話す際に、「えー」、「あのー」などのようにそれ自体意味を持たない声を発することがある。このような発声は、ポーズフィラーや有声休止とも呼ばれる。思考時間特定部２４は、このフィラー時間を思考時間Ｔに含めることで、ユーザーが実質的に意味のある応答を開始するまでの時間をより精度よく特定することができる。

一例として、思考時間特定部２４は、音声信号のレベルが所定の閾値Ｔｈ２を超えていない状態をフィラー時間であると判定してもよい。通常、はっきりと意味のある発言をしている場合と比較して、ポーズフィラーを発している間は声が小さくなると推定されるためである。この場合の閾値Ｔｈ２は、前述した無音時間を特定するための閾値Ｔｈ１よりは大きな値となる。

思考時間特定部２４は、音声信号に含まれる音の周波数の解析結果を用いてフィラー時間を検出してもよい。例えば思考時間特定部２４は、音声信号に対して基本周波数の推定処理（Ｆ０推定）を実行した結果を用いてフィラー時間を検出する。一例として、Ｆ０推定に失敗した場合、ユーザーがはっきりとした発言をしていないと推定されるため、その時間をフィラー時間であると判定する。また、Ｆ０推定の結果が通常の発話と異なる特定のパターンを示した場合に、そのパターンが得られた時間をフィラー時間と判定してもよい。さらに、Ｆ０推定の結果を単独で用いるのではなく、音声信号のレベルや音声認識結果などの各種の解析結果と組み合わせてフィラー時間を検出してもよい。

また、思考時間特定部２４は、教師付き機械学習によって生成された推定器を用いてフィラー時間を特定してもよい。この場合、標本となる音声信号データを複数の単位時間に区切って、単位時間毎にその時間に含まれる音声がフィラーか否かを示すラベルを付与した教師データが生成される。なお、各単位時間は、その一部が他の単位時間と重複してもよい。一方で、各単位時間に含まれる音声信号について、その特徴量が算出される。単位時間における音声信号の特徴量は、メルフィルタバンク出力や、信号振幅の二乗の総和（電力）などであってよい。これらのデータを入力とした機械学習によって、音声信号がフィラーに該当するか否か判定するための推定器を生成できる。

また、思考時間特定部２４は、音声認識処理の結果を用いて音声信号がフィラーに該当するか否かを判定してもよい。具体的に、思考時間特定部２４は、音声認識部２３が音声認識を行った際に認識に失敗した音声信号に対応する時間を、フィラー時間として特定する。なお、思考時間特定部２４は、無音時間ではない（ユーザーの声が含まれる）と判定され、かつ音声認識に失敗した音声信号に対応する時間を全てフィラー時間として特定してもよい。あるいは、音声認識処理において所定の種類のエラーが発生した場合に、そのエラーが発生した音声に対応する時間をフィラー時間として特定してもよい。

具体例として、隠れマルコフモデルなどによる音声認識処理では、予め、音声データベースやテキストデータベースから音素モデルが生成され、音素モデルから単語辞書などを用いて単語モデルが生成される。また、テキストデータベースから言語モデルが生成される。そして、実際の音声認識処理を実行する際には、取得された音声信号データから音声信号の特徴量を算出し、算出された特徴量を用いて音声信号中の音素がどの音素モデルにマッチするか、また連続した複数の音素からなる音声がどの単語にマッチするかが判定される。その後、言語モデルとのマッチングが行われる。ここで思考時間特定部２４は、音素モデルに対するマッチングに失敗した場合、又はマッチングすると判定されたがその確率が所定の閾値以下の場合に、その音素が発声された時間はフィラー時間であると特定する。また、単語モデルへのマッチングに失敗した場合にも、そのマッチングの対象となった音素の集合が発声された時間をフィラー時間として特定してもよい。また、単語モデルへのマッチングによって特定の単語にマッチングすると判定された場合に、そのマッチングした音素の集合が発声された時間をフィラー時間として特定してもよい。

図３は、思考時間特定部２４によって特定される思考時間Ｔの一例を示す図である。ここでは、無音時間とフィラー時間の双方を思考時間Ｔに含めることとしている。この図の例では、ユーザーは、エージェントの質問が再生された後、２秒間沈黙し、３秒間「うーん」というフィラーを発声し、その後に質問の回答を始めている。この場合、思考時間特定部２４は思考時間Ｔを５秒間と特定する。なお、ここでは無音時間とフィラー時間がこの順に一度ずつ検出されているが、無音時間とフィラー時間は複数回表れることもあり得る。また、無音時間とフィラー時間は逆の順序で表れる場合もある。これらの場合も、思考時間特定部２４は、無音時間、及びフィラー時間のいずれかと判定される時間が続いていれば、これらの無音時間及びフィラー時間を合算した時間を思考時間Ｔとして特定するものとする。

次に、思考時間特定部２４が特定した思考時間Ｔに応じてエージェント処理部２１が実行する処理の具体例について説明する。ここではエージェント処理部２１は、エージェントの発言に対してユーザーが応答した後にさらに続くエージェントの発言内容を、その応答にユーザーが要した思考時間Ｔに応じて変化させるものとする。例えばエージェントの質問に対してユーザーが肯定的な返事を返した場合であっても、ユーザーが質問への回答に時間を要した場合（思考時間Ｔが長い場合）、その応答が消極的なものであり、ユーザーの強い意思に基づくものでない可能性がある。また、答えにくい質問に対して即答した場合（思考時間Ｔが著しく短い場合）、その応答は嘘であるなど、本心でない可能性が考えられる。そこでエージェント処理部２１は、このような思考時間Ｔに基づく推定を反映して次のエージェントの発言内容を決定する。

この例において、まずエージェント処理部２１は、エージェントからの質問を出力する際に、その質問にユーザーが応答するために必要と想定される標準的な時間を決定する。以下、この標準的な時間を基準時間Ｔｒという。基準時間Ｔｒは、質問の内容（話題や質問形式）に応じて予め定められてよい。例えばエージェント処理部２１は、「はい」か「いいえ」で答えるタイプの質問のようにユーザーが答えやすい形式の質問を出力する場合には基準時間Ｔｒを短く設定し、ユーザーが答えにくい形式の質問であれば基準時間Ｔｒを長く設定する。

基準時間Ｔｒは、エージェントの質問が音声として再生される際の話速に応じて決定されてもよい。一般に、早口で質問されると質問された側はすぐに応答しようとするが、ゆっくりとした口調で質問された場合には落ち着いて考えてから応答しようとすると考えられる。そこでエージェント処理部２１は、エージェントからの質問の音声を標準速度よりも速いスピードで再生した場合には、基準時間Ｔｒを話題に応じて定められる値よりも短く設定する。また、エージェントからの質問の音声を標準速度よりも遅いスピードで再生した場合には、基準時間Ｔｒを予め定められる値よりも長く設定する。なお、エージェントの質問をどのような話速で再生するかについては、エージェントの感情を表すパラメータ又は質問内容などに応じてエージェント処理部２１が決定する。

次にエージェント処理部２１は、エージェントの質問に対するユーザーの応答が得られた際に、思考時間特定部２４が特定した思考時間Ｔを基準時間Ｔｒと比較することによって、ユーザーが応答にどの程度時間を要したかを評価する。例えばエージェント処理部２１は、基準時間Ｔｒと思考時間Ｔとの差異が所定の閾値以下であれば、ユーザーは標準的な時間で応答したと判定する。一方、差異が所定の閾値を超えた場合、思考時間Ｔの方が基準時間Ｔｒより短ければ即答したと判定し、思考時間Ｔの方が基準時間Ｔｒより長ければ長考したと判定する。あるいはエージェント処理部２１は、思考時間Ｔと基準時間Ｔｒの差をユーザーの応答の速さを示す指標値として算出し、続く処理で使用してもよい。

ここではエージェント処理部２１は、このように思考時間Ｔと基準時間Ｔｒとを比較した結果に応じて、ユーザーの応答の評価値を算出する。この評価値は、所与の基準によってユーザーの応答を評価し、数値化したものである。例えば評価値は、ユーザーの応答の確からしさの推定結果を示す確信度の数値であってよい。また、ユーザーの応答の本気度や、応答の強さなど各種の指標を数値化したものであってよい。以下では具体例として、評価値は確信度を数値化したものであるとする。例えば思考時間Ｔが基準時間Ｔｒと比較して長ければ長いほど、ユーザーは迷った末にその応答をしていると考えられることから、エージェント処理部２１は確信度を低く評価する。また、思考時間Ｔが基準時間Ｔｒと比較して極端に短い場合も、その応答を熟考せずに行っていると考えられることから、確信度を低く評価してもよい。なお、エージェント処理部２１は思考時間Ｔだけでなく、応答の音量レベルやイントネーション、ユーザーの表情や視線など、各種の情報を組み合わせて確信度を評価してもよい。例えばユーザーの声の大きさが小さいときには確信度を低く評価し、声の大きさが大きいときには確信度を高く評価してもよい。また、エージェント処理部２１は、基準時間Ｔｒを用いずに、思考時間Ｔの絶対値を用いて評価値を算出してもよい。ここではエージェント処理部２１は、ユーザーの応答の評価値（確信度）を高、中、低の３段階で評価するものとする。

一方でエージェント処理部２１は、音声認識部２３による音声認識の結果に基づいて、ユーザーの応答が質問に対する回答として期待されたものか否かを評価することとする。例えば「私のこと好き？」というエージェントの質問に対する期待回答は「はい」、「好きです」などのポジティブな回答（肯定的回答）であり、「わたしとお茶を飲むのは嫌か？」という質問に対する期待回答は「いいえ」、「そんなことはない」などのネガティブな回答（否定的回答）である。どのような回答が期待回答になるかは、質問の種類に応じて決定される。エージェント処理部２１は、音声認識の結果得られるユーザーの応答の内容を解析して、その応答が質問ごとに予め定められた期待回答にマッチするか否かを判定する。

エージェント処理部２１は、これらの判定結果に基づいて、次のエージェントの発言内容を決定する。具体的にエージェント処理部２１は、応答の内容が期待回答か否か、及びその応答の評価値がどの程度かに応じて、複数の発言候補の中から次の発言内容を選択する。例えばエージェント処理部２１は、応答が期待回答かそれとも非期待回答かという２つの選択肢と、評価値が高、中、低のいずれかという３つの選択肢の組み合わせによって、６個の発言候補の中からエージェントの発言内容を決定する。図４は、この場合における発言候補の具体例を示している。このようにして決定した発言内容をエージェントの発言として出力することによって、単にユーザーが質問に何と応答したのかだけに限らず、その応答をどのようにしたのか（本気で応答したのか、あるいは消極的に応答したのかなど）に応じてエージェントの反応を変化させることができる。そのため、より人間同士のコミュニケーションに近い自然な会話を実現することができる。

ここでは思考時間Ｔを用いてユーザーの応答の確信度を評価することとしたが、エージェント処理部２１は、確信度の高低を評価するだけでなく、例えば思考時間Ｔが極端に短い場合にユーザーの応答を嘘と判定するなど、応答に込められた感情又は真意を評価する際に思考時間Ｔを用いてもよい。このような評価結果を用いることにより、その評価に応じた特有の発言をエージェントに行わせることができる。具体例として、エージェント処理部２１は、思考時間Ｔやユーザーの表情の変化などに基づいてユーザーの応答が嘘か否か判定し、嘘でないと判定される場合にはさらに前述したように応答の確信度を算出し、確信度が基準と比べて高ければ「本気」、基準と比べて低ければ「確信なし」と判定する。そして、ユーザーの応答内容が期待回答と非期待回答のどちらなのか、及び応答が「本気」、「確信なし」、「嘘」のいずれかという２つの選択基準に基づいて、６種類の発言候補の中からエージェントの発言内容を決定する。

なお、これまで説明した確信度は、ユーザーの発言内容そのものとは独立に評価される。すなわち、エージェント処理部２１は、ユーザーの応答が期待回答か否かなどに関わらず、その応答の確信度を評価することができる。そして、ユーザーの応答内容がどのようなものであったとしても、確信度が低ければ、その応答を重視せずに次の発言内容を決定してもよい。また、エージェントは、例えば「あなた誰？」のように期待回答が設定できないような質問（肯定や否定で回答するタイプではない質問など）をする場合もある。このような場合も、エージェント処理部２１は応答の確信度を評価することで、同じ回答に対して確信度に応じて異なる反応をエージェントにさせることができる。

以上の説明では、ユーザーの応答に対する次のエージェントの発言内容を、思考時間Ｔに応じて複数の発言候補の中から選択することとした。しかしながら、このような例に限られず、エージェント処理部２１は、思考時間Ｔを用いて別の方法でそれ以降のエージェントの挙動を変化させてもよい。具体的にエージェント処理部２１は、応答時間Ｔや確信度の評価結果に応じてエージェントの状態を示すパラメータを更新し、更新されたパラメータの値に応じてその後のエージェントの発言や挙動を決定してもよい。

一例として、エージェント処理部２１は、ユーザーの応答が期待回答か否か、また確信度がどの程度かに応じてエージェントのユーザーに対する好感度のパラメータを増減させ、その結果に応じてその後のエージェントの言動を変化させてもよい。図５は、ユーザーの応答が期待回答か否かと、その応答の評価値がどの程度かに応じて好感度の変化量を決定するモデルの具体例を示している。この図の例では、ユーザーがエージェントの期待する回答をすれば好感度が高くなるとは限らない。すなわち、評価値が低い期待回答をするよりも、評価値が低い非期待回答をする方が好感度が高くなることが示されている。このように期待回答か否かと評価値の組み合わせに応じてパラメータの変化量を決定することで、単純にユーザーが期待通りの回答をしたか否かのみならず、ユーザーがどのように応答したかに応じてパラメータを更新することができ、より複雑な人間らしい反応をエージェントに行わせることができる。

ここで、エージェント処理部２１がエージェントの好感度を変化させる際には、その変化が発生したことを表す言動をエージェントに行わせてもよい。例えば好感度が高い状態でユーザーがエージェントの質問に対して非期待回答を行うなどして、エージェントの好感度が下がったとする。このとき、好感度が下がった後も好感度が比較的高ければ、エージェントはユーザーに友好的な態度を取るため、ユーザーは好感度が下がったことに気づかない可能性がある。そこで、好感度が下がった際に、短い時間だけエージェントに不満な表情をさせるなどすることで、自分の言動がエージェントに与えた影響をユーザーに気づかせることができる。

また、エージェント処理部２１は、単にユーザーの１回の応答に応じて決まる量だけパラメータを増減させるのではなく、過去の複数回の応答に基づいて現時点でのパラメータの値を決定してもよい。具体的にエージェント処理部２１は、ユーザーからの応答が得られるごとに、その応答に対する評価値を算出する。ここでは直近の応答の評価値をＶｒ（１）と表記し、現時点から過去に遡って数えてｉ番目の応答に対する評価値をＶｒ（ｉ）と表記する。この評価値は、例えば、前述したような応答の確信度や応答の内容に応じて決まる好感度の値であってよい。エージェント処理部２１は、過去ｎ回の応答によって得られるＶｒ（１）〜Ｖｒ（ｎ）のｎ個の評価値を用いて、現在の状態値Ｖｒｃを算出する。例えばエージェント処理部２１は、以下の計算式によりＶｒｃを算出する。

ここでｗ（ｉ）は評価値に対する重みであって、以下の計算式により算出される。

αは１に近い１より小さな正の定数である。なお、ｎは所定の定数であってもよいし、処理の開始時からの応答回数に相当する値であってもよい。このような計算式によれば、比較的最近の応答を重視ししつつ、これまでのユーザーの応答を考慮して状態値Ｖｒｃを更新していくことができる。エージェント処理部２１は、この更新された状態値Ｖｒｃを用いてエージェントの言動を決定する。これにより、例えばユーザーが曖昧な（確信度の低い）応答を繰り返した場合にそのことにあきれる発言をするなど、ユーザーの過去のこれまでの応答を考慮した言動をエージェントに行わせることができる。

なお、状態値Ｖｒｃの計算式は以上説明したものに限られない。例えばエージェント処理部２１は、以下の計算式によって現在の状態値Ｖｒｃを算出してもよい。

ここでλは０に近い１より小さな正の定数である。また、Ｖｒｃｐは一つ前の応答時に算出された状態値である。

また、エージェント処理部２１は、その他にも思考時間Ｔを用いてユーザーに対する各種の評価を行うことができる。例えば思考時間Ｔが長い場合、ユーザーが応答の際に長く悩んだことになるので、発言に自信がなかったり、迷ったりしていると評価できる。逆に思考時間Ｔが短い場合、ユーザーが会話に乗り気である、前向きである、ストレートな気持ちである、又は正直であるなどと評価できる。このような評価結果に応じてエージェントの発言内容を変化させることで、ユーザーの状態を踏まえた会話を行わせることができる。また、このようなユーザーに対する評価についても、前述したエージェントの状態と同様のパラメータとして管理することとし、思考時間Ｔに応じてパラメータの数値を更新してもよい。

また、以上の説明では、思考時間Ｔは無音時間、フィラー時間、及び無音時間とフィラー時間を合計した時間のいずれかであるものとし、思考時間特定部２４はユーザーの一回の応答に対して一種類の思考時間Ｔだけを特定することとした。しかしながらこれに限らず、思考時間特定部２４は無音時間及びフィラー時間の双方をそれぞれ独立に特定してもよい。この場合エージェント処理部２１は、無音時間、及びフィラー時間を個別に用いて前述したようなユーザーに対する評価を行ってもよい。また、エージェント処理部２１は、無音時間とフィラー時間との比率を用いてエージェントの発言内容を変化させてもよい。例えばフィラー時間に比べて無音時間の比率が高い場合、ユーザーが迷っている、又は混乱しているなどと評価できる。あるいは、コミュニケーションが異常な状態にある（平常時と異なっている）と評価してもよい。また、無音時間に比べてフィラー時間の比率が高い場合、ユーザーが会話を維持しようとしてる、会話に乗り気である、前向きである、ストレートな気持ちでない、正直でないなどと評価してもよい。

また、以上の説明における応答の評価値やパラメータ更新時の数値を算出する際には、思考時間Ｔの絶対値ではなく相対値を用いてもよい。この場合の相対値とは、平常値に対する差や比によって表される値である。平常値は、そのユーザーの平常時の思考時間Ｔを表すものであって、例えば複数回の応答によって得られる思考時間Ｔの平均値や中央値などの代表値であってよい。また、平常値は、ユーザーの話速に基づいて決定されてもよい。話速の速いユーザーの場合、会話の間も短くなる傾向がある。そのため、平均的な話速が速いユーザーは平常値を小さな値とし、話速の遅いユーザーは平常値を大きな値とすることで、そのユーザーの話速に合わせて思考時間Ｔを評価することができる。

ここで、エージェントの発言の後に情報処理装置１が実行する処理の流れの一例について、図６のフロー図を用いて説明する。なお、このフローにおいては、音声信号と音素モデルとのマッチングに失敗した場合にその音声信号に対応する時間がフィラー時間であると特定されることとする。

まず音声信号取得部２２が、前回のエージェントの発言の後にマイクロホン１５が集音した音声信号を取得する（Ｓ１）。音声認識部２３及び思考時間特定部２４は、この音声信号を複数の単位時間に分割して、各単位時間に含まれる音声信号について、以下に示す処理を実行する。すなわち、思考時間特定部２４が、処理対象の単位時間に含まれる音声信号中にユーザーの音声が含まれるか否かを判定することによって、無音時間を特定する（Ｓ２）。無音時間であると特定された場合、Ｓ７に進む。

無音時間ではないと特定された場合、音声認識部２３が処理対象の単位時間に含まれる音声信号から特徴量を算出することによって、音素モデルとのマッチングを行う（Ｓ３）。そして、マッチングに失敗した場合、すなわち音声信号がいずれの音素モデルにもマッチしないと判定された場合、思考時間特定部２４は処理対象の単位時間がフィラー時間であると特定する（Ｓ５）。ただし、後述する発話内容の特定処理の結果、ユーザーが意味のある発言を開始した後の時間に該当すると判断された場合、当該時間はフィラー時間とはみなされない。そのため、この時点での特定は仮のものである。一方、音素モデルとのマッチングに成功した場合、音声認識部２３はマッチング結果に従って処理対象の単位時間にユーザーが発した音声の音素を特定する（Ｓ６）。

その後、まだ未処理の単位時間があれば、次の単位時間を処理対象として以上説明したＳ２からＳ６の処理が繰り返される（Ｓ７）。Ｓ１で取得した音声信号を分割して得られる全ての単位時間について以上説明した処理が終了すれば、Ｓ８の処理に進む。

次に音声認識部２３が、Ｓ３における音素モデルとのマッチング結果を用いて単語モデルや言語モデルとのマッチングを実行することにより、ユーザーの発話内容を特定する（Ｓ８）。続いて思考時間特定部２４が、Ｓ２における無音時間の特定結果、及びＳ５におけるフィラー時間の特定結果を用いて、思考時間Ｔを特定する（Ｓ９）。このとき、Ｓ８で特定されたユーザーの発話内容に相当する時間、すなわちユーザーが言語的に意味のある発言を開始した後の時間は、思考時間Ｔ特定の対象からは除外される。これにより、ユーザーが発言を開始した後に音素モデルとのマッチングに失敗した時間については、フィラー時間とはみなされないことになる。

その後、エージェント処理部２１は、Ｓ９で特定された思考時間Ｔ、及びＳ８の発話内容に基づいて次のエージェントの発言を決定する（Ｓ１０）。そして、決定した発言内容を表す音声信号を生成、出力する（Ｓ１１）。なお、この図６のフローでは、ユーザーの応答の全体を含む音声信号を処理対象として、一音素に相当する単位時間ごとに無音時間及びフィラー時間を特定することとしたが、情報処理装置１が処理対象とする音声信号の長さや、無音時間及びフィラー時間を特定する単位となる時間は以上説明したものに限られない。例えば情報処理装置１は、所定の時間が経過するまでの間に取得された音声信号を処理対象として、以上説明したような処理を実行してもよい。また、音声認識処理によって単語の認識処理が実行される場合、この単語の認識処理の対象とされる音声信号を単位として、当該音声信号がフィラー時間に対応するか否かの判定を行ってもよい。

以上説明した本実施の形態に係る情報処理装置１によれば、思考時間Ｔを用いてエージェントの言動を決定することで、ユーザーの発話内容だけでは判別できない応答の確信度や感情を考慮した反応をエージェントに行わせることができる。

以上の説明では、ユーザーの発話内容及び思考時間Ｔを用いてエージェントの発言内容を決定する処理について説明した。しかしながらエージェント処理部２１は、会話内容だけでなく、エージェントの外観や挙動（表情や仕草など）についても、思考時間Ｔに応じて変化させてもよい。

また、エージェント処理部２１は、よりユーザーとエージェントの自然な会話を実現するために、思考時間Ｔ以外にも各種の情報を用いることとしてよい。このような情報の例としては、ユーザーの発話を記録した音声信号に表れるパラ言語情報が挙げられる。パラ言語情報は、話速、音量（声圧）、声の抑揚、イントネーション（ユーザーが強調する語句など）、言葉遣い（丁寧口調かくだけた口調かなど）、発言量などを含む。また、マイクロホン１５が取得する音声信号に限らず、カメラ１７によって撮像されるユーザーの映像から得られる各種の情報を利用してもよい。映像から得られる情報としては、ユーザーの表情、視線、瞬き、また頷きや手振りなどの動作（ジェスチャー）が挙げられる。このような情報は、思考時間Ｔと同様に、ユーザーがエージェントに応答した際に、その応答をどの程度の確信を持ってしたのかを評価したり、ユーザーがどのような感情を抱いているのかなど、ユーザーがどのような状態にあるかを判定したりするために用いられる。

さらにエージェント処理部２１は、カメラ１７で撮像されたユーザーの動きを学習し、その動きを表示装置１４に表示するエージェントの動きに反映させてもよい。例えばユーザーの特徴的な動き（癖）をまねたり、ユーザーの動きに合わせてエージェントを動作させたりすることによって、ユーザーのエージェントに対する親近感を増すことができる。

また、エージェント処理部２１は、単にエージェントに会話を行わせるだけでなく、各種の行動を取らせることによってエージェントをより本物の人物らしくユーザーに感じさせることができる。具体例として、エージェント処理部２１は、ユーザーの発話中に、視線をユーザーに向けたり、頷いたり、相槌をうつ発言をしたりする動作をエージェントに行わせることによって、ユーザーの発言を傾聴している様子を演出できる。

また、エージェント処理部２１は、マイクロホン１５が集音した音声信号からユーザーの声以外の特定パターンの音が検出された場合に、その検出された音に対応する発言や動作をエージェントに行わせてもよい。例えばエージェント処理部２１は、インターホンやチャイムの音、携帯電話の着信音などが検出された場合、その検出された音に反応する言動を行わせる。また、エージェント処理部２１は、ユーザーが何も発言していない状況であっても、カメラ１７の映像によってユーザーの存在が検出されていれば、自発的にユーザーに話しかけたりユーザーの気を惹いたりする言動をエージェントに行わせてもよい。また、現在時刻の情報を取得することによって、時間や季節の変化に応じた言動をエージェントに行わせてもよい。このような制御により、よりエージェントが実在する人物であるかのように感じさせることができる。

また、以上の説明においては、エージェントの発言は音声として再生されることとしたが、エージェントの発言内容は表示装置１４の画面上に表示されてもよい。この場合にも、エージェントの発言が表示された後にユーザーがその発言に対する応答を開始するまでの間の無音時間やフィラー時間を思考時間Ｔとして特定し、その内容に応じてその後のエージェントの言動を変化させてもよい。

また、以上の説明ではエージェントの発言内容を思考時間Ｔに応じて変化させることとしたが、本発明の実施の形態はそのようなものに限られない。例えば情報処理装置１は、前述したエージェントの好感度等のパラメータの値そのものを画面上に表示するなどしてユーザーに提示してもよい。また、情報処理装置１は、エージェントによる発言を行うのではなく、特定した思考時間Ｔに応じてゲームの進行を変化させたり、ユーザーの発言に対する評価を行ったりして、その結果を出力してもよい。この場合、ユーザーと会話するエージェントは不要である。また、この場合、情報処理装置１は思考時間Ｔを特定する際の始期としてエージェントの発言のタイミングを用いるのではなく、所定のタイミングを始期として、それ以降ユーザーが意味のある発話を開始するまでの間の思考時間Ｔを特定対象とする。この場合の始期は、例えば複数ユーザーの会話を含んだ音声信号が録音される場合における他のユーザーの会話の終了時点や、ユーザーが指示を行った時点などであってよい。

また、以上の説明ではユーザーのすぐそばにあるローカルの情報処理装置１がエージェントの発言内容の決定、思考時間Ｔの特定、音声認識などの処理を全て実行することとしたが、これらの処理の一部、又は全部は通信ネットワークを介して接続されたサーバ装置によって実行されてもよい。特にサーバ装置が、ローカルの端末装置からの音声信号の取得、取得した音声信号を用いた思考時間Ｔの特定、及び特定された思考時間Ｔに応じた出力（エージェントの発言を含んだメッセージの送信等）を実行する場合、このサーバ装置が本発明における情報処理装置として機能することになる。

１情報処理装置、１１制御部、１２記憶部、１３インタフェース部、１４表示装置、１５マイクロホン、１６スピーカー、１７カメラ、２１エージェント処理部、２２音声信号取得部、２３音声認識部、２４思考時間特定部。

Claims

ユーザーの声を集音して得られる音声信号を取得する音声信号取得部と、
前記取得された音声信号を用いて、前記ユーザーの声が含まれていない時間、及び前記ユーザーが意味をなさない発声をしている時間のそれぞれを独立に評価対象時間として特定する時間特定部と、
前記特定された前記ユーザーの声が含まれていない時間、及び前記ユーザーが意味をなさない発声をしている時間の双方に応じた出力を行う出力部と、
を含むことを特徴とする情報処理装置。
請求項１に記載の情報処理装置において、
前記時間特定部は、前記取得された音声信号を用いて前記ユーザーの発話内容を認識する処理を実行し、発話内容の認識に失敗した音声信号に対応する時間を前記ユーザーが意味をなさない発声をしている時間として特定する
ことを特徴とする情報処理装置。
請求項１に記載の情報処理装置において、
前記出力部は、前記特定された評価対象時間と、前記取得された音声信号から認識されたユーザーの発話内容と、に応じた出力を行う
ことを特徴とする情報処理装置。
請求項１に記載の情報処理装置において、
前記出力部は、前記特定された評価対象時間を所与の基準時間と比較した結果に応じた出力を行う
ことを特徴とする情報処理装置。
請求項１に記載の情報処理装置において、
前記出力部による出力内容の決定に用いられるパラメータの値を保持する保持部をさらに含み、
前記保持部が保持する前記パラメータの値は、前記特定された評価対象時間に応じて更新される
ことを特徴とする情報処理装置。
請求項５に記載の情報処理装置において、
前記出力部は、前記保持部が保持している前記パラメータの値に応じて出力内容を変化させる
ことを特徴とする情報処理装置。
請求項１に記載の情報処理装置において、
前記出力部は、前記時間特定部による前記評価対象時間の特定に先立って前記ユーザーに対する発言を出力し、
前記時間特定部は、前記ユーザーが前記発言に対して応答する前の前記評価対象時間を特定し、
前記出力部は、前記特定された評価対象時間に応じて前記応答の後の出力を変化させる
ことを特徴とする情報処理装置。
請求項７に記載の情報処理装置において、
前記出力部は、前記特定された評価対象時間を所与の基準時間と比較した結果に応じた出力を行い、前記発言の内容に応じて前記基準時間の長さを変化させる
ことを特徴とする情報処理装置。
請求項８に記載の情報処理装置において、
前記出力部は、前記応答の後に、複数の発言候補の中から前記特定された評価対象時間に応じて選択された発言を出力する
ことを特徴とする情報処理装置。
請求項９に記載の情報処理装置において、
前記出力部は、前記特定された評価対象時間を含む複数の選択基準に応じて選択された発言を出力する
ことを特徴とする情報処理装置。
請求項９に記載の情報処理装置において、
前記出力部は、前記特定された評価対象時間を用いて前記応答の評価値を算出し、当該評価値に応じて前記複数の発言候補の中から選択された発言を出力する
ことを特徴とする情報処理装置。
請求項１１に記載の情報処理装置において、
前記出力部は、前記応答が予め定められた期待回答か否かを判定し、当該判定の結果と、前記算出された評価値と、の組み合わせに応じて前記複数の発言候補の中から選択された発言を出力する
ことを特徴とする情報処理装置。
ユーザーの声を集音して得られる音声信号を取得するステップと、
前記取得された音声信号を用いて、前記ユーザーの声が含まれていない時間、及び前記ユーザーが意味をなさない発声をしている時間のそれぞれを独立に評価対象時間として特定するステップと、
前記特定された前記ユーザーの声が含まれていない時間、及び前記ユーザーが意味をなさない発声をしている時間の双方に応じた出力を行うステップと、
を含むことを特徴とする情報処理方法。
ユーザーの声を集音して得られる音声信号を取得する音声信号取得部、
前記取得された音声信号を用いて、前記ユーザーの声が含まれていない時間、及び前記ユーザーが意味をなさない発声をしている時間のそれぞれを独立に評価対象時間として特定する時間特定部、及び、
前記特定された前記ユーザーの声が含まれていない時間、及び前記ユーザーが意味をなさない発声をしている時間の双方に応じた出力を行う出力部、
としてコンピュータを機能させるためのプログラム。