JP6585733B2 - 情報処理装置 - Google Patents

情報処理装置 Download PDF

Info

Publication number
JP6585733B2
JP6585733B2 JP2017551560A JP2017551560A JP6585733B2 JP 6585733 B2 JP6585733 B2 JP 6585733B2 JP 2017551560 A JP2017551560 A JP 2017551560A JP 2017551560 A JP2017551560 A JP 2017551560A JP 6585733 B2 JP6585733 B2 JP 6585733B2
Authority
JP
Japan
Prior art keywords
time
user
information processing
processing apparatus
agent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017551560A
Other languages
English (en)
Other versions
JPWO2017085992A1 (ja
Inventor
真一 本多
真一 本多
博之 勢川
博之 勢川
真一 狩谷
真一 狩谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Interactive Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Interactive Entertainment Inc filed Critical Sony Interactive Entertainment Inc
Publication of JPWO2017085992A1 publication Critical patent/JPWO2017085992A1/ja
Application granted granted Critical
Publication of JP6585733B2 publication Critical patent/JP6585733B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Description

本発明は、ユーザーから音声による入力を受け付ける情報処理装置、情報処理方法、プログラム、及び情報記憶媒体に関する。
ユーザーが発話する音声を受け付けて、その音声の内容に応じて情報処理を実行する情報処理装置が知られている。このような技術によれば、ユーザーはキーボードやタッチパネルで文字を入力する代わりに、声で各種の指示や情報を入力することができる。
Kikuo Maekawa and Hiroki Mori、"VOICE-QUALITY ANALYSIS OF JAPANESE FILLED PAUSES: A PRELIMINARY REPORT"、[online]、[平成27年11月16日検索]、インターネット<URL:http://www2.ninjal.ac.jp/kikuo/Maekawa-DISS2015.pdf>
上記従来例の技術では、ユーザーから単純な指示や文字列情報などを受け付けることはできたとしても、ユーザーの感情や態度などを読み取ることは難しい。ユーザーの感情や態度などは、発話内容以外の情報にも表れるからである(例えば非特許文献1参照)。
本発明は上記実情を考慮してなされたものであって、その目的の一つは、ユーザーの発話から発話内容以外の情報を読み取ることのできる情報処理装置、情報処理方法、プログラム、及び情報記憶媒体を提供することにある。
本発明に係る情報処理装置は、ユーザーの声を集音して得られる音声信号を取得する音声信号取得部と、前記取得された音声信号を用いて、前記ユーザーの声が含まれていない時間、及び前記ユーザーが意味をなさない発声をしている時間の少なくとも一方を含む評価対象時間を特定する時間特定部と、前記特定された評価対象時間に応じた出力を行う出力部と、を含むことを特徴とする。
本発明に係る情報処理方法は、ユーザーの声を集音して得られる音声信号を取得するステップと、前記取得された音声信号を用いて、前記ユーザーの声が含まれていない時間、及び前記ユーザーが意味をなさない発声をしている時間の少なくとも一方を含む評価対象時間を特定するステップと、前記特定された評価対象時間に応じた出力を行うステップと、を含むことを特徴とする。
本発明に係るプログラムは、ユーザーの声を集音して得られる音声信号を取得する音声信号取得部、前記取得された音声信号を用いて、前記ユーザーの声が含まれていない時間、及び前記ユーザーが意味をなさない発声をしている時間の少なくとも一方を含む評価対象時間を特定する時間特定部、及び、前記特定された評価対象時間に応じた出力を行う出力部、としてコンピュータを機能させるためのプログラムである。このプログラムは、コンピュータ読み取り可能で非一時的な情報記憶媒体に格納されて提供されてよい。
本発明の実施の形態に係る情報処理装置の構成を示す構成ブロック図である。 本発明の実施の形態に係る情報処理装置の機能を示す機能ブロック図である。 本発明の実施の形態に係る情報処理装置が特定する思考時間の一例を示す図である。 エージェントの発言候補及びその選択基準の一例を示す図である。 エージェントの好感度の変化量を決定するモデルの一例を示す図である。 本発明の実施の形態に係る情報処理装置が実行する処理の流れの一例を示すフロー図である。
以下、本発明の実施形態について、図面に基づき詳細に説明する。
図1は、本発明の一実施形態に係る情報処理装置1の構成を示す構成ブロック図である。情報処理装置1は、例えば家庭用ゲーム機や携帯型ゲーム機、パーソナルコンピュータ、スマートホン等であって、図1に示すように、制御部11と、記憶部12と、インタフェース部13と、を含んで構成されている。また、情報処理装置1は、表示装置14、マイクロホン15、スピーカー16、及びカメラ17と接続されている。
制御部11はCPU等を含んで構成され、記憶部12に記憶されているプログラムを実行して各種の情報処理を実行する。本実施形態において制御部11が実行する処理の具体例については、後述する。記憶部12は、RAM等のメモリデバイスを含み、制御部11が実行するプログラム、及び当該プログラムによって処理されるデータを格納する。インタフェース部13は、情報処理装置1が表示装置14、マイクロホン15、スピーカー16、及びカメラ17との間で各種の情報を授受するためのインタフェースである。
表示装置14は、家庭用テレビ受像機や液晶ディスプレイ等であって、情報処理装置1が出力する映像信号に応じた画像を画面上に表示する。マイクロホン15は、情報処理装置1のユーザーが発する声を集音して得られる音声信号を情報処理装置1に対して出力する。スピーカー16は、情報処理装置1が出力する音声信号に従って音声を鳴動させる。カメラ17は、ユーザーの様子を示す映像を撮像し、撮像された映像を情報処理装置1に入力する。なお、表示装置14、マイクロホン15、及びスピーカー16は、いずれも情報処理装置1の筐体内に内蔵されてもよいし、情報処理装置1と有線又は無線により接続される別個の装置であってもよい。また、情報処理装置1は、ユーザーの頭部の動きを検出するために、3軸加速度センサーや地磁気センサーなどの姿勢検出センサーを備えたデバイスと接続されてもよい。このようなデバイスをユーザーが装着することで、ユーザーの頭部の動作を検出できる。また、情報処理装置1は、ユーザーの操作入力を受け付ける操作入力デバイス(コントローラ等)と接続されてもよい。
以下、情報処理装置1が実現する機能について、図2を用いて説明する。図2に示すように、情報処理装置1は、機能的に、エージェント処理部21、音声信号取得部22、音声認識部23、及び思考時間特定部24を含んで構成されている。これらの機能は、制御部11が記憶部12に記憶されたプログラムに従って動作することにより実現される。このプログラムは、インターネット等の通信ネットワークを介して情報処理装置1に提供されてもよいし、光ディスク等のコンピュータ読み取り可能な情報記憶媒体に格納されて提供されてもよい。
エージェント処理部21は、ユーザーとコミュニケーションを行う仮想的なエージェントを実現し、エージェントによるユーザーとの会話処理を実行する。具体的にエージェント処理部21は、後述する音声認識部23によって特定されるユーザーの発話内容を受け付ける。さらにエージェント処理部21は、受け付けたユーザーの発話内容などに応じて、エージェントの発言内容を決定する。そして、決定したエージェントの発言内容を話す音声信号を生成し、スピーカー16に対して出力する。これにより、エージェントの発言がスピーカー16から音声として再生される。
具体例として、エージェント処理部21は、まずユーザーに対して投げかける質問を決定し、その内容を音声として再生する。そして、その質問に対するユーザーの応答の内容に基づいて、次のエージェントの発言内容を決定する。このような処理を繰り返すことによって、エージェント処理部21はユーザーとの会話を実現する。
本実施形態における特徴の一つとして、エージェント処理部21は、エージェントの発言内容を決定する際に、後述する思考時間特定部24によって特定される評価対象時間を使用する。以下では、思考時間特定部24によって特定される評価対象時間を思考時間Tと表記する。この思考時間Tは、エージェントの発言(ここではユーザーへの質問)が再生されてユーザーに提示されてから、ユーザーが当該発言に対する応答を開始するまでの間の特定の条件に合致する時間である。なお、ここでは便宜上思考時間と表記しているが、思考時間Tは必ずしもユーザーが応答内容を思考している時間だけに限らず、応答を躊躇して黙っている時間なども含まれてよい。思考時間Tに応じてエージェント処理部21が実行する処理の具体例については、後述する。
さらにエージェント処理部21は、ユーザーの発話内容や思考時間Tだけでなく、その他にもユーザーの発話の特徴に関する各種の情報を用いてエージェントの発言内容を決定してもよい。また、カメラ17によって撮像されたユーザーの表情や動作などに関する情報を用いてエージェントの発言内容を決定してもよい。このような制御によって、エージェント処理部21は、ユーザーの話した内容(言語情報)のみならず、ユーザーの感情や思考を反映した各種のパラ言語情報、非言語情報を考慮して、それに応じた会話を実現することができる。
また、エージェント処理部21は、エージェントの発言を音声として再生するだけでなく、エージェントを表すキャラクターなどの画像を表示装置14の画面に表示してもよい。さらに、ユーザーの発話内容やエージェントの発言内容などに応じてこのキャラクターが動作する様子を示す映像を表示してもよい。
また、エージェント処理部21は、エージェントの感情や、ユーザーに対する心理的距離感、好感度などの状態を示す各種のパラメータを保持してもよい。これらのパラメータの内容は、ユーザーの発話内容などに基づいて随時更新される。そして、エージェント処理部21は、エージェントの発言内容をその時点のパラメータの値に応じて決定する。例えばユーザーが相手を怒らせるような言動をした場合、エージェント処理部21はエージェントの怒り度合いを示すパラメータの数値を上昇させ、その数値に応じて発言内容を決定する。このような制御によれば、エージェントが感情を持っているかのように演出することができる。
音声信号取得部22は、マイクロホン15によって集音された音声信号を取得し、後述する音声認識部23、及び思考時間特定部24に対して出力する。本実施形態において音声信号取得部22は、エージェントの発言内容に対して応答するユーザーの声を含んだ音声信号を取得することになる。
音声認識部23は、音声信号取得部22が取得した音声信号を解析することによって、ユーザーの発話内容を特定する。このような発話内容の特定は、隠れマルコフモデルを用いた統計的手法や動的時間伸縮法など、各種公知の音声認識技術などを用いて実現できる。特定されたユーザーの発話内容は、エージェント処理部21による会話処理に用いられる。
思考時間特定部24は、音声信号取得部22が取得した音声信号に基づいて思考時間Tを特定する。前述したように、思考時間Tは、ユーザーがエージェントの発言に対する応答を開始する前の特定の条件に合致する時間である。例えば思考時間Tは、エージェントの発言の再生が終了した時点(すなわち、エージェントの発言のユーザーへの提示が完了した時点)を始期として、ユーザーが当該質問に対する応答の発声を開始する時点を終期とする経過時間の全体であってもよい。また、この経過時間のうち、後述する条件に合致する一部の時間であってもよい。
以下、思考時間特定部24が思考時間Tを特定する方法の具体例について、説明する。思考時間特定部24は、音声信号中にユーザーの声が含まれていない時間、及びユーザーが意味をなさない発声をしている時間の少なくとも一方を思考時間Tとして特定する。以下では、音声信号中にユーザーの声が含まれていないと判定される時間を無音時間という。また、ユーザーが意味をなさない発声をしていると判定される時間をフィラー時間という。思考時間Tは、無音時間及びフィラー時間のいずれか一方のみであってもよいし、これら二種類の時間を合計した時間であってもよい。また、後述するように、無音時間及びフィラー時間の双方をそれぞれ個別に特定してもよい。
例えば思考時間特定部24は、音声信号に含まれる音声の大きさ(音声信号の振幅)が所定の閾値Th1以下の時間を無音時間と判定する。無音時間のみを思考時間Tとする場合、思考時間特定部24は、エージェントの発言が終了した後、音声信号取得部22によって取得される音声信号のレベルが所定の閾値Th1を最初に超えたタイミングでユーザーが応答を開始したと判定し、そのタイミングまでの経過時間を思考時間Tとして特定することになる。
フィラー時間は、ユーザーが声を発しているものの、言語的に意味のある発言をしていない時間である。一般的に、人は何かを話す際に、「えー」、「あのー」などのようにそれ自体意味を持たない声を発することがある。このような発声は、ポーズフィラーや有声休止とも呼ばれる。思考時間特定部24は、このフィラー時間を思考時間Tに含めることで、ユーザーが実質的に意味のある応答を開始するまでの時間をより精度よく特定することができる。
一例として、思考時間特定部24は、音声信号のレベルが所定の閾値Th2を超えていない状態をフィラー時間であると判定してもよい。通常、はっきりと意味のある発言をしている場合と比較して、ポーズフィラーを発している間は声が小さくなると推定されるためである。この場合の閾値Th2は、前述した無音時間を特定するための閾値Th1よりは大きな値となる。
思考時間特定部24は、音声信号に含まれる音の周波数の解析結果を用いてフィラー時間を検出してもよい。例えば思考時間特定部24は、音声信号に対して基本周波数の推定処理(F0推定)を実行した結果を用いてフィラー時間を検出する。一例として、F0推定に失敗した場合、ユーザーがはっきりとした発言をしていないと推定されるため、その時間をフィラー時間であると判定する。また、F0推定の結果が通常の発話と異なる特定のパターンを示した場合に、そのパターンが得られた時間をフィラー時間と判定してもよい。さらに、F0推定の結果を単独で用いるのではなく、音声信号のレベルや音声認識結果などの各種の解析結果と組み合わせてフィラー時間を検出してもよい。
また、思考時間特定部24は、教師付き機械学習によって生成された推定器を用いてフィラー時間を特定してもよい。この場合、標本となる音声信号データを複数の単位時間に区切って、単位時間毎にその時間に含まれる音声がフィラーか否かを示すラベルを付与した教師データが生成される。なお、各単位時間は、その一部が他の単位時間と重複してもよい。一方で、各単位時間に含まれる音声信号について、その特徴量が算出される。単位時間における音声信号の特徴量は、メルフィルタバンク出力や、信号振幅の二乗の総和(電力)などであってよい。これらのデータを入力とした機械学習によって、音声信号がフィラーに該当するか否か判定するための推定器を生成できる。
また、思考時間特定部24は、音声認識処理の結果を用いて音声信号がフィラーに該当するか否かを判定してもよい。具体的に、思考時間特定部24は、音声認識部23が音声認識を行った際に認識に失敗した音声信号に対応する時間を、フィラー時間として特定する。なお、思考時間特定部24は、無音時間ではない(ユーザーの声が含まれる)と判定され、かつ音声認識に失敗した音声信号に対応する時間を全てフィラー時間として特定してもよい。あるいは、音声認識処理において所定の種類のエラーが発生した場合に、そのエラーが発生した音声に対応する時間をフィラー時間として特定してもよい。
具体例として、隠れマルコフモデルなどによる音声認識処理では、予め、音声データベースやテキストデータベースから音素モデルが生成され、音素モデルから単語辞書などを用いて単語モデルが生成される。また、テキストデータベースから言語モデルが生成される。そして、実際の音声認識処理を実行する際には、取得された音声信号データから音声信号の特徴量を算出し、算出された特徴量を用いて音声信号中の音素がどの音素モデルにマッチするか、また連続した複数の音素からなる音声がどの単語にマッチするかが判定される。その後、言語モデルとのマッチングが行われる。ここで思考時間特定部24は、音素モデルに対するマッチングに失敗した場合、又はマッチングすると判定されたがその確率が所定の閾値以下の場合に、その音素が発声された時間はフィラー時間であると特定する。また、単語モデルへのマッチングに失敗した場合にも、そのマッチングの対象となった音素の集合が発声された時間をフィラー時間として特定してもよい。また、単語モデルへのマッチングによって特定の単語にマッチングすると判定された場合に、そのマッチングした音素の集合が発声された時間をフィラー時間として特定してもよい。
図3は、思考時間特定部24によって特定される思考時間Tの一例を示す図である。ここでは、無音時間とフィラー時間の双方を思考時間Tに含めることとしている。この図の例では、ユーザーは、エージェントの質問が再生された後、2秒間沈黙し、3秒間「うーん」というフィラーを発声し、その後に質問の回答を始めている。この場合、思考時間特定部24は思考時間Tを5秒間と特定する。なお、ここでは無音時間とフィラー時間がこの順に一度ずつ検出されているが、無音時間とフィラー時間は複数回表れることもあり得る。また、無音時間とフィラー時間は逆の順序で表れる場合もある。これらの場合も、思考時間特定部24は、無音時間、及びフィラー時間のいずれかと判定される時間が続いていれば、これらの無音時間及びフィラー時間を合算した時間を思考時間Tとして特定するものとする。
次に、思考時間特定部24が特定した思考時間Tに応じてエージェント処理部21が実行する処理の具体例について説明する。ここではエージェント処理部21は、エージェントの発言に対してユーザーが応答した後にさらに続くエージェントの発言内容を、その応答にユーザーが要した思考時間Tに応じて変化させるものとする。例えばエージェントの質問に対してユーザーが肯定的な返事を返した場合であっても、ユーザーが質問への回答に時間を要した場合(思考時間Tが長い場合)、その応答が消極的なものであり、ユーザーの強い意思に基づくものでない可能性がある。また、答えにくい質問に対して即答した場合(思考時間Tが著しく短い場合)、その応答は嘘であるなど、本心でない可能性が考えられる。そこでエージェント処理部21は、このような思考時間Tに基づく推定を反映して次のエージェントの発言内容を決定する。
この例において、まずエージェント処理部21は、エージェントからの質問を出力する際に、その質問にユーザーが応答するために必要と想定される標準的な時間を決定する。以下、この標準的な時間を基準時間Trという。基準時間Trは、質問の内容(話題や質問形式)に応じて予め定められてよい。例えばエージェント処理部21は、「はい」か「いいえ」で答えるタイプの質問のようにユーザーが答えやすい形式の質問を出力する場合には基準時間Trを短く設定し、ユーザーが答えにくい形式の質問であれば基準時間Trを長く設定する。
基準時間Trは、エージェントの質問が音声として再生される際の話速に応じて決定されてもよい。一般に、早口で質問されると質問された側はすぐに応答しようとするが、ゆっくりとした口調で質問された場合には落ち着いて考えてから応答しようとすると考えられる。そこでエージェント処理部21は、エージェントからの質問の音声を標準速度よりも速いスピードで再生した場合には、基準時間Trを話題に応じて定められる値よりも短く設定する。また、エージェントからの質問の音声を標準速度よりも遅いスピードで再生した場合には、基準時間Trを予め定められる値よりも長く設定する。なお、エージェントの質問をどのような話速で再生するかについては、エージェントの感情を表すパラメータ又は質問内容などに応じてエージェント処理部21が決定する。
次にエージェント処理部21は、エージェントの質問に対するユーザーの応答が得られた際に、思考時間特定部24が特定した思考時間Tを基準時間Trと比較することによって、ユーザーが応答にどの程度時間を要したかを評価する。例えばエージェント処理部21は、基準時間Trと思考時間Tとの差異が所定の閾値以下であれば、ユーザーは標準的な時間で応答したと判定する。一方、差異が所定の閾値を超えた場合、思考時間Tの方が基準時間Trより短ければ即答したと判定し、思考時間Tの方が基準時間Trより長ければ長考したと判定する。あるいはエージェント処理部21は、思考時間Tと基準時間Trの差をユーザーの応答の速さを示す指標値として算出し、続く処理で使用してもよい。
ここではエージェント処理部21は、このように思考時間Tと基準時間Trとを比較した結果に応じて、ユーザーの応答の評価値を算出する。この評価値は、所与の基準によってユーザーの応答を評価し、数値化したものである。例えば評価値は、ユーザーの応答の確からしさの推定結果を示す確信度の数値であってよい。また、ユーザーの応答の本気度や、応答の強さなど各種の指標を数値化したものであってよい。以下では具体例として、評価値は確信度を数値化したものであるとする。例えば思考時間Tが基準時間Trと比較して長ければ長いほど、ユーザーは迷った末にその応答をしていると考えられることから、エージェント処理部21は確信度を低く評価する。また、思考時間Tが基準時間Trと比較して極端に短い場合も、その応答を熟考せずに行っていると考えられることから、確信度を低く評価してもよい。なお、エージェント処理部21は思考時間Tだけでなく、応答の音量レベルやイントネーション、ユーザーの表情や視線など、各種の情報を組み合わせて確信度を評価してもよい。例えばユーザーの声の大きさが小さいときには確信度を低く評価し、声の大きさが大きいときには確信度を高く評価してもよい。また、エージェント処理部21は、基準時間Trを用いずに、思考時間Tの絶対値を用いて評価値を算出してもよい。ここではエージェント処理部21は、ユーザーの応答の評価値(確信度)を高、中、低の3段階で評価するものとする。
一方でエージェント処理部21は、音声認識部23による音声認識の結果に基づいて、ユーザーの応答が質問に対する回答として期待されたものか否かを評価することとする。例えば「私のこと好き?」というエージェントの質問に対する期待回答は「はい」、「好きです」などのポジティブな回答(肯定的回答)であり、「わたしとお茶を飲むのは嫌か?」という質問に対する期待回答は「いいえ」、「そんなことはない」などのネガティブな回答(否定的回答)である。どのような回答が期待回答になるかは、質問の種類に応じて決定される。エージェント処理部21は、音声認識の結果得られるユーザーの応答の内容を解析して、その応答が質問ごとに予め定められた期待回答にマッチするか否かを判定する。
エージェント処理部21は、これらの判定結果に基づいて、次のエージェントの発言内容を決定する。具体的にエージェント処理部21は、応答の内容が期待回答か否か、及びその応答の評価値がどの程度かに応じて、複数の発言候補の中から次の発言内容を選択する。例えばエージェント処理部21は、応答が期待回答かそれとも非期待回答かという2つの選択肢と、評価値が高、中、低のいずれかという3つの選択肢の組み合わせによって、6個の発言候補の中からエージェントの発言内容を決定する。図4は、この場合における発言候補の具体例を示している。このようにして決定した発言内容をエージェントの発言として出力することによって、単にユーザーが質問に何と応答したのかだけに限らず、その応答をどのようにしたのか(本気で応答したのか、あるいは消極的に応答したのかなど)に応じてエージェントの反応を変化させることができる。そのため、より人間同士のコミュニケーションに近い自然な会話を実現することができる。
ここでは思考時間Tを用いてユーザーの応答の確信度を評価することとしたが、エージェント処理部21は、確信度の高低を評価するだけでなく、例えば思考時間Tが極端に短い場合にユーザーの応答を嘘と判定するなど、応答に込められた感情又は真意を評価する際に思考時間Tを用いてもよい。このような評価結果を用いることにより、その評価に応じた特有の発言をエージェントに行わせることができる。具体例として、エージェント処理部21は、思考時間Tやユーザーの表情の変化などに基づいてユーザーの応答が嘘か否か判定し、嘘でないと判定される場合にはさらに前述したように応答の確信度を算出し、確信度が基準と比べて高ければ「本気」、基準と比べて低ければ「確信なし」と判定する。そして、ユーザーの応答内容が期待回答と非期待回答のどちらなのか、及び応答が「本気」、「確信なし」、「嘘」のいずれかという2つの選択基準に基づいて、6種類の発言候補の中からエージェントの発言内容を決定する。
なお、これまで説明した確信度は、ユーザーの発言内容そのものとは独立に評価される。すなわち、エージェント処理部21は、ユーザーの応答が期待回答か否かなどに関わらず、その応答の確信度を評価することができる。そして、ユーザーの応答内容がどのようなものであったとしても、確信度が低ければ、その応答を重視せずに次の発言内容を決定してもよい。また、エージェントは、例えば「あなた誰?」のように期待回答が設定できないような質問(肯定や否定で回答するタイプではない質問など)をする場合もある。このような場合も、エージェント処理部21は応答の確信度を評価することで、同じ回答に対して確信度に応じて異なる反応をエージェントにさせることができる。
以上の説明では、ユーザーの応答に対する次のエージェントの発言内容を、思考時間Tに応じて複数の発言候補の中から選択することとした。しかしながら、このような例に限られず、エージェント処理部21は、思考時間Tを用いて別の方法でそれ以降のエージェントの挙動を変化させてもよい。具体的にエージェント処理部21は、応答時間Tや確信度の評価結果に応じてエージェントの状態を示すパラメータを更新し、更新されたパラメータの値に応じてその後のエージェントの発言や挙動を決定してもよい。
一例として、エージェント処理部21は、ユーザーの応答が期待回答か否か、また確信度がどの程度かに応じてエージェントのユーザーに対する好感度のパラメータを増減させ、その結果に応じてその後のエージェントの言動を変化させてもよい。図5は、ユーザーの応答が期待回答か否かと、その応答の評価値がどの程度かに応じて好感度の変化量を決定するモデルの具体例を示している。この図の例では、ユーザーがエージェントの期待する回答をすれば好感度が高くなるとは限らない。すなわち、評価値が低い期待回答をするよりも、評価値が低い非期待回答をする方が好感度が高くなることが示されている。このように期待回答か否かと評価値の組み合わせに応じてパラメータの変化量を決定することで、単純にユーザーが期待通りの回答をしたか否かのみならず、ユーザーがどのように応答したかに応じてパラメータを更新することができ、より複雑な人間らしい反応をエージェントに行わせることができる。
ここで、エージェント処理部21がエージェントの好感度を変化させる際には、その変化が発生したことを表す言動をエージェントに行わせてもよい。例えば好感度が高い状態でユーザーがエージェントの質問に対して非期待回答を行うなどして、エージェントの好感度が下がったとする。このとき、好感度が下がった後も好感度が比較的高ければ、エージェントはユーザーに友好的な態度を取るため、ユーザーは好感度が下がったことに気づかない可能性がある。そこで、好感度が下がった際に、短い時間だけエージェントに不満な表情をさせるなどすることで、自分の言動がエージェントに与えた影響をユーザーに気づかせることができる。
また、エージェント処理部21は、単にユーザーの1回の応答に応じて決まる量だけパラメータを増減させるのではなく、過去の複数回の応答に基づいて現時点でのパラメータの値を決定してもよい。具体的にエージェント処理部21は、ユーザーからの応答が得られるごとに、その応答に対する評価値を算出する。ここでは直近の応答の評価値をVr(1)と表記し、現時点から過去に遡って数えてi番目の応答に対する評価値をVr(i)と表記する。この評価値は、例えば、前述したような応答の確信度や応答の内容に応じて決まる好感度の値であってよい。エージェント処理部21は、過去n回の応答によって得られるVr(1)〜Vr(n)のn個の評価値を用いて、現在の状態値Vrcを算出する。例えばエージェント処理部21は、以下の計算式によりVrcを算出する。
Figure 0006585733
ここでw(i)は評価値に対する重みであって、以下の計算式により算出される。
Figure 0006585733
αは1に近い1より小さな正の定数である。なお、nは所定の定数であってもよいし、処理の開始時からの応答回数に相当する値であってもよい。このような計算式によれば、比較的最近の応答を重視ししつつ、これまでのユーザーの応答を考慮して状態値Vrcを更新していくことができる。エージェント処理部21は、この更新された状態値Vrcを用いてエージェントの言動を決定する。これにより、例えばユーザーが曖昧な(確信度の低い)応答を繰り返した場合にそのことにあきれる発言をするなど、ユーザーの過去のこれまでの応答を考慮した言動をエージェントに行わせることができる。
なお、状態値Vrcの計算式は以上説明したものに限られない。例えばエージェント処理部21は、以下の計算式によって現在の状態値Vrcを算出してもよい。
Figure 0006585733
ここでλは0に近い1より小さな正の定数である。また、Vrcpは一つ前の応答時に算出された状態値である。
また、エージェント処理部21は、その他にも思考時間Tを用いてユーザーに対する各種の評価を行うことができる。例えば思考時間Tが長い場合、ユーザーが応答の際に長く悩んだことになるので、発言に自信がなかったり、迷ったりしていると評価できる。逆に思考時間Tが短い場合、ユーザーが会話に乗り気である、前向きである、ストレートな気持ちである、又は正直であるなどと評価できる。このような評価結果に応じてエージェントの発言内容を変化させることで、ユーザーの状態を踏まえた会話を行わせることができる。また、このようなユーザーに対する評価についても、前述したエージェントの状態と同様のパラメータとして管理することとし、思考時間Tに応じてパラメータの数値を更新してもよい。
また、以上の説明では、思考時間Tは無音時間、フィラー時間、及び無音時間とフィラー時間を合計した時間のいずれかであるものとし、思考時間特定部24はユーザーの一回の応答に対して一種類の思考時間Tだけを特定することとした。しかしながらこれに限らず、思考時間特定部24は無音時間及びフィラー時間の双方をそれぞれ独立に特定してもよい。この場合エージェント処理部21は、無音時間、及びフィラー時間を個別に用いて前述したようなユーザーに対する評価を行ってもよい。また、エージェント処理部21は、無音時間とフィラー時間との比率を用いてエージェントの発言内容を変化させてもよい。例えばフィラー時間に比べて無音時間の比率が高い場合、ユーザーが迷っている、又は混乱しているなどと評価できる。あるいは、コミュニケーションが異常な状態にある(平常時と異なっている)と評価してもよい。また、無音時間に比べてフィラー時間の比率が高い場合、ユーザーが会話を維持しようとしてる、会話に乗り気である、前向きである、ストレートな気持ちでない、正直でないなどと評価してもよい。
また、以上の説明における応答の評価値やパラメータ更新時の数値を算出する際には、思考時間Tの絶対値ではなく相対値を用いてもよい。この場合の相対値とは、平常値に対する差や比によって表される値である。平常値は、そのユーザーの平常時の思考時間Tを表すものであって、例えば複数回の応答によって得られる思考時間Tの平均値や中央値などの代表値であってよい。また、平常値は、ユーザーの話速に基づいて決定されてもよい。話速の速いユーザーの場合、会話の間も短くなる傾向がある。そのため、平均的な話速が速いユーザーは平常値を小さな値とし、話速の遅いユーザーは平常値を大きな値とすることで、そのユーザーの話速に合わせて思考時間Tを評価することができる。
ここで、エージェントの発言の後に情報処理装置1が実行する処理の流れの一例について、図6のフロー図を用いて説明する。なお、このフローにおいては、音声信号と音素モデルとのマッチングに失敗した場合にその音声信号に対応する時間がフィラー時間であると特定されることとする。
まず音声信号取得部22が、前回のエージェントの発言の後にマイクロホン15が集音した音声信号を取得する(S1)。音声認識部23及び思考時間特定部24は、この音声信号を複数の単位時間に分割して、各単位時間に含まれる音声信号について、以下に示す処理を実行する。すなわち、思考時間特定部24が、処理対象の単位時間に含まれる音声信号中にユーザーの音声が含まれるか否かを判定することによって、無音時間を特定する(S2)。無音時間であると特定された場合、S7に進む。
無音時間ではないと特定された場合、音声認識部23が処理対象の単位時間に含まれる音声信号から特徴量を算出することによって、音素モデルとのマッチングを行う(S3)。そして、マッチングに失敗した場合、すなわち音声信号がいずれの音素モデルにもマッチしないと判定された場合、思考時間特定部24は処理対象の単位時間がフィラー時間であると特定する(S5)。ただし、後述する発話内容の特定処理の結果、ユーザーが意味のある発言を開始した後の時間に該当すると判断された場合、当該時間はフィラー時間とはみなされない。そのため、この時点での特定は仮のものである。一方、音素モデルとのマッチングに成功した場合、音声認識部23はマッチング結果に従って処理対象の単位時間にユーザーが発した音声の音素を特定する(S6)。
その後、まだ未処理の単位時間があれば、次の単位時間を処理対象として以上説明したS2からS6の処理が繰り返される(S7)。S1で取得した音声信号を分割して得られる全ての単位時間について以上説明した処理が終了すれば、S8の処理に進む。
次に音声認識部23が、S3における音素モデルとのマッチング結果を用いて単語モデルや言語モデルとのマッチングを実行することにより、ユーザーの発話内容を特定する(S8)。続いて思考時間特定部24が、S2における無音時間の特定結果、及びS5におけるフィラー時間の特定結果を用いて、思考時間Tを特定する(S9)。このとき、S8で特定されたユーザーの発話内容に相当する時間、すなわちユーザーが言語的に意味のある発言を開始した後の時間は、思考時間T特定の対象からは除外される。これにより、ユーザーが発言を開始した後に音素モデルとのマッチングに失敗した時間については、フィラー時間とはみなされないことになる。
その後、エージェント処理部21は、S9で特定された思考時間T、及びS8の発話内容に基づいて次のエージェントの発言を決定する(S10)。そして、決定した発言内容を表す音声信号を生成、出力する(S11)。なお、この図6のフローでは、ユーザーの応答の全体を含む音声信号を処理対象として、一音素に相当する単位時間ごとに無音時間及びフィラー時間を特定することとしたが、情報処理装置1が処理対象とする音声信号の長さや、無音時間及びフィラー時間を特定する単位となる時間は以上説明したものに限られない。例えば情報処理装置1は、所定の時間が経過するまでの間に取得された音声信号を処理対象として、以上説明したような処理を実行してもよい。また、音声認識処理によって単語の認識処理が実行される場合、この単語の認識処理の対象とされる音声信号を単位として、当該音声信号がフィラー時間に対応するか否かの判定を行ってもよい。
以上説明した本実施の形態に係る情報処理装置1によれば、思考時間Tを用いてエージェントの言動を決定することで、ユーザーの発話内容だけでは判別できない応答の確信度や感情を考慮した反応をエージェントに行わせることができる。
以上の説明では、ユーザーの発話内容及び思考時間Tを用いてエージェントの発言内容を決定する処理について説明した。しかしながらエージェント処理部21は、会話内容だけでなく、エージェントの外観や挙動(表情や仕草など)についても、思考時間Tに応じて変化させてもよい。
また、エージェント処理部21は、よりユーザーとエージェントの自然な会話を実現するために、思考時間T以外にも各種の情報を用いることとしてよい。このような情報の例としては、ユーザーの発話を記録した音声信号に表れるパラ言語情報が挙げられる。パラ言語情報は、話速、音量(声圧)、声の抑揚、イントネーション(ユーザーが強調する語句など)、言葉遣い(丁寧口調かくだけた口調かなど)、発言量などを含む。また、マイクロホン15が取得する音声信号に限らず、カメラ17によって撮像されるユーザーの映像から得られる各種の情報を利用してもよい。映像から得られる情報としては、ユーザーの表情、視線、瞬き、また頷きや手振りなどの動作(ジェスチャー)が挙げられる。このような情報は、思考時間Tと同様に、ユーザーがエージェントに応答した際に、その応答をどの程度の確信を持ってしたのかを評価したり、ユーザーがどのような感情を抱いているのかなど、ユーザーがどのような状態にあるかを判定したりするために用いられる。
さらにエージェント処理部21は、カメラ17で撮像されたユーザーの動きを学習し、その動きを表示装置14に表示するエージェントの動きに反映させてもよい。例えばユーザーの特徴的な動き(癖)をまねたり、ユーザーの動きに合わせてエージェントを動作させたりすることによって、ユーザーのエージェントに対する親近感を増すことができる。
また、エージェント処理部21は、単にエージェントに会話を行わせるだけでなく、各種の行動を取らせることによってエージェントをより本物の人物らしくユーザーに感じさせることができる。具体例として、エージェント処理部21は、ユーザーの発話中に、視線をユーザーに向けたり、頷いたり、相槌をうつ発言をしたりする動作をエージェントに行わせることによって、ユーザーの発言を傾聴している様子を演出できる。
また、エージェント処理部21は、マイクロホン15が集音した音声信号からユーザーの声以外の特定パターンの音が検出された場合に、その検出された音に対応する発言や動作をエージェントに行わせてもよい。例えばエージェント処理部21は、インターホンやチャイムの音、携帯電話の着信音などが検出された場合、その検出された音に反応する言動を行わせる。また、エージェント処理部21は、ユーザーが何も発言していない状況であっても、カメラ17の映像によってユーザーの存在が検出されていれば、自発的にユーザーに話しかけたりユーザーの気を惹いたりする言動をエージェントに行わせてもよい。また、現在時刻の情報を取得することによって、時間や季節の変化に応じた言動をエージェントに行わせてもよい。このような制御により、よりエージェントが実在する人物であるかのように感じさせることができる。
また、以上の説明においては、エージェントの発言は音声として再生されることとしたが、エージェントの発言内容は表示装置14の画面上に表示されてもよい。この場合にも、エージェントの発言が表示された後にユーザーがその発言に対する応答を開始するまでの間の無音時間やフィラー時間を思考時間Tとして特定し、その内容に応じてその後のエージェントの言動を変化させてもよい。
また、以上の説明ではエージェントの発言内容を思考時間Tに応じて変化させることとしたが、本発明の実施の形態はそのようなものに限られない。例えば情報処理装置1は、前述したエージェントの好感度等のパラメータの値そのものを画面上に表示するなどしてユーザーに提示してもよい。また、情報処理装置1は、エージェントによる発言を行うのではなく、特定した思考時間Tに応じてゲームの進行を変化させたり、ユーザーの発言に対する評価を行ったりして、その結果を出力してもよい。この場合、ユーザーと会話するエージェントは不要である。また、この場合、情報処理装置1は思考時間Tを特定する際の始期としてエージェントの発言のタイミングを用いるのではなく、所定のタイミングを始期として、それ以降ユーザーが意味のある発話を開始するまでの間の思考時間Tを特定対象とする。この場合の始期は、例えば複数ユーザーの会話を含んだ音声信号が録音される場合における他のユーザーの会話の終了時点や、ユーザーが指示を行った時点などであってよい。
また、以上の説明ではユーザーのすぐそばにあるローカルの情報処理装置1がエージェントの発言内容の決定、思考時間Tの特定、音声認識などの処理を全て実行することとしたが、これらの処理の一部、又は全部は通信ネットワークを介して接続されたサーバ装置によって実行されてもよい。特にサーバ装置が、ローカルの端末装置からの音声信号の取得、取得した音声信号を用いた思考時間Tの特定、及び特定された思考時間Tに応じた出力(エージェントの発言を含んだメッセージの送信等)を実行する場合、このサーバ装置が本発明における情報処理装置として機能することになる。
1 情報処理装置、11 制御部、12 記憶部、13 インタフェース部、14 表示装置、15 マイクロホン、16 スピーカー、17 カメラ、21 エージェント処理部、22 音声信号取得部、23 音声認識部、24 思考時間特定部。

Claims (14)

  1. ユーザーの声を集音して得られる音声信号を取得する音声信号取得部と、
    前記取得された音声信号を用いて、前記ユーザーの声が含まれていない時間、及び前記ユーザーが意味をなさない発声をしている時間のそれぞれを独立に評価対象時間として特定する時間特定部と、
    前記特定された前記ユーザーの声が含まれていない時間、及び前記ユーザーが意味をなさない発声をしている時間の双方に応じた出力を行う出力部と、
    を含むことを特徴とする情報処理装置。
  2. 請求項1に記載の情報処理装置において、
    前記時間特定部は、前記取得された音声信号を用いて前記ユーザーの発話内容を認識する処理を実行し、発話内容の認識に失敗した音声信号に対応する時間を前記ユーザーが意味をなさない発声をしている時間として特定する
    ことを特徴とする情報処理装置。
  3. 請求項1に記載の情報処理装置において、
    前記出力部は、前記特定された評価対象時間と、前記取得された音声信号から認識されたユーザーの発話内容と、に応じた出力を行う
    ことを特徴とする情報処理装置。
  4. 請求項1に記載の情報処理装置において、
    前記出力部は、前記特定された評価対象時間を所与の基準時間と比較した結果に応じた出力を行う
    ことを特徴とする情報処理装置。
  5. 請求項1に記載の情報処理装置において、
    前記出力部による出力内容の決定に用いられるパラメータの値を保持する保持部をさらに含み、
    前記保持部が保持する前記パラメータの値は、前記特定された評価対象時間に応じて更新される
    ことを特徴とする情報処理装置。
  6. 請求項5に記載の情報処理装置において、
    前記出力部は、前記保持部が保持している前記パラメータの値に応じて出力内容を変化させる
    ことを特徴とする情報処理装置。
  7. 請求項1に記載の情報処理装置において、
    前記出力部は、前記時間特定部による前記評価対象時間の特定に先立って前記ユーザーに対する発言を出力し、
    前記時間特定部は、前記ユーザーが前記発言に対して応答する前の前記評価対象時間を特定し、
    前記出力部は、前記特定された評価対象時間に応じて前記応答の後の出力を変化させる
    ことを特徴とする情報処理装置。
  8. 請求項7に記載の情報処理装置において、
    前記出力部は、前記特定された評価対象時間を所与の基準時間と比較した結果に応じた出力を行い、前記発言の内容に応じて前記基準時間の長さを変化させる
    ことを特徴とする情報処理装置。
  9. 請求項8に記載の情報処理装置において、
    前記出力部は、前記応答の後に、複数の発言候補の中から前記特定された評価対象時間に応じて選択された発言を出力する
    ことを特徴とする情報処理装置。
  10. 請求項9に記載の情報処理装置において、
    前記出力部は、前記特定された評価対象時間を含む複数の選択基準に応じて選択された発言を出力する
    ことを特徴とする情報処理装置。
  11. 請求項9に記載の情報処理装置において、
    前記出力部は、前記特定された評価対象時間を用いて前記応答の評価値を算出し、当該評価値に応じて前記複数の発言候補の中から選択された発言を出力する
    ことを特徴とする情報処理装置。
  12. 請求項11に記載の情報処理装置において、
    前記出力部は、前記応答が予め定められた期待回答か否かを判定し、当該判定の結果と、前記算出された評価値と、の組み合わせに応じて前記複数の発言候補の中から選択された発言を出力する
    ことを特徴とする情報処理装置。
  13. ユーザーの声を集音して得られる音声信号を取得するステップと、
    前記取得された音声信号を用いて、前記ユーザーの声が含まれていない時間、及び前記ユーザーが意味をなさない発声をしている時間のそれぞれを独立に評価対象時間として特定するステップと、
    前記特定された前記ユーザーの声が含まれていない時間、及び前記ユーザーが意味をなさない発声をしている時間の双方に応じた出力を行うステップと、
    を含むことを特徴とする情報処理方法。
  14. ユーザーの声を集音して得られる音声信号を取得する音声信号取得部、
    前記取得された音声信号を用いて、前記ユーザーの声が含まれていない時間、及び前記ユーザーが意味をなさない発声をしている時間のそれぞれを独立に評価対象時間として特定する時間特定部、及び、
    前記特定された前記ユーザーの声が含まれていない時間、及び前記ユーザーが意味をなさない発声をしている時間の双方に応じた出力を行う出力部、
    としてコンピュータを機能させるためのプログラム。
JP2017551560A 2015-11-17 2016-09-08 情報処理装置 Active JP6585733B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2015225119 2015-11-17
JP2015225119 2015-11-17
PCT/JP2016/076440 WO2017085992A1 (ja) 2015-11-17 2016-09-08 情報処理装置

Publications (2)

Publication Number Publication Date
JPWO2017085992A1 JPWO2017085992A1 (ja) 2018-05-24
JP6585733B2 true JP6585733B2 (ja) 2019-10-02

Family

ID=58719209

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017551560A Active JP6585733B2 (ja) 2015-11-17 2016-09-08 情報処理装置

Country Status (3)

Country Link
US (1) US10755704B2 (ja)
JP (1) JP6585733B2 (ja)
WO (1) WO2017085992A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6768597B2 (ja) 2017-06-08 2020-10-14 株式会社日立製作所 対話システム、対話システムの制御方法、及び装置
JP7073640B2 (ja) * 2017-06-23 2022-05-24 カシオ計算機株式会社 電子機器、感情情報取得システム、プログラム及び感情情報取得方法
JP6859283B2 (ja) * 2017-11-30 2021-04-14 日本電信電話株式会社 好感度推定装置、好感度推定方法、プログラム
JP7044156B2 (ja) * 2018-05-15 2022-03-30 富士通株式会社 生成プログラム、生成方法および情報処理装置
JP7176325B2 (ja) * 2018-09-27 2022-11-22 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
CN110298906B (zh) * 2019-06-28 2023-08-11 北京百度网讯科技有限公司 用于生成信息的方法和装置
JP7347794B2 (ja) 2019-11-29 2023-09-20 Necソリューションイノベータ株式会社 対話型情報取得装置、対話型情報取得方法、及びプログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001228894A (ja) * 2000-02-18 2001-08-24 Denso Corp 音声認識装置
JP3601411B2 (ja) * 2000-05-22 2004-12-15 日本電気株式会社 音声応答装置
JP2003330490A (ja) 2002-05-15 2003-11-19 Fujitsu Ltd 音声対話装置
JP2005196645A (ja) * 2004-01-09 2005-07-21 Nippon Hoso Kyokai <Nhk> 情報提示システム、情報提示装置、及び情報提示プログラム
JP4437047B2 (ja) * 2004-02-20 2010-03-24 本田技研工業株式会社 音声対話装置
JP2006202127A (ja) 2005-01-21 2006-08-03 Pioneer Electronic Corp 推奨情報提示装置及び推奨情報提示方法等
JP2008203559A (ja) * 2007-02-20 2008-09-04 Toshiba Corp 対話装置及び方法
US7881933B2 (en) * 2007-03-23 2011-02-01 Verizon Patent And Licensing Inc. Age determination using speech
US20090104592A1 (en) * 2007-10-18 2009-04-23 Lewis Charles Miltenberger Lights Out Learning
CN105874531B (zh) * 2014-01-06 2020-06-26 株式会社Ntt都科摩 终端设备、服务器设备以及计算机可读记录介质
JP5958475B2 (ja) * 2014-01-17 2016-08-02 株式会社デンソー 音声認識端末装置、音声認識システム、音声認識方法
US9082407B1 (en) * 2014-04-15 2015-07-14 Google Inc. Systems and methods for providing prompts for voice commands
US10127907B2 (en) * 2014-05-13 2018-11-13 Sharp Kabushiki Kaisha Control device and message output control system

Also Published As

Publication number Publication date
US20180350362A1 (en) 2018-12-06
US10755704B2 (en) 2020-08-25
JPWO2017085992A1 (ja) 2018-05-24
WO2017085992A1 (ja) 2017-05-26

Similar Documents

Publication Publication Date Title
JP6585733B2 (ja) 情報処理装置
JP6755304B2 (ja) 情報処理装置
US9769296B2 (en) Techniques for voice controlling bluetooth headset
EP3210205B1 (en) Sound sample verification for generating sound detection model
JP6819672B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP6654691B2 (ja) 情報処理装置
US11574637B1 (en) Spoken language understanding models
KR102628211B1 (ko) 전자 장치 및 그 제어 방법
US20230046658A1 (en) Synthesized speech audio data generated on behalf of human participant in conversation
CN114051639A (zh) 使用说话者基线进行情绪检测
WO2021153101A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP5988077B2 (ja) 発話区間検出装置及び発話区間検出のためのコンピュータプログラム
CN114495981A (zh) 语音端点的判定方法、装置、设备、存储介质及产品
US11430435B1 (en) Prompts for user feedback
US20240119930A1 (en) Artificial intelligence device and operating method thereof
CN112074900B (zh) 用于自然语言处理的音频分析
US11527247B2 (en) Computing device and method of operating the same
CN115705840A (zh) 语音唤醒方法、装置、电子设备及可读存储介质
KR20230013826A (ko) 인공 지능 모델을 이용하여 음성 인식 서비스를 제공하는 장치 및 방법
US20210082427A1 (en) Information processing apparatus and information processing method
JP2005122194A (ja) 音声認識対話装置および音声認識対話処理方法
JP2022133188A (ja) ユーザから発話された名詞を忘却する対話プログラム、装置及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190416

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190606

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190813

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190905

R150 Certificate of patent or registration of utility model

Ref document number: 6585733

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150