JP2019090945A

JP2019090945A - 情報処理装置

Info

Publication number: JP2019090945A
Application number: JP2017220157A
Authority: JP
Inventors: 佐々木　悟; Satoru Sasaki; 悟佐々木
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2017-11-15
Filing date: 2017-11-15
Publication date: 2019-06-13
Anticipated expiration: 2037-11-15
Also published as: CN109785830A; US10896677B2; CN109785830B; JP6904225B2; US20190147872A1

Abstract

【課題】相槌から応答までの時間が長すぎることによるユーザの違和感を抑制できる情報処理装置を提供する。【解決手段】情報処理装置１２において、第１取得部５０は、ユーザにより発話された音声の音声データを取得する。タイミング決定部６６は、音声データの取得完了から、音声が音声認識された音声認識結果に基づいて生成された応答の出力開始までの時間に応じて相槌のタイミングを決定する。第２出力部６４は、決定されたタイミングで相槌を出力し、応答を出力する。【選択図】図１

Description

本発明は、ユーザの発話に対する応答を出力する情報処理装置に関する。

ユーザが音声を発話してから、この音声を音声認識する遠隔のサーバから応答メッセージが得られるまでの待ち時間中に、予測した応答遅延時間に応じた時間長のつなぎ言葉をユーザに対して発話する音声認識端末装置が知られている（例えば、特許文献１参照）。

特開２０１５−１３５４２０号公報

上記技術では、ユーザの発話の複雑さに応じてサーバでの応答メッセージの作成時間が長くなることは考慮されていない。そのため、ユーザの発話の内容によっては、つなぎ言葉から応答メッセージまでの待ち時間が長くなり過ぎ、ユーザに違和感を抱かせる可能性がある。

本発明はこうした状況に鑑みてなされたものであり、その目的は、相槌から応答までの時間が長すぎることによるユーザの違和感を抑制できる情報処理装置を提供することにある。

上記課題を解決するために、本発明のある態様の情報処理装置は、ユーザにより発話された音声の音声データを取得する取得部と、前記音声データの取得完了から、前記音声が音声認識された音声認識結果に基づいて生成された応答の出力開始までの時間に応じて相槌のタイミングを決定する決定部と、前記決定されたタイミングで前記相槌を出力し、前記応答を出力する出力部と、を備える。

この態様によると、音声データの取得完了から応答の出力開始までの時間に応じて、相槌のタイミングを決定するので、応答の生成に時間を要する場合には、相槌を遅らせて、相槌から応答までの時間を短縮できる。よって、相槌から応答までの時間が長すぎることによるユーザの違和感を抑制できる。

前記音声データの取得完了から前記応答の出力開始までに要する時間は、前記音声データのサイズ、または、前記音声認識結果のデータサイズに基づいて決定されてもよい。

前記決定部は、前記音声データの取得から前記相槌の出力までの時間が、前記相槌の出力から前記応答の出力までの時間より短くなるように、前記相槌のタイミングを決定してもよい。

前記決定部は、前記音声データのサイズ、または、前記音声認識結果のデータサイズが大きいほど、前記相槌のタイミングを遅くしてもよい。

本発明の別の態様は、情報処理装置である。この装置は、ユーザにより発話された音声の音声データを取得する取得部と、前記音声が音声認識された音声認識結果を、当該音声認識結果をもとに前記音声に対する応答を作成するサーバ装置に送信し、前記サーバ装置から前記応答を取得する通信部と、前記通信部が前記音声認識結果を前記サーバ装置に送信した場合に、前記音声データの取得完了から前記応答の出力開始までの時間に応じて相槌のタイミングを決定する決定部と、前記決定部にて決定されたタイミングで前記相槌を出力してから、前記応答を出力する出力部と、を備える。

本発明によれば、相槌から応答までの時間が長すぎることによるユーザの違和感を抑制できる。

実施の形態に係る情報処理システムの構成を示すブロック図である。図１の情報処理装置における相槌と応答の出力タイミングの一例を示す図である。図１の情報処理システムにおける処理を示すシーケンス図である。図１の情報処理システムにおける別の処理を示すシーケンス図である。図１の情報処理システムにおけるさらに別の処理を示すシーケンス図である。

図１は、実施の形態に係る情報処理システム１の構成を示すブロック図である。情報処理システム１は、ユーザと対話を行う対話システムとして機能する。情報処理システム１は、ロボット１０と、情報処理装置１２と、第１サーバ装置１４と、第２サーバ装置１６とを備える。

ロボット１０は、例えば、持ち運び可能な小型ロボットである。ロボット１０は、ユーザの音声を入力し、その音声に対する応答の音声をユーザに出力する音声入出力装置として機能する。ロボット１０は、マイク２０と、処理部２２と、通信部２４と、スピーカ２６と、駆動部２８とを備える。

マイク２０は、ユーザにより発話された音声を取得し、その音声の音声データを処理部２２に出力する。処理部２２は、マイク２０から出力された音声データを処理して通信部２４へ出力する。

通信部２４は、情報処理装置１２と無線通信を行う。この無線通信の規格は特に限定されないが、例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）またはＢｌｕｅｔｏｏｔｈＬｏｗＥｎｅｒｇｙなどの近距離無線通信技術を含む。通信部２４は、情報処理装置１２と有線通信を行ってもよい。

通信部２４は、処理部２２から出力された音声データを情報処理装置１２へ送信する。また、通信部２４は、後述するように情報処理装置１２から、ユーザにより発話された音声に対する相槌と、その音声に対する応答を受信する。相槌と応答は、例えば、テキストデータから構成される。通信部２４は、受信した相槌と応答を処理部２２へ出力する。

処理部２２は、通信部２４から出力された相槌と応答を音声データに変換して、変換した音声データをスピーカ２６に出力する。また、処理部２２は、通信部２４で受信された相槌と応答に基づいて駆動信号を生成し、生成した駆動信号を駆動部２８に出力する。

スピーカ２６は、処理部２２から出力された音声データに基づいて、相槌および応答を音声で出力する。駆動部２８は、処理部２２から出力された駆動信号に基づいて、図示を省略したロボット１０の頭部、腕などの各部を駆動する。例えば、スピーカ２６が相槌を出力するときに駆動部２８が頭部を駆動して頷く動作をさせるように、駆動信号が生成されてもよい。

情報処理装置１２は、第１通信部３０と、第２通信部３２と、処理部３４と、第１記憶部３６と、第２記憶部３８とを備える。処理部３４は、第１取得部５０と、第２取得部５２と、第３取得部５４と、音声認識部５６と、応答選択部５８と、相槌選択部６０と、第１出力部６２と、第２出力部６４と、タイミング決定部６６とを備える。情報処理装置１２は、例えば、スマートフォン、ノートパソコン、デスクトップ型パソコンなどに含まれる。

第１通信部３０は、ロボット１０の通信部２４と無線通信を行う。第１通信部３０は、ユーザにより発話された音声の音声データをロボット１０の通信部２４から受信する。

第１取得部５０は、第１通信部３０で受信された音声データを取得する。第１取得部５０は、取得した音声データを音声認識部５６と第２通信部３２に出力する。

音声認識部５６は、第１取得部５０から出力された音声データに基づいて、ユーザにより発話された音声を音声認識し、音声認識結果を応答選択部５８へ出力する。音声認識結果は、例えば、テキストデータから構成される。音声認識には、周知の技術を用いることができる。

第２通信部３２は、第１サーバ装置１４および第２サーバ装置１６と無線通信を行う。第２通信部３２の無線通信の規格は特に限定されないが、例えば、３Ｇ（第３世代移動通信システム）、４Ｇ（第４世代移動通信システム）または５Ｇ（第５世代移動通信システム）を含む。第２通信部３２は、図示しない基地局を介して第１サーバ装置１４および第２サーバ装置１６と無線通信を行ってもよい。第２通信部３２は、第１取得部５０から出力された音声データを第１サーバ装置１４へ送信する。

第１サーバ装置１４は、第２通信部３２から送信された音声データを受信する。第１サーバ装置１４は、受信した音声データに基づいて、ユーザにより発話された音声を音声認識し、音声認識結果を情報処理装置１２へ送信する。このように、第１サーバ装置１４は音声認識装置として機能する。

第１サーバ装置１４での音声認識の精度は、情報処理装置１２の音声認識部５６での音声認識の精度より高い。そのため、音声に含まれる雑音の影響などによって音声認識部５６では正確に音声認識できなくても、第１サーバ装置１４では正確に音声認識できる場合がある。

第２通信部３２は、音声認識結果を第１サーバ装置１４から受信する。第３取得部５４は、第２通信部３２で受信された音声認識結果を取得して、その音声認識結果を応答選択部５８へ出力する。

第１記憶部３６は、例えば、「おはよう」、「こんにちは」などの複数の基本的な応答を予め記憶している。各応答には、１つ以上のキーワードが対応付けられている。例えば、「こんにちは」という応答には、「こんにちは」、「ハロー」などのキーワードが対応付けられている。つまり、第１記憶部３６は、予め想定されたキーワードに対する応答を記憶している。

応答選択部５８は、音声認識部５６による音声認識結果に基づいて、第１記憶部３６に記憶された応答の中から、ユーザにより発話された音声に対する応答を選択する。応答選択部５８は、選択した応答を第２出力部６４に出力する。具体的には、応答選択部５８は、音声認識結果が第１記憶部３６のキーワードに一致する場合、第１記憶部３６に記憶された応答の中から、一致したキーワードに対応付けられた応答を選択する。これにより、予め想定された音声認識結果に対しては、高速に応答を決定できる。応答選択部５８は、音声認識結果が第１記憶部３６のキーワードに一致しない場合、応答を選択しない。例えば、「今日はラーメン食べたよ」などの複雑な音声認識結果は、第１記憶部３６のキーワードに一致しないため、この場合には応答が選択されない。

音声認識部５６による音声認識結果に基づいて応答を選択不可能な場合、応答選択部５８は、第１サーバ装置１４による音声認識結果に基づいて、ユーザにより発話された音声に対する応答を選択する。この選択も、上述の音声認識部５６による音声認識結果に基づく選択と同様に行われる。これにより、雑音の影響などによって音声認識部５６では正確に音声認識できないが、第１サーバ装置１４では正確に音声認識できた場合には、第１サーバ装置１４による正確な音声認識結果に基づいて応答を決定できる可能性がある。

第２出力部６４は、第１通信部３０を介して、応答選択部５８で選択された応答をロボット１０へ出力する。

音声認識部５６による音声認識結果および第１サーバ装置１４による音声認識結果に基づいて応答を選択不可能な場合、即ちこれらの音声認識結果がキーワードに一致しない場合、第１出力部６２は、音声が第１サーバ装置１４で音声認識された音声認識結果を第２通信部３２へ出力する。第２通信部３２は、この音声認識結果を第２サーバ装置１６へ送信する。この処理は、第１出力部６２が、第１サーバ装置１４による音声認識結果を第２サーバ装置１６に出力することに相当する。

第２サーバ装置１６は、第１サーバ装置１４による音声認識結果をもとに、ユーザにより発話された音声に対する応答を作成する。例えば、第２サーバ装置１６は、音声認識結果のテキストデータを構文解析して、文字列情報の意味解釈を行う。第２サーバ装置１６は、文字列情報の解析結果に基づいて応答を生成し、生成した応答を情報処理装置１２へ出力する。概ね、音声データのサイズが大きいほど、即ち音声認識結果のデータサイズが大きいほど、応答の作成に必要な時間は長くなる。構文解析および応答の作成には、周知の技術を用いることができる。このように、第２サーバ装置１６は応答生成装置として機能する。第２サーバ装置１６を用いることで、情報処理装置１２の構成を複雑化することなく、複雑な音声認識結果に対しても応答を生成できる。

第２通信部３２は、第２サーバ装置１６から応答を受信する。第２取得部５２は、第２通信部３２で受信された応答を取得する。第２取得部５２は、取得した応答を第２出力部６４に出力する。

ある音声について、第２サーバ装置１６で応答の作成に要する時間は、第１サーバ装置１４で音声認識に要する時間より長い。そのため、第１出力部６２が音声認識結果を第２サーバ装置１６に出力してから、第２取得部５２が第２サーバ装置１６による応答を取得するまでの時間は、第２通信部３２が音声データを第１サーバ装置１４へ送信してから、第３取得部５４が第１サーバ装置１４による音声認識結果を取得するまでの時間より長い。

第２記憶部３８は、例えば、「うん」、「うん、うん」、「なるほど」、「ふーん」などの複数の相槌を予め記憶している。相槌は、つなぎ発話と呼ぶこともできる。

相槌選択部６０は、第１出力部６２が音声認識結果を第２サーバ装置１６に出力した場合に、第２記憶部３８に記憶された相槌の中から、ユーザにより発話された音声に対する相槌を選択する。相槌選択部６０は、例えば、ランダムに相槌を選択する。

タイミング決定部６６は、音声データの取得完了から、第２サーバ装置１６で音声認識結果に基づいて生成された応答の出力開始までの時間に応じて相槌のタイミングを決定する。音声データの取得完了から応答の出力開始までに要する時間は、音声データのサイズ、または、音声認識結果のデータサイズに基づいて決定される。タイミング決定部６６は、第１出力部６２が音声認識結果を第２サーバ装置１６に出力した場合に、音声データのサイズ、または、音声認識結果のデータサイズに応じて、ユーザにより発話された音声に対する相槌のタイミングを決定する。タイミング決定部６６は、概ね、音声データのサイズ、または、音声認識結果のデータサイズが大きいほど、相槌のタイミングを遅くする。よって、概ね、第２サーバ装置１６において応答の作成に必要な時間が長くなるほど、相槌のタイミングは遅くなる。

ここでは、タイミング決定部６６は、第１取得部５０による音声データの取得から第２出力部６４による相槌の出力までの時間が、第２出力部６４による相槌の出力から応答の出力までの時間より短くなるように、相槌のタイミングを決定する。

具体的には、タイミング決定部６６は、第１出力部６２が音声認識結果を第２サーバ装置１６に出力してから、第２出力部６４が相槌を出力するまでの待ち時間を決定する。

タイミング決定部６６は、音声データのサイズが第１しきい値より大きい場合、待ち時間を第１時間に決定する。第１時間は、例えば、約２秒である。

タイミング決定部６６は、音声データのサイズが第２しきい値より大きく第１しきい値以下である場合、待ち時間を第２時間に決定する。第２しきい値は、第１しきい値より小さい。第２時間は、第１時間より短く、例えば、約１秒である。

タイミング決定部６６は、音声データのサイズが第２しきい値以下である場合、待ち時間を第３時間に決定する。第３時間は、第２時間より短く、例えば、約０．５秒である。

音声認識結果のデータサイズに応じて待ち時間を決定する場合にも、同様に行うことができる。第１しきい値、第２しきい値、第１時間、第２時間、第３時間は、実験やシミュレーションなどにより適宜定めることができる。ここでは待ち時間を３つの予め定められた時間から決定する一例について説明したが、２つの予め定められた時間から決定してもよいし、４つ以上の予め定められた時間から決定してもよい。あるいは、待ち時間を予め定められた数式に基づいて決定してもよい。

第２出力部６４は、第１通信部３０を介して、タイミング決定部６６にて決定されたタイミングで、相槌選択部６０で選択された相槌をロボット１０に出力してから、第２取得部５２で取得された応答をロボット１０に出力する。つまり、第２出力部６４は、第１出力部６２が音声認識結果を第２サーバ装置１６に出力したタイミングから、決定された待ち時間が経過したタイミングで相槌を出力し、その後、第２取得部５２で応答が取得されると即時にその応答を出力する。

図２は、図１の情報処理装置１２における相槌と応答の出力タイミングの一例を示す図である。まず、第１取得部５０は、ユーザにより発話された、例えば「今日はラーメン食べたよ」という音声の音声データを取得する。応答選択部５８は、この音声に対する応答を選択不可能であるため、第２出力部６４は、例えば「うん」という相槌を出力する。次に、第２出力部６４は、第２サーバ装置１６で作成された、例えば「どんなラーメン食べたの？」という応答を出力する。第１取得部５０が音声データを取得してから第２出力部６４が相槌を出力するまでの時間Ｔ１は、第２出力部６４が相槌を出力してから応答を出力するまでの時間Ｔ２より短い。

この構成は、ハードウエア的には、任意のコンピュータのＣＰＵ、メモリ、その他のＬＳＩで実現でき、ソフトウエア的にはメモリにロードされたプログラムなどによって実現されるが、ここではそれらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックがハードウエアのみ、ソフトウエアのみ、またはそれらの組合せによっていろいろな形で実現できることは、当業者には理解されるところである。

次に、以上の構成による情報処理システム１の全体的な動作を説明する。図３は、図１の情報処理システム１における処理を示すシーケンス図である。図３は、音声認識部５６による音声認識結果に基づいて応答を選択可能な場合の処理を示す。この処理は、ロボット１０のマイク２０が音声を取得する度に行われる。

ロボット１０は、ユーザの音声を取得し（Ｓ１０）、音声データを情報処理装置１２に出力する（Ｓ１２）。情報処理装置１２は、受信した音声データを第１サーバ装置１４に出力し（Ｓ１４）、音声を音声認識し（Ｓ１６）、応答を選択可能であるか判定し（Ｓ１８）、選択した応答をロボット１０へ出力する（Ｓ２０）。ロボット１０は、受信した応答を音声で出力する（Ｓ２２）。

情報処理装置１２がステップＳ１６，Ｓ１８の処理を行っている間に、第１サーバ装置１４は、音声データを音声認識し（Ｓ２４）、音声認識結果を情報処理装置１２へ出力する（Ｓ２６）。この例では、この音声認識結果は情報処理装置１２で利用されない。また、第２サーバ装置１６は処理を行わない。

図４は、図１の情報処理システム１における別の処理を示すシーケンス図である。図４は、音声認識部５６による音声認識結果に基づいて応答を選択不可能であり、第１サーバ装置１４による音声認識結果に基づいて応答を選択可能な場合の処理を示す。この処理は、ロボット１０のマイク２０が音声を取得する度に行われる。

ステップＳ１０〜Ｓ２６の処理は図３と同じであり、ステップＳ３０の処理が加わる。情報処理装置１２は、ステップＳ１８で応答を選択不可能な場合、ステップＳ２６の第１サーバ装置１４による音声認識結果に基づいて応答を選択可能であるか判定し（Ｓ３０）、選択した応答をロボット１０へ出力する（Ｓ２０）。

図５は、図１の情報処理システム１におけるさらに別の処理を示すシーケンス図である。図５は、音声認識部５６による音声認識結果および第１サーバ装置１４による音声認識結果に基づいて応答を選択不可能な場合の処理を示す。この処理は、ロボット１０のマイク２０が音声を取得する度に行われる。

ステップＳ１０〜Ｓ３０の処理は図４と同じであり、ステップＳ３４〜Ｓ４４の処理が加わる。情報処理装置１２は、ステップＳ３０で応答を選択不可能な場合、ステップＳ２６の第１サーバ装置１４による音声認識結果を第２サーバ装置１６へ出力し（Ｓ３２）、相槌のタイミングを決定し（Ｓ３４）、相槌を選択し（Ｓ３６）、決定されたタイミングで相槌をロボット１０へ出力する（Ｓ３８）。ロボット１０は、受信した相槌を音声で出力する（Ｓ４０）。ステップＳ３６の相槌の選択は、ステップＳ３０とステップＳ３２の間に行われてもよいし、ステップＳ３２とステップＳ３４の間に行われてもよい。

情報処理装置１２がステップＳ３４，Ｓ３６，Ｓ３８の処理を行い、ロボット１０がステップＳ４０の処理を行っている間に、第２サーバ装置１６は、受信した音声認識結果に基づいて応答を作成し（Ｓ４２）、応答を情報処理装置１２へ送信する（Ｓ４４）。情報処理装置１２は、第２サーバ装置１６からの応答をロボット１０へ出力し（Ｓ２０）、ロボット１０は、受信した応答を音声で出力する（Ｓ２２）。

このように本実施の形態によれば、第２サーバ装置１６で作成される応答を出力するまでの間に相槌を出力するので、対話間の繋がりがよりスムーズになり、対話の違和感を抑制できる。その上で、音声データの取得完了から応答の出力開始までの時間に応じて、相槌のタイミングを決定するので、第２サーバ装置１６での応答処理に時間を要する場合には、相槌を遅らせて、相槌から応答までの時間を短縮できる。よって、相槌から応答までの時間が長すぎることによるユーザの違和感を抑制できる。

また、音声データの取得完了から応答の出力開始までに要する時間は、ユーザにより発話された音声の音声データのサイズ、または、音声が音声認識された音声認識結果のデータサイズに基づいて決定されるので、これらのデータサイズに基づいて相槌のタイミングを容易に決定できる。

また、音声データの取得から相槌の出力までの時間が、相槌の出力から応答の出力までの時間より短くなるように、相槌のタイミングを決定するので、ユーザが発話してから相槌が聞こえるまでの時間を長くし過ぎないようにできる。よって、ユーザの違和感をより抑制できる。

以上、実施の形態をもとに本発明を説明した。実施の形態はあくまでも例示であり、各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

例えば、相槌選択部６０は、音声データのサイズ、または、音声認識結果のデータサイズが大きいほど、長い相槌を選択してもよい。この変形例では、第２サーバ装置１６での応答処理に時間を要する場合に、相槌の終了から応答までの時間をより短縮できるので、ユーザの違和感をより抑制できる。

また、ロボット１０が情報処理装置１２を備え、ロボット１０と情報処理装置１２が一体化されていてもよい。また、ロボット１０を用いず、情報処理装置１２がマイク２０とスピーカ２６を備え、マイク２０とスピーカ２６を用いて情報処理装置１２が音声を入出力してもよい。また、第１サーバ装置１４と第２サーバ装置１６は、１台のサーバ装置として構成されていてもよい。これらの変形例では、情報処理システム１の構成の自由度を高めることができる。

１…情報処理システム、１０…ロボット、１２…情報処理装置、１４…第１サーバ装置、１６…第２サーバ装置、５０…第１取得部、５２…第２取得部、５４…第３取得部、５６…音声認識部、５８…応答選択部、６０…相槌選択部、６２…第１出力部、６４…第２出力部、６６…タイミング決定部。

Claims

ユーザにより発話された音声の音声データを取得する取得部と、
前記音声データの取得完了から、前記音声が音声認識された音声認識結果に基づいて生成された応答の出力開始までの時間に応じて相槌のタイミングを決定する決定部と、
前記決定されたタイミングで前記相槌を出力し、前記応答を出力する出力部と、
を備えることを特徴とする情報処理装置。
前記音声データの取得完了から前記応答の出力開始までに要する時間は、前記音声データのサイズ、または、前記音声認識結果のデータサイズに基づいて決定されることを特徴とする請求項１に記載の情報処理装置。
前記決定部は、前記音声データの取得から前記相槌の出力までの時間が、前記相槌の出力から前記応答の出力までの時間より短くなるように、前記相槌のタイミングを決定することを特徴とする請求項１または２に記載の情報処理装置。
前記決定部は、前記音声データのサイズ、または、前記音声認識結果のデータサイズが大きいほど、前記相槌のタイミングを遅くすることを特徴とする請求項１から３のいずれかに記載の情報処理装置。
ユーザにより発話された音声の音声データを取得する取得部と、
前記音声が音声認識された音声認識結果を、当該音声認識結果をもとに前記音声に対する応答を作成するサーバ装置に送信し、前記サーバ装置から前記応答を取得する通信部と、
前記通信部が前記音声認識結果を前記サーバ装置に送信した場合に、前記音声データの取得完了から前記応答の出力開始までの時間に応じて相槌のタイミングを決定する決定部と、
前記決定部にて決定されたタイミングで前記相槌を出力してから、前記応答を出力する出力部と、
を備えることを特徴とする情報処理装置。