JP2019090945A - 情報処理装置 - Google Patents

情報処理装置 Download PDF

Info

Publication number
JP2019090945A
JP2019090945A JP2017220157A JP2017220157A JP2019090945A JP 2019090945 A JP2019090945 A JP 2019090945A JP 2017220157 A JP2017220157 A JP 2017220157A JP 2017220157 A JP2017220157 A JP 2017220157A JP 2019090945 A JP2019090945 A JP 2019090945A
Authority
JP
Japan
Prior art keywords
response
voice
unit
output
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017220157A
Other languages
English (en)
Other versions
JP6904225B2 (ja
Inventor
佐々木 悟
Satoru Sasaki
悟 佐々木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2017220157A priority Critical patent/JP6904225B2/ja
Priority to US16/179,012 priority patent/US10896677B2/en
Priority to CN201811307472.6A priority patent/CN109785830B/zh
Publication of JP2019090945A publication Critical patent/JP2019090945A/ja
Application granted granted Critical
Publication of JP6904225B2 publication Critical patent/JP6904225B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Manipulator (AREA)

Abstract

【課題】相槌から応答までの時間が長すぎることによるユーザの違和感を抑制できる情報処理装置を提供する。【解決手段】情報処理装置12において、第1取得部50は、ユーザにより発話された音声の音声データを取得する。タイミング決定部66は、音声データの取得完了から、音声が音声認識された音声認識結果に基づいて生成された応答の出力開始までの時間に応じて相槌のタイミングを決定する。第2出力部64は、決定されたタイミングで相槌を出力し、応答を出力する。【選択図】図1

Description

本発明は、ユーザの発話に対する応答を出力する情報処理装置に関する。
ユーザが音声を発話してから、この音声を音声認識する遠隔のサーバから応答メッセージが得られるまでの待ち時間中に、予測した応答遅延時間に応じた時間長のつなぎ言葉をユーザに対して発話する音声認識端末装置が知られている(例えば、特許文献1参照)。
特開2015−135420号公報
上記技術では、ユーザの発話の複雑さに応じてサーバでの応答メッセージの作成時間が長くなることは考慮されていない。そのため、ユーザの発話の内容によっては、つなぎ言葉から応答メッセージまでの待ち時間が長くなり過ぎ、ユーザに違和感を抱かせる可能性がある。
本発明はこうした状況に鑑みてなされたものであり、その目的は、相槌から応答までの時間が長すぎることによるユーザの違和感を抑制できる情報処理装置を提供することにある。
上記課題を解決するために、本発明のある態様の情報処理装置は、ユーザにより発話された音声の音声データを取得する取得部と、前記音声データの取得完了から、前記音声が音声認識された音声認識結果に基づいて生成された応答の出力開始までの時間に応じて相槌のタイミングを決定する決定部と、前記決定されたタイミングで前記相槌を出力し、前記応答を出力する出力部と、を備える。
この態様によると、音声データの取得完了から応答の出力開始までの時間に応じて、相槌のタイミングを決定するので、応答の生成に時間を要する場合には、相槌を遅らせて、相槌から応答までの時間を短縮できる。よって、相槌から応答までの時間が長すぎることによるユーザの違和感を抑制できる。
前記音声データの取得完了から前記応答の出力開始までに要する時間は、前記音声データのサイズ、または、前記音声認識結果のデータサイズに基づいて決定されてもよい。
前記決定部は、前記音声データの取得から前記相槌の出力までの時間が、前記相槌の出力から前記応答の出力までの時間より短くなるように、前記相槌のタイミングを決定してもよい。
前記決定部は、前記音声データのサイズ、または、前記音声認識結果のデータサイズが大きいほど、前記相槌のタイミングを遅くしてもよい。
本発明の別の態様は、情報処理装置である。この装置は、ユーザにより発話された音声の音声データを取得する取得部と、前記音声が音声認識された音声認識結果を、当該音声認識結果をもとに前記音声に対する応答を作成するサーバ装置に送信し、前記サーバ装置から前記応答を取得する通信部と、前記通信部が前記音声認識結果を前記サーバ装置に送信した場合に、前記音声データの取得完了から前記応答の出力開始までの時間に応じて相槌のタイミングを決定する決定部と、前記決定部にて決定されたタイミングで前記相槌を出力してから、前記応答を出力する出力部と、を備える。
本発明によれば、相槌から応答までの時間が長すぎることによるユーザの違和感を抑制できる。
実施の形態に係る情報処理システムの構成を示すブロック図である。 図1の情報処理装置における相槌と応答の出力タイミングの一例を示す図である。 図1の情報処理システムにおける処理を示すシーケンス図である。 図1の情報処理システムにおける別の処理を示すシーケンス図である。 図1の情報処理システムにおけるさらに別の処理を示すシーケンス図である。
図1は、実施の形態に係る情報処理システム1の構成を示すブロック図である。情報処理システム1は、ユーザと対話を行う対話システムとして機能する。情報処理システム1は、ロボット10と、情報処理装置12と、第1サーバ装置14と、第2サーバ装置16とを備える。
ロボット10は、例えば、持ち運び可能な小型ロボットである。ロボット10は、ユーザの音声を入力し、その音声に対する応答の音声をユーザに出力する音声入出力装置として機能する。ロボット10は、マイク20と、処理部22と、通信部24と、スピーカ26と、駆動部28とを備える。
マイク20は、ユーザにより発話された音声を取得し、その音声の音声データを処理部22に出力する。処理部22は、マイク20から出力された音声データを処理して通信部24へ出力する。
通信部24は、情報処理装置12と無線通信を行う。この無線通信の規格は特に限定されないが、例えば、Bluetooth(登録商標)またはBluetooth Low Energyなどの近距離無線通信技術を含む。通信部24は、情報処理装置12と有線通信を行ってもよい。
通信部24は、処理部22から出力された音声データを情報処理装置12へ送信する。また、通信部24は、後述するように情報処理装置12から、ユーザにより発話された音声に対する相槌と、その音声に対する応答を受信する。相槌と応答は、例えば、テキストデータから構成される。通信部24は、受信した相槌と応答を処理部22へ出力する。
処理部22は、通信部24から出力された相槌と応答を音声データに変換して、変換した音声データをスピーカ26に出力する。また、処理部22は、通信部24で受信された相槌と応答に基づいて駆動信号を生成し、生成した駆動信号を駆動部28に出力する。
スピーカ26は、処理部22から出力された音声データに基づいて、相槌および応答を音声で出力する。駆動部28は、処理部22から出力された駆動信号に基づいて、図示を省略したロボット10の頭部、腕などの各部を駆動する。例えば、スピーカ26が相槌を出力するときに駆動部28が頭部を駆動して頷く動作をさせるように、駆動信号が生成されてもよい。
情報処理装置12は、第1通信部30と、第2通信部32と、処理部34と、第1記憶部36と、第2記憶部38とを備える。処理部34は、第1取得部50と、第2取得部52と、第3取得部54と、音声認識部56と、応答選択部58と、相槌選択部60と、第1出力部62と、第2出力部64と、タイミング決定部66とを備える。情報処理装置12は、例えば、スマートフォン、ノートパソコン、デスクトップ型パソコンなどに含まれる。
第1通信部30は、ロボット10の通信部24と無線通信を行う。第1通信部30は、ユーザにより発話された音声の音声データをロボット10の通信部24から受信する。
第1取得部50は、第1通信部30で受信された音声データを取得する。第1取得部50は、取得した音声データを音声認識部56と第2通信部32に出力する。
音声認識部56は、第1取得部50から出力された音声データに基づいて、ユーザにより発話された音声を音声認識し、音声認識結果を応答選択部58へ出力する。音声認識結果は、例えば、テキストデータから構成される。音声認識には、周知の技術を用いることができる。
第2通信部32は、第1サーバ装置14および第2サーバ装置16と無線通信を行う。第2通信部32の無線通信の規格は特に限定されないが、例えば、3G(第3世代移動通信システム)、4G(第4世代移動通信システム)または5G(第5世代移動通信システム)を含む。第2通信部32は、図示しない基地局を介して第1サーバ装置14および第2サーバ装置16と無線通信を行ってもよい。第2通信部32は、第1取得部50から出力された音声データを第1サーバ装置14へ送信する。
第1サーバ装置14は、第2通信部32から送信された音声データを受信する。第1サーバ装置14は、受信した音声データに基づいて、ユーザにより発話された音声を音声認識し、音声認識結果を情報処理装置12へ送信する。このように、第1サーバ装置14は音声認識装置として機能する。
第1サーバ装置14での音声認識の精度は、情報処理装置12の音声認識部56での音声認識の精度より高い。そのため、音声に含まれる雑音の影響などによって音声認識部56では正確に音声認識できなくても、第1サーバ装置14では正確に音声認識できる場合がある。
第2通信部32は、音声認識結果を第1サーバ装置14から受信する。第3取得部54は、第2通信部32で受信された音声認識結果を取得して、その音声認識結果を応答選択部58へ出力する。
第1記憶部36は、例えば、「おはよう」、「こんにちは」などの複数の基本的な応答を予め記憶している。各応答には、1つ以上のキーワードが対応付けられている。例えば、「こんにちは」という応答には、「こんにちは」、「ハロー」などのキーワードが対応付けられている。つまり、第1記憶部36は、予め想定されたキーワードに対する応答を記憶している。
応答選択部58は、音声認識部56による音声認識結果に基づいて、第1記憶部36に記憶された応答の中から、ユーザにより発話された音声に対する応答を選択する。応答選択部58は、選択した応答を第2出力部64に出力する。具体的には、応答選択部58は、音声認識結果が第1記憶部36のキーワードに一致する場合、第1記憶部36に記憶された応答の中から、一致したキーワードに対応付けられた応答を選択する。これにより、予め想定された音声認識結果に対しては、高速に応答を決定できる。応答選択部58は、音声認識結果が第1記憶部36のキーワードに一致しない場合、応答を選択しない。例えば、「今日はラーメン食べたよ」などの複雑な音声認識結果は、第1記憶部36のキーワードに一致しないため、この場合には応答が選択されない。
音声認識部56による音声認識結果に基づいて応答を選択不可能な場合、応答選択部58は、第1サーバ装置14による音声認識結果に基づいて、ユーザにより発話された音声に対する応答を選択する。この選択も、上述の音声認識部56による音声認識結果に基づく選択と同様に行われる。これにより、雑音の影響などによって音声認識部56では正確に音声認識できないが、第1サーバ装置14では正確に音声認識できた場合には、第1サーバ装置14による正確な音声認識結果に基づいて応答を決定できる可能性がある。
第2出力部64は、第1通信部30を介して、応答選択部58で選択された応答をロボット10へ出力する。
音声認識部56による音声認識結果および第1サーバ装置14による音声認識結果に基づいて応答を選択不可能な場合、即ちこれらの音声認識結果がキーワードに一致しない場合、第1出力部62は、音声が第1サーバ装置14で音声認識された音声認識結果を第2通信部32へ出力する。第2通信部32は、この音声認識結果を第2サーバ装置16へ送信する。この処理は、第1出力部62が、第1サーバ装置14による音声認識結果を第2サーバ装置16に出力することに相当する。
第2サーバ装置16は、第1サーバ装置14による音声認識結果をもとに、ユーザにより発話された音声に対する応答を作成する。例えば、第2サーバ装置16は、音声認識結果のテキストデータを構文解析して、文字列情報の意味解釈を行う。第2サーバ装置16は、文字列情報の解析結果に基づいて応答を生成し、生成した応答を情報処理装置12へ出力する。概ね、音声データのサイズが大きいほど、即ち音声認識結果のデータサイズが大きいほど、応答の作成に必要な時間は長くなる。構文解析および応答の作成には、周知の技術を用いることができる。このように、第2サーバ装置16は応答生成装置として機能する。第2サーバ装置16を用いることで、情報処理装置12の構成を複雑化することなく、複雑な音声認識結果に対しても応答を生成できる。
第2通信部32は、第2サーバ装置16から応答を受信する。第2取得部52は、第2通信部32で受信された応答を取得する。第2取得部52は、取得した応答を第2出力部64に出力する。
ある音声について、第2サーバ装置16で応答の作成に要する時間は、第1サーバ装置14で音声認識に要する時間より長い。そのため、第1出力部62が音声認識結果を第2サーバ装置16に出力してから、第2取得部52が第2サーバ装置16による応答を取得するまでの時間は、第2通信部32が音声データを第1サーバ装置14へ送信してから、第3取得部54が第1サーバ装置14による音声認識結果を取得するまでの時間より長い。
第2記憶部38は、例えば、「うん」、「うん、うん」、「なるほど」、「ふーん」などの複数の相槌を予め記憶している。相槌は、つなぎ発話と呼ぶこともできる。
相槌選択部60は、第1出力部62が音声認識結果を第2サーバ装置16に出力した場合に、第2記憶部38に記憶された相槌の中から、ユーザにより発話された音声に対する相槌を選択する。相槌選択部60は、例えば、ランダムに相槌を選択する。
タイミング決定部66は、音声データの取得完了から、第2サーバ装置16で音声認識結果に基づいて生成された応答の出力開始までの時間に応じて相槌のタイミングを決定する。音声データの取得完了から応答の出力開始までに要する時間は、音声データのサイズ、または、音声認識結果のデータサイズに基づいて決定される。タイミング決定部66は、第1出力部62が音声認識結果を第2サーバ装置16に出力した場合に、音声データのサイズ、または、音声認識結果のデータサイズに応じて、ユーザにより発話された音声に対する相槌のタイミングを決定する。タイミング決定部66は、概ね、音声データのサイズ、または、音声認識結果のデータサイズが大きいほど、相槌のタイミングを遅くする。よって、概ね、第2サーバ装置16において応答の作成に必要な時間が長くなるほど、相槌のタイミングは遅くなる。
ここでは、タイミング決定部66は、第1取得部50による音声データの取得から第2出力部64による相槌の出力までの時間が、第2出力部64による相槌の出力から応答の出力までの時間より短くなるように、相槌のタイミングを決定する。
具体的には、タイミング決定部66は、第1出力部62が音声認識結果を第2サーバ装置16に出力してから、第2出力部64が相槌を出力するまでの待ち時間を決定する。
タイミング決定部66は、音声データのサイズが第1しきい値より大きい場合、待ち時間を第1時間に決定する。第1時間は、例えば、約2秒である。
タイミング決定部66は、音声データのサイズが第2しきい値より大きく第1しきい値以下である場合、待ち時間を第2時間に決定する。第2しきい値は、第1しきい値より小さい。第2時間は、第1時間より短く、例えば、約1秒である。
タイミング決定部66は、音声データのサイズが第2しきい値以下である場合、待ち時間を第3時間に決定する。第3時間は、第2時間より短く、例えば、約0.5秒である。
音声認識結果のデータサイズに応じて待ち時間を決定する場合にも、同様に行うことができる。第1しきい値、第2しきい値、第1時間、第2時間、第3時間は、実験やシミュレーションなどにより適宜定めることができる。ここでは待ち時間を3つの予め定められた時間から決定する一例について説明したが、2つの予め定められた時間から決定してもよいし、4つ以上の予め定められた時間から決定してもよい。あるいは、待ち時間を予め定められた数式に基づいて決定してもよい。
第2出力部64は、第1通信部30を介して、タイミング決定部66にて決定されたタイミングで、相槌選択部60で選択された相槌をロボット10に出力してから、第2取得部52で取得された応答をロボット10に出力する。つまり、第2出力部64は、第1出力部62が音声認識結果を第2サーバ装置16に出力したタイミングから、決定された待ち時間が経過したタイミングで相槌を出力し、その後、第2取得部52で応答が取得されると即時にその応答を出力する。
図2は、図1の情報処理装置12における相槌と応答の出力タイミングの一例を示す図である。まず、第1取得部50は、ユーザにより発話された、例えば「今日はラーメン食べたよ」という音声の音声データを取得する。応答選択部58は、この音声に対する応答を選択不可能であるため、第2出力部64は、例えば「うん」という相槌を出力する。次に、第2出力部64は、第2サーバ装置16で作成された、例えば「どんなラーメン食べたの?」という応答を出力する。第1取得部50が音声データを取得してから第2出力部64が相槌を出力するまでの時間T1は、第2出力部64が相槌を出力してから応答を出力するまでの時間T2より短い。
この構成は、ハードウエア的には、任意のコンピュータのCPU、メモリ、その他のLSIで実現でき、ソフトウエア的にはメモリにロードされたプログラムなどによって実現されるが、ここではそれらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックがハードウエアのみ、ソフトウエアのみ、またはそれらの組合せによっていろいろな形で実現できることは、当業者には理解されるところである。
次に、以上の構成による情報処理システム1の全体的な動作を説明する。図3は、図1の情報処理システム1における処理を示すシーケンス図である。図3は、音声認識部56による音声認識結果に基づいて応答を選択可能な場合の処理を示す。この処理は、ロボット10のマイク20が音声を取得する度に行われる。
ロボット10は、ユーザの音声を取得し(S10)、音声データを情報処理装置12に出力する(S12)。情報処理装置12は、受信した音声データを第1サーバ装置14に出力し(S14)、音声を音声認識し(S16)、応答を選択可能であるか判定し(S18)、選択した応答をロボット10へ出力する(S20)。ロボット10は、受信した応答を音声で出力する(S22)。
情報処理装置12がステップS16,S18の処理を行っている間に、第1サーバ装置14は、音声データを音声認識し(S24)、音声認識結果を情報処理装置12へ出力する(S26)。この例では、この音声認識結果は情報処理装置12で利用されない。また、第2サーバ装置16は処理を行わない。
図4は、図1の情報処理システム1における別の処理を示すシーケンス図である。図4は、音声認識部56による音声認識結果に基づいて応答を選択不可能であり、第1サーバ装置14による音声認識結果に基づいて応答を選択可能な場合の処理を示す。この処理は、ロボット10のマイク20が音声を取得する度に行われる。
ステップS10〜S26の処理は図3と同じであり、ステップS30の処理が加わる。情報処理装置12は、ステップS18で応答を選択不可能な場合、ステップS26の第1サーバ装置14による音声認識結果に基づいて応答を選択可能であるか判定し(S30)、選択した応答をロボット10へ出力する(S20)。
図5は、図1の情報処理システム1におけるさらに別の処理を示すシーケンス図である。図5は、音声認識部56による音声認識結果および第1サーバ装置14による音声認識結果に基づいて応答を選択不可能な場合の処理を示す。この処理は、ロボット10のマイク20が音声を取得する度に行われる。
ステップS10〜S30の処理は図4と同じであり、ステップS34〜S44の処理が加わる。情報処理装置12は、ステップS30で応答を選択不可能な場合、ステップS26の第1サーバ装置14による音声認識結果を第2サーバ装置16へ出力し(S32)、相槌のタイミングを決定し(S34)、相槌を選択し(S36)、決定されたタイミングで相槌をロボット10へ出力する(S38)。ロボット10は、受信した相槌を音声で出力する(S40)。ステップS36の相槌の選択は、ステップS30とステップS32の間に行われてもよいし、ステップS32とステップS34の間に行われてもよい。
情報処理装置12がステップS34,S36,S38の処理を行い、ロボット10がステップS40の処理を行っている間に、第2サーバ装置16は、受信した音声認識結果に基づいて応答を作成し(S42)、応答を情報処理装置12へ送信する(S44)。情報処理装置12は、第2サーバ装置16からの応答をロボット10へ出力し(S20)、ロボット10は、受信した応答を音声で出力する(S22)。
このように本実施の形態によれば、第2サーバ装置16で作成される応答を出力するまでの間に相槌を出力するので、対話間の繋がりがよりスムーズになり、対話の違和感を抑制できる。その上で、音声データの取得完了から応答の出力開始までの時間に応じて、相槌のタイミングを決定するので、第2サーバ装置16での応答処理に時間を要する場合には、相槌を遅らせて、相槌から応答までの時間を短縮できる。よって、相槌から応答までの時間が長すぎることによるユーザの違和感を抑制できる。
また、音声データの取得完了から応答の出力開始までに要する時間は、ユーザにより発話された音声の音声データのサイズ、または、音声が音声認識された音声認識結果のデータサイズに基づいて決定されるので、これらのデータサイズに基づいて相槌のタイミングを容易に決定できる。
また、音声データの取得から相槌の出力までの時間が、相槌の出力から応答の出力までの時間より短くなるように、相槌のタイミングを決定するので、ユーザが発話してから相槌が聞こえるまでの時間を長くし過ぎないようにできる。よって、ユーザの違和感をより抑制できる。
以上、実施の形態をもとに本発明を説明した。実施の形態はあくまでも例示であり、各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
例えば、相槌選択部60は、音声データのサイズ、または、音声認識結果のデータサイズが大きいほど、長い相槌を選択してもよい。この変形例では、第2サーバ装置16での応答処理に時間を要する場合に、相槌の終了から応答までの時間をより短縮できるので、ユーザの違和感をより抑制できる。
また、ロボット10が情報処理装置12を備え、ロボット10と情報処理装置12が一体化されていてもよい。また、ロボット10を用いず、情報処理装置12がマイク20とスピーカ26を備え、マイク20とスピーカ26を用いて情報処理装置12が音声を入出力してもよい。また、第1サーバ装置14と第2サーバ装置16は、1台のサーバ装置として構成されていてもよい。これらの変形例では、情報処理システム1の構成の自由度を高めることができる。
1…情報処理システム、10…ロボット、12…情報処理装置、14…第1サーバ装置、16…第2サーバ装置、50…第1取得部、52…第2取得部、54…第3取得部、56…音声認識部、58…応答選択部、60…相槌選択部、62…第1出力部、64…第2出力部、66…タイミング決定部。

Claims (5)

  1. ユーザにより発話された音声の音声データを取得する取得部と、
    前記音声データの取得完了から、前記音声が音声認識された音声認識結果に基づいて生成された応答の出力開始までの時間に応じて相槌のタイミングを決定する決定部と、
    前記決定されたタイミングで前記相槌を出力し、前記応答を出力する出力部と、
    を備えることを特徴とする情報処理装置。
  2. 前記音声データの取得完了から前記応答の出力開始までに要する時間は、前記音声データのサイズ、または、前記音声認識結果のデータサイズに基づいて決定されることを特徴とする請求項1に記載の情報処理装置。
  3. 前記決定部は、前記音声データの取得から前記相槌の出力までの時間が、前記相槌の出力から前記応答の出力までの時間より短くなるように、前記相槌のタイミングを決定することを特徴とする請求項1または2に記載の情報処理装置。
  4. 前記決定部は、前記音声データのサイズ、または、前記音声認識結果のデータサイズが大きいほど、前記相槌のタイミングを遅くすることを特徴とする請求項1から3のいずれかに記載の情報処理装置。
  5. ユーザにより発話された音声の音声データを取得する取得部と、
    前記音声が音声認識された音声認識結果を、当該音声認識結果をもとに前記音声に対する応答を作成するサーバ装置に送信し、前記サーバ装置から前記応答を取得する通信部と、
    前記通信部が前記音声認識結果を前記サーバ装置に送信した場合に、前記音声データの取得完了から前記応答の出力開始までの時間に応じて相槌のタイミングを決定する決定部と、
    前記決定部にて決定されたタイミングで前記相槌を出力してから、前記応答を出力する出力部と、
    を備えることを特徴とする情報処理装置。
JP2017220157A 2017-11-15 2017-11-15 情報処理装置 Active JP6904225B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017220157A JP6904225B2 (ja) 2017-11-15 2017-11-15 情報処理装置
US16/179,012 US10896677B2 (en) 2017-11-15 2018-11-02 Voice interaction system that generates interjection words
CN201811307472.6A CN109785830B (zh) 2017-11-15 2018-11-05 信息处理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017220157A JP6904225B2 (ja) 2017-11-15 2017-11-15 情報処理装置

Publications (2)

Publication Number Publication Date
JP2019090945A true JP2019090945A (ja) 2019-06-13
JP6904225B2 JP6904225B2 (ja) 2021-07-14

Family

ID=66433518

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017220157A Active JP6904225B2 (ja) 2017-11-15 2017-11-15 情報処理装置

Country Status (3)

Country Link
US (1) US10896677B2 (ja)
JP (1) JP6904225B2 (ja)
CN (1) CN109785830B (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021530794A (ja) 2018-07-17 2021-11-11 アイ・ティー スピークス エル・エル・シーiT SpeeX LLC インテリジェントアシスタントおよび産業機械とのやり取りのための方法、システム、および、コンピュータプログラム製品
CN111429899A (zh) * 2020-02-27 2020-07-17 深圳壹账通智能科技有限公司 基于人工智能的语音响应处理方法、装置、设备及介质
JP7314102B2 (ja) * 2020-07-09 2023-07-25 Tvs Regza株式会社 制御信号生成回路、受信装置、システム、生成方法、およびプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004151527A (ja) * 2002-10-31 2004-05-27 Mitsubishi Electric Corp 音声合成装置、スタイル判定装置、音声合成方法、スタイル判定方法、およびプログラム
JP2015135420A (ja) * 2014-01-17 2015-07-27 株式会社デンソー 音声認識端末装置、音声認識システム、音声認識方法
JP2017021125A (ja) * 2015-07-09 2017-01-26 ヤマハ株式会社 音声対話装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8099289B2 (en) * 2008-02-13 2012-01-17 Sensory, Inc. Voice interface and search for electronic devices including bluetooth headsets and remote systems
JP4992925B2 (ja) * 2009-03-23 2012-08-08 トヨタ自動車株式会社 音声対話装置及びプログラム
CN103339623B (zh) * 2010-09-08 2018-05-25 纽昂斯通讯公司 涉及因特网搜索的方法和设备
EP3399521B1 (en) * 2013-05-31 2020-04-15 Yamaha Corporation Technology for responding to remarks using speech synthesis
JP2017107078A (ja) * 2015-12-10 2017-06-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声対話方法、音声対話装置及び音声対話プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004151527A (ja) * 2002-10-31 2004-05-27 Mitsubishi Electric Corp 音声合成装置、スタイル判定装置、音声合成方法、スタイル判定方法、およびプログラム
JP2015135420A (ja) * 2014-01-17 2015-07-27 株式会社デンソー 音声認識端末装置、音声認識システム、音声認識方法
JP2017021125A (ja) * 2015-07-09 2017-01-26 ヤマハ株式会社 音声対話装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
西村良太,中川聖一: "応答タイミングを考慮した音声対話システムとその評価", 情報処理学会研究報告, vol. Vol.2009-SLP-77,No.22, JPN6016050139, 15 August 2009 (2009-08-15), pages 1 - 6, ISSN: 0004462267 *

Also Published As

Publication number Publication date
CN109785830A (zh) 2019-05-21
US10896677B2 (en) 2021-01-19
CN109785830B (zh) 2023-09-12
JP6904225B2 (ja) 2021-07-14
US20190147872A1 (en) 2019-05-16

Similar Documents

Publication Publication Date Title
JP5753869B2 (ja) 音声認識端末およびコンピュータ端末を用いる音声認識方法
US10891952B2 (en) Speech recognition
US9583102B2 (en) Method of controlling interactive system, method of controlling server, server, and interactive device
WO2014208231A1 (ja) ローカルな音声認識を行なう音声認識クライアント装置
US10192550B2 (en) Conversational software agent
US10140988B2 (en) Speech recognition
JP2017107078A (ja) 音声対話方法、音声対話装置及び音声対話プログラム
JP2017535809A (ja) サウンド検出モデルを生成するためのサウンドサンプル検証
US20170256259A1 (en) Speech Recognition
CN107871503A (zh) 语音对话系统以及发声意图理解方法
JP2010152119A (ja) 応答生成装置及びプログラム
JP2014191029A (ja) 音声認識システムおよび音声認識システムの制御方法
JP2019090945A (ja) 情報処理装置
JP2019090942A (ja) 情報処理装置、情報処理システム、情報処理方法、および情報処理プログラム
JP2018109663A (ja) 音声処理装置、対話システム、端末装置、プログラム及び音声処理方法
JP2018045202A (ja) 音声対話システムおよび音声対話方法
JP2007328283A (ja) 対話装置、プログラム、及び対話方法
US8355484B2 (en) Methods and apparatus for masking latency in text-to-speech systems
JPWO2018135276A1 (ja) 言動制御装置、ロボット、制御プログラムおよび言動制御装置の制御方法
JP6468258B2 (ja) 音声対話装置および音声対話方法
JP6559417B2 (ja) 情報処理装置、情報処理方法、対話システム、および制御プログラム
JP2015087649A (ja) 発話制御装置、方法、発話システム、プログラム、及び発話装置
JP2018081147A (ja) コミュニケーション装置、サーバ、制御方法、および情報処理プログラム
JP7303091B2 (ja) 制御装置、電子機器、制御装置の制御方法および制御プログラム
JP2017122930A (ja) 発話制御装置、方法、発話システム、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200428

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210316

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210331

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210525

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210607

R151 Written notification of patent or utility model registration

Ref document number: 6904225

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151