JP2018045190A - 音声対話システムおよび音声対話方法 - Google Patents

音声対話システムおよび音声対話方法 Download PDF

Info

Publication number
JP2018045190A
JP2018045190A JP2016181910A JP2016181910A JP2018045190A JP 2018045190 A JP2018045190 A JP 2018045190A JP 2016181910 A JP2016181910 A JP 2016181910A JP 2016181910 A JP2016181910 A JP 2016181910A JP 2018045190 A JP2018045190 A JP 2018045190A
Authority
JP
Japan
Prior art keywords
voice
recognition
server
response
dialogue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016181910A
Other languages
English (en)
Other versions
JP6614080B2 (ja
Inventor
池野 篤司
Tokuji Ikeno
篤司 池野
宗明 島田
Muneaki Shimada
宗明 島田
浩太 畠中
Kota HATANAKA
浩太 畠中
西島 敏文
Toshifumi Nishijima
敏文 西島
史憲 片岡
Fuminori Kataoka
史憲 片岡
刀根川 浩巳
Hiromi Tonegawa
浩巳 刀根川
倫秀 梅山
Norihide Umeyama
倫秀 梅山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2016181910A priority Critical patent/JP6614080B2/ja
Publication of JP2018045190A publication Critical patent/JP2018045190A/ja
Application granted granted Critical
Publication of JP6614080B2 publication Critical patent/JP6614080B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

【課題】ローカルでの音声認識とサーバでの音声認識を行うハイブリッド型の音声対話システムにおいて、ユーザの発話に対する自然な応答を返す。【解決手段】音声対話装置と音声認識サーバとから構成される音声対話システムであって、前記音声対話装置は、音声入力手段と、前記音声入力手段に入力された音声を認識する第1の音声認識手段と、前記音声入力手段に入力された音声を前記音声認識サーバに送信する送信手段と、音声出力手段と、を備え、前記音声認識サーバは、前記音声対話装置から送信される音声を受信する受信手段と、前記受信手段が受信した音声を認識する第2の音声認識手段と、を備え、前記音声出力手段は、前記第1の音声認識手段による認識結果に基づく応答を出力した後、前記第1の音声認識手段による認識結果と前記第2の音声認識手段による認識結果との差分に基づく応答を出力する。【選択図】図3

Description

本発明は、音声対話システムに関し、特に、ローカルとサーバの両方で音声認識を行うハイブリッド型の音声対話システムに関する。
音声対話システムでは、音声の入力装置および出力装置を備える端末(ローカル)で音声認識を行う手法と、専用の音声認識サーバで音声認識を行う手法がある。ローカルで音声認識を行う場合には、応答が速いという利点があるが、認識精度が低かったり認識可能な語彙が少なかったりという欠点がある。逆に、サーバで音声認識を行う場合には認識精度が高く認識可能な語彙が多いという利点があるが、通信が必要となるので応答が遅いという欠点がある。
このようなローカルとサーバの互いの欠点を補うために、ローカルとサーバの両方で音声認識を行うハイブリッド型の音声対話システムが提案されている(特許文献1)。特許文献1に開示される音声認識端末装置は、ユーザが発話した音声コマンドを取得し、取得した音声コマンドを音声認識サーバへ送信して音声認識処理を要求する。その際、音声認識端末装置は、音声認識サーバから音声認識結果が得られるまでの応答遅延時間を埋め合わせるために「つなぎ発話」を発話する。このつなぎ発話の内容は、ローカルでの音声コマンドの認識結果に基づいて音声認識端末装置が決定する。
特開2015−135419号公報
特許文献1の手法は、音声認識端末装置が応答した後に、音声認識サーバからの認識結果を受けてさらに応答を行うが、これら2つの応答のあいだの連携が考慮されていないので、2つの応答に関連がなかったり、あるいは重複する内容が発せられたりして、応答が不自然になることがあり得る。
本発明は、ローカルでの音声認識とサーバでの音声認識を行うハイブリッド型の音声対話システムにおいて、ユーザの発話に対する自然な応答が可能な音声対話システムを提供することを目的とする。
本発明の第一の態様は、音声対話装置と音声認識サーバとから構成される音声対話システムである。
音声対話装置は、音声入力手段と、前記音声入力手段に入力された音声を認識する第1の音声認識手段と、前記音声入力手段に入力された音声を前記音声認識サーバに送信する送信手段と、音声出力手段とを備える。第1の音声認識手段による音声認識処理が、ローカルでの音声認識処理に該当する。
前記音声認識サーバは、前記音声対話装置から送信される音声を受信する受信手段と、前記受信手段が受信した音声を認識する第2の音声認識手段と、を備える。第2の音声認識手段による音声認識処理が、サーバでの音声認識処理に該当する。
本発明において、音声対話装置の音声出力手段は、前記第1の音声認識手段による認識結果(第1の認識結果)に基づく応答を出力した後に、第2の音声認識手段による認識結果(第2の認識結果)に基づく応答を出力する。ここで、第2の認識結果に基づく応答は、第1の認識結果と第2の認識結果との差分に基づいて生成される。
このように、2つの認識結果の差分を用いて第2の応答を決定するので、2つの応答の内容が重複したり脈絡がなかったりして、応答が不自然になることを防止できる。また、差分に基づいて第2の応答を決定しているので、対話が効率化されるという利点も得られる。
ここで、第2の音声認識手段は、第1の音声認識手段よりも認識精度が高いことが望ましい。認識精度が高いというのは、誤認識が少ない、または、認識失敗の確率が低い、あるいはその両方を意味する。また、第1の音声認識手段は、認識できない割合が高くなっても、誤認識が少なくなるように設定することが望ましい。
本発明において、第1の認識結果に基づく応答と、第1の認識結果と第2の認識結果との差分に基づく応答は、音声対話装置において生成されてもよいし、外部の装置(サーバ)によって生成されてもよい。ただし、第1の認識結果に基づく応答は高速応答性が求められるので、通信が発生しないように音声対話装置内で生成することが好ましい。一方、第2の認識結果を取得するために音声認識サーバとの通信が必要であり、さらに対話サーバと通信を行っても応答性はそれほど悪化しない。そこで、第2の認識結果に基づく応答は、対話サーバによって生成することが応答性と精度の観点から好ましい。対話サーバは、音声認識サーバと一体のサーバであってもよいし、異なるサーバであってもよい。対話サーバによる応答生成は、音声対話装置による応答生成よりも高度なものとすることができる。
また、対話サーバは、第1の認識結果と第2の認識結果との差分が取得可能であれば、どのようにして当該差分を取得してもよい。例えば、音声対話装置が、音声認識サーバから第2の認識結果を取得し、第1の認識結果と第2の認識結果との差分を算出して当該差分のみを対話サーバに送信してもよい。あるいは、音声対話装置は第1の認識結果と第2の認識結果の両方を対話サーバに送信し、対話サーバが両者の差分を求めてもよい。
また本発明において、音声対話装置が第1の認識結果に基づく応答も対話サーバに送信し、対話サーバは、第1の認識結果に基づく応答も考慮して第2の応答を生成することも好ましい。このようにすれば、第1の認識結果に基づく応答とのつながりが自然となる第2の応答を生成可能である。
なお、本発明は、上記手段の少なくとも一部を備える音声対話システムとして捉えることもできる。本発明はまた、音声対話システムを構成する音声対話装置あるいは音声認識サーバとして捉えることもできる。本発明は、また、上記処理の少なくとも一部を実行する音声対話方法として捉えることができる。また、本発明は、この方法をコンピュータに実行させるためのコンピュータプログラム、あるいはこのコンピュータプログラムを非一時的に記憶したコンピュータ可読記憶媒体として捉えることもできる。上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。
本発明によれば、ローカルでの音声認識とサーバでの音声認識を行うハイブリッド型の音声対話システムにおいて、ユーザの発話に対する自然な応答を返すことが可能となる。
図1は、実施形態に係る音声対話システムの構成を示す図である。 図2は、変形例に係る音声対話システムの構成を示す図である。 図3は、実施形態に係る音声対話システムにおける処理の流れの例を示す図である。 図4は、実施形態に係る音声対話システムにおける処理の流れの別の例を示す図である。
以下に図面を参照して、この発明の好適な実施の形態を例示的に詳しく説明する。以下で説明される実施形態は音声対話ロボットをローカルの音声対話端末として用いたシステムであるが、ローカルの音声対話端末はロボットである必要はなく任意の情報処理装置や音声対話インタフェースなどを用いることができる。
<システム構成>
図1は、本実施形態に係る音声対話システムの構成を示す図である。本実施形態に係る音声対話システムは、音声対話ロボット(音声対話端末装置)100、音声認識サーバ200、対話サーバ300から構成される。
音声対話ロボット100は、マイク101、スピーカー102、およびマイクロプロセッサなどの演算装置、メモリ、通信装置などを含むコンピュータである。マイクロプロセッサがプログラムを実行することにより、音声対話ロボット100は、ローカル型音声認識部103、ローカル型対話生成部104、音声合成部105、音声認識要求部106、差分検出部107、対話文要求部108として機能する。図示はしていないが、音声対話ロボット100は、画像取得装置(カメラ)や可動関節部や移動手段などを備えていてもよい。
ローカル型音声認識部103は、マイク101に入力されたユーザの発話内容を解析・認識して発話内容をテキストにする。ローカル型音声認識部103による音声認識処理は、音声対話ロボット100内で処理が完結し、後述する音声認識サーバ200による音声認識処理よりも認識精度や認識可能語彙などの性能が劣る。ただし、音声認識処理の際にサーバとの通信が不要であるため、比較的高速に認識結果を得ることができる。
ローカル型対話生成部104は、ローカル型音声認識部103の認識結果(テキスト)を受け取り、ユーザの発話に対する応答文のテキストを生成する。なお、ローカル型音声認識部103が認識結果を得られなかったときには、ローカル型対話生成部104は、適当な相づちや返事あるいはユーザ発話と同一内容の繰り返しを応答文として生成する。
音声合成部105は、発話内容のテキストを受け取り、音声合成を行って応答音声データを生成する。音声合成部105によって生成された応答音声データは、スピーカー102から再生される。
音声認識要求部106は、マイク101に入力されたユーザの発話内容を、音声認識サーバ200へ送って認識結果を取得する。なお、音声認識要求部106は、マイク101に入力された音声データを音声認識サーバに送ってもよいし、前処理の一部を行った後のデータを音声認識サーバに送ってもよい。
音声対話ロボット100と音声認識サーバ200のあいだの通信方式は特に限定されず、無線LANやLTEなどの任意の通信方式を採用可能である。
差分検出部107は、ローカル型音声認識部103による音声認識の結果(ローカル認識結果)と、音声認識サーバ200による音声認識結果(サーバ認識結果)を取得し、その差分を求める。
対話文要求部108は、差分検出部107が求めたローカル認識結果とサーバ認識結果の差分を対話サーバ300に送信して、この差分に対応する応答文を取得する。対話文要求部108によって取得された応答文は、音声合成部105に送られ音声データとしてスピーカー102から再生される。
なお、音声対話ロボット100は、1つの装置として構成される必要はない。例えば図2に示すように、マイク101、スピーカー102、カメラ、可動関節部などを含むロボット装置109(フロントエンド装置)と、各種の処理を実行するスマートフォン110(あるいはその他のコンピュータ)の2つの装置から構成することができる。この場合、ロボット装置とコンピュータは、Bluetooth(登録商標)などの無線通信により接続され、ロボット装置が取得したデータはコンピュータに送られ、コンピュータによる処理結果に基づいて応答文などの再生がロボット装置から行われる。
音声認識サーバ200は、マイクロプロセッサなどの演算装置、メモリ、通信装置などを含むコンピュータであり、音声認識部を備える。音声認識サーバ200は、豊富な資源(高速な演算部や、大容量の語彙辞書など)を有しており、したがって音声対話ロボット100による音声認識よりも高精度な音声認識が可能である。
対話サーバ300は、マイクロプロセッサなどの演算装置、メモリ、通信装置などを含むコンピュータであり、対話生成部を備える。対話サーバ300は、豊富な資源(高速な演算部や、大容量の対話シナリオDBなど)を有しており、したがって音声対話ロボット100による対話文生成よりも高度な応答を生成可能である。
<処理例>
図3および図4を参照して、本実施形態に係る音声対話システムにおける処理の流れを説明する。図3および図4は、実施形態に係る音声対話システムにおける処理の流れの例を示す図である。
まず、図3を参照して説明する。
ステップS101において、音声対話ロボット100がマイク101からユーザの発話を取得する。ここでは、例えば、ユーザが「おはよう。いい天気だね」と発話したとする。
マイク101が取得した音声データは、ステップS102においてローカル型音声認識部103に送られて、音声認識処理が施される。ここでは、ユーザの発話内容の全ては認識できず、「おはよう」の部分だけが認識できたものとする。
ローカル型音声認識部103による認識結果は、ステップS103においてローカル型対話生成部104に送られて、当該発話に対する応答文が生成される。ここでは、「おはよう」というユーザの発話に対して、「おはよう、○○ちゃん」という応答文が生成されたものとする。なお、音声対話ロボット100はユーザに関する情報を保持しており、ユーザに関する情報(ここではユーザの名前)が応答文の生成に利用される。
ステップS104において、音声合成部105は、ローカル型対話生成部104が生成した応答文のテキストを音声データに変換し、ステップS105においてスピーカー10
2から出力する。ここでは、ユーザからの「おはよう。いい天気だね」という発話に対して、まず、「おはよう。○○ちゃん」という応答が出力される。
音声対話ロボット100内での音声認識処理や応答文生成処理と並行して、マイク101に入力された音声データは、音声認識要求部106を介して音声認識サーバ200へ送られ、ステップS106において、音声認識サーバ200で音声認識処理が施される。音声認識サーバ200は高機能であるため、ユーザの発話全体を正しく認識でき、「おはよう。いい天気だね」という認識結果が得られる。音声認識の結果は、音声認識サーバ200から音声対話ロボット100(音声認識要求部106)に送信される。
なお、音声認識サーバ200での音声認識を行うためには、音声対話ロボット100と音声認識サーバ200とのあいだでの通信が必要となるため、音声認識サーバ200による認識結果を取得するまでには比較的長い時間が必要である。すなわち、音声認識サーバ200による認識結果が取得されるまでに、ローカル型音声認識部103に認識結果が既に取得されている(さらには、応答文の生成や出力まで完了している場合もある)。
ステップS107において、差分検出部107は、ローカル型音声認識部103による認識結果と、音声認識サーバ200による認識結果の差分が得られる。ここではローカルとサーバでの音声認識結果がそれぞれ「おはよう」と「おはよう。いい天気だね」なので、差分として「いい天気だね」が得られる。
差分検出部107が取得した認識結果の差分は、対話文要求部108を介して対話サーバ300へ送信され、ステップS108において、対話サーバ300において差分に対する応答文が生成される。ここでは、「いい天気だね」という差分の認識結果に対して、「お出かけ日和だね」という応答文が生成されたものとする。
ステップS109において、音声合成部105は、対話文要求部108が対話サーバ300から取得した応答文のテキストを音声データに変換し、ステップS110においてスピーカー102から出力する。ここでは、「いい天気だね」という応答が出力される。
このように、ユーザによる「おはよう。いい天気だね」という話しかけに対して、まずローカルの音声認識結果に基づいて「おはよう。○○ちゃん」という返事が出力され、さらにサーバでの音声認識結果に基づいて「お出かけ日和だね」という更なる返事が出力される。
したがって、音声認識サーバ200による応答が生成されるまでに比較的長い時間が必要となるが、その前にローカルでの認識結果に基づく応答が可能であり、レスポンスよく応答が行える。さらに、ローカルでの認識結果とサーバでの認識結果との差分に基づいて、2回目の(S110で出力される)応答文の内容を決定しているので、応答の内容が不自然になることを防止できる。
次に、図4を参照して説明する。図3と図4において基本的な処理の流れは変わらない。図4は、ステップS102のローカル型音声認識処理によって音声認識結果が全く得られなかった場合の処理例を示している。
ユーザが「ラーメン食べたよ」と発話した際に、ステップS102では、ローカル型音声認識処理では音声認識が不能である。この場合、ローカル型対話文生成処理では、相づちなどの定型文が応答として出力される。例えば、「うん」という応答がステップS105において出力される。
音声認識サーバ200は「ラーメン食べたよ」というユーザ発話の全体が正しく認識可能であり、したがって、差分検出部107はローカルの音声認識結果と音声認識サーバ200による認識結果との差分として、ユーザ発話の全文(「ラーメン食べたよ」)を取得する。対話サーバ300は、この内容に基づいて例えば、「どこで食べたの?」という応答を生成することができる。
このように、音声対話ロボット100において音声認識ができなかった場合でも、適当な相づちにより応答することで、音声認識サーバ200の認識結果の基づく応答までの間が不自然に空いてしまうことを防止できる。
<本実施形態の有利な効果>
本実施形態によれば、音声認識サーバの認識結果に基づく応答を行うまでのあいだに、ローカルでの認識結果に基づく応答が行えるので、応答が得られるまでにユーザを待たせる期間が短くなる。したがって、応答の高速性と内容の高度化の両立が行える。また、サーバの認識結果に基づく応答は、ローカルとサーバの認識結果の差分に基づいて生成されるので、2つの応答のあいだのつながりが不自然になってしまうことを防止できる。
<変形例>
上記の説明では、ローカルでの認識結果とサーバでの認識結果との差分を、音声対話ロボット100(差分検出部107)が求めているが、これは必須ではない。例えば、音声認識サーバ200が、音声対話ロボット100からローカル型音声認識部103での認識結果を取得し、差分を求めてもよい。あるいは、対話サーバ300が、音声対話ロボット100と音声認識サーバ200の両方から音声認識結果を取得して、その差分を求めてもよい。
また、音声対話ロボット100は、ローカル型対話生成部104が生成した応答文の内容を、対話サーバ300に送信することも好ましい。このようにすれば、対話サーバ300は、ユーザ発話の全体と、ローカルとサーバでの認識結果の差分、およびローカルの認識結果に基づく応答文の内容に基づいて、応答文の内容を決定することができる。対話サーバ300は、対話シナリオDBに、ユーザ発話に対する第1の応答と第2の応答を格納しておき、ユーザ発話に内容とローカルの認識結果に基づく応答内容(第1の応答)に基づいて、対応する第2の応答を生成すれば、自然な対話が可能となる。
また、音声対話ロボット100による音声認識は誤認識しないことが望ましい。したがって、ローカル型音声認識部103での認識閾値を高く設定して、不確かな認識結果は棄却することが望ましい。あるいは、ローカル型音声認識部103における認識スコアがそれほど高くない場合には、不確かな認識結果に基づいて相づちなどの定型的な応答を出力するようにしてもよい。相づちを返す場合であっても、ユーザ発話に応じて適切な相づちと不適切な相づちが存在するので、認識結果に基づく相づちを選択することで、より自然な応答が可能となる。
音声対話ロボット100による音声認識は誤認識しないことが望ましいが、誤認識を完全に無くすことは困難である。音声対話ロボット100において誤認識が発生した場合、より正確には、音声対話ロボット100による認識結果と音声認識サーバ200による認識結果が異なる場合には、対話サーバ300は、誤認識に基づく応答を修正するような応答を生成することが望ましい。たとえば、「ラーメン食べたよ」というユーザ発話を、音声対話ロボット100は「ラーメン食べたい」と誤認識して「そうだね、食べたいね」という応答をした場合、対話サーバ300は正しい認識結果に基づいて、最初の応答を訂正するような応答、たとえば「あれ、ラーメン食べたって言ったのかな」というような応答を生成することが考えられる。
また、上記の説明では、ローカル型音声認識部103によって完全な認識ができないことを想定しているが、ローカル型音声認識部103がユーザ発話を全て認識できた場合、より正確には、ローカル型音声認識部103による認識結果と音声認識サーバ200による認識結果が完全に一致する場合には、第2の応答は省略しても良い。もちろん、対話サーバ300によるさらなる応答を出力してもよい。
また、上記の説明では、音声認識や対話文生成を異なるサーバで実施しているが、両方の処理を同一のサーバで実施してもよいし、対話文生成処理は音声対話ロボット100において実施しても構わない。
<その他>
上記の実施形態および変形例の構成は、本発明の技術的思想を逸脱しない範囲内で、適宜組み合わせて利用することができる。また、本発明は、その技術的思想を逸脱しない範囲で適宜変更を加えて実現しても構わない。
100:音声対話ロボット
101:マイク
102:スピーカー
103:ローカル型音声認識部
104:ローカル型対話生成部
105:音声合成部
106:音声認識要求部
107:差分検出部
108:対話文要求部
200:音声認識サーバ
300:対話サーバ

Claims (7)

  1. 音声対話装置と音声認識サーバとから構成される音声対話システムであって、
    前記音声対話装置は、
    音声入力手段と、
    前記音声入力手段に入力された音声を認識する第1の音声認識手段と、
    前記音声入力手段に入力された音声を前記音声認識サーバに送信する送信手段と、
    音声出力手段と、
    を備え、
    前記音声認識サーバは、
    前記音声対話装置から送信される音声を受信する受信手段と、
    前記受信手段が受信した音声を認識する第2の音声認識手段と、
    を備え、
    前記音声出力手段は、前記第1の音声認識手段による認識結果に基づく応答を出力した後、前記第1の音声認識手段による認識結果と前記第2の音声認識手段による認識結果との差分に基づく応答を出力する、
    ことを特徴とする音声対話システム。
  2. 前記第2の音声認識手段は、前記第1の音声認識手段よりも認識精度が高い、
    請求項1に記載の音声対話システム。
  3. 前記第1の音声認識手段による応答は、前記音声対話装置が備える第1の応答生成手段が生成し、
    前記第2の音声認識手段による応答は、対話サーバが備える第2の応答生成手段が生成する、
    請求項1または2に記載の音声対話システム。
  4. 前記音声対話装置は、前記音声認識サーバから前記第2の音声認識手段による認識結果を取得し、前記第1の音声認識手段による認識結果と前記第2の音声認識手段による認識結果との差分を前記対話サーバに送信する、
    請求項3に記載の音声対話システム。
  5. 前記音声対話装置は、前記第1の音声認識手段による認識結果に基づく応答も前記対話サーバに送信し、
    前記第2の応答生成手段は、前記第1の音声認識手段による認識結果に基づく応答も考慮して前記応答を生成する、
    請求項4に記載の音声対話システム。
  6. 音声対話装置と音声認識サーバとから構成される音声対話システムにおける音声対話方法であって、
    前記音声対話装置が、ユーザの発話を取得するステップと、
    前記音声対話装置が、前記ユーザの発話の音声認識を行い第1の認識結果を取得するステップと、
    前記音声対話装置が、前記ユーザの発話を前記音声認識サーバに送信し、前記音声認識サーバによる音声認識の結果である第2の認識結果を取得するステップと、
    前記音声対話装置が、前記第1の認識結果に基づく応答を出力した後、前記第1の認識結果と前記第2の認識結果との差分に基づく応答を出力するステップと、
    含む、ことを特徴とする音声対話方法。
  7. 請求項6に記載の方法の各ステップをコンピュータに実行させるためのプログラム。
JP2016181910A 2016-09-16 2016-09-16 音声対話システムおよび音声対話方法 Active JP6614080B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016181910A JP6614080B2 (ja) 2016-09-16 2016-09-16 音声対話システムおよび音声対話方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016181910A JP6614080B2 (ja) 2016-09-16 2016-09-16 音声対話システムおよび音声対話方法

Publications (2)

Publication Number Publication Date
JP2018045190A true JP2018045190A (ja) 2018-03-22
JP6614080B2 JP6614080B2 (ja) 2019-12-04

Family

ID=61694847

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016181910A Active JP6614080B2 (ja) 2016-09-16 2016-09-16 音声対話システムおよび音声対話方法

Country Status (1)

Country Link
JP (1) JP6614080B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110741362A (zh) * 2018-05-03 2020-01-31 谷歌有限责任公司 音频查询的重叠处理的协调
WO2021010056A1 (ja) 2019-07-17 2021-01-21 ホシデン株式会社 マイクユニット
US11081114B2 (en) 2018-12-20 2021-08-03 Toyota Jidosha Kabushiki Kaisha Control method, voice interaction apparatus, voice recognition server, non-transitory storage medium, and control system
US11587554B2 (en) 2018-12-20 2023-02-21 Toyota Jidosha Kabushiki Kaisha Control apparatus, voice interaction apparatus, voice recognition server, and program
US11948564B2 (en) 2018-06-15 2024-04-02 Sony Corporation Information processing device and information processing method

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014182307A (ja) * 2013-03-19 2014-09-29 Sharp Corp 音声認識システム、および発話システム
JP2016071247A (ja) * 2014-09-30 2016-05-09 シャープ株式会社 対話装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014182307A (ja) * 2013-03-19 2014-09-29 Sharp Corp 音声認識システム、および発話システム
JP2016071247A (ja) * 2014-09-30 2016-05-09 シャープ株式会社 対話装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110741362A (zh) * 2018-05-03 2020-01-31 谷歌有限责任公司 音频查询的重叠处理的协调
JP7439186B2 (ja) 2018-05-03 2024-02-27 グーグル エルエルシー オーディオクエリのオーバーラップ処理の協調
CN110741362B (zh) * 2018-05-03 2024-05-14 谷歌有限责任公司 音频查询的重叠处理的协调
US11989229B2 (en) 2018-05-03 2024-05-21 Google Llc Coordination of overlapping processing of audio queries
US11948564B2 (en) 2018-06-15 2024-04-02 Sony Corporation Information processing device and information processing method
US11081114B2 (en) 2018-12-20 2021-08-03 Toyota Jidosha Kabushiki Kaisha Control method, voice interaction apparatus, voice recognition server, non-transitory storage medium, and control system
US11587554B2 (en) 2018-12-20 2023-02-21 Toyota Jidosha Kabushiki Kaisha Control apparatus, voice interaction apparatus, voice recognition server, and program
WO2021010056A1 (ja) 2019-07-17 2021-01-21 ホシデン株式会社 マイクユニット

Also Published As

Publication number Publication date
JP6614080B2 (ja) 2019-12-04

Similar Documents

Publication Publication Date Title
JP6614080B2 (ja) 音声対話システムおよび音声対話方法
US20200312329A1 (en) Performing speech recognition using a local language context including a set of words with descriptions in terms of components smaller than the words
JP5753869B2 (ja) 音声認識端末およびコンピュータ端末を用いる音声認識方法
US11900932B2 (en) Determining a system utterance with connective and content portions from a user utterance
US9484017B2 (en) Speech translation apparatus, speech translation method, and non-transitory computer readable medium thereof
JP6024675B2 (ja) 音声認識端末装置、音声認識システム、音声認識方法
KR101208166B1 (ko) 온라인 음성인식을 처리하는 음성인식 클라이언트 시스템, 음성인식 서버 시스템 및 음성인식 방법
WO2016165590A1 (zh) 语音翻译方法及装置
JP2020505643A (ja) 音声認識方法、電子機器、及びコンピュータ記憶媒体
JP2017107078A (ja) 音声対話方法、音声対話装置及び音声対話プログラム
US20170194000A1 (en) Speech recognition device and speech recognition method
EP3092639B1 (en) A methodology for enhanced voice search experience
JP2018045202A (ja) 音声対話システムおよび音声対話方法
TWI660341B (zh) 一種搜尋方法以及一種應用該方法的電子裝置
JP2020046478A (ja) ロボットシステム
JP6468258B2 (ja) 音声対話装置および音声対話方法
JP2023162265A (ja) テキストエコー消去
WO2021253779A1 (zh) 一种语音识别方法以及系统
KR102181583B1 (ko) 음성인식 교감형 로봇, 교감형 로봇 음성인식 시스템 및 그 방법
JP7055327B2 (ja) 会話収集装置、会話収集システム及び会話収集方法
JP6680125B2 (ja) ロボットおよび音声対話方法
CN114154500A (zh) 文本校对方法、装置、设备、介质和程序产品

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181023

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190925

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191008

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191021

R151 Written notification of patent or utility model registration

Ref document number: 6614080

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151