JP2014191030A - 音声認識端末およびコンピュータ端末を用いる音声認識方法 - Google Patents

音声認識端末およびコンピュータ端末を用いる音声認識方法 Download PDF

Info

Publication number
JP2014191030A
JP2014191030A JP2013063878A JP2013063878A JP2014191030A JP 2014191030 A JP2014191030 A JP 2014191030A JP 2013063878 A JP2013063878 A JP 2013063878A JP 2013063878 A JP2013063878 A JP 2013063878A JP 2014191030 A JP2014191030 A JP 2014191030A
Authority
JP
Japan
Prior art keywords
terminal
voice
server
recognition
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013063878A
Other languages
English (en)
Other versions
JP5753869B2 (ja
Inventor
Masaki Shibuya
正樹 渋谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuji Soft Inc
Original Assignee
Fuji Soft Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Soft Inc filed Critical Fuji Soft Inc
Priority to JP2013063878A priority Critical patent/JP5753869B2/ja
Publication of JP2014191030A publication Critical patent/JP2014191030A/ja
Application granted granted Critical
Publication of JP5753869B2 publication Critical patent/JP5753869B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

【課題】サーバおよび端末の音声認識の性質を使い分けて自然な対話を実現する。
【解決手段】
端末は、ユーザからの音声を検出して認識し(S11、S12)、サーバにも音声の特徴データなどを送信する(S13)。サーバは、端末から受領したデータの音声認識処理を行い(S22)、その認識結果から回答を生成して端末に送信する(S23)。端末は、必要がある場合は場つなぎ処理を適用して、不自然に間延びしないように第1応答文を生成して出力する(S14〜S16)。場つなぎ処理が不要な場合、端末は、端末側の認識結果に基づいて第1応答文を生成し出力する。端末は、サーバからの回答を受信すると、その回答を用いて第2応答文を生成し、出力する(S18)。
【選択図】図3

Description

本発明は、音声認識端末およびコンピュータ端末を用いる音声認識方法に関する。
多くの語彙を音声認識するシステムでは、大規模な辞書等の音声認識用データベースを必要とする。このため大規模なデータベースを搭載できない端末では、音声認識できる単語数などに制約がある。このような制約を取り除くため小規模な音声認識用データベースを端末に備え、大規模な音声認識用データベースをサーバに備え、通常の基本的な音声認識は端末で行い、大語彙の辞書を必要とする音声認識はサーバで行うサーバ・クライアントシステムがある。
特許文献1に記載の従来技術では、端末及びサーバのそれぞれの音声認識結果のうち、サーバへのアクセス可否、判定時間、認識精度等に基づいていずれか一方の認識結果を採用し、音声認識出力を生成する。
特許文献2に記載の従来技術では、音声の複雑度を判定し、複雑度に応じて端末側の音声認識手段を用いるか、サーバ側の音声認識手段を用いるかを決定する。
特許文献3に記載の従来技術では、音声認識部を端末とサーバのそれぞれに備える音声認識システムにおいて、端末側の言語モデル又は音響モデルをユーザに適応させる。サーバでは一般的な音声認識を担当し、端末ではユーザ用にカスタマイズされた音声認識を担当する。
特表2012−501480号公報 特開2007−41089号公報 特開2012−63537号公報
従来技術では、端末側とサーバ側との両方に音声認識部を備えて使い分けているが、端末とサーバとが通信を行うためにはある程度の時間を要するため、端末がサーバから音声認識結果を受け取るまで時間を要する。従って、サーバでの音声認識結果と端末での音声認識結果の両方を適宜使用する音声認識システムは、ユーザとの間で、不自然な間の空いた会話を行うことになる。
本発明は、上記の問題に鑑みてなされたもので、その目的は、サーバでの音声認識結果を利用して自然に対話できるようにした音声認識端末およびコンピュータ端末を用いる音声認識方法を提供することにある。
本発明の一つの観点に係る音声を認識して応答する音声認識端末は、音声入力部から入力される音声を認識する端末側音声認識部と、音声認識機能を有するサーバに音声に関するデータを送信し、サーバからサーバ側認識結果を受信する端末側通信制御部と、端末側音声認識部による端末側認識結果に基づき第1応答文を生成して音声出力部から出力し、サーバ側認識結果に基づき第2応答文を生成して音声出力部から出力する、端末側応答生成部と、を備える。
端末側応答生成部は、端末側音声認識部の認識結果のうち所定値以上の尤度を有するキーワードに基づいて第1応答文を生成してもよい。
端末側応答生成部は、予め設定される場つなぎ条件が成立した場合、第1応答文に関して所定の場つなぎ処理を適用してもよい。
場つなぎ条件が成立する場合とは、端末側音声認識部の認識結果に所定値以上の尤度を有するキーワードが存在しない場合、および/または、サーバ側認識結果を受信するまでの時間が所定の待ち時間以上の場合であってもよい。
所定の場つなぎ処理には、第1応答文を音声出力部から出力する時間を所定の基準出力時間よりも長くする処理、および/または、第1応答文の出力前、出力中、出力後のいずれか一つ以上のタイミングで所定の場つなぎ語を挿入して音声出力部から出力する処理が含まれてもよい。
音声認識端末および音声認識サーバを備える音声認識システムの構成を示すブロック図。 端末側の応答生成部のブロック図。 全体処理を示すフローチャート。 第2応答文を生成して出力する処理を示すフローチャート。 音声認識の例を示す説明図。 音声認識の他の例を示す説明図。 音声認識のさらに別の例を示す説明図。 音声認識のさらに他の例を示す説明図。
本実施形態では、以下に詳述する通り、サーバ・クライアント型の対話型音声認識システムにおいて、端末側の音声認識結果に基づく第1応答文を出力した後で、サーバ側の音声認識結果に基づく第2応答文を出力する。
第1応答文は端末側の音声認識結果に基づくため、対応可能な語彙は少ないものの、ユーザは待たせずに高速に対応できる。その後、処理可能な語彙の多いサーバ側での音声認識結果を受領して第2応答文を生成して出力すれば、広範囲の話題に対応でき、自然な対話を実現できる。
本実施形態で述べる対話型音声認識システムは、例えば、人型のコミュニケーションロボット、携帯情報端末(携帯電話、スマートフォン、音楽再生装置、デジタルカメラ、パーソナルコンピュータ等を含む)、テレビ、ラジオ、カラオケ装置などの各種電気製品、乗用車、トラック、建設機械などの各種車両などに広く適用できる。それら以外の装置、システムなどにも本実施例の音声認識システムを適用できる。
図1は、本実施例の音声認識端末1を備える音声認識システムの全体構成を示すブロック図である。音声認識システムは、例えば、音声認識端末(以下、端末)1と、端末1と通信ネットワーク2を介して接続される音声認識サーバ(以下、サーバ)3と、知識データベースを備える知識データベースサーバ4とを備える。図1では、端末1、サーバ3および知識データベースサーバ4を1つずつ示すが、複数ずつ設けても良い。なお、図中では便宜上「部」を省略して示す。
端末1は、コンピュータ端末として構成されており、例えば、音声入力部11、A/D変換部12、特徴ベクトル抽出部13、音声認識部14、通信制御部15、応答生成部16、音声合成部17、D/A変換部18、音声出力部19、複数のデータベース20〜22を備える。
音声入力部11は、音声を入力するための装置であり、例えば、マイクロフォンなどが該当する。また、メモリ装置などに記憶された音声データを入力できる構成でもよい。この場合、音声入力部11は、メモリ装置からデータを受け取るためのインターフェース回路を備える。
A/D変換部12は、アナログ信号として入力された音声信号をデジタル信号としての音声データに変換する。特徴ベクトル抽出部13は、音声データのうち予め設定される複数の箇所での特徴を抽出する。
「端末側音声認識部」としての音声認識部14は、音声データの特徴と音響モデルデータベース20と文法データベース21および辞書データベース22を用いて、入力された音声データを認識する。
音響モデルデータベース20は、テキスト(読み)とテキストを発音したときの波形とを対応づけて記憶したデータベースであり、どのような波形の音がどのような単語として認識されるかを定義している。文法データベース21は、単語の並べ方(文法)などを記憶したデータベースである。辞書データベース22は、通常の言葉とその通常の読みとを対応づけて記憶した辞書データベースであり、所定のキーワードを含む。ここで、所定キーワードとは、端末1が提供可能なサービス(詳しくは端末1と連携する他のシステムのサービス)を示すキーワードである。
「端末側通信制御部」としての通信制御部15は、通信ネットワーク2を介してサーバ3と通信するための機能であり、通信インターフェース部などを含む。通信制御部15は、特徴ベクトル抽出部13で抽出された特徴ベクトルおよび音声認識部14で認識された結果をサーバ3に向けて送信する。通信制御部15は、サーバ3での音声認識結果を含む応答を受信すると、受信した情報を応答生成部16に渡す。
「端末側応答生成部」としての応答生成部16は、音声認識部14による音声認識結果に基づいて第1応答文を生成すると共に、サーバ3での音声認識結果を用いて第2応答文を生成する。応答生成部16の詳細は図2で後述する。
音声合成部17は、波形データを組み合わせることで音声を合成する。D/A変換部18は、合成された音声データをアナログ信号に変換する。音声出力部19は、アナログ信号で入力された音声をスピーカー等の手段を介して出力する。
サーバ3は、例えば、通信制御部31、音声認識部32、意味解釈部33、回答生成部34、知識データベース検索部35、音響モデルデータベース36、文法データベース37、辞書データベース38を備える。
サーバ側の通信制御部31は、通信ネットワーク2を介して端末1と通信するための機能である。サーバ側の音声認識部32は、端末1から受信した音声データの特徴と音響モデルデータベース36と文法データベース37および辞書データベース38を用いて、端末1から受信した音声を認識する。音響モデルデータベース36と文法データベース37および辞書データベース38は、端末1側の各データベース20〜22で述べたと同様に構成されているが、サーバ3は端末1よりも多くの記憶領域を使用できるため、例えば辞書データベース38は多数の語彙を記憶している。
意味解釈部33は、音声認識部32の認識結果から意味を解釈する機能である。回答生成部34は、音声認識結果の意味解釈に適した回答を生成する。回答生成部34は、知識データベース検索部35を介して知識データベースサーバ4を検索することができ、その検索結果を回答に含めることができる。
図2を用いて装置1の応答生成部16の構成を説明する。応答生成部16は、例えば、意味解釈部161、信頼性判定部162、待ち時間予測部163、誤認識検出部164、第1応答文誤り検出部165、回答履歴部166、第1応答文生成部167、第2応答文生成部168、セレクタ169を備える。
意味解釈部161は、音声認識部14の認識結果に基づいて意味を解釈する。信頼性判定部162は、音声認識部14の認識結果の信頼性(尤度)が所定の基準値以上であるか判定する。
待ち時間予測部163は、サーバ3からの回答(音声認識結果を含む)を受信するまでの時間を予測する。待ち時間予測部163は、例えば通信履歴から通信所要時間(待ち時間)を予測することができる。
誤認識検出部164は、端末1の音声認識部14による認識結果(端末側認識結果)とサーバ3の音声認識部32による認識結果(サーバ側認識結果)とを比較し、端末側認識結果に誤りがあるか判定する。
第1応答文誤り検出部165は、誤認識検出部164が端末側認識結果に誤りを検出した場合に、端末側認識結果の誤りに起因する誤りを第1応答文の中から検出する。第1応答文誤り検出部165は、第1応答文の中に誤りを検出すると、その誤りについての情報を第2応答文生成部168に入力する。
回答履歴部166は、端末1がユーザに過去に回答した第1応答文および第2応答文の情報を所定時間分または所定回答分だけ記憶して管理する。
第1応答文生成部167は、端末側認識結果と信頼度(尤度)、意味の解釈結果、待ち時間に基づいて、ユーザの入力した音声に対応する第1応答文を生成する。第2応答文生成部168は、第1応答文と、サーバ3の回答と、第1応答文の誤り(もしも有る場合)とに基づいて、第2応答文を生成する。
第1応答文は、端末1からユーザに最初に出力される応答であり、端末側認識結果のうち信頼度の高いキーワードに基づいて生成される。第1応答文については、後述する場つなぎ処理により、発話速度を調整したり、所定の語句を挿入したりする。
第2応答文は、サーバ3の処理結果(回答とサーバ側認識結果)に基づいて生成され、第1応答文の後に出力される。第2応答文は、第1応答文と意味的に整合があり、第1応答文よりも情報量の多い文である。第1応答文に誤りが検出された場合、第2応答文は第1応答文の誤りを訂正する。
セレクタ169は、応答タイミングに合わせて、第1応答文生成部167または第2応答文生成部168のいずれか一つを選択する。セレクタ169は、最初に第1応答文生成部167を選択し、次に第2応答文生成部168を選択する。音声合成部17は、セレクタ169から入力される第1応答文または第2応答文に応じて、合成音声を生成する。生成された合成音声は音声出力部19から出力される。
図3を用いて全体処理を説明する。端末1の音声入力部11にユーザの音声が入力されると、その音声はA/D変換部12でデジタル信号に変換される。特徴ベクトル抽出部13は、デジタル化された音声の特徴を抽出する(S11)。
このようにして前処理が終了すると、音声認識部14は、入力された音声を音響モデルデータベース20と文法データベース21および辞書データベース22を用いて解析し、認識候補キーワードのうち最も尤度の高いキーワードを当てはめる(S12)。通信制御部15は、特徴ベクトル抽出部13で抽出された特徴と音声認識部14の認識結果とを、音声に関するデータとしてサーバ3に送信する(S13)。端末1がユーザに応答するよりも前に、サーバ3で音声認識するために必要なデータがサーバ3に送信される。
サーバ3の通信制御部31は、端末1からのデータを通信ネットワーク2を介して受信すると(S21)、その受信データ(音声の特徴、端末側認識結果)を音声認識部32に引き渡す。
サーバ3の音声認識部32は、各データベース36〜38を用いて、端末1から受領したデータを音声認識し、意味解釈部33は、音声認識部32の認識結果から、その意味内容を判定する(S22)。
サーバ3の回答生成部34は、サーバ側認識結果の意味内容に応じた応答を生成し、通信制御部31から通信ネットワーク2を介して端末1に送信させる(S23)。回答生成部34は、応答生成に際して必要な場合は、知識データベースサーバ4の保有する知識を検索することができる。例えば、ユーザの入力した音声(ユーザ音声)の認識結果が「〇〇について教えて」だった場合、回答生成部34は、「〇〇」について知識データベースサーバ4を検索し、その検索結果を応答に含めて端末1に送信することができる。
端末1の処理を説明する。端末1の通信制御部15がデータをサーバ3に送信した後(S13)、応答生成部16は場つなぎ処理が必要であるか判定する(S14)。
場つなぎ処理とは、第2応答文を出力するまでの間に、無言の期間が生じて不自然な対話になるのを防止するために、いわゆる時間稼ぎを行う処理である。つまり、場つなぎ処理とは、例えば、差し障りのない返事を挿入したり、第1応答文の出力時間を引き延ばしたりして、 第2応答文を出力できるようになるまでの時間を埋める処理である。
端末1の応答生成部16は、ステップS14において、所定の場つなぎ条件が成立したか判定する。所定の場つなぎ条件として、例えば下記の条件を挙げることができる。
(条件1)端末側認識結果に基づいて、認識した単語毎の尤度を調べ、所定値以上の尤度を持つ単語が所定数以上無かった場合は、場つなぎ処理が必要であると判定することができる。
(条件2)サーバ3からの回答の待ち時間が所定の待ち時間以上である場合、場つなぎ処理が必要であると判定することができる。
端末1の応答生成部16は、場つなぎ処理が必要であると判定すると(S14:YES)、所定の場つなぎ処理を実行し(S15)、第1応答文を生成して音声出力部19から出力させる(S16)。応答生成部16は、場つなぎ処理が不要であると判定した場合(S14:NO)、場つなぎ処理を行わずに、第1応答文を作成して出力する。
場つなぎ処理の内容を説明する。場つなぎ処理としては、例えば、下記の処理を挙げることができる。
(処理1)第1の処理として、発話速度を調整する処理がある。発話速度調整処理では、第1応答文を出力するときの速度(発話速度)を基準速度よりも遅くする。但し、あまりにも発話速度を遅くすると会話が不自然になるため、第2応答文の出力準備が完了するまでの時間を発話速度の調整だけで埋めることはできない場合がある。
(処理2)第2の処理として、場つなぎ語を適宜挿入する処理がある。場つなぎ語挿入処理では、所定の場つなぎ語を対話の状況に応じて適宜挿入する。場つなぎ語挿入処理は、例えば、以下のサブ処理を単独でまたは複数組み合わせて実行する。
(サブ処理1)例えば「あのー」、「えーと」、「うーん」、「すいませんが、もう一度おっしゃってください」等の、挿入しても特別な害が無く会話をあまり壊さない所定の語句を、単独でまたは組み合わせて挿入する。
(サブ処理2)予測した待ち時間から「あと〇〇秒お待ち下さい」等の、待ち時間を明示したお詫びの言葉を挿入する。
(サブ処理3)例えば「〇〇を教えて」、「□□について調べて」等の質問語とキーワードの組合せからなる音声が入力された場合、質問語(「教えて」、「調べて」)の尤度が高く、質問語以外に尤度の高いキーワードが存在しないならば、「僕にはちょっと難しいご質問なので専門家に聞いてみますね。少しお待ち下さい」のように、第2応答文の出力まで時間がかかることを詫びる。
なお、上記の「〇〇を教えて」等のユーザ音声は、特徴データとしてサーバ3に送信され、サーバ3においても音声認識される。サーバ3の回答生成部34は、対象キーワード「〇〇」について知識データベースサーバ4を検索し、その検索結果を含む回答を端末1に送信する。
(サブ処理4)回答履歴部166に保存されているデータを場つなぎ語の一種として再利用する。一例を説明する。ユーザの入力した音声が「北海道の帯広の産業を教えて」だったとする。端末1の辞書データベース22には「北海道」、「産業」、「教えて」は登録されているが、「帯広」という単語は登録されていないものとする。しかし、端末1は、過去にユーザから北海道の根室の産業について訊かれたことがあり、そのときの答え(過去の第2応答文)が回答履歴部166に記憶されていたとする。履歴に残っている答えが「根室の産業は、サケ、マス、サンマ、スケトウダラ、ホタテガイなどを主体とする漁業です」であったとする。
このような場合、ユーザから「北海道の帯広の産業を教えて」と入力されると、端末1は例えば、「専門家に聞いてみますので少々お待ち下さい。ちなみに北海道の根室の産業は、サケ、マス、サンマ、スケトウダラ、ホタテガイなどを主体とする漁業です」ととりあえず回答する(第1応答文の出力)。その後、端末1はサーバ3からの回答を得ると、「お待たせしてすいません。北海道の帯広の産業は、農業を核とした食品加工や地場資源を活用した製造業です」と回答する(第2応答文の出力)。
上記のように、場つなぎ処理が必要な場合は所定の場つなぎ処理を行って第1応答文を生成し(S14:YES→S15→S16)、場つなぎ処理が不要な場合は通常通りに第1応答文を生成する(S14:NO→S16)。
その後、端末1の応答生成部16は、サーバ3の回答を受信すると(S17)、サーバ3の回答に基づいて第2応答文を生成し、合成音声を生成して音声出力部19から出力する(S18)。
図4は、第2応答文を生成して出力する処理(図3のステップS18)の詳細な一例を示すフローチャートである。
応答生成部16は、サーバ3の回答に含まれるサーバ側認識結果と端末1の音声認識部14による認識結果とが異なるか判定する(S31)。応答生成部16は、サーバ側認識結果と端末側認識結果とが異なると判定した場合(S31:YES)、サーバ側認識結果を正しいものとして扱い、端末側認識結果の誤りを検出する(S32)。
応答生成部16は、サーバ3の回答(知識データベースの検索結果等を含んでもよい)を利用して、第1応答文と意味内容に整合性があり、かつ、第1応答文の誤りを訂正する第2応答文を生成する(S33)。
応答生成部16は、第2応答文を音声出力部19から出力する(S34)。ここで、第1応答文に含まれる間違いに起因して何か別の動作が実行されている場合、応答生成部16は、その間違った動作を取り消して正しい動作を実行するためのコマンドを出力することもできる。
例えば、間違った音楽が演奏されている場合はその演奏を停止して正しい音楽を演奏したり、間違ったランプが点灯している場合はそのランプを消灯して正しいランプを点灯したり、ロボットの顔が間違った表情をしている場合はその表情を取り消して正しい表情に戻したり、歩行やダンスなどの間違った動作をしている場合はその動作を取り消して正しい動作を行わせたりする。
サーバ側認識結果と端末側認識結果とが一致する場合(S31:NO)、応答生成部16は、ステップS32をスキップしてステップS33に移る。
図5は、音声認識の一例を示す説明図である。ユーザから「北海道の名所のお勧めは?」という音声が入力されたとする。端末1の音声認識部14は「北海道」と「お勧め」は所定値以上の尤度で認識することができたが、「名所」は所定値以上の尤度で認識することができなかったとする。信頼性の低い認識結果を「−−−」と示す。
端末1の応答生成部16は、尤度の高い認識結果「北海道」と「お勧め」だけに基づいて意味を解釈し、その結果として、「札幌、函館、根室はお勧めです」という第1応答文を出力する。
サーバ3は、端末1での音声認識処理と並列して独自に音声認識処理を実行しており、その結果ユーザの音声を「北海道」、「名所」、「お勧め」と全て正しく認識できたものとする。サーバ3の意味解釈部33はサーバ側認識結果の意味内容を解釈し、回答生成部34は、その意味内容に応じた回答(例えば「札幌の時計台、函館の夜景はお勧めです」)を生成する。
端末1の応答生成部16は、サーバ3からの回答に基づいて第2応答文を生成し、出力する。応答生成部16は、サーバ3の回答に含まれる文をそのまま利用できる場合は、回答に含まれる文を第2応答文としてそのまま出力することができる。また例えば、応答生成部16は、サーバ3の回答に含まれる文の先頭または末尾に他の単語を加えたり、他の単語に置き換えたりして第2応答文を生成することもできる。
図6は、通信混雑やサーバ3の過負荷などのために、端末1がサーバ3の回答を受信するまでに所定の待ち時間以上かかると判定され、場つなぎ処理が適用される場合の処理例である。
この場合、端末1は、第1応答文「札幌、函館、根室はお勧めです」の発話速度を通常速度よりも低下させ、ゆっくりと応答する。これにより、サーバ3の回答を受信するまでの時間を稼ぎ、できるだけ自然な対話を維持する。
図7は、端末1での音声認識結果の精度が低いために、場つなぎ処理が実行される場合の処理例を示す。端末1の音声認識部14は、ユーザ音声「北海道の名所のお勧めは?」のうち、「北海道」だけを所定値以上の尤度をもって認識でき、他の単語は所定値以上の尤度で認識できなかったとする。ここでは、所定値以上の尤度を持つ単語が1つしか存在しない場合、場つなぎ条件を満たすものとする。
端末1の応答生成部16は、「あのー」、「んー」などの当たり障りのない場つなぎ語を挿入したり、「北海道ですよね?」と聞き返したり、「北海道ねえ」と繰り返したり、「あとちょっと待ってくださいね」とお詫びしたりして、サーバ3の回答が届くまで時間を稼ぐ。
端末1の応答生成部16は、サーバ3の回答を受領すると場つなぎ処理を停止し、サーバ3の回答を利用して生成した第2応答文を出力する。図7に示す例では、サーバ3の回答に「名所なら支笏湖です」と含まれており、その文をそのまま第2応答文として利用する場合を示している。
図8は、端末側認識結果が誤っており、第1応答文の間違いを訂正する第2応答文を出力する例を示す。
ユーザ音声「北海道の名所のお勧めは?」を端末1の音声認識部14は、例えば「北海道」、「目医者」、「お勧め」と認識し、「名所」を「目医者」と間違って認識したものとする。端末1の辞書データベース22には、北海道の眼科医のリストなどは登録されていないため場つなぎ処理が適用され、「北海道の眼科を問い合わせますね」のような第1応答文を生成して出力する。
サーバ3の音声認識部32はユーザ音声を「北海道」、「名所」、「お勧め」と全て正しく認識する。サーバ3の回答生成部34は、その意味内容に応じた文「札幌の時計台、函館の夜景はお勧めです」を含む回答を生成して端末1に送信する。
端末1の応答生成部16は、サーバ3からの回答を受領すると、端末側認識結果に誤りがあったことを検出し、第1応答文の間違いを見つける。応答生成部16は、サーバ3の回答に含まれる文と、第1応答文の間違いを正すための文とを用いて、第2応答文(ごめんなさい。聞き間違えました。札幌の時計台、函館の夜景がお勧めです)を生成して、出力する。
このように構成される本実施例によれば、まず最初に端末側認識結果に基づく第1応答文を出力し、次にサーバ側認識結果に基づく第2応答文を出力する。これにより、本実施例では、第1応答文をもってユーザに即応できると共に、認識可能な語彙が豊富で、外部の知識データベースも利用できるサーバ3からの回答を用いて、適切な内容の第2応答文をユーザに提供できる。従って、応答文の信頼性は低いが高速に対応できる端末1と、応答文の信頼性は高いが処理時間のかかるサーバ3との技術的性質を使い分けて、ユーザとの対話を行うことができる。これにより、ユーザを待たせずに、ユーザが自由気ままに話す広い範囲の話題にも追従することができ、自然な対話を実現することができる。
本実施例によれば、端末1とサーバ3の間で通信遅延や認識結果の誤りが生じた場合、場つなぎ処理を実行したり、訂正処理を実行したりして、できるだけ自然な対話を行うことができる。従って、ユーザは違和感を覚えずに音声認識端末1を使用することができ、使い勝手が向上する。
本実施例では、端末側認識結果のうち所定値以上の尤度で認識できたキーワードに基づいて第1応答文を生成するため、端末1の応答生成部16は認識信頼性の高いキーワードのみに基づいて処理を実行すればよく、適切な第1応答文を短時間で生成し、出力することができる。
本実施例では、端末1の応答生成部16は、第1応答文に所定の場つなぎ語を適宜挿入して出力するため、不自然な間の多い会話、間延びした会話の発生を防止して、できるだけ自然な対話を維持することができる。
本実施例では、音声認識処理能力が相対的に低い端末1側で認識結果に誤りが生じた場合でも、音声認識処理能力が相対的に高いサーバ3での認識結果に基づいて、端末側認識結果の誤りに起因する第1応答文の間違いを訂正することができる。従って、間違った第1応答文を訂正せずに放置する場合に比べて、ユーザの心証を良くすることができ、ユーザとの会話が破綻するのを防止することができる。
なお、本発明は、上述した実施の形態に限定されない。当業者であれば、本発明の範囲内で、種々の追加や変更等を行うことができる。
1:音声認識端末、2:通信ネットワーク、3:サーバ、4:知識データベースサーバ、14:音声認識部、15:通信制御部、16:応答生成部、31:通信制御部、32:音声認識部、34:回答生成部、35:知識データベース検索部

Claims (9)

  1. 音声を認識して応答する音声認識端末であって、
    音声入力部から入力される音声を認識する端末側音声認識部と、
    音声認識機能を有するサーバに前記音声に関するデータを送信し、前記サーバからサーバ側認識結果を受信する端末側通信制御部と、
    前記端末側音声認識部による端末側認識結果に基づき第1応答文を生成して音声出力部から出力し、前記サーバ側認識結果に基づき第2応答文を生成して前記音声出力部から出力する、端末側応答生成部と、
    を備える
    音声認識端末。
  2. 前記端末側応答生成部は、前記端末側音声認識部の認識結果のうち所定値以上の尤度を有するキーワードに基づいて前記第1応答文を生成する、
    請求項1に記載の音声認識端末。
  3. 前記端末側応答生成部は、予め設定される場つなぎ条件が成立した場合、前記第1応答文に関して所定の場つなぎ処理を適用する、
    請求項1または2のいずれかに記載の音声認識端末。
  4. 前記場つなぎ条件が成立する場合とは、前記端末側音声認識部の認識結果に所定値以上の尤度を有するキーワードが存在しない場合、および/または、前記サーバ側認識結果を受信するまでの時間が所定の待ち時間以上の場合である、
    請求項3に記載の音声認識端末。
  5. 前記所定の場つなぎ処理には、前記第1応答文を前記音声出力部から出力する速度を所定の基準速度よりも遅くする処理、および/または、前記第1応答文の出力前、出力中、出力後のいずれか一つ以上のタイミングで所定の場つなぎ語を挿入して前記音声出力部から出力する処理が含まれる、
    請求項3または4のいずれかに記載の音声認識端末。
  6. 前記端末側応答生成部は、過去の応答履歴と前記サーバ側認識結果を用いて前記第2応答文を作成することができる、
    請求項1〜5のいずれかに記載の音声認識端末。
  7. 前記端末側応答生成部は、前記サーバ側認識結果と前記端末側認識結果とが異なる場合は前記サーバ側認識結果が正しいものとして扱い、前記第1応答文の誤りを修正するための文を含めて前記第2応答文を生成する、
    請求項1〜6のいずれかに記載の音声認識端末。
  8. コンピュータ端末を用いる音声認識方法であって、
    前記コンピュータ端末に接続される音声入力部から入力される音声を前記コンピュータ端末内の音声認識部で認識するステップと、
    音声認識機能を有するサーバに前記音声に関するデータを送信するステップと、
    前記サーバからサーバ側認識結果を受信するステップと、
    前記コンピュータ端末内の音声認識部による端末側認識結果に基づき第1応答文を生成して音声出力部から出力するステップと、
    前記サーバから受信した前記サーバ側認識結果に基づき第2応答文を生成して前記音声出力部から出力するステップと、
    をそれぞれ実行するコンピュータ端末を用いる音声認識方法。
  9. コンピュータを音声認識端末として機能させるコンピュータプログラムであって、
    前記コンピュータに接続される音声入力部から入力される音声を認識する端末側音声認識部と、
    音声認識機能を有するサーバに前記音声に関するデータを送信し、前記サーバからサーバ側認識結果を受信する端末側通信制御部と、
    前記端末側音声認識部による端末側認識結果に基づき第1応答文を生成して音声出力部から出力し、前記サーバ側認識結果に基づき第2応答文を生成して前記音声出力部から出力する端末側応答生成部と、
    を前記コンピュータ上に実現するためのコンピュータプログラム。
JP2013063878A 2013-03-26 2013-03-26 音声認識端末およびコンピュータ端末を用いる音声認識方法 Active JP5753869B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013063878A JP5753869B2 (ja) 2013-03-26 2013-03-26 音声認識端末およびコンピュータ端末を用いる音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013063878A JP5753869B2 (ja) 2013-03-26 2013-03-26 音声認識端末およびコンピュータ端末を用いる音声認識方法

Publications (2)

Publication Number Publication Date
JP2014191030A true JP2014191030A (ja) 2014-10-06
JP5753869B2 JP5753869B2 (ja) 2015-07-22

Family

ID=51837363

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013063878A Active JP5753869B2 (ja) 2013-03-26 2013-03-26 音声認識端末およびコンピュータ端末を用いる音声認識方法

Country Status (1)

Country Link
JP (1) JP5753869B2 (ja)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015135419A (ja) * 2014-01-17 2015-07-27 株式会社デンソー 音声認識端末装置、音声認識システム、音声認識方法
JP2015135420A (ja) * 2014-01-17 2015-07-27 株式会社デンソー 音声認識端末装置、音声認識システム、音声認識方法
WO2016052164A1 (ja) * 2014-09-30 2016-04-07 シャープ株式会社 対話装置
JP2016090681A (ja) * 2014-10-31 2016-05-23 マツダ株式会社 車両用音声対話装置
JP2016126294A (ja) * 2015-01-08 2016-07-11 シャープ株式会社 音声対話制御装置、音声対話制御装置の制御方法、および音声対話装置
WO2017006766A1 (ja) * 2015-07-09 2017-01-12 ヤマハ株式会社 音声対話方法および音声対話装置
JP2017049471A (ja) * 2015-09-03 2017-03-09 カシオ計算機株式会社 対話制御装置、対話制御方法及びプログラム
WO2017200078A1 (ja) * 2016-05-20 2017-11-23 日本電信電話株式会社 対話方法、対話システム、対話装置、およびプログラム
CN107995249A (zh) * 2016-10-27 2018-05-04 中兴通讯股份有限公司 一种语音播报的方法和装置
JP2018124425A (ja) * 2017-02-01 2018-08-09 ファーハット ロボティクス エービー 音声対話装置及び音声対話方法
EP3370230A1 (en) 2017-03-03 2018-09-05 Kyoto University Voice interaction apparatus, its processing method, and program
JP2019053473A (ja) * 2017-09-14 2019-04-04 日本電信電話株式会社 擬似応答送信装置、相づち表現学習装置、情報端末装置、通信システム、擬似応答送信方法、相づち表現学習方法および擬似応答送信プログラム
CN110021294A (zh) * 2018-01-09 2019-07-16 深圳市优必选科技有限公司 机器人的控制方法、装置以及存储装置
WO2019138477A1 (ja) * 2018-01-10 2019-07-18 株式会社ウフル スマートスピーカー、スマートスピーカーの制御方法、及びプログラム
JP2019124855A (ja) * 2018-01-18 2019-07-25 株式会社ユピテル 装置及びプログラム等
JP2019144831A (ja) * 2018-02-20 2019-08-29 トヨタ自動車株式会社 情報処理装置および情報処理方法
JP2019527392A (ja) * 2016-06-27 2019-09-26 グーグル エルエルシー デジタルアシスタント要求の非同期処理
WO2020175384A1 (en) * 2019-02-25 2020-09-03 Clarion Co., Ltd. Hybrid voice interaction system and hybrid voice interaction method
WO2020217318A1 (ja) * 2019-04-23 2020-10-29 三菱電機株式会社 機器制御装置、および、機器制御方法
US11538474B2 (en) 2019-09-19 2022-12-27 Samsung Electronics Co., Ltd. Electronic device and method for controlling the electronic device thereof
JP2023505917A (ja) * 2020-11-20 2023-02-14 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 音声インタラクション方法、装置、機器、及びコンピュータ記憶媒体
JP7451033B2 (ja) 2020-03-06 2024-03-18 アルパイン株式会社 データ処理システム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108428448A (zh) * 2017-02-13 2018-08-21 芋头科技(杭州)有限公司 一种语音端点检测方法及语音识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002318132A (ja) * 2001-04-23 2002-10-31 Hitachi Ltd 音声対話型ナビゲーションシステムおよび移動端末装置および音声対話サーバ
JP2010085536A (ja) * 2008-09-30 2010-04-15 Fyuutorekku:Kk 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム
JP2012137777A (ja) * 1999-10-05 2012-07-19 Research In Motion Ltd 出力オーディオ信号が生ずる間に入力音声信号を処理する方法および装置
JP2012168349A (ja) * 2011-02-15 2012-09-06 Alpine Electronics Inc 音声認識システムおよびこれを用いた検索システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012137777A (ja) * 1999-10-05 2012-07-19 Research In Motion Ltd 出力オーディオ信号が生ずる間に入力音声信号を処理する方法および装置
JP2002318132A (ja) * 2001-04-23 2002-10-31 Hitachi Ltd 音声対話型ナビゲーションシステムおよび移動端末装置および音声対話サーバ
JP2010085536A (ja) * 2008-09-30 2010-04-15 Fyuutorekku:Kk 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム
JP2012168349A (ja) * 2011-02-15 2012-09-06 Alpine Electronics Inc 音声認識システムおよびこれを用いた検索システム

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015135419A (ja) * 2014-01-17 2015-07-27 株式会社デンソー 音声認識端末装置、音声認識システム、音声認識方法
JP2015135420A (ja) * 2014-01-17 2015-07-27 株式会社デンソー 音声認識端末装置、音声認識システム、音声認識方法
US9349371B2 (en) 2014-01-17 2016-05-24 Denso Corporation Speech recognition terminal device, speech recognition system, and speech recognition method
US9349370B2 (en) 2014-01-17 2016-05-24 Denso Corporation Speech recognition terminal device, speech recognition system, and speech recognition method
WO2016052164A1 (ja) * 2014-09-30 2016-04-07 シャープ株式会社 対話装置
JP2016090681A (ja) * 2014-10-31 2016-05-23 マツダ株式会社 車両用音声対話装置
JP2016126294A (ja) * 2015-01-08 2016-07-11 シャープ株式会社 音声対話制御装置、音声対話制御装置の制御方法、および音声対話装置
JP2017021125A (ja) * 2015-07-09 2017-01-26 ヤマハ株式会社 音声対話装置
WO2017006766A1 (ja) * 2015-07-09 2017-01-12 ヤマハ株式会社 音声対話方法および音声対話装置
JP2017049471A (ja) * 2015-09-03 2017-03-09 カシオ計算機株式会社 対話制御装置、対話制御方法及びプログラム
WO2017200078A1 (ja) * 2016-05-20 2017-11-23 日本電信電話株式会社 対話方法、対話システム、対話装置、およびプログラム
US11232789B2 (en) 2016-05-20 2022-01-25 Nippon Telegraph And Telephone Corporation Dialogue establishing utterances without content words
JPWO2017200078A1 (ja) * 2016-05-20 2019-03-28 日本電信電話株式会社 対話方法、対話システム、対話装置、およびプログラム
US10777204B2 (en) 2016-06-27 2020-09-15 Google Llc Asynchronous processing of user requests
JP2019527392A (ja) * 2016-06-27 2019-09-26 グーグル エルエルシー デジタルアシスタント要求の非同期処理
US11302333B2 (en) 2016-06-27 2022-04-12 Google Llc Asynchronous processing of user requests
CN107995249A (zh) * 2016-10-27 2018-05-04 中兴通讯股份有限公司 一种语音播报的方法和装置
JP2018124425A (ja) * 2017-02-01 2018-08-09 ファーハット ロボティクス エービー 音声対話装置及び音声対話方法
CN108630203A (zh) * 2017-03-03 2018-10-09 国立大学法人京都大学 语音交互设备及其处理方法和程序
CN108630203B (zh) * 2017-03-03 2022-12-20 国立大学法人京都大学 语音交互设备及其处理方法和程序
US20180253280A1 (en) 2017-03-03 2018-09-06 Toyota Jidosha Kabushiki Kaisha Voice interaction apparatus, its processing method, and program
EP3370230A1 (en) 2017-03-03 2018-09-05 Kyoto University Voice interaction apparatus, its processing method, and program
US10452352B2 (en) 2017-03-03 2019-10-22 Toyota Jidosha Kabushiki Kaisha Voice interaction apparatus, its processing method, and program
JP2019053473A (ja) * 2017-09-14 2019-04-04 日本電信電話株式会社 擬似応答送信装置、相づち表現学習装置、情報端末装置、通信システム、擬似応答送信方法、相づち表現学習方法および擬似応答送信プログラム
CN110021294A (zh) * 2018-01-09 2019-07-16 深圳市优必选科技有限公司 机器人的控制方法、装置以及存储装置
WO2019138477A1 (ja) * 2018-01-10 2019-07-18 株式会社ウフル スマートスピーカー、スマートスピーカーの制御方法、及びプログラム
JP2019124855A (ja) * 2018-01-18 2019-07-25 株式会社ユピテル 装置及びプログラム等
JP7130201B2 (ja) 2018-01-18 2022-09-05 株式会社ユピテル 装置及びプログラム等
JP2019144831A (ja) * 2018-02-20 2019-08-29 トヨタ自動車株式会社 情報処理装置および情報処理方法
US11269936B2 (en) 2018-02-20 2022-03-08 Toyota Jidosha Kabushiki Kaisha Information processing device and information processing method
WO2020175384A1 (en) * 2019-02-25 2020-09-03 Clarion Co., Ltd. Hybrid voice interaction system and hybrid voice interaction method
US20220148574A1 (en) * 2019-02-25 2022-05-12 Faurecia Clarion Electronics Co., Ltd. Hybrid voice interaction system and hybrid voice interaction method
JPWO2020217318A1 (ja) * 2019-04-23 2021-10-14 三菱電機株式会社 機器制御装置、および、機器制御方法
CN113711307A (zh) * 2019-04-23 2021-11-26 三菱电机株式会社 设备控制装置及设备控制方法
WO2020217318A1 (ja) * 2019-04-23 2020-10-29 三菱電機株式会社 機器制御装置、および、機器制御方法
CN113711307B (zh) * 2019-04-23 2023-06-27 三菱电机株式会社 设备控制装置及设备控制方法
US11538474B2 (en) 2019-09-19 2022-12-27 Samsung Electronics Co., Ltd. Electronic device and method for controlling the electronic device thereof
JP7451033B2 (ja) 2020-03-06 2024-03-18 アルパイン株式会社 データ処理システム
JP2023505917A (ja) * 2020-11-20 2023-02-14 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 音声インタラクション方法、装置、機器、及びコンピュータ記憶媒体

Also Published As

Publication number Publication date
JP5753869B2 (ja) 2015-07-22

Similar Documents

Publication Publication Date Title
JP5753869B2 (ja) 音声認識端末およびコンピュータ端末を用いる音声認識方法
JP6465077B2 (ja) 音声対話装置および音声対話方法
US20210264916A1 (en) Electronic device for generating personalized asr model and method for operating same
KR101211796B1 (ko) 외국어 학습 장치 및 그 제공 방법
US20170103757A1 (en) Speech interaction apparatus and method
JP7230806B2 (ja) 情報処理装置、及び情報処理方法
US20190147851A1 (en) Information processing apparatus, information processing system, information processing method, and storage medium which stores information processing program therein
JP2018146715A (ja) 音声対話装置、その処理方法及びプログラム
JP6715943B2 (ja) 対話装置、対話装置の制御方法、および制御プログラム
JP6625772B2 (ja) 検索方法及びそれを用いた電子機器
JP6614080B2 (ja) 音声対話システムおよび音声対話方法
CN114223029A (zh) 支持装置进行语音识别的服务器及服务器的操作方法
CN113782030B (zh) 基于多模态语音识别结果纠错方法及相关设备
KR20190074508A (ko) 챗봇을 위한 대화 모델의 데이터 크라우드소싱 방법
JP6468258B2 (ja) 音声対話装置および音声対話方法
JP6904225B2 (ja) 情報処理装置
US20170221481A1 (en) Data structure, interactive voice response device, and electronic device
US20220254346A1 (en) Interaction device
KR20210123545A (ko) 사용자 피드백 기반 대화 서비스 제공 방법 및 장치
JP6306447B2 (ja) 複数の異なる対話制御部を同時に用いて応答文を再生する端末、プログラム及びシステム
KR20210029354A (ko) 전자장치 및 그 제어방법
JP5818753B2 (ja) 音声対話システム及び音声対話方法
KR20210059367A (ko) 음성 입력 처리 방법 및 이를 지원하는 전자 장치
KR20210044606A (ko) 웨이크업 모델 생성 방법 및 이를 위한 전자 장치
CN113823263A (zh) 一种语音识别方法以及系统

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20141202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150224

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20150304

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150512

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150525

R150 Certificate of patent or registration of utility model

Ref document number: 5753869

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250