JP2005181386A - 音声対話処理装置及び音声対話処理方法並びにプログラム - Google Patents

音声対話処理装置及び音声対話処理方法並びにプログラム Download PDF

Info

Publication number
JP2005181386A
JP2005181386A JP2003417909A JP2003417909A JP2005181386A JP 2005181386 A JP2005181386 A JP 2005181386A JP 2003417909 A JP2003417909 A JP 2003417909A JP 2003417909 A JP2003417909 A JP 2003417909A JP 2005181386 A JP2005181386 A JP 2005181386A
Authority
JP
Japan
Prior art keywords
reliability
semantic item
dialogue
correction
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003417909A
Other languages
English (en)
Inventor
Koichi Tanigaki
宏一 谷垣
Keisuke Watanabe
圭輔 渡邉
Katsushi Suzuki
克志 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2003417909A priority Critical patent/JP2005181386A/ja
Publication of JP2005181386A publication Critical patent/JP2005181386A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】従来の入力音声の抽出情報信頼度から抽出誤りを検出し確認動作等を低減する装置は、音声認識尤度だけで信頼度を求めるため、システム設計時と条件が異なると適切な信頼度計算での誤り特定ができない。
【解決手段】入力音声に対し音声認識処理と意味解析処理を行い、意味項目候補とその尤度を出力する音声理解部と、意味項目の信頼度を計算する信頼度計算部と、意味項目信頼度補正用の補正パラメータと、信頼度から意味項目の補正信頼度を計算する信頼度補正部と、補正信頼度を用いて、意味項目の正誤をユーザに確認するか否かを決定してユーザへの応答文を出力し、更にユーザとのやり取りを対話履歴データとして対話履歴記憶部に書き込む対話管理部と、対話履歴データを用いて、前記補正パラメータを更新する補正パラメータ調整部を備える。
【選択図】図1

Description

本発明は、マン・マシン・インタフェースとして音声認識を利用する対話処理装置に係り、特に利用者の入力音声から抽出した情報の信頼度を用いて、情報の抽出誤りを高精度に検出することにより、対話装置の誤動作や冗長な確認動作を低減し、利用者の利便性を向上させる音声対話処理装置及び音声対話処理方法並びに該音声対話処理をコンピュータに実行させるプログラムに関するものである。
ユーザと音声で対話を行い、データベース検索やチケット予約などのタスクを行う音声対話システムでは、日にちや料金などタスクに必要な情報(以下、意味項目と呼ぶ)を、ユーザの入力音声から抽出する必要がある。
図2は、ホテル予約をタスクとする音声対話システムが抽出した意味項目の例である。こうした意味項目の抽出は、入力音声を文字列に変換する音声認識処理を介して実現されるが、音声認識結果には誤りが避けられないため、意味項目を常に正しく抽出することはできない。同図の例では、入力音声において「東横イン横浜関内」の部分を誤認識したため、ユーザの意図に反し、誤った意味項目「人数=5」「場所=横浜」が抽出されている。
こうした意味項目の誤りをそのまま受理してしまうと、システムとユーザの間で誤解が生じ、タスク達成に重大な支障を来たすことがある。そこで一般に音声対話システムでは、抽出した意味項目を復唱してシステムの理解状態をユーザに開示することにより、システムの誤りをユーザが訂正するように誘導する。あるいは、システムが正しく理解していることをユーザに伝えることで、ユーザの不安感をなくす。これを確認対話と呼ぶ。
確認対話には大別して2種類の方法がある。1つは間接確認と呼ばれる方法である。これは例えば図2の意味項目を抽出したとき、「横浜で5人で1泊ご利用できる宿泊施設は、○○ホテル、××ホテルなど20件あります。料金のご希望はございますか?」などのように、検索結果の通知や、ユーザの次入力の誘導などを行う応答文に埋め込んで、抽出した意味項目を復唱する方法である。もう1つは直接確認と呼ばれる方法である。システムは「人数は5人でよろしいですか?」「場所は横浜でよろしいですか?」などの質問をしてユーザの肯定や否定を明示的に求める。否定された場合には、更にユーザの訂正や再発声を誘導する。
これらの確認方法には、次のような性質がある。
間接確認を図3に示すように、正しく抽出した意味項目に適用した場合、円滑さをあまり損なわずに本来のタスクを遂行するための対話を進行できる。しかし、図4に示すように、誤った意味項目に適用した場合、ユーザは意図しない検索結果などを聞かされた後、誤りを訂正して検索などをやり直すことになるため、ユーザにとって煩わしい対話となる。
一方、図6に示すように、誤って抽出した意味項目に直接確認を適用した場合、ユーザは訂正のための対話に即座かつ自然に入れるため、間接確認に比べて煩わしさは小さくて済む。しかし、図5に示すように、正しく抽出した意味項目に適用した場合、タスクの進行が遮られるため、ユーザにとって煩わしい対話となってしまう。
したがって、利便性の高い音声対話システムを実現するためには、一律にいずれかの確認方法を適用するのではなく、意味項目の正誤を推定し、確認方法を切り替える必要がある。
(従来方式1)
そこで従来、抽出した意味項目の確からしさを表わす信頼度を求め、信頼度に応じて確認対話の制御を行う音声対話方式として、下記文献1に示された方式がある(以後、従来方式1と呼ぶ)。
文献1: "Incorporating confidence measures in the Dutch train timetable information system developed in ARISE project" (G。 Bouwman, J. Sturm, and L. Boves,Proc. ICASSP99, pp. 493-496, 1999)
図34は、この従来方式1を適用した音声対話処理装置の一構成例を示すブロック図である。以下、同図を用いて、従来方式1の実施の形態について説明する。
音声理解部10はユーザの入力音声を受け取り、音声認識処理と意味理解処理を行うことにより、尤もらしい意味項目の候補を、予め設定した候補数N個生成し、意味項目候補データとして信頼度計算部20に送る。図2に示す入力音声から生成される意味項目候補データの例を図7に示す。図7において、人数=5、場所=横浜、などの意味項目は誤りであり、音声認識誤りに起因して抽出されたものである。図中の尤度は、音声認識処理により各認識候補に付与されたスコアを表している。
信頼度計算部20は、意味項目候補データを受け取り、順位1位の意味項目候補に含まれる各意味項目の信頼度を計算する。この計算法では、或る意味項目の信頼度は、その意味項目を含む候補の数が多いほど、更に、それら候補の尤度が高いほど、高い値となる。具体的には以下のようにして計算する。まず、意味項目候補の尤度を正規化する。第i位の候補の尤度をLiとすると、 正規化後の尤度(事後確率)Piは数1より求める。式中、ZはN個の候補に対しPiの総和が1となるように導入する正規化係数であり、数2により与える。また、αは予め定めた重み係数(定数)である。式中のNは候補数を表す。
Figure 2005181386
Figure 2005181386
然る後、数3により各意味項目tの信頼度CMtを求める。式中、Tiは、第i位の仮説となる意味項目候補を表す。すなわち、意味項目tの信頼度CMtは、意味項目tを含む候補Tiの尤度和により与える。
Figure 2005181386
この結果、図8に例示するような意味項目の信頼度データが得られる。これを対話管理部30に送る。
対話管理部30では、意味項目の信頼度を、予め設定した閾値0.5と比較する。信頼度が閾値より高い意味項目は正しい可能性が高いとして間接確認を行う。一方、閾値より低い意味項目は誤りの可能性が高いとして、正誤をユーザに直接確認するための応答文を生成する。例えば、図8の信頼度データに対しては、意味項目「場所=横浜」の正誤を直接確認するため、応答文として「場所は横浜でよろしいですか?」を生成する。これを受けたユーザが「はい」「そうです」などを入力した場合には該意味項目を受理するが、「いいえ」「違います」などを入力した場合には、該意味項目を棄却して「もう一度発声してください」などの応答文を生成する。生成された応答文は、音声合成部40で出力音声に変換され、ユーザに出力される。
このように構成された音声対話処理装置は、抽出された意味項目のうち、誤りの可能性が高い意味項目に絞り込んで直接確認を行うため、一律に直接確認または間接確認を行う方法と比べて円滑に対話を進めることが可能となる。
また、更に高い精度で意味項目の誤りを特定する従来方式として、特開2003-29782号公報に示された音声対話方式(以後、従来方式2と呼ぶ)がある。
図35は、この従来方式2を適用した音声対話処理装置の一構成例を示すブロック図である。以下、同図を用いて従来方式2の実施の形態について説明する。なお、同図中、図34と同じ番号を付与した構成要素は従来方式1のものと同等であるため、以下では説明を省略する。
関連度計算部50は、音声理解部10が出力する前記意味項目候補データを受け取り、意味項目間の関連度を計算する。或る2つの意味項目の関連度は、両者を共通に含む候補の数が多いほど、更に、それら候補の尤度が高いほど、高い値となる。例えば図7の意味項目候補データにおいて、意味項目「場所=横浜」を含む候補は順位が1位、4位の候補であり、「人数=5」を含む候補(1位、3位、4位)とほぼ共通するから、両意味項目の関連度は高い。このように関連度が高い2つの意味項目は、候補中での出現が互いに強く依存しているため、一方の意味項目が誤りであった場合、他方も同様に誤りである可能性が高い。
対話管理部31は、関連度計算部50と信頼度計算部20の結果を受け取り、関連度計算部50により互いに関連度の高い意味項目が見つかり、かつ、信頼度計算部20より一方の意味項目の信頼度が予め設定した閾値0.5より低かったとき、他方の意味項目の信頼度が閾値0.5以上であっても、同時に正誤を確認する。すなわち、「人数は5人で、場所は横浜でよろしいですか?」のような応答文を生成する。
補正信頼度計算部60は、対話管理部31から前記意味項目候補データ、および、既にユーザに確認を行った結果から誤りが確定している意味項目のリストとを受け取り、まだ確認していない意味項目の信頼度を再計算する。例えば図8において、まず、信頼度が閾値0.5より低い意味項目「場所=横浜」の正誤をユーザに確認した結果、ユーザが否定したため、誤りであることが確定したとする。このとき、補正信頼度計算部60は、誤りが確定した意味項目「場所=横浜」を含まない候補だけを用いて信頼度を再計算し、補正信頼度とする。その結果、「場所=横浜」とほぼ同じ候補だけに出現していた意味項目「人数=5」に対し、低い補正信頼度が得られる。対話管理部31は、補正信頼度が低い「人数=5」の正誤を確認するため、「では人数は5人でよろしいですか?」と応答文を生成する。
このように構成された音声対話処理装置は、意味項目の候補群中での共起情報を利用して、従来方式1では検出できない誤り意味項目を検出することにより、誤りの確認漏れを防ぎ、誤りをそのまま受理して誤動作することを防ぐことが可能となる。
特開2003-29782号公報 G.Bouwman,J.Sturm,and L. Boves,"Incorporating confidence measures in the Dutch train timetable information system developed in ARISE project" Proc.ICASSP99,1999,pp.493-496
しかし、上述した従来方式1、2では次のような課題がある。まず、従来方式1は、音声認識尤度だけを用いて信頼度を求める方式である。このため、ユーザの声質や発話内容、背景雑音、回線ノイズなどの条件がシステム設計時に想定した条件と異なる場合には、適切な信頼度を計算して誤りを特定することができず、確認や訂正のためのやり取りが増え、ユーザにとって煩わしい対話になるという問題がある。
また、従来方式2では、或る発話から抽出した複数の意味項目が誤りであった場合に限り、誤り意味項目どうしの共起情報を利用して誤り検出率を高めることが可能となる。逆に、発話から抽出した意味項目が1つだけ誤っている場合には、共起情報を利用した検出はできず、音声認識尤度だけを用いた信頼度で誤りを検出することになるため、従来方式1と同一の問題が生じる。
本発明は、上述のような課題を解決するためになされたもので、音声認識尤度だけに基づく信頼度や、意味項目の共起からは検出できない誤りを検出することにより、不必要な確認や訂正のためのやり取りを減らし、利用者の利便性を向上させる音声対話処理装置を得ることを目的とする。
本発明に係る音声対話処理装置は、入力音声に対し音声認識処理と意味解析処理を行い、意味項目候補とその尤度を出力する音声理解部と、
意味項目候補とその尤度から意味項目の信頼度を計算する信頼度計算部と、
意味項目の信頼度を補正するための補正パラメータを記憶する補正パラメータ記憶部と、
信頼度と補正パラメータから、意味項目の補正信頼度を計算する信頼度補正部と、
入力された個々の意味項目に対し、補正信頼度を用いて、意味項目の正誤をユーザに確認するか否かを決定してユーザへの応答文を出力し、更にユーザとのやり取りを対話履歴データとして対話履歴記憶部に書き込む対話管理部と、
対話履歴データを用いて、前記補正パラメータ記憶部に記憶された補正パラメータを更新する補正パラメータ調整部とを備える。
また、本発明に係る音声対話処理方法は、入力音声に対し音声認識処理と意味理解処理を行い、意味項目候補の抽出とその尤度計算を行う音声理解ステップと、
意味項目候補とその尤度から意味項目の信頼度を計算する信頼度計算ステップと、
信頼度と補正パラメータから、意味項目の補正信頼度を計算する信頼度補正ステップと、
入力された個々の意味項目に対し、補正信頼度を用いて、意味項目の正誤をユーザに確認するか否かを決定してユーザへの応答文を生成し、更にユーザとのやり取りを対話履歴データとして生成する対話管理ステップと、
対話履歴データを用いて、補正パラメータを更新する補正パラメータ調整ステップと
を備える。
また、本発明に係るプログラムは、入力音声に対し音声認識処理と意味解析処理を行い、意味項目候補とその尤度を出力する音声理解手段、
意味項目候補とその尤度から意味項目の信頼度を計算する信頼度計算手段、
意味項目の信頼度を補正するための補正パラメータを記憶する補正パラメータ記憶部からの補正パラメータと、前記信頼度計算手段からの信頼度とから、意味項目の補正信頼度を計算する信頼度補正手段、
入力された個々の意味項目に対し、前記信頼度補正手段からの補正信頼度を用いて、意味項目の正誤をユーザに確認するか否かを決定してユーザへの応答文を出力し、更にユーザとのやり取りを対話履歴データとして対話履歴記憶部に書き込む対話管理手段、
対話履歴記憶部に書き込まれた対話履歴データを用いて、前記補正パラメータ記憶部に記憶された補正パラメータを更新する補正パラメータ調整手段としてコンピュータを機能させる。
本発明に係る音声対話処理装置は、対話管理部による確認対話の結果を用いて意味項目の正誤を判定し、意味項目の信頼度を補正するための補正パラメータを更新するため、信頼度と実際の正誤のズレを最小化するよう補正するでき、従来方式である音声認識尤度だけに基づく信頼度や、意味項目の共起では検出できない誤りを検出して確認を行うことが可能であり、不必要な確認や訂正のためのやり取りを減らし、利用者の利便性を向上させる音声対話処理装置を得ることできる。
実施の形態1.
図1は、本発明の一実施の形態として、本発明を適用したホテルの検索と予約を行う音声対話処理装置の一構成例を示すブロック図である。
図において、10は(概要)
入力音声に対し、音声認識・理解処理を行い意味項目候補データを生成する音声理解部、20は意味項目候補データを受け取り、その順位1位の意味項目候補に含まれる各意味項目の信頼度を計算し、信頼度データを得る信頼度計算部、90は意味項目の信頼度を補正するための補正パラメータを記憶する補正パラメータ記憶部、61は信頼度データを受け取り、前記補正パラメータ記憶部90が保持する補正パラメータを参照して、各意味項目の補正信頼度を計算する信頼度補正部、71は後述の対話管理部33により対話履歴が更新されたときその内容71を保管する対話履歴記憶部、80は同じく対話履歴が更新されたとき、対話履歴記憶部71の内容71を参照し、補正パラメータ記憶部90に記憶された補正パラメータを再計算し、更新する補正パラメータ調整部、110は名称、住所、最寄り駅、料金等のホテル情報を保持するホテルデータベース、33は信頼度補正部61から補正信頼度データを受け取り、対話状況記憶部100の対話状況データと、ホテルデータベース110を参照して、ユーザに出力する応答文を生成すると共に、対話状況記憶部100の対話状況データと対話履歴記憶部71の対話履歴データの更新を行なう対話管理部、100は対話管理部33より書き込まれた対話状況データを保持する対話状況記憶部、40は対話管理部33からの応答文を、音声に変換してユーザに出力する音声合成部であり、音声対話処理装置は以上の要素から構成される。
まず、このように構成された該音声対話処理装置の動作概略を、図9を参照して説明する。同図は、該音声対話処理装置(システム)とユーザとの対話例を示すものである。S1、S2、などはシステムの出力した応答文である。U1、U2、などはユーザの入力音声である。ただし、誤認識が生じるため、認識結果と入力音声は必ずしも一致しない。”>>”で始める行は、音声理解部10において尤度1位で得られる意味項目、および、信頼度計算部20で得られる信頼度(CM)、信頼度補正部61で得られる補正信頼度(RCM)を示している。
意味項目の補正信頼度は、信頼度を元に計算する。計算に用いるパラメータは、日にち、人数など、意味項目の属性ごとに用意されている。これらのパラメータは、システムが確認を行った結果に基づいて設定・更新されるようになっている。
確認は、直接確認、間接確認のいずれかにより行う。システムは、補正信頼度を予め設定された閾値θ=0.40と比較し、θより低いときには意味項目が誤っている可能性が高いとして、S1、S9のように直接確認を行う。補正信頼度がθ以上のときはS3、S5、S7のように間接確認を行う。
補正信頼度計算のパラメータ更新は次のようにして行う。ある意味項目の正誤をユーザに確認し、ユーザの応答から該意味項目が正しく抽出できていたと判断すると、以後、同じ属性の意味項目に対しては、より高い補正信頼度が計算されるようにパラメータを調整する。逆に、ユーザの応答から該意味項目が誤って抽出されたものと判断すると、以後、同じ属性の意味項目に対しては、より低い補正信頼度が計算されるようにパラメータを調整する。
図では、対話開始時点のU1で、日にちの補正信頼度が閾値θより低いため直接確認を行うが、U2から日にちが正しく抽出できていることがわかる。そこで、以後は日にちの補正信頼度が高く計算されるようにパラメータが調整される。その結果、U3〜S3のように、正しく抽出した日にちに関して、元の信頼度が低く、従来方式1、2では直接確認を行ってしまうような場合でも、直接確認を行うことなく円滑に対話を進めることが可能になる。
また、U4では、人数の補正信頼度が閾値θより高いため、システムは確認を間接確認に留めてホテルの検索を進めようとするが、U5でユーザが訂正するため、誤っていたことがわかる。そこで、以後は人数の補正信頼度が低く計算されるようにパラメータが調整される。その結果、U6で再度人数を誤って抽出した場合のように、元の信頼度が高いため従来方式1では誤りとして検出できない意味項目に対しても、直接確認を行い、誤りの訂正を誘導することができる。なお、従来方式2を用いても、U6の発話から抽出された意味項目の誤りは高々1つであるため、この誤りを検出することはできない。
次に、図1に示す各構成要素の動作について説明する。
まず、音声理解部10の動作について説明する。音声理解部10は、装置に入力されたユーザの入力音声に対し、音声認識・理解処理を行うことで、意味項目の候補とそれらの尤度からなる意味項目候補データを生成し、後述する信頼度計算部20に送る。
図10は、音声理解部10の一構成例を示す図である。以下、同図を用いて該音声理解部10の動作を詳細に説明する。音響分析部10aは、入力音声の音響分析を行い、得られた特徴ベクトルの時系列を音声認識部10bに送る。音声認識部10bは、この特徴ベクトルの時系列に対し認識処理を施すことで、尤度の高い単語列を5種類生成し、尤度と共に言語理解部10cに送る。言語理解部10cは、受け取った5種類の単語系列それぞれに対し、意味解析を行うことで意味項目の組み合わせを生成する。得られた意味項目の組み合わせと認識処理で得られた尤度とを、図7に示す意味項目候補データとして出力する。
前記言語理解部10cによる意味解析は、一例として図11にその一部を示す意味項目抽出ルールを適用して行ってもよい。同図は属性が「日にち」「人数」「泊数」「客室タイプ」「発話タイプ」の意味項目に対し、属性値を抽出するためのルールである。各ルールの左辺は意味項目の属性(「人数」など)を表す。右辺は‘|’で区切られた複数のパタン(「一人」など)と属性値(‘@’に後続する「1」など)を定義したものである。単語系列をこれらのパタンとの照合し、合致したパタンに対応する属性値を用いて意味項目を生成する。例えば、単語列「ゴールデンウィーク/の/五/月/五/日/頃/に/… 」に対して「日にち」のルールを適用すると、パタン「五月五日」に合致することから、意味項目「人数=5」が抽出される。
音声理解部10の処理結果としては、図7に示すような意味項目候補データが出力される。
信頼度計算部20は、意味項目候補データを受け取り、順位1位の意味項目候補に含まれる各意味項目の信頼度を計算する。ただし、属性が発話タイプの意味項目は、後述する対話管理部33の基本動作を決定するためのものであり、曖昧性を持たせると処理が煩雑化するため、常に確定値として扱い、信頼度を求めない。
信頼度計算部20の動作の詳細は、従来方式1の説明で述べたとおりであるため、説明を省略する。信頼度計算部20により、図8に例示するような意味項目の信頼度データが得られる。これを信頼度補正部61に送る。
次に、補正パラメータ記憶部90について説明する。
補正パラメータ記憶部90は、後述の補正パラメータ調整部80より書き込まれた補正パラメータを保持する。この補正パラメータは、後述の信頼度補正部61により読み出され、補正信頼度の計算に用いられる。図12は、補正パラメータ記憶部90が保持する補正パラメータの一例を示す図である。図中の属性とは、意味項目の属性を表している。
次に、信頼度補正部61の動作について説明する。
信頼度補正部61は、前記信頼度計算部20から図8に例示した信頼度データを受け取り、前記補正パラメータ記憶部90が保持する補正パラメータを参照して、各意味項目の補正信頼度を計算する。補正信頼度は一例として、数4に示すシグモイド関数により求める。式中のパラメータa、bとしては、図12に例示した補正パラメータのリストから、補正信頼度を求めようとする意味項目の属性に応じた値を読み出して用いる。計算した補正信頼度と、元の信頼度と、意味項目とを合わせ、補正信頼度データとして、後述する対話管理部33に送る。
Figure 2005181386
次に、対話状況記憶部100について説明する。
対話状況記憶部100は、後述する対話管理部33より書き込まれた対話状況データを保持する。図13に対話状況データの一例を示す。
図中の四角枠はスロット(変数)を表している。うち、波線より上の8段のスロットは、意味項目の属性に対応している。例えば「日にち」スロットの値は、ユーザの入力音声から意味項目「日にち=5月5日」が信頼度0.42、補正信頼度0.38で抽出されたことを表している。また確認状態の「承認待ち(直接)」とは、意味項目の正誤を直接確認するため、システムがユーザに質問し、現在ユーザの肯定、否定などの回答を待っていることを表している。直前の確定属性値「5月4日」は、日にちの属性値に「5月5日」が指定される前には、「5月4日」が入っており、かつ、確認状態が「確定」であったことを表している。スロット名に*印が付いているものは必須スロットであり、ホテルを予約するためには該スロットの属性値が必須であることを表している。
一方、最下段の「予約状況」スロットは、対話管理部33で対話の終了判定に用いるためのもので、意味項目とは対応していない。該スロットは、対話開始時点では空になっており、ホテルの予約が行われると、値「完了」が書き込まれる。
次に、ホテルデータベース110について説明する。
該ホテルデータベース110は、後述する対話管理部33が検索するためのホテル情報を保持する。図14に該ホテルデータベース110が保持するホテル情報の一例を示す。
(音声合成部40)
音声合成部40は、後述する対話管理部33から受け取る応答文を、音声に変換してユーザに出力する。
次に、対話履歴記憶部71について説明する。
対話履歴記憶部71は、後述の対話管理部33により書き込まれる対話履歴を記憶する。図15は、対話履歴の一部を示す例である。対話IDは、システムがこれまで行ってきた対話に対しシステムが付与した通し番号である。一連の処理対話には同じ対話IDが付与される。
次に、対話管理部33の動作について説明する。
対話管理部33は、信頼度補正部61から補正信頼度データを受け取り、対話状況記憶部100の対話状況データと、ホテルデータベース110のホテルデータを参照して、ユーザに出力する応答文を生成する。生成した応答文は音声合成部40に送る。また、対話状況記憶部100の対話状況データ(図13)と対話履歴記憶部71の対話履歴データ(図15)の更新を行なう。
図16は、対話管理部33の動作処理の例を示すフローチャートである。以下、同図を参照して対話管理部33の動作を詳細に説明する。
ステップS0では、対話管理部33は信頼度補正部61から音声理解部10よりの入力音声に対する補正信頼度データとして、意味項目と、その信頼度、補正信頼度を受け取る。
ステップS1では、信頼度補正部61から受け取った補正信頼度データに基づいて、図13に示す対話状況データの現在のスロット値を参照しながら、スロット値を更新する。
ステップS1の動作処理の一例を図17のフローチャートに示す。以下、同図を参照してステップS1の動作を詳細に説明する。
ステップS1-1は繰り返し処理の終了判定を行なう。もし、補正信頼度データに含まれる全ての意味項目について、後述のステップS1-2からS1-6の処理が終了したら、ステップS1-7に進む。そうでなければ、ステップS1-2に進み、ステップS1-6までの処理を繰り返す。
まず、ステップS1-2で、補正信頼度データに含まれる意味項目tを1つ取り出す。次に、ステップS1-3で、該意味項目tの属性について、対話状況データ(図13)の確認状態スロットを調べる。確認状態が「確定」であればステップS1-4に進む。そうでなければステップS1-5に進む。
ステップS1-4では、該意味項目tの属性について、対話状況データの属性値スロットに記憶された値を、直前の確定属性値スロットにコピーしておく。
ステップS1-5では、該意味項目tの属性値、信頼度、および、補正信頼度を、対話状況データ(図13)の各該当するスロットにコピーする。更に、ステップS1-6で、確認状態スロットを「未確認」にした後、ステップS1-1に戻る。
ステップS1-7は繰り返し処理の終了判定を行なう。もし、対話状況データにおける「予約状況」以外の属性スロットについて、後述のステップS1-8以降の処理が終了したら、図17に示したステップS1の全動作処理が終了する。そうでなければステップS1-8に進む。
ステップS1-8では、対話状況データ(図13)における「予約状況」以外の属性を選択する。次にステップS1-9で、対話状況データにおける属性の確認状況スロットを調べる。もし、確認状況スロットの値が「承認待ち(直接)」であれば、ステップS1-10に進む。「承認待ち(間接)」であれば、ステップS1-13に進む。それ以外なら、ステップS1-7に戻る。
ステップS1-10では、補正信頼度データから属性が「発話タイプ」の意味項目を取り出し、その属性値を調べる。もし、属性値が「肯定」であればステップS1-13に進む。属性値が「否定」であればステップS1-12に進む。それ以外なら、ステップS1-11に進む。
ステップS1-11、S1-12、S1-13では、属性の確認状態スロットをそれぞれ「未確認」「否認」「確定」にしてから、ステップS1-7に戻る。
以上が図16のステップS1における対話管理部33の動作処理である。
図16のステップS2では、後述する対話履歴記憶部71の更新を行う。ステップS1において新たに確認状態が「確定」か「否認」になった属性があれば、対話履歴に該属性と信頼度を書き込む。対話履歴の正誤欄には、確認状態が「確定」であれば「正」を、確認状態が「否認」であれば「誤」を書き込む。対話ID欄には、現在の対話番号を書き込む。
ステップS3では、確認状態が「否認」になっている属性があるか調べる。もし、ある場合にはステップS14に処理を移し、無い場合にはステップS4に処理を移す。
ステップS4では、対話状況データ(図13)のスロットを調べる。もし、確認状態が「未確認」で、補正信頼度が予め設定された閾値θ=0.4よりも低い属性があれば、直接確認の対象として選択する。また、確認状態が「未確認」で、補正信頼度が閾値θ=0.4以上の属性があれば、間接確認の対象として選択する。
ステップS5では、ステップS4において直接確認の対象として選択した属性があれば処理をステップS12に移し、無ければステップS6に移す。
ステップS6では、対話状況データ(図13)の属性値スロットを参照してホテルデータベース110を検索し、応答文を生成する。ステップS6における該対話管理部33の動作処理の一例を図18のフローチャートに示す。以下、同図を参照してステップS6の動作を詳細に説明する。
ステップS6-1では、ステップS1で得られた意味項目のうち、「発話タイプ」属性の属性値による分岐を行う。「予約要求」であればステップS6-3へ、「検索要求」であればステップS6-6へ、それ以外であればステップS6-2へ進む。
ステップS6-2では、前記対話状況データ(図13)から、必須属性の属性値スロットを調べる。もし、予約に必要な全ての必須属性について属性値スロットが充足されているなら、ステップS6-4に進む。そうでない場合は、ステップS6-6に進む。
ステップS6-3もステップS6-2と同じ判定を行なう。もし、全て充足されている場合はステップS6-8に進む。そうでない場合は、ステップS6-4に進む。
ステップS6-4では、前記対話状況データ(図13)における必須属性の属性値スロットの値と、前記ホテルデータベース110のホテル情報とを比較し、実際に予約可能であるかどうかを調べる。もし、空室が見つかり予約可能である場合には、ステップS6-9に進む。そうでない場合は、ステップS6-10に進む。
ステップS6-8では、ユーザに必須属性の属性値スロットの充足を求める応答文を生成する。例えば、必須スロット「客室タイプ」が未充足であった場合は、応答文として「客室タイプはいかがしますか。」を生成する。
ステップS6-9では、ユーザに予約要求が受理されたことを通知する応答文として「ご予約承りました。」を生成する。
ステップS6-16では、前記対話状況データ(図13)のスロット「予約状況」に値「完了」を書き込む。
ステップS6-10では、応答文として「あいにく全室ふさがっております。」を生成する。
ステップS6-2から分岐したステップS6-6では、前記対話状況データ(図13)の属性値スロットに充足されている値を条件として、前記ホテルデータベース110を検索し、該条件に合致するホテルを探す。
ステップS6-7では、ステップS6-6の検索件数に応じた分岐を行う。もし、条件に合致するホテルが見つからない場合には、ステップS6-11に進む。1件だけ見つかった場合にはステップS6-12 に進む。2件以上見つかった場合にはステップS6-13に進む。
ステップS6-11では、応答として「条件に合うホテルは見つかりませんでした。」を生成する。
ステップS6-12では、ユーザに検索結果を示す応答文を生成する。例えば、条件に合致するホテルが横浜ベイシェラトンであった場合、「横浜ベイシェラトンの1件です。」を生成する。同様にして、ステップS6-13では、「横浜ベイシェラトン、東横イン横浜関内の2件がご利用頂けます。」を生成する。
ステップS6-14では、対話状況データ(図13)を参照し、属性値スロットが未充足の属性があるか調べる。もしあればステップS6-15に進む。
ステップS6-15では、属性値スロットが未充足の属性のうち、対話状況データ(図13)で最上段にある属性を選択し、該属性値を指定するようユーザに要求する応答文を生成する。例えば、該属性が「料金」であった場合、「料金のご希望はございますか」を生成する。
以上が、ステップS6における該対話管理部33の動作処理である。
図16に戻り、対話管理部33の動作説明を続ける。
ステップS7では条件分岐を行なう。もしステップS4において間接確認の対象として選択した属性があれば処理をステップS10に進み、無ければステップS8に進む。
ステップS8では、ステップS6で生成した応答文を音声合成部40に送る。
ステップS9では、対話の終了判定を行う。もし、前記対話状況データ(図13)の「予約状況」スロットに値「完了」が入っていれば、対話を終了する。そうでない場合はステップS1に戻り、対話を継続する。
ステップS10では、間接確認の対象として選択した属性とその属性値を用いて、ステップS6で生成した応答文の先頭に「○○(属性値)ですと、」を付与することにより、間接確認を含む応答文を生成する。
ステップS11では、対話状況データ(図13)の更新を行う。間接確認の対象として選択した属性の確認状態を「承認待ち(間接)」に更新する。
ステップS12では、直接確認の対象として選択した属性とその属性値を用いて、直接確認のための応答文「××(属性値)でよろしいですか」を生成する。
ステップS13では、対話状況データ(図13)の更新を行う。直接確認の対象として選択した属性の確認状態を「承認待ち(直接)」に更新する。
ステップS14では、応答文「ご希望の条件をもう一度お願いします」を生成する。
ステップS15では、対話状況データ(図13)の更新を行う。確認状態が「否認」となっている属性の属性値、信頼度、補正信頼度、確認状態を空にする。 更に、直前の確定属性値に値が入っているなら、その値を属性値に移し、補正信頼度を1に、確認状態を「未確認」にする。
次に、補正パラメータ調整部80について説明する。
補正パラメータ調整部80は、図15に示す前記対話履歴記憶部71の内容71を参照し、対話履歴が更新されたとき、図12に示す補正パラメータ記憶部90に記憶された補正パラメータを再計算し、更新する。すなわち、前記数4により、信頼度CMの関数として定義した補正信頼度について、信頼度を“x”、その関数を“f(x)”と置き換えたとき、数5に示す、目標出力t(x)との重み付き自乗誤差Eを最小化するように、各属性の補正パラメータa、 bを求める。補正信頼度の目標出力t(x)としては、対話履歴が保持する正誤(確認対話の結果からシステムが判別した正誤)が「正」の場合には1を、「誤」の場合には0を用いる。式中のwは、現行対話に関する信頼度のずれを重視して補正するための重み係数であり、予め設定した値50を用いる。
Figure 2005181386
数5より、公知の最急勾配法を用いて補正パラメータa、bを求める。
以上述べたように、本実施の形態によれば、確認対話の結果を用いて意味項目の正誤を判定し、信頼度と実際の正誤のズレを最小化するよう補正するため、従来方式である音声認識尤度だけに基づく信頼度や、意味項目の共起では検出できない誤りを検出して確認を行うことが可能であり、不必要な確認や訂正のためのやり取りを減らし、利用者の利便性を向上させる音声対話処理装置を得ることできる。
実施の形態2.
本実施の形態では、実施の形態1と比べ、信頼度補正部61、対話管理部33、補正パラメータ調整部80の動作処理と、補正パラメータ記憶部90、対話履歴記憶部100の記憶内容が異なるが構成は、実施の形態1と同様の構成を有する。したがって、以下では、前記図1の構成図を参照して本実施の形態について説明する。
まず、本実施の形態で得られる音声対話処理装置の動作の概要について、図19を参照して説明する。同図は、該音声対話処理装置(システム)とユーザとの対話例を示すものである。S1、S2、などはシステムの出力した応答文である。U1、U2、などはユーザの入力音声である。ただし、誤認識が生じるため、認識結果と入力音声は必ずしも一致しない。”>>”で始める行は、音声理解部10において尤度1位で得られる意味項目、および、信頼度計算部20で得られる信頼度(CM)、信頼度補正部61で得られる補正信頼度(RCM)を示している。
このシステムは、或る属性の意味項目を入力するようユーザに要求したとき、その属性を記憶しておく。これに続くユーザの入力音声から該属性の意味項目が得られなければ、誤認識の可能性が高いとして意味項目の信頼度を下げるよう補正する。逆に、該属性の意味項目が含まれていれば、元の信頼度をそのまま用いる。
得られた補正信頼度を予め設定した閾値θ=0.40と比較し、θより低いときには意味項目が誤っている可能性が高いとして直接確認を行い、補正信頼度がθ以上のときは間接確認に留める。
図19では、S1でシステムは属性が客室タイプの意味項目をユーザに要求する。U1でユーザは要求に従って客室タイプの希望を発話するが、誤認識が生じたため、「客室タイプ=ツイン」の変わりに「人数=9」が抽出されている。この意味項目の信頼度0.48であり、上記閾値θより高い。このため、もし補正を行わなかった場合、間接確認が行われ、「9人ですと、○○○○ホテル、□□□□ホテルなど7件がご利用頂けます。客室タイプはいかがしますか?」のように、ユーザにとって不要な情報通知が行われることとなり、ユーザの不満度が増大する。これに対し、このシステムでは信頼度が0.34に補正されるため、S2〜U2に示すように、ユーザは即座に誤りを訂正することが可能となる。
次に、図1に示す各構成要素の動作について説明する。なお、前述のとおり、本実施の形態では実施の形態1と比べ、信頼度補正部61、対話管理部33、補正パラメータ調整部80の動作処理と、補正パラメータ記憶部90、対話履歴記憶部71の記憶内容のみが異なり、その他の構成要素は実施の形態1と同一である。したがって、以下では、信頼度補正部61、対話管理部33、補正パラメータ調整部80、補正パラメータ記憶部90、対話履歴記憶部71について説明し、その他の構成要素については説明を省略する。
まず、対話履歴記憶部71について説明する。
対話履歴記憶部71は、後述する対話管理部33により書き込まれる対話履歴データを記憶する。図20に対話履歴データの一例を示す。同図において、要求属性は、現在システムがユーザに要求している意味項目の属性を表している。種別は、その属性の値がホテルを予約するために必須のものか、そうでないかを表しており、「必須」または「非必須」が書き込まれる。
次に、対話管理部33の動作について説明する。
図21は、該対話管理部の動作処理の一例を示すフローチャートである。同図において、前記図16と同じ番号を付与したステップは、図16と同じ乃至相当の動作処理を行い、内容は前述の通りであるため説明を省略し、以下、図21に示すステップS2a、S11aの動作について説明する。
ステップS2aでは、対話履歴記憶部71に記録された対話履歴データの内容をクリアする。
ステップS11aでは、ステップS6で生成した応答文が意味項目をユーザに要求する応答文であるとき、該意味項目の属性と、その必須・非必須種別とを対話履歴記憶部71の対話履歴データに書き込む。
次に、補正パラメータ記憶部90について説明する。
図22は、補正パラメータ記憶部90の内容の一例を示す図である。同図に示すように、補正パラメータ記憶部90は、意味項目の属性に対応するパラメータkを後述の補正パラメータ調整部80から書き込まれて保持している。
次に、補正パラメータ調整部80の動作について説明する。
補正パラメータ調整部80は、前記対話履歴データ(図20)を参照し、前記補正パラメータ記憶部90に記憶されている内容にパラメータk(図22)を書き込む。パラメータkの値は以下のように決定する。対話履歴記憶部71に記憶されていない属性に対してはk=1.0を与える。対話履歴記憶部に記憶されている属性に対しては、種別が「必須」になっていればk=0.7を与え、種別が「非必須」になっていればk=0.9を与える。
次に、信頼度補正部61の動作について説明する。
信頼度補正部61は、信頼度計算部20から信頼度データを受け取り、補正パラメータ記憶部90が保持する補正パラメータを参照して、各意味項目の補正信頼度を計算する。
補正信頼度は以下のようにして計算する。まず補正パラメータ記憶部90に記憶された属性(図22)のうち、受け取った信頼度データにはその属性の意味項目が含まれていない属性を探す。次に、それら属性に対応するパラメータkのなかで、値が最も小さいパラメータk_minを選択する。各意味項目t_iの補正信頼度RCM_iは、t_iの信頼度をCM_iとして数6により計算する。
Figure 2005181386
各意味項目と、計算した補正信頼度とを、補正信頼度データとして前記対話管理部33に送る。
以上述べたように、本実施の形態によれば、システムの質問と矛盾する音声理解結果が得られたとき、得られた意味項目の信頼度を下げるよう補正するため、従来方式である音声認識尤度だけに基づく信頼度や、意味項目の共起では検出できない誤りを検出して確認を行うことが可能であり、不必要な確認や訂正のためのやり取りを減らし、利用者の利便性を向上させる音声対話処理装置を得ることできる。
実施の形態3.
図23は、本発明の一実施の形態として、本発明を適用したホテルの検索と予約を行う音声対話処理装置の一構成例を示すブロック図である。
図1に示す実施の形態1と異なる点は対話長計算部130を設けたことと、対話管理部36の処理動作が対話管理部33と異なることである。
まず、この音声対話処理装置の概要について、以下に説明する。
この音声対話処理装置は、意味項目の確認方法を決定する際、補正信頼度を固定的な閾値と比較して決定する代わりに、各確認方法で対話を行ったときの対話長期待値を求め、対話長期待値が最小になる確認方法を選択することで、より円滑に誤りを解消して対話を進めることが可能となる。
ここで対話長とは、システムが確認のための応答文を出力してから、必要に応じて誤りの訂正などを行い、ユーザが正しい応答文を得るまでの間にやり取りされるシステム応答とユーザ発話の長さの合計である。前記図3〜図6の対話例において、対話長はユーザの第1発話を除いた、システム発話とユーザ発話の長さの合計に相当する。この対話長が長いほど、やり取りは冗長でユーザにとって煩わしいものとなる。
対話長と補正信頼度の関係を図24に示す。図中の点A、B、C、Dは、確認対象となる意味項目が正しいとき/誤りであるときに、直接確認/間接確認を行なった場合を表している。いま、意味項目が正しい確率をpとし、補正信頼度がpと一致することと仮定する。このとき、直接確認を行うと、確率pで点Cの対話が行なわれ、確率(1-p)で点Dの対話が行なわれるから、対話長の期待値は線分CD上の点で与えられる。同様に、間接確認の場合は線分ABのようになる。したがって、両線分が交差する補正信頼度p0よりpが低い場合は直接確認を選択し、p0よりpが高い場合は間接確認を選択すれば、より少ないやり取りで対話を進めることができる。
なお、確認方法の切替点p0は、システムが生成しようとする応答文の長さにも依存する。例えば前記の対話例図3、図4、図5、図6(点A、 B、 C、 D)において、検索結果の通知部分が短くなると、これを二度通知する図4の対話例、すなわち点Bが最も下がる。この結果、線分は図24の点線A'B'およびC'D'のようになり、確認方法の切替点p0も補正信頼度の低域へと移動する。
次に、図23に示す各構成要素の動作について説明する。なお、同図において前記図1のブロック図と同じ番号を付与した構成要素は、前記実施の形態1と同じ乃至相当の動作を行い、動作内容は前述のとおりであるため以下では説明を省略する。以下、図23に示す対話管理部36、対話長計算部130の動作について説明する。
まず、対話管理部36の動作について説明する。
本実施の形態による対話管理部36の動作は、実施の形態1と比べ、ステップS4の動作のみが異なり、その他のステップは同一の動作を行う。したがって、以下では図16を参照し、ステップS4の動作についてのみ説明する。
ステップS4では、対話状況データ(図13)のスロットを調べ、確認状態が「未確認」になっている意味項目に対して、直接確認を行うか、間接確認を行うかを決定する。まず、該意味項目とその補正信頼度を後述する対話長計算部130に送り、対話長計算部130より、直接確認、間接確認それぞれを行った場合の対話長期待値を受け取る。その結果、対話長期待値が短くなる方の確認方法を選択する。
次に、対話長計算部130の動作について説明する。
対話長計算部130では、前記対話管理部36から意味項目とその補正信頼度を受け取り、該意味項目を直接確認した場合、間接確認した場合のそれぞれにおける対話長の期待値を計算する。求めた対話長期待値は対話管理部36に戻す。
対話長期待値は次のようにして求める。まず、直接確認を行う場合は、図25に示す状態遷移図に用いる。図中、アークに記したS「…」はシステムの応答文を表す。鍵括弧内の丸括弧は対話状況データ(図13)の内容に応じて変わる部分であり、前記対話管理部36の応答文生成処理と同一の方法で決定される。また、アークに記したU「…」はユーザの入力文を表す。ユーザは図に記載された以外の表現は発話しないものと仮定する。また、状態S8では、システムの誤りを訂正するため、ユーザは「△△(意味項目)です」と正しい意味項目を発声するが、該意味項目の長さは、現在システムが保持している誤った意味項目を使って近似する。
点線のアークは確率付きの遷移を表す。状態S1からの遷移に記した確率pは、状態S0で確認した意味項目が正しい確率である。pの値には、該意味項目の補正信頼度を用いる。
状態S0で確認した意味項目が誤っていたとき、状態S5でユーザは、確率qで「いいえ」と発声し、確率1 - qで正しい意味項目を再発声して確認内容を訂正する。ここではq = 0.5とする。
状態S00は、システムの誤解を訂正するため、ユーザが正しい意味項目を再発声した状態である。再発声された意味項目に対しては、その補正信頼度に応じて、再度、直接確認を行うか、間接確認を行うかの判定を行い、いずれかの確認対話を行う。
したがって、直接確認を行う場合の対話長期待値は下記数7より求める。同様にして、間接確認を行う場合の対話長期待値は、図26の状態遷移図を参照し、下記数8により求める。式中のL(S0→S1)やL(S2→S3→S4)などは、対話状態をアークに沿って遷移するときの部分対話長であり、アークに付与された発話の文字列を合計して求めることができる。
Figure 2005181386
Figure 2005181386
なお、両式中、状態S00以降の部分対話長L(S00→…)は計算できないが、両式に共通するため、L1とL2の大小比較には影響しない。そこで、L(S00→…) = 0として計算した値を対話管理部36に送る。
このように構成した音声対話処理装置では、補正信頼度に対し固定的な閾値を設定して確認方法を決定する代わりに、システムが生成しようとする応答文の長さに応じて補正信頼度に対する閾値を動的に変化させ、最も少ないやり取りで対話が進行する確認方法を選択するため、より円滑に誤りを解消して対話を進めることが可能となる。
実施の形態4.
図27は、本発明の一実施の形態として、本発明を適用したホテルの検索と予約を行う音声対話処理装置の一構成例を示すブロック図である。
図1に示す実施の形態1と異なる点はグラフィカル・ユーザ・インタフェース(以下GUIと称する)140を設けたこと、補正パラメータ調整部83、信頼度補正部64の処理動作が補正パラメータ調整部80、信頼度補正部61と異なることである。
まず、この音声対話処理装置の概要を説明する。
この音声対話処理装置では、GUI140にユーザが直接操作できるボタンを備えている。ユーザは対話中、システムの意味項目の誤り検出精度が不足しており、システムの間接確認を訂正することが多いと感じた場合には、誤り検出の感度を上げるよう、該ボタンを操作する。逆に、意味項目を過剰に検出しており、直接確認が多いと感じた場合、ユーザは誤り検出感度を下げるよう、該ボタンを操作する。
次に、図27に示す各構成要素の動作について説明する。なお、同図において前記図1と同じ番号を付与した構成要素は、実施の形態1と同じ乃至相当の動作を行い、動作内容は前述のとおりであるため、以下では説明を省略する。以下、図27に示す、GUI140、補正パラメータ記憶部92、補正パラメータ調整部83、信頼度補正部64の動作について説明する。
まず、GUI140について説明する。
該GUI140は、ボタン、スライダ乃至ダイヤルを有し、ユーザの操作入力を受け取り、該操作入力を補正パラメータ調整部83に送る。ボタンの一例を図28に示す。このボタンはディスプレイ上に表示されており、ユーザがマウスでクリックすることにより、「慎重」「標準」「性急」を切り替えることができるようになっている。
該ボタンは、対話開始時点では「標準」の位置になっている。ユーザは対話中、システムの直接確認が多いと感じた場合には、「性急」ボタンをクリックすることで、直接確認をできるだけ省略してホテル予約の手順を性急に進めるよう、システムを制御する。逆に、システムの間接確認をユーザが訂正する頻度が多いと感じた場合には、「慎重」ボタンをクリックすることで、直接確認を増やし、意味項目の誤りをできるだけ検出し、訂正してから対話を進めるようにシステムを制御する。
該ボタンがクリックされると、GUI140は補正パラメータ調整部83に対し、「慎重」「標準」「性急」のいずれが選択されているかを通知する。
次に、補正パラメータ記憶部92について説明する。
補正パラメータ記憶部92は、後述する補正パラメータ調整部83より書き込まれた補正パラメータを保持する。補正パラメータは、信頼度補正部64により読み出され、補正信頼度の計算に用いられる。図29は、補正パラメータ記憶部92が保持する補正パラメータの一例を示す図である。図中の属性とは、意味項目の属性を表している。
次に、信頼度補正部64の動作について説明する。
信頼度補正部64は、前記信頼度計算部20から図8に例示した信頼度データを受け取り、前記補正パラメータ記憶部92が保持する補正パラメータを参照して、各意味項目の補正信頼度を計算する。補正信頼度は一例として次式、数9に示すシグモイド関数により求める。式中のパラメータa、b、cとしては、図29に例示したパラメータリストから、補正信頼度を求めようとする意味項目の属性に応じた値を読み出して用いる。各意味項目と、元の信頼度と、計算した補正信頼度とを、補正信頼度データとして、後述する対話管理部33に送る。
Figure 2005181386
次に、補正パラメータ調整部83の動作について説明する。
補正パラメータ調整部83は、まず、前記実施の形態1同様、対話履歴記憶部100を参照して、図29に示す補正パラメータ記憶部92に記憶された補正パラメータa、 bを更新する。
更に、前記GUI140より図28に示すボタンの状態を受け取り、補正パラメータcを次のように更新する。
ボタンが「標準」の場合には補正パラメータc = 0.0とする。このとき、前記実施の形態1と同様の補正信頼度が計算される。
ボタンが「慎重」の場合には補正パラメータc = −0.2とする。このとき、補正信頼度は前記実施の形態1より低い値が計算されるため、意味項目に対する直接確認が増える。
ボタンが「性急」の場合には補正パラメータc = 0.2 とする。このとき、補正信頼度は前記実施の形態1より高い値が計算されるため、意味項目の直接確認が減り、間接確認が増える。
このように構成された音声対話処理装置では、対話中、ユーザが実際に体感するシステムの誤り検出感度が適切になるよう直接操作することが可能となる。このため、従来方式の課題であった、誤りの検出漏れや過剰な確認によるやり取りが増えるという問題が解消され、ユーザにとって利便性の高い対話を行うことが可能となる。
実施の形態5.
図30は、本発明の一実施の形態として、本発明を適用したホテルの検索と予約を行う音声対話処理装置の一構成例を示すブロック図である。
図1に示す実施の形態1と異なる点は信頼度補正部61、補正パラメータ調整部80、補正パラメータ記憶部90を省き代わりに閾値記憶部150と閾値調整部160が設けられていることと、対話管理部37の処理動作が異なることである。
前記実施の形態1は、確認対話の結果に基づいて意味項目の信頼度を補正するものであったが、本実施の形態は、同様に確認対話の結果に基づいて、信頼度閾値を動的に調整するものである。本実施の形態においても、前記実施の形態1と同等の効果を奏する音声対話処理装置を得ることができる。
以下、図30に示す各構成要素の動作について説明する。なお、同図において、前記図1と同じ番号を付与した構成要素は、実施の形態1と同じ乃至相当の動作を行う。動作内容は前述のとおりであるため、以下では説明を省略する。以下、図30に示す、対話管理部37、閾値記憶部150、閾値調整部160の動作について説明する。
まず、閾値記憶部150について説明する。
閾値記憶部150は、図31に一例を示すように、意味項目の各属性に対する信頼度閾値を記憶する。各属性の信頼度閾値は、対話開始時点で0.4が与えられ、以後、後述する閾値調整部160により更新される。
次に、対話管理部37の動作について説明する。
本実施の形態では、実施の形態1による対話管理部33と基本的に同一の動作処理を行うものであり、図16に示した動作フローにおいて、ステップS0とS4の動作のみが異なる。以下、ステップS0、S4の動作について説明する。
ステップS0では、信頼度計算部20より図8に例示する意味項目の信頼度データを受け取る。
ステップS4では、対話状況データ(図13)のスロットを調べる。もし、確認状態が「未確認」で、かつ、信頼度が閾値記憶部150に記憶された当該属性の信頼度閾値よりも低い属性があれば、直接確認の対象として選択する。また、確認状態が「未確認」で、信頼度が該閾値以上の属性があれば、間接確認の対象として選択する。
次に、閾値調整部160の動作について説明する。
閾値調整部160は、対話履歴記憶部100に記憶された図15に示す対話履歴データを参照し、対話履歴データが更新されたとき、閾値記憶部150に記憶された図31に示す信頼度閾値を更新する。属性aの意味項目に対する現在の信頼度閾値をθaとし、更新後の信頼度閾値をθ'aとするとき、θ'aは次式により求める。
Figure 2005181386
ただし、xは図15に示す対話履歴データの各行に対応するデータ(事例)を表し、CMxはxの信頼度を表す。Xcurは現在の対話IDを持つxの集合を表す。Xaは属性がaであるxの集合を表す。 Xdir、 Xindirは信頼度CMxがそれぞれCMx<θa(直接確認の対象となるx)、CMx≧θa(間接確認の対象となるx)であるxの集合を表す。Xerr、Xcrrは正誤がそれぞれ正、誤であるxの集合を表す。w1、w2は予め定める重み係数であり、w1=w2=0.2とする。|…|は集合の要素数を表す。
すなわち、右辺第2項では、正解を直接確認したために煩らわしさの原因となった事例に対し、以後、間接確認に回すよう信頼度閾値θ'aを下方修正する。また、右辺第2項では、誤りを間接確認したために煩わしさの原因となった事例に対し、以後、直接確認に回すよう信頼度閾値θ'aを上方修正する。
以上述べたように、本実施の形態によれば、確認対話の結果を用いて意味項目の正誤を判定し、信頼度閾値を実際の正誤のズレが小さくなるよう補正するため、従来方式である音声認識尤度だけに基づく信頼度と固定的な閾値では検出できない誤りを検出して確認を行うことが可能であり、不必要な確認や訂正のためのやり取りを減らし、利用者の利便性を向上させる音声対話処理装置を得ることできる。
実施の形態6.
前記実施の形態2は、システムの質問と入力音声から抽出した意味項目を比較することにより、意味項目の信頼度を補正するものであったが、本実施の形態では、同様にシステムの質問と入力音声から抽出した意味項目を比較することにより、信頼度閾値を動的に調整する。本実施の形態においても、前記実施の形態2と同等の効果を奏する音声対話処理装置を得ることができる。
本実施の形態は、対話履歴記憶部71、閾値記憶部150、閾値調整部160、対話管理部37の動作のみが前記実施の形態5と異なり、他の構成要素は同一である。したがって、構成図は図30を参照する。また、対話履歴記憶部71は、前記実施の形態2と同一のものを用いる。詳細は前述のとおりであるため、以下、閾値記憶部150、閾値調整部160、対話管理部37の動作についてのみ説明する。
まず、閾値記憶部150について説明する。
図32は、閾値記憶部150の内容の一例を示す図である。同図に示すように、閾値記憶部150は、意味項目の属性に対応する信頼度閾値を後述の閾値調整部160から書き込まれて保持している。
次に、閾値調整部160の動作について説明する。
閾値調整部160は、対話履歴記憶部71が記憶する対話履歴データ(図20)を参照し、閾値記憶部150が記憶している図32に示すデータに信頼度閾値θを書き込む。信頼度閾値θは以下のように決定する。対話履歴記憶部71に記憶されていない属性に対してはθ=0.4とする。対話履歴記憶部に記憶されている属性に対しては、種別が「必須」になっていればθ=0.6とし、種別が「非必須」になっていればθ=0.5とする。
次に、対話管理部37の動作について説明する。
本実施の形態では、実施の形態2による対話管理部33と基本的に同一の動作処理を行うものであり、図21に示した動作フローにおいて、ステップS0とS4の動作のみが異なる。以下、ステップS0、S4の動作について説明する。
ステップS0では、信頼度計算部20より図8に例示する、意味項目の信頼度データを受け取る。
ステップS4では、対話状況データ(図13)のスロットで属性値が空になっている属性の信頼度閾値を調べ、その中で最も高い信頼度閾値θmaxを選択する。もし、確認状態が「未確認」で、かつ、信頼度がθmaxよりも低い属性があれば、直接確認の対象として選択する。また、確認状態が「未確認」で、信頼度がθmax以上の属性があれば、間接確認の対象として選択する。
以上述べたように、本実施の形態によれば、システムの質問と矛盾する音声理解結果が得られたとき、得られた意味項目の信頼度に対する確認閾値を上げるため、従来方式である音声認識尤度だけに基づく信頼度や、意味項目の共起では検出できない誤りを検出して確認を行うことが可能であり、不必要な確認や訂正のためのやり取りを減らし、利用者の利便性を向上させる音声対話処理装置を得ることできる。
実施の形態7.
図33は、本発明の一実施の形態として、本発明を適用したホテルの検索と予約を行う音声対話処理装置の一構成例を示すブロック図である。
前記実施の形態4では、ユーザによるGUI140のボタン操作に応じて、意味項目の信頼度を補正したが、本実施の形態では、同様にユーザによるGUI140のボタン操作に応じて、信頼度閾値を動的に調整する。本実施の形態においても、前記実施の形態4と同等の効果を奏する音声対話処理装置を得ることができる。
以下、図33に示す各構成要素の動作について説明する。なお、同図において、実施の形態4の構成図27または、実施の形態5の構成図30と同じ番号を付与した構成要素は、実施の形態4または5と同一乃至は同等の動作を行うものであり、詳細は前述のとおりであるので説明を省略する。以下、図33に示す閾値調整部161の動作について説明する。
閾値調整部161では、実施の形態5と同様にして、対話履歴記憶部71が記憶する対話履歴が更新された際、閾値記憶部150の信頼度閾値を更新する。更に、GUI140よりボタンの状態を受け取り信頼度閾値を次のように更新する。
ボタンが「標準」の場合には信頼度閾値を変更しない。このとき、対話装置は前記実施の形態5と同様の動作をする。
ボタンが「慎重」の場合には信頼度閾値に0.1を加算する。このとき、前記実施の形態5と比べて、意味項目に対する直接確認が増える。
ボタンが「性急」の場合には信頼度閾値から0.1を減算する。このとき、前記実施の形態5と比べて、意味項目の直接確認が減り間接確認が増える。
このように構成された音声対話処理装置では、対話中、ユーザが実際に体感するシステムの誤り検出感度が適切になるよう操作することが可能となる。このため、従来技術の課題であった、誤りの検出漏れや過剰な確認によるやり取りが増えるという問題が解消され、ユーザにとって利便性の高い対話を行うことが可能となる。
なお、上記実施の形態1〜7に記載の処理はプログラムによりコンピュータを動作させることによっても実現することが可能である。
本発明を適用した音声対話処理装置は、ホテルの検索と予約を行うシステムや、映画館や劇場における上映や上演の検索とそのチケット予約を行うシステム等に適用すると、利用者の利便性を向上させるシステムを構築できる。
本発明の実施の形態1による音声対話処理装置の構成図。 意味項目例の説明図。 正しく抽出した意味項目に間接確認を適用した場合の説明図。 誤抽出の意味項目に間接確認を適用した場合の説明図。 正しく抽出した意味項目に直接確認を適用した場合の説明図。 誤抽出の意味項目に直接確認を適用した場合の説明図。 意味項目候補データの例の説明図。 信頼度データの例の説明図。 実施の形態1における対話例の説明図。 実施の形態1における音声理解部の構成図。 意味項目の抽出ルールの例の説明図。 補正パラメータ記憶部の保持内容例の説明図。 対話状況データ例の説明図。 ホテルデータベース例の説明図。 対話履歴データの例の説明図。 実施の形態1における対話管理部の動作処理のフロー図。 対話管理部の対話状況更新動作処理のフロー図。 対話管理部の応答文生成動作処理のフロー図。 実施の形態2における対話例の説明図。 実施の形態2における対話履歴データの説明図。 実施の形態2における対話管理部の動作処理例のフロー図。 実施の形態2における補正パラメータ記憶部の保持内容の説明図。 本発明の実施の形態3による音声対話処理装置の構成図。 対話長と補正信頼度の関係説明図。 直接確認を行ったときの対話状態遷移図。 間接確認を行ったときの対話状態遷移図。 本発明の実施の形態4による音声対話処理装置の構成図。 グラフィカル・ユーザ・インタフェースにおけるユーザ操作ボタンの配置図。 実施の形態4における補正パラメータ記憶部の保持内容説明図。 本発明の実施の形態5による音声対話処理装置の構成図。 実施の形態5における閾値記憶部の記憶内容の説明図。 実施の形態6における閾値記憶部の記憶内容の説明図。 本発明の実施の形態7による音声対話処理装置の構成図。 従来方式1による音声対話処理装置の構成図。 従来方式2による音声対話処理装置の構成図。
符号の説明
10:音声理解部、20:信頼度計算部、33、36、37:対話管理部、40:音声合成部、61、64:信頼度補正部、71:対話履歴記憶部、80、83:補正パラメータ調整部、90、92:補正パラメータ記憶部、100:対話状況記憶部、110:ホテルデータベース、130:対話長計算部、140:グラフィカル・ユーザ・インタフェース、150:閾値記憶部、160、161:閾値調整部。

Claims (15)

  1. 入力音声に対し音声認識処理と意味解析処理を行い、意味項目候補とその尤度を出力する音声理解部と、
    意味項目候補とその尤度から意味項目の信頼度を計算する信頼度計算部と、
    意味項目の信頼度を補正するための補正パラメータを記憶する補正パラメータ記憶部と、
    信頼度と補正パラメータから、意味項目の補正信頼度を計算する信頼度補正部と、
    入力された個々の意味項目に対し、補正信頼度を用いて、意味項目の正誤をユーザに確認するか否かを決定してユーザへの応答文を出力し、更にユーザとのやり取りを対話履歴データとして対話履歴記憶部に書き込む対話管理部と、
    対話履歴データを用いて、前記補正パラメータ記憶部に記憶された補正パラメータを更新する補正パラメータ調整部とを備えることを特徴とする音声対話処理装置。
  2. 前記補正パラメータとしては、意味項目の属性に依存した値を用いることを特徴とする請求項1に記載の音声対話処理装置。
  3. 前記対話管理部は、意味項目の正誤をユーザに確認するため出力した応答文に対する入力音声より得られた新たな意味項目を受け取り、該新たな意味項目より前記正誤を確認した意味項目の正誤を判定し、該判定した正誤と、前記正誤を確認した意味項目の信頼度とを前記対話履歴データとして対話履歴記憶部に書き込み、
    前記補正パラメータ調整部は、前記判定した正誤を用いて補正パラメータを更新する構成にされたことを特徴とする請求項1または請求項2に記載の音声対話処理装置。
  4. 前記対話管理部は、ユーザに意味項目を入力するように要求する応答文を出力したときには、要求した意味項目の属性を前記対話履歴データとして対話履歴記憶部に書き込み、
    前記補正パラメータ調整部は、要求した意味項目の属性と、意味項目を入力するように要求する応答文に対する入力音声より得られた意味項目の属性とを比較して、補正パラメータを更新する構成にされたことを特徴とする請求項1または請求項2に記載の音声対話処理装置。
  5. 意味項目に対するユーザの要求操作入力を受け取るグラフィカル・ユーザ・インタフェースを備え、
    前記補正パラメータ調整部は、前記ユーザの要求操作入力、および、前記対話履歴データを用いて、補正パラメータ記憶部に記憶された補正パラメータを更新する構成にされたことを特徴とする請求項1から請求項4のいずれかに記載の音声対話処理装置。
  6. 対話長計算部をさらに備え、
    前記対話管理部は、確認のために利用可能な応答文の候補を複数種類保持し、該応答文の候補と、補正信頼度とを前記対話長計算部に送り、対話長計算部から得られる対話長データより、ユーザに出力する応答文を決定し、
    前記対話長計算部は、前記対話管理部からの応答文の候補と、補正信頼度から、各応答文の候補をユーザに出力したときの対話長を計算する構成にされたことを特徴とする請求項1から請求項5のいずれかに記載の音声対話処理装置。
  7. 入力音声に対し音声認識処理と意味解析処理を行い、意味項目候補とその尤度を出力する音声理解部と、
    意味項目候補とその尤度から意味項目の信頼度を計算する信頼度計算部と、
    意味項目の信頼度閾値を記憶する閾値記憶部と、
    入力された個々の意味項目に対し、信頼度と信頼度閾値を比較して、意味項目の正誤をユーザに確認するか否かを決定してユーザへの応答文を出力し、更にユーザとのやり取りを対話履歴データとして対話履歴記憶部に書き込む対話管理部と、
    該対話履歴データを用いて、閾値記憶部に記憶された信頼度閾値を更新する閾値調整部とを備えることを特徴とする音声対話処理装置。
  8. 前記信頼度閾値としては、意味項目の属性に依存した値を用いることを特徴とする請求項7に記載の音声対話処理装置。
  9. 前記対話管理部は、意味項目の正誤をユーザに確認するため出力した応答文に対する入力音声より得られた新たな意味項目を受け取り、該新たな意味項目より前記正誤を確認した意味項目の正誤を判定し、該判定した正誤と、前記正誤を確認した意味項目の信頼度とを前記対話履歴データとして対話履歴記憶部に書き込み、
    前記閾値調整部は、前記判定した正誤を用いて信頼度閾値を更新する構成にされたことを特徴とする請求項7または請求項8に記載の音声対話処理装置。
  10. 前記対話管理部は、ユーザに意味項目を入力するように要求する応答文を出力したときには、要求した意味項目の属性を前記対話履歴データとして対話履歴記憶部に書き込み、
    前記閾値調整部は、要求した意味項目の属性と、意味項目を入力するように要求する応答文に対する入力音声より得られた意味項目の属性とを比較して、信頼度閾値を更新する構成にされたことを特徴とする、請求項7または請求項8に記載の音声対話処理装置。
  11. 意味項目に対するユーザの操作入力を受け取るグラフィカル・ユーザ・インタフェースを備え、
    前記閾値調整部は前記ユーザの操作入力、および、前記対話履歴データを用いて、閾値記憶部に記憶された信頼度閾値を更新する構成にされたことを特徴とする請求項7から請求項10のいずれかに記載の音声対話処理装置。
  12. 入力音声に対し音声認識処理と意味理解処理を行い、意味項目候補の抽出とその尤度計算を行う音声理解ステップと、
    意味項目候補とその尤度から意味項目の信頼度を計算する信頼度計算ステップと、
    補正パラメータ記憶部が記憶する意味項目の信頼度を補正するための補正パラメータと、
    前記信頼度計算ステップの信頼度から、意味項目の補正信頼度を計算する信頼度補正ステップと、
    入力された個々の意味項目に対し、補正信頼度を用いて、意味項目の正誤をユーザに確認するか否かを決定してユーザへの応答文を生成し、更にユーザとのやり取りを対話履歴データとして対話履歴記憶部に書き込む対話管理ステップと、
    対話履歴データを用いて、補正パラメータ記憶部の補正パラメータを更新する補正パラメータ調整ステップとを備えることを特徴とする音声対話処理方法。
  13. 入力音声に対し音声認識処理と意味解析処理を行い、意味項目候補の抽出とその尤度計算を行う音声理解ステップと、
    意味項目候補とその尤度から意味項目の信頼度を計算する信頼度計算ステップと、
    入力された個々の意味項目に対し、信頼度計算ステップの信頼度と閾値記憶部が記憶する信頼度閾値を比較して、意味項目の正誤をユーザに確認するか否かを決定してユーザへの応答文を生成し、更にユーザとのやり取りを対話履歴データとして対話履歴記憶部に書き込む対話管理ステップと、
    該対話履歴データを用いて、閾値記憶部の信頼度閾値を更新する閾値調整ステップとを備えることを特徴とする音声対話処理方法。
  14. 入力音声に対し音声認識処理と意味解析処理を行い、意味項目候補とその尤度を出力する音声理解手段、
    意味項目候補とその尤度から意味項目の信頼度を計算する信頼度計算手段、
    意味項目の信頼度を補正するための補正パラメータを記憶する補正パラメータ記憶部からの補正パラメータと、前記信頼度計算手段からの信頼度とから、意味項目の補正信頼度を計算する信頼度補正手段、
    入力された個々の意味項目に対し、前記信頼度補正手段からの補正信頼度を用いて、意味項目の正誤をユーザに確認するか否かを決定してユーザへの応答文を出力し、更にユーザとのやり取りを対話履歴データとして対話履歴記憶部に書き込む対話管理手段、
    対話履歴記憶部に書き込まれた対話履歴データを用いて、前記補正パラメータ記憶部に記憶された補正パラメータを更新する補正パラメータ調整手段としてコンピュータを機能させる為のプログラム。
  15. 入力音声に対し音声認識処理と意味解析処理を行い、意味項目候補とその尤度を出力する音声理解手段、
    意味項目候補とその尤度から意味項目の信頼度を計算する信頼度計算手段、
    入力された個々の意味項目に対し、信頼度と閾値記憶部に記憶された意味項目の信頼度閾値を比較して、意味項目の正誤をユーザに確認するか否かを決定してユーザへの応答文を出力し、更にユーザとのやり取りを対話履歴データとして対話履歴記憶部に書き込む対話管理手段、
    対話履歴記憶部に書き込まれた対話履歴データを用いて、閾値記憶部に記憶された信頼度閾値を更新する閾値調整手段としてコンピュータを機能させる為のプログラム。
JP2003417909A 2003-12-16 2003-12-16 音声対話処理装置及び音声対話処理方法並びにプログラム Pending JP2005181386A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003417909A JP2005181386A (ja) 2003-12-16 2003-12-16 音声対話処理装置及び音声対話処理方法並びにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003417909A JP2005181386A (ja) 2003-12-16 2003-12-16 音声対話処理装置及び音声対話処理方法並びにプログラム

Publications (1)

Publication Number Publication Date
JP2005181386A true JP2005181386A (ja) 2005-07-07

Family

ID=34780267

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003417909A Pending JP2005181386A (ja) 2003-12-16 2003-12-16 音声対話処理装置及び音声対話処理方法並びにプログラム

Country Status (1)

Country Link
JP (1) JP2005181386A (ja)

Cited By (125)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0520982A (ja) * 1991-07-16 1993-01-29 Aichi Denki Seisakusho:Kk 真空切替遮断器
JP2007072393A (ja) * 2005-09-09 2007-03-22 Ntt Data Corp 音声認識装置及びプログラム
WO2012020444A1 (ja) * 2010-08-09 2012-02-16 三菱電機株式会社 情報処理装置
JP2013073240A (ja) * 2011-09-28 2013-04-22 Apple Inc コンテキスト情報を使用した音声認識修正
CN103400576A (zh) * 2013-07-18 2013-11-20 百度在线网络技术(北京)有限公司 基于用户行为日志的语音模型更新方法及装置
US8892446B2 (en) 2010-01-18 2014-11-18 Apple Inc. Service orchestration for intelligent automated assistant
JP2014240864A (ja) * 2013-06-11 2014-12-25 富士ソフト株式会社 音声認識システムおよび音声認識システムの制御方法
US8977584B2 (en) 2010-01-25 2015-03-10 Newvaluexchange Global Ai Llp Apparatuses, methods and systems for a digital conversation management platform
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9300784B2 (en) 2013-06-13 2016-03-29 Apple Inc. System and method for emergency calls initiated by voice command
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
KR20160124766A (ko) * 2014-10-29 2016-10-28 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 대화 처리 방법, 대화 관리 시스템 및 컴퓨터 기기
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9535906B2 (en) 2008-07-31 2017-01-03 Apple Inc. Mobile device having human language translation capability with positional feedback
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
US9620104B2 (en) 2013-06-07 2017-04-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US9626955B2 (en) 2008-04-05 2017-04-18 Apple Inc. Intelligent text-to-speech conversion
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9633674B2 (en) 2013-06-07 2017-04-25 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9633660B2 (en) 2010-02-25 2017-04-25 Apple Inc. User profiling for voice input processing
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9646614B2 (en) 2000-03-16 2017-05-09 Apple Inc. Fast, language-independent method for user authentication by voice
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9697822B1 (en) 2013-03-15 2017-07-04 Apple Inc. System and method for updating an adaptive speech recognition model
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9798393B2 (en) 2011-08-29 2017-10-24 Apple Inc. Text correction processing
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9953088B2 (en) 2012-05-14 2018-04-24 Apple Inc. Crowd sourcing information to fulfill user requests
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US9966068B2 (en) 2013-06-08 2018-05-08 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US9971774B2 (en) 2012-09-19 2018-05-15 Apple Inc. Voice-based media searching
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10079014B2 (en) 2012-06-08 2018-09-18 Apple Inc. Name recognition system
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10089072B2 (en) 2016-06-11 2018-10-02 Apple Inc. Intelligent device arbitration and control
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10185542B2 (en) 2013-06-09 2019-01-22 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10199051B2 (en) 2013-02-07 2019-02-05 Apple Inc. Voice trigger for a digital assistant
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10269345B2 (en) 2016-06-11 2019-04-23 Apple Inc. Intelligent task discovery
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10283110B2 (en) 2009-07-02 2019-05-07 Apple Inc. Methods and apparatuses for automatic speech recognition
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10297253B2 (en) 2016-06-11 2019-05-21 Apple Inc. Application integration with a digital assistant
US10318871B2 (en) 2005-09-08 2019-06-11 Apple Inc. Method and apparatus for building an intelligent automated assistant
US10354011B2 (en) 2016-06-09 2019-07-16 Apple Inc. Intelligent automated assistant in a home environment
US10356243B2 (en) 2015-06-05 2019-07-16 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US10410637B2 (en) 2017-05-12 2019-09-10 Apple Inc. User-specific acoustic models
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10482874B2 (en) 2017-05-15 2019-11-19 Apple Inc. Hierarchical belief states for digital assistants
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10521466B2 (en) 2016-06-11 2019-12-31 Apple Inc. Data driven natural language event detection and classification
US10540969B2 (en) 2015-08-10 2020-01-21 Clarion Co., Ltd. Voice operating system, server device, on-vehicle device, and voice operating method
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10568032B2 (en) 2007-04-03 2020-02-18 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
CN111177307A (zh) * 2019-11-22 2020-05-19 深圳壹账通智能科技有限公司 一种基于语义理解相似度阀值配置的测试方案及系统
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10733993B2 (en) 2016-06-10 2020-08-04 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
WO2020166183A1 (ja) * 2019-02-13 2020-08-20 ソニー株式会社 情報処理装置及び情報処理方法
US10755703B2 (en) 2017-05-11 2020-08-25 Apple Inc. Offline personal assistant
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10791176B2 (en) 2017-05-12 2020-09-29 Apple Inc. Synchronization and task delegation of a digital assistant
US10791216B2 (en) 2013-08-06 2020-09-29 Apple Inc. Auto-activating smart responses based on activities from remote devices
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10810274B2 (en) 2017-05-15 2020-10-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US11217255B2 (en) 2017-05-16 2022-01-04 Apple Inc. Far-field extension for digital assistant services
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
WO2023100236A1 (ja) * 2021-11-30 2023-06-08 ファナック株式会社 音声認識装置、およびコンピュータ読み取り可能な記憶媒体

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03132798A (ja) * 1989-10-19 1991-06-06 Ricoh Co Ltd 音声認識方式
JPH11133994A (ja) * 1997-10-31 1999-05-21 Nec Corp 音声入力装置及びプログラムを記録した機械読み取り可能な記録媒体
JP2001034289A (ja) * 1999-07-16 2001-02-09 Nec Corp 自然言語を用いた対話システム
JP2002099404A (ja) * 2000-07-21 2002-04-05 Matsushita Electric Ind Co Ltd 対話制御方法及びその装置
JP2002287793A (ja) * 2001-03-28 2002-10-04 Just Syst Corp コマンド処理装置、コマンド処理方法、及びコマンド処理プログラム
JP2002351492A (ja) * 2001-05-25 2002-12-06 Mitsubishi Electric Corp 対話管理装置
JP2003029782A (ja) * 2001-07-19 2003-01-31 Mitsubishi Electric Corp 対話処理装置及び対話処理方法並びにプログラム
JP2003202897A (ja) * 2002-01-08 2003-07-18 Mitsubishi Electric Corp 車載機器用音声認識装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03132798A (ja) * 1989-10-19 1991-06-06 Ricoh Co Ltd 音声認識方式
JPH11133994A (ja) * 1997-10-31 1999-05-21 Nec Corp 音声入力装置及びプログラムを記録した機械読み取り可能な記録媒体
JP2001034289A (ja) * 1999-07-16 2001-02-09 Nec Corp 自然言語を用いた対話システム
JP2002099404A (ja) * 2000-07-21 2002-04-05 Matsushita Electric Ind Co Ltd 対話制御方法及びその装置
JP2002287793A (ja) * 2001-03-28 2002-10-04 Just Syst Corp コマンド処理装置、コマンド処理方法、及びコマンド処理プログラム
JP2002351492A (ja) * 2001-05-25 2002-12-06 Mitsubishi Electric Corp 対話管理装置
JP2003029782A (ja) * 2001-07-19 2003-01-31 Mitsubishi Electric Corp 対話処理装置及び対話処理方法並びにプログラム
JP2003202897A (ja) * 2002-01-08 2003-07-18 Mitsubishi Electric Corp 車載機器用音声認識装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
水谷誠 他: ""音声認識の信頼度と対話履歴を利用した最尤推定型言語理解"", 情報処理学会研究報告, vol. 2003, no. 14, JPN6009046163, 8 February 2003 (2003-02-08), pages 113 - 118, ISSN: 0001411088 *
須藤克仁 他: """反省型"信頼性尺度に基づく書き起こしなしデータを用いた言語モデル学習"", 情報処理学会研究報告, vol. 2003, no. 14, JPN6009046165, 8 February 2003 (2003-02-08), pages 83 - 88, ISSN: 0001411089 *
駒谷和範 他: ""音声認識結果の信頼度を用いた効率的な確認・誘導を行う対話管理"", 情報処理学会論文誌, vol. 43, no. 10, JPN6009046164, 15 October 2002 (2002-10-15), pages 3078 - 3086, ISSN: 0001411087 *

Cited By (179)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0520982A (ja) * 1991-07-16 1993-01-29 Aichi Denki Seisakusho:Kk 真空切替遮断器
US9646614B2 (en) 2000-03-16 2017-05-09 Apple Inc. Fast, language-independent method for user authentication by voice
US10318871B2 (en) 2005-09-08 2019-06-11 Apple Inc. Method and apparatus for building an intelligent automated assistant
JP2007072393A (ja) * 2005-09-09 2007-03-22 Ntt Data Corp 音声認識装置及びプログラム
JP4610451B2 (ja) * 2005-09-09 2011-01-12 株式会社エヌ・ティ・ティ・データ 音声認識装置及びプログラム
US8930191B2 (en) 2006-09-08 2015-01-06 Apple Inc. Paraphrasing of user requests and results by automated digital assistant
US9117447B2 (en) 2006-09-08 2015-08-25 Apple Inc. Using event alert text as input to an automated assistant
US8942986B2 (en) 2006-09-08 2015-01-27 Apple Inc. Determining user intent based on ontologies of domains
US10568032B2 (en) 2007-04-03 2020-02-18 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US10381016B2 (en) 2008-01-03 2019-08-13 Apple Inc. Methods and apparatus for altering audio output signals
US9865248B2 (en) 2008-04-05 2018-01-09 Apple Inc. Intelligent text-to-speech conversion
US9626955B2 (en) 2008-04-05 2017-04-18 Apple Inc. Intelligent text-to-speech conversion
US10108612B2 (en) 2008-07-31 2018-10-23 Apple Inc. Mobile device having human language translation capability with positional feedback
US9535906B2 (en) 2008-07-31 2017-01-03 Apple Inc. Mobile device having human language translation capability with positional feedback
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US10475446B2 (en) 2009-06-05 2019-11-12 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10795541B2 (en) 2009-06-05 2020-10-06 Apple Inc. Intelligent organization of tasks items
US11080012B2 (en) 2009-06-05 2021-08-03 Apple Inc. Interface for a virtual digital assistant
US10283110B2 (en) 2009-07-02 2019-05-07 Apple Inc. Methods and apparatuses for automatic speech recognition
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US9548050B2 (en) 2010-01-18 2017-01-17 Apple Inc. Intelligent automated assistant
US8892446B2 (en) 2010-01-18 2014-11-18 Apple Inc. Service orchestration for intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US8903716B2 (en) 2010-01-18 2014-12-02 Apple Inc. Personalized vocabulary for digital assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10706841B2 (en) 2010-01-18 2020-07-07 Apple Inc. Task flow identification based on user intent
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US10984327B2 (en) 2010-01-25 2021-04-20 New Valuexchange Ltd. Apparatuses, methods and systems for a digital conversation management platform
US10984326B2 (en) 2010-01-25 2021-04-20 Newvaluexchange Ltd. Apparatuses, methods and systems for a digital conversation management platform
US8977584B2 (en) 2010-01-25 2015-03-10 Newvaluexchange Global Ai Llp Apparatuses, methods and systems for a digital conversation management platform
US10607140B2 (en) 2010-01-25 2020-03-31 Newvaluexchange Ltd. Apparatuses, methods and systems for a digital conversation management platform
US9431028B2 (en) 2010-01-25 2016-08-30 Newvaluexchange Ltd Apparatuses, methods and systems for a digital conversation management platform
US9424862B2 (en) 2010-01-25 2016-08-23 Newvaluexchange Ltd Apparatuses, methods and systems for a digital conversation management platform
US9424861B2 (en) 2010-01-25 2016-08-23 Newvaluexchange Ltd Apparatuses, methods and systems for a digital conversation management platform
US10607141B2 (en) 2010-01-25 2020-03-31 Newvaluexchange Ltd. Apparatuses, methods and systems for a digital conversation management platform
US11410053B2 (en) 2010-01-25 2022-08-09 Newvaluexchange Ltd. Apparatuses, methods and systems for a digital conversation management platform
US9633660B2 (en) 2010-02-25 2017-04-25 Apple Inc. User profiling for voice input processing
US10049675B2 (en) 2010-02-25 2018-08-14 Apple Inc. User profiling for voice input processing
WO2012020444A1 (ja) * 2010-08-09 2012-02-16 三菱電機株式会社 情報処理装置
JP5128011B2 (ja) * 2010-08-09 2013-01-23 三菱電機株式会社 情報処理装置
US9002715B2 (en) 2010-08-09 2015-04-07 Mitsubishi Electric Corporation Information processor
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10102359B2 (en) 2011-03-21 2018-10-16 Apple Inc. Device access using voice authentication
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US11120372B2 (en) 2011-06-03 2021-09-14 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US9798393B2 (en) 2011-08-29 2017-10-24 Apple Inc. Text correction processing
JP2015018265A (ja) * 2011-09-28 2015-01-29 アップル インコーポレイテッド コンテキスト情報を使用した音声認識修正
KR101418163B1 (ko) 2011-09-28 2014-07-09 애플 인크. 컨텍스트 정보를 이용한 음성 인식 복구
CN105336326A (zh) * 2011-09-28 2016-02-17 苹果公司 用于使用上下文信息的语音识别修复的方法和系统
JP2013073240A (ja) * 2011-09-28 2013-04-22 Apple Inc コンテキスト情報を使用した音声認識修正
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9953088B2 (en) 2012-05-14 2018-04-24 Apple Inc. Crowd sourcing information to fulfill user requests
US10079014B2 (en) 2012-06-08 2018-09-18 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9971774B2 (en) 2012-09-19 2018-05-15 Apple Inc. Voice-based media searching
US10199051B2 (en) 2013-02-07 2019-02-05 Apple Inc. Voice trigger for a digital assistant
US10978090B2 (en) 2013-02-07 2021-04-13 Apple Inc. Voice trigger for a digital assistant
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
US9697822B1 (en) 2013-03-15 2017-07-04 Apple Inc. System and method for updating an adaptive speech recognition model
US9620104B2 (en) 2013-06-07 2017-04-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9966060B2 (en) 2013-06-07 2018-05-08 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9633674B2 (en) 2013-06-07 2017-04-25 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
US9966068B2 (en) 2013-06-08 2018-05-08 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10657961B2 (en) 2013-06-08 2020-05-19 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10185542B2 (en) 2013-06-09 2019-01-22 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
JP2014240864A (ja) * 2013-06-11 2014-12-25 富士ソフト株式会社 音声認識システムおよび音声認識システムの制御方法
US9300784B2 (en) 2013-06-13 2016-03-29 Apple Inc. System and method for emergency calls initiated by voice command
CN103400576A (zh) * 2013-07-18 2013-11-20 百度在线网络技术(北京)有限公司 基于用户行为日志的语音模型更新方法及装置
US10791216B2 (en) 2013-08-06 2020-09-29 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10497365B2 (en) 2014-05-30 2019-12-03 Apple Inc. Multi-command single utterance input method
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10169329B2 (en) 2014-05-30 2019-01-01 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11257504B2 (en) 2014-05-30 2022-02-22 Apple Inc. Intelligent assistant for home automation
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10083690B2 (en) 2014-05-30 2018-09-25 Apple Inc. Better resolution when referencing to concepts
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9668024B2 (en) 2014-06-30 2017-05-30 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10904611B2 (en) 2014-06-30 2021-01-26 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US10431204B2 (en) 2014-09-11 2019-10-01 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9986419B2 (en) 2014-09-30 2018-05-29 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
KR101895251B1 (ko) 2014-10-29 2018-09-05 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 대화 처리 방법, 대화 관리 시스템 및 컴퓨터 기기
KR20160124766A (ko) * 2014-10-29 2016-10-28 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 대화 처리 방법, 대화 관리 시스템 및 컴퓨터 기기
US11556230B2 (en) 2014-12-02 2023-01-17 Apple Inc. Data detection
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10311871B2 (en) 2015-03-08 2019-06-04 Apple Inc. Competing devices responding to voice triggers
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10356243B2 (en) 2015-06-05 2019-07-16 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10540969B2 (en) 2015-08-10 2020-01-21 Clarion Co., Ltd. Voice operating system, server device, on-vehicle device, and voice operating method
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11069347B2 (en) 2016-06-08 2021-07-20 Apple Inc. Intelligent automated assistant for media exploration
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10354011B2 (en) 2016-06-09 2019-07-16 Apple Inc. Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10733993B2 (en) 2016-06-10 2020-08-04 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10297253B2 (en) 2016-06-11 2019-05-21 Apple Inc. Application integration with a digital assistant
US10521466B2 (en) 2016-06-11 2019-12-31 Apple Inc. Data driven natural language event detection and classification
US10269345B2 (en) 2016-06-11 2019-04-23 Apple Inc. Intelligent task discovery
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US10089072B2 (en) 2016-06-11 2018-10-02 Apple Inc. Intelligent device arbitration and control
US10553215B2 (en) 2016-09-23 2020-02-04 Apple Inc. Intelligent automated assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10755703B2 (en) 2017-05-11 2020-08-25 Apple Inc. Offline personal assistant
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US10410637B2 (en) 2017-05-12 2019-09-10 Apple Inc. User-specific acoustic models
US10791176B2 (en) 2017-05-12 2020-09-29 Apple Inc. Synchronization and task delegation of a digital assistant
US10810274B2 (en) 2017-05-15 2020-10-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10482874B2 (en) 2017-05-15 2019-11-19 Apple Inc. Hierarchical belief states for digital assistants
US11217255B2 (en) 2017-05-16 2022-01-04 Apple Inc. Far-field extension for digital assistant services
WO2020166183A1 (ja) * 2019-02-13 2020-08-20 ソニー株式会社 情報処理装置及び情報処理方法
CN111177307A (zh) * 2019-11-22 2020-05-19 深圳壹账通智能科技有限公司 一种基于语义理解相似度阀值配置的测试方案及系统
WO2023100236A1 (ja) * 2021-11-30 2023-06-08 ファナック株式会社 音声認識装置、およびコンピュータ読み取り可能な記憶媒体

Similar Documents

Publication Publication Date Title
JP2005181386A (ja) 音声対話処理装置及び音声対話処理方法並びにプログラム
US10192543B2 (en) Method and system for conveying an example in a natural language understanding application
JP4864712B2 (ja) ユーザインタフェースを有するインテリジェント音声認識
US6581033B1 (en) System and method for correction of speech recognition mode errors
US5970448A (en) Historical database storing relationships of successively spoken words
CA2625028C (en) Automatic detection and application of editing patterns in draft documents
US8612212B2 (en) Method and system for automatically detecting morphemes in a task classification system using lattices
KR101066741B1 (ko) 컴퓨터 시스템과 동적으로 상호작용하기 위한 컴퓨터 구현 방법, 시스템, 및 컴퓨터 판독가능 기록 매체
US7225130B2 (en) Methods, systems, and programming for performing speech recognition
US7444286B2 (en) Speech recognition using re-utterance recognition
US7149970B1 (en) Method and system for filtering and selecting from a candidate list generated by a stochastic input method
CA2653973C (en) Replacing text representing a concept with an alternate written form of the concept
KR101042119B1 (ko) 음성 이해 시스템, 및 컴퓨터 판독가능 기록 매체
RU2379767C2 (ru) Коррекция ошибок для систем распознавания речи
US7526431B2 (en) Speech recognition using ambiguous or phone key spelling and/or filtering
EP0773532A2 (en) Continuous speech recognition
US7313526B2 (en) Speech recognition using selectable recognition modes
US20080133245A1 (en) Methods for speech-to-speech translation
US7716058B2 (en) Speech recognition using automatic recognition turn off
US20050159957A1 (en) Combined speech recognition and sound recording
US20030091163A1 (en) Learning of dialogue states and language model of spoken information system
US20050234720A1 (en) Voice application system
JP2014067062A (ja) アジア文字を生成するための認識アーキテクチャ
JPH06282291A (ja) 混同するほど類似した語句の入力を防止する方法と装置
JP2000035799A (ja) 音声認識におけるポジション操作

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060829

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090908

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100406