JP4987623B2 - ユーザと音声により対話する装置および方法 - Google Patents

ユーザと音声により対話する装置および方法 Download PDF

Info

Publication number
JP4987623B2
JP4987623B2 JP2007213828A JP2007213828A JP4987623B2 JP 4987623 B2 JP4987623 B2 JP 4987623B2 JP 2007213828 A JP2007213828 A JP 2007213828A JP 2007213828 A JP2007213828 A JP 2007213828A JP 4987623 B2 JP4987623 B2 JP 4987623B2
Authority
JP
Japan
Prior art keywords
candidate
response
recognition result
phrase
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007213828A
Other languages
English (en)
Other versions
JP2009047920A (ja
Inventor
建太郎 降幡
哲朗 知野
聡史 釜谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2007213828A priority Critical patent/JP4987623B2/ja
Publication of JP2009047920A publication Critical patent/JP2009047920A/ja
Application granted granted Critical
Publication of JP4987623B2 publication Critical patent/JP4987623B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、入力した音声に応じた動作を実行することによりユーザと対話する装置および方法に関するものである。
近年、音声認識、音声合成および対話理解といった要素技術の研究が進み、それらを組み合わせることによって、複雑なボタン操作やコマンド入力をせずとも、自然言語音声の発話によって機械を操作できるような音声対話インターフェースが実用化されつつある。
また、デジタル家電やカーナビゲーションシステムの性能の向上に伴って、このような従来型のユーザ・インタフェースよりも高い処理性能が必要な音声対話インターフェースの実装も可能になりつつある。
しかし、上記のような各要素技術にはまだ多くの技術的課題が残されており、システムに対するユーザの入力音声を常に正しく解釈し、ユーザの要求を満たす動作の実行または応答の出力を可能とするほど精度の高いシステムの実現はきわめて困難である。
例えば、音声からユーザの要求意図を解釈するためには、最初に音声認識処理によって、音声波形から言語情報を抽出する必要がある。ところが、この音声認識処理でさえ、常に正しい結果が得られるわけではない。例えば、雑音環境下では、認識精度が著しく低下するという課題が存在する。
また、認識した言語情報(テキスト)から、形態素情報、構文情報を抽出し、さらに発話意図を解析する処理を行う必要があるが、いずれの過程でも誤りが生じる可能性が存在する。特に、発話意図を抽出するような対話理解には、文脈などを考慮した非常に高度な言語処理が必要である。このため、ユーザからの自由発話を入力できる音声対話処理システムが、ユーザの発話を常に正しく解釈し、曖昧性の発生を避けることは非常に困難である。
そこで、各処理段階における要素技術の改良とともに、ヒューマン・インターフェース(HI)を用いて、ユーザがシステムの解釈の曖昧性・誤りを訂正できるようにするという対策が採られている。
ところが、ユーザに対するシステムの解釈結果のフィードバックの仕方によっては、手順が複雑になる場合や、ユーザ入力−システムの解釈結果応答−ユーザの訂正入力−システムの解釈訂正−システム動作実行という一連の訂正処理の時間が増加する場合があり、ユーザにストレスを与える可能性がある。
例えば、ユーザの発話に対する複数の解釈候補が存在する場合に、各解釈候補をユーザに音声でフィードバックし、ユーザに正しい解釈候補を選択させる方法を考える。この方法では、解釈候補をテキストによって一覧表示することができないため、それぞれの解釈候補に対応する読み上げ音声を順番に出力する必要がある。このため、出力に時間がかかる上、ユーザがその音声を逐一聞いて確認するための処理負担も増大する。
これを避けるための方法としては、例えば、システムが第1位の解釈候補のみを出力し、ユーザからの訂正入力を受け付けるという方式が考えられる。しかし、単純に応答出力−訂正入力−確認応答出力という手順で訂正する方式では、訂正処理が煩雑になるという問題がある。
また、音声でフィードバックするのではなく、テキストで一覧表示してフィードバックするテキスト表示型インターフェースも考えられる。しかし、表示部が小さい場合は、スクロール等の操作が必要になるため、上記と同様に訂正処理が煩雑になるという問題が生じうる。
このように、音声対話型HIでは、人(ユーザ)と機械間の対話を円滑に進められるような工夫が求められる。
例えば、特許文献1では、ユーザからの発話を音声認識する認識処理の過程で、認識誤りが生じたフレーズを自動的に検出し、検出部分のみを原言語話者にテキストまたは音声によって提示して訂正させることによって、円滑な訂正が可能な対話インターフェースを実現する技術が提案されている。この方法では、発話者に提示されるのは誤りフレーズのみであるため、文全体の確認や再入力が不要となり、訂正に要する時間を短くすることができる。
特開2000−29492号公報
しかしながら、特許文献1の方法では、音声認識で誤認識が生じうるのと同様に、音声認識誤り箇所の特定にも誤りが生じうるため、誤認識箇所を正しく訂正できない場合があるという問題があった。また、特定された誤りフレーズ以外のフレーズを訂正することができないという問題があった。
このような問題を解消し、円滑な対話を実現するためには、誤り箇所のみでなく解釈結果全体を音声により確認し、音声により訂正可能とすることが望ましい。しかしこの場合も、解釈結果全体の音声をすべて出力してから訂正発話を受け付けるという一般的な確認・訂正方法では、対話の進行が妨げられるという問題が生じうる。
本発明は、上記に鑑みてなされたものであって、対話を阻害することなく誤り箇所を容易に訂正することができる装置および方法を提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、入力した音声を認識し、認識結果の候補を複数生成する認識部と、第1音声に対する複数の第1認識結果の候補を解析して、複数の第1認識結果の候補それぞれに対応する応答の候補と、第1認識結果の候補に対する応答の候補の確からしさを表す尤度とを生成する候補生成部と、前記尤度が最大となる第1認識結果の第1候補に対する応答の候補を選択し、選択した前記第1認識結果の第1候補に対する応答の候補を表す語句を含む第1認識結果の第1候補に対する応答文を生成する応答文生成部と、第1認識結果の第1候補に対する応答文を音声信号に変換した合成音声を出力する出力部と、前記合成音声の出力中に第2音声が入力された場合、前記候補生成部で生成された第2音声に対する第2認識結果の候補を解析して、前記第1認識結果の第1候補に対する応答文に含まれる語句を修正した修正語句を生成する修正語句生成部と、複数の第1認識結果の候補に対する応答の候補から、前記修正語句と同一の語句を含む第1認識結果の別の候補に対する応答の候補を取得し、第1認識結果の別の候補に対する応答の候補のうち前記尤度が最大の第1認識結果の別の候補に対する応答の候補を選択する選択部と、選択された第1認識結果の別の候補に対する応答の候補の語句で前記応答文を更新する更新部と、を備え、前記出力部は、前記応答文が更新された場合、更新前の前記応答文の合成音声に代えて、更新後の前記応答文の合成音声を出力し、前記応答文生成部は、前記応答の候補を表す語句を、該語句の曖昧性が少ない順に文頭から含む前記応答文を生成すること、を特徴とする。
また、本発明は、上記装置を実行することができる方法である。
本発明によれば、対話を阻害することなく誤り箇所を容易に訂正することができるという効果を奏する。
以下に添付図面を参照して、この発明にかかる装置および方法の最良な実施の形態を詳細に説明する。
本実施の形態にかかる音声対話装置は、ユーザの入力音声を解釈し、解釈結果に対応する応答文を音声出力するとともに、応答文の出力中に入力された応答文を修正するための修正音声を利用して解釈結果と応答文を同時に更新し、更新後の応答文を出力するものである。
なお、以下では、ハードディクレコーダーやマルチメディアパソコンなどの、録画した放送番組等を録画再生可能なビデオ録画再生装置として音声対話装置を実現した例について説明する。なお、適用可能な装置はビデオ録画再生装置に限られず、ユーザの入力音声に対応する応答を出力するものであればあらゆる装置に適用できる。
図1は、本実施の形態にかかるビデオ録画再生装置100の構成を示すブロック図である。図1に示すように、ビデオ録画再生装置100は、主はハードウェア構成として、マイク131と、スピーカ132と、記憶部120と、を備えている。また、ビデオ録画再生装置100は、主はソフトウェア構成として、受付部101と、対話処理部110と、出力部102と、録画再生部103とを備えている。
マイク131は、ユーザの発話した音声を入力するものである。また、スピーカ132は、応答を合成した合成音声などのデジタル形式の音声信号をアナログ形式の音声信号に変換(DA変換)して出力するものである。
記憶部120は、対話処理部110で生成されるアクション候補群、アクション断片、および応答フレーズリストなどの各種データ(詳細は後述)を記録するものである。記憶部120は、HDD(Hard Disk Drive)、光ディスク、メモリカード、RAM(Random Access Memory)などの一般的に利用されているあらゆる記憶媒体により構成することができる。
受付部101は、マイク131から入力された音声のアナログ信号に対してサンプリングを行い、PCM(パルスデジタルコードモジュレーション)形式などのデジタル信号に変換して出力する処理を行うものである。受付部101の処理では、従来から用いられているA/D変換技術などを適用することができる。
対話処理部110は、ユーザから入力された音声に対応する応答および応答の内容を表す応答文を生成して出力することにより、ユーザとの対話処理を実行するものである。具体的には、対話処理部110は、まず、デジタル信号を音声認識してユーザの要求を解釈する。次に、対話処理部110は、その解釈結果に応じた応答の候補を生成する。さらに、対話処理部110は、最尤の候補に対応する応答文を生成する。
以下に、対話処理部110の詳細な機能と構成について説明する。図1に示すように、対話処理部110は、認識部111と、候補生成部112と、応答文生成部113と、修正語句生成部114と、選択部115と、更新部116と、を備えている。
認識部111は、受付部101が出力した音声のデジタル信号を音声認識してユーザの要求を表す認識結果の候補を生成するものである。具体的には、認識部111は、入力したデジタル信号を音声認識して、少なくとも1つの認識候補テキストからなる認識候補群を生成する。認識部111による音声認識処理では、LPC分析、隠れマルコフモデル(HMM:Hidden Markov Model)、ダイナミックプログラミング、ニューラルネットワーク、Nグラム言語モデルなどを用いた、一般的に利用されているあらゆる音声認識方法を適用することができる。
図2は、音声認識結果の一例を示す説明図である。図2は、「MHKで朝、英語講座を録ってね」を意味する日本語に対応する音声I0(「えむえっちけーであさえいごこうざをとってね」)に対する音声認識結果の例を示している。また、図2は、ラティス表現形式により音声認識結果を表した例を示している。
この例では、ノード201(「朝」)とノード202(「あさって」)との間、およびノード203(「英語講座を」)とノード204(「囲碁講座を」)との間に、それぞれ解釈の曖昧性が生じている。
なお、ラティスのノード間の線に付された数値は、ラティスの生成過程で統計的な共起頻度などから計算されたコストを表す。同図では、例えば、ノード205(「MHKで」)とノード201(「朝」)との間のコストが2であること、ノード202(「あさって」)とノード203(「英語講座を」)との間のコストが4であることが示されている。
認識部111は、このような認識結果のラティス表現およびコストを元に、確からしさを表す尤度が上位の所定数の候補を含む認識候補群を生成する。図3は、生成された認識候補文の一例を示す説明図である。図3は、図2のスタートノードからエンドノードまでのコストの総和に対応する尤度にしたがって、第1位候補から第4位候補まで順位付けを決定した結果を示している。
図3に示すように、認識部111は、認識候補を識別する候補番号と、認識候補の内容を表す候補テキストと、尤度とを対応づけた認識候補を生成する。なお、図3の例では、ユーザの要求に対応する正しい認識結果が第3位候補となっている。このように、音声認識処理では、第1位候補が誤りであっても、他の候補に正しい認識結果が含まれる場合が生じうる。
図1に戻り、候補生成部112は、このような状況を考慮し、最上位の候補に対する応答を生成するだけでなく、認識結果の候補それぞれについて、対応する応答の候補を生成するものである。なお、応答とは、ユーザの入力音声に対応して実行する処理または出力する内容を言う。本実施の形態は、ビデオ録画再生装置の例であるため、例えば、テレビ番組の再生・録画などの処理が応答となる。なお、以下では、応答をアクションといい、応答の候補をアクション候補という。
図4は、アクションの一例を示す説明図である。図4に示すように、アクションは、「操作」、「日時」、「チャンネル」、および「番組名」の4つの属性(以下、アクション属性という)を含む。なお、図4の表の2行目以降がアクションに相当する。
例えば、2行目は、「朝」(日時)に「MHK」(チャンネル)の「英語講座」(番組名)を録画する(操作)というシステムの動作を表している。また、3行目は、「録画データ1」を再生するという動作を表す。ここで、「再生」は、ユーザ要求があった場合に、即時再生する動作を表すため、「日時」の値は空(「−」で表す)である。また、「チャンネル」の値も空である。
このように、アクションの表現形式は固定されるものではなく、少なくとも1つの語句によって、実行する処理や出力内容を表せればよい。図4の例では、少なくとも「操作」が設定されていればアクションの内容を特定することができる。
候補生成部112は、認識候補群に対して、形態素解析、構文解析、意味解析などの言語解析手法を適用することにより、ユーザの要求に対応するアクション候補群を生成する。このとき、候補生成部112は、音声認識処理で算出された認識候補それぞれの尤度および言語解析処理における確信度などから、各アクション候補についての尤度を算出し、各候補を順位付ける。
図5は、アクション候補群の一例を示す説明図である。図5は、図3に示した各認識候補に対するアクション候補の例を示している。図5に示すように、アクション候補は、識別子である「候補」と、図4と同様の「操作」、「日時」、「チャンネル」、および「番組名」と、「尤度」とを含む。図5の表中、2行目以降の各行がアクションに相当し、第1位候補であるAct1から昇順に並べてある。図5の例では、簡単のため、言語処理が正しく行われているものと仮定し、アクション候補の尤度の値として、図3に示した認識候補の尤度値をそのまま用いている。
図1に戻り、応答文生成部113は、尤度が最大のアクション候補が、ユーザの要求を満たすか否かをユーザに確認するための応答文を生成するものである。具体的には、応答文生成部113は、アクション属性によって記述したテンプレートを用いて応答文を生成する。
図6は、テンプレートの一例を示す説明図である。図6に示すように、テンプレートTは、記号「{}」で指定した変数部と、その他の固定部とを含んでいる。変数部は、記号「{}」内にアクション属性を指定することにより、各アクション候補の対応するアクション属性の属性値を当てはめることを表している。また、テンプレートTは、記号「/」によって、それぞれ1つのアクション属性が含まれるようにフレーズ単位で分割される。このように、予めフレーズ単位に分割するのは、後述の出力部102が、応答文をフレーズ単位で順次出力できるようにするためである。なお、以下では、フレーズ単位で区切られた応答文を応答フレーズリストといい、P{P1〜PN}(Nはフレーズ数)と表す。
なお、応答文の生成方法はテンプレートを用いた方法に限られるものではなく、文法規則や生成規則を用いて文を生成する方法などの従来から用いられているあらゆる方法を適用できる。
図7は、テンプレートを用いて生成された応答フレーズリストの一例を示す説明図である。図7は、図5のアクション候補CAct1を、図6のテンプレートに適用して生成した応答フレーズリストを表している。各応答フレーズP1〜P4は、この順で出力部102から音声出力される。
図1に戻り、修正語句生成部114は、後述する出力部102によって出力された応答文に対してユーザが発話した応答文の修正内容を表す修正語句を生成するものである。具体的には、修正語句生成部114は、修正のために発話された音声に対する認識部111による認識結果の候補を元に、アクションを構成する複数のアクション属性のうち少なくとも1つに対応する属性値を含むアクション断片を修正語句として生成する。
ユーザが応答文を修正する場合、応答文のすべてを再度発話するのではなく、修正部分のみを発話する場合がある。すなわち、ユーザの発話に、アクションの全てのアクション属性(操作、日時、チャンネル、番組名)が含まれない場合がある。このような場合でも、修正語句生成部114は、認識結果の候補から、少なくともアクション属性の一部を抽出することができる。そして、このようにして抽出されたアクション属性の属性値は、ユーザが要求する修正内容を表すため、修正語句生成部114は、この属性値を修正語句として生成する。
図8は、認識部111により生成された認識候補文の別の例を示す説明図である。図8は、図7に示す応答フレーズを含む応答文に対して修正を要求するためユーザが発話した音声であり、アクション属性のうち「日時」を修正するために発話した、「朝だよ」を意味する日本語の入力音声I1(「あさだよ」)に対する音声認識結果の例を示している。また、図8は、認識結果の候補として唯一の候補(「朝だよ」)が生成されたことを示している。
このような認識結果に対し、修正語句生成部114は、アクション属性「日時」の値が「朝」であるという情報をアクション断片として抽出する。図9は、このようにして生成されたアクション断片の一例を示す説明図である。図9は、上述の入力音声I1から生成されたアクション断片の例である。
なお、修正語句生成部114と候補生成部112とは、アクション属性の一部のみを含むアクション断片を生成するか、すべてを含むアクション候補を生成するかが異なるのみである。すなわち、認識結果に対して、形態素解析、構文解析、意味解析などの言語解析手法を実行してユーザの要求を解釈する処理手順は共通する。したがって、両者のうちいずれか一方を他方に統合するように構成してもよい。
選択部115は、アクション候補群から、アクション断片の属性値を全て含むアクション候補群を選択し、選択したアクション候補群の中から最も尤度の大きい候補を新たな第1位候補として選択するものである。
例えば、図5に示すようなアクション候補群が生成され、さらに図9に示すようなアクション断片(以下、アクション断片SEG1という)が生成されたとする。この場合、選択部115は、図5のアクション候補群の中で、属性「日時」がアクション断片SEG1((当日)朝)と一致するアクション候補を探す。図5の例では、選択部115は、CAct3およびCAct4を取得することができる。次に、選択部115は、CAct3およびCAct4のうち、尤度の大きい方を新たに第1位候補として選択する。この例では、CAct3の尤度=0.2>CAct4の尤度=0.1であるため、CAct3が選択される。
更新部116は、選択部115により選択されたアクション候補を元に応答フレーズリストを更新するものである。具体的には、更新部116は、まず、選択部115が新たに選択したアクション候補(以下、新候補という)と、選択前の第1位のアクション候補(以下、旧候補という)との間で、すべてのアクション属性値を比較する。そして、更新部116は、不一致部分に対応する新候補のアクション属性を抽出する。
図10は、旧候補の一例を示す説明図である。また、図11は、新候補の一例を示す説明図である。図10および図11の例では、アクション属性「日時」および「番組名」が相違しているため、更新部116は、これらのアクション属性を抽出する。
次に、更新部116は、旧候補から生成した応答フレーズリストのうち、抽出したアクション属性に対応する応答フレーズを、新たな属性値で更新する。図11の例では、更新部116は、属性値1101((当日)朝)および属性値1102(英語講座)を新たな属性値として取得する。そして、更新部116は、生成済みの応答フレーズリストの対応する応答フレーズの内容を新たな属性値で変更する。
図12は、更新された後の応答フレーズリストの一例を示す説明図である。図12は、図7の応答フレーズリストを、図11に示すようなアクション候補の属性を用いて更新した後の応答フレーズリストを表している。
なお、上述のように、候補生成部112は、事前にすべての認識結果の候補に対応するアクション候補を生成している。このため、アクションを修正する場合は、選択部115が、ユーザの修正発話に応じて、生成済みのアクション候補から、より適切なアクション候補を選択するだけでよい。すなわち、応答文に対するユーザの修正発話に応じて、応答文(応答フレーズリスト)だけでなくアクション候補を同時に修正することが可能となる。
出力部102は、応答文生成部113によって生成された応答文、または更新部116によって更新された応答文を音声信号に変換した合成音声を生成し、合成音声をスピーカ132に出力するものである。
具体的には、出力部102は、まず、応答文を構成する各文字列を音声信号に変換する音声合成処理を行う。出力部102による音声合成処理は、音声素片編集音声合成、フォルマント音声合成、音声コーパスベースの音声合成などの一般的に利用されているあらゆる方法を適用することができる。そして、出力部102は、生成した音声信号をDA変換してスピーカ132に出力する。
また、出力部102は、応答文が更新された場合、更新後の応答文をいずれの部分から出力するかを特定する。具体的には、出力部102は、更新前の応答文で出力されていない応答フレーズを特定し、特定した応答フレーズから更新後の応答文の合成音声を出力する。
録画再生部103は、決定されたアクション、すなわち、尤度が最大のアクション候補を実行するものである。例えば、録画再生部103は、図5のCAct3が最尤のアクション候補として選択された場合、CAct3の各アクション属性に従い、指定された日時に、指定されたチャンネルの指定された番組名の番組を録画するアクションを実行する。
なお、録画再生部103などのような実際のアクションを実行する構成部を外部装置に備えるように構成してもよい。この場合は、決定したアクションに関する情報を音声対話装置から外部装置に出力し、外部装置はこの情報を参照してアクションを実行するように構成する。
次に、このように構成された本実施の形態にかかるビデオ録画再生装置100による音声対話処理について図13を用いて説明する。図13は、本実施の形態における音声対話処理の全体の流れを示すフローチャートである。
まず、受付部101は、マイク131から入力音声I0が入力されたか否かを判断する(ステップS1301)。入力音声I0が入力されていない場合は(ステップS1301:NO)、入力されるまで処理を繰り返す。
入力音声I0が入力された場合(ステップS1301:YES)、認識部111は、入力音声I0を音声認識し、認識候補群を生成する(ステップS1302)。次に、候補生成部112が、認識候補群の各候補について、対応するアクション候補を求め、アクション候補群CAct{CAct1〜CActM}(Mはアクション候補の個数)を生成する(ステップS1303)。
次に、応答文生成部113が、尤度が最大のアクション候補ACTを決定する(ステップS1304)。次に、応答文生成部113は、アクション候補ACTに対応する応答フレーズリストP{P1〜PN}(Nはフレーズ数)を生成する(ステップS1305)。具体的には、応答文生成部113は、図6に示すようなテンプレートを参照し、テンプレートの変数部に、アクション候補ACTの対応するアクション属性の属性値をそれぞれ当てはめることにより、応答フレーズリストPを生成する。
次に、出力部102が、生成された応答フレーズリストPから順次応答フレーズPi(i=1〜N)を取得し、音声合成した合成音声を出力する(ステップS1306)。なお、iは応答フレーズの出力順を表すカウンタ値である。
次に、受付部101は、マイク131から入力音声Iiが入力されたか否かを判断する(ステップS1307)。なお、入力音声Iiは、i番目の応答フレーズPiの出力中に入力された音声であることを意味するが、応答フレーズPiの修正内容を表す音声であるとは限らない。すなわち、応答フレーズPiの前に出力された応答フレーズP1〜Pi−1のいずれかの修正内容を表す場合もある。また、未出力の応答フレーズPi+1〜PNをユーザが推測して発話した場合であれば、入力音声Iiが応答フレーズPi+1〜PNの修正内容を表す場合もある。
入力音声Iiが入力された場合は(ステップS1307:YES)、入力音声Iiの内容にしたがって最尤のアクション候補および対応する応答文を更新する候補更新処理が実行される(ステップS1308)。候補更新処理の詳細については後述する。
候補更新処理の後、またはステップS1307で入力音声Iiが入力されていない場合(ステップS1307:NO)、出力部102は、すべての応答フレーズを処理したか否かを判断する(ステップS1309)。
すべての応答フレーズを処理していない場合は(ステップS1309:NO)、出力部102は、次の応答フレーズに対して出力処理を繰り返す(ステップS1306)。なお、後述するように、候補更新処理でアクション候補が変更された場合は、変更後のアクション候補に対応して応答文(応答フレーズリスト)が更新されるため、出力部102は、更新後の応答フレーズリストから、次の応答フレーズを取得して出力する。
すべての応答フレーズを処理した場合は(ステップS1309:YES)、録画再生部103が、最尤のアクション候補ACTに対応するアクションを実行する(ステップS1310)。
このようにして、ユーザの要求に対する応答であるアクションの内容を確認するための応答文を生成し、応答文の出力中に修正のための音声が入力された場合は、この音声にしたがってアクションおよび応答文を同時に変更することができる。これにより、音声によって容易に誤り箇所を修正可能としつつ、ユーザとの対話を円滑に進めることができる。
次に、ステップS1308の候補更新処理の詳細について図14を用いて説明する。図14は、本実施の形態における候補更新処理の全体の流れを示すフローチャートである。
まず、認識部111は、入力音声Iiを音声認識し、認識結果を出力する(ステップS1401)。次に、修正語句生成部114は、認識結果を解析して少なくとも1つのアクション属性の属性値を含むアクション断片群SEG{SEG1〜SEGK}(Kはアクション断片の個数)を生成する(ステップS1402)。
次に、選択部115は、アクション断片群SEGが存在するか否かを判断し(ステップS1403)、存在する場合は(ステップS1403:YES)、アクション断片群SEGの要素と同じアクション属性に対応する属性値が、すべての要素について一致するアクション候補を選択する。そして、選択したアクション候補のうち、尤度が最大のアクション候補CActkを選択する(ステップS1404)。
次に、選択部115は、アクション候補CActkが存在するか否かを判断する(ステップS1405)。アクション候補CActkが存在する場合は(ステップS1405:YES)、更新部116が、アクション候補CActk(新候補)と、現在の最尤のアクション候補ACT(旧候補)とを比較する。そして、更新部116は、不一致部分に対応する新候補のアクション属性(以下、不一致属性という)を含む不一致属性群Att{Att1〜AttL}(Lは不一致属性の個数)を生成する(ステップS1406)。
次に、選択部115は、不一致属性群Attが存在するか否かを判断し(ステップS1407)、存在する場合は(ステップS1407:YES)、アクション候補CActkを最尤のアクション候補ACTとして設定する(ステップS1408)。
次に、更新部116は、応答フレーズリストPのうち、不一致属性群Attに含まれるアクション属性に対応する応答フレーズを、不一致属性群Attの属性値で置換する(ステップS1409)。
続いて、更新後の応答フレーズリストPを、いずれの応答フレーズから出力するかを特定するため、出力部102が以下の処理を実行する(ステップS1410〜ステップS1412)。
まず、出力部102は、置換した属性値のうち、最も文頭に近い属性値の文頭からの位置jを取得する(ステップS1410)。次に、出力部102は、取得した属性値の位置jが、更新前の応答フレーズリストPで出力済みの応答フレーズの位置iより前か否かを判断する(ステップS1411)。
通常は、出力済みの応答フレーズに対する修正内容が発話され、対応する属性値が置換されるため、jはiより小さくなる。しかし、上述のようにユーザが応答フレーズを推測して未出力の応答フレーズに対する修正内容が発話された場合などには、jがiより小さくならない場合がある。
位置jが位置iより前の場合は(ステップS1411:YES)、出力部102は、置換した属性値の位置jを、次の出力位置に設定する(ステップS1412)。すなわち、出力部102は、jをiに代入する。
ステップS1403でアクション断片群SEGが存在しないと判断された場合(ステップS1403:NO、ステップS1405でアクション候補CActkが存在しないと判断された場合(ステップS1405:NO)、ステップS1407で不一致属性群Attが存在しないと判断された場合(ステップS1407:NO)、または、ステップS1411で位置jが位置iより前でないと判断された場合は(ステップS1411:NO)、候補更新処理を終了する。
次に、本実施の形態のかかるビデオ録画再生装置100による音声対話処理の具体例について説明する。
まず、ユーザが、当日の朝、「MHK」というチャンネルの、「英語講座」という名称の番組の録画予約をセットする目的で、「MHKで朝、英語講座を録ってね」を意味する日本語の入力音声I0(えむえっちけーであさえいごこうざをとってね)を入力する(ステップS1301)。続いて、認識部111が、入力音声I0を音声認識し、図3に示すような認識候補群を生成する(ステップS1302)。さらに、候補生成部112が、この認識候補群から図5に示すアクション候補群CActを生成する(ステップS1303)。
なお、上述のように、図3の例では、ユーザの要求に適ったアクション候補は第3位候補であることに注意されたい。
アクション候補群CAct中、最も尤度が大きい候補は、尤度0.4のCAct1であるため、CAct1をACTに設定する(ステップS1304)。次に、応答文生成部113が、図6に示すようなテンプレートT({チャンネル}で/{日時}放送される/{番組名}を/{操作}しますね?)の変数部に対応するアクション属性のそれぞれに、CAct1の対応するアクション属性の属性値を挿入し、応答フレーズリストPを生成する(ステップS1305)。図7は、このときに生成される応答フレーズリストPを表している。
次に、出力部102が、カウンタi(=1)に対応する応答フレーズP1(MHKで)を音声合成して出力する(ステップS1306)。ここでは、応答フレーズP1の出力処理中には、ユーザから入力音声I1が入力されなかったと仮定する(ステップS1307:NO)。続いて、出力部102が、次のカウンタi(=2)に対応する応答フレーズP2(明後日放送される)を音声合成して出力する(ステップS1306)。
ここで、応答フレーズP2の音声出力中、ユーザが最初の入力音声I0の日時の指定((今日の)朝)が、誤って解釈されていることに気づいたと仮定する。そして、ユーザが、録画する日時を朝に修正するために、「朝だよ」を意味する日本語の入力音声I2(あさだよ)を入力したと仮定する(ステップS1307:YES)。
この場合は、入力音声I2を元に最尤のアクション候補ACTおよび応答フレーズリストPを更新する候補更新処理が実行される(ステップS1308)。
候補更新処理では、まず、認識部111が、入力音声I2を音声認識し、図8に示すような認識候補群を生成する(ステップS1401)。さらに、修正語句生成部114が、認識候補群に対応するアクション断片群SEGを生成する(ステップS1402)。ここでは、アクション候補の属性「日時」の情報のみが抽出されるため、アクション断片群SEG{SEG1}が得られる。
続いて、選択部115が、アクション断片群SEGの要素(ここではSEG1のみ)の属性「日時」の値が「(当日)朝」であるアクション候補群をアクション候補群CActから選択する。この例では、選択部115は、図5のCAct3およびCAct4を選択する。そして、選択部115は、これら候補のうち、最も尤度の大きいCAct3(尤度0.3)を最尤候補CActkとする(ステップS1404)。
最尤候補CActkが見つかったため(ステップS1405:YES)、更新部116は、CAct3とACT(=CAct1)の各属性値を比較し、不一致属性群Attを生成する(ステップS1406)。この例では、図11に示すように、属性値1101に対応するアクション属性「日時」と、属性値1102に対応するアクション属性「番組名」とが不一致属性群Attに含まれる。
そこで、更新部116は、応答フレーズリストP({MHK}で/{明後日}放送される/{囲碁講座}を/{録画}しますね?})の対応する属性値({明後日}および{囲碁講座})を、CAct3の属性値(「朝」および「英語講座」)で置き換える(ステップS1409)。図12は、このようにして更新された応答フレーズリストPを表している。
ここまでの処理によって、応答文に対応してユーザが発話した入力音声をフィードバックして、アクションおよびアクションに対応する応答フレーズも修正することができている。
しかし、応答フレーズを修正した場合に、途中まで出力した応答文(応答フレーズリスト)を再度、最初から出力するか、修正箇所だけ出力するか、といった出力の仕方によってユーザの利便性が大きく異なる。
そこで、本実施の形態では、上述のように、応答文のうち既に出力済みの部分は可能な限り再出力をさけつつ、変更箇所については必ず出力するように構成している。すなわち、更新した応答フレーズのうち、最も文頭に近い応答フレーズPj(最も添え字jが小さい応答フレーズ)が既に出力済みであれば、出力部102は、応答フレーズPjから出力を再開する。また、応答フレーズPjが未出力であれば、出力部102は、現在の出力位置を表すカウンタiが示す応答フレーズPiから続けて出力する。
上述の例では、最も文頭に近い更新された応答フレーズはP2({朝}放送される)である。すなわち、更新された応答フレーズの添え字うち最も小さい添え字jは2であり、現在のカウンタi=2と一致するため、カウンタiは更新しない(ステップS1411:NO)。
この後、出力部102は、更新後の応答フレーズP2({朝}放送される)の合成音声を出力する(ステップS1306)。ここで、ユーザが合成音声を聞くことにより入力音声I2が正しく解釈されたことを確認し、修正のための発話を行わなかったと仮定する。
以降、同様に、応答フレーズP3({英語講座}を)、および応答フレーズP4({録画}しますね?)が順次出力される。その間、ユーザからの応答発話が検出されなかったとすると、応答文の出力後、録画再生部103によって、確定されたアクションが実行される(ステップS1310)。その後、ユーザからの入力受付状態にもどる(ステップS1301)。
このように、本実施の形態にかかる音声対話装置では、ユーザの要求発話に応じた応答フレーズを順次出力し、ユーザからの修正のための応答があった場合は、アクション候補と応答フレーズリストを同時に修正することができる。また、修正箇所から応答フレーズの発話を続行するため、更新前で出力済みの部分は出力を省略することができる。これにより、余分な手順を踏んで対話を阻害することなく、容易に修正可能な音声対話装置を実現することができる。
また、応答文の音声を聞いたユーザが、まだ出力されていない部分についての誤りを推測して言い直した場合であっても、修正箇所を特定し、適切な候補を選択しなおすことができる。これにより、ユーザの利便性を向上させ、対話をより円滑に進めることが可能となる。
(変形例)
上記実施の形態では、図6に示したような固定のテンプレートにしたがって応答フレーズを生成し、生成した応答フレーズを順次出力していた。
しかし、文の先頭に近い応答フレーズが誤っているような場合、誤った応答フレーズが出力された時点までに出力される情報が少ないため、その情報のみから、応答フレーズが誤っているか否かを適切に判断できない場合が生じうる。
例えば、図7の応答フレーズリストの最初の応答フレーズP1({MHK}で)のチャンネル名である「MHK」が「LHK」の誤りであったとする。しかし、応答フレーズP1が出力された時点で、その断片的な情報のみから、その応答フレーズがチャンネル名に相当する箇所に対する応答フレーズであると、ユーザが瞬時に判別できるとは限らない。
そこで、本変形例では、より解釈の曖昧性の少ない応答フレーズを先に出力することにより、このような問題を軽減する。ただし、単純に曖昧性の少ない順に応答フレーズを並べ替えただけでは、言語的な制約によって、不自然な意味の応答文や、文法的に不適格な応答文が生成されるおそれがある。
例えば、図7に対応する応答文を「明後日放送される/MHKで/囲碁講座を/録画しますね?」のように並べ替えた場合、「放送される」が「MHK」に係り、意味的に誤った応答文となる。
そこで、並べ替えのための制約規則を構築し、その規則にしたがって応答フレーズリストを生成する。例えば、並べ替え可能なパターンを網羅した複数のテンプレートを予め用意し、最適なテンプレートを選択して応答文を生成するように構成する。具体的には、応答文生成部113が、このようなテンプレートから、曖昧性に応じて最適なテンプレートを選択して最尤のアクション候補の属性値を当てはめて応答文を生成する。
図15は、本変形例で利用するテンプレートの一例を示す説明図である。図15では、応答フレーズの出力順が異なる4つのテンプレートの例が示されている。
例えば、図5のアクション候補群が生成され、最尤のアクション候補CAct1の応答文を生成する場合、まず、応答文生成部113は、アクション候補のアクション属性それぞれの曖昧性を判断する。図5の例では、アクション属性「操作」および「チャンネル」は、ただ1通りの属性値を有するため、曖昧性は低いと判断される。アクション属性「日時」および「番組名」は、それぞれ2通りの属性値を有するため曖昧性が高いと判断される。
そこで、応答文生成部113は、アクション属性「操作」および「チャンネル」が先に出現するテンプレートを優先して選択する。図15の例では、応答文生成部113は、テンプレートT2({操作}しますね?/{チャンネル}で/{日時}放送される/{番組名}を/)を選択する。そして、この場合、応答文生成部113は、応答フレーズリストとして、「{録画}しますね?/{MHK}で/{明後日}放送される/{囲碁番組}を/」を生成する。
このように、事前に定められたテンプレートにしたがい応答文を生成しているため、文法的に誤った応答文が生成されることはない。また、曖昧性の少ない応答フレーズから順に出力するため、誤って認識された応答フレーズが出力されるまでに、多くの情報(応答フレーズ)が出力される可能性が高くなる。これにより、情報量が少ないことにより応答フレーズの適否を適切に判断できなくなるという上述の問題を解消することが可能となる。
次に、本実施の形態にかかる音声対話装置のハードウェア構成について図16を用いて説明する。図16は、本実施の形態にかかる音声対話装置のハードウェア構成を示す説明図である。
本実施の形態にかかる音声対話装置は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、各部を接続するバス61を備えている。
本実施の形態にかかる音声対話装置で実行される音声対話プログラムは、ROM52等に予め組み込まれて提供される。
本実施の形態にかかる音声対話装置で実行される音声対話プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。
さらに、本実施の形態にかかる音声対話装置で実行される音声対話プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施の形態にかかる音声対話装置で実行される音声対話プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
本実施の形態にかかる音声対話装置で実行される音声対話プログラムは、上述した各部(受付部、対話処理部、出力部、録画再生部)を含むモジュール構成となっており、実際のハードウェアとしてはCPU51が上記ROM52から音声対話プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、各部が主記憶装置上に生成されるようになっている。
以上のように、本発明にかかる装置および方法は、音声で入力された要求に応じて動作するビデオ録画再生装置、カーナビゲーションシステム、ゲーム機器などに適している。
本実施の形態にかかるビデオ録画再生装置の構成を示すブロック図である。 音声認識結果の一例を示す説明図である。 認識候補文の一例を示す説明図である。 アクションの一例を示す説明図である。 アクション候補群の一例を示す説明図である。 テンプレートの一例を示す説明図である。 応答フレーズリストの一例を示す説明図である。 認識候補文の別の例を示す説明図である。 アクション断片の一例を示す説明図である。 旧候補の一例を示す説明図である。 新候補の一例を示す説明図である。 更新された後の応答フレーズリストの一例を示す説明図である。 本実施の形態における音声対話処理の全体の流れを示すフローチャートである。 本実施の形態における候補更新処理の全体の流れを示すフローチャートである。 変形例で利用するテンプレートの一例を示す説明図である。 本実施の形態にかかる音声対話装置のハードウェア構成を示す説明図である。
符号の説明
51 CPU
52 ROM
53 RAM
54 通信I/F
61 バス
100 ビデオ録画再生装置
101 受付部
102 出力部
103 録画再生部
110 対話処理部
111 認識部
112 候補生成部
113 応答文生成部
114 修正語句生成部
115 選択部
116 更新部
120 記憶部
131 マイク
132 スピーカ
201〜205 ノード
1101、1102 属性値

Claims (7)

  1. 入力した音声を認識し、認識結果の候補を複数生成する認識部と、
    第1音声に対する複数の第1認識結果の候補を解析して、複数の第1認識結果の候補それぞれに対応する応答の候補と、第1認識結果の候補に対する応答の候補の確からしさを表す尤度とを生成する候補生成部と、
    前記尤度が最大となる第1認識結果の第1候補に対する応答の候補を選択し、選択した前記第1認識結果の第1候補に対する応答の候補を表す語句を含む第1認識結果の第1候補に対する応答文を生成する応答文生成部と、
    第1認識結果の第1候補に対する応答文を音声信号に変換した合成音声を出力する出力部と、
    前記合成音声の出力中に第2音声が入力された場合、前記候補生成部で生成された第2音声に対する第2認識結果の候補を解析して、前記第1認識結果の第1候補に対する応答文に含まれる語句を修正した修正語句を生成する修正語句生成部と、
    複数の第1認識結果の候補に対する応答の候補から、前記修正語句と同一の語句を含む第1認識結果の別の候補に対する応答の候補を取得し、第1認識結果の別の候補に対する応答の候補のうち前記尤度が最大の第1認識結果の別の候補に対する応答の候補を選択する選択部と、
    選択された第1認識結果の別の候補に対する応答の候補の語句で前記応答文を更新する更新部と、を備え、
    前記出力部は、前記応答文が更新された場合、更新前の前記応答文の合成音声に代えて、更新後の前記応答文の合成音声を出力し、
    前記応答文生成部は、前記応答の候補を表す語句を、該語句の曖昧性が少ない順に文頭から含む前記応答文を生成すること、
    を特徴とする音声対話装置。
  2. 前記出力部は、前記応答文が更新された場合、更新前の前記応答文で出力されていない語句に対応する語句から更新後の前記応答文の合成音声を出力すること、
    を特徴とする請求項1に記載の音声対話装置。
  3. 入力した音声を認識し、認識結果の候補を複数生成する認識部と、
    第1音声に対する複数の第1認識結果の候補を解析して、複数の第1認識結果の候補それぞれに対応する応答の候補と、第1認識結果の候補に対する応答の候補の確からしさを表す尤度とを生成する候補生成部と、
    前記尤度が最大となる第1認識結果の第1候補に対する応答の候補を選択し、選択した前記第1認識結果の第1候補に対する応答の候補を表す語句を含む第1認識結果の第1候補に対する応答文を生成する応答文生成部と、
    第1認識結果の第1候補に対する応答文を音声信号に変換した合成音声を出力する出力部と、
    前記合成音声の出力中に第2音声が入力された場合、前記候補生成部で生成された第2音声に対する第2認識結果の候補を解析して、前記第1認識結果の第1候補に対する応答文に含まれる語句を修正した修正語句を生成する修正語句生成部と、
    複数の第1認識結果の候補に対する応答の候補から、前記修正語句と同一の語句を含む第1認識結果の別の候補に対する応答の候補を取得し、第1認識結果の別の候補に対する応答の候補のうち前記尤度が最大の第1認識結果の別の候補に対する応答の候補を選択する選択部と、
    選択された第1認識結果の別の候補に対する応答の候補の語句で前記応答文を更新する更新部と、を備え、
    前記出力部は、前記応答文が更新された場合、更新前の前記応答文で出力されていない語句に対応する語句から、更新前の前記応答文の合成音声に代えて、更新後の前記応答文の合成音声を出力すること、
    を特徴とする音声対話装置。
  4. 前記出力部は、前記応答文に含まれる語句のうち、更新前の前記応答文で出力済みの語句が、更新された語句のうち最も文頭に近い語句より文末側に含まれる場合に、更新された語句のうち最も文頭に近い語句から更新後の前記応答文の合成音声を出力すること、
    を特徴とする請求項1〜3のいずれか1つに記載の音声対話装置。
  5. 前記出力部は、前記応答文に含まれる語句のうち、更新前の前記応答文で出力済みの語句が、更新された語句のうち最も文頭に近い語句より文頭側に含まれる場合に、出力済みの語句の次に文末側に含まれる語句から更新後の前記応答文の合成音声を出力すること、
    を特徴とする請求項1〜3のいずれか1つに記載の音声対話装置。
  6. 認識部、入力した音声を認識し、認識結果の候補を複数生成する認識ステップと、
    候補生成部、第1音声に対する複数の第1認識結果の候補を解析して、複数の第1認識結果の候補それぞれに対応する応答の候補と、第1認識結果の候補に対する応答の候補の確からしさを表す尤度とを生成する候補生成ステップと、
    応答文生成部、前記尤度が最大となる第1認識結果の第1候補に対する応答の候補を選択し、選択した前記第1認識結果の第1候補に対する応答の候補を表す語句を含む第1認識結果の第1候補に対する応答文を生成する応答文生成ステップと、
    出力部、第1認識結果の第1候補に対する応答文を音声信号に変換した合成音声を出力する第1出力ステップと、
    修正語句生成部、前記合成音声の出力中に第2音声が入力された場合、前記候補生成ステップで生成された第2音声に対する第2認識結果の候補を解析して、前記第1認識結果の第1候補に対する応答文に含まれる語句を修正した修正語句を生成する修正語句生成ステップと、
    選択部、複数の第1認識結果の候補に対する応答の候補から、前記修正語句と同一の語句を含む第1認識結果の別の候補に対する応答の候補を取得し、第1認識結果の別の候補に対する応答の候補のうち前記尤度が最大の第1認識結果の別の候補に対する応答の候補を選択する選択ステップと、
    更新部、選択された第1認識結果の別の候補に対する応答の候補の語句で前記応答文を更新する更新ステップと、
    出力部、前記応答文が更新された場合、更新前の前記応答文の合成音声に代えて、更新後の前記応答文の合成音声を出力する第2出力ステップと、を備え、
    前記応答文生成ステップは、前記応答の候補を表す語句を、該語句の曖昧性が少ない順に文頭から含む前記応答文を生成すること、
    を特徴とする音声対話方法。
  7. 認識部が、入力した音声を認識し、認識結果の候補を複数生成する認識ステップと、
    候補生成部が、第1音声に対する複数の第1認識結果の候補を解析して、複数の第1認識結果の候補それぞれに対応する応答の候補と、第1認識結果の候補に対する応答の候補の確からしさを表す尤度とを生成する候補生成ステップと、
    応答文生成部が、前記尤度が最大となる第1認識結果の第1候補に対する応答の候補を選択し、選択した前記第1認識結果の第1候補に対する応答の候補を表す語句を含む第1認識結果の第1候補に対する応答文を生成する応答文生成ステップと、
    出力部が、第1認識結果の第1候補に対する応答文を音声信号に変換した合成音声を出力する第1出力ステップと、
    修正語句生成部が、前記合成音声の出力中に第2音声が入力された場合、前記候補生成ステップで生成された第2音声に対する第2認識結果の候補を解析して、前記第1認識結果の第1候補に対する応答文に含まれる語句を修正した修正語句を生成する修正語句生成ステップと、
    選択部が、複数の第1認識結果の候補に対する応答の候補から、前記修正語句と同一の語句を含む第1認識結果の別の候補に対する応答の候補を取得し、第1認識結果の別の候補に対する応答の候補のうち前記尤度が最大の第1認識結果の別の候補に対する応答の候補を選択する選択ステップと、
    更新部が、選択された第1認識結果の別の候補に対する応答の候補の語句で前記応答文を更新する更新ステップと、
    出力部が、前記応答文が更新された場合、更新前の前記応答文で出力されていない語句に対応する語句から、更新前の前記応答文の合成音声に代えて、更新後の前記応答文の合成音声を出力する第2出力ステップと、を含むこと、
    を特徴とする音声対話方法。
JP2007213828A 2007-08-20 2007-08-20 ユーザと音声により対話する装置および方法 Active JP4987623B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007213828A JP4987623B2 (ja) 2007-08-20 2007-08-20 ユーザと音声により対話する装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007213828A JP4987623B2 (ja) 2007-08-20 2007-08-20 ユーザと音声により対話する装置および方法

Publications (2)

Publication Number Publication Date
JP2009047920A JP2009047920A (ja) 2009-03-05
JP4987623B2 true JP4987623B2 (ja) 2012-07-25

Family

ID=40500197

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007213828A Active JP4987623B2 (ja) 2007-08-20 2007-08-20 ユーザと音声により対話する装置および方法

Country Status (1)

Country Link
JP (1) JP4987623B2 (ja)

Families Citing this family (159)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
JP4992925B2 (ja) * 2009-03-23 2012-08-08 トヨタ自動車株式会社 音声対話装置及びプログラム
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
EP3671730A4 (en) * 2017-08-17 2020-07-15 Sony Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING PROCESS AND PROGRAM
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11810578B2 (en) 2020-05-11 2023-11-07 Apple Inc. Device arbitration for digital assistant-based intercom systems

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0831021B2 (ja) * 1986-10-13 1996-03-27 日本電信電話株式会社 音声ガイダンス出力制御方法
JPH01237597A (ja) * 1988-03-17 1989-09-22 Fujitsu Ltd 音声認識訂正装置
JPH02126300A (ja) * 1988-11-04 1990-05-15 Nippon Telegr & Teleph Corp <Ntt> 音声修正方式
JP2000029492A (ja) * 1998-07-09 2000-01-28 Hitachi Ltd 音声翻訳装置、音声翻訳方法、音声認識装置
JP3892302B2 (ja) * 2002-01-11 2007-03-14 松下電器産業株式会社 音声対話方法および装置
JP2003330488A (ja) * 2002-05-10 2003-11-19 Nissan Motor Co Ltd 音声認識装置
JP2006039120A (ja) * 2004-07-26 2006-02-09 Sony Corp 対話装置および対話方法、並びにプログラムおよび記録媒体
JP4542974B2 (ja) * 2005-09-27 2010-09-15 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム

Also Published As

Publication number Publication date
JP2009047920A (ja) 2009-03-05

Similar Documents

Publication Publication Date Title
JP4987623B2 (ja) ユーザと音声により対話する装置および方法
US20200226327A1 (en) System and method for direct speech translation system
US7668718B2 (en) Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
JP4542974B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP4734155B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
US6446041B1 (en) Method and system for providing audio playback of a multi-source document
US20120016671A1 (en) Tool and method for enhanced human machine collaboration for rapid and accurate transcriptions
US8155958B2 (en) Speech-to-text system, speech-to-text method, and speech-to-text program
US10522133B2 (en) Methods and apparatus for correcting recognition errors
US8954333B2 (en) Apparatus, method, and computer program product for processing input speech
JP4481972B2 (ja) 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
JP2007264471A (ja) 音声認識装置および音声認識方法
JP5787780B2 (ja) 書き起こし支援システムおよび書き起こし支援方法
CN110740275B (zh) 一种非线性编辑系统
CN110798733A (zh) 一种字幕生成方法、装置及计算机存储介质、电子设备
JP2008243080A (ja) 音声を翻訳する装置、方法およびプログラム
JP7326931B2 (ja) プログラム、情報処理装置、及び情報処理方法
JP2010169973A (ja) 外国語学習支援システム、及びプログラム
US11922944B2 (en) Phrase alternatives representation for automatic speech recognition and methods of use
JP2000047683A (ja) セグメンテーション補助装置及び媒体
JP3958908B2 (ja) 書き起こしテキスト自動生成装置、音声認識装置および記録媒体
US20230386475A1 (en) Systems and methods of text to audio conversion
EP4261822A1 (en) Setting up of speech processing engines
JP6340839B2 (ja) 音声合成装置、合成音声編集方法及び合成音声編集用コンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100601

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111101

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120403

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120425

R151 Written notification of patent or utility model registration

Ref document number: 4987623

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150511

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350