JP4798039B2 - 音声対話装置および方法 - Google Patents

音声対話装置および方法 Download PDF

Info

Publication number
JP4798039B2
JP4798039B2 JP2007079309A JP2007079309A JP4798039B2 JP 4798039 B2 JP4798039 B2 JP 4798039B2 JP 2007079309 A JP2007079309 A JP 2007079309A JP 2007079309 A JP2007079309 A JP 2007079309A JP 4798039 B2 JP4798039 B2 JP 4798039B2
Authority
JP
Japan
Prior art keywords
response
timing
prediction
voice
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007079309A
Other languages
English (en)
Other versions
JP2008241890A (ja
Inventor
友紀 入江
邦雄 横井
克志 浅見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP2007079309A priority Critical patent/JP4798039B2/ja
Publication of JP2008241890A publication Critical patent/JP2008241890A/ja
Application granted granted Critical
Publication of JP4798039B2 publication Critical patent/JP4798039B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、利用者が発した音声に対応した応答を行う音声対話装置および方法に関する。
従来、音声対話装置において、音声が入力されていることを人間に知らせることで音声入力の不安感を軽減するものや、対話中に間が空いた場合に入力を促進するものが知られている。その一つとして、擬人化された人工エージェントが対話中に相槌や頷きをすることで、「話を聞いている」または「話を続けて」などといった意思を人間に対して明確にすることにより、人間と人工エージェントとの対話を円滑に進めることを目的とする技術も提案されている(例えば、特許文献1、特許文献2、特許文献3、特許文献4、特許文献5、特許文献6参照。)。
例えば、特許文献1に開示されている音声対話システムは、音声認識結果、ピッチの時系列情報、視線の時系列情報、及び係り受け情報等に基づいて応答タイミングや意味処理タイミングを判定して、応答タイミングであって且つ意味処理タイミングでないと判定したときに相槌また発話中のキーワードを発するように構成されている。
また、特許文献2に開示されている相槌ロボットは、音声登録テーブルと認識結果が一致した場合に、対応する相槌登録データ(「そうだね」等)を読み出すように構成されている。
また、特許文献3、特許文献4、特許文献5、及び特許文献6には、予め決められたポーズやキーワードを検出した場合に相槌を出力する技術が開示されている。
特開2005−196134号公報 特開2003−88686号公報 特開平7−191687号公報 特開平7−219961号公報 特開平8−211986号公報 特開2004−86001号公報
しかし、上述の特許文献1〜6に記載の技術では、ポーズやキーワード等の言語情報などといった、相槌や頷きを行うタイミングの直前における特徴量を用いて判定する。そして、判定してから相槌や頷きを行うまでの処理に時間がかかるため、適切なタイミングで相槌や頷きを入れることが困難である。
そして、このような不適切なタイミングでの相槌では、逆に話が遮られるなどの悪い印象を与えてしまったり(文献「音声対話システムにおける相槌認識/生成機能の言語情報と韻律情報による実現」、三宅他、2005年日本音響学会秋季研究発表会、1-P-20、pp.191-192)、発話の流れを止めてしまったりして(文献「韻律情報を用いた相槌生成システムとその評価」、竹内他、情報処理学会第64 回全国大会、Vol.2、pp.101-102)、対話のリズムを崩す可能性がある。
また、人間同士の対話では、発話にオーバーラップする相槌が多い(例えば文献「コーパスに基づく相槌の時間的分析と考察」、中里収、人工知能学会研究会資料、SIG-SLUD-A
003-7(3/2)を参照)。しかし、相槌や頷きを行うタイミングをポーズや発話末の表現によって判定する手法では、発話にオーバーラップする相槌を実現することができない。
本発明は、こうした問題に鑑みなされたものであり、適切なタイミングで応答することができる音声対話装置および方法を提供することを目的とする。
上記目的を達成するためになされた請求項1に記載の音声対話装置では、入力手段が、利用者が発した音声を入力し、予測手段が、入力手段に入力した音声に基づいて、該入力した音声に対応した応答を行う応答タイミングの予測結果を示すタイミング予測情報を取得する。更にタイミング判断手段が、予測手段により取得されたタイミング予測情報に基づいて、応答タイミングになったか否かを判断する。そして応答手段が、タイミング判断手段により応答タイミングになったと判断された場合に、応答を行う。
このように構成された音声対話装置によれば、予測手段によって応答タイミングを前もって予測することができるので、応答手段に応答を開始させるための処理時間を確保できる。つまり、応答手段が応答する前に応答タイミングになってしまうという事態が発生することを抑制でき、適切なタイミングで応答することができるという優れた効果を奏する。
また、請求項1に記載の音声対話装置では、確信度算出手段が、予測手段による応答タイミングの予測結果についての確信度を算出し、付加手段が、確信度算出手段により算出された確信度を応答タイミングの予測結果に付加し、予測手段が、付加手段により付加された確信度に基づいて、応答タイミングの予測結果の中から、タイミング予測情報とするものを選択する
このように構成された音声対話装置によれば、確信度に基づいて信頼性の高いタイミング予測情報を取得することができるので、より適切なタイミングで応答を行うことができる。また、タイミング予測情報を選択することにより、信頼性の低い情報の制御を行う必要がなくなるので、応答タイミングを制御する手段の負荷が低減される。
また、請求項1に記載の音声対話装置において、確信度算出手段は、請求項2に記載のように、予測手段での予測結果とモデルとの一致率、N―gram確率、入力手段に入力した音声についての音声認識の確信度、及び時定数の少なくとも1つの情報を用いて確信度を算出するようにしてもよい。
また、請求項1または請求項2に記載の音声対話装置において、請求項3に記載のように、応答タイミングの予測結果に付加された確信度に応じて、応答手段による応答の内容を変更する応答変更手段を備えるようにするとよい。
このように構成された音声対話装置によれば、確信度に応じて、例えば応答タイミングの予測結果の信頼性が低い場合には例えば応答の音量を小さくすることによって、不適切なタイミングで応答をした場合に、利用者に対する働きかけの効果を小さくして、対話のリズムが崩れるのを抑制することができる。なお応答の内容としては、語彙、音量、話速、駆動箇所、駆動範囲、及び駆動パターンなどが挙げられる。
また、請求項4に記載の音声対話方法は、まず入力ステップにおいて、利用者が発した音声を入力し、続く予測ステップにおいて、入力ステップに入力した音声に基づいて、入力した音声に対応した応答を行う応答タイミングの予測結果を示すタイミング予測情報を取得する。更にタイミング判断ステップにおいて、予測ステップにより取得されたタイミング予測情報に基づいて、応答タイミングになったか否かを判断する。そして応答ステップにおいて、タイミング判断ステップにより応答タイミングになったと判断された場合に、応答を行う。
この音声対話方法は、請求項1に記載の音声対話装置にて実行される方法であり、当該方法を実行することで、請求項1に記載の音声対話装置と同様の効果を得ることができる。
また、請求項4に記載の音声対話方法では、確信度算出ステップにおいて、予測ステップにより応答タイミングの予測結果についての確信度を算出し、付加ステップにおいて、確信度算出ステップにより算出された確信度を応答タイミングの予測結果に付加し、予測ステップにおいて、付加ステップにより付加された確信度に基づいて、応答タイミングの予測結果の中から、タイミング予測情報とするものを選択するようにする
この音声対話方法は、請求項1に記載の音声対話装置にて実行される方法であり、当該方法を実行することで、請求項1に記載の音声対話装置と同様の効果を得ることができる。
また、請求項4に記載の音声対話方法において、確信度算出ステップは、請求項5に記載のように、予測ステップによる予測結果とモデルとの一致率、N―gram確率、入力ステップにより入力した音声についての音声認識の確信度、及び時定数の少なくとも1つの情報を用いて確信度を算出するようにしてもよい。
また、請求項4または請求項5に記載の音声対話方法において、請求項6に記載のように、応答タイミングの予測結果に付加された確信度に応じて、応答ステップによる応答の内容を変更する応答変更ステップを備えるようにするとよい。
この音声対話方法は、請求項3に記載の音声対話装置にて実行される方法であり、当該方法を実行することで、請求項3に記載の音声対話装置と同様の効果を得ることができる。
以下に本発明の実施形態について図面とともに説明する。
図1は本実施形態の音声対話装置1の構成を示すブロック図である。
図1に示すように、音声対話装置1は、利用者が発話した音声を入力する音声入力部2と、音声を出力する音声出力部3と、音声入力部2からの入力に応じて各種処理を実行し、音声出力部3を制御する制御部4とを備えている。
これらのうち音声入力部2は、利用者が音声を入力(発話)するとその入力した音声に基づく電気信号(音声信号)を制御部4に出力するものである。
また制御部4は、CPU,ROM,RAM,I/O及びこれらの構成を接続するバスラインなどからなる周知のマイクロコンピュータを中心に構成されており、ROM及びRAMに記憶されたプログラムに基づいて各種処理を実行する。
ここで図2は、制御部4が実行する処理の概要を示す機能ブロック図である。
図2に示すように、制御部4は、音声入力部2で入力した音声の認識処理を行う音声認識部11と、音声認識部11による認識結果に基づいて対話を進めるための応答(例えば、相槌や、「明日の天気はどうですか?」という音声入力に対して「明日は晴れです」というような応答)を生成する応答生成部12と、応答生成部12で生成された応答を音声出力部3に出力させる出力部13と、音声認識部11による認識結果に基づいて相槌等の応答を出力するタイミングを予測する出力タイミング予測部14と、出力タイミング予測部14で予測された出力タイミングで出力部13に音声出力部3による出力をさせる出力タイミング制御部15と、出力タイミング予測部14での予測結果に基づいて出力部13に音声出力部3による応答を変更させる応答変更部16と、出力タイミング予測部14での予測に用いる予測モデル(例えば、コーパス等の学習データ等を用いて予め作成したモデル)を記憶するモデル記憶部17とを備えている。
これらのうちモデル記憶部17は、上記予測モデルとして、現在の入力単語列に後続すると予測される単語列(以下、後続予測単語列ともいう)と、後続予測単語列に対応した出現確率とを記憶する出現確率リスト17aを記憶する。
このように構成された音声対話装置1において、制御部4は、入力した音声に基づいて対話を行う音声対話処理を実行する。
ここで、音声対話装置1の制御部4が実行する音声対話処理の手順を、図3,図4を用いて説明する。図3は音声対話処理を示すフローチャート、図4は出力タイミング予測の方法を説明する図である。
この音声対話処理は、制御部4が起動(電源オン)している間に繰り返し実行される処理である。
音声対話処理が実行されると、制御部4は、まずS10にて、音声入力部2に音声が入
力したか否かを判断する。ここで音声が入力していない場合には(S10)、音声対話処理を一旦終了する。一方、音声が入力した場合には(S10)、S20にて、音声入力部2に入力した音声について音声認識を行う。
その後S30にて、S20での音声認識結果に基づき、音声入力部2に入力した音声から単語列を抽出する。更にS40にて、S20での音声認識結果に基づき、音声入力部2に入力した音声の話速を算出する。
そしてS50にて、S30で抽出した単語列と、出現確率リスト17aとを比較して、S30で抽出した単語列に後続すると予測される単語列(後続予測単語列)の中で最も出現確率の高い後続予測単語列を抽出する。更にS60にて、S40で算出した話速を用いて、S50で抽出した後続予測単語列が入力されるのにかかる時間(以下、後続入力時間ともいう)を算出する。その後S70にて、S50で抽出した後続予測単語列の出現確率を確信度として、S50で抽出した後続予測単語列に付与する。
その後S80にて、S50で抽出した後続予測単語列に付与された確信度が、予め設定された応答判定値(本実施形態では、例えば「0.1」)以上であるか否かを判断する。即ち、出力タイミング予測を確定させることができるか否かを判断する。ここで、確信度が応答判定値未満である場合には、出力タイミング予測を確定させることができないと判断し(S80)、S10に移行して上述の処理を繰り返す。一方、確信度が応答判定値以上である場合には、出力タイミング予測を確定させることができると判断し(S80)、S90に移行する。
ここで、S50〜S80の処理の具体例を図4を用いて説明する。まず、図4に示すように、「すごく」という単語列が入力された場合には、「すごく」の後続予測単語列として、出現確率リスト17aから、「うれしい ね」(出現確率は0.015)、「おもしろかっ た」(出現確率は0.013)、「欲しい もの です」(出現確率は0.002)などという候補が上がり、この中で、出現確率が最も高いもの、例えば「うれしい ね」(出現確率は0.015)という後続予測単語列が抽出される(S50)。そして、「うれしい ね」という後続予測単語列には、出現確率に等しい「0.015」という確信度が付与される(S70)。しかし、この時点では、付与された確信度が応答判定値(0.1)未満であるため、出力タイミング予測は確定されない(S80)。
その後、「おもしろかっ」という単語列が入力された場合には、「すごく おもしろかっ」の後続予測単語列として、出現確率リスト17aから、「た <ポーズ>」(出現確率は0.235)、「た よ」(出現確率は0.186)、「た と 思う」(出現確率は0.008)などという候補が上がり、この中で、出現確率が最も高いもの、例えば「た <ポーズ>」(出現確率は0.235)という後続予測単語列が抽出される(S50)。そして、「た <ポーズ>」という後続予測単語列には、出現確率に等しい「0.235」という確信度が付与される(S70)。そして、この時点では、付与された確信度が応答判定値(0.1)以上であるため、出力タイミング予測が確定される(S80)。
また図3に戻り、S90に移行すると、S70で付与された確信度に応じて応答の仕方を変更させる処理を行う。具体的には、S70で付与された確信度に比例して応答の音量を大きくするように、音量パラメータを設定する。
そしてS100にて、S80で出力タイミング予測が確定された時点から、S60で算出された後続入力時間が経過したか否かを判断する。即ち、出力タイミングになったか否かを判断する。ここで、後続入力時間が経過していない場合には(S100)、S100の処理を繰り返す。一方、後続入力時間が経過した場合には、出力タイミングになったと
判断し(S100)、S110にて、応答生成部12で生成された応答を、S90で設定された音量パラメータに対応した音量で音声出力部3に出力させ、音声対話処理を一旦終了する。
このように構成された音声対話装置1によれば、S50〜S80の処理によって出力タイミングを前もって予測することができるので、S110の処理による応答の出力を開始させるための処理時間(以下、応答処理時間ともいう)を確保できる。つまり、応答の出力を開始する前に出力タイミングになってしまうという事態が発生することを抑制でき、適切なタイミングで応答することができるという優れた効果を奏する。
また、出力タイミングを、利用者の発話に重複して応答が行われるタイミングとすることができる、このため、人間同士が対話を行っている状態に近づけることができ、対話をより円滑に進行させることができる。
具体的には、従来は、図6(a)に示すように、例えば「すごくおもしろかったよ<ポーズ>」という発話において、終助詞「よ」が発話された時点HT1や、ポーズの時点HT2で、文末であるか否かの判定を行い、この判定から応答処理時間SJ1が経過した時点OT1,OT2で応答を出力する。このため、発話が終了した直後に応答を出力したり、文末にオーバーラップして応答を出力したりすることが困難である。
一方、音声対話装置1は、図6(b)に示すように、発話が終了する前に、例えば図6(b)では「すごく おもしろかっ」の時点HT3で、発話が終了する時点を予測する。このため、この予測から応答処理時間SJ1が経過した時点OT3では、まだ発話が終了していない。これにより、発話が終了した直後に応答を出力したり、文末にオーバーラップして応答を出力したりすることができる。
またS50の処理では、S30で抽出した単語列と、出現確率リスト17aとを比較して、利用者による発話が終了する少なくとも1文字前までに、後続予測単語列を抽出する。このため、少なくとも1文字以上の発話がされる時間分の応答処理時間を確保することができる。
また、S30の処理で抽出される単語列は、入力した音声から逐次的に得ることができるものであるので、S50の処理で、出現確率リスト17aと逐次比較することにより、音声入力時に常に出力タイミングの予測をすることができる。
またS60の処理では、S40で算出した話速を用いて、S50で抽出した後続予測単語列が入力されるのにかかる時間(後続入力時間)を算出する。このため、話速に応じて出力タイミングを調整することができる。
またS70の処理では、S50で抽出した後続予測単語列の出現確率を確信度として、S50で抽出した後続予測単語列に付与し、更にS80の処理で、確信度が応答判定値以上である場合に出力タイミング予測を確定させる。このため、確信度に基づいて信頼性の高い後続予測単語列を抽出することができるので、より適切なタイミングで応答を行うことができる。
またS90の処理では、確信度に応じて応答の仕方を変更させる処理を行う。具体的には、確信度に比例して応答の音量を大きくするように、音量パラメータを設定する。このため、確信度が低い場合には利用者に対する働きかけの効果を小さくすることができ、対話のリズムが崩れるのを抑制することができる。
以上説明した実施形態において、音声入力部2は本発明における入力手段及び入力ステップ、S50〜S80の処理は本発明における予測手段及び予測ステップ、S100の処理は本発明におけるタイミング判断手段及びタイミング判断ステップ、S110の処理は本発明における応答手段及び応答ステップ、後続予測単語列は本発明におけるタイミング予測情報、出現確率リスト17aは本発明における予測モデル、後続入力時間は本発明における応答タイミング到達時間、S50の処理は本発明における確信度算出手段及び確信度算出ステップ、S70の処理は本発明における付加手段及び付加ステップ、S90の処理は本発明における応答変更手段及び応答変更ステップである。
以上、本発明の一実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の技術的範囲に属する限り種々の形態を採ることができる。
例えば、上記実施形態においては、音声対話装置1は、音声出力部3から音声を出力することにより相槌などの応答するものを示したが、これに限られるものではなく、視覚的に応答するものであってもよい。例えば、LEDを備えてLEDの点灯により応答するものであってもよいし、ディスプレイを備えて頷く動作を表示させるようにしてもよいし、ロボットに頷く動作をさせるようにしてもよい。
また上記実施形態においては、S30で単語列を抽出して、この抽出した情報を用いて出力タイミングの予測を行っているが、これに限ったものではなく、単語列とは異なる統語的特徴量、例えば、予め定められたキーワード、形態素列、品詞列、及び音素列の少なくとも1つを抽出するようにしてもよいし、発話長、基本周波数の時系列情報、ピッチの時系列情報、パワーの時系列情報、及び話速の時系列情報などの韻律的特徴量の少なくとも1つを抽出するようにしてもよい。
また上記実施形態のS50では、単語列と出現確率リスト17aとを比較することにより出力タイミングの予測を行っているが、これに限ったものではなく、時系列データから作られたモデルとの距離を測る手法(例えば、テンプレートマッチング)や他のN−gramモデル(例えば、単語N−gram、品詞N−gram、音素N−gram)による予測でもよい。
また上記実施形態のS50では、後続する単語列を予測しているが、これに限ったものではなく、後続する形態素列、品詞列、及び音素列の少なくとも一つを予測するようにしてもよいし、後続する単語数、形態素数、品詞数、及び音素数の少なくとも一つを予測するようにしてもよい。
または、S50で出力タイミングになるまでの時間を直接予測するようにしてもよいし、出力タイミングになるまでのフレーム数を予測するようにしてもよい。この場合には、後続入力時間を算出する処理(S60)が不要となる。
また上記実施形態のS60では、話速を用いて、後続する単語列が入力されるのにかかる時間(後続入力時間)を算出しているが、これに限ったものではなく、例えば単語数を予測した場合には、予測された単語数が入力されるのにかかる時間を話速から算出するようにすればよい。また、予測された単語数、音素数、及び単語列等と、予め定めた1単語あたりの時間や単語列を入力するのにかかる時間とから後続入力時間を算出するようにしてもよい。
また上記実施形態のS70では、S50で抽出した後続予測単語列の出現確率を確信度としているが、これに替えて或いはこれとともに、モデルとの一致率、音声認識部11による認識結果の確信度、及び、新しい予測結果の方が古い予測結果よりも予測の信頼性が
高くなるように設定された時定数の少なくとも1つ以上の情報を用いて、S70における確信度を算出してもよい。
また上記実施形態のS80では、確信度が応答判定値以上であるか否かによって出力タイミング予測の確定を行っているが、これに限ったものではなく、ある範囲内(一定時間内、一定単語数内など)で出力タイミング予測された複数の候補の中から、この候補に付加された確信度の大小を比較することにより行うようにしてもよいし、上記応答判定値と確信度の大小比較の組み合わせによって行うようにしてもよい。
また上記実施形態のS90では、確信度に比例して応答の音量を大きくするようにしているが、これに限ったものではなく、確信度と後続予測単語列に対応した音量パラメータとを記憶する音量パラメータリスト21(図5を参照)を予め設け、この音量パラメータリスト21を参照することにより応答の音量を設定するようにしてもよい。
また上記実施形態のS90では、確信度に応じて応答の仕方を変更させるが、これに限ったものではなく、予測された単語列、形態素列、品詞列、及び音素列等に応じて、応答の仕方を変更するようにしてもよい。
また上記実施形態での応答は音声によるものであるが、応答の形態は頷きや瞬きなどであってもよいし、また、相槌の代表的な機能である「発話内容を理解したことを示す」「聞いていることを示す」「ターンテイキングの明確化」「感情や同意・否定を示す」「発話を促す」といった働きをもつメッセージや動作であってもよい。例えば、LEDを点灯させる、ディスプレイの明るさを変更する、物体の傾きを変更する、動きのスピードを変更する、動作回数を変更する、色や明るさを変更する、応答音声の声を変更する、応答メッセージを変更する、CGアニメーションを変更するということが考えられる。
音声対話装置1の構成を示すブロック図である。 制御部4が実行する処理の概要を示す機能ブロック図である。 音声対話処理を示すフローチャートである。 出力タイミング予測の方法を説明する図である。 音量パラメータリスト21の内容を示す図である。 従来の出力タイミング決定方法と、音声対話装置1の出力タイミング決定方法を説明する図である。
符号の説明
1…音声対話装置、2…音声入力部、3…音声出力部、4…制御部、11…音声認識部、12…応答生成部、13…出力部、14…出力タイミング予測部、15…出力タイミング制御部、16…応答変更部、17…モデル記憶部、17a…出現確率リスト、21…音量パラメータリスト

Claims (6)

  1. 利用者が発した音声を入力する入力手段と、
    前記入力手段に入力した音声に基づいて、該入力した音声に対応した応答を行う応答タイミングの予測結果を示すタイミング予測情報を取得する予測手段と、
    前記予測手段により取得されたタイミング予測情報に基づいて、前記応答タイミングになったか否かを判断するタイミング判断手段と、
    前記タイミング判断手段により前記応答タイミングになったと判断された場合に、前記応答を行う応答手段と、
    前記予測手段による前記応答タイミングの予測結果についての確信度を算出する確信度算出手段と、
    前記確信度算出手段により算出された確信度を前記応答タイミングの予測結果に付加する付加手段と
    を備え、
    前記予測手段は、
    前記付加手段により付加された確信度に基づいて、前記応答タイミングの予測結果の中から、前記タイミング予測情報とするものを選択する
    ことを特徴とする音声対話装置。
  2. 前記確信度算出手段は、
    前記予測手段での予測結果とモデルとの一致率、N―gram確率、前記入力手段に入力した音声についての音声認識の確信度、及び時定数の少なくとも1つの情報を用いて前記確信度を算出する
    ことを特徴とする請求項1に記載の音声対話装置。
  3. 前記応答タイミングの予測結果に付加された確信度に応じて、前記応答手段による応答の内容を変更する応答変更手段を備える
    ことを特徴とする請求項1または請求項2に記載の音声対話装置。
  4. 利用者が発した音声を入力する入力ステップと、
    前記入力ステップに入力した音声に基づいて、該入力した音声に対応した応答を行う応答タイミングの予測結果を示すタイミング予測情報を取得する予測ステップと、
    前記予測ステップにより取得されたタイミング予測情報に基づいて、前記応答タイミングになったか否かを判断するタイミング判断ステップと、
    前記タイミング判断ステップにより前記応答タイミングになったと判断された場合に、前記応答を行う応答ステップと、

    前記予測ステップによる前記応答タイミングの予測結果についての確信度を算出する確信度算出ステップと、
    前記確信度算出ステップにより算出された確信度を前記応答タイミングの予測結果に付加する付加ステップと
    を備え、
    前記予測ステップは、
    前記付加ステップにより付加された確信度に基づいて、前記応答タイミングの予測結果の中から、前記タイミング予測情報とするものを選択する
    ことを特徴とする音声対話方法。
  5. 前記確信度算出ステップは、
    前記予測ステップでの予測結果とモデルとの一致率、N―gram確率、前記入力ステップにより入力した音声についての音声認識の確信度、及び時定数の少なくとも1つの情報を用いて前記確信度を算出する
    ことを特徴とする請求項4に記載の音声対話方法。
  6. 前記応答タイミングの予測結果に付加された確信度に応じて、前記応答ステップによる応答の内容を変更する応答変更ステップを備える
    ことを特徴とする請求項4または請求項5に記載の音声対話方法。
JP2007079309A 2007-03-26 2007-03-26 音声対話装置および方法 Expired - Fee Related JP4798039B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007079309A JP4798039B2 (ja) 2007-03-26 2007-03-26 音声対話装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007079309A JP4798039B2 (ja) 2007-03-26 2007-03-26 音声対話装置および方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2011131432A Division JP2011175304A (ja) 2011-06-13 2011-06-13 音声対話装置および方法

Publications (2)

Publication Number Publication Date
JP2008241890A JP2008241890A (ja) 2008-10-09
JP4798039B2 true JP4798039B2 (ja) 2011-10-19

Family

ID=39913361

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007079309A Expired - Fee Related JP4798039B2 (ja) 2007-03-26 2007-03-26 音声対話装置および方法

Country Status (1)

Country Link
JP (1) JP4798039B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7135896B2 (ja) * 2019-01-28 2022-09-13 トヨタ自動車株式会社 対話装置、対話方法及びプログラム
JP7229847B2 (ja) 2019-05-13 2023-02-28 株式会社日立製作所 対話装置、対話方法、及び対話コンピュータプログラム
JP7274210B2 (ja) * 2019-09-24 2023-05-16 学校法人早稲田大学 対話システムおよびプログラム
CN112185363B (zh) * 2020-10-21 2024-02-13 北京猿力未来科技有限公司 音频处理方法及装置

Also Published As

Publication number Publication date
JP2008241890A (ja) 2008-10-09

Similar Documents

Publication Publication Date Title
US11538478B2 (en) Multiple virtual assistants
US9972318B1 (en) Interpreting voice commands
US11061644B2 (en) Maintaining context for voice processes
JP5195405B2 (ja) 応答生成装置及びプログラム
US10140973B1 (en) Text-to-speech processing using previously speech processed data
US11862174B2 (en) Voice command processing for locked devices
JP5381988B2 (ja) 対話音声認識システム、対話音声認識方法および対話音声認識用プログラム
EP3370230B1 (en) Voice interaction apparatus, its processing method, and program
WO2015075975A1 (ja) 対話制御装置及び対話制御方法
CN109545197B (zh) 语音指令的识别方法、装置和智能终端
US11579841B1 (en) Task resumption in a natural understanding system
KR20230150377A (ko) 대화 동안 텍스트 음성 변환에서의 즉각적인 학습
US11783824B1 (en) Cross-assistant command processing
US20220415307A1 (en) Interactive content output
WO2018034169A1 (ja) 対話制御装置および方法
JP4798039B2 (ja) 音声対話装置および方法
JP2000267687A (ja) 音声応答装置
JP2011175304A (ja) 音声対話装置および方法
US20230360633A1 (en) Speech processing techniques
JP5074759B2 (ja) 対話制御装置、対話制御方法及び対話制御プログラム
US12001260B1 (en) Preventing inadvertent wake in a speech-controlled device
US11922938B1 (en) Access to multiple virtual assistants
EP4445364A1 (en) Multiple wakeword detection
US11763809B1 (en) Access to multiple virtual assistants
US12073838B1 (en) Access to multiple virtual assistants

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090525

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110310

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110412

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110613

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110705

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110718

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140812

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4798039

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140812

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees