JP2010066519A - 音声対話装置、音声対話方法、および音声対話プログラム - Google Patents
音声対話装置、音声対話方法、および音声対話プログラム Download PDFInfo
- Publication number
- JP2010066519A JP2010066519A JP2008232761A JP2008232761A JP2010066519A JP 2010066519 A JP2010066519 A JP 2010066519A JP 2008232761 A JP2008232761 A JP 2008232761A JP 2008232761 A JP2008232761 A JP 2008232761A JP 2010066519 A JP2010066519 A JP 2010066519A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- model
- dialogue
- task
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】対話者と装置との対話中に話題が変化した場合であっても正確な認識を行うことを可能とする音声対話装置、音声対話方法、および音声対話プログラムを提供する。
【解決手段】マイクから入力されたユーザの音声データが、実行中のタスクに対応する実行モデルを用いて音声認識される(S103)。正面顔が認識できなくなった場合(S113:NO)、ユーザが音声対話装置との対話を中断し、第三者と対話し始めたと判断され、実行中のタスクは中断される(S141)。第三者との対話がすべての言語モデルで音声認識され、認識結果に基づいて、音声対話装置との対話再開後のタスクに対応する予測モデルが決定される。音声対話装置との対話が再開されると、実行モデルと予測モデルとを用いた音声認識が行われる(S103、S121)。
【選択図】図7
【解決手段】マイクから入力されたユーザの音声データが、実行中のタスクに対応する実行モデルを用いて音声認識される(S103)。正面顔が認識できなくなった場合(S113:NO)、ユーザが音声対話装置との対話を中断し、第三者と対話し始めたと判断され、実行中のタスクは中断される(S141)。第三者との対話がすべての言語モデルで音声認識され、認識結果に基づいて、音声対話装置との対話再開後のタスクに対応する予測モデルが決定される。音声対話装置との対話が再開されると、実行モデルと予測モデルとを用いた音声認識が行われる(S103、S121)。
【選択図】図7
Description
本発明は、音声対話装置、音声対話方法、および音声対話プログラムに関する。より具体的には、ユーザとの情報のやり取りを音声によって行う音声対話装置、音声対話方法、および音声対話プログラムに関する。
従来から、単語のつながりに関する制約を定義する言語モデルを用いた音声認識技術を利用して、ユーザとの対話形式で情報をやりとりする装置が知られている。このような装置では、音声認識の効率の向上が望まれている。例えば、特許文献1に記載の音声対話システムは、対話が行われる場面を複数設定し、各場面に応じた言語モデルを用いることにより、その場面での音声認識率を向上させている。
特許第2871420号公報
特許文献1に記載の音声対話システムでは、ある話題(例えば、旅行手続)で対話が行われている間、発話内容の場面(例えば、システムからの各種質問場面)に応じて言語モデルが切り替えられる。しかしながら、例えば、ユーザがシステムから一度注意をそらして第三者と対話を行い、再度システムとの対話に戻る場合のように、突然話題が変化しても、話題に応じて言語モデルが切り替えられるわけではない。したがって、認識の正確性が低下する虞がある。
本発明は、上記問題点を解決するためになされたものであり、対話者と装置との対話中に話題が変化した場合であっても正確な認識を行うことを可能とする音声対話装置、音声対話方法、および音声対話プログラムを提供することを目的とする。
請求項1に係る発明の音声対話装置は、対話者との間で音声を用いて情報のやり取りを行う音声対話装置であって、音声入力手段から入力された音声の音声情報を取得する音声情報取得手段と、複数の話題に応じて予め言語モデル記憶手段に記憶されている複数の言語モデルのうち、現在の話題に応じた言語モデルである現在モデルを用いて、前記音声情報取得手段によって取得された前記音声情報を認識する第1の音声認識手段と、前記対話者と第三者との対話が発生したことを検出する対話発生検出手段と、前記対話発生検出手段によって前記対話が発生したことが検出された場合に、前記複数の言語モデルのうち少なくとも一部を用いて、前記音声情報取得手段によって取得された前記音声情報をそれぞれ認識する第2の音声認識手段と、前記第2の音声認識手段による認識結果に基づいて、前記複数の言語モデルのうち1つを、次に予測される話題に応じた言語モデルである予測モデルとして選択する予測モデル選択手段と、前記対話者と前記第三者との前記対話が終了したことを検出する対話終了検出手段と、前記対話終了検出手段によって前記対話が終了したことが検出された場合に、前記現在モデルと前記予測モデル選択手段によって選択された前記予測モデルとを用いて、前記音声情報取得手段によって取得された前記音声情報を認識する第3の音声認識手段とを備えている。
請求項2に係る発明の音声対話装置は、請求項1に記載の発明の構成に加え、前記予測モデルを用いた前記第3の音声認識手段による前記認識結果の方が、前記現在モデルを用いた前記第3の音声認識手段による前記認識結果より認識確率が高い場合に、前記現在モデルを、一時的に使用を中断する言語モデルである待機モデルとして決定する待機モデル決定手段と、前記待機モデル決定手段によって前記現在モデルが前記待機モデルとして決定された場合に、前記予測モデルで現在モデルを置き換える予測モデル置換え手段と、前記予測モデル置換え手段によって置き換えられた前記現在モデルに対応する前記現在の話題が終了したか否かを判断する話題終了判断手段と、前記話題終了判断手段によって前記現在の話題が終了したと判断された場合に、前記待機モデル決定手段によって決定された前記待機モデルで前記現在モデルを置き換える待機モデル復帰手段とをさらに備えている。
請求項3に係る発明の音声対話装置は、請求項1または2に記載の発明の構成に加え、前記第2の音声認識手段による前記認識結果を重み付けする重み付け手段をさらに備え、前記第2の音声認識手段は、前記音声情報取得手段によって前記音声情報が取得される度に前記音声情報を認識し、前記重み付け手段は、前記音声取得手段によって新たに取得された前記音声情報の前記認識結果に対して、前記音声取得手段によって前回取得された前記音声情報の前記認識結果よりも大きな重み付けをし、前記予測モデル選択手段は、前記重み付け手段によって重み付けされた前記認識結果に基づいて、前記予測モデルを選択することを特徴とする。
請求項4に係る発明の音声対話装置では、請求項1または2に記載の発明の構成に加え、前記第2の音声認識手段は、前記音声情報取得手段によって前記音声情報が取得される度に前記音声情報を認識し、前記予測モデル選択手段は、前記対話終了検出手段によって前記第三者との前記対話が終了したことが検出される直前の前記第2の音声認識手段による前記認識結果に基づいて、前記予測モデルを選択することを特徴とする。
請求項5に係る発明の音声対話装置は、請求項1〜4のいずれかに記載の発明の構成に加え、前記予測モデル選択手段は、複数の単語と意味属性とを対応付けて記憶する単語意味記憶手段を用いて、前記複数の言語モデルのうち少なくとも一部の各々について、前記第2の音声認識手段による前記認識結果に含まれる単語の意味属性を特定する意味特定手段と、前記複数の言語モデルと関連する意味属性とを対応付けて記憶するモデル意味記憶手段を用いて、前記複数の言語モデルのうち少なくとも一部の各々に関連する意味属性として、前記意味特定手段によって特定された前記意味属性の数をカウントするカウント手段と、前記複数の言語モデルのうち、前記カウント手段によってカウントされた前記関連する意味属性の数が最も多い言語モデルを前記予測モデルとして選択する対応モデル選択手段とを備えている。
請求項6に係る発明の音声対話装置では、請求項1〜5のいずれかに記載の発明の構成に加え、前記第2の音声認識手段は、前記複数の言語モデルのうち、少なくとも前記現在モデル以外の言語モデルをすべて用いて、前記音声情報を認識することを特徴とする。
請求項7に係る発明の音声対話装置は、請求項1〜6のいずれかに記載の発明の構成に加え、前記対話者の顔を少なくとも含む画像を撮影する撮影手段を備え、前記対話発生検出手段および前記対話終了手段は、それぞれ、前記撮影手段によって撮影された前記画像に含まれる前記対話者の前記顔の向きによって、前記対話者と第三者との前記対話の発生および終了を検出することを特徴とする。
請求項8に係る発明の音声対話装置は、請求項1〜7のいずれかに記載の発明の構成に加え、音声を出力する音声出力手段に対して前記複数の話題に応じて予め定められた前記対話者に対する応答の音声情報を出力する音声情報出力手段をさらに備え、前記音声情報出力手段は、前記対話発生検出手段によって前記対話が発生したことが検出された後、前記対話終了検出手段によって前記対話が終了したことが検出されるまでの間、前記応答の前記音声情報を出力しないことを特徴とする。
請求項9に係る発明の音声対話方法は、音声対話装置によって処理される、対話者との間で音声を用いて情報のやり取りを行う音声対話方法であって、音声入力手段から入力された音声の音声情報を取得する音声情報取得ステップと、複数の話題に応じて予め言語モデル記憶手段に記憶されている複数の言語モデルのうち、現在の話題に応じた言語モデルである現在モデルを用いて、前記音声情報取得ステップで取得された前記音声情報を認識する第1の音声認識ステップと、前記対話者と第三者との対話が発生したことを検出する対話発生検出ステップと、前記対話発生検出ステップで前記対話が発生したことが検出された場合に、前記複数の言語モデルのうち少なくとも一部を用いて、前記音声情報取得ステップで取得された前記音声情報をそれぞれ認識する第2の音声認識ステップと、前記第2の音声認識ステップにおける認識結果に基づいて、前記複数の言語モデルのうち1つを、次に予測される話題に応じた言語モデルである予測モデルとして選択する予測モデル選択ステップと、前記対話者と前記第三者との前記対話が終了したことを検出する対話終了検出ステップと、前記対話終了検出ステップで前記対話が終了したことが検出された場合に、前記現在モデルと前記予測モデル選択ステップで選択された前記予測モデルとを用いて、前記音声情報取得ステップで取得された前記音声情報を認識する第3の音声認識ステップとを備えている。
請求項10に係る発明の音声対話プログラムは、請求項1〜8のいずれかに記載の音声対話装置の各種処理手段としてコンピュータを機能させることを特徴とする。
請求項1に係る発明の音声対話装置によれば、対話者が、音声対話装置との対話の途中で第三者と対話し出した場合、第三者との対話が複数の言語モデルのうち少なくとも一部を用いて認識され、その認識結果に基づいて、次に予測される話題に応じた予測モデルが選択される。そして、第三者との対話が終了すると、元の話題に対応する現在モデルと予測モデルの両方を用いて音声認識が行われる。したがって、間に第三者との対話が挟まれることによって、音声対話装置との対話の話題が突然切り替わる場合に柔軟に対応でき、認識の正確性を向上させることができる。
請求項2に係る発明の音声対話装置によれば、第三者との対話終了後に再開された音声対話装置との対話の認識結果が、現在モデルよりも予測モデルを用いた場合の方が高ければ、現在モデルは待機モデルとされ、代わりに予測モデルが現在モデルとして置き換えられ、音声認識が行われる。そして、現在モデルに対応する現在の話題が終了すると、待機モデルを現在モデルに戻して、音声認識が行われる。第三者との対話によって一旦話題が切り替わっても、その後、音声対話装置との対話は元の話題に復帰する可能性が高い。したがって、請求項1に記載の発明の効果に加え、切り替え後の話題が終了したら、元の話題に対応する待機モデルを現在モデルとして戻すことにより、元の話題への復帰に速やかに対応でき、認識の正確性をさらに向上することができる。
請求項3に係る発明の音声対話装置によれば、第三者との対話の発生が検出された後、音声情報が取得される度に認識が行われ、新たに取得された音声情報の認識結果ほど前に取得された音声情報の認識結果よりも大きな重み付けがされ、重み付けされた認識結果に基づいて予測モデルが選択される。すなわち、第三者とのより新しい対話を重視して予測モデルが選択される。したがって、請求項1または2に記載の発明の効果に加え、第三者との対話が長くなり、対話中に話題が変化した場合であっても、最新の話題によりよく対応でき、認識の正確性をさらに向上することができる。
請求項4に係る発明の音声対話装置によれば、第三者との対話の発生が検出された後、音声情報が取得される度に認識が行われ、第三者との対話の終了が検出される直前の認識結果に基づいて予測モデルが選択される。したがって、請求項1または2に記載の発明の効果に加え、第三者との対話が長くなり、対話中に話題が変化した場合であっても、最新の話題によりよく対応でき、認識の正確性をさらに向上することができる。
請求項5に係る発明の音声対話装置は、単語意味記憶手段を用いて、複数の言語モデルのうち少なくとも一部の各々を使用した認識結果に含まれる単語の意味属性を特定し、その数が最多の言語モデルを予測モデルとして選択する。したがって、請求項1〜4のいずれかに記載の発明の効果に加え、適切な予測モデルを簡便に選択することができる。
請求項6に係る発明の音声対話装置は、少なくとも、現在の話題に対応する現在モデル以外の言語モデルをすべて用いて、第三者との対話が認識される。第三者との対話が発生した場合、その話題は、音声対話装置との元の話題とは異なる可能性が高いと考えられる。したがって、請求項1〜5のいずれかに記載の発明の効果に加え、予測される最大範囲の話題をカバーしつつ、認識の正確性をより向上することができる。また、処理効率を向上することができる。
請求項7に係る発明の音声対話装置によれば、第三者との対話の発生および終了の検出に、撮影手段によって撮影される対話者の顔画像が使用される。したがって、請求項1〜6のいずれかに記載の発明の効果に加え、第三者との対話の発生や終了を簡便に検出することができる。
請求項8に係る発明の音声対話装置によれば、第三者との対話が行われている間は、音声出力手段から、対話者に対する応答の音声情報は出力されない。すなわち、第三者との対話中に不要な応答が差し挟まれることがない。したがって、請求項1〜7のいずれかに記載の発明の効果に加え、対話者は、第三者との対話および音声対話装置との対話を、不要な音声に妨げられることなく行うことができる。
請求項9に係る発明の音声対話方法によれば、対話者が、音声対話装置との対話の途中で第三者と対話し出した場合、第三者との対話が複数の言語モデルのうち少なくとも一部を用いて認識され、その認識結果に基づいて、次に予測される話題に応じた予測モデルが選択される。そして、第三者との対話が終了すると、元の話題に対応する現在モデルと予測モデルの両方を用いて音声認識が行われる。したがって、間に第三者との対話が挟まれることによって、音声対話装置との対話の話題が突然切り替わる場合に柔軟に対応でき、認識の正確性を向上させることができる。
請求項10に係る発明の音声対話プログラムは、請求項1〜8のいずれかに記載の音声対話装置の各種処理手段としてコンピュータを機能させることができる。したがって、請求項1〜8のいずれかに記載の発明の効果を奏することができる。
以下、本発明を具現化した実施の形態について、図面を参照して説明する。なお、参照する図面は、本発明が採用しうる技術的特徴を説明するために用いられるものであり、記載されている装置の構成、各種処理のフローチャートなどは、それのみに限定する趣旨ではなく、単なる説明例である。
<第1の実施形態>
以下に、図1〜図13を参照して、本発明の第1の実施形態について、説明する。まず、図1〜図5を参照して、本実施形態に係る音声対話装置1の構成について説明する。図1は、音声対話装置1の概略正面図である。図2は、音声対話装置1の電気的構成を示すブロック図である。図3は、ハードディスク装置15に設けられた記憶エリアの説明図である。図4は、意味属性テーブル1540の説明図である。図5は、タスクテーブル1550の説明図である。
以下に、図1〜図13を参照して、本発明の第1の実施形態について、説明する。まず、図1〜図5を参照して、本実施形態に係る音声対話装置1の構成について説明する。図1は、音声対話装置1の概略正面図である。図2は、音声対話装置1の電気的構成を示すブロック図である。図3は、ハードディスク装置15に設けられた記憶エリアの説明図である。図4は、意味属性テーブル1540の説明図である。図5は、タスクテーブル1550の説明図である。
まず、図1を参照して、音声対話装置1の物理的構成について説明する。音声対話装置1は、例えば、略直方体形状を有する筐体2を備えた小型の端末装置として構成することができる。本実施形態の音声対話装置1は、図1に示すように、正面に、ディスプレイ16、マイク17、スピーカ18、およびカメラ19を備えている。ディスプレイ16には、例えば、音声案内業務を行っている想定の人物やキャラクタの画像や、スピーカ18から発話される音声に対応する文章、ユーザの指示に応じて実行されたタスクの処理結果等が表示される。マイク17は、音声が入力される機器であり、入力された音声を音声データに変換して出力する。スピーカ18は、入力された音声データを音声に変換して出力する機器である。カメラ19は、画像を撮影する機器であり、本実施形態では、ユーザの顔向きを判断するための画像を撮影するのに使用される。
次に、図2〜図5を参照して、音声対話装置1の電気的構成について説明する。図2に示すように、音声対話装置1は、CPU11と、CPU11に各々接続されたROM12およびRAM13を含む制御回路部10を備えている。CPU11には、入出力(I/O)インタフェイス14が接続されている。I/Oインタフェイス14には、ハードディスク装置(HDD)15、ディスプレイ16、マイク17、スピーカ18、カメラ19、および通信装置20が接続されている。なお、マイクは、本発明の「音声入力手段」に相当し、カメラ19は、「撮影手段」に相当する。
CPU11は、音声対話装置1全体の制御を司る。ROM12は、音声対話装置1の基本的な動作に必要なプログラムやそのための設定値を記憶している。CPU11は、ROM12や、HDD15に記憶されたプログラムに従って、音声対話装置1の動作を制御する。RAM13は、各種データを一時的に記憶するための記憶装置である。
記憶装置であるHDD15には、図3に示すように、複数の記憶エリアが設けられている。複数の記憶エリアは、例えば、音響モデル記憶エリア151、言語モデル記憶エリア152、単語辞書記憶エリア153、意味属性テーブル記憶エリア154、タスクテーブル記憶エリア155、およびプログラム記憶エリア156を含む。なお、言語モデル記憶エリア152は、本発明の「言語モデル記憶手段」に相当し、意味属性テーブル記憶エリア154は、本発明の「単語意味記憶手段」に相当し、タスクテーブル記憶エリア155は、本発明の「モデル意味記憶手段」に相当する。
音響モデル記憶エリア151には、音声認識処理で使用される周知の音響モデルが記憶されている。なお、詳細な説明は省略するが、音響モデルは、音声の音響的特徴(例えば、メルケプストラム)を統計的にモデル化したもので、例えば、母音、子音のそれぞれについて、特徴量と対応する音素とで表現されている。
言語モデル記憶エリア152には、音声認識処理で使用される言語モデルが記憶されている。言語モデルは、単語のつながり、すなわち単語間の結びつきに関する制約を定義するものである。代表的な言語モデルとして、例えば、単語間の結びつきを文法(グラマー)で記述する記述文法モデルと、単語間の結びつきを確率で定義する統計モデルがある。
統計モデルの代表的な例として、単語N−gramモデルがある。単語N−gramモデルとは、単語列P(w1w2・・・wn)のi番目の単語wiの生起は、直前の(N−1)単語に依存するという仮説に基づくモデルである。単語N−gramモデルを例とする統計モデルを用いた音声認識処理では、認識結果である単語列と、その生起確率とが出力される。なお、本実施形態では、言語モデルとして統計モデルを採用するものとするが、必ずしも統計モデルを使用する必要はなく、記述文法モデルを使用してもよい。
言語モデル記憶エリア152には、ユーザと音声対話装置1との対話で想定される様々な話題に応じて互いに異なる複数の言語モデルが記憶されている。音声対話装置1は、ユーザが音声対話装置1に対して何らかのタスクを実行するように指示することにより動作する。よって、ユーザと音声対話装置1との間では、そのタスクに関連する対話が行われると想定されている。つまり、想定される話題は、音声対話装置1が実行可能なタスクに対応することになるため、本実施形態では、タスクを話題とみなしている。
音声対話装置1が実行可能なタスクとして、例えば、待受け(他のタスク実行の指示待ち)タスク、乗換え案内タスク、スケジュール確認タスク、地図案内タスクを含む複数のタスクが予め用意されている。そこで、これらのタスクの各々に対応した言語モデルである、待受け用モデル、乗換え案内用モデル、スケジュール確認用モデル、地図案内用モデルを含む複数の言語モデルが、それぞれの識別情報とともに言語モデル記憶エリア152に記憶されている。実行されるタスクに応じて、音声認識に使用する適切な言語モデルを切り替えることにより、音声認識の正確性を向上させることができる。
単語辞書記憶エリア153には、音声認識処理に使用される単語辞書(図示外)が記憶されている。単語辞書は、複数の単語と、各単語の発音に関する情報(例えば、音素列)との対応を記述するものである。単語辞書は、例えば、音声認識用に作成された汎用の単語辞書を採用することができる。
意味属性テーブル記憶エリア154には、意味属性テーブル1540(図4参照)が記憶されている。意味属性テーブル1540は、複数の単語と、各単語が有する意味属性との対応を示すテーブルである。例えば、図4に示す意味属性テーブル1540には、単語「打合せ」に対応する意味属性として「会議」および「階段」が、単語「いつ」に対応する意味属性として「日付」等が記憶されている。
タスクテーブル記憶エリア155(図3参照)には、タスクテーブル1550(図5参照)が記憶されている。タスクテーブル1550は、音声対話装置1が実行可能な複数のタスクと、各タスクに対応する言語モデルと、各タスクに関連づけられた意味属性との対応を示すテーブルである。例えば、図5に示すタスクテーブル1550には、待受けタスクに対応する言語モデルを識別する情報として、待受け用モデルの識別情報(図中は名称表記)、また、関連づけられた意味属性として「乗換え」および「日付」が記憶されている。同様に、他の様々なタスクについても、それぞれ、タスクの識別情報、タスクに対応する言語モデルの識別情報、および、関連づけられた意味属性が記憶されている。
プログラム記憶エリア156(図3参照)には、例えば、後述する各種処理に使用されるプログラムを含む、音声対話装置1の各種動作を制御するためのプログラムが複数記憶されている。なお、これらのプログラムは、例えばCD−ROMに記憶されたものがCD−ROMドライブ(図示外)を介してインストールされ、プログラム記憶エリア156に記憶される。または、通信装置20を介してネットワーク(図示外)に接続し、ネットワーク上からダウンロードされたプログラムが記憶されてもよい。図示はされていないが、HDD15には、その他、各種処理で使用される設定値等も記憶されている。
ディスプレイ16、マイク17、スピーカ18およびカメラ20については、前述した通りである。通信装置20は、ネットワーク(例えば、LAN)に接続し、外部機器との間でデータの送受信を可能とするためのものである。
以下に、前述のように構成された音声対話装置1において行われる各種処理について、図6〜図13を参照して説明する。図6は、音声対話装置1のメイン処理のフローチャートである。図7は、メイン処理中に実行されるタスク処理のフローチャートである。図8は、メイン処理中に実行される言語モデル予測処理のフローチャートである。図9は、言語モデル予測処理中に実行される意味解析処理のフローチャートである。図10は、言語モデル予測処理中に実行される予測モデル決定処理のフローチャートである。
図11は、音声対話装置1と対話しているユーザP1の説明図である。図12は、第三者P2と対話しているユーザP1の説明図である。図13は、ユーザ、音声対話装置1、および第三者の間で行われる対話の流れの一例と、対話中のユーザの顔向きとの関係を示す説明図である。なお、図6〜図10の処理は、HDD15のプログラム記憶エリア156に記憶されたプログラムに従って、CPU101が実行する。
まず、図6を参照して、メイン処理の流れについて説明する。音声対話装置1の電源がONとされている間、カメラ19は常時作動しており、所定間隔で(例えば、1秒毎に)、音声対話装置1の正面の所定の撮影領域を撮影する。撮影領域は、ユーザが音声対話装置1と対話する際、通常、顔が存在する位置を含むように予め定められている。カメラ19から入力された撮影画像は、例えば、RAM13に構築されたリングバッファ(図示外)に、所定時間分記憶される。撮影画像はCPU11によって監視されており、カメラ19の撮影領域内に人間が進入すると、その動きが検知され、ユーザが現れたと判断される。このようにして、ユーザが検知されると、図6に示すメイン処理が開始される。
処理が開始されるとまず、実行されるタスクである実行タスクとして、処理開始時のタスクとして予め設定された待受けタスクが選択され、その識別情報がRAM13の所定の記憶エリアに記憶される(S1)。また、実行タスクの実行中の音声認識に使用される言語モデルである実行モデルとして、待受けタスクに対応する言語モデルである待受け用モデルが選択され、その識別情報がRAM13の所定の記憶エリアに記憶される(S1)。なお、以下では、説明の簡略化のため、タスクや言語モデルの識別情報とは記載せず、単にタスク名や言語モデル名を記載するものとする。
さらに、モードとして、デフォルト設定の「通常」、退避タスクおよび予測モデルとして、いずれもデフォルト設定の「なし」を示す情報が、それぞれRAM13の所定の記憶エリアに記憶される(S2)。
モードとは、実行される処理の様式である。本実施形態では、モードとして、「通常モード」と「予測モード」の2種類がある。通常モードは、実行タスクを実行する処理(タスク処理)に対応する。一方、予測モードは、ユーザと音声対話装置1との対話において、次に予測される話題、すなわち次の実行タスクとして予測されるタスクに対応する言語モデルを選択する処理(言語モデル予測処理)に対応する。詳細は後述するが、通常モードで実行タスクが実行されている途中で、第三者の介入によってユーザと音声対話装置1との対話が中断され、実行タスクの実行が中断される場合がある。このような場合、ユーザと音声対話装置1との間で再開される対話の話題、すなわち次に実行すべきタスクは、対話中断前とは変化する可能性がある。そこで、モードが予測モードに切り替えられ、次のタスクの予測が行われる。
退避タスクとは、一時的に実行が中断された実行タスクである。より具体的には、ユーザと音声対話装置1との対話再開後の話題、すなわち、次に実行すべきタスクが、中断前とは変化していると判断された場合に、元々の実行タスクが退避タスクとして記憶されることになる。予測モデルとは、ユーザと音声対話装置1との対話において、次に予測される話題、すなわち予測されるタスクに対応する言語モデルである。
続いて、RAM13に記憶されたモードが「通常」を示しているか否かが判断される(S3)。処理開始後のステップS2で、モードは通常に設定され、その情報がRAM13に記憶されている(S3:YES)。この場合、RAM13のフラグ記憶エリア(図示外)に記憶された中断フラグがゼロ(0)にセットされる(S4)。中断フラグは、後述するタスク処理(図7参照)が、ユーザと第三者との対話が発生したことにより、途中で中断されたか否かを特定するためのフラグである。中断フラグが0の場合、タスク処理は中断されていないことを示し、1の場合、タスク処理が中断されたことを示す。
中断フラグがゼロ(0)にされた後、タスク処理が行われる(S5、図7参照)。詳細は後述するが、タスク処理では、実行モデルを使用して音声認識を行いながら、実行タスクが実行される。タスク処理の後、タスク処理で中断フラグが1にされたか否かが判断される(S6)。前述したように、中断フラグが1である場合(S6:YES)、実行タスクの実行が中断されたことを示している。したがって、RAM13に「通常」と記憶されているモードが、言語モデル予測処理が行われることを示す「予測」に変更される(S7)。
実行タスクおよび退避タスクがいずれも「なし」としてRAM13に記憶されているか否かが判断される(S13)。実行タスクおよび退避タスクの少なくとも一方が、「なし」ではない場合(S13:NO)、まだユーザと音声対話装置1との対話が継続される可能性があるため、処理はステップS3に戻る。ステップS7でモードが「予測」に変更されている場合は(S3:NO)、言語モデル予測処理が行われる(S11、図8参照)。詳細は後述するが、言語モデル予測処理では、ユーザと第三者との対話の音声認識結果に基づいて、予測モデルを選択する処理が行われる。言語モデル予測処理の後、RAM13に「予測」で記憶されているモードが、再び、タスク処理が行われることを示す「通常」に変更される(S12)。
続くステップS13で、実行タスクおよび退避タスクの少なくとも一方が、「なし」ではないと判断された場合(S13:NO)、まだユーザと音声対話装置1との対話が継続される可能性があるため、処理は再びステップS3に戻る。モードは「通常」であるから(S3:YES)、中断フラグが0とされ(S4)、タスク処理が行われる(S5、図7参照)。タスク処理で中断フラグが1にされなかった場合には(S6:NO)、実行タスクに応じたタスク処理が中断されずに終了したことを示している。この場合は、RAM13に退避タスクとしていずれかのタスクが記憶されているか否かが判断される(S8)。
退避タスクとして、処理開始直後のステップS2で、デフォルト設定の「なし」が記憶される。しかし、詳細は後述するが、ユーザと音声対話装置1との対話が、第三者の介入によって中断された後に再開された場合、実行すべきタスクが変化したと判断され、元々のタスクが退避タスクとして設定される場合がある。そこで、退避タスクがある場合には(S8:YES)、元々のタスクに復帰して適切な処理を継続できるように、退避タスクを実行タスクとし(S9)、退避タスクを「なし」としてRAM13にそれぞれ記憶させた後(S10)、処理はステップS13に進む。退避タスクがなければ(S8:NO)、そのままステップS13に進む。
実行タスクおよび退避タスクの少なくとも一方が、「なし」ではない場合(S13:NO)、ステップS3に戻り、前述の処理が繰り返される。一方、ユーザと音声対話装置1との対話が完全に終了し、RAM13に実行タスクおよび退避タスクのいずれも「なし」と記憶されている状態になった場合(S13:YES)、図6に示すメイン処理は終了する。
以下に、図7、図11および図12を参照して、図6のメイン処理中に実行されるタスク処理の詳細について説明する。図7に示すタスク処理が開始されると、まず、RAM13に記憶されている実行タスクに従って、音声対話装置1による発話が行われる(S101)。より具体的には、例えば、タスク毎に定められた対話シナリオに沿って予め作成され、HDD15の所定の記憶エリア(図示外)に記憶されている発話内容のテキストデータが読み出され、音声データに変換された後、スピーカ18に対して出力される。そして、スピーカ18で音声データが音声に変換されて、音声が出力される(S101)。例えば、処理開始後の最初のタスク処理の場合、図6のステップS1で設定された実行タスクである待受けタスクに応じて、音声対話装置1のスピーカ18から「どんな御用でしょうか」という最初の発話が出力される。
続いて、マイク17から入力された音声が音声データに変換され、RAM13の所定の記憶エリアに取得される(S102)。処理開始後の最初のタスク処理の場合、例えば、ユーザが音声対話装置1に実行させたいタスクを指定する「乗換え案内について教えて」という音声が入力される。
実行モデルを使用して、取得された音声データの音声認識処理が行われる(S103)。具体的には、まず、音声認識に使用される音響モデル、言語モデルおよび単語辞書が、HDD15(図3参照)の音響モデル記憶エリア151、言語モデル記憶エリア152、および単語辞書記憶エリア153からそれぞれ読み出される。なお、言語モデルとしては、RAM13に実行モデルとして記憶されている識別情報に対応する言語モデルが読み出される。例えば、処理開始後の最初のタスク処理の場合、メイン処理のステップS1(図6参照)で設定された実行モデルは、待受け用モデルである。よって、待受け用モデルが言語モデル記憶エリア152から読み出されることになる。
音響モデル、実行モデル、および単語辞書を用いて、音声認識が行われる(S103)。音声認識の方法には周知のいかなる方法を採用してもよい。例えば、次のような方法を採用することができる。まず、単語辞書を参照して音響モデルが接続されることにより、単語の音響モデルが生成される。そして、実行モデルを参照して、複数の単語の音響モデルが接続される。接続された単語の音響モデルの特徴量に基づき、連続分布HMM法によって、ステップS102で取得された音声データの認識処理が行われる。その結果、接続された単語の音響モデルのうち、生起確率が最も高いものに対応する単語列が、認識結果として生起確率とともに出力される。得られた認識結果は、RAM13の所定の記憶エリアに記憶される。また、得られた生起確率は、生起確率1として、RAM13の所定の記憶エリアに記憶される(S104)。
続いて、RAM13に予測モデルとしていずれかの言語モデルが記憶されているか否かが判断される(S105)。前述したように、予測モデルのデフォルト設定は「なし」である(図6、S2参照)。このような場合、予測モデルがないと判断され(S105:NO)、前述したように、所定間隔でカメラ19によって撮影され、リングバッファに記憶されている撮影画像のうち、最新の撮影画像が取得される(S111)。
取得された撮影画像に基づいて、ユーザの正面顔の認識処理が行われる(S112)。なお、正面顔とは、カメラ19に対向する向きの顔をいう。つまり、図11に示すように、ユーザP1が、音声対話装置1の正面に向かい合って対話をしている場合の顔の向きである。なお、図11中の矢印は、ユーザP1の顔の向きを示している。正面顔の認識処理には、いかなる周知の方法を採用してもよい。例えば、Haar−like特徴と、Adaboostと呼ばれる学習アルゴリズムによって正面顔を学習させたカスケード型識別器とを用いた方法を採用することができる。この方法によれば、撮影画像内に存在する正面顔の領域を特定することができる。または、例えば、肌色領域に基づいて顔領域を検出し、顔領域内の特徴量に基づいて顔向きを検出してもよい。
正面顔が認識できなかった場合(S113:NO)、例えば、図12に示すように、ユーザP1は、第三者P2が出現したことによって、音声対話装置1との対話を中断し、第三者P2に顔を向けて対話し出したと判断できる。したがって、RAM13のフラグ記憶エリアに0として記憶されていた中断フラグが、ユーザと第三者との対話の発生によりタスク処理が中断されたことを示す1に変更され(S141)、図7に示すタスク処理は終了して、図6のメイン処理に戻る。
一方、正面顔が認識できた場合には(S113:YES)、ユーザは音声対話装置1と向かい合って対話を続けていると判断できるため、ステップS103で得られた認識結果に応じて、実行タスクに対応するタスク固有制御処理が行われる(S114)。タスク固有制御処理とは、タスク毎に予め定められた、ユーザの発話に応じた具体的な処理をいう。タスク固有制御処理として、例えば、次のような処理が行われる。
待受けタスクの実行中に、マイク17から、ユーザが実行を希望するタスク名の発話が入力された場合には、認識結果から特定されるタスクを、次に実行するタスク(以下、次タスクという)として決定し、RAM13に記憶させる処理が行われる。また、乗換え案内タスクの実行中に、ユーザが出発駅の駅名を発話した場合には、出発駅をRAM13に記憶させる処理が行われる。乗換え案内タスクの実行中に、ユーザの発話が繰り返し認識された結果、出発駅等、乗換えに関する必要な情報がすべて取得できた場合には、通信装置20を介してネットワーク上のデータベース(図示外)にアクセスし、そこに記憶された乗換えに関する情報を取得して、スピーカ18から音声出力する処理が行われる。結果を表示することを通知する音声出力とともに、乗換えに関する情報をディスプレイ16に表示する処理を行ってもよい。
タスク固有制御処理の後(S114)、実行タスクが終了したか否かが判断される(S115)。より具体的には、例えば、タスク毎に定められた対話シナリオで、タスクの終了を指示するユーザの発話とされている単語列(例えば、「ありがとう」)が、認識結果としてRAM13に記憶されている場合に、実行タスクは終了したと判断すればよい。または、例えば、一定期間、マイク17から音声入力がない場合に、終了したと判断してもよい。
実行タスクが終了したと判断された場合には(S115:YES)、RAM13に次タスクが記憶されているか否かが判断される(S131)。前述したように、タスク固有制御処理で次タスクが決定され、記憶されている場合には(S131:YES)、次に行われるタスク処理で、次タスクを実行する必要がある。したがって、RAM13に記憶されている実行タスクが次タスクに置換えられ(S132)、タスクテーブル1550(図5参照)を参照して、実行モデルが、次タスクに対応する言語モデルに置き換えられる(S133)。例えば、次タスクが乗換え案内タスクであれば、実行モデルとして乗換え案内用モデルが記憶されることになる。その後、図7に示すタスク処理は終了して、図6のメイン処理に戻る。
次タスクがない場合には(S131:NO)、RAM13の所定の記憶エリアに記憶されている実行タスクが「なし」とされた後(S135)、図7に示すタスク処理は終了して、図6のメイン処理に戻る。
まだ実行タスクが終了していないと判断された場合には(S115:NO)、処理はステップS101に戻る。この場合、実行タスクに対応する対話シナリオに従って、音声対話装置1から次の発話が行われる(S101)。前述したのと同様にして、マイク17から入力される音声の認識処理が行われる(S102〜S104)。
後述する言語モデル予測処理(図6、S11および図8参照)で、音声対話装置1との対話復帰後に予測される話題に応じて予測モデルが設定された場合、予測モデルがRAM13に記憶されている(S105:YES)。このような場合、ユーザと音声対話装置1との対話は、第三者の介入によって中断された後に再開された状態にあるため、予測モデルを用いた音声認識も行われる(S121)。このときの処理方法は、前述したステップS103の場合と同様である。予測モデルを用いた認識結果は、RAM13の所定の記憶エリアに記憶される。また、得られた生起確率は、生起確率2として、RAM13の所定の記憶エリアに記憶される(S122)。
ステップS122で記憶された予測モデルによる認識結果の生起確率2の方が、ステップS104でRAM13に記憶された、実行モデルによる認識結果の生起確率1よりも大きいか否かが判断される(S123)。すなわち、第三者の介入による中断後に再開された、ユーザと音声対話装置1との対話において、中断前の話題に対応する実行モデルによる認識精度と、予測された話題に対応する予測モデルによる認識精度のどちらが高いかが判断される。
生起確率2の方が、生起確率1よりも大きい場合(S123:YES)、実行モデルよりも、予測モデルによる認識精度の方が高いことになる。つまり、ユーザと音声対話装置1との対話の話題が、中断前の話題から、予測された話題に変化したと考えられる。したがって、中断前の話題に対応する実行タスクおよび実行モデルは、退避タスクおよび退避モデルとしてそれぞれ設定され、RAM13の所定の記憶エリアに記憶される(S124)。また、RAM13に記憶されている実行モデルは、予測モデルで置き換えられる(S125)。実行タスクは、タスクテーブル1550(図5参照)を参照して、予測モデルに対応するタスクに置き換えられる(S126)。その後、予測モデルは「なし」に変更され(S127)、処理はステップS101に戻る。
置き換えられた実行タスクに従って、音声対話装置1による発話が行われ(S101)、前述のステップS102〜S115の処理が繰り返される。正面顔が認識されず、ユーザが第三者と対話し出したと判断された場合(S113:NO)、または、置き換えられた実行タスクが終了して(S115:YES)、適宜、実行タスクや実行モデルが置き換えられた場合は(S131〜S133)、図7に示すタスク処理は終了して、図6のメイン処理に戻る。
生起確率1が、生起確率2以上の場合(S123:NO)、実行モデルの認識精度は、予測モデルによる認識精度以上である。つまり、ユーザと音声対話装置1との対話の話題は、中断前の話題から変化していないと考えられる。したがって、実行モデル等は変更されず、処理はステップS111に戻り、前述の処理が繰り返される。正面顔が認識されず、ユーザが第三者と対話し出したと判断された場合(S113:NO)、または、置き換えられた実行タスクが終了して(S115:YES)、適宜、実行タスクや実行モデルが置き換えられた場合は(S131〜S133)、図7に示すタスク処理は終了して、図6のメイン処理に戻る。
以下に、図8〜図10を参照して、図6のメイン処理中に実行される言語モデル予測処理の詳細について説明する。図8の言語モデル予測処理が開始されると、まず、RAM13のフラグ記憶エリアに記憶されている再開フラグがゼロ(0)にセットされる(S201)。再開フラグは、言語モデル予測処理を終了し、メイン処理(図7参照)に戻るか否かを特定するためのフラグである。再開フラグが0の場合、言語モデル予測処理を継続することを示し、1の場合、言語モデル予測処理を終了してメイン処理に戻ることを示している。
続いて、マイク17から入力された音声が音声データに変換され、RAM13の所定の記憶エリアに取得される(S202)。なお、言語モデル予測処理は、例えば図12に示すように、音声対話装置1のユーザP1が、出現した第三者P2の方向を向いたことにより、正面顔が認識できなくなった場合に開始される。よって、ここで入力される音声は、ユーザと音声対話装置1との元々の対話とは関係なく開始された、ユーザと第三者との対話の音声である。そこで、言語モデル記憶エリア152に記憶されているすべての言語モデルが読み出され、それぞれの言語モデルを用いて、ユーザまたは第三者による発話の音声認識処理が行われる(S203)。言語モデル毎に、認識結果(発話に対応する単語列)とその生起確率とが出力され、RAM13の所定の記憶エリアに記憶される。
すべての言語モデルによる音声認識処理が終了すると、得られた認識結果が示す意味属性を特定する意味解析処理が行われる(S204、図9)。図9に示すように、意味解析処理が開始されると、図8のステップS203でRAM13に記憶されている認識結果のうち、未解析の認識結果が1つ選択される(S301)。選択された認識結果、すなわち単語列が、例えば、形態素解析によって単語に分解された後、未解析の単語が1つ選択される(S302)。意味属性テーブル記憶エリア154に記憶されている意味属性テーブル1540(図4参照)が参照され、選択された単語に対応する意味属性が存在するか否かが判断される(S304)。
対応する意味属性が存在する場合には(S304:YES)、その意味属性が、RAM13の所定の記憶エリアに記憶された意味リスト(図示外)に追加される(S305)。選択された単語に対応する意味属性が意味リストに追加された後、または、選択された単語に対応する意味属性が意味属性テーブル1540にはなかった場合(S304:NO)、選択された単語列を構成するすべての単語の解析が終了したか否かが判断される(S306)。
未解析の単語が残っている間は(S306:NO)、次の未解析の単語が1つ選択され、前述のように、意味属性を解析する処理が繰り返される(S302〜S305)。つまり、ある言語モデルによる認識結果中に、意味属性テーブル1540に記憶された単語が複数含まれていれば、それらに対応する意味属性がすべて、意味リストに追加されていく。
例えば、ステップS301で選択された認識結果が、「打合せはいつにしようか」であったとする。この場合、この単語列は、「打合せ」、「は」、「いつ」、「に」、「しよう」、「か」という6つの単語に分解される。意味属性テーブル1540を参照すると、単語「打合せ」に対応する意味属性として「会議」および「会談」が記憶されており、単語「いつ」に対応する意味属性として「日付」が記憶されている。よって、意味リストには、この認識結果の処理が終了した時点で、「会議」、「会談」および「日付」が記憶された状態となる(S305)。
このようにして、ステップS301で選択された言語モデルに対応する単語列を構成するすべての単語について、解析が終了すると(S306:YES)、すべての認識結果について解析処理が終了したか否かが判断される(S307)。未解析の認識結果が残っている場合には(S307:NO)、次の未解析の認識結果が選択され(S301)、前述のようにS302〜S307の処理が繰り返される。すべての認識結果について解析が完了すると(S307:YES)、図9に示す意味解析処理は終了し、図8の言語モデル予測処理に戻る。
図8に示す言語モデル予測処理では、意味解析処理(S204)に続き、予測モデル決定処理が行われる(S205、図10)。予測モデル決定処理は、意味解析処理で得られた解析結果に基づき、この時点でユーザと音声対話装置1との対話が再開された場合に予測される話題に応じた言語モデルを決定する処理である。
図10に示す予測モデル決定処理が開始されると、タスクテーブル記憶エリア155(図3参照)に記憶されているタスクテーブル1550(図5参照)が参照され、スコアが未算出の言語モデルと、関連づけられた意味属性とが選択される(S401)。例えば、図5に示すタスクテーブル1550の場合、1巡目の処理では、待受け用モデルと、関連づけられた意味属性「乗換え」および「日付」が選択される。そして、選択された言語モデルのスコアが算出され、RAM13に記憶される(S402)。具体的には、意味リストに記憶されている意味属性のうち、選択された意味属性と一致する意味属性の数がカウントされ、得られた数がスコア(点数)とされる。待受け用モデルの例では、意味リストに含まれる「乗換え」および「日付」の数が、スコアとなる。
タスクテーブル1550に記憶されている言語モデルのうち、スコアが未算出の言語モデルが残っていれば(S403:NO)、スコアが未算出の次の言語モデルが選択され(S401)、同様にしてスコアの算出が繰り返される(S402)。そして、すべての言語モデルについてスコアの算出が完了すると(S403:YES)、RAM13に記憶されているすべての言語モデルのスコアのうち、最大スコアに対応する言語モデルが予測モデルとして決定され、RAM13の所定の記憶エリアに記憶される(S404)。その後、図10に示す予測モデル決定処理は終了し、図8の言語モデル予測処理に戻る。
なお、図8に示す言語モデル予測処理では、ユーザの正面顔が認識できない間は、予測モデル決定処理が繰り返し行われることになる。この場合、2回目以降の処理のステップS404では、すでにRAM13に記憶されていた予測モデルが、新たに決定された予測モデルで上書きされる。
図8に示す言語モデル予測処理では、予測モデル決定処理に続いて、リングバッファから、最新の撮影画像が取得され(S206)、タスク処理のステップS112(図7参照)と同様にして、正面顔の認識処理が行われる(S207)。言語モデル予測処理は、例えば図12に示すように、音声対話装置1のユーザP1が、出現した第三者P2の方向を向き、正面顔が認識できなくなった場合に開始されている。よって、正面顔が認識できない場合(S208:NO)、ユーザと第三者との対話が継続していると考えられる。そこで、処理はそのままステップS210に進み、再開フラグが1であるか否かが判断されるが、この場合、再開フラグはステップS201で0とされたままであるため(S210:NO)、処理はステップS202に戻る。そして、前述と同様にして、ステップS202〜S208の処理が繰り返される。
正面顔が認識された場合には(S208:YES)、ユーザP1が、再び音声対話装置1と対話するために、図11のように音声対話装置1に向かい合ったことを示している。したがって、フラグ記憶エリアに0として記憶されていた再開フラグが、言語モデル予測処理を終了してメイン処理に戻ることを示す1とされる(S209)。そして、再開フラグが1であると判断された後(S210:YES)、図8に示す言語モデル予測処理は終了し、図6に示すメイン処理に戻る。なお、前述したタスク処理(図7参照)とは異なり、ユーザP1と音声対話装置1との対話が中断されたと判断された場合に行われる言語モデル予測処理では、マイク17からユーザP1や第三者P2の音声が入力されても、それに対する応答音声がスピーカ18から出力されることはない。これは、ユーザP1と第三者P2との対話を妨げないようにするためである。
以下に、音声対話装置1のユーザが、図13に示すように、音声対話装置1および第三者との間で対話を行う場合を具体例として、以上に説明した処理の内容について説明する。まず、図11に示すように、ユーザP1が音声対話装置1の正面に向かい合うと、カメラ19によって撮影される画像に基づき、ユーザP1が検知され、図6のメイン処理が開始される。音声対話装置1からの「どんな御用でしょうか」との発話に応じて、ユーザP1が音声対話装置1に向かい合ったまま「乗換え案内をお願い」と発話すると、図7に示すタスク処理のタスク固有制御処理(S114)において、乗換え案内タスクが次タスクとして決定される。その結果、実行タスクとして、乗換え案内タスクが設定され(S132)、実行モデルとして、乗換え案内用モデルが設定される(S133)。
図7のタスク処理は終了して図6のメイン処理に戻ると、中断フラグは0のままであり(S6:NO)、また、退避タスクもないため(S7:NO)、実行タスクである乗換え案内タスクに従って、タスク処理(S5、図7)が行われる。音声対話装置1の「出発駅を教えてください」からユーザP1の「名古屋です」の発話までは、正面顔が認識されたまま処理が繰り返される(図7、S101〜S115)。その後、第三者P2からの「Aさん」との呼びかけで、ユーザP1は、図12に示すように、第三者P2の方に顔向きを変える。すると、正面顔が認識できないため(S113:NO)、中断フラグが1とされ(S141)、実行タスクである乗換え案内タスクに従ったタスク処理は終了する。
図6のメイン処理に戻ると、中断フラグが1にされているため(S6:YES)、モードが「予測」とされ(S7)、言語モデル予測処理が行われる(S11、図8)。図8に示す言語モデル予測処理では、第三者P2の「今いい?」、ユーザP1の「いいですよ」、および第三者P2の「打合せはいつにしようか」の発話中、ユーザP1は、図12に示すように第三者P2の方を向いているため、正面顔は認識されない。よって、ユーザP1および第三者P2の発話の音声認識結果に基づいて予測モデルを決定する処理が繰り返される(S202〜S210)。その後、ユーザP1が、音声対話装置1に向き直ると、正面顔が認識できるようになるため(S208:YES)、言語モデル予測処理は終了する。
このときRAM13に記憶されている予測モデルは、正面顔が認識された直前に決定された予測モデルである。例えば、スケジュール確認用モデルが予測モデルに決定されていれば、ユーザと音声対話装置1との対話再開後に実行すべきタスクは、スケジュール確認用タスクであると予測されたということである。
言語モデル予測処理の終了時点で、実行モデルは乗換え案内用モデル、予測モデルはスケジュール確認用モデルということになる。よって、続いて行われるタスク処理では、ユーザP1の発話「スケジュールを教えて」が、まず、実行モデルである乗換え案内用モデルを用いて認識され(図7、S103)、次に、予測モデルであるスケジュール確認用モデルを用いて認識される(S121)。乗換え案内用モデルを用いた場合の認識結果の生起確率1よりも、スケジュール確認用モデルを用いた場合の認識結果の生起確率2の方が高い場合(S123:YES)、ユーザP1と音声対話装置1との対話の話題は、予測された話題に変化しており、タスクおよび言語モデルの切替えが必要と判断される。
そこで、実行タスクである乗換え案内タスクと、実行モデルである乗換え案内用モデルは、それぞれ退避タスク、退避モデルとされ(S124)、代わりに、予測モデルであるスケジュール確認用モデルと、対応するタスクであるスケジュール確認タスクが、実行モデル、実行タスクとされる(S125、S126)。そして、予測モデルは「なし」とされて(S127)、新たな実行タスクであるスケジュール確認タスクに従った処理が継続される。
音声対話装置1からは、スケジュール確認タスクの対話シナリオに沿って、「いつの予定でしょうか」という発話がなされ(S101)、ユーザP1からの「今週空いている時間を教えて」という要求が、新たな実行モデルであるスケジュール確認用モデルを用いて音声認識される(S103)。この時点では予測モデルはなく(S105:NO)、正面顔が認識されることになる(S113:YES)。
そこで、タスク固有制御処理として、例えば、ネットワークを介して接続されたスケジュールデータベース(図示外)において、空いている時間を検索する処理が行われる(S114)。音声対話装置1によって、検索結果として、「6日の午後2時から空き時間があります」という発話がなされた後、ユーザP1の「ありがとう」という発話により、実行タスクであるスケジュール確認タスクは終了し(S115:YES)、RAM13に、実行タスクは「なし」と記憶される(S135)。
図6のメイン処理に戻ると、中断フラグは0であり(S6:NO)、退避タスクとして、乗換え案内タスクが記憶されている(S8:YES)。よって、乗換え案内タスクが実行タスクとして復帰し(S9)、退避タスクは「なし」とされる(S10)。
その後、復帰した実行タスクである乗換え案内タスクに従ったタスク処理が行われるが、ユーザP1が再び第三者P2に顔を向け、「6日の午後2時からはどうですか」と発話すると、正面顔が認識できなくなるため(図7、S113:NO)、中断フラグが1とされる(S141)。続く言語モデル予測処理では、第三者P2の「ではその時間で」という発話に基づいて、予測モデルとしてスケジュール確認用モデルが決定される(図8、S205)。そのまま対話が終了して第三者P2が去ると、ユーザP1は、再び、音声対話装置1の正面に向き合う状態となる。すると、正面顔が認識されて(S208:YES)、言語モデル予測処理は終了する。
音声対話装置1に向き直った後のタスク処理では、音声対話装置1から、実行タスクである乗換え案内タスクに対応する対話シナリオに沿って、中断時に合わせた「出発駅は名古屋でよろしいですか」という音声が出力される。その後のユーザP1の発話は、実行モデルである乗換え案内用モデルと、予測モデルであるスケジュール確認用モデルとを用いて行われることになる(S103およびS121)。しかし、ユーザP1の発話は、乗換え案内に関する内容に戻るため、生起確率1が生起確率2よりも低くなることはない。
したがって、実行タスクである乗換え案内タスクに対応する対話シナリオに沿って対話が進行し、音声対話装置1からの「名古屋から東京へは、7時17分に出発し、8時50分に到着します」という発話に対して、ユーザP1が「ありがとう」と応じると、乗換え案内タスクは終了して(S115:YES)、実行タスクはなしとされ(S135)、退避タスクもないことから(図6、S13:YES)、メイン処理も終了する。
以上に説明したように、ユーザと音声対話装置1との最初の対話では、ユーザによって指定された話題(タスク)に応じて予め定められた言語モデルを実行モデルとして使用して、ユーザの発話が音声認識される。よって、ユーザの発話を高精度に認識することができる。その後、ユーザの顔向きの変化によって、ユーザが音声対話装置1と対話している最中に、ユーザと第三者との対話が発生したことが検出されると、ユーザと第三者の対話が継続している間は、両者の発話の意味が解析され、解析結果に応じた言語モデルが予測モデルとして選択される。そして、ユーザと音声対話装置1との対話が再開された後は、元々の話題(タスク)に対応する実行モデルと、予測された話題(タスク)に対応する予測モデルの両方を用いて、ユーザの発話の音声認識が行われる。したがって、間に第三者との対話が挟まれることによって、音声対話装置1との対話の話題が突然切り替わる場合に柔軟に対応でき、認識の正確性を向上させることができる。
また、第三者との対話終了後に再開された音声対話装置1との対話の認識結果の認識精度が、実行モデルよりも予測モデルを用いた場合の方が高ければ、現在モデルは退避モデルとされ、代わりに予測モデルが現在モデルとして置き換えられ、音声認識が行われる。そして、置き換えられた実行モデルに対応する話題(タスク)が終了すると、退避モデルが実行モデルに戻されて、音声認識が行われる。第三者との対話によって一旦話題が切り替わっても、その後、音声対話装置1との対話は、元の話題に復帰する可能性が高いため、このような処理により、元の話題への復帰に応じた言語モデルに速やかに切替えることができ、認識の正確性をさらに向上することができる。
さらに、ユーザと第三者との対話中に行われる予測モデルの選択処理では、両者の対話が終了する直前の、ユーザまたは第三者による発話に含まれる単語の意味属性に基づいて、予測モデルが決定されている。したがって、ユーザと第三者との対話が長くなり、両者の対話中に話題が変化した場合であっても、最新の発話内容によく対応した予測モデルを簡便に選択することができる。その結果、ユーザと音声対話装置1との対話再開後に、予測モデルによる認識の正確性を向上することができる。また、予測モデルの選択処理が行われている間は、音声対話装置1からの発話は行われないため、ユーザと第三者との対話中に不要な音声が差し挟まれて、対話の邪魔になることがない。
本実施形態では、図7のステップS102または図8のステップS202で、マイク17から入力された音声の音声データを取得するCPU11が、本発明の「音声情報取得手段」に相当する。図7のステップS103で実行モデルを用いて音声認識を行うCPU11が、「第1の音声認識手段」に相当する。図7のステップS113で正面顔が認識できたか否かを判断するCPU11が、「対話発生検出手段」に相当する。図8のステップS203ですべての言語モデルを用いて音声認識を行うCPU11が、「第2の音声認識手段」に相当する。図10のステップS404で予測モデルを決定するCPU11が、「予測モデル選択手段」に相当する。図8のステップS208で正面顔が認識できたか否かを判断するCPU11が、「対話終了検出手段」に相当する。図7のステップS103およびS121で、実行モデルおよび予測モデルを用いて音声認識を行うCPU11が、「第3の音声認識手段」に相当する。
図7のステップS124で実行モデルを退避モデルとするCPU11が、「待機モデル決定手段」に相当し、ステップS125で予測モデルを実行モデルとするCPU11が、「予測モデル置換え手段」に相当する。ステップS115で、置き換えられた実行タスクが終了したか否かを判断するCPU11が、「話題終了判断手段」に相当し、図6のステップS9で退避タスクを実行タスクとするCPU11が、「待機モデル復帰手段」に相当する。
図9のステップS303〜S305で単語の意味属性を特定するCPU11が、「意味特定手段」に相当し、図10のS402で、意味属性の数をカウントし、スコアを算出するCPU11が、「カウント手段」に相当し、S404で最大スコアの言語モデルを予測モデルとして決定するCPU11が、「対応モデル選択手段」に相当する。図7のステップS101で、スピーカ18に音声データを出力するCPU11が、「音声情報出力手段」に相当し、スピーカ18が、「音声出力手段」に相当する。
また、図7のステップS102または図8のステップS202が、本発明の「音声情報取得ステップ」に相当する。図7のステップS103が、「第1の音声認識ステップ」に相当する。図7のステップS113が、「対話発生検出ステップ」に相当する。図8のステップS203が、「第2の音声認識ステップ」に相当する。図10のステップS404が、「予測モデル選択ステップ」に相当する。図8のステップS208が、「対話終了検出ステップ」に相当する。図7のステップS103およびS121が、「第3の音声認識ステップ」に相当する。
<第2の実施形態>
次に、本発明の第2の実施形態について説明する。第2の実施形態に係る音声対話装置の構成は、前述の第1の実施形態に係る音声対話装置1と同一でよい。よって、ここでの説明は省略する。第2の実施形態に係る処理は、第1の実施形態とほぼ同様であるが、図6に示すメイン処理のステップS11で実行される言語モデル予測処理の内容のみが異なっている。よって、以下に、図14を参照して、第2の実施形態に係る言語モデル予測処理について説明する。図14は、第2の実施形態に係る言語モデル予測処理のフローチャートである。
次に、本発明の第2の実施形態について説明する。第2の実施形態に係る音声対話装置の構成は、前述の第1の実施形態に係る音声対話装置1と同一でよい。よって、ここでの説明は省略する。第2の実施形態に係る処理は、第1の実施形態とほぼ同様であるが、図6に示すメイン処理のステップS11で実行される言語モデル予測処理の内容のみが異なっている。よって、以下に、図14を参照して、第2の実施形態に係る言語モデル予測処理について説明する。図14は、第2の実施形態に係る言語モデル予測処理のフローチャートである。
図14に示すように、本実施形態の言語モデル予測処理では、まず、RAM13のフラグ記憶エリアに記憶されている再開フラグがゼロ(0)にセットされる(S231)。続いて、マイク17から入力されたユーザまたは第三者の音声が音声データに変換され、RAM13の所定の記憶エリアに取得される(S232)。言語モデル記憶エリア152に記憶されているすべての言語モデルが読み出され、それぞれの言語モデルを用いて、ユーザまたは第三者による発話の音声認識処理が行われる(S233)。つまり、言語モデル毎に、認識結果(発話に対応する単語列)とその生起確率とが出力され、RAM13の所定の記憶エリアに記憶される。そして、得られた生起確率のうち、最大の生起確率に対応する言語モデルが、予測モデルとして決定され、RAM13の所定の記憶エリアに記憶される(S234)。
続いて行われるステップS235〜S239の処理は、第1の実施形態で説明した、図8に示す言語モデル処理のステップS206〜S210と同様であるため、ここでの説明は省略する。
このように、本実施形態に係る言語モデル予測処理では、ユーザまたは第三者による最新の発話の認識結果の生起確率に基づいて、ユーザと音声対話装置1との対話が再開された後の話題が予測されている。したがって、前述の実施形態の言語モデル予測処理(図8参照)と同様、ユーザと第三者との対話が長くなり、両者の対話中に話題が変化した場合であっても、最新の発話内容によく対応した予測モデルを簡便に選択することができる。その結果、ユーザと音声対話装置1との対話再開後に、予測モデルによる認識の正確性を向上することができる。また、生起確率に基づいて、簡便に予測モデルを決定することができる。
本実施形態では、図14のステップS233ですべての言語モデルを用いて音声認識を行うCPU11が、本発明の「第2の音声認識手段」に相当し、ステップS234で予測モデルを決定するCPU11が、「予測モデル選択手段」に相当する。また、ステップS237で正面顔が認識できたか否かを判断するCPU11が、「対話終了検出手段」に相当する。
<第3の実施形態>
次に、本発明の第3の実施形態について説明する。第3の実施形態に係る音声対話装置の構成も、前述の第1の実施形態に係る音声対話装置1と同一でよいため、ここでの説明は省略する。第3の実施形態に係る処理も、第1の実施形態とほぼ同様であるが、図6に示すメイン処理のステップS11で実行される言語モデル予測処理、および、言語モデル予測処理で行われる予測モデル決定処理の内容のみが異なっている。よって、以下に、図15および図16を参照して、第3の実施形態に係る言語モデル予測処理および予測モデル決定処理について説明する。図15は、第3の実施形態に係る言語モデル予測処理のフローチャートである。図16は、第3の実施形態に係る予測モデル決定処理のフローチャートである。
次に、本発明の第3の実施形態について説明する。第3の実施形態に係る音声対話装置の構成も、前述の第1の実施形態に係る音声対話装置1と同一でよいため、ここでの説明は省略する。第3の実施形態に係る処理も、第1の実施形態とほぼ同様であるが、図6に示すメイン処理のステップS11で実行される言語モデル予測処理、および、言語モデル予測処理で行われる予測モデル決定処理の内容のみが異なっている。よって、以下に、図15および図16を参照して、第3の実施形態に係る言語モデル予測処理および予測モデル決定処理について説明する。図15は、第3の実施形態に係る言語モデル予測処理のフローチャートである。図16は、第3の実施形態に係る予測モデル決定処理のフローチャートである。
図15に示すように、本実施形態の言語モデル予測処理では、まず、RAM13のフラグ記憶エリアに記憶されている再開フラグがゼロ(0)にセットされる(S251)。音声対話装置1の内蔵時計(図示外)で管理されている現在の時刻が取得され、予測開始時刻として、RAM13の所定の記憶エリアに記憶される(S252)。続いて、再び現在の時刻が取得され、RAM13に記憶された予測開始時刻との差から、経過時間が算出され、RAM13の所定の記憶エリアに記憶される(S253)。経過時間は、ユーザおよび第三者の発話の音声認識結果を、経過時間に応じて重み付けするために使用される。
続いて、マイク17から入力されたユーザまたは第三者の音声が音声データに変換され、RAM13の所定の記憶エリアに取得される(S254)。言語モデル記憶エリア152に記憶されているすべての言語モデルが読み出され、それぞれの言語モデルを用いて、ユーザまたは第三者による発話の音声認識処理が行われる(S255)。つまり、言語モデル毎に、認識結果(発話に対応する単語列)とその生起確率とが出力され、RAM13の所定の記憶エリアに記憶される。そして、第1の実施形態と同様、得られた認識結果が示す意味属性を特定する意味解析処理が行われる(S256、図9)。
さらに、意味解析処理で意味リストに新たに追加された意味属性に付加して、ステップS253で算出された経過時間が記憶される(S257)。なお、図15に示す言語モデル予測処理では、ユーザの正面顔が認識できない間は、意味解析処理が繰り返し行われることになる。この場合、意味リストには、意味解析処理が行われる度に、意味属性とその時点の経過時間が新たに追加されていくことになる。
リングバッファから、最新の撮影画像が取得され(S258)、正面顔の認識処理が行われる(S259)。正面顔が認識できない場合には(S260:NO)、再開フラグは0とされたままであるため(S262:NO)、処理はステップS253に戻る。そして、前述と同様にして、ステップS253〜S260の処理が繰り返される。正面顔が認識された場合には(S260:YES)、フラグ記憶エリアに0として記憶されていた再開フラグが1とされる(S261)。そして、再開フラグが1であると判断された後(S262:YES)、予測モデル決定処理が行われる(S263、図16)。
図16に示すように、本実施形態の予測モデル決定処理では、まず、タスクテーブル記憶エリア155(図3参照)に記憶されているタスクテーブル1550(図5参照)が参照され、スコアが未算出の言語モデルと、関連づけられた意味属性とが選択される(S451)。例えば、図5に示すタスクテーブル1550の場合、1巡目の処理では、待受け用モデルと、関連づけられた意味属性「乗換え」および「日付」が選択される。そして、選択された言語モデルの重み付けスコアが算出され、RAM13に記憶される(S452)。
重み付けスコアの算出方法は、新たに取得された音声の認識結果ほど大きな重み付けがなされる限り、特に限定されない。例えば、意味リストに記憶されている意味属性のうち、処理中の言語モデルに関連付けられた意味属性と一致する意味属性の数に重み付け関数により得られる値を加算した結果を、重み付けスコアとすればよい。重み付けは、線形処理で行っても非線形処理で行ってもよい。線形処理の場合、例えば、経過時間T(分)を用いて、重み付け関数(T)=Tを利用することができる。
この処理において、意味リストに、処理中の言語モデルに関連付けられた意味属性「乗換え」が1つ含まれており、意味属性「日付」が2つ含まれていたとする。そして、意味リスト中の「乗換え」に付加された経過時間が「0.5分」、1つ目の「日付」に付加された経過時間が「1分」、2つ目の「日付」に付加された経過時間が「3分」だったとする。この場合、この言語モデルの重み付けスコアは、一致した意味属性の数3に、重み付け関数により得られる4.5(0.5+1+3)が加算され、7.5となる。
タスクテーブル1550に記憶されている言語モデルのうち、重み付けスコアが未算出の言語モデルが残っていれば(S453:NO)、スコアが未算出の次の言語モデルが選択され(S451)、同様にして重み付けスコアの算出が繰り返される(S452)。そして、すべての言語モデルについてスコアの算出が完了すると(S453:YES)、RAM13に記憶されているすべての言語モデルの重み付けスコアのうち、最大の重み付けスコアに対応する言語モデルが予測モデルとして決定され、RAM13の所定の記憶エリアに記憶される(S454)。その後、図16に示す予測モデル決定処理は終了し、図15の言語モデル予測処理に戻り、言語モデル予測処理も終了する。
以上に説明したように、本実施形態の言語モデル予測処理では、ユーザまたは第三者の音声データが入力される度に音声認識が行われ、新たに取得された音声の認識結果は、前回取得された音声の認識結果よりも大きく重み付けされる。そして、重み付けされた認識結果に基づいて予測モデルが選択されるため、第三者とのより新しい対話を重視して予測モデルが選択されることになる。したがって、第1の実施形態と同様、ユーザと第三者との対話が長くなり、両者の対話中に話題が変化した場合であっても、最新の発話内容によく対応した予測モデルを簡便に選択することができる。その結果、ユーザと音声対話装置1との対話再開後に、予測モデルによる認識の正確性を向上することができる。
本実施形態では、図15のステップS255ですべての言語モデルを用いて音声認識を行うCPU11が、本発明の「第2の音声認識手段」に相当する。ステップS253で経過時間を算出するCPU11が、「時間情報取得手段」に相当し、図16のステップS452で重み付けスコアを算出するCPU11が、「重み付け手段」に相当する。図16のステップS454で予測モデルを決定するCPU11が、「予測モデル選択手段」に相当する。また、図15のステップS260で正面顔が認識できたか否かを判断するCPU11が、「対話終了検出手段」に相当する。
なお、前述の実施形態に示される構成や処理は例示であり、各種の変形が可能なことはいうまでもない。例えば、前述の実施形態では、音声対話装置1を1つの装置として記憶しているが、ディスプレイ16、マイク17、スピーカ18、カメラ19およびこれらの制御を行う制御回路を備えた端末装置と、前述の各種処理を実行するためのプログラムとCPUとを備えたサーバとで構成してもよい。端末装置とサーバとは、LAN等のネットワークで接続される。また、1つのサーバに対して、複数の端末装置が接続されていてもよい。このような構成の場合は、サーバが、本発明の「音声対話装置」に相当する。
また、前述の実施形態では、カメラ19で撮影されたユーザの顔画像に基づいて、音声対話装置1のユーザと、第三者との対話の発生および終了が検出されている。しかしながら、ユーザと第三者との対話の発生および検出には、必ずしもカメラ19を使用する必要はない。例えば、音声対話装置1の正面の異なる位置に複数のマイクを配置し、各マイクから入力される音声の音声データに基づいて音源の方向を特定することにより、ユーザの音声と第三者の音声を識別することができる。また、例えば、ユーザの声紋をテンプレートとして記憶しておき、入力された音声データより算出した声紋とのマッチングにより、ユーザの音声であるか否かを判別することができる。
前述の方法で、第三者の音声が検出された場合、ユーザと第三者の対話が発生したと判断することができる。また、例えば、第三者の音声に続いて、ユーザの「ちょっと待ってください」や「それでは失礼します」等のように、第三者との対話の中断や終了を示す発話がなされた場合に、ユーザと第三者の対話が終了したと判断することができる。
また、前述の実施形態では、言語モデル予測処理の際、ユーザおよび第三者の発話を、言語モデル記憶エリア152(図3参照)に記憶されているすべての言語モデルを用いて音声認識している(図8、S203等)。しかしながら、必ずしもこの音声認識処理を、すべての言語モデルを用いて行う必要はない。例えば、実行モデル以外のすべての言語モデルを用いて行ってもよい。第三者との対話が発生した場合、その話題は、音声対話装置1との元の対話の話題とは異なる可能性が高いと考えられるためである。この場合、予測される最大範囲の話題をカバーしつつ、認識の正確性をより向上することができる。また、処理効率を向上することができる。
第3の実施形態の言語モデル予測処理(図15参照)では、重み付けに用いる時間の情報として、予測開始時刻からの経過時間を使用している。しかし、必ずしも経過時間を算出して使用する必要はなく、都度、現在時刻を意味属性に付加して記憶しておき、図16のステップS452において、現在時刻が遅い意味属性ほど重み付けを大きくするスコアリングを行ってもよい。
1 音声対話装置
11 CPU
15 ハードディスク装置
152 言語モデル記憶エリア
154 意味属性テーブル記憶エリア
155 タスクテーブル記憶エリア
11 CPU
15 ハードディスク装置
152 言語モデル記憶エリア
154 意味属性テーブル記憶エリア
155 タスクテーブル記憶エリア
Claims (10)
- 対話者との間で音声を用いて情報のやり取りを行う音声対話装置であって、
音声入力手段から入力された音声の音声情報を取得する音声情報取得手段と、
複数の話題に応じて予め言語モデル記憶手段に記憶されている複数の言語モデルのうち、現在の話題に応じた言語モデルである現在モデルを用いて、前記音声情報取得手段によって取得された前記音声情報を認識する第1の音声認識手段と、
前記対話者と第三者との対話が発生したことを検出する対話発生検出手段と、
前記対話発生検出手段によって前記対話が発生したことが検出された場合に、前記複数の言語モデルのうち少なくとも一部を用いて、前記音声情報取得手段によって取得された前記音声情報をそれぞれ認識する第2の音声認識手段と、
前記第2の音声認識手段による認識結果に基づいて、前記複数の言語モデルのうち1つを、次に予測される話題に応じた言語モデルである予測モデルとして選択する予測モデル選択手段と、
前記対話者と前記第三者との前記対話が終了したことを検出する対話終了検出手段と、
前記対話終了検出手段によって前記対話が終了したことが検出された場合に、前記現在モデルと前記予測モデル選択手段によって選択された前記予測モデルとを用いて、前記音声情報取得手段によって取得された前記音声情報を認識する第3の音声認識手段とを備えたことを特徴とする音声対話装置。 - 前記予測モデルを用いた前記第3の音声認識手段による前記認識結果の方が、前記現在モデルを用いた前記第3の音声認識手段による前記認識結果より認識確率が高い場合に、前記現在モデルを、一時的に使用を中断する言語モデルである待機モデルとして決定する待機モデル決定手段と、
前記待機モデル決定手段によって前記現在モデルが前記待機モデルとして決定された場合に、前記予測モデルで現在モデルを置き換える予測モデル置換え手段と、
前記予測モデル置換え手段によって置き換えられた前記現在モデルに対応する前記現在の話題が終了したか否かを判断する話題終了判断手段と、
前記話題終了判断手段によって前記現在の話題が終了したと判断された場合に、前記待機モデル決定手段によって決定された前記待機モデルで前記現在モデルを置き換える待機モデル復帰手段とをさらに備えたことを特徴とする請求項1に記載の音声対話装置。 - 前記第2の音声認識手段による前記認識結果を重み付けする重み付け手段をさらに備え、
前記第2の音声認識手段は、前記音声情報取得手段によって前記音声情報が取得される度に前記音声情報を認識し、
前記重み付け手段は、前記音声取得手段によって新たに取得された前記音声情報の前記認識結果に対して、前記音声取得手段によって前回取得された前記音声情報の前記認識結果よりも大きな重み付けをし、
前記予測モデル選択手段は、前記重み付け手段によって重み付けされた前記認識結果に基づいて、前記予測モデルを選択することを特徴とする請求項1または2に記載の音声対話装置。 - 前記第2の音声認識手段は、前記音声情報取得手段によって前記音声情報が取得される度に前記音声情報を認識し、
前記予測モデル選択手段は、前記対話終了検出手段によって前記第三者との前記対話が終了したことが検出される直前の前記第2の音声認識手段による前記認識結果に基づいて、前記予測モデルを選択することを特徴とする請求項1または2に記載の音声対話装置。 - 前記予測モデル選択手段は、複数の単語と意味属性とを対応付けて記憶する単語意味記憶手段を用いて、前記複数の言語モデルのうち少なくとも一部の各々について、前記第2の音声認識手段による前記認識結果に含まれる単語の意味属性を特定する意味特定手段と、
前記複数の言語モデルと関連する意味属性とを対応付けて記憶するモデル意味記憶手段を用いて、前記複数の言語モデルのうち少なくとも一部の各々に関連する意味属性として、前記意味特定手段によって特定された前記意味属性の数をカウントするカウント手段と、
前記複数の言語モデルのうち、前記カウント手段によってカウントされた前記関連する意味属性の数が最も多い言語モデルを前記予測モデルとして選択する対応モデル選択手段とを備えたことを特徴とする請求項1〜4のいずれかに記載の音声対話装置。 - 前記第2の音声認識手段は、前記複数の言語モデルのうち、少なくとも前記現在モデル以外の言語モデルをすべて用いて、前記音声情報を認識することを特徴とする請求項1〜5のいずれかに記載の音声対話装置。
- 前記対話者の顔を少なくとも含む画像を撮影する撮影手段を備え、
前記対話発生検出手段および前記対話終了手段は、それぞれ、前記撮影手段によって撮影された前記画像に含まれる前記対話者の前記顔の向きによって、前記対話者と第三者との前記対話の発生および終了を検出することを特徴とする請求項1〜6のいずれかに記載の音声対話装置。 - 音声を出力する音声出力手段に対して前記複数の話題に応じて予め定められた前記対話者に対する応答の音声情報を出力する音声情報出力手段をさらに備え、
前記音声情報出力手段は、前記対話発生検出手段によって前記対話が発生したことが検出された後、前記対話終了検出手段によって前記対話が終了したことが検出されるまでの間、前記応答の前記音声情報を出力しないことを特徴とする請求項1〜7のいずれかに記載の音声対話装置。 - 音声対話装置によって処理される、対話者との間で音声を用いて情報のやり取りを行う音声対話方法であって、
音声入力手段から入力された音声の音声情報を取得する音声情報取得ステップと、
複数の話題に応じて予め言語モデル記憶手段に記憶されている複数の言語モデルのうち、現在の話題に応じた言語モデルである現在モデルを用いて、前記音声情報取得ステップで取得された前記音声情報を認識する第1の音声認識ステップと、
前記対話者と第三者との対話が発生したことを検出する対話発生検出ステップと、
前記対話発生検出ステップで前記対話が発生したことが検出された場合に、前記複数の言語モデルのうち少なくとも一部を用いて、前記音声情報取得ステップで取得された前記音声情報をそれぞれ認識する第2の音声認識ステップと、
前記第2の音声認識ステップにおける認識結果に基づいて、前記複数の言語モデルのうち1つを、次に予測される話題に応じた言語モデルである予測モデルとして選択する予測モデル選択ステップと、
前記対話者と前記第三者との前記対話が終了したことを検出する対話終了検出ステップと、
前記対話終了検出ステップで前記対話が終了したことが検出された場合に、前記現在モデルと前記予測モデル選択ステップで選択された前記予測モデルとを用いて、前記音声情報取得ステップで取得された前記音声情報を認識する第3の音声認識ステップとを備えたことを特徴とする音声対話方法。 - 請求項1〜8のいずれかに記載の音声対話装置の各種処理手段としてコンピュータを機能させるための音声対話プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008232761A JP2010066519A (ja) | 2008-09-11 | 2008-09-11 | 音声対話装置、音声対話方法、および音声対話プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008232761A JP2010066519A (ja) | 2008-09-11 | 2008-09-11 | 音声対話装置、音声対話方法、および音声対話プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010066519A true JP2010066519A (ja) | 2010-03-25 |
Family
ID=42192159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008232761A Pending JP2010066519A (ja) | 2008-09-11 | 2008-09-11 | 音声対話装置、音声対話方法、および音声対話プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010066519A (ja) |
Cited By (135)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013072974A (ja) * | 2011-09-27 | 2013-04-22 | Toshiba Corp | 音声認識装置、方法及びプログラム |
JP2015122104A (ja) * | 2011-09-30 | 2015-07-02 | アップル インコーポレイテッド | バーチャルアシスタントのコマンド処理を容易にするためのコンテクスト情報の使用 |
US9633660B2 (en) | 2010-02-25 | 2017-04-25 | Apple Inc. | User profiling for voice input processing |
US9668024B2 (en) | 2014-06-30 | 2017-05-30 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9865248B2 (en) | 2008-04-05 | 2018-01-09 | Apple Inc. | Intelligent text-to-speech conversion |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9966060B2 (en) | 2013-06-07 | 2018-05-08 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9971774B2 (en) | 2012-09-19 | 2018-05-15 | Apple Inc. | Voice-based media searching |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US9986419B2 (en) | 2014-09-30 | 2018-05-29 | Apple Inc. | Social reminders |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10079014B2 (en) | 2012-06-08 | 2018-09-18 | Apple Inc. | Name recognition system |
US10083690B2 (en) | 2014-05-30 | 2018-09-25 | Apple Inc. | Better resolution when referencing to concepts |
US10089072B2 (en) | 2016-06-11 | 2018-10-02 | Apple Inc. | Intelligent device arbitration and control |
US10108612B2 (en) | 2008-07-31 | 2018-10-23 | Apple Inc. | Mobile device having human language translation capability with positional feedback |
US10169329B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Exemplar-based natural language processing |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
JP2019049742A (ja) * | 2012-08-10 | 2019-03-28 | エイディシーテクノロジー株式会社 | 音声応答装置 |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10269345B2 (en) | 2016-06-11 | 2019-04-23 | Apple Inc. | Intelligent task discovery |
US10283110B2 (en) | 2009-07-02 | 2019-05-07 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10297253B2 (en) | 2016-06-11 | 2019-05-21 | Apple Inc. | Application integration with a digital assistant |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10311871B2 (en) | 2015-03-08 | 2019-06-04 | Apple Inc. | Competing devices responding to voice triggers |
US10318871B2 (en) | 2005-09-08 | 2019-06-11 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US10332518B2 (en) | 2017-05-09 | 2019-06-25 | Apple Inc. | User interface for correcting recognition errors |
US10354011B2 (en) | 2016-06-09 | 2019-07-16 | Apple Inc. | Intelligent automated assistant in a home environment |
US10356243B2 (en) | 2015-06-05 | 2019-07-16 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US10381016B2 (en) | 2008-01-03 | 2019-08-13 | Apple Inc. | Methods and apparatus for altering audio output signals |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10403283B1 (en) | 2018-06-01 | 2019-09-03 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10410637B2 (en) | 2017-05-12 | 2019-09-10 | Apple Inc. | User-specific acoustic models |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10417405B2 (en) | 2011-03-21 | 2019-09-17 | Apple Inc. | Device access using voice authentication |
US10431204B2 (en) | 2014-09-11 | 2019-10-01 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10438595B2 (en) | 2014-09-30 | 2019-10-08 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10453443B2 (en) | 2014-09-30 | 2019-10-22 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10482874B2 (en) | 2017-05-15 | 2019-11-19 | Apple Inc. | Hierarchical belief states for digital assistants |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10497365B2 (en) | 2014-05-30 | 2019-12-03 | Apple Inc. | Multi-command single utterance input method |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10521466B2 (en) | 2016-06-11 | 2019-12-31 | Apple Inc. | Data driven natural language event detection and classification |
US10529332B2 (en) | 2015-03-08 | 2020-01-07 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10643611B2 (en) | 2008-10-02 | 2020-05-05 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10657961B2 (en) | 2013-06-08 | 2020-05-19 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10684703B2 (en) | 2018-06-01 | 2020-06-16 | Apple Inc. | Attention aware virtual assistant dismissal |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10699717B2 (en) | 2014-05-30 | 2020-06-30 | Apple Inc. | Intelligent assistant for home automation |
US10706841B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Task flow identification based on user intent |
US10714117B2 (en) | 2013-02-07 | 2020-07-14 | Apple Inc. | Voice trigger for a digital assistant |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733993B2 (en) | 2016-06-10 | 2020-08-04 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
CN111508530A (zh) * | 2020-04-13 | 2020-08-07 | 腾讯科技(深圳)有限公司 | 语音情感识别方法、装置及存储介质 |
US10741185B2 (en) | 2010-01-18 | 2020-08-11 | Apple Inc. | Intelligent automated assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10748546B2 (en) | 2017-05-16 | 2020-08-18 | Apple Inc. | Digital assistant services based on device capabilities |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10755703B2 (en) | 2017-05-11 | 2020-08-25 | Apple Inc. | Offline personal assistant |
US10769385B2 (en) | 2013-06-09 | 2020-09-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10791176B2 (en) | 2017-05-12 | 2020-09-29 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US10789945B2 (en) | 2017-05-12 | 2020-09-29 | Apple Inc. | Low-latency intelligent automated assistant |
US10795541B2 (en) | 2009-06-05 | 2020-10-06 | Apple Inc. | Intelligent organization of tasks items |
US10810274B2 (en) | 2017-05-15 | 2020-10-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
CN112511877A (zh) * | 2020-12-07 | 2021-03-16 | 四川长虹电器股份有限公司 | 一种智能电视语音连续对话及交互的方法 |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11010127B2 (en) | 2015-06-29 | 2021-05-18 | Apple Inc. | Virtual assistant for media playback |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US11023513B2 (en) | 2007-12-20 | 2021-06-01 | Apple Inc. | Method and apparatus for searching using an active ontology |
US11048473B2 (en) | 2013-06-09 | 2021-06-29 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US11069336B2 (en) | 2012-03-02 | 2021-07-20 | Apple Inc. | Systems and methods for name pronunciation |
US11120372B2 (en) | 2011-06-03 | 2021-09-14 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US11127397B2 (en) | 2015-05-27 | 2021-09-21 | Apple Inc. | Device voice control |
US11133008B2 (en) | 2014-05-30 | 2021-09-28 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US11217251B2 (en) | 2019-05-06 | 2022-01-04 | Apple Inc. | Spoken notifications |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US11231904B2 (en) | 2015-03-06 | 2022-01-25 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US11237797B2 (en) | 2019-05-31 | 2022-02-01 | Apple Inc. | User activity shortcut suggestions |
US11269678B2 (en) | 2012-05-15 | 2022-03-08 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11314370B2 (en) | 2013-12-06 | 2022-04-26 | Apple Inc. | Method for extracting salient dialog usage from live data |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11350253B2 (en) | 2011-06-03 | 2022-05-31 | Apple Inc. | Active transport based notifications |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11388291B2 (en) | 2013-03-14 | 2022-07-12 | Apple Inc. | System and method for processing voicemail |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11468282B2 (en) | 2015-05-15 | 2022-10-11 | Apple Inc. | Virtual assistant in a communication session |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US11495218B2 (en) | 2018-06-01 | 2022-11-08 | Apple Inc. | Virtual assistant operation in multi-device environments |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11532306B2 (en) | 2017-05-16 | 2022-12-20 | Apple Inc. | Detecting a trigger of a digital assistant |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11657813B2 (en) | 2019-05-31 | 2023-05-23 | Apple Inc. | Voice identification in digital assistant systems |
US11798547B2 (en) | 2013-03-15 | 2023-10-24 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US11810578B2 (en) | 2020-05-11 | 2023-11-07 | Apple Inc. | Device arbitration for digital assistant-based intercom systems |
US11831799B2 (en) | 2019-08-09 | 2023-11-28 | Apple Inc. | Propagating context information in a privacy preserving manner |
-
2008
- 2008-09-11 JP JP2008232761A patent/JP2010066519A/ja active Pending
Cited By (185)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10318871B2 (en) | 2005-09-08 | 2019-06-11 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US11928604B2 (en) | 2005-09-08 | 2024-03-12 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US11023513B2 (en) | 2007-12-20 | 2021-06-01 | Apple Inc. | Method and apparatus for searching using an active ontology |
US10381016B2 (en) | 2008-01-03 | 2019-08-13 | Apple Inc. | Methods and apparatus for altering audio output signals |
US9865248B2 (en) | 2008-04-05 | 2018-01-09 | Apple Inc. | Intelligent text-to-speech conversion |
US10108612B2 (en) | 2008-07-31 | 2018-10-23 | Apple Inc. | Mobile device having human language translation capability with positional feedback |
US11348582B2 (en) | 2008-10-02 | 2022-05-31 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10643611B2 (en) | 2008-10-02 | 2020-05-05 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10475446B2 (en) | 2009-06-05 | 2019-11-12 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US11080012B2 (en) | 2009-06-05 | 2021-08-03 | Apple Inc. | Interface for a virtual digital assistant |
US10795541B2 (en) | 2009-06-05 | 2020-10-06 | Apple Inc. | Intelligent organization of tasks items |
US10283110B2 (en) | 2009-07-02 | 2019-05-07 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10706841B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Task flow identification based on user intent |
US11423886B2 (en) | 2010-01-18 | 2022-08-23 | Apple Inc. | Task flow identification based on user intent |
US10741185B2 (en) | 2010-01-18 | 2020-08-11 | Apple Inc. | Intelligent automated assistant |
US10049675B2 (en) | 2010-02-25 | 2018-08-14 | Apple Inc. | User profiling for voice input processing |
US9633660B2 (en) | 2010-02-25 | 2017-04-25 | Apple Inc. | User profiling for voice input processing |
US10692504B2 (en) | 2010-02-25 | 2020-06-23 | Apple Inc. | User profiling for voice input processing |
US10417405B2 (en) | 2011-03-21 | 2019-09-17 | Apple Inc. | Device access using voice authentication |
US11350253B2 (en) | 2011-06-03 | 2022-05-31 | Apple Inc. | Active transport based notifications |
US11120372B2 (en) | 2011-06-03 | 2021-09-14 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
JP2013072974A (ja) * | 2011-09-27 | 2013-04-22 | Toshiba Corp | 音声認識装置、方法及びプログラム |
JP2015122104A (ja) * | 2011-09-30 | 2015-07-02 | アップル インコーポレイテッド | バーチャルアシスタントのコマンド処理を容易にするためのコンテクスト情報の使用 |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US11069336B2 (en) | 2012-03-02 | 2021-07-20 | Apple Inc. | Systems and methods for name pronunciation |
US11269678B2 (en) | 2012-05-15 | 2022-03-08 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US10079014B2 (en) | 2012-06-08 | 2018-09-18 | Apple Inc. | Name recognition system |
JP2019049742A (ja) * | 2012-08-10 | 2019-03-28 | エイディシーテクノロジー株式会社 | 音声応答装置 |
US9971774B2 (en) | 2012-09-19 | 2018-05-15 | Apple Inc. | Voice-based media searching |
US10714117B2 (en) | 2013-02-07 | 2020-07-14 | Apple Inc. | Voice trigger for a digital assistant |
US10978090B2 (en) | 2013-02-07 | 2021-04-13 | Apple Inc. | Voice trigger for a digital assistant |
US11388291B2 (en) | 2013-03-14 | 2022-07-12 | Apple Inc. | System and method for processing voicemail |
US11798547B2 (en) | 2013-03-15 | 2023-10-24 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US9966060B2 (en) | 2013-06-07 | 2018-05-08 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US10657961B2 (en) | 2013-06-08 | 2020-05-19 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US11727219B2 (en) | 2013-06-09 | 2023-08-15 | Apple Inc. | System and method for inferring user intent from speech inputs |
US11048473B2 (en) | 2013-06-09 | 2021-06-29 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10769385B2 (en) | 2013-06-09 | 2020-09-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US11314370B2 (en) | 2013-12-06 | 2022-04-26 | Apple Inc. | Method for extracting salient dialog usage from live data |
US10497365B2 (en) | 2014-05-30 | 2019-12-03 | Apple Inc. | Multi-command single utterance input method |
US11133008B2 (en) | 2014-05-30 | 2021-09-28 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10169329B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Exemplar-based natural language processing |
US10699717B2 (en) | 2014-05-30 | 2020-06-30 | Apple Inc. | Intelligent assistant for home automation |
US11257504B2 (en) | 2014-05-30 | 2022-02-22 | Apple Inc. | Intelligent assistant for home automation |
US10417344B2 (en) | 2014-05-30 | 2019-09-17 | Apple Inc. | Exemplar-based natural language processing |
US10083690B2 (en) | 2014-05-30 | 2018-09-25 | Apple Inc. | Better resolution when referencing to concepts |
US10657966B2 (en) | 2014-05-30 | 2020-05-19 | Apple Inc. | Better resolution when referencing to concepts |
US10714095B2 (en) | 2014-05-30 | 2020-07-14 | Apple Inc. | Intelligent assistant for home automation |
US10878809B2 (en) | 2014-05-30 | 2020-12-29 | Apple Inc. | Multi-command single utterance input method |
US10904611B2 (en) | 2014-06-30 | 2021-01-26 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9668024B2 (en) | 2014-06-30 | 2017-05-30 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10431204B2 (en) | 2014-09-11 | 2019-10-01 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10453443B2 (en) | 2014-09-30 | 2019-10-22 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10438595B2 (en) | 2014-09-30 | 2019-10-08 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10390213B2 (en) | 2014-09-30 | 2019-08-20 | Apple Inc. | Social reminders |
US9986419B2 (en) | 2014-09-30 | 2018-05-29 | Apple Inc. | Social reminders |
US11231904B2 (en) | 2015-03-06 | 2022-01-25 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US11087759B2 (en) | 2015-03-08 | 2021-08-10 | Apple Inc. | Virtual assistant activation |
US10930282B2 (en) | 2015-03-08 | 2021-02-23 | Apple Inc. | Competing devices responding to voice triggers |
US10529332B2 (en) | 2015-03-08 | 2020-01-07 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US10311871B2 (en) | 2015-03-08 | 2019-06-04 | Apple Inc. | Competing devices responding to voice triggers |
US11468282B2 (en) | 2015-05-15 | 2022-10-11 | Apple Inc. | Virtual assistant in a communication session |
US11127397B2 (en) | 2015-05-27 | 2021-09-21 | Apple Inc. | Device voice control |
US10681212B2 (en) | 2015-06-05 | 2020-06-09 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10356243B2 (en) | 2015-06-05 | 2019-07-16 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US11010127B2 (en) | 2015-06-29 | 2021-05-18 | Apple Inc. | Virtual assistant for media playback |
US11126400B2 (en) | 2015-09-08 | 2021-09-21 | Apple Inc. | Zero latency digital assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US11500672B2 (en) | 2015-09-08 | 2022-11-15 | Apple Inc. | Distributed personal assistant |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US11526368B2 (en) | 2015-11-06 | 2022-12-13 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10354652B2 (en) | 2015-12-02 | 2019-07-16 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10942703B2 (en) | 2015-12-23 | 2021-03-09 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US11069347B2 (en) | 2016-06-08 | 2021-07-20 | Apple Inc. | Intelligent automated assistant for media exploration |
US10354011B2 (en) | 2016-06-09 | 2019-07-16 | Apple Inc. | Intelligent automated assistant in a home environment |
US10733993B2 (en) | 2016-06-10 | 2020-08-04 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US11037565B2 (en) | 2016-06-10 | 2021-06-15 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10089072B2 (en) | 2016-06-11 | 2018-10-02 | Apple Inc. | Intelligent device arbitration and control |
US11152002B2 (en) | 2016-06-11 | 2021-10-19 | Apple Inc. | Application integration with a digital assistant |
US10521466B2 (en) | 2016-06-11 | 2019-12-31 | Apple Inc. | Data driven natural language event detection and classification |
US10269345B2 (en) | 2016-06-11 | 2019-04-23 | Apple Inc. | Intelligent task discovery |
US10942702B2 (en) | 2016-06-11 | 2021-03-09 | Apple Inc. | Intelligent device arbitration and control |
US10580409B2 (en) | 2016-06-11 | 2020-03-03 | Apple Inc. | Application integration with a digital assistant |
US10297253B2 (en) | 2016-06-11 | 2019-05-21 | Apple Inc. | Application integration with a digital assistant |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10553215B2 (en) | 2016-09-23 | 2020-02-04 | Apple Inc. | Intelligent automated assistant |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US11656884B2 (en) | 2017-01-09 | 2023-05-23 | Apple Inc. | Application integration with a digital assistant |
US10332518B2 (en) | 2017-05-09 | 2019-06-25 | Apple Inc. | User interface for correcting recognition errors |
US10741181B2 (en) | 2017-05-09 | 2020-08-11 | Apple Inc. | User interface for correcting recognition errors |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10755703B2 (en) | 2017-05-11 | 2020-08-25 | Apple Inc. | Offline personal assistant |
US10847142B2 (en) | 2017-05-11 | 2020-11-24 | Apple Inc. | Maintaining privacy of personal information |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US11599331B2 (en) | 2017-05-11 | 2023-03-07 | Apple Inc. | Maintaining privacy of personal information |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US11405466B2 (en) | 2017-05-12 | 2022-08-02 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US11380310B2 (en) | 2017-05-12 | 2022-07-05 | Apple Inc. | Low-latency intelligent automated assistant |
US10789945B2 (en) | 2017-05-12 | 2020-09-29 | Apple Inc. | Low-latency intelligent automated assistant |
US10410637B2 (en) | 2017-05-12 | 2019-09-10 | Apple Inc. | User-specific acoustic models |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
US10791176B2 (en) | 2017-05-12 | 2020-09-29 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US10810274B2 (en) | 2017-05-15 | 2020-10-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10482874B2 (en) | 2017-05-15 | 2019-11-19 | Apple Inc. | Hierarchical belief states for digital assistants |
US11532306B2 (en) | 2017-05-16 | 2022-12-20 | Apple Inc. | Detecting a trigger of a digital assistant |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10909171B2 (en) | 2017-05-16 | 2021-02-02 | Apple Inc. | Intelligent automated assistant for media exploration |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US11217255B2 (en) | 2017-05-16 | 2022-01-04 | Apple Inc. | Far-field extension for digital assistant services |
US10748546B2 (en) | 2017-05-16 | 2020-08-18 | Apple Inc. | Digital assistant services based on device capabilities |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US11710482B2 (en) | 2018-03-26 | 2023-07-25 | Apple Inc. | Natural assistant interaction |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11854539B2 (en) | 2018-05-07 | 2023-12-26 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11169616B2 (en) | 2018-05-07 | 2021-11-09 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US11009970B2 (en) | 2018-06-01 | 2021-05-18 | Apple Inc. | Attention aware virtual assistant dismissal |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US10403283B1 (en) | 2018-06-01 | 2019-09-03 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10684703B2 (en) | 2018-06-01 | 2020-06-16 | Apple Inc. | Attention aware virtual assistant dismissal |
US11495218B2 (en) | 2018-06-01 | 2022-11-08 | Apple Inc. | Virtual assistant operation in multi-device environments |
US10720160B2 (en) | 2018-06-01 | 2020-07-21 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10984798B2 (en) | 2018-06-01 | 2021-04-20 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11431642B2 (en) | 2018-06-01 | 2022-08-30 | Apple Inc. | Variable latency device coordination |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US10944859B2 (en) | 2018-06-03 | 2021-03-09 | Apple Inc. | Accelerated task performance |
US10504518B1 (en) | 2018-06-03 | 2019-12-10 | Apple Inc. | Accelerated task performance |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11217251B2 (en) | 2019-05-06 | 2022-01-04 | Apple Inc. | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11237797B2 (en) | 2019-05-31 | 2022-02-01 | Apple Inc. | User activity shortcut suggestions |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11657813B2 (en) | 2019-05-31 | 2023-05-23 | Apple Inc. | Voice identification in digital assistant systems |
US11360739B2 (en) | 2019-05-31 | 2022-06-14 | Apple Inc. | User activity shortcut suggestions |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11831799B2 (en) | 2019-08-09 | 2023-11-28 | Apple Inc. | Propagating context information in a privacy preserving manner |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
CN111508530A (zh) * | 2020-04-13 | 2020-08-07 | 腾讯科技(深圳)有限公司 | 语音情感识别方法、装置及存储介质 |
CN111508530B (zh) * | 2020-04-13 | 2024-02-13 | 腾讯科技(深圳)有限公司 | 语音情感识别方法、装置及存储介质 |
US11810578B2 (en) | 2020-05-11 | 2023-11-07 | Apple Inc. | Device arbitration for digital assistant-based intercom systems |
CN112511877B (zh) * | 2020-12-07 | 2021-08-27 | 四川长虹电器股份有限公司 | 一种智能电视语音连续对话及交互的方法 |
CN112511877A (zh) * | 2020-12-07 | 2021-03-16 | 四川长虹电器股份有限公司 | 一种智能电视语音连续对话及交互的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2010066519A (ja) | 音声対話装置、音声対話方法、および音声対話プログラム | |
US11133027B1 (en) | Context driven device arbitration | |
US10649727B1 (en) | Wake word detection configuration | |
US11217230B2 (en) | Information processing device and information processing method for determining presence or absence of a response to speech of a user on a basis of a learning result corresponding to a use situation of the user | |
US8818801B2 (en) | Dialogue speech recognition system, dialogue speech recognition method, and recording medium for storing dialogue speech recognition program | |
US11797772B2 (en) | Word lattice augmentation for automatic speech recognition | |
JP5706384B2 (ja) | 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム | |
CN116959420A (zh) | 自动地确定用于经由自动化助理接口接收的口头话语的语音辨识的语言 | |
JP6084654B2 (ja) | 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法 | |
US11687526B1 (en) | Identifying user content | |
JP2003308087A (ja) | 文法更新システム及び方法 | |
US11289085B2 (en) | Automatic turn delineation in multi-turn dialogue | |
US11763819B1 (en) | Audio encryption | |
JP6675078B2 (ja) | 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム | |
US11258671B1 (en) | Functionality management for devices | |
CN104240718A (zh) | 转录支持设备和方法 | |
US11532301B1 (en) | Natural language processing | |
JPWO2019031268A1 (ja) | 情報処理装置、及び情報処理方法 | |
US11373635B2 (en) | Information processing apparatus that fades system utterance in response to interruption | |
JP4634156B2 (ja) | 音声対話方法および音声対話装置 | |
JP2002215187A (ja) | 音声認識方法及びその装置 | |
WO2018043138A1 (ja) | 情報処理装置および情報処理方法、並びにプログラム | |
US11626107B1 (en) | Natural language processing | |
US10923122B1 (en) | Pausing automatic speech recognition | |
JP2009104047A (ja) | 情報処理方法及び情報処理装置 |