JP4053141B2 - 音声に基づくタスク自動分類の方法、呼自動分類の方法及びタスク自動分類システム - Google Patents
音声に基づくタスク自動分類の方法、呼自動分類の方法及びタスク自動分類システム Download PDFInfo
- Publication number
- JP4053141B2 JP4053141B2 JP18940398A JP18940398A JP4053141B2 JP 4053141 B2 JP4053141 B2 JP 4053141B2 JP 18940398 A JP18940398 A JP 18940398A JP 18940398 A JP18940398 A JP 18940398A JP 4053141 B2 JP4053141 B2 JP 4053141B2
- Authority
- JP
- Japan
- Prior art keywords
- meaningful
- classification
- phrase
- automatic
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012360 testing method Methods 0.000 claims abstract description 11
- 238000013179 statistical model Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 claims 3
- 238000001514 detection method Methods 0.000 description 21
- 238000009826 distribution Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000013459 approach Methods 0.000 description 6
- 239000012634 fragment Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000010187 selection method Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000000844 transformation Methods 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
【発明の属する技術分野】
本発明は、音声処理に関し、特に1個以上の要求タスクの挙動に関する有意味語句の自動クラスタリングのシステムおよび方法に関する。
【0002】
【従来の技術】
通信ネットワークにおいて、ネットワークのユーザが要求する特定のタスクを自動的に実行する機能が求められる場合が多い。すなわち人間が介在せずにそのようなタスクを実行することである。従来技術では、そのようなタスク自動実行は一般に複数のメニュー選択を通じて行なわれるが、メニューの選択はユーザが指定した信号や、ユーザの電話器に付いているキーパッドで生成された汎用数値信号、あるいはユーザがその数値をキーワードとして発音することで選択される。多くの場合、そのようなメニューベースのタスク自動実行環境には多段メニューが含まれる。そのような多段メニュー構造は一般にユーザに好まれず、所期の目的を達するには著しく非効率である。多段メニューを介してうまくルーティングできる可能性は非常に小さい。言い換えると、このような環境下で多段メニューにアクセスしようとする呼は、発呼者が求める相手先に到達する前に切断されるか、または宛先不明扱いでオペレータ(または他の有人デフォルト局)に回される。
【0003】
従来技術の限界は、いずれも1995年9月15日に受理された米国特許出願第08/528,577号「語句生成の自動化」、および米国特許出願08/528,578号「呼自動ルーティングシステム」で述べられており、ここに参考のため引用されている。これらの出願はタスク自動選択の方法論を与え、選択されるタスクはそれを選ぶ人間が自然に話した音声中で識別される。本方法の基本的な側面は、有意味語句の集合の判定である。そのような有意味語句は文法的推論アルゴリズムにより判定される。そのアルゴリズムは、それぞれ特定の目的タスクと対応付けられた音声からなる予め決められた音声集合(音声コーパス)の上で動作し、そのアルゴリズムにおいては、各音声はそれに伴なう目的タスクと関連付けられている。
【0004】
上述の出願で用いられる有意味語句の判定法は、言語における単語や構造の共通性の尺度−すなわちグループ化された語句が同時出現する頻度−と、そのようなグループに対して定義されたタスクの有意度とを組み合わせるという概念の中で構築されている。言語内での共通性の尺度は、学習用音声データベースから導かれたn語間の相関情報として明示され、またタスクの有用性の尺度は特徴性尺度として明示される。
【0005】
相関情報(Mutual Information、以下、MIと記すことがある。)は2個以上の単語が同時出現する可能性を測定するものであり、その言語自身のみで規定できる。例えば、「戦争と平和」のロシア語原文を一言も理解できなくても、テキスト中に現れるすべての可能な単語の組み合わせについて相関情報を計算することができる。これに対して特徴性の計算は、言語、及びその装置環境への超言語的な関連の両方を包含する。MIと特徴性因子をそのように組み合わせることで、正MI値(語句を構成する単語間に相対的に強い関連があることを示す)と高特徴性値の両方を持つ有意味語句が選択される。
【0006】
【発明が解決しようとする課題】
しかし、そのような方法は、特徴的な単語の別々の集合が特定の入力音声中に現れる確率に基づいている。例えば、特徴語句である「長距離電話をかけた」、「一回の長距離電話」、「長距離電話」は同じ目的のためにユーザが発声したものであるが、各々の独立した相関情報と特徴性値に基づく上述の文法的推論アルゴリズムでは別々の有意味語句と判定されるであろう。このように、文法的推論アルゴリズムにおいては、実質的には同一の単語の集合で意味も同じである多くの独立語句が生成され、それらは互いに別々のまま取り扱われ、別個の出現確率を表す。これらの“類似”特徴語句をグループ化せずにおくと、上述の方法による確率推定の精度が低くなり、結果的にユーザからの要求に対して不正確なルーティングを与える恐れがある。
【0007】
【課題を解決するための手段】
タスク自動選択の方法およびシステムが提示される。選択されるタスクは、選択を行なうユーザが自然に話した音声から識別される。本方法およびシステムは有意検定を通じて有意味語句の選択機能を含む。選択された有意味語句は文字列および意味的変形の組み合わせを用いてクラスタリングされる。有意味語句のクラスタは音声認識装置に入力され、入力音声に有意味語句クラスタが存在するか否かが判定される。認識された有意味語句クラスタに基づいてタスク種類の決定がなされる。
【0008】
以後、アルゴリズムおよびコンピュータシステム内のデータビット演算記号表現を一部用いて説明する。これらのアルゴリズム的記述および表現は、コンピュータ処理技術に習熟した者が自身の業績をその方面の知識を持つ他者に伝達する際に通常用いられる手段であることが、以下で理解されよう。
【0009】
ここで(また一般に)用いられるように、アルゴリズムは所期の結果に至る一連の自己完結ステップであると見なせよう。これらのステップは一般に物理量の演算を含む。例外もあるが、通常これらの量は保存、転送、組み合わせ、比較あるいは演算が可能な電気的または磁気的信号の形をとる。 これらの信号は通常の利用しやすさとともに、参照しやすくするために折りにふれビット、値、要素、記号、文字、項、番号等で記述される。しかし、これらや類似の語には適当な物理量が付随すること、すなわちそのような語は単にこれらの量に付けられた便利なラベルに過ぎないことを強調しておく。
【0010】
また、演算やコンピュータ動作の方法と計算法自体とは明確に区別すべきである。本発明は、電気的または他の(例:機械的、化学的)物理信号を処理して、求める別の物理信号を生成するためのコンピュータ動作の方法に関する。
【0011】
説明をわかりやすくするために、本発明の図示された実施の形態は個別の機能ブロック(「プロセッサ」とラベル付けされた機能ブロックを含む)から構成されるように表現されている。これらのブロックが表現する機能は、共用または専用ハードウェアにより実現され得る。ここでいうハードウェアはソフトウェアの実行が可能なハードウェアを含むが、これに限定されるものではない。例えば、図4に示すプロセッサの機能は単一共用プロセッサにより実現される(「プロセッサ」という用語をソフトウェア実行が可能なハードウェアに限定して解釈してはならない)。
【0012】
図示された実施の形態は、AT&T DSPI6やDSP32C等のマイクロプロセッサまたはデジタル信号プロセッサ(DSP)ハードウェア、後述の演算を実行するソフトウェアを格納する読みだし専用メモリ(ROM)、結果を格納するランダムアクセスメモリ(RAM)から構成される。汎用DSP回路と組み合わせたカスタムVLSI回路とともに、超大規模集積(VLSU)ハードウェアの実施の形態もまた提示される。
【0013】
本発明の基本目的は人間ユーザと機械のコミュニケーションを含むタスク選択法であり、特定の語彙を理解する負担を人間から機械に肩代わりさせるものである。このように、汎用化された実施の形態において本発明は下記の特徴を備えたタスク選択法として表現される。
【0014】
最初に、システムにアクセスすると「ご用件をお話し下さい。」のようなあいさつ文が表示される。
【0015】
ユーザが自分の目的(実行したいタスクなど)を自然な発声で答えると、ユーザ要求は所定の多くの目的タスクの一つに分類され、続いてその目的タスクが実行される。
【0016】
以後説明される本発明の好適例において、本発明によるシステムおよび方法の実装は、ユーザの要求タスクが電話システムまたはネットワークにより実行される形の適用例により適宜図示される。そのような適用例において、ユーザの目的タスクとして請求先の指定(例:コレクト、第三者)、ダイヤル番号案内、請求の問い合わせ、クレジット要求(番号違いやかけ間違いに関する)、市街局番等があろう。
【0017】
【発明の実施の形態】
従来の通信環境において、ある通信相手先で利用できる各種のサービスにアクセスするためにユーザがそれぞれの番号やダイヤルパターンを知らねばならないことがよくある。また、求める目的に到達するためにメニュードリブン式のシステムを使いこなす必要に迫られることも有り得る。本発明のシステムおよび方法により、ユーザは中央局番号へアクセスすることができ、ユーザの目的はその内容に基づいて通信の受け側により実現されよう。
【0018】
そのような内容主体のルーティングの例として、「ご用件をお話し下さい。」のプロンプトに対し、発呼者が「支払いを相手に振り替えたい。」と答えるような場面がある。この場合の適切な動作は、自動的にコレクトコールを処理するサブシステムへ発呼者をつなぐことである。別の例として、「請求書の内容がよく理解できない。」と発呼者が答えた場合には電話会社の営業所につなぐべきである。このように、システムは適切に呼をルーティングできる程度に話し言葉を理解できねばならない。
【0019】
A.基本的アプローチ
このようなシステムの基本構成は、A.Gorinの「自動化された言語習得」、J.Acoust.Soc.Am.、97 3441-3461(1995年6月号)[以後Gorin 95と略記]中の発明者の一人により述べられており、ここにおいても一部として組込まれている。その基本的アプローチにおいて考慮されたことの多くが本発明のシステムおよび方法の素材になっている。それらの考慮事項のうちいくつかを以後簡単に概説する。概説に先立って、Gorin 95で述べられたアプローチでは、入力テキストや音声と所定の目的タスク集合の一つとの紐付けを決定するための分類パラメータは、目的タスクと紐付けられた音声コーパスから導かれた特徴語として実装されている。ここに記述された方法を適用するに際して、分類パラメータは対応する目的ルーティングと紐付けられた音声コーパスから導かれた有意味語句クラスタとして実装されている。
【0020】
このアプローチの中心に膨大な数の音声データベースがあり、各音声は目的ルーティングの所定の集合の一つと関係付けられている。このデータベースは分類パラメータアルゴリズムへの入力を形成する。そのような音声は「ご要件をお話し下さい。」(または同様の語句)とのプロンプトに対しユーザが実際に応答した音声から抽出されることが望ましい。各音声は次に文字化され、目的ルーティングの所定の集合の一つへラベル付けされる。発明者が使用したデータベースにある音声の例は以下のようなものである。
【0021】
うん、相手に払わせたいんだ
この番号につながらないんだ
電話を切ろうとしたんだ。
【0022】
メキシコにかけたいんだ
自宅の電話に請求してくれ
発明者の一人が共著した関連文献Gorin,A.L.、Hanek,H.、Rose,R. and Miller,L.、「呼自動ルーティングのための音声言語の習得」、音声言語処理国際会議(ICSLP 94)予稿集、横浜(1994年9月18日〜22日)[以後Gorin 94Aと略記]の中で、そのようなデータベース中の目的ルーティングの分布は実質的に偏っていることが注記されている。本発明のシステムにより自動化される目的ルーティングの特定集合の決定においてもそのような偏りは当然考慮されている。
【0023】
本発明のシステムに関する特徴原理は、発明者の一人が共著した別の文献Gorin,A.L.、Levinson,S.E.、Sanker,A.「音声言語習得の実験」IEEE Trans. on Speech and Audio、vol.2、No.1、PartII、pp.224〜240(1994年1月号)[以後Gorin 94と略記]において定義されている。特に、単語の特徴性を、検討対象のタスクに対するその単語の情報量として定義する。その単語がそのタスクにとってどれほど意味があるかの尺度として解釈できる。シャノン(Shannon)による伝統的な情報量は単語に起こり得る不確実性を測定するものであり、ここでいう特徴性は、それとは区別され対比され得る。公知のように、そのような伝統的情報量は言語の例から推定可能であるが、特徴性の推定は言語と超言語的関連の両方が必要である。
【0024】
先に述べたように、Gorin 95では分類パラメータとして特定の目的ルーティングと特徴的な関連を有する検定用音声集からの単語を用いている。米国特許出願08/528,577号および08/528,578号は、分類パラメータとして有意味語句を用いることでこの方法論から離れる重要な点を示している。そのような有意味語句を決定する方法を説明する前に、そのような自動ルーティングシステムおよび関連する“成功”概念において経験した二種類のエラーを定義しておくことは有用である。
【0025】
第1のエラーは、目的ルーティングの検出が誤っている場合であり、発呼者の本当の要求は別の目的ルーティングなのに、ある目的ルーティングに関連する特徴(有意味)語句が発呼者の入力音声中に検出された場合である。そのような誤検出が生じる確率を以後PFDと表記する。
【0026】
第2のエラーは、目的ルーティングの検出がヒットしない場合であり、発呼者の入力音声がその目的ルーティングに向けられているにもかかわらず、その目的ルーティングに紐付けられた有意味語句が入力音声中に全く検出されない場合である。そのような無検出の確率を以後PMDと表記する。
【0027】
目的ルーティングのカバー率は、ある目的ルーティングへの要求をシステムが正しくその目的ルーティングへ翻訳できた回数と、その目的ルーティングへの入力要求の総数の比である。一例として、目的ルーティングへの100個の入力要求のうち60個が正しく翻訳できた場合、カバー率が60%であったと言える。これはカバー率=1−PMDと表記される。
【0028】
上で定義した二種類のエラーのうち、前者の方が後者よりもかなり“重大”である。誤検出の結果、ユーザが求めたのとは異なる目的タスクにルーティングしてしまう。その結果、イライラするぐらいで済めばよいが、そのようなエラーのために誤った目的ルーティングにつながれた発呼者が引き起こす非システムエラーを介してシステムプロバイダが直接コストを負担せざるを得ない場合も起こり得る。なお、ここでは、顧客をイライラさせることや顧客獲得の機会損失はここでは間接コストとして分類される。一方、無検出の結果は、単にユーザをデフォルトのオペレータ位置にルーティングするだけであり、唯一のコストはその特定のタスクを自動的に扱わなかった機会損失コストのみである。従って、理想的には無検出と誤検出の確率はゼロであるべきだが、ユーザの立場からは誤検出に対してこの目的を達成してもらうことの方がはるかに重要である。以下に示すように、これらの誤り確率の一方または他方を最小化するのにトレードオフが必要な環境があり、この原理はそのような環境において適用される。
【0029】
B.基本アプローチの適用
図1に発明者が用いた音声データベースからの誤検出および無検出の例を示す。これら各々の例における誤りの基本は、それ自体を見ればよくわかるので、各集合の最初の例の誤りについて簡単な説明にとどめる。誤検出の最初の例では有意味語句は、「クレジットが必要だ EOS(文の終わり)」であり、従ってこの語句はクレジット要求に分類されたであろう。しかし、音声全体を読むと発呼者は実際には別の搬送業者(この要求を受理した搬送業者はAT&T)に乗り換えたかったことが明らかである。無検出の最初の例では音声中に有意味語句が全く認識されなかった(従って発呼者の目的を分類する根拠が無い)。しかし発声した内容を人間が読んだら、発呼者が請求クレジットを求めていることが明らかにわかる。図2に比較として、入力音声内の有意味語句から請求クレジット目的を正しく検出した結果のいくつかの例を示す。
【0030】
本発明の方法論において、有意味語句を分類パラメータとして使用する方が、Gorin 95に記述されている基本アプローチにおける特徴語を使用するよりも二つの重要な利点がある。第一に、単語を分類パラメータとして用いると、誤検出の確率を最小化するために与えられた目的ルーティングを検出する単語選択が極めて限られる可能性がある。すなわち、意図した目的ルーティングをほぼ100%予測できる単語のみを用いることになり、従ってそのような目的ルーティングのカバー率は極めて低いと思われ、無検出エラーが発生する可能性が高くなる。一方、分類パラメータとして有意味語句を用いると、誤検出と無検出の両方の確率を小さくすることが可能である。
【0031】
図3にこの利点の例を示す。図は、目的ルーティング例にあげた請求クレジットの分類率とカバー率を、分類パラメータとして用いられた語句の長さや複雑度が増大した場合について示している。分類率は、選択された語句が入力音声中に出現する条件のもとで、要求された目的ルーティング(CREDIT)の確率P(クレジット/語句)として定義される。同様にカバー率は、指定された目的ルーティング(CREDIT)が要求される条件のもとで、入力音声中に現れる選択語句の確率として定義される。語句列において、“|”で区切られた一連の用語を囲む括弧はそれらの用語のうち1個が、同じ行の他の用語とともに示された位置に現れることを示す。“F(間違い)”という表記は、“間違い”という単語を囲む文法断片を示し、その列の第4行中の語句は特徴語を囲むそのような文法断片を代表している。“previous”という指定は、前の行の全ての語を持ち越すことを示す。最後に、“eos”という略語は“文の終わり(end of sentence)”を示す。
【0032】
音声認識システムにおいて、音声認識装置に提示される音声の断片が大きいほど、その音声断片を正しく認識できる確率が高くなる。従って、特徴語の集合の1個を特定すべくプログラムされた音声認識装置は、2個以上の単語からなる有意味語句を特定するようにプログラムされたその種の装置よりも誤認識する頻度が極めて高いと思われる。
【0033】
C.発明の方法論の説明
本発明の方法論は図5のフローチャートに示される。フローチャートのステップに従えば、ステップ110においてタスク種類の推定事後分布や有意検定を用いて認識された音声の文字化から有意味語句が以下に述べるように生成される。生成された有意味語句は次にステップ120でクラスタリングされ、文字列および意味的変形に基づく語句間距離の尺度を用いて有意味語句クラスタに形成される。次にステップ130において、有意味語句クラスタが、完全または近似的マッチング手順を用いて入力音声中で検索され検出される。検出された有意味語句に基づいてステップ140でタスク種類が決定される。
【0034】
D.有意味語句の選択およびクラスタリング
1. 有意味語句の選択
音声認識システムにおいて、タスクにとって有意味な語句を選択するのが望ましい。特定の語句について、呼種類にわたる事前・事後分布間の変形を評価するのに特徴性の尺度が用いられる場合がある。しかし、この方法は断片が生じる頻度を考慮しない。例えば、事象の組み合わせの運がよければ、全くの偶然により低頻度の語句に高特徴性を与える可能性がある。
【0035】
ここで、各語句について、単に事前確率に支配される(従ってランダムに発生する)帰無仮説を検定することによりこの短所は回避される。語句fが学習時に呼の種類ラベルに合計n回出現したとし、(r1, r2,…)はn回の出現をK=15クラスに分けるすべての可能な分割の集合を表わすものとする。実際に観察されたfの出現回数の分布をrf、その事前確率を{pk}k=1、…、Kで表わす。帰無仮説のもとで、分割ri= ni1,…,niKの確率は次の多項分布で与えられる。
【0036】
【数1】
頻度nの語句fが有意度αにおいて受理される条件は下記が成立する場合である。
【0037】
【数2】
いかなる語句でも、その観察された分布が相対的に事前分布からランダムにとられたサンプルでありそうな場合、却下される。これは正確な有意検定であり、従って出現回数が非常に少ない語句についても正しい。有意度5%を課すことにより、従来技術において生成された語句の総数が約30%減る。
【0038】
2.有意味語句のクラスタリング
第二段階は、凝集的クラスタリング手順を用いて語句をクラスタリングする。このために、語句f1、f2間のレベンシュタイン(Levenshtein)文字列距離尺度ds(f1,f2)を用いる。その尺度では挿入、削除、置換の代償が単語の特徴性により重み付けられている。しかし、文字列として似ている語句が異なる意味を持つ場合がある。例えば、“クレジットが必要”と“クレジットカード”という語句は、それぞれ請求クレジット要求とクレジットカードでの支払いを表わす。これらの語句を同じクラスタに入れるのは不適当である。この問題を評価する際に小さいサンプルに帰すべき変動性をここでも考慮する必要がある。従って、意味的変形の尺度が用いられる。ここに、
【数3】
である。P(ck∈Ct|f∈Ft)は、語句fの呼の種類ckにわたる推定事後分布、Ct、Ftは音声tに対するラベル集合および観察された語句である。分母は、仮説Hのもとでの(各呼の種類についての)推定事後値の間の差違の分散の推定である。この仮説は、2個の語句は同一の真の(しかし未知の)事後分布を持つことを言明する。Hが正しければ、 dM(f1,f2)の期待値は語句の出現回数にかかわらず1.0に等しい。従って、この尺度の値が大きければ事後分布間の乖離の証拠となる。クラスタリングに用いられる全体の尺度は文字列および意味的変形の組み合わせである。
【0039】
結果として得られる各語句クラスタは有意味語句クラスタを表わす有限状態機械(FSM)に変換される。図6に例を示す。この例では、「コレクトコールをする。(make a collect call)」は他の有意味語句、「コレクトコールをかける。(place a collect call)」、「コレクトコールする。(make collect call)」、「コレクト電話をかける。(make a collect phone call)」と同じクラスタに入れられる。
【0040】
次に呼の種類にわたる事後分布は各FSMから得られる。FSMを通る経路との完全または近似マッチの形での観察結果が検定用音声に対して見出される。近似マッチは動的プログラミングアルゴリズムを用いて見出される。その中で単語特徴性がエラーの重み付けに用いられる。近似マッチの例を図7に示す。単語aがthisに置換されるがそれら両語各々の特徴性は低い。
【0041】
3. 複数語句の活用
いくつかの観察から得られた証拠を組み合わせるために、この技術分野でよく知られた方法がいくつかある。例えば、呼の種類は“語句の袋”モデルを採用してランク付けることができる。
【0042】
【数4】
有意味語句クラスタは互いに相関があることがよく見られ、高次統計モデルを含む実験がおこなわれつつある。
【0043】
4. 分類実験
初期の結果は長さが4語までの有意味語句の集合を用いて得られた。1000個の音声からなる検定用集合が大語彙音声認識装置により処理された。語句の出力とのマッチが見出され、長い語句の方がより特徴的なために有利になる仕方で解析された。呼の種類は断片ピーク分類器により決定された。呼の種類ラベルの一つは“other”であり、これら特別の呼の所期の到達点は不合格になる。受理閾値を変動させ、誤不合格率に対する正しい分類率をプロットすることにより、図8の破線が示すROC曲線が得られる。
【0044】
図8中の実線は上述の手順を用いて得られた結果を示す。音声認識システムの同じ出力に対して、性能がかなり向上したことがわかる。これは40%の誤不合格率に対し、分類正答率が87%でランク2位の実用的な動作点の領域で特に注目される。
【0045】
E.本発明の構造の例
図4は本発明の本質的な構造をブロック図で示したものである。図4からわかるように、本構造は2種の関連するサブシステム、有意味語句生成サブシステム1および入力音声分類サブシステム2から構成される。既に述べたように、有意味語句生成サブシステム1は膨大な数の音声データベース上で動作する。個々の音声は所定の目的ルーティングの集合の一つと関係付けられており、各音声は対応する目的ルーティングと紐付けられている。このサブシステムの動作は、入力音声が対応する1個以上の所定の目的ルーティングの集合と確率関係を有する有意味語句集合を出力として選択する有意味語句選択装置10により実質的に実行される。選択された有意味語句は次に有意味語句クラスタリング装置15に入力され、意味的に関係のある有意味語句がクラスタに分けられる。有意味語句選択装置10および有意味語句クラスタリング装置15の動作は一般的に、有意味語句の選択、クラスタリングを行なう前述のアルゴリズムに従って決定される。
【0046】
入力音声分類サブシステム2の動作は、ユーザの目的タスク要求の入力で始まる。この要求は人が自然に話した音声により、入力音声認識装置20に対して行なわれる。入力音声認識装置20は既知の設計のどれでもよく、入力音声中に1個以上の有意味語句が存在することを認識あるいは指摘する。次に有意味語句クラスタ検出装置25は、認識された有意味語句の中に存在する有意味語句クラスタを検出する。図でわかるように、有意味語句クラスタ生成サブシステム1が生成した有意味語句クラスタは有意味語句クラスタ検出装置25への入力として与えられる。
【0047】
有意味語句クラスタ検出装置25の出力は、発呼者の目的ルーティング要求に現れる検出された有意味語句クラスタから構成され、分類プロセッサ30に送られる。分類プロセッサ30は、認識された有意味語句クラスタと選択された目的タスクとの間の確率関係に基づいて信頼関係を適用する場合があり、特定の目的タスクを実施すべきとの決定を下すか、あるいは決定が下せそうにないと判断する。後者の場合、ユーザはオペレータ位置に回される可能性がある。
【0048】
このように明らかになったように、有意味語句生成サブシステム1が生成した有意味語句クラスタは有意味語句クラスタ検出装置25に利用されて、検出装置が指摘すべくプログラムされた有意味語句クラスタが定義される。また、有意味語句クラスタは、有意味語句クラスタ検出装置25からの有意味語句入力に関連する目的タスクを定義する分類プロセッサ30に利用され、保証されるならば、特定の目的タスクとそのような入力有意味語句クラスタの関係に対して信頼度を確立するために利用される。
【0049】
結論
自然に話した音声中の分類パラメータを探す機能を実行するタスク自動選択の方法を開示する。これらの分類パラメータは、選択された有意味語句の集合から生成された簡潔な有意味語句クラスタの形式で提示される。有意味語句を自動的に選択およびクラスタリングすることにより、自動ルーティングシステムの全体の正確度が向上する。
【0050】
本発明の現行実施の形態が詳細に記述されているが、添付のクレームにより定義される本発明の本質や狙いから逸脱することなく多様な変更、改造、置換がなされ得ることを理解されたい。
【図面の簡単な説明】
【図1】 “有意味語句”の使用に基づく呼自動ルーティングシステムのための分類装置による誤検出および無検出の例を示す説明図である。
【図2】 “有意味語句”の使用に基づく呼自動ルーティングシステムのための分類装置による正しい検出の例を示す説明図である。
【図3】 本発明に係るシステムの“有意味語句”分類パラメータにより生じる利点の例を示す説明図である。
【図4】 本発明に係るシステムの構造例を示すブロック図である。
【図5】 本発明に係る方法を示すフロー図である。
【図6】 有意味語句クラスタを示す模式図である。
【図7】 近似マッチングを用いた有意味語句クラスタを示す模式図である。
【図8】 本発明の性能を示すROC曲線のグラフ図である。
Claims (30)
- ユーザが自然に話した音声で表現される目的タスクに作用するタスク自動分類の方法において、
文字化された複数の音声から有意味語句を選択し、
前記有意味語句の中から意味が類似している有意味語句を選択しクラスタリングして有意味語句クラスタを定義し、
入力音声に存在する前記有意味語句クラスタを検出し、
前記入力音声中に検出された有意味語句クラスタに基づきタスク種類の分類を決定すること、
を特徴とする方法。 - 請求項1に記載のタスク自動分類の方法において、有意検定を用いて前記有意味語句を選択することを特徴とする方法。
- 請求項1に記載のタスク自動分類の方法において、前記有意味語句間の変形尺度を用いて前記有意味語句をクラスタリングすることを特徴とする方法。
- 請求項3に記載のタスク自動分類の方法において、前記変形尺度は文字列の変形に基づくことを特徴とする方法。
- 請求項3に記載のタスク自動分類の方法において、前記変形尺度は意味的変形に基づくことを特徴とする方法。
- 請求項3に記載のタスク自動分類の方法において、前記変形尺度は文字列および意味的変形の組み合わせであることを特徴とする方法。
- 請求項1に記載のタスク自動分類の方法において、前記入力音声と任意の前記有意味語句クラスタの完全マッチングにより、前記入力音声中の前記有意味語句クラスタを検出することを特徴とする方法。
- 請求項1に記載のタスク自動分類の方法において、前記入力音声と任意の前記有意味語句クラスタの完全または近似マッチングにより、前記入力音声中の前記有意味語句クラスタを検出することを特徴とする方法。
- 請求項1に記載のタスク自動分類の方法において、前記タスク種類の分類結果が統計モデルを用いてランク付けされることを特徴とする方法。
- 請求項1に記載のタスク自動分類の方法において、前記タスク種類の分類を決定するためにさらにニューラルネットワークを用いることを特徴とする方法。
- ユーザが自然に話した音声で表現される目的呼ルーティングに作用する呼種類自動分類の方法において、
文字化された複数の音声から有意味語句を選択し、
前記有意味語句の中から意味が類似している有意味語句を選択しクラスタリングして有意味語句クラスタを定義し、
入力音声に存在する前記有意味語句クラスタを検出し、
前記入力音声中に検出された有意味語句クラスタに基づき呼種類の分類を決定すること、
を特徴とする方法。 - 請求項11に記載の呼自動分類の方法において、有意検定を用いて前記有意味語句を選択することを特徴とする方法。
- 請求項11に記載の呼自動分類の方法において、前記有意味語句間の変形尺度を用いて前記有意味語句をクラスタリングすることを特徴とする方法。
- 請求項13に記載の呼自動分類の方法において、前記変形尺度は文字列の変形に基づくことを特徴とする方法。
- 請求項13に記載の呼自動分類の方法において、前記変形尺度は意味的変形に基づくことを特徴とする方法。
- 請求項13に記載の呼自動分類の方法において、前記変形尺度は文字列および意味的変形の組み合わせであることを特徴とする方法。
- 請求項11に記載の呼自動分類の方法において、前記入力音声と任意の前記有意味語句クラスタの完全マッチングにより、前記入力音声中の前記有意味語句クラスタを検出することを特徴とする方法。
- 請求項11に記載の呼自動分類の方法において、前記入力音声と任意の前記有意味語句クラスタの完全または近似マッチングにより、前記入力音声中のクラスタを検出することを特徴とする方法。
- 請求項11に記載の呼自動分類の方法において、前記タスク種類の分類結果が統計モデルを用いてランク付けされることを特徴とする方法。
- 請求項11に記載の呼自動分類の方法において、前記タスク種類の分類を決定するためにさらにニューラルネットワークを用いることを特徴とする方法。
- ユーザが自然に話した音声で表現される目的タスクに作用するタスク自動分類システムにおいて、
所定の目的タスク集合の一つに基づいてそれぞれの有意味語句を選択し、音声集合から複数の前記有意味語句を選択する有意味語句選択装置と、
前記有意味語句の中から意味が類似している有意味語句を選択しクラスタリングして有意味語句クラスタを定義する有意味語句クラスタリング装置と、
前記有意味語句クラスタリング装置によりクラスタリングされた前記有意味語句を一つの入力とし、ユーザの入力音声中の任意の前記有意味語句クラスタを検出する入力認識装置と、
検出された前記有意味語句クラスタの入力に応答して所定の目的タスク集合の一つに関して検出された前記有意味語句クラスタに基づき分類を決定する分類装置と、
を有することを特徴とするシステム。 - 請求項21に記載のタスク自動分類システムにおいて、前記有意味語句選択装置は有意検定を用いて前記有意味語句を選択することを特徴とするシステム。
- 請求項21に記載のタスク自動分類システムにおいて、前記有意味語句クラスタリング装置は前記有意味語句間の変形尺度を用いて前記有意味語句をクラスタリングすることを特徴とするシステム。
- 請求項23に記載のタスク自動分類システムにおいて、前記変形尺度は文字列の変形に基づくことを特徴とするシステム。
- 請求項23に記載のタスク自動分類システムにおいて、前記変形尺度は意味的変形に基づくことを特徴とするシステム。
- 請求項23に記載のタスク自動分類システムにおいて、前記変形尺度は文字列および意味的変形の組み合わせであることを特徴とするシステム。
- 請求項21に記載のタスク自動分類システムにおいて、前記入力認識装置は前記入力音声と任意の前記有意味語句クラスタの完全マッチングにより、前記入力音声中の前記有意味語句クラスタを検出することを特徴とするシステム。
- 請求項21に記載のタスク自動分類システムにおいて、前記入力認識装置は前記入力音声と任意の前記有意味語句クラスタの完全または近似マッチングにより、前記入力音声中の前記有意味語句クラスタを検出することを特徴とするシステム。
- 請求項21に記載のタスク自動分類システムにおいて、前記分類装置は統計モデルを用いてタスク種類の分類結果をランク付けすることを特徴とするシステム。
- 請求項21に記載のタスク自動分類システムにおいて、前記分類装置はニューラルネットワークを用いて決定を下すことを特徴とするシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/893,888 US5860063A (en) | 1997-07-11 | 1997-07-11 | Automated meaningful phrase clustering |
US08/893,888 | 1997-07-11 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11143491A JPH11143491A (ja) | 1999-05-28 |
JP4053141B2 true JP4053141B2 (ja) | 2008-02-27 |
Family
ID=25402301
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP18940398A Expired - Lifetime JP4053141B2 (ja) | 1997-07-11 | 1998-07-03 | 音声に基づくタスク自動分類の方法、呼自動分類の方法及びタスク自動分類システム |
Country Status (6)
Country | Link |
---|---|
US (1) | US5860063A (ja) |
EP (1) | EP0890942B1 (ja) |
JP (1) | JP4053141B2 (ja) |
CA (1) | CA2235364C (ja) |
DE (1) | DE69818161T2 (ja) |
ES (1) | ES2210623T3 (ja) |
Families Citing this family (211)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7590224B1 (en) * | 1995-09-15 | 2009-09-15 | At&T Intellectual Property, Ii, L.P. | Automated task classification system |
US6173261B1 (en) * | 1998-09-30 | 2001-01-09 | At&T Corp | Grammar fragment acquisition using syntactic and semantic clustering |
US6044337A (en) * | 1997-10-29 | 2000-03-28 | At&T Corp | Selection of superwords based on criteria relevant to both speech recognition and understanding |
US6012049A (en) | 1998-02-04 | 2000-01-04 | Citicorp Development Center, Inc. | System for performing financial transactions using a smartcard |
US6317707B1 (en) * | 1998-12-07 | 2001-11-13 | At&T Corp. | Automatic clustering of tokens from a corpus for grammar acquisition |
US7356462B2 (en) | 2001-07-26 | 2008-04-08 | At&T Corp. | Automatic clustering of tokens from a corpus for grammar acquisition |
US6246986B1 (en) * | 1998-12-31 | 2001-06-12 | At&T Corp. | User barge-in enablement in large vocabulary speech recognition systems |
US6519562B1 (en) * | 1999-02-25 | 2003-02-11 | Speechworks International, Inc. | Dynamic semantic control of a speech recognition system |
US20020032564A1 (en) * | 2000-04-19 | 2002-03-14 | Farzad Ehsani | Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface |
CA2376277C (en) | 1999-06-11 | 2011-03-15 | Telstra New Wave Pty Ltd | A method of developing an interactive system |
US6510411B1 (en) * | 1999-10-29 | 2003-01-21 | Unisys Corporation | Task oriented dialog model and manager |
US20030191625A1 (en) * | 1999-11-05 | 2003-10-09 | Gorin Allen Louis | Method and system for creating a named entity language model |
US8392188B1 (en) | 1999-11-05 | 2013-03-05 | At&T Intellectual Property Ii, L.P. | Method and system for building a phonotactic model for domain independent speech recognition |
US7286984B1 (en) | 1999-11-05 | 2007-10-23 | At&T Corp. | Method and system for automatically detecting morphemes in a task classification system using lattices |
US7085720B1 (en) * | 1999-11-05 | 2006-08-01 | At & T Corp. | Method for task classification using morphemes |
US6681206B1 (en) | 1999-11-05 | 2004-01-20 | At&T Corporation | Method for generating morphemes |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7392185B2 (en) * | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US7050977B1 (en) * | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US6526382B1 (en) * | 1999-12-07 | 2003-02-25 | Comverse, Inc. | Language-oriented user interfaces for voice activated services |
WO2001046945A1 (en) * | 1999-12-20 | 2001-06-28 | British Telecommunications Public Limited Company | Learning of dialogue states and language model of spoken information system |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US7149695B1 (en) * | 2000-10-13 | 2006-12-12 | Apple Computer, Inc. | Method and apparatus for speech recognition using semantic inference and word agglomeration |
US6941266B1 (en) * | 2000-11-15 | 2005-09-06 | At&T Corp. | Method and system for predicting problematic dialog situations in a task classification system |
US7184947B2 (en) * | 2001-01-05 | 2007-02-27 | Fujitsu Limited | Document anonymity setting device, method and computer readable recording medium recording anonymity setting program |
US6751591B1 (en) | 2001-01-22 | 2004-06-15 | At&T Corp. | Method and system for predicting understanding errors in a task classification system |
US7729918B2 (en) * | 2001-03-14 | 2010-06-01 | At&T Intellectual Property Ii, Lp | Trainable sentence planning system |
US7574362B2 (en) * | 2001-03-14 | 2009-08-11 | At&T Intellectual Property Ii, L.P. | Method for automated sentence planning in a task classification system |
WO2002073453A1 (en) * | 2001-03-14 | 2002-09-19 | At & T Corp. | A trainable sentence planning system |
US6944447B2 (en) * | 2001-04-27 | 2005-09-13 | Accenture Llp | Location-based services |
US7970648B2 (en) * | 2001-04-27 | 2011-06-28 | Accenture Global Services Limited | Advertising campaign and business listing management for a location-based services system |
US6848542B2 (en) * | 2001-04-27 | 2005-02-01 | Accenture Llp | Method for passive mining of usage information in a location-based services system |
US7437295B2 (en) * | 2001-04-27 | 2008-10-14 | Accenture Llp | Natural language processing for a location-based services system |
US7698228B2 (en) | 2001-04-27 | 2010-04-13 | Accenture Llp | Tracking purchases in a location-based services system |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
AU2002950336A0 (en) * | 2002-07-24 | 2002-09-12 | Telstra New Wave Pty Ltd | System and process for developing a voice application |
AU2002951244A0 (en) * | 2002-09-06 | 2002-09-19 | Telstra New Wave Pty Ltd | A development system for a dialog system |
US7263486B1 (en) * | 2002-10-25 | 2007-08-28 | At&T Corp. | Active learning for spoken language understanding |
US20030115062A1 (en) * | 2002-10-29 | 2003-06-19 | Walker Marilyn A. | Method for automated sentence planning |
US8645122B1 (en) * | 2002-12-19 | 2014-02-04 | At&T Intellectual Property Ii, L.P. | Method of handling frequently asked questions in a natural language dialog service |
US20040122661A1 (en) * | 2002-12-23 | 2004-06-24 | Gensym Corporation | Method, system, and computer program product for storing, managing and using knowledge expressible as, and organized in accordance with, a natural language |
US8335683B2 (en) * | 2003-01-23 | 2012-12-18 | Microsoft Corporation | System for using statistical classifiers for spoken language understanding |
US20040148170A1 (en) * | 2003-01-23 | 2004-07-29 | Alejandro Acero | Statistical classifiers for spoken language understanding and command/control scenarios |
AU2003900584A0 (en) * | 2003-02-11 | 2003-02-27 | Telstra New Wave Pty Ltd | System for predicting speech recognition accuracy and development for a dialog system |
AU2003902020A0 (en) * | 2003-04-29 | 2003-05-15 | Telstra New Wave Pty Ltd | A process for grammatical inference |
US20050010416A1 (en) * | 2003-07-09 | 2005-01-13 | Gensym Corporation | System and method for self management of health using natural language interface |
US7933774B1 (en) * | 2004-03-18 | 2011-04-26 | At&T Intellectual Property Ii, L.P. | System and method for automatic generation of a natural language understanding model |
DE102004055230B3 (de) * | 2004-11-16 | 2006-07-20 | Siemens Ag | Verfahren zur Spracherkennung aus einem vorgebbaren Vokabular |
US7634406B2 (en) * | 2004-12-10 | 2009-12-15 | Microsoft Corporation | System and method for identifying semantic intent from acoustic information |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
CA2643930A1 (en) * | 2006-04-17 | 2007-10-25 | Call Genie Inc. | Method and apparatus for building grammars with lexical semantic clustering in a speech recognizer |
US9245526B2 (en) * | 2006-04-25 | 2016-01-26 | General Motors Llc | Dynamic clustering of nametags in an automated speech recognition system |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US20080091423A1 (en) * | 2006-10-13 | 2008-04-17 | Shourya Roy | Generation of domain models from noisy transcriptions |
US20080129520A1 (en) * | 2006-12-01 | 2008-06-05 | Apple Computer, Inc. | Electronic device with enhanced audio feedback |
US8380511B2 (en) * | 2007-02-20 | 2013-02-19 | Intervoice Limited Partnership | System and method for semantic categorization |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9053089B2 (en) * | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) * | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) * | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) * | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8712776B2 (en) * | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10540976B2 (en) * | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8682649B2 (en) * | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) * | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8661018B2 (en) | 2010-08-10 | 2014-02-25 | Lockheed Martin Corporation | Data service response plan generator |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
WO2012094014A1 (en) * | 2011-01-07 | 2012-07-12 | Nuance Communications, Inc. | Automatic updating of confidence scoring functionality for speech recognition systems |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US20120310642A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Automatically creating a mapping between text data and audio data |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
KR20150104615A (ko) | 2013-02-07 | 2015-09-15 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
CN110096712B (zh) | 2013-03-15 | 2023-06-20 | 苹果公司 | 通过智能数字助理的用户培训 |
CN105144133B (zh) | 2013-03-15 | 2020-11-20 | 苹果公司 | 对中断进行上下文相关处理 |
CN105027197B (zh) | 2013-03-15 | 2018-12-14 | 苹果公司 | 训练至少部分语音命令系统 |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3008641A1 (en) | 2013-06-09 | 2016-04-20 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
KR102111831B1 (ko) * | 2013-07-26 | 2020-05-15 | 그린에덴 유.에스. 홀딩스 Ii, 엘엘씨 | 컨셉 검색 및 탐색 시스템 및 방법 |
US10061822B2 (en) | 2013-07-26 | 2018-08-28 | Genesys Telecommunications Laboratories, Inc. | System and method for discovering and exploring concepts and root causes of events |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
KR20150081981A (ko) * | 2014-01-07 | 2015-07-15 | 삼성전자주식회사 | 회의 내용 구조화 장치 및 방법 |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10304440B1 (en) * | 2015-07-10 | 2019-05-28 | Amazon Technologies, Inc. | Keyword spotting using multi-task configuration |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9787819B2 (en) | 2015-09-18 | 2017-10-10 | Microsoft Technology Licensing, Llc | Transcription of spoken communications |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
KR101868404B1 (ko) * | 2016-06-14 | 2018-07-19 | 가천대학교 산학협력단 | 한국어 음성인식기술을 이용한 응급상황관제 시스템 및 관제방법 |
JP6729232B2 (ja) * | 2016-09-20 | 2020-07-22 | 富士通株式会社 | メッセージ振り分けプログラム、メッセージ振り分け装置、およびメッセージ振り分け方法 |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5434777A (en) * | 1992-05-27 | 1995-07-18 | Apple Computer, Inc. | Method and apparatus for processing natural language |
US5384892A (en) * | 1992-12-31 | 1995-01-24 | Apple Computer, Inc. | Dynamic language model for speech recognition |
CA2481892C (en) * | 1992-12-31 | 2009-02-10 | Apple Computer, Inc. | A speech recognition system |
JPH06318223A (ja) * | 1993-05-07 | 1994-11-15 | Nippon Telegr & Teleph Corp <Ntt> | クラスタリング装置 |
JPH0934863A (ja) * | 1995-07-14 | 1997-02-07 | Hitachi Ltd | ニューラルネットワークによる情報統合処理方法 |
US5794193A (en) * | 1995-09-15 | 1998-08-11 | Lucent Technologies Inc. | Automated phrase generation |
US5675707A (en) * | 1995-09-15 | 1997-10-07 | At&T | Automated call router system and method |
-
1997
- 1997-07-11 US US08/893,888 patent/US5860063A/en not_active Expired - Lifetime
-
1998
- 1998-04-20 CA CA002235364A patent/CA2235364C/en not_active Expired - Lifetime
- 1998-07-03 ES ES98112418T patent/ES2210623T3/es not_active Expired - Lifetime
- 1998-07-03 DE DE69818161T patent/DE69818161T2/de not_active Expired - Fee Related
- 1998-07-03 EP EP98112418A patent/EP0890942B1/en not_active Expired - Lifetime
- 1998-07-03 JP JP18940398A patent/JP4053141B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH11143491A (ja) | 1999-05-28 |
ES2210623T3 (es) | 2004-07-01 |
EP0890942B1 (en) | 2003-09-17 |
US5860063A (en) | 1999-01-12 |
EP0890942A2 (en) | 1999-01-13 |
DE69818161D1 (de) | 2003-10-23 |
DE69818161T2 (de) | 2004-04-08 |
EP0890942A3 (en) | 1999-04-21 |
CA2235364A1 (en) | 1999-01-11 |
CA2235364C (en) | 2002-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4053141B2 (ja) | 音声に基づくタスク自動分類の方法、呼自動分類の方法及びタスク自動分類システム | |
CN109151218B (zh) | 通话语音质检方法、装置、计算机设备及存储介质 | |
EP0797823B1 (en) | Automated call router system and method | |
US8024188B2 (en) | Method and system of optimal selection strategy for statistical classifications | |
JP4880258B2 (ja) | 信頼性スコアを使用した自然言語コール・ルーティングのための方法および装置 | |
US8050929B2 (en) | Method and system of optimal selection strategy for statistical classifications in dialog systems | |
US5625748A (en) | Topic discriminator using posterior probability or confidence scores | |
US6272455B1 (en) | Method and apparatus for understanding natural language | |
US8144838B2 (en) | Automated task classification system | |
EP0763817A2 (en) | Automated phrase generation | |
JP5377430B2 (ja) | 質問応答データベース拡張装置および質問応答データベース拡張方法 | |
CA2515511C (en) | System for predicting speech recognition accuracy and development for a dialog system | |
Riccardi et al. | Stochastic language adaptation over time and state in natural spoken dialog systems | |
CN109726269B (zh) | 信息处理方法、信息处理装置以及程序 | |
US20030040907A1 (en) | Speech recognition system | |
CN111145733A (zh) | 语音识别方法、装置、计算机设备和计算机可读存储介质 | |
CN111611358A (zh) | 信息交互方法、装置、电子设备及存储介质 | |
US11615787B2 (en) | Dialogue system and method of controlling the same | |
CN113436614A (zh) | 语音识别方法、装置、设备、系统及存储介质 | |
JP2001100787A (ja) | 音声対話システム | |
CN113806475A (zh) | 信息回复方法、装置、电子设备和存储介质 | |
AU2004211007B2 (en) | System for predicting speech recognition accuracy and development for a dialog system | |
Higashida et al. | A new dialogue control method based on human listening process to construct an interface for ascertaining a user²s inputs. | |
MXPA98005525A (es) | Agrupamiento automatizado de frases con significado | |
KR20000055394A (ko) | 음성 인식 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040302 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20040602 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20040617 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040714 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20040714 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20041116 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071205 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101214 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101214 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111214 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111214 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121214 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131214 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |