JP4053141B2 - 音声に基づくタスク自動分類の方法、呼自動分類の方法及びタスク自動分類システム - Google Patents

音声に基づくタスク自動分類の方法、呼自動分類の方法及びタスク自動分類システム Download PDF

Info

Publication number
JP4053141B2
JP4053141B2 JP18940398A JP18940398A JP4053141B2 JP 4053141 B2 JP4053141 B2 JP 4053141B2 JP 18940398 A JP18940398 A JP 18940398A JP 18940398 A JP18940398 A JP 18940398A JP 4053141 B2 JP4053141 B2 JP 4053141B2
Authority
JP
Japan
Prior art keywords
meaningful
classification
phrase
automatic
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP18940398A
Other languages
English (en)
Other versions
JPH11143491A (ja
Inventor
エル ゴーリン アレン
エイチ ライト ジェレミー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Publication of JPH11143491A publication Critical patent/JPH11143491A/ja
Application granted granted Critical
Publication of JP4053141B2 publication Critical patent/JP4053141B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、音声処理に関し、特に1個以上の要求タスクの挙動に関する有意味語句の自動クラスタリングのシステムおよび方法に関する。
【0002】
【従来の技術】
通信ネットワークにおいて、ネットワークのユーザが要求する特定のタスクを自動的に実行する機能が求められる場合が多い。すなわち人間が介在せずにそのようなタスクを実行することである。従来技術では、そのようなタスク自動実行は一般に複数のメニュー選択を通じて行なわれるが、メニューの選択はユーザが指定した信号や、ユーザの電話器に付いているキーパッドで生成された汎用数値信号、あるいはユーザがその数値をキーワードとして発音することで選択される。多くの場合、そのようなメニューベースのタスク自動実行環境には多段メニューが含まれる。そのような多段メニュー構造は一般にユーザに好まれず、所期の目的を達するには著しく非効率である。多段メニューを介してうまくルーティングできる可能性は非常に小さい。言い換えると、このような環境下で多段メニューにアクセスしようとする呼は、発呼者が求める相手先に到達する前に切断されるか、または宛先不明扱いでオペレータ(または他の有人デフォルト局)に回される。
【0003】
従来技術の限界は、いずれも1995年9月15日に受理された米国特許出願第08/528,577号「語句生成の自動化」、および米国特許出願08/528,578号「呼自動ルーティングシステム」で述べられており、ここに参考のため引用されている。これらの出願はタスク自動選択の方法論を与え、選択されるタスクはそれを選ぶ人間が自然に話した音声中で識別される。本方法の基本的な側面は、有意味語句の集合の判定である。そのような有意味語句は文法的推論アルゴリズムにより判定される。そのアルゴリズムは、それぞれ特定の目的タスクと対応付けられた音声からなる予め決められた音声集合(音声コーパス)の上で動作し、そのアルゴリズムにおいては、各音声はそれに伴なう目的タスクと関連付けられている。
【0004】
上述の出願で用いられる有意味語句の判定法は、言語における単語や構造の共通性の尺度−すなわちグループ化された語句が同時出現する頻度−と、そのようなグループに対して定義されたタスクの有意度とを組み合わせるという概念の中で構築されている。言語内での共通性の尺度は、学習用音声データベースから導かれたn語間の相関情報として明示され、またタスクの有用性の尺度は特徴性尺度として明示される。
【0005】
相関情報(Mutual Information、以下、MIと記すことがある。)は2個以上の単語が同時出現する可能性を測定するものであり、その言語自身のみで規定できる。例えば、「戦争と平和」のロシア語原文を一言も理解できなくても、テキスト中に現れるすべての可能な単語の組み合わせについて相関情報を計算することができる。これに対して特徴性の計算は、言語、及びその装置環境への超言語的な関連の両方を包含する。MIと特徴性因子をそのように組み合わせることで、正MI値(語句を構成する単語間に相対的に強い関連があることを示す)と高特徴性値の両方を持つ有意味語句が選択される。
【0006】
【発明が解決しようとする課題】
しかし、そのような方法は、特徴的な単語の別々の集合が特定の入力音声中に現れる確率に基づいている。例えば、特徴語句である「長距離電話をかけた」、「一回の長距離電話」、「長距離電話」は同じ目的のためにユーザが発声したものであるが、各々の独立した相関情報と特徴性値に基づく上述の文法的推論アルゴリズムでは別々の有意味語句と判定されるであろう。このように、文法的推論アルゴリズムにおいては、実質的には同一の単語の集合で意味も同じである多くの独立語句が生成され、それらは互いに別々のまま取り扱われ、別個の出現確率を表す。これらの“類似”特徴語句をグループ化せずにおくと、上述の方法による確率推定の精度が低くなり、結果的にユーザからの要求に対して不正確なルーティングを与える恐れがある。
【0007】
【課題を解決するための手段】
タスク自動選択の方法およびシステムが提示される。選択されるタスクは、選択を行なうユーザが自然に話した音声から識別される。本方法およびシステムは有意検定を通じて有意味語句の選択機能を含む。選択された有意味語句は文字列および意味的変形の組み合わせを用いてクラスタリングされる。有意味語句のクラスタは音声認識装置に入力され、入力音声に有意味語句クラスタが存在するか否かが判定される。認識された有意味語句クラスタに基づいてタスク種類の決定がなされる。
【0008】
以後、アルゴリズムおよびコンピュータシステム内のデータビット演算記号表現を一部用いて説明する。これらのアルゴリズム的記述および表現は、コンピュータ処理技術に習熟した者が自身の業績をその方面の知識を持つ他者に伝達する際に通常用いられる手段であることが、以下で理解されよう。
【0009】
ここで(また一般に)用いられるように、アルゴリズムは所期の結果に至る一連の自己完結ステップであると見なせよう。これらのステップは一般に物理量の演算を含む。例外もあるが、通常これらの量は保存、転送、組み合わせ、比較あるいは演算が可能な電気的または磁気的信号の形をとる。 これらの信号は通常の利用しやすさとともに、参照しやすくするために折りにふれビット、値、要素、記号、文字、項、番号等で記述される。しかし、これらや類似の語には適当な物理量が付随すること、すなわちそのような語は単にこれらの量に付けられた便利なラベルに過ぎないことを強調しておく。
【0010】
また、演算やコンピュータ動作の方法と計算法自体とは明確に区別すべきである。本発明は、電気的または他の(例:機械的、化学的)物理信号を処理して、求める別の物理信号を生成するためのコンピュータ動作の方法に関する。
【0011】
説明をわかりやすくするために、本発明の図示された実施の形態は個別の機能ブロック(「プロセッサ」とラベル付けされた機能ブロックを含む)から構成されるように表現されている。これらのブロックが表現する機能は、共用または専用ハードウェアにより実現され得る。ここでいうハードウェアはソフトウェアの実行が可能なハードウェアを含むが、これに限定されるものではない。例えば、図4に示すプロセッサの機能は単一共用プロセッサにより実現される(「プロセッサ」という用語をソフトウェア実行が可能なハードウェアに限定して解釈してはならない)。
【0012】
図示された実施の形態は、AT&T DSPI6やDSP32C等のマイクロプロセッサまたはデジタル信号プロセッサ(DSP)ハードウェア、後述の演算を実行するソフトウェアを格納する読みだし専用メモリ(ROM)、結果を格納するランダムアクセスメモリ(RAM)から構成される。汎用DSP回路と組み合わせたカスタムVLSI回路とともに、超大規模集積(VLSU)ハードウェアの実施の形態もまた提示される。
【0013】
本発明の基本目的は人間ユーザと機械のコミュニケーションを含むタスク選択法であり、特定の語彙を理解する負担を人間から機械に肩代わりさせるものである。このように、汎用化された実施の形態において本発明は下記の特徴を備えたタスク選択法として表現される。
【0014】
最初に、システムにアクセスすると「ご用件をお話し下さい。」のようなあいさつ文が表示される。
【0015】
ユーザが自分の目的(実行したいタスクなど)を自然な発声で答えると、ユーザ要求は所定の多くの目的タスクの一つに分類され、続いてその目的タスクが実行される。
【0016】
以後説明される本発明の好適例において、本発明によるシステムおよび方法の実装は、ユーザの要求タスクが電話システムまたはネットワークにより実行される形の適用例により適宜図示される。そのような適用例において、ユーザの目的タスクとして請求先の指定(例:コレクト、第三者)、ダイヤル番号案内、請求の問い合わせ、クレジット要求(番号違いやかけ間違いに関する)、市街局番等があろう。
【0017】
【発明の実施の形態】
従来の通信環境において、ある通信相手先で利用できる各種のサービスにアクセスするためにユーザがそれぞれの番号やダイヤルパターンを知らねばならないことがよくある。また、求める目的に到達するためにメニュードリブン式のシステムを使いこなす必要に迫られることも有り得る。本発明のシステムおよび方法により、ユーザは中央局番号へアクセスすることができ、ユーザの目的はその内容に基づいて通信の受け側により実現されよう。
【0018】
そのような内容主体のルーティングの例として、「ご用件をお話し下さい。」のプロンプトに対し、発呼者が「支払いを相手に振り替えたい。」と答えるような場面がある。この場合の適切な動作は、自動的にコレクトコールを処理するサブシステムへ発呼者をつなぐことである。別の例として、「請求書の内容がよく理解できない。」と発呼者が答えた場合には電話会社の営業所につなぐべきである。このように、システムは適切に呼をルーティングできる程度に話し言葉を理解できねばならない。
【0019】
A.基本的アプローチ
このようなシステムの基本構成は、A.Gorinの「自動化された言語習得」、J.Acoust.Soc.Am.、97 3441-3461(1995年6月号)[以後Gorin 95と略記]中の発明者の一人により述べられており、ここにおいても一部として組込まれている。その基本的アプローチにおいて考慮されたことの多くが本発明のシステムおよび方法の素材になっている。それらの考慮事項のうちいくつかを以後簡単に概説する。概説に先立って、Gorin 95で述べられたアプローチでは、入力テキストや音声と所定の目的タスク集合の一つとの紐付けを決定するための分類パラメータは、目的タスクと紐付けられた音声コーパスから導かれた特徴語として実装されている。ここに記述された方法を適用するに際して、分類パラメータは対応する目的ルーティングと紐付けられた音声コーパスから導かれた有意味語句クラスタとして実装されている。
【0020】
このアプローチの中心に膨大な数の音声データベースがあり、各音声は目的ルーティングの所定の集合の一つと関係付けられている。このデータベースは分類パラメータアルゴリズムへの入力を形成する。そのような音声は「ご要件をお話し下さい。」(または同様の語句)とのプロンプトに対しユーザが実際に応答した音声から抽出されることが望ましい。各音声は次に文字化され、目的ルーティングの所定の集合の一つへラベル付けされる。発明者が使用したデータベースにある音声の例は以下のようなものである。
【0021】
うん、相手に払わせたいんだ
この番号につながらないんだ
電話を切ろうとしたんだ。
【0022】
メキシコにかけたいんだ
自宅の電話に請求してくれ
発明者の一人が共著した関連文献Gorin,A.L.、Hanek,H.、Rose,R. and Miller,L.、「呼自動ルーティングのための音声言語の習得」、音声言語処理国際会議(ICSLP 94)予稿集、横浜(1994年9月18日〜22日)[以後Gorin 94Aと略記]の中で、そのようなデータベース中の目的ルーティングの分布は実質的に偏っていることが注記されている。本発明のシステムにより自動化される目的ルーティングの特定集合の決定においてもそのような偏りは当然考慮されている。
【0023】
本発明のシステムに関する特徴原理は、発明者の一人が共著した別の文献Gorin,A.L.、Levinson,S.E.、Sanker,A.「音声言語習得の実験」IEEE Trans. on Speech and Audio、vol.2、No.1、PartII、pp.224〜240(1994年1月号)[以後Gorin 94と略記]において定義されている。特に、単語の特徴性を、検討対象のタスクに対するその単語の情報量として定義する。その単語がそのタスクにとってどれほど意味があるかの尺度として解釈できる。シャノン(Shannon)による伝統的な情報量は単語に起こり得る不確実性を測定するものであり、ここでいう特徴性は、それとは区別され対比され得る。公知のように、そのような伝統的情報量は言語の例から推定可能であるが、特徴性の推定は言語と超言語的関連の両方が必要である。
【0024】
先に述べたように、Gorin 95では分類パラメータとして特定の目的ルーティングと特徴的な関連を有する検定用音声集からの単語を用いている。米国特許出願08/528,577号および08/528,578号は、分類パラメータとして有意味語句を用いることでこの方法論から離れる重要な点を示している。そのような有意味語句を決定する方法を説明する前に、そのような自動ルーティングシステムおよび関連する“成功”概念において経験した二種類のエラーを定義しておくことは有用である。
【0025】
第1のエラーは、目的ルーティングの検出が誤っている場合であり、発呼者の本当の要求は別の目的ルーティングなのに、ある目的ルーティングに関連する特徴(有意味)語句が発呼者の入力音声中に検出された場合である。そのような誤検出が生じる確率を以後PFDと表記する。
【0026】
第2のエラーは、目的ルーティングの検出がヒットしない場合であり、発呼者の入力音声がその目的ルーティングに向けられているにもかかわらず、その目的ルーティングに紐付けられた有意味語句が入力音声中に全く検出されない場合である。そのような無検出の確率を以後PMDと表記する。
【0027】
目的ルーティングのカバー率は、ある目的ルーティングへの要求をシステムが正しくその目的ルーティングへ翻訳できた回数と、その目的ルーティングへの入力要求の総数の比である。一例として、目的ルーティングへの100個の入力要求のうち60個が正しく翻訳できた場合、カバー率が60%であったと言える。これはカバー率=1−PMDと表記される。
【0028】
上で定義した二種類のエラーのうち、前者の方が後者よりもかなり“重大”である。誤検出の結果、ユーザが求めたのとは異なる目的タスクにルーティングしてしまう。その結果、イライラするぐらいで済めばよいが、そのようなエラーのために誤った目的ルーティングにつながれた発呼者が引き起こす非システムエラーを介してシステムプロバイダが直接コストを負担せざるを得ない場合も起こり得る。なお、ここでは、顧客をイライラさせることや顧客獲得の機会損失はここでは間接コストとして分類される。一方、無検出の結果は、単にユーザをデフォルトのオペレータ位置にルーティングするだけであり、唯一のコストはその特定のタスクを自動的に扱わなかった機会損失コストのみである。従って、理想的には無検出と誤検出の確率はゼロであるべきだが、ユーザの立場からは誤検出に対してこの目的を達成してもらうことの方がはるかに重要である。以下に示すように、これらの誤り確率の一方または他方を最小化するのにトレードオフが必要な環境があり、この原理はそのような環境において適用される。
【0029】
B.基本アプローチの適用
図1に発明者が用いた音声データベースからの誤検出および無検出の例を示す。これら各々の例における誤りの基本は、それ自体を見ればよくわかるので、各集合の最初の例の誤りについて簡単な説明にとどめる。誤検出の最初の例では有意味語句は、「クレジットが必要だ EOS(文の終わり)」であり、従ってこの語句はクレジット要求に分類されたであろう。しかし、音声全体を読むと発呼者は実際には別の搬送業者(この要求を受理した搬送業者はAT&T)に乗り換えたかったことが明らかである。無検出の最初の例では音声中に有意味語句が全く認識されなかった(従って発呼者の目的を分類する根拠が無い)。しかし発声した内容を人間が読んだら、発呼者が請求クレジットを求めていることが明らかにわかる。図2に比較として、入力音声内の有意味語句から請求クレジット目的を正しく検出した結果のいくつかの例を示す。
【0030】
本発明の方法論において、有意味語句を分類パラメータとして使用する方が、Gorin 95に記述されている基本アプローチにおける特徴語を使用するよりも二つの重要な利点がある。第一に、単語を分類パラメータとして用いると、誤検出の確率を最小化するために与えられた目的ルーティングを検出する単語選択が極めて限られる可能性がある。すなわち、意図した目的ルーティングをほぼ100%予測できる単語のみを用いることになり、従ってそのような目的ルーティングのカバー率は極めて低いと思われ、無検出エラーが発生する可能性が高くなる。一方、分類パラメータとして有意味語句を用いると、誤検出と無検出の両方の確率を小さくすることが可能である。
【0031】
図3にこの利点の例を示す。図は、目的ルーティング例にあげた請求クレジットの分類率とカバー率を、分類パラメータとして用いられた語句の長さや複雑度が増大した場合について示している。分類率は、選択された語句が入力音声中に出現する条件のもとで、要求された目的ルーティング(CREDIT)の確率P(クレジット/語句)として定義される。同様にカバー率は、指定された目的ルーティング(CREDIT)が要求される条件のもとで、入力音声中に現れる選択語句の確率として定義される。語句列において、“|”で区切られた一連の用語を囲む括弧はそれらの用語のうち1個が、同じ行の他の用語とともに示された位置に現れることを示す。“F(間違い)”という表記は、“間違い”という単語を囲む文法断片を示し、その列の第4行中の語句は特徴語を囲むそのような文法断片を代表している。“previous”という指定は、前の行の全ての語を持ち越すことを示す。最後に、“eos”という略語は“文の終わり(end of sentence)”を示す。
【0032】
音声認識システムにおいて、音声認識装置に提示される音声の断片が大きいほど、その音声断片を正しく認識できる確率が高くなる。従って、特徴語の集合の1個を特定すべくプログラムされた音声認識装置は、2個以上の単語からなる有意味語句を特定するようにプログラムされたその種の装置よりも誤認識する頻度が極めて高いと思われる。
【0033】
C.発明の方法論の説明
本発明の方法論は図5のフローチャートに示される。フローチャートのステップに従えば、ステップ110においてタスク種類の推定事後分布や有意検定を用いて認識された音声の文字化から有意味語句が以下に述べるように生成される。生成された有意味語句は次にステップ120でクラスタリングされ、文字列および意味的変形に基づく語句間距離の尺度を用いて有意味語句クラスタに形成される。次にステップ130において、有意味語句クラスタが、完全または近似的マッチング手順を用いて入力音声中で検索され検出される。検出された有意味語句に基づいてステップ140でタスク種類が決定される。
【0034】
D.有意味語句の選択およびクラスタリング
1. 有意味語句の選択
音声認識システムにおいて、タスクにとって有意味な語句を選択するのが望ましい。特定の語句について、呼種類にわたる事前・事後分布間の変形を評価するのに特徴性の尺度が用いられる場合がある。しかし、この方法は断片が生じる頻度を考慮しない。例えば、事象の組み合わせの運がよければ、全くの偶然により低頻度の語句に高特徴性を与える可能性がある。
【0035】
ここで、各語句について、単に事前確率に支配される(従ってランダムに発生する)帰無仮説を検定することによりこの短所は回避される。語句fが学習時に呼の種類ラベルに合計n回出現したとし、(r1, r2,…)はn回の出現をK=15クラスに分けるすべての可能な分割の集合を表わすものとする。実際に観察されたfの出現回数の分布をrf、その事前確率を{pk}k=1、…Kで表わす。帰無仮説のもとで、分割ri= ni1,…,niKの確率は次の多項分布で与えられる。
【0036】
【数1】
Figure 0004053141
頻度nの語句fが有意度αにおいて受理される条件は下記が成立する場合である。
【0037】
【数2】
Figure 0004053141
いかなる語句でも、その観察された分布が相対的に事前分布からランダムにとられたサンプルでありそうな場合、却下される。これは正確な有意検定であり、従って出現回数が非常に少ない語句についても正しい。有意度5%を課すことにより、従来技術において生成された語句の総数が約30%減る。
【0038】
2.有意味語句のクラスタリング
第二段階は、凝集的クラスタリング手順を用いて語句をクラスタリングする。このために、語句f1、f2間のレベンシュタイン(Levenshtein)文字列距離尺度ds(f1,f2)を用いる。その尺度では挿入、削除、置換の代償が単語の特徴性により重み付けられている。しかし、文字列として似ている語句が異なる意味を持つ場合がある。例えば、“クレジットが必要”と“クレジットカード”という語句は、それぞれ請求クレジット要求とクレジットカードでの支払いを表わす。これらの語句を同じクラスタに入れるのは不適当である。この問題を評価する際に小さいサンプルに帰すべき変動性をここでも考慮する必要がある。従って、意味的変形の尺度が用いられる。ここに、
【数3】
Figure 0004053141
である。P(ck∈Ct|f∈Ft)は、語句fの呼の種類ckにわたる推定事後分布、Ct、Ftは音声tに対するラベル集合および観察された語句である。分母は、仮説Hのもとでの(各呼の種類についての)推定事後値の間の差違の分散の推定である。この仮説は、2個の語句は同一の真の(しかし未知の)事後分布を持つことを言明する。Hが正しければ、 dM(f1,f2)の期待値は語句の出現回数にかかわらず1.0に等しい。従って、この尺度の値が大きければ事後分布間の乖離の証拠となる。クラスタリングに用いられる全体の尺度は文字列および意味的変形の組み合わせである。
【0039】
結果として得られる各語句クラスタは有意味語句クラスタを表わす有限状態機械(FSM)に変換される。図6に例を示す。この例では、「コレクトコールをする。(make a collect call)」は他の有意味語句、「コレクトコールをかける。(place a collect call)」、「コレクトコールする。(make collect call)」、「コレクト電話をかける。(make a collect phone call)」と同じクラスタに入れられる。
【0040】
次に呼の種類にわたる事後分布は各FSMから得られる。FSMを通る経路との完全または近似マッチの形での観察結果が検定用音声に対して見出される。近似マッチは動的プログラミングアルゴリズムを用いて見出される。その中で単語特徴性がエラーの重み付けに用いられる。近似マッチの例を図7に示す。単語aがthisに置換されるがそれら両語各々の特徴性は低い。
【0041】
3. 複数語句の活用
いくつかの観察から得られた証拠を組み合わせるために、この技術分野でよく知られた方法がいくつかある。例えば、呼の種類は“語句の袋”モデルを採用してランク付けることができる。
【0042】
【数4】
Figure 0004053141
有意味語句クラスタは互いに相関があることがよく見られ、高次統計モデルを含む実験がおこなわれつつある。
【0043】
4. 分類実験
初期の結果は長さが4語までの有意味語句の集合を用いて得られた。1000個の音声からなる検定用集合が大語彙音声認識装置により処理された。語句の出力とのマッチが見出され、長い語句の方がより特徴的なために有利になる仕方で解析された。呼の種類は断片ピーク分類器により決定された。呼の種類ラベルの一つは“other”であり、これら特別の呼の所期の到達点は不合格になる。受理閾値を変動させ、誤不合格率に対する正しい分類率をプロットすることにより、図8の破線が示すROC曲線が得られる。
【0044】
図8中の実線は上述の手順を用いて得られた結果を示す。音声認識システムの同じ出力に対して、性能がかなり向上したことがわかる。これは40%の誤不合格率に対し、分類正答率が87%でランク2位の実用的な動作点の領域で特に注目される。
【0045】
E.本発明の構造の例
図4は本発明の本質的な構造をブロック図で示したものである。図4からわかるように、本構造は2種の関連するサブシステム、有意味語句生成サブシステム1および入力音声分類サブシステム2から構成される。既に述べたように、有意味語句生成サブシステム1は膨大な数の音声データベース上で動作する。個々の音声は所定の目的ルーティングの集合の一つと関係付けられており、各音声は対応する目的ルーティングと紐付けられている。このサブシステムの動作は、入力音声が対応する1個以上の所定の目的ルーティングの集合と確率関係を有する有意味語句集合を出力として選択する有意味語句選択装置10により実質的に実行される。選択された有意味語句は次に有意味語句クラスタリング装置15に入力され、意味的に関係のある有意味語句がクラスタに分けられる。有意味語句選択装置10および有意味語句クラスタリング装置15の動作は一般的に、有意味語句の選択、クラスタリングを行なう前述のアルゴリズムに従って決定される。
【0046】
入力音声分類サブシステム2の動作は、ユーザの目的タスク要求の入力で始まる。この要求は人が自然に話した音声により、入力音声認識装置20に対して行なわれる。入力音声認識装置20は既知の設計のどれでもよく、入力音声中に1個以上の有意味語句が存在することを認識あるいは指摘する。次に有意味語句クラスタ検出装置25は、認識された有意味語句の中に存在する有意味語句クラスタを検出する。図でわかるように、有意味語句クラスタ生成サブシステム1が生成した有意味語句クラスタは有意味語句クラスタ検出装置25への入力として与えられる。
【0047】
有意味語句クラスタ検出装置25の出力は、発呼者の目的ルーティング要求に現れる検出された有意味語句クラスタから構成され、分類プロセッサ30に送られる。分類プロセッサ30は、認識された有意味語句クラスタと選択された目的タスクとの間の確率関係に基づいて信頼関係を適用する場合があり、特定の目的タスクを実施すべきとの決定を下すか、あるいは決定が下せそうにないと判断する。後者の場合、ユーザはオペレータ位置に回される可能性がある。
【0048】
このように明らかになったように、有意味語句生成サブシステム1が生成した有意味語句クラスタは有意味語句クラスタ検出装置25に利用されて、検出装置が指摘すべくプログラムされた有意味語句クラスタが定義される。また、有意味語句クラスタは、有意味語句クラスタ検出装置25からの有意味語句入力に関連する目的タスクを定義する分類プロセッサ30に利用され、保証されるならば、特定の目的タスクとそのような入力有意味語句クラスタの関係に対して信頼度を確立するために利用される。
【0049】
結論
自然に話した音声中の分類パラメータを探す機能を実行するタスク自動選択の方法を開示する。これらの分類パラメータは、選択された有意味語句の集合から生成された簡潔な有意味語句クラスタの形式で提示される。有意味語句を自動的に選択およびクラスタリングすることにより、自動ルーティングシステムの全体の正確度が向上する。
【0050】
本発明の現行実施の形態が詳細に記述されているが、添付のクレームにより定義される本発明の本質や狙いから逸脱することなく多様な変更、改造、置換がなされ得ることを理解されたい。
【図面の簡単な説明】
【図1】 “有意味語句”の使用に基づく呼自動ルーティングシステムのための分類装置による誤検出および無検出の例を示す説明図である。
【図2】 “有意味語句”の使用に基づく呼自動ルーティングシステムのための分類装置による正しい検出の例を示す説明図である。
【図3】 本発明に係るシステムの“有意味語句”分類パラメータにより生じる利点の例を示す説明図である。
【図4】 本発明に係るシステムの構造例を示すブロック図である。
【図5】 本発明に係る方法を示すフロー図である。
【図6】 有意味語句クラスタを示す模式図である。
【図7】 近似マッチングを用いた有意味語句クラスタを示す模式図である。
【図8】 本発明の性能を示すROC曲線のグラフ図である。

Claims (30)

  1. ユーザが自然に話した音声で表現される目的タスクに作用するタスク自動分類の方法において、
    文字化された複数の音声から有意味語句を選択し、
    記有意味語句の中から意味が類似している有意味語句を選択しクラスタリングして有意味語句クラスタを定義し、
    入力音声に存在する前記有意味語句クラスタを検出し、
    前記入力音声中に検出された有意味語句クラスタに基づきタスク種類の分類を決定すること、
    を特徴とする方法。
  2. 請求項1に記載のタスク自動分類の方法において、有意検定を用いて前記有意味語句を選択することを特徴とする方法。
  3. 請求項1に記載のタスク自動分類の方法において、前記有意味語句間の変形尺度を用いて前記有意味語句をクラスタリングすることを特徴とする方法。
  4. 請求項3に記載のタスク自動分類の方法において、前記変形尺度は文字列の変形に基づくことを特徴とする方法。
  5. 請求項3に記載のタスク自動分類の方法において、前記変形尺度は意味的変形に基づくことを特徴とする方法。
  6. 請求項3に記載のタスク自動分類の方法において、前記変形尺度は文字列および意味的変形の組み合わせであることを特徴とする方法。
  7. 請求項1に記載のタスク自動分類の方法において、前記入力音声と任意の前記有意味語句クラスタの完全マッチングにより、前記入力音声中の前記有意味語句クラスタを検出することを特徴とする方法。
  8. 請求項1に記載のタスク自動分類の方法において、前記入力音声と任意の前記有意味語句クラスタの完全または近似マッチングにより、前記入力音声中の前記有意味語句クラスタを検出することを特徴とする方法。
  9. 請求項1に記載のタスク自動分類の方法において、前記タスク種類の分類結果が統計モデルを用いてランク付けされることを特徴とする方法。
  10. 請求項1に記載のタスク自動分類の方法において、前記タスク種類の分類を決定するためにさらにニューラルネットワークを用いることを特徴とする方法。
  11. ユーザが自然に話した音声で表現される目的呼ルーティングに作用する呼種類自動分類の方法において、
    文字化された複数の音声から有意味語句を選択し、
    記有意味語句の中から意味が類似している有意味語句を選択しクラスタリングして有意味語句クラスタを定義し、
    入力音声に存在する前記有意味語句クラスタを検出し、
    前記入力音声中に検出された有意味語句クラスタに基づき呼種類の分類を決定すること、
    を特徴とする方法。
  12. 請求項11に記載の呼自動分類の方法において、有意検定を用いて前記有意味語句を選択することを特徴とする方法。
  13. 請求項11に記載の呼自動分類の方法において、前記有意味語句間の変形尺度を用いて前記有意味語句をクラスタリングすることを特徴とする方法。
  14. 請求項13に記載の呼自動分類の方法において、前記変形尺度は文字列の変形に基づくことを特徴とする方法。
  15. 請求項13に記載の呼自動分類の方法において、前記変形尺度は意味的変形に基づくことを特徴とする方法。
  16. 請求項13に記載の呼自動分類の方法において、前記変形尺度は文字列および意味的変形の組み合わせであることを特徴とする方法。
  17. 請求項11に記載の呼自動分類の方法において、前記入力音声と任意の前記有意味語句クラスタの完全マッチングにより、前記入力音声中の前記有意味語句クラスタを検出することを特徴とする方法。
  18. 請求項11に記載の呼自動分類の方法において、前記入力音声と任意の前記有意味語句クラスタの完全または近似マッチングにより、前記入力音声中のクラスタを検出することを特徴とする方法。
  19. 請求項11に記載の呼自動分類の方法において、前記タスク種類の分類結果が統計モデルを用いてランク付けされることを特徴とする方法。
  20. 請求項11に記載の呼自動分類の方法において、前記タスク種類の分類を決定するためにさらにニューラルネットワークを用いることを特徴とする方法。
  21. ユーザが自然に話した音声で表現される目的タスクに作用するタスク自動分類システムにおいて、
    所定の目的タスク集合の一つに基づいてそれぞれの有意味語句を選択し、音声集合から複数の前記有意味語句を選択する有意味語句選択装置と、
    記有意味語句の中から意味が類似している有意味語句を選択しクラスタリングして有意味語句クラスタを定義する有意味語句クラスタリング装置と、
    前記有意味語句クラスタリング装置によりクラスタリングされた前記有意味語句を一つの入力とし、ユーザの入力音声中の任意の前記有意味語句クラスタを検出する入力認識装置と、
    検出された前記有意味語句クラスタの入力に応答して所定の目的タスク集合の一つに関して検出された前記有意味語句クラスタに基づき分類を決定する分類装置と、
    を有することを特徴とするシステム。
  22. 請求項21に記載のタスク自動分類システムにおいて、前記有意味語句選択装置は有意検定を用いて前記有意味語句を選択することを特徴とするシステム。
  23. 請求項21に記載のタスク自動分類システムにおいて、前記有意味語句クラスタリング装置は前記有意味語句間の変形尺度を用いて前記有意味語句をクラスタリングすることを特徴とするシステム。
  24. 請求項23に記載のタスク自動分類システムにおいて、前記変形尺度は文字列の変形に基づくことを特徴とするシステム。
  25. 請求項23に記載のタスク自動分類システムにおいて、前記変形尺度は意味的変形に基づくことを特徴とするシステム。
  26. 請求項23に記載のタスク自動分類システムにおいて、前記変形尺度は文字列および意味的変形の組み合わせであることを特徴とするシステム。
  27. 請求項21に記載のタスク自動分類システムにおいて、前記入力認識装置は前記入力音声と任意の前記有意味語句クラスタの完全マッチングにより、前記入力音声中の前記有意味語句クラスタを検出することを特徴とするシステム。
  28. 請求項21に記載のタスク自動分類システムにおいて、前記入力認識装置は前記入力音声と任意の前記有意味語句クラスタの完全または近似マッチングにより、前記入力音声中の前記有意味語句クラスタを検出することを特徴とするシステム。
  29. 請求項21に記載のタスク自動分類システムにおいて、前記分類装置は統計モデルを用いてタスク種類の分類結果をランク付けすることを特徴とするシステム。
  30. 請求項21に記載のタスク自動分類システムにおいて、前記分類装置はニューラルネットワークを用いて決定を下すことを特徴とするシステム。
JP18940398A 1997-07-11 1998-07-03 音声に基づくタスク自動分類の方法、呼自動分類の方法及びタスク自動分類システム Expired - Lifetime JP4053141B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/893,888 US5860063A (en) 1997-07-11 1997-07-11 Automated meaningful phrase clustering
US08/893,888 1997-07-11

Publications (2)

Publication Number Publication Date
JPH11143491A JPH11143491A (ja) 1999-05-28
JP4053141B2 true JP4053141B2 (ja) 2008-02-27

Family

ID=25402301

Family Applications (1)

Application Number Title Priority Date Filing Date
JP18940398A Expired - Lifetime JP4053141B2 (ja) 1997-07-11 1998-07-03 音声に基づくタスク自動分類の方法、呼自動分類の方法及びタスク自動分類システム

Country Status (6)

Country Link
US (1) US5860063A (ja)
EP (1) EP0890942B1 (ja)
JP (1) JP4053141B2 (ja)
CA (1) CA2235364C (ja)
DE (1) DE69818161T2 (ja)
ES (1) ES2210623T3 (ja)

Families Citing this family (211)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7590224B1 (en) * 1995-09-15 2009-09-15 At&T Intellectual Property, Ii, L.P. Automated task classification system
US6173261B1 (en) * 1998-09-30 2001-01-09 At&T Corp Grammar fragment acquisition using syntactic and semantic clustering
US6044337A (en) * 1997-10-29 2000-03-28 At&T Corp Selection of superwords based on criteria relevant to both speech recognition and understanding
US6012049A (en) 1998-02-04 2000-01-04 Citicorp Development Center, Inc. System for performing financial transactions using a smartcard
US6317707B1 (en) * 1998-12-07 2001-11-13 At&T Corp. Automatic clustering of tokens from a corpus for grammar acquisition
US7356462B2 (en) 2001-07-26 2008-04-08 At&T Corp. Automatic clustering of tokens from a corpus for grammar acquisition
US6246986B1 (en) * 1998-12-31 2001-06-12 At&T Corp. User barge-in enablement in large vocabulary speech recognition systems
US6519562B1 (en) * 1999-02-25 2003-02-11 Speechworks International, Inc. Dynamic semantic control of a speech recognition system
US20020032564A1 (en) * 2000-04-19 2002-03-14 Farzad Ehsani Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface
CA2376277C (en) 1999-06-11 2011-03-15 Telstra New Wave Pty Ltd A method of developing an interactive system
US6510411B1 (en) * 1999-10-29 2003-01-21 Unisys Corporation Task oriented dialog model and manager
US20030191625A1 (en) * 1999-11-05 2003-10-09 Gorin Allen Louis Method and system for creating a named entity language model
US8392188B1 (en) 1999-11-05 2013-03-05 At&T Intellectual Property Ii, L.P. Method and system for building a phonotactic model for domain independent speech recognition
US7286984B1 (en) 1999-11-05 2007-10-23 At&T Corp. Method and system for automatically detecting morphemes in a task classification system using lattices
US7085720B1 (en) * 1999-11-05 2006-08-01 At & T Corp. Method for task classification using morphemes
US6681206B1 (en) 1999-11-05 2004-01-20 At&T Corporation Method for generating morphemes
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7392185B2 (en) * 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US7050977B1 (en) * 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US6526382B1 (en) * 1999-12-07 2003-02-25 Comverse, Inc. Language-oriented user interfaces for voice activated services
WO2001046945A1 (en) * 1999-12-20 2001-06-28 British Telecommunications Public Limited Company Learning of dialogue states and language model of spoken information system
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7149695B1 (en) * 2000-10-13 2006-12-12 Apple Computer, Inc. Method and apparatus for speech recognition using semantic inference and word agglomeration
US6941266B1 (en) * 2000-11-15 2005-09-06 At&T Corp. Method and system for predicting problematic dialog situations in a task classification system
US7184947B2 (en) * 2001-01-05 2007-02-27 Fujitsu Limited Document anonymity setting device, method and computer readable recording medium recording anonymity setting program
US6751591B1 (en) 2001-01-22 2004-06-15 At&T Corp. Method and system for predicting understanding errors in a task classification system
US7729918B2 (en) * 2001-03-14 2010-06-01 At&T Intellectual Property Ii, Lp Trainable sentence planning system
US7574362B2 (en) * 2001-03-14 2009-08-11 At&T Intellectual Property Ii, L.P. Method for automated sentence planning in a task classification system
WO2002073453A1 (en) * 2001-03-14 2002-09-19 At & T Corp. A trainable sentence planning system
US6944447B2 (en) * 2001-04-27 2005-09-13 Accenture Llp Location-based services
US7970648B2 (en) * 2001-04-27 2011-06-28 Accenture Global Services Limited Advertising campaign and business listing management for a location-based services system
US6848542B2 (en) * 2001-04-27 2005-02-01 Accenture Llp Method for passive mining of usage information in a location-based services system
US7437295B2 (en) * 2001-04-27 2008-10-14 Accenture Llp Natural language processing for a location-based services system
US7698228B2 (en) 2001-04-27 2010-04-13 Accenture Llp Tracking purchases in a location-based services system
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
AU2002950336A0 (en) * 2002-07-24 2002-09-12 Telstra New Wave Pty Ltd System and process for developing a voice application
AU2002951244A0 (en) * 2002-09-06 2002-09-19 Telstra New Wave Pty Ltd A development system for a dialog system
US7263486B1 (en) * 2002-10-25 2007-08-28 At&T Corp. Active learning for spoken language understanding
US20030115062A1 (en) * 2002-10-29 2003-06-19 Walker Marilyn A. Method for automated sentence planning
US8645122B1 (en) * 2002-12-19 2014-02-04 At&T Intellectual Property Ii, L.P. Method of handling frequently asked questions in a natural language dialog service
US20040122661A1 (en) * 2002-12-23 2004-06-24 Gensym Corporation Method, system, and computer program product for storing, managing and using knowledge expressible as, and organized in accordance with, a natural language
US8335683B2 (en) * 2003-01-23 2012-12-18 Microsoft Corporation System for using statistical classifiers for spoken language understanding
US20040148170A1 (en) * 2003-01-23 2004-07-29 Alejandro Acero Statistical classifiers for spoken language understanding and command/control scenarios
AU2003900584A0 (en) * 2003-02-11 2003-02-27 Telstra New Wave Pty Ltd System for predicting speech recognition accuracy and development for a dialog system
AU2003902020A0 (en) * 2003-04-29 2003-05-15 Telstra New Wave Pty Ltd A process for grammatical inference
US20050010416A1 (en) * 2003-07-09 2005-01-13 Gensym Corporation System and method for self management of health using natural language interface
US7933774B1 (en) * 2004-03-18 2011-04-26 At&T Intellectual Property Ii, L.P. System and method for automatic generation of a natural language understanding model
DE102004055230B3 (de) * 2004-11-16 2006-07-20 Siemens Ag Verfahren zur Spracherkennung aus einem vorgebbaren Vokabular
US7634406B2 (en) * 2004-12-10 2009-12-15 Microsoft Corporation System and method for identifying semantic intent from acoustic information
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
CA2643930A1 (en) * 2006-04-17 2007-10-25 Call Genie Inc. Method and apparatus for building grammars with lexical semantic clustering in a speech recognizer
US9245526B2 (en) * 2006-04-25 2016-01-26 General Motors Llc Dynamic clustering of nametags in an automated speech recognition system
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20080091423A1 (en) * 2006-10-13 2008-04-17 Shourya Roy Generation of domain models from noisy transcriptions
US20080129520A1 (en) * 2006-12-01 2008-06-05 Apple Computer, Inc. Electronic device with enhanced audio feedback
US8380511B2 (en) * 2007-02-20 2013-02-19 Intervoice Limited Partnership System and method for semantic categorization
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9053089B2 (en) * 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) * 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) * 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) * 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8712776B2 (en) * 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10540976B2 (en) * 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8682649B2 (en) * 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) * 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8661018B2 (en) 2010-08-10 2014-02-25 Lockheed Martin Corporation Data service response plan generator
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
WO2012094014A1 (en) * 2011-01-07 2012-07-12 Nuance Communications, Inc. Automatic updating of confidence scoring functionality for speech recognition systems
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US20120310642A1 (en) 2011-06-03 2012-12-06 Apple Inc. Automatically creating a mapping between text data and audio data
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
CN110096712B (zh) 2013-03-15 2023-06-20 苹果公司 通过智能数字助理的用户培训
CN105144133B (zh) 2013-03-15 2020-11-20 苹果公司 对中断进行上下文相关处理
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
KR102111831B1 (ko) * 2013-07-26 2020-05-15 그린에덴 유.에스. 홀딩스 Ii, 엘엘씨 컨셉 검색 및 탐색 시스템 및 방법
US10061822B2 (en) 2013-07-26 2018-08-28 Genesys Telecommunications Laboratories, Inc. System and method for discovering and exploring concepts and root causes of events
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
KR20150081981A (ko) * 2014-01-07 2015-07-15 삼성전자주식회사 회의 내용 구조화 장치 및 방법
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10304440B1 (en) * 2015-07-10 2019-05-28 Amazon Technologies, Inc. Keyword spotting using multi-task configuration
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9787819B2 (en) 2015-09-18 2017-10-10 Microsoft Technology Licensing, Llc Transcription of spoken communications
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
KR101868404B1 (ko) * 2016-06-14 2018-07-19 가천대학교 산학협력단 한국어 음성인식기술을 이용한 응급상황관제 시스템 및 관제방법
JP6729232B2 (ja) * 2016-09-20 2020-07-22 富士通株式会社 メッセージ振り分けプログラム、メッセージ振り分け装置、およびメッセージ振り分け方法
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5434777A (en) * 1992-05-27 1995-07-18 Apple Computer, Inc. Method and apparatus for processing natural language
US5384892A (en) * 1992-12-31 1995-01-24 Apple Computer, Inc. Dynamic language model for speech recognition
CA2481892C (en) * 1992-12-31 2009-02-10 Apple Computer, Inc. A speech recognition system
JPH06318223A (ja) * 1993-05-07 1994-11-15 Nippon Telegr & Teleph Corp <Ntt> クラスタリング装置
JPH0934863A (ja) * 1995-07-14 1997-02-07 Hitachi Ltd ニューラルネットワークによる情報統合処理方法
US5794193A (en) * 1995-09-15 1998-08-11 Lucent Technologies Inc. Automated phrase generation
US5675707A (en) * 1995-09-15 1997-10-07 At&T Automated call router system and method

Also Published As

Publication number Publication date
JPH11143491A (ja) 1999-05-28
ES2210623T3 (es) 2004-07-01
EP0890942B1 (en) 2003-09-17
US5860063A (en) 1999-01-12
EP0890942A2 (en) 1999-01-13
DE69818161D1 (de) 2003-10-23
DE69818161T2 (de) 2004-04-08
EP0890942A3 (en) 1999-04-21
CA2235364A1 (en) 1999-01-11
CA2235364C (en) 2002-07-16

Similar Documents

Publication Publication Date Title
JP4053141B2 (ja) 音声に基づくタスク自動分類の方法、呼自動分類の方法及びタスク自動分類システム
CN109151218B (zh) 通话语音质检方法、装置、计算机设备及存储介质
EP0797823B1 (en) Automated call router system and method
US8024188B2 (en) Method and system of optimal selection strategy for statistical classifications
JP4880258B2 (ja) 信頼性スコアを使用した自然言語コール・ルーティングのための方法および装置
US8050929B2 (en) Method and system of optimal selection strategy for statistical classifications in dialog systems
US5625748A (en) Topic discriminator using posterior probability or confidence scores
US6272455B1 (en) Method and apparatus for understanding natural language
US8144838B2 (en) Automated task classification system
EP0763817A2 (en) Automated phrase generation
JP5377430B2 (ja) 質問応答データベース拡張装置および質問応答データベース拡張方法
CA2515511C (en) System for predicting speech recognition accuracy and development for a dialog system
Riccardi et al. Stochastic language adaptation over time and state in natural spoken dialog systems
CN109726269B (zh) 信息处理方法、信息处理装置以及程序
US20030040907A1 (en) Speech recognition system
CN111145733A (zh) 语音识别方法、装置、计算机设备和计算机可读存储介质
CN111611358A (zh) 信息交互方法、装置、电子设备及存储介质
US11615787B2 (en) Dialogue system and method of controlling the same
CN113436614A (zh) 语音识别方法、装置、设备、系统及存储介质
JP2001100787A (ja) 音声対話システム
CN113806475A (zh) 信息回复方法、装置、电子设备和存储介质
AU2004211007B2 (en) System for predicting speech recognition accuracy and development for a dialog system
Higashida et al. A new dialogue control method based on human listening process to construct an interface for ascertaining a user²s inputs.
MXPA98005525A (es) Agrupamiento automatizado de frases con significado
KR20000055394A (ko) 음성 인식 방법

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040302

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20040602

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20040617

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040714

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040714

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20041116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071205

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101214

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101214

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111214

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111214

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121214

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131214

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term