JP4053141B2

JP4053141B2 - 音声に基づくタスク自動分類の方法、呼自動分類の方法及びタスク自動分類システム

Info

Publication number: JP4053141B2
Application number: JP18940398A
Authority: JP
Inventors: エルゴーリンアレン; エイチライトジェレミー
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1997-07-11
Filing date: 1998-07-03
Publication date: 2008-02-27
Anticipated expiration: 2018-07-03
Also published as: JPH11143491A; ES2210623T3; EP0890942B1; US5860063A; EP0890942A2; DE69818161D1; DE69818161T2; EP0890942A3; CA2235364A1; CA2235364C

Description

【０００１】
【発明の属する技術分野】
本発明は、音声処理に関し、特に１個以上の要求タスクの挙動に関する有意味語句の自動クラスタリングのシステムおよび方法に関する。
【０００２】
【従来の技術】
通信ネットワークにおいて、ネットワークのユーザが要求する特定のタスクを自動的に実行する機能が求められる場合が多い。すなわち人間が介在せずにそのようなタスクを実行することである。従来技術では、そのようなタスク自動実行は一般に複数のメニュー選択を通じて行なわれるが、メニューの選択はユーザが指定した信号や、ユーザの電話器に付いているキーパッドで生成された汎用数値信号、あるいはユーザがその数値をキーワードとして発音することで選択される。多くの場合、そのようなメニューベースのタスク自動実行環境には多段メニューが含まれる。そのような多段メニュー構造は一般にユーザに好まれず、所期の目的を達するには著しく非効率である。多段メニューを介してうまくルーティングできる可能性は非常に小さい。言い換えると、このような環境下で多段メニューにアクセスしようとする呼は、発呼者が求める相手先に到達する前に切断されるか、または宛先不明扱いでオペレータ（または他の有人デフォルト局）に回される。
【０００３】
従来技術の限界は、いずれも1995年9月15日に受理された米国特許出願第08/528,577号「語句生成の自動化」、および米国特許出願08/528,578号「呼自動ルーティングシステム」で述べられており、ここに参考のため引用されている。これらの出願はタスク自動選択の方法論を与え、選択されるタスクはそれを選ぶ人間が自然に話した音声中で識別される。本方法の基本的な側面は、有意味語句の集合の判定である。そのような有意味語句は文法的推論アルゴリズムにより判定される。そのアルゴリズムは、それぞれ特定の目的タスクと対応付けられた音声からなる予め決められた音声集合（音声コーパス）の上で動作し、そのアルゴリズムにおいては、各音声はそれに伴なう目的タスクと関連付けられている。
【０００４】
上述の出願で用いられる有意味語句の判定法は、言語における単語や構造の共通性の尺度−すなわちグループ化された語句が同時出現する頻度−と、そのようなグループに対して定義されたタスクの有意度とを組み合わせるという概念の中で構築されている。言語内での共通性の尺度は、学習用音声データベースから導かれたｎ語間の相関情報として明示され、またタスクの有用性の尺度は特徴性尺度として明示される。
【０００５】
相関情報（Mutual Information、以下、ＭＩと記すことがある。）は２個以上の単語が同時出現する可能性を測定するものであり、その言語自身のみで規定できる。例えば、「戦争と平和」のロシア語原文を一言も理解できなくても、テキスト中に現れるすべての可能な単語の組み合わせについて相関情報を計算することができる。これに対して特徴性の計算は、言語、及びその装置環境への超言語的な関連の両方を包含する。ＭＩと特徴性因子をそのように組み合わせることで、正ＭＩ値（語句を構成する単語間に相対的に強い関連があることを示す）と高特徴性値の両方を持つ有意味語句が選択される。
【０００６】
【発明が解決しようとする課題】
しかし、そのような方法は、特徴的な単語の別々の集合が特定の入力音声中に現れる確率に基づいている。例えば、特徴語句である「長距離電話をかけた」、「一回の長距離電話」、「長距離電話」は同じ目的のためにユーザが発声したものであるが、各々の独立した相関情報と特徴性値に基づく上述の文法的推論アルゴリズムでは別々の有意味語句と判定されるであろう。このように、文法的推論アルゴリズムにおいては、実質的には同一の単語の集合で意味も同じである多くの独立語句が生成され、それらは互いに別々のまま取り扱われ、別個の出現確率を表す。これらの“類似”特徴語句をグループ化せずにおくと、上述の方法による確率推定の精度が低くなり、結果的にユーザからの要求に対して不正確なルーティングを与える恐れがある。
【０００７】
【課題を解決するための手段】
タスク自動選択の方法およびシステムが提示される。選択されるタスクは、選択を行なうユーザが自然に話した音声から識別される。本方法およびシステムは有意検定を通じて有意味語句の選択機能を含む。選択された有意味語句は文字列および意味的変形の組み合わせを用いてクラスタリングされる。有意味語句のクラスタは音声認識装置に入力され、入力音声に有意味語句クラスタが存在するか否かが判定される。認識された有意味語句クラスタに基づいてタスク種類の決定がなされる。
【０００８】
以後、アルゴリズムおよびコンピュータシステム内のデータビット演算記号表現を一部用いて説明する。これらのアルゴリズム的記述および表現は、コンピュータ処理技術に習熟した者が自身の業績をその方面の知識を持つ他者に伝達する際に通常用いられる手段であることが、以下で理解されよう。
【０００９】
ここで（また一般に）用いられるように、アルゴリズムは所期の結果に至る一連の自己完結ステップであると見なせよう。これらのステップは一般に物理量の演算を含む。例外もあるが、通常これらの量は保存、転送、組み合わせ、比較あるいは演算が可能な電気的または磁気的信号の形をとる。これらの信号は通常の利用しやすさとともに、参照しやすくするために折りにふれビット、値、要素、記号、文字、項、番号等で記述される。しかし、これらや類似の語には適当な物理量が付随すること、すなわちそのような語は単にこれらの量に付けられた便利なラベルに過ぎないことを強調しておく。
【００１０】
また、演算やコンピュータ動作の方法と計算法自体とは明確に区別すべきである。本発明は、電気的または他の（例：機械的、化学的）物理信号を処理して、求める別の物理信号を生成するためのコンピュータ動作の方法に関する。
【００１１】
説明をわかりやすくするために、本発明の図示された実施の形態は個別の機能ブロック（「プロセッサ」とラベル付けされた機能ブロックを含む）から構成されるように表現されている。これらのブロックが表現する機能は、共用または専用ハードウェアにより実現され得る。ここでいうハードウェアはソフトウェアの実行が可能なハードウェアを含むが、これに限定されるものではない。例えば、図４に示すプロセッサの機能は単一共用プロセッサにより実現される（「プロセッサ」という用語をソフトウェア実行が可能なハードウェアに限定して解釈してはならない）。
【００１２】
図示された実施の形態は、ＡＴ＆ＴＤＳＰＩ６やＤＳＰ３２Ｃ等のマイクロプロセッサまたはデジタル信号プロセッサ（ＤＳＰ）ハードウェア、後述の演算を実行するソフトウェアを格納する読みだし専用メモリ（ＲＯＭ）、結果を格納するランダムアクセスメモリ（ＲＡＭ）から構成される。汎用ＤＳＰ回路と組み合わせたカスタムＶＬＳＩ回路とともに、超大規模集積（ＶＬＳＵ）ハードウェアの実施の形態もまた提示される。
【００１３】
本発明の基本目的は人間ユーザと機械のコミュニケーションを含むタスク選択法であり、特定の語彙を理解する負担を人間から機械に肩代わりさせるものである。このように、汎用化された実施の形態において本発明は下記の特徴を備えたタスク選択法として表現される。
【００１４】
最初に、システムにアクセスすると「ご用件をお話し下さい。」のようなあいさつ文が表示される。
【００１５】
ユーザが自分の目的（実行したいタスクなど）を自然な発声で答えると、ユーザ要求は所定の多くの目的タスクの一つに分類され、続いてその目的タスクが実行される。
【００１６】
以後説明される本発明の好適例において、本発明によるシステムおよび方法の実装は、ユーザの要求タスクが電話システムまたはネットワークにより実行される形の適用例により適宜図示される。そのような適用例において、ユーザの目的タスクとして請求先の指定（例：コレクト、第三者）、ダイヤル番号案内、請求の問い合わせ、クレジット要求（番号違いやかけ間違いに関する）、市街局番等があろう。
【００１７】
【発明の実施の形態】
従来の通信環境において、ある通信相手先で利用できる各種のサービスにアクセスするためにユーザがそれぞれの番号やダイヤルパターンを知らねばならないことがよくある。また、求める目的に到達するためにメニュードリブン式のシステムを使いこなす必要に迫られることも有り得る。本発明のシステムおよび方法により、ユーザは中央局番号へアクセスすることができ、ユーザの目的はその内容に基づいて通信の受け側により実現されよう。
【００１８】
そのような内容主体のルーティングの例として、「ご用件をお話し下さい。」のプロンプトに対し、発呼者が「支払いを相手に振り替えたい。」と答えるような場面がある。この場合の適切な動作は、自動的にコレクトコールを処理するサブシステムへ発呼者をつなぐことである。別の例として、「請求書の内容がよく理解できない。」と発呼者が答えた場合には電話会社の営業所につなぐべきである。このように、システムは適切に呼をルーティングできる程度に話し言葉を理解できねばならない。
【００１９】
Ａ．基本的アプローチ
このようなシステムの基本構成は、Ａ．Ｇｏｒｉｎの「自動化された言語習得」、J.Acoust.Soc.Am.、97 3441-3461（１９９５年６月号）［以後Ｇｏｒｉｎ９５と略記］中の発明者の一人により述べられており、ここにおいても一部として組込まれている。その基本的アプローチにおいて考慮されたことの多くが本発明のシステムおよび方法の素材になっている。それらの考慮事項のうちいくつかを以後簡単に概説する。概説に先立って、Ｇｏｒｉｎ９５で述べられたアプローチでは、入力テキストや音声と所定の目的タスク集合の一つとの紐付けを決定するための分類パラメータは、目的タスクと紐付けられた音声コーパスから導かれた特徴語として実装されている。ここに記述された方法を適用するに際して、分類パラメータは対応する目的ルーティングと紐付けられた音声コーパスから導かれた有意味語句クラスタとして実装されている。
【００２０】
このアプローチの中心に膨大な数の音声データベースがあり、各音声は目的ルーティングの所定の集合の一つと関係付けられている。このデータベースは分類パラメータアルゴリズムへの入力を形成する。そのような音声は「ご要件をお話し下さい。」（または同様の語句）とのプロンプトに対しユーザが実際に応答した音声から抽出されることが望ましい。各音声は次に文字化され、目的ルーティングの所定の集合の一つへラベル付けされる。発明者が使用したデータベースにある音声の例は以下のようなものである。
【００２１】
うん、相手に払わせたいんだ
この番号につながらないんだ
電話を切ろうとしたんだ。
【００２２】
メキシコにかけたいんだ
自宅の電話に請求してくれ
発明者の一人が共著した関連文献Ｇｏｒｉｎ，Ａ．Ｌ．、Ｈａｎｅｋ，Ｈ．、Ｒｏｓｅ，Ｒ．ａｎｄＭｉｌｌｅｒ，Ｌ．、「呼自動ルーティングのための音声言語の習得」、音声言語処理国際会議（ＩＣＳＬＰ９４）予稿集、横浜（１９９４年９月１８日〜２２日）［以後Ｇｏｒｉｎ９４Ａと略記］の中で、そのようなデータベース中の目的ルーティングの分布は実質的に偏っていることが注記されている。本発明のシステムにより自動化される目的ルーティングの特定集合の決定においてもそのような偏りは当然考慮されている。
【００２３】
本発明のシステムに関する特徴原理は、発明者の一人が共著した別の文献Ｇｏｒｉｎ，Ａ．Ｌ．、Ｌｅｖｉｎｓｏｎ，Ｓ．Ｅ．、Ｓａｎｋｅｒ，Ａ．「音声言語習得の実験」IEEE Trans. on Speech and Audio、vol.2、No.1、PartII、pp.224〜240（１９９４年１月号）［以後Ｇｏｒｉｎ９４と略記］において定義されている。特に、単語の特徴性を、検討対象のタスクに対するその単語の情報量として定義する。その単語がそのタスクにとってどれほど意味があるかの尺度として解釈できる。シャノン（Shannon）による伝統的な情報量は単語に起こり得る不確実性を測定するものであり、ここでいう特徴性は、それとは区別され対比され得る。公知のように、そのような伝統的情報量は言語の例から推定可能であるが、特徴性の推定は言語と超言語的関連の両方が必要である。
【００２４】
先に述べたように、Ｇｏｒｉｎ９５では分類パラメータとして特定の目的ルーティングと特徴的な関連を有する検定用音声集からの単語を用いている。米国特許出願08/528,577号および08/528,578号は、分類パラメータとして有意味語句を用いることでこの方法論から離れる重要な点を示している。そのような有意味語句を決定する方法を説明する前に、そのような自動ルーティングシステムおよび関連する“成功”概念において経験した二種類のエラーを定義しておくことは有用である。
【００２５】
第１のエラーは、目的ルーティングの検出が誤っている場合であり、発呼者の本当の要求は別の目的ルーティングなのに、ある目的ルーティングに関連する特徴（有意味）語句が発呼者の入力音声中に検出された場合である。そのような誤検出が生じる確率を以後Ｐ_FDと表記する。
【００２６】
第２のエラーは、目的ルーティングの検出がヒットしない場合であり、発呼者の入力音声がその目的ルーティングに向けられているにもかかわらず、その目的ルーティングに紐付けられた有意味語句が入力音声中に全く検出されない場合である。そのような無検出の確率を以後Ｐ_MDと表記する。
【００２７】
目的ルーティングのカバー率は、ある目的ルーティングへの要求をシステムが正しくその目的ルーティングへ翻訳できた回数と、その目的ルーティングへの入力要求の総数の比である。一例として、目的ルーティングへの１００個の入力要求のうち６０個が正しく翻訳できた場合、カバー率が６０％であったと言える。これはカバー率＝１−Ｐ_MDと表記される。
【００２８】
上で定義した二種類のエラーのうち、前者の方が後者よりもかなり“重大”である。誤検出の結果、ユーザが求めたのとは異なる目的タスクにルーティングしてしまう。その結果、イライラするぐらいで済めばよいが、そのようなエラーのために誤った目的ルーティングにつながれた発呼者が引き起こす非システムエラーを介してシステムプロバイダが直接コストを負担せざるを得ない場合も起こり得る。なお、ここでは、顧客をイライラさせることや顧客獲得の機会損失はここでは間接コストとして分類される。一方、無検出の結果は、単にユーザをデフォルトのオペレータ位置にルーティングするだけであり、唯一のコストはその特定のタスクを自動的に扱わなかった機会損失コストのみである。従って、理想的には無検出と誤検出の確率はゼロであるべきだが、ユーザの立場からは誤検出に対してこの目的を達成してもらうことの方がはるかに重要である。以下に示すように、これらの誤り確率の一方または他方を最小化するのにトレードオフが必要な環境があり、この原理はそのような環境において適用される。
【００２９】
Ｂ．基本アプローチの適用
図１に発明者が用いた音声データベースからの誤検出および無検出の例を示す。これら各々の例における誤りの基本は、それ自体を見ればよくわかるので、各集合の最初の例の誤りについて簡単な説明にとどめる。誤検出の最初の例では有意味語句は、「クレジットが必要だＥＯＳ（文の終わり）」であり、従ってこの語句はクレジット要求に分類されたであろう。しかし、音声全体を読むと発呼者は実際には別の搬送業者（この要求を受理した搬送業者はＡＴ＆Ｔ）に乗り換えたかったことが明らかである。無検出の最初の例では音声中に有意味語句が全く認識されなかった（従って発呼者の目的を分類する根拠が無い）。しかし発声した内容を人間が読んだら、発呼者が請求クレジットを求めていることが明らかにわかる。図２に比較として、入力音声内の有意味語句から請求クレジット目的を正しく検出した結果のいくつかの例を示す。
【００３０】
本発明の方法論において、有意味語句を分類パラメータとして使用する方が、Ｇｏｒｉｎ９５に記述されている基本アプローチにおける特徴語を使用するよりも二つの重要な利点がある。第一に、単語を分類パラメータとして用いると、誤検出の確率を最小化するために与えられた目的ルーティングを検出する単語選択が極めて限られる可能性がある。すなわち、意図した目的ルーティングをほぼ１００％予測できる単語のみを用いることになり、従ってそのような目的ルーティングのカバー率は極めて低いと思われ、無検出エラーが発生する可能性が高くなる。一方、分類パラメータとして有意味語句を用いると、誤検出と無検出の両方の確率を小さくすることが可能である。
【００３１】
図３にこの利点の例を示す。図は、目的ルーティング例にあげた請求クレジットの分類率とカバー率を、分類パラメータとして用いられた語句の長さや複雑度が増大した場合について示している。分類率は、選択された語句が入力音声中に出現する条件のもとで、要求された目的ルーティング（ＣＲＥＤＩＴ）の確率Ｐ（クレジット／語句）として定義される。同様にカバー率は、指定された目的ルーティング（ＣＲＥＤＩＴ）が要求される条件のもとで、入力音声中に現れる選択語句の確率として定義される。語句列において、“｜”で区切られた一連の用語を囲む括弧はそれらの用語のうち1個が、同じ行の他の用語とともに示された位置に現れることを示す。“Ｆ（間違い）”という表記は、“間違い”という単語を囲む文法断片を示し、その列の第４行中の語句は特徴語を囲むそのような文法断片を代表している。“ｐｒｅｖｉｏｕｓ”という指定は、前の行の全ての語を持ち越すことを示す。最後に、“ｅｏｓ”という略語は“文の終わり（end of sentence）”を示す。
【００３２】
音声認識システムにおいて、音声認識装置に提示される音声の断片が大きいほど、その音声断片を正しく認識できる確率が高くなる。従って、特徴語の集合の１個を特定すべくプログラムされた音声認識装置は、２個以上の単語からなる有意味語句を特定するようにプログラムされたその種の装置よりも誤認識する頻度が極めて高いと思われる。
【００３３】
Ｃ．発明の方法論の説明
本発明の方法論は図５のフローチャートに示される。フローチャートのステップに従えば、ステップ１１０においてタスク種類の推定事後分布や有意検定を用いて認識された音声の文字化から有意味語句が以下に述べるように生成される。生成された有意味語句は次にステップ１２０でクラスタリングされ、文字列および意味的変形に基づく語句間距離の尺度を用いて有意味語句クラスタに形成される。次にステップ１３０において、有意味語句クラスタが、完全または近似的マッチング手順を用いて入力音声中で検索され検出される。検出された有意味語句に基づいてステップ１４０でタスク種類が決定される。
【００３４】
Ｄ．有意味語句の選択およびクラスタリング
１．有意味語句の選択
音声認識システムにおいて、タスクにとって有意味な語句を選択するのが望ましい。特定の語句について、呼種類にわたる事前・事後分布間の変形を評価するのに特徴性の尺度が用いられる場合がある。しかし、この方法は断片が生じる頻度を考慮しない。例えば、事象の組み合わせの運がよければ、全くの偶然により低頻度の語句に高特徴性を与える可能性がある。
【００３５】
ここで、各語句について、単に事前確率に支配される（従ってランダムに発生する）帰無仮説を検定することによりこの短所は回避される。語句ｆが学習時に呼の種類ラベルに合計ｎ回出現したとし、（ｒ1，ｒ2，…）はｎ回の出現をＫ＝１５クラスに分けるすべての可能な分割の集合を表わすものとする。実際に観察されたｆの出現回数の分布をｒf、その事前確率を｛ｐk｝_k=1、…_、Kで表わす。帰無仮説のもとで、分割ｒi＝ｎ_i1，…，ｎ_iKの確率は次の多項分布で与えられる。
【００３６】
【数１】

頻度ｎの語句ｆが有意度αにおいて受理される条件は下記が成立する場合である。
【００３７】
【数２】

いかなる語句でも、その観察された分布が相対的に事前分布からランダムにとられたサンプルでありそうな場合、却下される。これは正確な有意検定であり、従って出現回数が非常に少ない語句についても正しい。有意度５％を課すことにより、従来技術において生成された語句の総数が約３０％減る。
【００３８】
２．有意味語句のクラスタリング
第二段階は、凝集的クラスタリング手順を用いて語句をクラスタリングする。このために、語句ｆ1、ｆ2間のレベンシュタイン（Levenshtein）文字列距離尺度ｄs(ｆ1,ｆ2)を用いる。その尺度では挿入、削除、置換の代償が単語の特徴性により重み付けられている。しかし、文字列として似ている語句が異なる意味を持つ場合がある。例えば、“クレジットが必要”と“クレジットカード”という語句は、それぞれ請求クレジット要求とクレジットカードでの支払いを表わす。これらの語句を同じクラスタに入れるのは不適当である。この問題を評価する際に小さいサンプルに帰すべき変動性をここでも考慮する必要がある。従って、意味的変形の尺度が用いられる。ここに、
【数３】

である。Ｐ（ｃk∈Ｃt｜ｆ∈Ｆt）は、語句ｆの呼の種類ｃkにわたる推定事後分布、Ｃt、Ｆtは音声ｔに対するラベル集合および観察された語句である。分母は、仮説Ｈのもとでの（各呼の種類についての）推定事後値の間の差違の分散の推定である。この仮説は、２個の語句は同一の真の（しかし未知の）事後分布を持つことを言明する。Ｈが正しければ、ｄM(ｆ1,ｆ2)の期待値は語句の出現回数にかかわらず１．０に等しい。従って、この尺度の値が大きければ事後分布間の乖離の証拠となる。クラスタリングに用いられる全体の尺度は文字列および意味的変形の組み合わせである。
【００３９】
結果として得られる各語句クラスタは有意味語句クラスタを表わす有限状態機械（ＦＳＭ）に変換される。図６に例を示す。この例では、「コレクトコールをする。(make a collect call)」は他の有意味語句、「コレクトコールをかける。(place a collect call)」、「コレクトコールする。(make collect call)」、「コレクト電話をかける。(make a collect phone call)」と同じクラスタに入れられる。
【００４０】
次に呼の種類にわたる事後分布は各ＦＳＭから得られる。ＦＳＭを通る経路との完全または近似マッチの形での観察結果が検定用音声に対して見出される。近似マッチは動的プログラミングアルゴリズムを用いて見出される。その中で単語特徴性がエラーの重み付けに用いられる。近似マッチの例を図７に示す。単語ａがｔｈｉｓに置換されるがそれら両語各々の特徴性は低い。
【００４１】
３．複数語句の活用
いくつかの観察から得られた証拠を組み合わせるために、この技術分野でよく知られた方法がいくつかある。例えば、呼の種類は“語句の袋”モデルを採用してランク付けることができる。
【００４２】
【数４】

有意味語句クラスタは互いに相関があることがよく見られ、高次統計モデルを含む実験がおこなわれつつある。
【００４３】
４．分類実験
初期の結果は長さが４語までの有意味語句の集合を用いて得られた。１０００個の音声からなる検定用集合が大語彙音声認識装置により処理された。語句の出力とのマッチが見出され、長い語句の方がより特徴的なために有利になる仕方で解析された。呼の種類は断片ピーク分類器により決定された。呼の種類ラベルの一つは“ｏｔｈｅｒ”であり、これら特別の呼の所期の到達点は不合格になる。受理閾値を変動させ、誤不合格率に対する正しい分類率をプロットすることにより、図８の破線が示すＲＯＣ曲線が得られる。
【００４４】
図８中の実線は上述の手順を用いて得られた結果を示す。音声認識システムの同じ出力に対して、性能がかなり向上したことがわかる。これは４０％の誤不合格率に対し、分類正答率が８７％でランク２位の実用的な動作点の領域で特に注目される。
【００４５】
Ｅ．本発明の構造の例
図４は本発明の本質的な構造をブロック図で示したものである。図４からわかるように、本構造は２種の関連するサブシステム、有意味語句生成サブシステム１および入力音声分類サブシステム２から構成される。既に述べたように、有意味語句生成サブシステム１は膨大な数の音声データベース上で動作する。個々の音声は所定の目的ルーティングの集合の一つと関係付けられており、各音声は対応する目的ルーティングと紐付けられている。このサブシステムの動作は、入力音声が対応する１個以上の所定の目的ルーティングの集合と確率関係を有する有意味語句集合を出力として選択する有意味語句選択装置１０により実質的に実行される。選択された有意味語句は次に有意味語句クラスタリング装置１５に入力され、意味的に関係のある有意味語句がクラスタに分けられる。有意味語句選択装置１０および有意味語句クラスタリング装置１５の動作は一般的に、有意味語句の選択、クラスタリングを行なう前述のアルゴリズムに従って決定される。
【００４６】
入力音声分類サブシステム２の動作は、ユーザの目的タスク要求の入力で始まる。この要求は人が自然に話した音声により、入力音声認識装置２０に対して行なわれる。入力音声認識装置２０は既知の設計のどれでもよく、入力音声中に１個以上の有意味語句が存在することを認識あるいは指摘する。次に有意味語句クラスタ検出装置２５は、認識された有意味語句の中に存在する有意味語句クラスタを検出する。図でわかるように、有意味語句クラスタ生成サブシステム１が生成した有意味語句クラスタは有意味語句クラスタ検出装置２５への入力として与えられる。
【００４７】
有意味語句クラスタ検出装置２５の出力は、発呼者の目的ルーティング要求に現れる検出された有意味語句クラスタから構成され、分類プロセッサ３０に送られる。分類プロセッサ３０は、認識された有意味語句クラスタと選択された目的タスクとの間の確率関係に基づいて信頼関係を適用する場合があり、特定の目的タスクを実施すべきとの決定を下すか、あるいは決定が下せそうにないと判断する。後者の場合、ユーザはオペレータ位置に回される可能性がある。
【００４８】
このように明らかになったように、有意味語句生成サブシステム１が生成した有意味語句クラスタは有意味語句クラスタ検出装置２５に利用されて、検出装置が指摘すべくプログラムされた有意味語句クラスタが定義される。また、有意味語句クラスタは、有意味語句クラスタ検出装置２５からの有意味語句入力に関連する目的タスクを定義する分類プロセッサ３０に利用され、保証されるならば、特定の目的タスクとそのような入力有意味語句クラスタの関係に対して信頼度を確立するために利用される。
【００４９】
結論
自然に話した音声中の分類パラメータを探す機能を実行するタスク自動選択の方法を開示する。これらの分類パラメータは、選択された有意味語句の集合から生成された簡潔な有意味語句クラスタの形式で提示される。有意味語句を自動的に選択およびクラスタリングすることにより、自動ルーティングシステムの全体の正確度が向上する。
【００５０】
本発明の現行実施の形態が詳細に記述されているが、添付のクレームにより定義される本発明の本質や狙いから逸脱することなく多様な変更、改造、置換がなされ得ることを理解されたい。
【図面の簡単な説明】
【図１】 “有意味語句”の使用に基づく呼自動ルーティングシステムのための分類装置による誤検出および無検出の例を示す説明図である。
【図２】 “有意味語句”の使用に基づく呼自動ルーティングシステムのための分類装置による正しい検出の例を示す説明図である。
【図３】本発明に係るシステムの“有意味語句”分類パラメータにより生じる利点の例を示す説明図である。
【図４】本発明に係るシステムの構造例を示すブロック図である。
【図５】本発明に係る方法を示すフロー図である。
【図６】有意味語句クラスタを示す模式図である。
【図７】近似マッチングを用いた有意味語句クラスタを示す模式図である。
【図８】本発明の性能を示すＲＯＣ曲線のグラフ図である。

Claims

ユーザが自然に話した音声で表現される目的タスクに作用するタスク自動分類の方法において、
文字化された複数の音声から有意味語句を選択し、
前記有意味語句の中から意味が類似している有意味語句を選択しクラスタリングして有意味語句クラスタを定義し、
入力音声に存在する前記有意味語句クラスタを検出し、
前記入力音声中に検出された有意味語句クラスタに基づきタスク種類の分類を決定すること、
を特徴とする方法。
請求項１に記載のタスク自動分類の方法において、有意検定を用いて前記有意味語句を選択することを特徴とする方法。
請求項１に記載のタスク自動分類の方法において、前記有意味語句間の変形尺度を用いて前記有意味語句をクラスタリングすることを特徴とする方法。
請求項３に記載のタスク自動分類の方法において、前記変形尺度は文字列の変形に基づくことを特徴とする方法。
請求項３に記載のタスク自動分類の方法において、前記変形尺度は意味的変形に基づくことを特徴とする方法。
請求項３に記載のタスク自動分類の方法において、前記変形尺度は文字列および意味的変形の組み合わせであることを特徴とする方法。
請求項１に記載のタスク自動分類の方法において、前記入力音声と任意の前記有意味語句クラスタの完全マッチングにより、前記入力音声中の前記有意味語句クラスタを検出することを特徴とする方法。
請求項１に記載のタスク自動分類の方法において、前記入力音声と任意の前記有意味語句クラスタの完全または近似マッチングにより、前記入力音声中の前記有意味語句クラスタを検出することを特徴とする方法。
請求項１に記載のタスク自動分類の方法において、前記タスク種類の分類結果が統計モデルを用いてランク付けされることを特徴とする方法。
請求項１に記載のタスク自動分類の方法において、前記タスク種類の分類を決定するためにさらにニューラルネットワークを用いることを特徴とする方法。
ユーザが自然に話した音声で表現される目的呼ルーティングに作用する呼種類自動分類の方法において、
文字化された複数の音声から有意味語句を選択し、
前記有意味語句の中から意味が類似している有意味語句を選択しクラスタリングして有意味語句クラスタを定義し、
入力音声に存在する前記有意味語句クラスタを検出し、
前記入力音声中に検出された有意味語句クラスタに基づき呼種類の分類を決定すること、
を特徴とする方法。
請求項１１に記載の呼自動分類の方法において、有意検定を用いて前記有意味語句を選択することを特徴とする方法。
請求項１１に記載の呼自動分類の方法において、前記有意味語句間の変形尺度を用いて前記有意味語句をクラスタリングすることを特徴とする方法。
請求項１３に記載の呼自動分類の方法において、前記変形尺度は文字列の変形に基づくことを特徴とする方法。
請求項１３に記載の呼自動分類の方法において、前記変形尺度は意味的変形に基づくことを特徴とする方法。
請求項１３に記載の呼自動分類の方法において、前記変形尺度は文字列および意味的変形の組み合わせであることを特徴とする方法。
請求項１１に記載の呼自動分類の方法において、前記入力音声と任意の前記有意味語句クラスタの完全マッチングにより、前記入力音声中の前記有意味語句クラスタを検出することを特徴とする方法。
請求項１１に記載の呼自動分類の方法において、前記入力音声と任意の前記有意味語句クラスタの完全または近似マッチングにより、前記入力音声中のクラスタを検出することを特徴とする方法。
請求項１１に記載の呼自動分類の方法において、前記タスク種類の分類結果が統計モデルを用いてランク付けされることを特徴とする方法。
請求項１１に記載の呼自動分類の方法において、前記タスク種類の分類を決定するためにさらにニューラルネットワークを用いることを特徴とする方法。
ユーザが自然に話した音声で表現される目的タスクに作用するタスク自動分類システムにおいて、
所定の目的タスク集合の一つに基づいてそれぞれの有意味語句を選択し、音声集合から複数の前記有意味語句を選択する有意味語句選択装置と、
前記有意味語句の中から意味が類似している有意味語句を選択しクラスタリングして有意味語句クラスタを定義する有意味語句クラスタリング装置と、
前記有意味語句クラスタリング装置によりクラスタリングされた前記有意味語句を一つの入力とし、ユーザの入力音声中の任意の前記有意味語句クラスタを検出する入力認識装置と、
検出された前記有意味語句クラスタの入力に応答して所定の目的タスク集合の一つに関して検出された前記有意味語句クラスタに基づき分類を決定する分類装置と、
を有することを特徴とするシステム。
請求項２１に記載のタスク自動分類システムにおいて、前記有意味語句選択装置は有意検定を用いて前記有意味語句を選択することを特徴とするシステム。
請求項２１に記載のタスク自動分類システムにおいて、前記有意味語句クラスタリング装置は前記有意味語句間の変形尺度を用いて前記有意味語句をクラスタリングすることを特徴とするシステム。
請求項２３に記載のタスク自動分類システムにおいて、前記変形尺度は文字列の変形に基づくことを特徴とするシステム。
請求項２３に記載のタスク自動分類システムにおいて、前記変形尺度は意味的変形に基づくことを特徴とするシステム。
請求項２３に記載のタスク自動分類システムにおいて、前記変形尺度は文字列および意味的変形の組み合わせであることを特徴とするシステム。
請求項２１に記載のタスク自動分類システムにおいて、前記入力認識装置は前記入力音声と任意の前記有意味語句クラスタの完全マッチングにより、前記入力音声中の前記有意味語句クラスタを検出することを特徴とするシステム。
請求項２１に記載のタスク自動分類システムにおいて、前記入力認識装置は前記入力音声と任意の前記有意味語句クラスタの完全または近似マッチングにより、前記入力音声中の前記有意味語句クラスタを検出することを特徴とするシステム。
請求項２１に記載のタスク自動分類システムにおいて、前記分類装置は統計モデルを用いてタスク種類の分類結果をランク付けすることを特徴とするシステム。
請求項２１に記載のタスク自動分類システムにおいて、前記分類装置はニューラルネットワークを用いて決定を下すことを特徴とするシステム。