JP4880258B2

JP4880258B2 - 信頼性スコアを使用した自然言語コール・ルーティングのための方法および装置

Info

Publication number: JP4880258B2
Application number: JP2005219753A
Authority: JP
Inventors: ダブリュ．エアハートジョージ; シー．マテュラヴァレンティー; スキバデーヴィット; ティソンナイム
Original assignee: アバイアインコーポレーテッド
Priority date: 2004-07-29
Filing date: 2005-07-29
Publication date: 2012-02-22
Anticipated expiration: 2025-07-29
Also published as: US20060025995A1; JP2006039575A; CA2508946C; CA2508946A1; DE102005029869A1

Description

本発明は、一般には、話された言葉や文章をいくつかの題目領域の１つに分類する方法およびシステムに関し、さらに詳細には、自然言語コール・ルーティング技術を使用して話し言葉を分類するための方法および装置に関する。

多くの企業では、通常、ＣＲＭ（ＣｕｓｔｏｍｅｒＲｅｌａｔｉｏｎｓｈｉｐＭａｎａｇｅｍｅｎｔ：カスタマー・リレーションシップ・マネジメント）の一部として、顧客との情報交換に連絡センターを採用している。ＩＶＲ（ｉｎｔｅｒａｃｔｉｖｅｖｏｉｃｅｒｅｓｐｏｎｓｅ：音声自動応答装置）などの、自動化システムがよく使用され、顧客に録音されたメッセージの形で情報が提供され、録音された質問に対しては、キーパッドや音声による応答を利用して顧客から情報を入手している。

顧客が企業に連絡をとる場合、ＮＬＣＲ（ＮａｔｕｒａｌＬａｎｇｕａｇｅＣａｌｌＲｏｕｔｉｎｇ：自然言語コール・ルーティング）システムなどの、分類システムがよく採用されおり、顧客から受信した、話された言葉や文章を、いくつかの題目領域やクラスの１つに分類する。話し言葉の場合、分類システムは最初に、よくＡＳＲ（ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｚｅｒ：自動音声認識機能）と呼ばれる、音声認識エンジンを使用して音声をテキストに変換する。いったん、その通話が特定の題目領域に分類されると、通話は必要に応じて、適切なコール・センター・エージェント、応答チーム、またはバーチャル・エージェント（セルフ・サービス・アプリケーションなど）にルーティングすることができる。たとえば、電話の質問は、エージェントの専門知識、技能、または能力に基づいて、自動的に所定のコール・センターにルーティングされる。

そのような分類システムはコール・センターの機能を非常に向上させたので、電話は自動的に適切な宛先にルーティングされるのに対し、ＮＬＣＲ技術はいくつかの制約に直面している。それらが克服されるなら、コール・センターのコール・ルーティング技術の効率性や正確性が非常に向上するはずである。特に、ＮＬＣＲアプリケーションのコール・ルーティング部分の正確さは、主に、自動音声認識モジュールの正確さに左右される。ほとんどのＮＬＣＲアプリケーションでは、自動音声認識機能の唯一の目的は、ユーザーが話した要求をテキストに筆記することで、その結果、ユーザーが希望する宛先は筆記されたテキストから決定される。自動音声認識機能を使って言葉を正確に認識する際の不確実さのレベルを考えると、通話が不正確に筆記され、電話をかけてきた人が誤った宛先にルーティングされる可能性も出てくる。
Ｂ．Ｃａｒｐｅｎｔｅｒ、Ｊ．Ｃｈｕ−Ｃａｒｒｏｌｌ、「ＮａｔｕｒａｌｌａｎｇｕａｇｅＣａｌｌＲｏｕｔｉｎｇ：ａＲｏｂｕｓｔ、Ｓｅｌｆ−ＯｒｇａｎｉｚｉｎｇＡｐｐｒｏａｃｈ、」ＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇについての国際会議の議事録（１９９８）Ｊ．Ｃｈｕ−Ｃａｒｒｏｌｌ、Ｒ．Ｌ．Ｃａｒｐｅｎｔｅｒ、「Ｖｅｃｔｏｒ−ＢａｓｅｄＮａｔｕｒａｌＬａｎｇｕａｇｅＣａｌｌＲｏｕｔｉｎｇ、」ＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ、ｖｏｌ．２５、ｎｏ．３、３６１〜３８８（１９９９）Ｖ．Ｍａｔｕｌａ、「ＵｓｉｎｇＮＬｔｏＳｐｅｅｃｈ−ＥｎａｂｌｅＡｄｖｏｃａｔｅａｎｄＩｎｔｅｒａｃｔｉｏｎＣｅｎｔｅｒ」、ＩｎＡＡＵ２００４、Ｓｅｓｓｉｏｎ６２４、２００３年３月１３日Ｊ．Ｃｈｕ−Ｃａｒｒｏｌｌ、Ｒ．Ｌ．Ｃａｒｐｅｎｔｅｒ、「Ｖｅｃｔｏｒ−ＢａｓｅｄＮａｔｕｒａｌＬａｎｇｕａｇｅＣａｌｌＲｏｕｔｉｎｇ」、ＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ、ｖｏｌ．２５、ｎｏ．３、３６１〜３８８（１９９９）Ｌ．Ｌｉ、Ｗ．Ｃｈｏｕ、「ＩｍｐｒｏｖｉｎｇＬａｔｅｎｔＳｅｍａｎｔｉｃＩｎｄｅｘｉｎｇＢａｓｅｄＣｌａｓｓｉｆｉｅｒｗｉｔｈＩｎｆｏｒｍａｔｉｏｎＧａｉｎ」、ＩＣＳＬＰ２００２議事録、２００２年９月Ｆａｌｏｕｔｓｏｓ、Ｄ．Ｗ．Ｏａｒｄ、「ＡＳｕｒｖｅｙｏｆＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌａｎｄＦｉｌｔｅｒｉｎｇＭｅｔｈｏｄ」、（１９９５年８月）

したがって、分類のエラーの可能性を低減化する、通話をルーティングするための改善された方法およびシステムの必要性がある。さらに、自動音声認識機能の不確実さ解消するために、通話をルーティングするための改善された方法およびシステムの必要性もある。

一般に、話し言葉を複数のカテゴリの少なくとも１つに分類するための、方法および装置が提供されている。話し言葉はテキストに変換され、信頼性スコアが変換の際に１つまたは複数の言葉に対して提供される。話し言葉は、（ｉ）話し言葉の変換の単語と少なくとも１つのカテゴリの単語の間との近似の程度および（ｉｉ）信頼性スコアに基づいて、少なくとも１つのカテゴリに分類される。たとえば、近似の程度は、前記話し言葉のクエリ・ベクトル表示と、前記複数のカテゴリのそれぞれとの間のコサイン類似度の大きさとすることができる。

スコアは、任意選択で、複数のカテゴリのそれぞれに対して生成され、そのスコアは話し言葉を少なくとも１つのカテゴリに分類するのに使用される。たとえば、複数語の単語の信頼性スコアは、複数語の単語の各語の信頼性スコアの相乗平均として計算することができる。
本発明および本発明の詳しい特徴や利点のさらに詳細な理解は、以下の詳細な説明および図面を参照することから得られる。

図１は、本発明が動作可能なネットワーク環境を例示している。図１に示すように、顧客は、電話１１０またはコンピュータ・デバイス（図示せず）を使い、企業により運営されているコール・センターなどの、連絡センター１５０に連絡する。連絡センター１５０には、図２Ａおよび図２Ｂに関連して以下で詳細に説明する、分類システム２００が含まれ、これは、通話をいくつかの題目領域またはクラス１８０−Ａから１８０−Ｎ（これ以降、まとめてクラス１８０と呼ぶ）の１つに分類するものである。たとえば、各クラス１８０は、特定のコール・センター・エージェントや応答チームと関連付けられていることがあり、その場合たとえば、通話は、エージェントやチームの専門知識、技能、または能力に基づいて、自動的に特定のコール・センター・エージェント１８０にルーティングされる場合がある。コール・センター・エージェントや応答チームは人間である必要がないことに留意されたい。他の変形形態の場合、分類システム２００は、別の人物、グループ、またはコンピュータ・プロセスによって、通話を、後段の処理のために適切な題目領域またはクラスに分類することができる。ネットワーク１２０は、公衆交換電話網、構内電話交換機、インターネット、またはセルラー・ネットワーク、および前述の何らかの組み合わせを含む、いずれかの専用または公衆の有線または無線ネットワークとして実施される場合がある。

図２Ａは、トレーニング・モードの従来の分類システム２００の概略ブロック図である。図２Ａで示しているように、分類システム２００は、種々の発呼者から収集し、あらかじめ筆記され、手作業でいくつかの題目領域の１つに分類される、サンプル応答のテキスト・バージョンが格納されているサンプル応答レポジトリ２１０を使用している。たとえば、サンプル応答レポジトリ２１０は、「何かお困りのことがありますか。」および観察された答えのそれぞれなどの、可能性のある質問と可能性のある関連した答えとのドメイン専用のコレクションとすることができる。図３に関連し以下で詳細に説明するように、サンプル応答レポジトリ２１０の応答のテキスト・バージョンは、トレーニング・モードの間にトレーニング・プロセス３００により自動的に処理され、統計ベースの自然言語コール・ルーティング・モジュール２５０が作成される。

図２Ｂは、ランタイム・モードの従来の分類システム２００の概略ブロック図である。ランタイムに新しい話し言葉２３０を受信すると、自動音声認識機能２４０がその話し言葉を筆記してテキスト・バージョンを作成し、トレーニング済みの自然言語コール・ルーティング・モジュール２５０が話し言葉を適切な宛先（たとえば、クラスＡからＮ）に分類する。自動音声認識機能２４０は、市販のいずれかの音声認識システムとして実施することができ、さらにそれ自体にトレーニングが必要な場合がある。このことは、当業者には明白なはずである。図４に関連して以下で詳細に説明するように、分類システム２００の従来の自然言語コール・ルーティング・モジュール２５０は、自動音声認識機能２４０により通知される信頼性スコアを搭載するように本発明により変更される。信頼性スコアは、コールのルーティングのために使われるクエリ・ベクトルの重みの再測定のために使用される。

本明細書で説明している例示的な実施形態では、ルーティングは、ＬＳＩ（ＬａｔｅｎｔＳｅｍａｎｔｉｃＩｎｄｅｘｉｎｇ：潜在的意味索引付け）を使用して実施され、これは、一般的な一連のベクトルベースの文書の分類器の１つである。ＬＳＩ技術は、この技術を実施する文書と単語の組を選び、単語と文書との行列を構築する。ここで、行列の行は、一意の単語を意味し、列は、それらの単語から構成される文書（カテゴリ）である。例示的な実施形態では、単語はｎグラムであり、ここでｎは１と３との間である。

一般的に、応答２１０の分類されたテキスト・バージョンは、トレーニング・プロセス３００で処理され、新しい話し言葉の分類に後で適用できるように、分類のパターンを探す。コーパス２１０の各サンプルは、話し言葉のルーティングの宛先に関して、手作業で「分類」される（すなわち、人間のエージェントが特定の質問に対するこの応答を聞く場合、この人間のエージェントがどこにコールをルーティングするかによる）。サンプル・テキストと分類とのコーパスは、トレーニング段階で分析され、話し言葉とクラスとを特徴付ける内部分類器データ構造が作成される。

たとえば、統計ベースの自然言語理解モジュール２５０の１つのクラスにおいて、自然言語理解モジュール２５０は、一般的に、基語のリストおよび基語が特定の宛先またはカテゴリ（たとえば、コール・センター・エージェント１８０）へルーティングされる必要性に対応した可能性（パーセント）を含む、基語リストから構成される。言い換えれば、「クレジット」や「クレジット・カードの支払い」などの各基語について、自然言語コール・ルーティング・モジュール２５０は、基語が特定の宛先にルーティングされる必要のある可能性（通常、パーセント・ベース）を指定する。

コール・ルーティングおよび自然言語理解モジュール２５０の構築に適した技術の詳細な説明については、たとえば、Ｂ．Ｃａｒｐｅｎｔｅｒ、Ｊ．Ｃｈｕ−Ｃａｒｒｏｌｌ、「ＮａｔｕｒａｌｌａｎｇｕａｇｅＣａｌｌＲｏｕｔｉｎｇ：ａＲｏｂｕｓｔ、Ｓｅｌｆ−ＯｒｇａｎｉｚｉｎｇＡｐｐｒｏａｃｈ、」ＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇについての国際会議の議事録（１９９８）、Ｊ．Ｃｈｕ−Ｃａｒｒｏｌｌ、Ｒ．Ｌ．Ｃａｒｐｅｎｔｅｒ、「Ｖｅｃｔｏｒ−ＢａｓｅｄＮａｔｕｒａｌＬａｎｇｕａｇｅＣａｌｌＲｏｕｔｉｎｇ、」ＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ、ｖｏｌ．２５、ｎｏ．３、３６１〜３８８（１９９９）、またはＶ．Ｍａｔｕｌａ、「ＵｓｉｎｇＮＬｔｏＳｐｅｅｃｈ−ＥｎａｂｌｅＡｄｖｏｃａｔｅａｎｄＩｎｔｅｒａｃｔｉｏｎＣｅｎｔｅｒ」、ＩｎＡＡＵ２００４、Ｓｅｓｓｉｏｎ６２４、２００３年３月１３日を参照されたい。おのおのは参照として本明細書に組み込まれている。

図３は、分類器２００の前処理およびトレーニングを行う、従来のトレーニング・プロセス３００を例示する概略ブロック図である。図３で示しているように、サンプル応答レポジトリ２１０で分類された話し言葉は、文書構築段階３１０で処理され、トピック３２０−１から３２０−Ｎの種々のＮ個のトピックに対するテキストが特定される。段階３３０で、トピック３２０−１から３２０−Ｎまでのテキストが処理され、基語形式が作成され、無視語や不要語（「ａｎｄ」または「ｔｈｅ」など）が削除され、このようにして、トピック３４０−１から３４０−Ｎまでのフィルタリング済みテキストが作成される。フィルタリング済みテキストからの単語は、段階３５０で処理され、一意の単語が抽出され、３６０−１から３６０−Ｎまでの各トピックの主要な単語が取得される。

３６０−１から３６０−Ｎまでの各トピックの主要な単語は、段階３７０で処理され、単語と文書との行列（ＴｘＤ行列）が作成される。次に段階３８０で、単語と文書との行列は、ＳＶＤ（ＳｉｎｇｕｌａｒＶａｌｕｅＤｅｃｏｍｐｏｓｉｔｉｏｎ：特異値分解）を使用して文書（カテゴリ）および単語の行列に分解される。

単語と文書との行列Ｍ｛ｉ，ｊ｝（ｊ番目のカテゴリの下のｉ番目の単語に対応）において、各入力には、ＴＦｘＩＤＦ（ｔｅｒｍｆｒｅｑｕｅｎｃｙとｉｎｖｅｒｓｅｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙの積）に基づき重みが割り当てられる。ＳＶＤ（ＳｉｎｇｕｌａｒＶａｌｕｅＤｅｃｏｍｐｏｓｉｔｉｏｎ）は、行列Ｍを分解することによって文書空間のサイズを削減し、その結果、ｉ番目の単語の単語ベクトル、Ｔ｛ｉ｝、およびｉ番目のカテゴリ・ベクトル、Ｃ｛ｉ｝、が作成され、これらはまとめられ、検索の際に使用される文書ベクトルが形成される。ＬＳＩルーティング技術の詳しい説明については、たとえば、Ｊ．Ｃｈｕ−Ｃａｒｒｏｌｌ、Ｒ．Ｌ．Ｃａｒｐｅｎｔｅｒ、「Ｖｅｃｔｏｒ−ＢａｓｅｄＮａｔｕｒａｌＬａｎｇｕａｇｅＣａｌｌＲｏｕｔｉｎｇ」、ＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ、ｖｏｌ．２５、ｎｏ．３、３６１〜３８８（１９９９）、Ｌ．Ｌｉ、Ｗ．Ｃｈｏｕ、「ＩｍｐｒｏｖｉｎｇＬａｔｅｎｔＳｅｍａｎｔｉｃＩｎｄｅｘｉｎｇＢａｓｅｄＣｌａｓｓｉｆｉｅｒｗｉｔｈＩｎｆｏｒｍａｔｉｏｎＧａｉｎ」、ＩＣＳＬＰ２００２議事録、２００２年９月、およびＦａｌｏｕｔｓｏｓ、Ｄ．Ｗ．Ｏａｒｄ、「ＡＳｕｒｖｅｙｏｆＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌａｎｄＦｉｌｔｅｒｉｎｇＭｅｔｈｏｄ」、（１９９５年８月）を参照されたい。

コールを分類するため、発呼者の話した要求が、ＡＳＲエンジン２４０でテキストに筆記される（エラーも含まれる）。テキストの筆記は擬似的文書で、これから最も主要な単語が抽出され、クエリ・ベクトル、Ｑ（すなわち、クエリ・ベクトルを構成する単語ベクトルの合計）が形成される。分類器は、クエリ・ベクトル、Ｑ、と各宛先、Ｃ｛ｉ｝、との間のコサイン類似度、すなわち、ｃｏｓ（Ｑ，Ｃ｛ｉ｝）を測定する近似行列を使用して、擬似的文書にコールの宛先を割り当てる。一実施形態では、ｓｉｇｍｏｉｄ関数によりコサイン値がルーティング対象の宛先に適合される。コサイン類似度の計算により、かなり正確な結果が生成されるが、このｓｉｇｍｏｉｄ関数による適合は、コサイン値では正確なルーティングの決定が行えないが、そのカテゴリが可能性のある候補のリスト内に表示されているような場合に必要である。

分類器が単語を話し言葉の周波数に基づいて選択するＮＬＣＲのＬＳＩの初期の実施形態とは異なり、最近の実施形態では、単語と文章との行列から利用可能な単語の主要な点は、情報の理論的大きさを計算することによって取得される。この大きさは、ＩＧ（ＩｎｆｏｒｍａｔｉｏｎＧａｉｎ：情報利得）として知られており、特定の言葉が存在または不存在であるとする場合に、１つのカテゴリに関して得られる確かさの程度である。Ｌｉ、Ｃｈｏｕ２００２年を参照されたい。一連のトレーニング・データの単語に対してこのような大きさを計算することにより、単語と文書との行列に投入するための一連の高度に特徴的な単語が作成される。ＩＧで機能が強化された、ＬＳＩベースのＮＬＣＲは、ユーザーの要求とコール・カテゴリとの間のコサイン類似度の計算の観点からは、単語カウントを使うＬＳＩと類似しているが、ＩＧを介して選択された単語を使うＬＳＩ分類器は、可能性のある発呼者の宛先につながる、一連のより識別を可能にする単語を選択することによって、正確さおよび呼び戻しの点でエラーの量が少なくなる。

本発明は、分類器が単語カウントに基づくまたは情報利得に基づく単語と文章との行列で保持される単語を選択するかどうかに関係なく、標準的なＬＳＩベースのクエリ・ベクトル分類プロセスでは使用されていないが、ＡＳＲプロセス２４０から利用可能な他の情報があると認識している。ＡＳＲプロセス２４０は、通常、話し言葉の１つまたは複数の単語を誤認識するが、このことは後段の分類に悪影響を及ぼす場合がある。標準的なＬＳＩ分類プロセス（単語の選択方法に無関係）は、ＡＳＲから提供される情報を利用せず、ただ単に、話し言葉のテキスト筆記だけを利用する。このことは、特にＩＧベースのＬＳＩ分類器が使用されている場合には、危険をはらむ問題である。それは、単語選択プロセスが、最終的なルーティングの決定に際して、最高の情報内容や潜在的な影響力でもって単語の選択を試みるためである。それらの単語のいずれかを誤認識すると、ルーティング中の発呼者を誤った宛先に導くことになりかねない。

市販されているほとんどのＡＳＲエンジンは、オンラインＮＬＣＲアプリケーションにメリットをもたらす可能性がある単語レベルでの情報を提供する。詳細には、エンジンは認識したそれぞれの単語の信頼性スコアを、たとえば、０から１００までの間の値で返す。ここで、０はその単語が正確であるという信頼性がまったくないことを意味しており、１００は、その単語が正確に筆記されているという最高レベルの確実性を表示するものである。この追加情報をＡＳＲプロセスから分類プロセスに取り入れる手段として、信頼性スコアおよび単語ベクトルの値が高い単語の方が、信頼性スコアおよび単語ベクトルの値が低い単語よりも、最終的な選択に影響を及ぼすはずであるという想定で、信頼性スコアは各単語ベクトルの大きさおよび方向に影響を及ぼすために使用される。

ＡＳＲ２４０によって生成される信頼性スコアは、通常、百分率の形で表示される。したがって、この例示的な実施形態では、以下のように１つの単語を含む信頼性スコアの相乗平均、Ｇ、が使用され、これは最大でも３つの単語の長さを持つｎグラムとすることができる。

ここで、ｎグラムで構成される単語の相乗平均は、その単語に存在する各語の信頼性スコアの積のｎ乗根である。

１つの単語を含む信頼性スコアの相乗平均が計算されると、次に、異なる信頼性スコアである２つの単語が同じ平均を持つことが可能になる。たとえば、一方の単語が、その各語に５０の信頼性スコアを有する２語句から構成され、もう一方の単語には、１つの語が９０の信頼性スコアで、もう１つの語が１０の信頼性スコアを有する２語句があるとする。次に、両方の単語は、同じ相乗平均を持つので、その結果、クエリ・ベクトルに対する貢献度は不明瞭になってしまう。

相乗平均を使用すると、信頼性スコアに単語ベクトルＴ｛ｉ｝の値を掛けることによって、新しい単語ベクトルＴ’｛ｉ｝を求めることができる。最終的に、筆記された話し言葉の単語ベクトル全体を合計することによって、以下のように、クエリ・ベクトルＱが求められる。

この計算の後の手順は、従来の方法と同じである。クエリ・ベクトルＱを取得し、クエリ・ベクトルＱと各ルーティング対象の宛先とのコサイン類似度を測定し、降順で候補のリストを返す。

ＡＳＲ２４０およびＬＳＩ分類器２５０のトレーニング
前述のように、トレーニング段階は、音声認識機能２４０のトレーニングとコール分類器２５０のトレーニングとの２つの部分から構成されている。音声認識機能２４０は、テキスト筆記を作成するために、統計的な言語モデルを利用する。これは、発呼者の話し言葉を手作業で筆記したものでトレーニングされたものである。いったん、ＡＳＲエンジン２４０が認識に使用するために統計的な言語モデルが取得されたなら、これと同じ一連の発呼者の話し言葉の筆記が、ＬＳＩ分類器２５０をトレーニングするために使用される。各話し言葉の筆記には、対応するルーティング場所（または文書クラス）が割り当てられている。

認識機能２４０および分類器２５０の両方に対応する形式間で変換する代わりに、トレーニング・テキストを市販されているＡＳＲエンジン２４０に準拠している形式のままにしておくことができる。したがって、音声認識機能２４０をフォーマットする要件が使用され、前処理段階において手作業で取得されたテキストが実行される。同じ一連のテキストは、音声認識機能２４０およびルーティング・モジュール２５０の両方に対しても使用することができる。トレーニング・テキストが準備されると、次に、それらはＬＳＩ分類器に入力され、最終的に、（前節で説明したとおり）比較に使用可能なベクトルが作成される。

ルーティング・モジュール２５０のトレーニング段階３００の際、照合プロセスによって、各話し言葉に手作業で割り当てられてトピックの正確さが確保される。最後に、１つの話し言葉をトレーニングの組から削除し、テストに使用できるようにすることができる。割り当てられたカテゴリと結果として得られたカテゴリとの間に何らかの矛盾がある場合、確実に正確な結果を得るために、割り当てられたカテゴリを変更したり（不正確なため）、そのカテゴリの話し言葉を追加したりして、その矛盾点を解消することができる。

図４は、本発明の特徴を組み込んだ分類プロセス４００の、例示的実施形態を説明する流れ図である。図４で示しているように、ステップ４１０で、分類プロセス４００は、最初に、話し言葉の各単語に対して単語ベクトル、Ｔ｛ｉ｝、を生成する。その後、ステップ４１５で、各単語ベクトル、Ｔ｛ｉ｝、は、対応する単語の信頼性スコアに基づいて変更され、一連の変更された単語ベクトル、Ｔ’｛ｉ｝、を作成する。この例示的実施形態では、「クレジット・カード・アカウント」などの、複数の語からなる単語に対する信頼性スコアは、各個別の単語の信頼性スコアの相乗平均であることに留意されたい。他の変形形態も可能であるが、それらは当業者にとって明らかなはずである。複数の語からなる単語の相乗平均は、クエリ・ベクトルに対する貢献度を反映するものとしても使用される。

ステップ４２０で、分類対象の話し言葉に対するクエリ・ベクトル、Ｑ、が、変更された単語ベクトル、Ｔ’｛ｉ｝の合計として生成される。その後、ステップ４３０で、各カテゴリ、ｉ、に対し、コサイン類似度が、クエリ・ベクトル、Ｑ、と文書ベクトル、Ｃ｛ｉ｝との間で測定される。当業者には明らかなはずのとおり、ＥｕｃｌｉｄｉａｎおよびＭａｎｈａｔｔａｎ距離行列などの、類似度を測定するための他の方法も使用することができることを留意されたい。ステップ４４０で、最大スコアを持つカテゴリ、ｉ、が適切な宛先として選択され、それからプログラム制御が終了する。

当技術分野で知られているように、本明細書で説明した方法および装置は、コンピュータが読み取り可能なコード手段をその上に搭載した、コンピュータが読み取り可能な媒体をそれ自体が含む、製品の一商品として頒布することができる。コンピュータが読み取り可能なプログラム・コード手段は、コンピュータ・システムと共に動作して、本明細書で説明した方法を行ったり、装置を作成したりするため、工程のすべてまたはいくつかを実行することができる。コンピュータが読み取り可能な媒体は、書き込み可能な媒体（たとえば、フロッピー（登録商標）・ディスク、ハード・ドライブ、コンパクト・ディスク、またはメモリ・カード）、または伝送媒体（たとえば、光ファイバを含むネットワーク、ワールドワイド・ウェブ、ケーブル、あるいは時分割多重アクセス、符号分割多重アクセスまたは他の無線周波数チャネルを使用する無線チャネル）とすることができる。コンピュータ・システムでの使用に適した情報を格納することができる、任意の知られているまたは開発された媒体を使用することができる。コンピュータが読み取り可能なコード手段は、コンピュータに命令やデータの読み取りを可能にする任意のメカニズムで、たとえば、磁気媒体には磁気的な変形形態があり、コンパクト・ディスクの表面には高さの変形形態がある。

本明細書で説明したコンピュータ・システムおよびサーバーには、それぞれ、本明細書で開示した方法、工程、および機能を実施するために、関連するプロセッサを構成するメモリが含まれている。そのメモリは割り当て式でも、ローカルのものでも使用可能で、プロセッサも割り当て式でも、個別のものでも使用可能である。メモリは、電気、磁気、または光のメモリ、あるいはこれらまたは他のタイプの記憶デバイスのいずれかの組み合わせとして実施することができる。さらに、「メモリ」という言葉は、十分広い意味に解釈されるべきであり、関連するプロセッサがアクセスするアドレス指定が可能なアドレスに対して、読み出しまたは書き込みが可能なあらゆる情報を含む。この定義を適用すると、ネットワーク上の情報も、なおメモリ内にある。それは、関連プロセッサがネットワークから情報を検索することができるからである。

本明細書で提示および説明した実施形態および変形形態は、本発明の原理を単に例示したに過ぎず、本発明の範囲および趣旨を逸脱することなく、当業者により種々の変更形態を実施することが可能であることを理解されたい。

本発明が動作可能なネットワーク環境を示す図である。トレーニング・モードの従来の分類システムの概略ブロック図である。ランタイム・モードの従来の分類システムの概略ブロック図である。図２Ａの分類器の前処理およびトレーニングを行う、従来のトレーニング・プロセスを示す概略ブロック図である。本発明の特徴を組み込んだ分類プロセスの、例示的実施形態を説明する流れ図である。

Claims

話し言葉を複数のカテゴリの少なくとも１つに分類する方法であって、
前記話し言葉のテキストへの変換を取得するステップと、
前記変換の１つまたは複数の単語に関連付けられた信頼性スコアを取得するステップと、ここで、前記信頼性スコアが、前記変換の前記１つまたは複数の単語の信頼度を指示し、
（ｉ）前記話し言葉の前記変換の単語と前記少なくとも１つのカテゴリの単語との近似の程度、および（ｉｉ）前記信頼性スコアに基づいて、前記話し言葉を少なくとも１つのカテゴリに分類するステップとからなり、
前記近似の程度が、前記話し言葉の単語ベクトルの合計であるクエリ・ベクトル表示と前記複数のカテゴリのそれぞれとの間のコサイン類似度の大きさであり、
前記クエリ・ベクトル表示が前記信頼性スコアによることを含む方法。
前記分類するステップが、単語ベクトルの値による基語のリスト、および前記基語が前記複数のカテゴリの特定の１つにルーティングされることの必要性に対応した可能性を前記単語ベクトルの値によって決定する基語リストを使用する、請求項１に記載の方法。
前記分類するステップが、前記複数のカテゴリのそれぞれに対してスコアを生成する工程をさらに含む、請求項１に記載の方法。
前記変換の１つまたは複数の単語に対する前記信頼性スコアが、前記話し言葉の各単語に対する信頼性スコアを含む、請求項１に記載の方法。
話し言葉を複数のカテゴリの少なくとも１つに分類するためのシステムであって、該システムは、
メモリと、
該メモリに結合された、前記話し言葉のテキストへの変換を取得し、
前記変換の１つまたは複数の単語に関連付けられた信頼性スコアを取得し、ここで、前記信頼性スコアが、前記変換の前記１つまたは複数の単語の信頼度を指示し、
（ｉ）前記話し言葉の前記変換の単語と前記少なくとも１つのカテゴリの単語との近似の程度、および（ｉｉ）前記信頼性スコアに基づいて、前記話し言葉を少なくとも１つのカテゴリに分類するよう動作する、少なくとも１つのプロセッサとからなり、
前記近似の程度が、前記話し言葉の単語ベクトルの合計であるクエリ・ベクトル表示と前記複数のカテゴリのそれぞれとの間のコサイン類似度の大きさであり、
前記クエリ・ベクトル表示が前記信頼性スコアによることを備えるシステム。
前記プロセッサが、単語ベクトルの値による基語のリスト、および前記基語が前記複数のカテゴリの特定の１つにルーティングされることの必要性に対応した可能性を前記単語ベクトルの値によって決定する基語リストを使用するようにさらに構成されている、請求項５に記載のシステム。
前記プロセッサが、前記複数のカテゴリのそれぞれに対するスコアを生成するようさらに構成されている、請求項５に記載のシステム。
前記プロセッサが、前記複数のカテゴリの単語ベクトルの値による順序付きリストを生成するようさらに構成されている、請求項５に記載のシステム。