JP2013519152A

JP2013519152A - テキスト分類の方法及びシステム

Info

Publication number: JP2013519152A
Application number: JP2012551962A
Authority: JP
Inventors: シアンソン
Original assignee: アリババグループホールディングリミテッド
Priority date: 2010-02-02
Filing date: 2010-11-02
Publication date: 2013-05-23
Anticipated expiration: 2030-11-02
Also published as: EP2531907A4; EP2531907A1; US20120288207A1; WO2011096969A1; WO2011096969A9; US8478054B2; CN102141978A; JP5792747B2

Abstract

本開示は、改良された分類精度を有して、簡略化されたテキスト分類を開示する。複数の単語を得るように受け取られたテキストの内容を分割する。ベクトル空間群の第１レベルのベクトル空間にて複数の単語の単語ベクトルの合計を決定する。ベクトル空間群のベクトル空間は、クラス木構造の非葉の子クラスである１以上の直接的な子クラスで構成されている。単語ベクトルの合計に対して最短距離を有する第１レベルのベクトル空間の様々なクラスにおけるクラスにテキストを分類する。

Description

（関連出願への相互参照）
本願は、２０１０年２月２日出願、発明の名称「テキスト分類の方法及びシステム」の中国特許出願第２０１０１０１１１３６５．３号の優先権を主張し、その全体を本明細書に援用する。

本開示はコンピュータ及びコミュニケーション分野に関し、特にテキスト分類の方法及びシステムに関する。

テキスト分類はテキストマイニングの重要な一面である。テキストマイニングとは、所定の対象の分類クラスに従って設定されたテキストにおける各テキストの分類を言う。自動テキスト分類システムを用いたテキストの分類によって、ユーザが必要な情報と知識をより上手く位置付けできる。ユーザの観点からすると、分類とは、基本的に文章の情報を認識することである。従来のテキスト分類技術では、公正な分類結果が提供されてきた。しかしながら、文章の情報の利用可能性の増加、特にインターネット上のオンライン文章の情報の急激な増加に従い、自動テキスト分類は、大量のテキストデータの処理と組織化用の主要技術になってきている。現在、テキスト分類は、多様な分野で広く用いられている。文章の情報量の増加に伴って、ユーザは、テキスト分類により高い精度と完全性を求めるようになってきた。したがって、テキスト分類技術の改良の必要性も増してきている。しかしながら、実効性のあるテキスト分類技術の定式化は、テキストマイニングの研究の活動領域のままである。

そこで、本開示は、テキストのテキスト分類の方法及びシステムを提供することを目的とする。また、本方法及びシステムは、精度を向上でき、かつテキスト分類のプロセスを簡略化できる。

一態様では、テキスト分類用の方法が、受け取られたテキストの内容を複数の単語に分割することを含む。第１レベルのベクトル空間にて複数の単語の複数の単語ベクトルの合計を決定する。第１レベルのベクトル空間は、複数のベクトルを含むベクトル空間群の一部である。複数のベクトル空間の少なくとも１つは、木構造の葉の子クラスである１以上の直接的な子クラスを含む。単語ベクトルの合計に対して最短距離を有する複数のクラスにおけるクラスにテキストを分類する。

別の態様では、テキスト分類用の装置が、受け取られたテキストの内容を複数の単語に分割する分割モジュールを含む。この装置は、第１レベルのベクトル空間にて複数の単語の複数の単語ベクトルの合計を決定する計算モジュールを更に含む。第１レベルのベクトル空間は、複数のベクトルを含むベクトル空間群の一部である。複数のベクトル空間の少なくとも１つは、木構造の葉の子クラスである１以上の直接的な子クラスを含む。また、この装置は、単語ベクトルの合計に対して最短距離を有する複数のクラスにおけるクラスにテキストを分類する計算モジュールを含む。

さらに別の態様では、受け取られたテキストのテキスト内容を複数の単語を得るように分割する。次に、ベクトル空間群の第１レベルのベクトル空間にて複数の単語の単語ベクトルの合計を得る。その後、テキストの単語ベクトルの合計に対して最短距離を有する第１レベルのベクトル空間のクラスにおけるクラスにテキストを分類する。したがって、このような実施形態では、第１レベルのベクトル空間から開始するトップダウン分類方法が実行される。さらに、総計算量は、上位から下位までの経路でのベクトル空間のすべての次元の合計に等しい。

これに対し、従来のテキスト分類技術は、テキストを分類する葉の子クラスを含むベクトル空間のみを用いる。言い換えれば、従来のテキスト分類技術は、テキスト分類に親クラスを用いない。その代わりに、従来のテキスト分類技術は、テキスト分類用の葉の子クラスに関連したベクトル空間のみをテキスト分類に使用できる。

よって、従来のテキスト分類技術は、初めに、多数の分類クラスを予め形成し、統計と学習アルゴリズムを用いて、各クラスでの一組の単語の各々について単語頻度値を決定することを含み得る。次に、受け取られたテキストの内容を複数の単語を得るように分割する。さらに、従来の分類の技術は、各分類クラスに関し、各クラスにて複数の単語のうちの１以上の単語の単語頻度値の合計を計算し得る。したがって、最大の合計を有する分類クラスが、テキスト用の分類クラスとなる。

１つのクラスしかないか、或いは親クラスが１つの子クラスのみを有するときに、本明細書に記載した実施形態の総計算量（すなわち、上位から下位までの経路でのベクトル空間の次元の合計）は、従来の技術を用いたテキスト分類の総計算量（すなわち、すべての葉クラスの次元）より多くなり得る。しかしながら、テキスト分類では、１つのクラスしかないか、或いは親クラスが１つの子クラスのみを有するケースはあり得ない。これは、テキスト分類の実際の適用は、一般にこのような分類スキームを用いないためである。よって、本明細書に記載した実施形態に用いた計算量は、従来のテキスト分類技術で用いた計算量より少なくなる。さらに、本明細書に記載した実施形態での各ベクトル空間の次元は、従来のテキスト分類技術で用いるものよりはるかに少ない。したがって、本明細書に記載した実施形態を用いることで、テキスト分類におけるエラーを低減でき、テキスト分類の精度を向上できる。

現在の技術を用いたテキスト分類の図を示す。様々な実施形態に係るテキスト分類用の例示的な装置の図を示す。様々な実施形態に係るテキスト分類用の例示的な装置の詳細図を示す。様々な実施形態に係る例示的な計算モジュールの図を示す。様々な実施形態に係る例示的なベクトル空間を示す。様々な実施形態に係る例示的なテキスト分類プロセスのフローチャートを示す。様々な実施形態に係る第１のフィルタリング閾値例によってテキストをフィルタにかける例示的なテキストフィルタリングプロセスのフローチャートを示す。様々な実施形態に係る第２のフィルタリング閾値例によってテキストをフィルタにかける例示的なテキストフィルタリングプロセスのフローチャートを示す。様々な実施形態に係る第１のフィルタリング閾値例と第２のフィルタリング閾値例によってテキストをフィルタにかける例示的なテキストフィルタリングプロセスのフローチャートを示す。

本明細書に記載した実施形態は、テキスト分類用のシステム及び方法に関する。このような実施形態では、テキスト分類に用いる各ベクトル空間が、非葉の子クラスである直接的な子クラスを有するクラス木構造を含んでいてもよい。第１レベルのベクトル空間は、クラス木構造の最上位レベルのクラスで構成されている。さらに、所定数のベクトル空間は、ベクトル空間群を構成していてもよい。各ベクトル空間の次元数は、各ベクトル空間のクラス数に等しい。

幾つかの実施形態では、受け取られたテキストのテキスト内容を複数の単語を得るように分割する。次に、ベクトル空間群の第１レベルのベクトル空間にて複数の単語の単語ベクトルの合計を得る。その後、テキストの単語ベクトルの合計に対して最短距離を有する第１レベルのベクトル空間のクラスにおけるクラスにテキストを分類する。したがって、このような実施形態では、第１レベルのベクトル空間から開始するトップダウン分類方法が実行される。さらに、総計算量は、上位から下位までの経路でのベクトル空間のすべての次元の合計に等しい。

しかしながら、図１に示す状況が起こり得る。図１に示すように、四角ＡとＢが２つのクラスを表す。四角Ａ１とＡ２がクラスＡ下の２つの子クラスを表し、四角Ｂ１とＢ２がクラスＢ下の２つの子クラスを表す。さらに、各四角の数は、相当する各クラスでの特定の単語の単語頻度値を表す。従来のテキスト分類技術を用いると、特定の単語を含むテキストは、子供分類クラスＢ１に分類される傾向にある。しかしながら、特定の単語は、子クラスに関してはＢ１で最大の単語頻度値を有するものの、クラスＡでの特定の単語の単語頻度値の方が、クラスＢでの単語頻度値よりはるかに大きい。そのため、特定の単語を含むテキストをクラスＡかクラスＡ１に分類する方が、より適切である。

したがって、従来のテキスト分類技術を用いるテキスト分類は、十分には正確でない。また、多くのクラスがあるときに、各クラスでの複数の単語の単語頻度値の合計を計算する計算量は膨大であって、テキスト分類エラーを著しく増大させ得る。

図２に、様々な実施形態に係るテキスト分類用の例示的な装置の図を示す。図２に示すように、テキスト分類用の装置は、分割モジュール２０１、計算モジュール２０２、及び分類モジュール２０３を少なくとも含む。

分割モジュール２０１は、受け取られたテキストの内容を複数の単語に分割するための手段である。

計算モジュール２０２は、ベクトル空間群の第１レベルのベクトル空間にて複数の単語の単語ベクトルの合計を決定するための手段である。第１レベルのベクトル空間は、クラス木構造の最上位レベルのクラスで構成されている。ベクトル空間群は、すべてのベクトル空間で構成されているとともに、クラス木構造の非葉の子クラスである１以上の直接的な子クラスで構成された少なくとも１つのベクトル空間を含んでいてもよい。

各単語ベクトルは、ベクトル空間のあらゆるクラスに相当する単語の単語頻度ベクトルを含む。各単語頻度ベクトルは、クラスでの相当単語の単語頻度統計量であり、この単語頻度統計量は、クラスでの相当単語の単語頻度統計量の量子化の後に得てもよい。様々なクラス各々での単語の単語頻度統計量の量子化中に、量子化は、１つのプリセットデフォルト量子化機能又は複数の異なったプリセット量子化機能を用いてもよい。

分類モジュール２０３は、第１レベルのベクトル空間の様々なクラスにおけるクラスにテキストを分類するための手段であり、このクラスは、テキストの単語ベクトルの合計に対して最短距離を有する。

分類プロセスを簡略化するために、計算モジュール２０２は、第１レベルのベクトル空間にて複数の単語の各々に関する単語ベクトル成分の合計（すなわち、各単語に関する様々なクラスでの単語頻度ベクトルの合計）を決定してもよい。分類モジュール２０３は、単語ベクトル成分の最大の合計に相当するクラスにテキストを分類する。たとえば、ベクトル空間の単語の単語ベクトルをＷｍｎ＝｛Ｖｍｎ１、Ｖｍｎ２、…、ＶｍｎＮ｝と表してもよく、ここで、Ｖｉはベクトル空間のクラスＣｉ（ｉ＝１からＮ）での単語頻度ベクトルと表してもよく、Ｎはベクトル空間のクラスの総数を表してもよく、ｍはｍ番目の単語を表してもよく、ｎはｎ番目のベクトル空間を表してもよい。したがって、テキストＤとクラスＣｉとの距離がΣＷｍｎとクラスＣｉとの距離であってもよく、この距離は、距離＝ΣＷｍｎ−Ｃｉ＝｛ΣＶｎ１、ΣＶｎ２、…、ΣＶｎＮ｝−Ｃｉと表してもよい。

幾つかの実施形態では、図３を参照すると、装置はインタフェースモジュール２０４、構成モジュール２０５、保存モジュール２０６、及びフィルタリングモジュール２０７も含んでいてよい。

インタフェースモジュール２０４はテキストを取得するための手段である。インタフェースモジュール２０４は、分類されるテキストを装置外で得るように有線又は無線の方法を用いてもよい。

構成モジュール２０５は、ベクトル空間群を構成するための手段である。様々な実施形態では、クラス木構造を予め形成してもよい。構成モジュール２０５は、クラス木構造の各非葉のサブクラスに関するベクトル空間を構成する。各ベクトル空間の次元は、各ベクトル空間の直接的な子クラス（再帰的な子クラスを除く）の数である。各ベクトル空間の要素は、直接的な子クラスの各単語の単語頻度ベクトル（特に、統計により取得可能な単語頻度値の単語頻度統計量又は量子化）を含んでいてもよい。統計によって、又は親クラスの直接的な子クラスでの単語の単語頻度ベクトルの合計を得ることによって、親クラスでの単語の単語頻度ベクトルを独立して計算してもよい。構成モジュール２０５は、すべてのベクトル空間をベクトル空間群に組み合わせる。ベクトル空間群における空間の数は、すべての非葉の子クラスの数に等しい。ベクトル空間群の次元は、すべてのベクトル空間の次元の合計に等しい。特に、例えば、Ｎ個の非葉の子クラスＣ１、Ｃ２、…、ＣＮがあってもよい。各非葉の子クラスＣｉは、Ｍｉ個の直接的な子クラスＣｉ１、Ｃｉ２、…、ＣｉＭｉを含んでいてもよい。各非葉の子クラスＣｉについて、そのベクトル空間をＳｉ＝｛Ｃｉ１、Ｃｉ２、…、ＣｉＭｉ｝と表してもよく、ここでのベクトル空間の次元はＭに等しい。ベクトル空間群をＧ＝｛Ｓ１、Ｓ２、…、ＳＮ｝と表してもよく、ここでのベクトル空間群の次元はＮに等しく、Ｎ＝ΣＭｉであって、実際（ルートクラスが頻繁にあるというわけではないとき）は、すべてのクラス数Ｍ−１の数に等しい。

保存モジュール２０６は、ベクトル空間群を保存して、クラス単位でテキストを保存するための手段である。

フィルタリングモジュール２０７は、フィルタにかけられた複数の単語を得るように得られた複数の単語をフィルタにかけるための手段である。図４を参照すると、フィルタリングモジュール２０７は、第１のフィルタリングユニット４０１、第２のフィルタリングユニット４０２、及び第３のフィルタリングユニット４０３を含む。

第１のフィルタリングユニット４０１は、第１レベルのベクトル空間のクラスでの単語の単語頻度ベクトルの平均値が所定の第１のフィルタリング閾値より高いかどうかを決定するように、第１レベルのベクトル空間のクラスにある各単語を対象とする。そのため、このような実施形態では、計算モジュール２０２は、第１レベルのベクトル空間での第１のフィルタリング閾値より高い平均値を有する単語の単語ベクトルの合計を決定するように代替的に構成していてもよい。たとえば、第１のフィルタリング閾値は、総単語コーパス数の１０万分の１であってもよい。

第２のフィルタリングユニット４０２は、単語の単語頻度ベクトルの最大値が所定の第２のフィルタリング閾値より高いかどうかを決定するように、第１レベルのベクトル空間のクラスにある各単語を対象とする。そのため、このような実施形態では、計算モジュール２０２は、第１レベルのベクトル空間での第２のフィルタリング閾値より高い単語頻度ベクトルの最大値を有する単語の単語ベクトルの合計を決定するように代替的に構成していてもよい。たとえば、第２のフィルタリング閾値は、総単語コーパス数の１０万分の１であってもよい。

第３のフィルタリングユニット４０３は、第１レベルのベクトル空間での単語の分散係数を得て、各分散係数が所定の分散係数閾値（０．５など）より高いかどうかを決定するように、各単語を対象とする。そのため、このような実施形態では、計算モジュール２０２は、第１レベルのベクトル空間での分散係数閾値より高い分散係数を有する単語の単語ベクトルの合計を決定するように代替的に構成していてもよい。分散係数によって、様々なクラス間での単語頻度の変化がほとんどない単語（例えば、「あなた」又は「私」の単語頻度は様々なクラスにおいて基本的に同一である）をフィルタにかけて除去してもよい。また、様々なクラス間での単語頻度の変化が著しい単語（用語関連の特定のクラスでの単語頻度値が他のクラスでの単語頻度値より明らかに高い用語など）は保持される。様々なクラス間での単語頻度の変化が著しい単語は、１以上のクラスで出現してもよい。このような単語は、他の単語よりテキスト分類の精度に更に寄与できる。このように、本明細書に記載した実施形態は、このような単語を良い単語をみなすことができ、更にはフィルタリングでこのような単語を選択できる。

第１のフィルタリングユニット４０１と第２のフィルタリングユニット４０２は、同時に用いてもよい。たとえば、第１のフィルタリングユニット４０１は、第１レベルのベクトル空間のクラスでの単語の単語頻度ベクトルの平均値が所定の第１のフィルタリング閾値より高いかどうかを決定するように、各単語を対象としてもよい。第２のフィルタリングユニット４０２は、第１レベルのベクトル空間のクラスでの単語の単語頻度ベクトルの最大値が所定の第２のフィルタリング閾値より高いかどうかを決定するように、第１の閾値でフィルタにかけた単語を対象としてもよい。しかしながら、追加的なフィルタリング法を他の実施形態で実施してもよく、本明細書ではこの他の実施形態を詳述しない。

分類モジュール２０３は空間サブモジュールも含む。第１レベルのベクトル空間の様々なクラスから選択されるように、テキストの単語ベクトルに対して最短距離を有するクラスにテキストを分類した後に、そのクラスがベクトル空間に相当するかどうかを決定するように空間サブモジュールを用いてもよい。相当するという肯定的決定ならば、ベクトル空間にて複数の単語の単語ベクトルを決定するように照会ユニット４０１が指令を受ける。フィルタリングモジュール２０７は、単語をフィルタにかけるように用い、計算モジュール２０２は、単語ベクトルの合計を決定するように用いる。その後、分類モジュール２０３の分類ユニットは、テキストが分類されるクラスがベクトル空間にもはや相当しなくなるまでの間、単語ベクトルに対して最短距離を有するベクトル空間のクラスにおけるクラスにテキストを分類し直す。

関連テキストが、単語ベクトルの最大の合計を用いて相当するクラスに分類された後に、計算モジュール２０２は、単語ベクトルの決定に用いられる複数の単語のうちの１以上の単語を削除するようにも用いられる。言い換えれば、フィルタリングによって選択される１以上の単語を計算モジュール２０２に送った後に、フィルタリングモジュール２０７は、複数の単語のうちの１以上の選択された単語を削除する。よって、単語の単語ベクトルに関する照会をその後実行するときに、照会ユニット４０１は、フィルタリングモジュール２０７によってフィルタにかけて除去（例えば、削除）される単語を考慮しないため、計算量が低減される。

様々な実施形態では、装置を単一のコンピュータに位置付けてもよく、及び／又は装置のモジュールを別のコンピュータに位置付けてもよい。幾つかの実施形態では、装置の機能は、複数のコンピュータの協働によって発揮される。装置のモジュール又はユニットは、ソフトウェア、ハードウェア、又はソフトウェアとハードウェアの組み合わせで実施してもよい。

図５に様々な実施形態に係る例示的なベクトル空間を示す。図５に示すクラス木構造の実施例でが、クラスＡとＢが第１レベルのベクトル空間Ｓ１を構成する。クラスＡ１とＡ２が第２レベルのベクトル空間Ｓ２を構成する。クラスＢ１とＢ２が第２レベルのベクトル空間Ｓ３を構成する。クラスＡ１１とＡ１２が第３レベルのベクトル空間Ｓ４を構成する。クラスＡ２１とＡ２２が第３レベルのベクトル空間Ｓ５を構成する。クラスＢ１１とＢ１２が第３レベルのベクトル空間Ｓ６を構成する。クラスＢ２１とＢ２２が第３レベルのベクトル空間Ｓ７を構成する。

分類されるテキストを受け取るときに、分割モジュール２０１は、取得されたテキストのテキスト内容を複数の単語に分割する。計算モジュール２０２は、第１レベルのベクトル空間Ｓ１のクラスＡとＢ下の複数の単語の単語頻度ベクトルの合計を決定してもよく、クラスＡ下の単語頻度ベクトルの合計は０．８５であってもよく、クラスＢ下の単語頻度ベクトルの合計は０．６４であってもよい。そのようなものとして、分類モジュール２０３はテキストをクラスＡに分類してもよく、クラスＡは、単語頻度ベクトルの最大の合計に相当する。分類モジュール２０３は、クラスＡが第２レベルのベクトル空間Ｓ２に相当することを更に決定する。計算モジュール２０２は、第２レベルのベクトル空間Ｓ２のクラスＡ１とＡ２下の複数の単語の単語頻度ベクトルの合計を決定してもよく、クラスＡ１下の単語頻度ベクトルの合計は０．２３であってもよく、クラスＡ２下の単語頻度ベクトルの合計は０．８９であってもよい。その後、分類モジュール２０３はテキストをクラスＡ２に分類してもよく、クラスＡ２は、単語頻度ベクトルの最大の合計に相当する。分類モジュール２０３は、クラスＡ２が第３レベルのベクトル空間Ｓ５に相当することを更に決定する。計算モジュール２０２は、第３レベルのベクトル空間Ｓ５のクラスＡ２１とＡ２２下の複数の単語の単語頻度ベクトルの合計を決定してもよく、クラスＡ２１下の単語頻度ベクトルの合計は０．９５であってもよく、クラスＡ２２下の単語頻度ベクトルの合計は０．６７であってもよい。その後、分類モジュール２０３はテキストをクラスＡ２１に分類し、クラスＡ２１は、単語頻度ベクトルの最大の合計に相当する。

さらに、図５に示す分類の木構造に加えて、本明細書に記載した実施形態で用いた計算次元は６である。しかしながら、従来の技術下での計算次元は８であり、この計算次元８は前者の次元６より明らかに高い。

図１の実施例を参照として用いると、従来の技術を実施する装置がテキストをクラスＢ１に分類する一方で、本明細書に記載した実施形態の装置はテキストをクラスＡ１に分類する。その結果、明らかに、本明細書に記載した実施形態の装置によるテキスト分類の方がより正確となる。

上の説明は、テキスト分類装置の内部の構造と機能を説明するものである。以下の説明は、テキスト分類の実施プロセスを説明するものである。

図６を参照すると、様々な実施形態に係るテキスト分類用のプロセス６００の主なフローチャートは以下の通りである。

ステップ６０１では、複数の単語を得るように、受け取られたテキストの内容を分割する。

ステップ６０２では、ベクトル空間群の第１レベルのベクトル空間にて複数の単語の単語ベクトルの合計を決定する。各ベクトル空間は、クラス木構造の非葉の子クラスである１以上の直接的な子クラスで構成されている。ベクトル空間群は、すべてのベクトル空間で構成されており、第１レベルのベクトル空間は、クラス木構造の最上位レベルのクラスで構成されている。各単語ベクトルは、ベクトル空間の相当するクラスでの単語の単語頻度ベクトルを含む。

ステップ６０３では、第１レベルのベクトル空間の様々なクラスにおけるクラスにテキストを分類し、このクラスはテキストの単語ベクトルに対して最短距離を有する。

追加実施形態では、データベースに相当するクラス下にテキストを保存してもよい。

ステップ６０２には複数の実施形態がある。以下は、実施プロセスを詳しく述べる３つの実施形態である。

図７に、フィルタリング閾値によるテキストフィルタリング用のプロセス７００のフローチャートを示す。プロセスの詳細は以下の通りである。

ステップ７０１では、複数の単語を得るように、受け取られたテキストの内容を分割する。

ステップ７０２では、ベクトル空間群の第１レベルのベクトル空間にて複数の単語の単語ベクトルを決定する。

ステップ７０３では、複数の単語の各単語に関し、第１レベルのベクトル空間の様々なクラスでの単語の単語頻度ベクトルのうち最大の単語頻度ベクトルと最小の単語頻度ベクトルとの差値が、所定のフィルタリング閾値より高いかどうかを決定する。たとえば、所定のフィルタリング閾値は、総単語コーパス数の１０万分の１であってもよい。

ステップ７０４では、フィルタリング閾値より高い差値を有する各単語に関し、単語の単語頻度ベクトルの合計を得る。

ステップ７０５では、得られた単語頻度ベクトルの合計から最大値を有する単語頻度ベクトルの合計を決定する。

ステップ７０６では、最大値を有する単語頻度ベクトルの合計に関連したクラスにテキストを分類する。

図８に、フィルタリング閾値によるテキストフィルタリング用のプロセス８００のフローチャートを示す。プロセスの詳細は以下の通りである。

ステップ８０１では、複数の単語を得るように、受け取られたテキストの内容を分割する。

ステップ８０２では、ベクトル空間群の第１レベルのベクトル空間にて複数の単語の単語ベクトルを決定する。

ステップ８０３では、複数の単語の各単語に関し、第１レベルのベクトル空間の様々なクラスでの単語の単語頻度ベクトルのうち第１の最大の単語頻度ベクトルと第２の最大の単語頻度ベクトルとの差値が、所定のフィルタリング閾値より高いかどうかを決定する。たとえば、所定のフィルタリング閾値は、総単語コーパス数の１０万分の１であってもよい。

ステップ８０４では、フィルタリング閾値より高い差値を有する各単語に関し、単語の単語頻度ベクトルの合計を得る。

ステップ８０５では、得られた単語頻度ベクトルの合計から最大値を有する単語頻度ベクトルの合計を決定する。

ステップ８０６では、最大値を有する単語頻度ベクトルの合計に関連したクラスにテキストを分類する。

図９に、第１のフィルタリング閾値と第２のフィルタリング閾値によるテキストフィルタリング用の方法のフローチャートを示す。プロセスの詳細は以下の通りである。

ステップ９０１では、複数の単語を得るように、受け取られたテキストの内容を分割する。

ステップ９０２では、ベクトル空間群の第１レベルのベクトル空間にて複数の単語の単語ベクトルを決定する。このステップが初回実施されるとき、現時点のベクトル空間のレベルは、空間ベクトル群のうちの第１レベルのベクトル空間である。

ステップ９０３では、複数の単語の各単語に関し、第１のレベルのベクトル空間の様々なクラスでの単語の単語頻度ベクトルの平均値が、所定の第１のフィルタリング閾値より高いかどうかを決定する。たとえば、所定の第１のフィルタリング閾値は、総単語コーパス数の１０万分の１であってもよい。

ステップ９０４では、単語頻度ベクトルの平均値が第１のフィルタリング閾値より高い各単語に関し、第１レベルのベクトル空間の様々なクラスでの単語の単語頻度ベクトルのうち最大値を有する単語頻度ベクトルが、所定の第２のフィルタリング閾値より高いかどうかを決定する。たとえば、所定の第２のフィルタリング閾値は、総単語コーパス数の１０万分の１であってもよい。

ステップ９０５では、単語頻度ベクトルの最大値が第２のフィルタリング閾値より高い各単語に関し、単語の単語頻度ベクトルの合計を得る。

ステップ９０６では、得られた単語から差値が第２のフィルタリング閾値より高い単語を削除する。各単語に関する差値は、プロセス７００のステップ７０３に記載したものと同様の方法で導出される。このステップはステップ９０５と同時に実行してもよい。

ステップ９０７では、得られた単語頻度ベクトルの合計から最大値を有する単語頻度ベクトルの合計を決定する。

ステップ９０８では、最大値を有する単語頻度ベクトルの合計に関連したクラスにテキストを分類する。

ステップ９０９では、テキストが分類されるクラスがベクトル空間に相当するかどうかを決定する。相当するというイエスの場合、現時点のベクトル空間のレベルを置換するベクトル空間を決定し、またステップ９０２へプロセスは戻る。逆に相当しないというノーの場合、プロセスは終了する。

本開示の実施形態はソフトウェア及び／又はハードウェアによって実施してもよい。本開示の実施形態を実施するソフトウェアは、フロッピーディスク、ハードディスク、ディスク、フラッシュメモリなどの記憶媒体に保存してもよい。

高次元計算では性能が低いという課題に関し、本開示の実施形態は、データ統計の特性を維持できる。従来のテキスト分類技術で要求された単語コーパスの一様性の要件に関し、本明細書に記載した実施形態は、単語コーパス全体に影響し得ない、あるクラスの単語コーパスの非一様性を許容する。あいまいな分類に関し、すなわち、複数のクラス間の単語頻度計算値に差がほとんどないデータ分類に関し、本明細書に記載した実施形態は、単語フィルタリングによってこのようなあいまいな分類の発生率が大幅に減少する。非葉の子クラスに関し重大な認識エラーがあり得るという課題に関し、本明細書に記載した実施形態は、上位から下位までの分類方法を提供するため、認識エラーが大幅に低減される。認識精度への高次元の影響に関し、本明細書に記載した実施形態は、クラスを複数のベクトル空間に分類して、低次元にてベクトル空間モデル（ＶＳＭ）の精度を維持するため、次元が増えることで精度が落ちるという課題が大幅に低減される。単語選択の最適化に関し、従来のテキスト分類技術では空間次元が非常に高いことで、単語除外の確率を減少させていた。一方で、本明細書に記載した実施形態は複数の低次元ベクトル空間を用いるため、この課題が効果的に解決される。また、本明細書に記載した実施形態は、各クラス分類用の実際の横断次元を減少させる。よって、各クラス分類用の実際の横断範囲は、葉の子クラスの総数より小さくなる。従来のテキスト分類技術と比べて、本明細書に記載した実施形態は、統計の原理に適うより良い立場にあって、より高い認識精度を達成できる。

その結果、本明細書に記載した実施形態が提供するより正確なテキスト分類は、テキスト分類保存とテキスト分類検索の精度の向上にとって有益となる。

本開示の精神及び範囲から逸脱せずに、当業者は多くの異なった方法で本開示を変形又は修正できることが理解される。したがって、これらの修正例及び変形例は、本開示の請求項及びこれら請求項の均等物の範囲内にあるものとみなすべきである。

Claims

テキストの内容を複数の単語に分割するステップと、
複数のベクトル空間を含むベクトル空間群の第１レベルのベクトル空間にて複数の単語の複数の単語ベクトルの合計を決定するステップであって、前記複数のベクトル空間の少なくとも１つは、クラス木構造の非葉の子クラスである１以上の直接的な子クラスを有し、前記第１レベルのベクトル空間は複数のクラスを有する、ステップと、
前記単語ベクトルの前記合計に対して最短距離を有する前記複数のクラスにおけるクラスに前記テキストを分類するステップと
を有することを特徴とするテキスト分類用の方法。
前記第１レベルのベクトル空間は、前記クラス木構造の最上位レベルのクラスにあることを特徴とする請求項１に記載の方法。
単語ベクトルは、前記ベクトル空間の様々なクラスにて前記複数の単語のうちの相当する単語の単語頻度ベクトルを含むことを特徴とする請求項１に記載の方法。
前記ベクトル空間群の前記第１レベルのベクトル空間にて前記複数の単語の前記単語ベクトルの合計を決定する前に、フィルタにかけられた複数の単語を得るように前記複数の単語をフィルタにかけるステップを更に有することを特徴とする請求項１に記載の方法。
前記単語ベクトルの前記合計に対して前記最短距離を有する前記クラスに前記テキストを分類するステップは、
各複数の単語に関連した前記複数のクラスでの単語頻度ベクトルに相当する合計を決定するステップと、
最大の合計に相当するクラスに前記テキストを分類するステップと
を有することを特徴とする請求項１に記載の方法。
前記単語ベクトルの前記合計に対して前記最短距離を有する前記クラスに前記テキストを分類するステップは、
前記複数のクラスでの各複数の単語に関する前記単語頻度ベクトルのうち最大の単語頻度ベクトルと最小の単語頻度ベクトルとの差値を決定するステップと、
所定のフィルタリング閾値より高い相当する差値を有する各複数の単語に相当する前記単語頻度ベクトルの合計を決定するステップと、
最大値を有する、相当する前記単語頻度ベクトルの合計に関連した前記複数のクラスにおけるクラスに前記テキストを分類するステップと
を有することを特徴とする請求項１に記載の方法。
前記単語ベクトルの前記合計に対して前記最短距離を有する前記クラスに前記テキストを分類するステップは、
前記複数のクラスでの各複数の単語に関する前記単語頻度ベクトルのうち第１の最大の単語頻度ベクトルと第２の最大の単語頻度ベクトルとの差値を決定するステップと、
所定のフィルタリング閾値より高い相当する差値を有する各複数の単語に相当する前記単語頻度ベクトルの合計を決定するステップと、
最大値を有する、相当する前記単語頻度ベクトルの合計に関連した前記複数のクラスにおけるクラスに前記テキストを分類するステップと
を有することを特徴とする請求項１に記載の方法。
前記単語ベクトルの前記合計に対して前記最短距離を有する前記クラスに前記テキストを分類するステップは、
前記複数のクラスでの各複数の単語に相当する単語頻度ベクトルの平均値を決定するステップと、
第１の所定のフィルタリング閾値より高い相当する平均値に関連した１以上の各複数の単語に対して、単語頻度ベクトルの最大値が第２の所定のフィルタリング閾値より高いかどうかを決定するステップと、
前記第２の所定のフィルタリング閾値より高い単語頻度ベクトルの最大値を有する前記１以上の各単語に相当する前記単語頻度ベクトルの合計を決定するステップと、
最大値を有する、相当する前記単語頻度ベクトルの合計に関連したクラスに前記テキストを分類するステップと
を有することを特徴とする請求項１に記載の方法。
前記テキストを前記クラスに分類した後に、該クラスが前記第１レベルのベクトル空間に相当するかどうかを決定するステップと、
前記クラスが前記第１レベルのベクトル空間に相当するときに、前記複数のベクトル空間の追加クラスにて前記複数の単語の単語ベクトルの合計を決定し、および、前記第１レベルのベクトル空間に相当せず、かつ前記単語ベクトルの前記合計の最大合計に相当する追加クラスに前記テキストを分類するステップと
を更に有することを特徴とする請求項１に記載の方法。
前記テキストを前記クラスに分類した後に、前記単語ベクトルの前記合計の決定に用いられる前記複数の単語の少なくとも幾つかを削除するステップを更に有することを特徴とする請求項５に記載の方法。
テキストの内容を複数の単語に分割する分割モジュールと、
複数のベクトル空間を含むベクトル空間群の第１レベルのベクトル空間にて複数の単語の単語ベクトルの合計を決定する計算モジュールであって、前記複数のベクトル空間の少なくとも１つは、クラス木構造の非葉の子クラスである１以上の直接的な子クラスを有し、前記第１レベルのベクトル空間は複数のクラスを有する、計算モジュールと、
前記単語ベクトルの前記合計に対して最短距離を有する前記複数のクラスにおけるクラスに前記テキストを分類する分類モジュールと
を有することを特徴とするテキスト分類用の装置。
前記第１レベルのベクトル空間は、前記クラス木構造の最上位レベルのクラスにあることを特徴とする請求項１１に記載の装置。
フィルタにかけられた複数の単語を得るように前記複数の単語をフィルタにかけるフィルタリングモジュールを更に有することを特徴とする請求項１１に記載の装置。
前記計算モジュールは、各複数の単語に関連した前記第１レベルのベクトル空間の前記複数のクラスでの単語頻度ベクトルに相当する合計を更に決定し、
前記分類モジュールは、最大の合計に相当するクラスに前記テキストを更に分類することを特徴とする請求項１１に記載の装置。
前記分類モジュールは、
前記テキストを前記クラスに分類した後に、該クラスが前記第１レベルのベクトル空間に相当するかどうかを決定するように、かつ、
前記クラスが前記第１レベルのベクトル空間に相当するときに、前記複数のベクトル空間の追加クラスにて前記複数の単語の単語ベクトルの合計を決定するように、および、前記第１レベルのベクトル空間に相当せず、かつ前記単語ベクトルの最大合計に相当する追加クラスに前記テキストを分類するように更に構成されていることを特徴とする請求項１１に記載の装置。
前記計算モジュールは、前記テキストを前記クラスに分類した後に、前記単語ベクトルの前記合計の決定に用いられる前記複数の単語の少なくとも幾つかを削除するように更に構成されていることを特徴とする請求項１５に記載の装置。
前記複数のクラスでの各複数の単語に相当する単語頻度ベクトルの平均値を決定する第１のフィルタリングモジュールと、
第１の所定のフィルタリング閾値より高い相当する平均値に関連した１以上の各複数の単語に関し、単語頻度ベクトルの最大値が第２の所定のフィルタリング閾値より高いかどうかを決定する第２のフィルタリングモジュールと
を更に有し、
前記計算モジュールは、前記第２の所定のフィルタリング閾値より高い単語頻度ベクトルの最大値を有する前記１以上の各単語に相当する前記単語頻度ベクトルの合計を更に決定し、前記分類モジュールは、最大値を有する、相当する前記単語頻度ベクトルの合計に関連した前記複数のクラスにおけるクラスに前記テキストを更に分類することを特徴とする請求項１０に記載の装置。
複数のクラスに分類用のテキストを受け取らせるステップであって、前記複数のクラスの少なくとも１つは、クラス木構造の非葉の子クラスである１以上の直接的な子クラスを含む、ステップと、
受け取られた前記テキストの内容を複数の単語に分割するステップであって、各複数の単語は相当する単語頻度ベクトルを有する、ステップと、
各複数の単語の前記相当する単語頻度ベクトルに基づき、前記複数のクラスでの各単語について値を決定するステップと、
所定のフィルタリング閾値より高い相当値を有する各複数の単語に相当する前記単語頻度ベクトルの合計を決定するステップと、
最大値を有する、前記相当する単語頻度ベクトルの合計に関連した複数のクラスにおけるクラスに前記テキストを分類するステップと
を有することを特徴とするテキスト分類用の方法。
各複数の単語について前記値を決定するステップは、前記複数のクラスでの各複数の単語に関する前記相当する単語頻度ベクトルのうち最大の単語頻度ベクトルと最小の単語頻度ベクトルとの差値を決定するステップを含むことを特徴とする請求項１８に記載の方法。
各複数の単語について前記値を決定するステップは、前記複数のクラスでの各複数の単語に関する前記単語頻度ベクトルのうち第１の最大の単語頻度ベクトルと第２の最大の単語頻度ベクトルとの差値を決定するステップを含むことを特徴とする請求項１８に記載の方法。