JP5792747B2 - テキスト分類の方法及びシステム - Google Patents

テキスト分類の方法及びシステム Download PDF

Info

Publication number
JP5792747B2
JP5792747B2 JP2012551962A JP2012551962A JP5792747B2 JP 5792747 B2 JP5792747 B2 JP 5792747B2 JP 2012551962 A JP2012551962 A JP 2012551962A JP 2012551962 A JP2012551962 A JP 2012551962A JP 5792747 B2 JP5792747 B2 JP 5792747B2
Authority
JP
Japan
Prior art keywords
class
text
classes
sum
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012551962A
Other languages
English (en)
Other versions
JP2013519152A (ja
Inventor
シアン ソン
シアン ソン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of JP2013519152A publication Critical patent/JP2013519152A/ja
Application granted granted Critical
Publication of JP5792747B2 publication Critical patent/JP5792747B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

(関連出願への相互参照)
本願は、2010年2月2日出願、発明の名称「テキスト分類の方法及びシステム」の中国特許出願第201010111365.3号の優先権を主張し、その全体を本明細書に援用する。
本開示はコンピュータ及びコミュニケーション分野に関し、特にテキスト分類の方法及びシステムに関する。
テキスト分類はテキストマイニングの重要な一面である。テキストマイニングとは、所定の対象の分類クラスに従って設定されたテキストにおける各テキストの分類を言う。自動テキスト分類システムを用いたテキストの分類によって、ユーザが必要な情報と知識をより上手く位置付けできる。ユーザの観点からすると、分類とは、基本的に文章の情報を認識することである。従来のテキスト分類技術では、公正な分類結果が提供されてきた。しかしながら、文章の情報の利用可能性の増加、特にインターネット上のオンライン文章の情報の急激な増加に従い、自動テキスト分類は、大量のテキストデータの処理と組織化用の主要技術になってきている。現在、テキスト分類は、多様な分野で広く用いられている。文章の情報量の増加に伴って、ユーザは、テキスト分類により高い精度と完全性を求めるようになってきた。したがって、テキスト分類技術の改良の必要性も増してきている。しかしながら、実効性のあるテキスト分類技術の定式化は、テキストマイニングの研究の活動領域のままである。
そこで、本開示は、テキストのテキスト分類の方法及びシステムを提供することを目的とする。また、本方法及びシステムは、精度を向上でき、かつテキスト分類のプロセスを簡略化できる。
一態様では、テキスト分類用の方法が、受け取られたテキストの内容を複数の単語に分割することを含む。第1レベルのベクトル空間にて複数の単語の複数の単語ベクトルの合計を決定する。第1レベルのベクトル空間は、複数のベクトルを含むベクトル空間群の一部である。複数のベクトル空間の少なくとも1つは、木構造の葉の子クラスである1以上の直接的な子クラスを含む。単語ベクトルの合計に対して最短距離を有する複数のクラスにおけるクラスにテキストを分類する。
別の態様では、テキスト分類用の装置が、受け取られたテキストの内容を複数の単語に分割する分割モジュールを含む。この装置は、第1レベルのベクトル空間にて複数の単語の複数の単語ベクトルの合計を決定する計算モジュールを更に含む。第1レベルのベクトル空間は、複数のベクトルを含むベクトル空間群の一部である。複数のベクトル空間の少なくとも1つは、木構造の葉の子クラスである1以上の直接的な子クラスを含む。また、この装置は、単語ベクトルの合計に対して最短距離を有する複数のクラスにおけるクラスにテキストを分類する計算モジュールを含む。
さらに別の態様では、受け取られたテキストのテキスト内容を複数の単語を得るように分割する。次に、ベクトル空間群の第1レベルのベクトル空間にて複数の単語の単語ベクトルの合計を得る。その後、テキストの単語ベクトルの合計に対して最短距離を有する第1レベルのベクトル空間のクラスにおけるクラスにテキストを分類する。したがって、このような実施形態では、第1レベルのベクトル空間から開始するトップダウン分類方法が実行される。さらに、総計算量は、上位から下位までの経路でのベクトル空間のすべての次元の合計に等しい。
これに対し、従来のテキスト分類技術は、テキストを分類する葉の子クラスを含むベクトル空間のみを用いる。言い換えれば、従来のテキスト分類技術は、テキスト分類に親クラスを用いない。その代わりに、従来のテキスト分類技術は、テキスト分類用の葉の子クラスに関連したベクトル空間のみをテキスト分類に使用できる。
よって、従来のテキスト分類技術は、初めに、多数の分類クラスを予め形成し、統計と学習アルゴリズムを用いて、各クラスでの一組の単語の各々について単語頻度値を決定することを含み得る。次に、受け取られたテキストの内容を複数の単語を得るように分割する。さらに、従来の分類の技術は、各分類クラスに関し、各クラスにて複数の単語のうちの1以上の単語の単語頻度値の合計を計算し得る。したがって、最大の合計を有する分類クラスが、テキスト用の分類クラスとなる。
1つのクラスしかないか、或いは親クラスが1つの子クラスのみを有するときに、本明細書に記載した実施形態の総計算量(すなわち、上位から下位までの経路でのベクトル空間の次元の合計)は、従来の技術を用いたテキスト分類の総計算量(すなわち、すべての葉クラスの次元)より多くなり得る。しかしながら、テキスト分類では、1つのクラスしかないか、或いは親クラスが1つの子クラスのみを有するケースはあり得ない。これは、テキスト分類の実際の適用は、一般にこのような分類スキームを用いないためである。よって、本明細書に記載した実施形態に用いた計算量は、従来のテキスト分類技術で用いた計算量より少なくなる。さらに、本明細書に記載した実施形態での各ベクトル空間の次元は、従来のテキスト分類技術で用いるものよりはるかに少ない。したがって、本明細書に記載した実施形態を用いることで、テキスト分類におけるエラーを低減でき、テキスト分類の精度を向上できる。
現在の技術を用いたテキスト分類の図を示す。 様々な実施形態に係るテキスト分類用の例示的な装置の図を示す。 様々な実施形態に係るテキスト分類用の例示的な装置の詳細図を示す。 様々な実施形態に係る例示的な計算モジュールの図を示す。 様々な実施形態に係る例示的なベクトル空間を示す。 様々な実施形態に係る例示的なテキスト分類プロセスのフローチャートを示す。 様々な実施形態に係る第1のフィルタリング閾値例によってテキストをフィルタにかける例示的なテキストフィルタリングプロセスのフローチャートを示す。 様々な実施形態に係る第2のフィルタリング閾値例によってテキストをフィルタにかける例示的なテキストフィルタリングプロセスのフローチャートを示す。 様々な実施形態に係る第1のフィルタリング閾値例と第2のフィルタリング閾値例によってテキストをフィルタにかける例示的なテキストフィルタリングプロセスのフローチャートを示す。
本明細書に記載した実施形態は、テキスト分類用のシステム及び方法に関する。このような実施形態では、テキスト分類に用いる各ベクトル空間が、非葉の子クラスである直接的な子クラスを有するクラス木構造を含んでいてもよい。第1レベルのベクトル空間は、クラス木構造の最上位レベルのクラスで構成されている。さらに、所定数のベクトル空間は、ベクトル空間群を構成していてもよい。各ベクトル空間の次元数は、各ベクトル空間のクラス数に等しい。
幾つかの実施形態では、受け取られたテキストのテキスト内容を複数の単語を得るように分割する。次に、ベクトル空間群の第1レベルのベクトル空間にて複数の単語の単語ベクトルの合計を得る。その後、テキストの単語ベクトルの合計に対して最短距離を有する第1レベルのベクトル空間のクラスにおけるクラスにテキストを分類する。したがって、このような実施形態では、第1レベルのベクトル空間から開始するトップダウン分類方法が実行される。さらに、総計算量は、上位から下位までの経路でのベクトル空間のすべての次元の合計に等しい。
これに対し、従来のテキスト分類技術は、テキストを分類する葉の子クラスを含むベクトル空間のみを用いる。言い換えれば、従来のテキスト分類技術は、テキスト分類に親クラスを用いない。その代わりに、従来のテキスト分類技術は、テキスト分類用の葉の子クラスに関連したベクトル空間のみをテキスト分類に使用できる。
よって、従来のテキスト分類技術は、初めに、多数の分類クラスを予め形成し、統計と学習アルゴリズムを用いて、各クラスでの一組の単語の各々について単語頻度値を決定することを含み得る。次に、受け取られたテキストの内容を複数の単語を得るように分割する。さらに、従来の分類の技術は、各分類クラスに関し、各クラスにて複数の単語のうちの1以上の単語の単語頻度値の合計を計算し得る。したがって、最大の合計を有する分類クラスが、テキスト用の分類クラスとなる。
しかしながら、図1に示す状況が起こり得る。図1に示すように、四角AとBが2つのクラスを表す。四角A1とA2がクラスA下の2つの子クラスを表し、四角B1とB2がクラスB下の2つの子クラスを表す。さらに、各四角の数は、相当する各クラスでの特定の単語の単語頻度値を表す。従来のテキスト分類技術を用いると、特定の単語を含むテキストは、子供分類クラスB1に分類される傾向にある。しかしながら、特定の単語は、子クラスに関してはB1で最大の単語頻度値を有するものの、クラスAでの特定の単語の単語頻度値の方が、クラスBでの単語頻度値よりはるかに大きい。そのため、特定の単語を含むテキストをクラスAかクラスA1に分類する方が、より適切である。
したがって、従来のテキスト分類技術を用いるテキスト分類は、十分には正確でない。また、多くのクラスがあるときに、各クラスでの複数の単語の単語頻度値の合計を計算する計算量は膨大であって、テキスト分類エラーを著しく増大させ得る。
1つのクラスしかないか、或いは親クラスが1つの子クラスのみを有するときに、本明細書に記載した実施形態の総計算量(すなわち、上位から下位までの経路でのベクトル空間の次元の合計)は、従来の技術を用いたテキスト分類の総計算量(すなわち、すべての葉クラスの次元)より多くなり得る。しかしながら、テキスト分類では、1つのクラスしかないか、或いは親クラスが1つの子クラスのみを有するケースはあり得ない。これは、テキスト分類の実際の適用は、一般にこのような分類スキームを用いないためである。よって、本明細書に記載した実施形態に用いた計算量は、従来のテキスト分類技術で用いた計算量より少なくなる。さらに、本明細書に記載した実施形態での各ベクトル空間の次元は、従来のテキスト分類技術で用いるものよりはるかに少ない。したがって、本明細書に記載した実施形態を用いることで、テキスト分類におけるエラーを低減でき、テキスト分類の精度を向上できる。
図2に、様々な実施形態に係るテキスト分類用の例示的な装置の図を示す。図2に示すように、テキスト分類用の装置は、分割モジュール201、計算モジュール202、及び分類モジュール203を少なくとも含む。
分割モジュール201は、受け取られたテキストの内容を複数の単語に分割するための手段である。
計算モジュール202は、ベクトル空間群の第1レベルのベクトル空間にて複数の単語の単語ベクトルの合計を決定するための手段である。第1レベルのベクトル空間は、クラス木構造の最上位レベルのクラスで構成されている。ベクトル空間群は、すべてのベクトル空間で構成されているとともに、クラス木構造の非葉の子クラスである1以上の直接的な子クラスで構成された少なくとも1つのベクトル空間を含んでいてもよい。
各単語ベクトルは、ベクトル空間のあらゆるクラスに相当する単語の単語頻度ベクトルを含む。各単語頻度ベクトルは、クラスでの相当単語の単語頻度統計量であり、この単語頻度統計量は、クラスでの相当単語の単語頻度統計量の量子化の後に得てもよい。様々なクラス各々での単語の単語頻度統計量の量子化中に、量子化は、1つのプリセットデフォルト量子化機能又は複数の異なったプリセット量子化機能を用いてもよい。
分類モジュール203は、第1レベルのベクトル空間の様々なクラスにおけるクラスにテキストを分類するための手段であり、このクラスは、テキストの単語ベクトルの合計に対して最短距離を有する。
分類プロセスを簡略化するために、計算モジュール202は、第1レベルのベクトル空間にて複数の単語の各々に関する単語ベクトル成分の合計(すなわち、各単語に関する様々なクラスでの単語頻度ベクトルの合計)を決定してもよい。分類モジュール203は、単語ベクトル成分の最大の合計に相当するクラスにテキストを分類する。たとえば、ベクトル空間の単語の単語ベクトルをWmn={Vmn1、Vmn2、…、VmnN}と表してもよく、ここで、Viはベクトル空間のクラスCi(i=1からN)での単語頻度ベクトルと表してもよく、Nはベクトル空間のクラスの総数を表してもよく、mはm番目の単語を表してもよく、nはn番目のベクトル空間を表してもよい。したがって、テキストDとクラスCiとの距離がΣWmnとクラスCiとの距離であってもよく、この距離は、距離=ΣWmn−Ci={ΣVn1、ΣVn2、…、ΣVnN}−Ciと表してもよい。
幾つかの実施形態では、図3を参照すると、装置はインタフェースモジュール204、構成モジュール205、保存モジュール206、及びフィルタリングモジュール207も含んでいてよい。
インタフェースモジュール204はテキストを取得するための手段である。インタフェースモジュール204は、分類されるテキストを装置外で得るように有線又は無線の方法を用いてもよい。
構成モジュール205は、ベクトル空間群を構成するための手段である。様々な実施形態では、クラス木構造を予め形成してもよい。構成モジュール205は、クラス木構造の各非葉のサブクラスに関するベクトル空間を構成する。各ベクトル空間の次元は、各ベクトル空間の直接的な子クラス(再帰的な子クラスを除く)の数である。各ベクトル空間の要素は、直接的な子クラスの各単語の単語頻度ベクトル(特に、統計により取得可能な単語頻度値の単語頻度統計量又は量子化)を含んでいてもよい。統計によって、又は親クラスの直接的な子クラスでの単語の単語頻度ベクトルの合計を得ることによって、親クラスでの単語の単語頻度ベクトルを独立して計算してもよい。構成モジュール205は、すべてのベクトル空間をベクトル空間群に組み合わせる。ベクトル空間群における空間の数は、すべての非葉の子クラスの数に等しい。ベクトル空間群の次元は、すべてのベクトル空間の次元の合計に等しい。特に、例えば、N個の非葉の子クラスC1、C2、…、CNがあってもよい。各非葉の子クラスCiは、Mi個の直接的な子クラスCi1、Ci2、…、CiMiを含んでいてもよい。各非葉の子クラスCiについて、そのベクトル空間をSi={Ci1、Ci2、…、CiMi}と表してもよく、ここでのベクトル空間の次元はMに等しい。ベクトル空間群をG={S1、S2、…、SN}と表してもよく、ここでのベクトル空間群の次元はNに等しく、N=ΣMiであって、実際(ルートクラスが頻繁にあるというわけではないとき)は、すべてのクラス数M−1の数に等しい。
保存モジュール206は、ベクトル空間群を保存して、クラス単位でテキストを保存するための手段である。
フィルタリングモジュール207は、フィルタにかけられた複数の単語を得るように得られた複数の単語をフィルタにかけるための手段である。図4を参照すると、フィルタリングモジュール207は、第1のフィルタリングユニット401、第2のフィルタリングユニット402、及び第3のフィルタリングユニット403を含む。
第1のフィルタリングユニット401は、第1レベルのベクトル空間のクラスでの単語の単語頻度ベクトルの平均値が所定の第1のフィルタリング閾値より高いかどうかを決定するように、第1レベルのベクトル空間のクラスにある各単語を対象とする。そのため、このような実施形態では、計算モジュール202は、第1レベルのベクトル空間での第1のフィルタリング閾値より高い平均値を有する単語の単語ベクトルの合計を決定するように代替的に構成していてもよい。たとえば、第1のフィルタリング閾値は、総単語コーパス数の10万分の1であってもよい。
第2のフィルタリングユニット402は、単語の単語頻度ベクトルの最大値が所定の第2のフィルタリング閾値より高いかどうかを決定するように、第1レベルのベクトル空間のクラスにある各単語を対象とする。そのため、このような実施形態では、計算モジュール202は、第1レベルのベクトル空間での第2のフィルタリング閾値より高い単語頻度ベクトルの最大値を有する単語の単語ベクトルの合計を決定するように代替的に構成していてもよい。たとえば、第2のフィルタリング閾値は、総単語コーパス数の10万分の1であってもよい。
第3のフィルタリングユニット403は、第1レベルのベクトル空間での単語の分散係数を得て、各分散係数が所定の分散係数閾値(0.5など)より高いかどうかを決定するように、各単語を対象とする。そのため、このような実施形態では、計算モジュール202は、第1レベルのベクトル空間での分散係数閾値より高い分散係数を有する単語の単語ベクトルの合計を決定するように代替的に構成していてもよい。分散係数によって、様々なクラス間での単語頻度の変化がほとんどない単語(例えば、「あなた」又は「私」の単語頻度は様々なクラスにおいて基本的に同一である)をフィルタにかけて除去してもよい。また、様々なクラス間での単語頻度の変化が著しい単語(用語関連の特定のクラスでの単語頻度値が他のクラスでの単語頻度値より明らかに高い用語など)は保持される。様々なクラス間での単語頻度の変化が著しい単語は、1以上のクラスで出現してもよい。このような単語は、他の単語よりテキスト分類の精度に更に寄与できる。このように、本明細書に記載した実施形態は、このような単語を良い単語をみなすことができ、更にはフィルタリングでこのような単語を選択できる。
第1のフィルタリングユニット401と第2のフィルタリングユニット402は、同時に用いてもよい。たとえば、第1のフィルタリングユニット401は、第1レベルのベクトル空間のクラスでの単語の単語頻度ベクトルの平均値が所定の第1のフィルタリング閾値より高いかどうかを決定するように、各単語を対象としてもよい。第2のフィルタリングユニット402は、第1レベルのベクトル空間のクラスでの単語の単語頻度ベクトルの最大値が所定の第2のフィルタリング閾値より高いかどうかを決定するように、第1の閾値でフィルタにかけた単語を対象としてもよい。しかしながら、追加的なフィルタリング法を他の実施形態で実施してもよく、本明細書ではこの他の実施形態を詳述しない。
分類モジュール203は空間サブモジュールも含む。第1レベルのベクトル空間の様々なクラスから選択されるように、テキストの単語ベクトルに対して最短距離を有するクラスにテキストを分類した後に、そのクラスがベクトル空間に相当するかどうかを決定するように空間サブモジュールを用いてもよい。相当するという肯定的決定ならば、ベクトル空間にて複数の単語の単語ベクトルを決定するように照会ユニット401が指令を受ける。フィルタリングモジュール207は、単語をフィルタにかけるように用い、計算モジュール202は、単語ベクトルの合計を決定するように用いる。その後、分類モジュール203の分類ユニットは、テキストが分類されるクラスがベクトル空間にもはや相当しなくなるまでの間、単語ベクトルに対して最短距離を有するベクトル空間のクラスにおけるクラスにテキストを分類し直す。
関連テキストが、単語ベクトルの最大の合計を用いて相当するクラスに分類された後に、計算モジュール202は、単語ベクトルの決定に用いられる複数の単語のうちの1以上の単語を削除するようにも用いられる。言い換えれば、フィルタリングによって選択される1以上の単語を計算モジュール202に送った後に、フィルタリングモジュール207は、複数の単語のうちの1以上の選択された単語を削除する。よって、単語の単語ベクトルに関する照会をその後実行するときに、照会ユニット401は、フィルタリングモジュール207によってフィルタにかけて除去(例えば、削除)される単語を考慮しないため、計算量が低減される。
様々な実施形態では、装置を単一のコンピュータに位置付けてもよく、及び/又は装置のモジュールを別のコンピュータに位置付けてもよい。幾つかの実施形態では、装置の機能は、複数のコンピュータの協働によって発揮される。装置のモジュール又はユニットは、ソフトウェア、ハードウェア、又はソフトウェアとハードウェアの組み合わせで実施してもよい。
図5に様々な実施形態に係る例示的なベクトル空間を示す。図5に示すクラス木構造の実施例でが、クラスAとBが第1レベルのベクトル空間S1を構成する。クラスA1とA2が第2レベルのベクトル空間S2を構成する。クラスB1とB2が第2レベルのベクトル空間S3を構成する。クラスA11とA12が第3レベルのベクトル空間S4を構成する。クラスA21とA22が第3レベルのベクトル空間S5を構成する。クラスB11とB12が第3レベルのベクトル空間S6を構成する。クラスB21とB22が第3レベルのベクトル空間S7を構成する。
分類されるテキストを受け取るときに、分割モジュール201は、取得されたテキストのテキスト内容を複数の単語に分割する。計算モジュール202は、第1レベルのベクトル空間S1のクラスAとB下の複数の単語の単語頻度ベクトルの合計を決定してもよく、クラスA下の単語頻度ベクトルの合計は0.85であってもよく、クラスB下の単語頻度ベクトルの合計は0.64であってもよい。そのようなものとして、分類モジュール203はテキストをクラスAに分類してもよく、クラスAは、単語頻度ベクトルの最大の合計に相当する。分類モジュール203は、クラスAが第2レベルのベクトル空間S2に相当することを更に決定する。計算モジュール202は、第2レベルのベクトル空間S2のクラスA1とA2下の複数の単語の単語頻度ベクトルの合計を決定してもよく、クラスA1下の単語頻度ベクトルの合計は0.23であってもよく、クラスA2下の単語頻度ベクトルの合計は0.89であってもよい。その後、分類モジュール203はテキストをクラスA2に分類してもよく、クラスA2は、単語頻度ベクトルの最大の合計に相当する。分類モジュール203は、クラスA2が第3レベルのベクトル空間S5に相当することを更に決定する。計算モジュール202は、第3レベルのベクトル空間S5のクラスA21とA22下の複数の単語の単語頻度ベクトルの合計を決定してもよく、クラスA21下の単語頻度ベクトルの合計は0.95であってもよく、クラスA22下の単語頻度ベクトルの合計は0.67であってもよい。その後、分類モジュール203はテキストをクラスA21に分類し、クラスA21は、単語頻度ベクトルの最大の合計に相当する。
さらに、図5に示す分類の木構造に加えて、本明細書に記載した実施形態で用いた計算次元は6である。しかしながら、従来の技術下での計算次元は8であり、この計算次元8は前者の次元6より明らかに高い。
図1の実施例を参照として用いると、従来の技術を実施する装置がテキストをクラスB1に分類する一方で、本明細書に記載した実施形態の装置はテキストをクラスA1に分類する。その結果、明らかに、本明細書に記載した実施形態の装置によるテキスト分類の方がより正確となる。
上の説明は、テキスト分類装置の内部の構造と機能を説明するものである。以下の説明は、テキスト分類の実施プロセスを説明するものである。
図6を参照すると、様々な実施形態に係るテキスト分類用のプロセス600の主なフローチャートは以下の通りである。
ステップ601では、複数の単語を得るように、受け取られたテキストの内容を分割する。
ステップ602では、ベクトル空間群の第1レベルのベクトル空間にて複数の単語の単語ベクトルの合計を決定する。各ベクトル空間は、クラス木構造の非葉の子クラスである1以上の直接的な子クラスで構成されている。ベクトル空間群は、すべてのベクトル空間で構成されており、第1レベルのベクトル空間は、クラス木構造の最上位レベルのクラスで構成されている。各単語ベクトルは、ベクトル空間の相当するクラスでの単語の単語頻度ベクトルを含む。
ステップ603では、第1レベルのベクトル空間の様々なクラスにおけるクラスにテキストを分類し、このクラスはテキストの単語ベクトルに対して最短距離を有する。
追加実施形態では、データベースに相当するクラス下にテキストを保存してもよい。
ステップ602には複数の実施形態がある。以下は、実施プロセスを詳しく述べる3つの実施形態である。
図7に、フィルタリング閾値によるテキストフィルタリング用のプロセス700のフローチャートを示す。プロセスの詳細は以下の通りである。
ステップ701では、複数の単語を得るように、受け取られたテキストの内容を分割する。
ステップ702では、ベクトル空間群の第1レベルのベクトル空間にて複数の単語の単語ベクトルを決定する。
ステップ703では、複数の単語の各単語に関し、第1レベルのベクトル空間の様々なクラスでの単語の単語頻度ベクトルのうち最大の単語頻度ベクトルと最小の単語頻度ベクトルとの差値が、所定のフィルタリング閾値より高いかどうかを決定する。たとえば、所定のフィルタリング閾値は、総単語コーパス数の10万分の1であってもよい。
ステップ704では、フィルタリング閾値より高い差値を有する各単語に関し、単語の単語頻度ベクトルの合計を得る。
ステップ705では、得られた単語頻度ベクトルの合計から最大値を有する単語頻度ベクトルの合計を決定する。
ステップ706では、最大値を有する単語頻度ベクトルの合計に関連したクラスにテキストを分類する。
図8に、フィルタリング閾値によるテキストフィルタリング用のプロセス800のフローチャートを示す。プロセスの詳細は以下の通りである。
ステップ801では、複数の単語を得るように、受け取られたテキストの内容を分割する。
ステップ802では、ベクトル空間群の第1レベルのベクトル空間にて複数の単語の単語ベクトルを決定する。
ステップ803では、複数の単語の各単語に関し、第1レベルのベクトル空間の様々なクラスでの単語の単語頻度ベクトルのうち第1の最大の単語頻度ベクトルと第2の最大の単語頻度ベクトルとの差値が、所定のフィルタリング閾値より高いかどうかを決定する。たとえば、所定のフィルタリング閾値は、総単語コーパス数の10万分の1であってもよい。
ステップ804では、フィルタリング閾値より高い差値を有する各単語に関し、単語の単語頻度ベクトルの合計を得る。
ステップ805では、得られた単語頻度ベクトルの合計から最大値を有する単語頻度ベクトルの合計を決定する。
ステップ806では、最大値を有する単語頻度ベクトルの合計に関連したクラスにテキストを分類する。
図9に、第1のフィルタリング閾値と第2のフィルタリング閾値によるテキストフィルタリング用の方法のフローチャートを示す。プロセスの詳細は以下の通りである。
ステップ901では、複数の単語を得るように、受け取られたテキストの内容を分割する。
ステップ902では、ベクトル空間群の第1レベルのベクトル空間にて複数の単語の単語ベクトルを決定する。このステップが初回実施されるとき、現時点のベクトル空間のレベルは、空間ベクトル群のうちの第1レベルのベクトル空間である。
ステップ903では、複数の単語の各単語に関し、第1のレベルのベクトル空間の様々なクラスでの単語の単語頻度ベクトルの平均値が、所定の第1のフィルタリング閾値より高いかどうかを決定する。たとえば、所定の第1のフィルタリング閾値は、総単語コーパス数の10万分の1であってもよい。
ステップ904では、単語頻度ベクトルの平均値が第1のフィルタリング閾値より高い各単語に関し、第1レベルのベクトル空間の様々なクラスでの単語の単語頻度ベクトルのうち最大値を有する単語頻度ベクトルが、所定の第2のフィルタリング閾値より高いかどうかを決定する。たとえば、所定の第2のフィルタリング閾値は、総単語コーパス数の10万分の1であってもよい。
ステップ905では、単語頻度ベクトルの最大値が第2のフィルタリング閾値より高い各単語に関し、単語の単語頻度ベクトルの合計を得る。
ステップ906では、得られた単語から差値が第2のフィルタリング閾値より高い単語を削除する。各単語に関する差値は、プロセス700のステップ703に記載したものと同様の方法で導出される。このステップはステップ905と同時に実行してもよい。
ステップ907では、得られた単語頻度ベクトルの合計から最大値を有する単語頻度ベクトルの合計を決定する。
ステップ908では、最大値を有する単語頻度ベクトルの合計に関連したクラスにテキストを分類する。
ステップ909では、テキストが分類されるクラスがベクトル空間に相当するかどうかを決定する。相当するというイエスの場合、現時点のベクトル空間のレベルを置換するベクトル空間を決定し、またステップ902へプロセスは戻る。逆に相当しないというノーの場合、プロセスは終了する。
本開示の実施形態はソフトウェア及び/又はハードウェアによって実施してもよい。本開示の実施形態を実施するソフトウェアは、フロッピーディスク、ハードディスク、ディスク、フラッシュメモリなどの記憶媒体に保存してもよい。
高次元計算では性能が低いという課題に関し、本開示の実施形態は、データ統計の特性を維持できる。従来のテキスト分類技術で要求された単語コーパスの一様性の要件に関し、本明細書に記載した実施形態は、単語コーパス全体に影響し得ない、あるクラスの単語コーパスの非一様性を許容する。あいまいな分類に関し、すなわち、複数のクラス間の単語頻度計算値に差がほとんどないデータ分類に関し、本明細書に記載した実施形態は、単語フィルタリングによってこのようなあいまいな分類の発生率が大幅に減少する。非葉の子クラスに関し重大な認識エラーがあり得るという課題に関し、本明細書に記載した実施形態は、上位から下位までの分類方法を提供するため、認識エラーが大幅に低減される。認識精度への高次元の影響に関し、本明細書に記載した実施形態は、クラスを複数のベクトル空間に分類して、低次元にてベクトル空間モデル(VSM)の精度を維持するため、次元が増えることで精度が落ちるという課題が大幅に低減される。単語選択の最適化に関し、従来のテキスト分類技術では空間次元が非常に高いことで、単語除外の確率を減少させていた。一方で、本明細書に記載した実施形態は複数の低次元ベクトル空間を用いるため、この課題が効果的に解決される。また、本明細書に記載した実施形態は、各クラス分類用の実際の横断次元を減少させる。よって、各クラス分類用の実際の横断範囲は、葉の子クラスの総数より小さくなる。従来のテキスト分類技術と比べて、本明細書に記載した実施形態は、統計の原理に適うより良い立場にあって、より高い認識精度を達成できる。
その結果、本明細書に記載した実施形態が提供するより正確なテキスト分類は、テキスト分類保存とテキスト分類検索の精度の向上にとって有益となる。
本開示の精神及び範囲から逸脱せずに、当業者は多くの異なった方法で本開示を変形又は修正できることが理解される。したがって、これらの修正例及び変形例は、本開示の請求項及びこれら請求項の均等物の範囲内にあるものとみなすべきである。

Claims (17)

  1. テキスト分類のための方法であって、前記方法は、
    コンピュータが、テキストの内容を複数の単語に分割するステップと、
    前記コンピュータが、前記複数の単語をフィルタにかけることにより、複数の所定の単語を選択するステップであって、前記フィルタは、前記複数の単語の分散係数を得て、所定の閾値より高い前記分散係数を有する単語を選択するものである、ステップと、
    前記コンピュータが、複数のベクトル空間を含むベクトル空間群の第1レベルのベクトル空間にて前記複数の所定の単語の複数の単語ベクトルの合計を決定するステップであって、前記複数のベクトル空間の少なくとも1つは、クラス木構造の非葉の子クラスである複数の直接的な子クラスを有し、前記第1レベルのベクトル空間は複数のクラスを有する、ステップと、
    前記コンピュータが、前記単語ベクトルの前記合計に対して最短距離を有する前記複数のクラスにおけるクラスに前記テキストを分類するステップと
    前記テキストを前記クラスに分類した後に、前記コンピュータが、前記クラスが前記第1レベルのベクトル空間に相当するかどうかを決定するステップと、
    前記クラスが前記第1レベルのベクトル空間に相当するときに、前記コンピュータが、前記複数のベクトル空間の追加クラスにて前記複数の所定の単語の単語ベクトルの合計を決定するステップと、
    前記コンピュータが、前記第1レベルのベクトル空間に相当せず、かつ前記単語ベクトルの前記合計の最大合計に対応する前記追加クラスに前記テキストを分類するステップと
    を有することを特徴とする方法。
  2. 前記第1レベルのベクトル空間は、前記クラス木構造の最上位レベルのクラスにあることを特徴とする請求項1に記載の方法。
  3. 単語ベクトルは、前記ベクトル空間の様々なクラスでの前記複数の所定の単語の単語頻度ベクトルを含むことを特徴とする請求項1に記載の方法。
  4. 前記単語ベクトルの前記合計に対して前記最短距離を有する前記クラスに前記テキストを分類するステップは、
    前記複数の所定の単語の各々に関連した前記複数のクラスでの単語頻度ベクトルに対する合計を決定するステップと、
    前記単語頻度ベクトルに対する最大の前記合計に対応するクラスに前記テキストを分類するステップと
    を有することを特徴とする請求項1に記載の方法。
  5. 前記単語ベクトルの前記合計に対して前記最短距離を有する前記クラスに前記テキストを分類するステップは、
    前記複数のクラスでの前記複数の所定の単語の各々に対する単語頻度ベクトルのうち最大の単語頻度ベクトルと最小の単語頻度ベクトルとの差値を決定するステップと、
    所定のフィルタリング閾値より高い前記差値を有する前記複数の所定の単語の各々に対する前記単語頻度ベクトルの合計を決定するステップと、
    最大値を有する、前記単語頻度ベクトルの合計に関連した前記複数のクラスにおけるクラスに前記テキストを分類するステップと
    を有することを特徴とする請求項1に記載の方法。
  6. 前記単語ベクトルの前記合計に対して前記最短距離を有する前記クラスに前記テキストを分類するステップは、
    前記複数のクラスでの前記複数の所定の単語の各々に対する単語頻度ベクトルのうち第1の最大の単語頻度ベクトルと第2の最大の単語頻度ベクトルとの差値を決定するステップと、
    所定のフィルタリング閾値より高い前記差値を有する前記複数の所定の単語の各々に対する前記単語頻度ベクトルの合計を決定するステップと、
    最大値を有する、前記単語頻度ベクトルの合計に関連した前記複数のクラスにおけるクラスに前記テキストを分類するステップと
    を有することを特徴とする請求項1に記載の方法。
  7. 前記単語ベクトルの前記合計に対して前記最短距離を有する前記クラスに前記テキストを分類するステップは、
    前記複数のクラスでの前記複数の所定の単語の各々に対する単語頻度ベクトルの平均値を決定するステップと、
    第1の所定のフィルタリング閾値より高い前記平均値を有する前記複数の所定の単語の各々に対して、前記単語頻度ベクトルの最大値が第2の所定のフィルタリング閾値より高いかどうかを決定するステップと、
    前記第2の所定のフィルタリング閾値より高い前記単語頻度ベクトルの最大値を有する前記複数の所定の単語の各々に対する前記単語頻度ベクトルの合計を決定するステップと、
    最大値を有する、前記単語頻度ベクトルの合計に関連したクラスに前記テキストを分類するステップと
    を有することを特徴とする請求項1に記載の方法。
  8. 前記テキストを前記クラスに分類した後に、前記コンピュータが、前記単語ベクトルの前記合計の決定に用いられる前記複数の所定の単語の少なくとも幾つかを削除するステップを更に有することを特徴とする請求項4に記載の方法。
  9. テキストの内容を複数の単語に分割する分割モジュールと、
    前記複数の単語をフィルタにかけることにより、複数の所定の単語を選択するフィルタリングモジュールであって、前記フィルタは、前記複数の単語の分散係数を得て、所定の閾値より高い前記分散係数を有する単語を選択するものである、フィルタリングモジュールと、
    複数のベクトル空間を含むベクトル空間群の第1レベルのベクトル空間にて複数の所定の単語の単語ベクトルの合計を決定する計算モジュールであって、前記複数のベクトル空間の少なくとも1つは、クラス木構造の非葉の子クラスである複数の直接的な子クラスを有し、前記第1レベルのベクトル空間は複数のクラスを有する、計算モジュールと、
    前記単語ベクトルの前記合計に対して最短距離を有する前記複数のクラスにおけるクラスに前記テキストを分類し、
    前記テキストを前記クラスに分類した後に、前記クラスが前記第1レベルのベクトル空間に相当するかどうかを決定し、
    前記クラスが前記第1レベルのベクトル空間に相当するときに、前記複数のベクトル空間の追加クラスにて前記複数の所定の単語の単語ベクトルの合計を決定し、
    前記第1レベルのベクトル空間に相当せず、かつ前記単語ベクトルの前記合計の最大合計に対応する前記追加クラスに前記テキストを分類する
    分類モジュールと
    を有することを特徴とするテキスト分類用の装置。
  10. 前記第1レベルのベクトル空間は、前記クラス木構造の最上位レベルのクラスにあることを特徴とする請求項に記載の装置。
  11. 前記計算モジュールは、前記複数の所定の単語の各々に関連した前記第1レベルのベクトル空間の前記複数のクラスでの単語頻度ベクトルの合計を更に決定し、
    前記分類モジュールは、前記単語頻度ベクトルの最大の前記合計に対応するクラスに前記テキストを更に分類することを特徴とする請求項に記載の装置。
  12. 前記分類モジュールは、
    前記テキストを前記クラスに分類した後に、前記クラスが前記第1レベルのベクトル空間に相当するかどうかを決定するように、かつ、
    前記クラスが前記第1レベルのベクトル空間に相当するときに、前記複数のベクトル空間の追加クラスにて前記複数の所定の単語の単語ベクトルの合計を決定するように、および、前記第1レベルのベクトル空間に相当せず、かつ前記単語ベクトルの最大合計に対応する前記追加クラスに前記テキストを分類するように更に構成されていることを特徴とする請求項に記載の装置。
  13. 前記計算モジュールは、前記テキストを前記クラスに分類した後に、前記単語ベクトルの前記合計の決定に用いられる前記複数の所定の単語の少なくとも幾つかを削除するように更に構成されていることを特徴とする請求項12に記載の装置。
  14. 前記複数のクラスでの前記複数の所定の単語の各々に対して単語頻度ベクトルの平均値を決定する第1のフィルタリングモジュールと、
    第1の所定のフィルタリング閾値より高い前記平均値を有する前記複数の所定の単語の各々に関し、前記単語頻度ベクトルの最大値が第2の所定のフィルタリング閾値より高いかどうかを決定する第2のフィルタリングモジュールと
    を更に有し、
    前記計算モジュールは、前記第2の所定のフィルタリング閾値より高い前記単語頻度ベクトルの最大値を有する前記複数の所定の単語の各々に対する前記単語頻度ベクトルの合計を更に決定し、前記分類モジュールは、最大値を有する、前記単語頻度ベクトルの合計に関連した前記複数のクラスにおけるクラスに前記テキストを更に分類することを特徴とする請求項に記載の装置。
  15. テキスト分類のための方法であって、前記方法は、
    コンピュータが、複数のクラスに分類用のテキストを受信させるステップであって、前記複数のクラスの少なくとも1つは、クラス木構造の非葉の子クラスである複数の直接的な子クラスを含む、ステップと、
    前記コンピュータが、前記受信したテキストの内容を複数の単語に分割するステップであって、前記複数の単語の各々は単語頻度ベクトルを有する、ステップと、
    前記コンピュータが、前記複数の単語をフィルタにかけることにより、複数の所定の単語を選択するステップであって、前記フィルタは、前記複数の単語の分散係数を得て、所定の閾値より高い前記分散係数を有する単語を選択するものである、ステップと、
    前記コンピュータが、前記複数の所定の単語の各々に対する前記単語頻度ベクトルの合計を決定するステップと、
    前記コンピュータが、最大値を有する、前記合計に関連した前記複数のクラスにおけるクラスに前記テキストを分類するステップと
    前記テキストを前記クラスに分類した後に、前記コンピュータが、前記クラスが複数のベクトル空間を含むベクトル空間群の第1レベルのベクトル空間に相当するかどうかを決定するステップであって、前記複数のベクトル空間の少なくとも1つは、前記子クラスを有し、前記第1レベルのベクトル空間は複数のクラスを有する、ステップと、
    前記クラスが前記第1レベルのベクトル空間に相当するときに、前記コンピュータが、前記複数のベクトル空間の追加クラスにて前記複数の所定の単語の単語ベクトルの合計を決定するステップと、
    前記コンピュータが、前記第1レベルのベクトル空間に相当せず、かつ前記単語ベクトルの前記合計の最大合計に対応する前記追加クラスに前記テキストを分類するステップと
    を有することを特徴とする方法。
  16. 前記テキストを分類するステップは、前記複数のクラスでの前記複数の所定の単語の各々に対する前記単語頻度ベクトルのうち最大の単語頻度ベクトルと最小の単語頻度ベクトルとの差値を決定するステップを含むことを特徴とする請求項15に記載の方法。
  17. 各複数の単語について前記テキストを分類するステップは、前記複数のクラスでの前記複数の所定の単語の各々に対する前記単語頻度ベクトルのうち第1の最大の単語頻度ベクトルと第2の最大の単語頻度ベクトルとの差値を決定するステップを含むことを特徴とする請求項15に記載の方法。
JP2012551962A 2010-02-02 2010-11-02 テキスト分類の方法及びシステム Active JP5792747B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN2010101113653A CN102141978A (zh) 2010-02-02 2010-02-02 一种文本分类的方法及系统
CN201010111365.3 2010-02-02
PCT/US2010/055057 WO2011096969A1 (en) 2010-02-02 2010-11-02 Method and system for text classification

Publications (2)

Publication Number Publication Date
JP2013519152A JP2013519152A (ja) 2013-05-23
JP5792747B2 true JP5792747B2 (ja) 2015-10-14

Family

ID=44355709

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012551962A Active JP5792747B2 (ja) 2010-02-02 2010-11-02 テキスト分類の方法及びシステム

Country Status (5)

Country Link
US (1) US8478054B2 (ja)
EP (1) EP2531907A4 (ja)
JP (1) JP5792747B2 (ja)
CN (1) CN102141978A (ja)
WO (1) WO2011096969A1 (ja)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246686A (zh) * 2012-02-14 2013-08-14 阿里巴巴集团控股有限公司 文本分类方法和装置及文本分类的特征处理方法和装置
CN103092975A (zh) * 2013-01-25 2013-05-08 武汉大学 基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法
CN105677677A (zh) * 2014-11-20 2016-06-15 阿里巴巴集团控股有限公司 一种信息分类方法及装置
JP6429383B2 (ja) * 2015-01-13 2018-11-28 日本放送協会 下位表現抽出装置およびプログラム
CN105005589B (zh) * 2015-06-26 2017-12-29 腾讯科技(深圳)有限公司 一种文本分类的方法和装置
US10268965B2 (en) 2015-10-27 2019-04-23 Yardi Systems, Inc. Dictionary enhancement technique for business name categorization
US11216718B2 (en) 2015-10-27 2022-01-04 Yardi Systems, Inc. Energy management system
US10274983B2 (en) 2015-10-27 2019-04-30 Yardi Systems, Inc. Extended business name categorization apparatus and method
US10275708B2 (en) 2015-10-27 2019-04-30 Yardi Systems, Inc. Criteria enhancement technique for business name categorization
US20170115683A1 (en) * 2015-10-27 2017-04-27 Pulse Energy Inc. Interpolative vertical categorization mechanism for energy management
US10275841B2 (en) 2015-10-27 2019-04-30 Yardi Systems, Inc. Apparatus and method for efficient business name categorization
CN105975857A (zh) * 2015-11-17 2016-09-28 武汉安天信息技术有限责任公司 基于深度学习方法推断恶意代码规则的方法及系统
CN105468713B (zh) * 2015-11-19 2018-07-17 西安交通大学 一种多模型融合的短文本分类方法
CN106997340B (zh) * 2016-01-25 2020-07-31 阿里巴巴集团控股有限公司 词库的生成以及利用词库的文档分类方法及装置
US20170212875A1 (en) * 2016-01-27 2017-07-27 Microsoft Technology Licensing, Llc Predictive filtering of content of documents
CN107436875B (zh) * 2016-05-25 2020-12-04 华为技术有限公司 文本分类方法及装置
US10425433B2 (en) 2016-11-18 2019-09-24 Bank Of America Corporation Network security database filtering tool
US10798534B2 (en) * 2017-05-31 2020-10-06 Inteliquent, Inc. Content-based routing and rating of messages in a telecommunications network
CN107239574B (zh) * 2017-06-29 2018-11-02 北京神州泰岳软件股份有限公司 一种智能问答系统知识-问题匹配的方法及装置
US10896385B2 (en) 2017-07-27 2021-01-19 Logmein, Inc. Real time learning of text classification models for fast and efficient labeling of training data and customization
CN108021667A (zh) * 2017-12-05 2018-05-11 新华网股份有限公司 一种文本分类方法和装置
CN108334605B (zh) * 2018-02-01 2020-06-16 腾讯科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CN108829818B (zh) * 2018-06-12 2021-05-25 中国科学院计算技术研究所 一种文本分类方法
CN109284382B (zh) * 2018-09-30 2021-05-28 武汉斗鱼网络科技有限公司 一种文本分类方法及计算装置
CN110069624B (zh) * 2019-04-28 2021-05-04 北京小米智能科技有限公司 文本处理方法及装置
CN110309304A (zh) * 2019-06-04 2019-10-08 平安科技(深圳)有限公司 一种文本分类方法、装置、设备及存储介质
CN111126062B (zh) * 2019-12-25 2021-09-24 北京中技华软科技服务有限公司 一种产业自动分类方法及系统
CN113626587B (zh) * 2020-05-08 2024-03-29 武汉金山办公软件有限公司 一种文本类别识别方法、装置、电子设备及介质
CN112101484B (zh) * 2020-11-10 2021-02-12 中国科学院自动化研究所 基于知识巩固的增量事件识别方法、系统、装置
CN112699944B (zh) * 2020-12-31 2024-04-23 中国银联股份有限公司 退单处理模型训练方法、处理方法、装置、设备及介质
US11281858B1 (en) * 2021-07-13 2022-03-22 Exceed AI Ltd Systems and methods for data classification
US20240089275A1 (en) * 2022-09-09 2024-03-14 International Business Machines Corporation Log anomaly detection in continuous artificial intelligence for it operations

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5371807A (en) 1992-03-20 1994-12-06 Digital Equipment Corporation Method and apparatus for text classification
JP2978044B2 (ja) * 1993-10-18 1999-11-15 シャープ株式会社 文書分類装置
US6185550B1 (en) 1997-06-13 2001-02-06 Sun Microsystems, Inc. Method and apparatus for classifying documents within a class hierarchy creating term vector, term file and relevance ranking
US6137911A (en) 1997-06-16 2000-10-24 The Dialog Corporation Plc Test classification system and method
US6253169B1 (en) 1998-05-28 2001-06-26 International Business Machines Corporation Method for improvement accuracy of decision tree based text categorization
JP2000181936A (ja) * 1998-12-17 2000-06-30 Nippon Telegr & Teleph Corp <Ntt> 文書特徴抽出装置および文書分類装置
US6611825B1 (en) * 1999-06-09 2003-08-26 The Boeing Company Method and system for text mining using multidimensional subspaces
US7644057B2 (en) 2001-01-03 2010-01-05 International Business Machines Corporation System and method for electronic communication management
US6868411B2 (en) 2001-08-13 2005-03-15 Xerox Corporation Fuzzy text categorizer
US6978274B1 (en) * 2001-08-31 2005-12-20 Attenex Corporation System and method for dynamically evaluating latent concepts in unstructured documents
US7152065B2 (en) * 2003-05-01 2006-12-19 Telcordia Technologies, Inc. Information retrieval and text mining using distributed latent semantic indexing
US20080097937A1 (en) * 2003-07-10 2008-04-24 Ali Hadjarian Distributed method for integrating data mining and text categorization techniques
US20080215313A1 (en) * 2004-08-13 2008-09-04 Swiss Reinsurance Company Speech and Textual Analysis Device and Corresponding Method
US20060142993A1 (en) 2004-12-28 2006-06-29 Sony Corporation System and method for utilizing distance measures to perform text classification
JP2006251975A (ja) * 2005-03-09 2006-09-21 Omron Corp テキスト分類方法ならびにその方法によるプログラム、およびテキスト分類装置
US7752204B2 (en) 2005-11-18 2010-07-06 The Boeing Company Query-based text summarization
JP4635891B2 (ja) * 2006-02-08 2011-02-23 ソニー株式会社 情報処理装置および方法、並びにプログラム
US7756881B2 (en) * 2006-03-09 2010-07-13 Microsoft Corporation Partitioning of data mining training set
US7529719B2 (en) 2006-03-17 2009-05-05 Microsoft Corporation Document characterization using a tensor space model
US7519619B2 (en) 2006-08-21 2009-04-14 Microsoft Corporation Facilitating document classification using branch associations
US20090094177A1 (en) 2007-10-05 2009-04-09 Kazuo Aoki Method for efficient machine-learning classification of multiple text categories

Also Published As

Publication number Publication date
WO2011096969A9 (en) 2011-09-29
EP2531907A1 (en) 2012-12-12
US20120288207A1 (en) 2012-11-15
CN102141978A (zh) 2011-08-03
EP2531907A4 (en) 2014-09-10
JP2013519152A (ja) 2013-05-23
WO2011096969A1 (en) 2011-08-11
US8478054B2 (en) 2013-07-02

Similar Documents

Publication Publication Date Title
JP5792747B2 (ja) テキスト分類の方法及びシステム
US10013637B2 (en) Optimizing multi-class image classification using patch features
CN111079780B (zh) 空间图卷积网络的训练方法、电子设备及存储介质
WO2020114108A1 (zh) 聚类结果的解释方法和装置
TWI464604B (zh) 資料分群方法與裝置、資料處理裝置及影像處理裝置
WO2014118980A1 (ja) 情報変換方法、情報変換装置および情報変換プログラム
CN110751027B (zh) 一种基于深度多示例学习的行人重识别方法
JPWO2013129580A1 (ja) 近似最近傍探索装置、近似最近傍探索方法およびそのプログラム
CN109918498B (zh) 一种问题入库方法和装置
WO2023108995A1 (zh) 向量相似度计算方法、装置、设备及存储介质
JP2013206187A (ja) 情報変換装置、情報検索装置、情報変換方法、情報検索方法、情報変換プログラム、情報検索プログラム
WO2022088390A1 (zh) 图像的增量聚类方法、装置、电子设备、存储介质及程序产品
JP6561504B2 (ja) データ配置プログラム、データ配置方法およびデータ配置装置
JP2023510945A (ja) シーン識別方法及びその装置、インテリジェントデバイス、記憶媒体並びにコンピュータプログラム
TWI711934B (zh) 嵌入結果的解釋方法和裝置
CN110580252A (zh) 多目标优化下的空间对象索引与查询方法
CN113283351A (zh) 一种使用cnn优化相似度矩阵的视频抄袭检测方法
CN109409381A (zh) 基于人工智能的家具顶视图的分类方法及系统
CN112639761A (zh) 一种为数据建立索引的方法以及装置
CN102254040A (zh) 一种基于支撑向量机的Web划分方法
CN108090182B (zh) 一种大规模高维数据的分布式索引方法及系统
CN111368109B (zh) 遥感图像检索方法、装置、计算机可读存储介质及设备
CN113204664B (zh) 一种图像聚类方法及装置
CN109766913B (en) User grouping method, device, computer readable storage medium and electronic equipment
Dik et al. Fractional metrics for fuzzy c-means

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131004

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140307

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140401

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140701

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141224

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20150324

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150423

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150707

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150806

R150 Certificate of patent or registration of utility model

Ref document number: 5792747

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250