JP2013519152A - テキスト分類の方法及びシステム - Google Patents

テキスト分類の方法及びシステム Download PDF

Info

Publication number
JP2013519152A
JP2013519152A JP2012551962A JP2012551962A JP2013519152A JP 2013519152 A JP2013519152 A JP 2013519152A JP 2012551962 A JP2012551962 A JP 2012551962A JP 2012551962 A JP2012551962 A JP 2012551962A JP 2013519152 A JP2013519152 A JP 2013519152A
Authority
JP
Japan
Prior art keywords
words
classes
class
text
sum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012551962A
Other languages
English (en)
Other versions
JP5792747B2 (ja
Inventor
シアン ソン
Original Assignee
アリババ グループ ホールディング リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アリババ グループ ホールディング リミテッド filed Critical アリババ グループ ホールディング リミテッド
Publication of JP2013519152A publication Critical patent/JP2013519152A/ja
Application granted granted Critical
Publication of JP5792747B2 publication Critical patent/JP5792747B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本開示は、改良された分類精度を有して、簡略化されたテキスト分類を開示する。複数の単語を得るように受け取られたテキストの内容を分割する。ベクトル空間群の第1レベルのベクトル空間にて複数の単語の単語ベクトルの合計を決定する。ベクトル空間群のベクトル空間は、クラス木構造の非葉の子クラスである1以上の直接的な子クラスで構成されている。単語ベクトルの合計に対して最短距離を有する第1レベルのベクトル空間の様々なクラスにおけるクラスにテキストを分類する。

Description

(関連出願への相互参照)
本願は、2010年2月2日出願、発明の名称「テキスト分類の方法及びシステム」の中国特許出願第201010111365.3号の優先権を主張し、その全体を本明細書に援用する。
本開示はコンピュータ及びコミュニケーション分野に関し、特にテキスト分類の方法及びシステムに関する。
テキスト分類はテキストマイニングの重要な一面である。テキストマイニングとは、所定の対象の分類クラスに従って設定されたテキストにおける各テキストの分類を言う。自動テキスト分類システムを用いたテキストの分類によって、ユーザが必要な情報と知識をより上手く位置付けできる。ユーザの観点からすると、分類とは、基本的に文章の情報を認識することである。従来のテキスト分類技術では、公正な分類結果が提供されてきた。しかしながら、文章の情報の利用可能性の増加、特にインターネット上のオンライン文章の情報の急激な増加に従い、自動テキスト分類は、大量のテキストデータの処理と組織化用の主要技術になってきている。現在、テキスト分類は、多様な分野で広く用いられている。文章の情報量の増加に伴って、ユーザは、テキスト分類により高い精度と完全性を求めるようになってきた。したがって、テキスト分類技術の改良の必要性も増してきている。しかしながら、実効性のあるテキスト分類技術の定式化は、テキストマイニングの研究の活動領域のままである。
そこで、本開示は、テキストのテキスト分類の方法及びシステムを提供することを目的とする。また、本方法及びシステムは、精度を向上でき、かつテキスト分類のプロセスを簡略化できる。
一態様では、テキスト分類用の方法が、受け取られたテキストの内容を複数の単語に分割することを含む。第1レベルのベクトル空間にて複数の単語の複数の単語ベクトルの合計を決定する。第1レベルのベクトル空間は、複数のベクトルを含むベクトル空間群の一部である。複数のベクトル空間の少なくとも1つは、木構造の葉の子クラスである1以上の直接的な子クラスを含む。単語ベクトルの合計に対して最短距離を有する複数のクラスにおけるクラスにテキストを分類する。
別の態様では、テキスト分類用の装置が、受け取られたテキストの内容を複数の単語に分割する分割モジュールを含む。この装置は、第1レベルのベクトル空間にて複数の単語の複数の単語ベクトルの合計を決定する計算モジュールを更に含む。第1レベルのベクトル空間は、複数のベクトルを含むベクトル空間群の一部である。複数のベクトル空間の少なくとも1つは、木構造の葉の子クラスである1以上の直接的な子クラスを含む。また、この装置は、単語ベクトルの合計に対して最短距離を有する複数のクラスにおけるクラスにテキストを分類する計算モジュールを含む。
さらに別の態様では、受け取られたテキストのテキスト内容を複数の単語を得るように分割する。次に、ベクトル空間群の第1レベルのベクトル空間にて複数の単語の単語ベクトルの合計を得る。その後、テキストの単語ベクトルの合計に対して最短距離を有する第1レベルのベクトル空間のクラスにおけるクラスにテキストを分類する。したがって、このような実施形態では、第1レベルのベクトル空間から開始するトップダウン分類方法が実行される。さらに、総計算量は、上位から下位までの経路でのベクトル空間のすべての次元の合計に等しい。
これに対し、従来のテキスト分類技術は、テキストを分類する葉の子クラスを含むベクトル空間のみを用いる。言い換えれば、従来のテキスト分類技術は、テキスト分類に親クラスを用いない。その代わりに、従来のテキスト分類技術は、テキスト分類用の葉の子クラスに関連したベクトル空間のみをテキスト分類に使用できる。
よって、従来のテキスト分類技術は、初めに、多数の分類クラスを予め形成し、統計と学習アルゴリズムを用いて、各クラスでの一組の単語の各々について単語頻度値を決定することを含み得る。次に、受け取られたテキストの内容を複数の単語を得るように分割する。さらに、従来の分類の技術は、各分類クラスに関し、各クラスにて複数の単語のうちの1以上の単語の単語頻度値の合計を計算し得る。したがって、最大の合計を有する分類クラスが、テキスト用の分類クラスとなる。
1つのクラスしかないか、或いは親クラスが1つの子クラスのみを有するときに、本明細書に記載した実施形態の総計算量(すなわち、上位から下位までの経路でのベクトル空間の次元の合計)は、従来の技術を用いたテキスト分類の総計算量(すなわち、すべての葉クラスの次元)より多くなり得る。しかしながら、テキスト分類では、1つのクラスしかないか、或いは親クラスが1つの子クラスのみを有するケースはあり得ない。これは、テキスト分類の実際の適用は、一般にこのような分類スキームを用いないためである。よって、本明細書に記載した実施形態に用いた計算量は、従来のテキスト分類技術で用いた計算量より少なくなる。さらに、本明細書に記載した実施形態での各ベクトル空間の次元は、従来のテキスト分類技術で用いるものよりはるかに少ない。したがって、本明細書に記載した実施形態を用いることで、テキスト分類におけるエラーを低減でき、テキスト分類の精度を向上できる。
現在の技術を用いたテキスト分類の図を示す。 様々な実施形態に係るテキスト分類用の例示的な装置の図を示す。 様々な実施形態に係るテキスト分類用の例示的な装置の詳細図を示す。 様々な実施形態に係る例示的な計算モジュールの図を示す。 様々な実施形態に係る例示的なベクトル空間を示す。 様々な実施形態に係る例示的なテキスト分類プロセスのフローチャートを示す。 様々な実施形態に係る第1のフィルタリング閾値例によってテキストをフィルタにかける例示的なテキストフィルタリングプロセスのフローチャートを示す。 様々な実施形態に係る第2のフィルタリング閾値例によってテキストをフィルタにかける例示的なテキストフィルタリングプロセスのフローチャートを示す。 様々な実施形態に係る第1のフィルタリング閾値例と第2のフィルタリング閾値例によってテキストをフィルタにかける例示的なテキストフィルタリングプロセスのフローチャートを示す。
本明細書に記載した実施形態は、テキスト分類用のシステム及び方法に関する。このような実施形態では、テキスト分類に用いる各ベクトル空間が、非葉の子クラスである直接的な子クラスを有するクラス木構造を含んでいてもよい。第1レベルのベクトル空間は、クラス木構造の最上位レベルのクラスで構成されている。さらに、所定数のベクトル空間は、ベクトル空間群を構成していてもよい。各ベクトル空間の次元数は、各ベクトル空間のクラス数に等しい。
幾つかの実施形態では、受け取られたテキストのテキスト内容を複数の単語を得るように分割する。次に、ベクトル空間群の第1レベルのベクトル空間にて複数の単語の単語ベクトルの合計を得る。その後、テキストの単語ベクトルの合計に対して最短距離を有する第1レベルのベクトル空間のクラスにおけるクラスにテキストを分類する。したがって、このような実施形態では、第1レベルのベクトル空間から開始するトップダウン分類方法が実行される。さらに、総計算量は、上位から下位までの経路でのベクトル空間のすべての次元の合計に等しい。
これに対し、従来のテキスト分類技術は、テキストを分類する葉の子クラスを含むベクトル空間のみを用いる。言い換えれば、従来のテキスト分類技術は、テキスト分類に親クラスを用いない。その代わりに、従来のテキスト分類技術は、テキスト分類用の葉の子クラスに関連したベクトル空間のみをテキスト分類に使用できる。
よって、従来のテキスト分類技術は、初めに、多数の分類クラスを予め形成し、統計と学習アルゴリズムを用いて、各クラスでの一組の単語の各々について単語頻度値を決定することを含み得る。次に、受け取られたテキストの内容を複数の単語を得るように分割する。さらに、従来の分類の技術は、各分類クラスに関し、各クラスにて複数の単語のうちの1以上の単語の単語頻度値の合計を計算し得る。したがって、最大の合計を有する分類クラスが、テキスト用の分類クラスとなる。
しかしながら、図1に示す状況が起こり得る。図1に示すように、四角AとBが2つのクラスを表す。四角A1とA2がクラスA下の2つの子クラスを表し、四角B1とB2がクラスB下の2つの子クラスを表す。さらに、各四角の数は、相当する各クラスでの特定の単語の単語頻度値を表す。従来のテキスト分類技術を用いると、特定の単語を含むテキストは、子供分類クラスB1に分類される傾向にある。しかしながら、特定の単語は、子クラスに関してはB1で最大の単語頻度値を有するものの、クラスAでの特定の単語の単語頻度値の方が、クラスBでの単語頻度値よりはるかに大きい。そのため、特定の単語を含むテキストをクラスAかクラスA1に分類する方が、より適切である。
したがって、従来のテキスト分類技術を用いるテキスト分類は、十分には正確でない。また、多くのクラスがあるときに、各クラスでの複数の単語の単語頻度値の合計を計算する計算量は膨大であって、テキスト分類エラーを著しく増大させ得る。
1つのクラスしかないか、或いは親クラスが1つの子クラスのみを有するときに、本明細書に記載した実施形態の総計算量(すなわち、上位から下位までの経路でのベクトル空間の次元の合計)は、従来の技術を用いたテキスト分類の総計算量(すなわち、すべての葉クラスの次元)より多くなり得る。しかしながら、テキスト分類では、1つのクラスしかないか、或いは親クラスが1つの子クラスのみを有するケースはあり得ない。これは、テキスト分類の実際の適用は、一般にこのような分類スキームを用いないためである。よって、本明細書に記載した実施形態に用いた計算量は、従来のテキスト分類技術で用いた計算量より少なくなる。さらに、本明細書に記載した実施形態での各ベクトル空間の次元は、従来のテキスト分類技術で用いるものよりはるかに少ない。したがって、本明細書に記載した実施形態を用いることで、テキスト分類におけるエラーを低減でき、テキスト分類の精度を向上できる。
図2に、様々な実施形態に係るテキスト分類用の例示的な装置の図を示す。図2に示すように、テキスト分類用の装置は、分割モジュール201、計算モジュール202、及び分類モジュール203を少なくとも含む。
分割モジュール201は、受け取られたテキストの内容を複数の単語に分割するための手段である。
計算モジュール202は、ベクトル空間群の第1レベルのベクトル空間にて複数の単語の単語ベクトルの合計を決定するための手段である。第1レベルのベクトル空間は、クラス木構造の最上位レベルのクラスで構成されている。ベクトル空間群は、すべてのベクトル空間で構成されているとともに、クラス木構造の非葉の子クラスである1以上の直接的な子クラスで構成された少なくとも1つのベクトル空間を含んでいてもよい。
各単語ベクトルは、ベクトル空間のあらゆるクラスに相当する単語の単語頻度ベクトルを含む。各単語頻度ベクトルは、クラスでの相当単語の単語頻度統計量であり、この単語頻度統計量は、クラスでの相当単語の単語頻度統計量の量子化の後に得てもよい。様々なクラス各々での単語の単語頻度統計量の量子化中に、量子化は、1つのプリセットデフォルト量子化機能又は複数の異なったプリセット量子化機能を用いてもよい。
分類モジュール203は、第1レベルのベクトル空間の様々なクラスにおけるクラスにテキストを分類するための手段であり、このクラスは、テキストの単語ベクトルの合計に対して最短距離を有する。
分類プロセスを簡略化するために、計算モジュール202は、第1レベルのベクトル空間にて複数の単語の各々に関する単語ベクトル成分の合計(すなわち、各単語に関する様々なクラスでの単語頻度ベクトルの合計)を決定してもよい。分類モジュール203は、単語ベクトル成分の最大の合計に相当するクラスにテキストを分類する。たとえば、ベクトル空間の単語の単語ベクトルをWmn={Vmn1、Vmn2、…、VmnN}と表してもよく、ここで、Viはベクトル空間のクラスCi(i=1からN)での単語頻度ベクトルと表してもよく、Nはベクトル空間のクラスの総数を表してもよく、mはm番目の単語を表してもよく、nはn番目のベクトル空間を表してもよい。したがって、テキストDとクラスCiとの距離がΣWmnとクラスCiとの距離であってもよく、この距離は、距離=ΣWmn−Ci={ΣVn1、ΣVn2、…、ΣVnN}−Ciと表してもよい。
幾つかの実施形態では、図3を参照すると、装置はインタフェースモジュール204、構成モジュール205、保存モジュール206、及びフィルタリングモジュール207も含んでいてよい。
インタフェースモジュール204はテキストを取得するための手段である。インタフェースモジュール204は、分類されるテキストを装置外で得るように有線又は無線の方法を用いてもよい。
構成モジュール205は、ベクトル空間群を構成するための手段である。様々な実施形態では、クラス木構造を予め形成してもよい。構成モジュール205は、クラス木構造の各非葉のサブクラスに関するベクトル空間を構成する。各ベクトル空間の次元は、各ベクトル空間の直接的な子クラス(再帰的な子クラスを除く)の数である。各ベクトル空間の要素は、直接的な子クラスの各単語の単語頻度ベクトル(特に、統計により取得可能な単語頻度値の単語頻度統計量又は量子化)を含んでいてもよい。統計によって、又は親クラスの直接的な子クラスでの単語の単語頻度ベクトルの合計を得ることによって、親クラスでの単語の単語頻度ベクトルを独立して計算してもよい。構成モジュール205は、すべてのベクトル空間をベクトル空間群に組み合わせる。ベクトル空間群における空間の数は、すべての非葉の子クラスの数に等しい。ベクトル空間群の次元は、すべてのベクトル空間の次元の合計に等しい。特に、例えば、N個の非葉の子クラスC1、C2、…、CNがあってもよい。各非葉の子クラスCiは、Mi個の直接的な子クラスCi1、Ci2、…、CiMiを含んでいてもよい。各非葉の子クラスCiについて、そのベクトル空間をSi={Ci1、Ci2、…、CiMi}と表してもよく、ここでのベクトル空間の次元はMに等しい。ベクトル空間群をG={S1、S2、…、SN}と表してもよく、ここでのベクトル空間群の次元はNに等しく、N=ΣMiであって、実際(ルートクラスが頻繁にあるというわけではないとき)は、すべてのクラス数M−1の数に等しい。
保存モジュール206は、ベクトル空間群を保存して、クラス単位でテキストを保存するための手段である。
フィルタリングモジュール207は、フィルタにかけられた複数の単語を得るように得られた複数の単語をフィルタにかけるための手段である。図4を参照すると、フィルタリングモジュール207は、第1のフィルタリングユニット401、第2のフィルタリングユニット402、及び第3のフィルタリングユニット403を含む。
第1のフィルタリングユニット401は、第1レベルのベクトル空間のクラスでの単語の単語頻度ベクトルの平均値が所定の第1のフィルタリング閾値より高いかどうかを決定するように、第1レベルのベクトル空間のクラスにある各単語を対象とする。そのため、このような実施形態では、計算モジュール202は、第1レベルのベクトル空間での第1のフィルタリング閾値より高い平均値を有する単語の単語ベクトルの合計を決定するように代替的に構成していてもよい。たとえば、第1のフィルタリング閾値は、総単語コーパス数の10万分の1であってもよい。
第2のフィルタリングユニット402は、単語の単語頻度ベクトルの最大値が所定の第2のフィルタリング閾値より高いかどうかを決定するように、第1レベルのベクトル空間のクラスにある各単語を対象とする。そのため、このような実施形態では、計算モジュール202は、第1レベルのベクトル空間での第2のフィルタリング閾値より高い単語頻度ベクトルの最大値を有する単語の単語ベクトルの合計を決定するように代替的に構成していてもよい。たとえば、第2のフィルタリング閾値は、総単語コーパス数の10万分の1であってもよい。
第3のフィルタリングユニット403は、第1レベルのベクトル空間での単語の分散係数を得て、各分散係数が所定の分散係数閾値(0.5など)より高いかどうかを決定するように、各単語を対象とする。そのため、このような実施形態では、計算モジュール202は、第1レベルのベクトル空間での分散係数閾値より高い分散係数を有する単語の単語ベクトルの合計を決定するように代替的に構成していてもよい。分散係数によって、様々なクラス間での単語頻度の変化がほとんどない単語(例えば、「あなた」又は「私」の単語頻度は様々なクラスにおいて基本的に同一である)をフィルタにかけて除去してもよい。また、様々なクラス間での単語頻度の変化が著しい単語(用語関連の特定のクラスでの単語頻度値が他のクラスでの単語頻度値より明らかに高い用語など)は保持される。様々なクラス間での単語頻度の変化が著しい単語は、1以上のクラスで出現してもよい。このような単語は、他の単語よりテキスト分類の精度に更に寄与できる。このように、本明細書に記載した実施形態は、このような単語を良い単語をみなすことができ、更にはフィルタリングでこのような単語を選択できる。
第1のフィルタリングユニット401と第2のフィルタリングユニット402は、同時に用いてもよい。たとえば、第1のフィルタリングユニット401は、第1レベルのベクトル空間のクラスでの単語の単語頻度ベクトルの平均値が所定の第1のフィルタリング閾値より高いかどうかを決定するように、各単語を対象としてもよい。第2のフィルタリングユニット402は、第1レベルのベクトル空間のクラスでの単語の単語頻度ベクトルの最大値が所定の第2のフィルタリング閾値より高いかどうかを決定するように、第1の閾値でフィルタにかけた単語を対象としてもよい。しかしながら、追加的なフィルタリング法を他の実施形態で実施してもよく、本明細書ではこの他の実施形態を詳述しない。
分類モジュール203は空間サブモジュールも含む。第1レベルのベクトル空間の様々なクラスから選択されるように、テキストの単語ベクトルに対して最短距離を有するクラスにテキストを分類した後に、そのクラスがベクトル空間に相当するかどうかを決定するように空間サブモジュールを用いてもよい。相当するという肯定的決定ならば、ベクトル空間にて複数の単語の単語ベクトルを決定するように照会ユニット401が指令を受ける。フィルタリングモジュール207は、単語をフィルタにかけるように用い、計算モジュール202は、単語ベクトルの合計を決定するように用いる。その後、分類モジュール203の分類ユニットは、テキストが分類されるクラスがベクトル空間にもはや相当しなくなるまでの間、単語ベクトルに対して最短距離を有するベクトル空間のクラスにおけるクラスにテキストを分類し直す。
関連テキストが、単語ベクトルの最大の合計を用いて相当するクラスに分類された後に、計算モジュール202は、単語ベクトルの決定に用いられる複数の単語のうちの1以上の単語を削除するようにも用いられる。言い換えれば、フィルタリングによって選択される1以上の単語を計算モジュール202に送った後に、フィルタリングモジュール207は、複数の単語のうちの1以上の選択された単語を削除する。よって、単語の単語ベクトルに関する照会をその後実行するときに、照会ユニット401は、フィルタリングモジュール207によってフィルタにかけて除去(例えば、削除)される単語を考慮しないため、計算量が低減される。
様々な実施形態では、装置を単一のコンピュータに位置付けてもよく、及び/又は装置のモジュールを別のコンピュータに位置付けてもよい。幾つかの実施形態では、装置の機能は、複数のコンピュータの協働によって発揮される。装置のモジュール又はユニットは、ソフトウェア、ハードウェア、又はソフトウェアとハードウェアの組み合わせで実施してもよい。
図5に様々な実施形態に係る例示的なベクトル空間を示す。図5に示すクラス木構造の実施例でが、クラスAとBが第1レベルのベクトル空間S1を構成する。クラスA1とA2が第2レベルのベクトル空間S2を構成する。クラスB1とB2が第2レベルのベクトル空間S3を構成する。クラスA11とA12が第3レベルのベクトル空間S4を構成する。クラスA21とA22が第3レベルのベクトル空間S5を構成する。クラスB11とB12が第3レベルのベクトル空間S6を構成する。クラスB21とB22が第3レベルのベクトル空間S7を構成する。
分類されるテキストを受け取るときに、分割モジュール201は、取得されたテキストのテキスト内容を複数の単語に分割する。計算モジュール202は、第1レベルのベクトル空間S1のクラスAとB下の複数の単語の単語頻度ベクトルの合計を決定してもよく、クラスA下の単語頻度ベクトルの合計は0.85であってもよく、クラスB下の単語頻度ベクトルの合計は0.64であってもよい。そのようなものとして、分類モジュール203はテキストをクラスAに分類してもよく、クラスAは、単語頻度ベクトルの最大の合計に相当する。分類モジュール203は、クラスAが第2レベルのベクトル空間S2に相当することを更に決定する。計算モジュール202は、第2レベルのベクトル空間S2のクラスA1とA2下の複数の単語の単語頻度ベクトルの合計を決定してもよく、クラスA1下の単語頻度ベクトルの合計は0.23であってもよく、クラスA2下の単語頻度ベクトルの合計は0.89であってもよい。その後、分類モジュール203はテキストをクラスA2に分類してもよく、クラスA2は、単語頻度ベクトルの最大の合計に相当する。分類モジュール203は、クラスA2が第3レベルのベクトル空間S5に相当することを更に決定する。計算モジュール202は、第3レベルのベクトル空間S5のクラスA21とA22下の複数の単語の単語頻度ベクトルの合計を決定してもよく、クラスA21下の単語頻度ベクトルの合計は0.95であってもよく、クラスA22下の単語頻度ベクトルの合計は0.67であってもよい。その後、分類モジュール203はテキストをクラスA21に分類し、クラスA21は、単語頻度ベクトルの最大の合計に相当する。
さらに、図5に示す分類の木構造に加えて、本明細書に記載した実施形態で用いた計算次元は6である。しかしながら、従来の技術下での計算次元は8であり、この計算次元8は前者の次元6より明らかに高い。
図1の実施例を参照として用いると、従来の技術を実施する装置がテキストをクラスB1に分類する一方で、本明細書に記載した実施形態の装置はテキストをクラスA1に分類する。その結果、明らかに、本明細書に記載した実施形態の装置によるテキスト分類の方がより正確となる。
上の説明は、テキスト分類装置の内部の構造と機能を説明するものである。以下の説明は、テキスト分類の実施プロセスを説明するものである。
図6を参照すると、様々な実施形態に係るテキスト分類用のプロセス600の主なフローチャートは以下の通りである。
ステップ601では、複数の単語を得るように、受け取られたテキストの内容を分割する。
ステップ602では、ベクトル空間群の第1レベルのベクトル空間にて複数の単語の単語ベクトルの合計を決定する。各ベクトル空間は、クラス木構造の非葉の子クラスである1以上の直接的な子クラスで構成されている。ベクトル空間群は、すべてのベクトル空間で構成されており、第1レベルのベクトル空間は、クラス木構造の最上位レベルのクラスで構成されている。各単語ベクトルは、ベクトル空間の相当するクラスでの単語の単語頻度ベクトルを含む。
ステップ603では、第1レベルのベクトル空間の様々なクラスにおけるクラスにテキストを分類し、このクラスはテキストの単語ベクトルに対して最短距離を有する。
追加実施形態では、データベースに相当するクラス下にテキストを保存してもよい。
ステップ602には複数の実施形態がある。以下は、実施プロセスを詳しく述べる3つの実施形態である。
図7に、フィルタリング閾値によるテキストフィルタリング用のプロセス700のフローチャートを示す。プロセスの詳細は以下の通りである。
ステップ701では、複数の単語を得るように、受け取られたテキストの内容を分割する。
ステップ702では、ベクトル空間群の第1レベルのベクトル空間にて複数の単語の単語ベクトルを決定する。
ステップ703では、複数の単語の各単語に関し、第1レベルのベクトル空間の様々なクラスでの単語の単語頻度ベクトルのうち最大の単語頻度ベクトルと最小の単語頻度ベクトルとの差値が、所定のフィルタリング閾値より高いかどうかを決定する。たとえば、所定のフィルタリング閾値は、総単語コーパス数の10万分の1であってもよい。
ステップ704では、フィルタリング閾値より高い差値を有する各単語に関し、単語の単語頻度ベクトルの合計を得る。
ステップ705では、得られた単語頻度ベクトルの合計から最大値を有する単語頻度ベクトルの合計を決定する。
ステップ706では、最大値を有する単語頻度ベクトルの合計に関連したクラスにテキストを分類する。
図8に、フィルタリング閾値によるテキストフィルタリング用のプロセス800のフローチャートを示す。プロセスの詳細は以下の通りである。
ステップ801では、複数の単語を得るように、受け取られたテキストの内容を分割する。
ステップ802では、ベクトル空間群の第1レベルのベクトル空間にて複数の単語の単語ベクトルを決定する。
ステップ803では、複数の単語の各単語に関し、第1レベルのベクトル空間の様々なクラスでの単語の単語頻度ベクトルのうち第1の最大の単語頻度ベクトルと第2の最大の単語頻度ベクトルとの差値が、所定のフィルタリング閾値より高いかどうかを決定する。たとえば、所定のフィルタリング閾値は、総単語コーパス数の10万分の1であってもよい。
ステップ804では、フィルタリング閾値より高い差値を有する各単語に関し、単語の単語頻度ベクトルの合計を得る。
ステップ805では、得られた単語頻度ベクトルの合計から最大値を有する単語頻度ベクトルの合計を決定する。
ステップ806では、最大値を有する単語頻度ベクトルの合計に関連したクラスにテキストを分類する。
図9に、第1のフィルタリング閾値と第2のフィルタリング閾値によるテキストフィルタリング用の方法のフローチャートを示す。プロセスの詳細は以下の通りである。
ステップ901では、複数の単語を得るように、受け取られたテキストの内容を分割する。
ステップ902では、ベクトル空間群の第1レベルのベクトル空間にて複数の単語の単語ベクトルを決定する。このステップが初回実施されるとき、現時点のベクトル空間のレベルは、空間ベクトル群のうちの第1レベルのベクトル空間である。
ステップ903では、複数の単語の各単語に関し、第1のレベルのベクトル空間の様々なクラスでの単語の単語頻度ベクトルの平均値が、所定の第1のフィルタリング閾値より高いかどうかを決定する。たとえば、所定の第1のフィルタリング閾値は、総単語コーパス数の10万分の1であってもよい。
ステップ904では、単語頻度ベクトルの平均値が第1のフィルタリング閾値より高い各単語に関し、第1レベルのベクトル空間の様々なクラスでの単語の単語頻度ベクトルのうち最大値を有する単語頻度ベクトルが、所定の第2のフィルタリング閾値より高いかどうかを決定する。たとえば、所定の第2のフィルタリング閾値は、総単語コーパス数の10万分の1であってもよい。
ステップ905では、単語頻度ベクトルの最大値が第2のフィルタリング閾値より高い各単語に関し、単語の単語頻度ベクトルの合計を得る。
ステップ906では、得られた単語から差値が第2のフィルタリング閾値より高い単語を削除する。各単語に関する差値は、プロセス700のステップ703に記載したものと同様の方法で導出される。このステップはステップ905と同時に実行してもよい。
ステップ907では、得られた単語頻度ベクトルの合計から最大値を有する単語頻度ベクトルの合計を決定する。
ステップ908では、最大値を有する単語頻度ベクトルの合計に関連したクラスにテキストを分類する。
ステップ909では、テキストが分類されるクラスがベクトル空間に相当するかどうかを決定する。相当するというイエスの場合、現時点のベクトル空間のレベルを置換するベクトル空間を決定し、またステップ902へプロセスは戻る。逆に相当しないというノーの場合、プロセスは終了する。
本開示の実施形態はソフトウェア及び/又はハードウェアによって実施してもよい。本開示の実施形態を実施するソフトウェアは、フロッピーディスク、ハードディスク、ディスク、フラッシュメモリなどの記憶媒体に保存してもよい。
高次元計算では性能が低いという課題に関し、本開示の実施形態は、データ統計の特性を維持できる。従来のテキスト分類技術で要求された単語コーパスの一様性の要件に関し、本明細書に記載した実施形態は、単語コーパス全体に影響し得ない、あるクラスの単語コーパスの非一様性を許容する。あいまいな分類に関し、すなわち、複数のクラス間の単語頻度計算値に差がほとんどないデータ分類に関し、本明細書に記載した実施形態は、単語フィルタリングによってこのようなあいまいな分類の発生率が大幅に減少する。非葉の子クラスに関し重大な認識エラーがあり得るという課題に関し、本明細書に記載した実施形態は、上位から下位までの分類方法を提供するため、認識エラーが大幅に低減される。認識精度への高次元の影響に関し、本明細書に記載した実施形態は、クラスを複数のベクトル空間に分類して、低次元にてベクトル空間モデル(VSM)の精度を維持するため、次元が増えることで精度が落ちるという課題が大幅に低減される。単語選択の最適化に関し、従来のテキスト分類技術では空間次元が非常に高いことで、単語除外の確率を減少させていた。一方で、本明細書に記載した実施形態は複数の低次元ベクトル空間を用いるため、この課題が効果的に解決される。また、本明細書に記載した実施形態は、各クラス分類用の実際の横断次元を減少させる。よって、各クラス分類用の実際の横断範囲は、葉の子クラスの総数より小さくなる。従来のテキスト分類技術と比べて、本明細書に記載した実施形態は、統計の原理に適うより良い立場にあって、より高い認識精度を達成できる。
その結果、本明細書に記載した実施形態が提供するより正確なテキスト分類は、テキスト分類保存とテキスト分類検索の精度の向上にとって有益となる。
本開示の精神及び範囲から逸脱せずに、当業者は多くの異なった方法で本開示を変形又は修正できることが理解される。したがって、これらの修正例及び変形例は、本開示の請求項及びこれら請求項の均等物の範囲内にあるものとみなすべきである。

Claims (20)

  1. テキストの内容を複数の単語に分割するステップと、
    複数のベクトル空間を含むベクトル空間群の第1レベルのベクトル空間にて複数の単語の複数の単語ベクトルの合計を決定するステップであって、前記複数のベクトル空間の少なくとも1つは、クラス木構造の非葉の子クラスである1以上の直接的な子クラスを有し、前記第1レベルのベクトル空間は複数のクラスを有する、ステップと、
    前記単語ベクトルの前記合計に対して最短距離を有する前記複数のクラスにおけるクラスに前記テキストを分類するステップと
    を有することを特徴とするテキスト分類用の方法。
  2. 前記第1レベルのベクトル空間は、前記クラス木構造の最上位レベルのクラスにあることを特徴とする請求項1に記載の方法。
  3. 単語ベクトルは、前記ベクトル空間の様々なクラスにて前記複数の単語のうちの相当する単語の単語頻度ベクトルを含むことを特徴とする請求項1に記載の方法。
  4. 前記ベクトル空間群の前記第1レベルのベクトル空間にて前記複数の単語の前記単語ベクトルの合計を決定する前に、フィルタにかけられた複数の単語を得るように前記複数の単語をフィルタにかけるステップを更に有することを特徴とする請求項1に記載の方法。
  5. 前記単語ベクトルの前記合計に対して前記最短距離を有する前記クラスに前記テキストを分類するステップは、
    各複数の単語に関連した前記複数のクラスでの単語頻度ベクトルに相当する合計を決定するステップと、
    最大の合計に相当するクラスに前記テキストを分類するステップと
    を有することを特徴とする請求項1に記載の方法。
  6. 前記単語ベクトルの前記合計に対して前記最短距離を有する前記クラスに前記テキストを分類するステップは、
    前記複数のクラスでの各複数の単語に関する前記単語頻度ベクトルのうち最大の単語頻度ベクトルと最小の単語頻度ベクトルとの差値を決定するステップと、
    所定のフィルタリング閾値より高い相当する差値を有する各複数の単語に相当する前記単語頻度ベクトルの合計を決定するステップと、
    最大値を有する、相当する前記単語頻度ベクトルの合計に関連した前記複数のクラスにおけるクラスに前記テキストを分類するステップと
    を有することを特徴とする請求項1に記載の方法。
  7. 前記単語ベクトルの前記合計に対して前記最短距離を有する前記クラスに前記テキストを分類するステップは、
    前記複数のクラスでの各複数の単語に関する前記単語頻度ベクトルのうち第1の最大の単語頻度ベクトルと第2の最大の単語頻度ベクトルとの差値を決定するステップと、
    所定のフィルタリング閾値より高い相当する差値を有する各複数の単語に相当する前記単語頻度ベクトルの合計を決定するステップと、
    最大値を有する、相当する前記単語頻度ベクトルの合計に関連した前記複数のクラスにおけるクラスに前記テキストを分類するステップと
    を有することを特徴とする請求項1に記載の方法。
  8. 前記単語ベクトルの前記合計に対して前記最短距離を有する前記クラスに前記テキストを分類するステップは、
    前記複数のクラスでの各複数の単語に相当する単語頻度ベクトルの平均値を決定するステップと、
    第1の所定のフィルタリング閾値より高い相当する平均値に関連した1以上の各複数の単語に対して、単語頻度ベクトルの最大値が第2の所定のフィルタリング閾値より高いかどうかを決定するステップと、
    前記第2の所定のフィルタリング閾値より高い単語頻度ベクトルの最大値を有する前記1以上の各単語に相当する前記単語頻度ベクトルの合計を決定するステップと、
    最大値を有する、相当する前記単語頻度ベクトルの合計に関連したクラスに前記テキストを分類するステップと
    を有することを特徴とする請求項1に記載の方法。
  9. 前記テキストを前記クラスに分類した後に、該クラスが前記第1レベルのベクトル空間に相当するかどうかを決定するステップと、
    前記クラスが前記第1レベルのベクトル空間に相当するときに、前記複数のベクトル空間の追加クラスにて前記複数の単語の単語ベクトルの合計を決定し、および、前記第1レベルのベクトル空間に相当せず、かつ前記単語ベクトルの前記合計の最大合計に相当する追加クラスに前記テキストを分類するステップと
    を更に有することを特徴とする請求項1に記載の方法。
  10. 前記テキストを前記クラスに分類した後に、前記単語ベクトルの前記合計の決定に用いられる前記複数の単語の少なくとも幾つかを削除するステップを更に有することを特徴とする請求項5に記載の方法。
  11. テキストの内容を複数の単語に分割する分割モジュールと、
    複数のベクトル空間を含むベクトル空間群の第1レベルのベクトル空間にて複数の単語の単語ベクトルの合計を決定する計算モジュールであって、前記複数のベクトル空間の少なくとも1つは、クラス木構造の非葉の子クラスである1以上の直接的な子クラスを有し、前記第1レベルのベクトル空間は複数のクラスを有する、計算モジュールと、
    前記単語ベクトルの前記合計に対して最短距離を有する前記複数のクラスにおけるクラスに前記テキストを分類する分類モジュールと
    を有することを特徴とするテキスト分類用の装置。
  12. 前記第1レベルのベクトル空間は、前記クラス木構造の最上位レベルのクラスにあることを特徴とする請求項11に記載の装置。
  13. フィルタにかけられた複数の単語を得るように前記複数の単語をフィルタにかけるフィルタリングモジュールを更に有することを特徴とする請求項11に記載の装置。
  14. 前記計算モジュールは、各複数の単語に関連した前記第1レベルのベクトル空間の前記複数のクラスでの単語頻度ベクトルに相当する合計を更に決定し、
    前記分類モジュールは、最大の合計に相当するクラスに前記テキストを更に分類することを特徴とする請求項11に記載の装置。
  15. 前記分類モジュールは、
    前記テキストを前記クラスに分類した後に、該クラスが前記第1レベルのベクトル空間に相当するかどうかを決定するように、かつ、
    前記クラスが前記第1レベルのベクトル空間に相当するときに、前記複数のベクトル空間の追加クラスにて前記複数の単語の単語ベクトルの合計を決定するように、および、前記第1レベルのベクトル空間に相当せず、かつ前記単語ベクトルの最大合計に相当する追加クラスに前記テキストを分類するように更に構成されていることを特徴とする請求項11に記載の装置。
  16. 前記計算モジュールは、前記テキストを前記クラスに分類した後に、前記単語ベクトルの前記合計の決定に用いられる前記複数の単語の少なくとも幾つかを削除するように更に構成されていることを特徴とする請求項15に記載の装置。
  17. 前記複数のクラスでの各複数の単語に相当する単語頻度ベクトルの平均値を決定する第1のフィルタリングモジュールと、
    第1の所定のフィルタリング閾値より高い相当する平均値に関連した1以上の各複数の単語に関し、単語頻度ベクトルの最大値が第2の所定のフィルタリング閾値より高いかどうかを決定する第2のフィルタリングモジュールと
    を更に有し、
    前記計算モジュールは、前記第2の所定のフィルタリング閾値より高い単語頻度ベクトルの最大値を有する前記1以上の各単語に相当する前記単語頻度ベクトルの合計を更に決定し、前記分類モジュールは、最大値を有する、相当する前記単語頻度ベクトルの合計に関連した前記複数のクラスにおけるクラスに前記テキストを更に分類することを特徴とする請求項10に記載の装置。
  18. 複数のクラスに分類用のテキストを受け取らせるステップであって、前記複数のクラスの少なくとも1つは、クラス木構造の非葉の子クラスである1以上の直接的な子クラスを含む、ステップと、
    受け取られた前記テキストの内容を複数の単語に分割するステップであって、各複数の単語は相当する単語頻度ベクトルを有する、ステップと、
    各複数の単語の前記相当する単語頻度ベクトルに基づき、前記複数のクラスでの各単語について値を決定するステップと、
    所定のフィルタリング閾値より高い相当値を有する各複数の単語に相当する前記単語頻度ベクトルの合計を決定するステップと、
    最大値を有する、前記相当する単語頻度ベクトルの合計に関連した複数のクラスにおけるクラスに前記テキストを分類するステップと
    を有することを特徴とするテキスト分類用の方法。
  19. 各複数の単語について前記値を決定するステップは、前記複数のクラスでの各複数の単語に関する前記相当する単語頻度ベクトルのうち最大の単語頻度ベクトルと最小の単語頻度ベクトルとの差値を決定するステップを含むことを特徴とする請求項18に記載の方法。
  20. 各複数の単語について前記値を決定するステップは、前記複数のクラスでの各複数の単語に関する前記単語頻度ベクトルのうち第1の最大の単語頻度ベクトルと第2の最大の単語頻度ベクトルとの差値を決定するステップを含むことを特徴とする請求項18に記載の方法。
JP2012551962A 2010-02-02 2010-11-02 テキスト分類の方法及びシステム Active JP5792747B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201010111365.3 2010-02-02
CN2010101113653A CN102141978A (zh) 2010-02-02 2010-02-02 一种文本分类的方法及系统
PCT/US2010/055057 WO2011096969A1 (en) 2010-02-02 2010-11-02 Method and system for text classification

Publications (2)

Publication Number Publication Date
JP2013519152A true JP2013519152A (ja) 2013-05-23
JP5792747B2 JP5792747B2 (ja) 2015-10-14

Family

ID=44355709

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012551962A Active JP5792747B2 (ja) 2010-02-02 2010-11-02 テキスト分類の方法及びシステム

Country Status (5)

Country Link
US (1) US8478054B2 (ja)
EP (1) EP2531907A4 (ja)
JP (1) JP5792747B2 (ja)
CN (1) CN102141978A (ja)
WO (1) WO2011096969A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016130903A (ja) * 2015-01-13 2016-07-21 日本放送協会 下位表現抽出装置およびプログラム

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246686A (zh) * 2012-02-14 2013-08-14 阿里巴巴集团控股有限公司 文本分类方法和装置及文本分类的特征处理方法和装置
CN103092975A (zh) * 2013-01-25 2013-05-08 武汉大学 基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法
CN105677677A (zh) * 2014-11-20 2016-06-15 阿里巴巴集团控股有限公司 一种信息分类方法及装置
CN105005589B (zh) * 2015-06-26 2017-12-29 腾讯科技(深圳)有限公司 一种文本分类的方法和装置
US10268965B2 (en) 2015-10-27 2019-04-23 Yardi Systems, Inc. Dictionary enhancement technique for business name categorization
US20170115683A1 (en) * 2015-10-27 2017-04-27 Pulse Energy Inc. Interpolative vertical categorization mechanism for energy management
US10275841B2 (en) 2015-10-27 2019-04-30 Yardi Systems, Inc. Apparatus and method for efficient business name categorization
US10274983B2 (en) 2015-10-27 2019-04-30 Yardi Systems, Inc. Extended business name categorization apparatus and method
US11216718B2 (en) 2015-10-27 2022-01-04 Yardi Systems, Inc. Energy management system
US10275708B2 (en) 2015-10-27 2019-04-30 Yardi Systems, Inc. Criteria enhancement technique for business name categorization
CN105975857A (zh) * 2015-11-17 2016-09-28 武汉安天信息技术有限责任公司 基于深度学习方法推断恶意代码规则的方法及系统
CN105468713B (zh) * 2015-11-19 2018-07-17 西安交通大学 一种多模型融合的短文本分类方法
CN106997340B (zh) * 2016-01-25 2020-07-31 阿里巴巴集团控股有限公司 词库的生成以及利用词库的文档分类方法及装置
US20170212875A1 (en) * 2016-01-27 2017-07-27 Microsoft Technology Licensing, Llc Predictive filtering of content of documents
CN107436875B (zh) * 2016-05-25 2020-12-04 华为技术有限公司 文本分类方法及装置
US10425433B2 (en) * 2016-11-18 2019-09-24 Bank Of America Corporation Network security database filtering tool
WO2018222895A1 (en) * 2017-05-31 2018-12-06 Inteliquent, Inc. Content-based routing and rating of messages in a telecommunications network
CN107239574B (zh) * 2017-06-29 2018-11-02 北京神州泰岳软件股份有限公司 一种智能问答系统知识-问题匹配的方法及装置
US10896385B2 (en) 2017-07-27 2021-01-19 Logmein, Inc. Real time learning of text classification models for fast and efficient labeling of training data and customization
CN108021667A (zh) * 2017-12-05 2018-05-11 新华网股份有限公司 一种文本分类方法和装置
CN108334605B (zh) * 2018-02-01 2020-06-16 腾讯科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CN108829818B (zh) * 2018-06-12 2021-05-25 中国科学院计算技术研究所 一种文本分类方法
CN109284382B (zh) * 2018-09-30 2021-05-28 武汉斗鱼网络科技有限公司 一种文本分类方法及计算装置
CN110069624B (zh) * 2019-04-28 2021-05-04 北京小米智能科技有限公司 文本处理方法及装置
CN110309304A (zh) * 2019-06-04 2019-10-08 平安科技(深圳)有限公司 一种文本分类方法、装置、设备及存储介质
CN111126062B (zh) * 2019-12-25 2021-09-24 北京中技华软科技服务有限公司 一种产业自动分类方法及系统
CN113626587B (zh) * 2020-05-08 2024-03-29 武汉金山办公软件有限公司 一种文本类别识别方法、装置、电子设备及介质
CN112101484B (zh) * 2020-11-10 2021-02-12 中国科学院自动化研究所 基于知识巩固的增量事件识别方法、系统、装置
CN112699944B (zh) * 2020-12-31 2024-04-23 中国银联股份有限公司 退单处理模型训练方法、处理方法、装置、设备及介质
US11281858B1 (en) * 2021-07-13 2022-03-22 Exceed AI Ltd Systems and methods for data classification

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07114572A (ja) * 1993-10-18 1995-05-02 Sharp Corp 文書分類装置
JP2000181936A (ja) * 1998-12-17 2000-06-30 Nippon Telegr & Teleph Corp <Ntt> 文書特徴抽出装置および文書分類装置
JP2006251975A (ja) * 2005-03-09 2006-09-21 Omron Corp テキスト分類方法ならびにその方法によるプログラム、およびテキスト分類装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5371807A (en) 1992-03-20 1994-12-06 Digital Equipment Corporation Method and apparatus for text classification
US6055540A (en) 1997-06-13 2000-04-25 Sun Microsystems, Inc. Method and apparatus for creating a category hierarchy for classification of documents
US6137911A (en) 1997-06-16 2000-10-24 The Dialog Corporation Plc Test classification system and method
US6253169B1 (en) 1998-05-28 2001-06-26 International Business Machines Corporation Method for improvement accuracy of decision tree based text categorization
US6611825B1 (en) * 1999-06-09 2003-08-26 The Boeing Company Method and system for text mining using multidimensional subspaces
US7644057B2 (en) 2001-01-03 2010-01-05 International Business Machines Corporation System and method for electronic communication management
US6868411B2 (en) 2001-08-13 2005-03-15 Xerox Corporation Fuzzy text categorizer
US6978274B1 (en) * 2001-08-31 2005-12-20 Attenex Corporation System and method for dynamically evaluating latent concepts in unstructured documents
US7152065B2 (en) 2003-05-01 2006-12-19 Telcordia Technologies, Inc. Information retrieval and text mining using distributed latent semantic indexing
US20080097937A1 (en) * 2003-07-10 2008-04-24 Ali Hadjarian Distributed method for integrating data mining and text categorization techniques
US20080215313A1 (en) * 2004-08-13 2008-09-04 Swiss Reinsurance Company Speech and Textual Analysis Device and Corresponding Method
US20060142993A1 (en) 2004-12-28 2006-06-29 Sony Corporation System and method for utilizing distance measures to perform text classification
US7752204B2 (en) * 2005-11-18 2010-07-06 The Boeing Company Query-based text summarization
JP4635891B2 (ja) * 2006-02-08 2011-02-23 ソニー株式会社 情報処理装置および方法、並びにプログラム
US7756881B2 (en) 2006-03-09 2010-07-13 Microsoft Corporation Partitioning of data mining training set
US7529719B2 (en) 2006-03-17 2009-05-05 Microsoft Corporation Document characterization using a tensor space model
US7519619B2 (en) 2006-08-21 2009-04-14 Microsoft Corporation Facilitating document classification using branch associations
US20090094177A1 (en) 2007-10-05 2009-04-09 Kazuo Aoki Method for efficient machine-learning classification of multiple text categories

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07114572A (ja) * 1993-10-18 1995-05-02 Sharp Corp 文書分類装置
JP2000181936A (ja) * 1998-12-17 2000-06-30 Nippon Telegr & Teleph Corp <Ntt> 文書特徴抽出装置および文書分類装置
JP2006251975A (ja) * 2005-03-09 2006-09-21 Omron Corp テキスト分類方法ならびにその方法によるプログラム、およびテキスト分類装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016130903A (ja) * 2015-01-13 2016-07-21 日本放送協会 下位表現抽出装置およびプログラム

Also Published As

Publication number Publication date
EP2531907A4 (en) 2014-09-10
EP2531907A1 (en) 2012-12-12
US20120288207A1 (en) 2012-11-15
WO2011096969A1 (en) 2011-08-11
WO2011096969A9 (en) 2011-09-29
US8478054B2 (en) 2013-07-02
CN102141978A (zh) 2011-08-03
JP5792747B2 (ja) 2015-10-14

Similar Documents

Publication Publication Date Title
JP5792747B2 (ja) テキスト分類の方法及びシステム
KR102424803B1 (ko) 터치 분류
EP3248143B1 (en) Reducing computational resources utilized for training an image-based classifier
CN106096066B (zh) 基于随机近邻嵌入的文本聚类方法
US8306315B2 (en) Method of compiling three-dimensional object identifying image database, processing apparatus and processing program
JP6004016B2 (ja) 情報変換方法、情報変換装置および情報変換プログラム
US20120114248A1 (en) Hierarchical Sparse Representation For Image Retrieval
WO2013129580A1 (ja) 近似最近傍探索装置、近似最近傍探索方法およびそのプログラム
CN104834693A (zh) 基于深度搜索的视觉图像检索方法及系统
JP2013206187A (ja) 情報変換装置、情報検索装置、情報変換方法、情報検索方法、情報変換プログラム、情報検索プログラム
CN110751027B (zh) 一种基于深度多示例学习的行人重识别方法
WO2021042844A1 (zh) 大规模数据聚类方法、装置、计算机设备及计算机可读存储介质
WO2022088390A1 (zh) 图像的增量聚类方法、装置、电子设备、存储介质及程序产品
JP7149976B2 (ja) 誤り訂正方法及び装置、コンピュータ読み取り可能な媒体
CN108549696B (zh) 一种基于内存计算的时间序列数据相似性查询方法
US10810458B2 (en) Incremental automatic update of ranked neighbor lists based on k-th nearest neighbors
JP6561504B2 (ja) データ配置プログラム、データ配置方法およびデータ配置装置
WO2019119635A1 (zh) 种子用户拓展方法、电子设备及计算机可读存储介质
KR101116663B1 (ko) 고차원 데이터의 유사도 검색을 위한 데이터 분할방법
CN113283351A (zh) 一种使用cnn优化相似度矩阵的视频抄袭检测方法
CN111126501A (zh) 一种图像识别方法、终端设备及存储介质
CN102254040A (zh) 一种基于支撑向量机的Web划分方法
JP2023510945A (ja) シーン識別方法及びその装置、インテリジェントデバイス、記憶媒体並びにコンピュータプログラム
CN112639761A (zh) 一种为数据建立索引的方法以及装置
CN110059148A (zh) 应用于电子地图的空间关键字查询的准确搜索方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131004

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140307

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140401

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140701

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141224

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20150324

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150423

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150707

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150806

R150 Certificate of patent or registration of utility model

Ref document number: 5792747

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250