JP5587434B2 - テキスト分類の方法および装置 - Google Patents

テキスト分類の方法および装置 Download PDF

Info

Publication number
JP5587434B2
JP5587434B2 JP2012551145A JP2012551145A JP5587434B2 JP 5587434 B2 JP5587434 B2 JP 5587434B2 JP 2012551145 A JP2012551145 A JP 2012551145A JP 2012551145 A JP2012551145 A JP 2012551145A JP 5587434 B2 JP5587434 B2 JP 5587434B2
Authority
JP
Japan
Prior art keywords
category
words
word
vector
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012551145A
Other languages
English (en)
Other versions
JP2013519133A (ja
Inventor
シャン サン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of JP2013519133A publication Critical patent/JP2013519133A/ja
Application granted granted Critical
Publication of JP5587434B2 publication Critical patent/JP5587434B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

関連特許出願の相互参照
本出願は、2010年2月1日に出願された中国特許出願第2010101045124号、表題「METHOD AND APPARATUS OF TEXT CLASSIFICATION」の優先権を主張するものであり、参照により、その全体が本明細書に組み込まれる。
本開示は、コンピュータおよび通信の分野に関し、より具体的には、テキスト分類の方法および装置に関する。
テキスト分類は、テキストマイニングの重要な要素である。それは、所定のサブジェクトカテゴリに基づいており、ファイルが各々カテゴリに割り当てられる。この自動テキスト分類システムは、人々がより効率的に必要な情報を検索するのに役立つ。一態様において、情報を分類することは、最も基本的な認識プロセスのうちの1つである。また、従来の分類研究は、実りの多い結果および実践的な使用法を生み出している。それにもかかわらず、テキストメッセージの送受信の急速な成長、特にオンラインテキストメッセージの急増に伴って、テキスト分類は、大量のデータを処理および整理する上で非常に重要な技術であると考えられる。現在、テキスト分類は、種々の分野で広く使用されている。しかしながら、ウェブベース情報の全般的な増加、より高い正確性およびより優れた検証の必要性のために、テキスト分類技術の需要もまた増大している。したがって、効率的なテキスト分類システムを構築することは、依然としてテキストマイニングの分野における主な研究領域のうちの1つである。
自然言語処理の分野において、テキストは、主にベクトル空間モデル(VSM)を使用して表される。この方法では、各テキストが、その独立した属性を表すために使用される作業概念を含むと考えられており、各属性は、概念の次元であると見なすことができる。これらの独立した属性は、テキストの特性と呼ばれ、テキストは一連の特徴を表すことができる。さらに、ベクトルは、類似度を測定するために角度の余弦による方法を使用することが多い。そのため、テキストを分類するためにテキストベクトルと候補カテゴリベクトルとの類似度が使用される。
現在の技術では、テキストベクトルと候補カテゴリとの類似度を計算しなければならない。各計算は、非常に時間のかかるものであり、測定値を求めるために角度の余弦を使用する。さらに、現在の技術の意味論はいずれの規格も有さず、分類はあまり正確ではない。
本開示は、分類を簡素化および最適化するために使用されるテキスト分類の方法の例示的な実施を提供する。
一態様において、テキスト分類の方法は、所与のテキストを1つ以上の単語に構文解析することと、1つ以上の単語のうちの1つのために球面空間モデルにおいて単語ベクトルを決定することであって、球面空間の次元数はカテゴリの数と等しく、各カテゴリは球面空間カテゴリベクトルに対応する、単語ベクトルを決定することと、各カテゴリについて、1つ以上の単語の単語ベクトルの和とそれぞれのカテゴリベクトルとの間の距離を決定することと、最短距離を有する1つ以上のカテゴリにテキストを分類することと、を含む。
本方法はまた、フィルタリング条件を満たす1つ以上のフィルタリングされた単語を提供するために、1つ以上の単語をフィルタリングしてもよい。
1つ以上の単語の単語ベクトルの和とそれぞれのカテゴリベクトルとの間の距離は、直線または球面弧であってもよい。
単語の単語ベクトルは、それぞれの1つ以上のカテゴリ内に該単語の1つ以上の正規化された単語頻度値を含んでもよく、球面空間モデルは、単位長さを半径として有する多次元球面モデルを含んでもよい。単位長さは、1であってもよい。
1つ以上の単語の単語ベクトルの和とそれぞれのカテゴリベクトルとの間の距離を決定する際に、本方法は、正規化された単語ベクトルの和を提供するために1つ以上の単語の正規化された単語頻度値を累積し、正規化された単語ベクトルの和の最大構成要素に対応するカテゴリにテキストを分類してもよい。
別の態様において、テキスト分類のための装置は、所与のテキストを1つ以上の単語に構文解析する構文解析モジュールと、1つ以上の単語のうちの1つのために球面空間モデルにおいて単語ベクトルを決定するクエリモジュールであって、球面空間の次元数はカテゴリの数と等しく、各カテゴリは球面空間カテゴリベクトルに対応する、クエリモジュールと、各カテゴリについて、1つ以上の単語の単語ベクトルの和とそれぞれのカテゴリベクトルとの間の距離を決定する計算モジュールと、最短距離をともなう1つ以上のカテゴリにテキストを分類する分類モジュールと、を含んでもよい。
装置は、フィルタリング条件を満たす1つ以上のフィルタリングされた単語を提供するために、1つ以上の単語をフィルタリングするフィルタモジュールをさらに含んでもよい。
1つ以上の単語の単語ベクトルの和とそれぞれのカテゴリベクトルとの間の距離は、直線または球面弧であってもよい。
単語の単語ベクトルは、それぞれの1つ以上のカテゴリ内に該単語の1つ以上の正規化された単語頻度値を含んでもよく、球面空間モデルは、単位長さを半径として有する多次元球面モデルを含んでもよい。単位長さは、1であってもよい。
計算モジュールは、正規化された単語ベクトルの和を提供するために1つ以上の単語の正規化された単語頻度値を累積してもよい。分類モジュールは、正規化された単語ベクトルの和の最大構成要素に対応するカテゴリにテキストを分類してもよい。
さらに別の態様において、コンピュータ実行可能命令を記憶させた1つ以上のコンピュータ可読記憶媒体は、1つ以上のコンピュータによって実行されると、所与のテキストを1つ以上の単語に構文解析することと、1つ以上の単語のうちの1つのために球面空間モデルにおいて単語ベクトルを決定することであって、球面空間の次元数はカテゴリの数と等しく、各カテゴリは球面空間カテゴリベクトルに対応する、単語ベクトルを決定することと、各カテゴリについて、1つ以上の単語の単語ベクトルの和とそれぞれのカテゴリベクトルとの間の距離を決定することと、最短距離を有する1つ以上のカテゴリにテキストを分類することと、を含む動作を行う。
動作はまた、フィルタリング条件を満たす1つ以上のフィルタリングされた単語を提供するために、1つ以上の単語をフィルタリングすることを含んでもよい。
1つ以上の単語の単語ベクトルの和とそれぞれのカテゴリベクトルとの間の距離は、直線または球面弧を含んでもよい。
単語の単語ベクトルは、それぞれの1つ以上のカテゴリ内に該単語の1つ以上の正規化された単語頻度値を含んでもよく、球面空間モデルは、単位長さを半径として有する多次元球面モデルを含んでもよい。単位長さは、1であってもよい。
1つ以上の単語の単語ベクトルの和とそれぞれのカテゴリベクトルとの間の距離を決定する際に、正規化された単語ベクトルの和を提供するために1つ以上の単語の正規化された単語頻度値が累積されてもよく、正規化された単語ベクトルの和の最大構成要素に対応するカテゴリにテキストが分類されてもよい。
本開示は、球面空間モデルを予め構築する。さらに、このモデルは、各単語ベクトルと各カテゴリベクトルとの間の距離を計算することによってテキストをカテゴリに分類する。本開示は、既存の角度の余弦を用いたアルゴリズム技法と比較して、計算の量が実質的に減少されるテキスト分類について記載する。球面空間モデルは、単位長さを半径として使用する。単位長さはまた、各カテゴリ内の単語の正規化された単語頻度値の二乗の和でもある。単位長さは、単語の意味情報の量に等しく、かつ限定される。したがって、現在の技術に関連して、本開示は、テキスト分類をさらに最適化することができる。
本開示の一実施形態による装置のシステム図を示す。 本開示の別の実施形態による図1の装置のシステム図を示す。 本開示の一実施形態による球面空間図を示す。 本開示の一実施形態によるテキスト分類のための主な方法のフローチャートを示す。 本開示の一実施形態によるテキスト分類のための遠隔方法のフローチャートを示す。 本開示の一実施形態によるテキスト分類のためのベクトル合計方法のフローチャートを示す。
本開示は、球面空間モデルを予め構築する。さらに、このモデルは、各単語ベクトルと各カテゴリベクトルとの間の距離を計算することによってテキストをカテゴリに分類する。本開示は、既存の角度の余弦を用いたアルゴリズム技法と比較して、計算の量が実質的に減少されるテキスト分類について記載する。球面空間モデルは、単位長さを半径として使用する。単位長さはまた、各カテゴリ内の単語の正規化された単語頻度値の二乗の和でもある。単位長さは、単語の意味情報の量に等しく、かつ限定される。したがって、現在の技術に関連して、本開示は、テキスト分類の正確性を向上させることができる。
図1に示されるように、本開示の一実施形態によるテキスト分類のための装置が提供される。一実施形態において、装置は、1つ以上のサーバを備える。例えば、装置は、メモリ等の1つ以上のコンピュータ可読記憶媒体、ネットワークと通信するための通信手段、ならびにネットワークに接続された他のデバイスおよび装置とを含む、プロセッサベースのサーバ内に実装されてもよい。装置は、構文解析モジュール101、クエリモジュール102、計算モジュール103、および分類モジュール104を備える。
構文解析モジュール101は、テキストを種々の構文解析された単語に構文解析する。
クエリモジュール102は、球面空間モデルにおいて、単語ベクトルと称される各構文解析された単語のベクトルを決定する。単語ベクトルは、各カテゴリ内にこの単語の正規化された単語頻度値を含む。球面空間モデルは、単位長さを半径として使用する。その次元は、球面空間カテゴリベクトルに対応するカテゴリの数と等しい。計算を容易にするために、単位長さを一定に維持することができる。一実施形態において、球面空間モデルの半径は1である。本明細書において、単語ベクトルとカテゴリベクトルとの間の距離は、直線または球面弧の距離であってもよい。
計算モジュール103は、各カテゴリについて、単語ベクトルとカテゴリベクトルとの間の距離を決定する。
分類モジュール104は、最短距離を有する1つ以上のカテゴリにテキストを分類する。
計算モジュール103は、単語ベクトルとカテゴリベクトルとの間の距離を計算する時に、全ての正規化された単語ベクトルを得るために、各カテゴリ内の単語ベクトルの正規化された単語頻度値を累積する。
分類モジュール104は、正規化された単語ベクトルの最大構成要素に対応するカテゴリにテキストを分類する。
他の実施形態において、装置は、図2に示されるように、インターフェースモジュール105、フィルタモジュール106、構造モジュール107、および記憶モジュール108をさらに備える。
インターフェースモジュール105は、1つ以上の外部ソースから分類されるべきテキストを取得する。
フィルタモジュール106は、フィルタリング条件を満たす単語を得るために、構文解析から得られた種々の構文解析された単語をフィルタリングする。多くの種類のフィルタリング条件が存在する。例えば、単語の単語頻度値から計算された単語の変動係数に基づいて、その変動係数が変動係数の閾値(例えば0.5)よりも大きい場合、その単語は除外される。変動係数を通して、あまり変化しないそれぞれの頻度値を有する単語(異なるカテゴリ下で基本的に不変の単語頻度値を有する「私」、「あなた」等の単語)は除外することができ、一方で、単語頻度値に著しい変動を有する単語(他のカテゴリよりも対応する専門的カテゴリにおいて多く見られる専門用語等)は保持することができる。可変頻度値を有する単語は、主に1つまたはいくつかのカテゴリ内に生じる。これらの単語は、テキスト分類の正確性に寄与する。一実施形態において、これらの単語は「目立つ」単語として分類され、フィルタリング後に保持することができる。簡略化のために本明細書には列挙されない他のフィルタリング条件もまた存在してもよい。
構造モジュール107は、球面空間モデルを構築する。
記憶モジュール108は、あらゆるテキストの分類と同様に、球面空間モデルを格納する。
構造モジュール107が球面空間モデルを構築するプロセスを以下に記載する。
多次元球面空間Sを考慮すると、Sの次元とカテゴリの総数は同じである。カテゴリCiは、球の終点であり、また同時に球面空間カテゴリベクトルに対応する。Ci=(0...0,1,0...0)は、球面状の終点に向かって移動するコア(始点とも称される)に等しい。i番目次元のカテゴリベクトルは1であり、残りは0である。統計的に独立した2つのカテゴリCiおよびCjから単語が生じたと仮定すると、SにおけるCiおよびCjは、互いに垂直でなければならない。したがって、一般に、カテゴリベクトル(Ci)の残りの部分は互いに直交している。
m番目の単語の単語ベクトルWmは、本開示においてSのベクトルである。m=1...Mにおいて、Mは合計単語数であり、一方で、Wm=(V1,V2...VN)において、ViはカテゴリCiの正規化された単語頻度値である。i=1...Nであり、Nはカテゴリの総数である。球面上の終点に向かうコアからの正規化された単語頻度値は、カテゴリCiの座標を意味することができる。単語ベクトルおよびカテゴリベクトルの図を図3に示す。図3に示されるように、Ci、Cj、およびCkは、カテゴリの3つのベクトルを示し、Oは、座標{0,0...0}をともなうコアまたは始点である。
本開示は、単語の意味情報の任意の量が一定であることを規定する。意味情報の量は、主要サブジェクトの認知または既存のオブジェクトの提示のいずれかに依存してもよい。単位長さは一定であると定義され、Sにおける単語ベクトルの長さ(すなわち、始点Oからの単語ベクトルの終点の距離)もまた一定である。便宜上、定数を1に設定する。始点Oからの単語ベクトルの終点の距離は、|Wm−O|=1(式1)として表すことができ、次いで、Wm=(V1,V2...VN)に基づいて、ΣVi2=1(式2)となる。式1から、単語ベクトルWmの終点が球内に含まれることが分かる。単語ベクトルWmおよびカテゴリベクトルCiの終点が球内に含まれるため、単語およびカテゴリのあらゆる意味は、類似度を表すためにWmおよびCiの距離を使用することができる。距離が短いほど、それらは近い。WmおよびCiの距離は、直線または球面弧を用いて計算することができる。
単語の意味情報の任意の量が一定であるため、
Figure 0005587434
を得るように単語頻度の値が正規化され、続いてΣ(Fi×k)2=1となり、式中、Fiは、カテゴリCi内の単語の単語頻度値であり、kは、デフォルトの正規化係数である。Σ(Fi×k)2=1から
Figure 0005587434
を導くことができる。その結果、Vi=Fi×k(式4)から、変換関数(または定量関数)Wm=δ(Fi)=(Fi)×k(式5)の単語ベクトルおよび単語頻度値を得ることができる。
上記のように、構造モジュール107は、球面構造の始点をコアとして使用する。単位長さ1を球面空間の半径とすると、単語ベクトルWmおよびカテゴリベクトルCiの終点は球内に含まれる。球面空間モデルは、サンプルをトレインおよびレビューするために直接適用することができる。サンプルのトレインプロセスおよびテキスト分類プロセスは、他のパターン認識手段または人工的な手段によって実施することができる。
テキストDに関して、D=ΣWmであり、Wmはm番目の単語の単語ベクトルである。計算モジュール103は、ΣWmとカテゴリベクトルCiとの距離を計算する。テキストは、最短距離を有する1つ以上のカテゴリ下に分類される。ΣWmは必ずしも球面上にあるとは限らないことから、計算を容易にするために、計算モジュール103は、正規化係数kを乗じることによってDを正規化することができ、次いで、カテゴリベクトルCiまでの距離を計算することができる。
単語ベクトルWmとカテゴリベクトルCiとの間の距離が短いほど、それら2つの類似度が高い。計算を簡素化するために、それはP=(Pi)=(ΣVmi)(式6)と設定することができ、Piは、重量カテゴリのi番目の構成要素である。Piが大きいほど、カテゴリベクトルCiまでの距離が短い。同様に、ΣVmiが大きいほど、カテゴリベクトルCiまでの距離が短い。したがって、計算モジュール103は、カテゴリ内の複数の単語の正規化値を累積し、そのようなカテゴリの重量値を得る。分類モジュール104は、最大重量値に対応するカテゴリにテキストを分類する。
より大きなPiとカテゴリベクトルCiのより短い距離との相関関係の背景にある原理について以下に記載する。
D=ΣWmおよびWm=(V1,V2...VN)であるため、D=(ΣVm1,ΣVm2,......,ΣVmi,......,ΣVmn)となり、式中、ΣVmiは、i番目のカテゴリ内の書類の全ての正規化された単語頻度値の和である。さらに、Pi=ΣVmi,D=(Pi)である。DからCiまでの距離は、以下のように表すことができる。
|D−Ci|=|{P1,P2,...Pi,...,Pn}×k-{0,0,...,0,1,0,....,0}|
=k×|{P1,P2,...Pi,...,Pn}-{0,0,...,0,1/k,0,....,0}|
=k×sqrt((P1−0)2+(P2−0)2+...+(Pi−1/k)2+...+(Pn−0)2
=k×sqrt(P12+P22+...+(Pi2−2Pi/k+1/k2)+...+Pn2
=k×sqrt(Σ(Pi2)−2Pi/k+1/k2
=sqrt(Σ((Pi×k)2)−2K×Pi+1)
Σ((Pi×k)2)=1であるため、sqrt(Σ((Pi×k)2)−2K×Pi+1)=sqrt(1−2K×Pi+1)=sqrt(2*(1−K×Pi))となる。これは、DからCiまでの距離とPiが反比例することを証明するものである。例えば、最大のPiを有するカテゴリは、Dに最も近いカテゴリである。
前述の装置は、複数のコンピュータの各々に実装された前述の装置の1つ以上の構成要素とともに、単一コンピュータまたは複数のコンピュータに実装することができる。前述の装置の機能性は、1つまたは複数のコンピュータを連携させることによって達成することができる。各構成要素は、ソフトウェア、ハードウェア、またはその両方のいずれかの形態で実装することができる。
これまで、テキスト分類装置の内部構造および機能性について説明してきた。次に、テキスト分類の実施過程について記載する。
図4に示されるように、本開示の一実施形態による主な方法は以下を含む。
401では、所与のテキストが1つ以上の単語に構文解析される。
402では、1つ以上の単語の各々に対応する球面空間モデル内のそれぞれの単語ベクトルが決定される。単語ベクトルの各々は、各カテゴリ内のそれぞれの単語の正規化された単語頻度値を含む。球面空間モデルは、単位長さを多次元球面モデルの半径として使用する。この次元の数は、カテゴリの数と等しく、カテゴリは、球面空間カテゴリベクトルに対応する。
403では、各カテゴリについて、1つ以上の単語ベクトルの和とカテゴリベクトルとの間の距離が決定される。
404では、最短距離を有する1つ以上のカテゴリにテキストが分類される。
本開示は、前述の距離および単語ベクトルを使用するテキスト分類を提供する。次に、これらの2つの方法の各々について記載する。
図5に示されるように、距離に応じたテキスト分類のための方法は、以下のようないくつかの動作を含む。
501では、所与のテキストが1つ以上の単語に構文解析される。
502では、1つ以上の単語がフィルタリングされ、フィルタリング条件を満たす1つ以上のフィルタリングされた単語が得られる。フィルタモジュール103は、フィルタリングされる各単語の単語頻度値に基づいて単語をフィルタリングすることができる。全てのカテゴリにおけるデフォルト値よりも大きな単語頻度値を有するものの保持等、多くのフィルタ条件が存在してもよい。別の条件は、最大構成要素(すなわち、最大の正規化された単語頻度値)における正規化された単語ベクトルが、単語頻度閾値よりも大きい場合である。本明細書には列挙されない他のフィルタリング条件もまた存在し得る。
503では、フィルタリング条件を満たす1つ以上のフィルタリングされた単語の各々について、各カテゴリについてその正規化された単語頻度値が決定される。具体的には、各カテゴリ内の単語について正規化された単語頻度値が予め格納される。検索から単語が見つからない場合は、全てのカテゴリで、その正規化された単語頻度値が0に設定される。単語の、正規化された単語頻度値ではなく、単語頻度値が、各カテゴリについて予め格納される場合、それらを正規化して対応する正規化された単語頻度値を提供するために、クエリモジュール102を使用して単語頻度値を検索することができる。式4は、特定の実施の一例を提供する。追加的に、テキスト分類を最適化するためのより技術的な専門用語を残すための試みとして、妨害となる単語(珍しい単語および一般的な単語等)は除外することができる。
504では、各カテゴリについて、フィルタリング条件を満たす1つ以上のフィルタリングされた単語の各々の単語ベクトルと各カテゴリのカテゴリベクトルとの間の距離が決定される。この距離は、直線または球面弧であってもよい。
504の前に、正規化された単語ベクトルの和が球面空間内に含まれるように、単語ベクトルの和を正規化することができる。次いで、504では、正規化された単語ベクトルの和と各カテゴリのカテゴリベクトルとの間の距離を決定することができる。
505では、最短距離をともなう1つ以上のカテゴリにテキストが分類される。
格納されたテキストに基づいて、データベース内にカテゴリのさらなる分類が存在することができる。
図6に示されるように、テキスト分類のためにベクトルの和を用いる方法は、以下のようないくつかの動作を含む。
601では、所与のテキストが1つ以上の単語に構文解析される。
602では、1つ以上の単語がフィルタリングされ、フィルタリング条件を満たす1つ以上のフィルタリングされた単語が得られる。
603では、フィルタリング条件を満たす1つ以上のフィルタリングされた単語の各々について、各カテゴリについてその正規化された単語頻度値が決定される。具体的には、各カテゴリ内の単語について正規化された単語頻度値が予め格納される。
604では、各カテゴリについて、正規化された単語ベクトルの和を提供するために1つ以上の単語の正規化された単語頻度値が累積される。式6は、特定の実施の一例を提供する。
605では、正規化された単語ベクトルの和の最大構成要素(複数可)に対応するカテゴリにテキストが分類される。
本開示の実施形態のうちの1つ以上が、コンピュータ実行可能ソフトウェア、コード、または命令の形態で実装される場合、そのようなソフトウェア、コード、または命令は、フロッピーディスク、ハードディスク、CD−ROM、フラッシュメモリ、または他の非一時的記憶媒体等の1つ以上のコンピュータ可読記憶媒体に格納することができる。1つ以上のコンピュータによって実行される場合、ソフトウェア、コード、または命令は、1つ以上のコンピュータに上記テキスト分類方法の実施形態を実行させることができる。
本開示は、球面空間モデルを予め構築することによってVSMを向上させる。さらに、このプロセスは、得られた単語ベクトルとカテゴリベクトルとの間の距離を計算する。これはまた、テキストのカテゴリも決定する。本開示はまた、テキスト分類も実施する。加えて、角度の余弦を用いたアルゴリズムにより、計算の量が大幅に減少される。さらに、単位長さが、球面空間モデルの半径として作用する。各カテゴリ内の単語の正規化された単語頻度値の二乗和もまた、単位長さとすることができる。単位長さは、単語の意味情報の量に等しく、かつ限定される。このように、この方法は、既存技術のテキスト分類の正確性を向上させることができる。
より正確なテキスト分類によって、テキスト分類、ならびにテキストの検索および読み取りにおける効率を大幅に向上することができる。
当業者は、本開示の主旨および範囲から逸脱することなく、多くの異なる方式で本開示を変更または修正することができる。したがって、本開示は、本開示の特許請求の範囲の範囲内に含まれる全ての修正および変更ならびにそれらの均等物を包含することが意図される。

Claims (15)

  1. テキスト分類の方法であって、
    所与のテキストを1つもしくは複数の単語に構文解析することと、
    前記1つもしくは複数の単語のうちの1つに対して、球面空間モデルにおいて単語ベクトルを決定することであって、前記球面空間の次元数はカテゴリの数と等しく、各カテゴリは球面空間カテゴリベクトルに対応する、ことと、
    各カテゴリに対して前記球面空間における前記1つもしくは複数の単語の単語ベクトルの和と前記それぞれのカテゴリベクトルとの間の直線または球面弧の距離を計算することと、
    最短距離をともなう1つもしくは複数のカテゴリに前記テキストを分類することと
    備えたことを特徴とする方法。
  2. テキスト分類の方法であって、
    所与のテキストを1つもしくは複数の単語に構文解析することと、
    前記1つもしくは複数の単語のうちの1つに対して、球面空間モデルにおいて単語ベクトルを決定することであって、前記球面空間の次元数はカテゴリの数と等しく、各カテゴリは球面空間カテゴリベクトルに対応する、ことと、
    各カテゴリに対して、前記1つもしくは複数の単語の単語ベクトルの和と前記それぞれのカテゴリベクトルとの間の距離を決定することであって、
    前記1つもしくは複数の単語の正規化された単語頻度値を累積して、正規化された単語ベクトルの和を提供することと、
    前記正規化された単語ベクトルの和の最大構成要素に対応するカテゴリに前記テキストを分類することと、
    を備えている、ことと、
    最短距離をともなう1つもしくは複数のカテゴリに前記テキストを分類することと
    を備えたことを特徴とする方法。
  3. 前記1つもしくは複数の単語をフィルタリングして、フィルタリング条件を満たす1つもしくは複数のフィルタリングされた単語を提供することをさらに備えていることを特徴とする請求項1または2に記載の方法。
  4. 単語の単語ベクトルは、それぞれの1つもしくは複数のカテゴリにおける前記単語の1つもしくは複数の正規化された単語頻度値を備え、前記球面空間モデルは、単位長さを半径として有する多次元球面モデルを備えていることを特徴とする請求項1または2に記載の方法。
  5. 前記単位長さは1であることを特徴とする請求項4に記載の方法。
  6. テキスト分類のための装置であって、
    所与のテキストを1つもしくは複数の単語に構文解析する構文解析モジュールと、
    前記1つもしくは複数の単語のうちの1つに対して、球面空間モデルにおいて単語ベクトルを決定するクエリモジュールであって、前記球面空間の次元数はカテゴリの数と等しく、各カテゴリは球面空間カテゴリベクトルに対応する、クエリモジュールと、
    各カテゴリに対して前記球面空間における前記1つもしくは複数の単語の単語ベクトルの和と前記それぞれのカテゴリベクトルとの間の直線または球面弧の距離を計算する、計算モジュールと、
    最短距離をともなう1つもしくは複数のカテゴリに前記テキストを分類する分類モジュールと
    を備えたことを特徴とする装置。
  7. テキスト分類のための装置であって、
    所与のテキストを1つもしくは複数の単語に構文解析する構文解析モジュールと、
    前記1つもしくは複数の単語のうちの1つに対して、球面空間モデルにおいて単語ベクトルを決定するクエリモジュールであって、前記球面空間の次元数はカテゴリの数と等しく、各カテゴリは球面空間カテゴリベクトルに対応する、クエリモジュールと、
    各カテゴリに対して、前記1つもしくは複数の単語の単語ベクトルの和と前記それぞれのカテゴリベクトルとの間の距離を決定し、ならびに、前記1つもしくは複数の単語の正規化された単語頻度値を累積して、正規化された単語ベクトルの和を提供する、計算モジュールと、
    最短距離をともなう1つもしくは複数のカテゴリに前記テキストを分類し、ならびに、前記正規化された単語ベクトルの和の最大構成要素に対応するカテゴリに前記テキストを分類する、分類モジュールと
    を備えたことを特徴とする装置。
  8. 前記1つもしくは複数の単語をフィルタリングして、フィルタリング条件を満たす1つもしくは複数のフィルタリングされた単語を提供するフィルタモジュールをさらに備えていることを特徴とする請求項6または7に記載の装置。
  9. 単語の単語ベクトルは、それぞれの1つもしくは複数のカテゴリにおける前記単語の1つもしくは複数の正規化された単語頻度値を備え、前記球面空間モデルは、単位長さを半径として有する多次元球面モデルを備えていることを特徴とする請求項6または7に記載の装置。
  10. 前記単位長さは1であることを特徴とする請求項に記載の装置。
  11. コンピュータ実行可能命令を記憶させた、1つもしくは複数のコンピュータ可読記憶媒体であって、前記命令は1つ以上のコンピュータによって実行されると、
    所与のテキストを1つもしくは複数の単語に構文解析することと、
    前記1つもしくは複数の単語のうちの1つに対して、球面空間モデルにおいて単語ベクトルを決定することであって、前記球面空間の次元数はカテゴリの数と等しく、各カテゴリは球面空間カテゴリベクトルに対応する、ことと、
    各カテゴリに対して前記球面空間における前記1つもしくは複数の単語の単語ベクトルの和と前記それぞれのカテゴリベクトルとの間の直線または球面弧の距離を計算することと、
    最短距離をともなう1つもしくは複数のカテゴリに前記テキストを分類することと
    備えた動作を実行することを特徴とする1つもしくは複数のコンピュータ可読記憶媒体。
  12. コンピュータ実行可能命令を記憶させた、1つもしくは複数のコンピュータ可読記憶媒体であって、前記命令は1つ以上のコンピュータによって実行されると、
    所与のテキストを1つもしくは複数の単語に構文解析することと、
    前記1つもしくは複数の単語のうちの1つに対して、球面空間モデルにおいて単語ベクトルを決定することであって、前記球面空間の次元数はカテゴリの数と等しく、各カテゴリは球面空間カテゴリベクトルに対応する、ことと、
    各カテゴリに対して、前記1つもしくは複数の単語の単語ベクトルの和と前記それぞれのカテゴリベクトルとの間の距離を決定することであって、
    前記1つもしくは複数の単語の正規化された単語頻度値を累積して、正規化された単語ベクトルの和を提供することと、
    前記正規化された単語ベクトルの和の最大構成要素に対応するカテゴリに前記テキストを分類することと
    を備えている、ことと、
    最短距離をともなう1つもしくは複数のカテゴリに前記テキストを分類することと
    を備えた動作を実行することを特徴とする1つもしくは複数のコンピュータ可読記憶媒体。
  13. 前記動作は、
    前記1つもしくは複数の単語をフィルタリングして、フィルタリング条件を満たす1つもしくは複数のフィルタリングされた単語を提供することをさらに備えていることを特徴とする請求項11または12に記載の1つもしくは複数のコンピュータ可読記憶媒体。
  14. 単語の単語ベクトルは、それぞれの1つもしくは複数のカテゴリにおける前記単語の1つもしくは複数の正規化された単語頻度値を備え、前記球面空間モデルは、単位長さを半径として有する多次元球面モデルを備えていることを特徴とする請求項11または12に記載の1つもしくは複数のコンピュータ可読記憶媒体。
  15. 前記単位長さは1であることを特徴とする請求項14に記載の1つもしくは複数のコンピュータ可読記憶媒体。
JP2012551145A 2010-02-01 2010-09-03 テキスト分類の方法および装置 Expired - Fee Related JP5587434B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN2010101045124A CN102141977A (zh) 2010-02-01 2010-02-01 一种文本分类的方法及装置
CN201010104512.4 2010-02-01
PCT/US2010/047868 WO2011093925A1 (en) 2010-02-01 2010-09-03 Method and apparatus of text classification

Publications (2)

Publication Number Publication Date
JP2013519133A JP2013519133A (ja) 2013-05-23
JP5587434B2 true JP5587434B2 (ja) 2014-09-10

Family

ID=44319654

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012551145A Expired - Fee Related JP5587434B2 (ja) 2010-02-01 2010-09-03 テキスト分類の方法および装置

Country Status (5)

Country Link
US (1) US9208220B2 (ja)
EP (1) EP2531896A4 (ja)
JP (1) JP5587434B2 (ja)
CN (1) CN102141977A (ja)
WO (1) WO2011093925A1 (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8688453B1 (en) * 2011-02-28 2014-04-01 Nuance Communications, Inc. Intent mining via analysis of utterances
CN103049569A (zh) * 2012-12-31 2013-04-17 武汉传神信息技术有限公司 基于向量空间模型的文本相似性匹配方法
CN103064970B (zh) * 2012-12-31 2016-04-20 武汉传神信息技术有限公司 优化译员的检索方法
US11561987B1 (en) 2013-05-23 2023-01-24 Reveal Networks, Inc. Platform for semantic search and dynamic reclassification
CN105677677A (zh) * 2014-11-20 2016-06-15 阿里巴巴集团控股有限公司 一种信息分类方法及装置
JP6382139B2 (ja) * 2015-03-20 2018-08-29 ヤフー株式会社 情報処理装置、情報処理方法、及びプログラム
CN104794187A (zh) * 2015-04-13 2015-07-22 西安理工大学 一种基于词条分布的特征选择方法
CN105005589B (zh) * 2015-06-26 2017-12-29 腾讯科技(深圳)有限公司 一种文本分类的方法和装置
US10275446B2 (en) 2015-08-26 2019-04-30 International Business Machines Corporation Linguistic based determination of text location origin
US9984068B2 (en) * 2015-09-18 2018-05-29 Mcafee, Llc Systems and methods for multilingual document filtering
CN105243118A (zh) * 2015-09-29 2016-01-13 武汉传神信息技术有限公司 一种稿件数据分类的方法
CN106874291A (zh) * 2015-12-11 2017-06-20 北京国双科技有限公司 文本分类的处理方法及装置
WO2017206182A1 (en) 2016-06-03 2017-12-07 Schlumberger Technology Corporation Detecting events in well reports
US10789298B2 (en) * 2016-11-16 2020-09-29 International Business Machines Corporation Specialist keywords recommendations in semantic space
US10425433B2 (en) * 2016-11-18 2019-09-24 Bank Of America Corporation Network security database filtering tool
GB2571645A (en) * 2016-12-14 2019-09-04 Landmark Graphics Corp Automatic classification of drilling reports with deep natural language processing
CN107025463A (zh) * 2017-04-10 2017-08-08 刘欣语 基于合并分组算法的寝室分组装置及方法
CN107590177B (zh) * 2017-07-31 2021-02-02 南京邮电大学 一种结合监督学习的中文文本分类方法
CN107515934B (zh) * 2017-08-29 2020-12-15 四川长虹电器股份有限公司 一种基于大数据的电影语义个性化标签优化方法
JP7013957B2 (ja) * 2018-03-12 2022-02-01 富士通株式会社 生成プログラム、生成方法、情報処理装置および情報処理システム
US10831797B2 (en) * 2018-03-23 2020-11-10 International Business Machines Corporation Query recognition resiliency determination in virtual agent systems
CN110390094B (zh) * 2018-04-20 2023-05-23 伊姆西Ip控股有限责任公司 对文档进行分类的方法、电子设备和计算机程序产品
US11042580B2 (en) 2018-12-30 2021-06-22 Paypal, Inc. Identifying false positives between matched words
US10817669B2 (en) * 2019-01-14 2020-10-27 International Business Machines Corporation Automatic classification of adverse event text fragments
CN111831819B (zh) * 2019-06-06 2024-07-16 北京嘀嘀无限科技发展有限公司 一种文本更新方法及装置
CN111177370B (zh) * 2019-12-03 2023-08-11 北京工商大学 一种自然语言处理的算法
CN111259158B (zh) * 2020-02-25 2023-06-02 北京小米松果电子有限公司 一种文本分类方法、装置及介质
US11544277B2 (en) * 2020-08-17 2023-01-03 Raytheon Company Query term expansion and result selection
CN113032562B (zh) * 2021-03-18 2024-02-02 中国人民解放军火箭军工程大学 一种多次迭代对折词汇层级分类方法及系统

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4658429A (en) * 1983-12-29 1987-04-14 Hitachi, Ltd. System and method for preparing a recognition dictionary
US6513027B1 (en) * 1999-03-16 2003-01-28 Oracle Corporation Automated category discovery for a terminological knowledge base
EP1049030A1 (en) * 1999-04-28 2000-11-02 SER Systeme AG Produkte und Anwendungen der Datenverarbeitung Classification method and apparatus
US6611825B1 (en) * 1999-06-09 2003-08-26 The Boeing Company Method and system for text mining using multidimensional subspaces
US6751621B1 (en) * 2000-01-27 2004-06-15 Manning & Napier Information Services, Llc. Construction of trainable semantic vectors and clustering, classification, and searching using trainable semantic vectors
US7430717B1 (en) * 2000-09-26 2008-09-30 International Business Machines Corporation Method for adapting a K-means text clustering to emerging data
US7006969B2 (en) * 2000-11-02 2006-02-28 At&T Corp. System and method of pattern recognition in very high-dimensional space
US6735578B2 (en) * 2001-05-10 2004-05-11 Honeywell International Inc. Indexing of knowledge base in multilayer self-organizing maps with hessian and perturbation induced fast learning
US6868411B2 (en) * 2001-08-13 2005-03-15 Xerox Corporation Fuzzy text categorizer
US7024408B2 (en) * 2002-07-03 2006-04-04 Word Data Corp. Text-classification code, system and method
US7409404B2 (en) * 2002-07-25 2008-08-05 International Business Machines Corporation Creating taxonomies and training data for document categorization
JP4233836B2 (ja) * 2002-10-16 2009-03-04 インターナショナル・ビジネス・マシーンズ・コーポレーション 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム
US7356187B2 (en) * 2004-04-12 2008-04-08 Clairvoyance Corporation Method and apparatus for adjusting the model threshold of a support vector machine for text classification and filtering
US7366705B2 (en) * 2004-04-15 2008-04-29 Microsoft Corporation Clustering based text classification
TWI254880B (en) * 2004-10-18 2006-05-11 Avectec Com Inc Method for classifying electronic document analysis
US7805300B2 (en) * 2005-03-21 2010-09-28 At&T Intellectual Property Ii, L.P. Apparatus and method for analysis of language model changes
JP2007041721A (ja) 2005-08-01 2007-02-15 Ntt Resonant Inc 情報分類方法およびプログラム、装置および記録媒体
US7512605B2 (en) * 2006-11-01 2009-03-31 International Business Machines Corporation Document clustering based on cohesive terms
JP5008137B2 (ja) 2007-11-06 2012-08-22 日本電信電話株式会社 単語ベクトル生成装置、単語ベクトル生成方法、プログラムおよびプログラムを記録した記録媒体
JP5290570B2 (ja) 2007-12-26 2013-09-18 京セラ株式会社 絵文字入力支援装置、絵文字入力支援方法、およびプログラム

Also Published As

Publication number Publication date
US9208220B2 (en) 2015-12-08
US20110213777A1 (en) 2011-09-01
EP2531896A1 (en) 2012-12-12
CN102141977A (zh) 2011-08-03
WO2011093925A1 (en) 2011-08-04
EP2531896A4 (en) 2015-02-25
JP2013519133A (ja) 2013-05-23

Similar Documents

Publication Publication Date Title
JP5587434B2 (ja) テキスト分類の方法および装置
US9110922B2 (en) Joint embedding for item association
JP6759844B2 (ja) 画像を施設に対して関連付けるシステム、方法、プログラム及び装置
CN108268600B (zh) 基于ai的非结构化数据管理方法及装置
US9245049B2 (en) Performing queries using semantically restricted relations
WO2018176913A1 (zh) 搜索方法、装置及非临时性计算机可读存储介质
JP2017518588A (ja) 会話理解システムのためのセッションコンテキストモデリング
CN102156711B (zh) 一种基于云存储的电力全文检索方法及系统
WO2014108004A1 (zh) 一种微博用户身份识别方法及系统
US9164980B2 (en) Name identification rule generating apparatus and name identification rule generating method
CN103324666A (zh) 一种基于微博数据的话题跟踪方法及装置
Arru et al. Signal-based user recommendation on twitter
CN105593851A (zh) 用于跟踪与通过关联的文本和图像可识别的实体相关的微博消息的方法和装置
JP6428795B2 (ja) モデル生成方法、単語重み付け方法、モデル生成装置、単語重み付け装置、デバイス、コンピュータプログラム及びコンピュータ記憶媒体
JP2017142796A (ja) 情報の特定及び抽出
CN113127605B (zh) 一种目标识别模型的建立方法、系统、电子设备及介质
CN102043863B (zh) 一种Web服务聚类的方法
EP2766826B1 (en) Searching information
CN110858217A (zh) 微博敏感话题的检测方法、装置及可读存储介质
CN102135983A (zh) 基于网络用户行为的群体划分方法和装置
US8868571B1 (en) Systems and methods for selecting interest point descriptors for object recognition
WO2020147259A1 (zh) 一种用户画像方法、装置、可读存储介质及终端设备
CN113033194A (zh) 语义表示图模型的训练方法、装置、设备和存储介质
CN105550308A (zh) 一种信息处理方法,检索方法及电子设备
CN113111178A (zh) 无监督的基于表示学习的同名作者消歧方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130806

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140304

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140529

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140624

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140723

R150 Certificate of patent or registration of utility model

Ref document number: 5587434

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees