JP5587434B2

JP5587434B2 - テキスト分類の方法および装置

Info

Publication number: JP5587434B2
Application number: JP2012551145A
Authority: JP
Inventors: シャンサン
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2010-02-01
Filing date: 2010-09-03
Publication date: 2014-09-10
Anticipated expiration: 2030-09-03
Also published as: US9208220B2; US20110213777A1; EP2531896A1; CN102141977A; WO2011093925A1; EP2531896A4; JP2013519133A

Description

関連特許出願の相互参照
本出願は、２０１０年２月１日に出願された中国特許出願第２０１０１０１０４５１２４号、表題「ＭＥＴＨＯＤＡＮＤＡＰＰＡＲＡＴＵＳＯＦＴＥＸＴＣＬＡＳＳＩＦＩＣＡＴＩＯＮ」の優先権を主張するものであり、参照により、その全体が本明細書に組み込まれる。

本開示は、コンピュータおよび通信の分野に関し、より具体的には、テキスト分類の方法および装置に関する。

テキスト分類は、テキストマイニングの重要な要素である。それは、所定のサブジェクトカテゴリに基づいており、ファイルが各々カテゴリに割り当てられる。この自動テキスト分類システムは、人々がより効率的に必要な情報を検索するのに役立つ。一態様において、情報を分類することは、最も基本的な認識プロセスのうちの１つである。また、従来の分類研究は、実りの多い結果および実践的な使用法を生み出している。それにもかかわらず、テキストメッセージの送受信の急速な成長、特にオンラインテキストメッセージの急増に伴って、テキスト分類は、大量のデータを処理および整理する上で非常に重要な技術であると考えられる。現在、テキスト分類は、種々の分野で広く使用されている。しかしながら、ウェブベース情報の全般的な増加、より高い正確性およびより優れた検証の必要性のために、テキスト分類技術の需要もまた増大している。したがって、効率的なテキスト分類システムを構築することは、依然としてテキストマイニングの分野における主な研究領域のうちの１つである。

自然言語処理の分野において、テキストは、主にベクトル空間モデル（ＶＳＭ）を使用して表される。この方法では、各テキストが、その独立した属性を表すために使用される作業概念を含むと考えられており、各属性は、概念の次元であると見なすことができる。これらの独立した属性は、テキストの特性と呼ばれ、テキストは一連の特徴を表すことができる。さらに、ベクトルは、類似度を測定するために角度の余弦による方法を使用することが多い。そのため、テキストを分類するためにテキストベクトルと候補カテゴリベクトルとの類似度が使用される。

現在の技術では、テキストベクトルと候補カテゴリとの類似度を計算しなければならない。各計算は、非常に時間のかかるものであり、測定値を求めるために角度の余弦を使用する。さらに、現在の技術の意味論はいずれの規格も有さず、分類はあまり正確ではない。

本開示は、分類を簡素化および最適化するために使用されるテキスト分類の方法の例示的な実施を提供する。

一態様において、テキスト分類の方法は、所与のテキストを１つ以上の単語に構文解析することと、１つ以上の単語のうちの１つのために球面空間モデルにおいて単語ベクトルを決定することであって、球面空間の次元数はカテゴリの数と等しく、各カテゴリは球面空間カテゴリベクトルに対応する、単語ベクトルを決定することと、各カテゴリについて、１つ以上の単語の単語ベクトルの和とそれぞれのカテゴリベクトルとの間の距離を決定することと、最短距離を有する１つ以上のカテゴリにテキストを分類することと、を含む。

本方法はまた、フィルタリング条件を満たす１つ以上のフィルタリングされた単語を提供するために、１つ以上の単語をフィルタリングしてもよい。

１つ以上の単語の単語ベクトルの和とそれぞれのカテゴリベクトルとの間の距離は、直線または球面弧であってもよい。

単語の単語ベクトルは、それぞれの１つ以上のカテゴリ内に該単語の１つ以上の正規化された単語頻度値を含んでもよく、球面空間モデルは、単位長さを半径として有する多次元球面モデルを含んでもよい。単位長さは、１であってもよい。

１つ以上の単語の単語ベクトルの和とそれぞれのカテゴリベクトルとの間の距離を決定する際に、本方法は、正規化された単語ベクトルの和を提供するために１つ以上の単語の正規化された単語頻度値を累積し、正規化された単語ベクトルの和の最大構成要素に対応するカテゴリにテキストを分類してもよい。

別の態様において、テキスト分類のための装置は、所与のテキストを１つ以上の単語に構文解析する構文解析モジュールと、１つ以上の単語のうちの１つのために球面空間モデルにおいて単語ベクトルを決定するクエリモジュールであって、球面空間の次元数はカテゴリの数と等しく、各カテゴリは球面空間カテゴリベクトルに対応する、クエリモジュールと、各カテゴリについて、１つ以上の単語の単語ベクトルの和とそれぞれのカテゴリベクトルとの間の距離を決定する計算モジュールと、最短距離をともなう１つ以上のカテゴリにテキストを分類する分類モジュールと、を含んでもよい。

装置は、フィルタリング条件を満たす１つ以上のフィルタリングされた単語を提供するために、１つ以上の単語をフィルタリングするフィルタモジュールをさらに含んでもよい。

計算モジュールは、正規化された単語ベクトルの和を提供するために１つ以上の単語の正規化された単語頻度値を累積してもよい。分類モジュールは、正規化された単語ベクトルの和の最大構成要素に対応するカテゴリにテキストを分類してもよい。

さらに別の態様において、コンピュータ実行可能命令を記憶させた１つ以上のコンピュータ可読記憶媒体は、１つ以上のコンピュータによって実行されると、所与のテキストを１つ以上の単語に構文解析することと、１つ以上の単語のうちの１つのために球面空間モデルにおいて単語ベクトルを決定することであって、球面空間の次元数はカテゴリの数と等しく、各カテゴリは球面空間カテゴリベクトルに対応する、単語ベクトルを決定することと、各カテゴリについて、１つ以上の単語の単語ベクトルの和とそれぞれのカテゴリベクトルとの間の距離を決定することと、最短距離を有する１つ以上のカテゴリにテキストを分類することと、を含む動作を行う。

動作はまた、フィルタリング条件を満たす１つ以上のフィルタリングされた単語を提供するために、１つ以上の単語をフィルタリングすることを含んでもよい。

１つ以上の単語の単語ベクトルの和とそれぞれのカテゴリベクトルとの間の距離は、直線または球面弧を含んでもよい。

１つ以上の単語の単語ベクトルの和とそれぞれのカテゴリベクトルとの間の距離を決定する際に、正規化された単語ベクトルの和を提供するために１つ以上の単語の正規化された単語頻度値が累積されてもよく、正規化された単語ベクトルの和の最大構成要素に対応するカテゴリにテキストが分類されてもよい。

本開示は、球面空間モデルを予め構築する。さらに、このモデルは、各単語ベクトルと各カテゴリベクトルとの間の距離を計算することによってテキストをカテゴリに分類する。本開示は、既存の角度の余弦を用いたアルゴリズム技法と比較して、計算の量が実質的に減少されるテキスト分類について記載する。球面空間モデルは、単位長さを半径として使用する。単位長さはまた、各カテゴリ内の単語の正規化された単語頻度値の二乗の和でもある。単位長さは、単語の意味情報の量に等しく、かつ限定される。したがって、現在の技術に関連して、本開示は、テキスト分類をさらに最適化することができる。

本開示の一実施形態による装置のシステム図を示す。本開示の別の実施形態による図１の装置のシステム図を示す。本開示の一実施形態による球面空間図を示す。本開示の一実施形態によるテキスト分類のための主な方法のフローチャートを示す。本開示の一実施形態によるテキスト分類のための遠隔方法のフローチャートを示す。本開示の一実施形態によるテキスト分類のためのベクトル合計方法のフローチャートを示す。

本開示は、球面空間モデルを予め構築する。さらに、このモデルは、各単語ベクトルと各カテゴリベクトルとの間の距離を計算することによってテキストをカテゴリに分類する。本開示は、既存の角度の余弦を用いたアルゴリズム技法と比較して、計算の量が実質的に減少されるテキスト分類について記載する。球面空間モデルは、単位長さを半径として使用する。単位長さはまた、各カテゴリ内の単語の正規化された単語頻度値の二乗の和でもある。単位長さは、単語の意味情報の量に等しく、かつ限定される。したがって、現在の技術に関連して、本開示は、テキスト分類の正確性を向上させることができる。

図１に示されるように、本開示の一実施形態によるテキスト分類のための装置が提供される。一実施形態において、装置は、１つ以上のサーバを備える。例えば、装置は、メモリ等の１つ以上のコンピュータ可読記憶媒体、ネットワークと通信するための通信手段、ならびにネットワークに接続された他のデバイスおよび装置とを含む、プロセッサベースのサーバ内に実装されてもよい。装置は、構文解析モジュール１０１、クエリモジュール１０２、計算モジュール１０３、および分類モジュール１０４を備える。

構文解析モジュール１０１は、テキストを種々の構文解析された単語に構文解析する。

クエリモジュール１０２は、球面空間モデルにおいて、単語ベクトルと称される各構文解析された単語のベクトルを決定する。単語ベクトルは、各カテゴリ内にこの単語の正規化された単語頻度値を含む。球面空間モデルは、単位長さを半径として使用する。その次元は、球面空間カテゴリベクトルに対応するカテゴリの数と等しい。計算を容易にするために、単位長さを一定に維持することができる。一実施形態において、球面空間モデルの半径は１である。本明細書において、単語ベクトルとカテゴリベクトルとの間の距離は、直線または球面弧の距離であってもよい。

計算モジュール１０３は、各カテゴリについて、単語ベクトルとカテゴリベクトルとの間の距離を決定する。

分類モジュール１０４は、最短距離を有する１つ以上のカテゴリにテキストを分類する。

計算モジュール１０３は、単語ベクトルとカテゴリベクトルとの間の距離を計算する時に、全ての正規化された単語ベクトルを得るために、各カテゴリ内の単語ベクトルの正規化された単語頻度値を累積する。

分類モジュール１０４は、正規化された単語ベクトルの最大構成要素に対応するカテゴリにテキストを分類する。

他の実施形態において、装置は、図２に示されるように、インターフェースモジュール１０５、フィルタモジュール１０６、構造モジュール１０７、および記憶モジュール１０８をさらに備える。

インターフェースモジュール１０５は、１つ以上の外部ソースから分類されるべきテキストを取得する。

フィルタモジュール１０６は、フィルタリング条件を満たす単語を得るために、構文解析から得られた種々の構文解析された単語をフィルタリングする。多くの種類のフィルタリング条件が存在する。例えば、単語の単語頻度値から計算された単語の変動係数に基づいて、その変動係数が変動係数の閾値（例えば０．５）よりも大きい場合、その単語は除外される。変動係数を通して、あまり変化しないそれぞれの頻度値を有する単語（異なるカテゴリ下で基本的に不変の単語頻度値を有する「私」、「あなた」等の単語）は除外することができ、一方で、単語頻度値に著しい変動を有する単語（他のカテゴリよりも対応する専門的カテゴリにおいて多く見られる専門用語等）は保持することができる。可変頻度値を有する単語は、主に１つまたはいくつかのカテゴリ内に生じる。これらの単語は、テキスト分類の正確性に寄与する。一実施形態において、これらの単語は「目立つ」単語として分類され、フィルタリング後に保持することができる。簡略化のために本明細書には列挙されない他のフィルタリング条件もまた存在してもよい。

構造モジュール１０７は、球面空間モデルを構築する。

記憶モジュール１０８は、あらゆるテキストの分類と同様に、球面空間モデルを格納する。

構造モジュール１０７が球面空間モデルを構築するプロセスを以下に記載する。

多次元球面空間Ｓを考慮すると、Ｓの次元とカテゴリの総数は同じである。カテゴリＣｉは、球の終点であり、また同時に球面空間カテゴリベクトルに対応する。Ｃｉ＝（０．．．０，１，０．．．０）は、球面状の終点に向かって移動するコア（始点とも称される）に等しい。ｉ番目次元のカテゴリベクトルは１であり、残りは０である。統計的に独立した２つのカテゴリＣｉおよびＣｊから単語が生じたと仮定すると、ＳにおけるＣｉおよびＣｊは、互いに垂直でなければならない。したがって、一般に、カテゴリベクトル（Ｃｉ）の残りの部分は互いに直交している。

ｍ番目の単語の単語ベクトルＷｍは、本開示においてＳのベクトルである。ｍ＝１．．．Ｍにおいて、Ｍは合計単語数であり、一方で、Ｗｍ＝（Ｖ１，Ｖ２．．．ＶＮ）において、ＶｉはカテゴリＣｉの正規化された単語頻度値である。ｉ＝１．．．Ｎであり、Ｎはカテゴリの総数である。球面上の終点に向かうコアからの正規化された単語頻度値は、カテゴリＣｉの座標を意味することができる。単語ベクトルおよびカテゴリベクトルの図を図３に示す。図３に示されるように、Ｃｉ、Ｃｊ、およびＣｋは、カテゴリの３つのベクトルを示し、Ｏは、座標｛０，０．．．０｝をともなうコアまたは始点である。

本開示は、単語の意味情報の任意の量が一定であることを規定する。意味情報の量は、主要サブジェクトの認知または既存のオブジェクトの提示のいずれかに依存してもよい。単位長さは一定であると定義され、Ｓにおける単語ベクトルの長さ（すなわち、始点Ｏからの単語ベクトルの終点の距離）もまた一定である。便宜上、定数を１に設定する。始点Ｏからの単語ベクトルの終点の距離は、｜Ｗｍ−Ｏ｜＝１（式１）として表すことができ、次いで、Ｗｍ＝（Ｖ１，Ｖ２．．．ＶＮ）に基づいて、ΣＶｉ²＝１（式２）となる。式１から、単語ベクトルＷｍの終点が球内に含まれることが分かる。単語ベクトルＷｍおよびカテゴリベクトルＣｉの終点が球内に含まれるため、単語およびカテゴリのあらゆる意味は、類似度を表すためにＷｍおよびＣｉの距離を使用することができる。距離が短いほど、それらは近い。ＷｍおよびＣｉの距離は、直線または球面弧を用いて計算することができる。

単語の意味情報の任意の量が一定であるため、

を得るように単語頻度の値が正規化され、続いてΣ（Ｆｉ×ｋ）²＝１となり、式中、Ｆｉは、カテゴリＣｉ内の単語の単語頻度値であり、ｋは、デフォルトの正規化係数である。Σ（Ｆｉ×ｋ）²＝１から

を導くことができる。その結果、Ｖｉ＝Ｆｉ×ｋ（式４）から、変換関数（または定量関数）Ｗｍ＝δ（Ｆｉ）＝（Ｆｉ）×ｋ（式５）の単語ベクトルおよび単語頻度値を得ることができる。

上記のように、構造モジュール１０７は、球面構造の始点をコアとして使用する。単位長さ１を球面空間の半径とすると、単語ベクトルＷｍおよびカテゴリベクトルＣｉの終点は球内に含まれる。球面空間モデルは、サンプルをトレインおよびレビューするために直接適用することができる。サンプルのトレインプロセスおよびテキスト分類プロセスは、他のパターン認識手段または人工的な手段によって実施することができる。

テキストＤに関して、Ｄ＝ΣＷｍであり、Ｗｍはｍ番目の単語の単語ベクトルである。計算モジュール１０３は、ΣＷｍとカテゴリベクトルＣｉとの距離を計算する。テキストは、最短距離を有する１つ以上のカテゴリ下に分類される。ΣＷｍは必ずしも球面上にあるとは限らないことから、計算を容易にするために、計算モジュール１０３は、正規化係数ｋを乗じることによってＤを正規化することができ、次いで、カテゴリベクトルＣｉまでの距離を計算することができる。

単語ベクトルＷｍとカテゴリベクトルＣｉとの間の距離が短いほど、それら２つの類似度が高い。計算を簡素化するために、それはＰ＝（Ｐｉ）＝（ΣＶｍｉ）（式６）と設定することができ、Ｐｉは、重量カテゴリのｉ番目の構成要素である。Ｐｉが大きいほど、カテゴリベクトルＣｉまでの距離が短い。同様に、ΣＶｍｉが大きいほど、カテゴリベクトルＣｉまでの距離が短い。したがって、計算モジュール１０３は、カテゴリ内の複数の単語の正規化値を累積し、そのようなカテゴリの重量値を得る。分類モジュール１０４は、最大重量値に対応するカテゴリにテキストを分類する。

より大きなＰｉとカテゴリベクトルＣｉのより短い距離との相関関係の背景にある原理について以下に記載する。

Ｄ＝ΣＷｍおよびＷｍ＝（Ｖ１，Ｖ２．．．ＶＮ）であるため、Ｄ＝（ΣＶｍ１，ΣＶｍ２，．．．．．．，ΣＶｍｉ，．．．．．．，ΣＶｍｎ）となり、式中、ΣＶｍｉは、ｉ番目のカテゴリ内の書類の全ての正規化された単語頻度値の和である。さらに、Ｐｉ＝ΣＶｍｉ，Ｄ＝（Ｐｉ）である。ＤからＣｉまでの距離は、以下のように表すことができる。
｜Ｄ−Ｃｉ｜＝｜｛Ｐ１，Ｐ２，．．．Ｐｉ，．．．，Ｐｎ｝×ｋ-｛０，０，．．．，０，１，０，．．．．，０｝｜
＝ｋ×｜｛Ｐ１，Ｐ２，．．．Ｐｉ，．．．，Ｐｎ｝-｛０，０，．．．，０，１／ｋ，０，．．．．，０｝｜
＝ｋ×ｓｑｒｔ（（Ｐ１−０）²＋（Ｐ２−０）²＋．．．＋（Ｐｉ−１／ｋ）²＋．．．＋（Ｐｎ−０）²）
＝ｋ×ｓｑｒｔ（Ｐ１²＋Ｐ２²＋．．．＋（Ｐｉ²−２Ｐｉ／ｋ＋１／ｋ²）＋．．．＋Ｐｎ²）
＝ｋ×ｓｑｒｔ（Σ（Ｐｉ²）−２Ｐｉ／ｋ＋１／ｋ²）
＝ｓｑｒｔ（Σ（（Ｐｉ×ｋ）²）−２Ｋ×Ｐｉ＋１）

Σ（（Ｐｉ×ｋ）²）＝１であるため、ｓｑｒｔ（Σ（（Ｐｉ×ｋ）²）−２Ｋ×Ｐｉ＋１）＝ｓｑｒｔ（１−２Ｋ×Ｐｉ＋１）＝ｓｑｒｔ（２＊（１−Ｋ×Ｐｉ））となる。これは、ＤからＣｉまでの距離とＰｉが反比例することを証明するものである。例えば、最大のＰｉを有するカテゴリは、Ｄに最も近いカテゴリである。

前述の装置は、複数のコンピュータの各々に実装された前述の装置の１つ以上の構成要素とともに、単一コンピュータまたは複数のコンピュータに実装することができる。前述の装置の機能性は、１つまたは複数のコンピュータを連携させることによって達成することができる。各構成要素は、ソフトウェア、ハードウェア、またはその両方のいずれかの形態で実装することができる。

これまで、テキスト分類装置の内部構造および機能性について説明してきた。次に、テキスト分類の実施過程について記載する。

図４に示されるように、本開示の一実施形態による主な方法は以下を含む。

４０１では、所与のテキストが１つ以上の単語に構文解析される。

４０２では、１つ以上の単語の各々に対応する球面空間モデル内のそれぞれの単語ベクトルが決定される。単語ベクトルの各々は、各カテゴリ内のそれぞれの単語の正規化された単語頻度値を含む。球面空間モデルは、単位長さを多次元球面モデルの半径として使用する。この次元の数は、カテゴリの数と等しく、カテゴリは、球面空間カテゴリベクトルに対応する。

４０３では、各カテゴリについて、１つ以上の単語ベクトルの和とカテゴリベクトルとの間の距離が決定される。

４０４では、最短距離を有する１つ以上のカテゴリにテキストが分類される。

本開示は、前述の距離および単語ベクトルを使用するテキスト分類を提供する。次に、これらの２つの方法の各々について記載する。

図５に示されるように、距離に応じたテキスト分類のための方法は、以下のようないくつかの動作を含む。

５０１では、所与のテキストが１つ以上の単語に構文解析される。

５０２では、１つ以上の単語がフィルタリングされ、フィルタリング条件を満たす１つ以上のフィルタリングされた単語が得られる。フィルタモジュール１０３は、フィルタリングされる各単語の単語頻度値に基づいて単語をフィルタリングすることができる。全てのカテゴリにおけるデフォルト値よりも大きな単語頻度値を有するものの保持等、多くのフィルタ条件が存在してもよい。別の条件は、最大構成要素（すなわち、最大の正規化された単語頻度値）における正規化された単語ベクトルが、単語頻度閾値よりも大きい場合である。本明細書には列挙されない他のフィルタリング条件もまた存在し得る。

５０３では、フィルタリング条件を満たす１つ以上のフィルタリングされた単語の各々について、各カテゴリについてその正規化された単語頻度値が決定される。具体的には、各カテゴリ内の単語について正規化された単語頻度値が予め格納される。検索から単語が見つからない場合は、全てのカテゴリで、その正規化された単語頻度値が０に設定される。単語の、正規化された単語頻度値ではなく、単語頻度値が、各カテゴリについて予め格納される場合、それらを正規化して対応する正規化された単語頻度値を提供するために、クエリモジュール１０２を使用して単語頻度値を検索することができる。式４は、特定の実施の一例を提供する。追加的に、テキスト分類を最適化するためのより技術的な専門用語を残すための試みとして、妨害となる単語（珍しい単語および一般的な単語等）は除外することができる。

５０４では、各カテゴリについて、フィルタリング条件を満たす１つ以上のフィルタリングされた単語の各々の単語ベクトルと各カテゴリのカテゴリベクトルとの間の距離が決定される。この距離は、直線または球面弧であってもよい。

５０４の前に、正規化された単語ベクトルの和が球面空間内に含まれるように、単語ベクトルの和を正規化することができる。次いで、５０４では、正規化された単語ベクトルの和と各カテゴリのカテゴリベクトルとの間の距離を決定することができる。

５０５では、最短距離をともなう１つ以上のカテゴリにテキストが分類される。

格納されたテキストに基づいて、データベース内にカテゴリのさらなる分類が存在することができる。

図６に示されるように、テキスト分類のためにベクトルの和を用いる方法は、以下のようないくつかの動作を含む。

６０１では、所与のテキストが１つ以上の単語に構文解析される。

６０２では、１つ以上の単語がフィルタリングされ、フィルタリング条件を満たす１つ以上のフィルタリングされた単語が得られる。

６０３では、フィルタリング条件を満たす１つ以上のフィルタリングされた単語の各々について、各カテゴリについてその正規化された単語頻度値が決定される。具体的には、各カテゴリ内の単語について正規化された単語頻度値が予め格納される。

６０４では、各カテゴリについて、正規化された単語ベクトルの和を提供するために１つ以上の単語の正規化された単語頻度値が累積される。式６は、特定の実施の一例を提供する。

６０５では、正規化された単語ベクトルの和の最大構成要素（複数可）に対応するカテゴリにテキストが分類される。

本開示の実施形態のうちの１つ以上が、コンピュータ実行可能ソフトウェア、コード、または命令の形態で実装される場合、そのようなソフトウェア、コード、または命令は、フロッピーディスク、ハードディスク、ＣＤ−ＲＯＭ、フラッシュメモリ、または他の非一時的記憶媒体等の１つ以上のコンピュータ可読記憶媒体に格納することができる。１つ以上のコンピュータによって実行される場合、ソフトウェア、コード、または命令は、１つ以上のコンピュータに上記テキスト分類方法の実施形態を実行させることができる。

本開示は、球面空間モデルを予め構築することによってＶＳＭを向上させる。さらに、このプロセスは、得られた単語ベクトルとカテゴリベクトルとの間の距離を計算する。これはまた、テキストのカテゴリも決定する。本開示はまた、テキスト分類も実施する。加えて、角度の余弦を用いたアルゴリズムにより、計算の量が大幅に減少される。さらに、単位長さが、球面空間モデルの半径として作用する。各カテゴリ内の単語の正規化された単語頻度値の二乗和もまた、単位長さとすることができる。単位長さは、単語の意味情報の量に等しく、かつ限定される。このように、この方法は、既存技術のテキスト分類の正確性を向上させることができる。

より正確なテキスト分類によって、テキスト分類、ならびにテキストの検索および読み取りにおける効率を大幅に向上することができる。

当業者は、本開示の主旨および範囲から逸脱することなく、多くの異なる方式で本開示を変更または修正することができる。したがって、本開示は、本開示の特許請求の範囲の範囲内に含まれる全ての修正および変更ならびにそれらの均等物を包含することが意図される。

Claims

テキスト分類の方法であって、
所与のテキストを１つもしくは複数の単語に構文解析することと、
前記１つもしくは複数の単語のうちの１つに対して、球面空間モデルにおいて単語ベクトルを決定することであって、前記球面空間の次元数はカテゴリの数と等しく、各カテゴリは球面空間カテゴリベクトルに対応する、ことと、
各カテゴリに対して、前記球面空間における前記１つもしくは複数の単語の単語ベクトルの和と前記それぞれのカテゴリベクトルとの間の直線または球面弧の距離を計算することと、
最短距離をともなう１つもしくは複数のカテゴリに前記テキストを分類することと
を備えたことを特徴とする方法。
テキスト分類の方法であって、
所与のテキストを１つもしくは複数の単語に構文解析することと、
前記１つもしくは複数の単語のうちの１つに対して、球面空間モデルにおいて単語ベクトルを決定することであって、前記球面空間の次元数はカテゴリの数と等しく、各カテゴリは球面空間カテゴリベクトルに対応する、ことと、
各カテゴリに対して、前記１つもしくは複数の単語の単語ベクトルの和と前記それぞれのカテゴリベクトルとの間の距離を決定することであって、
前記１つもしくは複数の単語の正規化された単語頻度値を累積して、正規化された単語ベクトルの和を提供することと、
前記正規化された単語ベクトルの和の最大構成要素に対応するカテゴリに前記テキストを分類することと、
を備えている、ことと、
最短距離をともなう１つもしくは複数のカテゴリに前記テキストを分類することと
を備えたことを特徴とする方法。
前記１つもしくは複数の単語をフィルタリングして、フィルタリング条件を満たす１つもしくは複数のフィルタリングされた単語を提供することをさらに備えていることを特徴とする請求項１または２に記載の方法。
単語の単語ベクトルは、それぞれの１つもしくは複数のカテゴリにおける前記単語の１つもしくは複数の正規化された単語頻度値を備え、前記球面空間モデルは、単位長さを半径として有する多次元球面モデルを備えていることを特徴とする請求項１または２に記載の方法。
前記単位長さは１であることを特徴とする請求項４に記載の方法。
テキスト分類のための装置であって、
所与のテキストを１つもしくは複数の単語に構文解析する構文解析モジュールと、
前記１つもしくは複数の単語のうちの１つに対して、球面空間モデルにおいて単語ベクトルを決定するクエリモジュールであって、前記球面空間の次元数はカテゴリの数と等しく、各カテゴリは球面空間カテゴリベクトルに対応する、クエリモジュールと、
各カテゴリに対して、前記球面空間における前記１つもしくは複数の単語の単語ベクトルの和と前記それぞれのカテゴリベクトルとの間の直線または球面弧の距離を計算する、計算モジュールと、
最短距離をともなう１つもしくは複数のカテゴリに前記テキストを分類する分類モジュールと
を備えたことを特徴とする装置。
テキスト分類のための装置であって、
所与のテキストを１つもしくは複数の単語に構文解析する構文解析モジュールと、
前記１つもしくは複数の単語のうちの１つに対して、球面空間モデルにおいて単語ベクトルを決定するクエリモジュールであって、前記球面空間の次元数はカテゴリの数と等しく、各カテゴリは球面空間カテゴリベクトルに対応する、クエリモジュールと、
各カテゴリに対して、前記１つもしくは複数の単語の単語ベクトルの和と前記それぞれのカテゴリベクトルとの間の距離を決定し、ならびに、前記１つもしくは複数の単語の正規化された単語頻度値を累積して、正規化された単語ベクトルの和を提供する、計算モジュールと、
最短距離をともなう１つもしくは複数のカテゴリに前記テキストを分類し、ならびに、前記正規化された単語ベクトルの和の最大構成要素に対応するカテゴリに前記テキストを分類する、分類モジュールと
を備えたことを特徴とする装置。
前記１つもしくは複数の単語をフィルタリングして、フィルタリング条件を満たす１つもしくは複数のフィルタリングされた単語を提供するフィルタモジュールをさらに備えていることを特徴とする請求項６または７に記載の装置。
単語の単語ベクトルは、それぞれの１つもしくは複数のカテゴリにおける前記単語の１つもしくは複数の正規化された単語頻度値を備え、前記球面空間モデルは、単位長さを半径として有する多次元球面モデルを備えていることを特徴とする請求項６または７に記載の装置。
前記単位長さは１であることを特徴とする請求項９に記載の装置。
コンピュータ実行可能命令を記憶させた、１つもしくは複数のコンピュータ可読記憶媒体であって、前記命令は１つ以上のコンピュータによって実行されると、
所与のテキストを１つもしくは複数の単語に構文解析することと、
前記１つもしくは複数の単語のうちの１つに対して、球面空間モデルにおいて単語ベクトルを決定することであって、前記球面空間の次元数はカテゴリの数と等しく、各カテゴリは球面空間カテゴリベクトルに対応する、ことと、
各カテゴリに対して、前記球面空間における前記１つもしくは複数の単語の単語ベクトルの和と前記それぞれのカテゴリベクトルとの間の直線または球面弧の距離を計算することと、
最短距離をともなう１つもしくは複数のカテゴリに前記テキストを分類することと
を備えた動作を実行することを特徴とする１つもしくは複数のコンピュータ可読記憶媒体。
コンピュータ実行可能命令を記憶させた、１つもしくは複数のコンピュータ可読記憶媒体であって、前記命令は１つ以上のコンピュータによって実行されると、
所与のテキストを１つもしくは複数の単語に構文解析することと、
前記１つもしくは複数の単語のうちの１つに対して、球面空間モデルにおいて単語ベクトルを決定することであって、前記球面空間の次元数はカテゴリの数と等しく、各カテゴリは球面空間カテゴリベクトルに対応する、ことと、
各カテゴリに対して、前記１つもしくは複数の単語の単語ベクトルの和と前記それぞれのカテゴリベクトルとの間の距離を決定することであって、
前記１つもしくは複数の単語の正規化された単語頻度値を累積して、正規化された単語ベクトルの和を提供することと、
前記正規化された単語ベクトルの和の最大構成要素に対応するカテゴリに前記テキストを分類することと
を備えている、ことと、
最短距離をともなう１つもしくは複数のカテゴリに前記テキストを分類することと
を備えた動作を実行することを特徴とする１つもしくは複数のコンピュータ可読記憶媒体。
前記動作は、
前記１つもしくは複数の単語をフィルタリングして、フィルタリング条件を満たす１つもしくは複数のフィルタリングされた単語を提供することをさらに備えていることを特徴とする請求項１１または１２に記載の１つもしくは複数のコンピュータ可読記憶媒体。
単語の単語ベクトルは、それぞれの１つもしくは複数のカテゴリにおける前記単語の１つもしくは複数の正規化された単語頻度値を備え、前記球面空間モデルは、単位長さを半径として有する多次元球面モデルを備えていることを特徴とする請求項１１または１２に記載の１つもしくは複数のコンピュータ可読記憶媒体。
前記単位長さは１であることを特徴とする請求項１４に記載の１つもしくは複数のコンピュータ可読記憶媒体。