JP2002092006A - テーマに基く文書分類システム - Google Patents

テーマに基く文書分類システム

Info

Publication number
JP2002092006A
JP2002092006A JP2001220153A JP2001220153A JP2002092006A JP 2002092006 A JP2002092006 A JP 2002092006A JP 2001220153 A JP2001220153 A JP 2001220153A JP 2001220153 A JP2001220153 A JP 2001220153A JP 2002092006 A JP2002092006 A JP 2002092006A
Authority
JP
Japan
Prior art keywords
document
documents
class
theme
svm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001220153A
Other languages
English (en)
Inventor
Damian Porcari
ポルカリ ダミアン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ford Motor Co
Original Assignee
Ford Motor Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ford Motor Co filed Critical Ford Motor Co
Publication of JP2002092006A publication Critical patent/JP2002092006A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 自動的に文書を分類することが可能な分類シ
ステムを提供する。 【解決手段】 制御器12を持つ分類システム10、文書記
憶メモリー14及び文書入力部16が、文書20を分類するの
に用いられる。制御器12は、予め定められた複数の原文
書の中の、複数の原文書からテーマ・スコアを生成する
様に、プログラムされる。テーマ・スコアはまた、未分
類の文書についても生成される。未分類文書のテーマ・
スコア及び各クラスについてのテーマ・スコアが比較さ
れ、そして未分類文書が、最も近いテーマ・スコアを持
つクラスに分類される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、概略的には文書の
分類に関し、より具体的には、予め定められたクラスの
テーマを自動的に用いて、文書を分類する方法及びシス
テムに関する。
【0002】
【従来の技術】会社、特に技術系の会社は、社内での記
録保管及び他の目的のために種々の情報を種々のクラス
(classification, 分類)へ分類する。他の目的の一つ
に、特許サーチがある。会社においては、社内情報とし
て記録するために、種々の特許情報を取得することがあ
る。一般的にこれは、特許を読み、前もって特定された
分類システムに従って特許を分類する熟練した調査員の
グループを用いて行われる。その様な仕組みに伴なう問
題の一つに、文書を適切に分類するためには、調査員が
分類システムと背景技術を熟知していなければならな
い、ということがある。文書を分類するためには、かな
りの期間が必要であるので、この処理には、工数及びコ
ストがかなりかかる。
【0003】技術は変化するので、分類システムを変更
する、又は各クラス内にサブクラスを追加する、ことが
望ましいことがあり得る。これを手作業で行なうために
は、調査員が、あるクラスの特許などの文書を読み直
し、新たなクラス又はサブクラスに分類する必要があ
る。
【0004】それで、文書のクラスを自動的に判定する
ことが可能であると共に、再分類やクラスの分割が望ま
しいときには、文書を分類し直すことが可能な、分類シ
ステムを提供することが、望ましいと言うことになる。
【0005】
【発明が解決しようとする課題】それで、本発明は、自
動的に文書を分類することが可能な分類システムを提供
することを、目的とする。
【0006】
【課題を解決するための手段】本発明の第1の観点にお
いて、文書を分類する方法が、複数のクラスを定義する
工程、上記複数のクラスのそれぞれの原文書を特定する
工程、上記クラスのそれぞれについての分類テーマ(主
題)を生成する工程、未分類文書をシステムに入力する
工程、上記原文書に対応する未分類文書のテーマ(主
題)を生成する工程、及び未分類文書のテーマ・スコア
が、上記複数のクラスの一つのテーマ・スコアに略等し
いときに、そのクラスへ文書を分類する工程、を有す
る。
【0007】本発明の別の観点においては、未分類文書
の分類のために、制御器、文書記憶メモリー及び文書入
力部を含む分類システムが用いられる。上記制御器は、
予め定められた複数の原文書からテーマ・スコアを生成
する様に、プログラムされる。未分類文書についてのテ
ーマ・スコアも生成される。上記未分類文書のテーマ・
スコア及び各クラスのテーマ・スコアが比較され、未分
類文書が、最も近いテーマ・スコアを持つクラスへ分類
される。
【0008】本発明においては、前もって分類された文
書を、各クラス又はサブクラスへ自動的に分類し直して
も良い。それで、技術の変遷に伴ない、クラス及びサブ
クラスが更新され得る。
【0009】本発明の他の目的及び構成は、添付の図面
及び特許請求の範囲を参照して、好ましい実施の形態の
詳細な説明を読むことにより、明らかとなる。
【0010】
【発明の効果】本発明によれば、自動的に文書を分類す
ることが可能な分類システムを提供することが出来る。
【0011】
【発明の実施の形態】以下に述べる図面には、本発明の
種々の用途についての具体的な例が記載されている。特
許の分類が、本発明の適切な用途ではあるが、当業者に
は本発明の他の用途も明らかであろう。
【0012】ここで図1を参照すると、分類システム10
は、文書記憶メモリー14に接続された制御器12を持つ。
制御器12はまた、文書入力部16へ接続される。制御器12
は、後述の様に、テーマに基き分類を実行する様にプロ
グラムされているコンピューターからなる。文書記憶メ
モリー14は、その中に各文書及び分類クラスを記憶す
る。文書入力メモリー14は、ハード・ディスク・ドライ
ブ又は、互いに結合された複数のハード・ディスク・ド
ライブを含む、各種の記憶装置から構成され得る。文書
記憶メモリー14は、数多くの文書を記憶することが出来
ると共に、別の文書が分類されると、その文書を記憶す
ることが出来るものでなければならない。文書記憶メモ
リー14は、より大きな記憶能力が必要とされるときに、
増設され得るものであるのが、好ましい。
【0013】入力部16は、入力部として、スキャナーや
インターネットへの直接のインターフェースの様な各種
のものを有し得る。入力部16は、デジタル的に読取可能
な文書を分類のために制御器12へ供給する。実施形態の
一つにおいては、入力部16が、インターネット・ブラウ
ザを介して特許庁に接続される。毎週火曜日に発行され
る米国特許が、制御器12により自動的に分類され、文書
記憶メモリー14に記憶され得る。勿論、制御器12を文書
に接続するには、異なる文書発信源を含む種々の他の手
段があることが、当業者には明らかであろう。入力部16
は例えば、分類されていない又は不完全に分類された複
数の文書をそこに持つCD-ROMであっても良い。制御器12
は、CD-ROM上の文書を分類し、分類された状態で文書記
憶メモリー14内に記憶するために、用いることが出来
る。
【0014】ここで図2を参照すると、未分類の文書20
が、複数のクラス、すなわちクラス1、クラス2及びクラ
ス3へと分類されている。クラス1は、2つのサブクラス1
及びサブクラス2を持つ。クラス1のみが、サブクラスを
持つものとして示されているものの、各クラスのそれぞ
れがサブクラスを持っても良い。また、各サブクラスが
更にサブクラスを持っても良い。各クラスは、それぞれ
テーマ・スコア、すなわちテーマ・スコア1、テーマ・
スコア2及びテーマ・スコア3を持つ。各サブクラスはま
た、それぞれのテーマ・スコア、すなわちテーマ・スコ
アA及びテーマ・スコアBを持つ。テーマ・スコアは、ク
ラス及びサブクラスのテーマを特定するものである。未
分類の文書には、各クラス及びサブクラスのテーマ・ス
コアと比較される、テーマ・スコア4が付与される。未
分類文書は、そこのテーマ・スコアに最も密接に対応す
るクラス及び/又はサブクラスに分類される。
【0015】ここで図3を参照すると、未分類文書20
は、符号22, 24及び26により表される各部分を持つ場合
がある。特許テーマに関して述べると、部分22は要約に
対応し、部分24は明細書に対応し、そして部分26が請求
項に対応し得る。国際特許分類又は米国特許分類の様な
他の部分が用いられる場合もある。勿論、利用される文
書の形式に応じて、他の部分が記載されることもあり得
る。後述される様に、各文書領域は、分類体系の中での
異なる重みを持ち得る。図示されている様に、要約部分
が重み1を持ち、明細書部分が重み2を持ち、そして請求
項部分が重み3を持つ。選択された単語のみが、重み付
けシステムにおいて用いられるのが好ましい。後述され
る様に、各名詞及び動詞には、言語の他の部分とは異な
る重みが付与される。
【0016】ここで図4を参照すると、文書を分類する
方法30が記載されている。ステップ32において、分類の
ための多くのクラスが規定される。望ましい場合には、
同時に、多くのサブクラスがステップ34において規定さ
れる。ステップ36において、クラスのそれぞれに対し
て、もし望ましい場合にはサブクラスのそれぞれに対し
て、多くの原文書が特定される。これら原文書は、特定
のクラスの技術又は分野を適切に代表するものとされ
る。
【0017】原文書は、クラス及びサブクラスについて
のテーマ・スコアを規定するために用いられる。テーマ
・スコアは、クラスの主題(テーマ)についての特定の
値を表す。テーマの値を生成するためには、各種既知の
方法が用いられ得る。例えば、自然言語のサーチのため
の多くのアルゴリズムが用いられ得る。自然言語のサー
チ用語は、原文書から導かれる。本発明で用いられる自
然言語サーチは、分類されるべき文書を特定する分類用
途のために特定の話題(テーマ)又は定義を(自然言語
の形態で)記述する、質問、文、文節、単語又は述語を
探索するために、用いられる。自然言語の用語は、テー
マ・スコアを得るために、単語の重要度を選択する既知
の方法に従い、数学的に重み付けされる。ステップ40に
おいて、未分類文書が、システムに入力される。未分類
文書は、デジタル的に読取可能であるのが好ましく、ワ
ードプロセッサー文書、インターネット・ファイル又は
他の形式のデジタル的に読取可能なファイルから構成さ
れ得る。ステップ42において、これは選択的なものであ
るが、未分類の文書の部分が重み付けされても良い。こ
の重み付けは、未分類文書についてのテーマ・スコアを
規定するについての、各部分についての重要度レベルを
確立することになる。ステップ44において、未分類文書
についてのテーマ・スコアが規定される。テーマ・スコ
アは、クラスのテーマ・スコアに対応する態様で、規定
される。ステップ46において、未分類文書のテーマ・ス
コアが各クラスのテーマ・スコアと比較される。未分類
文書は、その様にして、最も近いテーマ・スコアを持つ
クラスに分類される。クラスがサブクラスを持つ場合に
は、サブクラスのテーマ・スコアが、未分類文書のテー
マ・スコアと比較される。一旦、クラス及びサブクラス
が決定されると、文書は、そのクラス及びサブクラスと
共に文書記憶メモリー14に記憶される。
【0018】システムの完全性を高めるために、誤分類
された文書の見直しが実行される場合もある。調査員又
はシステム内の情報の他のユーザーが、誤分類された文
書を発見した際には、それらが特定され、システム内で
負の重みが与えられても良い。この負の重みが、同様の
文書が、類似の誤ったクラスに分類されるのを、防止す
ることになる。誤分類された文書についての文書の見直
しが、ステップ50で実行される。
【0019】ここで図5を参照すると、このシステムの
有利な点の一つが、サブクラスの再分類が自動的に実行
されると共に新たなサブクラスを自動的に生成し得るこ
とであるのが、判る。新たなサブクラスは、ステップ52
において定義される。ステップ54で、そのクラスから分
離されるべき文書が、そのサブクラスについて選択され
る。ステップ56において、選択された文書により代表さ
れる新たなサブクラスについての新たなテーマ・スコア
が生成される。それで、未分類文書のテーマ・スコア
は、新たなサブクラスについてのテーマ・スコアとの比
較のために用いられる。そのクラス内の他の文書が、新
たなサブクラスに含まれるべきであるか否かを判定する
ために、評価し直されても良い。
【0020】同様の態様で、再分類が実行されるなら
ば、新たなクラスについての原文書が得られる。そし
て、システム内の文書のそれぞれが、それらが分類され
るべき特定の新たなクラスを決定するために、再評価さ
れても良い。
【0021】
【実施例】本発明の実施例を以下に説明する。一般的に
は文字列である文書は、学習アルゴリズム及び分類タス
クに適した表示に変換されなければならない。評価した
方法は、各文書が単語又は属性のベクトルとして表され
る、ベクトル空間法に基くものである。それぞれの個別
の単語は、その数値が文書中のその単語の出現回数であ
るベクトルの要素に対応する。図6は、特定の文書の特
徴ベクトルの例を示す。この表示内では単語の順番は失
われ、単語の頻度のみが残っていることに留意すべきで
ある。単語の統計量に基く分類が、極めて正確になり
得、領域特有ではない意味論的方法に対する利点を持
つ、ことを経験的研究が示した。
【0022】文書データ・セット中での出現頻度が非常
に低いか非常に高い単語は、非情報性「ストップ・ワー
ド(stop word)」のリストと共に、文書のベクトルに
は含まれない。典型的なストップ・ワードのリストに
は、”the”及び”of”の様な前置詞、冠詞、代名詞及
び接続詞を含む300から400の単語が入る。回収率を向上
し、更に文書ベクトルの長さを短くするために、語幹が
用いられる。語幹は、格を無くし、接尾辞を取除くこと
により、出現した形態の単語から導き出される。例え
ば、“compute”, “computes”及び“computing”は、
全て同じ語幹”compute”にマッピングされる。
【0023】用語の頻度TFは、与えられた文書中で、あ
る単語がどの程度テーマ(主題)に即しているかについ
ての統計量を与えるが、データをより良く表すために
は、逆文書頻度IDFで特徴ベクトルをスケーリングする
こと(つまりTFIDFの重み付けを用いること)が、優れ
た性能につながる。文書dj中の単語wIの使用頻度につい
て、fijにより、文書ベクトルへの入力値を代表させ
る。IDF(wi)は、以下の様に定義される。
【数1】 ここで、Nはトレーニング文書の総数であり、niは単語w
iを含む文書の数である。感覚的に判る様に、IDF(wi)
は、より少ない数の文書中に表れる単語についての特徴
値に対して、より大きな影響を与える。トレーニング文
書の中で一般的な単語は、文書間での差別化を明確に進
める事にはならず、それでより小さなIDFの重みを持
つ。文書の長さの影響を最小化し、分類精度を高めるた
めに、各文書ベクトルdjは、単位長さに正規化される。
【0024】文章の分類に際し、特徴空間の寸法(概略
的には、文書データ・セットの用語範囲の大きさ)が、
かなり大きくなり得る。特徴の選択は、分類効率を高
め、演算の複雑性を低減し、そして過剰修正を回避する
ために、特徴空間からあまり代表的でない単語を取除く
ことを意図している。特徴の選択は、全文書の全ての用
語範囲からの用語の削除の程度を望ましいものとするた
めに、閾値検定法に基いている。これらの検定法には、
文書頻度、情報ゲイン、相互情報、χ2統計、及び用語
強度がある。最も一般的に用いられ、最も有効である場
合が多い方法は、情報ゲイン基準である。情報ゲイン
は、情報理論におけるエントロピーの概念から用いられ
るものである。Cを全てのクラスについての確率変数と
し、Wを文書中の単語wの存在の有無についての確率変数
とすると、Cは値
【数2】 をとり、Wは文書中に存在しない又は存在する単語につ
いて値[0,1]をとる。情報ゲインは、クラス変数のエン
トロピーH(C)と、用語の不存在又は存在により調整され
たクラス変数のエントロピーH(C|W)の差である。
【0025】
【数3】 ここで、全ての文書についての合計により、確率が計算
される。Pr(ci)はクラス(クラス・ラベル)ciを持つ文
書の数を文書の総数で割った値であり、Pr(w)は単語wを
含む文書の数を文書の総数で割った値であり、そして、
Pr(ci|w)は単語wを含みクラス・ラベルciを持つ文書の
数を単語wを含む文書の数で割った値である。エントロ
ピーは、確率変数の不確さの尺度である。情報ゲイン
は、単語により、サンプルを分離することによるカテゴ
リー予測の不確かさの低減度合の尺度である。それで、
この尺度は、全てのカテゴリーについて単語を分類する
ことの重要度を示す。慣習的に、0log0 = 0である。情
報ゲインの概念を示すために、表1の例を検討する。
【表1】
【0026】一般的には、可能性の分布を示すために
は、充分なサンプルがあるべきである。ここで、カテゴ
リーc1 = trade(貿易)及びc2 = grain(穀物)から4
つの電子ニュース文書を用いた。4つの単語"wheat", "t
rade" "increase"及び"export"を用い、4つの文書に与
えられたカテゴリーに基き情報ゲインを計算する。
【0027】単語の情報ゲインを計算するのに必要な存
在確率は以下の通りである。 Pr(c1) = Pr(c2) = 1/2 Pr("wheat") = Pr("trade") = Pr("increase") = 1/2 Pr("export") = 3/4, Pr(not "export") = 1/4 Pr(not "wheat") = Pr(not "trade") = Pr(not "increa
se") = 1/2 Pr(c1| "wheat") = 0; Pr(c2|"wheat") = 1 Pr(c1| not "wheat") = 1; Pr(c2| not "wheat") = 0 Pr(c1| "trade") = 1; Pr(c2| "trade") = 0 Pr(c1| not "trade") = 0; Pr(c2| not "trade") = 1 Pr(c1| "increase") = 1/2; Pr(c2| "increase") =1/2 Pr(c1| not "increase") = 1/2; Pr(c2| not "increas
e") = 1/2 Pr(c1| "export") = 2/3; Pr(c2| "export") = 1/3 Pr(c1| not "export") = 0; Pr(c2| not "export") =
1; 式(2.1)により、カテゴリーc1及びc2についての、単
語”wheat”の情報ゲインを、以下の様に計算出来る。
【数4】 同様に、他の単語の情報ゲインを計算することが出来、
結果として以下の通りである。 I(C; "trade") = 1; I(C; "increase") = 0; I(C; "export") = 0.31
【0028】表1より、単語"wheat"及び"trade"の存在
及び不存在が文書を正しく分類することが出来、これ
が”wheat”及び”trade”が高い情報ゲイン持つ事実と
一致することが、判る。単語”increase”は、その存在
及び不存在が、カテゴリーへの分類との相互関係を殆ど
持たないことを示す。上記計算により、それは、0に等
しい情報ゲインを持つ。それで、情報ゲインが、クラス
への分類を最も良く代表する用語を選択するための尺度
として用いられる。
【0029】トレーニング文書データ・セットが与えら
れて、情報ゲインを演算し、特徴空間から、予め定めら
れた閾値よりも小さい情報ゲインを持つ用語を取除く。
【0030】分類子は、入力属性ベクトルx = (w1, w2,
w3, … wn)を、一つ以上の目標値又はクラスに与え
る、マップである。3つの方法が、調査中に比較され
た。すなわち、サポート・ベクター・マシン(support
vector machine略してSVM)、K-近隣法(k-nearest nei
ghbor)及びNaive Bayesである。
【0031】SVMに基く分類は、過去数年間で急激に発
展した。それは、1995年にVapnikにより、2クラスのパ
ターン認識問題[25]を解くために、導入された。トレー
ニング・データが、(x1, y1), (x2, y2), …, (xl, yl)
であると仮定する。ここで、xiは文書iの属性ベクトル
であり、yiは、文書iがあるクラスに入るか他のクラス
に入るかにより1又は-1であるxiの目標値である。2クラ
ス分類子として動作するSVMは、yi (w * xi + b) >= 1,
i = 1,…lとなる様に、最大のマージンで2クラスにデ
ータ点を分離する最適超平面w * x + b = 0を構築する
ものである(図7参照)。
【0032】最適超平面は、制約条件yi (w * xi + b)
≧ 1に対し、
【数5】 を最小にする、ベクトルw0及び定数b0により、定義され
る。この問題が線形分離可能ではないとき、この方法
は、ソフト・マージンを導入すると共に、関数Φを介し
てより高次の特徴空間へトレーニング・データを非線形
的にマッピングし、それから最適超平面を特徴空間に構
築することにより、拡大することが出来る。一般的に、
閾値Tを持つ超空間決定関数は、以下の様に求めること
が出来る。SVMは、
【数6】 この場合に、新たな入力ベクトルxのそれぞれに対し、
目標値1を与え、そうでない場合には、-1を与えること
になる。ここで、Φは、入力空間から特徴空間への非線
形マップであり、k(x, xj) = ΦT(x)Φ(xj)は、カーネ
ル関数であり、そして、α1, α2,…, αl以下は以下の
2次最適問題を用いて学習された重みである。
【数7】 を最小にする。
【数8】 に従う。
【0033】カーネル関数は、以下の形式の関数であり
得る。すなわち、線形関数d次の多項式(x * y + c)d
径基底関数
【数9】 シグモイド関数
【数10】 である。
【0034】SVMの興味深い特性は、最適超平面が、マ
ージン上に配置されたデータ点によってのみ決定され
る、ということである。これらのデータ点は、サポート
・ベクトルと呼ばれる。上述の二次の最適化問題は、二
次プログラミング(quadratic provramming略してQP)
ソルバーにより、解くことが出来る。しかしながら、多
くのQP法は、テキストの分類の様な大きな問題に対して
は非常に遅いことがあり得る。問題を一連のより小さな
タスクへ分解する各種学習アルゴリズムが開発されてき
た。SVMの比較的効率的な実現手法には、Joachimsによ
るSVMlightシステム及びPlattによるSequential Minima
l Optimization (SMO)アルゴリズムが含まれる。通常の
SVMに加えて、Joachimsはまた、変換型SVMを紹介した。
トレーニング・データが非常に少ないときには、この方
法が良好に一般化可能であるということは非常に重要で
ある。変換型SVMは、超平面及びそれを分離するマージ
ンを決定するために、トレーニング・データとテスト・
データの両方を考慮に入れるものである。
【0035】SVMは、2クラスの分類子である。それを複
数のクラスに拡張するために、各クラスについて別個の
SVM分類子を訓練する、一つのクラスを他の全てのクラ
スと対比するという考え方が用いられた。2つのクラス
の分類子に基き、異なるK個のクラスの分類構想が開発
された。
【0036】実験においては、通常の(誘導型)SVMと
変換型SVMの両方を含むSVMlightが用いられた。
【0037】最も基本的な事例に基く方法は、K-近隣ア
ルゴリズム(k-Nearest Neighbor略してkNN)である。
考え方は非常に単純である。テスト文書があるとき、シ
ステムは、トレーニング文書の中でk番目に近いサンプ
ルを見付け、k個の近隣サンプルに対応するカテゴリー
に、トレーニング・データ・セットから得られるテスト
文書とk番目に近いサンプルとの距離又は同一性に基
き、重み付けがなされる。ある閾値以上の重みを持つカ
テゴリーが、テスト文書のクラスとしてその文書に付与
される。最も近いサンプルは、内積、余弦関数又は他の
距離尺度により、見出される。実施例では、ベクトルの
同一性を測るために、余弦関数が用いられた。
【数11】
【0038】X及びxiは両方ともに、単位長さに正規化
されているので、
【数12】 である。この方法を形式的に述べるために、xをテスト
文書ベクトルとする。2個の文書ベクトル間の余弦関数
に関し、x1, x2, ..., xkをk番目に近いサンプルとし、
c1, c2, ... clをk個のサンプルのカテゴリーとする。
閾値Tを用いて、xのクラス分類が以下の様に決定され
る。
【数13】 ここで、xiがカテゴリーciに入るとき、δ(xi, cj) = 1
であり、そうでなければ0である。
【0039】Naive Bayesの取組みは、新たなサンプル
の文書特徴値が与えられる各カテゴリーの確率を推定す
るために、トレーニング・データを用いるというもので
ある。Bayesの定理が、確率を推定するために用いられ
る。
【数14】 最大の確率を持つカテゴリーが、サンプルのクラスを決
定する。量Pr(x|C = ck)は、その特徴が与えられたクラ
スCにおいて条件的には独立であるという簡略化のため
の推定をせずに演算するには、実用的でない。これは以
下の式を生じる。
【数15】 この推定は、文書中での単語の出現に関しては、真でな
いのが、一般的であるが、単語の従属性が考慮されない
ときには、有意な向上はないことが、研究から明らかと
なった。一旦、計算がなされると、閾値が以下の様に適
用される。すなわち、
【数16】 であれば、文書xは、クラスckに分類される。
【0040】2値の分類タスクを考えると、文書は、表
2の分割表に示される様に、そのクラスに入ったり、そ
こから出ていたりするので、正しく分類されることも、
正しくなく分類されることもあり得る。精度及び回収性
が、分類子の性能を評価するために用いられる2つの基
礎的な指標である。精度とは、システムにより、実際に
属しているクラスに分類された文書の割合である。言い
換えると、精度は、どの程度不要なものが、価値ある情
報と共に戻ってきたかを示す指標である。回収性とは、
そのクラスに属する全ての文書の中で、そのクラスに実
際に分類された文書の割合である。言い換えると、回収
は、利用可能な価値ある情報のうちどの程度のものが、
戻されたかを示す指標である。あるクラスに文書が属す
るか否かを判定するのに用いられる閾値を低下させるこ
とは、回収性を高める作用を持つが、精度を低下させる
作用を持つ。同様に、閾値を高めることで、回収性を犠
牲にして、精度を高めることが出来る。精度と回収性が
等しくなる閾値である、精度/回収性の平衡点を見出す
ことにより、解析中には、両方の指標に等しい重みが与
えられる。
【表2】
【0041】学習すべき多くのカテゴリーがあるとき、
それぞれについて別個の分類子が訓練される。各カテゴ
リーについての精度/回収性の平衡となる比率が計算さ
れると、それらは、マイクロ平均又はマクロ平均のいず
れかで組合わせられる。カテゴリーiについての精度/
回収性の平衡点をxi / yjとすると、それは、カテゴリ
ーiの中のyi個の文書のうちxi個の文書が、システムに
よりそのカテゴリーに分類されたことを表す。マイクロ
平均は、全てのカテゴリーについて適切に分類された文
書の総数の、それらカテゴリーにある文書全てに対して
の平均値であり、
【数17】 である。マクロ平均は、個別のカテゴリーの比率の全て
のカテゴリーに亘る平均値であり、
【数18】 である。マイクロ平均の値は、より多くの文書を含むカ
テゴリーにおける分類子の性能により支配される傾向が
あるが、マクロ平均の値は、全てのカテゴリーが含む文
書の数に関わらず、それらカテゴリー全てにおける性能
により等しく影響を受ける。これらの計側値に関しての
結果が、以下に示される。
【0042】3つの異なるデータ・セットについて、実
験が行われた。最も大きなデータ・セットは、ロイター
21578コレクション(reuters-21578 collection)であ
る。このデータ・セットは、広範囲な題目についての電
子ニュース記事からなる。題目には、企業収益、外国為
替、穀物、貿易などが含まれる。コレクションには約12
0の異なる題目がある。ルイス分割(Lewis split)に基
き、10802の記事が抽出され、その中で、7780はトレー
ニング・セットに入り、3022はテスト・セットに入る。
各カテゴリーの中の記事の数は、大幅に変化した。例え
ば、「企業収益」のカテゴリーは3965の文書を含む一
方、他の多くのカテゴリーは一つしか文書を含んでいな
い。最も頻度の高い10個のカテゴリーだけが実験に用い
られた。これら10個のカテゴリーの中での、トレーニン
グ・サンプル及びテスト・サンプルの数が、表3に示さ
れている。
【表3】
【0043】表3における各カテゴリーについて、その
数字は肯定的なトレーニング・サンプルとテスト・サン
プルの数を示し、トレーニング・セットとテスト・セッ
トから抽出された残りの記事は、否定的な例として用い
られる。
【0044】テキスト分類の研究は元々、日本特許の再
分類を自動化する手法を開発すると言うところから、始
まった。技術用語を用いて適切に分類された技術的な特
許の集合が必要であったので、米国特許商標庁のデータ
ベースから、ある技術に関する米国特許を選択した。カ
テゴリーが非常に類似しており、あるカテゴリーについ
ては分類される特許が殆ど無いという、現実の状況を反
映するために、ニューラル・ネットワークについてのク
ラス706のサブクラス31及び32から特許を選択した。具
体的には、各クラスについて50個の特許を選択した。名
称と要約のみが、テキスト解析に含まれている。トレー
ニング・データ及びテスト・データを得るために、2つ
のクラスの50個の特許が2つの方法で分離された。一つ
は、各クラスからトレーニング文書として40個の特許を
ランダムに選択し、各クラス残り10個の特許をテスト文
書として用いる、ものである。別の方法は、各クラスか
ら10個の特許をトレーニング文書としてランダムに選択
し、各クラス残り40個の特許をテスト文書として用い
る、ものである。データを分割する各方法についてラン
ダムな選択が20回行われ、それらについての実験が行わ
れ、そして2つの分割方法について別個に結果が平均さ
れた。
【0045】ロイター21578コレクションにおいて、Nai
ve Bayes法、k-近隣法(kNN)及びサポート・ベクター
・マシン(SVM)法を用いて、最も一般的な10個のカテ
ゴリーについて、精度/回収率の平衡点が得られた。そ
の様に大きなデータ・セットの場合、用語範囲の大きさ
は非常に大きい。処理時間及びトレーニング時間とを考
慮して、実験を行なうために用いられる語幹の数は少な
くされた。全ての方法について、最も高い情報ゲインを
持つ500個の単語が選択された。kNNについては、用いら
れた最も近いサンプルの数は、50であった。SVMについ
ては、ガンマが1である基底関数となるべきカーネル関
数が選択された。2つの方法について、頻度の最も多い1
0個のカテゴリーについての平衡点が、図9にまとめら
れている。
【0046】サポート・ベクター・マシン法が、10個の
カテゴリー全てについて最も良く機能し、10個のカテゴ
リーについての平衡点のマイクロ平均は92.93%であり、
平衡点のマクロ平均は85.8%である。k-近隣法が、2つの
最も一般的なカテゴリーにおいて、SVMのそれに近く良
好な精度/回収率の平衡点を得て、10個のカテゴリーに
ついてのそれのマイクロ平均は89.44%であり、マクロ平
均は79.6%である。NaiveBayesは、最も平衡点が低く、1
0個のカテゴリーについてのそれのマイクロ平均は82.81
%であり、マクロ平均は70.39%である。
【0047】中に含まれる数は、精度/回収率の平衡計
算から求められる。回収率の観点から、「EARN(企業収
益)」カテゴリーについて、その中の1088の文書から10
75の文書が正しく分類され、13の文書だけが誤分類され
ていることが、判る。精度の観点からは、EARNカテゴリ
ーには入らない13の文書がこのカテゴリーに分類される
ことを、意味する。回収率を犠牲にして精度を高めた
り、精度を犠牲にして回収率を高めるために、決定閾値
を変更することが可能である。分類精度を更に高めるた
めに、人間による介入を含めることが出来る。人間によ
る確認を助けるために、ある種の信頼度数を文書に与え
ても良い。
【表4】
【0048】ニューラル・ネットワーク特許の2つのク
ラスについて、全ての語幹を用いることにより、SVM、
変換型SVM、kNN及びNaive Bayesの平衡点を比較した。5
0個の文書のトレーニング・データ及びテスト・データ
が、2つの異なる方法で分割された。40/10分割において
は、各クラスは40個のトレーニング文書を含み、10/40
分割においては、各クラスに10個のトレーニング文書が
ある。異なるカーネル関数を用いてSVMをトレーニング
することにより、40/10分割についてガンマが2である動
径基底関数となるべきSVM及び変換型SVM両方のカーネル
関数及び、10/40分割について2次の多項式となるべきSV
M及び変換型SVM両方のカーネル関数が、選択された。両
方の分割のkNNについて最も近いサンプルの数は、5が選
択された。トレーニング及びテスト・データを分割する
2つの異なった態様を用いた、3つの方法の平衡点が、図
10乃至12のグラフに示されている。40/10分割におい
て、SVMは変換型SVMよりも良好な性能を示し、それらは
両方ともkNNよりも良好である。40/10分割においては、
SVMが3つの方法の中で最も良く機能する。文献によれ
ば、トレーニング・データが非常に少なく、テスト・デ
ータが充分な量あるときには、変換型SVMが誘導型SVMよ
りも良好に機能する。これが、与えられたサンプル・デ
ータを用いて、立証された。しかしながら、10/40分割
を用いると、変換型SVMは、トレーニング・データが非
常に少ないときに期待された様な、優れた性能を示すこ
とがない。これは、データ・セット全体が、SVMからの
差を示すには小さ過ぎることによる可能性があると考え
られる。Naive Bayesは、最も精度が低い。
【0049】情報ゲインに基き用語範囲の50%を用いる
ことにより、これらの方法全てが評価された。その結果
は、平均平衡から± 2.5%までの変動を示した。3つの方
法は全て、特徴の寸法変動に対して、非常に安定してい
る。合理的な数の特徴が選択されるならば、SVMとkNNの
両方共に良く一般化する。その結果は、ここには示され
ていない。
【0050】サブクラスA, B及びDの特許が、均一には
分散していない。サブクラスAは、8個の文書を含むのみ
であり、最も大きなサブクラスDは、99個の文書を含
む。サブクラスAの5個の文書のみが、サブクラスAのた
めの分類子が訓練されるときに、肯定的トレーニング・
サンプルとして選択され、他の2つのサブクラスからの8
8個の文書は、否定的トレーニング・サンプルとして用
いられる。肯定的トレーニング・サンプルが非常に少な
いので、Naive Bayes, kNN, SVM及び変換型SVMは、サブ
クラスAについて、良く一般化しない。しかし、他の2つ
のサブクラス、特にサブクラスDについての、他のアル
ゴリズムの性能は向上する。
【0051】2つの特許データ・セットにおいて、各デ
ータ・セット中のクラスは非常に似ており、それが、高
い性能値を得るのを非常に困難にしている。しかしなが
ら、クラスが充分に差別化されていれば、非常に高い精
度を得ることは容易である。米国特許商標庁データベー
スからダウンロードされた2つのクラスの特許を分類す
ることが試みられた。2つのクラスのうちの一方はニュ
ーラル・ネットワークに関し、他方は燃料電池に関する
ものである。各クラスについて、40個のトレーニング文
書と10個のテスト文書がある。Naive Bayes, kNN, 誘導
型SVM及び変換型SVMが適用された。全ての方法が、100%
の分類精度を示した。
【0052】考慮された全ての分類子の中で、全てのテ
スト結果において、SVMが最も正確な分類子であること
が判った。KNNはまた、良好な分類性能を示す。クラス
の違いがはっきりしているときには、分類子は非常に精
密になり得る。クラスが類似していると、充分なトレー
ニング・データが利用可能であるときにのみ、分類子が
良好に一般化することになる。文献及び、ソフトウエア
により提供されたサンプル・データを用いた実験より、
変換型SVMは、トレーニング・データが少ないがテスト
・データが多いときに、有利であることが判る。しかし
ながら、ここで行われた実験は小さなデータ・セットに
対するものであり、この状況を詮索するものではなかっ
た。また、トレーニング・データ・セットが非常に大き
くなるときに、kNNは極めて緩やかになる。一般的に、
変換型SVMは、誘導型SVMよりも学習するのにはるかに長
時間要するが、分類時間は、誘導型及び変換型SVMは両
方共に効率的である。加えて、SVMとkNNは両方共に、異
なったモデル・パラメーターの変化に対して非常に安定
している。SVMについてのカーネル関数が異なっている
としても、精度/回収率の平衡点が非常に近い。kNNに
ついての最近隣サンプルの数の変更も行なった。その結
果、最近隣サンプルの最適な数は、トレーニング・デー
タ・セットの大きさと特徴長さに対して相対的には小さ
いことが判った。例えば、ロイター21578コレクション
において、50個の最近隣サンプルが、500個の特徴が選
択されトレーニング文書の総数が7780であるkNNのため
に用いられた。kNNについての最近隣サンプルの個数が
多すぎるとき、小さくて独立したカテゴリーを、高度に
密集したカテゴリーから区別するのは、困難なことがあ
り得る。Naive Bayesは、非常に効率的ではあるもの
の、SVM及びkNN程に正確な分類を行なうものではない。
また、クラスがある程度低すぎたり高すぎたりした特徴
寸法を持っても、それが結果に有意な影響を与えるもの
ではないことも、示された。
【0053】以上述べたことから、SVM及びkNNが、効率
的、強固そして安定な方法であり、良好な分類性能を示
すものであると、結論付けることが可能である。これら
の方法は、テキスト文書の分類の仮定を自動化するのに
用いることが出来る。協会付近の少数のサンプルについ
ては、誤分類が起こる。これらの状況は、人間が介入し
て、対処することが可能である。境界部分のサンプルを
特定するために、信頼性指標を導入することもまた、可
能である。しかしながら、膨大な分類業務が信頼性をも
って自動化されて、現在この業務を実行している熟練者
の業務負荷を大きく削減することが可能であることに、
留意すべきである。
【0054】本発明の特定の実施形態が示され、述べら
れてきたが、多くの変更案、代替案を、当業者は想到す
ることになる。従って、本発明は、添付の請求項のみに
依拠して限定されることが、意図されている。
【図面の簡単な説明】
【図1】本発明による、分類システムの概略ブロック図
である。
【図2】本発明による、クラス階層を示す図である。
【図3】本発明による、文書のブロック図である。
【図4】本発明による、分類過程のフローチャートであ
る。
【図5】本発明による、再分類過程のフローチャートで
ある。
【図6】文書の特徴ベクトルの図である。
【図7】特徴空間におけるサポート・ベクター・マシン
を示す図である。
【図8】特徴空間での変換型解法を示す図である。
【図9】各主題について、精度/回収率の平衡点を示す
グラフである。
【図10】各システムについての精度/回収率の平衡点
を示すグラフである。
【図11】各システムについての精度/回収率の平衡点
のグラフである。
【図12】各システムについての精度/回収率の平衡点
のグラフである。
【符号の説明】
12 制御器 14 文書記憶用メモリー 16 文書入力部 20 文書

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 未分類文書を入力するための文書入力
    部、 文書記憶用メモリー、及び上記文書入力部及び上記文書
    記憶用メモリーに接続された制御器、 を有し、 複数のクラスそれぞれの原文書を特定し、該クラスに文
    書を分類するテーマを生成し、そして上記未分類文書の
    テーマ・スコアがクラスのテーマ・スコアに実質的に等
    しいときに、上記複数のクラスの一つへ上記文書を分類
    することにより、上記複数のクラスへ文書を分類する様
    に、上記制御器がプログラムされている、 文書分類システム。
  2. 【請求項2】 上記文書入力部が、インターネットを有
    する、請求項1に記載のシステム。
  3. 【請求項3】 上記文書入力部が、スキャナーを有す
    る、請求項1に記載のシステム。
  4. 【請求項4】 新規な上記複数のクラスそれぞれについ
    て原文書を特定し、 それぞれの新規クラスのテーマ・スコアを生成し、そし
    て、 分類された文書のテーマ・スコアが、新規クラスのテー
    マ・スコアと実質的に等しいときに、複数のクラスの文
    書を複数の新規クラスへ再分類する様に、 上記制御器がプログラムされている、請求項1に記載の
    システム。
  5. 【請求項5】 未分類文書の部分に重きを置く様に、上
    記制御器がプログラムされている、請求項1に記載のシ
    ステム。
  6. 【請求項6】 文書をサブクラスに分類する様に、上記
    制御器がプログラムされている、請求項1に記載のシス
    テム。
JP2001220153A 2000-07-21 2001-07-19 テーマに基く文書分類システム Pending JP2002092006A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/621,393 2000-07-21
US09/621,393 US7376635B1 (en) 2000-07-21 2000-07-21 Theme-based system and method for classifying documents

Publications (1)

Publication Number Publication Date
JP2002092006A true JP2002092006A (ja) 2002-03-29

Family

ID=24489979

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001220153A Pending JP2002092006A (ja) 2000-07-21 2001-07-19 テーマに基く文書分類システム

Country Status (4)

Country Link
US (1) US7376635B1 (ja)
JP (1) JP2002092006A (ja)
DE (1) DE10134899A1 (ja)
GB (1) GB2369698B (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006113746A (ja) * 2004-10-13 2006-04-27 Hewlett-Packard Development Co Lp 文書分類装置、方法、プログラム
JP2007122145A (ja) * 2005-10-25 2007-05-17 Just Syst Corp 電子メール評価装置および電子メール評価方法
CN101449264A (zh) * 2006-07-12 2009-06-03 柯法克斯公司 用于转导数据分类的方法和系统以及使用机器学习方法的数据分类方法
KR101179613B1 (ko) * 2010-10-14 2012-09-04 재단법인 한국특허정보원 빈발항목과 연관규칙을 이용한 특허문서 자동분류 방법
JP2014078125A (ja) * 2012-10-10 2014-05-01 Ntt Comware Corp 分類装置、分類方法、および分類プログラム
JP2017535007A (ja) * 2015-08-19 2017-11-24 シャオミ・インコーポレイテッド 分類器トレーニング方法、種類認識方法及び装置
JP2018504728A (ja) * 2015-11-24 2018-02-15 小米科技有限責任公司Xiaomi Inc. テンプレート構築方法及び装置、情報認識方法及び装置

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8745093B1 (en) 2000-09-28 2014-06-03 Intel Corporation Method and apparatus for extracting entity names and their relations
US7899825B2 (en) * 2001-06-27 2011-03-01 SAP America, Inc. Method and apparatus for duplicate detection
US8090717B1 (en) * 2002-09-20 2012-01-03 Google Inc. Methods and apparatus for ranking documents
US7406459B2 (en) * 2003-05-01 2008-07-29 Microsoft Corporation Concept network
US7191175B2 (en) 2004-02-13 2007-03-13 Attenex Corporation System and method for arranging concept clusters in thematic neighborhood relationships in a two-dimensional visual display space
US9143393B1 (en) 2004-05-25 2015-09-22 Red Lambda, Inc. System, method and apparatus for classifying digital data
US9760629B1 (en) 2004-12-29 2017-09-12 Google Inc. Systems and methods for implementing a news round table
US7499591B2 (en) * 2005-03-25 2009-03-03 Hewlett-Packard Development Company, L.P. Document classifiers and methods for document classification
US8832064B2 (en) * 2005-11-30 2014-09-09 At&T Intellectual Property Ii, L.P. Answer determination for natural language questioning
US8005841B1 (en) * 2006-04-28 2011-08-23 Qurio Holdings, Inc. Methods, systems, and products for classifying content segments
US8615573B1 (en) 2006-06-30 2013-12-24 Quiro Holdings, Inc. System and method for networked PVR storage and content capture
WO2008008142A2 (en) * 2006-07-12 2008-01-17 Kofax Image Products, Inc. Machine learning techniques and transductive data classification
US7937345B2 (en) * 2006-07-12 2011-05-03 Kofax, Inc. Data classification methods using machine learning techniques
US7958067B2 (en) * 2006-07-12 2011-06-07 Kofax, Inc. Data classification methods using machine learning techniques
US8060505B2 (en) * 2007-02-13 2011-11-15 International Business Machines Corporation Methodologies and analytics tools for identifying white space opportunities in a given industry
GB0707513D0 (en) * 2007-04-18 2007-05-30 Zenulta Ltd Method of identifying a root cause of a network event
US20100217717A1 (en) * 2009-02-24 2010-08-26 Devonwood Logistics, Inc. System and method for organizing and presenting evidence relevant to a set of statements
US20100229207A1 (en) * 2009-03-09 2010-09-09 Harman International Industries, Incorporated Vehicular digital audio recorder user interface
US20100229208A1 (en) * 2009-03-09 2010-09-09 Harman International Industries, Incorporated Vehicular digital audio recorder energy usage monitor
US8346685B1 (en) 2009-04-22 2013-01-01 Equivio Ltd. Computerized system for enhancing expert-based processes and methods useful in conjunction therewith
US8527523B1 (en) 2009-04-22 2013-09-03 Equivio Ltd. System for enhancing expert-based computerized analysis of a set of digital documents and methods useful in conjunction therewith
US8533194B1 (en) 2009-04-22 2013-09-10 Equivio Ltd. System for enhancing expert-based computerized analysis of a set of digital documents and methods useful in conjunction therewith
US20100287177A1 (en) * 2009-05-06 2010-11-11 Foundationip, Llc Method, System, and Apparatus for Searching an Electronic Document Collection
NZ596369A (en) 2009-05-07 2014-02-28 Cpa Software Ltd Method, system, and apparatus for searching an electronic document collection
KR101481680B1 (ko) * 2009-07-22 2015-01-12 파운데이션아이피 엘엘씨 전자적 문서 집합으로부터 질의의 결과를 산출하는 방법, 시스템 및 장치
US8515957B2 (en) 2009-07-28 2013-08-20 Fti Consulting, Inc. System and method for displaying relationships between electronically stored information to provide classification suggestions via injection
US20110035210A1 (en) * 2009-08-10 2011-02-10 Benjamin Rosenfeld Conditional random fields (crf)-based relation extraction system
US8612446B2 (en) 2009-08-24 2013-12-17 Fti Consulting, Inc. System and method for generating a reference set for use during document review
US8364679B2 (en) * 2009-09-17 2013-01-29 Cpa Global Patent Research Limited Method, system, and apparatus for delivering query results from an electronic document collection
CN102612691B (zh) * 2009-09-18 2015-02-04 莱克西私人有限公司 给文本评分的方法和系统
US7933859B1 (en) 2010-05-25 2011-04-26 Recommind, Inc. Systems and methods for predictive coding
CN107122980B (zh) 2011-01-25 2021-08-27 阿里巴巴集团控股有限公司 识别商品所属类目的方法和装置
US9785634B2 (en) 2011-06-04 2017-10-10 Recommind, Inc. Integration and combination of random sampling and document batching
WO2012178152A1 (en) 2011-06-23 2012-12-27 I3 Analytics Methods and systems for retrieval of experts based on user customizable search and ranking parameters
US8996350B1 (en) 2011-11-02 2015-03-31 Dub Software Group, Inc. System and method for automatic document management
US9002842B2 (en) 2012-08-08 2015-04-07 Equivio Ltd. System and method for computerized batching of huge populations of electronic documents
US9348899B2 (en) 2012-10-31 2016-05-24 Open Text Corporation Auto-classification system and method with dynamic user feedback
US9122681B2 (en) 2013-03-15 2015-09-01 Gordon Villy Cormack Systems and methods for classifying electronic information using advanced active learning techniques
US10127214B2 (en) * 2014-12-09 2018-11-13 Sansa Al Inc. Methods for generating natural language processing systems
US10242001B2 (en) 2015-06-19 2019-03-26 Gordon V. Cormack Systems and methods for conducting and terminating a technology-assisted review
CN106295337B (zh) * 2015-06-30 2018-05-22 安一恒通(北京)科技有限公司 用于检测恶意漏洞文件的方法、装置及终端
RU2628431C1 (ru) 2016-04-12 2017-08-16 Общество с ограниченной ответственностью "Аби Продакшн" Подбор параметров текстового классификатора на основе семантических признаков
US11068546B2 (en) 2016-06-02 2021-07-20 Nuix North America Inc. Computer-implemented system and method for analyzing clusters of coded documents
US10248626B1 (en) * 2016-09-29 2019-04-02 EMC IP Holding Company LLC Method and system for document similarity analysis based on common denominator similarity
CN110390094B (zh) * 2018-04-20 2023-05-23 伊姆西Ip控股有限责任公司 对文档进行分类的方法、电子设备和计算机程序产品
US10331950B1 (en) 2018-06-19 2019-06-25 Capital One Services, Llc Automatic document source identification systems
US10902066B2 (en) 2018-07-23 2021-01-26 Open Text Holdings, Inc. Electronic discovery using predictive filtering
US11645686B2 (en) * 2018-12-05 2023-05-09 Sap Se Graphical approach to multi-matching
US11087179B2 (en) * 2018-12-19 2021-08-10 Netskope, Inc. Multi-label classification of text documents
TWI725568B (zh) * 2019-10-08 2021-04-21 台達電子工業股份有限公司 資訊處理系統、資訊處理方法及非暫態電腦可讀取記錄媒體
CN111159409B (zh) * 2019-12-31 2023-06-02 腾讯科技(深圳)有限公司 基于人工智能的文本分类方法、装置、设备、介质
CN111930892B (zh) * 2020-08-07 2023-09-29 重庆邮电大学 一种基于改进互信息函数的科技文本分类方法

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5175681A (en) 1985-12-27 1992-12-29 Sony Corporation Computerized system for managing preparation and prosecution of applications in various countries for protection of industrial property rights
DE68926446T2 (de) 1989-03-14 1996-12-05 Ibm Elektronisches System zum Genehmigen von Dokumenten
US5276869A (en) 1990-09-10 1994-01-04 International Business Machines Corporation System for selecting document recipients as determined by technical content of document and for electronically corroborating receipt of document
US5247661A (en) 1990-09-10 1993-09-21 International Business Machines Corporation Method and apparatus for automated document distribution in a data processing system
JP3114147B2 (ja) 1990-09-10 2000-12-04 インターナショナル・ビジネス・マシーンズ・コーポレ−ション ドキュメントに対する処理手続きの自動開始方法及び装置
JP2943447B2 (ja) * 1991-01-30 1999-08-30 三菱電機株式会社 テキスト情報抽出装置とテキスト類似照合装置とテキスト検索システムとテキスト情報抽出方法とテキスト類似照合方法、及び、質問解析装置
NL9100425A (nl) 1991-03-08 1992-10-01 Nederland Ptt Besturingssysteem voor een te koppelen computersysteem.
JP3303926B2 (ja) * 1991-09-27 2002-07-22 富士ゼロックス株式会社 構造化文書分類装置及び方法
US5329447A (en) 1992-03-12 1994-07-12 Leedom Jr Charles M High integrity computer implemented docketing system
US5418802A (en) 1993-11-12 1995-05-23 Eastman Kodak Company Frequency tunable waveguide extended cavity laser
US6339767B1 (en) 1997-06-02 2002-01-15 Aurigin Systems, Inc. Using hyperbolic trees to visualize data generated by patent-centric and group-oriented data processing
US5991751A (en) 1997-06-02 1999-11-23 Smartpatents, Inc. System, method, and computer program product for patent-centric and group-oriented data processing
EP0654746B1 (en) 1993-11-24 2003-02-12 Canon Kabushiki Kaisha Form identification and processing system
US5758095A (en) 1995-02-24 1998-05-26 Albaum; David Interactive medication ordering system
US5625767A (en) * 1995-03-13 1997-04-29 Bartell; Brian Method and system for two-dimensional visualization of an information taxonomy and of text documents based on topical content of the documents
US5887120A (en) 1995-05-31 1999-03-23 Oracle Corporation Method and apparatus for determining theme for discourse
JPH096799A (ja) 1995-06-19 1997-01-10 Sharp Corp 文書分類装置及び文書検索装置
US5911140A (en) * 1995-12-14 1999-06-08 Xerox Corporation Method of ordering document clusters given some knowledge of user interests
US5754840A (en) 1996-01-23 1998-05-19 Smartpatents, Inc. System, method, and computer program product for developing and maintaining documents which includes analyzing a patent application with regards to the specification and claims
US5875431A (en) 1996-03-15 1999-02-23 Heckman; Frank Legal strategic analysis planning and evaluation control system and method
US5794236A (en) 1996-05-29 1998-08-11 Lexis-Nexis Computer-based system for classifying documents into a hierarchy and linking the classifications to the hierarchy
US5721910A (en) * 1996-06-04 1998-02-24 Exxon Research And Engineering Company Relational database system containing a multidimensional hierachical model of interrelated subject categories with recognition capabilities
US6041303A (en) 1996-06-07 2000-03-21 Mathews; Edward Henry Method of assisting the conducting of a research project
US6073108A (en) 1996-06-21 2000-06-06 Paul, Hastings, Janofsky & Walker Task-based classification and analysis system
US5987464A (en) 1996-07-26 1999-11-16 Schneider; Eric Method and system for periodically updating data records having an expiry time
US5870740A (en) * 1996-09-30 1999-02-09 Apple Computer, Inc. System and method for improving the ranking of information retrieval results for short queries
US6038561A (en) * 1996-10-15 2000-03-14 Manning & Napier Information Services Management and analysis of document information text
JPH10126408A (ja) 1996-10-17 1998-05-15 Green Net:Kk 双方向参加型データ通信システム
US5956687A (en) 1997-04-04 1999-09-21 Wamsley; Vaughn A. Personal injury claim management system
US6460034B1 (en) * 1997-05-21 2002-10-01 Oracle Corporation Document knowledge base research and retrieval system
US6233575B1 (en) * 1997-06-24 2001-05-15 International Business Machines Corporation Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values
US5930788A (en) 1997-07-17 1999-07-27 Oracle Corporation Disambiguation of themes in a document classification system
US6389436B1 (en) * 1997-12-15 2002-05-14 International Business Machines Corporation Enhanced hypertext categorization using hyperlinks
US6314421B1 (en) 1998-05-12 2001-11-06 David M. Sharnoff Method and apparatus for indexing documents for message filtering
EP1212697A1 (en) 1999-03-08 2002-06-12 The Procter & Gamble Company Method and apparatus for building a user-defined technical thesaurus using on-line databases
JP3017735B1 (ja) 1999-04-30 2000-03-13 有限会社 成星商会 Webデ―タ収集装置およびその方法、並びに該方法に係るプログラムを記憶した記憶媒体
US6591261B1 (en) 1999-06-21 2003-07-08 Zerx, Llc Network search engine and navigation tool and method of determining search results in accordance with search criteria and/or associated sites
JP2003531413A (ja) 1999-07-21 2003-10-21 イーストマン ケミカル カンパニー 電子知的財産管理システム
US6556992B1 (en) 1999-09-14 2003-04-29 Patent Ratings, Llc Method and system for rating patents and other intangible assets
WO2001026002A1 (en) 1999-10-05 2001-04-12 Biolicense.Com Method and system for provision of information on technology
US6665656B1 (en) 1999-10-05 2003-12-16 Motorola, Inc. Method and apparatus for evaluating documents with correlating information
US6430559B1 (en) * 1999-11-02 2002-08-06 Claritech Corporation Method and apparatus for profile score threshold setting and updating
WO2001035277A1 (en) 1999-11-12 2001-05-17 Mindmatters Technologies, Inc. System for automating and managing an enterprise ip environment
US20030120653A1 (en) * 2000-07-05 2003-06-26 Sean Brady Trainable internet search engine and methods of using

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006113746A (ja) * 2004-10-13 2006-04-27 Hewlett-Packard Development Co Lp 文書分類装置、方法、プログラム
JP4713870B2 (ja) * 2004-10-13 2011-06-29 ヒューレット−パッカード デベロップメント カンパニー エル.ピー. 文書分類装置、方法、プログラム
JP2007122145A (ja) * 2005-10-25 2007-05-17 Just Syst Corp 電子メール評価装置および電子メール評価方法
CN101449264A (zh) * 2006-07-12 2009-06-03 柯法克斯公司 用于转导数据分类的方法和系统以及使用机器学习方法的数据分类方法
KR101179613B1 (ko) * 2010-10-14 2012-09-04 재단법인 한국특허정보원 빈발항목과 연관규칙을 이용한 특허문서 자동분류 방법
JP2014078125A (ja) * 2012-10-10 2014-05-01 Ntt Comware Corp 分類装置、分類方法、および分類プログラム
JP2017535007A (ja) * 2015-08-19 2017-11-24 シャオミ・インコーポレイテッド 分類器トレーニング方法、種類認識方法及び装置
JP2018504728A (ja) * 2015-11-24 2018-02-15 小米科技有限責任公司Xiaomi Inc. テンプレート構築方法及び装置、情報認識方法及び装置
US10061762B2 (en) 2015-11-24 2018-08-28 Xiaomi Inc. Method and device for identifying information, and computer-readable storage medium

Also Published As

Publication number Publication date
GB0117699D0 (en) 2001-09-12
GB2369698B (en) 2005-02-16
US7376635B1 (en) 2008-05-20
GB2369698A (en) 2002-06-05
DE10134899A1 (de) 2002-05-02

Similar Documents

Publication Publication Date Title
JP2002092006A (ja) テーマに基く文書分類システム
Dumais et al. Inductive learning algorithms and representations for text categorization
CN107577785B (zh) 一种适用于法律识别的层次多标签分类方法
Tang et al. Toward optimal feature selection in naive Bayes for text categorization
Wang et al. Feature selection with conditional mutual information maximin in text categorization
Silva et al. The importance of stop word removal on recall values in text categorization
US7971150B2 (en) Document categorisation system
Basu et al. Support vector machines for text categorization
Kang et al. Correlated label propagation with application to multi-label learning
Hotho et al. A brief survey of text mining
Santra et al. Genetic algorithm and confusion matrix for document clustering
Bigi Using Kullback-Leibler distance for text categorization
Mladenić Feature selection for dimensionality reduction
Ko et al. Text classification from unlabeled documents with bootstrapping and feature projection techniques
Fragoudis et al. Best terms: an efficient feature-selection algorithm for text categorization
Vateekul et al. Hierarchical multi-label classification with SVMs: A case study in gene function prediction
Silva et al. On text-based mining with active learning and background knowledge using svm
AlMahmoud et al. A modified bond energy algorithm with fuzzy merging and its application to Arabic text document clustering
Draszawka et al. Thresholding strategies for large scale multi-label text classifier
Khalessizadeh et al. Genetic mining: using genetic algorithm for topic based on concept distribution
Holts et al. Automated text binary classification using machine learning approach
Li et al. Text classification using stochastic keyword generation
GHAREB et al. HYBRID STATISTICAL RULE-BASED CLASSIFIER FOR ARABIC TEXT MINING.
Joachims et al. Text classification
Kathirvalavakumar Two dimensional feature extraction and blog classification using artificial neural network