JP2004139222A - 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム - Google Patents

文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム Download PDF

Info

Publication number
JP2004139222A
JP2004139222A JP2002301539A JP2002301539A JP2004139222A JP 2004139222 A JP2004139222 A JP 2004139222A JP 2002301539 A JP2002301539 A JP 2002301539A JP 2002301539 A JP2002301539 A JP 2002301539A JP 2004139222 A JP2004139222 A JP 2004139222A
Authority
JP
Japan
Prior art keywords
word
unnecessary
classification
category
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002301539A
Other languages
English (en)
Other versions
JP4233836B2 (ja
Inventor
Itsusei Yoshida
吉田 一星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2002301539A priority Critical patent/JP4233836B2/ja
Priority to US10/688,217 priority patent/US20040083224A1/en
Publication of JP2004139222A publication Critical patent/JP2004139222A/ja
Application granted granted Critical
Publication of JP4233836B2 publication Critical patent/JP4233836B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文書自動分類において、不要語を効果的に取り除く。
【解決手段】分野ごとに分類済みの文書を格納する分類済み文書集合格納装置21と、この分類済み文書集合格納装置21から取得された文書に含まれる単語の出現頻度の情報を含む分野別のテーブルを作成する分野テーブル作成部31と、この分野テーブル作成部31により作成された分野別のテーブルから得られる所定の語における各分野での出現頻度に基づいて、テーブルから分野別に不要語を除去する不要語決定・除去部32と、この不要語決定・除去部32により不要語が除去されたテーブルを格納する分類用カタログ格納装置22と、分類される分類対象文書を格納する分類対象文書格納装置23と、この分類対象文書格納装置23に格納された分類対象文書に対し、分類用カタログ格納装置22に格納されたテーブルを用いて分類処理を行なう文書分類処理部33とを含む。
【選択図】    図1

Description

【0001】
【発明の属する技術分野】
本発明は、文書データを自動的に分類するための文書自動分類システム等に係り、より詳しくは、不要語を効果的に取り除く文書自動分類システム等に関する。
【0002】
【従来の技術】
近年、電子化された文書データ(テキスト)が大量に流通するのに伴い、例えば文書格納データベースに存在する大量の文書を自動分類する文書自動分類システムが注目されている。この文書自動分類システムは、学習機能と分類機能との2つの要素から構成される。これらの機能を実現するために、決定木、Neural Network、ベクトル空間モデルなど、様々なモデルが提案されている。何れの方法においても、各カテゴリや文書を特定付ける語を文書から抽出することが重要である。しかしながら、文書から単語を頻度順に取り出す場合には、カテゴリを一意に決定するために、有用でない語(不要語)が上位を占めてしまう。この不要語を学習・分類前に除去しておくことで、文書自動分類システムの分類性能を大きく改善することができる。
【0003】
不要語には、大きく分けて、機能語と一般語の2種類が存在する。機能語は、語と語の関係を表す助詞、助動詞などを指す。この機能語は、カテゴリに存在しないものが多いので、語の品詞を調べたり、予め不要語リストを作成しておくことにより除去することができる。一方、一般語は、機能語以外に一般的に用いられる語を指す。この一般語は、機能語と異なり、語の頻度によって決定される場合が多く、与えられた文書集合中の出現頻度がある上限または下限を越えた語を不要語とする手法が一般的に用いられる。この上限、下限を決める手法として、語の出現頻度に関する経験法則をもとに、多過ぎる或いは少な過ぎる語を判定して除去するZipfの法則などが知られている。
【0004】
文書自動分類技術に関する従来技術として、例えば、分類済み文書から複数分野語を学習し、この複数分野語に注目して関連度テーブルや分類対象文書の単語の頻度情報を詳細化することで、分類対象文書の各分野への関連度をより詳細に分析し、類似する分野での分類精度を向上させるものが存在する(例えば、特許文献1参照)。また、不要単語を登録した不要語辞書を設け、新規単語に不要語辞書中の不要単語と同一のものが含まれているときに新規単語を削除し、不要単語が削除された新規単語に対して単語重要度を決定する技術について開示されている(例えば、特許文献2参照)。更に、精度の高い類似文書検索を行なうために、出現頻度をカウントして不要語リストを自動的に作成し、一定の割合以上(以下)出現する語を削除することで、類似度算出精度の向上を図った技術が示されている(例えば、特許文献3参照)。
【0005】
【特許文献1】
特開平10−254883号公報(第4−5頁、15頁、図1)
【特許文献2】
特開平11−120183号公報(第3−4頁、図1)
【特許文献3】
特開平11−259515号公報(第3−5頁、図3)
【0006】
【発明が解決しようとする課題】
このように、精度の高い文書自動分類を実行するためには、文書中に存在する抽出すべき単語対象から不要語を排除することが好ましい。しかしながら、特許文献1では、まず、不要語除去という概念が存在せず、どの単語も最低1つは関連の強いカテゴリが存在することを前提としており、品詞の限定や不要語リストの作成を行なわない限り不要語がそのままリスト登録されてしまい、精度の高い分類が困難となる。また、関連テーブルを作成した後、改めて詳細関連度テーブルを作成しており、多くの記憶容量を必要としてしまう。
【0007】
また、特許文献2では、予め用意された不要語リストとの照合による不要語除去がなされているが、対象となるカテゴリの集合ごとに不要語リストを作り直す必要があり、また、時代と共に変化する用語に対して十分に対処することができない。更に、特許文献3では、学習用文書全体における各語の出現頻度をカウントしているものの、頻度の基準値を設定してそれを超えた語を除去する方法に留まり、除去されない不要語が数多く残る可能性が高く、その一方で、不要語の判定を広く行なうと、分類のために有用な語まで除去されてしまうという問題があった。また、上述したZipfの法則では、上限・下限を越えない語の中にも不要語が含まれていたり、逆に、上限・下限を超えた語の中にカテゴリを特徴付ける重要な語が含まれている場合がある。
【0008】
本発明は、以上のような技術的課題を解決するためになされたものであって、その目的とするところは、文書自動分類において、不要語を効果的に取り除くことにある。
【0009】
【課題を解決するための手段】
かかる目的のもと、本発明は、文書を自動的にカテゴリに分類する文書自動分類システムにおいて、学習用文書集合から語を抽出し、カテゴリごとに語のリストを作成するリスト作成手段と、このリスト作成手段により作成されたリストを用いて、所定の語における各カテゴリでの出現頻度をもとにカテゴリごとの不要語を相対的に決定する不要語決定手段と、この不要語決定手段により決定され、不要語が除去された、カテゴリごとのリストを分類用カタログとして格納する分類用カタログ格納手段と、この分類用カタログ格納手段に格納された分類用カタログを用いて、分類対象文書に対して分類処理を施す文書分類手段とを含む。
【0010】
ここで、このリスト作成手段は、記憶手段にある学習用文書集合からカテゴリごとに所定の語における出現頻度を示すリストを生成することを特徴とすることができる。また、この不要語決定手段は、所定のカテゴリに属する語を取り出し、語が他のカテゴリにて所定の基準より多く出現する場合に不要語と決定すれば、カテゴリ間の相対的な出現頻度をもとに不要語を判断することができ、効果的に不要語を除去することができる。更に、この不要語決定手段は、所定のカテゴリから取り出される語が、予め定められる閾値および他のカテゴリに属する文書の個数によって決定される所定の基準より他のカテゴリにて多く出現する場合に不要語と決定することを特徴とすることができる。
【0011】
他の観点から把えると、本発明が適用される文書自動分類システムは、分野ごとに分類済みの文書を格納する分類済み文書集合格納装置と、この分類済み文書集合格納装置から取得された文書に含まれる単語の出現頻度の情報を含む分野別のテーブルを作成する分野テーブル作成部と、この分野テーブル作成部により作成された分野別のテーブルから得られる所定の語における各分野での出現頻度に基づいて、テーブルから分野別に不要語を除去する不要語除去部と、この不要語除去部により不要語が除去されたテーブルを格納する分類用カタログ格納装置と、分類される分類対象文書を格納する分類対象文書格納装置と、この分類対象文書格納装置に格納された分類対象文書に対し、分類用カタログ格納装置に格納されたテーブルを用いて分類処理を行なう文書分類処理部とを含む。
【0012】
一方、本発明は、文書自動分類システムにおける不要語判定方法であって、分野テーブル作成手段により、学習用文書集合が格納されている記憶装置から文書に含まれる単語をカテゴリごとに抽出し、抽出された単語の出現頻度の情報を含むリストをカテゴリごとに作成するステップと、不要語判定手段により、作成されたリストを用いて、所定のカテゴリに属する所定の単語における他のカテゴリでの出現頻度を認識し、認識された出現頻度に基づいて、カテゴリごとに不要語を判定するステップとを含む。
【0013】
ここで、この不要語を判定するステップでは、所定のカテゴリから選定された1つの単語に対して、他のカテゴリにてこの単語が所定の基準を超えて含まれているか否かによって不要語を判定することを特徴とすれば、カテゴリの特徴付けに役立たない語を有効に取り除くことができる点で好ましい。また、この所定の基準は、他のカテゴリ内の文書数および予め定められた所定の閾値により得られる値であることを特徴とすることができる。また他の態様として、この所定の基準は、他のカテゴリ内での単語の頻度と、この他のカテゴリ内での全ての単語の頻度合計とによって決定されることを特徴とすることもできる。
【0014】
更に他の観点から把えると、本発明が適用される文書自動分類方法は、記憶装置に格納されている分野別に分類済みの文書集合から分野別の単語に関する情報を取得し、取得された単語に関する情報に基づいて、特定の分野に属する単語が他の分野に出現する頻度を認識し、認識される頻度に基づいてこの単語が特定の分野を識別するのに不要な単語か否かを判定し、不要な単語であると判定された単語を除去して文書の分類用カタログを生成し、生成された分類用カタログを記憶装置に格納し、この記憶装置に格納された分類用カタログを用いて、分類対象文書に対して分類処理を施すことを特徴とすることができる。
【0015】
尚、これらの発明は、コンピュータに各機能を実現させるプログラムとして機能させることができる。より具体的には、コンピュータに、学習用文書集合が格納されている記憶装置から文書に含まれる単語をカテゴリごとに抽出する機能と、抽出された単語の出現頻度の情報を含むリストをカテゴリごとに作成する機能と、作成されたリストを用いて、所定のカテゴリに属する所定の単語における他のカテゴリでの出現頻度を認識する機能と、認識された出現頻度に基づいて、カテゴリごとに不要語を判定する機能と、判定された不要語を用いて分類用のリストを生成する機能を実現させるプログラムとして把握することができる。
【0016】
また、本発明は、コンピュータに、記憶装置に格納されている分野別に分類済みの文書集合から分野別の単語に関する情報を取得する機能と、取得された単語に関する情報に基づいて、特定の分野に属する単語が他の分野に出現する頻度を認識する機能と、認識される頻度に基づいて単語が特定の分野を識別するのに不要な単語か否かを判定する機能と、不要な単語であると判定された単語を除去して文書の分類用カタログを生成する機能と、生成された分類用カタログを用いて、分類対象文書を分類する機能とを実現させるプログラムとして把握することができる。
【0017】
尚、これらのプログラムとしては、コンピュータを顧客に対して提供する際に、コンピュータ装置の中にインストールされた状態にて提供される場合の他、コンピュータに実行させるプログラムをコンピュータが読取可能に記憶した記憶媒体にて提供する形態が考えられる。この記憶媒体としては、例えばCD−ROM媒体等が該当し、CD−ROM読取装置等によってプログラムが読み取られ、フラッシュROM等にこのプログラムが格納されて実行される。また、これらのプログラムは、例えば、プログラム伝送装置によってネットワークを介して提供される形態がある。このプログラム伝送装置としては、例えば、ネット上のサーバに設けられ、プログラムを格納するメモリと、ネットワークを介してプログラムを提供するプログラム伝送手段とを備えている。
【0018】
【発明の実施の形態】
以下、添付図面を参照し、本発明が適用される実施の形態について詳細に説明する。
図1は、本実施の形態が適用される文書自動分類システム10の構成を示したブロック図である。この文書自動分類システム10は、パーソナルコンピュータ(PC)等のコンピュータ装置によって展開され、HDD(ハードディスクドライブ)などの外部記憶装置にて構成されて各種データを格納するデータ格納装置20と、外部メモリから読み出されたアプリケーションプログラムによってCPUにより実行される処理部30とを備えている。実際には、処理部30の各ブロック構成要素は、CPUの実行プログラムの読み込み領域として或いは実行プログラムの処理データを書き込む作業領域として利用される複数個のDRAMチップ等からなる内部記憶装置にて展開される。
【0019】
データ格納装置20は、分野(カテゴリ)の学習処理に用いられる分類済みの文書を格納する、学習用文書集合である分類済み文書集合格納装置21、不要語が除去された後の分類用カタログが格納される分類用カタログ格納装置22、実際に文書分類処理がなされる対象となるテキストを格納する分類対象文書格納装置23、分類された結果を格納する分類結果格納装置24を備えている。この分類結果格納装置24の内容は、分類済み文書集合格納装置21に格納されて学習処理に利用されるように構成することもできる。ここで、「不要語」とは、例えば、カテゴリ(分野)の特徴付けに役立たない語と定義できる。
【0020】
処理部30は、不要語削除前に選択された分野(カテゴリ)ごとに、語のリストであるテーブル情報を生成する分野テーブル作成部31、分野テーブル作成部31にて作成された分野テーブルの単語について、不要語の決定と決定された不要語を除去する処理とを実行する不要語決定・除去部32、実際に文書分類処理を実行する文書分類処理部33を備えている。
【0021】
分野テーブル作成部31は、分類済み文書集合格納装置21から得られた文書を用いて、例えば単語の出現頻度等の情報を含むテーブルを作成し、テーブル情報として内部記憶装置に登録している。分類済み文書集合格納装置21では、学習用文書である複数の文書が、例えば、「政治」「経済」「スポーツ」等の分野(カテゴリ)の集合に分類された状態にて格納されている。分野テーブル作成部31では、このカテゴリの集合に分類された文書を読み込み、その文書を解析し、例えば、文書に含まれる単語(語)の出現頻度をカウントして、分野テーブルを生成している。テーブルのデータ量が多い場合には、外部記憶装置であるデータ格納装置20に別途、格納するように構成することができる。尚、分類済み文書集合格納装置21の代わりに、所定のネットワークを介して、学習用文書集合(分類済み文書集合)を取得するように構成することも可能である。
【0022】
不要語決定・除去部32では、分野テーブル作成部31にて作成された分野テーブルを用いて、カテゴリ間の相対的な出現頻度によって不要語を決定する処理が実行される。不要語決定・除去部32によって不要語が除去された分野テーブルは、分類用カタログ格納装置22に格納される。
【0023】
文書分類処理部33では、分類対象文書格納装置23に格納されている実際の分類対象となる文書に対し、分類用カタログ格納装置22に格納された分類用カタログ(不要語が除去された分野テーブル)を用いて、文書分類処理が実行される。この文書分類処理部33による分類結果は、分類結果格納装置24に格納される。
【0024】
ここで、分野テーブル作成処理について説明する。
図2は、分野テーブル作成部31にてなされる処理を示したフローチャートである。分野テーブルの作成に際し、分野テーブル作成部31では、分類済み文書集合格納装置21に格納されている全ての分野について作業がなされているか否かが判断される(ステップ101)。全ての分野についての作業がなされていない場合には、まず、分野を1つ選び(ステップ102)、作業していない文書が分野内にあるか否かの判断がなされる(ステップ103)。分野内にない場合には、ステップ101に戻り、まだ残っている場合には、その分野から文書を1つ選ぶ(ステップ104)。そして、作業していない単語が文書内にあるか否かが判断され(ステップ105)、もう残っていない場合には、ステップ103へ戻り、未処理の単語がまだ文書内にある場合には、文書から単語が1つ選ばれる(ステップ106)。この単語の抽出では、形態素解析が用いられる。また、品詞によるフィルタリングをこのタイミングで行なうこともできる。
【0025】
そして、単語が既にテーブル(分野テーブル)に登録されているか否かが判断され(ステップ107)、登録されている場合には、テーブル上の、登録単語の頻度(出現頻度)を1増やして、ステップ105に戻る。登録されていない単語である場合には、その単語をテーブルに登録し(ステップ109)、ステップ105へ戻る。このテーブル(分野テーブル)には、単語とその出現頻度の他に、各単語ごとに情報を持つこともできる。例えば、単語の品詞情報などを持つことができ、かかる場合には、この品詞情報等もテーブルに登録される。これらの一連の処理を行い、ステップ101にて全ての分野について作業をしたと判断された場合には、分野テーブル作成処理が終了する。
【0026】
図3は、図2にて説明したような分野テーブル作成部31にて作成されメモリに格納されるテーブル例を示した図である。ここでは、「スポーツ」の分野について、不要語除去前のテーブル例が示されている。テーブル情報は、単語を特定する番号である単語IDごとに、単語、単語の品詞、単語の出現頻度が表されている。この単語の出現頻度は、「学習用の文書集合中に出現した回数の総計」を表している。1文書内に2個以上出現した場合も、その個数の分だけ数えている。尚、図3に示す例では、予め「名詞」と「動詞」だけをテーブルに登録するという、前処理を行なってできたテーブルの模式図である。
【0027】
次に、不要語除去処理について説明する。
図4は、不要語決定・除去部32にてなされる処理を示したフローチャートである。不要語決定・除去部32では、分野テーブル作成部31にて作成された分野テーブルを用いて、全ての分野について作業がなされているか否かが判断される(ステップ201)。全ての分野についての作業がなされていない場合には、まず、1つの分野(Aとする)を選ぶ(ステップ202)。そして、Aの分野テーブルにおける全ての単語について作業したか否かが判断され(ステップ203)、全ての単語について作業した場合には、ステップ201に戻り、まだ残っている場合には、Aの分野テーブルから1つの単語(Wとする)を選ぶ(ステップ204)。そして、A以外の全ての分野と比較したか否かが判断され(ステップ205)、A以外の全ての分野と比較した場合には、ステップ203へ戻り、比較していない場合には、A以外の分野から1つの分野(Bとする)を選ぶ(ステップ206)。そして、予め定められている基準に対し、この基準を超えて、Bの分野テーブルにWが含まれているか否かが判断され(ステップ207)、基準を超えて含まれていない場合には、ステップ205からの処理に戻る。含まれている場合には、このWを不要語と判定して(ステップ208)、ステップ203からの処理に戻る。ステップ201にて、全ての分野について作業がなされたと判断された場合には、不要語除去の処理は終了し、除去結果のテーブル情報が分類用カタログ格納装置22に格納される。
【0028】
即ち、図4に示す不要語除去の方法では、所定のカテゴリAに属する語(単語)Wを1つ、取り出し、この語Wが他のカテゴリBの中で、所定の基準より多く出現するならば、この語WがカテゴリAの不要語と決定している。これを、カテゴリAに属する全ての語について行なう。また、この一連の処理を、カテゴリA以外のカテゴリに対して、それぞれの判断対象となるカテゴリの役割を取り替えて、全てのカテゴリに対して不要語を決定している。
【0029】
ここで、ステップ207の判断である「基準を超えて含まれている」を定義する方法としては、幾つかの方法が考えられる。例えば、後述するように、ある閾値を定め、分類済み文書集合格納装置21に格納された学習用文書の個数に対し、
文書数×閾値
で得られた値に対してB内での単語Wの頻度が超える場合には、「基準値を超えて含まれる」と定義することができる。また、他の例として、例えば、
単語WのB内での頻度 ÷ B内の全ての単語の頻度合計
がある閾値を超えた場合には、「基準を超えて含まれる」と定義するように構成することもできる。
【0030】
尚、図4に示す不要語除去の方法は、他の既存の不要語除去手法と組み合わせて用いることも可能である。また、分野(カテゴリ)が階層構造を成している場合も、同一階層に存在する分野に対してこのアルゴリズムを適用することによって、拡張することもできる。
【0031】
図5(a)〜(c)は、この不要語処理のアルゴリズムについて更に詳しく説明するための図である。本アルゴリズムでは、まず、閾値R(0≦R≦1)が処理部30に格納される。図5(a)〜(c)に示す例では、この閾値として、「0.05」という値が記憶されている。また、図5(a)〜(c)に示す例では、分野(カテゴリ)として、スポーツ、経済、政治、の3分野について示され、それぞれの学習用文書の文書数は、80文書、100文書、150文書であるものとする。更に、図5(a)〜(c)に示す各カテゴリに属する語Wは、各カテゴリに属する文書の中に存在する語であり、その数値は、文書に含まれる語の頻度を示す。ここで、或る語の頻度として、例えば「その語のカテゴリに出現する個数の総計」や「カテゴリ内の、その語を含む文書の個数」など、任意の指標を採用することができる。
【0032】
図5(a)に示すように、まず、カテゴリ「スポーツ」の中で頻度が50である単語「日本」を不要語とするか否かの判断を行なう。従来では、ただ単に、この頻度50が大きいか小さいかだけを判断対象としていたが、本実施の形態では、他のカテゴリにおける頻度の状況を確認し、カテゴリ間の相対的な出現頻度をもとに不要語を決定している。そのために、他のカテゴリである「経済」の文書の中で、単語「日本」がどの程度、使用され、出現しているか、を判断している。より具体的には、カテゴリ「経済」の文書数を閾値Rで掛け合わせた値(100×0.05=5)と、単語「日本」の頻度(30個)とが比較される。30は5よりも大きい(30>5)ことから、「スポーツ」で用いられる単語「日本」は、他のカテゴリ(例えば「経済」)でも頻繁に用いられる可能性がある単語と考えられる。従って、実際に文書の分類作業を行なう際、「スポーツ」のカテゴリを判断する判断対象として「日本」は好ましくないと考えられる。そこで、カテゴリ「スポーツ」では、単語「日本」が不要語とされる。
【0033】
次に、図5(b)に示すように、カテゴリ「スポーツ」の中で単語「代表」を不要語とするか否かの判断を行なう。まず、他のカテゴリの1つである「経済」の中で、単語「代表」の頻度は2であり、カテゴリ「経済」の文書数を閾値Rで掛け合わせた値(100×0.05=5)と比較して小さい(2<5)ことから、この段階では、カテゴリ「スポーツ」での不要語とは判断しない。しかしながら、もう一方の他のカテゴリである「政治」の中で、単語「代表」の頻度は8である。このとき、カテゴリ「政治」の文書数を閾値Rで掛け合わせた値(150×0.05=7.5)と比較して、出現頻度が大きい(8>7.5)ことが理解できる。その結果、カテゴリ「スポーツ」の中の単語「代表」は、他のカテゴリの状態を判断して、識別単語としては好ましいものとは判断できない。そこで、「スポーツ」の中の単語「代表」は、不要語であると判断される。
【0034】
更に、図5(c)に示すように、カテゴリ「スポーツ」の中で単語「選手」を不要語とするか否かの判断を行なう。まず、他のカテゴリの1つであるカテゴリ「経済」の中で、単語「選手」の頻度は3であり、カテゴリ「経済」の文書数を閾値Rで掛け合わせた値(100×0.05=5)と比較して小さい(3<5)ことから、単語「選手」は、カテゴリ「スポーツ」での不要語とは判断しない。また、もう一方の他のカテゴリであるカテゴリ「政治」の中で、単語「選手」の頻度は1である。カテゴリ「政治」の文書数を閾値Rで掛け合わせた値(150×0.05=7.5)と比較して小さい(1<7.5)ことが理解できる。従って、カテゴリ「スポーツ」の中の単語「選手」は、他のカテゴリにて出現頻度が低く、識別単語として好ましいものと判断され、「スポーツ」の中の単語「選手」は不要語ではなく、削除されずに残される。
【0035】
図6は、図5(a)〜(c)によって、全てのカテゴリに対して不要語を除去した後の状態を説明するための図である。上述したようなアルゴリズムによる不要語除去作業を全てのカテゴリに対して施す。図6において、斜線で示される領域に存在する単語は、不要語として除去される単語である。カテゴリ「スポーツ」では単語「日本」、「代表」が、カテゴリ「経済」では単語「日本」、「選手」、「代表」が、カテゴリ「政治」では単語「日本」、「代表」、「銀行」、「選手」が、不要語として除去される。
【0036】
図7は、図3にて示した、分野テーブル作成部31にて作成されメモリに格納されるテーブル例から、不要語を除去した後の分野テーブルの例を示した図である。図3と同様に、「スポーツ」の分野を例に挙げている。テーブル情報は、不要語除去後に残った単語を特定する番号である単語IDごとに、単語、単語の品詞、単語の出現頻度が表されている。尚、図3と同様に、単語の出現頻度は、「学習用の文書集合中に出現した回数の総計」を表している。図7に示すような、不要語決定・除去部32にて不要語が除去された分野テーブルは、分類用カタログ格納装置22に分類用カタログとして格納される。尚、分類用カタログ格納装置22に格納するに際し、図7に示すような、不要語が取り除かれた語のリストをそのまま用いてもよく、または、このリストに既存の「語の重み付け手法」を用いてリストを改良して格納することもできる。
【0037】
以上のようにして不要語が除去された結果を用いて、実際に文書分類処理が実行される。不要語を除去して得られた分野テーブルを文書分類処理に適用する方法としては幾つかのものが考えられるが、ここでは、「ベクトル空間モデル」と呼ばれる方法を例に挙げて説明する。
【0038】
分類用カタログ格納装置22には、不要語除去を経て作成された分野テーブルが格納されているが、分野(カテゴリ)ごとに、「語」と「語の重み」のペアが登録されている。図6に示す例では、「スポーツ」のカテゴリにて、語である「選手」、語の重みとして「20」が登録されている。例えば、図6に示すような場合には、「選手」、「取引」、「銀行」、「ビール」、「首相」という5個の単語(語)の組を基底とするベクトル空間を考え、この空間内で「文書と各分野との距離」を計算する。尚、複数の分野に出てくる場合には、重複して出てきている語をまとめて1個としてベクトル空間が作成される。図6に示す例では、各分野のベクトルは、以下のようになる。
スポーツ : (20,0,0,0,0)
経済   : (0,20,10,3,0)
政治   : (0,0,0,0,100)
【0039】
次に、分類対象の文書から、文書ベクトルを作成する方法を説明する。ここでは、まず、分類対象文書格納装置23から得られる分類対象の文書Dを形態素解析し、単語とその出現頻度との組をテーブルにする。例えば、
分類対象の文書の内容:
「A国の首相が、B国の首相とイラク問題について会談した。」
について、形態素解析を行い、下記のようなテーブルを作成する。
(A,1)、(国,2)、(首相,2)、(イラク,1)、(問題,1)、(会談,1)
次に、このようにして作成されたテーブルと、既に作成されているベクトル空間の基底とを比較し、ベクトル空間の基底になっている(登録されている)単語の情報のみを用いてベクトルを作成し、分類対象文書のベクトルが生成される。上記の例では、生成される文書ベクトルは、
選手、 取引、 銀行、 ビール、首相
(  0、  0、  0、  0、  2 )
となる。
【0040】
その後、「文書と各分野との距離」の計算に、以上のようにして生成されたベクトルのなす角度の余弦が用いられる。
図8(a),(b)は、本実施の形態にて利用されるベクトル空間モデルを説明するための図である。この余弦は、図8(a)に示すベクトルAとベクトルBに対して、その角度をθとすると、
cosθ = (A・B) ÷ (|A||B|)
で定義される。ここで、A・BはAとBとの積、|A|はAのノルム(長さ)を表す。余弦の値、即ちcosθは、0と1の間をとり、1に近いほどθが小さくなる。つまり、cosθの値が大きいほど、AとBとは互いに「近い」と考えられる。
【0041】
文書の分類において、余弦は、次のようにして用いることができる。分類したい文書に対応するベクトルをA、分野に対応するベクトルをBとし、各Bに対して、AとBとの余弦を計算する。Aに対して余弦の値を最も大きくするようなBの分野を、Aが属する分野と判定すればよい。図8(b)に示すように、分類対象文書をベクトルAにとり、政治、経済、スポーツの各カテゴリをベクトルBにとる。そして、分類対象文書と政治、分類対象文書と経済、分類対象文書とスポーツ、の各々の余弦を、上述した式にて算出する。図8(b)に示す例では、分類対象文書と政治との角度が最も小さく、余弦が最も大きくなり、分類対象文書は「政治」のカテゴリに属するものと判定することができる。
【0042】
図9は、このようなベクトル空間モデルを用いて文書分類処理部33にて実行される文書分類処理の流れを示したフローチャートである。文書分類処理部33では、まず、分類対象文書格納装置23から分類対象文書Dが取得される(ステップ301)。次に、分類対象文書Dの単語を全て抽出し、分類対象文書Dに対応するベクトルVdを作成する(ステップ302)。ここで、全ての分野について作業したか否かが判断され(ステップ303)、作業が残っている場合には、分野を1つ選んでAとする(ステップ304)。そして、ベクトルVdと、Aに対応するベクトルVaとの距離を、上述のようにして計算する(ステップ305)。ステップ303へ戻り、全ての作業について終了した場合には、計算した距離を用いて、分類対象文書Dの分類先の分野を決定し(ステップ306)、分類結果格納装置24に結果を格納して処理が終了する。
【0043】
以上、詳述したように、本実施の形態では、文書自動分類における不要語を「他のどれかのカテゴリにもある程度以上含まれている語」という定義を行い、カテゴリ間の相対的な出現頻度から不要語除去を行なっている。これによって、カテゴリの特徴付けに役立たない語(不要語)を新たに定義することができ、この定義によって、従来の手法に比べて、より効果的に不要語を除去することができる。また、不要語が除去されたリストを分類用カタログ格納装置22に格納し、このリストを用いて実際の文書分類処理を実行することで、実際の文書処理に際して不要語か否かを判断するといった手間を省くことができる。即ち、実際の分類対象文書を解析して不要語を除去する必要がなく、分類作業を迅速化することが可能となる。
【0044】
【発明の効果】
以上説明したように、本発明によれば、文書の自動分類において、不要語を効果的に取り除くことが可能となる。
【図面の簡単な説明】
【図1】本実施の形態が適用される文書自動分類システムの構成を示したブロック図である。
【図2】分野テーブル作成部にてなされる処理を示したフローチャートである。
【図3】図2にて説明したような分野テーブル作成部にて作成されメモリに格納されるテーブル例を示した図である。
【図4】不要語除去部にてなされる処理を示したフローチャートである。
【図5】(a)〜(c)は、この不要語処理のアルゴリズムについて更に詳しく説明するための図である。
【図6】図5(a)〜(c)によって、全てのカテゴリに対して不要語を除去した後の状態を説明するための図である。
【図7】図3にて示した分野テーブル作成部にて作成されメモリに格納されるテーブル例から不要語を除去した後の分野テーブルの例を示した図である。
【図8】(a),(b)は、本実施の形態にて利用されるベクトル空間モデルを説明するための図である。
【図9】ベクトル空間モデルを用いて文書分類処理部にて実行される文書分類処理の流れを示したフローチャートである。
【符号の説明】
10…文書自動分類システム、20…データ格納装置、21…分類済み文書集合格納装置、22…分類用カタログ格納装置、23…分類対象文書格納装置、24…分類結果格納装置、30…処理部、31…分野テーブル作成部、32…不要語決定・除去部、33…文書分類処理部

Claims (20)

  1. 学習用文書集合から語を抽出し、カテゴリごとに語のリストを作成するリスト作成手段と、
    前記リスト作成手段により作成された前記リストを用いて、所定の語における各カテゴリでの出現頻度をもとにカテゴリごとの不要語を相対的に決定する不要語決定手段と
    を含む文書自動分類システム。
  2. 前記リスト作成手段は、記憶手段にある前記学習用文書集合からカテゴリごとに所定の語における出現頻度を示すリストを生成することを特徴とする請求項1記載の文書自動分類システム。
  3. 前記不要語決定手段は、所定のカテゴリに属する語を取り出し、当該語が他のカテゴリにて所定の基準より多く出現する場合に不要語と決定することを特徴とする請求項1記載の文書自動分類システム。
  4. 前記不要語決定手段は、前記所定のカテゴリから取り出される前記語が、予め定められる閾値および前記他のカテゴリに属する文書の個数によって決定される前記所定の基準より当該他のカテゴリにて多く出現する場合に不要語と決定することを特徴とする請求項3記載の文書自動分類システム。
  5. 前記不要語決定手段により決定され、当該決定により不要語が除去された、カテゴリごとのリストを分類用カタログとして格納する分類用カタログ格納手段と、
    前記分類用カタログ格納手段に格納された前記分類用カタログを用いて、分類対象文書に対して分類処理を施す文書分類手段と
    を更に含む請求項1記載の文書自動分類システム。
  6. 分野ごとに分類済みの文書を格納する分類済み文書集合格納装置と、
    前記分類済み文書集合格納装置から取得された文書に含まれる単語の出現頻度の情報を含む分野別のテーブルを作成する分野テーブル作成部と、
    前記分野テーブル作成部により作成された前記分野別のテーブルから得られる所定の語における各分野での出現頻度に基づいて、当該テーブルから当該分野別に不要語を除去する不要語除去部と、
    前記不要語除去部により不要語が除去された前記テーブルを格納する分類用カタログ格納装置と
    を含む文書自動分類システム。
  7. 分類される分類対象文書を格納する分類対象文書格納装置と、
    前記分類対象文書格納装置に格納された前記分類対象文書に対し、前記分類用カタログ格納装置に格納された前記テーブルを用いて分類処理を行なう文書分類処理部と
    を更に含む請求項6記載の文書自動分類システム。
  8. 前記不要語除去部は、所定の分野に属する語を取り出し、当該語が他の分野にて所定の基準を超えて出現する場合に、当該語を不要語として前記テーブルから除去することを特徴とする請求項6記載の文書自動分類システム。
  9. 前記分野テーブル作成部により作成される前記分野別のテーブルは、前記単語、当該単語の出現頻度、および当該単語の品詞に関する情報を含むことを特徴とする請求項6記載の文書自動分類システム。
  10. 文書自動分類システムにおける不要語判定方法であって、
    学習用文書集合が格納されている記憶装置から文書に含まれる単語をカテゴリごとに抽出するステップと、
    抽出された前記単語の出現頻度の情報を含むリストをカテゴリごとに作成するステップと、
    作成された前記リストを用いて、所定のカテゴリに属する所定の単語における他のカテゴリでの出現頻度を認識するステップと、
    認識された前記出現頻度に基づいて、カテゴリごとに不要語を判定するステップと
    を含む不要語判定方法。
  11. 前記不要語を判定するステップでは、前記所定のカテゴリから選定された1つの単語に対して、前記他のカテゴリにて当該単語が所定の基準を超えて含まれているか否かによって不要語を判定することを特徴とする請求項10記載の不要語判定方法。
  12. 前記所定の基準は、前記他のカテゴリ内の文書数および予め定められた所定の閾値により得られる値であることを特徴とする請求項11記載の不要語判定方法。
  13. 前記所定の基準は、前記他のカテゴリ内での前記単語の頻度と、当該他のカテゴリ内での全ての単語の頻度合計とによって決定されることを特徴とする請求項11記載の不要語判定方法。
  14. 文書自動分類システムにおける不要語判定方法であって、
    記憶装置に格納されている分野別に分類済みの文書集合から分野別の単語に関する情報を取得し、
    取得された前記単語に関する情報に基づいて、特定の分野に属する単語が他の分野に出現する頻度を認識し、
    認識される前記頻度に基づいて前記単語が前記特定の分野を識別するのに不要な単語か否かを判定することを特徴とする文書自動分類方法。
  15. 前記不要な単語であると判定された単語を除去して文書の分類用カタログを生成し、
    生成された前記分類用カタログを記憶装置に格納することを特徴とする請求項14記載の文書自動分類方法。
  16. 前記記憶装置に格納された前記分類用カタログを用いて、分類対象文書に対して分類処理を施すことを特徴とする請求項15記載の文書自動分類方法。
  17. コンピュータに、
    学習用文書集合が格納されている記憶装置から文書に含まれる単語をカテゴリごとに抽出する機能と、
    抽出された前記単語の出現頻度の情報を含むリストをカテゴリごとに作成する機能と、
    作成された前記リストを用いて、所定のカテゴリに属する所定の単語における他のカテゴリでの出現頻度を認識する機能と、
    認識された前記出現頻度に基づいて、カテゴリごとに不要語を判定する機能とを実現させるプログラム。
  18. 前記コンピュータに、
    判定された前記不要語を用いて分類用のリストを生成する機能を更に実現させる請求項17記載のプログラム。
  19. コンピュータに、
    記憶装置に格納されている分野別に分類済みの文書集合から分野別の単語に関する情報を取得する機能と、
    取得された前記単語に関する情報に基づいて、特定の分野に属する単語が他の分野に出現する頻度を認識する機能と、
    認識される前記頻度に基づいて前記単語が前記特定の分野を識別するのに不要な単語か否かを判定する機能と
    を実現させるプログラム。
  20. 前記コンピュータに、
    前記不要な単語であると判定された単語を除去して文書の分類用カタログを生成する機能と、
    生成された前記分類用カタログを用いて、分類対象文書を分類する機能と
    を更に実現させる請求項19記載のプログラム。
JP2002301539A 2002-10-16 2002-10-16 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム Expired - Fee Related JP4233836B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2002301539A JP4233836B2 (ja) 2002-10-16 2002-10-16 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム
US10/688,217 US20040083224A1 (en) 2002-10-16 2003-10-15 Document automatic classification system, unnecessary word determination method and document automatic classification method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002301539A JP4233836B2 (ja) 2002-10-16 2002-10-16 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2004139222A true JP2004139222A (ja) 2004-05-13
JP4233836B2 JP4233836B2 (ja) 2009-03-04

Family

ID=32105022

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002301539A Expired - Fee Related JP4233836B2 (ja) 2002-10-16 2002-10-16 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム

Country Status (2)

Country Link
US (1) US20040083224A1 (ja)
JP (1) JP4233836B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007141247A (ja) * 2005-11-21 2007-06-07 Sap Ag 電子ビジネス通信におけるデータ要素の使用の追跡
JP2008299616A (ja) * 2007-05-31 2008-12-11 Kyushu Univ 文書分類装置、文書分類方法、プログラム及び記録媒体
JP2010055155A (ja) * 2008-08-26 2010-03-11 Nec Biglobe Ltd サーバ装置、情報処理方法およびプログラム
JP2010055159A (ja) * 2008-08-26 2010-03-11 Nec Biglobe Ltd 情報検索装置、情報検索方法、およびプログラム
JP2013109563A (ja) * 2011-11-21 2013-06-06 Nippon Telegr & Teleph Corp <Ntt> 検索条件抽出装置、検索条件抽出方法および検索条件抽出プログラム
JP2019079198A (ja) * 2017-10-23 2019-05-23 ヤフー株式会社 比較装置、比較方法および比較プログラム
US10409847B2 (en) 2015-12-04 2019-09-10 Fujitsu Limited Computer-readable recording medium, learning method, and mail server

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050165750A1 (en) * 2004-01-20 2005-07-28 Microsoft Corporation Infrequent word index for document indexes
US7293016B1 (en) * 2004-01-22 2007-11-06 Microsoft Corporation Index partitioning based on document relevance for document indexes
JP2007066281A (ja) * 2005-05-12 2007-03-15 Fujifilm Corp 技術問題の主原因推定方法、及び技術問題の解決コンセプト創出方法
US8126700B2 (en) * 2006-03-29 2012-02-28 International Business Machines Corporation Computer-assisted comprehension of texts
US8862752B2 (en) 2007-04-11 2014-10-14 Mcafee, Inc. System, method, and computer program product for conditionally preventing the transfer of data based on a location thereof
US8793802B2 (en) 2007-05-22 2014-07-29 Mcafee, Inc. System, method, and computer program product for preventing data leakage utilizing a map of data
AU2008255269A1 (en) * 2008-02-05 2009-08-20 Nuix Pty. Ltd. Document comparison method and apparatus
WO2010013473A1 (ja) 2008-07-30 2010-02-04 日本電気株式会社 データ分類システム、データ分類方法、及びデータ分類プログラム
US9342589B2 (en) * 2008-07-30 2016-05-17 Nec Corporation Data classifier system, data classifier method and data classifier program stored on storage medium
US20100191734A1 (en) * 2009-01-23 2010-07-29 Rajaram Shyam Sundar System and method for classifying documents
WO2010106578A1 (en) * 2009-03-19 2010-09-23 Hitachi, Ltd. E-mail archiving system, method, and program
US20140114986A1 (en) * 2009-08-11 2014-04-24 Pearl.com LLC Method and apparatus for implicit topic extraction used in an online consultation system
US9904436B2 (en) 2009-08-11 2018-02-27 Pearl.com LLC Method and apparatus for creating a personalized question feed platform
US9646079B2 (en) 2012-05-04 2017-05-09 Pearl.com LLC Method and apparatus for identifiying similar questions in a consultation system
EP2488963A1 (en) * 2009-10-15 2012-08-22 Rogers Communications Inc. System and method for phrase identification
CN102054006B (zh) 2009-11-10 2015-01-14 深圳市世纪光速信息技术有限公司 一种从海量数据中提取有效信息的方法及装置
CN102141977A (zh) * 2010-02-01 2011-08-03 阿里巴巴集团控股有限公司 一种文本分类的方法及装置
JP5512489B2 (ja) * 2010-10-27 2014-06-04 株式会社日立ソリューションズ ファイル管理装置及びファイル管理方法
CN102609422A (zh) 2011-01-25 2012-07-25 阿里巴巴集团控股有限公司 类目错放识别方法和装置
US9836455B2 (en) 2011-02-23 2017-12-05 New York University Apparatus, method and computer-accessible medium for explaining classifications of documents
US9275038B2 (en) 2012-05-04 2016-03-01 Pearl.com LLC Method and apparatus for identifying customer service and duplicate questions in an online consultation system
US9501580B2 (en) 2012-05-04 2016-11-22 Pearl.com LLC Method and apparatus for automated selection of interesting content for presentation to first time visitors of a website
US8463648B1 (en) * 2012-05-04 2013-06-11 Pearl.com LLC Method and apparatus for automated topic extraction used for the creation and promotion of new categories in a consultation system
US9348899B2 (en) 2012-10-31 2016-05-24 Open Text Corporation Auto-classification system and method with dynamic user feedback
CN104933044B (zh) * 2014-03-17 2019-05-31 北京奇虎科技有限公司 应用卸载原因的分类方法及分类装置
US10817669B2 (en) * 2019-01-14 2020-10-27 International Business Machines Corporation Automatic classification of adverse event text fragments

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0675995A (ja) * 1992-08-27 1994-03-18 Omron Corp 自動分類付与装置および方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5371807A (en) * 1992-03-20 1994-12-06 Digital Equipment Corporation Method and apparatus for text classification
US5675711A (en) * 1994-05-13 1997-10-07 International Business Machines Corporation Adaptive statistical regression and classification of data strings, with application to the generic detection of computer viruses
JP2940501B2 (ja) * 1996-12-25 1999-08-25 日本電気株式会社 ドキュメント分類装置及び方法
US6393415B1 (en) * 1999-03-31 2002-05-21 Verizon Laboratories Inc. Adaptive partitioning techniques in performing query requests and request routing
US6691108B2 (en) * 1999-12-14 2004-02-10 Nec Corporation Focused search engine and method
US7028250B2 (en) * 2000-05-25 2006-04-11 Kanisa, Inc. System and method for automatically classifying text
JP2002041544A (ja) * 2000-07-25 2002-02-08 Toshiba Corp テキスト情報分析装置
US7440943B2 (en) * 2000-12-22 2008-10-21 Xerox Corporation Recommender system and method
JP3701197B2 (ja) * 2000-12-28 2005-09-28 松下電器産業株式会社 分類への帰属度計算基準作成方法及び装置
US6970881B1 (en) * 2001-05-07 2005-11-29 Intelligenxia, Inc. Concept-based method and system for dynamically analyzing unstructured information
US6920448B2 (en) * 2001-05-09 2005-07-19 Agilent Technologies, Inc. Domain specific knowledge-based metasearch system and methods of using
US7043492B1 (en) * 2001-07-05 2006-05-09 Requisite Technology, Inc. Automated classification of items using classification mappings
US7010515B2 (en) * 2001-07-12 2006-03-07 Matsushita Electric Industrial Co., Ltd. Text comparison apparatus
US6985908B2 (en) * 2001-11-01 2006-01-10 Matsushita Electric Industrial Co., Ltd. Text classification apparatus
US20030154181A1 (en) * 2002-01-25 2003-08-14 Nec Usa, Inc. Document clustering with cluster refinement and model selection capabilities
US7181451B2 (en) * 2002-07-03 2007-02-20 Word Data Corp. Processing input text to generate the selectivity value of a word or word group in a library of texts in a field is related to the frequency of occurrence of that word or word group in library
US7047236B2 (en) * 2002-12-31 2006-05-16 International Business Machines Corporation Method for automatic deduction of rules for matching content to categories

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0675995A (ja) * 1992-08-27 1994-03-18 Omron Corp 自動分類付与装置および方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007141247A (ja) * 2005-11-21 2007-06-07 Sap Ag 電子ビジネス通信におけるデータ要素の使用の追跡
JP2008299616A (ja) * 2007-05-31 2008-12-11 Kyushu Univ 文書分類装置、文書分類方法、プログラム及び記録媒体
JP2010055155A (ja) * 2008-08-26 2010-03-11 Nec Biglobe Ltd サーバ装置、情報処理方法およびプログラム
JP2010055159A (ja) * 2008-08-26 2010-03-11 Nec Biglobe Ltd 情報検索装置、情報検索方法、およびプログラム
JP4587236B2 (ja) * 2008-08-26 2010-11-24 Necビッグローブ株式会社 情報検索装置、情報検索方法、およびプログラム
JP4640554B2 (ja) * 2008-08-26 2011-03-02 Necビッグローブ株式会社 サーバ装置、情報処理方法およびプログラム
US8838616B2 (en) 2008-08-26 2014-09-16 Nec Biglobe, Ltd. Server device for creating list of general words to be excluded from search result
JP2013109563A (ja) * 2011-11-21 2013-06-06 Nippon Telegr & Teleph Corp <Ntt> 検索条件抽出装置、検索条件抽出方法および検索条件抽出プログラム
US10409847B2 (en) 2015-12-04 2019-09-10 Fujitsu Limited Computer-readable recording medium, learning method, and mail server
JP2019079198A (ja) * 2017-10-23 2019-05-23 ヤフー株式会社 比較装置、比較方法および比較プログラム

Also Published As

Publication number Publication date
US20040083224A1 (en) 2004-04-29
JP4233836B2 (ja) 2009-03-04

Similar Documents

Publication Publication Date Title
JP4233836B2 (ja) 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム
WO2018066445A1 (ja) 因果関係認識装置及びそのためのコンピュータプログラム
WO2017167067A1 (zh) 网页文本分类的方法和装置,网页文本识别的方法和装置
CN110705286A (zh) 一种基于评论信息的数据处理方法及装置
JP2013545160A (ja) 指定特性値を使用するターゲット単語の認識
CN108090216B (zh) 一种标签预测方法、装置及存储介质
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN111460153A (zh) 热点话题提取方法、装置、终端设备及存储介质
WO2017091985A1 (zh) 停用词识别方法与装置
JP5012078B2 (ja) カテゴリ作成方法、カテゴリ作成装置、およびプログラム
CN110287311A (zh) 文本分类方法及装置、存储介质、计算机设备
CN111475651B (zh) 文本分类方法、计算设备及计算机存储介质
CN110287493B (zh) 风险短语识别方法、装置、电子设备及存储介质
CN109508557A (zh) 一种关联用户隐私的文件路径关键词识别方法
JP2000250919A (ja) 文書処理装置及びそのプログラム記憶媒体
CN113486664A (zh) 文本数据可视化分析方法、装置、设备及存储介质
JP6555810B2 (ja) 類似度算出装置、類似検索装置、および類似度算出プログラム
JP2003263441A (ja) キーワード決定データベース作成方法、キーワード決定方法、装置、プログラム、および記録媒体
JP2008282111A (ja) 類似文書検索方法、プログラムおよび装置
CN112035670B (zh) 基于图像情感倾向的多模态谣言检测方法
CN114417860A (zh) 一种信息检测方法、装置及设备
CN113971403A (zh) 一种考虑文本语义信息的实体识别方法及系统
JPH1139313A (ja) 文書自動分類システム、文書分類向け知識ベース生成方法及びそのプログラムを記録した記録媒体
CN111931229A (zh) 一种数据识别方法、装置和存储介质
JP2556477B2 (ja) パタン照合装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050421

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051020

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20051121

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20060210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081029

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20081204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081210

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111219

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees