JP2002056009A - 文書分類方法および装置 - Google Patents

文書分類方法および装置

Info

Publication number
JP2002056009A
JP2002056009A JP2000261176A JP2000261176A JP2002056009A JP 2002056009 A JP2002056009 A JP 2002056009A JP 2000261176 A JP2000261176 A JP 2000261176A JP 2000261176 A JP2000261176 A JP 2000261176A JP 2002056009 A JP2002056009 A JP 2002056009A
Authority
JP
Japan
Prior art keywords
document
concept
documents
extracted
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000261176A
Other languages
English (en)
Inventor
Yasushi Ishikawa
泰志 石川
Takane Sato
高根 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2000261176A priority Critical patent/JP2002056009A/ja
Publication of JP2002056009A publication Critical patent/JP2002056009A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 視点に従った分類を生成してこの分類に即し
て利用者が文書を特定できるようにする。 【解決手段】 単語を指定して検索を行ない対象となる
文書群を選別する。文書を形態素解析して単語を抽出
し、頻出数に基づいて着目単語を選ぶ。着目単語の共起
関係(共起グラフ)を、各文書の文単位で検出する。多
くの文書に含まれる共起グラフを概念グラフとして選
び、概念グラフを含むかどうかにより書く文書の概念ベ
クトルを決定する。概念ベクトルに従って文書を分類し
表示し、選択できるようにする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、文書分類技術に
関し、例えば共起関係を概念として捉え、これを利用し
て利用者の思考に即した態様で文書を分類し、目的の文
書を迅速に特定できるようにしたものである。
【0002】
【背景の技術】利用者が自身の興味に適合した文書を的
確かつ迅速に獲得する方法を提供することは、ナレッジ
シェアリングやドキュメントマネージメント等を目的と
するシステムにおける最も重要な課題の一つである。大
量の文書の中から利用者が自身の興味に従った文書を獲
得することを支援する方法として最も一般的な方法は
「全文検索」である。
【0003】全文検索の方法は、大量の文書から興味の
ある事項に関連する文書を絞り込むのには有効である
が、我々がよく経験しているように、絞り込みを弱くす
ると得られた検索結果は膨大になり、目的の文書を得る
までに検索結果の指し示す文書をすべて参照して必要と
する文書を利用者が探索する必要が生じ、また逆に、絞
り込みを強くすると目的の文書が検索漏れとなってしま
うという問題が発生する。
【0004】また、キーワードによる全文検索は、キー
ワードによって利用者の興味が表現可能であることと、
文書中のキーワードの頻出度が利用者の興味との一致度
であるという前提に基づいている。しかしながら、キー
ワードが文書中に頻出することが必ずしも利用者の求め
る文書でないということは、経験的に正しい。つまり、
キーワードを的確に指定したとしても、良い検索結果が
得られるとは限らないのである。
【0005】このように、検索による絞り込みは、的確
かつ迅速に所望の文書を獲得したいという利用者の目的
を満たしていない。
【0006】他方、検索サイト「Yahoo」(商標)
で提供されているような、文書の分類を利用者が辿って
いくことで、利用者の興味に即した文書を探索する方法
がある。これは利用者にとってかなり有益な方法である
が、これを提供する側が人手を用いて文書の分類を行わ
なければならず、提供者側には重い負荷がのしかかる。
また、即時性という観点からも人手による文書分類には
限界がある。
【0007】なお、この発明と関連する先行特許文献と
しては特開平10−228486号公報および特開平1
0−254883号公報がある。特開平10−2284
86号公報は、各文書の「サッカー」、「テニス」等の
所定の語句の出現頻度により特徴量を得て分類を行なう
ものである。また、特開平10−254883号公報
は、所定の複数の語句について分野との関連度を学習文
書群から算出し、分類対象文書中の所定の語句の出現回
数と分野との関連度とに基づいて分類を行なうものであ
る。
【0008】
【発明が解決する課題】この発明は、以上の事情を考慮
してなされたものであり、使用者の思考に即し、かつ利
用者の興味を十分に反映した形態で、しかも迅速に文書
を分類して利用者に提示する文書分類技術を提供するこ
とを目的としている。
【0009】
【課題を解決するための手段】この発明によれば、上述
の目的を達成するために、特許請求の範囲に記載のとお
りの構成を採用している。まず、特許請求の範囲の記載
について補充的に説明を行なう。すなわち、この発明の
一側面によれば、文書分類方法において、指定された視
点により文書を選別するステップと、選別された文書か
ら各文書の概念を抽出するステップと、上記抽出された
概念に基づいて上記選別された文書を分類するステップ
とを実行するようにしている。
【0010】この構成においては、視点を指定すると、
文書が選別され、選別された文書群から概念が抽出さ
れ、この概念により文書を自動的に分類することができ
る。文書の分類は、視点により適合的に行なわれ、視点
すなわち使用者の思考や使用者の興味を反映したもので
あり、利用者は目的とする文書をそのような分類から適
切かつ迅速に取り出すことができる。
【0011】なお、この発明は方法の形態でも装置の形
態でも実現可能である。またその一部をコンピュータプ
ログラムとして実現できることはもちろんである。さら
に、この発明の技術的な範囲にはコンピュータプログラ
ムを記録した記録媒体も含まれる。
【0012】より具体的に、この発明を説明する。この
発明の具体的な構成によれば、文書分類方法において、
キーワード検索により文書を選別するステップと、選別
された文書から頻出語句の共起関係を抽出するステップ
と、上記共起関係の所定の組を選択するステップと、上
記所定の組に含まれる共起関係の有無を上記選別された
文書について判別するステップと、上記判別結果に基づ
いて上記選別された文書を分類するステップとを実行す
るようにしている。
【0013】この構成においては、キーワード検索によ
り利用者の視点が特定される。そしてキーワード検索に
より選別された文書の集合から得られる共起関係を用い
て文書の分類を行なう。共起関係は概念と把握すること
が可能であり、所定の組の共起関係を概念ベクトルとし
て考え、これに即して概念に準拠した分類が可能とな
る。利用者は、概念ベクトルを利用して準備した分類を
用いて所望の一群の文書のみを参照するだけで目的の文
書を特定することが可能となる。分類は機械的に行な
え、迅速かつ簡易に分類結果を得ることができる。さら
に、利用者の視点としてのキーワードにより選別した文
書を出発点として分類が形成されるので、分類が、利用
者の目的ごとにカスタマイズされたものとなる。
【0014】なお、共起関係は2つの語句の間で設定さ
れてもよいし、3個以上の語句の間で設定されてもよ
い。キーワード検索は例えば全文検索である。もちろん
他のキーワード検索でもよい。自然の文章を入力して、
これからキーワードを抽出して検索を行うものでもよ
い。また、上記所定の組に含まれる共起関係は、上記選
別された文書の所定数以上の文書に含まれる共起関係と
することができる。
【0015】また、上記視点と等価なものが予め設定さ
れていると考えられる場合には、これを利用して文書を
分類することもできる。すなわち、予め大きくグループ
分けをされている文書群(例えばファイルサーバにカテ
ゴリ別に保管されている文書群)について共起関係を判
別して同様の分類を行なってもよい。この場合、利用者
の視点に代えて予め何らかの文書の取捨選択基準が用意
されることになる。書誌事項で文書を選別したり、人手
で文書を選別したりすることができる。この場合にも、
その後の分類作業を同様に概念に準拠してかつ迅速に行
なえる。
【0016】
【発明の実施の形態】以下、この発明の実施例について
説明する。
【0017】[実施例1]まず、実施例1について説明
する。図1は、この発明をクライアント・サーバ・シス
テムに適用した実施例を示している。もちろんスタンド
アローンのパーソナルコンピュータやワークステーショ
ンに適用することもでき、汎用コンピュータに適用する
こともできる。
【0018】図1において、ファイルサーバ10、文書
分類サーバ20、複数のクライアント30がネットワー
ク、例えばLAN(構内通信網)40に接続されてい
る。クライアント30は、例えばパーソナルコンピュー
タであり、キーボード、マウス装置、モニタ等を具備し
ている。文書分類サーバ20はクライアント30からの
要求に応じて指定された一群の文書の分類を行なうもの
である。文書は、例えばファイルサーバ10に保管され
ている。もちろん他のサーバやインターネット上の文書
であってもよい。利用者は、例えば、フィルサーバ10
の所定のパス名を指定してそのパスに含まれる文書を選
択することができる。
【0019】図2は文書分類サーバ20による分類動作
を全体として示しており、図3は図2の分類動作の要部
について示している。
【0020】図2において、まず、利用者が分類対象と
なる文書を指定する(S10)。先に述べたように例え
ばファイルサーバ10のパス名を指定する。ファイルサ
ーバ10が文書群選択機能を提供するときにはこれを利
用してもよい。つぎに利用者は分類の「視点」となるキ
ーワードを入力する。キーワードは1つでもよいし、複
数でもよい。または、視点を文章で指定し、形態素解析
などによってキーワードを抽出するなどしてもよい。こ
ののち図3に示す分類処理を行う(S13)。分類処理
が終了したら分類結果をクライアント30のモニタに表
示する(S14)。
【0021】図3において、分類処理S13(図2)は
つぎのように行なわれる。まず、選別した文書の各々に
ついて形態素解析を行なって語句を抽出する(S2
0)。この後、頻出後を選択して頻出後間の共起度を計
算する(S21、S22)。この共起度に基づいて所定
数あるいは所定の共起度以上の共起関係(共起グラフ)
を選択する(S23)。こののち、多くの文書に含まれ
る共起グラフを、分類に適した概念を代表するもの(概
念グラフ)として選択する(S24)。概念グラフの選
択基準は、同一共起グラフを含む文書の数または割合で
もよいし、より多くの文書に含まれる順に所定数選んで
もよい。その他種々の態様で概念グラフを選択できる。
【0022】つぎに各文書について個々の概念グラフを
含むかどうかを調べ、その有無を要素とする概念ベクト
ルを生成する(S25)。例えば、3つの概念ベクトル
が選択された場合には、(0,0,0),(0,0,
1)...(1,1,1)の8個のベクトルがある
(「0」は概念グラフがないことを示し、「1」は概念
グラフがあることを意味するものとした)。つぎに概念
ベクトルに基づいて2分木を作成し、この2分木に基づ
いて階層構造を生成し、この階層構造に各文書を振り分
ける(S26、S27、S28)。以上で文書の分類処
理(S13、図2)が終了する。
【0023】つぎに具体例を挙げて説明する。
【0024】選別された文書の一例は例えば図4に示す
ようなものである。この文書を形態素解析すると図5に
示すようになる。形態素解析されて抽出された語句から
共起グラフを作成する。共起グラフは、例えばつぎのよ
うに生成する。抽出した単語のうち頻出単語を着目単
語とする。つぎに、対象となる着目単語の、1文中で
の共起関係を、1対1の着目単語対によりグラフ化す
る。この手法によれば、まず、図6に示すように着目単
語が抽出され、各文に出現する着目単語は図7に示すよ
うになり、各文における、共起グラフは図8に示すよう
になる。ただし、文ごとに句点(「。」)を付した。こ
の結果、図4に示す文書には図9に示すような共起グラ
フが含まれる。
【0025】以上の処理を各文書について実行し、多く
の文書に含まれる共起グラフを「概念」として抽出す
る。例えば、上述の共起グラフのうち「文書−分類」、
「形態素解析−研究」、「A−B」(A−Bは、図4の
文書に含まれない所定の共起グラフであるが、ここでは
具体的に示さない)の3つが概念グラフとして抽出され
る。そうすると、図4の文書は「文書−分類」、「形態
素解析−研究」の概念を持つ文書となり、その概念ベク
トルは、(1,1,0)となる。
【0026】この概念ベクトルによって表された文書群
を2文木で構造化することにより、文書の分類構造が生
成される。生成された文書構造に文書を割り当てること
で、文書の分類が行なわれる。例えば、生成された2分
木が図10に示すものであると、文書の分類構造は図1
1で示すようになる。そして図4の文書は図11のAに
分類されることになる。
【0027】2分木は、例えば、クラシファイのアルゴ
リズムによって生成することができる。C4.5等のク
ラシファイアルゴリズムにより、概念ベクトル空間上の
格子点の有無を目的状態として2分木を生成することな
どが考えられる。
【0028】以上の分類により、例えば、図12に示す
ような分類結果が表示され、この中の文書を指定すると
その文書の全部または一部が表示される。図12におい
ては図4の文書(「例文」)を指定して表示している。
【0029】[実施例2]つぎにこの発明の実施例2に
ついて説明する。実施例2では、概念(選択した共起グ
ラフ)の有無で分類を行なうのでなく、各文書について
概念の出現回数に基づいて概念ベクトルを生成する。概
念が4つの場合には4次元のベクトルであり、概念ベク
トルのそれぞれは正規化しておく。そして概念ベクトル
の間の内積に基づいて文書群をクラスタリングしてい
く。以下、詳細に説明する。なお、全体の構成(図
1)、全体の動作(図2)は実施例1と同じであるの
で、説明は繰り返さない。また、文書の例等も実施例で
説明したものを用い、図4〜図8を実施例2でもそのま
ま流用する。ここでは、分類動作を中心に説明する。図
13は、実施例2の分類動作を示しており、この図にお
いて、図3と対応する箇所には対応する符号を付した。
図13において、まず、選別した文書の各々について形
態素解析を行なって語句を抽出する(S20)。この
後、頻出後を選択して頻出後間の共起度を計算する(S
21、S22)。この共起度に基づいて所定数あるいは
所定の共起度以上の共起関係(共起グラフ)を選択する
(S23)。こののち、多くの文書に含まれる共起グラ
フを、分類に適した概念を代表するもの(概念グラフ)
として選択する(S24)。概念グラフの選択基準は、
同一共起グラフを含む文書の数または割合でもよいし、
より多くの文書に含まれる順に所定数選んでもよい。そ
の他種々の態様で概念グラフを選択できる。
【0030】つぎに各文書について個々の概念グラフを
含むかどうかを調べ、その有無と強さににり概念ベクト
ルを生成する(S35)。つぎに概念ベクトルの内積が
最も大きい2つの文書を1つのクラスタにまとめる(S
36)。クラスタについても概念ベクトルを生成する。
クラスタが1つになるまでステップS35、S36を繰
り返す(S37)。以上で文書の分類処理(S13、図
2)が終了する。
【0031】つぎに具体例を挙げて説明する。
【0032】選別された文書の一例は例えば図4に示す
ようなものである。この文書を形態素解析すると図5に
示すようになる。形態素解析されて抽出された語句から
共起グラフを作成する。共起グラフは、例えばつぎのよ
うに生成する。抽出した単語のうち頻出単語を着目単
語とする。つぎに、対象となる着目単語の、1文中で
の共起関係を、1対1の着目単語対によりグラフ化す
る。この手法によれば、まず、図6に示すように着目単
語が抽出され、各文に出現する着目単語は図7に示すよ
うになり、各文における、共起グラフは図8に示すよう
になる。ただし、文ごとに句点(「。」)を付した。こ
の結果、図4に示す文書には図9に示すような共起グラ
フが含まれる。なお、括弧内の数次は出現回数である。
【0033】このような共起グラフの生成を各文書につ
いて行なった後に、多くの文章に含まれる共起グラフを
「概念」として抽出する。例えば、抽出された概念が
「文書−分類」、「文書−研究」、「形態素解析−研
究」、「A−B」(A−Bは、図4の文書に含まれない
所定の共起グラフであるが、ここでは具体的に示さな
い)の4つであった場合、本例の文書は「文書−分
類」、「文書−研究」、「形態素解析−研究」の3つの
概念を持つ文書となる。よって、本文書の概念ベクトル
は、概念の有無および強さ(出現回数)により、(0.
928,0.371,0.186,0)と表される。ベ
クトルの大きさが1になるようにベクトルは正規化され
る。
【0034】この概念ベクトルによって表された文書群
に対して、ベクトルの内積が最も大きくなる文書(クラ
スタ)と文書(クラスタ)の組合せを1つ選び、1つの
クラスタにまとめる。このクラスタの概念には、選ばれ
た文書(クラスタ)に含まれるすべてのが概念が採用さ
れ、その有無、および大きさ(出現回数)に基づいてそ
の概念ベクトルが生成される。この場合も概念ベクトル
は1に正規化される。
【0035】このプロセスをすべての文書が1つのクラ
スタになるまで繰り返す。この結果、文書の階層構造が
生成される。
【0036】生成された階層構造を利用者に提示する際
に、それぞれのクラスタを理解しやすくする表現がある
ことが好ましい。この例では、以下に示すクラスタ名抽
出アルゴリズムを利用する。もちろん、他の手法でクラ
スタ名を抽出してもよい。
【0037】図14で表される文書からクラスタ名を抽
出する手順は以下のようになる。
【0038】まず、図14の文書の概念として採用され
ている単語の貢献度は。概念の強さにより以下のように
計算される。
【表1】 「文書」の貢献度 0.928+0.371=1.299 「分類」の貢献度 0.928 「研究」の貢献度 0.371+0.186=0.557 「A」と「B」の貢献度 0
【0039】本アルゴリズムでは。貢献度の高い単語を
数個選び、クラスタ名とする。3つを選択する場合、図
14の文書を表す名前は、「文書、分類、研究」とな
る。
【0040】文書(クラスタ)と文書(クラスタ)を1
つのクラスタにまとめたときのクラスタ名は、以上と同
様に2つの文書(クラスタ)を構成する概念の強さから
計算された単語の貢献度によって決定される。
【0041】ところで、1つのクラスタとしてまとめた
ときのクラスタ名が、まとめられた2つの文書(クラス
タ)のクラスタ名と特徴が似通っている場合がある。例
えば、図15に示すように、「文書、分類、研究」とい
うクラスタと「A、B、C」というクラスタとを併合し
たときのクラスタ名が「文書、分類、A」となったとき
を考える。このとき、クラスタリングの構造を利用者に
提示する際に、このまま提示するとツリー構造が深くな
り、利用者はクラスタの特徴を判別することが困難にな
ると考えられる。このような点から、クラスタ名の特徴
が似通っている階層については図16に示すように階層
構造を省略して表示することが好ましい。まったく同一
のクラスタ名となった場合だけでなく、本例のようにク
ラスタ名の大部分が同じである場合や、上下のクラスタ
を表して概念ベクトルが酷似している場合などに、階層
構造を省略することが好ましい。図17はこのような階
層構造を省略した場合の分類結果の例を示す。
【0042】なお、この発明は上述の実施例に限定され
ずその趣旨を逸脱しない範囲で種々変更が可能である。
例えば、共起関係は2つの単語の間でなく3つ以上の単
語の間で起こるようにしてもよい。また、共起関係の有
無を、所定の頻度を閾値として判別してもよい。例え
ば、共起関係が3以上起こったときに共起関係があると
して概念ベクトルの当該要素を「1」としてもよい。
【0043】
【発明の効果】以上説明したように、この発明によれ
ば、例えば所定の共起関係を用いて概念に準拠した分類
を行なうことができ、しかも、手作業がないので迅速か
つ簡易に分類を行なえる。
【図面の簡単な説明】
【図1】 この発明の実施例1のシステムを全体として
示すブロック図である。
【図2】 上述実施例1の動作を全体として示すフロー
チャートである。
【図3】 上述実施例1の動作の要部を示すフローチャ
ートである。
【図4】 上述実施例1の動作を説明する図である。
【図5】 上述実施例1の動作を説明する図である。
【図6】 上述実施例1の動作を説明する図である。
【図7】 上述実施例1の動作を説明する図である。
【図8】 上述実施例1の動作を説明する図である。
【図9】 上述実施例1の動作を説明する図である。
【図10】 上述実施例1の動作を説明する図である。
【図11】 上述実施例の動作を説明する図である。
【図12】 上述実施例1における分類結果のディスプ
レイ表示画面の中間調画像を示す図である。
【図13】 上述実施例2の動作の要部を示すフローチ
ャートである。
【図14】 上述実施例2の動作を説明する図である。
【図15】 上述実施例2の動作を説明する図である。
【図16】 上述実施例2の動作を説明する図である。
【図17】 上述実施例2における分類結果のディスプ
レイ表示画面の中間調画像を示す図である。
【符号の説明】
10 ファイルサーバ 20 文書分類サーバ 30 クライアント 40 LAN
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5B075 ND03 ND35 NK43 NR03 NR12 UU06

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】 指定された視点により文書を選別するス
    テップと、 選別された文書から各文書の概念を抽出するステップ
    と、 上記抽出された概念に基づいて上記選別した文書を分類
    するステップとを有することを特徴とする文書分類方
    法。
  2. 【請求項2】 指定された視点により文書を選別するス
    テップと、 選別された文書から各文書の概念を抽出するステップ
    と、 上記抽出された概念の有無により記述される文書分類構
    造を生成するステップと、 上記選別された文書を、上記抽出された概念の有無に基
    づいて、上記文書分類構造に関して分類するステップと
    を有することを特徴とする文書分類方法。
  3. 【請求項3】 指定された視点により文書を選別するス
    テップと、 選別された文書から各文書の概念を抽出するステップ
    と、 1の文書について抽出された概念と他の文書について抽
    出した概念との間の相関に基づいて上記選別された文書
    を分類するステップとを有することを特徴とする文書分
    類方法。
  4. 【請求項4】 上記各文書に含まれる概念から概念ベク
    トルを生成し、上記概念ベクトルの間の内積に基づいて
    上記相関を求める請求項3記載の文書分類方法。
  5. 【請求項5】 上記選別された文書から抽出された共起
    関係の少なくとも一部を概念として選択し、1の文書の
    概念ベクトルを上記1の文書に含まれる概念およびその
    頻度に基づいて生成する請求項4記載の文書分類方法。
  6. 【請求項6】 上記視点は、キーワード列によって指定
    される請求項1〜5のいずれかに記載の文書分類方法。
  7. 【請求項7】 上記視点は文章によって指定される請求
    項1〜5のいずれかに記載の文書分類方法。
  8. 【請求項8】 上記視点の指定による文書の選別は、キ
    ーワードによる全文検索等の文書検索とする請求項1〜
    7のいずれかに記載の文書分類方法。
  9. 【請求項9】 上記選別された文書から各文書の概念を
    抽出するステップは、選別された分書からの頻出語句の
    共起関係を抽出するステップと、共起関係の所定の組を
    選択するステップとを含む請求項1、2または3記載の
    文書分類方法。
  10. 【請求項10】 上記抽出された概念の有無により記述
    される文書分類構造を生成するステップは、上記選別さ
    れた文書から抽出された共起関係のうち上記文書の多く
    に含まれるものを概念として選択するステップと、上記
    概念として選択された共起関係の有無により記述される
    文書分類構造を生成するステップとを含む請求項2記載
    の文書分類方法。
  11. 【請求項11】 複数の文書から頻出語句の共起関係を
    抽出するステップと、 上記共起関係の所定の組を選択するステップと、 上記所定の組に含まれる共起関係の有無を上記選別され
    た文書について判別するステップと、 上記判別結果に基づいて上記選別された文書を分類する
    ステップとを有することを特徴とする文書分類方法。
  12. 【請求項12】 複数の文書から頻出語句の共起関係を
    抽出するステップと、 上記共起関係の所定の組を選択するステップと、 上記選別された文書の各々について、上記所定の組に属
    する共起関係の頻度に基づいて当該文書の概念ベクトル
    を生成するステップと、 上記概念ベクトルの内積に基づいて上記選別された文書
    を分類するステップとを有することを特徴とする文書分
    類方法。
  13. 【請求項13】 指定された視点により文書を選別する
    手段と、 選別された文書から各文書の概念を抽出する手段と、 上記抽出された概念に基づいて上記選別した文書を分類
    する手段とを有することを特徴とする文書分類装置。
  14. 【請求項14】 指定された視点により文書を選別する
    手段と、 選別された文書から各文書の概念を抽出する手段と、 上記抽出された概念の有無により記述される文書分類構
    造を生成する手段と、 上記選別された文書を、上記抽出された概念の有無に基
    づいて、上記文書分類構造に関して分類する手段とを有
    することを特徴とする文書分類装置。
  15. 【請求項15】 指定された視点により文書を選別する
    ステップと、 選別された文書から各文書の概念を抽出するステップ
    と、 上記抽出された概念に基づいて上記選別した文書を分類
    するステップとをコンピュータに実行させるために用い
    る、文書分類用のプログラムを記録した記録媒体。
  16. 【請求項16】 指定された視点により文書を選別する
    ステップと、 選別された文書から各文書の概念を抽出するステップ
    と、 上記抽出された概念の有無により記述される文書分類構
    造を生成するステップと、 上記選別された文書を、上記抽出された概念の有無に基
    づいて、上記文書分類構造に関して分類するステップと
    をコンピュータに実行させるために用いる、文書分類用
    のプログラムを記録した記録媒体。
JP2000261176A 2000-05-29 2000-08-30 文書分類方法および装置 Pending JP2002056009A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000261176A JP2002056009A (ja) 2000-05-29 2000-08-30 文書分類方法および装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2000-157789 2000-05-29
JP2000157789 2000-05-29
JP2000261176A JP2002056009A (ja) 2000-05-29 2000-08-30 文書分類方法および装置

Publications (1)

Publication Number Publication Date
JP2002056009A true JP2002056009A (ja) 2002-02-20

Family

ID=26592770

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000261176A Pending JP2002056009A (ja) 2000-05-29 2000-08-30 文書分類方法および装置

Country Status (1)

Country Link
JP (1) JP2002056009A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008102758A (ja) * 2006-10-19 2008-05-01 Omron Corp Fmeaシートの作成方法およびfmeaシート自動作成装置
JP2011525673A (ja) * 2008-06-24 2011-09-22 シャロン ベレンゾン, 特に特許文献に適用可能な検索エンジンおよび方法論
JP2012256171A (ja) * 2011-06-08 2012-12-27 Sony Corp 情報処理装置および情報処理方法
WO2013161850A1 (ja) * 2012-04-26 2013-10-31 日本電気株式会社 テキストマイニングシステム、テキストマイニング方法及びプログラム
CN103970733A (zh) * 2014-04-10 2014-08-06 北京大学 一种基于图结构的中文新词识别方法
US9607076B2 (en) 2013-06-11 2017-03-28 Konica Minolta, Inc. Device and method for determining interest, and computer-readable storage medium for computer program

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008102758A (ja) * 2006-10-19 2008-05-01 Omron Corp Fmeaシートの作成方法およびfmeaシート自動作成装置
JP2011525673A (ja) * 2008-06-24 2011-09-22 シャロン ベレンゾン, 特に特許文献に適用可能な検索エンジンおよび方法論
JP2012256171A (ja) * 2011-06-08 2012-12-27 Sony Corp 情報処理装置および情報処理方法
WO2013161850A1 (ja) * 2012-04-26 2013-10-31 日本電気株式会社 テキストマイニングシステム、テキストマイニング方法及びプログラム
JP5494999B1 (ja) * 2012-04-26 2014-05-21 日本電気株式会社 テキストマイニングシステム、テキストマイニング方法及びプログラム
US10409848B2 (en) 2012-04-26 2019-09-10 Nec Corporation Text mining system, text mining method, and program
US9607076B2 (en) 2013-06-11 2017-03-28 Konica Minolta, Inc. Device and method for determining interest, and computer-readable storage medium for computer program
CN103970733A (zh) * 2014-04-10 2014-08-06 北京大学 一种基于图结构的中文新词识别方法
CN103970733B (zh) * 2014-04-10 2017-07-14 中国信息安全测评中心 一种基于图结构的中文新词识别方法

Similar Documents

Publication Publication Date Title
US6772148B2 (en) Classification of information sources using graphic structures
US7707162B2 (en) Method and apparatus for classifying multimedia artifacts using ontology selection and semantic classification
US20020143797A1 (en) File classification management system and method used in operating systems
US20060155684A1 (en) Systems and methods to present web image search results for effective image browsing
US8930822B2 (en) Method for human-centric information access and presentation
US20120078979A1 (en) Method for advanced patent search and analysis
JPH10134075A (ja) 文書処理装置、単語抽出装置、単語抽出方法、及び単語抽出プログラムを記録した記録媒体
JP2003248692A (ja) 1組のドキュメントの階層的記述の推測
CA2789010C (en) Propagating classification decisions
JP2004178604A (ja) 情報検索装置及びその方法
US11232137B2 (en) Methods for evaluating term support in patent-related documents
JP2007219947A (ja) 因果関係知識抽出装置及びプログラム
JP2004341753A (ja) 検索支援装置、検索支援方法、およびプログラム
JP2000331032A (ja) 文書処理装置、単語抽出装置及び単語抽出方法
JP2002056009A (ja) 文書分類方法および装置
JPH08263514A (ja) 文書の自動分類方法、および情報空間の可視化方法、ならびに情報検索システム
JP2010198278A (ja) 評判情報分類装置、評判情報分類方法及びプログラム
JPH1145257A (ja) Web文書の検索支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004110834A (ja) 情報記憶検索システム及び方法
JP2003196294A (ja) 知識分析システムおよび知識分析方法
JPH11213000A (ja) インタラクティブ情報検索方法及び装置及びインタラクティブ情報検索プログラムを格納した記憶媒体
JP2011164791A (ja) 特徴語抽出装置、特徴語抽出方法および特徴語抽出プログラム
JP2002324077A (ja) 文書検索装置および文書検索方法
Murarka et al. Query-based single document summarization using hybrid semantic and graph-based approach
Umale et al. Survey on document clustering approach for forensics analysis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070116

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070319

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070417