JPH10254899A - 文書分類システム - Google Patents

文書分類システム

Info

Publication number
JPH10254899A
JPH10254899A JP9059067A JP5906797A JPH10254899A JP H10254899 A JPH10254899 A JP H10254899A JP 9059067 A JP9059067 A JP 9059067A JP 5906797 A JP5906797 A JP 5906797A JP H10254899 A JPH10254899 A JP H10254899A
Authority
JP
Japan
Prior art keywords
document
link
classification
category
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP9059067A
Other languages
English (en)
Inventor
Akira Ochitani
亮 落谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP9059067A priority Critical patent/JPH10254899A/ja
Publication of JPH10254899A publication Critical patent/JPH10254899A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 リンク情報を利用して関連する多くの情報を
集めることによりハイパーテキストのようなリンクで接
続された文書を分類すること。 【解決手段】 リンク情報抽出手段2は分類対象の文書
D0 中からリンク情報(リンクとリンクラベル)を取り
出し文書関係評価手段3に渡す。文書関係評価手段3
は、分類対象文書とリンク先文書との類似度およびリン
クラベルの記述内容を評価しリンク先文書を分類対象文
書に含めるかを判定する。文書分類手段4は、分類対象
文書から文書特徴を抽出し、分類カテゴリのカテゴリ特
徴ベクトル7と類似度を計算する。そして類似度の高い
分類カテゴリを上記分類対象文書に割り当てる。同様
に、複数の文書からなる文書グループD1 〜DN の分類
処理を行ったり、文書DT とその分類カテゴリからなる
訓練データを与え、分類カテゴリの特徴ベクトルを作成
し登録することができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】WWWページ等のハイパーテ
キスト中の文書では、リンクで接続された文書のそれぞ
れが単体で意味をもつのではなく、特徴的な情報や実際
の具体的な内容を記述した文書へのリンクを通じて意味
のある内容を表現している場合が多い。例えば、WWW
ページの場合、見出しを記述した文書へのリンクを通じ
て意味のある内容を表現している場合が多い。本発明は
上記したように分類特徴となるテキスト情報が分散して
記述され、リンク関係で結ばれている文書を精度よく分
類することができる文書分類システムに関する。
【0002】
【従来の技術】従来の単体文書を分類するシステムで
は、一つの文書中に分類に必要なテキスト情報が書かれ
ているため、その文書全体を解析して特徴情報を抽出
し、分類処理を行っていた。例えば、単体文書における
単語の出現頻度等を抽出して文書特徴ベクトルを求め、
該文書特徴ベクトルと、分類カテゴリの特徴ベクトルと
の類似度から上記文書を対応する分類カテゴリに分類し
ていた。
【0003】
【発明が解決しようとする課題】単体文書を分類する場
合には、上記したように該文書を解析して特徴情報を抽
出して分類処理を行うことができるが、WWWページの
ようなハイパーテキスト文書では、文書内容はリンクで
接続された文書に分散して書かれているため、分類特徴
の収集にあたっては、リンクを辿り分散して書かれたテ
キスト情報の中から分類に有効な情報を見つけ出す必要
が生じた。また、文書間のリンクには文書を特徴づける
リンクだけではなく、例えば、文書の複製や一般的なイ
ンデックスなど、文書の特徴とは無関係なリンクが含ま
れるため、それらの不要なリンクを避けて特徴情報を抽
出する必要があった。本発明は上記した事情を考慮して
なされたものであって、その目的とするところは、リン
ク情報を利用して関連する多くの情報を集め、その中の
特徴的な情報を利用することにより、ハイパーテキスト
のようなリンクで接続された文書の分類精度を向上させ
ることである。
【0004】
【課題を解決するための手段】図1は本発明の原理構成
図である。本発明が対象とする文書は、文書と文書がリ
ンクで接続された文書であり、「文書」と「リンク」と
「リンクに付けられたリンクラベル」から構成される。
この代表的なものとしては、図2に示すようなWWWの
ページテキスト(HTMLにより記述されたWWWペー
ジ)がある。本発明においては、図2に示すようなリン
クで接続された文書を、次のようにして分類処理すると
ともに、上記文書から文書特徴を抽出してカテゴリ特徴
登録処理を行う。
【0005】(1)単文書の分類処理 分類対象の文書として単文書D0 が本発明の文書分類シ
ステム1に与えられると、リンク情報抽出手段2は分類
対象の文書D0 中からリンク情報(リンクとリンクラベ
ル)を取り出し、文書関係評価手段3に渡す。文書関係
評価手段3では、分類対象文書とリンク先文書との類似
度およびリンクラベルの記述内容を評価し、リンク先文
書を関連文書として評価対象に含めるか否かを判定す
る。そして、リンク先文書が分類対象に含まれると判定
した場合には、上記分類対象文書とともにリンク先文書
を文書分類手段4に渡す。上記リンクラベルの記述内容
の評価は、例えば、後述するように予め分類対象とする
リンクラベル(例えば、「概要」、「機能」等)、分類
対象としないリンクラベル(例えば、「ホーム」、「戻
る」等)の表現パターンを登録しておき、与えられたリ
ンクラベルの表現がどの表現パターンであるかを判定し
て行う。
【0006】文書分類手段4は、分類対象文書(リンク
先文書も含む)から文書特徴を抽出し、分類カテゴリの
カテゴリ特徴ベクトル7と類似度を計算する。そして類
似度の高い分類カテゴリを上記分類対象文書に割り当て
る。また、リンク関係がリンク元文書だけに書かれてい
るようなハイパーテキストにおいて、リンク先文書が分
類対象文書として与えられた場合にはリンク元文書の検
索処理が必要となる。このような文書を分類処理する場
合には、リンク元検索手段8によりリンク元文書を検索
したのち、リンク元文書も含めて上記と同様に文書分類
処理を行う。
【0007】(2)文書グループの分類処理 複数の文書からなる分類対象文書グループD1〜DN が
与えられると、分類文書選択手段5は、分類対象となる
各文書について、他の文書との類似度を求めその総和を
計算する。そして、他の文書との類似度の高い文書か
ら、予め設定した比率の文書を選択する。分類文書選択
手段5により選択された文書は、リンク情報抽出手段
2、文書関係評価手段3、文書分類手段4において上記
(1)で説明したのと同様に処理されて、文書グループ
に分類カテゴリが割り当てられる。
【0008】(3)カテゴリ特徴登録処理 訓練データとし、文書DT とその分類カテゴリが与えら
れると、リンク情報抽出手段2は上記と同様、文書DT
中からリンク情報を取り出す。文書関係評価手段3は、
リンク先文書を関連文書として評価対象に含めるか否か
を判定し、分類対象に含まれると判定したリンク先文書
を含む文書をカテゴリ特徴登録手段6に渡す。カテゴリ
特徴登録手段6は、上記文書と訓練情報として与えられ
た分類カテゴリを用いてそれぞれの分類カテゴリの特徴
ベクトルを作成し登録する。
【0009】本発明の請求項1の発明においては、上記
(1)のように、リンク情報を利用して関連する多くの
情報を集め、その中の特徴的な情報を利用するようにし
たので、ハイパーテキストのようなリンクで接続された
文書の分類精度を向上させることができ、ハイパーテキ
スト中のテキスト量の少ない文書や、直接テキストが書
かれていない文書からも自動的に分類カテゴリの特徴を
収集することができる。さらに、ハイパーテキスト中の
分類したいノードに直接テキストが書かれていない場
合、例えば見出しページが分類対象として指示された場
合であっても、分類処理が可能となる。
【0010】本発明の請求項2の発明においては、上記
(2)のように文書グループの中から分類対象文書を選
択し、分類処理を行うようにしたので、複数の文書から
なる文書グループを分類することができ。本発明の請求
項3の発明においては、上記(3)のようにカテゴリ特
徴を登録するようにしたので、訓練情報を与えることに
より、本発明に係る文書分類システムに新たなデータを
与えて訓練することができる。
【0011】本発明の請求項4においては、文書の類似
度とリンクラベルの記述内容とに基づきリンク先もしく
はリンク元文書を分類対象文書もしくはカテゴリ登録対
象文書に含めるか否かを判定するようにしたので、分類
対象もしくはカテゴリ登録対象となる文書を適切に選定
することができ、分類精度を向上させることができる。
本発明の請求項5においては、リンク元検索手段により
リンク元文書を検索するようにしたので、リンク関係が
リンク元文書だけに書かれているような文書において
も、リンク元文書も含めて文書分類処理を行うことがで
き、精度のよい分類処理を行うことが可能となる。
【0012】
【発明の実施の形態】以下、本発明の実施例をWWWペ
ージを対象として説明する。図3は本発明が適用される
システムの一例を示す図であり、本発明のシステムは例
えば次のように利用される。図3において、ワークステ
ーション11によりインターネット13から取り込まれ
たWWWページは、本発明に係る文書分類システム20
に与えられる。文書分類システム20は取り込まれたW
WWページについて、前記したようにリンク情報を抽出
し、リンク情報等に基づき分類対象文書を判定する。そ
して、分類対象文書について分類処理を行い、分類結果
を分類結果格納ファイル12に格納する。また、訓練情
報として、文書とともに分類カテゴリが文書分類システ
ム20に与えられると、文書分類システムは上記文書か
ら上記と同様な処理を行ってカテゴリ特徴登録対象とな
る文書を判定して、該文書から文書特徴を抽出し、訓練
情報として与えられた分類カテゴリを用いてそれぞれの
分類カテゴリの特徴ベクトルを作成し登録する。
【0013】図4は図3に示した文書分類システム20
の構成例を示す図であり、同図により本実施例について
説明する。 (1)単文書の分類処理 文書分類処理の対象としてURLが指示されると、リン
ク情報抽出部21は対象となるURLのページの中から
リンク情報(リンクとリンクラベル)を取り出す。例え
ば、WWWページとしてurl0が示され、そのページ
の内容が図5に示すような場合には、図6(a)に示す
ようなリンクとリンクラベルが抽出される。文書関係評
価部22は、上記リンクラベルの記述内容を評価し、関
連度の高い文書へのリンクを評価要とし、関連度の低い
文書へのリンクを評価不要とする。
【0014】すなわち、ハイパーテキストでは、テキス
トがリンクにより自由に結合されるため、ある文書の示
す特徴を得るためにリンク先をたどる場合、関連度の高
い文書へのリンクのみをたどることにより、ばらつきの
少ない特徴情報を収集することができる。そこで、文書
関係評価部22では、分類文書とリンク先文書との間の
リンクラベルの表現内容の評価と、文書間の類似度の評
価を行い、リンク先文書を分類特徴のチェック対象に含
めるかを判定する。リンクラベルの評価は、図6(b)
(c)に示す評価パターンテーブル、評価禁止パターン
テーブルを用いて行われる。評価パターンテーブルには
リンク先を分類対象とする場合の表現パターンが書か
れ、評価禁止パターンテーブルにはリンク先を分類対象
としない表現パターンが書かれており、これらのテーブ
ルへの表現パターンの登録は、予め対象分野のテキスト
を分析することにより行われる。
【0015】文書関係評価部22は、上記評価パターン
テーブル、評価禁止パターンテーブルの中に予め用意し
た表現と、ラベルに書かれた文章表現を照合することに
リンクラベルの評価を行う。図6の場合には、url0
−1、url0−2の「概要」、「機能」の文字列を含
むリンク先は評価要とされ、また、url0−3、ur
l0−4の「ホーム」、「戻る」の文字列を含むリンク
先は評価不要とする。分類文書とリンク先文書の類似度
の評価は、文書の特徴ベクトルを用いて行う。本実施例
においては、特徴ベクトルとして情報検索の分野で一般
的に使用されている文書の特徴ベクトルを用いており、
テキスト中の文書毎に計算される一次元ベクトルとして
与えられる。
【0016】特徴ベクトルは、例えばテキスト中の語彙
の頻度を要素とした次のベクトルとして表される。 文書特徴ベクトル=(単語1の文書中頻度、単語2の文
書中頻度、...、単語nの文書中の頻度) 情報検索の分野では、他にも数多くの特徴ベクトルが提
案されており、本実施例で使用される特徴ベクトルとし
ては、数字を要素とした一次元ベクトルの形式をとるも
のであれば、上記文書特徴ベクトル換えて使用すること
ができる。すなちわ、一般的には特徴ベクトルは次の形
式を取る。 文書特徴ベクトル=(要素1、要素2、...、要素
n) (各要素は特徴を表す尺度である)
【0017】分類文書とリンク先文書の類似度の評価
は、それぞれの文書の特徴ベクトル間の類似度を計算し
て行う。特徴ベクトルの類似度は、情報検索の分野で用
いられるコサイン類似度を用いて計算する。文書中のn
個の単語について、単語tに対応した特徴ベクトルAの
要素をat、特徴ベクトルBの要素をbt とすると、類
似度は次の式(1)で計算される。
【0018】
【数1】
【0019】類似度の計算方法も要素ベクトル間のユー
クリッド距離を用いる方法が提案さており、値として単
一のスカラー値を取るものであれば、本実施例のシステ
ムに適用することができる。文書関係評価部22は前記
したようにリンクラベルの表現パターンからurl0−
1、url0−2が評価要であると判定されると、ur
l0で示されるページとurl0−1、url0−2で
示されるページから特徴ベクトルを求め、リンクで結合
された文書との類似度を上記式(1)により計算する。
類似度を計算した結果、図7に示すような類似度が求ま
ると、類似度と予め定められた閾値を比較する。本実施
例の場合は、閾値を0.4としているので、url0−
1、url0−2を関連文書として分類対象に含める。
【0020】文書関係評価部22は、上記のようにして
分類対象に含める文書を判定すると、図8に示すように
リンク元ページと分類対象ページを分類対象文書テーブ
ル23に登録する。カテゴリ類似度判定部24はファイ
ル30に格納された分類カテゴリのカテゴリ特徴ベクト
ルと、上記分類対象文書テーブル23に登録された文書
特徴との類似度を前記式(1)により計算し、それぞれ
の文書特徴に類似度の高いカテゴリを割り振る。
【0021】ここで、分類カテゴリのカテゴリ特徴ベク
トルは前記した文書特徴ベクトルと同様、単語の頻度等
を要素とする一次元ベクトルであり、該分類カテゴリに
属する文書特徴ベクトルの総和として与えられる。すな
わち、カテゴリ特徴ベクトルは次のベクトルで表され
る。 カテゴリ特徴ベクトル=(単語1のカテゴリ中の頻度、単語2のカテゴリ中の 頻度、...、単語nのカテゴリ中の頻度) =Σカテゴリに属する文書特徴ベクトル なお、カテゴリ特徴ベクトルには、文書特徴ベクトルの
平均など幾つかの候補が考えられ、一般には値として一
次元のベクトルの形態を取り、同一カテゴリに属する文
書特徴ベクトルの関数として次のように表される。 カテゴリ特徴ベクトル=(文書特徴ベクトル1、..文
書特徴ベクトルm)
【0022】上記カテゴリ特徴ベクトルの登録は、訓練
セットとして、どの分類カテゴリに属するかが既知の文
書ベクトルの集合を与え、カテゴリ特徴登録部29を介
して、該分類カテゴリに属する文書特徴ベクトルの総和
を登録する。分類結果集計部25は、カテゴリ類似度判
定部24においてそれぞれの文書特徴に割り振られた分
類カテゴリのうち、カテゴリの類似度の平均にカテゴリ
Ci毎に与えられた係数Cciを掛けて、下記式(2)に
よりカテゴリ評価値を求め、カテゴリ評価値が一番高い
ものを分類カテゴリとして割り当てる。
【0023】
【数2】
【0024】例えば、前記したようにurl0、url
0−1、url0−2が分類対象である場合には、図9
(a)に示すように、分類対象文書url0、url0
−1、url0−2と各分類カテゴリC1〜Cnとの類
似度を計算し、各分類対象文書url0、url0−
1、url0−2と各分類カテゴリC1〜Cnの類似度
の平均に各分類カテゴリC1〜Cn毎に定めた係数Cci
を掛けてカテゴリ評価値を求め、カテゴリ評価値が一番
高いものを分類カテゴリとして割り当てる。この場合に
は、例えば図9(b)に示すような結果が得られ、評価
値が最大のカテゴリ2が分類カテゴリとして選ばれる。
なお、係数CciはカテゴリC1〜Cnに対応して経験的
に与えられる定数であり、例えば、カテゴリ特徴ベクト
ルを獲得する際に使用した文書数等に応じて定められ
る。
【0025】ところで、リンク関係がリンク元だけに書
かれているようなハイパーテキストシステム(WWWペ
ージではリンク元文書のアンカータグにリンクが記述さ
れる)では、リンク元文書からの特徴情報を抽出する場
合、前記したようにリンク元の検索処理が必要となる。
上記したようにリンク元文書から特徴抽出処理を行う場
合には、図4のリンク元検索部26により、分類文書へ
のリンクを含む文書(WWW文書の場合は分類対象ペー
ジのURLへの参照タグを含む文書)を先に検索する。
そして、発見された文書に対し、前述したリンク元文書
の評価処理と同様、リンク元文書のリンクラベルの評価
(評価パターン、評価禁止パターンとの表現形式の照
合)を行うとともに、リンク元文書と分類文書の類似度
評価を行い、リンク元文書を分類対象に含めるか否かを
判定する。
【0026】(2)文書グループ分類処理 文書グループの分類処理では、ハイパーテキストが与え
られ、その中の複数の文書が分類対象として指示される
と、まず、分類文書選択部27において、分類文書選択
処理を行い分類に適当な文書を選択する。分類文書選択
処理は、分類対象の各文書についてメンバー選択評価値
(グループ内の他の文書との類似度の総和)が高い文書
から、予め設定した比率の文書を選ぶことによって行
う。すなわち、グループ内の文書Di の特徴ベクトルの
要素dikについて、次の式(3)によりメンバー選択評
価値を求め、次の式(4)に示すようにメンバー選択評
価値の大きい順に並べ、予め設定した比率を総文書数に
掛けた文書数だけ、評価値の高い文書から選択する。
【0027】
【数3】
【0028】例えば、図10に示すように、文書グルー
プとして、文書url0、url1、url2、url
3が与えられると、上記文書から特徴ベクトルを抽出
し、上記式(3)に示すように、〔文書url0と他の
文書との類似度の総和〕、〔文書url1と他の文書と
の類似度の総和〕、…を求めて、各文書についてメンバ
ー選択評価値を計算する。その結果、メンバー選択評価
値が求まり、その値の大きい順に並べると、例えば図1
1(a)に示すようになる。ここで、メンバー選択比率
が50%に設定してあるとすると、図11(b)に示す
ように文書url0、url1が選択される。
【0029】リンク情報抽出部21は上記文書url
0、url1について、前記した単文書処理と同様、そ
れぞれリンク情報(リンクとリンクラベル)を取り出
す。文書関係評価部22は、前記したように、評価パタ
ーンテーブル、評価禁止パターンテーブルを用いて、上
記リンクラベルの記述内容を評価し、関連度の高い文書
へのリンクを評価要とし、分類文書url0、url1
と評価要とされたそれぞれのリンク先文書の類似度の評
価を行い、上記のようにして分類対象に含める文書を、
前記したように、分類対象文書テーブル23に登録す
る。カテゴリ類似度判定部24は前記したように、分類
カテゴリのカテゴリ特徴ベクトルと、上記分類対象文書
テーブル23に登録された文書特徴との類似度を前記式
(1)により計算し、それぞれの文書特徴に類似度の高
いカテゴリを割り振る。例えば、上記分類文書url
0、url1について、リンク先をたどった先も含め
て、カテゴリ類似度判定の結果を求めると、図12
(a)に示すようになる。
【0030】分類結果集計部25は、カテゴリ評価値が
一番高いものを文書グループの分類カテゴリとして割り
当てる。例えば、上記分類文書url0、url1につ
いて、図12(a)のカテゴリ1〜3のそれぞれの類似
度の総和を求めると、図12(b)に示す結果が得ら
れ、評価値の一番大きいカテゴリ1がグループ全体の分
類カテゴリとして割り当てられる。なお、前記(1)と
同様、リンク関係がリンク元だけに書かれているような
ハイパーテキストシステムで、リンク元文書からの特徴
情報を抽出する場合には、リンク元検索部26により、
分類文書へのリンクを含む文書を先に検索し、発見され
た文書に対し、リンク元文書のリンクラベルの評価を行
うとともに、リンク元文書と分類文書の類似度評価を行
い、リンク元文書を分類対象に含めるか否かを判定す
る。
【0031】(3)カテゴリ特徴登録処理 URLとその分類カテゴリが図13に示すように与えら
れると、分類処理の場合と同様、リンク情報抽出部21
において、上記文書url1、url2中からリンク情
報(リンクとリンクラベル)を取り出し、文書関係評価
部22に渡す。文書関係評価部22では、前記したよう
に、リンクで結合された文書と文書の類似度およびリン
クラベルの記述内容等を評価して関連文書として含める
かを判定する。そして、関連文書に含める場合には、カ
テゴリ登録対象文書テーブル28にリンク先文書を登録
する。上記文書url1、url2とそれぞれの分類カ
テゴリが与えられた場合、例えば、カテゴリ登録対象文
書テーブル28には図14に示すようにURLと分類カ
テゴリが登録される。
【0032】カテゴリ特徴登録部29は、上記カテゴリ
登録対象文書テーブルに登録されたURLの指すページ
の文書特徴ベクトルを求め、カテゴリ毎に文書特徴ベク
トルを集計することにより分類ベクトルの特徴ベクトル
を作成し、作成された特徴ベクトルをファイル30に登
録する。例えば、上記図14に示すようにURLと分類
カテゴリが登録されている場合、各URLの特徴ベクト
ルを求め、各カテゴリの特徴ベクトルの集計を求める
と、図15に示すようになり、カテゴリ1、カテゴリ2
の特徴ベクトルが上記ファイル30に登録される。
【0033】
【発明の効果】以上説明したように、本発明において
は、以下の効果を得ることができる。 (1)リンク情報を利用して関連する多くの情報を集
め、その中の特徴的な情報を利用するようにしたので、
ハイパーテキストのようなリンクで接続された文書の分
類精度を向上させることができ、ハイパーテキスト中の
テキスト量の少ない文書や、直接テキストが書かれてい
ない文書からも自動的に分類カテゴリの特徴を収集する
ことができる。また、ハイパーテキスト中の分類したい
ノードに直接テキストが書かれていない場合、例えば見
出しページが分類対象として指示された場合であって
も、分類処理が可能となる。
【0034】(2)文書グループの中から分類対象文書
を選択し、分類処理を行うようにしたので、複数の文書
からなる文書グループを分類することができる。 (3)カテゴリ特徴を登録するようにしたので、訓練情
報を与えることにより、本発明に係る文書分類システム
に新たなデータを与えて訓練することができる。 (4)文書の類似度とリンクラベルの記述内容とに基づ
きリンク先もしくはリンク元文書を分類対象文書もしく
はカテゴリ登録対象文書に含めるか否かを判定するよう
にしたので、分類対象もしくはカテゴリ登録対象となる
文書を適切に選定することができ、分類精度を向上させ
ることができる。 (5)リンク元検索手段によりリンク元文書を検索する
ようにしたので、リンク関係がリンク元文書だけに書か
れているような文書においても、リンク元文書も含めて
文書分類処理を行うことができ、精度のよい分類処理を
行うことが可能となる。
【図面の簡単な説明】
【図1】本発明の原理構成図である。
【図2】ハイパーテキストの一例を示す図である。
【図3】本発明が適用されるシステムの一例を示す図で
ある。
【図4】本発明の文書分類システムの実施例を示す図で
ある。
【図5】WWWページの一例を示す図である。
【図6】リンク抽出結果、評価パターン、評価禁止パタ
ーンの一例を示す図である。
【図7】リンク先文書評価結果の一例を示す図である。
【図8】分類対象文書テーブルの一例を示す図である。
【図9】分類結果集計処理および得られたカテゴリ評価
値の一例を示す図である。
【図10】分類文書選択処理を説明する図である。
【図11】メンバ−選択評価値、メンバー選択結果の一
例を示す図である。
【図12】カテゴリ類似判定結果、カテゴリ評価値の一
例を示す図である。
【図13】システム訓練データの一例を示す図である。
【図14】カテゴリ登録対象文書テーブルの一例を示す
図である。
【図15】分類カテゴリベクトルの計算例を示す図であ
る。
【符号の説明】
1 文書分類システム 2 リンク情報抽出手段 3 文書関係評価手段 4 文書分類手段 6 カテゴリ特徴ベクトル 5 分類文書選択手段 7 カテゴリ特徴登録手段 8 リンク元検索手段 11 ワークステーション 13 インターネット 12 分類結果格納ファイル 20 文書分類システム 21 リンク情報抽出部 22 文書関係評価部 23 分類対象文書テーブル 24 カテゴリ類似度判定部 25 分類結果集計部 26 リンク元検索部 27 分類文書選択部 28 カテゴリ登録対象文書テーブル 29 カテゴリ特徴登録部 30 カテゴリ特徴ベクトルを格納したファイル

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 文書と文書がリンクで接続されたテキス
    ト中の文書を分類する文書分類システムであって、 分類対象文書からリンク情報を抽出するリンク情報抽出
    手段と、 上記リンク情報から文書のリンク先もしくはリンク元を
    たどって、リンク先もしくはリンク元文書を分類対象に
    含めるか否かを判定する文書関係評価手段と、分類対象
    に含まれる文書の特徴を抽出し、該文書特徴に基づき分
    類対象文書を該当するカテゴリに分類する文書分類手段
    とを備えたことを特徴とする文書分類システム。
  2. 【請求項2】 文書と文書がリンクで接続されたテキス
    ト中の文書を分類する文書分類システムであって、 複数の文書からなる分類対象文書グループ中から、類似
    度の高い文書を選定する分類文書選択手段と、 上記分類文書選択手段により選定された複数の分類対象
    文書からリンク情報を抽出するリンク情報抽出手段と、 上記リンク情報から文書のリンク先もしくはリンク元を
    たどって、リンク先もしくはリンク元文書を分類対象に
    含めるか否かを判定する文書関係評価手段と、分類対象
    に含める文書の特徴を抽出し、該文書特徴に基づき分類
    対象文書グループを該当するカテゴリに分類する文書分
    類手段とを備えたことを特徴とする文書分類システム。
  3. 【請求項3】 分類カテゴリとともに、訓練データとし
    て与えられた文書からリンク情報を抽出するリンク情報
    抽出手段と、 上記リンク情報から文書のリンク先もしくはリンク元を
    たどって、リンク先もしくはリンク元文書をカテゴリ登
    録対象に含めるか否かを判定する文書関係評価手段と、 カテゴリ登録対象に含まれる文書の特徴を抽出し、該文
    書特徴と上記予め与えられた分類カテゴリに基づき分類
    カテゴリ情報を獲得し、獲得した分類カテゴリ情報を登
    録するカテゴリ特徴登録手段を備えたことを特徴とする
    請求項1または請求項2の文書分類システム。
  4. 【請求項4】 文書関係評価手段は、分類文書とリンク
    先もしくはリンク元の文書の類似度と、リンク情報にお
    けるリンクラベルの記述内容とに基づきリンク先もしく
    はリンク元文書を分類対象文書もしくはカテゴリ登録対
    象に含めるか否かを判定することを特徴とする請求項
    1、2または請求項3の文書分類システム。
  5. 【請求項5】 リンク元文書を検索するリンク元検索手
    段を備え、リンク元検索手段によりリンク元文書を検索
    することを特徴とする請求項1,2,3または請求項4
    の文書分類システム。
JP9059067A 1997-03-13 1997-03-13 文書分類システム Withdrawn JPH10254899A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9059067A JPH10254899A (ja) 1997-03-13 1997-03-13 文書分類システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9059067A JPH10254899A (ja) 1997-03-13 1997-03-13 文書分類システム

Publications (1)

Publication Number Publication Date
JPH10254899A true JPH10254899A (ja) 1998-09-25

Family

ID=13102645

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9059067A Withdrawn JPH10254899A (ja) 1997-03-13 1997-03-13 文書分類システム

Country Status (1)

Country Link
JP (1) JPH10254899A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000331017A (ja) * 1999-05-19 2000-11-30 Nippon Telegr & Teleph Corp <Ntt> 文書間関連度計算装置、その方法およびその記録媒体
JP2000331016A (ja) * 1999-05-19 2000-11-30 Nippon Telegr & Teleph Corp <Ntt> 関連文書検索方法および装置、その方法を記録した記録媒体
JP2002117073A (ja) * 2000-10-04 2002-04-19 Sharp Corp 新着情報提示方法およびその方法を実行させるプログラムを記録した記録媒体ならびにそのプログラムを実行するコンピュータ
US7370024B2 (en) 2003-03-19 2008-05-06 Fujitsu Limited Case classification apparatus and method
US7406653B2 (en) 2004-08-02 2008-07-29 International Business Machines Corporation Anomaly detection based on directional data
TWI482038B (zh) * 2012-12-12 2015-04-21 Univ Nat Sun Yat Sen 近似複本之偵測方法
US9659309B2 (en) 2002-09-24 2017-05-23 Google Inc. Suggesting and/or providing ad serving constraint information
US11386466B2 (en) 2013-10-22 2022-07-12 Google Llc Content item selection criteria generation

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000331017A (ja) * 1999-05-19 2000-11-30 Nippon Telegr & Teleph Corp <Ntt> 文書間関連度計算装置、その方法およびその記録媒体
JP2000331016A (ja) * 1999-05-19 2000-11-30 Nippon Telegr & Teleph Corp <Ntt> 関連文書検索方法および装置、その方法を記録した記録媒体
JP2002117073A (ja) * 2000-10-04 2002-04-19 Sharp Corp 新着情報提示方法およびその方法を実行させるプログラムを記録した記録媒体ならびにそのプログラムを実行するコンピュータ
US9659309B2 (en) 2002-09-24 2017-05-23 Google Inc. Suggesting and/or providing ad serving constraint information
US10482503B2 (en) 2002-09-24 2019-11-19 Google Llc Suggesting and/or providing ad serving constraint information
US10949881B2 (en) 2002-09-24 2021-03-16 Google Llc Suggesting and/or providing ad serving constraint information
US7370024B2 (en) 2003-03-19 2008-05-06 Fujitsu Limited Case classification apparatus and method
US7406653B2 (en) 2004-08-02 2008-07-29 International Business Machines Corporation Anomaly detection based on directional data
US8640015B2 (en) 2004-08-02 2014-01-28 International Business Machines Corporation Anomaly detection based on directional data
TWI482038B (zh) * 2012-12-12 2015-04-21 Univ Nat Sun Yat Sen 近似複本之偵測方法
US11386466B2 (en) 2013-10-22 2022-07-12 Google Llc Content item selection criteria generation

Similar Documents

Publication Publication Date Title
CN106202124B (zh) 网页分类方法及装置
US8805026B1 (en) Scoring items
US8856129B2 (en) Flexible and scalable structured web data extraction
US7805288B2 (en) Corpus expansion system and method thereof
US9031935B2 (en) Search system, search method, and program
US20020169770A1 (en) Apparatus and method that categorize a collection of documents into a hierarchy of categories that are defined by the collection of documents
US8732165B1 (en) Automatic determination of whether a document includes an image gallery
JP5346756B2 (ja) 画像分類装置
CN108520007B (zh) 万维网网页信息提取方法、存储介质及计算机设备
JP5426868B2 (ja) 数値表現処理装置
Skluzacek et al. Skluma: An extensible metadata extraction pipeline for disorganized data
US9652997B2 (en) Method and apparatus for building emotion basis lexeme information on an emotion lexicon comprising calculation of an emotion strength for each lexeme
WO2021112984A1 (en) Feature and context based search result generation
KR20030094966A (ko) 통제학습 기반의 문서 자동분류시스템 및 그 방법
CN112035723A (zh) 资源库的确定方法和装置、存储介质及电子装置
JPH10254899A (ja) 文書分類システム
CN103425748B (zh) 一种文档资源建议词的挖掘方法和装置
JP4703487B2 (ja) 画像分類方法及び装置及びプログラム
CN114238735B (zh) 一种互联网数据智能采集方法
CN111723296B (zh) 搜索处理方法、装置及计算机设备
US10606875B2 (en) Search support apparatus and method
WO2008005493A2 (en) Relevance ranked faceted metadata search method and search engine
Velloso et al. Web page structured content detection using supervised machine learning
CN111353803B (zh) 广告主分类方法及装置、计算设备
JP2004192368A (ja) 関連分類抽出方法及び装置

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20040601