JP2000029902A - 構造化文書分類装置およびこの構造化文書分類装置をコンピュータで実現するプログラムを記録した記録媒体、並びに、構造化文書検索システムおよびこの構造化文書検索システムをコンピュータで実現するプログラムを記録した記録媒体 - Google Patents

構造化文書分類装置およびこの構造化文書分類装置をコンピュータで実現するプログラムを記録した記録媒体、並びに、構造化文書検索システムおよびこの構造化文書検索システムをコンピュータで実現するプログラムを記録した記録媒体

Info

Publication number
JP2000029902A
JP2000029902A JP10200171A JP20017198A JP2000029902A JP 2000029902 A JP2000029902 A JP 2000029902A JP 10200171 A JP10200171 A JP 10200171A JP 20017198 A JP20017198 A JP 20017198A JP 2000029902 A JP2000029902 A JP 2000029902A
Authority
JP
Japan
Prior art keywords
structured document
feature
function
structured
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10200171A
Other languages
English (en)
Inventor
Katsushi Matsuda
勝志 松田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP10200171A priority Critical patent/JP2000029902A/ja
Priority to US09/352,351 priority patent/US6718333B1/en
Publication of JP2000029902A publication Critical patent/JP2000029902A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/912Applications of a database
    • Y10S707/913Multimedia
    • Y10S707/915Image
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Abstract

(57)【要約】 【課題】 対象のHTML文書が膨大にある検索におい
て、検索精度を高めて、検索者が目的のHTML文書を
探す手間を軽減する。 【解決手段】 あらかじめHTML文書すべてについ
て、タグとキーワードによる特徴、イメージ情報による
特徴、リンク情報による特徴、タグ構造による特徴から
構造的または付帯的な特徴を抽出し、ルールと照合する
ことによって、分類する種別への適合度を計算する。入
力されたキーワードと種別を用いてある適合度以下の文
書を削除して絞り込んだ結果を表示する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は構造化文書の記述内
容の種類を文書構造の特徴から判定して種別毎に分類す
る構造化文書分類装置およびこの構造化文書分類装置で
分類された内容を用いて検索が可能な構造化文書検索シ
ステム、並びに、これらの構造化文書分類装置、構造化
文書検索システムをコンピュータで実現するためのプロ
グラムを記録した記録媒体に関する。
【0002】
【従来の技術】WWW(World Wide Web)に代表される構
造化文書データベースから所望の文書を検索するには、
平成10年7月現在、“goo”と呼ばれるサービス(htt
p://www.goo.ne.jp )に代表されるクルーラー系と呼ば
れるロボットによってWWW上で公開されている文書を
集め、それをデータベース化して全文検索する方法が一
般的である。
【0003】しかし、それらのデータベースには、現在
100万以上もの文書が登録されており、今後WWWも
更に普及していくことから、その数は更に増えることが
予想される。よって、ユーザが少ないキーワードで自分
の所望の文書を検索しようとすると膨大な検索結果が返
ってきてしまい、その膨大な検索結果から所望の文書を
探す手間がかかり、実用に耐えないのが現状である。
【0004】一方、SGML(Standard Generalized M
arkup Language)などの構造化文書の構造上の特徴を利
用して検索する手法として、特開平7−225771号
公報記載の検索式作成支援システムが知られている。こ
の公報記載の手法によって、構造化文書の構造上の特徴
を含んだ検索式が作成できるため、予め求める文書の種
類(特許文書や論文、仕様書等)が明らかな場合、精度
の良い検索が可能となる。
【0005】
【発明が解決しようとする課題】上記特開平7−225
771号公報記載の検索式作成支援システムによって、
SGMLの文書データベースから求める文書をキーワー
ドと文書の種類を指定することによって、所望の文書を
高精度で検索できるが、WWWで用いられている構造化
文書(HTML;Hypertext Markup Language )はSG
MLほど構造が明確になっていないため、特開平7−2
25771号公報の手法を応用することができない。
【0006】また、特開平7−225771号公報に記
載の手法は、例示のための構造化文書を必要としてお
り、このことからもWWWの利用状況に則していない。
【0007】よって、本発明の目的は、上記従来技術の
問題点を解決することにあり、さらに詳しくは、検索精
度を高め、検索者が目的の文書を探す手間を軽減するこ
とができる構造化文書分類装置およびこの構造化文書分
類装置で分類された内容を用いて検索が可能な構造化文
書検索システム、並びに、これらの構造化文書分類装
置、構造化文書検索システムをコンピュータに実現する
ためのプログラムを記録した記録媒体を提供することで
ある。
【0008】
【課題を解決するための手段】本発明は、上記目的を達
成するため、検索対象のHTML文書のデータをあらか
じめ複数の文書の種類に分類しておくことによって、検
索精度を高め、検索者が目的の文書を探す手間を軽減
し、以下の特徴を有する。
【0009】本発明の第1の構造化文書分類装置は、H
TML文書の構造的または付帯的な特徴を抽出し、分類
する種別への適合度を計算する。
【0010】本発明の第2の構造化文書分類装置は、H
TML文書のタグとキーワードのペア情報を特徴として
抽出し、分類する種別への適合度を計算する。
【0011】本発明の第3の構造化文書分類装置は、H
TML文書に含まれるイメージ情報を特徴として抽出
し、分類する種別への適合度を計算する。
【0012】本発明の第4の構造化文書分類装置は、H
TML文書に含まれるリンク情報を特徴として抽出し、
分類する種別への適合度を計算する。
【0013】本発明の第5の構造化文書分類装置は、H
TML文書のタグ構造情報を特徴として抽出し、分類す
る種別への適合度を計算する。
【0014】本発明の第6の構造化文書分類装置は、H
TML文書自身のURL情報を特徴として抽出し、分類
する種別への適合度を計算する。
【0015】本発明の第7の構造化文書分類装置は、H
TML文書に含まれるプラグイン情報を特徴として抽出
し、分類する種別への適合度を計算する。
【0016】本発明の第8の構造化文書分類装置は、H
TML文書のリンク元とリンク先の文書についての構造
的または付帯的な特徴を抽出し、分類する種別への適合
度を計算する。
【0017】本発明の第9の構造化文書分類装置は、分
類する種別間の適合度や大局的な視点から適合度を微調
整する。
【0018】本発明の第1の構造化文書検索システム
は、あらかじめ計算された種別への適合度を用いて適合
度の低い文書を削除することで、検索結果を絞りこむ。
【0019】本発明の第2の構造化文書検索システム
は、あらかじめ計算された種別への適合度を用いて検索
結果の文書をグループ化して表示する。
【0020】
【発明の実施の形態】[第1の実施の形態] (構成の説明)本発明の第1の実施の形態について図面
を参照して詳細に説明する。
【0021】図1を参照すると、本発明の第1の実施の
形態は、HTML文書のデータが蓄積されている文書デ
ータベース200と、プログラム制御により動作する文
書分類装置100と、文書分類装置100から生成され
たHTML文書の種類を保持する種別インデックス21
0とを含む。
【0022】文書分類装置100は、HTML文書のタ
グとキーワードのペアで特徴を抽出するキーワード特徴
抽出部111を内包する構造的特徴抽出器110と、抽
出された構造的特徴に点数付けを行うルールを含む構造
的特徴ルールベース130と、構造的特徴とルールの照
合を行い点数加算を行いHTML文書の種類への適合度
を計算する照合器120とを備える。
【0023】(動作の説明)次に図1を参照して本実施
の形態の動作について詳細に説明する。
【0024】HTML文書のデータが蓄積されている文
書データベース200から文書分類装置100はHTM
L文書を1つずつ取り出し、構造的特徴抽出器110に
入力する。構造的特徴抽出器110は、キーワード特徴
抽出部111を起動し、HTML文書からタグとキーワ
ードのペアを抽出し、照合器120に送る。構造的特徴
ルールベース130には、文書の種類を同定するのに使
われる種類に応じた特徴記述の条件とその点数を表現し
たルールが保持されている。照合器120は、構造的特
徴ルールベース130のルールと構造的特徴抽出器11
0から送られた特徴記述とを照合する。このとき、照合
器は照合したルールに記載されている点数を加算し、文
書に対して各種類への適合度を計算する。照合器は計算
した結果を種別インデックス210に保存する。
【0025】次に、本実施の形態の効果について説明す
る。
【0026】本実施の形態では、構造的特徴抽出器によ
って、HTML文書からタグとキーワードのペアを抽出
して文書の種別を判定するため、従来のキーワード情報
だけによる種別の分類より詳細な分類ができる。
【0027】(実施例)次に、具体的な実施例を用いて
本実施の形態の動作を説明する。
【0028】インターネット上から自動的に収集するロ
ボットから集められたHTML文書が文書データベース
200にあるとする。文書データベース200での保存
の形式は、データベース形式でもファイルシステムでの
ファイル形式でも構わない。
【0029】図2に文書データベース200に保存され
ているHTML文書の一例を示す。このHTML文書の
種別は「商品カタログ」であるとする。
【0030】構造的特徴ルールベース130には、図3
で示すようなルールがあるとする。
【0031】図3のルールは一例であり、その書式や条
件や点数は単なる例である。
【0032】図3のルールの意味について説明する。こ
こで示すルールの書式は、コロン(:)でそれぞれ区切
られている。この例におけるルールの標準形は「Key
word:種別:点数:タグ:キーワードリスト」から
なる形式であり、この形式の第1項目はこのルールがキ
ーワード特徴抽出部に対応していることを示すラベルで
ある。第2項はこのルールがある文書の種別に特有のル
ールであることを示す。第3項は照合に成功した場合の
種別に対して加える点数を示す。第4項はキーワードが
含まれるタグを示す。第5項はタグに含まれるキーワー
ドのリストである。
【0033】例えば、「Keyword:商品カタロ
グ:3:<h1>:仕様|スペック」というルールは、
<h1>タグの中に『仕様』または『スペック』という
キーワードが入っている場合、「商品カタログ」種別に
点数を3点加える、を意味している。このように図3に
は「商品カタログ」、「研究室」、「リンク集」の3種
類の種別についてのルールが記述されている。
【0034】構造的特徴抽出器110は、キーワード特
徴抽出部111を起動し、HTML文書からタグとキー
ワードのペアを抽出し、照合器120に送る。キーワー
ド特徴抽出部111は、HTML文書のタグとキーワー
ドのペア構造を特徴として抽出する。例えば、図2のH
TML文書の下線の部分(「装備」の部分)なら、<H
TML><BODY><CENTER><FONT><
B><A>標準</A></B></FONT></C
ENTER></BODY></HTML>のように抽
出する。このペア構造は一例であり、枝がタグで葉がキ
ーワードとなる木構造で表現する方法もあり、特徴の表
現形式を限定するものではない。また、ここではキーワ
ードのみを抽出しているが、キーワードだけではなく、
文章の言い回し(例えば、『〜とは』、『〜です/ま
す』、『である』など)を抽出する方法もある。
【0035】照合器120は構造的特徴抽出器110か
ら送られてきた特徴を構造的特徴ルールベース130の
ルールと比較し、照合する。図3のルール「Keywo
rd:商品カタログ:1:<body>:搭載|可能|装
備」はキーワード特徴抽出部111が抽出した該特徴に
照合する。すなわち、ルールの第4項のタグをタグとキ
ーワードのペア構造から見つけ、そして標準というキー
ワードを同じペア構造から見つける。このようにルール
との照合に成功すると、該HTML文書の種別(上記例
の場合は商品カタログ)への適合度を計算するために該
ルールに設定された点数を加算する。
【0036】図3の3種類の種別(商品カタログ、研究
室、リンク集)のルール群と図2のHTML文書を照合
すると、上記例で示したルールのみ照合に成功する。こ
の場合、商品カタログ=1点、研究室=0点、リンク集
=0点となる。図2のHTML文書は中略しているため
実際には商品カタログの点数はより高得点となる。
【0037】照合器120は構造的特徴ルールベース1
30の各種別毎のルールがすべて照合に成功した場合
(満点)を100%として計算し、各種別への適合度を
出力する。図3のルールでは、商品カタログ=11点、
研究室=19点、リンク集=13点が満点であるため、
商品カタログ=9%(1/11×100)、研究室=0
%(0/19×100)、リンク集=0%(0/13×
100)という適合度になる。この計算方法は一例であ
り、例えば、各種別の1点に対する重みを平均化させて
計算する方法などがあり、計算方法を限定するものでは
ない。
【0038】照合器120は適合度の計算結果を種別イ
ンデックス210に書き込む。種別インデックス210
には、上記の種別に対する適合度をそれぞれ計算通りに
保存する方法や、最も適合度が良かった種別に対しての
みフラグを立て、それ以外の種別にはフラグを立てない
で保存する方法などがある。
【0039】[第2の実施の形態] (構成の説明)本発明の第2の実施の形態について図面
を参照して詳細に説明する。
【0040】図4を参照すると、本発明の第2の実施の
形態は、第1の実施の形態の構成と比べて、構造的特徴
抽出器110にHTML文書に含まれるイメージの特徴
を抽出するイメージ特徴抽出部112をキーワード特徴
抽出部111の代わりに含む構成である。
【0041】(動作の説明)次に図4を参照して本実施
の形態の動作について詳細に説明する。
【0042】第1の実施の形態と同様にHTML文書を
構造的特徴抽出器110に入力する。構造的特徴抽出器
110は、イメージ特徴抽出部112を起動し、HTM
L文書からイメージファイルを抽出し、照合器120に
送る。構造的特徴ルールベース130には、文書の種類
を同定するのに使われる種類に応じた特徴記述の条件と
その点数を表現したルールが保持されている。
【0043】照合器120は、構造的特徴ルールベース
130のルールと構造的特徴抽出器110から送られた
特徴記述とを照合する。このとき、照合器は照合したル
ールに記載されている点数を加算し、文書に対して各種
類への適合度を計算する。照合器は計算した結果を種別
インデックス210に保存する。
【0044】次に、本実施の形態の効果について説明す
る。
【0045】本実施の形態では、構造的特徴抽出器によ
って、HTML文書からイメージファイルを抽出して文
書の種別を判定するため、従来のキーワード情報だけに
よる種別の分類より詳細な分類ができる。
【0046】(実施例)次に、具体的な実施例を用いて
本実施の形態の動作を説明する。
【0047】構造的特徴抽出器110以外は第1の実施
の形態の実施例と同じため、該構造的特徴抽出器と構造
的特徴ルールベース130を中心に説明する。
【0048】図5に図2のHTML文書の中略していた
部分を示す。このHTML文書の種別も「商品カタロ
グ」である。
【0049】構造的特徴ルールベース130には、図6
で示すようなルールがあるとする。この図6に示すルー
ルの標準形は「image:種別:点数:条件式」から
なる形式であり、この第1項はこのルールがイメージ特
徴抽出部に対応していることを示すラベルである。第2
項はこのルールの種別を、第3項は点数を示す。第4項
はイメージファイルに対する条件式である。
【0050】たとえば、「image:商品カタログ:
5:over(30000)>=2」というルールは、
30000バイト(=30Kバイト)以上のイメージが
2個以上含まれている場合、「商品カタログ」種別に点
数5点を加える、を意味している。このように図6には
「商品カタログ」、「研究室」、「リンク集」の3種類
の種別についてのルールが記述されている。
【0051】構造的特徴抽出器110は、イメージ特徴
抽出部112を起動し、HTML文書からイメージファ
イルを抽出し、該イメージファイルの特徴を照合器12
0に送る。
【0052】例えば、図5のHTML文書の場合、下線
の部分(5箇所)のイメージファイル(banner.
gif、win2.gif、r_tit.gif、r5
00.gif、r300.gif)からそのバイトサイ
ズ、イメージのサイズ、フォーマット形式等を取り出
す。必要なら、イメージファイルをOCR(光学式文字
読み取り装置)にかけて、抽出した文字列をも照合器に
送る。図6の「image:研究室:4:ocr=研究
室」というルールが該文字列の条件式を使ったものであ
り、OCRにかけた結果、『研究室』という文字列が抽
出された場合、4点を加えるというルールである。
【0053】照合器120は構造的特徴抽出器110か
ら送られてきた特徴を構造的特徴ルールベース130の
ルールと比較し、照合する。図5のHTML文書の場
合、5個のイメージファイルのバイトサイズはそれぞ
れ、7722バイト、4490バイト、1947バイ
ト、47804バイト、56573バイトである。図6
のルール「image:商品カタログ:5:over
(30000)>=2」が照合に成功する。第1の実施
の形態の実施例と同様に計算すると、商品カタログ=5
点、研究室=2点、リンク集=0点となり、適合度は、
商品カタログ=83%(5/6×100)、研究室=2
2%(2/9×100)、リンク集=0%(0/6×1
00)となる。
【0054】[第3の実施の形態] (構成の説明)本発明の第3の実施の形態について図面
を参照して詳細に説明する。
【0055】図7を参照すると、本発明の第3の実施の
形態は、第1の実施の形態の構成と比べて、構造的特徴
抽出器110にHTML文書に含まれるリンクの特徴を
抽出するリンク特徴抽出部113をキーワード特徴抽出
部111の代わりに含む構成である。
【0056】(動作の説明)次に図7を参照して本実施
の形態の動作について詳細に説明する。
【0057】第1の実施の形態と同様にHTML文書を
構造的特徴抽出器110に入力する。構造的特徴抽出器
110は、リンク特徴抽出部113を起動し、HTML
文書からリンク情報を抽出し、照合器120に送る。構
造的特徴ルールベース130には、文書の種類を同定す
るのに使われる種類に応じた特徴記述の条件とその点数
を表現したルールが保持されている。
【0058】照合器120は、構造的特徴ルールベース
130のルールと構造的特徴抽出器110から送られた
特徴記述とを照合する。このとき、照合器は照合したル
ールに記載されている点数を加算し、文書に対して各種
類への適合度を計算する。照合器は計算した結果を種別
インデックス210に保存する。
【0059】次に、本実施の形態の効果について説明す
る。
【0060】本実施の形態では、構造的特徴抽出器によ
って、HTML文書からリンク情報を抽出して文書の種
別を判定するため、従来のキーワード情報だけによる種
別の分類より詳細な分類ができる。
【0061】(実施例)次に、具体的な実施例を用いて
本実施の形態の動作を説明する。
【0062】構造的特徴抽出器110以外は第1の実施
の形態の実施例と同じため、該構造的特徴 抽出器と構
造的特徴ルールベース130を中心に説明する。
【0063】図8にHTML文書の例の部分を示す。こ
のHTML文書の種別は「リンク集」である。
【0064】構造的特徴ルールベース130には、図9
で示すようなルールがあるとする。ルールの標準形は、
「link:種別:点数:条件式」からなる形式であ
り、この第1項はこのルールがリンク特徴抽出部に対応
していることを示すラベルである。第2項はこのルール
の種別を、第3項は点数を示す。第4項はリンクに対す
る条件式である。
【0065】たとえば、「link:リンク集:4:2
0>external>=10」というルールは、外部
サイトへのリンクが10以上20未満の場合、「リンク
集」種別に点数4点を加える、を意味している。ext
ernalは外部サイトへのリンクの個数、inter
nalは内部サイトへのリンクの個数を表す変数であ
る。このように図9には「商品カタログ」、「研究
室」、「リンク集」の3種類の種別についてのルールが
記述されている。
【0066】構造的特徴抽出器110は、リンク特徴抽
出部113を起動し、HTML文書からリンク情報を抽
出し、該リンクの特徴を照合器120に送る。例えば、
図8のHTML文書の場合、下線の部分(13箇所)が
それぞれ外部リンクとして抽出される。照合器120は
構造的特徴抽出器110から送られてきた特徴を構造的
特徴ルールベース130のルールと比較し、照合する。
【0067】図8のHTML文書の場合、21個の外部
リンク、0個の内部リンク(実際には中略した部分に外
部リンク、内部リンクがそれぞれ多数含まれている)が
ある。図9のルール「link:リンク集:8:ext
ernal>=20」が照合に成功する。第1の実施の
形態の実施例と同様に計算すると、商品カタログ=0
点、研究室=0点、リンク集=8点となり、適合度は、
商品カタログ=0%(0/5×100)、研究室=0%
(0/7×100)、リンク集=57%(8/14×1
00)となる。
【0068】[第4の実施の形態] (構成の説明)本発明の第4の実施の形態について図面
を参照して詳細に説明する。
【0069】図10を参照すると、本発明の第4の実施
の形態は、第1の実施の形態の構成と比べて、構造的特
徴抽出器110にHTML文書のタグ構造の特徴を抽出
するタグ構造特徴抽出部114をキーワード特徴抽出部
111の代わりに含む構成である。
【0070】(動作の説明)次に図10を参照して本実
施の形態の動作について詳細に説明する。
【0071】第1の実施の形態と同様にHTML文書を
構造的特徴抽出器110に入力する。構造的特徴抽出器
110は、タグ構造特徴抽出部114を起動し、HTM
L文書からタグ構造情報を抽出し、照合器120に送
る。構造的特徴ルールベース130には、文書の種類を
同定するのに使われる種類に応じた特徴記述の条件とそ
の点数を表現したルールが保持されている。照合器12
0は、構造的特徴ルールベース130のルールと構造的
特徴抽出器110から送られた特徴記述とを照合する。
このとき、照合器は照合したルールに記載されている点
数を加算し、文書に対して各種類への適合度を計算す
る。照合器は計算した結果を種別インデックス210に
保存する。
【0072】次に、本実施の形態の効果について説明す
る。
【0073】本実施の形態では、構造的特徴抽出器によ
って、HTML文書からタグ構造情報を抽出して文書の
種別を判定するため、従来のキーワード情報だけによる
種別の分類より詳細な分類ができる。
【0074】(実施例)次に、具体的な実施例を用いて
本実施の形態の動作を説明する。
【0075】構造的特徴抽出器110以外は第1の実施
の形態の実施例と同じため、該構造的特徴抽出器と構造
的特徴ルールベース130を中心に説明する。
【0076】図11にHTML文書の例の部分を示す。
このHTML文書の種別は「商品カタログ」である。
【0077】構造的特徴ルールベース130には、図1
2で示すようなルールがあるとする。ルールの標準形
は、「structure:種別:点数:タグ:[条件
式]」からなる形式であり、第1項はこのルールがタグ
構造特徴抽出部に対応していることを示すラベルであ
る。第2項はこのルールの種別を、第3項は点数を示
す。第4項は抽出するタグの部分構造であり、第5項は
第4項のタグ構造中の変数(%1、%2、...)また
はタグ構造の個数(%n)に対する条件式である。第5
項はオプションであり、変数に対する条件が必要ない場
合は記述する必要はない。
【0078】たとえば、「structure:商品カ
タログ:3:<table boarder=%1>:
%1>=1」というルールは、<table>タグがあ
り、且つboarder属性があり、且つ該board
er属性の値が1以上の場合、「商品カタログ」種別に
点数3点を加える、を意味している。また、「stru
cture:商品カタログ:2:<select>:」
というルールは、<select>タグがある場合、
「商品カタログ」種別に点数1点を加える、を意味して
おり、「structure:商品カタログ:3:<s
up>:%n>=3」というルールは、<sup>タグ
が3個以上ある場合、「商品カタログ」種別に点数3点
を加える、を意味している。このように図9には「商品
カタログ」、「研究室」、「リンク集」の3種類の種別
についてのルールが記述されている。
【0079】構造的特徴抽出器110は、タグ構造特徴
抽出部114を起動し、HTML文書からタグ構造情報
を抽出し、該タグ構造の特徴を照合器120に送る。例
えば、図11のHTML文書の場合、下線の部分が<t
able>タグ構造情報と<sup>タグ構造情報とし
て抽出される。照合器120は構造的特徴抽出器110
から送られてきた特徴を構造的特徴ルールベース130
のルールと比較し、照合する。図11のHTML文書の
場合、boarderの値が1の<table>タグと
4個の<sup>タグがある。
【0080】図12のルールの内、上の2個のルールが
照合に成功する。この例では、<table>タグの照
合に部分照合を用いているため、タグ構造特徴抽出部1
14が抽出する<table boarder=1 w
idth=100%>とルールの条件<table b
oarder=%1>が照合に成功したが、すべての属
性が完全に一致しなければならない完全照合を使う方法
もある。この場合、ルールは例えば、「structu
re:商品カタログ:3:<table boarde
r=%1 width=%2>:%1>=1&%2>=
50」の様にwidth属性が記述されていなければな
らない。第1の実施の形態の実施例と同様に計算する
と、商品カタログ=6点、研究室=0点、リンク集=2
点となり、適合度は、商品カタログ=67%(6/9×
100)、研究室=0%(0/1×100)、リンク集
=22%(2/9×100)となる。
【0081】[第5の実施の形態] (構成の説明)本発明の第5の実施の形態について図面
を参照して詳細に説明する。
【0082】図13を参照すると、本発明の第5の実施
の形態は、第1の実施の形態の構成と比べて、構造的特
徴抽出器110にHTML文書自身のURL情報の特徴
を抽出するURL特徴抽出部115をキーワード特徴抽
出部111の代わりに含む構成である。
【0083】(動作の説明)次に図13を参照して本実
施の形態の動作について詳細に説明する。
【0084】第1の実施の形態と同様にHTML文書を
構造的特徴抽出器110に入力する。構造的特徴抽出器
110は、URL特徴抽出部115を起動し、HTML
文書自身のURL情報を抽出し、照合器120に送る。
構造的特徴ルールベース130には、文書の種類を同定
するのに使われる種類に応じた特徴記述の条件とその点
数を表現したルールが保持されている。照合器120
は、構造的特徴ルールベース130のルールと構造的特
徴抽出器110から送られた特徴記述とを照合する。こ
のとき、照合器は照合したルールに記載されている点数
を加算し、文書に対して各種類への適合度を計算する。
照合器は計算した結果を種別インデックス210に保存
する。
【0085】次に、本実施の形態の効果について説明す
る。
【0086】本実施の形態Dでは、構造的特徴抽出器に
よって、HTML文書自身のURL情報を抽出して文書
の種別を判定するため、従来のキーワード情報だけによ
る種別の分類より詳細な分類ができる。
【0087】(実施例)次に、具体的な実施例を用いて
本実施の形態の動作を説明する。
【0088】構造的特徴抽出器110以外は第1の実施
の形態の実施例と同じため、該構造的特徴抽出器と構造
的特徴ルールベース130を中心に説明する。
【0089】構造的特徴ルールベース130には、図1
4で示すようなルールがあるとする。ルールの標準形
は、「url:種別:点数:[条件式]」からなる形式
であり、この第1項はこのルールがURL特徴抽出部に
対応していることを示すラベルである。第2項はこのル
ールの種別を、第3項は点数を示す。第4項は抽出する
URL文字列に対する条件式である。
【0090】たとえば、「url:商品カタログ:2:
organization=co」というルールは、H
TML文書のURLの組織の種類が企業(co)である
場合、「商品カタログ」種別に点数2点を加える、を意
味している。条件式で用いられる変数には、organ
ization(組織の種類)の他に、nation
(国名)、name(組織名)、path(パス名)、
file(ファイル名)等がある。
【0091】例えば、URLが「http://ww
w.△△△.co.jp/Products/PC××
NX/index.html」ならば、nameには、
『△△△』が、organizationには、『c
o』が、nationには『jp』が、pathには
『Products/PC××NX』が、fileには
『index.html』がそれぞれバインドされる。
このように図14には「商品カタログ」、「研究室」、
「リンク集」の3種類の種別についてのルールが記述さ
れている。
【0092】構造的特徴抽出器110は、URL特徴抽
出部115を起動し、HTML文書自身のURL情報を
抽出し、該URLの特徴を照合器120に送る。例え
ば、HTML文書のURLが上記例で示したものであっ
た場合、上述のバインドがURL情報として抽出され
る。照合器120は構造的特徴抽出器110から送られ
てきた特徴を構造的特徴ルールベース130のルールと
比較し、照合する。上述の例の場合、図12のルールの
内、上の3個のルールが照合に成功する。第1の実施の
形態の実施例と同様に計算すると、商品カタログ=8
点、研究室=0点、リンク集=0点となり、適合度は、
商品カタログ=100%(8/8×100)、研究室=
0%(0/2×100)、リンク集=0%(0/10×
100)となる。
【0093】[第6の実施の形態] (構成の説明)本発明の第6の実施の形態について図面
を参照して詳細に説明する。
【0094】図15を参照すると、本発明の第6の実施
の形態は、第1の実施の形態の構成と比べて、構造的特
徴抽出器110にHTML文書に含まれるプラグイン情
報の特徴を抽出するプラグイン特徴抽出部116をキー
ワード特徴抽出部111の代わりに含む構成である。
【0095】(動作の説明)次に図15を参照して本実
施の形態の動作について詳細に説明する。
【0096】第1の実施の形態と同様にHTML文書を
構造的特徴抽出器110に入力する。構造的特徴抽出器
110は、プラグイン特徴抽出部116を起動し、HT
ML文書に含まれるプラグイン情報を抽出し、照合器1
20に送る。構造的特徴ルールベース130には、文書
の種類を同定するのに使われる種類に応じた特徴記述の
条件とその点数を表現したルールが保持されている。照
合器120は、構造的特徴ルールベース130のルール
と構造的特徴抽出器110から送られた特徴記述とを照
合する。このとき、照合器は照合したルールに記載され
ている点数を加算し、文書に対して各種類への適合度を
計算する。照合器は計算した結果を種別インデックス2
10に保存する。
【0097】次に、本実施の形態の効果について説明す
る。
【0098】本実施の形態では、構造的特徴抽出器によ
って、HTML文書に含まれるプラグイン情報を抽出し
て文書の種別を判定するため、従来のキーワード情報だ
けによる種別の分類より詳細な分類ができる。
【0099】(実施例)次に、具体的な実施例を用いて
本実施の形態の動作を説明する。
【0100】構造的特徴抽出器110以外は第1の実施
の形態の実施例と同じため、該構造的特徴抽出器と構造
的特徴ルールベース130を中心に説明する。
【0101】図16にHTML文書の例を示す。このH
TML文書の種別は「ゲーム」である。
【0102】構造的特徴ルールベース130には、図1
7で示すようなルールがあるとする。ルールの標準形
は、「plugin:種別:点数:[条件式]」からな
る形式であり、第1項はこのルールがプラグイン特徴抽
出部に対応していることを示すラベルである。第2項は
このルールの種別を、第3項は点数を示す。第4項は抽
出するプラグインの種類を判別する条件式である。
【0103】たとえば、「plugin:ゲーム:3:
type=swf」というルールは、プラグインのソー
スの種類がショックウェーブフラッシュ(Shockwave Fla
sh:米国マクロメディア社の商標)(swf)である場
合、「ゲーム」種別に点数3点を加える、を意味してい
る。このように図17には「ゲーム」、「商品カタロ
グ」、「個人ページ」の3種類の種別についてのルール
が記述されている。
【0104】構造的特徴抽出器110は、プラグイン特
徴抽出部116を起動し、HTML文書からプラグイン
情報を抽出し、該プラグインの特徴を照合器120に送
る。例えば、図16のHTML文書の場合、下線の部分
がプラグイン情報として抽出される。照合器120は構
造的特徴抽出器110から送られてきた特徴を構造的特
徴ルールベース130のルールと比較し、照合する。図
16のHTML文書の場合、図17のルールの内、1行
目と7行目のルールが照合に成功する。第1の実施の形
態の実施例と同様に計算すると、ゲーム=3点、商品カ
タログ=0点、個人ページ=3点となり、適合度は、ゲ
ーム=60%(3/5×100)、商品カタログ=0%
(0/10×100)、個人ページ=38%(3/8×
100)となる。
【0105】[第7の実施の形態] (構成の説明)本発明の第7の実施の形態について図面
を参照して詳細に説明する。
【0106】図18を参照すると、本発明の第7の実施
の形態は、第1の実施の形態の構成と比べて、構造的特
徴抽出器110にイメージ特徴抽出部112とリンク特
徴抽出部113とタグ構造特徴抽出部114を加えた第
1の実施の形態である。
【0107】(動作の説明)次に図18を参照して本実
施の形態の動作について詳細に説明する。
【0108】第1の実施の形態と同様にHTML文書を
構造的特徴抽出器110に入力する。構造的特徴抽出器
110は、キーワード特徴抽出部111とイメージ特徴
抽出部112とリンク特徴抽出部113とタグ構造特徴
抽出部114を起動し、HTML文書に含まれる各種情
報を抽出し、照合器120に送る。構造的特徴ルールベ
ース130には、文書の種類を同定するのに使われる種
類に応じた特徴記述の条件とその点数を表現したルール
が保持されている。照合器120は、構造的特徴ルール
ベース130のルールと構造的特徴抽出器110から送
られた特徴記述とを照合する。このとき、照合器は照合
したルールに記載されている点数を加算し、文書に対し
て各種類への適合度を計算する。照合器は計算した結果
を種別インデックス210に保存する。
【0109】次に、本実施の形態の効果について説明す
る。
【0110】本実施の形態では、構造的特徴抽出器によ
って、HTML文書に含まれる各種情報を抽出して文書
の種別を判定するため、従来のキーワード情報だけによ
る種別の分類より詳細な分類ができる。
【0111】(実施例)次に、具体的な実施例を用いて
本実施の形態の動作を説明する。
【0112】構造的特徴抽出器110にイメージ特徴抽
出部112とリンク特徴抽出部113とタグ構造特徴抽
出部114を加えている以外は第1の実施の形態の実施
例と同じため、該構造的特徴抽出器と構造的特徴ルール
ベース130を中心に説明する。
【0113】構造的特徴ルールベース130には、図1
9で示すようなルールになる。ルールは第1の実施の形
態の実施例と第2の実施の形態の実施例と第3の実施の
形態の実施例と第4の実施の形態の実施例で示した形式
と同じである。
【0114】構造的特徴抽出器110は、キーワード特
徴抽出部111とイメージ特徴抽出部112とリンク特
徴抽出部113とタグ構造特徴抽出部114を起動し、
HTML文書から各特徴抽出部の担当する特徴を抽出
し、照合器120に送る。照合器120は構造的特徴抽
出器110から送られてきた特徴を構造的特徴ルールベ
ース130のルールと比較し、照合する。
【0115】本実施の形態では構造的特徴抽出器110
をキーワード特徴抽出部111とイメージ特徴抽出部1
12とリンク特徴抽出器113とタグ構造特徴抽出部1
14の組み合わせとしたが、第1の実施の形態から第6
の実施の形態の特徴抽出部111から116のいずれか
またはすべてを組み合わせて構造的特徴抽出器110を
構成することが可能である。
【0116】[第8の実施の形態] (構成の説明)本発明の第8の実施の形態について図面
を参照して詳細に説明する。
【0117】図20を参照すると、本発明の第8の実施
の形態は、第1の実施の形態の構造的特徴抽出器110
に、対象のHTML文書をリンク先とするHTML文書
と対象のHTML文書からリンクが張られているHTM
L文書の特徴を抽出する上下位特徴抽出部117をキー
ワード特徴抽出部111の代わりに含み、該上下位特徴
抽出部117から起動される別の構造的特徴抽出器14
0を含んで構成されている。
【0118】(動作の説明)次に図20を参照して本実
施の形態の動作について詳細に説明する。
【0119】第1の実施の形態と同様にHTML文書を
構造的特徴抽出器110に入力する。構造的特徴抽出器
110は、上下位特徴抽出部117を起動し、対象のH
TML文書の上位文書(対象HTML文書をリンク先と
しているHTML文書)と下位文書(対象HTML文書
からリンクが張られているHTML文書)の情報を抽出
し、照合器120に送る。上下位特徴抽出部117は上
位文書と下位文書の構造的特徴抽出部の特徴を抽出する
ために、第1の実施の形態または第2の実施の形態また
は第3の実施の形態または第4の実施の形態または第5
の実施の形態または第6の実施の形態または第7の実施
の形態の構造的特徴抽出器110と同等の構造的特徴抽
出器140を起動する。構造的特徴ルールベース130
には、文書の種類を同定するのに使われる種類に応じた
特徴記述の条件とその点数を表現したルールが保持され
ている。照合器120は、構造的特徴ルールベース13
0のルールと構造的特徴抽出器110から送られた特徴
記述とを照合する。このとき、照合器は照合したルール
に記載されている点数を加算し、文書に対して各種類へ
の適合度を計算する。照合器は計算した結果を種別イン
デックス210に保存する。
【0120】次に、本実施の形態の効果について説明す
る。
【0121】本実施の形態では、構造的特徴抽出器によ
って、HTML文書の上位文書と下位文書の情報を抽出
して文書の種別を判定するため、従来のキーワード情報
だけによる種別の分類より詳細な分類ができる。
【0122】(実施例)次に、具体的な実施例を用いて
本実施の形態の動作を説明する。
【0123】構造的特徴抽出器110以外は第1の実施
の形態の実施例と同じため、該構造的特徴 抽出器と構
造的特徴ルールベース130を中心に説明する。
【0124】構造的特徴ルールベース130には、図2
1で示すようなルールがあるとする。ルールの標準形
は、「relation:種別:点数:上下:ルール」
からなる形式であり、第1項はこのルールが上下位特徴
抽出部に対応していることを示すラベルである。第2項
はこのルールの種別を、第3項は点数を示す。第4項は
対象のHTML文書の上位文書か下位文書のどちらから
特徴を抽出するかを指定する項目である。第5項は上下
位特徴抽出部が起動する構造的特徴抽出器140中の特
徴抽出部に依存したルールのうち、種別と点数を除いた
ルール本体である。
【0125】たとえば、「relation:商品カタ
ログ:5:up:keyword:<a>:仕様|スペ
ック」というルールは、HTML文書の上位文書の<a
>タグに『仕様』または『スペック』というキーワード
がある場合、「商品カタログ」種別に点数5点を加え
る、を意味している。また、図21の例では、商品カタ
ログ」、「研究室」、「リンク集」の3種類の種別につ
いてのルールが記述されている。
【0126】構造的特徴抽出器110は、上下位特徴抽
出部117を起動し、更に上下位特徴抽出部117は構
造的特徴抽出器140を起動し、構造的特徴抽出器14
0を構成する各特徴抽出部から得られる特徴をまとめ、
照合器120に送る。本実施例では、構造的特徴抽出器
140には、キーワード特徴抽出器111とイメージ特
徴抽出部112とリンク特徴抽出部113とタグ構造特
徴抽出部114が含まれているとして図21のルールが
作られている。
【0127】照合器120は構造的特徴抽出器110か
ら送られてきた特徴を構造的特徴ルールベース130の
ルールと比較し、照合する。本実施の形態では構造的特
徴抽出器140をキーワード特徴抽出部111とイメー
ジ特徴抽出部112とリンク特徴抽出器113とタグ構
造特徴抽出部114の組み合わせとしたが、第1の実施
の形態から第6の実施の形態の特徴抽出部111から1
16のいずれかまたはすべてを組み合わせて構造的特徴
抽出器140を構成することが可能である。
【0128】[第9の実施の形態] (構成の説明)本発明の第9の実施の形態について図面
を参照して詳細に説明する。
【0129】図22を参照すると、本発明の第9の実施
の形態は、第7の実施の形態に、調整ルール151を用
いて照合器120によって計算される適合度を微調整す
る点数調整器150を加えた構成となっている。
【0130】(動作の説明)次に図22を参照して本実
施の形態の動作について詳細に説明する。
【0131】第7の実施の形態と同様に照合器120に
よって各種別に対する適合度が計算される。ここで点数
調整器150は各種別に対する適合度を種別間の関連や
大局的視点から微調整するルールを記述した調整ルール
151を用いて微調整する。照合器120は、点数調整
器150によって微調整された各種別に対する適合度を
種別インデックス210に保存する。
【0132】次に、本実施の形態の効果について説明す
る。
【0133】本実施の形態では、構造的特徴抽出器と構
造的特徴ルールベースによって、HTML文書の種別を
判定した結果に、調整ルールの種別間の関連や大局的視
点による微調整の方法によって適合度微調整することに
よって更に精密に判定するため、従来のキーワード情報
だけによる種別の分類より詳細な分類ができる。
【0134】(実施例)次に、具体的な実施例を用いて
本実施の形態の動作を説明する。
【0135】点数調整器150と調整ルール151以外
は第7の実施の形態の実施例と同じなため、照合器12
0と点数調整器150と調整ルール151を中心に説明
する。
【0136】調整ルール151には、図23に示すよう
なルールがある。図23の調整ルールはif−then
形式で、if部が条件を、then部が実行を表してお
り、例えば、図23の1番めのルールは、「もし、商品
カタログと個人ページの適合度の差が0%より大きく且
つ10%以下で且つ個人ページの適合度が50%以上で
且つ商品カタログの適合度が90%以下である場合に
は、商品カタログの適合度を10%上げ且つ個人ページ
の適合度を10%下げる。」を意味している。また、図
中のmax、min、aveはそれぞれ変数であり、m
axは最も適合度が高い種別を、minは最も適合度が
低い種別を、aveはすべての種別の平均を表してい
る。すなわち、図23の4番めのルールは、「最も適合
度が高い種別の適合度が30%以下で且つ適合度の平均
が20%以下の場合、その最も適合度が高い種別の適合
度を20%上げる。」、を意味している。
【0137】照合器120は点数調整器150によって
調整された点数を種別インデックス210に保存する。
【0138】[第10の実施の形態] (構成の説明)本発明の第10の実施の形態について図
面を参照して詳細に説明する。
【0139】図24を参照すると、本発明の第10の実
施の形態は、第1の実施の形態から第9の実施の形態で
述べた文書分類装置100と、文書データベース200
と、種別インデックス210と、検索装置300と入出
力装置400とを含む。
【0140】文書分類装置100は第1の実施の形態か
ら第9の実施の形態のいずれの形態でも構わない。検索
装置300は、文書データベース200からキーワード
によって全文検索を行う全文検索エンジン310と、H
TML文書のID番号から該文書の種別の適合度を検索
する種別検索器320と、入出力装置400から渡され
たキーワードと種別によって全文検索エンジン310と
種別検索器320を起動し、検索結果を絞りこむ絞り込
み器330とを備える。
【0141】(動作の説明)次に図24を参照して本実
施の形態の動作について詳細に説明する。
【0142】文書分類装置100によって文書データベ
ース200中のHTML文書すべてが種別に対する適合
度を計算され文書データベース200のHTML文書と
同じIDで種別インデックス210に保存されている。
入出力装置400から、キーワードと種別が絞り込み器
330に渡される。絞り込み器330はキーワードを全
文検索エンジン310に渡す。全文検索エンジン310
は文書データベース200を全文検索し、キーワードに
マッチしたHTML文書のIDを絞り込み器330に通
知する。絞り込み器330はHTML文書のIDと種別
を種別検索器320に渡す。種別検索器320はHTM
L文書のIDと種別を使い、該文書の該種別に対する適
合度を検索し、絞り込み器330に返す。絞り込み器3
30は入出力装置400に検索結果を返す。
【0143】次に、本実施の形態の効果について説明す
る。
【0144】本実施の形態では、文書分類装置によって
種別に詳細に分類したインデックスを使うことによって
全文検索エンジンでは膨大になる検索結果を絞り込み利
用者に提示することができるため、利用者は短時間で求
めるHTML文書を見つけることができる。
【0145】(実施例)次に、具体的な実施例を用いて
本実施の形態の動作を説明する。
【0146】例えば、文書データベース200に100
万件のHTML文書があるとする。該HTML文書には
1から100万までのIDが振られており、文書分類装
置100によってあらかじめ種別インデックス210に
7種類の種別に対する適合度が計算されているものとす
る。
【0147】図25は種別インデックス210の例の一
部である。入出力装置400から利用者が例えば『モバ
イル××』というキーワードと「商品カタログ」という
種別を入力したとする。絞り込み器330は『モバイル
××』というキーワードを全文検索エンジン310に渡
す。全文検索エンジン310は文書データベース200
を全文検索し、例えば1万件の検索結果が出たとする。
ここでは、HTML文書からの検索に全文検索エンジン
を使った例を示しているが、全文検索エンジンだけでは
なく、サンプルフレーズや例文や類似文書などやそれら
の組み合わせによって検索する方法もあり、全文検索に
限定する訳ではない。絞り込み器330は1万件分のH
TML文書のIDと「商品カタログ」という種別を種別
検索器320に渡す。
【0148】種別検索器320は種別インデックス21
0をIDで引き、そのレコードの商品カタログフィール
ドから商品カタログ種別に対する適合度を引き出す。例
えば、図25に示すHTML文書のIDが2の場合、
「商品カタログ」に対する適合度は88%であることが
わかる。
【0149】絞り込み器330はある閾値以上の適合度
を持つIDのHTML文書を入出力装置400に返す。
例えば、ここで閾値を80%以上とすると、図25から
商品カタログの適合度が80%以上のHTML文書はI
Dが2と6と11の3文書のみである。全文検索エンジ
ン310が『モバイル××』という全文検索でIDが1
から17までを検索したとすると、そのまま全文検索エ
ンジンだけの検索システムなら17件が検索結果として
表示されるが、本実施例では、3件に絞りこまれて表示
される。図25の種別インデックス210の例が正規化
されているとすると、17件が3件に絞りこまれるた
め、1万件の全文検索結果は約1765件に絞りこまれ
る。ここでは閾値を80%とした例を示したが、この値
は運用において自由に設定できる。また、閾値を決めて
その値以下のHTML文書を切り捨てたが、例えば、適
合度の高いものから順に17件を表示させるなどの方法
もある。
【0150】[第11の実施の形態] (構成の説明)本発明の第11の実施の形態について図
面を参照して詳細に説明する。
【0151】図26を参照すると、本発明の第11の実
施の形態は、第10の実施の形態に、検索結果を種別に
分ける分別器340を絞り込み器330の代わりとした
構成である。
【0152】(動作の説明)次に図26を参照して本実
施の形態の動作について詳細に説明する。
【0153】入出力装置400から、キーワードが分別
器340に渡される。分別器340はキーワードを全文
検索エンジン310に渡す。全文検索エンジン310は
文書データベース200を全文検索し、キーワードにマ
ッチしたHTML文書のIDを分別器340に通知す
る。分別器340はHTML文書のIDを種別検索器3
20に渡す。種別検索器320はHTML文書のIDを
使い、該文書の各種別に対する適合度を検索し、分別器
340に返す。分別器340はHTML文書をその適合
度の最も高い種別にグループ化し、入出力装置400に
検索結果を返す。
【0154】次に、本実施の形態の効果について説明す
る。
【0155】本実施の形態では、文書分類装置によって
種別に詳細に分類したインデックスを使うことによって
全文検索エンジンでは膨大になる検索結果を絞り込み利
用者に提示することができるため、利用者は短時間で求
めるHTML文書を見つけることができる。
【0156】(実施例)次に、具体的な実施例を用いて
本実施の形態の動作を説明する。
【0157】文書データベース200、種別インデック
ス210の内容は、第10の実施の形態の実施例と同様
だとする。
【0158】入出力装置400から利用者が例えば『モ
バイル××』というキーワードを入力したとする。分別
器340は『モバイル××』というキーワードを全文検
索エンジン310に渡す。全文検索エンジン310は文
書データベース200を全文検索し、例えば1万件の検
索結果が出たとする。
【0159】分別器340は1万件分のHTML文書の
IDを種別検索器320に渡し、各HTML文書のレコ
ードにおける最も高い値を持つ種別にグループ分けす
る。例えば、図25の例だと、ID1の文書は「商品カ
タログ」に、ID3の文書は「研究室」になる。
【0160】グループ分けされた検索結果は入出力装置
400に返され、利用者に表示される。
【0161】ここで、すべてのHTML文書は7種類の
種別の内のいずれかにグループ化されたが、例えば、最
も高い適合度が50%に満たないHTML文書は「その
他」というグループにグループ化して表示させるという
方法もある。
【0162】また、図27に示すように入出力装置40
0の代わりにWWWサーバエンジン500を設け、ネッ
トワーク経由のWWWブラウザ600から入出力を行う
という方法もある。このWWWサーバエンジン500と
WWWブラウザ600を使った構成は第10の実施の形
態においても可能である。
【0163】以上、本発明の実施の形態を説明したが、
本発明の各々の発明はコンピュータプログラムによって
実現可能である。例えば第1〜第9の実施の形態で説明
した発明の場合は、文書分類装置100をコンピュータ
で機能させるためのプログラムを記録したコンピュータ
読み取り可能な記録媒体によって提供される形態でもよ
く、第10〜第11の実施の形態で説明した発明の場合
は、さらに検索装置300をコンピュータで機能させる
ためのプログラムを記録したコンピュータ読み取り可能
な記録媒体によって提供される形態でもよい。
【0164】
【発明の効果】本発明の第1の効果は、HTML文書の
分類において、高精度の分類が可能となることである。
その理由は、HTML文書のタグとキーワードのペアで
特徴を抽出したり、HTML文書に含まれるイメージ情
報を特徴として抽出したり、HTML文書のリンク情報
を特徴として抽出したり、HTML文書のタグ構造情報
を特徴として抽出したり、HTML文書自身のURL情
報を特徴として抽出したり、HTML文書に含まれるプ
ラグイン情報を特徴として抽出したり、またそれらの組
み合わせや対象のHTML文書の上位文書または下位文
書の特徴によって分類するためである。
【0165】第2の効果は、HTML文書の分類におい
て、矛盾のない分類が可能となることである。その理由
は、分類結果に分類するグループの関係や大局からの視
点による微調整を加えるためである。
【0166】第3の効果は、HTML文書の検索におい
て、目的とするHTML文書が効率的に見つけることが
可能となることである。その理由は、あらかじめ高精度
にHTML文書の種類への適合度を計算しておき、指定
されたHTML文書の種類への適合度で検索結果を絞り
こむためである。また、あらかじめ高精度にHTML文
書の種類への適合度を計算することでその種類に分類し
ておき、検索結果をグループ化して表示するためであ
る。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態の構成を示すブロッ
ク図
【図2】本発明の第1の実施の形態のHTML文書の例
を示す図
【図3】本発明の第1の実施の形態のルールの例を示す
【図4】本発明の第2の実施の形態の構成を示すブロッ
ク図
【図5】本発明の第2の実施の形態のHTML文書の例
を示す図
【図6】本発明の第2の実施の形態のルールの例を示す
【図7】本発明の第3の実施の形態の構成を示すブロッ
ク図
【図8】本発明の第3の実施の形態のHTML文書の例
を示す図
【図9】本発明の第3の実施の形態のルールの例を示す
【図10】本発明の第4の実施の形態の構成を示すブロ
ック図
【図11】本発明の第4の実施の形態のHTML文書の
例を示す図
【図12】本発明の第4の実施の形態のルールの例を示
す図
【図13】本発明の第5の実施の形態の構成を示すブロ
ック図
【図14】本発明の第5の実施の形態のルールの例を示
す図
【図15】本発明の第6の実施の形態の構成を示すブロ
ック図
【図16】本発明の第6の実施の形態のHTML文書の
例を示す図
【図17】本発明の第6の実施の形態のルールの例を示
す図
【図18】本発明の第7の実施の形態の構成を示すブロ
ック図
【図19】本発明の第7の実施の形態のルールの例を示
す図
【図20】本発明の第8の実施の形態の構成を示すブロ
ック図
【図21】本発明の第8の実施の形態のルールの例を示
す図
【図22】本発明の第9の実施の形態の構成を示すブロ
ック図
【図23】本発明の第9の実施の形態のルールの例を示
す図
【図24】本発明の第10の実施の形態の構成を示すブ
ロック図
【図25】本発明の第10の実施の形態のデータベース
のリストの例を示す表
【図26】本発明の第11の実施の形態の構成を示すブ
ロック図
【図27】本発明の第11の実施の形態の別の実施例の
構成を示すブロック図
【符号の説明】
100 文書分類装置 110 構造的特徴抽出器 111 キーワード特徴抽出部 112 イメージ特徴抽出部 113 リンク特徴抽出部 114 タグ構造特徴抽出部 115 URL特徴抽出部 116 プラグイン特徴抽出部 117 上下位特徴抽出部 120 照合器 130 構造的特徴ルールベース 140 構造的特徴抽出器 150 点数調整器 151 調整ルール 200 文書データベース 210 種別インデックス 300 検索装置 310 全文検索エンジン 320 種別検索器 330 絞り込み器 340 分別器 400 入出力装置 500 WWWサーバエンジン 600 WWWブラウザ
───────────────────────────────────────────────────── フロントページの続き (54)【発明の名称】 構造化文書分類装置およびこの構造化文書分類装置をコンピュータで実現するプログラムを記録 した記録媒体、並びに、構造化文書検索システムおよびこの構造化文書検索システムをコンピュ ータで実現するプログラムを記録した記録媒体

Claims (24)

    【特許請求の範囲】
  1. 【請求項1】構造化文書を種別に分類する構造化文書分
    類装置において、 構造化文書の構造的または付帯的な特徴を抽出し、この
    抽出した特徴を前記構造的または付帯的な特徴に特化し
    たルールによって照合し、種別への適合度を計算するこ
    とで該構造化文書を種別に分類することを特徴とする構
    造化文書分類装置。
  2. 【請求項2】構造化文書を種別に分類する構造化文書分
    類装置において、 構造化文書それぞれについて前記構造化文書のタグとキ
    ーワードのペアについての特徴を抽出するキーワード特
    徴抽出部を含む構造的特徴抽出器と、 前記キーワード特徴抽出部が抽出する前記タグとキーワ
    ードのペアについての特徴に特化したルールを保持する
    構造的特徴ルールベースと、 前記構造的特徴抽出器の抽出する特徴と前記構造的特徴
    ルールベースが保持するルールの条件とを照合すること
    で前記構造化文書それぞれの各種別への適合度を計算
    し、この計算結果をデータとして保存する照合器と、 を少なくとも有して構成されることを特徴とする構造化
    文書分類装置。
  3. 【請求項3】構造化文書を種別に分類する構造化文書分
    類装置において、 構造化文書それぞれについて前記構造化文書に含まれる
    イメージファイルについての特徴を抽出するイメージ特
    徴抽出部を含む構造的特徴抽出器と、 前記イメージ特徴抽出部が抽出する前記イメージファイ
    ルについての特徴に特化したルールを保持する構造的特
    徴ルールベースと、 前記構造的特徴抽出器の抽出する特徴と前記構造的特徴
    ルールベースが保持するルールの条件とを照合すること
    で前記構造化文書それぞれの各種別への適合度を計算
    し、この計算結果をデータとして保存する照合器と、 を少なくとも有して構成されることを特徴とする構造化
    文書分類装置。
  4. 【請求項4】構造化文書を種別に分類する構造化文書分
    類装置において、 構造化文書それぞれについて前記構造化文書に含まれる
    リンクについての特徴を抽出するリンク特徴抽出部を含
    む構造的特徴抽出器と、 前記リンク特徴抽出部が抽出する前記リンクについての
    特徴に特化したルールを保持する構造的特徴ルールベー
    スと、 前記構造的特徴抽出器の抽出する特徴と前記構造的特徴
    ルールベースが保持するルールの条件とを照合すること
    で前記構造化文書それぞれの各種別への適合度を計算
    し、この計算結果をデータとして保存する照合器と、 を少なくとも有して構成されることを特徴とする構造化
    文書分類装置。
  5. 【請求項5】構造化文書を種別に分類する構造化文書分
    類装置において、 構造化文書それぞれについて前記構造化文書のタグ構造
    についての特徴を抽出するタグ構造特徴抽出部を含む構
    造的特徴抽出器と、 前記タグ構造特徴抽出部が抽出する前記タグ構造につい
    ての特徴に特化したルールを保持する構造的特徴ルール
    ベースと、 前記構造的特徴抽出器の抽出する特徴と前記構造的特徴
    ルールベースが保持するルールの条件とを照合すること
    で前記構造化文書それぞれの各種別への適合度を計算
    し、この計算結果をデータとして保存する照合器と、 を少なくとも有して構成されることを特徴とする構造化
    文書分類装置。
  6. 【請求項6】構造化文書を種別に分類する構造化文書分
    類装置において、 構造化文書それぞれについて前記構造化文書自身のUR
    L情報についての特徴を抽出するURL特徴抽出部を含
    む構造的特徴抽出器と、 前記URL特徴抽出部が抽出する前記URL情報につい
    ての特徴に特化したルールを保持する構造的特徴ルール
    ベースと、 前記構造的特徴抽出器の抽出する特徴と前記構造的特徴
    ルールベースが保持するルールの条件とを照合すること
    で前記構造化文書それぞれの各種別への適合度を計算
    し、この計算結果をデータとして保存する照合器と、 を少なくとも有して構成されることを特徴とする構造化
    文書分類装置。
  7. 【請求項7】構造化文書を種別に分類する構造化文書分
    類装置において、 構造化文書それぞれについて前記構造化文書に含まれる
    プラグインについての特徴を抽出するプラグイン特徴抽
    出部を含む構造的特徴抽出器と、 前記プラグイン特徴抽出部が抽出するプラグインについ
    ての特徴に特化したルールを保持する構造的特徴ルール
    ベースと、 前記構造的特徴抽出器の抽出する特徴と前記構造的特徴
    ルールベースが保持するルールの条件とを照合すること
    で前記構造化文書それぞれの各種別への適合度を計算
    し、この計算結果をデータとして保存する照合器と、 を少なくとも有して構成されることを特徴とする構造化
    文書分類装置。
  8. 【請求項8】構造化文書を種別に分類する構造化文書分
    類装置において、 構造化文書それぞれについて前記構造化文書の上位文書
    と下位文書についての構造的特徴を抽出する第1の構造
    的特徴抽出器と、 前記第1の構造的特徴抽出器を駆動する上下位特徴抽出
    部を含む第2の構造的特徴抽出器と、 前記上下位特徴抽出部を介して前記第1の構造的特徴抽
    出器によって抽出された特徴に特化したルールを保持す
    る構造的特徴ルールベースと、 前記第1の構造的特徴抽出器の抽出する特徴と前記構造
    的特徴ルールベースが保持するルールの条件とを照合す
    ることで前記構造化文書それぞれの各種別への適合度を
    計算し、この計算結果をデータとして保存する照合器
    と、 を少なくとも有して構成されることを特徴とする構造化
    文書分類装置。
  9. 【請求項9】構造化文書を種別に分類する構造化文書分
    類装置において、 構造化文書それぞれについて前記構造化文書の構造的ま
    たは付帯的な特徴を抽出する構造的特徴抽出器と、 前記構造的特徴抽出器が抽出する前記構造化文書の構造
    的または付帯的な特徴に特化したルールを保持する構造
    的特徴ルールベースと、 前記構造的特徴抽出器の抽出する特徴と前記構造的特徴
    ルールベースが保持するルールの条件とを照合すること
    で前記構造化文書それぞれの各種別への適合度を計算
    し、この計算結果をデータとして保存する照合器と、 を少なくとも有して構成され、 前記構造的特徴抽出器が抽出する構造的または付帯的な
    特徴が、前記構造化文書のタグとキーワードのペア、前
    記構造化文書に含まれるイメージファイル、前記構造化
    文書に含まれるリンク、前記構造化文書のタグ構造、前
    記構造化文書自身のURL情報、または、前記構造化文
    書に含まれるプラグインのいずれか1つもしくはそれら
    の組み合わせであることを特徴とする構造化文書分類装
    置。
  10. 【請求項10】構造化文書の種別への適合度を種別間の
    関係や大局的な視点から微調整するルールを保持する調
    整ルールと、 該調整ルールを用いて構造化文書の種別への適合度を微
    調整する点数調整器と、 を更に有して構成されることを特徴とする請求項1〜9
    のいずれか1項に記載の構造化文書分類装置。
  11. 【請求項11】請求項1〜10のいずれか一項に記載の
    構造化文書分類装置によって計算された構造化文書それ
    ぞれの各種別への適合度を用いて前記構造化文書の検索
    を行う構造化文書検索システムにおいて、 キーワードなどの検索のための意味的な条件と目的の構
    造化文書の種別を入力し、検索結果を出力する入出力装
    置と、 構造化文書を保持するデータベースから前記意味的な条
    件によって検索を行う検索エンジンと、 計算された前記構造化文書それぞれの各種別への適合度
    を用いて、前記検索エンジンで検索された構造化文書の
    該種別に対する適合度を検索する種別検索器と、 前記検索エンジンから検索結果を受け取とるとともに、
    前記種別検索器から前記検索エンジンで検索された構造
    化文書の該種別に対する適合度の検索結果を受け取り、
    この種別に対する適合度と前記入出力装置を介して入力
    された前記種別を参照して、前記入出力装置に出力する
    該検索結果を選択する絞り込み器と、 を少なくとも有して構成される構造化文書検索システ
    ム。
  12. 【請求項12】請求項1〜10のいずれか一項に記載の
    構造化文書分類装置によって計算された構造化文書それ
    ぞれの各種別への適合度を用いて前記構造化文書の検索
    を行う構造化文書検索システムにおいて、 キーワードなどの検索のための意味的な条件を入力し、
    検索結果を出力する入出力装置と、 構造化文書を保持するデータベースから前記意味的な条
    件によって検索を行う検索エンジンと、 計算された前記構造化文書それぞれの各種別への適合度
    を用いて、前記検索エンジンで検索された構造化文書の
    該種別に対する適合度を検索する種別検索器と、 前記検索エンジンから検索結果を受け取とるとともに、
    前記種別検索器から前記検索エンジンで検索された構造
    化文書の該種別に対する適合度の検索結果を受け取り、
    この種別に対する適合度を参照して、該検索結果をグル
    ープ分けして前記入出力装置に出力する分別器、 を少なくとも有して構成される構造化文書検索システ
    ム。
  13. 【請求項13】構造化文書を種別に分類する構造化文書
    分類装置をコンピュータで実現するプログラムを記録し
    た記録媒体において、 コンピュータに構造化文書の構造的または付帯的な特徴
    を抽出し、この抽出した特徴を前記構造的または付帯的
    な特徴に特化したルールによって照合し、種別への適合
    度を計算することで該構造化文書を種別に分類する機能
    を実現するプログラムを記録した記録媒体。
  14. 【請求項14】構造化文書を種別に分類する構造化文書
    分類装置をコンピュータで実現するプログラムを記録し
    た記録媒体において、 コンピュータに、 構造化文書それぞれについて前記構造化文書のタグとキ
    ーワードのペアについての特徴を抽出するキーワード特
    徴抽出機能を含む構造的特徴抽出機能と、 前記キーワード特徴抽出機能が抽出する前記タグとキー
    ワードのペアについての特徴に特化したルールを保持す
    る構造的特徴ルールベース機能と、 前記構造的特徴抽出機能の抽出する特徴と前記構造的特
    徴ルールベース機能によって保持されるルールの条件と
    を照合することで前記構造化文書それぞれの各種別への
    適合度を計算し、この計算結果をデータとして保存する
    照合機能と、 を実現するプログラムを記録した記録媒体。
  15. 【請求項15】構造化文書を種別に分類する構造化文書
    分類装置をコンピュータで実現するプログラムを記録し
    た記録媒体において、 コンピュータに、 構造化文書それぞれについて前記構造化文書に含まれる
    イメージファイルについての特徴を抽出するイメージ特
    徴抽出機能を含む構造的特徴抽出機能と、 前記イメージ特徴抽出機能が抽出する前記イメージファ
    イルについての特徴に特化したルールを保持する構造的
    特徴ルールベース機能と、 前記構造的特徴抽出機能の抽出する特徴と前記構造的特
    徴ルールベース機能によって保持されるルールの条件と
    を照合することで前記構造化文書それぞれの各種別への
    適合度を計算し、この計算結果をデータとして保存する
    照合機能と、 を実現するプログラムを記録した記録媒体。
  16. 【請求項16】構造化文書を種別に分類する構造化文書
    分類装置をコンピュータで実現するプログラムを記録し
    た記録媒体において、 コンピュータに、 構造化文書それぞれについて前記構造化文書に含まれる
    リンクについての特徴を抽出するリンク特徴抽出機能を
    含む構造的特徴抽出機能と、 前記リンク特徴抽出機能が抽出する前記リンクについて
    の特徴に特化したルールを保持する構造的特徴ルールベ
    ース機能と、 前記構造的特徴抽出機能の抽出する特徴と前記構造的特
    徴ルールベース機能によって保持されるルールの条件と
    を照合することで前記構造化文書それぞれの各種別への
    適合度を計算し、この計算結果をデータとして保存する
    照合機能と、 を実現するプログラムを記録した記録媒体。
  17. 【請求項17】構造化文書を種別に分類する構造化文書
    分類装置をコンピュータで実現するプログラムを記録し
    た記録媒体において、 コンピュータに、 構造化文書それぞれについて前記構造化文書のタグ構造
    についての特徴を抽出するタグ構造特徴抽出機能を含む
    構造的特徴抽出機能と、 前記タグ構造特徴抽出機能が抽出する前記タグ構造につ
    いての特徴に特化したルールを保持する構造的特徴ルー
    ルベース機能と、 前記構造的特徴抽出機能の抽出する特徴と前記構造的特
    徴ルールベース機能によって保持されるルールの条件と
    を照合することで前記構造化文書それぞれの各種別への
    適合度を計算し、この計算結果をデータとして保存する
    照合機能と、 を実現するプログラムを記録した記録媒体。
  18. 【請求項18】構造化文書を種別に分類する構造化文書
    分類装置をコンピュータで実現するプログラムを記録し
    た記録媒体において、 コンピュータに、 構造化文書それぞれについて前記構造化文書自身のUR
    L情報についての特徴を抽出するURL特徴抽出機能を
    含む構造的特徴抽出機能と、 前記URL特徴抽出機能が抽出する前記URL情報につ
    いての特徴に特化したルールを保持する構造的特徴ルー
    ルベース機能と、 前記構造的特徴抽出機能の抽出する特徴と前記構造的特
    徴ルールベース機能によって保持されるルールの条件と
    を照合することで前記構造化文書それぞれの各種別への
    適合度を計算し、この計算結果をデータとして保存する
    照合機能と、 を実現するプログラムを記録した記録媒体。
  19. 【請求項19】構造化文書を種別に分類する構造化文書
    分類装置をコンピュータで実現するプログラムを記録し
    た記録媒体において、 コンピュータに、 構造化文書それぞれについて前記構造化文書に含まれる
    プラグインについての特徴を抽出するプラグイン特徴抽
    出機能を含む構造的特徴抽出機能と、 前記プラグイン特徴抽出機能が抽出するプラグインにつ
    いての特徴に特化したルールを保持する構造的特徴ルー
    ルベース機能と、 前記構造的特徴抽出機能の抽出する特徴と前記構造的特
    徴ルールベース機能によって保持されるルールの条件と
    を照合することで前記構造化文書それぞれの各種別への
    適合度を計算し、この計算結果をデータとして保存する
    照合機能と、 を実現するプログラムを記録した記録媒体。
  20. 【請求項20】構造化文書を種別に分類する構造化文書
    分類装置をコンピュータで実現するプログラムを記録し
    た記録媒体において、 コンピュータに、 構造化文書それぞれについて前記構造化文書の上位文書
    と下位文書についての構造的特徴を抽出する第1の構造
    的特徴抽出機能と、 前記第1の構造的特徴抽出機能を駆動する上下位特徴抽
    出機能を含む第2の構造的特徴抽出機能と、 前記上下位特徴抽出機能を介して前記第1の構造的特徴
    抽出機能によって抽出された特徴に特化したルールを保
    持する構造的特徴ルールベース機能と、 前記第1の構造的特徴抽出機能の抽出する特徴と前記構
    造的特徴ルールベース機能によって保持されるルールの
    条件とを照合することで前記構造化文書それぞれの各種
    別への適合度を計算し、この計算結果をデータとして保
    存する照合機能と、 を実現するプログラムを記録した記録媒体。
  21. 【請求項21】構造化文書を種別に分類する構造化文書
    分類装置をコンピュータで実現するプログラムを記録し
    た記録媒体において、 コンピュータに、 構造化文書それぞれについて前記構造化文書の構造的ま
    たは付帯的な特徴を抽出する構造的特徴抽出機能と、 前記構造的特徴抽出機能が抽出する前記構造化文書の構
    造的または付帯的な特徴に特化したルールを保持する構
    造的特徴ルールベース機能と、 前記構造的特徴抽出機能の抽出する特徴と前記構造的特
    徴ルールベース機能によって保持されるルールの条件と
    を照合することで前記構造化文書それぞれの各種別への
    適合度を計算し、この計算結果をデータとして保存する
    照合機能と、 を実現し、 前記構造的特徴抽出機能が抽出する構造的または付帯的
    な特徴が、前記構造化文書のタグとキーワードのペア、
    前記構造化文書に含まれるイメージファイル、前記構造
    化文書に含まれるリンク、前記構造化文書のタグ構造、
    前記構造化文書自身のURL情報、または、前記構造化
    文書に含まれるプラグインのいずれか1つもしくはそれ
    らの組み合わせであることを特徴とするプログラムを記
    録した記録媒体。
  22. 【請求項22】構造化文書の種別への適合度を種別間の
    関係や大局的な視点から微調整するルールを保持する調
    整ルール機能と、 該調整ルール機能で保持される該調整ルールを用いて構
    造化文書の種別への適合度を微調整する点数調整機能
    と、 をコンピュータに更に実現することを特徴とする請求項
    13〜21のいずれか1項に記載のプログラムを記録し
    た記録媒体。
  23. 【請求項23】請求項13〜21のいずれか一項に記載
    のプログラムを記録した記録媒体で実現される構造化文
    書分類装置によって計算された構造化文書それぞれの各
    種別への適合度を用いて、前記構造化文書の検索を行う
    構造化文書検索システムをコンピュータで実現するプロ
    グラムを記録した記録媒体において、 コンピュータに、 コンピュータに備える入出力装置を介して、キーワード
    などの検索のための意味的な条件と目的の構造化文書の
    種別を入力し、検索結果を出力する機能と、 構造化文書を保持するデータベースから前記意味的な条
    件によって検索を行う検索エンジン機能と、 計算された前記構造化文書それぞれの各種別への適合度
    を用いて、前記検索エンジン機能によって検索された構
    造化文書の該種別に対する適合度を検索する種別検索機
    能と、 前記検索エンジン機能から検索結果を受け取とるととも
    に、前記種別検索機能から前記検索エンジン機能によっ
    て検索された構造化文書の該種別に対する適合度の検索
    結果を受け取り、この種別に対する適合度と前記入出力
    装置を介して入力された前記種別を参照して、前記入出
    力装置に出力する該検索結果を選択する絞り込み機能
    と、 を実現するプログラムを記録した記録媒体。
  24. 【請求項24】請求項13〜21のいずれか一項に記載
    のプログラムを記録した記録媒体で実現される構造化文
    書分類装置によって計算された構造化文書それぞれの各
    種別への適合度を用いて、前記構造化文書の検索を行う
    構造化文書検索システムをコンピュータで実現するプロ
    グラムを記録した記録媒体において、 コンピュータに、 コンピュータに備える入出力装置を介して、キーワード
    などの検索のための意味的な条件を入力し、検索結果を
    出力する機能と、 構造化文書を保持するデータベースから前記意味的な条
    件によって検索を行う検索エンジン機能と、 計算された前記構造化文書それぞれの各種別への適合度
    を用いて、前記検索エンジン機能によって検索された構
    造化文書の該種別に対する適合度を検索する種別検索機
    能と、 前記検索エンジン機能から検索結果を受け取とるととも
    に、前記種別検索機能から前記検索エンジン機能によっ
    て検索された構造化文書の該種別に対する適合度の検索
    結果を受け取り、この種別に対する適合度を参照して、
    該検索結果をグループ分けして前記入出力装置に出力す
    る分別機能と、 を実現するプログラムを記録した記録媒体。
JP10200171A 1998-07-15 1998-07-15 構造化文書分類装置およびこの構造化文書分類装置をコンピュータで実現するプログラムを記録した記録媒体、並びに、構造化文書検索システムおよびこの構造化文書検索システムをコンピュータで実現するプログラムを記録した記録媒体 Pending JP2000029902A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP10200171A JP2000029902A (ja) 1998-07-15 1998-07-15 構造化文書分類装置およびこの構造化文書分類装置をコンピュータで実現するプログラムを記録した記録媒体、並びに、構造化文書検索システムおよびこの構造化文書検索システムをコンピュータで実現するプログラムを記録した記録媒体
US09/352,351 US6718333B1 (en) 1998-07-15 1999-07-13 Structured document classification device, structured document search system, and computer-readable memory causing a computer to function as the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10200171A JP2000029902A (ja) 1998-07-15 1998-07-15 構造化文書分類装置およびこの構造化文書分類装置をコンピュータで実現するプログラムを記録した記録媒体、並びに、構造化文書検索システムおよびこの構造化文書検索システムをコンピュータで実現するプログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2000029902A true JP2000029902A (ja) 2000-01-28

Family

ID=16419982

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10200171A Pending JP2000029902A (ja) 1998-07-15 1998-07-15 構造化文書分類装置およびこの構造化文書分類装置をコンピュータで実現するプログラムを記録した記録媒体、並びに、構造化文書検索システムおよびこの構造化文書検索システムをコンピュータで実現するプログラムを記録した記録媒体

Country Status (2)

Country Link
US (1) US6718333B1 (ja)
JP (1) JP2000029902A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020001295A (ko) * 2000-06-27 2002-01-09 전원하, 박세영 검색결과를 보여주는 방법 및 그 장치
JP2002259427A (ja) * 2001-03-01 2002-09-13 Nippon Telegr & Teleph Corp <Ntt> 利用者嗜好反映型検索方法及びその実施装置並びにその処理プログラムと記録媒体
KR100503148B1 (ko) * 2002-04-17 2005-07-25 정보통신연구진흥원 스타일 및 컨텐트 정보 기반의 웹문서 처리 시스템 및 그방법
JP2005242833A (ja) * 2004-02-27 2005-09-08 Dainippon Printing Co Ltd Web画面解析装置、web画面解析方法、web解析型音楽装置、及びweb監視装置
US7240061B2 (en) 2000-10-24 2007-07-03 Nec Corporation Place name information extraction apparatus and extraction method thereof and storing medium stored extraction programs thereof and map information retrieval apparatus
US7539671B2 (en) 2004-08-02 2009-05-26 Sharp Kabushiki Kaisha Image processing apparatus, image forming apparatus, method for searching processed document, program for searching processed document, and recording medium
JP2009199302A (ja) * 2008-02-21 2009-09-03 Netstar Inc ドキュメントを解析するためのプログラム,装置および方法
WO2011024716A1 (ja) * 2009-08-26 2011-03-03 日本電気株式会社 構造化文書検索式生成装置、その方法及びプログラム、並びに構造化文書検索装置、その方法及びプログラム
RU2451999C2 (ru) * 2006-07-31 2012-05-27 Майкрософт Корпорейшн Оптимизация извлечения факта с использованием многоэтапного подхода
KR101120760B1 (ko) 2003-01-06 2012-06-12 마이크로소프트 코포레이션 구조화 문서 검색

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000043909A1 (fr) * 1999-01-21 2000-07-27 Sony Corporation Procede et dispositif de traitement de documents et support d'enregistrement
US20020010709A1 (en) * 2000-02-22 2002-01-24 Culbert Daniel Jason Method and system for distilling content
JP4489994B2 (ja) * 2001-05-11 2010-06-23 富士通株式会社 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体
US20030130993A1 (en) * 2001-08-08 2003-07-10 Quiver, Inc. Document categorization engine
JP4283466B2 (ja) * 2001-10-12 2009-06-24 富士通株式会社 リンク関係に基づく文書整理方法
JP2003208434A (ja) * 2001-11-07 2003-07-25 Nec Corp 情報検索システム及びそれに用いる情報検索方法
US6952691B2 (en) * 2002-02-01 2005-10-04 International Business Machines Corporation Method and system for searching a multi-lingual database
JP3997790B2 (ja) * 2002-02-15 2007-10-24 コニカミノルタビジネステクノロジーズ株式会社 プログラム及びスタイルシート選択装置
JP3888621B2 (ja) * 2002-02-21 2007-03-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 文書処理システム、文書処理方法及びプログラム
JP4226261B2 (ja) * 2002-04-12 2009-02-18 三菱電機株式会社 構造化文書種別判定システム及び構造化文書種別判定方法
US7254571B2 (en) * 2002-06-03 2007-08-07 International Business Machines Corporation System and method for generating and retrieving different document layouts from a given content
US7092938B2 (en) * 2002-08-28 2006-08-15 International Business Machines Corporation Universal search management over one or more networks
WO2004079593A1 (ja) * 2003-03-05 2004-09-16 Sharp Kabushiki Kaisha 情報閲覧方法及び情報閲覧装置
US7854009B2 (en) * 2003-06-12 2010-12-14 International Business Machines Corporation Method of securing access to IP LANs
US8014997B2 (en) * 2003-09-20 2011-09-06 International Business Machines Corporation Method of search content enhancement
US20050065774A1 (en) * 2003-09-20 2005-03-24 International Business Machines Corporation Method of self enhancement of search results through analysis of system logs
US7827254B1 (en) 2003-11-26 2010-11-02 Google Inc. Automatic generation of rewrite rules for URLs
CN1702651A (zh) * 2004-05-24 2005-11-30 富士通株式会社 特定类型信息文件的识别方法和装置
US20060080305A1 (en) * 2004-10-13 2006-04-13 Heath Dill Accuracy of data harvesting
US20060106760A1 (en) * 2004-10-29 2006-05-18 Netzer Moriya Method and apparatus of inter-document data retrieval
US7680785B2 (en) * 2005-03-25 2010-03-16 Microsoft Corporation Systems and methods for inferring uniform resource locator (URL) normalization rules
JP4429236B2 (ja) * 2005-08-19 2010-03-10 富士通株式会社 分類ルール作成支援方法
WO2007050646A2 (en) * 2005-10-24 2007-05-03 Capsilon Fsg, Inc. A business method using the automated processing of paper and unstructured electronic documents
US8176004B2 (en) * 2005-10-24 2012-05-08 Capsilon Corporation Systems and methods for intelligent paperless document management
KR100775852B1 (ko) 2006-01-18 2007-11-13 포스데이타 주식회사 응용 프로그램의 자원 검색 시스템 및 방법
JP2007241451A (ja) * 2006-03-06 2007-09-20 Fuji Xerox Co Ltd 情報収集支援装置
US7895176B2 (en) * 2006-11-29 2011-02-22 Red Hat, Inc. Entry group tags
US20090063470A1 (en) * 2007-08-28 2009-03-05 Nogacom Ltd. Document management using business objects
US8112404B2 (en) 2008-05-08 2012-02-07 Microsoft Corporation Providing search results for mobile computing devices
US9203623B1 (en) * 2009-12-18 2015-12-01 Trend Micro Incorporated Apparatus and methods for keyword proximity matching
US8996350B1 (en) 2011-11-02 2015-03-31 Dub Software Group, Inc. System and method for automatic document management
US9348899B2 (en) 2012-10-31 2016-05-24 Open Text Corporation Auto-classification system and method with dynamic user feedback
US11783611B2 (en) * 2020-09-01 2023-10-10 Sap Se Machine learning for document compression

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03174653A (ja) * 1989-12-01 1991-07-29 Matsushita Electric Ind Co Ltd キーワード管理方法およびその装置
JPH10116290A (ja) * 1996-10-11 1998-05-06 Mitsubishi Electric Corp 文書分類管理方法及び文書検索方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5819259A (en) * 1992-12-17 1998-10-06 Hartford Fire Insurance Company Searching media and text information and categorizing the same employing expert system apparatus and methods
JP3168829B2 (ja) 1993-10-30 2001-05-21 富士ゼロックス株式会社 検索式作成支援システム
US5991709A (en) * 1994-07-08 1999-11-23 Schoen; Neil Charles Document automated classification/declassification system
JPH0830620A (ja) * 1994-07-19 1996-02-02 Fuji Xerox Co Ltd 構造検索装置
JPH09311869A (ja) 1996-05-24 1997-12-02 Toshiba Corp インターネット検索サーバ
US5794236A (en) * 1996-05-29 1998-08-11 Lexis-Nexis Computer-based system for classifying documents into a hierarchy and linking the classifications to the hierarchy
JPH10124519A (ja) 1996-10-18 1998-05-15 Matsushita Electric Ind Co Ltd 情報表示装置および情報検索装置
JP3598742B2 (ja) * 1996-11-25 2004-12-08 富士ゼロックス株式会社 文書検索装置及び文書検索方法
US6389436B1 (en) * 1997-12-15 2002-05-14 International Business Machines Corporation Enhanced hypertext categorization using hyperlinks
US6067539A (en) * 1998-03-02 2000-05-23 Vigil, Inc. Intelligent information retrieval system
US6192360B1 (en) * 1998-06-23 2001-02-20 Microsoft Corporation Methods and apparatus for classifying text and for building a text classifier

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03174653A (ja) * 1989-12-01 1991-07-29 Matsushita Electric Ind Co Ltd キーワード管理方法およびその装置
JPH10116290A (ja) * 1996-10-11 1998-05-06 Mitsubishi Electric Corp 文書分類管理方法及び文書検索方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020001295A (ko) * 2000-06-27 2002-01-09 전원하, 박세영 검색결과를 보여주는 방법 및 그 장치
US7240061B2 (en) 2000-10-24 2007-07-03 Nec Corporation Place name information extraction apparatus and extraction method thereof and storing medium stored extraction programs thereof and map information retrieval apparatus
JP2002259427A (ja) * 2001-03-01 2002-09-13 Nippon Telegr & Teleph Corp <Ntt> 利用者嗜好反映型検索方法及びその実施装置並びにその処理プログラムと記録媒体
KR100503148B1 (ko) * 2002-04-17 2005-07-25 정보통신연구진흥원 스타일 및 컨텐트 정보 기반의 웹문서 처리 시스템 및 그방법
KR101120760B1 (ko) 2003-01-06 2012-06-12 마이크로소프트 코포레이션 구조화 문서 검색
JP2005242833A (ja) * 2004-02-27 2005-09-08 Dainippon Printing Co Ltd Web画面解析装置、web画面解析方法、web解析型音楽装置、及びweb監視装置
JP4611649B2 (ja) * 2004-02-27 2011-01-12 大日本印刷株式会社 Web解析型音楽装置
US7539671B2 (en) 2004-08-02 2009-05-26 Sharp Kabushiki Kaisha Image processing apparatus, image forming apparatus, method for searching processed document, program for searching processed document, and recording medium
RU2451999C2 (ru) * 2006-07-31 2012-05-27 Майкрософт Корпорейшн Оптимизация извлечения факта с использованием многоэтапного подхода
JP2009199302A (ja) * 2008-02-21 2009-09-03 Netstar Inc ドキュメントを解析するためのプログラム,装置および方法
WO2011024716A1 (ja) * 2009-08-26 2011-03-03 日本電気株式会社 構造化文書検索式生成装置、その方法及びプログラム、並びに構造化文書検索装置、その方法及びプログラム

Also Published As

Publication number Publication date
US6718333B1 (en) 2004-04-06

Similar Documents

Publication Publication Date Title
JP2000029902A (ja) 構造化文書分類装置およびこの構造化文書分類装置をコンピュータで実現するプログラムを記録した記録媒体、並びに、構造化文書検索システムおよびこの構造化文書検索システムをコンピュータで実現するプログラムを記録した記録媒体
US7257530B2 (en) Method and system of knowledge based search engine using text mining
US7783644B1 (en) Query-independent entity importance in books
US20170235841A1 (en) Enterprise search method and system
JP3719415B2 (ja) 情報検索方法、情報検索システム、およびプログラム
JP4467184B2 (ja) 知識創造可能性を有するドキュメントの意味論的分析及び選択
KR100505848B1 (ko) 검색 시스템
US8135717B2 (en) Processor for fast contextual matching
US9323827B2 (en) Identifying key terms related to similar passages
US7558792B2 (en) Automatic extraction of human-readable lists from structured documents
US20070250501A1 (en) Search result delivery engine
US20030221163A1 (en) Using web structure for classifying and describing web pages
US20070027854A1 (en) Processor for fast contextual searching
JPH09101990A (ja) 情報フィルタリング装置
CA2486528A1 (en) Document structure identifier
JP2885487B2 (ja) 文書内情報検索装置
JP2003173280A (ja) データベース生成装置、データベース生成方法及びデータベース生成プログラム
JPWO2010150910A1 (ja) 情報検索装置、情報検索方法、情報検索プログラム、および、情報検索プログラムを記録した記録媒体
JP3594701B2 (ja) キーセンテンス抽出装置
US20090138473A1 (en) Apparatus and method for retrieving structured documents
JP2000250908A (ja) 電子書籍の作成支援装置
US20080033953A1 (en) Method to search transactional web pages
JPH10307837A (ja) 検索装置並びに検索プログラムを記録した記録媒体
JP5389764B2 (ja) マイクロブログテキスト分類装置及び方法及びプログラム
JP2002183175A (ja) テキストマイニング方法

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20010904