JP2000029902A

JP2000029902A - 構造化文書分類装置およびこの構造化文書分類装置をコンピュータで実現するプログラムを記録した記録媒体、並びに、構造化文書検索システムおよびこの構造化文書検索システムをコンピュータで実現するプログラムを記録した記録媒体

Info

Publication number: JP2000029902A
Application number: JP10200171A
Authority: JP
Inventors: Katsushi Matsuda; 勝志松田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1998-07-15
Filing date: 1998-07-15
Publication date: 2000-01-28
Also published as: US6718333B1

Abstract

(57)【要約】【課題】対象のＨＴＭＬ文書が膨大にある検索におい
て、検索精度を高めて、検索者が目的のＨＴＭＬ文書を
探す手間を軽減する。【解決手段】あらかじめＨＴＭＬ文書すべてについ
て、タグとキーワードによる特徴、イメージ情報による
特徴、リンク情報による特徴、タグ構造による特徴から
構造的または付帯的な特徴を抽出し、ルールと照合する
ことによって、分類する種別への適合度を計算する。入
力されたキーワードと種別を用いてある適合度以下の文
書を削除して絞り込んだ結果を表示する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は構造化文書の記述内
容の種類を文書構造の特徴から判定して種別毎に分類す
る構造化文書分類装置およびこの構造化文書分類装置で
分類された内容を用いて検索が可能な構造化文書検索シ
ステム、並びに、これらの構造化文書分類装置、構造化
文書検索システムをコンピュータで実現するためのプロ
グラムを記録した記録媒体に関する。

【０００２】

【従来の技術】ＷＷＷ(World Wide Web)に代表される構
造化文書データベースから所望の文書を検索するには、
平成１０年７月現在、“goo”と呼ばれるサービス（htt
p://www.goo.ne.jp ）に代表されるクルーラー系と呼ば
れるロボットによってＷＷＷ上で公開されている文書を
集め、それをデータベース化して全文検索する方法が一
般的である。

【０００３】しかし、それらのデータベースには、現在
１００万以上もの文書が登録されており、今後ＷＷＷも
更に普及していくことから、その数は更に増えることが
予想される。よって、ユーザが少ないキーワードで自分
の所望の文書を検索しようとすると膨大な検索結果が返
ってきてしまい、その膨大な検索結果から所望の文書を
探す手間がかかり、実用に耐えないのが現状である。

【０００４】一方、ＳＧＭＬ（Standard Generalized M
arkup Language）などの構造化文書の構造上の特徴を利
用して検索する手法として、特開平７−２２５７７１号
公報記載の検索式作成支援システムが知られている。こ
の公報記載の手法によって、構造化文書の構造上の特徴
を含んだ検索式が作成できるため、予め求める文書の種
類（特許文書や論文、仕様書等）が明らかな場合、精度
の良い検索が可能となる。

【０００５】

【発明が解決しようとする課題】上記特開平７−２２５
７７１号公報記載の検索式作成支援システムによって、
ＳＧＭＬの文書データベースから求める文書をキーワー
ドと文書の種類を指定することによって、所望の文書を
高精度で検索できるが、ＷＷＷで用いられている構造化
文書（ＨＴＭＬ；Hypertext Markup Language ）はＳＧ
ＭＬほど構造が明確になっていないため、特開平７−２
２５７７１号公報の手法を応用することができない。

【０００６】また、特開平７−２２５７７１号公報に記
載の手法は、例示のための構造化文書を必要としてお
り、このことからもＷＷＷの利用状況に則していない。

【０００７】よって、本発明の目的は、上記従来技術の
問題点を解決することにあり、さらに詳しくは、検索精
度を高め、検索者が目的の文書を探す手間を軽減するこ
とができる構造化文書分類装置およびこの構造化文書分
類装置で分類された内容を用いて検索が可能な構造化文
書検索システム、並びに、これらの構造化文書分類装
置、構造化文書検索システムをコンピュータに実現する
ためのプログラムを記録した記録媒体を提供することで
ある。

【０００８】

【課題を解決するための手段】本発明は、上記目的を達
成するため、検索対象のＨＴＭＬ文書のデータをあらか
じめ複数の文書の種類に分類しておくことによって、検
索精度を高め、検索者が目的の文書を探す手間を軽減
し、以下の特徴を有する。

【０００９】本発明の第１の構造化文書分類装置は、Ｈ
ＴＭＬ文書の構造的または付帯的な特徴を抽出し、分類
する種別への適合度を計算する。

【００１０】本発明の第２の構造化文書分類装置は、Ｈ
ＴＭＬ文書のタグとキーワードのペア情報を特徴として
抽出し、分類する種別への適合度を計算する。

【００１１】本発明の第３の構造化文書分類装置は、Ｈ
ＴＭＬ文書に含まれるイメージ情報を特徴として抽出
し、分類する種別への適合度を計算する。

【００１２】本発明の第４の構造化文書分類装置は、Ｈ
ＴＭＬ文書に含まれるリンク情報を特徴として抽出し、
分類する種別への適合度を計算する。

【００１３】本発明の第５の構造化文書分類装置は、Ｈ
ＴＭＬ文書のタグ構造情報を特徴として抽出し、分類す
る種別への適合度を計算する。

【００１４】本発明の第６の構造化文書分類装置は、Ｈ
ＴＭＬ文書自身のＵＲＬ情報を特徴として抽出し、分類
する種別への適合度を計算する。

【００１５】本発明の第７の構造化文書分類装置は、Ｈ
ＴＭＬ文書に含まれるプラグイン情報を特徴として抽出
し、分類する種別への適合度を計算する。

【００１６】本発明の第８の構造化文書分類装置は、Ｈ
ＴＭＬ文書のリンク元とリンク先の文書についての構造
的または付帯的な特徴を抽出し、分類する種別への適合
度を計算する。

【００１７】本発明の第９の構造化文書分類装置は、分
類する種別間の適合度や大局的な視点から適合度を微調
整する。

【００１８】本発明の第１の構造化文書検索システム
は、あらかじめ計算された種別への適合度を用いて適合
度の低い文書を削除することで、検索結果を絞りこむ。

【００１９】本発明の第２の構造化文書検索システム
は、あらかじめ計算された種別への適合度を用いて検索
結果の文書をグループ化して表示する。

【００２０】

【発明の実施の形態】［第１の実施の形態］（構成の説明）本発明の第１の実施の形態について図面
を参照して詳細に説明する。

【００２１】図１を参照すると、本発明の第１の実施の
形態は、ＨＴＭＬ文書のデータが蓄積されている文書デ
ータベース２００と、プログラム制御により動作する文
書分類装置１００と、文書分類装置１００から生成され
たＨＴＭＬ文書の種類を保持する種別インデックス２１
０とを含む。

【００２２】文書分類装置１００は、ＨＴＭＬ文書のタ
グとキーワードのペアで特徴を抽出するキーワード特徴
抽出部１１１を内包する構造的特徴抽出器１１０と、抽
出された構造的特徴に点数付けを行うルールを含む構造
的特徴ルールベース１３０と、構造的特徴とルールの照
合を行い点数加算を行いＨＴＭＬ文書の種類への適合度
を計算する照合器１２０とを備える。

【００２３】（動作の説明）次に図１を参照して本実施
の形態の動作について詳細に説明する。

【００２４】ＨＴＭＬ文書のデータが蓄積されている文
書データベース２００から文書分類装置１００はＨＴＭ
Ｌ文書を１つずつ取り出し、構造的特徴抽出器１１０に
入力する。構造的特徴抽出器１１０は、キーワード特徴
抽出部１１１を起動し、ＨＴＭＬ文書からタグとキーワ
ードのペアを抽出し、照合器１２０に送る。構造的特徴
ルールベース１３０には、文書の種類を同定するのに使
われる種類に応じた特徴記述の条件とその点数を表現し
たルールが保持されている。照合器１２０は、構造的特
徴ルールベース１３０のルールと構造的特徴抽出器１１
０から送られた特徴記述とを照合する。このとき、照合
器は照合したルールに記載されている点数を加算し、文
書に対して各種類への適合度を計算する。照合器は計算
した結果を種別インデックス２１０に保存する。

【００２５】次に、本実施の形態の効果について説明す
る。

【００２６】本実施の形態では、構造的特徴抽出器によ
って、ＨＴＭＬ文書からタグとキーワードのペアを抽出
して文書の種別を判定するため、従来のキーワード情報
だけによる種別の分類より詳細な分類ができる。

【００２７】（実施例）次に、具体的な実施例を用いて
本実施の形態の動作を説明する。

【００２８】インターネット上から自動的に収集するロ
ボットから集められたＨＴＭＬ文書が文書データベース
２００にあるとする。文書データベース２００での保存
の形式は、データベース形式でもファイルシステムでの
ファイル形式でも構わない。

【００２９】図２に文書データベース２００に保存され
ているＨＴＭＬ文書の一例を示す。このＨＴＭＬ文書の
種別は「商品カタログ」であるとする。

【００３０】構造的特徴ルールベース１３０には、図３
で示すようなルールがあるとする。

【００３１】図３のルールは一例であり、その書式や条
件や点数は単なる例である。

【００３２】図３のルールの意味について説明する。こ
こで示すルールの書式は、コロン（：）でそれぞれ区切
られている。この例におけるルールの標準形は「Ｋｅｙ
ｗｏｒｄ：種別：点数：タグ：キーワードリスト」から
なる形式であり、この形式の第１項目はこのルールがキ
ーワード特徴抽出部に対応していることを示すラベルで
ある。第２項はこのルールがある文書の種別に特有のル
ールであることを示す。第３項は照合に成功した場合の
種別に対して加える点数を示す。第４項はキーワードが
含まれるタグを示す。第５項はタグに含まれるキーワー
ドのリストである。

【００３３】例えば、「Ｋｅｙｗｏｒｄ：商品カタロ
グ：３：＜ｈ１＞：仕様｜スペック」というルールは、
＜ｈ１＞タグの中に『仕様』または『スペック』という
キーワードが入っている場合、「商品カタログ」種別に
点数を３点加える、を意味している。このように図３に
は「商品カタログ」、「研究室」、「リンク集」の３種
類の種別についてのルールが記述されている。

【００３４】構造的特徴抽出器１１０は、キーワード特
徴抽出部１１１を起動し、ＨＴＭＬ文書からタグとキー
ワードのペアを抽出し、照合器１２０に送る。キーワー
ド特徴抽出部１１１は、ＨＴＭＬ文書のタグとキーワー
ドのペア構造を特徴として抽出する。例えば、図２のＨ
ＴＭＬ文書の下線の部分（「装備」の部分）なら、＜Ｈ
ＴＭＬ＞＜ＢＯＤＹ＞＜ＣＥＮＴＥＲ＞＜ＦＯＮＴ＞＜
Ｂ＞＜Ａ＞標準＜／Ａ＞＜／Ｂ＞＜／ＦＯＮＴ＞＜／Ｃ
ＥＮＴＥＲ＞＜／ＢＯＤＹ＞＜／ＨＴＭＬ＞のように抽
出する。このペア構造は一例であり、枝がタグで葉がキ
ーワードとなる木構造で表現する方法もあり、特徴の表
現形式を限定するものではない。また、ここではキーワ
ードのみを抽出しているが、キーワードだけではなく、
文章の言い回し（例えば、『〜とは』、『〜です／ま
す』、『である』など）を抽出する方法もある。

【００３５】照合器１２０は構造的特徴抽出器１１０か
ら送られてきた特徴を構造的特徴ルールベース１３０の
ルールと比較し、照合する。図３のルール「Ｋｅｙｗｏ
ｒｄ：商品カタログ：１：＜ｂｏｄｙ＞：搭載|可能|装
備」はキーワード特徴抽出部１１１が抽出した該特徴に
照合する。すなわち、ルールの第４項のタグをタグとキ
ーワードのペア構造から見つけ、そして標準というキー
ワードを同じペア構造から見つける。このようにルール
との照合に成功すると、該ＨＴＭＬ文書の種別（上記例
の場合は商品カタログ）への適合度を計算するために該
ルールに設定された点数を加算する。

【００３６】図３の３種類の種別（商品カタログ、研究
室、リンク集）のルール群と図２のＨＴＭＬ文書を照合
すると、上記例で示したルールのみ照合に成功する。こ
の場合、商品カタログ＝１点、研究室＝０点、リンク集
＝０点となる。図２のＨＴＭＬ文書は中略しているため
実際には商品カタログの点数はより高得点となる。

【００３７】照合器１２０は構造的特徴ルールベース１
３０の各種別毎のルールがすべて照合に成功した場合
（満点）を１００％として計算し、各種別への適合度を
出力する。図３のルールでは、商品カタログ＝１１点、
研究室＝１９点、リンク集＝１３点が満点であるため、
商品カタログ＝９％（１／１１×１００）、研究室＝０
％（０／１９×１００）、リンク集＝０％（０／１３×
１００）という適合度になる。この計算方法は一例であ
り、例えば、各種別の１点に対する重みを平均化させて
計算する方法などがあり、計算方法を限定するものでは
ない。

【００３８】照合器１２０は適合度の計算結果を種別イ
ンデックス２１０に書き込む。種別インデックス２１０
には、上記の種別に対する適合度をそれぞれ計算通りに
保存する方法や、最も適合度が良かった種別に対しての
みフラグを立て、それ以外の種別にはフラグを立てない
で保存する方法などがある。

【００３９】［第２の実施の形態］（構成の説明）本発明の第２の実施の形態について図面
を参照して詳細に説明する。

【００４０】図４を参照すると、本発明の第２の実施の
形態は、第１の実施の形態の構成と比べて、構造的特徴
抽出器１１０にＨＴＭＬ文書に含まれるイメージの特徴
を抽出するイメージ特徴抽出部１１２をキーワード特徴
抽出部１１１の代わりに含む構成である。

【００４１】（動作の説明）次に図４を参照して本実施
の形態の動作について詳細に説明する。

【００４２】第１の実施の形態と同様にＨＴＭＬ文書を
構造的特徴抽出器１１０に入力する。構造的特徴抽出器
１１０は、イメージ特徴抽出部１１２を起動し、ＨＴＭ
Ｌ文書からイメージファイルを抽出し、照合器１２０に
送る。構造的特徴ルールベース１３０には、文書の種類
を同定するのに使われる種類に応じた特徴記述の条件と
その点数を表現したルールが保持されている。

【００４３】照合器１２０は、構造的特徴ルールベース
１３０のルールと構造的特徴抽出器１１０から送られた
特徴記述とを照合する。このとき、照合器は照合したル
ールに記載されている点数を加算し、文書に対して各種
類への適合度を計算する。照合器は計算した結果を種別
インデックス２１０に保存する。

【００４４】次に、本実施の形態の効果について説明す
る。

【００４５】本実施の形態では、構造的特徴抽出器によ
って、ＨＴＭＬ文書からイメージファイルを抽出して文
書の種別を判定するため、従来のキーワード情報だけに
よる種別の分類より詳細な分類ができる。

【００４６】（実施例）次に、具体的な実施例を用いて
本実施の形態の動作を説明する。

【００４７】構造的特徴抽出器１１０以外は第１の実施
の形態の実施例と同じため、該構造的特徴抽出器と構造
的特徴ルールベース１３０を中心に説明する。

【００４８】図５に図２のＨＴＭＬ文書の中略していた
部分を示す。このＨＴＭＬ文書の種別も「商品カタロ
グ」である。

【００４９】構造的特徴ルールベース１３０には、図６
で示すようなルールがあるとする。この図６に示すルー
ルの標準形は「ｉｍａｇｅ：種別：点数：条件式」から
なる形式であり、この第１項はこのルールがイメージ特
徴抽出部に対応していることを示すラベルである。第２
項はこのルールの種別を、第３項は点数を示す。第４項
はイメージファイルに対する条件式である。

【００５０】たとえば、「ｉｍａｇｅ：商品カタログ：
５：ｏｖｅｒ（３００００）＞＝２」というルールは、
３００００バイト（＝３０Ｋバイト）以上のイメージが
２個以上含まれている場合、「商品カタログ」種別に点
数５点を加える、を意味している。このように図６には
「商品カタログ」、「研究室」、「リンク集」の３種類
の種別についてのルールが記述されている。

【００５１】構造的特徴抽出器１１０は、イメージ特徴
抽出部１１２を起動し、ＨＴＭＬ文書からイメージファ
イルを抽出し、該イメージファイルの特徴を照合器１２
０に送る。

【００５２】例えば、図５のＨＴＭＬ文書の場合、下線
の部分（５箇所）のイメージファイル（ｂａｎｎｅｒ．
ｇｉｆ、ｗｉｎ２．ｇｉｆ、ｒ＿ｔｉｔ．ｇｉｆ、ｒ５
００．ｇｉｆ、ｒ３００．ｇｉｆ）からそのバイトサイ
ズ、イメージのサイズ、フォーマット形式等を取り出
す。必要なら、イメージファイルをＯＣＲ（光学式文字
読み取り装置）にかけて、抽出した文字列をも照合器に
送る。図６の「ｉｍａｇｅ：研究室：４：ｏｃｒ＝研究
室」というルールが該文字列の条件式を使ったものであ
り、ＯＣＲにかけた結果、『研究室』という文字列が抽
出された場合、４点を加えるというルールである。

【００５３】照合器１２０は構造的特徴抽出器１１０か
ら送られてきた特徴を構造的特徴ルールベース１３０の
ルールと比較し、照合する。図５のＨＴＭＬ文書の場
合、５個のイメージファイルのバイトサイズはそれぞ
れ、７７２２バイト、４４９０バイト、１９４７バイ
ト、４７８０４バイト、５６５７３バイトである。図６
のルール「ｉｍａｇｅ：商品カタログ：５：ｏｖｅｒ
（３００００）＞＝２」が照合に成功する。第１の実施
の形態の実施例と同様に計算すると、商品カタログ＝５
点、研究室＝２点、リンク集＝０点となり、適合度は、
商品カタログ＝８３％（５／６×１００）、研究室＝２
２％（２／９×１００）、リンク集＝０％（０／６×１
００）となる。

【００５４】［第３の実施の形態］（構成の説明）本発明の第３の実施の形態について図面
を参照して詳細に説明する。

【００５５】図７を参照すると、本発明の第３の実施の
形態は、第１の実施の形態の構成と比べて、構造的特徴
抽出器１１０にＨＴＭＬ文書に含まれるリンクの特徴を
抽出するリンク特徴抽出部１１３をキーワード特徴抽出
部１１１の代わりに含む構成である。

【００５６】（動作の説明）次に図７を参照して本実施
の形態の動作について詳細に説明する。

【００５７】第１の実施の形態と同様にＨＴＭＬ文書を
構造的特徴抽出器１１０に入力する。構造的特徴抽出器
１１０は、リンク特徴抽出部１１３を起動し、ＨＴＭＬ
文書からリンク情報を抽出し、照合器１２０に送る。構
造的特徴ルールベース１３０には、文書の種類を同定す
るのに使われる種類に応じた特徴記述の条件とその点数
を表現したルールが保持されている。

【００５８】照合器１２０は、構造的特徴ルールベース
１３０のルールと構造的特徴抽出器１１０から送られた
特徴記述とを照合する。このとき、照合器は照合したル
ールに記載されている点数を加算し、文書に対して各種
類への適合度を計算する。照合器は計算した結果を種別
インデックス２１０に保存する。

【００５９】次に、本実施の形態の効果について説明す
る。

【００６０】本実施の形態では、構造的特徴抽出器によ
って、ＨＴＭＬ文書からリンク情報を抽出して文書の種
別を判定するため、従来のキーワード情報だけによる種
別の分類より詳細な分類ができる。

【００６１】（実施例）次に、具体的な実施例を用いて
本実施の形態の動作を説明する。

【００６２】構造的特徴抽出器１１０以外は第１の実施
の形態の実施例と同じため、該構造的特徴抽出器と構
造的特徴ルールベース１３０を中心に説明する。

【００６３】図８にＨＴＭＬ文書の例の部分を示す。こ
のＨＴＭＬ文書の種別は「リンク集」である。

【００６４】構造的特徴ルールベース１３０には、図９
で示すようなルールがあるとする。ルールの標準形は、
「ｌｉｎｋ：種別：点数：条件式」からなる形式であ
り、この第１項はこのルールがリンク特徴抽出部に対応
していることを示すラベルである。第２項はこのルール
の種別を、第３項は点数を示す。第４項はリンクに対す
る条件式である。

【００６５】たとえば、「ｌｉｎｋ：リンク集：４：２
０＞ｅｘｔｅｒｎａｌ＞＝１０」というルールは、外部
サイトへのリンクが１０以上２０未満の場合、「リンク
集」種別に点数４点を加える、を意味している。ｅｘｔ
ｅｒｎａｌは外部サイトへのリンクの個数、ｉｎｔｅｒ
ｎａｌは内部サイトへのリンクの個数を表す変数であ
る。このように図９には「商品カタログ」、「研究
室」、「リンク集」の３種類の種別についてのルールが
記述されている。

【００６６】構造的特徴抽出器１１０は、リンク特徴抽
出部１１３を起動し、ＨＴＭＬ文書からリンク情報を抽
出し、該リンクの特徴を照合器１２０に送る。例えば、
図８のＨＴＭＬ文書の場合、下線の部分（１３箇所）が
それぞれ外部リンクとして抽出される。照合器１２０は
構造的特徴抽出器１１０から送られてきた特徴を構造的
特徴ルールベース１３０のルールと比較し、照合する。

【００６７】図８のＨＴＭＬ文書の場合、２１個の外部
リンク、０個の内部リンク（実際には中略した部分に外
部リンク、内部リンクがそれぞれ多数含まれている）が
ある。図９のルール「ｌｉｎｋ：リンク集：８：ｅｘｔ
ｅｒｎａｌ＞＝２０」が照合に成功する。第１の実施の
形態の実施例と同様に計算すると、商品カタログ＝０
点、研究室＝０点、リンク集＝８点となり、適合度は、
商品カタログ＝０％（０／５×１００）、研究室＝０％
（０／７×１００）、リンク集＝５７％（８／１４×１
００）となる。

【００６８】［第４の実施の形態］（構成の説明）本発明の第４の実施の形態について図面
を参照して詳細に説明する。

【００６９】図１０を参照すると、本発明の第４の実施
の形態は、第１の実施の形態の構成と比べて、構造的特
徴抽出器１１０にＨＴＭＬ文書のタグ構造の特徴を抽出
するタグ構造特徴抽出部１１４をキーワード特徴抽出部
１１１の代わりに含む構成である。

【００７０】（動作の説明）次に図１０を参照して本実
施の形態の動作について詳細に説明する。

【００７１】第１の実施の形態と同様にＨＴＭＬ文書を
構造的特徴抽出器１１０に入力する。構造的特徴抽出器
１１０は、タグ構造特徴抽出部１１４を起動し、ＨＴＭ
Ｌ文書からタグ構造情報を抽出し、照合器１２０に送
る。構造的特徴ルールベース１３０には、文書の種類を
同定するのに使われる種類に応じた特徴記述の条件とそ
の点数を表現したルールが保持されている。照合器１２
０は、構造的特徴ルールベース１３０のルールと構造的
特徴抽出器１１０から送られた特徴記述とを照合する。
このとき、照合器は照合したルールに記載されている点
数を加算し、文書に対して各種類への適合度を計算す
る。照合器は計算した結果を種別インデックス２１０に
保存する。

【００７２】次に、本実施の形態の効果について説明す
る。

【００７３】本実施の形態では、構造的特徴抽出器によ
って、ＨＴＭＬ文書からタグ構造情報を抽出して文書の
種別を判定するため、従来のキーワード情報だけによる
種別の分類より詳細な分類ができる。

【００７４】（実施例）次に、具体的な実施例を用いて
本実施の形態の動作を説明する。

【００７５】構造的特徴抽出器１１０以外は第１の実施
の形態の実施例と同じため、該構造的特徴抽出器と構造
的特徴ルールベース１３０を中心に説明する。

【００７６】図１１にＨＴＭＬ文書の例の部分を示す。
このＨＴＭＬ文書の種別は「商品カタログ」である。

【００７７】構造的特徴ルールベース１３０には、図１
２で示すようなルールがあるとする。ルールの標準形
は、「ｓｔｒｕｃｔｕｒｅ：種別：点数：タグ：［条件
式］」からなる形式であり、第１項はこのルールがタグ
構造特徴抽出部に対応していることを示すラベルであ
る。第２項はこのルールの種別を、第３項は点数を示
す。第４項は抽出するタグの部分構造であり、第５項は
第４項のタグ構造中の変数（％１、％２、．．．）また
はタグ構造の個数（％ｎ）に対する条件式である。第５
項はオプションであり、変数に対する条件が必要ない場
合は記述する必要はない。

【００７８】たとえば、「ｓｔｒｕｃｔｕｒｅ：商品カ
タログ：３：＜ｔａｂｌｅｂｏａｒｄｅｒ＝％１＞：
％１＞＝１」というルールは、＜ｔａｂｌｅ＞タグがあ
り、且つｂｏａｒｄｅｒ属性があり、且つ該ｂｏａｒｄ
ｅｒ属性の値が１以上の場合、「商品カタログ」種別に
点数３点を加える、を意味している。また、「ｓｔｒｕ
ｃｔｕｒｅ：商品カタログ：２：＜ｓｅｌｅｃｔ＞：」
というルールは、＜ｓｅｌｅｃｔ＞タグがある場合、
「商品カタログ」種別に点数１点を加える、を意味して
おり、「ｓｔｒｕｃｔｕｒｅ：商品カタログ：３：＜ｓ
ｕｐ＞：％ｎ＞＝３」というルールは、＜ｓｕｐ＞タグ
が３個以上ある場合、「商品カタログ」種別に点数３点
を加える、を意味している。このように図９には「商品
カタログ」、「研究室」、「リンク集」の３種類の種別
についてのルールが記述されている。

【００７９】構造的特徴抽出器１１０は、タグ構造特徴
抽出部１１４を起動し、ＨＴＭＬ文書からタグ構造情報
を抽出し、該タグ構造の特徴を照合器１２０に送る。例
えば、図１１のＨＴＭＬ文書の場合、下線の部分が＜ｔ
ａｂｌｅ＞タグ構造情報と＜ｓｕｐ＞タグ構造情報とし
て抽出される。照合器１２０は構造的特徴抽出器１１０
から送られてきた特徴を構造的特徴ルールベース１３０
のルールと比較し、照合する。図１１のＨＴＭＬ文書の
場合、ｂｏａｒｄｅｒの値が１の＜ｔａｂｌｅ＞タグと
４個の＜ｓｕｐ＞タグがある。

【００８０】図１２のルールの内、上の２個のルールが
照合に成功する。この例では、＜ｔａｂｌｅ＞タグの照
合に部分照合を用いているため、タグ構造特徴抽出部１
１４が抽出する＜ｔａｂｌｅｂｏａｒｄｅｒ＝１ｗ
ｉｄｔｈ＝１００％＞とルールの条件＜ｔａｂｌｅｂ
ｏａｒｄｅｒ＝％１＞が照合に成功したが、すべての属
性が完全に一致しなければならない完全照合を使う方法
もある。この場合、ルールは例えば、「ｓｔｒｕｃｔｕ
ｒｅ：商品カタログ：３：＜ｔａｂｌｅｂｏａｒｄｅ
ｒ＝％１ｗｉｄｔｈ＝％２＞：％１＞＝１＆％２＞＝
５０」の様にｗｉｄｔｈ属性が記述されていなければな
らない。第１の実施の形態の実施例と同様に計算する
と、商品カタログ＝６点、研究室＝０点、リンク集＝２
点となり、適合度は、商品カタログ＝６７％（６／９×
１００）、研究室＝０％（０／１×１００）、リンク集
＝２２％（２／９×１００）となる。

【００８１】［第５の実施の形態］（構成の説明）本発明の第５の実施の形態について図面
を参照して詳細に説明する。

【００８２】図１３を参照すると、本発明の第５の実施
の形態は、第１の実施の形態の構成と比べて、構造的特
徴抽出器１１０にＨＴＭＬ文書自身のＵＲＬ情報の特徴
を抽出するＵＲＬ特徴抽出部１１５をキーワード特徴抽
出部１１１の代わりに含む構成である。

【００８３】（動作の説明）次に図１３を参照して本実
施の形態の動作について詳細に説明する。

【００８４】第１の実施の形態と同様にＨＴＭＬ文書を
構造的特徴抽出器１１０に入力する。構造的特徴抽出器
１１０は、ＵＲＬ特徴抽出部１１５を起動し、ＨＴＭＬ
文書自身のＵＲＬ情報を抽出し、照合器１２０に送る。
構造的特徴ルールベース１３０には、文書の種類を同定
するのに使われる種類に応じた特徴記述の条件とその点
数を表現したルールが保持されている。照合器１２０
は、構造的特徴ルールベース１３０のルールと構造的特
徴抽出器１１０から送られた特徴記述とを照合する。こ
のとき、照合器は照合したルールに記載されている点数
を加算し、文書に対して各種類への適合度を計算する。
照合器は計算した結果を種別インデックス２１０に保存
する。

【００８５】次に、本実施の形態の効果について説明す
る。

【００８６】本実施の形態Ｄでは、構造的特徴抽出器に
よって、ＨＴＭＬ文書自身のＵＲＬ情報を抽出して文書
の種別を判定するため、従来のキーワード情報だけによ
る種別の分類より詳細な分類ができる。

【００８７】（実施例）次に、具体的な実施例を用いて
本実施の形態の動作を説明する。

【００８８】構造的特徴抽出器１１０以外は第１の実施
の形態の実施例と同じため、該構造的特徴抽出器と構造
的特徴ルールベース１３０を中心に説明する。

【００８９】構造的特徴ルールベース１３０には、図１
４で示すようなルールがあるとする。ルールの標準形
は、「ｕｒｌ：種別：点数：［条件式］」からなる形式
であり、この第１項はこのルールがＵＲＬ特徴抽出部に
対応していることを示すラベルである。第２項はこのル
ールの種別を、第３項は点数を示す。第４項は抽出する
ＵＲＬ文字列に対する条件式である。

【００９０】たとえば、「ｕｒｌ：商品カタログ：２：
ｏｒｇａｎｉｚａｔｉｏｎ＝ｃｏ」というルールは、Ｈ
ＴＭＬ文書のＵＲＬの組織の種類が企業（ｃｏ）である
場合、「商品カタログ」種別に点数２点を加える、を意
味している。条件式で用いられる変数には、ｏｒｇａｎ
ｉｚａｔｉｏｎ（組織の種類）の他に、ｎａｔｉｏｎ
（国名）、ｎａｍｅ（組織名）、ｐａｔｈ（パス名）、
ｆｉｌｅ（ファイル名）等がある。

【００９１】例えば、ＵＲＬが「ｈｔｔｐ：／／ｗｗ
ｗ．△△△．ｃｏ．ｊｐ／Ｐｒｏｄｕｃｔｓ／ＰＣ××
ＮＸ／ｉｎｄｅｘ．ｈｔｍｌ」ならば、ｎａｍｅには、
『△△△』が、ｏｒｇａｎｉｚａｔｉｏｎには、『ｃ
ｏ』が、ｎａｔｉｏｎには『ｊｐ』が、ｐａｔｈには
『Ｐｒｏｄｕｃｔｓ／ＰＣ××ＮＸ』が、ｆｉｌｅには
『ｉｎｄｅｘ．ｈｔｍｌ』がそれぞれバインドされる。
このように図１４には「商品カタログ」、「研究室」、
「リンク集」の３種類の種別についてのルールが記述さ
れている。

【００９２】構造的特徴抽出器１１０は、ＵＲＬ特徴抽
出部１１５を起動し、ＨＴＭＬ文書自身のＵＲＬ情報を
抽出し、該ＵＲＬの特徴を照合器１２０に送る。例え
ば、ＨＴＭＬ文書のＵＲＬが上記例で示したものであっ
た場合、上述のバインドがＵＲＬ情報として抽出され
る。照合器１２０は構造的特徴抽出器１１０から送られ
てきた特徴を構造的特徴ルールベース１３０のルールと
比較し、照合する。上述の例の場合、図１２のルールの
内、上の３個のルールが照合に成功する。第１の実施の
形態の実施例と同様に計算すると、商品カタログ＝８
点、研究室＝０点、リンク集＝０点となり、適合度は、
商品カタログ＝１００％（８／８×１００）、研究室＝
０％（０／２×１００）、リンク集＝０％（０／１０×
１００）となる。

【００９３】［第６の実施の形態］（構成の説明）本発明の第６の実施の形態について図面
を参照して詳細に説明する。

【００９４】図１５を参照すると、本発明の第６の実施
の形態は、第１の実施の形態の構成と比べて、構造的特
徴抽出器１１０にＨＴＭＬ文書に含まれるプラグイン情
報の特徴を抽出するプラグイン特徴抽出部１１６をキー
ワード特徴抽出部１１１の代わりに含む構成である。

【００９５】（動作の説明）次に図１５を参照して本実
施の形態の動作について詳細に説明する。

【００９６】第１の実施の形態と同様にＨＴＭＬ文書を
構造的特徴抽出器１１０に入力する。構造的特徴抽出器
１１０は、プラグイン特徴抽出部１１６を起動し、ＨＴ
ＭＬ文書に含まれるプラグイン情報を抽出し、照合器１
２０に送る。構造的特徴ルールベース１３０には、文書
の種類を同定するのに使われる種類に応じた特徴記述の
条件とその点数を表現したルールが保持されている。照
合器１２０は、構造的特徴ルールベース１３０のルール
と構造的特徴抽出器１１０から送られた特徴記述とを照
合する。このとき、照合器は照合したルールに記載され
ている点数を加算し、文書に対して各種類への適合度を
計算する。照合器は計算した結果を種別インデックス２
１０に保存する。

【００９７】次に、本実施の形態の効果について説明す
る。

【００９８】本実施の形態では、構造的特徴抽出器によ
って、ＨＴＭＬ文書に含まれるプラグイン情報を抽出し
て文書の種別を判定するため、従来のキーワード情報だ
けによる種別の分類より詳細な分類ができる。

【００９９】（実施例）次に、具体的な実施例を用いて
本実施の形態の動作を説明する。

【０１００】構造的特徴抽出器１１０以外は第１の実施
の形態の実施例と同じため、該構造的特徴抽出器と構造
的特徴ルールベース１３０を中心に説明する。

【０１０１】図１６にＨＴＭＬ文書の例を示す。このＨ
ＴＭＬ文書の種別は「ゲーム」である。

【０１０２】構造的特徴ルールベース１３０には、図１
７で示すようなルールがあるとする。ルールの標準形
は、「ｐｌｕｇｉｎ：種別：点数：［条件式］」からな
る形式であり、第１項はこのルールがプラグイン特徴抽
出部に対応していることを示すラベルである。第２項は
このルールの種別を、第３項は点数を示す。第４項は抽
出するプラグインの種類を判別する条件式である。

【０１０３】たとえば、「ｐｌｕｇｉｎ：ゲーム：３：
ｔｙｐｅ＝ｓｗｆ」というルールは、プラグインのソー
スの種類がショックウェーブフラッシュ(Shockwave Fla
sh：米国マクロメディア社の商標）（ｓｗｆ）である場
合、「ゲーム」種別に点数３点を加える、を意味してい
る。このように図１７には「ゲーム」、「商品カタロ
グ」、「個人ページ」の３種類の種別についてのルール
が記述されている。

【０１０４】構造的特徴抽出器１１０は、プラグイン特
徴抽出部１１６を起動し、ＨＴＭＬ文書からプラグイン
情報を抽出し、該プラグインの特徴を照合器１２０に送
る。例えば、図１６のＨＴＭＬ文書の場合、下線の部分
がプラグイン情報として抽出される。照合器１２０は構
造的特徴抽出器１１０から送られてきた特徴を構造的特
徴ルールベース１３０のルールと比較し、照合する。図
１６のＨＴＭＬ文書の場合、図１７のルールの内、１行
目と７行目のルールが照合に成功する。第１の実施の形
態の実施例と同様に計算すると、ゲーム＝３点、商品カ
タログ＝０点、個人ページ＝３点となり、適合度は、ゲ
ーム＝６０％（３／５×１００）、商品カタログ＝０％
（０／１０×１００）、個人ページ＝３８％（３／８×
１００）となる。

【０１０５】［第７の実施の形態］（構成の説明）本発明の第７の実施の形態について図面
を参照して詳細に説明する。

【０１０６】図１８を参照すると、本発明の第７の実施
の形態は、第１の実施の形態の構成と比べて、構造的特
徴抽出器１１０にイメージ特徴抽出部１１２とリンク特
徴抽出部１１３とタグ構造特徴抽出部１１４を加えた第
１の実施の形態である。

【０１０７】（動作の説明）次に図１８を参照して本実
施の形態の動作について詳細に説明する。

【０１０８】第１の実施の形態と同様にＨＴＭＬ文書を
構造的特徴抽出器１１０に入力する。構造的特徴抽出器
１１０は、キーワード特徴抽出部１１１とイメージ特徴
抽出部１１２とリンク特徴抽出部１１３とタグ構造特徴
抽出部１１４を起動し、ＨＴＭＬ文書に含まれる各種情
報を抽出し、照合器１２０に送る。構造的特徴ルールベ
ース１３０には、文書の種類を同定するのに使われる種
類に応じた特徴記述の条件とその点数を表現したルール
が保持されている。照合器１２０は、構造的特徴ルール
ベース１３０のルールと構造的特徴抽出器１１０から送
られた特徴記述とを照合する。このとき、照合器は照合
したルールに記載されている点数を加算し、文書に対し
て各種類への適合度を計算する。照合器は計算した結果
を種別インデックス２１０に保存する。

【０１０９】次に、本実施の形態の効果について説明す
る。

【０１１０】本実施の形態では、構造的特徴抽出器によ
って、ＨＴＭＬ文書に含まれる各種情報を抽出して文書
の種別を判定するため、従来のキーワード情報だけによ
る種別の分類より詳細な分類ができる。

【０１１１】（実施例）次に、具体的な実施例を用いて
本実施の形態の動作を説明する。

【０１１２】構造的特徴抽出器１１０にイメージ特徴抽
出部１１２とリンク特徴抽出部１１３とタグ構造特徴抽
出部１１４を加えている以外は第１の実施の形態の実施
例と同じため、該構造的特徴抽出器と構造的特徴ルール
ベース１３０を中心に説明する。

【０１１３】構造的特徴ルールベース１３０には、図１
９で示すようなルールになる。ルールは第１の実施の形
態の実施例と第２の実施の形態の実施例と第３の実施の
形態の実施例と第４の実施の形態の実施例で示した形式
と同じである。

【０１１４】構造的特徴抽出器１１０は、キーワード特
徴抽出部１１１とイメージ特徴抽出部１１２とリンク特
徴抽出部１１３とタグ構造特徴抽出部１１４を起動し、
ＨＴＭＬ文書から各特徴抽出部の担当する特徴を抽出
し、照合器１２０に送る。照合器１２０は構造的特徴抽
出器１１０から送られてきた特徴を構造的特徴ルールベ
ース１３０のルールと比較し、照合する。

【０１１５】本実施の形態では構造的特徴抽出器１１０
をキーワード特徴抽出部１１１とイメージ特徴抽出部１
１２とリンク特徴抽出器１１３とタグ構造特徴抽出部１
１４の組み合わせとしたが、第１の実施の形態から第６
の実施の形態の特徴抽出部１１１から１１６のいずれか
またはすべてを組み合わせて構造的特徴抽出器１１０を
構成することが可能である。

【０１１６】［第８の実施の形態］（構成の説明）本発明の第８の実施の形態について図面
を参照して詳細に説明する。

【０１１７】図２０を参照すると、本発明の第８の実施
の形態は、第１の実施の形態の構造的特徴抽出器１１０
に、対象のＨＴＭＬ文書をリンク先とするＨＴＭＬ文書
と対象のＨＴＭＬ文書からリンクが張られているＨＴＭ
Ｌ文書の特徴を抽出する上下位特徴抽出部１１７をキー
ワード特徴抽出部１１１の代わりに含み、該上下位特徴
抽出部１１７から起動される別の構造的特徴抽出器１４
０を含んで構成されている。

【０１１８】（動作の説明）次に図２０を参照して本実
施の形態の動作について詳細に説明する。

【０１１９】第１の実施の形態と同様にＨＴＭＬ文書を
構造的特徴抽出器１１０に入力する。構造的特徴抽出器
１１０は、上下位特徴抽出部１１７を起動し、対象のＨ
ＴＭＬ文書の上位文書（対象ＨＴＭＬ文書をリンク先と
しているＨＴＭＬ文書）と下位文書（対象ＨＴＭＬ文書
からリンクが張られているＨＴＭＬ文書）の情報を抽出
し、照合器１２０に送る。上下位特徴抽出部１１７は上
位文書と下位文書の構造的特徴抽出部の特徴を抽出する
ために、第１の実施の形態または第２の実施の形態また
は第３の実施の形態または第４の実施の形態または第５
の実施の形態または第６の実施の形態または第７の実施
の形態の構造的特徴抽出器１１０と同等の構造的特徴抽
出器１４０を起動する。構造的特徴ルールベース１３０
には、文書の種類を同定するのに使われる種類に応じた
特徴記述の条件とその点数を表現したルールが保持され
ている。照合器１２０は、構造的特徴ルールベース１３
０のルールと構造的特徴抽出器１１０から送られた特徴
記述とを照合する。このとき、照合器は照合したルール
に記載されている点数を加算し、文書に対して各種類へ
の適合度を計算する。照合器は計算した結果を種別イン
デックス２１０に保存する。

【０１２０】次に、本実施の形態の効果について説明す
る。

【０１２１】本実施の形態では、構造的特徴抽出器によ
って、ＨＴＭＬ文書の上位文書と下位文書の情報を抽出
して文書の種別を判定するため、従来のキーワード情報
だけによる種別の分類より詳細な分類ができる。

【０１２２】（実施例）次に、具体的な実施例を用いて
本実施の形態の動作を説明する。

【０１２３】構造的特徴抽出器１１０以外は第１の実施
の形態の実施例と同じため、該構造的特徴抽出器と構
造的特徴ルールベース１３０を中心に説明する。

【０１２４】構造的特徴ルールベース１３０には、図２
１で示すようなルールがあるとする。ルールの標準形
は、「ｒｅｌａｔｉｏｎ：種別：点数：上下：ルール」
からなる形式であり、第１項はこのルールが上下位特徴
抽出部に対応していることを示すラベルである。第２項
はこのルールの種別を、第３項は点数を示す。第４項は
対象のＨＴＭＬ文書の上位文書か下位文書のどちらから
特徴を抽出するかを指定する項目である。第５項は上下
位特徴抽出部が起動する構造的特徴抽出器１４０中の特
徴抽出部に依存したルールのうち、種別と点数を除いた
ルール本体である。

【０１２５】たとえば、「ｒｅｌａｔｉｏｎ：商品カタ
ログ：５：ｕｐ：ｋｅｙｗｏｒｄ：＜ａ＞：仕様｜スペ
ック」というルールは、ＨＴＭＬ文書の上位文書の＜ａ
＞タグに『仕様』または『スペック』というキーワード
がある場合、「商品カタログ」種別に点数５点を加え
る、を意味している。また、図２１の例では、商品カタ
ログ」、「研究室」、「リンク集」の３種類の種別につ
いてのルールが記述されている。

【０１２６】構造的特徴抽出器１１０は、上下位特徴抽
出部１１７を起動し、更に上下位特徴抽出部１１７は構
造的特徴抽出器１４０を起動し、構造的特徴抽出器１４
０を構成する各特徴抽出部から得られる特徴をまとめ、
照合器１２０に送る。本実施例では、構造的特徴抽出器
１４０には、キーワード特徴抽出器１１１とイメージ特
徴抽出部１１２とリンク特徴抽出部１１３とタグ構造特
徴抽出部１１４が含まれているとして図２１のルールが
作られている。

【０１２７】照合器１２０は構造的特徴抽出器１１０か
ら送られてきた特徴を構造的特徴ルールベース１３０の
ルールと比較し、照合する。本実施の形態では構造的特
徴抽出器１４０をキーワード特徴抽出部１１１とイメー
ジ特徴抽出部１１２とリンク特徴抽出器１１３とタグ構
造特徴抽出部１１４の組み合わせとしたが、第１の実施
の形態から第６の実施の形態の特徴抽出部１１１から１
１６のいずれかまたはすべてを組み合わせて構造的特徴
抽出器１４０を構成することが可能である。

【０１２８】［第９の実施の形態］（構成の説明）本発明の第９の実施の形態について図面
を参照して詳細に説明する。

【０１２９】図２２を参照すると、本発明の第９の実施
の形態は、第７の実施の形態に、調整ルール１５１を用
いて照合器１２０によって計算される適合度を微調整す
る点数調整器１５０を加えた構成となっている。

【０１３０】（動作の説明）次に図２２を参照して本実
施の形態の動作について詳細に説明する。

【０１３１】第７の実施の形態と同様に照合器１２０に
よって各種別に対する適合度が計算される。ここで点数
調整器１５０は各種別に対する適合度を種別間の関連や
大局的視点から微調整するルールを記述した調整ルール
１５１を用いて微調整する。照合器１２０は、点数調整
器１５０によって微調整された各種別に対する適合度を
種別インデックス２１０に保存する。

【０１３２】次に、本実施の形態の効果について説明す
る。

【０１３３】本実施の形態では、構造的特徴抽出器と構
造的特徴ルールベースによって、ＨＴＭＬ文書の種別を
判定した結果に、調整ルールの種別間の関連や大局的視
点による微調整の方法によって適合度微調整することに
よって更に精密に判定するため、従来のキーワード情報
だけによる種別の分類より詳細な分類ができる。

【０１３４】（実施例）次に、具体的な実施例を用いて
本実施の形態の動作を説明する。

【０１３５】点数調整器１５０と調整ルール１５１以外
は第７の実施の形態の実施例と同じなため、照合器１２
０と点数調整器１５０と調整ルール１５１を中心に説明
する。

【０１３６】調整ルール１５１には、図２３に示すよう
なルールがある。図２３の調整ルールはｉｆ−ｔｈｅｎ
形式で、ｉｆ部が条件を、ｔｈｅｎ部が実行を表してお
り、例えば、図２３の１番めのルールは、「もし、商品
カタログと個人ページの適合度の差が０％より大きく且
つ１０％以下で且つ個人ページの適合度が５０％以上で
且つ商品カタログの適合度が９０％以下である場合に
は、商品カタログの適合度を１０％上げ且つ個人ページ
の適合度を１０％下げる。」を意味している。また、図
中のｍａｘ、ｍｉｎ、ａｖｅはそれぞれ変数であり、ｍ
ａｘは最も適合度が高い種別を、ｍｉｎは最も適合度が
低い種別を、ａｖｅはすべての種別の平均を表してい
る。すなわち、図２３の４番めのルールは、「最も適合
度が高い種別の適合度が３０％以下で且つ適合度の平均
が２０％以下の場合、その最も適合度が高い種別の適合
度を２０％上げる。」、を意味している。

【０１３７】照合器１２０は点数調整器１５０によって
調整された点数を種別インデックス２１０に保存する。

【０１３８】［第１０の実施の形態］（構成の説明）本発明の第１０の実施の形態について図
面を参照して詳細に説明する。

【０１３９】図２４を参照すると、本発明の第１０の実
施の形態は、第１の実施の形態から第９の実施の形態で
述べた文書分類装置１００と、文書データベース２００
と、種別インデックス２１０と、検索装置３００と入出
力装置４００とを含む。

【０１４０】文書分類装置１００は第１の実施の形態か
ら第９の実施の形態のいずれの形態でも構わない。検索
装置３００は、文書データベース２００からキーワード
によって全文検索を行う全文検索エンジン３１０と、Ｈ
ＴＭＬ文書のＩＤ番号から該文書の種別の適合度を検索
する種別検索器３２０と、入出力装置４００から渡され
たキーワードと種別によって全文検索エンジン３１０と
種別検索器３２０を起動し、検索結果を絞りこむ絞り込
み器３３０とを備える。

【０１４１】（動作の説明）次に図２４を参照して本実
施の形態の動作について詳細に説明する。

【０１４２】文書分類装置１００によって文書データベ
ース２００中のＨＴＭＬ文書すべてが種別に対する適合
度を計算され文書データベース２００のＨＴＭＬ文書と
同じＩＤで種別インデックス２１０に保存されている。
入出力装置４００から、キーワードと種別が絞り込み器
３３０に渡される。絞り込み器３３０はキーワードを全
文検索エンジン３１０に渡す。全文検索エンジン３１０
は文書データベース２００を全文検索し、キーワードに
マッチしたＨＴＭＬ文書のＩＤを絞り込み器３３０に通
知する。絞り込み器３３０はＨＴＭＬ文書のＩＤと種別
を種別検索器３２０に渡す。種別検索器３２０はＨＴＭ
Ｌ文書のＩＤと種別を使い、該文書の該種別に対する適
合度を検索し、絞り込み器３３０に返す。絞り込み器３
３０は入出力装置４００に検索結果を返す。

【０１４３】次に、本実施の形態の効果について説明す
る。

【０１４４】本実施の形態では、文書分類装置によって
種別に詳細に分類したインデックスを使うことによって
全文検索エンジンでは膨大になる検索結果を絞り込み利
用者に提示することができるため、利用者は短時間で求
めるＨＴＭＬ文書を見つけることができる。

【０１４５】（実施例）次に、具体的な実施例を用いて
本実施の形態の動作を説明する。

【０１４６】例えば、文書データベース２００に１００
万件のＨＴＭＬ文書があるとする。該ＨＴＭＬ文書には
１から１００万までのＩＤが振られており、文書分類装
置１００によってあらかじめ種別インデックス２１０に
７種類の種別に対する適合度が計算されているものとす
る。

【０１４７】図２５は種別インデックス２１０の例の一
部である。入出力装置４００から利用者が例えば『モバ
イル××』というキーワードと「商品カタログ」という
種別を入力したとする。絞り込み器３３０は『モバイル
××』というキーワードを全文検索エンジン３１０に渡
す。全文検索エンジン３１０は文書データベース２００
を全文検索し、例えば１万件の検索結果が出たとする。
ここでは、ＨＴＭＬ文書からの検索に全文検索エンジン
を使った例を示しているが、全文検索エンジンだけでは
なく、サンプルフレーズや例文や類似文書などやそれら
の組み合わせによって検索する方法もあり、全文検索に
限定する訳ではない。絞り込み器３３０は１万件分のＨ
ＴＭＬ文書のＩＤと「商品カタログ」という種別を種別
検索器３２０に渡す。

【０１４８】種別検索器３２０は種別インデックス２１
０をＩＤで引き、そのレコードの商品カタログフィール
ドから商品カタログ種別に対する適合度を引き出す。例
えば、図２５に示すＨＴＭＬ文書のＩＤが２の場合、
「商品カタログ」に対する適合度は８８％であることが
わかる。

【０１４９】絞り込み器３３０はある閾値以上の適合度
を持つＩＤのＨＴＭＬ文書を入出力装置４００に返す。
例えば、ここで閾値を８０％以上とすると、図２５から
商品カタログの適合度が８０％以上のＨＴＭＬ文書はＩ
Ｄが２と６と１１の３文書のみである。全文検索エンジ
ン３１０が『モバイル××』という全文検索でＩＤが１
から１７までを検索したとすると、そのまま全文検索エ
ンジンだけの検索システムなら１７件が検索結果として
表示されるが、本実施例では、３件に絞りこまれて表示
される。図２５の種別インデックス２１０の例が正規化
されているとすると、１７件が３件に絞りこまれるた
め、１万件の全文検索結果は約１７６５件に絞りこまれ
る。ここでは閾値を８０％とした例を示したが、この値
は運用において自由に設定できる。また、閾値を決めて
その値以下のＨＴＭＬ文書を切り捨てたが、例えば、適
合度の高いものから順に１７件を表示させるなどの方法
もある。

【０１５０】［第１１の実施の形態］（構成の説明）本発明の第１１の実施の形態について図
面を参照して詳細に説明する。

【０１５１】図２６を参照すると、本発明の第１１の実
施の形態は、第１０の実施の形態に、検索結果を種別に
分ける分別器３４０を絞り込み器３３０の代わりとした
構成である。

【０１５２】（動作の説明）次に図２６を参照して本実
施の形態の動作について詳細に説明する。

【０１５３】入出力装置４００から、キーワードが分別
器３４０に渡される。分別器３４０はキーワードを全文
検索エンジン３１０に渡す。全文検索エンジン３１０は
文書データベース２００を全文検索し、キーワードにマ
ッチしたＨＴＭＬ文書のＩＤを分別器３４０に通知す
る。分別器３４０はＨＴＭＬ文書のＩＤを種別検索器３
２０に渡す。種別検索器３２０はＨＴＭＬ文書のＩＤを
使い、該文書の各種別に対する適合度を検索し、分別器
３４０に返す。分別器３４０はＨＴＭＬ文書をその適合
度の最も高い種別にグループ化し、入出力装置４００に
検索結果を返す。

【０１５４】次に、本実施の形態の効果について説明す
る。

【０１５５】本実施の形態では、文書分類装置によって
種別に詳細に分類したインデックスを使うことによって
全文検索エンジンでは膨大になる検索結果を絞り込み利
用者に提示することができるため、利用者は短時間で求
めるＨＴＭＬ文書を見つけることができる。

【０１５６】（実施例）次に、具体的な実施例を用いて
本実施の形態の動作を説明する。

【０１５７】文書データベース２００、種別インデック
ス２１０の内容は、第１０の実施の形態の実施例と同様
だとする。

【０１５８】入出力装置４００から利用者が例えば『モ
バイル××』というキーワードを入力したとする。分別
器３４０は『モバイル××』というキーワードを全文検
索エンジン３１０に渡す。全文検索エンジン３１０は文
書データベース２００を全文検索し、例えば１万件の検
索結果が出たとする。

【０１５９】分別器３４０は１万件分のＨＴＭＬ文書の
ＩＤを種別検索器３２０に渡し、各ＨＴＭＬ文書のレコ
ードにおける最も高い値を持つ種別にグループ分けす
る。例えば、図２５の例だと、ＩＤ１の文書は「商品カ
タログ」に、ＩＤ３の文書は「研究室」になる。

【０１６０】グループ分けされた検索結果は入出力装置
４００に返され、利用者に表示される。

【０１６１】ここで、すべてのＨＴＭＬ文書は７種類の
種別の内のいずれかにグループ化されたが、例えば、最
も高い適合度が５０％に満たないＨＴＭＬ文書は「その
他」というグループにグループ化して表示させるという
方法もある。

【０１６２】また、図２７に示すように入出力装置４０
０の代わりにＷＷＷサーバエンジン５００を設け、ネッ
トワーク経由のＷＷＷブラウザ６００から入出力を行う
という方法もある。このＷＷＷサーバエンジン５００と
ＷＷＷブラウザ６００を使った構成は第１０の実施の形
態においても可能である。

【０１６３】以上、本発明の実施の形態を説明したが、
本発明の各々の発明はコンピュータプログラムによって
実現可能である。例えば第１〜第９の実施の形態で説明
した発明の場合は、文書分類装置１００をコンピュータ
で機能させるためのプログラムを記録したコンピュータ
読み取り可能な記録媒体によって提供される形態でもよ
く、第１０〜第１１の実施の形態で説明した発明の場合
は、さらに検索装置３００をコンピュータで機能させる
ためのプログラムを記録したコンピュータ読み取り可能
な記録媒体によって提供される形態でもよい。

【０１６４】

【発明の効果】本発明の第１の効果は、ＨＴＭＬ文書の
分類において、高精度の分類が可能となることである。
その理由は、ＨＴＭＬ文書のタグとキーワードのペアで
特徴を抽出したり、ＨＴＭＬ文書に含まれるイメージ情
報を特徴として抽出したり、ＨＴＭＬ文書のリンク情報
を特徴として抽出したり、ＨＴＭＬ文書のタグ構造情報
を特徴として抽出したり、ＨＴＭＬ文書自身のＵＲＬ情
報を特徴として抽出したり、ＨＴＭＬ文書に含まれるプ
ラグイン情報を特徴として抽出したり、またそれらの組
み合わせや対象のＨＴＭＬ文書の上位文書または下位文
書の特徴によって分類するためである。

【０１６５】第２の効果は、ＨＴＭＬ文書の分類におい
て、矛盾のない分類が可能となることである。その理由
は、分類結果に分類するグループの関係や大局からの視
点による微調整を加えるためである。

【０１６６】第３の効果は、ＨＴＭＬ文書の検索におい
て、目的とするＨＴＭＬ文書が効率的に見つけることが
可能となることである。その理由は、あらかじめ高精度
にＨＴＭＬ文書の種類への適合度を計算しておき、指定
されたＨＴＭＬ文書の種類への適合度で検索結果を絞り
こむためである。また、あらかじめ高精度にＨＴＭＬ文
書の種類への適合度を計算することでその種類に分類し
ておき、検索結果をグループ化して表示するためであ
る。

【図面の簡単な説明】

【図１】本発明の第１の実施の形態の構成を示すブロッ
ク図

【図２】本発明の第１の実施の形態のＨＴＭＬ文書の例
を示す図

【図３】本発明の第１の実施の形態のルールの例を示す
図

【図４】本発明の第２の実施の形態の構成を示すブロッ
ク図

【図５】本発明の第２の実施の形態のＨＴＭＬ文書の例
を示す図

【図６】本発明の第２の実施の形態のルールの例を示す
図

【図７】本発明の第３の実施の形態の構成を示すブロッ
ク図

【図８】本発明の第３の実施の形態のＨＴＭＬ文書の例
を示す図

【図９】本発明の第３の実施の形態のルールの例を示す
図

【図１０】本発明の第４の実施の形態の構成を示すブロ
ック図

【図１１】本発明の第４の実施の形態のＨＴＭＬ文書の
例を示す図

【図１２】本発明の第４の実施の形態のルールの例を示
す図

【図１３】本発明の第５の実施の形態の構成を示すブロ
ック図

【図１４】本発明の第５の実施の形態のルールの例を示
す図

【図１５】本発明の第６の実施の形態の構成を示すブロ
ック図

【図１６】本発明の第６の実施の形態のＨＴＭＬ文書の
例を示す図

【図１７】本発明の第６の実施の形態のルールの例を示
す図

【図１８】本発明の第７の実施の形態の構成を示すブロ
ック図

【図１９】本発明の第７の実施の形態のルールの例を示
す図

【図２０】本発明の第８の実施の形態の構成を示すブロ
ック図

【図２１】本発明の第８の実施の形態のルールの例を示
す図

【図２２】本発明の第９の実施の形態の構成を示すブロ
ック図

【図２３】本発明の第９の実施の形態のルールの例を示
す図

【図２４】本発明の第１０の実施の形態の構成を示すブ
ロック図

【図２５】本発明の第１０の実施の形態のデータベース
のリストの例を示す表

【図２６】本発明の第１１の実施の形態の構成を示すブ
ロック図

【図２７】本発明の第１１の実施の形態の別の実施例の
構成を示すブロック図

【符号の説明】

１００文書分類装置１１０構造的特徴抽出器１１１キーワード特徴抽出部１１２イメージ特徴抽出部１１３リンク特徴抽出部１１４タグ構造特徴抽出部１１５ＵＲＬ特徴抽出部１１６プラグイン特徴抽出部１１７上下位特徴抽出部１２０照合器１３０構造的特徴ルールベース１４０構造的特徴抽出器１５０点数調整器１５１調整ルール２００文書データベース２１０種別インデックス３００検索装置３１０全文検索エンジン３２０種別検索器３３０絞り込み器３４０分別器４００入出力装置５００ＷＷＷサーバエンジン６００ＷＷＷブラウザ

───────────────────────────────────────────────────── フロントページの続き (54)【発明の名称】構造化文書分類装置およびこの構造化文書分類装置をコンピュータで実現するプログラムを記録した記録媒体、並びに、構造化文書検索システムおよびこの構造化文書検索システムをコンピュータで実現するプログラムを記録した記録媒体

Claims

【特許請求の範囲】

【請求項１】構造化文書を種別に分類する構造化文書分
類装置において、構造化文書の構造的または付帯的な特徴を抽出し、この
抽出した特徴を前記構造的または付帯的な特徴に特化し
たルールによって照合し、種別への適合度を計算するこ
とで該構造化文書を種別に分類することを特徴とする構
造化文書分類装置。
【請求項２】構造化文書を種別に分類する構造化文書分
類装置において、構造化文書それぞれについて前記構造化文書のタグとキ
ーワードのペアについての特徴を抽出するキーワード特
徴抽出部を含む構造的特徴抽出器と、前記キーワード特徴抽出部が抽出する前記タグとキーワ
ードのペアについての特徴に特化したルールを保持する
構造的特徴ルールベースと、前記構造的特徴抽出器の抽出する特徴と前記構造的特徴
ルールベースが保持するルールの条件とを照合すること
で前記構造化文書それぞれの各種別への適合度を計算
し、この計算結果をデータとして保存する照合器と、を少なくとも有して構成されることを特徴とする構造化
文書分類装置。
【請求項３】構造化文書を種別に分類する構造化文書分
類装置において、構造化文書それぞれについて前記構造化文書に含まれる
イメージファイルについての特徴を抽出するイメージ特
徴抽出部を含む構造的特徴抽出器と、前記イメージ特徴抽出部が抽出する前記イメージファイ
ルについての特徴に特化したルールを保持する構造的特
徴ルールベースと、前記構造的特徴抽出器の抽出する特徴と前記構造的特徴
ルールベースが保持するルールの条件とを照合すること
で前記構造化文書それぞれの各種別への適合度を計算
し、この計算結果をデータとして保存する照合器と、を少なくとも有して構成されることを特徴とする構造化
文書分類装置。
【請求項４】構造化文書を種別に分類する構造化文書分
類装置において、構造化文書それぞれについて前記構造化文書に含まれる
リンクについての特徴を抽出するリンク特徴抽出部を含
む構造的特徴抽出器と、前記リンク特徴抽出部が抽出する前記リンクについての
特徴に特化したルールを保持する構造的特徴ルールベー
スと、前記構造的特徴抽出器の抽出する特徴と前記構造的特徴
ルールベースが保持するルールの条件とを照合すること
で前記構造化文書それぞれの各種別への適合度を計算
し、この計算結果をデータとして保存する照合器と、を少なくとも有して構成されることを特徴とする構造化
文書分類装置。
【請求項５】構造化文書を種別に分類する構造化文書分
類装置において、構造化文書それぞれについて前記構造化文書のタグ構造
についての特徴を抽出するタグ構造特徴抽出部を含む構
造的特徴抽出器と、前記タグ構造特徴抽出部が抽出する前記タグ構造につい
ての特徴に特化したルールを保持する構造的特徴ルール
ベースと、前記構造的特徴抽出器の抽出する特徴と前記構造的特徴
ルールベースが保持するルールの条件とを照合すること
で前記構造化文書それぞれの各種別への適合度を計算
し、この計算結果をデータとして保存する照合器と、を少なくとも有して構成されることを特徴とする構造化
文書分類装置。
【請求項６】構造化文書を種別に分類する構造化文書分
類装置において、構造化文書それぞれについて前記構造化文書自身のＵＲ
Ｌ情報についての特徴を抽出するＵＲＬ特徴抽出部を含
む構造的特徴抽出器と、前記ＵＲＬ特徴抽出部が抽出する前記ＵＲＬ情報につい
ての特徴に特化したルールを保持する構造的特徴ルール
ベースと、前記構造的特徴抽出器の抽出する特徴と前記構造的特徴
ルールベースが保持するルールの条件とを照合すること
で前記構造化文書それぞれの各種別への適合度を計算
し、この計算結果をデータとして保存する照合器と、を少なくとも有して構成されることを特徴とする構造化
文書分類装置。
【請求項７】構造化文書を種別に分類する構造化文書分
類装置において、構造化文書それぞれについて前記構造化文書に含まれる
プラグインについての特徴を抽出するプラグイン特徴抽
出部を含む構造的特徴抽出器と、前記プラグイン特徴抽出部が抽出するプラグインについ
ての特徴に特化したルールを保持する構造的特徴ルール
ベースと、前記構造的特徴抽出器の抽出する特徴と前記構造的特徴
ルールベースが保持するルールの条件とを照合すること
で前記構造化文書それぞれの各種別への適合度を計算
し、この計算結果をデータとして保存する照合器と、を少なくとも有して構成されることを特徴とする構造化
文書分類装置。
【請求項８】構造化文書を種別に分類する構造化文書分
類装置において、構造化文書それぞれについて前記構造化文書の上位文書
と下位文書についての構造的特徴を抽出する第１の構造
的特徴抽出器と、前記第１の構造的特徴抽出器を駆動する上下位特徴抽出
部を含む第２の構造的特徴抽出器と、前記上下位特徴抽出部を介して前記第１の構造的特徴抽
出器によって抽出された特徴に特化したルールを保持す
る構造的特徴ルールベースと、前記第１の構造的特徴抽出器の抽出する特徴と前記構造
的特徴ルールベースが保持するルールの条件とを照合す
ることで前記構造化文書それぞれの各種別への適合度を
計算し、この計算結果をデータとして保存する照合器
と、を少なくとも有して構成されることを特徴とする構造化
文書分類装置。
【請求項９】構造化文書を種別に分類する構造化文書分
類装置において、構造化文書それぞれについて前記構造化文書の構造的ま
たは付帯的な特徴を抽出する構造的特徴抽出器と、前記構造的特徴抽出器が抽出する前記構造化文書の構造
的または付帯的な特徴に特化したルールを保持する構造
的特徴ルールベースと、前記構造的特徴抽出器の抽出する特徴と前記構造的特徴
ルールベースが保持するルールの条件とを照合すること
で前記構造化文書それぞれの各種別への適合度を計算
し、この計算結果をデータとして保存する照合器と、を少なくとも有して構成され、前記構造的特徴抽出器が抽出する構造的または付帯的な
特徴が、前記構造化文書のタグとキーワードのペア、前
記構造化文書に含まれるイメージファイル、前記構造化
文書に含まれるリンク、前記構造化文書のタグ構造、前
記構造化文書自身のＵＲＬ情報、または、前記構造化文
書に含まれるプラグインのいずれか１つもしくはそれら
の組み合わせであることを特徴とする構造化文書分類装
置。
【請求項１０】構造化文書の種別への適合度を種別間の
関係や大局的な視点から微調整するルールを保持する調
整ルールと、該調整ルールを用いて構造化文書の種別への適合度を微
調整する点数調整器と、を更に有して構成されることを特徴とする請求項１〜９
のいずれか１項に記載の構造化文書分類装置。
【請求項１１】請求項１〜１０のいずれか一項に記載の
構造化文書分類装置によって計算された構造化文書それ
ぞれの各種別への適合度を用いて前記構造化文書の検索
を行う構造化文書検索システムにおいて、キーワードなどの検索のための意味的な条件と目的の構
造化文書の種別を入力し、検索結果を出力する入出力装
置と、構造化文書を保持するデータベースから前記意味的な条
件によって検索を行う検索エンジンと、計算された前記構造化文書それぞれの各種別への適合度
を用いて、前記検索エンジンで検索された構造化文書の
該種別に対する適合度を検索する種別検索器と、前記検索エンジンから検索結果を受け取とるとともに、
前記種別検索器から前記検索エンジンで検索された構造
化文書の該種別に対する適合度の検索結果を受け取り、
この種別に対する適合度と前記入出力装置を介して入力
された前記種別を参照して、前記入出力装置に出力する
該検索結果を選択する絞り込み器と、を少なくとも有して構成される構造化文書検索システ
ム。
【請求項１２】請求項１〜１０のいずれか一項に記載の
構造化文書分類装置によって計算された構造化文書それ
ぞれの各種別への適合度を用いて前記構造化文書の検索
を行う構造化文書検索システムにおいて、キーワードなどの検索のための意味的な条件を入力し、
検索結果を出力する入出力装置と、構造化文書を保持するデータベースから前記意味的な条
件によって検索を行う検索エンジンと、計算された前記構造化文書それぞれの各種別への適合度
を用いて、前記検索エンジンで検索された構造化文書の
該種別に対する適合度を検索する種別検索器と、前記検索エンジンから検索結果を受け取とるとともに、
前記種別検索器から前記検索エンジンで検索された構造
化文書の該種別に対する適合度の検索結果を受け取り、
この種別に対する適合度を参照して、該検索結果をグル
ープ分けして前記入出力装置に出力する分別器、を少なくとも有して構成される構造化文書検索システ
ム。
【請求項１３】構造化文書を種別に分類する構造化文書
分類装置をコンピュータで実現するプログラムを記録し
た記録媒体において、コンピュータに構造化文書の構造的または付帯的な特徴
を抽出し、この抽出した特徴を前記構造的または付帯的
な特徴に特化したルールによって照合し、種別への適合
度を計算することで該構造化文書を種別に分類する機能
を実現するプログラムを記録した記録媒体。
【請求項１４】構造化文書を種別に分類する構造化文書
分類装置をコンピュータで実現するプログラムを記録し
た記録媒体において、コンピュータに、構造化文書それぞれについて前記構造化文書のタグとキ
ーワードのペアについての特徴を抽出するキーワード特
徴抽出機能を含む構造的特徴抽出機能と、前記キーワード特徴抽出機能が抽出する前記タグとキー
ワードのペアについての特徴に特化したルールを保持す
る構造的特徴ルールベース機能と、前記構造的特徴抽出機能の抽出する特徴と前記構造的特
徴ルールベース機能によって保持されるルールの条件と
を照合することで前記構造化文書それぞれの各種別への
適合度を計算し、この計算結果をデータとして保存する
照合機能と、を実現するプログラムを記録した記録媒体。
【請求項１５】構造化文書を種別に分類する構造化文書
分類装置をコンピュータで実現するプログラムを記録し
た記録媒体において、コンピュータに、構造化文書それぞれについて前記構造化文書に含まれる
イメージファイルについての特徴を抽出するイメージ特
徴抽出機能を含む構造的特徴抽出機能と、前記イメージ特徴抽出機能が抽出する前記イメージファ
イルについての特徴に特化したルールを保持する構造的
特徴ルールベース機能と、前記構造的特徴抽出機能の抽出する特徴と前記構造的特
徴ルールベース機能によって保持されるルールの条件と
を照合することで前記構造化文書それぞれの各種別への
適合度を計算し、この計算結果をデータとして保存する
照合機能と、を実現するプログラムを記録した記録媒体。
【請求項１６】構造化文書を種別に分類する構造化文書
分類装置をコンピュータで実現するプログラムを記録し
た記録媒体において、コンピュータに、構造化文書それぞれについて前記構造化文書に含まれる
リンクについての特徴を抽出するリンク特徴抽出機能を
含む構造的特徴抽出機能と、前記リンク特徴抽出機能が抽出する前記リンクについて
の特徴に特化したルールを保持する構造的特徴ルールベ
ース機能と、前記構造的特徴抽出機能の抽出する特徴と前記構造的特
徴ルールベース機能によって保持されるルールの条件と
を照合することで前記構造化文書それぞれの各種別への
適合度を計算し、この計算結果をデータとして保存する
照合機能と、を実現するプログラムを記録した記録媒体。
【請求項１７】構造化文書を種別に分類する構造化文書
分類装置をコンピュータで実現するプログラムを記録し
た記録媒体において、コンピュータに、構造化文書それぞれについて前記構造化文書のタグ構造
についての特徴を抽出するタグ構造特徴抽出機能を含む
構造的特徴抽出機能と、前記タグ構造特徴抽出機能が抽出する前記タグ構造につ
いての特徴に特化したルールを保持する構造的特徴ルー
ルベース機能と、前記構造的特徴抽出機能の抽出する特徴と前記構造的特
徴ルールベース機能によって保持されるルールの条件と
を照合することで前記構造化文書それぞれの各種別への
適合度を計算し、この計算結果をデータとして保存する
照合機能と、を実現するプログラムを記録した記録媒体。
【請求項１８】構造化文書を種別に分類する構造化文書
分類装置をコンピュータで実現するプログラムを記録し
た記録媒体において、コンピュータに、構造化文書それぞれについて前記構造化文書自身のＵＲ
Ｌ情報についての特徴を抽出するＵＲＬ特徴抽出機能を
含む構造的特徴抽出機能と、前記ＵＲＬ特徴抽出機能が抽出する前記ＵＲＬ情報につ
いての特徴に特化したルールを保持する構造的特徴ルー
ルベース機能と、前記構造的特徴抽出機能の抽出する特徴と前記構造的特
徴ルールベース機能によって保持されるルールの条件と
を照合することで前記構造化文書それぞれの各種別への
適合度を計算し、この計算結果をデータとして保存する
照合機能と、を実現するプログラムを記録した記録媒体。
【請求項１９】構造化文書を種別に分類する構造化文書
分類装置をコンピュータで実現するプログラムを記録し
た記録媒体において、コンピュータに、構造化文書それぞれについて前記構造化文書に含まれる
プラグインについての特徴を抽出するプラグイン特徴抽
出機能を含む構造的特徴抽出機能と、前記プラグイン特徴抽出機能が抽出するプラグインにつ
いての特徴に特化したルールを保持する構造的特徴ルー
ルベース機能と、前記構造的特徴抽出機能の抽出する特徴と前記構造的特
徴ルールベース機能によって保持されるルールの条件と
を照合することで前記構造化文書それぞれの各種別への
適合度を計算し、この計算結果をデータとして保存する
照合機能と、を実現するプログラムを記録した記録媒体。
【請求項２０】構造化文書を種別に分類する構造化文書
分類装置をコンピュータで実現するプログラムを記録し
た記録媒体において、コンピュータに、構造化文書それぞれについて前記構造化文書の上位文書
と下位文書についての構造的特徴を抽出する第１の構造
的特徴抽出機能と、前記第１の構造的特徴抽出機能を駆動する上下位特徴抽
出機能を含む第２の構造的特徴抽出機能と、前記上下位特徴抽出機能を介して前記第１の構造的特徴
抽出機能によって抽出された特徴に特化したルールを保
持する構造的特徴ルールベース機能と、前記第１の構造的特徴抽出機能の抽出する特徴と前記構
造的特徴ルールベース機能によって保持されるルールの
条件とを照合することで前記構造化文書それぞれの各種
別への適合度を計算し、この計算結果をデータとして保
存する照合機能と、を実現するプログラムを記録した記録媒体。
【請求項２１】構造化文書を種別に分類する構造化文書
分類装置をコンピュータで実現するプログラムを記録し
た記録媒体において、コンピュータに、構造化文書それぞれについて前記構造化文書の構造的ま
たは付帯的な特徴を抽出する構造的特徴抽出機能と、前記構造的特徴抽出機能が抽出する前記構造化文書の構
造的または付帯的な特徴に特化したルールを保持する構
造的特徴ルールベース機能と、前記構造的特徴抽出機能の抽出する特徴と前記構造的特
徴ルールベース機能によって保持されるルールの条件と
を照合することで前記構造化文書それぞれの各種別への
適合度を計算し、この計算結果をデータとして保存する
照合機能と、を実現し、前記構造的特徴抽出機能が抽出する構造的または付帯的
な特徴が、前記構造化文書のタグとキーワードのペア、
前記構造化文書に含まれるイメージファイル、前記構造
化文書に含まれるリンク、前記構造化文書のタグ構造、
前記構造化文書自身のＵＲＬ情報、または、前記構造化
文書に含まれるプラグインのいずれか１つもしくはそれ
らの組み合わせであることを特徴とするプログラムを記
録した記録媒体。
【請求項２２】構造化文書の種別への適合度を種別間の
関係や大局的な視点から微調整するルールを保持する調
整ルール機能と、該調整ルール機能で保持される該調整ルールを用いて構
造化文書の種別への適合度を微調整する点数調整機能
と、をコンピュータに更に実現することを特徴とする請求項
１３〜２１のいずれか１項に記載のプログラムを記録し
た記録媒体。
【請求項２３】請求項１３〜２１のいずれか一項に記載
のプログラムを記録した記録媒体で実現される構造化文
書分類装置によって計算された構造化文書それぞれの各
種別への適合度を用いて、前記構造化文書の検索を行う
構造化文書検索システムをコンピュータで実現するプロ
グラムを記録した記録媒体において、コンピュータに、コンピュータに備える入出力装置を介して、キーワード
などの検索のための意味的な条件と目的の構造化文書の
種別を入力し、検索結果を出力する機能と、構造化文書を保持するデータベースから前記意味的な条
件によって検索を行う検索エンジン機能と、計算された前記構造化文書それぞれの各種別への適合度
を用いて、前記検索エンジン機能によって検索された構
造化文書の該種別に対する適合度を検索する種別検索機
能と、前記検索エンジン機能から検索結果を受け取とるととも
に、前記種別検索機能から前記検索エンジン機能によっ
て検索された構造化文書の該種別に対する適合度の検索
結果を受け取り、この種別に対する適合度と前記入出力
装置を介して入力された前記種別を参照して、前記入出
力装置に出力する該検索結果を選択する絞り込み機能
と、を実現するプログラムを記録した記録媒体。
【請求項２４】請求項１３〜２１のいずれか一項に記載
のプログラムを記録した記録媒体で実現される構造化文
書分類装置によって計算された構造化文書それぞれの各
種別への適合度を用いて、前記構造化文書の検索を行う
構造化文書検索システムをコンピュータで実現するプロ
グラムを記録した記録媒体において、コンピュータに、コンピュータに備える入出力装置を介して、キーワード
などの検索のための意味的な条件を入力し、検索結果を
出力する機能と、構造化文書を保持するデータベースから前記意味的な条
件によって検索を行う検索エンジン機能と、計算された前記構造化文書それぞれの各種別への適合度
を用いて、前記検索エンジン機能によって検索された構
造化文書の該種別に対する適合度を検索する種別検索機
能と、前記検索エンジン機能から検索結果を受け取とるととも
に、前記種別検索機能から前記検索エンジン機能によっ
て検索された構造化文書の該種別に対する適合度の検索
結果を受け取り、この種別に対する適合度を参照して、
該検索結果をグループ分けして前記入出力装置に出力す
る分別機能と、を実現するプログラムを記録した記録媒体。