JP4231298B2

JP4231298B2 - 情報抽出規則作成システム、情報抽出規則作成プログラム、情報抽出システム及び情報抽出プログラム

Info

Publication number: JP4231298B2
Application number: JP2003005806A
Authority: JP
Inventors: 聡哉栗島; 孝史井上; 勝宮本; 久茨木
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2003-01-14
Filing date: 2003-01-14
Publication date: 2009-02-25
Anticipated expiration: 2023-01-14
Also published as: JP2004220251A

Description

【０００１】
【発明の属する技術分野】
本発明は、ＷＷＷ上でニュースサイト、電子掲示板、個人の日記サイトなど特定のテンプレートが設定されていて、機械的にＷｅｂページを作成するような文書の中から、メニューやコピーライト、自動的に挿入されるニュースのヘッドラインなどの部分を除いて本文部分のみを特定することが可能なルールを作成する情報抽出規則作成システム、情報抽出規則作成方法及び情報抽出規則作成プログラムに関する。
【０００２】
【従来の技術】
ＷＷＷ上において、ニュースのように情報量が多く、新しい情報を常に提供する必要があるコンテンツを提供している提供者や、電子掲示板や個人の日記をＷＷＷ上で発表している者は、大量のＨＴＭＬ文書をその都度作成するのは労力がかかるため、動的にＷｅｂページの内容の変更を行ったり、特定のテンプレートに沿ってＷｅｂページを作成して提供しているのが一般的である。
このような、動的にＷｅｂページの内容を変更して情報を提供するシステムでは提供している情報の中に、中心となる記事以外に記事に関連性のある情報や最新のニュースの情報や広告に関するリンク情報などのメニュー情報を追加して提供している。
一方、コンピュータプログラムを使用してＷｅｂページの内容を収集・検索するシステムでは、予め収集しておいたＷｅｂページのデータを用いて所望の情報を検索することが行われている。またホームページの更新日時を推定し、検索システムの検索結果に加味して提供するシステムも知られている。
【０００３】
このように、従来技術ではＷｅｂページの検索を行う場合には、予めＷｅｂページを収集したときの情報をそのまま利用して検索を行うのが一般的である。また、既存の技術ではＷｅｂサーバから取得する更新日時の情報が正確でないため、検索結果を日付順に並べて検索結果を表示することができない。また、内容を比較して更新日時を推定する場合は自動的に挿入される広告やヘッドラインなどの部分により正確に更新されたかどうかを推定できないという問題がある。
このような、課題を解決する手法としては特許文献１に示すような手法で本文の記事部分を特定し抽出する技術が知られている。
【０００４】
【特許文献１】
特開２００２−３３４０９０号公報
【０００５】
【発明が解決しようとする課題】
しかしながら、特許文献１に示すシステムにあっては、同一のドメイン内でのＷｅｂページを複数のブロックに分割して比較することにより、対象のブロックの出現回数をもとに本文部分の特定を行うため、定期的に収集したＷｅｂページのデータから本文部分の特定を行うためにはブロックの出現回数をデータベースに記録し、データベースを参照するという処理をその都度実行しなければならない。このためリアルタイムで高速に本文部分の特定を行うためには、作業を行うサーバのメモリやＣＰＵなどのリソースを大量に消費してしまうという問題がある。
【０００６】
本発明は、このような事情に鑑みてなされたもので、ＷＷＷ上でニュースサイト、電子掲示板、個人の日記サイトなど特定のテンプレートが設定されていて、機械的にＷｅｂページを作成するような文書の中から、メニューやコピーライト、自動的に挿入されるニュースのヘッドラインなどの部分を除いて本文部分のみを特定することが可能なルールを作成する情報抽出規則作成システム、情報抽出規則作成方法及び情報抽出規則作成プログラムを提供することを目的とする。
【０００７】
【課題を解決するための手段】
本発明は、予め収集されたＷｅｂページデータから本文部分を抽出する本文抽出手段と、前記Ｗｅｂページデータを解析して、前記本文抽出手段によって抽出された本文部分が現れる箇所をデータ構造で表現した抽出規則を作成する抽出規則作成手段と、前記抽出規則作成手段によって作成した同一の抽出規則が適用される複数のＵＲＬをグループ化し、このグループ化されたＵＲＬと前記抽出規則とを関連付ける適用抽出規則作成手段とを備えたことを特徴とする。
【０００８】
本発明は、前記Ｗｅｂページデータは、ＨＴＭＬで表現されたデータであり、前記抽出規則は、ＨＴＭＬのタグの階層構造で表現することを特徴とする。
【０００９】
本発明は、前記Ｗｅｂページデータは、ＨＴＭＬで表現されたデータであり、前記抽出規則は、ＨＴＭＬ内の所定のコメントで囲まれたデータ構造で表現することを特徴とする。
【００１０】
本発明は、予め収集されたＷｅｂページデータから本文部分のみを抽出する情報抽出システムであって、予め収集されたＷｅｂページデータから本文部分を抽出する本文抽出手段と、前記Ｗｅｂページデータを解析して、前記本文抽出手段によって抽出された本文部分が現れる箇所をデータ構造で表現した抽出規則を作成する抽出規則作成手段と、前記抽出規則作成手段によって作成した同一の抽出規則が適用される複数のＵＲＬをグループ化し、このグループ化されたＵＲＬと前記抽出規則とを関連付ける適用抽出規則作成手段と、新たに収集されたＷｅｂページデータから、前記抽出規則を適用してＷｅｂページデータの本文部分のみを抽出してデータベースに蓄える情報抽出手段とを備えたことを特徴とする。
【００１１】
本発明は、予め収集されたＷｅｂページデータから本文部分を抽出する本文抽出過程と、前記Ｗｅｂページデータを解析して、前記本文抽出過程によって抽出された本文部分が現れる箇所をデータ構造で表現した抽出規則を作成する抽出規則作成過程と、前記抽出規則作成過程によって作成した同一の抽出規則が適用される複数のＵＲＬをグループ化し、このグループ化されたＵＲＬと前記抽出規則とを関連付ける適用抽出規則作成過程とを有することを特徴とする。
【００１２】
本発明は、前記Ｗｅｂページデータは、ＨＴＭＬで表現されたデータであり、前記抽出規則は、ＨＴＭＬのタグの階層構造で表現することを特徴とする。
【００１３】
本発明は、前記Ｗｅｂページデータは、ＨＴＭＬで表現されたデータであり、前記抽出規則は、ＨＴＭＬ内の所定のコメントで囲まれたデータ構造で表現することを特徴とする。
【００１４】
本発明は、予め収集されたＷｅｂページデータから本文部分のみを抽出する情報抽出方法であって、予め収集されたＷｅｂページデータから本文部分を抽出する本文抽出過程と、前記Ｗｅｂページデータを解析して、前記本文抽出過程によって抽出された本文部分が現れる箇所をデータ構造で表現した抽出規則を作成する抽出規則作成過程と、前記抽出規則作成過程によって作成した同一の抽出規則が適用される複数のＵＲＬをグループ化し、このグループ化されたＵＲＬと前記抽出規則とを関連付ける適用抽出規則作成過程と、新たに収集されたＷｅｂページデータから、前記抽出規則を適用してＷｅｂページデータの本文部分のみを抽出してデータベースに蓄える情報抽出過程とを有することを特徴とする。
【００１５】
本発明は、予め収集されたＷｅｂページデータから本文部分を抽出する本文抽出処理と、前記Ｗｅｂページデータを解析して、前記本文抽出処理によって抽出された本文部分が現れる箇所をデータ構造で表現した抽出規則を作成する抽出規則作成処理と、前記抽出規則作成処理によって作成した同一の抽出規則が適用される複数のＵＲＬをグループ化し、このグループ化されたＵＲＬと前記抽出規則とを関連付ける適用抽出規則作成処理とをコンピュータに行わせることを特徴とする。
【００１６】
本発明は、前記Ｗｅｂページデータは、ＨＴＭＬで表現されたデータであり、前記抽出規則は、ＨＴＭＬのタグの階層構造で表現することを特徴とする。
【００１７】
本発明は、前記Ｗｅｂページデータは、ＨＴＭＬで表現されたデータであり、前記抽出規則は、ＨＴＭＬ内の所定のコメントで囲まれたデータ構造で表現することを特徴とする。
【００１８】
本発明は、予め収集されたＷｅｂページデータから本文部分のみを抽出する情報抽出プログラムであって、予め収集されたＷｅｂページデータから本文部分を抽出する本文抽出処理と、前記Ｗｅｂページデータを解析して、前記本文抽出処理によって抽出された本文部分が現れる箇所をデータ構造で表現した抽出規則を作成する抽出規則作成処理と、前記抽出規則作成処理によって作成した同一の抽出規則が適用される複数のＵＲＬをグループ化し、このグループ化されたＵＲＬと前記抽出規則とを関連付ける適用抽出規則作成処理と、新たに収集されたＷｅｂページデータから、前記抽出規則を適用してＷｅｂページデータの本文部分のみを抽出してデータベースに蓄える情報抽出処理とをコンピュータに行わせることを特徴とする。
【００１９】
本発明で実現されるシステムでは、収集したＷｅｂページのデータから本文部分を抽出する部分には、従来から知られている方法が適用可能であり、例えば、特許文献１に記載された手法を用いて、本文部分と思われる部分を特定し抽出を行う。
続いて、抽出した本文部分を、ＨＴＭＬのタグの木構造や特定の文字列で囲まれる部分などのように、本文部分を特定できる記述方式を作成し、ＵＲＬと対になったような形のルールを作成しデータベースに保存する。
続いて、先に作成した、ＵＲＬと対になったような形の記述方式を複数のＵＲＬに対して適用可能なルール（抽出規則）に変換する。これは複数のＵＲＬを指定可能な記述方式、前方一致するＵＲＬや数値やアルファベットで展開可能なＵＲＬの記述方式と、作成した本文部分を抽出可能な記述方式と対になっているようなルール（抽出規則）である。
続いて、作成したルール（抽出規則）を読み込み、Ｗｅｂデータに対してこのルール（抽出規則）を適用して、本文部分を抽出し、データベースに保存する。続いて、保存した本文抽出部分のデータベースの情報を用いて、Ｗｅｂ情報を検索する検索システムを行うためのインデックスを作成し、本文部分だけで検索処理を行うようにする。
また、このようにして得られた本文部分の差分を取ることにより、更新日時を推定し、更新日時の情報を検索システムのデータベースに追加することが可能になる。このことで、従来の本文抽出、更新日時推定の手法に比べて高速に、メモリの消費量や、計算量を低減し、リアルタイムで更新日時推定を行うことが可能になる。
【００２０】
【発明の実施の形態】
以下、本発明の一実施形態による情報抽出規則作成システムを図面を参照して説明する。図１は同実施形態の構成を示すブロック図である。この図において、符号１は、所望の情報を抽出するための規則を作成する情報抽出規則作成部である。符号２は、情報を提供するＷｅｂサーバである。この図においては、１つのＷｅｂサーバのみを図示したが、情報を抽出する対象のＷｅｂサーバは、複数である。符号３は、複数のＷｅｂサーバ２から自動的に情報を収集する収集ロボットであり、ソフトウェアによって実現される。符号４は、収集ロボット３が収集した情報を蓄えるＷｅｂ情報データベースである。符号５は、収集ロボット３が収集した情報の中から抽出した本文の部分のみを蓄える本文抽出データベースである。符号６は、本文抽出データベース５に蓄えられた情報に基づいてインデックスを作成するインデックス作成部である。符号７は、本文抽出データベース５に蓄えられた情報の更新日時を推定する更新日時推定部である。符号８は、インデックス作成部６及び更新日時推定部７の出力情報を蓄える検索インデックスデータベースである。符号９は、検索インデックスデータベース８を参照して、Ｗｅｂ情報の検索を行う検索システムである。
【００２１】
符号１１は、情報抽出規則を作成するために、Ｗｅｂ情報データベース４に蓄えられている情報の中から本文の部分を抽出する本文抽出部である。符号１２は、本文抽出部１１において抽出された本文の内容から本文部分を抽出するための規則（ルール）を作成するルール作成部である。符号１３は、ルール作成部１２のおいて作成した情報抽出規則を蓄えるルールデータベースである。符号１４は、ルールデータベース１３に蓄えられている情報抽出規則を適用する対象のＵＲＬ（Uniform Resource Locators）を特定する適用ルール作成部である。符号１５は、先に作成した情報抽出規則（ルール）を適用しながらＷｅｂ情報データベース４から所望の情報を抽出するルール適用部である。符号１６は、ルールデータベース１３に蓄えられている情報抽出規則を適用する対象のＵＲＬを特定した結果を蓄える適用ルールデータベースである。
【００２２】
次に、図１に示すシステムの動作を説明する。初めに、収集ロボット３の動作を説明する。収集ロボット３は、予め決められているＵＲＬに基づいて、複数のＷｅｂサーバ２からＷｅｂ情報の収集を行い、収集したＷｅｂ情報をＷｅｂ情報データベース４に蓄える。この動作は、予め決められた時間間隔（例えば、１日に１回）で実行され、収集された情報には、収集された日時と情報提供元のＵＲＬが識別できる情報が付与されてＷｅｂ情報データベース４に蓄えられる。Ｗｅｂ情報データベース４に蓄えられるＷｅｂ情報は、ＨＴＭＬ（Hypertext Markup Language）の形式で蓄えられる。
【００２３】
次に、図２を参照して、本文抽出部１１の動作を説明する。まず、本文抽出部１１は、Ｗｅｂ情報データベース４からＷｅｂページデータ（ＨＴＭＬデータ）を読み出す（ステップＳ１）。続いて、本文抽出部１１は、読み込んだＷｅｂページのデータを解析してブロックに分割する（ステップＳ２）。ブロックの分割は、ＨＴＭＬのタグで区切られているテキスト部分をひとつのブロックとして分割する。ＨＴＭＬのタグは見出し文や本文の開始位置と終了位置を指定する括弧のようなもので、始まりを示す＜ＴＡＧ＞の形式のタグと、終りを示す＜／ＴＡＧ＞の形式のタグをセットにして使われるものである。例えば、読み出したＨＴＭＬが、
＜ＴＡＧ＞
文字列．．．．
＜／ＴＡＧ＞
という場合には＜ＴＡＧ＞と＜／ＴＡＧ＞で囲まれる文字列の部分が１つのブロックとなる。また、読み出したＨＴＭＬが、
＜ＴＡＧ１＞
＜ＴＡＧ２＞
文字列１．．．．．
＜／ＴＡＧ２＞
文字列２．．．．．
＜／ＴＡＧ１＞
という場合には文字列１、文字列２の二つのブロックに分割する。
【００２４】
次に、本文抽出部１１は、分割したブロックの文字列に対して、ＩＤ番号を割り振る（ステップＳ３）。このＩＤ番号は、情報提供元（ドメイン）と文字列を一意に識別可能とする番号を割り振る。続いて、本文抽出部１１は、ブロックのＩＤ番号毎に出現回数をカウントする（ステップＳ４）。これは、タグで囲まれた部分の文字列が完全に一致するものの個数を数えることを意味する。この処理をＷｅｂ情報データベース４内に蓄えられている全てのデータに対して繰り返し実行する（ステップＳ５）ことにより、同一ドメイン内での同一文字列の出現回数が求められたこととなる。ここで求めたＩＤ番号毎の出現回数は、本文抽出部１１内に保持される。
【００２５】
次に、本文抽出部１１は、ステップＳ６〜Ｓ８において、ステップＳ１〜Ｓ３と同様に、Ｗｅｂページを読み込み、ブロックに分割し、ＩＤ番号を割り振る。そして、割り振ったＩＤ番号と同一のＩＤ番号を持つ文字列の出現回数が予め決められた回数以下（例えば３回以下）である場合、このブロックを本文部分であると見なして、このブロックのＩＤ番号を抽出し内部に保持する（ステップＳ９）。この処理をＷｅｂ情報データベース４内に蓄えられている全てのデータに対して繰り返し実行する（ステップＳ１０）ことにより、出現回数が少ない文字列のブロックが抽出されたこととなる。本文抽出部１１は、この抽出結果をルール作成部１２へ渡す。
【００２６】
なお、ステップＳ３で作成したブロックＩＤのリストを、ＷｅｂページのＵＲＬと一対一に対応させたデータベースを作成することで、ブロックの分割を行い、ＩＤを決定する処理の簡略化するようにしてもよい。
【００２７】
このように、本文抽出部１１は、収集したすべてのＷｅｂページからデータを読み込み、Ｗｅｂページをブロックに分割し、分割したブロックの出現回数をカウントする。ブロックはテキストで識別するので同一の文字列が異なるＷｅｂページに存在すると出現回数が増加する。そのようにしてブロックの出現回数をカウントしたデータを保存しておき、もう一度Ｗｅｂページをブロックに分割し出現回数のデータを保存したデータベースから読み込み、出現回数が少ないものを本文部分として抽出するという動作を行う。
【００２８】
次に、図３を参照して、ルール作成部１２の動作を説明する。まず、ルール作成部１２は、本文抽出部１１から本文部分を特定するデータを取得する（ステップＳ２１）。続いて、ルール作成部１２は、Ｗｅｂデータの情報を取得する（ステップＳ２２）。そして、ルール作成部１２は、Ｗｅｂページのデータを解析し、タグの木構造（階層構造）の情報を取得する（ステップＳ２２）。ここでいう木構造とは、例えばＨＴＭＬの内容が、

である場合に、「ＴＡＧ１−ＴＡＧ２−文字列」と表現することである。
【００２９】
次に、ルール作成部１２は、ブロックの文字列（本文）の部分とドメインの情報を元にブロックのＩＤを取得する。そして、ステップＳ２１において取得した本文部分とステップＳ２２において取得した情報のブロックＩＤとを比較し、ブロックが本文部分として抽出されているブロックを特定し、この本文部分を特定できる抽出規則「ＴＡＧ１−ＴＡＧ２」を取得する（ステップＳ２３）。この抽出規則「ＴＡＧ１−ＴＡＧ２」は、タグＴＡＧ１の下位の階層のタグＴＡＧ２の中に本文部分が存在することを意味する。
【００３０】
次に、ルール作成部１２は、ここで得られた抽出規則を対象ＵＲＬと関連付けてルールデータベース１３に保存する（ステップＳ２４）。
なお、ＨＴＭＬ内のコメントの情報に基づいて抽出規則を取得するようにしてもよい。例えば、ＨＴＭＬの内容が、
＜！− コメント１＞
文字列．．．．
＜！− コメント２＞
である場合に、「コメント１、サンプル、コメント２」を抽出規則とする。
【００３１】
次に、図４を参照して適用ルール作成部１４の動作を説明する。まず、適用ルール作成部１４は、ルールデータベース１３より抽出規則のデータを取得する（ステップＳ３１）。続いて、適用ルール作成部１４は、取得した抽出規則の情報を、ＵＲＬや抽出規則の類似しているものをグループにする（ステップＳ３２）。例えば、「http://sample.co.jp/sample/001.html」、「http://sample.co.jp/sample/002.html」などのように、ＵＲＬの特定の部分が数値（この例では、００１と００２）になっており、置き換えることが可能である場合や、特定のディレクトリ以下である場合などのような場合に、そのＵＲＬが当てはまる抽出規則を調べ、適用する抽出規則が同一である場合には、複数のＵＲＬから同一の抽出規則を当てはめることが可能な抽出規則をグループ化し、複数のＵＲＬが「http://sample.co.jp/sample/*.html」という表現のＵＲＬを作成する。この例では、「＊」の部分を除く文字列が一致するＵＲＬが対象となることを意味する。
【００３２】
次に、適用ルール作成部１４は、ここで作成した、ＵＲＬの表現と、抽出規則を適用ルールデータベース１６に保存する（ステップＳ３３）。複数の抽出規則が存在する場合には、適用ルールデータベースには、「ＵＲＬ表現抽出規則１抽出規則２」などのように列記して保存する。
この処理動作により、ルール作成部１２において作成された抽出規則と、この抽出規則が適用されるＵＲＬが関係付けられて適用ルールデータベース１６に保存されたこととなる。
なお、図２、図３、図４に示す処理動作（本文抽出部１１、ルール作成部１２、適用ルール作成部１４が行う処理動作）は、初めの一回のみ実行するだけでよく、抽出規則が作成された後は、情報を抽出する度に行う必要はない処理である。
【００３３】
次に、図５を参照してルール適用部１５の動作を説明する。まず、ルール適用部１５は、適用ルールデータベース１６から本文部分抽出規則と適用先のＵＲＬを読み出し、メモリ上に保存する（ステップＳ４１）。続いて、ルール適用部１５は、Ｗｅｂ情報データベース４からＷｅｂページ情報を読み出す（ステップＳ４２）。そして、読み出したＷｅｂページ情報の提供元ＵＲＬが、本文部分抽出規則のＵＲＬの表現とが適合するかを判定する（ステップＳ４３）。この判定の結果、適合しないのであればステップＳ４７へ移行する。一方、適合するのであれば、読み出したＷｅｂページの構造を解析する（ステップＳ４４）。これにより木構造またはコメントの情報が得られる。
【００３４】
次に、ルール適用部１５は、本文部分抽出規則に基づいて、本文部分の文字列を抽出する（ステップＳ４５）。そして、この抽出した本文部分の文字列に対して、情報提供元ＲＬと関連付けて本文抽出データベース５に保存する（ステップＳ４６）。続いて、ルール適用部１５は、処理を行っていないＷｅｂページが存在するかどうかをチェックし（ステップＳ４７）、存在するならステップＳ４２に戻り処理を繰り返し実行する。
この動作によって、本文抽出データベース５には、抽出規則によって抽出された本文部分と情報提供元ＵＲＬが関連付けられて保存されることとなる。
【００３５】
次に、図６を参照して、更新日時推定部７の動作を説明する。まず、更新日時推定部７は、本文抽出データベース５からＵＲＬに基づいて本文部分の文字列である本文情報を読み出す（ステップＳ５１）。続いて、更新日時推定部７は、読み出した本文情報のダイジェストデータを作成する（ステップＳ５２）。ダイジェストデータの作成は、従来から知られているＭＤ５（ＲＦＣ１３２１）などのダイジェストアルゴリズムを用いて、一定の長さのデータに変換することで実現可能である。
【００３６】
次に、更新日時推定部７は、ダイジェストデータと収集時間とをＵＲＬに関連付けて内部に保持する（ステップＳ５３）。続いて、現在から一番近い過去のデータから順にダイジェストデータを比較し、最初にそのダイジェストデータが出現したときの収集日時を取得し、この日時を更新日時と推定する（ステップＳ５４）。そして、推定した更新日時とダイジェストデータとＵＲＬを関連付けて検索インデックスデータベース８に保存する。この処理を全てのＷｅｂページデータに対して実行する（ステップＳ５６）ことにより、検索インデックスデータベース８には、ダイジェストデータと収集時間がＵＲＬと関連付けられて保存されることとなる。
【００３７】
次に、図７を参照して、インデックス作成部６の動作を説明する。まず、インデックス作成部６は、本文抽出データベース５からＵＲＬに基づいて本文部分の文字列である本文情報を読み出す（ステップＳ６１）。そして、この本文部分の文字列の形態素解析を行い、単語に分割する（ステップＳ６２）。続いて、インデックス作成部６は、分割した単語のそれぞれとＵＲＬを関連付けて検索インデックスデータベース８に保存する（ステップＳ６３）。この処理を全てのＷｅｂページデータに対して実行する（ステップＳ６４）ことにより、検索インデックスデータベース８には、分割した単語とＵＲＬが関連付けられて保存されることとなる。
【００３８】
次に、図８を参照して、検索インデックスデータベース８を使用して情報の検索を行う検索システム９の動作を説明する。まず、検索システム９は、図示しないクライアントから検索キーワードを受け取る（ステップＳ７１）。これを受けて、検索システム９は、検索インデックスデータベース８を参照して、受け取った検索キーワードが含まれるＵＲＬを抽出する（ステップＳ７２）。そして、抽出したＵＲＬから、保存されている情報の更新日時を取得し（ステップＳ７３）、取得した更新日時の順序にＵＲＬを並び替えてクライアントに表示する（ステップＳ７４）。
このように、本文部分のみを抽出する規則を使用して、検索インデックスを作成するようにしたため、検索効率を向上させることが可能となる。
【００３９】
なお、図１における各構成ブロックの機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより情報抽出規則作成処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。
【００４０】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。
【００４１】
【発明の効果】
以上説明したように、本発明によれば、Ｗｅｂページの中から利用者にとって必要だと思われる本文部分の抽出を機械的に行うことできるという効果が得られる。このことによって、利用者がＷｅｂページをキーワードによる全文検索を行うときには、利用者が必要としている本文部分にキーワードが含まれるＷｅｂページの検索を行うことが可能で、検索精度を向上させることが可能になる。また、Ｗｅｂページの更新日時を推定するときに、自動的に挿入される、最新のニュースのヘッドラインや、広告などに影響されることなく本文が変化しているかどうかで更新されたかどうかを決定可能なので更新日時推定精度が向上する。また、初回のみに本文抽出を行うときに情報抽出規則を作成し、この抽出規則に則って、２回目以降の情報抽出を行うようにしたため、すべてのＷｅｂページを解析しブロックの出現回数をその都度求め、この出現回数に基づいて本文部分を特定する方法に比べて、より高速に本文部分の抽出が行うことが可能になるという効果も得られる。
【図面の簡単な説明】
【図１】本発明の一実施形態の構成を示すブロック図である。
【図２】図１に示す本文抽出部１１の動作を示すフローチャートである。
【図３】図１に示すルール作成部１２の動作を示すフローチャートである。
【図４】図１に示す適用ルール作成部１４の動作を示すフローチャートである。
【図５】図１に示すルール適用部１５の動作を示すフローチャートである。
【図６】図１に示す更新日時推定部７の動作を示すフローチャートである。
【図７】図１に示すインデックス作成部６の動作を示すフローチャートである。
【図８】図１に示す検索システム９の動作を示すフローチャートである。
【符号の説明】
１・・・情報抽出規則作成部
１１・・・本文抽出部
１２・・・ルール作成部
１３・・・ルールデータベース
１４・・・適用ルール作成部
１５・・・ルール適用部
１６・・・適用ルールデータベース
２・・・Ｗｅｂサーバ
３・・・収集ロボット
４・・・Ｗｅｂ情報データベース
５・・・本文抽出データベース
６・・・インデックス作成部
７・・・更新日時推定部
８・・・検索インデックスデータベース
９・・・検索システム

Claims

情報提供元となる複数のドメインから予め収集されＷｅｂ情報データベースに蓄えられた複数のＷｅｂページデータをＨＴＭＬのタグによってブロックに分割し、分割した前記ブロックの文字列に対して前記ドメインと前記ブロックの文字列を一意に識別可能とするＩＤ番号を割り振り、前記ＩＤ番号毎に出現回数をカウントすることにより、同一ドメイン内での同一文字列の出現回数を求め、前記出現回数が予め決められた回数以下の前記ＩＤ番号を抽出する本文抽出手段と、
前記Ｗｅｂページデータを解析してタグの階層構造の情報を取得し、前記本文抽出手段によって抽出された前記ＩＤ番号に対応した本文部分が現れる箇所を、ＨＴＭＬのタグの階層構造におけるタグの出現順序で表現した抽出規則を取得し、得られた前記抽出規則を前記ＷｅｂページデータのＵＲＬと関連付けてルールデータベースに格納する抽出規則作成手段と
を備えたことを特徴とする情報抽出規則作成システム。
情報提供元となる複数のドメインから予め収集されＷｅｂ情報データベースに蓄えられた複数のＷｅｂページデータをＨＴＭＬのタグによってブロックに分割し、分割した前記ブロックの文字列に対して前記ドメインと前記ブロックの文字列を一意に識別可能とするＩＤ番号を割り振り、前記ＩＤ番号毎に出現回数をカウントすることにより、同一ドメイン内での同一文字列の出現回数を求め、前記出現回数が予め決められた回数以下の前記ＩＤ番号を抽出する本文抽出手段と、
前記Ｗｅｂページデータを解析してタグの階層構造の情報を取得し、前記本文抽出手段によって抽出された前記ＩＤ番号に対応した本文部分が現れる箇所を、ＨＴＭＬのタグの階層構造におけるタグの出現順序で表現した抽出規則を取得し、得られた前記抽出規則を前記ＷｅｂページデータのＵＲＬと関連付けてルールデータベースに格納する抽出規則作成手段と、
前記ルールデータベースより抽出規則を取得し、前記抽出規則作成手段によって作成した同一の抽出規則に対して、該抽出規則が提供される複数のＵＲＬが特定のディレクトリ以上で同じであれば、該特定のディレクトリ以上が同じで複数のＵＲＬを表現するグループ化されたＵＲＬを作成し、該グループ化されたＵＲＬと抽出規則とを関連付けて適用ルールデータベースに格納する適用抽出規則作成手段と
を備えたことを特徴とする情報抽出規則作成システム。
予め収集されたＷｅｂページデータから本文部分のみを抽出する情報抽出システムであって、
情報提供元となる複数のドメインから予め収集されＷｅｂ情報データベースに蓄えられた複数のＷｅｂページデータをＨＴＭＬのタグによってブロックに分割し、分割した前記ブロックの文字列に対して前記ドメインと前記ブロックの文字列を一意に識別可能とするＩＤ番号を割り振り、前記ＩＤ番号毎に出現回数をカウントすることにより、同一ドメイン内での同一文字列の出現回数を求め、前記出現回数が予め決められた回数以下の前記ＩＤ番号を抽出する本文抽出手段と、
前記Ｗｅｂページデータを解析してタグの階層構造の情報を取得し、前記本文抽出手段によって抽出された前記ＩＤ番号に対応した本文部分が現れる箇所を、ＨＴＭＬのタグの階層構造におけるタグの出現順序で表現した抽出規則を取得し、得られた前記抽出規則を前記ＷｅｂページデータのＵＲＬと関連付けてルールデータベースに格納する抽出規則作成手段と
新たに収集されたＷｅｂページデータのＵＲＬと前記ルールデータベースに格納されたＵＲＬとが適合するか否かを判定し、適合した場合に、前記適合したＵＲＬに関連付けられた前記抽出規則を適用して、前記新たに収集されたＷｅｂページデータの本文部分のみを抽出してデータベースに蓄える情報抽出手段と
を備えたことを特徴とする情報抽出システム。
予め収集されたＷｅｂページデータから本文部分のみを抽出する情報抽出システムであって、
情報提供元となる複数のドメインから予め収集されＷｅｂ情報データベースに蓄えられた複数のＷｅｂページデータをＨＴＭＬのタグによってブロックに分割し、分割した前記ブロックの文字列に対して前記ドメインと前記ブロックの文字列を一意に識別可能とするＩＤ番号を割り振り、前記ＩＤ番号毎に出現回数をカウントすることにより、同一ドメイン内での同一文字列の出現回数を求め、前記出現回数が予め決められた回数以下の前記ＩＤ番号を抽出する本文抽出手段と、
前記Ｗｅｂページデータを解析してタグの階層構造の情報を取得し、前記本文抽出手段によって抽出された前記ＩＤ番号に対応した本文部分が現れる箇所を、ＨＴＭＬのタグの階層構造におけるタグの出現順序で表現した抽出規則を取得し、得られた前記抽出規則を前記ＷｅｂページデータのＵＲＬと関連付けてルールデータベースに格納する抽出規則作成手段と
前記ルールデータベースより抽出規則を取得し、前記抽出規則作成手段によって作成した同一の抽出規則に対して、該抽出規則が提供される複数のＵＲＬが特定のディレクトリ以上で同じであれば、該特定のディレクトリ以上が同じで複数のＵＲＬを表現するグループ化されたＵＲＬを作成し、該グループ化されたＵＲＬと抽出規則とを関連付けて適用ルールデータベースに格納する適用抽出規則作成手段と
新たに収集されたＷｅｂページデータのＵＲＬと前記適用ルールデータベースに格納されたグループ化されたＵＲＬとが適合するか否かを判定し、適合した場合に、前記適合したＵＲＬに関連付けられた前記抽出規則を適用して、前記新たに収集されたＷｅｂページデータの本文部分のみを抽出してデータベースに蓄える情報抽出手段と
を備えたことを特徴とする情報抽出システム。
情報提供元となる複数のドメインから予め収集されＷｅｂ情報データベースに蓄えられた複数のＷｅｂページデータをＨＴＭＬのタグによってブロックに分割し、分割した前記ブロックの文字列に対して前記ドメインと前記ブロックの文字列を一意に識別可能とするＩＤ番号を割り振り、前記ＩＤ番号毎に出現回数をカウントすることにより、同一ドメイン内での同一文字列の出現回数を求め、前記出現回数が予め決められた回数以下の前記ＩＤ番号を抽出する本文抽出手段と、
前記Ｗｅｂページデータを解析してタグの階層構造の情報を取得し、前記本文抽出手段によって抽出された前記ＩＤ番号に対応した本文部分が現れる箇所を、ＨＴＭＬのタグの階層構造におけるタグの出現順序で表現した抽出規則を取得し、得られた前記抽出規則を前記ＷｅｂページデータのＵＲＬと関連付けてルールデータベースに格納する抽出規則作成処理と
をコンピュータに行わせることを特徴とする情報抽出規則作成プログラム。
情報提供元となる複数のドメインから予め収集されＷｅｂ情報データベースに蓄えられた複数のＷｅｂページデータをＨＴＭＬのタグによってブロックに分割し、分割した前記ブロックの文字列に対して前記ドメインと前記ブロックの文字列を一意に識別可能とするＩＤ番号を割り振り、前記ＩＤ番号毎に出現回数をカウントすることにより、同一ドメイン内での同一文字列の出現回数を求め、前記出現回数が予め決められた回数以下の前記ＩＤ番号を抽出する本文抽出手段と、
前記Ｗｅｂページデータを解析してタグの階層構造の情報を取得し、前記本文抽出手段によって抽出された前記ＩＤ番号に対応した本文部分が現れる箇所を、ＨＴＭＬのタグの階層構造におけるタグの出現順序で表現した抽出規則を取得し、得られた前記抽出規則を前記ＷｅｂページデータのＵＲＬと関連付けてルールデータベースに格納する抽出規則作成処理と、
前記ルールデータベースより抽出規則を取得し、前記抽出規則作成手段によって作成した同一の抽出規則に対して、該抽出規則が提供される複数のＵＲＬが特定のディレクトリ以上で同じであれば、該特定のディレクトリ以上が同じで複数のＵＲＬを表現するグループ化されたＵＲＬを作成し、該グループ化されたＵＲＬと抽出規則とを関連付けて適用ルールデータベースに格納する適用抽出規則作成処理と
をコンピュータに行わせることを特徴とする情報抽出規則作成プログラム。
予め収集されたＷｅｂページデータから本文部分のみを抽出する情報抽出プログラムであって、
情報提供元となる複数のドメインから予め収集されＷｅｂ情報データベースに蓄えられた複数のＷｅｂページデータをＨＴＭＬのタグによってブロックに分割し、分割した前記ブロックの文字列に対して前記ドメインと前記ブロックの文字列を一意に識別可能とするＩＤ番号を割り振り、前記ＩＤ番号毎に出現回数をカウントすることにより、同一ドメイン内での同一文字列の出現回数を求め、前記出現回数が予め決められた回数以下の前記ＩＤ番号を抽出する本文抽出手段と、
前記Ｗｅｂページデータを解析してタグの階層構造の情報を取得し、前記本文抽出手段によって抽出された前記ＩＤ番号に対応した本文部分が現れる箇所を、ＨＴＭＬのタグの階層構造におけるタグの出現順序で表現した抽出規則を取得し、得られた前記抽出規則を前記ＷｅｂページデータのＵＲＬと関連付けてルールデータベースに格納する抽出規則作成処理と、
新たに収集されたＷｅｂページデータのＵＲＬと前記ルールデータベースに格納されたＵＲＬとが適合するか否かを判定し、適合した場合に、前記適合したＵＲＬに関連付けられた前記抽出規則を適用して、前記新たに収集されたＷｅｂページデータの本文部分のみを抽出してデータベースに蓄える情報抽出処理と
をコンピュータに行わせることを特徴とする情報抽出プログラム。
予め収集されたＷｅｂページデータから本文部分のみを抽出する情報抽出プログラムであって、
情報提供元となる複数のドメインから予め収集されＷｅｂ情報データベースに蓄えられた複数のＷｅｂページデータをＨＴＭＬのタグによってブロックに分割し、分割した前記ブロックの文字列に対して前記ドメインと前記ブロックの文字列を一意に識別可能とするＩＤ番号を割り振り、前記ＩＤ番号毎に出現回数をカウントすることにより、同一ドメイン内での同一文字列の出現回数を求め、前記出現回数が予め決められた回数以下の前記ＩＤ番号を抽出する本文抽出手段と、
前記Ｗｅｂページデータを解析してタグの階層構造の情報を取得し、前記本文抽出手段によって抽出された前記ＩＤ番号に対応した本文部分が現れる箇所を、ＨＴＭＬのタグの階層構造におけるタグの出現順序で表現した抽出規則を取得し、得られた前記抽出規則を前記ＷｅｂページデータのＵＲＬと関連付けてルールデータベースに格納する抽出規則作成処理と、
前記ルールデータベースより抽出規則を取得し、前記抽出規則作成手段によって作成した同一の抽出規則に対して、該抽出規則が提供される複数のＵＲＬが特定のディレクトリ以上で同じであれば、該特定のディレクトリ以上が同じで複数のＵＲＬを表現するグループ化されたＵＲＬを作成し、該グループ化されたＵＲＬと抽出規則とを関連付けて適用ルールデータベースに格納する適用抽出規則作成処理と、
新たに収集されたＷｅｂページデータのＵＲＬと前記適用ルールデータベースに格納されたグループ化されたＵＲＬとが適合するか否かを判定し、適合した場合に、前記適合したＵＲＬに関連付けられた前記抽出規則を適用して、前記新たに収集されたＷｅｂページデータの本文部分のみを抽出してデータベースに蓄える情報抽出処理と
をコンピュータに行わせることを特徴とする情報抽出プログラム。