JP4231298B2 - 情報抽出規則作成システム、情報抽出規則作成プログラム、情報抽出システム及び情報抽出プログラム - Google Patents

情報抽出規則作成システム、情報抽出規則作成プログラム、情報抽出システム及び情報抽出プログラム Download PDF

Info

Publication number
JP4231298B2
JP4231298B2 JP2003005806A JP2003005806A JP4231298B2 JP 4231298 B2 JP4231298 B2 JP 4231298B2 JP 2003005806 A JP2003005806 A JP 2003005806A JP 2003005806 A JP2003005806 A JP 2003005806A JP 4231298 B2 JP4231298 B2 JP 4231298B2
Authority
JP
Japan
Prior art keywords
rule
extraction rule
web page
extraction
page data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2003005806A
Other languages
English (en)
Other versions
JP2004220251A (ja
Inventor
聡哉 栗島
孝史 井上
勝 宮本
久 茨木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003005806A priority Critical patent/JP4231298B2/ja
Publication of JP2004220251A publication Critical patent/JP2004220251A/ja
Application granted granted Critical
Publication of JP4231298B2 publication Critical patent/JP4231298B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、WWW上でニュースサイト、電子掲示板、個人の日記サイトなど特定のテンプレートが設定されていて、機械的にWebページを作成するような文書の中から、メニューやコピーライト、自動的に挿入されるニュースのヘッドラインなどの部分を除いて本文部分のみを特定することが可能なルールを作成する情報抽出規則作成システム、情報抽出規則作成方法及び情報抽出規則作成プログラムに関する。
【0002】
【従来の技術】
WWW上において、ニュースのように情報量が多く、新しい情報を常に提供する必要があるコンテンツを提供している提供者や、電子掲示板や個人の日記をWWW上で発表している者は、大量のHTML文書をその都度作成するのは労力がかかるため、動的にWebページの内容の変更を行ったり、特定のテンプレートに沿ってWebページを作成して提供しているのが一般的である。
このような、動的にWebページの内容を変更して情報を提供するシステムでは提供している情報の中に、中心となる記事以外に記事に関連性のある情報や最新のニュースの情報や広告に関するリンク情報などのメニュー情報を追加して提供している。
一方、コンピュータプログラムを使用してWebページの内容を収集・検索するシステムでは、予め収集しておいたWebページのデータを用いて所望の情報を検索することが行われている。またホームページの更新日時を推定し、検索システムの検索結果に加味して提供するシステムも知られている。
【0003】
このように、従来技術ではWebページの検索を行う場合には、予めWebページを収集したときの情報をそのまま利用して検索を行うのが一般的である。また、既存の技術ではWebサーバから取得する更新日時の情報が正確でないため、検索結果を日付順に並べて検索結果を表示することができない。また、内容を比較して更新日時を推定する場合は自動的に挿入される広告やヘッドラインなどの部分により正確に更新されたかどうかを推定できないという問題がある。
このような、課題を解決する手法としては特許文献1に示すような手法で本文の記事部分を特定し抽出する技術が知られている。
【0004】
【特許文献1】
特開2002−334090号公報
【0005】
【発明が解決しようとする課題】
しかしながら、特許文献1に示すシステムにあっては、同一のドメイン内でのWebページを複数のブロックに分割して比較することにより、対象のブロックの出現回数をもとに本文部分の特定を行うため、定期的に収集したWebページのデータから本文部分の特定を行うためにはブロックの出現回数をデータベースに記録し、データベースを参照するという処理をその都度実行しなければならない。このためリアルタイムで高速に本文部分の特定を行うためには、作業を行うサーバのメモリやCPUなどのリソースを大量に消費してしまうという問題がある。
【0006】
本発明は、このような事情に鑑みてなされたもので、WWW上でニュースサイト、電子掲示板、個人の日記サイトなど特定のテンプレートが設定されていて、機械的にWebページを作成するような文書の中から、メニューやコピーライト、自動的に挿入されるニュースのヘッドラインなどの部分を除いて本文部分のみを特定することが可能なルールを作成する情報抽出規則作成システム、情報抽出規則作成方法及び情報抽出規則作成プログラムを提供することを目的とする。
【0007】
【課題を解決するための手段】
発明は、予め収集されたWebページデータから本文部分を抽出する本文抽出手段と、前記Webページデータを解析して、前記本文抽出手段によって抽出された本文部分が現れる箇所をデータ構造で表現した抽出規則を作成する抽出規則作成手段と、前記抽出規則作成手段によって作成した同一の抽出規則が適用される複数のURLをグループ化し、このグループ化されたURLと前記抽出規則とを関連付ける適用抽出規則作成手段とを備えたことを特徴とする。
【0008】
発明は、前記Webページデータは、HTMLで表現されたデータであり、前記抽出規則は、HTMLのタグの階層構造で表現することを特徴とする。
【0009】
発明は、前記Webページデータは、HTMLで表現されたデータであり、前記抽出規則は、HTML内の所定のコメントで囲まれたデータ構造で表現することを特徴とする。
【0010】
発明は、予め収集されたWebページデータから本文部分のみを抽出する情報抽出システムであって、予め収集されたWebページデータから本文部分を抽出する本文抽出手段と、前記Webページデータを解析して、前記本文抽出手段によって抽出された本文部分が現れる箇所をデータ構造で表現した抽出規則を作成する抽出規則作成手段と、前記抽出規則作成手段によって作成した同一の抽出規則が適用される複数のURLをグループ化し、このグループ化されたURLと前記抽出規則とを関連付ける適用抽出規則作成手段と、新たに収集されたWebページデータから、前記抽出規則を適用してWebページデータの本文部分のみを抽出してデータベースに蓄える情報抽出手段とを備えたことを特徴とする。
【0011】
発明は、予め収集されたWebページデータから本文部分を抽出する本文抽出過程と、前記Webページデータを解析して、前記本文抽出過程によって抽出された本文部分が現れる箇所をデータ構造で表現した抽出規則を作成する抽出規則作成過程と、前記抽出規則作成過程によって作成した同一の抽出規則が適用される複数のURLをグループ化し、このグループ化されたURLと前記抽出規則とを関連付ける適用抽出規則作成過程とを有することを特徴とする。
【0012】
発明は、前記Webページデータは、HTMLで表現されたデータであり、前記抽出規則は、HTMLのタグの階層構造で表現することを特徴とする。
【0013】
発明は、前記Webページデータは、HTMLで表現されたデータであり、前記抽出規則は、HTML内の所定のコメントで囲まれたデータ構造で表現することを特徴とする。
【0014】
発明は、予め収集されたWebページデータから本文部分のみを抽出する情報抽出方法であって、予め収集されたWebページデータから本文部分を抽出する本文抽出過程と、前記Webページデータを解析して、前記本文抽出過程によって抽出された本文部分が現れる箇所をデータ構造で表現した抽出規則を作成する抽出規則作成過程と、前記抽出規則作成過程によって作成した同一の抽出規則が適用される複数のURLをグループ化し、このグループ化されたURLと前記抽出規則とを関連付ける適用抽出規則作成過程と、新たに収集されたWebページデータから、前記抽出規則を適用してWebページデータの本文部分のみを抽出してデータベースに蓄える情報抽出過程とを有することを特徴とする。
【0015】
発明は、予め収集されたWebページデータから本文部分を抽出する本文抽出処理と、前記Webページデータを解析して、前記本文抽出処理によって抽出された本文部分が現れる箇所をデータ構造で表現した抽出規則を作成する抽出規則作成処理と、前記抽出規則作成処理によって作成した同一の抽出規則が適用される複数のURLをグループ化し、このグループ化されたURLと前記抽出規則とを関連付ける適用抽出規則作成処理とをコンピュータに行わせることを特徴とする。
【0016】
発明は、前記Webページデータは、HTMLで表現されたデータであり、前記抽出規則は、HTMLのタグの階層構造で表現することを特徴とする。
【0017】
発明は、前記Webページデータは、HTMLで表現されたデータであり、前記抽出規則は、HTML内の所定のコメントで囲まれたデータ構造で表現することを特徴とする。
【0018】
発明は、予め収集されたWebページデータから本文部分のみを抽出する情報抽出プログラムであって、予め収集されたWebページデータから本文部分を抽出する本文抽出処理と、前記Webページデータを解析して、前記本文抽出処理によって抽出された本文部分が現れる箇所をデータ構造で表現した抽出規則を作成する抽出規則作成処理と、前記抽出規則作成処理によって作成した同一の抽出規則が適用される複数のURLをグループ化し、このグループ化されたURLと前記抽出規則とを関連付ける適用抽出規則作成処理と、新たに収集されたWebページデータから、前記抽出規則を適用してWebページデータの本文部分のみを抽出してデータベースに蓄える情報抽出処理とをコンピュータに行わせることを特徴とする。
【0019】
本発明で実現されるシステムでは、収集したWebページのデータから本文部分を抽出する部分には、従来から知られている方法が適用可能であり、例えば、特許文献1に記載された手法を用いて、本文部分と思われる部分を特定し抽出を行う。
続いて、抽出した本文部分を、HTMLのタグの木構造や特定の文字列で囲まれる部分などのように、本文部分を特定できる記述方式を作成し、URLと対になったような形のルールを作成しデータベースに保存する。
続いて、先に作成した、URLと対になったような形の記述方式を複数のURLに対して適用可能なルール(抽出規則)に変換する。これは複数のURLを指定可能な記述方式、前方一致するURLや数値やアルファベットで展開可能なURLの記述方式と、作成した本文部分を抽出可能な記述方式と対になっているようなルール(抽出規則)である。
続いて、作成したルール(抽出規則)を読み込み、Webデータに対してこのルール(抽出規則)を適用して、本文部分を抽出し、データベースに保存する。続いて、保存した本文抽出部分のデータベースの情報を用いて、Web情報を検索する検索システムを行うためのインデックスを作成し、本文部分だけで検索処理を行うようにする。
また、このようにして得られた本文部分の差分を取ることにより、更新日時を推定し、更新日時の情報を検索システムのデータベースに追加することが可能になる。このことで、従来の本文抽出、更新日時推定の手法に比べて高速に、メモリの消費量や、計算量を低減し、リアルタイムで更新日時推定を行うことが可能になる。
【0020】
【発明の実施の形態】
以下、本発明の一実施形態による情報抽出規則作成システムを図面を参照して説明する。図1は同実施形態の構成を示すブロック図である。この図において、符号1は、所望の情報を抽出するための規則を作成する情報抽出規則作成部である。符号2は、情報を提供するWebサーバである。この図においては、1つのWebサーバのみを図示したが、情報を抽出する対象のWebサーバは、複数である。符号3は、複数のWebサーバ2から自動的に情報を収集する収集ロボットであり、ソフトウェアによって実現される。符号4は、収集ロボット3が収集した情報を蓄えるWeb情報データベースである。符号5は、収集ロボット3が収集した情報の中から抽出した本文の部分のみを蓄える本文抽出データベースである。符号6は、本文抽出データベース5に蓄えられた情報に基づいてインデックスを作成するインデックス作成部である。符号7は、本文抽出データベース5に蓄えられた情報の更新日時を推定する更新日時推定部である。符号8は、インデックス作成部6及び更新日時推定部7の出力情報を蓄える検索インデックスデータベースである。符号9は、検索インデックスデータベース8を参照して、Web情報の検索を行う検索システムである。
【0021】
符号11は、情報抽出規則を作成するために、Web情報データベース4に蓄えられている情報の中から本文の部分を抽出する本文抽出部である。符号12は、本文抽出部11において抽出された本文の内容から本文部分を抽出するための規則(ルール)を作成するルール作成部である。符号13は、ルール作成部12のおいて作成した情報抽出規則を蓄えるルールデータベースである。符号14は、ルールデータベース13に蓄えられている情報抽出規則を適用する対象のURL(Uniform Resource Locators)を特定する適用ルール作成部である。符号15は、先に作成した情報抽出規則(ルール)を適用しながらWeb情報データベース4から所望の情報を抽出するルール適用部である。符号16は、ルールデータベース13に蓄えられている情報抽出規則を適用する対象のURLを特定した結果を蓄える適用ルールデータベースである。
【0022】
次に、図1に示すシステムの動作を説明する。初めに、収集ロボット3の動作を説明する。収集ロボット3は、予め決められているURLに基づいて、複数のWebサーバ2からWeb情報の収集を行い、収集したWeb情報をWeb情報データベース4に蓄える。この動作は、予め決められた時間間隔(例えば、1日に1回)で実行され、収集された情報には、収集された日時と情報提供元のURLが識別できる情報が付与されてWeb情報データベース4に蓄えられる。Web情報データベース4に蓄えられるWeb情報は、HTML(Hypertext Markup Language)の形式で蓄えられる。
【0023】
次に、図2を参照して、本文抽出部11の動作を説明する。まず、本文抽出部11は、Web情報データベース4からWebページデータ(HTMLデータ)を読み出す(ステップS1)。続いて、本文抽出部11は、読み込んだWebページのデータを解析してブロックに分割する(ステップS2)。ブロックの分割は、HTMLのタグで区切られているテキスト部分をひとつのブロックとして分割する。HTMLのタグは見出し文や本文の開始位置と終了位置を指定する括弧のようなもので、始まりを示す<TAG>の形式のタグと、終りを示す</TAG>の形式のタグをセットにして使われるものである。例えば、読み出したHTMLが、
<TAG>
文字列....
</TAG>
という場合には<TAG>と</TAG>で囲まれる文字列の部分が1つのブロックとなる。また、読み出したHTMLが、
<TAG1>
<TAG2>
文字列1.....
</TAG2>
文字列2.....
</TAG1>
という場合には文字列1、文字列2の二つのブロックに分割する。
【0024】
次に、本文抽出部11は、分割したブロックの文字列に対して、ID番号を割り振る(ステップS3)。このID番号は、情報提供元(ドメイン)と文字列を一意に識別可能とする番号を割り振る。続いて、本文抽出部11は、ブロックのID番号毎に出現回数をカウントする(ステップS4)。これは、タグで囲まれた部分の文字列が完全に一致するものの個数を数えることを意味する。この処理をWeb情報データベース4内に蓄えられている全てのデータに対して繰り返し実行する(ステップS5)ことにより、同一ドメイン内での同一文字列の出現回数が求められたこととなる。ここで求めたID番号毎の出現回数は、本文抽出部11内に保持される。
【0025】
次に、本文抽出部11は、ステップS6〜S8において、ステップS1〜S3と同様に、Webページを読み込み、ブロックに分割し、ID番号を割り振る。そして、割り振ったID番号と同一のID番号を持つ文字列の出現回数が予め決められた回数以下(例えば3回以下)である場合、このブロックを本文部分であると見なして、このブロックのID番号を抽出し内部に保持する(ステップS9)。この処理をWeb情報データベース4内に蓄えられている全てのデータに対して繰り返し実行する(ステップS10)ことにより、出現回数が少ない文字列のブロックが抽出されたこととなる。本文抽出部11は、この抽出結果をルール作成部12へ渡す。
【0026】
なお、ステップS3で作成したブロックIDのリストを、WebページのURLと一対一に対応させたデータベースを作成することで、ブロックの分割を行い、IDを決定する処理の簡略化するようにしてもよい。
【0027】
このように、本文抽出部11は、収集したすべてのWebページからデータを読み込み、Webページをブロックに分割し、分割したブロックの出現回数をカウントする。ブロックはテキストで識別するので同一の文字列が異なるWebページに存在すると出現回数が増加する。そのようにしてブロックの出現回数をカウントしたデータを保存しておき、もう一度Webページをブロックに分割し出現回数のデータを保存したデータベースから読み込み、出現回数が少ないものを本文部分として抽出するという動作を行う。
【0028】
次に、図3を参照して、ルール作成部12の動作を説明する。まず、ルール作成部12は、本文抽出部11から本文部分を特定するデータを取得する(ステップS21)。続いて、ルール作成部12は、Webデータの情報を取得する(ステップS22)。そして、ルール作成部12は、Webページのデータを解析し、タグの木構造(階層構造)の情報を取得する(ステップS22)。ここでいう木構造とは、例えばHTMLの内容が、
Figure 0004231298
である場合に、「TAG1−TAG2−文字列」と表現することである。
【0029】
次に、ルール作成部12は、ブロックの文字列(本文)の部分とドメインの情報を元にブロックのIDを取得する。そして、ステップS21において取得した本文部分とステップS22において取得した情報のブロックIDとを比較し、ブロックが本文部分として抽出されているブロックを特定し、この本文部分を特定できる抽出規則「TAG1−TAG2」を取得する(ステップS23)。この抽出規則「TAG1−TAG2」は、タグTAG1の下位の階層のタグTAG2の中に本文部分が存在することを意味する。
【0030】
次に、ルール作成部12は、ここで得られた抽出規則を対象URLと関連付けてルールデータベース13に保存する(ステップS24)。
なお、HTML内のコメントの情報に基づいて抽出規則を取得するようにしてもよい。例えば、HTMLの内容が、
<!− コメント1>
文字列....
<!− コメント2>
である場合に、「コメント1、サンプル、コメント2」を抽出規則とする。
【0031】
次に、図4を参照して適用ルール作成部14の動作を説明する。まず、適用ルール作成部14は、ルールデータベース13より抽出規則のデータを取得する(ステップS31)。続いて、適用ルール作成部14は、取得した抽出規則の情報を、URLや抽出規則の類似しているものをグループにする(ステップS32)。例えば、「http://sample.co.jp/sample/001.html」、「http://sample.co.jp/sample/002.html」などのように、URLの特定の部分が数値(この例では、001と002)になっており、置き換えることが可能である場合や、特定のディレクトリ以下である場合などのような場合に、そのURLが当てはまる抽出規則を調べ、適用する抽出規則が同一である場合には、複数のURLから同一の抽出規則を当てはめることが可能な抽出規則をグループ化し、複数のURLが「http://sample.co.jp/sample/*.html」という表現のURLを作成する。この例では、「*」の部分を除く文字列が一致するURLが対象となることを意味する。
【0032】
次に、適用ルール作成部14は、ここで作成した、URLの表現と、抽出規則を適用ルールデータベース16に保存する(ステップS33)。複数の抽出規則が存在する場合には、適用ルールデータベースには、「URL表現 抽出規則1抽出規則2」などのように列記して保存する。
この処理動作により、ルール作成部12において作成された抽出規則と、この抽出規則が適用されるURLが関係付けられて適用ルールデータベース16に保存されたこととなる。
なお、図2、図3、図4に示す処理動作(本文抽出部11、ルール作成部12、適用ルール作成部14が行う処理動作)は、初めの一回のみ実行するだけでよく、抽出規則が作成された後は、情報を抽出する度に行う必要はない処理である。
【0033】
次に、図5を参照してルール適用部15の動作を説明する。まず、ルール適用部15は、適用ルールデータベース16から本文部分抽出規則と適用先のURLを読み出し、メモリ上に保存する(ステップS41)。続いて、ルール適用部15は、Web情報データベース4からWebページ情報を読み出す(ステップS42)。そして、読み出したWebページ情報の提供元URLが、本文部分抽出規則のURLの表現とが適合するかを判定する(ステップS43)。この判定の結果、適合しないのであればステップS47へ移行する。一方、適合するのであれば、読み出したWebページの構造を解析する(ステップS44)。これにより木構造またはコメントの情報が得られる。
【0034】
次に、ルール適用部15は、本文部分抽出規則に基づいて、本文部分の文字列を抽出する(ステップS45)。そして、この抽出した本文部分の文字列に対して、情報提供元RLと関連付けて本文抽出データベース5に保存する(ステップS46)。続いて、ルール適用部15は、処理を行っていないWebページが存在するかどうかをチェックし(ステップS47)、存在するならステップS42に戻り処理を繰り返し実行する。
この動作によって、本文抽出データベース5には、抽出規則によって抽出された本文部分と情報提供元URLが関連付けられて保存されることとなる。
【0035】
次に、図6を参照して、更新日時推定部7の動作を説明する。まず、更新日時推定部7は、本文抽出データベース5からURLに基づいて本文部分の文字列である本文情報を読み出す(ステップS51)。続いて、更新日時推定部7は、読み出した本文情報のダイジェストデータを作成する(ステップS52)。ダイジェストデータの作成は、従来から知られているMD5(RFC1321)などのダイジェストアルゴリズムを用いて、一定の長さのデータに変換することで実現可能である。
【0036】
次に、更新日時推定部7は、ダイジェストデータと収集時間とをURLに関連付けて内部に保持する(ステップS53)。続いて、現在から一番近い過去のデータから順にダイジェストデータを比較し、最初にそのダイジェストデータが出現したときの収集日時を取得し、この日時を更新日時と推定する(ステップS54)。そして、推定した更新日時とダイジェストデータとURLを関連付けて検索インデックスデータベース8に保存する。この処理を全てのWebページデータに対して実行する(ステップS56)ことにより、検索インデックスデータベース8には、ダイジェストデータと収集時間がURLと関連付けられて保存されることとなる。
【0037】
次に、図7を参照して、インデックス作成部6の動作を説明する。まず、インデックス作成部6は、本文抽出データベース5からURLに基づいて本文部分の文字列である本文情報を読み出す(ステップS61)。そして、この本文部分の文字列の形態素解析を行い、単語に分割する(ステップS62)。続いて、インデックス作成部6は、分割した単語のそれぞれとURLを関連付けて検索インデックスデータベース8に保存する(ステップS63)。この処理を全てのWebページデータに対して実行する(ステップS64)ことにより、検索インデックスデータベース8には、分割した単語とURLが関連付けられて保存されることとなる。
【0038】
次に、図8を参照して、検索インデックスデータベース8を使用して情報の検索を行う検索システム9の動作を説明する。まず、検索システム9は、図示しないクライアントから検索キーワードを受け取る(ステップS71)。これを受けて、検索システム9は、検索インデックスデータベース8を参照して、受け取った検索キーワードが含まれるURLを抽出する(ステップS72)。そして、抽出したURLから、保存されている情報の更新日時を取得し(ステップS73)、取得した更新日時の順序にURLを並び替えてクライアントに表示する(ステップS74)。
このように、本文部分のみを抽出する規則を使用して、検索インデックスを作成するようにしたため、検索効率を向上させることが可能となる。
【0039】
なお、図1における各構成ブロックの機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより情報抽出規則作成処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
【0040】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【0041】
【発明の効果】
以上説明したように、本発明によれば、Webページの中から利用者にとって必要だと思われる本文部分の抽出を機械的に行うことできるという効果が得られる。このことによって、利用者がWebページをキーワードによる全文検索を行うときには、利用者が必要としている本文部分にキーワードが含まれるWebページの検索を行うことが可能で、検索精度を向上させることが可能になる。また、Webページの更新日時を推定するときに、自動的に挿入される、最新のニュースのヘッドラインや、広告などに影響されることなく本文が変化しているかどうかで更新されたかどうかを決定可能なので更新日時推定精度が向上する。また、初回のみに本文抽出を行うときに情報抽出規則を作成し、この抽出規則に則って、2回目以降の情報抽出を行うようにしたため、すべてのWebページを解析しブロックの出現回数をその都度求め、この出現回数に基づいて本文部分を特定する方法に比べて、より高速に本文部分の抽出が行うことが可能になるという効果も得られる。
【図面の簡単な説明】
【図1】 本発明の一実施形態の構成を示すブロック図である。
【図2】 図1に示す本文抽出部11の動作を示すフローチャートである。
【図3】 図1に示すルール作成部12の動作を示すフローチャートである。
【図4】 図1に示す適用ルール作成部14の動作を示すフローチャートである。
【図5】 図1に示すルール適用部15の動作を示すフローチャートである。
【図6】 図1に示す更新日時推定部7の動作を示すフローチャートである。
【図7】 図1に示すインデックス作成部6の動作を示すフローチャートである。
【図8】 図1に示す検索システム9の動作を示すフローチャートである。
【符号の説明】
1・・・情報抽出規則作成部
11・・・本文抽出部
12・・・ルール作成部
13・・・ルールデータベース
14・・・適用ルール作成部
15・・・ルール適用部
16・・・適用ルールデータベース
2・・・Webサーバ
3・・・収集ロボット
4・・・Web情報データベース
5・・・本文抽出データベース
6・・・インデックス作成部
7・・・更新日時推定部
8・・・検索インデックスデータベース
9・・・検索システム

Claims (8)

  1. 情報提供元となる複数のドメインから予め収集されWeb情報データベースに蓄えられた複数のWebページデータをHTMLのタグによってブロックに分割し、分割した前記ブロックの文字列に対して前記ドメインと前記ブロックの文字列を一意に識別可能とするID番号を割り振り、前記ID番号毎に出現回数をカウントすることにより、同一ドメイン内での同一文字列の出現回数を求め、前記出現回数が予め決められた回数以下の前記ID番号を抽出する本文抽出手段と、
    前記Webページデータを解析してタグの階層構造の情報を取得し、前記本文抽出手段によって抽出された前記ID番号に対応した本文部分が現れる箇所を、HTMLのタグの階層構造におけるタグの出現順序で表現した抽出規則を取得し、得られた前記抽出規則を前記WebページデータのURLと関連付けてルールデータベースに格納する抽出規則作成手段と
    を備えたことを特徴とする情報抽出規則作成システム。
  2. 情報提供元となる複数のドメインから予め収集されWeb情報データベースに蓄えられた複数のWebページデータをHTMLのタグによってブロックに分割し、分割した前記ブロックの文字列に対して前記ドメインと前記ブロックの文字列を一意に識別可能とするID番号を割り振り、前記ID番号毎に出現回数をカウントすることにより、同一ドメイン内での同一文字列の出現回数を求め、前記出現回数が予め決められた回数以下の前記ID番号を抽出する本文抽出手段と、
    前記Webページデータを解析してタグの階層構造の情報を取得し、前記本文抽出手段によって抽出された前記ID番号に対応した本文部分が現れる箇所を、HTMLのタグの階層構造におけるタグの出現順序で表現した抽出規則を取得し、得られた前記抽出規則を前記WebページデータのURLと関連付けてルールデータベースに格納する抽出規則作成手段と、
    前記ルールデータベースより抽出規則を取得し、前記抽出規則作成手段によって作成した同一の抽出規則に対して、該抽出規則が提供される複数のURLが特定のディレクトリ以上で同じであれば、該特定のディレクトリ以上が同じで複数のURLを表現するグループ化されたURLを作成し、該グループ化されたURLと抽出規則とを関連付けて適用ルールデータベースに格納する適用抽出規則作成手段と
    を備えたことを特徴とする情報抽出規則作成システム。
  3. 予め収集されたWebページデータから本文部分のみを抽出する情報抽出システムであって、
    情報提供元となる複数のドメインから予め収集されWeb情報データベースに蓄えられた複数のWebページデータをHTMLのタグによってブロックに分割し、分割した前記ブロックの文字列に対して前記ドメインと前記ブロックの文字列を一意に識別可能とするID番号を割り振り、前記ID番号毎に出現回数をカウントすることにより、同一ドメイン内での同一文字列の出現回数を求め、前記出現回数が予め決められた回数以下の前記ID番号を抽出する本文抽出手段と、
    前記Webページデータを解析してタグの階層構造の情報を取得し、前記本文抽出手段によって抽出された前記ID番号に対応した本文部分が現れる箇所を、HTMLのタグの階層構造におけるタグの出現順序で表現した抽出規則を取得し、得られた前記抽出規則を前記WebページデータのURLと関連付けてルールデータベースに格納する抽出規則作成手段と
    新たに収集されたWebページデータのURLと前記ルールデータベースに格納されたURLとが適合するか否かを判定し、適合した場合に、前記適合したURLに関連付けられた前記抽出規則を適用して、前記新たに収集されたWebページデータの本文部分のみを抽出してデータベースに蓄える情報抽出手段と
    を備えたことを特徴とする情報抽出システム。
  4. 予め収集されたWebページデータから本文部分のみを抽出する情報抽出システムであって、
    情報提供元となる複数のドメインから予め収集されWeb情報データベースに蓄えられた複数のWebページデータをHTMLのタグによってブロックに分割し、分割した前記ブロックの文字列に対して前記ドメインと前記ブロックの文字列を一意に識別可能とするID番号を割り振り、前記ID番号毎に出現回数をカウントすることにより、同一ドメイン内での同一文字列の出現回数を求め、前記出現回数が予め決められた回数以下の前記ID番号を抽出する本文抽出手段と、
    前記Webページデータを解析してタグの階層構造の情報を取得し、前記本文抽出手段によって抽出された前記ID番号に対応した本文部分が現れる箇所を、HTMLのタグの階層構造におけるタグの出現順序で表現した抽出規則を取得し、得られた前記抽出規則を前記WebページデータのURLと関連付けてルールデータベースに格納する抽出規則作成手段と
    前記ルールデータベースより抽出規則を取得し、前記抽出規則作成手段によって作成した同一の抽出規則に対して、該抽出規則が提供される複数のURLが特定のディレクトリ以上で同じであれば、該特定のディレクトリ以上が同じで複数のURLを表現するグループ化されたURLを作成し、該グループ化されたURLと抽出規則とを関連付けて適用ルールデータベースに格納する適用抽出規則作成手段と
    新たに収集されたWebページデータのURLと前記適用ルールデータベースに格納されたグループ化されたURLとが適合するか否かを判定し、適合した場合に、前記適合したURLに関連付けられた前記抽出規則を適用して、前記新たに収集されたWebページデータの本文部分のみを抽出してデータベースに蓄える情報抽出手段と
    を備えたことを特徴とする情報抽出システム。
  5. 情報提供元となる複数のドメインから予め収集されWeb情報データベースに蓄えられた複数のWebページデータをHTMLのタグによってブロックに分割し、分割した前記ブロックの文字列に対して前記ドメインと前記ブロックの文字列を一意に識別可能とするID番号を割り振り、前記ID番号毎に出現回数をカウントすることにより、同一ドメイン内での同一文字列の出現回数を求め、前記出現回数が予め決められた回数以下の前記ID番号を抽出する本文抽出手段と、
    前記Webページデータを解析してタグの階層構造の情報を取得し、前記本文抽出手段によって抽出された前記ID番号に対応した本文部分が現れる箇所を、HTMLのタグの階層構造におけるタグの出現順序で表現した抽出規則を取得し、得られた前記抽出規則を前記WebページデータのURLと関連付けてルールデータベースに格納する抽出規則作成処理と
    をコンピュータに行わせることを特徴とする情報抽出規則作成プログラム。
  6. 情報提供元となる複数のドメインから予め収集されWeb情報データベースに蓄えられた複数のWebページデータをHTMLのタグによってブロックに分割し、分割した前記ブロックの文字列に対して前記ドメインと前記ブロックの文字列を一意に識別可能とするID番号を割り振り、前記ID番号毎に出現回数をカウントすることにより、同一ドメイン内での同一文字列の出現回数を求め、前記出現回数が予め決められた回数以下の前記ID番号を抽出する本文抽出手段と、
    前記Webページデータを解析してタグの階層構造の情報を取得し、前記本文抽出手段によって抽出された前記ID番号に対応した本文部分が現れる箇所を、HTMLのタグの階層構造におけるタグの出現順序で表現した抽出規則を取得し、得られた前記抽出規則を前記WebページデータのURLと関連付けてルールデータベースに格納する抽出規則作成処理と、
    前記ルールデータベースより抽出規則を取得し、前記抽出規則作成手段によって作成した同一の抽出規則に対して、該抽出規則が提供される複数のURLが特定のディレクトリ以上で同じであれば、該特定のディレクトリ以上が同じで複数のURLを表現するグループ化されたURLを作成し、該グループ化されたURLと抽出規則とを関連付けて適用ルールデータベースに格納する適用抽出規則作成処理と
    をコンピュータに行わせることを特徴とする情報抽出規則作成プログラム。
  7. 予め収集されたWebページデータから本文部分のみを抽出する情報抽出プログラムであって、
    情報提供元となる複数のドメインから予め収集されWeb情報データベースに蓄えられた複数のWebページデータをHTMLのタグによってブロックに分割し、分割した前記ブロックの文字列に対して前記ドメインと前記ブロックの文字列を一意に識別可能とするID番号を割り振り、前記ID番号毎に出現回数をカウントすることにより、同一ドメイン内での同一文字列の出現回数を求め、前記出現回数が予め決められた回数以下の前記ID番号を抽出する本文抽出手段と、
    前記Webページデータを解析してタグの階層構造の情報を取得し、前記本文抽出手段によって抽出された前記ID番号に対応した本文部分が現れる箇所を、HTMLのタグの階層構造におけるタグの出現順序で表現した抽出規則を取得し、得られた前記抽出規則を前記WebページデータのURLと関連付けてルールデータベースに格納する抽出規則作成処理と、
    新たに収集されたWebページデータのURLと前記ルールデータベースに格納されたURLとが適合するか否かを判定し、適合した場合に、前記適合したURLに関連付けられた前記抽出規則を適用して、前記新たに収集されたWebページデータの本文部分のみを抽出してデータベースに蓄える情報抽出処理と
    をコンピュータに行わせることを特徴とする情報抽出プログラム。
  8. 予め収集されたWebページデータから本文部分のみを抽出する情報抽出プログラムであって、
    情報提供元となる複数のドメインから予め収集されWeb情報データベースに蓄えられた複数のWebページデータをHTMLのタグによってブロックに分割し、分割した前記ブロックの文字列に対して前記ドメインと前記ブロックの文字列を一意に識別可能とするID番号を割り振り、前記ID番号毎に出現回数をカウントすることにより、同一ドメイン内での同一文字列の出現回数を求め、前記出現回数が予め決められた回数以下の前記ID番号を抽出する本文抽出手段と、
    前記Webページデータを解析してタグの階層構造の情報を取得し、前記本文抽出手段によって抽出された前記ID番号に対応した本文部分が現れる箇所を、HTMLのタグの階層構造におけるタグの出現順序で表現した抽出規則を取得し、得られた前記抽出規則を前記WebページデータのURLと関連付けてルールデータベースに格納する抽出規則作成処理と、
    前記ルールデータベースより抽出規則を取得し、前記抽出規則作成手段によって作成した同一の抽出規則に対して、該抽出規則が提供される複数のURLが特定のディレクトリ以上で同じであれば、該特定のディレクトリ以上が同じで複数のURLを表現するグループ化されたURLを作成し、該グループ化されたURLと抽出規則とを関連付けて適用ルールデータベースに格納する適用抽出規則作成処理と、
    新たに収集されたWebページデータのURLと前記適用ルールデータベースに格納されたグループ化されたURLとが適合するか否かを判定し、適合した場合に、前記適合したURLに関連付けられた前記抽出規則を適用して、前記新たに収集されたWebページデータの本文部分のみを抽出してデータベースに蓄える情報抽出処理と
    をコンピュータに行わせることを特徴とする情報抽出プログラム。
JP2003005806A 2003-01-14 2003-01-14 情報抽出規則作成システム、情報抽出規則作成プログラム、情報抽出システム及び情報抽出プログラム Expired - Lifetime JP4231298B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003005806A JP4231298B2 (ja) 2003-01-14 2003-01-14 情報抽出規則作成システム、情報抽出規則作成プログラム、情報抽出システム及び情報抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003005806A JP4231298B2 (ja) 2003-01-14 2003-01-14 情報抽出規則作成システム、情報抽出規則作成プログラム、情報抽出システム及び情報抽出プログラム

Publications (2)

Publication Number Publication Date
JP2004220251A JP2004220251A (ja) 2004-08-05
JP4231298B2 true JP4231298B2 (ja) 2009-02-25

Family

ID=32896375

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003005806A Expired - Lifetime JP4231298B2 (ja) 2003-01-14 2003-01-14 情報抽出規則作成システム、情報抽出規則作成プログラム、情報抽出システム及び情報抽出プログラム

Country Status (1)

Country Link
JP (1) JP4231298B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446296A (zh) * 2018-01-24 2018-08-24 北京奇艺世纪科技有限公司 一种信息处理方法及装置

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4923413B2 (ja) * 2005-02-28 2012-04-25 富士通株式会社 情報抽出プロブラム及び方法
KR100645711B1 (ko) * 2005-03-04 2006-11-15 (주)첫눈 다수의 정보 블록으로 구분된 웹 페이지를 이용한 정보검색 서비스 제공 서버, 방법 및 시스템
KR100671077B1 (ko) * 2005-03-04 2007-01-17 (주)첫눈 페이지 묶음을 이용한 정보 검색 서비스 제공 서버, 방법및 시스템
JP4957796B2 (ja) * 2007-05-24 2012-06-20 富士通株式会社 差分算出プログラム、差分算出装置および差分算出方法
JP4978522B2 (ja) * 2008-03-14 2012-07-18 富士通株式会社 Webアプリケーション編集方法
US20110320452A1 (en) * 2008-12-26 2011-12-29 Nec Corpration Information estimation apparatus, information estimation method, and computer-readable recording medium
JP5059886B2 (ja) * 2010-02-04 2012-10-31 ヤフー株式会社 監視端末、方法及びプログラム
JP5059887B2 (ja) * 2010-02-17 2012-10-31 ヤフー株式会社 監視装置、方法及びプログラム
JP2012059212A (ja) * 2010-09-13 2012-03-22 Nippon Telegr & Teleph Corp <Ntt> 抽出装置、抽出方法及び抽出プログラム
JP5068356B2 (ja) * 2010-09-17 2012-11-07 ヤフー株式会社 ブログ本文特定装置及びブログ本文特定方法
JP5691735B2 (ja) * 2011-03-29 2015-04-01 ソニー株式会社 コンテンツ推薦装置、推薦コンテンツの検索方法、及びプログラム
JP4976572B1 (ja) * 2011-04-28 2012-07-18 テンソル・コンサルティング株式会社 商品キーワード管理システム
JP5820770B2 (ja) * 2012-05-21 2015-11-24 日本電信電話株式会社 本文抽出装置及び方法及びプログラム
KR101717063B1 (ko) * 2015-12-30 2017-03-17 네이버 주식회사 웹 크롤링 장치 및 이에 의한 웹 크롤링 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446296A (zh) * 2018-01-24 2018-08-24 北京奇艺世纪科技有限公司 一种信息处理方法及装置

Also Published As

Publication number Publication date
JP2004220251A (ja) 2004-08-05

Similar Documents

Publication Publication Date Title
CN109033358B (zh) 新闻聚合与智能实体关联的方法
CN1902627B (zh) 直接导航至目标文档特定部分的系统和方法
JP4231298B2 (ja) 情報抽出規則作成システム、情報抽出規則作成プログラム、情報抽出システム及び情報抽出プログラム
US7809710B2 (en) System and method for extracting content for submission to a search engine
US7299407B2 (en) Marking and annotating electronic documents
US7496581B2 (en) Information search system, information search method, HTML document structure analyzing method, and program product
US20110078140A1 (en) Method and system for user guided search navigation
US20090089278A1 (en) Techniques for keyword extraction from urls using statistical analysis
JP4724701B2 (ja) 文章検索サーバコンピュータ,文章検索方法,文章検索プログラム,そのプログラムを記録した記録媒体
JP2007122513A (ja) コンテンツ検索方法、及び、コンテンツ検索サーバ
JP2002230035A (ja) 情報整理方法、情報処理装置、情報処理システム、記憶媒体、およびプログラム伝送装置
TW201514845A (zh) 從網頁擷取標題及主體
JP2012529688A (ja) 更新通知方法、およびシステム
JP4226261B2 (ja) 構造化文書種別判定システム及び構造化文書種別判定方法
CN103810251B (zh) 一种文本提取方法及装置
CN101571860A (zh) 动态网页生成方法和装置、提取结构化数据的方法和装置
JP2007256992A (ja) コンテンツ特定方法及び装置
JP2001060165A (ja) 情報セット重要度判定システム及びその判定方法、及び情報セット重要度判定プログラムを記録した記録媒体
CN112035723A (zh) 资源库的确定方法和装置、存储介质及电子装置
KR100455439B1 (ko) 인터넷 자원의 도메인화와 확장 사이트맵을 이용한정보검색 및 브라우징방법
JP2020098596A (ja) ウェブページから情報を抽出する方法、装置及び記憶媒体
Yu et al. Web content information extraction based on DOM tree and statistical information
Wang et al. Enriching descriptions for public web services using information captured from related web pages on the internet
JP2019514137A (ja) ドメイン名とウェブサイトアクセス行為との関連付け方法
JP2001209655A (ja) 情報提供装置、情報更新方法、情報提供プログラムを記録した記録媒体、及び情報提供システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040609

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070718

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070821

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070926

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080110

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080304

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080501

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20080501

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20080610

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080902

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081017

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081125

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081205

R151 Written notification of patent or utility model registration

Ref document number: 4231298

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111212

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111212

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121212

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121212

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131212

Year of fee payment: 5

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term