JP2009042908A - ニュース記事抽出装置、ニュース記事リンク特定方法およびニュース記事抽出用プログラム - Google Patents

ニュース記事抽出装置、ニュース記事リンク特定方法およびニュース記事抽出用プログラム Download PDF

Info

Publication number
JP2009042908A
JP2009042908A JP2007205616A JP2007205616A JP2009042908A JP 2009042908 A JP2009042908 A JP 2009042908A JP 2007205616 A JP2007205616 A JP 2007205616A JP 2007205616 A JP2007205616 A JP 2007205616A JP 2009042908 A JP2009042908 A JP 2009042908A
Authority
JP
Japan
Prior art keywords
link
news
news article
web page
site
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007205616A
Other languages
English (en)
Inventor
Takatoshi Kitano
貴稔 北野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007205616A priority Critical patent/JP2009042908A/ja
Publication of JP2009042908A publication Critical patent/JP2009042908A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ニュースサイトの構造に依存せずに、ニュース記事を抽出することができるようにする。
【解決手段】指定されたニュースサイトに新たに追加されたリンクを抽出する増分リンク抽出部と、増分リンク抽出部が抽出したリンクがニュース記事へのリンクか否かを判定するニュース記事リンク判定部と、ニュース記事リンク判定部の判定結果に基づいて、ニュースサイトからニュース記事を抽出するニュース記事抽出部とを備え、ニュース記事リンク判定部は、対象リンクのアンカーテキストの内容と、ニュースサイトと同一ドメインを有するウェブページによって構成されるウェブサイトの階層構造と、ウェブページの文書構造において対象リンクを子孫要素として含んでいる親要素におけるリンク更新頻度のうちの少なくともいずれかに基づいて、増分リンク抽出部が抽出したリンクがニュース記事へのリンクか否かを判定することを特徴とする。
【選択図】図1

Description

本発明は、ニュース記事が掲載されるウェブサイトとして指定されたニュースサイトからニュース記事を抽出するニュース記事抽出装置、ニュース記事リンク特定方法およびニュース記事抽出用プログラムに関する。
インターネット上には数多くの時事更新されるコンテンツ(以下、ニュース記事という。)が存在する。こういった状況の中、複数のニュースサイトから効率的にニュース記事を収集することは難しい。
例えば、構造化文書の中から情報を抽出する方法(例えば、特許文献1,特許文献2)や、RSS(Rich Site Summary )などの固定のフォーマットに依存して情報収集する方法などが存在する。
特開2004−038263号公報 特開2002−108903号公報
しかし、構造化文書の中から情報を抽出する方法では、いろいろなサイトの中からニュースに関するコンテンツを取得するためには、そのサイト毎に構造を指定して構文解析や意味解析を行う必要があるとともに、サイトの構造が変化するとそのサイトの内容を取得できないといった問題点がある。
また、RSSといった固定のフォーマットに依存して情報を収集する方法では、そのフォーマットで記述された情報しか収集することができず、HTMLなどフリーフォーマットで記述された情報は収集できないといった問題がある。
そこで、本発明は、ニュースサイトの構造に依存せずに、ニュース記事を抽出することができるようにすることを目的とする。
本発明によるニュース記事抽出装置は、ニュース記事が掲載されるウェブサイトとして指定されたニュースサイトからニュース記事を抽出するニュース記事抽出装置であって、指定されたニュースサイトに新たに追加されたリンクを抽出する増分リンク抽出部と、増分リンク抽出部が抽出したリンクがニュース記事へのリンクか否かを判定するニュース記事リンク判定部と、ニュース記事リンク判定部の判定結果に基づいて、ニュースサイトからニュース記事を抽出するニュース記事抽出部とを備え、ニュース記事リンク判定部は、対象リンクのアンカーテキストの内容と、ニュースサイトと同一ドメインを有するウェブページによって構成されるウェブサイトの階層構造と、ウェブページの文書構造において対象リンクを子孫要素として含んでいる親要素におけるリンク更新頻度のうちの少なくともいずれかに基づいて、増分リンク抽出部が抽出したリンクがニュース記事へのリンクか否かを判定することを特徴とする。
また、本発明によるニュース記事リンク特定方法は、ニュース記事が掲載されるウェブサイトとして指定されたニュースサイトからニュース記事を抽出するためのニュース記事リンク特定方法であって、指定されたニュースサイトに新たに追加されたリンクを抽出し、抽出したリンクがニュース記事へのリンクか否かを、対象リンクのアンカーテキストの内容と、ニュースサイトと同一ドメインを有するウェブページによって構成されるウェブサイトの階層構造と、ウェブページの文書構造において対象リンクを子孫要素として含んでいる親要素におけるリンク更新頻度のうちの少なくともいずれかに基づいて判定することを特徴とする。
また、本発明によるニュース記事抽出用プログラムは、ニュース記事が掲載されるウェブサイトとして指定されたニュースサイトからニュース記事を抽出するためのニュース記事抽出用プログラムであって、コンピュータに、指定されたニュースサイトに新たに追加されたリンクを抽出する処理、および抽出したリンクがニュース記事へのリンクか否かを、対象リンクのアンカーテキストの内容と、ニュースサイトと同一ドメインを有するウェブページによって構成されるウェブサイトの階層構造と、ウェブページの文書構造において対象リンクを子孫要素として含んでいる親要素におけるリンク更新頻度のうちの少なくともいずれかに基づいて判定する処理を実行させることを特徴とする。
本発明によれば、ニュース記事リンク判定部が、ニュースサイトに新たに追加されたリンクがニュース記事へのリンクか否かを、対象リンクのアンカーテキストの内容と、ニュースサイトと同一ドメインを有するウェブページによって構成されるウェブサイトの階層構造と、ウェブページの文書構造において対象リンクを子孫要素として含んでいる親要素におけるリンク更新頻度のうちの少なくともいずれかに基づいて判定するため、ニュースサイトの構造に依存せずに、ニュース記事を抽出することができる。
以下、本発明の実施の形態を図面を参照して説明する。図1は、本発明によるニュース情報抽出装置の構成例を示すブロック図である。図1に示すニュース記事抽出装置1は、増分リンク抽出部10と、ニュース記事リンク判定部20と、ニュース記事抽出部30とを備える。
増分リンク抽出部10は、指定されたニュースサイトに新たに追加されたリンクを抽出する。ニュース記事リンク判定部20は、増分リンク抽出部10が抽出したリンクがニュース記事へのリンクか否かを判定する。ニュース記事抽出部30は、ニュース記事リンク判定部20の判定結果に基づいて、ニュースサイトからニュース記事を抽出する。ニュース記事抽出部30は、ニュース記事リンク判定部20によって、増分リンク抽出部10が抽出したリンクのうちニュース記事へのリンクであると判定されたリンクのリンク先のウェブページの情報を、ニュース記事の本文が記述されたウェブページの情報として抽出すればよい。
本実施形態において、ニュース記事リンク判定部20は、対象リンクのアンカーテキストの内容と、ニュースサイトと同一ドメインを有するウェブページによって構成されるウェブサイトの階層構造と、ウェブページの文書構造において対象リンクを子孫要素として含んでいる親要素におけるリンク更新頻度のうちの少なくともいずれかに基づいて、増分リンク抽出部10が抽出したリンクがニュース記事へのリンクか否かを判定する。なお、対象リンクとは、ニュース記事へのリンクか否かの判定対象とするリンクを指している。具体的には、増分リンク抽出部10が検出したリンクである。
以下、より具体的な実施例を図面を用いて説明する。図2は、本実施例におけるニュース記事抽出装置の構成例を示すブロック図である。図2に示すニュース記事抽出装置1は、ニュースサイト巡回部101と、リンク抽出部102と、ニュースサイト構造記憶部103と、リンク増分検出部104と、タイトル判定部105と、ウェブサイト構造解析部106と、構造判定部107と、更新頻度判定部108と、ニュース記事本文抽出部109と、ニュースサイト記憶部201と、ニュース記事記憶部202と、ウェブサイト構造記憶部203とを備える。
ニュースサイト巡回部101は、ニュースサイトを巡回し、ニュースサイトの全文(すなわち、そのニュースサイトを構成している全ウェブページの情報)を取得する。ニュースサイト巡回部101は、取得したニュースサイトの全文をニュースサイト記憶部201に記憶させる。ニュースサイト記憶部201は、指定されたニュースサイトのURLと対応づけてそのニュースサイトの全文を記憶する。なお、ニュースサイト記憶部201に記憶されるニュースサイトの全文は、巡回毎に更新されるようになっていてもよい。
リンク抽出部102は、ニュースサイト巡回部101が取得したニュースサイトの全文からニュースサイトを構成している各ウェブページに含まれる他のウェブページへのハイパーリンク(以下、単にリンクという。)を抽出する。リンク抽出部102は、リンクを抽出する際に、リンク先が相対URLで示されている場合には、絶対URLに変換する。
ニュースサイト構造記憶部103は、1回目の巡回時に、リンク抽出部102が抽出したリンクについての情報をニュース記事記憶部202に記憶させる。なお、ニュースサイト構造記憶部103は、1回目の巡回時に抽出されたリンクについての情報を、ニュース記事リンク候補情報の初期値としてニュース記事記憶部202に記憶させる。ここで、ニュース記事リンク候補情報とは、ニュース記事記憶部202に保持させておく情報の一つであって、ニュースサイトに新たに追加されたリンクがニュース記事へのリンクであるか否かを判断するための情報である。ニュース記事リンク候補情報は、少なくともリンクを識別するための識別情報と、そのリンクがニュース記事へのリンクか否かを示すニュース記事フラグとを含む。なお、さらにリンク先のURLや、アンカーテキストの内容、親要素の情報、巡回日時を含んでいてもよい。
ニュース記事記憶部202は、指定されたニュースサイトについて、ニュース記事リンク候補情報と、ニュース記事へのリンクと判断されたリンクから抽出されるニュース記事の本文が掲載されているウェブページの情報とを記憶する。
1回目の巡回時において、ニュースサイト構造記憶部103は、リンク抽出部102が抽出したリンクについて、該リンクの識別情報と、リンク先のURLと、ニュース記事へのリンクでない旨を示すニュース記事フラグとを対応づけた情報を、ニュース記事リンク候補情報の初期値としてニュース記事記憶部202に登録する。なお、さらに巡回日時や、アンカーテキストの内容、親要素の情報を対応づけて登録してもよい。
なお、同じウェブページへのリンクが複数存在した場合には、1つのリンクとして登録するようにしてもよい。そのような場合には、1つのリンクについて、複数のアンカーテキストや親要素の情報が対応づけられる。なお、異なるリンクとして登録することも可能である。そのような場合には、それぞれについてニュース記事へのリンクか否かを判断した上で、本文を抽出する際にリンク先が同じURLを示しているリンクをまとめるようにすればよい。なお、1つのリンクとして登録する場合には、リンク先のウェブページのURLによって各々のリンクを識別すればよい。一方、異なるリンクとして登録する場合には、リンクを含んでいるウェブページのURLと該ウェブページにおけるリンクの位置とによって各々のリンクを識別すればよい。なお、リンクの識別情報として、リンクを識別するための情報そのものを登録してもよいし、リンクを識別するための情報に対応づけて割り当てた識別子(ID)を登録するようにしてもよい。
リンク増分検出部104は、2回目以降の巡回時に、リンク抽出部102が抽出したリンクのうち、新たに追加されたリンクを検出する。リンク増分検出部104は、ニュース記事記憶部202に記憶されているリンクと、今回の巡回によって抽出されたリンクとを比較して、重複しないリンクを新たに追加されたリンクとして検出する。リンク増分検出部104は、検出したリンクについての情報をニュース記事リンク候補情報に追加してニュース記事記憶部202に記憶させる。ここで、リンク増分検出部104は、ニュース記事リンク候補情報に、新たに追加されたリンクとして検出したリンクについての情報を追加する際に、ニュース記事フラグを、ニュース記事へのリンク候補(すなわち、対象リンク)である旨を示す情報にする。
ニュース記事タイトル判定部105は、リンクのアンカーテキストがニュース記事のタイトルに該当するか否かを判定することによって、対象リンクがニュース記事へのリンクか否かを判定する。例えば、対象リンクのアンカーテキストの文字列長または該文字列に含まれる品詞の種類もしくは所定の品詞の数に基づいて、対象リンクのアンカーテキストがニュース記事のタイトルに該当するか否かを判定する。例えば、アンカーテキストの文字列長が12文字以下であった場合に、ニュース記事のタイトルに該当しないと判定してもよい。また、例えば、アンカーテキストとして指定された文字列が助詞または動詞を含んでいない場合に、ニュース記事のタイトルに該当しないと判定してもよい。また、例えば、名詞を2語以上含んでいない場合に、ニュース記事のタイトルに該当しないと判定してもよい。ニュース記事タイトル判定部105は、タイトルに該当しないと判定したリンクを、ニュース記事へのリンク候補から削除する。具体的には、ニュース記事記憶部202に記憶されているニュース記事リンク候補情報において、該当するリンクのニュース記事フラグをニュース記事へのリンクでない旨を示す情報に更新すればよい。
ウェブサイト階層解析部106は、指定されたニュースサイトと同一ドメイン中のウェブサイト(指定されたニュースサイトと同一ドメインを有するウェブページによって構成されるウェブサイト。以下、単にウェブサイトという。)のトップページからのウェブページの参照関係に基づいて、該ウェブサイトの階層構造を解析する。ウェブサイト階層解析部106は、ウェブサイトのトップページからリンクを辿り、ウェブページ間のリンクの繋がりをツリー構造またはネットワーク構造に変換することによって、該ウェブサイトの階層構造を解析する。なお、ツリー構造またはネットワーク構造に変換するとは、具体的には、ツリー構造またはネットワーク構造に沿ったウェブページ間のリンクの繋がりを示す情報を作成することをいう。ここで、ツリー構造とは、親ノードから子ノードのリンクで構成され、子ノードが複数の親ノードを参照しない構造をいう。また、ネットワーク構造とは、親ノードから子ノードのリンクで構成され、子ノードが複数の親ノードを参照することがある構造をいう。
なお、ウェブサイトを巡回した際、ページ間がリダイレクトされている場合には、直接リンクが存在しなくても、仮想的なリンクが存在されているものとして扱う。ウェブサイト階層解析部106は、ツリー構造またはネットワーク構造に沿ったウェブページ間のリンクの繋がりを示す情報を作成し、その情報をウェブサイト構造情報としてウェブサイト構造記憶部203に記憶させる。
ウェブサイト構造情報は、例えば、ネットワーク構造に沿った情報であれば、ウェブページ毎に、そのウェブページを識別する識別情報と、そのウェブページが含んでいるリンクのリンク先のウェブページの情報(リンク先情報)と、そのウェブページをリンク先とするリンクを含んでいるウェブページの情報(リンク元情報)とを含む情報であってもよい。また、例えば、ツリー構造に沿った情報であれば、トップページを開始としてリンクを辿った毎に、現在いるウェブページの情報と、該ウェブページが含んでいるリンクのリンク先のウェブページの情報(リンク先情報)とを含む情報であってもよい。ウェブサイト構造記憶部203は、指定されたニュースサイトに対応するウェブサイト毎に、ウェブサイト構造情報を記憶する。
構造判定部107は、ウェブサイト階層解析部106が解析したウェブサイトの階層構造に基づいてニュース記事の本文を掲載しているウェブページを推定することによって、対象リンクがニュース記事へのリンクか否かを判定する。構造判定部107は、例えば、対象リンクのリンク先のウェブページがニュース記事の本文を掲載していると推定されるウェブページに該当するか否かに基づいて、対象リンクがニュース記事へのリンクか否かを判定してもよい。また、例えば、対象リンクに対して該ウェブページをリンク先とする経路が存在するか否かに基づいて、対象リンクがニュース記事へのリンクか否かを判定してもよい。なお、構造判定部107は、例えば、指定されたニュースサイトにおいて末端のウェブページを、ニュース記事の本文を掲載しているウェブページと推定してもよい。また、例えば、指定されたニュースサイトにおいて末端のウェブページであって、ニュースサイトと同一ドメインを有するウェブページによって構成されるウェブサイト内の複数のウェブページから参照されていないウェブページを、ニュース記事の本文を掲載しているウェブページと推定してもよい。構造判定部107は、対象リンクのうち、リンク先のウェブページがニュース記事の本文を掲載しているウェブページに該当しないと判定されたリンクを、ニュース記事へのリンク候補から削除する。
本実施例では、構造判定部107は、ウェブサイト階層解析部106が解析したウェブサイトの階層構造から、ニュースサイトにおいて末端ページとなるウェブページであって、同一ドメイン中の複数のウェブページから参照されていないウェブページを抽出し、抽出したページ群の中で、対象リンクから辿ることができるウェブページを、ニュース記事の本文を掲載しているウェブページであると判定する。
更新頻度判定部108は、ウェブページの文書構造において対象リンクを子孫要素として含んでいる親要素におけるリンク更新頻度に基づいて、該親要素がニュース記事へのリンクの親要素に該当するか否かを判定することによって、対象リンクがニュース記事へのリンクか否かを判定する。更新頻度判定部108は、ウェブページの文書構造において対象リンクを子孫要素として含んでいる親要素毎に、リンクが更新される頻度(リンク更新頻度)を計測し、計測されたリンク更新頻度に基づいて、該親要素がニュース記事へのリンクの親要素に該当するか否かを判定する。また、更新頻度判定部108は、親要素がニュース記事へのリンクの親要素に該当しないと判定したリンクを、ニュース記事へのリンク候補から削除する。
本実施例では、1回目の巡回以降、所定の調査期間を設けて、対象リンクを保持する親要素毎にリンク更新頻度の情報を持たせ、リンク更新頻度が最も大きいまたは所定の閾値よりも大きい親要素を、ニュース記事へのリンクの親要素に該当すると判定する。なお、調査期間経過後は、継続してリンク更新頻度を求めるようにしてもよいし、親要素が新たに検出されるまでの間一度求めたリンク更新頻度に基づく判定結果を維持するようにしてもよい。
ニュース記事本文抽出部109は、ニュース記事タイトル判定部105と、構造判定部107と、更新頻度判定部108による判定の結果、ニュース記事へのリンクであると判定されたリンクについて、そのリンクからニュース記事の本文を掲載しているウェブページを抽出する。なお、ニュース記事本文抽出部109は、ニュース記事タイトル判定部105と、構造判定部107と、更新頻度判定部108とによる判定後、最終的に、ニュース記事リンク候補情報においてニュース記事へのリンク候補として残っているリンクが、ニュース記事へのリンクであるとして、そのリンクからニュース記事の本文を掲載しているウェブページを抽出すればよい。また、ニュース記事本文抽出部109は、抽出したウェブページの情報をニュース記事の本文を掲載しているウェブページの情報としてニュース記事記憶部202に記憶させる。
なお、ニュース記事本文抽出部109は、ニュース記事記憶部202にニュース記事の本文を掲載しているウェブページの情報を記憶させる際に、ニュース記事の本文を掲載しているウェブページの情報への参照情報を併せてニュース記事記憶部202に登録するようにしてもよい。例えば、ニュース記事本文抽出部109は、ニュース記事の本文を掲載しているウェブページの情報への参照情報として、ニュース記事記憶部202に、抽出先のニュースサイトのURLと、ニュース記事の生成時刻と、本文を掲載しているウェブページの情報の格納場所とを示す情報を併せて登録するようにしてもよい。
なお、本実施例において、リンク増分検出部104が、図1における増分リンク抽出部10に相当する。また、ニュース記事タイトル判定部105,ウェブサイト階層解析部106,構造判定部107および更新頻度判定部108が、図1におけるニュース記事リンク判定部20に相当する。また、ニュース記事本文抽出部109が、図1におけるニュース記事抽出部30に相当する。
なお、図2では、アンカーテキストのデータ特性による判定を行うニュース記事タイトル判定部105と、ウェブサイトの構造特性によって判定を行う構造判定部107(およびウェブサイト階層解析部106)と、親要素のリンク更新頻度特性によって判定を行う更新頻度判定部108とを全て備えた構成例を示しているが、ニュース記事へのリンクか否かの判定に用いる特性を限定する場合には、判定に用いない特性による判定部(ここでは、ニュース記事タイトル判定部105や、ウェブサイト階層解析部106および構造判定部107や、更新頻度判定部108)は省略される。
なお、ニュース記事抽出装置1は、具体的には、ニュースサイトからニュース記事を抽出したいユーザによって使用されている該ニュースサイトにアクセス可能なパーソナルコンピュータ等によって実現される。また、ニュースサイト巡回部101,リンク抽出部102,ニュースサイト構造記憶部103,リンク増分検出部104,ニュース記事タイトル判定部105,ウェブサイト階層解析部106,構造判定部107,更新頻度判定部108,ニュース記事本文抽出部109は、具体的には、ニュース記事抽出装置1を実現しうる情報処理装置におけるCPUと該CPUで実行されるプログラムによって実現される。また、ニュースサイト記憶部201,ニュース記事記憶部202,ウェブサイト構造記憶部203は、具体的には、記憶装置によって実現される。
次に、本実施例におけるニュース記事抽出装置1の動作について説明する。図3は、本実施例におけるニュース記事抽出装置1の動作例を示すフローチャートである。なお、図3に示す動作例は、ニュースサイト巡回部101がニュースサイトを巡回する度に実施される動作の一例を示している。
まず、ニュースサイト巡回部101が、ウェブ上の指定されたニュースサイトにアクセスし、ニュースサイトの全文を取得する(ステップS001)。ニュースサイト巡回部101は、例えば、指定されたニュースサイトにアクセスして、ニュースサイトの全体のHTMLファイルを受信する。ニュースサイト巡回部101は、受信したニュースサイトの全体のHTMLファイルを、ニュースサイト記憶部201に記憶する。
次に、リンク抽出部102は、ニュースサイト巡回部101が取得したニュースサイトの全文から他のウェブページへのリンクを抽出する(ステップS002)。例えば、ニュースサイト巡回部101が図4に示すHTMLファイルをニュースサイトの全文として取得したとする。HTMLでは、Anchorタグによってリンクを記述することができる。具体的には、<a href=”URL”>アンカーテキスト</a>という形式で記述され、リンク先のアドレスとなるURLと、アンカーテキストとが指定できるようになっている。図4に示すHTMLファイルの例では、リンク抽出部102は、合計3つのリンクを抽出する。
次に、1回目の巡回においては、ニュースサイト構造記憶部103が動作する。ニュースサイト構造記憶部103は、1回目の巡回時にのみ、リンク抽出部102が抽出したリンクについての情報をニュース記事記憶部202に記憶させ、ニュース記事リンク候補情報を初期化する。ニュースサイト構造記憶部103は、例えば、リンク抽出部102が抽出したリンクについて、該リンクに割り当てた識別情報と、リンク先のURLと、ニュース記事へのリンクでない旨を示すニュース記事フラグと巡回日時とを対応づけた情報を、ニュース記事リンク候補情報の初期値としてニュース記事記憶部202に登録する。図5は、図4に示すHTMLファイルから抽出されたリンクについて登録されるニュース記事リンク候補情報の例を示す説明図である。
図5に示す例では、例えば、リンクID=1として、リンク先のURLが”http://example.com.news/070211.html ”で、アンカーテキストが”A社がXXXを発表”であるリンクが登録されていることが示されている。なお、他の2つのリンクについては、リンクID=2,3として登録されている。そして、今回登録された全リンクについて、ニュース記事フラグとしてニュース記事へのリンクでない旨を示す”NO”が登録され、巡回日時が”2007/02/13 15:00”として登録されていることが示されている。
なお、1回目の巡回においては、対象リンクが存在しないため、これ以降の処理は省略される。
次に、2回目以降の巡回における動作を説明する。まず、1回目の巡回時と同様に、ニュースサイト巡回部101が、ウェブ上の指定されたニュースサイトにアクセスし、ニュースサイトの全文を取得する(ステップS001)。
次に、リンク抽出部102は、ニュースサイト巡回部101が取得したニュースサイトの全文から他のウェブページへのリンクを抽出する(ステップS002)。例えば、ニュースサイト巡回部101が図6に示すHTMLファイルをニュースサイトの全文として取得したとする。図6に示す例では、リンク抽出部102は、合計9つのリンクを抽出する。
次に、リンク増分検出部104は、リンク抽出部102によって抽出されたリンクから増分リンクを抽出する(ステップS003)。リンク増分検出部104は、ニュース記事記憶部202に記憶されているリンクと、今回の巡回によって抽出されたリンクとを比較して、重複しないリンクを増分リンクとして検出する。例えば、今回が2回目の巡回であれば、図6に示すHTMLファイルから抽出された9つのリンクのうち、1回目の巡回時に検出された3つのリンクを除く6つのリンクが増分リンクとして検出される。
リンク増分検出部104は、検出した増分リンクについての情報を、ニュース記事フラグをニュース記事へのリンク候補である旨を示す”CANDITATE”として、ニュース記事記憶部202のニュース記事リンク候補情報に追加して記憶させる。図7は、図6に示すHTMLファイルから抽出されたリンクについて登録されるニュース記事リンク候補情報の例を示す説明図である。
図7に示す例では、例えば、リンクID=4として、リンク先のURLが”http://example.com.news/070214.html ”で、アンカーテキストが”X社とY社が提携”であるリンクが登録されていることが示されている。なお、他の5つのリンクについては、リンクID=5〜9として登録されている。そして、今回登録された6つのリンクについて、ニュース記事フラグとしてニュース記事へのリンク候補である旨を示す”CANDITATE”が登録され、巡回日時が”2007/02/16 15:00”として登録されていることが示されている。なお、図7に示す例では、ニュースサイト巡回部101が3日おきに巡回する例を示しているが、ニュースサイト巡回部101が巡回する周期は、これに限定されない。
次に、ニュース記事タイトル判定部105は、ニュース記事記憶部202のニュース記事リンク候補情報に、ニュース記事フラグが”CANDITATE”として登録されているリンクを対象リンクとして、対象リンクのアンカーテキストがニュース記事のタイトルに該当するか否かを判定する(ステップS004)。ニュース記事タイトル判定部105は、例えば、対象リンクのアンカーテキストとして指定されている文字列に対して品詞解析を行い、解析の結果、助詞や動詞が含まれていなければ、対象リンクのアンカーテキストはニュース記事のタイトルに該当しないと判定してもよい。図7に示す例では、ID=7のリンクのアンカーテキストがニュース記事のタイトルに該当しないと判定される。ニュース記事タイトル判定部105は、図8に示すように、アンカーテキストがニュース記事のタイトルに該当しないと判定したリンクをニュース記事へのリンク候補から除外するため、ニュース記事記憶部202のニュース記事リンク候補情報において、該リンクのニュース記事フラグを”NO”に設定してもよい。
次に、ウェブサイト階層解析部106は、ニュースサイトと同一ドメイン中のウェブサイトの階層構造を解析する(ステップS005)。ウェブサイト階層解析部106は、ニュースサイトと同一ドメイン中のウェブサイトのトップページからリンクを辿り、ウェブページ間のリンクの繋がりから、ウェブサイト内におけるウェブページ間の階層関係を構築する。具体的には、ツリー構造またはネットワーク構造に沿ったウェブページ間のリンクの繋がりを示す情報(ウェブサイト構造情報)を作成する。なお、ウェブサイト階層解析部106は、ニュースサイトに限定したリンクの繋がりを抽出することによって、ウェブサイト内におけるニュースサイトを構成するウェブページ間の階層関係を構築するようにしてもよい。
図9は、ウェブサイト階層解析部106が行うウェブサイト構造の解析動作の一例を示すフローチャートである。図9に示すように、ウェブサイト階層解析部106は、まず、ニュースサイトと同一ドメイン中のウェブサイトのトップページを取得する(ステップS101)。なお、ニュースサイトと同一ドメイン中のウェブサイトのトップページは、ニュースサイトのURLと併せてトップページのURLを指定するようにすることによって、取得可能である。また、ニュースサイトから辿れるURLの中から、ニュースサイトのURLで示されるドメインに基づきトップページのURLを推定することも可能である。
次に、ウェブサイト階層解析部106は、トップページに含まれるリンクを抽出し(ステップS102)、そのリンクのリンク先のウェブページの情報を、未訪問のウェブページを示す情報としてキューに格納する(ステップS103)。
そして、キューに未訪問のウェブページを示す情報が格納されている間、次の処理を繰り返す(ステップS104のYes)。まず、キューから未訪問のウェブページの情報を取り出し、そのウェブページを取得して訪問済みとする。なお、ウェブサイト構造情報において、トップページを開始とするリンク先のウェブページ毎に、訪問済みか否かを示す情報を保持するようにすればよい。
次に、取得したウェブページからリンクを抽出して、リンク先のウェブページが訪問済みでなければ、そのウェブページの情報を未訪問のウェブページを示す情報としてキューに格納する(ステップS107のYes,ステップS108)。全てのリンクを処理し、訪問済みでないページがキューに存在しなくなったら、処理を終了する。上記一連の作業において、リンクを抽出した際に、該リンクを含んでいるウェブページのリンク先情報として、そのリンク先のウェブページを示す情報を登録するようにする。また、該リンクのリンク先のウェブページのリンク元情報に、そのリンクを含んでいるウェブページを示す情報を登録するようにする。これにより、ネットワーク構造に沿ったウェブページ間のリンクの繋がりを示すウェブサイト構造情報を作成することができる。
例えば、図10に示すようなリンクが、ニュースサイトと同一ドメイン中のウェブサイト内において貼られていた場合、図11に示すようなウェブサイト構造情報が作成される。なお、図11において、ページ欄は、図10におけるウェブページの名称を示しているが、実際はウェブページのURLでよい。また、ID欄の網掛けは、ニュースサイト下のウェブページであることを示している。なお、ニュースサイト下のウェブページか否かは、例えば、ニュースサイトのトップページとして指定されるURLと、該ウェブページのURLとによって判断することができる。図11に示す例では、ID=1〜9が割り当てられた計9つのウェブページが検出されたことが示されている。例えば、図11に示す例から、ID=7のウェブページ”お知らせ”は、ID=2のウェブページ”ニュースサイト(のトップページ)”とID=3のウェブページ”内部サイト(のトップページ)”から参照されていることがわかる。また、ID=6のウェブページ”記事D”は、ID=3のウェブページ”内部サイト”を参照していることがわかる。なお、ID=3のウェブページ”内部サイト”は、ニュースサイト下のウェブページでないため、それがわかるよう”()”つきで記述している。
ウェブサイト階層解析部106によるウェブサイトの解析が終了すると、構造判定部107は、ウェブサイト階層解析部106がウェブサイトの階層構造に基づいて、対象リンクのリンク先のウェブページがニュース記事の本文を掲載しているウェブページに該当するか否かを判定する(図3のステップS006)。本実施例では、構造判定部107は、ウェブサイト階層解析部106が解析したウェブサイトの階層構造から、ニュースサイトにおいて末端ページとなるウェブページであって、同一ドメイン中の複数のウェブページから参照されていないウェブページを抽出し、抽出したページ群の中で、対象リンクから辿ることができるウェブページを、ニュース記事の本文を掲載しているウェブページであると判定する。
図12は、構造判定部107が行う構造判定の動作の一例を示すフローチャートである。図12に示すように、まず、構造判定部107は、ウェブサイト階層解析部106が解析したウェブサイトの階層構造から、ニュースサイトにおいて末端ページとなるウェブページであって、同一ドメイン中の複数のウェブページから参照されていないウェブページを抽出し、そのウェブページをニュース記事の本文が掲載されているウェブページと推定して候補リストに追加する(ステップS201)。例えば、図11に示すウェブサイト構造情報において、ニュースサイトにおいて末端ページとなるウェブページは、ニュースサイト下のウェブページであって、リンク先情報に他のニュースサイト下のウェブページの情報が登録されていないウェブページを検索することで得られる。また、同一ドメイン中の複数のウェブページから参照されていないウェブページは、リンク元情報に、複数のウェブページの情報が登録されていないウェブページを検索することで得られる。なお、図11に示す例では、結果、”記事A”,”記事B”,”記事C”,”記事D”,”お知らせ”が抽出されることになる。
そして、候補リストに要素がある間、次の処理を繰り返す(ステップS202のYes)。まず、候補リストから最初の要素を取得し(ステップS203)、対象リンクの中から、そのウェブページをリンク先とするリンクが存在するか否かを判定する(ステップS204)。対象リンクの中で、そのウェブページをリンク先とするリンクが存在した場合、そのリンクをニュース記事本文へのリンクと推定すればよい(ステップS204のYes,ステップS205)。全ての候補を処理しおえたら、処理を終了する。なお、構造判定部107は、対象リンクのうち、ニュース記事本文へのリンクと推定されなかったリンクについて、該リンクのニュース記事フラグを”NO”に設定すればよい。このようにすることによって、例えば、ニュース記事の更新にあわせて、そのニュース記事に関するトピックスが新たなウェブページとして追加されるような場合であっても、増分リンクとして検出されたそのトピックスページへのリンクはニュース記事本文へのリンクでないとして除外しつつ、そのトピックスページから検出されるニュース記事へのリンクをニュース記事本文へのリンクとして検出することができる。
次に、更新頻度判定部108は、ウェブページの文書構造において対象リンクを子孫要素として含んでいる親要素におけるリンク更新頻度に基づいて、該親要素がニュース記事へのリンクの親要素に該当するか否かを判定する(図3のステップS007)。
更新頻度判定部108は、例えば、1回目の巡回以降、所定の調査期間を設けて、対象リンクを保持する親要素毎に頻度情報を持たせ、最も更新頻度が大きいまたは所定の閾値よりも更新頻度が大きい親要素を、ニュース記事へのリンクの親要素に該当すると判定する。例えば、更新頻度判定部108は、HTML構文上予め定められている子要素を列挙するタグのうち、子孫にAnchorタグをもつものについて、スコアリングを行う。例えば、DIV,TABLE,DL,UL,OLタグ等の列挙タグを検査対象の親要素(検査対象タグ)とする。更新頻度判定部108は、ウェブページ内に含まれる全てのタグの中から、増分AnchorタグをHTML文法上親方向に辿って、最も距離の短い検査対象タグを1つ選択すればよい。例えば、図4に示す例の場合、増分Anchorタグを子要素として保持しているのはLIタグとDIVタグであるが、LIタグは検査対象タグではないため、LIタグの親のタグであるULタグを検査対象タグとして検出する。
更新頻度判定部108は、検出される検査対象タグについて、増分リンク数と増分期間から、リンク更新頻度を求めればよい。図13は、更新頻度判定に関わるニュース記事リンク候補情報の例を示す説明図である。図13に示す例では、調査期間を最低3日(巡回周期)とした場合のリンク更新頻度の算出例が示されている。図13に示す例では、リンク更新頻度として、分子に測定開始からのリンク増分数、分母に測定開始日から数えた日数を計上している。図13に示す例では、検査対象タグとして、UL#1(ULタグ)と、DIV#1(DIVタグid=content)とDIV#2(DIVタグid=content2)とがあるが、最もスコアが大きいUL#1がニュース記事へのリンクを格納する親タグであると判定し、その親タグに格納されているリンク以外のリンクを除外している。なお、調査期間は、必ずしも巡回周期と同期させる必要はなく、例えば、図14に示すように、リンク更新頻度を算出するためのテーブルを別途用意しておき、そのテーブルにおいて、調査期間内に検出された親タグについてリンク増分数を計上するようにしてもよい。なお、調査期間が満了するまでの間は、全リンクを除外するようにしてもよいし、何もせずに他の判定部による判定結果を維持するようにしてもよい。また、調査期間の最低日数が満了してリンク更新頻度が算出された際には、それまでに検出された対象リンクであっても、ユーザがまだ結果を閲覧していない可能性がある場合には、さかのぼって判定するようにしてもよい。
最後に、ニュース記事本文抽出部109が、ニュース記事タイトル判定部105と、構造判定部107と、更新頻度判定部108とによる判定の結果に基づいて、各対象リンクがニュース記事へのリンクであるか否かを判定し、ニュース記事へのリンクであると判断したリンクからニュース記事の本文を掲載しているウェブページを抽出すればよい(ステップS008のYes,ステップS009)。なお、本実施例においては、ニュース記事本文抽出部109は、ニュース記事リンク候補情報において、最終的にニュース記事へのリンク候補として残っているリンクを、ニュース記事へのリンクであると判定する。また、ニュース記事本文抽出部109は、ニュース記事の本文を掲載しているウェブページを抽出する際に、ニュース記事の生成時刻を取得するようにしてもよい。ニュース記事の生成時刻は、例えば、ニュース記事の本文を掲載しているウェブページ取得時のHTTPレスポンスのHTTPヘッダのLast−Modifiedの情報から得ることができる。なお、Last−Modifiedが存在しない場合には、巡回日時を記事の生成時刻として設定してもよい。そして、抽出したニュース記事の本文を掲載しているウェブページの情報と、その情報への参照情報をニュース記事記憶部202に記憶させる。なお、本実施例では、本文を掲載しているウェブページの情報への参照情報として、抽出先のニュースサイトのURLと、ニュース記事の生成時刻と、本文を掲載しているウェブページの情報の格納場所とを示す情報を登録する。図15は、ニュース記事の本文を掲載しているウェブページの情報への参照情報の例を示す説明図である。
定期的にニュースサイトの巡回を行い、上記の手順を繰り返し行うことによって、ニュース記事のコンテンツのみが自動的に蓄積される。なお、3種類の特性(アンカーテキストのデータ特性,ウェブサイトの構造特性,親要素のリンク更新頻度特性)による判定順序は、上記の例に限定されない。また、3種類の特性による判定を独立させて行うことも可能である。
なお、上記の例では、ニュースサイトを構成している全ウェブページの中から、増分リンクを検出して、検出された各増分リンクについてニュース記事へのリンクか否かを判断することによってニュース記事を抽出する例を示したが、例えば、リンクを抽出するウェブページ(ニュースサイトのトップページから何階層分等)を予め限定して、やみくもに増分リンクが検出されないようにしてもよい。そのような場合には、図12のステップS204において、対象リンクに対し、ニュース記事の本文が掲載されていると推定したウェブページをリンク先とする経路が存在するか否かを判定するようにすればよい。そして、そのウェブページをリンク先とする経路が存在したリンク(対象リンク)をニュース記事本文へのリンクと推定すればよい。構造判定部107は、例えば、ニュース記事リンク候補情報として、ニュース記事本文へのリンクと推定した対象リンクに対応づけて、ニュース記事の本文が掲載されていると推定したウェブページの情報を登録してもよい。そして、ニュース記事本文抽出部109は、そのようなニュース記事候補情報に基づいて、ニュース記事へのリンクと判断したリンクに対して、構造判定部107によってニュース記事の本文が掲載されているウェブページと推定されたウェブページを抽出するようにすればよい。なお、最終的に、同一のウェブページが異なるリンクからニュース記事の本文が掲載されているウェブページとして抽出するような場合には、そのうちの一つだけをユーザに提示するようにしてもよい。
以上のように、本実施形態によれば、ニュースサイトの構造に依存せずに、ニュースサイトにおいて更新されたニュース記事のコンテンツを的確に抽出して収集することができる。その理由は、ニュースサイトへのリンクの追加に着目しつつ、ウェブページ構造におけるウェブページ間のリンクの繋がりによる関連や、アンカーテキストの内容、リンクの更新頻度によってニュース記事へのリンクか否かを判定するからであって、ニュースサイト毎に構造指定や意味解析を行うことなく、ニュース記事のコンテンツを的確に抽出することができるからである。
具体的には、増分リンクから無条件に抽出する構造に比べて、アンカーテキストの内容を判定材料に用いることによって、例えば、サイドメニューを排除することができるからである。また、ウェブサイトの構造を判定材料に用いることによって、例えば、中間ページを排除することができるからである。また、リンク更新頻度を判断材料に用いることによって、例えば、突発的な増分リンクを排除することができるからである。
なお、上記の実施形態には、指定されたニュースサイトに新たに追加されたリンクを抽出する増分リンク抽出部と、増分リンク抽出部が抽出したリンクがニュース記事へのリンクか否かを判定するニュース記事リンク判定部と、ニュース記事リンク判定部の判定結果に基づいて、ニュースサイトからニュース記事を抽出するニュース記事抽出部とを備え、ニュース記事リンク判定部が、対象リンクのアンカーテキストの内容と、ニュースサイトと同一ドメインを有するウェブページによって構成されるウェブサイトの階層構造と、ウェブページの文書構造において対象リンクを子孫要素として含んでいる親要素におけるリンク更新頻度のうちの少なくともいずれかに基づいて、増分リンク抽出部が抽出したリンクがニュース記事へのリンクか否かを判定するニュース記事抽出装置の構成が示されている。なお、増分リンク抽出部は、例えば、図1における増分リンク抽出部10や、図2におけるリンク増分検出部104によって実現されている。また、ニュース記事リンク判定部は、例えば、図1におけるニュース記事リンク判定部20や、図2におけるニュース記事タイトル判定部105,ウェブサイト階層解析部106,構造判定部107および更新頻度判定部108によって実現されている。また、ニュース記事抽出部は、例えば、図1におけるニュース記事抽出部30や、図2におけるニュース記事本文抽出部109によって実現されている。
また、上記の実施形態には、ニュース記事リンク判定部が、少なくとも対象リンクのアンカーテキストの内容と、指定されたニュースサイトと同一ドメインを有するウェブページによって構成されるウェブサイトの階層構造とに基づいて、増分リンク抽出部が抽出したリンクがニュース記事へのリンクか否かを判定するニュース記事抽出装置の構成が示されている(図3におけるステップS004およびステップS006参照。)。
また、上記の実施形態には、ニュース記事リンク判定部が、対象リンクのアンカーテキストの内容と、指定されたニュースサイトと同一ドメインを有するウェブページによって構成されるウェブサイトの階層構造と、ウェブページの文書構造において対象リンクを子孫要素として含んでいる親要素におけるリンク更新頻度とに基づいて、増分リンク抽出部が抽出したリンクがニュース記事へのリンクか否かを判定する(図3におけるステップS004,ステップS006およびステップS007参照。)
また、上記の実施形態には、指定されたニュースサイトと同一ドメインを有するウェブページによって構成されるウェブサイトのトップページからのウェブページの参照関係に基づいて、該ウェブサイトの階層構造を解析するウェブサイト構造解析部(例えば、図2におけるウェブサイト階層解析部106)と、ウェブサイト構造解析部が解析したウェブサイトの階層構造に基づいて、該対象リンクのリンク先のウェブページがニュース記事の本文を掲載していると推定されるウェブページに該当するか否かを判定する構造判定部(例えば、図2における構造判定部107)とを備えたニュース記事抽出装置の構成が示されている。また、上記の実施形態には、ウェブサイト構造解析部が解析した前記ウェブサイトの階層構造に基づいて、ニュース記事の本文を掲載しているウェブページを推定し、対象リンクに対して該ウェブページをリンク先とする経路が存在するか否かを判定する構造判定部を備えたニュース記事抽出装置の構成が示されている。
また、上記の実施形態には、対象リンクのアンカーテキストの文字列長または該文字列に含まれる品詞の種類もしくは所定の品詞の数に基づいて、該対象リンクのアンカーテキストがニュース記事のタイトルに該当するか否かを判定するタイトル判定部(例えば、図2におけるニュース記事タイトル判定部105)を備えたニュース記事抽出装置の構成が示されている。
また、上記の実施形態には、ウェブページの文書構造において対象リンクを子孫要素として含んでいる親要素におけるリンク更新頻度に基づいて、親要素がニュース記事へのリンクの親要素に該当するか否かを判定する更新頻度判定部(例えば、図2における更新頻度判定部108)を備えたニュース記事抽出装置の構成が示されている。
また、上記の実施形態には、構造判定部が、指定されたニュースサイトにおいて末端のウェブページを、ニュース記事の本文を掲載しているウェブページと推定するニュース記事抽出装置の構成が示されている。また、上記の実施形態には、構造判定部が、指定されたニュースサイトにおいて末端のウェブページであって、ニュースサイトと同一ドメインを有するウェブページによって構成されるウェブサイト内の複数のウェブページから参照されていないウェブページを、ニュース記事の本文を掲載しているウェブページと推定するニュース記事抽出装置の構成が示されている。
また、上記の実施形態には、更新頻度判定部が、ウェブページの文書構造において対象リンクを子孫要素として含んでいる親要素毎に、該要素内において所定期間内に追加されたリンクの数に基づいてリンク更新頻度として求め、求めたリンク更新頻度が最も高いまたは所定の閾値以上の親要素がニュース記事へのリンクの親要素に該当すると判定するニュース記事抽出装置の構成が示されている。
また、上記の実施形態には、ニュース記事が掲載されるウェブサイトとして指定された複数のニュースサイトからニュース記事を抽出して収集するニュース記事抽出装置であって、指定されたニュースサイトに定期的にアクセスし、ニュースサイト内の全ウェブページの情報を取得するニュースサイト巡回部と、ニュースサイト巡回部によって取得されたウェブページの情報に基づいて、ニュースサイトに新たに追加されたリンクを抽出する増分リンク抽出部と、増分リンク抽出部が抽出したリンクがニュース記事へのリンクか否かを判定するニュース記事リンク判定部と、ニュース記事リンク判定部によってニュース記事へのリンクと判定されたリンクのリンク先のウェブページの情報を、ニュース記事の本文が記述されたウェブページの情報として抽出するニュース記事抽出部と、ニュース記事抽出部によって抽出されたウェブページの情報を記憶するニュース記事記憶部とを備え、ニュース記事リンク判定部が、対象リンクのアンカーテキストの内容と、ニュースサイトと同一ドメインを有するウェブページによって構成されるウェブサイトの階層構造と、ウェブページの文書構造において対象リンクを子孫要素として含んでいる親要素におけるリンク更新頻度のうちの少なくともいずれかに基づいて、増分リンク抽出部が抽出したリンクがニュース記事へのリンクか否かを判定するニュース記事抽出装置の構成が示されている。なお、上記の実施形態において、ニュースサイト巡回部は、図2におけるニュースサイト巡回部101によって実現されている。
本発明は、個人的にニュースサイトにおいて更新されたニュース記事のコンテンツを収集するために用いるだけでなく、複数のニュースサイトを集約し、新たなニュースポータルサイトを作成するための自動ニュースポータルサイト作成装置にも適用することができる。
本発明によるニュース情報抽出装置の構成例を示すブロック図である。 本実施例におけるニュース記事抽出装置の構成例を示すブロック図である。 本実施例におけるニュース記事抽出装置1の動作例を示すフローチャートである。 ニュースサイトの一例を示す説明図である。 1回目の巡回時におけるニュース記事リンク候補情報の例を示す説明図である。 ニュースサイトの一例を示す説明図である。 2回目の巡回時におけるニュース記事リンク候補情報の例を示す説明図である。 タイトル判定に関わるニュース記事リンク候補情報の例を示す説明図である。 ウェブサイト構造の解析動作の一例を示すフローチャートである。 ウェブサイト内におけるウェブページ間のリンク状態の例を示す説明図である。 ウェブサイト構造情報の例を示す説明図である。 構造判定の動作の一例を示すフローチャートである。 更新頻度判定に関わるニュース記事リンク候補情報の例を示す説明図である。 更新頻度判定に関わるニュース記事リンク候補情報の例を示す説明図である。 ニュース記事記憶部202に登録される本文を掲載しているウェブページへの参照情報の例を示す説明図である。
符号の説明
1 ニュース記事抽出装置
10 増分リンク抽出部
20 ニュース記事リンク判定部
30 ニュース記事抽出部
101 ニュースサイト巡回部
102 リンク抽出部
103 ニュースサイト構造記憶部
104 リンク増分検出部
105 ニュース記事タイトル判定部
106 ウェブサイト階層解析部
107 構造判定部
108 更新頻度判定部
109 ニュース記事本文抽出部
201 ニュースサイト記憶部
202 ニュース記事記憶部
203 ウェブサイト構造記憶部

Claims (13)

  1. ニュース記事が掲載されるウェブサイトとして指定されたニュースサイトからニュース記事を抽出するニュース記事抽出装置であって、
    指定されたニュースサイトに新たに追加されたリンクを抽出する増分リンク抽出部と、
    前記増分リンク抽出部が抽出したリンクがニュース記事へのリンクか否かを判定するニュース記事リンク判定部と、
    前記ニュース記事リンク判定部の判定結果に基づいて、前記ニュースサイトからニュース記事を抽出するニュース記事抽出部とを備え、
    前記ニュース記事リンク判定部は、対象リンクのアンカーテキストの内容と、前記ニュースサイトと同一ドメインを有するウェブページによって構成されるウェブサイトの階層構造と、ウェブページの文書構造において対象リンクを子孫要素として含んでいる親要素におけるリンク更新頻度のうちの少なくともいずれかに基づいて、前記増分リンク抽出部が抽出したリンクがニュース記事へのリンクか否かを判定する
    ことを特徴とするニュース記事抽出装置。
  2. ニュース記事リンク判定部は、少なくとも対象リンクのアンカーテキストの内容と、指定されたニュースサイトと同一ドメインを有するウェブページによって構成されるウェブサイトの階層構造とに基づいて、増分リンク抽出部が抽出したリンクがニュース記事へのリンクか否かを判定する
    請求項1に記載のニュース記事抽出装置。
  3. ニュース記事リンク判定部は、対象リンクのアンカーテキストの内容と、指定されたニュースサイトと同一ドメインを有するウェブページによって構成されるウェブサイトの階層構造と、ウェブページの文書構造において対象リンクを子孫要素として含んでいる親要素におけるリンク更新頻度とに基づいて、増分リンク抽出部が抽出したリンクがニュース記事へのリンクか否かを判定する
    請求項1に記載のニュース記事抽出装置。
  4. 指定されたニュースサイトと同一ドメインを有するウェブページによって構成されるウェブサイトのトップページからのウェブページの参照関係に基づいて、該ウェブサイトの階層構造を解析するウェブサイト構造解析部と、
    前記ウェブサイト構造解析部が解析した前記ウェブサイトの階層構造に基づいて、対象リンクのリンク先のウェブページがニュース記事の本文を掲載していると推定されるウェブページに該当するか否かを判定する構造判定部とを備えた
    請求項1から請求項3のうちのいずれか1項に記載のニュース記事抽出装置。
  5. 指定されたニュースサイトと同一ドメインを有するウェブページによって構成されるウェブサイトのトップページからのウェブページの参照関係に基づいて、該ウェブサイトの階層構造を解析するウェブサイト構造解析部と、
    前記ウェブサイト構造解析部が解析した前記ウェブサイトの階層構造に基づいて、ニュース記事の本文を掲載しているウェブページを推定し、対象リンクに対して該ウェブページをリンク先とする経路が存在するか否かを判定する構造判定部とを備えた
    請求項1から請求項3のうちのいずれか1項に記載のニュース記事抽出装置。
  6. 対象リンクのアンカーテキストの文字列長または該文字列に含まれる品詞の種類もしくは所定の品詞の数に基づいて、該対象リンクのアンカーテキストがニュース記事のタイトルに該当するか否かを判定するタイトル判定部を備えた
    請求項1から請求項3のうちのいずれか1項に記載のニュース記事抽出装置。
  7. ウェブページの文書構造において対象リンクを子孫要素として含んでいる親要素におけるリンク更新頻度に基づいて、前記親要素がニュース記事へのリンクの親要素に該当するか否かを判定する更新頻度判定部を備えた
    請求項1から請求項3のうちのいずれか1項に記載のニュース記事抽出装置。
  8. 構造判定部は、指定されたニュースサイトにおいて末端のウェブページを、ニュース記事の本文を掲載しているウェブページと推定する
    請求項4または請求項5に記載のニュース記事抽出装置。
  9. 構造判定部は、指定されたニュースサイトにおいて末端のウェブページであって、前記ニュースサイトと同一ドメインを有するウェブページによって構成されるウェブサイト内の複数のウェブページから参照されていないウェブページを、ニュース記事の本文を掲載しているウェブページと推定する
    請求項4または請求項5に記載のニュース記事抽出装置。
  10. 更新頻度判定部は、ウェブページの文書構造において対象リンクを子孫要素として含んでいる親要素毎に、該要素内において所定期間内に追加されたリンクの数に基づいてリンク更新頻度として求め、求めたリンク更新頻度が最も高いまたは所定の閾値以上の親要素がニュース記事へのリンクの親要素に該当すると判定する
    請求項7に記載のニュース記事抽出装置。
  11. ニュース記事が掲載されるウェブサイトとして指定された複数のニュースサイトからニュース記事を抽出して収集するニュース記事抽出装置であって、
    指定されたニュースサイトに定期的にアクセスし、前記ニュースサイト内の全ウェブページの情報を取得するニュースサイト巡回部と、
    前記ニュースサイト巡回部によって取得されたウェブページの情報に基づいて、前記ニュースサイトに新たに追加されたリンクを抽出する増分リンク抽出部と、
    前記増分リンク抽出部が抽出したリンクがニュース記事へのリンクか否かを判定するニュース記事リンク判定部と、
    前記ニュース記事リンク判定部によってニュース記事へのリンクと判定されたリンクのリンク先のウェブページの情報を、ニュース記事の本文が記述されたウェブページの情報として抽出するニュース記事抽出部と、
    前記ニュース記事抽出部によって抽出されたウェブページの情報を記憶するニュース記事記憶部とを備え、
    前記ニュース記事リンク判定部は、対象リンクのアンカーテキストの内容と、前記ニュースサイトと同一ドメインを有するウェブページによって構成されるウェブサイトの階層構造と、ウェブページの文書構造において対象リンクを子孫要素として含んでいる親要素におけるリンク更新頻度のうちの少なくともいずれかに基づいて、前記増分リンク抽出部が抽出したリンクがニュース記事へのリンクか否かを判定する
    ことを特徴とするニュース記事抽出装置。
  12. ニュース記事が掲載されるウェブサイトとして指定されたニュースサイトからニュース記事を抽出するためのニュース記事リンク特定方法であって、
    指定されたニュースサイトに新たに追加されたリンクを抽出し、
    前記抽出したリンクがニュース記事へのリンクか否かを、対象リンクのアンカーテキストの内容と、前記ニュースサイトと同一ドメインを有するウェブページによって構成されるウェブサイトの階層構造と、ウェブページの文書構造において対象リンクを子孫要素として含んでいる親要素におけるリンク更新頻度のうちの少なくともいずれかに基づいて判定する
    ことを特徴とするニュース記事リンク特定方法。
  13. ニュース記事が掲載されるウェブサイトとして指定されたニュースサイトからニュース記事を抽出するためのニュース記事抽出用プログラムであって、
    コンピュータに、
    指定されたニュースサイトに新たに追加されたリンクを抽出する処理、および
    前記抽出したリンクがニュース記事へのリンクか否かを、対象リンクのアンカーテキストの内容と、前記ニュースサイトと同一ドメインを有するウェブページによって構成されるウェブサイトの階層構造と、ウェブページの文書構造において対象リンクを子孫要素として含んでいる親要素におけるリンク更新頻度のうちの少なくともいずれかに基づいて判定する処理
    を実行させるためのニュース記事抽出用プログラム。
JP2007205616A 2007-08-07 2007-08-07 ニュース記事抽出装置、ニュース記事リンク特定方法およびニュース記事抽出用プログラム Pending JP2009042908A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007205616A JP2009042908A (ja) 2007-08-07 2007-08-07 ニュース記事抽出装置、ニュース記事リンク特定方法およびニュース記事抽出用プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007205616A JP2009042908A (ja) 2007-08-07 2007-08-07 ニュース記事抽出装置、ニュース記事リンク特定方法およびニュース記事抽出用プログラム

Publications (1)

Publication Number Publication Date
JP2009042908A true JP2009042908A (ja) 2009-02-26

Family

ID=40443611

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007205616A Pending JP2009042908A (ja) 2007-08-07 2007-08-07 ニュース記事抽出装置、ニュース記事リンク特定方法およびニュース記事抽出用プログラム

Country Status (1)

Country Link
JP (1) JP2009042908A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011150591A (ja) * 2010-01-22 2011-08-04 Casio Computer Co Ltd 情報表示装置およびプログラム
JP2015092398A (ja) * 2015-01-13 2015-05-14 カシオ計算機株式会社 情報表示制御装置およびプログラム
JP2016081096A (ja) * 2014-10-10 2016-05-16 Jcc株式会社 情報取得サーバー、情報取得方法、及び情報取得配信システム
CN114519163A (zh) * 2022-02-21 2022-05-20 江西数易科技有限公司 基于正则匹配和Bloom filter的增量新闻URL提取方法
JP7434867B2 (ja) 2018-12-18 2024-02-21 富士通株式会社 ウェブページから情報を抽出する方法、装置及び記憶媒体

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011150591A (ja) * 2010-01-22 2011-08-04 Casio Computer Co Ltd 情報表示装置およびプログラム
JP2016081096A (ja) * 2014-10-10 2016-05-16 Jcc株式会社 情報取得サーバー、情報取得方法、及び情報取得配信システム
JP2015092398A (ja) * 2015-01-13 2015-05-14 カシオ計算機株式会社 情報表示制御装置およびプログラム
JP7434867B2 (ja) 2018-12-18 2024-02-21 富士通株式会社 ウェブページから情報を抽出する方法、装置及び記憶媒体
CN114519163A (zh) * 2022-02-21 2022-05-20 江西数易科技有限公司 基于正则匹配和Bloom filter的增量新闻URL提取方法
CN114519163B (zh) * 2022-02-21 2024-05-03 江西数易科技有限公司 基于正则匹配和Bloom filter的增量新闻URL提取方法

Similar Documents

Publication Publication Date Title
US8413044B2 (en) Method and system of retrieving Ajax web page content
TWI524193B (zh) 用於搜尋結果之語義目錄的電腦可讀取媒體及電腦實現方法
JP4427500B2 (ja) 意味解析装置、意味解析方法および意味解析プログラム
KR101727139B1 (ko) 코퍼스 자동 구축 방법 및 이를 이용한 개체명 인식 방법과 장치
US20130055068A1 (en) Automatic detection of item lists within a web page
US20110153655A1 (en) Server-sensor network cooperative spatial query processing method and server using the same
JP2009042908A (ja) ニュース記事抽出装置、ニュース記事リンク特定方法およびニュース記事抽出用プログラム
CN106547803B (zh) 爬取网站增量资源的方法和装置
CN108153728B (zh) 一种关键词确定方法及装置
CN105528357A (zh) 一种基于url和网页文档结构的相似性的网页内容提取方法
CN108280102B (zh) 上网行为记录方法、装置及用户终端
JP5676522B2 (ja) 文字列変換方法及びプログラム
CN111158973B (zh) 一种web应用动态演化监测方法
CN111381809A (zh) 一种焦点页面的查找方法及装置
JP2005346598A (ja) ウェブ情報収集装置とウェブクローラープログラム、及びウェブ情報収集方法
CN110719344B (zh) 域名获取方法、装置、电子设备及存储介质
JP5135174B2 (ja) 大規模webサイトの評価装置、大規模webサイトの評価方法および大規模webサイトの評価プログラム
JP2012059212A (ja) 抽出装置、抽出方法及び抽出プログラム
CN102521288A (zh) 一种互联网Web服务信息获取方法
KR101607771B1 (ko) 저자 식별 방법 및 장치
CN103581263B (zh) Url点击事件的识别方法、装置和服务器
JP2011070541A (ja) ネットマーケティング支援方法及びネットマーケティング支援装置
JP2015103101A (ja) テキスト要約装置、方法、及びプログラム
CN101334779A (zh) 信息提供方法和信息提供设备
JP2011053912A (ja) ページ類似判定装置、ページ類似判定方法、および、ページ類似判定プログラム