JP2010117941A - Web文書主要コンテンツ抽出装置及びプログラム - Google Patents

Web文書主要コンテンツ抽出装置及びプログラム Download PDF

Info

Publication number
JP2010117941A
JP2010117941A JP2008291379A JP2008291379A JP2010117941A JP 2010117941 A JP2010117941 A JP 2010117941A JP 2008291379 A JP2008291379 A JP 2008291379A JP 2008291379 A JP2008291379 A JP 2008291379A JP 2010117941 A JP2010117941 A JP 2010117941A
Authority
JP
Japan
Prior art keywords
main content
web document
unit
feature
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008291379A
Other languages
English (en)
Other versions
JP5317638B2 (ja
Inventor
Mitsumasa Kondo
光正 近藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008291379A priority Critical patent/JP5317638B2/ja
Publication of JP2010117941A publication Critical patent/JP2010117941A/ja
Application granted granted Critical
Publication of JP5317638B2 publication Critical patent/JP5317638B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】人手を用いて抽出規則を作成することなく、主要コンテンツの自動抽出を可能にする。
【解決手段】本発明は、Web文書が入力されると、該Web文書を所定の分割規則に基づいてセグメントに分割し、記憶手段に格納し、分割されたセグメント毎に、主要コンテンツ判定のための特徴量を抽出し、セグメント毎に記憶手段に格納し、セグメント毎の特徴量に基づいて、機械学習アルゴリズムを用いて主要コンテンツか否かの判定を行い、主要コンテンツと判定された部位を結合して、主要コンテンツとして出力する。
【選択図】図1

Description

本発明は、Web文書主要コンテンツ抽出装置及びプログラムに係り、特に、Web文書の主要コンテンツと判断できる部分を自動的に抽出するためのWeb文書主要コンテンツ抽出装置及びプログラムに関する。
従来の主要コンテンツ抽出手法は、各Web文書から人手によって抽出規則を作成し、その規則に基づいて主要コンテンツを抽出していた(例えば、非特許文献1参照)。
http://fm.goo.ne.jp/
しかしながら、Web文書の情報検索や、ユーザが閲覧したWeb文書から情報推薦等を行う際に、該当Web文書の主要コンテンツ部分の抽出を行わない場合、ナビゲーションリンクや広告部分等の本来主要コンテンツとは関係のない部分がノイズとなる問題があった。この問題に対して、従来は各Web文書に対して人手で抽出規則を作成し、主要コンテンツの抽出を行っていたが、全てのWeb文書に対して人手で抽出規則を作成することは困難である。また、Web文書の構成は月日が経つ毎に更新されるため、作成した規則を永続的に用いることは困難である。
本発明は、上記の点に鑑みなされたもので、人手を用いて抽出規則を作成することなく、主要コンテンツの自動抽出が可能となるWeb文書主要コンテンツ抽出装置及びプログラムを提供することを目的とする。
図1は、本発明の原理構成図である。
本発明(請求項1)は、Web文書の主要コンテンツを抽出するWeb文書主要コンテンツ抽出装置であって、
Web文書が入力されると、該Web文書を所定の分割規則に基づいてセグメントに分割し、記憶手段160に格納する文書分割手段120と、
文書分割手段120で分割されたセグメント毎に、主要コンテンツ判定のための特徴量を抽出し、セグメント毎に記憶手段160に格納する特徴量抽出手段130と、
セグメント毎の特徴量に基づいて、機械学習アルゴリズムを用いて主要コンテンツか否かの判定を行う主要コンテンツ判定手段140と、
主要コンテンツ判定手段140で主要コンテンツと判定された部位を結合して、主要コンテンツとして出力する主要コンテンツ出力手段150と、を有する。
また、本発明(請求項2)は、文書分割手段120において、
入力されたWeb文書に広告対象領域が存在する場合には、該広告対象領域を抽出する広告対象領域抽出手段と、
Web文書からノイズとなるタグや領域を除去するノイズ除去手段と、
ノイズ除去手段から出力されたWeb文書を、所定の分割規則を用いて分割し記憶手段に格納する分割手段と、を含む。
また、本発明(請求項3)は、ノイズ除去手段において、
Web文書のHTMLを説明するコメントタグ、JavaScript、formタグ、領域、文字列を正規表現を用いて除去する。
また、本発明(請求項4)は、特徴量抽出手段130において、
Web文書から、
Webブラウザに表示される文字列の特徴量、
タグ情報に関する特徴量、
アンカーリンクに関する特徴量
のいずれか、または全てを抽出する抽出手段と、
抽出された特徴量を正規化する正規化手段と、
各特徴量間の比率を求め、正規化手段により正規化を行う比率計算手段を含む。
また、本発明(請求項5)は、主要コンテンツ判定手段140において、
特徴量抽出手段130で抽出されたセグメント毎の特徴量について、機械学習アルゴリズムを用いて学習を行い、学習した学習モデルを用いて主要コンテンツか否かの判定を行う手段を含む。
また、本発明(請求項6)は、主要コンテンツ出力手段150において、
主要コンテンツ判定手段140で主要コンテンツであると判定されたセグメントのみを結合して出力する手段を含む。
また、本発明(請求項7)は、特徴量抽出手段130において、
抽出手段を行う前に、HTMLタグで用いられる記号をWebブラウザ上で表示する際に用いる特殊文字、及び、該特殊文字以外のHTML特殊文字を削除する特殊文字削除手段を含む。
また、本発明(請求項8)は、主要コンテンツ判定手段140において、
特徴量抽出手段130で抽出された特徴量を絞り込み、絞り込んだ特徴量モデル毎に学習モデルを作成する手段を含む。
本発明(請求項9)は、請求項1乃至8のいずれか1項に記載のWeb文書主要コンテンツ抽出装置を構成する各手段としてコンピュータを機能させるためのWeb文書主要コンテンツ抽出プログラムである。
上述のように、本発明によれば、人手を用いて抽出する規則を作成することなく、主要コンテンツの自動抽出が可能となる。また、完全自動の主要コンテンツ抽出を実現するため、Web文書の内容が変更されたとしても、対応が可能である。
以下、図面と共に本発明の実施の形態を説明する。
本発明は、最初にWeb文書の分割を行い、次に分割したWeb文書内に含まれる情報から特徴量を抽出し、主要コンテンツであるか否かを判別することで、Web文書の主要コンテンツを抽出する。主な特徴量としては、テキスト情報、アンカーリンク情報、HTML及びXHTML等で用いられるクラス情報とタグ情報を用いる。また、精度向上のための処理として、セクション広告部分の抽出と、広告の除去等の処理を行う。主要コンテンツの例を図2、図3に示す。図2、図3において破線内が主要コンテンツである。
図4は、本発明の一実施の形態におけるWeb文書主要コンテンツ抽出装置の構成を示す。
同図に示すWeb文書主要コンテンツ抽出装置100は、Web文書取得・入力部110、Web文書分割部120、特徴量抽出部130、主要コンテンツ判定部140、主要コンテンツ出力部150、記憶部160から構成される。
<Web文書取得・入力部>
Web文書取得・入力部110は、処理するWeb文書(データ)の入力を行う。当該Web文書取得・入力部110の構成を図5に示す。同図に示すWeb文書取得・入力部110は、ユーザから入力された主要コンテンツを抽出したいWeb文書のURL、もしくはファイルそのものを取得するデータ入力部111と、入力がURLである場合は当該URLを取得するURL入力部113と、そのURL先のWeb文書を取得するWeb文書取得部114と、Web文書そのものである場合は当該Web文書を取得するWeb文書ファイル入力部112と、Web文書の文字コードをUTF−8に変換し統一する文書コード変換部115から構成される。
<Web文書分割部120>
Web文書分割部120は、取得した文書を分割する。図6にWeb文書分割部120の構成を示す。Web文書分割部120は、広告対象領域抽出部121、ノイズとなるタグや領域除去部122、Web文書分割処理部123から構成される。
Web文書分割部120では、最初に、広告対象領域抽出部121において、インターネット広告当のコンテンツタグを含む領域がある場合、その領域を抽出する。ここで、インターネット広告とは、googleやoverture等の広告会社が広告配信のための主要コンテンツ絞込みに用いるタグである。googleの広告の場合、<!-google_ad_section_start-->から、<!--google_ad_section_end-->までがその領域に該当する。これらのタグはWeb文書によって文字列が少々異なったり大文字で表記されるので、大文字と小文字を区別しない正規表現を用いたり、ワイルドカードの正規表現を用いる等を行うことで、対象の文字列表記の違いを吸収する処理を行う。以下、正規表現を用いる処理の説明の際には、対象の違いを吸収する処理を行っているものとする。
ノイズとなるタグや領域除去部122(以下、「ノイズ除去部」と記す)は、インターネット広告が存在する場合、上記で述べた領域を抽出する処理を行い、インターネット広告の領域がない場合は、最初に入力されたWeb文書に対して処理を行う。ノイズ除去部122は、次に、余計なタグや領域、特定の文字列を除去する処理を行う。除去されるタグや領域は、Web文書のHTMLを説明するコメントタグであったり、JavaScriptであったり、formタグであったりする。除去するタグと領域を以下に記載する。
・"<!--"で始まり、"-->"で終わるコメントタグ;
・"<script>"タグから"</script>"タグで囲まれる領域;
・"<style>"タグから"</style>"タグで囲まれる領域;
・"<select>"タグから"</select>"タグで囲まれる領域;
・"<noscript>"タグから"</noscript>"タグで囲まれる領域;
・"<form>"タグから"</form>"タグで囲まれる領域;
・連続した空白文字列(単一の空白は除く)
・連続したタブ文字列(単一のタブは除く)
ノイズ除去部122は、以上のタグ、領域、文字列を正規表現を用いて除去する。タグ内にalt属性やclass属性が存在する場合も考えられるため、その場合はそれらを含めたタグを考慮した正規表現を用いて分割を行う(例:<style class="hoge">)。
Web文書分割処理部123は、Web文書の分割を行う。分割の規則は、以下のタグを用いて分割を行う。
・<div>
・</div>
・<td>
・</td>
タグ内にalt属性やclass属性が存在する場合も考えられるため、その場合は、それらを含めたタグを考慮した正規表現を用いて分割を行う(例:<div class="hoge">)。以降分割されたWeb文書の一つ一つを「セグメント」と呼び、特徴量抽出と主要コンテンツか否かの判定をセグメント毎に行うものとする。
各セグメントは記憶部160に格納する。
<特徴量抽出部130>
特徴量抽出部130は、記憶部160に格納されたセグメントから特徴量を抽出し、Web文書の主要コンテンツ部分の判定を行う。特徴量抽出部130の構成を図7に示す。
同図に示す特徴量抽出部130は、アンカーリンク情報特徴量抽出部131、タグ情報特徴量抽出部132、特徴量正規化部134、Web文書で表示される文字列特徴量抽出部(以下、「文字列特徴量抽出部」と記す)133、特徴量正規化部134、特徴量の比率特徴量抽出部(以下、「特徴量抽出処理部」と記す)135から構成される。
<アンカーリンク情報特徴量抽出部131>
アンカーリンク情報特徴量抽出部131は、Web文書分割部120から出力され、記憶部160に格納されているセグメントからアンカーリンクに関する特徴量を抽出する。
(1)アンカーリンク数:
あるセグメントにおいて、アンカーリンクが多数含まれているセグメントは主要コンテンツでない可能性が高い。そこで、アンカーリンク情報特徴量抽出部131では、アンカーリンクの数を特徴量として用いる。具体的には、<a href=…>…</a>タグで表されるアンカーリンクの数を特徴量とする。
この特徴量は以下に説明する特徴量正規化部134において、文字列の量を正規化して特徴量とする手法と、文字列の絶対値を用いて特徴量とする二つを実行し、最終的な文字列の量の特徴量とする。例えば、全てのセグメントにおいて最大のアンカーリンクの数が"10"で、あるセグメント内のアンカーリンクの数が"5"だった場合には、そのセグメントにアンカーリンクの数の特徴量は0.5となる。アンカーリンクタグには、class属性やalt属性が含まれる場合もあるので、アンカーリンクタグの数は正規表現を用いてカウントする。
(2)各アンカーリンクの文字列の平均量
各アンカーリンクの文字列が平均して多い場合、そのセグメントは、関連記事等のナビゲーションリンクである可能性が高い。また、アンカーリンクの文字列が平均して少ない場合、主要コンテンツ内に含まれるキーワード検索リンクである可能性が高い。そこで、アンカーリンク情報特徴量抽出部131は、セグメントに含まれるアンカーリンクの文字列の平均量を特徴量として用いる。アンカーリンクの文字列とは、<a href='…'…>○○○</a>の○○○の部分に該当する。この特徴量も、以下に説明する特徴量正規化部134において、文字列の量を正規化して特徴量とする手法と、文字列の絶対値を用いて特徴量とする二つを実行し、最終的な文字列の量の特徴量とし、メモリ136に格納する。
(3)全てのアンカーリンクの文字列の合計量:
セグメント内に含まれるアンカーリンクの文字列の合計量が多い場合、そのセグメントはナビゲーションリンクである可能性が高い。そこで、アンカーリンク情報特徴量抽出部131は、セグメント内に含まれるアンカーリンクの文字列の合計量を特徴量として用いる。アンカーリンクの文字列とは、<a href='…'>○○○</a>の○○○の部分に該当する。この特徴も以下に説明する特徴量正規化部134において、文字列の量を正規化して特徴量とする手法と、文字列の絶対値を用いて特徴量とする二つを実行し、最終的な文字列の量の特徴量とし、メモリ136に格納する。
(4)最大文字列のアンカーリンクURLの量:
アンカーリンク先のURL文字列が非常に長い場合、そのセグメントは広告である可能性が高い。そこで、セグメント内で最大長のアンカーリンク先のURLの文字列を特徴量として用いる。ここで述べるアンカーリンク先のURL文字列とは、<a href='△△△'…>…</a>の△△△の部分に該当する。この特徴量も以下に説明する特徴量正規化部134において、文字列の量を正規化して特徴量とする手法と、文字列の絶対値を用いて特徴量とする二つを実行し、最終的な文字列の量の特徴量とし、メモリ136に格納する。
(5)広告に関するアンカーリンクを含むか:
広告に関するURLを含むアンカーリンクは特徴的な文字列を含む可能性が高い。例えば、「adclick」、「adnet」、「banner」等がそれにあたる。そこで、アンカーリンク情報特徴量抽出部131は、このような広告となりやすい文字列を含んだルURLを含むアンカーが存在する場合、特徴量を1とし、存在しない場合を0とする特徴量を抽出し、メモリ136に格納する。広告になりやすい文字列は、広告除去用のFirefox用アドインであるAdblock plugin等のサイトに記載されているため、それを用いる。
<タグ情報特徴量抽出部132>
タグ情報特徴量抽出部132は、HTMLタグ等のタグ情報に関する特徴量を抽出する。
(1)テキスト系のHTMLタグの数:
あるセグメントにおいて、Web文書で表示される文字列が多い場合、テキストに関するHTMLタグが多く含まれる。また、ブログ等のCGMにおいては、Web文書で表示される文字列は少ないが、ユーザが改行タグを多用する事例が多く見られる。そこで、タグ情報特徴量抽出部132は、テキストに関するHTMLタグの数を特徴量として用いる。この特徴量も以下に説明する特徴量正規化部134において、文字列の量を正規化して特徴量とする手法と、文字列の絶対値を用いて特徴量とする二つを実行し、最終的な文字列の量の特徴量とし、メモリ136に格納する。
例えば、全てのセグメントにおいて、最大のHTMLタグの量が"10"で、あるセグメント内のHTMLタグの量が"5"だった場合には、そのセグメントのHTMLタグの量の特徴量は"0.5"となる。そして、本実施の形態で使用するテキスト系のHTMLタグは、以下のタグを対象とする。
・<p>
・</p>
・<br>
・</br>
・<font>
・</font>
タグ内にsize属性やclass属性が存在する場合も考えられるため、その場合は、それらを含めたタグを考慮した正規表現を用いてカウントを行う(例:<font size="+1">)。
(2)テキスト系のHTMLタグの連続出現数:
Web文書で表示される文字列が集中して記述してあるセグメントは、テキスト系のタグが多く存在すると同時に、テキスト系のHTMLタグが連続して出現する。ここでいう、「連続して出現する」というのは、他のアンカーリンク等のHTMLタグが間に出現しないということである。そこで、タグ情報特徴量抽出部132は、(1)で述べたテキスト系のHMTLタグの連続出現数を特徴量とする。この特徴量も以下に説明する特徴量正規化部134において、文字列の量を正規化して特徴量とする手法と、文字列の絶対値を用いて特徴量とする二つを実行し、最終的な文字列の量の特徴量とし、メモリ136に格納する。
例えば、全てのセグメントにおいて最大のHTMLタグの連続量が"10"で、あるセグメント内のHTMLタグの連続量が"5"だった場合には、そのセグメントの文字列の量の特徴量は"0.5"となる。
(3)リンクリストタグの数:
あるセグメント内において、リンクリストタグが多い場合、そのセグメントにはナビゲーションリンク等の多くのアンカーリンクが存在し、そのセグメントは主要コンテンツとならない可能性が高い。そこで、タグ情報特徴量抽出部132は、リンクリストタグの数を特徴量とする。この特徴量も、以下に説明する特徴量正規化部134において、文字列の量を正規化して特徴量とする手法と、文字列の絶対値を用いて特徴量とする二つを実行し、最終的な文字列の量の特徴量とし、メモリ136に格納する。
例えば、全てのセグメントにおいて最大のリンクリストタグの量が"10"で、あるセグメント内のリンクリストタグの量が"5"だった場合には、そのセグメントのリンクリストタグの量の特徴量は"0.5"となる。そして、本実施の形態で使用するリンクリストタグは、以下のタグを対象とする。
・<li>
・<ul>
・<dl>
・<dd>
・<ol>
タグ内にalt属性やclass属性が存在する場合も考えられるため、その場合はそれらを含めたタグを考慮した正規表現を用いてカウントを行う(例:<font class="hoge">)。
(4)Web文書で表示される文字列を含まない文字列(HTMLタグを含む)の量:
あるセグメント内において、Webで表示されない文字列(HTMLタグを含む)が多い場合、そのセグメントは広告当の主要コンテンツ出ない可能性が高い。そこで、Web文書で表示される文字列以外の文字列(HTMLタグを含む)量を特徴量とする。この特徴量も、以下に説明する特徴量正規化部134において、文字列の量を正規化して特徴量とする手法と、文字列の絶対値を用いて特徴量とする二つを実行し、最終的な文字列の量の特徴量とし、メモリ136に格納する。
例えば、全てのセグメントにおいて最大のWebで表示されない文字列の量が"100"であるセグメント内のWebで表示されない文字列の量が"50"だった場合には、そのセグメントのWebで表示されない文字列の量の特徴量は"0.5"となる。
<Web文書で表示される文字列特徴量抽出部133>
以下では、Webブラウザで表示される文字列に関する特徴量について述べる。ここで述べる「文字列」とは、HMTLタグ等のWebブラウザで表示されない文字列を含まないものとする。
(1)文字列の量:
一般的にWeb文書の主要コンテンツ部分は、主要コンテンツでない部分と比較すると多くの文字列が含まれている。また、全体的に文字列の少ないWeb文書においても同様のことが言える。そのため、当該文字列特徴量抽出部133では、分割されたWeb文書に含まれる文字列の数を特徴量とする。そして、以下に説明する特徴量正規化部134において、文字列の量を正規化して特徴量とする手法と、文字列の絶対値を用いて特徴量とする二つを実行し、最終的な文字列の量の特徴量とし、メモリ136に格納する。
<特徴量正規化部134>
特徴量正規化部134では、メモリ136に格納された上記の各特徴量について、以下の方法により正規化する。
(1)文字列:
a)文字列の量の正規化を行い特徴量とする手法:
全てのセグメントにおいて最大の文字列の量を持つセグメントの特徴量を"1"とする正規化を行う。例えば、全てのセグメントにおいて最大の文字列の量が"200"で、あるセグメント内の文字列の量が"100"だった場合には、そのセグメントの文字列の量の特徴量は"0・5"となる。このような正規化を行うことで、全体的に文字列の少ないWeb文書においても主要コンテンツの抽出が可能になる。
b)文字列の量の絶対値を用いて特徴量とする手法:
上記のa)で述べた正規化を行い特徴量とする方法は、全体的に文字列の少ないWeb文書において有効であったが、正規化を行うことで、全体的に文字列の量が多く、主要コンテンツ部分のセグメント間の文字列の量の差が大きい場合に不都合が生じる。例えば、全てのセグメントにおいて最大の文字列の量が"1000"で、あるセグメント内の文字列の量が"100"だった場合、そのセグメントの文字列の量の特徴量は"0.1"になる。文字列の量としては多いはずだが、正規化を行うことで、このような弊害が生じる。そこで、文字列の絶対値を用いて特徴量とする手法を行う必要がある。
具体的には、ある特定の値を超えた場合に、その文字列の特徴量を"1"とする手法を用いる。例えば、あるセグメント内の文字列の量が"100"の場合、文字列の量が"5"以上の場合の特徴量が"1"となり、文字列の量が"10"以上の特徴量が"1"となり、…,文字列の量が"105"以上の特徴量は"0"となり、…,文字列の量が"200"以上の特徴量は"0"となるように特徴量を作成する。このように、ある特定の文字列量を超えた場合に特徴量を"1"とする手法を用いることで、特徴量の最大値は"1"のままで文字列の量の絶対値を特徴量とすることができる。また、本実施の形態においての文字列の量の絶対値の特徴量の間隔は"5"としたが、場合において適切な間隔を用いるのが好ましい。8,16,32,64といった2の乗数を用いて特徴量の間隔とする手法も考えられる。文字列の量がx以上の…の最大のxも同様に、場合において適切な値に変更する。主要コンテンツ判定部140における計算量を減らしたい場合にはxの値を小さくすればよい。
(2)句読点の数:
Web広告等のノイズとなりやすいセグメントは、文字列の量は多いが、句読点の数が少ない傾向になる。そのため、句読点の数を特徴とする。具体的には、特徴量正規下部134は、セグメント内の文字列に含まれる「、」、「,」、「。」、「.」、「!」、「・」、「?」、「…」の数を特徴量としてカウントする。この特徴量も文字列の量で述べた正規化による特徴量と、絶対値による特徴量の2通りを算出する。算出方法については、(1)の文字列の項で述べた手法と同じものを用いる。
<特徴量の比率特徴量抽出部135>
特徴量の比率特徴量抽出部(以下、「比率特徴量抽出部」と記す)135は、メモリ136に格納されている前述のアンカーリンク情報特徴量、タグ情報特徴量、Web文書で表示される文字列特徴量間の比率を用いた特徴量を求める。
(1)テキスト系のタグ数とテキスト系のタグの連続出現数の比率:
テキスト系のタグが多数あり、また、テキスト系のタグの連続出現数が多いセグメントは、テキストが密に書かれているため、主要コンテンツである可能性が高い。しかしながら、テキスト系のタグは多数あるが、テキスト系のタグの連続出現数が少ないセグメントは、セグメントのサイズが大きいだけで、主要コンテンツでない可能性が高いと言える。そこで、比率特徴量抽出部135は、テキスト系のタグ数とテキスト系のタグの連続出現数の比率を特徴量として用いる。
具体的には、テキスト系のタグ数を分母とし、テキスト系のタグの連続出現数を分子とした値を、特徴量として用いる。ここで、テキスト系のタグ数が"0"の場合は、分母が"0"となってしまうため、この場合のテキスト系のタグ数とテキスト系のタグの連続出現数の比率の特徴量は"0"とする。本特徴量についても、上記の特徴量正規化部134において特徴量の正規化を同様に行い、最終的な特徴量とし、メモリ136に格納する。この特徴量が大きければ大きいほど主要コンテンツである可能性が高い。
(2)Webで表示される文字列とタグの比率:
あるセグメント内において、Webで表示される文字列が多い場合は主要コンテンツとなる可能性が高いが、同じセグメント内において、HTMLタグ等のタグが多い場合もある。この場合、上記の(1)の「テキスト系のタグ数とテキスト系のタグの連続出現数の比率」の項で述べたように、セグメントサイズが大きいだけで、主要コンテンツでない可能性がある。そこで比率特徴量抽出部135は、Webで表示される文字列とタグの比率を特徴量として用いることで、このような場合に対処する。
具体的には、Webで表示される文字列を分子とし、タグの数を分母とした値を特徴量とする。この特徴量が大きければ大きいほど、主要コンテンツである可能性が高い。本特徴量も、特徴量正規化部134における正規化を行い、最終的な特徴量とし、メモリ136に格納する。タグの数が"0"の場合は、分母が"0"となってしまうため、特徴量は"1"とする。
(3)アンカーリンクの数とリンクリストタグの数の比率:
あるセグメント内において、アンカーリンクの数や、リンクリストタグの数が多ければ多いほど、そのセグメントは主要コンテンツでない可能性が高いが、セグメントが広いためにこれらの特徴量が偶然高くなってしまう場合も考えられる。そこで、比率特徴量抽出部135は、アンカーリンクの数とリンクリストタグの数の比率を特徴量として用いる。
具体的には、アンカーリンクの数を分母とし、リンクリストタグの数を分子とし、特徴量とする。この特徴量が大きければ大きいほど、セグメントの面積に対し密度の高いリンク数が存在することになり、主要コンテンツでない可能性が高い。本特徴量も、特徴量正規化部134における正規化を行い、最終的な特徴量とし、メモリ136に格納する。アンカーリンクの数が"0"の場合は分母が0となってしまうため、特徴量は"0"とする。
<主要コンテンツ判定部>
主要コンテンツ判定部140は、上記の特徴量抽出部130で抽出された特徴量を用いて、主要コンテンツか否かを判定する。主要コンテンツ判定部140の構成を図8に示す。
同図に示す主要コンテンツ判定部140は、特徴量抽出部130から出力されたセグメントの特徴量を入力する特徴量入力部141と、セグメント毎にテキストが存在するか否かを判定するテキスト判定部142と、特徴量毎のパラメータに基づいてセグメントが主要コンテンツのものを抽出する主要コンテンツ判定処理部143から構成される。
以下に、特徴量抽出部130から取得したセグメント毎の特徴量を用いて主要コンテンツか否かを判定する方法について述べる。
図9は、本発明の一実施の形態における特徴量のパラメータ推定方法のフローチャートである。
最初に、人手で主要コンテンツか否かを、特徴量を抽出したセグメント毎に判定した訓練データを作成する(ステップ101,102,103)。ここで、Webで表示される文字列が存在しない場合には、主要コンテンツと見做されないと記述したが、機械学習を用いた手法において、負例として学習に有効であるため、訓練データにはそのようなデータも採用する。そして、そのセグメントの特徴量を用いて学習を行い、特徴量毎の重みを算出する(ステップ104)。速度を重視する場合は、最大エントロピー法で学習し、精度を重視する場合には、二次の多項式カーネルを用いたSupport Vector Machineを用いて学習を行い、学習モデルを作成する(ステップ105)。そして、これらの学習したパラメータを用いて、セグメントの特徴量を主要コンテンツ判定処理部143に入力する。
主要コンテンツ判定処理部143は、セグメント毎に特徴量に基づいて、主要コンテンツか否かを判定し、主要コンテンツのみを主要コンテンツ出力部150に出力する。
なお、本装置をユーザPC等に組み込む場合、全ての特徴量を用いて処理することは、処理量的に難しい、そのため、抽出する特徴量を絞り込むことで処理量を削減する。ここで、機械学習による学習モデルは、絞り込んだ特徴量モデル毎に学習モデルを作成する。
<主要コンテンツ出力部150>
主要コンテンツ出力部150は、主要コンテンツ判定部140にて、主要コンテンツか否かの判定が行われた後に、学習器によって主要コンテンツと判定されたセグメントのみを結合して最終出力するとする。
主要コンテンツ出力部150の構成を図10に示す。同図に示す主要コンテンツ出力部150は、タグ付テキスト出力部151とタグなしテキスト出力部152、データ出力部153から構成される。情報検索の事前処理として本装置を用いたい場合は、タグ付テキスト出力部151を用いてHTMLタグ等のタグを残して、データ出力部153より出力する。一方、情報推薦等で、Web文書の内容を解析したい場合には、タグなしテキスト出力部152を用いてHTMLタグ等のタグを削除して、データ出力部153より出力する。
<特徴量抽出のための事前処理>
精度向上のために、特徴量抽出部130において特徴量を抽出する事前処理として、不要文字列等を除去する手法が有効である。
以下に記述する不要文字列を事前に除去しておくことで、主要コンテンツの判定精度を高める。
・ 
・<
・>
・&
・«
・»
これらの文字列は、HTMLタグ等で用いる記号をWebブラウザ上で表示する際に用いる特殊文字である。また、上記で挙げた特殊文字以外のHTML特殊文字も削除の対象とする。特殊文字は、実際にWebブラウザ上で表示される文字列に対して、文字列の量が多いため、学習の際のノイズとなりやすい。
上記のように、本発明は、様々な統計的特徴量を自動抽出し、Web文書の主要コンテンツ部分を自動的に抽出する技術により、情報検索技術や情報推薦技術の前処理としてWeb文書から主要コンテンツを抽出し、解析精度の向上が実現できる。
なお、上記の実施の形態における図4に示すWeb文書主要コンテンツ抽出装置の各構成要素の動作をプログラムとして構築し、Web文書主要コンテンツ抽出装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、全文検索エンジン等の精度向上の前処理として用いることや、URLを指定するだけでRSSフィードが作成できる機能、Web文書の主要コンテンツの内容にあわせた広告配信、さらにはユーザのWeb閲覧履歴の解析の前処理として使用する等の、Web文書を解析する際の基礎技術として利用可能である。
本発明の原理構成図である。 本発明の一実施の形態における主要コンテンツ例(1)である。 本発明の一実施の形態における主要コンテンツ例(2)である。 本発明の一実施の形態におけるWeb文書主要コンテンツ抽出装置の構成図である。 本発明の一実施の形態におけるWeb文書取得・入力部の構成図である。 本発明の一実施の形態におけるWeb文書分割部の構成図である。 本発明の一実施の形態における特徴量抽出部の構成図である。 本発明の一実施の形態における主要コンテンツ判定部の構成図である。 本発明の一実施の形態における特徴量のパラメータ推定方法のフローチャートである。 本発明の一実施の形態における主要コンテンツ出力部の構成図である。
符号の説明
100 Web文書主要コンテンツ抽出装置
110 Web文書取得・入力部
111 データ入力部
112 Web文書ファイル入力部
113 URL入力部
114 Web文書取得部
115 文字コード変換部
120 文書分割手段、Web文書分割部
121 広告対象領域抽出部
122 ノイズとなるタグや領域除去部
123 Web文書分割処理部
130 特徴量抽出手段、特徴量抽出部
131 アンカーリンク情報特徴量抽出部
132 タグ情報特徴量抽出部
133 Web文書で表示される文字列特徴量抽出部
134 特徴量正規化部
135 特徴量の比率特徴量抽出部
136 メモリ
140 主要コンテンツ判定手段、主要コンテンツ判定部
141 特徴量入力部
142 テキスト判定部
143 主要コンテンツ判定処理部
150 主要コンテンツ出力手段、主要コンテンツ出力部
151 タグ付きテキスト出力部
152 タグなしテキスト出力部
153 データ出力部
160 記憶手段、記憶部

Claims (9)

  1. Web文書の主要コンテンツを抽出するWeb文書主要コンテンツ抽出装置であって、
    Web文書が入力されると、該Web文書を所定の分割規則に基づいてセグメントに分割し、記憶手段に格納する文書分割手段と、
    前記文書分割手段で分割された前記セグメント毎に、主要コンテンツ判定のための特徴量を抽出し、セグメント毎に前記記憶手段に格納する特徴量抽出手段と、
    前記セグメント毎の前記特徴量に基づいて、機械学習アルゴリズムを用いて主要コンテンツか否かの判定を行う主要コンテンツ判定手段と、
    前記主要コンテンツ判定手段で主要コンテンツと判定された部位を結合して、主要コンテンツとして出力する主要コンテンツ出力手段と、
    を有することを特徴とするWeb文書主要コンテンツ抽出装置。
  2. 前記文書分割手段は、
    入力された前記Web文書に広告対象領域が存在する場合には、該広告対象領域を抽出する広告対象領域抽出手段と、
    前記Web文書からノイズとなるタグや領域を除去するノイズ除去手段と、
    前記ノイズ除去手段から出力されたWeb文書を、前記所定の分割規則を用いて分割し前記記憶手段に格納する分割手段と、
    を含む請求項1記載のWeb文書主要コンテンツ抽出装置。
  3. 前記ノイズ除去手段は、
    前記Web文書のHTMLを説明するコメントタグ、JavaScript、formタグ、領域、文字列を正規表現を用いて除去する
    請求項2記載のWeb文書主要コンテンツ抽出装置。
  4. 前記特徴量抽出手段は、
    前記Web文書から、
    Webブラウザに表示される文字列の特徴量、
    タグ情報に関する特徴量、
    アンカーリンクに関する特徴量
    のいずれか、または全てを抽出する抽出手段と、
    抽出された特徴量を正規化する正規化手段と、
    各特徴量間の比率を求め、前記正規化手段により正規化を行う比率計算手段を含む
    請求項1記載のWeb文書主要コンテンツ抽出装置。
  5. 前記主要コンテンツ判定手段は、
    前記特徴量抽出手段で抽出されたセグメント毎の特徴量について、機械学習アルゴリズムを用いて学習を行い、学習した学習モデルを用いて主要コンテンツか否かの判定を行う手段を含む
    請求項1記載のWeb文書主要コンテンツ抽出装置。
  6. 前記主要コンテンツ出力手段は、
    前記主要コンテンツ判定手段で主要コンテンツであると判定されたセグメントのみを結合して出力する手段を含む
    請求項1記載のWeb文書主要コンテンツ抽出装置。
  7. 前記特徴量抽出手段は、
    前記抽出手段を行う前に、HTMLタグで用いられる記号をWebブラウザ上で表示する際に用いる特殊文字、及び、該特殊文字以外のHTML特殊文字を削除する特殊文字削除手段を含む
    請求項4記載のWeb文書主要コンテンツ抽出装置。
  8. 前記主要コンテンツ判定手段は、
    前記特徴量抽出手段で抽出された特徴量を絞り込み、絞り込んだ特徴量モデル毎に学習モデルを作成する手段を含む
    請求項5記載のWeb文書主要コンテンツ抽出装置。
  9. 請求項1乃至8のいずれか1項に記載のWeb文書主要コンテンツ抽出装置を構成する各手段としてコンピュータを機能させるためのWeb文書主要コンテンツ抽出プログラム。
JP2008291379A 2008-11-13 2008-11-13 Web文書主要コンテンツ抽出装置及びプログラム Expired - Fee Related JP5317638B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008291379A JP5317638B2 (ja) 2008-11-13 2008-11-13 Web文書主要コンテンツ抽出装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008291379A JP5317638B2 (ja) 2008-11-13 2008-11-13 Web文書主要コンテンツ抽出装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2010117941A true JP2010117941A (ja) 2010-05-27
JP5317638B2 JP5317638B2 (ja) 2013-10-16

Family

ID=42305574

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008291379A Expired - Fee Related JP5317638B2 (ja) 2008-11-13 2008-11-13 Web文書主要コンテンツ抽出装置及びプログラム

Country Status (1)

Country Link
JP (1) JP5317638B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012018667A (ja) * 2010-07-07 2012-01-26 Nhn Corp テキストパターン抽出を用いてWeb文書をリファインするための方法、システム及びコンピュータ読み出し可能記録媒体
WO2015016133A1 (ja) 2013-07-30 2015-02-05 日本電信電話株式会社 情報管理装置及び情報管理方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1057541C (zh) * 1997-03-24 2000-10-18 化学工业部黎明化工研究院 双巯基羧酸季胺盐二烷基锡化合物及其制备方法和用途
KR101860218B1 (ko) * 2016-10-12 2018-05-21 배재대학교 산학협력단 빅 데이터 기반 질병 키워드 추천 방법 및 시스템, 그리고 이를 포함하는 질병 정보 제공 방법

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08287189A (ja) * 1995-04-18 1996-11-01 Ricoh Co Ltd 文書処理装置
JPH10222520A (ja) * 1997-01-31 1998-08-21 Toshiba Corp 電子化文書処理装置
JPH10254900A (ja) * 1997-03-14 1998-09-25 Omron Corp 自動文書要約装置及び方法
JP2002163276A (ja) * 2000-11-27 2002-06-07 Nec Corp 文書要約システム及び文書要約方法
JP2003242166A (ja) * 2002-02-20 2003-08-29 Victor Co Of Japan Ltd 情報抽出方法、情報検索方法及び情報抽出コンピュータプログラム
JP2004086843A (ja) * 2002-06-27 2004-03-18 Oki Electric Ind Co Ltd 情報抽出装置および方法
JP2005258676A (ja) * 2004-03-10 2005-09-22 Seiko Epson Corp 文書出力装置及びその制御方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08287189A (ja) * 1995-04-18 1996-11-01 Ricoh Co Ltd 文書処理装置
JPH10222520A (ja) * 1997-01-31 1998-08-21 Toshiba Corp 電子化文書処理装置
JPH10254900A (ja) * 1997-03-14 1998-09-25 Omron Corp 自動文書要約装置及び方法
JP2002163276A (ja) * 2000-11-27 2002-06-07 Nec Corp 文書要約システム及び文書要約方法
JP2003242166A (ja) * 2002-02-20 2003-08-29 Victor Co Of Japan Ltd 情報抽出方法、情報検索方法及び情報抽出コンピュータプログラム
JP2004086843A (ja) * 2002-06-27 2004-03-18 Oki Electric Ind Co Ltd 情報抽出装置および方法
JP2005258676A (ja) * 2004-03-10 2005-09-22 Seiko Epson Corp 文書出力装置及びその制御方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200301547001; 奥村 学,難波 英嗣: 'テキスト自動要約に関する研究動向(巻頭言に代えて)' 自然言語処理 Vol.6,No.6, 19990710, PP.1-26., 言語処理学会 *
JPN6012060684; 奥村 学,難波 英嗣: 'テキスト自動要約に関する研究動向(巻頭言に代えて)' 自然言語処理 Vol.6,No.6, 19990710, PP.1-26., 言語処理学会 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012018667A (ja) * 2010-07-07 2012-01-26 Nhn Corp テキストパターン抽出を用いてWeb文書をリファインするための方法、システム及びコンピュータ読み出し可能記録媒体
WO2015016133A1 (ja) 2013-07-30 2015-02-05 日本電信電話株式会社 情報管理装置及び情報管理方法

Also Published As

Publication number Publication date
JP5317638B2 (ja) 2013-10-16

Similar Documents

Publication Publication Date Title
US8630972B2 (en) Providing context for web articles
US8073865B2 (en) System and method for content extraction from unstructured sources
JP5469244B2 (ja) 選択的なコンテンツ抽出
JP5143057B2 (ja) 重要キーワード抽出装置及び方法及びプログラム
US7987417B2 (en) System and method for detecting a web page template
US20110246486A1 (en) Methods and Systems for Extracting Domain Phrases
JP2009238115A (ja) 情報推薦装置および情報推薦方法
US20200004792A1 (en) Automated website data collection method
JPWO2009096523A1 (ja) 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム
WO2017008448A1 (zh) 一种网页核心内容提取方法
JPWO2019224891A1 (ja) 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム
Uzun et al. An effective and efficient Web content extractor for optimizing the crawling process
JP5317638B2 (ja) Web文書主要コンテンツ抽出装置及びプログラム
JP5427694B2 (ja) 関連コンテンツ提示装置及びプログラム
JP2014215911A (ja) 注目領域推定装置、方法およびプログラム
JP6621514B1 (ja) 要約作成装置、要約作成方法、及びプログラム
Lin et al. Combining a segmentation-like approach and a density-based approach in content extraction
JP2019200784A (ja) 分析方法、分析装置及び分析プログラム
JP5379627B2 (ja) 検索制御装置、検索制御方法、及びプログラム
JP2010272006A (ja) 関係抽出装置、関係抽出方法、及びプログラム
JP5180894B2 (ja) 属性表現獲得方法及び装置及びプログラム
JP4959032B1 (ja) ウェブページ解析装置およびウェブページ解析用プログラム
JP2009265770A (ja) 重要文提示システム
JP6173990B2 (ja) 検索支援装置、方法およびプログラム
CN109388665B (zh) 作者关系在线挖掘方法及系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110223

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121120

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130709

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees