JP2010117941A

JP2010117941A - Ｗｅｂ文書主要コンテンツ抽出装置及びプログラム

Info

Publication number: JP2010117941A
Application number: JP2008291379A
Authority: JP
Inventors: Mitsumasa Kondo; 光正近藤
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2008-11-13
Filing date: 2008-11-13
Publication date: 2010-05-27
Anticipated expiration: 2028-11-13
Also published as: JP5317638B2

Abstract

【課題】人手を用いて抽出規則を作成することなく、主要コンテンツの自動抽出を可能にする。
【解決手段】本発明は、Ｗｅｂ文書が入力されると、該Ｗｅｂ文書を所定の分割規則に基づいてセグメントに分割し、記憶手段に格納し、分割されたセグメント毎に、主要コンテンツ判定のための特徴量を抽出し、セグメント毎に記憶手段に格納し、セグメント毎の特徴量に基づいて、機械学習アルゴリズムを用いて主要コンテンツか否かの判定を行い、主要コンテンツと判定された部位を結合して、主要コンテンツとして出力する。
【選択図】図１

Description

本発明は、Ｗｅｂ文書主要コンテンツ抽出装置及びプログラムに係り、特に、Ｗｅｂ文書の主要コンテンツと判断できる部分を自動的に抽出するためのＷｅｂ文書主要コンテンツ抽出装置及びプログラムに関する。

従来の主要コンテンツ抽出手法は、各Ｗｅｂ文書から人手によって抽出規則を作成し、その規則に基づいて主要コンテンツを抽出していた（例えば、非特許文献１参照）。
http://fm.goo.ne.jp/

しかしながら、Ｗｅｂ文書の情報検索や、ユーザが閲覧したＷｅｂ文書から情報推薦等を行う際に、該当Ｗｅｂ文書の主要コンテンツ部分の抽出を行わない場合、ナビゲーションリンクや広告部分等の本来主要コンテンツとは関係のない部分がノイズとなる問題があった。この問題に対して、従来は各Ｗｅｂ文書に対して人手で抽出規則を作成し、主要コンテンツの抽出を行っていたが、全てのＷｅｂ文書に対して人手で抽出規則を作成することは困難である。また、Ｗｅｂ文書の構成は月日が経つ毎に更新されるため、作成した規則を永続的に用いることは困難である。

本発明は、上記の点に鑑みなされたもので、人手を用いて抽出規則を作成することなく、主要コンテンツの自動抽出が可能となるＷｅｂ文書主要コンテンツ抽出装置及びプログラムを提供することを目的とする。

図１は、本発明の原理構成図である。

本発明（請求項１）は、Ｗｅｂ文書の主要コンテンツを抽出するＷｅｂ文書主要コンテンツ抽出装置であって、
Ｗｅｂ文書が入力されると、該Ｗｅｂ文書を所定の分割規則に基づいてセグメントに分割し、記憶手段１６０に格納する文書分割手段１２０と、
文書分割手段１２０で分割されたセグメント毎に、主要コンテンツ判定のための特徴量を抽出し、セグメント毎に記憶手段１６０に格納する特徴量抽出手段１３０と、
セグメント毎の特徴量に基づいて、機械学習アルゴリズムを用いて主要コンテンツか否かの判定を行う主要コンテンツ判定手段１４０と、
主要コンテンツ判定手段１４０で主要コンテンツと判定された部位を結合して、主要コンテンツとして出力する主要コンテンツ出力手段１５０と、を有する。

また、本発明（請求項２）は、文書分割手段１２０において、
入力されたＷｅｂ文書に広告対象領域が存在する場合には、該広告対象領域を抽出する広告対象領域抽出手段と、
Ｗｅｂ文書からノイズとなるタグや領域を除去するノイズ除去手段と、
ノイズ除去手段から出力されたＷｅｂ文書を、所定の分割規則を用いて分割し記憶手段に格納する分割手段と、を含む。

また、本発明（請求項３）は、ノイズ除去手段において、
Ｗｅｂ文書のHTMLを説明するコメントタグ、JavaScript、formタグ、領域、文字列を正規表現を用いて除去する。

また、本発明（請求項４）は、特徴量抽出手段１３０において、
Ｗｅｂ文書から、
Ｗｅｂブラウザに表示される文字列の特徴量、
タグ情報に関する特徴量、
アンカーリンクに関する特徴量
のいずれか、または全てを抽出する抽出手段と、
抽出された特徴量を正規化する正規化手段と、
各特徴量間の比率を求め、正規化手段により正規化を行う比率計算手段を含む。

また、本発明（請求項５）は、主要コンテンツ判定手段１４０において、
特徴量抽出手段１３０で抽出されたセグメント毎の特徴量について、機械学習アルゴリズムを用いて学習を行い、学習した学習モデルを用いて主要コンテンツか否かの判定を行う手段を含む。

また、本発明（請求項６）は、主要コンテンツ出力手段１５０において、
主要コンテンツ判定手段１４０で主要コンテンツであると判定されたセグメントのみを結合して出力する手段を含む。

また、本発明（請求項７）は、特徴量抽出手段１３０において、
抽出手段を行う前に、HTMLタグで用いられる記号をＷｅｂブラウザ上で表示する際に用いる特殊文字、及び、該特殊文字以外のHTML特殊文字を削除する特殊文字削除手段を含む。

また、本発明（請求項８）は、主要コンテンツ判定手段１４０において、
特徴量抽出手段１３０で抽出された特徴量を絞り込み、絞り込んだ特徴量モデル毎に学習モデルを作成する手段を含む。

本発明（請求項９）は、請求項１乃至８のいずれか１項に記載のＷｅｂ文書主要コンテンツ抽出装置を構成する各手段としてコンピュータを機能させるためのＷｅｂ文書主要コンテンツ抽出プログラムである。

上述のように、本発明によれば、人手を用いて抽出する規則を作成することなく、主要コンテンツの自動抽出が可能となる。また、完全自動の主要コンテンツ抽出を実現するため、Ｗｅｂ文書の内容が変更されたとしても、対応が可能である。

以下、図面と共に本発明の実施の形態を説明する。

本発明は、最初にＷｅｂ文書の分割を行い、次に分割したＷｅｂ文書内に含まれる情報から特徴量を抽出し、主要コンテンツであるか否かを判別することで、Ｗｅｂ文書の主要コンテンツを抽出する。主な特徴量としては、テキスト情報、アンカーリンク情報、ＨＴＭＬ及びＸＨＴＭＬ等で用いられるクラス情報とタグ情報を用いる。また、精度向上のための処理として、セクション広告部分の抽出と、広告の除去等の処理を行う。主要コンテンツの例を図２、図３に示す。図２、図３において破線内が主要コンテンツである。

図４は、本発明の一実施の形態におけるＷｅｂ文書主要コンテンツ抽出装置の構成を示す。

同図に示すＷｅｂ文書主要コンテンツ抽出装置１００は、Ｗｅｂ文書取得・入力部１１０、Ｗｅｂ文書分割部１２０、特徴量抽出部１３０、主要コンテンツ判定部１４０、主要コンテンツ出力部１５０、記憶部１６０から構成される。

＜Ｗｅｂ文書取得・入力部＞
Ｗｅｂ文書取得・入力部１１０は、処理するＷｅｂ文書（データ）の入力を行う。当該Ｗｅｂ文書取得・入力部１１０の構成を図５に示す。同図に示すＷｅｂ文書取得・入力部１１０は、ユーザから入力された主要コンテンツを抽出したいＷｅｂ文書のＵＲＬ、もしくはファイルそのものを取得するデータ入力部１１１と、入力がＵＲＬである場合は当該ＵＲＬを取得するＵＲＬ入力部１１３と、そのＵＲＬ先のＷｅｂ文書を取得するＷｅｂ文書取得部１１４と、Ｗｅｂ文書そのものである場合は当該Ｗｅｂ文書を取得するＷｅｂ文書ファイル入力部１１２と、Ｗｅｂ文書の文字コードをＵＴＦ−８に変換し統一する文書コード変換部１１５から構成される。

＜Ｗｅｂ文書分割部１２０＞
Ｗｅｂ文書分割部１２０は、取得した文書を分割する。図６にＷｅｂ文書分割部１２０の構成を示す。Ｗｅｂ文書分割部１２０は、広告対象領域抽出部１２１、ノイズとなるタグや領域除去部１２２、Ｗｅｂ文書分割処理部１２３から構成される。

Ｗｅｂ文書分割部１２０では、最初に、広告対象領域抽出部１２１において、インターネット広告当のコンテンツタグを含む領域がある場合、その領域を抽出する。ここで、インターネット広告とは、googleやoverture等の広告会社が広告配信のための主要コンテンツ絞込みに用いるタグである。googleの広告の場合、＜!-google_ad_section_start--＞から、＜!--google_ad_section_end--＞までがその領域に該当する。これらのタグはＷｅｂ文書によって文字列が少々異なったり大文字で表記されるので、大文字と小文字を区別しない正規表現を用いたり、ワイルドカードの正規表現を用いる等を行うことで、対象の文字列表記の違いを吸収する処理を行う。以下、正規表現を用いる処理の説明の際には、対象の違いを吸収する処理を行っているものとする。

ノイズとなるタグや領域除去部１２２（以下、「ノイズ除去部」と記す）は、インターネット広告が存在する場合、上記で述べた領域を抽出する処理を行い、インターネット広告の領域がない場合は、最初に入力されたＷｅｂ文書に対して処理を行う。ノイズ除去部１２２は、次に、余計なタグや領域、特定の文字列を除去する処理を行う。除去されるタグや領域は、Ｗｅｂ文書のHTMLを説明するコメントタグであったり、JavaScriptであったり、formタグであったりする。除去するタグと領域を以下に記載する。

・"＜!--"で始まり、"--＞"で終わるコメントタグ；
・"＜script＞"タグから"＜/script＞"タグで囲まれる領域；
・"＜style＞"タグから"＜/style＞"タグで囲まれる領域；
・"＜select＞"タグから"＜/select＞"タグで囲まれる領域；
・"＜noscript＞"タグから"＜/noscript＞"タグで囲まれる領域；
・"＜form＞"タグから"＜/form＞"タグで囲まれる領域；
・連続した空白文字列（単一の空白は除く）
・連続したタブ文字列（単一のタブは除く）
ノイズ除去部１２２は、以上のタグ、領域、文字列を正規表現を用いて除去する。タグ内にalt属性やclass属性が存在する場合も考えられるため、その場合はそれらを含めたタグを考慮した正規表現を用いて分割を行う（例：＜style class="hoge"＞）。

Ｗｅｂ文書分割処理部１２３は、Ｗｅｂ文書の分割を行う。分割の規則は、以下のタグを用いて分割を行う。

・＜div＞
・＜/div＞
・＜td＞
・＜/td＞
タグ内にalt属性やclass属性が存在する場合も考えられるため、その場合は、それらを含めたタグを考慮した正規表現を用いて分割を行う（例：＜div class="hoge"＞）。以降分割されたＷｅｂ文書の一つ一つを「セグメント」と呼び、特徴量抽出と主要コンテンツか否かの判定をセグメント毎に行うものとする。

各セグメントは記憶部１６０に格納する。

＜特徴量抽出部１３０＞
特徴量抽出部１３０は、記憶部１６０に格納されたセグメントから特徴量を抽出し、Ｗｅｂ文書の主要コンテンツ部分の判定を行う。特徴量抽出部１３０の構成を図７に示す。

同図に示す特徴量抽出部１３０は、アンカーリンク情報特徴量抽出部１３１、タグ情報特徴量抽出部１３２、特徴量正規化部１３４、Ｗｅｂ文書で表示される文字列特徴量抽出部（以下、「文字列特徴量抽出部」と記す）１３３、特徴量正規化部１３４、特徴量の比率特徴量抽出部（以下、「特徴量抽出処理部」と記す）１３５から構成される。

＜アンカーリンク情報特徴量抽出部１３１＞
アンカーリンク情報特徴量抽出部１３１は、Ｗｅｂ文書分割部１２０から出力され、記憶部１６０に格納されているセグメントからアンカーリンクに関する特徴量を抽出する。

（１）アンカーリンク数：
あるセグメントにおいて、アンカーリンクが多数含まれているセグメントは主要コンテンツでない可能性が高い。そこで、アンカーリンク情報特徴量抽出部１３１では、アンカーリンクの数を特徴量として用いる。具体的には、＜a href=…＞…＜/a＞タグで表されるアンカーリンクの数を特徴量とする。

この特徴量は以下に説明する特徴量正規化部１３４において、文字列の量を正規化して特徴量とする手法と、文字列の絶対値を用いて特徴量とする二つを実行し、最終的な文字列の量の特徴量とする。例えば、全てのセグメントにおいて最大のアンカーリンクの数が"１０"で、あるセグメント内のアンカーリンクの数が"５"だった場合には、そのセグメントにアンカーリンクの数の特徴量は０．５となる。アンカーリンクタグには、class属性やalt属性が含まれる場合もあるので、アンカーリンクタグの数は正規表現を用いてカウントする。

（２）各アンカーリンクの文字列の平均量
各アンカーリンクの文字列が平均して多い場合、そのセグメントは、関連記事等のナビゲーションリンクである可能性が高い。また、アンカーリンクの文字列が平均して少ない場合、主要コンテンツ内に含まれるキーワード検索リンクである可能性が高い。そこで、アンカーリンク情報特徴量抽出部１３１は、セグメントに含まれるアンカーリンクの文字列の平均量を特徴量として用いる。アンカーリンクの文字列とは、＜a href='…'…＞○○○＜/a＞の○○○の部分に該当する。この特徴量も、以下に説明する特徴量正規化部１３４において、文字列の量を正規化して特徴量とする手法と、文字列の絶対値を用いて特徴量とする二つを実行し、最終的な文字列の量の特徴量とし、メモリ１３６に格納する。

（３）全てのアンカーリンクの文字列の合計量：
セグメント内に含まれるアンカーリンクの文字列の合計量が多い場合、そのセグメントはナビゲーションリンクである可能性が高い。そこで、アンカーリンク情報特徴量抽出部１３１は、セグメント内に含まれるアンカーリンクの文字列の合計量を特徴量として用いる。アンカーリンクの文字列とは、＜a href='…'＞○○○＜/a＞の○○○の部分に該当する。この特徴も以下に説明する特徴量正規化部１３４において、文字列の量を正規化して特徴量とする手法と、文字列の絶対値を用いて特徴量とする二つを実行し、最終的な文字列の量の特徴量とし、メモリ１３６に格納する。

（４）最大文字列のアンカーリンクＵＲＬの量：
アンカーリンク先のＵＲＬ文字列が非常に長い場合、そのセグメントは広告である可能性が高い。そこで、セグメント内で最大長のアンカーリンク先のＵＲＬの文字列を特徴量として用いる。ここで述べるアンカーリンク先のＵＲＬ文字列とは、＜a href='△△△'…＞…＜/a＞の△△△の部分に該当する。この特徴量も以下に説明する特徴量正規化部１３４において、文字列の量を正規化して特徴量とする手法と、文字列の絶対値を用いて特徴量とする二つを実行し、最終的な文字列の量の特徴量とし、メモリ１３６に格納する。

（５）広告に関するアンカーリンクを含むか：
広告に関するＵＲＬを含むアンカーリンクは特徴的な文字列を含む可能性が高い。例えば、「adclick」、「adnet」、「banner」等がそれにあたる。そこで、アンカーリンク情報特徴量抽出部１３１は、このような広告となりやすい文字列を含んだルＵＲＬを含むアンカーが存在する場合、特徴量を１とし、存在しない場合を０とする特徴量を抽出し、メモリ１３６に格納する。広告になりやすい文字列は、広告除去用のFirefox用アドインであるAdblock plugin等のサイトに記載されているため、それを用いる。

＜タグ情報特徴量抽出部１３２＞
タグ情報特徴量抽出部１３２は、ＨＴＭＬタグ等のタグ情報に関する特徴量を抽出する。

（１）テキスト系のHTMLタグの数：
あるセグメントにおいて、Ｗｅｂ文書で表示される文字列が多い場合、テキストに関するHTMLタグが多く含まれる。また、ブログ等のCGMにおいては、Ｗｅｂ文書で表示される文字列は少ないが、ユーザが改行タグを多用する事例が多く見られる。そこで、タグ情報特徴量抽出部１３２は、テキストに関するHTMLタグの数を特徴量として用いる。この特徴量も以下に説明する特徴量正規化部１３４において、文字列の量を正規化して特徴量とする手法と、文字列の絶対値を用いて特徴量とする二つを実行し、最終的な文字列の量の特徴量とし、メモリ１３６に格納する。

例えば、全てのセグメントにおいて、最大のHTMLタグの量が"１０"で、あるセグメント内のHTMLタグの量が"５"だった場合には、そのセグメントのHTMLタグの量の特徴量は"０．５"となる。そして、本実施の形態で使用するテキスト系のHTMLタグは、以下のタグを対象とする。

・＜p＞
・＜/p＞
・＜br＞
・＜/br＞
・＜font＞
・＜/font＞
タグ内にsize属性やclass属性が存在する場合も考えられるため、その場合は、それらを含めたタグを考慮した正規表現を用いてカウントを行う（例：＜font size="+1"＞）。

（２）テキスト系のHTMLタグの連続出現数：
Ｗｅｂ文書で表示される文字列が集中して記述してあるセグメントは、テキスト系のタグが多く存在すると同時に、テキスト系のHTMLタグが連続して出現する。ここでいう、「連続して出現する」というのは、他のアンカーリンク等のHTMLタグが間に出現しないということである。そこで、タグ情報特徴量抽出部１３２は、（１）で述べたテキスト系のHMTLタグの連続出現数を特徴量とする。この特徴量も以下に説明する特徴量正規化部１３４において、文字列の量を正規化して特徴量とする手法と、文字列の絶対値を用いて特徴量とする二つを実行し、最終的な文字列の量の特徴量とし、メモリ１３６に格納する。

例えば、全てのセグメントにおいて最大のHTMLタグの連続量が"１０"で、あるセグメント内のHTMLタグの連続量が"５"だった場合には、そのセグメントの文字列の量の特徴量は"０．５"となる。

（３）リンクリストタグの数：
あるセグメント内において、リンクリストタグが多い場合、そのセグメントにはナビゲーションリンク等の多くのアンカーリンクが存在し、そのセグメントは主要コンテンツとならない可能性が高い。そこで、タグ情報特徴量抽出部１３２は、リンクリストタグの数を特徴量とする。この特徴量も、以下に説明する特徴量正規化部１３４において、文字列の量を正規化して特徴量とする手法と、文字列の絶対値を用いて特徴量とする二つを実行し、最終的な文字列の量の特徴量とし、メモリ１３６に格納する。

例えば、全てのセグメントにおいて最大のリンクリストタグの量が"１０"で、あるセグメント内のリンクリストタグの量が"５"だった場合には、そのセグメントのリンクリストタグの量の特徴量は"０．５"となる。そして、本実施の形態で使用するリンクリストタグは、以下のタグを対象とする。

・＜li＞
・＜ul＞
・＜dl＞
・＜dd＞
・＜ol＞
タグ内にalt属性やclass属性が存在する場合も考えられるため、その場合はそれらを含めたタグを考慮した正規表現を用いてカウントを行う（例：＜font class="hoge"＞）。

（４）Ｗｅｂ文書で表示される文字列を含まない文字列（HTMLタグを含む）の量：
あるセグメント内において、Ｗｅｂで表示されない文字列(HTMLタグを含む)が多い場合、そのセグメントは広告当の主要コンテンツ出ない可能性が高い。そこで、Ｗｅｂ文書で表示される文字列以外の文字列（HTMLタグを含む）量を特徴量とする。この特徴量も、以下に説明する特徴量正規化部１３４において、文字列の量を正規化して特徴量とする手法と、文字列の絶対値を用いて特徴量とする二つを実行し、最終的な文字列の量の特徴量とし、メモリ１３６に格納する。

例えば、全てのセグメントにおいて最大のＷｅｂで表示されない文字列の量が"１００"であるセグメント内のＷｅｂで表示されない文字列の量が"５０"だった場合には、そのセグメントのＷｅｂで表示されない文字列の量の特徴量は"０．５"となる。

＜Ｗｅｂ文書で表示される文字列特徴量抽出部１３３＞
以下では、Ｗｅｂブラウザで表示される文字列に関する特徴量について述べる。ここで述べる「文字列」とは、HMTLタグ等のＷｅｂブラウザで表示されない文字列を含まないものとする。

（１）文字列の量：
一般的にＷｅｂ文書の主要コンテンツ部分は、主要コンテンツでない部分と比較すると多くの文字列が含まれている。また、全体的に文字列の少ないＷｅｂ文書においても同様のことが言える。そのため、当該文字列特徴量抽出部１３３では、分割されたＷｅｂ文書に含まれる文字列の数を特徴量とする。そして、以下に説明する特徴量正規化部１３４において、文字列の量を正規化して特徴量とする手法と、文字列の絶対値を用いて特徴量とする二つを実行し、最終的な文字列の量の特徴量とし、メモリ１３６に格納する。

＜特徴量正規化部１３４＞
特徴量正規化部１３４では、メモリ１３６に格納された上記の各特徴量について、以下の方法により正規化する。

（１）文字列：
ａ）文字列の量の正規化を行い特徴量とする手法：
全てのセグメントにおいて最大の文字列の量を持つセグメントの特徴量を"１"とする正規化を行う。例えば、全てのセグメントにおいて最大の文字列の量が"２００"で、あるセグメント内の文字列の量が"１００"だった場合には、そのセグメントの文字列の量の特徴量は"０・５"となる。このような正規化を行うことで、全体的に文字列の少ないＷｅｂ文書においても主要コンテンツの抽出が可能になる。

ｂ）文字列の量の絶対値を用いて特徴量とする手法：
上記のａ）で述べた正規化を行い特徴量とする方法は、全体的に文字列の少ないＷｅｂ文書において有効であったが、正規化を行うことで、全体的に文字列の量が多く、主要コンテンツ部分のセグメント間の文字列の量の差が大きい場合に不都合が生じる。例えば、全てのセグメントにおいて最大の文字列の量が"１０００"で、あるセグメント内の文字列の量が"１００"だった場合、そのセグメントの文字列の量の特徴量は"０．１"になる。文字列の量としては多いはずだが、正規化を行うことで、このような弊害が生じる。そこで、文字列の絶対値を用いて特徴量とする手法を行う必要がある。

具体的には、ある特定の値を超えた場合に、その文字列の特徴量を"１"とする手法を用いる。例えば、あるセグメント内の文字列の量が"１００"の場合、文字列の量が"５"以上の場合の特徴量が"１"となり、文字列の量が"１０"以上の特徴量が"１"となり、…，文字列の量が"１０５"以上の特徴量は"０"となり、…，文字列の量が"２００"以上の特徴量は"０"となるように特徴量を作成する。このように、ある特定の文字列量を超えた場合に特徴量を"１"とする手法を用いることで、特徴量の最大値は"１"のままで文字列の量の絶対値を特徴量とすることができる。また、本実施の形態においての文字列の量の絶対値の特徴量の間隔は"５"としたが、場合において適切な間隔を用いるのが好ましい。８，１６，３２，６４といった２の乗数を用いて特徴量の間隔とする手法も考えられる。文字列の量がｘ以上の…の最大のｘも同様に、場合において適切な値に変更する。主要コンテンツ判定部１４０における計算量を減らしたい場合にはｘの値を小さくすればよい。

（２）句読点の数：
Ｗｅｂ広告等のノイズとなりやすいセグメントは、文字列の量は多いが、句読点の数が少ない傾向になる。そのため、句読点の数を特徴とする。具体的には、特徴量正規下部１３４は、セグメント内の文字列に含まれる「、」、「，」、「。」、「．」、「！」、「・」、「？」、「…」の数を特徴量としてカウントする。この特徴量も文字列の量で述べた正規化による特徴量と、絶対値による特徴量の２通りを算出する。算出方法については、（１）の文字列の項で述べた手法と同じものを用いる。

＜特徴量の比率特徴量抽出部１３５＞
特徴量の比率特徴量抽出部（以下、「比率特徴量抽出部」と記す）１３５は、メモリ１３６に格納されている前述のアンカーリンク情報特徴量、タグ情報特徴量、Ｗｅｂ文書で表示される文字列特徴量間の比率を用いた特徴量を求める。

（１）テキスト系のタグ数とテキスト系のタグの連続出現数の比率：
テキスト系のタグが多数あり、また、テキスト系のタグの連続出現数が多いセグメントは、テキストが密に書かれているため、主要コンテンツである可能性が高い。しかしながら、テキスト系のタグは多数あるが、テキスト系のタグの連続出現数が少ないセグメントは、セグメントのサイズが大きいだけで、主要コンテンツでない可能性が高いと言える。そこで、比率特徴量抽出部１３５は、テキスト系のタグ数とテキスト系のタグの連続出現数の比率を特徴量として用いる。

具体的には、テキスト系のタグ数を分母とし、テキスト系のタグの連続出現数を分子とした値を、特徴量として用いる。ここで、テキスト系のタグ数が"０"の場合は、分母が"０"となってしまうため、この場合のテキスト系のタグ数とテキスト系のタグの連続出現数の比率の特徴量は"０"とする。本特徴量についても、上記の特徴量正規化部１３４において特徴量の正規化を同様に行い、最終的な特徴量とし、メモリ１３６に格納する。この特徴量が大きければ大きいほど主要コンテンツである可能性が高い。

（２）Ｗｅｂで表示される文字列とタグの比率：
あるセグメント内において、Ｗｅｂで表示される文字列が多い場合は主要コンテンツとなる可能性が高いが、同じセグメント内において、HTMLタグ等のタグが多い場合もある。この場合、上記の（１）の「テキスト系のタグ数とテキスト系のタグの連続出現数の比率」の項で述べたように、セグメントサイズが大きいだけで、主要コンテンツでない可能性がある。そこで比率特徴量抽出部１３５は、Ｗｅｂで表示される文字列とタグの比率を特徴量として用いることで、このような場合に対処する。

具体的には、Ｗｅｂで表示される文字列を分子とし、タグの数を分母とした値を特徴量とする。この特徴量が大きければ大きいほど、主要コンテンツである可能性が高い。本特徴量も、特徴量正規化部１３４における正規化を行い、最終的な特徴量とし、メモリ１３６に格納する。タグの数が"０"の場合は、分母が"０"となってしまうため、特徴量は"１"とする。

（３）アンカーリンクの数とリンクリストタグの数の比率：
あるセグメント内において、アンカーリンクの数や、リンクリストタグの数が多ければ多いほど、そのセグメントは主要コンテンツでない可能性が高いが、セグメントが広いためにこれらの特徴量が偶然高くなってしまう場合も考えられる。そこで、比率特徴量抽出部１３５は、アンカーリンクの数とリンクリストタグの数の比率を特徴量として用いる。

具体的には、アンカーリンクの数を分母とし、リンクリストタグの数を分子とし、特徴量とする。この特徴量が大きければ大きいほど、セグメントの面積に対し密度の高いリンク数が存在することになり、主要コンテンツでない可能性が高い。本特徴量も、特徴量正規化部１３４における正規化を行い、最終的な特徴量とし、メモリ１３６に格納する。アンカーリンクの数が"０"の場合は分母が０となってしまうため、特徴量は"０"とする。

＜主要コンテンツ判定部＞
主要コンテンツ判定部１４０は、上記の特徴量抽出部１３０で抽出された特徴量を用いて、主要コンテンツか否かを判定する。主要コンテンツ判定部１４０の構成を図８に示す。

同図に示す主要コンテンツ判定部１４０は、特徴量抽出部１３０から出力されたセグメントの特徴量を入力する特徴量入力部１４１と、セグメント毎にテキストが存在するか否かを判定するテキスト判定部１４２と、特徴量毎のパラメータに基づいてセグメントが主要コンテンツのものを抽出する主要コンテンツ判定処理部１４３から構成される。

以下に、特徴量抽出部１３０から取得したセグメント毎の特徴量を用いて主要コンテンツか否かを判定する方法について述べる。

図９は、本発明の一実施の形態における特徴量のパラメータ推定方法のフローチャートである。

最初に、人手で主要コンテンツか否かを、特徴量を抽出したセグメント毎に判定した訓練データを作成する（ステップ１０１，１０２，１０３）。ここで、Ｗｅｂで表示される文字列が存在しない場合には、主要コンテンツと見做されないと記述したが、機械学習を用いた手法において、負例として学習に有効であるため、訓練データにはそのようなデータも採用する。そして、そのセグメントの特徴量を用いて学習を行い、特徴量毎の重みを算出する（ステップ１０４）。速度を重視する場合は、最大エントロピー法で学習し、精度を重視する場合には、二次の多項式カーネルを用いたSupport Vector Machineを用いて学習を行い、学習モデルを作成する（ステップ１０５）。そして、これらの学習したパラメータを用いて、セグメントの特徴量を主要コンテンツ判定処理部１４３に入力する。

主要コンテンツ判定処理部１４３は、セグメント毎に特徴量に基づいて、主要コンテンツか否かを判定し、主要コンテンツのみを主要コンテンツ出力部１５０に出力する。

なお、本装置をユーザＰＣ等に組み込む場合、全ての特徴量を用いて処理することは、処理量的に難しい、そのため、抽出する特徴量を絞り込むことで処理量を削減する。ここで、機械学習による学習モデルは、絞り込んだ特徴量モデル毎に学習モデルを作成する。

＜主要コンテンツ出力部１５０＞
主要コンテンツ出力部１５０は、主要コンテンツ判定部１４０にて、主要コンテンツか否かの判定が行われた後に、学習器によって主要コンテンツと判定されたセグメントのみを結合して最終出力するとする。

主要コンテンツ出力部１５０の構成を図１０に示す。同図に示す主要コンテンツ出力部１５０は、タグ付テキスト出力部１５１とタグなしテキスト出力部１５２、データ出力部１５３から構成される。情報検索の事前処理として本装置を用いたい場合は、タグ付テキスト出力部１５１を用いてＨＴＭＬタグ等のタグを残して、データ出力部１５３より出力する。一方、情報推薦等で、Ｗｅｂ文書の内容を解析したい場合には、タグなしテキスト出力部１５２を用いてＨＴＭＬタグ等のタグを削除して、データ出力部１５３より出力する。

＜特徴量抽出のための事前処理＞
精度向上のために、特徴量抽出部１３０において特徴量を抽出する事前処理として、不要文字列等を除去する手法が有効である。

以下に記述する不要文字列を事前に除去しておくことで、主要コンテンツの判定精度を高める。

・ 
・<
・>
・&
・«
・＆raquo;
これらの文字列は、HTMLタグ等で用いる記号をＷｅｂブラウザ上で表示する際に用いる特殊文字である。また、上記で挙げた特殊文字以外のHTML特殊文字も削除の対象とする。特殊文字は、実際にＷｅｂブラウザ上で表示される文字列に対して、文字列の量が多いため、学習の際のノイズとなりやすい。

上記のように、本発明は、様々な統計的特徴量を自動抽出し、Ｗｅｂ文書の主要コンテンツ部分を自動的に抽出する技術により、情報検索技術や情報推薦技術の前処理としてＷｅｂ文書から主要コンテンツを抽出し、解析精度の向上が実現できる。

なお、上記の実施の形態における図４に示すＷｅｂ文書主要コンテンツ抽出装置の各構成要素の動作をプログラムとして構築し、Ｗｅｂ文書主要コンテンツ抽出装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。

また、構築されたプログラムをハードディスクや、フレキシブルディスク・ＣＤ−ＲＯＭ等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。

本発明は、全文検索エンジン等の精度向上の前処理として用いることや、ＵＲＬを指定するだけでＲＳＳフィードが作成できる機能、Ｗｅｂ文書の主要コンテンツの内容にあわせた広告配信、さらにはユーザのＷｅｂ閲覧履歴の解析の前処理として使用する等の、Ｗｅｂ文書を解析する際の基礎技術として利用可能である。

本発明の原理構成図である。本発明の一実施の形態における主要コンテンツ例（１）である。本発明の一実施の形態における主要コンテンツ例（２）である。本発明の一実施の形態におけるＷｅｂ文書主要コンテンツ抽出装置の構成図である。本発明の一実施の形態におけるＷｅｂ文書取得・入力部の構成図である。本発明の一実施の形態におけるＷｅｂ文書分割部の構成図である。本発明の一実施の形態における特徴量抽出部の構成図である。本発明の一実施の形態における主要コンテンツ判定部の構成図である。本発明の一実施の形態における特徴量のパラメータ推定方法のフローチャートである。本発明の一実施の形態における主要コンテンツ出力部の構成図である。

符号の説明

１００Ｗｅｂ文書主要コンテンツ抽出装置
１１０Ｗｅｂ文書取得・入力部
１１１データ入力部
１１２Ｗｅｂ文書ファイル入力部
１１３ＵＲＬ入力部
１１４Ｗｅｂ文書取得部
１１５文字コード変換部
１２０文書分割手段、Ｗｅｂ文書分割部
１２１広告対象領域抽出部
１２２ノイズとなるタグや領域除去部
１２３Ｗｅｂ文書分割処理部
１３０特徴量抽出手段、特徴量抽出部
１３１アンカーリンク情報特徴量抽出部
１３２タグ情報特徴量抽出部
１３３Ｗｅｂ文書で表示される文字列特徴量抽出部
１３４特徴量正規化部
１３５特徴量の比率特徴量抽出部
１３６メモリ
１４０主要コンテンツ判定手段、主要コンテンツ判定部
１４１特徴量入力部
１４２テキスト判定部
１４３主要コンテンツ判定処理部
１５０主要コンテンツ出力手段、主要コンテンツ出力部
１５１タグ付きテキスト出力部
１５２タグなしテキスト出力部
１５３データ出力部
１６０記憶手段、記憶部

Claims

Ｗｅｂ文書の主要コンテンツを抽出するＷｅｂ文書主要コンテンツ抽出装置であって、
Ｗｅｂ文書が入力されると、該Ｗｅｂ文書を所定の分割規則に基づいてセグメントに分割し、記憶手段に格納する文書分割手段と、
前記文書分割手段で分割された前記セグメント毎に、主要コンテンツ判定のための特徴量を抽出し、セグメント毎に前記記憶手段に格納する特徴量抽出手段と、
前記セグメント毎の前記特徴量に基づいて、機械学習アルゴリズムを用いて主要コンテンツか否かの判定を行う主要コンテンツ判定手段と、
前記主要コンテンツ判定手段で主要コンテンツと判定された部位を結合して、主要コンテンツとして出力する主要コンテンツ出力手段と、
を有することを特徴とするＷｅｂ文書主要コンテンツ抽出装置。
前記文書分割手段は、
入力された前記Ｗｅｂ文書に広告対象領域が存在する場合には、該広告対象領域を抽出する広告対象領域抽出手段と、
前記Ｗｅｂ文書からノイズとなるタグや領域を除去するノイズ除去手段と、
前記ノイズ除去手段から出力されたＷｅｂ文書を、前記所定の分割規則を用いて分割し前記記憶手段に格納する分割手段と、
を含む請求項１記載のＷｅｂ文書主要コンテンツ抽出装置。
前記ノイズ除去手段は、
前記Ｗｅｂ文書のHTMLを説明するコメントタグ、JavaScript、formタグ、領域、文字列を正規表現を用いて除去する
請求項２記載のＷｅｂ文書主要コンテンツ抽出装置。
前記特徴量抽出手段は、
前記Ｗｅｂ文書から、
Ｗｅｂブラウザに表示される文字列の特徴量、
タグ情報に関する特徴量、
アンカーリンクに関する特徴量
のいずれか、または全てを抽出する抽出手段と、
抽出された特徴量を正規化する正規化手段と、
各特徴量間の比率を求め、前記正規化手段により正規化を行う比率計算手段を含む
請求項１記載のＷｅｂ文書主要コンテンツ抽出装置。
前記主要コンテンツ判定手段は、
前記特徴量抽出手段で抽出されたセグメント毎の特徴量について、機械学習アルゴリズムを用いて学習を行い、学習した学習モデルを用いて主要コンテンツか否かの判定を行う手段を含む
請求項１記載のＷｅｂ文書主要コンテンツ抽出装置。
前記主要コンテンツ出力手段は、
前記主要コンテンツ判定手段で主要コンテンツであると判定されたセグメントのみを結合して出力する手段を含む
請求項１記載のＷｅｂ文書主要コンテンツ抽出装置。
前記特徴量抽出手段は、
前記抽出手段を行う前に、HTMLタグで用いられる記号をＷｅｂブラウザ上で表示する際に用いる特殊文字、及び、該特殊文字以外のHTML特殊文字を削除する特殊文字削除手段を含む
請求項４記載のＷｅｂ文書主要コンテンツ抽出装置。
前記主要コンテンツ判定手段は、
前記特徴量抽出手段で抽出された特徴量を絞り込み、絞り込んだ特徴量モデル毎に学習モデルを作成する手段を含む
請求項５記載のＷｅｂ文書主要コンテンツ抽出装置。
請求項１乃至８のいずれか１項に記載のＷｅｂ文書主要コンテンツ抽出装置を構成する各手段としてコンピュータを機能させるためのＷｅｂ文書主要コンテンツ抽出プログラム。