JP2008262506A

JP2008262506A - 情報抽出システム、情報抽出方法および情報抽出用プログラム

Info

Publication number: JP2008262506A
Application number: JP2007106445A
Authority: JP
Inventors: Yuushin Tatsumi; 勇臣辰巳
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2007-04-13
Filing date: 2007-04-13
Publication date: 2008-10-30
Anticipated expiration: 2027-04-13
Also published as: JP5056133B2

Abstract

【課題】Ｗｅｂページの主題に合う特徴語を汎用的に抽出できるようにする。
【解決手段】基本文字列解析手段２２は、Ｗｅｂページ上に表示される基本文字列を抽出する。レイアウト解析手段２３は、Ｗｅｂページのレイアウトを解析して、そのＷｅｂページに含まれるセクションを抽出する。セクション種別判定手段２４は、抽出された各セクションの用途種別を判定する。基本文字列重要度計算手段２５は、抽出された各基本文字列に対し、その基本文字列が出現するセクションの用途種別に応じた重み付けをして重要度を計算する。特徴語抽出手段２６は、重要度が上位の基本文字列を特徴語として抽出する。なお、Ｗｅｂページに対するユーザのニーズを種別化したユーザニーズ種別に対応するセクションの用途種別毎の重みを記憶しておき、指定されるユーザニーズ種別に対応するセクションの用途種別毎の重みを用いて、重要度を計算してもよい。
【選択図】図１

Description

本発明は、情報抽出システム、情報抽出方法および情報抽出用プログラムに関し、特に、Ｗｅｂページの特徴語を抽出する情報抽出システム、情報抽出方法および情報抽出用プログラムに関する。

従来の情報抽出システムでは、例えば、ＴＦ−ＩＤＦ（Term Frequency-Inverted Document Frequency）と呼ばれる単語の網羅性と特定性を考慮した統計的な指標によりその重要度を計算することで、文書の特徴語を抽出していた（例えば、非特許文献１参照。）。

また、例えば、文書の分類に対応して抽出する情報と抽出方法とを変え、文書の分類結果に応じた情報を抽出していた（例えば、特許文献１）。また、例えば、文書の構成単位である項目領域の種別と内容を抽出し、項目領域毎に重要度を判定していた（例えば、特許文献２）。

特開２００１−１３４６００号公報特開２００４−３８６０５号公報徳永健伸，「情報検索と言語処理」，東京大学出版会，１９９９年，ｐ．３２−３３

第１の問題点は、Ｗｅｂページの主題に合う特徴語を汎用的に抽出できないことである。その理由は、Ｗｅｂページは用途が異なる領域（例えば、主題情報が記載されたメインコンテンツ領域や周辺情報が記載されたナビゲーション領域など）で構成されるが、従来の情報抽出システムの多くは、ページを構成する領域の用途を何ら考慮していないためである。

例えば、特許文献１に記載されている抽出方法では、文書の分類結果に応じた情報を抽出することはできる。しかしながら、Ｗｅｂページの分類毎に抽出方法を用意する必要があり、あらゆるＷｅｂページに汎用的に適用することができない。

なお、特許文献２に記載されている判定方法を用いれば、Ｗｅｂページ上の文書領域毎にその領域の重要度を判定することはできる。しかしながら、その領域の重要度を考慮してどのように汎用的に特徴語を抽出するか、また、特徴語を汎用的に抽出する上で適当な領域の種別は何であるかについては何ら考慮されていないため、特徴語を抽出する情報抽出システムに特許文献２に記載されている方法を適用したとしても、単純にはＷｅｂページの主題に合う特徴語を汎用的に抽出することはできない。

第２の問題点は、ユーザのニーズに即したＷｅｂページの特徴語を汎用的に抽出できないことである。その理由は、ユーザはＷｅｂを閲覧する際、時々で異なるニーズ（例えば、ページの主題情報に対するニーズや周辺情報に対するニーズ）を持つが、従来の情報抽出システムでは、ユーザのニーズを何ら考慮せずに、一律な方法で特徴語を抽出するからである。

そこで、本発明は、Ｗｅｂページの主題に合う特徴語を汎用的に抽出できる情報抽出システム、情報抽出方法および情報抽出用プログラムを提供することを目的とする。また、本発明は、ユーザのニーズに即したＷｅｂページの特徴語を汎用的に抽出できる情報抽出システム、情報抽出方法および情報抽出用プログラムを提供することを目的とする。

本発明による情報抽出システムは、Ｗｅｂページの特徴語を抽出する情報抽出システムであって、Ｗｅｂページにおける意味的に関連する情報を掲載している領域の単位であるセクションの種別を判定するセクション判定手段（例えば、セクション種別判定手段２４）と、Ｗｅｂページ上に出現する文字列から所定のルールに従って１つの単語として切り出される文字列である基本文字列を、当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算する基本文字列重要度計算手段（例えば、基本文字列重要度計算手段２５）と、各基本文字列の重要度に従って、特徴語を抽出する特徴語抽出手段（例えば、特徴語抽出手段２６）とを備えたことを特徴とする。

また、情報抽出システムは、Ｗｅｂページを解析して、当該Ｗｅｂページ上に出現する基本文字列を抽出する基本文字列解析手段（例えば、基本文字列解析手段２２）と、Ｗｅｂページのレイアウトを解析して、当該Ｗｅｂページ上のセクションを抽出するレイアウト解析手段（例えば、レイアウト解析手段２３）とを備え、セクション種別判定手段は、レイアウト解析手段によって抽出されたセクションの種別を判定し、基本文字列重要度計算手段は、基本文字列解析手段によって抽出された基本文字列を、セクション種別判定手段２４によって判定された当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算し、特徴語抽出手段は、重要度の順位が上位の基本文字列を、特徴語として抽出してもよい。

また、情報抽出システムは、予めセクションの種別毎に、ある基本文字列が１回出現することに対する重みを示す重み情報を記憶する重み情報記憶手段（例えば、重み情報記憶部３１）を備え、基本文字列重要度計算手段は、基本文字列が出現するセクションの種別と、重み情報記憶手段に記憶されている重み情報とに基づいて、基本文字列を、当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算してもよい。

また、重み情報記憶手段（例えば、重み情報記憶部３１’）は、予めユーザがどのような情報を求めてＷｅｂページを閲覧するかを種別化したユーザニーズ種別およびセクションの種別毎に、重み情報を記憶し、基本文字列重要度計算手段（例えば、基本文字列重要度計算手段２５’）は、指定されたユーザニーズ種別と、基本文字列が出現するセクションの種別と、重み情報記憶手段に記憶されている重み情報とに基づいて、基本文字列を、指定されたユーザニーズ種別および当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算してもよい。

また、重み情報記憶手段は、見出しまたは見出し以外かにも対応させて重み情報を記憶し、基本文字列重要度計算手段は、基本文字列を、重み情報記憶手段に記憶されている重み情報に基づいて、基本文字列が当該セクションの見出しに含まれるか否かにも応じて重み付けして、各基本文字列の重要度を計算してもよい。

また、セクションの種別は、セクションの用途種別であってもよい。

また、セクション種別判定手段は、セクション内のリンク情報の量に基づいて、セクションの種別を判定してもよい。

また、セクション種別判定手段は、Ｗｅｂページにおけるセクションの位置を示す情報または大きさを示す情報を含む領域情報に基づいて、セクションの種別を判定してもよい。

また、本発明による情報抽出方法は、Ｗｅｂページの特徴語を抽出するための情報抽出方法であって、Ｗｅｂページにおける意味的に関連する情報を掲載している領域の単位であるセクションの種別を判定し、Ｗｅｂページ上に出現する文字列から所定のルールに従って１つの単語として切り出される文字列である基本文字列を、当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算し、各基本文字列の重要度に従って、特徴語を抽出することを特徴とする。

また、情報抽出方法は、Ｗｅｂページを解析して、当該Ｗｅｂページ上に出現する基本文字列を抽出し、Ｗｅｂページのレイアウトを解析して、当該Ｗｅｂページ上のセクションを抽出し、抽出されたセクションの種別を判定し、抽出された基本文字列を、判定された当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算し、重要度の順位が上位の基本文字列を、特徴語として抽出してもよい。

また、情報抽出方法は、基本文字列が出現するセクションの種別と、予めセクションの種別毎に定義されている、ある基本文字列が１回出現することに対する重みを示す重み情報とに基づいて、基本文字列を、当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算してもよい。

また、情報抽出方法は、定されたユーザニーズ種別と、基本文字列が出現するセクションの種別と、予めユーザがどのような情報を求めてＷｅｂページを閲覧するかを種別化したユーザニーズ種別およびセクションの種別毎に定義されている重み情報とに基づいて、基本文字列を、指定されたユーザニーズ種別および当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算してもよい。
請求項９から請求項１１のいずれか１項に記載の情報抽出方法。

また、情報抽出方法は、見出しまたは見出し以外かにも対応させて重み情報を定義し、
基本文字列を、重み情報に基づいて、基本文字列が当該セクションの見出しに含まれるか否かにも応じて重み付けして、各基本文字列の重要度を計算してもよい。

また、情報抽出方法は、セクションの種別として、セクションの用途種別を判定してもよい。

また、本発明による情報抽出用プログラムは、Ｗｅｂページの特徴語を抽出するための情報抽出用プログラムであって、コンピュータに、Ｗｅｂページにおける意味的に関連する情報を掲載している領域の単位であるセクションの種別を判定する処理、Ｗｅｂページ上に出現する文字列から所定のルールに従って１つの単語として切り出される文字列である基本文字列を、当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算する処理、および各基本文字列の重要度に従って、特徴語を抽出する処理を実行させることを特徴とする。

また、情報抽出用プログラムは、コンピュータに、Ｗｅｂページを解析して、当該Ｗｅｂページ上に出現する基本文字列を抽出する基本文字列解析処理、およびＷｅｂページのレイアウトを解析して、当該Ｗｅｂページ上のセクションを抽出するレイアウト解析処理を実行させ、セクション種別判定処理で、抽出されたセクションの種別を判定させ、重要度計算処理で、抽出された基本文字列を、判定された当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算させ、特徴語抽出処理で、重要度の順位が上位の基本文字列を、特徴語として抽出させてもよい。

また、情報抽出用プログラムは、予めセクションの種別毎に、ある基本文字列が１回出現することに対する重みを示す重み情報を記憶する重み情報記憶手段を備えたコンピュータに、重要度計算処理で、基本文字列が出現するセクションの種別と、重み情報記憶手段に記憶されている重み情報とに基づいて、基本文字列を、当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算させてもよい。

また、情報抽出用プログラムは、予めユーザがどのような情報を求めてＷｅｂページを閲覧するかを種別化したユーザニーズ種別およびセクションの種別毎に、重み情報を記憶する重み情報記憶手段を備えたコンピュータに、重要度計算処理で、指定されたユーザニーズ種別と、基本文字列が出現するセクションの種別と、重み情報記憶手段に記憶されている重み情報とに基づいて、基本文字列を、指定されたユーザニーズ種別および当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算させてもよい。

また、情報抽出用プログラムは、見出しまたは見出し以外かにも対応させて重み情報を記憶している重み情報記憶手段を備えたコンピュータに、重要度計算処理で、基本文字列を、重み情報記憶手段に記憶されている重み情報に基づいて、基本文字列が当該セクションの見出しに含まれるか否かにも応じて重み付けして、各基本文字列の重要度を計算させてもよい。

また、情報抽出用プログラムは、コンピュータに、セクション種別判定処理で、セクションの用途種別を判定させてもよい。

第１の効果は、Ｗｅｂページの主題に合う特徴語を汎用的に抽出できることにある。その理由は、Ｗｅｂページ内の基本文字列をその出現セクションの種別に応じて重み付けすることによって計算された各基本文字列の重要度に基づいて、特徴語を抽出するからである。

第２の効果は、ユーザのニーズに即したＷｅｂページの主題に合う特徴語を汎用的に抽出できることにある。その理由は、セクション種別毎に定義された重み情報をさらにユーザニーズ種別に応じて選別し、Ｗｅｂページ内の基本文字列をユーザニーズ種別および出現セクションの種別とに応じて重み付けすることによって、各基本文字列の重要度を計算するからである。

以下、本発明の実施の形態を図面を参照して説明する。まず、本発明に用いる用語を定義する。Ｗｅｂページの画面には、意味的に関連する情報を掲載している１つ以上の領域がレイアウトされ、一部の領域はその内容が一目で分かる標題の領域をもっている。本発明では、意味的に関連する情報を掲載している領域のことを”セクション”と呼び、セクションの標題となる文字列を”見出し”と呼ぶ。

実施の形態１．
図１は、本発明の第１の実施の形態による情報抽出システムの構成例を示すブロック図である。図１に示すように、本情報抽出システムは、入力装置１と、プログラム制御により動作するデータ処理装置２と、データを記憶する記憶装置３と、出力装置４とを備える。また、データ処理装置２は、Ｗｅｂページ取得手段２１と、基本文字列解析手段２２と、レイアウト解析手段２３と、セクション種別判定手段２４と、基本文字列重要度計算手段２５と、特徴語抽出手段２６とを含む。また、記憶装置３は、重み情報記憶部３１を含む。

入力装置１は、特徴語の抽出対象となるＷｅｂページのページ情報を入力する装置である。入力装置１は、例えば、インターネット等の通信ネットワーク上の端末からページ情報を受信する受信装置（ネットワークカード等）やファイル形式のページ情報を入力するファイル入力装置によって実現される。

出力装置４は、抽出した特徴語を示す情報を出力する装置である。出力装置４は、例えば、ディスプレイ装置や、インターネット等の通信ネットワーク上の端末に対し特徴語を示す情報を送信する送信装置（ネットワークカード等）、ファイル形式の特徴語を示す情報を出力するファイル出力装置によって実現される。

重み情報記憶部３１は、予めセクション種別毎に定義された重み情報を記憶する。本実施の形態において、重み情報で示される値は、ある文字列がそのセクションに１回出現したことに対する重みを示している。

Ｗｅｂページ取得手段２１は、入力装置１からＷｅｂページのページデータを取得する。基本文字列解析手段２２は、Ｗｅｂページ取得手段２１が取得したＷｅｂページについて、そのＷｅｂページに含まれる基本文字列を解析する。本発明において、基本文字列とは、所定のルールに従って文字列から１つの単語として切り出される文字列をいう。具体的には、Ｗｅｂページ取得手段２１は、Ｗｅｂページ上に表示される（出現する）文字列を所定の解析手法（例えば、形態素解析やＮ−ｇｒａｍ）を用いて解析することによって、その文字列を基本文字列に分解する。

レイアウト解析手段２３は、Ｗｅｂページ取得手段２１が取得したＷｅｂページについて、そのＷｅｂページのレイアウトを解析し、そのＷｅｂページを構成しているセクションを抽出する。

セクション種別判定手段２４は、レイアウト解析手段２３によって解析されたセクションの情報に基づき、各セクションの種別を特定する。ここで、セクション種別には、メインコンテンツ用やナビゲーション用といったそのセクションの用途種別を用いる。用途種別は、セクション内のリンク情報量や、セクションの位置や大きさといった領域情報などから計算する。

基本文字列重要度計算手段２５は、基本文字列解析手段２２で解析された基本文字列と、セクション種別判定手段２４で計算されたセクション種別と、重み情報記憶部３１に記憶されているセクション種別毎の重み情報とに基づいて、基本文字列を出現セクションの用途種別に応じて重み付けし、各基本文字列の重要度を計算する。

特徴語抽出手段２６は、基本文字列重要度計算手段２５によって計算された基本文字列の重要度に従い、重要度が上位の基本文字列を特徴語として抽出する。

次に、本実施の形態の動作について説明する。図２は、本情報抽出システムの動作例を示すフローチャートである。図２に示すように、まず、Ｗｅｂページ取得手段２１は、入力装置１からＷｅｂページを取得する（ステップＡ１）。具体的には、Ｗｅｂページ取得手段２１は、入力装置１を介して、Ｗｅｂページのページ情報を取得（入力）する。

次に、基本文字列解析手段２２は、Ｗｅｂページ取得手段２１によって取得されたＷｅｂページについて、そのＷｅｂページに含まれる基本文字列を解析する（ステップＡ２）。基本文字列解析手段２２は、具体的には、Ｗｅｂページ取得手段２１が取得したＷｅｂページを解析し、そのＷｅｂページに含まれる基本文字列を抽出する。基本文字列解析手段２２は、例えば、形態素解析やＮ−ｇｒａｍといった手法を用いてＷｅｂページ上に表示される（出現する）文字列を解析することによって、その文字列を基本文字列に分解すればよい。

また、レイアウト解析手段２３は、Ｗｅｂページ取得手段２１によって取得されたＷｅｂページについて、そのＷｅｂページのレイアウトを解析する（ステップＡ３）。レイアウト解析手段２３は、例えば、特開２００６−１５５５９３号公報に記載されている手法を用いて、そのＷｅｂページがどのようなレイアウト構成となっているかを解析する。そして、レイアウト解析手段２３は、例えば、レイアウトの構成要素とその階層関係、位置、大きさ、タイトルを示す情報を出力する。

レイアウト解析手段２３によるレイアウト解析処理が完了すると、セクション種別判定手段２４は、レイアウト解析手段２３によって解析されたセクションの情報に基づいて、各セクションの種別（用途種別）を特定する（ステップＡ４）。セクション種別判定手段２４は、例えば、セクション内のリンク情報量や、セクションの位置や大きさといった領域情報に基づいて、各セクションが予め定義されているセクション種別のいずれに当てはまるかを特定する。

次に、基本文字列重要度計算手段２５は、基本文字列解析手段２２によって解析された基本文字列と、セクション種別判定手段２４によって特定されたセクション種別と、重み情報記憶部３１に記憶されているセクション種別毎の重み情報とに基づいて、基本文字列をその出現セクションの用途種別に応じて重み付けし、各基本文字列の重要度を計算する（ステップＡ５）。基本文字列重要度計算手段２５は、例えば、Ｗｅｂページ上に出現する同一表記の各基本文字列について、その出現セクションの用途種別に応じて重み付けた出現頻度を計算することによって、各基本文字列の重要度を算出する。そして、特徴語抽出手段２６は、基本文字列重要度計算手段２５によって算出された各基本文字列の重要度に従い、重要度が上位の基本文字列を特徴語として抽出する（ステップＡ６）。また、特徴語抽出手段２６は、抽出した特徴語を示す情報を出力装置４に出力する。

以上のように、本実施の形態では、セクション種別毎の重み情報を定義した上で、Ｗｅｂページにおける基本文字列とレイアウトとを解析し、そのレイアウトに含まれるセクションの用途種別を特定して、基本文字列をその出現セクションの用途種別に応じて重み付けすることによって、各基本文字列の重要度を求めている。従って、メインコンテンツ用途のセクションに対し重み付けを大きく設定すれば、メインコンテンツ用途のセクションに出現する基本文字列に対しては、他のセクションに出現する文字列よりもその重要度を大きく算出するので、Ｗｅｂページの主題に合う特徴語を汎用的に抽出できる。

なお、重み情報記憶部３１が、見出しか見出し以外かによって異なる重み情報をさらに記憶し、基本文字列重要度計算手段２５が、基本文字列が見出しに属するか（見出しに含まれるか）否かでさらに参照する重み情報を分けて、各基本文字列の重要度を計算するようにしてもよい。

実施の形態２．
次に、本発明の第２の実施の形態について図面を参照して説明する。図３は、本発明の第２の実施の形態による情報抽出システムの構成例を示すブロック図である。図３に示すように、本情報抽出システムは、入力装置１と、プログラム制御により動作するデータ処理装置２と、データを記憶する記憶装置３と、出力装置４とを備える。また、データ処理装置２は、Ｗｅｂページ取得手段２１と、基本文字列解析手段２２と、レイアウト解析手段２３と、セクション種別判定手段２４と、基本文字列重要度計算手段２５’と、特徴語抽出手段２６と、ユーザニーズ種別取得手段２７と、重み情報選択手段２８とを含む。また、記憶装置３は、重み情報記憶部３１’を含む。なお、本実施の形態による情報抽出システムは、図１に示す第１の実施の形態と比べて、ユーザニーズ種別取得手段２７および重み情報選択手段２８を備える点で異なる。また、基本文字列重要度計算手段２５の動作、および重み情報記憶部３１が記憶する情報が異なる。

ユーザニーズ種別取得手段２７は、特徴語の抽出対象であるＷｅｂページに対するユーザのニーズを種別化したユーザニーズ種別を取得する。ユーザニーズ種別とは、ユーザがどのような情報を求めてＷｅｂページを閲覧するかを大別したものであって、本実施の形態では、全Ｗｅｂページに共通で適用させるユーザニーズ種別を予め定めておく。

重み情報選択手段２８は、重み情報記憶部３１’に記憶されているユーザニーズ種別とセクション種別毎の重み情報の中から、そのＷｅｂページに対してユーザが指定したユーザニーズ種別に対応する重み情報の組（セクション種別毎の重み情報）を選択する。

また、本実施の形態において、重み情報記憶部３１’は、予めユーザニーズ種別とセクション種別毎に定義された重み情報を記憶する。

また、基本文字列重要度計算手段２５’は、基本文字列解析手段２２で解析された基本文字列と、セクション種別判定手段２４で計算されたセクション種別と、重み情報選択手段２８によって選択されたセクション種別毎の重み情報とに基づいて、基本文字列をその出現セクションの用途種別に応じて重み付けし、各基本文字列の重要度を計算する。

次に、本実施の形態の動作について説明する。図４は、本情報抽出システムの動作例を示すフローチャートである。図４に示すように、まず、Ｗｅｂページ取得手段２１は、入力装置１からＷｅｂページを取得する（ステップＡ１）。

次に、基本文字列解析手段２２は、Ｗｅｂページ取得手段２１によって取得されたＷｅｂページについて、そのＷｅｂページに含まれる基本文字列を解析する（ステップＡ２）。また、レイアウト解析手段２３は、Ｗｅｂページ取得手段２１によって取得されたＷｅｂページについて、そのＷｅｂページのレイアウトを解析する（ステップＡ３）。そして、レイアウト解析手段２３によるレイアウト解析処理が完了すると、セクション種別特定手段２４は、レイアウト解析手段２３によって解析されたセクションの情報に基づいて、各セクションの種別を特定する（ステップＡ４）。なお、ステップＡ２〜ステップＡ４の動作については、第１の実施の形態における動作と同様である。

また、ユーザニーズ種別取得手段２７は、ユーザニーズ種別を取得する（ステップＡ２１）。ユーザニーズ種別取得手段２７は、例えば、特徴語の抽出対象とするＷｅｂページが指定される際に、予め定めておいたユーザニーズ種別に応じた項目を選択項目として含む画面を表示して、ユーザ操作に応じて、その選択結果を取得することによって、そのユーザのその時点におけるユーザニーズ種別を取得する。次に、重み情報選択手段２７は、重み情報記憶部３１’から、取得したユーザニーズ種別に対応する重み情報の組（セクション種別毎の重み情報）を選択する（ステップＡ２２）。

セクション種別が特定され、重み情報が選択されると、基本文字列重要度計算手段２５は、基本文字列解析手段２２によって解析された基本文字列と、セクション種別特定手段２４によって特定されたセクション種別と、重み情報選択手段２７によって選択された重み情報記憶部３１に記憶されているセクション種別毎の重み情報の組とに基づいて、基本文字列をその出現セクションの用途種別に応じて重み付けし、各基本文字列の重要度を計算する（ステップＡ５）。なお、ステップＡ５の動作は、重み情報選択手段２７によって選択された重み情報を用いる点を除いて第１の実施の形態と同様である。

そして、特徴語抽出手段２６は、基本文字列重要度計算手段２５によって算出された各基本文字列の重要度に従い、重要度が上位の基本文字列を特徴語として抽出する（ステップＡ６）。なお、指定されうる全ユーザニーズ種別について、特徴語を抽出し、その結果を各ユーザニーズ種別に対応させて出力するようにしてもよい。そのような場合には、ユーザニーズ種別取得手段２７は省略可能である。

以上のように、本実施の形態では、ユーザニーズ種別とセクション種別毎の重み情報を定義した上で、Ｗｅｂページの基本文字列とレイアウトを解析し、レイアウトに含まれるセクションの用途種別を判定し、さらに、ユーザニーズ種別に応じてセクション毎の重み情報の組を選択して、基本文字列をその出現セクションの用途種別およびユーザニーズ種別に応じて重み付けすることによって、各基本文字列の重要度を求めている。従って、セクション毎の重み情報をユーザニーズ種別に応じて変化させることができ、ユーザのニーズに即したＷｅｂページの主題に合う特徴語を汎用的に抽出できる。なお、他の点に関しては、第１の実施の形態と同様である。

実施の形態３．
次に、本発明の第３の実施の形態について図面を参照して説明する。図５は、本発明の第３の実施の形態による情報抽出システムの構成例を示すブロック図である。図５に示すように、本情報抽出システムは、第１および第２の実施の形態と同様に、入力装置１、データ処理装置２、記憶装置３、出力装置４を備え、さらに、データ処理装置２に読み込まれデータ処理装置２の動作を制御して、第１または第２の実施の形態におけるデータ処理装置２と同様の処理を実行させるための情報抽出用プログラム５を備える。

情報抽出用プログラム５は、データ処理装置２に読み込まれデータ処理装置２の動作を制御し、第１または第２の実施の形態におけるデータ処理装置２と同様の処理を実行させる。なお、記憶装置３には、予め第１の実施の形態における重み情報記憶部３１、または第２の実施の形態における重み情報記憶部３１’として動作するための記憶領域が割り当てられており、その記憶領域に所定の情報が記憶されている。データ処理装置２は、情報抽出用プログラム５の制御により、必要に応じて重み情報記憶部３１や重み情報記憶部３１’として動作している記憶領域にアクセスして、第１または第２の実施の形態におけるデータ処理装置２による処理と同様の処理を実行する。

次に、本発明の第１の実施例を図面を参照して説明する。本実施例は、本発明の第１の実施の形態に対応するものである。本実施例は、ネットワークカードを備えたパーソナルコンピュータと磁気ディスク記憶装置とによって情報抽出システムを実現する例である。すわなち、本実施例による情報抽出システムは、入力装置１としてネットワークカードを、データ処理装置２としてパーソナルコンピュータを、記憶装置３として磁気ディスク記憶装置を、出力装置４としてディスプレイ装置を備えている。

なお、パーソナルコンピュータは、プログラム制御に従い、Ｗｅｂページ取得手段２１、基本文字列解析手段２２、レイアウト解析手段２３、セクション種別判定手段２４、および基本文字列重要度計算手段２５、特徴語抽出手段２６として機能する中央演算装置を有する。

また、磁気ディスク記憶装置には、重み情報記憶部３１として、例えば図６に示すような形式で、予めセクション種別毎に定義された重み情報が記憶されている。図６は、重み情報記憶部３１に記憶される情報の一例を示す説明図である。図６では、セクション種別”ナビゲーション”に対しては重み０．５を示す重み情報が、セクション種別”メインコンテンツ”に対しては重み２．０を示す重み情報が記憶されている例を示している。このことによって、セクション種別”メインコンテンツ”に出現する基本文字列に対する重みが、セクション種別”ナビゲーション”に出現する基本文字列に対する重みよりも大きく設定されていることがわかる。

今、ユーザがＷｅｂブラウザに表示されているあるＷｅｂページへのリンクにマウスカーソルを合わせたとする。ここで、Ｗｅｂブラウザに表示中のあるＷｅｂページへのリンクは、図７に示すＷｅｂページへのリンクであるとする。

中央演算装置は、リンク先のＷｅｂページを取得し、取得したＷｅｂページ内のテキストを形態素解析して、名詞の形態素を基本文字列として抽出する。ここでは、図８に示すように、「業界動向」、「Ａ社」、「携帯電話」、「発表」、「Ｂ社」、「不具合」、「ＰＣ」、「需要」、「拡大」、「昨年度」という１０種の基本文字列を抽出する。

また、中央演算装置は、取得したＷｅｂページのレイアウトを解析し、そのＷｅｂページに含まれるセクションを抽出する。ここでは、図８に示すように、セクションＡとセクションＢとを抽出する。なお、図８は、図７に示すＷｅｂページに対する形態素解析およびレイアウト解析の結果例を示す説明図である。

次に、中央演算装置は、Ｗｅｂページに含まれる各セクションの用途種別を判定する。ここでは、各セクションに含まれる基本文字列数に占めるリンクが張られたものの割合を計算することによって、各セクションの用途種別を判定する。具体的には、この割合が所定の閾値以上の場合、用途種別を”ナビゲーション”、それ以外の場合に用途種別を”メインコンテンツ”とする。例えば、閾値が７５％であるとして、図７に示すＷｅｂページの例では、セクションＡに含まれる基本文字数１０個のうち、リンクが張られたもの（図７において下線が引かれている基本文字列）が９個であるので、セクションＡの用途種別は”ナビゲーション”であると判定する。同様に、セクションＢに含まれる基本文字列７個のうち、リンクが張られたものは０個であるので、セクションＢの用途種別は”メインコンテンツ”であると判定する。

どのセクションにどのような基本文字列が含まれているかについては、レイアウト解析の結果として示される情報（例えば、レイアウトの構成要素や位置、大きさを示す情報）および基本文字列の抽出結果として示される情報（例えば、基本文字列のリスト）を参照すればよい。

次に、中央演算装置は、そのＷｅｂページに出現する各基本文字列について、基本文字列が出現しているセクションの用途種別に応じた重みを用いて重み付けした出現頻度を計算する。例えば、基本文字列「携帯電話」は、用途種別が”ナビゲーション”であるセクション（ここでは、セクションＡ）に３回、用途種別が”メインコンテンツ”であるセクション（ここでは、セクションＢ）に０回出現している。中央演算装置は、図６に示す重み情報に基づき、用途種別が”ナビゲーション”であるセクションに出現する基本文字列に対する重みは０．５、用途種別が”メインコンテンツ”であるセクションに出現する基本文字列に対する重みは２．０であるとして、基本文字列「携帯電話」の出現頻度を次のとおり計算する。

３×０．５＋０×２．０＝１．５

さらに、この出現頻度に基づいて、各基本文字列の重要度を示すＴＦ−ＩＤＦを計算する。仮に、ＴＦ−ＩＤＦにおける語の特定性を示す値が各基本文字列ともｘ（ｘ＞０であったとすると、基本文字列「携帯電話」のＴＦ−ＩＤＦは、１．５ｘとなる。図９は、図７に示すＷｅｂページに対し計算される各基本文字列の重要度のリストを示す説明図である。

以上の計算を他の基本文字列に対しても行って、各基本文字列の重要度（ＴＦ−ＩＤＦ）を求める。最後に、中央演算装置は、ＴＦ−ＩＤＦが上位の基本文字列を、そのＷｅｂページの主題に合う特徴語として抽出する。例えば、１０％の上位か５位のいずれか小さい順位の基本文字列を特徴語として抽出してもよい。なお、図９に示す例では、基本文字列「ＰＣ」、「需要」、「拡大」がＷｅｂページの主題に合う特徴語として抽出されることになる。中央演算装置は、ディスプレイ装置を介して、例えば図１０に示すように、マウスカーソル付近に、抽出した特徴語をリスト表示させたウィンドウを別途表示させてもよい。

なお、中央演算装置は、他の品詞情報を用いた形態素解析や、Ｎ−ｇｒａｍといった方法で基本文字列を解析してもよい。また、中央演算装置は、セクションのアスペクト比を用いて用途種別を判定してもよい。例えば、横長（アスペクト比が所定の値以上）や縦長（アスペクト比が所定の値以下）であるセクションの用途種別を”ナビゲーション”に、それ以外を”メインコンテンツ”と判定してもよい。また、セクション内のリンク情報の量や、セクションの位置や大きさといった領域情報を組み合わせて判定してもよい。

また、中央演算装置は、ｔｉｔｌｅ要素やｍｅｔａ要素などの基本文字列の表示に関わる属性情報をも用いて、例えばこれらの情報をメインコンテンツと同等の扱い重要度を算出するようにしてもよい。

また、中央演算装置は、形態素解析や構文解析、意味解析に基づき決定した基本文字列の重要度を、セクション種別に応じて重み付けしてもよい。

次に、本発明の第２の実施例を図面を参照して説明する。本実施例は、本発明の第２の実施の形態に対応するものである。本実施例は、第１の実施例と同様に、情報抽出システムを、ネットワークカードを備えたパーソナルコンピュータと磁気ディスク記憶装置とによって実現する。

なお、パーソナルコンピュータは、プログラム制御に従い、Ｗｅｂページ取得手段２１、基本文字列解析手段２２、レイアウト解析手段２３、セクション種別判定手段２４、基本文字列重要度計算手段２５、特徴語抽出手段２６、重み情報選択手段２７、ユーザニーズ種別取得手段２８として機能する中央演算装置を有する。

また、磁気ディスク記憶装置には、重み情報記憶部３１’として、例えば図１１に示すような形式で、予めユーザニーズ種別およびセクション種別毎に定義された重み情報を記憶されている。図１１は、重み情報記憶部３１’に記憶される情報の一例を示す説明図である。図１１では、ユーザニーズ種別が”ページ主題情報閲覧”である場合において、セクション種別”ナビゲーション”に対しては重み０．５を示す重み情報が、セクション種別”メインコンテンツ”に対しては重み２．０を示す重み情報が記憶されている例を示している。また、ユーザニーズ種別が”ページ周辺情報閲覧”である場合において、セクション種別”ナビゲーション”に対しては重み２．０を示す重み情報が、セクション種別”メインコンテンツ”に対しては重み０．５を示す重み情報が記憶されている例を示している。このことによって、ユーザニーズ種別が”ページ主題情報閲覧”である場合には、セクション種別”メインコンテンツ”に出現する基本文字列に対する重みが、セクション種別”ナビゲーション”に出現する基本文字列に対する重みよりも大きく設定されているのに対し、ユーザニーズ種別が”ページ周辺情報閲覧”である場合には、逆に、セクション種別”ナビゲーション”に出現する基本文字列に対する重みが、セクション種別”メインコンテンツ”に出現する基本文字列に対する重みよりも大きく設定されていることがわかる。

今、ユーザがＷｅｂブラウザに表示されているあるＷｅｂページへのリンクにマウスカーソルを合わせたとする。

中央演算装置は、ユーザがＷｅｂページへのリンクにマウスカーソルを合わせたことを受けて、ユーザにユーザニーズ種別を選択させるためのウィンドウを表示する。例えば、中央演算装置は、ディスプレイ装置を介して、例えば図１２に示すように、マウスカーソル付近に、予め定められているユーザニーズ種別の選択項目を含むユーザニーズ選択画面を別途表示させてもよい。

この時、ユーザは、別途表示されたユーザニーズ選択画面から、”ページ周辺情報閲覧”を選択したとする。なお、Ｗｅｂブラウザに表示中のあるＷｅｂページへのリンクは、第１の実施例と同様に、図７に示すＷｅｂページへのリンクであるとする。

一方で、中央演算装置は、第１の実施例と同様に、名詞の形態素を基本文字列として抽出するとともに、そのＷｅｂページに含まれるセクションを抽出して、各セクションの用途種別を判定する。

基本文字列が抽出され、各セクションの用途種別が判定され、また、ユーザニーズ種別が選択されると、中央演算装置は、選択されたユーザニーズ種別に対応するセクション種別毎の重み情報の組を重み情報記憶部３１’から選択する。ここでは、ユーザニーズ種別”ページ周辺情報閲覧”が選択されているので、セクション種別”ナビゲーション”に対する重み２．０を示す重み情報、セクション種別”メインコンテンツ”に対する重み０．５を示す重み情報の組が選択される。

次に、中央演算装置は、選択されたセクション種別毎に定義された重み情報を用いて、第１の実施例と同様に、そのＷｅｂページに出現する各基本文字列の重要度を示すＴＦ−ＩＤＦを計算する。そして、ＴＦ−ＩＤＦが上位の基本文字列を、そのＷｅｂページのユーザニーズに即した特徴語として抽出する。

ここで、ユーザニーズ種別の選択入力を不要とし、全てのユーザニーズ種別に対して特徴語を抽出し、ユーザニーズと対応づけて抽出した特徴語を出力するようにしてもよい。

なお、第１の実施例および第２の実施例では、リンク先のＷｅｂページを対象に特徴語を抽出する例を示したが、例えば、Ｗｅｂブラウザに表示中のＷｅｂページや、ローカルディスクにファイルとして保存されているＷｅｂページを対象にすることも可能である。

また、抽出した特徴語を他の画面領域やウィンドウ（例えば、Ｗｅｂブラウザのステータスバーやファイルのプロパティウィンドウ）に表示させるようにしてもよい。さらに、抽出した特徴語をＷｅｂページのメタ情報としてそのＷｅｂページのデータとともに別途記憶させるようにしてもよい。

本発明によれば、Ｗｅｂページの特徴語を抽出する情報抽出装置や、情報抽出装置をコンピュータによって実現させるためのプログラムとしても好適に適用可能である。また、特徴語をインデックスにしてＷｅｂページを検索するような情報検索装置や、そのためのプログラムといった用途にも適用可能である。

第１の実施の形態による情報抽出システムの構成例を示すブロック図である。第１の実施の形態による情報抽出システムの動作例を示すフローチャートである。第２の実施の形態による情報抽出システムの構成例を示すブロック図である。第２の実施の形態による情報抽出システムの動作例を示すフローチャートである。第３の実施の形態による情報抽出システムの構成例を示すブロック図である。重み情報記憶部３１に記憶される情報の一例を示す説明図である。Ｗｅｂページの例を示す説明図である。図７に示すＷｅｂページに対する形態素解析およびレイアウト解析の結果例を示す説明図である。図７に示すＷｅｂページに対し計算される各基本文字列の重要度のリストを示す説明図である。抽出した特徴語の出力例を示す説明図である。重み情報記憶部３１’に記憶される情報の一例を示す説明図である。ユーザニーズ種別を取得するためのユーザニーズ選択画面の一例を示す説明図である。

符号の説明

１入力装置
２データ処理装置
２１Ｗｅｂページ取得手段
２２基本文字列解析手段
２３レイアウト解析手段
２４セクション種別判定手段
２５基本文字列重要度計算手段
２６特徴語抽出手段
２７ユーザニーズ種別取得手段
２８重み情報選択手段
３記憶装置
４出力装置
５情報抽出用プログラム

Claims

Ｗｅｂページの特徴語を抽出する情報抽出システムであって、
Ｗｅｂページにおける意味的に関連する情報を掲載している領域の単位であるセクションの種別を判定するセクション判定手段と、
前記Ｗｅｂページ上に出現する文字列から所定のルールに従って１つの単語として切り出される文字列である基本文字列を、当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算する基本文字列重要度計算手段と、
前記各基本文字列の重要度に従って、特徴語を抽出する特徴語抽出手段とを備えた
ことを特徴とする情報抽出システム。
Ｗｅｂページを解析して、当該Ｗｅｂページ上に出現する基本文字列を抽出する基本文字列解析手段と、
前記Ｗｅｂページのレイアウトを解析して、当該Ｗｅｂページ上のセクションを抽出するレイアウト解析手段とを備え、
セクション種別判定手段は、前記レイアウト解析手段によって抽出されたセクションの種別を判定し、
基本文字列重要度計算手段は、前記基本文字列解析手段によって抽出された基本文字列を、前記セクション種別判定手段によって判定された当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算し、
特徴語抽出手段は、重要度の順位が上位の基本文字列を、特徴語として抽出する
請求項１に記載の情報抽出システム。
予めセクションの種別毎に、ある基本文字列が１回出現することに対する重みを示す重み情報を記憶する重み情報記憶手段を備え、
基本文字列重要度計算手段は、基本文字列が出現するセクションの種別と、前記重み情報記憶手段に記憶されている重み情報とに基づいて、基本文字列を、当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算する
請求項１または請求項２に記載の情報抽出システム。
重み情報記憶手段は、予めユーザがどのような情報を求めてＷｅｂページを閲覧するかを種別化したユーザニーズ種別およびセクションの種別毎に、重み情報を記憶し、
基本文字列重要度計算手段は、指定されたユーザニーズ種別と、基本文字列が出現するセクションの種別と、前記重み情報記憶手段に記憶されている重み情報とに基づいて、基本文字列を、指定されたユーザニーズ種別および当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算する
請求項３に記載の情報抽出システム。
重み情報記憶手段は、見出しまたは見出し以外かにも対応させて重み情報を記憶し、
基本文字列重要度計算手段は、基本文字列を、前記重み情報記憶手段に記憶されている重み情報に基づいて、基本文字列が当該セクションの見出しに含まれるか否かにも応じて重み付けして、各基本文字列の重要度を計算する
請求項３または請求項４に記載の情報抽出システム。
セクションの種別は、セクションの用途種別である
請求項１から請求項５のうちのいずれか１項に記載の情報抽出システム。
セクション種別判定手段は、セクション内のリンク情報の量に基づいて、セクションの種別を判定する
請求項１から請求項６のうちのいずれか１項に記載の情報抽出システム。
セクション種別判定手段は、Ｗｅｂページにおけるセクションの位置を示す情報または大きさを示す情報を含む領域情報に基づいて、セクションの種別を判定する
請求項１から請求項７のうちのいずれか１項に記載の情報抽出システム。
Ｗｅｂページの特徴語を抽出するための情報抽出方法であって、
Ｗｅｂページにおける意味的に関連する情報を掲載している領域の単位であるセクションの種別を判定し、
前記Ｗｅｂページ上に出現する文字列から所定のルールに従って１つの単語として切り出される文字列である基本文字列を、当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算し、
前記各基本文字列の重要度に従って、特徴語を抽出する
ことを特徴とする情報抽出方法。
Ｗｅｂページを解析して、当該Ｗｅｂページ上に出現する基本文字列を抽出し、
前記Ｗｅｂページのレイアウトを解析して、当該Ｗｅｂページ上のセクションを抽出し、
抽出された前記セクションの種別を判定し、
抽出された基本文字列を、前記判定された当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算し、
重要度の順位が上位の基本文字列を、特徴語として抽出する
請求項９に記載の情報抽出方法。
基本文字列が出現するセクションの種別と、予めセクションの種別毎に定義されている、ある基本文字列が１回出現することに対する重みを示す重み情報とに基づいて、基本文字列を、当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算する
請求項９または請求項１０に記載の情報抽出方法。
指定されたユーザニーズ種別と、基本文字列が出現するセクションの種別と、予めユーザがどのような情報を求めてＷｅｂページを閲覧するかを種別化したユーザニーズ種別およびセクションの種別毎に定義されている重み情報とに基づいて、基本文字列を、指定されたユーザニーズ種別および当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算する
請求項９から請求項１１のいずれか１項に記載の情報抽出方法。
見出しまたは見出し以外かにも対応させて重み情報を定義し、
基本文字列を、前記重み情報に基づいて、基本文字列が当該セクションの見出しに含まれるか否かにも応じて重み付けして、各基本文字列の重要度を計算する
請求項１１または請求項１２に記載の情報抽出方法。
セクションの種別として、セクションの用途種別を判定する
請求項９から請求項１３のうちのいずれか１項に記載の情報抽出方法。
Ｗｅｂページの特徴語を抽出するための情報抽出用プログラムであって、
コンピュータに、
Ｗｅｂページにおける意味的に関連する情報を掲載している領域の単位であるセクションの種別を判定するセクション種別判定処理、
前記Ｗｅｂページ上に出現する文字列から所定のルールに従って１つの単語として切り出される文字列である基本文字列を、当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算する重要度計算処理、および
前記各基本文字列の重要度に従って、特徴語を抽出する特徴語抽出処理を
実行させるための情報抽出用プログラム。
コンピュータに、
Ｗｅｂページを解析して、当該Ｗｅｂページ上に出現する基本文字列を抽出する基本文字列解析処理、および
前記Ｗｅｂページのレイアウトを解析して、当該Ｗｅｂページ上のレイアウト解析処理を実行させ、
セクション種別判定処理で、前記抽出されたセクションの種別を判定させ、
重要度計算処理で、前記抽出された基本文字列を、前記判定された当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算させ、
特徴語抽出処理で、重要度の順位が上位の基本文字列を、特徴語として抽出させる
請求項１５に記載の情報抽出用プログラム。
予めセクションの種別毎に、ある基本文字列が１回出現することに対する重みを示す重み情報を記憶する重み情報記憶手段を備えたコンピュータに、
重要度計算処理で、基本文字列が出現するセクションの種別と、前記重み情報記憶手段に記憶されている重み情報とに基づいて、基本文字列を、当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算させる
請求項１５または請求項１６に記載の情報抽出用プログラム。
予めユーザがどのような情報を求めてＷｅｂページを閲覧するかを種別化したユーザニーズ種別およびセクションの種別毎に、重み情報を記憶する重み情報記憶手段を備えたコンピュータに、
重要度計算処理で、指定されたユーザニーズ種別と、基本文字列が出現するセクションの種別と、前記重み情報記憶手段に記憶されている重み情報とに基づいて、基本文字列を、指定されたユーザニーズ種別および当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算させる
請求項１５または請求項１６に記載の情報抽出用プログラム。
見出しまたは見出し以外かにも対応させて重み情報を記憶している重み情報記憶手段を備えたコンピュータに、
重要度計算処理で、基本文字列を、前記重み情報記憶手段に記憶されている重み情報に基づいて、基本文字列が当該セクションの見出しに含まれるか否かにも応じて重み付けして、各基本文字列の重要度を計算させる
請求項１７または請求項１８に記載の情報抽出用プログラム。
コンピュータに、
セクション種別判定処理で、セクションの用途種別を判定させる
請求項１５から請求項１９のいずれか１項に記載の情報抽出用プログラム。