JP5056133B2 - 情報抽出システム、情報抽出方法および情報抽出用プログラム - Google Patents

情報抽出システム、情報抽出方法および情報抽出用プログラム Download PDF

Info

Publication number
JP5056133B2
JP5056133B2 JP2007106445A JP2007106445A JP5056133B2 JP 5056133 B2 JP5056133 B2 JP 5056133B2 JP 2007106445 A JP2007106445 A JP 2007106445A JP 2007106445 A JP2007106445 A JP 2007106445A JP 5056133 B2 JP5056133 B2 JP 5056133B2
Authority
JP
Japan
Prior art keywords
character string
section
type
basic character
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007106445A
Other languages
English (en)
Other versions
JP2008262506A (ja
Inventor
勇臣 辰巳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007106445A priority Critical patent/JP5056133B2/ja
Publication of JP2008262506A publication Critical patent/JP2008262506A/ja
Application granted granted Critical
Publication of JP5056133B2 publication Critical patent/JP5056133B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報抽出システム、情報抽出方法および情報抽出用プログラムに関し、特に、Webページの特徴語を抽出する情報抽出システム、情報抽出方法および情報抽出用プログラムに関する。
従来の情報抽出システムでは、例えば、TF−IDF(Term Frequency-Inverted Document Frequency)と呼ばれる単語の網羅性と特定性を考慮した統計的な指標によりその重要度を計算することで、文書の特徴語を抽出していた(例えば、非特許文献1参照。)。
また、例えば、文書の分類に対応して抽出する情報と抽出方法とを変え、文書の分類結果に応じた情報を抽出していた(例えば、特許文献1)。また、例えば、文書の構成単位である項目領域の種別と内容を抽出し、項目領域毎に重要度を判定していた(例えば、特許文献2)。
特開2001−134600号公報 特開2004−38605号公報 徳永健伸,「情報検索と言語処理」,東京大学出版会,1999年,p.32−33
第1の問題点は、Webページの主題に合う特徴語を汎用的に抽出できないことである。その理由は、Webページは用途が異なる領域(例えば、主題情報が記載されたメインコンテンツ領域や周辺情報が記載されたナビゲーション領域など)で構成されるが、従来の情報抽出システムの多くは、ページを構成する領域の用途を何ら考慮していないためである。
例えば、特許文献1に記載されている抽出方法では、文書の分類結果に応じた情報を抽出することはできる。しかしながら、Webページの分類毎に抽出方法を用意する必要があり、あらゆるWebページに汎用的に適用することができない。
なお、特許文献2に記載されている判定方法を用いれば、Webページ上の文書領域毎にその領域の重要度を判定することはできる。しかしながら、その領域の重要度を考慮してどのように汎用的に特徴語を抽出するか、また、特徴語を汎用的に抽出する上で適当な領域の種別は何であるかについては何ら考慮されていないため、特徴語を抽出する情報抽出システムに特許文献2に記載されている方法を適用したとしても、単純にはWebページの主題に合う特徴語を汎用的に抽出することはできない。
第2の問題点は、ユーザのニーズに即したWebページの特徴語を汎用的に抽出できないことである。その理由は、ユーザはWebを閲覧する際、時々で異なるニーズ(例えば、ページの主題情報に対するニーズや周辺情報に対するニーズ)を持つが、従来の情報抽出システムでは、ユーザのニーズを何ら考慮せずに、一律な方法で特徴語を抽出するからである。
そこで、本発明は、Webページの主題に合う特徴語を汎用的に抽出できる情報抽出システム、情報抽出方法および情報抽出用プログラムを提供することを目的とする。また、本発明は、ユーザのニーズに即したWebページの特徴語を汎用的に抽出できる情報抽出システム、情報抽出方法および情報抽出用プログラムを提供することを目的とする。
本発明による情報抽出システムは、Webページの特徴語を抽出する情報抽出システムであって、Webページにおける意味的に関連する情報を掲載している領域の単位であるセクションの種別を判定するセクション判定手段(例えば、セクション種別判定手段24)と、Webページ上に出現する文字列から所定のルールに従って1つの単語として切り出される文字列である基本文字列を、当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算する基本文字列重要度計算手段(例えば、基本文字列重要度計算手段25)と、各基本文字列の重要度に従って、特徴語を抽出する特徴語抽出手段(例えば、特徴語抽出手段26)と、予めユーザがどのような情報を求めてWebページを閲覧するかを種別化したユーザニーズ種別およびセクションの種別毎に、ある基本文字列が1回出現することに対する重みを示す重み情報を記憶する重み情報記憶手段(例えば、重み情報記憶部31’)とを備え、基本文字列重要度計算手段は、指定されたユーザニーズ種別と、基本文字列が出現するセクションの種別と、前記重み情報記憶手段に記憶されている重み情報とに基づいて、基本文字列を、指定されたユーザニーズ種別および当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算することを特徴とする。
また、本発明による情報抽出システムは、Webページの特徴語を抽出する情報抽出システムであって、Webページにおける意味的に関連する情報を掲載している領域の単位であるセクションの種別を判定するセクション判定手段(例えば、セクション種別判定手段24)と、Webページ上に出現する文字列から所定のルールに従って1つの単語として切り出される文字列である基本文字列を、当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算する基本文字列重要度計算手段(例えば、基本文字列重要度計算手段25)と、各基本文字列の重要度に従って、特徴語を抽出する特徴語抽出手段(例えば、特徴語抽出手段26)とを備え、セクション種別判定手段は、セクション内のリンク情報の量に基づいて、セクションの種別を判定してもよい。
また、情報抽出システムは、Webページを解析して、当該Webページ上に出現する基本文字列を抽出する基本文字列解析手段(例えば、基本文字列解析手段22)と、Webページのレイアウトを解析して、当該Webページ上のセクションを抽出するレイアウト解析手段(例えば、レイアウト解析手段23)とを備え、セクション種別判定手段は、レイアウト解析手段によって抽出されたセクションの種別を判定し、基本文字列重要度計算手段は、基本文字列解析手段によって抽出された基本文字列を、少なくともセクション種別判定手段24によって判定された当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算し、特徴語抽出手段は、重要度の順位が上位の基本文字列を、特徴語として抽出してもよい。
また、情報抽出システムは、予めセクションの種別毎に、ある基本文字列が1回出現することに対する重みを示す重み情報を記憶する重み情報記憶手段(例えば、重み情報記憶部31)を備え、基本文字列重要度計算手段は、基本文字列が出現するセクションの種別と、重み情報記憶手段に記憶されている重み情報とに基づいて、基本文字列を、当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算してもよい。
また、重み情報記憶手段(例えば、重み情報記憶部31’)は、予めユーザがどのような情報を求めてWebページを閲覧するかを種別化したユーザニーズ種別およびセクションの種別毎に、重み情報を記憶し、基本文字列重要度計算手段(例えば、基本文字列重要度計算手段25’)は、指定されたユーザニーズ種別と、基本文字列が出現するセクションの種別と、重み情報記憶手段に記憶されている重み情報とに基づいて、基本文字列を、指定されたユーザニーズ種別および当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算してもよい。
また、重み情報記憶手段は、見出しまたは見出し以外かにも対応させて重み情報を記憶し、基本文字列重要度計算手段は、基本文字列を、重み情報記憶手段に記憶されている重み情報に基づいて、基本文字列が当該セクションの見出しに含まれるか否かにも応じて重み付けして、各基本文字列の重要度を計算してもよい。
また、セクションの種別は、セクションの用途種別であってもよい。
また、セクション種別判定手段は、Webページにおけるセクションの位置を示す情報または大きさを示す情報を含む領域情報に基づいて、セクションの種別を判定してもよい。
また、本発明による情報抽出方法は、Webページの特徴語を抽出するための情報抽出方法であって、記憶装置に、予めユーザがどのような情報を求めてWebページを閲覧するかを種別化したユーザニーズ種別およびセクションの種別毎に、Webページ上に出現する文字列から所定のルールに従って1つの単語として切り出される文字列である基本文字列が該Webページ上に1回出現することに対する重みを示す重み情報を記憶しておき、データ処理装置が、入力装置を介して入力される特徴語の抽出対象となるWebページのページ情報を基に当該Webページのレイアウトを解析し、Webページにおける意味的に関連する情報を掲載している領域の単位であるセクションを抽出し、前記データ処理装置が、抽出された各セクションの種別を、前記レイアウト解析の結果得られたセクションの情報に基づいて判定し、前記データ処理装置が、前記Webページ上に出現する基本文字列指定されたユーザニーズ種別と、基本文字列が出現するセクションの種別と、記憶されている前記重み情報とに基づいて、指定されたユーザニーズ種別および当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算し、前記データ処理装置が、前記各基本文字列の重要度に従って、特徴語を抽出することを特徴とする。
また、本発明による情報抽出方法は、記憶装置に、予めセクションの種別毎に、ある基本文字列が1回出現することに対する重みを示す重み情報を記憶しておき、データ処理装置が、入力装置を介して入力される特徴語の抽出対象となるWebページのページ情報を基に当該Webページのレイアウトを解析し、Webページにおける意味的に関連する情報を掲載している領域の単位であるセクションを抽出し、前記データ処理装置が、抽出された各セクションの種別を、該セクション内のリンク情報の量に基づいて判定し、前記データ処理装置が、前記Webページ上に出現する基本文字列基本文字列が出現するセクションの種別と、記憶されている前記重み情報とに基づいて、当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算し、前記データ処理装置が、前記各基本文字列の重要度に従って、特徴語を抽出してもよい。
また、情報抽出方法は、記憶装置に、予めユーザがどのような情報を求めてWebページを閲覧するかを種別化したユーザニーズ種別およびセクションの種別毎に、重み情報を記憶しておき、データ処理装置が、指定されたユーザニーズ種別と、基本文字列が出現するセクションの種別と、記憶されている前記重み情報とに基づいて、抽出された基本文字列を、指定されたユーザニーズ種別および当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算してもよい。
また、情報抽出方法は、記憶装置に記憶させる重み情報において、見出しまたは見出し以外かにも対応させて、重みを定義しておき、データ処理装置が、抽出された基本文字列を、記憶されている前記重み情報に基づいて、基本文字列が当該セクションの見出しに含まれるか否かにも応じて重み付けして、各基本文字列の重要度を計算してもよい。
また、情報抽出方法は、データ処理装置が、セクションの種別として、セクションの用途種別を判定してもよい。
また、本発明による情報抽出用プログラムは、Webページの特徴語を抽出するための情報抽出用プログラムであって、予めユーザがどのような情報を求めてWebページを閲覧するかを種別化したユーザニーズ種別およびセクションの種別毎に、Webページ上に出現する文字列から所定のルールに従って1つの単語として切り出される文字列である基本文字列が該Webページ上に1回出現することに対する重みを示す重み情報を記憶する重み情報記憶手段を備えたコンピュータに、Webページにおける意味的に関連する情報 を掲載している領域の単位であるセクションの種別を判定するセクション種別判定処理、前記Webページ上に出現する基本文字列を、指定されたユーザニーズ種別と、基本文字列が出現するセクションの種別と、記憶されている前記重み情報とに基づいて、指定されたユーザニーズ種別および当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算する重要度計算処理、および前記各基本文字列の重要度に従って、特徴語を抽出する特徴語抽出処理を実行させることを特徴とする。
また、本発明による情報抽出用プログラムは、コンピュータに、Webページにおける意味的に関連する情報を掲載している領域の単位であるセクションの種別を、該セクション内のリンク情報の量に基づいて判定するセクション種別判定処理、前記Webページ上に出現する文字列から所定のルールに従って1つの単語として切り出される文字列である基本文字列を、当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算する重要度計算処理、および前記各基本文字列の重要度に従って、特徴語を抽出する特徴語抽出処理を実行させてもよい。
また、情報抽出用プログラムは、コンピュータに、Webページを解析して、当該Webページ上に出現する基本文字列を抽出する基本文字列解析処理、およびWebページのレイアウトを解析して、当該Webページ上のセクションを抽出するレイアウト解析処理を実行させ、セクション種別判定処理で、抽出されたセクションの種別を判定させ、重要度計算処理で、抽出された基本文字列を、判定された当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算させ、特徴語抽出処理で、重要度の順位が上位の基本文字列を、特徴語として抽出させてもよい。
また、情報抽出用プログラムは、予めセクションの種別毎に、ある基本文字列が1回出現することに対する重みを示す重み情報を記憶する重み情報記憶手段を備えたコンピュータに、重要度計算処理で、基本文字列が出現するセクションの種別と、重み情報記憶手段に記憶されている重み情報とに基づいて、基本文字列を、当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算させてもよい。
また、情報抽出用プログラムは、予めユーザがどのような情報を求めてWebページを閲覧するかを種別化したユーザニーズ種別およびセクションの種別毎に、重み情報を記憶する重み情報記憶手段を備えたコンピュータに、重要度計算処理で、指定されたユーザニーズ種別と、基本文字列が出現するセクションの種別と、重み情報記憶手段に記憶されている重み情報とに基づいて、基本文字列を、指定されたユーザニーズ種別および当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算させてもよい。
また、情報抽出用プログラムは、見出しまたは見出し以外かにも対応させて重み情報を記憶している重み情報記憶手段を備えたコンピュータに、重要度計算処理で、基本文字列を、重み情報記憶手段に記憶されている重み情報に基づいて、基本文字列が当該セクションの見出しに含まれるか否かにも応じて重み付けして、各基本文字列の重要度を計算させてもよい。
また、情報抽出用プログラムは、コンピュータに、セクション種別判定処理で、セクションの用途種別を判定させてもよい。
第1の効果は、Webページの主題に合う特徴語を汎用的に抽出できることにある。その理由は、Webページ内の基本文字列をその出現セクションの種別に応じて重み付けすることによって計算された各基本文字列の重要度に基づいて、特徴語を抽出するからである。
第2の効果は、ユーザのニーズに即したWebページの主題に合う特徴語を汎用的に抽出できることにある。その理由は、セクション種別毎に定義された重み情報をさらにユーザニーズ種別に応じて選別し、Webページ内の基本文字列をユーザニーズ種別および出現セクションの種別とに応じて重み付けすることによって、各基本文字列の重要度を計算するからである。
以下、本発明の実施の形態を図面を参照して説明する。まず、本発明に用いる用語を定義する。Webページの画面には、意味的に関連する情報を掲載している1つ以上の領域がレイアウトされ、一部の領域はその内容が一目で分かる標題の領域をもっている。本発明では、意味的に関連する情報を掲載している領域のことを”セクション”と呼び、セクションの標題となる文字列を”見出し”と呼ぶ。
実施の形態1.
図1は、本発明の第1の実施の形態による情報抽出システムの構成例を示すブロック図である。図1に示すように、本情報抽出システムは、入力装置1と、プログラム制御により動作するデータ処理装置2と、データを記憶する記憶装置3と、出力装置4とを備える。また、データ処理装置2は、Webページ取得手段21と、基本文字列解析手段22と、レイアウト解析手段23と、セクション種別判定手段24と、基本文字列重要度計算手段25と、特徴語抽出手段26とを含む。また、記憶装置3は、重み情報記憶部31を含む。
入力装置1は、特徴語の抽出対象となるWebページのページ情報を入力する装置である。入力装置1は、例えば、インターネット等の通信ネットワーク上の端末からページ情報を受信する受信装置(ネットワークカード等)やファイル形式のページ情報を入力するファイル入力装置によって実現される。
出力装置4は、抽出した特徴語を示す情報を出力する装置である。出力装置4は、例えば、ディスプレイ装置や、インターネット等の通信ネットワーク上の端末に対し特徴語を示す情報を送信する送信装置(ネットワークカード等)、ファイル形式の特徴語を示す情報を出力するファイル出力装置によって実現される。
重み情報記憶部31は、予めセクション種別毎に定義された重み情報を記憶する。本実施の形態において、重み情報で示される値は、ある文字列がそのセクションに1回出現したことに対する重みを示している。
Webページ取得手段21は、入力装置1からWebページのページデータを取得する。基本文字列解析手段22は、Webページ取得手段21が取得したWebページについて、そのWebページに含まれる基本文字列を解析する。本発明において、基本文字列とは、所定のルールに従って文字列から1つの単語として切り出される文字列をいう。具体的には、Webページ取得手段21は、Webページ上に表示される(出現する)文字列を所定の解析手法(例えば、形態素解析やN−gram)を用いて解析することによって、その文字列を基本文字列に分解する。
レイアウト解析手段23は、Webページ取得手段21が取得したWebページについて、そのWebページのレイアウトを解析し、そのWebページを構成しているセクションを抽出する。
セクション種別判定手段24は、レイアウト解析手段23によって解析されたセクションの情報に基づき、各セクションの種別を特定する。ここで、セクション種別には、メインコンテンツ用やナビゲーション用といったそのセクションの用途種別を用いる。用途種別は、セクション内のリンク情報量や、セクションの位置や大きさといった領域情報などから計算する。
基本文字列重要度計算手段25は、基本文字列解析手段22で解析された基本文字列と、セクション種別判定手段24で計算されたセクション種別と、重み情報記憶部31に記憶されているセクション種別毎の重み情報とに基づいて、基本文字列を出現セクションの用途種別に応じて重み付けし、各基本文字列の重要度を計算する。
特徴語抽出手段26は、基本文字列重要度計算手段25によって計算された基本文字列の重要度に従い、重要度が上位の基本文字列を特徴語として抽出する。
次に、本実施の形態の動作について説明する。図2は、本情報抽出システムの動作例を示すフローチャートである。図2に示すように、まず、Webページ取得手段21は、入力装置1からWebページを取得する(ステップA1)。具体的には、Webページ取得手段21は、入力装置1を介して、Webページのページ情報を取得(入力)する。
次に、基本文字列解析手段22は、Webページ取得手段21によって取得されたWebページについて、そのWebページに含まれる基本文字列を解析する(ステップA2)。基本文字列解析手段22は、具体的には、Webページ取得手段21が取得したWebページを解析し、そのWebページに含まれる基本文字列を抽出する。基本文字列解析手段22は、例えば、形態素解析やN−gramといった手法を用いてWebページ上に表示される(出現する)文字列を解析することによって、その文字列を基本文字列に分解すればよい。
また、レイアウト解析手段23は、Webページ取得手段21によって取得されたWebページについて、そのWebページのレイアウトを解析する(ステップA3)。レイアウト解析手段23は、例えば、特開2006−155593号公報に記載されている手法を用いて、そのWebページがどのようなレイアウト構成となっているかを解析する。そして、レイアウト解析手段23は、例えば、レイアウトの構成要素とその階層関係、位置、大きさ、タイトルを示す情報を出力する。
レイアウト解析手段23によるレイアウト解析処理が完了すると、セクション種別判定手段24は、レイアウト解析手段23によって解析されたセクションの情報に基づいて、各セクションの種別(用途種別)を特定する(ステップA4)。セクション種別判定手段24は、例えば、セクション内のリンク情報量や、セクションの位置や大きさといった領域情報に基づいて、各セクションが予め定義されているセクション種別のいずれに当てはまるかを特定する。
次に、基本文字列重要度計算手段25は、基本文字列解析手段22によって解析された基本文字列と、セクション種別判定手段24によって特定されたセクション種別と、重み情報記憶部31に記憶されているセクション種別毎の重み情報とに基づいて、基本文字列をその出現セクションの用途種別に応じて重み付けし、各基本文字列の重要度を計算する(ステップA5)。基本文字列重要度計算手段25は、例えば、Webページ上に出現する同一表記の各基本文字列について、その出現セクションの用途種別に応じて重み付けた出現頻度を計算することによって、各基本文字列の重要度を算出する。そして、特徴語抽出手段26は、基本文字列重要度計算手段25によって算出された各基本文字列の重要度に従い、重要度が上位の基本文字列を特徴語として抽出する(ステップA6)。また、特徴語抽出手段26は、抽出した特徴語を示す情報を出力装置4に出力する。
以上のように、本実施の形態では、セクション種別毎の重み情報を定義した上で、Webページにおける基本文字列とレイアウトとを解析し、そのレイアウトに含まれるセクションの用途種別を特定して、基本文字列をその出現セクションの用途種別に応じて重み付けすることによって、各基本文字列の重要度を求めている。従って、メインコンテンツ用途のセクションに対し重み付けを大きく設定すれば、メインコンテンツ用途のセクションに出現する基本文字列に対しては、他のセクションに出現する文字列よりもその重要度を大きく算出するので、Webページの主題に合う特徴語を汎用的に抽出できる。
なお、重み情報記憶部31が、見出しか見出し以外かによって異なる重み情報をさらに記憶し、基本文字列重要度計算手段25が、基本文字列が見出しに属するか(見出しに含まれるか)否かでさらに参照する重み情報を分けて、各基本文字列の重要度を計算するようにしてもよい。
実施の形態2.
次に、本発明の第2の実施の形態について図面を参照して説明する。図3は、本発明の第2の実施の形態による情報抽出システムの構成例を示すブロック図である。図3に示すように、本情報抽出システムは、入力装置1と、プログラム制御により動作するデータ処理装置2と、データを記憶する記憶装置3と、出力装置4とを備える。また、データ処理装置2は、Webページ取得手段21と、基本文字列解析手段22と、レイアウト解析手段23と、セクション種別判定手段24と、基本文字列重要度計算手段25’と、特徴語抽出手段26と、ユーザニーズ種別取得手段27と、重み情報選択手段28とを含む。また、記憶装置3は、重み情報記憶部31’を含む。なお、本実施の形態による情報抽出システムは、図1に示す第1の実施の形態と比べて、ユーザニーズ種別取得手段27および重み情報選択手段28を備える点で異なる。また、基本文字列重要度計算手段25の動作、および重み情報記憶部31が記憶する情報が異なる。
ユーザニーズ種別取得手段27は、特徴語の抽出対象であるWebページに対するユーザのニーズを種別化したユーザニーズ種別を取得する。ユーザニーズ種別とは、ユーザがどのような情報を求めてWebページを閲覧するかを大別したものであって、本実施の形態では、全Webページに共通で適用させるユーザニーズ種別を予め定めておく。
重み情報選択手段28は、重み情報記憶部31’に記憶されているユーザニーズ種別とセクション種別毎の重み情報の中から、そのWebページに対してユーザが指定したユーザニーズ種別に対応する重み情報の組(セクション種別毎の重み情報)を選択する。
また、本実施の形態において、重み情報記憶部31’は、予めユーザニーズ種別とセクション種別毎に定義された重み情報を記憶する。
また、基本文字列重要度計算手段25’は、基本文字列解析手段22で解析された基本文字列と、セクション種別判定手段24で計算されたセクション種別と、重み情報選択手段28によって選択されたセクション種別毎の重み情報とに基づいて、基本文字列をその出現セクションの用途種別に応じて重み付けし、各基本文字列の重要度を計算する。
次に、本実施の形態の動作について説明する。図4は、本情報抽出システムの動作例を示すフローチャートである。図4に示すように、まず、Webページ取得手段21は、入力装置1からWebページを取得する(ステップA1)。
次に、基本文字列解析手段22は、Webページ取得手段21によって取得されたWebページについて、そのWebページに含まれる基本文字列を解析する(ステップA2)。また、レイアウト解析手段23は、Webページ取得手段21によって取得されたWebページについて、そのWebページのレイアウトを解析する(ステップA3)。そして、レイアウト解析手段23によるレイアウト解析処理が完了すると、セクション種別特定手段24は、レイアウト解析手段23によって解析されたセクションの情報に基づいて、各セクションの種別を特定する(ステップA4)。なお、ステップA2〜ステップA4の動作については、第1の実施の形態における動作と同様である。
また、ユーザニーズ種別取得手段27は、ユーザニーズ種別を取得する(ステップA21)。ユーザニーズ種別取得手段27は、例えば、特徴語の抽出対象とするWebページが指定される際に、予め定めておいたユーザニーズ種別に応じた項目を選択項目として含む画面を表示して、ユーザ操作に応じて、その選択結果を取得することによって、そのユーザのその時点におけるユーザニーズ種別を取得する。次に、重み情報選択手段27は、重み情報記憶部31’から、取得したユーザニーズ種別に対応する重み情報の組(セクション種別毎の重み情報)を選択する(ステップA22)。
セクション種別が特定され、重み情報が選択されると、基本文字列重要度計算手段25は、基本文字列解析手段22によって解析された基本文字列と、セクション種別特定手段24によって特定されたセクション種別と、重み情報選択手段27によって選択された重み情報記憶部31に記憶されているセクション種別毎の重み情報の組とに基づいて、基本文字列をその出現セクションの用途種別に応じて重み付けし、各基本文字列の重要度を計算する(ステップA5)。なお、ステップA5の動作は、重み情報選択手段27によって選択された重み情報を用いる点を除いて第1の実施の形態と同様である。
そして、特徴語抽出手段26は、基本文字列重要度計算手段25によって算出された各基本文字列の重要度に従い、重要度が上位の基本文字列を特徴語として抽出する(ステップA6)。なお、指定されうる全ユーザニーズ種別について、特徴語を抽出し、その結果を各ユーザニーズ種別に対応させて出力するようにしてもよい。そのような場合には、ユーザニーズ種別取得手段27は省略可能である。
以上のように、本実施の形態では、ユーザニーズ種別とセクション種別毎の重み情報を定義した上で、Webページの基本文字列とレイアウトを解析し、レイアウトに含まれるセクションの用途種別を判定し、さらに、ユーザニーズ種別に応じてセクション毎の重み情報の組を選択して、基本文字列をその出現セクションの用途種別およびユーザニーズ種別に応じて重み付けすることによって、各基本文字列の重要度を求めている。従って、セクション毎の重み情報をユーザニーズ種別に応じて変化させることができ、ユーザのニーズに即したWebページの主題に合う特徴語を汎用的に抽出できる。なお、他の点に関しては、第1の実施の形態と同様である。
実施の形態3.
次に、本発明の第3の実施の形態について図面を参照して説明する。図5は、本発明の第3の実施の形態による情報抽出システムの構成例を示すブロック図である。図5に示すように、本情報抽出システムは、第1および第2の実施の形態と同様に、入力装置1、データ処理装置2、記憶装置3、出力装置4を備え、さらに、データ処理装置2に読み込まれデータ処理装置2の動作を制御して、第1または第2の実施の形態におけるデータ処理装置2と同様の処理を実行させるための情報抽出用プログラム5を備える。
情報抽出用プログラム5は、データ処理装置2に読み込まれデータ処理装置2の動作を制御し、第1または第2の実施の形態におけるデータ処理装置2と同様の処理を実行させる。なお、記憶装置3には、予め第1の実施の形態における重み情報記憶部31、または第2の実施の形態における重み情報記憶部31’として動作するための記憶領域が割り当てられており、その記憶領域に所定の情報が記憶されている。データ処理装置2は、情報抽出用プログラム5の制御により、必要に応じて重み情報記憶部31や重み情報記憶部31’として動作している記憶領域にアクセスして、第1または第2の実施の形態におけるデータ処理装置2による処理と同様の処理を実行する。
次に、本発明の第1の実施例を図面を参照して説明する。本実施例は、本発明の第1の実施の形態に対応するものである。本実施例は、ネットワークカードを備えたパーソナルコンピュータと磁気ディスク記憶装置とによって情報抽出システムを実現する例である。すわなち、本実施例による情報抽出システムは、入力装置1としてネットワークカードを、データ処理装置2としてパーソナルコンピュータを、記憶装置3として磁気ディスク記憶装置を、出力装置4としてディスプレイ装置を備えている。
なお、パーソナルコンピュータは、プログラム制御に従い、Webページ取得手段21、基本文字列解析手段22、レイアウト解析手段23、セクション種別判定手段24、および基本文字列重要度計算手段25、特徴語抽出手段26として機能する中央演算装置を有する。
また、磁気ディスク記憶装置には、重み情報記憶部31として、例えば図6に示すような形式で、予めセクション種別毎に定義された重み情報が記憶されている。図6は、重み情報記憶部31に記憶される情報の一例を示す説明図である。図6では、セクション種別”ナビゲーション”に対しては重み0.5を示す重み情報が、セクション種別”メインコンテンツ”に対しては重み2.0を示す重み情報が記憶されている例を示している。このことによって、セクション種別”メインコンテンツ”に出現する基本文字列に対する重みが、セクション種別”ナビゲーション”に出現する基本文字列に対する重みよりも大きく設定されていることがわかる。
今、ユーザがWebブラウザに表示されているあるWebページへのリンクにマウスカーソルを合わせたとする。ここで、Webブラウザに表示中のあるWebページへのリンクは、図7に示すWebページへのリンクであるとする。
中央演算装置は、リンク先のWebページを取得し、取得したWebページ内のテキストを形態素解析して、名詞の形態素を基本文字列として抽出する。ここでは、図8に示すように、「業界動向」、「A社」、「携帯電話」、「発表」、「B社」、「不具合」、「PC」、「需要」、「拡大」、「昨年度」という10種の基本文字列を抽出する。
また、中央演算装置は、取得したWebページのレイアウトを解析し、そのWebページに含まれるセクションを抽出する。ここでは、図8に示すように、セクションAとセクションBとを抽出する。なお、図8は、図7に示すWebページに対する形態素解析およびレイアウト解析の結果例を示す説明図である。
次に、中央演算装置は、Webページに含まれる各セクションの用途種別を判定する。ここでは、各セクションに含まれる基本文字列数に占めるリンクが張られたものの割合を計算することによって、各セクションの用途種別を判定する。具体的には、この割合が所定の閾値以上の場合、用途種別を”ナビゲーション”、それ以外の場合に用途種別を”メインコンテンツ”とする。例えば、閾値が75%であるとして、図7に示すWebページの例では、セクションAに含まれる基本文字数10個のうち、リンクが張られたもの(図7において下線が引かれている基本文字列)が9個であるので、セクションAの用途種別は”ナビゲーション”であると判定する。同様に、セクションBに含まれる基本文字列7個のうち、リンクが張られたものは0個であるので、セクションBの用途種別は”メインコンテンツ”であると判定する。
どのセクションにどのような基本文字列が含まれているかについては、レイアウト解析の結果として示される情報(例えば、レイアウトの構成要素や位置、大きさを示す情報)および基本文字列の抽出結果として示される情報(例えば、基本文字列のリスト)を参照すればよい。
次に、中央演算装置は、そのWebページに出現する各基本文字列について、基本文字列が出現しているセクションの用途種別に応じた重みを用いて重み付けした出現頻度を計算する。例えば、基本文字列「携帯電話」は、用途種別が”ナビゲーション”であるセクション(ここでは、セクションA)に3回、用途種別が”メインコンテンツ”であるセクション(ここでは、セクションB)に0回出現している。中央演算装置は、図6に示す重み情報に基づき、用途種別が”ナビゲーション”であるセクションに出現する基本文字列に対する重みは0.5、用途種別が”メインコンテンツ”であるセクションに出現する基本文字列に対する重みは2.0であるとして、基本文字列「携帯電話」の出現頻度を次のとおり計算する。
3×0.5+0×2.0=1.5
さらに、この出現頻度に基づいて、各基本文字列の重要度を示すTF−IDFを計算する。仮に、TF−IDFにおける語の特定性を示す値が各基本文字列ともx(x>0であったとすると、基本文字列「携帯電話」のTF−IDFは、1.5xとなる。図9は、図7に示すWebページに対し計算される各基本文字列の重要度のリストを示す説明図である。
以上の計算を他の基本文字列に対しても行って、各基本文字列の重要度(TF−IDF)を求める。最後に、中央演算装置は、TF−IDFが上位の基本文字列を、そのWebページの主題に合う特徴語として抽出する。例えば、10%の上位か5位のいずれか小さい順位の基本文字列を特徴語として抽出してもよい。なお、図9に示す例では、基本文字列「PC」、「需要」、「拡大」がWebページの主題に合う特徴語として抽出されることになる。中央演算装置は、ディスプレイ装置を介して、例えば図10に示すように、マウスカーソル付近に、抽出した特徴語をリスト表示させたウィンドウを別途表示させてもよい。
なお、中央演算装置は、他の品詞情報を用いた形態素解析や、N−gramといった方法で基本文字列を解析してもよい。また、中央演算装置は、セクションのアスペクト比を用いて用途種別を判定してもよい。例えば、横長(アスペクト比が所定の値以上)や縦長(アスペクト比が所定の値以下)であるセクションの用途種別を”ナビゲーション”に、それ以外を”メインコンテンツ”と判定してもよい。また、セクション内のリンク情報の量や、セクションの位置や大きさといった領域情報を組み合わせて判定してもよい。
また、中央演算装置は、title要素やmeta要素などの基本文字列の表示に関わる属性情報をも用いて、例えばこれらの情報をメインコンテンツと同等の扱い重要度を算出するようにしてもよい。
また、中央演算装置は、形態素解析や構文解析、意味解析に基づき決定した基本文字列の重要度を、セクション種別に応じて重み付けしてもよい。
次に、本発明の第2の実施例を図面を参照して説明する。本実施例は、本発明の第2の実施の形態に対応するものである。本実施例は、第1の実施例と同様に、情報抽出システムを、ネットワークカードを備えたパーソナルコンピュータと磁気ディスク記憶装置とによって実現する。
なお、パーソナルコンピュータは、プログラム制御に従い、Webページ取得手段21、基本文字列解析手段22、レイアウト解析手段23、セクション種別判定手段24、基本文字列重要度計算手段25、特徴語抽出手段26、重み情報選択手段27、ユーザニーズ種別取得手段28として機能する中央演算装置を有する。
また、磁気ディスク記憶装置には、重み情報記憶部31’として、例えば図11に示すような形式で、予めユーザニーズ種別およびセクション種別毎に定義された重み情報を記憶されている。図11は、重み情報記憶部31’に記憶される情報の一例を示す説明図である。図11では、ユーザニーズ種別が”ページ主題情報閲覧”である場合において、セクション種別”ナビゲーション”に対しては重み0.5を示す重み情報が、セクション種別”メインコンテンツ”に対しては重み2.0を示す重み情報が記憶されている例を示している。また、ユーザニーズ種別が”ページ周辺情報閲覧”である場合において、セクション種別”ナビゲーション”に対しては重み2.0を示す重み情報が、セクション種別”メインコンテンツ”に対しては重み0.5を示す重み情報が記憶されている例を示している。このことによって、ユーザニーズ種別が”ページ主題情報閲覧”である場合には、セクション種別”メインコンテンツ”に出現する基本文字列に対する重みが、セクション種別”ナビゲーション”に出現する基本文字列に対する重みよりも大きく設定されているのに対し、ユーザニーズ種別が”ページ周辺情報閲覧”である場合には、逆に、セクション種別”ナビゲーション”に出現する基本文字列に対する重みが、セクション種別”メインコンテンツ”に出現する基本文字列に対する重みよりも大きく設定されていることがわかる。
今、ユーザがWebブラウザに表示されているあるWebページへのリンクにマウスカーソルを合わせたとする。
中央演算装置は、ユーザがWebページへのリンクにマウスカーソルを合わせたことを受けて、ユーザにユーザニーズ種別を選択させるためのウィンドウを表示する。例えば、中央演算装置は、ディスプレイ装置を介して、例えば図12に示すように、マウスカーソル付近に、予め定められているユーザニーズ種別の選択項目を含むユーザニーズ選択画面を別途表示させてもよい。
この時、ユーザは、別途表示されたユーザニーズ選択画面から、”ページ周辺情報閲覧”を選択したとする。なお、Webブラウザに表示中のあるWebページへのリンクは、第1の実施例と同様に、図7に示すWebページへのリンクであるとする。
一方で、中央演算装置は、第1の実施例と同様に、名詞の形態素を基本文字列として抽出するとともに、そのWebページに含まれるセクションを抽出して、各セクションの用途種別を判定する。
基本文字列が抽出され、各セクションの用途種別が判定され、また、ユーザニーズ種別が選択されると、中央演算装置は、選択されたユーザニーズ種別に対応するセクション種別毎の重み情報の組を重み情報記憶部31’から選択する。ここでは、ユーザニーズ種別”ページ周辺情報閲覧”が選択されているので、セクション種別”ナビゲーション”に対する重み2.0を示す重み情報、セクション種別”メインコンテンツ”に対する重み0.5を示す重み情報の組が選択される。
次に、中央演算装置は、選択されたセクション種別毎に定義された重み情報を用いて、第1の実施例と同様に、そのWebページに出現する各基本文字列の重要度を示すTF−IDFを計算する。そして、TF−IDFが上位の基本文字列を、そのWebページのユーザニーズに即した特徴語として抽出する。
ここで、ユーザニーズ種別の選択入力を不要とし、全てのユーザニーズ種別に対して特徴語を抽出し、ユーザニーズと対応づけて抽出した特徴語を出力するようにしてもよい。
なお、第1の実施例および第2の実施例では、リンク先のWebページを対象に特徴語を抽出する例を示したが、例えば、Webブラウザに表示中のWebページや、ローカルディスクにファイルとして保存されているWebページを対象にすることも可能である。
また、抽出した特徴語を他の画面領域やウィンドウ(例えば、Webブラウザのステータスバーやファイルのプロパティウィンドウ)に表示させるようにしてもよい。さらに、抽出した特徴語をWebページのメタ情報としてそのWebページのデータとともに別途記憶させるようにしてもよい。
本発明によれば、Webページの特徴語を抽出する情報抽出装置や、情報抽出装置をコンピュータによって実現させるためのプログラムとしても好適に適用可能である。また、特徴語をインデックスにしてWebページを検索するような情報検索装置や、そのためのプログラムといった用途にも適用可能である。
第1の実施の形態による情報抽出システムの構成例を示すブロック図である。 第1の実施の形態による情報抽出システムの動作例を示すフローチャートである。 第2の実施の形態による情報抽出システムの構成例を示すブロック図である。 第2の実施の形態による情報抽出システムの動作例を示すフローチャートである。 第3の実施の形態による情報抽出システムの構成例を示すブロック図である。 重み情報記憶部31に記憶される情報の一例を示す説明図である。 Webページの例を示す説明図である。 図7に示すWebページに対する形態素解析およびレイアウト解析の結果例を示す説明図である。 図7に示すWebページに対し計算される各基本文字列の重要度のリストを示す説明図である。 抽出した特徴語の出力例を示す説明図である。 重み情報記憶部31’に記憶される情報の一例を示す説明図である。 ユーザニーズ種別を取得するためのユーザニーズ選択画面の一例を示す説明図である。
符号の説明
1 入力装置
2 データ処理装置
21 Webページ取得手段
22 基本文字列解析手段
23 レイアウト解析手段
24 セクション種別判定手段
25 基本文字列重要度計算手段
26 特徴語抽出手段
27 ユーザニーズ種別取得手段
28 重み情報選択手段
3 記憶装置
4 出力装置
5 情報抽出用プログラム

Claims (20)

  1. Webページの特徴語を抽出する情報抽出システムであって、
    Webページにおける意味的に関連する情報を掲載している領域の単位であるセクションの種別を判定するセクション判定手段と、
    前記Webページ上に出現する文字列から所定のルールに従って1つの単語として切り出される文字列である基本文字列を、当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算する基本文字列重要度計算手段と、
    前記各基本文字列の重要度に従って、特徴語を抽出する特徴語抽出手段と
    予めユーザがどのような情報を求めてWebページを閲覧するかを種別化したユーザニーズ種別およびセクションの種別毎に、ある基本文字列が1回出現することに対する重みを示す重み情報を記憶する重み情報記憶手段とを備え
    前記基本文字列重要度計算手段は、指定されたユーザニーズ種別と、基本文字列が出現するセクションの種別と、前記重み情報記憶手段に記憶されている重み情報とに基づいて、基本文字列を、指定されたユーザニーズ種別および当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算する
    ことを特徴とする情報抽出システム。
  2. Webページの特徴語を抽出する情報抽出システムであって、
    Webページにおける意味的に関連する情報を掲載している領域の単位であるセクションの種別を判定するセクション判定手段と、
    前記Webページ上に出現する文字列から所定のルールに従って1つの単語として切り出される文字列である基本文字列を、当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算する基本文字列重要度計算手段と、
    前記各基本文字列の重要度に従って、特徴語を抽出する特徴語抽出手段とを備え、
    前記セクション種別判定手段は、セクション内のリンク情報の量に基づいて、セクションの種別を判定する
    ことを特徴とする情報抽出システム。
  3. Webページを解析して、当該Webページ上に出現する基本文字列を抽出する基本文字列解析手段と、
    前記Webページのレイアウトを解析して、当該Webページ上のセクションを抽出するレイアウト解析手段とを備え、
    セクション種別判定手段は、前記レイアウト解析手段によって抽出されたセクションの種別を判定し、
    基本文字列重要度計算手段は、前記基本文字列解析手段によって抽出された基本文字列を、少なくとも前記セクション種別判定手段によって判定された当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算し、
    特徴語抽出手段は、重要度の順位が上位の基本文字列を、特徴語として抽出する
    請求項1または請求項2に記載の情報抽出システム。
  4. 予めセクションの種別毎に、ある基本文字列が1回出現することに対する重みを示す重み情報を記憶する重み情報記憶手段を備え、
    基本文字列重要度計算手段は、基本文字列が出現するセクションの種別と、前記重み情報記憶手段に記憶されている重み情報とに基づいて、基本文字列を、当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算する
    請求項または請求項に記載の情報抽出システム。
  5. 重み情報記憶手段は、予めユーザがどのような情報を求めてWebページを閲覧するかを種別化したユーザニーズ種別およびセクションの種別毎に、重み情報を記憶し、
    基本文字列重要度計算手段は、指定されたユーザニーズ種別と、基本文字列が出現するセクションの種別と、前記重み情報記憶手段に記憶されている重み情報とに基づいて、基本文字列を、指定されたユーザニーズ種別および当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算する
    請求項に記載の情報抽出システム。
  6. 重み情報記憶手段は、見出しまたは見出し以外かにも対応させて重み情報を記憶し、
    基本文字列重要度計算手段は、基本文字列を、前記重み情報記憶手段に記憶されている重み情報に基づいて、基本文字列が当該セクションの見出しに含まれるか否かにも応じて重み付けして、各基本文字列の重要度を計算する
    請求項1、請求項4または請求項に記載の情報抽出システム。
  7. セクションの種別は、セクションの用途種別である
    請求項1から請求項のうちのいずれか1項に記載の情報抽出システム。
  8. セクション種別判定手段は、Webページにおけるセクションの位置を示す情報または大きさを示す情報を含む領域情報に基づいて、セクションの種別を判定する
    請求項1から請求項7のうちのいずれか1項に記載の情報抽出システム。
  9. Webページの特徴語を抽出するための情報抽出方法であって、
    記憶装置に、予めユーザがどのような情報を求めてWebページを閲覧するかを種別化したユーザニーズ種別およびセクションの種別毎に、Webページ上に出現する文字列から所定のルールに従って1つの単語として切り出される文字列である基本文字列が該Webページ上に1回出現することに対する重みを示す重み情報を記憶しておき、
    データ処理装置が、入力装置を介して入力される特徴語の抽出対象となるWebページのページ情報を基に当該Webページのレイアウトを解析し、Webページにおける意味的に関連する情報を掲載している領域の単位であるセクションを抽出し、
    前記データ処理装置が、抽出された各セクションの種別を、前記レイアウト解析の結果得られたセクションの情報に基づいて判定し、
    前記データ処理装置が、前記Webページ上に出現する基本文字列指定されたユーザニーズ種別と、基本文字列が出現するセクションの種別と、記憶されている前記重み情報とに基づいて、指定されたユーザニーズ種別および当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算し、
    前記データ処理装置が、前記各基本文字列の重要度に従って、特徴語を抽出する
    ことを特徴とする情報抽出方法。
  10. Webページの特徴語を抽出するための情報抽出方法であって、
    記憶装置に、予めセクションの種別毎に、ある基本文字列が1回出現することに対する重みを示す重み情報を記憶しておき、
    データ処理装置が、入力装置を介して入力される特徴語の抽出対象となるWebページのページ情報を基に当該Webページのレイアウトを解析し、Webページにおける意味的に関連する情報を掲載している領域の単位であるセクションを抽出し、
    前記データ処理装置が、抽出された各セクションの種別を、該セクション内のリンク情報の量に基づいて判定し、
    前記データ処理装置が、前記Webページ上に出現する基本文字列基本文字列が出現するセクションの種別と、記憶されている前記重み情報とに基づいて、当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算し、
    前記データ処理装置が、前記各基本文字列の重要度に従って、特徴語を抽出する
    ことを特徴とする情報抽出方法。
  11. 記憶装置に、予めユーザがどのような情報を求めてWebページを閲覧するかを種別化したユーザニーズ種別およびセクションの種別毎に重み情報を記憶しておき、
    データ処理装置が、指定されたユーザニーズ種別と、基本文字列が出現するセクションの種別と、記憶されている前記重み情報とに基づいて、抽出された基本文字列を、指定されたユーザニーズ種別および当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算する
    請求項10に記載の情報抽出方法。
  12. 記憶装置に記憶させる重み情報において、見出しまたは見出し以外かにも対応させて、重みを定義しておき、
    データ処理装置が、抽出された基本文字列を、記憶されている前記重み情報に基づいて、基本文字列が当該セクションの見出しに含まれるか否かにも応じて重み付けして、各基本文字列の重要度を計算する
    請求項9から請求項11のうちのいずれか1項に記載の情報抽出方法。
  13. データ処理装置が、セクションの種別として、セクションの用途種別を判定する
    請求項9から請求項12のうちのいずれか1項に記載の情報抽出方法。
  14. Webページの特徴語を抽出するための情報抽出用プログラムであって、
    予めユーザがどのような情報を求めてWebページを閲覧するかを種別化したユーザニーズ種別およびセクションの種別毎に、Webページ上に出現する文字列から所定のルールに従って1つの単語として切り出される文字列である基本文字列が該Webページ上に1回出現することに対する重みを示す重み情報を記憶する重み情報記憶手段を備えたコンピュータに、
    Webページにおける意味的に関連する情報を掲載している領域の単位であるセクションの種別を判定するセクション種別判定処理、
    前記Webページ上に出現する基本文字列を、指定されたユーザニーズ種別と、基本文字列が出現するセクションの種別と、記憶されている前記重み情報とに基づいて、指定されたユーザニーズ種別および当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算する重要度計算処理、および
    前記各基本文字列の重要度に従って、特徴語を抽出する特徴語抽出処理
    を実行させるための情報抽出用プログラム。
  15. Webページの特徴語を抽出するための情報抽出用プログラムであって、
    コンピュータに、
    Webページにおける意味的に関連する情報を掲載している領域の単位であるセクションの種別を、該セクション内のリンク情報の量に基づいて判定するセクション種別判定処理、
    前記Webページ上に出現する文字列から所定のルールに従って1つの単語として切り出される文字列である基本文字列を、当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算する重要度計算処理、および
    前記各基本文字列の重要度に従って、特徴語を抽出する特徴語抽出処理を
    実行させるための情報抽出用プログラム。
  16. 予めセクションの種別毎に、ある基本文字列が1回出現することに対する重みを示す重み情報を記憶する重み情報記憶手段を備えたコンピュータに、
    重要度計算処理で、基本文字列が出現するセクションの種別と、前記重み情報記憶手段に記憶されている重み情報とに基づいて、基本文字列を、当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算させる
    請求項15に記載の情報抽出用プログラム。
  17. 予めユーザがどのような情報を求めてWebページを閲覧するかを種別化したユーザニーズ種別およびセクションの種別毎に、重み情報を記憶する重み情報記憶手段を備えたコンピュータに、
    重要度計算処理で、指定されたユーザニーズ種別と、基本文字列が出現するセクションの種別と、前記重み情報記憶手段に記憶されている重み情報とに基づいて、基本文字列を、指定されたユーザニーズ種別および当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算させる
    請求項15に記載の情報抽出用プログラム。
  18. 見出しまたは見出し以外かにも対応させて重み情報を記憶している重み情報記憶手段を備えたコンピュータに、
    重要度計算処理で、基本文字列を、前記重み情報記憶手段に記憶されている重み情報に基づいて、基本文字列が当該セクションの見出しに含まれるか否かにも応じて重み付けして、各基本文字列の重要度を計算させる
    請求項14、請求項16または請求項17に記載の情報抽出用プログラム。
  19. コンピュータに、
    Webページを解析して、当該Webページ上に出現する基本文字列を抽出する基本文字列解析処理、および
    前記Webページのレイアウトを解析して、当該Webページ上のレイアウト解析処理を実行させ、
    セクション種別判定処理で、前記抽出されたセクションの種別を判定させ、
    重要度計算処理で、前記抽出された基本文字列をみ付けして、各基本文字列の重要度を計算させ、
    特徴語抽出処理で、重要度の順位が上位の基本文字列を、特徴語として抽出させる
    請求項14から請求項18のうちのいずれか1項に記載の情報抽出用プログラム。
  20. コンピュータに、
    セクション種別判定処理で、セクションの用途種別を判定させる
    請求項14から請求項19のいずれか1項に記載の情報抽出用プログラム。
JP2007106445A 2007-04-13 2007-04-13 情報抽出システム、情報抽出方法および情報抽出用プログラム Expired - Fee Related JP5056133B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007106445A JP5056133B2 (ja) 2007-04-13 2007-04-13 情報抽出システム、情報抽出方法および情報抽出用プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007106445A JP5056133B2 (ja) 2007-04-13 2007-04-13 情報抽出システム、情報抽出方法および情報抽出用プログラム

Publications (2)

Publication Number Publication Date
JP2008262506A JP2008262506A (ja) 2008-10-30
JP5056133B2 true JP5056133B2 (ja) 2012-10-24

Family

ID=39984915

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007106445A Expired - Fee Related JP5056133B2 (ja) 2007-04-13 2007-04-13 情報抽出システム、情報抽出方法および情報抽出用プログラム

Country Status (1)

Country Link
JP (1) JP5056133B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5380040B2 (ja) * 2008-10-30 2014-01-08 株式会社日立ソリューションズ 文書処理装置
US8880498B2 (en) * 2008-12-31 2014-11-04 Fornova Ltd. System and method for aggregating and ranking data from a plurality of web sites
JP5513860B2 (ja) * 2009-11-26 2014-06-04 株式会社Nttドコモ 文書装飾支援システムおよび文書装飾支援方法
JP5362651B2 (ja) * 2010-06-07 2013-12-11 日本電信電話株式会社 重要語句抽出装置及び方法及びプログラム
JP5345987B2 (ja) * 2010-08-18 2013-11-20 日本電信電話株式会社 文書検索装置、文書検索方法および文書検索プログラム
CN103324633A (zh) * 2012-03-22 2013-09-25 阿里巴巴集团控股有限公司 一种信息发布方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004005761A (ja) * 2003-09-29 2004-01-08 Fujitsu Ltd キーワード抽出・検索装置
JP2006277169A (ja) * 2005-03-29 2006-10-12 Seiko Epson Corp 画像データの管理

Also Published As

Publication number Publication date
JP2008262506A (ja) 2008-10-30

Similar Documents

Publication Publication Date Title
US10796076B2 (en) Method and system for providing suggested tags associated with a target web page for manipulation by a useroptimal rendering engine
JP4814575B2 (ja) 小型スクリーンコンピューティング装置にコンテンツを表示するシステムと方法
US9015175B2 (en) Method and system for filtering an information resource displayed with an electronic device
US7793209B2 (en) Electronic apparatus with a web page browsing function
US20080235563A1 (en) Document displaying apparatus, document displaying method, and computer program product
JP5161658B2 (ja) キーワード入力支援装置、キーワード入力支援方法及びプログラム
US10650186B2 (en) Device, system and method for displaying sectioned documents
WO2015047920A1 (en) Title and body extraction from web page
KR101103766B1 (ko) 태그 정보를 이용하여 사용자 취향정보를 수집하는 단말기기, 그 방법 및 기록매체
US20140101141A1 (en) Information provision system, information provision system control method, information provision device, program, and information recording medium
JP5056133B2 (ja) 情報抽出システム、情報抽出方法および情報抽出用プログラム
US7725487B2 (en) Content synchronization system and method of similar web pages
Ahmadi et al. User-centric adaptation of Web information for small screens
TWI457775B (zh) 網址分類管理方法及使用該方法之電子裝置
KR20060095572A (ko) 검색 결과들의 스크린―식 제시
JP5109759B2 (ja) 情報処理装置およびその制御プログラム
JP4883644B2 (ja) リコメンド装置、リコメンドシステム、リコメンド装置の制御方法、およびリコメンドシステムの制御方法
JP2007279978A (ja) 文書検索装置及び文書検索方法
JP2012212191A (ja) 情報処理装置及び情報処理方法
JP5513929B2 (ja) 経験情報の再利用性評価装置及び方法及びプログラム
Leporini Google news: how user-friendly is it for the blind?
Wei et al. Assisted human-in-the-loop adaptation of Web pages for mobile devices
KR101078966B1 (ko) 문서 분석 시스템
JP2005071164A (ja) ブックマーク管理方法
JP6200392B2 (ja) 情報提示装置および情報提示プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100316

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120403

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120530

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120703

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120716

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150810

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5056133

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees