JP5056133B2 - 情報抽出システム、情報抽出方法および情報抽出用プログラム - Google Patents
情報抽出システム、情報抽出方法および情報抽出用プログラム Download PDFInfo
- Publication number
- JP5056133B2 JP5056133B2 JP2007106445A JP2007106445A JP5056133B2 JP 5056133 B2 JP5056133 B2 JP 5056133B2 JP 2007106445 A JP2007106445 A JP 2007106445A JP 2007106445 A JP2007106445 A JP 2007106445A JP 5056133 B2 JP5056133 B2 JP 5056133B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- section
- type
- basic character
- web page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
また、本発明による情報抽出システムは、Webページの特徴語を抽出する情報抽出システムであって、Webページにおける意味的に関連する情報を掲載している領域の単位であるセクションの種別を判定するセクション判定手段(例えば、セクション種別判定手段24)と、Webページ上に出現する文字列から所定のルールに従って1つの単語として切り出される文字列である基本文字列を、当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算する基本文字列重要度計算手段(例えば、基本文字列重要度計算手段25)と、各基本文字列の重要度に従って、特徴語を抽出する特徴語抽出手段(例えば、特徴語抽出手段26)とを備え、セクション種別判定手段は、セクション内のリンク情報の量に基づいて、セクションの種別を判定してもよい。
また、本発明による情報抽出方法は、記憶装置に、予めセクションの種別毎に、ある基本文字列が1回出現することに対する重みを示す重み情報を記憶しておき、データ処理装置が、入力装置を介して入力される特徴語の抽出対象となるWebページのページ情報を基に当該Webページのレイアウトを解析し、Webページにおける意味的に関連する情報を掲載している領域の単位であるセクションを抽出し、前記データ処理装置が、抽出された各セクションの種別を、該セクション内のリンク情報の量に基づいて判定し、前記データ処理装置が、前記Webページ上に出現する基本文字列を、基本文字列が出現するセクションの種別と、記憶されている前記重み情報とに基づいて、当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算し、前記データ処理装置が、前記各基本文字列の重要度に従って、特徴語を抽出してもよい。
また、本発明による情報抽出用プログラムは、コンピュータに、Webページにおける意味的に関連する情報を掲載している領域の単位であるセクションの種別を、該セクション内のリンク情報の量に基づいて判定するセクション種別判定処理、前記Webページ上に出現する文字列から所定のルールに従って1つの単語として切り出される文字列である基本文字列を、当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算する重要度計算処理、および前記各基本文字列の重要度に従って、特徴語を抽出する特徴語抽出処理を実行させてもよい。
図1は、本発明の第1の実施の形態による情報抽出システムの構成例を示すブロック図である。図1に示すように、本情報抽出システムは、入力装置1と、プログラム制御により動作するデータ処理装置2と、データを記憶する記憶装置3と、出力装置4とを備える。また、データ処理装置2は、Webページ取得手段21と、基本文字列解析手段22と、レイアウト解析手段23と、セクション種別判定手段24と、基本文字列重要度計算手段25と、特徴語抽出手段26とを含む。また、記憶装置3は、重み情報記憶部31を含む。
次に、本発明の第2の実施の形態について図面を参照して説明する。図3は、本発明の第2の実施の形態による情報抽出システムの構成例を示すブロック図である。図3に示すように、本情報抽出システムは、入力装置1と、プログラム制御により動作するデータ処理装置2と、データを記憶する記憶装置3と、出力装置4とを備える。また、データ処理装置2は、Webページ取得手段21と、基本文字列解析手段22と、レイアウト解析手段23と、セクション種別判定手段24と、基本文字列重要度計算手段25’と、特徴語抽出手段26と、ユーザニーズ種別取得手段27と、重み情報選択手段28とを含む。また、記憶装置3は、重み情報記憶部31’を含む。なお、本実施の形態による情報抽出システムは、図1に示す第1の実施の形態と比べて、ユーザニーズ種別取得手段27および重み情報選択手段28を備える点で異なる。また、基本文字列重要度計算手段25の動作、および重み情報記憶部31が記憶する情報が異なる。
次に、本発明の第3の実施の形態について図面を参照して説明する。図5は、本発明の第3の実施の形態による情報抽出システムの構成例を示すブロック図である。図5に示すように、本情報抽出システムは、第1および第2の実施の形態と同様に、入力装置1、データ処理装置2、記憶装置3、出力装置4を備え、さらに、データ処理装置2に読み込まれデータ処理装置2の動作を制御して、第1または第2の実施の形態におけるデータ処理装置2と同様の処理を実行させるための情報抽出用プログラム5を備える。
2 データ処理装置
21 Webページ取得手段
22 基本文字列解析手段
23 レイアウト解析手段
24 セクション種別判定手段
25 基本文字列重要度計算手段
26 特徴語抽出手段
27 ユーザニーズ種別取得手段
28 重み情報選択手段
3 記憶装置
4 出力装置
5 情報抽出用プログラム
Claims (20)
- Webページの特徴語を抽出する情報抽出システムであって、
Webページにおける意味的に関連する情報を掲載している領域の単位であるセクションの種別を判定するセクション判定手段と、
前記Webページ上に出現する文字列から所定のルールに従って1つの単語として切り出される文字列である基本文字列を、当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算する基本文字列重要度計算手段と、
前記各基本文字列の重要度に従って、特徴語を抽出する特徴語抽出手段と、
予めユーザがどのような情報を求めてWebページを閲覧するかを種別化したユーザニーズ種別およびセクションの種別毎に、ある基本文字列が1回出現することに対する重みを示す重み情報を記憶する重み情報記憶手段とを備え、
前記基本文字列重要度計算手段は、指定されたユーザニーズ種別と、基本文字列が出現するセクションの種別と、前記重み情報記憶手段に記憶されている重み情報とに基づいて、基本文字列を、指定されたユーザニーズ種別および当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算する
ことを特徴とする情報抽出システム。 - Webページの特徴語を抽出する情報抽出システムであって、
Webページにおける意味的に関連する情報を掲載している領域の単位であるセクションの種別を判定するセクション判定手段と、
前記Webページ上に出現する文字列から所定のルールに従って1つの単語として切り出される文字列である基本文字列を、当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算する基本文字列重要度計算手段と、
前記各基本文字列の重要度に従って、特徴語を抽出する特徴語抽出手段とを備え、
前記セクション種別判定手段は、セクション内のリンク情報の量に基づいて、セクションの種別を判定する
ことを特徴とする情報抽出システム。 - Webページを解析して、当該Webページ上に出現する基本文字列を抽出する基本文字列解析手段と、
前記Webページのレイアウトを解析して、当該Webページ上のセクションを抽出するレイアウト解析手段とを備え、
セクション種別判定手段は、前記レイアウト解析手段によって抽出されたセクションの種別を判定し、
基本文字列重要度計算手段は、前記基本文字列解析手段によって抽出された基本文字列を、少なくとも前記セクション種別判定手段によって判定された当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算し、
特徴語抽出手段は、重要度の順位が上位の基本文字列を、特徴語として抽出する
請求項1または請求項2に記載の情報抽出システム。 - 予めセクションの種別毎に、ある基本文字列が1回出現することに対する重みを示す重み情報を記憶する重み情報記憶手段を備え、
基本文字列重要度計算手段は、基本文字列が出現するセクションの種別と、前記重み情報記憶手段に記憶されている重み情報とに基づいて、基本文字列を、当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算する
請求項2または請求項3に記載の情報抽出システム。 - 重み情報記憶手段は、予めユーザがどのような情報を求めてWebページを閲覧するかを種別化したユーザニーズ種別およびセクションの種別毎に、重み情報を記憶し、
基本文字列重要度計算手段は、指定されたユーザニーズ種別と、基本文字列が出現するセクションの種別と、前記重み情報記憶手段に記憶されている重み情報とに基づいて、基本文字列を、指定されたユーザニーズ種別および当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算する
請求項4に記載の情報抽出システム。 - 重み情報記憶手段は、見出しまたは見出し以外かにも対応させて重み情報を記憶し、
基本文字列重要度計算手段は、基本文字列を、前記重み情報記憶手段に記憶されている重み情報に基づいて、基本文字列が当該セクションの見出しに含まれるか否かにも応じて重み付けして、各基本文字列の重要度を計算する
請求項1、請求項4または請求項5に記載の情報抽出システム。 - セクションの種別は、セクションの用途種別である
請求項1から請求項6のうちのいずれか1項に記載の情報抽出システム。 - セクション種別判定手段は、Webページにおけるセクションの位置を示す情報または大きさを示す情報を含む領域情報に基づいて、セクションの種別を判定する
請求項1から請求項7のうちのいずれか1項に記載の情報抽出システム。 - Webページの特徴語を抽出するための情報抽出方法であって、
記憶装置に、予めユーザがどのような情報を求めてWebページを閲覧するかを種別化したユーザニーズ種別およびセクションの種別毎に、Webページ上に出現する文字列から所定のルールに従って1つの単語として切り出される文字列である基本文字列が該Webページ上に1回出現することに対する重みを示す重み情報を記憶しておき、
データ処理装置が、入力装置を介して入力される特徴語の抽出対象となるWebページのページ情報を基に当該Webページのレイアウトを解析し、Webページにおける意味的に関連する情報を掲載している領域の単位であるセクションを抽出し、
前記データ処理装置が、抽出された各セクションの種別を、前記レイアウト解析の結果得られたセクションの情報に基づいて判定し、
前記データ処理装置が、前記Webページ上に出現する基本文字列を、指定されたユーザニーズ種別と、基本文字列が出現するセクションの種別と、記憶されている前記重み情報とに基づいて、指定されたユーザニーズ種別および当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算し、
前記データ処理装置が、前記各基本文字列の重要度に従って、特徴語を抽出する
ことを特徴とする情報抽出方法。 - Webページの特徴語を抽出するための情報抽出方法であって、
記憶装置に、予めセクションの種別毎に、ある基本文字列が1回出現することに対する重みを示す重み情報を記憶しておき、
データ処理装置が、入力装置を介して入力される特徴語の抽出対象となるWebページのページ情報を基に当該Webページのレイアウトを解析し、Webページにおける意味的に関連する情報を掲載している領域の単位であるセクションを抽出し、
前記データ処理装置が、抽出された各セクションの種別を、該セクション内のリンク情報の量に基づいて判定し、
前記データ処理装置が、前記Webページ上に出現する基本文字列を、基本文字列が出現するセクションの種別と、記憶されている前記重み情報とに基づいて、当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算し、
前記データ処理装置が、前記各基本文字列の重要度に従って、特徴語を抽出する
ことを特徴とする情報抽出方法。 - 記憶装置に、予めユーザがどのような情報を求めてWebページを閲覧するかを種別化したユーザニーズ種別およびセクションの種別毎に、重み情報を記憶しておき、
データ処理装置が、指定されたユーザニーズ種別と、基本文字列が出現するセクションの種別と、記憶されている前記重み情報とに基づいて、抽出された基本文字列を、指定されたユーザニーズ種別および当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算する
請求項10に記載の情報抽出方法。 - 記憶装置に記憶させる重み情報において、見出しまたは見出し以外かにも対応させて、重みを定義しておき、
データ処理装置が、抽出された基本文字列を、記憶されている前記重み情報に基づいて、基本文字列が当該セクションの見出しに含まれるか否かにも応じて重み付けして、各基本文字列の重要度を計算する
請求項9から請求項11のうちのいずれか1項に記載の情報抽出方法。 - データ処理装置が、セクションの種別として、セクションの用途種別を判定する
請求項9から請求項12のうちのいずれか1項に記載の情報抽出方法。 - Webページの特徴語を抽出するための情報抽出用プログラムであって、
予めユーザがどのような情報を求めてWebページを閲覧するかを種別化したユーザニーズ種別およびセクションの種別毎に、Webページ上に出現する文字列から所定のルールに従って1つの単語として切り出される文字列である基本文字列が該Webページ上に1回出現することに対する重みを示す重み情報を記憶する重み情報記憶手段を備えたコンピュータに、
Webページにおける意味的に関連する情報を掲載している領域の単位であるセクションの種別を判定するセクション種別判定処理、
前記Webページ上に出現する基本文字列を、指定されたユーザニーズ種別と、基本文字列が出現するセクションの種別と、記憶されている前記重み情報とに基づいて、指定されたユーザニーズ種別および当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算する重要度計算処理、および
前記各基本文字列の重要度に従って、特徴語を抽出する特徴語抽出処理
を実行させるための情報抽出用プログラム。 - Webページの特徴語を抽出するための情報抽出用プログラムであって、
コンピュータに、
Webページにおける意味的に関連する情報を掲載している領域の単位であるセクションの種別を、該セクション内のリンク情報の量に基づいて判定するセクション種別判定処理、
前記Webページ上に出現する文字列から所定のルールに従って1つの単語として切り出される文字列である基本文字列を、当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算する重要度計算処理、および
前記各基本文字列の重要度に従って、特徴語を抽出する特徴語抽出処理を
実行させるための情報抽出用プログラム。 - 予めセクションの種別毎に、ある基本文字列が1回出現することに対する重みを示す重み情報を記憶する重み情報記憶手段を備えたコンピュータに、
重要度計算処理で、基本文字列が出現するセクションの種別と、前記重み情報記憶手段に記憶されている重み情報とに基づいて、基本文字列を、当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算させる
請求項15に記載の情報抽出用プログラム。 - 予めユーザがどのような情報を求めてWebページを閲覧するかを種別化したユーザニーズ種別およびセクションの種別毎に、重み情報を記憶する重み情報記憶手段を備えたコンピュータに、
重要度計算処理で、指定されたユーザニーズ種別と、基本文字列が出現するセクションの種別と、前記重み情報記憶手段に記憶されている重み情報とに基づいて、基本文字列を、指定されたユーザニーズ種別および当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算させる
請求項15に記載の情報抽出用プログラム。 - 見出しまたは見出し以外かにも対応させて重み情報を記憶している重み情報記憶手段を備えたコンピュータに、
重要度計算処理で、基本文字列を、前記重み情報記憶手段に記憶されている重み情報に基づいて、基本文字列が当該セクションの見出しに含まれるか否かにも応じて重み付けして、各基本文字列の重要度を計算させる
請求項14、請求項16または請求項17に記載の情報抽出用プログラム。 - コンピュータに、
Webページを解析して、当該Webページ上に出現する基本文字列を抽出する基本文字列解析処理、および
前記Webページのレイアウトを解析して、当該Webページ上のレイアウト解析処理を実行させ、
セクション種別判定処理で、前記抽出されたセクションの種別を判定させ、
重要度計算処理で、前記抽出された基本文字列を重み付けして、各基本文字列の重要度を計算させ、
特徴語抽出処理で、重要度の順位が上位の基本文字列を、特徴語として抽出させる
請求項14から請求項18のうちのいずれか1項に記載の情報抽出用プログラム。 - コンピュータに、
セクション種別判定処理で、セクションの用途種別を判定させる
請求項14から請求項19のいずれか1項に記載の情報抽出用プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007106445A JP5056133B2 (ja) | 2007-04-13 | 2007-04-13 | 情報抽出システム、情報抽出方法および情報抽出用プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007106445A JP5056133B2 (ja) | 2007-04-13 | 2007-04-13 | 情報抽出システム、情報抽出方法および情報抽出用プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008262506A JP2008262506A (ja) | 2008-10-30 |
JP5056133B2 true JP5056133B2 (ja) | 2012-10-24 |
Family
ID=39984915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007106445A Expired - Fee Related JP5056133B2 (ja) | 2007-04-13 | 2007-04-13 | 情報抽出システム、情報抽出方法および情報抽出用プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5056133B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5380040B2 (ja) * | 2008-10-30 | 2014-01-08 | 株式会社日立ソリューションズ | 文書処理装置 |
US8880498B2 (en) * | 2008-12-31 | 2014-11-04 | Fornova Ltd. | System and method for aggregating and ranking data from a plurality of web sites |
JP5513860B2 (ja) * | 2009-11-26 | 2014-06-04 | 株式会社Nttドコモ | 文書装飾支援システムおよび文書装飾支援方法 |
JP5362651B2 (ja) * | 2010-06-07 | 2013-12-11 | 日本電信電話株式会社 | 重要語句抽出装置及び方法及びプログラム |
JP5345987B2 (ja) * | 2010-08-18 | 2013-11-20 | 日本電信電話株式会社 | 文書検索装置、文書検索方法および文書検索プログラム |
CN103324633A (zh) * | 2012-03-22 | 2013-09-25 | 阿里巴巴集团控股有限公司 | 一种信息发布方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004005761A (ja) * | 2003-09-29 | 2004-01-08 | Fujitsu Ltd | キーワード抽出・検索装置 |
JP2006277169A (ja) * | 2005-03-29 | 2006-10-12 | Seiko Epson Corp | 画像データの管理 |
-
2007
- 2007-04-13 JP JP2007106445A patent/JP5056133B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008262506A (ja) | 2008-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10796076B2 (en) | Method and system for providing suggested tags associated with a target web page for manipulation by a useroptimal rendering engine | |
JP4814575B2 (ja) | 小型スクリーンコンピューティング装置にコンテンツを表示するシステムと方法 | |
US9015175B2 (en) | Method and system for filtering an information resource displayed with an electronic device | |
US7793209B2 (en) | Electronic apparatus with a web page browsing function | |
US20080235563A1 (en) | Document displaying apparatus, document displaying method, and computer program product | |
JP5161658B2 (ja) | キーワード入力支援装置、キーワード入力支援方法及びプログラム | |
US10650186B2 (en) | Device, system and method for displaying sectioned documents | |
WO2015047920A1 (en) | Title and body extraction from web page | |
KR101103766B1 (ko) | 태그 정보를 이용하여 사용자 취향정보를 수집하는 단말기기, 그 방법 및 기록매체 | |
US20140101141A1 (en) | Information provision system, information provision system control method, information provision device, program, and information recording medium | |
JP5056133B2 (ja) | 情報抽出システム、情報抽出方法および情報抽出用プログラム | |
US7725487B2 (en) | Content synchronization system and method of similar web pages | |
Ahmadi et al. | User-centric adaptation of Web information for small screens | |
TWI457775B (zh) | 網址分類管理方法及使用該方法之電子裝置 | |
KR20060095572A (ko) | 검색 결과들의 스크린―식 제시 | |
JP5109759B2 (ja) | 情報処理装置およびその制御プログラム | |
JP4883644B2 (ja) | リコメンド装置、リコメンドシステム、リコメンド装置の制御方法、およびリコメンドシステムの制御方法 | |
JP2007279978A (ja) | 文書検索装置及び文書検索方法 | |
JP2012212191A (ja) | 情報処理装置及び情報処理方法 | |
JP5513929B2 (ja) | 経験情報の再利用性評価装置及び方法及びプログラム | |
Leporini | Google news: how user-friendly is it for the blind? | |
Wei et al. | Assisted human-in-the-loop adaptation of Web pages for mobile devices | |
KR101078966B1 (ko) | 문서 분석 시스템 | |
JP2005071164A (ja) | ブックマーク管理方法 | |
JP6200392B2 (ja) | 情報提示装置および情報提示プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100316 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120403 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120530 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120703 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120716 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150810 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5056133 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |