JP2008262506A - 情報抽出システム、情報抽出方法および情報抽出用プログラム - Google Patents
情報抽出システム、情報抽出方法および情報抽出用プログラム Download PDFInfo
- Publication number
- JP2008262506A JP2008262506A JP2007106445A JP2007106445A JP2008262506A JP 2008262506 A JP2008262506 A JP 2008262506A JP 2007106445 A JP2007106445 A JP 2007106445A JP 2007106445 A JP2007106445 A JP 2007106445A JP 2008262506 A JP2008262506 A JP 2008262506A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- basic character
- section
- type
- web page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】基本文字列解析手段22は、Webページ上に表示される基本文字列を抽出する。レイアウト解析手段23は、Webページのレイアウトを解析して、そのWebページに含まれるセクションを抽出する。セクション種別判定手段24は、抽出された各セクションの用途種別を判定する。基本文字列重要度計算手段25は、抽出された各基本文字列に対し、その基本文字列が出現するセクションの用途種別に応じた重み付けをして重要度を計算する。特徴語抽出手段26は、重要度が上位の基本文字列を特徴語として抽出する。なお、Webページに対するユーザのニーズを種別化したユーザニーズ種別に対応するセクションの用途種別毎の重みを記憶しておき、指定されるユーザニーズ種別に対応するセクションの用途種別毎の重みを用いて、重要度を計算してもよい。
【選択図】図1
Description
請求項9から請求項11のいずれか1項に記載の情報抽出方法。
基本文字列を、重み情報に基づいて、基本文字列が当該セクションの見出しに含まれるか否かにも応じて重み付けして、各基本文字列の重要度を計算してもよい。
図1は、本発明の第1の実施の形態による情報抽出システムの構成例を示すブロック図である。図1に示すように、本情報抽出システムは、入力装置1と、プログラム制御により動作するデータ処理装置2と、データを記憶する記憶装置3と、出力装置4とを備える。また、データ処理装置2は、Webページ取得手段21と、基本文字列解析手段22と、レイアウト解析手段23と、セクション種別判定手段24と、基本文字列重要度計算手段25と、特徴語抽出手段26とを含む。また、記憶装置3は、重み情報記憶部31を含む。
次に、本発明の第2の実施の形態について図面を参照して説明する。図3は、本発明の第2の実施の形態による情報抽出システムの構成例を示すブロック図である。図3に示すように、本情報抽出システムは、入力装置1と、プログラム制御により動作するデータ処理装置2と、データを記憶する記憶装置3と、出力装置4とを備える。また、データ処理装置2は、Webページ取得手段21と、基本文字列解析手段22と、レイアウト解析手段23と、セクション種別判定手段24と、基本文字列重要度計算手段25’と、特徴語抽出手段26と、ユーザニーズ種別取得手段27と、重み情報選択手段28とを含む。また、記憶装置3は、重み情報記憶部31’を含む。なお、本実施の形態による情報抽出システムは、図1に示す第1の実施の形態と比べて、ユーザニーズ種別取得手段27および重み情報選択手段28を備える点で異なる。また、基本文字列重要度計算手段25の動作、および重み情報記憶部31が記憶する情報が異なる。
次に、本発明の第3の実施の形態について図面を参照して説明する。図5は、本発明の第3の実施の形態による情報抽出システムの構成例を示すブロック図である。図5に示すように、本情報抽出システムは、第1および第2の実施の形態と同様に、入力装置1、データ処理装置2、記憶装置3、出力装置4を備え、さらに、データ処理装置2に読み込まれデータ処理装置2の動作を制御して、第1または第2の実施の形態におけるデータ処理装置2と同様の処理を実行させるための情報抽出用プログラム5を備える。
2 データ処理装置
21 Webページ取得手段
22 基本文字列解析手段
23 レイアウト解析手段
24 セクション種別判定手段
25 基本文字列重要度計算手段
26 特徴語抽出手段
27 ユーザニーズ種別取得手段
28 重み情報選択手段
3 記憶装置
4 出力装置
5 情報抽出用プログラム
Claims (20)
- Webページの特徴語を抽出する情報抽出システムであって、
Webページにおける意味的に関連する情報を掲載している領域の単位であるセクションの種別を判定するセクション判定手段と、
前記Webページ上に出現する文字列から所定のルールに従って1つの単語として切り出される文字列である基本文字列を、当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算する基本文字列重要度計算手段と、
前記各基本文字列の重要度に従って、特徴語を抽出する特徴語抽出手段とを備えた
ことを特徴とする情報抽出システム。 - Webページを解析して、当該Webページ上に出現する基本文字列を抽出する基本文字列解析手段と、
前記Webページのレイアウトを解析して、当該Webページ上のセクションを抽出するレイアウト解析手段とを備え、
セクション種別判定手段は、前記レイアウト解析手段によって抽出されたセクションの種別を判定し、
基本文字列重要度計算手段は、前記基本文字列解析手段によって抽出された基本文字列を、前記セクション種別判定手段によって判定された当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算し、
特徴語抽出手段は、重要度の順位が上位の基本文字列を、特徴語として抽出する
請求項1に記載の情報抽出システム。 - 予めセクションの種別毎に、ある基本文字列が1回出現することに対する重みを示す重み情報を記憶する重み情報記憶手段を備え、
基本文字列重要度計算手段は、基本文字列が出現するセクションの種別と、前記重み情報記憶手段に記憶されている重み情報とに基づいて、基本文字列を、当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算する
請求項1または請求項2に記載の情報抽出システム。 - 重み情報記憶手段は、予めユーザがどのような情報を求めてWebページを閲覧するかを種別化したユーザニーズ種別およびセクションの種別毎に、重み情報を記憶し、
基本文字列重要度計算手段は、指定されたユーザニーズ種別と、基本文字列が出現するセクションの種別と、前記重み情報記憶手段に記憶されている重み情報とに基づいて、基本文字列を、指定されたユーザニーズ種別および当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算する
請求項3に記載の情報抽出システム。 - 重み情報記憶手段は、見出しまたは見出し以外かにも対応させて重み情報を記憶し、
基本文字列重要度計算手段は、基本文字列を、前記重み情報記憶手段に記憶されている重み情報に基づいて、基本文字列が当該セクションの見出しに含まれるか否かにも応じて重み付けして、各基本文字列の重要度を計算する
請求項3または請求項4に記載の情報抽出システム。 - セクションの種別は、セクションの用途種別である
請求項1から請求項5のうちのいずれか1項に記載の情報抽出システム。 - セクション種別判定手段は、セクション内のリンク情報の量に基づいて、セクションの種別を判定する
請求項1から請求項6のうちのいずれか1項に記載の情報抽出システム。 - セクション種別判定手段は、Webページにおけるセクションの位置を示す情報または大きさを示す情報を含む領域情報に基づいて、セクションの種別を判定する
請求項1から請求項7のうちのいずれか1項に記載の情報抽出システム。 - Webページの特徴語を抽出するための情報抽出方法であって、
Webページにおける意味的に関連する情報を掲載している領域の単位であるセクションの種別を判定し、
前記Webページ上に出現する文字列から所定のルールに従って1つの単語として切り出される文字列である基本文字列を、当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算し、
前記各基本文字列の重要度に従って、特徴語を抽出する
ことを特徴とする情報抽出方法。 - Webページを解析して、当該Webページ上に出現する基本文字列を抽出し、
前記Webページのレイアウトを解析して、当該Webページ上のセクションを抽出し、
抽出された前記セクションの種別を判定し、
抽出された基本文字列を、前記判定された当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算し、
重要度の順位が上位の基本文字列を、特徴語として抽出する
請求項9に記載の情報抽出方法。 - 基本文字列が出現するセクションの種別と、予めセクションの種別毎に定義されている、ある基本文字列が1回出現することに対する重みを示す重み情報とに基づいて、基本文字列を、当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算する
請求項9または請求項10に記載の情報抽出方法。 - 指定されたユーザニーズ種別と、基本文字列が出現するセクションの種別と、予めユーザがどのような情報を求めてWebページを閲覧するかを種別化したユーザニーズ種別およびセクションの種別毎に定義されている重み情報とに基づいて、基本文字列を、指定されたユーザニーズ種別および当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算する
請求項9から請求項11のいずれか1項に記載の情報抽出方法。 - 見出しまたは見出し以外かにも対応させて重み情報を定義し、
基本文字列を、前記重み情報に基づいて、基本文字列が当該セクションの見出しに含まれるか否かにも応じて重み付けして、各基本文字列の重要度を計算する
請求項11または請求項12に記載の情報抽出方法。 - セクションの種別として、セクションの用途種別を判定する
請求項9から請求項13のうちのいずれか1項に記載の情報抽出方法。 - Webページの特徴語を抽出するための情報抽出用プログラムであって、
コンピュータに、
Webページにおける意味的に関連する情報を掲載している領域の単位であるセクションの種別を判定するセクション種別判定処理、
前記Webページ上に出現する文字列から所定のルールに従って1つの単語として切り出される文字列である基本文字列を、当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算する重要度計算処理、および
前記各基本文字列の重要度に従って、特徴語を抽出する特徴語抽出処理を
実行させるための情報抽出用プログラム。 - コンピュータに、
Webページを解析して、当該Webページ上に出現する基本文字列を抽出する基本文字列解析処理、および
前記Webページのレイアウトを解析して、当該Webページ上のレイアウト解析処理を実行させ、
セクション種別判定処理で、前記抽出されたセクションの種別を判定させ、
重要度計算処理で、前記抽出された基本文字列を、前記判定された当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算させ、
特徴語抽出処理で、重要度の順位が上位の基本文字列を、特徴語として抽出させる
請求項15に記載の情報抽出用プログラム。 - 予めセクションの種別毎に、ある基本文字列が1回出現することに対する重みを示す重み情報を記憶する重み情報記憶手段を備えたコンピュータに、
重要度計算処理で、基本文字列が出現するセクションの種別と、前記重み情報記憶手段に記憶されている重み情報とに基づいて、基本文字列を、当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算させる
請求項15または請求項16に記載の情報抽出用プログラム。 - 予めユーザがどのような情報を求めてWebページを閲覧するかを種別化したユーザニーズ種別およびセクションの種別毎に、重み情報を記憶する重み情報記憶手段を備えたコンピュータに、
重要度計算処理で、指定されたユーザニーズ種別と、基本文字列が出現するセクションの種別と、前記重み情報記憶手段に記憶されている重み情報とに基づいて、基本文字列を、指定されたユーザニーズ種別および当該基本文字列が出現するセクションの種別に応じて重み付けして、各基本文字列の重要度を計算させる
請求項15または請求項16に記載の情報抽出用プログラム。 - 見出しまたは見出し以外かにも対応させて重み情報を記憶している重み情報記憶手段を備えたコンピュータに、
重要度計算処理で、基本文字列を、前記重み情報記憶手段に記憶されている重み情報に基づいて、基本文字列が当該セクションの見出しに含まれるか否かにも応じて重み付けして、各基本文字列の重要度を計算させる
請求項17または請求項18に記載の情報抽出用プログラム。 - コンピュータに、
セクション種別判定処理で、セクションの用途種別を判定させる
請求項15から請求項19のいずれか1項に記載の情報抽出用プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007106445A JP5056133B2 (ja) | 2007-04-13 | 2007-04-13 | 情報抽出システム、情報抽出方法および情報抽出用プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007106445A JP5056133B2 (ja) | 2007-04-13 | 2007-04-13 | 情報抽出システム、情報抽出方法および情報抽出用プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008262506A true JP2008262506A (ja) | 2008-10-30 |
JP5056133B2 JP5056133B2 (ja) | 2012-10-24 |
Family
ID=39984915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007106445A Expired - Fee Related JP5056133B2 (ja) | 2007-04-13 | 2007-04-13 | 情報抽出システム、情報抽出方法および情報抽出用プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5056133B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010108208A (ja) * | 2008-10-30 | 2010-05-13 | Hitachi Software Eng Co Ltd | 文書処理装置 |
JP2011113289A (ja) * | 2009-11-26 | 2011-06-09 | Ntt Docomo Inc | 文書装飾支援システムおよび文書装飾支援方法 |
JP2011257878A (ja) * | 2010-06-07 | 2011-12-22 | Nippon Telegr & Teleph Corp <Ntt> | 重要語句抽出装置及び方法及びプログラム |
JP2012043115A (ja) * | 2010-08-18 | 2012-03-01 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索装置、文書検索方法および文書検索プログラム |
JP2013515977A (ja) * | 2008-12-31 | 2013-05-09 | フォルノヴァ リミテッド | 複数のウェブサイトからデータを収集及びランク付けするためのシステム及び方法 |
JP2015511051A (ja) * | 2012-03-22 | 2015-04-13 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | 情報を公開する方法および装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004005761A (ja) * | 2003-09-29 | 2004-01-08 | Fujitsu Ltd | キーワード抽出・検索装置 |
JP2006277169A (ja) * | 2005-03-29 | 2006-10-12 | Seiko Epson Corp | 画像データの管理 |
-
2007
- 2007-04-13 JP JP2007106445A patent/JP5056133B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004005761A (ja) * | 2003-09-29 | 2004-01-08 | Fujitsu Ltd | キーワード抽出・検索装置 |
JP2006277169A (ja) * | 2005-03-29 | 2006-10-12 | Seiko Epson Corp | 画像データの管理 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010108208A (ja) * | 2008-10-30 | 2010-05-13 | Hitachi Software Eng Co Ltd | 文書処理装置 |
JP2013515977A (ja) * | 2008-12-31 | 2013-05-09 | フォルノヴァ リミテッド | 複数のウェブサイトからデータを収集及びランク付けするためのシステム及び方法 |
JP2011113289A (ja) * | 2009-11-26 | 2011-06-09 | Ntt Docomo Inc | 文書装飾支援システムおよび文書装飾支援方法 |
JP2011257878A (ja) * | 2010-06-07 | 2011-12-22 | Nippon Telegr & Teleph Corp <Ntt> | 重要語句抽出装置及び方法及びプログラム |
JP2012043115A (ja) * | 2010-08-18 | 2012-03-01 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索装置、文書検索方法および文書検索プログラム |
JP2015511051A (ja) * | 2012-03-22 | 2015-04-13 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | 情報を公開する方法および装置 |
Also Published As
Publication number | Publication date |
---|---|
JP5056133B2 (ja) | 2012-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10796076B2 (en) | Method and system for providing suggested tags associated with a target web page for manipulation by a useroptimal rendering engine | |
US9015175B2 (en) | Method and system for filtering an information resource displayed with an electronic device | |
US20080235563A1 (en) | Document displaying apparatus, document displaying method, and computer program product | |
JP2006053926A (ja) | 小型スクリーンコンピューティング装置にコンテンツを表示するシステムと方法 | |
US20130339840A1 (en) | System and method for logical chunking and restructuring websites | |
US8874590B2 (en) | Apparatus and method for supporting keyword input | |
JP4991948B1 (ja) | 情報処理装置及び情報処理方法 | |
US20190377779A1 (en) | Device, System and Method for Displaying Sectioned Documents | |
KR101103766B1 (ko) | 태그 정보를 이용하여 사용자 취향정보를 수집하는 단말기기, 그 방법 및 기록매체 | |
JP5056133B2 (ja) | 情報抽出システム、情報抽出方法および情報抽出用プログラム | |
Ahmadi et al. | User-centric adaptation of Web information for small screens | |
JP2007072646A (ja) | 検索装置、検索方法およびプログラム | |
KR20060095572A (ko) | 검색 결과들의 스크린―식 제시 | |
JP4883644B2 (ja) | リコメンド装置、リコメンドシステム、リコメンド装置の制御方法、およびリコメンドシステムの制御方法 | |
JP2012212191A (ja) | 情報処理装置及び情報処理方法 | |
JP2007279978A (ja) | 文書検索装置及び文書検索方法 | |
JP2007257369A (ja) | 情報検索装置 | |
KR20130021482A (ko) | Html 테이블의 셀 단위 편집 방법 | |
JP2008217052A (ja) | 情報表示装置及び情報表示プログラム | |
Wei et al. | Assisted human-in-the-loop adaptation of Web pages for mobile devices | |
JP5225331B2 (ja) | データ抽出装置及び方法 | |
JP6200392B2 (ja) | 情報提示装置および情報提示プログラム | |
JP2013012242A (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP5843235B2 (ja) | Web情報処理装置、web情報処理方法、およびプログラム | |
JP2011192222A (ja) | 情報処理装置、データ抽出方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100316 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120403 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120530 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120703 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120716 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150810 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5056133 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |