JP5443322B2 - 情報抽出装置、情報抽出方法および情報抽出プログラム - Google Patents
情報抽出装置、情報抽出方法および情報抽出プログラム Download PDFInfo
- Publication number
- JP5443322B2 JP5443322B2 JP2010252423A JP2010252423A JP5443322B2 JP 5443322 B2 JP5443322 B2 JP 5443322B2 JP 2010252423 A JP2010252423 A JP 2010252423A JP 2010252423 A JP2010252423 A JP 2010252423A JP 5443322 B2 JP5443322 B2 JP 5443322B2
- Authority
- JP
- Japan
- Prior art keywords
- extraction
- text
- information
- block
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
価格:¥2,980、¥3,980、¥1,980、…
このときに、それぞれの商品名がどの価格に対応しているのかを対応付ける必要がある。
抽出ルール作成支援処理では、オペレータがWebページに対して必要な属性情報を部分的に指定し、抽出ルール作成支援部110がその指定された属性情報のレイアウト情報から抽出ブロックを取得し表示装置(図示省略)に表示させる。
上記抽出ブロックは、属性情報の属性名と属性値およびそのレイアウト情報からなる。“[商品名:帽子]”は、属性名“商品名”と属性値“帽子”からなる属性情報である。また、“[*]”は、着目する属性情報およびレイアウト情報以外の任意のテキスト文字列を表し、以下文字列変数と呼ぶことにする。
このブロック抽出処理において、属性情報“[価格:¥2,980]”が含まれるブロックが“<top><item[1]>”であり、ブロック“<top><item[1]>”が含む記述形式の対応部分は、“帽子<r><t>¥2,980”となる。これに対して、オペレータが指定したテキスト文字列“¥2,980”へオペレータが入力した属性名“価格”を付加し、属性情報“[価格:¥2,980]”に置き換える。さらに、属性情報とレイアウト情報以外のテキスト文字列を文字列変数“[*]”に置き換え、抽出ブロック“<top><item[1]>[*]<r><t>[価格:¥2,980]”を作成する。
抽出ルール作成処理では、抽出ルール作成支援処理(ステップS1)によって取得された抽出ブロックから、抽出ルール作成部120が抽出ルールを作成する。
<top><item[1]>[*]<r><t>[価格:¥2,980]
<top><item[2]>[商品名:サングラス] <r><t>[*]
<top><item[2]>[*]<r><t>[価格:¥3,980]
抽出ルール作成処理(ステップS2)では、これらの抽出ブロックに対して、属性名毎に抽出ブロックを一般化して抽出ルールの一般化を図り、それぞれ属性名毎の抽出ブロックを単一化して抽出ルールの単一化を図る。
したがって抽出ルール作成部120は、図3のように抽出ブロック一般化機能と、抽出ブロック単一化機能を有している。
<top><item[1]>[*]<r><t>[価格:¥2,980]
<top><item[2]>[商品名:サングラス] <r><t>[*]
<top><item[2]>[*]<r><t>[価格:¥3,980]
これらの抽出ブロックに対して、ステップS21の抽出ブロック一般化処理では、属性名により、次の表2のように抽出ブロックを分類する。
次にステップS22の抽出ブロック単一化処理では、前記抽出ブロック一般化処理(ステップS21)によって一般化された抽出ブロックを単一化することで、抽出ルールの単一化を図った抽出ルールを作成する。
<top><item[*]>[商品名:*]<r><t>[*]
<top><item[*]>[*]<r><t>[価格:*]
これらに対して、抽出ブロック単一化処理(ステップS22)では、まず2つの抽出ブロック間の対応付けを次の表4のように行なう。
<抽出ルール適用処理(ステップS3)>
抽出ルール適用処理(ステップS3)では、Webページを予め下記のようにブロック化しデータとして保持する。
<top><item[2]>サングラス<r><t>¥3,980
<top><item[3]>サンダル<r><t>¥1,980
<top><item[4]> ...<r><t>...
...
そして、前記抽出ルールDB140に格納された抽出ルールを、前記ブロック化したWebページに適用して属性情報を抽出する。
110…抽出ルール作成支援部
120…抽出ルール作成部
130…抽出ルール適用部
140…抽出ルールDB
Claims (5)
- オペレータが指定したテキスト情報源のテキスト文字列および属性情報に対応するブロックをテキスト情報源から抽出し、前記抽出されたブロックのテキスト文字列に対してオペレータの付加した属性名を受付け、前記オペレータが指定したテキスト文字列の周辺に関連するレイアウト情報を前記テキスト情報源から収集し、前記抽出されオペレータにより属性名が付加されたテキスト文字列と前記収集されたレイアウト情報と属性情報を含む抽出ブロックを取得して表示する抽出ルール作成支援手段と、
前記抽出ルール作成支援手段によって取得された抽出ブロックに対して、各抽出ブロックの属性名毎に抽出ブロックを一般化し、該一般化された抽出ブロックについて各属性名毎の抽出ブロックを一つの抽出ブロックに単一化し、属性情報を抽出するための単一化された抽出ルールを作成する抽出ルール作成手段と、
前記テキスト情報源のテキストを予めブロック化しておき、前記抽出ルール作成手段によって作成された抽出ルールを、前記ブロック化されたテキストに適用して属性情報を抽出する抽出ルール適用手段と、
を備えたことを特徴とする情報抽出装置。 - 前記抽出ルール作成手段が行う抽出ブロックの一般化は、同じ属性名を持つ抽出ブロックの間で、共通なレイアウト情報はそのままにし、差異があるテキスト文字列を任意のテキスト文字列を表す文字列変数に置き換え、該文字列変数が含まれる属性情報を属性変数とすることによって実施され、
前記抽出ルール作成手段が行う抽出ブロックの単一化は、各抽出ブロック間の共通部分を単一化し、前記文字列変数と属性変数とで差異のある部分を属性変数に単一化することによって実施されることを特徴とする請求項1に記載の情報抽出装置。 - 抽出ルール作成支援手段が、オペレータが指定したテキスト情報源のテキスト文字列および属性情報に対応するブロックをテキスト情報源から抽出し、前記抽出されたブロックのテキスト文字列に対してオペレータの付加した属性名を受付け、前記オペレータが指定したテキスト文字列の周辺に関連するレイアウト情報を前記テキスト情報源から収集し、前記抽出されオペレータにより属性名が付加されたテキスト文字列と前記収集されたレイアウト情報と属性情報を含む抽出ブロックを取得して表示する抽出ルール作成支援ステップと、
抽出ルール作成手段が、前記抽出ルール作成支援手段によって取得された抽出ブロックに対して、各抽出ブロックの属性名毎に抽出ブロックを一般化する抽出ブロック一般化ステップと、前記一般化された抽出ブロックについて各属性名毎の抽出ブロックを一つの抽出ブロックに単一化する抽出ブロック単一化ステップとを有し、属性情報を抽出するための単一化された抽出ルールを作成する抽出ルール作成ステップと、
抽出ルール適用手段が、前記テキスト情報源のテキストを予めブロック化しておき、前記抽出ルール作成手段によって作成された抽出ルールを、前記ブロック化されたテキストに適用して属性情報を抽出する抽出ルール適用ステップと、
を備えたことを特徴とする情報抽出方法。 - 前記抽出ブロック一般化ステップは、同じ属性名を持つ抽出ブロックの間で、共通なレイアウト情報はそのままにし、差異があるテキスト文字列を任意のテキスト文字列を表す文字列変数に置き換え、該文字列変数が含まれる属性情報を属性変数とすることによって実施され、
前記抽出ブロック単一化ステップは、各抽出ブロック間の共通部分を単一化し、前記文字列変数と属性変数とで差異のある部分を属性変数に単一化することによって実施されることを特徴とする請求項3に記載の情報抽出方法。 - コンピュータを請求項1又は2に記載の各手段として機能させる情報抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010252423A JP5443322B2 (ja) | 2010-11-11 | 2010-11-11 | 情報抽出装置、情報抽出方法および情報抽出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010252423A JP5443322B2 (ja) | 2010-11-11 | 2010-11-11 | 情報抽出装置、情報抽出方法および情報抽出プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012103929A JP2012103929A (ja) | 2012-05-31 |
JP5443322B2 true JP5443322B2 (ja) | 2014-03-19 |
Family
ID=46394240
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010252423A Expired - Fee Related JP5443322B2 (ja) | 2010-11-11 | 2010-11-11 | 情報抽出装置、情報抽出方法および情報抽出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5443322B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3220284A1 (en) * | 2014-11-14 | 2017-09-20 | Fujitsu Limited | Data acquisition program, data acquisition method and data acquisition device |
EP3220285A4 (en) | 2014-11-14 | 2017-11-08 | Fujitsu Limited | Data acquisition program, data acquisition method and data acquisition device |
CN110020038A (zh) * | 2017-08-01 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 网页信息提取方法、装置、系统及电子设备 |
CN109145305B (zh) * | 2018-09-10 | 2022-12-16 | 鼎富智能科技有限公司 | 一种信息提取方法、装置及服务器 |
-
2010
- 2010-11-11 JP JP2010252423A patent/JP5443322B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012103929A (ja) | 2012-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11372935B2 (en) | Automatically generating a website specific to an industry | |
US9471405B1 (en) | Methods and systems for access to legacy programs using non-legacy interfaces | |
JP5642890B2 (ja) | 生成された画像中に含まれるオブジェクトの収集をサポートするための方法、端末およびコンピュータ可読記録媒体 | |
JP5443322B2 (ja) | 情報抽出装置、情報抽出方法および情報抽出プログラム | |
WO2020235085A1 (ja) | 操作ログ可視化装置、操作ログ可視化方法および操作ログ可視化プログラム | |
US20170300574A1 (en) | Data acquisition method, data acquisition apparatus, and recording medium | |
JP4591229B2 (ja) | 画像処理装置、および画像処理方法、並びにコンピュータ・プログラム | |
CN115828873A (zh) | 一种电子表单中表达式的设置方法和装置 | |
JP2013182410A (ja) | 業務分析設計支援装置、業務分析設計支援方法、および業務分析設計支援プログラム | |
JP2016151908A (ja) | パーソナル情報匿名化支援装置 | |
JP2019101889A (ja) | テスト実行装置及びプログラム | |
JPWO2017134800A1 (ja) | 表形式データの解析方法、表形式データの解析プログラム及び情報処理装置 | |
JP2019106137A (ja) | 表示プログラム、表示方法、表示装置、コメント表示制御プログラム、コメント表示制御方法及びコメント表示制御装置 | |
JP7173314B2 (ja) | マッピング支援装置、マッピング支援方法、及びプログラム | |
JP2016192067A (ja) | 検索装置 | |
US10726076B2 (en) | Information acquisition method, and information acquisition device | |
JP2005190212A (ja) | データベースシステム、データ処理方法及びプログラム | |
JP5202598B2 (ja) | ワークフロー管理装置、及びワークフロー管理プログラム | |
KR102619554B1 (ko) | 랜딩 페이지 관리 방법 및 그 장치 | |
JP2008217170A (ja) | 情報処理装置およびプログラム | |
JP7276355B2 (ja) | 情報提供システム、方法およびプログラム | |
JP5928211B2 (ja) | 組版装置、組版方法、及び組版処理プログラム | |
JP2009230450A (ja) | 文書属性情報登録装置及びプログラム | |
JP2008009966A (ja) | 業務プロセス設定装置及び業務プロセス設定方法 | |
JP5928210B2 (ja) | 組版装置、組版方法、及び組版処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121225 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130930 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131008 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131125 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131217 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131219 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5443322 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |