JP2006236262A - 情報抽出プロブラム及び方法 - Google Patents
情報抽出プロブラム及び方法 Download PDFInfo
- Publication number
- JP2006236262A JP2006236262A JP2005053696A JP2005053696A JP2006236262A JP 2006236262 A JP2006236262 A JP 2006236262A JP 2005053696 A JP2005053696 A JP 2005053696A JP 2005053696 A JP2005053696 A JP 2005053696A JP 2006236262 A JP2006236262 A JP 2006236262A
- Authority
- JP
- Japan
- Prior art keywords
- format
- text content
- extraction
- path
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【解決手段】 正規表現を持つパターンフォーマットを記憶する記憶部と、前記HTMLページから前記パターンフォーマットと一致するテキストコンテンツを取り出す抽出ルールを生成する抽出ルール生成部と、前記抽出ルールから所定のフォーマットに変換するフォーマット変換部を有することで解決できる。
【選択図】 図1
Description
HTML[0]/BODY[0]/TABLE[0]/TR[0]/TD[0]
と表現する。同様に、テキストコンテンツ「プラズマディスプレイパネル事業に関する基本合意について」に対して、
HTML[0]/BODY[0]/TABLE[0]/TR[0]/TD[0]/TABLE[0]/TR[0]/TH[0]/A[0]
と表現する。以下同様にまとめたのが図6の配列表現である。
HTML[0]/BODY[0]/TABLE[0]/TR[*]/TD[0]・・・・・・・・・・・・・・・・・・※1
として取り出す。この次数の*は、同じパターンを抜き出すことを意味し、任意の次数が入る。
HTML[0]/BODY[0]/TABLE[0]/TR[*]/TD[0]/TABLE[0]/TR[0]/TH[0]/A[0]・・・・・※2
HTML[0]/BODY[0]/TABLE[0]/TR[*]/TD[0]/TABLE[0]/TR[0]/TH[0]・・・・・・・※3
を取り出す。上段はaタグ(※3のテキストコンテンツからのリンク先を示すアンカータグ)で、下段はそのテキストコンテンツ(テキスト本体)である。
<meta http-equiv="Content-Type" content="text/html; charset=iso-2022-jp">
にあるcharsetから取り出す。なお、このようなタグがない場合、ブラウザなどで行っているコード判定技術を使ってコードを判定して値を取り出す。
HTML[0]/BODY[0]/TABLE[1]/TR[*]/TD[0]/TABLE[0]/TR[0]/TH[0]・・・・・上述※3
が格納される。<item_link>には、テキストコンテンツ「プラズマディスプレイパネル事業に関する基本合意について」のaタグ(アンカータグ)に対応するパス自動取出部13で取り出されたパス表現である、
HTML[0]/BODY[0]/TABLE[1]/TR[*]/TD[0]/TABLE[0]/TR[0]/TH[0]/A[0]・・・上述※2
が格納される。<item_date>には、時間表現に合致したテキスト「2月2日」に対応するパス自動取出部13で取り出されたパスの配列表現である、
HTML[0]/BODY[0]/TABLE[1]/TR[*]/TD[0]・・・・・・・・・・・・・・・・上述※1
が格納される。
コンピュータを、
正規表現を持つパターンフォーマットを記憶する記憶部、
前記HTMLページから前記パターンフォーマットと一致するテキストコンテンツを取り出す抽出ルールを生成する抽出ルール生成部、
前記抽出ルールから所定のフォーマットに変換するフォーマット変換部、
として機能させることを特徴とする情報抽出プログラム。(1)
(付記2)コンピュータを、
前記HTMLページ内のテキストコンテンツのパスを配列表現に変換する配列変換部、
前記配列表現から、前記パターンフォーマットと一致するテキストコンテンツと、該テキストコンテンツのパスを取り出すパス取出部、
として更に機能させ、
前記抽出ルール生成部を、前記パス取出部で取り出したテキストコンテンツとパスから
抽出ルールを生成するように機能させることを特徴とする付記1記載の情報抽出プログラム。(2)
(付記3)コンピュータを、
前記抽出ルールにあるパスに従って、前記配列表現と前記テキストコンテンツとの対応表を作成する対応表作成部、
前記対応表から前記テキストコンテンツを抽出して中間フォーマットを作成するコンテンツ抽出部、
として更に機能させ、
前記フォーマット変換部を、所定のテンプレートを使って前記中間ファーマットを所定のフォーマットに変換するように機能させることを特徴とする付記2記載の情報抽出プログラム。(3)
(付記4)コンピュータを、
ユーザがGUIツールの画面上で指定したテキストコンテンツと同じパターンを抽出するパターン指定部として更に機能させることを特徴とする付記1、2または3記載の情報抽出プログラム。(4)
(付記5)前記パターンフォーマットは、時間表現または/かつ金額表現であることを特徴とする付記1、2、3または4記載の情報抽出プログラム。
(付記6)前記所定のフォーマットはRSS形式または/かつCSV形式であることを特徴とする付記1、2、3、4または5記載の情報抽出プログラム。
(付記7)HTMLページからユーザに有益な情報であるテキストコンテンツを抽出する情報抽出方法において、
前記HTMLページから正規表現を持つパターンフォーマットと一致するテキストコンテンツを取り出す抽出ルールを生成するステップと、
前記抽出ルールから所定のフォーマットに変換するステップと、
を有することを特徴とする情報抽出方法。(5)
(付記8)HTMLページからユーザに有益な情報であるテキストコンテンツを抽出する情報抽出装置において、
正規表現を持つパターンフォーマットを記憶する記憶部と、
前記HTMLページから前記パターンフォーマットと一致するテキストコンテンツを取り出す抽出ルールを生成する抽出ルール生成部と、
前記抽出ルールから所定のフォーマットに変換するフォーマット変換部と、
を有することを特徴とする情報抽出装置。
11 全自動指定部
12 ツリー配列変換部
13 パス自動取出部
14 抽出ルール生成部
15 対応表作成部
16 コンテンツ抽出部
17 フォーマット変換部
18 パターン指定部
19 パス半自動取出部
21 HTMLページ
22 RSS/CSV出力
23 パターンフォーマット
24 テンプレート
Claims (5)
- HTMLページからユーザに有益な情報であるテキストコンテンツを抽出する情報抽出プログラムにおいて、
コンピュータを、
正規表現を持つパターンフォーマットを記憶する記憶部、
前記HTMLページから前記パターンフォーマットと一致するテキストコンテンツを取り出す抽出ルールを生成する抽出ルール生成部、
前記抽出ルールから所定のフォーマットに変換するフォーマット変換部、
として機能させることを特徴とする情報抽出プログラム。 - コンピュータを、
前記HTMLページ内のテキストコンテンツのパスを配列表現に変換する配列変換部、
前記配列表現から、前記パターンフォーマットと一致するテキストコンテンツと、該テキストコンテンツのパスを取り出すパス取出部、
として更に機能させ、
前記抽出ルール生成部を、前記パス取出部で取り出したテキストコンテンツとパスから
抽出ルールを生成するように機能させることを特徴とする請求項1記載の情報抽出プログラム。 - コンピュータを、
前記抽出ルールにあるパスに従って、前記配列表現と前記テキストコンテンツとの対応表を作成する対応表作成部、
前記対応表から前記テキストコンテンツを抽出して中間フォーマットを作成するコンテンツ抽出部、
として更に機能させ、
前記フォーマット変換部を、所定のテンプレートを使って前記中間ファーマットを所定のフォーマットに変換するように機能させることを特徴とする請求項2記載の情報抽出プログラム。 - コンピュータを、
ユーザがGUIツールの画面上で指定したテキストコンテンツと同じパターンを抽出するパターン指定部として更に機能させることを特徴とする請求項1、2または3記載の情報抽出プログラム。 - HTMLページからユーザに有益な情報であるテキストコンテンツを抽出する情報抽出方法において、
前記HTMLページから正規表現を持つパターンフォーマットと一致するテキストコンテンツを取り出す抽出ルールを生成するステップと、
前記抽出ルールから所定のフォーマットに変換するステップと、
を有することを特徴とする情報抽出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005053696A JP4923413B2 (ja) | 2005-02-28 | 2005-02-28 | 情報抽出プロブラム及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005053696A JP4923413B2 (ja) | 2005-02-28 | 2005-02-28 | 情報抽出プロブラム及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006236262A true JP2006236262A (ja) | 2006-09-07 |
JP4923413B2 JP4923413B2 (ja) | 2012-04-25 |
Family
ID=37043802
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005053696A Expired - Fee Related JP4923413B2 (ja) | 2005-02-28 | 2005-02-28 | 情報抽出プロブラム及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4923413B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011148872A1 (ja) * | 2010-05-25 | 2011-12-01 | 株式会社ジェイアール四国コミュニケーションウェア | グループウェアシステムおよびプログラム |
US8316026B2 (en) | 2007-01-18 | 2012-11-20 | Fujitsu Limited | Method and system for keyword management |
WO2022029863A1 (ja) * | 2020-08-04 | 2022-02-10 | 株式会社LegalForce | 文書処理プログラム、情報処理装置及び文書処理方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1021249A (ja) * | 1996-06-28 | 1998-01-23 | Hitachi Ltd | キーワード抽出ルール生成方法 |
JP2002189740A (ja) * | 2000-12-19 | 2002-07-05 | Appresso:Kk | データ変換システム |
JP2002312379A (ja) * | 2001-04-09 | 2002-10-25 | Mitsubishi Electric Corp | 情報抽出方法および情報抽出装置 |
JP2003167879A (ja) * | 2001-12-04 | 2003-06-13 | Fujitsu Ltd | タグ付き情報表示方法,タグ付き情報表示プログラム,及びタグ付き情報表示装置 |
JP2004220251A (ja) * | 2003-01-14 | 2004-08-05 | Nippon Telegr & Teleph Corp <Ntt> | 情報抽出規則作成システム、情報抽出規則作成方法及び情報抽出規則作成プログラム |
JP2004318809A (ja) * | 2003-02-24 | 2004-11-11 | Fuji Xerox Co Ltd | 情報抽出規則生成装置および方法 |
-
2005
- 2005-02-28 JP JP2005053696A patent/JP4923413B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1021249A (ja) * | 1996-06-28 | 1998-01-23 | Hitachi Ltd | キーワード抽出ルール生成方法 |
JP2002189740A (ja) * | 2000-12-19 | 2002-07-05 | Appresso:Kk | データ変換システム |
JP2002312379A (ja) * | 2001-04-09 | 2002-10-25 | Mitsubishi Electric Corp | 情報抽出方法および情報抽出装置 |
JP2003167879A (ja) * | 2001-12-04 | 2003-06-13 | Fujitsu Ltd | タグ付き情報表示方法,タグ付き情報表示プログラム,及びタグ付き情報表示装置 |
JP2004220251A (ja) * | 2003-01-14 | 2004-08-05 | Nippon Telegr & Teleph Corp <Ntt> | 情報抽出規則作成システム、情報抽出規則作成方法及び情報抽出規則作成プログラム |
JP2004318809A (ja) * | 2003-02-24 | 2004-11-11 | Fuji Xerox Co Ltd | 情報抽出規則生成装置および方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8316026B2 (en) | 2007-01-18 | 2012-11-20 | Fujitsu Limited | Method and system for keyword management |
WO2011148872A1 (ja) * | 2010-05-25 | 2011-12-01 | 株式会社ジェイアール四国コミュニケーションウェア | グループウェアシステムおよびプログラム |
WO2022029863A1 (ja) * | 2020-08-04 | 2022-02-10 | 株式会社LegalForce | 文書処理プログラム、情報処理装置及び文書処理方法 |
Also Published As
Publication number | Publication date |
---|---|
JP4923413B2 (ja) | 2012-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8589366B1 (en) | Data extraction using templates | |
US20130006986A1 (en) | Automatic Classification of Electronic Content Into Projects | |
CN110738037B (zh) | 用于自动生成电子表格的方法、装置、设备及存储介质 | |
US9922383B2 (en) | Patent claims analysis system and method | |
US11106906B2 (en) | Systems and methods for information extraction from text documents with spatial context | |
US20120303645A1 (en) | System and method for extraction of structured data from arbitrarily structured composite data | |
CN103425714A (zh) | 一种搜索方法和系统 | |
EP1830275A1 (en) | Information distribution system | |
CN105893574B (zh) | 一种数据处理方法及电子设备 | |
Ockeloen et al. | BiographyNet: Managing Provenance at Multiple Levels and from Different Perspectives. | |
WO2005029379A1 (ja) | 情報処理装置及び情報処理方法 | |
JPWO2005098663A1 (ja) | 情報管理装置 | |
Rubinstein | Historical corpora meet the digital humanities: the Jerusalem corpus of emergent modern Hebrew | |
Leidner | Towards a reference corpus for automatic toponym resolution evaluation | |
King et al. | Managing usability for people with disabilities in a large web presence | |
Szekely et al. | Publishing the data of the Smithsonian American Art Museum to the linked data cloud | |
JP4923413B2 (ja) | 情報抽出プロブラム及び方法 | |
KR100522186B1 (ko) | 동적으로 홈페이지를 제작하는 방법 및 이 방법을 웹에서구현하는 장치 | |
CN116090416B (zh) | 基于标准知识图谱的标准编写方法、系统、设备及介质 | |
US20100138735A1 (en) | Document processing device | |
Nockels et al. | The implications of handwritten text recognition for accessing the past at scale | |
JPWO2005098698A1 (ja) | 文書処理装置 | |
KR20060114569A (ko) | 특허정보시스템의 작동방법 | |
US20090259995A1 (en) | Apparatus and Method for Standardizing Textual Elements of an Unstructured Text | |
Bacci et al. | Improving public access to legislation through legal citations detection: the linkoln project at the Italian senate |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071219 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100824 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101021 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110222 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110420 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110823 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111102 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20111111 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120110 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120123 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150217 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |