JP5820770B2 - 本文抽出装置及び方法及びプログラム - Google Patents
本文抽出装置及び方法及びプログラム Download PDFInfo
- Publication number
- JP5820770B2 JP5820770B2 JP2012116069A JP2012116069A JP5820770B2 JP 5820770 B2 JP5820770 B2 JP 5820770B2 JP 2012116069 A JP2012116069 A JP 2012116069A JP 2012116069 A JP2012116069 A JP 2012116069A JP 5820770 B2 JP5820770 B2 JP 5820770B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- pattern
- text
- processed
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本文を抽出する対象となる構造化文書と複数の構造化文書の概要を記述したメタデータが格納された文書記憶手段と、
処理する文書に対応する本文のパターンを格納するパターン記憶手段と、
前記文書記憶手段から処理する文書を取得し、該文書に対応する本文のパターンを前記パターン記憶手段から検索し、パターンが存在する場合は、該処理する文書からパターンに一致する部分を本文として抽出し、本文記憶手段に格納する本文抽出手段と、
前記パターンが前記パターン記憶手段に存在しない場合は、前記文書記憶手段から前記処理する文書に対応するメタデータを取得し、該メタデータに含まれる本文の断片が出現するパターンを求め、該パターンを前記パターン記憶手段に格納するパターン生成手段と、を有し、
前記パターン生成手段は、
前記メタデータに記載されている文書全てについて、
前記処理する文書を木構造に変換し、変換した木の葉にあたる文字列ノードを結合してマッチング用文字列を生成し、該処理する文書のメタデータに含まれる本文の断片と前記マッチング用文字列をマッチングすることで、文字列が一致する区間を特定し、該変換した木において、該区間の文字列の元となったノードを特定し、該区間の文字列の元となったノードの共通の祖先を一意に表すパターンを生成する処理を行う手段と、
生成された前記パターンを比較し、対応する文書の本文を最も多く抽出するパターンを前記パターン記憶手段に格納する手段と、
を含むことを特徴とする本文抽出装置として構成される。
2 パターン検索部
3 パターン生成部
4 本文抽出部
5 パターン記憶部
6 本文記憶部
7 文書記憶部
Claims (3)
- 文書から本文を抽出する本文抽出装置であって、
本文を抽出する対象となる構造化文書と複数の構造化文書の概要を記述したメタデータが格納された文書記憶手段と、
処理する文書に対応する本文のパターンを格納するパターン記憶手段と、
前記文書記憶手段から処理する文書を取得し、該文書に対応する本文のパターンを前記パターン記憶手段から検索し、パターンが存在する場合は、該処理する文書からパターンに一致する部分を本文として抽出し、本文記憶手段に格納する本文抽出手段と、
前記パターンが前記パターン記憶手段に存在しない場合は、前記文書記憶手段から前記処理する文書に対応するメタデータを取得し、該メタデータに含まれる本文の断片が出現するパターンを求め、該パターンを前記パターン記憶手段に格納するパターン生成手段と、を有し、
前記パターン生成手段は、
前記メタデータに記載されている文書全てについて、
前記処理する文書を木構造に変換し、変換した木の葉にあたる文字列ノードを結合してマッチング用文字列を生成し、該処理する文書のメタデータに含まれる本文の断片と前記マッチング用文字列をマッチングすることで、文字列が一致する区間を特定し、該変換した木において、該区間の文字列の元となったノードを特定し、該区間の文字列の元となったノードの共通の祖先を一意に表すパターンを生成する処理を行う手段と、
生成された前記パターンを比較し、対応する文書の本文を最も多く抽出するパターンを前記パターン記憶手段に格納する手段と、
を含むことを特徴とする本文抽出装置。 - 文書から本文を抽出する本文抽出装置が実行する本文抽出方法であって、
前記本文抽出装置は、
本文を抽出する対象となる構造化文書と複数の構造化文書の概要を記述したメタデータが格納された文書記憶手段と、
処理する文書に対応する本文のパターンを格納するパターン記憶手段と、
を有し、前記本文抽出方法は、
前記文書記憶手段から処理する文書を取得し、該文書に対応する本文のパターンを前記パターン記憶手段から検索し、パターンが存在する場合は、該処理する文書からパターンに一致する部分を本文として抽出し、本文記憶手段に格納する本文抽出ステップと、
前記パターンが前記パターン記憶手段に存在しない場合は、前記文書記憶手段から前記処理する文書に対応するメタデータを取得し、該メタデータに含まれる本文の断片が出現するパターンを求め、該パターンを前記パターン記憶手段に格納するパターン生成ステップと、
を有し、
前記パターン生成ステップにおいて、前記本文抽出装置は、
前記メタデータに記載されている文書全てについて、
前記処理する文書を木構造に変換し、変換した木の葉にあたる文字列ノードを結合してマッチング用文字列を生成し、該処理する文書のメタデータに含まれる本文の断片と前記マッチング用文字列をマッチングすることで、文字列が一致する区間を特定し、該変換した木において、該区間の文字列の元となったノードを特定し、該区間の文字列の元となったノードの共通の祖先を一意に表すパターンを生成する処理を行い、
生成された前記パターンを比較し、対応する文書の本文を最も多く抽出するパターンを前記パターン記憶手段に格納する
ことを特徴とする本文抽出方法。 - コンピュータを、
請求項1に記載の本文抽出装置の各手段として機能させるための本文抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012116069A JP5820770B2 (ja) | 2012-05-21 | 2012-05-21 | 本文抽出装置及び方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012116069A JP5820770B2 (ja) | 2012-05-21 | 2012-05-21 | 本文抽出装置及び方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013242734A JP2013242734A (ja) | 2013-12-05 |
JP5820770B2 true JP5820770B2 (ja) | 2015-11-24 |
Family
ID=49843559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012116069A Expired - Fee Related JP5820770B2 (ja) | 2012-05-21 | 2012-05-21 | 本文抽出装置及び方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5820770B2 (ja) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4231298B2 (ja) * | 2003-01-14 | 2009-02-25 | 日本電信電話株式会社 | 情報抽出規則作成システム、情報抽出規則作成プログラム、情報抽出システム及び情報抽出プログラム |
JP4381423B2 (ja) * | 2007-01-22 | 2009-12-09 | 日本電信電話株式会社 | 文書収集装置、文書収集方法、プログラムおよび記録媒体 |
CN102270206A (zh) * | 2010-06-03 | 2011-12-07 | 北京迅捷英翔网络科技有限公司 | 一种有效网页内容的抓取方法及装置 |
JP5225331B2 (ja) * | 2010-06-30 | 2013-07-03 | ヤフー株式会社 | データ抽出装置及び方法 |
JP5068356B2 (ja) * | 2010-09-17 | 2012-11-07 | ヤフー株式会社 | ブログ本文特定装置及びブログ本文特定方法 |
-
2012
- 2012-05-21 JP JP2012116069A patent/JP5820770B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013242734A (ja) | 2013-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7912846B2 (en) | Document processing method, recording medium, and document processing system | |
Buttler et al. | A fully automated object extraction system for the World Wide Web | |
CN103635897B (zh) | 对运行页面进行动态更新的方法 | |
JP5040925B2 (ja) | 情報抽出規則作成支援システム、情報抽出規則作成支援方法及び情報抽出規則作成支援プログラム | |
CN102682098B (zh) | 检测网页内容变更的方法及装置 | |
JP2008287744A5 (ja) | ||
JP2006120129A5 (ja) | ||
Ferrara et al. | Automatic wrapper adaptation by tree edit distance matching | |
CN104933162B (zh) | 一种从元数据标注的csv数据到rdf数据的转换方法 | |
CN101872350A (zh) | 网页正文抽取方法和装置 | |
JP5347965B2 (ja) | Xmlデータ処理システム、該システムに用いられるデータ処理方法及びxmlデータ処理制御プログラム | |
CN108536683A (zh) | 一种基于机器学习的论文碎片化信息抽取方法 | |
Al-Msie'deen | Tag clouds for object-oriented source code visualization | |
JP5820770B2 (ja) | 本文抽出装置及び方法及びプログラム | |
CN108255895A (zh) | 一种使用上下文环境规则的网页数据获取方法 | |
JP2012059212A (ja) | 抽出装置、抽出方法及び抽出プログラム | |
JP2008052356A (ja) | ソースコード自動生成装置 | |
CN114296726A (zh) | 一种代码生成方法、装置、计算机设备和存储介质 | |
JP6287506B2 (ja) | データベースアクセス制御プログラム、データベースアクセス制御方法、及び情報処理装置 | |
JP2013218627A (ja) | 構造化文書からの情報抽出方法、装置、及びプログラム | |
Horie et al. | Extracting differences between regular tree grammars | |
JP2010267081A (ja) | 情報検索方法及び装置及びプログラム | |
JP2008129943A (ja) | 構造化文書生成方法及び装置及びプログラム | |
JP6753190B2 (ja) | 文書検索装置及びプログラム | |
CN104331472A (zh) | 分词训练数据的构造方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141020 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150619 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150707 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150907 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150929 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151005 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5820770 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |