JP5820770B2 - 本文抽出装置及び方法及びプログラム - Google Patents

本文抽出装置及び方法及びプログラム Download PDF

Info

Publication number
JP5820770B2
JP5820770B2 JP2012116069A JP2012116069A JP5820770B2 JP 5820770 B2 JP5820770 B2 JP 5820770B2 JP 2012116069 A JP2012116069 A JP 2012116069A JP 2012116069 A JP2012116069 A JP 2012116069A JP 5820770 B2 JP5820770 B2 JP 5820770B2
Authority
JP
Japan
Prior art keywords
document
pattern
text
processed
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012116069A
Other languages
English (en)
Other versions
JP2013242734A (ja
Inventor
良太 今井
良太 今井
尚樹 藤田
尚樹 藤田
宮原 伸二
伸二 宮原
義昌 小池
義昌 小池
良治 片岡
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012116069A priority Critical patent/JP5820770B2/ja
Publication of JP2013242734A publication Critical patent/JP2013242734A/ja
Application granted granted Critical
Publication of JP5820770B2 publication Critical patent/JP5820770B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、本文抽出装置及び方法及びプログラムに係り、特に、構造化された文書から本文を抽出するための本文抽出装置及び方法及びプログラムに関する。
まず、本明細書における用語について説明する。
「パターン」とは、構造化された文書を木構造で表したとき、その木の中の位置を示すための表現を指す。例えば、ノードaを根とする木において、aが2つの子b、cをもち、さらにbが子dをもつとき、cの位置を指すパターンを「/a/c」と表し、dの位置を指すパターンを「/a/b/d」と表す。
「メタデータ」とは、構造化された文書の概要を記述したデータを指す。メタデータは、関連のある複数の文書の集合に対して提供され、各文書が作成された日時や、文書のタイトル、文書の本文の一部などが含まれる。例えば、同一の著者が作成した文書のうち、作成日時が新しい5件に対して1つのメタデータが対応する。
本文を抽出するための従来の第1の技術として、構造化された文書に対して、その文書の本文にあたる部分を不足なく抽出する技術がある(例えば、特許文献1参照)。この技術では、文書を木構造として表現し、機械学習と学習用データを用いて木構造中の本文にあたる部分を特定することで、本文抽出を可能とする。
また、従来の第2の技術として、構造化された文書に対して、その文書中の文字列を統計的に評価することで、その文書の本文にあたる部分を抽出する技術がある(例えば、特許文献2参照)。
また、従来の第3の技術として、構造化された文書に対して、事前に抽出すべき範囲を指定しておくことで、文書が更新された際にその範囲の差分を抽出する技術がある(例えば、特許文献3参照)。
特開2012-27852号公報 特開2006-338364号公報 特開2004-38263号公報
しかしながら、上記従来の第1の技術は、構造化された文書に対して、本文にあたる部分を不足なく抽出することが可能であるが、機械学習に用いるための学習用データを必要とし、この学習用データを十分に用意することができなければ、本文にあたる部分を正しく判定できないという問題がある。
また、上記従来の第2の技術は、構造化された文書に対して、本文にあたる部分を抽出することが可能であるが、本文を正しく判定できない場合には本文の一部が欠落するという問題がある。
また、上記従来の第3の技術は、構造化された文書に対して、文書が更新された際に指定した範囲を抽出することが可能であるが、抽出すべき範囲を事前に指定しなければならないという問題がある。
本発明は上記の点に鑑みなされたもので、構造化された文書に付随するメタデータを利用することで、十分な学習用データや抽出部分の指定を必要とすることなく、本文を抽出することができる本文抽出装置及び方法及びプログラムを提供することを目的とする。
上記の課題を解決するため、本発明(請求項1)は、文書から本文を抽出する本文抽出装置であって、
本文を抽出する対象となる構造化文書と複数の構造化文書の概要を記述したメタデータが格納された文書記憶手段と、
処理する文書に対応する本文のパターンを格納するパターン記憶手段と、
前記文書記憶手段から処理する文書を取得し、該文書に対応する本文のパターンを前記パターン記憶手段から検索し、パターンが存在する場合は、該処理する文書からパターンに一致する部分を本文として抽出し、本文記憶手段に格納する本文抽出手段と、
前記パターンが前記パターン記憶手段に存在しない場合は、前記文書記憶手段から前記処理する文書に対応するメタデータを取得し、該メタデータに含まれる本文の断片が出現するパターンを求め、該パターンを前記パターン記憶手段に格納するパターン生成手段と、を有し、
前記パターン生成手段は、
前記メタデータに記載されている文書全てについて、
前記処理する文書を木構造に変換し、変換した木の葉にあたる文字列ノードを結合してマッチング用文字列を生成し、該処理する文書のメタデータに含まれる本文の断片と前記マッチング用文字列をマッチングすることで、文字列が一致する区間を特定し、該変換した木において、該区間の文字列の元となったノードを特定し、該区間の文字列の元となったノードの共通の祖先を一意に表すパターンを生成する処理を行う手段と、
生成された前記パターンを比較し、対応する文書の本文を最も多く抽出するパターンを前記パターン記憶手段に格納する手段と、
を含むことを特徴とする本文抽出装置として構成される
上記のように、本発明は、メタデータに記述されている文書の本文の断片を利用し、文書の本文の範囲を特定することで、本文を抽出することにより、メタデータが付随する構造化された文書に対して、十分な学習用データや抽出部分の指定を必要とすることなく、本文を不足なく抽出することが可能となる。
本発明の一実施の形態における本文抽出装置の構成図である。 本発明の一実施の形態における文書とメタデータの関係を示す図である。 本発明の一実施の形態におけるパターン生成部のフローチャートである。
以下、図面と共に本発明の実施の形態を説明する。
図1は、本発明の一実施の形態における本文抽出装置の構成を示す。
同図に示す本文抽出装置は、文書選択部1、パターン検索部2、パターン生成部3、本文抽出部4、パターン記憶部5、本文記憶部6、文書記憶部7から構成される。パターン記憶部5、本文記憶部6、文書記憶部7は、ハードディスク等の記憶媒体である。
文書選択部1は、文書記憶部7から処理する文書を取り出す。
パターン検索部2は、処理する文書に対応する本文のパターンをパターン記憶部5から検索する。このとき、パターンが存在すればそれを本文抽出部4に出力する。パターンが存在しない場合は、パターン生成部3に処理する文書を出力する。
パターン生成部3は、処理する文書に対して、本文のパターンを生成し、パターン記憶部5に格納する。処理の詳細については後述する。
本文抽出部4は、処理する文書からパターンに一致する部分を本文として抽出し、本文記憶部6に格納する。
パターン記憶部5は、処理する文書に対応する本文のパターンを保持する。
本文記憶部6は、本文抽出部4が処理する文書から抽出した本文を保持する。
文書記憶部7は、本装置で本文を抽出する対象となる文書と、それらに付随するメタデータを保持する。これらの文書とメタデータは、一般的には予め外部から収集しておく。
図2は、本発明の一実施の形態における文書とメタデータの対応関係を示す図である。
1つのメタデータは、複数の構造化された文書に対応する。メタデータには、対応する文書の作成日やタイトルに加え、本文の断片が記述される。例えば、文書の本文が400字あるとき、対応するメタデータにはその先頭100字のみが記述される。
図3は、本発明の一実施の形態におけるパターン生成部のフローチャートである。
ステップ100) パターン生成部3は、文書記憶部7を参照し、処理する文書に対応するメタデータを取り出す。
ステップ110) メタデータに記述されている文書のうち、パターン生成部3でまだ処理していないものを1つ選び、その文書の本文の断片mを抽出する。
ステップ120) ステップ110で選んだ文書を木構造に変換する。文書がHTML文書やXML文書である場合には、その文書を木構造で表現するための技術としてDocument Object Model(DOM)(http://www.w3.org/TR/REC-DOM-Level-1/)があり、当該DOMの仕様に基づいて実装されたパーサを用いることで実現できる。
ステップ130) ステップ120で変換した木を探索し、木の葉にあたる文字列ノードを結合して1つのマッチング用文字列Mを生成する。
ステップ140) マッチング用文字列Mと本文の断片mに対してマッチングを行ない、文字列が一致する区間を特定する。さらに、文書から変換した木において、この区間の文字列の元となったノードを特定する。
ステップ150) ステップ140で特定したノードの共通の祖先aを特定する。
ステップ160) 文書から変換した木において、共通の祖先aを一意に表すパターンを生成する。
ステップ170) ステップ100で取り出したメタデータに、パターン生成部3でまだ処理していない文書が記述されていれば、ステップ110に進む。そうでなければ、ステップ180に進む。
ステップ180) ステップ170までの処理で生成された1つ以上のパターンを比較し、対応する文書の本文を最も多く抽出するものを1つ選び、パターン記憶部7に出力する。
本発明では、上記ステップ110でメタデータから文書の本文の断片を抽出し、さらにステップ120で文書を木構造に変換した上で、ステップ130〜150でその断片を含む部分木を特定することで、十分な学習用データや事前の範囲指定を用いずに、文書の本文全体を抽出することができる。
さらに、メタデータは一般的に2つ以上の文書の概要を含むという性質を利用し、複数の文書に対してパターンを生成する。これらのパターンを上記ステップ180で比較し、本文を最も多く抽出するものを1つ選ぶことで、1つの文書しか処理しない場合に比べてより正確なパターンを生成することができる。
このようにして生成したパターンをパターン記憶部5に格納しておくことで、同様の構造をもつ文書に対しては再度パターンを生成することなく本文を抽出することができる。
なお、図1に示す本文抽出装置の各構成要素の動作をプログラムとして構築し、本文抽出装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
1 文書選択部
2 パターン検索部
3 パターン生成部
4 本文抽出部
5 パターン記憶部
6 本文記憶部
7 文書記憶部

Claims (3)

  1. 文書から本文を抽出する本文抽出装置であって、
    本文を抽出する対象となる構造化文書と複数の構造化文書の概要を記述したメタデータが格納された文書記憶手段と、
    処理する文書に対応する本文のパターンを格納するパターン記憶手段と、
    前記文書記憶手段から処理する文書を取得し、該文書に対応する本文のパターンを前記パターン記憶手段から検索し、パターンが存在する場合は、該処理する文書からパターンに一致する部分を本文として抽出し、本文記憶手段に格納する本文抽出手段と、
    前記パターンが前記パターン記憶手段に存在しない場合は、前記文書記憶手段から前記処理する文書に対応するメタデータを取得し、該メタデータに含まれる本文の断片が出現するパターンを求め、該パターンを前記パターン記憶手段に格納するパターン生成手段と、を有し、
    前記パターン生成手段は、
    前記メタデータに記載されている文書全てについて、
    前記処理する文書を木構造に変換し、変換した木の葉にあたる文字列ノードを結合してマッチング用文字列を生成し、該処理する文書のメタデータに含まれる本文の断片と前記マッチング用文字列をマッチングすることで、文字列が一致する区間を特定し、該変換した木において、該区間の文字列の元となったノードを特定し、該区間の文字列の元となったノードの共通の祖先を一意に表すパターンを生成する処理を行う手段と、
    生成された前記パターンを比較し、対応する文書の本文を最も多く抽出するパターンを前記パターン記憶手段に格納する手段と、
    を含むことを特徴とする本文抽出装置。
  2. 文書から本文を抽出する本文抽出装置が実行する本文抽出方法であって、
    前記本文抽出装置は、
    本文を抽出する対象となる構造化文書と複数の構造化文書の概要を記述したメタデータが格納された文書記憶手段と、
    処理する文書に対応する本文のパターンを格納するパターン記憶手段と、
    を有し、前記本文抽出方法は、
    前記文書記憶手段から処理する文書を取得し、該文書に対応する本文のパターンを前記パターン記憶手段から検索し、パターンが存在する場合は、該処理する文書からパターンに一致する部分を本文として抽出し、本文記憶手段に格納する本文抽出ステップと、
    前記パターンが前記パターン記憶手段に存在しない場合は、前記文書記憶手段から前記処理する文書に対応するメタデータを取得し、該メタデータに含まれる本文の断片が出現するパターンを求め、該パターンを前記パターン記憶手段に格納するパターン生成ステップと、
    を有し、
    前記パターン生成ステップにおいて、前記本文抽出装置は、
    前記メタデータに記載されている文書全てについて、
    前記処理する文書を木構造に変換し、変換した木の葉にあたる文字列ノードを結合してマッチング用文字列を生成し、該処理する文書のメタデータに含まれる本文の断片と前記マッチング用文字列をマッチングすることで、文字列が一致する区間を特定し、該変換した木において、該区間の文字列の元となったノードを特定し、該区間の文字列の元となったノードの共通の祖先を一意に表すパターンを生成する処理を行い、
    生成された前記パターンを比較し、対応する文書の本文を最も多く抽出するパターンを前記パターン記憶手段に格納する
    ことを特徴とする本文抽出方法。
  3. コンピュータを、
    請求項1に記載の本文抽出装置の各手段として機能させるための本文抽出プログラム。
JP2012116069A 2012-05-21 2012-05-21 本文抽出装置及び方法及びプログラム Expired - Fee Related JP5820770B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012116069A JP5820770B2 (ja) 2012-05-21 2012-05-21 本文抽出装置及び方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012116069A JP5820770B2 (ja) 2012-05-21 2012-05-21 本文抽出装置及び方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2013242734A JP2013242734A (ja) 2013-12-05
JP5820770B2 true JP5820770B2 (ja) 2015-11-24

Family

ID=49843559

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012116069A Expired - Fee Related JP5820770B2 (ja) 2012-05-21 2012-05-21 本文抽出装置及び方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5820770B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4231298B2 (ja) * 2003-01-14 2009-02-25 日本電信電話株式会社 情報抽出規則作成システム、情報抽出規則作成プログラム、情報抽出システム及び情報抽出プログラム
JP4381423B2 (ja) * 2007-01-22 2009-12-09 日本電信電話株式会社 文書収集装置、文書収集方法、プログラムおよび記録媒体
CN102270206A (zh) * 2010-06-03 2011-12-07 北京迅捷英翔网络科技有限公司 一种有效网页内容的抓取方法及装置
JP5225331B2 (ja) * 2010-06-30 2013-07-03 ヤフー株式会社 データ抽出装置及び方法
JP5068356B2 (ja) * 2010-09-17 2012-11-07 ヤフー株式会社 ブログ本文特定装置及びブログ本文特定方法

Also Published As

Publication number Publication date
JP2013242734A (ja) 2013-12-05

Similar Documents

Publication Publication Date Title
US7912846B2 (en) Document processing method, recording medium, and document processing system
Buttler et al. A fully automated object extraction system for the World Wide Web
CN103635897B (zh) 对运行页面进行动态更新的方法
JP5040925B2 (ja) 情報抽出規則作成支援システム、情報抽出規則作成支援方法及び情報抽出規則作成支援プログラム
CN102682098B (zh) 检测网页内容变更的方法及装置
JP2008287744A5 (ja)
JP2006120129A5 (ja)
Ferrara et al. Automatic wrapper adaptation by tree edit distance matching
CN104933162B (zh) 一种从元数据标注的csv数据到rdf数据的转换方法
CN101872350A (zh) 网页正文抽取方法和装置
JP5347965B2 (ja) Xmlデータ処理システム、該システムに用いられるデータ処理方法及びxmlデータ処理制御プログラム
CN108536683A (zh) 一种基于机器学习的论文碎片化信息抽取方法
Al-Msie'deen Tag clouds for object-oriented source code visualization
JP5820770B2 (ja) 本文抽出装置及び方法及びプログラム
CN108255895A (zh) 一种使用上下文环境规则的网页数据获取方法
JP2012059212A (ja) 抽出装置、抽出方法及び抽出プログラム
JP2008052356A (ja) ソースコード自動生成装置
CN114296726A (zh) 一种代码生成方法、装置、计算机设备和存储介质
JP6287506B2 (ja) データベースアクセス制御プログラム、データベースアクセス制御方法、及び情報処理装置
JP2013218627A (ja) 構造化文書からの情報抽出方法、装置、及びプログラム
Horie et al. Extracting differences between regular tree grammars
JP2010267081A (ja) 情報検索方法及び装置及びプログラム
JP2008129943A (ja) 構造化文書生成方法及び装置及びプログラム
JP6753190B2 (ja) 文書検索装置及びプログラム
CN104331472A (zh) 分词训练数据的构造方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141020

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150619

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150707

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150907

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150929

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151005

R150 Certificate of patent or registration of utility model

Ref document number: 5820770

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees