JP2001325284A - 表構造領域からの情報抽出方法および装置と情報抽出プログラムを記録した記録媒体 - Google Patents

表構造領域からの情報抽出方法および装置と情報抽出プログラムを記録した記録媒体

Info

Publication number
JP2001325284A
JP2001325284A JP2000140478A JP2000140478A JP2001325284A JP 2001325284 A JP2001325284 A JP 2001325284A JP 2000140478 A JP2000140478 A JP 2000140478A JP 2000140478 A JP2000140478 A JP 2000140478A JP 2001325284 A JP2001325284 A JP 2001325284A
Authority
JP
Japan
Prior art keywords
information
table structure
area
field
attribute name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000140478A
Other languages
English (en)
Inventor
Keiichi Hirota
啓一 廣田
Yutaka Sasaki
裕 佐々木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2000140478A priority Critical patent/JP2001325284A/ja
Publication of JP2001325284A publication Critical patent/JP2001325284A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 表構造領域に記述された特定分野の主要な情
報を他の情報との統合が容易であるように構造および表
記方法を統一した表形式で抽出可能にする表構造領域か
らの情報抽出方法および装置と情報抽出プログラムを記
録した記録媒体を提供する。 【解決手段】 表構造情報記憶部121に記憶されてい
る表構造情報中の各表構造要素の情報に含まれる固有情
報を認識し、分野用語辞書を用いて各表構造要素の情報
に含まれる分野用語を認識して代表表記に読み替え、各
表構造要素中の固有表現および分野用語の意味的な関係
および情報の一致を各表構造要素間で比較して表構造情
報を評価し、属性名を表す表構造要素が連なる属性名領
域とその方向および他の表構造要素が連なる属性値領域
を判定し、属性名領域に属する表構造要素と属性値領域
に属する表構造要素を対とする属性名領域の方向でまと
めた抽出情報を生成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書情報である入
力情報をコンピュータが理解することによって処理を行
う知識処理システム、自然言語処理システム、情報検索
技術システム、情報抽出システムおよび情報統合システ
ムなどに使用される特定分野の文書中の表構造領域に記
述された文字列である情報から重要情報を抽出する表構
造領域からの情報抽出方法および装置と情報抽出プログ
ラムを記録した記録媒体に関する。
【0002】
【従来の技術】文書中に記述されている重要情報を抽出
することを一般に情報抽出という。自然言語で記述され
た文書から情報抽出を行う従来装置について記述した特
許として、特願平4−316706号や特願平5−29
9269号などがある。これらの従来装置は、文書中の
文章領域に出現する抽出すべき情報の要素となる文字列
を予め与えられた前後の記述パターンに従って重要情報
として抽出するものである。
【0003】このような従来装置は、自然言語文で書か
れた文章領域を対象として情報抽出を行うものであり、
表の形式で表現された表構造領域に書かれた情報を取り
扱うことは考慮しておらず、表構造領域から情報を正し
く抽出することはできない。
【0004】
【発明が解決しようとする課題】従来の装置は、上述し
たように自然言語で書かれた文章領域を対象として情報
抽出するものであり、表形式で表現された表構造領域に
書かれた情報を取り扱うことは考慮してなく、表構造領
域から情報を正しく抽出することができないという問題
がある。
【0005】また、元々表構造で表現された情報は、作
成者によって属性名や属性値の表現方法および表として
の構造が異なるため、その他の文書中の文章から抽出し
た情報や他の文書からの情報とそのままの表構造領域の
形式では統合できないという問題がある。
【0006】本発明は、上記に鑑みてなされたもので、
その目的とするところは、表構造領域に記述された特定
分野の主要な情報を他の情報との統合が容易であるよう
に構造および表記方法を統一した表形式で適切に抽出す
ることを可能にする表構造領域からの情報抽出方法およ
び装置と情報抽出プログラムを記録した記録媒体を提供
することにある。
【0007】
【課題を解決するための手段】上記目的を達成するた
め、請求項1記載の本発明は、入力情報から特定分野に
おける主要な情報を抽出する情報抽出方法であって、行
と列からなる表構造情報を入力し、この入力された表構
造情報中の各表構造要素の情報に含まれる固有情報を認
識し、対象分野に特有の用語の意味的な関係を体系化し
た分野用語辞書を用いて、前記表構造情報中の各表構造
要素の情報に含まれる分野用語を認識し、該情報を前記
分野用語の代表表記に読み替え、前記認識された各表構
造要素中の固有表現および分野用語の意味的な関係およ
び情報の一致を各表構造要素間で比較することによって
表構造情報を評価して、属性名を表す表構造要素が連な
る属性名領域とその方向およびその他の表構造要素が連
なる属性値領域を判定し、属性名領域に属する表構造要
素と属性値領域に属する表構造要素を対とする属性名領
域の方向でまとめた抽出情報を生成することを要旨とす
る。
【0008】請求項1記載の本発明にあっては、表構造
情報中の各表構造要素の情報に含まれる固有情報を認識
し、分野用語辞書を用いて、各表構造要素の情報に含ま
れる分野用語を認識し、該情報を分野用語の代表表記に
読み替え、認識された各表構造要素中の固有表現および
分野用語の意味的な関係および情報の一致を各表構造要
素間で比較することにより表構造情報を評価し、属性名
を表す表構造要素が連なる属性名領域とその方向および
その他の表構造要素が連なる属性値領域を判定し、属性
名領域に属する表構造要素と属性値領域に属する表構造
要素を対とする属性名領域の方向でまとめた抽出情報を
生成するため、文書分野の一般的な表現に正規化し統一
した形式の抽出情報を生成でき、文書中の他の領域や他
の文書からの情報との統合が容易となる。また、多様な
分野の文書に対しても、対象とする文書から抽出すべき
主要な情報についての分野用語辞書または利用者の目的
・要求に応じた分野用語辞書を用意し、適切に分野用語
辞書を差し替えることにより、適切な形式で情報抽出を
行うことができる。
【0009】また、請求項2記載の本発明は、入力情報
から特定分野における主要な情報を抽出する情報抽出装
置であって、行と列からなる対象とする表構造情報を格
納する表構造情報記憶手段と、前記表構造情報記憶手段
に格納された表構造情報中の各表構造要素の情報に含ま
れる固有表現を認識し、固有表現の種類を特定するタグ
を付与する固有表現認識手段と、対象分野に特有の用語
の意味的な関係を体系化した分野用語辞書を格納した分
野用語辞書記憶手段と、前記表構造情報記憶手段に格納
された表構造情報中の各表構造要素の情報に対し、前記
分野用語辞書記憶手段に格納された分野用語辞書を検索
して、該情報に含まれる分野用語を認識し、代表的に用
いられる分野用語に読み替えて分野用語であることを特
定するタグを付与する分野用語認識手段と、前記表構造
情報記憶手段に格納された表構造情報中の、前記固有表
現認識手段および前記分野用語認識手段で付与したタ
グ、読み替えた代表的な分野用語および元々の情報自体
について各表構造要素間で意味的な関係の比較および一
致の判定を行うことによって表構造領域の表構造情報を
評価し、属性名を表す表構造要素が連なる属性名領域、
それ以外の表構造要素が連なる属性値領域、および属性
名領域の方向を特定する表構造情報評価手段と、前記表
構造情報評価手段によって特定された属性名領域に属す
る表構造要素と属性値領域に属する表構造要素とを関連
付け、属性名と属性値の対である属性名領域の方向でま
とめた抽出情報を生成する抽出情報生成手段とを有する
ことを要旨とする。
【0010】請求項2記載の本発明にあっては、表構造
情報中の各表構造要素の情報に含まれる固有情報を認識
し、分野用語辞書を用いて、各表構造要素の情報に含ま
れる分野用語を認識し、該情報を分野用語の代表表記に
読み替え、認識された各表構造要素中の固有表現および
分野用語の意味的な関係および情報の一致を各表構造要
素間で比較することにより表構造情報を評価し、属性名
を表す表構造要素が連なる属性名領域とその方向および
その他の表構造要素が連なる属性値領域を判定し、属性
名領域に属する表構造要素と属性値領域に属する表構造
要素を対とする属性名領域の方向でまとめた抽出情報を
生成するため、文書分野の一般的な表現に正規化し統一
した形式の抽出情報を生成でき、文書中の他の領域や他
の文書からの情報との統合が容易となる。また、多様な
分野の文書に対しても、対象とする文書から抽出すべき
主要な情報についての分野用語辞書または利用者の目的
・要求に応じた分野用語辞書を用意し、適切に分野用語
辞書を差し替えることにより、適切な形式で情報抽出を
行うことができる。
【0011】請求項3記載の本発明は、入力情報から特
定分野における主要な情報を抽出する情報抽出プログラ
ムを記録した記録媒体であって、行と列からなる表構造
情報を入力し、この入力された表構造情報中の各表構造
要素の情報に含まれる固有情報を認識し、対象分野に特
有の用語の意味的な関係を体系化した分野用語辞書を用
いて、前記表構造情報中の各表構造要素の情報に含まれ
る分野用語を認識し、該情報を前記分野用語の代表表記
に読み替え、前記認識された各表構造要素中の固有表現
および分野用語の意味的な関係および情報の一致を各表
構造要素間で比較することによって表構造情報を評価し
て、属性名を表す表構造要素が連なる属性名領域とその
方向およびその他の表構造要素が連なる属性値領域を判
定し、属性名領域に属する表構造要素と属性値領域に属
する表構造要素を対とする属性名領域の方向でまとめた
抽出情報を生成する表構造領域からの情報抽出プログラ
ムを記録媒体に記録することを要旨とする。
【0012】請求項3記載の本発明にあっては、表構造
情報中の各表構造要素の情報に含まれる固有情報を認識
し、分野用語辞書を用いて、各表構造要素の情報に含ま
れる分野用語を認識し、該情報を分野用語の代表表記に
読み替え、認識された各表構造要素中の固有表現および
分野用語の意味的な関係および情報の一致を各表構造要
素間で比較することにより表構造情報を評価し、属性名
を表す表構造要素が連なる属性名領域とその方向および
その他の表構造要素が連なる属性値領域を判定し、属性
名領域に属する表構造要素と属性値領域に属する表構造
要素を対とする属性名領域の方向でまとめた抽出情報を
生成する情報抽出プログラムを記録媒体に記録している
ため、該記録媒体を用いて、その流通性を高めることが
できる。
【0013】
【発明の実施の形態】以下、図面を用いて本発明の実施
の形態を説明する。図1は、本発明の一実施形態に係る
表構造領域からの情報抽出方法を実施する情報抽出装置
の構成を示すブロック図である。同図に示す情報抽出装
置は、入力情報である文書情報中の表構造領域から重要
な情報を抽出する装置であって、固有表現認識部10
1、分野用語認識部102、表構造情報評価部103、
抽出情報生成部104、表構造情報記憶部121、分野
用語辞書記憶部122、および抽出情報記憶部123か
ら構成されている。
【0014】表構造情報記憶部121は、対象とする表
構造領域の論理的な表構造情報を格納し、分野用語辞書
記憶部122は、対象分野に特有の用語の意味的な関係
を体系化した分野用語辞書を予め格納する。
【0015】固有表現認識部101は、表構造情報記憶
部121に記憶された表構造情報中の各表構造要素の文
字列である情報に対し、予め定義された規則に従って該
情報(文字列)中の固有表現を認識し、具体的には当該
情報(文字列)中に含まれる人名や組織名や地名といっ
た特定の名称および日付表現や時間表現、金額表現とい
った固有表現であるものを認識し、固有表現種類を表す
タグを付与し、タグを付与した情報(文字列)を表構造
情報記憶部121に格納する。なお、文字列はその上位
概念が情報であるため、上記では情報(文字列)と記載
しているが、以下では単に文字列と記載する。
【0016】分野用語認識部102は、表構造情報記憶
部121に記憶された表構造情報中の各表構造要素の文
字列に対し、分野用語辞書記憶部122に記憶された分
野用語辞書を索引し、当該文字列に該当する代表的な分
野用語を得て当該文字列を読み替え、分野用語を表すタ
グを付与した読み替え後の文字列を表構造情報記憶部1
21に格納する。
【0017】表構造情報評価部103は、表構造情報記
憶部121に記憶された表構造情報中の各表構造要素間
で、タグを付与した読み替え後の文字列および元々の文
字列について、分野用語辞書記憶部122に記憶された
分野用語辞書を用いた意味的な関係の比較および文字列
の一致の判定を行って各表構造要素の評価値を算出し、
該評価値に基づいて属性名領域に属する表構造要素と属
性値領域に属する表構造要素、および属性名領域の方向
を特定する。
【0018】抽出情報生成部104は、前記表構造情報
評価部103において判定された属性名領域に属する表
構造要素と属性値領域に属する表構造要素からなる属性
名と属性値の対を、属性名領域の方向でまとめた抽出情
報として生成し、抽出情報記憶部123に格納する。な
お、生成した抽出情報を直ちに出力する場合には、抽出
情報記憶部123への格納を省略してもよい。
【0019】なお、本発明に示した情報抽出方法によっ
て得られた表構造領域からの抽出情報を出力する方法に
ついて特に規定するものではなく、属性名と属性値の対
からなる抽出情報を一枚ずつ表形式で出力したり、ある
いは抽出情報すべてを一枚の表形式で出力することも可
能であるが、一般には、抽出情報記憶部123に記憶し
た状態そのまま、あるいは、単純な形式変換によって文
書理解プログラムや情報統合プログラムなどの他のプロ
グラムに渡され、利用されることになる。
【0020】次に、上述したように構成される本実施形
態の情報抽出装置の作用をデジタルカメラに関する新製
品紹介文書中の表構造領域を対象とする情報抽出の例に
ついて説明する。
【0021】まず、ユーザの興味の対象であるデジタル
カメラの新製品に関して記述された文書中の表構造領域
の論理的な表構造情報が表構造情報記憶部121に記憶
される。本実施形態における表構造領域の例を図2に示
す。また、表構造情報記憶部121の格納内容の例を図
3に示す。本実施形態では、表構造領域を構成する各表
構造要素について、表構造領域での行位置と列位置、文
字列を組とする表形式で表構造情報記憶部121に格納
しているが、表構造領域の論理的な表構造情報の記憶形
式を特に規定するものではない。表構造領域中の個々の
表構造要素について、位置と内容を示す表構造情報が関
連して記憶できればどのような記憶形式でもよく、他に
リスト構造やツリー構造で記憶することなどが考えられ
る。
【0022】本発明では、ユーザの興味の対象である分
野、すなわち本実施形態におけるデジタルカメラの新製
品記事に関して、関連する文書を収集する方法について
特に規定しない。例えば、電子会議室、ネットニュース
やワールドワイドウェブ、およびニュースメールなどか
ら関連する文書を収集することが考えられる。更に、本
発明では収集した関連文書中の表構造領域の認識方法お
よび表構造情報への分解方法について特に規定するもの
ではない。表構造領域中の個々の表構造要素について、
位置と内容を示す論理的な情報が得られればよい。
【0023】処理を開始すると、まず、固有表現認識部
101は、表構造情報記憶部121中の各表構造要素の
文字列に対して、該文字列中に出現する組織名や固有物
名、人名といった固有の名称、ならびに日付や時間、金
額などを表現する文字列に対して、予め準備したルール
に従って固有表現の種類を表すタグを付与して、表構造
情報記憶部121にタグ付文字列として格納する。固有
表現認識は自然言語処理の基本技術であり、例えば特願
平11−067562号「情報列に対してタグ情報を付
与するための方法および装置ならびに同方法が記録され
る記録媒体」等に記載されている方法により、容易に実
現することができる。
【0024】図3に示した表構造情報記憶部121の格
納内容の例においては、固有表現認識部101は、「D
CA−24」「DCA−96」「DCA−96S2」と
いった文字列に対して固有物名を表すタグである<AR
TIFACT>を付与し、「24枚」「96枚」「19
2枚」といった文字列に対して固有物の数を表すタグで
ある<NARTIFACT>を付与し、「64,800
円」「89,800円」といった文字列に対して金額表
現を表すタグである<MONEY>を付与し、「4月上
旬」「4月下旬」といった文字列に対して日付表現を表
すタグである<DATE>を付与し、表構造情報記憶部
121にタグ付文字列として格納する。固有表現が認識
されなかった場合は、元の文字列をタグ付文字列として
格納する。本実施形態における固有表現認識部101に
よる処理終了後の表構造情報記憶部121の格納内容の
例を図4に示す。なお、本実施形態は固有表現認識部1
01において付与するタグの種類および付与方法につい
て特に規定するものではないが、本実施形態において
は、固有表現である該文字列の前後に、<DATE>4
月上旬</DATE>のように各固有表現種類別に始ま
りを示すタグと終わりを示すタグを付与する。
【0025】次に、分野用語認識部102では、表構造
情報記憶部121中の各表構造要素の文字列に対して、
分野用語辞書記憶部122上に記憶された分野用語辞書
を検索し、該表構造要素中の分野用語に該当する文字列
を、分野用語辞書に記述された分野に代表的な分野用語
に読み替えて、分野用語であることを表すタグを付与
し、表構造情報記憶部121にタグ付文字列として格納
する。
【0026】デジタルカメラに関連した分野用語辞書
が、分野用語辞書記憶部122に予め記憶されているも
のとする。図5は、分野用語辞書記憶部122に記憶さ
れた本実施形態で用いられる分野用語辞書の一形態であ
るオントロジー辞書の一部分の例を示す。同図におい
て、個々のノードは一つの分野用語に対応し、ノード間
のリンクは分野用語間の関係を表現し、リンクに付けら
れたタグは分野用語間の関係を明確にする関係子を表
す。各ノードは、分野用語に関する情報として、該分野
用語の異表記や、同義語、類義語といった該当する単語
の情報を持つ。更に、分野用語辞書は、固有表現認識部
101で与えられるような固有表現を表すタグもノード
として持つことができるため、固有表現タグの付与され
た単語の分野用語辞書上での位置および他の分野用語と
の関係を記述することができる。また、オントロジー辞
書においてユーザの興味の対象を端的に表した語は中心
語として指定され、最も頂点にあるノードとして表現さ
れる。同図においては「デジタルカメラ」が中心語であ
る。
【0027】リンクについた関係子のタグは分野用語間
の関係を明確にするもので、例えば「Propof」
は中心語に対し付随的な属性を与える語、「Isa」
はある語に対して概念的に下位となる語、「Inst
of」はある概念的な語の実例となる語、「Val
f」はある概念的な語の実質的な値となる語、などの関
係を示す。同図において、例えばノード「メーカー」と
ノード「NT社」は「Instof」タグのついたリ
ンクにより結ばれている。これは単語「NT社」が「メ
ーカー」という概念的な語の実例として出現する場合が
あることを意味する。以下の説明では、このようなノー
ドとリンクの関係を説明文中において「NT社 Ins
of メーカー」と表記する。
【0028】なお、本実施形態では、分野用語辞書記憶
部122に格納した分野用語辞書をツリー構造で表現し
ているが、特に該記憶をツリー構造の表現として規定す
るものではなく、対象分野における主要な情報を表す分
野用語と他の分野用語との関係、分野用語に関する情報
などを関連づけて記憶できるならばどのような表現形式
でもよく、他にリスト構造やテーブル構造などで記憶す
ることが考えられる。また、本発明では、分野用語辞書
に含まれる情報の種類や形態を限定するものではない。
本実施形態では、個々の分野用語について、その標準的
な用語、同義語・類義語・異表記などの分野用語に該当
する単語、他の分野用語との関係を情報として持つもの
としているが、本発明での情報はこれらに限るものでは
ない。更に、本発明では分野用語辞書を用意する方法に
ついて特に規定するものではない。
【0029】図3に示した表構造情報記憶部121の格
納内容の例においては、分野用語認識部102は、1行
1列目の文字列「品名」を分野用語辞書記憶部122上
で検索し、該当する標準的な分野用語「製品名」で該文
字列を読み替え、分野用語を表すタグである<DTER
M>を付与して、表構造情報記憶部121にタグ付文字
列として格納する。以下、すべての表構造要素の文字列
について同様の処理を行う。本実施形態においては、2
行1列目の「撮影枚数」を「撮影枚数」に読み替え、3
行1列目の「画素数」を「CCD画素数」に読み替え、
5行1列目の「予定価格」を「標準価格」に読み替え、
5行2列目の「オープン」を「オープン価格」に読み替
え、それぞれタグを付与して、表構造情報記憶部121
にタグ付文字列として格納する。本実施形態における、
分野用語認識部102の終了後の表構造情報記憶部12
1の格納内容の例を図6に示す。なお、本実施形態は分
野用語認識部102において付与するタグの種類および
付与方法について特に規定するものではないが、本実施
形態においては、読み替えた標準的な分野用語である文
字列の前後に、<DTERM>製品名</DTERM>
のように分野用語の始まりを示すタグと終わりを示すタ
グを付与する。
【0030】次に、表構造情報評価部103は、表構造
情報記憶部121に記憶された各表構造要素について、
同列先頭の表構造要素、同列前行の表構造要素、同行先
頭の表構造要素、同行前列の表構造要素との間で、それ
ぞれ比較処理を行い、各表構造要素の評価値を計算す
る。ただし、比較先の表構造要素が存在しない場合、も
しくは比較元の表構造要素自身である場合は比較処理を
行わない。図7は比較処理の処理フローを示す図であ
る。表構造要素間の比較処理は次のように行う。
【0031】まず、比較元の表構造要素と比較先の表構
造要素の間で文字列の一致を調べ(図7のステップS7
1)、一致した場合には両表構造要素の評価値を2減算
して、比較処理を終了する(ステップS73)。一致し
なかった場合には、各表構造要素に付与されたタグなら
びに文字列を用いて分野用語辞書記憶部122に記憶し
た分野用語辞書を参照し、各表構造要素間の位置関係を
取得する(ステップS75)。両表構造要素が同一の階
層に位置する場合、すなわち両表構造要素が同一の上位
ノードを持つ場合には(ステップS77のYES)、両
構造要素の評価値を1減算して、比較処理を終了する
(ステップS79)。比較先の表構造要素が上位に位置
する場合、すなわち比較元の表構造要素に対して上位の
ノードである場合には(ステップS81のYES)、比
較元の表構造要素の評価値を2減算し、比較先の表構造
要素の評価値を2加算して、比較処理を終了する(ステ
ップS83)。比較先の表構造要素が下位に位置する場
合、すなわち比較元の表構造要素に対して下位のノード
である場合には(ステップS85のYES)、比較元の
表構造要素の評価値を2加算し、比較先の表構造要素の
評価値を2減算して、比較処理を終了する(ステップS
87)。以上のいずれの条件も満たさない場合は、その
まま比較処理を終了する。
【0032】図6に示した表構造情報記憶部122の格
納内容の例において、1行4列目の表構造要素「DCA
−96S2」についての比較処理を例として示す。まず
同列先頭の表構造要素とは自分自身であり、比較処理は
行わない。また、同列前行の表構造要素は存在しないた
め、同様に比較処理は行わない。次に、同行先頭との比
較処理を行い。同行先頭すなわち1行1列目の表構造要
素「品名」はタグ付文字列が「製品名」であり、図5に
示した分野用語辞書記憶部122に格納した分野用語辞
書によると、比較元の表構造要素のタグ<ARTIFA
CT>の上位にあたることから、1行1列目の評価値を
2加算し、1行4列目の評価値を2減算する。続いて、
同行前列との比較処理を行う。同行前列すなわち1行3
列目の表構造要素「DCA−96」はタグが<ARTI
FACT>であり、同一の階層にあることから、1行3
列目の評価値と1行4列目の評価値をそれぞれ1減算す
る。
【0033】表構造情報評価部103は、表構造情報記
憶部121中のすべての表構造要素について前記比較処
理を終了とすると、各行毎、各列毎に評価値の合計値を
算出する。次いで、表構造情報評価部103は、各行の
合計評価値および各列の合計評価値を比較して最も合計
評価値が大きい行または列を属性名領域とし、残りの行
または列すべてを属性値領域とし、属性名領域の方向を
最も合計評価値が大きい行または列の方向に特定する。
本実施形態における算出処理後の評価値情報の例を図8
に図示する。本実施形態においては、1列目の合計評価
値が24で最大値を取ることから、属性名領域は1列目
と特定し、残りの列を属性値領域とし、属性名領域の方
向を列方向と特定する。
【0034】なお、本発明における表構造情報評価部1
03は上記の方法に限るものではない。本実施形態にお
いて表構造要素の比較処理の対象を同列先頭、同列前
行、同行先頭、同行前列の4つとしたが、同じ行のすべ
ての表構造要素および同じ列のすべての表構造要素を比
較処理の対象とすることもできる。また、比較処理の種
類についても、他に同表構造要素の文字列の類似関係や
文字列の部分的な一致を比較することも考えられる。更
に、本実施形態においては比較処理の結果を評価値に対
する加算、減算で表現したが、特に評価方法を評価値の
算出式や数値に限定するものではない。他の表構造要素
に対して分野用語辞書において上位に属する表構造要素
を強調できればよく、行方向の比較処理と列方向の比較
処理を分けて評価値を算出するなどの方法も考えられ
る。
【0035】抽出情報生成部104は、前記表構造情報
評価部103によって属性名領域と判定された行または
列に属する表構造要素と、属性値領域と判定された残り
の行または列に属する表構造要素を対とする、属性名領
域の方向でまとめた組を抽出情報として生成し、抽出情
報記憶部123に格納する。なお、属性名領域の方向が
行方向であった場合には、抽出情報の行と列を入れ替え
て、抽出情報記憶部123に格納する。
【0036】本実施形態においては、表構造情報評価部
103において、1列目を属性名領域、属性名領域の方
向を列方向と特定したことから、1列目の表構造要素を
属性名、以降の各列の表構造要素を属性値とする対で、
列方向にまとめた組を抽出情報として、抽出情報記憶部
123に格納する。
【0037】次に、図9に示すフローチャートを参照し
て、本実施形態の作用を全体的に説明する。表構造情報
記憶部121に格納されている表構造情報中の各表構造
要素の文字列から固有表現認識部101により固有表現
を認識し、この固有表現として認識された文字列に固有
表現種類を表すタグを付与し、このタグの付与された文
字列を表構造情報記憶部121に格納する(ステップS
1)。次に、分野用語辞書記憶部122を用いて、表構
造情報記憶部121に格納された表構造情報中の各表構
造要素の文字列に対して該当する代表的分野用語に読み
替えて、分野用語を表すタグを付与して表構造情報記憶
部121に格納する(ステップS2)。
【0038】それから、表構造情報評価部103は、表
構造情報記憶部121に格納された表構造情報中の各表
構造要素間においてタグを付与した読み替え後の文字列
および元々の文字列について分野用語辞書記憶部122
に記憶された分野用語辞書を用いた意味的な関係の比較
および文字列の一致の判定を行って、各表構造要素の評
価値を算出し、この評価値に基づいて属性名領域に属す
る表構造要素と属性値領域に属する表構造要素および属
性名領域の方向を特定する(ステップS3)。
【0039】次に、抽出情報生成部104は、表構造情
報評価部103で特定された属性名領域に属する表構造
要素と属性値領域に属する表構造要素からなる属性名と
属性値の対を、属性名領域の方向でまとめた抽出情報と
して生成して抽出情報記憶部123に格納する(ステッ
プS4)。
【0040】この結果、抽出情報記憶部123には表構
造情報記憶部121に記憶された表構造領域からの情報
抽出結果として文書分野の一般的な表現に正規化した属
性名と属性値の対からなり、表の方向を列方向に統一し
た表形式で格納した抽出情報が図10に示すように得ら
れていることになり、この抽出情報を出力して終了す
る。
【0041】上述したように、本実施形態では、表構造
領域に記述された文字列に対して固有表現認識および分
野用語辞書を利用することにより、情報の要素となる単
語を適切に認識してタグの付与および分野に代表的な表
記への読み替えを行い、これらの認識した表構造要素間
を比較することにより属性名を表す表構造要素と属性値
を表す表構造要素を判定し、属性名と属性値を対とする
抽出情報を生成することができる。
【0042】これにより、対象とする文書から抽出すべ
き主要な情報についての適切な分野用語辞書を利用する
ことにより、文書中の他の領域や他の文書からの情報と
の統合が容易であるような表の構造および表記を統一し
た特定分野の表構造領域からの情報抽出が可能となる。
【0043】また、対象とする文書分野に適した分野用
語辞書を各分野毎に用意したり、またはすべての分野を
包括するような大規模な分野用語辞書を用意することに
より特定の分野に依存しない表構造領域からの情報抽出
が可能となる。
【0044】図11は、本発明の他の実施形態に係る表
構造領域からの情報抽出方法を実施する情報抽出装置の
構成を示すブロック図である。同図に示す情報抽出装置
は、図1に示した実施形態をネットワークで接続された
複数のコンピュータで構成したものであり、情報入力部
100、抽出情報生成部104および抽出情報記憶部1
23をクライアント端末10として構成し、固有表現認
識部101、分野用語認識部102、表構造情報評価部
103、表構造情報記憶部121および分野用語辞書記
憶部122をサーバ端末20として構成し、クライアン
ト端末10とサーバ端末20との間を通信網30で接続
したものである。
【0045】このように構成されるものにおいては、ク
ライアント端末10は情報入力部100で処理の対象と
なる入力情報を受け取り、通信網30を介してサーバ端
末20に送信する。なお、情報入力部100は、入力情
報をサーバ端末20に送信する単独に動作する図11に
示すような情報入力部に限定されるものでなく、例えば
他のプログラムなどに組み込まれた何らかの解析処理後
の入力情報をサーバ端末20に送信するようなものでも
よいものである。
【0046】サーバ端末20は、クライアント端末10
の情報入力部100から入力情報を受信すると、この受
信情報を表構造情報記憶部121に格納し、以降はこの
表構造情報記憶部121に格納された情報に対して固有
表現認識部101、分野用語認識部102、表構造情報
評価部103が図1の実施形態で説明したと同じ処理を
行う。
【0047】すなわち、固有表現認識部101は表構造
情報記憶部121に格納されている表構造情報中の各表
構造要素の文字列から固有表現を認識し、この固有実現
として認識された文字列にタグを付与して、表構造情報
記憶部121に格納する。分野用語認識部102は分野
用語辞書記憶部122を用いて表構造情報記憶部121
に格納された表構造情報中の各表構造要素の文字列に対
して該当する代表的分野用語に読み替えて、分野用語を
表すタグを付与して表構造情報記憶部121に格納す
る。
【0048】表構造情報評価部103は、表構造情報記
憶部121に格納された表構造情報中の各表構造要素間
においてタグを付与した読み替え後の文字列および元々
の文字列について分野用語辞書記憶部122に記憶され
た分野用語辞書を用いた意味的な関係の比較および文字
列の一致の判定を行って、各表構造要素の評価値を算出
し、この評価値に基づいて属性名領域に属する表構造要
素と属性値領域に属する表構造要素および属性名領域の
方向を特定し、これらの出力情報を通信網30を介して
クライアント端末10に送信する。
【0049】クライアント端末10は、サーバ端末20
からの情報を受信すると、抽出情報生成部104が表構
造情報評価部103で特定された属性名領域に属する表
構造要素と属性値領域に属する表構造要素からなる属性
名と属性値の対を、属性名領域の方向でまとめた抽出情
報として生成して抽出情報記憶部123に格納する。
【0050】図11に示す実施形態では、入力情報をク
ライアント端末10から通信網30を介してサーバ端末
20に送信することにより、クライアント端末10にお
ける処理の負荷を軽減しつつ抽出情報を生成することが
できる。また、本来は装置毎に保持しなければならない
分野用語辞書を共通のサーバ端末20で持つことにより
一括した分野用語辞書の管理が容易であるとともに、ク
ライアント端末10において分野を意識することなく抽
出処理を行うことができる。
【0051】なお、上記実施形態の表構造領域からの情
報抽出方法の処理手順をプログラムとして記録媒体に記
録して、この記録媒体をコンピュータシステムに組み込
むとともに、該記録媒体に記録されたプログラムをコン
ピュータシステムにダウンロードまたはインストール
し、該プログラムでコンピュータシステムを作動させる
ことにより、情報抽出方法を実施する情報抽出装置とし
て機能させることができることは勿論であり、このよう
な記録媒体を用いることにより、その流通性を高めるこ
とができるものである。
【0052】
【発明の効果】以上説明したように、本発明によれば、
表構造情報中の各表構造要素の情報に含まれる固有情報
を認識し、分野用語辞書を用いて各表構造要素の情報に
含まれる分野用語を認識して分野用語の代表表記に読み
替え、認識された各表構造要素中の固有表現および分野
用語の意味的な関係および情報の一致を各表構造要素間
で比較することにより表構造情報を評価し、属性名を表
す表構造要素が連なる属性名領域とその方向およびその
他の表構造要素が連なる属性値領域を判定し、属性名領
域に属する表構造要素と属性値領域に属する表構造要素
を対とする属性名領域の方向でまとめた抽出情報を生成
するので、文書分野の一般的な表現に正規化し統一した
形式の抽出情報を生成でき、文書中の他の領域や他の文
書からの情報との統合が容易となる。また、多様な分野
の文書に対しても、対象とする文書から抽出すべき主要
な情報についての分野用語辞書または利用者の目的・要
求に応じた分野用語辞書を用意し、適切に分野用語辞書
を差し替えることにより、適切な形式で情報抽出を行う
ことができる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る表構造領域からの情
報抽出方法を実施する情報抽出装置の構成を示すブロッ
ク図である。
【図2】図1に示す実施形態に使用される表構造領域の
一例を示す図である。
【図3】図2に示した表構造領域の表構造情報を図1の
情報抽出装置に使用されている表構造情報記憶部に格納
した場合の格納内容の例を示す図である。
【図4】図3に示した格納内容に対して固有表現認識部
の処理を行った後の表構造情報記憶部の格納内容の例を
示す図である。
【図5】図1に示す情報抽出装置に使用されている分野
用語辞書記憶部に格納されている分野用語辞書の例を示
す図である。
【図6】図4に示した格納内容に対して分野用語認識部
の処理を行った後の表構造情報記憶部の格納内容の例を
示す図である。
【図7】図1に示す情報抽出装置に使用されている表構
造情報評価部における比較処理を示すフローチャートで
ある。
【図8】図1に示す情報抽出装置に使用されている表構
造情報評価部による評価結果の評価値情報を示す図であ
る。
【図9】図1に示す情報抽出装置の全体的作用を示すフ
ローチャートである。
【図10】図1に示す情報抽出装置による抽出情報の出
力例を示す図である。
【図11】本発明の他の実施形態に係る表構造領域から
の情報抽出方法を実施する情報抽出装置の構成を示すブ
ロック図である。
【符号の説明】
100 情報入力部 101 固有表現認識部 102 分野用語認識部 103 表構造情報評価部 104 抽出情報生成部 121 表構造情報記憶部 122 分野用語辞書記憶部 123 抽出情報記憶部

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 入力情報から特定分野における主要な情
    報を抽出する情報抽出方法であって、 行と列からなる表構造情報を入力し、この入力された表
    構造情報中の各表構造要素の情報に含まれる固有情報を
    認識し、 対象分野に特有の用語の意味的な関係を体系化した分野
    用語辞書を用いて、前記表構造情報中の各表構造要素の
    情報に含まれる分野用語を認識し、該情報を前記分野用
    語の代表表記に読み替え、 前記認識された各表構造要素中の固有表現および分野用
    語の意味的な関係および情報の一致を各表構造要素間で
    比較することによって表構造情報を評価して、属性名を
    表す表構造要素が連なる属性名領域とその方向およびそ
    の他の表構造要素が連なる属性値領域を判定し、 属性名領域に属する表構造要素と属性値領域に属する表
    構造要素を対とする属性名領域の方向でまとめた抽出情
    報を生成することを特徴とする表構造領域からの情報抽
    出方法。
  2. 【請求項2】 入力情報から特定分野における主要な情
    報を抽出する情報抽出装置であって、 行と列からなる対象とする表構造情報を格納する表構造
    情報記憶手段と、 前記表構造情報記憶手段に格納された表構造情報中の各
    表構造要素の情報に含まれる固有表現を認識し、固有表
    現の種類を特定するタグを付与する固有表現認識手段
    と、 対象分野に特有の用語の意味的な関係を体系化した分野
    用語辞書を格納した分野用語辞書記憶手段と、 前記表構造情報記憶手段に格納された表構造情報中の各
    表構造要素の情報に対し、前記分野用語辞書記憶手段に
    格納された分野用語辞書を検索して、該情報に含まれる
    分野用語を認識し、代表的に用いられる分野用語に読み
    替えて分野用語であることを特定するタグを付与する分
    野用語認識手段と、前記表構造情報記憶手段に格納され
    た表構造情報中の、前記固有表現認識手段 および前記分野用語認識手段で付与したタグ、読み替え
    た代表的な分野用語および元々の情報自体について各表
    構造要素間で意味的な関係の比較および一致の判定を行
    うことによって表構造領域の表構造情報を評価し、属性
    名を表す表構造要素が連なる属性名領域、それ以外の表
    構造要素が連なる属性値領域、および属性名領域の方向
    を特定する表構造情報評価手段と、 前記表構造情報評価手段によって特定された属性名領域
    に属する表構造要素と属性値領域に属する表構造要素と
    を関連付け、属性名と属性値の対である属性名領域の方
    向でまとめた抽出情報を生成する抽出情報生成手段とを
    有することを特徴とする表構造領域からの情報抽出装
    置。
  3. 【請求項3】 入力情報から特定分野における主要な情
    報を抽出する情報抽出プログラムを記録した記録媒体で
    あって、 行と列からなる表構造情報を入力し、この入力された表
    構造情報中の各表構造要素の情報に含まれる固有情報を
    認識し、 対象分野に特有の用語の意味的な関係を体系化した分野
    用語辞書を用いて、前記表構造情報中の各表構造要素の
    情報に含まれる分野用語を認識し、該情報を前記分野用
    語の代表表記に読み替え、 前記認識された各表構造要素中の固有表現および分野用
    語の意味的な関係および情報の一致を各表構造要素間で
    比較することによって表構造情報を評価して、属性名を
    表す表構造要素が連なる属性名領域とその方向およびそ
    の他の表構造要素が連なる属性値領域を判定し、 属性名領域に属する表構造要素と属性値領域に属する表
    構造要素を対とする属性名領域の方向でまとめた抽出情
    報を生成することを特徴とする表構造領域からの情報抽
    出プログラムを記録した記録媒体。
JP2000140478A 2000-05-12 2000-05-12 表構造領域からの情報抽出方法および装置と情報抽出プログラムを記録した記録媒体 Pending JP2001325284A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000140478A JP2001325284A (ja) 2000-05-12 2000-05-12 表構造領域からの情報抽出方法および装置と情報抽出プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000140478A JP2001325284A (ja) 2000-05-12 2000-05-12 表構造領域からの情報抽出方法および装置と情報抽出プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2001325284A true JP2001325284A (ja) 2001-11-22

Family

ID=18647762

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000140478A Pending JP2001325284A (ja) 2000-05-12 2000-05-12 表構造領域からの情報抽出方法および装置と情報抽出プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2001325284A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009146397A (ja) * 2007-11-19 2009-07-02 Omron Corp 重要文抽出方法、重要文抽出装置、重要文抽出プログラムおよび記録媒体
JP2010015202A (ja) * 2008-06-30 2010-01-21 Yahoo Japan Corp 情報収集方法、装置及びプログラム
JP2010015203A (ja) * 2008-06-30 2010-01-21 Yahoo Japan Corp Web検索支援方法、装置及びプログラム
US7953592B2 (en) 2005-09-29 2011-05-31 Kabushiki Kaisha Toshiba Semantic analysis apparatus, semantic analysis method and semantic analysis program
JP2017201482A (ja) * 2016-05-06 2017-11-09 日本電信電話株式会社 分類器学習装置、表種類分類装置、方法、及びプログラム
JP2021077393A (ja) * 2021-01-26 2021-05-20 株式会社Xaion Data オープンデータを効率的に構造化し補正する方法及びプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7953592B2 (en) 2005-09-29 2011-05-31 Kabushiki Kaisha Toshiba Semantic analysis apparatus, semantic analysis method and semantic analysis program
JP2009146397A (ja) * 2007-11-19 2009-07-02 Omron Corp 重要文抽出方法、重要文抽出装置、重要文抽出プログラムおよび記録媒体
JP2010015202A (ja) * 2008-06-30 2010-01-21 Yahoo Japan Corp 情報収集方法、装置及びプログラム
JP2010015203A (ja) * 2008-06-30 2010-01-21 Yahoo Japan Corp Web検索支援方法、装置及びプログラム
JP2017201482A (ja) * 2016-05-06 2017-11-09 日本電信電話株式会社 分類器学習装置、表種類分類装置、方法、及びプログラム
JP2021077393A (ja) * 2021-01-26 2021-05-20 株式会社Xaion Data オープンデータを効率的に構造化し補正する方法及びプログラム
JP7116940B2 (ja) 2021-01-26 2022-08-12 株式会社Xaion Data オープンデータを効率的に構造化し補正する方法及びプログラム

Similar Documents

Publication Publication Date Title
CN109492077B (zh) 基于知识图谱的石化领域问答方法及系统
US7519903B2 (en) Converting a structured document using a hash value, and generating a new text element for a tree structure
CN101978348A (zh) 管理关于近似串匹配的档案
US11093520B2 (en) Information extraction method and system
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN109471949A (zh) 一种宠物知识图谱的半自动化构建方法
CN113032552A (zh) 一种基于文本摘要的政策要点抽取方法与提取系统
CN115344666A (zh) 政策匹配方法、装置、设备与计算机可读存储介质
CN110990003B (zh) 一种基于词嵌入技术的api推荐方法
Li et al. Neural Chinese address parsing
JP3832693B2 (ja) 構造化文書検索表示方法及び装置
KR102575507B1 (ko) 인공지능을 활용한 기사 작성 솔루션 및 장치
CN114462384A (zh) 一种面向数字对象建模的元数据自动生成装置
JP2000276487A (ja) 事例蓄積・検索装置、並びに事例蓄積方法および事例検索方法、並びに事例蓄積プログラムを記録したコンピュータで読取可能な記録媒体および事例検索プログラムを記録したコンピュータで読取可能な記録媒体
CN117574898A (zh) 基于电网设备的领域知识图谱更新方法及系统
JP2001325284A (ja) 表構造領域からの情報抽出方法および装置と情報抽出プログラムを記録した記録媒体
Liu et al. An XML-enabled data extraction toolkit for web sources
CN111475607B (zh) 一种基于Mashup服务功能特征表示与密度峰值检测的Web数据聚类方法
JP2001188678A (ja) 言語事例推論装置,言語事例推論方法及び言語事例推論プログラムが記述された記憶媒体
CN116304347A (zh) 一种基于群智知识的Git命令推荐方法
CN116127013A (zh) 一种个人敏感信息知识图谱查询方法和装置
JP2010170287A (ja) データ抽出システム
CN114840657A (zh) 一种基于混合模式的api知识图谱自适应构建及智能问答方法
JP2022190845A (ja) エンティティとインテントとコーパスの自動生成装置及びプログラム
JP2001325104A (ja) 言語事例推論方法、言語事例推論装置及び言語事例推論プログラムが記録された記録媒体