JP2001134576A - 事実データ統合方法および装置 - Google Patents

事実データ統合方法および装置

Info

Publication number
JP2001134576A
JP2001134576A JP31076699A JP31076699A JP2001134576A JP 2001134576 A JP2001134576 A JP 2001134576A JP 31076699 A JP31076699 A JP 31076699A JP 31076699 A JP31076699 A JP 31076699A JP 2001134576 A JP2001134576 A JP 2001134576A
Authority
JP
Japan
Prior art keywords
data
unit
reliability
fact
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP31076699A
Other languages
English (en)
Other versions
JP3888812B2 (ja
Inventor
Jun Ibuki
潤 伊吹
Akira Ochitani
亮 落谷
Fumito Nishino
文人 西野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP31076699A priority Critical patent/JP3888812B2/ja
Priority to US09/669,897 priority patent/US7181471B1/en
Publication of JP2001134576A publication Critical patent/JP2001134576A/ja
Application granted granted Critical
Publication of JP3888812B2 publication Critical patent/JP3888812B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99951File or database maintenance
    • Y10S707/99952Coherency, e.g. same view to multiple users

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 テキスト中の誤った記述や抽出処理の誤りに
起因する抽出データ中の誤りやバラツキの誤り部分を排
除して、適切なデータの集積を行なうこと。 【解決手段】 データ抽出部1により、対象とする事
物、属性名、属性値の3つ組によって規定される事実デ
ータをテキストから抽出し、抽出された事実データにつ
いて、データ集計部2でテキスト全体にわたり同種のデ
ータをまとめ、生起回数を集計する。不整合検出部3は
データ集計部2において集計されたデータ集合を走査し
て両立し得ない不整合データ群を検出し、正誤判定部4
において、不整合データ群の中でどれが正しいデータで
あるかを判断する。最小データ集積部5は、正しいデー
タを集積して出力する。また、事実データをテキストか
ら抽出する際にデータに信頼度を付与し、データに付与
された信頼度を利用してデータ群中の各データの正誤の
判断を行なうこともできる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書中の事実の記
述を抽出して整合性をもつデータの集合としてデータべ
−ス化したり、また事実データの矛盾点から対応する元
テキストの持つ誤りの検出や訂正をする事実データ統合
方法および装置に関する。
【0002】
【従来の技術】テキスト中の情報の抽出技術としては従
来から種々の方法が提案されており、例えば、新製品の
情報、組織体情報等の予め決められた枠組に従ったデー
タの場合は、テキスト中の表現形式と抽出されるデータ
との対応表を保持しておき、テキストを走査して規定さ
れた表現形式にマッチした時に対応するデータを取り出
すことが行なわれている。例えば、図20(a)に示す
ような対応表を保持しておき、入力テキストを走査し
て、同図(b)(c)に示すように「対象事物」、「属
性名」、「属性値」からなる事物データを抽出する。こ
の例の場合には、入力テキストの「C社の新社長」、
「D氏に決定した」がそれぞれ対応表の*1,*2にマ
ッチするので、同図(d)に示すように対象事物として
は「C社」、属性名として「代表者」、属性値として
「D氏」が抽出される。一方、誤りの訂正技術に関して
は、テキスト中に存在する表記レベルの誤りに対象を限
った場合には様々な技術が既に存存している。例えば、
テキスト中に存在する表現を登録しておき未登録語を指
摘したり、表記の揺れの指摘などの方法が知られてい
る。
【0003】
【発明が解決しようとする課題】上述のようにテキスト
からの事実データの抽出は広く行なわれているが、見た
い情報がテキスト中の一箇所からの情報だけで得られる
とは限らないので一般にはテキスト全体からのデータを
統合することが必要となる。ところが、テキスト自体の
含む誤り、あるいは抽出処理の誤り等によって一般には
抽出されるデータ中にかなりの誤り(あるいはデータの
不統一)が存在し、これらを人手でチェックして除いた
り、書き換える必要があるために単純に集計することが
できなかった。本発明は上記した事情を考慮してなされ
たものであって、テキスト中の誤った記述や抽出処理の
誤りに起因する抽出データ中の誤りやバラツキの訂正や
標準化を行うことにより、適切なデータの集積を可能と
することを目的とする。
【0004】
【課題を解決するための手段】図1は本発明の基本構成
を示すブロック図である。同図において、1は対象とす
る事物、属性名、属性値の3つ組によって規定される事
実データをテキストから抽出するデータ抽出部、2は同
種のデータをまとめ、生起回数を集計するデータ集計
部、3はデータ集計部において集計されたデータ集合を
走査して両立し得ない不整合データ群を検出する不整合
検出部、4は不整合データ群の中でどれが正しいデータ
であるかを判断する正誤判定部、5はデータ集計部にお
いて集計された正しいデータ、および、正誤判定部にお
いて正しいデータと判断されたデータを集計する最終デ
ータ集積部である。また、6は事実データをテキストか
ら抽出する際にデータに信頼度を付与する信頼度付与
部、7は互いに似ているデータを統合して、一つのデー
タに統合するデータ統合部、8は予め登録された誤りパ
ターンに合致した事実データを誤りとして棄却する誤り
パターン除去部、9は正誤判定部における正誤判定方法
を決定する判定方法決定部である。
【0005】図1に示すように本発明においては、次の
ようにして前記課題を解決する。 (1)対象とする事物、属性名、属性値の3つ組によっ
て規定される事実データをテキストから抽出するデータ
抽出部1と、データ抽出部1で抽出された事実データに
ついて、テキスト全体にわたり同種のデータをまとめ、
生起回数を集計するデータ集計部2と、データ集計部2
において集計されたデータ集合を走査して両立し得ない
不整合データ群を検出する不整合検出部3と、不整合検
出部3で検出された不整合データ群の中でどれが正しい
データであるかを判断する正誤判定部4と、データ集計
部2において集計された正しいデータ、および、正誤判
定部において正しいデータと判断されたデータを集計す
る最終データ集積部5とを設け、抽出された事実データ
から誤りデータを排除して適切なデータの集積を可能と
する。 (2)上記(1)において、事実データをテキストから
抽出する際にデータに信頼度を付与する信頼度付与部6
を設け、データ集計部2において生起回数を集計する
際、集計されたデータの信頼度を個々のデータの信頼度
から計算して集計結果に付与し、正誤判定部4におい
て、上記データに付与された信頼度を利用してデータ群
中の各データの正誤の判断を行なうことにより正誤判断
の精度を高める。 (3)上記(2)において、上記信頼度付与部6を、テ
キストから事実データを抽出する際に抽出の対象となっ
たテキストの持つイベント情報の種類を判定するイベン
ト型抽出部と、イベント型と信頼度の対応表に基づき、
イベント型から信頼度を評価する信頼度評価部とから構
成し、正確な信頼度を付与する。 (4)上記(2)において、上記信頼度付与部6を、テ
キスト中の抽出対象とする対象事物に対しての注目度を
計算する注目度評価部と、上記注目度に基づき、データ
の信頼度を評価する信頼度評価部とから構成し、正確な
信頼度を付与する。 (5)上記(2)において、上記信頼度付与部6を、テ
キストの発行社、著者等の書誌情報と該テキストに記述
される各データの信頼度を対応付ける書誌情報と信頼度
の対応表と、テキスト中からデータの抽出を行なう際、
上記書誌情報と信頼度の対応表を参照して該テキストの
書誌情報からテキストの信頼度を評価する信頼度評価部
とから構成し、作者、発行社等による一般的な傾向を考
慮した信頼度を付与する。 (6)上記(5)において、データ抽出部1によって抽
出する事実データに正誤フラグを付与し、正誤フラグを
付加させた正誤のフラグつきの事実データを入力し、事
実データの属性名毎に特定の属性値をとるデータの正誤
の期待値を計算し、書誌情報と信頼度の対応表を生成す
ることにより、属性値と信頼度の対応表を半自動的にテ
キストから生成する。 (7)上記(1)〜(6)において、対象事物、属性名
と、正誤判定の際に利用する判定方法とを対応付けた属
性・判定方法対応表と、上記属性・判定方法対応表に基
づき、属性名に応じた正誤判定方法を決定する判定方法
決定部とを設け、不整合データ群が入力された際、上記
判定方法決定部により指定された判定方法を用いて正誤
判定部により正誤判定を行うことにより、属性に応じた
柔軟な正誤判断を行なう。 (8)上記(1)〜(7)において、データ抽出部1と
不整合検出部の間に誤りパターン除去部を設け、誤りパ
ターン除去部8において、データ抽出部1で抽出された
事実データと、予め登録された誤りパターンとを照合す
ることにより個々のデータ毎に正誤の判断を行ない、抽
出された事実データが予め登録された誤りパターンに合
致した時に誤りと判断して棄却し、問題がないとされた
データのみを不整合検出部に送ることにより、単独で判
断可能な誤りの除去を行なう。 (9)上記(1)〜(6)において、データ集計部2の
後にデータ統合部7を設け、データ統合部7において、
互いに似ているデータを統合して、一つのデータに統合
した後に不整合検出部3に渡すことにより、同じ事物の
異なる表現による揺らぎを吸収する。
【0006】
【発明の実施の形態】以下本発明の実施の形態について
説明する。図2は本発明の事実データ統合処理を行うた
めのシステムの構成例を示す図である。同図において、
101はCRT、液晶ディスプレイ等の表示装置、キー
ボード、マウス等の、文字、記号、命令等を入力するた
めの入力装置から構成される入出力装置、102はCP
U、103はROM、RAM等から構成されるメモリ、
104はプログラム、データ等を記憶する外部記憶装
置、105はフロッピィディスク、MO、CD−ROM
等の可搬型記憶媒体にアクセスしてデータの読み出し/
書き込みを行う媒体読み取り装置、106は電話回線を
使用してデータ通信をするためのモデム、LAN等のネ
ットワークを使用してデータ通信を行うためのネットワ
ークカード等を含む通信インタフェースである。外部記
憶装置104には本発明の事実データ統合処理を行うプ
ログラム、事実データを抽出するテキストデータが格納
されており、また、事実データ統合処理を行った結果得
られた統合データ等が格納される。
【0007】図3は本発明の第1の実施例の機能ブロッ
ク図であり、同図により本発明の第1の実施例について
説明する。図3において、11はテキスト中の事実デー
タに関する記述を解析し、事実データとして抽出するデ
ータ抽出部、12はデータ抽出部11において抽出され
た事実データの内、同じデータを一つにまとめて各事実
データの生起回数を計数するデータ集計部、13はデー
タ不整合検出部であり、テキスト中から抽出された事実
データ集合中における不整合(例えば、両立できないよ
うな事実データの組み合わせ)を捜し出す。14はデー
タ不整合検出部13で検出された不整合データのどれが
正しくどれが誤っているかを判断する正誤判定部、15
は正しいと検証されたデータを集積して提示する最終デ
ータ集積部である。
【0008】図3において、テキストデータが入力され
ると、データ抽出部12では、前記従来例で説明したよ
うに、テキスト中の記述を解析し、事実データとして抽
出する。図4(a)は、前記図20(a)に示した対応
表を用い、テキスト中から該対応表に規定された表現形
式の事実データを抽出した場合におけるデータ抽出部1
2の出力例であり、前記した対応表によれば図4(a)
に示すように対象事物(A社、F社、…、H社)、属性
名(代表者、…、所在)、属性値(B、G、…、C国)
からなる事実データが抽出される。データ集計部12で
は、上記事実データをソートして同じデータをまとめ、
各事実データの生起回数を計数する。図4(b)は同図
(a)に示した事実データについてのデータ集計部12
の出力例を示す図であり、同図に示すように「対象事
物」、「属性名」、「属性値」と、それらが一致する事
実データの生起回数が出力される。
【0009】不整合検出部13は、事実データ集合中で
の不整合データを検出する。そのため例えば次のような
処理を行う。 i) データ集合中で全ての対象事物に対して以下の操作
を繰り返す。 ii)選択した対象事物のもつ全ての属性名について以下
の操作を繰り返す。 iii)同じ属性名に対応する属性値が複数存在すれば、そ
のデータ群を不整合データ群として出力し、それ以外は
整合データとして出力する。
【0010】図4(c)は不整合検出部13において不
整合データとして検出された不整合データ例を示す図で
あり、同図に示すようにデータ集計部12で集計された
事実データの内、対象事物「A社」、属性名「代表」に
ついて、B氏とD氏の2種類の値があるので、属性値
「B」と「D」が不整合データとして検出され正誤判定
部14に送られる。また、データ集計部12で集計され
た残りのデータは、整合データとして最終データ集積部
15に送られる。正誤判定部14では不整合データにつ
いてどれが正しくどれが誤っているかを判断する。これ
については次のように様々なアルゴリズムが考えられ
る。 i)群中の最大生起回数をもつデータを正しいと判断し、
他を誤りとする。 ii) 特定の閾値以上の生起回数をもつデータを正しいと
判断し他を誤りとする。
【0011】図4(d)は正誤判定部14の出力例を示
す図であり、同図は図4(c)の不整合データについ
て、上記i)のアルゴリズムにより正誤判定をした場合の
出力例を示している。不整合データとして検出された対
象事物「A社」、属性名「代表」の属性値「B」、
「D」の内、属性値「B」の生起回数が2件、「D」の
生起回数が1件であるので、この例では、図4(d)に
示すように属性値「B」が「正」として採用され、属性
値「D」が誤りとして棄却される。
【0012】最終データ集積部15では、上記不整合検
出部13から整合データとして送られてきたデータおよ
び正誤判定部14で正しいデータとして判定されたデー
タを集積して提示する。図4(e)は最終データ集積部
15の出力例を示す図であり、同図に示すように、デー
タ集計部12で集計されたデータの内、不整合データ検
出部13から整合データとして送られてきたデータおよ
び正誤判定部14で正しいとして判定されたデータが正
しいデータとして出力される。
【0013】図5は本実施例の処理を示すフローチャー
トであり、同図により上記処理を説明する。図5におい
て、ステップS1において、入力されたテキストデータ
の事実データに関する記述を解析して事実データとして
抽出し、例えば前記図4(a)に示したような事実デー
タを得る。ステップS2において、抽出された事実デー
タを対象事物、属性名、属性値についてソートし、ソー
トしたデータをカウントする。その結果、前記図4
(b)の示したデータが得られる。
【0014】ステップS3において、ソートされた対象
事物を一つ取り出す。ステップS4において、取り出し
た対象事物のなかの一つの属性名を選択し、ステップS
5においてその整合性をチェックする。そして、例えば
前記図4(c)に示したような不整合データが検出され
た場合には、ステップS6に行き、前記,に示した
アルゴリズムにより不整合データの正誤判定を行い、誤
ったデータを棄却する。また、データが整合している場
合には、ステップS7において、整合データを集積す
る。ステップS8において、属性名についての整合性チ
ェックが尽くされたかを判定し、尽くされていない場合
には、ステップS4に戻り上記処理を繰り返す。また、
属性名の整合性チェックが尽くされた場合には、ステッ
プS9において、対象事物についての整合性チェックが
尽くされたかを判定し、尽くされていない場合には、ス
テップS3に戻り上記処理を繰り返す。また、対象事物
についての整合性チェックが尽くされた場合には処理を
終了する。
【0015】図6は本発明の第2の実施例の機能ブロッ
ク図であり、本実施例は、第1の実施例において、信頼
度付与部を設け、テキストデータの信頼度を付与し信頼
度に基づき正誤判断を行うようにしたものである。同図
において、データ抽出部11は前記したように、テキス
ト中の事実データに関する記述を解析し、データとして
抽出する。また、信頼度付与部16はデータ抽出の対象
となるテキストのもつ情報を利用して抽出したデータの
信頼度の評価を行う。
【0016】具体的な評価方法としては例えば次のよう
な手法を用いることができる。 イベント型による信頼度の評価 部分テキストからイベント型を抽出しこれにより部分テ
キストの信頼度を評価する。 注目度による信頼度の評価 対象事物のテキスト中における注目度に着目し、信頼度
の評価を行う。 書誌情報による信頼度の評価 テキストのもつ書誌情報(著者、発行媒体等)によって
信頼度を評価する。例えば、テキストが新聞記事の場合
にはその新聞が一般紙か、スポーツ紙か等のニュースソ
ースによって信頼度を評価する。
【0017】次に、データ集計部12では信頼度付のデ
ータのデータ集計を行なうため、個々の信頼度からデー
タ集計としての信頼度を計算する。このアルゴリズムと
しては次のようなものが考えられる。 i)個々のデータの信頼度の内で最大のものをデータ集計
の信頼度とする。 ii) 個々のデータの信頼度の平均をデータ集計の信頼度
とする。 正誤判断部15においてはデータ集計のもつ信頼度、生
起回数を元にしてどのデータが正しいかの判断を行な
う。このアルゴリズムとしては次のようなものが考えら
れる。 i)個々のデータの信頼度の内で最大のものを正しいとし
残りを全て誤りとする。 ii) 信頼度の閾値を定め、特定の値以上の信頼度をもつ
データを正しいとする。
【0018】図7は図6に示した信頼度付与部16の第
1の内部構成例を示す図であり、この例は上記のイベ
ント型により信頼度を評価する場合の構成を示してい
る。図7において、11は前記したテキストから事物デ
ータを抽出するデータ抽出部であり、データ抽出部11
は前述したようにテキスト中の事実データに関する記述
を解析し、データとして抽出する。例えば、原文が図8
(a)に示すように「A社の代表に…」、「A社のD社
長が…」、「A社はBを…」の場合、同図に示すように
「対象事物」として、「A社」、「属性名」として「代
表」、「製品」、「属性値」として「B氏」、「D社
長」、「B」が抽出される。
【0019】16は信頼度付与部であり、信頼度付与部
16におけるイベント型抽出部16aは原文から図8
(b)に示すようなキーワード群を抽出し、図8(c)
に示すキーワード・イベント対応表16cを参照して、
テキスト中に存在するキーワードが表中の値とマッチし
た場合に対応するイベント型をもつと判断する。その結
果、図9(e)に示すように抽出対象となった部分テキ
ストからイベント型が抽出される。信頼度評価部16b
では図8(d)に示すイベント型・信頼度対応表16d
を参照して、図9(f)に示すようにイベント型によ
り、事実データのもつべき信頼度を評価する。また、イ
ベント型に対応しないものは、default として信頼度を
例えば0.5とする。以上のようにして信頼度を付与す
ることにより、例えば死亡記事は特に人物データに入念
なチェックがかかるため人事異動等に関する記事より信
頼度が高いなどの知識を利用して、正確な信頼度の評価
を行うことができる。
【0020】図10は上記信頼度付与部の第2の内部構
成例を示す図であり、この例は前記の注目度により信
頼度を評価する場合の構成を示している。図10におい
て、11は前記したように事物データ自体の抽出を行な
う事物データ抽出部、16は信頼度付与部であり、16
eは抽出対象となった事物のテキスト中における注目度
の評価を行なう注目度評価部、16fは注目度により信
頼度を評価する信頼度評価部である。
【0021】注目度評価部16eにおける注目度の評価
手法としては、次のようなアルゴリズムが考えられる。 i)対象事物の直後につく助詞を調べ、かかり助詞
「は」、「も」等がついた事物の注目度を最も高い値と
し、それ以外の場合注目度を低い値とする。例えば、図
11(a)に示すように、注目度を上記かかり助詞がつ
いた主語は0.8、目的語は0.5、その他の要素は
0.4のように定め、図11(b)に示すように、原文
中の事物データが上記主語であるか、目的語であるか、
その他の要素であるかを判定し、それに応じて注目度を
設定する。 ii) 対象事物のテキスト中の位置(先頭から何番目の単
語であるか)を数え、それを位置と注目度の対応表を利
用して注目度を評価する。例えば、図11(c)に示す
ように、単語の位置と注目度の対応表を用い、原文中の
事物データの位置に応じて、注目度を設定する。信頼度
評価部16fは、上記のようにして抽出された注目度を
利用して、事実データの持つべき信頼度を計算する。基
本的には、注目度の高い事物に対する信頼度が上がるよ
うに評価アルゴリズムを設定する。例えば、図11
(d)に示すように、注目度が閾値αより大きいか否か
を調べ、それに応じて信頼度を付与する。以上のよう
に、係り助詞や対象事物のテキスト中の位置等の情報を
利用して注目されている事物の信頼度を上げることによ
り正確な正誤の判断ができる。
【0022】図12は上記信頼度付与部の第3の内部構
成例を示す図であり、この例は前記の書誌情報により
信頼度を評価する場合の構成を示している。図12にお
いて、11は前記したように事物データ自体の抽出を行
なうデータ抽出部、16は信頼度付与部であり、信頼度
付与部16の信頼度評価部16gは、テキストの持つ書
誌情報(発行元、著者等)を入力として受け、書誌情報
・信頼度の対応表16hを利用して事実データのもつべ
き信頼度を調べる。例えば、テキストの信頼度を発行元
により評価し、信頼性の高い発行元であるか否かにより
対応した信頼度を付与する。
【0023】以下、図13の具体例により説明する。例
えば、図13(a)に示すように原テキストの記述に対
応した書誌情報(発行元)がそれぞれ「A新聞社」、
「B新聞社」、「C通信社」であり、書誌情報・信頼度
の対応表16hが例えば図13(b)に示すように「A
新聞社」、「B新聞社」、「C通信社」についてそれぞ
れ信頼度が0.6、0.8、0.9として設定されてい
る場合、信頼度付与部16は上記書誌情報・信頼度の対
応表16hにより各テキストに信頼度を付与し、データ
抽出部11から出力される事物データには、図13
(c)に示すようにそのニュースソースに応じた信頼度
が付与される。
【0024】前記図2に示したデータ集計部12では前
記したi)またはii) のアルゴリズムにより上記信頼度付
き事実データを集計し、不整合検出部13に渡す。不整
合検出部13では、図13(c)の事実データの内、A
社の代表が「B」と「D」で不整合であるので、図13
(d)に示すように上記A社の代表の「B」と「D」を
不整合データとして、信頼度を付して正誤判定部14へ
出力する。正誤判定部14では、例えば前記i)またはi
i) のアルゴリズムを用いて、正誤判定を行う。例え
ば、前記i)の「群内で信頼度の最も高いものを正として
選択し、他のデータを誤りとする」を用いて正誤判定を
行う場合には、図13(e)に示すようにA社の代表の
「B」を誤りとして棄却し、「D」を正としてデータ集
積部15へ出力する。その結果、データ集積部15から
は図13(f)に示すデータが出力される。
【0025】図14は、図12に示した信頼度付与部に
おける書誌情報・信頼度の対応表16hを生成するため
の構成例を示している。図14において、書誌情報属性
走査部17には正誤のフラグ付きの事実データが入力さ
れる。正誤のフラグは、事実データが正しいか否かを示
すフラグであり、例えば人手で予め付与しておいたりあ
るいは他のシステムで自動的に付与するようにしてもよ
い。書誌情報属性走査部17は書誌情報等の各属性の値
毎にデータ全体を探索し、その属性の持つ事実データを
抽出する。例えば、前記した「A新聞社」、「B新聞
社」、「C通信社」、…等のニュースソースについての
信頼度を得る場合には、上記新聞社、通信社毎にデータ
全体を探索し、正誤フラグが付されている事実データを
抽出する。
【0026】信頼度評価部18は、上記書誌情報属性走
査部17において抽出された事実データについて、正誤
フラグを元にデータの正解率を計算し、各書誌情報毎の
信頼度を得る。これにより、例えば、上記した「A新聞
社」、「B新聞社」、「C通信社」、…のそれぞれの信
頼度を得ることができる。データ登録部19は上記信頼
度評価部18において求めた信頼度を書誌情報・信頼度
の対応表16hに登録し、データベース化する。上記の
ようにして書誌情報・信頼度の対応表16hを生成する
ことにより、人手で対応表へデータを登録する手間を省
くことができる。
【0027】図15は本発明の第3の実施例を示す図で
あり、本実施例は、前記図3、図6において、判定方法
決定部20を設けて、正誤判定部15における判定方法
を決定するようにしたものであり、その他の構成は前記
図3、図6と同じである。図15において、不整合検出
部14に不整合データ群が入力されるとまず判定方法決
定部20において、事実データの対象事物、属性名を調
べる。ついで、判定方法決定部20は、属性・判定方法
対応表21を参照し、正誤判断のための方法を決定す
る。属性・判定方法対応表21は、対象事物、属性名と
それに応じた判定方法が予め登録されている。
【0028】例えば、属性・判定方法対応表21には、
属性名が「部長」のように該当する人間が複数いる可能
性のある場合には、「一定の閾値以上の信頼度をもつデ
ータは全て正しいとする」というような第1の判定方法
が登録され、また、属性名が「社長」のように1人しか
いない場合には、「信頼度が最も高いデータのみを正し
いとする」というような第2の判定方法が登録されてお
り、判定方法決定部20は、属性名が「部長」の場合に
は上記第1の判定方法を指定し、属性名が「社長」の場
合には上記第2の判定方法を指定する。正誤判定部15
は判定方法決定部20において指定された正誤判定方法
によりデータ群内の各データの正誤の判定を行う。以上
のようにして正誤判定を行うことにより、会社の部長の
ように複数の値をもつことが可能なデータと社長のよう
にユニークな値をもつことしか許されないデータに対し
て独自の正誤判断をすることが可能となる。
【0029】図16は、本発明の第4の実施例を示す図
であり、本実施例は、前記第1、第2の実施例におい
て、誤りパターン除去部22を設け単独のデータとして
誤りであると判断されるデータを棄却するようにしたも
のであり、その他の構成は前記図3、図6と同じであ
る。図16において、データ集計部12と不整合検出部
13の間に誤りパターン除去部22が設けられており、
誤りパターン除去部22は、データ集計部12からデー
タが与えられたとき、誤りパターンデータベース23を
参照して、単独のデータとして誤りであると判断される
データを棄却する。
【0030】図17は図16に示した誤りパターン除去
部22における誤りパターンの判断例を示す図である。
この例では、電話番号における誤りパターンとして、頭
が0でない数字が来るものを規定して誤りを検出する例
を示している。例えば、データ抽出部11により抽出さ
れたデータが図17(a)に示すようにA社とB社の電
話番号である場合、誤りパターン除去部22では、誤り
パターンデータベース23を参照し、電話番号について
の誤りパターンと比較する。ここでは、誤りパターンデ
ータベース23に図17(b)に示す誤りパターンが登
録されていたとする。ここで、図17(b)は0で始ま
らない電話番号は誤りであることを正規表現で表記した
ものである。誤りパターン除去部22で図17(a)に
示す電話番号と、図17(b)に示す誤りパターンを比
較すると、B社の電話番号「119−0003」は0以
外の数字で始まっているので、誤りであると判定され、
図17(c)に示すようにB社の電話番号が棄却され
る。
【0031】図18は本発明の第5の実施例を示す図で
あり、本実施例はデータ統合部を設け、類似の属性値を
持つデータの統合を行なうことにより、表記の揺れに対
処するようにしたものであり、その他の構成は前記図6
と同じである。図18において、データ集計部12と不
整合検出部13の間にデータ統合部24が設けられてお
り、データ統合部24は、データ揺れデータベース25
を参照して類似の属性値を持つデータの統合を行なう。
これにより、表記の揺れによって実際には大量に生起し
ているのに各表記に対してはあまり多くの生起例がない
ように見られ正誤の判断を誤る場合に対処することがで
きる。
【0032】図19は本実施例の処理例である。データ
抽出部11において図19(a)に示すようなデータが
抽出されると、データ統合部24では、類似の値を持つ
データの統合を行なう。この例ではデータ揺れデータベ
ース25に、人名データの統合条件として「姓名が示さ
れた人名と、姓のみの人名は類似データとして統合可
能」という条件が設定されているとする。データ統合部
24は、データ揺れデータベース25を参照して上記条
件により、A社の属性名「代表」の属性値として「山田
一郎」をもつデータと「山田」をもつデータを統合す
る。その結果図19(b)に示すようにA社の属性名
「代表」のデータが統合され、データの頻度は両者の件
数の和とされる。
【0033】データ統合部24において上記のようにデ
ータの統合が行われると、正誤判定部14での正誤判定
においては、上記統合された頻度により正誤判定を行
う。例えば、前記した「群中の最大生起回数をもつデー
タを正しいと判断し、他を誤りとする」というアルゴリ
ズムに正誤判定を行う場合には、図19(c)に示すよ
うにA社の「代表者」について「山田太郎」が正とさ
れ、「鈴木太郎」が誤りとされる。この例の場合、「山
田一郎」、「山田」のそれぞれの生起回数より「鈴木太
郎」の生起回数の方が多いのでデータ統合を行わない場
合には、「鈴木太郎」が正とされることとなるが、上記
のようなデータ統合を行うことにより、正しい正誤の判
断を行なうことが可能となる。
【0034】
【発明の効果】以上説明したように、本発明において
は、以下の効果を得ることができる。 (1)事実データをテキストから抽出し、抽出された事
実データについて同種のデータをまとめて、テキスト全
体にわたるデータ集計を行ない、集計されたデータ集合
を走査して両立し得ない不整合データ群を検出し、不整
合データ群においてどれが正しいデータであるかを判断
し、誤りデータを排除して正しい事実データの統合を行
うようにしたので、テキスト中の誤った記述や抽出処理
の誤りに起因する抽出データ中の誤りやバラツキに対し
て、誤り部分を排除して、適切なデータの集積を行なう
ことができる。 (2)事実データをテキストから抽出する際にデータに
信頼度を付与し、信頼度を利用してデータ群中の各デー
タの正誤の判断を行なうことにより正誤判断の精度を高
めることができる。 (3)属性名に応じて正誤判定の際に使用する判定方法
を指定し、該判定方法により正誤判定を行うことによ
り、属性に応じた柔軟な正誤判断を行なうことができ
る。 (4)抽出した事実データと予め登録された誤りパター
ンとを照合し、抽出された事実データが予め登録された
誤りパターンに合致した時に誤りと判断して棄却するこ
とにより、単独で判断可能な誤りの除去を行なうことが
できる。 (5)互いに似ているデータを統合して、一つのデータ
に統合した後に不整合検出を行うことにより、同じ事物
の異なる表現による揺らぎを吸収することができる。
【図面の簡単な説明】
【図1】本発明の基本構成を示すブロック図である。
【図2】事実データ統合処理を行うためのシステムの構
成例を示す図である。
【図3】本発明の第1の実施例を示す図である。
【図4】第1の実施例の処理例を示す図である。
【図5】本発明の第1の実施例の処理を示すフローチャ
ートである。
【図6】本発明の第2の実施例の機能ブロック図であ
る。
【図7】信頼度付与部の第1の内部構成例を示す図であ
る。
【図8】図7に示す信頼度付与部における処理例(1)
を示す図である。
【図9】図7に示す信頼度付与部における処理例(2)
を示す図である。
【図10】信頼度付与部の第2の内部構成例を示す図で
ある。
【図11】図10に示す信頼度付与部における処理例を
示す図である。
【図12】信頼度付与部の第3の内部構成例を示す図で
ある。
【図13】図12に示す信頼度付与部における処理例を
示す図である。
【図14】書誌情報・信頼度の対応表を生成するための
構成例を示す図である。
【図15】本発明の第3の実施例を示す図である。
【図16】本発明の第4の実施例を示す図である。
【図17】第4の実施例における誤りパターンの判断例
を示す図である。
【図18】本発明の第5の実施例を示す図である。
【図19】第5の実施例の処理例を示す図である。
【図20】テキスト中の情報の抽出方法を説明する図で
ある。
【符号の説明】
1,11 データ抽出部 2,12 データ集計部 3,13 不整合検出部 4,14 正誤判定部 5,15 最終データ集積部 6,16 信頼度付与部 7 データ統合部 8 誤りパターン除去部 9 判定方法決定部 17 書誌情報属性走査部 18 信頼度評価部 19 データ登録部 20 判定方法決定部 21 属性・判定方法対応表 22 誤りパターン除去部 23 誤りパターンデータベース 24 データ統合部 25 データ揺れデータベース
フロントページの続き (72)発明者 西野 文人 神奈川県川崎市中原区上小田中4丁目1番 1号 富士通株式会社内 Fターム(参考) 5B075 ND03 NR02 NS01

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 対象とする事物、属性名、属性値の3つ
    組によって規定される事実データをテキストから抽出
    し、 抽出された事実データについて同種のデータをまとめ
    て、テキスト全体にわたるデータ集計を行ない、 集計されたデータ集合を走査して両立し得ない不整合デ
    ータ群を検出し、 不整合データ群においてどれが正しいデータであるかを
    判断し、誤りデータを排除して正しい事実データの統合
    を行うことを特徴とする事実データ統合方法。
  2. 【請求項2】 対象とする事物、属性名、属性値の3つ
    組によって規定される事実データをテキストから抽出す
    るデータ抽出部と、 データ抽出部で抽出された事実データについて、テキス
    ト全体にわたり同種のデータをまとめ、生起回数を集計
    するデータ集計部と、 データ集計部において集計されたデータ集合を走査して
    両立し得ない不整合データ群を検出する不整合検出部
    と、 不整合検出部で検出された不整合データ群の中でどれが
    正しいデータであるかを判断する正誤判定部と、 データ集計部において集計された正しいデータ、およ
    び、正誤判定部において正しいデータと判断されたデー
    タを集計する最終データ集積部とを備えたことを特徴と
    する事実データ統合装置。
  3. 【請求項3】 事実データをテキストから抽出する際に
    データに信頼度を付与する信頼度付与部を設け、 データ集計部において生起回数を集計する際、集計され
    たデータの信頼度を個々のデータの信頼度から計算して
    集計結果に付与し、 正誤判定部において、上記データに付与された信頼度を
    利用してデータ群中の各データの正誤の判断を行なうこ
    とを特徴とする請求項2の事実データ統合装置。
  4. 【請求項4】 上記信頼度付与部が、テキストから事実
    データを抽出する際に抽出の対象となったテキストの持
    つイベント情報の種類を判定するイベント型抽出部と、 イベント型と信頼度の対応表に基づき、イベント型から
    信頼度を評価する信頼度評価部とを備えていることを特
    徴とする請求項3の事実データ統合装置。
  5. 【請求項5】 上記信頼度付与部が、テキスト中の抽出
    対象とする対象事物に対しての注目度を計算する注目度
    評価部と、 上記注目度に基づき、データの信頼度を評価する信頼度
    評価部とを備えていることを特徴とする請求項3の事実
    データ統合装置。
  6. 【請求項6】 上記信頼度付与部が、テキストの発行
    社、著者等の書誌情報と該テキストに記述される各デー
    タの信頼度を対応付ける書誌情報と信頼度の対応表と、 テキスト中からデータの抽出を行なう際、上記書誌情報
    と信頼度の対応表を参照して該テキストの書誌情報から
    テキストの信頼度を評価する信頼度評価部とを備えてい
    ることを特徴とする請求項3の事実データ統合装置。
  7. 【請求項7】 データ抽出部によって抽出する事実デー
    タに正誤フラグを付与し、正誤フラグを付加させた正誤
    のフラグつきの事実データを入力として受けとり、事実
    データの属性名毎に特定の属性値をとるデータの正誤の
    期待値を計算し、書誌情報と信頼度の対応表を生成する
    ことを特徴とする請求項6の事実データ統合装置。
  8. 【請求項8】 対象事物、属性名と、正誤判定の際に利
    用する判定方法とを対応付けた属性・判定方法対応表
    と、 上記属性・判定方法対応表に基づき、属性名に応じた正
    誤判定方法を決定する判定方法決定部とを備え、 正誤判定部は、不整合データ群が入力された際、上記判
    定方法決定部により指定された判定方法を用いて正誤判
    定を行うことを特徴とする請求項2,3,4,5,6ま
    たは請求項7の事実データ統合装置。
  9. 【請求項9】 データ抽出部と不整合検出部の間に誤り
    パターン除去部を設け、 誤りパターン除去部は、データ抽出部で抽出された事実
    データと、予め登録された誤りパターンとを照合するこ
    とにより個々のデータ毎に正誤の判断を行ない、抽出さ
    れた事実データが予め登録された誤りパターンに合致し
    た時に誤りと判断して棄却し、問題がないとされたデー
    タのみを不整合検出部に送ることを特徴とする請求項
    2,3,4,5,6,7または請求項8の事実データ統
    合装置。
  10. 【請求項10】 データ集計部の後にデータ統合部を設
    け、 データ統合部は、互いに似ているデータを統合して、一
    つのデータに統合した後に不整合検出部に渡すことを特
    徴とする請求項2,3,4,5,6,7または請求項8
    の事実データ統合装置。
  11. 【請求項11】 テキストから抽出された対象事物、属
    性名、属性値の3つ組によって規定される事実データを
    統合するデータ統合プログラムを記録した記録媒体であ
    って、 上記データ統合プログラムは、対象とする事物、属性
    名、属性値の3つ組によって規定される事実データをテ
    キストから抽出し、 抽出された事実データについて同種のデータをまとめ
    て、テキスト全体にわたるデータ集計を行ない、 集計されたデータ集合を走査して両立し得ない不整合デ
    ータ群を検出し、 不整合データ群においてどれが正しいデータであるかを
    判断し、誤りデータを排除して正しい事実データの統合
    を行うことを特徴とするデータ統合プログラムを記録し
    た記録媒体。
JP31076699A 1999-11-01 1999-11-01 事実データ統合方法および装置 Expired - Fee Related JP3888812B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP31076699A JP3888812B2 (ja) 1999-11-01 1999-11-01 事実データ統合方法および装置
US09/669,897 US7181471B1 (en) 1999-11-01 2000-09-27 Fact data unifying method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP31076699A JP3888812B2 (ja) 1999-11-01 1999-11-01 事実データ統合方法および装置

Publications (2)

Publication Number Publication Date
JP2001134576A true JP2001134576A (ja) 2001-05-18
JP3888812B2 JP3888812B2 (ja) 2007-03-07

Family

ID=18009228

Family Applications (1)

Application Number Title Priority Date Filing Date
JP31076699A Expired - Fee Related JP3888812B2 (ja) 1999-11-01 1999-11-01 事実データ統合方法および装置

Country Status (2)

Country Link
US (1) US7181471B1 (ja)
JP (1) JP3888812B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007164702A (ja) * 2005-12-16 2007-06-28 Nippon Telegr & Teleph Corp <Ntt> 防災情報共有システムとその防災情報送信端末及び防災情報処理装置

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050108631A1 (en) * 2003-09-29 2005-05-19 Amorin Antonio C. Method of conducting data quality analysis
US7424669B2 (en) * 2004-01-16 2008-09-09 International Business Machines Corporation Automatic bibliographical information within electronic documents
US8386728B1 (en) * 2004-03-31 2013-02-26 Google Inc. Methods and systems for prioritizing a crawl
US7769579B2 (en) 2005-05-31 2010-08-03 Google Inc. Learning facts from semi-structured text
US8682913B1 (en) * 2005-03-31 2014-03-25 Google Inc. Corroborating facts extracted from multiple sources
US9208229B2 (en) * 2005-03-31 2015-12-08 Google Inc. Anchor text summarization for corroboration
US7587387B2 (en) 2005-03-31 2009-09-08 Google Inc. User interface for facts query engine with snippets from information sources that include query terms and answer terms
US7831545B1 (en) 2005-05-31 2010-11-09 Google Inc. Identifying the unifying subject of a set of facts
US8996470B1 (en) 2005-05-31 2015-03-31 Google Inc. System for ensuring the internal consistency of a fact repository
US8055674B2 (en) * 2006-02-17 2011-11-08 Google Inc. Annotation framework
US8260785B2 (en) 2006-02-17 2012-09-04 Google Inc. Automatic object reference identification and linking in a browseable fact repository
US8122026B1 (en) 2006-10-20 2012-02-21 Google Inc. Finding and disambiguating references to entities on web pages
US8347202B1 (en) 2007-03-14 2013-01-01 Google Inc. Determining geographic locations for place names in a fact repository
US7970766B1 (en) 2007-07-23 2011-06-28 Google Inc. Entity type assignment
US8812435B1 (en) 2007-11-16 2014-08-19 Google Inc. Learning objects and facts from documents
JP2009217455A (ja) * 2008-03-10 2009-09-24 Fujitsu Ltd 情報処理装置、情報処理プログラム及び方法
GB2467918A (en) 2009-02-18 2010-08-25 Mtld Top Level Domain Ltd Determining the correct value and the reliability of a data item by aggregating or combining the value of the data item from several databases.
US8600152B2 (en) 2009-10-26 2013-12-03 Ancestry.Com Operations Inc. Devices, systems and methods for transcription suggestions and completions
US20110099193A1 (en) * 2009-10-26 2011-04-28 Ancestry.Com Operations Inc. Automatic pedigree corrections
US8768782B1 (en) 2011-06-10 2014-07-01 Linkedin Corporation Optimized cloud computing fact checking
US9087048B2 (en) 2011-06-10 2015-07-21 Linkedin Corporation Method of and system for validating a fact checking system
US20130159127A1 (en) * 2011-06-10 2013-06-20 Lucas J. Myslinski Method of and system for rating sources for fact checking
US9483159B2 (en) 2012-12-12 2016-11-01 Linkedin Corporation Fact checking graphical user interface including fact checking icons
US20140214401A1 (en) 2013-01-29 2014-07-31 Tencent Technology (Shenzhen) Company Limited Method and device for error correction model training and text error correction
JP6126870B2 (ja) * 2013-03-01 2017-05-10 本田技研工業株式会社 音声対話システム及び音声対話方法
CN104699848B (zh) * 2015-04-02 2018-04-27 黄河水利职业技术学院 受限Web数据库的数据抽取方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE509645C2 (sv) * 1996-02-08 1999-02-15 Ericsson Telefon Ab L M En metod för att samtidigt med protokollbaserad funktionsändring i en databas utföra verifiering av konverterad data
US6185584B1 (en) * 1997-02-12 2001-02-06 Synopsys, Inc. Method and system for version management and archiving of electronic articles
US6240416B1 (en) * 1998-09-11 2001-05-29 Ambeo, Inc. Distributed metadata system and method
US6505219B1 (en) * 1999-01-27 2003-01-07 Xerox Corporation Process management system wherein process descriptions provide indices to document histories
US6604110B1 (en) * 2000-08-31 2003-08-05 Ascential Software, Inc. Automated software code generation from a metadata-based repository

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007164702A (ja) * 2005-12-16 2007-06-28 Nippon Telegr & Teleph Corp <Ntt> 防災情報共有システムとその防災情報送信端末及び防災情報処理装置
JP4627719B2 (ja) * 2005-12-16 2011-02-09 日本電信電話株式会社 防災情報共有システム

Also Published As

Publication number Publication date
US7181471B1 (en) 2007-02-20
JP3888812B2 (ja) 2007-03-07

Similar Documents

Publication Publication Date Title
JP2001134576A (ja) 事実データ統合方法および装置
US7142728B2 (en) Method and system for extracting information from a document
US7389306B2 (en) System and method for processing semi-structured business data using selected template designs
TWI438637B (zh) 用於擷取及管理社群智慧資訊的系統及方法
US8606796B2 (en) Method and system for creating a data profile engine, tool creation engines and product interfaces for identifying and analyzing files and sections of files
US8768914B2 (en) System and method for searching and matching databases
US7370057B2 (en) Framework for evaluating data cleansing applications
US7266562B2 (en) System and method for automatically categorizing objects using an empirically based goodness of fit technique
US8005300B2 (en) Image search system, image search method, and storage medium
US7516368B2 (en) Apparatus, method, and computer product for pattern detection
US6397205B1 (en) Document categorization and evaluation via cross-entrophy
US20070282827A1 (en) Data Mastering System
EP2616960A2 (en) Method and arrangement for handling data sets, data processing program and computer program product
JP2007026386A (ja) 画像検索システム及び方法
JP2007172077A (ja) 画像検索システム及び方法及びプログラム
CN111027323A (zh) 一种基于主题模型和语义分析的实体指称项识别方法
JP2004171316A (ja) Ocr装置及び文書検索システム及び文書検索プログラム
JPH0484366A (ja) 文書種別判別装置
Lladós et al. Word spotting in archive documents using shape contexts
CN115828166A (zh) 基于公开信息的涉密信息检测方法及系统
CN111339217B (zh) 一种数据处理方法及装置
CN115334201B (zh) 有效通话的筛选方法及其系统、计算机设备
JP2000259625A (ja) 文書校正装置
Hand et al. A note on using the F-measure for evaluating data linkage algorithms
WO2021224709A1 (en) Data aggregation for verifying and reporting data integrity

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060815

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061012

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061128

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091208

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101208

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111208

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111208

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121208

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121208

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131208

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees