JP2005267663A - 文書校正装置 - Google Patents

文書校正装置 Download PDF

Info

Publication number
JP2005267663A
JP2005267663A JP2005172650A JP2005172650A JP2005267663A JP 2005267663 A JP2005267663 A JP 2005267663A JP 2005172650 A JP2005172650 A JP 2005172650A JP 2005172650 A JP2005172650 A JP 2005172650A JP 2005267663 A JP2005267663 A JP 2005267663A
Authority
JP
Japan
Prior art keywords
data
fact
database
text
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005172650A
Other languages
English (en)
Inventor
Jun Ibuki
潤 伊吹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2005172650A priority Critical patent/JP2005267663A/ja
Publication of JP2005267663A publication Critical patent/JP2005267663A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】テキスト文書中の事実の記述が正確か否かを既存のデータベース内の事実とチェックしてテキスト文書の持つ誤りの検出や訂正を行う文書校正装置を提供すること。
【解決手段】このため、本発明では、データ抽出部1において事実の変更に関するデータを抽出し、整合性検証部12で変更前の状態に対しての整合性のチェックを行い、対応するデータが検索されて整合性が検証されたデータに関しては、対応データを変更後の状態へ修正する文書校正装置において、期日を含む事実データを扱う場合に、事実の変更に関するデータをテキストから抽出した後、前記整合性検証部において変更前の状態が抽出データの記載時において存在し得るか否かを検証し、誤り処理部において更に旧事実の終了期日の設定、新事実の生起期日の設定を行うことを特徴とする。
【選択図】図9

Description

本発明は文書校正装置に係り、特にテキスト文書中の事実の記述が正確か否かを既存のデータベース内の事実データとチェックしてテキスト文書の持つ誤りの検出や訂正を行うものに関する。
例えば新聞記事等のテキストに対する従来の誤りの指摘技術としては、テキストを構成する文字列を単語群に切り出して辞書と照合を行う形態素解析の結果から未登録単語等の、例えば正確には「フセイン」と書くべきところを未登録単語である「フサイン」と書いたような場合、この誤りらしい部分を抽出してそのまま提示されるのを指摘するもの、あるいは同音異語誤り、インタフェースあるいはインターフェイスのような外来語をカナ書きするときに生ずるカタカナ表記の揺れ等誤りの種類をある程度限定した上で、その訂正までを扱うもの等が存在していた。
これらの装置は、基本的には形態素解析に失敗する種類の非単語誤り、つまり形態素解析で誤った結果、単語として認識されなかった場合や、同音異語誤り等を対象としたものであり、テキスト中の記述が事実と食い違うことを指摘することができなかった。
実際に新聞社の校閲部で行う作業の多くが、例えば数字や名前等のデータを常識や様々な知識とつき合わせることによってその整合性を判断することであり、既存の校正支援システムは誤りの大きな部分を占める事実としての誤りの検出を未だ取り扱うことができなかった。
従って本発明の目的は、テキスト中におけるこのような事実誤りを検出可能とする文書校正装置を提供することである。
本発明の構成を図1に示す。図1において、1はデータ抽出部、2は整合性検証部、3は誤り処理部、4は事実データデータベースである。
本発明の前記目的は、下記の発明の構成により達成することができる。
(1)特定の事項に関するデータを蓄積した事実データベースと、入力されたテキストから事実データを抽出するデータ抽出部と、抽出された事実データを事実データベース中の各レコードと照合し、その不整合を検出する整合性検証部と、不整合データ及び対応するテキスト中の表現の修正を行う誤り処理部と、を具備したことを特徴とする文書校正装置。
(2)前記(1)における整合性検証部において、前記事実データベース中のデータについて、各フィールド毎に誤りの可能性を評価しておき、テキスト中から抽出されたデータが事実データベース中のデータと完全に一致せず、かつ事実データベース中に対応する可能性のあるデータが複数存在したとき、誤り可能性に基づいてフィールド値の変更のコストを評価し、最も低コストで事実データベース中のデータと対応する変更を選択して、誤りの内容を判断することを特徴とする文書校正装置。
(3)前記データ抽出部において事実の変更に関するデータを抽出し、前記整合性検証部で変更前の状態に対しての整合性のチェックを行い、対応するデータが検索されて整合性が検証されたデータに関しては、対応データを変更後の状態へ修正する文書校正装置において、期日を含む事実データを扱う場合に、事実の変更に関するデータをテキストから抽出した後、前記整合性検証部において変更前の状態が抽出データの記載時において存在し得るか否かを検証し、誤り処理部において更に旧事実の終了期日の設定、新事実の生起期日の設定を行うことを特徴とする文書校正装置。
(4)テキストから抽出された各事実データを、事実データベースの中の既存のデータとの整合性をチェックして問題がないデータについては順次事実データベースに登録することによりテキスト中に記載された事実データ同士の整合性をチェックする文書校正装置において、テキストコーパスを対象とする場合に、テキストを一旦分類し、各分類中のテキストを元に分類毎に固有の事実データベースを構築し、その中で整合性のチェックを整合性検証部により行うことを特徴とする文書校正装置。
(5)テキストから抽出された各事実データを、事実データベース中の既存のデータとの整合性をチェックして問題がないデータについては順次事実データベースに登録することによりテキスト中に記載された事実データ同士の整合性をチェックする文書校正装置において、整合性検証部が、テキスト全体を一度に処理するのではなく、テキストの文書構造を参照して特定の文書構造に対応する部分を抽出して、その中で整合性の判断を行うことを特徴とする文書校正装置。
本発明では下記の作用効果を奏する。
(1)入力されたテキストから事実データを抽出し、抽出された事実データを事実データベース中の各レコードと参照し、その不整合を検出し、不整合データのテキスト中の表現の修正を行うので、原テキスト中の事実と異なる誤った不整合データを正確に表示し、校正処理することができる。
(2)テキストから抽出した抽出データと事実データベース中のデータ間の不整合が検出されたとき、両者の信頼性を評価して信頼性の劣る方を誤りと判断するので、正確な校正を行うことができる。
(3)事実データを事実データベースに登録する際に、事実データの生起頻度や情報源の信頼性をチェックして、データの不整合部分についてこの信頼性に基づいて各事実データの信頼性を判定して誤りデータを判断するので、正確な校正を行うことができる。
(4)事実データベース中のデータについて、各フィールド毎に誤りの可能性を評価し、テキスト中のデータが事実データベース中のデータと一致せず、しかも事実データベース中に対応する可能性のあるデータが複数存在したとき、前記誤りの可能性によりフィールド値の変更コストを評価し、最も低いコストで事実データベース中のデータと対応する変更を選択して誤りの内容を判断するので、正確な校正を行うことができる。
(5)事実の変更に関するテキストデータを抽出したとき、変更前の状態で整合性のチェックを行い、整合性が得られたものについて、事実データベース中の対応データを変更後の状態に修正するので、事実データベースの内容を正確なものに更新することができ、正確な校正を行うことができる。
(6)事実データベースにおいて各事実についての生起期日、終了期日等を併記したので、テキスト中よりその事実を抽出したとき、その事実データの記載日時における正誤を正確に、しかも簡単に判断できる。
(7)テキストから抽出した事実データと時間を含めてキーが一致するデータが事実データベース中に存在せず、この抽出した事実データの時間以外のキーが事実データベース中に存在するとき、テキスト中の事実データに対して時間的な前後関係を表すように修正するので、正確な校正を行うことができる。
(8)年令の如く、期日によって規則的に変化する事実データについてデータの記載期日における値を事実データベース中のデータに基づき計算して整合するので、このようなデータを正確に校正することができる。
(9)名前を略称とか愛称のような正確に一致しない場合でも、名前の一致性判定に関する規則を定めておくので、一致するものとして校正することができる。
(10)例えばA米国務庁長官→A長官→A国務庁長官のような順序でテキストから同一レコードが、抽出した場合、新聞等の表現では、最初は省略せずに書き、順次省略するので、この2番目のA長官という表現をA国務庁長官と校正することができる。
(11)キーを指定してもユニークに値が定まらず、複数の値が存在するときは各値について一致するか否かを調べ、一致する値が存在しない場合に不整合と判定するので、正確な校正を行うことができる。
(12)予め基準とするテキスト群から抽出された各事実データを元にして事実データベースを構築するので、事実データベースを正確なものとすることができ、正確な校正を行うことができる。
(13)テキストから抽出された各事実データを事実データベース中の既存のデータとの整合性をチェックして問題のないデータについては順次登録してゆくことにより、対称のテキスト集合の中で矛盾しているものを検出することが可能となる。
(14)事実データベースを種別毎に複数備え、テキストから事実データベースの種別に関する情報を抽出して参照すべき事実データベースを選択できるので、正確な校正を行うことができる。
(15)各フィールド毎に生起し易い誤りの種別情報を持ち、フィールド値の変更の内容が記載された誤りの種類に対応するかにより変更に伴うコストを評価したので、誤り易い部分の情報を抽出して正確な校正を行うことができる。
(16)実際に起きた誤りの傾向を分析し、生起し易い種類の誤り種類に対する評価を行うので、個々のテキストに最適な誤り検出を行うことができ、正確な校正を行うことができる。
(17)ある事象に従属して起こる事実データの変更についての表を備えて、特定の事象が起った際の事実データベース中の他のデータの整合性をチェックすることができ、正確な校正を行うことができる。
(18)期日を含むデータに対して、事実の変更をテキストから抽出したとき、変更前の状態が抽出データの記載時において存在し得るか否かをチェックし、事実データベースに更に旧事実の終了期日の設定、新事実の生起期日の設定を行うので、正確な校正を行うことができる。
(19)終了期日または生起期日が不明な事実データが存在したとき、その事実データの指定期日における信頼性をデータ変動の頻度、指定期日と生起又は終了期日との差を元にして評価したので、そのデータの有効性を正確に判断することができる。
(20)テキストを一旦予め定めた手法で分類し、各分類中のテキストを元に分類毎の固有の事実データベースを構築して整合性をチェックし、問題のないデータを順次登録したので、分類毎の事実データデータベースの構築が可能となり、きめ細かなチェックが可能となり、正確な校正を行うことができる。
(21)テキストの文書構造に付加された分類を示すタグを参照して、例えば社会面とかスポーツ面等の、特定の文書構造に対応する部分を抽出して整合性を判断し、問題のないデータを順次登録するので、これまた特定分類の事実データデータベースの構築が早くでき、その内容を充実させきめ細かなチェックが可能となり、正確な校正を行うことができる。
(1)本発明の原理形態
本発明の原理形態及び関連技術(その1)の形態を図1及び図2、図3に基づき説明する。図1において1はデータ抽出部、2は整合性検証部、3は誤り処理部、4は事実データデータベースであり、図2はその動作説明図である。
データ抽出部1はテキスト中の事実データに関する記述を解析し、事実データデータベース4に登録可能な形で抽出し、整合性検証部2に送出する。整合性検証部2では、抽出された事実データと同一の事実に関するデータを事実データデータベース4中より検索し、これら検索した事実データとテキスト中から抽出した抽出データとの間に矛盾する点の有無をチェックするものである。
誤り処理部3では、前記整合性検証部2で矛盾するデータが検出されたとき、両者の整合をとるため事実データデータベース4のデータに基づきテキスト中から抽出した抽出データの修正を行うものである。なお事実データデータベース4には、多数の事実を示す事実データが格納されるものである。
図1に示す原理形態の動作を図2により説明する。図1に示すデータ抽出部1に、図2(マル1)に示す如く、「イラクのフセイン国王はクルド人ゲリラに対する攻撃を開始」という原テキストが入力されると、データ抽出部1は、図2(マル2)に示す如く、組織名として「イラク」を、役職として「国王」を、個人名として「フセイン」を抽出し、これにもとづき整合性検証部2が事実データデータベース4を参照する。この事実データデータベース4中には、組織名、役職、個人名として、それぞれ「イラク 大統領 フセイン」とか「アメリカ 大統領 クリントン」等が格納されているので、整合性検証部2における参照の結果、不整合データとして組織名、役職、個人名として「イラク 国王 フセイン」と「イラク 大統領 フセイン」が検出され、抽出データである「イラクのフセイン国王」を誤りとして誤り処理部3に表示する。
図3に図1の詳細図を示す。図3において、図1と同符号は同一部を示し、誤り処理部3は、図3に示す如く、誤り部分表示部3−1と処理部3−2を具備し、整合性検証部2によりテキスト中から抽出した抽出データと事実データデータベースとを照合し、事実データベースを基準としてそれと矛盾する抽出データを誤りと判断してこれを誤り部分表示部3−1で、これらテキスト中の表現と対応する事実データデータベース4の事実データとを表示してユーザに提示する。ユーザがこれを確認して、例えばキーボード等より修正確認操作信号を入力すれば処理部3−2がテキストの誤り部分を事実データにより修正する。
しかし、テキストからの抽出データに対応するデータが事実データデータベース4に保持されていないとき、誤り部分表示部3−1には抽出データのみが表示されるので、ユーザがこれを確認して、例えばキーボード等より更新確認操作信号を入力すれば、データ更新部5が整合性検証部2に保持されている前記抽出データを事実データデータベース4に新しく登録する。
(2)本発明の関連技術(その2)
本発明の関連技術(その2)の形態を図4及び図5に基づき説明する。図4は本発明の関連技術形態図(その2)、図5はその動作説明図である。図中他図と同記号は同一部を示し、6は信頼性評価部、7は誤り部分判定部、8はデータ更新部、9は誤り部分表示部である。
事実データデータベース4には、事実データの外に、その事実の信頼度、例えばM新聞のときは0.9、N新聞のときは0.5とか、同一事実の生起回数等の信頼性を示すデータが記入されている。
整合性検証部2がテキストから抽出された抽出データと事実データデータベース4から相互に矛盾するデータを発見したとき、信頼性評価部6はテキストから抽出された抽出データと、それに対応して参照された事実データデータベース4から前記の如き信頼性を示すデータに基づき信頼性を演算して定量的な評価結果を付加し、これを誤り部分判定部7に送出するものである。
誤り部分判定部7は、前記抽出データに付加された評価結果と、この抽出データにより事実データデータベース4を参照して得たデータに付加された評価結果とを比較して誤り部分がいずれかを認定するものである。
データ更新部8は、誤り部分判定部7が誤り部分が事実データデータベース4からのデータにあると判断した場合に伝達された前記抽出データを受けとり、これに基づき事実データデータベース4中のデータを修正する。
逆にテキストより抽出された抽出データが誤っていると判断した場合には、抽出データが誤り部分表示部9の方に送られ、ユーザに提示される。このとき事実データデータベース4から参照されたデータを同時に表示し、これに修正することもできる。
例えば図5のマル2に示す如く、テキストより抽出された抽出データに、組織体名として「A証券」、役職として「社長」、個人名として「C」、情報源として「Y新聞」、生起回数として「1」が記入されていたとき、これに基づき、図4に示す整合性検証部2が事実データデータベース4を参照する。そして図5のマル1に示す如く、参照データとして組織体名「A証券」、役職「社長」、個人名「B」、情報源「X新聞」、それまでの生起回数「2」、信頼度「0.7」、Y新聞の信頼度「0.1」を読み出す。ここで信頼度「0.7」は予めX新聞の記事の信頼度としてこの「0.7」が事実データデータベース4に登録してあり、またY新聞の記事の信頼度としてこの「0.1」が登録されている。
これにより整合性検証部2から、図5マル2に示す如きデータが信頼度等の付加されたものとして信頼性評価部6に出力され、同じくマル1に示す如き事実データデータベース4からの信頼度等の付加された参照データとして同じく信頼性評価部6として出力される。信頼性評価部6では、これら生起回数と信頼度を乗算して、両者の信頼性を評価し、これを誤り部分判定部7に送出する。誤り部分判定部7では、この乗算結果をみて、例えば数値の大きい方を信頼性の高いものと判定し、誤り部分を判断する。
このように信頼性を信頼度及び生起確率等の形で定量的に評価した結果、事実データデータベース4中のデータが誤りと判断されたとき、誤り部分判定部7は抽出データをデータ更新部8に送る。データ更新部8はこれに基づき事実データデータベース4中のデータを修正する。逆に抽出データが誤りと判断されたとき、誤り部分判定部7は抽出データを誤り部分表示部9に送出して、これをユーザに表示する。このとき事実データデータベース4より参照した正しいデータも同じく表示され、これに基づき校正が行われる。
図5に示す例ではマル1の「A証券 社長 B」の信頼性が2×0.7であり、マル2の「A証券 社長 C」マル1の信頼性が1×0.1であるので、誤り部分表示部9にこのマル2の抽出データとマル1の事実データデータベース4からの参照データがユーザに表示され、これにもとづく校正が行われる。
このため、この関連技術の形態では、事実データを事実データデータベース4に登録する際に、事実データの生起頻度や情報源及びその情報源に対する信頼度等の背景データを登録する。先に例えば各新聞の信頼度を登録しておき、これを参照しながら事実データデータベース4に順次事実データが登録される。
本発明の関連技術 (その2)の別の動作説明図(その2)を図6により説明する。
前記事実データデータベース4に、各フィールド毎に誤りの可能性を評価してこれに対応する数値を付加しておく。そしてテキストからの抽出データが事実データデータベース4中の参照データと完全に一致せず、しかも対応する可能性のあるデータが複数存在したとき、この誤り可能性に基づきフィールド値の変更のコストを評価し、最も低コストで、事実データベース中のデータと対応する変更を選択して、誤り内容と判断する。
例えば図6に示す如く、国名というフィールドと役職というフィールドを比較したとき、誤り易い役職の誤り確率を、例えば「2」とし、誤りにくい国名の確率をこれより大きい「3」と記入しておく。即ち誤り易いものを低い数値で記入しておく。
いま、図6マル1に示す如く、「ヨルダンのフセイン大統領がエジプト訪問」という原テキストがあるとき、データ抽出部(図4では省略)は、同マル2に示す如く、国名として「ヨルダン」を、役職として「大統領」を、個人名として「フセイン」を抽出し、これにもとづき図4に示す整合性検証部2が事実データデータベース4を参照する。
そして事実データデータベース4中から一致する可能性のあるものとして、国名、役職、個人名が、それぞれ「ヨルダン 国王 フセイン」と、「イラク 大統領 フセイン」とが抽出される。
このとき、図6マル4に示す如く、誤り確率として国名が「3」、役職が「2」のため、整合性検証部2では最も低コストで事実データデータベース4中のデータと対応する変更ができる(即ち役職の変更は「2」、国名の変更は「3」)、役職の変更を選び、マル5に示す如く、「ヨルダンのフセイン大統領」を「ヨルダンのフセイン国王」とその役職の方を変えることにより完全一致するデータを選択する。
(3)本発明の関連技術の形態(その3)
本発明の関連技術の形態(その3)を図7及び図8により説明する。図7は、例えば首相の辞任等の事実の変更に関するデータを抽出し、変更前の状態に対しての整合性のチェックを行い、また対応データを変更後の状態に修正するものである。
図7において、2は整合性検証部、4は事実データデータベース、8はデータ更新部、9は誤り部分表示部、10は事実の変更データ抽出部である。
事実の変更データ抽出部10は、入力されたテキストから事実データのうち、例えば死亡とか辞任とか事実の変更に関するデータを抽出するものである。
いま、事実の変更データ抽出部10に、例えば図8マル1に示す如き、「英 メージャー首相辞任」というテキストが入力されたとき、事実の変更データ抽出部10は、事実データを抽出するとともに、この「辞任」をキーにして事実データの中から事実の変更データを抽出する。
ところで、図8のマル2に示す如く、「辞任」ということは、その前提条件として対象人物が当該の職務についていることが必要であり、また「辞任」にともなって当該職務のレコードの削除が必要となる。
このため図8マル3に示す如く、事実データデータベース中のデータの変更が必要となる。即ち事実データデータベース中に記載された、国名、役職、個人名が「英 首相 メージャー」というデータから、マル4に示す如く、「メージャー」を削除した「英 首相・・・」というデータに修正するものである。
このため、前記事実の変更データ抽出部10により、例えば「英 メージャー首相辞任」という事実の変更に関するデータを抽出したとき、事実の変更データであることを付加して整合性検証部2に送る。
整合性検証部2では事実の変更前のデータ「英 メージャー首相」にもとづき事実データデータベース4を参照してこの事実データデータベース4のデータとの整合性のチェックを行う。そして整合性のチェックに合格した事実の変更データはデータ更新部8に伝達され、事実データデータベース4中の「英 首相 メージャー」というデータの個人名が削除され、図8マル4に示す如きデータに修正される。
しかし事実の変更前のデータによる前記整合性のチェックにおいて整合性がとれなかった、不合格のデータは誤りデータとして誤り部分表示部9に送出され、ユーザに表示されて校正されるものとなる。
(4)本発明の第1の実施の形態
本発明の第1の実施の形態を図9及び図10に基づき説明する。図9においては、事実データデータベース4の記載に、生起期日、終了期日、記載期日の3つの欄が設けられており、それに基づいてクリントンが1994年に米国大統領に就任というデータがあるとき、例えば1992年のクリントンに関する記載が正確か否かを校正するものである。
整合性検証部12には期日整合判別部12−1が設けられ、原テキストから抽出された期日付き抽出データが正確か否かをチェックするものである。
例えば図9に示す事実データデータベース4に、図10のマル1で示す如く、国名、肩書、名前、生起期日、終了期日として「米国、大統領、クリントン、1994、不明」という事実データが記載されているとき、図10のマル2で示す如く、「クリントン米大統領は1992年にベルリンを訪問」という原テキストがデータ抽出部1に入力されると、データ抽出部1は、図10のマル3で示す如く、抽出された国名として「米国」、肩書として「大統領」、名前として「クリントン」、生起期日として「1992」、終了期日として「不明」を抽出する。
そしてこれらの事実データが整合性検証部12に伝達され、整合性検証部12では、国名「米国」、肩書「大統領」、名前「クリントン」により事実データデータベース4を参照する。そして図10のマル1に示す如き事実データを得る。
このとき期日整合判別部12−1にはテキストからの抽出データより生起期日として「1992」という数字が保持されており、これが事実データデータベース4から参照された生起期日「1994」と比較してそれよりも小さい数字つまり古いものであることが判断される。従ってクリントンが1992年に米国大統領ということは誤りであることが判るので、図10のマル4に示す如く、整合性検証部12では整合性チェックの結果を×つまり、抽出データ「米国 大統領 クリントン 1992年」は誤りとして誤り処理部3に通知され、これが「米国 大統領 クリントン 1994年」と共にユーザに表示されて正確な校正が行われる。
(5)本発明の第2の実施の形態
本発明の第2の実施の形態を図11及び図12に基づき説明する。図11においては抽出した事実データと時間を含めてキーの一致するデータが事実データデータベース中に存在しないが時間以外のキーが一致するデータが存在したとき、テキスト中の事実データに対して時間的な前後関係を表すように修正するものである。例えば「A証券 会長 B 1997.8」というテキストがあり、事実データデータベース中に「A証券 会長 B 終了期日1997.5」というデータが存在したとき、テキストを「A証券 前会長 B」と修正するものである。
図11においては、事実データデータベース4に生起期日、終了期日の項が設けられている。例えば図12のマル1に示す如く、事実データデータベース4中に組織体名、肩書、名前、生起期日、終了期日として「A証券 会長 B 終了期日1997.5」というデータが記入されている。
いま図11のデータ抽出部1に、図12のマル2に示す如き「1997年8月 A証券のB社長は検察からの事情聴取を受けた」というテキストが入力されると、データ抽出部1は、図12のマル3に示す如く、組織体名としてA証券、肩書として会長、名前としてB、記載期日として1997.8を事実データとして抽出する。
これにより整合性検証部12が事実データデータベース4を照合し、図12マル1に示す如く、組織体名として「A」、肩書として「会長」、名前として「B」、終了期日として「1997.5」を得る。
期日整合判別部12−1は、これら図12のマル1とマル3を比較し、マル1にA証券B社長に関して既に終了期日のデータがあることを認識する。またマル3にA証券B社長に関する抽出データがあるが、テキストからの抽出データの記載期日が前記マル1の終了期日と一致せず、記載期日が終了期日よりも後であるため一致するデータとはみなされない。
このように、抽出データに対して一致し得るデータが他にない場合、整合性検証部12は記載期日のような期日指定を無視して一致するデータを事実データデータベース4中に探す。そして図12のマル1とマル3のように「A証券会長B」というデータとして一致するものを参照する。
このとき、期日整合判別部12−1では、図12のマル1の終了期日1997.5とマル3の記載期日1997.8をチェックして1997.8が後であることを認識し、これを一致データとともに誤り処理部3に通知する。これにより誤り部分表示部3−1には先ず「A証券会長B」が表示されて、そのあとで誤り処理部3により「会長」が「前会長」と修正され、図12のマル4に示す如く、元のテキストの記述を現職でないことを示すものに修正される。
(6)本発明の第3の実施の形態
本発明の第3の実施の形態を13及び図14に基づき説明する。第3の実施の形態においては、例えば年令のように規則的に変化する事実データについて、抽出データの記載期日における値を事実データデータベース中のデータに基づいて計算して整合性を判断するものである。
図13において、整合性検証部13には期日演算判別部13−1が設けられ、年令の如く、期日によって変化するデータに関して特定期日における値を計算するものであり、計算用のアルゴリズムが記述されている。
図13において、図14のマル1に示す如く、事実データデータベース4中に組織体名、肩書、名前、年令、記載期日として「ABC 会長 EF 50才 1994」というデータが記入されている。
いま図13のデータ抽出部1に、図14のマル2に示す如き「1997.6.1 ABCのEF会長(50歳)は」というテキストが入力されると、データ抽出部1は、図14のマル3に示す如く、組織体名としてABC、肩書として会長、名前としてEF、年令として50、記載期日として1997を事実データとして抽出する。
整合性検証部13は、この事実データに基づき、事実データデータベース4を参照し、図14のマル1に示す組織体名としてABC、肩書として会長、名前としてEF、年令として50、記載期日として1994が読出される。そしてこれが期日演算判別部13−1に送出される。
期日演算判別部13−1には、別にデータ抽出部1より伝達された記載期日1997が伝達されているので、前記1994、50及び1997にもとづき50+(1997−1994)を演算して年令53を演算する。そしてこの53が誤り処理部3の処理部3−2に伝達される。
このとき誤り処理部3には、この年令を含むテキストの一部「ABCのEF会長(50歳)は」が誤り部分表示部3−1に表示されており、この数字が処理部3−2により修正されて「ABCのEF会長(53歳)は」と校正されることになる。
このようにして、テキストから抽出された人物に、例えば年令に関するデータがあり、事実データデータベース中にも同一人物の年令についての記述があるような場合、事実データデータベース中のデータを抽出データの記載期日における年令を計算し、整合性を調べる。図14の例では、計算したものと一致しなかったので、この事実データデータベース中の値に基づき計算した値に修正している。
(7)本発明の関連技術の形態(その4)
本発明の関連技術の形態(その4)を図15及び図16に基づき説明する。関連技術の形態(その4)においては、例えば「橋本龍太郎」を「橋龍」という略称で表現することがあるが、このような場合でもテキスト中の「橋龍」を正しいものとして判断するものである。
図15において、14は略称テーブルであり、例えば個人名についてその略称と標準名称があらかじめ登録されている。図15の例では「橋龍←→橋本龍太郎」、「クリントン←→ビル・クリントン」等が登録されている。事実データデータベース4に登録する際には標準的な表現に一旦変換して登録する。例えば「日本 首相 橋龍」を「日本 首相 橋本龍太郎」と登録する。
整合性検証部15には略称チェック部15−1が設けられ、整合性検証部15において、抽出データを事実データデータベース4の各フィールド値を検索したとき、名前が一致しなかった場合、この名前により略称テーブル14をアクセスするものである。例えば前記検索において、「日本」「首相」という項で一致しても名前の項で一致しなかったとき、抽出データの名前「橋龍」で略称テーブル14をアクセスして「橋龍」に対しての標準名称として「橋本龍太郎」を得ることにより、その一致が得られる。
いま図15に示すデータ抽出部1に、図16のマル2に示す如き「日本 首相 橋龍さん」という原テキストが入力されると、データ抽出部1は、図16のマル3に示す如く、国名として日本、肩書として首相、個人名として橋龍が事実データとして抽出する。
整合性検証部15は、この事実データに基づき、事実データデータベース4を参照し、図16のマル1に示す如く、国名として日本、肩書として首相、個人名として橋本龍太郎という参照データを得る。しかしこの参照データは、国名及び肩書というフィールドでは一致するものの、名前のところでは一致しない。
この場合、略称チェック部15−1が不一致の名前「橋龍」により略称テーブル14をアクセスして「橋龍」に対応する標準名称「橋本龍太郎」を読み出す。そしてこれに基づき、整合性検証部13が参照データと再度比較することによりその一致をみるので、原テキストの正確性が認識される。
このようにして名前の一致性判定に関する規則を定めて略称のように、正確に一致しない場合でも、一致し得るものとできる条件を定めることができる。
(8)本発明の関連技術の形態(その5)
本発明の関連技術施の形態(その5)を図17及び図18に基づき説明する。例えば新聞記事の表現では、同一事実の説明の場合、最初は肩書などを省略せずに全部書き、順次少しずつ省略表現することが行われることがあるが、関連技術の形態(その5)はこのような場合に対応するものである。
関連技術の形態(その5)では、図17に示す如く、同一事実の表現を出現順で示した、出現順リスト16を設け、整合性検証部17には、この出現順リスト16を作成したり、この出現順リスト16を検索してその省略状態をチェックする出現順リスト作成チェック部17−1が設けられている。
いま、図18のマル1に示す如く、「リーガン米国務庁長官・・・リーガン長官・・・リーガン国務庁長官・・・」という原テキストがデータ抽出部1に入力されると、データ抽出部1は同マル2に示す如く、「リーガン米国務庁長官」、「リーガン長官」、「リーガン国務庁長官」を順次抽出し、これらを順次出現順リスト作成チェック部17−1に送出する。
出現順リスト作成チェック部17−1は、この抽出された事実データに基づき、リーガンに関する同一事実について、図17に示す如き、出現順リスト16を作成する。
この出現順リスト16を作成したのち、出現順リスト作成チェック部17−1は、その記載状態が、前記省略表現に適合しているか否かをチェックする。先ず、図18のマル3のaに示す如く、出現順リスト16からNo.1の表現とNo.2の表現を比較する。これによりNo.1の「リーガン米国務庁長官」よりNo.2の「リーガン長官」の表現の方が省略されていることが判別されるので、No.1の表現を合格とする。
次に出現順リスト16からNo.2の表現とNo.3の表現を比較する。これによりNo.2の「リーガン長官」よりNo.3の「リーガン国務庁長官」の方が、例えば長くて省略されていないことが判別されるので、図18のマル3のbに示す如く、No.2の表現を不合格と判定する。
勿論No.2、No.3の表現がその前のものと同じ場合も合格とする。
このように、一般には詳しく肩書を明記した後に省略するので、後方の表現が前方の表現よりも省略された形のとき、あるいは同一の場合を合格とする。これにより同一のデータの出現の順番と隣接する肩書などの要素に関する制限を記述する規則に基づき、リスト中の要素の整合性のチェックを行うことができる。
(9)本発明の関連技術の形態(その6)
本発明の関連技術の形態(その6)を図19及び図20に基づき説明する。例えば会社の常務の如く、同一肩書に複数の人物が存在するような場合、会社名と肩書が特定されても複数の人物が存在するので、キー項目に対して値が一つに決定できない。このためデータベース中にも複数のレコードが存在するため、これらの全部と整合性を求めることが必要となる。
このため、事実データデータベース4には例えば組織体名が「A社」であり、肩書が「常務」であるようなレコードについては、全員の名前を、図19において、同一キー項目部4−0に示す如く、登録しておく。
また整合性検証部18には、同一キー項目全チェック部18−1を設け、例えば会社名と常務のような特定肩書のようにキーを指定してもユニークに値が定まらず、複数の値が存在するとき、この同一キー項目全チェック部18−1が同一キーに関して登録されている全部のレコードについて整合性をチェックし、一致する値の存在しないときに不整合と判定する。
例えば図19に示す事実データデータベース4中に、図20のマル1で示す如く、組織体名「A社」の肩書「常務」として名前「AB」、「CD」が登録されているとき、図19に示すデータ抽出部1に、図20のマル2で示す如き原テキスト「A社のXY常務」が入力されると、データ抽出部1は図20のマル3で示す如く、組織体名として「A社」、肩書として「常務」、名前として「XY」を事実データとして抽出する。
これにより同一キー項目全チェック部18−1が、「A社」、「常務」をキー項目として同一キー項目部4−0を参照し、これらのキー項目と一致する複数の登録されたレコードを全部チェックして前記「A社」、「常務」、「XY」と一致するもの有無をチェックする。
これにより一つでも一致するものがあれば問題はないとするが、図20に示す場合には、一致するものが存在しないので、そのマル4に示す如く、チェック結果は整合性なしと判断され、誤り処理部3に表示されることになる。
(10)本発明の関連技術の形態(その7)
本発明の関連技術の形態(その7)を図21に基づき説明する。関連技術の形態(その7)は、本発明の文書校正装置に使用する事実データデータベース4を構築する手法に関するものである。
データ抽出部1は抽出した事実データを整合性検証部2に送出するか、データ更新部19に送出する。いずれかを選択するのかを更新信号により制御する。例えば更新信号が「1」のとき、基準テキストから抽出された事実データがデータ更新部19に送出され、更新信号が「0」のとき、チェック対象テキストから抽出された事実データが整合性検証部2に送出される。
基準テキストは、事実データデータベース4を構築するためのものであって、その記述内容は、予め厳重なチェックを受けた正確な内容のテキスト群で構成されている。
データ更新部19は、基準テキストに基づきデータ抽出部1が抽出した事実データを事実データデータベース4に登録するものである。
図21において、データ抽出部1に先ず基準テキストを入力する。このとき更新信号を例えば「1」にしておく。これによりデータ抽出部1は基準テキストから抽出した事実データをデータ更新部19に送出する。そしてデータ更新部19はこの事実データに基づき事実データデータベースを順次更新し、事実データデータベースを構築する。
このようにして事実データデータベースを修正した後に、更新信号を「0」にして、チェック対象テキストをデータ抽出部1に入力する。データ抽出部1により抽出された事実データは、今度は整合性検証部2により、先程更新された事実データデータベース4を参照しながら、誤りの検出処理を受ける。
このようにして基準テキストにより事実データデータベース4を随時更新して正確なものとするので、チェック対象テキストを正確に校正することができる。
(11)本発明の関連技術の形態(その8)
本発明の関連技術の形態(その8)を図22により説明する。関連技術の形態(その8)では、すでに登録しているデータとの整合性をチェックして矛盾のないものについては登録するものである。
例えば「A社 常務 AB氏、A社 常務 CD氏、A社 常務 EF氏・・・」というテキストが入力されてデータ抽出部1により組織体名、肩書、名前がそれぞれ「A社 常務 AB」、「A社 常務 CD」、「A社 常務 EF」・・・という事実データが抽出され、順次整合性検証部20に送出される。
これにより整合性検証部20では、先ず組織体名、肩書、名前が「A社 常務 AB」により事実データデータベース4を参照する。これにより事実データデータベース4より「A社 社長 AB」というデータが参照されたとき、矛盾検出部20−1はこれをチェックしてA社のABが、常務と社長の異なる肩書をもつことは矛盾するので整合性なしと判断し、これを誤り部分表示部3−1で表示させる。
しかし「A社 常務 CD」により事実データデータベース4を参照したとき、「A社 常務 XY」というデータが参照されても、矛盾検出部20−1はこれをチェックして常務に異なる名前の者が複数存在しても矛盾しないので整合性ありと判断し、この「A社 常務 CD」をデータ更新部5に送出し、事実データデータベース4をこれにより更新する。同様に「A社 常務 EF」というデータもデータ更新部5に送出され、事実データデータベース4を更新する。従ってその後にテキスト抽出部1より「A社 取締役 EF」という事実データが抽出されて整合性検証部20で事実データデータベース4から「A社 常務 EF」というデータが参照されたとき、矛盾検出部20−1が抽出された事実データと参照されたデータとが矛盾するものと判断し、これを誤り部分表示部3−1に表示する。
このようにして、テキストから抽出された各事実データを、事実データデータベース4中の既存のデータとの整合性をチェックして、問題がないデータについては順次登録することにより、テキスト中に記載された事実データ同士の整合性をチェックすることができ、テキスト中の事実データ相互の不整合部分を抽出することが可能となる。
(12)本発明の関連技術の形態(その9)
本発明の関連技術の形態(その9)を図23により説明する。関連技術の形態(その9)では事実データデータベース4を複数の種別、例えば政治分野とか、経済分野とか、スポーツ分野とかに毎にデータベース4−1、4−2、4−3・・・を分け、テキストの種別に応じてそれに対応するデータベースを参照するものである。
またデータ抽出部21には種別検出部21−1が設けられ、テキストの種別を抽出された事実データに基づき断然する。例えば「首相」という語が検出されたときテキスト種別を「政治」と判断し、「野球」という語が検出されたときはテキストの種別を「スポーツ」と判断し、これに応じてデータベースを識別するDB識別信号を出力する。
参照DB制御部22は、前記DB識別信号に応じて事実データデータベース4からこのDB識別信号に対応するデータベース4−1、4−2、4−3・・・の1つを選択するものである。
図23において、データ抽出部21に、例えば「横綱若ノ花が優勝しました」というテキストが入力されるとデータ抽出部21により「横綱若ノ花優勝」という事実データが抽出され、また種別検出部21−1により「横綱」という語からそのテキストの種別が「スポーツ」と識別され、その種別に応じたスポーツDB識別信号を参照DB制御部22に出力する。
これにより参照DB制御部22は、スポーツ用のデータベース4−3を選択するように制御を行い。整合性検証部2がスポーツ用のデータベース4−3を参照できるように接続制御される。
この状態で、整合性検証部2が前記事実データ「横綱若ノ花優勝」にもとづきスポーツ用のデータベース4−3を参照して「横綱若ノ花優勝」を読み出し、整合性なしと判断し、誤り部分表示部3−1にこれを表示する。
この場合、事実データデータベース4を種別に構成してあるので、整合性の可否を速く、正確に検証することができる。
(13)本発明の関連技術の形態(その10)
本発明の関連技術の形態(その10)を図24及び図25に基づき説明する。関連技術の形態(その10)では誤り易い可能性の高い部分を予め予想しておき、正確なチェックを行うものである。例えば中近東諸国のように、あまり知られていない地域では近隣の国と国名の混同がおき得る。このため、日本ではあまり馴染みのない中近東のヨルダンに対して、近隣のレバノン、イラクを混合し易い国名として記述し、誤り確率を例えば数値1のように混同可能性テーブルに誤り易いものを低い数値で記入しておく。
同様に昇進や辞任等である人物の肩書が変更された直後には、最新のデータを持たないためにその人物に古い役職を書いてしまう可能性が高い。このために新任の英首相であるブレア氏に対して労働党党首の役職で呼ぶ可能性が高いので、これまた誤り確率を例えば数値1.5のように混同可能性テーブルに誤り易いものを低い数値で記入しておく。
図24に示す如く、整合性検証部23にコスト変更部23−1を設け、複数の参照データが存在するとき誤り確率の低いものを求めるものである。
混同可能性テーブル24は、前記の如く、誤り易い可能性の高い部分を予め予想しておき誤り確率を、誤り易いもの程小さい数値で表示するものである。混同可能性テーブル24はフィールド毎に誤りの種類に関する情報を持つ。図24では、混同可能性テーブル24−1になじみのない中小の国、あまり知られていない地域の近隣の国と混同し易いものを示し、混同可能性テーブル24−2には、最近に行われた昇進や辞任等により現肩書と前肩書との混同し易い可能性の高いものを示す。
例えば図25のマル1に示す如く、「ヨルダンのフセイン大統領がエジプト訪問」という原テキストが図24に示す、データ抽出部1に入力され、図25のマル2に示す如く、国名として「ヨルダン」、役職として「大統領」、個人名として「フセイン」が抽出データとして抽出される。これに基づき、図24に示す整合性検証部23が事実データデータベース4を参照する。
そして事実データデータベース4中から一致する可能性のあるものとして、国名、役職、個人名がそれぞれ「ヨルダン 国王 フセイン」と、「イラク 大統領 フセイン」とが抽出される。
この時、図25のマル4に示す如く、誤り確率として国名が「3」、役職が「2」も抽出される。
整合性検証部23では、抽出データに存在する「ヨルダン」より、混同可能性テーブル(国名)24−1を参照すべきものであること認識し、コスト変更部23−1がこの混同可能性テーブル24−1からヨルダンをイラク、またはレバノンと誤り確率が数値「1」であることを判断し、そのもっとも低い数値のものを誤り易いものと判断する。そしてこの場合、図25のマル3に示す如く、テキストの「ヨルダン」を「イラク」と校正すれば事実データデータベース4中のデータと一致すことを認識する。
(14)本発明の関連技術の形態(その11)
本発明の関連技術の形態(その11)を図26により説明する。関連技術の形態(その11)では、先ず訓練用テキストを使用して誤り検出・修正を行った結果を記録しておき、実際に起きた誤りの傾向を分析し、生起し易い種類の誤り種類に対する評価を変更し、個々のテキストに最適な誤り検出・訂正を行うようにしたものである。
本発明の関連技術では、先ず訓練用テキストをデータ抽出部1に入力され、データ抽出部1により事実データが抽出され、整合性検証部26に伝達されて事実データデータベース4を参照し、不一致部分つまり仮り誤り部分が仮り誤り検出部26−1により検出される。このとき訓練用テキスト全体に対する仮り誤りが検出され、その結果仮り誤りの集合が得られる。
この仮り誤りの集合は誤り傾向分析部26−2により、誤りがどのような傾向で存在するのか分析される。その結果、例えば国名に誤りが発生し易いとか、人名に誤りが発生し易いとかその傾向が判断される。
パラメータ調整部26−3は、この傾向が伝達されたとき、この起こり易い誤りの検出能力を高めるように、パラメータ例えば図6のマル4で示す誤り確率の数値をその部門について小さくし、誤り検出能力を高くする。
このあとで誤り検出部26−4により誤り検出をもう一度繰り返し、前記調整通りの、誤りが起こり易い部分について誤り検出が正しく行われるか否かをチェックする。このようにして高精度の誤り検出結果を得る。
なお上記説明は訓練用テキストの場合であり、通常のテキストに対しては、データ抽出部1にて抽出された事実データは誤り検出部26−4に伝達され、前記調整結果により事実データデータベース4の参照が行われる。
(15)本発明の関連技術の形態(その12)
本発明の関連技術の形態(その12)を図27、図28に基づき説明する。例えば会社が倒産したときその会社の役員が辞職するので、事実データデータベースよりその会社役員を削除することが必要となる。関連技術の形態(その12)では、ある事象に従属して起きる事実データの変更についての表を備え、特定の事象が起きたとき、事実データデータベース4中の他のデータをこれに応じて更新処理し、データの整合性を保つものである。
図27に示す如く、従属事象テーブル27を用意し、ある事象に従属して起きる事実データの変更内容を示す。例えば倒産という事象に対しては役員削除を行うことを示す。事象例としては、図28のマル1に示す如く、倒産という事象に伴って、役員はその地位を失うので役員データを削除することが必要となる。また図28のマル2に示す如く、要人の暗殺という事象に伴って当人のついていた役職は全て解任されるので当人のデータをこれまた修正することが必要となる。
図27において、データ抽出部1にテキストを入力する。データ抽出部1は事実データの抽出処理を行い、この事実データが整合性検証部26に伝達される。整合性検証部26は、この事実データに、倒産とか、暗殺とか、従属事象テーブル27の検索項目が、例えばA社倒産ということが存在していることを検出したとき、従属事象検索部26−1に対し、従属事象テーブル27を検索させて倒産という事象に従属して行うべき事項を検索させる。そして役員削除ということを認識する。
これにより整合性検証部26はA社役員削除という変更データをデータ更新部5に送出する。これに基づきデータ更新部5は、事実データデータベース4中のA社役員に関するデータを全部削除する。このようにして事実データデータベース4のデータを事象に合わせて対応処理することができる。
(16)本発明の第4の実施の形態
本発明の第4の実施の形態を図29及び図30に基づき説明する。例えば米国大統領が新く選出された場合、これに基づき旧大統領、新大統領の終了期日、新任期日等を設定するものであり、第4の実施の形態では事実の変更に関するデータをテキストから抽出した後、変更前の状態が抽出データの記載時において存在し得るかを検証し、更に旧事実の終了期日の設定、新事実の生起期日の設定を行うものである。
このために、図29に示す如く、整合性検証部28に、変更前の状態が抽出データの記載時において存在し得るかを検証する変更前状態検出部28−1を設け、また誤り処理部29に、旧事実の終了期日の設定及び新事実の生起期日の設定を行う更新データ作成部29−1を設ける。
いま、図30のマル1に示す如く、事実データデータベース4中に、国名、肩書、名前、生起期日、終了期日がそれぞれ、「米国、大統領、ブッシュ、1990、不明」というデータが登録されているとき、データ抽出部1に、図30マル2に示す如く、「クリントン大統領が1992年の大統領選挙に初当選」というテキストが入力される。そしてこれより抽出された事実データ、「クリントン、大統領、1992年、大統領選挙、初当選」という事実データが整合性検証部28に送出される。
ところで、このときブッシュが1990年に米大統領になったことだけが事実データデータベース4中に記載されている。このとき前記テキストから抽出された事実データにより、「クリントン、1992、大統領選挙、初当選」により、クリントンが1992年に大統領に初当選したということが判別される。クリントンが1992年に初めて大統領になるためにはそれ以前に別の人が大統領でなければならないが、整合性検証部28の変更前状態検出部28−1が、図30のマル1の「米国 大統領 ブッシュ 1990 終了期日不明」というデータから、このブッシュが前大統領であることを認識する。
一方クリントンの大統領就任のため、ブッシュの任期は1992年で終了することになるが、これが誤り処理部29により認識される。また誤り処理部29では、事実データデータベース4に、クリントンの大統領就任にもとづく新たなデータ追加を必要とすることを認識する。
誤り処理部29の更新データ作成部29−1により、図30マル3に示す如き更新データが作成され、この更新データがデータ更新部5に送出されて事実データデータベース4に登録されて、図30のマル3に示す通りのデータが登録されることになる。
(17)本発明の第5の実施の形態
本発明の第5の実施の形態を図31及び図32に基づき説明する。図31は本発明の第5の実施の形態図、図32はその動作説明図である。整合性検証部が事実データデータベースを検索したとき、終了期日又は生起期日が不明な事実データが存在した場合、そのデータ指定期日における信頼性をデータ変動の頻度、指定期日と生起期日又は終了期日との差を元にして評価するものであり、特定の期日においてある閾値内の信頼性を持つ事実データのみ整合性チェックを行うものである。
例えば政情不安定な国において大統領が短期間に頻繁に変えるような場合には、閾値を例えば2年と定め、指定期日より2年の差のあるものはチェックしない。
また政情が安定している国においても、不完全な期日指定しかないデータに対して、如何にその信頼性を評価するのかについて、図32に例示する。図32の例では、事実データデータベース4に、マル1に示す如く、クリントンが1997年に米国大統領であることだけが記載されている場合である。
いま、図31に示すデータ抽出部1に、図32のマル2に示す如く「ブッシュ米大統領が1991年にベルリンを訪問」というテキストが入力され、これに基づき、マル3に示す如く、国名、肩書、名前、生起期日がそれぞれ「米国、大統領、ブッシュ、1991」という事実データが抽出される。実際は抽出された事実データにベルリン訪問も含まれるが、この部分は期日指定に関係がないので、省略する。
図32のマル1で示す事実データデータベース4中のクリントン大統領のデータには、生起期日も終了期日も指定がないので、1991年にクリントンが大統領であった可能性は完全には否定できない。このため大統領の地位の確認できるデータが、このように1997年である場合に、その6年前に同一人物が同じ地位についている確率を定量的に評価することとなる。
米国大統領の任期が最大で2期(1期4年)までということを考えるとその可能性は非常に小さいことがわかる。このため閾値Th1 を6年とし、この閾値以上越えたとき、このような場合に、前記抽出された事実データをチェック対象としなくとも、ジッシュのデータと相互に矛盾する可能性は、図32のマル5に示す如く、非常に低いことが想定でき、整合性の検証に合格したものとする。
前記の場合、図32のマル2で示すテキストによりデータ抽出部1から抽出されたマル3で示す如き事実データが整合性検証部30により事実データデータベース4を参照したとき、図32のマル1で示すデータの存在を検知する。このとき閾値期限判別部30−1が、テキストのデータが閾値Th1 の6年以上の差のあることを認識してチェックするのを中止し、整合したものとしてこのテキストを出力する。
また、閾値はその対称により適宜定めることができ、例えば政情不安定な国における大統領に関する事項は閾値Th0 を例えば2年と定め、2年以上の差のあるデータはチェックを行わず、整合性の検証に合格することができる。
(18)本発明の関連技術の形態(その13)
本発明の関連技術の形態(その13)を図33に基づき説明する。
本発明の関連技術の形態(その13)では、テキストを一旦特定の分類毎に分類し、この分類中のテキストに基づき分類毎に固有のデータベースを構築し、この分類毎で整合性のチェックを行うようにしたものである。
関連技術の形態(その13)は、図33に示す如く、事実データデータベース4、データ抽出部32、データ更新部33、整合性検証部34等を具備する。
事実データデータベース4は、例えば前記政治分野、経済分野、スポーツ分野・・・等に分類された分類別データベース4−1、4−2、・・・4−nより構成される。そして分類別データベース4−1は政治分野に分類されるデータが格納され、分類別データベース4−2は経済分野に分類されるデータが格納される。そして分類別データベース4−nにはスポーツ分野に分類されるデータが格納される。
テキスト31は政治分野、経済分野、スポーツ分野・・・等の複数の分類種別のテキストが存在するテキストコーパスである。テキストコーパスは複数のテキストの集合体であり、複数の種別で構成されている必要はない。
データ抽出部32は、テキストより事実データを抽出するものであり、テキストより抽出した事実データを予め定められた複数の分類毎に分類する部分テキスト抽出部32−1を有するものである。
データ更新部33は、データ抽出部32から伝達された分類毎の事実データを、その分類と同一分類の分類別データベースに格納して分類毎に固有のデータベースを構築するものである。
整合性検証部34はテキスト31より抽出された事実データが事実データデータベース4に格納されているデータとの整合性をチェックするものであり、部分テキスト抽出部32−1による分類に基づき、その分類と同じ分類の分類別データベースに格納されているデータとの整合性をチェックする分類別チェック部34−1を具備する。
例えばテキスト31として1ヶ月分の新聞の1面記事から構成されるテキストコーパスをデータ抽出部32に入力する。これによりデータ抽出部32は、これより事実データを抽出するが、部分テキスト抽出部32−1は、抽出した単語をキーとしてその事実データが例えば政治分野に分類されるものとか、経済分野に分類されるものとか予め定められた分類に分ける。そしてこれをデータ更新部33及び整合性検証部34に送出する。
整合性検証部34では分類別チェック部34−1により、事実データの前記分けられた分類に応じた分類別データベースを参照し、整合性をチェックする。そしてこのときすでに参照された特定の分類別データベース、例えば政治分野なら分類別データベース4−1を参照して矛盾がなく、しかも同じものが格納されていなければこれを格納するように、データ更新部33に通知する。これによりデータ更新部33は、その事実データを、その分類の分類別データベースに格納する。
このようにして分類別に固有のデータベースを構築することができる。従って分類別の正確なデータベースを構築することができ、正しい校正を行うことができる。
(19)本発明の関連技術の形態(その14)
本発明の関連技術の形態(その14)を図34に基づき説明する。
本発明の関連技術の形態(その14)では、テキスト全体を一度に処理するのではなく、テキストの文書構造すなわち文書のタイトルとか本文に付加されているタグにより示される分類を参照して特定の種類の文書構造に対応する部分を抽出し、その中で整合性の判断を行い、矛盾のない整合性の得られたものを順次その種類つまりその分類別のデータベースに格納するものである。
関連技術の形態(その14)は、図34に示す如く、事実データデータベース4、データ更新部33、データ抽出部35、整合性検証部34等を具備する。事実データデータベース4、データ更新部33、整合性検証部34等は図33に示すものと同一である。
データ抽出部35は、テキストから事実データを抽出するものであるが、特定分類抽出部35−1を有し、予め指定された特定分類の事実データを、分類種別を示すために付加されているテキストの文書構造のタグを参照してその部分を抽出するものである。例えば政治分野という分類指定を行うと政治に関するテキストの事実データだけが抽出される。
いま、特定分類抽出部35−1に対して、例えば分類指定として政治分野という指定を行い、データ抽出部35に対しテキストを入力する。これにより特定分類抽出部35−1は、テキストの文書構造のタグを参照して政治分野のテキストのみから事実データを抽出し、この分類指定事項を付加してこれをデータ更新部33及び整合性検証部34に送出する。
整合性検証部34では、これを事実データデータベース4中の、その分類に応じた分類別データベースを参照して整合性をチェックする。このときその分類別データベースに格納されたデータとの矛盾がなく、しかも同じものがなければこの事実データを格納するようにデータ更新部33に通知する。これによりデータ更新部33はその事実データをその分類の分類別データベースに格納する。
このようにして分類指定された分類に対する固有のデータベースを速く構築することができるので、特定の分類に対するデータベースの内容が不充分のときにこれを充実させることができる。
本発明の原理形態図である。 本発明の原理形態の動作説明図である。 本発明の関連技術形態図(その1)である。 本発明の関連技術形態図(その2)である。 本発明の関連技術(その2)の動作説明図(その1)である。 本発明の関連技術(その2)の動作説明図(その2)である。 本発明の関連技術形態図(その3)である。 本発明の関連技術形態図(その3)の動作説明図である。 本発明の第1の実施の形態図である。 本発明の第1の実施の形態の動作説明図である。 本発明の第2の実施の形態図である。 本発明の第2の実施の形態の動作説明図である。 本発明の第3の実施の形態図である。 本発明の第3の実施の形態の動作説明図である。 本発明の関連技術形態図(その4)である。 本発明の関連技術形態図(その4)の動作説明図である。 本発明の関連技術形態図(その5)である。 本発明の関連技術形態図(その5)の動作説明図である。 本発明の関連技術形態図(その6)である。 本発明の関連技術形態図(その6)の動作説明図である。 本発明の関連技術形態図(その7)である。 本発明の関連技術形態図(その8)である。 本発明の関連技術形態図(その9)である。 本発明の関連技術形態図(その10)である。 本発明の関連技術形態図(その10)の動作説明図である。 本発明の関連技術形態図(その11)である。 本発明の関連技術形態図(その12)である。 本発明の関連技術形態図(その12)の動作説明図である。 本発明の第4の実施の形態図である。 本発明の第4の実施の形態の動作説明図である。 本発明の第5の実施の形態図である。 本発明の第5の実施の形態の動作説明図である。 本発明の関連技術形態図(その13)である。 本発明の関連技術形態図(その14)である。
符号の説明
1 データ抽出部
2 整合性検証部
3 誤り処理部
3−1 誤り部分表示部
3−2 処理部
4 事実データデータベース
5 データ更新部
6 信頼性評価部
7 誤り部分判定部

Claims (1)

  1. 特定の事項に関するデータを蓄積した事実データベースと、
    入力されたテキストから事実データを抽出するデータ抽出部と、
    抽出された事実データを事実データベース中の各レコードと照合し、その不整合を検出する整合性検証部と、
    不整合データ及び対応するテキスト中の表現の修正を行う誤り処理部を具備し、
    前記データ抽出部において事実の変更に関するデータを抽出し、
    前記整合性検証部で変更前の状態に対しての整合性のチェックを行い、対応するデータが検索されて整合性が検証されたデータに関しては、対応データを変更後の状態へ修正する文書校正装置において、
    期日を含む事実データを扱う場合に、事実の変更に関するデータをテキストから抽出した後、前記整合性検証部において変更前の状態が抽出データの記載時において存在し得るか否かを検証し、誤り処理部において更に旧事実の終了期日の設定、新事実の生起期日の設定を行うことを特徴とする文書校正装置。
JP2005172650A 2005-06-13 2005-06-13 文書校正装置 Pending JP2005267663A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005172650A JP2005267663A (ja) 2005-06-13 2005-06-13 文書校正装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005172650A JP2005267663A (ja) 2005-06-13 2005-06-13 文書校正装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP33390297A Division JP3936453B2 (ja) 1997-12-04 1997-12-04 文書校正装置

Publications (1)

Publication Number Publication Date
JP2005267663A true JP2005267663A (ja) 2005-09-29

Family

ID=35092072

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005172650A Pending JP2005267663A (ja) 2005-06-13 2005-06-13 文書校正装置

Country Status (1)

Country Link
JP (1) JP2005267663A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008242509A (ja) * 2007-03-23 2008-10-09 Nec Corp Webページ信頼度判定システム、Webページ信頼度判定管理サーバ、Webページ信頼度判定管理方法、Webページ信頼度判定方法、及びプログラム
JP2009064091A (ja) * 2007-09-04 2009-03-26 Komiyama Insatsu Kogyo Kk 電子ジャーナル編集システム及び原稿編集方法
US20110060584A1 (en) * 2009-09-09 2011-03-10 International Business Machines Corporation Error correction using fact repositories
WO2012053175A1 (ja) * 2010-10-21 2012-04-26 日本電気株式会社 含意判定装置、方法、およびプログラム
CN112487083A (zh) * 2016-07-20 2021-03-12 创新先进技术有限公司 一种数据校验方法和设备

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008242509A (ja) * 2007-03-23 2008-10-09 Nec Corp Webページ信頼度判定システム、Webページ信頼度判定管理サーバ、Webページ信頼度判定管理方法、Webページ信頼度判定方法、及びプログラム
JP2009064091A (ja) * 2007-09-04 2009-03-26 Komiyama Insatsu Kogyo Kk 電子ジャーナル編集システム及び原稿編集方法
US20110060584A1 (en) * 2009-09-09 2011-03-10 International Business Machines Corporation Error correction using fact repositories
US8560300B2 (en) * 2009-09-09 2013-10-15 International Business Machines Corporation Error correction using fact repositories
WO2012053175A1 (ja) * 2010-10-21 2012-04-26 日本電気株式会社 含意判定装置、方法、およびプログラム
JP5849960B2 (ja) * 2010-10-21 2016-02-03 日本電気株式会社 含意判定装置、方法、およびプログラム
US9449277B2 (en) 2010-10-21 2016-09-20 Nec Corporation Implication determining device, implication determining method and implication determining program determining if hypothesis is a new fact
CN112487083A (zh) * 2016-07-20 2021-03-12 创新先进技术有限公司 一种数据校验方法和设备
CN112487083B (zh) * 2016-07-20 2024-03-12 创新先进技术有限公司 一种数据校验方法和设备

Similar Documents

Publication Publication Date Title
AU764321B2 (en) System and method for indexing information about entities from different information sources
US7526486B2 (en) Method and system for indexing information about entities with respect to hierarchies
US7672833B2 (en) Method and apparatus for automatic entity disambiguation
US8332366B2 (en) System and method for automatic weight generation for probabilistic matching
US7685093B1 (en) Method and system for comparing attributes such as business names
US8359339B2 (en) Graphical user interface for configuration of an algorithm for the matching of data records
CN109033186A (zh) 数据一致性检测方法、装置、存储介质及电子设备
WO2008121700A1 (en) Method and system for managing entities
US20190361961A1 (en) Fact validation in document editors
US7324998B2 (en) Document search methods and systems
US20040083424A1 (en) Apparatus, method, and computer program product for checking hypertext
CN104714950B (zh) 用于对数据库中的信息进行修正及补充的方法及系统
CN101796480A (zh) 将外部相关短语信息集成到基于短语的索引编制信息检索系统中
JP2005267663A (ja) 文書校正装置
JP3936453B2 (ja) 文書校正装置
Braunschweig et al. From web tables to concepts: A semantic normalization approach
JP2005301859A (ja) コード検索プログラム及びコード検索装置
Caruso et al. Telcordia's database reconciliation and data quality analysis tool
US20170109402A1 (en) Automated join detection
JP2008112363A (ja) 文書処理装置および文書処理プログラム
Gellatly Reconstructing historical populations from genealogical data files
US9846739B2 (en) Fast database matching
JP4005925B2 (ja) 文書処理方法および文書処理装置およびプログラム
JP6676792B2 (ja) レビュア管理システムおよび方法
JP2007058415A (ja) テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050613

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070515

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070925