JP2005267663A

JP2005267663A - 文書校正装置

Info

Publication number: JP2005267663A
Application number: JP2005172650A
Authority: JP
Inventors: Jun Ibuki; 潤伊吹
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2005-06-13
Filing date: 2005-06-13
Publication date: 2005-09-29

Abstract

【課題】テキスト文書中の事実の記述が正確か否かを既存のデータベース内の事実とチェックしてテキスト文書の持つ誤りの検出や訂正を行う文書校正装置を提供すること。
【解決手段】このため、本発明では、データ抽出部１において事実の変更に関するデータを抽出し、整合性検証部１２で変更前の状態に対しての整合性のチェックを行い、対応するデータが検索されて整合性が検証されたデータに関しては、対応データを変更後の状態へ修正する文書校正装置において、期日を含む事実データを扱う場合に、事実の変更に関するデータをテキストから抽出した後、前記整合性検証部において変更前の状態が抽出データの記載時において存在し得るか否かを検証し、誤り処理部において更に旧事実の終了期日の設定、新事実の生起期日の設定を行うことを特徴とする。
【選択図】図９

Description

本発明は文書校正装置に係り、特にテキスト文書中の事実の記述が正確か否かを既存のデータベース内の事実データとチェックしてテキスト文書の持つ誤りの検出や訂正を行うものに関する。

例えば新聞記事等のテキストに対する従来の誤りの指摘技術としては、テキストを構成する文字列を単語群に切り出して辞書と照合を行う形態素解析の結果から未登録単語等の、例えば正確には「フセイン」と書くべきところを未登録単語である「フサイン」と書いたような場合、この誤りらしい部分を抽出してそのまま提示されるのを指摘するもの、あるいは同音異語誤り、インタフェースあるいはインターフェイスのような外来語をカナ書きするときに生ずるカタカナ表記の揺れ等誤りの種類をある程度限定した上で、その訂正までを扱うもの等が存在していた。

これらの装置は、基本的には形態素解析に失敗する種類の非単語誤り、つまり形態素解析で誤った結果、単語として認識されなかった場合や、同音異語誤り等を対象としたものであり、テキスト中の記述が事実と食い違うことを指摘することができなかった。

実際に新聞社の校閲部で行う作業の多くが、例えば数字や名前等のデータを常識や様々な知識とつき合わせることによってその整合性を判断することであり、既存の校正支援システムは誤りの大きな部分を占める事実としての誤りの検出を未だ取り扱うことができなかった。

従って本発明の目的は、テキスト中におけるこのような事実誤りを検出可能とする文書校正装置を提供することである。

本発明の構成を図１に示す。図１において、１はデータ抽出部、２は整合性検証部、３は誤り処理部、４は事実データデータベースである。

本発明の前記目的は、下記の発明の構成により達成することができる。

（１）特定の事項に関するデータを蓄積した事実データベースと、入力されたテキストから事実データを抽出するデータ抽出部と、抽出された事実データを事実データベース中の各レコードと照合し、その不整合を検出する整合性検証部と、不整合データ及び対応するテキスト中の表現の修正を行う誤り処理部と、を具備したことを特徴とする文書校正装置。

（２）前記（１）における整合性検証部において、前記事実データベース中のデータについて、各フィールド毎に誤りの可能性を評価しておき、テキスト中から抽出されたデータが事実データベース中のデータと完全に一致せず、かつ事実データベース中に対応する可能性のあるデータが複数存在したとき、誤り可能性に基づいてフィールド値の変更のコストを評価し、最も低コストで事実データベース中のデータと対応する変更を選択して、誤りの内容を判断することを特徴とする文書校正装置。

（３）前記データ抽出部において事実の変更に関するデータを抽出し、前記整合性検証部で変更前の状態に対しての整合性のチェックを行い、対応するデータが検索されて整合性が検証されたデータに関しては、対応データを変更後の状態へ修正する文書校正装置において、期日を含む事実データを扱う場合に、事実の変更に関するデータをテキストから抽出した後、前記整合性検証部において変更前の状態が抽出データの記載時において存在し得るか否かを検証し、誤り処理部において更に旧事実の終了期日の設定、新事実の生起期日の設定を行うことを特徴とする文書校正装置。

（４）テキストから抽出された各事実データを、事実データベースの中の既存のデータとの整合性をチェックして問題がないデータについては順次事実データベースに登録することによりテキスト中に記載された事実データ同士の整合性をチェックする文書校正装置において、テキストコーパスを対象とする場合に、テキストを一旦分類し、各分類中のテキストを元に分類毎に固有の事実データベースを構築し、その中で整合性のチェックを整合性検証部により行うことを特徴とする文書校正装置。

（５）テキストから抽出された各事実データを、事実データベース中の既存のデータとの整合性をチェックして問題がないデータについては順次事実データベースに登録することによりテキスト中に記載された事実データ同士の整合性をチェックする文書校正装置において、整合性検証部が、テキスト全体を一度に処理するのではなく、テキストの文書構造を参照して特定の文書構造に対応する部分を抽出して、その中で整合性の判断を行うことを特徴とする文書校正装置。

本発明では下記の作用効果を奏する。

（１）入力されたテキストから事実データを抽出し、抽出された事実データを事実データベース中の各レコードと参照し、その不整合を検出し、不整合データのテキスト中の表現の修正を行うので、原テキスト中の事実と異なる誤った不整合データを正確に表示し、校正処理することができる。

（２）テキストから抽出した抽出データと事実データベース中のデータ間の不整合が検出されたとき、両者の信頼性を評価して信頼性の劣る方を誤りと判断するので、正確な校正を行うことができる。

（３）事実データを事実データベースに登録する際に、事実データの生起頻度や情報源の信頼性をチェックして、データの不整合部分についてこの信頼性に基づいて各事実データの信頼性を判定して誤りデータを判断するので、正確な校正を行うことができる。

（４）事実データベース中のデータについて、各フィールド毎に誤りの可能性を評価し、テキスト中のデータが事実データベース中のデータと一致せず、しかも事実データベース中に対応する可能性のあるデータが複数存在したとき、前記誤りの可能性によりフィールド値の変更コストを評価し、最も低いコストで事実データベース中のデータと対応する変更を選択して誤りの内容を判断するので、正確な校正を行うことができる。

（５）事実の変更に関するテキストデータを抽出したとき、変更前の状態で整合性のチェックを行い、整合性が得られたものについて、事実データベース中の対応データを変更後の状態に修正するので、事実データベースの内容を正確なものに更新することができ、正確な校正を行うことができる。

（６）事実データベースにおいて各事実についての生起期日、終了期日等を併記したので、テキスト中よりその事実を抽出したとき、その事実データの記載日時における正誤を正確に、しかも簡単に判断できる。

（７）テキストから抽出した事実データと時間を含めてキーが一致するデータが事実データベース中に存在せず、この抽出した事実データの時間以外のキーが事実データベース中に存在するとき、テキスト中の事実データに対して時間的な前後関係を表すように修正するので、正確な校正を行うことができる。

（８）年令の如く、期日によって規則的に変化する事実データについてデータの記載期日における値を事実データベース中のデータに基づき計算して整合するので、このようなデータを正確に校正することができる。

（９）名前を略称とか愛称のような正確に一致しない場合でも、名前の一致性判定に関する規則を定めておくので、一致するものとして校正することができる。

（１０）例えばＡ米国務庁長官→Ａ長官→Ａ国務庁長官のような順序でテキストから同一レコードが、抽出した場合、新聞等の表現では、最初は省略せずに書き、順次省略するので、この２番目のＡ長官という表現をＡ国務庁長官と校正することができる。

（１１）キーを指定してもユニークに値が定まらず、複数の値が存在するときは各値について一致するか否かを調べ、一致する値が存在しない場合に不整合と判定するので、正確な校正を行うことができる。

（１２）予め基準とするテキスト群から抽出された各事実データを元にして事実データベースを構築するので、事実データベースを正確なものとすることができ、正確な校正を行うことができる。

（１３）テキストから抽出された各事実データを事実データベース中の既存のデータとの整合性をチェックして問題のないデータについては順次登録してゆくことにより、対称のテキスト集合の中で矛盾しているものを検出することが可能となる。

（１４）事実データベースを種別毎に複数備え、テキストから事実データベースの種別に関する情報を抽出して参照すべき事実データベースを選択できるので、正確な校正を行うことができる。

（１５）各フィールド毎に生起し易い誤りの種別情報を持ち、フィールド値の変更の内容が記載された誤りの種類に対応するかにより変更に伴うコストを評価したので、誤り易い部分の情報を抽出して正確な校正を行うことができる。

（１６）実際に起きた誤りの傾向を分析し、生起し易い種類の誤り種類に対する評価を行うので、個々のテキストに最適な誤り検出を行うことができ、正確な校正を行うことができる。

（１７）ある事象に従属して起こる事実データの変更についての表を備えて、特定の事象が起った際の事実データベース中の他のデータの整合性をチェックすることができ、正確な校正を行うことができる。

（１８）期日を含むデータに対して、事実の変更をテキストから抽出したとき、変更前の状態が抽出データの記載時において存在し得るか否かをチェックし、事実データベースに更に旧事実の終了期日の設定、新事実の生起期日の設定を行うので、正確な校正を行うことができる。

（１９）終了期日または生起期日が不明な事実データが存在したとき、その事実データの指定期日における信頼性をデータ変動の頻度、指定期日と生起又は終了期日との差を元にして評価したので、そのデータの有効性を正確に判断することができる。

（２０）テキストを一旦予め定めた手法で分類し、各分類中のテキストを元に分類毎の固有の事実データベースを構築して整合性をチェックし、問題のないデータを順次登録したので、分類毎の事実データデータベースの構築が可能となり、きめ細かなチェックが可能となり、正確な校正を行うことができる。

（２１）テキストの文書構造に付加された分類を示すタグを参照して、例えば社会面とかスポーツ面等の、特定の文書構造に対応する部分を抽出して整合性を判断し、問題のないデータを順次登録するので、これまた特定分類の事実データデータベースの構築が早くでき、その内容を充実させきめ細かなチェックが可能となり、正確な校正を行うことができる。

（１）本発明の原理形態
本発明の原理形態及び関連技術（その１）の形態を図１及び図２、図３に基づき説明する。図１において１はデータ抽出部、２は整合性検証部、３は誤り処理部、４は事実データデータベースであり、図２はその動作説明図である。

データ抽出部１はテキスト中の事実データに関する記述を解析し、事実データデータベース４に登録可能な形で抽出し、整合性検証部２に送出する。整合性検証部２では、抽出された事実データと同一の事実に関するデータを事実データデータベース４中より検索し、これら検索した事実データとテキスト中から抽出した抽出データとの間に矛盾する点の有無をチェックするものである。

誤り処理部３では、前記整合性検証部２で矛盾するデータが検出されたとき、両者の整合をとるため事実データデータベース４のデータに基づきテキスト中から抽出した抽出データの修正を行うものである。なお事実データデータベース４には、多数の事実を示す事実データが格納されるものである。

図１に示す原理形態の動作を図２により説明する。図１に示すデータ抽出部１に、図２（マル１）に示す如く、「イラクのフセイン国王はクルド人ゲリラに対する攻撃を開始」という原テキストが入力されると、データ抽出部１は、図２（マル２）に示す如く、組織名として「イラク」を、役職として「国王」を、個人名として「フセイン」を抽出し、これにもとづき整合性検証部２が事実データデータベース４を参照する。この事実データデータベース４中には、組織名、役職、個人名として、それぞれ「イラク大統領フセイン」とか「アメリカ大統領クリントン」等が格納されているので、整合性検証部２における参照の結果、不整合データとして組織名、役職、個人名として「イラク国王フセイン」と「イラク大統領フセイン」が検出され、抽出データである「イラクのフセイン国王」を誤りとして誤り処理部３に表示する。

図３に図１の詳細図を示す。図３において、図１と同符号は同一部を示し、誤り処理部３は、図３に示す如く、誤り部分表示部３−１と処理部３−２を具備し、整合性検証部２によりテキスト中から抽出した抽出データと事実データデータベースとを照合し、事実データベースを基準としてそれと矛盾する抽出データを誤りと判断してこれを誤り部分表示部３−１で、これらテキスト中の表現と対応する事実データデータベース４の事実データとを表示してユーザに提示する。ユーザがこれを確認して、例えばキーボード等より修正確認操作信号を入力すれば処理部３−２がテキストの誤り部分を事実データにより修正する。

しかし、テキストからの抽出データに対応するデータが事実データデータベース４に保持されていないとき、誤り部分表示部３−１には抽出データのみが表示されるので、ユーザがこれを確認して、例えばキーボード等より更新確認操作信号を入力すれば、データ更新部５が整合性検証部２に保持されている前記抽出データを事実データデータベース４に新しく登録する。

（２）本発明の関連技術（その２）
本発明の関連技術（その２）の形態を図４及び図５に基づき説明する。図４は本発明の関連技術形態図（その２）、図５はその動作説明図である。図中他図と同記号は同一部を示し、６は信頼性評価部、７は誤り部分判定部、８はデータ更新部、９は誤り部分表示部である。

事実データデータベース４には、事実データの外に、その事実の信頼度、例えばＭ新聞のときは０．９、Ｎ新聞のときは０．５とか、同一事実の生起回数等の信頼性を示すデータが記入されている。

整合性検証部２がテキストから抽出された抽出データと事実データデータベース４から相互に矛盾するデータを発見したとき、信頼性評価部６はテキストから抽出された抽出データと、それに対応して参照された事実データデータベース４から前記の如き信頼性を示すデータに基づき信頼性を演算して定量的な評価結果を付加し、これを誤り部分判定部７に送出するものである。

誤り部分判定部７は、前記抽出データに付加された評価結果と、この抽出データにより事実データデータベース４を参照して得たデータに付加された評価結果とを比較して誤り部分がいずれかを認定するものである。

データ更新部８は、誤り部分判定部７が誤り部分が事実データデータベース４からのデータにあると判断した場合に伝達された前記抽出データを受けとり、これに基づき事実データデータベース４中のデータを修正する。

逆にテキストより抽出された抽出データが誤っていると判断した場合には、抽出データが誤り部分表示部９の方に送られ、ユーザに提示される。このとき事実データデータベース４から参照されたデータを同時に表示し、これに修正することもできる。

例えば図５のマル２に示す如く、テキストより抽出された抽出データに、組織体名として「Ａ証券」、役職として「社長」、個人名として「Ｃ」、情報源として「Ｙ新聞」、生起回数として「１」が記入されていたとき、これに基づき、図４に示す整合性検証部２が事実データデータベース４を参照する。そして図５のマル１に示す如く、参照データとして組織体名「Ａ証券」、役職「社長」、個人名「Ｂ」、情報源「Ｘ新聞」、それまでの生起回数「２」、信頼度「０．７」、Ｙ新聞の信頼度「０．１」を読み出す。ここで信頼度「０．７」は予めＸ新聞の記事の信頼度としてこの「０．７」が事実データデータベース４に登録してあり、またＹ新聞の記事の信頼度としてこの「０．１」が登録されている。

これにより整合性検証部２から、図５マル２に示す如きデータが信頼度等の付加されたものとして信頼性評価部６に出力され、同じくマル１に示す如き事実データデータベース４からの信頼度等の付加された参照データとして同じく信頼性評価部６として出力される。信頼性評価部６では、これら生起回数と信頼度を乗算して、両者の信頼性を評価し、これを誤り部分判定部７に送出する。誤り部分判定部７では、この乗算結果をみて、例えば数値の大きい方を信頼性の高いものと判定し、誤り部分を判断する。

このように信頼性を信頼度及び生起確率等の形で定量的に評価した結果、事実データデータベース４中のデータが誤りと判断されたとき、誤り部分判定部７は抽出データをデータ更新部８に送る。データ更新部８はこれに基づき事実データデータベース４中のデータを修正する。逆に抽出データが誤りと判断されたとき、誤り部分判定部７は抽出データを誤り部分表示部９に送出して、これをユーザに表示する。このとき事実データデータベース４より参照した正しいデータも同じく表示され、これに基づき校正が行われる。

図５に示す例ではマル１の「Ａ証券社長Ｂ」の信頼性が２×０．７であり、マル２の「Ａ証券社長Ｃ」マル１の信頼性が１×０．１であるので、誤り部分表示部９にこのマル２の抽出データとマル１の事実データデータベース４からの参照データがユーザに表示され、これにもとづく校正が行われる。

このため、この関連技術の形態では、事実データを事実データデータベース４に登録する際に、事実データの生起頻度や情報源及びその情報源に対する信頼度等の背景データを登録する。先に例えば各新聞の信頼度を登録しておき、これを参照しながら事実データデータベース４に順次事実データが登録される。

本発明の関連技術 (その２）の別の動作説明図（その２）を図６により説明する。

前記事実データデータベース４に、各フィールド毎に誤りの可能性を評価してこれに対応する数値を付加しておく。そしてテキストからの抽出データが事実データデータベース４中の参照データと完全に一致せず、しかも対応する可能性のあるデータが複数存在したとき、この誤り可能性に基づきフィールド値の変更のコストを評価し、最も低コストで、事実データベース中のデータと対応する変更を選択して、誤り内容と判断する。

例えば図６に示す如く、国名というフィールドと役職というフィールドを比較したとき、誤り易い役職の誤り確率を、例えば「２」とし、誤りにくい国名の確率をこれより大きい「３」と記入しておく。即ち誤り易いものを低い数値で記入しておく。

いま、図６マル１に示す如く、「ヨルダンのフセイン大統領がエジプト訪問」という原テキストがあるとき、データ抽出部（図４では省略）は、同マル２に示す如く、国名として「ヨルダン」を、役職として「大統領」を、個人名として「フセイン」を抽出し、これにもとづき図４に示す整合性検証部２が事実データデータベース４を参照する。

そして事実データデータベース４中から一致する可能性のあるものとして、国名、役職、個人名が、それぞれ「ヨルダン国王フセイン」と、「イラク大統領フセイン」とが抽出される。

このとき、図６マル４に示す如く、誤り確率として国名が「３」、役職が「２」のため、整合性検証部２では最も低コストで事実データデータベース４中のデータと対応する変更ができる（即ち役職の変更は「２」、国名の変更は「３」）、役職の変更を選び、マル５に示す如く、「ヨルダンのフセイン大統領」を「ヨルダンのフセイン国王」とその役職の方を変えることにより完全一致するデータを選択する。

（３）本発明の関連技術の形態（その３）
本発明の関連技術の形態（その３）を図７及び図８により説明する。図７は、例えば首相の辞任等の事実の変更に関するデータを抽出し、変更前の状態に対しての整合性のチェックを行い、また対応データを変更後の状態に修正するものである。

図７において、２は整合性検証部、４は事実データデータベース、８はデータ更新部、９は誤り部分表示部、１０は事実の変更データ抽出部である。

事実の変更データ抽出部１０は、入力されたテキストから事実データのうち、例えば死亡とか辞任とか事実の変更に関するデータを抽出するものである。

いま、事実の変更データ抽出部１０に、例えば図８マル１に示す如き、「英メージャー首相辞任」というテキストが入力されたとき、事実の変更データ抽出部１０は、事実データを抽出するとともに、この「辞任」をキーにして事実データの中から事実の変更データを抽出する。

ところで、図８のマル２に示す如く、「辞任」ということは、その前提条件として対象人物が当該の職務についていることが必要であり、また「辞任」にともなって当該職務のレコードの削除が必要となる。

このため図８マル３に示す如く、事実データデータベース中のデータの変更が必要となる。即ち事実データデータベース中に記載された、国名、役職、個人名が「英首相メージャー」というデータから、マル４に示す如く、「メージャー」を削除した「英首相・・・」というデータに修正するものである。

このため、前記事実の変更データ抽出部１０により、例えば「英メージャー首相辞任」という事実の変更に関するデータを抽出したとき、事実の変更データであることを付加して整合性検証部２に送る。

整合性検証部２では事実の変更前のデータ「英メージャー首相」にもとづき事実データデータベース４を参照してこの事実データデータベース４のデータとの整合性のチェックを行う。そして整合性のチェックに合格した事実の変更データはデータ更新部８に伝達され、事実データデータベース４中の「英首相メージャー」というデータの個人名が削除され、図８マル４に示す如きデータに修正される。

しかし事実の変更前のデータによる前記整合性のチェックにおいて整合性がとれなかった、不合格のデータは誤りデータとして誤り部分表示部９に送出され、ユーザに表示されて校正されるものとなる。

（４）本発明の第１の実施の形態
本発明の第１の実施の形態を図９及び図１０に基づき説明する。図９においては、事実データデータベース４の記載に、生起期日、終了期日、記載期日の３つの欄が設けられており、それに基づいてクリントンが１９９４年に米国大統領に就任というデータがあるとき、例えば１９９２年のクリントンに関する記載が正確か否かを校正するものである。

整合性検証部１２には期日整合判別部１２−１が設けられ、原テキストから抽出された期日付き抽出データが正確か否かをチェックするものである。

例えば図９に示す事実データデータベース４に、図１０のマル１で示す如く、国名、肩書、名前、生起期日、終了期日として「米国、大統領、クリントン、１９９４、不明」という事実データが記載されているとき、図１０のマル２で示す如く、「クリントン米大統領は１９９２年にベルリンを訪問」という原テキストがデータ抽出部１に入力されると、データ抽出部１は、図１０のマル３で示す如く、抽出された国名として「米国」、肩書として「大統領」、名前として「クリントン」、生起期日として「１９９２」、終了期日として「不明」を抽出する。

そしてこれらの事実データが整合性検証部１２に伝達され、整合性検証部１２では、国名「米国」、肩書「大統領」、名前「クリントン」により事実データデータベース４を参照する。そして図１０のマル１に示す如き事実データを得る。

このとき期日整合判別部１２−１にはテキストからの抽出データより生起期日として「１９９２」という数字が保持されており、これが事実データデータベース４から参照された生起期日「１９９４」と比較してそれよりも小さい数字つまり古いものであることが判断される。従ってクリントンが１９９２年に米国大統領ということは誤りであることが判るので、図１０のマル４に示す如く、整合性検証部１２では整合性チェックの結果を×つまり、抽出データ「米国大統領クリントン１９９２年」は誤りとして誤り処理部３に通知され、これが「米国大統領クリントン１９９４年」と共にユーザに表示されて正確な校正が行われる。

（５）本発明の第２の実施の形態
本発明の第２の実施の形態を図１１及び図１２に基づき説明する。図１１においては抽出した事実データと時間を含めてキーの一致するデータが事実データデータベース中に存在しないが時間以外のキーが一致するデータが存在したとき、テキスト中の事実データに対して時間的な前後関係を表すように修正するものである。例えば「Ａ証券会長Ｂ１９９７．８」というテキストがあり、事実データデータベース中に「Ａ証券会長Ｂ終了期日１９９７．５」というデータが存在したとき、テキストを「Ａ証券前会長Ｂ」と修正するものである。

図１１においては、事実データデータベース４に生起期日、終了期日の項が設けられている。例えば図１２のマル１に示す如く、事実データデータベース４中に組織体名、肩書、名前、生起期日、終了期日として「Ａ証券会長Ｂ終了期日１９９７．５」というデータが記入されている。

いま図１１のデータ抽出部１に、図１２のマル２に示す如き「１９９７年８月Ａ証券のＢ社長は検察からの事情聴取を受けた」というテキストが入力されると、データ抽出部１は、図１２のマル３に示す如く、組織体名としてＡ証券、肩書として会長、名前としてＢ、記載期日として１９９７．８を事実データとして抽出する。

これにより整合性検証部１２が事実データデータベース４を照合し、図１２マル１に示す如く、組織体名として「Ａ」、肩書として「会長」、名前として「Ｂ」、終了期日として「１９９７．５」を得る。

期日整合判別部１２−１は、これら図１２のマル１とマル３を比較し、マル１にＡ証券Ｂ社長に関して既に終了期日のデータがあることを認識する。またマル３にＡ証券Ｂ社長に関する抽出データがあるが、テキストからの抽出データの記載期日が前記マル１の終了期日と一致せず、記載期日が終了期日よりも後であるため一致するデータとはみなされない。

このように、抽出データに対して一致し得るデータが他にない場合、整合性検証部１２は記載期日のような期日指定を無視して一致するデータを事実データデータベース４中に探す。そして図１２のマル１とマル３のように「Ａ証券会長Ｂ」というデータとして一致するものを参照する。

このとき、期日整合判別部１２−１では、図１２のマル１の終了期日１９９７．５とマル３の記載期日１９９７．８をチェックして１９９７．８が後であることを認識し、これを一致データとともに誤り処理部３に通知する。これにより誤り部分表示部３−１には先ず「Ａ証券会長Ｂ」が表示されて、そのあとで誤り処理部３により「会長」が「前会長」と修正され、図１２のマル４に示す如く、元のテキストの記述を現職でないことを示すものに修正される。

（６）本発明の第３の実施の形態
本発明の第３の実施の形態を１３及び図１４に基づき説明する。第３の実施の形態においては、例えば年令のように規則的に変化する事実データについて、抽出データの記載期日における値を事実データデータベース中のデータに基づいて計算して整合性を判断するものである。

図１３において、整合性検証部１３には期日演算判別部１３−１が設けられ、年令の如く、期日によって変化するデータに関して特定期日における値を計算するものであり、計算用のアルゴリズムが記述されている。

図１３において、図１４のマル１に示す如く、事実データデータベース４中に組織体名、肩書、名前、年令、記載期日として「ＡＢＣ会長ＥＦ５０才１９９４」というデータが記入されている。

いま図１３のデータ抽出部１に、図１４のマル２に示す如き「１９９７．６．１ＡＢＣのＥＦ会長（５０歳）は」というテキストが入力されると、データ抽出部１は、図１４のマル３に示す如く、組織体名としてＡＢＣ、肩書として会長、名前としてＥＦ、年令として５０、記載期日として１９９７を事実データとして抽出する。

整合性検証部１３は、この事実データに基づき、事実データデータベース４を参照し、図１４のマル１に示す組織体名としてＡＢＣ、肩書として会長、名前としてＥＦ、年令として５０、記載期日として１９９４が読出される。そしてこれが期日演算判別部１３−１に送出される。

期日演算判別部１３−１には、別にデータ抽出部１より伝達された記載期日１９９７が伝達されているので、前記１９９４、５０及び１９９７にもとづき５０＋（１９９７−１９９４）を演算して年令５３を演算する。そしてこの５３が誤り処理部３の処理部３−２に伝達される。

このとき誤り処理部３には、この年令を含むテキストの一部「ＡＢＣのＥＦ会長（５０歳）は」が誤り部分表示部３−１に表示されており、この数字が処理部３−２により修正されて「ＡＢＣのＥＦ会長（５３歳）は」と校正されることになる。

このようにして、テキストから抽出された人物に、例えば年令に関するデータがあり、事実データデータベース中にも同一人物の年令についての記述があるような場合、事実データデータベース中のデータを抽出データの記載期日における年令を計算し、整合性を調べる。図１４の例では、計算したものと一致しなかったので、この事実データデータベース中の値に基づき計算した値に修正している。

（７）本発明の関連技術の形態（その４）
本発明の関連技術の形態（その４）を図１５及び図１６に基づき説明する。関連技術の形態（その４）においては、例えば「橋本龍太郎」を「橋龍」という略称で表現することがあるが、このような場合でもテキスト中の「橋龍」を正しいものとして判断するものである。

図１５において、１４は略称テーブルであり、例えば個人名についてその略称と標準名称があらかじめ登録されている。図１５の例では「橋龍←→橋本龍太郎」、「クリントン←→ビル・クリントン」等が登録されている。事実データデータベース４に登録する際には標準的な表現に一旦変換して登録する。例えば「日本首相橋龍」を「日本首相橋本龍太郎」と登録する。

整合性検証部１５には略称チェック部１５−１が設けられ、整合性検証部１５において、抽出データを事実データデータベース４の各フィールド値を検索したとき、名前が一致しなかった場合、この名前により略称テーブル１４をアクセスするものである。例えば前記検索において、「日本」「首相」という項で一致しても名前の項で一致しなかったとき、抽出データの名前「橋龍」で略称テーブル１４をアクセスして「橋龍」に対しての標準名称として「橋本龍太郎」を得ることにより、その一致が得られる。

いま図１５に示すデータ抽出部１に、図１６のマル２に示す如き「日本首相橋龍さん」という原テキストが入力されると、データ抽出部１は、図１６のマル３に示す如く、国名として日本、肩書として首相、個人名として橋龍が事実データとして抽出する。

整合性検証部１５は、この事実データに基づき、事実データデータベース４を参照し、図１６のマル１に示す如く、国名として日本、肩書として首相、個人名として橋本龍太郎という参照データを得る。しかしこの参照データは、国名及び肩書というフィールドでは一致するものの、名前のところでは一致しない。

この場合、略称チェック部１５−１が不一致の名前「橋龍」により略称テーブル１４をアクセスして「橋龍」に対応する標準名称「橋本龍太郎」を読み出す。そしてこれに基づき、整合性検証部１３が参照データと再度比較することによりその一致をみるので、原テキストの正確性が認識される。

このようにして名前の一致性判定に関する規則を定めて略称のように、正確に一致しない場合でも、一致し得るものとできる条件を定めることができる。

（８）本発明の関連技術の形態（その５）
本発明の関連技術施の形態（その５）を図１７及び図１８に基づき説明する。例えば新聞記事の表現では、同一事実の説明の場合、最初は肩書などを省略せずに全部書き、順次少しずつ省略表現することが行われることがあるが、関連技術の形態（その５）はこのような場合に対応するものである。

関連技術の形態（その５）では、図１７に示す如く、同一事実の表現を出現順で示した、出現順リスト１６を設け、整合性検証部１７には、この出現順リスト１６を作成したり、この出現順リスト１６を検索してその省略状態をチェックする出現順リスト作成チェック部１７−１が設けられている。

いま、図１８のマル１に示す如く、「リーガン米国務庁長官・・・リーガン長官・・・リーガン国務庁長官・・・」という原テキストがデータ抽出部１に入力されると、データ抽出部１は同マル２に示す如く、「リーガン米国務庁長官」、「リーガン長官」、「リーガン国務庁長官」を順次抽出し、これらを順次出現順リスト作成チェック部１７−１に送出する。

出現順リスト作成チェック部１７−１は、この抽出された事実データに基づき、リーガンに関する同一事実について、図１７に示す如き、出現順リスト１６を作成する。

この出現順リスト１６を作成したのち、出現順リスト作成チェック部１７−１は、その記載状態が、前記省略表現に適合しているか否かをチェックする。先ず、図１８のマル３のａに示す如く、出現順リスト１６からＮｏ．１の表現とＮｏ．２の表現を比較する。これによりＮｏ．１の「リーガン米国務庁長官」よりＮｏ．２の「リーガン長官」の表現の方が省略されていることが判別されるので、Ｎｏ．１の表現を合格とする。

次に出現順リスト１６からＮｏ．２の表現とＮｏ．３の表現を比較する。これによりＮｏ．２の「リーガン長官」よりＮｏ．３の「リーガン国務庁長官」の方が、例えば長くて省略されていないことが判別されるので、図１８のマル３のｂに示す如く、Ｎｏ．２の表現を不合格と判定する。

勿論Ｎｏ．２、Ｎｏ．３の表現がその前のものと同じ場合も合格とする。

このように、一般には詳しく肩書を明記した後に省略するので、後方の表現が前方の表現よりも省略された形のとき、あるいは同一の場合を合格とする。これにより同一のデータの出現の順番と隣接する肩書などの要素に関する制限を記述する規則に基づき、リスト中の要素の整合性のチェックを行うことができる。

（９）本発明の関連技術の形態（その６）
本発明の関連技術の形態（その６）を図１９及び図２０に基づき説明する。例えば会社の常務の如く、同一肩書に複数の人物が存在するような場合、会社名と肩書が特定されても複数の人物が存在するので、キー項目に対して値が一つに決定できない。このためデータベース中にも複数のレコードが存在するため、これらの全部と整合性を求めることが必要となる。

このため、事実データデータベース４には例えば組織体名が「Ａ社」であり、肩書が「常務」であるようなレコードについては、全員の名前を、図１９において、同一キー項目部４−０に示す如く、登録しておく。

また整合性検証部１８には、同一キー項目全チェック部１８−１を設け、例えば会社名と常務のような特定肩書のようにキーを指定してもユニークに値が定まらず、複数の値が存在するとき、この同一キー項目全チェック部１８−１が同一キーに関して登録されている全部のレコードについて整合性をチェックし、一致する値の存在しないときに不整合と判定する。

例えば図１９に示す事実データデータベース４中に、図２０のマル１で示す如く、組織体名「Ａ社」の肩書「常務」として名前「ＡＢ」、「ＣＤ」が登録されているとき、図１９に示すデータ抽出部１に、図２０のマル２で示す如き原テキスト「Ａ社のＸＹ常務」が入力されると、データ抽出部１は図２０のマル３で示す如く、組織体名として「Ａ社」、肩書として「常務」、名前として「ＸＹ」を事実データとして抽出する。

これにより同一キー項目全チェック部１８−１が、「Ａ社」、「常務」をキー項目として同一キー項目部４−０を参照し、これらのキー項目と一致する複数の登録されたレコードを全部チェックして前記「Ａ社」、「常務」、「ＸＹ」と一致するもの有無をチェックする。

これにより一つでも一致するものがあれば問題はないとするが、図２０に示す場合には、一致するものが存在しないので、そのマル４に示す如く、チェック結果は整合性なしと判断され、誤り処理部３に表示されることになる。

（１０）本発明の関連技術の形態（その７）
本発明の関連技術の形態（その７）を図２１に基づき説明する。関連技術の形態（その７）は、本発明の文書校正装置に使用する事実データデータベース４を構築する手法に関するものである。

データ抽出部１は抽出した事実データを整合性検証部２に送出するか、データ更新部１９に送出する。いずれかを選択するのかを更新信号により制御する。例えば更新信号が「１」のとき、基準テキストから抽出された事実データがデータ更新部１９に送出され、更新信号が「０」のとき、チェック対象テキストから抽出された事実データが整合性検証部２に送出される。

基準テキストは、事実データデータベース４を構築するためのものであって、その記述内容は、予め厳重なチェックを受けた正確な内容のテキスト群で構成されている。

データ更新部１９は、基準テキストに基づきデータ抽出部１が抽出した事実データを事実データデータベース４に登録するものである。

図２１において、データ抽出部１に先ず基準テキストを入力する。このとき更新信号を例えば「１」にしておく。これによりデータ抽出部１は基準テキストから抽出した事実データをデータ更新部１９に送出する。そしてデータ更新部１９はこの事実データに基づき事実データデータベースを順次更新し、事実データデータベースを構築する。

このようにして事実データデータベースを修正した後に、更新信号を「０」にして、チェック対象テキストをデータ抽出部１に入力する。データ抽出部１により抽出された事実データは、今度は整合性検証部２により、先程更新された事実データデータベース４を参照しながら、誤りの検出処理を受ける。

このようにして基準テキストにより事実データデータベース４を随時更新して正確なものとするので、チェック対象テキストを正確に校正することができる。

（１１）本発明の関連技術の形態（その８）
本発明の関連技術の形態（その８）を図２２により説明する。関連技術の形態（その８）では、すでに登録しているデータとの整合性をチェックして矛盾のないものについては登録するものである。

例えば「Ａ社常務ＡＢ氏、Ａ社常務ＣＤ氏、Ａ社常務ＥＦ氏・・・」というテキストが入力されてデータ抽出部１により組織体名、肩書、名前がそれぞれ「Ａ社常務ＡＢ」、「Ａ社常務ＣＤ」、「Ａ社常務ＥＦ」・・・という事実データが抽出され、順次整合性検証部２０に送出される。

これにより整合性検証部２０では、先ず組織体名、肩書、名前が「Ａ社常務ＡＢ」により事実データデータベース４を参照する。これにより事実データデータベース４より「Ａ社社長ＡＢ」というデータが参照されたとき、矛盾検出部２０−１はこれをチェックしてＡ社のＡＢが、常務と社長の異なる肩書をもつことは矛盾するので整合性なしと判断し、これを誤り部分表示部３−１で表示させる。

しかし「Ａ社常務ＣＤ」により事実データデータベース４を参照したとき、「Ａ社常務ＸＹ」というデータが参照されても、矛盾検出部２０−１はこれをチェックして常務に異なる名前の者が複数存在しても矛盾しないので整合性ありと判断し、この「Ａ社常務ＣＤ」をデータ更新部５に送出し、事実データデータベース４をこれにより更新する。同様に「Ａ社常務ＥＦ」というデータもデータ更新部５に送出され、事実データデータベース４を更新する。従ってその後にテキスト抽出部１より「Ａ社取締役ＥＦ」という事実データが抽出されて整合性検証部２０で事実データデータベース４から「Ａ社常務ＥＦ」というデータが参照されたとき、矛盾検出部２０−１が抽出された事実データと参照されたデータとが矛盾するものと判断し、これを誤り部分表示部３−１に表示する。

このようにして、テキストから抽出された各事実データを、事実データデータベース４中の既存のデータとの整合性をチェックして、問題がないデータについては順次登録することにより、テキスト中に記載された事実データ同士の整合性をチェックすることができ、テキスト中の事実データ相互の不整合部分を抽出することが可能となる。

（１２）本発明の関連技術の形態（その９）
本発明の関連技術の形態（その９）を図２３により説明する。関連技術の形態（その９）では事実データデータベース４を複数の種別、例えば政治分野とか、経済分野とか、スポーツ分野とかに毎にデータベース４−１、４−２、４−３・・・を分け、テキストの種別に応じてそれに対応するデータベースを参照するものである。

またデータ抽出部２１には種別検出部２１−１が設けられ、テキストの種別を抽出された事実データに基づき断然する。例えば「首相」という語が検出されたときテキスト種別を「政治」と判断し、「野球」という語が検出されたときはテキストの種別を「スポーツ」と判断し、これに応じてデータベースを識別するＤＢ識別信号を出力する。

参照ＤＢ制御部２２は、前記ＤＢ識別信号に応じて事実データデータベース４からこのＤＢ識別信号に対応するデータベース４−１、４−２、４−３・・・の１つを選択するものである。

図２３において、データ抽出部２１に、例えば「横綱若ノ花が優勝しました」というテキストが入力されるとデータ抽出部２１により「横綱若ノ花優勝」という事実データが抽出され、また種別検出部２１−１により「横綱」という語からそのテキストの種別が「スポーツ」と識別され、その種別に応じたスポーツＤＢ識別信号を参照ＤＢ制御部２２に出力する。

これにより参照ＤＢ制御部２２は、スポーツ用のデータベース４−３を選択するように制御を行い。整合性検証部２がスポーツ用のデータベース４−３を参照できるように接続制御される。

この状態で、整合性検証部２が前記事実データ「横綱若ノ花優勝」にもとづきスポーツ用のデータベース４−３を参照して「横綱若ノ花優勝」を読み出し、整合性なしと判断し、誤り部分表示部３−１にこれを表示する。

この場合、事実データデータベース４を種別に構成してあるので、整合性の可否を速く、正確に検証することができる。

（１３）本発明の関連技術の形態（その１０）
本発明の関連技術の形態（その１０）を図２４及び図２５に基づき説明する。関連技術の形態（その１０）では誤り易い可能性の高い部分を予め予想しておき、正確なチェックを行うものである。例えば中近東諸国のように、あまり知られていない地域では近隣の国と国名の混同がおき得る。このため、日本ではあまり馴染みのない中近東のヨルダンに対して、近隣のレバノン、イラクを混合し易い国名として記述し、誤り確率を例えば数値１のように混同可能性テーブルに誤り易いものを低い数値で記入しておく。

同様に昇進や辞任等である人物の肩書が変更された直後には、最新のデータを持たないためにその人物に古い役職を書いてしまう可能性が高い。このために新任の英首相であるブレア氏に対して労働党党首の役職で呼ぶ可能性が高いので、これまた誤り確率を例えば数値１．５のように混同可能性テーブルに誤り易いものを低い数値で記入しておく。

図２４に示す如く、整合性検証部２３にコスト変更部２３−１を設け、複数の参照データが存在するとき誤り確率の低いものを求めるものである。

混同可能性テーブル２４は、前記の如く、誤り易い可能性の高い部分を予め予想しておき誤り確率を、誤り易いもの程小さい数値で表示するものである。混同可能性テーブル２４はフィールド毎に誤りの種類に関する情報を持つ。図２４では、混同可能性テーブル２４−１になじみのない中小の国、あまり知られていない地域の近隣の国と混同し易いものを示し、混同可能性テーブル２４−２には、最近に行われた昇進や辞任等により現肩書と前肩書との混同し易い可能性の高いものを示す。

例えば図２５のマル１に示す如く、「ヨルダンのフセイン大統領がエジプト訪問」という原テキストが図２４に示す、データ抽出部１に入力され、図２５のマル２に示す如く、国名として「ヨルダン」、役職として「大統領」、個人名として「フセイン」が抽出データとして抽出される。これに基づき、図２４に示す整合性検証部２３が事実データデータベース４を参照する。

そして事実データデータベース４中から一致する可能性のあるものとして、国名、役職、個人名がそれぞれ「ヨルダン国王フセイン」と、「イラク大統領フセイン」とが抽出される。

この時、図２５のマル４に示す如く、誤り確率として国名が「３」、役職が「２」も抽出される。

整合性検証部２３では、抽出データに存在する「ヨルダン」より、混同可能性テーブル（国名）２４−１を参照すべきものであること認識し、コスト変更部２３−１がこの混同可能性テーブル２４−１からヨルダンをイラク、またはレバノンと誤り確率が数値「１」であることを判断し、そのもっとも低い数値のものを誤り易いものと判断する。そしてこの場合、図２５のマル３に示す如く、テキストの「ヨルダン」を「イラク」と校正すれば事実データデータベース４中のデータと一致すことを認識する。

（１４）本発明の関連技術の形態（その１１）
本発明の関連技術の形態（その１１）を図２６により説明する。関連技術の形態（その１１）では、先ず訓練用テキストを使用して誤り検出・修正を行った結果を記録しておき、実際に起きた誤りの傾向を分析し、生起し易い種類の誤り種類に対する評価を変更し、個々のテキストに最適な誤り検出・訂正を行うようにしたものである。

本発明の関連技術では、先ず訓練用テキストをデータ抽出部１に入力され、データ抽出部１により事実データが抽出され、整合性検証部２６に伝達されて事実データデータベース４を参照し、不一致部分つまり仮り誤り部分が仮り誤り検出部２６−１により検出される。このとき訓練用テキスト全体に対する仮り誤りが検出され、その結果仮り誤りの集合が得られる。

この仮り誤りの集合は誤り傾向分析部２６−２により、誤りがどのような傾向で存在するのか分析される。その結果、例えば国名に誤りが発生し易いとか、人名に誤りが発生し易いとかその傾向が判断される。

パラメータ調整部２６−３は、この傾向が伝達されたとき、この起こり易い誤りの検出能力を高めるように、パラメータ例えば図６のマル４で示す誤り確率の数値をその部門について小さくし、誤り検出能力を高くする。

このあとで誤り検出部２６−４により誤り検出をもう一度繰り返し、前記調整通りの、誤りが起こり易い部分について誤り検出が正しく行われるか否かをチェックする。このようにして高精度の誤り検出結果を得る。

なお上記説明は訓練用テキストの場合であり、通常のテキストに対しては、データ抽出部１にて抽出された事実データは誤り検出部２６−４に伝達され、前記調整結果により事実データデータベース４の参照が行われる。

（１５）本発明の関連技術の形態（その１２）
本発明の関連技術の形態（その１２）を図２７、図２８に基づき説明する。例えば会社が倒産したときその会社の役員が辞職するので、事実データデータベースよりその会社役員を削除することが必要となる。関連技術の形態（その１２）では、ある事象に従属して起きる事実データの変更についての表を備え、特定の事象が起きたとき、事実データデータベース４中の他のデータをこれに応じて更新処理し、データの整合性を保つものである。

図２７に示す如く、従属事象テーブル２７を用意し、ある事象に従属して起きる事実データの変更内容を示す。例えば倒産という事象に対しては役員削除を行うことを示す。事象例としては、図２８のマル１に示す如く、倒産という事象に伴って、役員はその地位を失うので役員データを削除することが必要となる。また図２８のマル２に示す如く、要人の暗殺という事象に伴って当人のついていた役職は全て解任されるので当人のデータをこれまた修正することが必要となる。

図２７において、データ抽出部１にテキストを入力する。データ抽出部１は事実データの抽出処理を行い、この事実データが整合性検証部２６に伝達される。整合性検証部２６は、この事実データに、倒産とか、暗殺とか、従属事象テーブル２７の検索項目が、例えばＡ社倒産ということが存在していることを検出したとき、従属事象検索部２６−１に対し、従属事象テーブル２７を検索させて倒産という事象に従属して行うべき事項を検索させる。そして役員削除ということを認識する。

これにより整合性検証部２６はＡ社役員削除という変更データをデータ更新部５に送出する。これに基づきデータ更新部５は、事実データデータベース４中のＡ社役員に関するデータを全部削除する。このようにして事実データデータベース４のデータを事象に合わせて対応処理することができる。

（１６）本発明の第４の実施の形態
本発明の第４の実施の形態を図２９及び図３０に基づき説明する。例えば米国大統領が新く選出された場合、これに基づき旧大統領、新大統領の終了期日、新任期日等を設定するものであり、第４の実施の形態では事実の変更に関するデータをテキストから抽出した後、変更前の状態が抽出データの記載時において存在し得るかを検証し、更に旧事実の終了期日の設定、新事実の生起期日の設定を行うものである。

このために、図２９に示す如く、整合性検証部２８に、変更前の状態が抽出データの記載時において存在し得るかを検証する変更前状態検出部２８−１を設け、また誤り処理部２９に、旧事実の終了期日の設定及び新事実の生起期日の設定を行う更新データ作成部２９−１を設ける。

いま、図３０のマル１に示す如く、事実データデータベース４中に、国名、肩書、名前、生起期日、終了期日がそれぞれ、「米国、大統領、ブッシュ、１９９０、不明」というデータが登録されているとき、データ抽出部１に、図３０マル２に示す如く、「クリントン大統領が１９９２年の大統領選挙に初当選」というテキストが入力される。そしてこれより抽出された事実データ、「クリントン、大統領、１９９２年、大統領選挙、初当選」という事実データが整合性検証部２８に送出される。

ところで、このときブッシュが１９９０年に米大統領になったことだけが事実データデータベース４中に記載されている。このとき前記テキストから抽出された事実データにより、「クリントン、１９９２、大統領選挙、初当選」により、クリントンが１９９２年に大統領に初当選したということが判別される。クリントンが１９９２年に初めて大統領になるためにはそれ以前に別の人が大統領でなければならないが、整合性検証部２８の変更前状態検出部２８−１が、図３０のマル１の「米国大統領ブッシュ１９９０終了期日不明」というデータから、このブッシュが前大統領であることを認識する。

一方クリントンの大統領就任のため、ブッシュの任期は１９９２年で終了することになるが、これが誤り処理部２９により認識される。また誤り処理部２９では、事実データデータベース４に、クリントンの大統領就任にもとづく新たなデータ追加を必要とすることを認識する。

誤り処理部２９の更新データ作成部２９−１により、図３０マル３に示す如き更新データが作成され、この更新データがデータ更新部５に送出されて事実データデータベース４に登録されて、図３０のマル３に示す通りのデータが登録されることになる。

（１７）本発明の第５の実施の形態
本発明の第５の実施の形態を図３１及び図３２に基づき説明する。図３１は本発明の第５の実施の形態図、図３２はその動作説明図である。整合性検証部が事実データデータベースを検索したとき、終了期日又は生起期日が不明な事実データが存在した場合、そのデータ指定期日における信頼性をデータ変動の頻度、指定期日と生起期日又は終了期日との差を元にして評価するものであり、特定の期日においてある閾値内の信頼性を持つ事実データのみ整合性チェックを行うものである。

例えば政情不安定な国において大統領が短期間に頻繁に変えるような場合には、閾値を例えば２年と定め、指定期日より２年の差のあるものはチェックしない。

また政情が安定している国においても、不完全な期日指定しかないデータに対して、如何にその信頼性を評価するのかについて、図３２に例示する。図３２の例では、事実データデータベース４に、マル１に示す如く、クリントンが１９９７年に米国大統領であることだけが記載されている場合である。

いま、図３１に示すデータ抽出部１に、図３２のマル２に示す如く「ブッシュ米大統領が１９９１年にベルリンを訪問」というテキストが入力され、これに基づき、マル３に示す如く、国名、肩書、名前、生起期日がそれぞれ「米国、大統領、ブッシュ、１９９１」という事実データが抽出される。実際は抽出された事実データにベルリン訪問も含まれるが、この部分は期日指定に関係がないので、省略する。

図３２のマル１で示す事実データデータベース４中のクリントン大統領のデータには、生起期日も終了期日も指定がないので、１９９１年にクリントンが大統領であった可能性は完全には否定できない。このため大統領の地位の確認できるデータが、このように１９９７年である場合に、その６年前に同一人物が同じ地位についている確率を定量的に評価することとなる。

米国大統領の任期が最大で２期（１期４年）までということを考えるとその可能性は非常に小さいことがわかる。このため閾値Ｔｈ₁を６年とし、この閾値以上越えたとき、このような場合に、前記抽出された事実データをチェック対象としなくとも、ジッシュのデータと相互に矛盾する可能性は、図３２のマル５に示す如く、非常に低いことが想定でき、整合性の検証に合格したものとする。

前記の場合、図３２のマル２で示すテキストによりデータ抽出部１から抽出されたマル３で示す如き事実データが整合性検証部３０により事実データデータベース４を参照したとき、図３２のマル１で示すデータの存在を検知する。このとき閾値期限判別部３０−１が、テキストのデータが閾値Ｔｈ₁の６年以上の差のあることを認識してチェックするのを中止し、整合したものとしてこのテキストを出力する。

また、閾値はその対称により適宜定めることができ、例えば政情不安定な国における大統領に関する事項は閾値Ｔｈ₀を例えば２年と定め、２年以上の差のあるデータはチェックを行わず、整合性の検証に合格することができる。

（１８）本発明の関連技術の形態（その１３）
本発明の関連技術の形態（その１３）を図３３に基づき説明する。

本発明の関連技術の形態（その１３）では、テキストを一旦特定の分類毎に分類し、この分類中のテキストに基づき分類毎に固有のデータベースを構築し、この分類毎で整合性のチェックを行うようにしたものである。

関連技術の形態（その１３）は、図３３に示す如く、事実データデータベース４、データ抽出部３２、データ更新部３３、整合性検証部３４等を具備する。

事実データデータベース４は、例えば前記政治分野、経済分野、スポーツ分野・・・等に分類された分類別データベース４−１、４−２、・・・４−ｎより構成される。そして分類別データベース４−１は政治分野に分類されるデータが格納され、分類別データベース４−２は経済分野に分類されるデータが格納される。そして分類別データベース４−ｎにはスポーツ分野に分類されるデータが格納される。

テキスト３１は政治分野、経済分野、スポーツ分野・・・等の複数の分類種別のテキストが存在するテキストコーパスである。テキストコーパスは複数のテキストの集合体であり、複数の種別で構成されている必要はない。

データ抽出部３２は、テキストより事実データを抽出するものであり、テキストより抽出した事実データを予め定められた複数の分類毎に分類する部分テキスト抽出部３２−１を有するものである。

データ更新部３３は、データ抽出部３２から伝達された分類毎の事実データを、その分類と同一分類の分類別データベースに格納して分類毎に固有のデータベースを構築するものである。

整合性検証部３４はテキスト３１より抽出された事実データが事実データデータベース４に格納されているデータとの整合性をチェックするものであり、部分テキスト抽出部３２−１による分類に基づき、その分類と同じ分類の分類別データベースに格納されているデータとの整合性をチェックする分類別チェック部３４−１を具備する。

例えばテキスト３１として１ヶ月分の新聞の１面記事から構成されるテキストコーパスをデータ抽出部３２に入力する。これによりデータ抽出部３２は、これより事実データを抽出するが、部分テキスト抽出部３２−１は、抽出した単語をキーとしてその事実データが例えば政治分野に分類されるものとか、経済分野に分類されるものとか予め定められた分類に分ける。そしてこれをデータ更新部３３及び整合性検証部３４に送出する。

整合性検証部３４では分類別チェック部３４−１により、事実データの前記分けられた分類に応じた分類別データベースを参照し、整合性をチェックする。そしてこのときすでに参照された特定の分類別データベース、例えば政治分野なら分類別データベース４−１を参照して矛盾がなく、しかも同じものが格納されていなければこれを格納するように、データ更新部３３に通知する。これによりデータ更新部３３は、その事実データを、その分類の分類別データベースに格納する。

このようにして分類別に固有のデータベースを構築することができる。従って分類別の正確なデータベースを構築することができ、正しい校正を行うことができる。

（１９）本発明の関連技術の形態（その１４）
本発明の関連技術の形態（その１４）を図３４に基づき説明する。

本発明の関連技術の形態（その１４）では、テキスト全体を一度に処理するのではなく、テキストの文書構造すなわち文書のタイトルとか本文に付加されているタグにより示される分類を参照して特定の種類の文書構造に対応する部分を抽出し、その中で整合性の判断を行い、矛盾のない整合性の得られたものを順次その種類つまりその分類別のデータベースに格納するものである。

関連技術の形態（その１４）は、図３４に示す如く、事実データデータベース４、データ更新部３３、データ抽出部３５、整合性検証部３４等を具備する。事実データデータベース４、データ更新部３３、整合性検証部３４等は図３３に示すものと同一である。

データ抽出部３５は、テキストから事実データを抽出するものであるが、特定分類抽出部３５−１を有し、予め指定された特定分類の事実データを、分類種別を示すために付加されているテキストの文書構造のタグを参照してその部分を抽出するものである。例えば政治分野という分類指定を行うと政治に関するテキストの事実データだけが抽出される。

いま、特定分類抽出部３５−１に対して、例えば分類指定として政治分野という指定を行い、データ抽出部３５に対しテキストを入力する。これにより特定分類抽出部３５−１は、テキストの文書構造のタグを参照して政治分野のテキストのみから事実データを抽出し、この分類指定事項を付加してこれをデータ更新部３３及び整合性検証部３４に送出する。

整合性検証部３４では、これを事実データデータベース４中の、その分類に応じた分類別データベースを参照して整合性をチェックする。このときその分類別データベースに格納されたデータとの矛盾がなく、しかも同じものがなければこの事実データを格納するようにデータ更新部３３に通知する。これによりデータ更新部３３はその事実データをその分類の分類別データベースに格納する。

このようにして分類指定された分類に対する固有のデータベースを速く構築することができるので、特定の分類に対するデータベースの内容が不充分のときにこれを充実させることができる。

本発明の原理形態図である。本発明の原理形態の動作説明図である。本発明の関連技術形態図（その１）である。本発明の関連技術形態図（その２）である。本発明の関連技術（その２）の動作説明図（その１）である。本発明の関連技術（その２）の動作説明図（その２）である。本発明の関連技術形態図（その３）である。本発明の関連技術形態図（その３）の動作説明図である。本発明の第１の実施の形態図である。本発明の第１の実施の形態の動作説明図である。本発明の第２の実施の形態図である。本発明の第２の実施の形態の動作説明図である。本発明の第３の実施の形態図である。本発明の第３の実施の形態の動作説明図である。本発明の関連技術形態図（その４）である。本発明の関連技術形態図（その４）の動作説明図である。本発明の関連技術形態図（その５）である。本発明の関連技術形態図（その５）の動作説明図である。本発明の関連技術形態図（その６）である。本発明の関連技術形態図（その６）の動作説明図である。本発明の関連技術形態図（その７）である。本発明の関連技術形態図（その８）である。本発明の関連技術形態図（その９）である。本発明の関連技術形態図（その１０）である。本発明の関連技術形態図（その１０）の動作説明図である。本発明の関連技術形態図（その１１）である。本発明の関連技術形態図（その１２）である。本発明の関連技術形態図（その１２）の動作説明図である。本発明の第４の実施の形態図である。本発明の第４の実施の形態の動作説明図である。本発明の第５の実施の形態図である。本発明の第５の実施の形態の動作説明図である。本発明の関連技術形態図（その１３）である。本発明の関連技術形態図（その１４）である。

符号の説明

１データ抽出部
２整合性検証部
３誤り処理部
３−１誤り部分表示部
３−２処理部
４事実データデータベース
５データ更新部
６信頼性評価部
７誤り部分判定部

Claims

特定の事項に関するデータを蓄積した事実データベースと、
入力されたテキストから事実データを抽出するデータ抽出部と、
抽出された事実データを事実データベース中の各レコードと照合し、その不整合を検出する整合性検証部と、
不整合データ及び対応するテキスト中の表現の修正を行う誤り処理部を具備し、
前記データ抽出部において事実の変更に関するデータを抽出し、
前記整合性検証部で変更前の状態に対しての整合性のチェックを行い、対応するデータが検索されて整合性が検証されたデータに関しては、対応データを変更後の状態へ修正する文書校正装置において、
期日を含む事実データを扱う場合に、事実の変更に関するデータをテキストから抽出した後、前記整合性検証部において変更前の状態が抽出データの記載時において存在し得るか否かを検証し、誤り処理部において更に旧事実の終了期日の設定、新事実の生起期日の設定を行うことを特徴とする文書校正装置。