JP5494675B2

JP5494675B2 - 解析方法、解析装置及び解析プログラム

Info

Publication number: JP5494675B2
Application number: JP2011550736A
Authority: JP
Inventors: 傑鷲尾
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2010-01-19
Filing date: 2010-01-19
Publication date: 2014-05-21
Anticipated expiration: 2030-01-19
Also published as: EP2527991A1; KR20120104379A; WO2011089683A1; US20120278694A1; KR101384405B1; EP2527991B1; JPWO2011089683A1; EP2527991A4

Description

文書の解析方法、文書の解析装置及び文書の解析プログラムに関する。

企業等では、文書等の情報の多くを電子化して管理している。さらに、近年では、法令で義務付けられている書面についても、紙による保存に代わり、電磁的記録による保存が認められている。

しかし、単に文書を電子化するだけでは、管理や再利用が容易にはならない。そこで、文書データの作成や流通、再利用を容易にするため、各種分野で電子化情報の標準化が進められている。標準化によって、文書データの構成や情報項目の名前またはＩＤ等が共通化される。共通化された情報項目名を用いれば、既存の文書データから所望の項目を見つけ出すことができる。

ところで、文書データは、作成された後も、法令の改正あるいは誤り訂正のため等、さまざまな理由で記述内容が変更されることがある。文書データの管理上、変更箇所と変更内容は把握しておく必要があり、変更前と変更後の文書データを照合し、変更箇所と変更内容とを自動解析する解析方法が求められている。しかし、文書データを単純に照合するだけでは、名前が異なると、意味的に同じものが異なるとして検出されてしまう。そこで、データマッチングの前に、読み込んだ文書を予め決められた文字あるいは記号に変換して正規化し、マッチングの精度を上げる方法がある。また、変更内容の分析には、変更前のデータと変更後のデータとを対応付ける必要があるが、単純なマッチングでは対応付けは難しい。そこで、文書データに含まれる共通の項目名やファイル名を利用して変更前後のデータのマッチングを行い、対応するデータを抽出する解析方法がある。

特開２００４−２９５５００号公報

しかし、従来の解析では、共通の項目名やファイル名が設定されていない場合には、対応付けができず、変更の解析が難しかった。なお、項目名やファイル名等、その情報データを一意に特定できる情報を識別子と呼ぶ。

対象の２つの文書データを比較し、識別子が一致すれば、これは同じ項目あるいは同種のファイルであると対応付けることができる。しかし、項目名は、法改正等によって変更しなければならない場合がある。ファイル名についても同様である。このように、変更等によって同じ項目やファイルを識別するための識別子が変更される場合があるが、単純なマッチングでは、どの情報が削除され、どの情報が追加されたのかしか把握することができない。しかしながら、変更の解析において利用者が最も知りたい情報は、「情報Ａの識別子及びデータ型が変更され、情報Ｂになった」という情報である。このためには、文書データのどの項目とどの項目とが対応付けられるのかを、人手によって１つ１つ確認しなければならず、変更内容の解析に膨大な時間がかかってしまった。また、項目の対応付けは、この文書の内容を理解している人でなければ難しい場合も多く、作業者に多大な負担がかかっていた。

このような点に鑑み、同じ情報データに異なる識別子が設定されていても文書の変更解析が可能な解析方法、解析装置及び解析プログラムを提供することを目的とする。

上記課題を解決するために、文書を比較し、文書間で一致しない変更部分を解析する解析方法が提供される。この解析方法によれば、文書に含まれる項目の値を記述する項目値ファイルと、項目及び項目間の関係を定義する定義ファイルと、を有する文書データを格納する記憶手段から、比較対象の第１の文書データ及び第２の文書データを読み出す。そして、定義ファイルの項目間の関係を解析して項目間の構造情報を生成する。次に、第１の文書データに定義されている項目の識別子と、第２の文書データに定義されている項目の識別子とを比較して、第１の文書データにのみに存在する第１の未対応項目及び第２の文書データにのみに存在する第２の未対応項目を検出する。そして、項目間の構造情報に基づいて、第１の未対応項目に関連する項目間の関係と第２の未対応項目に関連する項目間の関係とを比較し、項目間の関係が共通すると判定した第１の未対応項目と第２の未対応項目とを対応付ける。

開示の解析方法、解析装置及び解析プログラムによれば、同じ情報データに異なる識別子が設定されていても解析が可能となる。
本発明の上記及び他の目的、特徴及び利点は本発明の例として好ましい実施の形態を表す添付の図面と関連した以下の説明により明らかになるであろう。

第１の実施の形態の解析装置の構成例を示した図である。ＸＢＲＬの構造の一例を示した図である。第２の実施の形態の解析装置のハードウェア構成例を示したブロック図である。解析装置のソフトウェア構成例を示したブロック図である。報告書のインスタンス文書の一例を示した図である。ＸＢＲＬデータの文書参照構造情報の一例を示した図である。スキーマから抽出した項目・型情報一例を示した図である。表示リンク構造情報の一例を示した図である。参照リンク構造情報の一例を示した図である。項目値情報の一例を示した図である。変更情報解析処理後の文書参照構造比較結果を示した図である。変更情報解析処理後の項目・型情報比較結果を示した図である。変更情報解析処理後の項目値比較結果を示した図である。情報マッチング処理後の文書参照構造比較結果を示した図である。情報マッチング処理後の項目・型情報比較結果を示した図である。情報マッチング処理後の項目値比較結果を示した図である。マッチする項目の候補とその確度を示した図である。１回目の学習後の確度とマッチする項目の候補とその確度を示した図である。２回目の学習後の確度とマッチする項目の候補とその確度を示した図である。解析装置の処理全体を示したフローチャートである。データ構造解析処理の手順を示したフローチャートである。変更箇所解析処理の手順を示したフローチャートである。マッチング（文書の等価性解析）処理の手順を示したフローチャートである。マッチング（項目の等価性解析）処理の手順を示したフローチャートである。マッチング学習処理の手順を示したフローチャートである。

以下、実施の形態を図面を参照して説明する。
図１は、第１の実施の形態の解析装置の構成例を示した図である。
解析装置１０は、文書データ記憶手段１１、データ構造解析手段１２、変更情報解析手段１３及び情報マッチング手段１４を有する。データ構造解析手段１２、変更情報解析手段１３及び情報マッチング手段１４は、コンピュータが解析プログラムを実行することにより、その処理機能を実現する。

文書データ記憶手段１１は、比較対象の文書を記憶する記憶装置であり、文書データＡ１１ａと、文書データＢ１１ｂとが記憶されている。文書データＡ１１ａ及び文書データＢ１１ｂは、文書に含まれる項目の値を記述する項目値ファイルと、この項目及び項目間の関係等を定義した定義ファイルと、を有する。文書データＡ１１ａと文書データＢ１１ｂとは、予め決められた規格に基づいて作成されている。なお、図１では文書データ記憶手段１１を解析装置１０内に設けているが、解析装置１０の外部に設けるとしてもよい。

データ構造解析手段１２は、比較対象の文書データの指定及び解析指示を入力すると、処理を開始する。文書データ記憶手段１１から対象の文書データＡ１１ａと、文書データＢ１１ｂとを読み出し、それぞれのデータ構造を解析する。変更前と変更後のファイルと、項目を対応付けるため、データ構造として、文書データを構成するファイル間の参照構造と、文書データに含まれる項目の関係構造とを解析する。例えば、文書データを構成するファイル間の参照関係を解析し、参照関係に基づくファイル構造を検出して、文書の構造情報を生成する。また、定義ファイルに記述されている項目間の関係を解析し、項目間の関係構造を検出して、項目間の構造情報を生成する。ファイル間の参照関係は、例えば、ファイル１がファイル２を参照している場合、ファイル１が親、ファイル２が子供という親子関係を有すると判断する。また、ファイル１がファイル２とファイル３とを参照している場合、ファイル２とファイル３は兄弟関係を有すると判断する。このように、ファイルの参照関係を解析し、ファイル間の親子関係及び兄弟関係を検出する。検出した文書データのファイル間の参照関係に基づく文書の構造情報を生成し、記憶手段に格納する。項目間の関係は、それぞれの定義ファイルを解析し、表示上の関係あるいは意味的な関係といった項目間の関係を把握する。例えば項目「ａ」は項目「ｂ」の下に表示されるという表示上の親子関係を抽出し、項目間の構造情報として記録する。また、同時に、文書に含まれる項目のデータの型等の特徴を抽出する。項目を定義する定義ファイルを解析し、例えば項目「ａ」が存在し、その型は「１０進数数値型」であるという特徴を抽出する。

変更情報解析手段１３は、文書データＡ１１ａと文書データＢ１１ｂとで一致しない変更部分を解析し、変更情報を生成する。変更情報解析手段１３では、変更前後のファイルで同じと見なせるものを対応付けるファイルの等価性解析と、変更前後の項目で同じと見なせるものを対応付ける項目の等価性解析とを行う。ファイルの等価性解析では、文書データＡ１１ａのファイルのファイル識別子と、文書データＢ１１ｂのファイルのファイル識別子とを比較し、共通するファイルであると判定した文書データＡ１１ａのファイルと文書データＢ１１ｂのファイルとを対応付ける。それぞれのファイルを一意に識別するファイル識別子を比較し、ファイル識別子の全範囲、あるいは予め決められた一部範囲が同じときに一致と判定する。例えば、名前空間ＵＲＩ（Uniform Resource Identifier）によってファイル名に付される部分は、比較範囲から除くとしてもよい。また、文書データＡ１１ａまたは文書データＢ１１ｂのいずれか一方のみに存在し、対応付けができなかったファイルは、未対応ファイルとしておく。ファイル対応表を生成し、対応付けられたファイルはマッチする情報の欄に登録し、未対応ファイルはそれぞれ文書データＡのみに存在するファイル、文書データＢのみに存在するファイルの欄に登録する。項目の等価性解析についても同様に、文書データＡ１１ａに含まれる項目の識別子と、文書データＢ１１ｂに含まれる項目の識別子とを比較し、一致するものを対応付け、項目対応表のマッチする情報に登録する。文書データＡ１１ａまたは文書データＢ１１ｂのいずれか一方のみに存在する項目は、未対応項目とし、項目対応表のそれぞれの文書の未対応項目の欄に登録する。また、識別子によって対応付けられた項目については、その値を項目値ファイルより抽出しておく。そして、情報マッチング手段１４によって未対応項目の対応付けが行われた後、変更内容の解析を行う。対応付けられた項目について、その値を項目値ファイルより抽出する。文書データＡ１１ａと文書データＢ１１ｂの項目値ファイルから対応付けられた項目の値を抽出する。そして、対応付けがされた項目の特徴と、項目値とを比較し、変更内容を解析する。変更内容の解析結果、ファイル対応表、項目対応表は、必要に応じて表示装置２０に表示し、利用者に変更箇所と変更内容を報告する。

情報マッチング手段１４は、文書の構造情報と、ファイル対応表とに基づいて、文書データＡ１１ａと文書データＢ１１ｂの未対応ファイルの対応付けを行う。また、項目間の構造情報及び項目対応表に基づいて文書データＡ１１ａと文書データＢ１１ｂに含まれる未対応項目のマッチング処理を行う。マッチング処理とは、異なる識別子が付された同一の情報データを対応付ける処理を指す。ファイルのマッチング処理では、文書の構造情報に基づき、文書データＡ１１ａの未対応ファイルと参照関係を有するファイルと、文書データＢ１１ｂの未対応ファイルと参照関係を有するファイルを比較し、共通すると判定したものを対応付ける。共通しているかどうかは、参照関係を有するファイルが全て一致、または一致したファイルの個数あるいは割合が基準値を超えているかどうかで判断する。情報マッチング手段１４で対応付けられた文書データＡ１１ａと文書データＢ１１ｂのファイルは、ファイル対応表のマッチする情報の欄に移動する。項目のマッチング処理では、項目間の構造情報と項目対応表とに基づき、文書データＡ１１ａの未対応項目に関連する項目間の構造情報と、文書データＢ１１ｂの未対応項目に関連する項目間の構造情報の内容を比較し、項目間の関係が同様であるかどうかを判定する。例えば、未対応の項目の前後に表示される項目同士を比較し、全てまたはある割合以上の項目が一致している場合は、同様であると判定する。情報マッチング手段１４で対応付けられた文書データＡ１１ａと文書データＢ１１ｂのファイル及び項目は、マッチする情報として登録する。その後、変更情報解析手段１３に処理を戻し、新たに対応付けられた項目の変更内容の解析処理を行う。

このような構成の解析装置１０の動作及びその解析方法の処理手順について説明する。
文書データ記憶手段１１には、文書に含まれる項目の値を記述する項目値ファイルと、この項目を特徴付ける項目識別子、型及び項目間の関係を定義した定義ファイルとを有する文書データＡ１１ａと、文書データＢ１１ｂとが格納されている。

解析装置１０は、対象の文書データＡ１１ａ及び文書データＢ１１ｂを指定されて処理を開始する。データ構造解析手段１２は、対象の文書データＡ１１ａ及び文書データＢ１１ｂを文書データ記憶手段１１から読み出す。そして、文書データＡ１１ａと文書データＢ１１ｂのファイルの変更解析と、項目の変更解析とを行う。

ファイルの変更解析について説明する。データ構造解析手段１２は、読み出した文書データＡ１１ａ、文書データＢ１１ｂそれぞれの文書データに属するファイルの参照関係を解析する。参照関係に基づくファイルの親子関係あるいは兄弟関係、すなわち、文書データのファイル構造を検出する。検出した文書データのファイル構造は、文書データＡ１１ａの文書の構造情報と、文書データＢ１１ｂの文書の構造情報として記憶手段に格納する。変更情報解析手段１３は、文書データＡ１１ａのファイルのファイル識別子と、文書データＢ１１ｂのファイル識別子とを比較し、同じと判定したファイルを対応付ける。対応付けができたファイルは、ファイル対応表にマッチする情報として登録する。ファイル識別子による対応付けができなかったファイルは、未対応ファイルとする。情報マッチング手段１４では、文書の構造情報に基づいて、文書データＡ１１ａの未対応ファイルと、文書Ｂ１１ｂの未対応ファイルとのマッチング処理を行う。文書データＡ１１ａの未対応ファイルと所定の参照関係を有するファイルと、文書データＢ１１ｂの未対応ファイルと所定の参照関係を有するファイルとを比較する。例えば、参照関係に基づいて、文書データＡ１１ａの未対応ファイルの親に相当するファイルと、文書データＢ１１ｂの未対応ファイルの親に相当するファイルを比較する。そして、親に相当するファイルが同じと認められるときは、この文書データＡ１１ａの未対応ファイルと、文書データＢ１１ｂの未対応ファイルとを対応付ける。対応付けられたファイルは、マッチする情報として、ファイル対応表に登録する。

次に、項目の変更解析について説明する。データ構造解析手段１２は、読み出した文書データＡ１１ａ、文書データＢ１１ｂそれぞれの文書データの定義ファイルを解析する。そして、項目の特徴を抽出して項目情報を生成するとともに、項目間の関係を解析して項目間の構造情報を生成する。変更情報解析手段１３は、文書データＡ１１ａの項目の項目識別子と、文書データＢ１１ｂの項目の項目識別子とを比較し、同じと判定した項目を対応付ける。対応付けができた項目は、項目対応表にマッチする情報として登録する。項目識別子による対応付けができなかった項目は、未対応項目として登録する。また、このとき、対応付けができた項目については、文書データＡ１１ａ及び文書データＢ１１ｂの項目値ファイルからこの項目の値を抽出して比較し、値が変更されているかどうかを調べるとしてもよい。情報マッチング手段１４は、項目間の構造情報に基づいて、文書データＡ１１ａの未対応項目と、文書データＢ１１ｂの未対応項目との対応付けを行う。そして、項目間の構造情報に基づき、項目間の関係が共通していると判定したときは、文書データＡ１１ａの未対応項目と、文書データＢ１１ｂの未対応項目とを対応付ける。対応付けられた項目は、項目対応表のマッチする情報に登録する。次に、変更情報解析手段１３は、対応付けした項目について変更内容を解析する。文書データＡ１１ａ及び文書データＢ１１ｂの項目値ファイルからこの項目の値を抽出して比較し、値が変更されているかどうかを調べる変更内容の解析処理を行う。また、項目識別子（項目名）が変更されている場合にも、項目識別子が変更されたことを変更内容として記憶しておく。なお、情報マッチング手段１４の前にこの変更内容の解析が行われていた項目については、処理を省略する。

こうして生成された変更内容の解析結果、ファイル対応表、項目対応表は、必要に応じて表示装置２０に表示し、利用者に変更箇所と変更内容を報知する。
なお、上記の説明では、ファイルの解析を行った後、項目の解析を行うとしたが、処理は並列に行うとしてもよい。

上記の処理が実行されることにより、比較対象の文書データＡ１１ａのファイルと文書データＢ１１ｂのファイル、及び文書データＡ１１ａに含まれる項目と文書データＢ１１ｂに含まれる項目が対応付けられる。このとき、識別子が変更されていても、ファイル間の参照関係、項目間の関係、項目の特徴に基づいて、同じと見なせる情報データを検出して対応付けが行われる。これにより、同じ情報データに異なる識別子が設定されていても解析が可能となり、対応付けられたファイルまたは項目を比較して変更内容を把握することができる。この結果、解析に要する作業者の負担を軽減することが可能となる。

以下、第２の実施の形態として、対象の文書がＸＢＲＬ（eXtensible Business Reporting Language）によって作成された文書である場合について説明する。
最初にＸＢＲＬの概要を説明する。ＸＢＲＬは、各種財務報告用の情報を作成・流通・活用できるように標準化されたＸＭＬ（eXtensible Markup Language）ベースの言語である。ＸＢＲＬの標準化作業や普及活動は、標準化団体であるＸＢＲＬＩｎｔｅｒｎａｔｉｏｎａｌが行っている。また、日本においては、ＸＢＲＬＪａｐａｎがその役割を担っている。ＸＢＲＬの詳細な規格は、例えば、「ＸＢＲＬＳｐｅｃｉｆｉｃａｔｉｏｎｓ［平成２２年１月１４日検索］、インターネット＜URL: http://www.xbrl.org/Specifications/＞」に記載されている。同様の規格は、ＸＢＲＬＩｎｔｅｒｎａｔｉｏｎａｌからも発行されている。

図２は、ＸＢＲＬの構造の一例を示した図である。図２は、ＸＢＲＬ２．１Ｓｐｅｃｉｆｉｃａｔｉｏｎに基づくＸＢＲＬ構造の一例である。
ＸＢＲＬでは、インスタンスと、タクソノミという２種類の文書で財務情報を記述する。タクソノミは、スキーマ２２０と、複数のリンクベース２３１〜２３５の集合である。

インスタンス文書２１０、スキーマ２２０、表示リンク２３１、計算リンク２３２、定義リンク２３３、名称リンク２３４及び参照リンク２３５は、それぞれ別ファイルとして作成され、ファイルを一意に特定する識別子（ファイル名）が設定される。また、文書間の参照関係は、図２に示したようなツリー構造をとり、ツリーの親の文書が、子の文書を参照する構成となっている。すなわち、インスタンス文書２１０が、スキーマ２２０を参照する。また、スキーマ２２０は、表示リンク２３１、計算リンク２３２、定義リンク２３３、名称リンク２３４、参照リンク２３５を参照する。以下、インスタンス文書２１０、スキーマ２２０、表示リンク２３１、計算リンク２３２、定義リンク２３３、名称リンク２３４及び参照リンク２３５の集合をＸＢＲＬデータ、ＸＢＲＬデータの中の１つのファイルをＸＢＲＬ文書または単に文書と呼ぶ。

インスタンス文書２１０は、実際の財務情報を記述したＸＭＬ文書であり、項目の値、テキスト等の実データが記述される。以下、数値やテキスト等、文書中で項目に対して記述されている実データをまとめて項目値とする。インスタンス文書は、第１の実施の形態で説明した項目値ファイルと同様である。タクソノミ文書は、インスタンス文書２１０の内容・構造・扱われ方等を定義する。第１の実施の形態で説明した定義ファイルと同様である。スキーマ２２０は、インスタンス文書２１０に記述されている項目の名前及び型の情報等を定義する文書である。

複数のリンクベース、表示リンク２３１、計算リンク２３２、定義リンク２３３、名称リンク２３４、参照リンク２３５は、項目に対するリンクを記述する文書である。表示リンク２３１は、項目の表示の順番や親子関係を定義する。例えば、「項目“ＣｕｒｒｅｎｔＡｓｓｅｔ”の次に、項目“ＮｏｎＣｕｒｒｅｎｔＡｓｓｅｔｓ”を表示する」というような表示の順番を定義する。計算リンク２３２は、項目の計算関係を定義する。例えば、「“Ａｓｓｅｔｓ”＝“ＣｕｒｒｅｎｔＡｓｓｅｔ”＋“ＮｏｎＣｕｒｒｅｎｔＡｓｓｅｔｓ”」というような計算関係を定義する。定義リンク２３３は、項目の会計上の意味的な関係を定義する。例えば、「“ＮｏｎＣｕｒｒｅｎｔＡｓｓｅｔｓ”と、“ＦｉｘｅｄＡｓｓｅｔｓ”とは同じ概念である」というような意味的な関係を定義する。名称リンク２３４は、項目のラベルを定義する。例えば、「“Ａｓｓｅｔｓ”のラベルは『資産』とする」というようなラベルの情報を定義する。参照リンク２３５は、項目の定義の根拠となった文献情報を定義する。例えば、「“Ａｓｓｅｔｓ”は、財務諸表等規則、様式第Ａ号に基づく」というような文献情報を定義する。このように、ラベル、文献情報等、リンクで定義する項目の付加情報を以下の説明ではリソースと呼ぶ。

一般に、ＸＢＲＬデータは、法令の改正、会計基準の変更、及び企業や監督機関の財務報告の方針の変更等により、その記述内容（文書構成、項目の値、項目の定義、リンク等）が変更される。また、誤りの修正のために記述内容が変更される場合もある。変更は、最低でも年１回、多い場合は数回以上行われる。このため、ＸＢＲＬデータの作成、移行、管理、分析、比較等の処理のために、変更箇所だけでなく変更内容についても正確に把握する必要がある。もちろん、手作業による情報のマッチングや、変更時の変更履歴情報に基づいて変更内容を正確に把握することは不可能ではない。しかし、現在使われているＸＢＲＬデータには、項目が３０００〜１００００個程度存在するため、手作業による全ての変更箇所の情報マッチングには膨大な時間がかかってしまう。

図３は、第２の実施の形態の解析装置のハードウェア構成例を示したブロック図である。
解析装置１００は、ＣＰＵ（Central Processing Unit）１０１によって装置全体が制御されている。ＣＰＵ１０１には、バス１０７を介してＲＡＭ（Random Access Memory）１０２、ハードディスクドライブ（ＨＤＤ：Hard Disk Drive）１０３、グラフィック処理装置１０４、入力インタフェース１０５、及び通信インタフェース１０６が接続されている。

ＲＡＭ１０２には、ＣＰＵ１０１に実行させるＯＳ（Operating System）のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、ＲＡＭ１０２には、ＣＰＵ１０１による処理に必要な各種データが格納される。ＨＤＤ１０３には、ＯＳやアプリケーションのプログラムが格納される。グラフィック処理装置１０４には、モニタ２１が接続されており、ＣＰＵ１０１からの命令に従って画像をモニタ２１の画面に表示させる。入力インタフェース１０５には、キーボード２２やマウス２３が接続されており、キーボード２２やマウス２３から送られてくる信号を、バス１０７を介してＣＰＵ１０１に送信する。通信インタフェース１０６は、ネットワーク３０に接続されており、ネットワーク３０を介して端末装置４０との間でデータの送受信を行うとしてもよい。

このようなハードウェア構成によって、解析装置１００の処理機能を実現することができる。なお、図３には、解析装置１００のハードウェア構成を示したが、端末装置４０のハードウェア構成も同様である。また、ネットワーク３０を介して接続する端末装置４０から指示を入力し、解析結果を端末装置４０のモニタに出力するとしてもよい。

図４は、解析装置のソフトウェア構成例を示したブロック図である。
解析装置１００は、ＸＢＲＬデータのデータ構造を解析するデータ構造解析部１２０、変更箇所及び変更内容を解析する変更情報解析部１３０、未対応情報データのマッチングを行う情報マッチング部１４０及び記憶部１５０を有し、対象のデータを格納するＸＢＲＬデータ記憶装置１１０と接続し、対象の解析を行う。

ＸＢＲＬデータ記憶装置１１０には、比較対象の変更前と変更後のＸＢＲＬデータが格納されている。なお、ＸＢＲＬデータ記憶装置１１０は、解析装置１００内に設けるとしてもよい。

データ構造解析部１２０は、文書参照構造解析部１２１及び項目解析部１２２を有し、変更前のＸＢＲＬデータと、変更後のＸＢＲＬデータとをＸＢＲＬデータ記憶装置１１０から読み出し、文書間の参照構造の解析と、項目間のリンク構造の解析を行う。文書参照構造解析部１２１は、比較対象の変更前後のＸＢＲＬデータそれぞれについて、文書間の参照関係に基づいて、文書参照構造を解析する。例えば、スキーマ２２０が参照しているリンクベース２３１〜２３５を検出し、親子関係を把握する。こうして検出した文書間の親子・兄弟関係に基づいて文書間の階層構造を表す文書参照構造情報を生成し、変更情報解析部１３０に通知する。項目解析部１２２は、リンクベース２３１〜２３５を解析し、項目間の関係を抽出するとともに、スキーマから項目のデータ型等の項目を特徴付ける項目情報を抽出する。リンクベースには、項目間の関係あるいは項目と関連情報とのリンク情報が記述されている。項目解析部１２２は、リンクベースを解析して項目間の関係を抽出し、項目間の関係を表すリンク構造情報を生成する。例えば、表示リンクに基づいて、表示上の項目間の親子・兄弟関係を抽出し、表示リンク構造情報を生成する。計算リンクに基づいて、項目の計算関係を抽出し、計算リンク構造情報を生成する。定義リンクに基づいて、項目の意味的な関係を抽出し、定義リンク構造情報を生成する。名称リンクに基づいて、項目の名称を抽出し、名称リンク構造情報を生成する。参照リンクに基づいて、項目に対応するリソースを抽出し、参照リンク構造情報を生成する。なお、全てのリンクベースについてリンク構造情報を生成することもできるし、いくつかのリンクベースを選択してリンク構造を生成するとしてもよい。また、スキーマ２２０から項目に関する情報を抽出する。スキーマ２２０には、要素宣言（項目の名前）、型定義（型の名前）、定義内容及び項目の出現順等が記述されている。項目解析部１２２は、これらの情報を項目の特徴として抽出し、項目・型情報に記録する。さらに、インスタンス文書２１０に定義される項目の名前、項目の値、出現順等の情報を抽出し、項目値情報も生成しておく。各リンク構造情報、項目・型情報及び項目値情報は、変更情報解析部１３０に通知する。

変更情報解析部１３０は、文書変更箇所検出部１３１及び項目変更箇所検出部１３２を有し、変更前と変更後の文書データを比較し、差異から変更箇所を検出する。文書変更箇所検出部１３１は、データ構造解析部１２０が生成した変更前の文書参照構造情報と、変更後の文書参照構造情報とに基づき、変更前の文書と変更後の文書の文書識別子を比較する。第２の実施の形態では、文書識別子は、インスタンス文書２１０、スキーマ２２０、リンクベース２３１〜２３５の文書名（ファイル名）になる。変更前と変更後で文書識別子が一致すれば、この文書を対応付け、文書参照構造比較結果１５１のマッチする情報に文書名を登録する。変更前のＸＢＲＬデータのみに存在する文書名が検出されれば、この文書名を文書参照構造比較結果１５１の削除された情報に登録する。変更後のＸＢＲＬデータのみに存在する文書名は、文書参照構造比較結果１５１の追加された情報に登録する。なお、生成した文書参照構造比較結果１５１は、変更前と変更後のファイルを対応付けた第１の実施の形態のファイル対応表と同様である。項目変更箇所検出部１３２は、データ構造解析部１２０が生成した変更前の項目・型情報に登録されている項目の項目識別子と、変更後の項目・型情報とに登録されている項目の項目識別子とを比較する。同じ項目識別子の項目が検出されたときは、これを対応付け、項目・型情報比較結果１５２のマッチする情報に項目名を登録する。変更前のＸＢＲＬデータのみに存在する項目が検出されれば、この項目を項目・型情報比較結果１５２の削除された情報に登録する。変更後のＸＢＲＬデータのみに存在する項目は、項目・型情報比較結果１５２の追加された情報に登録する。さらに、変更前の項目値情報に登録されている項目の項目識別子と、変更後の項目値情報に登録されている項目の項目識別子と、を比較する。同じ項目識別子の項目を対応付け、項目値比較結果１５３のマッチする情報に項目名を登録し、変更前の項目値と変更後の項目値を抽出して変更内容として記録する。変更前のＸＢＲＬデータのみに存在する項目が検出されれば、この項目を項目値比較結果１５３の削除された情報に登録する。変更後のＸＢＲＬデータのみに存在する項目は、項目値比較結果１５３の追加された情報に登録する。なお、生成した項目・型情報比較結果１５２及び文書参照構造比較結果１５３は、変更前と変更後のファイルを対応付けた第１の実施の形態の項目対応表と同様である。

情報マッチング部１４０は、文書マッチング部１４１及び項目マッチング部１４２を有し、変更情報解析部１３０によって対応付けができなかった未対応文書及び未対応項目の対応付けを行う。文書マッチング部１４１は、変更情報解析部１３０によって、文書参照構造比較結果１５１に削除された情報として登録された文書（以下、削除された文書とする）と、追加された情報として登録された文書（以下、追加された文書とする）と、の対応付けを行う。削除された文書及び追加された文書それぞれの文書参照構造を文書参照構造情報より抽出する。例えば、削除された文書と親子関係・兄弟関係を有する文書名と、追加された文書と親子関係・兄弟関係を有する文書名とを照合し、共通する文書名があるかどうかを判定する。照合した文書名が全て一致すれば、親が共通すると判定し、削除された文書と追加された文書とを対応付け、文書参照構造比較結果１５１のマッチする情報に記録する。また、削除された情報及び追加された情報からは、この文書の登録を削除する。項目マッチング部１４２は、項目・型情報比較結果１５２及び項目値比較結果１５３に、削除された情報として登録された項目（以下、削除された項目とする）と、追加された情報として登録された項目（以下、追加された項目とする）と、の対応付けを行う。削除された項目及び追加された項目のリンク構造情報を抽出し、削除された項目のリンクの親子・兄弟関係と、追加された項目の親子・兄弟関係を照合し、共通するかどうかを判定する。共通すると判定された場合は、削除された項目と追加された項目とを対応付け、項目・型情報比較結果１５２及び項目値比較結果１５３のマッチする情報に記録する。また、削除された情報及び追加された情報からは、この項目の登録を削除する。なお、ＸＢＲＬデータでは、複数のリンク構造が存在する。例えば、表示リンク、計算リンク及び定義リンクの親子関係や兄弟関係には会計的な意味が存在するため、項目間に同じ関係が記述されている場合が多い。このため、表示リンク、計算リンク及び定義リンクにおいて項目間の関係が一致すれば、ほとんどの場合項目が一致すると見なすことができる。また、複数のリンク構造それぞれについてマッチする項目を候補として検出しておき、１つのリンク構造で候補となったときを確度１０とし、それぞれの候補について確度を算出する。例えば、表示リンク、計算リンク及び定義リンクでマッチする項目の候補となれば、確度は１０＋１０＋１０で３０になる。なお、確度は、全てのリンク構造で同じ値としてもよいし、リンク構造の種類によって変えてもよい。さらに、学習機能を設け、リンク構造ごとの確度を適宜変更してもよい。

記憶部１５０は、変更情報として、変更前のＸＢＲＬデータと、変更後のＸＢＲＬデータとを比較した比較結果情報が格納される。文書参照構造比較結果１５１には、文書変更箇所検出部１３１及び文書マッチング部１４１によって検出された変更前と変更後の文書の対応関係が設定される。項目・型情報比較結果１５２には、項目変更箇所検出部１３２及び項目マッチング部１４２によって検出された変更前と変更後の項目の対応関係が設定される。項目値比較結果１５３には、項目変更箇所検出部１３２及び項目マッチング部１４２によって検出された変更前と変更後の項目の対応関係が項目値とともに設定される。

このような構成の解析装置１００による解析処理をＸＢＲＬデータの具体例を用いて説明する。解析装置１００は、キーボード２２、マウス２３、あるいはネットワーク３０を介して端末装置４０から比較対象の文書の指定を入力する。比較対象として、変更前と変更後のインスタンス文書あるいはスキーマが指定される。ここでは、変更前の文書として２００７年度報告書のインスタンス文書、変更後の文書として２００８年度報告書のインスタンス文書が指定されるとする。もちろん、スキーマであってもよい。また、リンクベースが指定されたときは、文書参照構造全体を解析し、リンクが貼られていないスキーマをルートとして検出するとしてもよい。

図５は、報告書のインスタンス文書の一例を示した図である。（Ａ）は２００７年度インスタンス文書（ｉｎｓｔａｎｃｅ２００７．ｘｂｒｌ）、（Ｂ）は２００８年度インスタンス文書（ｉｎｓｔａｎｃｅ２００８．ｘｂｒｌ）を示している。なお、（）内は、インスタンス文書のファイル名（文書名）になる。

（Ａ）２００７年度インスタンス文書（ｉｎｓｔａｎｃｅ２００７．ｘｂｒｌ）４００には、３つの項目と、その項目値とが記述されている。項目“Ａｓｓｅｔｓ”の項目値には「１００」、項目“ＣｕｒｒｅｎｔＡｓｓｅｔ”の項目値には「５０」、項目“ＮｏｎＣｕｒｒｅｎｔＡｓｓｅｔｓ”の項目値には「５０」が設定されている。（Ｂ）２００８年度インスタンス文書（ｉｎｓｔａｎｃｅ２００８．ｘｂｒｌ）５００には、同様に、３つの項目について、“Ａｓｓｅｔｓ”には「２００」、“ＣｕｒｒｅｎｔＡｓｓｅｔｓ”には「１００」、“ＮｏｎＣｕｒｒｅｎｔＡｓｓｅｔｓ”には「１００」が設定されている。

例えば、単純なマッチング処理を行った場合、２００７年度インスタンス文書４００の“Ａｓｓｅｔｓ”及び“ＮｏｎＣｕｒｒｅｎｔＡｓｓｅｔｓ”と、２００８年度インスタンス文書５００の“Ａｓｓｅｔｓ”及び“ＮｏｎＣｕｒｒｅｎｔＡｓｓｅｔｓ”とは、識別子が同じであるため同じ項目であるとわかる。しかし、２００７年度インスタンス文書４００の“ＣｕｒｒｅｎｔＡｓｓｅｔ”と、２００８年度インスタンス文書５００の“ＣｕｒｒｅｎｔＡｓｓｅｔｓ”とが同じ項目であるかどうかはわからない。

解析装置１００は、２００７年度の報告書と、２００８年度の報告書とを比較し、変更箇所と変更内容とを解析する。データ構造解析部１２０は、指定された２００７年度インスタンス文書４００と、このインスタンス文書４００に関連するタクソノミ文書（スキーマ、リンクベース）とをＸＢＲＬデータ記憶装置１１０から読み出す。同様に、２００８年度インスタンス文書５００と、このインスタンス文書５００に関連するタクソノミ文書とをＸＢＲＬデータ記憶装置１１０から読み出す。

文書参照構造解析部１２１は、読み出した２００７年度報告書の文書間の参照関係と、２００８年度報告書の文書間の参照関係をそれぞれ解析し、文書間の参照構造を検出する。例えば、読み出したスキーマを解析し、スキーマで参照するリンクベースを、スキーマと親子関係を有する文書として検出する。なお、ＸＢＲＬデータには、通常のタクソノミに加え、拡張タクソノミを定義することができる。対象のＸＢＲＬデータに拡張タクソノミが含まれている場合には、拡張タクソノミの文書を含めて文書間の参照構造を解析する。こうして、変更前の２００７年度報告書及び変更後の２００８年度報告書それぞれの文書間の参照構造を把握する。

図６は、ＸＢＲＬデータの文書参照構造情報の一例を示した図である。（Ａ）は２００７年度報告書の文書参照構造情報、（Ｂ）は２００８年度報告書の文書参照構造情報を示している。なお、図６は、検出された参照関係のツリー構造を表している。また、（Ｂ）の文字の下の下線は、（Ａ）の記述と異なる部分を示しているもので、実際のＸＢＲＬデータには含まれていない。以下の図面についても、同様の記号を用いるとする。

（Ａ）２００７年度報告書の文書参照構造情報４１０は、２００７年度報告書のＸＢＲＬデータの文書構造を示す。インスタンス文書“ｉｎｓｔａｎｃｅ２００７．ｘｂｒｌ”４００に対応付けられているスキーマ“ｓｃｈｅｍａ２００７．ｘｓｄ”は、タクソノミ文書のルートである。図６は、インスタンス文書“ｉｎｓｔａｎｃｅ２００７．ｘｂｒｌ”が参照構造のルートであることを示している。なお、ルートとは、他の文書からリンクが貼られていない文書である。スキーマ“ｓｃｈｅｍａ２００７．ｘｓｄ”は、インスタンス文書“ｉｎｓｔａｎｃｅ２００７．ｘｂｒｌ”から参照される。さらに、表示リンク“ｐｒｅｓｅｎｔａｔｉｏｎ２００７．ｘｍｌ”及び参照リンク“ｒｅｆｅｒｅｎｃｅ２００７．ｘｍｌ”は、スキーマ“ｓｃｈｅｍａ２００７．ｘｓｄ”から参照されるという構造を有する。（Ｂ）２００８年度報告書の文書参照構造情報５１０は、２００８年度報告書のＸＢＲＬデータの文書構造を示す。インスタンス文書“ｉｎｓｔａｎｃｅ２００８．ｘｂｒｌ”が参照構造のルートである。また、スキーマ“ｓｃｈｅｍａ２００８．ｘｓｄ”は、インスタンス文書“ｉｎｓｔａｎｃｅ２００８．ｘｂｒｌ”から参照される。さらに、表示リンク“ｐｒｅｓｅｎｔａｔｉｏｎ２００８．ｘｍｌ”及び参照リンク“ｒｅｆｅｒｅｎｃｅ２００７．ｘｍｌ”がスキーマ“ｓｃｈｅｍａ２００８．ｘｓｄ”から参照されるという構造である。文書参照構造情報４１０，５１０は、変更情報解析部１３０に通知する。また、変更情報解析部１３０を介してモニタ２１に文書参照構造を表示したり、端末装置４０に送信して端末装置４０に表示させたりして、利用者に報告するとしてもよい。

続いてデータ構造解析部１２０は、それぞれのＸＢＲＬデータのスキーマ及びリンクベースを解析し、ＸＢＲＬデータに含まれる項目の項目識別子と型情報、項目値を抽出するとともに、この項目と他の項目や情報データとを対応付けるリンク構造を解析する。

図７は、スキーマから抽出した項目・型情報一例を示した図である。（Ａ）は２００７年度報告書の項目・型情報（ｓｃｈｅｍａ２００７．ｘｓｄ）、（Ｂ）は２００８年度報告書の項目・型情報（ｓｃｈｅｍａ２００８．ｘｓｄ）を示している。なお、（）内の文書名は参照したスキーマのファイル名である。

スキーマには、ＸＭＬ形式で項目の識別子や型が定義されている。項目解析部１２２は、これを解析して項目・型情報を生成する。（Ａ）２００７年度報告書の項目・型情報（ｓｃｈｅｍａ２００７．ｘｓｄ）４２０には、“Ａｓｓｅｔｓ”の型が「金額型」、“ＣｕｒｒｅｎｔＡｓｓｅｔ”の型が「１０進数数値型」、“ＮｏｎＣｕｒｒｅｎｔＡｓｓｅｔｓ”の型が「１０進数数値型」であるという項目・型情報が登録されている。（Ｂ）２００８年度報告書の項目・型情報（ｓｃｈｅｍａ２００８．ｘｓｄ）５２０には、“Ａｓｓｅｔｓ”の型が「金額型」、“ＣｕｒｒｅｎｔＡｓｓｅｔｓ”の型が「金額型」、“ＮｏｎＣｕｒｒｅｎｔＡｓｓｅｔｓ”の型が「金額型」であるという項目・型情報が登録されている。

図８は、表示リンク構造情報の一例を示した図である。（Ａ）は２００７年度報告書の表示リンク構造情報（ｐｒｅｓｅｎｔａｔｉｏｎ２００７．ｘｍｌ）、（Ｂ）は２００８年度報告書の表示リンク構造情報（ｐｒｅｓｅｎｔａｔｉｏｎ２００８．ｘｍｌ）を示している。なお、（）内の文書名は参照した表示リンクのファイル名である。

表示リンクには、ＸＭＬ形式で項目の表示の順番や親子関係が定義されている。項目解析部１２２は、これを解析して表示リンク構造情報を生成する。（Ａ）２００７年度報告書の表示リンク構造情報（ｐｒｅｓｅｎｔａｔｉｏｎ２００７．ｘｍｌ）４３０には、表示上、“Ａｓｓｅｔｓ”と、“ＣｕｒｒｅｎｔＡｓｓｅｔ”及び“ＮｏｎＣｕｒｒｅｎｔＡｓｓｅｔｓ”が親子関係にあることを示している。また、“ＣｕｒｒｅｎｔＡｓｓｅｔ”と“ＮｏｎＣｕｒｒｅｎｔＡｓｓｅｔｓ”では、“ＣｕｒｒｅｎｔＡｓｓｅｔ”が先に表示されることを示している。（Ｂ）２００８年度報告書の表示リンク構造情報（ｐｒｅｓｅｎｔａｔｉｏｎ２００８．ｘｍｌ）５３０には、表示上、“Ａｓｓｅｔｓ”と、“ＣｕｒｒｅｎｔＡｓｓｅｔｓ”及び“ＮｏｎＣｕｒｒｅｎｔＡｓｓｅｔｓ”が親子関係にあることを示している。また、“ＣｕｒｒｅｎｔＡｓｓｅｔｓ”と“ＮｏｎＣｕｒｒｅｎｔＡｓｓｅｔｓ”では、“ＣｕｒｒｅｎｔＡｓｓｅｔｓ”が先に表示されることを示している。

図９は、参照リンク構造情報の一例を示した図である。（Ａ）は２００７年度報告書の参照リンク構造情報（ｒｅｆｅｒｅｎｃｅ２００７．ｘｍｌ）、（Ｂ）は２００８年度報告書の参照リンク構造情報（ｒｅｆｅｒｅｎｃｅ２００７．ｘｍｌ）を示している。なお、（）内の文書名は、参照した参照リンクのファイル名である。

参照リンクには、項目の定義の根拠となった文献情報が定義されている。項目解析部１２２は、これを解析し、表示リンク構造情報を生成する。（Ａ）２００７年度報告書の参照リンク構造情報（ｒｅｆｅｒｅｎｃｅ２００７．ｘｍｌ）４４０は、“Ａｓｓｅｔｓ”の参照文献は「財務諸表等規則、様式第Ａ号」、“ＣｕｒｒｅｎｔＡｓｓｅｔ”の参照文献は「財務諸表等規則、様式第Ｂ号」、“ＮｏｎＣｕｒｒｅｎｔＡｓｓｅｔｓ”の参照文献は「財務諸表等規則、様式第Ｃ号」であることを示している。（Ｂ）２００８年度報告書の参照リンク構造情報（ｒｅｆｅｒｅｎｃｅ２００７．ｘｍｌ）５４０は、“Ａｓｓｅｔｓ”の参照文献は「財務諸表等規則、様式第Ａ号」、“ＣｕｒｒｅｎｔＡｓｓｅｔｓ”の参照文献は「財務諸表等規則、様式第Ｂ号」、“ＮｏｎＣｕｒｒｅｎｔＡｓｓｅｔｓ”の参照文献は「財務諸表等規則、様式第Ｃ号」であることを示している。

なお、上記の処理では、表示リンクと参照リンクについて説明したが、計算リンク、定義リンク及び名称リンクについても同様にしてリンク構造を解析し、リンク構造情報を生成するとしてもよい。また、確度の高いリンクを選択的に用いてリンク構造情報を生成するとしてもよい。確度は、項目の対応付けの根拠としての確度を意味し、確度が高いほど対応付けられた項目が同じ項目である可能性が高い。

図１０は、項目値情報の一例を示した図である。（Ａ）は２００７年度報告書の項目値情報（ｉｎｓｔａｎｃｅ２００７．ｘｍｌ）、（Ｂ）は２００８年度報告書の項目値情報（ｉｎｓｔａｎｃｅ２００８．ｘｍｌ）を示している。なお、（）内は情報を抽出したインスタンス文書のファイル名である。

インスタンス文書４００，５００には、項目の値が定義されている。項目解析部１２２は、項目の値等を抽出し、項目値情報を生成する。（Ａ）２００７年度報告書の項目値情報（ｉｎｓｔａｎｃｅ２００７．ｘｍｌ）４５０は、“Ａｓｓｅｔｓ”の項目値は「１００」、“ＣｕｒｒｅｎｔＡｓｓｅｔ”の項目値は「５０」、“ＮｏｎＣｕｒｒｅｎｔＡｓｓｅｔｓ”の項目値は「５０」であることを示している。（Ｂ）２００８年度報告書の項目値情報（ｉｎｓｔａｎｃｅ２００８．ｘｍｌ）５５０は、“Ａｓｓｅｔｓ”の項目値は「２００」、“ＣｕｒｒｅｎｔＡｓｓｅｔｓ”の項目値は「１００」、“ＮｏｎＣｕｒｒｅｎｔＡｓｓｅｔｓ”の項目値は「１００」であることを示している。

こうして生成した文書参照構造情報４１０，５１０、項目・型情報４２０，５２０、表示リンク構造情報４３０，５３０、参照リンク構造情報４４０，５４０及び項目値情報４５０，５５０は、変更情報解析部１３０に送る。

変更情報解析部１３０は、変更前のＸＢＲＬデータと変更後のＸＢＲＬデータとを比較し、変更箇所と変更内容を検出する。ここでは、データ構造解析部１２０から取得した文書参照構造情報４１０，５１０、項目・型情報４２０，５２０、表示リンク構造情報４３０，５３０、参照リンク構造情報４４０，５４０及び項目値情報４５０，５５０を用いて解析処理を行う。以下の説明では、簡単のため２００７年度報告書を変更前、２００８年度報告書を変更後と表記する。

文書変更箇所検出部１３１は、文書参照構造情報４１０，５１０に基づいて、文書識別子（ファイル名）を比較する。比較対象の変更前と後のインスタンス文書あるいはスキーマは、利用者が指定する。その結果、指定された変更前後の文書名及びスキーマの名前空間ＵＲＩはマッチングされる。例えば、変更前のスキーマ“ｓｃｈｅｍａ２００７．ｘｓｄ”と、変更後の“ｓｃｈｅｍａ２００８．ｘｓｄ”を利用者が指定すると、その文書名はマッチする情報として文書参照構造比較結果に記録する。また、名前空間ＵＲＩである“／２００７”及び“／２００８”も、マッチする情報として記録する。同様にして、変更前のインスタンス文書“ｉｎｓｔａｎｃｅ２００７．ｘｂｒｌ”と、変更後のインスタンス文書“ｉｎｓｔａｎｃｅ２００８．ｘｂｒｌ”もマッチする情報として記録する。

さらに、変更前の文書参照構造情報４１０と、変更後の文書参照構造情報５１０とをデータ構造に従って順に比較していく。インスタンス文書及びスキーマの次には、スキーマから参照される表示リンクを比較する。表示リンクは、変更前が“ｐｒｅｓｅｎｔａｔｉｏｎ２００７．ｘｍｌ”、変更後が“ｐｒｅｓｅｎｔａｔｉｏｎ２００８．ｘｍｌ”でありマッチするが、ここでは説明のため、マッチしないと判定されるとする。次の参照リンクは、変更前も変更後もともに“ｒｅｆｅｒｅｎｃｅ２００７．ｘｍｌ”であり、マッチする情報と判定する。

なお、上記ではインスタンス及びタクソノミについて比較を行う場合で説明したが、タクソノミだけを用いて比較を行うとしてもよい。
図１１は、変更情報解析処理後の文書参照構造比較結果を示した図である。文書参照構造比較結果１５１ａは、文書変更箇所検出部１３１が、文書識別子に基づいて変更前後の文書を比較した比較結果である。

文書参照構造比較結果１５１ａは、削除された情報１５１１、追加された情報１５１２、マッチする情報１５１３及び変更内容１５１４の情報を記録する。削除された情報１５１１には、変更前のＸＢＲＬデータには存在するが、変更後のＸＢＲＬデータには存在しない情報の名前（識別子）を設定する。追加された情報１５１２には、削除された情報１５１１とは逆に、変更前のＸＢＲＬデータには存在せず、変更後のＸＢＲＬデータには存在する情報の名前（識別子）を設定する。マッチする情報１５１３には、変更前のＸＢＲＬデータと変更後のＸＢＲＬデータの両方に存在する情報の名前（識別子）を設定する。変更内容１５１４には、その変更内容を設定する。文書参照構造比較結果１５１ａでは、変更前のインスタンス文書“ｉｎｓｔａｎｃｅ２００７．ｘｂｒｌ”と変更後のインスタンス文書“ｉｎｓｔａｎｃｅ２００８．ｘｂｒｌ”、変更前のスキーマ“ｓｃｈｅｍａ２００７．ｘｓｄ”と変更後の“ｓｃｈｅｍａ２００８．ｘｓｄ”、及び変更前と変更後で同一の参照リンク“ｒｅｆｅｒｅｎｃｅ２００７．ｘｍｌ”がマッチする情報１５１３に登録されている。また、変更内容１５１４には、インスタンス文書及びスキーマの文書名の名前変更ＵＲＩが変更されていることが記録されている。対応付けができなかった表示リンクは、“ｐｒｅｓｅｎｔａｔｉｏｎ２００７．ｘｍｌ”が削除された情報１５１１に、“ｐｒｅｓｅｎｔａｔｉｏｎ２００８．ｘｍｌ”が追加された情報１５１２に登録されている。

項目変更箇所検出部１３２は、項目・型情報４２０，５２０に基づいて、変更前のＸＢＲＬデータと変更後のＸＢＲＬデータの項目識別子（項目名）を比較する。変更前の項目・型情報４２０の“Ａｓｓｅｔｓ”及び“ＮｏｎＣｕｒｒｅｎｔＡｓｓｅｔｓ”は、変更後の報告書の項目・型情報５２０にも存在する。したがって、“Ａｓｓｅｔｓ”及び“ＮｏｎＣｕｒｒｅｎｔＡｓｓｅｔｓ”は、マッチする情報と判定する。“ＣｕｒｒｅｎｔＡｓｓｅｔ”は、変更前の項目・型情報４２０にのみ存在するので、削除された情報とする。また、“ＣｕｒｒｅｎｔＡｓｓｅｔｓ”は、変更後の項目・型情報５２０にのみ存在するので、追加された情報と判定する。

図１２は、変更情報解析処理後の項目・型情報比較結果を示した図である。項目・型情報比較結果１５２ａは、項目変更箇所検出部１３２が、項目識別子に基づいて変更前後の項目・型情報４２０，５２０の項目を比較した比較結果である。

項目・型情報比較結果１５２ａは、削除された情報、追加された情報、マッチする情報及び変更内容の登録欄がある。それぞれの内容は、図１１の文書参照構造比較結果１５１ａと同様であるので説明は省略する。上述のように、項目変更箇所検出部１３２によって、変更前のＸＢＲＬデータと変更後のＸＢＲＬデータとの間で項目の識別子が一致すると判定された“Ａｓｓｅｔｓ”及び“ＮｏｎＣｕｒｒｅｎｔＡｓｓｅｔｓ”は、マッチする情報１５２３に登録する。また、マッチする情報として登録した項目については、スキーマの記述内容が変更されていないかどうか、解析処理を行う。“ＮｏｎＣｕｒｒｅｎｔＡｓｓｅｔｓ”については、型が「１０進数数値型」から「金額型」に変更されているので、変更内容１５２４に「型」が変更されたことを記録する。また、変更前の項目・型情報４２０のみに存在する“ＣｕｒｒｅｎｔＡｓｓｅｔ”は、削除された情報１５２１に登録する。そして、変更後の項目・型情報５２０にのみ存在する“ＣｕｒｒｅｎｔＡｓｓｅｔｓ”は、追加された情報１５２２に登録する。

項目変更箇所検出部１３２は、さらに、項目値情報４５０，５５０について、変更前のＸＢＲＬデータと変更後のＸＢＲＬデータの項目識別子（項目名）を比較する。変更前の項目値情報４５０の“Ａｓｓｅｔｓ”及び“ＮｏｎＣｕｒｒｅｎｔＡｓｓｅｔｓ”は、変更後の項目値情報５５０にも存在する。したがって、“Ａｓｓｅｔｓ”及び“ＮｏｎＣｕｒｒｅｎｔＡｓｓｅｔｓ”は、マッチする情報と判定する。“ＣｕｒｒｅｎｔＡｓｓｅｔ”は、変更前の項目値情報４５０にのみ存在するので、削除された情報とする。また、“ＣｕｒｒｅｎｔＡｓｓｅｔｓ”は、変更後の項目値情報５４０にのみ存在するので、追加された情報と判定する。

図１３は、変更情報解析処理後の項目値比較結果を示した図である。項目値比較結果１５３ａは、項目変更箇所検出部１３２が、項目識別子に基づいて変更前後の項目値情報４５０，５５０の項目を比較した比較結果である。

項目値比較結果１５３ａは、削除された情報、追加された情報、マッチする情報及び変更内容の登録欄がある。それぞれの内容は、図１１の文書参照構造比較結果１５１ａと同様であるので説明は省略する。上述のように、項目変更箇所検出部１３２によって、項目の識別子が一致すると判定された“Ａｓｓｅｔｓ”及び“ＮｏｎＣｕｒｒｅｎｔＡｓｓｅｔｓ”は、マッチする情報１５３３に登録する。また、マッチする情報として登録した項目については、インスタンス文書の記述内容が変更されていないかどうか、解析処理を行う。“Ａｓｓｅｔｓ”については、項目値が「１００」から「２００」に変更されているので、変更内容１５３４に変更内容を記録する。“ＮｏｎＣｕｒｒｅｎｔＡｓｓｅｔｓ”については、項目値が「５０」から「１００」に変更されているので、同様に、変更内容１５３４に変更内容を記録する。また、変更前の項目値情報４５０のみに存在する“ＣｕｒｒｅｎｔＡｓｓｅｔ”は、削除された情報１５３１に登録する。そして、変更後の項目値情報５５０にのみ存在する“ＣｕｒｒｅｎｔＡｓｓｅｔｓ”は、追加された情報１５３２に登録する。なお、項目値比較結果１５３ａの削除された情報、追加された情報及びマッチする情報は、項目・型情報比較結果１５２ａと同じになる。したがって、マッチする情報の変更内容のみ抽出し、登録を行うとしてもよい。

以上の処理手順が実行されることにより、ＸＢＲＬ文書及びＸＢＲＬ文書の項目という情報データに関し、それぞれの識別子に基づいて、変更前の情報データと変更後の情報データとの対応付けが行われる。そして、それぞれ変更前のＸＢＲＬデータにのみ存在する削除された情報、変更後のＸＢＲＬデータにのみ存在する追加された情報、または変更前と変更後のＸＢＲＬデータに存在するマッチする情報のいずれかに分類される。さらに、変更前と変更後とで変わらないマッチする情報については、変更前と変更後との変更内容の解析処理を行い、変更内容として記録する。こうして生成した文書参照構造比較結果１５１、項目・型情報比較結果１５２及び項目値比較結果１５３は、記憶部１５０に格納し、情報マッチング部１４０に引き継ぐ。

情報マッチング部１４０は、文書参照構造比較結果１５１、項目・型情報比較結果１５２及び項目値比較結果１５３に基づき、変更情報解析部１３０において対応付けができなかったＸＢＲＬ文書及び項目のマッチング処理を行う。

文書マッチング部１４１は、文書参照構造比較結果１５１に基づき、対応付けがされていない変更前のＸＢＲＬ文書と変更後のＸＢＲＬ文書とを対応付ける。図１１に示した文書参照構造比較結果１５１ａでは、削除された情報として表示リンク“ｐｒｅｓｅｎｔａｔｉｏｎ２００７．ｘｍｌ”、追加された情報として表示リンク“ｐｒｅｓｅｎｔａｔｉｏｎ２００８．ｘｍｌ”が対応付けされずに残っている。文書マッチング部１４１では、文書参照構造情報４１０，５１０に基づき、“ｐｒｅｓｅｎｔａｔｉｏｎ２００７．ｘｍｌ”と、“ｐｒｅｓｅｎｔａｔｉｏｎ２００８．ｘｍｌ”の等価性（同じものである確度）を解析する。例えば、文書参照構造情報４１０には、変更前のスキーマ“ｓｃｈｅｍａ２００７．ｘｓｄ”が表示リンク“ｐｒｅｓｅｎｔａｔｉｏｎ２００７．ｘｍｌ”を参照していることが記述されている。同様に、文書参照構造情報５１０には、変更後のスキーマ“ｓｃｈｅｍａ２００８．ｘｓｄ”が表示リンク“ｐｒｅｓｅｎｔａｔｉｏｎ２００８．ｘｍｌ”を参照していることが記述されている。両者とも表示リンクを１つだけ参照していることから、“ｐｒｅｓｅｎｔａｔｉｏｎ２００７．ｘｍｌ”と、“ｐｒｅｓｅｎｔａｔｉｏｎ２００８．ｘｍｌ”とはマッチする情報と推測する。なお、この対応関係が正しいかどうかを利用者に確認してもらうとすることもできる。例えば、モニタ２１あるいは端末装置４０にマッチした情報を提示して利用者に報告し、利用者の確認を取得する。利用者が正しいと確認すれば、マッチする情報として文書参照構造比較結果１５１ａに登録する。利用者が正しくないと確認すれば、マッチしない情報として、文書参照構造比較結果１５１ａの削除された情報と追加された情報にそれぞれ登録する。また、マッチする情報として利用者に報告した後、必要に応じて利用者に修正させるようにすることもできる。

利用者によって変更前の“ｐｒｅｓｅｎｔａｔｉｏｎ２００７．ｘｍｌ”と、変更後の“ｐｒｅｓｅｎｔａｔｉｏｎ２００８．ｘｍｌ”との対応付けが正しいと確認された場合の文書参照構造比較結果を示す。図１４は、情報マッチング処理後の文書参照構造比較結果を示した図である。

文書参照構造比較結果１５１ｂでは、削除された情報に登録されていた変更前の“ｐｒｅｓｅｎｔａｔｉｏｎ２００７．ｘｍｌ”と、追加された情報に登録されていた変更後の“ｐｒｅｓｅｎｔａｔｉｏｎ２００８．ｘｍｌ”とが、マッチする情報に登録されている。また、マッチする情報として新たに登録したＸＢＲＬ文書については、変更情報解析部１３０が変更内容解析処理を行う。変更前の“ｐｒｅｓｅｎｔａｔｉｏｎ２００７．ｘｍｌ”と変更後の“ｐｒｅｓｅｎｔａｔｉｏｎ２００８．ｘｍｌ”については、文書名が変更になっているので、変更内容には「文書名」を登録する。

このように、ＸＢＲＬ文書名が変更された場合であっても、ＸＢＲＬ文書間の参照関係に基づいて意味的に等価なペアを対応付けることにより、利用者は、変更前のＸＢＲＬ文書と変更後のＸＢＲＬ文書とを把握することができる。この結果、多数あるＸＢＲＬ文書から変更前と変更後でマッチする文書を見つける作業を行う必要がなくなり、利用者の作業効率が向上する。

次に、項目マッチング部１４２は、項目・型情報比較結果１５２ａ及び項目値比較結果１５３ａに基づいて、未対応の項目の等価性の解析を行う。項目マッチング部１４２では、項目解析部１２２が検出したリンク構造情報に基づいて項目の等価性を解析する。

ここでは、図８に示した表示リンク構造情報４３０，５３０に基づいて、項目・型情報比較結果１５２ａの未対応項目の対応付けを行う場合を例に説明する。表示リンク・計算リンク・定義リンクでは、定義されている項目のリンクの順番から項目をマッチングさせることが可能である。例えば、変更前の表示リンク構造情報４３０では、“Ａｓｓｅｔ”の子供として“ＣｕｒｒｅｎｔＡｓｓｅｔ”、“ＮｏｎＣｕｒｒｅｎｔＡｓｓｅｔｓ”の順番に項目がリンクされている。このうち、“ＣｕｒｒｅｎｔＡｓｓｅｔ”が削除された情報になっている。一方、変更後の表示リンク構造情報５３０では、“Ａｓｓｅｔ”の子供として“ＣｕｒｒｅｎｔＡｓｓｅｔｓ”、“ＮｏｎＣｕｒｒｅｎｔＡｓｓｅｔｓ”の順番に項目がリンクされている。したがって、リンクの親子・兄弟関係から、“ＣｕｒｒｅｎｔＡｓｓｅｔ”と、“ＣｕｒｒｅｎｔＡｓｓｅｔｓ”とはマッチする情報であると推測できる。さらに、計算リンクの親子・兄弟関係または定義リンクの親子・兄弟関係に基づき、同様の処理を行って、項目を対応付けることもできる。前述のように、表示リンク・計算リンク及び定義リンクの親子・兄弟関係は一致する場合が多い。そこで、表示リンクばかりでなく、計算リンク及び定義リンクから同様の対応付けが行えれば、マッチする情報である確度はより高くなる。

また、名称リンク及び参照リンクで定義されている項目のリソースの内容から項目をマッチさせることも可能である。例えば、上記のＸＢＲＬデータの参照リンクから生成した参照リンク構造情報４４０，５４０に基づいてマッチングを行う場合について説明する。変更前の参照リンク構造情報４４０の“ＣｕｒｒｅｎｔＡｓｓｅｔ”には、参照リンクのリソースとして「財務諸表等規則、様式第Ｂ号」が設定されている。同様に、変更後の参照リンク構造情報５４０の“ＣｕｒｒｅｎｔＡｓｓｅｔｓ”にも、参照リンクのリソースとして「財務諸表等規則、様式第Ｂ号」が設定されている。項目の根拠となるリソースが一致していることから、ＣｕｒｒｅｎｔＡｓｓｅｔ”と、“ＣｕｒｒｅｎｔＡｓｓｅｔｓ”とはマッチする情報であると推測できる。名称リンク及び参照リンクは、それぞれ項目の名称及び項目の根拠となる法律や文献等と項目とを結び付けている。このため、これが一致するということは、ほとんどの場合、項目が一致していることを意味する。

また、スキーマで定義されている項目の定義順から項目をマッチさせるための補助的な情報を得ることも可能である。例えば、変更前のスキーマに“Ａｓｓｅｔ”、“ＣｕｒｒｅｎｔＡｓｓｅｔ”、“ＮｏｎＣｕｒｒｅｎｔＡｓｓｅｔｓ”の順に項目が定義されていたとする。同様に、変更後のスキーマに“Ａｓｓｅｔ”、“ＣｕｒｒｅｎｔＡｓｓｅｔｓ”、“ＮｏｎＣｕｒｒｅｎｔＡｓｓｅｔｓ”の順番に項目が定義されているとする。この場合、その定義順の関係から、“ＣｕｒｒｅｎｔＡｓｓｅｔ”と“ＣｕｒｒｅｎｔＡｓｓｅｔｓ”とはマッチする情報と推測できる。ただし、一般的には、変更によって順番が変わることはないが、スキーマの項目の定義順は意味を持たないため、補助的な情報として利用する。

このように、項目の対応付けは、定義内容の異なるリンクベースやスキーマの定義順等から推測することができる。したがって、マッチする情報と推測した項目のペア候補が複数発生する場合がある。マッチする情報の候補が複数ある場合には、リンクベースの種類等に応じて、確度に重み付けを行い、総合的な確度を算出する。例えば、表示リンク構造、計算リンク構造、及び定義リンク構造に基づいてマッチする情報と推測した場合の確度をそれぞれ「１０」、名称リンク構造及び参照リンク構造に基づく場合の確度を「２０」とする。また、補助的なスキーマの定義順に基づいてマッチする情報と推測した場合の確度は「１」とする。そして、変更前の未対応項目と変更後の未対応項目の組み合わせに対し、表示リンク構造、計算リンク構造、定義リンク構造、名称リンク構造、参照リンク構造及びスキーマの定義順に確度を計算し、合算した値を総合的な確度とする。詳細は後述する。

こうして検出したマッチする情報の候補が正しいかどうか、モニタ２１あるいは端末装置４０にマッチする情報の候補を提示して利用者に報告し、利用者の確認を取得するようにしてもよい。候補が１つであれば、これを利用者に提示し確認をとる。利用者が正しいと確認すれば、マッチする情報として項目・型情報比較結果１５２ｂに登録する。利用者が正しくないと確認すれば、マッチしない情報として、項目・型情報比較結果１５２ａの削除された情報と追加された情報の登録を維持する。候補が複数であれば、確度の高い順にマッチする候補を提示していく。また、マッチする情報として利用者に報告した後、必要に応じて利用者に修正させるようにすることもできる。

以上の項目マッチング処理の結果として、項目・型情報比較結果を更新する。図１５は、情報マッチング処理後の項目・型情報比較結果を示した図である。
項目・型情報比較結果１５２ｂでは、項目マッチング部１４２によって対応付けられた“ＣｕｒｒｅｎｔＡｓｓｅｔ”と“ＣｕｒｒｅｎｔＡｓｓｅｔｓ”とが、マッチする情報として記録される。また、変更情報解析部１３０によるマッチ後の変更内容解析結果が、変更内容に反映される。「項目名」が変更になったことに加え、変更前の項目・型情報４２０と変更後の項目・型情報５２０の対応する項目の定義を比較し、「型」が変更になったことを変更内容に記録する。

項目マッチング部１４２では、項目値比較結果１５３ａについても同様の情報マッチング処理を行う。そして、変更前の項目値情報４５０の“ＣｕｒｒｅｎｔＡｓｓｅｔ”と、変更後の項目値情報５５０の“ＣｕｒｒｅｎｔＡｓｓｅｔｓ”とが、マッチする情報であることを検出する。なお、情報マッチング処理後の項目・型情報比較結果１５２ｂを反映し、項目値比較結果１５３ａを更新するとしてもよい。図１６は、情報マッチング処理後の項目値比較結果を示した図である。

項目値比較結果１５３ｂでは、項目マッチング部１４２によって対応付けられた“ＣｕｒｒｅｎｔＡｓｓｅｔ”と“ＣｕｒｒｅｎｔＡｓｓｅｔｓ”とが、マッチする情報として記録される。また、変更情報解析部１３０によって、変更内容には、変更前の項目値情報４５０の“ＣｕｒｒｅｎｔＡｓｓｅｔ”の項目値「５０」と、変更後の項目値情報５５０の“ＣｕｒｒｅｎｔＡｓｓｅｔｓ”の項目値「１００」とが記録される。

このように、変更前後で識別子が異なる項目に関しても、変更になった項目の対応付けと、その項目の変更前後の値の比較とを自動で行うことが可能となる。
ここで、マッチする情報の候補の確度算出について説明する。上述のように、項目の情報マッチング処理では、リンクの種類に応じてマッチする情報の候補が複数検出される場合がある。そこで、リンクの種類等に応じて確度に重み付けを行い総合的な確度を算出する。また、リンクの種類に応じた確度の重み付けは事前に指定するか、過去の利用者の選択に応じた学習により定義変更してもよい。

以下、確度の学習について、例を挙げて説明する。変更前のスキーマにおいて、項目“Ａ１”，“Ｂ１”，“Ｃ１”が設定され、変更後のスキーマにおいて項目“Ａ２”，“Ｂ２”，“Ｃ２”が設定されていたとする。項目は、“Ａ１”と“Ａ２”、“Ｂ１”と“Ｂ２”、“Ｃ１”と“Ｃ２”とがそれぞれ対応する。なお、この例では、スキーマの定義順については省略する。

図１７は、マッチする項目の候補とその確度を示した図である。それぞれの表の「表示」、「計算」、「定義」、「名称」、「参照」は、候補の根拠となったリンクを示している。

確度の増加量（初期値）６００は、候補となった根拠（リンクの種類）と、その確度の増加量とを示した図である。
“Ａ１”にマッチする項目の候補とその確度６０１は、リンクの種類ごとに算出した、“Ａ１”と、“Ａ１”とマッチングを行う変更後の項目“Ａ２”，“Ｂ２”，“Ｃ２”との間のマッチングの確度を示している。“Ｂ１”にマッチする項目の候補とその確度６０２及び“Ｃ１”にマッチする項目の候補とその確度６０３についても同様である。

例えば、“Ａ１”にマッチする項目の候補とその確度６０１では、表示リンクでは“Ｂ２”、計算リンクでは“Ｃ２”、定義リンクでは“Ｂ２”、名称リンクでは“Ｃ２”、参照リンクでは“Ａ２”が候補として選択され、それぞれに確度が設定されている。“Ｂ１”にマッチする項目の候補とその確度６０２では、表示リンクでは“Ｃ２”、計算リンクでは“Ａ２”、定義リンクでは“Ｃ２”、名称リンクでは“Ａ２”、参照リンクでは“Ｂ２”が候補として選択され、それぞれに確度が設定されている。“Ｃ１”にマッチする項目の候補とその確度６０３では、表示リンクでは“Ａ２”、計算リンクでは“Ｂ２”、定義リンクでは“Ａ２”、名称リンクでは“Ｂ２”、参照リンクでは“Ｃ２”が候補として選択され、それぞれに確度が設定されている。

ここで、“Ａ１”にマッチする最有力の候補は、上記の表から合計値の高い“Ｂ２”または“Ｃ２”となり、利用者に候補が提示される。しかし、実際には“Ａ２”がマッチするため、利用者は、マッチする項目として“Ａ２”を選択する。情報マッチング部１４０には、正しいマッチする項目として“Ａ２”が報告される。そこで、情報マッチング部１４０は、正しいマッチする項目の根拠となった参照リンクの確度の増加量を１０から２０に増加させる。ここでは、参照リンクのみが根拠となっているので、参照リンクのみ確度を増加させている。根拠が複数ある場合は、全てについて確度の増加量を増やす。

図１８は、１回目の学習後の確度とマッチする項目の候補とその確度を示した図である。１回目の学習後の確度の増加量６１０では、参照リンクの確度増加量が１０から２０に増加している。すると、“Ｂ１”にマッチする項目の候補とその確度６０２の確度の値は、“Ｂ１”にマッチする項目の候補とその確度６１２のように変更される。

“Ｂ１”にマッチする最有力の候補は、上記の表から合計値の高い“Ｂ２”、“Ｃ２”または“Ａ２”となり、利用者に候補が提示される。実際には“Ｂ２”がマッチするため、利用者は、マッチする項目として“Ｂ２”を選択する。情報マッチング部１４０には、正しいマッチする項目として“Ｂ２”が報告される。そこで、情報マッチング部１４０は、正しいマッチする項目の根拠となった参照リンクの確度の増加量を２０から３０に増加させる。

図１９は、２回目の学習後の確度とマッチする項目の候補とその確度を示した図である。２回目の学習後の確度の増加量６２０では、参照リンクの確度増加量が２０から３０に増加している。すると、“Ｃ１”にマッチする項目の候補とその確度６０３の確度の値は、“Ｃ１”にマッチする項目の候補とその確度６２３のように変更される。これにより、“Ｃ１”にマッチする最有力の候補は、上記の表から合計値の高い“Ｃ２”のみとなり、実際に対応する“Ｃ２”が選ばれる。

学習を行っていない場合には“Ｃ２”は最有力の候補にはなっていなかったが、学習によって唯一の最有力候補になる。
なお、マッチする項目が利用者に選択された場合に、確度の増加量をどの程度増やすのかは、システムやデータに応じて自由に決める。また、毎回増やすのではなく、選択結果を累積して、特定のタイミングで増やしてもよい。あるいは、利用者が選択しなかった候補の根拠に対して確度の増加量を減らしてもよい。さらに、候補の中にマッチする項目がなく、かつ利用者が選択自体を行わなかった場合には、全ての候補の根拠に対して確度の増加量を減らしてもよい。また、学習は常に行っている必要はなく、システムやデータの状態あるいは利用者の要求に応じて学習の停止と再開を制御してもよい。あるタイミングで確度の増加量を初期化してもよいし、増加量の初期値は任意に設定することができる。

このように、マッチングの学習を行うことにより、ＸＢＲＬデータの種類や変更の傾向に応じたマッチング処理を行うことができ、精度の高い比較結果を得ることができる。
ところで、ＸＢＲＬの特徴の１つに、既存のスキーマやリンクベースに変更を加えずに、タクソノミを拡張できるという拡張タクソノミ機能がある。例えば、図５に示した変更前のインスタンス文書４００の項目“ＣｕｒｒｅｎｔＡｓｓｅｔ”の表示リンクの子供として“Ｃａｓｈ”という項目を加えたいとする。このような場合、拡張タクソノミとして、追加する項目の定義を行う拡張スキーマ（ｓｃｈｅｍａ−ｅｘｔ．ｘｓｄ）と、項目の表示位置を定義する拡張表示リンク（ｐｒｅｓｅｎｔａｔｉｏｎ−ｅｘｔ．ｘｍｌ）と、項目の名称を定義する拡張名称リンク（ｌａｂｅｌ−ｅｘｔ．ｘｍｌ）を生成する。拡張スキーマ（ｓｃｈｅｍａ−ｅｘｔ．ｘｓｄ）が、基本となるベースタクソノミのスキーマ（ｓｃｈｅｍａ２００７．ｘｓｄ）を参照する構成とすることで、変更前のスキーマの内容を変更することなく、新たな項目を追加することができる。

ここで、変更後のインスタンス文書５００では、同じ意味を持つ項目が“ＣｕｒｒｅｎｔＡｓｓｅｔｓ”に変更される。したがって、拡張タクソノミで定義されている“Ｃａｓｈ”を“ＣｕｒｒｅｎｔＡｓｓｅｔｓ”の子供に変更しなければならない。しかしながら、従来の処理では、変更前の“ＣｕｒｒｅｎｔＡｓｓｅｔ”と対応する変更後の項目は利用者が探さなければならず、煩雑な作業が必要であった。解析装置１００では、変更前の“ＣｕｒｒｅｎｔＡｓｓｅｔ”と、変更後の“ＣｕｒｒｅｎｔＡｓｓｅｔｓ”とがマッチする項目であることを自動的に検出し、利用者に報告する。利用者は、この情報を確認し、拡張タクソノミを適切に修正することができる。このように、変更内容について解析を行うことができるため、拡張タクソノミが参照しているベースタクソノミの項目の名前が変更されても、参照を適切に修正することができる。また、比較処理は、拡張タクソノミも対象となる。したがって、監査業務等において、再提出された報告書で拡張タクソノミの項目の名前が変更されていた場合であっても、解析装置１００により、項目の名前が変更されたという事実及び項目の変更内容を把握することができる。さらに、タクソノミ開発等において、項目の名前が変更された場合であっても、変更前の項目と変更後の項目を並べて表示することができる。利用者は、表示により変更内容を確認することができる。

以上のように、解析装置１００によれば、情報の識別子が変更されていても、意味的に等価な情報のペアを自動的に検出し、その変更箇所と変更内容を解析して利用者に報告することができる。これにより、利用者は、管理業務や監査業務、タクソノミの開発等、さまざまな場面において、変更内容の確認が容易になり、作業の負担が軽減される。

次に、解析装置１００の実行する処理手順を、フローチャートを用いて説明する。
図２０は、解析装置の処理全体を示したフローチャートである。
［ステップＳ０１］解析装置１００は、キーボード２２、マウス２３を介して直接、あるいはネットワーク３０を介して端末装置４０から解析の対象の文書名と、解析指示を取得する。例えば、比較対象のインスタンス文書名あるいは、スキーマ名を取得する。

［ステップＳ０２］データ構造解析部１２０は、ステップＳ０１で取得した対象文書名に基づき、比較対象である変更前後のＸＢＲＬデータをＸＢＲＬデータ記憶装置１１０から読み込む。ステップＳ０１でリンクベースが指定されたときは、文書間の参照関係を解析し、スキーマ名を特定する。

［ステップＳ０３］データ構造解析部１２０は、ステップＳ０２で読み出した変更前後のＸＢＲＬデータの構造を解析し、項目関連情報を抽出するデータ構造解析処理を行う。処理が実行されると、文書間の参照関係に基づく文書構造を示した文書参照構造情報、項目の定義情報を抽出した項目・型情報、項目値を抽出した項目値情報及び項目間のリンク構造を示したリンク構造情報が生成される。処理の詳細は後述する。

［ステップＳ０４］変更情報解析部１３０は、ステップＳ０３で生成された情報を用いて変更箇所の解析処理を行う。このとき、対応付けができた項目については、変更内容の解析も行う。処理を実行すると、変更前のＸＢＲＬデータと変更後のＸＢＲＬデータとを比較した比較結果が生成される。ここでは、文書参照構造比較結果１５１、項目・型情報比較結果１５２及び項目値比較結果１５３が得られる。処理の詳細は後述する。

［ステップＳ０５］情報マッチング部１４０は、ステップＳ０４の処理で検出された変更前後のＸＢＲＬデータで対応付けができなかった未対応文書及び未対応項目について、マッチング処理を行う。処理を実行すると、変更前の未対応文書と変更後の未対応文書、変更前の未対応項目と変更後の未対応項目、がそれぞれ対応付けられる。処理の詳細は後述する。

［ステップＳ０６］変更情報解析部１３０は、ステップＳ０５において新たに対応付けられた項目について、変更内容を解析する。
［ステップＳ０７］変更情報解析部１３０は、上記の処理手順により検出した変更箇所と変更内容に関する解析結果をモニタ２１に表示し、利用者に結果を報告する。また、ネットワーク３０を介して利用者の端末装置４０に送信し、端末装置４０が利用者に結果を報告するとしてもよい。解析の結果、変更前にのみ存在した情報（文書及び項目）は、削除された情報として利用者に報告する。変更後にのみ存在した情報は、追加された情報として利用者に報告する。変更の前後に存在した情報は、内容が変更された情報として利用者に報告する。また、マッチング処理によってマッチした情報も、内容が変更された情報として利用者に報告する。

以上の処理手順が実行されることにより、変更前後で情報の識別子が変更されていても意味的に等価な情報のペアを自動的に検出し、対応付けることができる。これにより、変更箇所の特定ばかりでなく、変更内容についても解析を行い、解析結果を利用者に報告することができる。この結果、利用者は、解析装置１０がマッチさせた情報や変更内容の確認だけを行えばよく、従来のように多数ある情報からマッチする候補を見つける作業から解放される。

以下、データ構造解析処理（ステップＳ０３）、変更箇所解析処理（ステップＳ０４）及びマッチング処理（ステップＳ０５）の処理について説明する。
図２１は、データ構造解析処理の手順を示したフローチャートである。

データ構造解析部１２０では、読み込んだＸＢＲＬデータの解析処理を行う。
［ステップＳ３１］文書参照構造解析部１２１は、読み込んだ対象のＸＢＲＬデータに含まれる文書間の参照関係を解析し、参照関係に基づく文書の参照構造を検出する。そして、検出した文書の参照構造に関する文書参照構造情報４１０，５１０を生成する。ＸＢＲＬデータに拡張タクソノミが含まれていたときは、拡張タクソノミを含めて文書の参照構造を解析する。そして、報告が指定されていたときは、生成した文書参照構造情報４１０，５１０を要求元の装置に送出する。要求元の装置では、取得した文書参照構造情報４１０，５１０に基づく画面を表示し、利用者に解析結果を報告することができる。

［ステップＳ３２］項目解析部１２２は、読み込んだＸＢＲＬデータに含まれるスキーマから、項目や型の名前、定義内容、出現順等のスキーマに定義されている項目の関連情報を抽出する。そして、抽出した情報を項目・型情報４２０，５２０に登録する。報告が指定されていたときは、要求元に項目・型情報４２０，５２０を送信するとしてもよい。

［ステップＳ３３］項目解析部１２２は、さらに、読み込んだＸＢＲＬデータに含まれる各リンクベースから、リンクベースに定義されるリンク構造を解析する。そして、解析結果に基づいて、リンクごとにリンク構造情報を生成する。例えば、表示リンクであれば、表示リンク構造情報４３０，５３０、参照リンクであれば、参照リンク構造情報４４０，５４０を生成する。必要に応じて、計算リンク、定義リンク及び名称リンクについても同様にリンク構造情報を生成する。報告が指定されていたときは、要求元にリンク構造情報を送信するとしてもよい。

［ステップＳ３４］項目解析部１２２は、読み込んだＸＢＲＬデータに含まれるインスタンス文書から、項目の値、参照するコンテキスト、出現順等を抽出する。そして、抽出した情報から項目値情報を生成する。報告が指定されていたときは、要求元に項目値情報を送信するとしてもよい。

以上の処理手順が実行されることにより、対象のＸＢＲＬデータの文書間の参照構造を解析した文書参照構造情報が生成される。また、リンクベースに基づいてリンク構造を解析したリンク構造情報が生成されるとともに、各項目の情報を抽出した項目・型情報及び項目値情報が生成される。

図２２は、変更箇所解析処理の手順を示したフローチャートである。
［ステップＳ４１］変更情報解析部１３０は、データ構造解析部１２０が生成した変更前と変更後のデータの構造情報を取得する。例えば、変更前の文書参照構造情報４１０、項目・型情報４２０、項目値情報４５０と、変更後の文書参照構造情報５１０、項目・型情報５２０、項目値情報５５０と、を取得する。

［ステップＳ４２］変更情報解析部１３０は、ステップＳ４１で取得した変更前のデータの構造情報と、変更後のデータの構造情報とを比較する。変更前の文書参照構造情報４１０と変更後の文書参照構造情報５１０は、参照構造に基づいて、文書の文書識別子（文書名）を比較する。変更前の項目・型情報４２０と変更後の項目・型情報５２０は、項目の識別子（項目名）を比較する。変更前の項目値情報４５０と変更後の項目値情報５５０は、項目の識別子（項目名）を比較する。

［ステップＳ４３］変更情報解析部１３０は、ステップＳ４２の比較の結果、情報の識別子が変更前のみに存在し、変更後には存在しないかどうかを判定する。情報の識別子が変更前のみに存在するときは、処理をステップＳ４５に進める。それ以外は、処理をステップＳ４４に進める。

［ステップＳ４４］変更情報解析部１３０は、情報の識別子が変更前のみに存在するのでないときは、情報の識別子が変更後にのみ存在しないかどうかを判定する。情報の識別子が変更後のみに存在するときは、処理をステップＳ４６に進める。それ以外は、処理をステップＳ４７に進める。

［ステップＳ４５］変更情報解析部１３０は、情報の識別子が変更前のみに存在するときは、この情報を削除された情報と判定し、比較結果に登録する。その後、処理をステップＳ４８に進める。

［ステップＳ４６］変更情報解析部１３０は、情報の識別子が変更後のみに存在するときは、この情報を追加された情報と判定し、比較結果に登録する。その後、処理をステップＳ４８に進める。

［ステップＳ４７］変更情報解析部１３０は、情報の識別子が変更前及び変更後に存在するときは、この情報を内容が変更された情報と判定し、比較結果に登録する。なお、情報の識別子が一致した情報については、変更内容も解析し、比較結果に登録する。

［ステップＳ４８］変更情報解析部１３０は、全情報について比較処理が終了したかどうかを判定する。終了していないと判定したときは、ステップＳ４２に戻って、次の情報のチェックを行う。終了していると判定したときは、処理を終了する。

以上の処理手順が変更前の文書参照構造情報４１０と変更後の文書参照構造情報５１０に適用されて、文書参照構造比較結果１５１が生成される。また、変更前の項目・型情報４２０と変更後の項目・型情報５２０に適用されて、項目・型情報比較結果１５２が生成される。さらに、変更前の項目値情報４５０と変更後の項目値情報５５０に適用されて、項目値比較結果１５３が生成される。

以下、マッチング処理について説明する。ここでは、マッチング処理を、文書の等価性解析と、項目の等価性解析に分けて説明する。
図２３は、マッチング（文書の等価性解析）処理の手順を示したフローチャートである。

［ステップＳ５０１］文書マッチング部１４１は、ＸＢＲＬデータの変更前の文書参照構造情報４１０及び変更後の文書参照構造情報５１０と、文書参照構造比較結果１５１ａとを取得する。

［ステップＳ５０２］文書マッチング部１４１は、文書参照構造比較結果１５１ａから、追加された情報に登録されている文書名と、削除された情報に登録されている文書名と、を１つずつ抽出する。抽出した文書を対象文書とする。

［ステップＳ５０３］文書マッチング部１４１は、文書参照構造情報４１０，５１０に基づき、抽出した対象文書それぞれについて、参照関係において親となる文書名及び兄弟となる文書名を抽出する。

［ステップＳ５０４］文書マッチング部１４１は、ステップＳ５０３で抽出した対象文書双方の親の文書名と、兄弟の文書名と、が一致、または所定のマッチング条件を満たすかどうか確認する。マッチング条件として、例えば、一致しない文書が拡張タクソノミであればよい等、マッチすると見なす条件を予め決めておく。マッチすると判定したときは、処理をステップＳ５０５に進める。マッチしないと判定したときは、処理をステップＳ５０６に進める。

［ステップＳ５０５］文書マッチング部１４１は、対象文書がマッチすると判定したときは、変更前後の対象文書をマッチする情報として報告する。対象文書を文書参照構造比較結果１５１ａの削除された情報及び追加された情報から削除し、マッチする情報に登録する。なお、登録の前に、利用者にマッチすると判定した文書を提示し、マッチングが正しく行われたかどうかを確認してもらうようにしてもよい。利用者によってマッチしないと指示されたときは、登録は中止する。

［ステップＳ５０６］文書マッチング部１４１は、全ての文書についてマッチング処理を終了したかどうかを判定する。終了していないときは、処理をステップＳ５０２に戻し、次の対象文書の選択からの処理を行う。終了しているときは、文書のマッチング処理を終了する。

以上の処理手順が実行されることにより、識別子は異なるが等価な文書がマッチングされ、比較結果に反映される。こうして、文書参照構造比較結果１５１ｂが得られる。
図２４は、マッチング（項目の等価性解析）処理の手順を示したフローチャートである。なお、以下の説明では、簡単のため、項目・型情報比較結果１５２ａのマッチング処理について説明する。項目値比較結果１５３ａでも同様の処理を行うことができる。

［ステップＳ５１１］項目マッチング部１４２は、ＸＢＲＬデータの変更前のデータの構造情報及び比較結果と、変更後のデータの構造情報及び比較結果と、を取得する。例えば、データの構造情報として、変更前の表示リンク構造情報４３０及び参照リンク構造情報４４０と、変更後の表示リンク構造情報５３０及び参照リンク構造情報５４０と、を取得する。また、比較結果として、項目・型情報比較結果１５２ａを取得する。

［ステップＳ５１２］項目マッチング部１４２は、項目・型情報比較結果１５２ａから、追加された情報に登録されている項目名と、削除された情報に登録されている項目名と、を１つずつ抽出する。抽出した項目を対象項目とする。

［ステップＳ５１３］項目マッチング部１４２は、表示リンク構造情報４３０，５３０に基づき、抽出した対象項目それぞれについて、親となる項目名及び兄弟となる項目名を抽出する。また、参照リンク構造情報４４０，５４０に基づき、対象項目それぞれのリソース情報を抽出する。

［ステップＳ５１４］項目マッチング部１４２は、ステップＳ５１３において抽出した対象項目それぞれの親の項目名と、兄弟の項目名とを照合し、親・兄弟の項目名が一致、または予め決められたマッチング条件を満たすかどうか判定するマッチング処理を行う。マッチすると判定したときは、この対象項目のペアを候補とし、表示リンクに設定される確度の増加量を設定する。該当するリンクが多いほど、確度を高く設定する。マッチしないと判定したときは、候補としない。

［ステップＳ５１５］項目マッチング部１４２は、ステップＳ５１３において抽出した対象項目それぞれのリソース情報照合し、一致するかどうかを判定するマッチング処理を行う。マッチすると判定したときは、この対象項目のペアを候補とし、参照リンクに設定される確度の増加量を設定する。該当するリンクが多いほど、確度を高く設定する。マッチしないと判定したときは、候補としない。

［ステップＳ５１６］項目マッチング部１４２は、ステップＳ５１４及びステップＳ５１５におけるマッチング処理で候補となった対象項目のペアについて、他の候補と確度を比較する。対象項目の他に候補のペアがあるかどうか、あるときは対象項目が最も確度が高いかどうかを判定する。他の候補がないか、対象項目の確度が最も高いときは、処理をステップＳ５１７に進める。それ以外のときは、処理をステップＳ５１８に進める。

［ステップＳ５１７］項目マッチング部１４２は、対象項目がマッチすると判定したときは、変更前後の対象項目をマッチする情報として報告する。対象項目を項目・型情報比較結果１５２ａの削除された情報及び追加された情報から削除し、マッチする情報に登録する。なお、登録の前に、利用者にマッチすると判定した項目を提示し、マッチングが正しく行われたかどうかを確認してもらうようにしてもよい。利用者によってマッチしないと指示されたときは、登録は中止する。また、複数の候補を提示し、正しいものを選択してもらうとしてもよい。正しい項目のペアが指示されたときは、指示に従って項目・型情報比較結果１５２ａに登録を行う。

［ステップＳ５１８］項目マッチング部１４２は、全ての項目についてマッチング処理を終了したかどうかを判定する。終了していないときは、処理をステップＳ５１２に戻し、次の対象項目の選択からの処理を行う。終了しているときは、項目のマッチング処理を終了する。

以上の処理手順が実行されることにより、識別子は異なるが等価な項目がマッチングされ、比較結果に反映される。こうして、項目・型情報比較結果１５２ｂが得られる。
なお、上記のマッチング処理手順では、データ構造解析処理及び変更箇所解析処理で生成された構造情報と比較結果情報とに基づいてマッチング処理を行うとしているが、マッチング処理の結果を用いて再度マッチング処理を行うとしてもよい。例えば、比較元の文書に順にＡ、Ｂ、Ｃと並ぶ項目と、比較先の文書に順にＥ、Ｆ、Ｇと並ぶ項目があり、それぞれ識別子は異なるとする。識別子が異なるため、それぞれの項目を識別子で対応付けることはできない。しかし、上記のマッチング処理手順を用いて、リンク構造を比較することにより、項目のマッチングを行うことができる。マッチング処理により、項目ＡとＥ、項目ＣとＧとがマッチするという比較結果が得られたとする。この比較結果に基づいて、マッチング処理を行うと、項目ＡとＥ、かつ項目ＥとＧがマッチしているので、項目ＡとＣに挟まれた項目Ｂと、項目Ｅと項目Ｇに挟まれた項目Ｆとは、マッチするという判定が可能となる。

また、図２４に示したマッチング処理手順のステップＳ５１７で、利用者から正しい項目のペアを取得したとき、マッチングの学習を行うとしてもよい。
図２５は、マッチング学習処理の手順を示したフローチャートである。

［ステップＳ８１］情報マッチング部１４０は、項目のマッチング処理によって、マッチする情報として検出した候補を抽出する。
［ステップＳ８２］情報マッチング部１４０は、候補が存在するか否かをチェックする。候補が存在するときは、処理をステップＳ８３に進める。候補が存在しないときは、処理を終了する。

［ステップＳ８３］情報マッチング部１４０は、候補が存在するときは、その候補をモニタ２１あるいは端末装置４０を介して利用者に報告する。そして、利用者の確認、あるいは候補が複数の場合は選択を待ち、指示を取得する。

［ステップＳ８４］情報マッチング部１４０は、ステップＳ８３で取得した利用者の指示に基づき、利用者が選択した対象項目の根拠となるリンクについて、確度の増加量を増やす。あるいは、選択されなかった対象項目の根拠となるリンクについて、確度の増加量を減らす。こうして、リンクごとの確度の増加量を調整した後、処理を終了する。

以上の処理手順が実行されることにより、リンクの重み付けが適宜更新され、正しい選択の根拠となったリンクの確度の増加量が大きくなる。
なお、上記の処理機能は、コンピュータによって実現することができる。その場合、解析装置が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。

プログラムを流通させる場合には、例えば、そのプログラムが記録されたＤＶＤ（Digital Versatile Disc）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）等の可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。

プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送されるごとに、逐次、受け取ったプログラムに従った処理を実行することもできる。

上記については単に本発明の原理を示すものである。さらに、多数の変形、変更が当業者にとって可能であり、本発明は上記に示し、説明した正確な構成及び応用例に限定されるものではなく、対応する全ての変形例及び均等物は、添付の請求項及びその均等物による本発明の範囲とみなされる。

１０解析装置
１１文書データ記憶手段
１１ａ文書データＡ
１１ｂ文書データＢ
１２データ構造解析手段
１３変更情報解析手段
１４情報マッチング手段
２０表示装置

Claims

文書を比較し、文書間で一致しない変更部分を解析する解析方法において、
解析装置が、
文書に含まれる項目の値を記述する項目値ファイルと、前記項目及び項目間の関係を定義する定義ファイルと、を有する文書データを格納する記憶手段から、比較対象の第１の文書データ及び第２の文書データを読み出し、
前記定義ファイルの前記項目間の関係を解析して項目間の構造情報を生成し、
前記第１の文書データに定義されている項目の識別子と、前記第２の文書データに定義されている項目の識別子とを比較して、前記第１の文書データにのみ存在する第１の未対応項目及び前記第２の文書データにのみ存在する第２の未対応項目を検出し、
前記項目間の構造情報に基づいて、前記第１の未対応項目に関連する項目間の関係と前記第２の未対応項目に関連する項目間の関係とを比較し、項目間の関係が共通すると判定した前記第１の未対応項目と前記第２の未対応項目とを対応付ける、
ことを特徴とする解析方法。
さらに、前記第１の文書データ及び前記第２の文書データそれぞれについて、前記文書データに属するファイル間の参照関係を解析して文書の構造情報を生成し、
前記第１の文書データに属するファイルの識別子と、前記第２の文書データに属するファイルの識別子とを比較して、前記第１の文書データにのみ存在する第１の未対応ファイル及び前記第２の文書データにのみ存在する第２の未対応ファイルを検出し、
前記文書の構造情報に基づいて、前記第１の未対応ファイルに関連するファイル間の参照関係と、前記第２の未対応ファイルに関連するファイル間の参照関係とを比較し、ファイル間の参照関係が共通すると判定した前記第１の未対応ファイルと前記第２の未対応ファイルとを対応付ける、
ことを特徴とする請求項１記載の解析方法。
さらに、前記第１の文書データのファイルと、前記第２の文書データのファイルとの対応関係を表したファイル対応表に、前記ファイルの識別子の比較によって対応付けられた前記第１の文書データに属するファイルと前記第２の文書データに属するファイルを登録するとともに、前記文書の構造情報に基づいて対応付けられた前記第１の未対応ファイルと前記第２の未対応ファイルを登録し、前記ファイル対応表に基づいて、対応付けられたファイル間の差異を解析し、解析結果をファイル変更内容として記録し、
前記第１の文書データの項目と、前記第２の文書データの項目との対応関係を表した項目対応表に、前記項目の識別子の比較によって対応付けられた前記第１の文書データの項目と前記第２の文書データの項目を登録するとともに、前記項目間の構造情報に基づいて対応付けられた前記第１の未対応項目と前記第２の未対応項目を登録し、前記項目対応表に基づいて対応付けられた項目間の差異を解析し、解析結果を項目変更内容として記録する、
ことを特徴とする請求項２記載の解析方法。
前記定義ファイルは、前記項目の表示上の関係、意味的な関係、前記項目の関連情報を含む前記項目に関する複数の定義ファイルを備え、
前記項目間の構造情報を前記複数の定義ファイルそれぞれに対応して作成し、
前記複数の定義ファイルそれぞれについて作成した前記項目間の構造情報ごとに、該項目間の構造情報に基づいて前記第１の未対応項目に対応付ける前記第２の未対応項目の候補を選択し、前記複数の定義ファイルごとに設定される確度の増加量を前記候補の確度に加算する手順を繰り返し、全ての前記項目間の構造情報に基づく候補選択が終了した時点で最も確度の高い前記候補を、前記第１の未対応項目に対応付ける最有力候補とする、
ことを特徴とする請求項１乃至３のいずれか１項に記載の解析方法。
前記第１の未対応項目に対応付ける前記第２の未対応項目の最有力候補を含む前記候補を利用者に提示して前記利用者の選択を待ち、前記利用者の選択が通知されたときは、前記通知に基づいて前記利用者が選択した前記第２の未対応項目の候補と、前記第１の未対応項目とを対応付けるとともに、前記利用者が選択した前記第２の未対応項目の候補となった前記定義ファイルに設定されている前記確度の増加量を増加し、必要に応じて他の前記定義ファイルに設定されている前記確度の増加量を減少して前記定義ファイルに設定される前記確度の増加量を調整する、
ことを特徴とする請求項４記載の解析方法。
文書を比較し、文書間で一致しない変更部分を解析する解析装置において、
文書に含まれる項目の値を記述する項目値ファイルと、前記項目及び項目間の関係を定義する定義ファイルと、を有する文書データを格納する記憶手段と、
前記定義ファイルの前記項目間の関係を解析して項目間の構造情報を生成するデータ構造解析手段と、
比較対象の第１の文書データ及び第２の文書データを読み出し、前記第１の文書データに定義されている前記項目の識別子と、前記第２の文書データに定義されている前記項目の識別子とを比較して、前記第１の文書データにのみ存在する第１の未対応項目及び前記第２の文書データにのみ存在する第２の未対応項目を検出する変更情報解析手段と、
前記項目間の構造情報に基づいて、前記第１の未対応項目に関連する項目間の関係と前記第２の未対応項目に関連する項目間の関係とを比較し、項目間の関係が共通すると判定した前記第１の未対応項目と前記第２の未対応項目とを対応付ける情報マッチング手段と、
を有することを特徴とする解析装置。
文書を比較し、文書間で一致しない変更部分を解析する処理のための解析プログラムにおいて、
コンピュータを、
文書に含まれる項目の値を記述する項目値ファイルと、前記項目及び項目間の関係を定義する定義ファイルと、を有する文書データを格納する記憶手段から、比較対象の第１の文書データ及び第２の文書データを読み出し、前記定義ファイルの前記項目間の関係を解析して項目間の構造情報を生成するデータ構造解析手段、
前記第１の文書データに定義されている項目の識別子と、前記第２の文書データに定義されている項目の識別子とを比較して、前記第１の文書データにのみ存在する第１の未対応項目及び前記第２の文書データにのみ存在する第２の未対応項目を検出する変更情報解析手段、
前記項目間の構造情報に基づいて、前記第１の未対応項目に関連する項目間の関係と前記第２の未対応項目に関連する項目間の関係とを比較し、項目間の関係が共通すると判定した前記第１の未対応項目と前記第２の未対応項目とを対応付ける情報マッチング手段、
として機能させることを特徴とする解析プログラム。
文書を比較し、文書間で一致しない変更部分を解析する解析方法において、
解析装置が、
項目及び項目間の関係を示す情報を有する第１の文書データ及び第２の文書データを比較し、
前記第１の文書データにのみ存在する項目である第１の未対応項目及び前記第２の文書データにのみ存在する項目である第２の未対応項目を検出し、
前記第１の未対応項目に関連する項目間の関係と前記第２の未対応項目に関連する項目間の関係とが、共通すると判定した第１の未対応項目と第２の未対応項目とを対応付ける、
ことを特徴とする解析方法。
前記第１の文書データ及び前記第２の文書データは、複数のファイルを有し、
前記第１の文書データにのみ存在するファイルである第１の未対応ファイル及び前記第２の文書データにのみ存在するファイルである第２の未対応ファイルを検出し、
前記第１の未対応ファイルに関連するファイル間の参照関係と、前記第２の未対応ファイルに関連するファイル間の参照関係とが、共通すると判定された第１の未対応ファイルと第２の未対応ファイルとを対応付ける、
ことを特徴とする請求項８記載の解析方法。
さらに、前記第１の文書データのファイルと、前記第２の文書データのファイルとの対応関係を表したファイル対応表に、前記ファイル間の参照関係に基づいて対応付けられた前記第１の未対応ファイルと前記第２の未対応ファイルを登録し、前記ファイル対応表に基づいて、対応付けられたファイル間の差異を解析し、解析結果をファイル変更内容として記録し、
前記第１の文書データの項目と、前記第２の文書データの項目との対応関係を表した項目対応表に、前記項目間の関係に基づいて対応付けられた前記第１の未対応項目と前記第２の未対応項目を登録し、前記項目対応表に基づいて対応付けられた項目間の差異を解析し、解析結果を項目変更内容として記録する、
ことを特徴とする請求項９記載の解析方法。
前記第１の文書データ及び前記第２の文書データは、項目の表示上の関係、意味的な関係、項目の関連情報を示す項目間の関係それぞれについて、いずれかの項目間の関係を定義する定義ファイルを備え、
前記定義ファイルそれぞれについて、前記定義ファイルに定義されている項目間の関係に基づいて前記第１の未対応項目に対応付ける前記第２の未対応項目の候補を選択し、前記定義ファイルに対応する確度の増加量を候補の確度に加算する手順を繰り返し、前記候補毎に前記確度の合計値を算出する、
ことを特徴とする請求項８乃至１０のいずれか１項に記載の解析方法。
前記項目間の関係に基づいて選択された候補を利用者に提示して利用者の選択を待ち、利用者の選択が通知されたときは、利用者が選択した前記第２の未対応項目の候補について項目間の関係に基づいて選択された根拠となった定義ファイルに基づき前記定義ファイルごとに、対応する確度の増加量を調整する、
ことを特徴とする請求項１１記載の解析方法。
文書を比較し、文書間で一致しない変更部分を解析する解析装置において、
項目及び項目間の関係を示す情報を有する第１の文書データ及び第２の文書データを比較し、前記第１の文書データにのみ存在する項目である第１の未対応項目及び前記第２の文書データにのみ存在する項目である第２の未対応項目を検出する変更情報解析手段と、
前記第１の未対応項目に関連する項目間の関係と前記第２の未対応項目に関連する項目間の関係とが、共通すると判定した第１の未対応項目と第２の未対応項目とを対応付ける情報マッチング手段と、
を有することを特徴とする解析装置。
文書を比較し、文書間で一致しない変更部分を解析する処理のための解析プログラムにおいて、
コンピュータを、
項目及び項目間の関係を定義する定義ファイルを有する第１の文書データ及び第２の文書データを比較し、
前記第１の文書データにのみ存在する項目である第１の未対応項目及び前記第２の文書データにのみ存在する項目である第２の未対応項目を検出する変更情報解析手段、
前記第１の未対応項目に関連する項目間の関係と前記第２の未対応項目に関連する項目間の関係とが、共通すると判定した第１の未対応項目と第２の未対応項目とを対応付ける情報マッチング手段、
として機能させることを特徴とする解析プログラム。