JP5494675B2 - 解析方法、解析装置及び解析プログラム - Google Patents

解析方法、解析装置及び解析プログラム Download PDF

Info

Publication number
JP5494675B2
JP5494675B2 JP2011550736A JP2011550736A JP5494675B2 JP 5494675 B2 JP5494675 B2 JP 5494675B2 JP 2011550736 A JP2011550736 A JP 2011550736A JP 2011550736 A JP2011550736 A JP 2011550736A JP 5494675 B2 JP5494675 B2 JP 5494675B2
Authority
JP
Japan
Prior art keywords
item
information
items
document data
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011550736A
Other languages
English (en)
Other versions
JPWO2011089683A1 (ja
Inventor
傑 鷲尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2011089683A1 publication Critical patent/JPWO2011089683A1/ja
Application granted granted Critical
Publication of JP5494675B2 publication Critical patent/JP5494675B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/197Version control

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

文書の解析方法、文書の解析装置及び文書の解析プログラムに関する。
企業等では、文書等の情報の多くを電子化して管理している。さらに、近年では、法令で義務付けられている書面についても、紙による保存に代わり、電磁的記録による保存が認められている。
しかし、単に文書を電子化するだけでは、管理や再利用が容易にはならない。そこで、文書データの作成や流通、再利用を容易にするため、各種分野で電子化情報の標準化が進められている。標準化によって、文書データの構成や情報項目の名前またはID等が共通化される。共通化された情報項目名を用いれば、既存の文書データから所望の項目を見つけ出すことができる。
ところで、文書データは、作成された後も、法令の改正あるいは誤り訂正のため等、さまざまな理由で記述内容が変更されることがある。文書データの管理上、変更箇所と変更内容は把握しておく必要があり、変更前と変更後の文書データを照合し、変更箇所と変更内容とを自動解析する解析方法が求められている。しかし、文書データを単純に照合するだけでは、名前が異なると、意味的に同じものが異なるとして検出されてしまう。そこで、データマッチングの前に、読み込んだ文書を予め決められた文字あるいは記号に変換して正規化し、マッチングの精度を上げる方法がある。また、変更内容の分析には、変更前のデータと変更後のデータとを対応付ける必要があるが、単純なマッチングでは対応付けは難しい。そこで、文書データに含まれる共通の項目名やファイル名を利用して変更前後のデータのマッチングを行い、対応するデータを抽出する解析方法がある。
特開2004−295500号公報
しかし、従来の解析では、共通の項目名やファイル名が設定されていない場合には、対応付けができず、変更の解析が難しかった。なお、項目名やファイル名等、その情報データを一意に特定できる情報を識別子と呼ぶ。
対象の2つの文書データを比較し、識別子が一致すれば、これは同じ項目あるいは同種のファイルであると対応付けることができる。しかし、項目名は、法改正等によって変更しなければならない場合がある。ファイル名についても同様である。このように、変更等によって同じ項目やファイルを識別するための識別子が変更される場合があるが、単純なマッチングでは、どの情報が削除され、どの情報が追加されたのかしか把握することができない。しかしながら、変更の解析において利用者が最も知りたい情報は、「情報Aの識別子及びデータ型が変更され、情報Bになった」という情報である。このためには、文書データのどの項目とどの項目とが対応付けられるのかを、人手によって1つ1つ確認しなければならず、変更内容の解析に膨大な時間がかかってしまった。また、項目の対応付けは、この文書の内容を理解している人でなければ難しい場合も多く、作業者に多大な負担がかかっていた。
このような点に鑑み、同じ情報データに異なる識別子が設定されていても文書の変更解析が可能な解析方法、解析装置及び解析プログラムを提供することを目的とする。
上記課題を解決するために、文書を比較し、文書間で一致しない変更部分を解析する解析方法が提供される。この解析方法によれば、文書に含まれる項目の値を記述する項目値ファイルと、項目及び項目間の関係を定義する定義ファイルと、を有する文書データを格納する記憶手段から、比較対象の第1の文書データ及び第2の文書データを読み出す。そして、定義ファイルの項目間の関係を解析して項目間の構造情報を生成する。次に、第1の文書データに定義されている項目の識別子と、第2の文書データに定義されている項目の識別子とを比較して、第1の文書データにのみに存在する第1の未対応項目及び第2の文書データにのみに存在する第2の未対応項目を検出する。そして、項目間の構造情報に基づいて、第1の未対応項目に関連する項目間の関係と第2の未対応項目に関連する項目間の関係とを比較し、項目間の関係が共通すると判定した第1の未対応項目と第2の未対応項目とを対応付ける。
開示の解析方法、解析装置及び解析プログラムによれば、同じ情報データに異なる識別子が設定されていても解析が可能となる。
本発明の上記及び他の目的、特徴及び利点は本発明の例として好ましい実施の形態を表す添付の図面と関連した以下の説明により明らかになるであろう。
第1の実施の形態の解析装置の構成例を示した図である。 XBRLの構造の一例を示した図である。 第2の実施の形態の解析装置のハードウェア構成例を示したブロック図である。 解析装置のソフトウェア構成例を示したブロック図である。 報告書のインスタンス文書の一例を示した図である。 XBRLデータの文書参照構造情報の一例を示した図である。 スキーマから抽出した項目・型情報一例を示した図である。 表示リンク構造情報の一例を示した図である。 参照リンク構造情報の一例を示した図である。 項目値情報の一例を示した図である。 変更情報解析処理後の文書参照構造比較結果を示した図である。 変更情報解析処理後の項目・型情報比較結果を示した図である。 変更情報解析処理後の項目値比較結果を示した図である。 情報マッチング処理後の文書参照構造比較結果を示した図である。 情報マッチング処理後の項目・型情報比較結果を示した図である。 情報マッチング処理後の項目値比較結果を示した図である。 マッチする項目の候補とその確度を示した図である。 1回目の学習後の確度とマッチする項目の候補とその確度を示した図である。 2回目の学習後の確度とマッチする項目の候補とその確度を示した図である。 解析装置の処理全体を示したフローチャートである。 データ構造解析処理の手順を示したフローチャートである。 変更箇所解析処理の手順を示したフローチャートである。 マッチング(文書の等価性解析)処理の手順を示したフローチャートである。 マッチング(項目の等価性解析)処理の手順を示したフローチャートである。 マッチング学習処理の手順を示したフローチャートである。
以下、実施の形態を図面を参照して説明する。
図1は、第1の実施の形態の解析装置の構成例を示した図である。
解析装置10は、文書データ記憶手段11、データ構造解析手段12、変更情報解析手段13及び情報マッチング手段14を有する。データ構造解析手段12、変更情報解析手段13及び情報マッチング手段14は、コンピュータが解析プログラムを実行することにより、その処理機能を実現する。
文書データ記憶手段11は、比較対象の文書を記憶する記憶装置であり、文書データA11aと、文書データB11bとが記憶されている。文書データA11a及び文書データB11bは、文書に含まれる項目の値を記述する項目値ファイルと、この項目及び項目間の関係等を定義した定義ファイルと、を有する。文書データA11aと文書データB11bとは、予め決められた規格に基づいて作成されている。なお、図1では文書データ記憶手段11を解析装置10内に設けているが、解析装置10の外部に設けるとしてもよい。
データ構造解析手段12は、比較対象の文書データの指定及び解析指示を入力すると、処理を開始する。文書データ記憶手段11から対象の文書データA11aと、文書データB11bとを読み出し、それぞれのデータ構造を解析する。変更前と変更後のファイルと、項目を対応付けるため、データ構造として、文書データを構成するファイル間の参照構造と、文書データに含まれる項目の関係構造とを解析する。例えば、文書データを構成するファイル間の参照関係を解析し、参照関係に基づくファイル構造を検出して、文書の構造情報を生成する。また、定義ファイルに記述されている項目間の関係を解析し、項目間の関係構造を検出して、項目間の構造情報を生成する。ファイル間の参照関係は、例えば、ファイル1がファイル2を参照している場合、ファイル1が親、ファイル2が子供という親子関係を有すると判断する。また、ファイル1がファイル2とファイル3とを参照している場合、ファイル2とファイル3は兄弟関係を有すると判断する。このように、ファイルの参照関係を解析し、ファイル間の親子関係及び兄弟関係を検出する。検出した文書データのファイル間の参照関係に基づく文書の構造情報を生成し、記憶手段に格納する。項目間の関係は、それぞれの定義ファイルを解析し、表示上の関係あるいは意味的な関係といった項目間の関係を把握する。例えば項目「a」は項目「b」の下に表示されるという表示上の親子関係を抽出し、項目間の構造情報として記録する。また、同時に、文書に含まれる項目のデータの型等の特徴を抽出する。項目を定義する定義ファイルを解析し、例えば項目「a」が存在し、その型は「10進数数値型」であるという特徴を抽出する。
変更情報解析手段13は、文書データA11aと文書データB11bとで一致しない変更部分を解析し、変更情報を生成する。変更情報解析手段13では、変更前後のファイルで同じと見なせるものを対応付けるファイルの等価性解析と、変更前後の項目で同じと見なせるものを対応付ける項目の等価性解析とを行う。ファイルの等価性解析では、文書データA11aのファイルのファイル識別子と、文書データB11bのファイルのファイル識別子とを比較し、共通するファイルであると判定した文書データA11aのファイルと文書データB11bのファイルとを対応付ける。それぞれのファイルを一意に識別するファイル識別子を比較し、ファイル識別子の全範囲、あるいは予め決められた一部範囲が同じときに一致と判定する。例えば、名前空間URI(Uniform Resource Identifier)によってファイル名に付される部分は、比較範囲から除くとしてもよい。また、文書データA11aまたは文書データB11bのいずれか一方のみに存在し、対応付けができなかったファイルは、未対応ファイルとしておく。ファイル対応表を生成し、対応付けられたファイルはマッチする情報の欄に登録し、未対応ファイルはそれぞれ文書データAのみに存在するファイル、文書データBのみに存在するファイルの欄に登録する。項目の等価性解析についても同様に、文書データA11aに含まれる項目の識別子と、文書データB11bに含まれる項目の識別子とを比較し、一致するものを対応付け、項目対応表のマッチする情報に登録する。文書データA11aまたは文書データB11bのいずれか一方のみに存在する項目は、未対応項目とし、項目対応表のそれぞれの文書の未対応項目の欄に登録する。また、識別子によって対応付けられた項目については、その値を項目値ファイルより抽出しておく。そして、情報マッチング手段14によって未対応項目の対応付けが行われた後、変更内容の解析を行う。対応付けられた項目について、その値を項目値ファイルより抽出する。文書データA11aと文書データB11bの項目値ファイルから対応付けられた項目の値を抽出する。そして、対応付けがされた項目の特徴と、項目値とを比較し、変更内容を解析する。変更内容の解析結果、ファイル対応表、項目対応表は、必要に応じて表示装置20に表示し、利用者に変更箇所と変更内容を報告する。
情報マッチング手段14は、文書の構造情報と、ファイル対応表とに基づいて、文書データA11aと文書データB11bの未対応ファイルの対応付けを行う。また、項目間の構造情報及び項目対応表に基づいて文書データA11aと文書データB11bに含まれる未対応項目のマッチング処理を行う。マッチング処理とは、異なる識別子が付された同一の情報データを対応付ける処理を指す。ファイルのマッチング処理では、文書の構造情報に基づき、文書データA11aの未対応ファイルと参照関係を有するファイルと、文書データB11bの未対応ファイルと参照関係を有するファイルを比較し、共通すると判定したものを対応付ける。共通しているかどうかは、参照関係を有するファイルが全て一致、または一致したファイルの個数あるいは割合が基準値を超えているかどうかで判断する。情報マッチング手段14で対応付けられた文書データA11aと文書データB11bのファイルは、ファイル対応表のマッチする情報の欄に移動する。項目のマッチング処理では、項目間の構造情報と項目対応表とに基づき、文書データA11aの未対応項目に関連する項目間の構造情報と、文書データB11bの未対応項目に関連する項目間の構造情報の内容を比較し、項目間の関係が同様であるかどうかを判定する。例えば、未対応の項目の前後に表示される項目同士を比較し、全てまたはある割合以上の項目が一致している場合は、同様であると判定する。情報マッチング手段14で対応付けられた文書データA11aと文書データB11bのファイル及び項目は、マッチする情報として登録する。その後、変更情報解析手段13に処理を戻し、新たに対応付けられた項目の変更内容の解析処理を行う。
このような構成の解析装置10の動作及びその解析方法の処理手順について説明する。
文書データ記憶手段11には、文書に含まれる項目の値を記述する項目値ファイルと、この項目を特徴付ける項目識別子、型及び項目間の関係を定義した定義ファイルとを有する文書データA11aと、文書データB11bとが格納されている。
解析装置10は、対象の文書データA11a及び文書データB11bを指定されて処理を開始する。データ構造解析手段12は、対象の文書データA11a及び文書データB11bを文書データ記憶手段11から読み出す。そして、文書データA11aと文書データB11bのファイルの変更解析と、項目の変更解析とを行う。
ファイルの変更解析について説明する。データ構造解析手段12は、読み出した文書データA11a、文書データB11bそれぞれの文書データに属するファイルの参照関係を解析する。参照関係に基づくファイルの親子関係あるいは兄弟関係、すなわち、文書データのファイル構造を検出する。検出した文書データのファイル構造は、文書データA11aの文書の構造情報と、文書データB11bの文書の構造情報として記憶手段に格納する。変更情報解析手段13は、文書データA11aのファイルのファイル識別子と、文書データB11bのファイル識別子とを比較し、同じと判定したファイルを対応付ける。対応付けができたファイルは、ファイル対応表にマッチする情報として登録する。ファイル識別子による対応付けができなかったファイルは、未対応ファイルとする。情報マッチング手段14では、文書の構造情報に基づいて、文書データA11aの未対応ファイルと、文書B11bの未対応ファイルとのマッチング処理を行う。文書データA11aの未対応ファイルと所定の参照関係を有するファイルと、文書データB11bの未対応ファイルと所定の参照関係を有するファイルとを比較する。例えば、参照関係に基づいて、文書データA11aの未対応ファイルの親に相当するファイルと、文書データB11bの未対応ファイルの親に相当するファイルを比較する。そして、親に相当するファイルが同じと認められるときは、この文書データA11aの未対応ファイルと、文書データB11bの未対応ファイルとを対応付ける。対応付けられたファイルは、マッチする情報として、ファイル対応表に登録する。
次に、項目の変更解析について説明する。データ構造解析手段12は、読み出した文書データA11a、文書データB11bそれぞれの文書データの定義ファイルを解析する。そして、項目の特徴を抽出して項目情報を生成するとともに、項目間の関係を解析して項目間の構造情報を生成する。変更情報解析手段13は、文書データA11aの項目の項目識別子と、文書データB11bの項目の項目識別子とを比較し、同じと判定した項目を対応付ける。対応付けができた項目は、項目対応表にマッチする情報として登録する。項目識別子による対応付けができなかった項目は、未対応項目として登録する。また、このとき、対応付けができた項目については、文書データA11a及び文書データB11bの項目値ファイルからこの項目の値を抽出して比較し、値が変更されているかどうかを調べるとしてもよい。情報マッチング手段14は、項目間の構造情報に基づいて、文書データA11aの未対応項目と、文書データB11bの未対応項目との対応付けを行う。そして、項目間の構造情報に基づき、項目間の関係が共通していると判定したときは、文書データA11aの未対応項目と、文書データB11bの未対応項目とを対応付ける。対応付けられた項目は、項目対応表のマッチする情報に登録する。次に、変更情報解析手段13は、対応付けした項目について変更内容を解析する。文書データA11a及び文書データB11bの項目値ファイルからこの項目の値を抽出して比較し、値が変更されているかどうかを調べる変更内容の解析処理を行う。また、項目識別子(項目名)が変更されている場合にも、項目識別子が変更されたことを変更内容として記憶しておく。なお、情報マッチング手段14の前にこの変更内容の解析が行われていた項目については、処理を省略する。
こうして生成された変更内容の解析結果、ファイル対応表、項目対応表は、必要に応じて表示装置20に表示し、利用者に変更箇所と変更内容を報知する。
なお、上記の説明では、ファイルの解析を行った後、項目の解析を行うとしたが、処理は並列に行うとしてもよい。
上記の処理が実行されることにより、比較対象の文書データA11aのファイルと文書データB11bのファイル、及び文書データA11aに含まれる項目と文書データB11bに含まれる項目が対応付けられる。このとき、識別子が変更されていても、ファイル間の参照関係、項目間の関係、項目の特徴に基づいて、同じと見なせる情報データを検出して対応付けが行われる。これにより、同じ情報データに異なる識別子が設定されていても解析が可能となり、対応付けられたファイルまたは項目を比較して変更内容を把握することができる。この結果、解析に要する作業者の負担を軽減することが可能となる。
以下、第2の実施の形態として、対象の文書がXBRL(eXtensible Business Reporting Language)によって作成された文書である場合について説明する。
最初にXBRLの概要を説明する。XBRLは、各種財務報告用の情報を作成・流通・活用できるように標準化されたXML(eXtensible Markup Language)ベースの言語である。XBRLの標準化作業や普及活動は、標準化団体であるXBRL Internationalが行っている。また、日本においては、XBRL Japanがその役割を担っている。XBRLの詳細な規格は、例えば、「XBRL Specifications[平成22年1月14日検索]、インターネット<URL: http://www.xbrl.org/Specifications/>」に記載されている。同様の規格は、XBRL Internationalからも発行されている。
図2は、XBRLの構造の一例を示した図である。図2は、XBRL2.1Specificationに基づくXBRL構造の一例である。
XBRLでは、インスタンスと、タクソノミという2種類の文書で財務情報を記述する。タクソノミは、スキーマ220と、複数のリンクベース231〜235の集合である。
インスタンス文書210、スキーマ220、表示リンク231、計算リンク232、定義リンク233、名称リンク234及び参照リンク235は、それぞれ別ファイルとして作成され、ファイルを一意に特定する識別子(ファイル名)が設定される。また、文書間の参照関係は、図2に示したようなツリー構造をとり、ツリーの親の文書が、子の文書を参照する構成となっている。すなわち、インスタンス文書210が、スキーマ220を参照する。また、スキーマ220は、表示リンク231、計算リンク232、定義リンク233、名称リンク234、参照リンク235を参照する。以下、インスタンス文書210、スキーマ220、表示リンク231、計算リンク232、定義リンク233、名称リンク234及び参照リンク235の集合をXBRLデータ、XBRLデータの中の1つのファイルをXBRL文書または単に文書と呼ぶ。
インスタンス文書210は、実際の財務情報を記述したXML文書であり、項目の値、テキスト等の実データが記述される。以下、数値やテキスト等、文書中で項目に対して記述されている実データをまとめて項目値とする。インスタンス文書は、第1の実施の形態で説明した項目値ファイルと同様である。タクソノミ文書は、インスタンス文書210の内容・構造・扱われ方等を定義する。第1の実施の形態で説明した定義ファイルと同様である。スキーマ220は、インスタンス文書210に記述されている項目の名前及び型の情報等を定義する文書である。
複数のリンクベース、表示リンク231、計算リンク232、定義リンク233、名称リンク234、参照リンク235は、項目に対するリンクを記述する文書である。表示リンク231は、項目の表示の順番や親子関係を定義する。例えば、「項目“CurrentAsset”の次に、項目“NonCurrentAssets”を表示する」というような表示の順番を定義する。計算リンク232は、項目の計算関係を定義する。例えば、「“Assets”=“CurrentAsset”+“NonCurrentAssets”」というような計算関係を定義する。定義リンク233は、項目の会計上の意味的な関係を定義する。例えば、「“NonCurrentAssets”と、“FixedAssets”とは同じ概念である」というような意味的な関係を定義する。名称リンク234は、項目のラベルを定義する。例えば、「“Assets”のラベルは『資産』とする」というようなラベルの情報を定義する。参照リンク235は、項目の定義の根拠となった文献情報を定義する。例えば、「“Assets”は、財務諸表等規則、様式第A号に基づく」というような文献情報を定義する。このように、ラベル、文献情報等、リンクで定義する項目の付加情報を以下の説明ではリソースと呼ぶ。
一般に、XBRLデータは、法令の改正、会計基準の変更、及び企業や監督機関の財務報告の方針の変更等により、その記述内容(文書構成、項目の値、項目の定義、リンク等)が変更される。また、誤りの修正のために記述内容が変更される場合もある。変更は、最低でも年1回、多い場合は数回以上行われる。このため、XBRLデータの作成、移行、管理、分析、比較等の処理のために、変更箇所だけでなく変更内容についても正確に把握する必要がある。もちろん、手作業による情報のマッチングや、変更時の変更履歴情報に基づいて変更内容を正確に把握することは不可能ではない。しかし、現在使われているXBRLデータには、項目が3000〜10000個程度存在するため、手作業による全ての変更箇所の情報マッチングには膨大な時間がかかってしまう。
図3は、第2の実施の形態の解析装置のハードウェア構成例を示したブロック図である。
解析装置100は、CPU(Central Processing Unit)101によって装置全体が制御されている。CPU101には、バス107を介してRAM(Random Access Memory)102、ハードディスクドライブ(HDD:Hard Disk Drive)103、グラフィック処理装置104、入力インタフェース105、及び通信インタフェース106が接続されている。
RAM102には、CPU101に実行させるOS(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、RAM102には、CPU101による処理に必要な各種データが格納される。HDD103には、OSやアプリケーションのプログラムが格納される。グラフィック処理装置104には、モニタ21が接続されており、CPU101からの命令に従って画像をモニタ21の画面に表示させる。入力インタフェース105には、キーボード22やマウス23が接続されており、キーボード22やマウス23から送られてくる信号を、バス107を介してCPU101に送信する。通信インタフェース106は、ネットワーク30に接続されており、ネットワーク30を介して端末装置40との間でデータの送受信を行うとしてもよい。
このようなハードウェア構成によって、解析装置100の処理機能を実現することができる。なお、図3には、解析装置100のハードウェア構成を示したが、端末装置40のハードウェア構成も同様である。また、ネットワーク30を介して接続する端末装置40から指示を入力し、解析結果を端末装置40のモニタに出力するとしてもよい。
図4は、解析装置のソフトウェア構成例を示したブロック図である。
解析装置100は、XBRLデータのデータ構造を解析するデータ構造解析部120、変更箇所及び変更内容を解析する変更情報解析部130、未対応情報データのマッチングを行う情報マッチング部140及び記憶部150を有し、対象のデータを格納するXBRLデータ記憶装置110と接続し、対象の解析を行う。
XBRLデータ記憶装置110には、比較対象の変更前と変更後のXBRLデータが格納されている。なお、XBRLデータ記憶装置110は、解析装置100内に設けるとしてもよい。
データ構造解析部120は、文書参照構造解析部121及び項目解析部122を有し、変更前のXBRLデータと、変更後のXBRLデータとをXBRLデータ記憶装置110から読み出し、文書間の参照構造の解析と、項目間のリンク構造の解析を行う。文書参照構造解析部121は、比較対象の変更前後のXBRLデータそれぞれについて、文書間の参照関係に基づいて、文書参照構造を解析する。例えば、スキーマ220が参照しているリンクベース231〜235を検出し、親子関係を把握する。こうして検出した文書間の親子・兄弟関係に基づいて文書間の階層構造を表す文書参照構造情報を生成し、変更情報解析部130に通知する。項目解析部122は、リンクベース231〜235を解析し、項目間の関係を抽出するとともに、スキーマから項目のデータ型等の項目を特徴付ける項目情報を抽出する。リンクベースには、項目間の関係あるいは項目と関連情報とのリンク情報が記述されている。項目解析部122は、リンクベースを解析して項目間の関係を抽出し、項目間の関係を表すリンク構造情報を生成する。例えば、表示リンクに基づいて、表示上の項目間の親子・兄弟関係を抽出し、表示リンク構造情報を生成する。計算リンクに基づいて、項目の計算関係を抽出し、計算リンク構造情報を生成する。定義リンクに基づいて、項目の意味的な関係を抽出し、定義リンク構造情報を生成する。名称リンクに基づいて、項目の名称を抽出し、名称リンク構造情報を生成する。参照リンクに基づいて、項目に対応するリソースを抽出し、参照リンク構造情報を生成する。なお、全てのリンクベースについてリンク構造情報を生成することもできるし、いくつかのリンクベースを選択してリンク構造を生成するとしてもよい。また、スキーマ220から項目に関する情報を抽出する。スキーマ220には、要素宣言(項目の名前)、型定義(型の名前)、定義内容及び項目の出現順等が記述されている。項目解析部122は、これらの情報を項目の特徴として抽出し、項目・型情報に記録する。さらに、インスタンス文書210に定義される項目の名前、項目の値、出現順等の情報を抽出し、項目値情報も生成しておく。各リンク構造情報、項目・型情報及び項目値情報は、変更情報解析部130に通知する。
変更情報解析部130は、文書変更箇所検出部131及び項目変更箇所検出部132を有し、変更前と変更後の文書データを比較し、差異から変更箇所を検出する。文書変更箇所検出部131は、データ構造解析部120が生成した変更前の文書参照構造情報と、変更後の文書参照構造情報とに基づき、変更前の文書と変更後の文書の文書識別子を比較する。第2の実施の形態では、文書識別子は、インスタンス文書210、スキーマ220、リンクベース231〜235の文書名(ファイル名)になる。変更前と変更後で文書識別子が一致すれば、この文書を対応付け、文書参照構造比較結果151のマッチする情報に文書名を登録する。変更前のXBRLデータのみに存在する文書名が検出されれば、この文書名を文書参照構造比較結果151の削除された情報に登録する。変更後のXBRLデータのみに存在する文書名は、文書参照構造比較結果151の追加された情報に登録する。なお、生成した文書参照構造比較結果151は、変更前と変更後のファイルを対応付けた第1の実施の形態のファイル対応表と同様である。項目変更箇所検出部132は、データ構造解析部120が生成した変更前の項目・型情報に登録されている項目の項目識別子と、変更後の項目・型情報とに登録されている項目の項目識別子とを比較する。同じ項目識別子の項目が検出されたときは、これを対応付け、項目・型情報比較結果152のマッチする情報に項目名を登録する。変更前のXBRLデータのみに存在する項目が検出されれば、この項目を項目・型情報比較結果152の削除された情報に登録する。変更後のXBRLデータのみに存在する項目は、項目・型情報比較結果152の追加された情報に登録する。さらに、変更前の項目値情報に登録されている項目の項目識別子と、変更後の項目値情報に登録されている項目の項目識別子と、を比較する。同じ項目識別子の項目を対応付け、項目値比較結果153のマッチする情報に項目名を登録し、変更前の項目値と変更後の項目値を抽出して変更内容として記録する。変更前のXBRLデータのみに存在する項目が検出されれば、この項目を項目値比較結果153の削除された情報に登録する。変更後のXBRLデータのみに存在する項目は、項目値比較結果153の追加された情報に登録する。なお、生成した項目・型情報比較結果152及び文書参照構造比較結果153は、変更前と変更後のファイルを対応付けた第1の実施の形態の項目対応表と同様である。
情報マッチング部140は、文書マッチング部141及び項目マッチング部142を有し、変更情報解析部130によって対応付けができなかった未対応文書及び未対応項目の対応付けを行う。文書マッチング部141は、変更情報解析部130によって、文書参照構造比較結果151に削除された情報として登録された文書(以下、削除された文書とする)と、追加された情報として登録された文書(以下、追加された文書とする)と、の対応付けを行う。削除された文書及び追加された文書それぞれの文書参照構造を文書参照構造情報より抽出する。例えば、削除された文書と親子関係・兄弟関係を有する文書名と、追加された文書と親子関係・兄弟関係を有する文書名とを照合し、共通する文書名があるかどうかを判定する。照合した文書名が全て一致すれば、親が共通すると判定し、削除された文書と追加された文書とを対応付け、文書参照構造比較結果151のマッチする情報に記録する。また、削除された情報及び追加された情報からは、この文書の登録を削除する。項目マッチング部142は、項目・型情報比較結果152及び項目値比較結果153に、削除された情報として登録された項目(以下、削除された項目とする)と、追加された情報として登録された項目(以下、追加された項目とする)と、の対応付けを行う。削除された項目及び追加された項目のリンク構造情報を抽出し、削除された項目のリンクの親子・兄弟関係と、追加された項目の親子・兄弟関係を照合し、共通するかどうかを判定する。共通すると判定された場合は、削除された項目と追加された項目とを対応付け、項目・型情報比較結果152及び項目値比較結果153のマッチする情報に記録する。また、削除された情報及び追加された情報からは、この項目の登録を削除する。なお、XBRLデータでは、複数のリンク構造が存在する。例えば、表示リンク、計算リンク及び定義リンクの親子関係や兄弟関係には会計的な意味が存在するため、項目間に同じ関係が記述されている場合が多い。このため、表示リンク、計算リンク及び定義リンクにおいて項目間の関係が一致すれば、ほとんどの場合項目が一致すると見なすことができる。また、複数のリンク構造それぞれについてマッチする項目を候補として検出しておき、1つのリンク構造で候補となったときを確度10とし、それぞれの候補について確度を算出する。例えば、表示リンク、計算リンク及び定義リンクでマッチする項目の候補となれば、確度は10+10+10で30になる。なお、確度は、全てのリンク構造で同じ値としてもよいし、リンク構造の種類によって変えてもよい。さらに、学習機能を設け、リンク構造ごとの確度を適宜変更してもよい。
記憶部150は、変更情報として、変更前のXBRLデータと、変更後のXBRLデータとを比較した比較結果情報が格納される。文書参照構造比較結果151には、文書変更箇所検出部131及び文書マッチング部141によって検出された変更前と変更後の文書の対応関係が設定される。項目・型情報比較結果152には、項目変更箇所検出部132及び項目マッチング部142によって検出された変更前と変更後の項目の対応関係が設定される。項目値比較結果153には、項目変更箇所検出部132及び項目マッチング部142によって検出された変更前と変更後の項目の対応関係が項目値とともに設定される。
このような構成の解析装置100による解析処理をXBRLデータの具体例を用いて説明する。解析装置100は、キーボード22、マウス23、あるいはネットワーク30を介して端末装置40から比較対象の文書の指定を入力する。比較対象として、変更前と変更後のインスタンス文書あるいはスキーマが指定される。ここでは、変更前の文書として2007年度報告書のインスタンス文書、変更後の文書として2008年度報告書のインスタンス文書が指定されるとする。もちろん、スキーマであってもよい。また、リンクベースが指定されたときは、文書参照構造全体を解析し、リンクが貼られていないスキーマをルートとして検出するとしてもよい。
図5は、報告書のインスタンス文書の一例を示した図である。(A)は2007年度インスタンス文書(instance2007.xbrl)、(B)は2008年度インスタンス文書(instance2008.xbrl)を示している。なお、()内は、インスタンス文書のファイル名(文書名)になる。
(A)2007年度インスタンス文書(instance2007.xbrl)400には、3つの項目と、その項目値とが記述されている。項目“Assets”の項目値には「100」、項目“CurrentAsset”の項目値には「50」、項目“NonCurrentAssets”の項目値には「50」が設定されている。(B)2008年度インスタンス文書(instance2008.xbrl)500には、同様に、3つの項目について、“Assets”には「200」、“CurrentAssets”には「100」、“NonCurrentAssets”には「100」が設定されている。
例えば、単純なマッチング処理を行った場合、2007年度インスタンス文書400の“Assets”及び“NonCurrentAssets”と、2008年度インスタンス文書500の“Assets”及び“NonCurrentAssets”とは、識別子が同じであるため同じ項目であるとわかる。しかし、2007年度インスタンス文書400の“CurrentAsset”と、2008年度インスタンス文書500の“CurrentAssets”とが同じ項目であるかどうかはわからない。
解析装置100は、2007年度の報告書と、2008年度の報告書とを比較し、変更箇所と変更内容とを解析する。データ構造解析部120は、指定された2007年度インスタンス文書400と、このインスタンス文書400に関連するタクソノミ文書(スキーマ、リンクベース)とをXBRLデータ記憶装置110から読み出す。同様に、2008年度インスタンス文書500と、このインスタンス文書500に関連するタクソノミ文書とをXBRLデータ記憶装置110から読み出す。
文書参照構造解析部121は、読み出した2007年度報告書の文書間の参照関係と、2008年度報告書の文書間の参照関係をそれぞれ解析し、文書間の参照構造を検出する。例えば、読み出したスキーマを解析し、スキーマで参照するリンクベースを、スキーマと親子関係を有する文書として検出する。なお、XBRLデータには、通常のタクソノミに加え、拡張タクソノミを定義することができる。対象のXBRLデータに拡張タクソノミが含まれている場合には、拡張タクソノミの文書を含めて文書間の参照構造を解析する。こうして、変更前の2007年度報告書及び変更後の2008年度報告書それぞれの文書間の参照構造を把握する。
図6は、XBRLデータの文書参照構造情報の一例を示した図である。(A)は2007年度報告書の文書参照構造情報、(B)は2008年度報告書の文書参照構造情報を示している。なお、図6は、検出された参照関係のツリー構造を表している。また、(B)の文字の下の下線は、(A)の記述と異なる部分を示しているもので、実際のXBRLデータには含まれていない。以下の図面についても、同様の記号を用いるとする。
(A)2007年度報告書の文書参照構造情報410は、2007年度報告書のXBRLデータの文書構造を示す。インスタンス文書“instance2007.xbrl”400に対応付けられているスキーマ“schema2007.xsd”は、タクソノミ文書のルートである。図6は、インスタンス文書“instance2007.xbrl”が参照構造のルートであることを示している。なお、ルートとは、他の文書からリンクが貼られていない文書である。スキーマ“schema2007.xsd”は、インスタンス文書“instance2007.xbrl”から参照される。さらに、表示リンク“presentation2007.xml”及び参照リンク“reference2007.xml”は、スキーマ“schema2007.xsd”から参照されるという構造を有する。(B)2008年度報告書の文書参照構造情報510は、2008年度報告書のXBRLデータの文書構造を示す。インスタンス文書“instance2008.xbrl”が参照構造のルートである。また、スキーマ“schema2008.xsd”は、インスタンス文書“instance2008.xbrl”から参照される。さらに、表示リンク“presentation2008.xml”及び参照リンク“reference2007.xml”がスキーマ“schema2008.xsd”から参照されるという構造である。文書参照構造情報410,510は、変更情報解析部130に通知する。また、変更情報解析部130を介してモニタ21に文書参照構造を表示したり、端末装置40に送信して端末装置40に表示させたりして、利用者に報告するとしてもよい。
続いてデータ構造解析部120は、それぞれのXBRLデータのスキーマ及びリンクベースを解析し、XBRLデータに含まれる項目の項目識別子と型情報、項目値を抽出するとともに、この項目と他の項目や情報データとを対応付けるリンク構造を解析する。
図7は、スキーマから抽出した項目・型情報一例を示した図である。(A)は2007年度報告書の項目・型情報(schema2007.xsd)、(B)は2008年度報告書の項目・型情報(schema2008.xsd)を示している。なお、()内の文書名は参照したスキーマのファイル名である。
スキーマには、XML形式で項目の識別子や型が定義されている。項目解析部122は、これを解析して項目・型情報を生成する。(A)2007年度報告書の項目・型情報(schema2007.xsd)420には、“Assets”の型が「金額型」、“CurrentAsset”の型が「10進数数値型」、“NonCurrentAssets”の型が「10進数数値型」であるという項目・型情報が登録されている。(B)2008年度報告書の項目・型情報(schema2008.xsd)520には、“Assets”の型が「金額型」、“CurrentAssets”の型が「金額型」、“NonCurrentAssets”の型が「金額型」であるという項目・型情報が登録されている。
図8は、表示リンク構造情報の一例を示した図である。(A)は2007年度報告書の表示リンク構造情報(presentation2007.xml)、(B)は2008年度報告書の表示リンク構造情報(presentation2008.xml)を示している。なお、()内の文書名は参照した表示リンクのファイル名である。
表示リンクには、XML形式で項目の表示の順番や親子関係が定義されている。項目解析部122は、これを解析して表示リンク構造情報を生成する。(A)2007年度報告書の表示リンク構造情報(presentation2007.xml)430には、表示上、“Assets”と、“CurrentAsset”及び“NonCurrentAssets”が親子関係にあることを示している。また、“CurrentAsset”と“NonCurrentAssets”では、“CurrentAsset”が先に表示されることを示している。(B)2008年度報告書の表示リンク構造情報(presentation2008.xml)530には、表示上、“Assets”と、“CurrentAssets”及び“NonCurrentAssets”が親子関係にあることを示している。また、“CurrentAssets”と“NonCurrentAssets”では、“CurrentAssets”が先に表示されることを示している。
図9は、参照リンク構造情報の一例を示した図である。(A)は2007年度報告書の参照リンク構造情報(reference2007.xml)、(B)は2008年度報告書の参照リンク構造情報(reference2007.xml)を示している。なお、()内の文書名は、参照した参照リンクのファイル名である。
参照リンクには、項目の定義の根拠となった文献情報が定義されている。項目解析部122は、これを解析し、表示リンク構造情報を生成する。(A)2007年度報告書の参照リンク構造情報(reference2007.xml)440は、“Assets”の参照文献は「財務諸表等規則、様式第A号」、“CurrentAsset”の参照文献は「財務諸表等規則、様式第B号」、“NonCurrentAssets”の参照文献は「財務諸表等規則、様式第C号」であることを示している。(B)2008年度報告書の参照リンク構造情報(reference2007.xml)540は、“Assets”の参照文献は「財務諸表等規則、様式第A号」、“CurrentAssets”の参照文献は「財務諸表等規則、様式第B号」、“NonCurrentAssets”の参照文献は「財務諸表等規則、様式第C号」であることを示している。
なお、上記の処理では、表示リンクと参照リンクについて説明したが、計算リンク、定義リンク及び名称リンクについても同様にしてリンク構造を解析し、リンク構造情報を生成するとしてもよい。また、確度の高いリンクを選択的に用いてリンク構造情報を生成するとしてもよい。確度は、項目の対応付けの根拠としての確度を意味し、確度が高いほど対応付けられた項目が同じ項目である可能性が高い。
図10は、項目値情報の一例を示した図である。(A)は2007年度報告書の項目値情報(instance2007.xml)、(B)は2008年度報告書の項目値情報(instance2008.xml)を示している。なお、()内は情報を抽出したインスタンス文書のファイル名である。
インスタンス文書400,500には、項目の値が定義されている。項目解析部122は、項目の値等を抽出し、項目値情報を生成する。(A)2007年度報告書の項目値情報(instance2007.xml)450は、“Assets”の項目値は「100」、“CurrentAsset”の項目値は「50」、“NonCurrentAssets”の項目値は「50」であることを示している。(B)2008年度報告書の項目値情報(instance2008.xml)550は、“Assets”の項目値は「200」、“CurrentAssets”の項目値は「100」、“NonCurrentAssets”の項目値は「100」であることを示している。
こうして生成した文書参照構造情報410,510、項目・型情報420,520、表示リンク構造情報430,530、参照リンク構造情報440,540及び項目値情報450,550は、変更情報解析部130に送る。
変更情報解析部130は、変更前のXBRLデータと変更後のXBRLデータとを比較し、変更箇所と変更内容を検出する。ここでは、データ構造解析部120から取得した文書参照構造情報410,510、項目・型情報420,520、表示リンク構造情報430,530、参照リンク構造情報440,540及び項目値情報450,550を用いて解析処理を行う。以下の説明では、簡単のため2007年度報告書を変更前、2008年度報告書を変更後と表記する。
文書変更箇所検出部131は、文書参照構造情報410,510に基づいて、文書識別子(ファイル名)を比較する。比較対象の変更前と後のインスタンス文書あるいはスキーマは、利用者が指定する。その結果、指定された変更前後の文書名及びスキーマの名前空間URIはマッチングされる。例えば、変更前のスキーマ“schema2007.xsd”と、変更後の“schema2008.xsd”を利用者が指定すると、その文書名はマッチする情報として文書参照構造比較結果に記録する。また、名前空間URIである“/2007”及び“/2008”も、マッチする情報として記録する。同様にして、変更前のインスタンス文書“instance2007.xbrl”と、変更後のインスタンス文書“instance2008.xbrl”もマッチする情報として記録する。
さらに、変更前の文書参照構造情報410と、変更後の文書参照構造情報510とをデータ構造に従って順に比較していく。インスタンス文書及びスキーマの次には、スキーマから参照される表示リンクを比較する。表示リンクは、変更前が“presentation2007.xml”、変更後が“presentation2008.xml”でありマッチするが、ここでは説明のため、マッチしないと判定されるとする。次の参照リンクは、変更前も変更後もともに“reference2007.xml”であり、マッチする情報と判定する。
なお、上記ではインスタンス及びタクソノミについて比較を行う場合で説明したが、タクソノミだけを用いて比較を行うとしてもよい。
図11は、変更情報解析処理後の文書参照構造比較結果を示した図である。文書参照構造比較結果151aは、文書変更箇所検出部131が、文書識別子に基づいて変更前後の文書を比較した比較結果である。
文書参照構造比較結果151aは、削除された情報1511、追加された情報1512、マッチする情報1513及び変更内容1514の情報を記録する。削除された情報1511には、変更前のXBRLデータには存在するが、変更後のXBRLデータには存在しない情報の名前(識別子)を設定する。追加された情報1512には、削除された情報1511とは逆に、変更前のXBRLデータには存在せず、変更後のXBRLデータには存在する情報の名前(識別子)を設定する。マッチする情報1513には、変更前のXBRLデータと変更後のXBRLデータの両方に存在する情報の名前(識別子)を設定する。変更内容1514には、その変更内容を設定する。文書参照構造比較結果151aでは、変更前のインスタンス文書“instance2007.xbrl”と変更後のインスタンス文書“instance2008.xbrl”、変更前のスキーマ“schema2007.xsd”と変更後の“schema2008.xsd”、及び変更前と変更後で同一の参照リンク“reference2007.xml”がマッチする情報1513に登録されている。また、変更内容1514には、インスタンス文書及びスキーマの文書名の名前変更URIが変更されていることが記録されている。対応付けができなかった表示リンクは、“presentation2007.xml”が削除された情報1511に、“presentation2008.xml”が追加された情報1512に登録されている。
項目変更箇所検出部132は、項目・型情報420,520に基づいて、変更前のXBRLデータと変更後のXBRLデータの項目識別子(項目名)を比較する。変更前の項目・型情報420の“Assets”及び“NonCurrentAssets”は、変更後の報告書の項目・型情報520にも存在する。したがって、“Assets”及び“NonCurrentAssets”は、マッチする情報と判定する。“CurrentAsset”は、変更前の項目・型情報420にのみ存在するので、削除された情報とする。また、“CurrentAssets”は、変更後の項目・型情報520にのみ存在するので、追加された情報と判定する。
図12は、変更情報解析処理後の項目・型情報比較結果を示した図である。項目・型情報比較結果152aは、項目変更箇所検出部132が、項目識別子に基づいて変更前後の項目・型情報420,520の項目を比較した比較結果である。
項目・型情報比較結果152aは、削除された情報、追加された情報、マッチする情報及び変更内容の登録欄がある。それぞれの内容は、図11の文書参照構造比較結果151aと同様であるので説明は省略する。上述のように、項目変更箇所検出部132によって、変更前のXBRLデータと変更後のXBRLデータとの間で項目の識別子が一致すると判定された“Assets”及び“NonCurrentAssets”は、マッチする情報1523に登録する。また、マッチする情報として登録した項目については、スキーマの記述内容が変更されていないかどうか、解析処理を行う。“NonCurrentAssets”については、型が「10進数数値型」から「金額型」に変更されているので、変更内容1524に「型」が変更されたことを記録する。また、変更前の項目・型情報420のみに存在する“CurrentAsset”は、削除された情報1521に登録する。そして、変更後の項目・型情報520にのみ存在する“CurrentAssets”は、追加された情報1522に登録する。
項目変更箇所検出部132は、さらに、項目値情報450,550について、変更前のXBRLデータと変更後のXBRLデータの項目識別子(項目名)を比較する。変更前の項目値情報450の“Assets”及び“NonCurrentAssets”は、変更後の項目値情報550にも存在する。したがって、“Assets”及び“NonCurrentAssets”は、マッチする情報と判定する。“CurrentAsset”は、変更前の項目値情報450にのみ存在するので、削除された情報とする。また、“CurrentAssets”は、変更後の項目値情報540にのみ存在するので、追加された情報と判定する。
図13は、変更情報解析処理後の項目値比較結果を示した図である。項目値比較結果153aは、項目変更箇所検出部132が、項目識別子に基づいて変更前後の項目値情報450,550の項目を比較した比較結果である。
項目値比較結果153aは、削除された情報、追加された情報、マッチする情報及び変更内容の登録欄がある。それぞれの内容は、図11の文書参照構造比較結果151aと同様であるので説明は省略する。上述のように、項目変更箇所検出部132によって、項目の識別子が一致すると判定された“Assets”及び“NonCurrentAssets”は、マッチする情報1533に登録する。また、マッチする情報として登録した項目については、インスタンス文書の記述内容が変更されていないかどうか、解析処理を行う。“Assets”については、項目値が「100」から「200」に変更されているので、変更内容1534に変更内容を記録する。“NonCurrentAssets”については、項目値が「50」から「100」に変更されているので、同様に、変更内容1534に変更内容を記録する。また、変更前の項目値情報450のみに存在する“CurrentAsset”は、削除された情報1531に登録する。そして、変更後の項目値情報550にのみ存在する“CurrentAssets”は、追加された情報1532に登録する。なお、項目値比較結果153aの削除された情報、追加された情報及びマッチする情報は、項目・型情報比較結果152aと同じになる。したがって、マッチする情報の変更内容のみ抽出し、登録を行うとしてもよい。
以上の処理手順が実行されることにより、XBRL文書及びXBRL文書の項目という情報データに関し、それぞれの識別子に基づいて、変更前の情報データと変更後の情報データとの対応付けが行われる。そして、それぞれ変更前のXBRLデータにのみ存在する削除された情報、変更後のXBRLデータにのみ存在する追加された情報、または変更前と変更後のXBRLデータに存在するマッチする情報のいずれかに分類される。さらに、変更前と変更後とで変わらないマッチする情報については、変更前と変更後との変更内容の解析処理を行い、変更内容として記録する。こうして生成した文書参照構造比較結果151、項目・型情報比較結果152及び項目値比較結果153は、記憶部150に格納し、情報マッチング部140に引き継ぐ。
情報マッチング部140は、文書参照構造比較結果151、項目・型情報比較結果152及び項目値比較結果153に基づき、変更情報解析部130において対応付けができなかったXBRL文書及び項目のマッチング処理を行う。
文書マッチング部141は、文書参照構造比較結果151に基づき、対応付けがされていない変更前のXBRL文書と変更後のXBRL文書とを対応付ける。図11に示した文書参照構造比較結果151aでは、削除された情報として表示リンク“presentation2007.xml”、追加された情報として表示リンク“presentation2008.xml”が対応付けされずに残っている。文書マッチング部141では、文書参照構造情報410,510に基づき、“presentation2007.xml”と、“presentation2008.xml”の等価性(同じものである確度)を解析する。例えば、文書参照構造情報410には、変更前のスキーマ“schema2007.xsd”が表示リンク“presentation2007.xml”を参照していることが記述されている。同様に、文書参照構造情報510には、変更後のスキーマ“schema2008.xsd”が表示リンク“presentation2008.xml”を参照していることが記述されている。両者とも表示リンクを1つだけ参照していることから、“presentation2007.xml”と、“presentation2008.xml”とはマッチする情報と推測する。なお、この対応関係が正しいかどうかを利用者に確認してもらうとすることもできる。例えば、モニタ21あるいは端末装置40にマッチした情報を提示して利用者に報告し、利用者の確認を取得する。利用者が正しいと確認すれば、マッチする情報として文書参照構造比較結果151aに登録する。利用者が正しくないと確認すれば、マッチしない情報として、文書参照構造比較結果151aの削除された情報と追加された情報にそれぞれ登録する。また、マッチする情報として利用者に報告した後、必要に応じて利用者に修正させるようにすることもできる。
利用者によって変更前の“presentation2007.xml”と、変更後の“presentation2008.xml”との対応付けが正しいと確認された場合の文書参照構造比較結果を示す。図14は、情報マッチング処理後の文書参照構造比較結果を示した図である。
文書参照構造比較結果151bでは、削除された情報に登録されていた変更前の“presentation2007.xml”と、追加された情報に登録されていた変更後の“presentation2008.xml”とが、マッチする情報に登録されている。また、マッチする情報として新たに登録したXBRL文書については、変更情報解析部130が変更内容解析処理を行う。変更前の“presentation2007.xml”と変更後の“presentation2008.xml”については、文書名が変更になっているので、変更内容には「文書名」を登録する。
このように、XBRL文書名が変更された場合であっても、XBRL文書間の参照関係に基づいて意味的に等価なペアを対応付けることにより、利用者は、変更前のXBRL文書と変更後のXBRL文書とを把握することができる。この結果、多数あるXBRL文書から変更前と変更後でマッチする文書を見つける作業を行う必要がなくなり、利用者の作業効率が向上する。
次に、項目マッチング部142は、項目・型情報比較結果152a及び項目値比較結果153aに基づいて、未対応の項目の等価性の解析を行う。項目マッチング部142では、項目解析部122が検出したリンク構造情報に基づいて項目の等価性を解析する。
ここでは、図8に示した表示リンク構造情報430,530に基づいて、項目・型情報比較結果152aの未対応項目の対応付けを行う場合を例に説明する。表示リンク・計算リンク・定義リンクでは、定義されている項目のリンクの順番から項目をマッチングさせることが可能である。例えば、変更前の表示リンク構造情報430では、“Asset”の子供として“CurrentAsset”、“NonCurrentAssets”の順番に項目がリンクされている。このうち、“CurrentAsset”が削除された情報になっている。一方、変更後の表示リンク構造情報530では、“Asset”の子供として“CurrentAssets”、“NonCurrentAssets”の順番に項目がリンクされている。したがって、リンクの親子・兄弟関係から、“CurrentAsset”と、“CurrentAssets”とはマッチする情報であると推測できる。さらに、計算リンクの親子・兄弟関係または定義リンクの親子・兄弟関係に基づき、同様の処理を行って、項目を対応付けることもできる。前述のように、表示リンク・計算リンク及び定義リンクの親子・兄弟関係は一致する場合が多い。そこで、表示リンクばかりでなく、計算リンク及び定義リンクから同様の対応付けが行えれば、マッチする情報である確度はより高くなる。
また、名称リンク及び参照リンクで定義されている項目のリソースの内容から項目をマッチさせることも可能である。例えば、上記のXBRLデータの参照リンクから生成した参照リンク構造情報440,540に基づいてマッチングを行う場合について説明する。変更前の参照リンク構造情報440の“CurrentAsset”には、参照リンクのリソースとして「財務諸表等規則、様式第B号」が設定されている。同様に、変更後の参照リンク構造情報540の“CurrentAssets”にも、参照リンクのリソースとして「財務諸表等規則、様式第B号」が設定されている。項目の根拠となるリソースが一致していることから、CurrentAsset”と、“CurrentAssets”とはマッチする情報であると推測できる。名称リンク及び参照リンクは、それぞれ項目の名称及び項目の根拠となる法律や文献等と項目とを結び付けている。このため、これが一致するということは、ほとんどの場合、項目が一致していることを意味する。
また、スキーマで定義されている項目の定義順から項目をマッチさせるための補助的な情報を得ることも可能である。例えば、変更前のスキーマに“Asset”、“CurrentAsset”、“NonCurrentAssets”の順に項目が定義されていたとする。同様に、変更後のスキーマに“Asset”、“CurrentAssets”、“NonCurrentAssets”の順番に項目が定義されているとする。この場合、その定義順の関係から、“CurrentAsset”と“CurrentAssets”とはマッチする情報と推測できる。ただし、一般的には、変更によって順番が変わることはないが、スキーマの項目の定義順は意味を持たないため、補助的な情報として利用する。
このように、項目の対応付けは、定義内容の異なるリンクベースやスキーマの定義順等から推測することができる。したがって、マッチする情報と推測した項目のペア候補が複数発生する場合がある。マッチする情報の候補が複数ある場合には、リンクベースの種類等に応じて、確度に重み付けを行い、総合的な確度を算出する。例えば、表示リンク構造、計算リンク構造、及び定義リンク構造に基づいてマッチする情報と推測した場合の確度をそれぞれ「10」、名称リンク構造及び参照リンク構造に基づく場合の確度を「20」とする。また、補助的なスキーマの定義順に基づいてマッチする情報と推測した場合の確度は「1」とする。そして、変更前の未対応項目と変更後の未対応項目の組み合わせに対し、表示リンク構造、計算リンク構造、定義リンク構造、名称リンク構造、参照リンク構造及びスキーマの定義順に確度を計算し、合算した値を総合的な確度とする。詳細は後述する。
こうして検出したマッチする情報の候補が正しいかどうか、モニタ21あるいは端末装置40にマッチする情報の候補を提示して利用者に報告し、利用者の確認を取得するようにしてもよい。候補が1つであれば、これを利用者に提示し確認をとる。利用者が正しいと確認すれば、マッチする情報として項目・型情報比較結果152bに登録する。利用者が正しくないと確認すれば、マッチしない情報として、項目・型情報比較結果152aの削除された情報と追加された情報の登録を維持する。候補が複数であれば、確度の高い順にマッチする候補を提示していく。また、マッチする情報として利用者に報告した後、必要に応じて利用者に修正させるようにすることもできる。
以上の項目マッチング処理の結果として、項目・型情報比較結果を更新する。図15は、情報マッチング処理後の項目・型情報比較結果を示した図である。
項目・型情報比較結果152bでは、項目マッチング部142によって対応付けられた“CurrentAsset”と“CurrentAssets”とが、マッチする情報として記録される。また、変更情報解析部130によるマッチ後の変更内容解析結果が、変更内容に反映される。「項目名」が変更になったことに加え、変更前の項目・型情報420と変更後の項目・型情報520の対応する項目の定義を比較し、「型」が変更になったことを変更内容に記録する。
項目マッチング部142では、項目値比較結果153aについても同様の情報マッチング処理を行う。そして、変更前の項目値情報450の“CurrentAsset”と、変更後の項目値情報550の“CurrentAssets”とが、マッチする情報であることを検出する。なお、情報マッチング処理後の項目・型情報比較結果152bを反映し、項目値比較結果153aを更新するとしてもよい。図16は、情報マッチング処理後の項目値比較結果を示した図である。
項目値比較結果153bでは、項目マッチング部142によって対応付けられた“CurrentAsset”と“CurrentAssets”とが、マッチする情報として記録される。また、変更情報解析部130によって、変更内容には、変更前の項目値情報450の“CurrentAsset”の項目値「50」と、変更後の項目値情報550の“CurrentAssets”の項目値「100」とが記録される。
このように、変更前後で識別子が異なる項目に関しても、変更になった項目の対応付けと、その項目の変更前後の値の比較とを自動で行うことが可能となる。
ここで、マッチする情報の候補の確度算出について説明する。上述のように、項目の情報マッチング処理では、リンクの種類に応じてマッチする情報の候補が複数検出される場合がある。そこで、リンクの種類等に応じて確度に重み付けを行い総合的な確度を算出する。また、リンクの種類に応じた確度の重み付けは事前に指定するか、過去の利用者の選択に応じた学習により定義変更してもよい。
以下、確度の学習について、例を挙げて説明する。変更前のスキーマにおいて、項目“A1”,“B1”,“C1”が設定され、変更後のスキーマにおいて項目“A2”,“B2”,“C2”が設定されていたとする。項目は、“A1”と“A2”、“B1”と“B2”、“C1”と“C2”とがそれぞれ対応する。なお、この例では、スキーマの定義順については省略する。
図17は、マッチする項目の候補とその確度を示した図である。それぞれの表の「表示」、「計算」、「定義」、「名称」、「参照」は、候補の根拠となったリンクを示している。
確度の増加量(初期値)600は、候補となった根拠(リンクの種類)と、その確度の増加量とを示した図である。
“A1”にマッチする項目の候補とその確度601は、リンクの種類ごとに算出した、“A1”と、“A1”とマッチングを行う変更後の項目“A2”,“B2”,“C2”との間のマッチングの確度を示している。“B1”にマッチする項目の候補とその確度602及び“C1”にマッチする項目の候補とその確度603についても同様である。
例えば、“A1”にマッチする項目の候補とその確度601では、表示リンクでは“B2”、計算リンクでは“C2”、定義リンクでは“B2”、名称リンクでは“C2”、参照リンクでは“A2”が候補として選択され、それぞれに確度が設定されている。“B1”にマッチする項目の候補とその確度602では、表示リンクでは“C2”、計算リンクでは“A2”、定義リンクでは“C2”、名称リンクでは“A2”、参照リンクでは“B2”が候補として選択され、それぞれに確度が設定されている。“C1”にマッチする項目の候補とその確度603では、表示リンクでは“A2”、計算リンクでは“B2”、定義リンクでは“A2”、名称リンクでは“B2”、参照リンクでは“C2”が候補として選択され、それぞれに確度が設定されている。
ここで、“A1”にマッチする最有力の候補は、上記の表から合計値の高い“B2”または“C2”となり、利用者に候補が提示される。しかし、実際には“A2”がマッチするため、利用者は、マッチする項目として“A2”を選択する。情報マッチング部140には、正しいマッチする項目として“A2”が報告される。そこで、情報マッチング部140は、正しいマッチする項目の根拠となった参照リンクの確度の増加量を10から20に増加させる。ここでは、参照リンクのみが根拠となっているので、参照リンクのみ確度を増加させている。根拠が複数ある場合は、全てについて確度の増加量を増やす。
図18は、1回目の学習後の確度とマッチする項目の候補とその確度を示した図である。1回目の学習後の確度の増加量610では、参照リンクの確度増加量が10から20に増加している。すると、“B1”にマッチする項目の候補とその確度602の確度の値は、“B1”にマッチする項目の候補とその確度612のように変更される。
“B1”にマッチする最有力の候補は、上記の表から合計値の高い“B2”、“C2”または“A2”となり、利用者に候補が提示される。実際には“B2”がマッチするため、利用者は、マッチする項目として“B2”を選択する。情報マッチング部140には、正しいマッチする項目として“B2”が報告される。そこで、情報マッチング部140は、正しいマッチする項目の根拠となった参照リンクの確度の増加量を20から30に増加させる。
図19は、2回目の学習後の確度とマッチする項目の候補とその確度を示した図である。2回目の学習後の確度の増加量620では、参照リンクの確度増加量が20から30に増加している。すると、“C1”にマッチする項目の候補とその確度603の確度の値は、“C1”にマッチする項目の候補とその確度623のように変更される。これにより、“C1”にマッチする最有力の候補は、上記の表から合計値の高い“C2”のみとなり、実際に対応する“C2”が選ばれる。
学習を行っていない場合には“C2”は最有力の候補にはなっていなかったが、学習によって唯一の最有力候補になる。
なお、マッチする項目が利用者に選択された場合に、確度の増加量をどの程度増やすのかは、システムやデータに応じて自由に決める。また、毎回増やすのではなく、選択結果を累積して、特定のタイミングで増やしてもよい。あるいは、利用者が選択しなかった候補の根拠に対して確度の増加量を減らしてもよい。さらに、候補の中にマッチする項目がなく、かつ利用者が選択自体を行わなかった場合には、全ての候補の根拠に対して確度の増加量を減らしてもよい。また、学習は常に行っている必要はなく、システムやデータの状態あるいは利用者の要求に応じて学習の停止と再開を制御してもよい。あるタイミングで確度の増加量を初期化してもよいし、増加量の初期値は任意に設定することができる。
このように、マッチングの学習を行うことにより、XBRLデータの種類や変更の傾向に応じたマッチング処理を行うことができ、精度の高い比較結果を得ることができる。
ところで、XBRLの特徴の1つに、既存のスキーマやリンクベースに変更を加えずに、タクソノミを拡張できるという拡張タクソノミ機能がある。例えば、図5に示した変更前のインスタンス文書400の項目“CurrentAsset”の表示リンクの子供として“Cash”という項目を加えたいとする。このような場合、拡張タクソノミとして、追加する項目の定義を行う拡張スキーマ(schema−ext.xsd)と、項目の表示位置を定義する拡張表示リンク(presentation−ext.xml)と、項目の名称を定義する拡張名称リンク(label−ext.xml)を生成する。拡張スキーマ(schema−ext.xsd)が、基本となるベースタクソノミのスキーマ(schema2007.xsd)を参照する構成とすることで、変更前のスキーマの内容を変更することなく、新たな項目を追加することができる。
ここで、変更後のインスタンス文書500では、同じ意味を持つ項目が“CurrentAssets”に変更される。したがって、拡張タクソノミで定義されている“Cash”を“CurrentAssets”の子供に変更しなければならない。しかしながら、従来の処理では、変更前の“CurrentAsset”と対応する変更後の項目は利用者が探さなければならず、煩雑な作業が必要であった。解析装置100では、変更前の“CurrentAsset”と、変更後の“CurrentAssets”とがマッチする項目であることを自動的に検出し、利用者に報告する。利用者は、この情報を確認し、拡張タクソノミを適切に修正することができる。このように、変更内容について解析を行うことができるため、拡張タクソノミが参照しているベースタクソノミの項目の名前が変更されても、参照を適切に修正することができる。また、比較処理は、拡張タクソノミも対象となる。したがって、監査業務等において、再提出された報告書で拡張タクソノミの項目の名前が変更されていた場合であっても、解析装置100により、項目の名前が変更されたという事実及び項目の変更内容を把握することができる。さらに、タクソノミ開発等において、項目の名前が変更された場合であっても、変更前の項目と変更後の項目を並べて表示することができる。利用者は、表示により変更内容を確認することができる。
以上のように、解析装置100によれば、情報の識別子が変更されていても、意味的に等価な情報のペアを自動的に検出し、その変更箇所と変更内容を解析して利用者に報告することができる。これにより、利用者は、管理業務や監査業務、タクソノミの開発等、さまざまな場面において、変更内容の確認が容易になり、作業の負担が軽減される。
次に、解析装置100の実行する処理手順を、フローチャートを用いて説明する。
図20は、解析装置の処理全体を示したフローチャートである。
[ステップS01] 解析装置100は、キーボード22、マウス23を介して直接、あるいはネットワーク30を介して端末装置40から解析の対象の文書名と、解析指示を取得する。例えば、比較対象のインスタンス文書名あるいは、スキーマ名を取得する。
[ステップS02] データ構造解析部120は、ステップS01で取得した対象文書名に基づき、比較対象である変更前後のXBRLデータをXBRLデータ記憶装置110から読み込む。ステップS01でリンクベースが指定されたときは、文書間の参照関係を解析し、スキーマ名を特定する。
[ステップS03] データ構造解析部120は、ステップS02で読み出した変更前後のXBRLデータの構造を解析し、項目関連情報を抽出するデータ構造解析処理を行う。処理が実行されると、文書間の参照関係に基づく文書構造を示した文書参照構造情報、項目の定義情報を抽出した項目・型情報、項目値を抽出した項目値情報及び項目間のリンク構造を示したリンク構造情報が生成される。処理の詳細は後述する。
[ステップS04] 変更情報解析部130は、ステップS03で生成された情報を用いて変更箇所の解析処理を行う。このとき、対応付けができた項目については、変更内容の解析も行う。処理を実行すると、変更前のXBRLデータと変更後のXBRLデータとを比較した比較結果が生成される。ここでは、文書参照構造比較結果151、項目・型情報比較結果152及び項目値比較結果153が得られる。処理の詳細は後述する。
[ステップS05] 情報マッチング部140は、ステップS04の処理で検出された変更前後のXBRLデータで対応付けができなかった未対応文書及び未対応項目について、マッチング処理を行う。処理を実行すると、変更前の未対応文書と変更後の未対応文書、変更前の未対応項目と変更後の未対応項目、がそれぞれ対応付けられる。処理の詳細は後述する。
[ステップS06] 変更情報解析部130は、ステップS05において新たに対応付けられた項目について、変更内容を解析する。
[ステップS07] 変更情報解析部130は、上記の処理手順により検出した変更箇所と変更内容に関する解析結果をモニタ21に表示し、利用者に結果を報告する。また、ネットワーク30を介して利用者の端末装置40に送信し、端末装置40が利用者に結果を報告するとしてもよい。解析の結果、変更前にのみ存在した情報(文書及び項目)は、削除された情報として利用者に報告する。変更後にのみ存在した情報は、追加された情報として利用者に報告する。変更の前後に存在した情報は、内容が変更された情報として利用者に報告する。また、マッチング処理によってマッチした情報も、内容が変更された情報として利用者に報告する。
以上の処理手順が実行されることにより、変更前後で情報の識別子が変更されていても意味的に等価な情報のペアを自動的に検出し、対応付けることができる。これにより、変更箇所の特定ばかりでなく、変更内容についても解析を行い、解析結果を利用者に報告することができる。この結果、利用者は、解析装置10がマッチさせた情報や変更内容の確認だけを行えばよく、従来のように多数ある情報からマッチする候補を見つける作業から解放される。
以下、データ構造解析処理(ステップS03)、変更箇所解析処理(ステップS04)及びマッチング処理(ステップS05)の処理について説明する。
図21は、データ構造解析処理の手順を示したフローチャートである。
データ構造解析部120では、読み込んだXBRLデータの解析処理を行う。
[ステップS31] 文書参照構造解析部121は、読み込んだ対象のXBRLデータに含まれる文書間の参照関係を解析し、参照関係に基づく文書の参照構造を検出する。そして、検出した文書の参照構造に関する文書参照構造情報410,510を生成する。XBRLデータに拡張タクソノミが含まれていたときは、拡張タクソノミを含めて文書の参照構造を解析する。そして、報告が指定されていたときは、生成した文書参照構造情報410,510を要求元の装置に送出する。要求元の装置では、取得した文書参照構造情報410,510に基づく画面を表示し、利用者に解析結果を報告することができる。
[ステップS32] 項目解析部122は、読み込んだXBRLデータに含まれるスキーマから、項目や型の名前、定義内容、出現順等のスキーマに定義されている項目の関連情報を抽出する。そして、抽出した情報を項目・型情報420,520に登録する。報告が指定されていたときは、要求元に項目・型情報420,520を送信するとしてもよい。
[ステップS33] 項目解析部122は、さらに、読み込んだXBRLデータに含まれる各リンクベースから、リンクベースに定義されるリンク構造を解析する。そして、解析結果に基づいて、リンクごとにリンク構造情報を生成する。例えば、表示リンクであれば、表示リンク構造情報430,530、参照リンクであれば、参照リンク構造情報440,540を生成する。必要に応じて、計算リンク、定義リンク及び名称リンクについても同様にリンク構造情報を生成する。報告が指定されていたときは、要求元にリンク構造情報を送信するとしてもよい。
[ステップS34] 項目解析部122は、読み込んだXBRLデータに含まれるインスタンス文書から、項目の値、参照するコンテキスト、出現順等を抽出する。そして、抽出した情報から項目値情報を生成する。報告が指定されていたときは、要求元に項目値情報を送信するとしてもよい。
以上の処理手順が実行されることにより、対象のXBRLデータの文書間の参照構造を解析した文書参照構造情報が生成される。また、リンクベースに基づいてリンク構造を解析したリンク構造情報が生成されるとともに、各項目の情報を抽出した項目・型情報及び項目値情報が生成される。
図22は、変更箇所解析処理の手順を示したフローチャートである。
[ステップS41] 変更情報解析部130は、データ構造解析部120が生成した変更前と変更後のデータの構造情報を取得する。例えば、変更前の文書参照構造情報410、項目・型情報420、項目値情報450と、変更後の文書参照構造情報510、項目・型情報520、項目値情報550と、を取得する。
[ステップS42] 変更情報解析部130は、ステップS41で取得した変更前のデータの構造情報と、変更後のデータの構造情報とを比較する。変更前の文書参照構造情報410と変更後の文書参照構造情報510は、参照構造に基づいて、文書の文書識別子(文書名)を比較する。変更前の項目・型情報420と変更後の項目・型情報520は、項目の識別子(項目名)を比較する。変更前の項目値情報450と変更後の項目値情報550は、項目の識別子(項目名)を比較する。
[ステップS43] 変更情報解析部130は、ステップS42の比較の結果、情報の識別子が変更前のみに存在し、変更後には存在しないかどうかを判定する。情報の識別子が変更前のみに存在するときは、処理をステップS45に進める。それ以外は、処理をステップS44に進める。
[ステップS44] 変更情報解析部130は、情報の識別子が変更前のみに存在するのでないときは、情報の識別子が変更後にのみ存在しないかどうかを判定する。情報の識別子が変更後のみに存在するときは、処理をステップS46に進める。それ以外は、処理をステップS47に進める。
[ステップS45] 変更情報解析部130は、情報の識別子が変更前のみに存在するときは、この情報を削除された情報と判定し、比較結果に登録する。その後、処理をステップS48に進める。
[ステップS46] 変更情報解析部130は、情報の識別子が変更後のみに存在するときは、この情報を追加された情報と判定し、比較結果に登録する。その後、処理をステップS48に進める。
[ステップS47] 変更情報解析部130は、情報の識別子が変更前及び変更後に存在するときは、この情報を内容が変更された情報と判定し、比較結果に登録する。なお、情報の識別子が一致した情報については、変更内容も解析し、比較結果に登録する。
[ステップS48] 変更情報解析部130は、全情報について比較処理が終了したかどうかを判定する。終了していないと判定したときは、ステップS42に戻って、次の情報のチェックを行う。終了していると判定したときは、処理を終了する。
以上の処理手順が変更前の文書参照構造情報410と変更後の文書参照構造情報510に適用されて、文書参照構造比較結果151が生成される。また、変更前の項目・型情報420と変更後の項目・型情報520に適用されて、項目・型情報比較結果152が生成される。さらに、変更前の項目値情報450と変更後の項目値情報550に適用されて、項目値比較結果153が生成される。
以下、マッチング処理について説明する。ここでは、マッチング処理を、文書の等価性解析と、項目の等価性解析に分けて説明する。
図23は、マッチング(文書の等価性解析)処理の手順を示したフローチャートである。
[ステップS501] 文書マッチング部141は、XBRLデータの変更前の文書参照構造情報410及び変更後の文書参照構造情報510と、文書参照構造比較結果151aとを取得する。
[ステップS502] 文書マッチング部141は、文書参照構造比較結果151aから、追加された情報に登録されている文書名と、削除された情報に登録されている文書名と、を1つずつ抽出する。抽出した文書を対象文書とする。
[ステップS503] 文書マッチング部141は、文書参照構造情報410,510に基づき、抽出した対象文書それぞれについて、参照関係において親となる文書名及び兄弟となる文書名を抽出する。
[ステップS504] 文書マッチング部141は、ステップS503で抽出した対象文書双方の親の文書名と、兄弟の文書名と、が一致、または所定のマッチング条件を満たすかどうか確認する。マッチング条件として、例えば、一致しない文書が拡張タクソノミであればよい等、マッチすると見なす条件を予め決めておく。マッチすると判定したときは、処理をステップS505に進める。マッチしないと判定したときは、処理をステップS506に進める。
[ステップS505] 文書マッチング部141は、対象文書がマッチすると判定したときは、変更前後の対象文書をマッチする情報として報告する。対象文書を文書参照構造比較結果151aの削除された情報及び追加された情報から削除し、マッチする情報に登録する。なお、登録の前に、利用者にマッチすると判定した文書を提示し、マッチングが正しく行われたかどうかを確認してもらうようにしてもよい。利用者によってマッチしないと指示されたときは、登録は中止する。
[ステップS506] 文書マッチング部141は、全ての文書についてマッチング処理を終了したかどうかを判定する。終了していないときは、処理をステップS502に戻し、次の対象文書の選択からの処理を行う。終了しているときは、文書のマッチング処理を終了する。
以上の処理手順が実行されることにより、識別子は異なるが等価な文書がマッチングされ、比較結果に反映される。こうして、文書参照構造比較結果151bが得られる。
図24は、マッチング(項目の等価性解析)処理の手順を示したフローチャートである。なお、以下の説明では、簡単のため、項目・型情報比較結果152aのマッチング処理について説明する。項目値比較結果153aでも同様の処理を行うことができる。
[ステップS511] 項目マッチング部142は、XBRLデータの変更前のデータの構造情報及び比較結果と、変更後のデータの構造情報及び比較結果と、を取得する。例えば、データの構造情報として、変更前の表示リンク構造情報430及び参照リンク構造情報440と、変更後の表示リンク構造情報530及び参照リンク構造情報540と、を取得する。また、比較結果として、項目・型情報比較結果152aを取得する。
[ステップS512] 項目マッチング部142は、項目・型情報比較結果152aから、追加された情報に登録されている項目名と、削除された情報に登録されている項目名と、を1つずつ抽出する。抽出した項目を対象項目とする。
[ステップS513] 項目マッチング部142は、表示リンク構造情報430,530に基づき、抽出した対象項目それぞれについて、親となる項目名及び兄弟となる項目名を抽出する。また、参照リンク構造情報440,540に基づき、対象項目それぞれのリソース情報を抽出する。
[ステップS514] 項目マッチング部142は、ステップS513において抽出した対象項目それぞれの親の項目名と、兄弟の項目名とを照合し、親・兄弟の項目名が一致、または予め決められたマッチング条件を満たすかどうか判定するマッチング処理を行う。マッチすると判定したときは、この対象項目のペアを候補とし、表示リンクに設定される確度の増加量を設定する。該当するリンクが多いほど、確度を高く設定する。マッチしないと判定したときは、候補としない。
[ステップS515] 項目マッチング部142は、ステップS513において抽出した対象項目それぞれのリソース情報照合し、一致するかどうかを判定するマッチング処理を行う。マッチすると判定したときは、この対象項目のペアを候補とし、参照リンクに設定される確度の増加量を設定する。該当するリンクが多いほど、確度を高く設定する。マッチしないと判定したときは、候補としない。
[ステップS516] 項目マッチング部142は、ステップS514及びステップS515におけるマッチング処理で候補となった対象項目のペアについて、他の候補と確度を比較する。対象項目の他に候補のペアがあるかどうか、あるときは対象項目が最も確度が高いかどうかを判定する。他の候補がないか、対象項目の確度が最も高いときは、処理をステップS517に進める。それ以外のときは、処理をステップS518に進める。
[ステップS517] 項目マッチング部142は、対象項目がマッチすると判定したときは、変更前後の対象項目をマッチする情報として報告する。対象項目を項目・型情報比較結果152aの削除された情報及び追加された情報から削除し、マッチする情報に登録する。なお、登録の前に、利用者にマッチすると判定した項目を提示し、マッチングが正しく行われたかどうかを確認してもらうようにしてもよい。利用者によってマッチしないと指示されたときは、登録は中止する。また、複数の候補を提示し、正しいものを選択してもらうとしてもよい。正しい項目のペアが指示されたときは、指示に従って項目・型情報比較結果152aに登録を行う。
[ステップS518] 項目マッチング部142は、全ての項目についてマッチング処理を終了したかどうかを判定する。終了していないときは、処理をステップS512に戻し、次の対象項目の選択からの処理を行う。終了しているときは、項目のマッチング処理を終了する。
以上の処理手順が実行されることにより、識別子は異なるが等価な項目がマッチングされ、比較結果に反映される。こうして、項目・型情報比較結果152bが得られる。
なお、上記のマッチング処理手順では、データ構造解析処理及び変更箇所解析処理で生成された構造情報と比較結果情報とに基づいてマッチング処理を行うとしているが、マッチング処理の結果を用いて再度マッチング処理を行うとしてもよい。例えば、比較元の文書に順にA、B、Cと並ぶ項目と、比較先の文書に順にE、F、Gと並ぶ項目があり、それぞれ識別子は異なるとする。識別子が異なるため、それぞれの項目を識別子で対応付けることはできない。しかし、上記のマッチング処理手順を用いて、リンク構造を比較することにより、項目のマッチングを行うことができる。マッチング処理により、項目AとE、項目CとGとがマッチするという比較結果が得られたとする。この比較結果に基づいて、マッチング処理を行うと、項目AとE、かつ項目EとGがマッチしているので、項目AとCに挟まれた項目Bと、項目Eと項目Gに挟まれた項目Fとは、マッチするという判定が可能となる。
また、図24に示したマッチング処理手順のステップS517で、利用者から正しい項目のペアを取得したとき、マッチングの学習を行うとしてもよい。
図25は、マッチング学習処理の手順を示したフローチャートである。
[ステップS81] 情報マッチング部140は、項目のマッチング処理によって、マッチする情報として検出した候補を抽出する。
[ステップS82] 情報マッチング部140は、候補が存在するか否かをチェックする。候補が存在するときは、処理をステップS83に進める。候補が存在しないときは、処理を終了する。
[ステップS83] 情報マッチング部140は、候補が存在するときは、その候補をモニタ21あるいは端末装置40を介して利用者に報告する。そして、利用者の確認、あるいは候補が複数の場合は選択を待ち、指示を取得する。
[ステップS84] 情報マッチング部140は、ステップS83で取得した利用者の指示に基づき、利用者が選択した対象項目の根拠となるリンクについて、確度の増加量を増やす。あるいは、選択されなかった対象項目の根拠となるリンクについて、確度の増加量を減らす。こうして、リンクごとの確度の増加量を調整した後、処理を終了する。
以上の処理手順が実行されることにより、リンクの重み付けが適宜更新され、正しい選択の根拠となったリンクの確度の増加量が大きくなる。
なお、上記の処理機能は、コンピュータによって実現することができる。その場合、解析装置が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。
プログラムを流通させる場合には、例えば、そのプログラムが記録されたDVD(Digital Versatile Disc)、CD−ROM(Compact Disc Read Only Memory)等の可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。
プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送されるごとに、逐次、受け取ったプログラムに従った処理を実行することもできる。
上記については単に本発明の原理を示すものである。さらに、多数の変形、変更が当業者にとって可能であり、本発明は上記に示し、説明した正確な構成及び応用例に限定されるものではなく、対応する全ての変形例及び均等物は、添付の請求項及びその均等物による本発明の範囲とみなされる。
10 解析装置
11 文書データ記憶手段
11a 文書データA
11b 文書データB
12 データ構造解析手段
13 変更情報解析手段
14 情報マッチング手段
20 表示装置

Claims (14)

  1. 文書を比較し、文書間で一致しない変更部分を解析する解析方法において、
    解析装置が、
    文書に含まれる項目の値を記述する項目値ファイルと、前記項目及び項目間の関係を定義する定義ファイルと、を有する文書データを格納する記憶手段から、比較対象の第1の文書データ及び第2の文書データを読み出し、
    前記定義ファイルの前記項目間の関係を解析して項目間の構造情報を生成し、
    前記第1の文書データに定義されている項目の識別子と、前記第2の文書データに定義されている項目の識別子とを比較して、前記第1の文書データにのみ存在する第1の未対応項目及び前記第2の文書データにのみ存在する第2の未対応項目を検出し、
    前記項目間の構造情報に基づいて、前記第1の未対応項目に関連する項目間の関係と前記第2の未対応項目に関連する項目間の関係とを比較し、項目間の関係が共通すると判定した前記第1の未対応項目と前記第2の未対応項目とを対応付ける、
    ことを特徴とする解析方法。
  2. さらに、前記第1の文書データ及び前記第2の文書データそれぞれについて、前記文書データに属するファイル間の参照関係を解析して文書の構造情報を生成し、
    前記第1の文書データに属するファイルの識別子と、前記第2の文書データに属するファイルの識別子とを比較して、前記第1の文書データにのみ存在する第1の未対応ファイル及び前記第2の文書データにのみ存在する第2の未対応ファイルを検出し、
    前記文書の構造情報に基づいて、前記第1の未対応ファイルに関連するファイル間の参照関係と、前記第2の未対応ファイルに関連するファイル間の参照関係とを比較し、ファイル間の参照関係が共通すると判定した前記第1の未対応ファイルと前記第2の未対応ファイルとを対応付ける、
    ことを特徴とする請求項1記載の解析方法。
  3. さらに、前記第1の文書データのファイルと、前記第2の文書データのファイルとの対応関係を表したファイル対応表に、前記ファイルの識別子の比較によって対応付けられた前記第1の文書データに属するファイルと前記第2の文書データに属するファイルを登録するとともに、前記文書の構造情報に基づいて対応付けられた前記第1の未対応ファイルと前記第2の未対応ファイルを登録し、前記ファイル対応表に基づいて、対応付けられたファイル間の差異を解析し、解析結果をファイル変更内容として記録し、
    前記第1の文書データの項目と、前記第2の文書データの項目との対応関係を表した項目対応表に、前記項目の識別子の比較によって対応付けられた前記第1の文書データの項目と前記第2の文書データの項目を登録するとともに、前記項目間の構造情報に基づいて対応付けられた前記第1の未対応項目と前記第2の未対応項目を登録し、前記項目対応表に基づいて対応付けられた項目間の差異を解析し、解析結果を項目変更内容として記録する、
    ことを特徴とする請求項2記載の解析方法。
  4. 前記定義ファイルは、前記項目の表示上の関係、意味的な関係、前記項目の関連情報を含む前記項目に関する複数の定義ファイルを備え、
    前記項目間の構造情報を前記複数の定義ファイルそれぞれに対応して作成し、
    前記複数の定義ファイルそれぞれについて作成した前記項目間の構造情報ごとに、該項目間の構造情報に基づいて前記第1の未対応項目に対応付ける前記第2の未対応項目の候補を選択し、前記複数の定義ファイルごとに設定される確度の増加量を前記候補の確度に加算する手順を繰り返し、全ての前記項目間の構造情報に基づく候補選択が終了した時点で最も確度の高い前記候補を、前記第1の未対応項目に対応付ける最有力候補とする、
    ことを特徴とする請求項1乃至3のいずれか1項に記載の解析方法。
  5. 前記第1の未対応項目に対応付ける前記第2の未対応項目の最有力候補を含む前記候補を利用者に提示して前記利用者の選択を待ち、前記利用者の選択が通知されたときは、前記通知に基づいて前記利用者が選択した前記第2の未対応項目の候補と、前記第1の未対応項目とを対応付けるとともに、前記利用者が選択した前記第2の未対応項目の候補となった前記定義ファイルに設定されている前記確度の増加量を増加し、必要に応じて他の前記定義ファイルに設定されている前記確度の増加量を減少して前記定義ファイルに設定される前記確度の増加量を調整する、
    ことを特徴とする請求項4記載の解析方法。
  6. 文書を比較し、文書間で一致しない変更部分を解析する解析装置において、
    文書に含まれる項目の値を記述する項目値ファイルと、前記項目及び項目間の関係を定義する定義ファイルと、を有する文書データを格納する記憶手段と、
    前記定義ファイルの前記項目間の関係を解析して項目間の構造情報を生成するデータ構造解析手段と、
    比較対象の第1の文書データ及び第2の文書データを読み出し、前記第1の文書データに定義されている前記項目の識別子と、前記第2の文書データに定義されている前記項目の識別子とを比較して、前記第1の文書データみ存在する第1の未対応項目及び前記第2の文書データみ存在する第2の未対応項目を検出する変更情報解析手段と、
    前記項目間の構造情報に基づいて、前記第1の未対応項目に関連する項目間の関係と前記第2の未対応項目に関連する項目間の関係とを比較し、項目間の関係が共通すると判定した前記第1の未対応項目と前記第2の未対応項目とを対応付ける情報マッチング手段と、
    を有することを特徴とする解析装置。
  7. 文書を比較し、文書間で一致しない変更部分を解析する処理のための解析プログラムにおいて、
    コンピュータを、
    文書に含まれる項目の値を記述する項目値ファイルと、前記項目及び項目間の関係を定義する定義ファイルと、を有する文書データを格納する記憶手段から、比較対象の第1の文書データ及び第2の文書データを読み出し、前記定義ファイルの前記項目間の関係を解析して項目間の構造情報を生成するデータ構造解析手段、
    前記第1の文書データに定義されている項目の識別子と、前記第2の文書データに定義されている項目の識別子とを比較して、前記第1の文書データみ存在する第1の未対応項目及び前記第2の文書データみ存在する第2の未対応項目を検出する変更情報解析手段、
    前記項目間の構造情報に基づいて、前記第1の未対応項目に関連する項目間の関係と前記第2の未対応項目に関連する項目間の関係とを比較し、項目間の関係が共通すると判定した前記第1の未対応項目と前記第2の未対応項目とを対応付ける情報マッチング手段、
    として機能させることを特徴とする解析プログラム。
  8. 文書を比較し、文書間で一致しない変更部分を解析する解析方法において、
    解析装置が、
    項目及び項目間の関係を示す情報を有する第1の文書データ及び第2の文書データを比較し、
    前記第1の文書データにのみ存在する項目である第1の未対応項目及び前記第2の文書データにのみ存在する項目である第2の未対応項目を検出し、
    前記第1の未対応項目に関連する項目間の関係と前記第2の未対応項目に関連する項目間の関係とが、共通すると判定した第1の未対応項目と第2の未対応項目とを対応付ける、
    ことを特徴とする解析方法。
  9. 前記第1の文書データ及び前記第2の文書データは、複数のファイルを有し、
    前記第1の文書データにのみ存在するファイルである第1の未対応ファイル及び前記第2の文書データにのみ存在するファイルである第2の未対応ファイルを検出し、
    前記第1の未対応ファイルに関連するファイル間の参照関係と、前記第2の未対応ファイルに関連するファイル間の参照関係とが、共通すると判定された第1の未対応ファイルと第2の未対応ファイルとを対応付ける、
    ことを特徴とする請求項8記載の解析方法。
  10. さらに、前記第1の文書データのファイルと、前記第2の文書データのファイルとの対応関係を表したファイル対応表に、前記ファイル間の参照関係に基づいて対応付けられた前記第1の未対応ファイルと前記第2の未対応ファイルを登録し、前記ファイル対応表に基づいて、対応付けられたファイル間の差異を解析し、解析結果をファイル変更内容として記録し、
    前記第1の文書データの項目と、前記第2の文書データの項目との対応関係を表した項目対応表に、前記項目間の関係に基づいて対応付けられた前記第1の未対応項目と前記第2の未対応項目を登録し、前記項目対応表に基づいて対応付けられた項目間の差異を解析し、解析結果を項目変更内容として記録する、
    ことを特徴とする請求項9記載の解析方法。
  11. 前記第1の文書データ及び前記第2の文書データは、項目の表示上の関係、意味的な関係、項目の関連情報を示す項目間の関係それぞれについて、いずれかの項目間の関係を定義する定義ファイルを備え、
    前記定義ファイルそれぞれについて、前記定義ファイルに定義されている項目間の関係に基づいて前記第1の未対応項目に対応付ける前記第2の未対応項目の候補を選択し、前記定義ファイルに対応する確度の増加量を候補の確度に加算する手順を繰り返し、前記候補毎に前記確度の合計値を算出する、
    ことを特徴とする請求項8乃至10のいずれか1項に記載の解析方法。
  12. 前記項目間の関係に基づいて選択された候補を利用者に提示して利用者の選択を待ち、利用者の選択が通知されたときは、利用者が選択した前記第2の未対応項目の候補について項目間の関係に基づいて選択された根拠となった定義ファイルに基づき前記定義ファイルごとに、対応する確度の増加量を調整する、
    ことを特徴とする請求項11記載の解析方法。
  13. 文書を比較し、文書間で一致しない変更部分を解析する解析装置において、
    項目及び項目間の関係を示す情報を有する第1の文書データ及び第2の文書データを比較し、前記第1の文書データにのみ存在する項目である第1の未対応項目及び前記第2の文書データにのみ存在する項目である第2の未対応項目を検出する変更情報解析手段と、
    前記第1の未対応項目に関連する項目間の関係と前記第2の未対応項目に関連する項目間の関係とが、共通すると判定した第1の未対応項目と第2の未対応項目とを対応付ける情報マッチング手段と、
    を有することを特徴とする解析装置。
  14. 文書を比較し、文書間で一致しない変更部分を解析する処理のための解析プログラムにおいて、
    コンピュータを、
    項目及び項目間の関係を定義する定義ファイルを有する第1の文書データ及び第2の文書データを比較し、
    前記第1の文書データにのみ存在する項目である第1の未対応項目及び前記第2の文書データにのみ存在する項目である第2の未対応項目を検出する変更情報解析手段、
    前記第1の未対応項目に関連する項目間の関係と前記第2の未対応項目に関連する項目間の関係とが、共通すると判定した第1の未対応項目と第2の未対応項目とを対応付ける情報マッチング手段、
    として機能させることを特徴とする解析プログラム。
JP2011550736A 2010-01-19 2010-01-19 解析方法、解析装置及び解析プログラム Active JP5494675B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2010/050522 WO2011089683A1 (ja) 2010-01-19 2010-01-19 解析方法、解析装置及び解析プログラム

Publications (2)

Publication Number Publication Date
JPWO2011089683A1 JPWO2011089683A1 (ja) 2013-05-20
JP5494675B2 true JP5494675B2 (ja) 2014-05-21

Family

ID=44306507

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011550736A Active JP5494675B2 (ja) 2010-01-19 2010-01-19 解析方法、解析装置及び解析プログラム

Country Status (5)

Country Link
US (1) US20120278694A1 (ja)
EP (1) EP2527991B1 (ja)
JP (1) JP5494675B2 (ja)
KR (1) KR101384405B1 (ja)
WO (1) WO2011089683A1 (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9473437B1 (en) 2012-02-13 2016-10-18 ZapFraud, Inc. Tertiary classification of communications
JP5880152B2 (ja) * 2012-03-08 2016-03-08 富士ゼロックス株式会社 文書作成支援プログラム及び文書作成支援装置
US8825614B1 (en) * 2012-04-27 2014-09-02 WebFilings LLC Systems and methods for automated taxonomy migration in an XBRL document
JP6079780B2 (ja) 2012-07-10 2017-02-15 富士通株式会社 プログラム、マッピング装置およびマッピング方法
JP6222923B2 (ja) * 2012-12-28 2017-11-01 富士通株式会社 ファイル管理プログラム、ファイル管理装置およびファイル管理方法
JP6114028B2 (ja) * 2012-12-28 2017-04-12 富士通株式会社 情報管理プログラム、情報管理方法及び情報管理装置
US10277628B1 (en) 2013-09-16 2019-04-30 ZapFraud, Inc. Detecting phishing attempts
US10152366B2 (en) * 2013-09-24 2018-12-11 Nec Corporation Log analysis system, fault cause analysis system, log analysis method, and recording medium which stores program
US10694029B1 (en) 2013-11-07 2020-06-23 Rightquestion, Llc Validating automatic number identification data
JP2015162107A (ja) * 2014-02-27 2015-09-07 株式会社エヌ・ティ・ティ・データ 対応関係抽出装置、対応関係抽出方法、対応関係抽出プログラム
AU2015383376A1 (en) 2015-02-20 2017-09-07 Fujitsu Limited Extraction program, extraction device, and extraction method
JP6657920B2 (ja) * 2015-12-18 2020-03-04 日本電気株式会社 文書検証支援装置、文書検証支援方法、及び、文書検証支援プログラム
US10721195B2 (en) 2016-01-26 2020-07-21 ZapFraud, Inc. Detection of business email compromise
US10880322B1 (en) 2016-09-26 2020-12-29 Agari Data, Inc. Automated tracking of interaction with a resource of a message
US9847973B1 (en) 2016-09-26 2017-12-19 Agari Data, Inc. Mitigating communication risk by detecting similarity to a trusted message contact
US11936604B2 (en) 2016-09-26 2024-03-19 Agari Data, Inc. Multi-level security analysis and intermediate delivery of an electronic message
US10805314B2 (en) 2017-05-19 2020-10-13 Agari Data, Inc. Using message context to evaluate security of requested data
US11722513B2 (en) 2016-11-30 2023-08-08 Agari Data, Inc. Using a measure of influence of sender in determining a security risk associated with an electronic message
US10715543B2 (en) 2016-11-30 2020-07-14 Agari Data, Inc. Detecting computer security risk based on previously observed communications
US11044267B2 (en) 2016-11-30 2021-06-22 Agari Data, Inc. Using a measure of influence of sender in determining a security risk associated with an electronic message
US11019076B1 (en) 2017-04-26 2021-05-25 Agari Data, Inc. Message security assessment using sender identity profiles
US11102244B1 (en) 2017-06-07 2021-08-24 Agari Data, Inc. Automated intelligence gathering
US11757914B1 (en) 2017-06-07 2023-09-12 Agari Data, Inc. Automated responsive message to determine a security risk of a message sender
JP6714160B2 (ja) * 2017-07-10 2020-06-24 株式会社日立製作所 データリニエージ検出装置、データリニエージ検出方法、及びデータリニエージ検出プログラム
JP2019028505A (ja) * 2017-07-25 2019-02-21 富士通株式会社 情報処理プログラム、情報処理方法及び情報処理装置
JP7064128B2 (ja) * 2017-12-08 2022-05-10 富士通株式会社 判定プログラム、判定装置及び判定方法
US10698937B2 (en) 2017-12-13 2020-06-30 Microsoft Technology Licensing, Llc Split mapping for dynamic rendering and maintaining consistency of data processed by applications
JP7040536B2 (ja) * 2018-01-31 2022-03-23 富士通株式会社 特定プログラム、情報処理装置および特定方法
WO2020075282A1 (ja) 2018-10-11 2020-04-16 富士通株式会社 変換方法、変換装置および変換プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006268638A (ja) * 2005-03-25 2006-10-05 Shigenori Tanaka 文書差分検出装置
WO2007132524A1 (ja) * 2006-05-16 2007-11-22 Fujitsu Limited 差分抽出プログラム、方法及び装置
JP2008293506A (ja) * 2008-06-06 2008-12-04 Ntt Docomo Inc 構造化文書データ更新方法及び情報提供サーバ

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3724847B2 (ja) * 1995-06-05 2005-12-07 株式会社日立製作所 構造化文書差分抽出方法および装置
US6502112B1 (en) * 1999-08-27 2002-12-31 Unisys Corporation Method in a computing system for comparing XMI-based XML documents for identical contents
EP1317715A1 (en) * 2000-08-04 2003-06-11 Infoglide Corporation System and method for comparing heterogeneous data sources
US7058558B2 (en) * 2001-05-25 2006-06-06 The Boeing Company Simulation system and method
US7143343B2 (en) * 2002-04-11 2006-11-28 International Business Machines Corporation Dynamic creation of an application's XML document type definition (DTD)
US20070245228A9 (en) * 2003-04-10 2007-10-18 Andre Lavoie Financial document change identifier
JP2005301996A (ja) * 2004-03-16 2005-10-27 Canon Inc 文書統合装置、文書統合装置の文書統合方法及びプログラム及び記録媒体
JP2005284987A (ja) * 2004-03-30 2005-10-13 Fujitsu Ltd 文書構造編集プログラム、文書構造編集方法、文書構造編集装置、文書構造編集プログラムを記録したコンピュータ読み取り可能な記録媒体
US7254577B2 (en) * 2004-06-29 2007-08-07 International Business Machines Corporation Methods, apparatus and computer programs for evaluating and using a resilient data representation
WO2006028920A2 (en) * 2004-09-01 2006-03-16 Ubmatrix, Inc. Method and system for automatic audit trail
WO2006051954A1 (ja) * 2004-11-12 2006-05-18 Justsystems Corporation 文書処理装置及び文書処理方法
US20070055655A1 (en) * 2005-09-08 2007-03-08 Microsoft Corporation Selective schema matching
US20090030754A1 (en) * 2006-04-25 2009-01-29 Mcnamar Richard Timothy Methods, systems and computer software utilizing xbrl to identify, capture, array, manage, transmit and display documents and data in litigation preparation, trial and regulatory filings and regulatory compliance
CN101529452B (zh) * 2006-10-02 2016-01-20 富士通株式会社 文档的错误推断处理装置和处理方法
US8543619B2 (en) * 2009-09-15 2013-09-24 Oracle International Corporation Merging XML documents automatically using attributes based comparison
US8612489B2 (en) * 2011-07-14 2013-12-17 International Business Machines Corporation LossLess transformation of XBRL instance to XML data model instance

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006268638A (ja) * 2005-03-25 2006-10-05 Shigenori Tanaka 文書差分検出装置
WO2007132524A1 (ja) * 2006-05-16 2007-11-22 Fujitsu Limited 差分抽出プログラム、方法及び装置
JP2008293506A (ja) * 2008-06-06 2008-12-04 Ntt Docomo Inc 構造化文書データ更新方法及び情報提供サーバ

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200500784006; 八畑 陽平: 'タクソノミの改訂に対応したXBRL文書の再構築手法' 電子情報通信学会技術研究報告 Vol.104 No.466, 20041118, 31-36ページ, 社団法人電子情報通信学会 *
JPN6013038444; 八畑 陽平: 'タクソノミの改訂に対応したXBRL文書の再構築手法' 電子情報通信学会技術研究報告 Vol.104 No.466, 20041118, 31-36ページ, 社団法人電子情報通信学会 *

Also Published As

Publication number Publication date
EP2527991A1 (en) 2012-11-28
KR20120104379A (ko) 2012-09-20
WO2011089683A1 (ja) 2011-07-28
US20120278694A1 (en) 2012-11-01
KR101384405B1 (ko) 2014-04-10
EP2527991B1 (en) 2018-12-26
JPWO2011089683A1 (ja) 2013-05-20
EP2527991A4 (en) 2017-01-11

Similar Documents

Publication Publication Date Title
JP5494675B2 (ja) 解析方法、解析装置及び解析プログラム
US10546351B2 (en) System and method for automatic generation of reports based on electronic documents
US9582556B2 (en) Automatic generation of an extract, transform, load (ETL) job
US10698755B2 (en) Analysis of a system for matching data records
KR101889120B1 (ko) 데이터 패턴 정보 생성
US10095766B2 (en) Automated refinement and validation of data warehouse star schemas
US10019535B1 (en) Template-free extraction of data from documents
Jans et al. From relational database to event log: decisions with quality impact
US20080147601A1 (en) Method For Searching Data Elements on the Web Using a Conceptual Metadata and Contextual Metadata Search Engine
US10599678B2 (en) Input gathering system and method for defining, refining or validating star schema for a source database
JP2008165641A (ja) 会計情報収集・分析システム及びその方法並びにプログラム
JP2010123149A (ja) 会計情報収集・分析システム及びその方法並びにプログラム
JP2016045545A (ja) 影響調査システム、影響調査方法、および影響調査プログラム
US20090067013A1 (en) Systems and methods to associate invoice data with a corresponding original invoice copy in a stack of invoices
US20140067444A1 (en) Business process transformation recommendation generation
US10360239B2 (en) Automated definition of data warehouse star schemas
US20110231750A1 (en) Effect detection device, effect detection method and computer readable medium
JP2011198285A (ja) 文書処理システム、及びプログラム
US20100250621A1 (en) Financial-analysis support apparatus and financial-analysis support method
JP2018060477A (ja) 見積装置、プログラム
McCarthy et al. An automated etl for online datasets
Solodovnikova et al. Architecture Enabling Adaptation of Data Integration Processes for a Research Information System
JP4244997B2 (ja) 申告用書類作成システム及び申告用書類作成プログラム
Piprani et al. A metamodel for master data
Hussain et al. Data Quality: Approaching the Problems in Solution

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130806

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131007

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140217

R150 Certificate of patent or registration of utility model

Ref document number: 5494675

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150