JP5626554B2 - 同一性判定装置、同一性判定方法、及び同一性判定用プログラム - Google Patents
同一性判定装置、同一性判定方法、及び同一性判定用プログラム Download PDFInfo
- Publication number
- JP5626554B2 JP5626554B2 JP2009057576A JP2009057576A JP5626554B2 JP 5626554 B2 JP5626554 B2 JP 5626554B2 JP 2009057576 A JP2009057576 A JP 2009057576A JP 2009057576 A JP2009057576 A JP 2009057576A JP 5626554 B2 JP5626554 B2 JP 5626554B2
- Authority
- JP
- Japan
- Prior art keywords
- program execution
- execution result
- document
- document structure
- structured document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
以下に、本発明の第1実施形態について添付図面を参照して説明する。
図1に示すように、本発明の第1実施形態の同一性判定装置100は、第1の標準構造化文書変換部101と、同一項目判定部102と、第1の同一要素値判定部103を含む。
第1の標準構造化文書変換部101は、定義済みの構造化文書変換ルールを基に、文書構造が既知のプログラム実行結果1を、文書構造が既知のプログラム実行結果の標準構造化文書2に変換する。
同一項目判定部102は、同一項目判定要素4で指定されたパスの情報を基に、文書構造が既知のプログラム実行結果の標準構造化文書2の特定要素の組21と、それぞれの特定要素に紐付いた指標22を抽出する。
同一項目判定部102は、特定要素の組21の任意の要素に対して、文書構造が不明なプログラム実行結果3の要素と文字列マッチングをとることで、特定要素が繰り返される位置と特定属性31を抽出する。すなわち、同一項目判定部102は、特定要素の組21の任意の要素と、文書構造が不明なプログラム実行結果3の要素とを、両方の要素の文字列同士が一致するか否かを判定し、一致していれば、この文書構造が不明なプログラム実行結果3の要素を特定要素とし、特定要素が繰り返される位置と特定属性31を抽出する。
同一項目判定部102は、特定要素が繰り返される位置と特定属性31を基に、文書構造が不明なプログラム実行結果3から特定要素に紐付いた指標32を抽出する。
第1の同一要素値判定部103は、指標22の各要素毎に以下の処理を実行する。
第1の同一要素値判定部103は、特定要素の組21の各要素毎に以下の処理を実行する。
第1の同一要素値判定部103は、特定要素が繰り返される位置と特定属性31を基に、文書構造が不明なプログラム実行結果3から当該要素に紐付いた情報が格納された部分を識別する。
第1の同一要素値判定部103は、指標32の各要素毎に以下の処理を実行する。
第1の同一要素値判定部103は、指標22の指標値と指標32の指標値の差分の2乗10を計算する。
第1の同一要素値判定部103は、差分の2乗10を指標22の要素毎に足し合わせる。
第1の同一要素値判定部103は、一番小さな差分の2乗10に対応した指標22と指標32を対応付けて、構造化文書変換ルール5に追加する。
以下に、本発明の第2実施形態について説明する。
図13に示すように、本発明の第2実施形態の同一性判定装置100は、第1の標準構造化文書変換部101と、同一項目判定要素4と、同一項目判定部102と、第1の同一要素値判定部103と、第2の標準構造化文書変換部104を含む。
以下に、本発明の第3実施形態について説明する。
図15に示すように、本発明の第3実施形態の同一性判定装置100は、第1の標準構造化文書変換部101と、同一項目判定要素4と、同一項目判定部102と、第2の同一要素値判定部105と、類義語集7を含む。
以上のように、本発明の同一性判定装置は、定義が不明な構造化文書が保持する値と、定義が既知の構造化文書が保持する値との同一性及び近似性を判定し、定義が不明な構造化文書の各要素と、定義が既知の構造化文書の各要素を対応づけることで、定義が不明な構造化文書の構造を判定することを特徴とする。
2… 文書構造が既知のプログラム実行結果の標準構造化文書(XML形式の例)
21… 文書構造が既知のプログラム実行結果の標準構造化文書の特定要素の組
22… 文書構造が既知のプログラム実行結果の標準構造化文書のそれぞれの特定要素に紐付いた指標
3… 文書構造が不明なプログラム実行結果(XML形式の例)
31… 文書構造が不明なプログラム実行結果の特定要素が繰り返される位置と特定属性
32… 文書構造が不明なプログラム実行結果の特定要素に紐付いた指標
4… 同一項目判定要素(XML形式の例)
5… 構造化文書変換ルール
6… 文書構造が不明なプログラム実行結果の標準構造化文書
7… 類義語集
10… 指標値の差分の2乗
100… 同一性判定装置、
101… 第1の標準構造化文書変換部
102… 同一項目判定部
103… 第1の同一要素値判定部
104… 第2の標準構造化文書変換部
105… 第2の同一要素値判定部
Claims (12)
- 所定のプログラムを実行することにより出力された「文書構造が不明なプログラム実行結果」と、前記所定のプログラムと同様の目的を持つプログラムを実行することにより出力された「文書構造が既知のプログラム実行結果」とを入力として受け付ける入力手段と、
前記入力された両方のプログラム実行結果の構造要素及び要素値の対応付けを行ない、前記対応付けが行われた特定の要素の構造同士を変換するルールを示す構造化文書変換ルールを生成する同一性判定手段と、
前記生成された構造化文書変換ルールを出力する出力手段と
を具備し、
前記同一性判定手段は、
定義済みの構造化文書変換ルールを基に、前記「文書構造が既知のプログラム実行結果」を、「文書構造が既知のプログラム実行結果の標準構造化文書」に変換する標準構造化文書変換手段と、
前記「文書構造が既知のプログラム実行結果の標準構造化文書」に記述された特定の構造要素を表わす同一項目判定要素を基にして、前記「文書構造が不明なプログラム実行結果」に記述された同一名称及び近似名称のいずれかの要素を、同一情報の固まりとして判別する同一項目判定手段と、
前記「文書構造が不明なプログラム実行結果」に記述された要素の値と、前記「文書構造が既知のプログラム実行結果の標準構造化文書」に記述された要素の値とを比較して、同じ意味を持つ値であるか判定し、前記比較された両方の要素の対応付けを行ない、前記対応付けが行われた特定の要素の構造同士を変換するルールを示す構造化文書変換ルールを生成する同一要素値判定手段と
を具備する
同一性判定装置。 - 請求項1に記載の同一性判定装置であって、
前記標準構造化文書変換手段は、定義済みの構造化文書変換ルールを基に、前記「文書構造が既知のプログラム実行結果」を前記「文書構造が既知のプログラム実行結果の標準構造化文書」に変換し、
前記同一項目判定手段は、前記同一項目判定要素で指定された情報を基に、前記「文書構造が既知のプログラム実行結果の標準構造化文書」の特定要素の組と、それぞれの特定要素に紐付いた第1の指標とを抽出し、前記特定要素の組の任意の要素に対して、前記「文書構造が不明なプログラム実行結果」の要素と文字列マッチングをとり、特定要素が繰り返される位置と特定属性を抽出し、前記特定要素が繰り返される位置と特定属性を基に、前記「文書構造が不明なプログラム実行結果」から特定要素に紐付いた第2の指標を抽出し、
前記同一要素値判定手段は、前記特定要素が繰り返される位置と特定属性を基に、前記「文書構造が不明なプログラム実行結果」から当該要素に紐付いた情報が格納された部分を識別し、前記第1の指標の指標値と前記第2の指標の指標値の差分の2乗を計算し、前記差分の2乗を前記第1の指標の要素毎に足し合わせ、一番小さな差分の2乗に対応した前記第1の指標と前記第2の指標を対応付けて、構造化文書変換ルールに追加する
同一性判定装置。 - 請求項1又は2に記載の同一性判定装置であって、
前記同一要素値判定手段は、
類義語集に登録された類義語の組に含まれる文字列を構造要素名として参照して、前記「文書構造が不明なプログラム実行結果」に記述された指標と、前記「文書構造が既知のプログラム実行結果の標準構造化文書」に記述された指標の対応付けを行なう手段と、
前記「文書構造が不明なプログラム実行結果」と、前記「文書構造が既知のプログラム実行結果の標準構造化文書」との各々に、前記類義語集に登録された類義語の組に含まれる文字列のいずれかと同一の構造要素名が存在する場合、両方の構造要素名の対応付けを行なう手段と、
前記「文書構造が不明なプログラム実行結果」と、前記「文書構造が既知のプログラム実行結果の標準構造化文書」との各々に、前記類義語集に登録された類義語の組に含まれる文字列のいずれかと同一の構造要素名が存在しない場合、前記「文書構造が不明なプログラム実行結果」に記述された指標と、前記「文書構造が既知のプログラム実行結果の標準構造化文書」に記述された指標を比較して、同じ指標値として記述された値であるか判定し、同じ指標値として記述された値の対応付けを行なう手段と、
前記対応付けが行われた指標値同士を変換するルールを示す構造化文書変換ルールを生成する手段と
を具備する
同一性判定装置。 - 請求項1乃至3のいずれか一項に記載の同一性判定装置であって、
前記生成された構造化文書変換ルールに従って、前記「文書構造が不明なプログラム実行結果」を、前記「文書構造が既知のプログラム実行結果の標準構造化文書」と同じ構造に従った「文書構造が不明なプログラム実行結果の標準構造化文書」に変換する構造変換手段
を更に具備する
同一性判定装置。 - 所定のプログラムを実行することにより出力された「文書構造が不明なプログラム実行結果」と、前記所定のプログラムと同様の目的を持つプログラムを実行することにより出力された「文書構造が既知のプログラム実行結果」とを入力手段が入力として受け付け、
前記入力された両方のプログラム実行結果の構造要素及び要素値の対応付けを同一性判定手段が行ない、更に、前記対応付けが行われた特定の要素の構造同士を変換するルールを示す構造化文書変換ルールを前記同一性判定手段が生成し、
前記生成された構造化文書変換ルールを出力手段が出力する
同一性判定方法であって、
前記同一性判定手段が前記構造化文書変換ルールを生成するにあたっては、
定義済みの構造化文書変換ルールを基に、前記「文書構造が既知のプログラム実行結果」を、標準構造化文書変換手段が「文書構造が既知のプログラム実行結果の標準構造化文書」に変換し、
前記「文書構造が既知のプログラム実行結果の標準構造化文書」に記述された特定の構造要素を表わす同一項目判定要素を基にして、前記「文書構造が不明なプログラム実行結果」に記述された同一名称及び近似名称のいずれかの要素を、同一項目判定手段が同一情報の固まりとして判別し、
前記「文書構造が不明なプログラム実行結果」に記述された要素の値と、前記「文書構造が既知のプログラム実行結果の標準構造化文書」に記述された要素の値とを比較して、同じ意味を持つ値であるかを同一要素値判定手段が判定し、更に、前記比較された両方の要素の対応付けを行ない、前記対応付けが行われた特定の要素の構造同士を前記同一要素値判定手段が変換するルールを示す構造化文書変換ルールを生成する
同一性判定方法。 - 請求項5に記載の同一性判定方法であって、
前記標準構造化文書変換手段が、定義済みの構造化文書変換ルールを基に、前記「文書構造が既知のプログラム実行結果」を前記「文書構造が既知のプログラム実行結果の標準構造化文書」に変換し、
前記同一項目判定手段が、前記同一項目判定要素で指定された情報を基に、前記「文書構造が既知のプログラム実行結果の標準構造化文書」の特定要素の組と、それぞれの特定要素に紐付いた第1の指標とを抽出し、前記特定要素の組の任意の要素に対して、前記「文書構造が不明なプログラム実行結果」の要素と文字列マッチングをとり、特定要素が繰り返される位置と特定属性を抽出し、前記特定要素が繰り返される位置と特定属性を基に、前記「文書構造が不明なプログラム実行結果」から特定要素に紐付いた第2の指標を抽出し、
前記同一要素値判定手段が、前記特定要素が繰り返される位置と特定属性を基に、前記「文書構造が不明なプログラム実行結果」から当該要素に紐付いた情報が格納された部分を識別し、前記第1の指標の指標値と前記第2の指標の指標値の差分の2乗を計算し、前記差分の2乗を前記第1の指標の要素毎に足し合わせ、一番小さな差分の2乗に対応した前記第1の指標と前記第2の指標を対応付けて、構造化文書変換ルールに追加する
同一性判定方法。 - 請求項5又は6に記載の同一性判定方法であって、
前記同一要素値判定手段が、類義語集に登録された類義語の組に含まれる文字列を構造要素名として参照して、前記「文書構造が不明なプログラム実行結果」に記述された指標と、前記「文書構造が既知のプログラム実行結果の標準構造化文書」に記述された指標の対応付けを行ない、
前記同一要素値判定手段が、前記「文書構造が不明なプログラム実行結果」と、前記「文書構造が既知のプログラム実行結果の標準構造化文書」との各々に、前記類義語集に登録された類義語の組に含まれる文字列のいずれかと同一の構造要素名が存在する場合、両方の構造要素名の対応付けを行ない、
前記同一要素値判定手段が、前記「文書構造が不明なプログラム実行結果」と、前記「文書構造が既知のプログラム実行結果の標準構造化文書」との各々に、前記類義語集に登録された類義語の組に含まれる文字列のいずれかと同一の構造要素名が存在しない場合、前記「文書構造が不明なプログラム実行結果」に記述された指標と、前記「文書構造が既知のプログラム実行結果の標準構造化文書」に記述された指標を比較して、同じ指標値として記述された値であるか判定し、同じ指標値として記述された値の対応付けを行ない、
前記同一要素値判定手段が、前記対応付けが行われた指標値同士を変換するルールを示す構造化文書変換ルールを生成する
同一性判定方法。 - 請求項5乃至7のいずれか一項に記載の同一性判定方法であって、
前記生成された構造化文書変換ルールに従って、前記「文書構造が不明なプログラム実行結果」を、前記「文書構造が既知のプログラム実行結果の標準構造化文書」と同じ構造に従った「文書構造が不明なプログラム実行結果の標準構造化文書」に構造変換手段が変換する
同一性判定方法。 - 所定のプログラムを実行することにより出力された「文書構造が不明なプログラム実行結果」と、前記所定のプログラムと同様の目的を持つプログラムを実行することにより出力された「文書構造が既知のプログラム実行結果」とを入力として受け付けるステップと、
前記入力された両方のプログラム実行結果の構造要素及び要素値の対応付けを行ない、前記対応付けが行われた特定の要素の構造同士を変換するルールを示す構造化文書変換ルールを生成するステップと、
前記生成された構造化文書変換ルールを出力するステップと
をコンピュータに実行させるための同一性判定用プログラムであって、
前記構造化文書変換ルールを生成するステップでは、
定義済みの構造化文書変換ルールを基に、前記「文書構造が既知のプログラム実行結果」を、「文書構造が既知のプログラム実行結果の標準構造化文書」に変換するステップと、
前記「文書構造が既知のプログラム実行結果の標準構造化文書」に記述された特定の構造要素を表わす同一項目判定要素を基にして、前記「文書構造が不明なプログラム実行結果」に記述された同一名称及び近似名称のいずれかの要素を、同一情報の固まりとして判別するステップと、
前記「文書構造が不明なプログラム実行結果」に記述された要素の値と、前記「文書構造が既知のプログラム実行結果の標準構造化文書」に記述された要素の値とを比較して、同じ意味を持つ値であるか判定し、前記比較された両方の要素の対応付けを行ない、前記対応付けが行われた特定の要素の構造同士を変換するルールを示す構造化文書変換ルールを生成するステップと
を更にコンピュータに実行させる
同一性判定用プログラム。 - 請求項9に記載の同一性判定用プログラムであって、
定義済みの構造化文書変換ルールを基に、前記「文書構造が既知のプログラム実行結果」を前記「文書構造が既知のプログラム実行結果の標準構造化文書」に変換するステップと、
前記同一項目判定要素で指定された情報を基に、前記「文書構造が既知のプログラム実行結果の標準構造化文書」の特定要素の組と、それぞれの特定要素に紐付いた第1の指標とを抽出し、前記特定要素の組の任意の要素に対して、前記「文書構造が不明なプログラム実行結果」の要素と文字列マッチングをとり、特定要素が繰り返される位置と特定属性を抽出し、前記特定要素が繰り返される位置と特定属性を基に、前記「文書構造が不明なプログラム実行結果」から特定要素に紐付いた第2の指標を抽出するステップと、
前記特定要素が繰り返される位置と特定属性を基に、前記「文書構造が不明なプログラム実行結果」から当該要素に紐付いた情報が格納された部分を識別し、前記第1の指標の指標値と前記第2の指標の指標値の差分の2乗を計算し、前記差分の2乗を前記第1の指標の要素毎に足し合わせ、一番小さな差分の2乗に対応した前記第1の指標と前記第2の指標を対応付けて、構造化文書変換ルールに追加するステップと
を更にコンピュータに実行させるための
同一性判定用プログラム。 - 請求項9又は10に記載の同一性判定用プログラムであって、
類義語集に登録された類義語の組に含まれる文字列を構造要素名として参照して、前記「文書構造が不明なプログラム実行結果」に記述された指標と、前記「文書構造が既知のプログラム実行結果の標準構造化文書」に記述された指標の対応付けを行なうステップと、
前記「文書構造が不明なプログラム実行結果」と、前記「文書構造が既知のプログラム実行結果の標準構造化文書」との各々に、前記類義語集に登録された類義語の組に含まれる文字列のいずれかと同一の構造要素名が存在する場合、両方の構造要素名の対応付けを行なうステップと、
前記「文書構造が不明なプログラム実行結果」と、前記「文書構造が既知のプログラム実行結果の標準構造化文書」との各々に、前記類義語集に登録された類義語の組に含まれる文字列のいずれかと同一の構造要素名が存在しない場合、前記「文書構造が不明なプログラム実行結果」に記述された指標と、前記「文書構造が既知のプログラム実行結果の標準構造化文書」に記述された指標を比較して、同じ指標値として記述された値であるか判定し、同じ指標値として記述された値の対応付けを行なうステップと、
前記対応付けが行われた指標値同士を変換するルールを示す構造化文書変換ルールを生成するステップと
を更にコンピュータに実行させるための
同一性判定用プログラム。 - 請求項9乃至11のいずれか一項に記載の同一性判定用プログラムであって、
前記生成された構造化文書変換ルールに従って、前記「文書構造が不明なプログラム実行結果」を、前記「文書構造が既知のプログラム実行結果の標準構造化文書」と同じ構造に従った「文書構造が不明なプログラム実行結果の標準構造化文書」に変換するステップ
を更にコンピュータに実行させるための
同一性判定用プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009057576A JP5626554B2 (ja) | 2009-03-11 | 2009-03-11 | 同一性判定装置、同一性判定方法、及び同一性判定用プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009057576A JP5626554B2 (ja) | 2009-03-11 | 2009-03-11 | 同一性判定装置、同一性判定方法、及び同一性判定用プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010211567A JP2010211567A (ja) | 2010-09-24 |
JP5626554B2 true JP5626554B2 (ja) | 2014-11-19 |
Family
ID=42971639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009057576A Expired - Fee Related JP5626554B2 (ja) | 2009-03-11 | 2009-03-11 | 同一性判定装置、同一性判定方法、及び同一性判定用プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5626554B2 (ja) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001236215A (ja) * | 2000-02-24 | 2001-08-31 | Hitachi Ltd | システム制御方法およびそれを実施した情報処理システム並びにその処理プログラムを格納した記録媒体 |
EP1349080A1 (en) * | 2002-03-26 | 2003-10-01 | Deutsche Thomson-Brandt Gmbh | Methods and apparatus for using metadata from different sources |
JP4231261B2 (ja) * | 2002-09-12 | 2009-02-25 | 株式会社エヌ・ティ・ティ・ドコモ | 同一性判定装置 |
JP4451624B2 (ja) * | 2003-08-19 | 2010-04-14 | 富士通株式会社 | 情報体系対応付け装置および対応付け方法 |
JP2005251136A (ja) * | 2004-03-08 | 2005-09-15 | Nec Corp | 自動データマッピング装置、自動データマッピングシステムおよび自動データマッピングプログラム |
JP2008134719A (ja) * | 2006-11-27 | 2008-06-12 | Fuji Xerox Co Ltd | 構造化文書同一性判定装置 |
-
2009
- 2009-03-11 JP JP2009057576A patent/JP5626554B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010211567A (ja) | 2010-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5690349B2 (ja) | レコード形式情報の管理 | |
Dimou et al. | Assessing and refining mappingsto rdf to improve dataset quality | |
US9170918B2 (en) | Model verification system, model verification method, and recording medium | |
US7822788B2 (en) | Method, apparatus, and computer program product for searching structured document | |
US20160342628A1 (en) | Textual query editor for graph databases that performs semantic analysis using extracted information | |
JP2004086782A (ja) | 異種データベース統合支援装置 | |
JP2006525600A5 (ja) | ||
CA2522309A1 (en) | Retaining hierarchical information in mapping between xml documents and relational data | |
US20220058032A1 (en) | Generation apparatus, program, and generation method | |
JPWO2015025386A1 (ja) | データ処理システム、データ処理方法およびデータ処理装置 | |
US20130055065A1 (en) | Validation based on decentralized schemas | |
WO2022267457A1 (zh) | 电子表格数据处理方法、装置、设备及存储介质 | |
JP4247135B2 (ja) | 構造化文書記憶方法、構造化文書記憶装置、構造化文書検索方法 | |
US20080033967A1 (en) | Semantic aware processing of XML documents | |
Rönnau et al. | Merging changes in XML documents using reliable context fingerprints | |
JP6737734B2 (ja) | 問合せ文検索装置、問合せ文検索方法及び問合せ文検索プログラム | |
JP5626554B2 (ja) | 同一性判定装置、同一性判定方法、及び同一性判定用プログラム | |
CN110188432B (zh) | 系统架构的验证方法、电子设备及计算机可读存储介质 | |
Castano et al. | On the ontology instance matching problem | |
Bidoit-Tollu et al. | Type-based detection of XML query-update independence | |
US8200679B2 (en) | Estimating cardinalities of XML table constructs within queries | |
WO2015184750A1 (zh) | 网元设备数据维护的方法和装置 | |
JP2011053891A (ja) | 通信データのリレーショナルデータベース保存方法およびリレーショナルデータベース保存プログラム | |
Kehrbusch et al. | Interface-based similarity analysis of software components for the automotive industry | |
Solimando et al. | Static analysis of XML document adaptations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120209 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130913 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140318 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140512 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140904 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140917 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5626554 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |