JP6317280B2 - 同種帳票ファイル選定装置、同種帳票ファイル選定方法、および、同種帳票ファイル選定プログラム - Google Patents

同種帳票ファイル選定装置、同種帳票ファイル選定方法、および、同種帳票ファイル選定プログラム Download PDF

Info

Publication number
JP6317280B2
JP6317280B2 JP2015031713A JP2015031713A JP6317280B2 JP 6317280 B2 JP6317280 B2 JP 6317280B2 JP 2015031713 A JP2015031713 A JP 2015031713A JP 2015031713 A JP2015031713 A JP 2015031713A JP 6317280 B2 JP6317280 B2 JP 6317280B2
Authority
JP
Japan
Prior art keywords
sheet
form file
similarity
template
sheets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015031713A
Other languages
English (en)
Other versions
JP2016153953A (ja
Inventor
郁子 高木
郁子 高木
山田 光一
光一 山田
名和 長年
長年 名和
勉 丸山
勉 丸山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015031713A priority Critical patent/JP6317280B2/ja
Publication of JP2016153953A publication Critical patent/JP2016153953A/ja
Application granted granted Critical
Publication of JP6317280B2 publication Critical patent/JP6317280B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、同種帳票ファイル選定装置、同種帳票ファイル選定方法、および、同種帳票ファイル選定プログラムに関する。
業務では、申請書、管理簿、申込書等、様々な利用シーンにあわせて帳票が作成される。特に、表計算ソフト等で作成された電子帳票(以下、適宜「帳票」と略す)はユーザが帳票のテンプレートを簡単に作成できるため、汎用性が高い。一方で、帳票の様式構造は帳票の作成者の意図・嗜好に依存し、画一的に定義することが困難である。そのため、多くの場合は帳票の値の意味を明示的に示す情報(以下、「項目名」と表現する)およびその値(以下、「帳票データ」と表現する)の記入位置を定義し、指定の処理プロセスをスクリプトやマクロで記述、実行させる。しかし、この方法では、(1)指定の処理プロセスでしか帳票データを活用できない、(2)表計算ソフト等は様式の操作が可能なため、作成者が意図しない操作(例えば、行列の追加・削除、項目の追加・削除など)が行われた場合に指定の処理プロセスを正しく実行できない、等の問題が生じる。帳票は、情報を記入するユーザが項目名の並びを頼りにして正確に情報を記入できるように、定型的に作成される傾向があり、その関係性は木構造と表の2つの表現形式によって概念的に表現することができる。そこで、帳票を概念化した論理構造に変換して上記の問題を解決する方法(非特許文献1参照)や、特定分野で利用される知識表現を分析し、意味的な論理構造に形式化する手法(非特許文献2参照)が提案されている。これらの技術を利用することで、例えば、帳票群の帳票データ個々を対象にして、ユーザの要求に従って外部からデータ操作(例えば、参照、更新、削除)することができる。ただし、帳票を電子的に管理する場合は、例えば、ファイルサーバやデータベースでの運用が考えられるが、その運用思想によって複数の種別の帳票が混在することがある。その場合、ユーザが操作対象としない帳票に対してもデータ操作を行ってしまう状況が考えられ、その結果、膨大な帳票の中から条件に一致するデータを検索する無駄な処理が発生したり、他の種別の帳票のデータを誤って書き換える等のエラーが発生したりするおそれがある。そこで、複数の種別の帳票が混在する場合において、ユーザが概念的に求める帳票群を自動選定する手法が求められている。
上記の課題に対するアプローチとして、帳票の画像を利用した帳票選択技術や、比較対象の複票(複数の種別の帳票)について帳票の画像の類似度を検出し、類似度の閾値で選択可否を決定する技術が提案されている(特許文献1,2参照)。
特許第4154308号公報 特開2005−275820号公報
高木郁子他、「電子帳票群に対する横断的データ操作技術のための抽出手法の検討」、電子情報通信学会、信学技報、Vol.114、No.150、LOIS2014-11、pp.1-6、2014年7月17日 角田篤泰他,「e-Legislationにおける条文と様式の計算論的形式かへ向けて」、名古屋大學法政論集259号、pp327-368、2014年12月25日
しかし、上記の技術はいずれも帳票を画像単位で識別することを前提としているため、帳票の様式(例えば、帳票の表枠の大きさ、位置、数、表枠内のセルの数等)によっては、ユーザが求める帳票群を選定することができなかった。そこで、本発明は、前記した問題を解決し、ユーザが概念的に求める帳票群を自動選定することを課題とする。
前記した課題を解決するため、本発明は、1以上のシートからなる帳票ファイルについて、比較帳票ファイルがテンプレート帳票ファイルと同種の帳票ファイルを選定する同種帳票ファイル選定装置であって、前記テンプレート帳票ファイルの各シートの項目の並びを示す木構造を記憶するテンプレート記憶部と、1以上の比較帳票ファイルの各シートの項目の並びを示す木構造を記憶する比較帳票群記憶部と、前記テンプレート記憶部に記憶された木構造と前記比較帳票群記憶部に記憶された木構造とをシートごとに比較し、シート間の木構造の類似度であるシート類似度を算出するシート間類似度算出部と、算出されたシート類似度に基づいて前記テンプレート帳票ファイルおよび前記比較帳票ファイルのシート同士の尤もらしい対応関係を求めるシート間対応関係算出部と、前記対応関係のあるシート同士のシート類似度に基づき、前記比較帳票ファイルが前記テンプレート帳票ファイルと同種の帳票ファイルか否かを判定する判定部とを備えることを特徴とする。
本発明によれば、ユーザが概念的に求める帳票群を自動選定することができる。
図1は、同種帳票ファイル選定装置の概要を説明する図である。 図2は、同種帳票ファイル選定装置の構成例を示す図である。 図3は、シート間類似度算出部の概要を説明する図である。 図4は、シート間類似度算出部におけるシート類似度の算出方法を説明する図である。 図5は、シート間対応関係算出部の概要を説明する図である。 図6は、同種帳票ファイル選定装置の処理手順を示すフローチャートである。 図7は、図6のS2の処理手順の一例を示すフローチャートである。 図8は、図6のS2の処理手順の一例を示すフローチャートである。 図9は、図6のS3の処理手順の一例を示すフローチャートである。 図10は、同種帳票ファイル選定プログラムを実行するコンピュータを示す図である。
(概要)
以下、図面を参照しながら、本発明の実施形態について説明する。本発明は本実施形態に限定されない。まず、図1を用いて本実施形態の同種帳票ファイル選定装置10の概要を説明する。
なお、以下の説明において、テンプレートとは、ユーザが検索(選定)条件とする帳票ファイルであり、1以上のシートを含む。また、比較帳票とは、テンプレートとの比較対象となる(つまり選定対象となる)帳票ファイルである。この比較帳票も1以上のシートを含む。また、同種帳票ファイル選定装置10は、テンプレートに含まれる各シートの項目名の並びおよびデータを論理構造に変換し、また、比較帳票についても同様に各シートの項目名の並びおよびデータを論理構造に変換しておくものとする。例えば、シートの項目名の並びおよびデータを、図1に示すような木構造に変換しておくものとする。
同種帳票ファイル選定装置10は、テンプレートの入力を受け付けると、このテンプレートに含まれる各シートと比較帳票に含まれる各シートの論理構造に基づき、テンプレートと同種の比較帳票を選定する。例えば、同種帳票ファイル選定装置10は、テンプレートに含まれるシートX−1,X−2,X−3および比較帳票に含まれるシートY−1,Y−2,Y−3間で,それぞれの構造的な類似度(シート類似度)を算出する({X−1,Y−1},{X−1,Y−2},{X−1,Y−3},{X−2,Y−1},{X−2,Y−2},{X−2,Y−3},{X−3,Y−1},{X−3,Y−2},{X−3,Y−3})。そして、このシート類似度から、テンプレートおよび各比較帳票の各シートについて尤もらしい対応関係を求める(例えば、{X−1,Y−2},{X−2,Y−1},{X−3,Y−3})。次に、同種帳票ファイル選定装置10は、各シートが当該対応関係をとる場合において、テンプレートと各比較帳票とがどの程度類似するかを算出し、その算出した値を閾値と比較することにより、比較帳票がテンプレートと同種の帳票ファイルか否かを判定する。
このような同種帳票ファイル選定装置10によれば、帳票ファイルにおける項目名の並びの論理構造を考慮し、テンプレートと同種の帳票ファイルか否かを判定するので、比較帳票に複数の種別の帳票が混在する場合でも、ユーザが求める帳票ファイルを選定することができる。また、同種帳票ファイル選定装置10は、帳票ファイル間でシート同士の尤もらしい対応関係を求めた上で、同種の帳票ファイルか否かを判定するので、比較帳票におけるシート順が、テンプレートのシート順と異なる場合でも、同種の帳票ファイルとして判定することができる。更に、同種帳票ファイル選定装置10は、帳票ファイル間でシート同士の尤もらしい対応関係を求めた上で、同種の帳票ファイルか否かを判定するので、テンプレートのシートに含まれていないシートが比較帳票に含まれている場合、また、テンプレートのシートに含まれているシートが比較帳票に含まれていない場合に、該当のシートがいずれかを判定することができる。
(構成)
次に、図2を用いて、同種帳票ファイル選定装置10の構成を説明する。同種帳票ファイル選定装置10は、入力部11と、出力部12と、記憶部13と、制御部14とを備える。
入力部11は、同種帳票ファイル選定装置10への種々のデータ入力を受け付ける。例えば、入力部11は、テンプレート、比較帳票群、閾値情報(後記)等の入力を受け付ける。出力部12は、制御部14による計算結果、例えば、比較帳票群のうち、対象帳票判定部143(後記)によりテンプレートと同種と判定された比較帳票を出力する。
記憶部13は、テンプレートを記憶するテンプレート記憶部131と、比較帳票群を記憶する比較帳票群記憶部132と、閾値情報を記憶する閾値情報記憶部133とを備える。なお、テンプレートも比較帳票も1以上のシートを含んでいれば、zipファイル等の圧縮ファイルでもよいし、同じフォルダ内に保持される複数のファイルをまとめたものでもよい。テンプレートは、各シートに含まれる項目名の並びが論理構造、例えば木構造形式に変換された状態でテンプレート記憶部131に記憶される。また、比較帳票についても各シートに含まれる項目名の並びが論理構造に変換された状態で比較帳票群記憶部132に記憶される。各シートの項目名の並びの取得は、例えば、非特許文献1に記載の帳票の木構造変換技術を用いる。ここでの木構造とは、例えば、シートを構成する項目名の並び(項目名、…、項目名)、または、項目名の並びとデータ(項目名、…、項目名、データ)のデータセットにより構成される。なお、上記の論理構造への変換は、制御部14において行うようにしてもよい。
閾値情報は、対象帳票判定部143が、比較帳票をテンプレートと同種の帳票ファイルと判定するときに参照する閾値を示した情報である。この閾値情報を用いた判定の詳細は、対象帳票判定部143の項で詳細に説明する。
制御部14は、同種帳票ファイル選定装置10全体の制御を司り、ここでは主に比較帳票からテンプレートと同種の帳票ファイルを選定する。この制御部14は、シート間類似度算出部141と、シート間対応関係算出部142と、対象帳票判定部143とを備える。
シート間類似度算出部141は、テンプレート記憶部131に記憶されたテンプレートの木構造と比較帳票群記憶部132に記憶された比較帳票それぞれの木構造とをシートごとに比較し、シート間の木構造の類似度であるシート類似度を算出する。つまり、シート間類似度算出部141は、まず、比較帳票群記憶部132に記憶されている比較帳票を1つ選択する。そして、シート間類似度算出部141は、シートの木構造から、テンプレートの任意のシートXが、選択した比較帳票の任意のシートYと類似する度合い(シート類似度)を算出する(図3参照)。シート間類似度算出部141は、このような処理を、比較帳票群記憶部132の比較帳票それぞれについて実行する。シート類似度は、例えば、シート間で当該シートの項目パス(シート上のデータを表現する項目名の並び。図4の符号402における項目パス参照)がどの程度類似しているかを算出することにより求めることができる。以下、シート類似度の算出方法の例を2つ挙げる。
(シート類似度の算出方法(1))
ここでは、図4に示すように、テンプレートのシートXと比較帳票のシートYとのシート類似度を算出する場合を考える。この場合、テンプレートのシートXの木構造から項目パスを抽出しておく(符号401→符号402)。また、比較帳票のシートYについても同様に木構造から項目パスを抽出しておく。そして、シート間類似度算出部141は、シートY上の項目パスのうち、シートXと一致する項目パスの数の割合を算出する。つまり、シート間類似度算出部141は、(シートXの項目パスのうち、シートY上にも存在する項目パスの数/シートXの項目パスの数)をテンプレートのシートXと比較帳票のシートYとのシート類似度として算出する。シート間類似度算出部141は、このような処理をテンプレートのすべてのシートと、比較帳票のすべてのシートとのペアについて実行する。
(シート類似度の算出方法(2))
また、シート間類似度算出部141は、上記のシートXおよびシートYの各項目パスの文字列や順序等から類似度(項目パス同士の類似度)を求めて、その類似度が最大となる項目パス同士のマッチング関係(対応関係)をとり、そのマッチング関係における類似度の総和をシート類似度として算出してもよい。
例えば、上記のシートXの項目パスiとシートYの項目パスjとの類似度cijを、項目名s[k](項目パスiのk番目の項目名)と項目名s[k](項目パスjのk番目の項目名)の組み合わせの中で、類似度が最大のものとする場合、シート間類似度算出部141は、以下の式(1)により算出する。なお、項目名の類似度の算出に用いるf()は、例えば、ダイス係数、ジャガード係数、シンプソン係数等の一般的な類似度算出指標を用いればよい。
Figure 0006317280
そして、シート間類似度算出部141は、上記の式(1)により類似度cijを求めた後、テンプレートのシートXの項目パス集合Tと比較帳票のシートYの項目パス集合Fについて、以下の式(2)により、それぞれの項目パス同士のマッチング問題を解く。つまり、シート間類似度算出部141は、類似度cijが最大となるマッチング関係(対応関係xij)を算出し、その対応関係xijにおける類似度cijの総和をシート類似度として算出する。
Figure 0006317280
なお、シート間対応関係算出部141は、上記のシート類似度を算出する際、上記の項目パスのみならず、シート名、作成者、作成日、ファイル名等のファイル情報を用いて算出してもよい。
次に、シート間対応関係算出部142を説明する。シート間対応関係算出部142は、シート間類似度算出部141により算出されたシート類似度に基づいてテンプレートおよび比較帳票のシート同士の尤もらしい対応関係を求める。例えば、シート間対応関係算出部142は、図5に示すように、テンプレートの各シート(シート1〜N)それぞれが、比較帳票の各シート(シート1〜M)のどのシートと対応するかを、シート同士の類似度(シート類似度)を用いたマッチング問題を解くことにより求める。
例えば、テンプレートのシートkと比較帳票のシートlとのシート類似度wklは以下の式(3)により表される。
Figure 0006317280
そして、シート間対応関係算出部142は、テンプレートのシート集合Sと、比較帳票のシート集合Sについて、シート類似度wklを用いて、以下の式(4)により、それぞれのシート同士のマッチング問題を解く。つまり、シート間対応関係算出部142は、シート類似度wklが最大となるシート同士のマッチング関係(対応関係zkl)を算出する。
Figure 0006317280
対象帳票判定部143は、シート間対応関係算出部142により求められた、テンプレートおよび比較帳票のシート同士の尤もらしい対応関係(zkl)と閾値情報とを用いて、比較帳票がテンプレートと同種の帳票ファイルか否かを判定する。以下、判定方法の例を2つ挙げる。
(シート類似度を用いる方法(1))
例えば、対象帳票判定部143は、シート間対応関係算出部142において対応関係のある(つまり、zkl=1)のテンプレートのシートと比較帳票のシートとのシート類似度(wkl)の最小値が、閾値情報に示される所定の閾値Aを超えるとき、当該比較帳票をテンプレートと同種の帳票ファイルと判定する。つまり、対象帳票判定部143は、対応関係のあるシート間のシート類似度(wkl)のすべてが所定の閾値Aを超えるとき、当該比較帳票をテンプレートと同種の帳票ファイルと判定する。
(シート類似度を用いる方法(2))
また、対象帳票判定部143は、対応関係のあるテンプレートのシートと比較帳票のシートの間のシート類似度(wkl)の平均値または合計値が所定の閾値Bを超えるとき、当該比較帳票をテンプレートと同種の帳票ファイルと判定してもよい。なお、対応関係のあるシート間のシート類似度(wkl)の平均値は、対応関係のあるシート間のシート類似度(wkl)の合計値を、テンプレートに含まれるシート数で割った値である。
なお、上記の判定に用いられる閾値Aや閾値Bは、同種帳票ファイル選定装置10のユーザが適宜設定することができる。このようにすることで、対象帳票判定部143がテンプレートと同種の帳票ファイルを判定する際、シートの項目名の揺らぎをどの程度許容するかをユーザが設定することができる。
(処理手順)
次に、図6を用いて、同種帳票ファイル選定装置10の処理手順を説明する。なお、以下の説明において、比較帳票群は事前に比較帳票群記憶部132に記憶されているものとする。
まず、同種帳票ファイル選定装置10の入力部11はテンプレートの入力を受け付ける(S1)と、このテンプレートをテンプレート記憶部131に記憶する。そして、制御部14は、比較帳票群の比較帳票ごとに、S2〜S4の処理を繰り返す。
すなわち、シート間類似度算出部141はテンプレートの木構造と比較帳票の木構造とをシートごとに比較し、それぞれのシート間のシート類似度を算出する(S2:シート類似度算出)。次に、シート間対応関係算出部142は、S2で算出されたシート類似度に基づいてテンプレートおよび比較帳票のシート同士の尤もらしい対応関係を求める(S3:シート間対応関係算出)。そして、対象帳票判定部143は、S3で求めたテンプレートおよび比較帳票のシート同士の尤もらしい対応関係(zkl)と、閾値情報とを用いて、比較帳票がテンプレートと同種の帳票ファイルか否かを判定する(S4)。
そして、制御部14は、比較帳票群の比較帳票すべてについて、S2〜S4の処理を実行すると、テンプレートと同種と判定された比較帳票(帳票ファイル)を出力する(S5:判定結果出力)。つまり、制御部14は、比較帳票群から、テンプレートと同種の比較帳票(帳票ファイル)を選定し、出力部12経由で出力する。
このようにすることで、同種帳票ファイル選定装置10は、帳票ファイルにおける項目の並び等の論理構造を考慮して、比較帳票群からテンプレートと同種の比較帳票を選定することができる。
次に、図7を用いて、図6のS2(シート類似度算出)において、前記したシート類似度の算出方法(1)によりシート類似度を算出する場合の処理手順を説明する。
まず、シート間類似度算出部141は、一致する項目パスの数のカウントに用いるカウント値に「0」をセットする(S11)。そして、シート間類似度算出部141は、シートXの各項目パスiについて、S12とS13の処理を繰り返すことで、シートY上にシートXの項目パスと一致する項目パスがいくつあるかをカウントする。すなわち、シート間類似度算出部141は、シートY上に項目パスiと一致する項目パスが1つ以上あるか否かを判定し(S12)、一致する項目パスが1つ以上あれば(S12でYes)、カウント値を1加算し(S13)、一致する項目パスがなければ(S12でNo)、S13をスキップする。そして、シート間類似度算出部141は、シートXの項目パスすべてについて、S12の処理を実行すると、(シートY上にシートXと一致する項目パスがある個数/シートXの項目パス数)を、シートXとシートYとのシート類似度として算出する(S14)。
また、図8を用いて、図6のS2(シート類似度算出)において、前記したシート類似度の算出方法(2)によりシート類似度を算出する場合の処理手順を説明する。
まず、シート間類似度算出部141は、シートXの各項目パスiについて、例えば、式(1)に基づき、シートYの各項目パスjとの類似度を算出し(S21:項目パスの類似度を算出)、その後、例えば、式(2)に基づき、シートX、シートYについての項目パス同士のマッチング問題を解く(S22)。つまり、シート間類似度算出部141は、式(1)により、上記のシートXの各項目パスとシートYの各項目パスとの類似度(項目パスの類似度)を算出し、その類似度が最大となるマッチング関係(対応関係)を求める。そして、シート間類似度算出部141は、S22で解いた項目パス同士のマッチング問題の最適値をシート類似度として算出する(S24)。例えば、シート間類似度算出部141は、S22で求めた対応関係xijにおける項目パスの類似度cijの総和を、シートXとシートYのシート類似度として算出する。
このようにすることで、シート間類似度算出部141は、シートXとシートYとのシート類似度を算出することができる。
次に、図9を用いて、図6のS3(シート間対応関係算出)の処理手順の詳細を説明する。シート間類似度算出部141は、図6のS2で求めたテンプレートおよび比較帳票それぞれのシート同士の類似度(シート類似度)を用いて、式(4)に基づき、テンプレート、比較帳票についてシート同士のマッチング問題を解く(S31)。つまり、シート間対応関係算出部142は、式(4)により、テンプレートおよび比較帳票のシート同士の尤もらしい対応関係(zkl)を求める。シート間対応関係算出部141は、このような処理を比較帳票群の各比較帳票について実行し、求めた対応関係(zkl)を対象帳票判定部143へ出力する。
以上説明した同種帳票ファイル選定装置10によれば、帳票ファイルにおける項目名の並びの論理構造を考慮し、比較帳票がテンプレートと同種の帳票ファイルか否かを判定するので、比較帳票に複数の種別の帳票が混在する場合でも、ユーザが求める帳票ファイルを選定することができる。また、同種帳票ファイル選定装置10は、比較帳票がテンプレートと同種の帳票ファイルか否かを判定する際、類似度(シート類似度)の閾値を用いるので、帳票ファイルの項目名の揺らぎを許容した判定を行うことができる。さらに、同種帳票ファイル選定装置10は、帳票ファイル間でシート同士の尤もらしい対応関係を求めた上で、同種の帳票ファイルか否かの判定を行うので、比較帳票におけるシート順が、テンプレートのシート順と異なる場合でも、同種の帳票ファイルとして判定することができる。
(その他の実施形態)
なお、対象帳票判定部143は、比較帳票がテンプレートと同種の帳票ファイルであるか否かを判定する際、前記したシート類似度を用いる方法(1)またはシート類似度を用いる方法(2)に加え、以下の方法を組み合わせて判定してもよい。
例えば、対象帳票判定部143は、シート類似度を用いる方法(1)またはシート類似度を用いる方法(2)により、テンプレートと同種の帳票ファイルと判定した比較帳票について、シート間対応関係算出部142において対応関係があると判断されたシートを取り出す。そして、そのシート間で、シート間類似度算出部141において対応関係があると判断された各項目パスの類似度の最小値が所定の閾値を超えるとき、対象帳票判定部143は、比較帳票はテンプレートと同種の帳票ファイルであると判定する。つまり、対応関係があるシート間で対応関係xij=1をとるすべての項目パスの類似度cijが所定の閾値を超えていれば、対象帳票判定部143は、当該比較帳票をテンプレートと同種の帳票ファイルと判定する。
また、シート間対応関係算出部142において対応関係があると判断されたシート間で、シート間類似度算出部141において対応関係があると判断された各項目パスの類似度の平均値が所定の閾値を超えるとき、対象帳票判定部143は、比較帳票がテンプレートと同種の帳票ファイルであると判定してもよい。つまり、対象帳票判定部143は、対応関係のあるシート間で対応関係xij=1をとるすべての項目パスの類似度cijの合計値を、テンプレートにおける当該対応関係のあるシートの項目パス数で割った値が、所定の閾値を超えていれば、対象帳票判定部143は、当該比較帳票をテンプレートと同種の帳票ファイルと判定する。また、対象帳票判定部143は、上記の各項目パスの類似度の平均値に代えて、各項目パスの類似度の合計値を用いて判定してももちろんよい。
このようすることで、シート間類似度算出部141は、シート間対応関係算出部142において対応関係があると判定されたシートについて、実際にシート間で項目パス同士が類似しているかを考慮して、比較帳票がテンプレートと同種の帳票ファイルであるか否かを判定することができる。
また、同種帳票ファイル選定装置10は、シート間対応関係算出部142によりテンプレートおよび比較帳票の各シートの尤もらしい対応関係を求めた後、対応関係のあるシート同士の項目パスの差分や、対応関係が得られなかったシート等を出力してもよい。このようにすることで、ユーザは、テンプレートに対し、比較帳票に過不足な項目パスやシートを確認することができる。
(プログラム)
また、上記実施形態に係る同種帳票ファイル選定装置10が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成し、実行することもできる。この場合、コンピュータがプログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかるプログラムをコンピュータに読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませて実行することにより上記実施形態と同様の処理を実現してもよい。以下に、同種帳票ファイル選定装置10と同様の機能を実現する制御プログラムを実行するコンピュータの一例を説明する。
図10は、同種帳票ファイル選定プログラムを実行するコンピュータを示す図である。図10に示すように、コンピュータ1000は、例えば、メモリ1010と、CPU(Central Processing Unit)1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011およびRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。ディスクドライブ1100には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1110およびキーボード1120が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1130が接続される。
ここで、図10に示すように、ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。上記実施形態で説明した各帳票ファイルや閾値情報は、例えばハードディスクドライブ1090やメモリ1010に記憶される。
また、同種帳票ファイル選定プログラムは、例えば、コンピュータ1000によって実行される指令が記述されたプログラムモジュールとして、ハードディスクドライブ1090に記憶される。具体的には、上記実施形態で説明した同種帳票ファイル選定装置10が実行する各処理が記述されたプログラムモジュールが、ハードディスクドライブ1090に記憶される。
また、同種帳票ファイル選定プログラムによる情報処理に用いられるデータは、プログラムデータとして、例えば、ハードディスクドライブ1090に記憶される。そして、CPU1020が、ハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。
なお、同種帳票ファイル選定プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、制御プログラムに係るプログラムモジュール1093やプログラムデータ1094は、LAN(Local Area Network)やWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
10 同種帳票ファイル選定装置
11 入力部
12 出力部
13 記憶部
14 制御部
131 テンプレート記憶部
132 比較帳票群記憶部
133 閾値情報記憶部
141 シート間類似度算出部
142 シート間対応関係算出部
143 対象帳票判定部

Claims (7)

  1. 1以上のシートからなる帳票ファイルについて、比較帳票ファイルがテンプレート帳票ファイルと同種の帳票ファイルを選定する同種帳票ファイル選定装置であって、
    前記テンプレート帳票ファイルの各シートの項目の並びを示す木構造を記憶するテンプレート記憶部と、
    1以上の比較帳票ファイルの各シートの項目の並びを示す木構造を記憶する比較帳票群記憶部と、
    前記テンプレート記憶部に記憶された木構造と前記比較帳票群記憶部に記憶された木構造とをシートごとに比較し、シート間の木構造の類似度であるシート類似度を算出するシート間類似度算出部と、
    算出されたシート類似度に基づいて前記テンプレート帳票ファイルおよび前記比較帳票ファイルのシート同士の尤もらしい対応関係を求めるシート間対応関係算出部と、
    前記対応関係のあるシート同士のシート類似度に基づき、前記比較帳票ファイルが前記テンプレート帳票ファイルと同種の帳票ファイルか否かを判定する判定部とを備えることを特徴とする同種帳票ファイル選定装置。
  2. 前記シート間対応関係算出部は、
    前記シート同士のシート類似度の総和が最大となるような前記対応関係を求めることを特徴とする請求項1に記載の同種帳票ファイル選定装置。
  3. 前記シート間類似度算出部は、
    前記シート間で、前記シートの木構造を構成する項目パス同士の類似度の総和が最大となるような項目パスの組み合わせを算出し、当該組み合わせにおける項目パスの類似度の総和を前記シート類似度として算出とすることを特徴とする請求項1または請求項2に記載の同種帳票ファイル選定装置。
  4. 前記判定部は、
    前記対応関係のあるシート同士のシート類似度の最小値が所定の閾値を超えるとき、前記シートを含む比較帳票ファイルについて前記テンプレート帳票ファイルと同種の帳票ファイルと判定することを特徴とする請求項1〜3のいずれか1項に記載の同種帳票ファイル選定装置。
  5. 前記判定部は、
    前記対応関係のあるシート同士のシート類似度の平均値が所定の閾値を超えるとき、前記シートを含む比較帳票ファイルについて前記テンプレート帳票ファイルと同種の帳票ファイルと判定することを特徴とする請求項1〜3のいずれか1項に記載の同種帳票ファイル選定装置。
  6. 1以上のシートからなる帳票ファイルについて、比較帳票ファイルがテンプレート帳票ファイルと同種の帳票ファイルを選定する同種帳票ファイル選定方法であって、
    前記テンプレート帳票ファイルの各シートの項目の並びを示す木構造と前記比較帳票ファイルの各シートの項目の並びを示す木構造とをシートごとに比較し、シート間の木構造の類似度であるシート類似度を算出するステップと、
    算出されたシート類似度に基づいて前記テンプレート帳票ファイルおよび前記比較帳票ファイルのシート同士の尤もらしい対応関係を求めるステップと、
    前記対応関係のあるシート同士のシート類似度に基づき、前記比較帳票ファイルが前記テンプレート帳票ファイルと同種の帳票ファイルか否かを判定するステップとを含んだことを特徴とする同種帳票ファイル選定方法。
  7. 1以上のシートからなる帳票ファイルについて、比較帳票ファイルがテンプレート帳票ファイルと同種の帳票ファイルを選定する同種帳票ファイル選定プログラムであって、
    前記テンプレート帳票ファイルの各シートの項目の並びを示す木構造と前記比較帳票ファイルの各シートの項目の並びを示す木構造とをシートごとに比較し、シート間の木構造の類似度であるシート類似度を算出するステップと、
    算出されたシート類似度に基づいて前記テンプレート帳票ファイルおよび前記比較帳票ファイルのシート同士の尤もらしい対応関係を求めるステップと、
    前記対応関係のあるシート同士のシート類似度に基づき、前記比較帳票ファイルが前記テンプレート帳票ファイルと同種の帳票ファイルか否かを判定するステップとをコンピュータに実行させることを特徴とする同種帳票ファイル選定プログラム。
JP2015031713A 2015-02-20 2015-02-20 同種帳票ファイル選定装置、同種帳票ファイル選定方法、および、同種帳票ファイル選定プログラム Active JP6317280B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015031713A JP6317280B2 (ja) 2015-02-20 2015-02-20 同種帳票ファイル選定装置、同種帳票ファイル選定方法、および、同種帳票ファイル選定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015031713A JP6317280B2 (ja) 2015-02-20 2015-02-20 同種帳票ファイル選定装置、同種帳票ファイル選定方法、および、同種帳票ファイル選定プログラム

Publications (2)

Publication Number Publication Date
JP2016153953A JP2016153953A (ja) 2016-08-25
JP6317280B2 true JP6317280B2 (ja) 2018-04-25

Family

ID=56761340

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015031713A Active JP6317280B2 (ja) 2015-02-20 2015-02-20 同種帳票ファイル選定装置、同種帳票ファイル選定方法、および、同種帳票ファイル選定プログラム

Country Status (1)

Country Link
JP (1) JP6317280B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7350674B2 (ja) * 2020-02-26 2023-09-26 株式会社東芝 情報処理装置、情報処理方法、およびプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0554026A (ja) * 1991-08-29 1993-03-05 Hitachi Ltd 帳票書式作成方法
JPH05204981A (ja) * 1991-09-20 1993-08-13 Hitachi Ltd 情報記憶・検索システム及びその表示方法
JP4065484B2 (ja) * 2001-11-06 2008-03-26 キヤノン株式会社 帳票検索システム
JP2006243832A (ja) * 2005-02-28 2006-09-14 Ricoh Co Ltd ワークフロー検索システム
JP4992072B2 (ja) * 2005-08-16 2012-08-08 国立大学法人東京工業大学 複数のxml文書の類似性検出システム、および、複数のxml文書の統合システム
JP4783339B2 (ja) * 2007-07-31 2011-09-28 株式会社日立製作所 半構造データ差分管理方法、半構造データ差分管理プログラムおよび半構造データ差分管理システム
US8145674B2 (en) * 2007-11-26 2012-03-27 International Business Machines Corporation Structure based storage, query, update and transfer of tree-based documents
WO2011044865A1 (de) * 2009-10-12 2011-04-21 Beel Joeran Verfahren zum bestimmen einer ähnlichkeit von objekten
JP2011145789A (ja) * 2010-01-13 2011-07-28 Hitachi Solutions Ltd タスク登録支援手段を有するタスク管理システム

Also Published As

Publication number Publication date
JP2016153953A (ja) 2016-08-25

Similar Documents

Publication Publication Date Title
JP6402265B2 (ja) 意思決定モデルを構築する方法、コンピュータデバイス及び記憶デバイス
US10423647B2 (en) Descriptive datacenter state comparison
US8086548B2 (en) Measuring document similarity by inferring evolution of documents through reuse of passage sequences
JP2017224184A (ja) 機械学習装置
JP6299759B2 (ja) 予測関数作成装置、予測関数作成方法、及びプログラム
JP6167767B2 (ja) インデックス生成装置及び検索装置
US20120102069A1 (en) Data migration system and data migration method
CN109165119B (zh) 一种电子商务数据处理方法和系统
JP6242540B1 (ja) データ変換システム及びデータ変換方法
US10346450B2 (en) Automatic datacenter state summarization
US20170308391A1 (en) Information processing apparatus, information processing method, and recording medium
JP6201556B2 (ja) 予測モデル学習装置、予測モデル学習方法およびコンピュータプログラム
US9524354B2 (en) Device, method, and program for processing data with tree structure
US20150169379A1 (en) Information processing method, information processing device, and recording medium
JP6191440B2 (ja) スクリプト管理プログラム、スクリプト管理装置及びスクリプト管理方法
JP6317280B2 (ja) 同種帳票ファイル選定装置、同種帳票ファイル選定方法、および、同種帳票ファイル選定プログラム
JP7427896B2 (ja) データベースの分割システム、データベースの分割方法、及びデータベースの分割プログラム
JP6958618B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP7384345B2 (ja) 特許情報処理装置、特許情報処理方法、およびプログラム
JP2006155344A (ja) データ分析装置、データ分析プログラム及びデータ分析方法
US10621155B2 (en) Method and apparatus for data integration
JP5515117B2 (ja) データ処理装置
JP6213665B2 (ja) 情報処理装置、及び、クラスタリング方法
US20120192011A1 (en) Data processing apparatus that performs test validation and computer-readable storage medium
JP2021152751A (ja) 分析支援装置及び分析支援方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170307

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180327

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180329

R150 Certificate of patent or registration of utility model

Ref document number: 6317280

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150