JP2011253443A - データ処理装置 - Google Patents

データ処理装置 Download PDF

Info

Publication number
JP2011253443A
JP2011253443A JP2010128173A JP2010128173A JP2011253443A JP 2011253443 A JP2011253443 A JP 2011253443A JP 2010128173 A JP2010128173 A JP 2010128173A JP 2010128173 A JP2010128173 A JP 2010128173A JP 2011253443 A JP2011253443 A JP 2011253443A
Authority
JP
Japan
Prior art keywords
input
data
value
area
input area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2010128173A
Other languages
English (en)
Inventor
Masataka Yamada
正隆 山田
Seiichiro Tanaka
誠一郎 田中
Kazuyoshi Nishi
一嘉 西
Michiyo Ikegami
美千代 池上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2010128173A priority Critical patent/JP2011253443A/ja
Publication of JP2011253443A publication Critical patent/JP2011253443A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】表形式データ中の必要なデータの抽出を自動で行なう。
【解決手段】実施形態によれば、項目名が入力された表形式データを記憶し、表形式データの入力領域についての項目名の値を入力し、入力後の表形式データにおける、入力により値に差分が生じた入力領域の値と入力後の表形式データにおける当該入力領域の位置情報とを有する差分情報を抽出し、抽出した差分情報の位置情報で示される入力領域の値のデータ形式と当該入力領域から所定方向に沿った先の入力領域の値の入力状態とを比較することで、項目名と当該項目名の値が入力される入力領域の位置情報とを判定し、判定結果をもとに、判定した項目名の値が入力される入力領域の位置情報を示す定義ファイルを生成し、定義ファイルをもとに、項目名と当該項目名の値との対応関係を示すデータを当該表形式データから抽出する。
【選択図】 図5

Description

本発明の実施形態は、表形式データのデータ処理装置に関する。
従来、データ入力に用いるソフトウェアとして、データ入力の容易さ、及び入力形式の汎用性から、表計算ソフトウェアなどが用いられている。この表計算ソフトウェアにより作成した表形式データは、人が閲覧するのには適しているが、目的外の処理、例えば、入力した表形式データをシステムから直接参照する処理を行なうことは困難である。表計算ソフトウェアは、行と列に区切られた表形式の矩形の入力領域に自由にデータを配置できるため、表形式データ中のどの位置の入力領域に入力されたデータがどのような意味を示しているのかをシステムが自動的に判定する事はできない。
そこで、システムにより表形式データを参照するために、当該表形式データ中の入力領域のうち、入力されたデータの抽出対象の入力領域の位置を記述した定義ファイルを作成して、この定義ファイルを元に表形式データから必要なデータを抽出している。
特開2005−284754号公報 特開2005−352774号公報
しかし、前述したように表形式データから必要なデータを抽出するには、オペレータが手動操作によりで定義ファイルを作成して、帳票のどの部分を抽出するのかを手動操作で指定する必要があった。
本発明が解決しようとする課題は、表形式データ中の必要なデータの抽出を自動で行なうことにある。
実施形態によれば、複数の入力領域を有し、これらの入力領域のうち所定の入力領域に項目名が入力された表形式データを記憶する表形式データ記憶手段と、前記表形式データの入力領域についての前記項目名の値の入力操作を受け付ける入力手段と、前記入力手段による入力後の表形式データにおける、前記入力手段による入力により値に差分が生じた入力領域の値と前記入力後の表形式データにおける当該入力領域の位置情報とを有する差分情報を抽出する差分情報抽出手段とをもつ。
第1の実施形態におけるデータ処理システムによる、表形式データからのデータ抽出用定義ファイルの従来の生成手順を説明する図。 第1の実施形態におけるデータ処理システムによる、表形式データからのデータ抽出用定義ファイルの従来の生成手順を説明する図。 第1の実施形態におけるデータ処理システムによる、表形式データからのデータ抽出用定義ファイルの従来の生成手順を説明する図。 第1の実施形態におけるデータ処理装置の機能概要を示す図。 第1の実施形態におけるデータ処理装置の構成例を示すブロック図。 第1の実施形態におけるデータ処理装置の処理動作の一例を示すフローチャート。 第1の実施形態におけるデータ処理装置による処理対象の表形式データの形式の一例を示す図。 第1の実施形態におけるデータ処理装置による処理対象の表形式データの保存状態の一例を表形式で示す図。 第1の実施形態におけるデータ処理装置による処理対象の表形式データのデータ入力後の形式の一例を示す図。 第1の実施形態におけるデータ処理装置による処理対象の表形式データの入力データの保存状態の一例を表形式で示す図。 第1の実施形態におけるデータ処理装置による差分情報の抽出結果の一例を表形式で示す図。 第1の実施形態におけるデータ処理装置による定義ファイル生成処理の処理手順の一例を示すフローチャート。 第1の実施形態におけるデータ処理装置による差分領域に含まれる連続領域の一例を表形式で示す図。 第1の実施形態におけるデータ処理装置による差分領域に含まれる連続領域についての項目名の判定結果の一例を表形式で示す図。 第1の実施形態におけるデータ処理装置による差分領域に含まれる連続領域についての項目名の判定結果の一例を表形式で示す図。 第1の実施形態におけるデータ処理装置による差分領域に含まれる連続領域についての項目名の判定結果の一例を表形式で示す図。 第1の実施形態におけるデータ処理装置による差分領域に含まれる連続領域についての項目名の判定結果の一例を表形式で示す図。 第1の実施形態におけるデータ処理装置による定義ファイルの生成結果の一例を表形式で示す図。 第1の実施形態におけるデータ処理装置により生成した定義ファイルにしたがったデータ抽出結果の一例を表形式で示す図。 第2の実施形態におけるデータ処理装置による処理対象の第1の表形式データの形式の一例を示す図。 第2の実施形態におけるデータ処理装置による処理対象の第1の表形式データの保存状態の一例を表形式で示す図。 第2の実施形態におけるデータ処理装置による処理対象の第2の表形式データの形式の一例を示す図。 第2の実施形態におけるデータ処理装置による処理対象の第2の表形式データの保存状態の一例を表形式で示す図。 第2の実施形態におけるデータ処理装置による第1の表形式データ及び第2の表形式データの差分情報の抽出結果の一例を表形式で示す図。 第2の実施形態におけるデータ処理装置による複数の表形式データの差分情報の抽出について説明する図。 第2の実施形態におけるデータ処理装置による複数の表形式データの差分情報の抽出について説明する図。 第2の実施形態におけるデータ処理装置による差分情報の分割について説明する図。 第2の実施形態におけるデータ処理装置による定義ファイルの生成結果の一例を表形式で示す図。 第2の実施形態におけるデータ処理装置により生成した定義ファイルにしたがったデータ抽出結果の一例を表形式で示す図。
以下、実施の形態について、図面を参照して説明する。
本実施形態では、データ処理装置により、表形式データ中の必要なデータを抽出するための定義ファイルを当該表形式データから自動生成する方法を提供する。
まず、データ処理装置は、表形式データを常時監視して当該表形式データの変更履歴を記憶して、この変更履歴をもとに表形式データの差分情報を作成し、この差分情報をもとに表形式データから抽出すべきデータを推定して、定義ファイルを自動生成する。表形式データは、テンプレートを元にして入力領域にデータ(値)を入力することが多い。この場合、データ処理装置は、最初に表形式データが作成されてからの変更された部分が抽出すべきデータと推測することができる。
また、データ処理装置は、同じテンプレートから作成された複数の表形式データを比較して、これらの表形式データ間の相違部分である差分情報をもとに、抽出対象としたいずれかの表形式データから抽出すべきデータを推定して定義ファイルを自動生成することもできる。この場合、データ処理装置は、同じテンプレートの表形式データの複数のファイルの異なっている部分が抽出すべきデータと推測することができる。
(第1の実施形態)
まず、第1の実施形態について説明する。以下、第1の実施形態におけるデータ処理システムによる、表形式データからのデータ抽出用定義ファイルの生成手順について説明する。図1、図2、図3は、第1の実施形態におけるデータ処理システムによる、表形式データからのデータ抽出用定義ファイルの生成手順を説明する図である。
図1に示した表形式データでは、矩形の入力領域が行方向、つまり図1に示した横方向に沿って3つ連続し、かつ、列方向、つまり図1に示した縦方向に沿って5つ連続してなる15の入力領域にデータが入力されている。これらの領域の右側において列方向に沿って連続した領域C1,C2,C3,C4,C5は差分として抽出された領域である。これらの領域C1,C2,C3,C4,C5は列方向に沿って連続しているため、データ処理システムは、領域C1,C2,C3,C4,C5から行方向に沿って1つ左に連続する各領域にデータの入力がされているかどうかを判定する。
図1に示した表形式データでは、前述した1つ左に連続する各領域にデータの入力がなされており、かつ、これらの領域のデータの型(日付、文字列、数値など)は、領域C1,C2,C3,C4,C5のデータの型と同じである。この場合、データ処理装置は、前述した1つ左に連続する各領域から行方向に沿ってさらに1つ左に連続する領域C6,C7,C8,C9,C10を抽出すべきデータ領域と判定し、これらの領域C6,C7,C8,C9,C10にデータの入力がされているかどうかを判定する。
図1に示した表形式データでは、領域C6,C7,C8,C9,C10のデータの型は、領域C1,C2,C3,C4,C5のデータの型と異なる。この場合、データ処理装置は、領域C6,C7,C8,C9,C10に入力されるデータが項目名と判定する。
図2に示した表形式データは、図1に示した表形式データと同じ構成の入力領域を有し、これらの入力領域の下側において行方向に沿って連続した領域C11,C12,C13が差分として抽出された領域である。これらの領域C11,C12,C13は、行方向に沿って連続しているため、データ処理システムは、領域C11,C12,C13から列方向に沿って1つ上に連続する各領域にデータの入力がされているかどうかを判定する。
図2に示した表形式データでは、前述した1つ上に連続する各領域にもデータの入力がなされており、これらの領域のデータの型は、領域C11,C12,C13のデータの型と同じである場合、前述した1つ上に連続する各領域に対してさらに1つ上に連続する各領域にデータの入力がされているかどうかを判定する。
図2に示した表形式データでは、これらの領域C11,C12,C13から列方向に沿って1つ上、2つ上、3つ上に連続する各領域についてデータの入力がなされており、かつ、これらの領域のデータの型が領域C11,C12,C13のデータの型と同じであるため、データ処理システムは、領域C11,C12,C13から列方向に沿って4つ上に連続する領域C14,C15,C16にデータが入力されているかどうかを判定する。図2に示した表形式データでは、領域C14,C15,C16のデータの型は領域C11,C12,C13のデータの型と異なるため、データ処理装置は、領域C14,C15,C16に入力されるデータが項目名と判定する。
図3に示した表形式データは、短形の入力領域が行方向に沿って4つ連続し、かつ、列方向に沿って2つ連続してなる8つの入力領域である第1の入力領域群を有するとともに、短形の入力領域が行方向に沿って4つ連続し、かつ列方向に沿って3つ連続してなる12の入力領域であり、図3に示した表形式データにおいて第1の入力領域群より下側に位置する第2の入力領域群を有する。
第1の入力領域群のうち、図3に示した表形式データにおける下端において行方向に沿って連続した領域C21,C22,C23,C24が差分として抽出された領域である。
また、第2の入力領域群のうち左端からみて2つ目において列方向に沿って連続した領域C25,C26,C27、および第2の入力領域群のうち右端において列方向に沿って連続した領域C28,C29,C30は差分として抽出された領域である。
データ処理装置は、差分として抽出された領域が行方向に沿って連続しているときは、その領域から列方向に沿って1つ上に連続する領域にデータ入力された領域があるかどうかを判定する。
また、データ処理装置は、差分として抽出された領域が列方向に沿って連続しているときは、その領域から行方向に沿って1つ左に連続する領域に入力された領域があるかどうかを判定する。
具体的には、図3に示した表形式データにおける第1の入力領域群中の領域C21,C22,C23,C24は行方向に沿って連続しているため、データ処理システムは、これらの領域C21,C22,C23,C24から列方向に沿って1つ上に連続する領域C31,C32,C33,C34に入力がされているかどうかを判定する。
図2に示した表形式データでは、領域C31,C32,C33,C34にデータが入力されており、これらの領域のデータの型は領域C21,C22,C23,C24のデータの型と異なる。また、図3に示した表形式データでは、領域C31,C32,C33,C34からから列方向に沿って1つ上に連続する領域に入力がない。この場合データ処理システムは、領域C31,C32,C33,C34に入力されるデータが項目名と判定する。
また、図3に示した表形式データにおける第2の入力領域群中の領域C25,C26,C27は列方向に沿って連続しているため、データ処理システムは、これらの領域C25,C25,C27から行方向に沿って1つ左に連続する領域C35,C36,C37、つまり左端部の領域にデータの入力がされているかどうかを判定する。
図3に示した表形式データでは、領域C35,C36,C37にデータが入力されており、これらの領域のデータの型は領域C25,C26,C27のデータの型と異なる。また、これらの領域C25,C26,C27から行方向に沿って1つ左に連続する領域に入力がなされていない。この場合、データ処理システムは、領域C35,C36,C37に入力されるデータが項目名と判定する。
また、図3に示した表形式データにおける第2の入力領域群中の領域C28,C29,C30は列方向に沿って連続しているため、データ処理システムは、これらの領域C28,C29,C30から行方向に沿って1つ左に連続する領域C38,C39,C40にデータの入力がされているかどうかを判定する。
図3に示した表形式データでは、領域C38,C39,C40にデータが入力されており、これらの領域のデータの型は領域C28,C29,C30のデータの型と異なる。また、これらの領域C28,C29,C30から行方向に沿って1つ左に連続する領域は差分として抽出された領域である。この場合、データ処理システムは、領域C38,C39,C40に入力されるデータが項目名と判定する。
このような処理を行うことにより、表形式データからの必要なデータの抽出を自動化することができるので、人手で定義ファイルを作成する手間を省くことができる。
図4は、第1の実施形態におけるデータ処理装置の機能概要を示す図である。
図4中の実線で囲まれた「(B)差分抽出」,「(C)差分情報」,「(D)定義生成」,「(E)定義ファイル」,「(F)データ抽出」は、第1の実施形態におけるデータ処理装置が有する機能や情報であり、これらのうち図4中の点線で囲まれた「(C)差分情報」,「(D)定義生成」,「(E)定義ファイル」は、定義ファイルを手作業ではなく自動生成する機能を実現するための機能および情報である。
図4に示した「(A)表形式データ」は、データを抽出する対象となる表形式データファイルである。
図4に示した「(B)差分抽出」は、「(A)表形式データ」のファイルを監視して、当該ファイルの変更履歴から差分情報を抽出する機能を有する。また、この「(B)差分抽出」は、複数の表形式データファイルの相違部分から差分情報を抽出すること機能も有する。「(B)差分抽出」は、抽出した差分情報を「(C)差分情報」として保存する。「(B)差分抽出」は、差分情報を抽出したら、「(D)定義生成」と「(F)データ抽出」に対し、差分情報を抽出したことを通知する。
「(C)差分情報」は、「(B)差分抽出」により抽出された情報である。
「(D)定義生成」は、差分情報を抽出したことが「(B)差分抽出」から通知されたら、「(A)表形式データ」と「(C)差分情報」から表形式データを参照して、データを「(A)表形式データ」から抽出する情報を指定するための定義ファイルを生成する。
「(E)定義ファイル」は、「(A)表形式データ」からデータを抽出する情報を指定した定義ファイルである。
「(F)データ抽出」は、差分を抽出したことが「(B)差分抽出」から通知されたら、「(E)定義ファイル」が作成されるのを待ってから、この「(E)定義ファイル」に従って、「(A)表形式データ」からデータを抽出する。
「(G)データ」は、「(F)データ抽出」により抽出されたデータである。「(H)DB更新」は、抽出した「(C)データ」の内容を「(I)データベース」に登録する。「(I)DB」は、抽出した「(C)データ」を登録するデータベースである。
図5は、第1の実施形態におけるデータ処理装置の構成例を示すブロック図である。
図5に示すように、第1の実施形態におけるデータ処理装置は、装置全体の処理動作を司る制御部1、記憶装置2、差分抽出部3、定義ファイル生成部4、データ抽出部5、更新処理部6、キーボードやマウスなどの入力装置7、液晶ディスプレイなどの表示装置8を備え、それぞれがバス9を介して相互に接続される。
記憶装置2は、不揮発性メモリやハードディスクドライブなどの記憶媒体であり、差分抽出部3、定義ファイル生成部4、データ抽出部5、更新処理部6による処理動作のために実行するプログラムを記憶する他、表形式データ記憶部21、差分情報記憶部22、定義ファイル記憶部23、抽出データ記憶部24を有する。
図6は、第1の実施形態におけるデータ処理装置の処理動作の一例を示すフローチャートである。
まず、表形式データの初期データ、つまりテンプレートの入力領域に対して項目名が入力されたデータが記憶装置2の表形式データ記憶部21に記憶されている状態で(ステップS1)、入力装置7への入力操作により、この表形式データにおける入力領域への値の入力がなされると(ステップS2)、差分抽出部3は、ステップS2による入力前後の表形式データ間の差分情報を抽出し、この差分情報を記憶装置2の差分情報記憶部22に記憶する(ステップS3)。
そして、定義ファイル生成部4は、この差分情報をもとに、表形式データからの項目名と値との対応関係のデータ抽出のための定義ファイルを生成し、この定義ファイルを記憶装置2の定義ファイル記憶部23に記憶する(ステップS4)。
そして、データ抽出部5は、定義ファイル生成部4により生成された定義ファイルをもとに、ステップS2による入力後の表形式データから項目名と値との対応関係のデータを抽出し、この抽出データを記憶装置2の抽出データ記憶部24に記憶する(ステップS5)。更新処理部6は、記憶装置2の抽出データ記憶部24に記憶される抽出データをもとに、図4で示したような記憶装置2内のデータベースの更新を行なう(ステップS6)。
以下、1つの表形式データの変更履歴を監視して差分情報を抽出することで定義ファイルを生成する例を示す。図7は、第1の実施形態におけるデータ処理装置による処理対象の表形式データの形式の一例を示す図である。図8は、第1の実施形態におけるデータ処理装置による処理対象の表形式データの保存状態の一例を表形式で示す図である。
図7に示した表形式データは、行方向および列方向に沿って連続する複数の入力領域を有し、当該入力領域に値を保持することができる。図7で示した表形式データの各入力領域の値は、図8に示すように、値が入力された入力領域の位置情報と当該入力領域の値を対応付けた形式で保存される。
図8に示した保存状態の情報では、図7に示した表形式データの2行目2列目の入力領域に値「受講者一覧」が保存され、4行目2列目の入力領域に値「会社名」が保存され、4行目4列目の入力領域に値「電話番号」が保存され、4行目6列目の入力領域に値「担当者名」が保存され、4行目8列目の入力領域に値「e-mail」が保存され、7行目2列目の入力領域、8行目2列目、9行目2列目の入力領域に値「所属」が保存され、7行目5列目、8行目5列目、9行目5列目の入力領域に値「受講者名」が保存され、12行目2列目の入力領域に値「日付」が保存され、他の入力領域には値が保存されていない事が示される。
差分抽出部3は、図7に示したような状態の表形式データの変更を監視する。
図9は、第1の実施形態におけるデータ処理装置による処理対象の表形式データのデータ入力後の形式の一例を示す図である。図10は、第1の実施形態におけるデータ処理装置による処理対象の表形式データの入力データの保存状態の一例を表形式で示す図である。
入力装置7への入力操作により図7に示した表形式データの入力領域の値に変更が生じたときの表形式データは図9に示したようになる。図9で示した表形式データの各入力領域の値は、図10に示すように、変更後における、値が入力された入力領域の位置情報と当該入力領域の値を対応付けた形式で保存される。
図10に示した保存状態の情報では、図8に示した保存状態の情報と比較して、5行目2列目の入力領域に値「XXX社」が新たに保存され、5行目4列目の入力領域に値「00-0000-0000」が新たに保存され、5行目6列目の入力領域に値「田中一郎」が新たに保存され、5行目8列目の入力領域に値「tanaka@foo.com」が新たに保存され、7行目3列目、8行目3列目の入力領域に値「XX部」が新たに保存され、7行目6列目の入力領域に値「伊藤」が新たに保存され、8行目6列目の入力領域に値「佐藤」が新たに保存され、9行目3列目の入力領域に値「YY部」が新たに保存され、9行目6列目の入力領域に値「池田」が新たに保存され、12行目3列目の入力領域に値「2007/7/1」が新たに保存される事が示される。
差分抽出部3は、表形式データにおいて変更が生じた入力領域の位置情報と当該入力領域の値を対応付けてなる差分情報を抽出する。図11は、第1の実施形態におけるデータ処理装置による差分情報の抽出結果の一例を表形式で示す図である。
図11に示した差分情報は、図7に示した表形式データに対して図9、図10に示すように新たに保存された値である。これらの値は、具体的には、5行目2列目の入力領域の値「XXX社」、5行目4列目の入力領域の値「00-0000-0000」、5行目6列目の入力領域の値「田中一郎」、5行目8列目の入力領域の値「tanaka@foo.com」、7行目3列目、8行目3列目の入力領域の値「XX部」、7行目6列目の入力領域の値「伊藤」、8行目6列目の入力領域の値「佐藤」、9行目3列目の入力領域の値「YY部」、9行目6列目の入力領域の値「池田」、および12行目3列目の入力領域の値「2007/7/1」である。
定義ファイル生成部4は、差分抽出部3により抽出した差分情報と元の表形式データとをもとに、変更後の表形式データから必要なデータを抽出するための定義ファイルを生成する。図12は、第1の実施形態におけるデータ処理装置による定義ファイル生成処理の処理手順の一例を示すフローチャートである。
定義ファイル生成部4は、変更後の表形式データのうち当該表形式データの上端部からみた一番下または一番右の1つの差分領域の抽出を試み(ステップS31)、差分領域があれば(ステップS32のYES)、この差分領域が、列方向および行方向、つまり縦横共に連続した領域であるかどうかを判定する(ステップS33)。
定義ファイル生成部4は、差分領域が縦横共に連続した領域でなければ(ステップS33のNO)、抽出した差分領域をデータ領域と判定し(ステップS34)、このデータ領域が縦方向または横方向に連続した差分領域であるかどうかを判定する(ステップS35)。
定義ファイル生成部4は、ステップS35の処理で「YES」と判定した場合、データ領域から列方向に沿って1つ上に、または行方向に沿って1つ左に連続した差分領域を判定領域に設定する(ステップS36)。
具体的には、定義ファイル生成部4は、データ領域が縦に連続した差分領域であるとステップS35の処理で判定した場合には、ステップS36の処理では、データ領域から行方向に沿って1つ左に連続した領域を判定領域に設定する。また、定義ファイル生成部4は、データ領域が横に連続した差分領域であるとステップS35の処理で判定した場合には、ステップS36の処理では、データ領域から列方向に沿って1つ上に連続した差分領域を判定領域に設定する。
定義ファイル生成部4は、ステップS36の処理で設定した判定領域に値が入力されている場合で(ステップS37のYES)、この判定領域が当該領域の値が項目名であるかどうかの未判定の領域であって(ステップS38のYES)、この判定領域に入力される値のデータ型がステップS32の処理で判定した差分領域に入力される値のデータ型と同じである場合には(ステップS39のYES)、この判定領域とデータ領域と判定する(ステップS40)。そして、定義ファイル生成部4は、当該データ領域から列方向に沿って1つ上、または行方向に沿って1つ左に連続した差分領域を新たな判定領域に設定して(ステップS41)、ステップS37の処理に戻る。
また、定義ファイル生成部4は、ステップS37またはS38の処理で「NO」と判定した場合には、現在の判定領域から列方向に沿って1つ下、または行方向に沿って1つ右に連続した領域に入力される値を項目名と判定し(ステップS42)、ステップS31の処理に戻る。
具体的には、定義ファイル生成部4は、ステップS36の処理で前述した1つ左に連続した領域を判定領域としていた場合には、ステップS42の処理では、この判定領域から行方向に沿って1つ右に連続する領域に入力される値を項目名と判定し、ステップS36の処理で前述した1つ上に連続した領域を判定領域としていた場合には、ステップS42の処理では、この判定領域から列方向に沿って1つ下に連続する領域に入力される値を項目名と判定する。
また、定義ファイル生成部4は、ステップS39の処理で「NO」と判定した場合には、現在の判定領域に入力される値を差分領域の項目名と判定し(ステップS43)、ステップS31の処理に戻る。
また、定義ファイル生成部4は、ステップS33の処理で「NO」と判定した場合には、連続領域を前述した縦横共に連続した領域となるように拡張し(ステップS61)、この連続領域の列方向に沿った上下方向の各領域に入力される値のデータ型が同じでなければ(ステップS62のNO)、列方向、つまり縦方向に連続領域を分割し(ステップS63)、この分割したうち一番右の連続領域を抽出し、この抽出がなされた状態で、ステップS31以降の処理を再度行なう。
また、定義ファイル生成部4は、ステップS62の処理で「YES」と判定した場合は、行方向、つまり横方向に連続領域を分割し(ステップS64)、この分割したうち一番下の連続領域を抽出し、この抽出がなされた状態で、ステップS31以降の処理を再度行なう。
また、定義ファイル生成部4は、ステップS35の処理で「NO」と判定した場合で、抽出済みの差分領域から行方向に沿って1つ左の領域に値が入力されていれば(ステップS44のYES)、当該1つ左の領域を判定領域に設定する(ステップS45)。
また、定義ファイル生成部4は、ステップS44の処理で「NO」と判定した場合で、抽出済みの差分領域から列方向に沿って1つ上の領域に値が入力されていれば(ステップS46のYES)、当該1つ上の領域を判定領域に設定する(ステップS46)。
定義ファイル生成部4は、ステップS45またはS47の処理で設定された判定領域が当該領域の値が項目名であるかどうかの未判定の領域であって(ステップS48のYES)、この判定領域に入力される値のデータ型がステップS32の処理で判定した差分領域に入力される値のデータ型と同じである場合には(ステップS49のYES)、この判定領域をデータ領域と判定し(ステップS50)、このデータ領域から列方向に沿って1つ上、または行方向に沿って1つ左に連続した差分領域を新たな判定領域として(ステップS51)、ステップS44の処理に戻る。
また、定義ファイル生成部4は、ステップS48の処理で「NO」と判定した場合には、現在の判定領域から列方向に沿って1つ下、または行方向に沿って1つ右の連続領域に入力される値を項目名と判定し(ステップS52)、ステップS31の処理に戻る。
具体的には、定義ファイル生成部4は、ステップS45の処理で前述した左の領域を判定領域としていた場合には、ステップS52の処理では、この判定領域から行方向に沿って1つ右の連続領域に入力される値を項目名と判定する。また、定義ファイル生成部4は、ステップS45の処理で前述した上の領域を判定領域としていた場合には、ステップS52の処理では、この判定領域から列方向に沿って1つ下の連続領域に入力される値を項目名と判定する。
また、定義ファイル生成部4は、ステップS49の処理で「NO」と判定した場合には、現在の判定領域に入力される値を差分領域の項目名と判定し(ステップS53)、ステップS31の処理に戻る。
以下、ここまで説明した変更前後の表形式データの状態が図7、図8、図9、図10に示した状態であって、差分情報が図11に示した状態である場合の定義ファイル生成部4による処理を説明する。
この場合、まず、定義ファイル生成部4は、図11に示した差分情報の中から連続している領域を探す。
図13は、第1の実施形態におけるデータ処理装置による差分領域に含まれる連続領域の一例を表形式で示す図である。
図13(a),(b),(c),(d)に示すように、図11の差分情報の領域には連続領域が存在する。これらの連続領域同士は連続関係を有さずに独立している。図13(a)には第1の連続領域が示され、この第1の連続領域は、前述した差分領域のうち、値「XXX社」をもつ5行目2列目の入力領域、値「00-0000-0000」をもつ5行目4列目の入力領域、値「田中一郎」をもつ5行目6列目の入力領域、および、値「tanaka@foo.com」をもつ5行目8列目の入力領域である。
図13(b)には第2の連続領域が示され、この第2の連続領域は、前述した差分領域のうち、値「XX部」をもつ7行目3列目、8行目3列目の入力領域、および、値「YY部」をもつ9行目3列目の入力領域である。
図13(c)には第3の連続領域が示され、この第3の連続領域は、前述した差分領域のうち、値「伊藤」をもつ7行目6列目の入力領域、値「佐藤」をもつ8行目6列目の入力領域、および、値「池田」をもつ9行目6列目の入力領域である。
図13(d)には第4の連続領域が示され、この第4の連続領域は、前述した差分領域のうち、値「2007/7/1」をもつ12行目3列目の入力領域である。この第4の連続領域で示される入力領域は1つであるが、本実施形態では連続領域と称する。
定義ファイル生成部4は、これらの領域に対して、抽出作業を行なう。
図14、図15、図16、図17は、第1の実施形態におけるデータ処理装置による差分領域に含まれる連続領域についての項目名の判定結果の一例を表形式で示す図である。
まず、図13(a)に示した連続領域は行方向に沿って連続した差分領域であるため、定義ファイル生成部4は、この連続領域から列方向に沿って1つ上に連続する領域に値の入力があるかどうかを判定する。この判定は前述したステップS36の判定である。ここでは、値の入力があり、当該領域が前述した未判定の領域であり、かつ、この領域のデータ型が差分領域のデータ型と異なるため、定義ファイル生成部4は、前述した連続領域から列方向に沿って1つ上に連続する連続する領域の値を差分領域の項目名と判定する。この判定は前述したステップS43の判定である。データ型の一致の判定方法は別途定義して記憶装置2に記憶しておく。本実施形態では、定義ファイル生成部4は、「xxx@xxx.xxx」はe-mailアドレスとして、「xxx-xxx-xxxx」は電話番号として、入力領域の値のデータ型を判定する。
次に、図13(b)に示した連続領域、および図13(c)に示した連続領域は、列方向に沿って連続した差分領域であるため、定義ファイル生成部4は、この連続領域から行方向に沿って1つ左に連続する領域に値の入力があるかどうかを判定する。この判定は前述したステップS36の判定である。ここでは値の入力があり、当該領域が前述した未判定の領域であり、かつ、この領域のデータ型が差分領域のデータ型と異なるため、定義ファイル生成部4は、前述した連続領域から列方向に沿って1つ左に連続する連続する領域の値を差分領域の項目名と判定する。
最後に、図13(d)に示した連続領域は、行方向または列方向に沿って連続した領域ではないため、定義ファイル生成部4は、この連続領域から行方向に沿って1つ左の領域に値の入力があるかどうかを判定する。この判定は前述したステップS44の判定である。ここでは、値の入力があり、当該領域が前述した未判定の領域であり、かつ、この領域のデータ型が差分領域のデータ型と異なるため、定義ファイル生成部4は、前述した連続領域から列方向に沿って1つ左の領域の値を差分領域の項目名と判定する。この判定は前述したステップS53の判定である。以上により項目名の判定がなされる。
図14に示すように、図13(a)に示した連続領域における、値「XXX社」をもつ5行目2列目の入力領域の項目名の判定結果は「会社名」であり、値「00-0000-0000」をもつ5行目4列目の入力領域の項目名の判定結果は「電話番号」であり、値「田中一郎」をもつ5行目6列目の入力領域の項目名の判定結果は「担当者名」であり、値「tanaka@foo.com」をもつ5行目8列目の入力領域の項目名の判定結果は「e-mail」である。
また、図15に示すように、図13(b)に示した連続領域における、値「XX部」をもつ7行目3列目、8行目3列目の入力領域および、値「YY部」をもつ9行目3列目の入力領域の項目名の判定結果は「所属」である。
また、図16に示すように、図13(c)に示した連続領域における、値「伊藤」をもつ7行目6列目の入力領域、値「佐藤」をもつ8行目6列目の入力領域、および値「池田」をもつ9行目6列目の入力領域の項目名の判定結果は「受講者名」である。
また、図17に示すように、図13(d)に示した連続領域における、値「2007/7/1」をもつ12行目3列目の入力領域の項目名の判定結果は「日付」である。
図18は、第1の実施形態におけるデータ処理装置による定義ファイルの生成結果の一例を表形式で示す図である。
図18に示した定義ファイルでは、5行目2列目の入力領域に項目名「会社名」の値が入力され、5行目4列目の入力領域に項目名「電話番号」の値が入力され、5行目6列目の入力領域に項目名「担当者名」の値が入力され、5行目8列目の入力領域に項目名「e-mail」の値が入力され、7行目3列目、8行目3列目、9行目3列目の入力領域に項目名「所属」の値が入力され、7行目6列目、8行目6列目、9行目6列目の入力領域に項目名「受講者名」の値が入力され、12行目3列目の入力領域に項目名「日付」の値が入力される事が示される。
データ抽出部5は、定義ファイル生成部4により生成された定義ファイルに従って、当該定義ファイルの生成元の表形式データから項目名と値の対応関係のデータを抽出する。
ここでは、データ抽出部5が、図18に示した定義ファイルに従って、図10に示した入力後の表形式データからXML形式で項目名と値の対応関係のデータを抽出する例を示す。この場合、定義ファイルの項目名がXMLファイルの要素名となり、当該定義ファイルの「値の行」と「値の列」に対応する入力領域の値を前述した入力後の表形式データから抽出したものがXMLファイルの値となる。
図19は、第1の実施形態におけるデータ処理装置により生成した定義ファイルにしたがったデータ抽出結果の一例を表形式で示す図である。
データ抽出部5は、図10に示す表形式データの入力領域のうち、図18に示した定義ファイルのいずれかの項目名に対応付けられる「値の行」と同じ行および「値の列」と同じ列の入力領域の値を探し、この処理を図18に示した定義ファイルの項目名のそれぞれについて行ない、この処理結果が項目名と値との対応関係の抽出結果となる。
この結果、図19に示したXML形式のデータ抽出結果では、項目名「会社名」の値が「XXX社」である事、項目名「電話番号」の値が「00-0000-0000」である事、「e-mail」の値が「tanaka@foo.com」である事、項目名「所属」が「XX部」および「YY部」である事、項目名「受講者名」の値が「伊藤」、「佐藤」および「池田」である事、項目名「日付」の値が「2007/7/1」である事が示される。
このように抽出したデータは、前述したようにデータベースに登録したり、Webで公開したりすることで二次利用を促進できる。
以上のように、第1の実施形態におけるデータ処理装置では、表形式データの差分情報の位置情報で示される入力領域の値のデータ形式と当該表形式データにおける当該入力領域から所定方向に沿った先の入力領域の値の入力状態とを比較することで、入力後の表形式データにおける項目名と当該項目名の値が入力される入力領域の位置情報とを判定し、項目名の判定結果をもとに、入力後の表形式データにおける入力領域のうち、判定した項目名の値が入力される入力領域の位置情報を示す定義ファイルを生成し、この定義ファイルをもとに、入力後の表形式データにおける項目名と当該項目名の値との対応関係を示すデータを当該表形式データから抽出することにより、表形式データ中の必要なデータの抽出を自動で行なうことができる。
(第2の実施形態)
次に、第2の実施形態について説明する。なお、本実施形態におけるデータ処理装置の構成は図1に示したものと基本的にほぼ同様であるので説明は省略する。
この実施形態では、データ処理装置が、同じテンプレートから作成した複数の表形式データから差分情報を抽出する場合の処理について説明する。同じテンプレートから作成した複数の表形式データのそれぞれの入力領域のサイズ、数および位置関係は同じである。
また、ここでは、同じテンプレートから作成した複数の表形式データ間における項目名が入力される入力領域の位置は同じであるとする。
図20は、第2の実施形態におけるデータ処理装置による処理対象の第1の表形式データの形式の一例を示す図である。図21は、第2の実施形態におけるデータ処理装置による処理対象の第1の表形式データの保存状態の一例を表形式で示す図である。
図20で示した表形式データの各入力領域の値は、図21に示すように、値が入力された入力領域の位置情報と当該入力領域の値を対応付けた形式で保存される。
図21に示した保存状態の情報では、図20に示した第1の表形式データの2行目2列目の入力領域に値「受講者一覧」が保存され、4行目2列目の入力領域に値「会社名」が保存され、4行目4列目の入力領域に値「電話番号」が保存され、4行目6列目の入力領域に値「担当者名」が保存され、4行目8列目の入力領域に値「e-mail」が保存される事が示される。
さらに、図21に示した保存状態の情報では、図20に示した第1の表形式データの5行目2列目、6行目2列目の入力領域に値「XXX社」が保存され、5行目4列目、6行目4列目の入力領域に値「00-0000-0000」が保存され、5行目6列目の入力領域に値「田中一郎」が保存され、5行目8列目の入力領域に値「tanaka@foo.com」が保存され、6行目6列目の入力領域に値「佐藤一郎」が保存され、6行目8列目の入力領域に値「satou@foo.com」が保存され、7行目2列目の入力領域に値「YYY社」が保存され、7行目4列目の入力領域に値「10-1010-1010」が保存され、7行目6列目の入力領域に値「池田一郎」が保存され、7行目8列目の入力領域に値「ikeda@bar.com」が保存される事が示される。
図22は、第2の実施形態におけるデータ処理装置による処理対象の第2の表形式データの形式の一例を示す図である。図23は、第2の実施形態におけるデータ処理装置による処理対象の第2の表形式データの保存状態の一例を表形式で示す図である。
図22で示した第2の表形式データの各入力領域の値は、図23に示すように、値が入力された入力領域の位置情報と当該入力領域の値を対応付けた形式で保存される。
図23に示した保存状態の情報では、図22に示した第2の表形式データの2行目2列目の入力領域に値「受講者一覧」が保存され、4行目2列目の入力領域に値「会社名」が保存され、4行目4列目の入力領域に値「電話番号」が保存され、4行目6列目の入力領域に値「担当者名」が保存され、4行目8列目の入力領域に値「e-mail」が保存される事が示される。
さらに、図23に示した保存状態の情報では、図22に示した第2の表形式データの5行目2列目、6行目2列目の入力領域に値「XXX社」が保存され、5行目4列目、6行目4列目の入力領域に値「00-0000-0000」が保存され、5行目6列目の入力領域に値「鈴木一郎」が保存され、5行目8列目の入力領域に値「suzuki@foo.com」が保存され、6行目6列目の入力領域に値「渡辺一郎」が保存され、6行目8列目の入力領域に値「watanabe@foo.com」が保存され、7行目2列目の入力領域に値「YYY社」が保存され、7行目4列目の入力領域に値「10-1010-1010」が保存され、7行目6列目の入力領域に値「高橋一郎」が保存され、7行目8列目の入力領域に値「takahashi@bar.com」が保存される事が示される。
さらに、図23に示した保存状態の情報では、図22に示した第2の表形式データの8行目2列目、9行目2列目、10行目2列目の入力領域に値「ZZZ社」が保存され、8行目4列目、9行目4列目、10行目4列目の入力領域に値「11-1111-1111」が保存され、8行目6列目の入力領域に値「山本一郎」が保存され、8行目8列目の入力領域に値「yamamoto@baz.com」が保存され、9行目6列目の入力領域に値「中村一郎」が保存され、9行目8列目の入力領域に値「nakamura@baz.com」が保存され、10行目6列目の入力領域に値「吉田一郎」が保存され、10行目8列目の入力領域に値「yoshida@baz.com」が保存される事が示される。
図24は、第2の実施形態におけるデータ処理装置による第1の表形式データ及び第2の表形式データの差分情報の抽出結果の一例を表形式で示す図である。
この差分情報では、第1の表形式データにおける各行および各列の入力領域のうち、第2の表形式データでの同じ行および列の入力領域との間で値の相違が生じた入力領域の行および列、当該行および列での入力領域の値、および、当該第2の表形式データにおける同じ行および列の入力領域の値とが対応付けられる。図24に示した差分情報における「第1の値」とは図20、図21に示した第1の表形式データにおける値を示し、「第2の値」とは図22、図23に示した第2の表形式データにおける値を示す。
図24に示した差分情報では、第1の表形式データの5行目6列目の入力領域の値は「田中一郎」であるが、第2の表形式データの5行目6列目の入力領域の値は「鈴木一郎」であり、第1の表形式データの5行目8列目の入力領域の値は「tanaka@foo.com」、であるが、第2の表形式データの5行目8列目の入力領域の値は「suzuki@foo.com」である事が示される。
さらに、図24に示した差分情報では、第1の表形式データの6行目6列目の入力領域の値は「佐藤一郎」であるが、第2の表形式データの6行目6列目の入力領域の値は「渡辺一郎」である事が示され、また、図24に示した差分情報では、第1の表形式データの6行目8列目の入力領域の値は「satou@foo.com」、であるが、第2の表形式データの6行目8列目の入力領域の値は「watanabe@foo.com」である事が示される。
さらに、図24に示した差分情報では、第1の表形式データの7行目6列目の入力領域の値は「池田一郎」であるが、第2の表形式データの7行目6列目の入力領域の値は「高橋一郎」であり、第1の表形式データの7行目8列目の入力領域の値は「ikeda@bar.com」、であるが、第2の表形式データの7行目8列目の入力領域の値は「takahashi@bar.com」である事が示される。
また、図24に示した差分情報では、第1の表形式データの8行目2列目、9行目2列目、10行目2列目の入力領域に値は保存されていないが、第2の表形式データの8行目2列目、9行目2列目、10行目2列目には値「ZZZ社」が保存されており、第1の表形式データの8行目4列目、9行目4列目、10行目4列目の入力領域に値は保存されていないが、第2の表形式データの8行目4列目、9行目4列目、10行目4列目には値「11-1111-1111」が保存されている事が示される。
さらに、図24に示した差分情報では、第1の表形式データの8行目6列目の入力領域に値は保存されていないが、第2の表形式データの8行目6列目には値「山本一郎」が保存され、第1の表形式データの8行目8列目の入力領域に値は保存されていないが、第2の表形式データの8行目8列目には値「yamamoto@baz.com」が保存され、第1の表形式データの9行目6列目の入力領域に値は保存されていないが、第2の表形式データの9行目6列目には値「中村一郎」が保存され、第1の表形式データの9行目8列目の入力領域に値は保存されていないが、第2の表形式データの9行目8列目には値「nakamura@baz.com」が保存される事が示される。
さらに、図24に示した差分情報では、第1の表形式データの10行目6列目の入力領域に値は保存されていないが、第2の表形式データの10行目6列目には値「吉田一郎」が保存され、第1の表形式データの10行目8列目の入力領域に値は保存されていないが、第2の表形式データの10行目8列目には値「yoshida@baz.com」が保存される事が示される。
図25、図26は、第2の実施形態におけるデータ処理装置による複数の表形式データの差分情報の抽出について説明する図である。
定義ファイル生成部4は、第1および第2の表形式データのうち必要なデータの抽出のための定義ファイルの作成元となるいずれかの表形式データ中の差分情報の中から連続している領域を探す。
ここでは、定義ファイルの作成元となる表形式データが第2の表形式データである場合の差分情報について説明する。図25に示した点線で囲った領域A1は、図22に示した第2の表形式データの入力領域のうち図24に示した差分領域に相当する領域である。この領域A1は、全ての領域が繋がって1つの連続領域となっている。
定義ファイル生成部4は、この差分領域のうち、列方向に沿って連続する領域の数が各列において同じであって、行方向に沿って連続する領域の数が各行において同じであるかどうか、つまり差分領域が縦横共に連続した領域であるかどうかを判定する。
図25に示した差分領域は、縦横共に連続した領域ではないので、定義ファイル生成部4は、この領域を第2の表形式データ内において、現在の差分領域の各列における列方向に沿って連続する領域の数が、各列のうち列方向に沿って連続する領域の数が最も多い列における当該連続する領域の数と同じになり、かつ、現在の差分領域の各行における行方向に沿って連続する領域の数が、各行のうち行方向に沿って連続する領域の数が最も多い行における当該連続する領域の数と同じになるように拡張して縦横共に連続した領域とする。この処理は前述したステップS61の処理である。
図26に示した点線で囲った領域A2は第2の表形式データの入力領域のうち、前述のように拡張した差分領域に相当する領域であり、具体的には、図25に示した差分領域に対し、第2の表形式データの入力領域のうち、値「XXX社」が保存される5行目2列目、6行目2列目の入力領域、値「00-0000-0000」が保存される5行目4列目、6行目4列目の入力領域、値「YYY社」が保存される7行目2列目の入力領域、および値「10-1010-1010」が保存される7行目4列目の入力領域を加えたものである。
図27は、第2の実施形態におけるデータ処理装置による差分情報の分割について説明する図である。
この領域A2は、縦横共に連続した領域となっているため、定義ファイル生成部4は、まず、この領域における列方向に沿って上下に連続した各領域のデータ型が同じかどうかを判定する。ここでは、上下に連続した領域のデータ型が同じとなっているため、定義ファイル生成部4は、図27に示した太線のように、行方向、つまり横方向に沿って差分領域を行ごとに分割する。この処理は前述したステップS64の処理である。ここでは差分領域の行ごとの分割がなされるため、差分領域における5〜10行目のそれぞれが分割されることで、6つの領域に分割される。
図27に示した例は、図26に示した拡張後の連続した差分領域を、第2の表形式データの5行目の2、4、6、8列目の入力領域でなる領域A3、6行目の2、4、6、8列目の入力領域でなる領域A4、7行目の2、4、6、8列目の入力領域でなる領域A5、8行目の2、4、6、8列目の入力領域でなる領域A6、9行目の2、4、6、8列目の入力領域でなる領域A7、および、10行目の2、4、6、8列目の入力領域でなる領域A8に分割したものである。
定義ファイル生成部4は、この分割した一番下の領域である10行目の2、4、6、8列目の領域A8を最初に抽出する。この処理は前述したステップS65の処理である。
この領域A8は、行方向、つまり横方向に沿って連続した領域であり、当該領域A8から列方向に沿って上に連続した各入力領域の値のデータ型は同じである。定義ファイル生成部4は、この抽出をデータ型が異なる4行目まで繰り返し、この4行目の各列の入力領域の値を項目名と判定する。
ここでは、図27に連続領域における、値「XXX社」、「YYY社」もしくは「ZZZ社」をもつ4行目2列目の入力領域の項目名の判定結果は「会社名」であり、値「00-0000-0000」、「10-1010-1010」もしくは「11-1111-1111」をもつ4行目4列目の入力領域の項目名の判定結果は「電話番号」であり、値「鈴木一郎」、「渡辺一郎」、「高橋一郎」、「山本一郎」、「中村一郎」、「吉田一郎」をもつ4行目6列目の入力領域の項目名の判定結果は「担当者名」であり、値「suzuki@foo.com」「watanabe@foo.com」「takahashi@bar.com」「yamamoto@baz.com」「nakamura@baz.com」もしくは「yoshida@baz.com」をもつ4行目8列目の入力領域の項目名の判定結果は「e-mail」である。
定義ファイル生成部4は、これらの判定結果をもとに、定義ファイルを生成する。図28は、第2の実施形態におけるデータ処理装置による定義ファイルの生成結果の一例を表形式で示す図である。
図28に示した定義ファイルでは、第2の表形式データにおける5〜10行目2列目の入力領域に項目名「会社名」の値が入力され、5〜10行目4列目の入力領域に項目名「電話番号」の値が入力され、5〜10行目6列目の入力領域に項目名「担当者名」の値が入力され、5〜10行目8列目の入力領域に項目名「e-mail」の値が入力される事が示される。
図29は、第2の実施形態におけるデータ処理装置により生成した定義ファイルにしたがったデータ抽出結果の一例を表形式で示す図である。
図29に示したデータ抽出結果は、定義ファイルをもとにした、第2の表形式データの前述したように分割した差分領域ごとの、項目名および当該値の対応関係のデータ抽出結果である。
これらのデータのうち、図27に示した領域A3からの抽出結果では、1人目の受講者の「会社名」が「XXX社」である事、「電話番号」が「00-0000-0000」である事、「担当者名」が「鈴木一郎」である事、「e-mail」が「suzuki@foo.com」である事が示される。
図27に示した領域A4からの抽出結果では、2人目の受講者の「会社名」が「XXX社」である事、「電話番号」が「00-0000-0000」である事、「担当者名」が「渡辺一郎」である事、「e-mail」が「watanabe@foo.com」である事が示される。
図27に示した領域A5からの抽出結果では、3人目の受講者の「会社名」が「YYY社」である事、「電話番号」が「10-1010-1010」である事、「担当者名」が「高橋一郎」である事、「e-mail」が「takahashi@bar.com」である事が示される。
図27に示した領域A6からの抽出結果では、4人目の受講者の「会社名」が「ZZZ社」である事、「電話番号」が「11-1111-1111」である事、「担当者名」が「山本一郎」である事、「e-mail」が「yamamoto@baz.com」である事が示される。
図27に示した領域A7からの抽出結果では、5人目の受講者の「会社名」が「ZZZ社」である事、「電話番号」が「11-1111-1111」である事、「担当者名」が「中村一郎」である事、「e-mail」が「nakamura@baz.com」である事が示される。
図27に示した領域A8からの抽出結果では、6人目の受講者の「会社名」が「ZZZ社」である事、「電話番号」が「11-1111-1111」である事、「担当者名」が「吉田一郎」である事、「e-mail」が「yoshida@baz.com」である事が示される。
以上で説明したように、第2の実施形態におけるデータ処理装置では、同じテンプレートをもとにした第1及び第2の表形式データ間の相違部分である差分情報を抽出し、第1及び第2の表形式データのいずれかにおける差分情報の位置情報で示される入力領域の値のデータ形式と当該表形式データにおける当該入力領域から所定方向に沿った先の入力領域の値の入力状態とを比較することで、入力後の前記第1及び第2の表形式データにおける項目名と当該項目名の値が入力される入力領域の位置情報とを判定し、この判定結果をもとに、入力後の第1及び第2の表形式データにおける入力領域のうち、判定した項目名の値が入力される入力領域の位置情報を示す定義ファイルを生成し、この定義ファイルをもとに、入力後の前記第1及び第2の表形式データにおける項目名と当該項目名の値との対応関係を示すデータを当該表形式データから抽出するようにしたので、同じテンプレートをもとにした2つの表形式データ間についても、いずれから必要なデータを自動で抽出する事ができる。
これらの各実施形態によれば、表形式データ中の必要なデータの抽出を自動で行なうことが可能になるデータ処理装置を提供することができる。
なお、この発明は前記の各実施形態そのままに限定されるものではなく実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記実施形態に開示されている複数の構成要素の適宜な組み合わせにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を省略してもよい。更に、異なる実施形態に亘る構成要素を適宜に組み合せてもよい。
1…制御部、2…記憶装置、3…差分抽出部、4…定義ファイル生成部、5…データ抽出部、6…更新処理部、7…入力装置、8…表示装置、9…バス、21…表形式データ記憶部、22…差分情報記憶部、23…定義ファイル記憶部、24…抽出データ記憶部。

Claims (5)

  1. 複数の入力領域を有し、これらの入力領域のうち所定の入力領域に項目名が入力された表形式データを記憶する表形式データ記憶手段と、
    前記表形式データの入力領域についての前記項目名の値の入力操作を受け付ける入力手段と、
    前記入力手段による入力後の表形式データにおける、前記入力手段による入力により値に差分が生じた入力領域の値と前記入力後の表形式データにおける当該入力領域の位置情報とを有する差分情報を抽出する差分情報抽出手段と、
    前記入力後の表形式データにおける前記差分情報抽出手段により抽出した差分情報の位置情報で示される入力領域の値のデータ形式と当該表形式データにおける当該入力領域から所定方向に沿った先の入力領域の値の入力状態とを比較することで、前記入力後の表形式データにおける項目名と当該項目名の値が入力される入力領域の位置情報とを判定する項目名判定手段と、
    前記差分情報抽出手段により抽出した差分情報及び前記項目名判定手段による判定結果をもとに、前記入力後の表形式データにおける入力領域のうち、前記項目名判定手段により判定した項目名の値が入力される入力領域の位置情報を示す定義ファイルを生成する定義ファイル生成手段と、
    前記入力後の前記表形式データ及び前記定義ファイル生成手段により生成した定義ファイルをもとに、前記入力後の表形式データにおける項目名と当該項目名の値との対応関係を示すデータを当該表形式データから抽出するデータ抽出手段と
    を備えたことを特徴とするデータ処理装置。
  2. 複数の入力領域を定義する所定のテンプレートから作成され、これらの入力領域のうち所定の入力領域に項目名が入力された表形式データである第1の表形式データ及び当該第1の表形式データのテンプレートと同じテンプレートから作成され、当該テンプレートにおける、前記第1の表形式データにおける前記項目名の入力領域の位置と同じ位置の入力領域に同じ項目名が入力された第2の表形式データを記憶する表形式データ記憶手段と、
    前記入力手段による入力後の前記第1および第2の表形式データの入力領域についての前記項目名の値の入力操作を受け付ける入力手段と、
    前記入力後の前記第1及び第2の表形式データにおける前記同じ位置の入力領域のうち、当該第1及び第2の表形式データ間で値が相違する入力領域の値と前記入力後の前記第1及び第2の表形式データにおける前記相違する入力領域の位置情報とを有する差分情報を抽出する差分情報抽出手段と、
    前記入力後の前記第1及び第2の表形式データのいずれから選択した表形式データにおける前記差分情報抽出手段により抽出した差分情報の位置情報で示される入力領域の値のデータ形式と当該表形式データにおける当該入力領域から所定方向に沿った先の入力領域の値の入力状態とを比較することで、前記入力後の前記第1及び第2の表形式データにおける項目名と当該項目名の値が入力される入力領域の位置情報とを判定する項目名判定手段と、
    前記項目名判定手段による判定結果をもとに、前記選択した表形式データにおける入力領域のうち、前記項目名判定手段により判定した項目名の値が入力される入力領域の位置情報を示す定義ファイルを生成する定義ファイル生成手段と、
    前記選択した表形式データ及び前記定義ファイル生成手段により生成した定義ファイルをもとに、前記選択した表形式データにおける項目名と当該項目名の値との対応関係を示すデータを当該表形式データから抽出するデータ抽出手段と
    を備えたことを特徴とするデータ処理装置。
  3. 前記項目名判定手段は、
    前記差分情報抽出手段により抽出した差分情報で示される入力領域が複数あり、これらの入力領域に、前記入力後の表形式データ中で連続する入力領域が含まれる場合、前記入力後の表形式データにおける前記連続する入力領域の値のデータ形式と前記入力後の表形式データにおける当該連続する入力領域の連続方向に直交する方向に沿った先の入力領域の値の入力状態とを比較することで、前記入力後の表形式データにおける項目名と当該項目名の値が入力される入力領域の位置情報とを判定する
    ことを特徴とする請求項1に記載のデータ処理装置。
  4. 前記項目名判定手段は、
    前記差分情報抽出手段により抽出した情報で示される入力領域が複数あり、これらの入力領域に、前記選択した表形式データ中で連続する入力領域が含まれる場合、前記選択した表形式データにおける前記連続する入力領域の値のデータ形式と前記選択した表形式データにおける前記連続する入力領域の連続方向に直交する方向に沿った先の入力領域の値の入力状態とを比較することで、前記選択した表形式データにおける項目名及び当該項目名の値が入力される入力領域の位置情報を判定する
    ことを特徴とする請求項2に記載のデータ処理装置。
  5. 前記項目名判定手段は、
    前記選択した表形式データにおける前記差分情報の入力領域において、列方向に沿って連続する領域の数が各列において同じでなく、行方向に沿って連続する領域の数が各行において同じでない場合には、前記差分情報の入力領域の各列における列方向に沿って連続する領域の数が、各列のうち列方向に沿って連続する領域の数が最も多い列における当該連続する領域の数と同じになり、かつ、前記差分情報の入力領域の各行における行方向に沿って連続する領域の数が、各行のうち行方向に沿って連続する領域の数が最も多い行における当該連続する領域の数と同じになるように、前記選択した表形式データにおける前記連続する入力領域の範囲を拡張し、前記拡張後の入力領域を、データ形式が同じ領域の連続方向に直交する方向に連続した領域に分割し、前記分割した入力領域内で連続する入力領域の値のデータ形式と前記連続する入力領域の連続方向に直交する方向に沿った先の入力領域の値の入力状態とを比較することで、前記表形式データにおける項目名及び当該項目名の値が入力される入力領域の位置情報を判定する
    ことを特徴とする請求項4に記載のデータ処理装置。
JP2010128173A 2010-06-03 2010-06-03 データ処理装置 Withdrawn JP2011253443A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010128173A JP2011253443A (ja) 2010-06-03 2010-06-03 データ処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010128173A JP2011253443A (ja) 2010-06-03 2010-06-03 データ処理装置

Publications (1)

Publication Number Publication Date
JP2011253443A true JP2011253443A (ja) 2011-12-15

Family

ID=45417308

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010128173A Withdrawn JP2011253443A (ja) 2010-06-03 2010-06-03 データ処理装置

Country Status (1)

Country Link
JP (1) JP2011253443A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014061081A1 (ja) * 2012-10-15 2014-04-24 富士通株式会社 帳票作成支援装置、帳票作成支援方法、及び帳票作成支援プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014061081A1 (ja) * 2012-10-15 2014-04-24 富士通株式会社 帳票作成支援装置、帳票作成支援方法、及び帳票作成支援プログラム
JPWO2014061081A1 (ja) * 2012-10-15 2016-09-05 富士通株式会社 帳票作成支援装置、帳票作成支援方法、及び帳票作成支援プログラム

Similar Documents

Publication Publication Date Title
JP5472504B1 (ja) 業務フロー作成支援装置及び方法並びにプログラム
WO2016177250A1 (zh) 客户端页面渲染方法及装置
CN104978317B (zh) 网页生成方法及装置、网站生成方法及建站服务器
JP2006268638A (ja) 文書差分検出装置
JP2016535899A (ja) 固定形式文書のリフロー済み形式での提示
JP2015194808A (ja) 情報処理装置及び情報処理プログラム
CN113094127A (zh) 页面编辑方法、装置、计算机可读存储介质和计算机设备
JP2009245162A (ja) 表示制御装置、表示制御方法、及び、表示制御プログラム
WO2017027210A1 (en) Providing semantic based document design
US10241658B2 (en) Information processing apparatus, non-transitory computer-readable recording medium with information processing program recorded thereon, and information processing method
JP5307294B2 (ja) 操作支援コンピュータプログラム、操作支援コンピュータシステム
JP2011253443A (ja) データ処理装置
JP6441142B2 (ja) 検索装置、方法及びプログラム
JP6327969B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2013069042A (ja) 情報処理装置及び情報処理プログラム
JP4960188B2 (ja) 画面遷移図の表示方法およびシステム
JP4656246B2 (ja) 通信装置及び通信装置を機能させるプログラム
CN108446154A (zh) 一种jsp页面的翻页工具条生成方法、应用方法及系统
JP6497087B2 (ja) 情報処理装置及び情報処理プログラム
JP5262978B2 (ja) ユーザインタフェース画面表示方法およびその方法に使用する端末
JP2011170778A (ja) 文書検索装置及び文書検索プログラム
JP2013050884A (ja) 情報閲覧方法、情報閲覧システム、サーバ装置およびクライアント装置
US8356069B2 (en) Communication apparatus and storage medium storing program
JP2008108030A (ja) ページ差分生成装置及びページ差分生成プログラム
JP5867588B2 (ja) 情報表示装置、情報表示方法及びプログラム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20130806