JP6283190B2 - 表形式データ処理プログラム、方法、及び装置 - Google Patents
表形式データ処理プログラム、方法、及び装置 Download PDFInfo
- Publication number
- JP6283190B2 JP6283190B2 JP2013212378A JP2013212378A JP6283190B2 JP 6283190 B2 JP6283190 B2 JP 6283190B2 JP 2013212378 A JP2013212378 A JP 2013212378A JP 2013212378 A JP2013212378 A JP 2013212378A JP 6283190 B2 JP6283190 B2 JP 6283190B2
- Authority
- JP
- Japan
- Prior art keywords
- tabular data
- aggregation
- attribute
- processing
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
ることにより、情報を一元的に管理し、不整合、損失、冗長を低減することができる。なお、1又は複数のテーブルから同一の実体に関するレコードを求めるため、「名寄せ」と呼ばれる処理を行うこともある。名寄せすることにより、例えば、同一人物が有する複数の口座を取りまとめて扱うことができるようになるため、集計結果がより精確になる。
を利用することなく簡易的にデータを管理するため、CSV(Comma Separated Values)に代表されるテキストで記録された表形式データ(「Delimiter-Separated Values」、「Character-Separated Values」等とも呼ばれる)を利用する場合も少なくない。
を支援するための技術を提供することを目的とする。
ー項目とを少なくとも記憶装置に記憶させるステップとをコンピュータに実行させる。
支援するための技術を提供することができる。
図1は、表形式データを処理する表形式データ処理装置の一例を示す機能ブロック図である。本実施形態に係る表形式データ処理装置1は、データ記憶部101と、入出力部102と、制御部103と、縦結合部104と、横結合部105と、集計部106と、グループ化部107と、検索部108と、外部連携部109と、バッチ処理部110とを有する。
のフィールドに統合したりする処理を行う。グループ化部107は、表形式データに含まれる値を所定のグループに分け、クロス集計を行う。また、クロス集計された状態の表形式データを、条件に従って分割する処理(グループ化解除)を行う。なお、横結合部105、集計部106、グループ化部107を総称して本発明における集約部とも呼ぶ。
図2は、コンピュータの一例を示す装置構成図である。表形式データ処理装置1は、図2に示すようなコンピュータである。図2に示すコンピュータ1000は、CPU(Central Processing Unit)1001、主記憶装置1002、補助記憶装置1003、通信I
F(Interface)1004、入出力IF(Interface)1005、ドライブ装置1006、通信バス1007を備えている。CPU1001は、プログラム(「ソフトウェア」又は「アプリケーション」とも呼ぶ)を実行することにより本実施の形態に係る処理を行う。主記憶装置1002は、CPU1001が読み出したプログラムやデータをキャッシュしたり、CPUの作業領域を展開したりする。主記憶装置は、具体的には、RAM(Random
Access Memory)やROM(Read Only Memory)等である。補助記憶装置1003は、CPU1001により実行されるプログラムや、本実施の形態で用いる設定情報などを記憶する。補助記憶装置1003は、具体的には、HDD(Hard-disk Drive)やSSD(Solid State Drive)、フラッシュメモリ等である。主記憶装置1002や補助記憶装置1003は、表形式データ処理装置1のデータ記憶部101として働く。通信IF1004は、他のコンピュータとの間でデータを送受信する。通信IF1004は、具体的には、有線又は無線のネットワークカード等である。表形式データ処理装置1は、通信IF1004を介してネットワークに接続されていてもよい。入出力IF1005は、入出力装置と接続され、ユーザから操作を受け付けたり、ユーザへ情報を提示したりする。入出力装置は、具体的には、キーボード、マウス、ディスプレイ、タッチパネル等である。ドライブ装置1006は、磁気ディスク、光磁気ディスク、光ディスク等の記憶媒体に記録されたデータを読み出したり、記憶媒体にデータを書き込んだりする。そして、以上のような構成要素が、通信バス1007で接続されている。なお、これらの構成要素はそれぞれ複数設けられていてもよいし、一部の構成要素(例えば、通信IF1004、ドライブ装置1006等)を設けないようにしてもよい。また、入出力装置がコンピュータと一体に構成されていてもよい。また、ドライブ装置1006で読み取り可能な可搬性の記憶媒体や、フラッシュメモリのような可搬性の補助記憶装置1003、通信IF1004などを介して、本実施の形態で実行されるプログラムが提供されるようにしてもよい。そして、CPU1001がプログラムを実行することにより、図2に示したコンピュータを図1に示した表形式データ処理装置1として働かせる。
次に、表形式データ処理装置1の機能について説明する。図3は、本実施形態に係るジョブの概略図である。表形式データ処理装置1は、フォーマット(すなわち、列や列の名称といった表形式データの構成)の異なる複数の表形式データから、指定した条件のデータを抽出し、縦横自在に結合を行うことができる。また、横方向の結合をする際、データクレンジングを行うことにより、結果の精度を上げることができる。結合処理の他、集計や検索等も行うことができ、設定したスケジュールでこれらの処理を連携させて実行することもできる。なお、作成する表形式データは新たなファイルとして出力し、入力された
表形式データは更新しない方が、例えばユーザが試行錯誤しつつ処理を繰り返す上では好ましい。これらの機能の設定は、例えばXML形式で保存することができる。
縦結合とは、例えばデータフォーマットの異なる複数の表形式データ(入力データ)に含まれるレコードを統合し、新たな表形式データ(出力データ)を生成する処理である。図4及び図5は、縦結合処理の入力データの一例である。図4は、「社員交通費清算.csv」というファイル名の表形式データであり、8件のレコードを含んでいる。図5は、「営業経費.csv」というファイル名の表形式データであり、8件のレコードを含んでいる。図4及び図5の列名及び順序は異なっているが、2つの表形式データは内容的に対応する項目を一部に含んでいる。また、図6は、縦結合処理の出力データの一例である。図6の表形式データは、図4の8件及び図5の8件に対応するレコードを含んでいる。すなわち、縦結合部104は、入力データに含まれるレコードを縦方向に結合(積み重ね)する。さらに、図6においては、所定の列同士が対応付けられている。また、図4における列「名前」は、図5における列「lastName」及び列「FirstName」の結合と対応付けられている
。なお、入力される表形式データは複数でなく1つであってもよい。この場合、出力される表形式データの列名を変更することはできるが、データレコードの要素は入力データと変わらない。なお、縦結合処理は、縦結合部104によって実行される。
横結合とは、所定の列に含まれる要素の集合に基づいてレコードを統合(集約とも呼ぶ)し、新たな表形式データを生成する処理である。具体的には、例えば縦結合等で得られた1つの表形式データを処理対象として、ユーザが指定したキー属性の値に基づきレコードを横方向に結合する。後述するデータクレンジング機能を用いることで、住所や名前といった要素の集合を特定する際に、表記の揺れを吸収して処理を行うことが可能である。また、データ欠損、重複データの確認、データ品質のチェック等を行うこともできる。
中間一致」等の場合に同一であると判断するようにしてもよい。
横結合や後述する集計、グループ化において、標準化(データクレンジング)を行うことができる。標準化は、揺れのある表記に対して名寄せを行う。例えば、「名寄せ判断」が「完全一致」を選択した場合に指定する。データクレンジングの方法として、電話番号、郵便番号、日付、法人名、数値、和文解析、英文解析、氏名、住所、ユーザ辞書のいず
れかを選択することができる。
」といった表記の違いを同一であるものとして扱う。日付は、GGGGyyMMdd(平成250110,H250110)、yyMMdd(130110)、yyyyMMdd(20130110)、GGGGyy年MM月dd日(平成25年01月10日,H25年01月10日)、yyyy年MM月dd日(2013年01月10日)、GGGGyy/MM/dd(平成25/01/10,H25/01/10)、yy/MM/dd(13/01/10)、yyyy/MM/dd(2013/01/10,2013/1/10 9:06:39)、yy-MM-dd(13-01-10)、GGGGyy-MM-dd(平成25-01-10,H25-01-10)、yyyy-MM-dd(2013-01-10)、yy年MM月dd日(13年01月10日)といった表記の違いを同一であるものとして扱う。法人名は、(株)、機種依存文字によるマーク及び株式会社、(有)、機種依存文字によるマーク及び有限会社、(医)及び医療法人、(社)及び社団法人、(財)及び財団法人、(合)及び合資会社、(宗)及び宗教法人、(学)及び学校法人、(相)及び相互会社、(資)及び合資会社、(名)及び合名会社、(独)及び独立行政法人、(特)及び特別認可法人、(福)及び福祉法人、並びに一般、公益、協議会及び連合会の有無といった表記の違いを同一であるものとして扱う。数値は、\12,300、12300、12,300、壱万弐千参百、一万二千三百といった表記の違いを同一であるものとして扱う。和文解析は、「△△太郎です」、「△△ 太郎」、「あいう△△太郎」といった文を解析して名前等を抽出する。英文解析は、SankakuTaro、Sankaku Taro、sankaku taroといった英文における標
記の違いを同一であるものとして扱う。氏名は、齋藤たろう、齊藤たろう、斉藤たろう、斎藤たろうといった感じの異体字を同一であるものとして扱う。住所は、「千葉県船橋市印外○丁目□番×号△△△ハイツB-567号室」、「船橋市印外○-□-×-567」、「千葉県
船橋市印外○-□-×-567」、「千葉県船橋市印外○丁目□番×号B-567号室」、「千葉県
船橋市印外○丁目□番×号567号室」といった表記の違いを同一であるものとして扱う。
子の語句を入力する。同義語の入力は、例えば、語句を半角カンマ「,」で区切って入力
する。また、先頭に「#」を付した行は、コメントとして扱い、処理には用いない。
文字であればアルファベット順、数値であれば値の小さい順である。なお、図26のようなユーザ辞書において、同義語のうち一番左に定義されている語句に紐づけるようにしてもよい。図26のようなユーザ辞書が設定されている場合、図27の語句「D」は、同義語「C」と紐づけられる。さらに、語句「C」は、親「A」と紐づけられる。また、ある語句の下位概念を取得する場合、例えば当該語句の下位に接続されたすべての子及びそれらの同義語を取得するものとする。具体的には、「H」を指定すると「I」、「K」、「J」、「M」、「L」を取得できる。このように、各語句は、最上位の親、もしくは所定の優先順位に基づく同義語、又は下位に接続されたすべての子及びそれらの同義語と紐づけられるものとする。
区切って入力している。「/」の左側の語句は、置換後の語句を表し、「/」の右側の語句は、置換元の語句を表す。なお、置換基の語句は、「,」で複数入力できる。図29のよ
うなユーザ辞書を利用すると、「JAPAN」という語句は、「JXPXP」に置換される。
集計とは、1つの表形式データを処理対象として、キー属性を含む所定の条件に基づいて値群を要約統計量値として出力する機能である。集計処理後は、キー属性の値が設定した条件を満たすレコードごとに集計属性が集計(すなわち、集約)される。また、求められた値又は元の値群に対して四則演算を行い、さらに所定の条件に基づく計算結果を出力することもできる。また、関数を用いてデータの加工を行うこともできる。さらに、数値の集計以外に、条件に該当するデータを計数(カウント)したり、条件に該当するデータに印をつけることもできる。
ー属性として用いる属性を表すパネルをユーザがドラッグアンドドロップするための領域であり、設定されているキー属性が表示される。なお、キー属性に設定されたパネルは並べ替え可能としてもよい。また、キー属性の設定後はパネルが二段表示となり、上段には属性名が表示され、下段には、後述する集計キー設定画面の集計方法の内容が表示される。「集計属性」の領域は、集計の対象となる属性を表すパネルをユーザがドラッグアンドドロップするための領域であり、設定されている集計属性が表示されている。ユーザは、「集計属性」の領域に「新規」パネルをドラッグアンドドロップすることにより、集計属性に新規属性を追加することができる。新規属性とは、レコード数、算術演算の結果、条件判定の結果、所定の関数処理の結果等、新たな属性として追加したものである。なお、先(集計属性領域の上方)に設定されている新規属性を用いて、後(集計属性領域の下方)の新規属性を定義することもできる。
む。ユーザはこれらを組み合わせて、当該新規属性の値を算出するための計算式を定義することができる。集計属性には、集計画面集計属性名が表示される。ここでは、設定済みの属性(紫色のパネル)が表示される。また、自パネルより前の新規属性も表示され、計算に用いることができる。演算式の値には、計算式用の数値や演算子を選択する。入力は、集計属性のパネルから選択したり、テンキー領域からドラッグアンドドロップしたりすることにより行う。また、確認用計算式には、計算式の値がテキスト表示される。なお、計算式に誤りがある場合、赤字等で強調表示するようにしてもよい。
される。ここでは、設定済みの属性(紫色のパネル)が表示される。また、新規属性は、自パネルより前の属性が表示される。条件式を設定するための領域には、集計時の条件式を入力する。属性には、条件のもととなる集計属性を選択する。値には、条件の値を入力する。区分には、判定条件を1つ選択する。選択肢として、「一致する」、「を含む」、「以上」、「以下」、「大なり」、「小なり」、「一致しない」、「含まない」、「正規表現」が選択できる。また、「AND」ボタンが押下されると、新たなAND条件式の行が追加される。「OR」ボタンが押下されると、新たなOR条件式の行が追加される。条件に合致の欄には、条件式に合致した値の行に出力する値を、入力又は集計属性から選択する。条件に合致しないの欄には、条件式に合致しない値の行に出力する値を入力または、集計属性から選択する。
得する関数である。「leftb」は、左端か検索文字を検索し、その位置までの文字を取得
する関数である。「length」は、文字の長さを取得する関数である。「lower」は、英字
の大文字を小文字にする関数である。「middle」は、左から指定された位置と文字数を取得する関数である。「multibytechar」は、マルチバイト文字のみ抽出する関数である。
「number」は、文字列のうち1文字ずつ判定し数値のみ抽出する関数である。「repeat」
は、指定された属性の値(数値)から指定された文字を繰り返して登録する関数である「replace」は、指定された文字を置換する関数である。「replacedic」は、置換辞書の内容
をもとに指定された文字を置換する関数である。「right」は、右端から指定された文字
を取得する関数である。「righta」は、右端から検索文字を検索し、その文字までの文字を取得する関数である。「rightb」は、右端から検索文字検索し、その位置までの文字を取得する関数である。「substitute」は、左から指定された位置と文字数を置換する関数
である。「normalizeaddress」は、あいまいな住所を標準化する関数である。「normalizecompany」は、会社名を標準化する関数である。「normalizedate」は、日付をスラッシ
ュ(/)で区切る関数である。「normalizedateISO」は、日付を正規化する関数である。「jnounphrase」は、文章から一般的な名詞のみを抽出する関数である。「normalizename」
は、名前を正規化する関数である。「normalizenumber」は、漢数字(旧漢字も含みます
)を含めた数字を標準化する関数である。「normalizepostcode」は、郵便番号を標準化
する関数である。「municipalities」は、住所から市区町村名を取得する関数である。「postaddress」は、郵便番号から住所を取得する関数である。「prefectures」は、住所から都道府県名を取得する関数である。なお、本実施形態において、集計結果出力時の属性名は、『属性名』+『_(アンダーバー)』+『下記表の「集計結果の属性名」』とする
。
グループ化とは、表型データを任意の形で分類し集計する機能である。具体的には、所定の列の要素に基づいてレコードを分類して集計(いわゆる「クロス集計」)する機能である。グループ化部107は、ユーザが設定したキー属性とグループ化属性に基づいて、集計を行う。キーとなる列の要素には、後述するデータクレンジング機能を用いることができる。
グループ化解除とは、指定したキー列に従い、統合的なデータをレコードに分割する機能である。このとき、要素の名称を値として用いることができる。また、ユーザが指定したキー属性とグループ化解除属性とに従ってレコードを分割する。
を指定する。全移動が指定されると、属性一覧のパネルをグループ化解除属性に全て移動する。本実施形態において、グループ化解除結果出力時の属性名は、キー属性の属性名、「sub」、「value」とする。図42を用いて説明したような項目が、グループ化解除処理の設定情報としてデータ記憶部101に記憶される。
ナンバリングとは、レコードに連続番号(「連番」とも呼ぶ)を振るための属性を追加する機能である。複数のファイルを結合した場合であっても、レコードを一意に特定できる連番を追加することができる。例えば、図38の「No」のように連番を追加することができる。図43は、ナンバリングを設定するための画面の一例である。図43は、属性名を入力するための領域を含む。ユーザは、連番を振るための属性に任意の名称を付けることができる。
検索とは、データフォーマットの異なる複数の表形式データや結合後の表形式データから、指定された検索条件にもとづいて、レコードを抽出する機能である。抽出されたレコードをソート(並べ替え)することも可能である。
外部連携とは、表形式データ処理装置が保持している他のプログラムを起動する機能である。例えば、本実施形態に係る処理によって出力されるデータを読み込んで用いる他のプログラムに、処理を引き継ぐことができる。プログラムファイルには、外部プログラムの絶対パスを入力する。起動オプションとして、コマンドラインオプションを入力できるようにしてもよい。また、起動後の待機時間(秒)を指定できるようにしてもよい。
また、CSVファイルの削除、出力、分割を行うこともできる。ファイル分割とは、表形式データを所定の大きさに分割する機能である。例えば、入力される表形式データを物理的に分割することにより、入力データのサイズを小さくすることができ、本実施形態に係る処理を行う際のコンピュータの負荷を低減させることができる。
設定内容の保存及び復元とは、1以上のプロセスの実行順序及び各プロセスを実行するための設定を定義した設定内容をXMLファイルに保存する処理、並びに保存したファイルを開く処理である。本実施形態では、XMLファイルに保存される情報により、項目の構成が同一の表形式データに対して、上記のような処理を再度実行することができる。なお、XMLファイルを再実行情報とも呼ぶ。なお、保存したファイルを開き、定義されたプロセスを実行することができると共に、定義を修正することも可能である。本実施形態では、XMLファイルに保存される一連のプロセスをジョブとも呼ぶ。
図45にXMLファイルの内容の一例を示す。<Set>タグは、データセット項目であり
、タグ内には入力CSVファイルについて記述する。<Process>タグは、プロセスセット
項目であり、タグ内には実行する処理について記述する。具体的には検索、縦結合、横結合、集計を設定する。その他、データ宣言部を含んでいてもよい。以下、図45において使用されていないタグも含め、XMLファイルで用いられる要素名及び属性名並びにその内容の一例を説明する。
。<Numbering>タグは、ナンバリング項目であり、タグ内にはナンバリングに関する設定
を記述する。<Group>タグは、グループ化項目であり、タグ内にはグループ化に関する設
定を記述する。<Ungroup>タグは、グループ化解除項目であり、タグ内にはグループ化解
除に関する設定を記述する。<Out>タグは、データアウト項目であり、タグ内には出力C
SVファイルについて記述する。<Comment>タグは、コメント項目であり、タグ内には、
コメント(文字列)を記載する。
記述される。ソートする場合には、ソート(Sort)要素に昇順(asc)又は降順(desc)
が記述される。
)は、データセットで指定したファイル内容である。フィールド(Field)は、出力する
属性の数だけ記述される。フィールド要素(Cell)には属性名が記述され、さらにファイル名(filename)属性(アトリビュート)に、フルパスのファイル名が記述される。結合(Unite)は、属性の連結が連結する属性の数だけ記述される。結合するセル要素(UCell)には、連結する属性名が記述され、さらにファイル名(filename)属性に、フルパスのファイル名が記述される。新しいフィールド(New)は、出力する属性内容が記述される
。フィールド(Field)は、ターゲット(Target)の数だけ記述される。フィールド要素
(Cell)には、データアウトの属性名が記述される。
日付、法人名、数値、日本語解析、英字解析、氏名、住所、ユーザ辞書のいずれかが記述される。結合(Add)要素には、重複する値の処理(jointype)属性として、重複除外(
一行)、重複(一行)、頻度ソート、自動補完のいずれかを示す識別情報、及び値の間の接続因子(delimiter)属性として、改行、スラッシュ、カンマ、スペースのいずれかを
示す識別情報が記述される。
。また、Keyは、キー要素を示し、キーの数だけ記述され、さらにaggregate属性には、名
寄せ判断を示し、完全一致、年別、月別、日別、週別(年単位)、週別(月単位)、曜日別、ユーザ辞書のいずれかを示す識別情報が記述される。Statistic要素は属性集計を示
し、出力する属性の数だけ記述される。さらに、flag属性はフラグであり、0-99までの数値で重複しない値が入力される。また、collect属性は集計内容を示し、結合、頻度、合
計、平均、中央値、最頻値、最大値、最小値、分散、標準偏差のいずれかを示す識別情報が設定される。また、StatisticNew要素は新規属性集計を示す。また、出力する属性の数だけ属性名が記述され、collect属性は、集計内容であり、カウント、計算、条件、分岐
(未使用)、ナンバリング(廃止)、関数処理のいずれかを示す識別情報が設定される。また、fml属性は集計式を示す。集計式の中の括弧において、角括弧内の数字は、フラグ
で設定した番号、波括弧内の数字は、新規属性集計の0から始まる登録順番を表す。集計式の記述は、集計内容が「計算」の場合、四則演算の式を記述する。集計内容が「条件」の場合、条件式を記述する。集計内容が「関数処理」の場合、関数を記述する。
記述する。さらに、option属性には、コマンドラインオプションを記述する。Wait属性には、外部プログラム起動後の待ち時間をミリ秒単位で記述する。外部プログラムが終了するまで待機する設定値を設けてもよい。
には、名寄せ判断として、完全一致、前方一致、後方一致、中間一致のいずれかを示す識別情報が記述される。また、cleansing属性には、クレンジングの種類として、使用しな
い、電話番号、郵便番号、日付、法人名、数値、日本語解析、英字解析、氏名、住所、ユーザ辞書のいずれかを示す識別情報が記述される。GroupLabel要素には、グループ化属性を示す属性名を記述される。GroupData要素には、グループ化値を示す属性名を記述され
る。StatisticNew要素には、グループ化集計を示す属性名をグループ化値の数だけ記述される。さらに、collect属性には、グループ化内容として、結合、頻度、合計、平均、中
央値、最頻値、最大値、最小値、分散、標準偏差の何れかを示す識別情報を記述する。
する。
。codeには、文字コードを記述する。Deleteはファイル削除を示し、削除するフォルダ又はファイルパスを記述する。
。それぞれの前述のタグ内に処理内容及び担当者、日時などを記述しても良い。
図46に示すように、バッチ処理は、1以上のジョブを設定されたスケジュールで実行する処理である。図46の例は、3つのXMLファイルで定義された3つのジョブが連続して動作するバッチ処理を模式的に表している。なお、2以上のジョブによって出力される2以上のCSVファイルを、後続の1つのジョブの入力ファイルとしてもよい。
図48は、新規ジョブ実行処理の一例を示す処理フロー図である。また、図49は、1つのジョブに含まれるプロセス(処理)の流れを、矢印で接続されたアイコンでグラフィカルに表示するプロセスフィールド画面である。例えば、表形式データ処理装置1は、図49のような画面を介して、ユーザからジョブの設定及び実行の要求を受ける。図49の画面は、メニューバーと、ジョブ作成用のボタンと、ジョブに含まれるプロセスを表示するプロセスフィールドとを含む。図49の例では、4つのファイルが縦結合されて1つの表に統合され、さらに横結合及びCSVファイル出力を実行する一連のプロセスがプロセスフィールドに表示されている。なお、プロセスフィールドに表示される各プロセスやCSVファイル操作のアイコンを、「エレメント」とも呼ぶ。
する「CSVファイル出力」ボタン、指定したCSVファイルを分割するエレメントをプロセスフィールドに追加し、設定画面を表示する「CSVファイル分割」ボタン、作成したプロセスを実行する「実行」ボタン、復元するXMLファイル選択画面を表示する「プロセス復元」ボタン、XMLファイル保存画面を表示する「プロセス保存」ボタン、操作結果イメージを別画面で表示する「イメージデータビューア」ボタン、プロセスフィールドの内容をリセットする「プロセスリセット」ボタンである。ユーザはこれらのボタンを押下することで、ジョブ(プロセスフィールド)にプロセスを追加したり、プロセスを実行したりすることができる。また、プロセスフィールド上でエレメントを右クリックすると、当該エレメントの処理設定をするための「編集」メニュー、当該エレメントをプロセスフィールドから削除するための「削除」メニュー等(コンテキストメニュー)が表示される。ここで、「編集」を選択した場合も、上で説明した各処理の設定画面が表示されるものとする。さらにエレメントはドラッグアンドドロップにより順序を変更することができる。また、エレメント間の入出力ファイルが整合しない場合は、エレメントの順序を変更できないようにするか、自動的にエレメント内部のデータの整合を取るような処理にしてもよい。
「社員交通費清算.csv」及び「営業経費.csv」が読み出され、下段のプロセスフィールドには2つのCSVファイルのエレメントが表示されている。また、CSVファイルの内容が、上段のイメージデータビューアに表示されている。
また、1つ以上のジョブの実行予定を定義しておき、より複雑な処理を自動化することもできる。図54は、いわゆるバッチ処理の設定を定義するバッチ定義処理の一例を示す処理フロー図である。例えば、表形式データ処理装置1は、図47に示したような画面を介してユーザからバッチ定義の要求を受ける。
本実施形態で説明した処理は、いわゆるクライアント−サーバ型のシステムによって提供されるようにしてもよい。すなわち、表形式データ処理装置1は、ネットワークを介して接続されたユーザ端末から要求を受け、本実施形態で説明した処理を実行して結果をユーザ端末へ返すようにしてもよい。ネットワークは、例えばインターネットやイントラネット等のようなコンピュータネットワークである。なお、表形式データ処理装置1とユーザ端末とを、専用線で接続してもよい。また、1つの表形式データ処理装置に複数のユーザ端末が接続されていてもよいし、複数の表形式データ処理装置1がネットワーク上に存在し、1又は複数のユーザ端末からの要求を分散して処理する構成としてもよい。
なサービスの機能の1つとして提供されるようにしてもよい。本実施形態では、CSVファイル等の表形式データを処理対象としている。したがって、外部のRDBMS(Relational DataBase Management System:リレーショナルデータベース管理システム)が管理
するデータベースから、例えばCSV形式でレコードをエクスポートすれば、本実施形態で説明した処理を実行できるようになる。また、本実施形態に係る処理によって出力された表形式データを所定の形式に変換し、外部装置のデータベース等に反映させられるようにしてもよい。
101 データ記憶部
102 入出力部
103 制御部
104 縦結合部
105 横結合部
106 集計部
107 グループ化部
108 検索部
109 外部連携部
110 バッチ処理部
Claims (6)
- 複数の項目にそれぞれ対応する複数の要素を含むレコードが複数登録される表形式データを処理するプログラムであって、
ユーザの操作に基づき、複数の前記表形式データにそれぞれ含まれる項目を対応付けて1つの表形式データを生成する縦結合処理を行う縦結合ステップと、
ユーザの操作に基づき、生成された前記1つの表形式データに含まれる項目をキーとして当該1つの表形式データに含まれる複数のレコードを1つのレコードに集約する集約処理であって、集約後の1つのレコードにおいて1つの項目に対応する複数の要素をすべて所定の接続因子で接続して列挙し、又は集約後の1つのレコードにおいて1つの項目に対応する複数の要素を、重複を除き所定の接続因子で接続して列挙し得る集約処理を行う集約ステップと、
項目の構成が同一の表形式データに対して、前記縦結合処理及び前記集約処理を実行するための再実行情報として、前記項目の対応付けと前記キーとされた項目とを少なくとも記憶装置に記憶させるステップと、
をコンピュータに実行させるための表形式データ処理プログラム。 - ユーザの操作に基づき、同一概念の関係、又は上位概念及び下位概念の関係にある語句を辞書に登録する辞書登録ステップ
をさらに実行させ、
前記集約ステップにおいて、前記キーとされた項目に対応する要素について、前記辞書に登録された同義語、上位概念として接続された要素、又は下位概念として接続された要素を取得すると共に、取得された同義語又は要素について前記辞書に登録された同義語、上位概念として接続された要素及びその同義語、又は下位概念として接続された要素及びその同義語が存在する場合には、これらの同義語及び要素を繰り返し取得し、取得された同義語及び要素のいずれかが前記キーとされた項目に対応付けられたレコードを集約する
請求項1に記載の表形式データ処理プログラム。 - ユーザの操作に基づき、前記再実行情報と、当該再実行情報に従って処理を実行する時刻とを少なくとも含むスケジュール情報を前記記憶装置に記憶させるステップと、
前記スケジュール情報に基づいて、前記スケジュール情報に設定された時刻に前記再実行情報が規定する縦結合処理及び集約処理を行うステップと、
をさらに実行させる請求項1又は2に記載の表形式データ処理プログラム。 - 前記縦結合処理及び前記集約処理の実行順序をグラフィカルに表示するとともに、前記縦結合処理を実行するための設定である前記項目の対応付け、前記集約処理を実行するための設定であるキー項目、又は縦結合処理もしくは集約処理に入力される表形式データの前記項目の構成もしくは出力される表形式データの前記項目の構成を表示するステップ
をさらに実行させる請求項1から3のいずれか一項に記載の表形式データ処理プログラム。 - 複数の項目にそれぞれ対応する複数の要素を含むレコードが複数登録される表形式データを処理する方法であって、
ユーザの操作に基づき、複数の前記表形式データにそれぞれ含まれる項目を対応付けて1つの表形式データを生成する縦結合処理を行う縦結合ステップと、
ユーザの操作に基づき、生成された前記1つの表形式データに含まれる項目をキーとして当該1つの表形式データに含まれる複数のレコードを1つのレコードに集約する集約処理であって、集約後の1つのレコードにおいて1つの項目に対応する複数の要素をすべて所定の接続因子で接続して列挙し、又は集約後の1つのレコードにおいて1つの項目に対応する複数の要素を、重複を除き所定の接続因子で接続して列挙し得る集約処理を行う集約ステップと、
項目の構成が同一の表形式データに対して、前記縦結合処理及び前記集約処理を実行するための再実行情報として、前記項目の対応付けと前記キーとされた項目とを少なくとも記憶装置に記憶させるステップと、
をコンピュータが実行する表形式データ処理方法。 - 複数の項目にそれぞれ対応する複数の要素を含むレコードが複数登録される表形式データを処理する装置であって、
ユーザの操作に基づき、複数の前記表形式データにそれぞれ含まれる項目を対応付けて1つの表形式データを生成する縦結合処理を行う縦結合部と、
ユーザの操作に基づき、生成された前記1つの表形式データに含まれる項目をキーとして当該1つの表形式データに含まれる複数のレコードを1つのレコードに集約する集約処理であって、集約後の1つのレコードにおいて1つの項目に対応する複数の要素をすべて所定の接続因子で接続して列挙し、又は集約後の1つのレコードにおいて1つの項目に対応する複数の要素を、重複を除き所定の接続因子で接続して列挙し得る集約処理を行う集約部と、
項目の構成が同一の表形式データに対して、前記縦結合処理及び前記集約処理を実行するための再実行情報として、前記項目の対応付けと前記キーとされた項目とを少なくとも記憶装置に記憶させる制御部と、
を有する表形式データ処理装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013212378A JP6283190B2 (ja) | 2013-10-09 | 2013-10-09 | 表形式データ処理プログラム、方法、及び装置 |
JP2015523912A JP6623754B2 (ja) | 2013-06-26 | 2014-05-09 | 表形式データ処理プログラム、方法及び装置 |
PCT/JP2014/062498 WO2014208205A1 (ja) | 2013-06-26 | 2014-05-09 | 表形式データ処理プログラム、方法及び装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013212378A JP6283190B2 (ja) | 2013-10-09 | 2013-10-09 | 表形式データ処理プログラム、方法、及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015075970A JP2015075970A (ja) | 2015-04-20 |
JP6283190B2 true JP6283190B2 (ja) | 2018-02-21 |
Family
ID=53000762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013212378A Active JP6283190B2 (ja) | 2013-06-26 | 2013-10-09 | 表形式データ処理プログラム、方法、及び装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6283190B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017090475A1 (ja) * | 2015-11-25 | 2017-06-01 | 日本電気株式会社 | 情報処理システム、関数作成方法および関数作成プログラム |
JP6728926B2 (ja) * | 2016-04-18 | 2020-07-22 | 富士通株式会社 | 符号化処理プログラム、符号化処理装置、符号化処理方法、復号化処理プログラム、復号化処理装置および復号化処理方法 |
WO2018180970A1 (ja) | 2017-03-30 | 2018-10-04 | 日本電気株式会社 | 情報処理システム、特徴量説明方法および特徴量説明プログラム |
JPWO2019069507A1 (ja) | 2017-10-05 | 2020-11-05 | ドットデータ インコーポレイテッド | 特徴量生成装置、特徴量生成方法および特徴量生成プログラム |
JP6573686B2 (ja) * | 2018-02-02 | 2019-09-11 | eXTEM Software Japan株式会社 | 複数のユーザにアクセスされるデータを処理する情報管理システム、情報管理方法、およびプログラム |
JP2019159837A (ja) * | 2018-03-13 | 2019-09-19 | 日本電気株式会社 | データベース結合装置、データベース結合方法及びデータベース結合プログラム |
JP7276355B2 (ja) * | 2019-01-23 | 2023-05-18 | 日本電気株式会社 | 情報提供システム、方法およびプログラム |
JP7397766B2 (ja) * | 2020-06-19 | 2023-12-13 | 株式会社オービック | 情報処理装置、情報処理方法およびプログラム |
JP7440979B1 (ja) | 2023-09-28 | 2024-02-29 | Ais株式会社 | ファイル振分システム、ファイル振分方法及びファイル振分プログラム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259461A (ja) * | 1999-03-08 | 2000-09-22 | Mitsubishi Electric Systemware Corp | データ結合方式及びプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2003331147A (ja) * | 2002-05-17 | 2003-11-21 | Hitachi Ltd | 電子データ変換方法および装置 |
JP4477531B2 (ja) * | 2005-03-25 | 2010-06-09 | 株式会社山武 | データインポート方法およびデータインポート装置 |
JP5375413B2 (ja) * | 2009-07-30 | 2013-12-25 | 富士通株式会社 | データ変換装置、データ変換方法、およびデータ変換プログラム |
JP5404593B2 (ja) * | 2010-12-22 | 2014-02-05 | 京セラドキュメントソリューションズ株式会社 | アドレス帳サーバ及びこれを備えたデータ処理システム |
US8429117B2 (en) * | 2010-12-28 | 2013-04-23 | Hewlett-Packard Development Company, L.P. | Data loading method for a data warehouse |
-
2013
- 2013-10-09 JP JP2013212378A patent/JP6283190B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015075970A (ja) | 2015-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6283190B2 (ja) | 表形式データ処理プログラム、方法、及び装置 | |
JP6623754B2 (ja) | 表形式データ処理プログラム、方法及び装置 | |
Groh et al. | Access 2007 Bible | |
WO2011088396A1 (en) | Apparatus and method for constructing data applications in an unstructured data environment | |
JP5010749B1 (ja) | 会計仕訳ファイルデータ標準化システムとそれを用いた監査システムとそれらのプログラム | |
Alexander et al. | Access 2013 Bible | |
JP2010015458A (ja) | プログラム修正支援システム、プログラム修正支援方法、およびプログラム修正支援プログラム | |
JP5261643B2 (ja) | 会計仕訳ファイルデータ標準化システムとそのプログラム | |
US20200250242A1 (en) | Novel user configurable electronic medical records browser | |
Conrad | Microsoft Access 2013 inside out | |
CN111241176A (zh) | 一种数据治理管理系统 | |
WO2022215276A1 (ja) | データ抽出装置、データ抽出方法、データ抽出プログラム、データ抽出支援装置、データ抽出支援方法、データ抽出支援プログラム | |
US10162877B1 (en) | Automated compilation of content | |
JP2017151627A (ja) | 帳票データ化システム、帳票データ化装置、帳票データ化方法および帳票データ化装置の制御プログラム | |
Jelen et al. | Excel 2016 VBA and Macros | |
JP6870197B2 (ja) | 情報処理装置,コンピュータの制御方法及び制御プログラム | |
JP2012164177A (ja) | プログラム自動生成システム | |
Barrows et al. | Access 2010 All-in-one for Dummies | |
JPH10254979A (ja) | データ処理システム及びデータベース設計システム | |
Jolly | Clean, Transform, and Load the Data | |
Knittel et al. | Working with data: Two empiricists’ experience | |
Cornell | Excel as your database | |
JP6810347B2 (ja) | アプリケーション作成支援システム | |
JPH07122878B2 (ja) | 事例ベース入力・蓄積装置 | |
JP2006268269A (ja) | 電子帳票管理システムおよび管理方法ならびにそのためのプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160927 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170718 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20170919 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171116 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180116 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180126 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6283190 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |