JP6708919B2 - 情報処理プログラム、情報処理装置およびレコードデータ処理方法 - Google Patents
情報処理プログラム、情報処理装置およびレコードデータ処理方法 Download PDFInfo
- Publication number
- JP6708919B2 JP6708919B2 JP2015153178A JP2015153178A JP6708919B2 JP 6708919 B2 JP6708919 B2 JP 6708919B2 JP 2015153178 A JP2015153178 A JP 2015153178A JP 2015153178 A JP2015153178 A JP 2015153178A JP 6708919 B2 JP6708919 B2 JP 6708919B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- record data
- processing
- collected
- executed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
ETLは、連携先システムからレコードデータを収集・抽出(extract)し、所定の処理(transform)を行い、データベースまたは連携先システムへレコードデータを格納・配布(load)するという一連の動作を行う。
〔第1の実施の形態〕
図1は、第1の実施の形態に係る情報処理装置の機能の一例を示す図である。情報処理装置1は、収集手段1aと、処理手段1bを備える。
次に第2の実施の形態について説明する。第2の実施の形態では、レコードデータの一部の処理の実行可能なデータが収集されていれば、全レコードデータの収集を待たずに、該処理を先行して行うように、レコードデータの処理を複数に分けて実行するものである。なお、以降の説明では、レコードデータは単にデータと呼ぶ。
次に第3の実施の形態について説明する。第3の実施の形態は、複数の連携先システムからジャーナルデータとマスタデータを収集し、収集したデータに対して、上述のようなデータ変換処理を行うものである。
図3は、第3の実施の形態のシステム構成例を示す図である。ETLシステム10−1は、サーバ10、連携先システム20−1〜20−n、連携先システム20aおよびクライアント装置30を備える。
そして、サーバ10は、得られたジャーナルデータおよびマスタデータに対して、所定のデータ変換処理(T:Transform)を行い、処理結果をデータベース10aに格納し、連携先システム20aに配布する処理(L:Load)を行う。また、データベース10aに格納されたデータは、クライアント装置30に送られて、ユーザによってデータ活用される。
データ結合処理部12aは、データ収集処理部11で収集された(収集途中、収集済のいずれであってもよい)複数のデータのデータ結合処理を行う。
また、実行したデータ加工処理でデータ変換処理を完了する際は、データ加工処理部12bは、データ加工結果をデータ配布処理部13へ出力する。
全体フロー制御部15は、ETLの全体フローを制御する。例えば、フローの動的組み立て、またはデータの収集状況の監視、データ変換処理に用いるリストの作成、定義の解析などを行う。
〔ステップS1〕データ収集処理部11は、収集すべきデータの到着状況を認識する。図8の例では、データ収集処理部11は、ジャーナルデータj1は収集中、マスタデータm1は未到着、マスタデータm2は収集済と認識する。
図10は、結果データの一例を示す図である。結果データr1−1は、「商品コード」、「商品名」および「注文数」の項目を有する。結果データr1−1は、データ変換処理完了後のデータであり、図10の例では、(商品コード、商品名、注文数)=(A0001、牛乳、20)、(A0002、コーヒー、4)、(B1001、パン、8)、(B1002、弁当、5)の情報が含まれている。
図11は、ETLの定義画面の一例を示す図である。クライアント装置30の画面31bは、1つのジャーナルデータと、2つのマスタデータとのデータ結合処理と、データ結合処理後のデータ加工処理(演算および集計)とを定義するためのGUIを示している。
〔ステップS11〕データ収集処理部11は、データ収集を行い、ジャーナルデータj1−1は収集中、マスタデータm1−1は未到着、マスタデータm2−1は収集済と認識する。
〔ステップS15〕データ結合処理部12aは、仮想データv2−1の出力が完了し、かつマスタデータm1−1が収集中の場合は、データ結合処理部12aは、マスタデータm1−1に対してパイプライン処理によるデータ読み込みを行って、仮想データv2−1とマスタデータm1−1とを結合する。
〔ステップS18〕データ配布処理部13は、データ加工処理部12bから出力された結果データr1−2を配布処理する。
プロセス/スレッド制御部16は、定義管理部14によって管理されているメタデータmd0を参照して、データ変換処理として「ソート」を実行することを認識する。また、メタデータmd0は、合計額による「ソート」を定義している。
〔ステップS26〕データ結合処理部12aは、仮想データv1−1が出力完了し、かつマスタデータm1が収集中の場合は、データ結合処理部12aは、マスタデータm1に対してパイプライン処理によるデータ読み込みを行って、仮想データv1−1とマスタデータm1とを結合する。
図16は、結果データの一例を示す図である。結果データr2−1は、「商品コード」、「商品名」、「注文数」および「合計額」の項目を有する。図16の例では、結果データr2−1は、(商品コード、商品名、注文数、合計額)=(A0002、コーヒー、4、480)、(B1001、パン、8、640)、(B1002、弁当、5、2000)、(A0001、牛乳、20、4000)の情報が含まれ、合計額順にソートされている。
図17は、結合処理対象のデータの一例を示す図である。ジャーナルデータj1−2は、「商品コード」と「注文数」の項目を有している。図17の例では、ジャーナルデータj1−2は、(商品コード、注文数)=(A0001、8)、(A0002、4)、(A0004、12)の情報を含む。
〔ステップS31〕データ収集処理部11は、収集すべきデータの到着状況を認識する。図18の例では、データ収集処理部11は、ジャーナルデータj1−2は収集中、マスタデータm1−2は未到着、マスタデータm2−2は収集済と認識する。
プロセス/スレッド制御部16は、定義管理部14によって管理されているメタデータmd1、md2を参照して、データ加工処理として「演算」および「集計」を実行することを認識する。
なお、データ結合処理部12aは、収集中のジャーナルデータj1−2に関しては、パイプライン処理によるデータ読み込みを行い、読み込んだ順からマスタデータm2−2と結合する。
〔ステップS37〕データ結合処理部12aは、仮想データv3の出力状況と、マスタデータm1−2の収集状況とに応じて、パイプライン処理によるデータ読み込みを行う対象データを変更して、2回目のデータ結合処理として、仮想データv3と、マスタデータm1−2との結合を行う。
図20は、結果データの一例を示す図である。結果データr2−2は、「商品コード」、「商品名」、「注文数」、「値段」、「合計額」、「配送日」、「出荷店」および「集計」の項目を有する。
図21は、全体フロー制御部の動作を示すフローチャートである。なお、全体フロー制御部15の処理開始の契機は多様なパターンがあり、例えば、データを受信したタイミングで処理を開始、または、ある時刻になったら処理を開始するなどがある。さらには、外部からの実行指示により処理を開始してもよい。
〔ステップS42〕全体フロー制御部15は、取得したメタデータの内容にもとづき、変換種別(結合/演算/集計/・・・)を認識し、変換リスト(図22、図23で後述)を作成する。なお、全体フロー制御部15では、変換リストの作成時に、変換リストに登録される情報から、その情報に該当する変換リストの項目を検索可能とする逆引き情報を作成しておいてもよい。
〔ステップS44〕全体フロー制御部15は、プロセス/スレッド制御部16を起動する。
「順番」は、処理の実行順番を示す。「変換種別」は、例えば、“結合”、“演算”、“集計”などの変換処理を示す。「フラグ」は、該当欄の変換処理が未処理なら“OFF”、処理済なら“ON”を示す。「ソース情報」は、該当欄の変換処理で使用されるデータの種類を示す。
状態St11において、入力ソースリストL2には、ジャーナルデータJ1およびマスタデータM1、M2の「状態」が“未到着”であることが示されている。また、変換リストL1では、“結合”、“演算”、“集計”の順にデータ変換処理を行うことが示されている。
状態St12において、入力ソースリストL2には、ジャーナルデータJ1の「状態」は“収集中”、マスタデータM1の「状態」は“未到着”、マスタデータM2の「状態」は“収集済”となっている。
次にプロセス/スレッド制御部16の動作についてフローチャートを用いて説明する。図24は、プロセス/スレッド制御部の動作を示すフローチャートである。
〔ステップS56〕プロセス/スレッド制御部16は、入力ソースリストの編集を行う。例えば、プロセス/スレッド制御部16は、仮想データに関する情報を入力ソースリストに追加する。
〔ステップS58〕プロセス/スレッド制御部16は、データ結合処理部12aとデータ加工処理部12bを呼び出す。
図25は、変換順序最適化処理の動作を示すフローチャートである。
〔ステップS55−2〕プロセス/スレッド制御部16は、未処理のデータ変換処理を行うのに要するデータが存在しているか(揃っているか)否かを認識する。データが存在している場合は、処理がステップS55−3へ進められ、存在していない場合は、ステップS55−2の判断処理が繰り返される。
〔ステップS55−4〕プロセス/スレッド制御部16は、フラグをONする。
1a 収集手段
1b 処理手段
rd1、rd2、rd3 レコードデータ
St1、St2、St3 状態
Claims (9)
- コンピュータに、
複数の情報源からレコードデータを収集し、
収集したレコードデータに対する処理を実行する際に、前記処理についての定義情報を参照して、前記処理が単一のレコードデータから結果データを生成可能である場合は、前記複数の情報源からの収集対象の全レコードデータの到着を待たずに前記処理を開始し、
収集対象の全レコードデータのうちに参照を要するレコードデータが含まれ、前記参照を要するレコードデータにもとづいて前記処理としての変換処理が前記結果データを生成する際に、前記参照を要するレコードデータに未収集のレコードデータが存在する場合であっても、前記変換処理の一部の個別処理の実行を可能とするレコードデータが収集されている場合は、全レコードデータの収集を待たずに、前記個別処理を先行して行うように、前記変換処理を複数の個別処理に分割して実行し、
前記定義情報にもとづいて、収集したレコードデータの中の項目により前記個別処理を実行できるか否かを判断し、前記項目により実行できると判断される前記個別処理を先行して行うように、前記個別処理の実行順序を変えて前記変換処理を実行する、
ことを実行させる情報処理プログラム。 - 前記コンピュータに、前記処理において前記参照を要するレコードデータの収集が完了している場合は、前記複数の情報源からの収集対象の全レコードデータの到着を待たずに前記処理を開始することを実行させるための請求項1記載の情報処理プログラム。
- 前記コンピュータに、収集対象レコードデータの結合処理を行う場合、
到着済みレコードデータに対して先行して結合処理を行って、仮想レコードデータを生成し、未到着であったレコードデータが到着した後に、当該レコードデータと前記仮想レコードデータとに対して後続の結合処理を行うことを実行させるための請求項1記載の情報処理プログラム。 - 前記到着済みレコードデータは、第1のレコードデータ、及び、第2のレコードデータであり、
前記情報処理プログラムは、前記コンピュータに、前記第1のレコードデータが収集中で、前記第2のレコードデータが収集済の場合、前記第1のレコードデータをパイプライン処理で読み込み、前記パイプライン処理で読み込まれた部分から順に前記第2のレコードデータと結合処理することで、前記仮想レコードデータを生成して出力することを実行させるためのものである、請求項3記載の情報処理プログラム。 - 前記コンピュータに、前記仮想レコードデータの出力状況と、前記仮想レコードデータに結合すべき第3のレコードデータの収集状況とに応じて、前記パイプライン処理によるレコードデータ読み込みを行う対象レコードデータを変更して、前記仮想レコードデータと、前記第3のレコードデータとの結合処理を行うことを実行させるための請求項4記載の情報処理プログラム。
- 前記コンピュータに、
前記仮想レコードデータの出力が完了し、かつ前記第3のレコードデータが収集中の場合は、前記第3のレコードデータに対して前記パイプライン処理によるレコードデータ読み込みを行って、前記仮想レコードデータと前記第3のレコードデータとを結合処理し、
前記仮想レコードデータが出力中であり、かつ、前記第3のレコードデータが収集済であり、かつ、前記第1のレコードデータが収集中である場合は、前記第1のレコードデータに対して前記パイプライン処理によるレコードデータ読み込みを行って、前記仮想レコードデータと前記第3のレコードデータとを結合処理することを実行させるための請求項5記載の情報処理プログラム。 - 前記コンピュータに、
前記変換処理として、複数の結合処理と、加工処理とを行う際に、前記定義情報にもとづいて、
収集したレコードデータに対して、実行すべき前記加工処理があるか否かを判断し、
実行すべき前記加工処理がある場合には、該加工処理を、前記結合処理の途中で実行できるか否かを判断し、
前記結合処理の途中での該加工処理を実行不可と判断した場合には、前記結合処理がすべて終了した後に、該加工処理を実行し、
前記結合処理の途中で、該加工処理を実行可能と判断した場合には、前記結合処理の途中に該加工処理を挿入して実行することを実行させるための請求項1記載の情報処理プログラム。 - 複数の情報源からレコードデータを収集する収集手段と、
収集したレコードデータに対する処理を実行する際に、前記処理についての定義情報を参照して、前記処理が単一のレコードデータから結果データを生成可能である場合は、前記複数の情報源からの収集対象の全レコードデータの到着を待たずに前記処理を開始し、収集対象の全レコードデータのうちに参照を要するレコードデータが含まれ、前記参照を要するレコードデータにもとづいて前記処理としての変換処理が前記結果データを生成する際に、前記参照を要するレコードデータに未収集のレコードデータが存在する場合であっても、前記変換処理の一部の個別処理の実行を可能とするレコードデータが収集されている場合は、全レコードデータの収集を待たずに、前記個別処理を先行して行うように、前記変換処理を複数の個別処理に分割して実行し、前記定義情報にもとづいて、収集したレコードデータの中の項目により前記個別処理を実行できるか否かを判断し、前記項目により実行できると判断される前記個別処理を先行して行うように、前記個別処理の実行順序を変えて前記変換処理を実行する処理手段と、
を有する情報処理装置。 - 情報処理装置が、
複数の情報源からレコードデータを収集し、
収集したレコードデータに対する処理を実行する際に、前記処理についての定義情報を参照して、前記処理が単一のレコードデータから結果データを生成可能である場合は、前記複数の情報源からの収集対象の全レコードデータの到着を待たずに前記処理を開始し、
収集対象の全レコードデータのうちに参照を要するレコードデータが含まれ、前記参照を要するレコードデータにもとづいて前記処理としての変換処理が前記結果データを生成する際に、前記参照を要するレコードデータに未収集のレコードデータが存在する場合であっても、前記変換処理の一部の個別処理の実行を可能とするレコードデータが収集されている場合は、全レコードデータの収集を待たずに、前記個別処理を先行して行うように、前記変換処理を複数の個別処理に分割して実行し、
前記定義情報にもとづいて、収集したレコードデータの中の項目により前記個別処理を実行できるか否かを判断し、前記項目により実行できると判断される前記個別処理を先行して行うように、前記個別処理の実行順序を変えて前記変換処理を実行する、
レコードデータ処理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015153178A JP6708919B2 (ja) | 2015-08-03 | 2015-08-03 | 情報処理プログラム、情報処理装置およびレコードデータ処理方法 |
US15/218,419 US10445336B2 (en) | 2015-08-03 | 2016-07-25 | Apparatus and method to process pieces of collected data based on data arrival states |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015153178A JP6708919B2 (ja) | 2015-08-03 | 2015-08-03 | 情報処理プログラム、情報処理装置およびレコードデータ処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017033330A JP2017033330A (ja) | 2017-02-09 |
JP6708919B2 true JP6708919B2 (ja) | 2020-06-10 |
Family
ID=57987116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015153178A Active JP6708919B2 (ja) | 2015-08-03 | 2015-08-03 | 情報処理プログラム、情報処理装置およびレコードデータ処理方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10445336B2 (ja) |
JP (1) | JP6708919B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6646699B2 (ja) * | 2018-03-09 | 2020-02-14 | 株式会社日立製作所 | 検索装置及び検索方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09251580A (ja) * | 1996-03-15 | 1997-09-22 | Toshiba Corp | 販売データの加工処理方法 |
WO2006085315A2 (en) * | 2005-02-08 | 2006-08-17 | Amir Notea | System and method for categorizing activities in computer-accessible environments |
JP4255475B2 (ja) * | 2006-01-04 | 2009-04-15 | シャープ株式会社 | データ駆動型情報処理装置 |
JP5033343B2 (ja) | 2006-03-28 | 2012-09-26 | 株式会社野村総合研究所 | ジョブ管理装置およびジョブ管理方法 |
JP5117355B2 (ja) * | 2008-11-19 | 2013-01-16 | 株式会社日立製作所 | データ集計処理方法及びシステム |
US8782051B2 (en) * | 2012-02-07 | 2014-07-15 | South Eastern Publishers Inc. | System and method for text categorization based on ontologies |
-
2015
- 2015-08-03 JP JP2015153178A patent/JP6708919B2/ja active Active
-
2016
- 2016-07-25 US US15/218,419 patent/US10445336B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20170039256A1 (en) | 2017-02-09 |
JP2017033330A (ja) | 2017-02-09 |
US10445336B2 (en) | 2019-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3503012A1 (en) | Analytics engine for multiple blockchain nodes | |
US9959330B2 (en) | Mechanism for updating OLAP system structure and OLTP system structure | |
US10635669B1 (en) | Data engine integration and data refinement | |
JP2019520649A (ja) | プロセス視覚化プラットフォーム | |
JP5600185B2 (ja) | データベース内の大容量コレクションオブジェクトテーブルにアクセスするための方法 | |
US10877971B2 (en) | Logical queries in a distributed stream processing system | |
US9652203B1 (en) | Application development framework using configurable data types | |
US10452757B2 (en) | Persistent user personalization | |
EP2765510A1 (en) | Data processing method, distributed processing system, and program | |
CA3089911A1 (en) | Method and system for flexible pipeline generation | |
US9292405B2 (en) | HANA based multiple scenario simulation enabling automated decision making for complex business processes | |
US20120124110A1 (en) | Database, management server, and management program | |
US20130024438A1 (en) | Database, business content data management server, and business content data management program | |
JP6708919B2 (ja) | 情報処理プログラム、情報処理装置およびレコードデータ処理方法 | |
US9720939B1 (en) | Method and system for implementing categorically organized relationship effects | |
JP5096775B2 (ja) | データ処理システム | |
JP7033609B2 (ja) | プロセス定義およびプロセス実行トラッキングのためのユーザインターフェイスおよびランタイム環境 | |
EP1933235A2 (en) | Grid modeling tool | |
US20200089200A1 (en) | Production management support apparatus and production management support method | |
JP2009134511A (ja) | サイジング装置、サイジング方法、サイジング用プログラム及び記録媒体 | |
JP2011203899A (ja) | データ処理プログラム、データ処理装置およびデータ処理方法 | |
CN111695749A (zh) | 一种分组任务的生成方法和装置 | |
JP2006251979A (ja) | 可変項目検索システム | |
JP2011096154A (ja) | 入力支援装置、入力支援方法及び入力支援プログラム | |
Gundarapu | Industry 4.0: Data and Data Integration |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180413 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190131 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190312 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190510 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20190510 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20190510 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191112 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191129 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200421 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200504 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6708919 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |