JP2021508389A - データ処理システムにおけるジョブ管理 - Google Patents
データ処理システムにおけるジョブ管理 Download PDFInfo
- Publication number
- JP2021508389A JP2021508389A JP2020529139A JP2020529139A JP2021508389A JP 2021508389 A JP2021508389 A JP 2021508389A JP 2020529139 A JP2020529139 A JP 2020529139A JP 2020529139 A JP2020529139 A JP 2020529139A JP 2021508389 A JP2021508389 A JP 2021508389A
- Authority
- JP
- Japan
- Prior art keywords
- data
- job
- processing
- central
- shard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24554—Unary operations; Data partitioning operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/5033—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering data affinity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/252—Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/30—Creation or generation of source code
- G06F8/38—Creation or generation of source code for implementing user interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline, look ahead
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/541—Interprogram communication via adapters, e.g. between incompatible applications
Abstract
【解決手段】現在のジョブの処理は、以前に処理されたジョブにつき生成されたデータを、二つのジョブがパラメータ構成を共有する範囲で再使用することができる。同様に、二つのジョブがいくつかのパラメータ構成を共有する場合には、以前に処理されたジョブの処理中に生成された処理モジュールの出力が、現在のジョブを処理する処理モジュールへの入力として使用されることができる。
【選択図】図1
Description
Claims (25)
- データ処理プラットフォーム上でジョブを処理するための方法であって、
処理のために第一ジョブを受け取るステップであって、前記第一ジョブは、前記データ処理プラットフォームの処理パイプラインによる前記第一ジョブの実行のためのパラメータ構成のセットを有する、ステップと、
前記処理パイプラインの一つ以上の処理モジュールを介して、前記第一ジョブの少なくとも一部分を実行するステップと、
を含み、
前記実行するステップは、第二ジョブの一部分の実行中に生成された少なくとも一つのデータ・シャードを使用するステップを含み、前記一つ以上の処理モジュールのうちの少なくとも一つの処理モジュールの出力を使用するステップであって、前記出力は、前記第二ジョブの一部分の実行中に生成される、ステップをさらに含む、
方法。 - 前記第二ジョブの一つ以上の部分は、前記第一ジョブのいずれの部分を実行するよりも前に処理される、請求項1に記載の方法。
- 前記処理モジュールは、一つ以上のアプリケーション・プログラミング・インタフェース(API)を含む、請求項1に記載の方法。
- 前記データ処理システムによって処理されるジョブのパラメータ構成は、前記ジョブに関連するそれぞれのパラメータ・ファイルにおいて定義される、請求項1に記載の方法。
- 前記第二ジョブの一部分の実行中に生成された前記少なくとも一つのデータ・シャードを含むデータ・シャードは、中央データ・サービスによって管理される、請求項1に記載の方法。
- 前記中央データ・サービスは仮想化されている、請求項1に記載の方法。
- 前記中央データ・サービスは、中央データ・リポジトリおよび中央メタデータ・リポジトリを含む、請求項1に記載の方法。
- 前記中央メタデータ・リポジトリは、前記中央データ・リポジトリに記憶されたデータ・シャードについてのメタデータ・ファイルのセットを含み、前記処理パイプラインの処理モジュールの出力についての追加のメタデータ・ファイルのセットをさらに含む、請求項7に記載の方法。
- 前記第二ジョブの前記一部分の実行中に生成された前記少なくとも一つのデータ・シャードを、前記データ・シャードについてのメタデータ・ファイルに示される位置からプルするステップと、
既知のデータ・シャードによって定義されない任意のデータを、生データ・ソースからプルするステップと
をさらに含む、請求項1に記載の方法。 - 前記少なくとも一つのデータ・シャードをプルするステップ、および既知のデータ・シャードによって定義されない前記データをプルするステップは、グラフィカル・ユーザ・インタフェース(GUI)を介したユーザの選択に基づいてトリガされる、請求項9に記載の方法。
- データ処理プラットフォーム上でジョブを処理するためのコンピュータ・プログラム製品であって、前記コンピュータ・プログラム製品は、プログラム・コードが具体化された非一時的な有形のストレージ・デバイスを含み、前記プログラム・コードは、方法を行うためにコンピュータのプロセッサによって実行可能であり、前記方法は、
前記プロセッサによって、処理のために第一ジョブを受け取るステップであって、前記第一ジョブは、前記データ処理プラットフォームの処理パイプラインによる前記第一ジョブの実行のためのパラメータ構成のセットを有する、ステップと、
前記プロセッサによって、前記処理パイプラインの一つ以上の処理モジュールを介して、前記第一ジョブの少なくとも一部分を実行するステップと、
を含み、
前記実行するステップは、第二ジョブの一部分の実行中に生成された少なくとも一つのデータ・シャードを使用するステップを含み、前記一つ以上の処理モジュールのうちの少なくとも一つの処理モジュールの出力を使用するステップであって、前記出力は、前記第二ジョブの一部分の実行中に生成される、ステップをさらに含む、
コンピュータ・プログラム製品。 - 前記第二ジョブの一つ以上の部分は、前記第一ジョブのいずれの部分を実行するよりも前に処理される、請求項11に記載のコンピュータ・プログラム製品。
- 前記処理モジュールは、一つ以上のアプリケーション・プログラミング・インタフェース(API)を含む、請求項11に記載のコンピュータ・プログラム製品。
- 前記データ処理システムによって処理されるジョブのパラメータ構成は、前記ジョブに関連するそれぞれのパラメータ・ファイルにおいて定義される、請求項11に記載のコンピュータ・プログラム製品。
- 前記第二ジョブの一部分の実行中に生成された前記少なくとも一つのデータ・シャードを含むデータ・シャードは、中央データ・サービスによって管理される、請求項11に記載のコンピュータ・プログラム製品。
- 前記中央データ・サービスは仮想化されている、請求項11に記載のコンピュータ・プログラム製品。
- 前記中央データ・サービスは、中央データ・リポジトリおよび中央メタデータ・リポジトリを含む、請求項11に記載のコンピュータ・プログラム製品。
- 前記中央メタデータ・リポジトリは、前記中央データ・リポジトリに記憶されたデータ・シャードについてのメタデータ・ファイルのセットを含み、前記処理パイプラインの処理モジュールの出力についての追加のメタデータ・ファイルのセットをさらに含む、請求項17に記載のコンピュータ・プログラム製品。
- 前記プロセッサによって、第二ジョブの一部分の実行中に生成された少なくとも一つのデータ・シャードを、データ・シャードについてのメタデータ・ファイルに示される位置からプルするステップと、
前記プロセッサによって、既知のデータ・シャードによって定義されない任意のデータを、生データ・ソースからプルするステップと
をさらに含む、請求項11に記載のコンピュータ・プログラム製品。 - 前記少なくとも一つのデータ・シャードをプルするステップ、および既知のデータ・シャードによって定義されない前記データをプルするステップは、グラフィカル・ユーザ・インタフェース(GUI)を介したユーザの選択に基づいてトリガされる、請求項19に記載のコンピュータ・プログラム製品。
- データ処理プラットフォーム上でジョブを処理するためのコンピュータ・システムであって、
一つ以上のプロセッサと一つ以上の有形のストレージ・デバイスとを各々が有する一つ以上のコンピュータ・デバイスと、
前記一つ以上のストレージ・デバイスのうちの少なくとも一つに具体化されたプログラムと、
を含み、
前記プログラムは、前記一つ以上のプロセッサによる実行のための複数のプログラム命令を有し、前記プログラム命令は、
処理のために第一ジョブを受け取るステップであって、前記第一ジョブは、前記データ処理プラットフォームの処理パイプラインによる前記第一ジョブの実行のためのパラメータ構成のセットを有する、ステップと、
前記処理パイプラインの一つ以上の処理モジュールを介して、前記第一ジョブの少なくとも一部分を実行するステップと、のための命令を含み、
前記実行するステップは、第二ジョブの一部分の実行中に生成された少なくとも一つのデータ・シャードを使用するステップを含み、前記一つ以上の処理モジュールのうちの少なくとも一つの処理モジュールの出力を使用するステップであって、前記出力は、前記第二ジョブの一部分の実行中に生成される、ステップをさらに含む、
コンピュータ・システム。 - 前記第二ジョブの一つ以上の部分は、前記第一ジョブのいずれの部分を実行するよりも前に処理される、請求項21に記載のコンピュータ・システム。
- 前記処理モジュールは、一つ以上のアプリケーション・プログラミング・インタフェース(API)を含む、請求項21に記載のコンピュータ・システム。
- 前記データ処理プラットフォームは、中央データ・サービスを含み、前記中央データ・サービスは、中央データ・リポジトリおよび中央メタデータ・リポジトリを含み、前記中央メタデータ・リポジトリは、前記中央データ・リポジトリに記憶されたデータ・シャードについてのメタデータ・ファイルのセットを含み、前記処理パイプラインの処理モジュールの出力についての追加のメタデータ・ファイルのセットをさらに含む、請求項21に記載のコンピュータ・システム。
- データ処理プラットフォーム上でジョブを処理するための方法であって、
処理のために第一ジョブを受け取るステップであって、前記第一ジョブは、前記データ処理プラットフォームの処理パイプラインによる前記第一ジョブの実行のためのパラメータ構成のセットを有し、前記処理モジュールは、一つ以上のアプリケーション・プログラミング・インタフェース(API)を含む、ステップと、
前記処理パイプラインの一つ以上の処理モジュールを介して、前記第一ジョブの少なくとも一部分を実行するステップと、
を含み、
前記実行するステップは、第二ジョブの一部分の実行中に生成された少なくとも一つのデータ・シャードを使用するステップを含み、前記一つ以上の処理モジュールのうちの少なくとも一つの処理モジュールの出力を使用するステップであって、前記出力は、前記第二ジョブの一部分の実行中に生成される、ステップをさらに含み、
前記第二ジョブの一つ以上の部分は、前記第一ジョブのいずれの部分を実行するよりも前に処理され、
前記第二ジョブの一部分の実行中に生成された前記少なくとも一つのデータ・シャードを含むデータ・シャードは、中央データ・リポジトリと中央メタデータ・リポジトリとを含む中央データ・サービスによって管理され、
前記第一ジョブの前記少なくとも一部分を実行するステップは、
第二ジョブの一部分の実行中に生成された少なくとも一つのデータ・シャードを、データ・シャードについてのメタデータ・ファイルに示される位置からプルするステップと、
既知のデータ・シャードによって定義されない任意のデータを、生データ・ソースからプルするステップと
をさらに含む、
方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/835,824 | 2017-12-08 | ||
US15/835,824 US11061905B2 (en) | 2017-12-08 | 2017-12-08 | Job management in data processing system |
PCT/IB2018/059692 WO2019111188A1 (en) | 2017-12-08 | 2018-12-06 | Job management in data processing system |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2021508389A true JP2021508389A (ja) | 2021-03-04 |
JP2021508389A5 JP2021508389A5 (ja) | 2021-07-26 |
JP7185982B2 JP7185982B2 (ja) | 2022-12-08 |
Family
ID=66696193
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020529139A Active JP7185982B2 (ja) | 2017-12-08 | 2018-12-06 | データ処理システムにおけるジョブ管理 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11061905B2 (ja) |
JP (1) | JP7185982B2 (ja) |
CN (1) | CN111295648A (ja) |
DE (1) | DE112018005620T5 (ja) |
GB (1) | GB2583608B (ja) |
WO (1) | WO2019111188A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11061905B2 (en) | 2017-12-08 | 2021-07-13 | International Business Machines Corporation | Job management in data processing system |
US11194773B2 (en) * | 2019-09-12 | 2021-12-07 | Oracle International Corporation | Integration of existing databases into a sharding environment |
US11940975B2 (en) * | 2020-09-28 | 2024-03-26 | International Business Machines Corporation | Database distribution to avoid contention |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000082061A (ja) * | 1998-09-04 | 2000-03-21 | Toshiba Corp | 結果再利用情報処理システム |
US20090300038A1 (en) * | 2008-05-28 | 2009-12-03 | Ying Chen | Methods and Apparatus for Reuse Optimization of a Data Storage Process Using an Ordered Structure |
JP2011002911A (ja) * | 2009-06-16 | 2011-01-06 | Hitachi Ltd | データ分析システム及び方法 |
JP2012160014A (ja) * | 2011-01-31 | 2012-08-23 | Nippon Telegr & Teleph Corp <Ntt> | データ分析及び機械学習処理装置及び方法及びプログラム |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030177046A1 (en) | 2001-12-03 | 2003-09-18 | John Socha-Leialoha | Method and system for reusing components |
US7117500B2 (en) | 2001-12-20 | 2006-10-03 | Cadence Design Systems, Inc. | Mechanism for managing execution of interdependent aggregated processes |
US8677320B2 (en) | 2011-04-06 | 2014-03-18 | Mosaic, Inc. | Software testing supporting high reuse of test data |
KR101365464B1 (ko) | 2012-03-05 | 2014-02-20 | 네이버비즈니스플랫폼 주식회사 | 데이터베이스 미들웨어를 이용한 데이터 관리 시스템 및 방법 |
US9218573B1 (en) | 2012-05-22 | 2015-12-22 | Google Inc. | Training a model using parameter server shards |
US9298760B1 (en) * | 2012-08-03 | 2016-03-29 | Google Inc. | Method for shard assignment in a large-scale data processing job |
US20140108421A1 (en) * | 2012-10-04 | 2014-04-17 | Codefutures Corporation | Partitioning database data in a sharded database |
US10521671B2 (en) * | 2014-02-28 | 2019-12-31 | Second Spectrum, Inc. | Methods and systems of spatiotemporal pattern recognition for video content development |
US11093468B1 (en) | 2014-03-31 | 2021-08-17 | EMC IP Holding Company LLC | Advanced metadata management |
JP6388374B2 (ja) | 2014-05-26 | 2018-09-12 | キヤノン株式会社 | 情報処理装置及、情報処理装置の制御方法及びプログラム |
EP4328816A1 (en) * | 2014-06-30 | 2024-02-28 | Amazon Technologies, Inc. | Machine learning service |
CN105511957B (zh) * | 2014-09-25 | 2019-05-07 | 国际商业机器公司 | 用于生成作业告警的方法和系统 |
US10354188B2 (en) * | 2016-08-02 | 2019-07-16 | Microsoft Technology Licensing, Llc | Extracting facts from unstructured information |
US20180130024A1 (en) * | 2016-11-08 | 2018-05-10 | Facebook, Inc. | Systems and methods to identify resumes based on staged machine learning models |
US11061905B2 (en) | 2017-12-08 | 2021-07-13 | International Business Machines Corporation | Job management in data processing system |
-
2017
- 2017-12-08 US US15/835,824 patent/US11061905B2/en active Active
-
2018
- 2018-12-06 WO PCT/IB2018/059692 patent/WO2019111188A1/en active Application Filing
- 2018-12-06 DE DE112018005620.1T patent/DE112018005620T5/de active Pending
- 2018-12-06 JP JP2020529139A patent/JP7185982B2/ja active Active
- 2018-12-06 GB GB2009966.9A patent/GB2583608B/en active Active
- 2018-12-06 CN CN201880071895.4A patent/CN111295648A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000082061A (ja) * | 1998-09-04 | 2000-03-21 | Toshiba Corp | 結果再利用情報処理システム |
US20090300038A1 (en) * | 2008-05-28 | 2009-12-03 | Ying Chen | Methods and Apparatus for Reuse Optimization of a Data Storage Process Using an Ordered Structure |
JP2011002911A (ja) * | 2009-06-16 | 2011-01-06 | Hitachi Ltd | データ分析システム及び方法 |
JP2012160014A (ja) * | 2011-01-31 | 2012-08-23 | Nippon Telegr & Teleph Corp <Ntt> | データ分析及び機械学習処理装置及び方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2019111188A1 (en) | 2019-06-13 |
US20190179943A1 (en) | 2019-06-13 |
GB202009966D0 (en) | 2020-08-12 |
DE112018005620T5 (de) | 2020-07-23 |
GB2583608B (en) | 2022-02-09 |
US11061905B2 (en) | 2021-07-13 |
GB2583608A (en) | 2020-11-04 |
CN111295648A (zh) | 2020-06-16 |
JP7185982B2 (ja) | 2022-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10528585B2 (en) | ETL tool interface for remote mainframes | |
US9727625B2 (en) | Parallel transaction messages for database replication | |
US11294958B2 (en) | Managing a distributed knowledge graph | |
US10353874B2 (en) | Method and apparatus for associating information | |
US11734937B1 (en) | Creating text classification machine learning models | |
US10877846B2 (en) | Performing a closure merge operation | |
US20140081901A1 (en) | Sharing modeling data between plug-in applications | |
JP2021508389A (ja) | データ処理システムにおけるジョブ管理 | |
US11630647B2 (en) | Method and system for configuring processes of software applications using activity fragments | |
US10698722B2 (en) | Virtual machine migration across cloud computing providers | |
US9619518B2 (en) | Tracking tuples to reduce redundancy in a graph | |
US11693878B2 (en) | Generation of a dataset in the format of a machine learning framework | |
US11461292B2 (en) | Quick data exploration | |
US20230169354A1 (en) | Annotation of a Machine Learning Pipeline with Operational Semantics to Support Distributed Lineage Tracking | |
WO2020237665A1 (zh) | 协助用户使用自动化系统的设备、方法和计算机可读介质 | |
US20190258705A1 (en) | Applying Matching Data Transformation Information Based on a User's Editing of Data within a Document | |
Nguyen | Setting Up a Hadoop System in Cloud A Lab Activity for Big Data Analytics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210518 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210525 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20220502 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220517 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220705 |
|
RD16 | Notification of change of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7436 Effective date: 20221004 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221005 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221025 |
|
RD13 | Notification of appointment of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7433 Effective date: 20221025 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221115 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20221115 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221124 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7185982 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |