JP7464108B2 - 情報処理システム、情報処理方法及びプログラム - Google Patents
情報処理システム、情報処理方法及びプログラム Download PDFInfo
- Publication number
- JP7464108B2 JP7464108B2 JP2022508279A JP2022508279A JP7464108B2 JP 7464108 B2 JP7464108 B2 JP 7464108B2 JP 2022508279 A JP2022508279 A JP 2022508279A JP 2022508279 A JP2022508279 A JP 2022508279A JP 7464108 B2 JP7464108 B2 JP 7464108B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- validation
- server
- servers
- cross
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 72
- 238000003672 processing method Methods 0.000 title claims description 12
- 238000010200 validation analysis Methods 0.000 claims description 108
- 238000002790 cross-validation Methods 0.000 claims description 51
- 238000010801 machine learning Methods 0.000 claims description 47
- 238000012795 verification Methods 0.000 claims description 34
- 238000000034 method Methods 0.000 claims description 30
- 238000004458 analytical method Methods 0.000 claims description 16
- 238000010586 diagram Methods 0.000 description 10
- 238000005457 optimization Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004549 pulsed laser deposition Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2053—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
- G06F11/2094—Redundant storage or storage space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2097—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements maintaining the standby controller/processing unit updated
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/128—Details of file system snapshots on the file-level, e.g. snapshot creation, administration, deletion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Debugging And Monitoring (AREA)
Description
上記のような情報処理システムにおいて複数回に渡って学習済みモデルを生成するためには、検証のたびに検証サーバに検証データを移動させる必要がある。これにより、その学習済みモデルの検証が遅くなり、多くのリソースを消費することになる。
本発明の目的の一例は、上述した課題を解決する情報処理システム、情報処理方法及びプログラムを提供することにある。
《情報処理システムの構成》
以下、図面を参照しながら第1の実施形態に係る情報処理システム1の構成について詳しく説明する。
図1は、第1の実施形態に係る情報処理システム1の構成を示す図である。
情報処理システム1は、分散環境2に分散して機械学習に用いられるデータを保存するシステムである。また、情報処理システム1は、生成された学習済みモデルを交差検証する。また、情報処理システム1は、分散環境2が備える複数のサーバー10のうち、検証が行われるサーバーにレプリカ(複製、複製データ)を送信するシステムである。
情報処理システム1は、分散環境2と、読取元31と、最適化装置100を備える。
分散環境2は、複数のサーバー10に分散してデータのマスタデータとそのデータのレプリカを保存する。サーバー10は、サーバー10のソフトウェア(図示しない)により分散されたデータとレプリカを保存する。上記ソフトウェアの例としては、分散処理ミドルウェアが挙げられる。また、サーバー10が備えるレプリカ生成装置(図示しない)は、サーバー10が保存するデータを複製してレプリカを生成して、複数のサーバー10の何れかに記録する。
以下、読取元31がユーザ30から受け入れる入力について詳細に説明する。
例えば、分散環境2のサーバー10に売上データと、在庫データと、発注データが保存されているとする。最適化装置100は、売上データの学習により、売上予測にかかる学習済みモデルを生成するとする。この場合、ユーザ30は、対象データの種別として「売上データ」を読取元31に入力する。
売上データは、データ番号と、売上と、日時、顧客IDと、店舗と、性別と、名前と、天気を項目とするデータである。また、売上データは、15行のデータであり、データ番号1からデータ番号15までのデータである。
k分割交差検証を行う場合に、5回の学習及び検証を行う場合(分割数k=5の場合)、図2に示すように、売上データは5つのブロックに分けられる。すなわち、売上データは、ブロックAと、ブロックBと、ブロックCと、ブロックDと、ブロックEに分けられる。ブロックAは、データ番号1からデータ番号3までの売上データである。ブロックBは、データ番号4からデータ番号6までの売上データである。ブロックCは、データ番号7からデータ番号9までの売上データである。ブロックDは、データ番号10からデータ番号12までの売上データである。ブロックEは、データ番号13からデータ番号15までの売上データである。
上記のように売上データを分割する場合、ユーザ30は、分割方法として、「5つに分割」を読取元31に入力する。
以下、最適化装置100の構成について詳細に説明する。
最適化装置100は読取元31から情報を受け入れて、分散環境2のデータを機械学習することにより学習済みモデルを生成する。
最適化装置100は、読取部101と、解析部102と、制御部103と、記憶部104と、学習部105を備える。
解析部102は、生成した全学習パターンを記憶部104に記録する。
図4は、複数のサーバー10におけるデータの配置を示す一例である。
サーバー10Aには、マスタデータであるデータ1と、データ11と、データ9と、データ6と、データ7が保存されている。また、サーバー10Aには、レプリカ15と、レプリカ4と、レプリカ7と、レプリカ10と、レプリカ9が保存されている。
具体的には、制御部103は、全学習パターンにおける検証サーバーと、読み取った配置を照らし合わせて、検証サーバーに検証データ又はその検証データに対応するレプリカが存在するか否かを判定する。制御部103は、判定により、検証データ又はその検証データに対応するレプリカが検証サーバーに存在しない場合は、そのレプリカを検証サーバーに送信する。
以下、情報処理システム1の動作について説明する。
図5は、情報処理システム1の動作を示すフローチャートである。
読取部101は、読取元31が記憶している学習パターン設定情報を読み取る(ステップS2)。
解析部102は、生成した全学習パターンを記憶部104に記録する(ステップS4)。
制御部103は、検証データのうち、検証サーバーがマスタデータ及びレプリカの何れも記憶していないデータである不足データが存在するか否かを判定する(ステップS6)。
レプリカを送信させた後、学習部105は機械学習により学習済みモデルを生成する(ステップS8)。その後、学習部105は学習モデルを交差検証する(ステップS9)。
本発明の実施形態に係る情報処理システム1は、複数のサーバー10に分散して機械学習に用いられるデータを保存する情報処理システム1であって、機械学習における交差検証の分割方法を示す設定情報を読み取る第1読取手段と、設定情報に基づいて、複数のサーバー10のうち交差検証を実行する検証サーバーと交差検証に用いられるデータである検証データとを特定する解析手段と、複数のサーバー10におけるデータの配置を特定する第2読取手段と、検証データのうち検証サーバーが記憶していないデータである不足データを特定し、特定した不足データの配置に基づいて、他のサーバーから不足データをその検証サーバーに送信させる制御手段を備える。
情報処理システム1のユーザは交差検証にかかる時間とリソースを軽減できるシステムにおいて、機械学習により学習済みモデルを生成することができる。
以下、第2の実施形態に係る情報処理システム1を説明する。
第2の実施形態に係る情報処理システム1は、学習パターン設定情報として対象項目も特定し、検証サーバーの不足データの対象項目にかかるレプリカを送信させるシステムである。
第2の実施形態に係る情報処理システム1の構成は、第1の実施形態に係る情報処理システム1の構成と同様である。
例えば、対象データの種別が図2に示すように売上データであるとする。売上データには、データ番号を除き、売上と、日時、顧客IDと、店舗と、性別と、名前と、天気を項目とするデータである。売上、日時、性別の項目だけを用いて学習済みモデルを生成したい場合は、ユーザ30は、「売上」と、「日時」と、「性別」とを対象項目として読取元31に入力する。読取元31は、売上と日時と性別の項目を対象項目として、学習パターン設定情報に示して、記憶装置に記録する。
本発明に係る情報処理システム1の設定情報は、分割方法と、対象データと、機械学習の学習又は検証の対象となる項目である対象項目を示し、解析手段は、設定情報に基づいて、検証サーバーと検証データと種別と対象項目とを特定し、制御手段は、検証データのうち検証サーバーが記憶していない不足データを特定し、特定した配置に基づいて、他のサーバー10から不足データの対象項目を当該検証サーバーに送信させる。
以上、図面を参照して一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、様々な設計変更等をすることが可能である。
また、情報処理システム1は、不足データのレプリカが生成される前に、不足データに係る情報を分散環境2に送信して、検証サーバーに不足データのレプリカが生成されるようにしても良い。
基本構成に係る実施形態の構成は、上記で説明した第1の実施形態の構成のうち、記憶部104と、学習部105を備えない構成である。すなわち、基本構成に係る情報処理システム1の最適化装置100は、読取部101と、解析部102と、制御部103を備える。
図6は、基本構成に係る情報処理システム1の構成を示す図である。
図7は、少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
コンピュータ1100は、プロセッサ1110、メインメモリ1120、ストレージ1130、インタフェース1140を備える。
上述の最適化装置100は、コンピュータ1100に実装される。そして、上述した各処理部の動作は、プログラムの形式でストレージ1130に記憶されている。プロセッサ1110は、プログラムをストレージ1130から読み出してメインメモリ1120に展開し、そのプログラムに従って上記処理を実行する。また、プロセッサ1110は、プログラムに従って、上述した各記憶部に対応する記憶領域をメインメモリ1120に確保する。
2 分散環境
10 サーバー
30 ユーザ
31 読取元
101 読取部
102 解析部
103 制御部
104 記憶部
105 学習部
1100 コンピュータ
1110 プロセッサ
1120 メインメモリ
1130 ストレージ
1140 インタフェース
Claims (7)
- 複数のサーバーに分散して機械学習に用いられるデータを保存する情報処理システムであって、
前記機械学習における複数k回の交差検証の分割方法と前記交差検証を実行する検証サーバーとを示す設定情報であって前記分割方法が前記データを分割して得られた複数k個のブロックを示す設定情報を読み取る第1読取手段と、
前記設定情報に基づいて、前記複数のサーバーのうち前記交差検証を実行する検証サーバーと前記交差検証に用いられるデータである検証データを示すブロックとを特定する解析手段と、
前記複数のサーバーにおける前記データの配置を特定する第2読取手段と、
前記検証データを示すブロックに含まれるデータのうち前記検証サーバーが記憶していないデータである不足データを特定し、特定した前記不足データの配置に基づいて、前記複数のサーバーのうち前記不足データを記憶するサーバーから前記不足データを前記検証サーバーに送信させる制御手段と、
を備える情報処理システム。 - 前記複数のサーバーは、前記データのマスタデータと前記データのレプリカとを分散して記憶し、
前記第2読取手段は、前記複数のサーバーにおける前記マスタデータおよび前記レプリカの配置を特定し、
前記制御手段は、前記検証データのうち前記検証サーバーが前記マスタデータおよび前記レプリカのいずれも記憶していないデータである不足データを特定し、特定した前記不足データの配置に基づいて、前記複数のサーバーのうち前記不足データを記憶するサーバーから前記不足データのレプリカを前記検証サーバーに送信させる
請求項1に記載の情報処理システム。 - 前記設定情報に基づいて、前記機械学習に用いられるデータを含む複数のブロックであって前記検証データを示すブロック以外のブロックに含まれるデータを用いて学習済みモデルを生成する学習手段と、
をさらに備える請求項1又は請求項2に記載の情報処理システム。 - 前記設定情報は、前記分割方法と、前記機械学習又は前記交差検証の対象となるデータの種別を示し、
前記解析手段は、前記設定情報に基づいて、前記検証サーバーと前記検証データと前記種別とを特定する
請求項1から請求項3の何れか1項に記載の情報処理システム。 - 前記設定情報は、前記分割方法と、前記交差検証の対象となるデータと、前記機械学習又は前記交差検証の対象となる項目である対象項目を示し、
前記解析手段は、前記設定情報に基づいて、前記検証サーバーと前記検証データとその種別と前記対象項目とを特定し、
前記制御手段は、前記検証データのうち前記検証サーバーが記憶していないデータである不足データを特定し、特定した前記不足データの配置に基づいて、前記複数のサーバーのうち前記不足データを記憶するサーバーから前記不足データの前記対象項目を前記検証サーバーに送信させる
請求項1に記載の情報処理システム。 - 複数のサーバーに分散して機械学習に用いられるデータを保存する情報処理システムにより実行される情報処理方法であって、
前記機械学習における複数k回の交差検証の分割方法と前記交差検証を実行する検証サーバーとを示す設定情報であって前記分割方法が前記データを分割して得られた複数k個のブロックを示す設定情報を読み取ることと、
前記設定情報に基づいて、前記複数のサーバーのうち前記交差検証を実行する検証サーバーと前記交差検証に用いられるデータである検証データを示すブロックとを特定することと、
前記複数のサーバーにおける前記データの配置を特定することと、
前記検証データを示すブロックに含まれるデータのうち前記検証サーバーが記憶していないデータである不足データを特定することと、
特定した前記不足データの配置に基づいて、前記複数のサーバーのうち前記不足データを記憶するサーバーから前記不足データを前記検証サーバーに送信させることと、
を有する情報処理方法。 - 複数のサーバーに分散して機械学習に用いられるデータを保存する情報処理システムのコンピュータに、
前記機械学習における複数k回の交差検証の分割方法と前記交差検証を実行する検証サーバーとを示す設定情報であって前記分割方法が前記データを分割して得られた複数k個のブロックを示す設定情報を読み取ることと、
前記設定情報に基づいて、前記複数のサーバーのうち前記交差検証を実行する検証サーバーと前記交差検証に用いられるデータである検証データを示すブロックとを特定することと、
前記複数のサーバーにおける前記データの配置を特定することと、
前記検証データを示すブロックに含まれるデータのうち前記検証サーバーが記憶していないデータである不足データを特定することと、
特定した前記不足データの配置に基づいて、前記複数のサーバーのうち前記不足データを記憶する他のサーバーから前記不足データを前記検証サーバーに送信させることと、
を実行させるプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020046350 | 2020-03-17 | ||
JP2020046350 | 2020-03-17 | ||
PCT/JP2021/009754 WO2021187305A1 (ja) | 2020-03-17 | 2021-03-11 | 情報処理システム、情報処理方法及び記録媒体 |
Publications (3)
Publication Number | Publication Date |
---|---|
JPWO2021187305A1 JPWO2021187305A1 (ja) | 2021-09-23 |
JPWO2021187305A5 JPWO2021187305A5 (ja) | 2022-10-31 |
JP7464108B2 true JP7464108B2 (ja) | 2024-04-09 |
Family
ID=77768259
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022508279A Active JP7464108B2 (ja) | 2020-03-17 | 2021-03-11 | 情報処理システム、情報処理方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11907172B2 (ja) |
JP (1) | JP7464108B2 (ja) |
WO (1) | WO2021187305A1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015179410A (ja) | 2014-03-19 | 2015-10-08 | 日本電気株式会社 | ストレージシステム、ストレージ方法、及び、プログラム |
JP2017162209A (ja) | 2016-03-09 | 2017-09-14 | 富士通株式会社 | 分散処理実行管理プログラム、分散処理実行管理方法および分散処理実行管理装置 |
JP2017530435A (ja) | 2014-06-30 | 2017-10-12 | アマゾン・テクノロジーズ・インコーポレーテッド | 機械学習モデル評価のための対話型インターフェース |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8560639B2 (en) | 2009-04-24 | 2013-10-15 | Microsoft Corporation | Dynamic placement of replica data |
US11410111B1 (en) * | 2018-08-08 | 2022-08-09 | Wells Fargo Bank, N.A. | Generating predicted values based on data analysis using machine learning |
US11012332B2 (en) * | 2019-04-18 | 2021-05-18 | International Business Machines Corporation | Dynamic network management based on user, device, application, and network characteristics |
WO2021159099A1 (en) * | 2020-02-07 | 2021-08-12 | Google Llc | Searching for normalization-activation layer architectures |
-
2021
- 2021-03-11 WO PCT/JP2021/009754 patent/WO2021187305A1/ja active Application Filing
- 2021-03-11 US US17/911,170 patent/US11907172B2/en active Active
- 2021-03-11 JP JP2022508279A patent/JP7464108B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015179410A (ja) | 2014-03-19 | 2015-10-08 | 日本電気株式会社 | ストレージシステム、ストレージ方法、及び、プログラム |
JP2017530435A (ja) | 2014-06-30 | 2017-10-12 | アマゾン・テクノロジーズ・インコーポレーテッド | 機械学習モデル評価のための対話型インターフェース |
JP2017162209A (ja) | 2016-03-09 | 2017-09-14 | 富士通株式会社 | 分散処理実行管理プログラム、分散処理実行管理方法および分散処理実行管理装置 |
Non-Patent Citations (1)
Title |
---|
黒松 信行 外,機械仕掛けの機械学習wizz,情報処理学会 研究報告 ハイパフォーマンスコンピューティング(HPC) 2015-HPC-150 [online] ,日本,情報処理学会,2015年07月28日,Vol. 2015-HPC-150 No. 18,pp. 1-7, 正誤表 |
Also Published As
Publication number | Publication date |
---|---|
WO2021187305A1 (ja) | 2021-09-23 |
JPWO2021187305A1 (ja) | 2021-09-23 |
US20230105184A1 (en) | 2023-04-06 |
US11907172B2 (en) | 2024-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111652380B (zh) | 针对机器学习算法进行算法参数调优的方法及系统 | |
US5243538A (en) | Comparison and verification system for logic circuits and method thereof | |
CN108415835B (zh) | 分布式数据库测试方法、装置、设备及计算机可读介质 | |
CN109614262B (zh) | 业务校验方法、装置及计算机可读存储介质 | |
US20200151574A1 (en) | Computer-readable recording medium having stored therein learning program, learning method, and learning apparatus | |
US11556785B2 (en) | Generation of expanded training data contributing to machine learning for relationship data | |
CN115098594A (zh) | 在区块链系统中执行交易的方法、区块链系统和节点 | |
US11399071B2 (en) | Program operation system and program operation method | |
JP7464108B2 (ja) | 情報処理システム、情報処理方法及びプログラム | |
US11409928B2 (en) | Configurable digital twin | |
JP6692281B2 (ja) | テストケース生成装置、及びテストケース生成方法 | |
US11126767B1 (en) | Version control of an integrated circuit design and tracking of pre-fabrication, fabrication, and post-fabrication processes | |
CN113760902A (zh) | 数据拆分方法、装置、设备、介质及程序产品 | |
JP7283583B2 (ja) | 制御方法、制御プログラム、及び情報処理装置 | |
KR20230026137A (ko) | 분산 학습용 서버 및 분산 학습 방법 | |
JP7023439B2 (ja) | 情報処理装置、情報処理方法および情報処理プログラム | |
JP7096312B2 (ja) | データ処理装置、プログラム、及びデータ処理方法 | |
JP7468068B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JPWO2020065778A1 (ja) | 情報処理装置、制御方法、及びプログラム | |
US20230023241A1 (en) | Computer-readable recording medium storing machine learning program, information processing device, and machine learning method | |
US20230351264A1 (en) | Storage medium, accuracy calculation method, and information processing device | |
JP6949441B2 (ja) | ベクタ適正化装置及びベクタ適正化用プログラム | |
JP7238361B2 (ja) | エラー出力装置、エラー出力方法、学習装置、学習済みモデルの生成方法、プログラム、および学習済みモデル | |
US20230237036A1 (en) | Data modification method and information processing apparatus | |
WO2020065960A1 (ja) | 情報処理装置、制御方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220901 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220901 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231205 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240205 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240227 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240311 |