JP7464108B2

JP7464108B2 - 情報処理システム、情報処理方法及びプログラム

Info

Publication number: JP7464108B2
Application number: JP2022508279A
Authority: JP
Inventors: 純一安田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2020-03-17
Filing date: 2021-03-11
Publication date: 2024-04-09
Anticipated expiration: 2041-03-11
Also published as: WO2021187305A1; JPWO2021187305A1; US20230105184A1; US11907172B2

Description

本発明は、情報処理システム、情報処理方法及びプログラムに関する。

特許文献１には、分散ファイルシステムでストレージノードの特徴を動的に評価して最適な配置決定を行うことにより、バックアップデータの損失を防ぐ技術が記載されている。

特表２０１２－５２４９４７号公報

複数のサーバーに分散してデータを保存する情報処理システムにおいて、そのデータを学習して学習済みモデルを生成する技術が知られている。また、学習データと検証データの分割により学習データの偏りが生じ、生成された学習済みモデルの精度が低くなり得るため、学習データと検証データの分割方法を変えながら、学習済みモデルを複数回生成して、精度を高くする技術が知られている。
上記のような情報処理システムにおいて複数回に渡って学習済みモデルを生成するためには、検証のたびに検証サーバに検証データを移動させる必要がある。これにより、その学習済みモデルの検証が遅くなり、多くのリソースを消費することになる。
本発明の目的の一例は、上述した課題を解決する情報処理システム、情報処理方法及びプログラムを提供することにある。

本発明の態様に係る情報処理システムは、複数のサーバーに分散して機械学習に用いられるデータを保存する情報処理システムであって、機械学習における交差検証の分割方法を示す設定情報を読み取る第１読取手段と、設定情報に基づいて、複数のサーバーのうち交差検証を実行する検証サーバーと交差検証に用いられるデータである検証データとを特定する解析手段と、複数のサーバーにおけるデータの配置を特定する第２読取手段と、検証データのうち検証サーバーが記憶していないデータである不足データを特定し、特定した不足データの配置に基づいて、複数のサーバーのうち不足データを記憶するサーバーから不足データをその検証サーバーに送信させる制御手段を備える。

本発明の態様に係る情報処理方法は、複数のサーバーに分散して機械学習に用いられるデータを保存する情報処理システムにより実行される情報処理方法であって、機械学習における交差検証の分割方法を示す設定情報を読み取ることと、設定情報に基づいて、複数のサーバーのうち交差検証を実行する検証サーバーと交差検証に用いられるデータである検証データとを特定することと、複数のサーバーにおけるデータの配置を特定することと、検証データのうち検証サーバーが記憶していないデータである不足データを特定することと、特定した不足データの配置に基づいて、複数のサーバーのうち不足データを記憶するサーバーから不足データをその検証サーバーに送信させることとを有する。

本発明の態様に係る記録媒体は、複数のサーバーに分散して機械学習に用いられるデータを保存する情報処理システムのコンピュータに、機械学習における交差検証の分割方法を示す設定情報を読み取ることと、設定情報に基づいて、複数のサーバーのうち交差検証を実行する検証サーバーと交差検証に用いられるデータである検証データとを特定することと、複数のサーバーにおけるデータの配置を特定することと、検証データのうち検証サーバーが記憶していないデータである不足データを特定することと、特定した不足データの配置に基づいて、複数のサーバーのうち不足データを記憶するサーバーから不足データをその検証サーバーに送信させることとを実行させるプログラムを記憶する。

上記態様のうち少なくとも１つの態様によれば、複数のサーバーに分散してデータを保存する情報処理システムにおいて、複数回生成した学習済みモデルの交差検証にかかる時間とリソースを軽減することができる。

一実施形態に係る情報処理システムの構成を示す図である。一実施形態に係る売上データの一例を示す図である。一実施形態に係る全学習パターンの一例を示す図である。一実施形態に係るサーバーにおけるデータの配置を示す一例である。一実施形態に係る情報処理システムの動作を示すフローチャートである。基本構成に係る情報処理システムの構成を示す図である。少なくとも１つの実施形態のコンピュータの構成を示す概略ブロック図である。

〈第１の実施形態〉
《情報処理システムの構成》
以下、図面を参照しながら第１の実施形態に係る情報処理システム１の構成について詳しく説明する。
図１は、第１の実施形態に係る情報処理システム１の構成を示す図である。
情報処理システム１は、分散環境２に分散して機械学習に用いられるデータを保存するシステムである。また、情報処理システム１は、生成された学習済みモデルを交差検証する。また、情報処理システム１は、分散環境２が備える複数のサーバー１０のうち、検証が行われるサーバーにレプリカ（複製、複製データ）を送信するシステムである。
情報処理システム１は、分散環境２と、読取元３１と、最適化装置１００を備える。

分散環境２は、サーバー１０Ａと、サーバー１０Ｂと、サーバー１０Ｃを備える。サーバー１０Ａと、サーバー１０Ｂと、サーバー１０Ｃを、サーバー１０と称する場合がある。
分散環境２は、複数のサーバー１０に分散してデータのマスタデータとそのデータのレプリカを保存する。サーバー１０は、サーバー１０のソフトウェア（図示しない）により分散されたデータとレプリカを保存する。上記ソフトウェアの例としては、分散処理ミドルウェアが挙げられる。また、サーバー１０が備えるレプリカ生成装置（図示しない）は、サーバー１０が保存するデータを複製してレプリカを生成して、複数のサーバー１０の何れかに記録する。

読取元３１は、情報処理システム１のユーザ３０から学習パターン設定情報の入力を受け入れて、入力に係る学習パターン設定情報を記憶する装置である。学習パターン設定情報は、設定情報の一例である。読取元３１は、受入部（図示しない）と、記憶装置（図示しない）を備える。読取元３１がユーザ３０から受け入れる学習パターン設定情報は、対象データの種別と、分割方法と、検証サーバーと、学習方法を示す。受取部は、受け入れた学習パターン設定情報を記憶装置に記録する。
以下、読取元３１がユーザ３０から受け入れる入力について詳細に説明する。

対象データの種別とは、分散環境２が保存するデータのうち、最適化装置１００の機械学習の学習又は検証の対象となる種別である。
例えば、分散環境２のサーバー１０に売上データと、在庫データと、発注データが保存されているとする。最適化装置１００は、売上データの学習により、売上予測にかかる学習済みモデルを生成するとする。この場合、ユーザ３０は、対象データの種別として「売上データ」を読取元３１に入力する。

分割方法とは、機械学習における交差検証の分割の方法である。交差検証とは、分散環境２に保存されているデータを学習データと検証データに分割して、学習データによる学習済みモデルを検証データで検証する手法である。

図２は、売上データの一例を示す図である。上記一例を用いて分割方法について説明する。
売上データは、データ番号と、売上と、日時、顧客ＩＤと、店舗と、性別と、名前と、天気を項目とするデータである。また、売上データは、１５行のデータであり、データ番号１からデータ番号１５までのデータである。
ｋ分割交差検証を行う場合に、５回の学習及び検証を行う場合（分割数ｋ＝５の場合）、図２に示すように、売上データは５つのブロックに分けられる。すなわち、売上データは、ブロックＡと、ブロックＢと、ブロックＣと、ブロックＤと、ブロックＥに分けられる。ブロックＡは、データ番号１からデータ番号３までの売上データである。ブロックＢは、データ番号４からデータ番号６までの売上データである。ブロックＣは、データ番号７からデータ番号９までの売上データである。ブロックＤは、データ番号１０からデータ番号１２までの売上データである。ブロックＥは、データ番号１３からデータ番号１５までの売上データである。
上記のように売上データを分割する場合、ユーザ３０は、分割方法として、「５つに分割」を読取元３１に入力する。

ユーザ３０は、分割方法として、データの行数や、データのサイズに基づいて分割する方法を読取元３１に入力しても良い。例えば、ユーザ３０は、「５行ごとに分割」を読取元３１に入力しても良い。この場合、売上データは３個のブロックに分割される。

検証サーバーとは、機械学習の検証が行われる分散環境２のサーバー１０である。例えば、ユーザ３０がサーバー１０Ａと、サーバー１０Ｂを用いて機械学習の検証を行う場合、ユーザ３０は、「サーバー１０Ａ」と「サーバー１０Ｂ」を、検証サーバーとして読取元３１に入力する。

《最適化装置の構成》
以下、最適化装置１００の構成について詳細に説明する。
最適化装置１００は読取元３１から情報を受け入れて、分散環境２のデータを機械学習することにより学習済みモデルを生成する。
最適化装置１００は、読取部１０１と、解析部１０２と、制御部１０３と、記憶部１０４と、学習部１０５を備える。

読取部１０１は、学習パターン設定情報を読取元３１から読み取る。読取部１０１は、第１読取手段の一例である。

解析部１０２は、読取部１０１が読み取った学習パターン設定情報に基づいて、検証サーバーと検証データを特定する。検証データとは、機械学習の検証に用いられるデータである。解析部１０２は解析手段の一例である。また、解析部１０２は、特定した検証サーバーと検証データとを関連付けて全学習パターンを生成する。図３は、全学習パターンの一例を示す図である。

全学習パターン１は、検証サーバーとしてサーバー１０Ａと、検証データとしてブロックＡと、学習データとしてブロックＢと、ブロックＣと、ブロックＤと、ブロックＥが関連付けられている。全学習パターン２は、検証サーバーを示す情報としてサーバー１０Ｂ、検証データとしてブロックＢと、学習データとしてブロックＡと、ブロックＣと、ブロックＤと、ブロックＥが関連付けられている。
解析部１０２は、生成した全学習パターンを記憶部１０４に記録する。

制御部１０３は、複数のサーバー１０におけるデータの配置を特定する。制御部１０３は、第２読取手段の一例である。
図４は、複数のサーバー１０におけるデータの配置を示す一例である。

図４に示すように、サーバー１０Ａとサーバー１０Ｂとサーバー１０Ｃには、売上データのマスタデータとその売上データのレプリカが保存されている。図４に示す例では、データのマスタデータとレプリカがランダムに配置されて保存される一例である。以下、データ番号ＮのデータをデータＮと称する。また、以下、データ番号Ｎのデータに対応するレプリカをレプリカＮと称する。
サーバー１０Ａには、マスタデータであるデータ１と、データ１１と、データ９と、データ６と、データ７が保存されている。また、サーバー１０Ａには、レプリカ１５と、レプリカ４と、レプリカ７と、レプリカ１０と、レプリカ９が保存されている。

また、制御部１０３は、記憶部１０４が記憶している全学習パターンに基づいて、検証データのうち、検証サーバーがマスタデータ及びレプリカのいずれも記憶していないデータである不足データを特定して、特定した配置（特定した不足データの配置）に基づいて、他のサーバー１０から不足データのレプリカを検証サーバーに送信する。制御部１０３は制御手段の一例である。

例えば、全学習パターン１における検証サーバーはサーバー１０Ａである。また、全学習パターン１における検証データはブロックＡである。図４に示すように、検証サーバーであるサーバー１０Ａには、ブロックＡに属するデータ又はデータに対応するレプリカのうち、データ１のみ保存されている。すなわち、検証サーバーであるサーバー１０Ａの不足データはデータ２とデータ３である。そのため、制御部１０３は、サーバー１０Ｂに保存されているレプリカ３と、サーバー１０Ｃに保存されているレプリカ２をサーバー１０Ａに送信する。
具体的には、制御部１０３は、全学習パターンにおける検証サーバーと、読み取った配置を照らし合わせて、検証サーバーに検証データ又はその検証データに対応するレプリカが存在するか否かを判定する。制御部１０３は、判定により、検証データ又はその検証データに対応するレプリカが検証サーバーに存在しない場合は、そのレプリカを検証サーバーに送信する。

記憶部１０４は、全学習パターンを記憶する記憶媒体である。記憶部１０４の例としては、ハードディスクが挙げられる。

学習部１０５は、学習パターン設定情報に基づいて、分散環境２のサーバー１０のデータの機械学習により、学習済みモデルを生成する。また、学習部１０５は生成された学習済みモデルの交差検証を行う。学習部１０５は学習手段の一例である。

例えば、学習部１０５は、学習パターン設定情報に基づいて学習済みモデルを生成し、その学習済みモデルの交差検証を行う。学習部１０５は、分散環境２のブロックＢとブロックＣとブロックＤとブロックＥに属するデータを機械学習することにより、学習済みモデルを生成する。学習部１０５は、データのうち、売上の項目の値を目的変数として、売上以外の項目の値を入力変数として、学習済みモデルを生成する。また、学習部１０５は、検証サーバーであるサーバー１０Ａにおいて、ブロックＡに属するデータを、学習済みモデルに代入して得られる値と、そのデータの売上の項目の値とを照らし合わせて精度を求めることにより、検証を行う。検証においては、サーバー１０Ａが記憶しているデータ１と、制御部１０３によりサーバー１０Ｂ及びサーバー１０Ｃから移動されたレプリカ２と、レプリカ３が用いられる。また、学習部１０５は、分散環境２のブロックＡとブロックＣとブロックＤとブロックＥに属するデータを機械学習することにより、学習済みモデルを生成する。学習部１０５は、ブロックＢの売上の項目の値に基づいて精度を求めることにより検証を行う。このように、学習部１０５は、検証データを変えながら機械学習を行い、複数の学習済みモデルを照らし合わせて、交差検証を行う。交差検証により入力変数に関連付けられた重みを調整することにより、学習済みモデルの精度を高めることができる。

《情報処理システムの動作》
以下、情報処理システム１の動作について説明する。
図５は、情報処理システム１の動作を示すフローチャートである。

ユーザ３０は、対象データの種別と、分割方法と、検証サーバーを読取元３１に入力する（ステップＳ１）。読取元３１に入力された情報は、学習パターン設定情報として記憶装置に記録される。
読取部１０１は、読取元３１が記憶している学習パターン設定情報を読み取る（ステップＳ２）。

解析部１０２は、ステップＳ２で読取部１０１が読み取った学習パターン設定情報に基づいて検証サーバーと、検証データと、対象データの種別を特定し、全学習パターンを生成する（ステップＳ３）。
解析部１０２は、生成した全学習パターンを記憶部１０４に記録する（ステップＳ４）。

制御部１０３は、分散環境２の配置を特定し、記憶部１０４が記憶している全学習パターンを読み取る（ステップＳ５）。
制御部１０３は、検証データのうち、検証サーバーがマスタデータ及びレプリカの何れも記憶していないデータである不足データが存在するか否かを判定する（ステップＳ６）。

不足データが存在する場合（ステップＳ６：ＹＥＳ）、制御部１０３は、特定した不足データの配置に基づいて、他のサーバー１０から不足データのレプリカを検証サーバーに送信させる（ステップＳ７）。
レプリカを送信させた後、学習部１０５は機械学習により学習済みモデルを生成する（ステップＳ８）。その後、学習部１０５は学習モデルを交差検証する（ステップＳ９）。

不足データが存在しない場合（ステップＳ６：ＮＯ）、学習部１０５は機械学習により学習済みモデルを生成する（ステップＳ８）。その後、学習部１０５は学習モデルを交差検証する（ステップＳ９）。

上記の動作により、情報処理システム１は分散環境２のデータの機械学習による学習済みモデルの交差検証にかかる時間とリソースを軽減することができる。

《作用および効果》
本発明の実施形態に係る情報処理システム１は、複数のサーバー１０に分散して機械学習に用いられるデータを保存する情報処理システム１であって、機械学習における交差検証の分割方法を示す設定情報を読み取る第１読取手段と、設定情報に基づいて、複数のサーバー１０のうち交差検証を実行する検証サーバーと交差検証に用いられるデータである検証データとを特定する解析手段と、複数のサーバー１０におけるデータの配置を特定する第２読取手段と、検証データのうち検証サーバーが記憶していないデータである不足データを特定し、特定した不足データの配置に基づいて、他のサーバーから不足データをその検証サーバーに送信させる制御手段を備える。

検証サーバーに不足データを送信させることにより、情報処理システム１は分散環境２のデータの機械学習による学習済みモデルの交差検証にかかる時間とリソースを軽減することができる。

情報処理システム１の複数のサーバー１０は、データのマスタデータとそのデータのレプリカとを分散して記憶し、第２読取手段は、複数のサーバー１０におけるマスタデータおよびレプリカの配置を特定し、制御手段は、検証データのうち検証サーバーがマスタデータおよびレプリカのいずれも記憶していないデータである不足データを特定し、特定した不足データの配置に基づいて、他のサーバー１０から不足データのレプリカをその検証サーバーに送信させる。

検証サーバーに不足データのレプリカを送信させることにより、情報処理システム１は分散環境２のデータの機械学習による学習済みモデルの交差検証にかかる時間とリソースを軽減することができる。

情報処理システム１は、設定情報に基づいて学習済みモデルを生成する学習手段を備える。
情報処理システム１のユーザは交差検証にかかる時間とリソースを軽減できるシステムにおいて、機械学習により学習済みモデルを生成することができる。

情報処理システム１の設定情報は、分割方法と、機械学習の学習又は検証の対象となるデータの種別を示し、解析手段は、設定情報に基づいて、検証サーバーと検証データと種別とを特定する。

情報処理システム１は、対象データの種別を示す設定情報に基づいて、検証データを特定する。これにより、対象データの種別に対応する不足データだけを検証サーバーに送信させることで、交差検証にかかる時間とリソースを軽減できる。

本発明の実施形態に係る情報処理方法は、複数のサーバー１０に分散して機械学習に用いられるデータを保存する情報処理システム１により実行され、機械学習における交差検証の分割方法を示す設定情報を読み取るステップと、設定情報に基づいて、複数のサーバー１０のうち交差検証を実行する検証サーバーと交差検証に用いられるデータである検証データとを特定するステップと、複数のサーバー１０におけるデータの配置を特定するステップと、検証データのうち検証サーバーが記憶していないデータである不足データを特定し、特定した不足データの配置に基づいて、他のサーバー１０から不足データをその検証サーバーに送信させるステップを有する。

情報処理方法のユーザは、情報処理方法を用いることにより、検証サーバーに不足データを送信させる。これにより、情報処理方法のユーザは分散環境２のデータの機械学習による学習済みモデルの交差検証にかかる時間とリソースを軽減することができる。

本発明の実施形態に係るプログラムは、複数のサーバー１０に分散して機械学習に用いられるデータを保存する情報処理システム１のコンピュータに、機械学習における交差検証の分割方法を示す設定情報を読み取るステップと、設定情報に基づいて、複数のサーバー１０のうち交差検証を実行する検証サーバーと交差検証に用いられるデータである検証データとを特定するステップと、複数のサーバー１０におけるデータの配置を特定するステップと、検証データのうち検証サーバーが記憶していないデータである不足データを特定し、特定した不足データの配置に基づいて、他のサーバー１０から不足データをその検証サーバーに送信させるステップとして実行させる。

プログラムのユーザは、プログラムを実行させることにより、検証サーバーに不足データを送信させる。これにより、プログラムのユーザは分散環境２のデータの機械学習による学習済みモデルの交差検証にかかる時間とリソースを軽減することができる。

〈第２の実施形態〉
以下、第２の実施形態に係る情報処理システム１を説明する。
第２の実施形態に係る情報処理システム１は、学習パターン設定情報として対象項目も特定し、検証サーバーの不足データの対象項目にかかるレプリカを送信させるシステムである。
第２の実施形態に係る情報処理システム１の構成は、第１の実施形態に係る情報処理システム１の構成と同様である。

第２の実施形態に係る学習パターン設定情報は、分割方法と、対象データと、対象項目を示す。対象項目とは、最適化装置１００の機械学習の学習又は検証の対象となる項目をいう。
例えば、対象データの種別が図２に示すように売上データであるとする。売上データには、データ番号を除き、売上と、日時、顧客ＩＤと、店舗と、性別と、名前と、天気を項目とするデータである。売上、日時、性別の項目だけを用いて学習済みモデルを生成したい場合は、ユーザ３０は、「売上」と、「日時」と、「性別」とを対象項目として読取元３１に入力する。読取元３１は、売上と日時と性別の項目を対象項目として、学習パターン設定情報に示して、記憶装置に記録する。

制御部１０３は、検証データのうち検証サーバーが記憶していない不足データを特定し、特定した配置に基づいて他のサーバーから不足データの対象項目を検証サーバーに送信させる。すなわち、制御部１０３は、不足データのうち、売上と日時と性別の項目だけを検証サーバーに送信させる。これにより、不足データの全ての項目を送信する必要が無いため、第２の実施形態に係る情報処理システム１は、交差検証に係る時間とリソースを軽減させることができる。

《作用・効果》
本発明に係る情報処理システム１の設定情報は、分割方法と、対象データと、機械学習の学習又は検証の対象となる項目である対象項目を示し、解析手段は、設定情報に基づいて、検証サーバーと検証データと種別と対象項目とを特定し、制御手段は、検証データのうち検証サーバーが記憶していない不足データを特定し、特定した配置に基づいて、他のサーバー１０から不足データの対象項目を当該検証サーバーに送信させる。

これにより、不足データの全ての項目を送信する必要が無いため、情報処理システム１は、交差検証に係る時間とリソースを軽減させることができる。

〈他の実施形態〉
以上、図面を参照して一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、様々な設計変更等をすることが可能である。

上記の実施形態に係る情報処理システム１は、ユーザ３０から学習パターン設定情報の入力を受け入れたが、実施形態はこのような例に限定されない。例えば、過去の情報を記録し、その情報に基づいて学習パターン設定情報を自動的に生成しても良い。これにより、ユーザ３０は学習パターン設定情報の入力を受け入れなくても良いため、交差検証にかかる時間を削減することができる。

また、制御部１０３による不足データ又はレプリカの送信は、学習部１０５により機械学習が行われる時間又は深夜等の分散環境２に負荷が少ない時間に行われても良い。これにより、不足データの送信により生じる分散環境２に係る負荷を、負荷の少ない時間に分散させることができる。

分散環境２がマスタデータごとに２つ以上のレプリカを生成する場合でも、情報処理システム１は、不足データに対応する１つのレプリカのみを検証サーバーに送信させても良い。
また、情報処理システム１は、不足データのレプリカが生成される前に、不足データに係る情報を分散環境２に送信して、検証サーバーに不足データのレプリカが生成されるようにしても良い。

〈基本構成〉
基本構成に係る実施形態の構成は、上記で説明した第１の実施形態の構成のうち、記憶部１０４と、学習部１０５を備えない構成である。すなわち、基本構成に係る情報処理システム１の最適化装置１００は、読取部１０１と、解析部１０２と、制御部１０３を備える。
図６は、基本構成に係る情報処理システム１の構成を示す図である。

基本構成に係る情報処理システム１は、複数のサーバー１０に分散して機械学習に用いられるデータを保存し、機械学習における交差検証の分割方法を示す設定情報を読み取る第１読取手段と、設定情報に基づいて、複数のサーバー１０のうち交差検証を実行する検証サーバーと交差検証に用いられるデータである検証データとを特定する解析手段と、複数のサーバー１０におけるデータの配置を特定する第２読取手段と、検証データのうち検証サーバーが記憶していないデータである不足データを特定し、特定した不足データの配置に基づいて、他のサーバーから不足データをその検証サーバーに送信させる制御手段を備える。

〈コンピュータ構成〉
図７は、少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
コンピュータ１１００は、プロセッサ１１１０、メインメモリ１１２０、ストレージ１１３０、インタフェース１１４０を備える。
上述の最適化装置１００は、コンピュータ１１００に実装される。そして、上述した各処理部の動作は、プログラムの形式でストレージ１１３０に記憶されている。プロセッサ１１１０は、プログラムをストレージ１１３０から読み出してメインメモリ１１２０に展開し、そのプログラムに従って上記処理を実行する。また、プロセッサ１１１０は、プログラムに従って、上述した各記憶部に対応する記憶領域をメインメモリ１１２０に確保する。

プログラムは、コンピュータ１１００に発揮させる機能の一部を実現するためのものであってもよい。例えば、プログラムは、ストレージ１１３０に既に記憶されている他のプログラムとの組み合わせ、または他の装置に実装された他のプログラムとの組み合わせによって機能を発揮させるものであってもよい。なお、他の実施形態においては、コンピュータ１１００は、上記構成に加えて、または上記構成に代えてＰＬＤ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）などのカスタムＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）を備えてもよい。ＰＬＤの例としては、ＰＡＬ(ＰｒｏｇｒａｍｍａｂｌｅＡｒｒａｙＬｏｇｉｃ)、ＧＡＬ(ＧｅｎｅｒｉｃＡｒｒａｙＬｏｇｉｃ)、ＣＰＬＤ(ＣｏｍｐｌｅｘＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ)、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）が挙げられる。この場合、プロセッサ１１１０によって実現される機能の一部または全部が当該集積回路によって実現されてよい。

ストレージ１１３０の例としては、磁気ディスク、光磁気ディスク、半導体メモリ等が挙げられる。ストレージ１１３０は、コンピュータ１１００のバスに直接接続された内部メディアであってもよいし、インタフェース１１４０または通信回線を介してコンピュータに接続される外部メディアであってもよい。また、このプログラムが通信回線によってコンピュータ１１００に配信される場合、配信を受けたコンピュータ１１００が当該プログラムをメインメモリ１１２０に展開し、上記処理を実行してもよい。少なくとも１つの実施形態において、ストレージ１１３０は、一時的でない有形の記憶媒体である。

また、当該プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、当該プログラムは、前述した機能をストレージ１１３０に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル（差分プログラム）であっても良い。

この出願は、２０２０年３月１７日に出願された日本国特願２０２０－０４６３５０号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

本発明は、情報処理システム、情報処理方法及び記録媒体に適用してもよい。

１情報処理システム
２分散環境
１０サーバー
３０ユーザ
３１読取元
１０１読取部
１０２解析部
１０３制御部
１０４記憶部
１０５学習部
１１００コンピュータ
１１１０プロセッサ
１１２０メインメモリ
１１３０ストレージ
１１４０インタフェース

Claims

複数のサーバーに分散して機械学習に用いられるデータを保存する情報処理システムであって、
前記機械学習における複数ｋ回の交差検証の分割方法と前記交差検証を実行する検証サーバーとを示す設定情報であって前記分割方法が前記データを分割して得られた複数ｋ個のブロックを示す設定情報を読み取る第１読取手段と、
前記設定情報に基づいて、前記複数のサーバーのうち前記交差検証を実行する検証サーバーと前記交差検証に用いられるデータである検証データを示すブロックとを特定する解析手段と、
前記複数のサーバーにおける前記データの配置を特定する第２読取手段と、
前記検証データを示すブロックに含まれるデータのうち前記検証サーバーが記憶していないデータである不足データを特定し、特定した前記不足データの配置に基づいて、前記複数のサーバーのうち前記不足データを記憶するサーバーから前記不足データを前記検証サーバーに送信させる制御手段と、
を備える情報処理システム。
前記複数のサーバーは、前記データのマスタデータと前記データのレプリカとを分散して記憶し、
前記第２読取手段は、前記複数のサーバーにおける前記マスタデータおよび前記レプリカの配置を特定し、
前記制御手段は、前記検証データのうち前記検証サーバーが前記マスタデータおよび前記レプリカのいずれも記憶していないデータである不足データを特定し、特定した前記不足データの配置に基づいて、前記複数のサーバーのうち前記不足データを記憶するサーバーから前記不足データのレプリカを前記検証サーバーに送信させる
請求項１に記載の情報処理システム。
前記設定情報に基づいて、前記機械学習に用いられるデータを含む複数のブロックであって前記検証データを示すブロック以外のブロックに含まれるデータを用いて学習済みモデルを生成する学習手段と、
をさらに備える請求項１又は請求項２に記載の情報処理システム。
前記設定情報は、前記分割方法と、前記機械学習又は前記交差検証の対象となるデータの種別を示し、
前記解析手段は、前記設定情報に基づいて、前記検証サーバーと前記検証データと前記種別とを特定する
請求項１から請求項３の何れか１項に記載の情報処理システム。
前記設定情報は、前記分割方法と、前記交差検証の対象となるデータと、前記機械学習又は前記交差検証の対象となる項目である対象項目を示し、
前記解析手段は、前記設定情報に基づいて、前記検証サーバーと前記検証データとその種別と前記対象項目とを特定し、
前記制御手段は、前記検証データのうち前記検証サーバーが記憶していないデータである不足データを特定し、特定した前記不足データの配置に基づいて、前記複数のサーバーのうち前記不足データを記憶するサーバーから前記不足データの前記対象項目を前記検証サーバーに送信させる
請求項１に記載の情報処理システム。
複数のサーバーに分散して機械学習に用いられるデータを保存する情報処理システムにより実行される情報処理方法であって、
前記機械学習における複数ｋ回の交差検証の分割方法と前記交差検証を実行する検証サーバーとを示す設定情報であって前記分割方法が前記データを分割して得られた複数ｋ個のブロックを示す設定情報を読み取ることと、
前記設定情報に基づいて、前記複数のサーバーのうち前記交差検証を実行する検証サーバーと前記交差検証に用いられるデータである検証データを示すブロックとを特定することと、
前記複数のサーバーにおける前記データの配置を特定することと、
前記検証データを示すブロックに含まれるデータのうち前記検証サーバーが記憶していないデータである不足データを特定することと、
特定した前記不足データの配置に基づいて、前記複数のサーバーのうち前記不足データを記憶するサーバーから前記不足データを前記検証サーバーに送信させることと、
を有する情報処理方法。
複数のサーバーに分散して機械学習に用いられるデータを保存する情報処理システムのコンピュータに、
前記機械学習における複数ｋ回の交差検証の分割方法と前記交差検証を実行する検証サーバーとを示す設定情報であって前記分割方法が前記データを分割して得られた複数ｋ個のブロックを示す設定情報を読み取ることと、
前記設定情報に基づいて、前記複数のサーバーのうち前記交差検証を実行する検証サーバーと前記交差検証に用いられるデータである検証データを示すブロックとを特定することと、
前記複数のサーバーにおける前記データの配置を特定することと、
前記検証データを示すブロックに含まれるデータのうち前記検証サーバーが記憶していないデータである不足データを特定することと、
特定した前記不足データの配置に基づいて、前記複数のサーバーのうち前記不足データを記憶する他のサーバーから前記不足データを前記検証サーバーに送信させることと、
を実行させるプログラム。