JP2023110317A

JP2023110317A - 機械学習モデルの交差検証プログラム，交差検証方法及び情報処理装置

Info

Publication number: JP2023110317A
Application number: JP2022011684A
Authority: JP
Inventors: 智史今村; Satoshi Imamura
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2023-08-09
Also published as: US20230244608A1

Abstract

【課題】互いにアクセス速度が異なる複数のメモリを備えるコンピュータによる、機械学習モデルの交差検証処理を高速化する。【解決手段】コンピュータは、機械学習モデルの交差検証処理の各ステップにおける、前記交差検証処理に使用される複数のサブセットのアクセスパターンを示す第１情報であって、前記ステップごとに使用されるサブセットを示す前記第１情報に基づき、複数の前記ステップの実行順序の候補パターンごとに、各サブセットが前記候補パターンにおいてステップ間で連続して使用される回数を算出し、前記回数の合計が最大となる候補パターンの実行順序を、前記交差検証処理の前記複数のステップの実行順序に決定し、決定した前記実行順序においてステップ間で連続して使用される回数が多い上位所定個数のサブセットを、前記複数のサブセットが格納される第１メモリよりも高速なアクセスが可能である第２メモリに配置する。【選択図】図１１

Description

本発明は、機械学習モデルの交差検証プログラム，交差検証方法及び情報処理装置に関する。

機械学習モデルの交差検証（Cross Validation）は、データセット全体を複数のサブセットに分割し、複数のサブセットから選択した訓練サブセット及び検証サブセットの複数の組み合わせを用いて、機械学習モデルの訓練及び精度評価を繰り返す手法である。

交差検証には、シャッフル分割交差検証のような、訓練及び精度評価の各繰り返し（「分割」又は「ステップ」と称されてもよい）において、組み合わせに含めるサブセットを全サブセットのうちのランダムな一部のサブセットに制限する交差検証が存在する。換言すれば、シャッフル分割交差検証等の交差検証では、各分割において未使用のサブセットが存在し、交差検証全体でのサブセットごとの使用回数が異なる。

ところで、コンピュータ（情報処理装置）のメモリシステムとして、階層型メモリシステムが知られている。階層型メモリシステムは、ＣＰＵ（Central Processing Unit）等のプロセッサが、小容量な高速メモリ（例えばＤＲＡＭ等）、及び、大容量な低速メモリ（例えばＮＶＤＩＭＭ又はＳＳＤ等）の双方にアクセス可能なメモリシステムである。ＤＲＡＭはDynamic Random Access Memoryの略称であり、ＮＶＤＩＭＭはNon-Volatile Dual In-line Memory Moduleの略称であり、ＳＳＤはSolid State Driveの略称である。

階層型メモリシステムでは、高速メモリの容量が限られていることから、高速メモリを低速メモリのキャッシュとして活用するデータ配置技術が利用されることがある。例えば、コンピュータのＯＳ（Operating System）又はハードウェア（ＨＷ；Hardware）は、ＬＲＵ（Least-Recently Used）アルゴリズムによるキャッシュ制御を行なう。当該キャッシュ制御は、直近のアクセスデータを高速メモリにキャッシングし、直近で最もアクセスされていない（ＬＲＵ）データを低速メモリに追い出すことで、同じデータへの繰り返しのアクセスを高速化する手法である。

特開２０２１－４３５９３号公報

上述した交差検証を実行するコンピュータが階層型メモリシステムを採用する場合を想定する。なお、前提として、高速メモリの容量は全てのサブセットの合計データサイズよりも小さい、換言すれば、高速メモリに全てのサブセットを格納できないものとする。

交差検証では、各繰り返しにおいて、複数の訓練サブセット、１以上の検証サブセットの順でアクセスが行なわれる。このため、或る繰り返し（分割）で高速メモリにキャッシュされたサブセットは、後続の繰り返し（分割）における処理で再度アクセスされる前に、低速メモリに追い出されることがある。

このように、コンピュータが高速メモリを備えるにも関わらず、交差検証において低速メモリへのアクセスが発生（例えば頻発）し、性能が律速される、例えばプロセッサの処理速度が低下し、交差検証の処理時間が増加する場合がある。

１つの側面では、本発明は、互いにアクセス速度が異なる複数のメモリを備える情報処理装置による、機械学習モデルの交差検証処理を高速化することを目的とする。

１つの側面では、交差検証プログラムは、コンピュータに、以下の処理を実行させてよい。前記処理は、機械学習モデルの交差検証処理の各ステップにおける、前記交差検証処理に使用される複数のサブセットのアクセスパターンを示す第１情報であって、前記ステップごとに使用されるサブセットを示す前記第１情報に基づき、複数の前記ステップの実行順序の候補パターンごとに、各サブセットが前記候補パターンにおいてステップ間で連続して使用される回数を算出する処理を含んでよい。また、前記処理は、前記回数の合計が最大となる候補パターンの実行順序を、前記交差検証処理の前記複数のステップの実行順序に決定する処理を含んでよい。さらに、前記処理は、決定した前記実行順序においてステップ間で連続して使用される回数が多い上位所定個数のサブセットを、前記複数のサブセットが格納される第１メモリよりも高速なアクセスが可能である第２メモリに配置する処理を含んでよい。

１つの側面では、互いにアクセス速度が異なる複数のメモリを備える情報処理装置による、機械学習モデルの交差検証処理を高速化することができる。

一実施形態に係る交差検証装置の機能を実現するコンピュータのＨＷ構成例を示すブロック図である。一実施形態に係る階層型メモリシステムの一例を示すブロック図である。一実施形態に係る交差検証装置のソフトウェア構成例を示すブロック図である。複数のサブセットを使用した交差検証処理の一例を説明するための図である。サブセット使用リストの一例を示す図である。実行順序ごとの連続使用回数及びサブセットＩＤの取得例を説明するための図である。初期配置ＩＤリスト及び分割実行順序リストの一例を示す図である。入替タイミングの決定処理の一例を説明するための図である。入替ＩＤリストの取得例を説明するための図である。サブセット配置処理の一例を説明するための図である。一実施形態に係る交差検証装置によるサブセット配置ポリシの決定処理の動作例を説明するためのフローチャートである。一実施形態に係る交差検証装置によるサブセットの配置処理の動作例を説明するためのフローチャートである。比較例に係る交差検証処理の一例を説明するための図である。

以下、図面を参照して本発明の実施の形態を説明する。ただし、以下に説明する実施形態は、あくまでも例示であり、以下に明示しない種々の変形や技術の適用を排除する意図はない。例えば、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。なお、以下の実施形態で用いる図面において、同一符号を付した部分は、特に断らない限り、同一若しくは同様の部分を表す。

〔Ａ〕構成例
以下、一実施形態に係る交差検証装置１（図３参照）の構成例を説明する。

〔Ａ－１〕ハードウェア構成例
一実施形態に係る交差検証装置１を実現する装置は、仮想サーバ（ＶＭ；Virtual Machine）であってもよいし、物理サーバであってもよい。また、交差検証装置１の機能は、１台のコンピュータにより実現されてもよいし、２台以上のコンピュータにより実現されてもよい。さらに、交差検証装置１の機能のうちの少なくとも一部は、クラウド環境により提供されるＨＷリソース及びネットワーク（ＮＷ）リソースを用いて実現されてもよい。

図１は、一実施形態に係る交差検証装置１の機能を実現するコンピュータ１０のＨＷ構成例を示すブロック図である。交差検証装置１の機能を実現するＨＷリソースとして、複数のコンピュータが用いられる場合は、各コンピュータが図１に例示するＨＷ構成を備えてよい。

図１に示すように、コンピュータ１０は、ＨＷ構成として、例示的に、プロセッサ１０ａ、メモリ１０ｂ、記憶部１０ｃ、ＩＦ（Interface）部１０ｄ、Ｉ／Ｏ（Input / Output）部１０ｅ、及び読取部１０ｆを備えてよい。

プロセッサ１０ａは、種々の制御や演算を行なう演算処理装置の一例である。プロセッサ１０ａは、コンピュータ１０内の各ブロックとバス１０ｉで相互に通信可能に接続されてよい。なお、プロセッサ１０ａは、複数のプロセッサを含むマルチプロセッサであってもよいし、複数のプロセッサコアを有するマルチコアプロセッサであってもよく、或いは、マルチコアプロセッサを複数有する構成であってもよい。

プロセッサ１０ａとしては、例えば、ＣＰＵ、ＭＰＵ、ＧＰＵ、ＡＰＵ、ＤＳＰ、ＡＳＩＣ、ＦＰＧＡ等の集積回路（ＩＣ；Integrated Circuit）が挙げられる。なお、プロセッサ１０ａとして、これらの集積回路の２以上の組み合わせが用いられてもよい。ＭＰＵはMicro Processing Unitの略称である。ＧＰＵはGraphics Processing Unitの略称であり、ＡＰＵはAccelerated Processing Unitの略称である。ＤＳＰはDigital Signal Processorの略称であり、ＡＳＩＣはApplication Specific ICの略称であり、ＦＰＧＡはField-Programmable Gate Arrayの略称である。

例えば、プロセッサ１０ａは、交差検証の種々の制御を実行するＣＰＵ等の処理装置と、交差検証における機械学習処理を実行するアクセラレータとの組み合わせであってもよい。アクセラレータとしては、例えば、上述したＧＰＵ、ＡＰＵ、ＤＳＰ、ＡＳＩＣ又はＦＰＧＡ等が挙げられる。

メモリ１０ｂは、種々のデータやプログラム等の情報を格納するＨＷの一例である。メモリ１０ｂとしては、例えばＤＲＡＭ等の揮発性メモリ、並びに、ＮＶＤＩＭＭ、ＰＭ（Persistent Memory）等の不揮発性メモリ、の一方又は双方が挙げられる。

記憶部１０ｃは、種々のデータやプログラム等の情報を格納するＨＷの一例である。記憶部１０ｃとしては、ＨＤＤ（Hard Disk Drive）等の磁気ディスク装置、ＳＳＤ等の半導体ドライブ装置、不揮発性メモリ等の各種記憶装置が挙げられる。不揮発性メモリとしては、例えば、フラッシュメモリ、ＳＣＭ（Storage Class Memory）、ＲＯＭ（Read Only Memory）等が挙げられる。

また、記憶部１０ｃは、コンピュータ１０の各種機能の全部若しくは一部を実現するプログラム１０ｇ（交差検証プログラム）を格納してよい。例えば、プロセッサ１０ａは、記憶部１０ｃに格納されたプログラム１０ｇをメモリ１０ｂに展開して実行することにより、後述する交差検証装置１（例えば制御部１６）としての機能を実現できる。

ＩＦ部１０ｄは、ネットワークの一方又は双方との間の接続及び通信の制御等を行なう通信ＩＦの一例である。例えば、ＩＦ部１０ｄは、イーサネット（登録商標）等のＬＡＮ（Local Area Network）、或いは、ＦＣ（Fibre Channel）等の光通信等に準拠したアダプタを含んでよい。当該アダプタは、無線及び有線の一方又は双方の通信方式に対応してよい。例えば、交差検証装置１は、ＩＦ部１０ｄ及び図示しないネットワークを介して、他の装置、例えば交差検証装置１にデータセットを提供する装置、交差検証装置１から交差検証の処理結果を受信する装置等と相互に通信可能に接続されてよい。また、例えば、プログラム１０ｇは、当該通信ＩＦを介して、ネットワークからコンピュータ１０にダウンロードされ、記憶部１０ｃに格納されてもよい。

Ｉ／Ｏ部１０ｅは、入力装置、及び、出力装置、の一方又は双方を含んでよい。入力装置としては、例えば、キーボード、マウス、タッチパネル等が挙げられる。出力装置としては、例えば、モニタ、プロジェクタ、プリンタ等が挙げられる。

読取部１０ｆは、記録媒体１０ｈに記録されたデータやプログラムの情報を読み出すリーダの一例である。読取部１０ｆは、記録媒体１０ｈを接続可能又は挿入可能な接続端子又は装置を含んでよい。読取部１０ｆとしては、例えば、ＵＳＢ（Universal Serial Bus）等に準拠したアダプタ、記録ディスクへのアクセスを行なうドライブ装置、ＳＤカード等のフラッシュメモリへのアクセスを行なうカードリーダ等が挙げられる。なお、記録媒体１０ｈにはプログラム１０ｇが格納されてもよく、読取部１０ｆが記録媒体１０ｈからプログラム１０ｇを読み出して記憶部１０ｃに格納してもよい。

記録媒体１０ｈとしては、例示的に、磁気／光ディスクやフラッシュメモリ等の非一時的なコンピュータ読取可能な記録媒体が挙げられる。磁気／光ディスクとしては、例示的に、フレキシブルディスク、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ブルーレイディスク、ＨＶＤ（Holographic Versatile Disc）等が挙げられる。フラッシュメモリとしては、例示的に、ＵＳＢメモリやＳＤカード等の半導体メモリが挙げられる。

上述したコンピュータ１０のＨＷ構成は例示である。従って、コンピュータ１０内でのＨＷの増減（例えば任意のブロックの追加や削除）、分割、任意の組み合わせでの統合、又は、バスの追加若しくは削除等は適宜行なわれてもよい。例えば、Ｉ／Ｏ部１０ｅ及び読取部１０ｆの少なくとも一方は、省略されてもよい。

図２は、一実施形態に係る階層型メモリシステム２０の一例を示すブロック図である。コンピュータ１０は、階層型メモリシステム２０を採用してよい。階層型メモリシステム２０は、例示的に、プロセッサ１０ａ、高速メモリ２１、及び、低速メモリ２２を備えてよい。プロセッサ１０ａは、高速メモリ２１及び低速メモリ２２の双方にアクセス可能である。

高速メモリ２１は、低速メモリ２２よりも高速且つ小容量のメモリの一例であり、例えば、ＤＲＡＭ等の揮発性メモリであってよい。高速メモリ２１は、例えば、図１に示すメモリ１０ｂ（揮発性メモリ）により実現されてよい。

低速メモリ２２は、高速メモリ２１よりも低速且つ大容量のメモリの一例であり、例えば、ＮＶＤＩＭＭ、ＰＭ等の不揮発性メモリ、又は、ＳＳＤ等のストレージであってよい。低速メモリ２２は、例えば、図１に示すメモリ１０ｂ（不揮発性メモリ）又は記憶部１０ｃにより実現されてよい。

高速メモリ２１及び低速メモリ２２の組み合わせは、上述した揮発性メモリと不揮発性メモリ又はストレージとの組み合わせに限定されるものではなく、アクセス速度が高速メモリ２１＞低速メモリ２２且つ容量が高速メモリ２１＜低速メモリ２２となる種々の組み合わせであってよい。

なお、階層型メモリシステム２０においては、ＨＷ又はプロセッサ１０ａが実行するＯＳにより、高速メモリ２１及び低速メモリ２２間のデータ配置制御が行なわれる。データ配置制御には、ＬＲＵアルゴリズムによるキャッシュ制御が含まれる。

例えば、高速メモリ２１がＤＲＡＭであり、低速メモリ２２がＳＳＤである場合、ＬＲＵアルゴリズムによるキャッシュ制御は、ＯＳのスワップ機能により実現される。また、高速メモリ２１がＤＲＡＭであり、低速メモリ２２がＮＶＤＩＭＭである場合、ＬＲＵアルゴリズムによるキャッシュ制御は、ＨＷ又によるキャッシュ制御により実現される。

〔Ａ－２〕ソフトウェア構成例
図３は、一実施形態に係る交差検証装置１のソフトウェア構成例を示すブロック図である。交差検証装置１は、情報処理装置の一例であり、データセットを分割して得られる複数のデータセットを用いて機械学習モデルの交差検証処理を実行する。

図３に示すように、交差検証装置１は、ソフトウェア（機能）構成として、例示的に、高速メモリ部１１、低速メモリ部１２、交差検証処理部１３、サブセット配置ポリシ決定部１４、及び、サブセット配置部１５を備えてよい。

高速メモリ部１１及び低速メモリ部１２のそれぞれは、記憶領域の一例であり、交差検証装置１が利用する種々のデータを記憶する。高速メモリ部１１は、低速メモリ部１２よりも高速なアクセスが可能である第２メモリの一例であり、例えば、図２に示す高速メモリ２１が有する記憶領域により実現されてよい。低速メモリ部１２は、複数のサブセット１２０が格納される第１メモリの一例であり、例えば、図２に示す低速メモリ２２が有する記憶領域により実現されてよい。

図３に示すように、高速メモリ部１１は、例示的に、複数のサブセット１１ａ、サブセット使用リスト１１ｂ、初期配置ＩＤリスト１１ｃ、分割実行順序リスト１１ｄ、入替ＩＤリスト１１ｅ及び入替タイミング１１ｆを記憶可能であってよい。低速メモリ部１２は、例示的に、複数のサブセット１２ａを記憶可能であってよい。以下の説明において、各リスト１１ｂ～１１ｅをテーブル形式で表記するが、これに限定されるものではなく、これらのリスト１１ｂ～１１ｅは、ＤＢ（Database）又は配列等の種々の形式であってもよい。

交差検証処理部１３は、交差検証用ライブラリ（関数）を利用して、機械学習モデルの交差検証処理を実行する。交差検証処理部１３は、例えば、データセットを複数のサブセット１２０に分割する。

図４は、複数のサブセット１２０を使用した交差検証処理の一例を説明するための図である。図４には、データセットが、０～９のサブセットＩＤ（Identifier）が付与された１０個のサブセット１２０に分割された例を示す。

また、図４では、４回の繰り返し（実行順で「分割１」～「分割４」と表記）のそれぞれにおいて、１０個のサブセット１２０のうちの、５個の訓練サブセット１２１（網掛け参照）及び２個の検証サブセット１２２（斜線参照）が使用されるものとする。換言すれば、４回の繰り返しのそれぞれにおいて、１０個のサブセット１２０のうちの３個の未使用サブセット１２３（白抜き参照）は使用されないものとする。なお、サブセット１２０の数（分割数）、並びに、訓練サブセット１２１、検証サブセット１２２及び未使用サブセット１２３の各数は、図４に示す数に限定されるものではない。

交差検証処理部１３は、交差検証処理において、５個の訓練サブセット１２１を使用して機械学習モデルを訓練し、訓練後の機械学習モデルに２個の検証サブセット１２２を入力して推論結果を取得する処理を、実行順に繰り返す（図４の例では４回）。そして、交差検証処理部１３は、各繰り返しで得た推論結果に基づき、精度評価を行なう。

一実施形態に係る交差検証装置１は、図４に例示する交差検証処理において、使用回数が多いサブセット１２０を優先的に高速メモリ２１に配置する。これにより、交差検証装置１は、高速メモリ２１へのアクセス回数を増加させ、換言すれば低速メモリ２２へのアクセス回数を削減し、交差検証処理の高速化を実現する。

このために、交差検証処理部１３は、サブセット配置ポリシ決定部１４に対して、サブセット配置ポリシ１１０の決定処理を指示する。例えば、交差検証処理部１３は、図示しないネットワーク等を介して交差検証処理の処理要求を受信すると、処理要求に基づき、サブセット配置ポリシ決定部１４にサブセット配置ポリシ１１０の決定処理の実行を指示する。処理要求には、交差検証処理に利用するデータセットが含まれてよい。

交差検証処理部１３は、例えば、交差検証に使用するサブセット使用リスト１１ｂを生成して、高速メモリ部１１に格納してよい。なお、交差検証処理部１３は、処理要求に含まれるデータセットを分割して得た複数のサブセット１２０を低速メモリ部１２に格納してもよい。

図５は、サブセット使用リスト１１ｂの一例を示す図である。サブセット使用リスト１１ｂは、図４に例示する各繰り返し（各分割）で使用される訓練サブセット１２１及び検証サブセット１２２の組み合わせを示す。換言すれば、サブセット使用リスト１１ｂは、交差検証処理の各分割（各ステップ）における、交差検証処理に使用される複数のサブセット１２０のアクセスパターンを示す第１情報であって、分割（ステップ）ごとに使用されるサブセット１２０を示す第１情報の一例である。

図５に例示するように、サブセット使用リスト１１ｂは、「分割」及び「使用サブセット」の項目を含んでよい。「分割」は、交差検証処理における分割（繰り返し、ステップ）の識別情報（例えば分割ＩＤ）である。「使用サブセット」は、各分割において使用される複数のサブセット１２０の各々の識別情報（例えばサブセットＩＤ）である。サブセット１２０の「使用」とは、訓練サブセット１２１又は検証サブセット１２２として交差検証処理に使用されることを意味してよい。

ここで、交差検証処理では、訓練サブセット１２１の後に検証サブセット１２２が使用される。また、訓練サブセット１２１及び検証サブセット１２２のそれぞれの中では、所定の使用順、例えばサブセットＩＤの昇順に、サブセット１２０が使用される。さらに、訓練サブセット１２１及び検証サブセット１２２のそれぞれの個数は決まっている。

一実施形態では、これらの前提に基づき、「使用サブセット」には、前半の５個のサブセットＩＤが訓練サブセット１２１を示し、後半の２個のサブセットＩＤが検証サブセット１２２を示すように、使用される順（図４参照）にサブセットＩＤがセットされる。

なお、サブセット使用リスト１１ｂは、図５に示す例に限定されるものではなく、訓練サブセット１２１のサブセットＩＤを示す「訓練サブセット」の項目と、検証サブセット１２２のサブセットＩＤを示す「検証サブセット」の項目とを含んでもよい。

図３の説明に戻り、サブセット配置ポリシ決定部１４は、サブセット使用リスト１１ｂに基づき、サブセット配置ポリシ１１０を決定し、高速メモリ部１１に格納する。サブセット配置ポリシ１１０は、図３に示すように、初期配置ＩＤリスト１１ｃ、分割実行順序リスト１１ｄ、入替ＩＤリスト１１ｅ及び入替タイミング１１ｆを含んでよい。

（前処理）
サブセット配置ポリシ決定部１４は、交差検証処理部１３からサブセット配置ポリシ１１０の決定処理の指示を受け付けると、サブセット配置ポリシ１１０を初期化する。例えば、サブセット配置ポリシ決定部１４は、初期配置ＩＤリスト１１ｃ、分割実行順序リスト１１ｄ、入替ＩＤリスト１１ｅを空にする（Nullをセットする）とともに、入替タイミング１１ｆに“-1”をセットする。

また、サブセット配置ポリシ決定部１４は、高速メモリ部１１に格納可能なサブセット１２０の個数（所定個数）である高速メモリ部サブセット数を算出する。例えば、サブセット配置ポリシ決定部１４は、高速メモリ部サブセット数として、高速メモリ部１１の空き容量（空き記憶領域のサイズ）を１個あたりのサブセット１２０のデータサイズで除算した値（小数点以下切り捨て；商）を取得してよい。高速メモリ部サブセット数を算出することにより、高速メモリ部１１に配置するサブセット１２０の適切な個数を特定することができる。一実施形態では、高速メモリ部サブセット数＝４であるものとする。

（初期配置ＩＤリスト１１ｃ及び分割実行順序リスト１１ｄの決定処理）
サブセット配置ポリシ決定部１４は、サブセット使用リスト１１ｂの全ての分割の実行順序について、高速メモリ部サブセット数分のサブセット１２０の連続使用回数の合計と、当該サブセット１２０のサブセットＩＤとを取得する。

全ての分割の実行順序（分割実行順序）とは、図４に示す実行順だけでなく、複数の分割が取り得る全ての実行順序であり、例えば分割数の階乗（分割数：４個の場合、４！）通りの実行順序である。分割実行順序は、複数の分割（ステップ）の実行順序の候補パターンの一例である。

連続使用回数とは、同一のサブセット１２０が実行順序の先頭の分割から複数の分割に亘って連続して使用される回数である。連続使用回数は、分割実行順序（候補パターン）ごとに、各サブセット１２０が当該分割実行順序において分割間で連続して使用される回数の一例である。

図６は、実行順序ごとの連続使用回数及びサブセットＩＤの取得例を説明するための図である。図６において、符号Ａは、分割１，分割２，分割３，分割４の順（以下、分割ＩＤを実行順序に並べて「実行順序１２３４」のように表記する）とした場合の連続使用回数の合計の取得例を示す。符号Ｂは、実行順序１２４３とした場合の連続使用回数の合計の取得例を示す。

サブセット配置ポリシ決定部１４は、サブセットＩＤ：０～９のそれぞれについて連続使用回数を取得する。

図６の符号Ａの例では、サブセット配置ポリシ決定部１４は、サブセットＩＤ：０が実行順序１２３４で順序の先頭である分割１から連続して４回使用されるため、連続使用回数：４を取得する（符号Ａ１参照）。サブセット配置ポリシ決定部１４は、サブセットＩＤ：１が実行順序１２３４で順序の先頭である分割１で１回使用され、分割２では使用されないため、連続使用回数：１とする。同様に、サブセット配置ポリシ決定部１４は、サブセットＩＤ：２の連続使用回数：２を取得し（符号Ａ２参照）、サブセットＩＤ：３の連続使用回数：４を取得し（符号Ａ３参照）、サブセットＩＤ：９の連続使用回数：３を取得する（符号Ａ４参照）。なお、サブセット配置ポリシ決定部１４は、サブセットＩＤ：４の連続使用回数：２、サブセットＩＤ：６の連続使用回数：１、サブセットＩＤ：５，７，８の連続使用回数：０或いは“－”（無し）、をそれぞれ取得する。

以上より、サブセット配置ポリシ決定部１４は、符号Ａについて、連続使用回数の多い上位４個（＝高速メモリ部サブセット数）のサブセットＩＤ：０，２，３，９と、当該４個の連続使用回数の合計である１３回を取得する。

同様に、サブセット配置ポリシ決定部１４は、符号Ｂについて、連続使用回数の多い上位４個のサブセットＩＤ：０，２，３，４（符号Ｂ１～Ｂ４参照）と、当該４個の連続使用回数の合計である１４回を取得する。

サブセット配置ポリシ決定部１４は、分割数：４個である場合、４！＝２４通りの実行順序のそれぞれについて、高速メモリ部サブセット数分のサブセットＩＤと連続使用回数の合計値とを取得する。

なお、連続使用回数の多い上位［高速メモリ部サブセット数］個のサブセット１２０の特定において、連続使用回数が同数のサブセット１２０が存在する場合、サブセット配置ポリシ決定部１４は、所定の優先順に応じてサブセット１２０を選択してよい。一例として、サブセット配置ポリシ決定部１４は、サブセットＩＤが若い（小さい）サブセット１２０を優先的に選択してよい。

全ての実行順序について、サブセットＩＤと連続使用回数の合計値とを取得すると、サブセット配置ポリシ決定部１４は、取得した連続使用回数の合計値が複数の実行順序の中で最多となる実行順序を特定する。

そして、サブセット配置ポリシ決定部１４は、特定した実行順序を、分割実行順序リスト１１ｄに登録するとともに、特定した実行順序において分割間で連続して使用される回数が多い上位所定個数のサブセットＩＤを、初期配置ＩＤリスト１１ｃに登録する。

このように、サブセット配置ポリシ決定部１４は、連続使用回数の合計が最大となる候補パターンの実行順序を、交差検証処理の複数の分割の実行順序に決定する。

初期配置ＩＤリスト１１ｃは、交差検証処理の開始前に高速メモリ部１１に配置される（初期配置される）サブセット１２０を示す情報であり、図３に例示するサブセット１１ａを特定するための情報である。

分割実行順序リスト１１ｄは、交差検証処理の実行順序を示す情報である。すなわち、分割実行順序リスト１１ｄは、交差検証処理部１３により仮に設定された実行順序（図４の例では実行順序１２３４）の代替となる（更新後の）実行順序である。

図７は、初期配置ＩＤリスト１１ｃ及び分割実行順序リスト１１ｄの一例を示す図である。図７では、実行順序１２４３の連続使用回数の合計値が、複数の実行順序の中で最多である場合を示す。

図７に例示するように、サブセット配置ポリシ決定部１４は、分割実行順序リスト１１ｄに、特定した実行順序１２４３の分割ＩＤ｛１，２，４，３｝を登録する。また、サブセット配置ポリシ決定部１４は、初期配置ＩＤリスト１１ｃに、実行順序１２４３で取得した所定個数のサブセット１２０のサブセットＩＤ｛０，２，３，４｝をセットする。

以上により、サブセット配置ポリシ決定部１４は、交差検証における訓練及び精度評価の複数の繰り返しの中で、特定のサブセット１２０が連続して使用される回数が最多となるような交差検証処理の実行順序と、当該特定のサブセット１２０（図６参照）とを決定できる。アクセス回数の多い特定のサブセット１２０は、高速メモリ部１１に配置されることで、高速メモリ部１１へのアクセス回数を増加させることができる。

換言すれば、サブセット配置ポリシ決定部１４は、特定のサブセット１２０として、高速メモリ部１１に初期配置するサブセット１１ａ（図３参照）を決定するのである。

なお、複数のサブセット１２０のうちの、高速メモリ部１１に配置されないサブセット１２０は、図３に例示する低速メモリ部１２内のサブセット１２ａである。サブセット１２ａは、交差検証における訓練及び精度評価の複数の繰り返しの中で、使用される回数が比較的少ないサブセット１２０となる。

（入替ＩＤリスト１１ｅ及び入替タイミング１１ｆの決定処理）
上述した決定処理で得られた初期配置ＩＤリスト１１ｃは、実行順序の先頭の分割１から連続して使用される連続使用回数に基づき算出される。このため、交差検証処理が進み、実行順序で後半の分割（図７の例では分割３等）になるほど、初期配置ＩＤリスト１１ｃ内のサブセット１２０が訓練サブセット１２１又は検証サブセット１２２としてアクセスされる可能性が低下する。

そこで、サブセット配置ポリシ決定部１４は、入替ＩＤリスト１１ｅ及び入替タイミング１１ｆを決定する。

入替タイミング１１ｆは、実行順序で後半の分割においてアクセスされる可能性の低いサブセット１１ａと、実行順序で後半の分割においてアクセスされる可能性の高いサブセット１２ａとを入れ替えるタイミングを示す情報である。換言すれば、入替タイミング１１ｆは、高速メモリ部１１と低速メモリ部１２との間でサブセット１２０の入れ替え（階層制御）を行なうタイミングを示す情報である。

入替ＩＤリスト１１ｅは、入替タイミング１１ｆにおいて、高速メモリ部１１と低速メモリ部１２との間で入れ替える対象となるサブセット１２０を選択するための情報である。

図８は、入替タイミング１１ｆの決定処理の一例を説明するための図である。サブセット配置ポリシ決定部１４は、決定した実行順序１２４３において、入替タイミング１１ｆを設定する複数の入替タイミング候補を決定する。複数の入替タイミング候補は、複数の分割の実行順序におけるステップ間の複数のタイミングの一例である。図８において、符号Ｃは、分割１と分割２との間に設けられた入替タイミング候補（「入替タイミング１」と表記）を示す。符号Ｄは、分割４と分割３との間に設けられた入替タイミング候補（「入替タイミング３」と表記）を示す。

サブセット配置ポリシ決定部１４は、各入替タイミング候補について、入替タイミング候補以前の１以上のステップ（実行順序１２４３の前半部分）の合計使用回数と、入替タイミング候補以降の１以上のステップ（実行順序１２４３の後半部分）の合計使用回数との差を算出する。

例えば、符号Ｃでは、サブセット配置ポリシ決定部１４は、入替タイミング１以前（前半部分）においてサブセットＩＤ：０，２，３，４が訓練サブセット１２１又は検証サブセット１２２として使用される合計使用回数：４（Ｃ１及びＣ２参照）を取得する。また、サブセット配置ポリシ決定部１４は、入替タイミング１以降（後半部分）におけるサブセットＩＤ：０，２，３，４の合計使用回数：１０（Ｃ３及びＣ４参照）を取得する。そして、サブセット配置ポリシ決定部１４は、前半部分の合計使用回数：４から後半部分の合計使用回数：１０を減じた－６を算出する。

また、例えば、符号Ｄでは、サブセット配置ポリシ決定部１４は、入替タイミング３以前（前半部分）におけるサブセットＩＤ：０，２，３，４の合計使用回数：１２（Ｄ１及びＤ２参照）を取得する。また、サブセット配置ポリシ決定部１４は、入替タイミング３以降（後半部分）におけるサブセットＩＤ：０，２，３，４の合計使用回数：２（Ｄ３及びＤ４参照）を取得する。そして、サブセット配置ポリシ決定部１４は、前半部分の合計使用回数：１２から後半部分の合計使用回数：２を減じた１０を算出する。

なお、図８に例示するように、分割２と分割４との間の入替タイミング２については、サブセット配置ポリシ決定部１４は、前半部分の合計使用回数：８から後半部分の合計使用回数：６を減じた２を算出する。

そして、サブセット配置ポリシ決定部１４は、複数の入替タイミング候補の中から、算出した差分が最大となる入替タイミング３を示す“３”を入替タイミング１１ｆにセットする。

このように、サブセット配置ポリシ決定部１４は、高速メモリ部１１内のサブセット１１ａへのアクセス回数が多い分割４と、高速メモリ部１１内のサブセット１１ａへのアクセス回数が少ない分割３との間の境界となる入替タイミング１１ｆを特定する。これにより、入替タイミング１１ｆよりも前にサブセット１１ａへのアクセスを集中させ、サブセット１１ａへのアクセス回数が減少する入替タイミング１１ｆにおいて、高速メモリ部１１に格納するサブセット１２０を入れ替えることができる。換言すれば、入替タイミング１１ｆ以降における高速メモリ部１１へのアクセス回数の減少を抑制（低速メモリ部１２へのアクセス回数の増加を減少）させることができる。

図９は、入替ＩＤリスト１１ｅの取得例を説明するための図である。サブセット配置ポリシ決定部１４は、複数のサブセット１２０のサブセットＩＤを、入替タイミング１１ｆ後（符号Ｅ１参照）の使用回数の降順にソートした入替ＩＤリスト１１ｅを生成する。

入替ＩＤリスト１１ｅは、入替タイミング１１ｆ以降の１以上のステップにおける複数のサブセット１２０の各々が使用される回数に応じた順序で、複数のサブセット１２０の各々の識別情報をソートした第２情報の一例である。

なお、複数のサブセット１２０間で使用回数が同一である場合、サブセット配置ポリシ決定部１４は、所定の優先順に応じてサブセットＩＤをソートしてよい。一例として、サブセット配置ポリシ決定部１４は、サブセットＩＤが若い（小さい）サブセットＩＤを優先的にリストの上位に配置してよい。

図９の例では、サブセットＩＤ：０，１，３，５，６，８，９の使用回数がいずれも１（入替タイミング１１ｆ後の回数として最大）であるため、サブセット配置ポリシ決定部１４は、これらをリストの上位から順に入替ＩＤリスト１１ｅにセットする。また、サブセットＩＤ：２，４，７の使用回数がいずれも０であるため、サブセット配置ポリシ決定部１４は、これらをサブセットＩＤ：９に続けて入替ＩＤリスト１１ｅにセットする。

入替ＩＤリスト１１ｅには、入替タイミング１１ｆ後の分割（繰り返し）の回数ｘに応じて、使用回数ｘ，ｘ－１，・・・，１，０の順（降順）に、サブセットＩＤがセットされてよい。図９ではｘ＝１の例を示すが、例えば、ｘ＝２の場合（分割２と分割４との間が入替タイミング１１ｆとなった場合）、入替ＩＤリスト１１ｅには、｛０，１，３，５，６，２，４，８，９，７｝がセットされる。

以上のように、サブセット配置ポリシ決定部１４は、入替タイミング１１ｆ後の使用回数が最多のサブセットＩＤが先頭に位置し、入替タイミング１１ｆ後の使用回数が最少のサブセットＩＤが末尾に位置するように、入替ＩＤリスト１１ｅを設定する。

（サブセット配置部１５へのサブセット配置ポリシ１１０の通知処理）
サブセット配置ポリシ決定部１４は、上述した処理によりサブセット配置ポリシ１１０を決定すると、当該サブセット配置ポリシ１１０をサブセット配置部１５に通知する。

図５～図９を参照して説明した例では、サブセット配置ポリシ１１０は、以下の情報を含む。
初期配置ＩＤリスト１１ｃ：｛０，２，３，４｝
分割実行順序リスト１１ｄ：｛１，２，４，３｝
入替ＩＤリスト１１ｅ：｛０，１，３，５，６，８，９，２，４，７｝
入替タイミング１１ｆ：３

サブセット配置部１５は、サブセット配置ポリシ１１０に基づき、高速メモリ部１１へのサブセット１１ａの配置処理を行なう。

ここで、上述したように、階層型メモリシステム２０においては、ＨＷ又はプロセッサ１０ａが実行するＯＳにより、高速メモリ２１及び低速メモリ２２間のデータ配置制御、例えば、ＬＲＵアルゴリズムによるキャッシュ制御が行なわれる。

ＬＲＵアルゴリズムによるキャッシュ制御が実行されると、初期配置ＩＤリスト１１ｃに基づき高速メモリ部１１にサブセット１１ａが配置されても、入替タイミング１１ｆよりも前に、サブセット１１ａが低速メモリ部１２に追い出される可能性がある。

そこで、サブセット配置部１５は、サブセット配置ポリシ決定部１４からサブセット配置ポリシ１１０を通知されると、ＬＲＵアルゴリズムによるキャッシュ制御を無効化してよい。一例として、高速メモリ２１がＤＲＡＭであり、低速メモリ２２がＳＳＤである場合、サブセット配置部１５は、ＯＳのスワップ機能を無効化してよい。或いは、高速メモリ２１がＤＲＡＭであり、低速メモリ２２がＮＶＤＩＭＭである場合、サブセット配置部１５は、ＮＶＤＩＭＭの動作モードを、ＤＲＡＭとＮＶＤＩＭＭ（ＰＭ）とを別個のメモリとして利用する動作モードに設定してよい。

このように、サブセット配置部１５は、高速メモリ２１と低速メモリ２２とを別々のメモリ（或いはメモリ及びストレージ）として扱った上で、別々のメモリへのサブセット配置処理を、サブセット１２０へのアクセスパターンに基づき実行するのである。

図１０は、サブセット配置処理の一例を説明するための図である。図１０において、符号Ｆは、サブセット１２０の初期配置タイミングにおける配置処理の一例を示し、符号Ｇは、サブセット１２０の入替タイミング１１ｆにおける配置処理の一例を示す。図１０では、高速メモリ部１１に配置されるサブセット１２０の背景を細斜線で示し、低速メモリ部１２に配置されるサブセット１２０の背景を濃い網掛けで示す。

（初期配置タイミングにおけるサブセット配置処理）
サブセット配置部１５は、符号Ｆに示すように、初期配置ＩＤリスト１１ｃ内のサブセット１２０（サブセットＩＤ：０，２，３，４）を、サブセット１１ａ（図３参照）として、低速メモリ部１２から高速メモリ部１１に配置（移動）する。サブセット配置部１５は、低速メモリ部１２のサブセット１２０からサブセット１１ａを削除してもよい。

初期配置ＩＤリスト１１ｃに含まれないサブセット１２０（サブセットＩＤ：１，５，６，７，８，９）は、サブセット１２ａ（図３参照）として、低速メモリ部１２に配置される。なお、図３では、便宜上、サブセット１２０とサブセット１２ａとを区別して記載するが、サブセット１２ａは、複数のサブセット１２０のうちの、高速メモリ部１１に配置されないサブセット１２０を意味してよい。すなわち、複数のサブセット１２０から複製等によりサブセット１２ａを生成する必要はない。

サブセット配置部１５は、サブセット１２０の初期配置処理が完了すると、交差検証処理部１３に対して、入替タイミング１１ｆまでの交差検証処理の実行を指示してよい。

このように、サブセット配置部１５は、初期配置タイミングにおいて、サブセット配置ポリシ決定部１４が決定した実行順序においてステップ間で連続して使用される回数が多い上位所定個数のサブセット１２０を、高速メモリ部１１に配置する。

（入替タイミング１１ｆにおけるサブセット配置処理）
サブセット配置部１５は、入替タイミング１１ｆの到来を検出すると、符号Ｇに示すように、入替ＩＤリスト１１ｅに基づき、低速メモリ部１２上のサブセット１２ａの配置と、高速メモリ部１１上のサブセット１１ａの配置とを入れ替える。

例えば、サブセット配置部１５は、入替ＩＤリスト１１ｅの先頭に近い低速メモリ部１２上のサブセット１２ａと、入替ＩＤリスト１１ｅの末尾に近い高速メモリ部１１上の未使用のサブセット１１ａとの配置を入れ替える。

入替ＩＤリスト１１ｅの末尾に近い高速メモリ部１１上の未使用のサブセット１１ａは、高速メモリ部１１に格納された所定個数のサブセット１１ａのうちの入替タイミング１１ｆ以降の１以上のステップにおいて使用されない第１サブセットの一例である。また、入替ＩＤリスト１１ｅの先頭に近い低速メモリ部１２上のサブセット１２ａは、低速メモリ部１２に格納されたサブセット１２ａのうちの入替タイミング１１ｆ以降の１以上のステップにおいて使用される第２サブセットの一例である。

図１０の例では、サブセット配置部１５は、入替ＩＤリスト１１ｅの先頭に近い低速メモリ部１２上のサブセットＩＤ：１と、入替ＩＤリスト１１ｅの末尾に近い高速メモリ部１１上のサブセットＩＤ：４との配置を入れ替える（符号Ｇ１参照）。

また、サブセット配置部１５は、入替ＩＤリスト１１ｅの先頭に近い低速メモリ部１２上のサブセットＩＤ：５と、入替ＩＤリスト１１ｅの末尾に近い高速メモリ部１１上のサブセットＩＤ：２との配置を入れ替える（符号Ｇ２参照）。

なお、配置の入れ替えとは、２つのサブセット１２０が格納される階層（高速メモリ部１１及び低速メモリ部１２）を入れ替えることを意味してよい。例えば、サブセット配置部１５は、高速メモリ部１１上のサブセット１１ａの格納位置（アドレス）に、低速メモリ部１２上のサブセット１２ａを格納してもよいし、高速メモリ部１１上の当該格納位置とは異なる空き領域に低速メモリ部１２上のサブセット１２ａを格納してもよい。

サブセット配置部１５は、例えば、入替ＩＤリスト１１ｅの先頭及び末尾から、配置の入れ替えの条件に合致するサブセットＩＤを探索してよい。サブセット配置部１５は、条件に合致し配置を入れ替えたサブセットＩＤ、及び、条件に合致しないサブセットＩＤを、入替ＩＤリスト１１ｅから削除してよい。

そして、サブセット配置部１５は、入替ＩＤリスト１１ｅの探索において、入替ＩＤリスト１１ｅの末尾のサブセット１２０の入替タイミング１１ｆ後の使用回数が０ではなくなった場合に、サブセットＩＤの探索を終了してよい。入替ＩＤリスト１１ｅの末尾のサブセット１２０は、高速メモリ部１１に配置されている場合、低速メモリ部１２に移動される（追い出される）候補である。しかし、当該末尾のサブセット１２０の入替タイミング１１ｆ後の使用回数が０ではない（未使用サブセット１２３ではない）ということは、当該末尾のサブセット１２０が高速メモリ部１１でアクセスされる、換言すれば低速メモリ部１２への移動が不要だからである。

サブセット配置部１５は、入替タイミング１１ｆにおけるサブセット１２０の配置の入れ替え処理が完了すると、交差検証処理部１３に対して、入替タイミング１１ｆ以降の交差検証処理の実行を指示してよい。

〔Ｂ〕動作例
次に、図１１及び図１２を参照して、上述した一実施形態に係る交差検証装置１の動作例を説明する。

〔Ｂ－１〕サブセット配置ポリシの決定処理
図１１は、一実施形態に係る交差検証装置１によるサブセット配置ポリシ１１０の決定処理の動作例を説明するためのフローチャートである。なお、交差検証処理部１３は、交差検証の処理要求に応じて、データセットを複数のサブセット１２０に分割し、サブセット使用リスト１１ｂを生成した状態であるものとする。

図１１に例示するように、サブセット配置ポリシ決定部１４は、交差検証処理部１３からサブセット使用リスト１１ｂを取得する（ステップＳ１）。

サブセット配置ポリシ決定部１４は、サブセット配置ポリシ１１０を初期化する（ステップＳ２）。例えば、サブセット配置ポリシ決定部１４は、初期配置ＩＤリスト１１ｃ、分割実行順序リスト１１ｄ及び入替ＩＤリスト１１ｅを空にするとともに、入替タイミング１１ｆに“-1”をセットする。

サブセット配置ポリシ決定部１４は、高速メモリ部１１の空き容量（空き記憶領域のサイズ）を１個あたりのサブセット１２０のサイズで除算（小数点以下切り捨て）して、高速メモリ部サブセット数を算出する（ステップＳ３）。

サブセット配置ポリシ決定部１４は、サブセット使用リスト１１ｂの全ての分割実行順序において、連続使用回数の合計が最大となる、高速メモリ部サブセット数分のサブセットＩＤ及び合計回数を取得する（ステップＳ４）。

サブセット配置ポリシ決定部１４は、連続使用回数の合計が最大の分割実行順序を分割実行順序リスト１１ｄに登録し、当該分割実行順序について取得したサブセットＩＤを初期配置ＩＤリスト１１ｃに登録する（ステップＳ５）。

サブセット配置ポリシ決定部１４は、複数の入替タイミング候補の中から、初期配置ＩＤリスト１１ｃに含まれるサブセット１２０の前半部分の合計使用回数と後半部分の合計使用回数との差が最大となる入替タイミング１１ｆを設定する（ステップＳ６）。

サブセット配置ポリシ決定部１４は、入替タイミング１１ｆの使用回数でサブセットＩＤを降順ソートした入替ＩＤリスト１１ｅを作成する（ステップＳ７）。

サブセット配置ポリシ決定部１４は、サブセット配置部１５にサブセット配置ポリシ１１０の決定処理の完了通知を送信し（ステップＳ８）、サブセット配置ポリシ１１０の決定処理が終了する。

〔Ｂ－２〕サブセットの配置処理
図１２は、一実施形態に係る交差検証装置１によるサブセット１２０の配置処理の動作例を説明するためのフローチャートである。

図１２に例示するように、サブセット配置部１５は、サブセット配置ポリシ決定部１４から完了通知を受信する（ステップＳ１１）。サブセット配置部１５は、ＬＲＵアルゴリズムによるキャッシュ制御を無効化する。キャッシュ制御の無効化のタイミングは、ステップＳ１１よりも前であってもよい。

サブセット配置部１５は、初期配置ＩＤリスト１１ｃ内のサブセット１２０をサブセット１１ａとして低速メモリ部１２から高速メモリ部１１に配置する（ステップＳ１２）。

サブセット配置部１５は、交差検証処理部１３に対して、分割実行順序リスト１１ｄの順に、交差検証処理の実行を指示する。交差検証処理部１３は、分割実行順序リスト１１ｄに基づき交差検証処理を実行する（ステップＳ１３）。

サブセット配置部１５は、１つの分割について交差検証処理の実行が完了すると、実行済みの分割数が入替タイミング１１ｆ（図１０の例では３）と一致するか否かを判定する（ステップＳ１４）。

実行済みの分割数が入替タイミング１１ｆと一致しない場合（ステップＳ１４でＮＯ）、処理がステップＳ２２に移行する。

実行済みの分割数が入替タイミング１１ｆと一致する場合（ステップＳ１４でＹＥＳ）、サブセット配置部１５は、入替ＩＤリスト１１ｅの末尾のサブセット１２０の入替タイミング１１ｆ後の使用回数が０か否かを判定する（ステップＳ１５）。

使用回数が０である場合（ステップＳ１５でＹＥＳ）、サブセット配置部１５は、入替ＩＤリスト１１ｅの先頭のサブセット１２０が低速メモリ部１２に配置されているか否かを判定する（ステップＳ１６）。

先頭のサブセット１２０が低速メモリ部１２に配置されていない場合（ステップＳ１６でＮＯ）、サブセット配置部１５は、入替ＩＤリスト１１ｅの先頭を削除し（ステップＳ１７）、処理がステップＳ１６に移行する。

先頭のサブセット１２０が低速メモリ部１２に配置されている場合（ステップＳ１６でＹＥＳ）、サブセット配置部１５は、入替ＩＤリスト１１ｅの末尾のサブセット１２０が高速メモリ部１１に配置されているか否かを判定する（ステップＳ１８）。なお、入替ＩＤリスト１１ｅの末尾のサブセット１２０は、ステップＳ１５にて入替タイミング後の使用回数が０であると判定されたサブセットである。

入替ＩＤリスト１１ｅの末尾のサブセット１２０が高速メモリ部１１に配置されていない場合（ステップＳ１８でＮＯ）、サブセット配置部１５は、入替ＩＤリスト１１ｅの末尾を削除する（ステップＳ１９）。そして、処理がステップＳ１８に移行する。

入替ＩＤリスト１１ｅの末尾のサブセット１２０が高速メモリ部１１に配置されている場合（ステップＳ１８でＹＥＳ）、サブセット配置部１５は、サブセット１２０の配置の入れ替えを行なう（ステップＳ２０）。例えば、サブセット配置部１５は、入替ＩＤリスト１１ｅの先頭の低速メモリ部１２上のサブセット１２０と、末尾の高速メモリ部１１上のサブセット１２０（未使用サブセット１２３）との配置を入れ替える。

そして、サブセット配置部１５は、入替ＩＤリスト１１ｅの先頭及び末尾を削除し（ステップＳ２１）、処理がステップＳ１５に移行する。

ステップＳ１５において、入替ＩＤリスト１１ｅの末尾のサブセット１２０の入替タイミング１１ｆ後の使用回数が０ではない場合（ステップＳ１５でＮＯ）、処理がステップＳ２２に移行する。

ステップＳ２２において、サブセット配置部１５は、実行済みの分割数が全体の分割数（図１０の例では４）と一致するか否かを判定する。

実行済みの分割数が全体の分割数と一致しない場合（ステップＳ２２でＮＯ）、処理がステップＳ１３に移行し、サブセット配置部１５は、交差検証処理部１３により、分割実行順序リスト１１ｄの次の分割に係る交差検証処理を実行する。

実行済みの分割数が全体の分割数と一致する場合（ステップＳ２２でＹＥＳ）、サブセット１２０の配置処理が完了する。

〔Ｃ〕一実施形態の効果
以上のように、一実施形態に係る交差検証装置１は、サブセット使用リスト１１ｂに基づき、複数のステップの実行順序の候補パターンごとに、各サブセット１２０が候補パターンにおいてステップ間で連続して使用される回数を算出する。また、交差検証装置１は、連続して使用される回数の合計が最大となる候補パターンの実行順序を、交差検証処理の複数のステップの実行順序に決定する。そして、交差検証装置１は、決定した実行順序においてステップ間で連続して使用される回数が多い上位所定個数のサブセット１２０を、高速メモリ部１１に配置する。

これにより、交差検証装置１は、アクセス回数（使用される回数）が多い上位所定個数のサブセット１２０を高速メモリ部１１に初期配置することができる。また、交差検証装置１は、所定個数のサブセット１２０のアクセス回数の合計が最大となるように、交差検証処理の複数のステップの実行順序を決定することができる。従って、高速メモリ部１１へのアクセス回数を増加させ、交差検証処理の高速化を実現できる。

図１３は、比較例に係る交差検証処理の一例を説明するための図である。図１３では、一実施形態に係る手法を適用せず、ＬＲＵアルゴリズムによるキャッシュ制御により、高速メモリ部１１と低速メモリ部１２との間でサブセット１２０が配置される例を示す。

図１３の例において、分割１では、サブセットＩＤ：０，１，３，４，６，２，９の順でサブセット１２０が使用される。

高速メモリ部サブセット数＝４である場合、分割２の交差検証処理の開始時点において、高速メモリ部１１に配置（キャッシュ）されているサブセット１２０は、キャッシュ順（ＬＲＵ順）にサブセットＩＤ：４，６，２，９となる。

分割２の交差検証処理において、サブセットＩＤ：０へのアクセスは、低速メモリ部１２へのアクセスとなる。その後、キャッシュ制御により、高速メモリ部１１に格納されるサブセット１２０は、サブセットＩＤ：６，２，９，０となる。

サブセットＩＤ：２へのアクセスは、高速メモリ部１１へのアクセスとなり、キャッシュ制御においてＬＲＵ順がサブセットＩＤ：６，９，０，２に更新される。

サブセットＩＤ：３へのアクセスは、低速メモリ部１２へのアクセスとなる。その後、キャッシュ制御により、高速メモリ部１１に格納されるサブセット１２０は、サブセットＩＤ：９，０，２，３となる。

サブセットＩＤ：４へのアクセスは、低速メモリ部１２へのアクセスとなる。その後、キャッシュ制御により、高速メモリ部１１に格納されるサブセット１２０は、サブセットＩＤ：０，２，３，４となる。

このように、ＬＲＵアルゴリズムによるキャッシュ制御では、高速メモリ部１１にキャッシュされたサブセット１２０が後続の分割における交差検証処理において再度アクセスされる前に、低速メモリ部１２に追い出されることになる。従って、低速メモリ部１２へのアクセス頻度が増加し、交差検証処理を実行するコンピュータの性能が律速される。

これに対し、一実施形態に係る交差検証装置１によれば、図１０に例示するように、初期配置タイミング～入替タイミング１１ｆにおいて、アクセス回数が最大となる所定個数のサブセット１１ａが、高速メモリ部１１上に固定的に配置される。また、入替タイミング１１ｆ以降は、高速メモリ部１１に初期配置されたサブセット１１ａへのアクセス回数の変化（減少）を見越して、入替タイミング１１ｆ以降のアクセス回数が最大となるサブセット１２ａが、高速メモリ部１１上に配置し直される。

これにより、一実施形態に係る交差検証装置１によれば、比較例よりも高速に交差検証処理を実行することができる。

〔Ｄ〕その他
上述した一実施形態に係る技術は、以下のように変形、変更して実施することができる。

例えば、図３に示す交差検証処理部１３、サブセット配置ポリシ決定部１４及びサブセット配置部１５は、それぞれ任意の組み合わせで併合してもよく、分割してもよい。また、高速メモリ部１１が記憶する各リスト１１ｂ～１１ｅは、それぞれ任意の組み合わせで併合した情報であってもよく、分割した情報であってもよい。

また、入替ＩＤリスト１１ｅは、サブセット１２０を合計使用回数の降順にソートしたリストであるものとして説明したが、これに限定されるものではなく、サブセット１２０を合計使用回数の昇順にソートした情報であってもよい。この場合、サブセット配置部１５による、入替タイミング１１ｆにおける配置の入れ替えは、上述した説明における「先頭」と「末尾」とを入れ替えて実施されてよい。

〔Ｅ〕付記
以上の実施形態に関し、さらに以下の付記を開示する。

（付記１）
機械学習モデルの交差検証処理の各ステップにおける、前記交差検証処理に使用される複数のサブセットのアクセスパターンを示す第１情報であって、前記ステップごとに使用されるサブセットを示す前記第１情報に基づき、複数の前記ステップの実行順序の候補パターンごとに、各サブセットが前記候補パターンにおいてステップ間で連続して使用される回数を算出し、
前記回数の合計が最大となる候補パターンの実行順序を、前記交差検証処理の前記複数のステップの実行順序に決定し、
決定した前記実行順序においてステップ間で連続して使用される回数が多い上位所定個数のサブセットを、前記複数のサブセットが格納される第１メモリよりも高速なアクセスが可能である第２メモリに配置する、
処理をコンピュータに実行させる、交差検証プログラム。

（付記２）
前記第２メモリの空き記憶領域を前記サブセットのデータサイズで除算した商を、前記所定個数として取得する、
処理を前記コンピュータに実行させる、付記１に記載の交差検証プログラム。

（付記３）
前記複数のステップの実行順序を決定する処理は、前記回数が多い上位所定個数のサブセットの前記回数の合計が最大となる候補パターンの実行順序を、前記交差検証処理の前記複数のステップの実行順序に決定する処理を含む、
付記１又は付記２に記載の交差検証プログラム。

（付記４）
前記複数のステップの実行順序におけるステップ間の複数のタイミングのうち、前記タイミング以前の１以上のステップにおいて前記所定個数のサブセットが使用される回数から、前記タイミング以降の１以上のステップにおいて前記所定個数のサブセットが使用される回数を減じた差が最大となるタイミングを特定し、
特定した前記タイミングにおいて、前記第２メモリに格納された前記所定個数のサブセットのうちの前記特定したタイミング以降の１以上のステップにおいて使用されない第１サブセットの配置と、前記第１メモリに格納されたサブセットのうちの前記特定したタイミング以降の１以上のステップにおいて使用される第２サブセットの配置とを入れ替える、
処理を前記コンピュータに実行させる、付記１～付記３のいずれか１項に記載の交差検証プログラム。

（付記５）
前記特定したタイミング以降の１以上のステップにおける前記複数のサブセットの各々が使用される回数に応じた順序で、前記複数のサブセットの各々の識別情報をソートした第２情報を生成する、
処理を前記コンピュータに実行させ、
前記配置を入れ替える処理は、前記第２情報に基づき、前記第１サブセットと、前記第２サブセットとを選択する処理を含む、
付記４に記載の交差検証プログラム。

（付記６）
機械学習モデルの交差検証処理の各ステップにおける、前記交差検証処理に使用される複数のサブセットのアクセスパターンを示す第１情報であって、前記ステップごとに使用されるサブセットを示す前記第１情報に基づき、複数の前記ステップの実行順序の候補パターンごとに、各サブセットが前記候補パターンにおいてステップ間で連続して使用される回数を算出し、
前記回数の合計が最大となる候補パターンの実行順序を、前記交差検証処理の前記複数のステップの実行順序に決定し、
決定した前記実行順序においてステップ間で連続して使用される回数が多い上位所定個数のサブセットを、前記複数のサブセットが格納される第１メモリよりも高速なアクセスが可能である第２メモリに配置する、
処理をコンピュータが実行する、交差検証方法。

（付記７）
前記第２メモリの空き記憶領域を前記サブセットのデータサイズで除算した商を、前記所定個数として取得する、
処理を前記コンピュータが実行する、付記６に記載の交差検証方法。

（付記８）
前記複数のステップの実行順序を決定する処理は、前記回数が多い上位所定個数のサブセットの前記回数の合計が最大となる候補パターンの実行順序を、前記交差検証処理の前記複数のステップの実行順序に決定する処理を含む、
付記６又は付記７に記載の交差検証方法。

（付記９）
前記複数のステップの実行順序におけるステップ間の複数のタイミングのうち、前記タイミング以前の１以上のステップにおいて前記所定個数のサブセットが使用される回数から、前記タイミング以降の１以上のステップにおいて前記所定個数のサブセットが使用される回数を減じた差が最大となるタイミングを特定し、
特定した前記タイミングにおいて、前記第２メモリに格納された前記所定個数のサブセットのうちの前記特定したタイミング以降の１以上のステップにおいて使用されない第１サブセットの配置と、前記第１メモリに格納されたサブセットのうちの前記特定したタイミング以降の１以上のステップにおいて使用される第２サブセットの配置とを入れ替える、
処理を前記コンピュータが実行する、付記６～付記８のいずれか１項に記載の交差検証方法。

（付記１０）
前記特定したタイミング以降の１以上のステップにおける前記複数のサブセットの各々が使用される回数に応じた順序で、前記複数のサブセットの各々の識別情報をソートした第２情報を生成する、
処理を前記コンピュータが実行し、
前記配置を入れ替える処理は、前記第２情報に基づき、前記第１サブセットと、前記第２サブセットとを選択する処理を含む、
付記９に記載の交差検証方法。

（付記１１）
機械学習モデルの交差検証処理の各ステップにおける、前記交差検証処理に使用される複数のサブセットのアクセスパターンを示す第１情報であって、前記ステップごとに使用されるサブセットを示す前記第１情報に基づき、複数の前記ステップの実行順序の候補パターンごとに、各サブセットが前記候補パターンにおいてステップ間で連続して使用される回数を算出し、
前記回数の合計が最大となる候補パターンの実行順序を、前記交差検証処理の前記複数のステップの実行順序に決定し、
決定した前記実行順序においてステップ間で連続して使用される回数が多い上位所定個数のサブセットを、前記複数のサブセットが格納される第１メモリよりも高速なアクセスが可能である第２メモリに配置する、
制御部を備える、情報処理装置。

（付記１２）
前記制御部は、前記第２メモリの空き記憶領域を前記サブセットのデータサイズで除算した商を、前記所定個数として取得する、
付記１１に記載の情報処理装置。

（付記１３）
前記制御部は、前記複数のステップの実行順序を決定する処理において、前記回数が多い上位所定個数のサブセットの前記回数の合計が最大となる候補パターンの実行順序を、前記交差検証処理の前記複数のステップの実行順序に決定する、
付記１１又は付記１２に記載の情報処理装置。

（付記１４）
前記制御部は、
前記複数のステップの実行順序におけるステップ間の複数のタイミングのうち、前記タイミング以前の１以上のステップにおいて前記所定個数のサブセットが使用される回数から、前記タイミング以降の１以上のステップにおいて前記所定個数のサブセットが使用される回数を減じた差が最大となるタイミングを特定し、
特定した前記タイミングにおいて、前記第２メモリに格納された前記所定個数のサブセットのうちの前記特定したタイミング以降の１以上のステップにおいて使用されない第１サブセットの配置と、前記第１メモリに格納されたサブセットのうちの前記特定したタイミング以降の１以上のステップにおいて使用される第２サブセットの配置とを入れ替える、
付記１１～付記１３のいずれか１項に記載の情報処理装置。

（付記１５）
前記制御部は、
前記特定したタイミング以降の１以上のステップにおける前記複数のサブセットの各々が使用される回数に応じた順序で、前記複数のサブセットの各々の識別情報をソートした第２情報を生成し、
前記配置を入れ替える処理において、前記第２情報に基づき、前記第１サブセットと、前記第２サブセットとを選択する、
付記１４に記載の情報処理装置。

１交差検証装置
１０コンピュータ
１０ａプロセッサ
１０ｂメモリ
１０ｃ記憶部
１０ｄＩＦ部
１０ｅＩ／Ｏ部
１０ｆ読取部
１０ｇプログラム
１０ｈ記録媒体
１１高速メモリ部
１１ａ、１２ａ、１２０サブセット
１１ｂサブセット使用リスト
１１ｃ初期配置ＩＤリスト
１１ｄ分割実行順序リスト
１１ｅ入替ＩＤリスト
１１ｆ入替タイミング
１１０サブセット配置ポリシ
１２低速メモリ部
１２１訓練サブセット
１２２検証サブセット
１２３未使用サブセット
１３交差検証処理部
１４サブセット配置ポリシ決定部
１５サブセット配置部
１６制御部
２０階層型メモリシステム
２１高速メモリ
２２低速メモリ

Claims

機械学習モデルの交差検証処理の各ステップにおける、前記交差検証処理に使用される複数のサブセットのアクセスパターンを示す第１情報であって、前記ステップごとに使用されるサブセットを示す前記第１情報に基づき、複数の前記ステップの実行順序の候補パターンごとに、各サブセットが前記候補パターンにおいてステップ間で連続して使用される回数を算出し、
前記回数の合計が最大となる候補パターンの実行順序を、前記交差検証処理の前記複数のステップの実行順序に決定し、
決定した前記実行順序においてステップ間で連続して使用される回数が多い上位所定個数のサブセットを、前記複数のサブセットが格納される第１メモリよりも高速なアクセスが可能である第２メモリに配置する、
処理をコンピュータに実行させる、交差検証プログラム。
前記第２メモリの空き記憶領域を前記サブセットのデータサイズで除算した商を、前記所定個数として取得する、
処理を前記コンピュータに実行させる、請求項１に記載の交差検証プログラム。
前記複数のステップの実行順序を決定する処理は、前記回数が多い上位所定個数のサブセットの前記回数の合計が最大となる候補パターンの実行順序を、前記交差検証処理の前記複数のステップの実行順序に決定する処理を含む、
請求項１又は請求項２に記載の交差検証プログラム。
前記複数のステップの実行順序におけるステップ間の複数のタイミングのうち、前記タイミング以前の１以上のステップにおいて前記所定個数のサブセットが使用される回数から、前記タイミング以降の１以上のステップにおいて前記所定個数のサブセットが使用される回数を減じた差が最大となるタイミングを特定し、
特定した前記タイミングにおいて、前記第２メモリに格納された前記所定個数のサブセットのうちの前記特定したタイミング以降の１以上のステップにおいて使用されない第１サブセットの配置と、前記第１メモリに格納されたサブセットのうちの前記特定したタイミング以降の１以上のステップにおいて使用される第２サブセットの配置とを入れ替える、
処理を前記コンピュータに実行させる、請求項１～請求項３のいずれか１項に記載の交差検証プログラム。
前記特定したタイミング以降の１以上のステップにおける前記複数のサブセットの各々が使用される回数に応じた順序で、前記複数のサブセットの各々の識別情報をソートした第２情報を生成する、
処理を前記コンピュータに実行させ、
前記配置を入れ替える処理は、前記第２情報に基づき、前記第１サブセットと、前記第２サブセットとを選択する処理を含む、
請求項４に記載の交差検証プログラム。
機械学習モデルの交差検証処理の各ステップにおける、前記交差検証処理に使用される複数のサブセットのアクセスパターンを示す第１情報であって、前記ステップごとに使用されるサブセットを示す前記第１情報に基づき、複数の前記ステップの実行順序の候補パターンごとに、各サブセットが前記候補パターンにおいてステップ間で連続して使用される回数を算出し、
前記回数の合計が最大となる候補パターンの実行順序を、前記交差検証処理の前記複数のステップの実行順序に決定し、
決定した前記実行順序においてステップ間で連続して使用される回数が多い上位所定個数のサブセットを、前記複数のサブセットが格納される第１メモリよりも高速なアクセスが可能である第２メモリに配置する、
処理をコンピュータが実行する、交差検証方法。
機械学習モデルの交差検証処理の各ステップにおける、前記交差検証処理に使用される複数のサブセットのアクセスパターンを示す第１情報であって、前記ステップごとに使用されるサブセットを示す前記第１情報に基づき、複数の前記ステップの実行順序の候補パターンごとに、各サブセットが前記候補パターンにおいてステップ間で連続して使用される回数を算出し、
前記回数の合計が最大となる候補パターンの実行順序を、前記交差検証処理の前記複数のステップの実行順序に決定し、
決定した前記実行順序においてステップ間で連続して使用される回数が多い上位所定個数のサブセットを、前記複数のサブセットが格納される第１メモリよりも高速なアクセスが可能である第２メモリに配置する、
制御部を備える、情報処理装置。