JP2022182155A

JP2022182155A - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: JP2022182155A
Application number: JP2021089539A
Authority: JP
Inventors: 栩青劉; Xuqing Liu; 庸平川西; Yohei Kawanishi; アグラウェルヴィナムラ; Agrawel Vinamura; 滉生山下; Koki Yamashita
Original assignee: SoftBank Corp
Current assignee: SoftBank Corp
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2022-12-08
Anticipated expiration: 2041-05-27
Also published as: JP7278329B2

Abstract

【課題】データマート作成のための計算コストおよび作成されるデータマートの有用性を考慮したデータマートの自動生成技術を提供する。
【解決手段】情報処理装置（１００）は、複数のデータセットを統合して、目的変数を推定する学習モデルの入力のために用いられるデータマートを生成する情報処理装置（１００）であって、複数のデータセットから選択される２つのデータセット毎に、当該２つのデータセットを統合するための処理コストの指標、および、当該２つのデータセットが統合されたデータセットによる目的変数の推定精度の指標を算出する算出部（１４４）と、推定精度の指標および処理コストの指標を参照して、複数のデータセットをどのように統合するかを示す設計情報を生成する生成部（１４６）と、を備える。
【選択図】図１

Description

本発明は、データマートを生成する情報処理装置、情報処理方法およびプログラムに関する。

近年、ＡＩの利活用が盛んに行われている。ＡＩモデルは、一般に、課題業務理解、分析設計、データ探索、特徴量作成、特徴量エンジニアリング、モデル構築およびモデル解釈といった工程によって開発される（図２）。

このうち特徴量作成とは、データ探索において収集されたデータセットから、学習モデルの入力に用いる特徴量を作成する工程である。この特徴量をデータマートと呼ぶこともある。特徴量作成において作成されたデータマートは、特徴量エンジニアリングにおいて学習モデルの入力のために適切な形式に加工され、モデル構築における学習モデルの学習に使用される。

また、開発されたＡＩモデルの利用時には、開発時と同様にデータマートを作成および加工し、学習済みの学習モデルに入力することにより、学習モデルを用いた推定を行うことができる。

Kanter et al., Deep Feature Synthesis Towards Automating Data Science Endeavors, 2015 Lam et al., One button machine for automating feature engineering in relational databases, 2017 Katz et al., ExploreKit Automatic Feature Generation and Selection, 2016

しかしながら、データ探索や特徴量エンジニアリング～モデルデプロイといった工程については、市販の自動化ツールが存在するものの、特徴量作成については、現時点において市販の自動化ツールは存在しない。

非特許文献１～３には、特徴量作成の自動化技術の提案が記載されているが、データマート作成のための計算コストおよび作成されるデータマートの有用性を考慮したものではない。

本発明の一態様に係る情報処理装置は、複数のデータセットを統合して、目的変数を推定する学習モデルの入力のために用いられるデータマートを生成する情報処理装置であって、前記複数のデータセットから選択される２つのデータセット毎に、当該２つのデータセットを統合するための処理コストの指標、および、当該２つのデータセットが統合されたデータセットによる前記目的変数の推定精度の指標を算出する算出部と、前記処理コストの指標および前記推定精度の指標を参照して、前記複数のデータセットをどのように統合するかを示す設計情報を生成する生成部と、を備える。

本発明の一態様に係る情報処理方法は、１以上のコンピュータが、複数のデータセットを統合して、目的変数を推定する学習モデルの入力のために用いられるデータマートを生成する情報処理方法であって、前記１以上のコンピュータが、前記複数のデータセットから選択される２つのデータセット毎に、当該２つのデータセットを統合するための処理コストの指標、および、当該２つのデータセットが統合されたデータセットによる前記目的変数の推定精度の指標を算出し、前記処理コストの指標および前記推定精度の指標を参照して、前記複数のデータセットをどのように統合するかを示す設計情報を生成することを含む。

本発明の各態様に係る情報処理装置は、コンピュータによって実現してもよく、この場合には、コンピュータを前記情報処理装置が備える各部（ソフトウェア要素）として動作させることにより前記情報処理装置をコンピュータにて実現させるプログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

ある。

本発明の実施形態１に係る情報処理装置の構成の一例を示す図である。ＡＩモデルの開発プロセスの一例の概要を示す図である。本発明の実施形態１に係る情報処理装置の使用態様の一例を説明する図である。本発明の実施形態１に係る情報処理装置の動作の一例を説明するフロー図である。本発明の実施形態１に係る情報処理装置の動作の一例を説明する図である。本発明の実施形態１に係る情報処理装置における準備処理の一例を説明するフロー図である。本発明の実施形態１に係る情報処理装置において用いる表の一例を示す図である。本発明の実施形態１に係る情報処理装置において用いる表の一例を示す図である。本発明の実施形態１に係る情報処理装置において用いるリストの一例を示す図である。本発明の実施形態１に係る情報処理装置における算出処理の一例を説明するフロー図である。本発明の実施形態１に係る情報処理装置において用いるパラメータの一例を示す図である。本発明の実施形態１に係る情報処理装置において用いるリストの一例を示す図である。本発明の実施形態１に係る情報処理装置における設計情報生成処理の一例を説明するフロー図である。本発明の実施形態１に係る情報処理装置において用いるグラフの一例を示す図である。本発明の実施形態１に係る情報処理装置において用いる有向木の作成の流れの一例を示す図である。本発明の実施形態１に係る情報処理装置において用いるグラフの一例を示す図である。本発明の実施形態１に係る情報処理装置において用いるグラフの一例を示す図である。本発明の実施形態１に係る情報処理装置において用いるグラフの一例を示す図である。本発明の実施形態１に係る情報処理装置において用いるパレート最適化処理の一例を説明する表である。本発明の実施形態１に係る情報処理装置において用いるパレート最適化処理の一例を説明する図である。本発明の実施形態１に係る情報処理装置において用いるグラフの各指標の一例を示す図である。本発明の実施形態１に係る情報処理装置において用いるパレート最適化処理の一例を説明する図である。本発明の実施形態１に係る情報処理装置において用いる有向木の一例を示す図である。本発明の実施形態１に係る情報処理装置において用いるグラフの一例を示す図である。本発明の実施形態１に係る情報処理装置において用いるグラフの一例を示す図である。本発明の実施形態１に係る情報処理装置において用いるパレート最適化処理の一例を説明する図である。本発明の実施形態１に係る情報処理装置において用いる表の一例を示す図である。本発明の実施形態１に係る情報処理装置におけるデータマート生成処理の一例を説明するフロー図である。実施形態に係る情報処理装置として利用可能なコンピュータの構成を例示したブロック図である。

〔実施形態１〕
＜構成例＞
以下では、本実施形態の構成例について図面を参照して説明する。図３は本実施形態に係る情報処理装置１００の使用態様の一例を示す図である。

情報処理装置１００は、複数のデータセットを統合して、目的変数を推定する学習モデルの入力のために用いられるデータマートを生成する機能を有してよい。

（データセット）
データセットは、１以上の説明変数を含むデータの集合であってよい。一例として、データセットは、データテーブルであり、データテーブルの１以上の列（カラム）が説明変数に対応してもよい。他の例として、データセットはリストなどであってもよい。

また、一例として、少なくとも１つのデータセットは、他のデータセットとの参照関係を有していてもよい。例えば、データセットは、データを複数組含んでおり、各組のデータには、各組を一意に示すＩＤ（主キー）が関連付けられていてもよい。そして、あるデータセットに、他のデータセットの主キーを示すＩＤ（外部キー）が含まれている場合、当該あるデータセットは、当該他のデータセットを参照しているといってよい。一例として、データセットがデータテーブルである場合、主キーは、データテーブルの各行（レコード）を一意に示すＩＤであってよい。

一例として、データセットは、データベースに格納されたデータセットであってよい。データベースとしては、関連付け情報によって互いに関連付けられた複数のデータセットを格納するデータベースであってよく、リレーショナルデータベース、グラフデータベース等であってよい。以下では、一例として、データセットがリレーショナルデータベースのテーブルである場合について説明するが、これに限定されない。

一例において、情報処理装置１００は、データベース２００と接続しており、データベース２００から複数のデータセットを取得可能なように構成されていてもよい。但し、情報処理装置１００が複数のデータセットを取得する方法は限定されず、データベース２００以外から複数のデータセットを取得する構成であってもよい。

（データマート）
データマートは、複数のデータセットが統合されたデータセットであって、目的変数を推定する学習モデルの入力のために用いられるデータセットである。データマートは、特徴量とも呼ばれる。

データセットの統合とは、あるデータセットに含まれる説明変数を、他のデータセットに追加することを意味する。一例において、あるデータセットが、他のデータセットを参照しており、当該他のデータセットを当該あるデータセットに統合する場合、当該あるデータセットにおける外部キーと、当該他のデータセットにおける主キーとの対応関係に基づいて、当該他のデータセットに含まれるデータを、当該あるデータセットに挿入してもよい。

学習モデルの入力としては、学習モデルの学習のための入力（教師データの入力）であってもよいし、学習モデルによる推定（予測、分類）のための入力であってもよい。

また、一例において、情報処理装置１００は、生成したデータマートを自動モデリング装置３００に出力する。これにより、自動モデリング装置３００は、データマートを入力として用い、学習モデルの学習または学習モデルによる推定を行うことができる。

（情報処理装置）
図１は、本実施形態に係る情報処理装置１００の構成の一例を示す図である。情報処理装置１００は、通信部１１０、メモリ１２０、記憶部１３０および主制御部１４０を備えてよい。

通信部１１０は、外部の装置との通信を行ってよい。通信部１１０は、例えば、ネットワークを介してまたは介さずに、データベース２００および自動モデリング装置３００との間で情報を送受信してよい。

メモリ１２０には、主制御部１４０が実行する各種のプログラムおよびそれらのプログラムによって参照される各種のデータが一時的に格納されてよい。

記憶部１３０には、主制御部１４０によって、読み出し、書き込み、参照などされる各種の情報が格納されてよい。

主制御部１４０は、準備部１４２、算出部１４４および生成部１４６を備えてよい。

準備部１４２は、データの準備および前処理を行う準備処理を行ってよい。

算出部１４４は、複数のデータセットから選択される２つのデータセット毎に、当該２つのデータセットを統合するための処理コストの指標、および、当該２つのデータセットが統合されたデータセットによる目的変数の推定精度の指標を算出する算出処理を行ってよい。

生成部１４６は、処理コストの指標および推定精度の指標を参照して、複数のデータセットをどのように統合するかを示す設計情報を生成する設計情報生成処理、および、複数のデータセットから設計情報を参照してデータマートを生成するデータマート生成処理を行ってよい。

＜動作＞
続いて、情報処理装置１００による、複数のデータセットを統合して、目的変数を推定する学習モデルの入力のために用いられるデータマートを生成する処理の具体的動作の一例について、図４に示すフロー図および図５に示す図を参照しつつ説明する。以下に示す例では、データセットが、リレーショナルデータベースのテーブルである構成について説明するが、本実施形態はこれに限定されず、データセットはリストなどであってもよい。

一例において、情報処理装置１００は、ステップＳ１～Ｓ４を実行してよい。

まず、ステップＳ１において、準備部１４２が準備処理を行ってよい。準備処理では、準備部１４２が、データの準備、メタ情報計算、テーブル（データセット）間の参照関係に基づくグラフの作成、当該グラフにおける冗長なノード（テーブル、データセット）の削除等を行ってよい。このとき、準備部１４２は、参照関係を有するテーブル（データセット）間にエッジを有するグラフを作成してよい。

図５のＳ１に、準備処理において作成されるグラフの一例として、テーブルＴ１～Ｔ５をノードとするグラフを示す。図５のＳ１の例では、テーブルＴ１とＴ２の間、Ｔ２とＴ３との間、Ｔ２とＴ４との間、Ｔ３とＴ５との間、Ｔ４とＴ５との間にそれぞれエッジが存在する（テーブル間に関連性がある）。

続いて、ステップＳ２において、算出部２４４が算出処理を行ってよい。算出処理では、算出部２４４が、各テーブル（データセット）および各エッジの処理コストの指標および推定精度の指標の計算を行ってよい。算出部２４４は、各エッジについて、単一の処理コストの指標および推定精度の指標を算出してもよいし、当該エッジについて双方向に処理コストの指標および推定精度の指標をそれぞれ算出してもよい。特に、グラフにおいてサイクルとなっている箇所について、算出部２４４は、双方向に指標を計算してよい。また、算出部２４４は、算出した各エッジの処理コストの指標および推定精度の指標を、各エッジの重みとして付与してよい。

なお、上述したように、参照関係を有するテーブル（データセット）間にエッジが存在するため、算出部２４４は、参照関係を有するデータセットについて、処理コストの指標および前記推定精度の指標を算出するとも言える。

図５のＳ２に、算出処理において算出される指標の一例として、テーブルＴ_ｘとＴ_ｙとを結ぶエッジの処理コストの指標Ｃ_ｘｙおよび推定精度の指標Ｉ_ｘｙがそれぞれ算出されたグラフを示す。なお、算出部２４４は、処理コストの指標Ｃ_ｘｙおよび推定精度の指標Ｉ_ｘｙを、１つのエッジに対して１つずつ算出してもよいし、１つのエッジに対して、双方向の値をそれぞれ算出してもよい。

続いて、ステップＳ３において、生成部１４６が設計情報生成処理を行ってよい。設計情報生成処理では、生成部１４６が、算出処理において算出した各エッジの処理コストの指標および推定精度の指標に基づいて、各候補パスの処理コストの指標および推定精度の指標を計算する。そして、生成部１４６は、各候補パスの処理コストの指標および推定精度の指標を比較して、最適パスを特定し、最適パスに対応する設計情報を生成してよい。

図５のＳ３に、設計情報生成処理算出処理において特定される最適パスおよび対応する設計情報の一例を示す。なお、最適パスおよびその候補パスは、各テーブル間をループなしに結合するパスである。また、設計情報は、どのテーブルをどのテーブルに統合するかを示すものである。図５のＳ３の例では、テーブルＴ５をＴ３に、Ｔ３およびＴ４をＴ２に、Ｔ２をＴ１に統合することが示されている。

続いて、ステップＳ４において、生成部１４６がデータマート生成処理を行ってよい。データマート生成処理において、生成部１４６は、最適パスに沿った特徴量（データマート）を作成し、処理時間を計測する。図５のＳ４に、最適パスに従って各テーブルを統合したテーブルであるデータマートＤＭを示す。自動モデリング装置３００は、生成部１４６が作成したデータマートに基づいて推定モデルを作成し、その精度を測定してもよい。

以下、各処理について詳細に説明する。

（準備処理）
図６は、準備処理を詳細に説明するフロー図である。一例において、準備部１４２は、準備処理において、ステップＳ１１～Ｓ１９を行ってよい。

ステップＳ１１において、準備部１４２は、データベース２００への接続を行ってよい。ステップＳ１２において、準備部１４２は、データベース２００から、複数のテーブル（複数のデータセット）のスキーマ名称、テーブル名称、主キー、外部キー等のメタ情報を取得してよい。なお、準備部１４２がメタ情報を取得する対象のテーブルを、以下の説明では対象テーブルと称する場合がある。

ステップＳ１３において、準備部１４２は、対象テーブルのメタ情報を集約した表Ａを作成してよい。このとき、準備部１４２は、各対象テーブルの外部キーを参照して、他の対象テーブルを参照してもおらず、他の対象テーブルから参照されてもいない、他の対象テーブルから独立している対象テーブルは、表Ａに含めないように、表Ａを作成してよい。

ステップＳ１４において、準備部１４２は、表Ａ中の各対象テーブルにＩＤを振り分けてよい。表Ａの一例を、図７に示す。

ステップＳ１５において、準備部１４２は、各対象テーブルの紐付けキー（主キー、外部キーのいずれであってもよい）同士を突合し、対象テーブル間の参照関係の有無を判定してよい。ステップＳ１６において、準備部１４２は、対象テーブルの主キー間の参照関係が、一対一の参照関係（「ｏ－ｏ」と表記）であるか、一対多の参照関係（「ｏ－ｍ」と表記）であるか、多対一の参照関係（「ｍ－ｏ」と表記）であるか、多対多の参照関係（「ｍ－ｍ」と表記）であるか、参照関係の種類を判定してよい。

ステップＳ１７において、準備部１４２は、ステップＳ１５およびＳ１６の結果を集約した表Ｂを作成してよい。表Ｂの一例を、図８に示す。図８に示す表Ｂでは、列名称「統合先テーブルＩＤ」が示す対象テーブルの主キーを、列名称「統合されるテーブルＩＤ」が示す対象テーブルの主キーが、列名称「参照関係の種類」が示す関係で参照していることを示している。この表Ｂは、各テーブル（データセット）をノードとしたグラフを示すとも言える。すなわち、二つのテーブル間の参照関係が存在することは、当該二つのテーブルに対応するノード間にエッジが存在することを示している。

ステップＳ１８において、準備部１４２は、表Ｂから、テーブル間の組み合わせの重複を削除してよい。例えば、図８に示す例において、表Ｂには、紐付けキー「OrderID」および「SalesOrderID」に基づくテーブル０とテーブル１との参照関係が含まれているが、さらに、紐付けキー「VenderID」に基づくテーブル０とテーブル１との参照関係が含まれていた場合、テーブル０とテーブル１との参照関係が重複するため、準備部１４２が、一方の参照関係を削除してもよい。これにより、表Ｂが示すグラフから、冗長なノードを削除することができる。

ステップＳ１９において、準備部１４２は、参照関係を有する対象テーブルの組み合わせを示すリストＡを作成し、表Ａおよび表Ｂとともに、記憶部１３０に記憶してよい。リストＡの一例を、図９に示す。図９に示すリストＡでは、参照関係を有する対象テーブルのＩＤの組み合わせがタプルのリストとして表現されている。このリストＡは、各テーブル（データセット）をノードとしたグラフの各エッジを示すリストと言うこともできる。

以上により、準備部１４２は、テーブル（データセット）間の参照関係に基づく、各テーブル（データセット）をノードとしたグラフを作成することができる。

（算出処理）
図１０は、算出処理を詳細に説明するフロー図である。一例において、算出部２４４は、算出処理において、ステップＳ２１～Ｓ２７を行ってよい。

ステップＳ２１において、算出部１４４は、算出処理および生成処理において用いるパラメータを取得する。算出部１４４は、記憶部１３０に記憶されている当該パラメータを取得してもよいし、図示しない入力部を介して当該パラメータの入力を受け付けてもよいし、通信部１１０を介して外部の装置から当該パラメータを取得してもよい。

図１１は、算出処理および生成処理において用いるパラメータの一例を示す図である。算出処理および生成処理において用いるパラメータは、一例として、「基本テーブル（基本データセット）」、「目的変数」、「認証情報」、「処理コスト上限」、「重み付け変化刻み回数」、「剪定の対象深さ」といったパラメータを含んでよい。

パラメータ「基本テーブル（基本データセット）」は、目的変数が含まれるテーブル（データセット）である基本テーブル（基本データセット）を指定するパラメータである。一例として、基本テーブルパラメータは、目的変数が含まれるテーブルの名称を示す文字列であってよい。

パラメータ「目的変数」は、基本テーブル（基本データセット）における目的変数を指定するパラメータである。一例として、パラメータ「目的変数」は、基本テーブルにおける目的変数に対応する列の名称（カラム名称）を示す文字列であってよい。

パラメータ「認証情報」は、データベース２００に接続するための認証情報である。

パラメータ「処理コスト上限」、「重み付け変化刻み回数」、「剪定の対象深さ」については後述する。

ステップＳ２２において、算出部１４４は、記憶部１３０から表Ａおよび表Ｂを取得してよい。ステップＳ２３において、算出部１４４は、データベース２００から対象テーブル（複数のデータセット）を取得し、データのエンコード、欠損補完等を行ってよい。

例えば、算出部１４４は、対象テーブルに含まれるデータの形式を、機械学習に用いる特徴量に適した形式にエンコードしてもよい。また、算出部１４４は、対象テーブルにデータの欠損がある場合に、デフォルト値等を用いて当該データの補完を行ってもよい。また、算出部１４４は、タイムスタンプ型のデータが含まれる列について、曜日番号、週番号、平日または週末を示すフラグ等に変換してもよいし、特定の日時との時間差分をとる処理を行ってもよい。また、算出部１４４は、全てが欠損している列や、列内全てが同一値の列、主キー、外部キー以外の管理上のＩＤや番号の列など、特徴量として明らかに使用することができない列を除外してもよい。また、算出部１４４は、対象テーブルにフリーテキスト情報が含まれている場合に、自然言語処理技術を用いて当該フリーテキスト情報をベクトル変換してもよい。

ステップＳ２４～Ｓ２５において、算出部１４４は、準備部１４２が作成したグラフにおけるエッジ毎に（換言すれば、複数の対象テーブル（複数のデータセット）から選択される２つのテーブル（データセット）毎に）、当該２つのデータセットを統合するための処理コストの指標、および、当該２つのデータセットが統合されたデータセットによる前記目的変数の推定精度の指標を算出してよい。

ステップＳ２４において、算出部１４４は、ステップＳ２１において取得したパラメータを参照して目的変数を取得し、表Ａに含まれる基本テーブル（基本データセット）以外のテーブル（データセット）の各々に対し、目的変数を結合してよい。なお、このとき、算出部１４４は、対象テーブルと基本テーブルとの参照関係の種類に応じ、必要に応じて対象テーブルの粒度に合うように集計処理を行ってもよい。例えば、対象テーブルに基本テーブルの目的変数の列を結合するとき、対象テーブルと基本テーブルの参照関係の種類が１対多の場合には、算出部１４４は、目的変数について、対象テーブルとの結合に用いられる外部キーに対して集計処理を行ってから対象テーブルに結合してもよい。

そして、算出部１４４は、目的変数を結合したテーブル（データセット）を用いて、準備部１４２が作成したグラフにおけるエッジ毎に処理コストの指標および推定精度の指標を計算してよい。なお、指標を計算する対象となる各エッジの方向としては、基本テーブル（基本データセット）をルートとして、当該基本テーブル（基本データセット）に向かう方向のエッジについて、処理コストの指標および推定精度の指標を計算してよく、グラフにおいてループ（サイクル）となっている箇所については、双方向に指標を計算してよい。

（処理コストの指標）
各エッジにおける処理コストの指標とは、当該エッジを挟む２つのテーブル（データセット）を統合するための特徴量処理の計算コストの指標である。特徴量処理は、具体的には以下の処理を含んでよい。
・テーブル（データセット）の各列に対して施す前処理（文字列を数字に変換する、タイムスタンプを曜日番号、週番号、時間差などに変換する、など）
・テーブル（データセット）同士で、結合し統合する際の集計処理（キーを介した結合処理、あるキーに対する平均、合計、分散等の集計処理、など）
これらの処理に要する処理時間を示す値（例えば、アルゴリズム計算量における時間量（time complexity））が、処理コストの指標となる。一例として、算出部２４４は、各テーブル（データセット）のメタ情報を用いて、処理コストの指標を算出することができる。

テーブル（データセット）の処理コストの指標は、当該テーブル（データセット）のデータそのものに依存し得る。

一例として、処理コストの指標としては、各エッジを挟む２つのテーブル（データセット）に含まれる説明変数の数に基づく指標を用いることができる。算出部１４４は、２つのテーブル（データセット）の各々に含まれる説明変数の数を参照して、処理コストの指標を算出してよい。一例として、処理コストは、データの量と複雑性および処理の量と複雑性に依存し得る。算出部１４４は、各テーブルの行数、水準数を参照して、処理コストの指標を算出してよい。その他、Tanaka et al., Measurement-based Cost Estimation Method of a Join Operation for an In-Memory Database, 2017に記載の手法等を用いて処理コストの指標を算出してもよい。

なお、処理コストの指標の計算の際、統合されるテーブルと統合するテーブル間の全行数における結合率が結合の方向によって変化するため、処理コストの指標は結合の方向によって変化し得る。

なお、本実施形態では、算出部１４４は、特徴量処理の計算コストが大きいほど、処理コストの指標が大きくなるように計算する場合について説明している。但し、算出部１４４は、特徴量処理の計算コストが大きいほど、処理コストの指標が小さくなるように計算してもよい。

（推定精度の指標）
推定精度の指標とは、各エッジを挟む２つのデータセットが統合されたデータセットにより目的変数を推定した場合に予測される目的変数の推定精度の指標である。他の観点から言えば、推定精度の指標は、推定に用いられる特徴量が含まれるテーブル（データセット）またはテーブル（データセット）間の関係の情報の有用性を定量化した定量指標である。算出部２４４は、各テーブル（データセット）やテーブル（データセット）間のメタ情報を用いて、推定精度の指標を算出することができる。

まず、算出部２４４は、各エッジを挟む２つのテーブル（データセット）が統合されたテーブル（データセット）を作成してよい。一例として、算出部２４４は、上述したように目的変数が結合された一方のテーブル（当該テーブルが基本テーブルの場合には基本テーブルそのもの）に対し、他方のテーブルを統合することにより、統合されたテーブルを作成することができる。

ここで、一例として、推定精度の指標としては、統合されたテーブル（データセット）に含まれる説明変数と目的変数との相関に基づく指標を用いることができる。算出部１４４は、統合されたテーブル（データセット）に含まれる説明変数と目的変数との相関を参照して、推定精度の指標を算出してよい。一例として、算出部１４４による推定精度の指標の算出方法は、推定タスクの種類および特長量のデータ型に依存し得る。

例えば、目的変数の推定が分類を目的とする場合は、算出部１４４は、一例として、以下のように推定精度の指標を算出してもよい。まず、目的変数が数値変数であるときには、算出部１４４は、統合されたテーブル（データセット）に含まれる各説明変数について、当該説明変数と目的変数のＡＵＣ－０．５の値の絶対値を算出し、その合計、平均、最大値、中央値などの代表値を当該テーブル（データセット）の推定精度の指標として算出してもよい。また、目的変数がカテゴリカル変数であるときには、算出部１４４は、各テーブル（データセット）に含まれる各説明変数について、当該説明変数と目的変数のｌｏｇオッズ比の最大値／ｌｏｇオッズ比の最小値を算出し、その合計、平均、最大値、中央値などの代表値を当該テーブル（データセット）の推定精度の指標として算出してもよい。

また例えば、目的変数の推定が回帰を目的とする場合は、算出部１４４は、一例として、以下のように推定精度の指標を算出してもよい。まず、目的変数が数値変数であるときには、算出部１４４は、統合されたテーブル（データセット）に含まれる各説明変数について、当該説明変数と目的変数のスピアマン相関係数を算出し、その合計、平均、最大値、中央値などの代表値を当該テーブル（データセット）の推定精度の指標として算出してもよい。また、目的変数がカテゴリカル変数であるときには、算出部１４４は、各テーブル（データセット）に含まれる各説明変数について、１－（単一変数決定木の予測と目的変数の平均絶対誤差（Mean Absolute Error：ＭＡＥ））／（目的変数の中央値と目的変数の平均絶対誤差）を算出し、その合計、平均、最大値、中央値などの代表値を当該テーブル（データセット）の推定精度の指標として算出してもよい。

その他、Bommert et al.,Benchmark for filter methods for feature selection in high-dimensional classification data, 2020に記載の手法等を用いて推定精度の指標を算出してもよい。

但し、以上の指標はあくまでも一例であり、各エッジを挟む２つのテーブル（データセット）が統合されたテーブル（データセット）を用いて目的変数を推定した場合に予測される目的変数の推定精度を示すものであれば、種々の指標を用いることができる。

なお、推定精度の指標の計算の際、結合の方向によって目的変数が結合されるテーブルが変わるため、推定精度の指標は結合の方向によって変化し得る。

また、本実施形態では、算出部１４４は、目的変数の推定精度が高いほど、推定精度の指標が大きくなるように計算する場合について説明している。但し、算出部１４４は、目的変数の推定精度が高いほど、推定精度の指標が小さくなるように計算してもよい。

ステップＳ２５において、算出部２４４は算出した各指標を標準化してよい。一例として、算出部２４４は、各エッジについて算出した各指標を、指標を算出した全エッジの平均および標準偏差を用いてＺスコアに変換してよい。

ステップＳ２６において、算出部２４４は、計算した各エッジの処理コストの指標および推定精度の指標を、リストＡに含まれる各エッジに追加してリストＢを作成してよい。一例として、算出部２４４は、各エッジの処理コストの指標および推定精度の指標を、新たな辞書としてエッジ毎に追加してよい。リストＢにおける処理コストの指標および推定精度の指標は、各テーブル（データセット）をノードとしたグラフの各エッジの重み付けと言うこともできる。リストＢの一例を、図１２に示す。

そして、ステップＳ２７において、算出部２４４は、リストＢを記憶部１３０に記憶してよい。以上により、算出部２４４は、テーブル（データセット）間の参照関係に基づく、各テーブル（データセット）をノードとしたグラフにおいて、各エッジに、処理コストの指標および推定精度の指標を各エッジの重みとして付与することができる。

（設計情報生成処理）
図１３は、設計情報生成処理を詳細に説明するフロー図である。一例において、生成部１４６は、設計情報生成処理において、ステップＳ３１～Ｓ４０を行ってよい。

ステップＳ３１において、生成部１４６は、記憶部１３０からリストＢを取得してよい。続いて、ステップＳ３２において、生成部１４６は、リストＢを参照して、重み付き有向グラフＧＤを作成してよい。

（重み付き有向グラフ）
一例として、重み付き有向グラフＧＤは、図１４に示すような構造を有してよい。すなわち、重み付き有向グラフＧＤは、テーブル（データセット）に対応するノード（Ｖ）と、テーブル（データセット）間の参照関係に対応するエッジ（Ｅ）とによって構成されてよい。

エッジの向きは、データマート作成時におけるテーブル（データセット）間の結合方向を示しており、ルートに向かうパスを示している。換言すれば、統合されるテーブルから統合先のテーブルへと向かうパスを示している。また、エッジの向きは、参照関係に対応しており、被参照テーブル（データセット）から、当該被参照テーブルを参照するテーブルに向かっていてよい。重み付き有向グラフＧＤのルートは、目的変数を含む基本テーブル（基本データセット）に対応してよい。

また、各エッジには、算出処理において算出された当該エッジの処理コストの指標および推定精度の指標が重み付けられてよい。

ここで、生成部１４６は、対象テーブル（複数のデータセット）をどのように統合するかを示す設計情報として、テーブル（データセット）をノードとし、テーブル（データセット）間の統合関係をエッジとする有向木を示す情報を用いてよい。重み付き有向グラフＧＤに循環的な統合関係（サイクル）が含まれていると、データマート作成時に重み付き有向グラフＧＤに従って各テーブル（データセット）を統合することができないため、生成部１４６は、以下に説明するように、重み付き有向グラフＧＤにおける循環的な統合関係を解消し、重み付き有向グラフＧＤを有向木（ツリー）とすることで、設計情報を生成することができる。

すなわち、生成部１４６は、ステップＳ３３～Ｓ３８において、処理コストの指標および推定精度の指標を参照して、重み付き有向グラフＧＤにおける循環的な統合関係を解消することにより、循環的な統合関係が構築されないように、設計情報において、参照関係を有するテーブル（データセット）間に統合関係を設定してよい。

まず、ステップＳ３３において、生成部１４６は、ハイパーパラメータａを０に設定してよい。

続いて、ステップＳ３４において、生成部１４６は、テーブル（データセット）間の参照関係に対応するエッジの評価値を、当該エッジの処理コストの指標および推定精度の指標（参照関係を有するデータセットに対応する処理コストの指標および推定精度の指標）に応じて算出してよい。一例として、生成部１４６は、以下の式（１）を用いて、エッジＥｉｊのエッジ重み（評価値）を算出してよい。なお、式（１）に示すように、エッジ重み（評価値）は、推定精度の指標が大きいほど小さく、処理コストの指標が小さいほど小さくなっており、ハイパーパラメータａによって、推定精度の指標と処理コストの指標とに重み付けがなされて加算されたものである。

但し、Ｔ：対象テーブルの集合（複数のデータセット）、
ｉ，ｊ∈Ｔ、
ａ：ハイパーパラメータ、
Ｅ_ｉｊ：テーブル（データセット）ｉとｊとの参照関係、
Ｉｖ_ｉｊ：Ｅ_ｉｊにおける推定精度の指標、
Ｃｖ_ｉｊ：Ｅ_ｉｊにおける処理コストの指標、
Ｃｏｎｓｔ．＞＞１、
とする。

続いて、ステップＳ３５において、生成部１４６は、下記式（２）に示すエッジ重みの合計（評価値の合計）ｗが所定の条件を満たす経路を決定し、当該経路に応じて有向木を生成してもよい。所定の条件としては、例えば、最小値とすることができる。一例として、生成部１４６は、経路探索アルゴリズム、例えば、ダイクストラ法を用いて、下記式（２）に示すエッジ重みの合計（評価値の合計）ｗが最小値となるような、ルートから各ノードまでの最短経路和集合を取得してよい。生成部１４６は、最短経路和集合に応じて有向木を生成することにより、循環的な統合関係が構築されないように、参照関係を有するテーブル（データセット）間に統合関係を設定した有向木を生成することができる。生成部１４６は、生成した有向木をリストＣに格納してよい。

但し、Ｔ：対象テーブルの集合（複数のデータセット）、
ｉ，ｊ∈Ｔ、
Ｎ：∈Ｔにおけるテーブル（データセット）数、
ａ：ハイパーパラメータ、
Ｅ_ｉｊ：テーブル（データセット）ｉとｊとの参照関係、
Ｉｖ_ｉｊ：Ｅ_ｉｊにおける推定精度の指標、
Ｃｖ_ｉｊ：Ｅ_ｉｊにおける処理コストの指標、
Ｃｏｎｓｔ．＞＞１、
とする。

図１５は、ステップＳ３５における、有向木の作成の流れの一例を示す図である。生成部１４６は、重み付き有向グラフＧＤ（１）に対し、グラフを二つの向きを持つグラフとして捉え、それぞれの向きにエッジ重みを付与してよい（２）。そして、生成部１４６は、ルートから、ルート以外のノードまでの重みの最短経路をダイクストラ法等の経路探索アルゴリズムにより算出し、当該最短経路を、生成する有向木の枝としてよい（３）。なお、太線は、重みの最短経路を示す。そして、生成部１４６が、ルートから各ノードまでの最短経路の和集合を取ることにより、サイクルが解消された有向木を生成することができる（４）。

そして、ステップＳ３６において、生成部１４６は、ハイパーパラメータａをΔａ増加させてよい。生成部１４６は、Δａを、パラメータ「重み付け変化刻み回数」に基づいて決定してよい。続いて、ステップＳ３７において、生成部１４６は、ハイパーパラメータａが１を超えているか否かを判定し、ハイパーパラメータａが１を超えていれば（ステップＳ３７におけるＹＥＳ）、ステップＳ３８に進み、ハイパーパラメータａが１を超えていなければ（ステップＳ３７におけるＮＯ）、ステップＳ３４～Ｓ３６を再度繰り返す。これにより、生成部１４６は、処理コストの指標および推定精度の指標の重み付けを変化させながらエッジ重み（評価値）を複数回算出し、複数回の各々において算出されたエッジ重み（評価値）を用いて、対象テーブル（複数のデータセット）における統合関係を示す有向木を複数種類決定し、リストＣに追加することができる。

ステップＳ３８において、生成部１４６は、リストＣに追加されている複数種類の有向木の各々に対応する処理コストの指標および推定精度の指標を参照して、設計情報を生成するために用いる有向木を選択してよい。生成部１４６が、処理コストの指標および推定精度の指標の両方を参照して有向木を選択する方法は特に限定されず、例えば、処理コストの指標および推定精度の指標がともに所定の閾値を越えるような有向木を選択してもよいが、以下に説明するパレート最適化処理を行って、有向木を選択してもよい。

パレート最適化処理について、例を挙げて説明する。図１６に、重み付き有向グラフＧＤの一例を示す。Ａ～Ｐはノードを示す。点線で囲まれた部分にサイクルが生じており、生成部１４６は、ステップＳ３７～Ｓ３７を繰り返すことによって、例えば、図１７に示すような、ノードＢ－Ｃ間のエッジを切断した有向木と、図１８に示すような、ノードＣ－Ｄ間のエッジを切断した有向木とを生成したものとする。図１９に、それぞれの有向木における推定精度の指標の合計と、処理コストの指標の合計とを示す表を示す。

図２０は、各有向木の推定精度の指標の合計と、処理コストの指標の合計とをプロットしたグラフである。生成部１４６は、このようなプロットに対し、推定精度の指標の合計が大きい側かつ処理コストの指標の合計が小さい側からフィッティングする曲線を算出してよい。当該フィッティング曲線上に存在するプロットはパレート最適解となるため、生成部１４６は、当該フィッティング曲線上に存在し、かつ、パラメータ「処理コストの上限」以下であるプロットに対応する有向木を、設計情報を生成するために選択することができる。

また、生成部１４６は、パレート最適解に限らず、処理コストの指標が所定の範囲内（例えば、閾値以下）のものから、少なくとも推定精度の指標に基づいて複数のデータセットにおける統合関係を選択してよい。一例として、生成部１４６は、パラメータ「処理コストの上限」以下であるプロットのうち、推定精度の指標が最大となるプロットに対応する有向木を、設計情報を生成するために選択してもよい。これにより、生成部１４６は、処理コストの指標および推定精度の指標の両方が好ましい値となる有向木を、設計情報を生成するために選択することができる。

（実データの結果例）
図２１～２３は、実際に所定の対象テーブル（データセット）を用いて、一連の処理を行った場合の結果の例を示す図である。ステップＳ３２において生成部１４６が生成した、推定精度の指標および処理コストの指標が重み付けされた重み付き有向グラフＧＤの例を図２１に示す。このような重み付き有向グラフＧＤに対して、生成部１４６が、ステップＳ３３～Ｓ３７の処理を行い、生成した複数の有向木の推定精度の指標の合計および処理コストの指標の合計をプロットしたものの例を図２２に示す。図２２において、折れ線で示したのがパレート最適解である。さらにステップＳ３８を行い、生成部１４６が選択した有向木の例を図２３に示す。図２１～２３に示す例では、生成部１４６は、パレート最適解に対応する有向木を選択することができた。

続いて、ステップＳ３９において、生成部１４６は、ステップＳ３８において選択した有向木について末端の剪定の要否を判定してもよい。すなわち、生成部１４６は、削除しても推定精度の指標の合計があまり変わらず、処理コストの指標の合計が減少するような統合関係を削除してよい。一例において、生成部１４６は、有向木から、末端の統合関係を削除した場合の処理コストの指標の合計および推定精度の指標の合計を算出し、当該処理コストの指標および推定精度の指標を参照して、当該末端の統合関係を削除するか否かを決定してよい。

生成部１４６がステップＳ３８において選択した有向木の一例を、図２４に示す。ステップＳ３９では、生成部１４６は、図２５に示すような末端の統合関係を削除した場合について、処理コストの指標の合計および推定精度の指標の合計を算出し、剪定の要否を判定する。

一例として、生成部１４６は、削除対象を変えながら、ステップＳ３８において選択した有向木から、末端の統合関係を削除した場合の処理コストの指標の合計および推定精度の指標の合計を取得し、各削除対象を削除するか否かを判定してもよい。生成部１４６は、削除対象として、有向木の末端から１つめの統合関係をそれぞれ選択してもよいし、有向木の根から、パラメータ「剪定の対象深さ」が示す数のノードを経由する統合関係をそれぞれ選択してもよい。すなわち、剪定の対象深さとは、基本テーブル（またはテーブルから構成された木の根）から、剪定対象となる葉のテーブルまでの深さ（経由するノードの数）を示す。このパラメータを調整することにより、データマートのシンプルさの度合いを調整することができる。

一例として、生成部１４６は、ある末端の統合関係を削除した場合に処理コストの指標の合計の減少量が閾値を越え、推定精度の指標の合計の減少量が閾値以下となる場合に、当該ある末端の統合関係を削除すると判定してもよい。

図２６は、ステップＳ３８におけるパレート最適解から各削除対象候補を削除した場合の推定精度の指標の合計と、処理コストの指標の合計とをプロットしたグラフの一例である。なお、図２６において、Ｘは、ステップＳ３８におけるパレート最適解のプロットを示し、Ｘ以外の灰色のプロットは、当該パレート最適解から各削除対象候補を削除した場合のプロットを示す。Ｘ以外の灰色のプロットのうち、Ｙによって示されるプロットは、Ｘによって示されるプロットと比べて、推定精度の指標の合計があまり変わらず、処理コストの指標の合計が減少している。そのため、生成部１４６は、Ｙによって示されるプロットに対応する削除対象候補を剪定してもよい。

ステップＳ４０では、生成部１４６は、ステップＳ３９における判定結果に応じて剪定を行った有向木の各ノードに、表Ａの各種メタ情報を付与した表Ｃを作成し、設計情報として、記憶部１３０に記憶してよい。表Ｃの一例を、図２７に示す。以上により、生成部１４６は、処理コストの指標および推定精度の指標を参照して、対象テーブル（複数のデータセット）をどのように統合するかを示す設計情報を生成することができる。

なお、上記では、ステップＳ３２において、有向グラフを作成する構成について説明したが、ステップＳ３２では、無向グラフを作成し、ステップＳ３３～Ｓ３８においてサイクルを削除した後にエッジの向き付けを行ってもよい。

（データマート生成処理）
図２８は、データマート生成処理を詳細に説明するフロー図である。一例において、生成部１４６は、データマート生成処理において、ステップＳ４１～Ｓ４８を行ってよい。

ステップＳ４１において、生成部１４６は、記憶部１３０から表Ａおよび表Ｃを取得してよい。続いて、ステップＳ４２において、生成部１４６は、表Ａおよび表Ｃに示される各テーブルに対して、欠損補完、エンコード等の前処理を行ってよい。

続いて、ステップＳ４３において、生成部１４６は、表Ｃに示される、基本テーブル以外のテーブルから処理対象のテーブルを選択し、表Ｃを参照して、基本テーブルと処理対象のテーブルとの参照関係の種類を判定してよい。当該参照関係が「一対多」であった場合には、ステップＳ４４に進み、当該参照関係が「一対一」であった場合には、ステップＳ４５に進む。

ステップＳ４４では、生成部１４６は、基本テーブルの主キーと処理対象のテーブルの外部キーが一対一になるよう、処理対象のテーブルのデータを集計し、代表値（合計値、平均値、中央値、最頻値、分散、最大、最小等の統計的集計値）を算出し、基本テーブルに結合するためのデータとして使用してよい。

ステップＳ４５において、生成部１４６は、処理対象のテーブルを基本テーブルに結合してよい。表Ｃに示される基本テーブル以外の全てのテーブルが基本テーブルに結合された場合（ステップＳ４６におけるＹＥＳ）、ステップＳ４７に進み、そうではない場合には（ステップＳ４６におけるＮＯ）、ステップＳ４３に戻る。

ステップＳ４７において、生成部１４６は、基本テーブルに重複が生じていないか確認し、重複が生じていた場合には削除を行ってよい。

そして、ステップＳ４８において、生成部１４６は、基本テーブルをデータマートとして出力してよい。

自動モデリング装置３００は、生成部１４６が作成したデータマートに基づいて推定モデルを訓練し、その精度を測定してもよい。

＜本実施形態の効果＞
以上のように、本実施形態の一態様によれば、自動で特徴量（データマート）の設計情報を計算し、作成することができる。

また、本実施形態の一態様によれば、データセットをデータマートに統合するための処理コストの指標、および、データセットを用いた目的変数の推定精度の指標を算出し、当該指標に基づいて、有用なデータマートを作成することができる。

また、本実施形態の一態様によれば、上述した指標に対し、グラフ理論に基づく経路探索アルゴリズムや、パレート最適アルゴリズムを適用して、計算時間と予測に有用な情報のトレードオフをバランスする設計情報を出力することができる。

以上のように、本実施形態によれば、データマート作成のための計算コストおよび作成されるデータマートの有用性を考慮したデータマートの自動生成技術を提供することができる。

〔ハードウェア構成およびソフトウェアによる実現例〕
情報処理装置１００の制御ブロック（特に主制御部１４０に含まれる各部等）は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。後者の場合、情報処理装置１００は、図２９に示すようなコンピュータ（電子計算機）を用いて構成されてよい。

図２９は、情報処理装置１００として利用可能なコンピュータ９１０の構成を例示したブロック図である。コンピュータ９１０は、バス９１１を介して互いに接続された演算装置９１２と、主記憶装置９１３と、補助記憶装置９１４と、入出力インターフェース９１５とを備えている。演算装置９１２、主記憶装置９１３、および補助記憶装置９１４は、それぞれ、例えばＣＰＵ、ＲＡＭ（random access memory）、ソリッドステートドライブまたはハードディスクドライブであってもよい。入出力インターフェース９１５には、ユーザがコンピュータ９１０に各種情報を入力するための入力装置９２０、および、コンピュータ９１０がユーザに各種情報を出力するための出力装置９３０が接続される。入力装置９２０および出力装置９３０は、コンピュータ９１０に内蔵されたものであってもよいし、コンピュータ９１０に接続された（外付けされた）ものであってもよい。例えば、入力装置９２０は、ボタン、キーボード、マウス、タッチセンサなどであってもよく、出力装置９３０は、ランプ、ディスプレイ、プリンタ、スピーカなどであってもよい。また、タッチセンサとディスプレイとが一体化されたタッチパネルのような、入力装置９２０および出力装置９３０の双方の機能を有する装置を適用してもよい。そして、通信インターフェース９１６は、コンピュータ９１０が外部の装置と通信するためのインターフェースである。

補助記憶装置９１４には、コンピュータ９１０を、情報処理装置１００として動作させるための情報処理プログラムが格納されている。そして、演算装置９１２は、補助記憶装置９１４に格納された上記情報処理プログラムを主記憶装置９１３上に展開して該情報処理プログラムに含まれる命令を実行することによって、コンピュータ９１０を、情報処理装置１００が備える各部として機能させる。なお、補助記憶装置９１４が情報処理プログラム等の情報の記録に用いる記録媒体は、コンピュータ読み取り可能な「一時的でない有形の媒体」であればよく、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブル論理回路などであってもよい。

また、コンピュータ９１０の外部の記録媒体に記録されているプログラム、あるいは任意の伝送媒体（通信ネットワークや放送波等）を介してコンピュータ９１０に供給されたプログラムを用いてコンピュータ９１０を機能させる構成を採用してもよい。そして、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

〔付記事項〕
本明細書に記載の発明の一部は以下の付記のようにも記載されうるが、以下には限られない。

（付記１）
複数のデータセットを統合して、目的変数を推定する学習モデルの入力のために用いられるデータマートを生成する情報処理装置であって、
前記複数のデータセットから選択される２つのデータセット毎に、当該２つのデータセットを統合するための処理コストの指標、および、当該２つのデータセットが統合されたデータセットによる前記目的変数の推定精度の指標を算出する算出部と、
前記処理コストの指標および前記推定精度の指標を参照して、前記複数のデータセットをどのように統合するかを示す設計情報を生成する生成部と、を備える情報処理装置。

（付記２）
１以上のコンピュータが、複数のデータセットを統合して、目的変数を推定する学習モデルの入力のために用いられるデータマートを生成する情報処理方法であって、
前記１以上のコンピュータが、
前記複数のデータセットから選択される２つのデータセット毎に、当該２つのデータセットを統合するための処理コストの指標、および、当該２つのデータセットが統合されたデータセットによる前記目的変数の推定精度の指標を算出し、
前記処理コストの指標および前記推定精度の指標を参照して、前記複数のデータセットをどのように統合するかを示す設計情報を生成することを含む、情報処理方法。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

情報処理装置１００
通信部１１０
メモリ１２０
記憶部１３０
主制御部１４０
準備部１４２
算出部１４４
生成部１４６

Claims

複数のデータセットを統合して、目的変数を推定する学習モデルの入力のために用いられるデータマートを生成する情報処理装置であって、
前記複数のデータセットから選択される２つのデータセット毎に、当該２つのデータセットを統合するための処理コストの指標、および、当該２つのデータセットが統合されたデータセットによる前記目的変数の推定精度の指標を算出する算出部と、
前記処理コストの指標および前記推定精度の指標を参照して、前記複数のデータセットをどのように統合するかを示す設計情報を生成する生成部と、を備える情報処理装置。
前記算出部は、各データセットに含まれる説明変数の数を参照して、前記処理コストの指標を算出する、請求項１に記載の情報処理装置。
前記算出部は、各データセットに含まれる説明変数と前記目的変数との相関を参照して、前記推定精度の指標を算出する、請求項１または２に記載の情報処理装置。
前記生成部は、前記複数のデータセットから前記設計情報を参照して前記データマートを生成する、請求項１～３のいずれか一項に記載の情報処理装置。
前記複数のデータセットに含まれる少なくとも１つのデータセットは、他のデータセットとの参照関係を有しており、
前記算出部は、前記参照関係を有するデータセットについて、前記処理コストの指標および前記推定精度の指標を算出する、請求項１～４のいずれか一項に記載の情報処理装置。
前記生成部は、循環的な統合関係が構築されないように、前記参照関係を有するデータセット間に統合関係を設定する、請求項５に記載の情報処理装置。
前記算出部は、前記参照関係に対応する評価値を、当該参照関係を有するデータセットに対応する前記処理コストの指標および前記推定精度の指標に応じて算出し、
前記生成部は、前記評価値の合計が所定の条件を満たすように、前記複数のデータセットにおける統合関係を決定する、請求項６に記載の情報処理装置。
前記生成部は、経路探索アルゴリズムを用いて、前記複数のデータセットにおける統合関係を決定する、請求項７に記載の情報処理装置。
前記算出部は、前記処理コストの指標および前記推定精度の指標の重み付けを変化させながら前記評価値を複数回算出し、
前記生成部は、前記複数回の各々において算出された前記評価値を用いて、前記複数のデータセットにおける統合関係を複数種類決定し、当該複数種類の統合関係の各々に対応する前記処理コストの指標および前記推定精度の指標を参照して、前記複数のデータセットにおける統合関係を選択する、請求項７または８に記載の情報処理装置。
前記生成部は、前記複数種類の統合関係のうち、前記処理コストの指標が所定の範囲内のものから、少なくとも前記推定精度の指標に基づいて前記複数のデータセットにおける統合関係を選択する、請求項９に記載の情報処理装置。
前記生成部は、前記複数種類の統合関係からパレート最適解を選択する、請求項９または１０に記載の情報処理装置。
前記生成部は、設定した前記統合関係から、末端の統合関係を削除した場合の、前記複数のデータセットにおける統合関係に対応する前記処理コストの指標および前記推定精度の指標を参照して、当該末端の統合関係を削除するか否かを決定する、請求項６～１１のいずれか一項に記載の情報処理装置。
前記生成部は、削除対象を変えながら、設定した前記統合関係から、末端の統合関係を削除した場合の、前記複数のデータセットにおける統合関係に対応する前記処理コストの指標および前記推定精度の指標を取得し、各削除対象を削除するか否かを判定する、請求項１２に記載の情報処理装置。
前記設計情報は、前記データセットをノードとし、前記データセット間の統合関係をエッジとする有向木を示す情報である、請求項１～１３のいずれか一項に記載の情報処理装置。
前記データセットは、関連付け情報によって互いに関連付けられた複数のデータセットを格納するデータベースのデータセットである、請求項１～１４のいずれか一項に記載の情報処理装置。
前記データセットは、リレーショナルデータベースのテーブルである、請求項１～１５のいずれか一項に記載の情報処理装置。
１以上のコンピュータが、複数のデータセットを統合して、目的変数を推定する学習モデルの入力のために用いられるデータマートを生成する情報処理方法であって、
前記１以上のコンピュータが、
前記複数のデータセットから選択される２つのデータセット毎に、当該２つのデータセットを統合するための処理コストの指標、および、当該２つのデータセットが統合されたデータセットによる前記目的変数の推定精度の指標を算出し、
前記処理コストの指標および前記推定精度の指標を参照して、前記複数のデータセットをどのように統合するかを示す設計情報を生成することを含む、情報処理方法。
請求項１に記載の情報処理装置としてコンピュータを機能させるためのプログラムであって、前記算出部、および前記生成部としてコンピュータを機能させるためのプログラム。