JP7098327B2

JP7098327B2 - 情報処理システム、関数作成方法および関数作成プログラム

Info

Publication number: JP7098327B2
Application number: JP2017552365A
Authority: JP
Inventors: 幸貴楠村; 遼平藤巻
Original assignee: ドットデータインコーポレイテッド
Priority date: 2015-11-25
Filing date: 2016-11-14
Publication date: 2022-07-11
Anticipated expiration: 2036-11-14
Also published as: JPWO2017090475A1; EP3382572A1; CN108369584A; WO2017090475A1; CN108369584B; EP3382572A4; US20180373764A1; US10885011B2

Description

本発明は、学習や予測に用いる特徴量を生成するための情報処理システム、関数作成方法および関数作成プログラムに関する。

データマイニングは、大量の情報の中から、これまで未知であった有用な知見を見つける技術である。データマイニングを具体例に適用するプロセスは、下記に示す３つの段階に大別できる。

１つ目の段階（工程）は、「前処理段階」である。「前処理段階」は、データマイニングアルゴリズムが効果的に機能するようにするために、データマイニングアルゴリズムに従って動作する装置などに入力する属性（feature ）を加工することにより、その属性を新たな属性に変換する段階である。

２つ目の段階は、「分析処理段階」である。「分析処理段階」は、データマイニングアルゴリズムに従って動作する装置などに属性を入力し、係るデータマイニングアルゴリズムに従って動作する装置などの出力である分析結果を得る段階である。

３つめの段階は、「後処理段階」である。「後処理段階」は、分析結果を、見やすいグラフや他の機器に入力するための制御信号等に変換する段階である。

このようにデータマイニングにより有用な知見を得るためには、「前処理段階」が適切に行われる必要がある。「前処理段階」をどのような手順で実行すべきかを設計する作業は、分析技術の熟練技術者（データサイエンティスト）の知識に依存する。前処理段階の設計作業は、情報処理技術によって十分には支援されておらず、未だ熟練技術者の手作業による試行錯誤に依存する部分が大きい。

未知である有用な知見を見つけるためには、より多くの属性の候補を生成することが重要である。具体的には、予測対象である変数（目的変数）に影響を及ぼし得る多くの属性（説明変数）の候補を生成することが重要である。このような多くの候補を生成することにより、予測に役立つ属性がこの候補の中に含まれる可能性を高めることができるからである。

例えば、特許文献１には、複数の属性を生成する方法が記載されている。特許文献１に記載された方法では、身長や体重、ビールの年間消費量の値などの属性を複数人の識別子と対応付けた１つのデータセットから、複数の属性を選択して新たな属性を生成する。

国際公開第２０１５／０４５３１８号

特許文献１に記載されている方法では、例示するデータセットに代表される１つの表データを利用して複数の属性の候補が生成される。一方、本発明者は、多くの属性の候補を生成するためには、１つの表データだけでなく、複数の表データを利用することが好ましいと考えた。様々な表データを利用することで、より多くの属性の候補を生成できるからである。なお、属性は、特徴量ということもある。

しかし、１つの予測対象に対し、全ての表データの粒度が同一になることは稀である。すなわち、各表データは、収集されるデータの性質に応じてその内容が異なるため、予測対象ごとに複数の対応する行を有する表データや、予測対象との対応関係が自明でない表データも存在する。

そのため、複数の表データを単純に利用して特徴量を生成することは容易ではない。また、熟練技術者が、生成しようとする特徴量ごとに加工方法を定義しようとした場合、非常に手間がかかってしまうという技術的課題がある。このような状況に鑑みると、複数の表データを利用する場合でも、効率よく多数の特徴量の候補を生成できることが望まれる。

そこで、本発明は、複数の表データを利用して効率よく多数の特徴量の候補を生成できる情報処理システム、関数作成方法および関数作成プログラムを提供することを目的とする。

本発明による情報処理システムは、目的変数を含む第一の表、および、第二の表を記憶する表記憶部と、第一の表および第二の表から目的変数に影響を及ぼし得る変数である特徴量を生成するための特徴量生成関数を作成する関数作成部とを備え、関数作成部が、第一の表と第二の表の行の対応条件を表わす対応条件要素、および、第二の表に含まれるデータを集約する集約方法を表わす集約方法要素の組合せを生成することで、複数の特徴量生成関数を作成することを特徴とする。また、本発明による情報処理装置は、目的変数を含む第一の表、および、第二の表から目的変数に影響を及ぼし得る変数である特徴量を生成するための複数の特徴量生成関数を、予め用意されたテンプレートを用いて生成する関数作成部と、第一の表および第二の表に対して複数の特徴量生成関数を適用して複数の特徴量を生成する特徴量生成部とを備え、テンプレートが情報が代入される複数のパラメータを含み、特徴量生成関数が、パラメータに代入する情報の組み合わせと、テンプレートとに基づいて生成され、生成された複数の特徴量が、目的変数の値を予測するためのモデルを学習する際に、説明変数の候補として用いられることを特徴とする。

本発明による関数作成方法は、目的変数を含む第一の表、および、第二の表からその目的変数に影響を及ぼし得る変数である特徴量を生成するための特徴量生成関数を作成し、特徴量生成関数の作成において、第一の表と第二の表の行の対応条件を表わす対応条件要素、および、第二の表に含まれるデータを集約する集約方法を表わす集約方法要素の組合せを生成することで、複数の特徴量生成関数を作成することを特徴とする。

本発明による関数作成プログラムは、コンピュータに、目的変数を含む第一の表、および、第二の表からその目的変数に影響を及ぼし得る変数である特徴量を生成するための特徴量生成関数を作成する関数作成処理を実行させ、関数作成処理で、第一の表と第二の表の行の対応条件を表わす対応条件要素、および、第二の表に含まれるデータを集約する集約方法を表わす集約方法要素の組合せを生成することで、複数の特徴量生成関数を作成させることを特徴とする。

本発明によれば、上述した技術的手段により、複数の表データを利用して効率よく多数の特徴量の候補を生成できるという技術的効果を奏する。

本発明による情報処理システムの第１の実施形態の構成例を示すブロック図である。各要素が示す処理の例を示す説明図である。第一の実施形態の情報処理システムの動作例を示すフローチャートである。特徴量生成関数の作成に用いる情報の例を示す説明図である。第一の実施形態で特徴量生成関数を作成する動作例を示すフローチャートである。ＳＱＬ文を生成する処理の例を示す説明図である。本発明による情報処理システムの第２の実施形態の構成例を示すブロック図である。複数の条件式を生成する処理の例を示す説明図である。第二の実施形態で特徴量生成関数を作成する動作例を示すフローチャートである。本発明による情報処理システムの概要を示すブロック図である。少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。

以下、本発明の実施形態を図面を参照して説明する。以下の説明では、単にデータと記載した場合、表に含まれる各セルの内容を表わし、表データと記載した場合、表に含まれるデータ全体を表わす。

実施形態１．
図１は、本発明による情報処理システムの第１の実施形態の構成例を示すブロック図である。本実施形態の情報処理システムは、記憶部１１と、入力部１２と、関数作成部１３とを備えている。

記憶部１１は、予測対象（すなわち、目的変数）の列を含む表（以下、第一の表と記すこともある。）、および、第一の表に含まれるデータの集合（以下、第一表データと記すこともある。）を記憶する。以下の説明では、第一の表をターゲットテーブルと記す。また、記憶部１１は、第一の表と粒度の異なる表（以下、第二の表と記すことある。）、および、第二の表に含まれるデータの集合（以下、第二表データと記すこともある。）を記憶する。以下の説明では、この第二の表をソーステーブルと記す。

第一の表および第二の表は、データの属性を表わす列の組合せにより定義される。また、各表は、各属性の値を示すデータを組み合わせた１つ以上の行を含む。ここで、ターゲットテーブル（第一の表）と粒度が異なる表とは、ターゲットテーブルの各行に対して、行が１対１に対応していない表を意味する。なお、後述する特徴量生成関数を生成する際、記憶部１１は、第一表データおよび第二表データを記憶していなくてもよい。

入力部１２は、後述する関数作成部１３が特徴量生成関数を作成するために必要な各種情報を入力する。入力部１２は、通信ネットワーク（図示せず）を介して受信する情報を入力してもよく、これらの情報を記憶する記憶装置（図示せず）から情報を読み取って入力してもよい。また、この記憶装置の機能を記憶部１１が兼ねていてもよい。なお、入力部１２が入力する内容を、関数作成部１３の機能に則して説明する。

関数作成部１３は、入力部１２に入力された情報を用いて特徴量生成関数を生成する。特徴量生成関数は、第一表データおよび第二表データから目的変数に影響を及ぼし得る変数である特徴量を生成するために用いられる関数である。なお、ソーステーブルの数は１つに限られず、２つ以上であってもよい。生成された特徴量は、機械学習を用いてモデルを生成する際の説明変数の候補になる。言い換えると、本実施形態で生成される特徴量生成関数を用いることで、機械学習を用いてモデルを生成する際の説明変数の候補を自動的に生成することが可能になる。

関数作成部１３は、３つの要素の組合せを生成することで、複数の特徴量生成関数を作成する。第一の要素は、第二の表に含まれる行の抽出条件を表わす要素である。以下の説明では、第一の要素を抽出条件要素と記すこともある。具体的には、第一の要素が示す抽出条件は、ソーステーブル（第二の表）に対する条件式として定義される。以下、第一の要素に基づいて第二の表から行を抽出する処理を「filter」と記載する場合がある。また、この条件式のリストを「Ｆリスト」と記載する場合がある。

抽出条件は任意であり、例えば、指定された列の値と同じ（大きいまたは小さい）か否か判断する条件が挙げられる。

第二の要素は、第一表データと第二表データの行の対応条件を表わす要素である。以下の説明では、第二の要素を対応条件要素と記すこともある。具体的には、第二の要素は、ターゲットテーブル（第一の表）の列とソーステーブル（第二の表）の列を対応付ける列のペアとして定義される。以下、第二の要素に基づいて各テーブルの列を対応付ける処理を「map 」と記載する場合がある。また、この列のペアのリストを「Ｍリスト」と記載する場合がある。また、map による各表の列の対応付けは、対応付けられた列で複数の表を１つの表に結合（join）することとも言える。

第三の要素は、第二の表に含まれる各列のデータを目的変数ごとに集約する集約方法を表わす要素である。以下の説明では、第三の要素を集約方法要素と記すこともある。具体的には、第三の要素は、ソーステーブル（第二の表）の列に対する集約関数として定義される。以下、第三の要素が示す方法により各列のデータを集約する処理を「reduce」と記載する場合がある。また、この集約関数のリストを「Ｒリスト」と記載する場合がある。第１の実施形態において、「目的変数ごとに集約する」とは、第二の表に含まれる列のうち、第一の要素（すなわち、抽出条件要素）に基づいて抽出され、かつ、第二の要素（すなわち、対応条件要素）に基づいて第一の表内の同じ列に対応付けられたデータを集約する、ことを意味する。

集約方法は任意であり、例えば、列の総数、最大値、最小値、平均値、中央値、分散などが挙げられる。また、列の総数の集計は、重複データを除外する、または、重複データを除外しない、のいずれかの観点で行われてもよい。

図２は、各要素が示す処理の例を示す説明図である。図２に示す例では、ターゲットテーブルＴとソーステーブルＳがそれぞれ１つずつ存在し、ｋｅｙ列が両テーブルを対応付ける列である。また、ターゲットテーブルのＹ列に目的変数が含まれる。図２におけるＳ_１は、ソーステーブルＳ内の列の集合のサブセットである。

filterは、ソーステーブルＳ内の列の集合のサブセットを選び出す処理と言える。map は、ターゲットテーブルＴの行とソーステーブルＳの行との対応関係をとる処理である。reduceは、ターゲットテーブルＴの各行に対してmap により対応付けられたソーステーブルＳの列のうちfilterによって選び出された行の集合の値を用いて、なんらかの集約演算を行うことにより１つの値を導出する処理であり、その導出には任意の集約関数が用いられる。

また、この３つの要素をパラメータとする特徴量生成関数は、以下の処理に基づいて特徴量を生成する関数として定義される。まず、第一の要素で指定されたソーステーブルの抽出条件に基づき、ソーステーブルから１つ以上の行が抽出される（filter）。

次に、第二の要素で指定された対応条件を介して、ターゲットテーブルとソーステーブルとが対応付けられる（Map ）。ターゲットテーブルとソーステーブルとを対応付ける際、対応条件で示す列の値が完全一致する行同士だけでなく、指定された類似度により対応付けられてもよい。例えば、日時データで対応を取る際に、日時が完全に一致する行同士だけでなく、二つの行の日時の差が所定の範囲内（例えば、６時間以内）であれば対応付ける、という例が挙げられる。また、ターゲットテーブルとソーステーブルにそれぞれ、経度・緯度の列があり、これらを用いて対応条件を記載する際に、２地点の距離が所定の範囲内（例えば、５Ｋｍ以内）、といった距離に基づく対応付けを行う例も挙げられる。

次に、第三の要素で指定された集約方法に基づいて、ターゲットテーブルの各行に対してfilterによって選び出された行のうち、map により対応付けられた行を集約する（reduce）。この集約により、ターゲットテーブルの各行に対して得られた値を含むベクトルが特徴量とされる。

関数作成部１３は、生成した特徴量生成関数を利用して、複数の特徴量を生成してもよい。すなわち、関数作成部１３が、特徴量を生成する特徴量生成部として機能してもよい。

記憶部１１は、例えば、磁気ディスク装置により実現される。また、入力部１２と、関数作成部１３とは、プログラム（関数作成プログラム）に従って動作するコンピュータのＣＰＵによって実現される。例えば、プログラムは、記憶部１１に記憶され、ＣＰＵは、そのプログラムを読み込み、プログラムに従って、入力部１２および関数作成部１３として動作してもよい。また、本情報処理システムの機能がＳａａＳ（Software as a Service ）形式で提供されてもよい。

また、入力部１２と、関数作成部１３とは、それぞれが専用のハードウェアで実現されていてもよい。入力部１２と、関数作成部１３とは、それぞれが汎用または専用の回路（circuitry ）により実現されていてもよい。ここで、汎用または専用の回路（circuitry ）は、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。また、各装置の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。

次に、本実施形態の情報処理システムの動作を説明する。図３は、本実施形態の情報処理システムの動作例を示すフローチャートである。入力部１２は、特徴量生成関数の作成に必要な３つの要素を入力する（ステップＳ１１）。そして、関数作成部１３は、入力された３つの要素から特徴量生成関数を作成する（ステップＳ１２）。なお、入力される３つの要素には、記憶部１１に記憶されたターゲットテーブル（第一の表）または／およびソーステーブル（第二の表）の列が指定される。

ここで、関数作成部１３が特徴量生成関数を作成する手順を具体的に説明する。図４は、特徴量生成関数の作成に用いる情報の例を示す説明図である。図４に示す例では、予測対象の変数（目的変数）が顧客の解約の有無を示す変数であり、ターゲットテーブル（Ｔ）が顧客を識別する顧客ＩＤと解約の有無を示す変数とを含む表とする。また、ソーステーブル（Ｓ）は、顧客の通話記録（具体的には、通話時刻、通話方向、通話タイプおよび通話時間）を含む表とする。

filterで利用するＦリストは、１８の条件式の候補を含むとする。また、map で利用するＭリストは、ターゲットテーブルとソーステーブルを顧客ＩＤで対応付ける１つの条件を含むとする。また、reduceで利用するＲリストは、通話時間または時刻に関する６つの集約関数を含むとする。

なお、Ｆリスト、ＭリストおよびＲリストは、機械で自動的に作成されてもよく、人間によって手動で作成されてもよい。ここでは、図４に例示するＦリスト、ＭリストおよびＲリストが予め作成されているものとする。

図５は、本実施形態の関数作成部１３が特徴量生成関数を作成する動作例を示すフローチャートである。まず、関数作成部１３は、Ｆリスト、ＭリストおよびＲリストから、それぞれ１つずつ要素を選択し、各要素の組合せを生成する（ステップＳ２２）。図４に示す例では、Ｆリストに１８通りの条件式、Ｍリストに１通りの対応条件、および、Ｒリストに６通りの集約方法が含まれる。そのため、これらの各リストの要素から１０８通りの組合せが生成される。

次に、関数作成部１３は、生成された組合せに基づいて特徴量生成関数を作成する（ステップＳ２３）。具体的には、関数作成部１３は、生成された組合せに含まれる条件や集約方法を、表データの操作や定義を行う問合せ言語の形式に変換する。関数作成部１３は、例えば、問合せ言語としてＳＱＬを用いてもよい。

このとき、関数作成部１３は、ＳＱＬ文を生成するテンプレートに抽出条件、対応条件および集約方法を適用して特徴量生成関数を作成してもよい。具体的には、条件や集約方法を当て嵌めてＳＱＬ文を生成するためのテンプレートを予め用意しておき、関数作成部１３は、生成された組合せに含まれる条件や集約方法を順次テンプレートに適用してＳＱＬ文を作成してもよい。この場合、特徴量生成関数は、ＳＱＬ文として定義され、Ｆリスト、ＭリストおよびＲリストからそれぞれ選択される３つの要素が、ＳＱＬ文を生成するためのパラメータに対応する。

図６は、テンプレートにあてはめてＳＱＬ文を生成する処理の例を示す説明図である。図６に示す例では、テンプレートＴｅｍｐが予め用意される。関数作成部１３は、テンプレートＴｅｍｐの下線で示す部分に、生成された組合せに含まれる条件および集約方法を適用する。その結果、組合せ数の特徴量生成関数が生成される。

例えば、Ｆリストから「通話方向＝ＩＮ」という条件式、Ｍリストから「顧客ＩＤ同士で対応づけ」という対応条件、Ｒリストから「通話時間の列をカウント」という集約方法を選択した組合せが生成されたとする。この場合、この組合せをテンプレートＴｅｍｐに適用すると、図６に例示する問合せ文Ｑ１が生成される。この問合せ文Ｑ１によって作成される特徴量は、かかって来た通話または届いたメッセージの総数を表わす。

他にも、例えば、Ｆリストから「通話方向＝ＯＵＴＡＮＤタイプ＝ｃａｌｌ」という条件式、Ｍリストから「顧客ＩＤ同士で対応づけ」という対応条件、Ｒリストから「時刻が最大」という集約方法を選択した組合せが生成されたとする。この場合、この組合せをテンプレートＴｅｍｐに適用すると、図６に例示する問合せ文Ｑ２が生成される。この問合せ文Ｑ２によって作成される特徴量は、音声通話をかけた時刻の最新値を表わす。

上記に例示する以外にも、様々な特徴量を生成することが可能である。例えば、Ｆリストから「タイプ＝ｃａｌｌＡＮＤ通話方向＝ＯＵＴＡＮＤＨＯＵＲ（時刻）＜７」という条件式、Ｍリストから「顧客ＩＤ同士で対応づけ」という対応条件、Ｒリストから「通話時間の平均」という集約方法を選択した組合せが生成されたとする。この組合せによって作成される特徴量は、７時前にかけられた音声通話の平均時間を表わす。

また、Ｆリストから「タイプ＝ｃａｌｌＡＮＤ通話方向＝ＩＮ」という条件式、Ｍリストから「顧客ＩＤ同士で対応づけ」という対応条件、Ｒリストから「通話時間の分散」という集約方法を選択した組合せが生成されたとする。この組合せによって作成される特徴量は、かかって来た通話における通話時間のばらつき度合いを表わす。

以上のように、本実施形態では、関数作成部１３が、３つの要素の組合せを生成することで、ターゲットテーブル（第一の表）およびソーステーブル（第二の表）から特徴量を生成するための特徴量生成関数を生成する。すなわち、本実施形態では、ソーステーブルおよびターゲットテーブルから特徴量生成する関数を、filter、map 、reduceという３つの要素の組み合わせで定義する。この３つの要素の組み合わせで特徴量生成関数を定義すると、たくさんの種類の特徴量生成関数を単純な要素の組み合わせとして表現することができる。よって、複数の表データを利用して効率よく多数の特徴量の候補を生成できる。例えば、図４に示す例の場合、１８の条件式、１つの対応条件、および、６つの集約方法を定義するだけで、１０８種類の特徴量生成関数を容易に生成することが可能になる。また、一度作成したfilter、map 、およびreduceの定義は再利用できるため、特徴量生成関数を生成する工数自体も削減できるという効果も得られる。

実施形態２．
次に、本発明による情報処理システムの第２の実施形態を説明する。第１の実施形態では、予め第一の要素が示す条件式を全て用意しておく場合について説明した。例えば、図４では、１８の条件式をＦリストに用意しておく場合を例示した。本実施形態では、第一の要素が示す条件式を効率的に多数作成する方法を説明する。

図７は、本発明による情報処理システムの第２の実施形態の構成例を示すブロック図である。なお、第１の実施形態と同様の構成については、図１と同一の符号を付し、説明を省略する。本実施形態の情報処理システムは、記憶部１１と、入力部１２と、関数作成部１３と、パラメータ生成部１４とを備えている。すなわち、本実施形態の情報処理システムは、パラメータ生成部１４をさらに備えている点において、第１の実施形態と異なる。

パラメータ生成部１４は、第一の要素が示す抽出条件に含まれる条件式（以下、原子条件式と記す。）を組み合わせて、複数の条件式を生成する。組み合わせる条件式の数は、予め定められる。以下、ＡＮＤで繋ぐ原子条件式の最大数のことを「条件式の最大長」と記すこともある。なお、原子条件式は、単一の論理式で表されていてもよく、複数の論理式を演算子で結合させた論理式で表されていてもよい。

図８は、複数の条件式を生成する処理の例を示す説明図である。図８に示す例では、Ｆリストが６つの原子条件式を含むものとし、条件式の最大長は２であるとする。関数作成部１３は、Ｆリストに含まれる原子条件式の中から「条件式の最大長」以下の個数の原子条件式を組み合わせて、複数の新たな条件式を生成する。図８では、Ｆリストから全部で１８通りの条件式が生成されたことを示す。

本実施形態では、パラメータ生成部１４が原子条件式を組み合わせることで新しい条件式を生成する。条件式の組み合わせは本質的には、原子条件式の数の長さまで可能であるが、すべてを連結したような長い条件式はユーザにとってその意味を理解しづらく、実用的でないことが多い。一方、本実施形態では、ユーザが特徴量の意味を理解できるような範囲（例えば、条件式の最大長＝２）で条件式の最大長を設定することで、生成される特徴量の複雑さを抑えることが可能である。すなわち、条件式の最大長を指定することで、ユーザが理解しやすい条件式に絞って特徴量を生成できる。

なお、新たな条件式を生成する際、関数作成部１３は、同じ属性に対する条件式のうち、矛盾する条件を除外するようにしてもよい。例えば、図８に例示する条件式のうち、通話方向がＩＮとＯＵＴの条件が両立することはない。この場合、関数作成部１３は、そのような条件を含む組合せを除外すればよい。

なお、入力部１２と、関数作成部１３と、パラメータ生成部１４とは、プログラム（関数作成プログラム）に従って動作するコンピュータのＣＰＵによって実現される。また、入力部１２と、関数作成部１３と、パラメータ生成部１４とは、それぞれが専用または汎用のハードウェアや回路で実現されていてもよい。

図９は、本実施形態の関数作成部１３が特徴量生成関数を作成する動作例を示すフローチャートである。まず、関数作成部１３は、Ｆリストに含まれる条件式を組み合わせた新たな条件式を生成する（ステップＳ２１）。以降、各要素に基づいて特徴量生成関数を作成する処理は、図５のステップＳ２２からステップＳ２３に示す処理と同様である。

以上のように、本実施形態によれば、パラメータ生成部１４が、指定される最大長が示す数までの原子条件式を組み合わせて複数の条件式を生成する。そして、関数作成部１３が、生成された各条件式を第一の要素として特徴量生成関数を作成する。よって、第１の実施形態の効果に加え、少ない条件式の指定で多数の特徴量生成関数を効率よく生成できる。例えば、６つの条件式とその条件式の最大長（例えば、最大長＝２）、１つの対応条件、および、６つの集約方法を定義するだけで、１０８種類の特徴量生成関数を容易に生成することが可能になる。

実施形態３．
次に、本発明による情報処理システムの第３の実施形態を説明する。第１の実施形態では、３つの要素（filter、map 、reduce）の組合せを生成することで、ターゲットテーブル（第一の表）およびソーステーブル（第二の表）から特徴量を生成するための特徴量生成関数を生成する方法を説明した。第３の実施形態では、第二の表（ソーステーブル）から行を抽出する処理（すなわち、filter）を行わずに特徴量生成関数を生成する方法を説明する。

第３の実施形態の構成は、第１の実施形態の構成と同様である。ただし、関数作成部１３が特徴量生成関数を生成する方法が、第１の実施形態と異なる。関数作成部１３は、第１の実施形態と同様、入力部１２に入力された情報を用いて特徴量生成関数を生成する。ただし、本実施形態では、関数作成部１３は、第一の実施形態で説明した第二の要素（すなわち、対応条件要素）と、第三の要素（すなわち、集約方法要素）の２つの要素（map 、reduce）の組合せを生成することで、複数の特徴量生成関数を作成する。

すなわち、本実施形態の関数作成部１３は、第一の表（ターゲットテーブル）と第二の表（ソーステーブル）の行の対応条件を表わす対応条件要素（第１の実施形態の第二の要素に対応）、および、第二の表に含まれる各列のデータを目的変数ごとに集約する集約方法を表わす集約方法要素（第１の実施形態の第三の要素に対応）の組合せを生成することで、複数の特徴量生成関数を作成する。

第３の実施形態において、「目的変数ごとに集約する」とは、第二の表に含まれる列のうち、対応条件要素に基づいて第一の表内の同じ列に対応付けられたデータを集約する、ことを意味する。

関数作成部１３が各要素の組合せを生成する方法や、各要素の内容、特徴量生成関数の内容は、要素として第一の要素（すなわち、抽出条件要素）を含まない以外、第１の実施形態と同様である。

以上のように、本実施形態では、関数作成部１３が、対応条件要素および集約方法要素の組合せを生成することで、複数の特徴量生成関数を作成する。そのため、第１の実施形態の効果と同様、複数の表データを利用して効率よく多数の特徴量の候補を生成できる。例えば、特徴量の生成に第二の表データを全て使用する場合、第二の表データのサブセットを使用する必要がないため、特徴量生成関数に抽出条件要素を含まなくても、各表データから特徴量を生成することが可能である。

次に、本発明による情報処理システムの概要を説明する。図１０は、本発明による情報処理システムの概要を示すブロック図である。本発明による情報処理システムは、目的変数を含む第一の表（例えば、ターゲットテーブル）およびその第一の表と粒度の異なる第二の表（例えば、ソーステーブル）を記憶する表記憶部８１（例えば、記憶部１１）と、第一の表および第二の表から目的変数に影響を及ぼし得る変数である特徴量を生成するための特徴量生成関数を作成する関数作成部８２（例えば、関数作成部１３）とを備えている。

関数作成部８２は、第一の表と第二の表の行の対応条件を表わす対応条件要素（例えば、第二の要素）、および、第二の表に含まれる各列のデータを目的変数ごとに集約する集約方法を表わす集約方法要素（例えば、第三の要素）の組合せを生成することで、複数の特徴量生成関数を作成する。

そのような構成により、複数の表データを利用して効率よく多数の特徴量の候補を生成できる。

また、関数作成部８２は、第二の表に含まれる行の抽出条件を表わす条件式を含む抽出条件要素（例えば、第一の要素）、第一の表と第二の表の行の対応条件を表わす対応条件要素（例えば、第二の要素）、および、第二の表に含まれる各列のデータを目的変数ごとに集約する集約方法を表わす集約方法要素（例えば、第三の要素）の組合せを生成することで、複数の特徴量生成関数を作成してもよい。

また、情報処理システムは、抽出条件要素が示す抽出条件に含まれる一の条件式である原子条件式を組み合わせて、複数の条件式を生成する抽出条件生成部（例えば、パラメータ生成部１４）を備えていてもよい。このとき、抽出条件生成部は、指定される最大長が示す数までの原子条件式を組み合わせた複数の条件式を生成し、関数作成部８２は、生成された各条件式を抽出条件要素として特徴量生成関数を作成してもよい。

そのような構成により、少ない条件式の指定で多数の特徴量生成関数を効率よく生成できる。

具体的には、関数作成部８２は、抽出条件要素で指定される抽出条件に基づいて１つ以上の行を抽出する処理、対応条件要素が示す対応条件で指定された対応条件を介して第一の表と第二の表とを対応付ける処理、および、集約方法要素で指定された集約方法に基づいて第二の表の行を集約する処理を行う特徴量生成関数を生成する。

そして、関数作成部８２は、抽出条件要素が示す抽出条件と対応条件要素が示す対応条件と集約方法要素が示す集約方法とをそれぞれ１つずつ選択し、選択した条件式、対応条件および集約方法の組合せを生成することで、複数の特徴量生成関数を作成する。

例えば、抽出条件要素は、第二の表の列に対する条件式およびその条件式の最大長で表わされ、対応条件要素は、第一の表の列と第二の表の列を対応付ける列のペアで表され、集約方法要素は、第二の表の列に対して行う集約方法で表される。

また、特徴量生成関数は、第一の表および第二の表からデータを抽出するＳＱＬ文で定義されてもよい。このとき、関数作成部８２は、ＳＱＬ文を生成するテンプレートに抽出条件、対応条件および集約方法を適用して特徴量生成関数を作成してもよい。

図１１は、少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ１０００は、ＣＰＵ１００１、主記憶装置１００２、補助記憶装置１００３、インタフェース１００４を備える。

上述の情報処理システムは、コンピュータ１０００に実装される。そして、上述した各処理部の動作は、プログラム（関数作成プログラム）の形式で補助記憶装置１００３に記憶されている。ＣＰＵ１００１は、プログラムを補助記憶装置１００３から読み出して主記憶装置１００２に展開し、当該プログラムに従って上記処理を実行する。

なお、少なくとも１つの実施形態において、補助記憶装置１００３は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース１００４を介して接続される磁気ディスク、光磁気ディスク、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ１０００に配信される場合、配信を受けたコンピュータ１０００が当該プログラムを主記憶装置１００２に展開し、上記処理を実行しても良い。

また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置１００３に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル（差分プログラム）であっても良い。

以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

この出願は、２０１５年１１月２５日に出願された米国仮出願第６２／２５９，８９６号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１１記憶部
１２入力部
１３関数作成部
１４パラメータ生成部

Claims

目的変数を含む第一の表、および、第二の表を記憶する表記憶部とを備え、前記第一の表および前記第二の表はそれぞれ複数の行及び列を含み、且つ前記第一の表の少なくとも１つの行は前記第二の表の複数の行と関連し、前記第二の表の少なくとも１つの行は前記第一の表の複数の行と関連し、
前記第一の表および前記第二の表から前記目的変数に影響を及ぼし得る変数である特徴量を生成するための特徴量生成関数を作成する関数作成部とを備え、
前記関数作成部は、前記第一の表と前記第二の表の行の対応条件を表わす対応条件要素、および、前記第二の表に含まれる各列のデータを各目的変数のために集約する集約方法を表わす集約方法要素の組合せを生成することで、複数の特徴量生成関数を作成する、
ことを特徴とする情報処理システム。
関数作成部は、第二の表に含まれる行の抽出条件を表わす条件式を含む抽出条件要素、第一の表と第二の表の行の対応条件を表わす対応条件要素、および、第二の表に含まれるデータを集約する集約方法を表わす集約方法要素の組合せを生成することで、複数の特徴量生成関数を作成し、
前記対応条件が、前記第一の表及び前記第二の表における行の関連付けのために使用される特定列の列名を含み、前記第一の表の複数の行及び前記第二の表の複数の行は、前記列名の特定列において関連付けされる値と異なる１以上の値を含む、
請求項１記載の情報処理システム。
抽出条件要素が示す抽出条件に含まれる一の条件式である原子条件式を組み合わせて、複数の条件式を生成する抽出条件生成部を備え、
前記抽出条件生成部は、指定される最大長が示す数までの前記原子条件式を組み合わせた複数の条件式を生成し、
関数作成部は、生成された各条件式を抽出条件要素として特徴量生成関数を作成する、
請求項２記載の情報処理システム。
関数作成部は、抽出条件要素で指定される抽出条件に基づいて１つ以上の行を抽出する処理、対応条件要素が示す対応条件で指定された対応条件を介して第一の表と第二の表とを対応付ける処理、および、集約方法要素で指定された集約方法に基づいて第二の表の行を集約する処理を行う特徴量生成関数を作成する、
請求項２または請求項３記載の情報処理システム。
関数作成部は、抽出条件要素が示す抽出条件と対応条件要素が示す対応条件と集約方法要素が示す集約方法とをそれぞれ１つずつ選択し、選択した条件式、対応条件および集約方法の組合せを生成することで、複数の特徴量生成関数を作成する、
請求項２から請求項４のうちのいずれか１項に記載の情報処理システム。
抽出条件要素は、第二の表の列に対する条件式および当該条件式の最大長で表わされ、対応条件要素は、第一の表の列と第二の表の列を対応付ける列のペアで表され、集約方法要素は、第二の表の列に対して行う集約方法で表される、
請求項３記載の情報処理システム。
特徴量生成関数は、第一の表および第二の表からデータを抽出するＳＱＬ文で定義される、
請求項１から請求項６のうちのいずれか１項に記載の情報処理システム。
目的変数を含む第一の表、および、第二の表から前記目的変数に影響を及ぼし得る変数である特徴量を生成するための複数の特徴量生成関数を、予め用意されたテンプレートを用いて生成する関数作成部であって、前記第一の表および前記第二の表はそれぞれ複数の行を含み、且つ前記第一の表の少なくとも１つの行は前記第二の表の複数の行と１対１でない関係を有する、前記関数作成部と、
前記第一の表および前記第二の表に対して複数の前記特徴量生成関数を適用して複数の前記特徴量を生成する特徴量生成部とを備え、
前記テンプレートは情報が代入される複数のパラメータを含み、
前記特徴量生成関数は、前記パラメータに代入する情報の組み合わせと、前記テンプレートとに基づいて生成され、
前記生成された複数の特徴量は、前記目的変数の値を予測するためのモデルを学習する際に、説明変数の候補として用いられる、
ことを特徴とする情報処理装置。
プロセッサを有するコンピュータ上で実行される関数作成方法であって、前記プロセッサにより、
目的変数を含む第一の表、および、第二の表から当該目的変数に影響を及ぼし得る変数である特徴量を生成するための特徴量生成関数であって、前記第一の表および前記第二の表はそれぞれ複数の行を含み、且つ前記第一の表の少なくとも１つの行は前記第二の表の複数の行と１対１でない関係を有する、前記特徴量生成関数を作成し、
前記特徴量生成関数の作成において、前記第一の表と前記第二の表の行の対応条件を表
わす対応条件要素、および、前記第二の表に含まれるデータを集約する集約方法を表わす集約方法要素の組合せを生成することで、複数の特徴量生成関数が作成される、関数作成方法。
コンピュータに、
目的変数を含む第一の表、および、第二の表から当該目的変数に影響を及ぼし得る変数である特徴量を生成するための特徴量生成関数を作成する関数作成処理を実行させ、前記第一の表および前記第二の表はそれぞれ複数の行を含み、且つ前記第一の表の少なくとも１つの行は前記第二の表の複数の行と１対１でない関係を有し、
前記関数作成処理で、前記第一の表と前記第二の表の行の対応条件を表わす対応条件要素、および、前記第二の表に含まれるデータを集約する集約方法を表わす集約方法要素の組合せを生成することで、複数の特徴量生成関数を作成させる、
ための関数作成プログラム。
前記対応条件は、前記対応条件に含まれる或る列名に対する、各行に含まれる特定列の値の類似性に基づき、前記第一の表および前記第二の表における前記列を関連付ける、
請求項１記載の情報処理システム。