JP7098327B2 - 情報処理システム、関数作成方法および関数作成プログラム - Google Patents

情報処理システム、関数作成方法および関数作成プログラム Download PDF

Info

Publication number
JP7098327B2
JP7098327B2 JP2017552365A JP2017552365A JP7098327B2 JP 7098327 B2 JP7098327 B2 JP 7098327B2 JP 2017552365 A JP2017552365 A JP 2017552365A JP 2017552365 A JP2017552365 A JP 2017552365A JP 7098327 B2 JP7098327 B2 JP 7098327B2
Authority
JP
Japan
Prior art keywords
rows
function
correspondence
aggregation method
condition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017552365A
Other languages
English (en)
Other versions
JPWO2017090475A1 (ja
Inventor
幸貴 楠村
遼平 藤巻
Original Assignee
ドットデータ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドットデータ インコーポレイテッド filed Critical ドットデータ インコーポレイテッド
Publication of JPWO2017090475A1 publication Critical patent/JPWO2017090475A1/ja
Application granted granted Critical
Publication of JP7098327B2 publication Critical patent/JP7098327B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24573Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Library & Information Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、学習や予測に用いる特徴量を生成するための情報処理システム、関数作成方法および関数作成プログラムに関する。
データマイニングは、大量の情報の中から、これまで未知であった有用な知見を見つける技術である。データマイニングを具体例に適用するプロセスは、下記に示す3つの段階に大別できる。
1つ目の段階(工程)は、「前処理段階」である。「前処理段階」は、データマイニングアルゴリズムが効果的に機能するようにするために、データマイニングアルゴリズムに従って動作する装置などに入力する属性(feature )を加工することにより、その属性を新たな属性に変換する段階である。
2つ目の段階は、「分析処理段階」である。「分析処理段階」は、データマイニングアルゴリズムに従って動作する装置などに属性を入力し、係るデータマイニングアルゴリズムに従って動作する装置などの出力である分析結果を得る段階である。
3つめの段階は、「後処理段階」である。「後処理段階」は、分析結果を、見やすいグラフや他の機器に入力するための制御信号等に変換する段階である。
このようにデータマイニングにより有用な知見を得るためには、「前処理段階」が適切に行われる必要がある。「前処理段階」をどのような手順で実行すべきかを設計する作業は、分析技術の熟練技術者(データサイエンティスト)の知識に依存する。前処理段階の設計作業は、情報処理技術によって十分には支援されておらず、未だ熟練技術者の手作業による試行錯誤に依存する部分が大きい。
未知である有用な知見を見つけるためには、より多くの属性の候補を生成することが重要である。具体的には、予測対象である変数(目的変数)に影響を及ぼし得る多くの属性(説明変数)の候補を生成することが重要である。このような多くの候補を生成することにより、予測に役立つ属性がこの候補の中に含まれる可能性を高めることができるからである。
例えば、特許文献1には、複数の属性を生成する方法が記載されている。特許文献1に記載された方法では、身長や体重、ビールの年間消費量の値などの属性を複数人の識別子と対応付けた1つのデータセットから、複数の属性を選択して新たな属性を生成する。
国際公開第2015/045318号
特許文献1に記載されている方法では、例示するデータセットに代表される1つの表データを利用して複数の属性の候補が生成される。一方、本発明者は、多くの属性の候補を生成するためには、1つの表データだけでなく、複数の表データを利用することが好ましいと考えた。様々な表データを利用することで、より多くの属性の候補を生成できるからである。なお、属性は、特徴量ということもある。
しかし、1つの予測対象に対し、全ての表データの粒度が同一になることは稀である。すなわち、各表データは、収集されるデータの性質に応じてその内容が異なるため、予測対象ごとに複数の対応する行を有する表データや、予測対象との対応関係が自明でない表データも存在する。
そのため、複数の表データを単純に利用して特徴量を生成することは容易ではない。また、熟練技術者が、生成しようとする特徴量ごとに加工方法を定義しようとした場合、非常に手間がかかってしまうという技術的課題がある。このような状況に鑑みると、複数の表データを利用する場合でも、効率よく多数の特徴量の候補を生成できることが望まれる。
そこで、本発明は、複数の表データを利用して効率よく多数の特徴量の候補を生成できる情報処理システム、関数作成方法および関数作成プログラムを提供することを目的とする。
本発明による情報処理システムは、目的変数を含む第一の表、および、第二の表を記憶する表記憶部と、第一の表および第二の表から目的変数に影響を及ぼし得る変数である特徴量を生成するための特徴量生成関数を作成する関数作成部とを備え、関数作成部が、第一の表と第二の表の行の対応条件を表わす対応条件要素、および、第二の表に含まれるデータを集約する集約方法を表わす集約方法要素の組合せを生成することで、複数の特徴量生成関数を作成することを特徴とする。また、本発明による情報処理装置は、目的変数を含む第一の表、および、第二の表から目的変数に影響を及ぼし得る変数である特徴量を生成するための複数の特徴量生成関数を、予め用意されたテンプレートを用いて生成する関数作成部と、第一の表および第二の表に対して複数の特徴量生成関数を適用して複数の特徴量を生成する特徴量生成部とを備え、テンプレートが情報が代入される複数のパラメータを含み、特徴量生成関数が、パラメータに代入する情報の組み合わせと、テンプレートとに基づいて生成され、生成された複数の特徴量が、目的変数の値を予測するためのモデルを学習する際に、説明変数の候補として用いられることを特徴とする。
本発明による関数作成方法は、目的変数を含む第一の表、および、第二の表からその目的変数に影響を及ぼし得る変数である特徴量を生成するための特徴量生成関数を作成し、特徴量生成関数の作成において、第一の表と第二の表の行の対応条件を表わす対応条件要素、および、第二の表に含まれるデータを集約する集約方法を表わす集約方法要素の組合せを生成することで、複数の特徴量生成関数を作成することを特徴とする。
本発明による関数作成プログラムは、コンピュータに、目的変数を含む第一の表、および、第二の表からその目的変数に影響を及ぼし得る変数である特徴量を生成するための特徴量生成関数を作成する関数作成処理を実行させ、関数作成処理で、第一の表と第二の表の行の対応条件を表わす対応条件要素、および、第二の表に含まれるデータを集約する集約方法を表わす集約方法要素の組合せを生成することで、複数の特徴量生成関数を作成させることを特徴とする。
本発明によれば、上述した技術的手段により、複数の表データを利用して効率よく多数の特徴量の候補を生成できるという技術的効果を奏する。
本発明による情報処理システムの第1の実施形態の構成例を示すブロック図である。 各要素が示す処理の例を示す説明図である。 第一の実施形態の情報処理システムの動作例を示すフローチャートである。 特徴量生成関数の作成に用いる情報の例を示す説明図である。 第一の実施形態で特徴量生成関数を作成する動作例を示すフローチャートである。 SQL文を生成する処理の例を示す説明図である。 本発明による情報処理システムの第2の実施形態の構成例を示すブロック図である。 複数の条件式を生成する処理の例を示す説明図である。 第二の実施形態で特徴量生成関数を作成する動作例を示すフローチャートである。 本発明による情報処理システムの概要を示すブロック図である。 少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
以下、本発明の実施形態を図面を参照して説明する。以下の説明では、単にデータと記載した場合、表に含まれる各セルの内容を表わし、表データと記載した場合、表に含まれるデータ全体を表わす。
実施形態1.
図1は、本発明による情報処理システムの第1の実施形態の構成例を示すブロック図である。本実施形態の情報処理システムは、記憶部11と、入力部12と、関数作成部13とを備えている。
記憶部11は、予測対象(すなわち、目的変数)の列を含む表(以下、第一の表と記すこともある。)、および、第一の表に含まれるデータの集合(以下、第一表データと記すこともある。)を記憶する。以下の説明では、第一の表をターゲットテーブルと記す。また、記憶部11は、第一の表と粒度の異なる表(以下、第二の表と記すことある。)、および、第二の表に含まれるデータの集合(以下、第二表データと記すこともある。)を記憶する。以下の説明では、この第二の表をソーステーブルと記す。
第一の表および第二の表は、データの属性を表わす列の組合せにより定義される。また、各表は、各属性の値を示すデータを組み合わせた1つ以上の行を含む。ここで、ターゲットテーブル(第一の表)と粒度が異なる表とは、ターゲットテーブルの各行に対して、行が1対1に対応していない表を意味する。なお、後述する特徴量生成関数を生成する際、記憶部11は、第一表データおよび第二表データを記憶していなくてもよい。
入力部12は、後述する関数作成部13が特徴量生成関数を作成するために必要な各種情報を入力する。入力部12は、通信ネットワーク(図示せず)を介して受信する情報を入力してもよく、これらの情報を記憶する記憶装置(図示せず)から情報を読み取って入力してもよい。また、この記憶装置の機能を記憶部11が兼ねていてもよい。なお、入力部12が入力する内容を、関数作成部13の機能に則して説明する。
関数作成部13は、入力部12に入力された情報を用いて特徴量生成関数を生成する。特徴量生成関数は、第一表データおよび第二表データから目的変数に影響を及ぼし得る変数である特徴量を生成するために用いられる関数である。なお、ソーステーブルの数は1つに限られず、2つ以上であってもよい。生成された特徴量は、機械学習を用いてモデルを生成する際の説明変数の候補になる。言い換えると、本実施形態で生成される特徴量生成関数を用いることで、機械学習を用いてモデルを生成する際の説明変数の候補を自動的に生成することが可能になる。
関数作成部13は、3つの要素の組合せを生成することで、複数の特徴量生成関数を作成する。第一の要素は、第二の表に含まれる行の抽出条件を表わす要素である。以下の説明では、第一の要素を抽出条件要素と記すこともある。具体的には、第一の要素が示す抽出条件は、ソーステーブル(第二の表)に対する条件式として定義される。以下、第一の要素に基づいて第二の表から行を抽出する処理を「filter」と記載する場合がある。また、この条件式のリストを「Fリスト」と記載する場合がある。
抽出条件は任意であり、例えば、指定された列の値と同じ(大きいまたは小さい)か否か判断する条件が挙げられる。
第二の要素は、第一表データと第二表データの行の対応条件を表わす要素である。以下の説明では、第二の要素を対応条件要素と記すこともある。具体的には、第二の要素は、ターゲットテーブル(第一の表)の列とソーステーブル(第二の表)の列を対応付ける列のペアとして定義される。以下、第二の要素に基づいて各テーブルの列を対応付ける処理を「map 」と記載する場合がある。また、この列のペアのリストを「Mリスト」と記載する場合がある。また、map による各表の列の対応付けは、対応付けられた列で複数の表を1つの表に結合(join)することとも言える。
第三の要素は、第二の表に含まれる各列のデータを目的変数ごとに集約する集約方法を表わす要素である。以下の説明では、第三の要素を集約方法要素と記すこともある。具体的には、第三の要素は、ソーステーブル(第二の表)の列に対する集約関数として定義される。以下、第三の要素が示す方法により各列のデータを集約する処理を「reduce」と記載する場合がある。また、この集約関数のリストを「Rリスト」と記載する場合がある。第1の実施形態において、「目的変数ごとに集約する」とは、第二の表に含まれる列のうち、第一の要素(すなわち、抽出条件要素)に基づいて抽出され、かつ、第二の要素(すなわち、対応条件要素)に基づいて第一の表内の同じ列に対応付けられたデータを集約する、ことを意味する。
集約方法は任意であり、例えば、列の総数、最大値、最小値、平均値、中央値、分散などが挙げられる。また、列の総数の集計は、重複データを除外する、または、重複データを除外しない、のいずれかの観点で行われてもよい。
図2は、各要素が示す処理の例を示す説明図である。図2に示す例では、ターゲットテーブルTとソーステーブルSがそれぞれ1つずつ存在し、key列が両テーブルを対応付ける列である。また、ターゲットテーブルのY列に目的変数が含まれる。図2におけるSは、ソーステーブルS内の列の集合のサブセットである。
filterは、ソーステーブルS内の列の集合のサブセットを選び出す処理と言える。map は、ターゲットテーブルTの行とソーステーブルSの行との対応関係をとる処理である。reduceは、ターゲットテーブルTの各行に対してmap により対応付けられたソーステーブルSの列のうちfilterによって選び出された行の集合の値を用いて、なんらかの集約演算を行うことにより1つの値を導出する処理であり、その導出には任意の集約関数が用いられる。
また、この3つの要素をパラメータとする特徴量生成関数は、以下の処理に基づいて特徴量を生成する関数として定義される。まず、第一の要素で指定されたソーステーブルの抽出条件に基づき、ソーステーブルから1つ以上の行が抽出される(filter)。
次に、第二の要素で指定された対応条件を介して、ターゲットテーブルとソーステーブルとが対応付けられる(Map )。ターゲットテーブルとソーステーブルとを対応付ける際、対応条件で示す列の値が完全一致する行同士だけでなく、指定された類似度により対応付けられてもよい。例えば、日時データで対応を取る際に、日時が完全に一致する行同士だけでなく、二つの行の日時の差が所定の範囲内(例えば、6時間以内)であれば対応付ける、という例が挙げられる。また、ターゲットテーブルとソーステーブルにそれぞれ、経度・緯度の列があり、これらを用いて対応条件を記載する際に、2地点の距離が所定の範囲内(例えば、5Km以内)、といった距離に基づく対応付けを行う例も挙げられる。
次に、第三の要素で指定された集約方法に基づいて、ターゲットテーブルの各行に対してfilterによって選び出された行のうち、map により対応付けられた行を集約する(reduce)。この集約により、ターゲットテーブルの各行に対して得られた値を含むベクトルが特徴量とされる。
関数作成部13は、生成した特徴量生成関数を利用して、複数の特徴量を生成してもよい。すなわち、関数作成部13が、特徴量を生成する特徴量生成部として機能してもよい。
記憶部11は、例えば、磁気ディスク装置により実現される。また、入力部12と、関数作成部13とは、プログラム(関数作成プログラム)に従って動作するコンピュータのCPUによって実現される。例えば、プログラムは、記憶部11に記憶され、CPUは、そのプログラムを読み込み、プログラムに従って、入力部12および関数作成部13として動作してもよい。また、本情報処理システムの機能がSaaS(Software as a Service )形式で提供されてもよい。
また、入力部12と、関数作成部13とは、それぞれが専用のハードウェアで実現されていてもよい。入力部12と、関数作成部13とは、それぞれが汎用または専用の回路(circuitry )により実現されていてもよい。ここで、汎用または専用の回路(circuitry )は、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。また、各装置の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、 集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
次に、本実施形態の情報処理システムの動作を説明する。図3は、本実施形態の情報処理システムの動作例を示すフローチャートである。入力部12は、特徴量生成関数の作成に必要な3つの要素を入力する(ステップS11)。そして、関数作成部13は、入力された3つの要素から特徴量生成関数を作成する(ステップS12)。なお、入力される3つの要素には、記憶部11に記憶されたターゲットテーブル(第一の表)または/およびソーステーブル(第二の表)の列が指定される。
ここで、関数作成部13が特徴量生成関数を作成する手順を具体的に説明する。図4は、特徴量生成関数の作成に用いる情報の例を示す説明図である。図4に示す例では、予測対象の変数(目的変数)が顧客の解約の有無を示す変数であり、ターゲットテーブル(T)が顧客を識別する顧客IDと解約の有無を示す変数とを含む表とする。また、ソーステーブル(S)は、顧客の通話記録(具体的には、通話時刻、通話方向、通話タイプおよび通話時間)を含む表とする。
filterで利用するFリストは、18の条件式の候補を含むとする。また、map で利用するMリストは、ターゲットテーブルとソーステーブルを顧客IDで対応付ける1つの条件を含むとする。また、reduceで利用するRリストは、通話時間または時刻に関する6つの集約関数を含むとする。
なお、Fリスト、MリストおよびRリストは、機械で自動的に作成されてもよく、人間によって手動で作成されてもよい。ここでは、図4に例示するFリスト、MリストおよびRリストが予め作成されているものとする。
図5は、本実施形態の関数作成部13が特徴量生成関数を作成する動作例を示すフローチャートである。まず、関数作成部13は、Fリスト、MリストおよびRリストから、それぞれ1つずつ要素を選択し、各要素の組合せを生成する(ステップS22)。図4に示す例では、Fリストに18通りの条件式、Mリストに1通りの対応条件、および、Rリストに6通りの集約方法が含まれる。そのため、これらの各リストの要素から108通りの組合せが生成される。
次に、関数作成部13は、生成された組合せに基づいて特徴量生成関数を作成する(ステップS23)。具体的には、関数作成部13は、生成された組合せに含まれる条件や集約方法を、表データの操作や定義を行う問合せ言語の形式に変換する。関数作成部13は、例えば、問合せ言語としてSQLを用いてもよい。
このとき、関数作成部13は、SQL文を生成するテンプレートに抽出条件、対応条件および集約方法を適用して特徴量生成関数を作成してもよい。具体的には、条件や集約方法を当て嵌めてSQL文を生成するためのテンプレートを予め用意しておき、関数作成部13は、生成された組合せに含まれる条件や集約方法を順次テンプレートに適用してSQL文を作成してもよい。この場合、特徴量生成関数は、SQL文として定義され、Fリスト、MリストおよびRリストからそれぞれ選択される3つの要素が、SQL文を生成するためのパラメータに対応する。
図6は、テンプレートにあてはめてSQL文を生成する処理の例を示す説明図である。図6に示す例では、テンプレートTempが予め用意される。関数作成部13は、テンプレートTempの下線で示す部分に、生成された組合せに含まれる条件および集約方法を適用する。その結果、組合せ数の特徴量生成関数が生成される。
例えば、Fリストから「通話方向=IN」という条件式、Mリストから「顧客ID同士で対応づけ」という対応条件、Rリストから「通話時間の列をカウント」という集約方法を選択した組合せが生成されたとする。この場合、この組合せをテンプレートTempに適用すると、図6に例示する問合せ文Q1が生成される。この問合せ文Q1によって作成される特徴量は、かかって来た通話または届いたメッセージの総数を表わす。
他にも、例えば、Fリストから「通話方向=OUT AND タイプ=call」という条件式、Mリストから「顧客ID同士で対応づけ」という対応条件、Rリストから「時刻が最大」という集約方法を選択した組合せが生成されたとする。この場合、この組合せをテンプレートTempに適用すると、図6に例示する問合せ文Q2が生成される。この問合せ文Q2によって作成される特徴量は、音声通話をかけた時刻の最新値を表わす。
上記に例示する以外にも、様々な特徴量を生成することが可能である。例えば、Fリストから「タイプ=call AND 通話方向=OUT AND HOUR(時刻)<7」という条件式、Mリストから「顧客ID同士で対応づけ」という対応条件、Rリストから「通話時間の平均」という集約方法を選択した組合せが生成されたとする。この組合せによって作成される特徴量は、7時前にかけられた音声通話の平均時間を表わす。
また、Fリストから「タイプ=call AND 通話方向=IN」という条件式、Mリストから「顧客ID同士で対応づけ」という対応条件、Rリストから「通話時間の分散」という集約方法を選択した組合せが生成されたとする。この組合せによって作成される特徴量は、かかって来た通話における通話時間のばらつき度合いを表わす。
以上のように、本実施形態では、関数作成部13が、3つの要素の組合せを生成することで、ターゲットテーブル(第一の表)およびソーステーブル(第二の表)から特徴量を生成するための特徴量生成関数を生成する。すなわち、本実施形態では、ソーステーブルおよびターゲットテーブルから特徴量生成する関数を、filter、map 、reduceという3つの要素の組み合わせで定義する。この3つの要素の組み合わせで特徴量生成関数を定義すると、たくさんの種類の特徴量生成関数を単純な要素の組み合わせとして表現することができる。よって、複数の表データを利用して効率よく多数の特徴量の候補を生成できる。例えば、図4に示す例の場合、18の条件式、1つの対応条件、および、6つの集約方法を定義するだけで、108種類の特徴量生成関数を容易に生成することが可能になる。また、一度作成したfilter、map 、およびreduceの定義は再利用できるため、特徴量生成関数を生成する工数自体も削減できるという効果も得られる。
実施形態2.
次に、本発明による情報処理システムの第2の実施形態を説明する。第1の実施形態では、予め第一の要素が示す条件式を全て用意しておく場合について説明した。例えば、図4では、18の条件式をFリストに用意しておく場合を例示した。本実施形態では、第一の要素が示す条件式を効率的に多数作成する方法を説明する。
図7は、本発明による情報処理システムの第2の実施形態の構成例を示すブロック図である。なお、第1の実施形態と同様の構成については、図1と同一の符号を付し、説明を省略する。本実施形態の情報処理システムは、記憶部11と、入力部12と、関数作成部13と、パラメータ生成部14とを備えている。すなわち、本実施形態の情報処理システムは、パラメータ生成部14をさらに備えている点において、第1の実施形態と異なる。
パラメータ生成部14は、第一の要素が示す抽出条件に含まれる条件式(以下、原子条件式と記す。)を組み合わせて、複数の条件式を生成する。組み合わせる条件式の数は、予め定められる。以下、ANDで繋ぐ原子条件式の最大数のことを「条件式の最大長」と記すこともある。なお、原子条件式は、単一の論理式で表されていてもよく、複数の論理式を演算子で結合させた論理式で表されていてもよい。
図8は、複数の条件式を生成する処理の例を示す説明図である。図8に示す例では、Fリストが6つの原子条件式を含むものとし、条件式の最大長は2であるとする。関数作成部13は、Fリストに含まれる原子条件式の中から「条件式の最大長」以下の個数の原子条件式を組み合わせて、複数の新たな条件式を生成する。図8では、Fリストから全部で18通りの条件式が生成されたことを示す。
本実施形態では、パラメータ生成部14が原子条件式を組み合わせることで新しい条件式を生成する。条件式の組み合わせは本質的には、原子条件式の数の長さまで可能であるが、すべてを連結したような長い条件式はユーザにとってその意味を理解しづらく、実用的でないことが多い。一方、本実施形態では、ユーザが特徴量の意味を理解できるような範囲(例えば、条件式の最大長=2)で条件式の最大長を設定することで、生成される特徴量の複雑さを抑えることが可能である。すなわち、条件式の最大長を指定することで、ユーザが理解しやすい条件式に絞って特徴量を生成できる。
なお、新たな条件式を生成する際、関数作成部13は、同じ属性に対する条件式のうち、矛盾する条件を除外するようにしてもよい。例えば、図8に例示する条件式のうち、通話方向がINとOUTの条件が両立することはない。この場合、関数作成部13は、そのような条件を含む組合せを除外すればよい。
なお、入力部12と、関数作成部13と、パラメータ生成部14とは、プログラム(関数作成プログラム)に従って動作するコンピュータのCPUによって実現される。また、入力部12と、関数作成部13と、パラメータ生成部14とは、それぞれが専用または汎用のハードウェアや回路で実現されていてもよい。
図9は、本実施形態の関数作成部13が特徴量生成関数を作成する動作例を示すフローチャートである。まず、関数作成部13は、Fリストに含まれる条件式を組み合わせた新たな条件式を生成する(ステップS21)。以降、各要素に基づいて特徴量生成関数を作成する処理は、図5のステップS22からステップS23に示す処理と同様である。
以上のように、本実施形態によれば、パラメータ生成部14が、指定される最大長が示す数までの原子条件式を組み合わせて複数の条件式を生成する。そして、関数作成部13が、生成された各条件式を第一の要素として特徴量生成関数を作成する。よって、第1の実施形態の効果に加え、少ない条件式の指定で多数の特徴量生成関数を効率よく生成できる。例えば、6つの条件式とその条件式の最大長(例えば、最大長=2)、1つの対応条件、および、6つの集約方法を定義するだけで、108種類の特徴量生成関数を容易に生成することが可能になる。
実施形態3.
次に、本発明による情報処理システムの第3の実施形態を説明する。第1の実施形態では、3つの要素(filter、map 、reduce)の組合せを生成することで、ターゲットテーブル(第一の表)およびソーステーブル(第二の表)から特徴量を生成するための特徴量生成関数を生成する方法を説明した。第3の実施形態では、第二の表(ソーステーブル)から行を抽出する処理(すなわち、filter)を行わずに特徴量生成関数を生成する方法を説明する。
第3の実施形態の構成は、第1の実施形態の構成と同様である。ただし、関数作成部13が特徴量生成関数を生成する方法が、第1の実施形態と異なる。関数作成部13は、第1の実施形態と同様、入力部12に入力された情報を用いて特徴量生成関数を生成する。ただし、本実施形態では、関数作成部13は、第一の実施形態で説明した第二の要素(すなわち、対応条件要素)と、第三の要素(すなわち、集約方法要素)の2つの要素(map 、reduce)の組合せを生成することで、複数の特徴量生成関数を作成する。
すなわち、本実施形態の関数作成部13は、第一の表(ターゲットテーブル)と第二の表(ソーステーブル)の行の対応条件を表わす対応条件要素(第1の実施形態の第二の要素に対応)、および、第二の表に含まれる各列のデータを目的変数ごとに集約する集約方法を表わす集約方法要素(第1の実施形態の第三の要素に対応)の組合せを生成することで、複数の特徴量生成関数を作成する。
第3の実施形態において、「目的変数ごとに集約する」とは、第二の表に含まれる列のうち、対応条件要素に基づいて第一の表内の同じ列に対応付けられたデータを集約する、ことを意味する。
関数作成部13が各要素の組合せを生成する方法や、各要素の内容、特徴量生成関数の内容は、要素として第一の要素(すなわち、抽出条件要素)を含まない以外、第1の実施形態と同様である。
以上のように、本実施形態では、関数作成部13が、対応条件要素および集約方法要素の組合せを生成することで、複数の特徴量生成関数を作成する。そのため、第1の実施形態の効果と同様、複数の表データを利用して効率よく多数の特徴量の候補を生成できる。例えば、特徴量の生成に第二の表データを全て使用する場合、第二の表データのサブセットを使用する必要がないため、特徴量生成関数に抽出条件要素を含まなくても、各表データから特徴量を生成することが可能である。
次に、本発明による情報処理システムの概要を説明する。図10は、本発明による情報処理システムの概要を示すブロック図である。本発明による情報処理システムは、目的変数を含む第一の表(例えば、ターゲットテーブル)およびその第一の表と粒度の異なる第二の表(例えば、ソーステーブル)を記憶する表記憶部81(例えば、記憶部11)と、第一の表および第二の表から目的変数に影響を及ぼし得る変数である特徴量を生成するための特徴量生成関数を作成する関数作成部82(例えば、関数作成部13)とを備えている。
関数作成部82は、第一の表と第二の表の行の対応条件を表わす対応条件要素(例えば、第二の要素)、および、第二の表に含まれる各列のデータを目的変数ごとに集約する集約方法を表わす集約方法要素(例えば、第三の要素)の組合せを生成することで、複数の特徴量生成関数を作成する。
そのような構成により、複数の表データを利用して効率よく多数の特徴量の候補を生成できる。
また、関数作成部82は、第二の表に含まれる行の抽出条件を表わす条件式を含む抽出条件要素(例えば、第一の要素)、第一の表と第二の表の行の対応条件を表わす対応条件要素(例えば、第二の要素)、および、第二の表に含まれる各列のデータを目的変数ごとに集約する集約方法を表わす集約方法要素(例えば、第三の要素)の組合せを生成することで、複数の特徴量生成関数を作成してもよい。
また、情報処理システムは、抽出条件要素が示す抽出条件に含まれる一の条件式である原子条件式を組み合わせて、複数の条件式を生成する抽出条件生成部(例えば、パラメータ生成部14)を備えていてもよい。このとき、抽出条件生成部は、指定される最大長が示す数までの原子条件式を組み合わせた複数の条件式を生成し、関数作成部82は、生成された各条件式を抽出条件要素として特徴量生成関数を作成してもよい。
そのような構成により、少ない条件式の指定で多数の特徴量生成関数を効率よく生成できる。
具体的には、関数作成部82は、抽出条件要素で指定される抽出条件に基づいて1つ以上の行を抽出する処理、対応条件要素が示す対応条件で指定された対応条件を介して第一の表と第二の表とを対応付ける処理、および、集約方法要素で指定された集約方法に基づいて第二の表の行を集約する処理を行う特徴量生成関数を生成する。
そして、関数作成部82は、抽出条件要素が示す抽出条件と対応条件要素が示す対応条件と集約方法要素が示す集約方法とをそれぞれ1つずつ選択し、選択した条件式、対応条件および集約方法の組合せを生成することで、複数の特徴量生成関数を作成する。
例えば、抽出条件要素は、第二の表の列に対する条件式およびその条件式の最大長で表わされ、対応条件要素は、第一の表の列と第二の表の列を対応付ける列のペアで表され、集約方法要素は、第二の表の列に対して行う集約方法で表される。
また、特徴量生成関数は、第一の表および第二の表からデータを抽出するSQL文で定義されてもよい。このとき、関数作成部82は、SQL文を生成するテンプレートに抽出条件、対応条件および集約方法を適用して特徴量生成関数を作成してもよい。
図11は、少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ1000は、CPU1001、主記憶装置1002、補助記憶装置1003、インタフェース1004を備える。
上述の情報処理システムは、コンピュータ1000に実装される。そして、上述した各処理部の動作は、プログラム(関数作成プログラム)の形式で補助記憶装置1003に記憶されている。CPU1001は、プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、当該プログラムに従って上記処理を実行する。
なお、少なくとも1つの実施形態において、補助記憶装置1003は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD-ROM、DVD-ROM、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータ1000が当該プログラムを主記憶装置1002に展開し、上記処理を実行しても良い。
また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置1003に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル(差分プログラム)であっても良い。
以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2015年11月25日に出願された米国仮出願第62/259,896号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
11 記憶部
12 入力部
13 関数作成部
14 パラメータ生成部

Claims (11)

  1. 目的変数を含む第一の表、および、第二の表を記憶する表記憶部とを備え、前記第一の表および前記第二の表はそれぞれ複数の行及び列を含み、且つ前記第一の表の少なくとも1つの行は前記第二の表の複数の行と関連し、前記第二の表の少なくとも1つの行は前記第一の表の複数の行と関連し、
    前記第一の表および前記第二の表から前記目的変数に影響を及ぼし得る変数である特徴量を生成するための特徴量生成関数を作成する関数作成部とを備え、
    前記関数作成部は、前記第一の表と前記第二の表の行の対応条件を表わす対応条件要素、および、前記第二の表に含まれる各列のデータを各目的変数のために集約する集約方法を表わす集約方法要素の組合せを生成することで、複数の特徴量生成関数を作成する、
    ことを特徴とする情報処理システム。
  2. 関数作成部は、第二の表に含まれる行の抽出条件を表わす条件式を含む抽出条件要素、第一の表と第二の表の行の対応条件を表わす対応条件要素、および、第二の表に含まれるデータを集約する集約方法を表わす集約方法要素の組合せを生成することで、複数の特徴量生成関数を作成し、
    前記対応条件が、前記第一の表及び前記第二の表における行の関連付けのために使用される特定列の列を含み、前記第一の表の複数の行及び前記第二の表の複数の行は、前記列名の特定列において関連付けされると異なる1以上の値を含む、
    請求項1記載の情報処理システム。
  3. 抽出条件要素が示す抽出条件に含まれる一の条件式である原子条件式を組み合わせて、複数の条件式を生成する抽出条件生成部を備え、
    前記抽出条件生成部は、指定される最大長が示す数までの前記原子条件式を組み合わせた複数の条件式を生成し、
    関数作成部は、生成された各条件式を抽出条件要素として特徴量生成関数を作成する、
    請求項2記載の情報処理システム。
  4. 関数作成部は、抽出条件要素で指定される抽出条件に基づいて1つ以上の行を抽出する処理、対応条件要素が示す対応条件で指定された対応条件を介して第一の表と第二の表とを対応付ける処理、および、集約方法要素で指定された集約方法に基づいて第二の表の行を集約する処理を行う特徴量生成関数を作成する、
    請求項2または請求項3記載の情報処理システム。
  5. 関数作成部は、抽出条件要素が示す抽出条件と対応条件要素が示す対応条件と集約方法要素が示す集約方法とをそれぞれ1つずつ選択し、選択した条件式、対応条件および集約方法の組合せを生成することで、複数の特徴量生成関数を作成する、
    請求項2から請求項4のうちのいずれか1項に記載の情報処理システム。
  6. 抽出条件要素は、第二の表の列に対する条件式および当該条件式の最大長で表わされ、対応条件要素は、第一の表の列と第二の表の列を対応付ける列のペアで表され、集約方法要素は、第二の表の列に対して行う集約方法で表される、
    請求項3記載の情報処理システム。
  7. 特徴量生成関数は、第一の表および第二の表からデータを抽出するSQL文で定義される、
    請求項1から請求項6のうちのいずれか1項に記載の情報処理システム。
  8. 目的変数を含む第一の表、および、第二の表から前記目的変数に影響を及ぼし得る変数である特徴量を生成するための複数の特徴量生成関数を、予め用意されたテンプレートを用いて生成する関数作成部であって、前記第一の表および前記第二の表はそれぞれ複数の行を含み、且つ前記第一の表の少なくとも1つの行は前記第二の表の複数の行と1対1でない関係を有する、前記関数作成部と、
    前記第一の表および前記第二の表に対して複数の前記特徴量生成関数を適用して複数の前記特徴量を生成する特徴量生成部とを備え、
    前記テンプレートは情報が代入される複数のパラメータを含み、
    前記特徴量生成関数は、前記パラメータに代入する情報の組み合わせと、前記テンプレートとに基づいて生成され、
    前記生成された複数の特徴量は、前記目的変数の値を予測するためのモデルを学習する際に、説明変数の候補として用いられる、
    ことを特徴とする情報処理装置。
  9. プロセッサを有するコンピュータ上で実行される関数作成方法であって、前記プロセッサにより
    目的変数を含む第一の表、および、第二の表から当該目的変数に影響を及ぼし得る変数である特徴量を生成するための特徴量生成関数であって、前記第一の表および前記第二の表はそれぞれ複数の行を含み、且つ前記第一の表の少なくとも1つの行は前記第二の表の複数の行と1対1でない関係を有する、前記特徴量生成関数を作成し、
    前記特徴量生成関数の作成において、前記第一の表と前記第二の表の行の対応条件を表
    わす対応条件要素、および、前記第二の表に含まれるデータを集約する集約方法を表わす集約方法要素の組合せを生成することで、複数の特徴量生成関数作成される、関数作成方法。
  10. コンピュータに、
    目的変数を含む第一の表、および、第二の表から当該目的変数に影響を及ぼし得る変数である特徴量を生成するための特徴量生成関数を作成する関数作成処理を実行させ、前記第一の表および前記第二の表はそれぞれ複数の行を含み、且つ前記第一の表の少なくとも1つの行は前記第二の表の複数の行と1対1でない関係を有し、
    前記関数作成処理で、前記第一の表と前記第二の表の行の対応条件を表わす対応条件要素、および、前記第二の表に含まれるデータを集約する集約方法を表わす集約方法要素の組合せを生成することで、複数の特徴量生成関数を作成させる、
    ための関数作成プログラム。
  11. 前記対応条件は、前記対応条件に含まれる或る列に対する、各行に含まれる特定列の値の類似性に基づき、前記第一の表および前記第二の表における前記列を関連付ける、
    請求項1記載の情報処理システム。
JP2017552365A 2015-11-25 2016-11-14 情報処理システム、関数作成方法および関数作成プログラム Active JP7098327B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562259896P 2015-11-25 2015-11-25
US62/259,896 2015-11-25
PCT/JP2016/083680 WO2017090475A1 (ja) 2015-11-25 2016-11-14 情報処理システム、関数作成方法および関数作成プログラム

Publications (2)

Publication Number Publication Date
JPWO2017090475A1 JPWO2017090475A1 (ja) 2018-09-20
JP7098327B2 true JP7098327B2 (ja) 2022-07-11

Family

ID=58763182

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017552365A Active JP7098327B2 (ja) 2015-11-25 2016-11-14 情報処理システム、関数作成方法および関数作成プログラム

Country Status (5)

Country Link
US (1) US10885011B2 (ja)
EP (1) EP3382572A4 (ja)
JP (1) JP7098327B2 (ja)
CN (1) CN108369584B (ja)
WO (1) WO2017090475A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017090475A1 (ja) 2015-11-25 2017-06-01 日本電気株式会社 情報処理システム、関数作成方法および関数作成プログラム
EP3605363A4 (en) 2017-03-30 2020-02-26 Nec Corporation INFORMATION PROCESSING SYSTEM, CHARACTERISTICS, AND CHARACTERISTICS PROGRAM
WO2019069505A1 (ja) * 2017-10-05 2019-04-11 日本電気株式会社 情報処理装置、結合条件生成方法および結合条件生成プログラム
WO2019069506A1 (ja) * 2017-10-05 2019-04-11 日本電気株式会社 特徴量生成装置、特徴量生成方法および特徴量生成プログラム
SG11202003814TA (en) 2017-10-05 2020-05-28 Dotdata Inc Feature generating device, feature generating method, and feature generating program
JP7257168B2 (ja) * 2019-02-13 2023-04-13 株式会社キーエンス データ分析装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002007435A (ja) 2000-06-20 2002-01-11 Nec Corp 対話的分析データベースシステム及び対話的分析プログラムを記録した記録媒体
JP2011242851A (ja) 2010-05-14 2011-12-01 Nippon Telegr & Teleph Corp <Ntt> 和集合集約処理と等結合処理の組み合わせ方法及びデータベースシステム及びプログラム
JP2015075970A (ja) 2013-10-09 2015-04-20 前田建設工業株式会社 表形式データ処理プログラム、方法、及び装置

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3517345B2 (ja) 1998-02-03 2004-04-12 日本電信電話株式会社 住所情報による異種データの結合処理方法および装置
US6721754B1 (en) 1999-04-28 2004-04-13 Arena Pharmaceuticals, Inc. System and method for database similarity join
JP2002109150A (ja) 2000-09-28 2002-04-12 Fuji Electric Co Ltd 時系列データの適応的予測方法
US6820089B2 (en) 2001-04-05 2004-11-16 International Business Machines Corporation Method and system for simplifying the use of data mining in domain-specific analytic applications by packaging predefined data mining models
US6973459B1 (en) * 2002-05-10 2005-12-06 Oracle International Corporation Adaptive Bayes Network data mining modeling
US20050102303A1 (en) 2003-11-12 2005-05-12 International Business Machines Corporation Computer-implemented method, system and program product for mapping a user data schema to a mining model schema
US7225200B2 (en) 2004-04-14 2007-05-29 Microsoft Corporation Automatic data perspective generation for a target variable
US20060218132A1 (en) * 2005-03-25 2006-09-28 Oracle International Corporation Predictive data mining SQL functions (operators)
US20070203893A1 (en) * 2006-02-27 2007-08-30 Business Objects, S.A. Apparatus and method for federated querying of unstructured data
DE102006017824B4 (de) * 2006-04-13 2018-10-11 Dspace Digital Signal Processing And Control Engineering Gmbh Methode zum Konstruieren einer Diagnosefunktion
JP2008102736A (ja) 2006-10-19 2008-05-01 Toshiba Corp 検索装置および検索方法
US8521689B2 (en) * 2007-04-20 2013-08-27 International Business Machines Corporation Generation of a set of pre-filters from a set of event subscriptions to more efficiently select events of interest
US20120290981A1 (en) * 2010-01-18 2012-11-15 Nec Corporation Information terminal apparatus, operation method by information terminal apparatus and program thereof
JP5527027B2 (ja) 2010-06-04 2014-06-18 富士通株式会社 スキーマ定義生成装置、スキーマ定義生成方法およびスキーマ定義生成プログラム
CA2712028C (en) 2010-08-25 2011-12-20 Ibm Canada Limited - Ibm Canada Limitee Geospatial database integration using business models
JP5457316B2 (ja) 2010-09-13 2014-04-02 株式会社富士通マーケティング レポート作成装置およびそのプログラム
CN103221945B (zh) 2011-03-18 2016-09-14 日本电气株式会社 多变量数据混合模型估计装置、混合模型估计方法
JP5794160B2 (ja) 2012-01-26 2015-10-14 富士通株式会社 説明変数の決定のための情報処理装置、情報処理方法及びプログラム
JP5520330B2 (ja) 2012-02-10 2014-06-11 日本電信電話株式会社 情報取引システム
JP5752621B2 (ja) 2012-03-02 2015-07-22 株式会社日立ソリューションズ東日本 需要予測装置、需要予測プログラムおよび需要予測方法
US9075616B2 (en) * 2012-03-19 2015-07-07 Enterpriseweb Llc Declarative software application meta-model and system for self-modification
US9128991B2 (en) * 2012-04-03 2015-09-08 Sas Institute, Inc. Techniques to perform in-database computational programming
US9201936B2 (en) * 2012-11-13 2015-12-01 International Business Machines Corporation Rapid provisioning of information for business analytics
US9146984B1 (en) * 2013-03-15 2015-09-29 Google Inc. Enhancing queries for data tables with nested fields
US20140279724A1 (en) * 2013-03-15 2014-09-18 Turn Inc. Taxonomy configuration for page analytics and campaign creation
JP6623754B2 (ja) 2013-06-26 2019-12-25 前田建設工業株式会社 表形式データ処理プログラム、方法及び装置
US10452632B1 (en) * 2013-06-29 2019-10-22 Teradata Us, Inc. Multi-input SQL-MR
US20160232213A1 (en) 2013-09-27 2016-08-11 Nec Corporation Information Processing System, Information Processing Method, and Recording Medium with Program Stored Thereon
CN104699717B (zh) * 2013-12-10 2019-01-18 中国银联股份有限公司 数据挖掘方法
US10353923B2 (en) * 2014-04-24 2019-07-16 Ebay Inc. Hadoop OLAP engine
JP6500896B2 (ja) 2014-06-03 2019-04-17 日本電気株式会社 属性列挙システム、属性列挙方法および属性列挙プログラム
US9672474B2 (en) * 2014-06-30 2017-06-06 Amazon Technologies, Inc. Concurrent binning of machine learning data
EP3176744A4 (en) 2014-07-31 2018-01-17 Nec Corporation Behavioral feature prediction system, behavioral feature prediction device, method and program
US9130832B1 (en) * 2014-10-09 2015-09-08 Splunk, Inc. Creating entity definition from a file
CN104408149B (zh) * 2014-12-04 2017-12-12 威海北洋电气集团股份有限公司 基于社交网络分析的犯罪嫌疑人挖掘关联方法及系统
CN104881424B (zh) * 2015-03-13 2018-11-23 华中电网有限公司 一种基于正则表达式的电力大数据采集、存储及分析方法
US10452664B2 (en) * 2015-05-21 2019-10-22 Oracle International Corporation Declarative MapReduce using regular expressions
WO2017090475A1 (ja) 2015-11-25 2017-06-01 日本電気株式会社 情報処理システム、関数作成方法および関数作成プログラム
JP7069029B2 (ja) 2016-10-31 2022-05-17 ドットデータ インコーポレイテッド 自動予測システム、自動予測方法および自動予測プログラム
SG11202003814TA (en) 2017-10-05 2020-05-28 Dotdata Inc Feature generating device, feature generating method, and feature generating program
WO2019069505A1 (ja) 2017-10-05 2019-04-11 日本電気株式会社 情報処理装置、結合条件生成方法および結合条件生成プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002007435A (ja) 2000-06-20 2002-01-11 Nec Corp 対話的分析データベースシステム及び対話的分析プログラムを記録した記録媒体
JP2011242851A (ja) 2010-05-14 2011-12-01 Nippon Telegr & Teleph Corp <Ntt> 和集合集約処理と等結合処理の組み合わせ方法及びデータベースシステム及びプログラム
JP2015075970A (ja) 2013-10-09 2015-04-20 前田建設工業株式会社 表形式データ処理プログラム、方法、及び装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Michele Samorani,DATA MINING FOR ENHANCED OPERATIONS MANAGEMENT DECISION MAKING:APPLICATIONS IN HEALTH CARE,2012年,1-151ページ

Also Published As

Publication number Publication date
JPWO2017090475A1 (ja) 2018-09-20
EP3382572A1 (en) 2018-10-03
CN108369584A (zh) 2018-08-03
WO2017090475A1 (ja) 2017-06-01
CN108369584B (zh) 2022-07-08
EP3382572A4 (en) 2019-07-31
US20180373764A1 (en) 2018-12-27
US10885011B2 (en) 2021-01-05

Similar Documents

Publication Publication Date Title
JP7098327B2 (ja) 情報処理システム、関数作成方法および関数作成プログラム
US11727203B2 (en) Information processing system, feature description method and feature description program
CN107784026B (zh) 一种etl数据处理方法及装置
US11030196B2 (en) Method and apparatus for processing join query
WO2017096892A1 (zh) 索引构建方法、查询方法及对应装置、设备、计算机存储介质
US10706077B2 (en) Performance of distributed databases and database-dependent software applications
TWI673617B (zh) 使用者背景資訊的收集方法及裝置
EP2983117A1 (en) Event processing method in stream processing system and stream processing system
WO2019069505A1 (ja) 情報処理装置、結合条件生成方法および結合条件生成プログラム
Bala et al. P-ETL: Parallel-ETL based on the MapReduce paradigm
CN107291770A (zh) 一种分布式系统中海量数据的查询方法及装置
JP7015319B2 (ja) データ分析支援装置、データ分析支援方法およびデータ分析支援プログラム
CN108197187B (zh) 查询语句的优化方法、装置、存储介质和计算机设备
JP6642435B2 (ja) データ処理装置、データ処理方法、及び、プログラム
CN108073641B (zh) 查询数据表的方法和装置
US20200387505A1 (en) Information processing system, feature description method and feature description program
WO2019069507A1 (ja) 特徴量生成装置、特徴量生成方法および特徴量生成プログラム
CN110874366A (zh) 数据处理、查询方法和装置
US10169418B2 (en) Deriving a multi-pass matching algorithm for data de-duplication
JP7015320B2 (ja) データ分析支援装置、データ分析支援方法およびデータ分析支援プログラム
JP6393193B2 (ja) データ仮想化装置及び大規模データ処理プログラム
WO2016178312A1 (ja) 情報処理装置、情報処理方法および記憶媒体
CN111143356A (zh) 报表检索方法及装置
KR20150077669A (ko) 맵리듀스 방식을 이용한 데이터 분석 방법 및 시스템
KR101638048B1 (ko) 맵리듀스를 이용한 sql 질의처리방법

Legal Events

Date Code Title Description
A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A5211

Effective date: 20180509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180518

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191008

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20200213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20200213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201002

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210407

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220530

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220629

R150 Certificate of patent or registration of utility model

Ref document number: 7098327

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150