JP7345744B2 - データ処理装置 - Google Patents

データ処理装置 Download PDF

Info

Publication number
JP7345744B2
JP7345744B2 JP2019127040A JP2019127040A JP7345744B2 JP 7345744 B2 JP7345744 B2 JP 7345744B2 JP 2019127040 A JP2019127040 A JP 2019127040A JP 2019127040 A JP2019127040 A JP 2019127040A JP 7345744 B2 JP7345744 B2 JP 7345744B2
Authority
JP
Japan
Prior art keywords
data
amount
machine learning
preprocessed
rows
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019127040A
Other languages
English (en)
Other versions
JP2021012592A (ja
Inventor
賢治 米川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2019127040A priority Critical patent/JP7345744B2/ja
Publication of JP2021012592A publication Critical patent/JP2021012592A/ja
Application granted granted Critical
Publication of JP7345744B2 publication Critical patent/JP7345744B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データ処理装置に関する。
近年では様々なデータを収集できるようになり、多くのビジネスチャンスが生まれている。ウェブやモバイル、IOT等の様々な要因により、収集できるデータの種類や量が爆発的に増えている。このようなデータを機械学習や分析に活用することは、他社との大きな差別要因となってきている。
さらに、機械学習や分析の結果をより早く得ることにより、更にビジネスチャンスが生まれる。店舗やオンライン等で異なるが、1日~1秒単位で結果が求められることもある。従来、機械学習や分析に入力する前のデータに対して、外れ値処理などの前処理を行うことが知られている(例えば、特許文献1、2参照)。
特開2018-139109号公報 特開2018-169994号公報
https://www.trifacta.com/、2019年6月27日検索 https://www.datarobot.com/jp/、2019年6月27日検索
上記の通り扱うデータ量が増えている一方、機械学習や分析ではデータ全量を処理するのが難しいことがある。機械学習や分析にはデータ量に応じて多くのコンピューティング/ディスクリソースが必要となるため、データ量が多くなるとその分多くの費用とコストがかかる。また、機械学習や分析のツールによってはコストや時間、品質を保つために扱えるデータ量に制限があることがある。
本発明はこうした課題に鑑みてなされたものであり、その目的は、扱うデータ量が多くなっても適切に機械学習や分析を行うことができる技術の提供にある。
本発明のある態様は、データ処理装置に関する。このデータ処理装置は、所定のデータ分析処理のために前処理されたデータを取得する手段と、取得されたデータから分析の対象とするデータ単位を選択することで、取得されたデータよりも少ない量の新たなデータを生成する手段と、生成された新たなデータを所定のデータ分析処理のために出力する手段と、を備え、前記生成する手段は、取得されたデータの分布の端部に位置するデータ単位の集合である端部集合を含む前記新たなデータを生成し、前記生成する手段は、前記端部集合を初期値とするデータ追加処理を、目標のデータ量になるまで繰り返すことで、前記新たなデータを生成し、前記データ追加処理は、データ単位の開始集合に対して、取得されたデータに含まれる残りのデータ単位のなかから所定数のデータ単位をランダムに選択して追加することで、異なる複数の候補集合を生成する処理と、異なる複数の候補集合のそれぞれについて品質の指標を算出する処理と、算出された指標が最も良い候補集合を次の開始集合として選択する処理と、を含む
なお、以上の構成要素の任意の組み合わせや、本発明の構成要素や表現を装置、方法、システム、コンピュータプログラム、コンピュータプログラムを格納した記録媒体などの間で相互に置換したものもまた、本発明の態様として有効である。
本発明によれば、扱うデータ量が多くなっても適切に機械学習や分析を行うことができる。
収集したデータを機械学習に活用するモデルの説明図である。 実施の形態に係るデータ処理サーバを含む処理システムの構成を示す模式図である。 図2のデータ処理サーバのハードウエア構成図である。 図2のデータ処理サーバの機能および構成を示すブロック図である。 図2のデータ処理サーバにおける一連の処理の流れを示すフローチャートである。 取得される前処理済みデータの一例を示すデータ構造図である。 図6のデータを二次元平面にプロットした図である。 データ処理サーバにおける一連の処理によるデータの変遷の一例を示す説明図である。 出力データを二次元平面にプロットした図である。 図9の出力データのXの値の分布を示すヒストグラムを示す図である。 図9の出力データのYの値の分布を示すヒストグラムを示す図である。 ユーザ端末のディスプレイに表示される操作画面の代表画面図である。 出力データを二次元平面にプロットした図である。 図13の出力データのXの値の分布を示すヒストグラムを示す図である。 図13の出力データのYの値の分布を示すヒストグラムを示す図である。 出力データを二次元平面にプロットした図である。 図16の出力データのXの値の分布を示すヒストグラムを示す図である。 図16の出力データのYの値の分布を示すヒストグラムを示す図である。 10000行のデータを500行に削減したときの計算結果を示す図である。 10000行のデータを100行に削減したときの計算結果を示す図である。
以下、各図面に示される同一または同等の構成要素、部材、処理には、同一の符号を付するものとし、適宜重複した説明は省略する。また、各図面において説明上重要ではない部材の一部は省略して表示する。
(実施の形態)
図1は、収集したデータを機械学習に活用するモデルの説明図である。このモデルでは、異なる複数のデータソース10、12、14からデータを収集して前処理16し、前処理されたデータの量を削減してから機械学習処理26に入力する。異なる複数のデータソース10、12、14はそれぞれ異なるデータ形式、異なるデータ量、異なる列を有する。例えば、第1データソース10はcsv形式のファイルを提供し、第2データソース12はテキスト形式のファイルを提供し、第3データソース14はユーザ定義の形式(動画形式、音声形式など)のファイルを提供する。
なお、異なる複数のデータソース10、12、14がそれぞれ有するデータ形式は同じであってもよい。例えば、分析対象のデータが単一のデータベースサーバではなく、複数のデータベースサーバによって分散管理されている場合は、前処理16でデータ結合することによって分析処理可能となる。この場合、前処理16においてフォーマットを正規化する処理は省略される。より具体的には、大量の購買データが分散サーバで管理されており、顧客IDの数字に応じて所定のサーバにデータが自動的に振り分けられる場合に、本実施の形態に係る技術的思想を適用してもよい。
前処理16は、異なる複数のデータソース10、12、14のそれぞれからファイルなどのデータを取得し、取得した複数のデータに前処理を行ってひとつの前処理済みデータを生成する。前処理16は例えば非特許文献1に記載される公知の前処理技術を用いて実現されてもよい。
前処理16は、フォーマット正規化18と、データ結合20と、名寄せ22と、外れ値処理24と、を含む。フォーマット正規化18は、異なる複数のデータソース10、12、14のそれぞれから取得したデータの形式を、機械学習処理26への入力に適したひとつの形式に変換する。すなわち、フォーマット正規化18は異なる複数のデータソース10、12、14からの複数のデータの形式を正規化する。
データ結合20は、フォーマット正規化18で形式が揃った複数のデータを結合する。名寄せ22は、結合により得られるひとつのデータにおいて名寄せ処理を行う。外れ値削除24は、名寄せの済んだデータに対して外れ値削除を行う。外れ値削除は、例えば特許文献1、2に記載される公知の技術を用いて実現されてもよい。
実施の形態に係るデータ量削減処理100は、データ前処理後、機械学習や分析の前に用いられる。データ量削減処理100は、機械学習処理26のために前処理されたデータを前処理16から取得し、取得されたデータから機械学習の対象とする行やエントリなどのデータ単位を選択することで、取得されたデータよりも少ない量の新たなデータを生成し、生成された新たなデータを機械学習処理26のために出力する。
データ量削減処理100の段階では、データの前処理(クレンジング)は終わっている。このような前処理は、上述のような想定外の値を削除する外れ値処理や、複数カラムをまとめて新しいカラムを作成する処理などを含む。データ量削減処理100は、これらの前処理が全て終わった後に行われる。本実施の形態では、前処理の後にデータ量削減処理100を実施するため、処理時間の短縮やコスト削減を目的としたユースケースにフィットする。
機械学習処理26は、データ量削減処理100においてデータ量が削減されたデータを受ける。機械学習処理26自体は例えば非特許文献2に記載されるような公知の機械学習技術を用いて実現されてもよい。
機械学習処理26は、入力可能なデータの量に上限があってもよい。一般的に、データ量、行数、カラム数の制約がある。例えば、機械学習処理26に一度に入力できるデータ量は5GBに制限される。これは、機械学習処理26にかかるコストや時間、品質を保つためである。データ量削減処理100において目標とされる削減後のデータの量は、上記の上限以下に設定される。
図1に示されるように、データ量削減処理100においてデータ量を削減してから機械学習や分析を行うことで、扱うデータ量が多くなっても適切に機械学習や分析を行うことができる。すなわち、機械学習処理26に入力されるデータの量が抑えられるので、機械学習処理26にかかるコストを低減し、また機械学習処理26にかかる時間を低減することができる。
本発明者は、図1に示されるデータ量削減のスキームをさらに詳細に検討した結果、以下の追加的な課題を認識するに至った。一般に、データの量を減らすと、データの特徴や品質が低下する。データの特徴や品質が低下すると、そのようなデータを受け取る機械学習や分析の精度も損なわれうる。
そこで、本実施の形態では、データの特徴を保持し、データの品質を保つことでデータ削減の課題である精度の低下をできるだけ低減する手法を提案する。
図2は、実施の形態に係るデータ処理サーバ102を含む処理システム30の構成を示す模式図である。処理システム30は、データ処理サーバ102と、ユーザ端末104と、を備える。データ処理サーバ102とユーザ端末104とはインターネットなどのネットワーク106を介して通信可能に接続されている。ユーザ端末104は、ユーザが用いる端末であり、例えばデスクトップPC、ラップトップPC、携帯端末などであってもよい。データ処理サーバ102は、例えば図1の前処理16、データ量削減処理100および機械学習処理26を行う機能を有する。あるいはまた、前処理16や機械学習処理26はデータ処理サーバ102とは異なる、データ処理サーバ102とネットワーク106を介して接続されたサーバで実現されてもよい。
本実施の形態では、ユーザがユーザ端末104に情報を入力し、ユーザ端末104が該情報をネットワーク106を介してデータ処理サーバ102に送信し、データ処理サーバ102が該情報を処理し、処理結果をネットワーク106を介してユーザ端末104に返し、ユーザ端末104が処理結果をディスプレイ108に表示する、いわゆるASP(Application Service Provider)を想定する。しかしながら、本実施の形態の技術的思想は、スタンドアローンの端末にデータ処理サーバ102の機能を実装し、ユーザがその端末に情報を入力し、処理結果を得る場合など、ASP以外のシステムにも適用可能である。
図3は、図2のデータ処理サーバ102のハードウエア構成図である。データ処理サーバ102は、メモリ110と、プロセッサ112と、通信インタフェース114と、ディスプレイ108と、入力インタフェース1118と、を備える。これらの要素はそれぞれバス120に接続され、バス120を介して互いに通信する。
メモリ110は、データやプログラムを記憶するための記憶領域である。データやプログラムは、メモリ110に恒久的に記憶されてもよいし、一時的に記憶されてもよい。プロセッサ112は、メモリ110に記憶されているプログラムを実行することにより、データ処理サーバ102の各種機能を実現する。通信インタフェース114は、データ処理サーバ102の外部との間でデータの送受信を行うためのインタフェースである。通信インタフェース114はネットワーク106と接続され、ネットワーク106を介して、ユーザ端末104とデータをやりとりする。ディスプレイ108は、各種情報を表示するためのデバイスである。入力インタフェース118は、本サービスの管理者からの入力を受け付けるためのデバイスである。
図4は、図2のデータ処理サーバ102の機能および構成を示すブロック図である。ここに示す各ブロックは、ハードウエア的には、コンピュータのCPUをはじめとする素子や機械装置で実現でき、ソフトウエア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウエア、ソフトウエアの組合せによっていろいろなかたちで実現できることは、本明細書に触れた当業者には理解されるところである。
データ処理サーバ102は、データ取得部120と、データ量低減部122と、データ出力部132と、表示制御部134と、を備える。データ取得部120は、機械学習処理26のために前処理されたデータを取得する。データ量低減部122は、取得されたデータから分析の対象とする行を選択することで、取得されたデータよりも少ない量の新たなデータを生成する。データ出力部132は、生成された新たなデータを機械学習処理26のために出力する。データ量低減部122は、端部集合選択部124と、候補集合生成部126と、品質指標算出部128と、評価部130と、を含む。
図5は、図2のデータ処理サーバ102における一連の処理の流れを示すフローチャートである。以下、図4および図5を参照してデータ処理サーバ102の各部の機能を説明する。
データ取得部120は、前処理済みデータを取得する(S502)。図6は、取得される前処理済みデータの一例を示すデータ構造図である。この例では、前処理済みデータは、Xの値602とYの値604との組からなる行(データ単位)を10000個(10000行)含む。ヒストグラム606はXの値602の分布を示し、ヒストグラム608はYの値604の分布を示す。図7は、図6のデータを二次元平面にプロットした図である。横軸をXの値602、縦軸をYの値604としている。図7のプロットには10000行に対応する10000個の点が描かれている。
図4、5に戻り、端部集合選択部124は データ取得部120によって取得された前処理済みデータの分布の端部に位置する行の集合である端部集合を選択する(S504)。端部集合は、例えば図6、図7の破線で囲まれた部分に対応する行からなる集合である。端部集合はユーザにより指定されてもよいし、機械学習などにより自動で選択されてもよい。本実施の形態に係る手法では、データの行数を、特徴、品質を担保したまま削減する。本発明者の独自の検討によると、データの特徴は主にデータの分布の端部に位置するデータ単位に現れる。したがって、まず前処理済みデータの端部集合を選択して出力に組み入れることで、前処理済みデータの特徴を保持する。
候補集合生成部126は、端部集合選択部124によって選択された端部集合をデータ追加処理の初期値として取得し、該端部集合をデータ追加処理の開始集合として特定する(S506)。データ追加処理は、以下に説明する候補集合生成部126、品質指標算出部128および評価部130における処理を含む。データ量低減部122は、端部集合を初期値とするデータ追加処理を、目標のデータ量になるまで繰り返すことで、前処理済みデータよりも量の少ない出力データを生成する。
目標のデータ量は相対的に設定されてもよく、この場合、例えば前処理済みデータの80%、50%などのように設定されてもよい。あるいはまた、目標のデータ量は絶対的に設定されてもよく、この場合、例えば機械学習処理26に入力可能な最大データ量に設定されてもよいし、それよりも所定のマージン量だけ少ない量に設定されてもよい。なお、機械学習処理26に入力可能な最大データ量は、データ処理サーバ102において図示しない目標データ量算出部が算出するようにしてもよい。
候補集合生成部126は、取得された前処理済みデータに含まれる残りの行のなかから所定数の行をランダムに選択する(S508)。残りの行は、その時点でまだ開始集合に含まれていない行である。所定数は処理の負荷や処理時間を考慮しシミュレーションや試験等により決定されてもよい。
候補集合生成部126は、ステップS506または後述のステップS516において特定された開始集合に対して、ステップS508で選択された所定数の行を追加することで、ひとつの候補集合を生成する(S510)。
候補集合生成部126は、その時点までに生成された候補集合の数がN(Nは2以上の自然数)に到達したか否か判定する(S512)。Nは処理の負荷や処理時間を考慮しシミュレーションや試験等により決定されてもよい。候補集合の数がNに満たない場合(S512のN)、候補集合生成部126はステップS508に戻って新たな候補集合を生成する。ステップS508、S510およびS512の処理ループにより、N個のそれぞれ異なる候補集合が生成される。
候補集合の数がNに到達すると(S512のY)、品質指標算出部128は生成されたN個の候補集合のそれぞれについて品質の指標を算出する(S514)。本実施の形態では、前処理済みデータの品質を保持するために、品質の指標を利用してデータ削減前後の差を減らすまたは最小化する。用いられる指標は例えばデータの類似度を表す指標であり、具体的にはコルモゴロフ・スミルノフ検定(Kolmogorov-Smirnov test)や信頼区間(confidence interval)等で得られる指標であってもよい。本実施の形態では、コルモゴロフ・スミルノフ検定のp値(pvalue)を指標として用いる。p値は0と1との間の値をとり、1に近いほど元のデータと類似していることを示す。
評価部130は、ステップS514で算出された指標が最も良い候補集合を次の開始集合として選択する(S516)。例えば、評価部130は、ステップS514で算出されたN個のp値のうちの最大値を特定し、特定された最大値を与える候補集合を次の開始集合として選択する。
評価部130は、ステップS516で選択された開始集合のデータ量が目標のデータ量に到達したか否か判定する(S518)。開始集合のデータ量が目標のデータ量に満たない場合(S518のN)、処理はステップS508に戻り、新たな開始集合で次のデータ追加処理が行われる。開始集合のデータ量が目標のデータ量に到達した場合(S518のY)、データ出力部132は、ステップS516で選択された開始集合を出力データとして出力する。
図8は、データ処理サーバ102における一連の処理によるデータの変遷の一例を示す説明図である。データプロット802は、図5のステップS502で取得された前処理済みデータに対応し、図7のデータプロット(10000行)と同じである。データプロット802に示される前処理済みデータに対してステップS504において端部集合が選択される。データプロット804は端部集合に対応する。ステップS508、S510、S512において、データプロット804に対応する端部集合を開始集合としてN個の候補集合が生成される。データプロット806_1、806_2、806_3はこのように生成されたN個の候補集合のうちの三つに対応する。ステップS514においてN個の候補集合のそれぞれに対してp値が算出され、ステップS516において算出されたp値が最大の候補集合が次の開始集合として選択される。データプロット806_1、806_2、806_3のそれぞれに対応する候補集合に対してp=0.8、p=0.7、p=0.6と算出される。p=0.8がN個の算出されたp値のなかで最大であるから、次の開始集合としてp=0.8を与えるデータプロット806_1に対応する候補集合が選択される。ステップS518において、このように選択された次の開始集合(データプロット806_1)のデータ量と目標データ量(例えば、500行)とが比較され、前者が後者に満たないので次のデータ追加処理が行われる。
ステップS508、S510、S512において、データプロット806_1に対応する開始集合からN個の候補集合が生成される。データプロット808_1、808_2、808_3はこのように生成されたN個の候補集合のうちの三つに対応する。ステップS514において、データプロット808_1、808_2、808_3のそれぞれに対応する候補集合に対してp=0.9、p=0.8、p=0.6と算出される。p=0.9がN個の算出されたp値のなかで最大であるから、次の開始集合としてp=0.9を与えるデータプロット808_1に対応する候補集合が選択される。ステップS518において、このように選択された次の開始集合(データプロット808_1)のデータ量と目標データ量とが比較され、前者が後者に満たないので次のデータ追加処理が行われる。
ステップS508、S510、S512において、データプロット808_1に対応する開始集合からN個の候補集合が生成される。データプロット810_1、810_2、810_3はこのように生成されたN個の候補集合のうちの三つに対応する。ステップS514において、データプロット810_1、810_2、810_3のそれぞれに対応する候補集合に対してp=0.9、p=0.6、p=0.5と算出される。p=0.9がN個の算出されたp値のなかで最大であるから、次の開始集合としてp=0.9を与えるデータプロット810_1に対応する候補集合が選択される。ステップS518において、このように選択された次の開始集合(データプロット810_1)のデータ量と目標データ量とが比較され、前者が後者に到達したと判定される。ステップS520において、次の開始集合(データプロット810_1)が出力データとして出力される。この場合、前処理済みデータの行数は10000行、出力データの行数は500行であり、データ量が10000行から500行まで減らされる。
このように、本実施の形態の手法では、以下のステップでデータを削減する。
1.特徴のあるデータ単位を元のデータから選ぶ。
2.品質が向上するデータ単位を選択し、ステップ1で選んだデータに追加する。
3.ステップ2を目標のデータ量になるまで繰り返す。
図12は、ユーザ端末104のディスプレイ108に表示される操作画面700の代表画面図である。表示制御部134は、ネットワーク106を介してユーザ端末104から、削減対象の前処理済みデータの指定を含む要求を受信すると、操作画面700に対応する画面情報をユーザ端末104にネットワーク106を介して送信する。ユーザ端末104は、受信した画面情報に基づいて、ディスプレイ108に操作画面700を表示させる。
操作画面700は、元データ表示領域702と、削減後データ表示領域704と、目標設定領域706と、アルゴリズム設定領域708と、削減ボタン710と、を有する。元データ表示領域702には、指定された前処理済みデータのプロット712と、該データのXの値のヒストグラム714と、該データのYの値のヒストグラム716と、が表示される。
目標設定領域706には、指定された前処理済みデータのデータ量が行数718およびサイズ720で表示される。目標設定領域706は、ユーザに、目標のデータ量を行数で入力させる行数入力領域722と、目標のデータ量をサイズで入力させるサイズ入力領域724と、を有する。
アルゴリズム設定領域708は、品質の指標を算出するためのアルゴリズムを選択可能に構成される。
ユーザは、目標設定領域706の行数入力領域722またはサイズ入力領域724に目標のデータ量を入力し、アルゴリズム設定領域708で所望のアルゴリズムを選択し、削減ボタン710を押し下げる。ユーザ端末104は、入力された目標のデータ量および選択されたアルゴリズムを含む削減処理要求を生成し、ネットワーク106を介してデータ処理サーバ102に送信する。データ処理サーバ102は、指定された目標のデータ量および選択されたアルゴリズムに基づいて、上述のように前処理済みデータの量を削減する。
なお、データ処理サーバ102において図示しない目標データ量算出部が、機械学習処理26で一度に処理可能なデータ量の上限を算出して、目標のデータ量として目標設定領域706に表示するようにしてもよい。
削減後データ表示領域704には、データ処理サーバ102における削減処理の結果得られる出力データ(削減後のデータ)のプロット726と、該データのXの値のヒストグラム728と、該データのYの値のヒストグラム730と、が表示される。
なお、ユーザによる端部集合の指定を受け付けるためのインタフェースを操作画面700に設けてもよい。
本実施の形態に係るデータ処理サーバ102によると、特徴のあるデータを先に選択し、品質が向上するデータを徐々に追加することで、出力されるデータの特徴と品質とを担保することができる。
図9は、出力データを二次元平面にプロットした図である。図9には、図7に示される前処理済みデータに対して本実施の形態に係る手法を適用することで得られた出力データを二次元平面にプロットした図が示される。図9のプロットには500行に対応する500個の点が描かれている。
図10は、図9の出力データのXの値の分布を示すヒストグラム906を示す図である。ヒストグラム906において、前処理済みデータの分布は濃い実線922で示され、出力データの分布は薄い実線920で示される。濃い実線922の形状と薄い実線920の形状との一致度が高いので、算出されるp値は大きくなる。
図11は、図9の出力データのYの値の分布を示すヒストグラム908を示す図である。ヒストグラム908において、前処理済みデータの分布は濃い実線926で示され、出力データの分布は薄い実線924で示される。濃い実線926の形状と薄い実線924の形状との一致度が高いので、算出されるp値は大きくなる。
図9、図10、図11の実線の円で囲まれる部分に現れている通り、本実施の形態に係る手法によると、前処理済みデータの分布の端部に対応する行が、出力データにおいても保持されている。したがって、前処理済みデータの特徴を維持したままデータ量を削減することができる。また、データ追加処理において品質の指標が最も高い候補集合を選択するので、前処理済みデータと出力データとの類似度を高く保つことができる。
(比較例1)
比較のため、データ量低減部122において、本実施の形態に係る手法に代えて前処理済みデータからランダムに行を抜き出す手法を採用した例を示す。図13は、出力データを二次元平面にプロットした図である。図13には、図7に示される前処理済みデータに対して本比較例1に係る手法を適用することで得られた出力データを二次元平面にプロットした図が示される。図13のプロットには500行に対応する500個の点が描かれている。
図14は、図13の出力データのXの値の分布を示すヒストグラム930を示す図である。ヒストグラム930において、前処理済みデータの分布は濃い実線936で示され、出力データの分布は薄い実線934で示される。濃い実線936の形状と薄い実線934の形状との一致度は図10のそれと比べて低いので、p値もより小さくなる。
図15は、図13の出力データのYの値の分布を示すヒストグラム932を示す図である。ヒストグラム932において、前処理済みデータの分布は濃い実線940で示され、出力データの分布は薄い実線938で示される。濃い実線940の形状と薄い実線938の形状との一致度は図11のそれと比べて低いので、p値もより小さくなる。
このように、ランダムに行を抜き出す手法では、得られる出力データの品質が比較的低くなる。また、図13、図14、図15から分かる通り、前処理済みデータの特徴を表す端部の行の多くが出力データでは欠落している。したがって、特徴が保持されているとも言い難い。
(比較例2)
比較のため、データ量低減部122において、本実施の形態に係る手法に代えて前処理済みデータからの1000回のランダム選択からベストなものを選択する手法を採用した例を示す。本比較例2に係る手法では、データの品質を確認しつつ、1000回ランダムに選択し、ベストなものを選ぶ。
図16は、出力データを二次元平面にプロットした図である。図16には、図7に示される前処理済みデータに対して本比較例2に係る手法を適用することで得られた出力データを二次元平面にプロットした図が示される。図16のプロットには500行に対応する500個の点が描かれている。
図17は、図16の出力データのXの値の分布を示すヒストグラム950を示す図である。ヒストグラム950において、前処理済みデータの分布は濃い実線956で示され、出力データの分布は薄い実線954で示される。濃い実線956の形状と薄い実線954の形状との一致度は図10のそれとほぼ同等であるから、p値もほぼ同じ値となる。
図18は、図16の出力データのYの値の分布を示すヒストグラム952を示す図である。ヒストグラム952において、前処理済みデータの分布は濃い実線960で示され、出力データの分布は薄い実線958で示される。濃い実線960の形状と薄い実線958の形状との一致度は図11のそれとほぼ同等であるから、p値もほぼ同じ値となる。
このように、1000回のランダム選択からベストなものを選択する手法で得られる出力データの品質は、本実施の形態で得られる出力データの品質と遜色ない。しかしながら、図16、図17、図18から分かる通り、前処理済みデータの特徴を表す端部の行の多くが、本比較例2で得られる出力データでは欠落している。したがって、特徴が保持されているとは言い難い。また、品質に関してもランダム選択が入る以上毎回同程度の品質が得られるわけではなく、確率論になってしまう。
(計算例)
本実施の形態に係る手法、比較例1に係る手法、比較例2に係る手法のそれぞれを用いて10000行のデータを500行、100行まで低減したときの計算結果を図19、図20にそれぞれ示す。図19は、10000行のデータを500行に削減したときの計算結果を示す図である。図20は、10000行のデータを100行に削減したときの計算結果を示す図である。「P値(トータル)」は、Xの値について算出されたp値とYの値について算出されたp値との和を表す。「最小値偏差(平均)」は、データの最小値の偏差の平均を表す。「最大値偏差(平均)」は、データの最大値の偏差の平均を表す。「実行時間(秒)」は削減処理に要した時間を表す。
図19、図20に示されるように、本実施の形態に係る手法で削減されたデータは、比較例1、2に係る手法で削減されたデータよりも元のデータとの類似度が高く、元のデータの特徴をも維持している。また、本実施の形態に係る手法の実行時間は許容範囲内に収まっている。
(応用例)
1.本実施の形態に係る技術的思想を、流通関連のビッグデータの機械学習に適用してもよい。例えば、顧客の購買情報(誰がいつどこで何をいくらで買ったかを示す情報)を収集し、本実施の形態に係るデータ量削減手法を用いてデータ量を削減してから機械学習に入力することで、正確な分析結果をより早く入手することができる。
例えば、大口顧客がごく少数で、大多数が小口顧客の訓練データがあり、この訓練データの量を削減する際に、大口顧客のデータが除かれてしまうと、機械学習や分析時に全て小口顧客の情報ベースで結果が出てしまう。これにより、大口顧客の推測、分析が非常にブレのあるものになってしまう。一例では、実際は商品購入数が従業員数の1.1乗の場合に、従業員数10以下の訓練データしかない場合は、機械学習により購入数=従業員数と推測される可能性がある。その機械学習により得られるモデルで従業員数が大きい場合を分析した場合、分析結果に大きなズレが発生しうる。例えば、従業員数が1000人であればモデルは購入数を1000と予測する。しかしながら、1.1乗にしたがえば正しくは1995個である。
そこで、本実施の形態に係る手法を適用すると、訓練データの特徴すなわち大口顧客のデータが削減の前後で保持される。したがって、より適切な結果を出力するようなモデルを機械学習により生成できる。
2.本実施の形態に係る技術的思想を、病気検知のための機械学習に適用してもよい。様々なデータから病気の陽性、陰性を検知する場合、陽性の割合が非常に小さいため、機械学習のアルゴリズムによっては全て陰性と推測する場合がある。仮に陽性:陰性=1:99の場合、全て陰性だと判定しても99%の的中率となるため、「精度」は高いと判定されるからである。しかしながら、このような病気検知は陽性を正しく判定するのが目的のため、全て陰性だと判定してしまう機械学習は役に立たない。
そこで、本実施の形態に係る手法を適用すると、訓練データの特徴すなわち陽性に対応するデータが削減の前後で保持される。したがって、より適切な病気検知の結果を出力するようなモデルを機械学習により生成できる。例えば、元の訓練データで陽性:陰性=1:99である場合、データ削減後には陽性:陰性=1:9となり、そのような訓練データで訓練されたモデルは病気の陽性をより適切に判断できる。
以上、実施の形態に係るデータ処理サーバ102の構成と動作について説明した。この実施の形態は例示であり、各構成要素や各処理の組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解される。
実施の形態では、機械学習処理26に入力するためのデータの量を削減する場合を説明したが、これに限られない。機械学習を含む所定のデータ分析処理に入力するためのデータの量を削減する場合に、本実施の形態に係る技術的思想を適用してもよい。
10 第1データソース、 16 前処理、 26 機械学習処理、 100 データ量削減処理、 102 データ処理サーバ。

Claims (3)

  1. 所定のデータ分析処理のために前処理されたデータを取得する手段と、
    取得されたデータから分析の対象とするデータ単位を選択することで、取得されたデータよりも少ない量の新たなデータを生成する手段と、
    生成された新たなデータを前記所定のデータ分析処理のために出力する手段と、を備え
    前記生成する手段は、取得されたデータの分布の端部に位置するデータ単位の集合である端部集合を含む前記新たなデータを生成し、
    前記生成する手段は、前記端部集合を初期値とするデータ追加処理を、目標のデータ量になるまで繰り返すことで、前記新たなデータを生成し、
    前記データ追加処理は、
    データ単位の開始集合に対して、取得されたデータに含まれる残りのデータ単位のなかから所定数のデータ単位をランダムに選択して追加することで、異なる複数の候補集合を生成する処理と、
    異なる複数の候補集合のそれぞれについて品質の指標を算出する処理と、
    算出された指標が最も良い候補集合を次の開始集合として選択する処理と、を含むデータ処理装置。
  2. 前記所定のデータ分析処理は、入力可能なデータの量に上限のある機械学習処理であり、
    前記新たなデータの量は前記上限以下である請求項1に記載のデータ処理装置。
  3. 前記所定のデータ分析処理のための前処理は外れ値を削除する処理を含む請求項1又は2に記載のデータ処理装置。
JP2019127040A 2019-07-08 2019-07-08 データ処理装置 Active JP7345744B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019127040A JP7345744B2 (ja) 2019-07-08 2019-07-08 データ処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019127040A JP7345744B2 (ja) 2019-07-08 2019-07-08 データ処理装置

Publications (2)

Publication Number Publication Date
JP2021012592A JP2021012592A (ja) 2021-02-04
JP7345744B2 true JP7345744B2 (ja) 2023-09-19

Family

ID=74227527

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019127040A Active JP7345744B2 (ja) 2019-07-08 2019-07-08 データ処理装置

Country Status (1)

Country Link
JP (1) JP7345744B2 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014525063A (ja) 2011-06-03 2014-09-25 シーメンス アクチエンゲゼルシヤフト 殊にガスタービンまたは風力タービンのような技術システムのデータドリブンモデルを計算機支援で形成する方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06102895A (ja) * 1992-09-18 1994-04-15 N T T Data Tsushin Kk 音声認識モデル学習装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014525063A (ja) 2011-06-03 2014-09-25 シーメンス アクチエンゲゼルシヤフト 殊にガスタービンまたは風力タービンのような技術システムのデータドリブンモデルを計算機支援で形成する方法

Also Published As

Publication number Publication date
JP2021012592A (ja) 2021-02-04

Similar Documents

Publication Publication Date Title
US20200057958A1 (en) Identification and application of hyperparameters for machine learning
JP4925143B2 (ja) ストリームデータ処理システム、ストリームデータ処理方法及びストリームデータ処理プログラム
CN107194430B (zh) 一种样本筛选方法及装置,电子设备
US10140285B2 (en) System and method for generating phrase based categories of interactions
JP2019519027A (ja) 履歴ログからの学習と、etlツール内のデータアセットに関するデータベースオペレーションの推奨
JP7000766B2 (ja) 学習データ選択プログラム、学習データ選択方法、および、学習データ選択装置
EP3279806A1 (en) Data processing method and apparatus
US20210026860A1 (en) Method and device for generating ranking model
CN113822440A (zh) 用于确定机器学习样本的特征重要性的方法及系统
CN116757297A (zh) 用于选择机器学习样本的特征的方法及系统
US11762730B2 (en) Selection of outlier-detection programs specific to dataset meta-features
CN116882520A (zh) 针对预定预测问题的预测方法及系统
EP4073978B1 (en) Intelligent conversion of internet domain names to vector embeddings
JP2019105871A (ja) 異常候補抽出プログラム、異常候補抽出方法および異常候補抽出装置
CN114896291A (zh) 多智能体模型的训练方法和排序方法
CN110751354B (zh) 一种异常用户的检测方法和装置
JP2018055551A (ja) データ変換プログラム、データ変換方法、およびデータ変換装置
CN107644042B (zh) 软件程序点击率预估排序方法及服务器
KR20190061317A (ko) 주식 정보 제공 방법
CN109857816B (zh) 测试样本的选取方法及装置、存储介质、电子设备
JP7345744B2 (ja) データ処理装置
EP4116889A2 (en) Method and apparatus of processing event data, electronic device, and medium
CN113360672B (zh) 用于生成知识图谱的方法、装置、设备、介质和产品
US20140324524A1 (en) Evolving a capped customer linkage model using genetic models
CN109857838B (zh) 用于生成信息的方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220622

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230602

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230609

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230719

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230807

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230822

R150 Certificate of patent or registration of utility model

Ref document number: 7345744

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150