JP7345744B2 - データ処理装置 - Google Patents
データ処理装置 Download PDFInfo
- Publication number
- JP7345744B2 JP7345744B2 JP2019127040A JP2019127040A JP7345744B2 JP 7345744 B2 JP7345744 B2 JP 7345744B2 JP 2019127040 A JP2019127040 A JP 2019127040A JP 2019127040 A JP2019127040 A JP 2019127040A JP 7345744 B2 JP7345744 B2 JP 7345744B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- amount
- machine learning
- preprocessed
- rows
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図1は、収集したデータを機械学習に活用するモデルの説明図である。このモデルでは、異なる複数のデータソース10、12、14からデータを収集して前処理16し、前処理されたデータの量を削減してから機械学習処理26に入力する。異なる複数のデータソース10、12、14はそれぞれ異なるデータ形式、異なるデータ量、異なる列を有する。例えば、第1データソース10はcsv形式のファイルを提供し、第2データソース12はテキスト形式のファイルを提供し、第3データソース14はユーザ定義の形式(動画形式、音声形式など)のファイルを提供する。
なお、異なる複数のデータソース10、12、14がそれぞれ有するデータ形式は同じであってもよい。例えば、分析対象のデータが単一のデータベースサーバではなく、複数のデータベースサーバによって分散管理されている場合は、前処理16でデータ結合することによって分析処理可能となる。この場合、前処理16においてフォーマットを正規化する処理は省略される。より具体的には、大量の購買データが分散サーバで管理されており、顧客IDの数字に応じて所定のサーバにデータが自動的に振り分けられる場合に、本実施の形態に係る技術的思想を適用してもよい。
1.特徴のあるデータ単位を元のデータから選ぶ。
2.品質が向上するデータ単位を選択し、ステップ1で選んだデータに追加する。
3.ステップ2を目標のデータ量になるまで繰り返す。
なお、データ処理サーバ102において図示しない目標データ量算出部が、機械学習処理26で一度に処理可能なデータ量の上限を算出して、目標のデータ量として目標設定領域706に表示するようにしてもよい。
比較のため、データ量低減部122において、本実施の形態に係る手法に代えて前処理済みデータからランダムに行を抜き出す手法を採用した例を示す。図13は、出力データを二次元平面にプロットした図である。図13には、図7に示される前処理済みデータに対して本比較例1に係る手法を適用することで得られた出力データを二次元平面にプロットした図が示される。図13のプロットには500行に対応する500個の点が描かれている。
比較のため、データ量低減部122において、本実施の形態に係る手法に代えて前処理済みデータからの1000回のランダム選択からベストなものを選択する手法を採用した例を示す。本比較例2に係る手法では、データの品質を確認しつつ、1000回ランダムに選択し、ベストなものを選ぶ。
本実施の形態に係る手法、比較例1に係る手法、比較例2に係る手法のそれぞれを用いて10000行のデータを500行、100行まで低減したときの計算結果を図19、図20にそれぞれ示す。図19は、10000行のデータを500行に削減したときの計算結果を示す図である。図20は、10000行のデータを100行に削減したときの計算結果を示す図である。「P値(トータル)」は、Xの値について算出されたp値とYの値について算出されたp値との和を表す。「最小値偏差(平均)」は、データの最小値の偏差の平均を表す。「最大値偏差(平均)」は、データの最大値の偏差の平均を表す。「実行時間(秒)」は削減処理に要した時間を表す。
1.本実施の形態に係る技術的思想を、流通関連のビッグデータの機械学習に適用してもよい。例えば、顧客の購買情報(誰がいつどこで何をいくらで買ったかを示す情報)を収集し、本実施の形態に係るデータ量削減手法を用いてデータ量を削減してから機械学習に入力することで、正確な分析結果をより早く入手することができる。
Claims (3)
- 所定のデータ分析処理のために前処理されたデータを取得する手段と、
取得されたデータから分析の対象とするデータ単位を選択することで、取得されたデータよりも少ない量の新たなデータを生成する手段と、
生成された新たなデータを前記所定のデータ分析処理のために出力する手段と、を備え、
前記生成する手段は、取得されたデータの分布の端部に位置するデータ単位の集合である端部集合を含む前記新たなデータを生成し、
前記生成する手段は、前記端部集合を初期値とするデータ追加処理を、目標のデータ量になるまで繰り返すことで、前記新たなデータを生成し、
前記データ追加処理は、
データ単位の開始集合に対して、取得されたデータに含まれる残りのデータ単位のなかから所定数のデータ単位をランダムに選択して追加することで、異なる複数の候補集合を生成する処理と、
異なる複数の候補集合のそれぞれについて品質の指標を算出する処理と、
算出された指標が最も良い候補集合を次の開始集合として選択する処理と、を含むデータ処理装置。 - 前記所定のデータ分析処理は、入力可能なデータの量に上限のある機械学習処理であり、
前記新たなデータの量は前記上限以下である請求項1に記載のデータ処理装置。 - 前記所定のデータ分析処理のための前処理は外れ値を削除する処理を含む請求項1又は2に記載のデータ処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019127040A JP7345744B2 (ja) | 2019-07-08 | 2019-07-08 | データ処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019127040A JP7345744B2 (ja) | 2019-07-08 | 2019-07-08 | データ処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021012592A JP2021012592A (ja) | 2021-02-04 |
JP7345744B2 true JP7345744B2 (ja) | 2023-09-19 |
Family
ID=74227527
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019127040A Active JP7345744B2 (ja) | 2019-07-08 | 2019-07-08 | データ処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7345744B2 (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014525063A (ja) | 2011-06-03 | 2014-09-25 | シーメンス アクチエンゲゼルシヤフト | 殊にガスタービンまたは風力タービンのような技術システムのデータドリブンモデルを計算機支援で形成する方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06102895A (ja) * | 1992-09-18 | 1994-04-15 | N T T Data Tsushin Kk | 音声認識モデル学習装置 |
-
2019
- 2019-07-08 JP JP2019127040A patent/JP7345744B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014525063A (ja) | 2011-06-03 | 2014-09-25 | シーメンス アクチエンゲゼルシヤフト | 殊にガスタービンまたは風力タービンのような技術システムのデータドリブンモデルを計算機支援で形成する方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2021012592A (ja) | 2021-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200057958A1 (en) | Identification and application of hyperparameters for machine learning | |
JP4925143B2 (ja) | ストリームデータ処理システム、ストリームデータ処理方法及びストリームデータ処理プログラム | |
CN107194430B (zh) | 一种样本筛选方法及装置,电子设备 | |
US10140285B2 (en) | System and method for generating phrase based categories of interactions | |
JP2019519027A (ja) | 履歴ログからの学習と、etlツール内のデータアセットに関するデータベースオペレーションの推奨 | |
JP7000766B2 (ja) | 学習データ選択プログラム、学習データ選択方法、および、学習データ選択装置 | |
EP3279806A1 (en) | Data processing method and apparatus | |
US20210026860A1 (en) | Method and device for generating ranking model | |
CN113822440A (zh) | 用于确定机器学习样本的特征重要性的方法及系统 | |
CN116757297A (zh) | 用于选择机器学习样本的特征的方法及系统 | |
US11762730B2 (en) | Selection of outlier-detection programs specific to dataset meta-features | |
CN116882520A (zh) | 针对预定预测问题的预测方法及系统 | |
EP4073978B1 (en) | Intelligent conversion of internet domain names to vector embeddings | |
JP2019105871A (ja) | 異常候補抽出プログラム、異常候補抽出方法および異常候補抽出装置 | |
CN114896291A (zh) | 多智能体模型的训练方法和排序方法 | |
CN110751354B (zh) | 一种异常用户的检测方法和装置 | |
JP2018055551A (ja) | データ変換プログラム、データ変換方法、およびデータ変換装置 | |
CN107644042B (zh) | 软件程序点击率预估排序方法及服务器 | |
KR20190061317A (ko) | 주식 정보 제공 방법 | |
CN109857816B (zh) | 测试样本的选取方法及装置、存储介质、电子设备 | |
JP7345744B2 (ja) | データ処理装置 | |
EP4116889A2 (en) | Method and apparatus of processing event data, electronic device, and medium | |
CN113360672B (zh) | 用于生成知识图谱的方法、装置、设备、介质和产品 | |
US20140324524A1 (en) | Evolving a capped customer linkage model using genetic models | |
CN109857838B (zh) | 用于生成信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220622 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230602 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230609 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230719 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230807 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230822 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7345744 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |