CN112182076A - 一种联合不同来源数据的变量选择方法 - Google Patents

一种联合不同来源数据的变量选择方法 Download PDF

Info

Publication number
CN112182076A
CN112182076A CN202010867343.3A CN202010867343A CN112182076A CN 112182076 A CN112182076 A CN 112182076A CN 202010867343 A CN202010867343 A CN 202010867343A CN 112182076 A CN112182076 A CN 112182076A
Authority
CN
China
Prior art keywords
data
model
variables
variable
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010867343.3A
Other languages
English (en)
Inventor
王晓霖
郑乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan XW Bank Co Ltd
Original Assignee
Sichuan XW Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan XW Bank Co Ltd filed Critical Sichuan XW Bank Co Ltd
Priority to CN202010867343.3A priority Critical patent/CN112182076A/zh
Publication of CN112182076A publication Critical patent/CN112182076A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Pure & Applied Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Evolutionary Computation (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明一种联合不同来源数据的变量选择方法,包括:A.数据获取;B.数据清洗;C.建立模型,得到需要优化的损失函数;D.根据惩罚函数和损失函数得到目标函数;E.对目标函数求解最优系数。本发明针对不同来源的数据集,且数据集的变量间含有组结构的应用问题提出了一种可以同时进行模型估计和变量选择的模型预测方法,其中提出了三层变量选择惩罚函数,可应用于变量间含组结构的多源异构数据整合分析中,解决了变量含组结构的整合分析问题。并且本发明用一个模型同时解决了不同来源数据集模型估计和变量选择的问题,节约了计算资源和简化了模型建立步骤,并且预测效果优于将数据集直接合并或者分别建立模型等方法。

Description

一种联合不同来源数据的变量选择方法
技术领域
本发明涉及数据建模技术领域,尤其涉及一种联合不同来源数据的变量选择方法。
背景技术
大数据通常是由来源、主体或格式不同的数据合并而成,例如来自不同地区的调查数据,来自不同市场的金融数据,来自不同实验室的基因数据等。这种基于多个数据集的建模十分常见,但它的建模比较特殊。
一方面,由于不同来源的数据存在差异,各不同数据源的同一变量的系数显著性和估计值可能存在差异,目前传统的处理方法是简单合并所有样本,建立统一模型,但是这种方法过于笼统,忽略了数据间的异质性;另一方面,如果针对各数据集分别建立模型,会忽略各个数据集间的关联性。同时数据的维度越来越高,结构越来越复杂,样本量远小于维度的情况是很常见的,整合分析也是解决“大p小n”问题的有效方法。它综合多个数据集而增加了样本量,是解决小样本高维问题的有效途径。
目前现有技术主要是将含组结构的双层变量选择思想应用到整合分析中,若解释变量呈现出组结构,双层变量选择方法可以使惩罚函数能同时进行组间变量与组内变量的筛选,将双层变量的思想应用到整合分析中,不仅可以筛选出显著的变量还可以识别出它在哪些数据集上显著。但是基于惩罚函数方法的整合分析主要是借鉴了双层变量选择的思想,若此时多源数据集中的解释变量呈现出组结构,那么现有的双层变量选择则不能解决这种考虑组结构的多源数据集的整合分析了。
发明内容
基于上述问题本发明提供一种联合不同来源数据的变量选择方法,提出三层变量选择惩罚函数,可应用于变量间含组结构的多源异构数据整合分析中,解决了变量含组结构的整合分析问题。
本发明一种联合不同来源数据的变量选择方法,包括:
A.建立存放数据信息的数据库,获取各种不同来源的数据集并保存在数据库中;
B.在代码模块中对获取的不同来源的数据集进行数据清洗得到干净数据,并将数据集分为训练集和测试集;
C.根据需求方的预测目标在训练集上建立模型,根据模型表达式和损失函数形式,得到需要优化的损失函数;
D.根据适用于变量含组结构的多源异构数据整合分析的三层变量选择方法,采用MCP惩罚函数,并且根据步骤C所述损失函数和惩罚函数建立最优化问题的目标函数;
E.对最优化问题的目标函数中的损失函数进行二次近似得到近似后的目标函数,对近似后的目标函数求解最优系数从而得到最优模型。
本发明针对不同来源的数据集,且数据集的变量间含有组结构的应用问题提出了一种可以同时进行模型估计和变量选择的模型预测方法,其中提出了三层变量选择惩罚函数,可应用于变量间含组结构的多源异构数据整合分析中,解决了变量含组结构的整合分析问题。并且本发明用一个模型同时解决了不同来源数据集模型估计和变量选择的问题,节约了计算资源和简化了模型建立步骤,并且预测效果优于将数据集直接合并或者分别建立模型等方法。
进一步的,步骤A包括:
建立一个存放各种数据信息的数据库平台,将各种来源不同的数据存储在数据库中,可以通过SQL连接数据库平台查询数据;
建立一个平台,该平台包含数据集模块、SQL模块代码模块和模型模块等;
所述数据集模块根据SQL连接数据库平台查询所需数据并保存或者从本地导入所需数据并保存,所需数据包括变量信息和样本信息。
进一步的,步骤B包括:
根据数据清洗规则,在平台的代码模块编写不同解释变量的清洗代码,保存并执行代码获得可以入模的干净数据;
确定训练集和测试集样本量之间的比例,根据所述比例对数据集进行划分获得训练集和测试集。
进一步,步骤C包括:
根据需要预测的二分类变量选择logistic回归模型,得到数据集的损失函数为:
Figure BDA0002648654500000021
其中m表示第m个数据集;nm表示第m个数据集中有nm个观察值;总样本量为
Figure BDA0002648654500000022
被解释变量ym为nm×1向量,是二分类变量;解释变量Xm是维度为nm×d的矩阵;定义
Figure BDA0002648654500000023
为截距项,
Figure BDA0002648654500000024
为第m个数据集中第j个变量的系数;
Figure BDA0002648654500000025
表示第j个变量在M个数据集上的系数;
Figure BDA0002648654500000026
Figure BDA0002648654500000027
为第m个数据集所有解释变量的系数;
Figure BDA0002648654500000028
Figure BDA0002648654500000029
所述每个变量都会有M个回归系数,它们属于同一解释变量,相互之间存在关联,但又归属于不同数据集,所以也存在一定的差异。
进一步的,步骤D包括:
根据适用于变量含组结构的多源异构数据整合分析的三层变量选择惩罚函数,每一层都选择MCP惩罚函数,根据M个不同来源的数据集,惩罚函数为:
Figure BDA0002648654500000031
Figure BDA0002648654500000032
其中M表示M个来源不同的数据集,d表示M个数据集中包含d个解释变量,将解释变量分为j组,每组中含有dj个解释变量;并且其中λ,a,b,c是调整参数,λ>0,a>1,b>1,c>1,MCP惩罚函数具有如下形式
Figure BDA0002648654500000033
Figure BDA0002648654500000034
根据惩罚函数和步骤3所述损失函数得到最优化问题的目标函数:
Figure BDA0002648654500000035
其中所述惩罚函数可以进行变量的选择以及变量系数的压缩,选出重要的变量。
进一步的,步骤E包括:
利用MM算法对损失函数进行二次近似,得到:
Figure BDA0002648654500000036
Figure BDA0002648654500000037
其中
Figure BDA0002648654500000038
以及
Figure BDA0002648654500000039
Figure BDA00026486545000000310
并且
Figure BDA00026486545000000311
是在迭代过程中得到,
Figure BDA00026486545000000312
只与
Figure BDA00026486545000000313
相关,迭代时可以忽略,v=1/4;
通过二次近似后的损失函数,得到近似后的最优化问题的目标函数的表达式为:
Figure BDA00026486545000000314
建立和回归模型相匹配的模型评价标准体系;
在代码模块中,根据坐标下降法对近似后的目标函数进行最优系数求解,同时根据模型评价标准选择适用参数,将该求解过程在代码模块中进行整理打包得到模型文件;
将所述模型文件导入模型模块,当输入数据集时,自动实现模型的求解和优化,得到数据集回归系数的估计值。
GCD是坐标下降法(CD)在组结构下的拓展,迭代过程中,先固定其它d-1组参数,对βj在M个数据集上估计,依次对d个变量进行优化,通过迭代,每次只优化一组参数,直到所有参数都收敛到给定精度。
本发明针对不同来源的数据集,且数据集的变量间含有组结构的应用问题提出了一种可以同时进行模型估计和变量选择的模型预测方法,其中提出了三层变量选择惩罚函数,可应用于变量间含组结构的多源异构数据整合分析中,解决了变量含组结构的整合分析问题。并且本发明用一个模型同时解决了不同来源数据集模型估计和变量选择的问题,节约了计算资源和简化了模型建立步骤,并且预测效果优于将数据集直接合并或者分别建立模型等方法。
附图说明
图1为本发明一种联合不同来源数据的变量选择方法的流程图。
具体实施方式
以下结合实施例的具体实施方式,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实施例。在不脱离本发明上述技术思想情况下,根据本领域普通技术知识和惯用手段做出的各种替换或变更,均应包括在本发明的范围内。
如图1所示本发明一种联合不同来源数据的变量选择方法,包括:
A.数据获取
建立一个平台,该平台包含数据集模块、SQL模块、模型模块以及代码模块等;
将各种不同来源的数据存放在数据库中,在平台的数据集模块中可以通过SQL连接数据库查询数据,获取所需数据并进行保存,该数据集模块也支持从本地导入数据;
根据业务需求获取的所需数据包括变量信息和样本信息,变量信息即获取的数据集中包含解释变量以及相应的被解释变量,并且数据集的解释变量间含有明显的组结构。
B.数据清洗
在平台的代码模块中对获取到的所需数据进行数据清洗,确定数据清洗的规则,确保每一个解释变量的数据清洗工作都能根据所述规则完成,从而获得可以入模的干净数据;
将获得的干净数据按照一定的比例划分为训练集和测试样本集。
C.建立模型,得到需要优化的损失函数
根据需求方的预测目标,选取适当的模型,根据本领域常规技术手段:预测的变量是二分类变量则考虑logistic模型,预测的是连续变量则考虑多元线性回归模型;
根据所述模型,确定模型估计方法和损失函数形式,从而得到损失函数;
以logistic回归模型为例,假设存在M个不同来源的独立数据集,共有d个解释变量,解释变量分为j组,每组中含有dj个解释变量。第m个数据集中有nm个观察值,总样本量为
Figure BDA0002648654500000041
被解释变量ym为nm×1向量,为二分类变量,解释变量Xm是维度为nm×d的矩阵。定义
Figure BDA0002648654500000051
为截距项,
Figure BDA0002648654500000052
为第m个数据集中第j个变量的系数。
Figure BDA0002648654500000053
表示第j个变量在M个数据集上的系数。
Figure BDA0002648654500000054
为第m个数据集所有解释变量的回归系数,所以每个变量都会有M个回归系数,它们属于同一解释变量,相互之间存在关联,但又归属于不同数据集,所以也存在一定的差异。根据上述假设得到第m个数据集的损失函数如下:
Figure BDA0002648654500000055
其中
Figure BDA0002648654500000056
Figure BDA0002648654500000057
D.根据惩罚函数和损失函数得到目标函数
根据适用于变量含组结构的多源数据集整合分析的三层变量选择惩罚函数,假设有M个不同来源的数据集,惩罚函数如下所示:
Figure BDA0002648654500000058
其中λ,a,b,c是调整参数,λ>0,a>1,b>1,c>1;每一层都采用MCP惩罚函数,MCP惩罚函数具有如下形式:
Figure BDA0002648654500000059
根据所得损失函数和惩罚函数可以进一步得到最优问题的目标函数:
Figure BDA00026486545000000510
E.对目标函数求解最优系数
利用MM算法对损失函数进行二次近似,得到:
Figure BDA00026486545000000511
Figure BDA00026486545000000512
其中
Figure BDA00026486545000000513
以及
Figure BDA00026486545000000514
Figure BDA00026486545000000515
并且
Figure BDA00026486545000000516
是在迭代过程中得到,
Figure BDA00026486545000000517
只与
Figure BDA00026486545000000518
相关,迭代时可以忽略,v=1/4;
通过二次近似后的损失函数,得到近似后的最优化问题的目标函数的表达式为:
Figure BDA00026486545000000519
针对近似后的目标函数用组坐标下降法(GCD)进行优化求解,GCD是坐标下降法(CD)在组结构下的拓展,迭代过程中,先固定其它d-1组参数,对βj在M个数据集上估计,依次对d个变量进行优化,通过迭代,每次只优化一组参数,直到所有参数都收敛到给定精度。
建立和回归模型相匹配的模型评价标准体系;例如:对于预测变量是连续变量的情况,通常用模型在测试集上的表现来评价模型;对于预测变量是分类变量的情况,通常是根据模型的预测精度、召回率、AUC等来评价模型。若数据集存在分类不平衡的情况,这里提出根据常用的几个指标构建一个综合指数来评价不平衡数据集的分类效果,比如用敏感度、特异度、阳性预测值和阴性预测值四个评价标准的调和平均数作为评价不平衡数据分类结果的综合评价标准。
在代码模块中,根据坐标下降法对近似后的目标函数进行最优系数求解,同时根据模型评价标准选择适用参数,将该求解过程在代码模块中进行整理打包得到模型文件;
将所述模型文件导入模型模块,当输入数据集时,自动实现模型的求解和优化,得到数据集回归系数的估计值。
本发明针对不同来源的数据集,且数据集的变量间含有组结构的应用问题提出了一种可以同时进行模型估计和变量选择的模型预测方法,其中提出了三层变量选择惩罚函数,可应用于变量间含组结构的多源异构数据整合分析中,解决了变量含组结构的整合分析问题。并且本发明用一个模型同时解决了不同来源数据集模型估计和变量选择的问题,节约了计算资源和简化了模型建立步骤,并且预测效果优于将数据集直接合并或者分别建立模型等方法。
因为模型和变量的选择,以及适用的函数都是基于历史数据的拟合,因此预测的结果是具有客观依据的,而不是依靠人为规则和主观判断来计算得到的。

Claims (6)

1.一种联合不同来源数据的变量选择方法,其特征在于,包括:
A.建立存放数据信息的数据库,获取各种不同来源的数据集并保存在数据库中;
B.在代码模块中对获取的不同来源的数据集进行数据清洗得到干净数据,并将数据集分为训练集和测试集;
C.根据需求方的预测目标在训练集上建立模型,根据模型表达式和损失函数形式,得到需要优化的损失函数;
D.根据适用于变量含组结构的多源异构数据整合分析的三层变量选择方法,采用MCP惩罚函数,并且根据步骤C所述损失函数和惩罚函数建立最优化问题的目标函数;
E.对最优化问题的目标函数中的损失函数进行二次近似得到近似后的目标函数,对近似后的目标函数求解最优系数从而得到最优模型。
2.如权利要求1所述的一种联合不同来源数据的变量选择方法,其特征在于,步骤A包括:
建立一个存放各种数据信息的数据库平台,将各种来源不同的数据存储在数据库中,可以通过SQL连接数据库平台查询数据;
建立一个平台,该平台包含数据集模块、SQL模块、代码模块和模型模块;
所述数据集模块根据SQL连接数据库平台查询所需数据并保存或者从本地导入所需数据并保存,所需数据包括变量信息和样本信息。
3.如权利要求2所述的一种联合不同来源数据的变量选择方法,其特征在于,步骤B包括:
根据数据清洗规则,在平台的代码模块编写不同解释变量的清洗代码,保存并执行代码获得可以入模的干净数据;
确定训练集和测试集样本量之间的比例,根据所述比例对干净数据进行划分获得训练集和测试集。
4.如权利要求1所述的一种联合不同来源数据的变量选择方法,其特征在于,步骤C包括:
根据需要预测的二分类变量选择logistic回归模型,得到数据集的损失函数为:
Figure RE-DEST_PATH_IMAGE002
其中m表示第m个数据集;
Figure RE-DEST_PATH_IMAGE004
表示第m个数据集中有
Figure RE-174969DEST_PATH_IMAGE004
个观察值;总样本量为
Figure RE-DEST_PATH_IMAGE006
;被解释变量
Figure RE-DEST_PATH_IMAGE008
Figure RE-DEST_PATH_IMAGE010
向量,是二分类变量;解释变量
Figure RE-DEST_PATH_IMAGE012
是维度为
Figure RE-DEST_PATH_IMAGE014
的矩阵;定义
Figure RE-DEST_PATH_IMAGE016
为截距项,
Figure RE-DEST_PATH_IMAGE018
为第m个数据集中第j个变量的系数;
Figure RE-DEST_PATH_IMAGE020
表示第j个变量在M个数据集上的系数,
Figure RE-DEST_PATH_IMAGE021
为第m个数据集所有解释变量的系数;
Figure RE-DEST_PATH_IMAGE023
5.如权利要求4所述的一种联合不同来源数据的变量选择方法,其特征在于,步骤D包括:
根据适用于变量含组结构的多源异构数据整合分析的三层变量选择惩罚函数,每一层都选择MCP惩罚函数,根据M个不同来源的数据集,惩罚函数为:
Figure RE-DEST_PATH_IMAGE025
;其中M表示M个来源不同的数据集,d表示M个数据集中包含d个解释变量,将解释变量分为j组,每组中含有
Figure RE-DEST_PATH_IMAGE027
个解释变量;并且其中
Figure RE-DEST_PATH_IMAGE029
是调整参数,
Figure RE-DEST_PATH_IMAGE031
,MCP惩罚函数具有如下形式
Figure RE-DEST_PATH_IMAGE033
根据惩罚函数和步骤3所述损失函数得到最优化问题的目标函数:
Figure RE-DEST_PATH_IMAGE035
6.如权利要求5所述的一种联合不同来源数据的变量选择方法,其特征在于,步骤E包括:
利用MM算法对损失函数进行二次近似,得到:
Figure RE-DEST_PATH_IMAGE037
;并且
Figure RE-DEST_PATH_IMAGE039
是在迭代过程中得到,
Figure RE-DEST_PATH_IMAGE041
相关,迭代时可以忽略,
Figure RE-DEST_PATH_IMAGE043
通过二次近似后的损失函数,得到近似后的最优化问题的目标函数的表达式为:
Figure RE-DEST_PATH_IMAGE045
建立和回归模型相匹配的模型评价标准体系;
在代码模块中,根据坐标下降法对近似后的目标函数进行最优系数求解,同时根据模型评价标准选择适用参数,将该求解过程在代码模块中进行整理打包得到模型文件;
将所述模型文件导入模型模块,当输入数据集时,自动实现模型的求解和优化,得到数据集回归系数的估计值。
CN202010867343.3A 2020-08-25 2020-08-25 一种联合不同来源数据的变量选择方法 Withdrawn CN112182076A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010867343.3A CN112182076A (zh) 2020-08-25 2020-08-25 一种联合不同来源数据的变量选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010867343.3A CN112182076A (zh) 2020-08-25 2020-08-25 一种联合不同来源数据的变量选择方法

Publications (1)

Publication Number Publication Date
CN112182076A true CN112182076A (zh) 2021-01-05

Family

ID=73925716

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010867343.3A Withdrawn CN112182076A (zh) 2020-08-25 2020-08-25 一种联合不同来源数据的变量选择方法

Country Status (1)

Country Link
CN (1) CN112182076A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990130A (zh) * 2021-04-27 2021-06-18 南京甄视智能科技有限公司 训练样本的数据清洗方法、装置及一种分类器

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990130A (zh) * 2021-04-27 2021-06-18 南京甄视智能科技有限公司 训练样本的数据清洗方法、装置及一种分类器
CN112990130B (zh) * 2021-04-27 2021-07-23 南京甄视智能科技有限公司 训练样本的数据清洗方法、装置及一种分类器

Similar Documents

Publication Publication Date Title
US7660459B2 (en) Method and system for predicting customer behavior based on data network geography
EP1739580A1 (en) Categorization including dependencies between different category systems
US20170330078A1 (en) Method and system for automated model building
CN112418482B (zh) 一种基于时间序列聚类的云计算能耗预测方法
US20210404952A1 (en) Method for selection of calibration set and validation set based on spectral similarity and modeling
CN106803799B (zh) 一种性能测试方法和装置
Tsai et al. Genetic-algorithm-based simulation optimization considering a single stochastic constraint
Yang et al. Analysis of data warehouse architectures: modeling and classification
CN105512264A (zh) 分布式数据库中并发工作负载的性能预测方法
KR20200010624A (ko) 머신러닝을 이용한 빅데이터 통합진단 예측 시스템
CN108830645A (zh) 一种访客流失预测方法及系统
US6957201B2 (en) Controlled capacity modeling tool
CN112182076A (zh) 一种联合不同来源数据的变量选择方法
CN114881343A (zh) 基于特征选择的电力系统短期负荷预测方法及装置
JPH11259433A (ja) 並列実行システム
CN111581197B (zh) 对数据集中的数据表进行抽样和校验的方法及装置
Cade et al. Quantum algorithms for community detection and their empirical run-times
CN116861373A (zh) 一种查询选择率估算方法、系统、终端设备及存储介质
Lagerström et al. Visualizing and measuring software portfolio architecture: a flexibility analysis
CN114861871B (zh) 一种卷积神经网络在加速器上的推理性能评估系统
Elahi et al. Evaluating software architectural styles based on quality features through hierarchical analysis and fuzzy integral (FAHP)
WO2000029992A1 (fr) Outil de modelisation a capacite controlee
KR100919684B1 (ko) 데이터 마이닝 방법
CN113298120B (zh) 基于融合模型的用户风险预测方法、系统和计算机设备
CN114861800A (zh) 模型训练方法、概率确定方法、装置、设备、介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210105