CN112182076A - 一种联合不同来源数据的变量选择方法 - Google Patents
一种联合不同来源数据的变量选择方法 Download PDFInfo
- Publication number
- CN112182076A CN112182076A CN202010867343.3A CN202010867343A CN112182076A CN 112182076 A CN112182076 A CN 112182076A CN 202010867343 A CN202010867343 A CN 202010867343A CN 112182076 A CN112182076 A CN 112182076A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- variables
- variable
- function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/252—Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Pure & Applied Mathematics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Evolutionary Computation (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明一种联合不同来源数据的变量选择方法,包括:A.数据获取;B.数据清洗;C.建立模型,得到需要优化的损失函数;D.根据惩罚函数和损失函数得到目标函数;E.对目标函数求解最优系数。本发明针对不同来源的数据集,且数据集的变量间含有组结构的应用问题提出了一种可以同时进行模型估计和变量选择的模型预测方法,其中提出了三层变量选择惩罚函数,可应用于变量间含组结构的多源异构数据整合分析中,解决了变量含组结构的整合分析问题。并且本发明用一个模型同时解决了不同来源数据集模型估计和变量选择的问题,节约了计算资源和简化了模型建立步骤,并且预测效果优于将数据集直接合并或者分别建立模型等方法。
Description
技术领域
本发明涉及数据建模技术领域,尤其涉及一种联合不同来源数据的变量选择方法。
背景技术
大数据通常是由来源、主体或格式不同的数据合并而成,例如来自不同地区的调查数据,来自不同市场的金融数据,来自不同实验室的基因数据等。这种基于多个数据集的建模十分常见,但它的建模比较特殊。
一方面,由于不同来源的数据存在差异,各不同数据源的同一变量的系数显著性和估计值可能存在差异,目前传统的处理方法是简单合并所有样本,建立统一模型,但是这种方法过于笼统,忽略了数据间的异质性;另一方面,如果针对各数据集分别建立模型,会忽略各个数据集间的关联性。同时数据的维度越来越高,结构越来越复杂,样本量远小于维度的情况是很常见的,整合分析也是解决“大p小n”问题的有效方法。它综合多个数据集而增加了样本量,是解决小样本高维问题的有效途径。
目前现有技术主要是将含组结构的双层变量选择思想应用到整合分析中,若解释变量呈现出组结构,双层变量选择方法可以使惩罚函数能同时进行组间变量与组内变量的筛选,将双层变量的思想应用到整合分析中,不仅可以筛选出显著的变量还可以识别出它在哪些数据集上显著。但是基于惩罚函数方法的整合分析主要是借鉴了双层变量选择的思想,若此时多源数据集中的解释变量呈现出组结构,那么现有的双层变量选择则不能解决这种考虑组结构的多源数据集的整合分析了。
发明内容
基于上述问题本发明提供一种联合不同来源数据的变量选择方法,提出三层变量选择惩罚函数,可应用于变量间含组结构的多源异构数据整合分析中,解决了变量含组结构的整合分析问题。
本发明一种联合不同来源数据的变量选择方法,包括:
A.建立存放数据信息的数据库,获取各种不同来源的数据集并保存在数据库中;
B.在代码模块中对获取的不同来源的数据集进行数据清洗得到干净数据,并将数据集分为训练集和测试集;
C.根据需求方的预测目标在训练集上建立模型,根据模型表达式和损失函数形式,得到需要优化的损失函数;
D.根据适用于变量含组结构的多源异构数据整合分析的三层变量选择方法,采用MCP惩罚函数,并且根据步骤C所述损失函数和惩罚函数建立最优化问题的目标函数;
E.对最优化问题的目标函数中的损失函数进行二次近似得到近似后的目标函数,对近似后的目标函数求解最优系数从而得到最优模型。
本发明针对不同来源的数据集,且数据集的变量间含有组结构的应用问题提出了一种可以同时进行模型估计和变量选择的模型预测方法,其中提出了三层变量选择惩罚函数,可应用于变量间含组结构的多源异构数据整合分析中,解决了变量含组结构的整合分析问题。并且本发明用一个模型同时解决了不同来源数据集模型估计和变量选择的问题,节约了计算资源和简化了模型建立步骤,并且预测效果优于将数据集直接合并或者分别建立模型等方法。
进一步的,步骤A包括:
建立一个存放各种数据信息的数据库平台,将各种来源不同的数据存储在数据库中,可以通过SQL连接数据库平台查询数据;
建立一个平台,该平台包含数据集模块、SQL模块代码模块和模型模块等;
所述数据集模块根据SQL连接数据库平台查询所需数据并保存或者从本地导入所需数据并保存,所需数据包括变量信息和样本信息。
进一步的,步骤B包括:
根据数据清洗规则,在平台的代码模块编写不同解释变量的清洗代码,保存并执行代码获得可以入模的干净数据;
确定训练集和测试集样本量之间的比例,根据所述比例对数据集进行划分获得训练集和测试集。
进一步,步骤C包括:
根据需要预测的二分类变量选择logistic回归模型,得到数据集的损失函数为:
其中m表示第m个数据集;nm表示第m个数据集中有nm个观察值;总样本量为被解释变量ym为nm×1向量,是二分类变量;解释变量Xm是维度为nm×d的矩阵;定义为截距项,为第m个数据集中第j个变量的系数;表示第j个变量在M个数据集上的系数; 为第m个数据集所有解释变量的系数;
所述每个变量都会有M个回归系数,它们属于同一解释变量,相互之间存在关联,但又归属于不同数据集,所以也存在一定的差异。
进一步的,步骤D包括:
根据适用于变量含组结构的多源异构数据整合分析的三层变量选择惩罚函数,每一层都选择MCP惩罚函数,根据M个不同来源的数据集,惩罚函数为: 其中M表示M个来源不同的数据集,d表示M个数据集中包含d个解释变量,将解释变量分为j组,每组中含有dj个解释变量;并且其中λ,a,b,c是调整参数,λ>0,a>1,b>1,c>1,MCP惩罚函数具有如下形式
根据惩罚函数和步骤3所述损失函数得到最优化问题的目标函数:
其中所述惩罚函数可以进行变量的选择以及变量系数的压缩,选出重要的变量。
进一步的,步骤E包括:
通过二次近似后的损失函数,得到近似后的最优化问题的目标函数的表达式为:
建立和回归模型相匹配的模型评价标准体系;
在代码模块中,根据坐标下降法对近似后的目标函数进行最优系数求解,同时根据模型评价标准选择适用参数,将该求解过程在代码模块中进行整理打包得到模型文件;
将所述模型文件导入模型模块,当输入数据集时,自动实现模型的求解和优化,得到数据集回归系数的估计值。
GCD是坐标下降法(CD)在组结构下的拓展,迭代过程中,先固定其它d-1组参数,对βj在M个数据集上估计,依次对d个变量进行优化,通过迭代,每次只优化一组参数,直到所有参数都收敛到给定精度。
本发明针对不同来源的数据集,且数据集的变量间含有组结构的应用问题提出了一种可以同时进行模型估计和变量选择的模型预测方法,其中提出了三层变量选择惩罚函数,可应用于变量间含组结构的多源异构数据整合分析中,解决了变量含组结构的整合分析问题。并且本发明用一个模型同时解决了不同来源数据集模型估计和变量选择的问题,节约了计算资源和简化了模型建立步骤,并且预测效果优于将数据集直接合并或者分别建立模型等方法。
附图说明
图1为本发明一种联合不同来源数据的变量选择方法的流程图。
具体实施方式
以下结合实施例的具体实施方式,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实施例。在不脱离本发明上述技术思想情况下,根据本领域普通技术知识和惯用手段做出的各种替换或变更,均应包括在本发明的范围内。
如图1所示本发明一种联合不同来源数据的变量选择方法,包括:
A.数据获取
建立一个平台,该平台包含数据集模块、SQL模块、模型模块以及代码模块等;
将各种不同来源的数据存放在数据库中,在平台的数据集模块中可以通过SQL连接数据库查询数据,获取所需数据并进行保存,该数据集模块也支持从本地导入数据;
根据业务需求获取的所需数据包括变量信息和样本信息,变量信息即获取的数据集中包含解释变量以及相应的被解释变量,并且数据集的解释变量间含有明显的组结构。
B.数据清洗
在平台的代码模块中对获取到的所需数据进行数据清洗,确定数据清洗的规则,确保每一个解释变量的数据清洗工作都能根据所述规则完成,从而获得可以入模的干净数据;
将获得的干净数据按照一定的比例划分为训练集和测试样本集。
C.建立模型,得到需要优化的损失函数
根据需求方的预测目标,选取适当的模型,根据本领域常规技术手段:预测的变量是二分类变量则考虑logistic模型,预测的是连续变量则考虑多元线性回归模型;
根据所述模型,确定模型估计方法和损失函数形式,从而得到损失函数;
以logistic回归模型为例,假设存在M个不同来源的独立数据集,共有d个解释变量,解释变量分为j组,每组中含有dj个解释变量。第m个数据集中有nm个观察值,总样本量为被解释变量ym为nm×1向量,为二分类变量,解释变量Xm是维度为nm×d的矩阵。定义为截距项,为第m个数据集中第j个变量的系数。表示第j个变量在M个数据集上的系数。为第m个数据集所有解释变量的回归系数,所以每个变量都会有M个回归系数,它们属于同一解释变量,相互之间存在关联,但又归属于不同数据集,所以也存在一定的差异。根据上述假设得到第m个数据集的损失函数如下:其中
D.根据惩罚函数和损失函数得到目标函数
根据适用于变量含组结构的多源数据集整合分析的三层变量选择惩罚函数,假设有M个不同来源的数据集,惩罚函数如下所示:
根据所得损失函数和惩罚函数可以进一步得到最优问题的目标函数:
E.对目标函数求解最优系数
通过二次近似后的损失函数,得到近似后的最优化问题的目标函数的表达式为:
针对近似后的目标函数用组坐标下降法(GCD)进行优化求解,GCD是坐标下降法(CD)在组结构下的拓展,迭代过程中,先固定其它d-1组参数,对βj在M个数据集上估计,依次对d个变量进行优化,通过迭代,每次只优化一组参数,直到所有参数都收敛到给定精度。
建立和回归模型相匹配的模型评价标准体系;例如:对于预测变量是连续变量的情况,通常用模型在测试集上的表现来评价模型;对于预测变量是分类变量的情况,通常是根据模型的预测精度、召回率、AUC等来评价模型。若数据集存在分类不平衡的情况,这里提出根据常用的几个指标构建一个综合指数来评价不平衡数据集的分类效果,比如用敏感度、特异度、阳性预测值和阴性预测值四个评价标准的调和平均数作为评价不平衡数据分类结果的综合评价标准。
在代码模块中,根据坐标下降法对近似后的目标函数进行最优系数求解,同时根据模型评价标准选择适用参数,将该求解过程在代码模块中进行整理打包得到模型文件;
将所述模型文件导入模型模块,当输入数据集时,自动实现模型的求解和优化,得到数据集回归系数的估计值。
本发明针对不同来源的数据集,且数据集的变量间含有组结构的应用问题提出了一种可以同时进行模型估计和变量选择的模型预测方法,其中提出了三层变量选择惩罚函数,可应用于变量间含组结构的多源异构数据整合分析中,解决了变量含组结构的整合分析问题。并且本发明用一个模型同时解决了不同来源数据集模型估计和变量选择的问题,节约了计算资源和简化了模型建立步骤,并且预测效果优于将数据集直接合并或者分别建立模型等方法。
因为模型和变量的选择,以及适用的函数都是基于历史数据的拟合,因此预测的结果是具有客观依据的,而不是依靠人为规则和主观判断来计算得到的。
Claims (6)
1.一种联合不同来源数据的变量选择方法,其特征在于,包括:
A.建立存放数据信息的数据库,获取各种不同来源的数据集并保存在数据库中;
B.在代码模块中对获取的不同来源的数据集进行数据清洗得到干净数据,并将数据集分为训练集和测试集;
C.根据需求方的预测目标在训练集上建立模型,根据模型表达式和损失函数形式,得到需要优化的损失函数;
D.根据适用于变量含组结构的多源异构数据整合分析的三层变量选择方法,采用MCP惩罚函数,并且根据步骤C所述损失函数和惩罚函数建立最优化问题的目标函数;
E.对最优化问题的目标函数中的损失函数进行二次近似得到近似后的目标函数,对近似后的目标函数求解最优系数从而得到最优模型。
2.如权利要求1所述的一种联合不同来源数据的变量选择方法,其特征在于,步骤A包括:
建立一个存放各种数据信息的数据库平台,将各种来源不同的数据存储在数据库中,可以通过SQL连接数据库平台查询数据;
建立一个平台,该平台包含数据集模块、SQL模块、代码模块和模型模块;
所述数据集模块根据SQL连接数据库平台查询所需数据并保存或者从本地导入所需数据并保存,所需数据包括变量信息和样本信息。
3.如权利要求2所述的一种联合不同来源数据的变量选择方法,其特征在于,步骤B包括:
根据数据清洗规则,在平台的代码模块编写不同解释变量的清洗代码,保存并执行代码获得可以入模的干净数据;
确定训练集和测试集样本量之间的比例,根据所述比例对干净数据进行划分获得训练集和测试集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010867343.3A CN112182076A (zh) | 2020-08-25 | 2020-08-25 | 一种联合不同来源数据的变量选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010867343.3A CN112182076A (zh) | 2020-08-25 | 2020-08-25 | 一种联合不同来源数据的变量选择方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112182076A true CN112182076A (zh) | 2021-01-05 |
Family
ID=73925716
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010867343.3A Withdrawn CN112182076A (zh) | 2020-08-25 | 2020-08-25 | 一种联合不同来源数据的变量选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112182076A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112990130A (zh) * | 2021-04-27 | 2021-06-18 | 南京甄视智能科技有限公司 | 训练样本的数据清洗方法、装置及一种分类器 |
-
2020
- 2020-08-25 CN CN202010867343.3A patent/CN112182076A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112990130A (zh) * | 2021-04-27 | 2021-06-18 | 南京甄视智能科技有限公司 | 训练样本的数据清洗方法、装置及一种分类器 |
CN112990130B (zh) * | 2021-04-27 | 2021-07-23 | 南京甄视智能科技有限公司 | 训练样本的数据清洗方法、装置及一种分类器 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7660459B2 (en) | Method and system for predicting customer behavior based on data network geography | |
EP1739580A1 (en) | Categorization including dependencies between different category systems | |
US20170330078A1 (en) | Method and system for automated model building | |
CN112418482B (zh) | 一种基于时间序列聚类的云计算能耗预测方法 | |
US20210404952A1 (en) | Method for selection of calibration set and validation set based on spectral similarity and modeling | |
CN106803799B (zh) | 一种性能测试方法和装置 | |
Tsai et al. | Genetic-algorithm-based simulation optimization considering a single stochastic constraint | |
Yang et al. | Analysis of data warehouse architectures: modeling and classification | |
CN105512264A (zh) | 分布式数据库中并发工作负载的性能预测方法 | |
KR20200010624A (ko) | 머신러닝을 이용한 빅데이터 통합진단 예측 시스템 | |
CN108830645A (zh) | 一种访客流失预测方法及系统 | |
US6957201B2 (en) | Controlled capacity modeling tool | |
CN112182076A (zh) | 一种联合不同来源数据的变量选择方法 | |
CN114881343A (zh) | 基于特征选择的电力系统短期负荷预测方法及装置 | |
JPH11259433A (ja) | 並列実行システム | |
CN111581197B (zh) | 对数据集中的数据表进行抽样和校验的方法及装置 | |
Cade et al. | Quantum algorithms for community detection and their empirical run-times | |
CN116861373A (zh) | 一种查询选择率估算方法、系统、终端设备及存储介质 | |
Lagerström et al. | Visualizing and measuring software portfolio architecture: a flexibility analysis | |
CN114861871B (zh) | 一种卷积神经网络在加速器上的推理性能评估系统 | |
Elahi et al. | Evaluating software architectural styles based on quality features through hierarchical analysis and fuzzy integral (FAHP) | |
WO2000029992A1 (fr) | Outil de modelisation a capacite controlee | |
KR100919684B1 (ko) | 데이터 마이닝 방법 | |
CN113298120B (zh) | 基于融合模型的用户风险预测方法、系统和计算机设备 | |
CN114861800A (zh) | 模型训练方法、概率确定方法、装置、设备、介质及产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210105 |