CN112182076A

CN112182076A - 一种联合不同来源数据的变量选择方法

Info

Publication number: CN112182076A
Application number: CN202010867343.3A
Authority: CN
Inventors: 王晓霖; 郑乐
Original assignee: Sichuan XW Bank Co Ltd
Current assignee: Sichuan XW Bank Co Ltd
Priority date: 2020-08-25
Filing date: 2020-08-25
Publication date: 2021-01-05

Abstract

本发明一种联合不同来源数据的变量选择方法，包括：A.数据获取；B.数据清洗；C.建立模型，得到需要优化的损失函数；D.根据惩罚函数和损失函数得到目标函数；E.对目标函数求解最优系数。本发明针对不同来源的数据集，且数据集的变量间含有组结构的应用问题提出了一种可以同时进行模型估计和变量选择的模型预测方法，其中提出了三层变量选择惩罚函数，可应用于变量间含组结构的多源异构数据整合分析中，解决了变量含组结构的整合分析问题。并且本发明用一个模型同时解决了不同来源数据集模型估计和变量选择的问题，节约了计算资源和简化了模型建立步骤，并且预测效果优于将数据集直接合并或者分别建立模型等方法。

Description

一种联合不同来源数据的变量选择方法

技术领域

本发明涉及数据建模技术领域，尤其涉及一种联合不同来源数据的变量选择方法。

背景技术

大数据通常是由来源、主体或格式不同的数据合并而成，例如来自不同地区的调查数据，来自不同市场的金融数据，来自不同实验室的基因数据等。这种基于多个数据集的建模十分常见，但它的建模比较特殊。

一方面，由于不同来源的数据存在差异，各不同数据源的同一变量的系数显著性和估计值可能存在差异，目前传统的处理方法是简单合并所有样本，建立统一模型，但是这种方法过于笼统，忽略了数据间的异质性；另一方面，如果针对各数据集分别建立模型，会忽略各个数据集间的关联性。同时数据的维度越来越高，结构越来越复杂，样本量远小于维度的情况是很常见的，整合分析也是解决“大p小n”问题的有效方法。它综合多个数据集而增加了样本量，是解决小样本高维问题的有效途径。

目前现有技术主要是将含组结构的双层变量选择思想应用到整合分析中，若解释变量呈现出组结构，双层变量选择方法可以使惩罚函数能同时进行组间变量与组内变量的筛选，将双层变量的思想应用到整合分析中，不仅可以筛选出显著的变量还可以识别出它在哪些数据集上显著。但是基于惩罚函数方法的整合分析主要是借鉴了双层变量选择的思想，若此时多源数据集中的解释变量呈现出组结构，那么现有的双层变量选择则不能解决这种考虑组结构的多源数据集的整合分析了。

发明内容

基于上述问题本发明提供一种联合不同来源数据的变量选择方法，提出三层变量选择惩罚函数，可应用于变量间含组结构的多源异构数据整合分析中，解决了变量含组结构的整合分析问题。

本发明一种联合不同来源数据的变量选择方法，包括：

A.建立存放数据信息的数据库，获取各种不同来源的数据集并保存在数据库中；

B.在代码模块中对获取的不同来源的数据集进行数据清洗得到干净数据，并将数据集分为训练集和测试集；

C.根据需求方的预测目标在训练集上建立模型，根据模型表达式和损失函数形式，得到需要优化的损失函数；

D.根据适用于变量含组结构的多源异构数据整合分析的三层变量选择方法，采用MCP惩罚函数，并且根据步骤C所述损失函数和惩罚函数建立最优化问题的目标函数；

E.对最优化问题的目标函数中的损失函数进行二次近似得到近似后的目标函数，对近似后的目标函数求解最优系数从而得到最优模型。

本发明针对不同来源的数据集，且数据集的变量间含有组结构的应用问题提出了一种可以同时进行模型估计和变量选择的模型预测方法，其中提出了三层变量选择惩罚函数，可应用于变量间含组结构的多源异构数据整合分析中，解决了变量含组结构的整合分析问题。并且本发明用一个模型同时解决了不同来源数据集模型估计和变量选择的问题，节约了计算资源和简化了模型建立步骤，并且预测效果优于将数据集直接合并或者分别建立模型等方法。

进一步的，步骤A包括：

建立一个存放各种数据信息的数据库平台，将各种来源不同的数据存储在数据库中，可以通过SQL连接数据库平台查询数据；

建立一个平台，该平台包含数据集模块、SQL模块代码模块和模型模块等；

所述数据集模块根据SQL连接数据库平台查询所需数据并保存或者从本地导入所需数据并保存，所需数据包括变量信息和样本信息。

进一步的，步骤B包括：

根据数据清洗规则，在平台的代码模块编写不同解释变量的清洗代码，保存并执行代码获得可以入模的干净数据；

确定训练集和测试集样本量之间的比例，根据所述比例对数据集进行划分获得训练集和测试集。

进一步，步骤C包括：

根据需要预测的二分类变量选择logistic回归模型，得到数据集的损失函数为：

其中m表示第m个数据集；n^m表示第m个数据集中有n^m个观察值；总样本量为

被解释变量y^m为n^m×1向量，是二分类变量；解释变量X^m是维度为n^m×d的矩阵；定义

为截距项，

为第m个数据集中第j个变量的系数；

表示第j个变量在M个数据集上的系数；

为第m个数据集所有解释变量的系数；

所述每个变量都会有M个回归系数，它们属于同一解释变量，相互之间存在关联，但又归属于不同数据集，所以也存在一定的差异。

进一步的，步骤D包括：

根据适用于变量含组结构的多源异构数据整合分析的三层变量选择惩罚函数，每一层都选择MCP惩罚函数，根据M个不同来源的数据集，惩罚函数为:

其中M表示M个来源不同的数据集，d表示M个数据集中包含d个解释变量，将解释变量分为j组，每组中含有d_j个解释变量；并且其中λ,a,b,c是调整参数，λ>0,a>1,b>1,c>1，MCP惩罚函数具有如下形式

根据惩罚函数和步骤3所述损失函数得到最优化问题的目标函数:

其中所述惩罚函数可以进行变量的选择以及变量系数的压缩，选出重要的变量。

进一步的，步骤E包括：

利用MM算法对损失函数进行二次近似，得到：

其中

以及

并且

是在迭代过程中得到，

只与

相关，迭代时可以忽略,v＝1/4；

通过二次近似后的损失函数，得到近似后的最优化问题的目标函数的表达式为：

建立和回归模型相匹配的模型评价标准体系；

在代码模块中，根据坐标下降法对近似后的目标函数进行最优系数求解，同时根据模型评价标准选择适用参数，将该求解过程在代码模块中进行整理打包得到模型文件；

将所述模型文件导入模型模块，当输入数据集时，自动实现模型的求解和优化，得到数据集回归系数的估计值。

GCD是坐标下降法(CD)在组结构下的拓展，迭代过程中，先固定其它d-1组参数，对β_j在M个数据集上估计，依次对d个变量进行优化，通过迭代，每次只优化一组参数，直到所有参数都收敛到给定精度。

附图说明

图1为本发明一种联合不同来源数据的变量选择方法的流程图。

具体实施方式

以下结合实施例的具体实施方式，对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实施例。在不脱离本发明上述技术思想情况下，根据本领域普通技术知识和惯用手段做出的各种替换或变更，均应包括在本发明的范围内。

如图1所示本发明一种联合不同来源数据的变量选择方法，包括：

A.数据获取

建立一个平台，该平台包含数据集模块、SQL模块、模型模块以及代码模块等；

将各种不同来源的数据存放在数据库中，在平台的数据集模块中可以通过SQL连接数据库查询数据，获取所需数据并进行保存，该数据集模块也支持从本地导入数据；

根据业务需求获取的所需数据包括变量信息和样本信息，变量信息即获取的数据集中包含解释变量以及相应的被解释变量，并且数据集的解释变量间含有明显的组结构。

B.数据清洗

在平台的代码模块中对获取到的所需数据进行数据清洗，确定数据清洗的规则，确保每一个解释变量的数据清洗工作都能根据所述规则完成，从而获得可以入模的干净数据；

将获得的干净数据按照一定的比例划分为训练集和测试样本集。

C.建立模型，得到需要优化的损失函数

根据需求方的预测目标，选取适当的模型，根据本领域常规技术手段：预测的变量是二分类变量则考虑logistic模型，预测的是连续变量则考虑多元线性回归模型；

根据所述模型，确定模型估计方法和损失函数形式，从而得到损失函数；

以logistic回归模型为例，假设存在M个不同来源的独立数据集，共有d个解释变量，解释变量分为j组，每组中含有d_j个解释变量。第m个数据集中有n^m个观察值，总样本量为

被解释变量y^m为n^m×1向量，为二分类变量，解释变量X^m是维度为n^m×d的矩阵。定义

为截距项，

为第m个数据集中第j个变量的系数。

表示第j个变量在M个数据集上的系数。

为第m个数据集所有解释变量的回归系数，所以每个变量都会有M个回归系数，它们属于同一解释变量，相互之间存在关联，但又归属于不同数据集，所以也存在一定的差异。根据上述假设得到第m个数据集的损失函数如下:

其中

D.根据惩罚函数和损失函数得到目标函数

根据适用于变量含组结构的多源数据集整合分析的三层变量选择惩罚函数，假设有M个不同来源的数据集，惩罚函数如下所示：

其中λ,a,b,c是调整参数，λ>0,a>1,b>1,c>1；每一层都采用MCP惩罚函数，MCP惩罚函数具有如下形式:

根据所得损失函数和惩罚函数可以进一步得到最优问题的目标函数：

E.对目标函数求解最优系数

利用MM算法对损失函数进行二次近似，得到：

其中

以及

并且

是在迭代过程中得到，

只与

相关，迭代时可以忽略,v＝1/4；

针对近似后的目标函数用组坐标下降法(GCD)进行优化求解，GCD是坐标下降法(CD)在组结构下的拓展，迭代过程中，先固定其它d-1组参数，对β_j在M个数据集上估计，依次对d个变量进行优化，通过迭代，每次只优化一组参数，直到所有参数都收敛到给定精度。

建立和回归模型相匹配的模型评价标准体系；例如：对于预测变量是连续变量的情况，通常用模型在测试集上的表现来评价模型；对于预测变量是分类变量的情况，通常是根据模型的预测精度、召回率、AUC等来评价模型。若数据集存在分类不平衡的情况，这里提出根据常用的几个指标构建一个综合指数来评价不平衡数据集的分类效果，比如用敏感度、特异度、阳性预测值和阴性预测值四个评价标准的调和平均数作为评价不平衡数据分类结果的综合评价标准。

因为模型和变量的选择，以及适用的函数都是基于历史数据的拟合，因此预测的结果是具有客观依据的，而不是依靠人为规则和主观判断来计算得到的。