CN111027607B

CN111027607B - 无监督高维数据特征重要性评估与选择的方法及装置

Info

Publication number: CN111027607B
Application number: CN201911207571.1A
Authority: CN
Inventors: 刘岩
Original assignee: Taikang Insurance Group Co Ltd
Current assignee: Taikang Insurance Group Co Ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2023-10-17
Anticipated expiration: 2039-11-29
Also published as: CN111027607A

Abstract

本发明提供一种无监督高维数据特征重要性评估与选择的方法及装置，用于解决现有技术中存在的由于只能基于白盒预测模型对高维数据进行特征评估和选择的技术问题，所述方法包括：获取第一样本数据集，以及输入偏移向量，对第一样本数据集中的每个样本的特征向量的第一特征进行偏移处理，确定不同样本对应的不同偏移特征向量集；调用黑盒预测模型，获取不同偏移特征向量集所对应的不同输出特征向量集，确定不同样本对应的不同输出偏移向量；根据不同输出偏移向量以及输入偏移向量，获取第一特征的全局影响力分值，若第一特征的全局影响力分值低于预设阈值，则删除第一样本数据集的每个样本的第一特征。

Description

无监督高维数据特征重要性评估与选择的方法及装置

技术领域

本发明涉及大数据领域，尤其涉及一种无监督高维数据特征重要性评估与选择的方法及装置。

背景技术

随着数据复杂度的增加以及深度学习等算法的兴起，数据的高维化趋势日渐明显。在金融趋势预测、农业灾害预测、健康风险预测、保险核保结论预测等以多维特征向量数据表示的分析任务和系统中，数据维度的升高在带来预测模型的准确率提升的同时，也导致预测模型的计算量和复杂度急剧提升，例如，在保险核保结论预测中，投保人提交投保申请，保险公司收到申请后，核保员对于较大额度的健康险会要求申请人提交第三方医疗机构出具的体检报告，投保人体检后会使用手机拍照体检报告，然后在保险公司的投保系统中提交影像件，保险公司收到影像件后，核保员触发体检报告影像件光学字符识别(Optical Character Recognition，OCR)与结构化，提取结构化的包括多项特征的体检数据，再将投保人的体检数据送入承保风险预测模型，得到承保预测结论：拒保、延期、加查、承保，核保人员基于承保预测结论，对该投保申请进行复核，确认是否承保，而在这些高维数据中，大部分特征属于噪声，不仅不会提高承保风险预测模型的准确率，而且会增加承保风险预测模型的计算量和复杂度。所以，需要在预测模型训练前过滤掉这些干扰特征或者作用小的特征，从而降低预测模型的计算量以及复杂度。

目前，现有的特征选择方法，例如递归特征消除(Recursive featureelimination，RFE)，大多依赖白盒预测模型，比如，对于承保风险预测模型而言，是需要在知道承保风险预测模型的包括源码、结构、原理等所有内容的基础上，使用训练或测试数据验证承保风险预测模型对各个数据的特征的敏感程度，而难以针对不知道承保风险预测模型的具体原理，只知道承保风险预测模型的输出结果的黑盒预测模型进行特征评估，即在不知道预测模型内部构造时无法进行特征评估和选择，可见，现有技术中存在由于只能基于白盒预测模型对高维数据进行特征评估和选择问题。

发明内容

本申请实施例提供一种无监督高维数据特征重要性评估与选择的方法及装置，用于解决现有技术中存在的由于只能基于白盒预测模型对高维数据进行特征评估和选择的技术问题。

第一方面，为解决上述技术问题，本申请实施例提供一种无监督高维数据特征重要性评估与选择的方法，该方法的技术方案如下：

获取第一样本数据集，其中，所述第一样本数据集包括至少一个样本，所述样本的特征向量由至少一个特征按固定顺序构成；

获取输入偏移向量，对所述第一样本数据集中的每个样本的特征向量的第一特征进行偏移处理，确定不同样本对应的不同偏移特征向量集，其中，所述输入偏移向量由至少一个输入偏移量构成，所述偏移特征向量集包含的偏移特征向量个数等于所述输入偏移向量包含的输入偏移量个数；

调用黑盒预测模型，获取所述不同偏移特征向量集所对应的不同输出特征向量集，确定不同样本对应的不同输出偏移向量；

根据所述不同输出偏移向量以及所述输入偏移向量，获取所述第一特征的全局影响力分值，若所述第一特征的全局影响力分值低于预设阈值，则删除所述第一样本数据集的每个样本的第一特征。

在本申请实施例中，可以通过获取第一样本数据集，其中，第一样本数据集包括至少一个样本，样本的特征向量由至少一个特征按固定顺序构成，然后获取输入偏移向量，对第一样本数据集中的每个样本的特征向量的第一特征进行偏移处理，确定不同样本对应的不同偏移特征向量集，其中，输入偏移向量由至少一个输入偏移量构成，偏移特征向量集包含的偏移特征向量个数等于所述输入偏移向量包含的输入偏移量个数，再调用黑盒预测模型，获取不同偏移特征向量集所对应的不同输出特征向量集，确定不同样本对应的不同输出偏移向量，根据不同输出偏移向量以及输入偏移向量，获取第一特征的全局影响力分值，若第一特征的全局影响力分值预设阈值，则删除第一样本数据集的每个样本的第一特征，使得能够基于黑盒预测模型，对高维数据进行特征重要性评估，将干扰特征或者作用小的特征进行过滤，从而减少噪声数据干扰，降低预测模型的计算量以及复杂度，提升预测模型的准确率。

结合第一方面，在第一方面的第一种可选实施方式中，获取输入偏移向量，对所述第一样本数据集中的每个样本的第一特征进行偏移处理，确定不同样本对应的不同偏移特征向量集，包括：

采用第一公式对所述第一样本数据集中的每个样本的每个特征进行归一化处理，确定第二样本数据集；

根据所述第二样本数据集，获取所述第二样本数据集的每个样本的每个特征的均值，根据所述每个特征的均值，确定平均特征向量；

获取输入偏移向量，根据所述输入偏移向量以及所述平均特征向量，采用第二公式对所述第二样本数据集的每个样本的特征向量的第一特征进行偏移处理，获取所述输入偏移向量中不同的输入偏移量对应的不同偏移特征向量，确定不同样本对应的不同偏移特征向量集。

结合第一方面的第一种可选实施方式，在第一方面的第二种可选实施方式中，还包括：

所述第一公式，具体为：

其中，为所述第二样本数据集的第i样本的特征向量中的第j特征，f_i,j为所述第一样本数据集的第i样本的特征向量中的第j特征，μ_j为所述第一样本数据集的每个样本的第j特征的均值，σ_j为所述第一样本数据集的每个样本的第j特征的方差，n为所述第一样本数据集的样本的个数；

所述第二公式，具体为：

其中，为所述第二样本数据集的第i样本对应的偏移特征向量集的第k偏移特征向量的第j特征，/>为所述第二样本数据集的第i样本的特征向量中的第j特征，/>为所述平均特征向量中的第j特征，b_k为所述输入偏移向量中的第k输入偏移量。

结合第一方面的第一种可选实施方式，在第一方面的第三种可选实施方式中，调用黑盒预测模型，获取所述不同偏移特征向量集所对应的不同输出特征向量集，确定不同样本对应的不同输出偏移向量，包括：

调用黑盒预测模型，获取所述不同偏移特征向量集所对应的不同输出特征向量集，以及所述平均特征向量所对应的输出特征向量；

获取所述不同输出特征向量集对应的不同均值向量，采用第三公式确定所述不同均值向量相对于所述平均特征向量所对应的输出特征向量的不同偏差，采用第四公式确定所述不同输出特征向量集相对于所述平均特征向量所对应的输出特征向量的不同偏差集；

采用第五公式对所述不同偏差和所述不同偏差集进行运算，获取所述不同偏移特征向量集的每个偏移特征向量所对应的输出偏移量，确定不同样本对应的不同输出偏移向量。

结合第一方面的第三种可选实施方式，在第一方面的第四种可选实施方式中，所述第三公式，具体为：

其中，为所述第二样本数据集的第i样本对应的均值向量相对于所述平均特征向量所对应的输出特征向量的偏差，/>为所述第二样本数据集的第i样本对应的均值向量，/>为所述平均特征向量所对应的输出特征向量；

所述第四公式，具体为：

其中，α_i,j,k为所述第二样本数据集的第i样本的特征向量中的第j特征对应的输出特征向量集的第k输出特征向量相对于所述平均特征向量所对应的输出特征向量的偏差，为所述第二样本数据集的第i样本的特征向量中的第j特征对应的输出特征向量集的第k输出特征向量，/>为所述平均特征向量所对应的输出特征向量；

所述第五公式，具体为：

其中，β_i,j,k为所述第二样本数据集的第i样本对应的偏移特征向量集的第k偏移特征向量所对应的输出偏移量，即所述输出偏移向量的第k输出偏移量，α_i,j,k为所述第二样本数据集的第i样本对应的输出特征向量集相对于所述平均特征向量所对应的输出特征向量的偏差集的第k偏差，为所述第二样本数据集的第i样本对应的均值向量相对于所述平均特征向量所对应的输出特征向量的偏差。

结合第一方面或者第一方面的第三种可选实施方式，在第一方面的第五种可选实施方式中，根据所述不同输出偏移向量以及所述输入偏移向量，获取所述第一特征的全局影响力分值，包括：

根据所述不同输出偏移向量以及所述输入偏移向量，采用第六公式获取所述不同输出偏移向量与所述输入偏移向量的不同内积，采用第七公式获取所述不同内积的均值，确定所述不同内积的均值为所述第一特征的全局影响力分值；

所述第六公式，具体为：

S_i,j＝<b,β>＝b₁*β_i,j,1+b₂*β_i,j,2+…+b_t*β_i,j,t

其中，S_i,j为所述第二样本数据集的第i样本的第j特征对应的输出偏移向量与所述输入偏移向量的内积，b为所述输入偏移向量，β为所述输出偏移向量。

所述第七公式，具体为：

其中，S_j为所述第j特征的全局影响力分值，S_i,j为所述第二样本数据集的第i样本的第j特征对应的输出偏移向量与所述输入偏移向量的内积，n为所述第二样本数据集的样本的个数。

结合第一方面的第五种可选实施方式，在第一方面的第六种可选实施方式中，确定所述不同内积的均值为所述第一特征的全局影响力分值之后，还包括：

将所述第二样本数据集的每个样本的第一特征替换为所述平均特征向量中的第一特征。

第二方面，本申请实施例提供一种无监督高维数据特征重要性评估与选择的装置，包括：

获取模块，用于获取第一样本数据集，其中，所述第一样本数据集包括至少一个样本，所述样本的特征向量由至少一个特征按固定顺序构成；

第一确定模块，用于获取输入偏移向量，对所述第一样本数据集中的每个样本的特征向量的第一特征进行偏移处理，确定不同样本对应的不同偏移特征向量集，其中，所述输入偏移向量由至少一个输入偏移量构成，所述偏移特征向量集包含的偏移特征向量个数等于所述输入偏移向量包含的输入偏移量个数；

第二确定模块，用于调用黑盒预测模型，获取所述不同偏移特征向量集所对应的不同输出特征向量集，确定不同样本对应的不同输出偏移向量；

处理模块，用于根据所述不同输出偏移向量以及所述输入偏移向量，获取所述第一特征的全局影响力分值，若所述第一特征的全局影响力分值低于预设阈值，则删除所述第一样本数据集的每个样本的第一特征。

一种可选实施方式中，所述第一确定模块，具体用于：

一种可选实施方式中，所述第二确定模块，具体用于：

一种可选实施方式中，所述处理模块，具体用于：

所述第六公式，具体为：

S_i,j＝<b,β>＝b₁*β_i,j,1+b₂*β_i,j,2+…+b_t*β_i,j,t

所述第七公式，具体为：

一种可选实施方式中，所述装置还包括替换模块，用于：

第三方面，本申请实施例提供一种无监督高维数据特征重要性评估与选择的系统，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行第一方面中的任一种实施方式包括的步骤。

第四方面，本申请实施例提供一种存储介质，该存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行第一方面中的任一种实施方式包括的步骤。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例。

图1为本申请实施例中的一种无监督高维数据特征重要性评估与选择的系统的结构示意图；

图2为本申请实施例中的无监督高维数据特征重要性评估与选择的方法的流程图；

图3为本申请实施例中的无监督高维数据特征重要性评估与选择的装置的结构示意图；

图4为本申请实施例中的无监督高维数据特征重要性评估与选择的系统的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，能够以不同于此处的顺序执行所示出或描述的步骤。

本申请的说明书和权利要求书及上述附图中的术语“第一”和“第二”是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的保护。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例中，“至少一个”可以表示至少两个，例如可以是两个、三个或者更多个，本申请实施例不做限制。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，在不做特别说明的情况下，一般表示前后关联对象是一种“或”的关系。

目前，现有的特征选择方法，例如RFE，大多依赖白盒预测模型，比如，对于承保风险预测模型而言，是需要在知道承保风险预测模型的包括源码、结构、原理等所有内容的基础上，使用训练或测试数据验证承保风险预测模型对各个数据的特征的敏感程度，而难以针对不知道承保风险预测模型的具体原理，只知道承保风险预测模型的输出结果的黑盒预测模型进行特征评估，即在不知道预测模型内部构造时无法进行特征评估和选择，可见，现有技术中存在由于只能基于白盒预测模型对高维数据进行特征评估和选择问题。

鉴于此，本申请实施例提供一种无监督高维数据特征重要性评估与选择的方法，该方法可以通过获取第一样本数据集，其中，第一样本数据集包括至少一个样本，样本的特征向量由至少一个特征按固定顺序构成，然后获取输入偏移向量，对第一样本数据集中的每个样本的特征向量的第一特征进行偏移处理，确定不同样本对应的不同偏移特征向量集，其中，输入偏移向量由至少一个输入偏移量构成，偏移特征向量集包含的偏移特征向量个数等于所述输入偏移向量包含的输入偏移量个数，再调用黑盒预测模型，获取不同偏移特征向量集所对应的不同输出特征向量集，确定不同样本对应的不同输出偏移向量，根据不同输出偏移向量以及输入偏移向量，获取第一特征的全局影响力分值，若第一特征的全局影响力分值预设阈值，则删除第一样本数据集的每个样本的第一特征，使得能够基于黑盒预测模型，对高维数据进行特征重要性评估，将干扰特征或者作用小的特征进行过滤，从而减少噪声数据干扰，降低预测模型的计算量以及复杂度，提升预测模型的准确率。

为了更好的理解上述技术方案，下面通过说明书附图以及具体实施例对本申请技术方案做详细的说明，应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明，而不是对本申请技术方案的限定，在不冲突的情况下，本申请实施例以及实施例中的技术特征可以相互组合。

图1为本申请实施例所提供方法可适用的一种无监督高维数据特征重要性评估与选择的系统的结构，当然本申请实施例所提供的方法可以适用到多种无监督高维数据特征重要性评估与选择的系统上，应当理解图1所示的无监督高维数据特征重要性评估与选择的系统是对可适用本申请实施例所提供方法的无监督高维数据特征重要性评估与选择的系统的详细的说明，而不是对可适用本申请实施例所提供方法的无监督高维数据特征重要性评估与选择的系统的限定。

图1所示的无监督高维数据特征重要性评估与选择的系统包括存储器101、处理器102、总线接口103。存储器101以及处理器101通过总线接口103连接。存储器101用于存储程序指令。处理器102用于调用存储器101中存储的程序指令，按照获得的程序指令执行无监督高维数据特征重要性评估与选择的方法中包括的所有步骤。

请参见图2，为本申请实施例提供的一种无监督高维数据特征重要性评估与选择的方法，该方法可以由前述图1所示的无监督高维数据特征重要性评估与选择的系统执行。该方法的具体流程描述如下。

步骤201：获取第一样本数据集。

在本申请实施例中，获取第一样本数据集，其中，所述第一样本数据集包括至少一个样本，所述样本的特征向量由至少一个特征按固定顺序构成。为了便于理解，下面以举例的形式进行说明：

例如，获取的第一样本数据集包括n个样本，第i个样本的特征向量表示为F_i，i∈{1,2,…,n}，每个F_i包含m个特征，第j个特征表示为f_i,j，j∈{1,2,…,m}，则第i个样本的特征向量可表示为：F_i＝{f_i,1,f_i,2,…,f_i,j,…,f_i,m}。

步骤202：获取输入偏移向量，对所述第一样本数据集中的每个样本的特征向量的第一特征进行偏移处理，确定不同样本对应的不同偏移特征向量集。

在本申请实施例中，采用第一公式对第一样本数据集中的每个样本的每个特征进行归一化处理，确定第二样本数据集，根据第二样本数据集，获取第二样本数据集的每个样本的每个特征的均值，根据每个特征的均值，确定平均特征向量，获取输入偏移向量，根据输入偏移向量以及平均特征向量，采用第二公式对第二样本数据集的每个样本的特征向量的第一特征进行偏移处理，获取输入偏移向量中不同的输入偏移量对应的不同偏移特征向量，确定不同样本对应的不同偏移特征向量集。

具体的，第一公式为：

其中，为第二样本数据集的第i样本的特征向量中的第j特征，f_i,j为第一样本数据集的第i样本的特征向量中的第j特征，μ_j为第一样本数据集的每个样本的第j特征的均值，σ_j为第一样本数据集的每个样本的第j特征的方差，n为第一样本数据集的样本的个数；

第二公式为：

其中，为第二样本数据集的第i样本对应的偏移特征向量集的第k偏移特征向量的第j特征，/>为第二样本数据集的第i样本的特征向量中的第j特征，/>为平均特征向量中的第j特征，b_k为输入偏移向量中的第k输入偏移量。

为了便于理解，下面以举例的形式进行说明：

例如，采用第一公式对第一样本数据集中的每个样本的每个特征进行归一化处理，则归一化后的第i个样本的特征向量，即第二样本数据集的第i个样本的特征向量可表示为：/>

获取第二样本数据集的每个样本的每个特征的均值，根据每个特征的均值，确定平均特征向量可表示为：/>

设t＝5，对第二样本数据集的每个样本的特征向量中第一特征的值进行5级正向偏移，即根据输入偏移向量b＝{5％,10％,30％,50％,100％}以及平均特征向量的第一平均特征/>采用第二公式进行相关运算将第二样本数据集的每个样本的特征向量中第一特征由1个数值拓展为5个数值，获取输入偏移向量中的第k输入偏移量对应的偏移特征向量/>可表示为：

则第二样本数据集的第i个样本对应的偏移特征向量集P_i，可表示为：

步骤203：调用黑盒预测模型，获取所述不同偏移特征向量集所对应的不同输出特征向量集，确定不同样本对应的不同输出偏移向量。

在本申请实施例中，调用黑盒预测模型，获取不同偏移特征向量集所对应的不同输出特征向量集，以及平均特征向量所对应的输出特征向量，其中，黑盒模型泛指只知道输入和输出的闭源的模型，黑盒预测模型则是指不知道预测模型的具体原理，只知道预测模型的输出结果的模型，白盒模型泛指开源的模型，白盒预测模型则是指知道预测模型的包括源码、结构、原理等所有内容的模型，现有技术是在白盒预测模型的基础上，使用训练或测试数据验证预测模型对各个数据的特征的敏感程度，而在本申请实施例中，只需知晓预测模型的输出结果，便可使用训练或测试数据验证预测模型对各个数据的特征的敏感程度。

然后再获取不同输出特征向量集对应的不同均值向量，采用第三公式确定不同均值向量相对于平均特征向量所对应的输出特征向量的不同偏差，采用第四公式确定不同输出特征向量集相对于平均特征向量所对应的输出特征向量的不同偏差集，采用第五公式对不同偏差和不同偏差集进行运算，获取不同偏移特征向量集的每个偏移特征向量所对应的输出偏移量，确定不同样本对应的不同输出偏移向量。

具体的，第三公式为：

其中，为第二样本数据集的第i样本对应的均值向量相对于平均特征向量所对应的输出特征向量的偏差，/>为第二样本数据集的第i样本对应的均值向量，/>为平均特征向量所对应的输出特征向量；

第四公式为：

其中，α_i,j,k为第二样本数据集的第i样本的特征向量中的第j特征对应的输出特征向量集的第k输出特征向量相对于平均特征向量所对应的输出特征向量的偏差，为第二样本数据集的第i样本的特征向量中的第j特征对应的输出特征向量集的第k输出特征向量，/>为平均特征向量所对应的输出特征向量；

第五公式为：

其中，β_i,j,k为第二样本数据集的第i样本对应的偏移特征向量集的第k偏移特征向量所对应的输出偏移量，即输出偏移向量的第k输出偏移量，α_i,j,k为第二样本数据集的第i样本对应的输出特征向量集相对于平均特征向量所对应的输出特征向量的偏差集的第k偏差，为第二样本数据集的第i样本对应的均值向量相对于平均特征向量所对应的输出特征向量的偏差。

为了便于理解，下面以举例的形式进行说明：

例如，调用黑盒预测模型，获取平均特征向量所对应的输出特征向量/>以及第二样本数据集的第i个样本对应的偏移特征向量集P_i所对应的输出特征向量集O_i，可表示为：

获取输出特征向量集O_i中所有输出特征向量的均值，确定第二样本数据集的第i样本对应的均值向量采用第三公式确定/>相对于平均特征向量/>所对应的输出特征向量/>的偏差/>采用第四公式确定O_i中的各个输出特征向量相对于平均特征向量所对应的输出特征向量的偏差，从而获取O_i所对应的偏差集C_i，可表示为：

C_i＝{α_i,1,1,α_i,1,2,α_i,1,3,α_i,1,4,α_i,j,5}

采用第五公式对偏差和偏差集C_i进行运算，获取第二样本数据集的第i个样本对应的偏移特征向量集P_i的每个偏移特征向量/>所对应的输出偏移量β_i,1,k，确定输出偏移向量β，可表示为：

β＝{β_i,1,1,β_i,1,2,β_i,1,3,β_i,1,4β_i,1,5}

步骤204：根据所述不同输出偏移向量以及所述输入偏移向量，获取所述第一特征的全局影响力分值，若所述第一特征的全局影响力分值低于预设阈值，则删除所述第一样本数据集的每个样本的第一特征。

在本申请实施例中，根据不同输出偏移向量以及输入偏移向量，采用第六公式获取不同输出偏移向量与输入偏移向量的不同内积，采用第七公式获取不同内积的均值，确定不同内积的均值为第一特征的全局影响力分值。

具体的，第六公式为：

S_i,j＝<b,β>＝b₁*β_i,j,1+b₂*β_i,j,2+…+b_t*β_i,j,t

其中，S_i,j为第二样本数据集的第i样本的第j特征对应的输出偏移向量与输入偏移向量的内积，b为输入偏移向量，β为输出偏移向量。

第七公式为：

其中，S_j为第j特征的全局影响力分值，S_i,j为第二样本数据集的第i样本的第j特征对应的输出偏移向量与输入偏移向量的内积，n为第二样本数据集的样本的个数。

确定第一特征的全局影响力分值之后，将第二样本数据集的每个样本的第一特征替换为平均特征向量中的第一特征，若第一特征的全局影响力分值低于预设阈值，则删除第一样本数据集的每个样本的第一特征，从而过滤掉第一样本数据集的样本的干扰特征或者作用小的特征，减少预测模型的计算量，降低预测模型的复杂度。

如上所述的无监督高维数据特征重要性评估与选择的方法，可以应用在金融趋势预测、农业灾害预测、健康风险预测、保险核保结论预测等以多维特征向量数据表示的分析任务和系统中，为了便于理解，下面以保险中保险承保系统中的应用为例进行说明：

例如，在基于体检报告数据的核保业务中，投保人提交投保申请，保险公司收到申请后，核保员对于较大额度的健康险会要求申请人提交第三方医疗机构出具的体检报告，投保人体检后会使用手机拍照体检报告，然后在保险公司的投保系统中提交影像件，保险公司收到影像件后，核保员触发体检报告影像件光学字符识别(Optical CharacterRecognition，OCR)与结构化，提取结构化的体检数据，从而获取第一数据，其中，因为提取的体检数据共有400项结构化体检指标数据，每一项指标作为一个特征，可构成400维的特征向量，则获取的第一数据的特征向量可表示为：F₁＝{f_1,1,f_1,2,…,f_1,j,…,f_i,400}，F₁包含400个特征，第j个特征表示为f_1,j，j∈{1,2,…,400}。

然后基于步骤202-步骤204的具体实现步骤，对第一数据的每个特征进行归一化处理后计算每个特征的影响力分值，因为本申请实施例中的特征重要性评估方法是基于黑盒预测模型实现的，与现有技术中基于白盒预测模型的特征重要性评估方法相比，能够在不知承保风险预测模型的具体原理的基础上，验证承保风险预测模型对数据的每个特征的敏感程度，更加方便快捷高效。再根据每个特征的影响力分值，对第一数据的特征向量F₁包含的400个特征进行影响力排序，选取承保风险预测模型所需要的特征，其中，特征选择方法有两种：

一种是重要性占比：即按照重要性排序，判断前N1个特征值影响力分值的和与所有特征值影响力分值的和的比，是否大于重要性占比阈值T，其中，重要性占比阈值T可以为0.95，如果大于该阈值，则取这前N1个特征值；

另一种是权衡期望的特征个数N2和重要性占比：即二者取小操作，若期望的特征个数N2为55，如果按照重要性占比选取的特征个数N1为45，小于N2，则确定选取前45个特征值，如果按照重要性占比选取的特征个数N1为65，大于N2，则确定选取前55个特征值。

再基于选取的前N个特征值，得到第一数据的N维特征向量，送入承保风险预测模型，得到承保预测结论：拒保、延期、加查、承保，核保人员基于承保预测结论，对该投保申请进行复核，确认是否承保。

基于同一发明构思，本申请实施例提供一种无监督高维数据特征重要性评估与选择的装置，该无监督高维数据特征重要性评估与选择的装置能够实现前述的无监督高维数据特征重要性评估与选择的方法对应的功能。该无监督高维数据特征重要性评估与选择的装置可以是硬件结构、软件模块、或硬件结构加软件模块。该无监督高维数据特征重要性评估与选择的装置可以由芯片系统实现，芯片系统可以由芯片构成，也可以包含芯片和其他分立器件。请参见图3所示，该无监督高维数据特征重要性评估与选择的装置包括获取模块301、第一确定模块302、第二确定模块303、处理模块304，其中：

获取模块301，用于获取第一样本数据集，其中，所述第一样本数据集包括至少一个样本，所述样本的特征向量由至少一个特征按固定顺序构成；

第一确定模块302，用于获取输入偏移向量，对所述第一样本数据集中的每个样本的特征向量的第一特征进行偏移处理，确定不同样本对应的不同偏移特征向量集，其中，所述输入偏移向量由至少一个输入偏移量构成，所述偏移特征向量集包含的偏移特征向量个数等于所述输入偏移向量包含的输入偏移量个数；

第二确定模块303，用于调用黑盒预测模型，获取所述不同偏移特征向量集所对应的不同输出特征向量集，确定不同样本对应的不同输出偏移向量；

处理模块304，用于根据所述不同输出偏移向量以及所述输入偏移向量，获取所述第一特征的全局影响力分值，若所述第一特征的全局影响力分值低于预设阈值，则删除所述第一样本数据集的每个样本的第一特征。

一种可选实施方式中，所述第一确定模块302，具体用于：

一种可选实施方式中，所述第二确定模块303，具体用于：

一种可选实施方式中，所述处理模块304，具体用于：

所述第六公式，具体为：

S_i,j＝<b,β>＝b₁*β_i,j,1+b₂*β_i,j,2+…+b_t*β_i,j,t

所述第七公式，具体为：

一种可选实施方式中，所述装置还包括替换模块，用于：

基于同一发明构思，本申请实施例提供一种无监督高维数据特征重要性评估与选择的系统，请参见图4所述，该无监督高维数据特征重要性评估与选择的系统包括至少一个处理器402，以及与至少一个处理器连接的存储器401，本申请实施例中不限定处理器402与存储器401之间的具体连接介质，图4是以处理器402和存储器401之间通过总线400连接为例，总线400在图4中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不以此为限。总线400可以分为地址总线、数据总线、控制总线等，为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

在本申请实施例中，存储器401存储有可被至少一个处理器402执行的指令，至少一个处理器402通过调用存储器401存储的指令，可以执行前述的无监督高维数据特征重要性评估与选择的方法中所包括的步骤。其中，处理器402是无监督高维数据特征重要性评估与选择的系统的控制中心，可以利用各种接口和线路连接整个无监督高维数据特征重要性评估与选择的系统的各个部分，通过执行存储在存储器401内的指令，从而实现无监督高维数据特征重要性评估与选择的系统的各种功能。可选的，处理器402可包括一个或多个处理单元，处理器402可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器402中。在一些实施例中，处理器402和存储器401可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

存储器401作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器401可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器401是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器401还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

处理器402可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的无监督高维数据特征重要性评估与选择的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

通过对处理器402进行设计编程，可以将前述实施例中介绍的无监督高维数据特征重要性评估与选择的方法所对应的代码固化到芯片内，从而使芯片在运行时能够执行前述的无监督高维数据特征重要性评估与选择的方法的步骤，如何对处理器402进行设计编程为本领域技术人员所公知的技术，这里不再赘述。

基于同一发明构思，本申请实施例还提供一种存储介质，该存储介质存储有计算机指令，当该计算机指令在计算机上运行时，使得计算机执行如前述的无监督高维数据特征重要性评估与选择的方法的步骤。

在一些可能的实施方式中，本申请提供的无监督高维数据特征重要性评估与选择的方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在无监督高维数据特征重要性评估与选择的系统上运行时，程序代码用于使该无监督高维数据特征重要性评估与选择的系统执行本说明书上述描述的根据本申请各种示例性实施方式的无监督高维数据特征重要性评估与选择的方法中的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种无监督高维数据特征重要性评估与选择的方法，其特征在于，包括：

获取第一体检样本数据集，其中，所述第一体检样本数据集包括至少一个体检样本，所述体检样本的体检指标特征向量由至少一个体检指标特征按固定顺序构成；

获取输入偏移向量，对所述第一体检样本数据集中的每个体检样本的体检指标特征向量的第一体检指标特征进行偏移处理，确定不同体检样本对应的不同偏移特征向量集，其中，所述输入偏移向量由至少一个输入偏移量构成，所述偏移特征向量集包含的偏移特征向量个数等于所述输入偏移向量包含的输入偏移量个数；

调用承保风险黑盒预测模型，获取所述不同偏移特征向量集所对应的不同输出特征向量集，确定不同体检样本对应的不同输出偏移向量；

根据所述不同输出偏移向量以及所述输入偏移向量，获取所述第一体检指标特征的全局影响力分值，若所述第一体检指标特征的全局影响力分值低于预设阈值，则删除所述第一体检样本数据集的每个体检样本的第一体检指标特征。

2.如权利要求1所述的方法，其特征在于，获取输入偏移向量，对所述第一体检样本数据集中的每个体检样本的体检指标特征向量的第一体检指标特征进行偏移处理，确定不同体检样本对应的不同偏移特征向量集，包括：

采用第一公式对所述第一体检样本数据集中的每个体检样本的每个体检指标特征进行归一化处理，确定第二体检样本数据集；

根据所述第二体检样本数据集，获取所述第二体检样本数据集的每个体检样本的每个体检指标特征的均值，根据所述每个体检指标特征的均值，确定平均特征向量；

获取输入偏移向量，根据所述输入偏移向量以及所述平均特征向量，采用第二公式对所述第二体检样本数据集的每个体检样本的体检指标特征向量的第一体检指标特征进行偏移处理，获取所述输入偏移向量中不同的输入偏移量对应的不同偏移特征向量，确定不同体检样本对应的不同偏移特征向量集。

3.如权利要求2所述的方法，其特征在于，还包括：

所述第一公式，具体为：

其中，为所述第二体检样本数据集的第i体检样本的体检指标特征向量中的第j体检指标特征，f_i,j为所述第一体检样本数据集的第i体检样本的体检指标特征向量中的第j体检指标特征，μ_j为所述第一体检样本数据集的每个体检样本的第j体检指标特征的均值，σ_j为所述第一体检样本数据集的每个体检样本的第j体检指标特征的方差，n为所述第一体检样本数据集的体检样本的个数；

所述第二公式，具体为：

其中，为所述第二体检样本数据集的第i体检样本对应的偏移特征向量集的第k偏移特征向量的第j偏移特征，/>为所述第二体检样本数据集的第i体检样本的体检指标特征向量中的第j体检指标特征，/>为所述平均特征向量中的第j平均特征，b_k为所述输入偏移向量中的第k输入偏移量。

4.如权利要求2所述的方法，其特征在于，调用承保风险黑盒预测模型，获取所述不同偏移特征向量集所对应的不同输出特征向量集，确定不同体检样本对应的不同输出偏移向量，包括：

调用承保风险黑盒预测模型，获取所述不同偏移特征向量集所对应的不同输出特征向量集，以及所述平均特征向量所对应的输出特征向量；

采用第五公式对所述不同偏差和所述不同偏差集进行运算，获取所述不同偏移特征向量集的每个偏移特征向量所对应的输出偏移量，确定不同体检样本对应的不同输出偏移向量。

5.如权利要求4所述的方法，其特征在于，还包括：

所述第三公式，具体为：

其中，为所述第二体检样本数据集的第i体检样本对应的均值向量相对于所述平均特征向量所对应的输出特征向量的偏差，/>为所述第二体检样本数据集的第i体检样本对应的均值向量，/>为所述平均特征向量所对应的输出特征向量；

所述第四公式，具体为：

其中，α_i,j,k为所述第二体检样本数据集的第i体检样本的体检指标特征向量中的第j体检指标特征对应的输出特征向量集的第k输出特征向量相对于所述平均特征向量所对应的输出特征向量的偏差，为所述第二体检样本数据集的第i体检样本的体检指标特征向量中的第j体检指标特征对应的输出特征向量集的第k输出特征向量，/>为所述平均特征向量所对应的输出特征向量；

所述第五公式，具体为：

其中，β_i,j,k为所述第二体检样本数据集的第i体检样本对应的偏移特征向量集的第k偏移特征向量所对应的输出偏移量，即所述输出偏移向量的第k输出偏移量，α_i,j,k为所述第二体检样本数据集的第i体检样本对应的输出特征向量集相对于所述平均特征向量所对应的输出特征向量的偏差集的第k偏差，为所述第二体检样本数据集的第i体检样本对应的均值向量相对于所述平均特征向量所对应的输出特征向量的偏差。

6.如权利要求4所述的方法，其特征在于，根据所述不同输出偏移向量以及所述输入偏移向量，获取所述第一体检指标特征的全局影响力分值，包括：

根据所述不同输出偏移向量以及所述输入偏移向量，采用第六公式获取所述不同输出偏移向量与所述输入偏移向量的不同内积，采用第七公式获取所述不同内积的均值，确定所述不同内积的均值为所述第一体检指标特征的全局影响力分值；

所述第六公式，具体为：

S_i,j＝<b,β>＝b₁*β_i,j,1+b₂*β_i,j,2+…+b_t*β_i,j,t

其中，S_i,j为所述第二体检样本数据集的第i体检样本的第j体检指标特征对应的输出偏移向量与所述输入偏移向量的内积，b为所述输入偏移向量，β为所述输出偏移向量；

所述第七公式，具体为：

其中，S_j为所述第j特征的全局影响力分值，S_i,j为所述第二体检样本数据集的第i体检样本的第j体检指标特征对应的输出偏移向量与所述输入偏移向量的内积，n为所述第二体检样本数据集的体检样本的个数。

7.如权利要求6所述的方法，其特征在于，确定所述不同内积的均值为所述第一体检指标特征的全局影响力分值之后，还包括：

将所述第二体检样本数据集的每个体检样本的第一体检指标特征替换为所述平均特征向量中的第一平均特征。

8.一种无监督高维数据特征重要性评估与选择的装置，其特征在于，包括：

获取模块，用于获取第一体检样本数据集，其中，所述第一体检样本数据集包括至少一个体检样本，所述体检样本的特征向量由至少一个特征按固定顺序构成；

第一确定模块，用于获取输入偏移向量，对所述第一体检样本数据集中的每个体检样本的体检指标特征向量的第一体检指标特征进行偏移处理，确定不同体检样本对应的不同偏移特征向量集，其中，所述输入偏移向量由至少一个输入偏移量构成，所述偏移特征向量集包含的偏移特征向量个数等于所述输入偏移向量包含的输入偏移量个数；

第二确定模块，用于调用承保风险黑盒预测模型，获取所述不同偏移特征向量集所对应的不同输出特征向量集，确定不同体检样本对应的不同输出偏移向量；

处理模块，用于根据所述不同输出偏移向量以及所述输入偏移向量，获取所述第一体检指标特征的全局影响力分值，若所述第一体检指标特征的全局影响力分值低于预设阈值，则删除所述第一体检样本数据集的每个体检样本的第一体检指标特征。

9.一种无监督高维数据特征重要性评估与选择的系统，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行权利要求1-7任一项所述的方法包括的步骤。

10.一种存储介质，其特征在于，所述存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行权利要求1-7任一项所述的方法包括的步骤。