CN111539451B

CN111539451B - 样本数据优化方法、装置、设备及存储介质

Info

Publication number: CN111539451B
Application number: CN202010222195.XA
Authority: CN
Inventors: 成卓鸿
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2023-08-15
Anticipated expiration: 2040-03-26
Also published as: CN111539451A; WO2021189830A1

Abstract

本发明涉及大数据领域，公开了一种样本数据优化方法方法、装置、设备及存储介质，用于样本数据优化。样本数据优化方法包括：获取当前的待处理数据，并对所述待处理数据按照数据种类进行归类，基于归类后的数据生成样本集群；判断每个样本集的样本个数是否大于初始样本平均数，得到判断结果；根据所述判断结果，将所述样本集群划分为少数类样本集群和多数类样本集群；计算所述少数类样本集群中样本平均数的比例值，并将所述比例值与预置比例临界值进行比较；若比例值均大于临界值，则将样本集群作为合格的训练样本群输出；若存在比例值小于临界值，则对少数类样本集进行样本个数新增处理，将调整后的样本集群作为合格的训练样本集群输出。

Description

样本数据优化方法、装置、设备及存储介质

技术领域

本发明涉及大数据领域，尤其涉及一种样本数据优化方法、装置、设备及存储介质。

背景技术

在大数据领域中，分类技术是较为重要且应用广泛的技术之一。它根据训练集建立合适的分类器，然后通过这个分类器对用户需要分类的数据给出预测的分类结果。集成学习算法是机器学习的一种新的学习思想，该学习算法把同一个问题分解到多个不同的模块中，由多个学习器一起参与学习，共同解决目标问题，从而提高分类器的分类能力。

集成学习应用越来越广泛，功能也越来越强大。在应用中，存在应用该算法在保险人的数据筛选中，用于提高对投保人的评估，减少存在的隐形风险。例如，保险人存在不为人知的疾病，或是保险人生活在交通事故频发的区域，都对投保存在较大的影响。但是该算法并不是十全十美的，在该算法使用分类时经常会遇到数据分布不均的问题，如果训练集内的多数类的数量大于少数类时，结果就会向多数类靠拢。由于很多少数类被划分为多数类，导致分类精度不高，严重影响了算法的准确率。

发明内容

本发明的主要目的在于解决现有技术中，样本数据中少数类样本偏少出现的样本分布不均导致分类器精准度不高的问题。

本发明第一方面提供了一种样本数据优化方法，包括：获取当前的待处理数据，并对所述待处理数据按照数据种类进行归类，基于归类后的数据生成样本集群，其中，所述样本集群包括至少两种不同的数据类型的样本集；统计所述样本集群中每个样本集所包含的样本个数，并判断每个样本集的样本个数是否大于初始样本平均数，得到判断结果，其中，所述初始样本平均数为所有样本集中样本个数的平均值；根据所述判断结果，将所述样本集群中的所有样本集划分为少数类样本集群和多数类样本集群，其中，所述少数类样本集群为每个集的样本个数小于所述初始样本平均数的集群，所述多数类样本集群为每个集的样本个数大于所述初始样本平均数的集群；计算所述少数类样本集群中每个样本集的样本个数分别与所述初始样本平均数的比例值，并将所述比例值与预置比例临界值进行比较；若所述比例值均大于所述比例临界值，则将所述样本集群作为合格的训练样本集输出；若存在所述比例值小于所述比例临界值，则对所述比例值对应的少数类样本集进行样本个数新增处理，直至所述少数类样本集群中每个样本集的样本个数与所述初始样本平均数的比例值均达到所述比例临界值时为止，将调整后的样本集群作为合格的训练样本集群输出。

可选的，在本发明第一方面的第一种实现方式中，在所述获取当前的待处理数据，并对所述待处理数据按照数据种类进行归类，基于归类后的数据生成样本集群之前，还包括：判断所述待处理数据中的数据类型是否为数值格式；若所述数据类型为数值格式，则获取所述待处理数据中的数据，若所述数据类型不是数值格式，则将所述待处理数据转化为数值格式；读取数值格式的数据的种类，将种类相同的数据划分为同一类样本集。

可选的，在本发明第一方面的第二种实现方式中，所述对所述比例值对应的样本集进行样本个数新增处理，直至所述少数类样本集群中每个样本集的样本个数与所述初始样本平均数的比例值均达到所述比例临界值时为止，将调整后的样本集群作为合格的训练样本集群输出包括：根据所述比例值，从所述少数类样本集群中获取与所述比例值对应的样本集，并计算所述样本集的聚类中心v；根据所述聚类中心v和预设的样本数据生成函数，计算所述样本集的新增数据P，其中所述预设的样本数据生成函为，y为所述样本集中的样本数据，random（0，1）为0到1的随机数；将所述新增数据P加入对应的样本集中，得到所述训练样本集群。

可选的，在本发明第一方面的第三种实现方式中，所述根据所述比例值，从所述少数类样本集群中获取与所述比例值对应的样本集，并计算所述样本集的聚类中心v包括：将与所述比例值对应的样本集划分为c个子集，其中，同一个子集中所包含的样本数据为同类样本数据；

根据样本数据到各聚类中心的距离的加权平均函数，计算所述c个子集中每个样本数据到各聚类中心的距离；根据所述加权平均函数的特定条件下的约束条件，取所述距离的最小值，并输出与所述最小值对应的聚类中心v；其中，所述加权平均函数为：，/>表示少数类样本集的第i类聚类中心，/>表示不同样本对聚类中心的隶属度，/>为不同样本至不同聚类中心的距离，/>为加权指数，c为子集数量。

可选的，在本发明第一方面的第四种实现方式中，所述根据所述加权平均函数的特定条件下的约束条件，取所述距离的最小值，并输出与所述最小值对应的聚类中心v包括：令所述约束条件为；根据所述约束条件，利用拉格朗日乘数法求解所述加权平均函数，得到隶属度/>与第i类聚类中心/>的函数表达式；对所述隶属度和第i类聚类中心的函数表达式进行循环迭代处理，得到第a类聚类中心/>，并判断第a类聚类中心/>与第a-1类聚类中心/>之间的距离是否大于预设的循环停止临界值；若否，则将聚类中心/>作为所述聚类中心v输出；若是，则对所述隶属度和第i类聚类中心的函数表达式进行二次循环迭代处理，直到所述距离不大于预设的循环停止临界值为止，输出所述聚类中心v。

可选的，在本发明第一方面的第五种实现方式中，所述则对所述隶属度和第i类聚类中心的函数表达式进行二次循环迭代处理，直到所述距离不大于预设的循环停止临界值为止，输出所述聚类中心v包括：获取初始化的第a类聚类中心；将所述第a类聚类中心/>代入所述隶属度的函数表达式获得隶属度/>；将所述隶属度/>代入所述第i类聚类中心的函数表达式，获得第a+1类聚类中心/>。

可选的，在本发明第一方面的第六种实现方式中，在所述对所述比例值对应的少数类样本集进行样本个数新增处理，直至所述少数类样本集群中每个样本集的样本个数与所述初始样本平均数的比例值均达到所述比例临界值时为止，将调整后的样本集群作为合格的训练样本集群输出之后，还包括：根据所述训练样本集群生成决策树分类器；分别对所述训练样本集群中样本集使用随机且有放回地抽取，将选中的样本对应的生成第一抽取样本集群，将每个样本集中未被选中的样本生成对应的第二抽取样本集群；判断所述第一抽取样本集群中样本集的样本数量是否小于对应的所述训练样本集群中样本集的样本数量；若是，分别对所述第一抽取样本集群中样本集进行预测，对预测的每个结果进行判断并计算出对应的AUC值，当所有的AUC值达到预置阈值时，确认所述决策树分类器合格；若否，分别对所述第二抽取样本集群中样本集进行预测，计算每个预测结果的准确率，每个所述准确率均达到预置阈值时，确认所述决策树分类器合格。

本本发明第二方面提供了一种样本数据优化装置，包括：获取模块，用于获取当前的待处理数据，并对所述待处理数据按照数据种类进行归类，基于归类后的数据生成样本集群，其中，所述样本集群包括至少两种不同的数据类型的样本集；判断模块，用于统计所述样本集群中每个样本集所包含的样本个数，并判断每个样本集的样本个数是否大于初始样本平均数，得到判断结果，其中，所述初始样本平均数为所有样本集中样本个数的平均值；划分模块，用于根据所述判断结果，将所述样本集群中的所有样本集划分为少数类样本集群和多数类样本集群，其中，所述少数类样本集群为每个集的样本个数小于所述初始样本平均数的集群，所述多数类样本集群为每个集的样本个数大于所述初始样本平均数的集群；比较模块，用于计算所述少数类样本集群中每个样本集的样本个数分别与所述初始样本平均数的比例值，并将所述比例值与预置比例临界值进行比较；标记模块，用于若所述比例值均大于所述比例临界值，则将所述样本集群作为合格的训练样本集输出；样本新增模块，用于若存在所述比例值小于所述比例临界值，则对所述比例值对应的少数类样本集进行样本个数新增处理，直至所述少数类样本集群中每个样本集的样本个数与所述初始样本平均数的比例值均达到所述比例临界值时为止，将调整后的样本集群作为合格的训练样本集群输出。

可选的，在本发明第二方面的第一种实现方式中，样本数据优化装置还包括数据监控模块，所述数据监控模块用于：判断所述待处理数据中的数据类型是否为数值格式；若所述数据类型为数值格式，则获取所述待处理数据中的数据，若所述数据类型不是数值格式，则将所述待处理数据转化为数值格式；读取数值格式的数据的种类，将种类相同的数据划分为同一类样本集。

可选的，在本发明第二方面的第二种实现方式中，所述样本新增模块用于：分类单元，根据所述比例值，从所述少数类样本集群中获取与所述比例值对应的样本集，并计算所述样本集的聚类中心v；生成单元，根据所述聚类中心v和预设的样本数据生成函数，计算所述样本集的新增数据P，其中所述预设的样本数据生成函为，y为所述样本集中的样本数据，random（0，1）为0到1的随机数；添加单元，将所述新增数据P加入对应的样本集中，得到所述训练样本集群。

可选的，在本发明第二方面的第三种实现方式中，所述添加单元还可以用于：将与所述比例值对应的样本集划分为c个子集，其中，同一个子集中所包含的样本数据为同类样本数据；根据样本数据到各聚类中心的距离的加权平均函数，计算所述c个子集中每个样本数据到各聚类中心的距离；根据所述加权平均函数的特定条件下的约束条件，取所述距离的最小值，并输出与所述最小值对应的聚类中心v；其中，所述加权平均函数为：，/>表示少数类样本集的第i类聚类中心，/>表示不同样本对聚类中心的隶属度，/>为不同样本至不同聚类中心的距离，/>为加权指数，c为子集数量。

可选的，在本发明第二方面的第四种实现方式中，所述添加单元用于：

令所述约束条件为；根据所述约束条件，利用拉格朗日乘数法求解所述加权平均函数，得到隶属度/>与第i类聚类中心/>的函数表达式；对所述隶属度和第i类聚类中心的函数表达式进行循环迭代处理，得到第a类聚类中心/>，并判断第a类聚类中心/>与第a-1类聚类中心/>之间的距离是否大于预设的循环停止临界值；若否，则将聚类中心/>作为所述聚类中心v输出；若是，则对所述隶属度和第i类聚类中心的函数表达式进行二次循环迭代处理，直到所述距离不大于预设的循环停止临界值为止，输出所述聚类中心v。

可选的，在本发明第二方面的第五种实现方式中，所述样本添加单元可以用于：获取初始化的第a类聚类中心；将所述第a类聚类中心/>代入所述隶属度的函数表达式获得隶属度/>；将所述隶属度/>代入所述第i类聚类中心的函数表达式，获得第a+1类聚类中心/>。

可选的，在本发明第二方面的第六种实现方式中，所述样本数据优化装置还包括结果评价模块，所述结果评价模块用于：根据所述训练样本集群生成决策树分类器；分别对所述训练样本集群中样本集使用随机且有放回地抽取，将选中的样本对应的生成第一抽取样本集群，将每个样本集中未被选中的样本生成对应的第二抽取样本集群；判断所述第一抽取样本集群中样本集的样本数量是否小于对应的所述训练样本集群中样本集的样本数量；若是，分别对所述第一抽取样本集群中样本集进行预测，对预测的每个结果进行判断并计算出对应的AUC值，当所有的AUC值达到预置阈值时，确认所述决策树分类器合格；若否，分别对所述第二抽取样本集群中样本集进行预测，计算每个预测结果的准确率，每个所述准确率均达到预置阈值时，确认所述决策树分类器合格。

本发明第三方面提供了一种基于优先级的资源分配设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互联；所述至少一个处理器调用所述存储器中的所述指令，以使得所述样本数据优化设备执行上述的样本数据优化方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的样本数据优化方法。

本发明提供的技术方案中，获取当前的待处理数据，并对所述待处理数据按照数据种类进行归类，基于归类后的数据生成样本集群，其中，所述样本集群包括至少两种不同的数据类型的样本集；统计所述样本集群中每个样本集所包含的样本个数，并判断每个样本集的样本个数是否大于初始样本平均数，得到判断结果，其中，所述初始样本平均数为所有样本集中样本个数的平均值；根据所述判断结果，将所述样本集群中的所有样本集划分为少数类样本集群和多数类样本集群，其中，所述少数类样本集群为每个集的样本个数小于所述初始样本平均数的集群，所述多数类样本集群为每个集的样本个数大于所述初始样本平均数的集群；计算所述少数类样本集群中每个样本集的样本个数分别与所述初始样本平均数的比例值，并将所述比例值与预置比例临界值进行比较；若所述比例值均大于所述比例临界值，则将所述样本集群作为合格的训练样本集输出；若存在所述比例值小于所述比例临界值，则对所述比例值对应的少数类样本集进行样本个数新增处理，直至所述少数类样本集群中每个样本集的样本个数与所述初始样本平均数的比例值均达到所述比例临界值时为止，将调整后的样本集群作为合格的训练样本集群输出。本发明实施例中，本发明改善在于减少了决策树分类器假负性与假正性的情况，通过对保险人的数据进行聚类处理获得数据聚类中心，在获得聚类中心后对数据集群中数据样本个数较少的样本进行扩增处理。将新增加的数据添加至原先的数据集中，平衡数据分布不均的情况。在检验确认样本数据已经新增完成之后，用新增加的样本数据对决策树分类器进行训练。改善结果确认则使用使用OOB预测与AUC值评价了改善后的决策树分类器的性能，只有明显减少了假负类与假正类的决策树分类器会通过平均并输出。由此可以得到高性能的决策树分类器，减少了决策树分类器假负性与假正性的情况，提高对保险申请人的分类精度。

附图说明

图1为本发明实施例中样本数据优化方法的一个实施例示意图；

图2为本发明实施例中样本数据优化方法的另一个实施例示意图；

图3为本发明实施例中样本数据优化装置的一个实施例示意图；

图4为本发明实施例中样本数据优化装置的另一个实施例示意图；

图5为本发明实施例中样本数据优化设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种样本数据优化方法、装置、设备及存储介质，获取当前的待处理数据，并对所述待处理数据按照数据种类进行归类，基于归类后的数据生成样本集群，其中，所述样本集群包括至少两种不同的数据类型的样本集；统计所述样本集群中每个样本集所包含的样本个数，并判断每个样本集的样本个数是否大于初始样本平均数，得到判断结果，其中，所述初始样本平均数为所有样本集中样本个数的平均值；根据所述判断结果，将所述样本集群中的所有样本集划分为少数类样本集群和多数类样本集群，其中，所述少数类样本集群为每个集的样本个数小于所述初始样本平均数的集群，所述多数类样本集群为每个集的样本个数大于所述初始样本平均数的集群；计算所述少数类样本集群中每个样本集的样本个数分别与所述初始样本平均数的比例值，并将所述比例值与预置比例临界值进行比较；若所述比例值均大于所述比例临界值，则将所述样本集群作为合格的训练样本集输出；若存在所述比例值小于所述比例临界值，则对所述比例值对应的少数类样本集进行样本个数新增处理，直至所述少数类样本集群中每个样本集的样本个数与所述初始样本平均数的比例值均达到所述比例临界值时为止，将调整后的样本集群作为合格的训练样本集群输出。

本发明改善在于减少了决策树分类器假负性与假正性的情况，通过对保险人的数据进行聚类处理获得数据聚类中心，在获得聚类中心后对数据集群中数据样本个数较少的样本进行扩增处理。将新增加的数据添加至原先的数据集中，平衡数据分布不均的情况。在检验确认样本数据已经新增完成之后，用新增加的样本数据对决策树分类器进行训练。由此可以得到高性能的决策树分类器，减少了决策树分类器假负性与假正性的情况，提高对保险申请人的分类精度。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中样本数据优化方法的一个实施例包括：

101、获取当前的待处理数据，并对所述待处理数据按照数据种类进行归类，基于归类后的数据生成样本集群；

在本实施例中，不同类型的集合构成样本集群X，集合中的样本数量是不同的。例如：保险人的年龄、身高、家庭住址、家庭年收入、是否有住房贷，这样的数据的数据内容不同，样本容量大小也不同。在保险申请人的数据处理方式中，分类是处理数据的第一步。对不同类型的数据进行划分，然后对相同类型的数据进行划分。在原始样本的处理方式中，分类是处理数据的第一步。对不同类型的数据进行划分，然后对相同类型的数据进行划分。

可以理解的是，本发明的执行主体可以为样本数据优化装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

102、统计所述样本集群中每个样本集所包含的样本个数，并判断每个样本集的样本个数是否大于初始样本平均数，得到判断结果；

在本实施例中，判断样本集群X中p个样本集两两之间的样本个数是否相同，不同的样本集的两两个数若是相同，则样本中的数据较为均衡，样本集的平均可以保证分类器的准确性。例如，保险人的数据中有姓名这个数据的有6000个人，但是收集到5000个人的年龄，收集到3000个人的家庭年收入。此时，就需要调整数据。如果样本集之间数据不同，说明样本数据不均衡可能会影响分类器的性能，所以需要对样本集的样本进行相应的调整。

103、根据所述判断结果，将所述样本集群中的所有样本集划分为少数类样本集群和多数类样本集群；

在本实施例中，每个样本集都是不同类型的样本集合，在样本集中每个样本都是同一种类型的。例如，在筛选保险人的数据中，某投保人为70岁，划分标准为大于60岁的人群属于少数类。在预设的条件下，将样本集群X中的样本集一个个的分类出来，分别构成样本集群Y与样本集群Z。其中样本集群Y与样本集群Z的样本都是来自样本集群X，并且样本集群Y与样本集群Z相加则等于样本集群X，数学关系则为：。

确认出少数与多数后，就需要判断样本的分布是否平衡。若分布不平衡，则需要增加少数类样本的数量平衡样本之间的分布。例如，在保险人的样本分布中，保险人的数据小于60岁有500个，而大于60岁有5个，这样造成了严重的数据分布不均，所以需要进行调整。

104、计算所述少数类样本集群中每个样本集的样本个数分别与所述初始样本平均数的比例值，并将所述比例值与预置比例临界值进行比较；

在本实施例中，划分少数类样本集后就要样本个数判断是否合理。少数类样本集与初始样本平均数比值进行判断是否能大于预置的比例临界值，如果小于临界值则说明少数类样本集的样本数量不足，需要增加样本数量平衡样本的分布。由于初始样本平均数是固定的每个样本集增加的新增的样本不会影响判断标准，在划分时候已经完成对少数类的定义，增加样本数量也不会对少数类样本集的集合分类产生影响。

105、若所述比例值均大于所述比例临界值，则将所述样本集群作为合格的训练样本集输出；

在本实施例中，若所述比例值均大于所述比例临界值，则将样本集群X作为合格的训练样本，其中，如果样本集的样本个数与初始样本平均数的比例值/>都大于比例临界值，则说明/>的样本个数都满足基本要求，不存在样本数据分布不均或者是数据不足的情况。

106、若存在所述比例值小于所述比例临界值，则对所述比例值对应的少数类样本集进行样本个数新增处理，直至所述少数类样本集群中每个样本集的样本个数与所述初始样本平均数的比例值均达到所述比例临界值时为止，将调整后的样本集群作为合格的训练样本集群输出。

在本实施例中，如果比例值小于临界值，那么说明少数类样本集的样本数量不足，会对分类器产生较大的影响。此时需要对相应的少数类样本集集合进行样本个数新增处理，直至比例值均达到所述临界值的情况，此时增加少数类样本数量提高分类器精准度。

本发明实施例中，本发明改善在于减少了决策树分类器假负性与假正性的情况，通过对保险人的数据进行聚类处理获得数据聚类中心，在获得聚类中心后对数据集群中数据样本个数较少的样本进行扩增处理。将新增加的数据添加至原先的数据集中，平衡数据分布不均的情况。在检验确认样本数据已经新增完成之后，用新增加的样本数据对决策树分类器进行训练。由此可以得到高性能的决策树分类器，减少了决策树分类器假负性与假正性的情况，提高对保险申请人的分类精度。

107、将所述合格的训练样本集群输入分类算法模型中以进行分类运算。

请参阅图2，本发明实施例中样本数据优化方法的另一个实施例包括：

201、判断所述待处理数据中的数据类型是否为数值格式；

202、若所述数据类型为数值格式，则获取所述待处理数据中的数据，若所述数据类型不是数值格式，则将所述待处理数据转化为数值格式；读取数值格式的数据的种类，将种类相同的数据划分为同一类样本集。

本实施例中，算法处理的是数字，对于非数字的信息是无法处理。如果输入其他类型的数据是有必要的，也要将其他类型的数据先转换为数字类型的信息再来进行处理。如果输入其他类型的数据，将无法进行运算与分类。例如，要收集保险人的家庭住址，保险人的家庭住址都是文字，所以在处理数据前要将文字转换为数字。所以在处理数据之前，需要判断数据的类型是否为数字类型。

203、获取当前的待处理数据，并对所述待处理数据按照数据种类进行归类，基于归类后的数据生成样本集群；

204、统计所述样本集群中每个样本集所包含的样本个数，并判断每个样本集的样本个数是否大于初始样本平均数，得到判断结果；

205、根据所述判断结果，将所述样本集群中的所有样本集划分为少数类样本集群和多数类样本集群；

206、计算所述少数类样本集群中每个样本集的样本个数分别与所述初始样本平均数的比例值，并将所述比例值与预置比例临界值进行比较；

207、若所述比例值均大于所述比例临界值，则将所述样本集群作为合格的训练样本集输出；

208、将所述合格的训练样本集群输入分类算法模型中以进行分类运算。

209、若存在所述比例值小于所述比例临界值，则对所述比例值对应的少数类样本集进行样本个数新增处理，直至所述少数类样本集群中每个样本集的样本个数与所述初始样本平均数的比例值均达到所述比例临界值时为止，将调整后的样本集群作为合格的训练样本集群输出；

在对样本新增处理时，新增处理方式具体为以下过程：

根据所述比例值，从所述少数类样本集群中获取与所述比例值对应的样本集，并计算所述样本集的聚类中心v；

根据所述聚类中心v和预设的样本数据生成函数，计算所述样本集的新增数据P，其中所述预设的样本数据生成函为，y为所述样本集中的样本数据，random（0，1）为0到1的随机数；

将所述新增数据P加入对应的样本集中，得到所述训练样本集群。

在本实施例中，聚类中心获取的方式有很多种一般常见的有K-MEANS聚类算法、均值偏移聚类算法、DBSCAN聚类算法、使用高斯混合模型（GMM）的期望最大化（EM）聚类、层次聚类算法。获得的聚类中心是一个确定的值，但是获得这个确定的聚类中心过程中是进行迭代判断的。不满足迭代中止条件的聚类中心将会继续进行迭代，直至出现一个满足条件的聚类中心停止。在“人造样本”的过程中，新产生的样本也应向类的重心靠拢，这样使得样本的产生过程有一定的方向性，从而克服SMOTE 算法在进行合成时的盲目化问题。而且由于“人造”样本会有目的趋向重心，由处在分布边缘的样本产生的新样本的分布会得到改善，从而克服了SMOTE 算法在进行合成时的边缘化问题。少数类样本与多数类样本在样本容量不一样，在生成新数据时会改变少数类与多数类的样本容量。random（0，1）产生的是0至1之间的随机数字。

y是少数类样本集中的样本数据，新增数据P也是属于少数类样本增加到相应的少数类样本集中，因此得到新增样本的少数类样本集。少数类样本集的比值与比值临界值进行比较，如果达到比值临界值就终止增加数据，没有达到则要继续增加数据。

将新增数据P加入对应的少数类样本集中，得到新增样本的少数类样本集的过程中，还具体包括以下实施细则：

将与所述比例值对应的样本集划分为c个子集，其中，同一个子集中所包含的样本数据为同类样本数据；

根据样本数据到各聚类中心的距离的加权平均函数，计算所述c个子集中每个样本数据到各聚类中心的距离；

根据所述加权平均函数的特定条件下的约束条件，取所述距离的最小值，并输出与所述最小值对应的聚类中心v；

其中，所述加权平均函数为：，/>表示少数类样本集的第i类聚类中心，/>表示不同样本对聚类中心的隶属度，/>为不同样本至不同聚类中心的距离，/>为加权指数，c为子集数量。

在本实施例中，样本集中有个样本，将/>个样本划分为c个子集，子集的数量要大于2，但是不可能超过样本的数量/>。将样本集根据相似情况进行划分，相近的为一个类别，为聚类中心的进行准备。

目标函数在约束条件下求得最小值，是拉格朗日乘数法求解的问题。分类矩阵/>，表明不同样本与不同聚类中心的关系。/>表达式中加权指数m、子集数量c是为了想要输出的聚类中心/>的目标而预先设定的常数，为不同样本至不同聚类中心的距离。某一个元素对所有类别的隶属程度的值加起来要等于1，因此得知约束条件为/>，在此约束条件下，要求得/>的最小值，然后得到了/>与/>的表达式。

在获得与/>的表达式后，就能迭代获得聚类中心/>，/>是代表聚类中心之间的欧氏距离，在聚类中心之间的距离与循环停止临界值进行比较，如果聚类中心的数值小于循环停止临界值，将聚类中心/>获得，停止迭代，a为一个确定值。如果聚类中心的数值大于循环停止临界值，则还需要进行迭代处理，直至满足条件为止。

对于算法中与/>的表达式，可以确定为以下处理方式：

令所述约束条件为；

根据所述约束条件，利用拉格朗日乘数法求解所述加权平均函数，得到隶属度与第i类聚类中心/>的函数表达式；

对所述隶属度和第i类聚类中心的函数表达式进行循环迭代处理，得到第a类聚类中心，并判断第a类聚类中心/>与第a-1类聚类中心/>之间的距离是否大于预设的循环停止临界值；

若否，则将聚类中心作为所述聚类中心v输出；

若是，则对所述隶属度和第i类聚类中心的函数表达式进行二次循环迭代处理，直到所述距离不大于预设的循环停止临界值为止，输出所述聚类中心v。

在本实施例中，在的约束条件下，求/>的最小值使用拉格朗日乘数法求解。设定/>，解/>，得到表达式/>，/>。

使用与/>的表达式迭代获得第a+1类聚类中心/>还包括以下步骤：

获取初始化的第a类聚类中心；

将所述第a类聚类中心代入所述隶属度的函数表达式获得隶属度/>；

将所述隶属度代入所述第i类聚类中心的函数表达式，获得第a+1类聚类中心。

在本实施例中，先代入初始模糊分类矩阵代入表达式/>，获得聚类中心/>，然后将/>代入表达式/>，获得模糊分类矩阵/>然后将获得的模糊分类矩阵/>代入表达式/>中，不断循环往复，就能获得聚类中心/>，a为大于1的正整数。这样就有聚类中心集，相近的聚类中心之间进行比较距离/>，距离大小获得后/>与循环停止临界值进行大小比较。

210、根据所述训练样本集群生成决策树分类器；

211、分别对所述训练样本集群中样本集使用随机且有放回地抽取，将选中的样本对应的生成第一抽取样本集群，将每个样本集中未被选中的样本生成对应的第二抽取样本集群；

212、判断所述第一抽取样本集群中样本集的样本数量是否小于对应的所述训练样本集群中样本集的样本数量；

213、若是，分别对所述第一抽取样本集群中样本集进行预测，对预测的每个结果进行判断并计算出对应的AUC值，当所有的AUC值达到预置阈值时，确认所述决策树分类器合格；

214、若否，分别对所述第二抽取样本集群中样本集进行预测，计算每个预测结果的准确率，每个所述准确率均达到预置阈值时，确认所述决策树分类器合格。

在计算AUC值时，先要画出ROC曲线，ROC曲线要先了解抽取的样本的预测情况。TP：预测类别是正例，真实类别也是正例；FP：预测类别是正例，真实类别是负例；TN：预测类别是负例，真实类别也是负例；FN：预测类别是N，真实类别是P；TPR：在所有实际为正性的样本中，被正确地判断为正性之比率为TPR=TP/(TP+FN)；FPR：在所有实际为负性的样本中，被错误地判断为正性之比率为FPR=FP/(FP+TN)；ROC曲线将假正率（FPR）定义为 X 轴，真正率（TPR）定义为 Y 轴，本方法采用的是AUC值判断结果，计算出ROC曲线下面的面积，就是AUC的值。我们得到的AUC曲线必然是一个阶梯状的。因此，计算的AUC也就是这些阶梯下面的面积之和。在有限样本中我们常用的得到概率的办法就是通过频率来估计之。这种估计随着样本规模的扩大而逐渐逼近真实值。这和上面的方法中，样本数越多，计算的AUC越准确类似，也和计算积分的时候，小区间划分的越细，计算的越准确是同样的道理。所以抽取的次数越多，那么得到的决策树评价也就越准确。

上面对本发明实施例中样本数据优化方法进行了描述，下面对本发明实施例中样本数据优化装置进行描述，请参阅图3，本发明实施例中样本数据优化装置一个实施例包括：

获取模块301，用于获取当前的待处理数据，并对所述待处理数据按照数据种类进行归类，基于归类后的数据生成样本集群，其中，所述样本集群包括至少两种不同的数据类型的样本集；

判断模块302，用于统计所述样本集群中每个样本集所包含的样本个数，并判断每个样本集的样本个数是否大于初始样本平均数，得到判断结果，其中，所述初始样本平均数为所有样本集中样本个数的平均值；

划分模块303，用于根据所述判断结果，将所述样本集群中的所有样本集划分为少数类样本集群和多数类样本集群，其中，所述少数类样本集群为每个集的样本个数小于所述初始样本平均数的集群，所述多数类样本集群为每个集的样本个数大于所述初始样本平均数的集群；

比较模块304，用于计算所述少数类样本集群中每个样本集的样本个数分别与所述初始样本平均数的比例值，并将所述比例值与预置比例临界值进行比较；

标记模块305，用于若所述比例值均大于所述比例临界值，则将所述样本集群作为合格的训练样本集输出；

样本新增模块306，用于若存在所述比例值小于所述比例临界值，则对所述比例值对应的少数类样本集进行样本个数新增处理，直至所述少数类样本集群中每个样本集的样本个数与所述初始样本平均数的比例值均达到所述比例临界值时为止，将调整后的样本集群作为合格的训练样本集群输出。

请参阅图4，本发明实施例中样本数据优化装置的另一个实施例包括：

可选的，数据监控模块307可以具体用于：判断所述待处理数据中的数据类型是否为数值格式；若所述数据类型为数值格式，则获取所述待处理数据中的数据，若所述数据类型不是数值格式，则将所述待处理数据转化为数值格式；读取数值格式的数据的种类，将种类相同的数据划分为同一类样本集。

可选的，结果评价模块308可以具体用于：根据所述训练样本集群生成决策树分类器；分别对所述训练样本集群中样本集使用随机且有放回地抽取，将选中的样本对应的生成第一抽取样本集群，将每个样本集中未被选中的样本生成对应的第二抽取样本集群；判断所述第一抽取样本集群中样本集的样本数量是否小于对应的所述训练样本集群中样本集的样本数量；若是，分别对所述第一抽取样本集群中样本集进行预测，对预测的每个结果进行判断并计算出对应的AUC值，当所有的AUC值达到预置阈值时，确认所述决策树分类器合格；若否，分别对所述第二抽取样本集群中样本集进行预测，计算每个预测结果的准确率，每个所述准确率均达到预置阈值时，确认所述决策树分类器合格。

可选的，样本新增模块306包括：

分类单元3061，根据所述比例值，从所述少数类样本集群中获取与所述比例值对应的样本集，并计算所述样本集的聚类中心v；

生成单元3062，根据所述聚类中心v和预设的样本数据生成函数，计算所述样本集的新增数据P，其中所述预设的样本数据生成函为，y为所述样本集中的样本数据，random（0，1）为0到1的随机数；

添加单元3063，将所述新增数据P加入对应的样本集中，得到所述训练样本集群。

可选的，样本新增模块306还可以具体用于：将与所述比例值对应的样本集划分为c个子集，其中，同一个子集中所包含的样本数据为同类样本数据；根据样本数据到各聚类中心的距离的加权平均函数，计算所述c个子集中每个样本数据到各聚类中心的距离；根据所述加权平均函数的特定条件下的约束条件，取所述距离的最小值，并输出与所述最小值对应的聚类中心v；其中，所述加权平均函数为：，/>表示少数类样本集的第i类聚类中心，/>表示不同样本对聚类中心的隶属度，/>为不同样本至不同聚类中心的距离，/>为加权指数，c为子集数量。

可选的，样本添加单元3063还可以具体用于：令所述约束条件为；根据所述约束条件，利用拉格朗日乘数法求解所述加权平均函数，得到隶属度/>与第i类聚类中心的函数表达式；对所述隶属度和第i类聚类中心的函数表达式进行循环迭代处理，得到第a类聚类中心/>，并判断第a类聚类中心/>与第a-1类聚类中心/>之间的距离是否大于预设的循环停止临界值；若否，则将聚类中心/>作为所述聚类中心v输出；若是，则对所述隶属度和第i类聚类中心的函数表达式进行二次循环迭代处理，直到所述距离不大于预设的循环停止临界值为止，输出所述聚类中心v。

可选的，样本添加单元3063还可以具体用于：获取初始化的第a类聚类中心；将所述第a类聚类中心/>代入所述隶属度的函数表达式获得隶属度/>；将所述隶属度/>代入所述第i类聚类中心的函数表达式，获得第a+1类聚类中心/>。

本发明实施例中，为减少了决策树分类器假负性与假正性的情况，通过对保险人的数据进行聚类处理获得数据聚类中心，在获得聚类中心后对数据集群中数据样本个数较少的样本进行扩增处理。将新增加的数据添加至原先的数据集中，平衡数据分布不均的情况。在检验确认样本数据已经新增完成之后，用新增加的样本数据对决策树分类器进行训练。改善结果确认则使用使用oob预测与AUC值评价了改善后的决策树分类器的性能，只有明显减少了假负类与假正类的决策树分类器会通过平均并输出。由此可以得到高性能的决策树分类器，减少了决策树分类器假负性与假正性的情况，提高对保险申请人的分类精度。

上面图3和图4从模块化功能实体的角度对本发明实施例中的样本数据优化装置进行详细描述，下面从硬件处理的角度对本发明实施例中样本数据优化设备进行详细描述。

图5是本发明实施例提供的一种样本数据优化设备的结构示意图，该样本数据优化设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（central processing units，CPU）510（例如，一个或一个以上处理器）和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530（例如一个或一个以上海量存储设备）。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对样本数据优化设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在样本数据优化设备500上执行存储介质530中的一系列指令操作。

样本数据优化设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的样本数据优化设备结构并不构成对样本数据优化的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述样本数据优化方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种样本数据优化方法，其特征在于，所述样本数据优化方法用于保险人的数据筛选，包括：

获取当前的待处理数据，并对所述待处理数据按照数据种类进行归类，基于归类后的数据生成样本集群，其中，所述样本集群包括至少两种不同的数据类型的样本集，所述待处理数据为保险人的数据，所述数据类型包括保险人的年龄、身高、家庭住址、家庭年收入、是否有住房贷；

统计所述样本集群中每个样本集所包含的样本个数，并判断每个样本集的样本个数是否大于初始样本平均数，得到判断结果，其中，所述初始样本平均数为所有样本集中样本个数的平均值；

根据所述判断结果，将所述样本集群中的所有样本集划分为少数类样本集群和多数类样本集群，其中，所述少数类样本集群为每个集的样本个数小于所述初始样本平均数的集群，所述多数类样本集群为每个集的样本个数大于所述初始样本平均数的集群；

计算所述少数类样本集群中每个样本集的样本个数分别与所述初始样本平均数的比例值，并将所述比例值与预置比例临界值进行比较；

若所述比例值均大于所述比例临界值，则将所述样本集群作为合格的训练样本集输出；

若存在所述比例值小于所述比例临界值，则对所述比例值对应的少数类样本集进行样本个数新增处理，直至所述少数类样本集群中每个样本集的样本个数与所述初始样本平均数的比例值均达到所述比例临界值时为止，将调整后的样本集群作为合格的训练样本集群输出；

将所述合格的训练样本集群输入分类算法模型中以进行分类运算。

2.根据权利要求1所述的样本数据优化方法，其特征在于，在所述获取当前的待处理数据，并对所述待处理数据按照数据种类进行归类，基于归类后的数据生成样本集群包括：

判断所述待处理数据中的数据类型是否为数值格式；

若所述数据类型为数值格式，则获取所述待处理数据中的数据，若所述数据类型不是数值格式，则将所述待处理数据转化为数值格式；

读取数值格式的数据的种类，将种类相同的数据划分为同一类样本集。

3.根据权利要求1所述的样本数据优化方法，其特征在于，所述对所述比例值对应的样本集进行样本个数新增处理，直至所述少数类样本集群中每个样本集的样本个数与所述初始样本平均数的比例值均达到所述比例临界值时为止，将调整后的样本集群作为合格的训练样本集群输出包括：

4.根据权利要求3所述的样本数据优化方法，其特征在于，所述根据所述比例值，从所述少数类样本集群中获取与所述比例值对应的样本集，并计算所述样本集的聚类中心v包括：

其中，所述加权平均函数为：，/>表示少数类样本集的第i类聚类中心，/>表示不同样本对聚类中心的隶属度，/>为不同样本至不同聚类中心的距离，为加权指数，c为子集数量。

5.根据权利要求4所述的样本数据优化方法，其特征在于，所述根据所述加权平均函数的特定条件下的约束条件，取所述距离的最小值，并输出与所述最小值对应的聚类中心v包括：

令所述约束条件为；

若否，则将聚类中心作为所述聚类中心v输出；

6.根据权利要求5所述的样本数据优化方法，其特征在于，所述则对所述隶属度和第i类聚类中心的函数表达式进行二次循环迭代处理，直到所述距离不大于预设的循环停止临界值为止，输出所述聚类中心v包括：

获取初始化的第a类聚类中心；

将所述隶属度代入所述第i类聚类中心的函数表达式，获得第a+1类聚类中心/>。

7.根据权利要求1所述的样本数据优化方法，其特征在于，在所述对所述比例值对应的少数类样本集进行样本个数新增处理，直至所述少数类样本集群中每个样本集的样本个数与所述初始样本平均数的比例值均达到所述比例临界值时为止，将调整后的样本集群作为合格的训练样本集群输出之后，还包括：

根据所述训练样本集群生成决策树分类器；

分别对所述训练样本集群中样本集使用随机且有放回地抽取，将选中的样本对应的生成第一抽取样本集群，将每个样本集中未被选中的样本生成对应的第二抽取样本集群；

判断所述第一抽取样本集群中样本集的样本数量是否小于对应的所述训练样本集群中样本集的样本数量；

若是，分别对所述第一抽取样本集群中样本集进行预测，对预测的每个结果进行判断并计算出对应的AUC值，当所有的AUC值达到预置阈值时，确认所述决策树分类器合格；

若否，分别对所述第二抽取样本集群中样本集进行预测，计算每个预测结果的准确率，每个所述准确率均达到预置阈值时，确认所述决策树分类器合格。

8.一种样本数据优化装置，其特征在于，所述样本数据优化装置用于保险人的数据筛选，所述样本数据优化装置包括：

获取模块，用于获取当前的待处理数据，并对所述待处理数据按照数据种类进行归类，基于归类后的数据生成样本集群，其中，所述样本集群包括至少两种不同的数据类型的样本集，所述待处理数据为保险人的数据，所述数据类型包括保险人的年龄、身高、家庭住址、家庭年收入、是否有住房贷；

判断模块，用于统计所述样本集群中每个样本集所包含的样本个数，并判断每个样本集的样本个数是否大于初始样本平均数，得到判断结果，其中，所述初始样本平均数为所有样本集中样本个数的平均值；

划分模块，用于根据所述判断结果，将所述样本集群中的所有样本集划分为少数类样本集群和多数类样本集群，其中，所述少数类样本集群为每个集的样本个数小于所述初始样本平均数的集群，所述多数类样本集群为每个集的样本个数大于所述初始样本平均数的集群；

比较模块，用于计算所述少数类样本集群中每个样本集的样本个数分别与所述初始样本平均数的比例值，并将所述比例值与预置比例临界值进行比较；

标记模块，用于若所述比例值均大于所述比例临界值，则将所述样本集群作为合格的训练样本集输出；

样本新增模块，用于若存在所述比例值小于所述比例临界值，则对所述比例值对应的少数类样本集进行样本个数新增处理，直至所述少数类样本集群中每个样本集的样本个数与所述初始样本平均数的比例值均达到所述比例临界值时为止，将调整后的样本集群作为合格的训练样本集群输出。

9.一种样本数据优化设备，其特征在于，所述样本数据优化设备包括：

存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述样本数据优化方法设备执行如权利要求1-7中任意一项所述的样本数据优化方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述样本数据优化方法。