CN111461180A

CN111461180A - 样本分类方法、装置、计算机设备及存储介质

Info

Publication number: CN111461180A
Application number: CN202010171236.7A
Authority: CN
Inventors: 万忠伟; 甘丽婷
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-03-12
Filing date: 2020-03-12
Publication date: 2020-07-28
Anticipated expiration: 2040-03-12
Also published as: WO2021179544A1; CN111461180B

Abstract

本发明公开了样本分类方法、装置、计算机设备及存储介质。方法包括：通过分类信息对历史信息表中的样本集群进行分类得到多个样本类群，根据信息量化规则对每一样本类群对应的样本属性信息进行量化得到每一类群对应的类群特征信息，根据类群特征信息及特征单元配置公式构建样本分类模型，根据信息量化规则对新增样本属性信息进行量化得到新增样本特征信息，将新增样本特征信息输入样本分类模型以获取对应的目标类别。本发明基于预测模型技术，可基于有历史记录的样本获取类群信息，并进一步构建样本分类模型，以对无历史记录的新增样本进行准确分类，提高了对样本进行分类的准确性，在实际应用过程中取得了良好的技术效果。

Description

样本分类方法、装置、计算机设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种样本分类方法、装置、计算机设备及存储介质。

背景技术

企业通常会基于样本的历史数据对样本进行分析或对样本进行分类，例如企业通常通过所雇佣的员工为客户办理业务，办理业务的过程被记录为业务办理信息，然而部分企业员工存在伪造业务办理信息的违规操作行为，通过业务办理信息可获取员工所属的违规等级以对该员工进行分类。但部分情况下通过历史数据无法对某一样本进行准确分类，例如，新增的员工由于并未办理业务或办理业务数量较少，则无法基于该员工的业务办理信息准确判断其是否存在违规操作行为。上述员工与样本对应，上述业务办理信息与历史数据对应，由于历史数据中并不包含某一样本的数据，因此通过历史数据无法对该样本进行分类；历史数据中某一样本的数据不充足，则通过历史数据无法对该样本进行精确分类。因此，现有技术方法存在无法通过历史数据对样本进行准确分类的问题。

发明内容

本发明实施例提供了一种样本分类方法、装置、计算机设备及存储介质，旨在解决现有技术方法所存在的无法通过历史数据对样本进行准确分类的问题。

第一方面，本发明实施例提供了一种样本分类方法，其包括：

根据预置的分类信息对历史信息表中所包含的样本集群进行分类以得到多个样本类群，其中，每一样本类群中包括至少一个样本；

获取与每一所述样本类群对应的样本属性信息，根据预置的信息量化规则对所述样本属性信息进行量化以得到每一所述样本类群对应的类群特征信息；

根据所述类群特征信息及预置的特征单元配置公式构建包含输入节点、特征单元和输出节点的样本分类模型；

若接收到新增样本的新增样本属性信息，根据所述信息量化规则对所述新增样本属性信息进行量化以得到与所述新增样本对应的新增样本特征信息；

将所述新增样本特征信息输入所述样本分类模型以获取与所述新增样本属性信息对应的目标类别。

第二方面，本发明实施例提供了一种样本分类装置，其包括：

样本类群获取单元，用于根据预置的分类信息对历史信息表中所包含的样本集群进行分类以得到多个样本类群，其中，每一样本类群中包括至少一个样本；

类群特征信息获取单元，用于获取与每一所述样本类群对应的样本属性信息，根据预置的信息量化规则对所述样本属性信息进行量化以得到每一所述样本类群对应的类群特征信息；

样本分类模型构建单元，用于根据所述类群特征信息及预置的特征单元配置公式构建包含输入节点、特征单元和输出节点的样本分类模型；

新增样本特征信息获取单元，用于若接收到新增样本的新增样本属性信息，根据所述信息量化规则对所述新增样本属性信息进行量化以得到与所述新增样本对应的新增样本特征信息；

目标类别获取单元，用于将所述新增样本特征信息输入所述样本分类模型以获取与所述新增样本属性信息对应的目标类别。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的样本分类方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的样本分类方法。

本发明实施例提供了一种样本分类方法、装置、计算机设备及存储介质。通过分类信息对历史信息表中的样本集群进行分类得到多个样本类群，根据信息量化规则对每一样本类群对应的样本属性信息进行量化得到每一类群对应的类群特征信息，根据类群特征信息及特征单元配置公式构建样本分类模型，根据信息量化规则对新增样本属性信息进行量化得到新增样本特征信息，将新增样本特征信息输入样本分类模型以获取对应的目标类别。通过上述方法，可基于有历史记录的样本获取样本类群，并进一步构建样本分类模型，以对无历史记录的新增样本进行准确分类，提高了对无历史记录的样本进行分类的准确性，在实际应用过程中取得了良好的技术效果。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的样本分类方法的流程示意图；

图2为本发明实施例提供的样本分类方法的子流程示意图；

图3为本发明实施例提供的样本分类方法的另一子流程示意图；

图4为本发明实施例提供的样本分类方法的另一子流程示意图；

图5为本发明实施例提供的样本分类方法的另一流程示意图；

图6为本发明实施例提供的样本分类方法的另一子流程示意图；

图7为本发明实施例提供的样本分类装置的示意性框图；

图8为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1是本发明实施例提供的样本分类方法的流程示意图。该样本分类方法应用于用户终端中，用户终端即是用于执行所述样本分类方法以完成对样本进行分类的终端设备，例如台式机、笔记本电脑、平板电脑或手机等。

如图1所示，该方法包括步骤S110～S150。

S110、根据预置的分类信息对历史信息表中所包含的样本集群进行分类以得到多个样本类群。

根据预置的分类信息对历史信息表中所包含的样本集群进行分类以得到多个样本类群。其中，所述分类信息包含统计项目及等级分类规则，分类信息可以由用户输入，用户即为用户终端的使用者，用户可根据分类目的输入包含统计项目及等级分类规则的分类信息，以对历史信息表中所包含的样本进行分类；分类信息还可是用户终端中所预先配置的信息，每一样本类群包含多个样本。历史信息表即为对每一样本的历史办理信息进行记录的数据表，历史信息表中所包含的所有样本即构成该历史信息表的样本集群，历史信息表可以是企业的历史业务信息表，则每一样本即与一名员工对应，历史业务信息表中包含每一员工所办理的业务办理信息，业务办理信息中包含所办理的业务的全面信息，在对违规员工进行筛选的过程中仅需使用业务办理信息中的部分信息，统计项目即为对业务办理信息中所需使用的部分信息进行统计的项目信息，根据统计项目对每一员工所办理的业务办理信息进行统计即可得到对应的业务统计信息，等级分类规则即为对员工进行违规等级分类的规则信息，根据等级分类规则及业务统计信息即可按照违规等级对员工进行分类，以得到多个员工类群信息，每一员工类群信息中均包含多个员工的姓名。

在一实施例中，如图2所示，步骤S110包括子步骤S111和S112。

S111、根据所述统计项目对所述历史信息表进行统计以获取每一所述样本的样本统计信息。

根据所述统计项目对所述历史信息表进行统计以获取每一所述样本的样本统计信息。具体的，以业务信息表为例，员工办理一项业务，则对应生成的业务办理信息中的经办人即为该员工，根据业务信息表中每一业务办理信息的经办人，即可获取每一员工所办理的业务办理信息，根据统计项目对每一员工所办理的业务办理信息进行统计即可获取每一员工的业务统计信息，所得业务统计信息即为对应的样本统计信息。

例如，若所办理的业务为合约手机分期业务，则统计项目为签约率、实名认证失败率、黑名单用户占比、紧急联系人合约号异常占比、新办用户30天内停机率。

S112、根据所述等级分类规则及所述样本统计信息对所述样本进行等级分类以得到多个样本类群。

根据所述等级分类规则及所述样本统计信息对所述样本进行等级分类以得到多个样本类群。等级分类规则中包含与每一统计项目对应的项目阈值，以业务信息表为例，将业务统计信息中超出对应项目阈值的统计项目作为风险项目，根据项目阈值即可获取每一员工的业务统计信息的风险项目数量，等级分类规则中还包含多个违规等级以及每一违规等级对应的风险项目数量，根据每一员工的风险项目数量即可获取与该员工对应的违规等级，员工的风险项目数量越多则该员工发生违规操作的风险也越高，根据每一员工的违规等级即可将员工分类至与违规等级对应的员工类群。

例如，等级分类规则中包含的违规等级及每一违规等级对应的风险项目数量为：第一违规等级，0；第二违规等级，[1，2]；第三违规等级，[3，+∞)。某一员工的风险项目数量为2，则该员工的违规等级为第二违规等级。

此外，还可根据业务统计信息获取每一员工的关联员工数，若同一客户同时经由多个员工分别办理多项业务，则上述员工之间互为关联员工，可获取每一员工的关联员工数，并设置每一违规等级对应的关联员工数区间，以将员工分类至违规等级对应的员工类群，员工的关联员工数越多则表明该员工串通其他员工一起伙同诈骗的风险也越高。关联员工数还可以包括一级关联员工数、二级关联员工数、三级关联员工数。

S120、获取与每一所述样本类群对应的样本属性信息，根据预置的信息量化规则对所述样本属性信息进行量化以得到每一所述样本类群对应的类群特征信息。

获取与每一所述样本类群对应的样本属性信息，根据预置的信息量化规则对所述样本属性信息进行量化以得到每一所述样本类群对应的类群特征信息。具体的，根据用户终端中预存的样本数据信息表即可获取与每一样本类群对应的样本属性信息，样本属性信息表即为记载每一样本具体属性的数据表，类群特征信息可用于表征对应样本类群的整体特征，不同违规等级的样本类群其对应的类群特征信息也存在区别。样本属性信息表可以是企业的员工信息表，员工信息表中包含企业所有员工的信息，根据员工信息表即可获取每一员工类群对应的员工信息，每一员工信息即为样本属性，则一个样本类群的样本属性信息包含对应的多份员工信息，员工信息表中包含员工的姓名、身份证号、年龄、入司年限、学历及信用违约次数等信息，员工年龄越小、其违规可能性越高；入司年限越长，其违规可能性越高；学历越低，其违规可能性越高；信用违约次数越多，其违规可能性越高。根据信息量化规则对每一员工类群所包含的员工信息进行了量化后，即可得到每一员工类群的类群特征信息，类群特征信息即可用于对同一员工类群的员工所具有的整体特征进行量化表示。由于计算机无法直接分析文字信息，因此需将文字信息转换为对应的向量，以通过向量对文字信息进行量化表示，以方便计算机分析处理，也即是将类群特征信息作为同一员工类群的员工所具有的整体特征的量化表示，以方便计算机通过识别向量的方式识别同一员工类群的员工所具有的整体特征。

在一实施例中，如图3所示，步骤S120包括子步骤S121和S122。

S121、根据所述信息量化规则将每一所述样本属性信息转换为对应的特征变量。

根据所述信息量化规则将每一所述样本属性信息转换为对应的特征变量。具体的，信息量化规则即是用于将每一样本属性信息转换为特征变量的规则，以员工信息表为例，员工信息中的每一项信息均可通过信息量化规则转换为对应的向量值进行量化表示，则可将每一员工信息对应转换为一个多维的特征向量，也即是特征变量。员工信息表包含企业中所有员工的员工信息，通过特征变量规则即可获取所有员工信息对应的特征变量，也即是将员工信息对应的特征变量作为该员工信息的特征的量化表示，以方便计算机通过识别向量的方式识别该员工信息中所包含的特征信息。由于采用统一的信息量化规则对所有样本属性信息进行转换，因此所转换得到的每一样本属性信息对应的特征变量所包含量化值的数量相等，相同类型的量化值对应体现多个样本在同一维度所对应的特征。

例如，员工信息表中的某一份员工信息包括，姓名“XXX”，身份证号“1011XXXXXXXXXXXXXX”，年龄“25岁”，入司年限“3”，学历“本科”，信用违约次数“1”。信息量化规则中“25岁”对应的量化值为“2.5”，“本科”对应的量化值为“4”，则转换得到对应的特征变量为F＝{2.5，3，4，1}。

S122、根据每一所述样本类群中所有样本的特征变量计算得到每一所述样本类群的类群特征信息。

根据每一所述样本类群中所有样本的特征变量计算得到每一所述样本类群的类群特征信息。相同类型的量化值对应体现多个样本在同一维度所对应的特征，因此可通过计算同一样本类群所包含的所有样本的特征变量在每一维度的平均值或中位数的方式，获取该样本类群在每一维度对应的类群量化值作为该样本类型的类群特征信息。以员工信息表为例，每一员工类群中均包含多个员工，获取属于同一员工类群的多个员工的特征变量，并计算同一员工类群中包含的所有员工在多个维度的量化值的平均值或中位数，即可得到该员工类群的类群特征信息，基于上述方法即可获取所有员工类群的类群特征信息。

S130、根据所述类群特征信息及预置的特征单元配置公式构建包含输入节点、特征单元和输出节点的样本分类模型。

根据所述类群特征信息及预置的特征单元配置公式构建包含输入节点、特征单元和输出节点的样本分类模型。其中，所述类群特征信息用于配置所述输入节点及所述输出节点，所述特征单元配置公式用于配置所述特征单元。样本分类模型中包含多个输入节点、多个输出节点及多个特征单元，样本分类模型可基于某一样本的样本属性信息对该样本对应所属的类别进行预测，具体的，企业员工为例，特征单元可用于反映输入的员工信息与该员工信息对应的违规等级之间的关系，类群特征信息中特征向量的每一个维度对应一个输入节点，每一个员工类群对应一个输出节点。

在一实施例中，如图4所示，步骤S130包括子步骤S131、S132、S133、S134和S135。

S131、根据所述类群特征信息中特征变量的维度数量构建所述样本分类模型的输入节点。

根据所述类群特征信息中特征变量的维度数量构建所述样本分类模型的输入节点。由于所得到的类群特征信息中特征变量的维度均相同，因此可通过特征变量的维度数量对应生成相同数量的输入节点，输入样本分类模型中的员工信息中的每一项信息即与一个输入节点对应，输入节点对应的输入值即为员工信息中对应项信息的量化值。

例如，上述类群特征信息中特征变量的维度数量为4，则对应生成4个输入节点。

S132、根据所述类群特征信息中样本类群的数量构建所述样本分类模型的输出节点。

根据所述类群特征信息中样本类群的数量构建所述样本分类模型的输出节点。每一员工类群对应一个违规等级，可通过类群特征信息中所包含员工类群的数量对应生成相同数量的输出节点，每一输出节点即为员工与该违规等级之间的匹配率。

例如，上述类群特征信息中包含3个员工类群，分别对应第一违规等级、第二违规等级和第三违规等级，则对应生成3个输出节点。

S133、将所述输入节点的数量及所述输出节点的数量输入所述特征单元配置公式，以根据计算结果构建包含相应数量的特征单元的全连接隐层。

将所述输入节点的数量及所述输出节点的数量输入所述特征单元配置公式，以根据计算结果构建包含相应数量的特征单元的全连接隐层。全连接隐层即是用于对输入节点与输出节点进行联系的中间层，全连接隐层中包含若干个特征单元，每一个特征单元均与所有输入节点和所有输出节点进行关联。全连接隐层中所包含特征单元的配置数量可根据特征单元配置公式计算得到，特征单元的配置数量与输入节点的数量及输出节点的数量存在关联关系，具体的，特征单元配置公式可以是S0＝S1×S2/2或S0＝2×(S1×S2)1/2，其中，S0为全连接隐层中特征单元的配置数量，S1为输入节点的数量，S2为输出节点的数量。

例如，输入节点为4个，输出节点为3个，根据上式S0＝2×(S1×S2)1/2进行计算并对结果四舍五入，得到特征单元的数量为7，则可对应构建包含7个特征单元的全连接隐层。

S134、根据所述全连接隐层中的特征单元及所述输入节点，以输入节点值作为输入值、特征单元值作为输出值构建输入节点至特征单元的第一公式组。

根据所述全连接隐层中的特征单元及所述输入节点，以输入节点值作为输入值、特征单元值作为输出值构建输入节点至特征单元的第一公式组。其中，第一公式组包含所有输入节点至所有特征单元的公式。输入节点即是样本分类模型中用于对某一员工信息进行输入的节点，输入节点的具体数值即为输入节点值，也即是对某一员工信息进行量化后所得的量化值，由于每一输入节点均对应员工信息中的一项信息，所有输入节点即对应与一份员工信息，特征单元值即是全连接隐层中的特征单元的计算值。

例如，某一输入节点的输入节点值为x1，某一特征单元的特征单元值为y1，则该输入节点至该特征单元的公式为y1＝a×x1+b；其中，a和b为该公式中的参数，公式中的参数值为随机生成的数字。

S135、根据所述全连接隐层中的特征单元及所述输出节点，以特征单元值作为输入值、输出节点值作为输出值构建特征单元至输出节点的第二公式组，以得到样本分类模型。

根据所述全连接隐层中的特征单元及所述输出节点，以特征单元值作为输入值、输出节点值作为输出值构建特征单元至输出节点的第二公式组，以得到样本分类模型。其中，第二公式组包含所有特征单元至所有输出节点的公式。输出节点即是样本分类模型中用于对员工与每一违规等级之间的匹配率进行输出的节点，输出节点的具体数值即是输出节点值，输出节点值即表示员工与该输出节点对应的违规等级之间的匹配率，特征单元值即是全连接隐层中的特征单元的计算值。

例如，某一特征单元的特征单元值为y1，某一输出节点的输出节点值为z1，则该特征单元至该输出节点的公式为z1＝c×y1+d；其中，c和d为该公式中的参数，公式中的参数值为随机生成的数字。

在一实施例中，如图5所示，步骤S130之后还包括步骤S1310。

S1310、根据所输入的数据集及参数调整规则对所述样本分类模型进行训练，以得到训练后的所述样本分类模型。

根据所输入的数据集及参数调整规则对所述样本分类模型进行训练，以得到训练后的所述样本分类模型。所生成的样本分类模型为初始预测模型，在使用之前，还可对所生成的样本分类模型进行训练，也即是对样本分类模型中公式的参数值进行调整优化，以得到预测精确度满足使用要求的样本分类模型。具体的，数据集中包含员工的目标违规等级，以及每一员工的员工信息对应的特征变量。所述参数调整规则即为对样本分类模型中参数值进行调整的规则。

在一实施例中，如图6所示，步骤S1310包括子步骤S1311、S1312和S1313。

S1311、将所述数据集平均拆分为预设数量的子数据集。

将所述数据集平均拆分为预设数量的子数据集。预设数量即是用于对数据集进行拆分的数量信息，根据预设数量即可将数据集中的员工平均拆分至对应的多个子数据集，每一子数据集中均包含多份员工对应的信息。

例如，预置的数据集中包含2000份员工对应的信息，预设数量为10，则将2000分员工对应的信息平均拆分至10个子数据集，每一子数据集中包含200份

员工对应的信息。

S1312、根据所述参数值调整规则及多个所述子数据集对所述样本分类模型进行多轮训练，并根据所述子数据集计算每一轮训练后所述样本分类模型的准确率。

这一训练过程也即是网格搜索法，依次选择一个子数据集作为训练数据集、其余子数据集作为测试数据集并结合参数调整规则对样本分类模型进行多轮训练，并根据子数据集计算每一轮训练后所述样本分类模型的准确率。具体的，子数据集总数为k，则对样本分类模型进行k轮交叉训练，对样本分类模型进行第一轮训练时，将第一个子数据集作为测试数据集，其余的k-1个子数据集作为训练数据集，将第一个训练数据集中每一员工的特征向量输入样本分类模型得到每一员工户与多个违规等级之间的匹配率，若某一员工匹配率最高的违规等级与该员工的目标违规等级相同，则将该员工作为正样本员工，统计该训练数据集中正样本员工的占比得到即可得到该训练数据集的训练准确率Z＝S/V，其中，S为该训练数据集中正样本员工的数量，V为该训练数据集中所包含员工的数量。参数调整规则中包括准确率阈值、参数调整方向及参数调整幅度，参数调整方向包括正向调整及负向调整，参数调整幅度即是进行调整的具体幅度值，判断当前训练数据集在对样本分类模型进行训练时的训练准确率是否小于准确率阈值，若判断结果为不小于，则根据参数调整方向中的正向调整及参数调整幅度中的幅度值对样本分类模型中的参数值进行调整；若判断结果为小于，则根据参数调整方向中的反向调整及参数调整幅度中的幅度值对样本分类模型中的参数值进行调整。

例如，参数调整幅度中的幅度值为0.03，判断结果为当前训练数据集对样本分类模型进行训练时的训练准确率不小于准确率阈值，则本次调整需进行正向调整，本次调整在该样本分类模型中参数值原数值基础上乘以1.03得到新的参数值。

一个训练数据集即可对样本分类模型中的参数值进行一次调整，通过k-1个训练数据集对样本分类模型进行训练后得到第一轮训练过后的样本分类模型，将剩余的一个测试数据集输入第一轮训练过后的样本分类模型即可计算得到对应的准确率，也即是完成对该样本分类模型的一轮训练，通过测试数据集计算样本分类模型的准确率的方法与计算训练准确率的方法相同。

S1313、将准确率最高的一轮训练的参数值作为所述样本分类模型的参数值以得到训练后的所述样本分类模型。

将准确率最高的一轮训练的参数值作为所述样本分类模型的参数值以得到训练后的所述样本分类模型。样本分类模型进行多轮交叉训练后，得到每一轮训练的准确率，将准确率最高的一轮训练的参数值作为样本分类模型最优的参数值，即可得到训练后的样本分类模型。

S140、若接收到新增样本的新增样本属性信息，根据所述信息量化规则对所述新增样本属性信息进行量化以得到与所述新增样本对应的新增样本特征信息。

若接收到新增样本的新增样本属性信息，根据所述信息量化规则对所述新增样本属性信息进行量化以得到与所述新增样本对应的新增样本特征信息，所接收到的一份新增样本特征信息与一个新增样本对应，该新增样本并不包含于历史信息表中，也即是历史信息表中并不包含与该新增样本所对应的信息，由于历史信息表中不包含该新增样本的信息，也即是历史信息表中并不具有对该新增样本进行分类的数据基础，采用传统的分类方法无法对该新增样本进行分类。以企业员工为例，新增员工信息即为新加入企业的员工对应的信息，新增员工信息中的每一项信息均可通过信息量化规则转换为对应的向量值进行量化表示，也即是得到以一个多维的特征向量进行表示的新增员工特征信息。具体量化方式与上述步骤中的量化方法相同。

S150、将所述新增样本特征信息输入所述样本分类模型以获取与所述新增样本属性信息对应的目标类别。

将所述新增样本特征信息输入所述样本分类模型以获取与所述新增样本属性信息对应的目标类别。将所得到的新增样本特征信息输入训练后的样本分类模型，即可得到对应的目标类别，具体的，以企业员工为例，将新增员工特征信息中与每一输入节点对应的量化值分别输入信息预测模型中的输入节点，则每一输入节点的输入节点值即为与该输入节点对应的一个量化值，通过第一公式组及第二公式组的计算，即可得到每一输出节点的输出节点值，输出节点值即为新增员工与该输出节点对应违规等级的匹配率，获取匹配率最高的违规等级作为预测得到的与新增员工对应的违规等级。若新增员工的违规等级太高，则可对该员工采取相应管理措施，例如限制该员工可办理的业务范围。

在本发明实施例所提供的样本分类方法中，通过分类信息对历史信息表中的样本集群进行分类得到多个样本类群，根据信息量化规则对每一样本类群对应的样本属性信息进行量化得到每一类群对应的类群特征信息，根据类群特征信息及特征单元配置公式构建样本分类模型，根据信息量化规则对新增样本属性信息进行量化得到新增样本特征信息，将新增样本特征信息输入样本分类模型以获取对应的目标类别。通过上述方法，可基于有历史记录的样本获取类群信息，并进一步构建样本分类模型，以对无历史记录的新增样本进行准确分类，提高了对无历史记录的样本进行分类的准确性，在实际应用过程中取得了良好的技术效果。

本发明实施例还提供一种样本分类装置，该样本分类装置用于执行前述样本分类方法的任一实施例。具体地，请参阅图7，图7是本发明实施例提供的样本分类装置的示意性框图。该样本分类装置可以配置于用户终端中。

如图7所示，样本分类装置100包括样本类群获取单元110、类群特征信息获取单元120、样本分类模型构建单元130、新增样本特征信息获取单元140和目标类别获取单元150。

样本类群获取单元110，用于根据预置的分类信息对历史信息表中所包含的样本集群进行分类以得到多个样本类群，其中，每一样本类群中包括至少一个样本。

其他发明实施例中，所述样本类群获取单元110包括子单元：样本统计信息获取单元和等级分类单元。

样本统计信息获取单元，用于根据所述统计项目对所述历史信息表进行统计以获取每一所述样本的样本统计信息；等级分类单元，用于根据所述等级分类规则及所述样本统计信息对所述样本进行等级分类以得到多个样本类群。

类群特征信息获取单元120，用于获取与每一所述样本类群对应的样本属性信息，根据预置的信息量化规则对所述样本属性信息进行量化以得到每一所述样本类群对应的类群特征信息。

其他发明实施例中，所述类群特征信息获取单元120包括子单元：样本属性信息转换单元和特征变量平均值计算单元。

样本属性信息转换单元，用于根据所述信息量化规则将每一所述样本属性信息转换为对应的特征变量；特征变量平均值计算单元，用于根据每一所述样本类群中所有样本的特征变量计算得到每一所述样本类群的类群特征信息。

样本分类模型构建单元130，用于根据所述类群特征信息及预置的特征单元配置公式构建包含输入节点、特征单元和输出节点的样本分类模型。

其他发明实施例中，所述样本分类模型构建单元130包括子单元：输入节点构建单元、输出节点构建单元、全连接隐层构建单元、第一公式组构建单元和第二公式组构建单元。

输入节点构建单元，用于根据所述类群特征信息中特征变量的维度数量构建所述样本分类模型的输入节点；输出节点构建单元，用于根据所述类群特征信息中样本类群的数量构建所述样本分类模型的输出节点；全连接隐层构建单元，用于将所述输入节点的数量及所述输出节点的数量输入所述特征单元配置公式，以根据计算结果构建包含相应数量的特征单元的全连接隐层；第一公式组构建单元，用于根据所述全连接隐层中的特征单元及所述输入节点，以输入节点值作为输入值、特征单元值作为输出值构建输入节点至特征单元的第一公式组；第二公式组构建单元，用于根据所述全连接隐层中的特征单元及所述输出节点，以特征单元值作为输入值、输出节点值作为输出值构建特征单元至输出节点的第二公式组，以得到样本分类模型。

其他发明实施例中，所述样本分类装置100还包括子单元：样本分类模型训练单元。

样本分类模型训练单元，用于根据所输入的数据集及参数调整规则对所述样本分类模型进行训练，以得到训练后的所述样本分类模型。

其他发明实施例中，所述样本分类模型训练单元包括子单元：数据集拆分单元、训练准确率获取单元和参数值确定单元。

数据集拆分单元，用于将所述数据集平均拆分为预设数量的子数据集；训练准确率获取单元，用于根据所述参数值调整规则及多个所述子数据集对所述样本分类模型进行多轮训练，并根据所述子数据集计算每一轮训练后所述样本分类模型的准确率；参数值确定单元，用于将准确率最高的一轮训练的参数值作为所述样本分类模型的参数值以得到训练后的所述样本分类模型。

新增样本特征信息获取单元140，用于若接收到新增样本的新增样本属性信息，根据所述信息量化规则对所述新增样本属性信息进行量化以得到与所述新增样本对应的新增样本特征信息。

目标类别获取单元150，用于将所述新增样本特征信息输入所述样本分类模型以获取与所述新增样本属性信息对应的目标类别。

在本发明实施例所提供的样本分类装置应用上述样本分类方法，通过分类信息对历史信息表中的样本集群进行分类得到多个样本类群，根据信息量化规则对每一样本类群对应的样本属性信息进行量化得到每一类群对应的类群特征信息，根据类群特征信息及特征单元配置公式构建样本分类模型，根据信息量化规则对新增样本属性信息进行量化得到新增样本特征信息，将新增样本特征信息输入样本分类模型以获取对应的目标类别。通过上述方法，可基于有历史记录的样本获取样本类群，并进一步构建样本分类模型，以对无历史记录的新增样本进行准确分类，提高了对无历史记录的样本进行分类的准确性，在实际应用过程中取得了良好的技术效果。

上述样本分类装置可以实现为计算机程序的形式，该计算机程序可以在如图8所示的计算机设备上运行。

请参阅图8，图8是本发明实施例提供的计算机设备的示意性框图。

参阅图8，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行样本分类方法。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行样本分类方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图8中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下功能：根据预置的分类信息对历史信息表中所包含的样本集群进行分类以得到多个样本类群，其中，每一样本类群中包括至少一个样本；获取与每一所述样本类群对应的样本属性信息，根据预置的信息量化规则对所述样本属性信息进行量化以得到每一所述样本类群对应的类群特征信息；根据所述类群特征信息及预置的特征单元配置公式构建包含输入节点、特征单元和输出节点的样本分类模型；若接收到新增样本的新增样本属性信息，根据所述信息量化规则对所述新增样本属性信息进行量化以得到与所述新增样本对应的新增样本特征信息；将所述新增样本特征信息输入所述样本分类模型以获取与所述新增样本属性信息对应的目标类别。

在一实施例中，处理器502在执行根据预置的分类信息对历史信息表中所包含的样本集群进行分类以得到多个样本类群的步骤时，执行如下操作：根据所述统计项目对所述历史信息表进行统计以获取每一所述样本的样本统计信息；根据所述等级分类规则及所述样本统计信息对所述样本进行等级分类以得到多个样本类群。

在一实施例中，处理器502在执行获取与每一所述样本类群对应的样本属性信息，根据预置的信息量化规则对所述样本属性信息进行量化以得到每一所述样本类群对应的类群特征信息的步骤时，执行如下操作：根据所述信息量化规则将每一所述样本属性信息转换为对应的特征变量；根据每一所述样本类群中所有样本的特征变量计算得到每一所述样本类群的类群特征信息。

在一实施例中，处理器502在执行根据所述类群特征信息及预置的特征单元配置公式构建包含输入节点、特征单元和输出节点的样本分类模型的步骤时，执行如下操作：根据所述类群特征信息中特征变量的维度数量构建所述样本分类模型的输入节点；根据所述类群特征信息中样本类群的数量构建所述样本分类模型的输出节点；将所述输入节点的数量及所述输出节点的数量输入所述特征单元配置公式，以根据计算结果构建包含相应数量的特征单元的全连接隐层；根据所述全连接隐层中的特征单元及所述输入节点，以输入节点值作为输入值、特征单元值作为输出值构建输入节点至特征单元的第一公式组；根据所述全连接隐层中的特征单元及所述输出节点，以特征单元值作为输入值、输出节点值作为输出值构建特征单元至输出节点的第二公式组，以得到样本分类模型。

在一实施例中，处理器502在执行根据所述类群特征信息及预置的特征单元配置公式构建包含输入节点、特征单元和输出节点的样本分类模型的步骤之后，还执行如下操作：根据所输入的数据集及参数调整规则对所述样本分类模型进行训练，以得到训练后的所述样本分类模型。

在一实施例中，处理器502在执行根据所输入的数据集及参数调整规则对所述样本分类模型进行训练，以得到训练后的所述样本分类模型的步骤时，执行如下操作：将所述数据集平均拆分为预设数量的子数据集；根据所述参数值调整规则及多个所述子数据集对所述样本分类模型进行多轮训练，并根据所述子数据集计算每一轮训练后所述样本分类模型的准确率；将准确率最高的一轮训练的参数值作为所述样本分类模型的参数值以得到训练后的所述样本分类模型。

本领域技术人员可以理解，图8中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图8所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元(CentralProcessingUnit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现以下步骤：根据预置的分类信息对历史信息表中所包含的样本集群进行分类以得到多个样本类群，其中，每一样本类群中包括至少一个样本；获取与每一所述样本类群对应的样本属性信息，根据预置的信息量化规则对所述样本属性信息进行量化以得到每一所述样本类群对应的类群特征信息；根据所述类群特征信息及预置的特征单元配置公式构建包含输入节点、特征单元和输出节点的样本分类模型；若接收到新增样本的新增样本属性信息，根据所述信息量化规则对所述新增样本属性信息进行量化以得到与所述新增样本对应的新增样本特征信息；将所述新增样本特征信息输入所述样本分类模型以获取与所述新增样本属性信息对应的目标类别。

在一实施例中，所述根据预置的分类信息对历史信息表中所包含的样本集群进行分类以得到多个样本类群的步骤，包括：根据所述统计项目对所述历史信息表进行统计以获取每一所述样本的样本统计信息；根据所述等级分类规则及所述样本统计信息对所述样本进行等级分类以得到多个样本类群。

在一实施例中，所述获取与每一所述样本类群对应的样本属性信息，根据预置的信息量化规则对所述样本属性信息进行量化以得到每一所述样本类群对应的类群特征信息的步骤，包括：根据所述信息量化规则将每一所述样本属性信息转换为对应的特征变量；根据每一所述样本类群中所有样本的特征变量计算得到每一所述样本类群的类群特征信息。

在一实施例中，所述根据所述类群特征信息及预置的特征单元配置公式构建包含输入节点、特征单元和输出节点的样本分类模型的步骤，包括：根据所述类群特征信息中特征变量的维度数量构建所述样本分类模型的输入节点；根据所述类群特征信息中样本类群的数量构建所述样本分类模型的输出节点；将所述输入节点的数量及所述输出节点的数量输入所述特征单元配置公式，以根据计算结果构建包含相应数量的特征单元的全连接隐层；根据所述全连接隐层中的特征单元及所述输入节点，以输入节点值作为输入值、特征单元值作为输出值构建输入节点至特征单元的第一公式组；根据所述全连接隐层中的特征单元及所述输出节点，以特征单元值作为输入值、输出节点值作为输出值构建特征单元至输出节点的第二公式组，以得到样本分类模型。

在一实施例中，所述根据所述类群特征信息及预置的特征单元配置公式构建包含输入节点、特征单元和输出节点的样本分类模型的步骤之后，还包括：根据所输入的数据集及参数调整规则对所述样本分类模型进行训练，以得到训练后的所述样本分类模型。

在一实施例中，所述根据所输入的数据集及参数调整规则对所述样本分类模型进行训练，以得到训练后的所述样本分类模型的步骤，包括：将所述数据集平均拆分为预设数量的子数据集；根据所述参数值调整规则及多个所述子数据集对所述样本分类模型进行多轮训练，并根据所述子数据集计算每一轮训练后所述样本分类模型的准确率；将准确率最高的一轮训练的参数值作为所述样本分类模型的参数值以得到训练后的所述样本分类模型。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种样本分类方法，其特征在于，包括：

2.根据权利要求1所述的样本分类方法，其特征在于，所述分类信息包含统计项目及等级分类规则，所述根据预置的分类信息对历史信息表中所包含的样本集群进行分类以得到多个样本类群，包括：

根据所述统计项目对所述历史信息表进行统计以获取每一所述样本的样本统计信息；

根据所述等级分类规则及所述样本统计信息对所述样本进行等级分类以得到多个样本类群。

3.根据权利要求1所述的样本分类方法，其特征在于，所述根据预置的信息量化规则对所述样本属性信息进行量化以得到每一所述样本类群对应的类群特征信息，包括：

根据所述信息量化规则将每一所述样本属性信息转换为对应的特征变量；

根据每一所述样本类群中所有样本的特征变量计算得到每一所述样本类群的类群特征信息。

4.根据权利要求1所述的样本分类方法，其特征在于，所述根据所述类群特征信息及预置的特征单元配置公式构建包含输入节点、特征单元和输出节点的样本分类模型，包括：

根据所述类群特征信息中特征变量的维度数量构建所述样本分类模型的输入节点；

根据所述类群特征信息中样本类群的数量构建所述样本分类模型的输出节点；

将所述输入节点的数量及所述输出节点的数量输入所述特征单元配置公式，以根据计算结果构建包含相应数量的特征单元的全连接隐层；

根据所述全连接隐层中的特征单元及所述输入节点，以输入节点值作为输入值、特征单元值作为输出值构建输入节点至特征单元的第一公式组；

根据所述全连接隐层中的特征单元及所述输出节点，以特征单元值作为输入值、输出节点值作为输出值构建特征单元至输出节点的第二公式组，以得到样本分类模型。

5.根据权利要求1所述的样本分类方法，其特征在于，所述根据所述类群特征信息及预置的特征单元配置公式构建包含输入节点、特征单元和输出节点的样本分类模型之后，还包括：

根据所输入的数据集及参数调整规则对所述样本分类模型进行训练，以得到训练后的所述样本分类模型。

6.根据权利要求5所述的样本分类方法，其特征在于，所述根据所输入的数据集及参数调整规则对所述样本分类模型进行训练，以得到训练后的所述样本分类模型，包括：

将所述数据集平均拆分为预设数量的子数据集；

根据所述参数值调整规则及多个所述子数据集对所述样本分类模型进行多轮训练，并根据所述子数据集计算每一轮训练后所述样本分类模型的准确率；

将准确率最高的一轮训练的参数值作为所述样本分类模型的参数值以得到训练后的所述样本分类模型。

7.一种样本分类装置，其特征在于，包括：

8.根据权利要求7所述的样本分类装置，其特征在于，所述样本类群获取单元，包括：

样本统计信息获取单元，用于根据所述统计项目对所述历史信息表进行统计以获取每一所述样本的样本统计信息；

等级分类单元，用于根据所述等级分类规则及所述样本统计信息对所述样本进行等级分类以得到多个样本类群。

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的样本分类方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至6任一项所述的样本分类方法。