CN109063736A

CN109063736A - 数据分类方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN109063736A
Application number: CN201810714517.5A
Authority: CN
Inventors: 葛伟平; 邹铁山; 王敏
Original assignee: Koala Credit Services Ltd
Current assignee: Lakala Payment Co ltd
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2018-12-21
Anticipated expiration: 2038-06-29
Also published as: CN109063736B

Abstract

本公开实施例公开了一种数据分类方法、装置、电子设备及计算机可读存储介质。其中，该方法包括：获取候选数据分类模型，其中，所述候选数据分类模型是根据训练数据训练得到的；响应于接收到携带有用户数据的数据分类请求，根据用户数据从所述候选数据分类模型中确定目标数据分类模型；利用所述目标数据分类模型对于所述用户数据进行分类。

Description

数据分类方法、装置、电子设备及计算机可读存储介质

技术领域

本公开涉及数据处理领域，具体涉及一种数据分类方法、装置、电子设备及计算机可读存储介质。

背景技术

随着互联网和人工智能技术的发展，提供给用户的服务产品越来越丰富，用户参与的社会性活动也越来越多，比如：购物、外卖、移动支付等等，由此也产生了用户参与各项活动的大数据，基于这些大数据可以实现多种目的的数据统计或评估，比如消费水平统计或评估、征信数据统计或评估、用户操作倾向性统计或评估等等。具体在操作时，通常是将用户的大数据输入至统一预设的统计评估模型中，得到统计评估结果。

然而，发明人在实现本公开实施例相关技术方案的过程中发现，现有技术至少存在以下问题：由于互联网大数据的来源和形式的多样性，导致用户数据经常存在部分缺失，例如由于涉及隐私问题，用户1的年龄信息无法获得，或者用户2的收入水平无法获得，等等。现有的处理方式是：通过大数据分析得到缺失数据项的平均值或估值，然后将该平均值或估值作为缺失数据进行统计或评估。但这种对于平均值或估值等非真实性数据的使用不可避免地会对统计评估结果的准确性带来影响，而且该影响还有可能会超过其他真实数据对统计评估结果的影响，进而导致数据统计评估结果的准确度十分低下。

发明内容

针对现有技术中的上述技术问题，本公开实施例提出了一种数据分类方法、装置、电子设备及计算机可读存储介质，以解决非真实性数据的使用所带来的统计评估结果准确性低下的问题。

本公开实施例的第一方面提供了一种数据分类方法，包括：

获取候选数据分类模型，其中，所述候选数据分类模型是根据训练数据训练得到的；

响应于接收到携带有用户数据的数据分类请求，根据用户数据从所述候选数据分类模型中确定目标数据分类模型；

利用所述目标数据分类模型对于所述用户数据进行分类。

在一些实施例中，所述训练数据包括：用户标识、对应的用户参数以及用户类别。

在一些实施例中，根据训练数据训练得到候选数据分类模型，包括：

对所述用户参数进行分类；

根据用户参数分类结果对用户进行分类；

基于用户分类结果以及用户参数训练得到与用户类别对应的数据分类模型，作为候选数据分类模型。

在一些实施例中，所述对用户参数进行分类为：根据参数的完备性对所述用户参数进行分类。

在一些实施例中，所述响应于接收到数据分类请求，根据用户数据从所述候选数据分类模型中确定目标数据分类模型，包括：

根据所述用户数据确定优先级元素及相应的权重，所述用户数据包括用户标识和对应的用户参数；

根据所述优先级元素及相应的权重对于所述候选数据分类模型进行有权评价；

根据候选数据分类模型的有权评价结果对于候选数据分类模型进行优先级排序；

选择优先级最高的候选数据分类模型作为目标数据分类模型。

在一些实施例中，所述响应于接收到数据分类请求，根据用户数据从所述候选数据分类模型中确定目标数据分类模型，还包括：

对所述目标数据分类模型的有效性进行验证；

根据验证结果对于所述目标数据分类模型进行再选择。

在一些实施例中，所述对目标数据分类模型的有效性进行验证，包括：

确定所述候选数据分类模型的共用分类参数；

基于所述共用分类参数，利用所述候选数据分类模型对于所述训练数据进行分类；

将训练数据的分类结果与训练数据中的用户类别进行比较，确定所述目标数据分类模型的有效性。

本公开实施例的第二方面提供了一种数据分类装置，包括：

获取模块，被配置为获取候选数据分类模型，其中，所述候选数据分类模型是根据训练数据训练得到的；

确定模块，被配置为响应于接收到携带有用户数据的数据分类请求，根据用户数据从所述候选数据分类模型中确定目标数据分类模型；

分类模块，被配置为利用所述目标数据分类模型对于所述用户数据进行分类。

在一些实施例中，还包括模型训练模块，所述模型训练模块包括：

第一分类子模块，被配置为对所述用户参数进行分类；

第二分类子模块，被配置为根据用户参数分类结果对用户进行分类；

训练子模块，被配置为基于用户分类结果以及用户参数训练得到与用户类别对应的数据分类模型，作为候选数据分类模型。

在一些实施例中，所述第一分类子模块被配置为根据参数的完备性对所述用户参数进行分类。

在一些实施例中，所述确定模块包括：

第一确定子模块，被配置为根据所述用户数据确定优先级元素及相应的权重，所述用户数据包括用户标识和对应的用户参数；

评价子模块，被配置为根据所述优先级元素及相应的权重对于所述候选数据分类模型进行有权评价；

排序子模块，被配置为根据候选数据分类模型的有权评价结果对于候选数据分类模型进行优先级排序；

选择子模块，被配置为选择优先级最高的候选数据分类模型作为目标数据分类模型。

在一些实施例中，所述确定模块还包括：

验证子模块，被配置为对所述目标数据分类模型的有效性进行验证；

再选择子模块，被配置为根据验证结果对于所述目标数据分类模型进行再选择。

在一些实施例中，所述验证子模块包括：

第二确定子模块，被配置为确定所述候选数据分类模型的共用分类参数；

第三分类子模块，被配置为基于所述共用分类参数，利用所述候选数据分类模型对于所述训练数据进行分类；

第三确定子模块，被配置为将训练数据的分类结果与训练数据中的用户类别进行比较，确定所述目标数据分类模型的有效性。

本公开实施例的第三方面提供了一种电子设备，包括：

存储器以及一个或多个处理器；

其中，所述存储器与所述一个或多个处理器通信连接，所述存储器中存储有可被所述一个或多个处理器执行的指令，所述指令被所述一个或多个处理器执行时，所述电子设备用于实现如前述各实施例所述的方法。

本公开实施例的第四方面提供了一种计算机可读存储介质，其上存储有计算机可执行指令，当所述计算机可执行指令被计算装置执行时，可用来实现如前述各实施例所述的方法。

本公开实施例的第五方面提供了一种计算机程序产品，所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，可用来实现如前述各实施例所述的方法。

本公开实施例，通过训练得到一个或多个基于不同数据特点产生的候选数据分类模型，然后根据用户实际数据的特点从候选数据分类模型中选择一个最合适的目标数据分类模型来对用户数据进行分类，从而实现了在根据用户的实际数据进行真实统计评估时还能够保证统计评估高准确率的效果，有效解决了由于非真实性数据的使用所带来的统计评估结果准确性低下的问题。

附图说明

通过参考附图会更加清楚的理解本公开的特征和优点，附图是示意性的而不应理解为对本公开进行任何限制，在附图中：

图1是根据本公开的一些实施例所示的一种用户分类评估系统示意图；

图2是根据本公开的一些实施例所示的一种数据分类方法的流程示意图；

图3是根据本公开的一些实施例所示的候选数据分类模型获取步骤的流程示意图；

图4是根据本公开的一些实施例所示的目标数据分类模型选择步骤的流程示意图；

图5是根据本公开的另外一些实施例所示的目标数据分类模型选择步骤的流程示意图；

图6是根据本公开的一些实施例所示的目标数据分类模型有效性验证步骤的流程示意图；

图7是根据本公开的一些实施例所示的一种数据分类装置的结构框图；

图8是根据本公开的一些实施例所示的候选数据分类模型获取部分的结构框图；

图9是根据本公开的一些实施例所示的目标数据分类模型选择部分的结构框图；

图10是根据本公开的另外一些实施例所示的目标数据分类模型选择部分的结构框图；

图11是根据本公开的一些实施例所示的目标数据分类模型有效性验证部分的结构框图；

图12是根据本公开的一些实施例所示的电子设备的示意图；

图13是适于用来实现根据本公开实施例的数据分类方法的通用型计算机节点的结构示意图。

具体实施方式

在下面的详细描述中，通过示例阐述了本公开的许多具体细节，以便提供对相关披露的透彻理解。然而，对于本领域的普通技术人员来讲，本公开显而易见的可以在没有这些细节的情况下实施。应当理解的是，本公开中使用“系统”、“装置”、“单元”和/或“模块”术语，是用于区分在顺序排列中不同级别的不同部件、元件、部分或组件的一种方法。然而，如果其他表达式可以实现相同的目的，这些术语可以被其他表达式替换。

应当理解的是，当设备、单元或模块被称为“在……上”、“连接到”或“耦合到”另一设备、单元或模块时，其可以直接在另一设备、单元或模块上，连接或耦合到或与其他设备、单元或模块通信，或者可以存在中间设备、单元或模块，除非上下文明确提示例外情形。例如，本公开所使用的术语“和/或”包括一个或多个相关所列条目的任何一个和所有组合。

本公开所用术语仅为了描述特定实施例，而非限制本公开范围。如本公开说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的特征、整体、步骤、操作、元素和/或组件，而该类表述并不构成一个排它性的罗列，其他特征、整体、步骤、操作、元素和/或组件也可以包含在内。

参看下面的说明以及附图，本公开的这些或其他特征和特点、操作方法、结构的相关元素的功能、部分的结合以及制造的经济性可以被更好地理解，其中说明和附图形成了说明书的一部分。然而，可以清楚地理解，附图仅用作说明和描述的目的，并不意在限定本公开的保护范围。可以理解的是，附图并非按比例绘制。

本公开中使用了多种结构图用来说明根据本公开的实施例的各种变形。应当理解的是，前面或下面的结构并不是用来限定本公开。本公开的保护范围以权利要求为准。

如图l所示，是本公开实施例的应用场景示意图。在该应用场景下，可对用户的信用、消费水平等情况进行分类和评估。具体地，图1所示的用户分类评估系统包括：客户端110和服务器120，服务器120又包括：用户训练数据获取模块122、模型选择模块123和分类评估模块124，用户训练数据获取模块122事先通过多个信息源121获得与某一个用户相关的多个训练数据，然后将用户训练数据输入至模型选择模块123进行模型训练得到多个可选的分类评估模型124，每个分类评估模型124对应于不同的用户数据组合。在应用时，客户端110向服务器120的分类评估模块124发送一个分类评估请求，该请求中包含有待分类评估的用户数据；分类评估模块124响应于该请求，将待分类评估的用户数据输入至模型选择模块123选择一个最适合的模型，并将选中的模型输出至分类评估模块124；分类评估模块124将待分类评估的用户数据输入至选中的模型中得到用户分类评估结果，返回给客户端110。

图2是根据本公开的一些实施例所示的一种数据分类方法的流程示意图。在一些实施例中，所述数据分类方法由服务器端120执行。如图2所示，所述数据分类方法包括以下步骤：

S202，获取候选数据分类模型，其中，所述候选数据分类模型是根据训练数据训练得到的。

在本公开实施例中，所述数据分类是一个泛义的概念，所述数据分类既包括根据某一预设规则对于数据进行预设类别的区分，也包括根据某一预设规则对于数据进行预设条件的评估和统计，以及其他根据预设规则对于数据的分析和处理。

可选地，所述训练数据包括：用户标识、对应的用户参数以及用户类别。其中，所述用户标识用于对于用户的唯一性进行标识，以将所述用户与其他用户区分开来，所述用户标识比如可以为具有唯一性的数字串、字符串等标识信息。所述用户参数包括但不限于用户属性参数、用户特征参数等参数，所述用户属性参数包括但不限于用户姓名、用户性别、用户年龄等参数，所述用户特征参数包括但不限于用户收入水平、用户收入渠道、用户支出水平、用户支出方向、用户支出渠道、用户消费倾向、用户工作性质、用户教育水平、用户喜好等参数。所述用户类别用于表征该用户在某一预设判断条件下的类别信息，比如，某一用户为信用良好用户还是信用不良用户，某一用户为高等收入用户、中等收入用户还是低等收入用户，某一用户为高等消费水平用户、中等消费水平用户还是低等消费水平用户等等，需要注意的是，所述预设判断条件与数据分类的目的有关，在实际应用中，可根据数据分类的目的来选择相应的用户训练数据，进而确定具体的用户类别。

考虑到用户实际数据与训练数据存在不同程度的差异，不同用户的实际数据的完备性也存在不同程度的差异，因此，为了最大程度上提高数据分类的准确率，该步骤基于训练数据训练出多个数据分类模型可供后续数据分类时进行选择，以增强不同待分类用户数据与数据分类模型之间的适配性。

S204，响应于接收到携带有用户数据的数据分类请求，根据用户数据从所述候选数据分类模型中确定目标数据分类模型。

可选地，所述用户数据包括用户标识和对应的用户参数，其中，所述用户标识和用户参数与上文中对于用户训练数据的解释类似，此处不再赘述。需要强调的是，用户训练数据的目的是为了训练分类模型，因此，其对应的用户类别信息是已知的，而对于用户数据来说，用户类别信息是待确定信息，因此，数据分类请求所携带的用户数据中不包括用户类别数据。

S206，利用所述目标数据分类模型对于所述用户数据进行分类。

上文提及，由于互联网大数据的来源和形式的多样性，导致用户数据经常存在部分缺失，现有的处理方式是：通过大数据分析得到缺失数据项的平均值或估值，然后将该平均值或估值作为缺失数据进行统计或评估。这种对于平均值或估值等非真实性数据的使用不可避免地会对数据统计评估结果的准确性带来影响，而且该影响还有可能会超过其他真实数据对数据统计评估结果的影响，进而导致数据统计评估结果的准确度十分低下，尤其在对多个数据源进行数据合并时，上述处理方法会更加影响模型统计评估结果的准确度，这是因为，如果将用户数据覆盖度较全的数据源和用户数据覆盖度较低的数据源进行组合，用户数据覆盖度较低的数据源会产生大量的空值，如果这些空值全部用平均值或估值的方法来填充，必然会导致大部分用户数据相同，最终造成数据统计评估结果准确率的大幅下降，并且这些数据还很有可能会成为一种噪声，导致数据统计评估结果出现过拟合等失真现象。

而本公开实施例，通过训练得到一个或多个基于不同数据特点产生的候选数据分类模型，然后根据用户实际数据的特点从候选数据分类模型中选择一个最合适的目标数据分类模型来对用户数据进行分类，从而实现了在根据用户的实际数据进行真实统计评估时还能够保证统计评估高准确率的效果，有效解决了由于非真实性数据的使用所带来的统计评估结果准确性低下的问题。

在一些可选的实施例中，如图3所示，步骤S202中候选数据分类模型的获取可以包括：

S302，对所述用户参数进行分类；

S304，根据用户参数分类结果对用户进行分类；

S306，基于用户分类结果以及用户参数训练得到与用户类别对应的数据分类模型，作为候选数据分类模型。

为了增强不同用户数据与数据分类模型之间的适配性，提高数据分类的准确性，在该实施例中，在训练数据分类模型时，首先基于用户训练数据对于不同的用户进行分类，再根据用户分类结果和相应的训练数据训练出与每种用户类别对应的数据分类模型，这样在训练数据足够完备的情况下，就能够生成对应不同数据特点的候选数据分类模型，进而使得每个待分类的用户数据都能找到合适的模型进行处理。

其中，每个数据分类模型的训练都需要一个或多个用户参数数据，并且，对于某一个数据分类模型来说，其所使用的用户参数两两不相同。

在一些可选的实施例中，步骤S302具体为：根据参数的完备性对所述用户参数进行分类。

假设某些用户中，一部分用户具有a、b、c三个参数，而另一部分用户具有d、e、f、g四个参数，那么根据用户参数的完备性，比如可以以不同用户是否具有相同的缺失参数为标准，把这些用户参数分为A、B两类，其中A类参数指的是某一部分用户均缺少的a、b、c三个参数，B类参数指的是某一部分用户均缺少的d、e、f、g四个参数，也就是说在该实施例中，A类参数包括a、b、c三个参数，B类参数包括d、e、f、g四个参数。

接着，根据参数的分类结果对用户进行分类。在上述实施例中，基于分为A、B两类的用户参数，可将用户分为M、N、L三类，其中，M类用户为具有A类和B类参数的用户(A+B)，N类用户为具有A类参数的用户(A)，L类用户为具有B类参数的用户(B)。

最后，基于用户分类结果以及用户参数训练得到与用户类别对应的数据分类模型，作为候选数据分类模型。在上述实施例中，根据M、N、L三类用户及其相应的用户参数可以训练得到与M、N、L三类用户对应的三个数据分类模型，并将其作为候选数据分类模型，其中，对于M类用户，使用A+B类参数作为输入进行模型训练，将训练得到的模型作为M类用户对应的模型；对于N类用户，使用A类参数作为输入进行模型训练，将训练得到的模型作为N类用户对应的模型；对于L类用户，使用B类参数作为输入进行模型训练，将训练得到的模型作为L类用户对应的模型。

在另外一些实施例中，为了使训练样本的数量更为充足，使模型分类的准确率更高，使用A类参数不为空的所有样本，即M+N类用户对应的所有训练数据进行模型训练，使用B类参数不为空的所有样本，即M+L类用户对应的所有训练数据进行模型训练。即，与上一实施例类似的是，对于M类用户，仍然使用A+B类参数作为输入进行模型训练，将训练得到的模型作为M类用户对应的模型；与上一实施例不同的是，使用M+N类用户都具有的A类参数作为输入进行模型训练，将训练得到的模型作为M+N类用户对应的模型；使用M+L类用户都具有的B类参数作为输入进行模型训练，将训练得到的模型作为M+L类用户对应的模型，而不再针对样本数量相对较少的N类用户和L类用户分别进行模型训练了。

当然，在实际应用中，数据分类模型训练数据的选择可根据实际应用的需要来决定，本公开对其不作具体限定，所有合理地、能够得到有效数据分类模型的训练方法和训练数据的选择方法均落入本公开的保护范围内。

在一些可选的实施例中，如图4所示，步骤S204可以包括：

S402，根据所述用户数据确定优先级元素及相应的权重，所述用户数据包括用户标识和对应的用户参数；

S404，根据所述优先级元素及相应的权重对于所述候选数据分类模型进行有权评价；

S406，根据候选数据分类模型的有权评价结果对于候选数据分类模型进行优先级排序；

S408，选择优先级最高的候选数据分类模型作为目标数据分类模型。

上文提及，为了提高不同用户数据与数据分类模型之间的适配性，根据不同用户的特点训练出了多个数据分类模型供与待分类用户数据进行匹配，而步骤S204就是要在多个候选数据分类模型中寻找与待分类用户数据最为匹配的数据分类模型。

在该步骤中，采用优先级策略进行数据分类模型的匹配选择，即首先根据用户数据确定优先级元素及相应的权重，然后基于优先级元素及权重对于候选数据分类模型分别进行有权评价，最后根据有权评价结果对候选数据分类模型进行优先级排序，那么优先级最高的候选数据分类模型就可作为与所述用户数据匹配的目标数据分类模型。该实施例能够充分考虑待分类用户数据的特点，并将其反映到数据分类模型的选择上，从而能够得到与待分类用户数据最为匹配的数据分类模型。

在一些可选的实施例中，在根据所述用户数据确定优先级元素及相应的权重之前，还可首先对于所述用户数据进行参数分类，比如根据所述用户数据的完备性进行参数分类，以更容易确定对于某一优先级元素来说候选数据分类模型的评价分数。具体参数分类方法可参考上文中对于训练数据参数的分类方法，本公开在此不再赘述。

在一些可选的实施例中，步骤S404可实现为：

根据所述优先级元素对于数据分类模型进行元素评分；

基于所述优先级元素的权重对于元素评分分值进行加权平均，得到所述数据分类模型的有权评价分值。

可选地，所述优先级元素可包括以下元素中的一个或多个：所述用户数据的完备性、所述用户数据与数据分类模型所使用的用户数据之间的相似性、数据分类模型所使用的用户数据的完备性、数据分类模型所使用的训练样本数量、数据分类模型的显著性差异指数(比如Kolmogorov-Smirnov，K-S值)，等等。

可选地，所述优先级元素的权重值可根据实际应用的需要进行设置，比如若在某一种情况下，数据完备性对于数据分类来说比较重要，则可将数据完备性这一优先级元素的权重值设置得大一些，将其他优先级元素的权重值设置得小一些，等等。

例如，若所述优先级元素包括：数据分类模型所使用的用户数据的完备性、数据分类模型所使用的训练样本数量以及数据分类模型的K-S指数，考虑到训练样本数量大的模型相对准确率较高，因此可将数据分类模型所使用的训练样本数量的权重值设置得较高，比如可以设为0.6，将数据分类模型的K-S指数的权重值设为0.3，将数据分类模型所使用的用户数据的完备性的权重值设为0.1。这样就会使得训练样本数量大的模型的有权评价分值较高，进而获得较高的优先级。

再例如，对于a,b,c三类用户参数，由于同时具有a,b,c这三类用户参数的样本数量过少，相应训练生成的模型准确率相对较低，因此在实际应用中，通常选择使用a+b、a+c的参数组合进行训练得到的模型，而不选择使用a+b+c的参数组合进行训练得到的模型，那么对于具有a+b+c参数的用户，则可选择a+b、a+c对应的模型中K-S值较大的那个模型。

在另外一些可选的实施例中，如图5所示，步骤S204可以包括：

S502，根据所述用户数据确定优先级元素及相应的权重，所述用户数据包括用户标识和对应的用户参数；

S504，根据所述优先级元素及相应的权重对于所述候选数据分类模型进行有权评价；

S506，根据候选数据分类模型的有权评价结果对于候选数据分类模型进行优先级排序；

S508，选择优先级最高的候选数据分类模型作为目标数据分类模型；

其中，步骤S502、S504、S506和S508的具体内容可参考步骤S402、S404、S406和S408所述，在此不作赘述。

S510，对所述目标数据分类模型的有效性进行验证；

S512，根据验证结果对于所述目标数据分类模型进行再选择。

在该实施例中，除了与上一实施例相似的对目标数据分类模型进行选择之外，还对目标数据分类模型的有效性进行验证，以进一步保证数据分类模型的准确率。具体地，若所述目标数据分类模型的有效性验证结果符合一预设条件，比如，若所述目标数据分类模型的准确率高于某一预设阈值，则继续使用所述目标数据分类模型对于用户数据进行分类，但若所述目标数据分类模型的有效性验证结果不符合所述预设条件，比如，若所述目标数据分类模型的准确率低于所述预设阈值，则可考虑从所述候选数据分类模型中重新选择一个更合适的模型作为所述目标数据分类模型。

在一些可选的实施例中，如图6所示，步骤S510可以包括：

S602，确定所述候选数据分类模型的共用分类参数；

S604，基于所述共用分类参数，利用所述候选数据分类模型对于所述训练数据进行分类；

S606，将训练数据的分类结果与训练数据中的用户类别进行比较，确定所述目标数据分类模型的有效性。

为了对于不同数据分类模型的有效性和准确性进行比较，可先确定一个统一的、不同数据分类模型可共用的最优分类参数，比如一个最优分类判决阈值，然后基于这个统一的分类参数，利用具有类别信息的训练数据来验证数据分类模型的有效性。

其中，在确定最优共用分类参数时，可使用以下规则，即基于该分类参数，使得数据分类模型对于所有训练数据进行分类的准确率之和最高。

在一些可选的实施例中，还可将数据分类模型的有效性作为优先级元素参与到目标数据分类模型的选择上，即所述优先级元素可包括以下元素中的一个或多个：所述用户数据的完备性、所述用户数据与数据分类模型所使用的用户数据之间的相似性、数据分类模型所使用的用户数据的完备性、数据分类模型所使用的训练样本数量、数据分类模型的显著性差异指数(比如Kolmogorov-Smirnov，K-S值)，数据分类模型的有效性等等，而且数据分类模型的有效性这一优先级元素的权重还可设置得大一些。在该实施例中，考虑了数据分类模型的有效性而选择的目标数据分类模型，在选定之后就无需再进行验证了。

最后，对于步骤S206，利用所述目标数据分类模型对于所述用户数据进行分类，在一些可选的实施例中，所述目标数据分类模型的分类参数与所述候选数据分类模型的分类参数相同，均使用上文所述的最优分类参数。假设所述目标数据分类模型的最优分类参数表示为P，该参数对应的分类概率值为p0，那么当用户数据基于所述目标数据分类模型得到的分类概率为p时，其所对应的分类分数score可表示为：

score＝A+B*log(p/(1-p))，

A＝P-B*log(p0/(1-p0))，

B＝Q/log(2)，

其中，Q为奖励指数，通常可取为一常数。

之后，再通过分类分数score与分类参数P之间的比较得到分类结果。

在实际应用中，所述分类分数score已经可以在一定程度上体现用户数据的统计特性或者能够起到评估的作用了，因此，可根据实际应用的需要选择对于分类分数或者分类结果进行利用，具体本公开不再阐述。

以上是本公开提供的数据分类方法的具体实施方式。

图7是根据本公开的一些实施例所示的数据分类装置示意图。如图7所示，所述数据分类装置700包括获取模块710、确定模块720和分类模块730。所述数据分类装置的功能可以由图1的数据分类系统100中的服务器120执行。其中：

获取模块710，被配置为获取候选数据分类模型，其中，所述候选数据分类模型是根据训练数据训练得到的。

考虑到用户实际数据与训练数据存在不同程度的差异，不同用户的实际数据的完备性也存在不同程度的差异，因此，为了最大程度上提高数据分类的准确率，该实施例基于训练数据训练出多个数据分类模型可供后续数据分类时进行选择，以增强不同待分类用户数据与数据分类模型之间的适配性。

确定模块720，被配置为响应于接收到携带有用户数据的数据分类请求，根据用户数据从所述候选数据分类模型中确定目标数据分类模型。

分类模块730，被配置为利用所述目标数据分类模型对于所述用户数据进行分类。

在一些可选的实施例中，所述数据分类装置还包括模型训练模块740，如图8所示，所述模型训练模块740包括：

第一分类子模块810，被配置为对所述用户参数进行分类；

第二分类子模块820，被配置为根据用户参数分类结果对用户进行分类；

训练子模块830，被配置为基于用户分类结果以及用户参数训练得到与用户类别对应的数据分类模型，作为候选数据分类模型。

为了增强不同用户数据与数据分类模型之间的适配性，提高数据分类的准确性，在该实施例中，在训练数据分类模型时，第一分类子模块810基于用户训练数据对于不同的用户进行分类，第二分类子模块820根据用户分类结果和相应的训练数据训练出与每种用户类别对应的数据分类模型，这样在训练数据足够完备的情况下，训练子模块830就能够生成对应不同数据特点的候选数据分类模型，进而使得每个待分类的用户数据都能找到合适的模型进行处理。

在一些可选的实施例中，所述第一分类子模块810被配置为根据参数的完备性对所述用户参数进行分类。

接着在该实施例中，第二分类子模块820根据参数的分类结果对用户进行分类。在上述实施例中，基于分为A、B两类的用户参数，可将用户分为M、N、L三类，其中，M类用户为具有A类和B类参数的用户(A+B)，N类用户为具有A类参数的用户(A)，L类用户为具有B类参数的用户(B)。

最后，训练子模块830基于用户分类结果以及用户参数训练得到与用户类别对应的数据分类模型，作为候选数据分类模型。在上述实施例中，根据M、N、L三类用户及其相应的用户参数可以训练得到与M、N、L三类用户对应的三个数据分类模型，并将其作为候选数据分类模型，其中，对于M类用户，使用A+B类参数作为输入进行模型训练，将训练得到的模型作为M类用户对应的模型；对于N类用户，使用A类参数作为输入进行模型训练，将训练得到的模型作为N类用户对应的模型；对于L类用户，使用B类参数作为输入进行模型训练，将训练得到的模型作为L类用户对应的模型。

在另外一些实施例中，为了使训练样本的数量更为充足，使模型分类的准确率更高，训练子模块830使用A类参数不为空的所有样本，即M+N类用户对应的所有训练数据进行模型训练，使用B类参数不为空的所有样本，即M+L类用户对应的所有训练数据进行模型训练。即，与上一实施例类似的是，对于M类用户，仍然使用A+B类参数作为输入进行模型训练，将训练得到的模型作为M类用户对应的模型；与上一实施例不同的是，使用M+N类用户都具有的A类参数作为输入进行模型训练，将训练得到的模型作为M+N类用户对应的模型；使用M+L类用户都具有的B类参数作为输入进行模型训练，将训练得到的模型作为M+L类用户对应的模型，而不再针对样本数量相对较少的N类用户和L类用户分别进行模型训练了。

在一些可选的实施例中，如图9所示，所述确定模块720可以包括：

第一确定子模块910，被配置为根据所述用户数据确定优先级元素及相应的权重，所述用户数据包括用户标识和对应的用户参数；

评价子模块920，被配置为根据所述优先级元素及相应的权重对于所述候选数据分类模型进行有权评价；

排序子模块930，被配置为根据候选数据分类模型的有权评价结果对于候选数据分类模型进行优先级排序；

选择子模块940，被配置为选择优先级最高的候选数据分类模型作为目标数据分类模型。

上文提及，为了提高不同用户数据与数据分类模型之间的适配性，根据不同用户的特点训练出了多个数据分类模型供与待分类用户数据进行匹配，而确定模块720就是要在多个候选数据分类模型中寻找与待分类用户数据最为匹配的数据分类模型。

在该实施例中，所述确定模块720采用优先级策略进行数据分类模型的匹配选择，具体地，第一确定子模块910根据用户数据确定优先级元素及相应的权重，评价子模块920基于优先级元素及权重对于候选数据分类模型分别进行有权评价，排序子模块930根据有权评价结果对候选数据分类模型进行优先级排序，选择子模块940选择优先级最高的候选数据分类模型作为与所述用户数据匹配的目标数据分类模型。该实施例能够充分考虑待分类用户数据的特点，并将其反映到数据分类模型的选择上，从而能够得到与待分类用户数据最为匹配的数据分类模型。

在一些可选的实施例中，所述第一确定子模块910还可被配置为在根据所述用户数据确定优先级元素及相应的权重之前，对于所述用户数据进行参数分类，比如根据所述用户数据的完备性进行参数分类，以更容易确定对于某一优先级元素来说候选数据分类模型的评价分数。具体参数分类方法可参考上文中对于训练数据参数的分类方法，本公开在此不再赘述。

在一些可选的实施例中，所述评价子模块920可被配置为：

根据所述优先级元素对于数据分类模型进行元素评分；

在另外一些可选的实施例中，如图10所示，所述确定模块720可以包括：

第一确定子模块1010，被配置为根据所述用户数据确定优先级元素及相应的权重，所述用户数据包括用户标识和对应的用户参数；

评价子模块1020，被配置为根据所述优先级元素及相应的权重对于所述候选数据分类模型进行有权评价；

排序子模块1030，被配置为根据候选数据分类模型的有权评价结果对于候选数据分类模型进行优先级排序；

选择子模块1040，被配置为选择优先级最高的候选数据分类模型作为目标数据分类模型；

其中，第一确定子模块1010、评价子模块1020、排序子模块1030和选择子模块1040的具体内容可参考第一确定子模块910、评价子模块920、排序子模块930和选择子模块940所述，在此不作赘述。

验证子模块1050，被配置为对所述目标数据分类模型的有效性进行验证；

再选择子模块1060，被配置为根据验证结果对于所述目标数据分类模型进行再选择。

在一些可选的实施例中，如图11所示，所述验证子模块1050可以包括：

第二确定子模块1110，被配置为确定所述候选数据分类模型的共用分类参数；

第三分类子模块1120，被配置为基于所述共用分类参数，利用所述候选数据分类模型对于所述训练数据进行分类；

第三确定子模块1130，被配置为将训练数据的分类结果与训练数据中的用户类别进行比较，确定所述目标数据分类模型的有效性。

其中，在第二确定子模块1110确定最优共用分类参数时，可使用以下规则，即基于该分类参数，使得数据分类模型对于所有训练数据进行分类的准确率之和最高。

最后，对于所述分类模块730，其被配置为利用所述目标数据分类模型对于所述用户数据进行分类，在一些可选的实施例中，所述目标数据分类模型的分类参数与所述候选数据分类模型的分类参数相同，均使用上文所述的最优分类参数。假设所述目标数据分类模型的最优分类参数表示为P，该参数对应的分类概率值为p0，那么当用户数据基于所述目标数据分类模型得到的分类概率为p时，其所对应的分类分数score可表示为：

score＝A+B*log(p/(1-p))，

A＝P-B*log(p0/(1-p0))，

B＝Q/log(2)，

其中，Q为奖励指数，通常可取为一常数。

参考附图12，为本公开一个实施例提供的电子设备示意图。如图12所示，该电子设备1200包括：

存储器1230以及一个或多个处理器1210；

其中，所述存储器1230与所述一个或多个处理器1210通信连接，所述存储器1230中存储有可被所述一个或多个处理器执行的指令1232，所述指令1232被所述一个或多个处理器1210执行，以使所述一个或多个处理器1210执行上述数据分类步骤。

本公开的一个实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令被执行后执行上述数据分类步骤。

综上所述，本公开提出了一种数据分类方法、装置、电子设备及其计算机可读存储介质。本公开实施例通过训练得到一个或多个基于不同数据特点产生的候选数据分类模型，然后根据用户实际数据的特点从候选数据分类模型中选择一个最合适的目标数据分类模型来对用户数据进行分类，从而实现了在根据用户的实际数据进行真实统计评估时还能够保证统计评估高准确率的效果，有效解决了由于非真实性数据的使用所带来的统计评估结果准确性低下的问题。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述装置实施例中的对应描述，在此不再赘述。

尽管此处所述的主题是在结合操作系统和应用程序在计算机系统上的执行而执行的一般上下文中提供的，但本领域技术人员可以认识到，还可结合其他类型的程序模块来执行其他实现。一般而言，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、组件、数据结构和其他类型的结构。本领域技术人员可以理解，此处所述的本主题可以使用其他计算机系统配置来实践，包括手持式设备、多处理器系统、基于微处理器或可编程消费电子产品、小型计算机、大型计算机等，也可使用在其中任务由通过通信网络连接的远程处理设备执行的分布式计算环境中。在分布式计算环境中，程序模块可位于本地和远程存储器存储设备的两者中。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对原有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。比如，典型地，本公开的技术方案可通过至少一个如图13所示的通用型计算机节点1310来实现和/或传播。在图13中，通用型计算机节点1310包括：计算机系统/服务器1312、外设1314和显示设备1316；其中，所述计算机系统/服务器1312包括处理单元1320、输入/输出接口1322、网络适配器1324和存储器1330，内部通常通过总线实现数据传输；进一步地，存储器1330通常由多种存储设备组成，比如，RAM(Random Access Memory，随机存储器)1332、缓存1334和存储系统(一般由一个或多个大容量非易失性存储介质组成)1336等；实现本公开技术方案的部分或全部功能的程序1340保存在存储器1330中，通常以多个程序模块1342的形式存在。

而前述的计算机可读取存储介质包括以存储如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方式或技术来实现的物理易失性和非易失性、可移动和不可因东介质。计算机可读取存储介质具体包括，但不限于，U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、可擦除可编程只读存储器(EPROM)、电可擦可编程只读存储器(EEPROM)、闪存或其他固态存储器技术、CD-ROM、数字多功能盘(DVD)、HD-DVD、蓝光(Blue-Ray)或其他光存储设备、磁带、磁盘存储或其他磁性存储设备、或能用于存储所需信息且可以由计算机访问的任何其他介质。

应当理解的是，本公开的上述具体实施方式仅仅用于示例性说明或解释本公开的原理，而不构成对本公开的限制。因此，在不偏离本公开的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。此外，本公开所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种数据分类方法，其特征在于，包括：

利用所述目标数据分类模型对于所述用户数据进行分类。

2.根据权利要求1所述的方法，其特征在于，所述训练数据包括：用户标识、对应的用户参数以及用户类别。

3.根据权利要求2所述的方法，其特征在于，根据训练数据训练得到候选数据分类模型，包括：

对所述用户参数进行分类；

根据用户参数分类结果对用户进行分类；

4.根据权利要求3所述的方法，其特征在于，所述对用户参数进行分类为：根据参数的完备性对所述用户参数进行分类。

5.根据权利要求1所述的方法，其特征在于，所述响应于接收到数据分类请求，根据用户数据从所述候选数据分类模型中确定目标数据分类模型，包括：

6.根据权利要求5所述的方法，其特征在于，所述响应于接收到数据分类请求，根据用户数据从所述候选数据分类模型中确定目标数据分类模型，还包括：

对所述目标数据分类模型的有效性进行验证；

根据验证结果对于所述目标数据分类模型进行再选择。

7.根据权利要求6所述的方法，其特征在于，所述对目标数据分类模型的有效性进行验证，包括：

确定所述候选数据分类模型的共用分类参数；

8.一种数据分类装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述训练数据包括：用户标识、对应的用户参数以及用户类别。

10.根据权利要求9所述的装置，其特征在于，还包括模型训练模块，所述模型训练模块包括：

第一分类子模块，被配置为对所述用户参数进行分类；

11.根据权利要求10所述的装置，其特征在于，所述第一分类子模块被配置为根据参数的完备性对所述用户参数进行分类。

12.根据权利要求8所述的装置，其特征在于，所述确定模块包括：

13.根据权利要求12所述的装置，其特征在于，所述确定模块还包括：

14.根据权利要求13所述的装置，其特征在于，所述验证子模块包括：

15.一种电子设备，其特征在于，包括：

存储器以及一个或多个处理器；

其中，所述存储器与所述一个或多个处理器通信连接，所述存储器中存储有可被所述一个或多个处理器执行的指令，所述指令被所述一个或多个处理器执行时，所述电子设备用于实现如权利要求1-7任一项所述的方法。

16.一种计算机可读存储介质，其上存储有计算机可执行指令，当所述计算机可执行指令被计算装置执行时，可用来实现如权利要求1-7任一项所述的方法。