CN109992712A

CN109992712A - 数据处理方法、装置、介质和计算设备

Info

Publication number: CN109992712A
Application number: CN201910226237.4A
Authority: CN
Inventors: 谢鹏; 魏望; 刘洪彬; 高畅; 任重起
Original assignee: Netease Media Technology Beijing Co Ltd
Current assignee: Netease Media Technology Beijing Co Ltd
Priority date: 2019-03-22
Filing date: 2019-03-22
Publication date: 2019-07-09
Anticipated expiration: 2039-03-22
Also published as: CN109992712B

Abstract

本发明的实施方式提供了一种数据处理方法。该方法包括获取样本数据集，该样本数据集包括L个样本数据；确定L个样本数据相对于M个预置类别中每个预置类别的第一数值，得到M个第一数值；以及根据M个第一数值的乘积的最小值，确定N个预置特征中每个预置特征相对于M个预置类别中每个预置类别的权重，以作为确定待分类数据的类别的依据，其中，该L个样本数据具有N个预置特征，每个样本数据包括N个预置特征中的至少一个预置特征。本发明的方法确定每个预置特征相对于预置类别的权重的方法，考虑到了不平衡数据对数据处理的影响，因此可以提高数据分类的准确性。此外，本发明的实施方式提供了一种数据处理装置、介质和计算设备。

Description

数据处理方法、装置、介质和计算设备

技术领域

本发明的实施方式涉及信息处理领域，更具体地，本发明的实施方式涉及一种数据处理方法、装置、介质和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

信息推荐的主要工作是解决信息过载的问题，即从大量的信息中筛选出少量用户感兴趣的信息。而为了实现信息的准确推荐，通常会根据用户的特征将用户分为不同的群体，以向不同的群体推送不同的信息。

通常，对新用户进行分类的步骤如下：首先根据不同的用户画像计算相互间的相似度，该相似度是区分用户群体的重要指标，也是展开用户画像聚类的前提条件。然后根据用户画像间的相似度，将相似的用户画像聚为一类。最后通过分类器对用户进行分类，找到自己归属的用户群，其中，分类器是通过选取合适的特征，学习聚类后的样本训练得到的。

其中，考虑到信息推送场景的特征维度非常庞大，各个用户群的用户数量差异非常明显，这会构成一个不平衡数据集。此种情况下，合适特征的选取难度很大。一般选择常用的少数特征或通过计算单特征AUC(Area Under Curve)等方法来选取合适的有效特征。但该大部分特征选取都是为了用更少的特征重构数据集，然而少数类的样本点的特征相对于多数类样本点的特征差距过大，因此在特征选择时往往会为了包含更多的信息而仅选择对多数类样本点更加重要的特征，而忽略对少数类样本点重要的特征。这无疑会导致严重丢失少数类样本点信息的缺陷。

发明内容

因此在现有技术中，采用现有的特征选取方法选取的特征来训练分类器，得到的分类器无法对少数类样本进行准确分类，并因此存在分类准确率低的问题。

为此，非常需要一种改进的分类器训练方法，以提高分类器的分类准确率，对少数类样本进行有效分类。

在本上下文中，本发明的实施方式期望提供能够有效确定每个特征相对于分类类别的权重，从而合理的选择有效特征，并因此提高对新样本数据分类的准确率。

本发明实施方式的第一方面中，提供了一种数据处理方法，包括：获取样本数据集，该样本数据集包括L个样本数据，每个样本数据具有对应的实际分类信息；确定L个样本数据相对于M个预置类别中每个预置类别的第一数值，得到M个第一数值；以及根据M个第一数值的乘积的最小值，确定N个预置特征中每个预置特征相对于M个预置类别中每个预置类别的权重，以作为确定待分类数据的类别的依据。其中，L个样本数据具有N个预置特征，每个样本数据包括N个预置特征中的至少一个预置特征，L、M、N均为大于1的自然数。

在本发明的一个实施例中，上述M个第一数值中的每个第一数值根据L个样本数据相对于对应预置类别的实际分类信息和预测分类信息确定，每个样本数据的预测分类信息与每个样本数据包括的至少一个预置特征相对于每个预置类别的权重相关。

在本发明的另一个实施例中，上述数据处理方法还包括：获取待分类数据；提取待分类数据的至少一个特征，该至少一个特征属于N个预置特征；以及根据至少一个特征中每个特征相对于M个预置类别中每个预置类别的权重，从M个预置类别中确定待分类数据的类别。

在本发明的又一个实施例中，上述根据M个第一数值的乘积的最小值，确定N个预置特征中每个预置特征相对于M个预置类别中每个预置类别的权重包括：采用梯度下降算法，确定在M个第一数值的乘积取最小值时，N个预置特征中每个预置特征相对于M个预置类别中的每个预置类别的权重的取值。

在本发明的再一个实施例中，上述确定L个样本数据相对于M个预置类别中每个预置类别的第一数值，得到M个第一数值包括：根据每个样本数据相对于M个预置类别中每个预置类别的实际分类信息和预测分类信息，确定每个样本数据相对于M个预置类别中每个预置类别的第二数值，得到L*M个第二数值；将L个样本数据相对于相同预置类别的L个第二数值累加，得到M个第三数值；以及根据M个第三数值，确定M个第一数值。

在本发明的再一个实施例中，上述根据M个第三数值，确定M个第一数值包括：将M个第三数值中的每个第三数值与预设非零数值的和，作为一个第一数值。

在本发明的再一个实施例中，上述M个第一数值的乘积表示为：

其中，为实际分类信息中样本数据x_i属于预置类别y_j的概率值，p(y_j|x_i；θ)为预测分类信息中样本数据x_i属于预置类别y_j的概率值，其中i的取值为1至L的自然数，j的取值为1至M的自然数。

在本发明的再一个实施例中，上述预测分类信息中样本数据x属于类别y的概率值表示为：

其中，表示N个预置特征中第k个特征相对于预置类别y_j的权重，所述k的取值为1至N的自然数，g_k(x_i)表示样本数据x_i中第k个特征的值，其中，z为归一化因子：

在本发明实施方式的第二方面中，提供了一种数据处理装置，该装置包括样本获取模块、第一数值确定模块和权重确定模块。其中，样本获取模块用于获取样本数据集，该样本数据集包括L个样本数据，每个样本数据具有对应的实际分类信息。第一数值确定模块用于确定L个样本数据相对于M个预置类别中每个预置类别的第一数值，得到M个第一数值。权重确定模块用于根据M个第一数值的乘积的最小值，确定N个预置特征中每个预置特征相对于M个预置类别中每个预置类别的权重，以作为确定待分类数据的类别的依据。其中，L个样本数据具有N个预置特征，每个样本数据包括N个预置特征中的至少一个预置特征，L、M、N均为大于1的自然数。

在本发明的另一个实施例中，上述数据处理装置还包括数据获取模块、特征提取模块和类别确定模块。数据获取模块用于获取待分类数据。特征提取模块用于提取待分类数据的至少一个特征，该至少一个特征属于N个预置特征。类别确定模块用于根据至少一个特征中每个特征相对于M个预置类别中每个预置类别的权重，从M个预置类别中确定待分类数据的类别。

在本发明的又一个实施例中，上述权重确定模块具体用于：采用梯度下降算法，确定在M个第一数值的乘积取最小值时，N个预置特征中每个预置特征相对于M个预置类别中的每个预置类别的权重的取值。

在本发明的再一个实施例中，上述第一数值确定模块包括第一确定子模块、累加子模块和第二确定子模块。其中，第一确定子模块用于根据每个样本数据相对于M个预置类别中每个预置类别的实际分类信息和预测分类信息，确定每个样本数据相对于M个预置类别中每个预置类别的第二数值，得到L*M个第二数值。累加子模块用于将L个样本数据相对于相同预置类别的L个第二数值累加，得到M个第三数值。第二确定子模块用于根据M个第三数值，确定M个第一数值。

在本发明的再一个实施例中，上述第二确定子模块具体用于：将M个第三数值中的每个第三数值与预设非零数值的和，作为一个第一数值。

其中，表示所述N个预置特征中第k个特征相对于预置类别y的，k的取值为1至N的自然数，g_k(x_i)表示样本数据x_i中所述第k个特权重征的值，其中，z为归一化因子：

在本发明实施方式的第三方面中，提供了一种计算机可读存储介质，其上存储有可执行指令，该指令在被处理器执行时使处理器执行根据本发明实施方式的第一方面所提供的数据处理方法。

在本发明实施方式的第四方面中，提供了一种计算设备。该计算设备包括存储有可执行指令的一个或多个存储单元，以及一个或多个处理单元。该处理单元执行该可执行指令，用以实现根据本发明实施方式的第一方面所提供的数据处理方法。

根据本发明实施方式的数据处理方法、装置、介质和计算设备，在对数据进行分类之前，先根据样本数据相对于预置类别的第一数值的乘积的最小值，来确定每个预置特征相对于每个预置类别的权重，从而可以兼顾少数类样本的特征，实现有效特征的合理选择。因此在对待分类数据进行分类时，可以充分考虑与少数类相关性较高的特征对分类结果的影响，避免有效信息的丢失，并因此提高分类准确率。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性示出了根据本发明实施方式的数据处理方法、装置、介质及计算机设备的应用场景；

图2示意性示出了根据本发明一实施例的数据处理方法的流程图；

图3示意性示出了根据本发明一实施例的确定样本数据相对于每个预置类别的第一数值的流程图；

图4示意性示出了根据本发明另一实施例的数据处理方法的流程图；

图5示意性示出了根据本发明另一实施例的数据处理方法中对待分类数据进行分类的操作流程图；

图6示意性示出了根据本发明一实施例的数据处理装置的方框图；

图7示意性示出了根据本发明一实施例的适应于执行数据处理方法的程序产品的示意图；以及

图8示意性示出了根据本发明一实施例的适用于数据处理的计算设备的框图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种数据处理方法、装置、介质和计算设备。

在本文中，需要理解的是，所涉及的术语解释如下：

不平衡数据：用户数量差异非常明显的各个用户群的用户数量。由于该不平衡数据的存在，使得对用户的分类不平衡。通常，解决分类不平衡问题的方法有很多，主要分为三类。第一类是采样法，包括过采样和欠采样两种，它们分别通过增加少数类样本和减少多数类样本得到分类相对平衡的新数据集。第二类是代价敏感学习，在分类不平衡问题中，正确识别少数类比正确识别多数类更有价值，即错分少数类比错分多数类要付出更大的代价，该代价敏感学习通过为不同类别赋予不同的错分类代价来提高少数类的分类性能。第三类是继承学习，通过聚集多个模型的预测结果来提高分类性能。

特征选择：即从原始特征集合中选择使得评价准则最大化的最小特征子集，通过运用特征选择可以减少原始数据获取的时间，缩减数据的存储空间，提高分类模型的可解释性，从而更快的获得分类模型，提高分类性能。

多目标学习：例如一个人的笑脸可能表示高兴、喜悦和惊恐等多种属性，多目标学习是从样本的特征中学习出该样本分到各个类别的可能性，当类别等于二时就是最常见的二分类学习问题。

用户画像：用来勾画用户(用户背景、特征、性格标签、行为场景等)和联系用户需求而设定的，旨在通过从海量用户行为数据中炼银挖金，尽可能全面细致的抽出一个用户的信息全貌，从而帮助解决如何把数据转为商业价值的问题。

此外，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，数据的预测分类结果是与预置特征相对于预置类别的权重相关的，因此，通过精准确定每个预置特征相对于预置类别的权重，即可实现特征的合理选择(例如不合理的特征权重为0，合理的特征权重不为0)，以对分类器进行学习训练，提高分类结果的准确性。再者，相对熵可以表示两个分布之间的距离，若多个样本的实际分类分布与预测分类分布的相对熵小，则说明预测分类的准确性高。因此，若以预置特征相对于预置类别的权重作为变量，确定使多个样本的实际分类分布与预测分类分布的相对熵最小化时各个变量的取值，再根据各个变量的取值对新的样本数据进行分类，即可有效提高分类结果的准确性。

但由于不平衡数据的存在，用户中少数类的样本个数远少于多数类样本的个数。即使分类器对少数类的分类是错误的，也不会对相对熵产生很大的波动，其在梯度空间内是一个梯度下降的过程，而分类器又会偏向消除多数类产生的误差。因此，单纯使用相对熵来学习两个分布之间的差异在不平衡数据下不能取得很好的结果。因此，需要对相对熵学习指标(Improved Kullback-Leibler，IKL)进行改进，以使得该相对熵学习可以适用于不平衡数据。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

首先参考图1。

图1示意性示出了根据本发明实施方式的数据处理方法、装置、介质及计算机设备的应用场景。需要注意的是，图1所示仅为可以应用本发明实施例的应用场景的实例，以帮助本领域技术人员理解本发明的技术内容，但并不意味着本发明实施例不可以用于其他设备、系统、环境或场景。

如图1所示，该应用场景100包括有终端设备111、112、113及用户120。

其中的终端设备111、112、113例如具有显示屏幕，以用于向用户120显示推送的消息。根据本发明的实施例，该终端设备111、112、113包括但不限于台式计算机、膝上型便携计算机、平板电脑、智能手机、智能可穿戴设备或智能家电等等。

其中，终端设备111、112、113例如还可以具有输入功能和/或图像采集功能，以用于响应于用户120的操作输入多媒体信息和/或采集用户图像。该终端设备111、112、113例如还可以具有处理功能，以用于根据输入的多媒体信息和/或采集的用户图像构建用户画像。并根据该用户画像对用户进行分类，以便于针对性的向用户120推送信息130，使用户对推送的信息130感兴趣，并因此提高用户体验。

其中，推送的信息130例如可以是文字信息、图像信息和/或音频信息等，本公开对此不作限定。

根据本公开的实施例，该应用场景100例如还可以具有网络140和服务器150。网络140用于在终端设备111、112、113和服务器150之间提供通信链路的介质，网络可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户120可以使用终端设备111、112、113通过网络140与服务器150交互，以接收或发送消息等。终端设备111、112、113上还可以安装有各种客户端应用。例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

服务器150可以是提供各种服务的服务器，例如根据构建的用户画像向终端设备111、112、113反馈需要向用户120推送的信息(仅为示例)。或者，该服务器150例如还可以根据终端设备111、112、113输入的多媒体信息和/或用户图像构建用户画像，以及还可以用于根据用户画像对用户进行分类。

需要说明的是，本发明实施例所提供的数据处理方法一般可以由终端设备111、112、113或服务器150执行。相应地，本发明实施例所提供的数据处理装置一般可以设置于终端设备111、112、113或服务器150中。本发明实施例所提供的数据处理方法也可以由不同于服务器150且能够与终端设备111、112、113和/或服务器150通信的服务器或服务器集群执行。相应地，本发明实施例所提供的数据处理装置也可以设置于不同于服务器150且能够与终端设备111、112、113和/或服务器150通信的服务器或服务器集群中。

应该理解，图1中的终端设备、网络、服务器、推送的信息的数目和类型仅仅是示意性的。根据实现需要，可以具有任意数目和类型的终端设备、网络和服务器，也可以推送任意数目和类型的信息。

示例性方法

下面结合图1的应用场景，参考图2～5来描述根据本发明示例性实施方式的数据处理方法。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

图2示意性示出了根据本发明一实施例的数据处理方法的流程图。

如图2所示，根据本发明实施例的数据处理方法包括操作S210～操作S230。该数据处理方法例如可以由参考图1中的终端设备111、112、113或者服务器150执行。该操作S210～操作S230具体可以是确定分类器的权重的操作流程，通过该权重即可确定选择的特征集(选择权重不为0的特征)，以用于对分类器进行学习训练。

在操作S210，获取样本数据集，该样本数据集包括L个样本数据，每个样本数据具有对应的实际分类信息。

根据本发明的实施例，该样本数据集包括的L个样本数据具体可以各自标注有标签，该标签指示了每个样本数据的实际分类信息。该实际分类信息例如可以是根据分类方法或根据经验预先得到的。根据本发明的实施例，某个样本数据的实际分类信息具体可以是该某个样本数据属于多个预置类别中每个预置类别的真实概率。

根据本发明的实施例，每个样本数据具体例如可以对应一个用户的用户画像，不同的样本数据则对应不同用户的用户画像。该L个样本数据具体例如可以根据对应的用户的年龄、性别、职业及喜好等分属于相同或不同的分类，并因此可以对应相同或不同的分类信息。上述分类中包括的类别例如可以是对应的用户的实际类别，例如女性类别、青年人类别等。或者，上述分类中包括的类别例如还可以是与用户的实际类别对应的信息的类别，例如娱乐信息类别、时政信息类别和/或体育信息类别等。

在操作S220，确定L个样本数据相对于M个预置类别中每个预置类别的第一数值，得到M个第一数值。

其中，M个第一数值中的每个第一数值具体可以是根据L个样本数据相对于对应预置类别的实际分类信息和预测分类信息确定的。具体地，该第一数值可以是第一函数的值，该第一函数是关于L个样本数据中每个样本数据相对于预置类别的实际分类信息和预测分类信息的函数。对于不同的预置类别，该第一函数可以取不同的值。即，M个第一数值中第j个数值是该第一函数对于第j个预置类别的取值，该第j个数值是根据L个样本数据中每个样本数据相对于第j个预置类别的实际分类信息和预测分类信息得到的，该j取大于等于1小于等于M的整数。

其中，每个样本数据的预测分类信息与每个样本数据包括的至少一个预置特征相对于M个预置类别中每个预置类别的权重相关。具体地，每个样本数据相对于某个预置类别的预测分类信息具体可以是每个样本数据属于该某个预置类别的预测概率。该预测概率具体可以是根据每个样本数据包括的所有预置特征关于该某个预置类别的权重确定的。

根据本发明的实施例，M个第一数值中的每个第一数值例如可以是L个样本数据相对于对应预置类别的真实概率和预测概率之间的相对熵。可以理解的是，该每个第一数值的具体取值仅作为示例以利于理解本发明，本发明对此不做限定。例如，该每个第一数值还可以是L个样本数据相对于对应预置类别的真实概率与预测概率之间差值的绝对值之和等。只要保证该第一数值可以表征L个样本数据相对于对应预置类别的真实概率与预测概率之间的差别即可。

根据本发明的实施例，操作S220中L个样本数据相对于每个预置类别的第一数值的确定方法具体可参见后续图3描述的方法，在此不再详述。

在操作S230，根据M个第一数值的乘积的最小值，确定N个预置特征中每个预置特征相对于M个预置类别中每个预置类别的权重，以作为确定待分类数据的类别的依据。

根据本公开的实施例，考虑到M个第一数值中每个第一数值是根据L个样本数据相对于对应预置类别的实际分类信息和预测分类信息确定的，且该每个第一数值表征L个样本数据相对于对应预置类别的实际分类信息与预测分类信息的差距。因此，若该第一数值的取值小，则说明预测分类信息贴近于实际分类信息，也就说明分类器的分类结果准确。再者，考虑到预测分类信息与样本数据包括的预置特征相对于每个预置类别的权重有关，因此若以每个预置特征相对于M个预置类别中每个预置类别的权重作为自变量，以第一数值的取值作为因变量，即可确定使得因变量取最小值时自变量的取值。

因此，上述操作S230通过确定M个第一数值的乘积的最小值，即可确定使得该L个样本数据相对于每个预置类别的预测信息相对最为准确的、每个预置特征相对M个预置类别中每个预置类别的权重的取值。则以该相对最为准确的每个预置特征相对于每个预置类别的权重的取值作为后续待分类数据分类的依据，即可实现对待分类数据的准确分类。

根据本发明的实施例，上述操作S230中具体可以采用梯度下降算法来确定M个第一数据的乘积的最小值，并因此确定N个预置特征中每个预置特征相对于M个预置类别中的每个预置类别的权重的取值。

本发明实施例在上述操作S210～操作S230中，由于在确定每个预置特征相对于M个预置类别中每个预置类别的权重时，是根据第一数值的乘积的最小值来确定的，因此，即使某个预置特征为少数类样本数据的特征，其对第一数值的取值的影响也是很大的，并因此可以避免对该少数类样本数据的特征的忽略，避免少数类样本数据的丢失。从而以确定的权重作为待分类数据分类的依据时，可以有效提高对少数类分类数据的分类准确率，并因此解决分类不平衡的问题。

图3示意性示出了根据本发明一实施例的确定样本数据相对于每个预置类别的第一数值的流程图。

根据本发明的实施例，如图3所示，上述操作S220中确定L个样本数据相对于每个预置类别的第一数值的操作流程可以包括操作S321～S323。

在操作S321，根据每个样本数据相对于M个预置类别中每个预置类别的实际分类信息和预测分类信息，确定每个样本数据相对于M个预置类别中每个预置类别的第二数值，得到L*M个第二数值。

根据本发明的实施例，若将L*M个第二数值转换为L行M列的第二数值矩阵，以a来表示第二数值的取值，则a_ij即表示该第二数值矩阵中第i行第j列的第二数值的取值，具体即为第i个样本数据x_i相对于第y个预置类别y_j的第二数值。在实际分类信息为真实概率，且预测分类信息为预测概率的情况下，上述的a_ij可以是能够表征第i样本数据x_i相对于第j个预置类别y_j的真实概率与预测概率之间差距的值。例如，该a_ij可以是第i样本数据x_i相对于第j个预置类别y_j的真实概率与预测概率之间的绝对差值，也可以是第i样本数据x_i相对于第j个预置类别y_j的真实概率与预测概率的比值与标准值1之间的绝对差值，其中，i的取值为1至L的自然数。

根据本发明的实施例，若以表示实际分类信息中样本数据x_i属于预置类别y_j的真实概率，以p(y_j|x_i；θ)表示预测分类信息中样本数据x_i属于预置类别y_j的预测概率，则该第二数值a_ij的取值还可以表示为：

其中，θ表示所述预置特征相对于预置类别的权重。可以理解的是，上述列举的第二数值的取值仅作为示例以利于理解本发明，本发明对此不作限定。

根据本发明的实施例，根据上述描述可知，预测概率p(y_j|x_i；θ)是根据该样本数据x_i包括的预置特征θ相对于预置类别y_j的权重确定的。则在一具体实施例中，该预测概率p(y_j|x_i；θ)例如可以表示为：

其中，表示所述N个预置特征中第k个特征相对于预置类别y_j的权重，所述k的取值为1至N的自然数，g_k(x_i)表示样本数据x_i中第k个特征的值，其中，z为归一化因子：

在操作S322，将L个样本数据相对于相同预置类别的L个第二数值累加，得到M个第三数值。

根据本发明的实施例，在将L*M个第二数值转换为L行M列的第二数值矩阵的情况下，该操作S322具体可以是对该第二数值矩阵中每一列的L个值求和，得到包括M个第三数值的一维向量。其中，第j个第三数值即表示L个样本数据相对于第j个预置类别的第三数值。具体地，在操作S321中的第二数值由上述的公式(1)表示时，操作S322得到的第j个第三数值的取值可以表示为：

具体地，该第j个第三数值的取值即为L个样本数据相对于第j个预置类别的真实概率分布与预测概率分布的相对熵。可以理解的是，上述第三数值的取值表达式仅作为示例以利于理解本发明，该第三数值取值的表达式具体取决于第二数值的取值。

在操作S323，根据M个第三数值，确定M个第一数值。

根据本发明的实施例，考虑到该第三数值能够表征L个样本数据相对于某个预置类别的实际分类信息与预测分类信息的相对熵。可以将该M个第三数值直接作为M个第一数值，以通过操作S230来确定每个预置特征相对于每个预置类别的权重。相应地，操作S230中，M个第一数值的乘积T(θ)可以表示为：

根据本发明的实施例，考虑到操作S230中是计算乘积的最小值，则为了避免某个样本数据相对于某个预置类别的真实概率或预测概率为0导致的乘积为0的情况发生，上述操作S323具体可以是：将所述M个第三数值中的每个第三数值与预设非零数值的和，作为一个第一数值。相应地，操作S230中，M个第一数值中第j个第一数值可以表示为：

其中，b为所述预设非零数值，该数值例如可以为任意的自然数或任意的整数，本发明对此不作限定。

综上可知，本公开实施例中第一数值具体可以是样本数据相对于某个预置类别的预测概率与真实概率之间的相对熵，则若以该第一数值作为评价指标，则通过上述操作S230对评价指标进行累乘确定的权重值是考虑了不平衡数据在分类器学习过程中造成的影响的，因此以该确定的权重值作为分类器的参数，即以该确定的权重值确定的特征对分类器进行学习训练，得到的分类器即对少数类样本敏感，因此分类器的分类准确率能够在一定程度上得到提高。

图4示意性示出了根据本发明另一实施例的数据处理方法的流程图；图5示意性示出了根据本发明另一实施例的数据处理方法中对待分类数据进行分类的操作流程图。

在通过上述L个样本数据确定了每个预置特征相对于每个预置类别的权重后，即可完成对分类器的学习训练过程。因此可根据该分类器对待分类数据进行分类。如图4所示，本发明实施例的数据处理方法除了操作S210～操作S230外，还可以包括操作S440～操作S460。该操作S440～操作S460可以是参考图1中的终端设备111、112、113执行或者服务器150执行，该操作S440～操作S460描述的即为对待分类数据进行分类的操作流程。

在操作S440，获取待分类数据。

其中，在图1所示的应用场景中，该待分类数据例如可以是新用户的用户画像，以根据该新用户的用户画像对用户进行分类。

在操作S450，提取待分类数据的至少一个特征，该至少一个特征属于N个预置特征。

根据本发明的实施例，该操作S450例如可以采用机器学习模型对待分类数据进行特征的提取。即以待分类数据作为机器学习模型的输入，输出得到至少一个特征。其中，该机器学习模型例如可以是卷积神经网络等，本发明对该模型的具体结构及类型不作限定。或者，在上述待分类数据具体为用户图像时，该操作S450还可以是通过图像识别等方法来提取特征。可以理解的是，上述特征提取的方法仅作为示例以利于理解本公开，本公开对此不作限定。

在操作S460，根据至少一个特征中每个特征相对于M个预置类别中每个预置类别的权重，从M个预置类别中确定所述待分类数据的类别。

根据本发明的实施例，该操作S460具体即为将待分类数据的至少一个特征作为分类器的输入，通过分类器来确定待分类数据的类别。

综上可知，本发明实施例的数据处理方法的整体操作流程可如图5所示，首先获取L个样本数据，即L个用户的用户画像等数据，该L个样本数据被标注有标签，该标签即为该L个样本数据相对于预置类别的真实概率。然后以N个预置特征(例如特征1～特征N)中每个预置特征相对于每个预置类别的权重作为变量表示L个样本数据中每个样本数据的预测概率。然后根据该真实概率及预测概率的相对熵的最小值来确定N个预置特征中每个预置特征相对于每个预置类别的权重，以作为分类器的参数。然后对新的待分类数据(例如是用户A的画像)进行特征提取，例如可以提取得到特征1A～特征3A，且该特征1A～特征3A是特征1～特征N中的特征。最后将该特征1A～特征3A输入分类器中，供分类器输出得到该待分类数据的类别。例如，若特征1～特征3相对于类别1的权重值高，且该特征1A～特征3A包括该特征1～特征3的情况下，输出得到的结果为待分类数据属于类别1，即可以将该用户A划分至类别1中。若特征N-1为少数类(类别2)的特征，且该特征1A～特征3A中包括特征N-1，则输出得到的结果可能为待分类数据属于类别2。可以理解的是，上述整体操作流程、其中的预置特征和从待分类数据提取到的特征、以及分类结果仅作为示例以利于理解本发明，本发明对此不作限定。

综上可知，本发明的数据处理方法，由于预置特征相对于预置类别的权重的确定考虑了不平衡数据的影响，且在对待分类数据分类时，是综合考虑了其包括的特征相对于每个预置类别的几率确定的，因此不仅考虑了不平衡数据，还结合了多目标学习和特征选择。因此采用本发明的方法对待分类数据进行分类，可以有效提高分类结果的准确率，能够在一定程度上避免对少数类数据的分类不准确的情况发生。

示例性装置

在介绍了本发明示例性实施方式的方法之后，接下来，参考图6对本发明示例性实施方式的数据处理装置进行说明。

图6示意性示出了根据本发明一实施例的数据处理装置的方框图。

如图6所示，本发明实施例的数据处理装置600包括样本获取模块610、第一数值确定模块620和权重确定模块630。该数据处理装置600可以用于实现根据本发明实施例的数据处理方法。

样本获取模块610用于获取样本数据集，该样本数据集包括L个样本数据，每个样本数据具有对应的实际分类信息(操作S210)。其中，L个样本数据具有N个预置特征，每个样本数据包括N个预置特征中的至少一个预置特征，L、N均为大于1的自然数。

第一数值确定模块620用于确定所述L个样本数据相对于M个预置类别中每个预置类别的第一数值，得到M个第一数值(操作S220)。其中，M为大于1的自然数。

根据本发明的实施例，M个第一数值中的每个第一数值根据L个样本数据相对于对应预置类别的实际分类信息和预测分类信息确定，每个样本数据的预测分类信息与每个样本数据包括的至少一个预置特征的权重相关。

权重确定模块630用于根据M个第一数值的乘积的最小值，确定N个预置特征中每个预置特征相对于M个多个预置类别中每个预置类别的权重，以作为确定待分类数据的类别的依据(操作S230)。

根据本发明的实施例，上述权重确定模块630具体用于：采用梯度下降算法，确定在M个第一数值的乘积取最小值时，N个预置特征中每个预置特征相对于M个预置类别中的每个预置类别的权重的取值。

根据本发明的实施例，如图6所示，第一数值确定模块620例如可以包括第一确定子模块621、累加子模块622和第二确定子模块623。第一确定子模块621用于根据每个样本数据相对于M个预置类别中每个预置类别的实际分类信息和预测分类信息，确定每个样本数据相对于M个预置类别中每个预置类别的第二数值，得到L*M个第二数值(操作S321)。累加子模块622用于将L个样本数据相对于相同预置类别的L个第二数值累加，得到M个第三数值(操作S322)。第二确定子模块623用于根据M个第三数值，确定M个第一数值(操作S323)。

根据本发明的实施例，上述第二确定子模块623具体可以用于将M个第三数值中的每个第三数值与预设非零数值的和，作为一个第一数值。

根据本发明的实施例，如图6所示，上述数据处理装置600还可以包括数据获取模块640、特征提取模块650和类别确定模块660。数据获取模块640用于获取待分类数据(操作S440)。特征提取模块650用于提取待分类数据的至少一个特征，该至少一个特征属于N个预置特征(操作S450)。类别确定模块660用于根据至少一个特征中每个特征相对于M个预置类别中每个预置类别的权重，从M个预置类别中确定待分类数据的类别(操作S460)。

根据本发明的实施例，上述M个第一数值的乘积表示为：

根据本发明的实施例，上述预测分类信息中样本数据x属于类别y的概率值表示为：

其中，表示所述N个预置特征中第k个特征相对于预置类别y的权重，所述k的取值为1至N的自然数，g_k(x_i)表示样本数据x中所述第k个特征的值，其中，z为归一化因子：

示例性介质

在介绍了本发明示例性实施方式的方法之后，接下来，参考图7对本发明示例性实施方式的适用于执行数据处理方法的计算机可读存储介质进行介绍。

根据本发明的实施例，还提供了一种计算机可读存储介质，其上存储有可执行指令，所述指令在被处理器执行时使处理器执行根据本发明实施例的数据处理方法。

在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算设备上运行时，所述程序代码用于使所述计算设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的用于执行数据处理方法中的操作，例如，所述计算设备可以执行如图2中所示的操作S210：获取样本数据集，该样本数据集包括L个样本数据，每个样本数据具有对应的实际分类信息；操作S220：确定所述L个样本数据相对于M个预置类别中每个预置类别的第一数值，得到M个第一数值；操作S230：根据M个第一数值的乘积的最小值，确定N个预置特征中每个预置特征相对于M个预置类别中每个预置类别的权重，以作为确定待分类数据的类别的依据。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

如图7所示，描述了根据本发明的实施方式的用于执行数据处理方法的程序产品700，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在计算设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆，RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言——诸如Java，C++等，还包括常规的过程式程序设计语言——诸如“C”，语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)一连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

示例性计算设备

在介绍了本发明示例性实施方式的方法、介质和装置之后，接下来，参考图8对本发明示例性实施方式的适用于执行数据处理方法的计算机设备进行说明。

本发明实施例还提供了一种计算设备。所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本发明的计算设备可以至少包括至少一个处理单元、以及至少一个存储单元。其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的数据处理方法中的操作。例如，所述处理单元可以执行如图2中所示的操作S210：获取样本数据集，该样本数据集包括L个样本数据，每个样本数据具有对应的实际分类信息；操作S220：确定所述L个样本数据相对于M个预置类别中每个预置类别的第一数值，得到M个第一数值；操作S230：根据M个第一数值的乘积的最小值，确定N个预置特征中每个预置特征相对于M个预置类别中每个预置类别的权重，以作为确定待分类数据的类别的依据。

下面参照图8来描述根据本发明的这种实施方式的用于执行数据处理方法的计算设备800。如图8所示的计算设备800仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，计算设备800以通用计算设备的形式表现。计算设备800的组件可以包括但不限于：上述至少一个处理单元801、上述至少一个存储单元802、连接不同系统组件(包括存储单元802和处理单元801)的总线803。

总线803可以包括数据总线、地址总线和控制总线。

存储单元802可以包括易失性存储器，例如随机存取存储器(RAM)8021和/或高速缓存存储器8022，还可以进一步包括只读存储器(ROM)8023。

存储单元802还可以包括具有一组(至少一个)程序模块8024的程序/实用工具8025，这样的程序模块8024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备800也可以与一个或多个外部设备804(例如键盘、指向设备、蓝牙设备等)通信，这种通信可以通过输入/输出(I/O)接口805进行。并且，计算设备800还可以通过网络适配器806与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器806通过总线803与计算设备800的其它模块通信。应当明白，尽管图中未示出，可以结合计算设备800使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了装置的若干单元/模块或子单元/子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种数据处理方法，包括：

获取样本数据集，所述样本数据集包括L个样本数据，每个样本数据具有对应的实际分类信息；

确定所述L个样本数据相对于M个预置类别中每个预置类别的第一数值，得到M个第一数值；以及

根据所述M个第一数值的乘积的最小值，确定N个预置特征中每个预置特征相对于所述M个预置类别中每个预置类别的权重，以作为确定待分类数据的类别的依据，

其中，所述L个样本数据具有所述N个预置特征，所述每个样本数据包括所述N个预置特征中的至少一个预置特征，所述L、M、N均为大于1的自然数。

2.根据权利要求1所述的方法，其中，所述M个第一数值中的每个第一数值根据所述L个样本数据相对于对应预置类别的实际分类信息和预测分类信息确定，所述每个样本数据的预测分类信息与所述每个样本数据包括的至少一个预置特征相对于每个预置类别的权重相关。

3.根据权利要求1所述的方法，还包括：

获取待分类数据；

提取所述待分类数据的至少一个特征，所述至少一个特征属于所述N个预置特征；以及

根据所述至少一个特征中每个特征相对于所述M个预置类别中每个预置类别的权重，从所述M个预置类别中确定所述待分类数据的类别。

4.根据权利要求1所述的方法，其中，根据所述M个第一数值的乘积的最小值，确定N个预置特征中每个预置特征相对于所述M个预置类别中每个预置类别的权重包括：

采用梯度下降算法，确定在所述M个第一数值的乘积取最小值时，所述N个预置特征中每个预置特征相对于所述M个预置类别中的每个预置类别的权重的取值。

5.根据权利要求2所述的方法，其中，确定所述L个样本数据相对于M个预置类别中每个预置类别的第一数值，得到M个第一数值包括：

根据所述每个样本数据相对于所述M个预置类别中每个预置类别的实际分类信息和预测分类信息，确定每个样本数据相对于所述M个预置类别中每个预置类别的第二数值，得到L*M个第二数值；

将所述L个样本数据相对于相同预置类别的L个第二数值累加，得到M个第三数值；以及

根据所述M个第三数值，确定所述M个第一数值。

6.根据权利要求5所述的方法，其中，根据所述M个第三数值，确定所述M个第一数值包括：

将所述M个第三数值中的每个第三数值与预设非零数值的和，作为一个第一数值。

7.根据权利要求2所述的方法，其中，所述M个第一数值的乘积表示为：

8.一种数据处理装置，包括：

样本获取模块，用于获取样本数据集，所述样本数据集包括L个样本数据，每个样本数据具有对应的实际分类信息；

第一数值确定模块，用于确定所述L个样本数据相对于M个预置类别中每个预置类别的第一数值，得到M个第一数值；以及

权重确定模块，用于根据所述M个第一数值的乘积的最小值，确定N个预置特征中每个预置特征相对于所述M个预置类别中每个预置类别的权重，以作为确定待分类数据的类别的依据，

9.一种计算机可读存储介质，其上存储有可执行指令，所述指令在被处理器执行时实现根据权利要求1～7中任一项所述的方法。

10.一种计算设备，包括：

一个或多个处理器，存储有可执行指令；以及

一个或多个处理器，执行所述可执行指令，以实现根据权利要求1～7中任一项所述的方法。