CN113591892A

CN113591892A - 一种训练数据的处理方法及装置

Info

Publication number: CN113591892A
Application number: CN202110046161.4A
Authority: CN
Inventors: 张珍茹; 张倩汶; 曹云波; 张敏灵
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-01-14
Filing date: 2021-01-14
Publication date: 2021-11-02

Abstract

本申请涉及计算机技术领域，尤其涉及一种训练数据的处理方法及装置，获取原始训练数据集，其中，所述原始训练数据集中包含的各训练样本，分别对应有至少两个候选标记；分别确定所述各训练样本对应的各候选标记的标记置信度，并根据所述各候选标记的标记置信度，分别对所述各训练样本对应的各候选标记进行过滤；对过滤后的各候选标记对应的各训练样本进行采样以使不同类别的候选标记所对应的训练样本数量满足预设数量差值条件，获得目标训练数据集；利用所述目标训练数据集进行模型训练，提高了训练数据的可靠性和平衡性，进而提高了模型训练的准确性。

Description

一种训练数据的处理方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种训练数据的处理方法及装置。

背景技术

偏多标记学习的训练数据中一个训练样本对应多个候选标记，其中有多个候选标记为真，其他均为伪标记，对于偏多标记学习的训练数据，通常存在训练数据中类别不平衡和噪声的问题，训练数据中类别不平衡并存在噪声，会导致最终训练的模型的准确性降低，因此如何解决训练数据中类别不平衡和噪声问题，对于模型训练是非常重要的。

发明内容

本申请实施例提供一种训练数据的处理方法及装置，以提高训练数据的可靠性和平衡性，进而提高模型训练的准确性。

本申请实施例提供的具体技术方案如下：

本申请一个实施例中提供了一种训练数据的处理方法，包括：

获取原始训练数据集，其中，所述原始训练数据集中包含的各训练样本，分别对应有至少两个候选标记；

分别确定所述各训练样本对应的各候选标记的标记置信度，并根据所述各候选标记的标记置信度，分别对所述各训练样本对应的各候选标记进行过滤；

对过滤后的各候选标记对应的各训练样本进行采样以使不同类别的候选标记所对应的训练样本数量满足预设数量差值条件，获得目标训练数据集；

利用所述目标训练数据集进行模型训练。

本申请另一个实施例中提供了一种训练数据的处理装置，包括：

获取模块，用于获取原始训练数据集，其中，所述原始训练数据集中包含的各训练样本，分别对应有至少两个候选标记；

消歧模块，用于分别确定所述各训练样本对应的各候选标记的标记置信度，并根据所述各候选标记的标记置信度，分别对所述各训练样本对应的各候选标记进行过滤；

采样模块，用于对过滤后的各候选标记对应的各训练样本进行采样以使不同类别的候选标记所对应的训练样本数量满足预设数量差值条件，获得目标训练数据集；

训练模块，用于利用所述目标训练数据集进行模型训练。

本申请另一个实施例中提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一种训练数据的处理方法的步骤。

本申请另一个实施例中提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种训练数据的处理方法的步骤。

本申请实施例中，获取原始训练数据集，其中，所述原始训练数据集中包含的各训练样本，分别对应有至少两个候选标记；分别确定所述各训练样本对应的各候选标记的标记置信度，并根据所述各候选标记的标记置信度，分别对所述各训练样本对应的各候选标记进行过滤，以及对过滤后的各候选标记对应的各训练样本进行采样，以使不同类别候选标记所对应的训练样本数量满足预设数量差值条件，获得目标训练数据集，进而可以利用所述目标训练数据集进行模型训练，这样，通过标记置信度对候选标记进行过滤，降低训练数据中的标记噪声，减少标记噪声的影响，并且通过采样使得各类别的训练样本的数量相当，提高了训练数据的可靠性和平衡性，进而可以提高模型训练的准确性，有效提高模型性能。

附图说明

图1为本申请实施例中训练数据的处理方法的应用架构示意图；

图2为本申请实施例中训练数据的处理方法流程图；

图3为本申请实施例中训练数据的处理方法的整体流程图；

图4为本申请实施例中训练数据的处理方法的应用流程图；

图5为本申请实施例中训练数据的处理装置结构示意图；

图6为本申请实施例中电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，并不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为便于对本申请实施例的理解，下面先对几个概念进行简单介绍：

不平衡数据：数据中不同类别的样本比例相差悬殊。

多标记学习：训练数据中一个训练样本对应多个真实标记。

偏标记学习：弱监督学习的一种，通过学习大量训练样本来构建预测模型，每个训练样本由两部分组成，分别是描述对象的特征向量和其对应的多个候选标记，其中仅有一个候选标记能真实反映对象，其他候选标记均为伪标记，偏多标记学习与监督学习的区别在于，偏标记学习的训练数据标记信息不准确，预测模型需在含噪声情境下学习得到。

偏多标记学习：训练数据中一个训练样本对应多个候选标记，其中有多个候选标记为真，其他均为伪标记，与偏标记学习的区别在于真实标记的数量不同。

K最近邻(k-NearestNeighbor，kNN)算法：为一种有监督机器学习方法，每个训练样本都可以用它最接近的k个邻居来代表，其基本思路是：若给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最近邻的k个实例，这k个实例的多数属于某个类，就把该实例归为这个类。

小类和大类：本申请实施例中小类主要表示训练样本数量较少的类别，大类即表示训练样本数量较多的类别，类别即为训练样本的候选标记，并且本申请实施例中，可以确定每个类别的不平衡率，根据不平衡率确定出大类和小类。

中位数：若原始数据个数为奇数时，将数据按照从小到大的顺序排列，数据个数加一除以二为中位数的位置，即最中间的数字；若原始数据个数为偶数时，将数据按照从小到大的顺序排列，中位数为中间两个数据的平均数。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。例如，本申请实施例中主要是针对机器学习中训练数据的预处理，对训练数据进行处理后，进而利用处理后的训练数据训练模型，以提高模型的准确性。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案主要涉及人工智能的机器学习技术，具体通过如下实施例进行说明：

偏多标记学习的训练数据，由于真实标记训练数据的获取，需要大量的人力标注作为支持，效率和成本都较大，因此获取到的训练数据，通常会存在类别不平衡和噪声的问题，进而会导致最终训练的模型的准确性降低，因此如何解决训练数据中类别不平衡和噪声问题，对于模型训练是非常重要的，相关技术中的偏多标记学习方法，并没有针对训练数据的不平衡问题作出优化。

因此，本申请实施例中主要针对机器学习场景下偏多标记学习的训练数据中，不同类别训练样本的数量相差较大，并且标记空间含噪声的问题，从数据层面改善偏多标记学习模型的性能，数据层面的方法基本原理是通过对原始训练数据集进行预处理以减弱甚至消除原始训练数据集的不平衡性，该过程独立于之后的训练过程，具体地，获取原始训练数据集，分别对各训练样本对应的各候选标记进行过滤，并对过滤后的各候选标记对应的各训练样本进行采样，以使不同类别的候选标记所对应的训练样本数量满足预设数量差值条件，获得目标训练数据集，进而可以利用目标训练数据集进行模型训练，这样，通过标记置信度对候选标记进行过滤，降低训练数据中标记的噪声，并且通过采样使得各类别的训练样本的数量相当，解决了训练数据的不平衡问题，提高了训练数据的准确性和可靠性，进而可以提高模型训练的准确性，有效提高模型的性能。

参阅图1所示，为本申请实施例中训练数据的处理方法的应用架构示意图，包括终端100、服务器200。

终端100可以是智能手机、平板电脑、便携式个人计算机、台式计算机、智能电视、智能机器人、车载电子设备等任何智能设备，终端100上可以安装有各种应用程序(Application，APP)，例如本申请实施例中，在各种应用场景，可以基于训练的模型进行搜索、推荐等业务应用。

服务器200能够为终端100提供各种网络服务，对于不同的应用程序，服务器200可以认为是相应的后台服务器，其中，服务器200可以是一台服务器、若干台服务器组成的服务器集群或云计算中心。

终端100与服务器200之间可以通过互联网相连，实现相互之间的通信。可选地，上述的互联网使用标准通信技术和/或协议。互联网通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-upLanguage，HTML)、可扩展标记语言(Extensible Markup Language，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure SocketLayer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(VirtualPrivate Network，VPN)、网际协议安全(Internet Protocol Security，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

值得说明的是，本申请各实施例中训练数据的处理方法可以由服务器200侧执行，当然也可以由终端100执行，本申请实施例中并不进行限制，以由服务器200执行为例，服务器200获取原始训练数据集，对各训练样本的候选标记进行过滤消歧，降低标记噪声，并且对过滤后的各训练样本，进行采样，以使得各个类别的训练样本数量相当，获得目标训练数据集，进而可以利用目标训练数据集进行模型训练。

需要说明的是，本申请实施例中的应用架构图是为了更加清楚地说明本申请实施例中的技术方案，并不构成对本申请实施例提供的技术方案的限制，可以应用于任何偏多标记应用场景，例如图像、音频、文本等，当然也可以应用于其它模型的训练数据预处理场景，并不进行限制，对于其它的应用架构和业务应用，本申请实施例提供的技术方案对于类似的问题，同样适用。

本申请各个实施例中，以训练数据的处理方法应用于图1所示的应用架构为例进行示意性说明。

基于上述实施例，参阅图2所示，为本申请实施例中训练数据的处理方法流程图，以应用于服务器为例进行说明，具体该方法包括：

步骤200：获取原始训练数据集，其中，原始训练数据集中包含的各训练样本，分别对应有至少两个候选标记。

本申请实施例中，主要针对机器学习场景下训练数据中不同类别的训练样本数量相差较大，并且标记空间含噪声的问题，原始训练数据集为偏多标记学习的训练样本，即原始训练数据集中各训练样本分别对应有多个候选标记，其中可能有多个标记为真，多个标记为伪标记，当然本申请实施例中也并不仅限于偏多标记学习的训练样本。

例如，原始训练数据集为

其中，

为训练样本，可以采用d维特征向量表示，

为训练样本x_i的候选标记集合，

在候选标记集合中有真实标记，也可能存在伪标记，真实标记集合

隐藏在候选标记集合中，剩余标记为伪标记即噪声标记，则模型

将从

中学习得到。

步骤210：分别确定各训练样本对应的各候选标记的标记置信度，并根据各候选标记的标记置信度，分别对各训练样本对应的各候选标记进行过滤。

由于原始训练数据集中各训练样本的候选标记，可能存在标记噪声，为了提高准确性，可以先对候选标记进行消歧，即过滤处理。

具体执行步骤210时，本申请实施例中提供了一种可能的实施方式，包括：

S1、分别确定各训练样本对应的各候选标记的标记置信度。

即分别针对各训练样本，对其各候选标记，分别确定一个标记置信度，例如可以采用kNN重构方法来获得标记置信度。

为便于说明，以针对各训练样本中任意一个训练样本为例进行说明，具体地，针对各训练样本中任意一个训练样本时，通过执行以下步骤获得任意一个训练样本对应的各候选标记的标记置信度：

S1.1、确定与任意一个训练样本距离最近的k个训练样本，作为任意一个训练样本的k近邻集合，其中k为大于等于1的正整数。

例如，可以根据各训练样本的特征向量，确定与该任意一个训练样本距离较近的k近邻训练样本，距离越近说明两个训练样本之间的相似度更高，计算距离时可以使用欧氏距离或曼哈顿距离等，本申请实施例中并不进行限制。

这样，对于每个训练样本

在原始训练数据集

中找到x_j的k近邻，并且为了便于后续计算，可以将k近邻集合的数据下标记为

S1.2、根据任意一个训练样本的k近邻集合，确定任意一个训练样本的权重向量。

其中，权重向量大小为1*m，m为原始训练数据集中包含的各训练样本的数量，权重向量中每个元素取值分别表征原始训练数据集中各训练样本对任意一个训练样本的重构影响程度。

本申请实施例中，主要是基于训练样本与其近邻之间的关系而重构该训练样本，对于原始训练数据集中所有训练样本，可以获得一个m*m的权重矩阵W＝[w₁,…,w_m]^T，其中，对于任意一个训练样本

其权重向量为：w_j＝[w_1,j,…,w_m.j]^T(1≤j≤m)，为一个1*m大小的向量。

对于确定该任意一个训练样本的权重向量，本申请实施例中提供了一种可能的实施方式，具体包括：

S1.2.1、确定任意一个训练样本的特征向量，以及权重向量中各元素取值分别与对应训练样本的乘积的加和。

S1.2.2根据任意一个训练样本的特征向量与加和的差值，建立非负线性最小二乘的优化目标函数，并根据k近邻集合对应权重向量中的元素取值大于等于0，非k近邻集合的其它训练样本对应的权重向量中元素取值等于0，建立优化目标函数的约束条件。

例如，对于任意一个训练样本

其特征向量即为x_j，权重向量为w_j＝[w_1,j,…,w_m.j]^T(1≤j≤m)，权重向量中各元素取值为w_i,j，表示训练样本i对于该训练样本j的重构影响程度，其k近邻集合中各训练样本的数据下标为

则优化目标函数为：

约束条件为w_i,j≥0(i∈N(x_j))，并

S1.2.3、根据约束条件，确定优化目标函数的最优解，并将最优解作为任意一个训练样本的权重向量。

根据建立的优化目标函数，其优化目标是最小化x_j的k个近邻对x_j的重构误差，w_i,j值越大则说明近邻训练样本x_i对x_j的重构影响越大，该优化问题是一个非负线性最小二乘问题，通过计算最优解可以最终获得x_j与其近邻的权重向量w_j，最优解

可以使用任何二次规划求解方法获得，本申请实施例中并不进行限制。

S1.3、根据任意一个训练样本的权重向量，分别确定任意一个训练样本对应的各候选标记的标记置信度。

具体包括：根据k近邻集合中各训练样本对应权重向量中的元素取值，以及任意一个训练样本对应的各候选标记分别在k近邻集合中各训练样本中的标记置信度，分别确定任意一个训练样本对应的各候选标记的标记置信度。

其中，每个训练样本对应的各候选标记的标记置信度的初始值为1。

例如，对每个样本

其候选标记集合Y_j可采用q维二值向量表示形式，即S_j＝[S_1,j,...,S_q.j]^T(1≤j≤m)，则进行初始化，获得其初始值为：

也就是说，原始训练数据集中所有训练样本的候选标记的集合，即包含的候选标记共有q个，因此可以采用q维向量表示，对于一个训练样本来说，其不一定对应有q个候选标记，可能只有其中一部分，则可以将对应有的候选标记的标记置信度的初始值记为1，例如，候选标记共有5个，分别为a1,a2,a3,a4,a5，为便于表示和计算，可以设置其下标或向量中位置排列顺序即为a1,a2,a3,a4,a5，若某个训练样本仅对应有候选标记a1和a2，则该某个训练样本的候选标记集合的标记置信度初始值可以表示为s＝[1,1,0,0,0]。

进而由kNN重构的权重向量可以分别获得该任意一个训练样本的各候选标记的标记置信度：

即可以用k近邻训练样本的候选标记的标记置信度，以及k近邻对于当前训练样本的权重，来表示当前训练样本的候选标记的标记置信度。

S2、根据各候选标记的标记置信度，分别对各训练样本对应的各候选标记进行过滤。

具体包括：S2.1、分别根据各训练样本的权重向量中各元素取值的平均值，获得各训练样本所对应的置信度阈值。

本申请实施例中，针对每个训练样本的候选标记分别进行消歧处理，对每个训练样本均设置了一个置信度阈值μ_j，具体为：

S2.2、分别针对各训练样本，过滤掉标记置信度小于对应的置信度阈值的候选标记。

即本申请实施例中，通过k近邻重构获得候选标记的标记置信度后，可以将低于置信度阈值的候选标记认为是标记噪声，可以进行丢弃，可以提高训练样本的可靠性，但是若出现某个训练样本对应的各候选标记的标记置信度均小于对应的置信度阈值的情况，这时本申请实施例中还提供了一种可能的实施方式，若确定各训练样本对应的各候选标记的标记置信度均小于对应的置信度阈值，则保留标记置信度最大的候选标记，并过滤掉除标记置信度最大的其它候选标记。

则对原始训练数据集中各训练样本的各候选标记进行消歧和过滤后，获得的各训练样本的过滤后的候选标记，可以表示为：

另外，需要说明的是，本申请实施例中采用kNN方法实现了对各候选标记的消歧处理，但是本申请实施例中并不仅限于该方法，也可以使用其它方式，例如标记传播方法等。

步骤220：对过滤后的各候选标记对应的各训练样本进行采样，以使不同类别的候选标记所对应的训练样本数量满足预设数量差值条件，获得目标训练数据集。

本申请实施例中，对各候选标记进行消歧即过滤后，降低了训练样本的标记噪声，可以认为过滤后的候选标记均为真实标记，在此基础上进而可以使用采样方法，来解决原始训练数据集中类别不平衡问题，目的是为了使得不同类别的候选标记所对应的训练样本数量大致相当。

具体执行步骤220时，包括：

A1、根据过滤后的各候选标记所对应的训练样本的数量，分别确定过滤后的各候选标记的类别不平衡率。

每个候选标记即分别为一个类别，为解决类别不平衡问题，需要先确定出小类和大类，小类即类别不平衡率大于不平衡率阈值的类别，大类即类别不平衡率不大于平衡率阈值的类别。

则分别确定过滤后的各候选标记所对应的训练样本的数量，并分别针对过滤后的各个候选标记，可以采用训练样本的数量的最大值与当前候选标记所对应的训练样本的数量的比值，来确定类别不平衡率，例如：

其中，若π为真，[[π]]值为1，否则为0，这样可以获得过滤后的各候选标记的类别不平衡率，可知类别不平衡率的值越大，说明该类的数量越少，不平衡现象更明显。

A2、根据确定的各类别不平衡率，确定不平衡率阈值，并将类别不平衡率大于不平衡率阈值的候选标记的类别作为小类。

其中，确定不平衡率阈值的方式，本申请实施例中并不进行限制，例如本申请实施例中提供了两种可能的实施方式：

1)根据确定的类别不平衡率对过滤后的各候选标记进行排序，选择中位数作为不平衡率阈值。

例如将q个类的不平衡率排序，选择中位数作为阈值，其类别记为γ，大于中位数的类别不平衡现象更明显，因此将大于不平衡率阈值的各候选标记的类别记作小类λ并找出含有此类的训练样本。

2)将确定的类别不平衡率的平均值，作为不平衡率阈值。

这样，通过类别不平衡率的筛选，可以确定出训练样本不足的小类，确定出的小类可能也有多个，本申请实施例中，针对每个小类都进行采样以丰富训练样本数量。

A3、分别确定各小类的待采样数量。

具体地：分别确定不平衡率阈值对应类别的训练样本数量与各小类对应类别的训练样本数量的差值，获得各小类的待采样数量。

例如，对每个小类λ，计算待采样数量公式为：

A4、根据预设采样方法，分别针对各小类，采样获得相应待采样数量的训练样本，并将采样获得的训练样本加入到过滤后的原始训练数据集中，获得目标训练数据集。

其中，预设采样方法，可以采用过采样方法，过采样方法基本思想是对训练样本数量小于大类的类别执行操作，复制小类的训练样本以使得与大类的训练样本数量相当。当然，也可以采用欠采样方法，欠采样与过采样相反，只对训练样本数量大于小类的类别执行操作，减少大类的训练样本数量直至与小类规模相当，可以根据实际情况和需求而采用不同的采样方法，本申请实施例中并不进行限制。

本申请实施例中，主要是采用过采样方法，针对偏多标记学习的训练数据的特点，给出了具体的采样实施方式，进而可以分别针对各小类，进行采样以解决类别不平衡问题。

步骤230：利用目标训练数据集进行模型训练。

这样，对原始训练数据集进行消歧和采样后，可以获得更加准确可靠的目标训练数据集，进而就可以基于目标训练数据集进行模型训练，并且还可以基于训练后的模型预测未知样本的候选标记，也可以基于不同应用场景，将训练后的模型应用于不同业务，具体本申请实施例中并不进行限制。

本申请实施例中，获取原始训练数据集，原始训练数据集中包含的各训练样本分别对应有至少两个候选标记，并分别确定各训练样本对应的各候选标记的标记置信度，并根据各候选标记的标记置信度，分别对各训练样本对应的各候选标记进行过滤，以及对过滤后的各候选标记对应的各训练样本进行采样，以使不同类别的候选标记所对应的训练样本数量满足预设数量差值条件，获得目标训练数据集，进而可以利用目标训练数据集进行模型训练，这样，对各训练样本的各候选标记进行过滤即消歧，减少了标记噪声的影响，并且对过滤后的各训练样本进行采样，可以降低训练数据的不平衡现象，解决训练数据中不同类别样本数相差较大，并且标记空间包含噪声的问题，提高了训练数据的可靠性和准确性，进而可以使用目标训练数据集对模型进行训练，能够有效提高后续模型的性能。

下面对上述步骤220中的采样方法进行具体说明，即针对根据预设采样方法，分别针对所述各小类，采样获得相应待采样数量的训练样本，本申请实施例中提供了以下几种不同的实施方式：

第一种实施方式：随机过采样。

具体地：分别针对各小类，从对应有小类的候选标记的训练样本中，随机复制相应待采样数量的训练样本。

例如，针对每个小类λ，从含有小类的训练样本中随机复制diff(λ)个训练样本加入到过滤后的原始训练数据集中，即

即随机过采样是从单个候选标记出发，随机复制一定数量包含小类的训练样本。

第二种实施方式：按权重过采样。

本申请实施例中，在多标记训练数据中，一个训练样本可能同时存在小类候选标记和大类候选标记，此时直接复制该训练样本不一定能缓解小类的不平衡程度，因为大类也会随之增多，因此为了更加准确，可以确定训练样本的各候选标记的共生程度，进而将共生程度较高的训练样本进行拆解，可以将复杂的含小类训练样本分解成两个更简单的样本，解决多标记存在的标记共生问题，并且赋予训练样本不同权重，可以优先复制权重高的训练样本。

具体地：1)分别确定过滤后的各训练样本对应的各候选标记的共生程度。

其中，共生程度表征各候选标记的关联程度。

例如，以训练样本(x_i,Y_i)为例，其对应的各候选标记的共生程度为：

即可以根据各候选标记的类别不平衡率和标记置信度，分别确定各过滤后的各训练样本标记的共生程度，当然也可以采用其他指标来度量候选标记的共生程度，本申请实施例中并不进行限制，每个训练样本均对应计算出一个衡量候选标记的共生程度的值。

2)根据过滤后的各训练样本对应的共生程度的平均值，确定共生程度阈值。

例如，共生程度阈值为：

3)分别将共生程度高于共生程度阈值的训练样本，按照对应的各候选标记，拆解为一个只包含小类候选标记的训练样本和一个只包含大类候选标记的训练样本，其中，大类表示类别不平衡率不大于不平衡率阈值的候选标记的类别。

本申请实施例中，对过滤后的各训练样本

计算SCUMBLEins(x_i)，若高于共生程度阈值SCUMBLE，则说明该训练样本的各候选标记的共生程度较高，需要拆解成两个训练样本加入原始训练数据集中，拆解为的两个训练样本，其特征向量一样，但一个只包含小类候选标记，另一个只包含大类候选标记。

进一步地，若一个训练样本仅包含小类候选标记或大类候选标记，则就无需进行拆解了。

4)分别针对各小类，分别确定包含各小类的训练样本的采样权重，并按照确定的采样权重从高到低，复制相应待采样数量的训练样本。

例如，分别针对各小类，对每个含有小类λ的训练样本赋予不同采样权重，优先复制diff(λ)个采样权重高的训练样本加入过滤后的原始训练数据集中，即：

其中，采样权重计算方式为：

即针对各个小类进行采样时，优先采样置信度较高，并且共生程度较低的训练样本，以提高训练样本的准确性。

第三种实施方式：合成过采样。

本申请实施例中，合成过采样的基本原理是：随机选择含小类的训练样本生成新的训练样本，新的训练样本的特征向量利用其近邻之一进行插值生成，候选标记则用kNN重构生成。

具体地：分别针对各小类，采样获得相应待采样数量的训练样本，其中，为便于说明，以其中任意一个小类为了进行说明，针对各小类中任意一个小类时，通过执行以下步骤采样获得任意一个小类相应待采样数量的训练样本：

a)从对应有任意一个小类的候选标记的各训练样本中，随机选择相应待采样数量的训练样本，作为基准训练样本。

b)分别针对选择的各基准训练样本，在对应有任意一个小类的候选标记的各训练样本中，确定出与各基准训练样本距离最近的k个训练样本，并从确定的k个训练样本中随机选择出一个训练样本，以及根据各基准训练样本和对应随机选择出的训练样本，分别生成对应的新的训练样本，其中k为大于等于1的正整数。

例如，对每个小类λ，含此类的训练样本集合记作

从中随机选择diff(λ)个训练样本(x_i,Y_i)作为基准训练样本，进而可以针对每个基准训练样本，对应合成一个新的训练样本，这样，针对每个小类都对应采样了相应待采样数量的训练样本。

其中，生成新的训练样本时，包括两部分，一部分为生成新的训练样本的特征向量，另一部分为生成新的训练样本的候选标记。

针对第一部分生成特征向量，例如，在

中找出x_i的k近邻并随机选择一个，记为(x_j,Y_j)，并在x_i和x_j的连线上选取一个点

合成新的训练样本

新的训练样本的生成方式为：

其中，ω＝[ω₁,...,ω_d]^T是随机生成的d维向量，其每一维度ω_a是[0,1]之间的实数。

c)分别根据对应确定出的与各基准训练样本距离最近的k个训练样本，生成各新的训练样本的候选标记。

生成新的训练样本的特征向量后，可以通过k近邻重构获得该新的训练样本的候选标记，具体地：

1)根据对应确定出的与各基准训练样本距离最近的k个训练样本，分别确定各基准训练样本的权重向量。

例如，在

中找出x_i的k近邻，并将数据下标记为

用k近邻重构x_i，最小化误差得到权重向量w_i＝[w_1,i,...,w_m.i]^T，具体地：

优化目标函数为：

约束条件为：w_j,i≥0(j∈N(x_i))，

通过二次规划方法求解该优化目标函数的最优解，即获得权重向量。

2)根据各基准训练样本的权重向量，以及对应确定出的距离最近的k个训练样本对应的各候选标记，分别确定各新的训练样本对应的各候选标记的标记置信度。

例如，针对某个新的训练样本

其各候选标记的标记置信度为：

即对于一个合成的新的训练样本，其候选标记并不是已知的，可以在包含的所有候选标记中，根据k近邻训练样本的各候选标记，来合成该新的训练样本的候选标记。

3)分别确定各新的训练样本所对应的置信度阈值。

例如，每个新的训练样本分别对应一个置信度阈值，新的训练样本

的置信度阈值为：

4)分别针对各新的训练样本，将标记置信度大于等于置信度阈值的候选标记，以及任意一个小类的候选标记，作为对应新的训练样本的各候选标记。

即新的训练样本的各候选标记中至少包括小类候选标记，并且还可以包括置信度较大的候选标记。

例如，该新的训练样本的候选标记集合可以表示为：

进而将各个新的训练样本加入到过滤后的原始训练数据集中，即获得目标训练数据集为：

这样，本申请实施例中可以采用过采样方法，对过滤后的原始训练数据集进行采样，使得不同类别的训练样本数量相当，提高训练数据集的准确性和可靠性。

基于上述实施例，下面采用具体应用场景进行说明，以原始训练数据集为偏多标记学习的训练样本为例，参阅图3所示，为本申请实施例中训练数据的处理方法的整体流程图，具体包括：

步骤300：获取原始训练数据集。

其中，原始训练数据集中包含的各训练样本分别对应有至少两个候选标记，由于人工标记成本较大，较为困难，因此通常获取到的原始训练数据集中类别不平衡并且会存在标记噪声，需要对原始训练数据集进行预处理。

步骤301：对原始训练数据集的各训练样本进行候选标记消歧。

具体地，分别确定各训练样本对应的各候选标记的标记置信度，并根据各候选标记的标记置信度，分别对各训练样本对应的各候选标记进行过滤。

这样，过滤掉部分标记置信度较低的候选标记，可以降低标记噪声的影响。

步骤302：采样扩充过滤后的原始训练数据集。

具体地，可以采用过采样或欠采样方法进行采样，从而使得不同类别的候选标记所对应的训练样本数量满足预设数量差值条件，即不同类别训练样本数量大致相同。

其中，以采用过采样方法为例，可以使用以下任意一种或组合的方法进行采样：随机过采样、按权重过采样、合成过采样。

步骤303：获得目标训练数据集。

步骤304：利用目标训练数据集进行模型训练。

例如，可以使用偏多标记学习方法，利用目标训练数据集进行模型训练，进而可以利用训练后的模型预测未知样本的候选标记，也可以应用于其它具有应用场景，本申请实施例中并不进行限制。

本申请实施例中，主要针对机器学习场景下训练数据中不同类别的训练样本数量相差较大，并且标记空间含噪声的问题，从数据层面入手提高偏多标记学习模型的性能，现有的解决类别不平衡的方法均是假设训练样本的标记信息已知，但是在偏多标记学习场景下是有噪声干扰而未知的，因此，本申请实施例中训练数据的处理方法，主要包括两部分：对原始训练数据集的候选标记集合消歧，以及通过采样扩充原始训练数据集，可以缓解训练数据中类别不平衡现象，减少标记噪声的影响，进而可以提高训练的模型的性能。

基于上述实施例，下面从产品侧对本申请实施例中的训练数据的处理方法进行说明，参阅图4所示，为本申请实施例中训练数据的处理方法的应用流程图。

如图4所示，输入类别不平衡并含噪声的原始训练数据集，对候选标记集进行消歧即过滤处理，具体地，分别针对各训练样本，分别确定各训练样本对应的各候选标记的标记置信度，过滤掉小于信度阈值的候选标记，并且对过滤后的各候选标记对应的各训练样本，确定出小类并进行采样，获得目标训练数据集，进而可以基于目标训练数据集，利用偏多标记学习方法训练模型，获得已训练的模型。

本申请实施例中，针对存在类别不平衡和噪声问题的原始训练数据集，提供了一种训练数据处理方法，可以通过消歧和采样来改善训练数据，提高训练数据质量，以便增强后续偏多标记学习模型的性能。

另外，本申请实施例，还为了验证基于本申请实施例中训练数据的处理方法进行预处理后，对于模型的性能改善，进行了测试比对，可以通过对一些公开的多类数据集，采用本申请实施例中的训练数据的处理方法进行预处理，进而采用偏多标记学习方法进行模型训练，分别比较采用本申请实施例中训练数据的处理方法进行预处理后，以及未采用前，最终训练出的模型的性能，例如对于多分类问题的模型，可以采用宏平均(Macro-averaging)、微平均(Micro-averaging)、宏F值(Macro-F Score)等评价指标来进行比对，通过测试验证可知，采用本申请实施例中的训练数据的处理方法进行预处理后，训练出的模型，性能明显优于未采用该方法预处理训练的模型。

基于同一发明构思，本申请实施例中还提供了一种训练数据的处理装置，该训练数据的处理装置可以是硬件结构、软件模块、或硬件结构加软件模块。基于上述实施例，参阅图5所示，本申请实施例中训练数据的处理装置，具体包括：

获取模块50，用于获取原始训练数据集，其中，所述原始训练数据集中包含的各训练样本，分别对应有至少两个候选标记；

消歧模块51，用于分别确定所述各训练样本对应的各候选标记的标记置信度，并根据所述各候选标记的标记置信度，分别对所述各训练样本对应的各候选标记进行过滤；

采样模块52，用于对过滤后的各候选标记对应的各训练样本进行采样以使不同类别的候选标记所对应的训练样本数量满足预设数量差值条件，获得目标训练数据集；

训练模块53，用于利用所述目标训练数据集进行模型训练。

可选的，分别确定所述各训练样本对应的各候选标记的标记置信度时，消歧模块51具体用于：

其中，针对所述各训练样本中任意一个训练样本时，通过执行以下步骤获得所述任意一个训练样本对应的各候选标记的标记置信度：

确定与所述任意一个训练样本距离最近的k个训练样本，作为所述任意一个训练样本的k近邻集合，其中k为大于等于1的正整数；

根据所述任意一个训练样本的k近邻集合，确定所述任意一个训练样本的权重向量，其中，所述权重向量大小为1*m，m为所述原始训练数据集中包含的各训练样本的数量，所述权重向量中每个元素取值分别表征所述原始训练数据集中各训练样本对所述任意一个训练样本的重构影响程度；

根据所述任意一个训练样本的权重向量，分别确定所述任意一个训练样本对应的各候选标记的标记置信度。

可选的，根据所述任意一个训练样本的k近邻集合，确定所述任意一个训练样本的权重向量时，消歧模块51具体用于：

确定所述任意一个训练样本的特征向量，以及所述权重向量中各元素取值分别与对应训练样本的乘积的加和；

根据所述任意一个训练样本的特征向量与所述加和的差值，建立非负线性最小二乘的优化目标函数，并根据所述k近邻集合对应所述权重向量中的元素取值大于等于0，非k近邻集合的其它训练样本对应的所述权重向量中元素取值等于0，建立所述优化目标函数的约束条件；

根据所述约束条件，确定所述优化目标函数的最优解，并将所述最优解作为所述任意一个训练样本的权重向量。

可选的，根据所述任意一个训练样本的权重向量，分别确定所述任意一个训练样本对应的各候选标记的标记置信度时，消歧模块51具体用于：

根据所述k近邻集合中各训练样本对应所述权重向量中的元素取值，以及所述任意一个训练样本对应的各候选标记分别在所述k近邻集合中各训练样本中的标记置信度，分别确定所述任意一个训练样本对应的各候选标记的标记置信度；

可选的，根据所述各候选标记的标记置信度，分别对所述各训练样本对应的各候选标记进行过滤时，消歧模块51具体用于：

分别根据所述各训练样本的权重向量中各元素取值的平均值，获得所述各训练样本所对应的置信度阈值；

分别针对所述各训练样本，过滤掉标记置信度小于对应的置信度阈值的候选标记。

可选的，消歧模块51进一步用于：若确定所述各训练样本对应的各候选标记的标记置信度均小于对应的置信度阈值，则保留标记置信度最大的候选标记，并过滤掉除标记置信度最大的其它候选标记。

可选的，对过滤后的各候选标记对应的各训练样本进行采样以使不同类别的候选标记所对应的训练样本数量满足预设数量差值条件，获得目标训练数据集时，采样模块52具体用于：

根据过滤后的各候选标记所对应的训练样本的数量，分别确定所述过滤后的各候选标记的类别不平衡率；

根据确定的各类别不平衡率，确定不平衡率阈值，并将类别不平衡率大于所述不平衡率阈值的候选标记的类别作为小类；

分别确定各小类的待采样数量；

根据预设采样方法，分别针对所述各小类，采样获得相应待采样数量的训练样本，并将采样获得的训练样本加入到过滤后的所述原始训练数据集中，获得目标训练数据集。

可选的，分别确定各小类的待采样数量时，采样模块52具体用于：分别确定所述不平衡率阈值对应类别的训练样本数量与所述各小类对应类别的训练样本数量的差值，获得所述各小类的待采样数量。

可选的，根据预设采样方法，分别针对所述各小类，采样获得相应待采样数量的训练样本时，采样模块52具体用于：

分别针对所述各小类，从对应有小类的候选标记的训练样本中，随机复制相应待采样数量的训练样本。

分别确定过滤后的各训练样本对应的各候选标记的共生程度，其中，所述共生程度表征各候选标记的关联程度；

根据所述过滤后的各训练样本对应的共生程度的平均值，确定共生程度阈值；

分别将共生程度高于所述共生程度阈值的训练样本，按照对应的各候选标记，拆解为一个只包含小类候选标记的训练样本和一个只包含大类候选标记的训练样本，其中，大类表示类别不平衡率不大于所述不平衡率阈值的候选标记的类别；

分别针对所述各小类，分别确定包含所述各小类的训练样本的采样权重，并按照确定的采样权重从高到低，复制相应待采样数量的训练样本。

其中，针对所述各小类中任意一个小类时，通过执行以下步骤采样获得所述任意一个小类相应待采样数量的训练样本：

从对应有所述任意一个小类的候选标记的各训练样本中，随机选择相应待采样数量的训练样本，作为基准训练样本；

分别针对选择的各基准训练样本，在对应有所述任意一个小类的候选标记的各训练样本中，确定出与所述各基准训练样本距离最近的k个训练样本，并从确定的k个训练样本中随机选择出一个训练样本，以及根据所述各基准训练样本和对应随机选择出的训练样本，分别生成对应的新的训练样本，其中k为大于等于1的正整数；

分别根据对应确定出的与所述各基准训练样本距离最近的k个训练样本，生成所述各新的训练样本的候选标记。

可选的，分别根据对应确定出的与所述各基准训练样本距离最近的k个训练样本，生成所述各新的训练样本的候选标记时，采样模块52具体用于：

根据对应确定出的与所述各基准训练样本距离最近的k个训练样本，分别确定所述各基准训练样本的权重向量；

根据所述各基准训练样本的权重向量，以及对应确定出的距离最近的k个训练样本对应的各候选标记，分别确定各新的训练样本对应的各候选标记的标记置信度；

分别确定所述各新的训练样本所对应的置信度阈值；

分别针对各新的训练样本，将标记置信度大于等于所述置信度阈值的候选标记，以及所述任意一个小类的候选标记，作为对应新的训练样本的各候选标记。

基于上述实施例，参阅图6所示为本申请实施例中电子设备的结构示意图。

本申请实施例提供了一种电子设备，该电子设备可以是终端或服务器，本申请实施例以电子设备为服务器为例进行说明，该电子设备可以包括处理器610(CenterProcessing Unit，CPU)、存储器620、输入设备630和输出设备640等。

存储器620可以包括只读存储器(ROM)和随机存取存储器(RAM)，并向处理器610提供存储器620中存储的程序指令和数据。在本申请实施例中，存储器620可以用于存储本申请实施例中任一种训练数据的处理方法的程序。

处理器610通过调用存储器620存储的程序指令，处理器610用于按照获得的程序指令执行本申请实施例中任一种训练数据的处理方法。

基于上述实施例，本申请实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任意方法实施例中的训练数据的处理方法。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种训练数据的处理方法，其特征在于，包括：

利用所述目标训练数据集进行模型训练。

2.如权利要求1所述的方法，其特征在于，分别确定所述各训练样本对应的各候选标记的标记置信度，具体包括：

针对所述各训练样本中任意一个训练样本时，通过执行以下步骤获得所述任意一个训练样本对应的各候选标记的标记置信度：

3.如权利要求2所述的方法，其特征在于，根据所述任意一个训练样本的k近邻集合，确定所述任意一个训练样本的权重向量，具体包括：

4.如权利要求2或3所述的方法，其特征在于，根据所述任意一个训练样本的权重向量，分别确定所述任意一个训练样本对应的各候选标记的标记置信度，具体包括：

5.如权利要求2所述的方法，其特征在于，根据所述各候选标记的标记置信度，分别对所述各训练样本对应的各候选标记进行过滤，具体包括：

6.如权利要求5所述的方法，其特征在于，进一步包括：

若确定所述各训练样本对应的各候选标记的标记置信度均小于对应的置信度阈值，则保留标记置信度最大的候选标记，并过滤掉除标记置信度最大的其它候选标记。

7.如权利要求1所述的方法，其特征在于，对过滤后的各候选标记对应的各训练样本进行采样以使不同类别的候选标记所对应的训练样本数量满足预设数量差值条件，获得目标训练数据集，具体包括：

分别确定各小类的待采样数量；

8.如权利要求7所述的方法，其特征在于，分别确定各小类的待采样数量，具体包括：

分别确定所述不平衡率阈值对应类别的训练样本数量与所述各小类对应类别的训练样本数量的差值，获得所述各小类的待采样数量。

9.如权利要求7所述的方法，其特征在于，根据预设采样方法，分别针对所述各小类，采样获得相应待采样数量的训练样本，具体包括：

10.如权利要求7所述的方法，其特征在于，根据预设采样方法，分别针对所述各小类，采样获得相应待采样数量的训练样本，具体包括：

11.如权利要求7所述的方法，其特征在于，根据预设采样方法，分别针对所述各小类，采样获得相应待采样数量的训练样本，具体包括：

针对所述各小类中任意一个小类时，通过执行以下步骤采样获得所述任意一个小类相应待采样数量的训练样本：

12.如权利要求11所述的方法，其特征在于，分别根据对应确定出的与所述各基准训练样本距离最近的k个训练样本，生成所述各新的训练样本的候选标记，具体包括：

分别确定所述各新的训练样本所对应的置信度阈值；

13.一种训练数据的处理装置，其特征在于，包括：

训练模块，用于利用所述目标训练数据集进行模型训练。

14.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-12任一项所述方法的步骤。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1-12任一项所述方法的步骤。