CN113723436A

CN113723436A - 数据的处理方法、装置、计算机设备和存储介质

Info

Publication number: CN113723436A
Application number: CN202110236135.8A
Authority: CN
Inventors: 孙俊凯; 张钧波; 郑宇�
Original assignee: Jingdong City Beijing Digital Technology Co Ltd
Current assignee: Jingdong City Beijing Digital Technology Co Ltd
Priority date: 2021-03-03
Filing date: 2021-03-03
Publication date: 2021-11-30

Abstract

本公开提出一种数据的处理方法、装置、计算机设备和存储介质。该方法包括：获取正样本数据集、N个负样本数据集及测试集；利用正样本数据集及N个负样本数据集，分别训练生成N个分类模型；利用每个分类模型，对测试集进行预测，以确定每个测试数据为异常数据的概率；根据每个测试数据为异常数据的概率，利用测试集中的测试数据对正样本数据集及N个负样本数据集分别进行更新，利用更新后的正样本数据集及N个负样本数据集重复执行上述生成N个分类模型的过程，直至确定N个负样本数据集及测试集中每个未标注数据对应的类型标签。由此，保证了确定的数据对应的类型标签的准确性，而且该数据处理方法的可扩展性和通用性较强。

Description

数据的处理方法、装置、计算机设备和存储介质

技术领域

本公开涉及数据处理技术领域，尤其涉及一种数据的处理方法、装置、计算机设备和存储介质。

背景技术

金融交易领域存在异常可疑的交易操作，比如通过订单交易数据进行刷单、通过转账交易数据避税等场景。如何利用这些交易数据检测出异常的交易节点，对于平台的交易安全管控具有重要的价值意义。

相关技术中，通过根据金融场景的专家知识，设定很多业务规则，之后根据设定的业务规则，对采集的数据进行匹配，以确定该数据是否为异常数据。

上述确定异常数据的方式，由于制定的规则受业务场景的影响较大，当场景发生改动时，规则可能随时失效，即该方法的可扩展性和通用性都比较差。

发明内容

本公开旨在至少在一定程度上解决相关技术中的技术问题之一。

本公开第一方面实施例提出了一种数据的处理方法，包括：

获取正样本数据集、N个负样本数据集及测试集，其中，N为大于1的正整数；

利用所述正样本数据集及N个负样本数据集，分别训练生成N个分类模型；

利用每个分类模型，对所述测试集进行预测，以确定每个测试数据为异常数据的概率；

根据每个所述测试数据为异常数据的概率，利用所述测试集中的测试数据对所述正样本数据集及所述N个负样本数据集分别进行更新，利用更新后的正样本数据集及N个负样本数据集重复执行上述生成N个分类模型的过程，直至确定N个负样本数据集及测试集中每个未标注数据对应的类型标签。

本公开第二方面实施例提出了一种数据的处理装置，包括：

获取模块，用于获取正样本数据集、N个负样本数据集及测试集，其中，N为大于1的正整数；

生成模块，用于利用所述正样本数据集及N个负样本数据集，分别训练生成N个分类模型；

预测模块，用于利用每个分类模型，对所述测试集进行预测，以确定每个测试数据为异常数据的概率；

确定模块，用于根据每个所述测试数据为异常数据的概率，利用所述测试集中的测试数据对所述正样本数据集及所述N个负样本数据集分别进行更新，利用更新后的正样本数据集及N个负样本数据集重复执行上述生成N个分类模型的过程，直至确定N个负样本数据集及测试集中每个未标注数据对应的类型标签。

本公开第三方面实施例提出了一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如本公开第一方面实施例提出的数据的处理方法。

本公开第四方面实施例提出了一种非临时性计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如本公开第一方面实施例提出的数据的处理方法。

本公开第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，执行本公开第一方面实施例提出的数据的处理方法。

本公开提供的数据的处理方法、装置、计算机设备和存储介质，首先获取正样本数据集、N个负样本数据集及测试集，之后利用正样本数据集及N个负样本数据集，分别训练生成N个分类模型，再利用每个分类模型，对测试集进行预测，以确定每个测试数据为异常数据的概率，最后根据每个测试数据为异常数据的概率，利用N个测试集中的测试数据对正样本数据集及N个负样本数据集分别进行更新，再利用更新后的正样本数据集及N个负样本数据集重复执行上述生成N个分类模型的过程，直至确定N个负样本数据集及测试集中每个未标注数据对应的类型标签。由此，通过利用少量的正样本数据及多个负样本数据集，训练得到多个分类模型，再利用多个分类模型对未标注数据的类型标签进行预测融合，从而不仅保证了确定的数据对应的类型标签的准确性，而且该数据处理方法的可扩展性和通用性较强。

本公开附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本公开一实施例所提供的数据的处理方法的流程示意图；

图2为本公开另一实施例所提供的数据的处理方法的流程示意图；

图3为本公开一实施例所提供的数据的处理装置的结构示意图；

图4为本公开另一实施例所提供的数据的处理装置的结构示意图；

图5示出了适于用来实现本公开实施方式的示例性计算机设备的框图。

具体实施方式

下面详细描述本公开的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本公开，而不能理解为对本公开的限制。

下面参考附图描述本公开实施例的数据的处理方法、装置、计算机设备和存储介质。

图1为本公开实施例所提供的数据的处理方法的流程示意图。

本公开实施例以该数据的处理方法被配置于数据的处理装置中来举例说明，该数据的处理装置可以应用于任一计算机设备中，以使该计算机设备可以执行数据的处理功能。

其中，计算机设备可以为个人电脑(Personal Computer，简称PC)、云端设备、移动设备等，移动设备例如可以为手机、平板电脑、个人数字助理、穿戴式设备、车载设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。

如图1所示，该数据的处理方法可以包括以下步骤：

步骤101，获取正样本数据集、N个负样本数据集及测试集，其中，N为大于1的正整数。

其中，正样本数据集中的各个数据对应的标注标签为异常数据，负样本数据集及测试集中的各个数据都未进行标注。

另外，N个负样本数据集互不相同，即，各个负样本数据集中的未标注样本可以全部不同，或者，每个负样本数据集中至少有一个未标注样本与其他负样本数据集中的未标注样本不同。

可选的，负样本数据集中的数据与测试集中的数据可以部分相同，也可以完全不同，本公开对此不做限定。

步骤102，利用正样本数据集及N个负样本数据集，分别训练生成N个分类模型。

其中，可以将正样本数据集和每一个负样本数据集进行组合，以得到一个训练样本集，之后可以使用该训练样本集对初始分类模型进行模型训练，从而可以得到一个对应的分类模型。

另外，初始分类模型可以为支持向量机、决策树、逻辑回归等任一模型，本公开对此不做限定。

或者，也可以根据正样本数据集及N个负样本数据集中各样本数据对应的特征，训练生成分类模型。

比如，可以对正样本数据集及N个负样本数据集分别进行解析，以确定每个样本数据对应的特征，之后将每个样本数据对应的特征输入初始分类模型，以确定每个样本数据对应的预测标签，再根据每个样本数据对应的预测标签与标注标签的差异，对初始分类模型进行修正，以生成训练后的分类模型。

其中，预测标签可以为正常数据、异常数据等，本公开对此不做限定。

另外，在对初始分类模型进行修正时，可以先根据每个样本数据对应的预测标签与标注标签的差异确定出对应的损失值，之后再根据该损失值对初始分类模型进行逐层反向修正，从而可以生成训练后的分类模型。

比如，对正样本数据集及N个负样本数据集分别进行解析，其中正样本数据1对应得到的特征共有15个，可以将15个特征都输入初始分类模型，从而得到正样本数据1对应的预测标签。之后可以根据正样本数据1对应的预测标签与标注标签的差异，确定出对应的损失值。

之后可以将正样本数据集及N个负样本数据集分别进行解析得到的各个样本数据对应的特征，分别输入初始分类模型，得到各个样本数据对应的预测标签。之后再根据各个样本数据对应的预测标签与标注标签的差异，确定出对应的损失值，再根据各损失值对初始分类模型进行逐层反向修正，从而生成训练后的分类模型。

需要说明的是，上述示例只是举例说明，不能作为对本公开实施例中各样本数据、特征、预测标签等的限定。

步骤103，利用每个分类模型，对测试集进行预测，以确定每个测试数据为异常数据的概率。

其中，可以将测试集中的测试数据输入至分类模型，之后分类模型即可对其进行分类，输出该测试数据为正常数据还是异常数据，以及输出其为正常数据的概率、异常数据的概率。

步骤104，根据每个测试数据为异常数据的概率，利用测试集中的测试数据对正样本数据集及N个负样本数据集分别进行更新，利用更新后的正样本数据集及N个负样本数据集重复执行上述生成N个分类模型的过程，直至确定N个负样本数据集及测试集中每个未标注数据对应的类型标签。

可以理解的是，由于N个负样本数据集互不相同，从而使用正样本数据集和N个不同的负样本数据集训练得到的N个分类模型的学习能力也不同。从而使用能力不同的多个分类模型对同一个测试数据进行分类，可以得到多个分类结果，之后对这多个分类结果进行融合，从而可以确定出更为准确、可靠的分类结果。

比如，可以利用第i个分类模型，对测试集进行预测，以确定测试集中每个测试数据为异常数据的第i个概率，其中,i为小于或等于N的正整数，之后可以将每个测试数据为异常数据的N个概率进行融合，以确定每个测试数据为异常数据的概率。

举例来说，使用正样本数据集和5个负样本数据集进行模型训练，可以生成5个分类模型。对于测试集中的同一测试数据A，将该测试数据A分别输入至5个分类模型中，可以得到五种预测结果。

其中，分类模型1预测出其为正常数据的概率为0.1，为异常数据的概率为0.9，分类模型2预测出其为正常数据的概率为0.05，为异常数据的概率为0.95，分类模型3预测出其为正常数据的概率为0.15，为异常数据的概率为0.85，分类模型4预测出其为正常数据的概率为0.07，为异常数据的概率为0.93，分类模型5预测出其为正常数据的概率为0.13，为异常数据的概率为0.87。

之后可以对这5种预测结果进行融合，确定出该测试数据A为正常数据的概率为0.1、为异常数据的概率为0.9。比如已经提前设定好阈值为0.85，异常数据的概率大于该阈值，从而可以确定该测试数据A的类型标签为异常数据，之后可以将该测试数据A加入至正样本数据集。

或者，对于测试数据B，根据多个分类模型对其预测的结果可知，其为正常数据的概率为0.92，大于设定好的阈值0.85，从而可以确定其为正常数据。之后可以将该测试数据B加入至负样本数据集中，可以选择加入其中一个负样本数据集，或者也可以选择加入多个负样本数据集，本公开对此不做限定。

需要说明的是，上述示例只是举例说明，不能作为对本公开实施例中测试数据、类型标签、概率等的限定。

其中，利用测试集中的测试数据对正样本数据集及N个负样本数据集进行更新时，可以有多种更新方法。

比如，可以先根据测试数据为异常数据的概率对各测试数据进行排序，选取概率值最大的前10个、20个测试数据添加至正样本数据集中，同时从测试集中删除对应的各个测试数据。进一步的，如果添加至正样本数据集中的任一测试数据，同时位于某一个或某几个负样本数据集，则需要从某一个或某几个负样本数据集中将该任一测试数据删除。

需要说明的是，上述10、20只是举例说明，实际使用时可以根据需要进行选取，本公开对此不做限定。

或者，也可以提前设定好一个阈值，该阈值可以为任意数值，将概率大于阈值的各测试数据添加至正样本数据集中，同时对负样本数据集和/或测试集中的数据进行相应处理。

需要说明的是，上述示例只是举例说明，不能作为对本公开实施例中对正样本数据集及N个负样本数据集进行更新等的限定。

另外，类型标签可以为正常数据、异常数据等，本公开对此不做限定。

可以理解的是，通过利用测试数据对正样本数据集及各个负样本数据集分别进行更新，并重复执行上述生成N个分类模型的过程，之后再利用新生成的N个分类模型对测试集中的未标注数据进行标注，从而最终可以准确的确定出每个未标注数据对应的类型标签。

本公开实施例，首先获取正样本数据集、N个负样本数据集及测试集，之后利用正样本数据集及N个负样本数据集，分别训练生成N个分类模型，再利用每个分类模型，对测试集进行预测，以确定每个测试数据为异常数据的概率，最后根据每个测试数据为异常数据的概率，利用N个测试集中的测试数据对正样本数据集及N个负样本数据集分别进行更新，再利用更新后的正样本数据集及N个负样本数据集重复执行上述生成N个分类模型的过程，直至确定N个负样本数据集及测试集中每个未标注数据对应的类型标签。由此，通过利用少量的正样本数据及多个负样本数据集，训练得到多个分类模型，再利用多个分类模型对未标注数据的类型标签进行预测融合，从而不仅保证了确定的数据对应的类型标签的准确性，而且该数据处理方法的可扩展性和通用性较强。

上述实施例，通过利用少量的正样本数据及多个负样本数据集，训练得到多个分类模型，再利用多个分类模型对未标注数据的类型标签进行预测融合，不仅保证了确定的数据对应的类型标签的准确性，而且该数据处理方法的可扩展性和通用性较强。在一种可能的实现方式中，为了减少数据处理量，还可以在训练生成分类模型时，先对正样本数据集进行解析确定出对应的目标维度、目标特征，之后对负样本数据进行解析时，仅需确定出对应的目标维度的特征，下面结合图2对上述过程进行进一步说明。

图2为本公开实施例所提供的数据的处理方法的流程示意图，如图2所示，该数据的处理方法可以包括以下步骤：

步骤201，获取正样本数据集及未标注数据集。

其中，正样本数据集中的各个数据对应的标注标签为异常数据，未标注数据集中的各个数据都未进行标注。

步骤202，分N次从未标注数据集中抽取多个未标注数据，以生成N个负样本数据集及对应的N个测试集。

其中，为了提高模型训练时正负样本数量的平衡，以到提高模型训练的准确性和可靠性的目的，在抽取未标注数据时，可以参照正样本数据集中包括的正样本的数量。

比如，可以分N次从未标注数据集中，抽取数量与正样本数据集中包括的数据量相同的未标注数据，以生成N个负样本数据集及对应的N个测试集。

比如正样本数据集中有M个数据，每次抽取时，可以从未标注数据集中随机抽取M个未标注数据作为负样本数据集，未标注数据集中剩余的其他未标注数据作为与该次确定的负样本数据集对应的测试集。

或者，也可以按照设定的比例，分N次从未标注数据集中，抽取未标注数据，以生成N个负样本数据集及对应的N个测试集。

另外，每个负样本数据集与其他负样本数据集中至少存在有一个不同的样本数据。

本公开实施例中，每次从未标注数据集中抽取一部分未标注数据作为负样本数据集，而不是把所有的未标注数据作为负样本数据集，从而可以在每一轮模型训练时，减少训练样本集构造所产生的误差，进而为提高模型训练的准确性提供了条件。

步骤203，对每个正样本数据进行解析，以确定每个正样本数据对应的多维特征。

可以理解的是，不同的样本数据进行解析后，得到的特征可能不同，不同特征所对应的维度可能也不同。下面以样本数据为金融领域相关数据为例进行说明。

另外，样本数据中可能包含有卡号、账号、用户对象等，其都可以作为节点。

可以理解的是，样本数据所对应的多维特征，可以包括以下各维特征中的至少一项：节点本身的属性信息，比如卡账号的开户银行，地理位置，关联用户的年龄、性别、家庭住址、职业、兴趣爱好等；交易记录中的行为属性，比如一个节点账号转出金额、转出次数、转入金额、转入次数、交易时间熵等；由交易行为形成的交易网络图特征，比如账号的入度、出度、度中心性、紧密中心性、介数中心性等，本公开对此不做限定。

比如，正样本数据1进行解析后得到的多维特征分别为：卡账号的开户银行XX、账号转出金额200、转出次数5次。

需要说明的是，上述示例只是举例说明，不能作为对本公开实施例中样本数据对应的多为特征等的限定。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

步骤204，确定每维特征与正样本数据对应的标注标签间的相关性。

其中，标注标签可以为：异常数据。

另外，确定每维特征与正样本数据对应的标注标签间的相关性时，可以有多种方法。

比如，可以利用皮尔森系数计算每维特征与正样本数据对应的标注标签间的相关性，或者，也可以使用信息增益率、箱形图、随机森林等进行计算，本公开对此不做限定。

步骤205，根据相关性，确定每个正样本数据对应的目标特征的目标维度。

步骤206，对每个负样本数据进行解析，以确定每个负样本数据对应的目标维度的特征。

其中，在根据相关性，确定正样本数据对应的目标特征时，可以有多种方式。

比如，可以将各相关性按照大小进行排序，去除相关性较小的各特征，剩余特征即为对应的目标特征，或者，也可以设定好阈值，将相关性小于阈值的各特征去除，剩余特征即为目标特征。

比如，使用皮尔森系数确定出特征相关性之后，可以按照设定的阈值，去除相关性小于阈值的各特征，将剩余特征确定为目标特征。

举例来说，根据相关性和设定好的阈值，确定出的正样本数据对应的目标特征的目标维度为：账号转出金额、转出次数、交易时间熵、紧密中心性。之后对负样本数据进行解析时，可以仅确定该负样本数据中：账号转出金额、转出次数、交易时间熵、紧密中心性各自对应的特征，从而不必对负样本数据对应的所有特征都进行提取之后再确定其对应的特征，从而减少了所需处理的数据量，提高了效率。

需要说明的是，上述示例只是举例说明，不能作为对本公开实施例中目标特征、目标维度、以及负样本数据对应的目标维度的特征等的限定。

本公开实施例中，先确定出正样本数据对应的目标特征、目标维度，从而在对负样本数据进行解析时，可以仅确定出负样本数据对应的目标维度的特征，减少了数据处理的复杂度，提高了数据处理的效率。

步骤207，将每个样本数据对应的特征输入初始分类模型，以确定每个样本数据对应的预测标签。

比如，将样本数据1对应的特征输入初始分类模型，得到对应的预测标签可以为：正常数据，概率为0.9。

或者，将样本数据2对应的特征输入初始分类模型，得到对应预测标签可以为：异常数据，概率为0.91。

需要说明的是，上述示例只是举例说明，不能作为对本公开实施例中样本数据及其对应的预测标签等的限定。

步骤208，根据每个样本数据对应的预测标签与标注标签的差异，对初始分类模型进行修正，以生成训练后的分类模型。

其中，可以先根据每个样本数据对应的预测标签与标注标签差异确定出对应的损失值，之后再根据该损失值对初始分类模型进行逐层反向修正，从而可以生成训练后的分类模型。

步骤209，利用第i个分类模型，对第i个测试集进行预测，以确定第i个测试集中每个测试数据为异常数据的第i个概率，其中,i为小于或等于N的正整数。

其中，使用不同的分类模型，对相应的测试集进行预测，可以得到该测试集中每个测试数据与该分类模型相对应的、预测结果。

比如，利用第1个分类模型对测试集1进行预测，可以确定出测试集1中每个测试数据为异常数据的第1个概率。之后再利用第2个分类模型对测试集2进行预测，可以确定出其中每个测试数据为异常数据的第2个概率。

需要说明的是，上述示例只是举例说明，不能作为对本公开实施例中分类模型、测试集以及测试数据为异常数据的概率等的限定。

步骤210，将每个测试数据为异常数据的N个概率进行融合，以确定每个测试数据为异常数据的概率。

其中，同一个测试数据可能存在于多个测试集中，从而在利用不同的分类模型进行预测时，可能在多个分类模型中都对其进行了预测，从而其可能对应有多个预测结果，将这多个预测结果中的为异常数据的概率进行融合，从而可以确定出更为准确的概率，提高了模型预测结果的准确性。

另外，可以使用均值算法对测试数据为异常数据的N个概率进行融合，或者，也可以使用方差等对其进行融合，本公开对此不做限定。

比如，测试数据A为异常数据的5个概率分别为0.89、0.91、0.92、0.9、0.93，使用均值算法对其进行融合，可以得到对应的平均值为0.91，从而可以确定出测试数据A为异常数据的概率为0.91。

需要说明的是，上述示例只是举例说明，不能作为对本公开实施例中测试数据为异常数据的概率及对其进行融合等的限定。

步骤211，将概率大于阈值的测试数据加入正样本数据集中，并从未标注数据集中删除概率大于阈值的测试数据。

其中，阈值可以为根据需要提前设定好的任意数值，本公开对此不做限定。

比如，设定的阈值为0.9，其中，异常数据的概率大于0.9的测试数据共有12个，可以将12个测试数据加入正样本数据集中，并从未标注数据集中删除对应的测试数据。

需要说明的是，上述示例只是举例说明，不能作为对本公开实施例中测试数据对应的概率、阈值等的限定。

本公开实施例，首先获取正样本数据集及未标注数据集，之后从未标注数据集中抽取未标注数据，以生成负样本数据集及测试集。之后可以对每个正样本数据进行解析，以确定每个正样本数据对应的多维特征，再确定每维特征与正样本数据对应的标注标签间的相关性，根据相关性，确定每个正样本数据对应的目标特征的目标维度，之后在对每个负样本数据进行解析，以确定每个负样本数据对应的目标维度的特征。之后可以将每个样本数据对应的特征输入初始分类模型，得到对应的预测标签，再根据预测标签与标注标签的差异，生成训练后的分类模型。之后可以用多个分类模型对测试集中每个测试数据进行预测，并将多个预测结果进行融合。由此，在利用少量的正样本数据及多个负样本数据集，训练得到多个分类模型的过程中，可以先对正样本数据进行解析，确定出对应的目标维度，进而对负样本数据解析时，可以仅提取其中与目标维度对应的特征，从而减少了所需处理的数据量，进一步提高了数据处理的效率，之后再利用多个分类模型对未标注数据的类型标签进行预测融合，从而不仅保证了确定的数据对应的类型标签的准确性，而且该数据处理方法的可扩展性和通用性较强。

为了实现上述实施例，本公开还提出一种数据的处理装置。

图3为本公开实施例所提供的数据的处理装置的结构示意图。

如图3所示，该数据的处理装置100可以包括：获取模块110、生成模块120、预测模块130、确定模块140。

其中，获取模块110，用于获取正样本数据集、N个负样本数据集及测试集，其中，N为大于1的正整数；

生成模块120，用于利用所述正样本数据集及N个负样本数据集，分别训练生成N个分类模型；

预测模块130，用于利用每个分类模型，对所述测试集进行预测，以确定每个测试数据为异常数据的概率；

确定模块140，用于根据每个所述测试数据为异常数据的概率，利用所述测试集中的测试数据对所述正样本数据集及所述N个负样本数据集分别进行更新，利用更新后的正样本数据集及N个负样本数据集重复执行上述生成N个分类模型的过程，直至确定N个负样本数据集及测试集中每个未标注数据对应的类型标签。

本公开实施例中的上述各模块的功能及具体实现原理，可参照上述各方法实施例，此处不再赘述。

本公开实施例的数据的处理装置，首先获取正样本数据集、N个负样本数据集及测试集，之后利用正样本数据集及N个负样本数据集，分别训练生成N个分类模型，再利用每个分类模型，对测试集进行预测，以确定每个测试数据为异常数据的概率，最后根据每个测试数据为异常数据的概率，利用N个测试集中的测试数据对正样本数据集及N个负样本数据集分别进行更新，再利用更新后的正样本数据集及N个负样本数据集重复执行上述生成N个分类模型的过程，直至确定N个负样本数据集及测试集中每个未标注数据对应的类型标签。由此，通过利用少量的正样本数据及多个负样本数据集，训练得到多个分类模型，再利用多个分类模型对未标注数据的类型标签进行预测融合，从而不仅保证了确定的数据对应的类型标签的准确性，而且该数据处理方法的可扩展性和通用性较强。

进一步地，在本公开实施例的一种可能的实现方式中，参见图4，在图3所示实施例的基础上，预测模块130，具体用于利用第i个分类模型，对所述测试集进行预测，以确定所述测试集中每个测试数据为异常数据的第i个概率，其中,i为小于或等于N的正整数；将每个所述测试数据为异常数据的N个概率进行融合，以确定每个所述测试数据为异常数据的概率。

在一种可能的实现方式中，获取模块110，包括：

获取单元1110，用于获取正样本数据集及未标注数据集；

第一生成单元1120，用于分N次从所述未标注数据集中抽取多个未标注数据，以生成N个负样本数据集及对应的N个测试集。

在一种可能的实现方式中，第一生成单元1120，具体用于分N次从所述未标注数据集中，抽取数量与所述正样本数据集中包括的数据量相同的未标注数据，以生成N个负样本数据集及对应的N个测试集。

在一种可能的实现方式中，生成模块120，包括：

第一确定单元1210，用于对所述正样本数据集及N个负样本数据集分别进行解析，以确定每个样本数据对应的特征；

第二确定单元1220，用于将每个所述样本数据对应的特征输入初始分类模型，以确定每个所述样本数据对应的预测标签；

第二生成单元1230，用于根据每个所述样本数据对应的预测标签与标注标签的差异，对所述初始分类模型进行修正，以生成训练后的分类模型。

在一种可能的实现方式中，第一确定单元1210，具体用于：对每个正样本数据进行解析，以确定每个正样本数据对应的多维特征；确定每维特征与所述正样本数据对应的标注标签间的相关性；根据所述相关性，确定每个正样本数据对应的目标特征的目标维度；对每个负样本数据进行解析，以确定每个所述负样本数据对应的所述目标维度的特征。

在一种可能的实现方式中，确定模块140，具体用于将概率大于阈值的测试数据加入所述正样本数据集中，并从所述未标注数据集中删除所述概率大于阈值的测试数据。

本公开实施例的数据的处理装置，首先获取正样本数据集及未标注数据集，之后从未标注数据集中抽取未标注数据，以生成负样本数据集及测试集。之后可以对每个正样本数据进行解析，以确定每个正样本数据对应的多维特征，再确定每维特征与正样本数据对应的标注标签间的相关性，根据相关性，确定每个正样本数据对应的目标特征的目标维度，之后在对每个负样本数据进行解析，以确定每个负样本数据对应的目标维度的特征。之后可以将每个样本数据对应的特征输入初始分类模型，得到对应的预测标签，再根据预测标签与标注标签的差异，生成训练后的分类模型。之后可以用多个分类模型对测试集中每个测试数据进行预测，并将多个预测结果进行融合。由此，在利用少量的正样本数据及多个负样本数据集，训练得到多个分类模型的过程中，可以先对正样本数据进行解析，确定出对应的目标维度，进而对负样本数据解析时，可以仅提取其中与目标维度对应的特征，从而减少了所需处理的数据量，进一步提高了数据处理的效率，之后再利用多个分类模型对未标注数据的类型标签进行预测融合，从而不仅保证了确定的数据对应的类型标签的准确性，而且该数据处理方法的可扩展性和通用性较强。

为了实现上述实施例，本公开还提出一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时，实现如本公开前述实施例提出的数据的处理方法。

为了实现上述实施例，本公开还提出一种非临时性计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现如本公开前述实施例提出的数据的处理方法。

为了实现上述实施例，本公开还提出一种计算机程序产品，当计算机程序产品中的指令处理器执行时，执行如本公开前述实施例提出的数据的处理方法。

图5示出了适于用来实现本公开实施方式的示例性计算机设备的框图。图5显示的计算机设备12仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图5所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本公开各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本公开所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的方法。

根据本公开实施例的技术方案，首先获取正样本数据集、N个负样本数据集及测试集，之后利用正样本数据集及N个负样本数据集，分别训练生成N个分类模型，再利用每个分类模型，对测试集进行预测，以确定每个测试数据为异常数据的概率，最后根据每个测试数据为异常数据的概率，利用N个测试集中的测试数据对正样本数据集及N个负样本数据集分别进行更新，再利用更新后的正样本数据集及N个负样本数据集重复执行上述生成N个分类模型的过程，直至确定N个负样本数据集及测试集中每个未标注数据对应的类型标签。由此，通过利用少量的正样本数据及多个负样本数据集，训练得到多个分类模型，再利用多个分类模型对未标注数据的类型标签进行预测融合，从而不仅保证了确定的数据对应的类型标签的准确性，而且该数据处理方法的可扩展性和通用性较强。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本公开各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本公开的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本公开的限制，本领域的普通技术人员在本公开的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种数据的处理方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述利用每个分类模型，对所述测试集进行预测，以确定每个测试数据为异常数据的概率，包括：

利用第i个分类模型，对所述测试集进行预测，以确定所述测试集中每个测试数据为异常数据的第i个概率，其中,i为小于或等于N的正整数；

将每个所述测试数据为异常数据的N个概率进行融合，以确定每个所述测试数据为异常数据的概率。

3.如权利要求1所述的方法，其特征在于，所述获取正样本数据集、N个负样本数据集及测试集，包括：

获取正样本数据集及未标注数据集；

分N次从所述未标注数据集中抽取多个未标注数据，以生成N个负样本数据集及对应的N个测试集。

4.如权利要求3所述的方法，其特征在于，所述分N次从所述未标注数据集中抽取多个未标注数据，以生成N个负样本数据集及对应的N个测试集，包括：

分N次从所述未标注数据集中，抽取数量与所述正样本数据集中包括的数据量相同的未标注数据，以生成N个负样本数据集及对应的N个测试集。

5.如权利要求1所述的方法，其特征在于，所述利用所述正样本数据集及N个负样本数据集，分别训练生成N个分类模型，包括：

对所述正样本数据集及N个负样本数据集分别进行解析，以确定每个样本数据对应的特征；

将每个所述样本数据对应的特征输入初始分类模型，以确定每个所述样本数据对应的预测标签；

根据每个所述样本数据对应的预测标签与标注标签的差异，对所述初始分类模型进行修正，以生成训练后的分类模型。

6.如权利要求5所述的方法，其特征在于，所述对所述正样本数据集及N个负样本数据集分别进行解析，以确定每个样本数据对应的特征，包括：

对每个正样本数据进行解析，以确定每个正样本数据对应的多维特征；

确定每维特征与所述正样本数据对应的标注标签间的相关性；

根据所述相关性，确定每个正样本数据对应的目标特征的目标维度；

对每个负样本数据进行解析，以确定每个所述负样本数据对应的所述目标维度的特征。

7.如权利要求1-6任一所述的方法，其特征在于，所述根据每个所述测试数据为异常数据的概率，利用所述测试集中的测试数据对所述正样本数据集及未标注数据集分别进行更新，包括：

将概率大于阈值的测试数据加入所述正样本数据集中，并从所述未标注数据集中删除所述概率大于阈值的测试数据。

8.一种数据的处理装置，其特征在于，包括：

9.如权利要求8所述的装置，其特征在于，所述预测模块，具体用于：

10.如权利要求8所述的装置，其特征在于，所述获取模块，包括：

获取单元，用于获取正样本数据集及未标注数据集；

第一生成单元，用于分N次从所述未标注数据集中抽取多个未标注数据，以生成N个负样本数据集及对应的N个测试集。

11.如权利要求10所述的装置，其特征在于，所述第一生成单元，具体用于：

12.如权利要求8所述的装置，其特征在于，所述生成模块，包括：

第一确定单元，用于对所述正样本数据集及N个负样本数据集分别进行解析，以确定每个样本数据对应的特征；

第二确定单元，用于将每个所述样本数据对应的特征输入初始分类模型，以确定每个所述样本数据对应的预测标签；

第二生成单元，用于根据每个所述样本数据对应的预测标签与标注标签的差异，对所述初始分类模型进行修正，以生成训练后的分类模型。

13.如权利要求12所述的装置，其特征在于，所述第一确定单元，具体用于：

14.如权利要求8-13任一所述的装置，其特征在于，所述确定模块，具体用于：

15.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如权利要求1-7中任一所述的数据的处理方法。

16.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一所述的数据的处理方法。

17.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序在被处理器执行时实现如权利要求1-7中任一项所述的数据的处理方法。