CN112016579A

CN112016579A - 数据处理方法、风险识别方法、计算机设备、存储介质

Info

Publication number: CN112016579A
Application number: CN201910464550.1A
Authority: CN
Inventors: 俞飞江; 王榕; 朱成生; 高阳; 姜喆
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-05-30
Filing date: 2019-05-30
Publication date: 2020-12-01

Abstract

本申请实施例公开了一种数据处理方法。所述方法包括：获取用于训练第一识别模型的第一样本集合，以及至少一个第二样本集合，其中，所述至少一个第二样本集合用于训练第二识别模型；确定所述第一样本集合和至少一个第二样本集合之间的相似性数据符合预设要求；合并所述第一样本集合和至少一个第二样本集合，得到代替所述第一样本集合的第三样本集合，作为训练所述第一识别模型的输入，从而补充了用于训练第一识别模型的样本，避免了因第一样本集合中样本数量过少导致第一识别模型的过拟合问题，继而提高了第一识别模型识别的覆盖率，提升识别效果。

Description

数据处理方法、风险识别方法、计算机设备、存储介质

技术领域

本申请涉及数据处理技术领域，具体涉及一种数据处理方法、一种风险识别方法、一种计算机设备、一种计算机可读存储介质。

背景技术

随着计算机技术的发展，人工智能以及机器学习等技术越来越多地被实际应用。机器学习方法是计算机利用已有的数据，通过训练得出某种模型，并利用模型推测新的实例的方法。因此，训练过程需要历史已有的样本数据，并且样本数据对于最终得到的模型的预测效果将产生很大的影响。

实践中，对于某些业务，历史已有的样本是比较稀缺的，例如，电子商务平台中，为了实现对假货、违禁品、欺诈等风险的防控，保障业务安全，通常会收集历史已有的黑白样本，训练风险识别模型来防控风险。但是有的平台中历史已有的黑样本是较少的。

申请人经研究发现，如果样本过少，为了得到一致假设会使得假设变得过度严格，也就是说，一个假设在训练数据上能够获得比其他假设更好的拟合，但是在训练数据外的数据集上却不能很好地拟合数据，即出现了过拟合的现象。总之，在模型的训练过程中，样本过少会导致模型出现过拟合的现象，继而导致用模型进行推测的覆盖率不高。

发明内容

鉴于上述问题，提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的数据处理方法、风险识别方法以及计算机设备、计算机可读存储介质。

依据本申请的一个方面，提供了一种数据处理方法，包括：

获取用于训练第一识别模型的第一样本集合，以及至少一个第二样本集合，其中，所述至少一个第二样本集合用于训练第二识别模型；

确定所述第一样本集合和至少一个第二样本集合之间的相似性数据符合预设要求；

合并所述第一样本集合和至少一个第二样本集合，得到代替所述第一样本集合的第三样本集合，作为训练所述第一识别模型的输入。

可选地，所述确定所述第一样本集合和至少一个第二样本集合之间的相似性数据符合预设要求包括：

对所述第一样本集合中的第一样本和第二样本集合中的第二样本进行聚类；

根据所述聚类结果，确定所述第一样本集合和第二样本集合之间的相似性数据；

确定所述相似性数据符合预设要求。

可选地，所述根据所述聚类结果，确定所述第一样本集合和第二样本集合之间的相似性数据包括：

计算所述聚类结果中与所述第二样本归于同一类的第一样本的数量和所述第一样本的总数量的比值，作为所述相似性数据。

可选地，在所述对所述第一样本集合中的第一样本和第二样本集合中的第二样本进行聚类之前，所述方法还包括：

合并所述第一样本集合和第二样本集合；

对所述第一样本和第二样本进行归一化处理和/或向量化处理。

可选地，所述获取用于训练第一识别模型的第一样本集合，以及至少一个第二样本集合包括：

从第一数据系统获取所述第一样本集合；

从第二数据系统获取所述第二样本集合。

可选地，在所述从第二数据系统获取所述第二样本集合之前，所述方法还包括：

根据所述第一数据系统的系统属性，选取与所述第一数据系统匹配的第二数据系统。

可选地，在所述确定所述第一样本集合和至少一个第二样本集合之间的相似性数据符合预设要求之后，所述方法还包括：

获取用于训练第四识别模型的第四样本集合和用于训练第五识别模型的第五样本集合；

确定所述第四样本集合与第一样本集合匹配，并且所述第五样本集合与第二样本集合匹配；

合并所述第四样本集合和第五样本集合，得到代替所述第四样本集合的第六样本集合，作为训练所述第四识别模型的输入。

可选地，在所述确定所述第一样本集合和至少一个第二样本集合之间的相似性数据符合预设要求之前，所述方法还包括：

确定所述第一样本集合的特征数据和第二样本集合的特征数据；

所述确定所述第四样本集合与第一样本集合匹配，并且所述第五样本集合与第二样本集合匹配包括：

确定所述第四样本集合的特征数据和第五样本集合的特征数据；

确定所述第四样本集合的特征数据与第一样本集合的特征数据匹配，并且所述第五样本集合的特征数据与第二样本集合的特征数据匹配，则所述第四样本集合与第一样本集合匹配，并且所述第五样本集合与第二样本集合匹配。

可选地，在所述合并所述第四样本集合和第五样本集合，得到代替所述第四样本集合的第六样本集合，作为训练所述第四识别模型的输入之前，所述方法还包括：

确定所述第四样本集合的样本属性和第五样本集合的样本属性满足预设属性条件。

可选地，在所述合并所述第一样本集合和第二样本集合，得到代替所述第一样本集合的第三样本集合之后，所述方法还包括：

对所述第三样本集合添加第一标记数据；

提供与所述第三样本集合对应的第七样本集合，为所述第七样本集合添加第二标记数据；

合并所述第三样本集合和第七样本集合，得到第八样本集合，作为有监督学习网络的输入对所述第一识别模型进行训练。

可选地，在所述合并所述第三样本集合和第七样本集合，得到第八样本集合，作为有监督学习网络的输入对所述第一识别模型进行训练之后，所述方法包括：

对所述第八样本集合进行以下至少一种处理：归一化处理、向量化处理、异常值平滑处理、缺失值处理、特征筛选处理。

可选地，在所述合并所述第一样本集合和第二样本集合，得到代替所述第一样本集合的第三样本集合，作为训练所述第一识别模型的输入之后，所述方法还包括：

确定以所述第三样本集合为输入训练得到的第一识别模型符合评估要求；

提供所述第一识别模型。

依据本申请的一个方面，提供了一种风险识别方法，包括：

以代替第一样本集合的第三样本集合为输入，训练得到第一风险识别模型，其中，所述第三样本集合通过获取用于训练第一风险识别模型的第一样本集合，以及至少一个第二样本集合，其中，所述至少一个第二样本集合用于训练第二风险识别模型，确定所述第一样本集合和至少一个第二样本集合之间的相似性数据符合预设要求，合并所述第一样本集合和第二样本集合得到；

采用所述第一风险识别模型，识别风险数据。

可选地，所述第一识别模型和第二识别模型为相同的识别模型。

依据本申请的另一个方面，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述一个或多个的方法。

依据本申请的另一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述一个或多个的方法。

依据本申请实施例，通过获取用于训练第一识别模型的第一样本集合，以及至少一个第二样本集合，其中，所述至少一个第二样本集合用于训练第二识别模型；确定所述第一样本集合和至少一个第二样本集合之间的相似性数据符合预设要求；合并所述第一样本集合和至少一个第二样本集合，得到代替所述第一样本集合的第三样本集合，作为训练所述第一识别模型的输入，从而补充了用于训练第一识别模型的样本，避免了因第一样本集合中样本数量过少导致第一识别模型的过拟合问题，继而提高了第一识别模型识别的覆盖率，提升识别效果。

进一步，通过根据所述第一数据系统的系统属性，选取与所述第一数据系统匹配的第二数据系统，使得第一样本集合和第二样本集合之间的相似性数据更容易符合预设要求的可能性，继而提高了第二样本集合和第一样本集合能合并的概率。

进一步，通过获取用于训练第四识别模型的第四样本集合和用于训练第五识别模型的第五样本集合，确定所述第四样本集合与第一样本集合匹配，并且所述第五样本集合与第二样本集合匹配，合并所述第四样本集合和第五样本集合，得到代替所述第四样本集合的第六样本集合，作为训练所述第四识别模型的输入，避免再根据这两个样本集合之间的相似性数据符合预设要求来确定两者可以合并的过程，利用历史计算的结果，提高了确定两个样本集合可以合并的效率。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了样本集合之间的相似性的示意图；

图2示出了数据处理过程的示意图；

图3示出了根据本申请实施例一的一种数据处理方法实施例的流程图；

图4示出了根据本申请实施例二的一种数据处理方法实施例的流程图；

图5示出了根据本申请实施例三的一种数据处理方法实施例的流程图；

图6示出了根据本申请实施例四的一种风险识别方法实施例的流程图；

图7示出了数据处理流程的示意图；

图8示出了风险识别流程的示意图；

图9示出了根据本申请实施例五的一种数据处理装置实施例的结构框图；

图10示出了根据本申请实施例六的一种风险识别装置实施例的结构框图；

图11示出了可被用于实现本公开中所述的各个实施例的示例性系统。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为使本领域技术人员更好地理解本申请，以下对本申请涉及的概念进行说明：

识别模型包括识别风险的模型、识别图像的模型、识别行为的模型等，具体可以包括任意适用的识别模型，本申请实施例对此不做限制。在本申请中，将训练过程中存在样本不足问题的识别模型，记为第一识别模型。训练识别模型需要样本集合，样本集合中包括多个样本。将用于训练第一识别模型的样本集合，记为第一样本集合。

第二样本集合是与第一样本集合不同的样本集合。区别于第一样本集合用于训练第一识别模型，第二样本集合可以用于训练第二识别模型。第二样本集合可以包括多个，不同的第二样本集合可以分别用于训练不同的第二识别模型，也可以用于训练相同的第二识别模型。值得说明的是，第二样本集合可以用于第二识别模型的训练，但并非一定已经发生了第二识别模型的训练过程。

例如，A电子商务平台中，通过投诉、客户满意度调查、舆情、举报等风险感知渠道，可以收集到相应的风险样本(例如，发生风险的卖家及其相关信息、或者发生风险的交易行为及其相关信息等)，风险样本可以组成第一样本集合。该第一样本集合可以用于训练识别A电子商务平台中具有风险的卖家商铺或交易行为的识别模型，即第一识别模型。但是由于收集到的风险样本很少，若直接将第一样本集合作为训练黑样本，会使得建立的第一识别模型出现过拟合的现象，识别效果不理想。而B电子商务平台中，可以收集到更多的风险样本，组成第二样本集合，该第二样本集合原本可以用于训练识别B电子商务平台中具有风险的卖家商铺或交易行为的识别模型，即第二识别模型。

样本集合和样本集合之间具有相似性，可以用相似性数据表征。下面以A电子商务平台、B电子商务平台和C视频传播平台为例，从三个平台中收集的样本集合，两两样本集合之间具有相似性，但是平台A和平台B同属于电子商务平台，因此通常第一样本集合和第二样本集合之间具有更高的相似性。

样本集合之间的相似性数据可以通过对两个样本集合进行比较确定，或者可以通过对两个样本集合中的样本进行聚类，根据聚类结果确定，或者其他任意适用的方式确定相似性数据，本申请实施例对此不做限制。相似性数据可以采用文字、符号、数字等各种方式表征，也可以结合多种表征方式。当有多个第二样本集合时，每个第二样本集合和第一样本集合分别确定一个相似性数据，即一个第二样本集合对应有一个相似性数据。

第一样本集合和至少一个第二样本集合合并后，得到的样本集合，记为第三样本集合。由于第一样本集合和至少一个第二样本集合之间的相似性数据符合预设要求，即表明第一样本集合和至少一个第二样本集合比较相似，可以将至少一个第二样本集合并入第一样本集合。第三样本集合可以代替第一样本集合，作为训练第一识别模型的输入。通过样本集合的合并，对第一样本集合进行了扩源，解决了第一识别模型训练时样本不足的问题，在第一样本集合不丢失信息的同时，实现了第一识别模型可以识别与第二样本集合类似的数据的目的。

在本申请的一种可选实施例中，样本集合的来源可以是数据系统，数据系统可以为任意包含有至少一种形式的数据的系统，例如包含有卖家信息、举报信息、交易信息等的电商交易系统，或者包含有发布者信息、评论信息等的视频传播系统等。其中，第一样本集合来源于第一数据系统，第二样本集合来源于第二数据系统。

在本申请的一种可选实施例中，若随意选择第二样本集合，由于第一样本集合和第二样本集合之间的相似性数据符合预设要求的可能性是不高的，而样本集合来源于数据系统，因此第二数据系统的选择十分重要。选择第二数据系统可以依据第一数据系统的系统属性。系统属性包括但不限于：系统中的用户行为、系统中的内容等，本申请实施例对此不做限制。

在本申请的一种可选实施例中，第一样本集合中的样本，记为第一样本，第二样本集合中的样本，记为第二样本。将第一样本和第二样本放在一起进行聚类，可以得到聚类结果。聚类是以相似性为基础，聚类分析是由若干模式组成的，通常，模式是一个度量的向量，或者是多维空间中的一个点。在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。

在本申请的一种可选实施例中，根据所述聚类结果，确定所述第一样本集合和第二样本集合之间的相似性数据的一种实现方式可以包括：计算所述聚类结果中与所述第二样本归于同一类的第一样本的数量和所述第一样本的总数量的比值，作为所述相似性数据。

如图1所示的样本集合之间的相似性的示意图，对第一样本集合中的第一样本和第二样本集合中的第二样本一起进行聚类，得到4个聚类。每一类中有不同的样本，聚类1中有3个第一样本和若干第二样本，聚类2中有1个第一样本和若干第二样本，聚类3中没有第一样本但有若干第二样本，聚类4中有2个第一样本但没有第二样本。归于同一类的第一样本和第二样本是相似的，因此，计算出与第二样本归于同一类的第一样本的数量和第一样本的总数量的比值，这一比值可以表征与第二样本相似的第一样本在第一样本集合中的占比，这一比值越大表明第一样本集合和第二样本集合越相似，可以作为第一样本集合和第二样本集合之间的相似性数据。

在本申请的一种可选实施例中，在对第一样本集合中的第一样本和第二样本集合中的第二样本进行聚类之前，需要对第一样本和第二样本进行归一化处理和/或向量化处理。其中，归一化处理可以有多种形式，例如，把数值变为(0，1)之前的小数，或者把有量纲表达式变为无量纲表达式，以便后续对数据进行处理，或者其他任意适用的方式，本申请实施例对此不做限制。向量化处理用于将文本或图片等数学化，例如，把自然语言这种符号信息转化成向量形式的数字信息，也就把自然语言理解的问题转化为机器学习的问题，One-hot编码(独热编码)、Word2vec(word to vector，词语转向量)等。

在本申请的一种可选实施例中，引入另一个在训练过程中存在样本不足问题的识别模型，记为第四识别模型。将用于训练第四识别模型的样本集合，记为第四样本集合。相应的，引入第五识别模型，以及用于训练第五识别模型的第五样本集合。第四样本集合和第五样本集合也需要确定是否可以通过合并的方式，以解决第四样本集合中样本不足的问题。

在本申请的一种可选实施例中，为了描述样本集合所具有的规律或性质，可以计算出样本集合的特征数据。特征数据包括但不限于：样本集合中样本的分布、样本集合中样本的某些方面的数值的均值等，本申请实施例对此不做限制。若两个样本集合的特征数据匹配，例如，两个样本集合的特征数据之间的差值小于设定阈值，就可以认为两个样本集合也是匹配的。

在本申请的一种可选实施例中，第一识别模型和第二识别模型为相同的识别模型，也就是说，第一识别模型和第二识别模型的结构相同，例如，第一识别模型为B电商交易系统的风险识别模型，第二识别模型为B电商交易系统的风险识别模型，两个识别模型除了用于训练的样本数据不同之外完全相同。

根据本申请的一种实施例，在识别模型的训练过程中，样本过少会导致模型出现过拟合的现象，继而导致用模型进行推测的覆盖率不高的问题。如图2所示的数据处理过程的示意图，本申请提供了一种数据处理机制，通过获取用于训练第一识别模型的第一样本集合，以及至少一个第二样本集合，其中，所述至少一个第二样本集合用于训练第二识别模型；确定所述第一样本集合和至少一个第二样本集合之间的相似性数据符合预设要求；合并所述第一样本集合和至少一个第二样本集合，得到代替所述第一样本集合的第三样本集合，作为训练所述第一识别模型的输入，从而补充了用于训练第一识别模型的样本，避免了因第一样本集合中样本数量过少导致第一识别模型的过拟合问题，继而提高了第一识别模型识别的覆盖率，提升识别效果。本申请适用但不局限于上述应用场景。

参照图3，示出了根据本申请实施例一的一种数据处理方法实施例的流程图，该方法具体可以包括以下步骤：

步骤101，获取用于训练第一识别模型的第一样本集合，以及至少一个第二样本集合，其中，所述至少一个第二样本集合用于训练第二识别模型。

在本申请实施例中，用于训练第一识别模型的第一样本集合存在样本不足的问题，为了解决这一问题，获取第一样本集合，以及至少一个第二样本集合。获取用于训练第一识别模型的第一样本集合，以及至少一个第二样本集合的实现方式可以包括多种，例如，从第一数据系统获取第一样本集合，从第二数据系统获取第二样本集合，或者其他任意适用的实现方式，本申请实施例对此不做限制。

步骤102，确定所述第一样本集合和至少一个第二样本集合之间的相似性数据符合预设要求。

在本申请实施例中，为了确定第一样本集合和至少一个第二样本集合是否能够合并，需要先确定第一样本集合和至少一个第二样本集合之间是否足够相似，即通过确定第一样本集合和至少一个第二样本集合之间的相似性数据符合预设要求来实现。例如，相似性数据为一个分值，若这一分值高于预设阈值，即符合预设要求。具体可以根据实际需要设定适用的预设要求，本申请实施例对预设要求不做限制。

在本申请实施例中，确定第一样本集合和至少一个第二样本集合之间的相似性数据符合预设要求的实现方式可以包括多种，例如，对所述第一样本集合中的第一样本和第二样本集合中的第二样本进行聚类，根据所述聚类结果，确定所述第一样本集合和第二样本集合之间的相似性数据，确定所述相似性数据符合预设要求，或者其他任意适用的实现方式，本申请实施例对此不做限制。当第二样本集合有多种时，可以分别确定每个第二样本集合和第一样本集合之间的相似性数据，然后分别确定每个相似性数据是否符合预设要求，其中符合预设要求的相似性数据对应的第二样本集合可以与第一样本集合进行合并，而不符合预设要求的相似性数据对应的第二样本集合则不可以与第一样本集合进行合并。

步骤103，合并所述第一样本集合和至少一个第二样本集合，得到代替所述第一样本集合的第三样本集合，作为训练所述第一识别模型的输入。

在本申请的一种可选实施例中，在合并所述第一样本集合和第二样本集合，得到代替所述第一样本集合的第三样本集合，作为训练所述第一识别模型的输入之后，还可以包括：确定以所述第三样本集合为输入训练得到的第一识别模型符合评估要求；提供所述第一识别模型。

由于采用了第三样本集合代替第一样本集合来作为输入，训练得到的第一识别模型是否仍能准确进行识别，因此可以对第一识别模型进行评估，若第一识别模型符合评估要求，则可以提供第一识别模型。例如，通过对第一识别模型测试，得到覆盖率、准确率、召回率等评估指标，若这些评估指标符合评估要求，则可以将第一识别模型部署上线。

参照图4，示出了根据本申请实施例二的一种数据处理方法实施例的流程图，该方法具体可以包括以下步骤：

步骤201，从第一数据系统获取所述第一样本集合。

在本申请实施例中，为了对第一数据系统中的风险、或图像、或行为进行识别，需要从第一数据系统获取第一样本集合。例如，从A电子商务平台的数据系统，获取各个卖家商铺的相关信息，将每个卖家商铺及其相关信息作为一个样本，组成第一样本集合。

步骤202，从第二数据系统获取所述第二样本集合。

在本申请实施例中，可选地，在从第二数据系统获取所述第二样本集合之前，还可以包括：根据所述第一数据系统的系统属性，选取与所述第一数据系统匹配的第二数据系统。

当第一数据系统和第二数据系统的系统属性相匹配时，表明两个数据系统的样本集合也会具有相似的规律，导致第一样本集合和第二样本集合之间的相似性数据更容易符合预设要求的可能性，继而提高了第二样本集合和第一样本集合能合并的概率。例如，对于A电子商务平台和B电子商务平台来说，两个数据系统的系统属性相匹配，因此可以选择B电子商务平台的数据系统，并从中获取第二样本集合。

在本申请实施例中，可选地，在对所述第一样本集合中的第一样本和第二样本集合中的第二样本进行聚类之前，还可以包括：

子步骤S1，合并所述第一样本集合和第二样本集合。

子步骤S2，对所述第一样本和第二样本进行归一化处理和/或向量化处理。

对第一样本和第二样本聚类之前，需将两个样本集合先合并在一起，然后对第一样本和第二样本进行处理。针对数值，为保证统一量纲，采用极值归一或指数归一等数值归一化处理。针对文本或图片等，需要转成向量来表示文本或图片等。

步骤203，对所述第一样本集合中的第一样本和第二样本集合中的第二样本进行聚类。

在本申请实施例中，将第一样本和第二样本放在一起进行聚类，例如，k-means(k-均值)聚类算法，指定聚类个数为k，将样本划分成k个聚类。其中，聚类个数越多，相似精度越高。

步骤204，根据所述聚类结果，确定所述第一样本集合和第二样本集合之间的相似性数据。

在本申请实施例中，根据聚类结果，确定的相似性数据可以包括多种，例如，计算聚类结果中与第二样本归于同一类的第一样本的数量和第一样本的总数量的比值，作为相似性数据，或者计算聚类结果中与第一样本归于同一类的第二样本的数量和第二样本的总数量的比值，作为相似性数据，或者其他任意适用的方式确定的相似性数据，本申请实施例对此不做限制。

步骤205，确定所述相似性数据符合预设要求。

在本申请实施例中，判断相似性数据是否符合预设要求，若符合预设要求，则可以执行步骤206，对样本集合进行合并，若不符合预设要求，则无法对样本集合进行合并。

步骤206，合并所述第一样本集合和至少一个第二样本集合，得到代替所述第一样本集合的第三样本集合。

步骤207，对所述第三样本集合添加第一标记数据。

在本申请实施例中，在有监督学习方式的训练过程中，需要为样本添加标记数据，因此，为第三样本集合添加第一标记数据。

步骤208，提供与所述第三样本集合对应的第七样本集合，为所述第七样本集合添加第二标记数据。

在本申请实施例中，二分类的有监督学习方式的训练过程，除了需要第三样本集合中的样本外，还需要另一类型的样本，提供与第三样本集合对应的第七样本集合，并为第七样本集合添加第二标记数据。若是多分类的有监督学习方式，还可以包括其他样本集合，添加其他标记数据，本申请实施例对此不做限制。

例如，第一样本集合为具有风险的卖家样本的集合，第二样本集合为具有风险的卖家样本的集合，合并得到的第三样本集合为一个黑样本集合，在为第三样本集合打上黑样本标签后，需要增加相应的白样本数据，即没有风险的卖家样本，白样本数据可以来源于第一数据系统，也可以有第二数据系统中的样本数据。

步骤209，合并所述第三样本集合和第七样本集合，得到第八样本集合，作为有监督学习网络的输入对所述第一识别模型进行训练。

在本申请实施例中，标记有第一标记数据和第二标记数据的两个样本集合合并后，得到第八样本集合，作为有监督学习网络的输入，对第一识别模型进行训练。例如，将第八样本集合输入深度学习网络(DNN，Deep Neural Network)进行模型训练。

在本申请实施例中，可选地，在合并所述第三样本集合和第七样本集合，得到第八样本集合，作为有监督学习网络的输入对所述第一识别模型进行训练之后，还可以包括：对所述第八样本集合进行以下至少一种处理：归一化处理、向量化处理、异常值平滑处理、缺失值处理、特征筛选处理。

依据本申请实施例，通过从第一数据系统获取所述第一样本集合，从第二数据系统获取所述第二样本集合，对所述第一样本集合中的第一样本和第二样本集合中的第二样本进行聚类，根据所述聚类结果，确定所述第一样本集合和第二样本集合之间的相似性数据，确定所述相似性数据符合预设要求，合并所述第一样本集合和至少一个第二样本集合，得到代替所述第一样本集合的第三样本集合，对所述第三样本集合添加第一标记数据，提供与所述第三样本集合对应的第七样本集合，为所述第七样本集合添加第二标记数据，合并所述第三样本集合和第七样本集合，得到第八样本集合，作为有监督学习网络的输入对所述第一识别模型进行训练，从而补充了用于训练第一识别模型的样本，避免了因第一样本集合中样本数量过少导致第一识别模型的过拟合问题，继而提高了第一识别模型的识别的覆盖率，提升识别效果。

参照图5，示出了根据本申请实施例三的一种数据处理方法实施例的流程图，该方法具体可以包括以下步骤：

步骤301，获取用于训练第一识别模型的第一样本集合，以及至少一个第二样本集合，其中，所述至少一个第二样本集合用于训练第二识别模型。

步骤302，确定所述第一样本集合和至少一个第二样本集合之间的相似性数据符合预设要求。

在本申请实施例中，第一样本集合和第二样本集合之间的相似性数据符合预设要求后，可以将这一结果保存下来，作为历史经验，以便后续高效地确定两个样本集合是否可以合并。

步骤303，合并所述第一样本集合和至少一个第二样本集合，得到代替所述第一样本集合的第三样本集合，作为训练所述第一识别模型的输入。

步骤304，获取用于训练第四识别模型的第四样本集合和用于训练第五识别模型的第五样本集合。

在本申请实施例中，第四样本集合和第五样本集合为另一对需要确定是否可以合并的样本集合，由于历史上已经确定过第一样本集合和第二样本集合可以合并，因此第一样本集合和第二样本集合的历史经验，可以用于确定第四样本集合和第五样本集合是否可以合并。

步骤305，确定所述第四样本集合与第一样本集合匹配，并且所述第五样本集合与第二样本集合匹配。

在本申请实施例中，确定第四样本集合和第一样本集合是否匹配，以及第五样本集合和第二样本集合是否匹配。具体可以包括多种实现方式，例如：根据样本集合的特征数据来确定两个样本集合是否匹配，或者，比较两个样本集合得到相似性数据，根据相似性数据确定两个样本集合是否匹配，具体可以包括任意适用的实现方式，本申请实施例对此不做限制。

在本申请实施例中，可选地，在确定第一样本集合和至少一个第二样本集合之间的相似性数据符合预设要求之前，还可以包括：确定第一样本集合的特征数据和第二样本集合的特征数据。之后，确定第四样本集合与第一样本集合匹配，并且第五样本集合与第二样本集合匹配的一种实现方式可以包括：确定所述第四样本集合的特征数据和第五样本集合的特征数据，确定所述第四样本集合的特征数据与第一样本集合的特征数据匹配，并且所述第五样本集合的特征数据与第二样本集合的特征数据匹配，则所述第四样本集合与第一样本集合匹配，并且所述第五样本集合与第二样本集合匹配。

例如，将历史上根据两个样本集合之间的相似性数据符合预设要求，确定可以进行合并的两个样本集合及其特征数据和相似性数据记录下来，保存到样本专家库中。当再有两个样本集合需要确定是否可以合并时，先采用上述方式根据特征数据对样本集合进行匹配，若这两个样本集合与样本专家库中记录的可以合并的两个样本集合都匹配，则表明这两个样本集合符合可以合并的样本集合的规律或性质，可以进行合并，避免再根据这两个样本集合之间的相似性数据符合预设要求来确定两者可以合并的过程，提高了确定两个样本集合可以合并的效率。

步骤306，合并所述第四样本集合和第五样本集合，得到代替所述第四样本集合的第六样本集合，作为训练所述第四识别模型的输入。

在本申请实施例中，可选地，在合并所述第四样本集合和第五样本集合，得到代替所述第四样本集合的第六样本集合，作为训练所述第四识别模型的输入之前，还可以包括：确定所述第四样本集合的样本属性和第五样本集合的样本属性满足预设属性条件。

为保证第四样本集合和第五样本集合之间的拟合度足够高，在进行合并之前，需要确定两个样本集合的样本属性是否满足预设属性条件。例如，第四样本集合中的样本属性是买家，而第五样本集合中的样本属性是卖家，买家和卖家属于两种样本属性，不满足预设属性条件，则确定两个样本集合无法进行合并。

依据本申请实施例，通过获取用于训练第一识别模型的第一样本集合，以及至少一个第二样本集合，其中，所述至少一个第二样本集合用于训练第二识别模型；确定所述第一样本集合和至少一个第二样本集合之间的相似性数据符合预设要求；合并所述第一样本集合和至少一个第二样本集合，得到代替所述第一样本集合的第三样本集合，作为训练所述第一识别模型的输入，从而补充了用于训练第一识别模型的样本，避免了因第一样本集合中样本数量过少导致第一识别模型的过拟合问题，继而提高了第一识别模型识别的覆盖率。

参照图6，示出了根据本申请实施例四的一种风险识别方法实施例的流程图，该方法具体可以包括以下步骤：

步骤401，以代替第一样本集合的第三样本集合为输入，训练得到第一风险识别模型，其中，所述第三样本集合通过获取用于训练第一风险识别模型的第一样本集合，以及至少一个第二样本集合，其中，所述至少一个第二样本集合用于训练第二风险识别模型，确定所述第一样本集合和至少一个第二样本集合之间的相似性数据符合预设要求，合并所述第一样本集合和第二样本集合得到。

在本申请实施例中，第一风险识别模型用于识别风险数据，例如，具有风险的卖家、具有风险的交易行为等。采用前述实施例中的描述的方式，将第一样本集合和第二样本集合进行合并，得到的第三样本集合作为输入，补充第一样本集合中的样本数量。

步骤402，采用所述第一风险识别模型，识别风险数据。

依据本申请实施例，通过以代替第一样本集合的第三样本集合为输入，训练得到第一风险识别模型，采用所述第一风险识别模型，识别风险数据，其中，所述第三样本集合通过获取用于训练第一风险识别模型的第一样本集合，以及至少一个第二样本集合，其中，所述至少一个第二样本集合用于训练第二风险识别模型，确定所述第一样本集合和至少一个第二样本集合之间的相似性数据符合预设要求，合并所述第一样本集合和第二样本集合得到，从而补充了用于训练第一风险识别模型的样本，避免了因第一样本集合中样本数量过少导致第一风险识别模型的过拟合问题，继而提高了第一风险识别模型识别的覆盖率。

为使本领域技术人员更好地理解本申请，以下通过具体的示例对本申请的一种数据处理方法和一种风险识别方法进行说明。

参见图7，示出了数据处理流程的示意图。

步骤1，选取小样本，即第四样本集合，以及选取大样本，即第五样本集合。

步骤2，专家库匹配。样本专家库中保存有历史上确定可以合并的样本集合及其特征数据和相似性数据，如第一样本集合和第二样本集合。确定第四样本集合和第一样本集合是否匹配，并第五样本集合和第二样本集合是否匹配。

步骤3，若样本专家库中无法找到匹配的样本集合，则需要确定第四样本集合和第五样本集合之间的相似性数据是否符合预设要求。具体需要经过：选取小样本，选择大样本，大小样本合并，归一化处理，向量化处理，聚类算法，根据聚类结果计算相似性数据等过程，若相似性数据符合预设要求，则可以将第四样本集合和第五样本集合也写入样本专家库。

步骤4，若样本专家库中可以匹配到样本集合，则推荐大样本(即第五样本集合)作为适合与小样本(即第四样本集合)合并的样本集合。对大样本进行分析，可以根据大样本的样本属性确定大样本是否与小样本符合预设属性条件。若不符合，则需要重新推荐大样本。若符合，则合并大小样本作为黑样本，并提供相应的白样本。

步骤5，将黑样本和白样本合并。

步骤6，特征工程。对黑样本和白样本进行归一化处理、向量化处理、异常值平滑处理、缺失值处理、特征筛选处理等特征工程。

步骤7，深度学习建模。将黑样本和白样本作为深度学习网络的输入，进行模型训练。

步骤8，对模型进行评估，确定训练得到的模型符合评估要求。若不符合评估要求，则重新进行特征工程和深度学习建模。若符合评估要求，则将模型进行保存，并部署上线。

步骤9，对线上数据进行模型预测。对线上数据进行特征工程，采用部署上线的模型进行模型预测。

参见图8，示出了风险识别流程的示意图。

步骤1，通过客户满意度调查、举报信息等风险感知入口，获取欺诈、假货、违禁等黑样本。

步骤2，获取模型因子。获取训练模型所需的样本数据的因子。

步骤3，对样本进行特征工程。

步骤4，选择算法，训练模型，评估模型。

步骤5，保存模型。

步骤6，输入生产数据。

步骤7，采用保存的模型对生产数据进行模型预测。

步骤8，对风险进行线上防控。

步骤9，模型识别风险，对模型识别的风险进行审核。

参照图9，示出了根据本申请实施例五的一种数据处理装置实施例的结构框图，具体可以包括：

集合获取模块501，用于获取用于训练第一识别模型的第一样本集合，以及至少一个第二样本集合，其中，所述至少一个第二样本集合用于训练第二识别模型；

确定模块502，用于确定所述第一样本集合和至少一个第二样本集合之间的相似性数据符合预设要求；

合并模块503，用于合并所述第一样本集合和至少一个第二样本集合，得到代替所述第一样本集合的第三样本集合，作为训练所述第一识别模型的输入。

在本申请实施例中，可选地，所述确定模块包括：

聚类子模块，用于对所述第一样本集合中的第一样本和第二样本集合中的第二样本进行聚类；

数据确定子模块，用于根据所述聚类结果，确定所述第一样本集合和第二样本集合之间的相似性数据；

确定子模块，用于确定所述相似性数据符合预设要求。

在本申请实施例中，可选地，所述数据确定子模块包括：

计算单元，用于计算所述聚类结果中与所述第二样本归于同一类的第一样本的数量和所述第一样本的总数量的比值，作为所述相似性数据。

在本申请实施例中，可选地，所述装置还包括：

第一合并模块，用于在所述对所述第一样本集合中的第一样本和第二样本集合中的第二样本进行聚类之前，合并所述第一样本集合和第二样本集合；

处理模块，用于对所述第一样本和第二样本进行归一化处理和/或向量化处理。

在本申请实施例中，可选地，所述集合获取模块包括：

第一集合获取子模块，用于从第一数据系统获取所述第一样本集合；

第二集合获取子模块，用于从第二数据系统获取所述第二样本集合。

在本申请实施例中，可选地，所述装置还包括：

系统选取模块，用于在所述从第二数据系统获取所述第二样本集合之前，根据所述第一数据系统的系统属性，选取与所述第一数据系统匹配的第二数据系统。

在本申请实施例中，可选地，所述装置还包括：

第二集合获取模块，用于在所述确定所述第一样本集合和至少一个第二样本集合之间的相似性数据符合预设要求之后，获取用于训练第四识别模型的第四样本集合和用于训练第五识别模型的第五样本集合；

匹配确定模块，用于确定所述第四样本集合与第一样本集合匹配，并且所述第五样本集合与第二样本集合匹配；

第二合并模块，用于合并所述第四样本集合和第五样本集合，得到代替所述第四样本集合的第六样本集合，作为训练所述第四识别模型的输入。

在本申请实施例中，可选地，所述装置还包括：

特征确定模块，用于在所述确定所述第一样本集合和至少一个第二样本集合之间的相似性数据符合预设要求之前，确定所述第一样本集合的特征数据和第二样本集合的特征数据；

所述匹配确定模块包括：

特征确定子模块，用于确定所述第四样本集合的特征数据和第五样本集合的特征数据；

匹配确定子模块，用于确定所述第四样本集合的特征数据与第一样本集合的特征数据匹配，并且所述第五样本集合的特征数据与第二样本集合的特征数据匹配，则所述第四样本集合与第一样本集合匹配，并且所述第五样本集合与第二样本集合匹配。

在本申请实施例中，可选地，所述装置还包括：

属性条件确定模块，用于在所述合并所述第四样本集合和第五样本集合，得到代替所述第四样本集合的第六样本集合，作为训练所述第四识别模型的输入之前，确定所述第四样本集合的样本属性和第五样本集合的样本属性满足预设属性条件。

在本申请实施例中，可选地，所述装置还包括：

第一添加模块，用于在所述合并所述第一样本集合和第二样本集合，得到代替所述第一样本集合的第三样本集合之后，对所述第三样本集合添加第一标记数据；

第二添加模块，用于提供与所述第三样本集合对应的第七样本集合，为所述第七样本集合添加第二标记数据；

第三合并模块，用于合并所述第三样本集合和第七样本集合，得到第八样本集合，作为有监督学习网络的输入对所述第一识别模型进行训练。

在本申请实施例中，可选地，所述装置包括：

集合处理模块，用于在所述合并所述第三样本集合和第七样本集合，得到第八样本集合，作为有监督学习网络的输入对所述第一识别模型进行训练之后，对所述第八样本集合进行以下至少一种处理：归一化处理、向量化处理、异常值平滑处理、缺失值处理、特征筛选处理。

在本申请实施例中，可选地，所述装置还包括：

评估模块，用于在所述合并所述第一样本集合和第二样本集合，得到代替所述第一样本集合的第三样本集合，作为训练所述第一识别模型的输入之后，确定以所述第三样本集合为输入训练得到的第一识别模型符合评估要求；

模型提供模块，用于提供所述第一识别模型。

在本申请实施例中，可选地，所述第一识别模型和第二识别模型为相同的识别模型。

参照图10，示出了根据本申请实施例六的一种风险识别装置实施例的结构框图，具体可以包括：

训练模块601，用于以代替第一样本集合的第三样本集合为输入，训练得到第一风险识别模型，其中，所述第三样本集合通过获取用于训练第一风险识别模型的第一样本集合，以及至少一个第二样本集合，其中，所述至少一个第二样本集合用于训练第二风险识别模型，确定所述第一样本集合和至少一个第二样本集合之间的相似性数据符合预设要求，合并所述第一样本集合和第二样本集合得到；

识别模块602，用于采用所述第一风险识别模型，识别风险数据。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开的实施例可被实现为使用任意适当的硬件，固件，软件，或及其任意组合进行想要的配置的系统。图11示意性地示出了可被用于实现本公开中所述的各个实施例的示例性系统(或装置)800。

对于一个实施例，图11示出了示例性系统800，该系统具有一个或多个处理器802、被耦合到(一个或多个)处理器802中的至少一个的系统控制模块(芯片组)804、被耦合到系统控制模块804的系统存储器806、被耦合到系统控制模块804的非易失性存储器(NVM)/存储设备808、被耦合到系统控制模块804的一个或多个输入/输出设备810，以及被耦合到系统控制模块806的网络接口812。

处理器802可包括一个或多个单核或多核处理器，处理器802可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中，系统800能够作为本申请实施例中所述的浏览器。

在一些实施例中，系统800可包括具有指令的一个或多个计算机可读介质(例如，系统存储器806或NVM/存储设备808)以及与该一个或多个计算机可读介质相合并被配置为执行指令以实现模块从而执行本公开中所述的动作的一个或多个处理器802。

对于一个实施例，系统控制模块804可包括任意适当的接口控制器，以向(一个或多个)处理器802中的至少一个和/或与系统控制模块804通信的任意适当的设备或组件提供任意适当的接口。

系统控制模块804可包括存储器控制器模块，以向系统存储器806提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。

系统存储器806可被用于例如为系统800加载和存储数据和/或指令。对于一个实施例，系统存储器806可包括任意适当的易失性存储器，例如，适当的DRAM。在一些实施例中，系统存储器806可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。

对于一个实施例，系统控制模块804可包括一个或多个输入/输出控制器，以向NVM/存储设备808及(一个或多个)输入/输出设备810提供接口。

例如，NVM/存储设备808可被用于存储数据和/或指令。NVM/存储设备808可包括任意适当的非易失性存储器(例如，闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如，一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。

NVM/存储设备808可包括在物理上作为系统800被安装在其上的设备的一部分的存储资源，或者其可被该设备访问而不必作为该设备的一部分。例如，NVM/存储设备808可通过网络经由(一个或多个)输入/输出设备810进行访问。

(一个或多个)输入/输出设备810可为系统800提供接口以与任意其他适当的设备通信，输入/输出设备810可以包括通信组件、音频组件、传感器组件等。网络接口812可为系统800提供接口以通过一个或多个网络通信，系统800可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信，例如接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合进行无线通信。

对于一个实施例，(一个或多个)处理器802中的至少一个可与系统控制模块804的一个或多个控制器(例如，存储器控制器模块)的逻辑封装在一起。对于一个实施例，(一个或多个)处理器802中的至少一个可与系统控制模块804的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例，(一个或多个)处理器802中的至少一个可与系统控制模块804的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例，(一个或多个)处理器802中的至少一个可与系统控制模块804的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。

在各个实施例中，系统800可以但不限于是：浏览器、工作站、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)。在各个实施例中，系统800可具有更多或更少的组件和/或不同的架构。例如，在一些实施例中，系统800包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。

其中，如果显示器包括触摸面板，显示屏可以被实现为触屏显示器，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

本申请实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块(programs)，该一个或多个模块被应用在终端设备时，可以使得该终端设备执行本申请实施例中各方法步骤的指令(instructions)。

在一个示例中提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如本申请实施例的方法。

在一个示例中还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如本申请实施例的一个或多个的方法。

本申请实施例公开了一种数据处理方法和装置，示例1包括一种数据处理方法，其特征在于，包括：

示例2可包括示例1所述的方法，其中，所述确定所述第一样本集合和至少一个第二样本集合之间的相似性数据符合预设要求包括：

确定所述相似性数据符合预设要求。

示例3可包括示例1和/或示例2所述的方法，其中，所述根据所述聚类结果，确定所述第一样本集合和第二样本集合之间的相似性数据包括：

示例4可包括示例1-示例3一个或多个所述的方法，其中，在所述对所述第一样本集合中的第一样本和第二样本集合中的第二样本进行聚类之前，所述方法还包括：

合并所述第一样本集合和第二样本集合；

示例5可包括示例1-示例4一个或多个所述的方法，其中，所述获取用于训练第一识别模型的第一样本集合，以及至少一个第二样本集合包括：

从第一数据系统获取所述第一样本集合；

从第二数据系统获取所述第二样本集合。

示例6可包括示例1-示例5一个或多个所述的方法，其中，在所述从第二数据系统获取所述第二样本集合之前，所述方法还包括：

示例7可包括示例1-示例6一个或多个所述的方法，其中，在所述确定所述第一样本集合和至少一个第二样本集合之间的相似性数据符合预设要求之后，所述方法还包括：

示例8可包括示例1-示例7一个或多个所述的方法，其中，在所述确定所述第一样本集合和至少一个第二样本集合之间的相似性数据符合预设要求之前，所述方法还包括：

示例9可包括示例1-示例8一个或多个所述的方法，其中，在所述合并所述第四样本集合和第五样本集合，得到代替所述第四样本集合的第六样本集合，作为训练所述第四识别模型的输入之前，所述方法还包括：

示例10可包括示例1-示例9一个或多个所述的方法，其中，在所述合并所述第一样本集合和第二样本集合，得到代替所述第一样本集合的第三样本集合之后，所述方法还包括：

对所述第三样本集合添加第一标记数据；

示例11可包括示例1-示例10一个或多个所述的方法，其中，在所述合并所述第三样本集合和第七样本集合，得到第八样本集合，作为有监督学习网络的输入对所述第一识别模型进行训练之后，所述方法包括：

示例12可包括示例1-示例11一个或多个所述的方法，其中，在所述合并所述第一样本集合和第二样本集合，得到代替所述第一样本集合的第三样本集合，作为训练所述第一识别模型的输入之后，所述方法还包括：

提供所述第一识别模型。

示例13可包括示例1-示例12一个或多个所述的方法，其中，所述第一识别模型和第二识别模型为相同的识别模型。

示例14包括一种风险识别方法，包括：

采用所述第一风险识别模型，识别风险数据。

示例15包括一种数据处理装置，包括：

集合获取模块，用于获取用于训练第一识别模型的第一样本集合，以及至少一个第二样本集合，其中，所述至少一个第二样本集合用于训练第二识别模型；

确定模块，用于确定所述第一样本集合和至少一个第二样本集合之间的相似性数据符合预设要求；

合并模块，用于合并所述第一样本集合和至少一个第二样本集合，得到代替所述第一样本集合的第三样本集合，作为训练所述第一识别模型的输入。

示例16可包括示例15所述的装置，其中，所述确定模块包括：

确定子模块，用于确定所述相似性数据符合预设要求。

示例17可包括示例15和/或示例16所述的装置，其中，所述数据确定子模块包括：

示例18可包括示例15-示例17一个或多个所述的装置，其中，所述装置还包括：

示例19可包括示例15-示例18一个或多个所述的装置，其中，所述集合获取模块包括：

示例20可包括示例15-示例19一个或多个所述的装置，其中，所述装置还包括：

示例21可包括示例15-示例20一个或多个所述的装置，其中，所述装置还包括：

示例22可包括示例15-示例21一个或多个所述的装置，其中，所述装置还包括：

所述匹配确定模块包括：

示例23可包括示例15-示例22一个或多个所述的装置，其中，所述装置还包括：

示例24可包括示例15-示例23一个或多个所述的装置，其中，所述装置还包括：

示例25可包括示例15-示例24一个或多个所述的装置，其中，所述装置包括：

示例26可包括示例15-示例25一个或多个所述的装置，其中，所述装置还包括：

模型提供模块，用于提供所述第一识别模型。

示例27可包括示例15-示例26一个或多个所述的装置，其中，所述第一识别模型和第二识别模型为相同的识别模型。

示例28包括一种风险识别装置，包括：

训练模块，用于以代替第一样本集合的第三样本集合为输入，训练得到第一风险识别模型，其中，所述第三样本集合通过获取用于训练第一风险识别模型的第一样本集合，以及至少一个第二样本集合，其中，所述至少一个第二样本集合用于训练第二风险识别模型，确定所述第一样本集合和至少一个第二样本集合之间的相似性数据符合预设要求，合并所述第一样本集合和第二样本集合得到；

识别模块，用于采用所述第一风险识别模型，识别风险数据。

示例29包括一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如示例1-14一个或多个的方法。

示例30包括一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如示例1-14一个或多个的方法。

虽然某些实施例是以说明和描述为目的的，各种各样的替代、和/或、等效的实施方案、或计算来达到同样的目的实施例示出和描述的实现，不脱离本申请的实施范围。本申请旨在覆盖本文讨论的实施例的任何修改或变化。因此，显然本文描述的实施例仅由权利要求和它们的等同物来限定。

Claims

1.一种数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述确定所述第一样本集合和至少一个第二样本集合之间的相似性数据符合预设要求包括：

确定所述相似性数据符合预设要求。

3.根据权利要求2所述的方法，其特征在于，所述根据所述聚类结果，确定所述第一样本集合和第二样本集合之间的相似性数据包括：

4.根据权利要求2所述的方法，其特征在于，在所述对所述第一样本集合中的第一样本和第二样本集合中的第二样本进行聚类之前，所述方法还包括：

合并所述第一样本集合和第二样本集合；

5.根据权利要求1所述的方法，其特征在于，所述获取用于训练第一识别模型的第一样本集合，以及至少一个第二样本集合包括：

从第一数据系统获取所述第一样本集合；

从第二数据系统获取所述第二样本集合。

6.根据权利要求5所述的方法，其特征在于，在所述从第二数据系统获取所述第二样本集合之前，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，在所述确定所述第一样本集合和至少一个第二样本集合之间的相似性数据符合预设要求之后，所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，在所述确定所述第一样本集合和至少一个第二样本集合之间的相似性数据符合预设要求之前，所述方法还包括：

9.根据权利要求7所述的方法，其特征在于，在所述合并所述第四样本集合和第五样本集合，得到代替所述第四样本集合的第六样本集合，作为训练所述第四识别模型的输入之前，所述方法还包括：

10.根据权利要求1所述的方法，其特征在于，在所述合并所述第一样本集合和第二样本集合，得到代替所述第一样本集合的第三样本集合之后，所述方法还包括：

对所述第三样本集合添加第一标记数据；

11.根据权利要求10所述的方法，其特征在于，在所述合并所述第三样本集合和第七样本集合，得到第八样本集合，作为有监督学习网络的输入对所述第一识别模型进行训练之后，所述方法包括：

12.根据权利要求1所述的方法，其特征在于，在所述合并所述第一样本集合和第二样本集合，得到代替所述第一样本集合的第三样本集合，作为训练所述第一识别模型的输入之后，所述方法还包括：

提供所述第一识别模型。

13.根据权利要求1所述的方法，其特征在于，所述第一识别模型和第二识别模型为相同的识别模型。

14.一种风险识别方法，其特征在于，包括：

采用所述第一风险识别模型，识别风险数据。

15.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-14一个或多个的方法。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-14一个或多个的方法。