CN110298541B

CN110298541B - 数据处理方法、装置、计算机设备及存储介质

Info

Publication number: CN110298541B
Application number: CN201910432715.7A
Authority: CN
Inventors: 韩磊
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2019-05-23
Filing date: 2019-05-23
Publication date: 2024-04-09
Anticipated expiration: 2039-05-23
Also published as: CN110298541A

Abstract

本发明公开了一种数据处理方法、装置、计算机设备及存储介质。所述方法包括：获取初始样本数据集合中的样本数据的数量，执行数据采样流程；将待打标数据集合中噪声待打标数据进行清除并保留共性待打标数据；从共性待打标数据中选取第一待打标数据，并复制得到第二待打标数据；对第一待打标数据使用第一打标规则进行数据打标得到第一打标数据，对第二待打标数据使用第二打标规则进行数据打标得到第二打标数据；若第一打标数据中的标注结果和第二打标数据中的标注结果不一致，将第一打标数据和第二打标数据记录为无效数据并将清除。本发明通过提前清除用于模型训练的样本数据中的无效数据，可以提高了模型训练的训练效果和检测效果。

Description

数据处理方法、装置、计算机设备及存储介质

技术领域

本发明涉及数据分析领域，尤其涉及一种数据处理方法、装置、计算机设备及存储介质。

背景技术

目前企业坐席通过企业电话、某种客户端或网页上与客户进行沟通会话，且部分企业坐席可能会发生违规的现象，从而对公司的声誉以及经济效益带来一定的负面影响。因此，公司监管坐席与客户的会话消息就非常重要，监管坐席与客户的会话消息可以用到质检模型，但需要提前训练好一个质检模型，此时，如果用于进行训练的数据有太多的无效数据，就会降低质检模型的检测效果。

因此，寻找一种能够获取一定的有效数据从而可以提高质检模型训练的训练效果和检测效果的技术方案成为本领域技术人员亟需解决的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种数据处理方法、装置、计算机设备及存储介质，用于提高模型训练的训练效果和检测效果。

一种数据处理方法，包括：

获取初始样本数据集合中的样本数据的数量，并执行数据采样流程，且所述数据采样流程的执行次数与所述样本数据的数量一致，所述数据采样流程包括：从所述初始样本数据集合中随机剪切一个样本数据放入待打标数据集合中作为待打标数据，再将剪切的所述样本数据复制之后放回所述初始数据集合中；

将所述待打标数据集合中噪声待打标数据进行清除并保留共性待打标数据，所述噪声待打标数据是指冗余或/和异常错误的待打标数据，所述共性待打标数据是指除所述噪声待打标数据之外的待打标数据；

从所述待打标数据集合的所述共性待打标数据中选取第一待打标数据，并对选取的所述第一待打标数据进行复制之后，得到第二待打标数据；

对所述第一待打标数据使用第一打标规则进行数据打标得到第一打标数据，同时对所述第二待打标数据使用第二打标规则进行数据打标得到第二打标数据，并将所述第一打标数据和所述第二打标数据存储至预设数据库，所述第一打标数据和所述第二打标数据是带有标注结果的打标数据；

判断所述第一打标数据中的标注结果和所述第二打标数据中的标注结果是否一致；

若所述第一打标数据和所述第二打标数据中的标注结果不一致，则将所述第一打标数据和所述第二打标数据记录为无效数据，并将所述第一打标数据和所述第二打标数据从所述预设数据库中清除。

一种数据处理装置，包括：

第一获取模块，用于获取初始样本数据集合中的样本数据的数量，并执行数据采样流程，且所述数据采样流程的执行次数与所述样本数据的数量一致，所述数据采样流程包括：从所述初始样本数据集合中随机剪切一个样本数据放入待打标数据集合中作为待打标数据，再将剪切的所述样本数据复制之后放回所述初始数据集合中；

清除模块，用于将所述待打标数据集合中噪声待打标数据进行清除并保留共性待打标数据，所述噪声待打标数据是指冗余或/和异常错误的待打标数据，所述共性待打标数据是指除所述噪声待打标数据之外的待打标数据；

选取模块，用于从所述待打标数据集合的所述共性待打标数据中选取第一待打标数据，并对选取的所述第一待打标数据进行复制之后，得到第二待打标数据；

数据打标模块，用于对所述第一待打标数据使用第一打标规则进行数据打标得到第一打标数据，同时对所述第二待打标数据使用第二打标规则进行数据打标得到第二打标数据，并将所述第一打标数据和所述第二打标数据存储至预设数据库，所述第一打标数据和所述第二打标数据是带有标注结果的打标数据；

第一判断模块，用于判断所述第一打标数据中的标注结果和所述第二打标数据中的标注结果是否一致；

第一记录模块，用于若所述第一打标数据和所述第二打标数据中的标注结果不一致，则将所述第一打标数据和所述第二打标数据记录为无效数据，并将所述第一打标数据和所述第二打标数据从所述预设数据库中清除。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述数据处理方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述数据处理方法。

上述数据处理方法、装置、计算机设备及存储介质，首先获取初始样本数据集合中的样本数据的数量，并执行数据采样流程，且所述数据采样流程的执行次数与所述样本数据的数量一致，所述数据采样流程包括：从所述初始样本数据集合中随机剪切一个样本数据放入待打标数据集合中作为待打标数据，再将剪切的所述样本数据复制之后放回所述初始数据集合中；接着将所述待打标数据集合中噪声待打标数据进行清除并保留共性待打标数据，所述噪声待打标数据是指冗余或/和异常错误的待打标数据，所述共性待打标数据是指除所述噪声待打标数据之外的待打标数据；再接着从所述待打标数据集合的所述共性待打标数据中选取第一待打标数据，并对选取的所述第一待打标数据进行复制之后，得到第二待打标数据；次之对所述第一待打标数据使用第一打标规则进行数据打标得到第一打标数据，同时对所述第二待打标数据使用第二打标规则进行数据打标得到第二打标数据，并将所述第一打标数据和所述第二打标数据存储至预设数据库，所述第一打标数据和所述第二打标数据是带有标注结果的打标数据；然后判断所述第一打标数据中的标注结果和所述第二打标数据中的标注结果是否一致；最后若所述第一打标数据和所述第二打标数据中的标注结果不一致，则将所述第一打标数据和所述第二打标数据记录为无效数据，并将所述第一打标数据和所述第二打标数据从所述预设数据库中清除。本发明通过执行数据采样流程获取样本数据作为待打标数据，并对第一待打标数据和第二待打标数据进行数据打标，判断所述第一打标数据的标注结果和所述第二打标数据的标注结果是否一致，若不一致，则将所述第一打标数据和所述第二打标数据记录为无效数据，并将所述第一打标数据和所述第二打标数据从所述预设数据库中清除，从而使得被清除的无效数据不会影响模型训练的训练效果，同时提高了该模型的检测效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中数据处理方法的一应用环境示意图；

图2是本发明一实施例中数据处理方法的一流程图；

图3是本发明一实施例中数据处理方法步骤在一个应用环境下判断第一比值是否大于或等于第一预设的比值阈值的流程示意图；

图4是本发明一实施例中数据处理方法步骤S20在一个应用环境下的流程示意图；

图5是本发明一实施例中数据处理方法步骤在一个应用环境下确定第一待打标数据和第二待打标数据分别对应的打标规则的流程示意图；

图6是本发明一实施例中数据处理方法步骤S402在一个应用环境下的流程示意图；

图7是本发明一实施例中数据处理装置的结构示意图；

图8是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的数据处理方法，可应用在如图1的应用环境中，其中，客户端通过网络与服务器进行通信。其中，客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种数据处理方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S10，获取初始样本数据集合中的样本数据的数量，并执行数据采样流程，且所述数据采样流程的执行次数与所述样本数据的数量一致，所述数据采样流程包括：从所述初始样本数据集合中随机剪切一个样本数据放入待打标数据集合中作为待打标数据，再将剪切的所述样本数据复制之后放回所述初始数据集合中。

在此步骤中，为了提前训练一个质检模型，可以预先建立一个初始样本数据集合，该初始样本数据集合的样本数据的数量是固定的。此时，服务器可以执行数据采样流程，直到所述数据采样流程的执行次数与所述样本数据的数量达到一致。比如，有M个样本数据的初始样本数据集合，从该初始样本集合中随机剪切一个样本数据，再将该同样的样本数据粘贴至待打标数据集合中作为待打标数据，并将剪切的所述样本数据复制之后放回所述初始数据集合中，再继续重复从所述样本集合中随机剪切一个样本数据放入待打标数据集合中作为待打标数据，直到待打标数据集合中的待打标数据的数量也达到M个。在一个实施例中，初始样本数据集合中有两个样本数据，分别为a和b；从该初始样本数据集合第一次随机剪切a样本后放入待打标数据集合中，同时将a样本复制出另一个相同的a样本放回初始样本数据集合，因此初始样本数据集合还是为a和b；由于初始样本集合只有两个样本，因此只需要随机剪切两次，而第二次随机剪切的样本也同第一次随机剪切的方法一致，若第二次随机剪切的样本也为a样本，此时，待打标数据集合中的样本为a和a；在另一实施例中，第二次随机剪切的样本为b样本，此时，待打标数据集合中的样本为a和b。

S20，将所述待打标数据集合中噪声待打标数据进行清除并保留共性待打标数据，所述噪声待打标数据是指冗余或/和异常错误的待打标数据，所述共性待打标数据是指除所述噪声待打标数据之外的待打标数据。

可以理解的是，由于上述从所述样本数据集合中剪切一个所述样本数据的过程是随机的，因此可能会导致剪切并粘贴至所述待打标数据集合中的样本数据可能出现重复，同时，由于服务器在上述步骤S10中对所述待打标数据进行数据处理时，也可能会出现异常错误（如乱码），上述冗余或/和异常错误的待打标数据均可以称之为噪声待打标数据，在该步骤S20中，需要对噪声待打标数据进行清除，清除所述噪声待打标数据之后的所述待打标集合中只保留了所述共性待打标数据。

进一步地，如图3所示，为了保证所述待打标集合中存在合理数量的共性待打标数据，所述步骤S20之后，还包括：

S201，获取共性待打标数据的数量。

上述步骤S20可以查找所述共性待打标数据，从而可以确定和记录所述共性待打标数据的数量。在一应用场景中，所述待打标集合可能不存在所述共性待打标数据。

S202，将所述共性待打标数据的数量与所述样本数据的数量的比值记录为第一比值。

在此步骤中，可理解地，当所述共性待打标数据的数量为0个时，由于所述待打标集合不存在所述共性待打标数据，因此所述第一比值为0。当所述共性待打标数据的数量为1个以上时，服务器执行将所述共性待打标数据的数量与所述样本数据的比值记录为第一比值的步骤。

S203，判断所述第一比值是否大于或等于第一预设的比值阈值。

在此步骤中，所述第一预设的比值阈值是根据数据分析方法，从而得到一个所述共性待打标数据的数量应该占所述样本数据的数量的几成才处于一个比较合理的比值。由于所述样本数据的数量是不变的，当大于或等于所述第一预设的比值阈值时，可以说明所述共性待打标数据的数量达到合理数量范围内，即所述共性待打标数据的数量符合要求。当小于所述第一预设的比值阈值时，可以说明所述共性待打标数据的数量处于一个不合理的数量范围内，即所述共性待打标数据的数量不符合要求。

S204，若所述第一比值小于所述第一预设的比值阈值，则提示所述待打标数据集合中的所述共性待打标数据的数量不符合要求，并继续执行所述数据采样流程直至所述第一比值大于或等于所述第一预设的比值阈值。

可以理解的是，当小于所述第一预设的比值阈值时，可以说明所述共性待打标数据的数量处于一个不合理的数量范围内从而达不到要求。此时，可以继续执行所述数据采样流程直至所述第一比值大于或等于所述第一预设的比值阈值。

进一步地，如图4所示，所述步骤S20，包括：

S205，判断所述待打标数据集合中是否存在相同的待打标数据，同时，检测所述待打标数据集合中是否存在所述异常错误的待打标数据。

在本实施例的第一方面，服务器可以通过判断所述待打标数据集合中是否存在相同的待打标数据，来确认所述待打标数据集合中是否存在冗余数据，若存在相同的待打标数据，即该噪声待打标数据中存在冗余的待打标数据；同时，在本实施例的另一方面，还可以将所述待打标数据集合中的待打标数据与预设的正常待打标数据的格式进行匹配，当匹配未成功时，确认所述待打标数据集合中存在异常错误的待打标数据。

S206，若所述待打标数据集合中存在所述相同的待打标数据且并不存在所述异常错误的待打标数据，则确定所述初始样本数据集合中的所述噪声待打标数据仅包含所述冗余的待打标数据，并在保留所述相同的待打标数据中的其中一个之后，将其他的所述相同的待打标数据自所述待打标数据集合中删除。

在此步骤中，当所述待打标数据集合中存在相同的待打标数据且未存在异常错误的待打标数据时，可以说明所述初始样本数据集合中的噪声待打标数据只包含冗余的待打标数据。此时，可以在所述待打标集合中只保留冗余的待打标数据中的一个所述相同的待打标数据，并将其他的所述噪声待打标数据自所述待打标数据集合中删除。

S207，若所述待打标数据集合中存在所述相同的待打标数据且存在所述异常错误的待打标数据，则确定所述初始样本数据集合中的所述噪声待打标数据包含所述冗余的待打标数据和所述异常错误的待打标数据，并在保留所述相同的待打标数据中的其中一个之后，删除剩余的所述噪声待打标数据，同时自另一个初始样本数据集合中剪切与所述异常错误的待打标数据对应且无误的样本数据，并将所述无误的样本数据放入所述待打标数据集合中作为所述待打标数据之后，再将剪切的所述无误的样本数据放回所述另一个初始样本数据集合中。

在此步骤中，当所述待打标数据集合中存在相同的待打标数据且存在异常错误的待打标数据时，可以说明所述初始样本数据集合中的噪声待打标数据包含冗余的待打标数据和异常错误的待打标数据。此时，可以在所述待打标集合中仅保留其中一个所述相同的待打标数据（也即冗余的待打标数据中的一个所述相同的待打标数据），并删除其余的噪声待打标数据，且服务器从所述另一个初始样本数据集合（此另一个初始样本数据集合与尚未进行步骤S10中数据处理的初始样本数据集合中的样本数据相同，其中包含了所述待打标数据集合中所有无误的样本数据）中选择与所述异常错误的待打标数据数量对应一致的且无误的样本数据，并将所述无误的样本数据放入所述待打标数据集合中作为待打标数据之后，再将剪切的所述无误的样本数据放回所述另一个初始样本数据集合中。

在另外一实施例中，若所述待打标数据集合中存在所述相同的待打标数据且存在所述异常错误的待打标数据，则确定所述初始样本数据集合中的所述噪声待打标数据包含所述冗余的待打标数据和所述异常错误的待打标数据，并在保留所述相同的待打标数据中的其中一个之后，删除剩余的所述噪声待打标数据，同时自另一个初始样本数据集合中复制与所述异常错误的待打标数据对应且无误的样本数据，并将所述无误的样本数据放入所述待打标数据集合中作为所述待打标数据。

S208，若所述待打标数据集合中不存在所述相同的待打标数据但存在所述异常错误的待打标数据，则确定所述初始样本数据集合中的所述噪声待打标数据仅包含所述异常错误的待打标数据，并在删除所述噪声待打标数据之后，自另一个初始样本数据集合中剪切与所述异常错误的待打标数据对应且无误的样本数据，并将所述无误的样本数据放入所述待打标数据集合中作为所述待打标数据之后，再将剪切的所述无误的样本数据放回所述另一个初始样本数据集合中。

在此步骤中，当所述待打标数据集合中存在异常错误的待打标数据且不存在相同的待打标数据时，可以说明所述初始样本数据集合中的噪声待打标数据只包含异常错误的待打标数据。此时，服务器可以从另一个初始样本数据集合（此另一个初始样本数据集合与尚未进行步骤S10中数据处理的初始样本数据集合中的样本数据相同，其中包含了所述待打标数据集合中所有无误的样本数据）中剪切与所述异常错误的待打标数据数量对应一致的且无误的样本数据，并将所述无误的样本数据放入所述待打标数据集合中作为待打标数据之后，再将剪切的所述无误的样本数据放回所述另一个初始样本数据集合中。

在另外一实施例中，若所述待打标数据集合中不存在所述相同的待打标数据但存在所述异常错误的待打标数据，则确定所述初始样本数据集合中的所述噪声待打标数据仅包含所述异常错误的待打标数据，并在删除所述噪声待打标数据之后，自另一个初始样本数据集合中复制与所述异常错误的待打标数据对应且无误的样本数据，并将所述无误的样本数据放入所述待打标数据集合中作为所述待打标数据。

S30，从所述待打标数据集合的所述共性待打标数据中选取第一待打标数据，并对选取的所述第一待打标数据进行复制之后，得到第二待打标数据。

可以理解的是，在步骤S20中，已经将所述待打标数据集合中的所有噪声待打标数据删除，因此当前该待打标数据集合中只剩余所述共性待打标数据，因此，从所述共性待打标数据中选取第一待打标数据，同时，由于所述第二待打标数据是对所述第一待打标数据进行复制而来，因此，所述第一待打标数据和所述第二待打标数据是完全一致的。

需要说明的是，上述步骤是将所述第一待打标数据进行复制，得到所述第二待打标数据，这里不局限于复制多少份等同的待打标数据，应理解的是，可对所述第一待打标数据进行多次复制之后得到多份相同的第二待打标数据，并对所有的第一待打标数据和第二待打标数据分别进行数据打标（进行数据打标之后，生成的打标数据上即存在标注结果），再来判断打标之后的所有的第一待打标数据和第二待打标数据的标注结果是否一致，从而更能提高标注结果的准确性。

S40，对所述第一待打标数据使用第一打标规则进行数据打标得到第一打标数据，同时对所述第二待打标数据使用第二打标规则进行数据打标得到第二打标数据，并将所述第一打标数据和所述第二打标数据存储至预设数据库，所述第一打标数据和所述第二打标数据是带有标注结果的打标数据。

可以理解的是，所述第一打标规则和所述第二打标规则是由不同的人员预先建立的打标规则，所述第一打标规则和所述第二打标规则可能一致，也可能不一致；所述数据打标是对待打标数据进行标注（即打标签，所述标签是指标注结果）。比如，若待打标数据的类型为语音数据，且待打标数据是为了检测语音数据是否违规，则标注结果可以为语音数据合规和语音数据违规。

进一步地，如图5所示，为了确定所述第一待打标数据和所述第二待打标数据分别对应的打标规则，所述步骤S40之后，还包括：

S401，获取预先建立的所述待打标数据的第一类型及所述第一类型对应的所有待选取打标规则。

可以理解的是，所述待选取打标规则包括但不限于所述第一打标规则和所述第二打标规则；且所述第一类型包括但不限于所述待打标数据是文本数据、语音数据和带有文本数据的图片，所述待选取打标规则用于将不同形式（文字、符号等）在所述待打标数据上标注与其对应的标注结果。比如，根据所述待选取打标规则输出上述例子提到的语音数据合规还是语音数据违规。具体地，服务器可以预先建立所述待打标数据的第一类型与其对应的所述待选取打标规则。

S402，获取所述第一待打标数据或所述第二待打标数据的第二类型。

可以理解的是，所述第二类型包括但不限于所述第一待打标数据或所述第二待打标数据是文本数据、语音数据和带有文本数据的图片。

进一步地，如图6所示，所述步骤S402，包括：

S4021，获取第一待打标数据或第二待打标数据的后缀格式。

可以理解的是，所述后缀格式包括但不限于以TXT为后缀（文本数据）、以MP3为后缀（语音数据）和以JPG为后缀（带有文本数据的图片）。

S4022，将所述第一待打标数据或所述第二待打标数据的后缀格式与预设后缀格式库进行匹配，所述预设后缀格式库中的各个后缀格式已关联于各个类型。

可以理解的是，所述预设后缀格式库是预先将目前现有的后缀格式与各个类型关联起来。具体地，将所述第一待打标数据或所述第二待打标数据的后缀格式与预设后缀格式库进行匹配，当第一待打标数据或所述第二待打标数据的后缀格式与预设后缀格式库匹配成功时，说明所述第一待打标数据或所述第二待打标数据的后缀格式可以在所述预设后缀格式库找到其对应的后缀格式。当第一待打标数据或所述第二待打标数据的后缀格式与预设后缀格式库匹配未成功时，说明所述第一待打标数据或所述第二待打标数据的后缀格式未在所述预设后缀格式库找到其对应的后缀格式，此时，可以提示质检人员，质检人员可以查找匹配不成功的原因（如未将其后缀格式关联于一个类型）。

S4023，当所述第一待打标数据或所述第二待打标数据的后缀格式与所述预设后缀格式库匹配成功时，则确定所述第一待打标数据或所述第二待打标数据的所述第二类型为在所述预设后缀格式库中匹配到的后缀格式对应的类型。

可以理解的是，当第一待打标数据或所述第二待打标数据的后缀格式与预设后缀格式库匹配成功时，说明所述第一待打标数据或所述第二待打标数据的后缀格式可以在所述预设后缀格式库找到其对应的后缀格式。此时，服务器可以确定所述第一待打标数据或所述第二待打标数据的所述第二类型为在所述预设后缀格式库中匹配到的后缀格式对应的类型。

S403，将所述第一类型和所述第二类型进行匹配。

具体地，将所述第一类型和所述第二类型进行匹配，当所述第一类型和所述第二类型匹配成功时，说明所述第二类型能找到对应的打标规则。当所述第一类型和所述第二类型匹配未成功时，说明所述第二类型未能找到对应的打标规则，此时，质检人员可以查找匹配不成功的原因（如未完全建立起第二类型与第一类型的对应）。

S404，当所述第一类型和所述第二类型匹配成功时，则在所述待选取打标规则中确定所述第一待打标数据的第一打标规则和所述第二待打标数据的第二打标规则。

可以理解的是，当所述第一类型和所述第二类型匹配成功时，说明所述第二类型的所述待打标数据能在所述带打标规则中找到对应的打标规则。在所述待选取打标规则中确定所述第一待打标数据的第一打标规则和所述第二待打标数据的第二打标规则，可以随机进行选取，亦可以根据预设规则（比如根据用户喜好选取或者预先指定相应规则等）选取。

S50，判断所述第一打标数据中的标注结果和所述第二打标数据中的标注结果是否一致。

具体地，判断所述第一打标数据中的标注结果和所述第二打标数据中的标注结果是否一致，当所述第一打标数据和所述第二打标数据中的标注结果一致时，说明所述第一打标数据和所述第二打标数据为有效数据。当所述第一打标数据和所述第二打标数据中的标注结果不一致时，说明所述第一打标数据和所述第二打标数据为无效数据。

S60，若所述第一打标数据和所述第二打标数据中的标注结果不一致，则将所述第一打标数据和所述第二打标数据记录为无效数据，并将所述第一打标数据和所述第二打标数据从所述预设数据库中清除。

可以理解的是，当所述第一打标数据和所述第二打标数据中的标注结果不一致时，说明所述第一打标数据和所述第二打标数据为无效数据。此时，将所述第一打标数据和所述第二打标数据从所述预设数据库中进行清除。

进一步地，所述步骤S50之后，还包括：

若所述第一打标数据和所述第二打标数据中的标注结果一致，则在所述预设数据库中保留所述第一打标数据和所述第二打标数据中的任意一条，并将保留的所述第一打标数据或所述第二打标数据记录为有效数据。

可以理解的是，当所述第一打标数据和所述第二打标数据中的标注结果一致时，说明所述第一打标数据和所述第二打标数据为有效数据。此时，只需要在所述预设数据库中保留其中的一条数据。

进一步地，为了保证所述共性待打标数据中存在合理数量的有效数据，所述若所述第一打标数据和所述第二打标数据中的标注结果一致，则在所述预设数据库中保留所述第一打标数据和所述第二打标数据中的任意一条，并将保留的所述第一打标数据或所述第二打标数据记录为有效数据之后，还包括：

获取有效数据的数量。

上述步骤记录所述有效数据在所述预设数据库中，从而可以确定所述有效数据的数量。在一应用场景中，所述预设数据库中可能不存在所述有效数据。

将所述有效数据的数量与所述共性待打标数据的数量的比值记录为第二比值。

在此步骤中，当所述有效数据的数量为0个时，由于所述预设数据库中不存在所述有效数据，因此所述第二比值为0。当所述有效数据的数量为1个以上时，服务器可以执行将所述有效数据的数量与所述共性待打标数据的数量的比值记录为第二比值的步骤。

判断所述第二比值是否小于第二预设的比值阈值。

在此步骤中，所述第二预设的比值阈值是根据数据分析方法，从而得到一个所述有效数据的数量应该占所述共性待打标数据的数量的几成才处于一个比较合理的比值阈值。由于所述共性待打标数据的数量是已确定出来的（即不变的），当小于所述第二预设的比值阈值时，可以说明所述有效数据的数量达不到一个合理的数量。当大于或等于所述第二预设的比值阈值时，可以说明所述有效数据的数量处于一个合理的数量范围内。

若所述第二比值小于所述第二预设的比值阈值，则提示所述有效数据的数量不符合要求，并从已确定的有效数据集合中选取有效数据放入所述待打标数据集合中直至所述第二比值大于或等于所述第二预设的比值阈值。

在此步骤中，当小于所述第二预设的比值阈值时，可以说明所述有效数据的数量达不到一个合理的数量（即不符合要求）。此时，服务器可以从所述已确定的有效数据集合（所述有效数据集合中包含了已确定出的有效数据）中选取有效数据放入所述待打标数据集合中直至所述第二比值大于或等于所述第二预设的比值阈值。

综上所述，上述提供了一种数据处理方法，首先获取初始样本数据集合中的样本数据的数量，并执行数据采样流程，且所述数据采样流程的执行次数与所述样本数据的数量一致，所述数据采样流程包括：从所述初始样本数据集合中随机剪切一个样本数据放入待打标数据集合中作为待打标数据，再将剪切的所述样本数据复制之后放回所述初始数据集合中；接着将所述待打标数据集合中噪声待打标数据进行清除并保留共性待打标数据，所述噪声待打标数据是指冗余或/和异常错误的待打标数据，所述共性待打标数据是指除所述噪声待打标数据之外的待打标数据；再接着从所述待打标数据集合的所述共性待打标数据中选取第一待打标数据，并对选取的所述第一待打标数据进行复制之后，得到第二待打标数据；次之对所述第一待打标数据使用第一打标规则进行数据打标得到第一打标数据，同时对所述第二待打标数据使用第二打标规则进行数据打标得到第二打标数据，并将所述第一打标数据和所述第二打标数据存储至预设数据库，所述第一打标数据和所述第二打标数据是带有标注结果的打标数据；然后判断所述第一打标数据中的标注结果和所述第二打标数据中的标注结果是否一致；最后若所述第一打标数据和所述第二打标数据中的标注结果不一致，则将所述第一打标数据和所述第二打标数据记录为无效数据，并将所述第一打标数据和所述第二打标数据从所述预设数据库中清除。本发明通过执行数据采样流程获取样本数据作为待打标数据，并对第一待打标数据和第二待打标数据进行数据打标，判断所述第一打标数据的标注结果和所述第二打标数据的标注结果是否一致，若不一致，则将所述第一打标数据和所述第二打标数据记录为无效数据，并将所述第一打标数据和所述第二打标数据从所述预设数据库中清除，从而使得被清除的无效数据不会影响模型训练的训练效果，同时提高了该模型的检测效果。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种数据处理装置，该数据处理装置与上述实施例中数据处理方法一一对应。如图7所示，该数据处理装置包括第一获取模块11、清除模块12、选取模块13、数据打标模块14、第一判断模块15和第一记录模块16。各功能模块详细说明如下：

第一获取模块11，用于获取初始样本数据集合中的样本数据的数量，并执行数据采样流程，且所述数据采样流程的执行次数与所述样本数据的数量一致，所述数据采样流程包括：从所述初始样本数据集合中随机剪切一个样本数据放入待打标数据集合中作为待打标数据，再将剪切的所述样本数据复制之后放回所述初始数据集合中；

清除模块12，用于将所述待打标数据集合中噪声待打标数据进行清除并保留共性待打标数据，所述噪声待打标数据是指冗余或/和异常错误的待打标数据，所述共性待打标数据是指除所述噪声待打标数据之外的待打标数据；

选取模块13，用于从所述待打标数据集合的所述共性待打标数据中选取第一待打标数据，并对选取的所述第一待打标数据进行复制之后，得到第二待打标数据；

数据打标模块14，用于对所述第一待打标数据使用第一打标规则进行数据打标得到第一打标数据，同时对所述第二待打标数据使用第二打标规则进行数据打标得到第二打标数据，并将所述第一打标数据和所述第二打标数据存储至预设数据库，所述第一打标数据和所述第二打标数据是带有标注结果的打标数据；

第一判断模块15，用于判断所述第一打标数据中的标注结果和所述第二打标数据中的标注结果是否一致；

第一记录模块16，用于若所述第一打标数据和所述第二打标数据中的标注结果不一致，则将所述第一打标数据和所述第二打标数据记录为无效数据，并将所述第一打标数据和所述第二打标数据从所述预设数据库中清除。

进一步地，所述数据处理装置还包括：

第二获取模块，用于获取共性待打标数据的数量；

第二记录模块，用于将所述共性待打标数据的数量与所述样本数据的数量的比值记录为第一比值；

第二判断模块，用于判断所述第一比值是否大于或等于第一预设的比值阈值；

第一提示模块，用于若所述第一比值小于所述第一预设的比值阈值，则提示所述待打标数据集合中的所述共性待打标数据的数量不符合要求，并继续执行所述数据采样流程直至所述第一比值大于或等于所述第一预设的比值阈值。

进一步地，所述清除模块包括：

判断子模块，用于判断所述待打标数据集合中是否存在相同的待打标数据，同时，检测所述待打标数据集合中是否存在所述异常错误的待打标数据；

第一确定子模块，用于若所述待打标数据集合中存在所述相同的待打标数据且并不存在所述异常错误的待打标数据，则确定所述初始样本数据集合中的所述噪声待打标数据仅包含所述冗余的待打标数据，并在保留所述相同的待打标数据中的其中一个之后，将其他的所述相同的待打标数据自所述待打标数据集合中删除；

第二确定子模块，用于若所述待打标数据集合中存在所述相同的待打标数据且存在所述异常错误的待打标数据，则确定所述初始样本数据集合中的所述噪声待打标数据包含所述冗余的待打标数据和所述异常错误的待打标数据，并在保留所述相同的待打标数据中的其中一个之后，删除剩余的所述噪声待打标数据，同时自另一个初始样本数据集合中剪切与所述异常错误的待打标数据对应且无误的样本数据，并将所述无误的样本数据放入所述待打标数据集合中作为所述待打标数据之后，再将剪切的所述无误的样本数据放回所述另一个初始样本数据集合中；

第三确定子模块，用于若所述待打标数据集合中不存在所述相同的待打标数据但存在所述异常错误的待打标数据，则确定所述初始样本数据集合中的所述噪声待打标数据仅包含所述异常错误的待打标数据，并在删除所述噪声待打标数据之后，自另一个初始样本数据集合中剪切与所述异常错误的待打标数据对应且无误的样本数据，并将所述无误的样本数据放入所述待打标数据集合中作为所述待打标数据之后，再将剪切的所述无误的样本数据放回所述另一个初始样本数据集合中。

进一步地，所述数据打标模块包括：

第一获取子模块，用于获取预先建立的所述待打标数据的第一类型及所述第一类型对应的所有待选取打标规则；

第二获取子模块，用于获取所述第一待打标数据或所述第二待打标数据的第二类型；

匹配子模块，用于将所述第一类型和所述第二类型进行匹配；

第四确定子模块，用于当所述第一类型和所述第二类型匹配成功时，则在所述待选取打标规则中确定所述第一待打标数据的第一打标规则和所述第二待打标数据的第二打标规则。

进一步地，所述第二获取子模块包括：

获取单元，用于获取第一待打标数据或第二待打标数据的后缀格式；

匹配单元，用于将所述第一待打标数据或所述第二待打标数据的后缀格式与预设后缀格式库进行匹配，所述预设后缀格式库中的各个后缀格式已关联于各个类型；

确定单元，用于当所述第一待打标数据或所述第二待打标数据的后缀格式与所述预设后缀格式库匹配成功时，则确定所述第一待打标数据或所述第二待打标数据的所述第二类型为在所述预设后缀格式库中匹配到的后缀格式对应的类型。

进一步地，所述数据处理装置还包括：

第三记录模块，用于若所述第一打标数据和所述第二打标数据中的标注结果一致，则在所述预设数据库中保留所述第一打标数据和所述第二打标数据中的任意一条，并将保留的所述第一打标数据或所述第二打标数据记录为有效数据。

进一步地，所述数据处理装置还包括：

第三获取模块，用于获取有效数据的数量；

第四记录模块，用于将所述有效数据的数量与所述共性待打标数据的数量的比值记录为第二比值；

第二提示模块，用于若所述第二比值小于所述第二预设的比值阈值，则提示所述有效数据的数量不符合要求，并从已确定的有效数据集合中选取有效数据放入所述待打标数据集合中直至所述第二比值大于或等于所述第二预设的比值阈值。

关于数据处理装置的具体限定可以参见上文中对于数据处理方法的限定，在此不再赘述。上述数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据处理方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据处理方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中数据处理方法的步骤，例如图2所示的步骤S10至步骤S60。或者，处理器执行计算机程序时实现上述实施例中数据处理装置的各模块/单元的功能，例如图7所示模块11至模块16的功能。为避免重复，这里不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中数据处理方法的步骤，例如图2所示的步骤S10至步骤S60。或者，计算机程序被处理器执行时实现上述实施例中数据处理装置的各模块/单元的功能，例如图7所示模块11至模块16的功能。为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种数据处理方法，其特征在于，包括：

获取初始样本数据集合中的样本数据的数量，并执行数据采样流程，且所述数据采样流程的执行次数与所述样本数据的数量一致，所述数据采样流程包括：从所述初始样本数据集合中随机剪切一个样本数据放入待打标数据集合中作为待打标数据，再将剪切的所述样本数据复制之后放回所述初始数据集合中；所述待打标数据为文本数据、语音数据和带有文本数据的图片中的一种；

对所述第一待打标数据使用第一打标规则进行数据打标得到第一打标数据，同时对所述第二待打标数据使用第二打标规则进行数据打标得到第二打标数据，并将所述第一打标数据和所述第二打标数据存储至预设数据库，所述第一打标数据和所述第二打标数据是带有标注结果的打标数据；所述标注结果为所述待打标数据合规或者所述待打标数据违规；

若所述第一打标数据和所述第二打标数据中的标注结果不一致，则将所述第一打标数据和所述第二打标数据记录为无效数据，并将所述第一打标数据和所述第二打标数据从所述预设数据库中清除；若所述第一打标数据和所述第二打标数据中的标注结果不一致，则将所述第一打标数据和所述第二打标数据记录为有效数据，所述有效数据用于提高质检模型的训练效果。

2.根据权利要求1所述的数据处理方法，其特征在于，所述将所述待打标数据集合中噪声待打标数据进行清除并保留共性待打标数据之后，还包括：

获取共性待打标数据的数量；

将所述共性待打标数据的数量与所述样本数据的数量的比值记录为第一比值；

判断所述第一比值是否大于或等于第一预设的比值阈值；

若所述第一比值小于所述第一预设的比值阈值，则提示所述待打标数据集合中的所述共性待打标数据的数量不符合要求，并继续执行所述数据采样流程直至所述第一比值大于或等于所述第一预设的比值阈值。

3.根据权利要求1所述的数据处理方法，其特征在于，所述将所述待打标数据集合中噪声待打标数据进行清除并保留共性待打标数据，包括：

判断所述待打标数据集合中是否存在相同的待打标数据，同时，检测所述待打标数据集合中是否存在所述异常错误的待打标数据；

若所述待打标数据集合中存在所述相同的待打标数据且并不存在所述异常错误的待打标数据，则确定所述初始样本数据集合中的所述噪声待打标数据仅包含所述冗余的待打标数据，并在保留所述相同的待打标数据中的其中一个之后，将其他的所述相同的待打标数据自所述待打标数据集合中删除；

若所述待打标数据集合中存在所述相同的待打标数据且存在所述异常错误的待打标数据，则确定所述初始样本数据集合中的所述噪声待打标数据包含所述冗余的待打标数据和所述异常错误的待打标数据，并在保留所述相同的待打标数据中的其中一个之后，删除剩余的所述噪声待打标数据，同时自另一个初始样本数据集合中剪切与所述异常错误的待打标数据对应且无误的样本数据，并将所述无误的样本数据放入所述待打标数据集合中作为所述待打标数据之后，再将剪切的所述无误的样本数据放回所述另一个初始样本数据集合中；

若所述待打标数据集合中不存在所述相同的待打标数据但存在所述异常错误的待打标数据，则确定所述初始样本数据集合中的所述噪声待打标数据仅包含所述异常错误的待打标数据，并在删除所述噪声待打标数据之后，自另一个初始样本数据集合中剪切与所述异常错误的待打标数据对应且无误的样本数据，并将所述无误的样本数据放入所述待打标数据集合中作为所述待打标数据之后，再将剪切的所述无误的样本数据放回所述另一个初始样本数据集合中。

4.根据权利要求1所述的数据处理方法，其特征在于，所述对所述第一待打标数据使用第一打标规则进行数据打标得到第一打标数据，同时对所述第二待打标数据使用第二打标规则进行数据打标得到第二打标数据，并将所述第一打标数据和所述第二打标数据存储至预设数据库之后，还包括：

获取预先建立的所述待打标数据的第一类型及所述第一类型对应的所有待选取打标规则；

获取所述第一待打标数据或所述第二待打标数据的第二类型；

将所述第一类型和所述第二类型进行匹配；

当所述第一类型和所述第二类型匹配成功时，则在所述待选取打标规则中确定所述第一待打标数据的第一打标规则和所述第二待打标数据的第二打标规则。

5.根据权利要求4所述的数据处理方法，其特征在于，所述获取所述第一待打标数据或所述第二待打标数据的第二类型，包括：

获取第一待打标数据或第二待打标数据的后缀格式；

将所述第一待打标数据或所述第二待打标数据的后缀格式与预设后缀格式库进行匹配，所述预设后缀格式库中的各个后缀格式已关联于各个类型；

当所述第一待打标数据或所述第二待打标数据的后缀格式与所述预设后缀格式库匹配成功时，则确定所述第一待打标数据或所述第二待打标数据的所述第二类型为在所述预设后缀格式库中匹配到的后缀格式对应的类型。

6.根据权利要求1所述的数据处理方法，其特征在于，所述判断所述第一打标数据中的标注结果和所述第二打标数据中的标注结果是否一致之后，还包括：

7.根据权利要求6所述的数据处理方法，其特征在于，所述若所述第一打标数据和所述第二打标数据中的标注结果一致，则在所述预设数据库中保留所述第一打标数据和所述第二打标数据中的任意一条，并将保留的所述第一打标数据或所述第二打标数据记录为有效数据之后，还包括：

获取有效数据的数量；

将所述有效数据的数量与所述共性待打标数据的数量的比值记录为第二比值；

若所述第二比值小于第二预设的比值阈值，则提示所述有效数据的数量不符合要求，并从已确定的有效数据集合中选取有效数据放入所述待打标数据集合中直至所述第二比值大于或等于所述第二预设的比值阈值。

8.一种数据处理装置，其特征在于，包括：

第一获取模块，用于获取初始样本数据集合中的样本数据的数量，并执行数据采样流程，且所述数据采样流程的执行次数与所述样本数据的数量一致，所述数据采样流程包括：从所述初始样本数据集合中随机剪切一个样本数据放入待打标数据集合中作为待打标数据，再将剪切的所述样本数据复制之后放回所述初始数据集合中；所述待打标数据为文本数据、语音数据和带有文本数据的图片中的一种；

数据打标模块，用于对所述第一待打标数据使用第一打标规则进行数据打标得到第一打标数据，同时对所述第二待打标数据使用第二打标规则进行数据打标得到第二打标数据，并将所述第一打标数据和所述第二打标数据存储至预设数据库，所述第一打标数据和所述第二打标数据是带有标注结果的打标数据；所述标注结果为所述待打标数据合规或者所述待打标数据违规；

第一记录模块，用于若所述第一打标数据和所述第二打标数据中的标注结果不一致，则将所述第一打标数据和所述第二打标数据记录为无效数据，并将所述第一打标数据和所述第二打标数据从所述预设数据库中清除；若所述第一打标数据和所述第二打标数据中的标注结果不一致，则将所述第一打标数据和所述第二打标数据记录为有效数据，所述有效数据用于提高质检模型的训练效果。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述数据处理方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述数据处理方法。