CN114090601A

CN114090601A - 一种数据筛选方法、装置、设备以及存储介质

Info

Publication number: CN114090601A
Application number: CN202111394304.7A
Authority: CN
Inventors: 秦铎浩
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-11-23
Filing date: 2021-11-23
Publication date: 2022-02-25
Anticipated expiration: 2041-11-23
Also published as: CN114090601B; WO2023093015A1

Abstract

本公开提供了一种数据筛选方法、装置、设备以及存储介质，涉及计算机技术领域，尤其涉及人工智能、大数据、深度学习、数据回流技术领域。具体实现方案为：获取业务数据；基于业务数据对模型的影响程度对业务数据进行筛选，得到用于对模型进行更新的数据；其中，影响程度反映对模型更新性能的影响大小。针对业务数据进行筛选，避免针对所有业务数据进行重训以实现对模型的更新，能够减少用于模型更新的数据量。

Description

一种数据筛选方法、装置、设备以及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及人工智能、大数据、深度学习、数据回流技术领域，具体涉及一种数据筛选方法、装置、设备以及存储介质。

背景技术

随着大数据时代的到来和硬件技术的发展，使得在大规模数据库上的研究不断革新，同时也看到了深度学习在计算机视觉中势不可挡的优势。基于深度学习实现的神经网络模型可以应用于越来越多的场景，如目标检测，目标识别，目标分类等。

发明内容

本公开提供了一种数据筛选方法、装置、设备以及存储介质。

根据本公开的第一方面，提供了一种数据筛选方法，包括：

获取业务数据；

基于所述业务数据对模型的影响程度对所述业务数据进行筛选，得到用于对所述模型进行更新的数据；其中，所述影响程度反映对所述模型更新性能的影响大小。

根据本公开的第二方面，提供了一种数据筛选装置，包括：

获取模块，用于获取业务数据；

筛选模块，用于基于所述业务数据对模型的影响程度对所述业务数据进行筛选，得到用于对所述模型进行更新的数据；其中，所述影响程度反映对所述模型更新性能的影响大小。

根据本公开的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面所述的方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据第一方面所述的方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据第一方面所述的方法。

本公开针对业务数据进行筛选，避免针对所有业务数据进行重训以实现对模型的更新，能够减少用于模型更新的数据量。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开一实施例的数据筛选方法的流程图；

图2是根据本公开另一实施例的数据筛选方法的流程图；

图3是本公开实施例提供的数据筛选装置的一种结构示意图；

图4是本公开实施例提供的数据筛选装置的另一种结构示意图；

图5是用来实现本公开实施例的数据筛选方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在实际生产中需要通过业务数据的收集和重训才能使得模型效果不断提升，也可以理解为实现模型的更新。而每天业务系统运行过程中会产生大量的业务数据，针对大量业务数据进行收集和重训是比较复杂的，使得模型更新的耗时比较长，也可以理解为模型更新的效率比较低。

例如，相关技术中收集预测服务产生的业务数据，并将这些业务数据存储到对应的文件存储中，然后组织人员对这些业务数据进行手动标注，并在标注完成后存储到训练集合中，进而基于训练集合进行重训，以更新预测服务。其中，预测服务是利用神经网络模型实现的，更新预测服务即更新神经网络模型。在这个过程中，针对业务数据的标注是非常繁琐的，人工标注的整体工作量非常大，要对每天产生的所有业务数据都要进行标注。每天产生的数据量很大，通过人工标注，标注成本很高。另外，神经网络模型的更新是基于标注数据来实现的，标注成本高进一步会导致模型的更新耗时比较长，也可以理解为数据回流整体处理耗时很长。数据回流是从预测服务涉及到的业务数据到重新生成新的数据集为止的过程，也可以理解利用业务数据得到用于模型更新的数据的过程。

本公开实施例提供了一种数据筛选方法，以针对业务数据进行筛选，避免针对所有业务数据进行重训以实现对模型的更新，能够减少用于模型更新的数据量，进而提高模型更新的效率。简单理解，实现对数据回流的优化，实现让非标注数据更快地且有效地回到训练数据中。

例如，针对含有业务标签的业务数据，筛选用于重训以进行模型更新的业务数据，能够减少模型更新过程中重训的数据量，进而提升模型更新的效率。对于未含有业务标签的业务数据，筛选数据进行标注以实现对模型的更新，能够避免对所有业务数据进行标注，减少标注的数据量，降低标注成本，并且，利用筛选得到的数据进行模型的更新，有选择地标注数据，能够降低模型更新的耗时，提升模型更新的效率。

下面对本公开实施例提供数据筛选方法进行详细说明。

本公开实施例提供的数据筛选方法可以应用于电子设备。具体地，电子设备可以包括服务器、终端，等等。

本公开实施例提供了一种数据筛选方法，可以包括：

获取业务数据；

基于业务数据对模型的影响程度对业务数据进行筛选，得到用于对模型进行更新的数据；其中，影响程度反映对模型更新性能的影响大小。

本公开实施例中，可以基于业务数据对模型的影响程度对业务数据进行筛选，以实现针对业务数据进行筛选，能够避免针对所有业务数据进行重训以实现对模型的更新，减少用于模型更新的数据量，进而提高模型更新的效率。

图1是本公开实施例提供的数据筛选方法的流程图。参见图1，本公开实施例提供的数据筛选方法可以包括如下步骤：

S101，获取业务数据。

业务数据即业务场景下的数据。例如，针对目标检测场景，业务数据即目标检测结果对应的数据；如针对目标分类场景，即分类结果对应的数据；如针对目标识别场景，即识别结果对应的数据。

一种可实现方式中，业务数据可以是利用模型在业务场景下产生的数据。

本公开实施例中可以获取多个业务数据。

S102，基于业务数据对模型的影响程度对业务数据进行筛选，得到用于对模型进行更新的数据。

影响程度反映对模型更新性能的影响大小。

影响程度高反映对模型更新性能的影响大，影响程度低反映对模型更新性能的影响小。

简单理解，从多个业务数据中筛选出对模型的影响程度较高，也即对模型更新性能的影响比较大的业务数据，以基于筛选出的业务数据进行模型的更新。

更新性能可以包括更新速率和/或准确度。

可以针对各个业务数据分别确定各个业务数据对模型的影响程度，即各个业务数据对模型更新性能的影响大小，例如，分别确定各个业务数据对模型更新速率和/或准确度的影响大小。然后，选择影响程度较高的业务数据，即选择对模型更新性能的影响大的业务数据，作为筛选出的用于对模型进行更新的数据，如此可以筛选使得更新速率更高、准确度更高的业务数据作为用于对模型进行更新的数据。

例如，可以预先设置影响程度阈值，针对各个业务数据，当该业务数据对模型更新性能的影响程度不小于该影响程度阈值，则可以将该业务数据作为用于对模型进行更新的数据。

本公开实施例中可以基于业务数据是否含有业务标签的不同，分别采用不同的策略对业务数据进行筛选。一种可选的实施例中，S102可以包括：

响应于业务数据含有业务标签，基于业务标签以及业务数据对应的预测数据对业务数据进行筛选，得到用于对模型进行更新的数据；预测数据是利用模型针对业务数据得到的数据。

响应于业务数据未含有业务标签，基于业务数据对应的信息增益对业务数据进行筛选，得到用于对模型进行更新的数据，信息增益与影响程度成正比。

本公开实施例中，基于业务数据是否含有业务标签的不同，分别对业务数据进行筛选，实现筛选参与模型更新的数据，减少用于模型更新的数据量，降低模型更新的复杂度，进而可以提升模型更新的效率。

针对含有业务标签的业务数据，筛选用于重训以进行模型更新的业务数据，能够减少重训的数据量，提升模型更新的效率。对于未含有业务标签的业务数据，有选择地标注数据，减少标注的数据量，能够降低标注成本，并且，利用筛选得到的数据进行模型的更新，能够降低模型更新的耗时，提升模型更新的效率。

一种可实现方式中，响应于业务数据含有业务标签，基于业务标签以及业务数据对应的预测数据对业务数据进行筛选，得到用于对模型进行更新的数据，可以包括：

可以将业务标签与预测数据进行比对；响应于业务标签与预测数据的差异不小于预设差异值，将业务数据作为用于对模型进行更新的数据。

如果业务数据对应的业务标签与预测数据的差异比较小，则可以理解为模型预测的准确度比较高，这种情况下，业务数据对模型更新的贡献比较小，为了减少模型更新过程中重训的数据量，则可以删除这些业务数据，即不再将这些业务数据作为用于模型更新的业务数据，不再针对这些业务数据进行重新以实现模型的更新。

如果业务数据对应的业务标签与预测数据的差异比较大，则可以理解为模型预测的准确度比较低，该业务数据可以理解为失败的或者错误的样本，这种情况下，可以基于业务标签与预测数据的差异对模型进行更新，对模型参数进行调整，使得模型预测的更加准确，即可以理解这些业务数据对模型更新的贡献比较大，因此，可以将这些业务数据作为用于模型更新的业务数据，针对这些业务数据进行重新以实现模型的更新。

当业务数据中含有业务标签时，可以将业务数据输入该模型，通过模型输出该业务数据对应的预测数据。然后，将业务标签与预测数据进行比对，如果业务数据对应的业务标签与预测数据的差异比较小，如响应于业务标签与预测数据的差异小于预设差异值，删除该业务数据作为用于对模型进行更新的数据。如果业务数据对应的业务标签与预测数据的差异比较大，如响应于业务标签与预测数据的差异不小于预设差异值，将业务数据作为用于对模型进行更新的数据。

其中，预设差异值可以根据实际需求来确定。

这种情况下，可以理解业务数据对应的业务标签与预测数据的差异反映业务数据对模型的影响程度。差异与影响程度成正比，即差异越大，则影响程度越高，即对模型更新性能的影响越大。

业务数据可以有多个，针对多个业务数据分别确定是否该业务数据作为用于对模型进行更新的数据。

利用筛选得到的用于对模型进行更新的数据进行重训以对模型进行更新，可以实现相比较于利用全部业务数据而言相对较少的数据量实现优化模型，使得模型的预测结果更加准确，且可以更快地达到模型优化效果。

例如，手写体签名的图片可以理解为业务数据，可以从该手写体签名的图片中提取出姓名字段，如在业务系统中可以直接通过姓名的字段来获取对应的文字，即可以理解为，手写体签名的图片中含有业务标签：姓名字段。其中，可以以姓名字段命名该图片，如此，可以利用图片的文件名获取图片以及图片中含有的业务标签的对应关系。

如此，可以基于该业务标签进行自动标注。本公开实施例中，可以先该手写体签名的图片输入一图像识别的模型中，该模型可以输出一个预测值，即预测的姓名字段，将预测的姓名字段与从业务系统中提取出的姓名字段进行比对，筛选出失败的case(样本)，也即业务数据，如预测的姓名字段与从业务系统中提取出的姓名字段的差异值不小于预设差异值的该手写体签名的图片，将该手写体签名的图片作为用于对模型进行更新的数据，如此可以实现对业务数据的筛选，减少重训的数据量。同时，利用失败的case进行重训实现模型的更新可以更快、更好地优化模型。

针对响应于业务数据未含有业务标签，基于业务数据对应的信息增益对业务数据进行筛选。

响应于业务数据未含有业务标签，基于业务数据对应的信息增益对业务数据进行筛选，得到用于对模型进行更新的数据。

信息增益反映业务数据对模型的影响程度。信息增益与影响程度成正比关系。简单理解，信息增益越大，则对模型的影响程度越高，即对模型更新性能的影响越大，也可以理解为对模型的更新越有用。

对于未含有业务标签的业务数据，相关技术中只能先通过人工标注的方式对业务数据进行标注，而对大量的业务数据进行人工标注成本比较高。为了降低标注成本，本公开实施例中在标注之前先对未含有业务标签的业务数据进行筛选，如此可以减少需要标注的数据量，减少标注成本，提高模型更新的效率，减少了标注的数据量进而也减少了重训的数据量，进一步提高模型更新的效率。

本公开实施例中针对未含有业务标签的业务数据的筛选没有实际的业务标签作为参考，故可以理解为通过主动学习的方式进行筛选。

为了使得模型更快地完成更新，达到优化效果，本公开实施例中选择信息增益比较大的用于后续模型的更新。

一种可实现方式中，可以计算业务数据对应的信息增益；响应于信息增益不小于预设增益值，将业务数据作为待标注数据。

其中，预设增益值可以根据实际需求来确定。

具体地，可以通过如下信息增益函数计算业务数据对应的信息增益；

其中，D_train表示待更新的模型，X表示业务数据，

表示X对应的预测数据，ω表示模型参数，ω|X,D_train表示给定X和D_train时所对应的ω，

表示ω|X,D_train条件下

的信息增益，

表示给定X和D_train时所对应的

表示给定X和D_train时针对

的熵，p(ω|D_train)表示给定D_train的基础上ω的概率，

表示给定X和ω的基础上针对

的熵，

表示p(ω|D_train)条件下

的期望值。

针对业务数据X，先利用初始模型得到预测数据，具体地可以在初始模型的基础上增加随机性，例如通过加入蒙特卡洛dropout方法来加入随机性,通过加入蒙特卡洛dropout来加入随机性可以是每次随机选择模型中的一些神经元并将其临时隐藏(丢弃)，然后再利用模型得到该次迭代的预测数据，具体地通过蒙特卡洛dropout增加模型随机性可以参考相关技术中dropout机制，这里不再赘述。

将业务数据X，多次输入增加随机性后的初始模型，得到多次对应的预测数据

接着，可以计算多次预测数据对应的

以及

如此可以得到

即ω|X,D_train条件下

的信息增益，如此可以将信息增益与预设增益值进行比较，响应于该信息增益不小于预设增益值，将业务数据X作为待标注数据。

利用该信息增益函数可以准确地计算信息增益，以准确反映业务数据对模型更新的影响程度，进而可以准确地筛选出对模型更新性能影响高的数据，也即可以更加准确地筛选出对模型更新有用的数据，进而大幅减少人工标注的数据量和成本，提高模型更新的效率。

上述信息增益函数计算的

可以理解为

与ω|X,D_train的互信息。本公开实施例中采用一种互信息的形态，最大化模型参数的信息增益。

当每次预测结果(预测数据)各不相同的情况下，最大熵会比较大；当模型对单个点预测概率(也就是确定性)越大，则

值越小,通过信息增益函数筛选的目标就是筛选出可以最小化参数不确定性的样本(业务数据)也即筛选出使得信息增益大的业务数据。

一个例子中，先从已经回流的数据中随机选择预设数量个，如10个、20个数据进行标注，基于预设数量个数据标注后的数据先训练一个初步模型，然后，通过筛选函数(上述信息增益函数)筛选；接着，重新标注筛选出的数据，最终利用针对筛选出的数据标注后的数据进行模型的更新。

本公开实施例中得到待标注数据后，可以对待标注数据进行标注，并利用标注后的数据进行模型的更新，具体地利用标注后的数据进行模型更新的过程，与相关技术中神经网路模型的训练过程类似，参照相关技术中神经网路模型的训练过程即可。

一种可选的实施例中，本公开实施例针对非结构化数据进行筛选，实现非结构化数据的回流。

按照数据种类可以分为结构化数据和非结构化数据。

结构化数据是高度组织和整齐格式化的数据。它是可以放入表格和电子表格中的数据类型，结构化数据也被成为定量数据，是能够用数据或统一的结构加以表示的信息，如数字、符号。

非结构化数据本质上是结构化数据之外的一切数据。它不符合任何预定义的模型，存储在非关系数据库中，可能是文本的或非文本的，也可能是人为的或机器生成的。简单的说，非结构化数据就是字段可变数据。非结构化数据是不容易被组织或格式化的，收集，处理和分析非结构化数据也是一项重大挑战。例如，结构化数据是文本表格类的，非结构化数据是图片。

可以看出，相比较于结构化数据，非结构化数据收集，处理和分析的难度更大，也可以理解，针对非结构化数据的标注更加繁琐。本公开实施例中可以针对非结构化数据进行数据筛选，即业务数据是非结构化数据，以实现有选择地针对非结构化数据进行标注，减少了标注量，降低了标注成本，进而提升模型更新的速率。也对非结构化数据回流的过程进行了优化，进一步地减少了非结构化数据回流过程中标注的成本，以及通过主动学习的方式来对回流数据进行筛选，选择对于最终结果更加有用的样本，大幅减少人工标注的数据量和成本。

一种可选的实施例中，如图2所示，本公开实施例中先判断业务数据是否有业务标签，基于是否有业务标签的不同，分别采用不同的策略对业务数据进行筛选。其中，业务数据可以理解为待回流的数据，可以是业务场景下产生的数据，后续基于这些数据进行模型的更新。一种可实现方式中，待对一模型更新，业务数据可以是利用该模型在业务场景产生的数据。或者，业务数据是业务场景下其他方式产生的业务数据，可以先从业务数据中选择预设数量个训练得到一初始模型，然后，再基于除该预设数量个业务数据之外的业务数据对该初始模型进行更新。

当业务数据中含有业务标签，可以根据实际标签(上述业务标签)和预测数据进行筛选。

具体地，将业务数据对应的业务标签与预测数据进行比对；响应于业务标签与预测数据的差异不小于预设差异值，将业务数据作为用于对模型进行更新的数据。简单理解，针对各个业务数据进行筛选，得到作为用于对模型进行更新的数据的业务数据，即从所有业务数据中筛选出满足业务标签与预测数据的差异不小于预设差异值这个条件的业务数据，得到筛选结果。同时，可以将筛选结果保存在数据集，待对模型进行更新时，可以从数据集中获取数据对模型进行重训以实现对模型的更新。

如此，不需要基于所有业务数据进行重训以实现模型的更新，减少了重训的数据量，提升了模型更新的效率。

当业务数据中未含有业务标签，可以通过主动学习方式进行筛选，可以重复多次筛选，可以基于业务数据对应的信息增益对业务数据进行筛选。通过上述信息增益函数计算业务数据对应的信息增益；响应于信息增益不小于预设增益值，将业务数据作为待标注数据。具体地基于业务数据对应的信息增益对业务数据进行筛选在上述实施例中已经详述，这里不再赘述。

可以针对多个业务数据重复多次主动学习的方式，如重复N次，N大于1。例如，针对多个业务数据分别计算信息增益，基于业务数据对应的信息增益对业务数据进行筛选。其中，针对一个业务数据计算信息增益的过程，也可以重复多次执行，即针对一个业务数据，重复计算多次信息增益，从中选择一个进行后续的筛选，也可以随机选择一个，或者可以统计多次信息增益的值，例如，计算平均值、方差等统计值，基于统计值进行后续的筛选。

然后，可以对待标注数据进行标注后保存至数据集。

如此，不需要对所有的业务数据都进行标注，有选择地进行标注，可以减少标注量，降低标注成本，能够提升模型更新的效率。且减少了标注量进而也可以减少重训的数据量，进一步提升了模型更新的效率。

在上述实施例的基础上，在从多个业务数据中筛选得到用于对模型进行更新的数据后，可以保存筛选出来的这些对模型进行更新的数据。可以通过增量保存的方式保存用于对模型进行更新的数据；或者，通过全量保存的方式保存用于对模型进行更新的数据。

增量保存即保存有变化的数据。具体地，可以仅保存当前筛选得到的数据，而删除当前筛选之前的数据。

全量保存即保存所有的用于对模型进行更新的数据，具体地，在当前筛选之前的数据的基础上，保存当前筛选得到的数据。

增量保存的方式更适用有时效性数据的训练，在训练过程中可以让模型更侧重于时间更近的样本数据分布；全量保存重训用于对整体有更好的泛化性。在模型更新过程中，当模型比较注重时效性，例如，训练用于目标跟踪的模型，可以选择增量保存的数据进行重训以对模型进行更新。当模型需要对整体有更好的泛化性，例如，分类场景、检测场景等，可以选择全量保存的数据中进行重训以对模型进行更新。

如此，可以根据模型更新过程中的实际需求，满足更匹配的数据，可以使得尽快地更新得到满足要求的模型。

本公开实施例还提供了一种数据筛选装置，如图3所示，可以包括：

获取模块301，用于获取业务数据；

筛选模块302，用于基于业务数据对模型的影响程度对业务数据进行筛选，得到用于对模型进行更新的数据；其中，影响程度反映对模型更新性能的影响大小。

可选的，筛选模块302，还用于：响应于业务数据含有业务标签，基于业务标签以及业务数据对应的预测数据对业务数据进行筛选，得到用于对模型进行更新的数据；预测数据是利用模型针对业务数据得到的数据；响应于业务数据未含有业务标签，基于业务数据对应的信息增益对业务数据进行筛选，得到用于对模型进行更新的数据，信息增益与影响程度成正比。

可选的，筛选模块302，还用于：将业务标签与预测数据进行比对；响应于业务标签与预测数据的差异不小于预设差异值，将业务数据作为用于对模型进行更新的数据。

可选的，筛选模块302，还用于：计算业务数据对应的信息增益；响应于信息增益不小于预设增益值，将业务数据作为待标注数据；对待标注数据进行标注，得到用于对模型进行更新的数据。

可选的，筛选模块302，还用于：通过如下信息增益函数计算业务数据对应的信息增益；

其中，D_train表示待更新的模型，X表示业务数据，

表示ω|X,D_train条件下

的信息增益，

表示给定X和D_train时所对应的

表示给定X和D_train时针对

的熵，p(ω|D_train)表示给定D_train的基础上ω的概率，

表示给定X和ω的基础上针对

的熵，

表示p(ω|D_train)条件下

的期望值。

可选的，如图4所示，该装置还包括：

保存模块401，用于通过增量保存的方式保存用于对模型进行更新的数据；或者，通过全量保存的方式保存用于对模型进行更新的数据。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图5所示，设备500包括计算单元501，其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序，来执行各种适当的动作和处理。在RAM 503中，还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如数据筛选方法。例如，在一些实施例中，数据筛选方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时，可以执行上文描述的数据筛选方法的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行数据筛选方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种数据筛选方法，包括：

获取业务数据；

2.根据权利要求1所述的方法，其中，所述基于所述业务数据对模型的影响程度对所述业务数据进行筛选，得到用于对所述模型进行更新的数据，包括：

响应于所述业务数据含有业务标签，基于所述业务标签以及所述业务数据对应的预测数据对所述业务数据进行筛选，得到用于对所述模型进行更新的数据；所述预测数据是利用所述模型针对所述业务数据得到的数据；

响应于所述业务数据未含有业务标签，基于所述业务数据对应的信息增益对所述业务数据进行筛选，得到用于对所述模型进行更新的数据，所述信息增益与所述影响程度成正比。

3.根据权利要求2所述的方法，其中，所述基于所述业务标签以及所述业务数据对应的预测数据对所述业务数据进行筛选，得到用于对所述模型进行更新的数据，包括：

将所述业务标签与所述预测数据进行比对；

响应于所述业务标签与所述预测数据的差异不小于预设差异值，将所述业务数据作为用于对所述模型进行更新的数据。

4.根据权利要求2所述的方法，其中，所述基于所述业务数据对应的信息增益对所述业务数据进行筛选，得到用于对所述模型进行更新的数据，包括：

计算所述业务数据对应的信息增益；

响应于所述信息增益不小于预设增益值，将所述业务数据作为待标注数据；

对所述待标注数据进行标注，得到用于对所述模型进行更新的数据。

5.根据权利要求4所述的方法，其中，所述计算所述业务数据对应的信息增益，包括：

通过如下信息增益函数计算所述业务数据对应的信息增益；

其中，D_train表示待更新的所述模型，X表示业务数据，

表示ω|X,D_train条件下

的信息增益，

表示给定X和D_train时所对应的

表示给定X和D_train时针对

的熵，p(ω|D_train)表示给定D_train的基础上ω的概率，

表示给定X和ω的基础上针对

的熵，

表示p(ω|D_train)条件下

的期望值。

6.根据权利要求1至5任一项所述的方法，还包括：

通过增量保存的方式保存所述用于对所述模型进行更新的数据；

或者，

通过全量保存的方式保存所述用于对所述模型进行更新的数据。

7.一种数据筛选装置，包括：

获取模块，用于获取业务数据；

8.根据权利要求7所述的装置，其中，所述筛选模块，还用于：响应于所述业务数据含有业务标签，基于所述业务标签以及所述业务数据对应的预测数据对所述业务数据进行筛选，得到用于对所述模型进行更新的数据；所述预测数据是利用所述模型针对所述业务数据得到的数据；响应于所述业务数据未含有业务标签，基于所述业务数据对应的信息增益对所述业务数据进行筛选，得到用于对所述模型进行更新的数据，所述信息增益与所述影响程度成正比。

9.根据权利要求8所述的装置，其中，所述筛选模块，还用于：将所述业务标签与所述预测数据进行比对；响应于所述业务标签与所述预测数据的差异不小于预设差异值，将所述业务数据作为用于对所述模型进行更新的数据。

10.根据权利要求8所述的装置，其中，所述筛选模块，还用于：计算所述业务数据对应的信息增益；响应于所述信息增益不小于预设增益值，将所述业务数据作为待标注数据；对所述待标注数据进行标注，得到用于对所述模型进行更新的数据。

11.根据权利要求10所述的装置，其中，所述筛选模块，还用于：通过如下信息增益函数计算所述业务数据对应的信息增益；