CN110457304A - 数据清洗方法、装置、电子设备及可读存储介质 - Google Patents

数据清洗方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN110457304A
CN110457304A CN201910729955.3A CN201910729955A CN110457304A CN 110457304 A CN110457304 A CN 110457304A CN 201910729955 A CN201910729955 A CN 201910729955A CN 110457304 A CN110457304 A CN 110457304A
Authority
CN
China
Prior art keywords
data
sample data
processed
annotation results
acquisition system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910729955.3A
Other languages
English (en)
Inventor
罗亚东
郭方园
晋小玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910729955.3A priority Critical patent/CN110457304A/zh
Publication of CN110457304A publication Critical patent/CN110457304A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Abstract

本发明实施例提供一种数据清洗方法、装置、电子设备及可读存储介质,该方法包括:获取数据集合中待处理样本数据和所述待处理样本数据的原始标注结果;将所述待处理样本数据输入多个标注模型,得到所述待处理样本数据的多个预测标注结果,所述多个标注模型用于计算同类型样本数据的预测标注结果;若所述多个预测标注结果中相同的预测标注结果的数量大于或等于预设阈值、且所述相同的预测标注结果与所述原始标注结果不同,则将所述数据集合中所述待处理样本数据的原始标注结果替换为所述相同的预测标注结果,得到更新后的所述数据集合。该方法使得数据清洗的效率得到极大提升。

Description

数据清洗方法、装置、电子设备及可读存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据清洗方法、装置、电子设备及可读存储介质。
背景技术
在深度学习(deep learning)领域,数据是重要的核心信息之一,数据的质量直接影响着学习到的模型的质量。深度学习过程中,一个任务往往对应庞大的数据集,需要对数据集中的各个数据进行标注。由于人为原因等,数据在标注时可能会出现错误,导致数据集中可能出现标注错误的数据。此时,需要对数据集中的标注数据进行清洗,以纠正标注错误的数据,从而得到标注准确的数据。
目前,常见的数据清洗方法包括随机抽样法。该方法中,随机抽取一定数量的样本,判断随机抽取的样本中标注准确的样本占抽取的总样本的比例是否超过阈值,若随机抽取的样本中标注准确的样本占抽取的总样本的比例超过阈值,则确定无需执行数据清洗;若随机抽取的样本中标注准确的样本占抽取的总样本的比例未达到阈值,则确定执行数据清洗。数据清洗过程中,需要手动对数据集中的各个数据重新标注。
但是,在数据集中的数据量庞大时,使用上述的数据清洗方法的工作量大、耗时长,导致数据清洗效率低。
发明内容
本发明实施例提供一种数据清洗方法、装置、电子设备及可读存储介质,用于解决现有技术中数据清洗效率低的问题。
本发明实施例第一方面提供一种数据清洗方法,包括:
获取数据集合中待处理样本数据和所述待处理样本数据的原始标注结果,所述数据集合包括的样本数据为同类型的数据;
将所述待处理样本数据输入多个标注模型,得到所述待处理样本数据的多个预测标注结果,所述多个标注模型用于计算同类型样本数据的预测标注结果,各所述标注模型的模型参数不同,和/或,网络结构不同;
若所述多个预测标注结果中相同的预测标注结果的数量大于或等于预设阈值、且所述相同的预测标注结果与所述原始标注结果不同,则将所述数据集合中所述待处理样本数据的原始标注结果替换为所述相同的预测标注结果,得到更新后的所述数据集合。
进一步的,所述将所述待处理样本数据输入多个标注模型,得到所述待处理样本数据的多个预测标注结果之后,所述方法还包括:
若所述多个预测标注结果中相同的预测标注结果的数量小于所述预设阈值,则将所述待处理样本数据标记为困难样本数据。
进一步的,所述将所述待处理样本数据标记为困难样本数据之后,所述方法还包括:
推送提示信息,所述提示信息用于指示所述待处理样本数据为困难样本数据;
若接收到用户输入的所述待处理样本数据的人工标注结果,则将所述数据集合中所述待处理样本数据的原始标注结果替换为所述人工标注结果,得到更新后的所述数据集合;或者,
若接收到用户输入的删除指令,则在所述数据集合中删除所述待处理样本数据和所述待处理样本数据的原始标注结果,得到更新后的所述数据集合。
进一步的,所述将所述待处理样本数据标记为困难样本数据之后,所述方法还包括:
根据待处理样本数据标记为困难样本数据的标记结果,在所述数据集合中删除所述待处理样本数据和所述待处理样本数据的原始标注结果,得到更新后的所述数据集合。
进一步的,所述获取数据集合中待处理样本数据和所述待处理样本数据的原始标注结果之前,所述方法还包括:
获取多个待训练模型;
使用所述数据集合训练所述多个待训练模型,得到所述多个标注模型。
进一步的,所述得到更新后的所述数据集合之后,所述方法还包括:
使用更新后的所述数据集合,重新训练所述多个标注模型。
进一步的,所述获取多个待训练模型,包括:
对基础标注模型的模型参数和/或网络结构进行调整,得到所述多个待训练模型。
进一步的,所述数据集合为训练数据集合,所述训练数据集合用于训练神经网络模型。
进一步的,所述数据集合中的样本数据为图像,或者,文本。
本发明实施例第二方面提供一种数据清洗装置,包括:
第一获取模块,用于获取数据集合中待处理样本数据和所述待处理样本数据的原始标注结果,所述数据集合包括的样本数据为同类型的数据;
预测模块,用于将所述待处理样本数据输入多个标注模型,得到所述待处理样本数据的多个预测标注结果,所述多个标注模型用于计算同类型样本数据的预测标注结果,各所述标注模型的模型参数不同,和/或,网络结构不同;
替换模块,用于在所述多个预测标注结果中相同的预测标注结果的数量大于或等于预设阈值、且所述相同的预测标注结果与所述原始标注结果不同时,将所述数据集合中所述待处理样本数据的原始标注结果替换为所述相同的预测标注结果,得到更新后的所述数据集合。
进一步的,所述装置还包括:
标记模块,用于在所述多个预测标注结果中相同的预测标注结果的数量小于所述预设阈值时,将所述待处理样本数据标记为困难样本数据。
进一步的,所述装置还包括:
推送模块,用于推送提示信息,所述提示信息用于指示所述待处理样本数据为困难样本数据;
替换模块,用于在接收到用户输入的所述待处理样本数据的人工标注结果时,将所述数据集合中所述待处理样本数据的原始标注结果替换为所述人工标注结果,得到更新后的所述数据集合;
第一删除模块,用于在接收到用户输入的删除指令时,在所述数据集合中删除所述待处理样本数据和所述待处理样本数据的原始标注结果,得到更新后的所述数据集合。
进一步的,所述装置还包括:
第二删除模块,用于根据待处理样本数据标记为困难样本数据的标记结果,在所述数据集合中删除所述待处理样本数据和所述待处理样本数据的原始标注结果,得到更新后的所述数据集合。
进一步的,所述装置还包括:
第二获取模块,用于获取多个待训练模型;
第一训练模块,用于使用所述数据集合训练所述多个待训练模型,得到所述多个标注模型。
进一步的,所述装置还包括:
第二训练模块,用于使用更新后的所述数据集合,重新训练所述多个标注模型。
进一步的,所述第二获取模块具体用于:
对基础标注模型的模型参数和/或网络结构进行调整,得到所述多个待训练模型。
进一步的,所述数据集合为训练数据集合,所述训练数据集合用于训练神经网络模型。
进一步的,所述数据集合中的样本数据为图像,或者,文本。
本发明实施例第三方面提供一种电子设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述电子设备执行上述第一方面所述的方法。
本发明实施例第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机执行指令,当所述计算机执行指令被处理器执行时,实现上述第一方面所述的方法。
本发明实施例所提供的数据清洗方法、装置、电子设备及可读存储介质,通过将待处理样本数据输入多个用于计算同类型样本数据的预测标注结果的标注模型,根据各标注模型的计算结果实现对待处理样本数据的清洗。该方法能够实现对大量样本数据的自动清洗,从而使得数据清洗的效率得到极大提升。同时,该方法基于多个用于计算同类型样本数据的预测标注结果的标注模型进行数据清洗,能够使得识别以及清洗数据集合中标注错误数据的准确率得到极大提升。
附图说明
图1为本发明实施例提供的数据清洗方法的流程示意图;
图2为上述多个标注模型进行处理的示例图;
图3为本发明实施例提供的数据清洗方法的流程示意图;
图4为本发明实施例提供的数据清洗方法的流程示意图;
图5为本发明实施例提供的数据清洗装置的模块结构图;
图6为本发明实施例提供的数据清洗装置的模块结构图;
图7为本发明实施例提供的数据清洗装置的模块结构图;
图8为本发明实施例提供的数据清洗装置的模块结构图;
图9为本发明实施例提供的数据清洗装置的模块结构图;
图10为本发明实施例提供的数据清洗装置的模块结构图;
图11为本发明实施例提供的一种电子设备1100的结构示意图。
具体实施方式
深度学习过程中,一个任务对应的数据集非常的庞大,需要对该庞大的数据集中的数据进行标注,并基于包含标注数据的数据集进行深度学习。其中,对数据进行标注是指标注数据的内容、特征等。以数据集为图片集合为例,假设图片集合中的每个图片上具有数字,则可以用数字对图片进行标注,如将包含1的图片标注为1,将包含2的图片标注为2等。由于数据集中的数据量非常庞大,标注过程中,不可避免的会出现错误,使得数据集中出现标注错误的数据。此时,需要对标注数据进行数据清洗。
在数据处理领域,数据清洗是指对数据进行重新审查和校验等,目的在于删除重复信息、纠正存在错误的数据,将脏数据转换成满足数据质量要求的数据等。不同于数据分析中的数据清洗,在深度学习特别是监督学习过程中,数据作为核心,数据的质量决定了最后学习到的模型的整体表现。由于一个任务的数据集非常大,因此,标注工作和清洗工作成为一项非常耗时耗财的工作。其中,数据清洗的重要目的是对数据集中错误的数据标注进行纠正。常见的数据清洗包括随机抽样方式。
随机抽样方式通过抽取一定数量的样本,基于该些样本判断是否需要对数据集做数据清洗,若需要对训练数据做清洗,则需要对数据集中的数据一一重新做标注。使用该方法,当数据集中的数据量庞大时,为准确的判断出是否需要对该数据集中的标注数据进行清洗,抽取的样本的数量往往也比较大,而抽取大量样本的工作量大、耗时长,从而导致数据清洗效率低。
有鉴于此,本发明实施例提供一种数据清洗方法,通过将待处理样本数据输入多个用于计算同类型样本数据的预测标注结果的标注模型,根据各标注模型的计算结果实现对待处理样本数据的清洗。该方法能够实现对大量样本数据的自动清洗,从而使得数据清洗的效率得到极大提升。同时,该方法基于多个用于计算同类型样本数据的预测标注结果的标注模型进行数据清洗,能够使得识别以及清洗数据集合中标注错误数据的准确率得到极大提升。
图1为本发明实施例提供的数据清洗方法的流程示意图,该方法的执行主体为具有计算处理能力的电子设备。如图1所示,该方法包括:
S101、获取数据集合中待处理样本数据和该待处理样本数据的原始标注结果,该数据集合包括的样本数据为同类型的数据。
可选的,上述数据集合可以指需要进行数据清洗的数据集合。该数据集合中包含多个已经进行过标注的样本数据,这些数据中可能存在标注错误的数据。示例性的,某个数据集合中的数据均用于完成识别图片中的文字这一任务,则该数据集合中可以包括大量的图片,针对每个图片,预先标注了该图片中包含文字。在这些图片中,可能存在某幅图片,预先标注了其中所包含的文字为“5”,而实际上该幅图片所包含的文字为“3”,则该幅图片为一个标注错误的数据。
可选的,上述待处理样本数据可以为上述数据集合中的一个样本数据,也可以为由上述数据集合中的多个样本数据所组成的一组样本数据,本实施例对此不作具体限定。
可选的,上述数据集合中所包括的样本数据为同类型的数据。示例性的,上述数据集合中的样本数据可以均为图片,或者,上述数据集合中的样本数据可以均为文本。本实施例对于样本数据的具体形态不作限定。
可选的,可以预先收集大量的样本数据,并逐一对这些样本数据进行标注,将这些进行过标注的样本数据组成上述数据集合。
S102、将上述待处理样本数据输入多个标注模型,得到上述待处理样本数据的多个预测标注结果,该多个标注模型用于计算同类型样本数据的预测标注结果,各标注模型的参数不同,和/或,网络结构不同。
可选的,上述多个标注模型为处理相同任务的模型。示例性的,上述多个标注模型中的每个模型均用于识别图片中的文字,或者,上述多个标注模型中的每个模型均用于进行文本翻译。对于这些处理相同任务的模型来说,均可以处理上述同类型的样本数据,并分别输出预测标注结果。示例性的,上述多个标注模型均用于识别图片中的文字,将一幅图片分别输入每个标注模型后,每个标注模型均可以输出对于该幅图片的文字识别结果。
图2为上述多个标注模型进行处理的示例图,如图2所示,假设上述多个标注模型分别为标注模型1、标注模型2、标注模型3和标注模型4,对于同一个待处理样本数据A,将A分别输入该4个标注模型后,该4个标注模型可以分别输出一个预测标注结果,基于这些预测标注结果,可以通过下述步骤实现数据清洗。
可选的,上述各标注模型的模型参数可以不同,和/或,上述各标注模型的网络结构可以不同,示例性的,假设上述各标注模型为卷积神经网络模型,则标注模型的层数量或者层顺序可以两两不同,以使得各标注模型的网络结构不同。
S103、判断上述多个预测标注结果中相同的预测标注结果的数量是否大于或等于预设阈值,以及,上述相同的预测标注结果与上述原始标注结果是否不同,若是,则执行步骤S104。
S104、将上述数据集合中上述待处理样本数据的原始标注结果替换为上述相同的预测标注结果,得到更新后的数据集合。
如果上述多个预测标注结果中相同的预测标注结果的数量大于或等于预设阈值,并且,上述相同的预测标注结果与上述原始标注结果不同,则说明多个标注模型中超过一定比例的模型对于同一个样本数据的处理结果是一致的,同时,该一致的处理结果与样本数据的原始标注结果不相同,则可以说明样本数据的原始标注结果为错误的标注结果,即样本数据标注错误。在这种情况下,可以用各标注模型所输出的预测标注结果替换数据集合中待处理样本数据的原始标注结果,使得待处理样本数据的标注结果为正确的标注结果,从而实现数据清洗。
本实施例中,通过将待处理样本数据输入多个用于计算同类型样本数据的预测标注结果的标注模型,根据各标注模型的计算结果实现对待处理样本数据的清洗。该方法能够实现对大量样本数据的自动清洗,从而使得数据清洗的效率得到极大提升。同时,该方法基于多个用于计算同类型样本数据的预测标注结果的标注模型进行数据清洗,能够使得识别以及清洗数据集合中标注错误数据的准确率得到极大提升。
一种可选的实施方式中,在上述步骤S103中,如果判断出上述多个预测标注结果中相同的预测标注结果的数量小于上述预设阈值,则将上述待处理样本数据标记为困难样本数据。
如果上述多个预测标注结果中相同的预测标注结果的数量小于上述预设阈值,则说明多个标注模型中超过一定比例的模型对于同一个样本数据的处理结果并不一致,进而可以说明该样本数据的识别较为困难,因此,可以将该样本数据标记为困难样本数据。
在将样本数据标记为困难样本数据之后,可选的,可以通过如下两种方式中的任意一种进行处理。
第一种方式中,可以通过与用户交互方式进行处理。
图3为本发明实施例提供的数据清洗方法的流程示意图,如图3所示,在将待处理样本数据标记为困难样本数据之后,还可以包括:
S301、推送提示信息,该提示信息用于指示上述待处理样本数据为困难样本数据。
可选的,上述提示信息中可以包括困难样本数据的标识,例如编号等。
S302、若接收到用户输入的上述待处理样本数据的人工标注结果,则将上述数据集合中上述待处理样本数据的原始标注结果替换为上述人工标注结果,得到更新后的数据集合。或者,若接收到用户输入的删除指令,则在上述数据集合中删除上述待处理样本数据和上述待处理样本数据的原始标注结果,得到更新后的数据集合。
用户接收到推送的提示信息后,可以根据提示信息查找到困难样本数据,并对困难样本数据进行判断。如果可以人工判断出标注结果,则用户可以直接输入困难样本数据对应的人工标注结果,电子设备根据用户的输入,将困难样本数据的标注结果替换为该人工标注结果。如果用户认为该困难样本数据的识别较为困难,则可以直接指示从数据集合中删除该困难样本数据,以得到更新后的数据集合。
该方式通过与用户交互实现对困难样本数据的重新标注或者删除,使得困难样本数据的数据清洗准确度得以提升。
第二种方式中,可以直接从数据集合中删除标记为困难样本数据的样本数据。
在该方式中,在将待处理样本数据标记为困难样本数据之后,可以根据待处理样本数据标记为困难样本数据的标记结果,在上述数据集合中删除上述待处理样本数据和上述待处理样本数据的原始标注结果,得到更新后的数据集合。
该方式无需与用户交互,对于困难样本数据直接进行删除,可以降低处理复杂度,进一步提升数据清洗的效率。
在上述实施例的基础上,本实施例说明得到上述多个标注模型的过程。
图4为本发明实施例提供的数据清洗方法的流程示意图,如图4所示,在上述步骤S101之前,还包括:
S401、获取多个待训练模型。
可选的,上述多个待训练模型为用于计算同类型样本数据的预测标注结果的多个未经训练的模型,这些待训练模型经过训练之后,即成为上述多个标注模型。
作为一种可选的实施方式,上述多个待训练模型可以由同一个基础标注模型演变得到。
可选的,可以首先创建一个模型,该模型称为基础标注模型,进而,可以对该模型的模型参数和/或网络结构进行调整,以得到多个待训练模型。
示例性的,对于基础标注模型的一个模型参数进行调整,可以得到一个待训练模型,对于基础标注模型的网络结构进行一次调整,可以得到另一个待训练模型。
S402、使用述数据集合训练上述多个待训练模型,得到上述多个标注模型。
在得到多个待训练模型之后,可以使用上述数据集合训练这些待训练模型,以得到上述多个标注模型。
可选的,可以将数据集合中的样本数据分别输入这些待训练模型,得到这些待训练模型输出的结果,根据结果更新待训练模型,再将数据集合中的样本数据再次输入更新后的待训练模型,依次类推,直至待训练模型输出的结果满足预设的条件时,停止训练,并将此时的待训练模型作为上述多个标注模型。
作为一种可选的实施方式,上述的模型训练过程与前述的更新数据集合的过程可以交替进行。
具体的,在经过前述过程得到更新后的数据集合后,可以使用更新后的数据集合,重新训练上述多个标注模型,以得到鲁棒性更高的标注模型。同时,在得到重新训练后的多个标注模型后,可以再次使用这些标注模型进行数据清洗,以得到新的数据集合。
可选的,在本发明实施例中,标注模型可以为神经网络模型,上述数据集合可以为用来训练神经网络模型的训练数据集合。
图5为本发明实施例提供的数据清洗装置的模块结构图,如图5所示,该装置包括:
第一获取模块501,用于获取数据集合中待处理样本数据和所述待处理样本数据的原始标注结果,所述数据集合包括的样本数据为同类型的数据。
预测模块502,用于将所述待处理样本数据输入多个标注模型,得到所述待处理样本数据的多个预测标注结果,所述多个标注模型用于计算同类型样本数据的预测标注结果,各所述标注模型的模型参数不同,和/或,网络结构不同。
第一替换模块503,用于在所述多个预测标注结果中相同的预测标注结果的数量大于或等于预设阈值、且所述相同的预测标注结果与所述原始标注结果不同时,将所述数据集合中所述待处理样本数据的原始标注结果替换为所述相同的预测标注结果,得到更新后的所述数据集合。
该装置用于实现前述方法实施例,其实现原理和技术效果类似,此处不再赘述。
图6为本发明实施例提供的数据清洗装置的模块结构图,如图6所示,该装置还包括:
标记模块504,用于在所述多个预测标注结果中相同的预测标注结果的数量小于所述预设阈值时,将所述待处理样本数据标记为困难样本数据。
图7为本发明实施例提供的数据清洗装置的模块结构图,如图7所示,该装置还包括:
推送模块505,用于推送提示信息,所述提示信息用于指示所述待处理样本数据为困难样本数据。
第二替换模块506,用于在接收到用户输入的所述待处理样本数据的人工标注结果时,将所述数据集合中所述待处理样本数据的原始标注结果替换为所述人工标注结果,得到更新后的所述数据集合。
第一删除模块507,用于在接收到用户输入的删除指令时,在所述数据集合中删除所述待处理样本数据和所述待处理样本数据的原始标注结果,得到更新后的所述数据集合。
图8为本发明实施例提供的数据清洗装置的模块结构图,如图8所示,该装置还包括:
第二删除模块508,用于根据待处理样本数据标记为困难样本数据的标记结果,在所述数据集合中删除所述待处理样本数据和所述待处理样本数据的原始标注结果,得到更新后的所述数据集合。
图9为本发明实施例提供的数据清洗装置的模块结构图,如图9所示,该装置还包括:
第二获取模块509,用于获取多个待训练模型。
第一训练模块510,用于使用所述数据集合训练所述多个待训练模型,得到所述多个标注模型。
图10为本发明实施例提供的数据清洗装置的模块结构图,如图10所示,该装置还包括:
第二训练模块511,用于使用更新后的所述数据集合,重新训练所述多个标注模型。
另一实施例中,第二获取模块509具体用于:
对基础标注模型的模型参数和/或网络结构进行调整,得到所述多个待训练模型。
另一实施例中,所述数据集合为训练数据集合,所述训练数据集合用于训练神经网络模型。
另一实施例中,所述数据集合中的样本数据为图像,或者,文本。
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,确定模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上确定模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(application specific integrated circuit,ASIC),或,一个或多个微处理器(digital signal processor,DSP),或,一个或者多个现场可编程门阵列(field programmable gate array,FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(centralprocessing unit,CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,SOC)的形式实现。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘solid state disk(SSD))等。
图11为本发明实施例提供的一种电子设备1100的结构示意图。如图11所示,该电子设备可以包括:处理器111、存储器112、通信接口113和系统总线114,所述存储器112和所述通信接口113通过所述系统总线114与所述处理器111连接并完成相互间的通信,所述存储器112用于存储计算机执行指令,所述通信接口113用于和其他设备进行通信,所述处理器111执行所述计算机程序时实现如上述图1至图4所示实施例的方案。
该图11中提到的系统总线可以是外设部件互连标准(peripheral componentinterconnect,PCI)总线或扩展工业标准结构(extended industry standardarchitecture,EISA)总线等。所述系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(random access memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
上述的处理器可以是通用处理器,包括中央处理器CPU、网络处理器(networkprocessor,NP)等;还可以是数字信号处理器DSP、专用集成电路ASIC、现场可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可选的,本发明实施例还提供一种存储介质,所述存储介质中存储有指令,当其在计算机上运行时,使得计算机执行如上述图1至图4所示实施例的方法。
可选的,本发明实施例还提供一种运行指令的芯片,所述芯片用于执行上述图1至图4所示实施例的方法。
本发明实施例还提供一种程序产品,所述程序产品包括计算机程序,所述计算机程序存储在存储介质中,至少一个处理器可以从所述存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序时可实现上述图1至图4所示实施例的方法。
在本发明实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系;在公式中,字符“/”,表示前后关联对象是一种“相除”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中,a,b,c可以是单个,也可以是多个。
可以理解的是,在本发明实施例中涉及的各种数字编号仅为描述方便进行的区分,并不用来限制本发明实施例的范围。
可以理解的是,在本发明的实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (12)

1.一种数据清洗方法,其特征在于,包括:
获取数据集合中待处理样本数据和所述待处理样本数据的原始标注结果,所述数据集合包括的样本数据为同类型的数据;
将所述待处理样本数据输入多个标注模型,得到所述待处理样本数据的多个预测标注结果,所述多个标注模型用于计算同类型样本数据的预测标注结果,各所述标注模型的模型参数不同,和/或,网络结构不同;
若所述多个预测标注结果中相同的预测标注结果的数量大于或等于预设阈值、且所述相同的预测标注结果与所述原始标注结果不同,则将所述数据集合中所述待处理样本数据的原始标注结果替换为所述相同的预测标注结果,得到更新后的所述数据集合。
2.根据权利要求1所述的方法,其特征在于,所述将所述待处理样本数据输入多个标注模型,得到所述待处理样本数据的多个预测标注结果之后,所述方法还包括:
若所述多个预测标注结果中相同的预测标注结果的数量小于所述预设阈值,则将所述待处理样本数据标记为困难样本数据。
3.根据权利要求2所述的方法,其特征在于,所述将所述待处理样本数据标记为困难样本数据之后,所述方法还包括:
推送提示信息,所述提示信息用于指示所述待处理样本数据为困难样本数据;
若接收到用户输入的所述待处理样本数据的人工标注结果,则将所述数据集合中所述待处理样本数据的原始标注结果替换为所述人工标注结果,得到更新后的所述数据集合;或者,
若接收到用户输入的删除指令,则在所述数据集合中删除所述待处理样本数据和所述待处理样本数据的原始标注结果,得到更新后的所述数据集合。
4.根据权利要求2所述的方法,其特征在于,所述将所述待处理样本数据标记为困难样本数据之后,所述方法还包括:
根据待处理样本数据标记为困难样本数据的标记结果,在所述数据集合中删除所述待处理样本数据和所述待处理样本数据的原始标注结果,得到更新后的所述数据集合。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述获取数据集合中待处理样本数据和所述待处理样本数据的原始标注结果之前,所述方法还包括:
获取多个待训练模型;
使用所述数据集合训练所述多个待训练模型,得到所述多个标注模型。
6.根据权利要求5所述的方法,其特征在于,所述得到更新后的所述数据集合之后,所述方法还包括:
使用更新后的所述数据集合,重新训练所述多个标注模型。
7.根据权利要求5所述的方法,其特征在于,所述获取多个待训练模型,包括:
对基础标注模型的模型参数和/或网络结构进行调整,得到所述多个待训练模型。
8.根据权利要求1-4任一项所述的方法,其特征在于,所述数据集合为训练数据集合,所述训练数据集合用于训练神经网络模型。
9.根据权利要求1-4任一项所述的方法,其特征在于,所述数据集合中的样本数据为图像,或者,文本。
10.一种数据清洗装置,其特征在于,包括:
第一获取模块,用于获取数据集合中待处理样本数据和所述待处理样本数据的原始标注结果,所述数据集合包括的样本数据为同类型的数据;
预测模块,用于将所述待处理样本数据输入多个标注模型,得到所述待处理样本数据的多个预测标注结果,所述多个标注模型用于计算同类型样本数据的预测标注结果,各所述标注模型的模型参数不同,和/或,网络结构不同;
替换模块,用于在所述多个预测标注结果中相同的预测标注结果的数量大于或等于预设阈值、且所述相同的预测标注结果与所述原始标注结果不同时,将所述数据集合中所述待处理样本数据的原始标注结果替换为所述相同的预测标注结果,得到更新后的所述数据集合。
11.一种电子设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述电子设备执行权利要求1-9任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机执行指令,当所述计算机执行指令被处理器执行时,实现权利要求1-9任一项所述的方法。
CN201910729955.3A 2019-08-08 2019-08-08 数据清洗方法、装置、电子设备及可读存储介质 Pending CN110457304A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910729955.3A CN110457304A (zh) 2019-08-08 2019-08-08 数据清洗方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910729955.3A CN110457304A (zh) 2019-08-08 2019-08-08 数据清洗方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN110457304A true CN110457304A (zh) 2019-11-15

Family

ID=68485552

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910729955.3A Pending CN110457304A (zh) 2019-08-08 2019-08-08 数据清洗方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN110457304A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488925A (zh) * 2020-04-07 2020-08-04 北京百度网讯科技有限公司 一种数据标注方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6298351B1 (en) * 1997-04-11 2001-10-02 International Business Machines Corporation Modifying an unreliable training set for supervised classification
CN109599095A (zh) * 2018-11-21 2019-04-09 百度在线网络技术(北京)有限公司 一种语音数据的标注方法、装置、设备和计算机存储介质
CN109635110A (zh) * 2018-11-30 2019-04-16 北京百度网讯科技有限公司 数据处理方法、装置、设备以及计算机可读存储介质
CN109784391A (zh) * 2019-01-04 2019-05-21 杭州比智科技有限公司 基于多模型的样本标注方法及装置
CN109784382A (zh) * 2018-12-27 2019-05-21 广州华多网络科技有限公司 标注信息处理方法、装置以及服务器
US20190205794A1 (en) * 2017-12-29 2019-07-04 Oath Inc. Method and system for detecting anomalies in data labels
CN110060247A (zh) * 2019-04-18 2019-07-26 深圳市深视创新科技有限公司 应对样本标注错误的鲁棒深度神经网络学习方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6298351B1 (en) * 1997-04-11 2001-10-02 International Business Machines Corporation Modifying an unreliable training set for supervised classification
US20190205794A1 (en) * 2017-12-29 2019-07-04 Oath Inc. Method and system for detecting anomalies in data labels
CN109599095A (zh) * 2018-11-21 2019-04-09 百度在线网络技术(北京)有限公司 一种语音数据的标注方法、装置、设备和计算机存储介质
CN109635110A (zh) * 2018-11-30 2019-04-16 北京百度网讯科技有限公司 数据处理方法、装置、设备以及计算机可读存储介质
CN109784382A (zh) * 2018-12-27 2019-05-21 广州华多网络科技有限公司 标注信息处理方法、装置以及服务器
CN109784391A (zh) * 2019-01-04 2019-05-21 杭州比智科技有限公司 基于多模型的样本标注方法及装置
CN110060247A (zh) * 2019-04-18 2019-07-26 深圳市深视创新科技有限公司 应对样本标注错误的鲁棒深度神经网络学习方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488925A (zh) * 2020-04-07 2020-08-04 北京百度网讯科技有限公司 一种数据标注方法、装置、电子设备及存储介质
CN111488925B (zh) * 2020-04-07 2023-10-20 北京百度网讯科技有限公司 一种数据标注方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN109376267B (zh) 用于生成模型的方法和装置
CN109447156B (zh) 用于生成模型的方法和装置
CN108664897A (zh) 票据识别方法、装置及存储介质
US20190087744A1 (en) Automatic Selection of Variables for a Machine-Learning Model
US20200065710A1 (en) Normalizing text attributes for machine learning models
US20180307998A1 (en) Using machine learning regression to estimate time for completing application lifecycle management work item
US10768904B2 (en) System and method for a computational notebook interface
US9910487B1 (en) Methods, systems and computer program products for guiding users through task flow paths
US7421671B2 (en) Graph pruning scheme for sensitivity analysis with partitions
JP2018507450A (ja) 自動スキーマ不整合検出
CN109388376A (zh) 软件开发风险评估方法、装置、设备及可读存储介质
CN113407536A (zh) 表数据的关联方法、装置、终端设备及介质
CN107194489A (zh) 数据预测方法及装置
JPWO2018037879A1 (ja) 自動分析装置および情報処理装置
CN114048816A (zh) 一种图神经网络数据采样方法、装置、设备及存储介质
CN110457304A (zh) 数据清洗方法、装置、电子设备及可读存储介质
JP6840627B2 (ja) ハイパーパラメータの評価方法、計算機及びプログラム
Zhang et al. Simulation-based optimization of user interfaces for quality-assuring machine learning model predictions
CN115237355B (zh) 一种基于闪存数据类识别的定向交换方法及系统
US9348733B1 (en) Method and system for coverage determination
CN115186738B (zh) 模型训练方法、装置和存储介质
US9454149B2 (en) Extracting attribute fail rates from convoluted systems
CN116523284A (zh) 基于机器学习的业务操作流程自动化评估方法、系统
Zhang et al. On the cost of interactions in interactive visual machine learning
US10733345B1 (en) Method and system for generating a validation test

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination