CN111177136A - 标注数据清洗装置和方法 - Google Patents
标注数据清洗装置和方法 Download PDFInfo
- Publication number
- CN111177136A CN111177136A CN201911383331.7A CN201911383331A CN111177136A CN 111177136 A CN111177136 A CN 111177136A CN 201911383331 A CN201911383331 A CN 201911383331A CN 111177136 A CN111177136 A CN 111177136A
- Authority
- CN
- China
- Prior art keywords
- data
- sub
- training
- test
- labeled
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种标注数据清洗装置,包括:标注数据库,算法模型结构,数据等分模块,子数据集设置模块,训练模块和测试模块;子数据集设置模块依次从N个子数据集中选择一个作为子训练集,剩余的各子数据集都分别为一个子测试集,一个子训练集和N‑1个子测试集形成一个训练测试组。训练模块采用各训练测试组中的子训练集对算法模型结构进行训练。测试模块采用各子测试集依次对对应的已训练算法模型进行测试并形成测试结果,从测试结果中收集所有错误例子并对错误例子对应的已标注数据进行清洗。本发明还公开了一种标注数据清洗方法。本发明能实现标注数据的自动清洗,能提高清洗效率和清洗质量。
Description
技术领域
本发明涉及数据处理领域,特别是涉及一种标注数据清洗装置。本发明还涉及一种标注数据清洗方法。
背景技术
目前标注数据清洗比较初级,要么需要人工手动将标注质量差的数据挑出,要么需要人工设计规则筛选出需要重新标注的数据。自动化程度低。而数据质量对于后续算法研发结果息息相关,直接影响算法性能的表现。高质量的清洗干净的数据十分重要。
中国发明专利申请CN108764372A公开了数据集的构建方法和装置、移动终端、可读存储介质,其本质是在数据库中更自动化选择新的数据是哪一批,与我们解决的技术问题不同。
中国发明专利申请CN109753498A公开了基于机器学习的数据清洗方法及终端设备,其使用隐马尔科夫模型,是个在作为无监督学习的方式。将干净数据和脏数据混合的方式,利用干净数据找到脏数据中的离群点,认为是需要清洗的数据并清晰。实际上需要比较强的先验一批干净数据,并且对更多模态的数据比较弱。无监督学习性能一般较差。
发明内容
本发明所要解决的技术问题是提供一种标注数据清洗装置,能实现标注数据的自动清洗,能提高清洗效率和清洗质量。为此,本发明还提供一种标注数据清洗方法。
为解决上述技术问题,,本发明采用如下技术方案:
第一方面,本发明提供的标注数据清洗装置包括:
标注数据库,包括了所有待清洗的已标注数据。
算法模型结构,包括了所述已标注数据所对应的任务的算法模型。
数据等分模块,用于实现:对所述标注数据库的数据进行等分并形成多个子数据集,令所述子数据集的数量为N,N大于等于2,各所述子数据集的编号分别为1至N。
子数据集设置模块,用于实现:从编号1至N,依次选择一个所述子数据集作为子训练集,令所述子训练集对应的所述子数据集的编号为k,1≤k≤N,则第k子数据集之外的N-1个所述子数据集都分别为一个子测试集,一个所述子训练集和N-1个所述子测试集形成一个训练测试组,共有N个所述训练测试组,令各所述训练测试组的编号分别为1至N。
训练模块,用于实现:从编号1至N,依次选择编号对应的所述训练测试组中的所述子训练集对所述算法模型结构进行训练并得到对应编号的已训练算法模型。
测试模块,从编号1至N,采用编号对应的所述训练测试组中的各所述子测试集依次对编号对应的所述已训练算法模型进行测试并形成测试结果,从各次测试形成的所述测试结果中收集所有错误例子,对所述错误例子对应的所述已标注数据进行清洗并形成清洗后的所述标注数据库。
进一步的改进是,所述已标注数据为标注员对未标注数据进行标注后形成的数据。
进一步的改进是,所述已标注数据所对应的任务包括:类别分类任务、物体检出任务、图像分割任务。
进一步的改进是,标注数据清洗装置还包括控制模块,所述控制模块用于实现:控制所述数据等分模块、所述子数据集设置模块、所述训练模块和所述测试模块依次循环工作,当一次循环工作完成后重新下一次循环工作,下一次循环工作对应的所述标注数据库采用前一次循环工作形成的清洗后的所述标注数据库。
进一步的改进是,随着循环的次数的增加,所述测试模块收集所述错误例子的数量减少,当所述错误例子的数量减少到要求值时停止所述循环工作。
进一步的改进是,当所述错误例子的数量减少0时停止所述循环工作。
进一步的改进是,下一次循环工作对应的所述标注数据库采用在前一次循环工作形成的清洗后的所述标注数据库的基础上增加新注入的已标注数据形成的标注数据库。
进一步的改进是,所述算法模型结构中算法模型根据所述测试结果进行优化。
进一步的改进是,对所述错误例子对应的所述已标注数据进行清洗包括:
将所述错误例子对应的所述已标注数据的标注去除并将所述错误例子对应的所述已标注数据从所述标注数据库中剔除。
或者,将所述错误例子对应的所述已标注数据的标注去除并重新对所述错误例子对应的所述已标注数据进行标注。
第二方面,本发明提供的标注数据清洗方法,包括如下步骤:
步骤一、提供包括了所有待清洗的已标注数据的标注数据库。
步骤二、根据所述已标注数据选择对应的任务的算法模型并形成算法模型结构。
步骤三、进行数据等分,包括:对所述标注数据库的数据进行等分并形成多个子数据集,令所述子数据集的数量为N,N大于等于2,各所述子数据集的编号分别为1至N。
步骤四、进行子数据集设置,包括:从编号1至N,依次选择一个所述子数据集作为子训练集,令所述子训练集对应的所述子数据集的编号为k,1≤k≤N,则第k子数据集之外的N-1个所述子数据集都分别为一个子测试集,一个所述子训练集和N-1个所述子测试集形成一个训练测试组,共有N个所述训练测试组,令各所述训练测试组的编号分别为1至N。
步骤五、进行训练,包括:从编号1至N,依次选择编号对应的所述训练测试组中的所述子训练集对所述算法模型结构进行训练并得到对应编号的已训练算法模型。
步骤六、进行测试,从编号1至N,采用编号对应的所述已训练算法模型依次对编号对应的所述训练测试组中的各所述子测试集进行测试并形成测试结果,从各次测试形成的所述测试结果中收集所有错误例子,对所述错误例子对应的所述已标注数据进行清洗并形成清洗后的所述标注数据库。
进一步的改进是,所述已标注数据为标注员对未标注数据进行标注后形成的数据。
进一步的改进是,所述已标注数据所对应的任务包括:类别分类任务、物体检出任务、图像分割任务。
进一步的改进是,将步骤三至步骤六作为一次循环工作,当一次循环工作完成后重新下一次循环工作,下一次循环工作对应的所述标注数据库采用前一次循环工作形成的清洗后的所述标注数据库。
进一步的改进是,随着循环的次数的增加,步骤六收集所述错误例子的数量减少,当所述错误例子的数量减少到要求值时停止所述循环工作。
进一步的改进是,当所述错误例子的数量减少0时停止所述循环工作。
进一步的改进是,下一次循环对应的所述标注数据库采用在前一次循环工作形成的清洗后的所述标注数据库的基础上增加新注入的已标注数据形成的标注数据库。
进一步的改进是,步骤二中,还包括根据所述测试结果对算法模型进行优化的步骤。
进一步的改进是,对所述错误例子对应的所述已标注数据进行清洗包括:
将所述错误例子对应的所述已标注数据的标注去除并将所述错误例子对应的所述已标注数据从所述标注数据库中剔除。
或者,将所述错误例子对应的所述已标注数据的标注去除并重新对所述错误例子对应的所述已标注数据进行标注。
所述算法模型优选为神经网络算法模型。思维学普遍认为,人类大脑的思维分为抽象(逻辑)思维、形象(直观)思维和灵感(顿悟)思维三种基本方式。人工神经网络就是模拟人思维的第二种方式。这是一个非线性动力学系统,其特色在于信息的分布式存储和并行协同处理。虽然单个神经元的结构极其简单,功能有限,但大量神经元构成的网络系统所能实现的行为却是极其丰富多彩的。人工神经网络是在现代神经科学的基础上提出和发展起来的,旨在反映人脑结构及功能的一种抽象数学模型。自1943 年美国心理学家W.McCulloch 和数学家W. Pitts 提出形式神经元的抽象数学模型—MP 模型以来,人工神经网络理论技术经过了50 多年曲折的发展。特别是20 世纪80 年代,人工神经网络的研究取得了重大进展,有关的理论和方法已经发展成一门界于物理学、数学、计算机科学和神经生物学之间的交叉学科。它在模式识别,图像处理,智能控制,组合优化,金融预测与管理,通信,机器人以及专家系统等领域得到广泛的应用,提出了40 多种神经网络模型,其中比较著名的有感知机,Hopfield 网络,Boltzman 机,自适应共振理论及反向传播网络(BP)等。
第三方面,本发明实施例还提供一种标注数据清洗装置,包括:至少一个处理器;与所述至少一个处理器耦合的存储器,所述存储器存储有可执行指令,其中,所述可执行指令在被所述至少一个处理器执行时使得实现如上第二方面的任一项所述的方法。
第四方面,本本发明实施例还提供一种芯片,用于执行上述第一方面中的方法。具体地,该芯片包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有该芯片的设备用于执行上述第二方面中的方法。
第五方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上第二方面的任一项所述的方法。
第六方面,本发明实施例还提供一种计算机程序产品,包括计算机程序指令,该计算机程序指令使得计算机执行上述第二方面中的方法。
本发明通过对标注数据库进行等分,并依次将各子数据集作为子训练集以及其他各子数据集作为子测试集,一次采用各子训练集对算法模型进行训练并采用对应的各子测试集对训练的算法模型进行测试,通过轮番的训练和测试能自动收集所有错误例子并实现对错误例子对应的已标注数据进行清洗,而且能自动进行循环清洗,能实现标注数据的自动清洗,能提高清洗效率和清洗质量。
本发明只要使用有监督的机器学习方法(例如神经网络算法)即可,数据要求只要能分“对错”,不太限制问题类型;并且本发明不要求先验一批特别干净的数据,简化了操作过程,能提高效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例标注质量检测装置的结构图;
图2是本发明实施例标注质量检测方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
本方案发明人发现,在现有技术中,对视频进行人脸识别去隐私同时,不能保留人脸的姿态特征,如面部表情的喜怒哀乐,抬头或低头等。导致失去许多商业应用价值。本发明实施例提供如下方案:
如图1所示,是本发明实施例标注质量检测装置的结构图;第一方面,本实施例标注数据清洗装置包括:
标注数据库1,包括了所有待清洗的已标注数据。
所述已标注数据为标注员对未标注数据进行标注后形成的数据。
算法模型结构2,包括了所述已标注数据所对应的任务的算法模型。
所述已标注数据所对应的任务包括:类别分类任务、物体检出任务、图像分割任务。
数据等分模块3,用于实现:对所述标注数据库1的数据进行等分并形成多个子数据集,令所述子数据集的数量为N,N大于等于2,各所述子数据集的编号分别为1至N。
子数据集设置模块4,用于实现:从编号1至N,依次选择一个所述子数据集作为子训练集,令所述子训练集对应的所述子数据集的编号为k,1≤k≤N,则第k子数据集之外的N-1个所述子数据集都分别为一个子测试集,一个所述子训练集和N-1个所述子测试集形成一个训练测试组,共有N个所述训练测试组,令各所述训练测试组的编号分别为1至N。
训练模块5,用于实现:从编号1至N,依次选择编号对应的所述训练测试组中的所述子训练集对所述算法模型结构2进行训练并得到对应编号的已训练算法模型。
测试模块6,从编号1至N,采用编号对应的所述训练测试组中的各所述子测试集依次对编号对应的所述已训练算法模型进行测试并形成测试结果,从各次测试形成的所述测试结果中收集所有错误例子,对所述错误例子对应的所述已标注数据进行清洗并形成清洗后的所述标注数据库1。
标注数据清洗装置还包括控制模块,所述控制模块用于实现:控制所述数据等分模块3、所述子数据集设置模块4、所述训练模块5和所述测试模块6依次循环工作,当一次循环工作完成后重新下一次循环工作,下一次循环工作对应的所述标注数据库1采用前一次循环工作形成的清洗后的所述标注数据库1。在其它实施例中也能为:下一次循环工作对应的所述标注数据库1采用在前一次循环工作形成的清洗后的所述标注数据库1的基础上增加新注入的已标注数据形成的标注数据库1。
随着循环的次数的增加,所述测试模块6收集所述错误例子的数量减少,当所述错误例子的数量减少到要求值时停止所述循环工作,例如:当所述错误例子的数量减少0时停止所述循环工作;也能根据需要设置所述循环工作的停止条件。
所述算法模型结构2中算法模型根据所述测试结果进行优化。
对所述错误例子对应的所述已标注数据进行清洗包括:
将所述错误例子对应的所述已标注数据的标注去除并将所述错误例子对应的所述已标注数据从所述标注数据库1中剔除;这种情形对应于直接剔除:不需要人工标注,但会损失数据。
或者,将所述错误例子对应的所述已标注数据的标注去除并重新对所述错误例子对应的所述已标注数据进行标注;这种情形需要人工重新标注,但不会损失数据。
另外,还可以采用部分剔除部分重新标注,能采用人工简单判断,按钮选择即可,不需要多大工作量,比较重要的数据可以选择重新标注,不重要的数据可直接剔除。
本发明实施例通过对标注数据库1进行等分,并依次将各子数据集作为子训练集以及其他各子数据集作为子测试集,一次采用各子训练集对算法模型进行训练并采用对应的各子测试集对训练的算法模型进行测试,通过轮番的训练和测试能自动收集所有错误例子并实现对错误例子对应的已标注数据进行清洗,而且能自动进行循环清洗,能实现标注数据的自动清洗,能提高清洗效率和清洗质量。
如图2所示,第二方面,本发明实施例标注数据清洗方法包括如下步骤:
步骤一、提供包括了所有待清洗的已标注数据的标注数据库1。
所述已标注数据为标注员对未标注数据进行标注后形成的数据。
步骤二、根据所述已标注数据选择对应的任务的算法模型并形成算法模型结构2。
所述已标注数据所对应的任务包括:类别分类任务、物体检出任务、图像分割任务。
通常,还包括根据后续的测试结果对算法模型进行优化的步骤。
步骤三、进行数据等分,包括:对所述标注数据库1的数据进行等分并形成多个子数据集,令所述子数据集的数量为N,N大于等于2,各所述子数据集的编号分别为1至N。
步骤四、进行子数据集设置,包括:从编号1至N,依次选择一个所述子数据集作为子训练集,令所述子训练集对应的所述子数据集的编号为k,1≤k≤N,则第k子数据集之外的N-1个所述子数据集都分别为一个子测试集,一个所述子训练集和N-1个所述子测试集形成一个训练测试组,共有N个所述训练测试组,令各所述训练测试组的编号分别为1至N。
步骤五、进行训练,包括:从编号1至N,依次选择编号对应的所述训练测试组中的所述子训练集对所述算法模型结构2进行训练并得到对应编号的已训练算法模型。
步骤六、进行测试,从编号1至N,采用编号对应的所述已训练算法模型依次对编号对应的所述训练测试组中的各所述子测试集进行测试并形成测试结果,从各次测试形成的所述测试结果中收集所有错误例子,对所述错误例子对应的所述已标注数据进行清洗并形成清洗后的所述标注数据库1。在其他实施例方法中也能为:下一次循环对应的所述标注数据库1采用在前一次循环工作形成的清洗后的所述标注数据库1的基础上增加新注入的已标注数据形成的标注数据库1。
将步骤三至步骤六作为一次循环工作,当一次循环工作完成后重新下一次循环工作,下一次循环工作对应的所述标注数据库1采用前一次循环工作形成的清洗后的所述标注数据库1。
随着循环的次数的增加,步骤六收集所述错误例子的数量减少,当所述错误例子的数量减少到要求值时停止所述循环工作,例如:当所述错误例子的数量减少0时停止所述循环工作。
对所述错误例子对应的所述已标注数据进行清洗包括:
将所述错误例子对应的所述已标注数据的标注去除并将所述错误例子对应的所述已标注数据从所述标注数据库1中剔除;这种情形对应于直接剔除:不需要人工标注,但会损失数据。
或者,将所述错误例子对应的所述已标注数据的标注去除并重新对所述错误例子对应的所述已标注数据进行标注;这种情形需要人工重新标注,但不会损失数据。另外,还可以采用部分剔除部分重新标注,能采用人工简单判断,按钮选择即可,不需要多大工作量,比较重要的数据可以选择重新标注,不重要的数据可直接剔除。
在第三方面,本发明还提供一种标注数据清洗装置,包括:
至少一个处理器;与至少一个处理器耦合的存储器,存储器存储有可执行指令,其中,可执行指令在被至少一个处理器执行时使得实现本发明第二方面的方法。
本实施例提供一种标注质量检测装置,包括:至少一个处理器;与至少一个处理器耦合的存储器。处理器和存储器可以单独设置,也可以集成在一起。
例如,存储器可以包括随机存储器、闪存、只读存储器、可编程只读存储器、非易失性存储器或寄存器等。处理器可以是中央处理器(Central Processing Unit,CPU)等。或者是图像处理器(Graphic Processing Unit,GPU)存储器可以存储可执行指令。处理器可以执行在存储器中存储的可执行指令,从而实现本文描述的各个过程。
可以理解,本实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是ROM (Read-OnlyMemory,只读存储器)、PROM (ProgrammableROM,可编程只读存储器)、EPROM (ErasablePROM,可擦除可编程只读存储器)、EEPROM (ElectricallyEPROM,电可擦除可编程只读存储器)或闪存。易失性存储器可以是RAM (RandomAccessMemory,随机存取存储器),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如SRAM (StaticRAM,静态随机存取存储器)、DRAM (DynamicRAM,动态随机存取存储器)、SDRAM (SynchronousDRAM,同步动态随机存取存储器)、DDRSDRAM (DoubleDataRate SDRAM,双倍数据速率同步动态随机存取存储器)、ESDRAM (Enhanced SDRAM,增强型同步动态随机存取存储器)、SLDRAM(SynchlinkDRAM,同步连接动态随机存取存储器)和DRRAM (DirectRambusRAM,直接内存总线随机存取存储器)。本文描述的存储器42旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器存储了如下的元素,升级包、可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统和应用程序。
其中,操作系统,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序,包含各种应用程序,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序中。
在本发明实施例中,处理器通过调用存储器存储的程序或指令,具体的,可以是应用程序中存储的程序或指令,处理器用于执行第二方面所提供的方法步骤。
第四方面,本发明实施例还提供一种芯片,用于执行上述第二方面中的方法。具体地,该芯片包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有该芯片的设备用于执行上述第二方面中的方法。
此外,在第五方面,本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现本发明第二方面的方法的步骤。
例如,机器可读存储介质可以包括但不限于各种已知和未知类型的非易失性存储器。
第六方面,本发明实施例还提供一种计算机程序产品,包括计算机程序指令,该计算机程序指令使得计算机执行上述第二方面中的方法。
本领域技术人员可以明白的是,结合本文中所公开的实施例描述的各示例的单元及算法步骤能够以电子硬件、或者软件和电子硬件的结合来实现。这些功能是以硬件还是软件方式来实现,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以针对每个特定的应用,使用不同的方式来实现所描述的功能,但是这种实现并不应认为超出本申请的范围。
在本申请实施例中,所公开的系统、装置和方法可以通过其它方式来实现。例如,单元的划分仅仅为一种逻辑功能划分,在实际实现时还可以有另外的划分方式。例如,多个单元或组件可以进行组合或者可以集成到另一个系统中。另外,各个单元之间的耦合可以是直接耦合或间接耦合。另外,在本申请实施例中的各功能单元可以集成在一个处理单元中,也可以是单独的物理存在等等。
应理解,在本申请的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请的实施例的实施过程构成任何限定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在机器可读存储介质中。因此,本申请的技术方案可以以软件产品的形式来体现,该软件产品可以存储在机器可读存储介质中,其可以包括若干指令用以使得电子设备执行本申请实施例所描述的技术方案的全部或部分过程。上述存储介质可以包括ROM、RAM、可移动盘、硬盘、磁盘或者光盘等各种可以存储程序代码的介质。
以上内容仅为本申请的具体实施方式,通过具体实施例对本发明进行了详细的说明,但这些并非构成对本发明的限制,本申请的保护范围并不局限于此。本领域技术人员在本申请所公开的技术范围内可以进行变化或替换,这些变化或替换都应当视为在本申请的保护范围之内。
Claims (10)
1.一种标注数据清洗装置,其特征在于,包括:
标注数据库,包括了所有待清洗的已标注数据;
算法模型结构,包括了所述已标注数据所对应的任务的算法模型;
数据等分模块,用于实现:对所述标注数据库的数据进行等分并形成多个子数据集,令所述子数据集的数量为N,N大于等于2,各所述子数据集的编号分别为1至N;
子数据集设置模块,用于实现:从编号1至N,依次选择一个所述子数据集作为子训练集,令所述子训练集对应的所述子数据集的编号为k,1≤k≤N,则第k子数据集之外的N-1个所述子数据集都分别为一个子测试集,一个所述子训练集和N-1个所述子测试集形成一个训练测试组,共有N个所述训练测试组,令各所述训练测试组的编号分别为1至N;
训练模块,用于实现:从编号1至N,依次选择编号对应的所述训练测试组中的所述子训练集对所述算法模型结构进行训练并得到对应编号的已训练算法模型;
测试模块,从编号1至N,采用编号对应的所述已训练算法模型依次对编号对应的所述训练测试组中的各所述子测试集进行测试并形成测试结果,从各次测试形成的所述测试结果中收集所有错误例子,对所述错误例子对应的所述已标注数据进行清洗并形成清洗后的所述标注数据库。
2.如权利要求1所述的标注数据清洗装置,其特征在于:标注数据清洗装置还包括控制模块,所述控制模块用于实现:控制所述数据等分模块、所述子数据集设置模块、所述训练模块和所述测试模块依次循环工作,当一次循环工作完成后重新下一次循环工作,下一次循环工作对应的所述标注数据库采用前一次循环工作形成的清洗后的所述标注数据库。
3.如权利要求1所述的标注数据清洗装置,其特征在于:对所述错误例子对应的所述已标注数据进行清洗包括:
将所述错误例子对应的所述已标注数据的标注去除并将所述错误例子对应的所述已标注数据从所述标注数据库中剔除;
或者,将所述错误例子对应的所述已标注数据的标注去除并重新对所述错误例子对应的所述已标注数据进行标注。
4.一种标注数据清洗方法,其特征在于,包括如下步骤:
步骤一、提供包括了所有待清洗的已标注数据的标注数据库;
步骤二、根据所述已标注数据选择对应的任务的算法模型并形成算法模型结构;
步骤三、进行数据等分,包括:对所述标注数据库的数据进行等分并形成多个子数据集,令所述子数据集的数量为N,N大于等于2,各所述子数据集的编号分别为1至N;
步骤四、进行子数据集设置,包括:从编号1至N,依次选择一个所述子数据集作为子训练集,令所述子训练集对应的所述子数据集的编号为k,1≤k≤N,则第k子数据集之外的N-1个所述子数据集都分别为一个子测试集,一个所述子训练集和N-1个所述子测试集形成一个训练测试组,共有N个所述训练测试组,令各所述训练测试组的编号分别为1至N;
步骤五、进行训练,包括:从编号1至N,依次选择编号对应的所述训练测试组中的所述子训练集对所述算法模型结构进行训练并得到对应编号的已训练算法模型;
步骤六、进行测试,从编号1至N,采用编号对应的所述已训练算法模型依次对编号对应的所述训练测试组中的各所述子测试集进行测试并形成测试结果,从各次测试形成的所述测试结果中收集所有错误例子,对所述错误例子对应的所述已标注数据进行清洗并形成清洗后的所述标注数据库。
5.如权利要求4所述的标注数据清洗方法,其特征在于:将步骤三至步骤六作为一次循环工作,当一次循环工作完成后重新下一次循环工作,下一次循环工作对应的所述标注数据库采用前一次循环工作形成的清洗后的所述标注数据库。
6.如权利要求4所述的标注数据清洗方法,其特征在于:对所述错误例子对应的所述已标注数据进行清洗包括:
将所述错误例子对应的所述已标注数据的标注去除并将所述错误例子对应的所述已标注数据从所述标注数据库中剔除;
或者,将所述错误例子对应的所述已标注数据的标注去除并重新对所述错误例子对应的所述已标注数据进行标注。
7.一种标注数据清洗装置,其特征在于,包括:
至少一个处理器;
与所述至少一个处理器耦合的存储器,所述存储器存储有可执行指令,其中,所述可执行指令在被所述至少一个处理器执行时使得实现根据权利要求4至6中任一项所述的方法。
8.一种芯片,其特征在于,包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有所述芯片的设备执行:如权利要求4至6中任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求4至6中任一项所述的方法的步骤。
10.一种计算机程序产品,其特征在于,包括计算机程序指令,该计算机程序指令使得计算机执行如权利要求4至6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911383331.7A CN111177136B (zh) | 2019-12-27 | 2019-12-27 | 标注数据清洗装置和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911383331.7A CN111177136B (zh) | 2019-12-27 | 2019-12-27 | 标注数据清洗装置和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111177136A true CN111177136A (zh) | 2020-05-19 |
CN111177136B CN111177136B (zh) | 2023-04-18 |
Family
ID=70658183
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911383331.7A Active CN111177136B (zh) | 2019-12-27 | 2019-12-27 | 标注数据清洗装置和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111177136B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112766387A (zh) * | 2021-01-25 | 2021-05-07 | 海尔数字科技(上海)有限公司 | 一种训练数据的纠错方法、装置、设备及存储介质 |
CN113033694A (zh) * | 2021-04-09 | 2021-06-25 | 深圳亿嘉和科技研发有限公司 | 一种基于深度学习的数据清洗方法 |
CN113378944A (zh) * | 2021-06-17 | 2021-09-10 | 北京博创联动科技有限公司 | 农机运行模式识别模型训练方法、装置和终端设备 |
CN114282586A (zh) * | 2020-09-27 | 2022-04-05 | 中兴通讯股份有限公司 | 一种数据标注方法、系统和电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017039684A1 (en) * | 2015-09-04 | 2017-03-09 | Hewlett Packard Enterprise Development Lp | Classifier |
CN108734296A (zh) * | 2017-04-21 | 2018-11-02 | 北京京东尚科信息技术有限公司 | 优化监督学习的训练数据的方法、装置、电子设备和介质 |
CN108764372A (zh) * | 2018-06-08 | 2018-11-06 | Oppo广东移动通信有限公司 | 数据集的构建方法和装置、移动终端、可读存储介质 |
CN108875821A (zh) * | 2018-06-08 | 2018-11-23 | Oppo广东移动通信有限公司 | 分类模型的训练方法和装置、移动终端、可读存储介质 |
US10339468B1 (en) * | 2014-10-28 | 2019-07-02 | Groupon, Inc. | Curating training data for incremental re-training of a predictive model |
CN110287324A (zh) * | 2019-06-27 | 2019-09-27 | 成都冰鉴信息科技有限公司 | 一种针对粗粒度文本分类的数据动态标注方法及装置 |
-
2019
- 2019-12-27 CN CN201911383331.7A patent/CN111177136B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10339468B1 (en) * | 2014-10-28 | 2019-07-02 | Groupon, Inc. | Curating training data for incremental re-training of a predictive model |
WO2017039684A1 (en) * | 2015-09-04 | 2017-03-09 | Hewlett Packard Enterprise Development Lp | Classifier |
CN108734296A (zh) * | 2017-04-21 | 2018-11-02 | 北京京东尚科信息技术有限公司 | 优化监督学习的训练数据的方法、装置、电子设备和介质 |
CN108764372A (zh) * | 2018-06-08 | 2018-11-06 | Oppo广东移动通信有限公司 | 数据集的构建方法和装置、移动终端、可读存储介质 |
CN108875821A (zh) * | 2018-06-08 | 2018-11-23 | Oppo广东移动通信有限公司 | 分类模型的训练方法和装置、移动终端、可读存储介质 |
CN110287324A (zh) * | 2019-06-27 | 2019-09-27 | 成都冰鉴信息科技有限公司 | 一种针对粗粒度文本分类的数据动态标注方法及装置 |
Non-Patent Citations (1)
Title |
---|
阳庆玲等: "基于表情符号的文本情感分析研究", 《现代预防医学》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114282586A (zh) * | 2020-09-27 | 2022-04-05 | 中兴通讯股份有限公司 | 一种数据标注方法、系统和电子设备 |
CN112766387A (zh) * | 2021-01-25 | 2021-05-07 | 海尔数字科技(上海)有限公司 | 一种训练数据的纠错方法、装置、设备及存储介质 |
CN112766387B (zh) * | 2021-01-25 | 2024-01-23 | 卡奥斯数字科技(上海)有限公司 | 一种训练数据的纠错方法、装置、设备及存储介质 |
CN113033694A (zh) * | 2021-04-09 | 2021-06-25 | 深圳亿嘉和科技研发有限公司 | 一种基于深度学习的数据清洗方法 |
CN113378944A (zh) * | 2021-06-17 | 2021-09-10 | 北京博创联动科技有限公司 | 农机运行模式识别模型训练方法、装置和终端设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111177136B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111177136B (zh) | 标注数据清洗装置和方法 | |
Guo et al. | Deep convolution feature learning for health indicator construction of bearings | |
US7672915B2 (en) | Method and system for labelling unlabeled data records in nodes of a self-organizing map for use in training a classifier for data classification in customer relationship management systems | |
Thill et al. | Time series encodings with temporal convolutional networks | |
CN111652066A (zh) | 基于多自注意力机制深度学习的医疗行为识别方法 | |
CA2598923C (en) | Method and system for data classification using a self-organizing map | |
CN109753498A (zh) | 基于机器学习的数据清洗方法及终端设备 | |
Das et al. | A novel graphical lasso based approach towards segmentation analysis in energy game-theoretic frameworks | |
CN114662793B (zh) | 基于可解释分层模型的业务流程剩余时间预测方法与系统 | |
JP2012164314A (ja) | 現象における変数の影響を決定する方法 | |
Chatterjee et al. | Artificial neural network and the financial markets: A survey | |
CN109700434A (zh) | 基于心电图诊断的元学习模型训练方法、系统和设备 | |
CN113836806A (zh) | 一种phm模型构建方法、系统、存储介质及电子设备 | |
DE112021000251T5 (de) | Verfahren zum auswählen von datensätzen zum aktualisieren eines moduls mit künstlicher intelligenz | |
JP7428769B2 (ja) | 柔軟で適応的なロボット学習のための人間ロボット協働 | |
Chien et al. | Production-level artificial intelligence applications in semiconductor supply chains | |
CN112348175B (zh) | 一种基于强化学习来进行特征工程的方法 | |
Berardi et al. | Investigating the efficacy of network visualizations for intelligence tasks | |
CN113139332A (zh) | 一种自动化模型构建方法、装置及设备 | |
Harikumar et al. | Fpga synthesis of soft decision tree (sdt) for classification of epilepsy risk levels from fuzzy based classifier using eeg signals | |
US20220050438A1 (en) | Identifying candidate objects for additive manufacturing | |
CN118333162B (zh) | 混合局部文本实体因果结构学习方法、装置和电子设备 | |
Krajsic et al. | Attention-Based Anomaly Detection in Hospital Process Event Data | |
Li et al. | Developing An Attention-Based Ensemble Learning Framework for Financial Portfolio Optimisation | |
Matsushita et al. | Self-Organizing Map with False-Neighbor Degree between Neurons for Effective Self-Organization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |