CN111444166A - 一种标注数据自动质检方法 - Google Patents

一种标注数据自动质检方法 Download PDF

Info

Publication number
CN111444166A
CN111444166A CN202010198134.4A CN202010198134A CN111444166A CN 111444166 A CN111444166 A CN 111444166A CN 202010198134 A CN202010198134 A CN 202010198134A CN 111444166 A CN111444166 A CN 111444166A
Authority
CN
China
Prior art keywords
data
data set
labeling
initial standard
labeled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010198134.4A
Other languages
English (en)
Inventor
邹辉
肖龙源
蔡振华
李稀敏
刘晓葳
谭玉坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Kuaishangtong Technology Co Ltd
Original Assignee
Xiamen Kuaishangtong Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Kuaishangtong Technology Co Ltd filed Critical Xiamen Kuaishangtong Technology Co Ltd
Priority to CN202010198134.4A priority Critical patent/CN111444166A/zh
Publication of CN111444166A publication Critical patent/CN111444166A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Abstract

本发明公开了一种标注数据自动质检方法,包括:S1,获取待标注数据,并将所述待标注数据分为n个批次,每个批次包含m条数据;S2,从每个批次的数据中抽取预设数量的数据进行标注,作为已标注的初始标准数据集;S3,将所述初始标准数据集加入到每个批次的数据中,并对混有所述初始标准数据集的每个批次的数据进行标注;S4,通过对步骤S3中已标注的数据进行检测,并由后台自动计算所述初始标准数据集的准确率;S5,判断所述准确率是否达到预设标准值,若是,则通过自动质检;否则,执行步骤S2进行重新标注。

Description

一种标注数据自动质检方法
技术领域
本发明涉及数据处理技术领域,尤其涉及一种标注数据自动质检方法。
背景技术
对于AI行业,数据标注需求量越来越大,传统方法是由人工抽查做质量检查,通过人工质检后查看合格率,通常每返回一批数据就抽查一次,耗时耗力。
发明内容
本发明所要解决的技术问题是针对上述现有技术的不足提供一种标注数据自动质检方法,从而只需抽样标注一批标准数据即可用于检测每一批的标注质量,省事省力。
为实现上述目的,本发明提供一种标注数据自动质检方法,所述方法包括:
S1,获取待标注数据,并将所述待标注数据分为n个批次,每个批次包含m条数据;
S2,从每个批次的数据中抽取预设数量的数据进行标注,作为已标注的初始标准数据集;
S3,将所述初始标准数据集加入到每个批次的数据中,并对混有所述初始标准数据集的每个批次的数据进行标注;
S4,通过对步骤S3中已标注的数据进行检测,并由后台自动计算所述初始标准数据集的准确率;
S5,判断所述准确率是否达到预设标准值,若是,则通过自动质检;否则,执行步骤S2进行重新标注。
优选的,在步骤S4中,计算所述初始标准数据集的准确率为通过抽取步骤S3已标注的数据中的所述初始标准数据集,并作为第一标注阈值,将所述第一标注阈值与步骤S2中的所述初始标准数据集进行比对分析,得到准确率。
优选的,在步骤S2中,所述抽取根据关键信息分层进行抽样,所述标注通过人工完成。
优选的,在步骤S2中,所述预设数量定义为m1,满足m1=10%*m。
优选的,在步骤S3之前还包括对所述初始标准数据集进行加噪音以及关键信息的错别字替换。
优选的,在步骤S3中还包括对所述初始标准数据集中所标注的问题打标签,所述所标注的问题包括常见问题、疑难问题以及错误率低的问题。
有益效果:
1.只需抽样标注一批标准数据集即可用于检测每一批的标注质量,省事省力。
2.对标注标准数据集进行更新维护,保证质检结果的质量。
附图说明
图1为本发明一实施例提供的一种标注数据自动质检方法的流程图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合实施例详细阐述本发明的内容。
参照图1所示,为本发明一实施例提供的一种标注数据自动质检方法的流程图。所述方法包括:
S1,获取待标注数据,并将所述待标注数据分为n个批次,每个批次包含m条数据;
假设一个标注任务总共有标注数据total_num条,根据人效评估每天可以标注m条(一天标注一个批次),则total_num=n*m。
S2,从每个批次的数据中抽取预设数量的数据进行标注,作为已标注的初始标准数据集;
优选的,在步骤S2中,所述抽取根据关键信息分层进行抽样,所述标注通过人工完成。
优选的,在步骤S2中,所述预设数量定义为m1,满足m1=10%*m。
从标注任务总数据集中抽取10%*m的数据进行人工标注,作为初始的标注标准数据集,其中抽取是根据关键信息分层抽样;该数据的标注需要由对数据、业务很熟悉的、通过内部考核的标注人员进行标注。
S3,将所述初始标准数据集加入到每个批次的数据中,并对混有所述初始标准数据集的每个批次的数据进行标注;
优选的,在步骤S3之前还包括对所述初始标准数据集进行加噪音以及关键信息的错别字替换。
对这些已标注数据加噪音、关键信息错别字替换,然后混入原数据的每个批次中,这样做是为了增加已标注数据的量、迫使标注人员无法单纯通过关键词匹配就随意打上标签。
优选的,在步骤S3中还包括对所述初始标准数据集中所标注的问题打标签,所述所标注的问题包括常见问题、疑难问题以及错误率低的问题。
S4,通过对步骤S3中已标注的数据进行检测,并由后台自动计算所述初始标准数据集的准确率;
优选的,在步骤S4中,计算所述初始标准数据集的准确率为通过抽取步骤S3已标注的数据中的所述初始标准数据集,并作为第一标注阈值,将所述第一标注阈值与步骤S2中的所述初始标准数据集进行比对分析,得到准确率。
S5,判断所述准确率是否达到预设标准值,若是,则通过自动质检;否则,执行步骤S2进行重新标注。
对于每天标注完成的数据,将混入的10%的数据及标注答案取出,与标注标准数据集对比并计算其标注准确率;如达标则算通过,否则返工重标直到达标为止。其中,标注答案是根据实际应用场景而定的。另外,达标的标准是根据需要设置的达标准确率阈值,一般要求在90%以上。
在步骤S3中的标注过程中,资深的标注人员做答疑,将常见问题、疑难问题总结出来、打上标签,加入到标注标准数据集并把错误率极低的问题从标准数据集中去除,然后再混入接下来的标注数据中。其中,错误率极低的问题是根据业务要求灵活调整,比如某类问题从来没有标错过或标错批次低于5%。
当所有数据都标注完成并且通过自动质检流程,则任务完毕。抽取出来的10%数据可以重复利用,后台自动计算这一部分标注数据标注的准确率,而不用每一批标注数据过来都由人工抽查数据、计算准确率。并且,对标注标准数据集进行更新维护,保证质检结果的质量。
上述实施例中的实施方案可以进一步组合或者替换,且实施例仅仅是对本发明的优选实施例进行描述,并非对本发明的构思和范围进行限定,在不脱离本发明设计思想的前提下,本领域中专业技术人员对本发明的技术方案作出的各种变化和改进,均属于本发明的保护范围。

Claims (6)

1.一种标注数据自动质检方法,其特征在于,包括:
S1,获取待标注数据,并将所述待标注数据分为n个批次,每个批次包含m条数据;
S2,从每个批次的数据中抽取预设数量的数据进行标注,作为已标注的初始标准数据集;
S3,将所述初始标准数据集加入到每个批次的数据中,并对混有所述初始标准数据集的每个批次的数据进行标注;
S4,通过对步骤S3中已标注的数据进行检测,并由后台自动计算所述初始标准数据集的准确率;
S5,判断所述准确率是否达到预设标准值,若是,则通过自动质检;否则,执行步骤S2进行重新标注。
2.根据权利要求1所述的一种标注数据自动质检方法,其特征在于,在步骤S4中,计算所述初始标准数据集的准确率为通过抽取步骤S3已标注的数据中的所述初始标准数据集,并作为第一标注阈值,将所述第一标注阈值与步骤S2中的所述初始标准数据集进行比对分析,得到准确率。
3.根据权利要求1所述的一种标注数据自动质检方法,其特征在于,在步骤S2中,所述抽取根据关键信息分层进行抽样,所述标注通过人工完成。
4.根据权利要求1所述的一种标注数据自动质检方法,其特征在于,在步骤S2中,所述预设数量定义为m1,满足m1=10%*m。
5.根据权利要求1所述的一种标注数据自动质检方法,其特征在于,在步骤S3之前还包括对所述初始标准数据集进行加噪音以及关键信息的错别字替换。
6.根据权利要求1所述的一种标注数据自动质检方法,其特征在于,在步骤S3中还包括对所述初始标准数据集中所标注的问题打标签,所述所标注的问题包括常见问题、疑难问题以及错误率低的问题。
CN202010198134.4A 2020-03-19 2020-03-19 一种标注数据自动质检方法 Pending CN111444166A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010198134.4A CN111444166A (zh) 2020-03-19 2020-03-19 一种标注数据自动质检方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010198134.4A CN111444166A (zh) 2020-03-19 2020-03-19 一种标注数据自动质检方法

Publications (1)

Publication Number Publication Date
CN111444166A true CN111444166A (zh) 2020-07-24

Family

ID=71648971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010198134.4A Pending CN111444166A (zh) 2020-03-19 2020-03-19 一种标注数据自动质检方法

Country Status (1)

Country Link
CN (1) CN111444166A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140083432A (ko) * 2012-12-26 2014-07-04 충북대학교 산학협력단 대용량 다중 클래스 데이터에서 목표 데이터 예측을 위한 연관 분류 기법
CN105975980A (zh) * 2016-04-27 2016-09-28 百度在线网络技术(北京)有限公司 监控图像标注质量的方法和装置
CN109086814A (zh) * 2018-07-23 2018-12-25 腾讯科技(深圳)有限公司 一种数据处理方法、装置及网络设备
CN109599093A (zh) * 2018-10-26 2019-04-09 北京中关村科金技术有限公司 智能质检的关键词检测方法、装置、设备及可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140083432A (ko) * 2012-12-26 2014-07-04 충북대학교 산학협력단 대용량 다중 클래스 데이터에서 목표 데이터 예측을 위한 연관 분류 기법
CN105975980A (zh) * 2016-04-27 2016-09-28 百度在线网络技术(北京)有限公司 监控图像标注质量的方法和装置
CN109086814A (zh) * 2018-07-23 2018-12-25 腾讯科技(深圳)有限公司 一种数据处理方法、装置及网络设备
CN109599093A (zh) * 2018-10-26 2019-04-09 北京中关村科金技术有限公司 智能质检的关键词检测方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN112990870B (zh) 基于核电设备的巡检文件生成方法、装置和计算机设备
CN109740457B (zh) 一种人脸识别算法评测方法
CN110704880B (zh) 一种工程图纸的关联方法
CN107862327B (zh) 一种基于多特征的安全缺陷识别系统和方法
CN111522942B (zh) 文本分类模型的训练方法、装置、存储介质及计算机设备
CN106067427A (zh) 局部曝光异常缺陷自动检测方法
CN111898905A (zh) 质量抽检管理方法、装置、计算机设备和存储介质
CN111259184B (zh) 一种面向新零售的图像自动标注系统及方法
CN111598535B (zh) 一种基础物料的导入方法、系统、计算机设备
EP1758688B1 (de) Verfahren zur automatischen ermittlung operativer leistungsdaten von lesesystemen
CN111260378B (zh) 基于mes的品质追溯方法及系统
CN111581110B (zh) 一种业务数据准确性检测方法、装置、系统及存储介质
CN111444166A (zh) 一种标注数据自动质检方法
CN113822715B (zh) 一种数据采集训练处理一体化平台分析方法
CN112836494B (zh) 一种法律文书智能监督校验方法及系统
CN115908977A (zh) 一种图像数据标注方法、装置、电子设备及存储介质
CN112185058B (zh) 监控报警方法、系统、设备及存储介质
CN112505337B (zh) 一种辅助分析样品的数据处理方法
CN113988064A (zh) 一种半自动实体标注监督方法
CN114064480A (zh) 一种软件质量管理方法和系统
CN108255887B (zh) 校验行业文本的方法和装置
CN108235324B (zh) 一种短信模板的测试方法及服务器
CN112035364B (zh) 功能测试结果评估方法及装置
CN112613507A (zh) 一种变电站五防逻辑快速抽检方法及系统
CN112348688B (zh) 车险风控分析方法、装置、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200724