CN111881106B

CN111881106B - 基于ai检验的数据标注和处理方法

Info

Publication number: CN111881106B
Application number: CN202010749184.7A
Authority: CN
Inventors: 李嘉懿; 郭学栋; 任永亮
Original assignee: Beijing Intelligent Workshop Technology Co ltd
Current assignee: Beijing Intelligent Workshop Technology Co ltd
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2024-03-29
Anticipated expiration: 2040-07-30
Also published as: CN111881106A

Abstract

本发明提出基于AI检验的数据标注和处理方法。所述方法包括获取待标注数据、将所述业务数据存储至业务数据存储系统中、所述业务数据存储系统广播所述业务数据并基于反馈结果进行标注任务分配、接收标注后的数据并进行AI检验处理等步骤。本发明的技术方案能基于AI模型确定人工标注的准确性，减少标注任务分配的人数，降低企业成本；同时标注人员可以用过微信小程序、h5网页、APP、PC网页等多种渠道来标注，手机端可以把标注人员的碎片时间利用起来，提高标注的效率。本发明还公开实现所述方法的计算机可读存储介质。

Description

基于AI检验的数据标注和处理方法

技术领域

本发明属于人工智能技术领域，尤其涉及一种基于AI检验的数据标注和处理方法。

背景技术

人工智能(Artificial Intelligence)，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来，理论和技术日益成熟，应用领域也不断扩大，可以设想，未来人工智能带来的科技产品，将会是人类智慧的″容器″。人工智能可以对人的意识、思维的信息过程的模拟。人工智能不是人的智能，但能像人那样思考、也可能超过人的智能。

数据标注是大部分人工智能算法得以有效运行的关键环节。人工智能算法是数据驱动型算法，也就是说，如果想实现人工智能，首先需要把人类理解和判断事物的能力教给计算机，让计算机学习到这种识别能力。数据标注的过程是通过人工贴标的方式，为机器系统可供学习的样本。数据标注是把需要机器识别和分辨的数据贴上标签，然后让计算机不断地学习这些数据的特征，最终实现计算机能够自主识别。

数据标注的高质量体现在两个方面：一个标注的数量多，二是标注的质量高。

图像标注的质量标准：图像标注的质量好坏取决于像素点的判定准确性。标注像素点越接近被标注物的边缘像素，标注的质量就越高，标注的难度也越大。如果图像标注要求的准确率为100％，标注像素点与被标注物的边缘像素点的误差应该在1个像素以内。

语音标注的质量标准：语音标注时，语音数据发音的时间轴与标注区域的音标需保持同步。标注于发音时间轴的误差要控制在1个语音帧以内。若误差大于1个语音帧，很容易标注到下一个发音，造成噪声数据。

文本标注的质量标准：文本标注涉及到的任务较多，不同任务的质量标准不同。例如：分词标注的质量标准是标注好的分词与词典的词语一致，不存在歧义；情感标注的标注质量标准是对标注句子的情感分类级别正确。

申请号为CN201711297044.5的中国发明专利申请提出基于人工智能的数据分析方法，将数据通过神经网络进行连接，并对连接赋予权重，同时根据连接产生的结果调整权重值，使得数据分析从单一层面扩展到整个数据库，使得所有数据通过数据之间的连接成为一个有机体，提高了数据分析结果的可靠性。

申请号为CN202010245380.0的中国发明专利申请提出一种图像标注方法及装置，其中，该方法包括：接收图像显示指令并根据该图像显示指令获取待标注图像；将所述待标注图像在目标浏览器中的canvas画布内显示；实时监测所述canvas画布内的鼠标点击事件，若监测到所述实时监听鼠标点击事件，则根据该实时监测鼠标点击事件获得所述待标注图像中的待标注位置，并应用预设的标注元素对该待标注位置进行标注得到标注图像，能够提高图像标注质量和效率，进而能够提高应用图像标注结果实现的交易凭证图像分类或智能驾驶图像检测的准确性和效率。

然而，现有技术并未考虑标注数据的结果有效性，同时也未处理可能存在的重复标注问题；此外，现有技术提供的标注手段单一，无法实现大规模的标注任务分配。

发明内容

为解决上述技术问题，本发明提出基于AI检验的数据标注和处理方法。所述方法包括获取待标注数据、将所述业务数据存储至业务数据存储系统中、所述业务数据存储系统广播所述业务数据并基于反馈结果进行标注任务分配、接收标注后的数据并进行AI检验处理等步骤。本发明的技术方案能基于AI模型确定人工标注的准确性，减少标注任务分配的人数，降低企业成本；同时标注人员可以用过微信小程序、h5网页、APP、PC网页等多种渠道来标注，手机端可以把标注人员的碎片时间利用起来，提高标注的效率。本发明还公开实现所述方法的计算机可读存储介质。。

本发明上述方法可以通过计算机程序指令自动化实现，因此，本发明还提出一种计算机可读存储介质，其上存储有计算机程序指令，通过处理器和存储器执行所述程序指令，用于实现所述的方法。

本发明所述的基于AI检验的数据标注和处理方法，包括如下步骤：

S1：获取待标注数据，所述待标注数据为APP或者网站执行实际业务产生的业务数据；

S2：将所述业务数据存储至业务数据存储系统中；

S3：所述业务数据存储系统广播所述业务数据，并基于反馈结果进行标注任务分配；

S4：接收标注后的数据，并进行AI检验处理。

作为本发明的第一个优点，所述步骤S2将所述业务数据存储至业务数据存储系统中，具体包括：

将所述业务数据发送到消息队列kafka中，标注系统消费kafka数据，存储至业务数据存储系统。

作为本发明的第二个优点，所述步骤S3所述数据存储系统广播所述业务数据，并基于反馈结果进行标注任务分配，具体包括：

使用hdfs、hive、postgresql、redis广播所述业务数据、分配标注任务以及接收反馈。

作为体现上述优点的关键性技术手段，在本发明的技术方案中，底层使用hdfs存储业务数据；通过hive进行数据分析统计后广播所述业务数据。

通过postgresql存储标注系统消费的kafka数据并接受标注后的数据。

通过redis来进行数据队列分配、防止数据重复分配。

作为本发明的再一个优点，在本发明中，通过标注样例数据，训练AI模型，来识别要标注的任务结果。

所述AI检验处理具体包括：

对比用户反馈的标注数据是否与所述AI模型一致；

如果是，判定该标注是正确可用的；

否则，将该任务分配给其他人进行标注，直到有2个以上的人反馈的标注数据一致，则判定该标注是正确可用的。

将标注是正确可用的数据用json的格式发送到kafka中，通过kafka中的数据，重新自动训练所述AI模型。

在具体实现上，本发明的优点还包括：

(1)通过微信小程序、h5和APP来进行数据标注任务的发布和提交，这样可以找到更多的标注人员，降低标注成本，利用碎片化时间来提升标注效率；

(2)同一个标注任务在特定条件下同时分配给多个人进行标注，对比多个标注任务结果，选取一样的标注结果为最终结果，可以提高标注的准确性；

(3)使用AI模型对标注数据进行预测，得到一个结果，与标注的人标注的结果对比，选择结果一样的为最终结果，此方法可以确定人工标注的准确性，减少标注任务分配的人数，降低企业成本。

本发明的进一步优点将结合说明书附图在具体实施例部分进一步详细体现。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的基于AI检验的数据标注和处理方法的主要流程图

图2是图1所述方法的部分具体实现原理图

图3是基于图1所述方法实现的AI检验的主要流程图

具体实施方式

下面，结合附图以及具体实施方式，对发明做出进一步的描述。

参见图1，本发明一个实施例的基于AI检验的数据标注和处理方法的主要流程图。

图1所述方法包括步骤S1-S4。

各个步骤具体实现如下：

S2：将所述业务数据存储至业务数据存储系统中；

S4：接收标注后的数据，并进行AI检验处理。

更具体的，在本实施例中，业务产生的数据可以通过多种形式与标注系统打通。

APP、网站等实际业务产生的数据，可以通过：

1.发送到消息队列kafka中，标注系统消费kafka数据，存储到系统中。

2.通过API接口，把数据发送到标注系统。

3.通过内网链接、查询数据库，直接保存到标注系统。

在图1基础上，参见图2，作为本发明的创造性体现，所述步骤S2将所述业务数据存储至业务数据存储系统中，具体包括：

将所述业务数据发送到消息队列kafka中，标注系统消费kafka数据，存储至业务数据存储系统；

所述步骤S3所述数据存储系统广播所述业务数据，并基于反馈结果进行标注任务分配，具体包括：

在图2中，底层使用hdfs存储业务数据；通过hive进行数据分析统计后广播所述业务数据。

通过redis来进行数据队列分配、防止数据重复分配。

需要指出的是，本实施例中使用hdfs、hive、postgresql、redis存储业务数据和分配标注数据。

底层使用hdfs(分布式文件系统)存储业务和标注产生的大量数据。

通过hive来进行数据分析统计。

通过postgresql存储标注系统的数据和用户标注好的数据。

通过redis来进行数据队列分配、防止数据重复分配。

其中，Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上，总归为大数据，并使得查询和分析方便。并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。

PostgreSQL是一个免费的对象-关系数据库服务器(ORDBMS)，在灵活的BSD许可证下发行。

PostgreSQL的Slogan是世界上最先进的开源关系型数据库。

REmote DIctionary Server(Redis)是一个由Salvatore Sanfilippo写的key-value存储系统。Redis是一个开源的使用ANSI C语言编写、遵守BSD协议、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。它通常被称为数据结构服务器，因为值(Value)可以是字符串(String)，哈希(Hash)，列表(list)，集合(sets)和有序集合(sorted sets)等类型。

底层使用hdfs存储业务数据，具体包括：

对业务数据进行处理和清洗，把不适合标注的文本、图片、音频、视频过滤掉，并且对标注的任务去重，确保重复数据只标注一次。

在上述实施例中，通过标注样例数据，训练AI模型，来识别要标注的任务结果。

参见图3，所述AI检验处理具体包括：

对比用户反馈的标注数据是否与所述AI模型一致；

如果是，判定该标注是正确可用的；

进一步的，将标注是正确可用的数据用json的格式发送到kafka中，通过kafka中的数据，重新自动训练所述AI模型。

所述步骤S3中所述基于反馈结果进行标注任务分配，具体包括：

所述反馈结果包括用户接收所述标注任务的方式，所述方式包括微信小程序、h5网页、APP、PC网页中的至少一种或者其组合。

在实际视线中，本发明的创新性还包括：

标注人员可以用过微信小程序、h5网页、APP、PC网页等多种渠道来标注，手机端可以把标注人员的碎片时间利用起来，提高标注的效率和自己每天的标注收益

标注之前，标注系统会对标注任务进行处理和清洗，把不适合标注的文本、图片、音频、视频过滤掉，并且还会对标注的任务去重，确保重复数据只标注一次，还确保多个用户同时标注时，不会分配重复的任务。

通过标注样例数据，训练AI模型，来识别要标注的任务结果，模型可以自动训练，标注的任务越多模型效果越好。

对比用户标注的数据是否与模型一样，如果和模型一样，判定改标注是正确可用的，如果不一样，把该任务分配给其他人进行标注，直到有2个以上的人一样即判定为标注是正确的。这样可以把一些比较难标注和没有标准答案的任务，更好的确定一个结果

每个标注任务都会给用户奖金，根据用户标注的准确率来计算用户的信用值，用户的标注信用值越高分配的任务越多，标注的奖励也越多。信用值低的用户会让用户进入学习期，通过不断学习，来提高用户的标注水平。

8.标注好的数据自动训练优化AI模型，再用会到业务中去验证模型效果。

标注的数据用json的格式发送到kafka中，通过kafka中的数据，可以自动训练新的模型，通过标注好的数据，可以提升训练AI模型的准确率，模型训练好之后可以发布成服务接入到业务中验证模型效果，通过AI模型来提升业务指标。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于AI检验的数据标注和处理方法，其特征在于：

所述方法包括如下步骤：

S2：将所述业务数据存储至业务数据存储系统中；

S4：接收标注后的数据，并进行AI检验处理；

其中，所述步骤S2将所述业务数据存储至业务数据存储系统中，具体包括：

使用hdfs、hive、postgresql、redis广播所述业务数据、分配标注任务以及接收反馈；

底层使用hdfs存储业务数据和标注产生的大量数据；

通过hive进行数据分析统计后广播所述业务数据；

通过postgresql存储标注系统消费的kafka数据并接受标注后的数据；

通过redis来进行数据队列分配，防止数据重复分配；

底层使用hdfs存储业务数据，具体包括：

对业务数据进行处理和清洗，把不适合标注的文本、图片、音频、视频过滤掉，并且对标注的任务去重，确保重复数据只标注一次；

所述反馈结果包括用户接收所述标注任务的方式，所述方式包括微信小程序、h5网页、APP、PC网页中的至少一种或者其组合；

通过标注样例数据，训练AI模型，来识别要标注的任务结果；

步骤S4中，所述AI检验处理具体包括：

对比用户反馈的标注数据是否与所述AI模型一致；

如果是，判定该标注是正确可用的；

否则，将该任务分配给其他人进行标注，直到有2个以上的人反馈的标注数据一致，则判定该标注是正确可用的；

2.一种计算机可读存储介质，其上存储有计算机可执行程序指令，通过处理器和存储器执行所述可执行程序指令，用于实现权利要求1所述的方法。