CN111881105A

CN111881105A - 业务数据的标注模型及其模型训练方法

Info

Publication number: CN111881105A
Application number: CN202010749182.8A
Authority: CN
Inventors: 任永亮; 李嘉懿; 郭学栋
Original assignee: Beijing Intelligent Workshop Technology Co ltd
Current assignee: Beijing Intelligent Workshop Technology Co ltd
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2020-11-03
Anticipated expiration: 2040-07-30
Also published as: CN111881105B

Abstract

本发明提出业务数据的标注模型及其模型训练方法。所述标注系统包括至少一个标注模型，所述标注模型包括数据标注AI检验模型。所述标注系统包括分布式文件系统(hdfs)、数据仓库工具(hive)、对象‑关系型数据库管理系统(postgresql)以及远程字典服务模块(redis)。所述模型训练方法用于训练所述的业务数据的标注系统中所述的数据标注AI检验模型，该方法包括将判定数据标注有效的数据用json的格式发送到kafka中，通过kafka中的数据，重新自动训练所述数据标注AI检验模型。本发明的技术方案能够确保数据标注的准确性以及实现大规模数据准确标注。

Description

业务数据的标注模型及其模型训练方法

技术领域

本发明属于人工智能技术领域，尤其涉及一种业务数据的标注模型及其模型训练方法。

背景技术

数据标注是大部分人工智能算法得以有效运行的关键环节.数据标注越准确、标注的数据量越大，算法的性能就越好。人工智能是机器产生的智能，在计算机领域是指根据对环境的感知，做出合理的行动并获得最大收益的计算机程序。.也就是说，要想实现人工智能，需要把人类理解和判断事物的能力教给计算机，让计算机拥有类似人类的识别能力。人类在认识一个新事物时，首先要形成对该事物的初步印象.例如，要识别出飞机，就需要看到相应的图片或者真实物体。

数据标注可视为模仿人类学习过程中的经验学习，相当于人类从书本中获取已有知识的认知行为.具体操作时，数据标注把需要计算机识别和分辨的图片事先打上标签，让计算机不断地识别这些图片的特征，最终实现计算机能够自主识别.数据标注为人工智能企业提供了大量带标签的数据，供机器训练和学习，保证了算法模型的有效性。

最初，由于数据标注的需求量不是太多，基本是由公司内部的工程师或者算法团队自己完成。但随着人工智能的广泛应用和普及，机器学习的不断深入，对数据的需求与日俱增，海量的数据标注工作需要专门的人员使用专门的标注工具来进行。数据量是机器学习的重要因素，由此公司需要一套集标注数据(图像)、审核标注和存储数据等功能的系统，来为学习和训练过程提供服务。

申请号为CN202010131205.9的中国发明专利申请提出了一种数据标注的方法及装置，在该方法中可以获取到待标注图像，并将待标注图像输入到预先训练的第一识别模型以及第二识别模型中，确定第一识别模型针对待标注图像的第一识别结果、第二识别模型针对待标注图像的第二识别结果。通过预先训练的判别模型，判断在第二识别模型输出第二识别结果的条件下，第一识别模型得到的第一识别结果是否正确，若确定第一识别结果正确，根据第一识别结果对待标注图像进行标注。本方法可以通过第一识别模型以及第二识别模型识别出待标注图像中的文本，再通过判别模型来判别第一识别模型得到的识别结果正确与否，实现对待标注图像的自动标注。因此本方法能够提高数据标注的效率，节约人工成本。

申请号为CN201911359418.0的中国发明专利申请提出了一种语音数据标注方法及装置、一种电子设备以及一种计算机可读介质。其中，所述方法包括：接收待标注的语音数据，对所述语音数据进行语音识别，得到识别文本；获取用户对所述识别文本确认后的用户确认文本；从所述识别文本和所述用户确认文本中提取自动标注特征；根据所述自动标注特征及预先构建的自动标注模型，对所述语音数据进行标注。由于是通过提取自动标注特征，并根据自动标注特征和自动标注模型，对语音数据进行标注，可以实现语音数据的自动标注，不需要人工进行标注，从而可以解决人工标注存在的问题，提高语音数据标注的效率并降低成本。

然而，现有技术并未考虑标注数据的结果有效性，同时也未处理可能存在的重复标注问题；此外，现有技术提供的标注手段单一，无法实现大规模的标注任务分配。

发明内容

为解决上述技术问题，本发明提出业务数据的标注模型及其模型训练方法。所述标注系统包括至少一个标注模型，所述标注模型包括数据标注AI检验模型。所述标注系统包括分布式文件系统(hdfs)、数据仓库工具(hive)、对象-关系型数据库管理系统(postgresql)以及远程字典服务模块(redis)。所述模型训练方法用于训练所述的业务数据的标注系统中所述的数据标注AI检验模型，该方法包括将判定数据标注有效的数据用json的格式发送到kafka中，通过kafka中的数据，重新自动训练所述数据标注AI检验模型。本发明的技术方案能够确保数据标注的准确性以及实现大规模数据准确标注。

在本发明的第一个方面，提供一种业务数据的标注系统，所述标注系统包括至少一个标注模型，所述标注模型包括数据标注AI检验模型。

作为本发明第一个优点，所述标注系统包括分布式文件系统(hdfs)、数据仓库工具(hive)、对象-关系型数据库管理系统(postg resql)以及远程字典服务模块(redis)；

具体而言，所述标注系统使用hdfs存储实际业务产生的待标注数据；通过hive来进行数据分析统计；通过postgresql存储标注系统的数据和用户标注好的数据；通过redis来进行数据队列分配；其中，所述待标注数据通过API接口发送至所述标注系统。

显然，相对于现有技术，本发明综合使用hdfs、hive、postgresql、redis构成整体来存储业务数据和分配标注数据；

其中，底层使用hdfs(分布式文件系统)存储业务和标注产生的大量数据。

通过hive来进行数据分析统计。

通过postgresql存储标注系统的数据和用户标注好的数据。

通过redis来进行数据队列分配、防止数据重复分配。

更具体的，作为体现上述优点的关键技术手段，

所述标注系统使用hdfs存储实际业务产生的待标注数据，具体包括：

所述待标注数据由APP或者PC端网站执行实际业务产生，所述待标注数据包括文本、图片、音频、视频。

所述通过redis来进行数据队列分配，具体包括：

通过微信小程序、h5网页、APP、PC网页分配不同的数据队列。

所述待标注数据通过API接口发送至所述标注系统，具体包括：

将APP或者PC网站执行实际业务产生产生的数据，发送到消息队列kafka中，标注系统消费kafka数据。

通过postgresql存储标注系统的数据和用户标注好的数据，具体包括：

根据用户标注的准确率来计算用户的信用值，用户的标注信用值越高并且分配的任务越多；

其中所述准确率基于所述用户提交的有效数据标注的数量与数据标注总量确定。

在本发明的第二个方面，提供一种模型训练方法，所述模型训练方法用于训练所述的业务数据的标注系统中所述的数据标注AI检验模型。

具体来说，所述方法包括如下步骤：

将判定数据标注有效的数据用json的格式发送到kafka中，通过kafka中的数据，重新自动训练所述数据标注AI检验模型。

而在初始状态下，首先通过标注样例数据，训练所述数据标注AI检验模型。

本发明的进一步优点将结合说明书附图在具体实施例部分进一步详细体现。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的一种业务数据的标注系统的主要模块结构图

图2是图1所述系统的部分具体实现原理图

图3是基于图1所述系统实现的模型训练方法原理图

具体实施方式

下面，结合附图以及具体实施方式，对发明做出进一步的描述。

参见图1，本发明一个实施例的一种业务数据的标注系统的主要模块结构图。

图所述标注系统包括至少一个标注模型，所述标注模型包括数据标注AI检验模型。

其中，所述标注系统包括分布式文件系统(hdfs)、数据仓库工具(hive)、对象-关系型数据库管理系统(postgresql)以及远程字典服务模块(redis)；

所述标注系统使用hdfs存储实际业务产生的待标注数据；

通过h ive来进行数据分析统计；通过postgresql存储标注系统的数据和用户标注好的数据；通过redis来进行数据队列分配；

其中，所述待标注数据通过API接口发送至所述标注系统。

在图1中，HadOOp分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。

HDFS有着高容错性(fault-tolerant)的特点，并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)来访问应用程序的数据，适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以实现流的形式访问(streaming access)文件系统中的数据。

hive是基于HadOOp的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在HadOOp中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低，可以通过类似SQL语句实现快速MapReduce统计，使MapReduce变得更加简单，而不必开发专门的MapReduce应用程序。hive是十分适合数据仓库的统计分析和Windows注册表文件。

PostgreSQL是一种特性非常齐全的自由软件的对象-关系型数据库管理系统(ORDBMS)，是以加州大学计算机系开发的POSTGRES 4.2版本为基础的对象关系型数据库管理系统。POSTGRES的许多领先概念只是在比较迟的时候才出现在商业网站数据库中。PostgreSQL支持大部分的SQL标准并且提供了很多其他现代特性，如复杂查询、外键、触发器、视图、事务完整性、多版本并发控制等。同样，PostgreSQL也可以用许多方法扩展，例如通过增加新的数据类型、函数、操作符、聚集函数、索引方法、过程语言等。另外，因为许可证的灵活，任何人都可以以任何目的免费使用、修改和分发PostgreSQL。

Redis(Remote Dictionary Server)，即远程字典服务，是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。

正是基于综合使用hdfs、hive、postgresql、redis构成整体来存储业务数据和分配标注数据，在本实施例中，APP、网站等实际业务产生的数据，可以通过：

1.发送到消息队列kafka中，标注系统消费kafka数据，存储到系统中。

2.通过API接口，把数据发送到标注系统。

3.通过内网链接、查询数据库，直接保存到标注系统。

在图1基础上参见图2。

标注之前，标注系统会对标注任务进行处理和清洗，把不适合标注的文本、图片、音频、视频过滤掉，并且还会对标注的任务去重，确保重复数据只标注一次，还确保多个用户同时标注时，不会分配重复的任务。

因此，所述标注系统还包括过滤和去重模块；

所述过滤模块对标注任务进行处理和清洗，把不适合标注的文本、图片、音频、视频过滤掉；

所述去重模块对标注的任务去重，确保重复数据只标注一次。

所述通过redis来进行数据队列分配，具体包括：

通过微信小程序、h5网页、APP、PC网页分配不同的数据队列。

在上述实施例中，标注人员可以用过微信小程序、h5网页、APP、PC网页等多种渠道来标注，手机端可以把标注人员的碎片时间利用起来，提高标注的效率和自己每天的标注收益。

一个标注任务同时分配给多个人进行标注，对比多个标注任务结果，选取一样的标注结果为最终结果，如此可提高标注的准确性。

在图1-图2基础上，参见图3。

图3给出了一种模型训练方法，所述模型训练方法用于训练前述的业务数据的标注系统中所述的数据标注AI检验模型，其特征在于，所述方法包括如下步骤：

在初始状态下，通过标注样例数据，训练所述数据标注AI检验模型。

此时，使用AI模型，对标注数据进行预测，得到一个结果，与标注的人标注的结果对比，选择结果一样的为最终结果。可确定人工标注的准确性，减少标注任务分配的人数，降低企业成本。

对比用户标注的数据是否与模型一样，如果和模型一样，判定该标注是正确可用的，如果不一样，把该任务分配给其他人进行标注，直到有2个以上的人一样即判定为标注是正确的。这样可以把一些比较难标注和没有标准答案的任务，更好的确定一个结果。

每个标注任务都会给用户奖金，根据用户标注的准确率来计算用户的信用值，用户的标注信用值越高分配的任务越多，标注的奖励也越多。信用值低的用户会让用户进入学习期，通过不断学习，来提高用户的标注水平。

标注好的数据自动训练优化AI模型，再用会到业务中去验证模型效果，具体包括：

标注的数据用json的格式发送到kafka中，通过kafka中的数据，可以自动训练新的模型，通过标注好的数据，可以提升训练AI模型的准确率，模型训练好之后可以发布成服务接入到业务中验证模型效果，通过AI模型来提升业务指标。

在本发明的各个实施例中中，待标注的数据标注任务包括分类标注、标框标注、区域标注、描点标注和其他标注等。

1)分类标注.分类标注是从给定的标签集中选择合适的标签分配给被标注的对象.通常，一张图可以有很多分类/标签，如运动、读书、购物、旅行等.对于文字，又可以标注出主语、谓语、宾语，名词和动词等.此项任务适用于文本、图像、语音、视频等不同的标注对象.

2)标框标注.标框标注就是从图像中选出要检测的对象，此方法仅适用于图像标注.标框标注可细分为多边形拉框和四边形拉框两种形式.多边形拉框是将被标注元素的轮廓以多边型的方式勾勒出来，不同的被标注元素有不同的轮廓，除了同样需要添加单级或多级标签以外，多边型标注还有可能会涉及到物体遮挡的逻辑关系，从而实现细线条的种类识别.四边形拉框主要是用特定软件对图像中需要处理的元素(比如人、车、动物等)进行一个拉框处理，同时，用1个或多个独立的标签来代表1个或多个需要处理的元素.框标注.

3)区域标注.与标框标注相比，区域标注的要求更加精确，而且边缘可以是柔性的，并仅限于图像标注，其主要的应用场景包括自动驾驶中的道路识别和地图识别等。，区域标注的任务是在地图上用曲线将城市中不同行政区域的轮廓形式勾勒出来，并用不同的颜色(浅蓝、浅棕、紫色和粉色)加以区分.

4)描点标注.描点标注是指将需要标注的元素(比如人脸、肢体)按照需求位置进行点位标识，从而实现特定部位关键点的识别.

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种业务数据的标注系统，所述标注系统包括至少一个标注模型，所述标注模型包括数据标注AI检验模型，其特征在于：

所述标注系统包括分布式文件系统(hdfs)、数据仓库工具(hive)、对象-关系型数据库管理系统(postgresql)以及远程字典服务模块(redis)；

所述标注系统使用hdfs存储实际业务产生的待标注数据；

通过hive来进行数据分析统计；通过postgresql存储标注系统的数据和用户标注好的数据；通过redis来进行数据队列分配；

其中，所述待标注数据通过API接口发送至所述标注系统。

2.如权利要求1所述的标注系统，其特征在于：

3.如权利要求1所述的标注系统，其特征在于：

所述标注系统还包括过滤和去重模块；

4.如权利要求1所述的标注系统，其特征在于：

所述数据标注AI检验模型用于检验数据标注的有效性，具体包括：

对比用户标注的数据是否与数据标注AI检验模型一致，如果一致，判定数据标注有效。

5.如权利要求1所述的标注系统，其特征在于：

所述通过redis来进行数据队列分配，具体包括：

通过微信小程序、h5网页、APP、PC网页分配不同的数据队列。

6.如权利要求1所述的标注系统，其特征在于：

7.如权利要求4所述的标注系统，其特征在于：

8.一种模型训练方法，所述模型训练方法用于训练权利要求1-7任一项所述的业务数据的标注系统中所述的数据标注AI检验模型，其特征在于，所述方法包括如下步骤：

9.如权利要求8所述的方法，其特征在于：

10.一种计算机可读存储介质，其上存储有计算机可执行程序指令，通过处理器和存储器执行所述可执行程序指令，用于实现权利要求8-9任一项所述的方法。