CN111159494A

CN111159494A - 一种多用户并发处理的数据标注方法

Info

Publication number: CN111159494A
Application number: CN201911395068.3A
Authority: CN
Inventors: 徐汕; 张晶亮; 梁炬; 谢水庚; 郝志强; 滕源; 姜桥
Original assignee: Beijing Casicloud Co ltd
Current assignee: Beijing Casicloud Co ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-05-15
Anticipated expiration: 2039-12-30
Also published as: CN111159494B

Abstract

本发明公开了一种多用户并发处理的数据标注方法，该方法包括以下步骤：S1提供多种类标注规则的数据标注方案；S1.1基于不同的规则模型生成知识自动化抽取、图像理解、工业词典中文分词数据标注方案；S2根据数据标注流程将获取的多种数据源进行数据标注；S2.1获取标注源数据；S2.2用户数据标注交互；S3进行多用户标注数据的存储；S3.1根据数据源类型向Kafka消息队列相应topic推送，后台定时访问标注数据topic列表，将获取到的数据进行存储；S3.2多用户标注数据统一处理后存储。本发明的有益效果：本申请基于公司自主研发的数据标注应用平台，面向企业和个人提供了快速、高效、结果精准的工业数据标注和数据存储服务。

Description

一种多用户并发处理的数据标注方法

技术领域

本发明涉及数据标注领域，支持多用户同时进行数据标注并进行标注数据的存储，具体来说，涉及一种多用户并发处理的数据标注方法。

背景技术

随着人工智能（Artificial Intelligence）领域的迅速发展，它将人类智能相似的方式做出反应的智能机器，人工智能领域会使用到很多深度学习算法,当前大部分的深度学习还集中在监督式的学习,所以对于很多人工智能领域诸如人脸识别、用户行为分析、智能驾驶等都需要通过数据标注和采集工作来提供海量的训练数据集。

北京航天云路公司紧随AI潮流,目前已经形成了一个较完整的人工智能布局,而数据的标注与采集是这一大布局中不可缺少的基础一环，为了解决数据标注与采集领域的数据质量和降低成本两大难点,本公司构建了一个人工数据标注平台,包括标注模块、管理模块以及数据集生成和下载三个模块，利用了大众能力和资源,降低了数据生产成本。

发明内容

针对相关技术中的上述技术问题，本发明提出一种多用户并发处理的数据标注方法，通过本申请自研的数据标注平台向企业和个人提供稳定、高效、可靠的多用户同时标注的解决方案和实现方法。

为实现上述技术目的，本发明的技术方案是这样实现的：该方法包括以下步骤：

S1 提供多种类标注规则的数据标注方案；

S1.1 基于不同的规则模型生成知识自动化抽取、图像理解、工业词典中文分词数据标注方案；

S2 根据数据标注流程将获取的多种数据源进行数据标注；

S2.1 获取标注源数据；

S2.2 用户数据标注交互；

S3 进行多用户标注数据的存储；

S3.1 根据标注的数据源类型向Kafka消息队列相应topic推送，后台定时访问标注数据topic列表，将获取到的数据进行存储；

S3.2 多用户标注数据统一处理后存储。

进一步地，所述S1.1包含以下步骤：S1.1.1 知识自动化抽取是采用联合抽取的方式运用规则模型实现现实体抽取和关系抽取；S1.1.2 图像理解是基于深度学习领域Encoder-Decoder模型获取图片中自动生成的描述性文字；S1.1.3 工业词典中文分词运用开源自然语言处理包HanLp实现工业名词的分词，将获得的工业名词标注区分后判断是否属于工业领域。

进一步地，所述S2.1包含以下步骤：S2.1.1 获取百度百科文本数据、工业新闻采集数据、工业产品采集数据、专利采集数据、采购商品图片描述数据、工业分词词典数据等标注数据；S2.1.2 采集ElasticSearch集群的存储数据，文本数据、商品图片描述数据及源于Mysql数据库的存储数据；S2.1.3 完成数据标注任务发布后，运用ES-Kafka中间件或Mysql-Kafka中间件的调用将不同数据来源的标注源数据加载到Kafka消息队列中；S2.1.4用户根据自己的标注任务直接访问Kafka消息队列获取标注源数据。

进一步地，所述S2.2包含以下步骤：

S2.2.1 运用Jsp+JavaScript+Jquery+Bootstrap+svg+Ajax的前端技术框架搭建一套界面简洁明确、用户交互便利、结果反馈直观的用户数据标注交互系统，进行实体关系抽取的数据标注；

S2.2.2 在获取的工业文本数据中提炼出实体、关系及实体的中文三元组数据，建立该数据标注的子模块，运用SVG在页面的绘制生成实体和实体与实体之间的关系标注；

用户运用简单的鼠标拖拽选择中文文本标注为BIOES标注实体，通过鼠标右键单击实体可取消当前实体的标注；

用户运用鼠标左键单击实体1标签后再左键单击实体2标签，此时页面会生成实体1和实体2之间的连线，同时标明实体1与实体2间的关系。

S2.2.3 根据每一张图片进行工业领域属性判断，运用文本描述图片表达的内容并对其他信息进行补充，生成人工对图片的描述信息；

S2.2.4 获取来自HanLp工业词典中文分词进行人工判断，标注该中文分词是否属于工业领域。

进一步地，所述S2.2.2 实体可分别标注为工业实体（industry）、类型(category)、特性(character)、应用领域(apply)、作用(function)，在生成的页面上运用CSS选择器匹配不同实体类型的id对于不同类型的工业实体以不同颜色标记实体标签。

进一步地，所述S2.2.2 实体之间的关系可标注为别称（alias）、特性（character）、作用（function）、组成（composition）、类别（category）、应用（apply）。

进一步地，所述S2.2.3 用户获取页面图像描述源数据如：图片名、图片url、图片描述等，判断图片是否属于工业领域，同时，录入对图片的核心描述。

进一步地，S3.1.1 用户完成标记后提交标记数据到后台由Kafka消息队列获取，根据标注任务的标注规则和标注数据来源确定标注数据放在消息队列的某一Topic下，同时，会通知Kafka-Mysql中间件对Kafka中的该topic标注数据进行消费并存储到mysql中；在新的标注数据topic生成时，Kafka-Mysql中间件将该topic生成一个集合，中间件会在一段时间内，多线程不断轮询topic集合中的标注数据集topic，当某一topic获取数据时运用Service层中的处理方法将获取的标注数据处理后写入Mysql数据库进行存储;S3.1.2 针对多用户标注数据进行关联，相对同一源数据支持多用户同时标注，并在标注数据相关表中进行存储，存储的标注用户标识为统一字段。

进一步地，所述S3.1.2包含以下内容：所述实体关系标注数据是运用四张表进行完成关联标注，标注信息表（master_annot表）运用唯一确定的resource_id字段与实体关系标注源数据信息表（master表）关联，在进行人工审核标注数据，将标注数据信息表进一步关联文本数据表（text）从而获取标注文本，其他标注数据表通过master_annot_id字段与标注信息表进行关联；图像描述标注数据是运用图片标注数据表（picture_annot表）进行存储，该图片标注数据表pic_id字段与图片源数据表（picture表）进行关联；工业实体标注数据运用industry_dictionary_annot表进行存储，该图片标注数据表通过entity_id字段与工业实体源数据表industry_dictionary表进行关联。

进一步地，所述S3.2包含以下步骤：S3.2.1 实体关系标注数据运用master_annot表、entity表、entity_relationship表、entity_index表分别插入存储；S3.2.2 图像描述的标注数据存储在picture_annot表，对于图片的补充描述会在Service层统一转换为｛text1：“”，text2：“”... ,text5:“”｝的json字符串格式存储于该表的Info字段；S3.2.3.工业实体标注数据存储在industry_dictionary_annot表，该表存储工业实体的label字段。

本发明的有益效果：本公司数据标注平台面向多企业和多用户提供多项数据源种类涵盖文本实体关系、图像描述、工业分词等，多项数据源来源于百度百科、工业新闻、工业产品、工业词典等，本申请能很好的支持多用户同时对同一数据源数据进行数据标注并进行标注数据的存储。

本申请可持续、稳定、可靠的面向多用户提供数据的标注和标注数据的存储服务，支持同一数据源的同时标注，极大缩短了标注的流程时间，基于公司自主研发的数据标注应用平台，面向企业和个人提供了快速、高效、结果精准的工业数据标注和数据存储服务。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例所述的一种多用户并发处理的数据标注方法的标注源数据流程框图。

图2是根据本发明实施例所述的一种多用户并发处理的数据标注方法的

多用户标注数据存储流程框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

如图 1所示，根据本发明实施例所述的多用户并发处理的数据标注方法，该方法包括以下步骤：

S1 提供多种类标注规则的数据标注方案；

S2 根据数据标注流程将获取的多种数据源进行数据标注；

S2.1 获取标注源数据；

S2.2 用户数据标注交互；

S3 进行多用户标注数据的存储；

S3.2 多用户标注数据统一处理后存储。

在本发明的一个具体实施例中，所述S1.1包含以下步骤：S1.1.1 知识自动化抽取是采用联合抽取的方式运用规则模型实现现实体抽取和关系抽取；S1.1.2 图像理解是基于深度学习领域Encoder-Decoder模型获取图片中自动生成的描述性文字；S1.1.3 工业词典中文分词运用开源自然语言处理包HanLp实现工业名词的分词，将获得的工业名词标注区分后判断是否属于工业领域。

在本发明的一个具体实施例中，所述S2.1包含以下步骤：S2.1.1 获取百度百科文本数据、工业新闻采集数据、工业产品采集数据、专利采集数据、采购商品图片描述数据、工业分词词典数据等标注数据；S2.1.2 采集ElasticSearch集群的存储数据，文本数据、商品图片描述数据及源于Mysql数据库的存储数据；S2.1.3 完成数据标注任务发布后，运用ES-Kafka中间件或Mysql-Kafka中间件的调用将不同数据来源的标注源数据加载到Kafka消息队列中；S2.1.4 用户根据自己的标注任务直接访问Kafka消息队列获取标注源数据。

在本发明的一个具体实施例中，所述S2.2包含以下步骤：

在本发明的一个具体实施例中，所述S2.2.2 实体可分别标注为工业实体（industry）、类型(category)、特性(character)、应用领域(apply)、作用(function)，在生成的页面上运用CSS选择器匹配不同实体类型的id对于不同类型的工业实体以不同颜色标记实体标签。

在本发明的一个具体实施例中，所述S2.2.2 实体之间的关系可标注为别称（alias）、特性（character）、作用（function）、组成（composition）、类别（category）、应用（apply）。

在本发明的一个具体实施例中，所述S2.2.3 用户获取页面图像描述源数据如：图片名、图片url、图片描述等，判断图片是否属于工业领域，同时，录入对图片的核心描述。

在本发明的一个具体实施例中，所述S3.1包含以下步骤：S3.1.1 用户完成标记后提交标记数据到后台由Kafka消息队列获取，根据标注任务的标注规则和标注数据来源确定标注数据放在消息队列的某一Topic下，同时，会通知Kafka-Mysql中间件对Kafka中的该topic标注数据进行消费并存储到mysql中；在新的标注数据topic生成时，Kafka-Mysql中间件将该topic生成一个集合，中间件会在一段时间内，多线程不断轮询topic集合中的标注数据集topic，当某一topic获取数据时运用Service层中的处理方法将获取的标注数据处理后写入Mysql数据库进行存储;S3.1.2 针对多用户标注数据进行关联，相对同一源数据支持多用户同时标注，并在标注数据相关表中进行存储，存储的标注用户标识为统一字段。

在本发明的一个具体实施例中，所述S3.1.2包含以下内容：实体关系标注数据包含标注信息表（master_annot表）、实体表（entity表）、实体关系表（entity_relationship表）及（entity_index表存储），所述实体关系标注数据是运用四张表进行完成关联标注，标注信息表（master_annot表）运用唯一确定的resource_id字段与实体关系标注源数据信息表（master表）关联，在进行人工审核标注数据，将标注数据信息表进一步关联文本数据表（text）从而获取标注文本，其他标注数据表通过master_annot_id字段与标注信息表进行关联；图像描述标注数据是运用图片标注数据表（picture_annot表）进行存储，该图片标注数据表pic_id字段与图片源数据表（picture表）进行关联；工业实体标注数据运用industry_dictionary_annot表进行存储，该图片标注数据表通过entity_id字段与工业实体源数据表industry_dictionary表进行关联。

在本发明的一个具体实施例中，所述S3.2包含以下步骤：S3.2.1 实体关系标注数据运用master_annot表、entity表、entity_relationship表、entity_index表分别插入存储，其中master_annot表用以存储标注用户id及源文本是否属于工业领域等信息，其中entity表用以存储中文实体数据，在Service层通过用户提交到后台的标注数据中的实体索引，向源文本中通过检索、界定、去重等操作获取到用户人工标注出的实体数据，其中entity_relationship表用以存储实体关系数据，同样是在Service层完成对提交的标注数据的处理，通过实体标注id和关系标注id确定实体关系，其中entity_index表即为实体索引表，存储实体在源文本中位置索引和实体关系索引，当用户加载标注历史数据或进行标注数据审核时通过联合该表和text表（源文本数据表）即可获取到用户标注完成的实体关系数据；S3.2.2 图像描述的标注数据存储在picture_annot表，对于图片的补充描述会在Service层统一转换为｛text1：“”，text2：“”... ,text5:“”｝的json字符串格式存储于该表的Info字段；S3.2.3. 工业实体标注数据存储在industry_dictionary_annot表，该表存储工业实体的label字段。

为了方便理解本发明的上述技术方案，以下通过具体使用方式上对本发明的上述技术方案进行详细说明。

在具体使用时，根据本发明所述的多用户并发处理的数据标注方法，本申请通过Jsp+JavaScript+Jquery+Bootstrap+svg+Ajax的前端技术框架搭建了一套界面简洁明确、用户交互便利、结果反馈直观的用户数据标注交互系统，根据标注数据类型分为以下三种S2.2.2. 实体关系抽取数据标注；S2.2.3. 图像描述数据标注;S2.2.4. 工业实体数据标注；

用户标注完成会向后台提交如下格式的标注数据：

{

"content": "此处为原文本数据，即实体和实体关系的来源文本",

"labelCategories": [{

"id": 0,

"text": "工业实体",

"color": "#FF8888",

"borderColor": "#ddd",

"attributes": {}

},

{

"id": 1,

"text": "类别",

"color": "#eac0a2",

"borderColor": "#ddd",

"attributes": {}

},

{

"id": 2,

"text": "特性",

"color": "#FFAA33",

"borderColor": "#ddd",

"attributes": {}

},

{

"id": 3,

"text": "应用领域",

"color": "#66DD00",

"borderColor": "#ddd",

"attributes": {}

},

{

"id": 4,

"text": "作用",

"color": "#33CCFF",

"borderColor": "#ddd",

"attributes": {}

}

],

"labels": [{

"id": 1,

"categoryId": 0,

"startIndex": 156,

"endIndex": 161,

"attributes": {}

},

{

"id": 2,

"categoryId": 0,

"startIndex": 201,

"endIndex": 206,

"attributes": {}

},

{

"id": 3,

"categoryId": 0,

"startIndex": 243,

"endIndex": 248,

"attributes": {}

},

{

"id": 4,

"categoryId": 0,

"startIndex": 302,

"endIndex": 307,

"attributes": {}

}

],

"connectionCategories": [{

"id": 0,

"text": "别称",

"attributes": {}

},

{

"id": 1,

"text": "特性",

"attributes": {}

},

{

"id": 2,

"text": "作用",

"attributes": {}

},

{

"id": 3,

"text": "组成",

"attributes": {}

},

{

"id": 4,

"text": "类别",

"attributes": {}

},

{

"id": 5,

"text": "应用",

"attributes": {}

}

],

"connections": [{

"id": 1,

"categoryId": 0,

"fromId": 1,

"toId": 2,

}]

}。

综上所述，借助于本发明的上述技术方案，本申请可持续、稳定、可靠的面向多用户提供数据的标注和标注数据的存储服务，支持同一数据源的同时标注，极大缩短了标注的流程时间，基于公司自主研发的数据标注应用平台，面向企业和个人提供了快速、高效、结果精准的工业数据标注和数据存储服务。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多用户并发处理的数据标注方法，该方法包括以下步骤：

S1 提供多种类标注规则的数据标注方案；

S2 根据数据标注流程将获取的多种数据源进行数据标注；

S2.1 获取标注源数据；

S2.2 用户数据标注交互；

S3 进行多用户标注数据的存储；

S3.1 根据数据源类型向Kafka消息队列相应topic推送，后台定时访问标注数据topic列表，将获取到的数据进行存储；

S3.2 多用户标注数据统一处理后存储。

2.根据权利要求1所述的多用户并发处理的数据标注方法，其特征在于，所述S1.1包含以下步骤：

S1.1.1 知识自动化抽取是采用联合抽取的方式运用规则模型实现现实体抽取和关系抽取；

S1.1.2 图像理解是基于深度学习领域Encoder-Decoder模型获取图片中自动生成的描述性文字；

S1.1.3 工业词典中文分词运用开源自然语言处理包HanLp实现工业名词的分词，将获得的工业名词标注区分后判断是否属于工业领域。

3.根据权利要求1所述的多用户并发处理的数据标注方法，其特征在于，所述S2.1包含以下步骤：

S2.1.1 获取百度百科文本数据、工业新闻采集数据、工业产品采集数据、专利采集数据、采购商品图片描述数据、工业分词词典数据等标注数据；

S2.1.2 采集ElasticSearch集群的存储数据，文本数据、商品图片描述数据及源于Mysql数据库的存储数据；

S2.1.3 完成数据标注任务发布后，运用ES-Kafka中间件或Mysql-Kafka中间件的调用将不同数据来源的标注源数据加载到Kafka消息队列中；

S2.1.4 用户根据自己的标注任务直接访问Kafka消息队列获取标注源数据。

4.根据权利要求1所述的多用户并发处理的数据标注方法，其特征在于，所述S2.2包含以下步骤：

用户运用鼠标左键单击实体1标签后再左键单击实体2标签，此时页面会生成实体1和实体2之间的连线，同时标明实体1与实体2间的关系；

5. 根据权利要求4所述的多用户并发处理的数据标注方法，其特征在于，所述S2.2.2实体可分别标注为工业实体（industry）、类型(category)、特性(character)、应用领域(apply)、作用(function)，在生成的页面上运用CSS选择器匹配不同实体类型的id对于不同类型的工业实体以不同颜色标记实体标签。

6. 根据权利要求4所述的多用户并发处理的数据标注方法，其特征在于，所述S2.2.2实体之间的关系可标注为别称（alias）、特性（character）、作用（function）、组成（composition）、类别（category）、应用（apply）。

7. 根据权利要求4所述的多用户并发处理的数据标注方法，其特征在于，所述S2.2.3用户获取页面图像描述源数据如：图片名、图片url、图片描述等，判断图片是否属于工业领域，同时，录入对图片的核心描述。

8.根据权利要求1所述的多用户并发处理的数据标注方法，其特征在于，所述S3.1包含以下步骤：

S3.1.1 用户完成标记后提交标记数据到后台由Kafka消息队列获取，根据标注任务的标注规则和标注数据来源确定标注数据放在消息队列的某一Topic下，同时，会通知Kafka-Mysql中间件对Kafka中的该topic标注数据进行消费并存储到mysql中；在新的标注数据topic生成时，Kafka-Mysql中间件将该topic生成一个集合，中间件会在一段时间内，多线程不断轮询topic集合中的标注数据集topic，当某一topic获取数据时运用Service层中的处理方法将获取的标注数据处理后写入Mysql数据库进行存储;

S3.1.2 针对多用户标注数据进行关联，相对同一源数据支持多用户同时标注，并在标注数据相关表中进行存储，存储的标注用户标识为统一字段。

9.根据权利要求8所述的多用户并发处理的数据标注方法，其特征在于，所述S3.1.2包含以下内容：

所述实体关系标注数据是运用四张表进行完成关联标注，标注信息表（master_annot表）运用唯一确定的resource_id字段与实体关系标注源数据信息表（master表）关联，在进行人工审核标注数据，将标注数据信息表进一步关联文本数据表（text）从而获取标注文本，其他标注数据表通过master_annot_id字段与标注信息表进行关联；

图像描述标注数据是运用图片标注数据表（picture_annot表）进行存储，该图片标注数据表pic_id字段与图片源数据表（picture表）进行关联；

工业实体标注数据运用industry_dictionary_annot表进行存储，该图片标注数据表通过entity_id字段与工业实体源数据表industry_dictionary表进行关联。

10.根据权利要求1所述的多用户并发处理的数据标注方法，其特征在于，所述S3.2包含以下步骤：

S3.2.1 实体关系标注数据运用master_annot表、entity表、entity_relationship表、entity_index表分别插入存储；

S3.2.2 图像描述的标注数据存储在picture_annot表，对于图片的补充描述会在Service层统一转换为｛text1：“”，text2：“”... ,text5:“”｝的json字符串格式存储于该表的Info字段；

S3.2.3. 工业实体标注数据存储在industry_dictionary_annot表，该表存储工业实体的label字段。