CN111159494A - 一种多用户并发处理的数据标注方法 - Google Patents
一种多用户并发处理的数据标注方法 Download PDFInfo
- Publication number
- CN111159494A CN111159494A CN201911395068.3A CN201911395068A CN111159494A CN 111159494 A CN111159494 A CN 111159494A CN 201911395068 A CN201911395068 A CN 201911395068A CN 111159494 A CN111159494 A CN 111159494A
- Authority
- CN
- China
- Prior art keywords
- data
- annotation
- entity
- industrial
- marking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 23
- 238000012545 processing Methods 0.000 title claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 26
- 230000011218 segmentation Effects 0.000 claims abstract description 20
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 230000003993 interaction Effects 0.000 claims abstract description 8
- 230000008569 process Effects 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 claims description 5
- 230000002452 interceptive effect Effects 0.000 claims description 4
- 239000003086 colorant Substances 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000013500 data storage Methods 0.000 abstract description 5
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000013473 artificial intelligence Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/904—Browsing; Visualisation therefor
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种多用户并发处理的数据标注方法,该方法包括以下步骤:S1提供多种类标注规则的数据标注方案;S1.1基于不同的规则模型生成知识自动化抽取、图像理解、工业词典中文分词数据标注方案;S2根据数据标注流程将获取的多种数据源进行数据标注;S2.1获取标注源数据;S2.2用户数据标注交互;S3进行多用户标注数据的存储;S3.1根据数据源类型向Kafka消息队列相应topic推送,后台定时访问标注数据topic列表,将获取到的数据进行存储;S3.2多用户标注数据统一处理后存储。本发明的有益效果:本申请基于公司自主研发的数据标注应用平台,面向企业和个人提供了快速、高效、结果精准的工业数据标注和数据存储服务。
Description
技术领域
本发明涉及数据标注领域,支持多用户同时进行数据标注并进行标注数据的存储,具体来说,涉及一种多用户并发处理的数据标注方法。
背景技术
随着人工智能(Artificial Intelligence)领域的迅速发展,它将人类智能相似的方式做出反应的智能机器,人工智能领域会使用到很多深度学习算法,当前大部分的深度学习还集中在监督式的学习,所以对于很多人工智能领域诸如人脸识别、用户行为分析、智能驾驶等都需要通过数据标注和采集工作来提供海量的训练数据集。
北京航天云路公司紧随AI潮流,目前已经形成了一个较完整的人工智能布局,而数据的标注与采集是这一大布局中不可缺少的基础一环,为了解决数据标注与采集领域的数据质量和降低成本两大难点,本公司构建了一个人工数据标注平台,包括标注模块、管理模块以及数据集生成和下载三个模块,利用了大众能力和资源,降低了数据生产成本。
发明内容
针对相关技术中的上述技术问题,本发明提出一种多用户并发处理的数据标注方法,通过本申请自研的数据标注平台向企业和个人提供稳定、高效、可靠的多用户同时标注的解决方案和实现方法。
为实现上述技术目的,本发明的技术方案是这样实现的:该方法包括以下步骤:
S1 提供多种类标注规则的数据标注方案;
S1.1 基于不同的规则模型生成知识自动化抽取、图像理解、工业词典中文分词数据标注方案;
S2 根据数据标注流程将获取的多种数据源进行数据标注;
S2.1 获取标注源数据;
S2.2 用户数据标注交互;
S3 进行多用户标注数据的存储;
S3.1 根据标注的数据源类型向Kafka消息队列相应topic推送,后台定时访问标注数据topic列表,将获取到的数据进行存储;
S3.2 多用户标注数据统一处理后存储。
进一步地,所述S1.1包含以下步骤:S1.1.1 知识自动化抽取是采用联合抽取的方式运用规则模型实现现实体抽取和关系抽取;S1.1.2 图像理解是基于深度学习领域Encoder-Decoder模型获取图片中自动生成的描述性文字;S1.1.3 工业词典中文分词运用开源自然语言处理包HanLp实现工业名词的分词,将获得的工业名词标注区分后判断是否属于工业领域。
进一步地,所述S2.1包含以下步骤:S2.1.1 获取百度百科文本数据、工业新闻采集数据、工业产品采集数据、专利采集数据、采购商品图片描述数据、工业分词词典数据等标注数据;S2.1.2 采集ElasticSearch集群的存储数据,文本数据、商品图片描述数据及源于Mysql数据库的存储数据;S2.1.3 完成数据标注任务发布后,运用ES-Kafka中间件或Mysql-Kafka中间件的调用将不同数据来源的标注源数据加载到Kafka消息队列中;S2.1.4用户根据自己的标注任务直接访问Kafka消息队列获取标注源数据。
进一步地,所述S2.2包含以下步骤:
S2.2.1 运用Jsp+JavaScript+Jquery+Bootstrap+svg+Ajax的前端技术框架搭建一套界面简洁明确、用户交互便利、结果反馈直观的用户数据标注交互系统,进行实体关系抽取的数据标注;
S2.2.2 在获取的工业文本数据中提炼出实体、关系及实体的中文三元组数据,建立该数据标注的子模块,运用SVG在页面的绘制生成实体和实体与实体之间的关系标注;
用户运用简单的鼠标拖拽选择中文文本标注为BIOES标注实体,通过鼠标右键单击实体可取消当前实体的标注;
用户运用鼠标左键单击实体1标签后再左键单击实体2标签,此时页面会生成实体1和实体2之间的连线,同时标明实体1与实体2间的关系。
S2.2.3 根据每一张图片进行工业领域属性判断,运用文本描述图片表达的内容并对其他信息进行补充,生成人工对图片的描述信息;
S2.2.4 获取来自HanLp工业词典中文分词进行人工判断,标注该中文分词是否属于工业领域。
进一步地,所述S2.2.2 实体可分别标注为工业实体(industry)、类型(category)、特性(character)、应用领域(apply)、作用(function),在生成的页面上运用CSS选择器匹配不同实体类型的id对于不同类型的工业实体以不同颜色标记实体标签。
进一步地,所述S2.2.2 实体之间的关系可标注为别称(alias)、特性(character)、作用(function)、组成(composition)、类别(category)、应用(apply)。
进一步地,所述S2.2.3 用户获取页面图像描述源数据如:图片名、图片url、图片描述等,判断图片是否属于工业领域,同时,录入对图片的核心描述。
进一步地,S3.1.1 用户完成标记后提交标记数据到后台由Kafka消息队列获取,根据标注任务的标注规则和标注数据来源确定标注数据放在消息队列的某一Topic下,同时,会通知Kafka-Mysql中间件对Kafka中的该topic标注数据进行消费并存储到mysql中;在新的标注数据topic生成时,Kafka-Mysql中间件将该topic生成一个集合,中间件会在一段时间内,多线程不断轮询topic集合中的标注数据集topic,当某一topic获取数据时运用Service层中的处理方法将获取的标注数据处理后写入Mysql数据库进行存储;S3.1.2 针对多用户标注数据进行关联,相对同一源数据支持多用户同时标注,并在标注数据相关表中进行存储,存储的标注用户标识为统一字段。
进一步地,所述S3.1.2包含以下内容:所述实体关系标注数据是运用四张表进行完成关联标注,标注信息表(master_annot表)运用唯一确定的resource_id字段与实体关系标注源数据信息表(master表)关联,在进行人工审核标注数据,将标注数据信息表进一步关联文本数据表(text)从而获取标注文本,其他标注数据表通过master_annot_id字段与标注信息表进行关联;图像描述标注数据是运用图片标注数据表(picture_annot表)进行存储,该图片标注数据表pic_id字段与图片源数据表(picture表)进行关联;工业实体标注数据运用industry_dictionary_annot表进行存储,该图片标注数据表通过entity_id字段与工业实体源数据表industry_dictionary表进行关联。
进一步地,所述S3.2包含以下步骤:S3.2.1 实体关系标注数据运用master_annot表、entity表、entity_relationship表、entity_index表分别插入存储;S3.2.2 图像描述的标注数据存储在picture_annot表,对于图片的补充描述会在Service层统一转换为{text1:“”,text2:“”... ,text5:“”}的json字符串格式存储于该表的Info字段;S3.2.3.工业实体标注数据存储在industry_dictionary_annot表,该表存储工业实体的label字段。
本发明的有益效果:本公司数据标注平台面向多企业和多用户提供多项数据源种类涵盖文本实体关系、图像描述、工业分词等,多项数据源来源于百度百科、工业新闻、工业产品、工业词典等,本申请能很好的支持多用户同时对同一数据源数据进行数据标注并进行标注数据的存储。
本申请可持续、稳定、可靠的面向多用户提供数据的标注和标注数据的存储服务,支持同一数据源的同时标注,极大缩短了标注的流程时间,基于公司自主研发的数据标注应用平台,面向企业和个人提供了快速、高效、结果精准的工业数据标注和数据存储服务。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例所述的一种多用户并发处理的数据标注方法的标注源数据流程框图。
图2是根据本发明实施例所述的一种多用户并发处理的数据标注方法的
多用户标注数据存储流程框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
如图 1所示,根据本发明实施例所述的多用户并发处理的数据标注方法,该方法包括以下步骤:
S1 提供多种类标注规则的数据标注方案;
S1.1 基于不同的规则模型生成知识自动化抽取、图像理解、工业词典中文分词数据标注方案;
S2 根据数据标注流程将获取的多种数据源进行数据标注;
S2.1 获取标注源数据;
S2.2 用户数据标注交互;
S3 进行多用户标注数据的存储;
S3.1 根据标注的数据源类型向Kafka消息队列相应topic推送,后台定时访问标注数据topic列表,将获取到的数据进行存储;
S3.2 多用户标注数据统一处理后存储。
在本发明的一个具体实施例中,所述S1.1包含以下步骤:S1.1.1 知识自动化抽取是采用联合抽取的方式运用规则模型实现现实体抽取和关系抽取;S1.1.2 图像理解是基于深度学习领域Encoder-Decoder模型获取图片中自动生成的描述性文字;S1.1.3 工业词典中文分词运用开源自然语言处理包HanLp实现工业名词的分词,将获得的工业名词标注区分后判断是否属于工业领域。
在本发明的一个具体实施例中,所述S2.1包含以下步骤:S2.1.1 获取百度百科文本数据、工业新闻采集数据、工业产品采集数据、专利采集数据、采购商品图片描述数据、工业分词词典数据等标注数据;S2.1.2 采集ElasticSearch集群的存储数据,文本数据、商品图片描述数据及源于Mysql数据库的存储数据;S2.1.3 完成数据标注任务发布后,运用ES-Kafka中间件或Mysql-Kafka中间件的调用将不同数据来源的标注源数据加载到Kafka消息队列中;S2.1.4 用户根据自己的标注任务直接访问Kafka消息队列获取标注源数据。
在本发明的一个具体实施例中,所述S2.2包含以下步骤:
S2.2.1 运用Jsp+JavaScript+Jquery+Bootstrap+svg+Ajax的前端技术框架搭建一套界面简洁明确、用户交互便利、结果反馈直观的用户数据标注交互系统,进行实体关系抽取的数据标注;
S2.2.2 在获取的工业文本数据中提炼出实体、关系及实体的中文三元组数据,建立该数据标注的子模块,运用SVG在页面的绘制生成实体和实体与实体之间的关系标注;
用户运用简单的鼠标拖拽选择中文文本标注为BIOES标注实体,通过鼠标右键单击实体可取消当前实体的标注;
用户运用鼠标左键单击实体1标签后再左键单击实体2标签,此时页面会生成实体1和实体2之间的连线,同时标明实体1与实体2间的关系。
S2.2.3 根据每一张图片进行工业领域属性判断,运用文本描述图片表达的内容并对其他信息进行补充,生成人工对图片的描述信息;
S2.2.4 获取来自HanLp工业词典中文分词进行人工判断,标注该中文分词是否属于工业领域。
在本发明的一个具体实施例中,所述S2.2.2 实体可分别标注为工业实体(industry)、类型(category)、特性(character)、应用领域(apply)、作用(function),在生成的页面上运用CSS选择器匹配不同实体类型的id对于不同类型的工业实体以不同颜色标记实体标签。
在本发明的一个具体实施例中,所述S2.2.2 实体之间的关系可标注为别称(alias)、特性(character)、作用(function)、组成(composition)、类别(category)、应用(apply)。
在本发明的一个具体实施例中,所述S2.2.3 用户获取页面图像描述源数据如:图片名、图片url、图片描述等,判断图片是否属于工业领域,同时,录入对图片的核心描述。
在本发明的一个具体实施例中,所述S3.1包含以下步骤:S3.1.1 用户完成标记后提交标记数据到后台由Kafka消息队列获取,根据标注任务的标注规则和标注数据来源确定标注数据放在消息队列的某一Topic下,同时,会通知Kafka-Mysql中间件对Kafka中的该topic标注数据进行消费并存储到mysql中;在新的标注数据topic生成时,Kafka-Mysql中间件将该topic生成一个集合,中间件会在一段时间内,多线程不断轮询topic集合中的标注数据集topic,当某一topic获取数据时运用Service层中的处理方法将获取的标注数据处理后写入Mysql数据库进行存储;S3.1.2 针对多用户标注数据进行关联,相对同一源数据支持多用户同时标注,并在标注数据相关表中进行存储,存储的标注用户标识为统一字段。
在本发明的一个具体实施例中,所述S3.1.2包含以下内容:实体关系标注数据包含标注信息表(master_annot表)、实体表(entity表)、实体关系表(entity_relationship表)及(entity_index表存储),所述实体关系标注数据是运用四张表进行完成关联标注,标注信息表(master_annot表)运用唯一确定的resource_id字段与实体关系标注源数据信息表(master表)关联,在进行人工审核标注数据,将标注数据信息表进一步关联文本数据表(text)从而获取标注文本,其他标注数据表通过master_annot_id字段与标注信息表进行关联;图像描述标注数据是运用图片标注数据表(picture_annot表)进行存储,该图片标注数据表pic_id字段与图片源数据表(picture表)进行关联;工业实体标注数据运用industry_dictionary_annot表进行存储,该图片标注数据表通过entity_id字段与工业实体源数据表industry_dictionary表进行关联。
在本发明的一个具体实施例中,所述S3.2包含以下步骤:S3.2.1 实体关系标注数据运用master_annot表、entity表、entity_relationship表、entity_index表分别插入存储,其中master_annot表用以存储标注用户id及源文本是否属于工业领域等信息,其中entity表用以存储中文实体数据,在Service层通过用户提交到后台的标注数据中的实体索引,向源文本中通过检索、界定、去重等操作获取到用户人工标注出的实体数据,其中entity_relationship表用以存储实体关系数据,同样是在Service层完成对提交的标注数据的处理,通过实体标注id和关系标注id确定实体关系,其中entity_index表即为实体索引表,存储实体在源文本中位置索引和实体关系索引,当用户加载标注历史数据或进行标注数据审核时通过联合该表和text表(源文本数据表)即可获取到用户标注完成的实体关系数据;S3.2.2 图像描述的标注数据存储在picture_annot表,对于图片的补充描述会在Service层统一转换为{text1:“”,text2:“”... ,text5:“”}的json字符串格式存储于该表的Info字段;S3.2.3. 工业实体标注数据存储在industry_dictionary_annot表,该表存储工业实体的label字段。
为了方便理解本发明的上述技术方案,以下通过具体使用方式上对本发明的上述技术方案进行详细说明。
在具体使用时,根据本发明所述的多用户并发处理的数据标注方法,本申请通过Jsp+JavaScript+Jquery+Bootstrap+svg+Ajax的前端技术框架搭建了一套界面简洁明确、用户交互便利、结果反馈直观的用户数据标注交互系统,根据标注数据类型分为以下三种S2.2.2. 实体关系抽取数据标注;S2.2.3. 图像描述数据标注;S2.2.4. 工业实体数据标注;
用户标注完成会向后台提交如下格式的标注数据:
{
"content": "此处为原文本数据,即实体和实体关系的来源文本",
"labelCategories": [{
"id": 0,
"text": "工业实体",
"color": "#FF8888",
"borderColor": "#ddd",
"attributes": {}
},
{
"id": 1,
"text": "类别",
"color": "#eac0a2",
"borderColor": "#ddd",
"attributes": {}
},
{
"id": 2,
"text": "特性",
"color": "#FFAA33",
"borderColor": "#ddd",
"attributes": {}
},
{
"id": 3,
"text": "应用领域",
"color": "#66DD00",
"borderColor": "#ddd",
"attributes": {}
},
{
"id": 4,
"text": "作用",
"color": "#33CCFF",
"borderColor": "#ddd",
"attributes": {}
}
],
"labels": [{
"id": 1,
"categoryId": 0,
"startIndex": 156,
"endIndex": 161,
"attributes": {}
},
{
"id": 2,
"categoryId": 0,
"startIndex": 201,
"endIndex": 206,
"attributes": {}
},
{
"id": 3,
"categoryId": 0,
"startIndex": 243,
"endIndex": 248,
"attributes": {}
},
{
"id": 4,
"categoryId": 0,
"startIndex": 302,
"endIndex": 307,
"attributes": {}
}
],
"connectionCategories": [{
"id": 0,
"text": "别称",
"attributes": {}
},
{
"id": 1,
"text": "特性",
"attributes": {}
},
{
"id": 2,
"text": "作用",
"attributes": {}
},
{
"id": 3,
"text": "组成",
"attributes": {}
},
{
"id": 4,
"text": "类别",
"attributes": {}
},
{
"id": 5,
"text": "应用",
"attributes": {}
}
],
"connections": [{
"id": 1,
"categoryId": 0,
"fromId": 1,
"toId": 2,
}]
}。
综上所述,借助于本发明的上述技术方案,本申请可持续、稳定、可靠的面向多用户提供数据的标注和标注数据的存储服务,支持同一数据源的同时标注,极大缩短了标注的流程时间,基于公司自主研发的数据标注应用平台,面向企业和个人提供了快速、高效、结果精准的工业数据标注和数据存储服务。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种多用户并发处理的数据标注方法,该方法包括以下步骤:
S1 提供多种类标注规则的数据标注方案;
S1.1 基于不同的规则模型生成知识自动化抽取、图像理解、工业词典中文分词数据标注方案;
S2 根据数据标注流程将获取的多种数据源进行数据标注;
S2.1 获取标注源数据;
S2.2 用户数据标注交互;
S3 进行多用户标注数据的存储;
S3.1 根据数据源类型向Kafka消息队列相应topic推送,后台定时访问标注数据topic列表,将获取到的数据进行存储;
S3.2 多用户标注数据统一处理后存储。
2.根据权利要求1所述的多用户并发处理的数据标注方法,其特征在于,所述S1.1包含以下步骤:
S1.1.1 知识自动化抽取是采用联合抽取的方式运用规则模型实现现实体抽取和关系抽取;
S1.1.2 图像理解是基于深度学习领域Encoder-Decoder模型获取图片中自动生成的描述性文字;
S1.1.3 工业词典中文分词运用开源自然语言处理包HanLp实现工业名词的分词,将获得的工业名词标注区分后判断是否属于工业领域。
3.根据权利要求1所述的多用户并发处理的数据标注方法,其特征在于,所述S2.1包含以下步骤:
S2.1.1 获取百度百科文本数据、工业新闻采集数据、工业产品采集数据、专利采集数据、采购商品图片描述数据、工业分词词典数据等标注数据;
S2.1.2 采集ElasticSearch集群的存储数据,文本数据、商品图片描述数据及源于Mysql数据库的存储数据;
S2.1.3 完成数据标注任务发布后,运用ES-Kafka中间件或Mysql-Kafka中间件的调用将不同数据来源的标注源数据加载到Kafka消息队列中;
S2.1.4 用户根据自己的标注任务直接访问Kafka消息队列获取标注源数据。
4.根据权利要求1所述的多用户并发处理的数据标注方法,其特征在于,所述S2.2包含以下步骤:
S2.2.1 运用Jsp+JavaScript+Jquery+Bootstrap+svg+Ajax的前端技术框架搭建一套界面简洁明确、用户交互便利、结果反馈直观的用户数据标注交互系统,进行实体关系抽取的数据标注;
S2.2.2 在获取的工业文本数据中提炼出实体、关系及实体的中文三元组数据,建立该数据标注的子模块,运用SVG在页面的绘制生成实体和实体与实体之间的关系标注;
用户运用简单的鼠标拖拽选择中文文本标注为BIOES标注实体,通过鼠标右键单击实体可取消当前实体的标注;
用户运用鼠标左键单击实体1标签后再左键单击实体2标签,此时页面会生成实体1和实体2之间的连线,同时标明实体1与实体2间的关系;
S2.2.3 根据每一张图片进行工业领域属性判断,运用文本描述图片表达的内容并对其他信息进行补充,生成人工对图片的描述信息;
S2.2.4 获取来自HanLp工业词典中文分词进行人工判断,标注该中文分词是否属于工业领域。
5. 根据权利要求4所述的多用户并发处理的数据标注方法,其特征在于,所述S2.2.2实体可分别标注为工业实体(industry)、类型(category)、特性(character)、应用领域(apply)、作用(function),在生成的页面上运用CSS选择器匹配不同实体类型的id对于不同类型的工业实体以不同颜色标记实体标签。
6. 根据权利要求4所述的多用户并发处理的数据标注方法,其特征在于,所述S2.2.2实体之间的关系可标注为别称(alias)、特性(character)、作用(function)、组成(composition)、类别(category)、应用(apply)。
7. 根据权利要求4所述的多用户并发处理的数据标注方法,其特征在于,所述S2.2.3用户获取页面图像描述源数据如:图片名、图片url、图片描述等,判断图片是否属于工业领域,同时,录入对图片的核心描述。
8.根据权利要求1所述的多用户并发处理的数据标注方法,其特征在于,所述S3.1包含以下步骤:
S3.1.1 用户完成标记后提交标记数据到后台由Kafka消息队列获取,根据标注任务的标注规则和标注数据来源确定标注数据放在消息队列的某一Topic下,同时,会通知Kafka-Mysql中间件对Kafka中的该topic标注数据进行消费并存储到mysql中;在新的标注数据topic生成时,Kafka-Mysql中间件将该topic生成一个集合,中间件会在一段时间内,多线程不断轮询topic集合中的标注数据集topic,当某一topic获取数据时运用Service层中的处理方法将获取的标注数据处理后写入Mysql数据库进行存储;
S3.1.2 针对多用户标注数据进行关联,相对同一源数据支持多用户同时标注,并在标注数据相关表中进行存储,存储的标注用户标识为统一字段。
9.根据权利要求8所述的多用户并发处理的数据标注方法,其特征在于,所述S3.1.2包含以下内容:
所述实体关系标注数据是运用四张表进行完成关联标注,标注信息表(master_annot表)运用唯一确定的resource_id字段与实体关系标注源数据信息表(master表)关联,在进行人工审核标注数据,将标注数据信息表进一步关联文本数据表(text)从而获取标注文本,其他标注数据表通过master_annot_id字段与标注信息表进行关联;
图像描述标注数据是运用图片标注数据表(picture_annot表)进行存储,该图片标注数据表pic_id字段与图片源数据表(picture表)进行关联;
工业实体标注数据运用industry_dictionary_annot表进行存储,该图片标注数据表通过entity_id字段与工业实体源数据表industry_dictionary表进行关联。
10.根据权利要求1所述的多用户并发处理的数据标注方法,其特征在于,所述S3.2包含以下步骤:
S3.2.1 实体关系标注数据运用master_annot表、entity表、entity_relationship表、entity_index表分别插入存储;
S3.2.2 图像描述的标注数据存储在picture_annot表,对于图片的补充描述会在Service层统一转换为{text1:“”,text2:“”... ,text5:“”}的json字符串格式存储于该表的Info字段;
S3.2.3. 工业实体标注数据存储在industry_dictionary_annot表,该表存储工业实体的label字段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911395068.3A CN111159494B (zh) | 2019-12-30 | 2019-12-30 | 一种多用户并发处理的数据标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911395068.3A CN111159494B (zh) | 2019-12-30 | 2019-12-30 | 一种多用户并发处理的数据标注方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111159494A true CN111159494A (zh) | 2020-05-15 |
CN111159494B CN111159494B (zh) | 2024-04-05 |
Family
ID=70559151
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911395068.3A Active CN111159494B (zh) | 2019-12-30 | 2019-12-30 | 一种多用户并发处理的数据标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111159494B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859862A (zh) * | 2020-07-22 | 2020-10-30 | 海尔优家智能科技(北京)有限公司 | 文本的数据标注方法和装置、存储介质及电子装置 |
CN111881105A (zh) * | 2020-07-30 | 2020-11-03 | 北京智能工场科技有限公司 | 业务数据的标注模型及其模型训练方法 |
CN112560583A (zh) * | 2020-11-26 | 2021-03-26 | 复旦大学附属中山医院 | 一种数据集生成方法、装置 |
CN112884303A (zh) * | 2021-02-02 | 2021-06-01 | 深圳市欢太科技有限公司 | 数据标注方法、装置、电子设备及计算机可读存储介质 |
CN115248831A (zh) * | 2021-04-28 | 2022-10-28 | 马上消费金融股份有限公司 | 一种标注方法、装置、系统、设备及可读存储介质 |
CN116186067A (zh) * | 2023-04-27 | 2023-05-30 | 浪潮云洲(山东)工业互联网有限公司 | 一种工业数据表存储查询方法及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103488690A (zh) * | 2013-09-02 | 2014-01-01 | 用友软件股份有限公司 | 数据集成系统和数据集成方法 |
CN108830466A (zh) * | 2018-05-31 | 2018-11-16 | 长春博立电子科技有限公司 | 一种基于云平台的图像内容语义标注系统和方法 |
CN109062890A (zh) * | 2018-06-27 | 2018-12-21 | 北京明略软件系统有限公司 | 一种标签切换方法和装置、计算机可读存储介质 |
CN109299296A (zh) * | 2018-11-01 | 2019-02-01 | 郑州云海信息技术有限公司 | 一种交互式图像文本标注方法与系统 |
US20190156123A1 (en) * | 2017-11-23 | 2019-05-23 | Institute For Information Industry | Method, electronic device and non-transitory computer readable storage medium for image annotation |
CN110457494A (zh) * | 2019-08-01 | 2019-11-15 | 新华智云科技有限公司 | 数据标注方法、装置、电子设备及存储介质 |
-
2019
- 2019-12-30 CN CN201911395068.3A patent/CN111159494B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103488690A (zh) * | 2013-09-02 | 2014-01-01 | 用友软件股份有限公司 | 数据集成系统和数据集成方法 |
US20190156123A1 (en) * | 2017-11-23 | 2019-05-23 | Institute For Information Industry | Method, electronic device and non-transitory computer readable storage medium for image annotation |
CN108830466A (zh) * | 2018-05-31 | 2018-11-16 | 长春博立电子科技有限公司 | 一种基于云平台的图像内容语义标注系统和方法 |
CN109062890A (zh) * | 2018-06-27 | 2018-12-21 | 北京明略软件系统有限公司 | 一种标签切换方法和装置、计算机可读存储介质 |
CN109299296A (zh) * | 2018-11-01 | 2019-02-01 | 郑州云海信息技术有限公司 | 一种交互式图像文本标注方法与系统 |
CN110457494A (zh) * | 2019-08-01 | 2019-11-15 | 新华智云科技有限公司 | 数据标注方法、装置、电子设备及存储介质 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859862A (zh) * | 2020-07-22 | 2020-10-30 | 海尔优家智能科技(北京)有限公司 | 文本的数据标注方法和装置、存储介质及电子装置 |
CN111859862B (zh) * | 2020-07-22 | 2024-03-22 | 海尔优家智能科技(北京)有限公司 | 文本的数据标注方法和装置、存储介质及电子装置 |
CN111881105A (zh) * | 2020-07-30 | 2020-11-03 | 北京智能工场科技有限公司 | 业务数据的标注模型及其模型训练方法 |
CN111881105B (zh) * | 2020-07-30 | 2024-02-09 | 北京智能工场科技有限公司 | 业务数据的标注模型及其模型训练方法 |
CN112560583A (zh) * | 2020-11-26 | 2021-03-26 | 复旦大学附属中山医院 | 一种数据集生成方法、装置 |
CN112884303A (zh) * | 2021-02-02 | 2021-06-01 | 深圳市欢太科技有限公司 | 数据标注方法、装置、电子设备及计算机可读存储介质 |
CN115248831A (zh) * | 2021-04-28 | 2022-10-28 | 马上消费金融股份有限公司 | 一种标注方法、装置、系统、设备及可读存储介质 |
CN115248831B (zh) * | 2021-04-28 | 2024-03-15 | 马上消费金融股份有限公司 | 一种标注方法、装置、系统、设备及可读存储介质 |
CN116186067A (zh) * | 2023-04-27 | 2023-05-30 | 浪潮云洲(山东)工业互联网有限公司 | 一种工业数据表存储查询方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111159494B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111159494B (zh) | 一种多用户并发处理的数据标注方法 | |
CN110168535B (zh) | 一种信息处理方法及终端、计算机存储介质 | |
CN107766371B (zh) | 一种文本信息分类方法及其装置 | |
CN107291783B (zh) | 一种语义匹配方法及智能设备 | |
CN108460136A (zh) | 电力运维信息知识图谱构建方法 | |
JP7334395B2 (ja) | ビデオ分類方法、装置、機器、および記憶媒体 | |
CN110598203A (zh) | 一种结合词典的军事想定文书实体信息抽取方法及装置 | |
US10891430B2 (en) | Semi-automated methods for translating structured document content to chat-based interaction | |
CN105117387B (zh) | 一种智能机器人交互系统 | |
CN112115252B (zh) | 智能辅助写作处理方法、装置、电子设备及存储介质 | |
CN109445818A (zh) | 基于大数据的页面更新方法及装置、电子设备、存储介质 | |
CN110321549B (zh) | 基于序列化学习、关系挖掘、时序分析的新概念挖掘方法 | |
CN102880683A (zh) | 一种可行性研究报告的自动网络生成系统及其生成方法 | |
CN110929007A (zh) | 一种电力营销知识体系平台及应用方法 | |
CN104267974B (zh) | 业务接口的调用方法及装置 | |
CN112148874A (zh) | 可自动新增用户潜在意图的意图识别方法及系统 | |
CN116303537A (zh) | 数据查询方法及装置、电子设备、存储介质 | |
CN109271479A (zh) | 一种简历结构化处理方法 | |
CN116955586A (zh) | 一种动态调整回答偏好的咨询系统及其实现方法 | |
JPH07182368A (ja) | データ加工システム | |
CN116978028A (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN115496830A (zh) | 产品需求流程图的生成方法及装置 | |
CN113254623B (zh) | 数据处理方法、装置、服务器、介质及产品 | |
CN114840657A (zh) | 一种基于混合模式的api知识图谱自适应构建及智能问答方法 | |
CN114090777A (zh) | 文本数据处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |