CN108874763A - 一种基于群智的语料库数据标注方法及系统 - Google Patents

一种基于群智的语料库数据标注方法及系统 Download PDF

Info

Publication number
CN108874763A
CN108874763A CN201810589247.XA CN201810589247A CN108874763A CN 108874763 A CN108874763 A CN 108874763A CN 201810589247 A CN201810589247 A CN 201810589247A CN 108874763 A CN108874763 A CN 108874763A
Authority
CN
China
Prior art keywords
data
labeled
labeled data
mark
marking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810589247.XA
Other languages
English (en)
Inventor
肖中华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yong Yida Robot Co Ltd
Original Assignee
Shenzhen Yong Yida Robot Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yong Yida Robot Co Ltd filed Critical Shenzhen Yong Yida Robot Co Ltd
Priority to CN201810589247.XA priority Critical patent/CN108874763A/zh
Publication of CN108874763A publication Critical patent/CN108874763A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于群智的语料库数据标注方法,用户录入待标注数据,同时初始化标注模型和标注数据生成器,标注数据生成器为标注人员从待标注数据和已标注数据中抽取一定数量的数据生成标注数据,标注模型在研发过程生成,标注模型根据已标注数据进行迭代训练,进而对待标注数据进行自动标注生成标注模型自动标注数据,标注人员对标注数据进行标注或确认,保存已标注数据,同时,本发明基于该数据标注方法,提出了一种基于群智的语料库数据标注系统,本发明提出的标注方法及系统可以将开发过程和标注过程结合起来,可以显著的缩短研发周期和标注周期,提升标注数据的准确率。

Description

一种基于群智的语料库数据标注方法及系统
技术领域
本发明专利涉及一种语料库标注领域,尤其是一种基于群智的语料库数据标注方法及系统。
背景技术
在互联网和人工智能迅速发展的今天,数据的标注需求变得越来越迫切。面对数据的标注需求,现有的标注方法采用word、excel等文本形式,或者开发专门的web网页系统用于组织标注语料。再由标注人员对文本形式或者web网页形式的语料进行标注。
现有的标注方法的问题在于:标注人员各自为政,各自标注各自的数据,标注人员之间也存在标注标准差异;标注和研发过程相互独立,无法协同开发;对于标注人员出现的标注错误,要么无法改正,要么只能进行二次标注进行改正。以上问题限制了标注工作以及研发的效率和质量。
发明内容
为了解决传统标注方法的不足,本发明提出了基于群智的语料库数据标注方法及系统。本方法及系统将各个各自为政的标注人员联合起来,协同标注,并将研发过程和标注过程统一起来,提供标注效率和质量。
为达到上述目的,本发明采用的技术方案是:一种基于群智的语料库数据标注方法,包括如下步骤:
步骤1、用户录入待标注数据,同时初始化标注模型和标注数据生成器;
步骤2、标注数据生成器为标注人员从待标注数据和已标注数据中抽取一定数量的数据生成标注数据;
步骤3、标注模型根据已标注数据进行迭代训练,进而对待标注数据进行自动标注生成标注模型自动标注数据,标注人员对标注数据进行标注或确认,保存已标注数据。
其中,所述标注模型在研发过程生成,用于对标注数据进行标注。
作为一种举例说明,所述标注模型的输入为待标注语料库数据中的句子或者片段,输出为标注好的一个标签序列,所述标签序列中的标签与输入的待标注语料库数据的句子和片段一一对应。
作为一种举例说明,所述待标注数据包括标注模型自动标注数据和未标注空白数据。
作为一种举例说明,如果所述标注数据为未标注空白数据,标注人员需要进行标注;如果所述标注数据为标注模型自动标注数据或已标注数据,判定是否标注正确,如果标注正确,标注人员只需要进行确认即可,如果有错误,标注人员则需要进行改正。
一种基于群智的语料库数据标注系统,该系统包括Web后台服务器、多台装有浏览器的计算机、GPU服务器,其特征在于:
所述Web后台服务器包括标注数据生成单元、标注数据存储单元、指令发送单元;
所述多台装有浏览器的计算机用于标注人员登入标注系统,录入待标注数据,并对标注数据进行标注或确认;
所述GPU服务器用于运行标注模型单元,并根据web后台服务器提供的已标注数据和指令进行迭代训练,其中,所述标注模型在研发过程生成,用于对标注数据进行标注。
作为一种举例说明,所述标注模型单元的输入为待标注语料库数据中的句子或者片段,输出为标注好的一个标签序列,所述标签序列中的标签与输入的待标注语料库数据的句子和片段一一对应。
作为一种举例说明,所述标注数据存储单元用于保存标注模型自动标注数据、未标注空白数据和已标注数据。
作为一种举例说明,所述标注数据生成单元用于为标注人员从待标注数据和已标注数据中抽取一定数量的数据生成标注数据。
作为一种举例说明,所述指令发送单元发送指令包括初始化标注模型单元或标注数据生成单元、保存已标注数据、标注模型单元对已标注数据的迭代训练。
本发明提出的标注方法及系统可以将开发过程和标注过程结合起来,提升研发进度。将标注人员统一起来,改变传统标注人员各自为政的局面,将各个标注人员统一到一个平台,减少标注错误率,提升标注准确率和标注效率。
本发明的有益效果:
本发明提出的数据标注方法及系统可以显著的缩短研发周期和标注周期,减少标注所需时间和工作量,提升标注数据的准确率,减小人工标注造成的错误率和标注人员之间的标注标准差异。
附图说明
图1为本发明一种基于群智的语料库标注系统模型结构示意图;
图2为本发明基于群智的语料库待标注数据示意图;
图3为本发明基于群智的语料库标注数据生成方法示意图;
图4为本发明基于群智的语料库数据标注方法;
图5为本发明基于群智的语料库数据标注流程图;
图6为本发明基于群智的语料库数据标注系统结构示意图;
图7为本发明基于群智的语料库数据标注系统Web后台服务器示意图;
图8为本发明基于群智的语料库数据标注系统GPU服务器示意图。
以上附图中:1、标注模型;2、标注数据生成器;3、待标注数据;5、已标注数据;6、未标注空白数据;7、标注数据;100、Web后台服务器;101、标注数据生成单元;102、标注数据存储单元;103、指令发送单元;200、GPU服务器;201、标注模型单元;300、带有浏览器的计算机。
具体实施方式
下面结合附图对本发明的优选实施例进行详细说明,
实施例一:
参照图1所示,根据语料库数据标注过程构建了标注系统模型,该标注系统模型主要包括4个部分:标注模型1、标注数据生成器2、待标注数据3、已标注数据4。
参照图2、3、4、5所示,在标注系统模型的基础上,提出一种基于群智的语料库数据标注方法,包括如下步骤:
S1、在标注开始阶段,用户录入待标注数据3,同时初始化标注模型1和标注数据生成器2;
S2、标注数据生成器2为标注人员从待标注数据3和已标注数据4中抽取一定数量的数据生成标注数据7;
S3、标注模型1根据已标注数据4进行迭代训练,进而对待标注数据3进行自动标注生成标注模型自动标注数据5,标注人员对标注数据7进行标注或确认,保存已标注数据4。
其中,标注模型1在研发过程生成,使得本实施例的语料库数据标注方法可以将开发过程和标注过程结合起来,提升研发进度,缩短研发周期和标注时间。标注模型1的输入为待标注语料库数据中的句子或者片段,输出为标注好的一个标签序列,标签序列中的标签与输入的待标注语料库数据的句子和片段一一对应。
标注数据生成器2的功能是为标注人员生成标注数据7,标注数据7从待标注数据3和已标注数据4中抽取。待标注数据3为未标注的数据,包括标注模型自动标注数据5和未标注空白数据6。标注模型自动标注数据5由标注模型根据已标注数据4进行迭代训练,对待标注数据3进行自动标注而生成。
标注数据7生成后,首先对标注数据7是否已标注进行判断,如果所述标注数据7为未标注空白数据6,即为未标注数据,标注人员需要进行标注;如果所述标注数据7为标注模型自动标注数据5或已标注数据4,即标注数据7经过了标注,经过标注的数据应判定是否标注正确,如果标注正确,标注人员只需要进行确认即可,如果有错误,标注人员则需要进行改正。标注人员对标注数据进行标注或确认后,形成新的已标注数据4,标注模型1对新的已标注数据4进行迭代训练,更新标注模型1,新的标注模型1再对新的待标注数据3自动标注生成标注模型自动标注数据,进而进行下一轮标注过程。
实施例二:
参照图6、7、8所示,基于实施例一方法的一种基于群智的语料库数据标注系统,该系统包括Web后台服务器100、GPU服务器200、多台装有浏览器的计算机300。Web后台服务器包括标注数据生成单元101、标注数据存储单元102、指令发送单元103;多台装有浏览器的计算机300用于标注人员登入数据标注系统,录入待标注数据3,并对标注数据7进行标注或确认,GPU服务器200用于运行标注模型单元201,并根据web后台服务器100提供的已标注数据4和指令进行迭代训练,其中,标注模型单元201用于对标注数据7进行标注,在研发过程生成标注模型1。
标注模型单元201的输入为待标注语料库数据中的句子或者片段,输出为标注好的一个标签序列,所述标签序列中的标签与输入的待标注语料库数据的句子和片段一一对应。标注数据存储单元102用于保存标注模型自动标注数据5、未标注空白数据6和已标注数据4。标注数据生成单元101用于为标注人员从待标注数据3和已标注数据4中抽取一定数量的数据生成标注数据7。指令发送单元103发送指令包括初始化标注模型单元201或标注数据生成单元101、保存已标注数据4、标注模型单元201对已标注数据4的迭代训练等。
本发明提出的标注方法及系统可以将开发过程和标注过程结合起来,提升研发进度。将标注人员统一起来,改变传统标注人员各自为政的局面,将各个标注人员统一到一个平台,减少标注错误率,提升标注准确率和标注效率。
以上所述的仅为本发明的优选实施例,所应理解的是,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想,并不用于限定本发明的保护范围,凡在本发明的思想和原则之内所做的任何修改、等同替换等等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于群智的语料库数据标注方法,其特征在于,包括如下步骤:
步骤1、用户录入待标注数据,同时初始化标注模型和标注数据生成器;
步骤2、标注数据生成器为标注人员从待标注数据和已标注数据中抽取一定数量的数据生成标注数据;
步骤3、标注模型根据已标注数据进行迭代训练,进而对待标注数据进行自动标注生成标注模型自动标注数据,标注人员对标注数据进行标注或确认,保存已标注数据。
其中,所述标注模型在研发过程生成,用于对标注数据进行标注。
2.根据权利要求1所述的基于群智的语料库数据标注方法,其特征在于,所述标注模型的输入为待标注语料库数据中的句子或者片段,输出为标注好的一个标签序列,所述标签序列中的标签与输入的待标注语料库数据的句子和片段一一对应。
3.根据权利要求1所述的基于群智的语料库数据标注方法,其特征在于,所述待标注数据包括标注模型自动标注数据和未标注空白数据。
4.根据权利要求1所述的基于群智的语料库数据标注方法,其特征在于,所述标注数据生成器为标注人员生成标注数据,所述标注数据由标注模型自动标注数据、未标注空白数据和已标注数据组成。
5.根据权利要求1-4任一项所述的基于群智的语料库数据标注方法,其特征在于,如果所述标注数据为未标注空白数据,标注人员需要进行标注;如果所述标注数据为标注模型自动标注数据或已标注数据,判定是否标注正确,如果标注正确,标注人员只需要进行确认即可,如果有错误,标注人员则需要进行改正。
6.一种基于群智的语料库数据标注系统,该系统包括Web后台服务器、多台装有浏览器的计算机、GPU服务器,其特征在于:
所述Web后台服务器包括标注数据生成单元、标注数据存储单元、指令发送单元;
所述多台装有浏览器的计算机用于标注人员登入标注系统,录入待标注数据,并对标注数据进行确认和标注;
所述GPU服务器用于运行标注模型单元,并根据web后台服务器提供的已标注数据和指令进行迭代训练,其中,标注模型单元用于对标注数据进行标注,在研发过程生成标注模型。
7.根据权利要求6所述的基于群智的语料库数据标注系统,其特征在于,所述标注模型单元的输入为待标注语料库数据中的句子或者片段,输出为标注好的一个标签序列,所述标签序列中的标签与输入的待标注语料库数据的句子和片段一一对应。
8.根据权利要求6所述的基于群智的语料库数据标注系统,其特征在于,所述标注数据存储单元用于保存标注模型自动标注数据、未标注空白数据和已标注数据。
9.根据权利要求8所述的基于群智的语料库数据标注系统,其特征在于,所述标注数据生成单元用于为标注人员从待标注数据和已标注数据中抽取一定数量的数据生成标注数据。
10.根据权利要求6所述的基于群智的语料库数据标注系统,其特征在于,所述指令发送单元发送指令包括初始化标注模型单元或标注数据生成单元、保存已标注数据、标注模型单元对已标注数据的迭代训练。
CN201810589247.XA 2018-06-08 2018-06-08 一种基于群智的语料库数据标注方法及系统 Pending CN108874763A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810589247.XA CN108874763A (zh) 2018-06-08 2018-06-08 一种基于群智的语料库数据标注方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810589247.XA CN108874763A (zh) 2018-06-08 2018-06-08 一种基于群智的语料库数据标注方法及系统

Publications (1)

Publication Number Publication Date
CN108874763A true CN108874763A (zh) 2018-11-23

Family

ID=64337533

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810589247.XA Pending CN108874763A (zh) 2018-06-08 2018-06-08 一种基于群智的语料库数据标注方法及系统

Country Status (1)

Country Link
CN (1) CN108874763A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110069602A (zh) * 2019-04-15 2019-07-30 网宿科技股份有限公司 语料标注方法、装置、服务器及存储介质
CN111916192A (zh) * 2020-07-22 2020-11-10 复旦大学 一种医疗行为多模态数据标注方法和系统
CN112182048A (zh) * 2020-09-11 2021-01-05 南方科技大学 数据标注方法、网络设备、终端、系统及存储介质
CN112700408A (zh) * 2020-12-28 2021-04-23 中国银联股份有限公司 模型训练方法、图像质量评估方法及装置
WO2023155727A1 (zh) * 2022-02-17 2023-08-24 中兴通讯股份有限公司 自动标注模型生成方法、数据处理方法及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8649613B1 (en) * 2011-11-03 2014-02-11 Google Inc. Multiple-instance-learning-based video classification
CN104933588A (zh) * 2015-07-01 2015-09-23 北京京东尚科信息技术有限公司 用于拓展商品品类的数据标注平台及方法
CN108009589A (zh) * 2017-12-12 2018-05-08 腾讯科技(深圳)有限公司 样本数据处理方法、装置和计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8649613B1 (en) * 2011-11-03 2014-02-11 Google Inc. Multiple-instance-learning-based video classification
CN104933588A (zh) * 2015-07-01 2015-09-23 北京京东尚科信息技术有限公司 用于拓展商品品类的数据标注平台及方法
CN108009589A (zh) * 2017-12-12 2018-05-08 腾讯科技(深圳)有限公司 样本数据处理方法、装置和计算机可读存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110069602A (zh) * 2019-04-15 2019-07-30 网宿科技股份有限公司 语料标注方法、装置、服务器及存储介质
CN110069602B (zh) * 2019-04-15 2021-11-19 网宿科技股份有限公司 语料标注方法、装置、服务器及存储介质
CN111916192A (zh) * 2020-07-22 2020-11-10 复旦大学 一种医疗行为多模态数据标注方法和系统
CN112182048A (zh) * 2020-09-11 2021-01-05 南方科技大学 数据标注方法、网络设备、终端、系统及存储介质
CN112700408A (zh) * 2020-12-28 2021-04-23 中国银联股份有限公司 模型训练方法、图像质量评估方法及装置
CN112700408B (zh) * 2020-12-28 2023-09-08 中国银联股份有限公司 模型训练方法、图像质量评估方法及装置
WO2023155727A1 (zh) * 2022-02-17 2023-08-24 中兴通讯股份有限公司 自动标注模型生成方法、数据处理方法及电子设备

Similar Documents

Publication Publication Date Title
CN108874763A (zh) 一种基于群智的语料库数据标注方法及系统
Ive et al. DeepQuest: a framework for neural-based quality estimation
Berzak et al. Anchoring and agreement in syntactic annotations
CN102117270B (zh) 一种基于模糊树到精确树的统计机器翻译方法
CN102750289A (zh) 标签组分类方法、设备和数据混合方法、设备
CN108710611A (zh) 一种基于词网络和词向量的短文本主题模型生成方法
CN105068990B (zh) 一种面向机器翻译的多策略英文长句分割方法
CN109683946A (zh) 一种基于代码克隆技术的用户评论推荐方法
CN110287482A (zh) 半自动化分词语料标注训练装置
CN108491459B (zh) 一种软件代码摘要自动生成模型的优化方法
CN109657039A (zh) 一种基于双层BiLSTM-CRF的工作履历信息抽取方法
CN110516251A (zh) 一种电商实体识别模型的构建方法、构建装置、设备和介质
CN108021557A (zh) 基于深度学习的不规则实体识别方法
WO2017012327A1 (zh) 句法分析的方法和装置
CN106528616A (zh) 一种人机交互过程中的语言纠错方法及系统
CN108595427A (zh) 一种主观题评分方法、装置、可读存储介质以及电子设备
Jiang et al. Supervised treebank conversion: Data and approaches
CN107797995A (zh) 一种中英文片段语料生成方法
CN112948510B (zh) 一种媒体行业知识图谱的构建方法
CN109524071A (zh) 一种面向中文电子病历文本结构化解析的标注方法
Lin et al. Implanting rational knowledge into distributed representation at morpheme level
Gu et al. Extract, transform and filling: A pipeline model for question paraphrasing based on template
CN107679038A (zh) 一种文本段落的抽取方法及装置
CN104572636A (zh) 一种调序模型建立方法、装置及翻译方法
CN117009443A (zh) 一种隐性工作流构建方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181123

RJ01 Rejection of invention patent application after publication