CN108874763A

CN108874763A - 一种基于群智的语料库数据标注方法及系统

Info

Publication number: CN108874763A
Application number: CN201810589247.XA
Authority: CN
Inventors: 肖中华
Original assignee: Shenzhen Yong Yida Robot Co Ltd
Current assignee: Shenzhen Yong Yida Robot Co Ltd
Priority date: 2018-06-08
Filing date: 2018-06-08
Publication date: 2018-11-23

Abstract

一种基于群智的语料库数据标注方法，用户录入待标注数据，同时初始化标注模型和标注数据生成器，标注数据生成器为标注人员从待标注数据和已标注数据中抽取一定数量的数据生成标注数据，标注模型在研发过程生成，标注模型根据已标注数据进行迭代训练，进而对待标注数据进行自动标注生成标注模型自动标注数据，标注人员对标注数据进行标注或确认，保存已标注数据，同时，本发明基于该数据标注方法，提出了一种基于群智的语料库数据标注系统，本发明提出的标注方法及系统可以将开发过程和标注过程结合起来，可以显著的缩短研发周期和标注周期，提升标注数据的准确率。

Description

一种基于群智的语料库数据标注方法及系统

技术领域

本发明专利涉及一种语料库标注领域，尤其是一种基于群智的语料库数据标注方法及系统。

背景技术

在互联网和人工智能迅速发展的今天，数据的标注需求变得越来越迫切。面对数据的标注需求，现有的标注方法采用word、excel等文本形式，或者开发专门的web网页系统用于组织标注语料。再由标注人员对文本形式或者web网页形式的语料进行标注。

现有的标注方法的问题在于：标注人员各自为政，各自标注各自的数据，标注人员之间也存在标注标准差异；标注和研发过程相互独立，无法协同开发；对于标注人员出现的标注错误，要么无法改正，要么只能进行二次标注进行改正。以上问题限制了标注工作以及研发的效率和质量。

发明内容

为了解决传统标注方法的不足，本发明提出了基于群智的语料库数据标注方法及系统。本方法及系统将各个各自为政的标注人员联合起来，协同标注，并将研发过程和标注过程统一起来，提供标注效率和质量。

为达到上述目的，本发明采用的技术方案是：一种基于群智的语料库数据标注方法，包括如下步骤：

步骤1、用户录入待标注数据，同时初始化标注模型和标注数据生成器；

步骤2、标注数据生成器为标注人员从待标注数据和已标注数据中抽取一定数量的数据生成标注数据；

步骤3、标注模型根据已标注数据进行迭代训练，进而对待标注数据进行自动标注生成标注模型自动标注数据，标注人员对标注数据进行标注或确认，保存已标注数据。

其中，所述标注模型在研发过程生成，用于对标注数据进行标注。

作为一种举例说明，所述标注模型的输入为待标注语料库数据中的句子或者片段，输出为标注好的一个标签序列，所述标签序列中的标签与输入的待标注语料库数据的句子和片段一一对应。

作为一种举例说明，所述待标注数据包括标注模型自动标注数据和未标注空白数据。

作为一种举例说明，如果所述标注数据为未标注空白数据，标注人员需要进行标注；如果所述标注数据为标注模型自动标注数据或已标注数据，判定是否标注正确，如果标注正确，标注人员只需要进行确认即可，如果有错误，标注人员则需要进行改正。

一种基于群智的语料库数据标注系统，该系统包括Web后台服务器、多台装有浏览器的计算机、GPU服务器，其特征在于：

所述Web后台服务器包括标注数据生成单元、标注数据存储单元、指令发送单元；

所述多台装有浏览器的计算机用于标注人员登入标注系统，录入待标注数据，并对标注数据进行标注或确认；

所述GPU服务器用于运行标注模型单元，并根据web后台服务器提供的已标注数据和指令进行迭代训练，其中，所述标注模型在研发过程生成，用于对标注数据进行标注。

作为一种举例说明，所述标注模型单元的输入为待标注语料库数据中的句子或者片段，输出为标注好的一个标签序列，所述标签序列中的标签与输入的待标注语料库数据的句子和片段一一对应。

作为一种举例说明，所述标注数据存储单元用于保存标注模型自动标注数据、未标注空白数据和已标注数据。

作为一种举例说明，所述标注数据生成单元用于为标注人员从待标注数据和已标注数据中抽取一定数量的数据生成标注数据。

作为一种举例说明，所述指令发送单元发送指令包括初始化标注模型单元或标注数据生成单元、保存已标注数据、标注模型单元对已标注数据的迭代训练。

本发明提出的标注方法及系统可以将开发过程和标注过程结合起来，提升研发进度。将标注人员统一起来，改变传统标注人员各自为政的局面，将各个标注人员统一到一个平台，减少标注错误率，提升标注准确率和标注效率。

本发明的有益效果：

本发明提出的数据标注方法及系统可以显著的缩短研发周期和标注周期，减少标注所需时间和工作量，提升标注数据的准确率，减小人工标注造成的错误率和标注人员之间的标注标准差异。

附图说明

图1为本发明一种基于群智的语料库标注系统模型结构示意图；

图2为本发明基于群智的语料库待标注数据示意图；

图3为本发明基于群智的语料库标注数据生成方法示意图；

图4为本发明基于群智的语料库数据标注方法；

图5为本发明基于群智的语料库数据标注流程图；

图6为本发明基于群智的语料库数据标注系统结构示意图；

图7为本发明基于群智的语料库数据标注系统Web后台服务器示意图；

图8为本发明基于群智的语料库数据标注系统GPU服务器示意图。

以上附图中：1、标注模型；2、标注数据生成器；3、待标注数据；5、已标注数据；6、未标注空白数据；7、标注数据；100、Web后台服务器；101、标注数据生成单元；102、标注数据存储单元；103、指令发送单元；200、GPU服务器；201、标注模型单元；300、带有浏览器的计算机。

具体实施方式

下面结合附图对本发明的优选实施例进行详细说明，

实施例一：

参照图1所示，根据语料库数据标注过程构建了标注系统模型，该标注系统模型主要包括4个部分：标注模型1、标注数据生成器2、待标注数据3、已标注数据4。

参照图2、3、4、5所示，在标注系统模型的基础上，提出一种基于群智的语料库数据标注方法，包括如下步骤：

S1、在标注开始阶段，用户录入待标注数据3，同时初始化标注模型1和标注数据生成器2；

S2、标注数据生成器2为标注人员从待标注数据3和已标注数据4中抽取一定数量的数据生成标注数据7；

S3、标注模型1根据已标注数据4进行迭代训练，进而对待标注数据3进行自动标注生成标注模型自动标注数据5，标注人员对标注数据7进行标注或确认，保存已标注数据4。

其中，标注模型1在研发过程生成，使得本实施例的语料库数据标注方法可以将开发过程和标注过程结合起来，提升研发进度，缩短研发周期和标注时间。标注模型1的输入为待标注语料库数据中的句子或者片段，输出为标注好的一个标签序列，标签序列中的标签与输入的待标注语料库数据的句子和片段一一对应。

标注数据生成器2的功能是为标注人员生成标注数据7，标注数据7从待标注数据3和已标注数据4中抽取。待标注数据3为未标注的数据，包括标注模型自动标注数据5和未标注空白数据6。标注模型自动标注数据5由标注模型根据已标注数据4进行迭代训练，对待标注数据3进行自动标注而生成。

标注数据7生成后，首先对标注数据7是否已标注进行判断，如果所述标注数据7为未标注空白数据6，即为未标注数据，标注人员需要进行标注；如果所述标注数据7为标注模型自动标注数据5或已标注数据4，即标注数据7经过了标注，经过标注的数据应判定是否标注正确，如果标注正确，标注人员只需要进行确认即可，如果有错误，标注人员则需要进行改正。标注人员对标注数据进行标注或确认后，形成新的已标注数据4，标注模型1对新的已标注数据4进行迭代训练，更新标注模型1，新的标注模型1再对新的待标注数据3自动标注生成标注模型自动标注数据，进而进行下一轮标注过程。

实施例二：

参照图6、7、8所示，基于实施例一方法的一种基于群智的语料库数据标注系统，该系统包括Web后台服务器100、GPU服务器200、多台装有浏览器的计算机300。Web后台服务器包括标注数据生成单元101、标注数据存储单元102、指令发送单元103；多台装有浏览器的计算机300用于标注人员登入数据标注系统，录入待标注数据3，并对标注数据7进行标注或确认，GPU服务器200用于运行标注模型单元201，并根据web后台服务器100提供的已标注数据4和指令进行迭代训练，其中，标注模型单元201用于对标注数据7进行标注，在研发过程生成标注模型1。

标注模型单元201的输入为待标注语料库数据中的句子或者片段，输出为标注好的一个标签序列，所述标签序列中的标签与输入的待标注语料库数据的句子和片段一一对应。标注数据存储单元102用于保存标注模型自动标注数据5、未标注空白数据6和已标注数据4。标注数据生成单元101用于为标注人员从待标注数据3和已标注数据4中抽取一定数量的数据生成标注数据7。指令发送单元103发送指令包括初始化标注模型单元201或标注数据生成单元101、保存已标注数据4、标注模型单元201对已标注数据4的迭代训练等。

以上所述的仅为本发明的优选实施例，所应理解的是，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想，并不用于限定本发明的保护范围，凡在本发明的思想和原则之内所做的任何修改、等同替换等等，均应包含在本发明的保护范围之内。

Claims

1.一种基于群智的语料库数据标注方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于群智的语料库数据标注方法，其特征在于，所述标注模型的输入为待标注语料库数据中的句子或者片段，输出为标注好的一个标签序列，所述标签序列中的标签与输入的待标注语料库数据的句子和片段一一对应。

3.根据权利要求1所述的基于群智的语料库数据标注方法，其特征在于，所述待标注数据包括标注模型自动标注数据和未标注空白数据。

4.根据权利要求1所述的基于群智的语料库数据标注方法，其特征在于，所述标注数据生成器为标注人员生成标注数据，所述标注数据由标注模型自动标注数据、未标注空白数据和已标注数据组成。

5.根据权利要求1-4任一项所述的基于群智的语料库数据标注方法，其特征在于，如果所述标注数据为未标注空白数据，标注人员需要进行标注；如果所述标注数据为标注模型自动标注数据或已标注数据，判定是否标注正确，如果标注正确，标注人员只需要进行确认即可，如果有错误，标注人员则需要进行改正。

6.一种基于群智的语料库数据标注系统，该系统包括Web后台服务器、多台装有浏览器的计算机、GPU服务器，其特征在于：

所述多台装有浏览器的计算机用于标注人员登入标注系统，录入待标注数据，并对标注数据进行确认和标注；

所述GPU服务器用于运行标注模型单元，并根据web后台服务器提供的已标注数据和指令进行迭代训练，其中，标注模型单元用于对标注数据进行标注，在研发过程生成标注模型。

7.根据权利要求6所述的基于群智的语料库数据标注系统，其特征在于，所述标注模型单元的输入为待标注语料库数据中的句子或者片段，输出为标注好的一个标签序列，所述标签序列中的标签与输入的待标注语料库数据的句子和片段一一对应。

8.根据权利要求6所述的基于群智的语料库数据标注系统，其特征在于，所述标注数据存储单元用于保存标注模型自动标注数据、未标注空白数据和已标注数据。

9.根据权利要求8所述的基于群智的语料库数据标注系统，其特征在于，所述标注数据生成单元用于为标注人员从待标注数据和已标注数据中抽取一定数量的数据生成标注数据。

10.根据权利要求6所述的基于群智的语料库数据标注系统，其特征在于，所述指令发送单元发送指令包括初始化标注模型单元或标注数据生成单元、保存已标注数据、标注模型单元对已标注数据的迭代训练。