CN103530282A

CN103530282A - 语料标注方法及设备

Info

Publication number: CN103530282A
Application number: CN201310504852.XA
Authority: CN
Inventors: 高鹏
Original assignee: Purple Winter Of Beijing Is Voice Technology Co Ltd With Keen Determination
Current assignee: Purple Winter Of Beijing Is Voice Technology Co Ltd With Keen Determination
Priority date: 2013-10-23
Filing date: 2013-10-23
Publication date: 2014-01-22
Anticipated expiration: 2033-10-23
Also published as: CN103530282B

Abstract

本发明提供一种语料标注方法及设备，所述方法包括：获取语料，获取至少两个标注终端对所述语料的标注信息，所述至少两个标注终端对所述语料的标注信息为所述至少两个标注终端收集的用户对所述语料的标注信息，如果所述至少两个标注终端对所述语料的标注信息一致，则获取参考终端对所述语料的标注信息，根据参考终端对所述语料的标注信息及所述至少两个标注终端对所述语料的标注信息，确定所述语料的标注结果，如果所述至少两个标注终端对所述语料的标注信息不一致，则获取所述审核终端对所述语料的标注信息，并将所述审核终端对所述语料的标注信息作为所述语料的标注结果。本发明实施例能够提高语料标注准确度同时兼顾标注效率。

Description

语料标注方法及设备

技术领域

本发明涉及计算机领域，尤其涉及一种语料标注方法及设备。

背景技术

随着互联网和移动终端的普及应用，各种形式的语料如洪水般涌来，在自然语言处理、机器翻译、计算机辅助学习等多个领域需要对语料进行标注。

传统的语料标注方法，一般由专职标注员对语料进行标注，但是大型语料库中需要标注的语料众多，人工进行语料标注效率较低。为了提高语料标注效率，目前常采用标注服务器对语料进行自动标注，这种自动标注的方法标注效率较高，但是标注准确率较低。

如何兼顾语料的标注效率及准确率是当前需要解决的问题。

发明内容

本发明实施例提供一种语料标注方法及设备，能够兼顾语料的标注效率及准确率。

本发明实施例采用如下技术方案：

第一方面提供一种语料标注方法，包括：

获取语料；

获取至少两个标注终端对所述语料的标注信息，所述至少两个标注终端对所述语料的标注信息为所述至少两个标注终端收集的用户对所述语料的标注信息；

如果所述至少两个标注终端对所述语料的标注信息一致，则获取参考终端对所述语料的标注信息，根据参考终端对所述语料的标注信息及所述至少两个标注终端对所述语料的标注信息，确定所述语料的标注结果；

如果所述至少两个标注终端对所述语料的标注信息不一致，则获取所述审核终端对所述语料的标注信息，并将所述审核终端对所述语料的标注信息作为所述语料的标注结果。

可选的，根据参考终端对所述语料的标注信息及所述至少两个标注终端对所述语料的标注信息，确定所述语料的标注结果包括：

如果所述参考终端与所述至少两个标注终端反馈的标注信息的匹配度大于预设阀值，则将所述至少两个标注终端对所述语料的标注信息作为所述语料的标注结果；

如果所述参考终端与所述至少两个标注终端对所述语料的标注信息的匹配度小于预设阀值，则收集审核终端对所述语料的标注信息，并将所述审核终端对所述语料的标注信息作为所述语料的标注结果。

可选的，所述标注结果包括：所述语料，标识内容，终端标识。

可选的，所述标注结果还包括以下至少一种：语料类型标识，语料的评价等级。

可选的，所述获取语料包括：

根据所述标注终端语料标注的准确率，向所述至少两个标注终端分配语料。

可选的，还包括：

以可扩展标记语言XML文件存储所述语料的标注结果。

可选的，所述以可扩展标记语言XML文件存储所述语料的标注结果之后，还包括：

生成所述语料的标注结果对应的第一索引指针，所述第一索引指针用于索引所述语料的标注结果。

可选的，还包括：

将所述语料的标注结果存储到对应的语料大型文件，并生成所述语料的标注结果对应的第二索引指针，所述第二索引指针包含所述语料大型文件的标识，及所述语料的标注结果在所述语料大型文件中的地址信息。

第二方面提供一种语料标注设备，包括：

第一获取单元，用于获取语料；

第二获取单元，用于获取至少两个标注终端对所述语料的标注信息；

第一标注单元，用于如果所述至少两个标注终端对所述语料的标注信息一致，则获取参考终端对所述语料的标注信息，根据参考终端对所述语料的标注信息及所述至少两个标注终端对所述语料的标注信息，确定所述语料的标注结果；

第二标注单元，用于如果所述至少两个标注终端对所述语料的标注信息不一致，则获取所述审核终端对所述语料的标注信息，并将所述审核终端对所述语料的标注信息作为所述语料的标注结果。

可选的，所述第一标注单元具体用于：

所述第一标注单元还具体用于：如果所述参考终端与所述至少两个标注终端对所述语料的标注信息的匹配度小于预设阀值，则收集审核终端对所述语料的标注信息，并将所述审核终端对所述语料的标注信息作为所述语料的标注结果。

基于上述技术方案，本实施例的语料标注方法及设备，如果至少两个标注终端对所述语料的标注信息一致，则获取参考终端对所述语料的标注信息，根据参考终端对语料的标注信息及至少两个标注终端对所述语料的标注信息，确定语料的标注结果，如果至少两个标注终端对语料的标注信息不一致，则获取审核终端对所述语料的标注信息，并将审核终端对语料的标注信息作为语料的标注结果。这样，通过获取多个标注终端收集的用户对语料的标注信息，并根据参考终端、审核终端、标注终端中选取语料的标注结果，从而能够提高语料标注准确度同时兼顾标注效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供的一种语料标注方法的流程图；

图2为本发明实施例2提供的一种语料标注方法的流程图；

图3为本发明实施例2提供的另一种语料标注方法的流程图；

图4为本发明实施例2提供的又一种语料标注方法的流程图；

图5为本发明实施例3提供的语料标注实例一；

图6为本发明实施例3提供的语料标注实例二；

图7为本发明实施例3提供的语料标注实例三；

图8为本发明实施例3提供的语料标注实例四；

图9为本发明实施例3提供的语料标注实例五；

图10为本发明实施例4提供的一种语料标注设备的结构示意图；

图11为本发明实施例4提供的一种硬件架构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例中“语料”，包括语音识别系统中的文本语料、语音语料，包括机器翻译和自然语言处理领域中的单语文本语料、双语文本对齐语料，亦包括计算机辅助评估系统中的文本语料、语音语料等。本发明实施例中的“标注”，是指人工或设备对生语料或待使用语料所进行的过滤、去噪、文字转录、语言翻译、评价等操作。

实施例1

如图1所示，本实施例提供一种语料标注方法，该方法可以由语料标注设备实现，该方法包括：

11、获取语料。

12、获取至少两个标注终端对所述语料的标注信息，所述至少两个标注终端对所述语料的标注信息为所述至少两个标注终端收集的用户对所述语料的标注信息。

可选的，所述至少两个标注终端对所述语料的标注信息还可以为所述至少两个标注终端自身对所述语料的标注信息。

13、如果所述至少两个标注终端对所述语料的标注信息一致，则获取参考终端对所述语料的标注信息，根据参考终端对所述语料的标注信息及所述至少两个标注终端对所述语料的标注信息，确定所述语料的标注结果。

可选的，所述参考终端对所述语料的标注信息，可以为所述参考终端自身对所述语料的标注信息，也可以为所述参考终端收集的用户对所述语料的标注信息。

14、如果所述至少两个标注终端对所述语料的标注信息不一致，则获取所述审核终端对所述语料的标注信息，并将所述审核终端对所述语料的标注信息作为所述语料的标注结果。

可选的，所述审核终端对所述语料的标注信息，可以为所述审核终端自身对所述语料的标注信息，也可以为所述审核终端收集的用户对所述语料的标注信息。

本实施例的语料标注方法，如果至少两个标注终端对所述语料的标注信息一致，则获取参考终端对所述语料的标注信息，根据参考终端对语料的标注信息及至少两个标注终端对所述语料的标注信息，确定语料的标注结果，如果至少两个标注终端对语料的标注信息不一致，则获取审核终端对所述语料的标注信息，并将审核终端对语料的标注信息作为语料的标注结果。这样，通过获取多个标注终端收集的用户对语料的标注信息，并根据参考终端、审核终端、标注终端中选取语料的标注结果，从而能够提高语料标注准确度同时兼顾标注效率。

实施例2

本实施例中可以将语料视为数据，由<User,Resource,Tag>三元组组成，其中，User为终端标识，用于标识标注语料的终端或者标识，Resource用于标识数据资源的特征，Tag为标签，标签对象为广义的标记，可以是与数据内容直接相关的词语串，也可以是与数据内容间接相关并具有一定标引功能的标签，还可以是对数据资源进行评价的等级数值。

本实施例可以采用标注模型实现语料标注，标注模型包含用户U＝{u₁,...,u_U}、标记T＝{t₁,...,t_T}、数据D＝{d₁,...,d_D}，以及用于表示标注关系的超边集E＝{e₁,...,e_E}。本实施例中标记T可以由具有特定含义的词汇组成，并用W＝{w₁,...,w_W}来表示不包含重复词汇的词表，这些词汇既可以是数据内容本身，也可以表示对数据内容的一种概括。同时，标记也可以是对数据内容的一种评价等级G＝{g₁,...,g_G}，例如0分～5分，或好、中、差等级。而对于数据来说，既可以是纯文本形式的数据C＝{c₁,...,c_C}，也可以是由物理上的语音信号组成的数据S＝{s₁,...,s_S}。因此，本实施例的标注可以是一个八元组模型A＝(U,T,D,E,W,G,C,S)。本实施例中，每个数据将会获得多个用户的标记，这样可以增强标注的准确率。

如图2所示，本实施例提供一种语料标注方法，该方法可以通过语料标注设备实现，该方法包括：

21、向至少两个标注终端发送语料。

本实施例中，向标注终端发送的语料可以从存储的待标注语料中选取，也可以从实时数据流中选取语料，本实施例不限定语料的来源。

另外，本实施例可以根据所述标注终端语料标注的准确度，向所述至少两个标注终端分配语料。例如，当标注终端对机械领域的语料标注准确率较高，则优先向标注终端向分配机械领域的语料。

本实施例中语料可以从数据流中获取，数据流从前端系统流进，对数据流进行过滤去除数据流中无效的语料。具体地，本实施例可以通过字面浅层检测、信号层检测和机器自动运行结果的置信度过滤数据流。

22、获取至少两个标注终端对所述语料的标注信息，所述至少两个标注终端对所述语料的标注信息为所述至少两个标注终端收集的用户对所述语料的标注信息。

具体地，本实施例可以采用“兴趣+收获+报酬（Interest+Achievement+Money,IAM）”的方式对标注任务有效组织和分解来增强标注趣味性，通过将标注任务与语言学习进行结合来提高用户对语料标注的收获感和成就感，通过对用户标注数量和质量的积分累计来进行报酬兑换，以便进一步提高用户对语料标注的积极性。

可选地，本实施例中为了增强标注的便捷性和灵活性，本实施例对标注任务进行有效的分解和组织，将总体标注任务分解为多个简便的子任务。

可选地，本实施例中标注任务可以配以生动的界面或简单动画，以减轻用户标注过程中的枯燥性和疲劳感。

可选地，为本实施例中了与语言学习相结合，特别是针对英语语料的标注，用户可以选择多次播放语音内容，或多次播放动画，加强对不熟悉单词的听辨能力，并可以查看本人已经标注过的所有任务，通过比较其他用户的评价来衡量听辨水平或改正错误。

可选地，本实施例中可以将每次有效的标注分别给予不同的积分，任务难度越大则积分也越高，这样可以保证任务的均匀分布和有效推进。当用户积分达到一定数量，可以选择兑换报酬或礼品，用户标注的数量越多、质量越高，则报酬也越丰厚。这里的有效标注指的是指被确定为标注结果的标注，以防止用户胡乱标注或作弊。

23、如果所述至少两个标注终端对所述语料的标注信息一致，则获取参考终端对所述语料的标注信息。

其中，本实施例可以设置匹配度阀值，当至少两个标注终端对所述语料的标注信息为超出匹配度阀值时，判定至少两个标注终端对所述语料的标注信息一致。

其中，参考终端对所述语料的标注信息可以是，参考终端收集的标注准确率较高的用户对语料的标注信息，或者指定用户对语料的标注信息。

24、如果所述参考终端与所述至少两个标注终端反馈的标注信息的匹配度大于预设阀值，则将所述至少两个标注终端对所述语料的标注信息作为所述语料的标注结果。

其中，预设阀值可以根据不同的应用场景进行变更。

25、如果所述参考终端与所述至少两个标注终端对所述语料的标注信息的匹配度小于预设阀值，则收集审核终端对所述语料的标注信息，并将所述审核终端对所述语料的标注信息作为所述语料的标注结果。

其中，审核终端对所述语料的标注信息可以是，审核终端收集的标注准确率较高的用户对语料的标注信息，或者指定用户对语料的标注信息。

如图3所示，本实施例提供另一种语料标注方法，上述22之后包括：

26、如果所述至少两个标注终端对所述语料的标注信息不一致，则获取所述审核终端对所述语料的标注信息，并将所述审核终端对所述语料的标注信息作为所述语料的标注结果。

本实施例中，标注终端提供的对语料的标注信息、参考终端对语料的标注信息、审核终端对语料的标注信息、语料的标注结果可以包括：被标注的语料，标识内容，终端标识。还包括以下至少一种：语料类型标识，语料的评价等级。其中，被标注的语料即分配到标注终端、参考终端、审核终端进行标注的语料，标识内容为对语料的标注，终端标识可以为终端的代码，语料类型标识用于表示语料的类型，如文本语料，语音预料等，语料的评价等级可以标识对语料的评价。

如图4所示，本实施例中，上述24、25、26中得到语料的标注结果之后，还包括：

27、以XML（英文全称为：Extensible Markup Language，中文译文为：可扩展标记语言）文件存储所述语料的标注结果。

具体地，在语料获得成功标注后，生成一个语料对应的XML文件文件，用以存储标注信息。XML文件的具体内容包括文件名<FILENAME>、对应的数据文件<DATAFILE>、内容标记结果<TEXTRESULT>、标签标记结果<TAGRESULT>、等级标记结果<GRADERESULT>以及各用户的标注日志信息<USER>等。采用XML文件存储标注信息便于对标注信息进行索引。

28、生成所述语料的标注结果对应的第一索引指针，所述第一索引指针用于索引所述语料的标注结果。

具体地，本实施例可以采用倒排索引算法对语料库生成第一索引指针，索引项是标注信息中的基本语言单元，索引值是该基本语言单元所对应语料数据的地址或指针。这里的基本语言单元可以是内容标记中的词汇，可以是标签标记中的标签项词汇，也可以是评价等级标记，内容标记的词表可以有几万词或几十万词，标签词汇可以有几百个或上千个，等级标记可以是数值等级、数值分数或文字描述等级等形式，而相应的语料数据则有上百万句甚至更多，每个语料文件伴随一个标注文件，每个标注文件所关联的内容标记和标签标记词汇从几个到几十个不等，所关联的等级标记可以有一个或多个。

每个数据文件指定一个唯一的标识符，记为ID_DF_xxxxxx，每个标注文件也有一个唯一标识符，记为ID_AF_xxxxxx，其中后缀xxxxxx表示不重复的序号。显然，标注信息的基本语言单元将会出现在一个或多个标注文件中。此处，将内容标记的词汇所组成的集合（即词表）记为SET_WORD，将标签词汇组成的集合记为SET_TAG，将等级标记的集合记为SET_GRADE。

如果标注信息的基本语言单元X出现在多个标注文件中，那么多个标注文件的标识符所组成的集合称为该基本语言单元X的伴随集合，记为X{}。本实施例中以基本语言单元为索引项或关键词，以伴随集合作为该索引项的值，来建立相应的倒排索引表，此时索引表中的每条记录包含两部分，形式如下：

X→X{}

其中，X为基本语言单元，X{}为X的伴随集合。通过此过程，我们可以分别建立出内容标记词汇的倒排索引表WORD_List，以及标签词汇的倒排索引表TAG_List，还有等级标记的倒排索引表GRADE_List。

29、将所述语料的标注结果存储到对应的语料大型文件，并生成所述语料的标注结果对应的第二索引指针，所述第二索引指针包含所述语料大型文件的标识，及所述语料的标注结果在所述语料大型文件中的地址信息。

当语料数据巨大的时候，在存取速度优先的考虑下，将语料库中的所有语料文件合并为几个大型的数据文件，将标注库中的所有标注文件合并为几个大型的标注文件。分别建立语料文件和标注文件的二级索引（地址索引）。对于语料文件的地址索引，其记录形式如下：

ID_DF_xxxxxx→ID_DF_xxxxxx_Addr

其中，ID_DF_xxxxxx表示语料文件标识符，而ID_DF_xxxxxx_Addr表示该语料文件的地址。对于标注文件的地址索引，其记录形式如下：

ID_AF_xxxxxx→ID_AF_xxxxxx_Addr

其中，ID_AF_xxxxxx表示标注文件标识符，而ID_AF_xxxxxx_Addr表示该标注文件的地址。通过此过程，我们可以分别建立语料文件的地址索引表DF_List，以及标注文件的地址索引表AF_List。

本实施例中，存储语料标注之后，建立与某组标签相关的专项测试集时，可以在标签词汇倒排索引表中搜索到包含该组标签词汇的文档ID，通过语料文件的地址索引表和标注文件的地址索引表分别获取对应的语料数据和标注信息，从而完成测试集的构建。

实施例3

本实施例结合具体实例详细介绍语料标注的实现方法，上述实施例中标注终端、参考终端、审核终端可以应用本实施例的语料标注方法可以对语料进行标注。

本实施例标注语音识别任务时，可以采用图5所示的标注格式。将任务细化分解，使得任务能够在多个用户流水线操作的模式下得到有效的标注。

步骤1:将语音标注任务分解为“知道我在说什么吗?”、“挑刺啦”、“比比谁更好？”和“给我打个标签吧！”四个子任务，以增强整个任务的趣味性、灵活性和简易性。

步骤2:四个子任务环环相扣，“知道我在说什么吗?”子任务需要用户通过听音转录语音内容，“挑刺啦”子任务用于改正之前的标注错误，“比比谁更好？”子任务用于让用户自行评价多个标注结果，“给我打个标签吧！”子任务则要求用户为数据打上合适的标签，该标签是用户根据标注信息或语音本身所作出的自由式理解和概括，可以是面向内容的领域标签、主题标签和语义标签，也可以是面向信号层的信噪比标签、异常标签和情感标签等，这些分类标签将为后续多维度数据集的自动构建提供依据。

步骤3:对于每个子任务，将每次有效的标注分别给予不同的积分，“知道我在说什么吗?”、“挑刺啦”、“比比谁更好？”和“给我打个标签吧！”四个子任务的单位积分分别为5分、3分、2分和1分，任务难度越大积分也越高，这样可以保证任务的均匀分布和有效推进。

步骤4:至于本实施例的质量监控流程，需要进行词汇串间的一致性比较，本实施例采用基于WER（Word Error Rate）的编辑距离指标来进行度量。对于两个词汇串str1和str2，如果将str1作为参考串，则一致性计算公式为：

corr＝1-wer＝1-(#ins+#del+#sub)#ref

其中，#ins、#del和#sub分别是str1和str2进行对齐所产生的插入、删除和替换数目，而#ref则是参考串str1的长度。在标注过程中，一致性指标的接受阈值可以根据标注任务的具体要求和精度进行调整，例如，只有一致性高于0.60的标注信息才被接受。

本实施例标注面向机器翻译的任务时，可以采用图6所示的标注格式。为了保证翻译质量和提高进度，将任务进行有效的细化分解，使得翻译任务在多个用户流水线操作的模式下得到有效的运行。

步骤1:将翻译标注任务分解为“把我翻译成英文吧”、“挑刺啦”、“比比谁翻译的更好？”和“给我打个标签吧！”四个子任务，以增强整个任务的趣味性、灵活性和简易性。

步骤2:四个子任务环环相扣，“把我翻译成英文吧”子任务需要用户把源语言内容翻译成另外一种目标语言，比如中文翻译成英文，“挑刺啦”子任务用于改正之前的标注错误，“比比谁翻译的更好？”子任务用于让用户自行评价多个翻译结果，“给我打个标签吧！”子任务则要求用户为数据打上合适的标签，该标签是用户根据标注信息所作出的自由式理解和概括，可以是面向内容的领域标签、主题标签和语义标签等，这些分类标签将为后续多维度数据集的自动构建提供依据。

步骤3:对于每个子任务，将每次有效的标注分别给予不同的积分，“把我翻译成英文吧”、“挑刺啦”、“比比谁翻译的更好？”和“给我打个标签吧！”四个子任务的单位积分分别为10分、5分、3分和2分，任务难度越大积分也越高，这样可以保证任务的均匀分布和有效推进。由于相比内容转录任务，翻译任务难度更大一些，因此翻译任务的单位积分相对高一些。

步骤4:至于本实施例的质量监控环节，由于对于同一个源语言句子，可能会存在其他语言的多种表达方式，因此多个标注人员所翻译标注出的结果可能都是正确有效的。然而，机器自动质量评价还不能做到对此类灵活多样表达方式的准确评判，因此本发明将通过人工评价的方式选择评价得分较高的前N个翻译结果作为最终的翻译标注结果。

本实施例标注面向双语对齐语料过滤的任务时，可以采用图7所示的标注格式。

步骤1:将过滤标注任务分解为“双语对是否匹配？”和“给我打个标签吧！”两个子任务。

步骤2:“双语对是否匹配？”子任务用于让用户自行评价给出的双语对齐语料中源语言和目标语言是否匹配，“给我打个标签吧！”子任务则要求用户为数据打上合适的标签，该标签是用户根据标注信息所作出的自由式理解和概括，可以是面向内容的领域标签、主题标签和语义标签等，这些分类标签将为后续多维度数据集的自动构建提供依据。

步骤3:对于每个子任务，将每次有效的标注分别给予不同的积分，“双语对是否匹配？”和“给我打个标签吧！”两个子任务的单位积分分别为3分和2分。由于过滤任务相对容易，因此过滤任务的单位积分相对低一些。

步骤4:至于本实施例的质量监控环节，由于需要进行过滤的语料规模巨大，因此本发明将针对某条双语语料进行匹配判决的多个人工判决的多数结果作为最终标注结果，同时对于某些没有价值的语料对，当任意标注人员判决为没有价值时，则直接过滤掉。

本实施例标注面向口语评估任务的任务时，可以采用图8所示的标注格式。面向口语评估任务的标注主要是面向计算机辅助语言学习领域的对口语语音发音质量的评估，即对一段口语语音的内容完整度、发音准确度、流利度和韵律性进行评判。口语评估的主观性很强，不同专家的评估不尽相同，同一个专家在不同时间和环境下的评估也不尽相同，对于此类标注任务，必须通过大量标注人员的多数评估才能给出比较客观的标注结果，因此非常适合利用众包标注形式。

步骤1:口语评估包含四个层次，分别是内容完整度评估、发音准确度评估、流畅性评估和韵律性评估，因此将口语评估任务分解为四个子任务，然后通过四个子任务的评估标注结果可以给出口语评估的整体结果。

步骤2:四个子任务尽量解耦，以便增强子任务的可操作性。“内容完整度评估”子任务是衡量口语语音中是否涵盖了要求表达的内容，“发音准确度评估”子任务用于衡量口语发音的准确程度，例如元音发音准确度、辅音发音准确度、单词重音位置准确性等，“流畅性评估”子任务用于衡量口语发音是否流利、是否存在大量重复修正等，“韵律性评估”子任务则是衡量口语发音的整体韵律性，包括声调、语调、节奏等。

步骤3:对于每个子任务，将每次有效的标注分别给予不同的积分，“内容完整度评估”、“发音准确度评估”、“流畅性评估”和“韵律性评估”四个子任务的单位积分分别为3分、5分、3分和4分，评价难度越大积分也越高。

步骤4:口语评估任务的评估等级设置非常关键，等级层数太多，则很难进行判断，等级层数太少，则评判精度低，不能充分反映区分度。本实施例中使用优、良、中、差四个评估等级。

步骤5:至于本实施例的质量监控环节，本发明将选择针对某段待评估的口语数据的多个人工判决的多数结果作为最终标注结果。同时，对于某些内容完整度很低的数据样本，将不会送入发音准确度、流畅性和韵律性评估阶段，因为在内容完整度太低的情况下已经失去进一步评估的意义。

本实施例标注面向作文评估的任务时，可以采用图9所示的标注格式。面向作文评估任务的标注主要是面向计算机辅助语言学习领域中对文本作文质量进行的评估，即对一段文本作文的内容完整度、词汇能力、句子流利度和篇章主题性进行评判。作文评估的主观性很强，不同专家的评估不尽相同，同一个专家在不同时间和环境下的评估也不尽相同，对于此类评估任务来说，必须通过大量标注人员的多数评估才能给出比较客观的标注结果，因此非常适合利用众包标注形式。

步骤1:作文评估包含四个层次，分别是内容完整度评估、词汇运用能力评估、句子流畅性评估和篇章主题性评估，因此将作文评估任务分解为四个子任务，然后通过四个子任务的评估标注结果可以给出作文评估的整体结果。

步骤2:四个子任务尽量解耦，以便增强子任务的可操作性。“内容完整度评估”子任务是衡量文本作文中是否涵盖了要求表达的内容，“词汇运用能力评估”子任务用于衡量文本作文中对词汇运用能力的评价，例如词汇使用是否恰当、词汇是否丰富等，“句子流畅性评估”子任务用于衡量文本作文是否流利、是否存在大量重复修正等，“篇章主题性评估”子任务则是衡量文本作文所阐释的主题是否与题目要求吻合。

步骤3:对于每个子任务，将每次有效的标注分别给予不同的积分，“内容完整度评估”、“词汇运用能力评估”、“流畅性评估”和“篇章主题性评估”四个子任务的单位积分分别为3分、5分、5分和7分，评价难度越大积分也越高。

步骤4:作文评估任务的评估等级设置非常关键，等级层数太多，则很难进行判断，等级层数太少，则评判精度低，不能充分反映区分度。本实施例中使用优、良、中、差四个评估等级。

步骤5:至于本实施例的质量监控环节，本发明将选择针对某段待评估的作文数据的多个人工判决的多数结果作为最终标注结果。同时，对于某些内容完整度很低的数据样本，将不会送入后续词汇运用能力、流畅性和主题性评估阶段，因为在内容完整度太低的情况下已经失去进一步评估的意义。

本实施例的语料标注方法，通过获取多个用户对语料的标注信息，中选取语料的标注结果，能够提高语料标注准确度同时兼顾标注效率。

实施例4

如图10所示，本实施例提供一种语料标注设备，包括：

第一获取单元101，用于获取语料；

第二获取单元102，用于获取至少两个标注终端对所述语料的标注信息；

第一标注单元103，用于如果所述至少两个标注终端对所述语料的标注信息一致，则获取参考终端对所述语料的标注信息，根据参考终端对所述语料的标注信息及所述至少两个标注终端对所述语料的标注信息，确定所述语料的标注结果；

第二标注单元104，用于如果所述至少两个标注终端对所述语料的标注信息不一致，则获取所述审核终端对所述语料的标注信息，并将所述审核终端对所述语料的标注信息作为所述语料的标注结果。

本实施例中，可选的，所述第一标注单元103具体用于：

所述第一标注单元103还具体用于：如果所述参考终端与所述至少两个标注终端对所述语料的标注信息的匹配度小于预设阀值，则收集审核终端对所述语料的标注信息，并将所述审核终端对所述语料的标注信息作为所述语料的标注结果。

本实施例存储语料的标注信息之后，还可以应用图11所示的架构实现语料标注的索引。图11中，检索层S1基于不同的项目进行检索，索引层S2生成相应的索引表，数据层S3用用提供被索引的语料数据。

本实施的语料标注设备可以实现上述语料标注方法，该语料标注设备各个单元的功能请参阅上述方法实施例，此处不赘述。

本实施例的语料标注设备可以为计算机，服务器等具有语料标注功能的装置。

本实施例的语料标注设备，如果至少两个标注终端对所述语料的标注信息一致，则获取参考终端对所述语料的标注信息，根据参考终端对语料的标注信息及至少两个标注终端对所述语料的标注信息，确定语料的标注结果，如果至少两个标注终端对语料的标注信息不一致，则获取审核终端对所述语料的标注信息，并将审核终端对语料的标注信息作为语料的标注结果。这样，通过获取多个标注终端收集的用户对语料的标注信息，并根据参考终端、审核终端、标注终端中选取语料的标注结果，从而能够提高语料标注准确度同时兼顾标注效率。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

本说明书中的各个实施例均采用递进的方式描述，各个实施例相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语料标注方法，其特征在于，包括：

获取语料；

如果所述至少两个标注终端对所述语料的标注信息不一致，则获取审核终端对所述语料的标注信息，并将所述审核终端对所述语料的标注信息作为所述语料的标注结果。

2.根据权利要求1所述的方法，其特征在于，根据参考终端对所述语料的标注信息及所述至少两个标注终端对所述语料的标注信息，确定所述语料的标注结果包括：

3.根据权利要求1或2所述的方法，其特征在于，所述标注结果包括：所述语料，标识内容，终端标识。

4.根据权利要求3所述的方法，其特征在于，所述标注结果还包括以下至少一种：语料类型标识，语料的评价等级。

5.根据权利要求1所述的方法，其特征在于，所述获取语料包括：

6.根据权利要求1所述的方法，其特征在于，还包括：

以可扩展标记语言XML文件存储所述语料的标注结果。

7.根据权利要求6所述的方法，其特征在于，所述以可扩展标记语言XML文件存储所述语料的标注结果之后，还包括：

8.根据权利要求1所述的方法，其特征在于，还包括：

9.一种语料标注设备，其特征在于，包括：

第一获取单元，用于获取语料；

10.根据权利要求9所述的设备，其特征在于，所述第一标注单元具体用于：