CN108170670A

CN108170670A - 待标注语料的分配方法、装置、可读存储介质及电子设备

Info

Publication number: CN108170670A
Application number: CN201711297674.2A
Authority: CN
Inventors: 李玉信; 崔朝辉; 赵立军; 张霞
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2017-12-08
Filing date: 2017-12-08
Publication date: 2018-06-15

Abstract

本公开涉及一种待标注语料的分配方法、装置、可读存储介质及电子设备，所述方法包括：获取一初始待标注语料集合；输出一目标待标注语料，以对所述目标待标注语料进行语料标注；在对所述目标待标注语料完成语料标注后，从所述初始待标注语料集合中未进行语料标注的待标注语料中，确定与所述目标待标注语料相关性最小的待标注语料，并将该待标注语料确定为新的目标待标注语料；返回所述输出一目标待标注语料，以对目标待标注语料进行语料标注的步骤，直到满足预设的标注结束条件为止。因此，可以使得目标待标注语料分散地分布在语料空间中，降低人工标注的工作量，也可以提高基于该标注的语料进行训练的语料训练模型的精度，拓宽模型适用范围。

Description

待标注语料的分配方法、装置、可读存储介质及电子设备

技术领域

本公开涉及语言处理领域，具体地，涉及一种待标注语料的分配方法、装置、可读存储介质及电子设备。

背景技术

分词作为自然语言处理的基础，其准确度直接影响自然语言处理的结果。为了获取好的分词结果，则需要质量好的CRF(conditional random field，条件随机场)模型，而对CRF模型进行训练时需要准备好训练语料，一般针对业务场景需要对训练语料进行人工标注。

在语料标注过程中，为了降低人工标注的工作量，会定期使用标注好的语料训练模型对未标注的语料进行预标注，然后标注者在预标注的基础上进行人工标注。现有技术中，在进行人工标注时，可能会出现大量的训练语料集中在同一类型，即可能会连续对几个相似的训练语料进行标注，在该种情况下，则会浪费许多人工标注的工作量，即在进行了大量的人工标注后，也可能只是对该语料空间中的某一类型进行标注，难以基于该训练语料对语料训练模型进行训练。同时，也可能会出现标注的语料不全面，使得语料训练模型的使用范围小，精度差。

发明内容

本公开的目的是提供一种精度高、使用范围广的待标注语料的分配方法、装置、可读存储介质及电子设备。

为了实现上述目的，根据本公开的第一方面，提供一种待标注语料的分配方法，所述方法包括：

获取一初始待标注语料集合；

输出一目标待标注语料，以对所述目标待标注语料进行语料标注，其中，所述目标待标注语料初始为所述初始待标注语料集合中的任一待标注语料；

在对所述目标待标注语料完成语料标注后，从所述初始待标注语料集合中未进行语料标注的待标注语料中，确定与所述目标待标注语料相关性最小的待标注语料，并将该待标注语料确定为新的目标待标注语料；

返回所述输出一目标待标注语料，以对所述目标待标注语料进行语料标注的步骤，直到满足预设的标注结束条件为止。

可选地，所述从所述初始待标注语料集合中未进行语料标注的待标注语料中，确定与所述目标待标注语料相关性最小的待标注语料，包括：

获取所述目标待标注语料的分词集合；

针对所述初始待标注语料集合中未进行语料标注的每个待标注语料，通过以下公式计算该待标注语料与所述目标待标注语料的相关性：

其中，i_r表示所述初始待标注语料集合中第r个未进行语料标注的待标注语料与所述目标待标注语料的相关性；

TF_j表示所述分词集合中第j个分词在所述第r个未进行语料标注的待标注语料中的词频；

IDF_j表示所述分词集合中第j个分词在所述初始待标注语料集合中的逆向文件频率；

q表示所述分词集合中的分词总数。

可选地，所述获取所述目标待标注语料的分词集合，包括：

对所述目标待标注语料的分词进行去重操作以及去停用词操作后，获得所述目标待标注语料的分词集合。

可选地，在所述获取初始待标注语料集合的步骤之前，所述方法还包括：

获取原始待标注语料库；

将所述原始待标注语料库中的各篇原始语料按照预设条件进行拆分，以获得各篇原始语料对应的拆分语料集合；

对全部所述拆分语料集合中的各个拆分语料进行降维处理，并计算所述各个拆分语料之间的距离；

基于所述距离，对所述各个拆分语料进行聚类，聚类后获得的各个集合分别作为各个所述初始待标注语料集合。

根据本公开的第二方面，提供一种待标注语料的分配装置，所述装置包括：

第一获取模块，用于获取一初始待标注语料集合；

输出模块，用于输出一目标待标注语料，以对所述目标待标注语料进行语料标注，其中，所述目标待标注语料初始为所述初始待标注语料集合中的任一待标注语料；

确定模块，用于在对所述目标待标注语料完成语料标注后，从所述初始待标注语料集合中未进行语料标注的待标注语料中，确定与所述目标待标注语料相关性最小的待标注语料，并将该待标注语料确定为新的目标待标注语料，并触发所述输出模块输出一目标待标注语料，以对所述目标待标注语料进行语料标注，直到满足预设的标注结束条件为止。

可选地，所述确定模块包括：

获取子模块，用于获取所述目标待标注语料的分词集合；

计算子模块，用于针对所述初始待标注语料集合中未进行语料标注的每个待标注语料，通过以下公式计算该待标注语料与所述目标待标注语料的相关性：

q表示所述分词集合中的分词总数。

可选地，所述获取子模块用于：

可选地，所述装置还包括：

第二获取模块，用于在第一获取模块获取初始待标注语料集合之前，获取原始待标注语料库；

拆分模块，用于将所述原始待标注语料库中的各篇原始语料按照预设条件进行拆分，以获得各篇原始语料对应的拆分语料集合；

计算模块，用于对全部所述拆分语料集合中的各个拆分语料进行降维处理，并计算所述各个拆分语料之间的距离；

聚类模块，用于基于所述距离，对所述各个拆分语料进行聚类，聚类后获得的各个集合分别作为各个所述初始待标注语料集合。

根据本公开的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面所述方法的步骤。

根据本公开的第四方面，提供一种电子设备，包括：

第三方面所述的计算机可读存储介质；以及

一个或者多个处理器，用于执行所述计算机可读存储介质中的程序

在上述技术方案中，在对初始待标注语料集合中选取的目标待标注语料标注完成时，从初始待标注语料集合中选取与该目标待标注语料相关性最小的待标注语料作为下一新的目标待标注语料。因此，在语料标注的过程中，每次进行标注的语料都是与上一目标待标注语料相关性最小，即区别度最大的语料，从而可以避免对相似的待标注语料进行重复标注，有效降低人工标注的工作量。同时，也可以使得目标待标注语料分散地分布在语料空间中，通过少量的人工标注便可以实现对该语料空间中的语料的标注，进一步降低人工标注的工作量，同时可以提高基于该标注的语料进行训练的语料训练模型的精度，拓宽模型适用范围。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据本公开的一种实施方式提供的待标注语料的分配方法的流程图；

图2是根据本公开的另一种实施方式提供的待标注语料的分配方法的流程图；

图3是本公开的一种实施方式提供的待标注语料的分配装置的框图；

图4是本公开的另一种实施方式提供的待标注语料的分配装置的框图；

图5是根据一示例性实施例示出的一种电子设备的框图；

图6是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

图1所示，为根据本公开的一种实施方式提供的待标注语料的分配方法的流程图。如图1所示，所述方法包括：

在S11中，获取一初始待标注语料集合。其中，初始待标注语料集合可以为多个，在获取一初始待标注语料集合时，可以从该多个初始待标注语料集合中随机获取一个。

在S12中，输出一目标待标注语料，以对目标待标注语料进行语料标注，其中，所述目标待标注语料初始为所述初始待标注语料集合中的任一待标注语料。示例地，目标待标注语料为“商业养老保险资金和社保基金一样，都是老百姓的‘养命钱’、‘活命钱’，必须确保这些资金安全可靠运营”，对该目标待标注语料进行语料标注后所得的集合为{商业养老保险，资金，社保基金，老百姓，养命钱，活命钱，资金，运营}。

在S13中，在对目标待标注语料完成语料标注后，从初始待标注语料集合中未进行语料标注的待标注语料中，确定与目标待标注语料相关性最小的待标注语料，并将该待标注语料确定为新的目标待标注语料。

从所述初始待标注语料集合中未进行语料标注的待标注语料中，确定与所述目标待标注语料相关性最小的待标注语料的一种示例性实现方式如下，包括：

获取所述目标待标注语料的分词集合。其中，在对所述目标待标注语料进行语料标注后会获得一个分词集合。

在一实施例中，可以将对目标待标注语料进行语料标注后获得的分词集合作为目标待标注语料的分词集合。其中，在对目标待标注语料进行语料标注时，可以人工进行去重操作和/或去停用词操作，如上述示例，对目标待分析语料进行标注的过程中，人工进行去停用词操作，获得目标待标注语料的分词集合{商业养老保险，资金，社保基金，老百姓，养命钱，活命钱，资金，运营}。

在另一实施例中，可以对目标待标注语料的分词进行去重操作以及去停用词操作后，获得目标待标注语料的分词集合。示例地，对目标待标注语料进行语料标注获得一个分词集合{商业养老保险，资金，社保基金，老百姓，养命钱，活命钱，资金，运营}，对该分词集合中的分词进行去重操作以及去停用词操作后，获得分词集合{商业养老保险，资金，社保基金，老百姓，养命钱，活命钱，运营}，并将该分词集合作为目标待标注语料的分词集合，进一步降低分词集合的数据冗余度。示例地，可以通过停用词词表对目标待标注语料的分词进行去停用词操作。通过去重操作可以避免针对同一分词进行多次计算，节省计算时间，提高处理效率。通过去停用词操作可以避免针对停用词进行相关性计算，以避免不必要的计算过程，提高处理效率。

之后，根据所获取的目标待标注语料的分词集合，针对所述初始待标注语料集合中未进行语料标注的每个待标注语料，通过以下公式计算该待标注语料与所述目标待标注语料的相关性：

q表示所述分词集合中的分词总数。

其中，TF_j的计算方法如下：

NW(a_j)表示所述分词集合中第j个分词a_j在所述第r个未进行语料标注的待标注语料d_r出现的次数；

NL(d_r)表示所述第r个未进行语料标注的待标注语料d_r的字数。

IDF_j的计算方式如下：

ND(D)表示所述初始待标注语料集合D中待标注语料的总数；

ND_j(a_j)表示在所述初始待标注语料集合D中出现所述分词集合中第j个分词a_j的语料的总数。

示例地，初始待标注语料集合中一未进行语料标注的待标注语料2为“‘养命钱’最重要的是‘安全第一’，这样老百姓才有意愿购买。运营这类资金，不能期望高回报。总理明确要求，商业养老保险不能按照商业银行或开发性金融的操作方式，而是要遵循这个行业的商业化运作，实现保值和合理回报”。

分别计算目标待标注语料的分词集合中的分词与该待标注语料2的相关性。

其中，以目标待标注语料的分词集合中第一个分词a₁“商业养老保险”为例，该待标注语料2中共有91个文字，即NL(d₂)＝91；

“商业养老保险”在该待标注语料2中出现1次，即NW(a₁)＝1；

则

示例地，初始待标注语料集合共有1000篇待标注语料，即ND(D)＝1000；

其中，在初始待标注语料集合中共有10篇待标注篇语料中出现过“商业养老保险”，即ND₁(a₁)＝10；

则

则目标待标注语料的分词集合中第一个分词a₁“商业养老保险”与该待标注语料2的相关性为：i₂₁＝TF₁·IDF₁＝2/91。

之后，按照上述方式计算目标待标注语料的分词集合中的其他分词与待标注语料2之间的相关性，并将获得的目标待标注语料的分词集合中的各个分词与待标注语料2之间的相关性求和以确定该目标待标注语料与待标注语料2的相关性。之后，将所述初始待标注语料集合中未进行语料标注的待标注语料中，与所述目标待标注语料相关性最小的待标注语料确定为新的目标待标注语料。

在确定出新的目标待标注语料之后，返回所述输出一目标待标注语料，以对所述目标待标注语料进行语料标注的步骤，直到满足预设的标注结束条件为止。

其中，所述预设的标注结束条件可以是该语料标注模型的标注精度达到预设精度，也可以是已标注的语料的个数达到预设个数。

在一实施例中，预设的标注结束条件可以是该语料标注模型的标注精度达到预设精度。由于在语料标注的过程中，每次进行标注的语料都是与上一目标待标注语料相关性最小的语料，可以使得待标注语料分散在整个语料空间中，从而可以有效避免对相似的语料的重复标注。相较于现有技术，在语料训练模型的精度达到预设精度时，本公开中需要进行人工标注的待标注语料的总量大大降低，可以节省人工标注的工作量。

在另一实施例中，预设的标注结束条件可以是已标注的语料的个数达到预设个数。由于本公开中目标待标注语料分散地出现在语料空间中，则相较于现有技术，在对同等数量的待标注语料进行标注后，基于本公开的方法进行标注的语料进行训练的语料训练模型的精度更高。

可选地，如图2所示，在所述获取初始待标注语料集合的步骤之前，所述方法还包括：

在S21中，获取原始待标注语料库；

在S22中，将原始待标注语料库中的各篇原始语料按照预设条件进行拆分，以获得各篇原始语料对应的拆分语料集合。

其中，该预设条件可以是按照段落对原始语料进行拆分，也可以是按照句子对原始语料进行拆分，具体需要依据实际使用场景对原始语料进行拆分。示例地，原始语料中有4个句子，在按照句子对原始语料进行拆分时，可以获得包含4个拆分语料的拆分语料集合。

在S23中，对全部拆分语料集合中的各个拆分语料进行降维处理，并计算各个拆分语料之间的距离。

可选地，可以通过N-gram对各个拆分语料进行降维处理。示例地，拆分语料集合为S，S₁和S₂为拆分语料集合S中的两个拆分语料，且拆分语料S₁为“BABABCDCDEFCE”，S₂为“ABEDCEABAC”。通过N-gram对S₁和S₂进行降维处理，N表示对拆分语料进行降维处理时获得的每个词语的长度，示例地，N＝2时，对S₁和S₂进行降维处理后所得的词语集合为：

S₁＝{BA，AB，BA，AB，BC，CD，DC，CD，DE，EF，FC，CE}

S₂＝{AB，BE，ED，DC，CE，EA，AB，BA，AC}

之后，分别统计在S₁和S₂中出现词语的数量：

在S₁中：

AB	2
		BA	2
BC	1
		CD	2
DC	1
		DE	1
EF	1
		FC	1
CE	1

在S₂中：

AB	2
		BE	1
ED	1
		DC	1
CE	1
		EA	1
BA	1
		AC	1

之后，统计在S₁和S₂中都出现的词语，为“AB”、“BA”、“DC”、“CE”，其在S₁和S₂中分别出现的次数如下所示：

	S₁	S₂
			AB	2	2
BA	2	1
			DC	1	1
CE	1	1

之后，可以基于上述数据计算S₁和S₂之间的距离。

示例地，可以根据如下公式计算S₁和S₂之间的距离：

其中，dis(S₁,S₂)表示S₁和S₂之间的距离；

N-gram∈S₁,S₂表示在S₁和S₂中都出现的词语；

Num₁(N-gram)表示N-gram在S₁中出现的次数；

Num₂(N-gram)表示N-gram在S₂中出现的次数。

在上述示例中，S₁和S₂之间的距离为：

需要进行说明的是，在S₁和S₂中相同的词语越多、每个相同词语出现的次数越多，则S₁和S₂之间的距离越小。因此，在计算S₁和S₂之间的距离时，只需要保证该距离计算函数为与在S₁和S₂中相同的词语数目成正相关的函数即可。示例地，也可以通过如下公式计算S₁和S₂之间的距离：

在S24中，基于距离，对各个拆分语料进行聚类，聚类后获得的各个集合分别作为各个初始待标注语料集合。

示例地，可以基于所述距离，通过K-means进行聚类计算，使得聚类后所得的多个集合的并集为全部的拆分语料、任意两个集合的交集为空。

在上述技术方案中，通过对原始待标注语料库中的各篇语料进行降维及聚类处理，从而可以对原始待标注语料库中的各篇语料进行分类，使得相似的语料划分到同一初始待标注集合中，不相似的语料划分到不同的初始待标注集合中。因此，在基于初始待标注语料集合进行标注时，不同领域的工作人员可以根据自己擅长的领域对某一类别的语料进行标注，既可以提高人工标注的效率，又可以提高人工标注的准确度和一致性。

本公开还提供一种待标注语料的分配装置，如图3所示，该装置10包括：

第一获取模块101，用于获取一初始待标注语料集合；

输出模块102，用于输出一目标待标注语料，以对所述目标待标注语料进行语料标注，其中，所述目标待标注语料初始为所述初始待标注语料集合中的任一待标注语料；

确定模块103，用于在对所述目标待标注语料完成语料标注后，从所述初始待标注语料集合中未进行语料标注的待标注语料中，确定与所述目标待标注语料相关性最小的待标注语料，并将该待标注语料确定为新的目标待标注语料，并触发所述输出模块102输出一目标待标注语料，以对所述目标待标注语料进行语料标注，直到满足预设的标注结束条件为止。

可选地，所述确定模块103包括：

获取子模块，用于获取所述目标待标注语料的分词集合；

q表示所述分词集合中的分词总数。

可选地，所述获取子模块用于：

可选地，如图4所示，所述装置10还包括：

第二获取模块104，用于在第一获取模块获取初始待标注语料集合之前，获取原始待标注语料库；

拆分模块105，用于将所述原始待标注语料库中的各篇原始语料按照预设条件进行拆分，以获得各篇原始语料对应的拆分语料集合；

计算模块106，用于对全部所述拆分语料集合中的各个拆分语料进行降维处理，并计算所述各个拆分语料之间的距离；

聚类模块107，用于基于所述距离，对所述各个拆分语料进行聚类，聚类后获得的各个集合分别作为各个所述初始待标注语料集合。

图5是根据一示例性实施例示出的一种电子设备500的框图。如图5所示，该电子设备500可以包括：处理器501，存储器502，多媒体组件503，输入/输出(I/O)接口504，以及通信组件505。

其中，处理器501用于控制该电子设备500的整体操作，以完成上述的待标注语料的分配方法中的全部或部分步骤。存储器502用于存储各种类型的数据以支持在该电子设备500的操作，这些数据例如可以包括用于在该电子设备500上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器502可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件503可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器502或通过通信组件505发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口504为处理器501和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件505用于该电子设备500与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件505可以包括：Wi-Fi模块，蓝牙模块，NFC模块。

在一示例性实施例中，电子设备500可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的待标注语料的分配方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，例如包括程序指令的存储器502，上述程序指令可由电子设备500的处理器501执行以完成上述的待标注语料的分配方法。

图6是根据一示例性实施例示出的一种电子设备600的框图。例如，电子设备600可以被提供为一服务器。参照图6，电子设备600包括处理器622，其数量可以为一个或多个，以及存储器632，用于存储可由处理器622执行的计算机程序。存储器632中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理器622可以被配置为执行该计算机程序，以执行上述的待标注语料的分配方法。

另外，电子设备600还可以包括电源组件626和通信组件650，该电源组件626可以被配置为执行电子设备600的电源管理，该通信组件650可以被配置为实现电子设备600的通信，例如，有线或无线通信。此外，该电子设备600还可以包括输入/输出(I/O)接口658。电子设备600可以操作基于存储在存储器632的操作系统，例如Windows ServerTM，Mac OSXTM，UnixTM，LinuxTM等等。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，例如包括程序指令的存储器632，上述程序指令可由电子设备600的处理器622执行以完成上述的待标注语料的分配方法。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种待标注语料的分配方法，其特征在于，所述方法包括：

获取一初始待标注语料集合；

2.根据权利要求1所述的方法，其特征在于，所述从所述初始待标注语料集合中未进行语料标注的待标注语料中，确定与所述目标待标注语料相关性最小的待标注语料，包括：

获取所述目标待标注语料的分词集合；

q表示所述分词集合中的分词总数。

3.根据权利要求2所述的方法，其特征在于，所述获取所述目标待标注语料的分词集合，包括：

4.根据权利要求1-3中任一项所述的方法，其特征在于，在所述获取初始待标注语料集合的步骤之前，所述方法还包括：

获取原始待标注语料库；

5.一种待标注语料的分配装置，其特征在于，所述装置包括：

第一获取模块，用于获取一初始待标注语料集合；

6.根据权利要求5所述的装置，其特征在于，所述确定模块包括：

获取子模块，用于获取所述目标待标注语料的分词集合；

q表示所述分词集合中的分词总数。

7.根据权利要求6所述的装置，其特征在于，所述获取子模块用于：

8.根据权利要求5-7中任一项所述的装置，其特征在于，所述装置还包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤。

10.一种电子设备，其特征在于，包括：

权利要求9中所述的计算机可读存储介质；以及

一个或者多个处理器，用于执行所述计算机可读存储介质中的程序。