CN109522415B

CN109522415B - 一种语料标注方法及装置

Info

Publication number: CN109522415B
Application number: CN201811206272.1A
Authority: CN
Inventors: 林志伟; 肖龙源; 蔡振华; 李稀敏; 刘晓葳; 谭玉坤
Original assignee: Xiamen Kuaishangtong Technology Corp ltd
Current assignee: Xiamen Kuaishangtong Technology Corp ltd
Priority date: 2018-10-17
Filing date: 2018-10-17
Publication date: 2021-06-01
Anticipated expiration: 2038-10-17
Also published as: CN109522415A

Abstract

本发明公开了一种语料标注方法及装置，其通过对待处理的语料进行向量化处理，得到所述语料的文本向量；根据所述语料的文本向量，利用DBSCAN聚类算法对所述语料进行聚类处理，得到长尾类语料和待标注类语料；对于所述长尾类语料，返回再次聚类处理；对于所述待标注类语料，则进行设置标签，得到标注语料；最后将所有的标注语料进行合并，得到最终标注好的语料，无需多次调整聚类数量，算法更简单，标注效率更高，可靠性更好。

Description

一种语料标注方法及装置

技术领域

本发明涉及自然语言处理技术领域，特别是一种语料标注方法及其应用该方法的装置。

背景技术

语料库是语料库语言学研究的基础资源，也是经验主义语言研究方法的主要资源。传统的语料库主要应用于词典编纂，语言教学，传统语言研究，自然语言处理中基于统计或实例的研究等方面。随着互联网大数据及人工智能技术的发展，语料库也被广泛的应用。

语料库中存放的是在语言的实际使用中真实出现过的语言材料，例如直接从网页上获取的用户留言、客服对话等；语料库是承载语言知识的基础资源，但并不等于语言知识；真实语料需要经过加工，才能成为有用的资源，对真实语料的加工可包含除脏数据、语义标注、词性标记等，而在对语料进行标注时，往往需要靠人工或机器学习对各个语料数据进行标注。

利用机器学习对语料进行预标注通常有两种标注方法：

一是利用监督学习算法对语料中每条待标注数据直接预测；该方法需要依赖事先标注好的语料，同时数据标注的质量和算法的选择直接影响到预标注的精度。

二是利用无监督算法(聚类算法)对标注数据进行聚类，后对每一类进行标记；该方法无需依赖过多的先验信息可直接对语料进行标注，但后续需参入部分人工干预。

对于第二种标注方法，最常见的是以k-means算法为核心算法对语料进行预标注，但缺点是由于k-means要实现给定聚类数目，这样可能造成的结果是，先靠经验指定一个聚类数量，然后根据聚类效果再不停地调整聚类数量的值，直到调整到合适的值为止，整个过程过于冗余。

发明内容

本发明为解决上述问题，提供了一种语料标注方法及装置，其采用DBSCAN密度聚类算法对语料进行聚类和迭代标注，再对标注结果进行合并，无需多次调整聚类数量，算法更简单，标注效率更高。

为实现上述目的，本发明采用的技术方案为：

一种语料标注方法，其包括以下步骤：

a.对待处理的语料进行向量化处理，得到所述语料的文本向量；

b.根据所述语料的文本向量，利用DBSCAN聚类算法对所述语料进行聚类处理，得到长尾类语料和待标注类语料；

c.对于所述长尾类语料，返回步骤b；对于所述待标注类语料，则进行设置标签，得到标注语料；

d.将所有的标注语料进行合并，得到最终标注好的语料。

优选的，所述的步骤a中进一步包括：

a1.对待处理的语料进行分词处理，得到分词结果；

a2.利用预训练好的词向量模型将所述分词结果转化为词向量，得到所述语料的文本向量；其中，所述词向量模型采用word2vec模型。

优选的，所述的步骤b中，所述聚类处理是指对所述语料C_i执行DBSCAN聚类算法，得到k_i组待标注类语料和1组长尾类语料；其中，i表示第i轮聚类处理，且k_i>0。

优选的，所述的步骤c中，所述待标注类语料之间的标签可重复。

优选的，所述的步骤c中，当所述长尾类语料的数量或比例小于预设阈值时，自动停止所述聚类处理；或者，采用人工手动停止所述聚类处理。

优选的，所述的步骤c中，对所述待标注类语料进行设置标签，是通过对所述待标注类语料进行命名实体识别，以确定出所述待标注类语料中包含的命名实体，再根据所述命名实体对所述待标注类语料进行分类以及根据所属类别进行设置标签。

优选的，所述待标注语料包括行业专用语料和通用语料；所述长尾类语料是指除了所述专用语料和所述通用语料之外的其他语料。

对应的，本发明还提供一种语料标注装置，其包括：

文本向量化模块，用于对待处理的语料进行向量化处理，得到所述语料的文本向量；

聚类处理模块，其根据所述语料的文本向量，利用DBSCAN聚类算法对所述语料进行聚类处理，得到长尾类语料和待标注类语料；

语料标注模块，对于所述长尾类语料，返回聚类处理模块；对于所述待标注类语料，则进行设置标签，得到标注语料；

语料合并模块，用于将所有的标注语料进行合并，得到最终标注好的语料。

本发明的有益效果是：

(1)本发明的语料标注方法，采用DBSCAN密度聚类算法对语料进行聚类和迭代标注，再对标注结果进行合并，无需多次调整聚类数量，算法更简单，标注效率更高；

(2)本发明通过采用DBSCAN密度聚类算法将语料划分为待标注类语料和长尾类语料，对待标注类语料进行直接标注，对长尾类语料进行迭代聚类处理和再次标注，直到满足预设条件即终止迭代或者手动停止迭代，保证了聚类处理后得到的语料数据可覆盖绝大多数类型的标注语料，避免因盲目剔除而引起的语料数据不完全的问题，算法简单且可靠性好；

(3)本发明基于命名实体识别对待标注类语料进行分类和设置标签，从而获得重复量较小的专用语料和通用语料，不仅可剔除大量重复的目标语料，供后续标注处理或其他处理，从而大幅度的减少重复的人工处理工作。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明一种语料标注方法的流程简图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图及实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明的一种语料标注方法，其包括以下步骤：

d.将所有的标注语料进行合并，得到最终标注好的语料。

所述的步骤a中进一步包括：

a1.对待处理的语料进行分词处理，得到分词结果；本实施例中，所述分词处理采用结巴(Jieba)分词技术，Jieba分词实现了对中文句子按词语粒度进行拆分，支持三种分词模式：一是精确模式，试图将句子最精确地切开，适合文本分析；二是全模式，把句子中所有的可以成词的词语都扫描出来,速度非常快，但是不能解决歧义；三是搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。同时还能支持繁体分词和自定义词典。

a2.利用预训练好的词向量模型将所述分词结果转化为词向量，得到所述语料的文本向量；其中，所述词向量模型采用word2vec模型，word2vec也叫word embeddings，中文名“词向量”，作用就是将自然语言中的字词转为计算机可以理解的稠密向量(DenseVector)。word2vec主要分为CBOW(Continuous Bag of Words)和Skip-Gram两种模式。CBOW是从原始语句推测目标字词；而Skip-Gram正好相反，是从目标字词推测出原始语句。CBOW对小型数据库比较合适，而Skip-Gram在大型语料中表现更好，本领域技术人员可根据实际需要进行选择任一模式。

所述的步骤b中，所述聚类处理是指对所述语料C_i执行DBSCAN聚类算法，得到k_i组待标注类语料和1组长尾类语料；其中，i表示第i轮聚类处理，且k_i>0。本实施例中，所述待标注语料包括行业专用语料和通用语料；所述长尾类语料是指除了所述专用语料和所述通用语料之外的其他语料。

所述的步骤c中，对于所述长尾类语料返回步骤b进行重新聚类处理；同时，对于所述待标注类语料则进行设置标签；对所述长尾类语料的处理和对所述待标注类语料的处理可同时进行，也可先后进行，先后顺序可根据需要进行调整；或者，也可在停止聚类处理后，再统一对所有的待标注语料进行设置标签，不以此为限。并且，所述待标注类语料之间的标签可重复。优选的，当所述长尾类语料的数量或比例小于预设阈值时，自动停止所述聚类处理；或者，采用人工手动停止所述聚类处理。

本实施例中，对所述待标注类语料进行设置标签，是通过对所述待标注类语料进行命名实体识别，以确定出所述待标注类语料中包含的命名实体，再根据所述命名实体对所述待标注类语料进行分类以及根据所属类别进行设置标签。

以下结合医疗美容咨询聊天机器人场景中用户意图语料标注场景对本发明的算法流程进行举例说明如下：

(1)如表1所示，对原始语料进行分词；

表1-语料分词

(2)如表2所示，将分词后的语料，输入预训练好的word2vec模型中，得到文本向量；

表2-文本向量化

分词结果	文本向量
		你们/公司/地址/在哪里/啊	[0.7,0.1,0.05,0.1]
怎么/收费/的/呢	[0.8,0.05,0.1,0.1]
		你们/上班/时间/是/什么/时候/？	[0.8,0.05,0.09,0.01]
地址/在哪里/，/方便/告诉/我/下/吗	[0.8,0.06,0.1,0.01]
		你们/这边/割双眼皮/安不安全/？/	[0.1,0.6,0.11,0.02]
你们/这/割双眼皮/有/出过事？	[0.09,0.55,0.1,0.01]
		我/想要/脸部/祛痘	[0.01,0.08,0.9,0.1]
双眼皮手术/要做/多久	[0.01,0.09,0.7,0.11]
		Hello/在吗/？	[0.02,0.08,0.99,0.1]
我/看下/情况/吧/，/到时候/再说	[0.02,0.08,0.1,0.91]
		哦/，/好的/，/谢谢你	[0.03,0.1,0.1,0.81]
你好	[0.01,0.07,0.1,0.9]

(3)利用DBSCAN算法把向量化后的语料自动划分为4类(3类待标注类语料+1类长尾类语料)，如表3所示：

表3-第一轮聚类处理

(4)对3类待标注类语料(非长尾类语料)进行标注，如表4所示：

表4-第一轮语料标注

(5)再次对长尾类语料单独执行DBSCAN算法

表5-第二轮聚类处理

(6)再次对第二轮聚类处理得到的待标注类语料(非长尾语料)进行标注，如表6所示：

表6-第二轮语料标注

(7)停止迭代，合并标注语料，如表7所示：

表7-合并后的标注语料

表8-剩余的长尾类语料

分词结果	文本向量	标签
			Hello/在吗/？	[0.02,0.08,0.99,0.1]	-
我/看下/情况/吧/，/到时候/再说	[0.02,0.08,0.1,0.91]	-
			哦/，/好的/，/谢谢你	[0.03,0.1,0.1,0.81]	-
你好	[0.01,0.07,0.1,0.9]	-

与所述标注方法相对应的，本发明还提供一种语料标注装置，其包括：

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

并且，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外，本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述说明示出并描述了本发明的优选实施例，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种语料标注方法，其特征在于，包括以下步骤：

a .对待处理的语料进行向量化处理，得到所述语料的文本向量；

b .根据所述语料的文本向量，利用DBSCAN聚类算法对所述语料进行聚类处理，得到长尾类语料和待标注类语料；

所述的步骤b中，所述聚类处理是指对所述语料Ci执行DBSCAN聚类算法，得到ki组待标注类语料和1组长尾类语料；其中，i表示第i轮聚类处理，且ki>0；

c .对于所述长尾类语料，返回步骤b；对于所述待标注类语料，则进行设置标签，得到标注语料；

对所述待标注类语料进行设置标签，是通过对所述待标注类语料进行命名实体识别，以确定出所述待标注类语料中包含的命名实体，再根据所述命名实体对所述待标注类语料进行分类以及根据所属类别进行设置标签；

所述的步骤c中，所述待标注类语料之间的标签能够重复；

d .将所有的标注语料进行合并，得到最终标注好的语料。

2.根据权利要求1所述的一种语料标注方法，其特征在于：所述的步骤a中进一步包括：

a1 .对待处理的语料进行分词处理，得到分词结果；

a2 .利用预训练好的词向量模型将所述分词结果转化为词向量，得到所述语料的文本向量；其中，所述词向量模型采用word2vec模型。

3.根据权利要求1所述的一种语料标注方法，其特征在于：所述的步骤c中，当所述长尾类语料的数量或比例小于预设阈值时，自动停止所述聚类处理；或者，采用人工手动停止所述聚类处理。

4.根据权利要求1至3任一项所述的一种语料标注方法，其特征在于：所述待标注语料包括行业专用语料和通用语料；所述长尾类语料是指除了所述专用语料和所述通用语料之外的其他语料。

5.执行权利要求1至4任一项一种语料标注方法的一种语料标注装置，其特征在于，包括：

其中，所述聚类处理是指对所述语料Ci执行DBSCAN聚类算法，得到ki组待标注类语料和1组长尾类语料；其中，i表示第i轮聚类处理，且ki>0；

其中，对所述待标注类语料进行设置标签，是通过对所述待标注类语料进行命名实体识别，以确定出所述待标注类语料中包含的命名实体，再根据所述命名实体对所述待标注类语料进行分类以及根据所属类别进行设置标签；

所述待标注类语料之间的标签能够重复；