CN111046180A

CN111046180A - 一种基于文本数据的标签识别方法

Info

Publication number: CN111046180A
Application number: CN201911231843.1A
Authority: CN
Inventors: 简仁贤; 王海波
Original assignee: Emotibot Technologies Ltd
Current assignee: Emotibot Technologies Ltd
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2020-04-21

Abstract

本发明公开了一种基于文本数据的标签识别方法，包括步骤一、利用标注好标签的训练数据训练CRF模型；步骤二、将待识别标签的文本数据输入训练完成后的CRF模型进行标签识别，输出CRF模型识别出的一个或多个待选标签；步骤三、对一个或多个待选标签进行聚类操作，输出标签簇；步骤四、对每个标签簇选择距离该标签簇中心位置最近的待选标签作为目的标签输出。本发明通过采用CRF模型，仅需对模型训练一次，即可将CRF模型应用于不同的领域的文本数据中的标签识别中，泛化能力强，识别出的标签语义完整。

Description

一种基于文本数据的标签识别方法

技术领域

本发明属于文本标签自动识别技术领域，尤其涉及一种基于文本数据的标签识别方法。

背景技术

随着互联网尤其是移动互联网的普及，文本数据无处不在，比如京东上的一个热销商品有几万甚至几十万的评论，大众点评上一个网红店有几万的评论，如何从这些无结构的文本数据中发现用户所关注的点，形成标签，为商家提供进一步决策的依据。比如有一条某餐馆的评论“服务态度好。环境不错，适合朋友小聚。唯一不满意的就是菜有些难吃，希望商家改进。”，从这条评论我们可以得到“服务态度好”、“环境不错”、“适合朋友小聚”、“菜有些难吃”等标签信息。如何根据文本内容自动发现这些标签是一个挑战性的问题，传统的做法主要有以下几种：

1.用规则匹配，为每一个标签写出匹配规则

2.给每一个维度训练一个分类器，需要大量的分类器

3.利用分词，将其中的热词(频率较高或者tfidf值较高)作为标签

这些方法有以下问题和缺点：

1.用规则匹配需要事先知道有哪些标签，需要人工进行分析统计；泛化能力弱，局限于某一领域，如果换一个领域，需要重新统计新的标签；

2.为每一个标签准备大量的标注数据训练分类器，每一个领域通常有几十个标签，为此标注的工作量很大；泛化能力弱，局限于某一领域，如果换一个领域，需要重新统计新的标签，并为之标注新的训练数据；

3.热词发现的方法虽然可以发现其中的高频关键词，但是由于进行了分词，完整的标签被切分为多个词汇，通过其中的某个词汇来描述标签，语义表征不完整；例如：标签“服务态度好”被切分成“服务”、“态度”、“好”等词汇，无论用哪一个词汇也难以表征“服务态度好”的语义。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于文本数据的标签识别方法，通过采用CRF模型，仅需对模型训练一次，即可将CRF模型应用于不同的领域的文本数据中的标签识别中，泛化能力强，识别出的标签语义完整。

为解决上述技术问题，本发明采用的技术方案是：一种基于文本数据的标签识别方法，包括以下步骤，

步骤一、利用标注好标签的训练数据训练CRF模型；

步骤二、将待识别标签的文本数据输入训练完成后的CRF模型进行标签识别，输出CRF模型识别出的一个或多个待选标签；

步骤三、对一个或多个待选标签进行聚类操作，输出标签簇；

步骤四、对每个标签簇选择距离该标签簇中心位置最近的待选标签作为目的标签输出。

上述一种基于文本数据的标签识别方法，所述步骤一中利用标注好标签的训练数据训练CRF模型，包括：

步骤101、获取n对训练数据{x_i,y_i}，求解目标函数：

找出最优w；

步骤102、将步骤101找出的w返回至CRF模型：p(y|x,w)，

w^T是向量w的转置，y'是序列x所有可能的标注，F(x,y)是标注序列y在x上的特征向量；获得训练后的CRF模型。

上述一种基于文本数据的标签识别方法，所述步骤101中找出最优w 时，采用随机梯度下降(SGD)的方法来找到最优的w。

上述一种基于文本数据的标签识别方法，所述步骤三中对一个或多个待选标签进行聚类操作时，采用密度算法。

上述一种基于文本数据的标签识别方法，所述步骤二中进行标签识别时包括：

步骤201、对输入的文本数据进行BMESO标注操作，获得多个标注序列；

步骤202、通过Viterbi算法来寻找最优标注序列，所述最优标注序列是使CRF模型p(y|x,w)值最大的标注序列。

本发明与现有技术相比具有以下优点：

1.本发明所述方法只需对CRF模型训练一次，即可将训练完成的模型应用到不同的领域，泛化能力强。

2.本发明所述方法通过对CRF模型识别出的待选标签进行聚类，取距离标签簇中心位置最近的待选标签作为目的标签输出，最终输出的标签更加精准，语义也更加完整，克服了基于分词的热词发现方法语义表征不完整的缺点。

3.本发明所述方法通过采用CRF模型识别，可以自动根据文本数据所呈现的统计特征发现新的标签，无需人工实现分析定义标签体系。

下面通过实施例，对本发明的技术方案做进一步的详细描述。

具体实施方式

一种基于文本数据的标签识别方法，包括以下步骤：

步骤一、利用标注好标签的训练数据训练CRF(条件随机场)模型；

本实施例中，所述步骤一中利用标注好标签的训练数据训练CRF模型，包括：

步骤101、获取n对训练数据{x_i,y_i}，求解目标函数：

找出最优w；

步骤102、将步骤101找出的w返回至CRF模型：p(y|x,w)，

需要说明的是，所述训练数据可以通过将文本数据潜在的标签通过 TAG标注出来形成，例如对“服务态度好。环境不错，适合朋友小聚。唯一不满意的就是菜有些难吃，希望商家改进。”这段文本数据进行标注，则结果如下：“<START:TAG>服务态度好<END>。<START:TAG>环境不错 <END>，<START:TAG>适合朋友小聚<END>。唯一不满意的就是<START:TAG>菜有些难吃<END>，希望商家改进。”

在对文本数据标注完成后，在训练CRF模型时，将标注的文本数据转换为BMESO标注格式的数据，具体地说，对文本数据中的每个字符进行标注。BMESO，其中B(Begin)表示是标签的开始字符，M(Middle)表示是标签的中间字符，E(End)表示是标签的结束字符，S(Single)表示单个字符组成的标签。对于非标签的字符，可以用O(Other)进行标注，表示不属于标签的部分。比如“唯一不满意的就是菜有些难吃，希望商家改进。”，可以标注为“唯O/一O/不O/满O/意O/的O/就O/是O/菜B/有M/些M/难M/ 吃E/，O/希O/望O/商O/家O/改O/进O/。O”，其中BME合起来，得到“菜有些难吃”，表示文本数据中包含的标签是“菜有些难吃”。

所述{x_i,y_i}中的x_i代表文本数据，y_i为x_i的BMESO标注的标注序列，例如“唯O/一O/不O/满O/意O/的O/就O/是O/菜B/有M/些M/难M/吃E/， O/希O/望O/商O/家O/改O/进O/。O”的y为“OOOOOOOOBMMMEOOOOOOOO”。

本实施例中，所述步骤101中找出最优w时，采用随机梯度下降(SGD) 的方法来找到最优的w。

本实施例中，所述步骤三中对一个或多个待选标签进行聚类操作时，采用密度算法。所述密度算法可以为DBSCAN算法、OPTICS算法或DENCLUE 算法。

本实施例中，所述步骤二中进行标签识别时包括：

步骤202、通过Viterbi算法来寻找最优标注序列，所述最优标注序列是使p(y|x,w)值最大的标注序列。

需要说明的是，找到最优标注序列之后，再通过最优标注序列其中的 BME或者S标注来精准地提取输入的文本数据中的字符，通过BME标注提取出的字符组合成待选标签，通过S标注提出的字符单个为待选标签。

例如“我O/喜O/欢O/歌S”，其中S表示单个字符标签，这里待选标签是“歌”。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何限制，凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构变化，均仍属于本发明技术方案的保护范围内。

Claims

1.一种基于文本数据的标签识别方法，其特征在于：包括以下步骤，

步骤一、利用标注好标签的训练数据训练CRF模型；

2.按照权利要求1所述的一种基于文本数据的标签识别方法，其特征在于：所述步骤一中利用标注好标签的训练数据训练CRF模型，包括：

步骤101、获取n对训练数据{x_i,y_i}，求解目标函数：

找出最优w；

步骤102、将步骤101找出的w返回至CRF模型：p(y|x,w)，

3.按照权利要求2所述的一种基于文本数据的标签识别方法，其特征在于：所述步骤101中找出最优w时，采用随机梯度下降(SGD)的方法来找到最优的w。

4.按照权利要求1、2或3所述的一种基于文本数据的标签识别方法，其特征在于：所述步骤三中对一个或多个待选标签进行聚类操作时，采用密度算法。

5.按照权利要求1、2或3所述的一种基于文本数据的标签识别方法，其特征在于：所述步骤二中进行标签识别时包括：