CN113065341A

CN113065341A - 一种环境类投诉举报文本自动标注和分类方法

Info

Publication number: CN113065341A
Application number: CN202110274415.8A
Authority: CN
Inventors: 范青武; 杨凯; 陈�光; 王子栋
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-03-14
Filing date: 2021-03-14
Publication date: 2021-07-02

Abstract

本发明提供一种环境类投诉举报文本自动标注和分类方法，属于文本特征提取与文本分类领域。本发明通过从大量无标签数据中提取出不同领域对应的特征触发词，构建出对应领域特征词典；利用词典和文本相似度计算可以对不同领域的文本进行自动标注，将无标签数据转化为有标签数据，并利用其对神经网络进行训练，得到合适的分类模型。相比于现有技术，本发明减少了由人工标注数据所引起的误差，节省人力与时间；避免了无监督学习方式带来的准确率低、模型复杂、算力要求高等问题；构建的分类模型具有较强的泛化能力，并且可以在模型部署上线后，不断进行升级与改进。

Description

一种环境类投诉举报文本自动标注和分类方法

技术领域

本发明涉及文本特征提取与文本分类领域，具体涉及一种环境类投诉举报文本自动标注和分类方法。

背景技术

涉及环境类的监督举报类型多种多样，将投诉举报经过分类，快速准确定位投诉原因后，再交由相应主管部门会提升一定的事件处理效率。但就目前所获取到的数据来看，绝大多数的投诉数据没有标签，再结合投诉举报文本具有口语化严重、表述不清的特点，直接构建分类器面临着诸多困难；而通过人工进行标注开销昂贵，费时费力，且容易受到标注者主观的影响。因此，本发明提出将自动标注与深度学习模型相结合，实现投诉举报类文本自动分类的任务。

投诉举报分类问题的实质就是文本分类问题。针对文本分类领域，目前相关的工作主要分为两种方式：基于知识工程的分类方法和基于机器学习的分类方法。基于知识工程等方法要求在领域专家的辅助下对每一个分类的特征进行人工判定，给出识别规则，这种方法耗时耗力，并且很依赖专家的水平。随着科学技术的不断发展，很多学者提出利用机器学习的方法实现文本分类，针对特定领域实现了投诉举报文本的自动分类功能，一定程度上节省了人力物力。

目前在文本分类研究领域中，针对投诉举报文本进行分类的研究不多，并且都只集中在少数特定领域，并没有关于环境类投诉举报文本进行专门研究的先例，而且环境类投诉举报文本自动分类尚面临如下问题：

1)不同领域、行业所存在的问题各不相同，例如电信行业的投诉信息往往会包含通话、手机信号、网络质量等大量相关的专业词汇；而环境类的投诉信息更多的是有关大气污染、噪音污染等的描述。因此，根据某一领域建立起的分类模型其普适性就显得较差。

2)投诉举报文本存在语句冗长、表述不清、语法随意等问题。例如，有关水环境的投诉举报文本大概率会包括“污水”、“污染”等词汇，这些词汇并不能反映水污染具体原因。

3)针对水环境领域，结合从相关部门获取的数据来看，仅有少部分数据带有污染源类别标注，并且其分类模式较为粗放，仅有“工业废水”、“矿山废水”、“生活废水”、“其他”四大类。这种分类体系无法快速准确地根据其所分类定位问题所在，给处理污染事件的相关工作人员带来了一定的困难。

综上所述，绝大多数的环境类投诉举报数据没有标签，为文本分类任务带来了巨大的困难。传统的人工标注方式开销昂贵，费时费力，且容易受到标注者主观的影响，而直接利用深度学习网络搭建分类器，则会面临模型复杂、算量巨大的问题。所以，发明一种环境类投诉举报文本自动标注和分类方法具有重要的意义。

投诉举报文本的口语化、非结构化等特点使得仅依靠少量带有标签的样本进行监督学习的方式往往不具备较强的泛化能力；选择不依赖标签的无监督学习，则需要面临搭建复杂的深度神经网络的问题，况且，这些无标签数据又来源于不同的领域，而这些不同的领域又拥有各自独特的知识表达方式，对于机器学习模型来说，要解决上述问题，需要花费大量算力和时间去学习该领域独有的特征，并且无法保证训练得到的模型的性能。

发明内容

针对以上问题，本发明提供一种可以对环境类投诉举报文本进行自动标注和分类的方法，能够解决环境类投诉举报数据标签缺失以及无法根据污染源类型自动分类的问题，具体包括以下步骤：

S1：从海量无标签数据中进行随机抽样，构成一定规模的样本集；

S2：对样本数据进行预处理，包括中文分词、去停用词、滤除过短文本。

S3：利用Single-Pass算法对描述相似的文本进行聚类得到各种话题簇；

S4：分别计算各簇中每个词语的信息熵，将含信息量大、可以较为明显反映出投诉主要问题所在的词语提取出来，构建领域关键词典；

S5：通过相似度计算，从维基百科语料库中提取出近义词，扩展领域关键词典，进一步收录大量未登录词，提高领域关键词典的覆盖率；

S6：将领域关键词典作为自动分类的依据来为大量无标签数据进行标注；

S7：通过深度学习网络TextCNN对数据进行特征提取，进行监督学习，构建分类模型。相比于现有技术，本发明针对投诉举报构建专用词典可以实现对大量无标签数据进行标注的功能，为有监督学习创造了样本数据。相比于直接进行无监督学习，本方法降低了深度学习网络模型的复杂程度与提取特征的计算量。本发明可以通过大量无标签数据中提取出不同领域对应的特征触发词，并构建出对应领域特征词典；利用词典和文本相似度计算可以对不同领域的文本进行自动标注，将无标签数据转化为有标签数据，并利用其对神经网络进行训练，得到合适的分类模型。本发明的有益效果为：

(1)减少了由人工标注数据所引起的误差，节省人力与时间；

(2)避免了无监督学习方式带来的准确率低、模型复杂、算力要求高等问题；

(3)构建的分类模型具有较强的泛化能力，并且可以在模型部署上线后，不断进行升级与改进。

本发明以水环境类投诉举报为实施例，因此，具体到实施例中，在上述方法的

附图说明

图1为本发明所提出的自动标注和分类方法的流程示意图

图2为TextCNN网络模型结构图

具体实施方式

下面将结合本发明的附图，以水环境类投诉举报数据为实施例，对本发明中包含的技术路线进行完整的描述。本文中所描述的实施例仅是本发明中的一部分实施例，因此，本领域中其他研究人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。

参阅图1，该图为本发明所提出的自动标注和分类方法的流程示意图，包括如下步骤：

步骤S1：从海量无标签数据中进行随机抽样，构成一定规模的样本集；

步骤S2：对样本数据进行预处理，包括中文分词、去停用词。

步骤S3：利用Single-Pass算法对描述相似的文本进行聚类得到各种话题簇；

步骤S4：将可以较为明显反映投诉主要问题的词语提取出来，构建领域关键词典；

步骤S5：通过相似度计算，从维基百科语料库中提取出近义词，扩展领域关键词典，进一步收录大量未登录词，提高领域关键词典的覆盖率；

步骤S6：将领域关键词典作为自动分类的依据来为大量无标签数据进行标注；

步骤S7：通过深度学习网络TextCNN对数据进行特征提取，进行监督学习，构建分类模型。

在本发明中，步骤S2预处理包括：

步骤S201针对原始语料，采用Python的第三方库Jieba进行中文分词；

步骤S202引入中文停用词表，去除语料中一些无意义的功能词，提高工作效率；

步骤S203滤除经过步骤S201、S202后长度小于5个字的语句。有效地将较短的、无意义的投诉举报文本去除掉以避免对后续模型准确率的影响。

步骤S3为聚类过程，目的是为了将无标签的投诉举报数据根据其内在结构、属性、信息进行归类。在本发明的实施例中，根据水环境投诉举报文本中的污染源类型将数据划分为不同的簇，从而便于后续从不同的簇中进行特征提取。该过程主要包括以下步骤：

步骤S301，从输入文本序列D＝D(d₁，d₂，...，d_n)中选择第一条文本d₁作为第一个话题簇c1；

步骤S302，选择第二条文本d₂，根据下面公式，计算d₂与c₁中所有文本的相似度值并求平均数，得到Sim_avg(d₂，c₁)；

上述公式中，w_1i与w_2i为分别代表了文档d₂和c₁中的向量；

步骤S303，若Sim_avg(d₂，c₁)大于相似度阈值Th，则将d₂归入话题簇c₁，跳转至步骤S305，否则跳转至步骤S304；

步骤S304，以d₂为基础创建新的话题簇c₂，跳转至步骤S306；

步骤S305，取d₃，重复步骤S302

步骤S306，取d₃，计算d₃与目前所有话题簇，即c₁和c₂中所有文本的相似度值并求平均数，得到Sim_avg(d₃，c₁)，Sim_avg(d₃，c₂)

步骤S307，若MAX(Sim_avg(d₃，c₁)，Sim_avg(d₃，c₂))≥Th，则将d₃归入具有最大相似度值的话题簇中，否则以d₃创建新的话题簇；

步骤S308，等待下一篇文档进入。

步骤S4和S5分别为构建、扩充领域特征词典。在本发明中，领域特征词典的作用是实现自动标注功能。

步骤S401，对步骤S3得到的话题簇分别进行词频统计，得到第i个簇中所有词汇的频次，记作c_i＝c(p₁，p₂，...，p_n)，其中p_j(j＝1，2，...，n)代表该簇中第j个词汇出现的频次，也即TF值；

步骤S402，再根据公式(2)计算c_i中所有词汇的IDF值，记作c_i＝c(q₁，q₂，...，q_n)，其中q_j(j＝1，2，…，n)代表该簇中第j个词汇的IDF值；

其中，N代表语料库中文本的总数，N(x)代表包含词语x的文本总数。

步骤S403，结合每个词语的词频及TF-IDF值，筛选出一批词频高、特征清晰的领域特征词，以这些词作为种子词，构建细胞词库。

这些领域特征词是通过投诉举报文本集经过聚类、词频统计得到的，由于自身数据集规模不大，导致种子词库包含的领域特征词较少，无法全面地描述领域属性。因此，在利用投诉举报文本集建立的种子词库基础之上，引入通过维基百科语料库训练得来的词向量模型进行同义词扩展，可以使词库更加丰富、全面。

更进一步，在步骤S5中，遍历步骤S4中得到的种子词库中的领域特征词，根据公式(3)计算外部词库中与种子词库领域特征词的相似度值。将高于阈值的词汇填充到词典中，使得词典进一步丰富。

其中，S(D₁，D₂)表示任意两个文档D₁和D₂文本相似度，w_1i与w_2i为分别代表了文档D₁和D₂中的向量。

以步骤S4中得到的领域词典中的领域关联词为细胞词库，遍历词库中所有已存在的种子词，获取与种子词相似度高于阈值的词汇填充到领域特征词典中，使得领域词典进一步丰富。至此，领域特征词典构建完毕。

更进一步，步骤S6目的是实现通过领域特征词典对无标签数据进行标注。标注的详细过程如下：

步骤S601，设定备选列表R，未经标注的文本序列D＝D(d₁，d₂，...，d_n)，相似度阈值Th，领域词典Dict＝{K₁:V₁，K₂:V₂，...，K₉:V₉}，其中，{K_i:V_i，i∈1，2，...，9}表示第i组污染源类型及其对应的触发词组集合；

步骤S602，选取文本d₁，计算d₁与触发词组V_i7中所有触发词的相似度值，得到Sim_max(1，i)，代表第1条文档与第i组触发词的最大相似度值，以此来代表d₁与V_i的关联程度；

步骤S603，若Sim_max(1，i)≥Th，则将V_i所对应的污染源类别K_i添加至备选列表R中，否则说明该文本与当前污染源类别没有太大关联。

步骤S604，改变i的取值循环步骤S601，直至计算结束；

步骤S605，若遍历i值后，备选列表R仍为空，则说明该文本无法通过有限的信息为其进行标注，需要人工处理。

步骤S606，若备选列表不为空，选出最大的Sim_max(1，i)值，其对应的K_i代表着与d₁最具明显关联性的污染类型；

步骤S607，将d₁标注为K_i，完成本轮自动标注，进行下一轮循环。

步骤S608，最终的输出为对应文本序列顺序的标签序列K＝{d₁:K₁，d₂:K₂，...d_n:K_n}，其中，d_iK_i(i＝1，2，...，n)代表第i条文本d_i所对应的标签名K_i。

更进一步，步骤S7的目的是利用经过步骤S6自动标注的有标签文本数据来训练神经网络。本发明使用TextCNN作为进一步提取投诉举报文本中的高维特征的神经网络，构建了由三层不同卷积核尺寸的一维卷积层、三层最大池化层的TextCNN模型，可以提高分类的准确性和泛化能力。

本发明中所构建的深度神经网络TextCNN主要网络结构如附图2所示，包括输入层、卷积层、池化层、输出层。

步骤S701，神经网络模型的第一层为输入层。输入层输入为n*k的矩阵，其中n为投诉举报文本经过预处理后的词语数，k为每个词语对应的词向量维度。为了使向量长度一致，需要对向量化后的文本进行填充(Padding)操作，使得每个句子的长度都为n，对于太长的句子则进行截断。每条投诉举报文本可表示为：

其中，

表示句子中的第i个词汇的k维词嵌入，

运算符表示将每个词向量进行拼。对于句子词汇量小于n的语句，采用k维零向量进行补齐；对于词汇量大于n的语句，则进行截断，使每个句子都可以表示为一个n*k的矩阵。

步骤S702中，神经网络模型的第二层为卷积层。在一条投诉举报文本中，相邻的词语关联性总是很高的，因此可以通过一维卷积来提取语句中的特征。如附图2所示，本文设计了三种不同规模的卷积核，分别是3×k，4×k，5×k，卷积核的宽度固定为词向量维度k，不同高度的卷积核可以帮助模型在不同长度的上下文中提取特征。

步骤S703中，神经网络模型的第三层池化层目的是将经过卷积得到的向量进行特征降维和数据压缩，这样可以减少过拟合，提高模型的容错性。如附图2所示，本文采用了最大池化(Max Pooling)操作，即从卷积操作后产生的特征向量中筛选出最大的特征，然后将特征拼接起来，达到将不同长度的句子通过池化成为定长的向量表示。

步骤S704，神经网络模型的最后一层全连接的softmax层，可以输出预期分类类别的概率。

步骤S705将经过本发明自动标注方法标注的数据作为输入，实现有监督学习，从而提高模型的各项性能指标。

综上，本发明提出通过无监督聚类从大批量无标签数据中提取粗粒度特征词，再借助维基百科语料库通过语义相似度计算对特征词进行扩展，构建领域特征词典，并利用相似度计算实现对无标签数据的自动标注；使用经过自动标注的数据训练得到的神经网络模型具有更好的泛用性和较高的准确率。

本发明所展现的投诉举报自动标注和分类的解决方案有助于相关部门节省人力物力，并快速精准定位到问题所在，从而有针对性地安排人员妥善处理。

Claims

1.一种环境类投诉举报类文本自动标注和分类的方法，其特征在于：具体包括以下步骤：

S2：对样本数据进行预处理，包括中文分词、去停用词、滤除过短文本；

S6：将领域关键词典作为自动分类的依据为大量无标签数据进行标注；

S7：通过深度学习网络TextCNN对数据进行特征提取，进行监督学习，构建分类模型。

2.按照权利要求1所述的一种环境类投诉举报类文本自动标注和分类的方法其特征生在于：，

所述步骤S2的预处理过程包括：

S201针对原始语料，采用Python的第三方库Jieba进行中文分词；

S202引入中文停用词表，去除语料中一些无意义的功能词，提高工作效率；

S203滤除经过步骤S201、S202后长度小于5个字的语句。

3.按照权利要求1所述的一种环境类投诉举报类文本自动标注和分类的方法，其特征在于：

所述步骤S3、S4和S5共同为构建领域特征词典的过程；步骤S3利用Single-Pass算法对少量数据进行聚类，提取粗粒度的特征词，构建种子词库；具体步骤为：

步骤S301，从输入文本序列D＝D(d₁，d₂，...，d_n)中选择第一条文本d₁作为第一个话题簇c₁；

上述公式中，w_1i与w_2i为分别代表了文档d₂和c₁中的向量；

步骤S304，以d₂为基础创建新的话题簇c₂，跳转至步骤S306；

步骤S305，取d₃，重复步骤S302；

步骤S306，取d₃，计算d₃与目前所有话题簇，即c₁和c₂中所有文本的相似度值并求平均数，得到Sim_avg(d₃，c₁)，Sim_avg(d₃，c₂)；

步骤S308，等待下一篇文档进入；

步骤S4和S5分别为构建、扩充领域特征词典。在本发明中，领域特征词典的作用是实现自动标注功能；

步骤S402，再根据公式(2)计算c_i中所有词汇的IDF值，记作c_i＝c(q₁，q₂，...，q_n)，其中q_j(j＝1，2，...，n)代表该簇中第j个词汇的IDF值；

其中，N代表语料库中文本的总数，N(x)代表包含词语x的文本总数；

4.按照权利要求1所述的一种环境类投诉举报类文本自动标注和分类的方法，在扩充种子词库时，其特征在于：

所述步骤S5中，遍历步骤S4建立的种子词库中所有已存在的种子词，获取维基百科语料库中与种子词相似度高的词汇填充到领域特征词典中。

5.按照权利要求1所述的一种环境类投诉举报类文本自动标注和分类的方法，其特征在于：

所述步骤6通过领域特征词典对无标签数据进行标注，标注的详细过程如下：

步骤S601，设定备选列表R，未经标注的文本序列D＝D(d₁，d₂，...，d_n)，相似度阈值Th，领域词典Dict＝{K₁：V₁，K₂：V₂，...，K₉：V₉}，其中，{K_i：V_i，i∈1，2，...，9}表示第i组污染源类型及其对应的触发词组集合；

步骤S602，选取文本d₁，计算d₁与触发词组V_i中所有触发词的相似度值，得到Sim_max(1，i)，代表第1条文档与第i组触发词的最大相似度值，以此来代表d₁与V_i的关联程度；

步骤S603，若Sim_max(1，i)≥Th，则将V_i所对应的污染源类别K_i添加至备选列表R中，否则说明该文本与当前污染源类别没有太大关联；

步骤S604，改变i的取值循环步骤S601，直至计算结束；

步骤S605，若遍历i值后，备选列表R仍为空，则说明该文本无法通过有限的信息为其进行标注，需要人工处理；

步骤S607，将d₁标注为K_i，完成本轮自动标注，进行下一轮循环；

步骤S608，最终的输出为对应文本序列顺序的标签序列K＝{d₁：K₁，d₂：K₂，...d_n：K_n}，其中，d_iK_i(i＝1，2，...，n)代表第i条文本d_i所对应的标签名K_i。

6.按照权利要求1所述的一种环境类投诉举报类文本自动标注和分类的方法其特征在于：

所述步骤S7利用经过步骤S6自动标注的有标签文本数据来训练神经网络，使用TextCNN作为进一步提取投诉举报文本中的高维特征的神经网络构建了由三层不同卷积核尺寸的一维卷积层、三层最大池化层的TextCNN模型，具体步骤如下：

步骤S701，神经网络模型的第一层为输入层；输入层输入为n*k的矩阵，其中n为投诉举报文本经过预处理后的词语数，k为每个词语对应的词向量维度；对向量化后的文本进行填充(Padding)操作，使得每个句子的长度都为n，对于太长的句子则进行截断；每条投诉举报文本可表示为：

其中，

表示句子中的第i个词汇的k维词嵌入，

运算符表示将每个词向量进行拼；对于句子词汇量小于n的语句，采用k维零向量进行补齐；对于词汇量大于n的语句，则进行截断，使每个句子都可以表示为一个n*k的矩阵；

步骤S702中，神经网络模型的第二层为卷积层；在一条投诉举报文本中，相邻的词语关联性总是很高的，因此可以通过一维卷积来提取语句中的特征；本发明包括三种不同规模的卷积核，分别是3×k，4×k，5×k，卷积核的宽度固定为词向量维度k，不同高度的卷积核可以帮助模型在不同长度的上下文中提取特征；

步骤S703中，采用了最大池化(Max Pooling)操作，即从卷积操作后产生的特征向量中筛选出最大的特征，然后将特征拼接起来，达到将不同长度的句子通过池化成为定长的向量表示；

步骤S704，神经网络模型的最后一层全连接的softmax层，可以输出预期分类类别的概率；