CN112000801A

CN112000801A - 基于机器学习的政务文本分类、热点问题挖掘方法及系统

Info

Publication number: CN112000801A
Application number: CN202010658709.6A
Authority: CN
Inventors: 王红; 李威; 张慧; 庄鲁贺; 韩书; 杨杰; 杨雪; 王正军; 李刚; 刘鹏
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2020-11-27

Abstract

本发明公开了一种基于机器学习的政务文本分类、热点问题挖掘方法及系统，所述分类方法包括：获取多条训练政务文本数据及相应标签，并构建编码字典；基于编码字典得到所述多条训练政务文本数据的向量表示；对标签数据进行编码，得到各标签的向量表示；根据文本数据及相应标签的向量表示，采用机器学习模型训练政务文本分类模型；所述政务文本分类模型用于政务文本分类。本发明通过政务文本构建字典，基于该字典进行文本编码和向量表示，可以提高政务文本分类的准确度。在分类的基础上，对每一类中的问题进行聚类，并且通过相似度计算出来的问题类别数，可以进一步提高政务文本聚类的效果。

Description

基于机器学习的政务文本分类、热点问题挖掘方法及系统

技术领域

本公开涉及文本数据挖掘技术领域，特别涉及基于机器学习的政务文本分类、热点问题挖掘方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

随着网络技术的发展，人们可以通过微博、微信、市长信箱、阳光热线等网络问政平台掌握最新的资讯，随时表达自己的想法或建议，这也拓宽了人们反应问题的渠道，有关部门也可以随时掌握人们的意愿，从而做出更加优质的服务。但各类社情民意相关文本数据量的不断攀升，给以前主要依靠人工来进行留言划分和热点整理的相关部门的工作带来了极大挑战。同时，随着大数据、云计算、人工智能等技术的发展，建立基于自然语言处理技术的智慧政务系统已经是社会治理创新发展的新趋势，对提升政府的管理水平和施政效率具有极大的推动作用。因此，运用网络文本分析和数据挖掘技术对网络问政平台的应用有着重要的意义。

据发明人了解，目前文本分类技术包括基于机器学习的分类和基于聚类算法的聚类。其中，目前的文本分类方法，通常采用通用词典进行词语的编码,这种方法忽略了文本上下文关系，每个词之间彼此独立，无法表征语义信息，导致模型性能存在不足；而聚类算法通常是主观指定几个类别，得到的分类结果缺乏客观性。

发明内容

为克服上述现有技术的不足，本发明提供了一种基于机器学习的政务文本分类、热点问题挖掘方法及系统，所述分类方法基于政务文本字典构建编码字典，结合该字典进行文本编码和向量表示并嵌入到机器学习模型中，可以提高政务文本分类的准确度。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

一种基于机器学习的政务文本分类方法，包括以下步骤：

获取多条训练政务文本数据及相应标签，并构建编码字典；所述编码字典中包括训练政务文本数据中的每个字及相应编码；

基于编码字典得到所述多条训练政务文本数据的向量表示；

对标签数据进行编码，得到各标签的向量表示；

根据文本数据及相应标签的向量表示，采用机器学习模型训练政务文本分类模型；所述政务文本分类模型用于政务文本分类。

一个或多个实施例提供了一种政务文本热点问题挖掘方法，包括以下步骤：

获取多条政务文本数据，基于所述的分类方法，得到各条政务文本数据所属的类别；

针对某一类政务文本数据：

基于相似度分析方法确定该类政务文本数据中留言数据的类别数；

以该类别数作为聚类类别数，对留言数据进行聚类；

结合留言数据的评价，计算留言数据的热度。

一个或多个实施例提供了一种基于机器学习的政务文本分类系统，包括：

数据获取模块，被配置为获取多条训练政务文本数据及相应标签；

字典构建模块，被配置为构建编码字典；所述编码字典中包括训练政务文本数据中的每个字及相应编码；

向量表示模块，被配置为基于编码字典得到所述多条训练政务文本数据的向量表示；对标签数据进行编码，得到各标签的向量表示；

模型训练模块，被配置为根据文本数据及相应标签的向量表示，采用机器学习模型训练政务文本分类模型；所述政务文本分类模型用于政务文本分类。

一个或多个实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的政务文本分类方法或所述的政务文本热点问题挖掘方法。

一个或多个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述的政务文本分类方法或所述的政务文本热点问题挖掘方法。

以上一个或多个技术方案存在以下有益效果：

在政务文本分类的训练阶段，通过政务文本构建字典，而不是使用业内普遍使用的字典，基于该字典进行编码和词嵌入输入到机器学习模型中，可以提高政务文本分类的准确度。

在热点问题挖掘时，并非直接对问题进行聚类，而是在每类政务文本中对问题进行聚类，可以提高聚类效率与准确性；并且,聚类时，聚类的类别数目K值不是随机选择的，而是基于每个问题间的相似度计算，将相似度大于设定阈值的分为一类，从而得到的问题类别数，可以进一步提升对问题的聚类效果。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例中基于机器学习的政务文本分类方法流程图；

图2为本发明实施例中机器学习模型架构图；

图3为本发明实施例中政务文本热点问题挖掘方法流程图；

图4为本发明实施例中针对留言回复的评价方法流程图；

图5为本发明实施例中相似度为0的结果示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例公开了一种基于机器学习的政务文本分类方法，如图1所示，包括：

S1：获取多条训练政务文本数据和相应标签数据，构建训练政务文本的字典，所述字典中包括训练政务文本数据中的每个字及相应编码；

所述政务文本数据，记录有每位留言用户的留言编号、留言用户、留言主题、留言时间、留言详情，对于训练数据还有一级标签，对于测试数据则没有；根据政务文本文档中的内容，提取用户的留言详情并进行数据预处理，分词，去停用词等操作。数据中的标签一共有7类，分别为城乡建设、环境保护、交通运输、教育文体、劳动和社会保障、商贸旅游、卫生计生。

本实施例采用的初始数据集包括9210名留言用户的留言信息，数据集格式为csv格式，如表1所示。

表1用户留言分类信息表

其中，所述构建训练政务文本字典的具体步骤包括：

对训练用的政务文本，将文本中的所有不重复汉字提取出来得到词汇表，并进行编码。将这些汉字和相应编码，视为字典。本实施例中，训练用的政务文本中共5000个字，构建大小为5000的词汇表，一行一个字，从0至4999进行编码，得到每一个汉字对应的编码。以下为本实施例构建的部分字典实例：

dict＝{'<PAD>':0,'，':1,'的':2,'。':3,'一':4,'是':5,'在':6,......,'小':122,'民':203,'阳',659,'音':793,......,}。

S2：将所述多条训练政务文本数据与所述字典进行匹配，得到各文本数据的向量表示；对标签数据进行编码，得到各标签的向量表示；

将每一条训练政务文本与字典进行匹配，得到多个文本向量。本实施例中，设定各文本向量长度为600，长度不足600的补0，长度超过600的，取后600。例如：一条训练政务文本为“阳光小区噪音扰民”，匹配后得到：cont_to_id＝[659,429,122,213,2612,793,1478,203,....,0,0,0,0,0]。

对标签数据进行编码包括：首先为每个类别设定一个唯一编号i d，本实施例中，六类标签分别表示为0到6的数字：label_to_id＝{'城乡建设':0,'环境保护':1,'交通运输':2,'教育文体':3,'劳动和社会保障':4,'商贸旅游':5,'卫生计生':6}；然后，对将各个标签数据进行one-hot编码表示，得到各个标签的编码表示，比如：城乡建设＝[1,0,0,0,0,0,0]，环境保护＝[0,1,0,0,0,0,0]。

S3：将文本数据向量及相应标签向量输入到机器学习模型中，对机器学习模型进行训练，得到训练好的机器学习模型；

以训练政务文本数据的文本数据向量作为机器学习模型的输入，将相应标签向量作为输出，训练机器学习模型的模型参数。输入模型之前，将文本数据向量及相应标签向量，打乱顺序，打乱顺序后参数不易陷入局部最优，模型能够更容易达到收敛。

本实施例采用的机器学习模型为卷积神经网络模型CNN。所述卷积神经网络模型包括：嵌入层(embedding层)、卷积层、池化层、全连接层、softmax层。具体地，全连接层神经元个数为128后接dropout以及relu激活函数，采用Adam优化的CNN。

嵌入层，首先输入数据(一条文本数据)，经过步骤S2中的预处理，使得每个样本填充为600个字，并且根据字典转变为词向量，进入嵌入层，对每个字的嵌入向量进行随机初始化，将每个字用64维的向量表示，即，每个字的嵌入向量维度为64。将所有文本数据按照上述方法进行处理即得到三维嵌入矩阵，由文本数量、每条文本长度和每个字的维度组成。本实施例中，三维嵌入矩阵可表示为：shape＝(64,600,64)，第一个参数64为批处理数据的大小表示每批64句话，第二个参数600表示每句话600个字，第三个参数64表示每个字用64维的向量表示。将得到的三维嵌入矩阵输入到卷积层。

卷积层，卷积核数目为256，卷积核尺寸为5，然后接池化层；卷积完得到的向量为shape＝(64,596,256)，第一个参数64为批处理数据的大小，第二个参数596为在特征层上纵向卷积完后向量的长度，第三个参数256表示有256个卷积核，就会得到256个列向量。

池化层，将256个列向量的最大值求出来，得到shape＝(64,256)，第一个参数64为批处理数据的大小，第二个参数为256个列向量的最大值。

全连接层，将所有池化得到的特征值拼接到一起，形成单个feature map，通过全连接的方式连接到一个softmax层，进行分类。

进入全连接层，就是隐藏层到输出层的映射，全连接层有128个神经元，全连接完后的shape＝(64,128)，第一个参数64为批处理数据的大小，第二个参数128为我们指定的维度。

再经过drop，放入激活函数relu函数里。

再经过一层全连接层，得到shape＝(64,7)，第一个参数64为批处理数据的大小，第二个参数7为分类的类别数。

再经过softmax函数，得到对应的每个类别的概率。取概率最大的值，得到预测的类别。

用模型预测的类别与实际类别求交叉熵损失函数，优化损失函数，使损失函数最小。

将预测的分类结果与已知的标签类别进行比较，如果分类结果正确率达到设定阈值，则停止训练，输出分类结果正确率最高时对应的机器学习模型即为训练好的机器学习模型；否则，就继续训练。

图2为文本分类CNN结构图，分类器准确率可达94％。

S4：获取待分类的政务文本数据，将待分类的政务文本数据输入到机器学习模型中，输出政务文本数据的分类结果。

实施例二

本实施例提供了一种基于机器学习的政务文本聚类方法，如图3所示，包括：

S1：获取聚类用的留言数据集，根据示例一中所述的分类方法，先将数据进行分类；

所述政务文本数据，记录有每位留言用户的留言编号、留言用户、留言主题、留言时间、留言详情、反对数和点赞数；根据政务文本文档中的内容，提取用户的留言详情并进行数据预处理，分词，去停用词等操作。

本实例包括4326名留言用户的留言信息构成初始数据集，数据集格式为csv格式，如表2所示。

表2用户留言热度评价信息表

所述S1中获取聚类用的留言数据集后，首先对留言数据按照实施例一中步骤S1和S2中的方法进行预处理，得到每条留言的向量表示，然后基于实施例一得到的分类模型进行分类。

S2：将分类好的数据进行数据预处理并进行分词和去停用词处理，按类别分别进行问题间的相似度计算，将相似度大于0.5的聚为一类，得到问题的类别数；

所述按类别进行相似度计算并得到问题类别数具体步骤包括：

一个向量空间中两个向量夹角间的余弦值作为衡量两个个体之间差异的大小，余弦值接近1，夹角趋于0，表明两个向量越相似，余弦值接近于0，夹角趋于90度，表明两个向量越不相似。

先将需要计算的相似度的两个文本数据预处理，去除数据中的重复数据和空数据，去除数据中空和一些符号包括'\t'，'\n'，”，'\r'，'\xa0'，'\xa9'，'\u3000'，并进行分词和去停用词处理。

使用结巴分词对两个文本中的句子分词后，分别得到两个列表，例如：

ListA＝[‘A3’,‘区’，‘一米’，‘阳光’，‘婚纱艺术’，‘摄影’，‘纳税’]

ListB＝[‘A’，‘市’，‘地铁’，‘违规’，‘用工’，‘问题’，‘质疑’]

列出所有词，将listA和listB放在一个set中，得到：

Set＝{‘A3’，‘区’，‘一米’，‘阳光’，‘婚纱艺术’，‘摄影’，‘纳税’，‘A’，‘市’，‘地铁’，‘违规’，‘用工’，‘问题’，‘质疑’}

将上述set转换为dict，key为set中的词，value为set中词出现的位置，即‘区’:1这样的形式：

Dict1＝{‘A3’：0，‘区’：1，‘一米’：2，‘阳光’：3，‘婚纱艺术’：4，‘摄影’：5，‘纳税’：6，‘A’：7，‘市’：8，‘地铁’：9，‘违规’：10，‘用工’：11，‘问题’：12，‘质疑’：13}

将listA和listB进行编码，将每个字按照在dict1中出现的位置进行one-hot编码：

listAcodeOneHot＝[1,1,1,1,1,1,1,0,0,0,0,0,0,0]

listBcodeOneHot＝[0,0,0,0,0,0,0,1,1,1,1,1,1,1]

得出两个句子的词频向量之后，就变成了计算两个向量之间夹角的余弦值，值越大相似度越高：

S3：再使用K-Means聚类，将K设为S2中得到的问题类别数；

所述使用K-Means聚类具体步骤包括：

(1)首先对文本进行分词和去除停用词，具体地，用jieba分词对文本进行预处理，同时利用网上下的停用词文档进行去停用词处理。

(2)计算每个分词的文本特征并构建向量空间模型。

具体地，采用TF-IDF即逆文本频率指数计算文本特征。TF-IDF是一种统计方法，用以评估一个词对于一个语料库中一份文件的重要程度。词的重要性随着在文件中出现的次数正比增加，同时随着它在语料库其他文件中出现的频率反比下降。也就是说一个词在某一文档中出现次数比较多，其他文档没有出现，说明该词对该文档分类很重要。然而如果其他文档也出现比较多，说明该词区分性不大，就用IDF来降低该词的权重。TF-IDF与一个词在文档中的出现次数成正比，与该词在整个语言中的出现次数成反比。

本实施例中，针对某一类文本，假设该类文本中共i条留言数据，该类文本的留言数据经分词处理共得到j个词语，创建i行j列的矩阵A，每一行表示一条留言的文本特征向量，每一列表示词语在各条留言中的TF-IDF权重，矩阵A即文本特征向量空间模型。具体地，针对各条留言，分别计算每个词语在该条留言中的词频；然后统计各条留言中每个词语的TF-IDF权重赋值到矩阵A中相应位置。

对于每一类政务文本，分别以步骤S3的方法得到该类政务文本中的问题类别数，以该问题类别数作为聚类类别数，采用K-Means聚类方法，针对该类政务文本中的留言数据进行聚类。

K-Means算法是一种无监督分类算法，假设有无标签数据集：

x＝(x⁽¹⁾，x⁽²⁾，...，x^(m))^T (7)

其中，向量x即矩阵A，x^(m)表示留言数据中第m个分词。

将数据集聚类成K个簇c＝C₁，C₂，...，C_k,最小化损失函数为：

其中μ_i为簇C_i的中心点：

要找到以上问题的最优解需要遍历所有可能的簇划分，K-Mmeans算法使用贪心策略求得一个近似解，具体步骤如下：

(1)在样本中随机选取K个样本点充当各个簇的中心{μ₁，μ₂，...，μ_k}

(2)计算所有样本点与各个簇中心之间的距离dist(x⁽ⁱ⁾，μ_j)，然后把样本点划入最近的簇中x⁽ⁱ⁾∈μ_nearest

(3)根据簇中已有的样本点，重新计算簇中心

(4)重复2，3步

S4：聚类完成后，对点赞数和反对数的异常值进行处理，并按问题类别数分组求出每个问题的热度；

所述求出每类问题热度具体步骤包括：

(1)提取问题的点赞数和反对数，点赞数和反对数中有超过正常区间的异常值，我们用箱线图把点赞数与反对数统计出来，把小于0的数与超过上四分位数加1.5倍四分位区间的数设为0；

(2)计算该类问题的热度：

本实施例中用点赞数和反对数的总和加一来表示该问题的热度。即：

点赞数+反对数+1 (1)

实质就是用的该问题的参与人数来表示，一个点赞或反对就表示一个人参与，但发这条留言的也算一个人，所以在点赞数和反对数的总和上加一。

S5：按留言时间对该类问题进行排序，最后按问题热度对每类问题排序；

所述按问题热度对每类问题排序具体步骤包括：

将聚类好的问题在类内先按时间排序，再用该类问题的热度从大到小进行排序，从而得到排名前几的问题就是群众最关心的问题，还可以得到该问题的持续时间。

S6：可以得到排名任意前几的热点问题，并且可以得到某一时段内特定地点或特定人群所关注的问题或急需有关部门解决的问题，及时发现问题，及时解决市民最关心的问题。

我们可以得到排名任意前几的热点问题，并且可以得到某一时段内特定地点或特定人群所关注的问题或急需有关部门解决的问题，从而使政务工作人员可以抓住人民所需，更好，更及时的为人民服务。

进一步地，本实施例还提供了相关部门针对留言的答复意见的评价方法，包括：

获取评价用的留言主题、留言时间、留言详情、答复意见和答复时间；我们从答复的相关性与及时性对相关部门对留言的答复意见进行评价；同样对文本中的数据进行去重去空、中文分词及停用词过滤等数据预处理操作；

我们通过将需要对比的两个文本去停用词并分词后表示为向量，计算留言详情与答复意见的余弦相似性，余弦值为0表示留言与答复意见完全不相似，我们又对留言时间与答复时间进行了比较，把答复时间超过留言时间1个月的作为效率低下的指标。然后其他相关性即大于0，又在1个月内及时回复的我们又定义了评价指标，即：

h1：留言时间

h2：答复时间

text1：留言详情

text2：答复意见

将留言时间与答复时间转换为小时表示，然后除以一个月的小时数744(每月按31天算)得到百分比小数加上余弦值的和再求平均得到相关性与及时性的评价指标，指标越高越好。

本实施例在得到留言数据所属大类后，计算每一条留言与其他留言的文本相似度，根据相似度阈值得到问题的类别数；为了验证，我们又使用了K-Means聚类方法，把K设为我们之前得到的问题类别数，把所有问题聚好类后展示出来，通过相似度计算出来的类别数K可以细致的把该大类下的所有问题聚好类。

聚类完后，又定义了热度评价指标，可以通过我们定义的热度评价指标对热点问题进行排序，还根据每类问题的时间进行排序，从而可以更加直观的反应每个问题的热度和持续的时间。

对相关部门对留言的答复意见从相关性与及时性进行评价，并且定义了我们的评价指标，可以综合相关性与及时性更好的反应相关部门答复的质量。

实施例三

本实施例的目的是提供一种电子设备。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例一的政务文本分类方法或实施例二中的政务文本热点问题挖掘方法。

实施例四

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现实施例一的政务文本分类方法或实施例二中的政务文本热点问题挖掘方法。

以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于机器学习的政务文本分类方法，其特征在于，包括以下步骤：

基于编码字典得到所述多条训练政务文本数据的向量表示；

对标签数据进行编码，得到各标签的向量表示；

2.如权利要求1所述的一种基于机器学习的政务文本分类方法，其特征在于，根据训练政务文本中不重复的文字个数n，将文字从0至n-1进行编码，得到编码字典。

3.如权利要求1所述的一种基于机器学习的政务文本分类方法，其特征在于，对标签数据进行编码包括：

为每个标签设定一个唯一编号，进行one-hot编码，得到各个标签的编码表示。

4.一种政务文本热点问题挖掘方法，其特征在于，包括以下步骤：

获取多条政务文本数据，基于如权利要求1-3任一项所述的分类方法，得到各条政务文本数据所属的类别；

针对某一类政务文本数据：

以该类别数作为聚类类别数，对留言数据进行聚类；

结合留言数据的评价，计算留言数据的热度。

5.如权利要求4所述的一种政务文本热点问题挖掘方法，其特征在于，对留言数据进行相似度分析包括：

对待计算相似度的两条留言数据进行区去重、去停用词操作，并进行分词；

将两条留言数据分词得到的词语拼接在一起，得到拼接后的集合；

将两条留言数据按照在集合中的位置分别进行编码，得到向量表示；

基于两条留言数据的向量表示进行相似度计算。

6.如权利要求4所述的一种政务文本热点问题挖掘方法，其特征在于，对留言数据进行聚类包括：

构建i行j列的文本特征矩阵，i表示该类文本中的留言数目，j表示该类文本中经分词处理的词语个数，矩阵中第m行第n列表示第n各词语在第m条留言中的TF-IDF权重；

以该类别数作为聚类类别数，根据文本特征矩阵中每一行留言数据的文本特征，采用K-means聚类方法对留言数据进行聚类。

7.如权利要求4所述的一种政务文本热点问题挖掘方法，其特征在于，结合留言数据的评价，计算留言数据的热度包括：

提取问题的点赞数和反对数，用点赞数和反对数的总和加一来计算该问题的热度。

8.一种基于机器学习的政务文本分类系统，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-3任一项所述的政务文本分类方法或权利要求4-7任一项所述的政务文本热点问题挖掘方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-3任一项所述的政务文本分类方法或权利要求4-7任一项所述的政务文本热点问题挖掘方法。