CN111930936A

CN111930936A - 一种平台留言文本挖掘方法及系统

Info

Publication number: CN111930936A
Application number: CN202010597310.1A
Authority: CN
Inventors: 王红; 庄鲁贺; 韩书; 李威; 张慧
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2020-11-13

Abstract

本发明公开了一种平台留言文本挖掘方法及系统，包括对历史平台留言信息进行数据标记，得到对应的标记类别；根据历史平台留言信息和对应的标记类别训练构建的长短期记忆网络模型；以训练后的长短期记忆网络模型对待分类平台留言信息进行分类，得到待分类平台留言信息所属的标记类别；将任一标记类别下平台留言信息的留言编号和留言主题合并为合并列，对合并列进行聚类，得到当前标记类别下的留言类簇；根据留言类簇的热度得到当前标记类别下的热点留言类簇。针对网络问政平台中的用户留言数据，有利于及时发现热点问题，针对性处理、提升服务效率。

Description

一种平台留言文本挖掘方法及系统

技术领域

本发明涉及数据分析挖掘技术领域，特别是涉及一种平台留言文本挖掘方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

近年来，随着阳光热线、微博、市长信箱、微信等网络问政平台逐渐成为了政府了解民意、汇聚民智慧、凝聚民气的重要渠道，各类社情民意的相关文本数据量在不断地攀升，已经给以往靠人工来对留言进行划分和对热点问题进行整理的工作带来了极大的挑战。同时，随着人工智能、大数据、云计算等技术的发展，建立基于自然语言处理技术的智慧政务系统已经是社会治理创新发展的新趋势，这对提升政府的管理水平和市政效率具有极大地推动作用。

数据挖掘是一种在大型数据存储库中自动发现有用信息的过程，一般包括数据预处理、数据挖掘和后处理几部分。目前相关领域关于数据挖掘的应用非常多，但是，根据以往群众留言和政府答复的特征，挖掘群众留言和评价政府答复的相关方法尚未有成熟的结果和说明。

随着各类反映社情民意的相关文本数据量急剧增加和人们生活步伐的越来越快，政府的市政效率也要进行大幅提升。针对各类问政平台汇集的留言信息，传统的方法是用人工对每条留言进行判断应该把该条留言交给哪个部门进行回复，随着人们对办事效率的要求越来越高和留言数据量的急剧增加，传统的人工分类方法已经不能满足当代的需求了；除此之外，留言划分完成后，某一时段内反映特定地点或特定人群的问题称为热点问题，部门首先要解决的是热点问题，因为热点问题往往是急需得到解决或者比较严重的问题，因此需要对热点问题进行提取；针对热点问题的提取工作，如果用数据挖掘的方法来替代传统的人工处理，那么效率也会得到大大提升。综上所述，利用数据挖掘技术，对群众留言进行划分且对热点留言进行挖掘，尚缺乏有效的解决方案。

发明内容

为了解决上述问题，本发明提出了一种平台留言文本挖掘方法及系统，针对网络问政平台中的用户留言数据，对其进行数据标记，得到对应的标记类别，根据分类模型对留言信息进行分类，根据所属类别进行聚类，根据留言类簇的热度挖掘热点留言；有利于及时发现热点问题，针对性处理、提升服务效率。

为了实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供一种平台留言文本挖掘方法，包括：

对获取的历史平台留言信息进行数据标记，得到对应的标记类别；

根据历史平台留言信息和对应的标记类别训练构建的长短期记忆网络模型；

以训练后的长短期记忆网络模型对待分类平台留言信息进行分类，得到待分类平台留言信息所属的标记类别；

将任一标记类别下平台留言信息的留言编号和留言主题合并为合并列，对合并列进行聚类，得到当前标记类别下的留言类簇，根据留言类簇的热度得到当前标记类别下的热点留言类簇对应的热点平台留言信息。

第二方面，本发明提供一种平台留言文本挖掘系统，包括：

标记模块，用于对获取的历史平台留言信息进行数据标记，得到对应的标记类别；

训练模块，用于根据历史平台留言信息和对应的标记类别训练构建的长短期记忆网络模型；

分类模块，用于以训练后的长短期记忆网络模型对待分类平台留言信息进行分类，得到待分类平台留言信息所属的标记类别；

聚类模块，用于将任一标记类别下平台留言信息的留言编号和留言主题合并为合并列，对合并列进行聚类，得到当前标记类别下的留言类簇，根据留言类簇的热度得到当前标记类别下的热点留言类簇对应的热点平台留言信息。

第三方面，本发明提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述的方法。

第四方面，本发明提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

与现有技术相比，本发明的有益效果为：

本发明通过对历史平台留言信息进行标记并分类，从原始留言数据中进行数据分析、数据清洗和特征提取，挖掘有用信息并标准化数据集，根据分类后的留言信息结合其特征值进行子空间聚类，提取热点问题，有利于及时发现热点问题，具有较高准确率和执行效率，有助于相关部门进行有针对性地处理，提升服务效率。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例1提供的平台留言文本挖掘方法流程图；

图2为本发明实施例1提供的历史留言详情数据预处理和特征提取流程图；

图3为本发明实施例1提供的CBOW模型结构图；

图4为本发明实施例1提供的LSTM模型结构图；

图5为本发明实施例1提供的LSTM模型训练流程图；

图6为本发明实施例1提供的LSTM模型训练和测试的准确度流程图；

图7为本发明实施例1提供的合并列的清洗、向量化、TF-IDF预处理、标准化和降维流程图；

图8为本发明实施例1提供的聚类散点图。

具体实施方式：

下面结合附图与实施例对本发明做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例1

随着物联网、云计算的发展和应用，尤其是移动互联网的普及，电子政务平台的使用已经平民化，通过电子政务平台发布信息已成为社会公众对公共议题表达意见和看法的重要方式，急剧增长的网络留言数据给政府答复工作带来难度，电子政务平台的网络留言离不开数据挖掘技术；如图1所示，本实施例提供一种平台留言文本挖掘方法，应用于智慧政务平台或其他政务平台或可发表留言言论的网络平台等，针对群众留言信息中相关数据，对群众留言进行分类和挖掘热点问题，具体包括：

S1：对获取的历史平台留言信息进行数据标记，得到对应的标记类别；

S2：根据历史平台留言信息和对应的标记类别训练构建的长短期记忆网络模型；

S3：以训练后的长短期记忆网络模型对待分类平台留言信息进行分类，得到待分类平台留言信息所属的标记类别；

S4：将任一标记类别下平台留言信息的留言编号和留言主题合并为合并列，对合并列进行聚类，得到当前标记类别下的留言类簇；

S5：根据留言类簇的热度得到当前标记类别下的热点留言类簇对应的热点平台留言信息。

所述步骤S1中，对获取的历史平台留言信息进行预处理，包括对历史平台留言详情信息进行清洗操作、分词处理，去除停用词；如图2所示，包括：

S101：清理缺失值：获取的历史平台留言信息和标记类别标签可能会有缺失值，计算其缺失值比例，确定缺失值的范围；

按照缺失比例，采取不同的处理策略：对于记录中有缺失率低的特征，通过经验或者业务知识进行填充；对于记录中有缺失率高的特征，删除该条记录。

S102：清除符号：删除留言详情中除了字母、数字、汉字以外的所有符号。

S103：分词并清除停用词：为了节省存储空间和提高搜索效率，在处理自然语言之前要清除掉停用词；本实施例采用jieba分词方法，jieba分词主要是基于统计词典，构造一个前缀词典；然后利用前缀词典对输入句子进行切分，得到所有的切分可能，根据切分位置，构造一个有向无环图；通过动态规划算法，计算得到最大概率路径，得到最终的切分形式；采用jieba分词的精确模式对留言详情信息分词后，对分词后的留言详情信息进行去除停用词操作。

所述步骤S2中，将历史平台留言信息划分为训练集和测试集，对历史平台留言信息进行特征提取，具体步骤为：

本实施例对分词后的平台留言信息列表进行特征提取，留言特征包括留言编号、留言用户、留言详情、留言时间、反对数和点赞数；采用LSTM神经网络算法，将平台留言信息映射为LSTM能处理的数据，并根据特征提取算法选出特征向量，本实施例采用keras的Tokenizer来实现，具体步骤为：

S201：将平台留言信息处理成单字索引序列，字与序号之间的对应关系靠字的索引表；

S202：所有分类标签分别用onehot编码表示，生成一个分类标签映射的列表，通过与onehot编码映射生成一个字典，分别是{分类名称：onehot编码}方便映射和查找；

S203：将平台留言信息直接进行单字转换映射，生成基于字的映射字典；

S204：将字映射为数字；

S205：预训练word2vec向量；

所述步骤S205中，word2vec使用分布式词向量的表示方式，通过训练模型将每个词映射成K个维度的实数向量后，通过词与词之间的距离判断它们之间的语义相似度。

Word2vec有CBOW模型和Skip-gram模型，本实施例采用CBOW模型训练词向量，CBOW模型包含输入层，输出层和投影层三层结构，在已知w1上下文wt-2，wt-2，wt+1，wt+2的基础上预测当前词wt，CBOW模型处理结构如图3所示。

在word2vec中，使用层次Softmax函数和负采样来近似计算，目的是减少训练的时间，提高计算速度并改善训练后的词向量质量；NEG与层次Softmax函数相比，不再使用复杂的哈夫曼树，而是采用随机负采样的方法，降低负采样的概率同时增大正样本的概率。

在CBOW模型中，已知词w的上下文为Context(w)，需要预测词w，因此对于给定的Context(w)，词w就是一个正样本，其他词就是负样本，对于一个给定的样本(Context(w)，w)，尽可能使它最大化。

其中，NEG(w)表示负样本集合，正样本标签为1，负样本标签为0，其概率计算公式如下：

本实施例先利用特定语料数据训练后的word2vec词向量做文本分类任务，在一定程度上能提升了词向量的表达能力；再使用Scikit-learn将数据按9：1的比例分为训练数据和测试数据。

所述步骤S2中，构建的长短记忆网络LSTM模型包括：

本实施例采用的是LSTM的序列模型，模型的第一层是嵌入层，使用长度为100的向量表示每一个词语；SpatialDropout1D层在训练中每次更新时，将输入单元的按比率随机设置为0.2，有助于防止过拟合；LSTM层包含100个记忆单元，输出层为包含10个分类的全连接层。

所述步骤S2中，对长短记忆网络LSTM模型进行训练包括：在历史留言详情训练阶段，根据LSTM算法思想搭建LSTM模型，将文本处理成向量的Embedding层，每条留言详情被处理成一个word_dict×250的二维向量，其中word_dict为每条留言详情的长度，250为每一行的长度，整体代表这个词在空间中的词向量，操作流程如下：

S201：LSTM层输出1维长度为250的向量；

S202：Dropout层设置初始参数为0.2，避免产生过拟合现象；

S203：Dense(全连接层)将向量长度收缩到7，对应7种留言分类。

LSTM训练模型结构如图4-5所示，由于训练的结果为多分类，所以同步使用激活函数softmax，损失函数cross-entropy，优化器adam，训练过程中的batch_size设置为64，epoch设置为6，实际训练一个轮次大约1分钟，6个轮次后损失慢慢变小，准确度越来越高，准确度最后达到了0.9757。

S211：对LSTM分类模型进行测试，采用F1-Score作为评价分类模型的指标，即精准率和召回率的调和平均数，最大为1，最小为0：

其中，precision是精准率，recall是召回率。

本实施例以教育平台的网络留言为例，测试留言数据的准确度达到了0.833，训练留言数据和测试留言数据的准确度如图6所示。

所述步骤S3中，获取待分类的测试留言详情信息，将待分类的清洗过的进行完向量化处理的留言详情信息输入到长短记忆网络LSTM中，输出测试留言详情信息所属的标记类别。

所述步骤S4中，分类之后，截取一段时间的某一类的留言信息记录，该记录包含：留言编号，留言详情，反对数和点赞数，将留言编号和留言主题合并，称为合并列，对合并列的信息进行清洗和分词处理；具体步骤为：

S401：清洗合并列信息：去除文本中的中文符号和英文符号；

S402：分词：本实施例用的是jieba分词方法，详情见步骤S103，在此不再赘述。

所述步骤S4中，对合并列进行向量化、TF-IDF预处理和标准化，如图7所示，具体步骤为：

S411：向量化：本实施例采用词袋模型，在分词之后，通过统计每个词在文本中出现的次数，得到该文本基于词的特征，如果将各个文本样本的词与对应的词频放在一起，即向量化。

S412：TF-IDF预处理：在将文本分词并向量化后，得到词汇表中每个词在各个文本中形成的词向量，然后进行TF-IDF预处理；

例如：将下面4个短文本做了词频统计：

corpus＝["I come to China to travel","This is a car polupar inChina","I love tea and Apple","The work is to write some papers in science"]

不考虑停用词，处理后得到的词向量如下：

[[0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 2 1 0 0]

[0 0 1 1 0 1 1 0 0 1 0 0 0 0 1 0 0 0 0]

[1 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0]

[0 0 0 0 0 1 1 0 1 0 1 1 0 1 0 1 0 1 1]]

如果直接将统计词频后的19维特征做为文本分类的输入，会发现存在问题：如第一个文本，发现“come”、“China”和“Travel”各出现1次，而“to”出现了两次，说明该文本与“to”特征关系更紧密，但是实际上“to”是一个非常普遍的词，几乎所有的文本都会用到，因此虽然它的词频为2，但是重要性却比词频为1的“China”和“Travel”低；如果向量化特征仅仅用词频表示就无法反应这一点，因此需要进一步的预处理来反应文本的这个特征，即TF-IDF。

TF-IDF(Term Frequency-Inverse Document Frequency)，即“词频-逆文本频率”，由两部分组成TF和IDF。

TF是词频，向量化也就是对文本中各个词的出现频率统计，并作为文本特征；

IDF，即“逆文本频率”，在上述例子中，几乎所有文本都会出现的“to”，其词频虽然高，但是重要性却应该比词频低的“China”和“Travel”要低；IDF是反应这个词的重要性，进而修正仅仅用词频表示的词特征值；

即，IDF反应了一个词在所有文本中出现的频率，如果一个词在很多的文本中出现，那么它的IDF值低，如“to”；而反过来如果一个词在比较少的文本中出现，那么其IDF值应该高，比如一些专业的名词如“Machine Learning”，其词IDF值高；如果一个词在所有的文本中都出现，那么IDF值为0。

对一个词的IDF进行定量分析，给出一个词x的IDF的公式如下：

其中N代表语料库中文本的总数，N(x)代表语料库中包含词x的文本总数。

若某一个生僻词在语料库中没有，上式分母为0，所以常用的IDF需要平滑处理，使语料库中没有出现的词也可以得到一个合适的IDF值；本实施例采用的IDF平滑后的公式为：

计算某一个词的TF-IDF值：

TF-IDF(x)＝TF(x)*IDF(x)

其中TF(x)指词x在当前文本中的词频。

S413：对TF-IDF预处理后的合并列进行降维处理，具体步骤为：

在大规模的文本处理中，由于特征的维度对应分词词汇表的大小，所以维度大的情况下，需要进行降维；本实施例采用主成分分析法，把具有相关性的高维变量合成线性无关的低维变量，称为主成分，新的低维数据集会尽可能的保留原始数据的变量。

S414：对降维后的合并列进行聚类，具体步骤为：

本实施例采用K-means聚类算法，将样本的矢量空间划分为多个区域

每个区域都存在一个区域中心

对于每一个样本，建立一种样本到区域中心的映射q(x)：

其中，1()为指示函数，即代表样本x是否属于区域S。

不同的基于划分的聚类算法的主要区别就在于如何建立相应的映射方式q(x)，在K-means中，映射是通过样本与各中心之间的误差平方和最小这一准则1来建立的；K-means算法的主要实现步骤有：

S414-1：初始化聚类中心

选取前K个样本或者随机选取K个样本；

S414-2：分配各个样本x_j到最相近的聚类集合，样本分配依据为：

其中，i＝1,2,…,k,p≠j；

S414-3：根据分配结果，更新聚类中心：

S414-4：若迭代次数达到最大迭代步数或者前后两次迭代的差小于设定阈值ε，即

则结束，否则重复步骤S414-2；聚类散点图如图8所示。

所述步骤S5中计算留言类簇的热度，具体步骤为：

S501：每一个簇代表一个问题，提取出留言类簇内元素记录所对应的反对数和点赞数。

S502：对簇内元素的所有反对数和点赞数分别进行加和，得出簇的反对数和点赞数。

S503：用Reddit评论排名算法计算该簇的热度：

威尔逊得分区间具体公式如下：

其中，

是好评率；n是总投票数；Z(1-α/2)表示对应某个置信水平的z统计量，为常数，可以通过查表得到，一般情况下，在95％的置信水平下，z统计量的值为1.96。

S504：针对各簇的热度，对各簇进行从高到低进行排名，排名前N名的留言类簇所对应的留言内容即热点问题；可以理解的，N的值可自定义。

实施例2

本实施例提供一种平台留言文本挖掘系统，包括：

聚类模块，用于将任一标记类别下平台留言信息的留言编号和留言主题合并为合并列，对合并列进行聚类，得到当前标记类别下的留言类簇；

热度模块，用于根据留言类簇的热度得到当前标记类别下的热点留言类簇对应的热点平台留言信息。

此处需要说明的是，上述模块对应于实施例1中的步骤S1至S5，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1中所述的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1中所述的方法。

实施例1中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种平台留言文本挖掘方法，其特征在于，包括：

2.如权利要求1所述的一种平台留言文本挖掘方法，其特征在于，对获取的历史平台留言信息进行预处理，包括：

计算历史平台留言信息缺失值比例，确定缺失值的范围；根据按照缺失值比例，清理缺失值所在的平台留言信息或填充缺失值；

采用jieba分词方法，构造前缀词典，根据前缀词典对历史平台留言信息进行切分，根据切分位置，构造有向无环图，通过动态规划算法，计算最大概率路径，得到最终的分词切分形式，对分词后的历史平台留言信息进行删除停用词操作。

3.如权利要求1所述的一种平台留言文本挖掘方法，其特征在于，对合并列进行预处理，包括缺失值处理、分词操作和删除停用词操作。

4.如权利要求1所述的一种平台留言文本挖掘方法，其特征在于，对合并列进行分词操作后，采用词袋模型统计每个词出现的次数，得到基于词的特征，将词与对应的词频合并，完成向量化，得到每个词在各个历史平台留言信息中形成的词向量，继而进行TF-IDF预处理。

5.如权利要求4所述的一种平台留言文本挖掘方法，其特征在于，对TF-IDF预处理后的合并列采用主成分分析法进行降维处理。

6.如权利要求5所述的一种平台留言文本挖掘方法，其特征在于，对降维后的合并列采用K-means聚类算法进行聚类。

7.如权利要求1所述的一种平台留言文本挖掘方法，其特征在于，计算留言类簇的热度，包括：

提取出留言类簇平台留言信息所对应的反对数和点赞数，对留言类簇内所有平台留言信息的反对数和点赞数分别进行加和，得出留言类簇的反对数和点赞数；采用Reddit评论排名算法计算该留言类簇的热度。

8.一种平台留言文本挖掘系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项所述的方法。