CN111090731A

CN111090731A - 基于主题聚类的电力舆情摘要提取优化方法及系统

Info

Publication number: CN111090731A
Application number: CN201911330354.1A
Authority: CN
Inventors: 史玉良; 张晖; 管永明; 吕梁; 胥鹏飞; 刘智勇; 李娜娜
Original assignee: Dareway Software Co ltd
Current assignee: Dareway Software Co ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2020-05-01

Abstract

本发明公开了基于主题聚类的电力舆情摘要提取优化方法及系统，包括：获取待提取摘要的电力行业新闻文本；对待提取摘要的电力行业新闻文本以句子为单位进行聚类；使用隐含狄利克雷分布LDA对聚类结果进行主题词抽取，获取该电力文本的主题词；统计待提取摘要的电力行业新闻文本中，与文本主题词有相同或相近语义的词语及其词频，并将其与文本主题词进行合并，获得电力行业新闻文本对应主题下的高频词词集；对待提取摘要的电力行业新闻文本，构建文本网络图；基于文本网络图和高频词词集进行摘要提取处理，获取候选摘要句群；对候选摘要句群进行去冗余，得到初版摘要；对初版摘要进行优化得到最终版摘要，将最终版摘要输出。

Description

基于主题聚类的电力舆情摘要提取优化方法及系统

技术领域

本公开涉及舆情摘要提取技术领域，特别是涉及基于主题聚类的电力舆情摘要提取优化方法及系统。

背景技术

本部分的陈述仅仅是提到了与本公开相关的背景技术，并不必然构成现有技术。

电力行业关乎国计民生，电力相关事件往往受到广大民众和媒体的广泛关注。电力舆情文本自动摘要提取基于网页爬取的文本信息，利用数据处理技术提取或生成内容提要，从而完成对文章核心信息的描述。该技术的应用能够使电力企业在信息爆炸时代及时掌控电力舆情信息，辅助电力用户发现了解并利用相关的电力政策和新闻，进行有效的控制处理，有利于提升企业的舆情监控能力和应对能力。

在实现本公开的过程中，发明人发现现有技术中存在以下技术问题：

目前的文本自动摘要研究大多倾向于从原始文本中抽取表达文本核心思想的句子，使最终生成的摘要尽可能的包含文章原文所要表达的信息。文本自动摘要的生成算法很多，总结归纳发现，一方面是从外部影响因素出发，如考虑文章的结构信息、图模型结构，或者是将多种方法进行融合，来改进或优化摘要提取算法；另一方面是从影响摘要提取的内部因素出发，借助相关算法挖掘文本信息，提取文章的主题，来提高生成文本摘要的质量。然而上述方法均存在考虑因素不全面、生成的摘要冗余信息高、原文主题不清晰及语义不连贯等问题。综上所述，电力舆情自动摘要的生成缺乏行之有效的解决方案。

发明内容

为了解决现有技术的不足，本公开提供了基于二次主题聚类的电力舆情摘要提取方法及系统；

第一方面，本公开提供了基于主题聚类的电力舆情摘要提取优化方法；

基于主题聚类的电力舆情摘要提取优化方法，包括：

获取待提取摘要的电力行业新闻文本；

对待提取摘要的电力行业新闻文本以句子为单位进行聚类；使用隐含狄利克雷分布对聚类结果进行主题词抽取，获取该电力文本的主题词；

统计待提取摘要的电力行业新闻文本中，与文本主题词有相同或相近语义的词语及其词频，并将其与文本主题词进行合并，获得电力行业新闻文本对应主题下的高频词词集；

对待提取摘要的电力行业新闻文本，构建文本网络图；

基于文本网络图和高频词词集进行摘要提取处理，获取候选摘要句群；对候选摘要句群进行去冗余，得到初版摘要；对初版摘要进行优化得到最终版摘要，将最终版摘要输出。

第二方面，本公开还提供了基于主题聚类的电力舆情摘要提取优化系统；

基于主题聚类的电力舆情摘要提取优化系统，包括：

获取模块，其被配置为：获取待提取摘要的电力行业新闻文本；

聚类模块，其被配置为：对待提取摘要的电力行业新闻文本以句子为单位进行聚类；使用隐含狄利克雷分布对聚类结果进行主题词抽取，获取该电力文本的主题词；

统计模块，其被配置为：统计待提取摘要的电力行业新闻文本中，与文本主题词有相同或相近语义的词语及其词频，并将其与文本主题词进行合并，获得电力行业新闻文本对应主题下的高频词词集；

构建模块，其被配置为：对待提取摘要的电力行业新闻文本，构建文本网络图；

摘要输出模块，其被配置为：基于文本网络图和高频词词集进行摘要提取处理，获取候选摘要句群；对候选摘要句群进行去冗余，得到初版摘要；对初版摘要进行优化得到最终版摘要，将最终版摘要输出。

第三方面，本公开还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述方法的步骤。

第四方面，本公开还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述方法的步骤。

与现有技术相比，本公开的有益效果是：

(1)本公开通过对电力文本进行聚类来挖掘文章的主题词。为保证选出的初始聚类中心点能够有效地代表类簇，并保证类簇间的独立性，对传统的K-Means聚类算法进行改进，在本公开中称为基于密度最大距离最远原则优化的K-Means聚类算法，以实现对某电力文章的句子级分析，从而降低摘要提取过程中的干扰因素，提高提取摘要的质量；

(2)本公开从影响摘要提取的客观因素出发，构建文本网络图，融入电力文本的篇章结构和句子的上下文关系，对TextRank算法做出改进，并根据影响因素调整收敛矩阵中相关词句的权重；

(3)本公开从影响摘要提取的内部因素出发，使生成的摘要能够紧贴文本主题，使用主题模型LDA对文章进行主题提取，获得电力文本的句子级类簇所对应的主题词。通过主题词和相似词频结合生成高频词集，对矩阵中包含高频词的句子权重进行了最后的调整，以使最终生成的摘要能够体现文章的主题，提高提取摘要的质量；

(4)本公开为了避免摘要提取过程中出现较多的相似句子，使得文本信息的表述出现重复冗余，对摘要候选句群做进一步的去重处理，删除其中相似度较高的句子，使最终获得的摘要具有高概括性和低冗余性；

(5)为保障最终提取摘要的可读性和连贯性，首先对句子进行标签化，即为原文本的每个句子添加标签，以标注句子在原文中的语序，其次根据文本匹配算法，获得初版摘要中的句子所对应的标签序号，并由小到大顺序输出文章句子，即可得到最终摘要。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本公开实施例提供的主题聚类的与TextRank方法结合的电力文本摘要提取优化方法的整体流程图；

图2为本公开实施例提供的主题模型LDA的模型表示图；

图3为本公开实施例提供的文本预处理流程；

图4为本公开实施例提供的利用文章的篇章结构和句子的上下文信息对TextRank算法做出改进的算法流程图；

图5为本公开实施例提供的各算法提取摘要的平均准确率(P)、平均召回率(R)和平均F值(F)数据对比柱状图；

图6为本公开实施例提供的示例文本；

图7为本公开实施例提供的示例文本提取摘要质量对比图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一，本实施例提供了基于主题聚类的电力舆情摘要提取优化方法；

如图1所示，基于主题聚类的电力舆情摘要提取优化方法，包括：

S1：获取待提取摘要的电力行业新闻文本；

S2：对待提取摘要的电力行业新闻文本以句子为单位进行聚类；使用隐含狄利克雷分布(Latent Dirichlet Allocation，以下简称为：LDA主题模型)对聚类结果进行主题词抽取，获取该电力文本的主题词；

S3：对待提取摘要的电力行业新闻文本，构建文本网络图；

S4：基于文本网络图和高频词词集进行摘要提取处理，获取候选摘要句群；对候选摘要句群进行去冗余，得到初版摘要；对初版摘要进行优化得到最终版摘要，将最终版摘要输出。

进一步地，S1中，获取待提取摘要的电力行业新闻文本的具体步骤包括：

S101：基于网页爬取待提取摘要的电力行业新闻文本；

具体地，基于某市某地区的电力网络舆情行为监测及市场分析平台为应用实例，基于爬虫技术爬取该地网站上发布的与电力有关的政策、新闻信息，共抓取6536条相关文章，为消除数据差距较大带来的影响，去除篇幅过长和过短的文章，最终取其中约6000篇文章作为参考。

进一步地，S101中，爬取待提取摘要的电力行业新闻文本，还允许从网站、微博、微信和论坛等平台来进行爬取。

进一步地，S2中，对待提取摘要的电力行业新闻文本以句子为单位进行聚类；本公开使用改进的k-means聚类算法，在此称为基于密度最大距离最远原则优化的K-Means聚类算法，具体步骤包括：

选择某篇电力行业新闻文本D_i，对其使用基于密度最大距离最远原则优化初始聚类中心的K-Means聚类算法，形成句子类簇。

聚类对电力新闻文本表述的内容进行细粒度的划分和归类，便于下一步使用主题模型抽取该文本的文本主题词。

因为K-Means聚类的结果受初始聚类中心的影响，对传统的K-Means聚类做出改进，所以使用基于密度最大距离最远原则优化初始聚类中心的K-Means聚类算法，使用该方法获得的初始聚类中心相对分散，在代表类簇的同时，还能够保证类簇之间的独立性，避免算法陷入局部最优而不是全局最优的状态。

进一步地，S2中，对待提取摘要的电力行业新闻文本以句子为单位进行聚类；具体步骤包括：

S201：计算某一篇电力新闻文本Doc中所有句子的期望密度；

S202：查找距离文本中所有句子最近的α邻域空间的密度半径β_i；

S203：依据密度半径从小到大对待提取摘要的电力新闻文本中的所有句子向量进行排序；

S204：选择最小的密度半径对应的句子向量作为第一个初始聚类中心，更新初始聚类中心集合S；

S205：计算已选为初始聚类中心的句子与待筛选集合D-S中的句子s_i的独立距离和中心度，选择中心度最大的句子向量添加到初始聚类中心集合S中；

S206：重复步骤S205，直到初始聚类中心集合S中的句子向量数达到聚类数目期望值，算法结束；

S207：基于初始聚类中心，将该电力新闻文本分为k个类簇。

S201的具体步骤包括：定义类簇中某篇文档所有句子向量集合S，句子总数N，初始聚类中心集合S(最初为空集)，生成的摘要句个数q；根据公式(5)计算期望密度；

E_α＝N/q (5)

S202的具体步骤包括：任选句子s_i作为中心，查找距离句子s_i最近的α邻域空间的密度半径β_i，α邻域空间的定义如公式(6)所示：

α＝0.6×E_α (6)

S204的步骤包括：第一个初始聚类中心选择β_i最小的句子向量s_i，并将s_i添加到初始聚类中心集合S；

S205的步骤包括：根据公式(7)计算s_j(s_j∈D-S)与S中向量间的独立距离，根据公式(8)计算中心度的值，选择中心度最大的句子向量作为下一个初始聚类中心添加到S中；

独立距离计算公式：

Distance(s_j，S)＝min{d(s_i，s_j)，s_i∈S} (7)

中心度计算公式：

将集合S和待筛选集合D-S中的句子向量进行更新。

S207的步骤包括：初始聚类中心就是集合S中所有的句子向量，对S中所有的句子向量执行K-means算法，得到最终的k个句子簇类。

通过获得的k个初始聚类中心句，既保证了句子类簇中有较大的相异度，也保证了该中心向量中的数据密集分布。

进一步地，S2中，使用隐含狄利克雷分布(Latent Dirichlet Allocation，以下简称为：LDA主题模型)对聚类结果进行主题词抽取，获取该电力文本的主题词；经过改进的K-Means算法聚类的文本，在一定程度上具有相同或类似的主题。主题模型LDA能够识别大规模文本集中潜在的主题信息，并按照概率分布的方式给出。因此使用主题模型LDA对聚类后的电力文本进行主题提取，可以获得该类簇包含的文本所对应的主题，进而获悉该类簇包含文本的主要含义。

具体地，结合图2，LDA主题模型的一般表示如下：对于文本D，首先制定该文本的主题个数K，文本D和主题K之间对应着多项分布θ，该多项分布θ又对应着带有超参数α的狄利克雷先验分布；同样地，文本的每个主题又与预处理后的词汇表中的单词形成另一个多项分布φ，该多项分布φ对应带有超参数β的狄利克雷先验分布。

综上所述，对于给定的文本D，经过预处理得到该文本的词汇表，从文本对应的多项分布θ中随机抽取主题T_i，从主题T_i对应的多项分布φ中获得单词W，将上述过程重复N_m次，即可形成原文。

主题模型LDA训练过程：

(1)为语料库中的所有文本的全部单词随机分配一个主题编号；

(2)扫描文本语料库，采用吉布斯采样公式为全部的单词进行采样，得到并更新单词对应的新主题。吉布斯采样公式如下：

z_i表示语料库中的第i个词对应的主题，i＝(m,n)是二维下标，即第i个词对应第m篇文档的第n个词，

表示去除下标为i的词。

(3)重复上述步骤(2)，直到吉布斯采样收敛。

(4)主题模型LDA就是得到的话题-单词共现频率矩阵。

在本公开中将借助于现有工具模型，即主题模型LDA。对每个句子类簇，使用主题模型LDA进行句子级主题词抽取，获取若干个句子级主题词，组成该电力文本的主题词。

进一步地，S2中，统计待提取摘要的电力行业新闻文本中，与文本主题词有相同或相近语义的词语及其词频，并将其与文本主题词进行合并，获得电力行业新闻文本对应主题下的高频词词集；具体步骤包括：

S211：统计某个待提取摘要的电力行业新闻文本的所有由聚类挖掘出的主题词组成的集合及主题词词频；

S212：统计与文本主题词有相同或相似语义的词语及其词频；

S213：将文本主题词与语义相似词按词频排序；

S214：取频率高于设定阈值的词语的组成高频词词集。

其中，高频词语是指出现频率高于设定阈值的词语。

S211：统计电力行业新闻文本D_i中的所有文本主题词T_i及其词频tf_i；

S212：借助基于中国知网(CNKI，China National Knowledge Infrastructure)的语义相似度算法，统计与文本主题词T_i有相同或相似语义的词sim_ij，组成该文本主题词的语义相似词集合Sim，并统计语义相似词集合中所有词语的词频tf_ij；

词语的相似度值计算公式为：

其中，w_i代表词语，c_mi是筛选后的第i个概念对，n_i是第i个概念对所有的义原数。

S213：将该电力文本的主题词和语义相似词按词频按降序排列；

S214：取频率高于设定阈值的词语的组成高频词词集H。

进一步地，S3中，构建选择的电力新闻文本的文本网络图；具体步骤包括：

将文本以句子为节点，节点之间是否存在相似性关系确定边，构建文本网络图G＝(V,E,W)。如果两个节点间相似性大于设定阈值，则它们之间存在一条边，相似度的值就是边的权重，反之，则不存在边。收敛阈值设置为0.0001。

进一步地，S4中，基于文本网络图和高频词词集进行摘要提取处理，获取候选摘要句群；具体步骤包括：

S401：总结文本网络图的文本句子的上下文关系和文章的篇章结构信息；

S402：对TextRank算法计算出的收敛矩阵进行对应的调整；

S403：结合高频词词集，调整包含高频词的句子的权重，依据权重由大到小对句子进行排序，抽取排序靠前的M个句子组成摘要句，获得摘要候选句群。

进一步地，总结文本网络图的文本句子的上下文关系和文章的篇章结构信息，对TextRank算法计算出的收敛矩阵进行对应的调整；如图3所示，具体步骤包括：

S4021：对电力新闻文本进行预处理和特征提取，获得文本特征向量和句子一维向量；

S4022：根据句子一维向量和相似度计算公式，得到句子间的相似度矩阵；

S4023：根据文本句子位置因素、标题因素、总结句子和句子长度因素，对TextRank算法做出改进，并调整迭代收敛矩阵。

进一步地，所述S4021中，对电力新闻文本进行预处理的具体步骤为：

S40211：以句子为文本单元，对文本进行预处理，包括分词、分句、分段以及词性标注，得到句子的特征项；

S40212：对特征项进行去除停用词、去除敏感词、词性过滤处理，只保留具有设定词性的词项；

S40213：删除低频词，目的是降低特征空间的维数；

S40214：对得到的词项进行同近义词归并、聚类和分类处理。

进一步地，所述S4021中，对电力新闻文本进行特征提取的步骤包括：

使用TF-IDF(term frequency–inverse document frequency，词频-逆文本频率)进行特征提取。

文本特征词向量D_key，D_key＝[key₁:f₁,…,key_j:f_j,…,key_h:f_h](1≤j≤h),h是当前文本中所有特征词的总和，f_j是特征词key_j的词频。

句子S_i的一维向量，S_ih＝[key_i1:wf_i1,…,key_ij:wf_ij,…,key_ih:wf_ih](1≤j≤h),wfre_ij是特征词key_ij的词频。

所有的一维向量构成矩阵M_n×h，其中S_ih表示矩阵M的第i行，key_ij:wf_ij对应S_i中的每一列。

进一步地，所述S4022中，根据句子一维向量和相似度计算公式，得到句子间的相似度矩阵；具体步骤包括：

将公式(10)与相似度计算公式结合，得到句子间的相似度矩阵S_n×n：

文本网络图G中各个节点的权重迭代计算公式为：

在公式(12)中，WS(V_i)是节点V_i的权重值；d是阻尼系数，一般d的取值为0.85；In(V_i)是指向节点V_i的所有节点的集合；Out(V_i)是节点V_i所指向的所有节点的集合；WS(V_j)表示上一次迭代后节点V_j的权重值。

文本网络图中节点的初始权重值均设为1/|V|，即B₀＝(1,…,1)^T。

B_i＝SM_n×n·B_i-1 (13)

公式(13)经过若干次迭代计算，当B_i和B_i-1的差值无限趋于零时，停止迭代计算，算法结束。此时得到的向量包含各个节点权重值，按降序进行排序，得到相应的排名。

进一步地，所述S4023中，根据文本句子位置因素、标题因素、总结句子和句子长度因素，对TextRank算法做出改进，并调整迭代收敛矩阵；具体步骤包括：

S40231：引入文本句子位置因素，根据句子位置调整收敛的权重：

阈值e₁、e₂取值分别为0.5、0.1。得到的向量调整矩阵B_i。

S40232：文本中标题因素产生的影响分为两个方面，一是句子层面，即标题句子与文本中的句子的相似度，二是单词层面，即每个句子的特征词是否出现在标题中：

句子层面：根据公式(15)提升相应的句子权重。

获得向量T_n×1＝[h₁,h₂,…,h_n]^T，调整矩阵B_i。

单词层面：句子的特征词在文本标题中出现，单词权重提升1.5倍，不出现权重保持不变。

S40233：删除不适合作为摘要的句子，如：字数小于或等于6的句子、疑问句等。

S40234：过长过短的句子会影响摘要信息的传递，为保证摘要句子正常的信息表达，定义句子长度系数，对句子长度进行过滤。

在公式(16)中，l为句子的长度，最长句子的长度表示为l_m。删除r_l<0.2以及r_l>0.8的句子。

经过步骤S40231-S40234处理后，对迭代计算至收敛的矩阵进行调整完成。

进一步地，所述S403中，结合高频词词集，调整包含高频词的句子的权重；具体步骤包括：

对于包含高频词的句子，根据其包含的高频词个数，对句子权重加以提升，如句子s₁包含2个高频词，则s₁的权重提升1.2倍，句子s₅包含5个高频词，则其权重提升1.5倍，对于不包含高频词的句子，其权重保持不变。

构筑电力文本网络图，计算文本中各词语和句子的权重，考虑到文章中的句子上下文信息和文章的篇章结构等外部因素所带来的影响，引入段落位置、句子位置、标题等因素，对TextRank算法得出的收敛矩阵进行调整(如图4所示)。同时考虑文章内部因素所带来的影响，引入获得的高频词集，调整相关词语和句子的权重，依据权重值按一定比例输出摘要句子，最终获得摘要候选句群。为了去除具有相似性信息的句子，需要对候选摘要句群做冗余处理，生成文本的初版摘要。

进一步地，S4中，对候选摘要句群进行去冗余，得到初版摘要；具体步骤包括：

对候选摘要句群做冗余处理时，利用余弦相似度来判别冗余信息。在计算时，需要依据构建文本网络图时获得的相似度进行初次排序，随后引入惩罚因子，对所有初次排序后的文本句子重新打分，计算公式如公式(17)所示：

p*score(i)+(1-p)*similartity(i，i-1) (17)

其中，序号i表示排序后句子的顺序。

对初次排序后句子，从第二句开始，后面的句子依次与前一个句子的相似度进行惩罚。删除相似度数值高的句子。

进一步地，S4中，对初版摘要进行优化得到最终版摘要；具体步骤包括：

以句子为单位，为原文本的所有句子添加序号标签，然后使用文本匹配算法，获得初版摘要中句子的标签序号，并按序号顺序输出初版摘要中的每个句子，生成最终文本摘要；将最终的文本摘要推送给相关企业或者电力用户。

S401：获得原文句子的序号标签；

S402：计算初版摘要中句子与原文中句子的相似度；

S403：取相似度为1的句子序号作为初版摘要句子的序号；

S404：获得初版摘要中所有句子的标签序号；

S405：依据标签序号有小到大的顺序输出初版摘要中的句子，生成最终摘要。

初版摘要进一步优化是为了获得文本中每个句子在原文中出现的先后顺序，为每个句子添加序号标签。初版摘要中的句子是按照权重值大小排序的句子，可能存在句子前后表达不连贯的问题，如果按照句子在原文中出现的顺序输出，在一定程度上，能够使生成的摘要具有一定的语义连贯性。文本匹配算法，依次获得初版摘要中所有句子的序号标签，然后按标签序号由小到大的顺序进行输出，即可获得最终的摘要。

具体地，首先确定句子划分单元和划分标记，便于文本内容的合理划分和文本句子的后续匹配。其次实现为文本句子按原文出现的顺序添加序号标签的功能，最后输入当前文本，使该文本中所有句子按原文出现的顺序都有独特的序号标签。

采用文本匹配算法，将初版摘要中的句子进行原文匹配时，必须是精确匹配，因为初版摘要中的所有句子均为当前文本中的句子。文本匹配算法有很多，因为主要是获得文本的序号标签，所以采用文本相似度来实现文本内容的匹配。

这样得到的摘要既考虑文本句子的权重，也融入了句子在原文出现的先后顺序。

将电力网络舆情行为监测与市场分析平台采集到的电力文本经过计算和分析提取，生成相关的电力摘要推送给相关企业或者电力用户，使用户在短时间内及时快速获取与电力相关的政策新闻等信息。

具体地，基于本文A部分采集到的6000篇电力文本，经过以上步骤，获得相应的摘要，以P、R、F值作为评判标准，以传统的TextRank算法、TopicModel算法(基于部分文本信息和篇章结构改进TextRank算法)为参考，结果如图5所示，本专利的方法获得的摘要P、R、F值最好。

图6和图7是应用举例，图6是应用范文，图7是两种摘要提取方法的对比，一是本专利的方法，另一个是利用TextRank和主题模型LDA方法生成的摘要，简称为传统方法。黄色部分标注的是文本主题词。通读生成的文本摘要，传统方法生成的摘要包含的文本主题词较少，且句子语序凌乱，是因为传统方法的句子是以句子的权重值为基准的。本专利方法产生的摘要结果在文本主题表达和语义连贯性方面最好，是因为采用了聚类、主题模型以及句子上下文和篇章结构，并按照句子在原文中出现的顺序输出句子。

实施例二，本实施例还提供了基于主题聚类的电力舆情摘要提取优化系统；

基于主题聚类的电力舆情摘要提取优化系统，包括：

实施例三，本实施例还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例一所述方法的步骤。

实施例四，本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述方法的步骤。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.基于主题聚类的电力舆情摘要提取优化方法，其特征是，包括：

获取待提取摘要的电力行业新闻文本；

对待提取摘要的电力行业新闻文本以句子为单位进行聚类；使用隐含狄利克雷分布LDA对聚类结果进行主题词抽取，获取该电力文本的主题词；

对待提取摘要的电力行业新闻文本，构建文本网络图；

2.如权利要求1所述的方法，其特征是，对待提取摘要的电力行业新闻文本以句子为单位进行聚类；具体步骤包括：

S201：计算某一篇电力新闻文本Doc中所有句子的期望密度；

S207：基于初始聚类中心，将该电力新闻文本分为k个类簇。

3.如权利要求1所述的方法，其特征是，统计待提取摘要的电力行业新闻文本中，与文本主题词有相同或相近语义的词语及其词频，并将其与文本主题词进行合并，获得电力行业新闻文本对应主题下的高频词词集；具体步骤包括：

S212：统计与文本主题词有相同或相似语义的词语及其词频；

S213：将文本主题词与语义相似词按词频排序；

S214：取频率高于设定阈值的词语的组成高频词词集。

4.如权利要求1所述的方法，其特征是，构建选择的电力新闻文本的文本网络图；具体步骤包括：

将文本以句子为节点，节点之间是否存在相似性关系确定边，构建文本网络图G＝(V,E,W)；如果两个节点间相似性大于设定阈值，则它们之间存在一条边，相似度的值就是边的权重，反之，则不存在边。

5.如权利要求1所述的方法，其特征是，基于文本网络图和高频词词集进行摘要提取处理，获取候选摘要句群；具体步骤包括：

S402：对TextRank算法计算出的收敛矩阵进行对应的调整；

6.如权利要求5所述的方法，其特征是，总结文本网络图的文本句子的上下文关系和文章的篇章结构信息，对TextRank算法计算出的收敛矩阵进行对应的调整；具体步骤包括：

S4023：根据文本句子位置因素、标题因素、总结句子和句子长度因素，对TextRank算法做出改进，并调整迭代收敛矩阵；

或者，

所述S4021中，对电力新闻文本进行预处理的具体步骤为：

S40213：删除低频词，目的是降低特征空间的维数；

S40214：对得到的词项进行同近义词归并、聚类和分类处理。

7.如权利要求1所述的方法，其特征是，对初版摘要进行优化得到最终版摘要；具体步骤包括：

以句子为单位，为原文本的所有句子添加序号标签，然后使用文本匹配算法，获得初版摘要中句子的标签序号，并按序号顺序输出初版摘要中的每个句子，生成最终文本摘要；将最终的文本摘要推送给相关企业或者电力用户；

或者，

对初版摘要进行优化得到最终版摘要；具体步骤包括：

S401：获得原文句子的序号标签；

S402：计算初版摘要中句子与原文中句子的相似度；

S403：取相似度为1的句子序号作为初版摘要句子的序号；

S404：获得初版摘要中所有句子的标签序号；

8.基于主题聚类的电力舆情摘要提取优化系统，其特征是，包括：

9.一种电子设备，其特征是，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，权利要求1-7任一项方法所述的步骤。

10.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，权利要求1-7任一项方法所述的步骤。