CN111090731A - 基于主题聚类的电力舆情摘要提取优化方法及系统 - Google Patents
基于主题聚类的电力舆情摘要提取优化方法及系统 Download PDFInfo
- Publication number
- CN111090731A CN111090731A CN201911330354.1A CN201911330354A CN111090731A CN 111090731 A CN111090731 A CN 111090731A CN 201911330354 A CN201911330354 A CN 201911330354A CN 111090731 A CN111090731 A CN 111090731A
- Authority
- CN
- China
- Prior art keywords
- text
- abstract
- words
- sentences
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000000605 extraction Methods 0.000 title claims abstract description 35
- 238000005457 optimization Methods 0.000 title claims abstract description 17
- 238000010586 diagram Methods 0.000 claims abstract description 24
- 238000012545 processing Methods 0.000 claims abstract description 15
- 239000013598 vector Substances 0.000 claims description 31
- 239000011159 matrix material Substances 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 2
- 238000003064 k means clustering Methods 0.000 description 8
- 238000005070 sampling Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 230000009193 crawling Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于主题聚类的电力舆情摘要提取优化方法及系统,包括:获取待提取摘要的电力行业新闻文本;对待提取摘要的电力行业新闻文本以句子为单位进行聚类;使用隐含狄利克雷分布LDA对聚类结果进行主题词抽取,获取该电力文本的主题词;统计待提取摘要的电力行业新闻文本中,与文本主题词有相同或相近语义的词语及其词频,并将其与文本主题词进行合并,获得电力行业新闻文本对应主题下的高频词词集;对待提取摘要的电力行业新闻文本,构建文本网络图;基于文本网络图和高频词词集进行摘要提取处理,获取候选摘要句群;对候选摘要句群进行去冗余,得到初版摘要;对初版摘要进行优化得到最终版摘要,将最终版摘要输出。
Description
技术领域
本公开涉及舆情摘要提取技术领域,特别是涉及基于主题聚类的电力舆情摘要提取优化方法及系统。
背景技术
本部分的陈述仅仅是提到了与本公开相关的背景技术,并不必然构成现有技术。
电力行业关乎国计民生,电力相关事件往往受到广大民众和媒体的广泛关注。电力舆情文本自动摘要提取基于网页爬取的文本信息,利用数据处理技术提取或生成内容提要,从而完成对文章核心信息的描述。该技术的应用能够使电力企业在信息爆炸时代及时掌控电力舆情信息,辅助电力用户发现了解并利用相关的电力政策和新闻,进行有效的控制处理,有利于提升企业的舆情监控能力和应对能力。
在实现本公开的过程中,发明人发现现有技术中存在以下技术问题:
目前的文本自动摘要研究大多倾向于从原始文本中抽取表达文本核心思想的句子,使最终生成的摘要尽可能的包含文章原文所要表达的信息。文本自动摘要的生成算法很多,总结归纳发现,一方面是从外部影响因素出发,如考虑文章的结构信息、图模型结构,或者是将多种方法进行融合,来改进或优化摘要提取算法;另一方面是从影响摘要提取的内部因素出发,借助相关算法挖掘文本信息,提取文章的主题,来提高生成文本摘要的质量。然而上述方法均存在考虑因素不全面、生成的摘要冗余信息高、原文主题不清晰及语义不连贯等问题。综上所述,电力舆情自动摘要的生成缺乏行之有效的解决方案。
发明内容
为了解决现有技术的不足,本公开提供了基于二次主题聚类的电力舆情摘要提取方法及系统;
第一方面,本公开提供了基于主题聚类的电力舆情摘要提取优化方法;
基于主题聚类的电力舆情摘要提取优化方法,包括:
获取待提取摘要的电力行业新闻文本;
对待提取摘要的电力行业新闻文本以句子为单位进行聚类;使用隐含狄利克雷分布对聚类结果进行主题词抽取,获取该电力文本的主题词;
统计待提取摘要的电力行业新闻文本中,与文本主题词有相同或相近语义的词语及其词频,并将其与文本主题词进行合并,获得电力行业新闻文本对应主题下的高频词词集;
对待提取摘要的电力行业新闻文本,构建文本网络图;
基于文本网络图和高频词词集进行摘要提取处理,获取候选摘要句群;对候选摘要句群进行去冗余,得到初版摘要;对初版摘要进行优化得到最终版摘要,将最终版摘要输出。
第二方面,本公开还提供了基于主题聚类的电力舆情摘要提取优化系统;
基于主题聚类的电力舆情摘要提取优化系统,包括:
获取模块,其被配置为:获取待提取摘要的电力行业新闻文本;
聚类模块,其被配置为:对待提取摘要的电力行业新闻文本以句子为单位进行聚类;使用隐含狄利克雷分布对聚类结果进行主题词抽取,获取该电力文本的主题词;
统计模块,其被配置为:统计待提取摘要的电力行业新闻文本中,与文本主题词有相同或相近语义的词语及其词频,并将其与文本主题词进行合并,获得电力行业新闻文本对应主题下的高频词词集;
构建模块,其被配置为:对待提取摘要的电力行业新闻文本,构建文本网络图;
摘要输出模块,其被配置为:基于文本网络图和高频词词集进行摘要提取处理,获取候选摘要句群;对候选摘要句群进行去冗余,得到初版摘要;对初版摘要进行优化得到最终版摘要,将最终版摘要输出。
第三方面,本公开还提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述方法的步骤。
第四方面,本公开还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述方法的步骤。
与现有技术相比,本公开的有益效果是:
(1)本公开通过对电力文本进行聚类来挖掘文章的主题词。为保证选出的初始聚类中心点能够有效地代表类簇,并保证类簇间的独立性,对传统的K-Means聚类算法进行改进,在本公开中称为基于密度最大距离最远原则优化的K-Means聚类算法,以实现对某电力文章的句子级分析,从而降低摘要提取过程中的干扰因素,提高提取摘要的质量;
(2)本公开从影响摘要提取的客观因素出发,构建文本网络图,融入电力文本的篇章结构和句子的上下文关系,对TextRank算法做出改进,并根据影响因素调整收敛矩阵中相关词句的权重;
(3)本公开从影响摘要提取的内部因素出发,使生成的摘要能够紧贴文本主题,使用主题模型LDA对文章进行主题提取,获得电力文本的句子级类簇所对应的主题词。通过主题词和相似词频结合生成高频词集,对矩阵中包含高频词的句子权重进行了最后的调整,以使最终生成的摘要能够体现文章的主题,提高提取摘要的质量;
(4)本公开为了避免摘要提取过程中出现较多的相似句子,使得文本信息的表述出现重复冗余,对摘要候选句群做进一步的去重处理,删除其中相似度较高的句子,使最终获得的摘要具有高概括性和低冗余性;
(5)为保障最终提取摘要的可读性和连贯性,首先对句子进行标签化,即为原文本的每个句子添加标签,以标注句子在原文中的语序,其次根据文本匹配算法,获得初版摘要中的句子所对应的标签序号,并由小到大顺序输出文章句子,即可得到最终摘要。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本公开实施例提供的主题聚类的与TextRank方法结合的电力文本摘要提取优化方法的整体流程图;
图2为本公开实施例提供的主题模型LDA的模型表示图;
图3为本公开实施例提供的文本预处理流程;
图4为本公开实施例提供的利用文章的篇章结构和句子的上下文信息对TextRank算法做出改进的算法流程图;
图5为本公开实施例提供的各算法提取摘要的平均准确率(P)、平均召回率(R)和平均F值(F)数据对比柱状图;
图6为本公开实施例提供的示例文本;
图7为本公开实施例提供的示例文本提取摘要质量对比图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一,本实施例提供了基于主题聚类的电力舆情摘要提取优化方法;
如图1所示,基于主题聚类的电力舆情摘要提取优化方法,包括:
S1:获取待提取摘要的电力行业新闻文本;
S2:对待提取摘要的电力行业新闻文本以句子为单位进行聚类;使用隐含狄利克雷分布(Latent Dirichlet Allocation,以下简称为:LDA主题模型)对聚类结果进行主题词抽取,获取该电力文本的主题词;
统计待提取摘要的电力行业新闻文本中,与文本主题词有相同或相近语义的词语及其词频,并将其与文本主题词进行合并,获得电力行业新闻文本对应主题下的高频词词集;
S3:对待提取摘要的电力行业新闻文本,构建文本网络图;
S4:基于文本网络图和高频词词集进行摘要提取处理,获取候选摘要句群;对候选摘要句群进行去冗余,得到初版摘要;对初版摘要进行优化得到最终版摘要,将最终版摘要输出。
进一步地,S1中,获取待提取摘要的电力行业新闻文本的具体步骤包括:
S101:基于网页爬取待提取摘要的电力行业新闻文本;
具体地,基于某市某地区的电力网络舆情行为监测及市场分析平台为应用实例,基于爬虫技术爬取该地网站上发布的与电力有关的政策、新闻信息,共抓取6536条相关文章,为消除数据差距较大带来的影响,去除篇幅过长和过短的文章,最终取其中约6000篇文章作为参考。
进一步地,S101中,爬取待提取摘要的电力行业新闻文本,还允许从网站、微博、微信和论坛等平台来进行爬取。
进一步地,S2中,对待提取摘要的电力行业新闻文本以句子为单位进行聚类;本公开使用改进的k-means聚类算法,在此称为基于密度最大距离最远原则优化的K-Means聚类算法,具体步骤包括:
选择某篇电力行业新闻文本Di,对其使用基于密度最大距离最远原则优化初始聚类中心的K-Means聚类算法,形成句子类簇。
聚类对电力新闻文本表述的内容进行细粒度的划分和归类,便于下一步使用主题模型抽取该文本的文本主题词。
因为K-Means聚类的结果受初始聚类中心的影响,对传统的K-Means聚类做出改进,所以使用基于密度最大距离最远原则优化初始聚类中心的K-Means聚类算法,使用该方法获得的初始聚类中心相对分散,在代表类簇的同时,还能够保证类簇之间的独立性,避免算法陷入局部最优而不是全局最优的状态。
进一步地,S2中,对待提取摘要的电力行业新闻文本以句子为单位进行聚类;具体步骤包括:
S201:计算某一篇电力新闻文本Doc中所有句子的期望密度;
S202:查找距离文本中所有句子最近的α邻域空间的密度半径βi;
S203:依据密度半径从小到大对待提取摘要的电力新闻文本中的所有句子向量进行排序;
S204:选择最小的密度半径对应的句子向量作为第一个初始聚类中心,更新初始聚类中心集合S;
S205:计算已选为初始聚类中心的句子与待筛选集合D-S中的句子si的独立距离和中心度,选择中心度最大的句子向量添加到初始聚类中心集合S中;
S206:重复步骤S205,直到初始聚类中心集合S中的句子向量数达到聚类数目期望值,算法结束;
S207:基于初始聚类中心,将该电力新闻文本分为k个类簇。
S201的具体步骤包括:定义类簇中某篇文档所有句子向量集合S,句子总数N,初始聚类中心集合S(最初为空集),生成的摘要句个数q;根据公式(5)计算期望密度;
Eα=N/q (5)
S202的具体步骤包括:任选句子si作为中心,查找距离句子si最近的α邻域空间的密度半径βi,α邻域空间的定义如公式(6)所示:
α=0.6×Eα (6)
S204的步骤包括:第一个初始聚类中心选择βi最小的句子向量si,并将si添加到初始聚类中心集合S;
S205的步骤包括:根据公式(7)计算sj(sj∈D-S)与S中向量间的独立距离,根据公式(8)计算中心度的值,选择中心度最大的句子向量作为下一个初始聚类中心添加到S中;
独立距离计算公式:
Distance(sj,S)=min{d(si,sj),si∈S} (7)
中心度计算公式:
将集合S和待筛选集合D-S中的句子向量进行更新。
S207的步骤包括:初始聚类中心就是集合S中所有的句子向量,对S中所有的句子向量执行K-means算法,得到最终的k个句子簇类。
通过获得的k个初始聚类中心句,既保证了句子类簇中有较大的相异度,也保证了该中心向量中的数据密集分布。
进一步地,S2中,使用隐含狄利克雷分布(Latent Dirichlet Allocation,以下简称为:LDA主题模型)对聚类结果进行主题词抽取,获取该电力文本的主题词;经过改进的K-Means算法聚类的文本,在一定程度上具有相同或类似的主题。主题模型LDA能够识别大规模文本集中潜在的主题信息,并按照概率分布的方式给出。因此使用主题模型LDA对聚类后的电力文本进行主题提取,可以获得该类簇包含的文本所对应的主题,进而获悉该类簇包含文本的主要含义。
具体地,结合图2,LDA主题模型的一般表示如下:对于文本D,首先制定该文本的主题个数K,文本D和主题K之间对应着多项分布θ,该多项分布θ又对应着带有超参数α的狄利克雷先验分布;同样地,文本的每个主题又与预处理后的词汇表中的单词形成另一个多项分布φ,该多项分布φ对应带有超参数β的狄利克雷先验分布。
综上所述,对于给定的文本D,经过预处理得到该文本的词汇表,从文本对应的多项分布θ中随机抽取主题Ti,从主题Ti对应的多项分布φ中获得单词W,将上述过程重复Nm次,即可形成原文。
主题模型LDA训练过程:
(1)为语料库中的所有文本的全部单词随机分配一个主题编号;
(2)扫描文本语料库,采用吉布斯采样公式为全部的单词进行采样,得到并更新单词对应的新主题。吉布斯采样公式如下:
(3)重复上述步骤(2),直到吉布斯采样收敛。
(4)主题模型LDA就是得到的话题-单词共现频率矩阵。
在本公开中将借助于现有工具模型,即主题模型LDA。对每个句子类簇,使用主题模型LDA进行句子级主题词抽取,获取若干个句子级主题词,组成该电力文本的主题词。
进一步地,S2中,统计待提取摘要的电力行业新闻文本中,与文本主题词有相同或相近语义的词语及其词频,并将其与文本主题词进行合并,获得电力行业新闻文本对应主题下的高频词词集;具体步骤包括:
S211:统计某个待提取摘要的电力行业新闻文本的所有由聚类挖掘出的主题词组成的集合及主题词词频;
S212:统计与文本主题词有相同或相似语义的词语及其词频;
S213:将文本主题词与语义相似词按词频排序;
S214:取频率高于设定阈值的词语的组成高频词词集。
其中,高频词语是指出现频率高于设定阈值的词语。
进一步地,S2中,统计待提取摘要的电力行业新闻文本中,与文本主题词有相同或相近语义的词语及其词频,并将其与文本主题词进行合并,获得电力行业新闻文本对应主题下的高频词词集;具体步骤包括:
S211:统计电力行业新闻文本Di中的所有文本主题词Ti及其词频tfi;
S212:借助基于中国知网(CNKI,China National Knowledge Infrastructure)的语义相似度算法,统计与文本主题词Ti有相同或相似语义的词simij,组成该文本主题词的语义相似词集合Sim,并统计语义相似词集合中所有词语的词频tfij;
词语的相似度值计算公式为:
其中,wi代表词语,cmi是筛选后的第i个概念对,ni是第i个概念对所有的义原数。
S213:将该电力文本的主题词和语义相似词按词频按降序排列;
S214:取频率高于设定阈值的词语的组成高频词词集H。
进一步地,S3中,构建选择的电力新闻文本的文本网络图;具体步骤包括:
将文本以句子为节点,节点之间是否存在相似性关系确定边,构建文本网络图G=(V,E,W)。如果两个节点间相似性大于设定阈值,则它们之间存在一条边,相似度的值就是边的权重,反之,则不存在边。收敛阈值设置为0.0001。
进一步地,S4中,基于文本网络图和高频词词集进行摘要提取处理,获取候选摘要句群;具体步骤包括:
S401:总结文本网络图的文本句子的上下文关系和文章的篇章结构信息;
S402:对TextRank算法计算出的收敛矩阵进行对应的调整;
S403:结合高频词词集,调整包含高频词的句子的权重,依据权重由大到小对句子进行排序,抽取排序靠前的M个句子组成摘要句,获得摘要候选句群。
进一步地,总结文本网络图的文本句子的上下文关系和文章的篇章结构信息,对TextRank算法计算出的收敛矩阵进行对应的调整;如图3所示,具体步骤包括:
S4021:对电力新闻文本进行预处理和特征提取,获得文本特征向量和句子一维向量;
S4022:根据句子一维向量和相似度计算公式,得到句子间的相似度矩阵;
S4023:根据文本句子位置因素、标题因素、总结句子和句子长度因素,对TextRank算法做出改进,并调整迭代收敛矩阵。
进一步地,所述S4021中,对电力新闻文本进行预处理的具体步骤为:
S40211:以句子为文本单元,对文本进行预处理,包括分词、分句、分段以及词性标注,得到句子的特征项;
S40212:对特征项进行去除停用词、去除敏感词、词性过滤处理,只保留具有设定词性的词项;
S40213:删除低频词,目的是降低特征空间的维数;
S40214:对得到的词项进行同近义词归并、聚类和分类处理。
进一步地,所述S4021中,对电力新闻文本进行特征提取的步骤包括:
使用TF-IDF(term frequency–inverse document frequency,词频-逆文本频率)进行特征提取。
文本特征词向量Dkey,Dkey=[key1:f1,…,keyj:fj,…,keyh:fh](1≤j≤h),h是当前文本中所有特征词的总和,fj是特征词keyj的词频。
句子Si的一维向量,Sih=[keyi1:wfi1,…,keyij:wfij,…,keyih:wfih](1≤j≤h),wfreij是特征词keyij的词频。
所有的一维向量构成矩阵Mn×h,其中Sih表示矩阵M的第i行,keyij:wfij对应Si中的每一列。
进一步地,所述S4022中,根据句子一维向量和相似度计算公式,得到句子间的相似度矩阵;具体步骤包括:
将公式(10)与相似度计算公式结合,得到句子间的相似度矩阵Sn×n:
文本网络图G中各个节点的权重迭代计算公式为:
在公式(12)中,WS(Vi)是节点Vi的权重值;d是阻尼系数,一般d的取值为0.85;In(Vi)是指向节点Vi的所有节点的集合;Out(Vi)是节点Vi所指向的所有节点的集合;WS(Vj)表示上一次迭代后节点Vj的权重值。
文本网络图中节点的初始权重值均设为1/|V|,即B0=(1,…,1)T。
Bi=SMn×n·Bi-1 (13)
公式(13)经过若干次迭代计算,当Bi和Bi-1的差值无限趋于零时,停止迭代计算,算法结束。此时得到的向量包含各个节点权重值,按降序进行排序,得到相应的排名。
进一步地,所述S4023中,根据文本句子位置因素、标题因素、总结句子和句子长度因素,对TextRank算法做出改进,并调整迭代收敛矩阵;具体步骤包括:
S40231:引入文本句子位置因素,根据句子位置调整收敛的权重:
阈值e1、e2取值分别为0.5、0.1。得到的向量调整矩阵Bi。
S40232:文本中标题因素产生的影响分为两个方面,一是句子层面,即标题句子与文本中的句子的相似度,二是单词层面,即每个句子的特征词是否出现在标题中:
句子层面:根据公式(15)提升相应的句子权重。
获得向量Tn×1=[h1,h2,…,hn]T,调整矩阵Bi。
单词层面:句子的特征词在文本标题中出现,单词权重提升1.5倍,不出现权重保持不变。
S40233:删除不适合作为摘要的句子,如:字数小于或等于6的句子、疑问句等。
S40234:过长过短的句子会影响摘要信息的传递,为保证摘要句子正常的信息表达,定义句子长度系数,对句子长度进行过滤。
在公式(16)中,l为句子的长度,最长句子的长度表示为lm。删除rl<0.2以及rl>0.8的句子。
经过步骤S40231-S40234处理后,对迭代计算至收敛的矩阵进行调整完成。
进一步地,所述S403中,结合高频词词集,调整包含高频词的句子的权重;具体步骤包括:
对于包含高频词的句子,根据其包含的高频词个数,对句子权重加以提升,如句子s1包含2个高频词,则s1的权重提升1.2倍,句子s5包含5个高频词,则其权重提升1.5倍,对于不包含高频词的句子,其权重保持不变。
构筑电力文本网络图,计算文本中各词语和句子的权重,考虑到文章中的句子上下文信息和文章的篇章结构等外部因素所带来的影响,引入段落位置、句子位置、标题等因素,对TextRank算法得出的收敛矩阵进行调整(如图4所示)。同时考虑文章内部因素所带来的影响,引入获得的高频词集,调整相关词语和句子的权重,依据权重值按一定比例输出摘要句子,最终获得摘要候选句群。为了去除具有相似性信息的句子,需要对候选摘要句群做冗余处理,生成文本的初版摘要。
进一步地,S4中,对候选摘要句群进行去冗余,得到初版摘要;具体步骤包括:
对候选摘要句群做冗余处理时,利用余弦相似度来判别冗余信息。在计算时,需要依据构建文本网络图时获得的相似度进行初次排序,随后引入惩罚因子,对所有初次排序后的文本句子重新打分,计算公式如公式(17)所示:
p*score(i)+(1-p)*similartity(i,i-1) (17)
其中,序号i表示排序后句子的顺序。
对初次排序后句子,从第二句开始,后面的句子依次与前一个句子的相似度进行惩罚。删除相似度数值高的句子。
进一步地,S4中,对初版摘要进行优化得到最终版摘要;具体步骤包括:
以句子为单位,为原文本的所有句子添加序号标签,然后使用文本匹配算法,获得初版摘要中句子的标签序号,并按序号顺序输出初版摘要中的每个句子,生成最终文本摘要;将最终的文本摘要推送给相关企业或者电力用户。
进一步地,S4中,对初版摘要进行优化得到最终版摘要;具体步骤包括:
S401:获得原文句子的序号标签;
S402:计算初版摘要中句子与原文中句子的相似度;
S403:取相似度为1的句子序号作为初版摘要句子的序号;
S404:获得初版摘要中所有句子的标签序号;
S405:依据标签序号有小到大的顺序输出初版摘要中的句子,生成最终摘要。
初版摘要进一步优化是为了获得文本中每个句子在原文中出现的先后顺序,为每个句子添加序号标签。初版摘要中的句子是按照权重值大小排序的句子,可能存在句子前后表达不连贯的问题,如果按照句子在原文中出现的顺序输出,在一定程度上,能够使生成的摘要具有一定的语义连贯性。文本匹配算法,依次获得初版摘要中所有句子的序号标签,然后按标签序号由小到大的顺序进行输出,即可获得最终的摘要。
具体地,首先确定句子划分单元和划分标记,便于文本内容的合理划分和文本句子的后续匹配。其次实现为文本句子按原文出现的顺序添加序号标签的功能,最后输入当前文本,使该文本中所有句子按原文出现的顺序都有独特的序号标签。
采用文本匹配算法,将初版摘要中的句子进行原文匹配时,必须是精确匹配,因为初版摘要中的所有句子均为当前文本中的句子。文本匹配算法有很多,因为主要是获得文本的序号标签,所以采用文本相似度来实现文本内容的匹配。
这样得到的摘要既考虑文本句子的权重,也融入了句子在原文出现的先后顺序。
将电力网络舆情行为监测与市场分析平台采集到的电力文本经过计算和分析提取,生成相关的电力摘要推送给相关企业或者电力用户,使用户在短时间内及时快速获取与电力相关的政策新闻等信息。
具体地,基于本文A部分采集到的6000篇电力文本,经过以上步骤,获得相应的摘要,以P、R、F值作为评判标准,以传统的TextRank算法、TopicModel算法(基于部分文本信息和篇章结构改进TextRank算法)为参考,结果如图5所示,本专利的方法获得的摘要P、R、F值最好。
图6和图7是应用举例,图6是应用范文,图7是两种摘要提取方法的对比,一是本专利的方法,另一个是利用TextRank和主题模型LDA方法生成的摘要,简称为传统方法。黄色部分标注的是文本主题词。通读生成的文本摘要,传统方法生成的摘要包含的文本主题词较少,且句子语序凌乱,是因为传统方法的句子是以句子的权重值为基准的。本专利方法产生的摘要结果在文本主题表达和语义连贯性方面最好,是因为采用了聚类、主题模型以及句子上下文和篇章结构,并按照句子在原文中出现的顺序输出句子。
实施例二,本实施例还提供了基于主题聚类的电力舆情摘要提取优化系统;
基于主题聚类的电力舆情摘要提取优化系统,包括:
获取模块,其被配置为:获取待提取摘要的电力行业新闻文本;
聚类模块,其被配置为:对待提取摘要的电力行业新闻文本以句子为单位进行聚类;使用隐含狄利克雷分布对聚类结果进行主题词抽取,获取该电力文本的主题词;
统计模块,其被配置为:统计待提取摘要的电力行业新闻文本中,与文本主题词有相同或相近语义的词语及其词频,并将其与文本主题词进行合并,获得电力行业新闻文本对应主题下的高频词词集;
构建模块,其被配置为:对待提取摘要的电力行业新闻文本,构建文本网络图;
摘要输出模块,其被配置为:基于文本网络图和高频词词集进行摘要提取处理,获取候选摘要句群;对候选摘要句群进行去冗余,得到初版摘要;对初版摘要进行优化得到最终版摘要,将最终版摘要输出。
实施例三,本实施例还提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例一所述方法的步骤。
实施例四,本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述方法的步骤。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.基于主题聚类的电力舆情摘要提取优化方法,其特征是,包括:
获取待提取摘要的电力行业新闻文本;
对待提取摘要的电力行业新闻文本以句子为单位进行聚类;使用隐含狄利克雷分布LDA对聚类结果进行主题词抽取,获取该电力文本的主题词;
统计待提取摘要的电力行业新闻文本中,与文本主题词有相同或相近语义的词语及其词频,并将其与文本主题词进行合并,获得电力行业新闻文本对应主题下的高频词词集;
对待提取摘要的电力行业新闻文本,构建文本网络图;
基于文本网络图和高频词词集进行摘要提取处理,获取候选摘要句群;对候选摘要句群进行去冗余,得到初版摘要;对初版摘要进行优化得到最终版摘要,将最终版摘要输出。
2.如权利要求1所述的方法,其特征是,对待提取摘要的电力行业新闻文本以句子为单位进行聚类;具体步骤包括:
S201:计算某一篇电力新闻文本Doc中所有句子的期望密度;
S202:查找距离文本中所有句子最近的α邻域空间的密度半径βi;
S203:依据密度半径从小到大对待提取摘要的电力新闻文本中的所有句子向量进行排序;
S204:选择最小的密度半径对应的句子向量作为第一个初始聚类中心,更新初始聚类中心集合S;
S205:计算已选为初始聚类中心的句子与待筛选集合D-S中的句子si的独立距离和中心度,选择中心度最大的句子向量添加到初始聚类中心集合S中;
S206:重复步骤S205,直到初始聚类中心集合S中的句子向量数达到聚类数目期望值,算法结束;
S207:基于初始聚类中心,将该电力新闻文本分为k个类簇。
3.如权利要求1所述的方法,其特征是,统计待提取摘要的电力行业新闻文本中,与文本主题词有相同或相近语义的词语及其词频,并将其与文本主题词进行合并,获得电力行业新闻文本对应主题下的高频词词集;具体步骤包括:
S211:统计某个待提取摘要的电力行业新闻文本的所有由聚类挖掘出的主题词组成的集合及主题词词频;
S212:统计与文本主题词有相同或相似语义的词语及其词频;
S213:将文本主题词与语义相似词按词频排序;
S214:取频率高于设定阈值的词语的组成高频词词集。
4.如权利要求1所述的方法,其特征是,构建选择的电力新闻文本的文本网络图;具体步骤包括:
将文本以句子为节点,节点之间是否存在相似性关系确定边,构建文本网络图G=(V,E,W);如果两个节点间相似性大于设定阈值,则它们之间存在一条边,相似度的值就是边的权重,反之,则不存在边。
5.如权利要求1所述的方法,其特征是,基于文本网络图和高频词词集进行摘要提取处理,获取候选摘要句群;具体步骤包括:
S401:总结文本网络图的文本句子的上下文关系和文章的篇章结构信息;
S402:对TextRank算法计算出的收敛矩阵进行对应的调整;
S403:结合高频词词集,调整包含高频词的句子的权重,依据权重由大到小对句子进行排序,抽取排序靠前的M个句子组成摘要句,获得摘要候选句群。
6.如权利要求5所述的方法,其特征是,总结文本网络图的文本句子的上下文关系和文章的篇章结构信息,对TextRank算法计算出的收敛矩阵进行对应的调整;具体步骤包括:
S4021:对电力新闻文本进行预处理和特征提取,获得文本特征向量和句子一维向量;
S4022:根据句子一维向量和相似度计算公式,得到句子间的相似度矩阵;
S4023:根据文本句子位置因素、标题因素、总结句子和句子长度因素,对TextRank算法做出改进,并调整迭代收敛矩阵;
或者,
所述S4021中,对电力新闻文本进行预处理的具体步骤为:
S40211:以句子为文本单元,对文本进行预处理,包括分词、分句、分段以及词性标注,得到句子的特征项;
S40212:对特征项进行去除停用词、去除敏感词、词性过滤处理,只保留具有设定词性的词项;
S40213:删除低频词,目的是降低特征空间的维数;
S40214:对得到的词项进行同近义词归并、聚类和分类处理。
7.如权利要求1所述的方法,其特征是,对初版摘要进行优化得到最终版摘要;具体步骤包括:
以句子为单位,为原文本的所有句子添加序号标签,然后使用文本匹配算法,获得初版摘要中句子的标签序号,并按序号顺序输出初版摘要中的每个句子,生成最终文本摘要;将最终的文本摘要推送给相关企业或者电力用户;
或者,
对初版摘要进行优化得到最终版摘要;具体步骤包括:
S401:获得原文句子的序号标签;
S402:计算初版摘要中句子与原文中句子的相似度;
S403:取相似度为1的句子序号作为初版摘要句子的序号;
S404:获得初版摘要中所有句子的标签序号;
S405:依据标签序号有小到大的顺序输出初版摘要中的句子,生成最终摘要。
8.基于主题聚类的电力舆情摘要提取优化系统,其特征是,包括:
获取模块,其被配置为:获取待提取摘要的电力行业新闻文本;
聚类模块,其被配置为:对待提取摘要的电力行业新闻文本以句子为单位进行聚类;使用隐含狄利克雷分布对聚类结果进行主题词抽取,获取该电力文本的主题词;
统计模块,其被配置为:统计待提取摘要的电力行业新闻文本中,与文本主题词有相同或相近语义的词语及其词频,并将其与文本主题词进行合并,获得电力行业新闻文本对应主题下的高频词词集;
构建模块,其被配置为:对待提取摘要的电力行业新闻文本,构建文本网络图;
摘要输出模块,其被配置为:基于文本网络图和高频词词集进行摘要提取处理,获取候选摘要句群;对候选摘要句群进行去冗余,得到初版摘要;对初版摘要进行优化得到最终版摘要,将最终版摘要输出。
9.一种电子设备,其特征是,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,权利要求1-7任一项方法所述的步骤。
10.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,权利要求1-7任一项方法所述的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911330354.1A CN111090731A (zh) | 2019-12-20 | 2019-12-20 | 基于主题聚类的电力舆情摘要提取优化方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911330354.1A CN111090731A (zh) | 2019-12-20 | 2019-12-20 | 基于主题聚类的电力舆情摘要提取优化方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111090731A true CN111090731A (zh) | 2020-05-01 |
Family
ID=70396203
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911330354.1A Pending CN111090731A (zh) | 2019-12-20 | 2019-12-20 | 基于主题聚类的电力舆情摘要提取优化方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111090731A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111858912A (zh) * | 2020-07-03 | 2020-10-30 | 黑龙江阳光惠远知识产权运营有限公司 | 一种基于单篇长文本的摘要生成方法 |
CN112347241A (zh) * | 2020-11-10 | 2021-02-09 | 华夏幸福产业投资有限公司 | 一种摘要提取方法、装置、设备及存储介质 |
CN113342928A (zh) * | 2021-05-07 | 2021-09-03 | 上海大学 | 一种基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法及其系统 |
CN113536779A (zh) * | 2021-07-21 | 2021-10-22 | 南京中孚信息技术有限公司 | 基于公文标题的热门话题数据处理方法、装置及电子设备 |
CN113780832A (zh) * | 2021-09-14 | 2021-12-10 | 平安科技(深圳)有限公司 | 舆情文本评分方法、装置、计算机设备和存储介质 |
CN115630160A (zh) * | 2022-12-08 | 2023-01-20 | 四川大学 | 一种基于半监督共现图模型的争议焦点聚类方法及系统 |
CN115713085A (zh) * | 2022-10-31 | 2023-02-24 | 北京市农林科学院 | 文献主题内容分析方法及装置 |
CN117077632A (zh) * | 2023-10-18 | 2023-11-17 | 北京国科众安科技有限公司 | 一种用于资讯主题的自动生成方法 |
CN117875908A (zh) * | 2024-03-08 | 2024-04-12 | 蒲惠智造科技股份有限公司 | 一种基于企业管理软件saas的工单处理方法和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834735A (zh) * | 2015-05-18 | 2015-08-12 | 大连理工大学 | 一种基于词向量的文档摘要自动提取方法 |
CN107437038A (zh) * | 2017-08-07 | 2017-12-05 | 深信服科技股份有限公司 | 一种网页篡改的检测方法及装置 |
CN108197111A (zh) * | 2018-01-10 | 2018-06-22 | 华南理工大学 | 一种基于融合语义聚类的文本自动摘要方法 |
-
2019
- 2019-12-20 CN CN201911330354.1A patent/CN111090731A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834735A (zh) * | 2015-05-18 | 2015-08-12 | 大连理工大学 | 一种基于词向量的文档摘要自动提取方法 |
CN107437038A (zh) * | 2017-08-07 | 2017-12-05 | 深信服科技股份有限公司 | 一种网页篡改的检测方法及装置 |
CN108197111A (zh) * | 2018-01-10 | 2018-06-22 | 华南理工大学 | 一种基于融合语义聚类的文本自动摘要方法 |
Non-Patent Citations (2)
Title |
---|
张小川: "一种改进的基于知网的词语语义相似度算法", 《计算机应用研究》 * |
李娜娜: "《中国优秀硕士学位论文全文数据库 信息科技辑》", 15 September 2019 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111858912A (zh) * | 2020-07-03 | 2020-10-30 | 黑龙江阳光惠远知识产权运营有限公司 | 一种基于单篇长文本的摘要生成方法 |
CN112347241A (zh) * | 2020-11-10 | 2021-02-09 | 华夏幸福产业投资有限公司 | 一种摘要提取方法、装置、设备及存储介质 |
CN113342928A (zh) * | 2021-05-07 | 2021-09-03 | 上海大学 | 一种基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法及其系统 |
CN113536779A (zh) * | 2021-07-21 | 2021-10-22 | 南京中孚信息技术有限公司 | 基于公文标题的热门话题数据处理方法、装置及电子设备 |
CN113536779B (zh) * | 2021-07-21 | 2024-02-02 | 南京中孚信息技术有限公司 | 基于公文标题的热门话题数据处理方法、装置及电子设备 |
CN113780832B (zh) * | 2021-09-14 | 2023-04-25 | 平安科技(深圳)有限公司 | 舆情文本评分方法、装置、计算机设备和存储介质 |
CN113780832A (zh) * | 2021-09-14 | 2021-12-10 | 平安科技(深圳)有限公司 | 舆情文本评分方法、装置、计算机设备和存储介质 |
CN115713085A (zh) * | 2022-10-31 | 2023-02-24 | 北京市农林科学院 | 文献主题内容分析方法及装置 |
CN115713085B (zh) * | 2022-10-31 | 2023-11-07 | 北京市农林科学院 | 文献主题内容分析方法及装置 |
CN115630160A (zh) * | 2022-12-08 | 2023-01-20 | 四川大学 | 一种基于半监督共现图模型的争议焦点聚类方法及系统 |
CN117077632A (zh) * | 2023-10-18 | 2023-11-17 | 北京国科众安科技有限公司 | 一种用于资讯主题的自动生成方法 |
CN117077632B (zh) * | 2023-10-18 | 2024-01-09 | 北京国科众安科技有限公司 | 一种用于资讯主题的自动生成方法 |
CN117875908A (zh) * | 2024-03-08 | 2024-04-12 | 蒲惠智造科技股份有限公司 | 一种基于企业管理软件saas的工单处理方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11573996B2 (en) | System and method for hierarchically organizing documents based on document portions | |
CN111090731A (zh) | 基于主题聚类的电力舆情摘要提取优化方法及系统 | |
Gambhir et al. | Recent automatic text summarization techniques: a survey | |
Bagheri et al. | Care more about customers: Unsupervised domain-independent aspect detection for sentiment analysis of customer reviews | |
Nagwani | Summarizing large text collection using topic modeling and clustering based on MapReduce framework | |
Peng et al. | Information extraction from research papers using conditional random fields | |
Wang et al. | Understanding evolution of research themes: a probabilistic generative model for citations | |
US20110055192A1 (en) | Full text query and search systems and method of use | |
Zhang et al. | Mike: keyphrase extraction by integrating multidimensional information | |
US20190392035A1 (en) | Information object extraction using combination of classifiers analyzing local and non-local features | |
WO2008046104A2 (en) | Methods and systems for knowledge discovery | |
Thomas et al. | Automatic keyword extraction for text summarization in e-newspapers | |
Kumar et al. | Hashtag recommendation for short social media texts using word-embeddings and external knowledge | |
Basha et al. | Evaluating the impact of feature selection on overall performance of sentiment analysis | |
Dhankhar et al. | A statistically based sentence scoring method using mathematical combination for extractive Hindi text summarization | |
Kumari | Text mining and pre-processing methods for social media data extraction and processing | |
Bahloul et al. | ArA* summarizer: An Arabic text summarization system based on subtopic segmentation and using an A* algorithm for reduction | |
Jain et al. | FLAKE: fuzzy graph centrality-based automatic keyword extraction | |
Rousseau | Graph-of-words: mining and retrieving text with networks of features | |
Ullah et al. | Pattern and semantic analysis to improve unsupervised techniques for opinion target identification | |
Wang et al. | Extracting discriminative keyphrases with learned semantic hierarchies | |
Maylawati et al. | Feature-based approach and sequential pattern mining to enhance quality of Indonesian automatic text summarization | |
Zhao et al. | Learning topics using semantic locality | |
Kokatnoor et al. | A Two-Stepped Feature Engineering Process for Topic Modeling Using Batchwise LDA with Stochastic Variational Inference Model. | |
Thambi et al. | Graph based document model and its application in keyphrase extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200501 |