CN117057349A - 新闻文本关键词抽取方法、装置、计算机设备和存储介质 - Google Patents
新闻文本关键词抽取方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN117057349A CN117057349A CN202310848446.9A CN202310848446A CN117057349A CN 117057349 A CN117057349 A CN 117057349A CN 202310848446 A CN202310848446 A CN 202310848446A CN 117057349 A CN117057349 A CN 117057349A
- Authority
- CN
- China
- Prior art keywords
- word
- candidate
- words
- keywords
- news text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 36
- 230000011218 segmentation Effects 0.000 claims abstract description 46
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 40
- 238000012216 screening Methods 0.000 claims abstract description 30
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000004458 analytical method Methods 0.000 claims abstract description 17
- 230000008859 change Effects 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000010276 construction Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 11
- 238000011156 evaluation Methods 0.000 claims description 10
- 239000002245 particle Substances 0.000 claims description 6
- 238000011160 research Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 230000006872 improvement Effects 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种新闻文本关键词抽取方法、装置、计算机设备和存储介质,属于自然语言处理技术领域,方法包括将待分析新闻文本输入预先训练的词法分析模型,得到与待分析新闻文本的语句对应的第一分词结果;根据词性组合、词频、信息熵和处于相邻位置的第一分词得到与待分析新闻文本的语句对应的第二分词结果;设定为候选关键词,构建候选关键词集合;根据候选关键词生成重要性评分;基于候选关键词集合以及重要性评分构建词图网络;采用TextRank算法利用重要性评分从候选关键词集合中筛选出预设数量的候选关键词作为待分析新闻文本的关键词。通过本申请的处理方案,提高了关键词抽取的准确性,更能体现待抽取文本的主题信息,区分性更强。
Description
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种新闻文本关键词抽取方法、装置、计算机设备和存储介质。
背景技术
关键词抽取方法能够从文档中抽取重要的关键词语,使读者可以迅速获知文档的核心内容,因此被广泛应用于信息检索、文本分类和文本聚类等领域。目前常用的新闻关键词抽取算法可以分为3种:有监督提取方法、半监督提取方法、无监督提取方法。无监督的提取方法是近年来的研究重点。
常用的无监督提取方法有基于统计的方法、基于网络图的方法、基于主题模型的方法。TextRank算法利用词语构造的网络图发掘词语之间的联系程度进行打分,根据分数排序提取出关键词。TextRank算法的效果优于传统的TF-IDF方法,并且实现简单,不需要人工标注样本,可以直接针对单篇新闻进行关键词抽取,因此得到了广泛的应用。但该方法虽然在一定程度上利用了文档的结构信息,但对语义信息的利用不足,该算法存在同时将多个语义相近的词,例如,“广州”和“广州市”,均作为关键词的情况。因此,该方法抽取的关键词准确性也不足,无法充分体现文档主题,不利于分析。
发明内容
因此,为了克服上述现有技术的缺点,本发明提供一种提高了关键词抽取的准确性,更能体现待抽取文本的主题信息,区分性更强的新闻文本关键词抽取方法、装置、计算机设备和存储介质。
为了实现上述目的,本发明提供一种新闻文本关键词抽取方法,包括:将待分析新闻文本输入预先训练的词法分析模型,得到与所述待分析新闻文本的语句对应的第一分词结果,所述第一分词结果包含第一分词和第一词性标注;根据词性组合、词频、信息熵对处于相邻位置的所述第一分词进行合并生成组合新词,并将所述组合新词输入所述词法分析模型,得到与所述待分析新闻文本的语句对应的第二分词结果;根据非单字的动词、名词、形容词及所述组合新词构建语义相似度网络;采用社区发现算法将所述语义相似度网络中的各节点作为社区进行社区发现,从所述节点中筛选出候选关键词,并构建候选关键词集合;根据所述候选关键词的属性信息生成所述候选关键词的重要性评分;基于所述候选关键词集合以及所述重要性评分构建词图网络,所述候选关键词为所述词图网络的节点;采用TextRank算法利用所述重要性评分从所述候选关键词集合中筛选出预设数量的所述候选关键词作为待分析新闻文本的关键词。
在其中一个实施例中,所述根据词性组合、词频、信息熵对处于相邻位置的所述分词进行合并生成组合新词,包括:构建一个空的候选组合词集;基于汉语言搭配研究中的两组合词、三组合词词性搭配原则,将符合搭配规则的两组合词或三组合词加入所述候选组合词集;根据所述候选组合词集中的词语在所述待分析新闻文本中的位置,二次合并,并将合并后的新词加入所述候选组合词集;根据词频以及信息熵对所述候选组合词集进行筛选,得到组合新词。
在其中一个实施例中,所述根据非单字的动词、名词、形容词及所述组合新词构建语义相似度网络,包括:根据所述待分析新闻文本对应的领域获取词向量模型;将所述动词、所述名词、所述形容词及所述组合新词代入到所述词向量模型,得到各词语的词向量标识,并计算两个词语之间的相似度;以各个词语作为语义相似度网络的节点,并根据所述相似度构建所述语义相似度网络的边,得到所述语义相似度网络。
在其中一个实施例中,所述采用社区发现算法将所述语义相似度网络中的各节点作为社区进行社区发现,从所述节点中筛选出候选关键词,包括:将所述语义相似度网络中的各节点进行归属,划分多个社区;对任一节点,计算将其并入相邻的社区后整个网络的模块度值的变化值,将其并入变化值最大的社区,若计算结果为负,则不改变该节点的归属社区;直至将一个节点转移到所述语义相似度网络的另一个相邻社区,将不能带来变化值的提升为止;进行社区归并,将得到的各个社区压缩为节点,该节点对应的词语设置为候选关键词。
在其中一个实施例中,所述根据所述候选关键词的属性信息生成所述候选关键词的重要性评分,包括:统计所述候选关键词的属性信息,所述属性信息包括词频、位置因子、词跨度、位置索引标准差;根据所述属性信息计算所述候选关键词的重要性评分,词频、位置因子、词跨度、位置索引标准差的权重系数是采用粒子群算法确定的。
在其中一个实施例中,所述基于所述候选关键词集合以及所述重要性评分构建词图网络,包括:设置所述候选关键词作为词图网络的各节点,根据所述重要性评分以及所述候选关键词在所述待分析新闻文本中的位置计算各所述节点之间的权重系数;对所述词图网络连接所述节点的边进行归一化,得到所述节点之间的单向边权重,并构建词图网络。
在其中一个实施例中,所述采用TextRank算法利用所述重要性评分从所述候选关键词集合中筛选出预设数量的所述候选关键词作为待分析新闻文本的关键词,包括:根据预设公式,迭代计算各节点的评估权重,直至收敛采用;对节点的评估权重进行排序,筛选出预设数量的所述候选关键词作为待分析新闻文本的关键词。
本发明还提供了一种新闻文本关键词抽取装置,所述装置包括:第一分词模块,用于将待分析新闻文本输入预先训练的词法分析模型,得到与所述待分析新闻文本的语句对应的第一分词结果,所述第一分词结果包含第一分词和第一词性标注;第二分词模块,用于根据词性组合、词频、信息熵对处于相邻位置的所述第一分词进行合并生成组合新词,并将所述组合新词输入所述词法分析模型,得到与所述待分析新闻文本的语句对应的第二分词结果;集合构建模块,用于根据非单字的动词、名词、形容词及所述组合新词构建语义相似度网络;采用社区发现算法将所述语义相似度网络中的各节点作为社区进行社区发现,从所述节点中筛选出候选关键词,并构建候选关键词集合;重要性评分模块,用于根据所述候选关键词的属性信息生成所述候选关键词的重要性评分;词图网络构建模块,用于基于所述候选关键词集合以及所述重要性评分构建词图网络,所述候选关键词为所述词图网络的节点;关键词筛选模块,用于采用TextRank算法利用所述重要性评分从所述候选关键词集合中筛选出预设数量的所述候选关键词作为待分析新闻文本的关键词。
本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
与现有技术相比,本发明的优点在于:将待分析新闻文本进行分词,并对得到的分词进行组合,构建候选关键词,并根据候选关键词构建词图网络,在通过词图网络确定得到关键词,更能体现待抽取文本的主题信息,区分性更强,从而提高了关键词抽取的准确性,可以更加准确地帮助用户过滤垃圾新闻,提高用户体验。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为一个实施例中新闻文本关键词抽取方法的流程示意图;
图2为一个实施例中组合新词生成步骤的流程示意图;
图3为另一个实施例中候选关键词筛选步骤的流程示意图;
图4为一个实施例中新闻文本关键词抽取装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
下面结合附图对本申请实施例进行详细描述。
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本申请,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目和方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本申请的基本构想,图式中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
另外,在以下描述中,提供具体细节是为了便于透彻理解实例。然而,所属领域的技术人员将理解,可在没有这些特定细节的情况下实践所述方面。
如图1所示,本申请实施例提供一种新闻文本关键词抽取方法,可以应用在终端或服务器上,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式智能设备,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现,方法包括以下步骤:
步骤101,将待分析新闻文本输入预先训练的词法分析模型,得到与待分析新闻文本的语句对应的第一分词结果,第一分词结果包含第一分词和第一词性标注。
服务器获取待分析新闻文本,而后根据每个新闻文本的句读确定文本包含的句子,再根据句读对文本进行分割。例如,新闻文本T包含m个句子S,按句读进行分割,即T=[S1,S2,…,Sm]。词法分析模型是事先训练好的,服务器可以根据汉语词法训练词法分析模型,服务器也可以根据需要导入中国科学计算技术研究所的ICTCLAS词法分析模型对句子进行分词和词性标注处理。每个句子的分词结果为Si=[ti1,ti2,…,tin],其中,i为不大于m的自然数,n无限制,仅需为自然数即可。
步骤102,根据词性组合、词频、信息熵对处于相邻位置的第一分词进行合并生成组合新词,并将组合新词输入词法分析模型,得到与待分析新闻文本的语句对应的第二分词结果。
服务器根据词性组合、词频、信息熵对处于相邻位置的第一分词进行合并生成组合新词,服务器可以根据汉语言搭配研究中的两组合词、三组合词词性搭配原则,将符合搭配规则的两组合词或三组合词组合成组合新词。具体地,两组合词的词性组合可以符合“形容词+名词”、“动词+名词”、“动词+副词”、“名词+动词”或“名词+名词”;三组合词的词性可以符合“名词+形容词+名词”、“名词+名词+名词”、“动词+名词+名词”、“名词+名词+动词”、“名词+动词+名词”或“形容词+名词+动词”。服务器可以将组合新词加入到ICTCLAS系统中的用户自定义词典中,然后结合ICTCLAS系统之前已经训练好的分词以及用户自定义词典中的组合新词重新对文档中的句子进行分词和词性标注,这时得到与待分析新闻文本的语句对应的第二分词结果。
步骤103,根据非单字的动词、名词、形容词及所述组合新词构建语义相似度网络;采用社区发现算法将语义相似度网络中的各节点作为社区进行社区发现,从节点中筛选出候选关键词,并构建候选关键词集合。
服务器将每个语句的第二分词结果中非单字的动词、名词、形容词及组合新词设定为候选关键词,并构建候选关键词集合。候选关键词集合为K,K=[t1,t2,…,tn],其中,相同的词语只保留一遍。服务器可以根据非单字的动词、名词、形容词及组合新词构建语义相似度网络。
服务器根据非单字的动词、名词、形容词及组合新词构建语义相似度网络。服务器可以采用Word2Vec模型和模糊匹配构建词语的语义相似度网络Gsim=(V,E),其中,sim表示词语对应的词向量。词语即为网络Gsim中的节点V,若两个词语之间的相似度大于预定阈值β,则在两个词语之间增加一条边,边的权重即为两个词语之间的相似性。
而后服务器采用社区发现算法将语义相似度网络中的各节点作为社区进行社区发现,从节点中筛选出候选关键词。
服务器采用社区发现算法将语义相似度网络中的各节点作为社区进行社区发现,从节点中筛选出候选关键词。社区发现算法可以是Louvain算法等。该算法的优化目标为最大化整个数据的模块度,模块度的计算公式可以是:
其中,m为图中边的总数量,ki为所指向节点ti的连边权重之和,Ai,j表示节点ti和tj之间的连边权重。
上述新闻文本关键词抽取方法,将候选关键词进行聚类,充分利用了语义信息,更能体现待抽取文本的主题信息,区分性更强,从而提高了关键词抽取的准确性。
步骤104,根据候选关键词的属性信息生成候选关键词的重要性评分。
属性信息可以是词频tf、位置因子loc、词跨度span、位置索引标准差loc_std等中的至少一种。词频tf的计算公式为其中,max_freq为该文本T中的最大词频,freqi为候选关键词ti在文本T中出现的次数。位置因子loc的计算公式为词跨度span的计算公式为/>其中,firsti和lasti为候选关键词ti在文本T中出现的首末位置,length为文本T的总长度。位置索引标准差loc_std的计算公式为/>其中,xi1,xi2,....,xil为候选关键词ti在文本T中出现的所有位置。服务器根据候选关键词的属性信息生成候选关键词ti的重要性评分scorei。
步骤105,基于候选关键词集合以及重要性评分构建词图网络,候选关键词为词图网络的节点。
服务器基于候选关键词集合以及重要性评分构建词图网络,候选关键词为词图网络的节点。服务器构建词图网络G=(V,E)。候选关键词集合K中所有词语作为词图G中的所有节点V。为了保证重要性高的节点可以从其邻居节点上获得更多的分值,节点之间的权重计算方式可以为:对于文本T中的每个句子,在长度为d的滑动窗口内,若两个单词ti和tj同时出现,则边ti→tj的权重增加scorej,边tj→ti的权重增加scorei。遍历文本T中的每个句子,词图网络构造完毕。
步骤106,采用TextRank算法利用重要性评分从候选关键词集合中筛选出预设数量的候选关键词作为待分析新闻文本的关键词。
服务器采用TextRank算法利用重要性评分从候选关键词集合中筛选出预设数量的候选关键词作为待分析新闻文本的关键词。服务器可以根据词图网络节点之间边的权重,计算每个候选关键词的TR值。TR值的计算公式为:其中,In(ti)为词图G连接入点ti的所有节点集合,d是可调参数,n是候选关键词总数。服务器可以将候选关键词ti按TR值从大到小进行排序,并筛选出预设数量的候选关键词作为待分析新闻文本的关键词。
上述新闻文本关键词抽取方法,将待分析新闻文本进行分词,并对得到的分词进行组合,构建候选关键词,并根据候选关键词构建词图网络,在通过词图网络确定得到关键词,更能体现待抽取文本的主题信息,区分性更强,从而提高了关键词抽取的准确性,可以更加准确地帮助用户过滤垃圾新闻,提高用户体验。
如图2所示,在其中一个实施例中,根据词性组合、词频、信息熵对处于相邻位置的分词进行合并生成组合新词,包括以下步骤:
步骤201,构建一个空的候选组合词集。
服务器可以构建一个空的候选组合词集N。
步骤202,基于汉语言搭配研究中的两组合词、三组合词词性搭配原则,将符合搭配规则的两组合词或三组合词加入候选组合词集。
服务器基于汉语言搭配研究中的两组合词、三组合词词性搭配原则,将符合搭配规则的两组合词或三组合词加入候选组合词集。
步骤203,根据候选组合词集中的词语在待分析新闻文本中的位置,二次合并,并将合并后的新词加入候选组合词集。
服务器对候选组合词集N中的词语做进一步的合并。若两个候选新词的在新闻T中位置有重叠,则将对应的两个词语组合做进一步的合并,并将合并后的新词加入到候选组合词集N中。
步骤204,根据词频以及信息熵对候选组合词集进行筛选,得到组合新词。
服务器统计候选组合词集中每个组合词的词频以及信息熵,当词频及信息熵均大于指定阈值时,则保留在候选组合词集N中,否则从候选组合词集中删除,筛选结束后,服务器将候选组合词集N中的所有词语设定为组合新词。
在其中一个实施例中,根据非单字的动词、名词、形容词及组合新词构建语义相似度网络,包括以下步骤:根据待分析新闻文本对应的领域获取词向量模型;将动词、名词、形容词及组合新词代入到词向量模型,得到各词语的词向量标识,并计算两个词语之间的相似度;以各个词语作为语义相似度网络的节点,并根据相似度构建语义相似度网络的边,得到语义相似度网络。
服务器可以根据待分析新闻文本对应的领域获取词向量模型,服务器可以采用新闻语料训练Word2Vec模型,得到所属领域的Word2Vec模型。服务器将每个新闻文本T中的每个候选关键词代入到Word2Vec模型,得到每个候选关键词的词向量标示,并计算候选关键词之间的相似度。sim(ti,tj)=vi·vj,其中,vi和vj分别为候选关键词ti和tj对应的词向量。在一个实施例中,组合新词无法在Word2Vec中获得对应的词向量表示,则使用基于序列匹配的词语字面相似度计算该候选词与其他词语义相似度,公式为其中,M为w1和w2的最长公共子序列的长度,w1和w2分别为候选关键词中基于序列匹配的其他词语w1和w2对应的词向量。以各个词语作为语义相似度网络Gsim中的节点V,若两个词语之间的相似度大于一定的阈值β,则在两个词语之间增加一条边,边的权重即为词语之间的相似性,得到语义相似度网络。
如图3所示,在其中一个实施例中,采用社区发现算法将语义相似度网络中的各节点作为社区进行社区发现,从节点中筛选出候选关键词,包括以下步骤:
步骤301,将语义相似度网络中的各节点进行归属,划分多个社区。
服务器将语义相似度网络中的各节点进行归属,划分多个社区,社区的划分可以随机划分,也可以根据预设规则进行划分。
步骤302,对任一节点,计算将其并入相邻的社区后整个网络的模块度值的变化值,将其并入变化值最大的社区,若计算结果为负,则不改变该节点的归属社区。
服务器对任一节点,计算将其并入相邻的社区后整个网络的模块度值的变化值,将其并入变化值最大的社区,若计算结果为负,则不改变该节点的归属社区。服务器对其中任一节点i,计算将其并入相邻社区后整个网络Q值的变化ΔQ,找到Q值变化最大的那个社区,若计算ΔQ得到为负,则不改变i的归属社区。Q值计算公式可以为:
其中,m为图中边的总数量,ki为所指向节点ti的连边权重之和,Ai,j表示节点ti和tj之间的连边权重。
步骤303,直至将一个节点转移到语义相似度网络的另一个相邻社区,将不能带来变化值的提升为止。
服务器重复步骤402,直到Q值不再发生变化,即将一个节点转移到网络内的另一个相邻社区,ΔQ将不能带来的提升,此时当前网络内所有节点都不再移动。
步骤304,进行社区归并,将得到的各个社区压缩为节点,该节点对应的词语设置为候选关键词。
服务器进行社区归并,将得到的各个社区压缩为节点,该节点对应的词语设置为候选关键词。服务器进行社区归并,这一步也可看到做对语义相似度网络的压缩,将前几步得到的各个社区作为新网络的节点,同时,将原社区内部所有节点对的边权重之和作为新的权重赋予新网络的各条边。
上述方法,301-303是对Q值最优解的求解,第4步将这一轮划分得到的社区进行并归,得到一个新网络。完成以上两个阶段称为一轮,完成一轮的计算后算法会自动进入下一轮计算的第一阶段,迭代若干轮后会发现最终得到网络的Q值不再增长,此时的网络已经聚合为几个内部联系紧密,外部关联稀疏的小社区,此时算法完成。服务器将节点对应的词语设置为候选关键词。
需要说明的是,Louvain算法是基于模块度的社区发现算法,该算法在效率和效果上表现较好,并且能够发现层次性的社区结构。
在其中一个实施例中,根据候选关键词的属性信息生成候选关键词的重要性评分,包括:统计候选关键词的属性信息,属性信息包括词频、位置因子、词跨度、位置索引标准差;根据属性信息计算候选关键词的重要性评分,词频、位置因子、词跨度、位置索引标准差的权重系数是采用粒子群算法确定的。服务器统计候选关键词的属性信息,属性信息包括词频、位置因子、词跨度、位置索引标准差;根据属性信息计算候选关键词的重要性评分,词频、位置因子、词跨度、位置索引标准差的权重系数是采用粒子群算法确定的,每个候选关键词ti的重要性评分为scorei=α1·tfi+α2·loci+α3·spani+α4·loc_stdi。α1、α2、α3、α4可以采用粒子群算法进行调优。
在其中一个实施例中,基于候选关键词集合以及重要性评分构建词图网络,包括:设置候选关键词作为词图网络的各节点,根据重要性评分以及候选关键词在待分析新闻文本中的位置计算各节点之间的权重系数;对词图网络连接节点的边进行归一化,得到节点之间的单向边权重,并构建词图网络。服务器设置候选关键词作为词图网络的各节点,根据重要性评分以及候选关键词在待分析新闻文本中的位置计算各节点之间的权重系数;对词图网络连接节点的边进行归一化,得到节点之间的单向边权重,并构建词图网络。服务器对于节点ti,out(ti)为从节点ti连接出去的所有节点的集合。则边的归一化方式为:
其中,wij为边wi→wk上的权重,归一化之后的边的权值使用Wij表示。
在其中一个实施例中,采用TextRank算法利用重要性评分从候选关键词集合中筛选出预设数量的候选关键词作为待分析新闻文本的关键词,包括:根据预设公式,迭代计算各节点的评估权重,直至收敛采用;对节点的评估权重进行排序,筛选出预设数量的候选关键词作为待分析新闻文本的关键词。
服务器根据节点之间边的权重,计算每个候选关键词的评估权重(TR值)。服务器对节点的评估权重进行排序,筛选出预设数量的候选关键词作为待分析新闻文本的关键词。
应该理解的是,虽然图1-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种新闻文本关键词抽取装置,该装置包括第一分词模块401、第二分词模块402、集合构建模块403、重要性评分模块404、词图网络构建模块405和关键词筛选模块406。
第一分词模块401,用于将待分析新闻文本输入预先训练的词法分析模型,得到与待分析新闻文本的语句对应的第一分词结果,第一分词结果包含第一分词和第一词性标注。
第二分词模块402,用于根据词性组合、词频、信息熵对处于相邻位置的第一分词进行合并生成组合新词,并将组合新词输入词法分析模型,得到与待分析新闻文本的语句对应的第二分词结果。
集合构建模块403,用于将每个语句的第二分词结果中非单字的动词、名词、形容词及组合新词设定为候选关键词,并构建候选关键词集合。
重要性评分模块404,用于根据候选关键词的属性信息生成候选关键词的重要性评分。
词图网络构建模块405,用于基于候选关键词集合以及重要性评分构建词图网络,候选关键词为词图网络的节点。
关键词筛选模块406,用于采用TextRank算法利用重要性评分从候选关键词集合中筛选出预设数量的候选关键词作为待分析新闻文本的关键词。
在其中一个实施例中,第二分词模块包括:
空集构建单元,用于构建一个空的候选组合词集。
组合单元,用于基于汉语言搭配研究中的两组合词、三组合词词性搭配原则,将符合搭配规则的两组合词或三组合词加入候选组合词集。
合并单元,用于根据候选组合词集中的词语在待分析新闻文本中的位置,二次合并,并将合并后的新词加入候选组合词集。
组合词筛选单元,用于根据词频以及信息熵对候选组合词集进行筛选,得到组合新词。
在其中一个实施例中,集合构建模块包括:
语义相似度网络构建单元,用于根据非单字的动词、名词、形容词及组合新词构建语义相似度网络。
候选关键词筛选单元,用于采用社区发现算法将语义相似度网络中的各节点作为社区进行社区发现,从节点中筛选出候选关键词。
在其中一个实施例中,集合构建模块包括:
词向量模型获取单元,用于集合构建模块根据待分析新闻文本对应的领域获取词向量模型。
相似度计算单元,用于将动词、名词、形容词及组合新词代入到词向量模型,得到各词语的词向量标识,并计算两个词语之间的相似度。
语义相似度网络生成单元,用于以各个词语作为语义相似度网络的节点,并根据相似度构建语义相似度网络的边,得到语义相似度网络。
在其中一个实施例中,集合构建模块包括:
社区划分单元,用于将语义相似度网络中的各节点进行归属,划分多个社区。
模块度值计算单元,用于对任一节点,计算将其并入相邻的社区后整个网络的模块度值的变化值,将其并入变化值最大的社区,若计算结果为负,则不改变该节点的归属社区。
节点转移单元,用于直至将一个节点转移到语义相似度网络的另一个相邻社区,将不能带来变化值的提升为止。
节点压缩单元,用于进行社区归并,将得到的各个社区压缩为节点,该节点对应的词语设置为候选关键词。
在其中一个实施例中,重要性评分模块包括:
统计单元,用于统计候选关键词的属性信息,属性信息包括词频、位置因子、词跨度、位置索引标准差。
重要性评分计算单元,用于根据属性信息计算候选关键词的重要性评分,词频、位置因子、词跨度、位置索引标准差的权重系数是采用粒子群算法确定的。
在其中一个实施例中,词图网络构建模块包括:
权重计算单元,用于设置候选关键词作为词图网络的各节点,根据重要性评分以及候选关键词在待分析新闻文本中的位置计算各节点之间的权重系数。
归一化单元,用于对词图网络连接节点的边进行归一化,得到节点之间的单向边权重,并构建词图网络。
在其中一个实施例中,关键词筛选模块包括:
迭代收敛单元,用于根据预设公式,迭代计算各节点的评估权重,直至收敛采用。
排序单元,用于对节点的评估权重进行排序,筛选出预设数量的候选关键词作为待分析新闻文本的关键词。
关于新闻文本关键词抽取装置的具体限定可以参见上文中对于新闻文本关键词抽取方法的限定,在此不再赘述。上述新闻文本关键词抽取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储新闻文本关键词抽取数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种新闻文本关键词抽取方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
一种计算机设备,包括存储器和一个或多个处理器,存储器中存储有计算机程序,计算机程序被处理器执行时实现本申请任意一个实施例中提供的新闻文本关键词抽取方法的步骤。
一个或多个存储有程序的计算机可读存储介质,计算机程序被一个或多个处理器执行时,使得一个或多个处理器实现本申请任意一个实施例中提供的新闻文本关键词抽取方法的步骤。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种新闻文本关键词抽取方法,其特征在于,包括:
将待分析新闻文本输入预先训练的词法分析模型,得到与所述待分析新闻文本的语句对应的第一分词结果,所述第一分词结果包含第一分词和第一词性标注;
根据词性组合、词频、信息熵对处于相邻位置的所述第一分词进行合并生成组合新词,并将所述组合新词输入所述词法分析模型,得到与所述待分析新闻文本的语句对应的第二分词结果;
根据非单字的动词、名词、形容词及所述组合新词构建语义相似度网络;采用社区发现算法将所述语义相似度网络中的各节点作为社区进行社区发现,从所述节点中筛选出候选关键词,并构建候选关键词集合;
根据所述候选关键词的属性信息生成所述候选关键词的重要性评分;
基于所述候选关键词集合以及所述重要性评分构建词图网络,所述候选关键词为所述词图网络的节点;
采用TextRank算法利用所述重要性评分从所述候选关键词集合中筛选出预设数量的所述候选关键词作为待分析新闻文本的关键词。
2.根据权利要求1所述的方法,其特征在于,所述根据词性组合、词频、信息熵对处于相邻位置的所述分词进行合并生成组合新词,包括:
构建一个空的候选组合词集;
基于汉语言搭配研究中的两组合词、三组合词词性搭配原则,将符合搭配规则的两组合词或三组合词加入所述候选组合词集;
根据所述候选组合词集中的词语在所述待分析新闻文本中的位置,二次合并,并将合并后的新词加入所述候选组合词集;
根据词频以及信息熵对所述候选组合词集进行筛选,得到组合新词。
3.根据权利要求1所述的方法,其特征在于,所述根据非单字的动词、名词、形容词及所述组合新词构建语义相似度网络,包括:
根据所述待分析新闻文本对应的领域获取词向量模型;
将所述动词、所述名词、所述形容词及所述组合新词代入到所述词向量模型,得到各词语的词向量标识,并计算两个词语之间的相似度;
以各个词语作为语义相似度网络的节点,并根据所述相似度构建所述语义相似度网络的边,得到所述语义相似度网络。
4.根据权利要求1所述的方法,其特征在于,所述采用社区发现算法将所述语义相似度网络中的各节点作为社区进行社区发现,从所述节点中筛选出候选关键词,包括:
将所述语义相似度网络中的各节点进行归属,划分多个社区;
对任一节点,计算将其并入相邻的社区后整个网络的模块度值的变化值,将其并入变化值最大的社区,若计算结果为负,则不改变该节点的归属社区;
直至将一个节点转移到所述语义相似度网络的另一个相邻社区,将不能带来变化值的提升为止;
进行社区归并,将得到的各个社区压缩为节点,该节点对应的词语设置为候选关键词。
5.根据权利要求1所述的方法,其特征在于,所述根据所述候选关键词的属性信息生成所述候选关键词的重要性评分,包括:
统计所述候选关键词的属性信息,所述属性信息包括词频、位置因子、词跨度、位置索引标准差;
根据所述属性信息计算所述候选关键词的重要性评分,词频、位置因子、词跨度、位置索引标准差的权重系数是采用粒子群算法确定的。
6.根据权利要求1所述的方法,其特征在于,所述基于所述候选关键词集合以及所述重要性评分构建词图网络,包括:
设置所述候选关键词作为词图网络的各节点,根据所述重要性评分以及所述候选关键词在所述待分析新闻文本中的位置计算各所述节点之间的权重系数;
对所述词图网络连接所述节点的边进行归一化,得到所述节点之间的单向边权重,并构建词图网络。
7.根据权利要求1所述的方法,其特征在于,所述采用TextRank算法利用所述重要性评分从所述候选关键词集合中筛选出预设数量的所述候选关键词作为待分析新闻文本的关键词,包括:
根据预设公式,迭代计算各节点的评估权重,直至收敛采用;
对节点的评估权重进行排序,筛选出预设数量的所述候选关键词作为待分析新闻文本的关键词。
8.一种新闻文本关键词抽取装置,其特征在于,所述装置包括:
第一分词模块,用于将待分析新闻文本输入预先训练的词法分析模型,得到与所述待分析新闻文本的语句对应的第一分词结果,所述第一分词结果包含第一分词和第一词性标注;
第二分词模块,用于根据词性组合、词频、信息熵对处于相邻位置的所述第一分词进行合并生成组合新词,并将所述组合新词输入所述词法分析模型,得到与所述待分析新闻文本的语句对应的第二分词结果;
集合构建模块,用于根据非单字的动词、名词、形容词及所述组合新词构建语义相似度网络;采用社区发现算法将所述语义相似度网络中的各节点作为社区进行社区发现,从所述节点中筛选出候选关键词,并构建候选关键词集合;
重要性评分模块,用于根据所述候选关键词的属性信息生成所述候选关键词的重要性评分;
词图网络构建模块,用于基于所述候选关键词集合以及所述重要性评分构建词图网络,所述候选关键词为所述词图网络的节点;
关键词筛选模块,用于采用TextRank算法利用所述重要性评分从所述候选关键词集合中筛选出预设数量的所述候选关键词作为待分析新闻文本的关键词。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310848446.9A CN117057349A (zh) | 2023-07-11 | 2023-07-11 | 新闻文本关键词抽取方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310848446.9A CN117057349A (zh) | 2023-07-11 | 2023-07-11 | 新闻文本关键词抽取方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117057349A true CN117057349A (zh) | 2023-11-14 |
Family
ID=88657942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310848446.9A Pending CN117057349A (zh) | 2023-07-11 | 2023-07-11 | 新闻文本关键词抽取方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117057349A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117272353A (zh) * | 2023-11-22 | 2023-12-22 | 陕西昕晟链云信息科技有限公司 | 一种数据加密存储保护系统及方法 |
-
2023
- 2023-07-11 CN CN202310848446.9A patent/CN117057349A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117272353A (zh) * | 2023-11-22 | 2023-12-22 | 陕西昕晟链云信息科技有限公司 | 一种数据加密存储保护系统及方法 |
CN117272353B (zh) * | 2023-11-22 | 2024-01-30 | 陕西昕晟链云信息科技有限公司 | 一种数据加密存储保护系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108052593B (zh) | 一种基于主题词向量和网络结构的主题关键词提取方法 | |
RU2628436C1 (ru) | Классификация текстов на естественном языке на основе семантических признаков | |
CN111177365A (zh) | 一种基于图模型的无监督自动文摘提取方法 | |
Mills et al. | Graph-based methods for natural language processing and understanding—A survey and analysis | |
CN111401045B (zh) | 一种文本生成方法、装置、存储介质和电子设备 | |
KR20170004154A (ko) | 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템 | |
CN112052356B (zh) | 多媒体分类方法、装置和计算机可读存储介质 | |
CN108090178B (zh) | 一种文本数据分析方法、装置、服务器和存储介质 | |
CN105760363B (zh) | 文本文件的词义消歧方法及装置 | |
Jin et al. | Entity linking at the tail: sparse signals, unknown entities, and phrase models | |
Mahata et al. | Theme-weighted ranking of keywords from text documents using phrase embeddings | |
CN111985228A (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
CN114880447A (zh) | 信息检索方法、装置、设备及存储介质 | |
CN116501875B (zh) | 一种基于自然语言和知识图谱的文档处理方法和系统 | |
CN112836029A (zh) | 一种基于图的文档检索方法、系统及其相关组件 | |
CN114330335A (zh) | 关键词抽取方法、装置、设备及存储介质 | |
CN117057349A (zh) | 新闻文本关键词抽取方法、装置、计算机设备和存储介质 | |
CN114048354B (zh) | 基于多元表征和度量学习的试题检索方法、装置及介质 | |
CN115168580A (zh) | 一种基于关键词提取与注意力机制的文本分类方法 | |
CN114461783A (zh) | 关键词生成方法、装置、计算机设备、存储介质和产品 | |
CN111950261B (zh) | 提取文本关键词的方法、设备和计算机可读存储介质 | |
CN110929022A (zh) | 一种文本摘要生成方法及系统 | |
CN115391551A (zh) | 事件检测方法及装置 | |
CN114048742A (zh) | 文本信息的知识实体和关系抽取方法及文本质量评估方法 | |
CN113761125A (zh) | 动态摘要确定方法和装置、计算设备以及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |