CN112948527A - 一种改进的TextRank关键词提取方法及装置 - Google Patents

一种改进的TextRank关键词提取方法及装置 Download PDF

Info

Publication number
CN112948527A
CN112948527A CN202110201095.3A CN202110201095A CN112948527A CN 112948527 A CN112948527 A CN 112948527A CN 202110201095 A CN202110201095 A CN 202110201095A CN 112948527 A CN112948527 A CN 112948527A
Authority
CN
China
Prior art keywords
node
nodes
edges
determining
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110201095.3A
Other languages
English (en)
Other versions
CN112948527B (zh
Inventor
赵娜
杨燕
王莹港
郁湧
王剑
康雁
王鑫锴
张强荐
胡盛
柴焰明
龙镇
文俊杰
马伟云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan University YNU
Original Assignee
Yunnan University YNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan University YNU filed Critical Yunnan University YNU
Priority to CN202110201095.3A priority Critical patent/CN112948527B/zh
Publication of CN112948527A publication Critical patent/CN112948527A/zh
Application granted granted Critical
Publication of CN112948527B publication Critical patent/CN112948527B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种改进的TextRank关键词提取方法及装置。在该方法中,首先构建文本的词共现网络,接着基于词共现网络并引入节点的度中心性和聚类系数两项复杂网络统计特征,得到节点的初始权重。然后依据相邻节点对节点的重要程度将初始权重分配给两节点之间的连边,确定连边权重,从而实现对连边加权,确定每个节点的重要性分值。进一步引入位置系数来对节点的重要性分值进行调整,确定每个节点的最终权重。最后依据每个节点的最终权重对节点进行排序后,确定文本的关键词。本申请通过节点本身的度中心性和聚类系数两项特征为连边加权,并结合节点的位置特征实现文本的关键词提取,能够有效提高关键词提取的准确率。

Description

一种改进的TextRank关键词提取方法及装置
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种改进的TextRank关键词提取方法及装置。
背景技术
文本关键词是指能对文本内容进行精确概括,反映作者写作意图的重要词语,文本关键词不仅可以概况文本的主题,还可以反映文本的主要内容和情感倾向。因此,准确、高效的文本关键词提取对于文本聚类、文本摘要抽取和信息检索都至关重要。
传统的TextRank算法是一种基于图排序的关键词提取算法,它利用文本候选关键词在窗口中的共现关系,将相关联的候选关键词之间建立连边,构建词共现网络,通过公式迭代计算得到词共现网络中每个节点(节点是指词共现网络中的候选关键词)的权重,从而完成节点的排序,提取出文本的关键词。该算法仅利用文本本身的信息就能完成关键词提取,无需预先对数据进行大量训练,具有实现简单、语言相关性弱等优点。
但是传统的TextRank算法在进行关键词提取时,将词共现次数作为连边权重,却忽略了候选关键词本身的重要性,使得关键词提取的准确率较低。
发明内容
本申请公开一种改进的TextRank关键词提取方法及装置,用于解决现有技术中,传统的TextRank算法在进行关键词提取时,将词共现次数作为连边权重,却忽略了候选关键词词本身的重要性,使得关键词提取的准确率较低的技术问题。
本申请第一方面公开了一种改进的TextRank关键词提取方法,包括:
获取初始文本,并对所述初始文本进行预处理,确定候选关键词总集;所述预处理是指将所述初始文本划分为多个句子,对任一句子进行分词、词性标注、词性过滤以及去停用词处理后,确定任一句子对应的候选关键词集;所述候选关键词总集包括多个候选关键词集;
根据候选关键词总集,构建词共现网络;
根据所述词共现网络,获取第一节点及第二节点,所述第一节点为任一节点,所述第二节点为所述第一节点任一相邻的节点;
获取所述第一节点的度中心性,以及,获取所述第二节点的度中心性;
获取所述第一节点的聚类系数,以及,获取所述第二节点的聚类系数;
根据所述第一节点的度中心性、所述第一节点的聚类系数和预设的可调节参数,确定所述第一节点的初始权重;以及,根据所述第二节点的度中心性、所述第二节点的聚类系数和所述可调节参数,确定所述第二节点的初始权重;
根据所述词共现网络,获取节点总数、第一相邻节点的集合、第二相邻节点的集合,所述第一相邻节点是指与所述第一节点相邻的节点,所述第二相邻节点是指与所述第二节点相邻的节点;
根据所述第一节点的初始权重、所述第二节点的初始权重、所述第一相邻节点的集合和所述第二相邻节点的集合,确定所述第一节点与所述第二节点之间的连边权重;
根据所述节点总数、预设的阻尼系数、所述第一相邻节点的集合、所述第一节点与所述第二节点之间的连边权重和所述第二节点的初始权重,确定所述第一节点的重要性分值;
根据所述第一节点的重要性分值和预设的位置系数,确定所述第一节点的最终权重;
根据所述第一节点的最终权重,对全部节点进行降序排列并舍去单字词节点,确定所述初始文本的关键词。
可选的,所述获取所述第一节点的度中心性,以及,获取所述第二节点的度中心性,包括:
根据所述词共现网络,获取所述节点总数、所述第一节点的边数及第二节点的边数,所述边数是指连接所述任一节点的边的个数;
根据所述节点总个数和所述第一节点的边数,确定所述第一节点的度中心性;
根据所述节点总个数和所述第二节点的边数,确定所述第二节点的度中心性。
可选的,获取所述第一节点的聚类系数,以及,获取所述第二节点的聚类系数,包括:
根据所述词共现网络,获取所述第一节点的边数、所述第一相邻节点之间的边数、所述第二节点的边数及所述第二相邻节点之间的边数;
根据所述第一节点的边数和所述第一相邻节点之间的边数,确定所述第一节点的聚类系数;
根据所述第二节点的边数和所述第二相邻节点之间的边数,确定所述第二节点的聚类系数。
可选的,所述根据所述第一节点的初始权重、所述第二节点的初始权重、所述第一相邻节点的集合和所述第二相邻节点的集合,确定所述第一节点与所述第二节点之间的连边权重,包括:
通过如下公式确定所述第一节点与所述第二节点之间的连边权重:
Figure BDA0002947835920000021
其中,wij表示所述第一节点vi与所述第二节点vj之间的连边权重,wci表示所述第一节点vi的初始权重,wcj表示所述第二节点vj的初始权重,τ(i)表示所述第一相邻节点的集合,τ(j)表示所述第二相邻节点的集合。
本申请第二方面公开了一种改进的TextRank关键词提取装置,所述改进的TextRank关键词提取装置应用于本申请第一方面公开的一种改进的TextRank关键词提取方法,所述改进的TextRank关键词提取装置包括:
文本获取模块,用于获取初始文本,并对所述初始文本进行预处理,确定候选关键词总集;所述预处理是指将所述初始文本划分为多个句子,对任一句子进行分词、词性标注、词性过滤以及去停用词处理后,确定任一句子对应的候选关键词集;所述候选关键词总集包括多个候选关键词集;
词共现网络构建模块,用于根据候选关键词总集,构建词共现网络;
节点获取模块,用于根据所述词共现网络,获取第一节点及第二节点,所述第一节点为任一节点,所述第二节点为所述第一节点任一相邻的节点;
度中心性计算模块,用于获取所述第一节点的度中心性,以及,获取所述第二节点的度中心性;
聚类系数计算模块,用于获取所述第一节点的聚类系数,以及,获取所述第二节点的聚类系数;
初始权重获取模块,用于根据所述第一节点的度中心性、所述第一节点的聚类系数和预设的可调节参数,确定所述第一节点的初始权重;以及,根据所述第二节点的度中心性、所述第二节点的聚类系数和所述可调节参数,确定所述第二节点的初始权重;
节点参数获取模块,用于根据所述词共现网络,获取节点总数、第一相邻节点的集合、第二相邻节点的集合,所述第一相邻节点是指与所述第一节点相邻的节点,所述第二相邻节点是指与所述第二节点相邻的节点;
连边权重获取模块,用于根据所述第一节点的初始权重、所述第二节点的初始权重、所述第一相邻节点的集合和所述第二相邻节点的集合,确定所述第一节点与所述第二节点之间的连边权重;
重要性分值确定模块,用于根据所述节点总数、预设的阻尼系数、所述第一相邻节点的集合、所述第一节点与所述第二节点之间的连边权重和所述第二节点的初始权重,确定所述第一节点的重要性分值;
最终权重确定模块,用于根据所述第一节点的重要性分值和预设的位置系数,确定所述第一节点的最终权重;
关键词获取模块,用于根据所述第一节点的最终权重,对全部节点进行降序排列并舍去单字词节点,确定所述初始文本的关键词。
可选的,所述度中心性计算模块包括:
度中心性参数获取单元,用于根据所述词共现网络,获取所述节点总数、所述第一节点的边数及第二节点的边数,所述边数是指连接所述任一节点的边的个数;
第一节点度中心性计算单元,用于根据所述节点总个数和所述第一节点的边数,确定所述第一节点的度中心性;
第二节点度中心性计算单元,用于根据所述节点总个数和所述第二节点的边数,确定所述第二节点的度中心性。
可选的,所述聚类系数计算模块包括:
聚类系数参数获取单元,用于根据所述词共现网络,获取所述第一节点的边数、所述第一相邻节点之间的边数、所述第二节点的边数及所述第二相邻节点之间的边数;
第一节点聚类系数计算单元,用于根据所述第一节点的边数和所述第一相邻节点之间的边数,确定所述第一节点的聚类系数;
第二节点聚类系数计算单元,用于根据所述第二节点的边数和所述第二相邻节点之间的边数,确定所述第二节点的聚类系数。
可选的,所述连边权重获取模块用于通过如下公式确定所述第一节点与所述第二节点之间的连边权重:
Figure BDA0002947835920000041
其中,wij表示所述第一节点vi与所述第二节点vj之间的连边权重,wci表示所述第一节点vi的初始权重,wcj表示所述第二节点vj的初始权重,τ(i)表示所述第一相邻节点的集合,τ(j)表示所述第二相邻节点的集合。
本申请涉及自然语言处理技术领域,公开了一种改进的TextRank关键词提取方法及装置。在该方法中,首先构建文本的词共现网络,接着基于词共现网络并引入节点的度中心性和聚类系数两项复杂网络统计特征,得到节点的初始权重。然后依据相邻节点对节点的重要程度将初始权重分配给两节点之间的连边,确定连边权重,从而实现对连边加权,确定每个节点的重要性分值。进一步引入位置系数来对节点的重要性分值进行调整,确定每个节点的最终权重。最后依据每个节点的最终权重对节点进行排序后,确定文本的关键词。本申请通过节点本身的度中心性和聚类系数两项特征为连边加权,并结合节点的位置特征实现文本的关键词提取,能够有效提高关键词提取的准确率。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的一种改进的TextRank关键词提取方法的工作流程示意图;
图2为本申请实施例公开的一种改进的TextRank关键词提取方法中,词共现关系的示例图;
图3为本申请实施例公开的一种改进的TextRank关键词提取装置的结构示意图。
具体实施方式
为了解决现有技术中,传统的TextRank算法在进行关键词提取时,将词共现次数作为连边权重,却忽略了候选关键词词本身的重要性,使得关键词提取的准确率较低的技术问题,本申请通过以下两个实施例公开了一种改进的TextRank关键词提取方法及装置。
本申请第一实施例公开了一种改进的TextRank关键词提取方法,参见图1所示的工作流程示意图,所述改进的TextRank关键词提取方法包括:
步骤S101,获取初始文本,并对所述初始文本进行预处理,确定候选关键词总集。所述预处理是指将所述初始文本划分为多个句子,对任一句子进行分词、词性标注、词性过滤以及去停用词处理后,确定任一句子对应的候选关键词集。所述候选关键词总集包括多个候选关键词集。
在本申请的部分实施例中,将初始文本划分为多个句子,对初始文本进行句子识别,以顿号、句号、问号、感叹号、省略号、分号等作为句子分隔符。对划分后的句子进行分词、词性标注、词性过滤、去停用词处理,得到每个句子对应的候选关键词集合,即候选关键词总集。
步骤S102,根据候选关键词总集,构建词共现网络。
在本申请的部分实施例中,构建初始文本的词共现网络G=(V,E),其中V为候选关键词总集,E为边集合,E∈V×V。文本的共现窗口大小为初始文本预处理后的句子长度,候选关键词的共现窗口跨度最大取2,即对于候选关键词总集{w1,w2,w3,...,wn}中任意两个候选关键词wa和wb,如果它们同时出现在一个句子中且跨度小于等于2,则认为这两个词语之间存在关联,相应地,在wa和wb之间建立连边,合并相同节点,得到词共现网络。
具体来说,词共现是指在同一集合(句子,段落,文档)中,一个词的出现很可能跟另外一个词的出现相关。文本是由一系列词串线性连接组成的,但使用词共现网络对文本进行表示,可将文本中的词表示为网络中的节点,词之间的关系表示为网络中的连边,因此,词之间呈现多向关联关系,更符合语言学特性。
示例:以文本“关键词提取的方法与实现”(分词结果:“关键词”“提取”“的”“方法”“与”“实现”)为例,如将文本的窗口单元定义为两个步长,即词之间的跨度小于等于2,则句中“的”和“与”被认为是意义不大的停用词,需要删除。如图2所示,这句话的连边关系是:{“关键词”,“提取”},{“提取”,“方法”},{“方法”,“实现”}。
步骤S103,根据所述词共现网络,获取第一节点及第二节点,所述第一节点为任一节点,所述第二节点为所述第一节点任一相邻的节点。
本申请实施例通过第一节点vi和第二节点vj进行说明,需要指出的是,所述第一节点vi为任一节点,所述第二节点vj为所述第一节点vi任一相邻的节点。
具体来说,根据所述词共现网络,确定节点集(词共现网络中候选关键词的集合)V={v1,v2,...,vN,N∈N+},边集E={(va,vb)|va,vb∈V}表示节点(候选关键词)之间连边关系的集合。则词共现网络G=(V,E)表示以V为节点,E为边的词共现网络,例如(vi,vj)表示第一节点vi和第二节点vj之间的边,N表示词共现网络中节点的个数。
步骤S104,获取所述第一节点的度中心性,以及,获取所述第二节点的度中心性。
进一步的,所述获取所述第一节点的度中心性,以及,获取所述第二节点的度中心性,包括:
根据所述词共现网络,获取所述节点总数、所述第一节点的边数及第二节点的边数,所述边数是指连接所述任一节点的边的个数。
根据所述节点总个数和所述第一节点的边数,确定所述第一节点的度中心性。
根据所述节点总个数和所述第二节点的边数,确定所述第二节点的度中心性。
具体来说,词共现网络G中,节点va的度ka定义为连接节点va的边数,表示为ka=|{vb|vb∈V,(va,vb)∈E}|。度中心性被用来来衡量节点处于中心地位的程度,度中心性是度归一化之后的公式,所述第一节点vi的度中心性kci具体通过如下公式计算:
Figure BDA0002947835920000061
同理可以获得所述第二节点vj的度中心性kcj
步骤S105,获取所述第一节点的聚类系数,以及,获取所述第二节点的聚类系数。
进一步的,获取所述第一节点的聚类系数,以及,获取所述第二节点的聚类系数,包括:
根据所述词共现网络,获取所述第一节点的边数、所述第一相邻节点之间的边数、所述第二节点的边数及所述第二相邻节点之间的边数。
根据所述第一节点的边数和所述第一相邻节点之间的边数,确定所述第一节点的聚类系数。
根据所述第二节点的边数和所述第二相邻节点之间的边数,确定所述第二节点的聚类系数。
具体来说,节点的聚类系数体现节点相互连接的紧密程度。第一节点vi的聚类系数cci通过如下公式计算:
Figure BDA0002947835920000062
其中,Ei表示第一节点vi所有相邻的节点之间实际存在的边数。
同理可以获取所述第二节点vj的聚类系数ccj
步骤S106,根据所述第一节点的度中心性、所述第一节点的聚类系数和预设的可调节参数,确定所述第一节点的初始权重。以及,根据所述第二节点的度中心性、所述第二节点的聚类系数和所述可调节参数,确定所述第二节点的初始权重。
具体通过如下公式计算所述第一节点vi的初始权重wci
wci=α*kci+β*cci
其中,α、β为可调节参数,且α+β=1。在后续对本申请实施例提供方法进行验证的过程中发现,当α=0.8,β=0.2时,关键词提取的准确率达到最佳效果。
同理可以获取所述第二节点vj的初始权重wcj
步骤S107,根据所述词共现网络,获取节点总数、第一相邻节点的集合、第二相邻节点的集合,所述第一相邻节点是指与所述第一节点相邻的节点,所述第二相邻节点是指与所述第二节点相邻的节点。
步骤S108,根据所述第一节点的初始权重、所述第二节点的初始权重、所述第一相邻节点的集合和所述第二相邻节点的集合,确定所述第一节点与所述第二节点之间的连边权重。
进一步的,所述根据所述第一节点的初始权重、所述第二节点的初始权重、所述第一相邻节点的集合和所述第二相邻节点的集合,确定所述第一节点与所述第二节点之间的连边权重,包括:
通过如下公式确定所述第一节点与所述第二节点之间的连边权重:
Figure BDA0002947835920000071
其中,wij表示所述第一节点vi与所述第二节点vj之间的连边权重,wci表示所述第一节点vi的初始权重,wcj表示所述第二节点vj的初始权重,τ(i)表示所述第一相邻节点的集合,τ(j)表示所述第二相邻节点的集合,具体来说∑k∈τ(i)wck表示将所有第一相邻节点对应的初始权重进行求和,∑k∈τ(j)wck表示将所有第二相邻节点对应的初始权重进行求和。
步骤S109,根据所述节点总数、预设的阻尼系数、所述第一相邻节点的集合、所述第一节点与所述第二节点之间的连边权重和所述第二节点的初始权重,确定所述第一节点的重要性分值。
在本申请的部分实施例中,首先赋给所有节点一个相同的初始值;即所述第一节点vi的初始重要性分值S(vi)0,所述第二节点vj的初始重要性分值S(vj)0,且S(vi)0=S(vj)0
进一步通过如下公式进行迭代计算:
Figure BDA0002947835920000072
其中,d表示阻尼系数,一般取0.85。
在进行迭代计算的过程中,所述第一节点vi的重要性分值和所述第二节点vj的重要性分值都是在不断更新变化的,当存在S(vi)n与S(vi)n-1之间的误差小于0.001时,便停止迭代,并输出此时第一节点vi的重要性分值S(vi)n
步骤S110,根据所述第一节点的重要性分值和预设的位置系数,确定所述第一节点的最终权重。
在文本中,词出现的位置通常也是决定词语重要性的一个重要因素,如果出现在正文部分的第一节点vi也出现在标题里,那么第一节点vi作为文本关键词的可能性也更大。
因此,在完成对所有节点的重要性评分后,进一步引入位置系数γ来对节点的最终权重进行调整。记第一节点vi的最终权重为E(vi),则具体通过如下公式计算E(vi),且在本申请实施例中,位置系数γ=0.8。
Figure BDA0002947835920000073
步骤S111,根据所述第一节点的最终权重,对全部节点进行降序排列并舍去单字词节点,确定所述初始文本的关键词。
具体来说,根据E(vi),获取词共现网络中所有节点的最终权重。依据最终权重对所有节点进行降序排列,考虑到文本的关键词一般不会是单字词,我们将统一对排序后的节点进行去单字词处理,去掉节点中的单字词。最后,取top-K节点作为词共现网络的关键节点,即文本关键词。
本申请上述实施例公开的一种改进的TextRank关键词提取方法,首先构建文本的词共现网络,接着基于词共现网络并引入节点的度中心性和聚类系数两项复杂网络统计特征,得到节点的初始权重。然后依据相邻节点对节点的重要程度将初始权重分配给两节点之间的连边,确定连边权重,从而实现对连边加权,确定每个节点的重要性分值。进一步引入位置系数来对节点的重要性分值进行调整,确定每个节点的最终权重。最后依据每个节点的最终权重对节点进行排序后,确定文本的关键词。本申请通过节点本身的度中心性和聚类系数两项特征为连边加权,并结合节点的位置特征实现文本的关键词提取,能够有效提高关键词提取的准确率。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
本申请第二实施例公开了一种改进的TextRank关键词提取装置,所述改进的TextRank关键词提取装置应用于本申请第一实施例公开的一种改进的TextRank关键词提取方法,参见图3所示的结构示意图,所述改进的TextRank关键词提取装置包括:
文本获取模块201,用于获取初始文本,并对所述初始文本进行预处理,确定候选关键词总集。所述预处理是指将所述初始文本划分为多个句子,对任一句子进行分词、词性标注、词性过滤以及去停用词处理后,确定任一句子对应的候选关键词集。所述候选关键词总集包括多个候选关键词集。
词共现网络构建模块202,用于根据候选关键词总集,构建词共现网络。
节点获取模块203,用于根据所述词共现网络,获取第一节点及第二节点,所述第一节点为任一节点,所述第二节点为所述第一节点任一相邻的节点。
度中心性计算模块204,用于获取所述第一节点的度中心性,以及,获取所述第二节点的度中心性。
聚类系数计算模块205,用于获取所述第一节点的聚类系数,以及,获取所述第二节点的聚类系数。
初始权重获取模块206,用于根据所述第一节点的度中心性、所述第一节点的聚类系数和预设的可调节参数,确定所述第一节点的初始权重。以及,根据所述第二节点的度中心性、所述第二节点的聚类系数和所述可调节参数,确定所述第二节点的初始权重。
节点参数获取模块207,用于根据所述词共现网络,获取节点总数、第一相邻节点的集合、第二相邻节点的集合,所述第一相邻节点是指与所述第一节点相邻的节点,所述第二相邻节点是指与所述第二节点相邻的节点。
连边权重获取模块208,用于根据所述第一节点的初始权重、所述第二节点的初始权重、所述第一相邻节点的集合和所述第二相邻节点的集合,确定所述第一节点与所述第二节点之间的连边权重。
重要性分值确定模块209,用于根据所述节点总数、预设的阻尼系数、所述第一相邻节点的集合、所述第一节点与所述第二节点之间的连边权重和所述第二节点的初始权重,确定所述第一节点的重要性分值。
最终权重确定模块210,用于根据所述第一节点的重要性分值和预设的位置系数,确定所述第一节点的最终权重。
关键词获取模块211,用于根据所述第一节点的最终权重,对全部节点进行降序排列并舍去单字词节点,确定所述初始文本的关键词。
进一步的,所述度中心性计算模块包括:
度中心性参数获取单元,用于根据所述词共现网络,获取所述节点总数、所述第一节点的边数及第二节点的边数,所述边数是指连接所述任一节点的边的个数。
第一节点度中心性计算单元,用于根据所述节点总个数和所述第一节点的边数,确定所述第一节点的度中心性。
第二节点度中心性计算单元,用于根据所述节点总个数和所述第二节点的边数,确定所述第二节点的度中心性。
进一步的,所述聚类系数计算模块包括:
聚类系数参数获取单元,用于根据所述词共现网络,获取所述第一节点的边数、所述第一相邻节点之间的边数、所述第二节点的边数及所述第二相邻节点之间的边数。
第一节点聚类系数计算单元,用于根据所述第一节点的边数和所述第一相邻节点之间的边数,确定所述第一节点的聚类系数。
第二节点聚类系数计算单元,用于根据所述第二节点的边数和所述第二相邻节点之间的边数,确定所述第二节点的聚类系数。
进一步的,所述连边权重获取模块用于通过如下公式确定所述第一节点与所述第二节点之间的连边权重:
Figure BDA0002947835920000091
其中,wij表示所述第一节点vi与所述第二节点vj之间的连边权重,wci表示所述第一节点vi的初始权重,wcj表示所述第二节点vj的初始权重,τ(i)表示所述第一相邻节点的集合,τ(j)表示所述第二相邻节点的集合。
以上结合具体实施方式和范例性实例对本申请进行了详细说明,不过这些说明并不能理解为对本申请的限制。本领域技术人员理解,在不偏离本申请精神和范围的情况下,可以对本申请技术方案及其实施方式进行多种等价替换、修饰或改进,这些均落入本申请的范围内。本申请的保护范围以所附权利要求为准。

Claims (8)

1.一种改进的TextRank关键词提取方法,其特征在于,包括:
获取初始文本,并对所述初始文本进行预处理,确定候选关键词总集;所述预处理是指将所述初始文本划分为多个句子,对任一句子进行分词、词性标注、词性过滤以及去停用词处理后,确定任一句子对应的候选关键词集;所述候选关键词总集包括多个候选关键词集;
根据候选关键词总集,构建词共现网络;
根据所述词共现网络,获取第一节点及第二节点,所述第一节点为任一节点,所述第二节点为所述第一节点任一相邻的节点;
获取所述第一节点的度中心性,以及,获取所述第二节点的度中心性;
获取所述第一节点的聚类系数,以及,获取所述第二节点的聚类系数;
根据所述第一节点的度中心性、所述第一节点的聚类系数和预设的可调节参数,确定所述第一节点的初始权重;以及,根据所述第二节点的度中心性、所述第二节点的聚类系数和所述可调节参数,确定所述第二节点的初始权重;
根据所述词共现网络,获取节点总数、第一相邻节点的集合、第二相邻节点的集合,所述第一相邻节点是指与所述第一节点相邻的节点,所述第二相邻节点是指与所述第二节点相邻的节点;
根据所述第一节点的初始权重、所述第二节点的初始权重、所述第一相邻节点的集合和所述第二相邻节点的集合,确定所述第一节点与所述第二节点之间的连边权重;
根据所述节点总数、预设的阻尼系数、所述第一相邻节点的集合、所述第一节点与所述第二节点之间的连边权重和所述第二节点的初始权重,确定所述第一节点的重要性分值;
根据所述第一节点的重要性分值和预设的位置系数,确定所述第一节点的最终权重;
根据所述第一节点的最终权重,对全部节点进行降序排列并舍去单字词节点,确定所述初始文本的关键词。
2.根据权利要求1所述的改进的TextRank关键词提取方法,其特征在于,所述获取所述第一节点的度中心性,以及,获取所述第二节点的度中心性,包括:
根据所述词共现网络,获取所述节点总数、所述第一节点的边数及第二节点的边数,所述边数是指连接所述任一节点的边的个数;
根据所述节点总个数和所述第一节点的边数,确定所述第一节点的度中心性;
根据所述节点总个数和所述第二节点的边数,确定所述第二节点的度中心性。
3.根据权利要求1或2所述的改进的TextRank关键词提取方法,其特征在于,获取所述第一节点的聚类系数,以及,获取所述第二节点的聚类系数,包括:
根据所述词共现网络,获取所述第一节点的边数、所述第一相邻节点之间的边数、所述第二节点的边数及所述第二相邻节点之间的边数;
根据所述第一节点的边数和所述第一相邻节点之间的边数,确定所述第一节点的聚类系数;
根据所述第二节点的边数和所述第二相邻节点之间的边数,确定所述第二节点的聚类系数。
4.根据权利要求1所述的改进的TextRank关键词提取方法,其特征在于,所述根据所述第一节点的初始权重、所述第二节点的初始权重、所述第一相邻节点的集合和所述第二相邻节点的集合,确定所述第一节点与所述第二节点之间的连边权重,包括:
通过如下公式确定所述第一节点与所述第二节点之间的连边权重:
Figure FDA0002947835910000021
其中,wij表示所述第一节点vi与所述第二节点vj之间的连边权重,wci表示所述第一节点vi的初始权重,wcj表示所述第二节点vj的初始权重,τ(i)表示所述第一相邻节点的集合,τ(j)表示所述第二相邻节点的集合。
5.一种改进的TextRank关键词提取装置,其特征在于,所述改进的TextRank关键词提取装置应用于权利要求1-4任一项所述的改进的TextRank关键词提取方法,所述改进的TextRank关键词提取装置包括:
文本获取模块,用于获取初始文本,并对所述初始文本进行预处理,确定候选关键词总集;所述预处理是指将所述初始文本划分为多个句子,对任一句子进行分词、词性标注、词性过滤以及去停用词处理后,确定任一句子对应的候选关键词集;所述候选关键词总集包括多个候选关键词集;
词共现网络构建模块,用于根据候选关键词总集,构建词共现网络;
节点获取模块,用于根据所述词共现网络,获取第一节点及第二节点,所述第一节点为任一节点,所述第二节点为所述第一节点任一相邻的节点;
度中心性计算模块,用于获取所述第一节点的度中心性,以及,获取所述第二节点的度中心性;
聚类系数计算模块,用于获取所述第一节点的聚类系数,以及,获取所述第二节点的聚类系数;
初始权重获取模块,用于根据所述第一节点的度中心性、所述第一节点的聚类系数和预设的可调节参数,确定所述第一节点的初始权重;以及,根据所述第二节点的度中心性、所述第二节点的聚类系数和所述可调节参数,确定所述第二节点的初始权重;
节点参数获取模块,用于根据所述词共现网络,获取节点总数、第一相邻节点的集合、第二相邻节点的集合,所述第一相邻节点是指与所述第一节点相邻的节点,所述第二相邻节点是指与所述第二节点相邻的节点;
连边权重获取模块,用于根据所述第一节点的初始权重、所述第二节点的初始权重、所述第一相邻节点的集合和所述第二相邻节点的集合,确定所述第一节点与所述第二节点之间的连边权重;
重要性分值确定模块,用于根据所述节点总数、预设的阻尼系数、所述第一相邻节点的集合、所述第一节点与所述第二节点之间的连边权重和所述第二节点的初始权重,确定所述第一节点的重要性分值;
最终权重确定模块,用于根据所述第一节点的重要性分值和预设的位置系数,确定所述第一节点的最终权重;
关键词获取模块,用于根据所述第一节点的最终权重,对全部节点进行降序排列并舍去单字词节点,确定所述初始文本的关键词。
6.根据权利要求5所述的改进的TextRank关键词提取装置,其特征在于,所述度中心性计算模块包括:
度中心性参数获取单元,用于根据所述词共现网络,获取所述节点总数、所述第一节点的边数及第二节点的边数,所述边数是指连接所述任一节点的边的个数;
第一节点度中心性计算单元,用于根据所述节点总个数和所述第一节点的边数,确定所述第一节点的度中心性;
第二节点度中心性计算单元,用于根据所述节点总个数和所述第二节点的边数,确定所述第二节点的度中心性。
7.根据权利要求5所述的改进的TextRank关键词提取装置,其特征在于,所述聚类系数计算模块包括:
聚类系数参数获取单元,用于根据所述词共现网络,获取所述第一节点的边数、所述第一相邻节点之间的边数、所述第二节点的边数及所述第二相邻节点之间的边数;
第一节点聚类系数计算单元,用于根据所述第一节点的边数和所述第一相邻节点之间的边数,确定所述第一节点的聚类系数;
第二节点聚类系数计算单元,用于根据所述第二节点的边数和所述第二相邻节点之间的边数,确定所述第二节点的聚类系数。
8.根据权利要求5所述的改进的TextRank关键词提取装置,其特征在于,所述连边权重获取模块用于通过如下公式确定所述第一节点与所述第二节点之间的连边权重:
Figure FDA0002947835910000031
其中,wij表示所述第一节点vi与所述第二节点vj之间的连边权重,wci表示所述第一节点vi的初始权重,wcj表示所述第二节点vj的初始权重,τ(i)表示所述第一相邻节点的集合,τ(j)表示所述第二相邻节点的集合。
CN202110201095.3A 2021-02-23 2021-02-23 一种改进的TextRank关键词提取方法及装置 Active CN112948527B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110201095.3A CN112948527B (zh) 2021-02-23 2021-02-23 一种改进的TextRank关键词提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110201095.3A CN112948527B (zh) 2021-02-23 2021-02-23 一种改进的TextRank关键词提取方法及装置

Publications (2)

Publication Number Publication Date
CN112948527A true CN112948527A (zh) 2021-06-11
CN112948527B CN112948527B (zh) 2023-06-16

Family

ID=76245612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110201095.3A Active CN112948527B (zh) 2021-02-23 2021-02-23 一种改进的TextRank关键词提取方法及装置

Country Status (1)

Country Link
CN (1) CN112948527B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114420256A (zh) * 2022-03-30 2022-04-29 山东师范大学 基于文本与图像识别的抑郁症检测系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631859A (zh) * 2013-10-24 2014-03-12 杭州电子科技大学 一种面向科技项目的评审专家智能推荐方法
CN105224807A (zh) * 2015-10-14 2016-01-06 东软集团股份有限公司 病例审核规则提取方法及装置,病例审核方法及系统
CN105302882A (zh) * 2015-10-14 2016-02-03 东软集团股份有限公司 获取关键词的方法及装置
CN105740381A (zh) * 2016-01-27 2016-07-06 北京工业大学 一种基于复杂网络特性及神经网络聚类挖掘用户兴趣的方法
CN107436877A (zh) * 2016-05-25 2017-12-05 北京京东尚科信息技术有限公司 热点话题推送方法和装置
CN108932669A (zh) * 2018-06-27 2018-12-04 北京工业大学 一种基于监督式层次分析法的异常账户检测方法
CN110532390A (zh) * 2019-08-26 2019-12-03 南京邮电大学 一种基于ner与复杂网络特征的新闻关键词提取方法
CN111158641A (zh) * 2019-12-31 2020-05-15 中国科学院软件研究所 一种基于语义分析和文本挖掘的事务类功能点自动识别方法及相应存储介质与电子装置
CN111680509A (zh) * 2020-06-10 2020-09-18 四川九洲电器集团有限责任公司 基于共现语言网络的文本关键词自动抽取方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631859A (zh) * 2013-10-24 2014-03-12 杭州电子科技大学 一种面向科技项目的评审专家智能推荐方法
CN105224807A (zh) * 2015-10-14 2016-01-06 东软集团股份有限公司 病例审核规则提取方法及装置,病例审核方法及系统
CN105302882A (zh) * 2015-10-14 2016-02-03 东软集团股份有限公司 获取关键词的方法及装置
CN105740381A (zh) * 2016-01-27 2016-07-06 北京工业大学 一种基于复杂网络特性及神经网络聚类挖掘用户兴趣的方法
CN107436877A (zh) * 2016-05-25 2017-12-05 北京京东尚科信息技术有限公司 热点话题推送方法和装置
CN108932669A (zh) * 2018-06-27 2018-12-04 北京工业大学 一种基于监督式层次分析法的异常账户检测方法
CN110532390A (zh) * 2019-08-26 2019-12-03 南京邮电大学 一种基于ner与复杂网络特征的新闻关键词提取方法
CN111158641A (zh) * 2019-12-31 2020-05-15 中国科学院软件研究所 一种基于语义分析和文本挖掘的事务类功能点自动识别方法及相应存储介质与电子装置
CN111680509A (zh) * 2020-06-10 2020-09-18 四川九洲电器集团有限责任公司 基于共现语言网络的文本关键词自动抽取方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孟现茹: "基于政府平台公众反馈与建议的民生关注挖掘", 《中国优秀博硕士学位论文全文数据库(硕士)社会科学Ⅰ辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114420256A (zh) * 2022-03-30 2022-04-29 山东师范大学 基于文本与图像识别的抑郁症检测系统

Also Published As

Publication number Publication date
CN112948527B (zh) 2023-06-16

Similar Documents

Publication Publication Date Title
CN109190117B (zh) 一种基于词向量的短文本语义相似度计算方法
CN110993081B (zh) 一种医生在线推荐方法及系统
CN108399163B (zh) 结合词聚合与词组合语义特征的文本相似性度量方法
CN111966917B (zh) 一种基于预训练语言模型的事件检测与摘要方法
CN106970910B (zh) 一种基于图模型的关键词提取方法及装置
CN108538286A (zh) 一种语音识别的方法以及计算机
CN112035511A (zh) 基于医学知识图谱的目标数据搜索方法及相关设备
WO2021208444A1 (zh) 电子病例自动生成方法、装置、设备及存储介质
CN110674296B (zh) 一种基于关键词的资讯摘要提取方法及系统
CN110851714A (zh) 基于异构主题模型和词嵌入模型的文本推荐方法和系统
CN110931128A (zh) 非结构化医疗文本无监督症状自动识别方法、系统、装置
CN112527981B (zh) 开放式信息抽取方法、装置、电子设备及存储介质
Sarkar A hybrid approach to extract keyphrases from medical documents
CN114706972A (zh) 一种基于多句压缩的无监督科技情报摘要自动生成方法
CN108062351A (zh) 关于特定主题类别的文本摘要提取方法、可读存储介质
Bhutada et al. Semantic latent dirichlet allocation for automatic topic extraction
CN113836938A (zh) 文本相似度的计算方法及装置、存储介质、电子装置
CN109903198B (zh) 专利对比分析方法
CN112948527B (zh) 一种改进的TextRank关键词提取方法及装置
CN110929022A (zh) 一种文本摘要生成方法及系统
CN113590809A (zh) 一种裁判文书摘要自动生成方法及装置
CN111639189B (zh) 一种基于文本内容特征的文本图构建方法
CN111191413B (zh) 一种基于图排序模型的事件核心内容自动标记方法、装置及系统
CN116936135A (zh) 基于nlp技术的医疗大健康数据采集分析方法
CN116414971A (zh) 一种多特征融合的关键词权重计算方法和关键词抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant