CN109918660B - 一种基于TextRank的关键词提取方法和装置 - Google Patents
一种基于TextRank的关键词提取方法和装置 Download PDFInfo
- Publication number
- CN109918660B CN109918660B CN201910160266.5A CN201910160266A CN109918660B CN 109918660 B CN109918660 B CN 109918660B CN 201910160266 A CN201910160266 A CN 201910160266A CN 109918660 B CN109918660 B CN 109918660B
- Authority
- CN
- China
- Prior art keywords
- text
- processed
- node
- nodes
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 31
- 238000004364 calculation method Methods 0.000 claims abstract description 67
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000009792 diffusion process Methods 0.000 claims abstract description 10
- 238000004891 communication Methods 0.000 claims description 19
- 238000013016 damping Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000009499 grossing Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 description 30
- 238000010586 diagram Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供了一种基于文本排列TextRank的关键词提取方法和装置,方法包括:对待处理文本进行预处理,得到多个候选词,根据预设的扩散度计算公式,计算每两个候选词在待处理文本中的扩散度,将扩散度和该两个候选词的共现次数的乘积,作为该两个候选词对应的节点之间的边的权重,根据计算得到的各权重,构建多个候选词对应的文本网络,并根据预设的迭代公式对文本网络中各节点的得分进行迭代计算,当满足预设收敛条件时,将各节点中得分最高的预设数目个节点对应的候选词,作为待处理文本的关键词。基于上述处理,在共现次数的基础上,结合候选词的扩散度确定节点之间的边的权重,进而能够提高提取到的关键词的准确度。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种基于TextRank的关键词提取方法和装置。
背景技术
随着计算机技术的快速发展,线上文本的数量呈现爆炸式增长。关键词是对文本的信息的简要概括,能够帮助用户快速理解文本的主旨,从而提高信息访问和信息搜索的效率。因此,如何快速准确地从文本中提取出关键词逐渐成为自然语言处理领域研究的一个热门方向。
相关技术中,通常基于TextRank(文本排列)算法,提取文本的关键词,方法可以包括以下步骤:对待处理文本进行预处理,得到多个候选的关键词(可以称为候选词),针对每两个候选词,通过预设共现窗口计算该两个候选词的共现次数,然后,将每一候选词作为文本网络的一个节点,将候选词的共现次数作为对应的节点之间的边的权重,构建文本网络,并根据迭代公式(1)进行迭代计算:
其中,Pi表示候选词Wi对应的节点,1≤i≤M,M为待处理文本中所有候选词的总个数,In(Pi)表示文本网络中指向节点Pi的节点的构成的集合,Pj表示In(Pi)中的第j个节点,j小于等于In(Pi)包含的节点的个数,Out(Pj)表示文本网络中节点Pj所指向的节点构成的集合,Pk表示Out(Pj)中的第k个节点,k小于等于Out(Pj)包含的节点的个数;S(Pi)表示节点Pi的得分,S(Pj)表示节点Pj的得分;d表示阻尼因子,用于确保迭代计算能够达到收敛条件;ωji表示节点Pj与节点Pi之间的边的权重,ωjk表示节点Pj与节点Pk之间的边的权重。当根据公式(1)及各节点预设的初始得分,进行迭代计算满足预设收敛条件时,可以将得分较高的节点对应的候选词,作为待处理文本的关键词。
相关技术中,仅根据候选词的共现次数提取关键词,会导致提取到的关键词的准确度较低。
发明内容
本申请实施例的目的在于提供一种基于TextRank的关键词提取方法,可以提高关键词的准确度。具体技术方案如下:
第一方面,为了达到上述目的,本申请实施例公开了一种基于TextRank的关键词提取方法,所述方法包括:
对待处理文本进行预处理,得到多个候选词;
根据预设的扩散度计算公式,计算所述多个候选词中每两个候选词在所述待处理文本中的扩散度,其中,所述扩散度计算公式为:
dij表示候选词Wi与候选词Wj在所述待处理文本中的扩散度,Ni表示所述待处理文本中包含所述候选词Wi的句子的个数,Nj表示所述待处理文本中包含所述候选词Wj的句子的个数,Nij表示所述待处理文本中同时包含所述候选词Wi和所述候选词Wj的句子的个数,N表示所述待处理文本中句子的总个数,Q表示预设平滑因子;
将所述扩散度和该两个候选词的共现次数的乘积,作为该两个候选词对应的节点之间的边的权重;
根据计算得到的各权重,构建所述多个候选词对应的文本网络,并根据预设的迭代公式对所述文本网络中各节点的得分进行迭代计算;
当满足预设收敛条件时,将所述各节点中得分最高的预设数目个节点对应的候选词,作为所述待处理文本的关键词。
可选的,所述迭代公式为:
其中,Pi表示候选词Wi对应的节点,In(Pi)表示所述文本网络中指向节点Pi的节点的构成的集合,Pj表示In(Pi)中的第j个节点,Out(Pj)表示所述文本网络中节点Pj所指向的节点构成的集合,Pk表示Out(Pj)中的第k个节点,S(Pi)表示节点Pi的得分,S(Pj)表示节点Pj的得分,d表示阻尼因子,ωji表示节点Pj与节点Pi之间的边的权重,ωjk表示节点Pj与节点Pk之间的边的权重,D表示所述待处理文本,p(Wi|D)表示候选词Wi与所述待处理文本的主题的相关度。
可选的,所述候选词Wi与所述待处理文本的主题的相关度p(Wi|D)为根据预设的相关度计算公式得到的,其中,所述相关度计算公式为:
K表示所述待处理文本包含的主题的个数,zk表示所述待处理文本包含的第k个主题,p(Wi|zk)表示所述候选词Wi在主题zk中的概率,p(zk|D)表示所述主题zk在所述待处理文本中的概率。
可选的,在所述将所述各节点中得分最高的预设数目个节点对应的候选词,作为所述待处理文本的关键词之前,所述方法还包括:
针对所述文本网络中的每一节点,将本次计算得到的得分与上一次计算得到的得分的差值的绝对值,作为该节点对应的得分差值;
如果所述各节点对应的得分差值的平均值小于预设数值,则判定满足预设收敛条件。
第二方面,为了达到上述目的,本申请实施例公开了一种基于TextRank的关键词提取装置,所述装置包括:
预处理模块,用于对待处理文本进行预处理,得到多个候选词;
扩散度计算模块,用于根据预设的扩散度计算公式,计算所述多个候选词中每两个候选词在所述待处理文本中的扩散度,其中,所述扩散度计算公式为:
dij表示候选词Wi与候选词Wj在所述待处理文本中的扩散度,Ni表示所述待处理文本中包含所述候选词Wi的句子的个数,Nj表示所述待处理文本中包含所述候选词Wj的句子的个数,Nij表示所述待处理文本中同时包含所述候选词Wi和所述候选词Wj的句子的个数,N表示所述待处理文本中句子的总个数,Q表示预设平滑因子;
权重计算模块,用于将所述扩散度和该两个候选词的共现次数的乘积,作为该两个候选词对应的节点之间的边的权重;
迭代计算模块,用于根据计算得到的各权重,构建所述多个候选词对应的文本网络,并根据预设的迭代公式对所述文本网络中各节点的得分进行迭代计算;
第一处理模块,用于当满足预设收敛条件时,将所述各节点中得分最高的预设数目个节点对应的候选词,作为所述待处理文本的关键词。
可选的,所述迭代公式为:
其中,Pi表示候选词Wi对应的节点,In(Pi)表示所述文本网络中指向节点Pi的节点的构成的集合,Pj表示In(Pi)中的第j个节点,Out(Pj)表示所述文本网络中节点Pj所指向的节点构成的集合,Pk表示Out(Pj)中的第k个节点,S(Pi)表示节点Pi的得分,S(Pj)表示节点Pj的得分,d表示阻尼因子,ωji表示节点Pj与节点Pi之间的边的权重,ωjk表示节点Pj与节点Pk之间的边的权重,D表示所述待处理文本,p(Wi|D)表示候选词Wi与所述待处理文本的主题的相关度。
可选的,所述候选词Wi与所述待处理文本的主题的相关度p(Wi|D)为根据预设的相关度计算公式得到的,其中,所述相关度计算公式为:
K表示所述待处理文本包含的主题的个数,zk表示所述待处理文本包含的第k个主题,p(Wi|zk)表示所述候选词Wi在主题zk中的概率,p(zk|D)表示所述主题zk在所述待处理文本中的概率。
可选的,所述装置还包括:
第二处理模块,用于针对所述文本网络中的每一节点,将本次计算得到的得分与上一次计算得到的得分的差值的绝对值,作为该节点对应的得分差值;
如果所述各节点对应的得分差值的平均值小于预设数值,则判定满足预设收敛条件。
在本申请实施的又一方面,为了达到上述目的,本申请实施例公开了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器,所述通信接口,所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现上述任一所述的方法步骤。
在本申请实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的方法步骤。
在本申请实施的又一方面,本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的方法步骤。
本申请实施例提供了一种基于TextRank的关键词提取方法,可以对待处理文本进行预处理,得到多个候选词,根据预设的扩散度计算公式,计算多个候选词中每两个候选词在待处理文本中的扩散度,将扩散度和该两个候选词的共现次数的乘积,作为该两个候选词对应的节点之间的边的权重,根据计算得到的各权重,构建多个候选词对应的文本网络,并根据预设的迭代公式对文本网络中各节点的得分进行迭代计算,当满足预设收敛条件时,将各节点中得分最高的预设数目个节点对应的候选词,作为待处理文本的关键词。基于上述处理,在共现次数的基础上,结合候选词的扩散度确定节点之间的边的权重,进而能够提高提取到的关键词的准确度。
当然,实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种基于TextRank的关键词提取方法的流程图;
图2为本申请实施例提供的一种基于TextRank的关键词提取方法示例的流程图;
图3为本申请实施例提供的一种关键词提取的准确率对比图;
图4为申请本实施例提供的一种关键词提取的召回率对比图;
图5为本申请实施例提供的一种关键词提取的F1值对比图;
图6为本申请实施例提供的一种准确率-召回率曲线对比图;
图7为本申请实施例提供的一种基于TextRank的关键词提取装置的结构图;
图8为本申请实施例提供的一种电子设备的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
现在技术中,仅根据候选词的共现次数确定节点之间的边的权重,构建文本网络,进而确定关键词,候选词的共现次数能够反映候选词在待处理文本中出现的概率,即,针对某一候选词,如果该候选词在待处理文本中出现的概率较大,则该候选词被确定为关键词的概率较大。然而,即使该候选词在待处理文本中出现的概率较大,该候选词也有可能不是待处理文本的关键词。可见,现有技术中,提取到的关键词的准确度较低。
为了解决上述问题,本申请实施例提供了一种基于TextRank的关键词提取方法,可以应用于电子设备,该电子设备可以是终端,也可以是服务器。
电子设备可以对待处理文本进行预处理,得到多个候选词,根据预设的扩散度计算公式,计算多个候选词中每两个候选词在待处理文本中的扩散度,将扩散度和该两个候选词的共现次数的乘积,作为该两个候选词对应的节点之间的边的权重,根据计算得到的各权重,构建多个候选词对应的文本网络,并根据预设的迭代公式对文本网络中各节点的得分进行迭代计算,当满足预设收敛条件时,将各节点中得分最高的预设数目个节点对应的候选词,作为待处理文本的关键词。基于上述处理,在共现次数的基础上,结合候选词在待处理文本中的扩散度确定节点之间的边的权重,进而确定关键词。扩散度能够体现候选词在待处理文本中的分布情况,因此,结合共现次数和扩散度,能够提高提取到的关键词的准确度。
参见图1,图1为本申请实施例提供的一种基于TextRank的关键词提取方法的流程图,该方法可以包括以下步骤:
S101:对待处理文本进行预处理,得到多个候选词。
其中,待处理文本即待提取关键词的文本。
在申请实施例中,电子设备可以获取待处理文本,并对待处理文本进行预处理,进而得到多个候选关键词(即候选词)。
本步骤中,电子设备可以对待处理文本包含的文本信息进行分句处理,得到多个句子。其中,电子设备可以根据标点符号对文本信息进行分句处理,例如,在待处理文本中,当检测到句号、感叹号、省略号或分号时,电子设备可以确定为一个句子的结束位置。
然后,电子设备可以对得到的每一句子进行分词处理,进而得到待处理文本包含的词。电子设备可以去除待处理文本包含的停用词,将待处理文本包含的动词、名词和英文单词作为候选词。
S102:根据预设的扩散度计算公式,计算多个候选词中每两个候选词在待处理文本中的扩散度。
扩散度计算公式为:
其中,dij表示候选词Wi与候选词Wj在待处理文本中的扩散度,1≤i≤M、1≤j≤M,M为待处理文本中所有候选词的总个数,Nj表示待处理文本中包含候选词Wi的句子的个数,Nj表示待处理文本中包含候选词Wj的句子的个数,Nij表示待处理文本中同时包含候选词Wi和候选词Wj的句子的个数,N表示待处理文本中句子的总个数,Q表示预设平滑因子,Q的值可以由技术人员根据经验进行设置,例如,Q可以为0.5。可见,dij=dji,且如果候选词Wi与Wj总是同时出现在同一句子中,则Ni=Nj=Nij,dij的值接近于0。
在申请实施例中,在获取待处理文本的候选词之后,针对每两个候选词,电子设备都可以根据公式(2),计算该两个候选词在待处理文本中的扩散度。
S103:将扩散度和该两个候选词的共现次数的乘积,作为该两个候选词对应的节点之间的边的权重。
在申请实施例中,针对每两个候选词,电子设备可以将该两个候选词在待处理文本中的扩散度和该两个候选词的共现次数的乘积,作为该两个候选词对应的节点之间的边的权重。
例如,电子设备可以根据公式(3),计算该两个候选词对应的节点之间的边的权重。
ωij=cij·dij (3)
其中,ωij表示候选词Wj对应的节点Pj与候选词Wi对应的节点Pi之间的边的权重,cij表示候选词Wj与候选词Wi的共现次数,dij表示候选词Wi与候选词Wj在待处理文本中的扩散度。
本步骤中,电子设备可以根据预设的共现窗口的长度,确定该两个候选词的共现次数,共享窗口的长度可以由技术人员根据经验进行设置,共现窗口的长度可以用L(L>2,且L为整数)表示。在待处理文本中,针对任意两个候选词,该两个候选词出现在同一共现窗口(即该两个候选词之间的词的个数小于L-1)的次数,为该两个候选词的共现次数。
例如,待处理文本中的文本信息为:“要相信自己,但又不能只相信自己。每个人要在社会上立足,要在时代中拼搏,一定要自信,但自信不是自负。”
对上述文本信息进行分词,可以得到:要/相信/自己/但/又/不能/只/相信/自己/每个人/要/在/社会/上/立足/要/在/时代/中/拼搏/一定/要/自信/但/自信/不是/自负
若L=5,当共现窗口向后滑动时,可以依次得到:
[要,相信,自己,但,又]
[相信,自己,但,又,不能]
......
[相信,自己,每个人,要,在]
[自己,每个人,要,在,社会]
......
[自信,但,自信,不是,自负]多个共现窗口。
在计算共现次数时,为了防止重复计算,可以以共现窗口中的第一个候选词为基准,计算该候选词与共现窗口中的其他候选词的共现次数。例如,“相信”与“自己”分别在[相信,自己,但,又,不能]和[相信,自己,每个人,要,在]内共现,则“相信”与“自己”的共现次数为2。例如,“自己”与“社会”仅在[自己,每个人,要,在,社会]内共现,则“自己”与“社会”的共现次数为1。
S104:根据计算得到的各权重,构建多个候选词对应的文本网络,并根据预设的迭代公式对文本网络中各节点的得分进行迭代计算。
在申请实施例中,在得到每两个候选词对应的节点之间的边的权重后,电子设备可以根据得到的各边的权重,构造待处理文本包含的所有候选词对应的文本网络,进而,电子设备可以根据预设的迭代公式对文本网络中各节点的得分进行迭代计算。
本步骤中,在进行迭代计算之前,电子设备可以设置文本网络中每一节点的初始得分,初始得分的取值范围为(0,1],节点的初始得分可以由技术人员根据经验进行设置。
一种实现方式中,如果文本网络中的节点的个数为10,则可以设置每一节点的初始得分为O.1;如果文本网络中的节点的个数为20,则可以设置每一节点的初始得分为0.05,但并不限于此。
迭代公式可以为上述公式(1)。
其中,Pi表示候选词Wi对应的节点,1≤i≤M,M为待处理文本中所有候选词的总个数,In(Pi)表示文本网络中指向节点Pi的节点的构成的集合,Pj表示In(Pi)中的第j个节点,j小于等于In(Pi)包含的节点的个数,Out(Pj)表示文本网络中节点Pj所指向的节点构成的集合,Pk表示Out(Pj)中的第k个节点,k小于等于Out(Pj)包含的节点的个数,S(Pi)表示节点Pi的得分,S(Pj)表示节点Pj的得分;d表示阻尼因子,用于确保迭代计算能够达到收敛条件;ωji表示节点Pj与节点Pi之间的边的权重,ωjk表示节点Pj与节点Pk之间的边的权重。由于该文本网络是无向图,因此,In(Pi)和Out(Pi)表示同一集合。
S105:当满足预设收敛条件时,将各节点中得分最高的预设数目个节点对应的候选词,作为待处理文本的关键词。
其中,预设数目可以由技术人员根据经验进行设置,例如,预设数目可以为3,也可以为5,但并不限于此。
在申请实施例中,在进行迭代计算的过程中,当电子设备判定满足预设收敛条件时,电子设备可以获取所有节点当前的得分,并将各节点中得分最高的预设数目个节点对应的候选词,作为待处理文本的关键词。
预设收敛条件可以根据迭代计算的次数确定,例如,当迭代计算100次时,电子设备可以确定满足预设收敛条件,或者,当迭代计算200次时,电子设备可以确定满足预设收敛条件。满足收敛条件所需的迭代计算的次数可以由技术人员根据经验进行设置。
可选的,预设收敛条件也可以根据节点的得分确定,相应的,在S105之前,该方法还可以包括以下步骤:
步骤一,针对文本网络中的每一节点,将本次计算得到的得分与上一次计算得到的得分的差值的绝对值,作为该节点对应的得分差值。
在申请实施例中,在每次迭代计算之后,电子设备可以获取每一节点当前的得分。针对每一节点,电子设备可以获取该节点本次计算的得分与上一次计算的得分的差值的绝对值,作为该节点对应的得分差值,进而,在每次迭代计算之后,电子设备可以获取所有节点对应的得分差值。
步骤二,如果各节点对应的得分差值的平均值小于预设数值,则判定满足预设收敛条件。
其中,预设数值可以由技术人员根据节点的经验进行设置,例如,预设数值可以为0.0001,预设数值也可以为0.00001,但并不限于此。
在申请实施例中,在每次迭代计算之后,如果各节点对应的得分差值的平均值小于预设数值,电子设备可以判定当前满足预设收敛条件,进而,电子设备可以停止迭代计算,并根据各节点当前的得分,确定待处理文本的关键词。
另外,电子设备还可以结合候选词与待处理文本的主题的相关度,进行迭代计算,以提高确定出的关键词的准确度。
可选的,迭代公式可以为公式(4):
其中,Pi表示候选词Wi对应的节点,1≤i≤M,M为待处理文本中所有候选词的总个数,In(Pi)表示文本网络中指向节点Pi的节点的构成的集合,Pj表示In(Pi)中的第j个节点,j小于等于In(Pi)包含的节点的个数,Out(Pj)表示文本网络中节点Pj所指向的节点构成的集合,Pk表示Out(Pj)中的第k个节点,k小于等于Out(Pj)包含的节点的个数,S(Pi)表示节点Pi的得分,S(Pj)表示节点Pj的得分,d表示阻尼因子,用于确保迭代计算能够达到收敛条件;ωji表示节点Pj与节点Pi之间的边的权重,ωjk表示节点Pj与节点Pk之间的边的权重,D表示待处理文本,p(Wi|D)表示候选词Wi与待处理文本的主题的相关度。
公式(3)中,各候选词对应的阻尼因子相同,因此,根据公式(3)进行迭代计算,并不能体现候选词与待处理文本的主题的相关性。然而,待处理文本的关键词与待处理文本的主题具有一定的相关性,因此,可以在公式(3)的基础上,添加候选词与待处理文本的主题的相关度,得到公式(4)。
针对每一候选词,电子设备可以计算该候选词与待处理文本的主题的相关度,进而,电子设备可以根据公式(4)进行迭代计算,以确定待处理文本的关键词。
可选的,候选词Wi与待处理文本的主题的相关度p(Wi|D)可以根据预设的相关度计算公式得到。
其中,相关度计算公式可以为:
K表示待处理文本包含的主题的个数,zk表示待处理文本包含的第k(k=1,2,3...K)个主题,p(Wi|zk)表示候选词Wi在主题zk中的概率,p(zk|D)表示主题zk在待处理文本中的概率,p(Wi|D)表示候选词Wi与文档D的主题的相关度。
本步骤中,电子设备可以通过构建针对待处理文本的LDA(LatentDirichletAllocation,隐含狄利克雷分布)主题模型,进而确定p(Wi|zk)和p(zk|D)。
一种实现方式中,如果词表包括V(V>1)个词,共计K(K≥ 1)个主题;用θ表示文本对应下的主题分布,为一个多项式分布;用表示主题对应下的词分布,也是一个多项式分布;用z表示主题,zk表示第k个主题;用W表示词,Wn表示第n(n≥1)个词;用α表示文本对应的主题分布的先验分布,即狄利克雷分布的超参数;用β表示主题对应的词分布的先验分布,即狄利克雷分布的超参数。则包含有N个词的文本生成的概率可以参考公式(6):
表示在根据上述词表生成包含有N个词的文本的概率。即,从参数为β的狄利克雷先验分布中采样出每个主题下词的多项式分布然后,从参数为α的狄利克雷先验分布中采样出文本对应的主题的多项式分布θ。对于文本的第n(n=1,2,3…N)个词Wn,可以从文本对应的主题的多项式分布θ中采样生成词的主题zk并从主题zk对应的词的多项式分布中采样出对应的词Wn。
即,在主题zk中词Wi的概率为:
在文本D中主题zk的概率为:
另外,针对某一候选词,如果待处理文本对应的LDA主题模型中不存在该候选词,则电子设备可以将其他各候选词与待处理文本的主题的相关度的平均值,作为该候选词与待处理文本的主题的相关度。
参见图2,图2位本申请实施例提供的一种基于TextRank的关键词提取方法示例的流程图,该方法可以包括以下步骤:
S201:对待处理文本进行预处理,得到多个候选词。
S202:根据预设的扩散度计算公式,计算多个候选词中每两个候选词在待处理文本中的扩散度。
其中,扩散度计算公式可以参考公式(2)。
S203:将该两个候选词在待处理文本中的扩散度和该两个候选词的共现次数的乘积,作为该两个候选词对应的节点之间的边的权重。
S204:根据计算得到的各权重,构建多个候选词对应的文本网络,并根据预设的迭代公式对文本网络中各节点的得分进行迭代计算。
其中,迭代公式可以参考公式(4)。
S205:针对文本网络中的每一节点,将本次计算得到的得分与上一次计算得到的得分的差值的绝对值,作为该节点对应的得分差值。
S206:当各节点对应的得分差值的平均值小于预设数值时,将各节点中得分最高的预设数目个节点对应的候选词,作为待处理文本的关键词。
可见,基于本申请实施例提供的基于TextRank的关键词提取方法,可以对待处理文本进行预处理,得到多个候选词,根据预设的扩散度计算公式,计算每两个候选词在待处理文本中的扩散度,将扩散度和该两个候选词的共现次数的乘积,作为该两个候选词对应的节点之间的边的权重,根据计算得到的各权重,构建多个候选词对应的文本网络,并根据预设的迭代公式对文本网络中各节点的得分进行迭代计算,当满足预设收敛条件时,将各节点中得分最高的预设数目个节点对应的候选词,作为待处理文本的关键词。基于上述处理,在共现次数的基础上,结合候选词的扩散度确定节点之间的边的权重,进而能够提高提取到的关键词的准确度。
为了与现有技术中的TextRank算法进行区分,本申请实施例提出的关键词提取方法可以称为LDA-TextRank算法。经过实验发现,在相同的共现窗口的长度与阻尼因子大小下,根据LDA-TextRank算法提取关键词的准确率,高于根据TextRank算法提取关键词的准确率;根据LDA-TextRank算法提取关键词的召回率,高于根据TextRank算法提取关键词的召回率;根据LDA-TextRank算法进行关键词提取的F1值,高于根据TextRank算法进行关键词提取的F1值。
另外,当共现窗口的长度为10,阻尼因子为0.7,主题数为50时,两种算法均达到较好的效果。因此,在共现窗口的长度为10,阻尼因子大小为0.7,主题数为50时,针对关键词提取个数从1到15,对两种算法的实验结果进行对比,可以得到图3、图4和图5。
参见图3,图3为本实施例提供的一种关键词提取的准确率对比图,其中,带圆点的实线表示TextRank算法的准确率与关键词提取个数的对应关系,带线段的实线表示LDA-TextRank算法的准确率与关键词提取个数的对应关系。
参见图4,图4为本实施例提供的一种关键词提取的召回率对比图,其中,带圆点的实线表示TextRank算法的召回率与关键词提取个数的对应关系,带线段的实线表示LDA-TextRank算法的召回率与关键词提取个数的对应关系。
参见图5,图5为本实施例提供的一种关键词提取的F1值对比图,其中,带圆点的实线表示TextRank算法的F1值与关键词提取个数的对应关系,带线段的实线表示LDA-TextRank算法的F1值与关键词提取个数的对应关系。
由图3、图4和图5可见,当关键词提取个数较少时,两种算法的三个指标的实验结果几乎重叠,随着关键词提取个数的增加,基于LDA-TextRank算法的准确率、召回率以及F1值均高于TextRank。
导致上述情况的原因是:当关键词提取个数较少时,待处理文本中出现频率最高的候选词通常为文本网络的中心,同时,出现频率最高的候选词通常被作为参考候选词,导致得分最高的几个候选词趋于相同;当关键词提取个数较多时,LDA-TextRank算法能够在一定程度上提高与待处理文本的主题的相关度较高的候选词的得分,进而LDA-TextRank算法的准确率、召回率以及F1值均高于TextRank算法。
另外,F1值在关键词提取个数为5时达到峰值,这是由于通常待处理文本的关键词为5个,因此,当关键词提取个数为5时,准确率与召回率均能达到相对较高的值,使得F1值达到峰值。
参见图6,图6为本实施例提供的一种准确率-召回率曲线(P-R曲线)对比图,其中,带圆点的实线表示TextRank算法的召回率与准确率的对应关系,带线段的实线表示LDA-TextRank算法的召回率与准确率的对应关系。
其中,横坐标表示准确率,纵坐标表示召回率。
可见,TextRank算法的曲线位于LDA-TextRank算法的曲线的内侧,即,在同一准确率下,LDA-TextRank算法的召回率高于TextRank算法的召回率;在同一召回率下,LDA-TextRank算法的准确率高于TextRank算法的准确率。
与图1的方法实施例相对应,参见图7,图7为本申请实施例提供的一种基于TextRank的关键词提取装置的结构图,该装置可以包括:
预处理模块701,用于对待处理文本进行预处理,得到多个候选词;
扩散度计算模块702,用于根据预设的扩散度计算公式,计算所述多个候选词中每两个候选词在所述待处理文本中的扩散度,其中,所述扩散度计算公式为:
dij表示候选词Wi与候选词Wj在所述待处理文本中的扩散度,Ni表示所述待处理文本中包含所述候选词Wi的句子的个数,Nj表示所述待处理文本中包含所述候选词Wj的句子的个数,Nij表示所述待处理文本中同时包含所述候选词Wi和所述候选词Wj的句子的个数,N表示所述待处理文本中句子的总个数,Q表示预设平滑因子;
权重计算模块703,用于将所述扩散度和该两个候选词的共现次数的乘积,作为该两个候选词对应的节点之间的边的权重;
迭代计算模块704,用于根据计算得到的各权重,构建所述多个候选词对应的文本网络,并根据预设的迭代公式对所述文本网络中各节点的得分进行迭代计算;
第一处理模块705,用于当满足预设收敛条件时,将所述各节点中得分最高的预设数目个节点对应的候选词,作为所述待处理文本的关键词。
可选的,所述迭代公式为:
其中,Pi表示候选词Wi对应的节点,In(Pi)表示所述文本网络中指向节点Pi的节点的构成的集合,Pj表示In(Pi)中的第j个节点,Out(Pj)表示所述文本网络中节点Pj所指向的节点构成的集合,Pk表示Out(Pj)中的第k个节点,S(Pi)表示节点Pi的得分,S(Pj)表示节点Pj的得分,d表示阻尼因子,ωji表示节点Pj与节点Pi之间的边的权重,ωjk表示节点Pj与节点Pk之间的边的权重,D表示所述待处理文本,p(Wi|D)表示候选词Wi与所述待处理文本的主题的相关度。
可选的,所述候选词Wi与所述待处理文本的主题的相关度p(Wi|D)为根据预设的相关度计算公式得到的,其中,所述相关度计算公式为:
K表示所述待处理文本包含的主题的个数,zk表示所述待处理文本包含的第k个主题,p(Wi|zk)表示所述候选词Wi在主题zk中的概率,p(zk|D)表示所述主题zk在所述待处理文本中的概率。
可选的,所述装置还包括:
第二处理模块,用于针对所述文本网络中的每一节点,将本次计算得到的得分与上一次计算得到的得分的差值的绝对值,作为该节点对应的得分差值;
如果所述各节点对应的得分差值的平均值小于预设数值,则判定满足预设收敛条件。
可见,基于本申请实施例提供的基于TextRank的关键词提取装置,可以对待处理文本进行预处理,得到多个候选词,根据预设的扩散度计算公式,计算每两个候选词在待处理文本中的扩散度,将扩散度和该两个候选词的共现次数的乘积,作为该两个候选词对应的节点之间的边的权重,根据计算得到的各权重,构建多个候选词对应的文本网络,并根据预设的迭代公式对文本网络中各节点的得分进行迭代计算,当满足预设收敛条件时,将各节点中得分最高的预设数目个节点对应的候选词,作为待处理文本的关键词。基于上述处理,在共现次数的基础上,结合候选词的扩散度确定节点之间的边的权重,进而能够提高提取到的关键词的准确度。
本申请实施例还提供了一种电子设备,如图8所示,包括处理器801、通信接口802、存储器803和通信总线804,其中,处理器801,通信接口802,存储器803通过通信总线804完成相互间的通信,
存储器803,用于存放计算机程序;
处理器801,用于执行存储器803上所存放的程序时,实现如下步骤:
对待处理文本进行预处理,得到多个候选词;
根据预设的扩散度计算公式,计算所述多个候选词中每两个候选词在所述待处理文本中的扩散度,其中,所述扩散度计算公式为:
dij表示候选词Wi与候选词Wj在所述待处理文本中的扩散度,Ni表示所述待处理文本中包含所述候选词Wi的句子的个数,Nj表示所述待处理文本中包含所述候选词Wj的句子的个数,Nij表示所述待处理文本中同时包含所述候选词Wi和所述候选词Wj的句子的个数,N表示所述待处理文本中句子的总个数,Q表示预设平滑因子;
将所述扩散度和该两个候选词的共现次数的乘积,作为该两个候选词对应的节点之间的边的权重;
根据计算得到的各权重,构建所述多个候选词对应的文本网络,并根据预设的迭代公式对所述文本网络中各节点的得分进行迭代计算;
当满足预设收敛条件时,将所述各节点中得分最高的预设数目个节点对应的候选词,作为所述待处理文本的关键词。
上述实施例提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended IndustryStandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(ApplicationSpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的基于TextRank的关键词提取方法。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的基于TextRank的关键词提取方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质、计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
Claims (8)
1.一种基于文本排列TextRank的关键词提取方法,其特征在于,所述方法包括:
对待处理文本进行预处理,得到多个候选词;
根据预设的扩散度计算公式,计算所述多个候选词中每两个候选词在所述待处理文本中的扩散度,其中,所述扩散度计算公式为:
dij表示候选词Wi与候选词Wj在所述待处理文本中的扩散度,Ni表示所述待处理文本中包含所述候选词Wi的句子的个数,Nj表示所述待处理文本中包含所述候选词Wj的句子的个数,Nij表示所述待处理文本中同时包含所述候选词Wi和所述候选词Wj的句子的个数,N表示所述待处理文本中句子的总个数,Q表示预设平滑因子;
将所述扩散度和该两个候选词的共现次数的乘积,作为该两个候选词对应的节点之间的边的权重;
根据计算得到的各权重,构建所述多个候选词对应的文本网络,并根据预设的迭代公式对所述文本网络中各节点的得分进行迭代计算;
当满足预设收敛条件时,将所述各节点中得分最高的预设数目个节点对应的候选词,作为所述待处理文本的关键词;预设收敛条件根据迭代计算的次数确定。
4.一种基于文本排列TextRank的关键词提取装置,其特征在于,所述装置包括:
预处理模块,用于对待处理文本进行预处理,得到多个候选词;
扩散度计算模块,用于根据预设的扩散度计算公式,计算所述多个候选词中每两个候选词在所述待处理文本中的扩散度,其中,所述扩散度计算公式为:
dij表示候选词Wi与候选词Wj在所述待处理文本中的扩散度,Ni表示所述待处理文本中包含所述候选词Wi的句子的个数,Nj表示所述待处理文本中包含所述候选词Wj的句子的个数,Nij表示所述待处理文本中同时包含所述候选词Wi和所述候选词Wj的句子的个数,N表示所述待处理文本中句子的总个数,Q表示预设平滑因子;
权重计算模块,用于将所述扩散度和该两个候选词的共现次数的乘积,作为该两个候选词对应的节点之间的边的权重;
迭代计算模块,用于根据计算得到的各权重,构建所述多个候选词对应的文本网络,并根据预设的迭代公式对所述文本网络中各节点的得分进行迭代计算;
第一处理模块,用于当满足预设收敛条件时,将所述各节点中得分最高的预设数目个节点对应的候选词,作为所述待处理文本的关键词;预设收敛条件根据迭代计算的次数确定。
7.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现权利要求1-3任一所述的方法步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-3任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910160266.5A CN109918660B (zh) | 2019-03-04 | 2019-03-04 | 一种基于TextRank的关键词提取方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910160266.5A CN109918660B (zh) | 2019-03-04 | 2019-03-04 | 一种基于TextRank的关键词提取方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109918660A CN109918660A (zh) | 2019-06-21 |
CN109918660B true CN109918660B (zh) | 2021-03-02 |
Family
ID=66963081
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910160266.5A Expired - Fee Related CN109918660B (zh) | 2019-03-04 | 2019-03-04 | 一种基于TextRank的关键词提取方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109918660B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263343B (zh) * | 2019-06-24 | 2021-06-15 | 北京理工大学 | 基于短语向量的关键词抽取方法及系统 |
CN110334268B (zh) * | 2019-07-05 | 2022-01-14 | 李晨 | 一种区块链项目热词生成方法以及装置 |
CN110489757A (zh) * | 2019-08-26 | 2019-11-22 | 北京邮电大学 | 一种关键词提取方法及装置 |
CN110705282A (zh) * | 2019-09-04 | 2020-01-17 | 东软集团股份有限公司 | 关键词提取方法、装置、存储介质及电子设备 |
CN111144112B (zh) * | 2019-12-30 | 2023-07-14 | 广州广电运通信息科技有限公司 | 文本相似度分析方法、装置和存储介质 |
CN111522938B (zh) * | 2020-04-27 | 2023-03-24 | 广东电网有限责任公司培训与评价中心 | 一种人才业绩文档的筛选方法、装置和设备 |
CN114186557A (zh) * | 2022-02-17 | 2022-03-15 | 阿里巴巴达摩院(杭州)科技有限公司 | 主题词确定方法、设备及存储介质 |
CN117171455B (zh) * | 2023-11-01 | 2024-01-26 | 中鑫融信(北京)科技有限公司 | 基于网格的高关注度事件识别方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102375842A (zh) * | 2010-08-20 | 2012-03-14 | 姚尹雄 | 面向领域整体的关键词集的评价和提取方法 |
CN104216875A (zh) * | 2014-09-26 | 2014-12-17 | 中国科学院自动化研究所 | 基于非监督关键二元词串提取的微博文本自动摘要方法 |
CN105843795A (zh) * | 2016-03-21 | 2016-08-10 | 华南理工大学 | 基于主题模型的文档关键词抽取方法及其系统 |
CN109063184A (zh) * | 2018-08-24 | 2018-12-21 | 广东外语外贸大学 | 多语言新闻文本聚类方法、存储介质及终端设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6886010B2 (en) * | 2002-09-30 | 2005-04-26 | The United States Of America As Represented By The Secretary Of The Navy | Method for data and text mining and literature-based discovery |
CN107943800A (zh) * | 2016-10-09 | 2018-04-20 | 郑州大学 | 一种微博话题舆情计算与分析的方法 |
-
2019
- 2019-03-04 CN CN201910160266.5A patent/CN109918660B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102375842A (zh) * | 2010-08-20 | 2012-03-14 | 姚尹雄 | 面向领域整体的关键词集的评价和提取方法 |
CN104216875A (zh) * | 2014-09-26 | 2014-12-17 | 中国科学院自动化研究所 | 基于非监督关键二元词串提取的微博文本自动摘要方法 |
CN105843795A (zh) * | 2016-03-21 | 2016-08-10 | 华南理工大学 | 基于主题模型的文档关键词抽取方法及其系统 |
CN109063184A (zh) * | 2018-08-24 | 2018-12-21 | 广东外语外贸大学 | 多语言新闻文本聚类方法、存储介质及终端设备 |
Non-Patent Citations (3)
Title |
---|
基于主题模型的关键词抽取算法研究;刘啸剑;《中国优秀硕士学位论文全文数据库》;20170215;正文第1-65页,图3.2 * |
基于多特征的中文关键词抽取方法;杨颖等;《计算机应用与软件》;20141231;全文 * |
基于词共现的关键词抽取算法研究;郭建波;《中国优秀硕士学位论文全文数据库》;20160615;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109918660A (zh) | 2019-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918660B (zh) | 一种基于TextRank的关键词提取方法和装置 | |
US11301637B2 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
CN107168954B (zh) | 文本关键词生成方法及装置和电子设备及可读存储介质 | |
CN110674317B (zh) | 一种基于图神经网络的实体链接方法及装置 | |
WO2021189951A1 (zh) | 文本搜索方法、装置、计算机设备和存储介质 | |
CN111611807B (zh) | 一种基于神经网络的关键词提取方法、装置及电子设备 | |
CN109063184B (zh) | 多语言新闻文本聚类方法、存储介质及终端设备 | |
CN110210028A (zh) | 针对语音转译文本的领域特征词提取方法、装置、设备及介质 | |
WO2020060718A1 (en) | Intelligent search platforms | |
CN112100470B (zh) | 基于论文数据分析的专家推荐方法、装置、设备及存储介质 | |
CN113836938A (zh) | 文本相似度的计算方法及装置、存储介质、电子装置 | |
CN110727769A (zh) | 语料库生成方法及装置、人机交互处理方法及装置 | |
CN111859950A (zh) | 一种自动化生成讲稿的方法 | |
Khan et al. | Term ranker: A graph-based re-ranking approach | |
CN113806486A (zh) | 长文本相似度的计算方法及装置、存储介质、电子装置 | |
CN111639189B (zh) | 一种基于文本内容特征的文本图构建方法 | |
CN109344397B (zh) | 文本特征词语的提取方法及装置、存储介质及程序产品 | |
Gautam et al. | Hindi word sense disambiguation using lesk approach on bigram and trigram words | |
CN115391551A (zh) | 事件检测方法及装置 | |
CN114048742A (zh) | 文本信息的知识实体和关系抽取方法及文本质量评估方法 | |
CN111597310B (zh) | 一种敏感内容检测方法、装置、设备、介质 | |
CN111159331B (zh) | 文本的查询方法、文本查询装置以及计算机存储介质 | |
CN109684442B (zh) | 一种文本检索方法、装置、设备及程序产品 | |
CN113297854A (zh) | 文本到知识图谱实体的映射方法、装置、设备及存储介质 | |
CN113609287A (zh) | 一种文本摘要的生成方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210302 |