CN110598209A - 用于提取关键词的方法、系统及存储介质 - Google Patents

用于提取关键词的方法、系统及存储介质 Download PDF

Info

Publication number
CN110598209A
CN110598209A CN201910774424.6A CN201910774424A CN110598209A CN 110598209 A CN110598209 A CN 110598209A CN 201910774424 A CN201910774424 A CN 201910774424A CN 110598209 A CN110598209 A CN 110598209A
Authority
CN
China
Prior art keywords
candidate
candidate keyword
document
word
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910774424.6A
Other languages
English (en)
Other versions
CN110598209B (zh
Inventor
余本功
张宏梅
杨颖�
曹雨蒙
张强
范招娣
朱梦迪
王胡燕
汲浩敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Polytechnic University
Original Assignee
Hefei Polytechnic University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Polytechnic University filed Critical Hefei Polytechnic University
Priority to CN201910774424.6A priority Critical patent/CN110598209B/zh
Publication of CN110598209A publication Critical patent/CN110598209A/zh
Application granted granted Critical
Publication of CN110598209B publication Critical patent/CN110598209B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种用于提取关键词的方法、系统及存储介质,属于关键词的提取技术领域。所述方法包括:对每篇文档分别进行预处理以得到对应的候选关键词集合;构建候选关键词图;构成一个候选关键词词典;构建候选关键词词典的相似度矩阵;计算候选关键词集合中每个候选关键词在对应文档中的重要性;采用层次分析法确定相似度矩阵、词语节点出度特征、词语节点位置特征以及词语节点频次特征的特征系数;分别计算每个候选关键词的词语综合影响力;采用公式(1)对每个候选关键词图的候选关键词进行迭代计算,针对每个候选关键词图,根据权重值的大小对每个候选关键词进行降序排序,选取前N个候选关键词作为候选关键词图对应的文本的关键词集合。

Description

用于提取关键词的方法、系统及存储介质
技术领域
本发明涉及关键词的提取技术领域,具体地涉及一种用于提取关键词的 方法、系统及存储介质。
背景技术
互联网技术的快速发展以及移动互联网的普及,以论坛、博客、头条以 及知乎社区等为代表的交互平台成为了人们共享知识和表达思想的重要渠 道。这些平台上的信息大多以非结构化的文本形式存储着对企业或是用户有 价值的信息,而这些信息伴随着大量的噪音数据,这使得用户捕捉信息变得 十分困难。因此,如何从大量的文本信息中提取有价值的信息反馈给用户, 且提高信息检索效率,成为了研究者们所要攻克的一个重要课题。
发明内容
本发明实施方式的目的是提供一种用于提取关键词的方法、系统及存储 介质。该方法、系统及存储介质可以准确地提取文档中关键词。
为了实现上述目的,本发明实施方式提供一种用于提取关键词的方法, 所述方法包括:
对接收到的文档集中的每篇文档分别进行预处理以得到与每篇文档对 应的候选关键词集合;
分别根据每篇文档的所述候选关键词集合构建候选关键词图,其中,每 篇所述文档对应有至少一个所述候选关键词图;
将所有所述候选关键词集合进行合并以及去重处理,构成一个候选关键 词词典;
采用训练完成的word2vec模型将所述候选关键词词典中的每个候选关 键词转化为对应的词向量,以构建所述候选关键词词典的相似度矩阵;
基于词语的统计特征计算所述候选关键词图中每个候选关键词在对应 文档中的重要性,其中,所述重要性包括词语节点出度特征、词语节点位置 特征以及词语节点频次特征;
采用层次分析法确定所述相似度矩阵、所述词语节点出度特征、所述词 语节点位置特征以及所述词语节点频次特征的特征系数;
根据所述相似度矩阵和所述重要性分别计算每个所述文档中的每个候 选关键词图所对应的每个所述候选关键词的词语综合影响力;
采用公式(1)对每个所述候选关键词图中的词语节点定义新的迭代计 算,
其中,TR(vi)、TR(vj)分别为候选关键词vi、候选关键词vj的TextRank值, d为阻尼因子,δ、σ为预设的系数值,为候选关 键词vi指向候选关键词vj的词语综合影响力之和,R(vj)为候选关键词vj的初始 的TextRank值,V为所述候选关键词集合,W(vj,vi)为候选关键词vj指向候选 关键词vi的所述词语综合影响力;
分别针对迭代计算完成的每个所述候选关键词图,根据权重值的大小对 每个候选关键词进行降序排序,选取前预设数量值N个候选关键词作为所述 候选关键词图对应的所述文本的关键词集合。
可选地,对接收到的文档集中的每篇文档分别进行预处理以得到与每篇 文档对应的候选关键词集合,具体包括:
对所述文档进行分句、分词和去停用词,保留词性为名词、动词、形容 词、副词的词语。
可选地,分别根据每篇文档的所述候选关键词集合构建候选关键词图包 括:
根据公式(2)计算初始的所述候选关键词图中每个候选关键词的 TextRank值,
其中,R(vi)为候选关键词vi的TextRank值,OD(vj)为候选关键词vj的出 度,d为阻尼因子,V为所述候选关键词集合,R(vj)为候选关键词vj的权重。
可选地,采用训练完成的word2vec模型将所述候选关键词词典中的每 个候选关键词转化为对应的词向量,以构建所述候选关键词词典的相似度矩 阵具体包括:
根据公式(3)计算每两个所述候选关键词的相似度,
其中,Sim(ui,uj)为所述词向量ui和词向量uj的相似度。
可选地,基于词语的统计特征计算所述候选关键词图中每个候选关键词 在对应文档中的重要性具体包括:
根据公式(4)计算所述词语节点出度特征,
其中,OT(vi,vj)为所述词语节点出度特征,|Out(vi)|为候选关键词vi指 向相邻候选关键词的数量;
根据公式(5)计算所述词语节点位置特征,
其中,POS(vi,vj)为所述词语节点位置特征,P(vj)为所述候选关键词vj在文档中的位置属性,该位置属性P(vj)采用公式(6)来确定,
其中,
根据公式(7)计算所述词语节点频次特征,
其中,FQ(vi,vj)为所述词语节点频次特征,C(v)为所述候选关键词v在 所述文档中出现的次数。
可选地,采用层次分析法确定所述相似度矩阵、所述词语节点出度特征、 所述词语节点位置特征以及所述词语节点频次特征的特征系数具体包括:
建立层次结构模型;
根据所述层次结构模型随机生成多个判断矩阵;
对每个所述判断矩阵进行层次单排序以及一次性检验,排除不符合条件 的所述判断矩阵;
对每个所述判断矩阵进行层次总排序以及综合性一次性检验,排除不符 合条件的所述判断矩阵;
从符合条件的判断矩阵中随机选择一个判断矩阵,
根据选择的所述判断矩阵的所述层次总排序结果确定所述特征系数。
可选地,根据所述相似度矩阵和所述重要性分别计算每个所述文档中的 每个候选关键词图所对应的每个所述候选关键词的词语综合影响力具体包 括:
根据公式(8)计算所述词语综合影响力,
W(vi,vj)=πM(Sim(vi,vj))+a×OT(vi,vj)+β×POS(vi,vj)+γ×FQ(vi,vj),(8)
其中,W(vi,vj)为候选关键词vi指向候选关键词vj的所述词语综合影响力, π、α、β、γ分别为所述相似度矩阵、所述词语节点出度特征、所述词语节 点位置特征和所述词语节点频次特征的所述特征系数,M(Sim(vi,vj))为所述相 似度矩阵,OT(vi,vj)为所述词语节点出度特征,POS(vi,vj)为所述词语节点位置 特征,FQ(vi,vj)为所述词语节点频次特征。
可选地,所述迭代计算包括:
根据公式(1)更新所述TextRank值;
计算更新前的所述TextRank值和更新后的所述TextRank值的差值;
判断所述差值是否小于预设值;
在判断所述差值大于或等于所述预设值的情况下,再次根据公式(1) 更新所述TextRank值。
另一方面,本发明还提供一种用于提取关键词的系统,所述系统包括处 理器,所述处理器用于执行上述任一所述的方法。
再一方面,本发明还提供一种存储介质,所述存储介质存储有指令,所 述指令用于被机器读取以使得所述机器执行上述任一所述的方法。
通过上述技术方案,本发明提供的用于提取关键词的方法、系统及存储 介质通过预先构建初始的候选关键词图,再根据层次分析法计算出相似度矩 阵、词语节点出度特征、词语节点位置特征和词语节点频次特征的特征系数, 然后根据相似度矩阵、词语节点出度特征、词语节点位置特征、词语节点频 次特征及其对应的特征系数对候选关键词图进行迭代计算,最后将迭代完成 的候选关键词图中每个候选关键词进行降序排序,选取前预设数量值N个候 选关键词作为候选关键词图对应的文本的关键词集合,解决了现有技术中存 在的没有综合考虑各个因素而最终导致提取的关键词不准确的问题,提高了 关键词提取的准确性。
本发明实施方式的其它特征和优点将在随后的具体实施方式部分予以 详细说明。
附图说明
附图是用来提供对本发明实施方式的进一步理解,并且构成说明书的一 部分,与下面的具体实施方式一起用于解释本发明实施方式,但并不构成对 本发明实施方式的限制。在附图中:
图1是根据本发明的一个实施方式的用于提取关键词的方法的流程图;
图2是根据本发明的一个实施方式的采用层次分析法计算特征系数的流 程图;
图3是根据本发明的一个实施方式的层次分析法的层级结构模型的示意 图;以及
图4是根据本发明的一个实施方式的迭代计算的流程图。
具体实施方式
以下结合附图对本发明实施方式的具体实施方式进行详细说明。应当理 解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施方式,并 不用于限制本发明实施方式。
在本发明实施方式中,在未作相反说明的情况下,使用的方位词如“上、 下、顶、底”通常是针对附图所示的方向而言的或者是针对竖直、垂直或重 力方向上而言的各部件相互位置关系描述用词。
另外,若本发明实施方式中有涉及“第一”、“第二”等的描述,则该“第 一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重 要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二” 的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施方式之间 的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基 础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的 结合不存在,也不在本发明要求的保护范围之内。
如图1所示是根据本发明的一个实施方式的用于提取关键词的方法的流 程图。在图1中,该方法可以包括:
在步骤S10中,对接收到的文档集中的每篇文档分别进行预处理以得到 与每篇文档对应的候选关键词集合。对于该预处理过程,可以是本领域人员 所知的多种方式。在该实施方式中,该预处理可以是例如对文档进行分句、 分词和去停用词,保留词性为名词、动词、形容词、副词的词语。另外,为 了便于对后续方案的描述,该候选关键词集合可以采用T={v1,v2,…,vm}表 示。其中,vm表示第m个候选关键词。
在步骤S11中,分别根据每篇文档的候选关键词集合构建候选关键词图, 其中,每篇文档对应有至少一个候选关键词图。在该实施方式中,可以是根 据候选关键词之间的相邻关系来构建该候选关键词图G={V,E}。具体地, 在该候选关键词图中,V表示节点的集合,E表示边的集合,每个节点表示 一个候选关键词,每两个候选关键词例如候选关键词vi和vj之间可以根据两 个候选关键词的相邻关系添加有从候选关键词vi指向候选关键词vj以及从候 选关键词vj指向候选关键词vi的两条边,对于每个节点(候选关键词)的TextRank值,可以采用公式(1)计算,
其中,R(vi)为候选关键词vi的TextRank值,OD(vj)为候选关键词vj的出 度,d为阻尼因子,V为候选关键词集合,R(vj)为候选关键词vj的权重,即该 候选关键词vj的TextRank值。另外,在采用公式(1)计算该TextRank值时, 可以采用该公式(1)迭代计算至该TextRank值收敛,最后将收敛的值作为 该TextRank值。
在步骤S12中,将所有候选关键词集合进行合并以及去重处理,构成一 个候选关键词词典。对于该候选关键词词典,可以采用D={v1,v2,…,vn}表 示。
在步骤S13中,采用训练完成的word2vec模型将候选关键词词典中的 每个候选关键词转化为对应的词向量,以构建候选关键词词典的相似度矩阵。 对于该word2vec模型的训练过程,可以是采用包括但不限于维基百科、百 度百科等语料库对初始的word2vec模型进行训练。对于该相似度矩阵中每 个词向量的相似度,可以是采用公式(2)来计算,
其中,Sim(ui,uj)为词向量ui和词向量uj的相似度。
在计算出每个词向量的相似度后,构建如公式(3)示出的矩阵,
其中,M(Sim(vi,vj))为该相似度矩阵,wij为词语节点vi(可以简称为节 点)与词语节点vj的相似度,wii表示同一词语(词向量)与自身的相似度, 通常表示为1。
在步骤S14中,基于词语的统计特征计算所述候选关键词图中每个候选 关键词在对应文档中的重要性。其中,该重要性可以包括词语节点出度特征、 词语节点位置特征以及词语节点频次特征。对于该词语节点出度特征、词语 节点位置特征以及词语节点频次特征的计算方式,可以是本领域人员所知的 多种形式。在本发明的一个示例中,可以:
根据公式(4)计算词语节点出度特征,
其中,OT(vi,vj)为该词语节点的出度特征,|Out(vi)|为候选关键词vi指 向相邻候选关键词的数量;
根据公式(5)计算词语节点位置特征,
其中,POS(vi,vj)为词语节点位置特征,P(vj)为候选关键词在文档中的 位置属性,该位置属性P(vj)可以采用公式(6)来确定,
其中,可以为一个值大于1的参数,优选地,该的值可以位于区间 [20,30]中;
根据公式(7)计算词语节点频次特征,
其中,FQ(vi,vj)为词语节点频次特征,C(v)为候选关键词在文档中出 现的次数。
在步骤S15中,采用层次分析法确定相似度矩阵、词语节点出度特征、 词语节点位置特征以及词语节点频次特征的特征系数。具体地,该层次分析 法可以包括如图2所示的至少一部分步骤。在图2中,该层次分析法可以包 括:
在步骤S151中,建立层次结构模型。在该方法中,该层次结构模型可 以是如图3所示。在该图3中,该层次结构模型包括目标层、准则层和方案 层。其中,在目标层,该层次结构模型包括词语综合影响力A;在准则层, 该层次结构模型可以包括文档间词语节点的语义关系B1和同一文档内词语 节点重要性B2;而在方案层,该层次结构模型可以包括与语义关系B1对应 的词语的相似度M以及与重要性B2对应的词语节点出度特征OT、词语节 点频次特征FQ、词语节点位置特征POS。
在步骤S152中,根据该层次结构模型随机生成多个判断矩阵。对于随 机生成多个判断矩阵的具体方式,可以是例如预设关于该层次结构模型的判 断矩阵库,并从该多个判断矩阵库中随机选择多个判断矩阵。
在本发明的一个示例中,该判断矩阵可以是例如表1和表2所示,
表1
表2
其中,CO表示行向量乘积,W表示各因素(B1、B2、OT、POS、FQ) 的权重(在上一层次的一个因素对应的多个下一层次的因素中,每个因素的 相对重要性的排序权值),计算公式为C.I为一致性 指标,且A为所构造的判断矩阵,以表2 为例,对应的判断矩阵可以为n为判断矩阵的阶数,RI为 一致性检验值,可以根据本领域人员所知的官方统一标准来确定。在该示例 中,该官方统一标准可以是例如表3所示,
表3
在该表3中,在n=3的情况下,该RI的值可以为0.52。
另外,也可以依照传统的层次分析法的步骤,以专家打分的方式来构建 该判断矩阵。
在步骤S153中,对每个判断矩阵进行层次单排序以及一次性检验,排 除不符合条件的判断矩阵;
在步骤S154中,对每个判断矩阵进行层次总排序以及综合性一次性检 验,排除不符合条件的判断矩阵;
在步骤S155中,从符合条件的判断矩阵中随机选择一个判断矩阵;
在步骤S156中,根据选择的判断矩阵的层次总排序结果确定该特征系 数。在该实施方式中,以表1和表2中示出的判断矩阵为例,其层次总排序 结果如表4所示,
表4
从该表4中可知,在以表1和表2中示出的判断矩阵为例的情况下,相 似度矩阵、词语节点出度特征、词语节点位置特征和词语节点频次特征的特 征系数分别为0.5、0.048、0.285和0.167。
在步骤S16中,根据相似度矩阵和重要性分别计算每个所述文档中的每 个候选关键词图所对应的每个候选关键词的词语综合影响力。结合在步骤 S15中获得的特征系数,该词语综合影响力的计算方式可以是如公式(8) 所示,
W(vi,vj)=πM(Sim(vi,vj))+a×OT(vi,vj)+β×POS(vi,vj)+γ×FQ(vi,vj),(8)
其中,W(vi,vj)为候选关键词vi指向候选关键词vj的词语综合影响力,π、 α、β、γ分别为相似度矩阵、词语节点出度特征、词语节点位置特征和词语 节点频次特征的特征系数,M(Sim(vi,vj))为相似度矩阵,OT(vi,vj)为词语节点 出度特征,POS(vi,vj)为词语节点位置特征,FQ(vi,vj)为词语节点频次特征。
在步骤S17中,采用公式(9)对每个候选关键词图中的词语节点定义 新的迭代计算,
其中,TR(vi)、TR(vj)分别为候选关键词vi、候选关键词vj的TextRank值, d为阻尼因子,δ、σ为预设的系数值,为候选关 键词vi指向候选关键词vj的词语综合影响力之和,R(vj)为候选关键词vj的初始 的TextRank值,V为候选关键词集合,W(vj,vi)为候选关键词vj指向候选关键 词vi的所述词语综合影响力。具体地,该步骤S17可以包括如图4所示出的 至少一部分步骤。在该图4中,该步骤S17可以包括:
在步骤S171中,根据公式(9)更新TextRank值;
在步骤S172中,计算更新前的TextRank值和更新后的TextRank值的 差值;
在步骤S173中,判断该差值是否小于预设值;
在判断该差值大于或等于预设值的情况下,再次根据公式(9)更新 TextRank值。
在判断该差值小于该预设值的情况下,确认迭代计算完成并输出该候选 关键词图。
进一步地,为了提高算法的效率,也可以在迭代计算前,构建(词语) 节点的概率转移矩阵,如公式(10)所示,
其中,wij表示节点vj的词语综合影响力转移到节点vi的概率,每列节点 的概率值之和为1。wij可以采用公式(11)来计算,
其中,W(vj,vi)为候选关键词vj指向候选关键词vi的词语综合影响力,为候选关键词vi指向候选关键词vi的词语综合影 响力之和,δ、σ为预设的系数值,OD(vj)为候选关键词vj的出度;
在引入如公式(10)所示的转移概率矩阵后,上述公式(9)则可以转 化为公式(12),
其中,Bi为第i次迭代的结果,Bi-1为第i-1次迭代的结果,d为阻尼因 子,M为转移概率矩阵,e为的单位向量,k为该单位向量的维度。
另外,在采用该公式(12)作为迭代计算的公式的情况下,该预设值可 以是0.001。
在步骤S18中,分别针对迭代计算完成的每个候选关键词图,根据候选 关键词(词语节点)的权重值(TextRank值)的大小对每个候选关键词进行 降序排序,选取前预设数量值N个候选关键词作为候选关键词图对应的文本 的关键词集合。
此外,图1中示出的各个步骤的顺序仅是用于补充和解释本发明的技术 方案。在本发明的同一技术构思下,本领域人员可以根据实际的算法需要对 局部步骤的顺序进行简单地调整。例如在本发明提供的方法中,由于构建候 选关键词图的步骤S11与构建相似度矩阵的步骤S12和S13之间不存在前后 的因果关系,所以上述各个步骤之间的顺序可以相互交换。
另一方面,本发明还提供一种用于提取关键词的系统,该系统可以包括 处理器,该处理器可以用于执行上述任一的方法。
再一方面,本发明还提供一种存储介质,该存储介质可以存储有指令, 该指令可以用于被机器读取以使得机器执行上述任一的方法。
通过上述技术方案,本发明提供的用于提取关键词的方法、系统及存储 介质通过预先构建初始的候选关键词图,再根据层次分析法计算出相似度矩 阵、词语节点出度特征、词语节点位置特征和词语节点频次特征的特征系数, 然后根据相似度矩阵、词语节点出度特征、词语节点位置特征、词语节点频 次特征及其对应的特征系数对候选关键词图中的词语节点进行新的迭代计 算,最后将迭代完成的候选关键词图中每个候选关键词进行降序排序,选取 前预设数量值N个候选关键词作为候选关键词图对应的文本的关键词集合, 解决了现有技术中存在的没有综合考虑各个因素而最终导致提取的关键词 不准确的问题,提高了关键词提取的准确性。
以上结合附图详细描述了本发明例的可选实施方式,但是,本发明实施 方式并不限于上述实施方式中的具体细节,在本发明实施方式的技术构思范 围内,可以对本发明实施方式的技术方案进行多种简单变型,这些简单变型 均属于本发明实施方式的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征, 在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的 重复,本发明实施方式对各种可能的组合方式不再另行说明。
本领域技术人员可以理解实现上述实施方式方法中的全部或部分步骤 是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中, 包括若干指令用以使得一个(可以是单片机,芯片等)或处理器(processor) 执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包 括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取 存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程 序代码的介质。
此外,本发明实施方式的各种不同的实施方式之间也可以进行任意组合, 只要其不违背本发明实施方式的思想,其同样应当视为本发明实施方式所公 开的内容。

Claims (10)

1.一种用于提取关键词的方法,其特征在于,所述方法包括:
对接收到的文档集中的每篇文档分别进行预处理以得到与每篇文档对应的候选关键词集合;
分别根据每篇文档的所述候选关键词集合构建候选关键词图,其中,每篇所述文档对应有至少一个所述候选关键词图;
将所有所述候选关键词集合进行合并以及去重处理,构成一个候选关键词词典;
采用训练完成的word2vec模型将所述候选关键词词典中的每个候选关键词转化为对应的词向量,以构建所述候选关键词词典的相似度矩阵;
基于词语的统计特征计算所述候选关键词图中每个候选关键词在对应文档中的重要性,其中,所述重要性包括词语节点出度特征、词语节点位置特征以及词语节点频次特征;
采用层次分析法确定所述相似度矩阵、所述词语节点出度特征、所述词语节点位置特征以及所述词语节点频次特征的特征系数;
根据所述相似度矩阵和所述重要性分别计算每个所述文档中的每个候选关键词图所对应的每个所述候选关键词的词语综合影响力;
采用公式(1)对每个所述候选关键词图中的词语节点定义新的迭代计算,
其中,TR(vi)、TR(vj)分别为候选关键词vi、候选关键词vj的TextRank值,d为阻尼因子,δ、σ为预设的系数值,为候选关键词vi指向候选关键词vj的词语综合影响力之和,R(vj)为候选关键词vj的初始的TextRank值,V为所述候选关键词集合,W(vj,vi)为候选关键词vj指向候选关键词vi的所述词语综合影响力;
分别针对迭代计算完成的每个所述候选关键词图,根据权重值的大小对每个候选关键词进行降序排序,选取前预设数量值N个候选关键词作为所述候选关键词图对应的所述文本的关键词集合。
2.根据权利要求1所述的方法,其特征在于,对接收到的文档集中的每篇文档分别进行预处理以得到与每篇文档对应的候选关键词集合,具体包括:
对所述文档进行分句、分词和去停用词,保留词性为名词、动词、形容词、副词的词语。
3.根据权利要求1所述的方法,其特征在于,分别根据每篇文档的所述候选关键词集合构建候选关键词图包括:
根据公式(2)计算初始的所述候选关键词图中每个候选关键词的TextRank值,
其中,R(vi)为候选关键词vi的TextRank值,OD(vj)为候选关键词vj的出度,d为阻尼因子,V为所述候选关键词集合,R(vj)为候选关键词vj的权重。
4.根据权利要求1所述的方法,其特征在于,采用训练完成的word2vec模型将所述候选关键词词典中的每个候选关键词转化为对应的词向量,以构建所述候选关键词词典的相似度矩阵具体包括:
根据公式(3)计算每两个所述候选关键词的相似度,
其中,Sim(ui,uj)为所述词向量ui和词向量uj的相似度。
5.根据权利要求1所述的方法,其特征在于,基于词语的统计特征计算所述候选关键词图中每个候选关键词在对应文档中的重要性具体包括:
根据公式(4)计算所述词语节点出度特征,
其中,OT(vi,vj)为所述词语节点出度特征,|Out(vi)|为候选关键词vi指向相邻候选关键词的数量;
根据公式(5)计算所述词语节点位置特征,
其中,POS(vi,vj)为所述词语节点位置特征,P(vj)为所述候选关键词vj在文档中的位置属性,该位置属性P(vj)采用公式(6)来确定,
其中,
根据公式(7)计算所述词语节点频次特征,
其中,FQ(vi,vj)为所述词语节点频次特征,C(v)为所述候选关键词v在所述文档中出现的次数。
6.据权利要求1所述的方法,其特征在于,采用层次分析法确定所述相似度矩阵、所述词语节点出度特征、所述词语节点位置特征以及所述词语节点频次特征的特征系数具体包括:
建立层次结构模型;
根据所述层次结构模型随机生成多个判断矩阵;
对每个所述判断矩阵进行层次单排序以及一次性检验,排除不符合条件的所述判断矩阵;
对每个所述判断矩阵进行层次总排序以及综合性一次性检验,排除不符合条件的所述判断矩阵;
从符合条件的判断矩阵中随机选择一个判断矩阵,
根据选择的所述判断矩阵的所述层次总排序结果确定所述特征系数。
7.根据权利要求1所述的方法,其特征在于,根据所述相似度矩阵和所述重要性分别计算每个所述文档中的每个候选关键词图所对应的每个所述候选关键词的词语综合影响力具体包括:
根据公式(8)计算所述词语综合影响力,
W(vi,vj)=πM(Sim(vi,vj))+α×OT(vi,vj)+β×POS(vi,vj)+γ×FQ(vi,vj), (8)
其中,W(vi,vj)为候选关键词vi指向候选关键词vj的所述词语综合影响力,π、α、β、γ分别为所述相似度矩阵、所述词语节点出度特征、所述词语节点位置特征和所述词语节点频次特征的所述特征系数,M(Sim(vi,vj))为所述相似度矩阵,OT(vi,vj)为所述词语节点出度特征,POS(vi,vj)为所述词语节点位置特征,FQ(vi,vj)为所述词语节点频次特征。
8.根据权利要求1所述的方法,其特征在于,所述迭代计算包括:
根据公式(1)更新所述TextRank值;
计算更新前的所述TextRank值和更新后的所述TextRank值的差值;
判断所述差值是否小于预设值;
在判断所述差值大于或等于所述预设值的情况下,再次根据公式(1)更新所述TextRank值。
9.一种用于提取关键词的系统,其特征在于,所述系统包括处理器,所述处理器用于执行如权利要求1至8任一所述的方法。
10.一种存储介质,其特征在于,所述存储介质存储有指令,所述指令用于被机器读取以使得所述机器执行如权利要求1至8任一所述的方法。
CN201910774424.6A 2019-08-21 2019-08-21 用于提取关键词的方法、系统及存储介质 Active CN110598209B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910774424.6A CN110598209B (zh) 2019-08-21 2019-08-21 用于提取关键词的方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910774424.6A CN110598209B (zh) 2019-08-21 2019-08-21 用于提取关键词的方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN110598209A true CN110598209A (zh) 2019-12-20
CN110598209B CN110598209B (zh) 2022-11-04

Family

ID=68854938

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910774424.6A Active CN110598209B (zh) 2019-08-21 2019-08-21 用于提取关键词的方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN110598209B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310419A (zh) * 2020-02-26 2020-06-19 支付宝(杭州)信息技术有限公司 对词语改写候选集进行更新的方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170091318A1 (en) * 2015-09-29 2017-03-30 Kabushiki Kaisha Toshiba Apparatus and method for extracting keywords from a single document
CN109255118A (zh) * 2017-07-11 2019-01-22 普天信息技术有限公司 一种关键词提取方法及装置
CN109359303A (zh) * 2018-12-10 2019-02-19 枣庄学院 一种基于图模型的词义消歧方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170091318A1 (en) * 2015-09-29 2017-03-30 Kabushiki Kaisha Toshiba Apparatus and method for extracting keywords from a single document
CN109255118A (zh) * 2017-07-11 2019-01-22 普天信息技术有限公司 一种关键词提取方法及装置
CN109359303A (zh) * 2018-12-10 2019-02-19 枣庄学院 一种基于图模型的词义消歧方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
余本功等: "基于多属性加权的社会化问答社区关键词提取方法", 《图书情报工作》 *
宁建飞: "融合Word2vec与TextRank的关键词抽取研究", 《现代图书情报技术》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310419A (zh) * 2020-02-26 2020-06-19 支付宝(杭州)信息技术有限公司 对词语改写候选集进行更新的方法及装置
CN111310419B (zh) * 2020-02-26 2023-04-28 支付宝(杭州)信息技术有限公司 对词语改写候选集进行更新的方法及装置

Also Published As

Publication number Publication date
CN110598209B (zh) 2022-11-04

Similar Documents

Publication Publication Date Title
US11301637B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
US9519634B2 (en) Systems and methods for determining lexical associations among words in a corpus
RU2628436C1 (ru) Классификация текстов на естественном языке на основе семантических признаков
US8200671B2 (en) Generating a dictionary and determining a co-occurrence context for an automated ontology
US8560485B2 (en) Generating a domain corpus and a dictionary for an automated ontology
US10831993B2 (en) Method and apparatus for constructing binary feature dictionary
CN106598999B (zh) 一种计算文本主题归属度的方法及装置
JP2009093649A (ja) オントロジー空間を規定するタームの推奨
JP2010537286A (ja) 領域辞書の作成
US20100114560A1 (en) Systems and methods for evaluating a sequence of characters
US11657222B1 (en) Confidence calibration using pseudo-accuracy
CN114997288A (zh) 一种设计资源关联方法
US11468346B2 (en) Identifying sequence headings in a document
CN112131341A (zh) 文本相似度计算方法、装置、电子设备和存储介质
CN115422372A (zh) 一种基于软件测试的知识图谱构建方法和系统
CN110019820B (zh) 一种病历中主诉与现病史症状时间一致性检测方法
CN108345694B (zh) 一种基于主题数据库的文献检索方法及系统
CN110598209B (zh) 用于提取关键词的方法、系统及存储介质
CN111125329B (zh) 一种文本信息筛选方法、装置及设备
US8554696B2 (en) Efficient computation of ontology affinity matrices
Shah et al. An automatic text summarization on Naive Bayes classifier using latent semantic analysis
Lai et al. An unsupervised approach to discover media frames
CN113420127A (zh) 威胁情报处理方法、装置、计算设备及存储介质
JP4314271B2 (ja) 単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体
JP2008282328A (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant