CN114330335A - 关键词抽取方法、装置、设备及存储介质 - Google Patents

关键词抽取方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114330335A
CN114330335A CN202011079979.8A CN202011079979A CN114330335A CN 114330335 A CN114330335 A CN 114330335A CN 202011079979 A CN202011079979 A CN 202011079979A CN 114330335 A CN114330335 A CN 114330335A
Authority
CN
China
Prior art keywords
word
factor
target document
words
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011079979.8A
Other languages
English (en)
Inventor
李小涛
游树娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Ltd Research Institute filed Critical China Mobile Communications Group Co Ltd
Priority to CN202011079979.8A priority Critical patent/CN114330335A/zh
Publication of CN114330335A publication Critical patent/CN114330335A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种关键词抽取方法、装置、设备及存储介质。该方法包括:对待抽取关键词的目标文档进行预处理,得到所述目标文档的词语集合;求取所述词语集合中各词语的第一因子;基于各词语的所述第一因子,选取所述目标文档中第二因子最大的设定数量个词语,构成所述目标文档的关键词集合;其中,所述第一因子表征相应的词语基于词频和所述词语与所述目标文档的语义相似度确定的重要性程度,所述第二因子表征相应的所述设定数量的词语构成的集合的重要性程度。由于综合考虑了第一因子和第二因子,可以更准确地获取代表目标文档的关键词集合,利于快速地理解目标文档的内容及后续基于目标文档内容的应用。

Description

关键词抽取方法、装置、设备及存储介质
技术领域
本发明涉及文本处理领域,尤其涉及一种关键词抽取方法、装置、设备及存储介质。
背景技术
随着大数据的时代的到来,电子文档的数量越来越多,亟需机器能够自动识别出最能代表文档的关键词。文档的关键词抽取(Keyword Extraction)是对文档信息进行高度凝练的一种有效手段,通过选取文档中的多个词语准确概括文档的主题,帮助用户快速理解文档信息。文档的关键词已广泛应用文本搜索、网页推荐以及数据挖掘领域。
现有的关键词抽取方法往往基于TFIDF(Term Frequency Inverse DocumentFrequency,词频逆文档频率)进行关键词抽取,仅考虑了词的统计信息,对文档的语义信息利用程度低,难以得到有效代表文档的关键词集合。
发明内容
有鉴于此,本发明实施例提供了一种关键词抽取方法、装置、设备及存储介质,旨在得到有效代表文档的关键词集合。
本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种关键词抽取方法,包括:
对待抽取关键词的目标文档进行预处理,得到所述目标文档的词语集合;
求取所述词语集合中各词语的第一因子;
基于各词语的所述第一因子,选取所述目标文档中第二因子最大的设定数量个词语,构成所述目标文档的关键词集合;
其中,所述第一因子表征相应的词语基于词频和所述词语与所述目标文档的语义相似度确定的重要性程度,所述第二因子表征相应的所述设定数量的词语构成的集合的重要性程度。
本发明实施例还提供了一种关键词抽取装置,包括:
预处理模块,用于对待抽取关键词的目标文档进行预处理,得到所述目标文档的词语集合;
第一运算模块,用于求取所述词语集合中各词语的第一因子;
第二运算模块,用于基于各词语的所述第一因子,选取所述目标文档中第二因子最大的设定数量个词语,构成所述目标文档的关键词集合;
其中,所述第一因子表征相应的词语基于词频和所述词语与所述目标文档的语义相似度确定的重要性程度,所述第二因子表征相应的所述设定数量的词语构成的集合的重要性程度。
本发明实施例又提供了一种关键词抽取设备,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,所述处理器,用于运行计算机程序时,执行本发明实施例所述方法的步骤。
本发明实施例还提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现本发明实施例所述方法的步骤。
本发明实施例提供的技术方案,求取待抽取关键词的目标文档的词语集合中各词语的第一因子;基于各词语的第一因子,选取所述目标文档中第二因子最大的设定数量个词语,构成所述目标文档的关键词集合;其中,所述第一因子表征相应的词语基于词频和所述词语与所述目标文档的语义相似度确定的重要性程度,所述第二因子表征相应的所述设定数量的词语构成的集合的重要性程度,由于综合考虑了第一因子和第二因子,可以更准确地获取代表目标文档的关键词集合,利于快速地理解目标文档的内容及后续基于目标文档内容的应用。
附图说明
图1为本发明实施例关键词提取方法的流程示意图;
图2为本发明一应用示例基于doc2vec的文本关键词抽取方法的流程示意图;
图3为本发明一应用示例选取全局关键因子最大的集合的原理示意图;
图4为本发明实施例关键词提取装置的结构示意图;
图5为本发明实施例关键词抽取设备的结构示意图。
具体实施方式
下面结合附图及实施例对本发明再作进一步详细的描述。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
相关技术中,文档的关键词提取主要包括以下方式:
1)、基于TFIDF的关键词抽取
TFIDF方法是统计文档中每个词的词频(Term Frequency,TF)和逆文档频率(Inverse Document Frequency,IDF),根据这两项统计信息计算文档中每个词的权重,然后选取权重最大的多个词语作为文档的关键词。TFIDF方法仅考虑了词的统计信息,对文档的语义信息利用程度较低。
2)、基于主题模型的关键词抽取
基于主题模型提取关键词的思想是认为一个文档是由多个主题组成的,而文档中的词是以一定概率从主题中选取的,即文档与词之间存在一个主题集合。不同的主题下,词出现的概率分布是不同的。每个词和每个文档都可以表示为多个主题分布构成的空间中的一个点。通过计算每个词和文档的相似度,可以得到每个文档与文档中每个词的相似度结果,取相似度最高的多个词作为文档的关键词。相关的主题模型方法有LSA(LatentSemantic Analysis,潜在语义分析模型)和LDA(Latent Dirichlet Allocation,文本主题生成模型)。
基于主题模型提取的关键词比较宽泛,不能很好的反应文档主题。此外,主题模型的时间复杂度较高,需要大量的时间进行训练,影响关键词抽取效率。
3)、基于词向量聚类的关键词抽取
基于词向量聚类的文档关键词抽取方法的主要思路是:首先将文档中的每个词通过词向量来表示,其中,词向量模型的训练方法可以采用word2vec(词向量化)、GloVe等算法;然后通过K-Means(K均值)聚类算法对文档中的词进行聚类,选择多个距离聚类中心最近的词作为文档关键词。
基于词向量聚类的方法虽然考虑了文档中词语的分布信息,却忽视了关键词与文档语义之间的关系。比如,很有可能几个距离聚类中心最近的关键词与文档语义并不相关,造成关键信息提取的错误。
基于此,在本发明的各种实施例中,求取待抽取关键词的目标文档的词语集合中各词语的第一因子;基于各词语的第一因子,选取所述目标文档中第二因子最大的设定数量个词语,构成所述目标文档的关键词集合;其中,所述第一因子表征相应的词语基于词频和所述词语与所述目标文档的语义相似度确定的重要性程度,所述第二因子表征相应的所述设定数量的词语构成的集合的重要性程度,由于综合考虑了第一因子和第二因子,可以更准确地获取代表目标文档的关键词集合,利于快速地理解目标文档的内容及后续基于目标文档内容的应用。
如图1所示,本发明实施例提供了一种关键词抽取方法,应用于关键词抽取设备,该关键词抽取设备可以为具有信息处理能力的服务器或者终端设备,可以对本地文档或者联网获取的文档进行关键词抽取。该方法包括:
步骤101,对待抽取关键词的目标文档进行预处理,得到所述目标文档的词语集合;
步骤102,求取所述词语集合中各词语的第一因子;
步骤103,基于各词语的所述第一因子,选取所述目标文档中第二因子最大的设定数量个词语,构成所述目标文档的关键词集合。
这里,所述第一因子表征相应的词语基于词频和所述词语与所述目标文档的语义相似度确定的重要性程度,所述第二因子表征相应的所述设定数量的词语构成的集合的重要性程度。
示例性地,步骤101中,对待抽取关键词的目标文档进行预处理,得到所述目标文档的词语集合,包括:
对待抽取关键词的目标文档进行分词及去停用词处理,得到所述目标文档的词语集合。
这里,可以基于分词算法对目标文档进行分词,比如,基于词典的方法、基于统计的方法、基于规则的方法等进行分词处理。停用词(stop words)是指出现次数较多,但对搜索毫无帮助、需要过滤掉的词,例如,“的”、“是”、“在”等词。去停用词处理即将目标文档中的停用词清除。具体的分词及去停用词处理可以参照相关技术,在此不再赘述。
示例性地,步骤102中,所述求取所述词语集合中各词语的第一因子,包括:
确定所述词语集合中的各词语的TFIDF(词频逆文档频率)权重值;
求取所述目标文档的文本向量和所述词语集合中各词语的词向量;
基于所述目标文档的文本向量和所述词语集合中各词语的词向量,求取所述词语集合中各词语的距离值,所述距离值为所述词向量与所述文本向量之间的余弦距离;
基于各词语的所述TFIDF权重值和所述距离值,确定各词语的第一因子。
这里,确定所述词语集合中各词语的TFIDF权重值可以包括:
求取所述词语集合中各词语的词频和逆文档频率,基于各词语的词频和逆文档频率的乘积得到TFIDF权重值。
示例性地,求取所述目标文档的文本向量和所述词语集合中各词语的词向量,包括:
基于语料库和文本向量化算法训练向量模型;
基于所述向量模型求取所述目标文档的文本向量和所述词语集合中各词语的词向量。
示例性地,可以对预处理之后的语料库,基于doc2vec(文本向量化)算法训练向量模型,训练后的向量模型既包含语料库的各词语的词向量表示
Figure BDA0002718201230000061
又包含语料库中各文档的文本向量表示
Figure BDA0002718201230000062
可以理解的是,doc2vec算法是word2vec(词向量化)算法的升级。示例性地,word2vec算法训练的词向量表示模型通过取一个适当大小的窗口(一般为5个词语)当做输入来训练神经网络模型,将每一个词映射成一个固定长度的n维向量,将所有向量放在一起形成一个词向量空间,而每个向量则为该空间中的一个点,因此可以根据词之间的距离来判断它们之间的相似度。这种词语维度词向量表示模型具有一定的语义特性,可以根据临近词的语境或词义推测该词的词义。而doc2vec算法训练的向量模型,虽然同样利用了神经网络模型,但是其输入不只是邻域窗口内的几个词语,还加入了语料库文本的全局信息,将全局的上下文语境以及邻域词语一起训练神经网络模型,相当于每次在预测单词的概率时,都利用了整个句子的语义。doc2vec的向量模型可以将每篇文章或一段文本映射为一个文本向量,同时可以利用了整个句子的语义将一个词映射为一个词向量。doc2vec的向量模型可以具有更强的语义特性,具有上下文“语义分析”能力。
本发明实施例中,基于所述目标文档的文本向量和所述词语集合中各词语的词向量,求取所述词语集合中各词语的距离值,该距离值可以表征词语与文本之间的语义相似度。
示例性地,各词语的第一因子为各词语的所述TFIDF权重值和所述距离值的乘积,如此,第一因子综合考虑了词语在目标文档中的词频统计信息和词语与文本之间的语义相似度,能够更准确地反映该词语在目标文档中的重要性程度。
示例性地,步骤103中,基于各词语的所述第一因子,选取所述目标文档中第二因子最大的设定数量个词语,构成所述目标文档的关键词集合,包括:
对所述词语集合中各词语基于所述第一因子进行排序;
基于所述第一因子从大到小的顺序选取设定数量个词语,构成初始的关键词集合;
对所述词语集合中除所述关键词集合之外的其他词语进行遍历;
求取当前遍历的词语替换所述关键词集合中各词语前、后的第二因子的比较结果,若替换后的所述第二因子大于替换前的所述第二因子,则更新所述关键词集合;直至遍历结束,得到所述第二因子最大的关键词集合,作为所述目标文档的关键词集合。
可以理解的是,基于所述第一因子从大到小的顺序选取设定数量个词语,构成初始的关键词集合后,还需要求取关键词集合的第二因子,并遍历目标文档的词语集合中其他的词语,比如,基于第一因子从大到小的顺序,依序遍历其他词语,并对各当前遍历词语依次替换关键词集合中的词语,比较替换前、替换后集合的第二因子,若替换后的第二因子大于替换前的所述第二因子,则将替换后的集合作为当前的关键词集合,否则,不更新当前的关键词集合。如此,可以得到第二因子最大的关键词集合,该关键词集合即目标文档的最终的关键词集合。
示例性地,求取所述第二因子包括:
求取所述设定数量个词语中各个词语之间的均方距离的算术平方根,作为所述设定数量个词语的差异性因子;
基于所述设定数量个词语中各词语的所述第一因子的加和与所述差异性因子的乘积,确定所述设定数量个词语的所述第二因子。
可以理解的是,设定数量可以基于需求进行合理设置,示例性地,设定数量可以为4~20间的任意值。
如此,最终求取的关键词集合,综合考虑了关键词的统计信息,关键词与文本之间的语义相似度,以及关键词之间差异程度。具体地,通过TFIDF权重值表示关键词的在文档中的统计重要性;基于doc2vec算法同时训练文本向量和词向量,将词向量与文本向量之间的余弦距离作为文本与关键词之间的语义相似度;关键词之间的差异程度通过关键词之间的均方距离的算术平方根来衡量。通过综合以上三类信息,本发明实施例方法能够更准确地获取反映文本语义的关键词集合,同时关键词之间具有较好的差异性。
在一些实施例中,关键词抽取方法还包括以下至少之一:
基于所述目标文档的关键词集合匹配检索请求信息;
基于所述目标文档的关键词集合推送所述目标文档;
基于所述目标文档的关键词集合对所述目标文档进行聚类。
这里,关键词抽取设备确定目标文档的关键词集合之后,可以基于关键词集合匹配检索请求信息。比如,关键词抽取设备获取到用户输入的检索请求信息,可以基于关键词集合来匹配检索请求信息,如匹配,则返回该目标文档给用户,如此,可以避免基于目标文档的内容来匹配检索请求信息,从而利于减少不关联信息的检索结果,使得检索的匹配度更高。
示例性地,关键词抽取设备还可以基于确定的关键词集合,对各文档生成标签,结合用户订阅的标签信息,将与标签信息匹配的文档等内容推送给用户。
示例性地,关键词抽取设备还可以基于确定的关键词集合,对各文档的数字内容相对使用原始描述得到更准确的特征表示,对各文档进行聚类,从而进一步提升数字内容的分类和聚类精度,使得检索得到的内容集合更为符合主题。可以理解的是,本发明实施例关键词抽取方法可以应用于智能客服、智慧医疗、信息检索等多个领域,比如,智能客服利用人工智能技术准确理解用户需求,对客户自然语言表达进行语义识别,在此基础上实现客户问题与答案的智能匹配,并根据服务场景特征进行客户问题回复。其中,准确解析用户表达的信息,识别用户需求是衡量智能客服性能的重要指标。基于本发明实施例关键词抽取方法,可以提取用户信息中的核心关键词,并且有效提升文本语义检索的精度,从更好地理解用户意图,精准回复用户,提升满意度;又如,智慧医疗领域,可以基于本发明实施例关键词抽取方法,准确地提取用户病情描述信息中的关键词,提升患者与相关医院科室的匹配精度,提高互联网医疗信息服务质量;再如,在信息检索领域,可以基于本发明关键词抽取方法,从数字内容描述信息中准确地提取关键词,并且和用户检索关键词进行更好匹配,从而提升数据检索的精度,最终提升相关产品的用户体验,吸引更多用户使用相关产品。
下面结合应用示例对本发明实施例再作进一步详细的描述。
如图2所示,本应用示例提供了一种基于doc2vec的文本关键词抽取方法,综合考虑了关键词与文档主题的语义相关性、关键词的重要性以及关键词之间的差异性,从而得到准确反映文档信息的关键词集合,该关键词抽取方法包括:
步骤201,对目标文档进行预处理;
这里,对目标文档进行分词,去停用词,将文档d表示为词语集合W。
步骤202,计算目标文档的词语集合中各词语的TFIDF权重值;
这里,计算文档d中每个词语ci∈W,i∈[1,n]的TFIDF权重值,具体如下:
Figure BDA0002718201230000091
其中,n为文档d中词语的数量,vi为语料库中包含词语ci的文档数量,ni为ci在文档d中的出现次数,Nd为文档d中所有词的出现次数总和,m为语料库中的文档总数。
步骤203,利用doc2vec算法训练向量模型;
这里,可以对预处理之后的语料库,基于doc2vec(文本向量化)算法训练向量模型,训练后的向量模型既包含语料库的各词语的词向量表示
Figure BDA0002718201230000092
又包含语料库中各文档的文本向量表示
Figure BDA0002718201230000093
步骤204,计算目标文档的文本向量和各词语的词向量;
基于doc2vec的向量模型求取所述目标文档的文本向量和所述词语集合中各词语的词向量。
步骤205,计算目标文档中各词语的词向量与文本向量之间的余弦距离;
示例性地,计算各词语的词向量与文本向量之间的余弦距离,如下:
Figure BDA0002718201230000094
其中,sim(c,d)为词语c的词向量
Figure BDA0002718201230000095
与文档d的文本向量
Figure BDA0002718201230000096
之间的余弦距离。
步骤206,计算各词语的重要性因子;
这里,重要性因子即前述的第一因子,计算如下:
weight(c)=TFIDF(c)×sim(c,d)
其中,weight(c)为词语c的重要性因子,TFIDF(c)为词语c的TFIDF权重值,即词语的重要性因子为词语的TFIDF权重值、词语的词向量与文本向量之间的余弦距离的乘积。
步骤207,对各词语按照重要性因子由高到低排序;
对文档d中词语按照重要性因子由高到低重新排序,得到
Figure BDA0002718201230000109
步骤208,选取全局关键因子最大的集合作为目标文档的关键词集合。
这里,全局关键因子即前述的第二因子。假定设定数量为k,即选取的关键词的数量为k。从
Figure BDA00027182012300001010
中选取全局关键因子最大的k个关键词组成的集合作为目标文档的关键字集合。
示例性地,将关键词之间的均方距离的算术平方根作为关键词集合的差异性程度的度量,即前述的差异性因子。关键词集合的全局关键因子通过将设定数量的关键词集合中的所有词语的重要性因子的加和与关键词集合的差异性因子的乘积来计算,公式如下:
Figure BDA0002718201230000101
Figure BDA0002718201230000102
其中,Z表示从
Figure BDA0002718201230000103
选出的k个关键词,E(Z)为集合Z的差异性因子,g(Z)为集合Z的全局关键因子;
Figure BDA0002718201230000104
表示从设定数量k中选择两个元素的组合数。
由于从文档d中选取k个关键词共有
Figure BDA0002718201230000105
个组合方式,当文档包含的词的个数较大时,会产生较大计算量。本应用示例中,如图3所示,对文档的各词语,求取词语的重要性因子,并基于重要性因子从大到小排序,保证重要性高的词语排在前面;从
Figure BDA0002718201230000106
取前k个词组成初始的关键词集合Z;继续从
Figure BDA0002718201230000107
中按照顺序取一个词语w,用w依次代替Z集合中的词语zi,并计算代替后的集合Z的全局关键因子,如果大于之前Z的全局关键因子,则将W替换zi;遍历
Figure BDA0002718201230000108
之后得到的集合Z就是文本d的关键词集合。
为了实现本发明实施例的方法,本发明实施例还提供一种关键词抽取装置,该关键词抽取装置与上述关键词抽取方法对应,上述关键词抽取方法实施例中的各步骤也完全适用于本关键词抽取装置实施例。
如图4所示,该关键词抽取装置包括:预处理模块401、第一运算模块402及第二运算模块403,其中,预处理模块401用于对待抽取关键词的目标文档进行预处理,得到所述目标文档的词语集合;第一运算模块402用于求取所述词语集合中各词语的第一因子;第二运算模块403用于基于各词语的所述第一因子,选取所述目标文档中第二因子最大的设定数量个词语,构成所述目标文档的关键词集合;所述第一因子表征相应的词语基于词频和所述词语与所述目标文档的语义相似度确定的重要性程度,所述第二因子表征相应的所述设定数量的词语构成的集合的重要性程度。
在一些实施例中,第一运算模块402具体用于:
确定所述词语集合中各词语的词频逆文档频率TFIDF权重值;
求取所述目标文档的文本向量和所述词语集合中各词语的词向量;
基于所述目标文档的文本向量和所述词语集合中各词语的词向量,求取所述词语集合中各词语的距离值,所述距离值为所述词向量与所述文本向量之间的余弦距离;
基于各词语的所述TFIDF权重值和所述距离值,确定各词语的第一因子。
在一些实施例中,第一运算模块402求取所述目标文档的文本向量和所述词语集合中各词语的词向量,包括:
基于语料库和文本向量化算法训练向量模型;
基于所述向量模型求取所述目标文档的文本向量和所述词语集合中各词语的词向量。
在一些实施例中,第二运算模块403具体用于:
对所述词语集合中各词语基于所述第一因子进行排序;
基于所述第一因子从大到小的顺序选取设定数量个词语,构成初始的关键词集合;
对所述词语集合中除所述关键词集合之外的其他词语进行遍历;
求取当前遍历的词语替换所述关键词集合中各词语前、后的第二因子的比较结果,若替换后的所述第二因子大于替换前的所述第二因子,则更新所述关键词集合;直至遍历结束,得到所述第二因子最大的关键词集合,作为所述目标文档的关键词集合。
在一些实施例中,第二运算模块403求取所述第二因子,包括:
求取所述设定数量个词语中各个词语之间的均方距离的算术平方根,作为所述设定数量个词语的差异性因子;
基于所述设定数量个词语中各词语的所述第一因子的加和与所述差异性因子的乘积,确定所述设定数量个词语的所述第二因子。
在一些实施例中,预处理模块401具体用于:
对待抽取关键词的目标文档进行分词及去停用词处理,得到所述目标文档的词语集合。
在一些实施例中,关键词抽取装置还包括:处理模块404,具体用于以下至少之一:
基于所述目标文档的关键词集合匹配检索请求信息;
基于所述目标文档的关键词集合推送所述目标文档;
基于所述目标文档的关键词集合对所述目标文档进行聚类。
实际应用时,预处理模块401、第一运算模块402、第二运算模块403及处理模块404,可以由关键词抽取装置中的处理器来实现。当然,处理器需要运行存储器中的计算机程序来实现它的功能。
需要说明的是:上述实施例提供的关键词抽取装置在进行关键词抽取时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的关键词抽取装置与关键词抽取方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
基于上述程序模块的硬件实现,且为了实现本发明实施例的方法,本发明实施例还提供一种关键词抽取设备。图5仅仅示出了该关键词抽取设备的示例性结构而非全部结构,根据需要可以实施图5示出的部分结构或全部结构。
如图5所示,本发明实施例提供的关键词抽取设备500包括:至少一个处理器501、存储器502、用户接口503和至少一个网络接口504。关键词抽取设备500中的各个组件通过总线系统505耦合在一起。可以理解,总线系统505用于实现这些组件之间的连接通信。总线系统505除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图5中将各种总线都标为总线系统505。
其中,用户接口503可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。
本发明实施例中的存储器502用于存储各种类型的数据以支持关键词抽取设备的操作。这些数据的示例包括:用于在关键词抽取设备上操作的任何计算机程序。
本发明实施例揭示的关键词抽取方法可以应用于处理器501中,或者由处理器501实现。处理器501可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,关键词抽取方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器501可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器502,处理器501读取存储器502中的信息,结合其硬件完成本发明实施例提供的关键词抽取方法的步骤。
在示例性实施例中,关键词抽取设备可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、FPGA、通用处理器、控制器、微控制器(MCU,Micro Controller Unit)、微处理器(Microprocessor)、或者其他电子元件实现,用于执行前述方法。
可以理解,存储器502可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
在示例性实施例中,本发明实施例还提供了一种存储介质,即计算机存储介质,具体可以是计算机可读存储介质,例如包括存储计算机程序的存储器502,上述计算机程序可由关键词抽取设备的处理器501执行,以完成本发明实施例方法所述的步骤。计算机可读存储介质可以是ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。
需要说明的是:“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
另外,本发明实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种关键词抽取方法,其特征在于,包括:
对待抽取关键词的目标文档进行预处理,得到所述目标文档的词语集合;
求取所述词语集合中各词语的第一因子;
基于各词语的所述第一因子,选取所述目标文档中第二因子最大的设定数量个词语,构成所述目标文档的关键词集合;
其中,所述第一因子表征相应的词语基于词频和所述词语与所述目标文档的语义相似度确定的重要性程度,所述第二因子表征相应的所述设定数量的词语构成的集合的重要性程度。
2.根据权利要求1所述的方法,其特征在于,所述求取所述词语集合中各词语的第一因子,包括:
确定所述词语集合中各词语的词频逆文档频率TFIDF权重值;
求取所述目标文档的文本向量和所述词语集合中各词语的词向量;
基于所述目标文档的文本向量和所述词语集合中各词语的词向量,求取所述词语集合中各词语的距离值,所述距离值为所述词向量与所述文本向量之间的余弦距离;
基于各词语的所述TFIDF权重值和所述距离值,确定各词语的第一因子。
3.根据权利要求2所述的方法,其特征在于,所述求取所述目标文档的文本向量和所述词语集合中各词语的词向量,包括:
基于语料库和文本向量化算法训练向量模型;
基于所述向量模型求取所述目标文档的文本向量和所述词语集合中各词语的词向量。
4.根据权利要求1所述的方法,其特征在于,所述基于各词语的所述第一因子,选取所述目标文档中第二因子最大的设定数量个词语,构成所述目标文档的关键词集合,包括:
对所述词语集合中各词语基于所述第一因子进行排序;
基于所述第一因子从大到小的顺序选取设定数量个词语,构成初始的关键词集合;
对所述词语集合中除所述关键词集合之外的其他词语进行遍历;
求取当前遍历的词语替换所述关键词集合中各词语前、后的第二因子的比较结果,若替换后的所述第二因子大于替换前的所述第二因子,则更新所述关键词集合;直至遍历结束,得到所述第二因子最大的关键词集合,作为所述目标文档的关键词集合。
5.根据权利要求4所述的方法,其特征在于,求取所述第二因子,包括:
求取所述设定数量个词语中各个词语之间的均方距离的算术平方根,作为所述设定数量个词语的差异性因子;
基于所述设定数量个词语中各词语的所述第一因子的加和与所述差异性因子的乘积,确定所述设定数量个词语的所述第二因子。
6.根据权利要求1所述的方法,其特征在于,所述对待抽取关键词的目标文档进行预处理,得到所述目标文档的词语集合,包括:
对待抽取关键词的目标文档进行分词及去停用词处理,得到所述目标文档的词语集合。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括以下至少之一:
基于所述目标文档的关键词集合匹配检索请求信息;
基于所述目标文档的关键词集合推送所述目标文档;
基于所述目标文档的关键词集合对所述目标文档进行聚类。
8.一种关键词抽取装置,其特征在于,包括:
预处理模块,用于对待抽取关键词的目标文档进行预处理,得到所述目标文档的词语集合;
第一运算模块,用于求取所述词语集合中各词语的第一因子;
第二运算模块,用于基于各词语的所述第一因子,选取所述目标文档中第二因子最大的设定数量个词语,构成所述目标文档的关键词集合;
其中,所述第一因子表征相应的词语基于词频和所述词语与所述目标文档的语义相似度确定的重要性程度,所述第二因子表征相应的所述设定数量的词语构成的集合的重要性程度。
9.一种关键词抽取设备,其特征在于,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,
所述处理器,用于运行计算机程序时,执行权利要求1至7任一项所述方法的步骤。
10.一种存储介质,所述存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1至7任一项所述方法的步骤。
CN202011079979.8A 2020-10-10 2020-10-10 关键词抽取方法、装置、设备及存储介质 Pending CN114330335A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011079979.8A CN114330335A (zh) 2020-10-10 2020-10-10 关键词抽取方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011079979.8A CN114330335A (zh) 2020-10-10 2020-10-10 关键词抽取方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114330335A true CN114330335A (zh) 2022-04-12

Family

ID=81032316

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011079979.8A Pending CN114330335A (zh) 2020-10-10 2020-10-10 关键词抽取方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114330335A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115080718A (zh) * 2022-06-21 2022-09-20 浙江极氪智能科技有限公司 一种文本关键短语的抽取方法、系统、设备及存储介质
CN115344679A (zh) * 2022-08-16 2022-11-15 中国平安财产保险股份有限公司 问题数据的处理方法、装置、计算机设备及存储介质
CN117272353A (zh) * 2023-11-22 2023-12-22 陕西昕晟链云信息科技有限公司 一种数据加密存储保护系统及方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115080718A (zh) * 2022-06-21 2022-09-20 浙江极氪智能科技有限公司 一种文本关键短语的抽取方法、系统、设备及存储介质
CN115080718B (zh) * 2022-06-21 2024-04-09 浙江极氪智能科技有限公司 一种文本关键短语的抽取方法、系统、设备及存储介质
CN115344679A (zh) * 2022-08-16 2022-11-15 中国平安财产保险股份有限公司 问题数据的处理方法、装置、计算机设备及存储介质
CN117272353A (zh) * 2023-11-22 2023-12-22 陕西昕晟链云信息科技有限公司 一种数据加密存储保护系统及方法
CN117272353B (zh) * 2023-11-22 2024-01-30 陕西昕晟链云信息科技有限公司 一种数据加密存储保护系统及方法

Similar Documents

Publication Publication Date Title
CN111104794B (zh) 一种基于主题词的文本相似度匹配方法
CN109906449B (zh) 一种查找方法及装置
Peng et al. Information extraction from research papers using conditional random fields
CN103514183B (zh) 基于交互式文档聚类的信息检索方法及系统
US20130060769A1 (en) System and method for identifying social media interactions
CN114330335A (zh) 关键词抽取方法、装置、设备及存储介质
Mills et al. Graph-based methods for natural language processing and understanding—A survey and analysis
JP2009514076A (ja) テキスト表現の類似性を定量化するコンピュータを用いた自動類似度計算システム
CN107844493B (zh) 一种文件关联方法及系统
WO2022160454A1 (zh) 医疗文献的检索方法、装置、电子设备及存储介质
CN112559684A (zh) 一种关键词提取及信息检索方法
CN111401045A (zh) 一种文本生成方法、装置、存储介质和电子设备
CN108427702B (zh) 目标文档获取方法及应用服务器
CN112270178B (zh) 医疗文献簇的主题确定方法、装置、电子设备及存储介质
CN112329460A (zh) 文本的主题聚类方法、装置、设备及存储介质
CN114201598B (zh) 文本推荐方法及文本推荐装置
CN112307190A (zh) 医学文献排序方法、装置、电子设备及存储介质
CN111859079B (zh) 信息搜索方法、装置、计算机设备及存储介质
CN111325033A (zh) 实体识别方法、装置、电子设备及计算机可读存储介质
CN114692594A (zh) 文本相似度识别方法、装置、电子设备及可读存储介质
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
CN117057349A (zh) 新闻文本关键词抽取方法、装置、计算机设备和存储介质
Akhmetov et al. A Comprehensive Review on Automatic Text Summarization
JP2013222418A (ja) パッセージ分割方法、装置、及びプログラム
WO2019231635A1 (en) Method and apparatus for generating digest for broadcasting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination