CN110008401A - 关键词提取方法、关键词提取装置和计算机可读存储介质 - Google Patents

关键词提取方法、关键词提取装置和计算机可读存储介质 Download PDF

Info

Publication number
CN110008401A
CN110008401A CN201910128945.4A CN201910128945A CN110008401A CN 110008401 A CN110008401 A CN 110008401A CN 201910128945 A CN201910128945 A CN 201910128945A CN 110008401 A CN110008401 A CN 110008401A
Authority
CN
China
Prior art keywords
title
vector
candidate word
text
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910128945.4A
Other languages
English (en)
Other versions
CN110008401B (zh
Inventor
刘永起
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN201910128945.4A priority Critical patent/CN110008401B/zh
Publication of CN110008401A publication Critical patent/CN110008401A/zh
Application granted granted Critical
Publication of CN110008401B publication Critical patent/CN110008401B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请是关于一种关键词提取方法、关键词提取装置和计算机可读存储介质。该关键词提取方法包括:分别计算目标正文的文本向量与候选词表中每个候选词的相关度;从相关度大于相关度阈值的N个候选词中提取K个候选词,生成表示目标正文的候选词联合向量,N和K均为大于1的自然数;分别计算正文标题对应的第一标题向量和辅助标题对应的第二标题向量与候选词联合向量之间的第一相似度和第二相似度;以及将第一相似度大于第二相似度的候选词联合向量对应的K个候选词作为目标正文的关键词。通过对比文章标题与所提取出的关键词的一致性,并引入辅助的标题进行语义的判别,将无监督的问题变成有监督的问题,提升关键词提取的准确性。

Description

关键词提取方法、关键词提取装置和计算机可读存储介质
技术领域
本申请属于计算机软件应用领域,尤其是关键词提取方法、关键词提取装置和计算机可读存储介质。
背景技术
在进行自然语言处理或进行新闻推荐时,通常需要给文章提取关键词,或依据关键词进行内容的个性化推荐,所以会用到不同的关键词提取算法。
现有的关键词提取算法,大都是基于词频统计的算法,例如基于TF-IDF或Textrank的关键词提取算法,基于TF-IDF的关键词提取算法一般会赋予TF(词频)和IDF(逆文档词频)不同的权重,TF与IDF的乘积即为TF-IDF(项词频逆文档词频特征),将TF-IDF值最高的几个词语选为关键词。该算法严重依赖语料库,需要选取质量较高且和所处理文本相符的语料库进行训练,而且IDF本身就是一种试图抑制噪声的加权,本身倾向于文本中频率小的词,这使得TF-IDF算法的精度不高。Textrank是Pagerank的一个引申,是将每一个词作为一个节点,而词与词之间的共现决定节点与节点之间的链。用一个固定大小的窗口表示词与词的共现,词与另一个词在同一个窗口里,就在这两个词之间加一条边,然后在这个网络中使用pagerank算出每个词语的权值,把权值最高的几个词作为关键词。
这两种算法抽取出来的关键词都是高频词,但是由于重要的词可能出现的次数并不多,单纯以"词频"衡量一个词的重要性不够全面,另外上述方法可能将一篇文章中出现的频率较高的几个近义词全部选出来作为关键词,造成关键词的重复,而且只能得到文章内包含的词语,不能进行语义的抽象,使得关键词的提取结果拘泥于文章且不准确。
发明内容
为克服相关技术中存在的问题,本申请公开一种关键词提取方法和关键词提取装置,提供一种无需人工标注数据,基于三元组损失的关键词提取算法,能有效地对文章中有代表意义的关键词进行提取。
根据本申请实施例的第一方面,提供一种关键词提取方法,包括:
分别计算目标正文的文本向量与候选词表中每个候选词的相关度;
从所述相关度大于相关度阈值的N个所述候选词中提取K个候选词,生成表示所述目标正文的候选词联合向量,N和K均为大于1的自然数;
分别计算正文标题对应的第一标题向量和辅助标题对应的第二标题向量与所述候选词联合向量之间的第一相似度和第二相似度;以及
将所述第一相似度大于所述第二相似度的所述候选词联合向量对应的K个候选词作为所述目标正文的关键词。
可选地,所述关键词提取方法还包括:
获取所述目标正文、所述正文标题和所述辅助标题;
获取与所述目标正文相对应的所述文本向量;
分别获取与所述正文标题和所述辅助标题相对应的所述第一标题向量和所述第二标题向量。
可选地,所述正文标题为与所述目标正文相对应的标题,所述辅助标题为与抽样得到的其他正文相对应的标题。
可选地,将从所述候选词表中提取的所述K个候选词进行向量化组合,生成所述候选词联合向量。
可选地,从所述候选词表中提取的所述K个候选词为所述相关度排序位于前K位的所述候选词。
可选地,所述候选词表为预先生成的包括多个不同类型的候选词的词表。
可选地,所述候选词表中的每个所述候选词都以词向量的形式表示。
可选地,所述相关度为所述文本向量与所述候选词的所述词向量的内积。
可选地,所述关键词中包括所述目标正文中未出现过的词。
可选地,采用三元组损失函数比较所述第一相似度和所述第二相似度的大小。
可选地,获取与所述目标正文相对应的所述文本向量包括:
对所述目标正文进行分词操作,得到分词集合;
将所述分词集合映射为分词集合向量;
采用神经网络对所述分词集合向量进行卷积处理,得到卷积矩阵;
对所述卷积矩阵中的每一列取平均得到文本向量。
根据本发明实施例的第二方面,提供一种关键词提取装置,包括:
相关度计算模块,被配置为分别计算目标正文的文本向量与候选词表中每个候选词的相关度;
候选词提取模块,被配置为从所述相关度大于相关度阈值的N个所述候选词中提取K个候选词,生成表示所述目标正文的候选词联合向量,N和K均为大于1的自然数;
相似度计算模块,被配置为分别计算正文标题对应的第一标题向量和辅助标题对应的第二标题向量与所述候选词联合向量之间的第一相似度和第二相似度;以及
关键词提取模块,被配置为将所述第一相似度大于所述第二相似度的所述候选词联合向量对应的K个候选词作为所述目标正文的关键词。
可选地,所述关键词提取装置还包括:
文本获取模块,被配置为获取所述目标正文、所述正文标题和所述辅助标题;
文本向量获取模块,被配置为获取与所述目标正文相对应的所述文本向量;
标题向量获取模块,被配置为分别获取与所述正文标题和所述辅助标题相对应的所述第一标题向量和所述第二标题向量。
可选地,所述正文标题为与所述目标正文相对应的标题,所述辅助标题为与抽样得到的其他正文相对应的标题。
可选地,将从所述候选词表中提取的所述K个候选词进行向量化组合,生成所述候选词联合向量。
可选地,从所述候选词表中提取的所述K个候选词为所述相关度排序位于前K位的所述候选词。
可选地,所述候选词表为预先生成的包括多个不同类型的候选词的词表。
可选地,所述候选词表中的每个所述候选词都以词向量的形式表示。
可选地,所述相关度为所述文本向量与所述候选词的所述词向量的内积。
可选地,所述关键词中包括所述目标正文中未出现过的词。
可选地,采用三元组损失函数比较所述第一相似度和所述第二相似度的大小。
根据本发明实施例的第三方面,提供一种电子设备,其特征在于,包括:
处理器;
被配置为存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述任意一项所述的关键词提取方法。
根据本发明实施例的第四方面,提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令被执行时实现上述关键词提取方法。
本申请的实施例提供的技术方案可以包括以下有益效果:
该关键词提取方法是一种基于三元组损失的关键词提取算法,采用对比“文章标题”与“所提取出的关键词”的一致性,并引入辅助标题进行语义的判别,将无监督的问题变成有监督的问题,尽可能全面的提取代表文章内容的关键词,而不只是根据词频的多少进行词语的堆叠;且无需人工标注数据即可提取出与文章语义内容相匹配的一组关键词,提取出的关键词为无重复的有代表意义的几个词语,提取结果更具有概括性和准确性。
本申请的另一实施例提供的技术方案可以包括以下有益效果:
该关键词提取方法从候选词表中提取出与文章语义内容相匹配的一组关键词,这组关键词不仅仅是词语的罗列,还能整体的反映出文章的内容,且提取出的关键词不拘泥于文章内包括的词语,而是提取出更有概括含义的词语,能够更加简洁有效的进行语义的表达,能够更加抽象地概括文章的内容。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的关键词提取方法的流程图;
图2是根据一示例性实施例示出的汇总的关键词提取方法的流程图;
图3是根据一示例性实施例示出的图2中步骤S202的一个具体实施例的流程图;
图4是根据一示例性实施例示出的关键词提取装置的示意图;
图5是根据一示例性实施例示出的汇总的关键词提取装置的示意图;
图6是根据一示例性实施例示出的一种用于执行关键词提取方法的电子设备的框图;
图7是根据一示例性实施例示出的一种用于执行关键词提取方法的关键词提取装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的关键词提取方法的流程图,具体包括步骤S101-S104。
现有技术的关键词提取算法大都是基于词频的统计算法,提取到的关键词中语义重复的词语较多,且不能很好地表征文章内容,关键词的提取不准确,所以本实施例中,采用一种有监督的算法实现关键词的提取,在没有标注数据的情况下,采用对比“文章标题”与“所提取出的关键词”的一致性,来判断提取出的关键词的准确性,进行标题与关键字的一致性的判别时,又引入辅助标题,进行语义判断,保证关键词提取的准确性。本实施例采用的有监督算法的输入是一篇文章A的正文和标题(记作标题A,正文A)以及另一篇文章的标题(记作标题B),比较(标题A,正文A提取出的关键词)这个组合经过神经网络算出来的距离以及(标题B,正文A提取出的关键词)经过神经网络算出来的距离。如果(标题A,正文A提取出的关键词)组合的距离比(标题B,正文A提取出的关键词)的距离大,那么就能说明提取出的关键词是可以代表文章A的,而且这些关键词不是简单的重复,而是有语义含义的一组关键词,这些关键词联合起来能够代表这篇文章A的正文内容。
因此本实施例中,首先要进行关键词的提取,然后进行关键词的准确性的判断。关键词的提取步骤为步骤S101-S102。
在步骤S101中,分别计算目标正文的文本向量与候选词表中每个候选词的相关度。
将待提取关键词的文章的正文记为目标正文,将目标正文进行向量化,记为文本向量。常用的文本匹配算法、提取算法等均是利用文本的向量之间的关系判断文本之间的关联度,所以本实施例也采用目标正文的文本向量进行比较。而要提取能表示目标正文的关键词,所以需要关键词与目标正文的匹配度很高,首先要获得能作为关键词的备选词的向量,然后将备选词的向量和目标正文的文本向量进行神经网络的计算,挑选最匹配的词作为关键词。
在本实施例中,从候选词表中提取关键词,所以要分别计算目标正文的文本向量与候选词表中的每个候选词的相关度,选择相关度较高的候选词作为关键词。
在一个实施例中,候选词表中的每个候选词都以词向量的形式表示,例如,W1,W2,W3……,Wm,相关度则为文本向量与候选词的词向量的内积。
在步骤S102中,从相关度大于相关度阈值的N个候选词中提取K个候选词,生成表示目标正文的候选词联合向量,N和K均为大于1的自然数。
以相关度为文本向量与候选词的词向量的内积为例说明关键词的提取过程,预设一个相关度阈值,相关度大于相关度阈值的两个向量认为相似度和关联性较高,相关度小于相关度阈值的两个向量认为相似度和关联性较低,所以关键词从相关度大于相关度阈值的词向量对应的候选词中选出。例如,预设一个数值,或根据计算结果设定一个数值,作为相关度阈值,将文本向量与词向量的内积的数值大于关注度阈值的词向量对应的候选词选取出来。
文本向量与候选词的词向量的相关度大于相关度阈值的词向量例如有N个,那么关键词即从对应的N个候选词中诞生。从相关度大于相关度阈值的N个候选词中提取K个候选词,作为初步的关键词组合,生成表示目标正文的候选词联合向量,N和K均为大于1的自然数。
可选地,将从候选词表中提取的K个候选词进行向量化组合,生成候选词联合向量,以此表示目标正文,即得到基于候选词组合的文章语义表达,例如将K-Max Pooling(取最大)所得到的K个候选词的词向量进行Mean Pooling(取平均),即得到提取出的K个候选词的向量化表达。
在一个实施例中,从候选词表中提取的K个候选词为相关度排序位于前K位的候选词。在计算出相关度之后,选取相关度大于相关度阈值的N个候选词组成一个候选词词组,并按照相关度的大小进行降序排序,然后采用K-Max Pooling算法,从之前的长度为N的候选词词组中找出相关度的值最大的K个候选词,作为初步选择的关键词,本实施例以K=5为例说明,N大于等于K,所以N大于等于5。
可选地,在其他实施例中,还可以从长度为N的候选词词组中任意找出K个候选词,作为初步选择的关键词,本实施例以K=5为例说明,N的取值不宜太大,例如为15,则以选出的K个候选词的候选词联合向量表示目标正文,进行后续的距离计算,如果计算结果不合适,则重新从N个候选词中挑选K个候选词,重新挑选的K个候选词与第一次挑选的K个候选词不完全相同,将重新挑选出的K个候选词组成的候选词联合向量作为目标文本的向量表示进行后续的距离计算,当符合比较条件时,将此时对应的K个候选词作为关键词。
在一个实施例中,候选词表为预先生成的包括多个不同类型的候选词的词表,例如W1,W2,W3……,Wm所代表的序列,是所有候选关键词组成的词表,候选词表中的候选词有M个,M例如在10万的量级。候选词表生成后,可以用于为不同的文章匹配关键词,即可以循环利用,也可以对候选词表进行更新,删减或增加一定量的词语。将目标正文的文本向量与候选词表中的每一个候选词的词向量计算内积,得到目标正文与候选词表中每一个候选词的相关性。由于在这一步骤并没有限制候选词表中的词语一定要在文章中出现过,因此,提取出的关键词有可能是其他更有概括能力的词语,而不是拘泥于文章内容本身,即关键词中包括目标正文中未出现过的词。
该关键词提取方法从候选词表中提取出与文章语义内容相匹配的一组关键词,这组关键词不仅仅是词语的罗列,还能整体的反映出文章的内容,且提取出的关键词不拘泥于文章内包括的词语,而是提取出更有概括含义的词语,能够更加简洁有效的进行语义的表达,能够更加抽象地概括文章的内容。
提取出K个候选伺候,需要判断提取出的K个候选词是否可以作为关键词,即步骤S103-S104。
在步骤S103中,分别计算正文标题对应的第一标题向量和辅助标题对应的第二标题向量与候选词联合向量之间的第一相似度和第二相似度。
本发明实施例采用比较(标题A,正文A提取出的关键词)这个组合经过神经网络算出来的距离以及(标题B,正文A提取出的关键词)经过神经网络算出来的距离的大小,来判断关键词和标题组合的一致性,距离例如用相似度来表示,将正文标题对应的第一标题向量与候选词联合向量之间的相似度作为第一相似度,辅助标题对应的第二标题向量与候选词联合向量之间的相似度作为第二相似度,然后采用三元组损失函数比较第一相似度和第二相似度的大小。正文标题是与目标正文相对应的标题,而辅助标题则是随机抽取的某篇文章的标题。
三元组损失(Triplet Loss)中的三元通常表示的是Anchor元、Negative元和Positive元,其中Anchor元为训练数据集中随机选取的一个样本,Positive元为和Anchor元属于同一类的样本,而Negative元则为和Anchor元不同类的样本。通过三元组损失的学习后使得Positive元和Anchor元之间的距离最小,而Anchor元和Negative元之间距离最大。这也就是说通过学习后,使得同类样本的positive样本更靠近Anchor,而不同类的样本的Negative样本则远离Anchor。
根据三元组损失函数,当x_a与x_n之间的距离<x_a与x_p之间的距离加时,就会产生损失;当x_a与x_n之间的距离>=x_a与x_p之间的距离加时,损失为零(x_a与x_n之间的距离即为Anchor元和Negative元之间的距离,x_a与x_p之间的距离即为Positive元和Anchor元之间的距离)。
在本实施例中,目标正文,正文标题和辅助标题即为三元,目标正文即为Anchor,正文标题即为Positive,两者属于同类,辅助标题为Negative,辅助标题与目标正文属于不同类,即算法的输入需要一篇文章的正文和标题(记作标题A,正文A)以及另一篇文章的标题(记作标题B)。通过比较目标正文和正文标题之间的距离与目标正文和辅助标题之间的距离,来判断表示正文的候选词是否适合作为关键词。
标题和正文距离的度量:本实施例采用将正文标题的第一标题向量和表示目标正文的候选词的候选词联合向量的结果进行拼接,然后经过一个全连接层后最终输出的分值作为第一相似度,即表示正文标题与K个候选词的距离;同理将将辅助标题的第二标题向量和表示目标正文的候选词的候选词联合向量的结果进行拼接,然后经过一个全连接层后最终输出的分值作为第二相似度,即表示辅助标题与K个候选词的距离。
以相似度表示距离,使得比较结果可视化,能更加直观地表示三者之间的距离关系。
在步骤S104中,将第一相似度大于第二相似度的候选词联合向量对应的K个候选词作为目标正文的关键词。
因为目标正文与正文标题属于同一类样本,而目标正文与辅助标题属于不同类样本,那么目标正文与正文标题之间的距离一定小于目标正文与辅助标题之间的距离,用提取的K个候选词表示目标正文后,若K个候选词与正文标题之间的距离仍然小于K个候选词与辅助标题之间的距离,说明关键词的提取是准确的。本实施例以相似度代表距离,所以要进行第一相似度和第二相似度的比较。
用P+表示正文标题的第一标题向量与目标正文的候选词联合向量之间的相似度,P-表示辅助标题的第二标题向量与目标正文的候选词联合向量之间的相似度。若P+远大于P-,也就意味着通过前几个步骤提取出的关键词,能反映目标正文的语义,也就是与正文标题更相匹配,而与其它标题不相匹配,这样得到的关键词就是好的关键词。
在一个实施例中,通过大量的训练,得出最合适的三元组损失函数的参数。三元组损失的定义为:
其中W为神经网络的参数,作为正则化项。q为目标正文,p^+为正文标题,p^-为辅助标题,f(q,p^+)即为P+,f(q,p^-)即为P-,通过训练神经网络,使训练集上的损失最小,最终得到合适的网络参数。
训练过程中,首先要构建训练集,而训练集的构建需要收集大量带有标题和正文的文章,然后将每篇文章的标题和正文,再加上抽样出的其他文章的标题作为负样本,构成一系列的三元组。采用反向传播训练方法进行神经网络的训练,最终令训练集上的三元组损失最小。
该关键词提取方法是一种基于三元组损失的关键词提取算法,采用对比“文章标题”与“所提取出的关键词”的一致性,并引入辅助标题进行语义的判别,将无监督的问题变成有监督的问题,尽可能全面的提取代表文章内容的关键词,而不只是根据词频的多少进行词语的堆叠;且无需人工标注数据即可提取出与文章语义内容相匹配的一组关键词,提取出的关键词为无重复的有代表意义的几个词语,提取结果更具有概括性和准确性。
采用本实施的关键词提取方法,在进行关键词提取的时候,可以只将目标正文的内容与候选词表进行向量运算,最终得到的5个权重最大的值的候选词即为提取出的关键词。
本发明实施例相对于基于词频的关键词提取方法,能够提取出与文章语义内容相匹配的一组关键词,这组关键词不仅仅是词语的罗列,还能整体的反映出文章的内容,本发明实施例将无监督的关键词提取变成了有监督的提取,使得模型更加直观,容易理解,且该关键词提取方法提取的关键词不拘泥于文章内包括的词语,能够获得更加抽象概括的关键词。
图2是根据一示例性实施例示出的汇总的关键词提取方法的流程图。
在步骤S201中,获取目标正文、正文标题和辅助标题;
在步骤S202中,获取与目标正文相对应的文本向量;
在步骤S203中,分别获取与正文标题和辅助标题相对应的第一标题向量和第二标题向量;
在步骤S204中,分别计算目标正文的文本向量与候选词表中每个候选词的相关度;
在步骤S205中,从相关度大于相关度阈值的N个候选词中提取K个候选词,生成表示目标正文的候选词联合向量,N和K均为大于1的自然数;
在步骤S206中,分别计算正文标题对应的第一标题向量和辅助标题对应的第二标题向量与候选词联合向量之间的第一相似度和第二相似度;
在步骤S207中,将第一相似度大于第二相似度的候选词联合向量对应的K个候选词作为目标正文的关键词。
本实施例是图1的优化方案,步骤S204-S207与图1的步骤S101-S104相同,这里不再赘述。步骤S201-S203是图1实施例的准备过程。
在步骤S201中,获取目标正文、正文标题和辅助标题。
图1实施例中已经描述过目标正文、正文标题和辅助标题的关系,即正文标题为与目标正文相对应的标题,辅助标题为与抽样得到的其他正文相对应的标题。由于本发明实施例的关键词提取方法需要的输入即为目标正文、正文标题和辅助标题,所以在进行关键词提取之前要依次获取待提取的目标正文的文本,目标正文对应的正文标题,以及随机抽取的某篇文章的标题,即辅助标题。
在步骤S202中,获取与目标正文相对应的文本向量。
将上一步中获取的目标正文以向量形式表示出来,便与后续的计算,目标正文的向量化表示可以利用现有的向量化方法,图3中进行了进一步的描述。
在步骤S203中,分别获取与正文标题和辅助标题相对应的第一标题向量和第二标题向量。
获取了目标正文对应的文本向量之后,还需要获取正文标题对应的第一标题向量和辅助标题对应的第二标题向量,标题向量化的方式可以与目标正文的向量化方式相同,这里对标题的向量化方式进行举例说明,例如,首先分别对正文标题和辅助标题进行分词,然后对分词后的标题的词语序列采用LSTM递归神经网络或者CNN卷积神经网络进行处理,然后将得到的矩阵结果进行Mean Pooling平均化,最终得到的向量就是能代表标题语义的向量(embedding)。
本实施例中,关键词提取方法将关键词提取转换成有监督的问题,结果更加准确直观,且引入辅助标题进行语义的判别,能够有效地提升关键词的区分度,这种方法提取出的关键词不是简单的词语罗列,而是一组能描述正文内容,有语义含义的关键词,准确度较高。
图3是根据一示例性实施例示出的图2中步骤S202的一个具体实施例的流程图,主要包括步骤S2021-S2024。
在步骤S2021中,对目标正文进行分词操作,得到分词集合;
与对标题的处理一样首先对目标正文进行分词,得到一个由分词组成的分词集合。
在步骤S2022中,将分词集合映射为分词集合向量;
通过映射函数或其他映射方法将分词集合映射为分词向量,例如采用text2vec方法将分词集合映射为分词集合向量,由此作为目标正文的初步向量。
在步骤S2023中,采用神经网络对分词集合向量进行卷积处理,得到卷积矩阵;
然后对正文的词语序列采用LSTM递归神经网络或者CNN卷积神经网络进行处理,将分词向量转化为矩阵形式。例如采用CNN卷积得到卷积矩阵,卷积矩阵包括多列。
在步骤S2024中,对卷积矩阵中的每一列取平均得到文本向量。
对卷积矩阵中的每一列都进行Mean Pooling(取平均),得到代表正文的向量表示,即文本向量。
本实施例只是对目标正文的向量化方法进行举例说明,不作为对本发明实施例的限定。
图4是根据一示例性实施例示出的关键词提取装置的示意图。该关键词提取装置包括相关度计算模块401、候选词提取模块402、相似度计算模块403和关键词提取模块404。
相关度计算模块401被配置为分别计算目标正文的文本向量与候选词表中每个候选词的相关度;
候选词提取模块402被配置为从相关度大于相关度阈值的N个候选词中提取K个候选词,生成表示目标正文的候选词联合向量,N和K均为大于1的自然数;
相似度计算模块403被配置为分别计算正文标题对应的第一标题向量和辅助标题对应的第二标题向量与候选词联合向量之间的第一相似度和第二相似度;
关键词提取模块404被配置为将第一相似度大于第二相似度的候选词联合向量对应的K个候选词作为目标正文的关键词。
在一个实施例中,候选词提取模块402将从候选词表中提取的K个候选词进行向量化组合,生成候选词联合向量。而从候选词表中提取的K个候选词为相关度排序位于前K位的候选词。候选词表例如为预先生成的包括多个不同类型的候选词的词表,候选词表中的每个候选词都以词向量的形式表示。
文本向量与每个候选词的相关度为文本向量与候选词的词向量的内积,挑选内积数值较大的几个词向量对应的候选词为关键词。因为关键词选自候选词表,所以关键词中包括目标正文中未出现过的词。
在另一个可选的实施例中,采用三元组损失函数比较第一相似度和第二相似度的大小。
本实施例的关键词提取装置从候选词表中提取出与文章语义内容相匹配的一组关键词,这组关键词不仅仅是词语的罗列,还能整体的反映出文章的内容,且提取出的关键词不拘泥于文章内包括的词语,而是提取出更有概括含义的词语,能够更加简洁有效的进行语义的表达,能够更加抽象地概括文章的内容。
图5是是根据一示例性实施例示出的汇总的关键词提取装置的示意图。
图5是对图4的实施例的优化,除相关度计算模块401、候选词提取模块402、相似度计算模块403和关键词提取模块404外还包括:文本获取模块501、文本向量获取模块502和标题向量获取模块503。
文本获取模块501被配置为获取目标正文、正文标题和辅助标题;
文本向量获取模块502被配置为获取与目标正文相对应的文本向量;
标题向量获取模块503被配置为分别获取与正文标题和辅助标题相对应的第一标题向量和第二标题向量。
在一个实施例中,正文标题为与目标正文相对应的标题,辅助标题为与抽样得到的其他正文相对应的标题。
本实施例的关键词提取装置采用对比“文章标题”与“所提取出的关键词”的一致性,并引入辅助标题进行语义的判别,将无监督的问题变成有监督的问题,尽可能全面的提取代表文章内容的关键词,而不只是根据词频的多少进行词语的堆叠;且无需人工标注数据即可提取出与文章语义内容相匹配的一组关键词,提取出的关键词为无重复的有代表意义的几个词语,提取结果更具有概括性和准确性。
关于上述实施例中的关键词提取装置,由于其中各个模块的功能已经在上述关键词提取方法的实施例中进行了详细描述,由此进行了相对简略的描述。
图6是根据一示例性实施例示出的一种用于执行上述关键词提取方法的电子设备1200的框图。例如,电子设备1200可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图6,电子设备1200可以包括以下一个或多个组件:处理组件1202,存储器1204,电力组件1206,多媒体组件1208,音频组件1210,输入/输出(I/O)的接口1212,传感器组件1214,以及通信组件1216。
处理组件1202通常控制电子设备1200的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件1202可以包括一个或多个处理器1220来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件1202可以包括一个或多个模块,便于处理组件1202和其他组件之间的交互。例如,处理组件1202可以包括多媒体模块,以方便多媒体组件1208和处理组件1202之间的交互。
存储器1204被配置为存储各种类型的数据以支持在电子设备1200的操作。这些数据的示例包括用于在电子设备1200上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件1206为电子设备1200的各种组件提供电力。电源组件1206可以包括电源管理系统,一个或多个电源,及其他与为电子设备1200生成、管理和分配电力相关联的组件。
多媒体组件1208包括在所述电子设备1200和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1208包括一个前置摄像头和/或后置摄像头。当电子设备1200处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件1210被配置为输出和/或输入音频信号。例如,音频组件1210包括一个麦克风(MIC),当电子设备1200处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1204或经由通信组件1216发送。在一些实施例中,音频组件1210还包括一个扬声器,被配置为输出音频信号。
I/O接口1212为处理组件1202和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件1214包括一个或多个传感器,被配置为为电子设备1200提供各个方面的状态评估。例如,传感器组件1214可以检测到电子设备1200的打开/关闭状态,组件的相对定位,例如所述组件为装置1200的显示器和小键盘,传感器组件1214还可以检测电子设备1200,或电子设备1200一个组件的位置改变,用户与电子设备1200接触的存在或不存在,电子设备1200方位或加速/减速和电子设备1200的温度变化。传感器组件1214可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1214还可以包括光传感器,如CMOS或CCD图像传感器,被配置为在成像应用中使用。在一些实施例中,该传感器组件1214还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件1216被配置为便于电子设备1200和其他设备之间有线或无线方式的通信。电子设备1200可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。在一个示例性实施例中,通信组件1216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件1216还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备1200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1204,上述指令可由电子设备1200的处理器1220执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图7是根据一示例性实施例示出的一种用于执行上述关键词提取方法的关键词提取装置1300的框图。例如,装置1300可以被提供为一服务器。参照图7,装置1300包括处理组件1322,其进一步包括一个或多个处理器,以及由存储器1332所代表的存储器资源,被配置为存储可由处理组件1322的执行的指令,例如应用程序。存储器1332中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1322被配置为执行指令,以执行上述关键词提取方法。
装置1300还可以包括一个电源组件1326被配置为执行装置1300的电源管理,一个有线或无线网络接口1350被配置为将装置1300连接到网络,和一个输入输出(I/O)接口1358。装置1300可以操作基于存储在存储器1332的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (10)

1.一种关键词提取方法,其特征在于,包括:
分别计算目标正文的文本向量与候选词表中每个候选词的相关度;
从所述相关度大于相关度阈值的N个所述候选词中提取K个候选词,生成表示所述目标正文的候选词联合向量,N和K均为大于1的自然数;
分别计算正文标题对应的第一标题向量和辅助标题对应的第二标题向量与所述候选词联合向量之间的第一相似度和第二相似度;以及
将所述第一相似度大于所述第二相似度的所述候选词联合向量对应的K个候选词作为所述目标正文的关键词。
2.根据权利要求1所述的关键词提取方法,其特征在于,还包括:
获取所述目标正文、所述正文标题和所述辅助标题;
获取与所述目标正文相对应的所述文本向量;
分别获取与所述正文标题和所述辅助标题相对应的所述第一标题向量和所述第二标题向量。
3.根据权利要求1所述的关键词提取方法,其特征在于,所述正文标题为与所述目标正文相对应的标题,所述辅助标题为与抽样得到的其他正文相对应的标题。
4.根据权利要求1所述的关键词提取方法,其特征在于,将从所述候选词表中提取的所述K个候选词进行向量化组合,生成所述候选词联合向量。
5.根据权利要求1所述的关键词提取方法,其特征在于,从所述候选词表中提取的所述K个候选词为所述相关度排序位于前K位的所述候选词。
6.根据权利要求1所述的关键词提取方法,其特征在于,所述候选词表为预先生成的包括多个不同类型的候选词的词表。
7.根据权利要求1所述的关键词提取方法,其特征在于,所述候选词表中的每个所述候选词都以词向量的形式表示。
8.一种关键词提取装置,其特征在于,包括:
相关度计算模块,被配置为分别计算目标正文的文本向量与候选词表中每个候选词的相关度;
候选词提取模块,被配置为从所述相关度大于相关度阈值的N个所述候选词中提取K个候选词,生成表示所述目标正文的候选词联合向量,N和K均为大于1的自然数;
相似度计算模块,被配置为分别计算正文标题对应的第一标题向量和辅助标题对应的第二标题向量与所述候选词联合向量之间的第一相似度和第二相似度;以及
关键词提取模块,被配置为将所述第一相似度大于所述第二相似度的所述候选词联合向量对应的K个候选词作为所述目标正文的关键词。
9.一种电子设备,其特征在于,包括:
处理器;
被配置为存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述权利要求1-7任意一项所述的关键词提取方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令被执行时实现如权利要求1至7任一项所述的关键词提取方法。
CN201910128945.4A 2019-02-21 2019-02-21 关键词提取方法、关键词提取装置和计算机可读存储介质 Active CN110008401B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910128945.4A CN110008401B (zh) 2019-02-21 2019-02-21 关键词提取方法、关键词提取装置和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910128945.4A CN110008401B (zh) 2019-02-21 2019-02-21 关键词提取方法、关键词提取装置和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110008401A true CN110008401A (zh) 2019-07-12
CN110008401B CN110008401B (zh) 2021-03-09

Family

ID=67165796

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910128945.4A Active CN110008401B (zh) 2019-02-21 2019-02-21 关键词提取方法、关键词提取装置和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110008401B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110489757A (zh) * 2019-08-26 2019-11-22 北京邮电大学 一种关键词提取方法及装置
CN110532393A (zh) * 2019-09-03 2019-12-03 腾讯科技(深圳)有限公司 文本处理方法、装置及其智能电子设备
CN110874530A (zh) * 2019-10-30 2020-03-10 深圳价值在线信息科技股份有限公司 关键词提取方法、装置、终端设备及存储介质
CN111078838A (zh) * 2019-12-13 2020-04-28 北京小米智能科技有限公司 关键词提取方法、关键词提取装置及电子设备
CN111079422A (zh) * 2019-12-13 2020-04-28 北京小米移动软件有限公司 关键词提取方法、装置及存储介质
CN111126060A (zh) * 2019-12-24 2020-05-08 东软集团股份有限公司 一种主题词的提取方法、装置、设备及存储介质
CN112347778A (zh) * 2020-11-06 2021-02-09 平安科技(深圳)有限公司 关键词抽取方法、装置、终端设备及存储介质
CN112528681A (zh) * 2020-12-18 2021-03-19 北京百度网讯科技有限公司 跨语言检索及模型训练方法、装置、设备和存储介质
WO2021244424A1 (zh) * 2020-06-01 2021-12-09 腾讯科技(深圳)有限公司 中心词提取方法、装置、设备及存储介质
CN117172245A (zh) * 2023-05-26 2023-12-05 国家计算机网络与信息安全管理中心 控制方法及控制系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1736097A (zh) * 2002-12-12 2006-02-15 索尼株式会社 信息处理设备,信息处理方法,信息处理系统,记录介质和计算机程序
CN103336847A (zh) * 2013-07-22 2013-10-02 厦门市美亚柏科信息股份有限公司 一种新闻热点标签的生成方法及系统
US20170060870A1 (en) * 2015-08-24 2017-03-02 Google Inc. Video recommendation based on video titles
CN107229668A (zh) * 2017-03-07 2017-10-03 桂林电子科技大学 一种基于关键词匹配的正文抽取方法
CN108319627A (zh) * 2017-02-06 2018-07-24 腾讯科技(深圳)有限公司 关键词提取方法以及关键词提取装置
US20180336241A1 (en) * 2017-05-19 2018-11-22 Linkedin Corporation Search query and job title proximity computation via word embedding
CN109190111A (zh) * 2018-08-07 2019-01-11 北京奇艺世纪科技有限公司 一种文档正文关键词提取方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1736097A (zh) * 2002-12-12 2006-02-15 索尼株式会社 信息处理设备,信息处理方法,信息处理系统,记录介质和计算机程序
CN103336847A (zh) * 2013-07-22 2013-10-02 厦门市美亚柏科信息股份有限公司 一种新闻热点标签的生成方法及系统
US20170060870A1 (en) * 2015-08-24 2017-03-02 Google Inc. Video recommendation based on video titles
CN108319627A (zh) * 2017-02-06 2018-07-24 腾讯科技(深圳)有限公司 关键词提取方法以及关键词提取装置
CN107229668A (zh) * 2017-03-07 2017-10-03 桂林电子科技大学 一种基于关键词匹配的正文抽取方法
US20180336241A1 (en) * 2017-05-19 2018-11-22 Linkedin Corporation Search query and job title proximity computation via word embedding
CN109190111A (zh) * 2018-08-07 2019-01-11 北京奇艺世纪科技有限公司 一种文档正文关键词提取方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Q. LIN: "Heterogeneous Knowledge-Based Attentive Neural Networks for Short-Term Music Recommendations", 《IEEE ACCESS》 *
夏天: "词向量聚类加权TextRank的关键词抽取", 《数据分析与知识发现》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110489757A (zh) * 2019-08-26 2019-11-22 北京邮电大学 一种关键词提取方法及装置
CN110532393A (zh) * 2019-09-03 2019-12-03 腾讯科技(深圳)有限公司 文本处理方法、装置及其智能电子设备
CN110532393B (zh) * 2019-09-03 2023-09-26 腾讯科技(深圳)有限公司 文本处理方法、装置及其智能电子设备
CN110874530B (zh) * 2019-10-30 2023-06-13 深圳价值在线信息科技股份有限公司 关键词提取方法、装置、终端设备及存储介质
CN110874530A (zh) * 2019-10-30 2020-03-10 深圳价值在线信息科技股份有限公司 关键词提取方法、装置、终端设备及存储介质
CN111078838A (zh) * 2019-12-13 2020-04-28 北京小米智能科技有限公司 关键词提取方法、关键词提取装置及电子设备
CN111079422A (zh) * 2019-12-13 2020-04-28 北京小米移动软件有限公司 关键词提取方法、装置及存储介质
CN111079422B (zh) * 2019-12-13 2023-07-14 北京小米移动软件有限公司 关键词提取方法、装置及存储介质
CN111126060A (zh) * 2019-12-24 2020-05-08 东软集团股份有限公司 一种主题词的提取方法、装置、设备及存储介质
WO2021244424A1 (zh) * 2020-06-01 2021-12-09 腾讯科技(深圳)有限公司 中心词提取方法、装置、设备及存储介质
CN112347778A (zh) * 2020-11-06 2021-02-09 平安科技(深圳)有限公司 关键词抽取方法、装置、终端设备及存储介质
CN112347778B (zh) * 2020-11-06 2023-06-20 平安科技(深圳)有限公司 关键词抽取方法、装置、终端设备及存储介质
WO2022095374A1 (zh) * 2020-11-06 2022-05-12 平安科技(深圳)有限公司 关键词抽取方法、装置、终端设备及存储介质
CN112528681A (zh) * 2020-12-18 2021-03-19 北京百度网讯科技有限公司 跨语言检索及模型训练方法、装置、设备和存储介质
CN117172245A (zh) * 2023-05-26 2023-12-05 国家计算机网络与信息安全管理中心 控制方法及控制系统

Also Published As

Publication number Publication date
CN110008401B (zh) 2021-03-09

Similar Documents

Publication Publication Date Title
CN110008401A (zh) 关键词提取方法、关键词提取装置和计算机可读存储介质
CN107491541B (zh) 文本分类方法及装置
WO2017088246A1 (zh) 模板构建方法和装置、信息识别方法和装置
KR102544453B1 (ko) 정보 처리 방법, 장치 및 저장 매체
CN113792207B (zh) 一种基于多层次特征表示对齐的跨模态检索方法
CN113378556B (zh) 提取文本关键字的方法及装置
CN110781305A (zh) 基于分类模型的文本分类方法及装置,以及模型训练方法
CN108073303B (zh) 一种输入方法、装置及电子设备
CN109582869B (zh) 一种数据处理方法、装置和用于数据处理的装置
CN108073606A (zh) 一种新闻推荐方法和装置、一种用于新闻推荐的装置
CN111160448A (zh) 一种图像分类模型的训练方法及装置
CN112926310B (zh) 一种关键词提取方法及装置
CN112784142A (zh) 一种信息推荐方法及装置
CN111222316B (zh) 文本检测方法、装置及存储介质
CN110019885B (zh) 一种表情数据推荐方法及装置
CN111753917A (zh) 数据处理方法、装置及存储介质
CN112307281A (zh) 一种实体推荐方法及装置
CN112541110A (zh) 一种信息推荐方法、装置和电子设备
CN111078884A (zh) 一种关键词提取方法、装置及介质
CN110674246A (zh) 问答模型训练方法、自动问答方法及装置
CN109918624B (zh) 一种网页文本相似度的计算方法和装置
CN110895558B (zh) 一种对话回复的方法及相关装置
CN112000766A (zh) 一种数据处理方法、装置和介质
CN107301188B (zh) 一种获取用户兴趣的方法及电子设备
CN115146633A (zh) 一种关键词识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant