CN112464656A - 关键词抽取方法、装置、电子设备和存储介质 - Google Patents
关键词抽取方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN112464656A CN112464656A CN202011379769.0A CN202011379769A CN112464656A CN 112464656 A CN112464656 A CN 112464656A CN 202011379769 A CN202011379769 A CN 202011379769A CN 112464656 A CN112464656 A CN 112464656A
- Authority
- CN
- China
- Prior art keywords
- keyword
- text
- sample
- participle
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 230
- 238000000034 method Methods 0.000 claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 42
- 230000011218 segmentation Effects 0.000 claims abstract description 29
- 230000006870 function Effects 0.000 claims description 78
- 238000002372 labelling Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 12
- 230000015654 memory Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种关键词抽取方法、装置、电子设备和存储介质,其中方法包括:确定待抽取文本;将所述待抽取文本输入至关键词抽取模型,得到所述关键词抽取模型输出的所述待抽取文本的关键词抽取结果;其中,所述关键词抽取模型是以样本文本中样本分词的主题关联度和预测关键词概率之间的一致性为目标训练得到的。本发明实施例提供的关键词抽取方法、装置、电子设备和存储介质,通过以样本文本中样本分词的主题关联度和预测关键词概率之间的一致性为目标训练得到关键词抽取模型,使得关键词抽取模型确定得到的关键词,更能体现待抽取文本的主题信息,区分性更强,从而提高了关键词抽取的准确性。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种关键词抽取方法、装置、电子设备和存储介质。
背景技术
关键词抽取方法能够从文档中抽取重要的关键词语,使读者可以迅速获知文档的核心内容,因此被广泛应用于信息检索、文本分类和文本聚类等领域。
目前的关键词抽取方法包括基于统计量化特征的抽取方法,以及基于主题模型的抽取方法。然而,基于统计量化特征的抽取方法会遗漏统计特征不明显的关键词,准确性欠佳;而基于主题模型的抽取方法得到的关键词过于宽泛,无法充分体现文档主题,因此抽取的关键词准确性也不足。
发明内容
本发明实施例提供一种关键词抽取方法、装置、电子设备和存储介质,用以解决现有技术中关键词抽取准确性欠佳的缺陷。
本发明实施例提供一种关键词抽取方法,包括:
确定待抽取文本;
将所述待抽取文本输入至关键词抽取模型,得到所述关键词抽取模型输出的所述待抽取文本的关键词抽取结果;
其中,所述关键词抽取模型是以样本文本中样本分词的主题关联度和预测关键词概率之间的一致性为目标训练得到的。
根据本发明一个实施例的关键词抽取方法,所述关键词抽取模型的损失函数包括主题关键词一致性损失函数;
所述主题关键词一致性损失函数是基于每一样本分词的主题关联度与预测关键词概率之间的距离确定得到的;
其中,任一样本分词的主题关联度和预测关键词概率均是基于所述任一样本分词的上下文语义表示确定的。
根据本发明一个实施例的关键词抽取方法,所述关键词抽取模型的损失函数还包括关键词预测损失函数,或,还包括关键词预测损失函数以及主题分类损失函数;
所述关键词预测损失函数表征所述样本文本的样本关键词抽取结果和样本关键词的差异度;
所述主题分类损失函数表征所述样本文本的预测主题类型和样本主题类型的差异度;
其中,所述预测主题类型是基于每一样本分词的主题关联度和上下文语义表示确定得到的。
根据本发明一个实施例的关键词抽取方法,所述样本关键词是基于如下步骤获取的:
遍历样本文本的标题中的每一标题分词,若当前标题分词与下一标题分词构成的词序列存在于所述样本文本的正文中,则将所述当前标题分词与下一标题分词构成的词序列作为当前标题分词;否则,将所述当前标题分词作为候选关键词,并将所述下一标题分词作为当前标题分词;
删除包含在其他候选关键词内的候选关键词,以及在所述样本文本的正文中出现次数小于预设数量的候选关键词,得到所述样本文本的样本关键词。
根据本发明一个实施例的关键词抽取方法,所述将所述待抽取文本输入至关键词抽取模型,得到所述关键词抽取模型输出的所述待抽取文本的关键词抽取结果,具体包括:
将所述待抽取文本中的每一分词输入至所述关键词抽取模型的上下文语义编码层,得到所述上下文语义编码层输出的每一分词的上下文语义表示;
将每一分词的上下文语义表示输入至所述关键词抽取模型的关键词预测层,得到所述关键词预测层输出的所述关键词抽取结果。
根据本发明一个实施例的关键词抽取方法,所述将每一分词的上下文语义表示输入至所述关键词抽取模型的关键词预测层,得到所述关键词预测层输出的所述关键词抽取结果,具体包括:
将每一分词的上下文语义表示输入至所述关键词预测层的注意力层,得到所述注意力层输出的每一分词的主题关联度;
将每一分词的上下文语义表示和主题关联度输入至所述关键词预测层的文档主题表示层,得到所述文档主题表示层输出的文档主题向量表示;
将所述文档主题向量表示和每一分词的上下文语义表示输入至所述关键词预测层的序列标注层,得到所述序列标注层输出的所述关键词抽取结果。
根据本发明一个实施例的关键词抽取方法,所述将所述待抽取文本输入至关键词抽取模型,得到所述关键词抽取模型输出的所述待抽取文本的关键词抽取结果,之后还包括:
基于所述关键词抽取结果,确定若干个关键词候选序列;
将每一关键词候选序列输入至关键词排列模型,得到所述关键词排列模型输出的每一关键词候选序列的语义连贯程度;
基于每一关键词候选序列的语义连贯程度,确定关键词序列;
其中,所述关键词排列模型是基于样本文本的样本关键词候选序列以及样本关键词序列训练得到的。
根据本发明一个实施例的关键词抽取方法,所述将每一关键词候选序列输入至关键词排列模型,得到所述关键词排列模型输出的每一关键词候选序列的语义连贯程度,具体包括:
将任一关键词候选序列中的每一关键词输入至所述关键词排列模型的序列编码层,得到所述序列编码层输出的所述任一关键词候选序列的序列编码向量;
将每一关键词候选序列的序列编码向量输入至所述关键词排列模型的序列关联层,得到所述序列关联层输出的每一关键词候选序列的序列关联编码;
将每一关键词候选序列的序列关联编码输入至所述关键词排列模型的语义连贯判定层,得到所述语义连贯判定层输出的每一关键词候选序列的语义连贯程度。
本发明实施例还提供一种关键词抽取装置,包括:
待抽取文本确定单元,用于确定待抽取文本;
关键词抽取单元,用于将所述待抽取文本输入至关键词抽取模型,得到所述关键词抽取模型输出的所述待抽取文本的关键词抽取结果;
其中,所述关键词抽取模型是以样本文本中样本分词的主题关联度和预测关键词概率之间的一致性为目标训练得到的。
本发明实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述关键词抽取方法的步骤。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述关键词抽取方法的步骤。
本发明实施例提供的关键词抽取方法、装置、电子设备和存储介质,通过以样本文本中样本分词的主题关联度和预测关键词概率之间的一致性为目标训练得到关键词抽取模型,使得关键词抽取模型确定得到的关键词,更能体现待抽取文本的主题信息,区分性更强,从而提高了关键词抽取的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的关键词抽取方法的流程示意图;
图2为本发明实施例提供的样本关键词获取方法的流程示意图;
图3为本发明实施例提供的关键词抽取模型运行方法的流程示意图;
图4为本发明实施例提供的关键词预测方法的流程示意图;
图5为本发明实施例提供的关键词排序方法的流程示意图;
图6为本发明实施例提供的关键词排列模型运行方法的流程示意图;
图7为本发明又一实施例提供的关键词抽取方法的流程示意图;
图8为本发明实施例提供的关键词抽取装置的结构示意图;
图9为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
关键词抽取方法被广泛应用于语音识别系统、信息检索系统中的后处理模块,用来压缩文本信息及信息检索。
目前的关键词抽取方法包括基于统计量化特征的抽取方法,以及基于主题模型的抽取方法。其中,基于统计量化特征的抽取方法主要基于文档中分词的分布特点及语言学特征,抽取相应的统计量化特征作为分词的重要性衡量依据,例如词性、词频、逆文档频率、词长、词位置、词跨度以及词的互信息等;基于主题模型的抽取方法通常以关键词与文档具有相同主题分布这一假设为出发点构建主题模型并确定关键词,例如基于隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)的抽取方法和基于概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)的抽取方法。
然而,基于统计量化特征的抽取方法会遗漏统计特征不明显的关键词,导致关键词抽取准确性欠佳,例如,虽然某些关键词的语义十分贴近文档的核心内容,但由于其在文档中没有频繁出现,导致统计特征不明显,从而被遗漏。而基于主题的方案往往提出的关键词过于宽泛,大多是普遍性的术语,不具有可区分性,因此也存在关键词抽取准确性不足的问题。
对此,本发明实施例提供了一种关键词抽取方法。图1为本发明实施例提供的关键词抽取方法的流程示意图,如图1所示,该方法包括:
步骤110,确定待抽取文本;
步骤120,将待抽取文本输入至关键词抽取模型,得到关键词抽取模型输出的待抽取文本的关键词抽取结果;
其中,关键词抽取模型是以样本文本中样本分词的主题关联度和预测关键词概率之间的一致性为目标训练得到的。
具体地,待抽取文本为需要进行关键词抽取的文档。此处,待抽取文本可以是用户直接输入或者通过网络采集的文本,还可以是对用户输入的语音数据进行语音识别后得到的文本,可以为通用领域的文本,也可以为根据应用需求定制的文本,本发明实施例对此不作具体限定。
关键词抽取模型用于分析待抽取文本中每一分词在待抽取文本中的重要性,从而确定待抽取文本的关键词抽取结果。此处,关键词抽取结果中可以包括确定得到的待抽取文本的若干个关键词,还可以包括待抽取文本中每一分词的预测关键词概率。任一分词的预测关键词概率为关键词抽取模型计算得到的该分词为待抽取文本关键词的可能性。
在基于关键词抽取模型对待抽取文本进行关键词抽取之前,可以首先利用预训练的分词模型或现有的分词工具对待抽取文本进行分词,得到待抽取文本的每一分词。为了提高关键词获取效率和准确性,还可以对分词结果进行停用词过滤,剔除“的”、“是”等无特殊意义的分词。
另外,在执行步骤120之前,可以收集大量的样本文本,并以样本文本中样本分词的主题关联度和预测关键词概率之间的一致性为目标训练初始模型,得到关键词抽取模型。此处,样本分词的主题关联度为该样本分词对其所属样本文本主题的贡献程度。样本分词的主题关联度越高,表明该样本分词所属样本文本的主题与该样本分词的语义越相关,该样本分词对样本文本主题的贡献程度越高。在关键词抽取模型的训练过程中,样本文本中样本分词的主题关联度和预测关键词概率会趋向一致,即任一样本分词的主题关联度越高,该样本分词的预测关键词概率也越高。需要说明的是,样本文本中可能存在大量噪声会影响模型训练,但将样本分词的主题关联度和预测关键词概率之间的一致性作为训练目标后,可以引入主题信息的先验知识,从而降低模型的训练难度。另外,在训练过程中,可以采用反向传播梯度更新关键词抽取模型的参数。
由此训练得到的关键词抽取模型在对待抽取文本进行关键词抽取时,若待抽取文本中的任一分词的主题关联度较高,那么在计算该分词的预测关键词概率时,相对于其他主题关联度较低的分词而言,该分词的预测关键词概率会更高,更有可能被作为关键词输出。因此,关键词抽取模型确定的关键词,是对待抽取文本主题贡献度更高的分词,因而更能体现待抽取文本的主题信息,区分性更强,能够提高关键词抽取的准确性。
本发明实施例提供的方法,通过以样本文本中样本分词的主题关联度和预测关键词概率之间的一致性为目标训练得到关键词抽取模型,使得关键词抽取模型确定得到的关键词,更能体现待抽取文本的主题信息,区分性更强,从而提高了关键词抽取的准确性。
基于上述实施例,关键词抽取模型的损失函数包括主题关键词一致性损失函数;
主题关键词一致性损失函数是基于每一样本分词的主题关联度与预测关键词概率之间的距离确定得到的;
其中,任一样本分词的主题关联度和预测关键词概率均是基于该样本分词的上下文语义表示确定的。
具体地,关键词抽取模型的损失函数包括主题关键词一致性损失函数。其中,主题关键词一致性损失函数是基于每一样本分词的主题关联度与预测关键词概率之间的距离确定得到的。在关键词抽取模型的训练过程中,主题关键词一致性损失函数使得样本文本中每一样本分词的主题关联度与预测关键词概率之间的距离逐渐减小,从而达到样本分词的主题关联度和预测关键词概率一致的训练目标。可选地,可以基于每一样本分词的主题关联度与预测关键词概率之间的KL距离(Kullback-Leibler Divergence),确定主题关键词一致性损失函数,例如,可以采用如下公式构建主题关键词一致性损失函数:
LKD=KLdiv(αi,βi)
其中,yi为样本文本中第i个样本分词的预测关键词概率,βi为该样本分词归一化后的预测关键词概率,αi为该样本分词的主题关联度,KLdiv为样本文本中每一样本分词的主题关联度与预测关键词概率之间的KL距离,LKD为主题关键词一致性损失函数。
此处,任一样本分词的主题关联度和预测关键词概率均是基于该样本分词的上下文语义表示确定的。其中,任一样本分词的上下文语义表示包含了该样本分词的语义信息,以及该样本分词的上下文中与该样本分词关联的语义信息。基于任一样本分词的上下文语义表示,确定该样本分词的主题关联度和预测关键词概率,可以充分利用该样本分词及其上下文的语义信息,以及该样本分词与上下文中其他分词的关联性,得以准确理解该样本分词在待抽取文本中的真实含义以及该样本分词在上下文中的重要程度,从而提高该样本分词的主题关联度和预测关键词概率的准确性,有助于进一步优化关键词抽取模型的关键词提取效果。此外,在关键词抽取模型的训练过程中,主题关键词一致性损失函数会指引模型自动调整确定上下文语义表示所需的模型参数,以减小每一样本分词的主题关联度与预测关键词概率之间的距离。因此,在实际进行关键词抽取时,基于待抽取文本中每一分词的上下文语义表示所确定得到的预测关键词概率,能准确反映各分词对于待抽取文本主题的贡献程度,据此确定的关键词也更能代表待抽取文本的主题。
本发明实施例提供的方法,基于任一样本分词的上下文语义表示确定该样本分词的主题关联度和预测关键词概率,并基于每一样本分词的主题关联度与预测关键词概率之间的距离确定主题关键词一致性损失函数,从而训练关键词抽取模型,提高了该样本分词的主题关联度和预测关键词概率的准确性,有助于进一步优化关键词抽取模型的关键词提取效果。
基于上述任一实施例,关键词抽取模型的损失函数还包括关键词预测损失函数,或,还包括关键词预测损失函数以及主题分类损失函数;
关键词预测损失函数表征样本文本的样本关键词抽取结果和样本关键词的差异度;
主题分类损失函数表征样本文本的预测主题类型和样本主题类型的差异度;
其中,预测主题类型是基于每一样本分词的主题关联度和上下文语义表示确定得到的。
具体地,为了提高关键词抽取模型的关键词提取准确性,本发明实施例采用多任务学习方式训练关键词抽取模型。其中,关键词抽取模型的损失函数除了包括主题关键词一致性损失函数以外,还包括关键词预测损失函数。此处,关键词预测损失函数表征样本文本的样本关键词抽取结果和样本关键词的差异度,可以在关键词抽取模型的训练过程中,使关键词抽取模型学习到有助于判别样本分词是否属于关键词的信息,从而提高关键词抽取的准确性。
此外,在以样本文本中样本分词的主题关联度和预测关键词概率之间的一致性为目标训练关键词抽取模型时,除了使主题关联度和预测关键词概率趋于一致之外,还需保证提取的主题关联度是准确的。若预测关键词概率与不准确的主题关联度趋于一致,则会导致预测关键词概率高的关键词所体现的主题信息并非样本文本的主题信息,从而导致关键词抽取模型的关键词抽取准确性降低。
因此,在主题关键词一致性损失函数和关键词预测损失函数之外,还可以设置主题分类损失函数,用于提高关键词抽取模型学习主题相关信息的能力。此处,主题分类损失函数表征样本文本的预测主题类型和样本主题类型的差异度,可以在关键词抽取模型的训练过程中,使关键词抽取模型学习到有助于正确判别样本文本主题类别的信息,提高主题分类的准确性。其中,样本主题类型可以基于样本文本,通过基于LDA的无监督方式训练主题模型,再利用训练好的主题模型获取每一样本文本的样本主题类型。此处,主题模型对应的主题类型数目可以依据实际应用场景进行设置,例如可以将主题类型数目设置为512。
并且,主题分类损失函数中的预测主题类型是基于每一样本分词的主题关联度和上下文语义表示确定得到的,因此在利用关键词预测损失函数、主题关键词一致性损失函数以及主题分类损失函数进行多任务联合训练时,可以在提高主题分类准确性的同时,提高每一样本分词的主题关联度的准确性以及上下文语义表示的语义表达能力,确保任一样本分词的主题关联度能够正确反映该样本分词与样本文本真实主题之间的关联。在此基础上,若样本分词的预测关键词概率和主题关联度一致,则预测关键词概率高的关键词能够体现样本文本真实的主题信息,从而提高了关键词抽取的准确性。此外,在关键词抽取模型的训练过程中,主题分类损失函数会指引模型自动调整确定上下文语义表示所需的模型参数,以使上下文语义表示中能够更多地携带真实的主题信息。又由于关键词抽取模型采用的是多任务联合训练方式,因此在主题分类训练任务中上下文语义表示携带的主题信息,能够进一步提高样本分词主题关联度和预测关键词概率的一致性,并提高关键词预测任务的准确性。因此,在实际进行关键词抽取时,确定得到的待抽取文本中每一分词的上下文语义表示中所携带的待抽取文本的真实主题信息,可以准确反映各分词对于待抽取文本真实主题的贡献程度,据此确定的关键词也更能代表待抽取文本的真实主题。
可选地,可以基于交叉熵损失等现有损失函数构建关键词预测损失函数和主题分类损失函数。当关键词抽取模型的损失函数包括主题关键词一致性损失函数、关键词预测损失函数以及主题分类损失函数时,可以为各个损失函数设置权重,以调整各个损失函数在训练过程中给关键词抽取模型带来的影响,例如,可以采用如下公式构建关键词抽取模型的损失函数L:
其中,LKD为主题关键词一致性损失函数,LK为关键词预测损失函数,LT为主题分类损失函数,和γ均为超参数,代表主题关键词一致性损失函数的权重,γ代表关键词预测损失函数的权重,1-γ代表主题分类损失函数的权重。
基于上述任一实施例,图2为本发明实施例提供的样本关键词获取方法的流程示意图,如图2所示,样本关键词是基于如下步骤获取的:
步骤210,遍历样本文本的标题中的每一标题分词,若当前标题分词与下一标题分词构成的词序列存在于样本文本的正文中,则将当前标题分词与下一标题分词构成的词序列作为当前标题分词;否则,将当前标题分词作为候选关键词,并将下一标题分词作为当前标题分词;
步骤220,删除包含在其他候选关键词内的候选关键词,以及仅在样本文本的正文中出现一次的候选关键词,得到样本文本的样本关键词。
具体地,考虑到标题中通常具有概括文本主题的重要信息,标题中的词语很大概率为文本的关键词,因此可以从样本文本的标题中自动获取关键词,以降低模型训练过程中的人工标注成本,从而能够获取大量的样本文本进行模型训练,优化关键词抽取模型的效果。具体而言,收集到大量样本文本后,首先获取样本文本的标题,并对标题进行分词。为了提高关键词获取效率和准确性,还可以对分词结果进行停用词过滤,剔除“的”、“是”等无特殊意义的分词。
此外,遍历样本文本的标题中的每一标题分词。由于样本关键词应当具有相对完整的语义信息,而词序列相对于分词具备更完整的语义信息,因而在筛选候选关键词时,可以选择存在于样本文本中且长度尽可能长的词序列。因此在遍历过程中,若当前标题分词与下一标题分词构成的词序列存在于样本文本的正文中,则将当前标题分词与下一标题分词构成的词序列作为当前标题分词,继续遍历,以尝试获取长度更长且存在于样本文本正文中的词序列。若当前标题分词与下一标题分词构成的词序列在样本文本正文中不存在,表明当前标题分词在正文中没有与下一标题分词一同出现,那么该词序列不可能为关键词,故将当前标题分词作为候选关键词,并将下一标题分词作为当前标题分词,继续遍历。重复上述过程,直至遍历完标题,得到该样本文本对应的候选关键词。
例如,对于标题“主题一致性关键词抽取方法”,假设当前标题分词为“主题”,当前标题分词与下一标题分词“一致性”构成的词序列为“主题一致性”,显然“主题一致性”的语义信息相对于“主题”而言更完整和具体,也更能体现样本文本所要表达的核心内容,因此,若“主题一致性”存在于样本文本的正文中,则将该词序列作为当前标题分词,继续尝试向后合并下一标题分词,以判断是否存在长度更长的词序列可以作为候选关键词。若词序列“主题一致性”没有出现在样本文本的正文中,则将“主题”作为候选关键词,再将下一标题分词“一致性”作为当前标题分词,继续向后遍历。
最后,为了避免重复,可以删除包含在其他候选关键词内的候选关键词。另外,考虑到部分样本文本的标题不恰当,使得部分标题分词在样本文本中出现次数较少。这些出现次数较少的标题分词并不能很好地反映样本文本的核心内容,因此可以删除在样本文本的正文中出现次数小于预设数量的候选关键词,将剩余的候选关键词作为该样本文本的样本关键词。
可选地,获得样本文本的样本关键词后,还可以对每个样本关键词进行标签标注,具体可以通过判断每一样本关键词中是否包含多个分词,将仅包含单个分词的样本关键词标注为单个关键词,将包含多个分词的样本关键词中的各个分词,按照顺序分别标注为关键词起始分词、关键词中间分词、关键词结尾分词。
本发明实施例提供的方法,通过遍历样本文本的标题中的每一标题分词,在当前标题分词与下一标题分词构成的词序列存在于样本文本的正文中时,将当前标题分词与下一标题分词构成的词序列作为当前标题分词,否则将当前标题分词作为候选关键词,并将下一标题分词作为当前标题分词,继续遍历,从而得到样本关键词,实现了样本关键词的自动获取,减少了模型训练的人工标注成本,同时还提高了样本关键词的语义完整性,有助于进一步提高关键词抽取的准确性。
基于上述任一实施例,图3为本发明实施例提供的关键词抽取模型运行方法的流程示意图,如图3所示,步骤120具体包括:
步骤121,将待抽取文本中的每一分词输入至关键词抽取模型的上下文语义编码层,得到上下文语义编码层输出的每一分词的上下文语义表示。
具体地,上下文语义编码层用于提取待抽取文本的中任一分词的语义信息,以及该样本分词的上下文中与该样本分词关联的语义信息,并编码得到该样本分词的上下文语义表示。其中,可以首先利用预训练的词向量提取模型,例如word2vec模型等,提取待抽取文本中每一分词的词向量,然后再基于每一分词的词向量,确定每一分词的上下文语义表示。为了获取尽可能丰富的上下文语义信息,可以基于长短时记忆网络(Long Short-TermMemory,LSTM)或者双向长短时记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)构建上下文语义编码层,本发明实施例对此不作具体限定。另外,为了进一步提高任一分词的上下文语义表示的语义表征能力,还可以堆叠多层LSTM或BiLSTM,以获取上下文中与该分词距离更远的其他分词的语义信息,解决可能存在的长距离依赖问题,从而提高关键词抽取的准确性。
步骤122,将每一分词的上下文语义表示输入至关键词抽取模型的关键词预测层,得到关键词预测层输出的关键词抽取结果。
具体地,关键词预测层用于基于每一分词的上下文语义表示,计算每一分词是待抽取文本的关键词的概率,从而确定待抽取文本的关键词抽取结果。可选地,可以基于序列标注模型构建关键词预测层,对每一分词进行序列标注,确定每一分词属于关键词起始分词、关键词中间分词、关键词结尾分词、单个关键词以及非关键词等类型的概率,从而得到待抽取文本的关键词抽取结果。其中,可以利用前馈层结合softmax函数确定每一分词属于上述各类别的概率。
基于上述任一实施例,图4为本发明实施例提供的关键词预测方法的流程示意图,如图4所示,步骤122具体包括:
步骤1221,将每一分词的上下文语义表示输入至关键词预测层的注意力层,得到注意力层输出的每一分词的主题关联度;
步骤1222,将每一分词的上下文语义表示和主题关联度输入至关键词预测层的文档主题表示层,得到文档主题表示层输出的文档主题向量表示;
步骤1223,将文档主题向量表示和每一分词的上下文语义表示输入至关键词预测层的序列标注层,得到序列标注层输出的关键词抽取结果。
具体地,为了使关键词抽取模型确定得到的关键词更能体现待抽取文本的主题信息,在确定待抽取文本的关键词抽取结果时,可以将待抽取文本中每一分词的上下文语义信息与待抽取文本的主题信息进行融合,再基于融合后的结果确定每一分词是否为待抽取文本的关键词或者关键词的一部分,以提高关键词抽取的准确性。
具体而言,可以将每一分词的上下文语义表示输入至关键词预测层的注意力层,注意力层基于注意力机制,计算任一分词在待抽取文本中的注意力权重。其中,注意力权重越大,表明该分词在待规整文本中越重要,其语义信息对待抽取文本的主题贡献也越大。因此,可将任一分词的注意力权重作为该分词的主题关联度。具体可以通过以下公式计算任一分词i的注意力权重:
其中,hi为分词i的上下文语义表示,ai为分词i的注意力权重,n为待抽取文本中的分词数量,W、b和μ是关键词抽取模型中可学习得到的参数,μ为注意力机制里的查询向量,W和b则为注意力机制里的权重矩阵和偏置。
然后将每一分词的上下文语义表示和主题关联度输入至关键词预测层的文档主题表示层,利用文档主题表示层确定待抽取文本的文档主题向量表示。其中,文档主题向量表示可以表征待抽取文本的主题信息。可选地,文档主题表示层可以采用加权求和的方式确定文档主题向量表示,例如,可采用如下公式计算文档主题向量表示:
T=∑iaihi
其中,ai和hi分别为第i个分词的主题关联度和上下文语义表示,T为文档主题向量表示。
随即,将文档主题向量表示和每一分词的上下文语义表示输入至关键词预测层的序列标注层,序列标注层将文档主题向量表示和每一分词的上下文语义表示进行融合,并依据融合结果确定关键词抽取结果。在融合文档主题向量表示和每一分词的上下文语义表示时,可以将文档主题向量表示分别与各个分词的上下文语义表示融合,得到各个分词分别对应的融合向量。其中,融合文档主题向量表示和任一分词的上下文语义表示时,可以采用拼接、求和等方式,本发明实施例对此不作具体限定。
需要说明的是,在计算主题分类损失函数对应的主题分类损失时,可以采用上述文档主题向量表示的确定方式,确定样本文本的文档主题向量表示,并基于样本文本的文档主题向量表示确定样本文本的预测主题类型。具体可以采用前馈层结合softmax函数,确定样本文本对应每一主题类型的概率,从而得到样本文本的预测主题类型。
本发明实施例提供的方法,基于每一分词的上下文语义表示,确定每一分词的主题关联度,并基于每一分词的上下文语义表示和主题关联度确定文档主题向量表示,再文档主题向量表示和每一分词的上下文语义表示,确定关键词抽取结果,提高了关键词抽取的准确性。
目前的关键词抽取方法在确定得到待抽取文本的关键词后,通常会基于抽取的关键词的重要性或者预测关键词概率由大至小进行关键词重排序,或者基于关键词在待抽取文本中的出现顺序进行重排序,又或者基于句法分析结果进行重排序。然而,按照关键词的重要性或者预测关键词概率进行排序的方式以及基于关键词在待抽取文本中的出现顺序进行排序的方式,确定得到的关键词顺序的可读性较差,而基于句法分析的重排序方法无法准确判断多个名词之间的顺序,而关键词通常均为名词,因此该方式也无法得到可读性强的关键词顺序。
对此,基于上述任一实施例,图5为本发明实施例提供的关键词排序方法的流程示意图,如图5所示,步骤120之后还包括:
步骤131,基于关键词抽取结果,确定若干个关键词候选序列;
步骤132,将每一关键词候选序列输入至关键词排列模型,得到关键词排列模型输出的每一关键词候选序列的语义连贯程度;
步骤133,基于每一关键词候选序列的语义连贯程度,确定关键词序列;
其中,关键词排列模型是基于样本文本的样本关键词候选序列以及样本关键词序列训练得到的。
具体地,将关键词抽取结果中包含的待抽取文本的关键词进行排列组合,得到若干个关键词候选序列。其中,每一关键词候选序列中均包含有待抽取文本的所有关键词。随即,将每一关键词候选序列输入至关键词排列模型。其中,关键词排列模型用于分析对比每一关键词候选序列的语义连贯性,并计算得到每一关键词候选序列的语义连贯程度。其中,语义连贯性是指关键词候选序列中各关键词的先后顺序是否符合人类的语言表达习惯和逻辑,且语意连贯程度越高表明关键词候选序列的逻辑越合理,可读性也就越强。例如,关键词候选序列{“租车”,“江北”,“二维码”,“公共自行车”}相比关键词候选序列{“江北”,“公共自行车”,“租车”,“二维码”},前者的语意连贯性更好,其语义连贯程度更高。因此,基于每一关键词候选序列的语义连贯程度,可以选择语意连贯程度最高的关键词候选序列作为关键词序列,以提高关键词序列的可读性。
在执行步骤132之前,还可以预先训练得到关键词排列模型,具体可以通过如下方式训练得到关键词排列模型:首先,收集大量样本文本,并确定样本文本的样本关键词。然后,将全部或部分样本关键词的顺序打乱,得到若干个样本关键词候选序列,并标注语意连贯程度最高的样本关键词候选序列作为样本关键词序列。此处,若样本关键词是基于样本文本的标题获取得到的,则可以基于样本关键词在标题中的顺序,确定样本关键词序列。随即,基于样本文本的样本关键词候选序列以及样本关键词序列训练初始模型,从而得到关键词排列模型。
本发明实施例提供的方法,通过关键词排列模型确定每一关键词候选序列的语义连贯程度,并基于每一关键词候选序列的语义连贯程度,确定关键词序列,提高了关键词序列的可读性。
基于上述任一实施例,图6为本发明实施例提供的关键词排列模型运行方法的流程示意图,如图6所示,步骤132具体包括:
步骤1321,将任一关键词候选序列中的每一关键词输入至关键词排列模型的序列编码层,得到序列编码层输出的该关键词候选序列的序列编码向量。
具体地,序列编码层用于基于任一关键词候选序列中的每一关键词,结合每一关键词的顺序信息,提取任一关键词候选序列中每一关键词的语义信息,以及每一关键词的上下文中与其相关联的语义信息,然后融合编码得到该关键词候选序列的序列编码向量。其中,任一关键词候选序列的序列编码向量可以表征该关键词候选序列整体所表达的语义信息。由于序列编码层需要关注任一关键词候选序列中每一关键词顺序以及上下文信息,以体现不同关键词顺序对应的语义信息的差别,因此可以采用循环神经网络(RecurrentNeural Network,RNN)、LSTM或者BiLSTM等模型获取每一关键词的语义信息以及上下文中与其关联的语义信息,再利用池化方式,例如均值池化或最大池化等方式,融合每一关键词的语义信息以及上下文中与其关联的语义信息,得到序列编码向量。
步骤1322,将每一关键词候选序列的序列编码向量输入至关键词排列模型的序列关联层,得到序列关联层输出的每一关键词候选序列的序列关联编码。
具体地,序列关联层用于基于每一关键词候选序列的序列编码向量,挖掘每一关键词候选序列的整体语义信息之间的关联性,并编码得到每一关键词候选序列的序列关联编码。其中,任一关键词候选序列的序列关联编码中包含有该关键词候选序列的整体语义信息以及与其相关联的其他关键词候选序列的整体语义信息。此处,可以基于RNN、LSTM或者BiLSTM等模型构建序列编码层。
步骤1323,将每一关键词候选序列的序列关联编码输入至关键词排列模型的语义连贯判定层,得到语义连贯判定层输出的每一关键词候选序列的语义连贯程度。
具体地,语义连贯判定层用于基于每一关键词候选序列的序列关联编码,对比分析任一关键词候选序列相对于其他关键词候选序列的语义连贯性,从而确定得到每一关键词候选序列的语义连贯程度。
需要说明的是,由于获取的待抽取文本的关键词数量较少,即使对所有关键词进行全排列,得到的关键词候选序列数量也较少,且每一关键词候选序列的长度也较短,因此对每一关键词候选序列进行语义分析、计算每一关键词候选序列的语义连贯程度的运算量也相对较低,因此能够在不影响关键词抽取整体效率的情况下,提高关键词序列的可读性。
基于上述任一实施例,图7为本发明又一实施例提供的关键词抽取方法的流程示意图,如图7所示,该方法包括:
将待抽取文本中的每一分词v1、v2、…、vn输入至关键词抽取模型的上下文语义编码层,得到上下文语义编码层输出的每一分词的上下文语义表示。其中,上下文语义编码层由多个BiLSTM层构成,图7中仅示例性地画出了两个BiLSTM层。随即,将每一分词的上下文语义表示h1、h2、…、hn输入至关键词抽取模型的注意力层,得到注意力层输出的每一分词的主题关联度α1、α2、…、αn。再将每一分词的上下文语义表示和主题关联度输入至关键词抽取模型的文档主题表示层,得到文档主题表示层输出的文档主题向量表示。然后,将文档主题向量表示和每一分词的上下文语义表示输入至关键词抽取模型的序列标注层,得到序列标注层输出的关键词抽取结果。
对关键词抽取结果中的关键词进行排列组合,得到若干个关键词候选序列Seq1、Seq2、…、Seqn。再将任一关键词候选序列中的每一关键词k1、k2、…、kn输入至关键词排列模型的序列编码层,得到序列编码层输出的该关键词候选序列的序列编码向量Si,从而得到每一关键词候选序列的序列编码向量S1、S2、…、Sn。其中,序列编码层基于BiLSTM层获取每一关键词的语义信息以及上下文中与其关联的语义信息,再利用最大池化方式,融合每一关键词的语义信息以及上下文中与其关联的语义信息,得到序列编码向量。
将每一关键词候选序列的序列编码向量S1、S2、…、Sn输入至关键词排列模型的序列关联层,得到序列关联层输出的每一关键词候选序列的序列关联编码R1、R2、…、Rn,然后将每一关键词候选序列的序列关联编码R1、R2、…、Rn输入至关键词排列模型的语义连贯判定层,得到语义连贯判定层输出的每一关键词候选序列的语义连贯程度p1、p2、…、pn。
最后,基于每一关键词候选序列的语义连贯程度p1、p2、…、pn,选择语意连贯程度最大的关键词候选序列作为关键词序列。
下面对本发明实施例提供的关键词抽取装置进行描述,下文描述的关键词抽取装置与上文描述的关键词抽取方法可相互对应参照。
基于所述任一实施例,图8为本发明实施例提供的关键词抽取装置的结构示意图,如图8所示,该装置包括待抽取文本确定单元810和关键词抽取单元820。
其中,待抽取文本确定单元810用于确定待抽取文本;
关键词抽取单元820用于将待抽取文本输入至关键词抽取模型,得到关键词抽取模型输出的待抽取文本的关键词抽取结果;
其中,关键词抽取模型是以样本文本中样本分词的主题关联度和预测关键词概率之间的一致性为目标训练得到的。
本发明实施例提供的装置,通过以样本文本中样本分词的主题关联度和预测关键词概率之间的一致性为目标训练得到关键词抽取模型,使得关键词抽取模型确定得到的关键词,更能体现待抽取文本的主题信息,区分性更强,从而提高了关键词抽取的准确性。
基于上述任一实施例,关键词抽取模型的损失函数包括主题关键词一致性损失函数;
主题关键词一致性损失函数是基于每一样本分词的主题关联度与预测关键词概率之间的距离确定得到的;
其中,任一样本分词的主题关联度和预测关键词概率均是基于该样本分词的上下文语义表示确定的。
本发明实施例提供的装置,基于任一样本分词的上下文语义表示确定该样本分词的主题关联度和预测关键词概率,并基于每一样本分词的主题关联度与预测关键词概率之间的距离确定主题关键词一致性损失函数,从而训练关键词抽取模型,提高了该样本分词的主题关联度和预测关键词概率的准确性,有助于进一步优化关键词抽取模型的关键词提取效果。
基于上述任一实施例,关键词抽取模型的损失函数还包括关键词预测损失函数,或,还包括关键词预测损失函数以及主题分类损失函数;
关键词预测损失函数表征样本文本的样本关键词抽取结果和样本关键词的差异度;
主题分类损失函数表征样本文本的预测主题类型和样本主题类型的差异度;
其中,预测主题类型是基于每一样本分词的主题关联度和上下文语义表示确定得到的。
基于上述任一实施例,该装置还包括样本关键词获取单元,样本关键词获取单元用于:
遍历样本文本的标题中的每一标题分词,若当前标题分词与下一标题分词构成的词序列存在于样本文本的正文中,则将当前标题分词与下一标题分词构成的词序列作为当前标题分词;否则,将当前标题分词作为候选关键词,并将下一标题分词作为当前标题分词;
删除包含在其他候选关键词内的候选关键词,以及仅在样本文本的正文中出现一次的候选关键词,得到样本文本的样本关键词。
本发明实施例提供的装置,通过遍历样本文本的标题中的每一标题分词,在当前标题分词与下一标题分词构成的词序列存在于样本文本的正文中时,将当前标题分词与下一标题分词构成的词序列作为当前标题分词,否则将当前标题分词作为候选关键词,并将下一标题分词作为当前标题分词,继续遍历,从而得到样本关键词,实现了样本关键词的自动获取,减少了模型训练的人工标注成本,同时还提高了样本关键词的语义完整性,有助于进一步提高关键词抽取的准确性。
基于上述任一实施例,关键词抽取单元820具体包括:
上下文语义编码单元,用于将待抽取文本中的每一分词输入至关键词抽取模型的上下文语义编码层,得到上下文语义编码层输出的每一分词的上下文语义表示;
关键词预测单元,用于将每一分词的上下文语义表示输入至关键词抽取模型的关键词预测层,得到关键词预测层输出的关键词抽取结果。
基于上述任一实施例,关键词预测单元具体包括:
注意力单元,用于将每一分词的上下文语义表示输入至关键词预测层的注意力层,得到注意力层输出的每一分词的主题关联度;
文档主题表示单元,用于将每一分词的上下文语义表示和主题关联度输入至关键词预测层的文档主题表示层,得到文档主题表示层输出的文档主题向量表示;
序列标注单元,用于将文档主题向量表示和每一分词的上下文语义表示输入至关键词预测层的序列标注层,得到序列标注层输出的关键词抽取结果。
本发明实施例提供的装置,基于每一分词的上下文语义表示,确定每一分词的主题关联度,并基于每一分词的上下文语义表示和主题关联度确定文档主题向量表示,再文档主题向量表示和每一分词的上下文语义表示,确定关键词抽取结果,提高了关键词抽取的准确性。
基于上述任一实施例,该装置还包括关键词排序单元,关键词排序单元具体包括:
关键词候选序列确定单元,用于基于关键词抽取结果,确定若干个关键词候选序列;
语义连贯程度确定单元,用于将每一关键词候选序列输入至关键词排列模型,得到关键词排列模型输出的每一关键词候选序列的语义连贯程度;
关键词序列确定单元,用于基于每一关键词候选序列的语义连贯程度,确定关键词序列;
其中,关键词排列模型是基于样本文本的样本关键词候选序列以及样本关键词序列训练得到的。
本发明实施例提供的装置,通过关键词排列模型确定每一关键词候选序列的语义连贯程度,并基于每一关键词候选序列的语义连贯程度,确定关键词序列,提高了关键词序列的可读性。
基于上述任一实施例,语义连贯程度确定单元具体用于:
将任一关键词候选序列中的每一关键词输入至关键词排列模型的序列编码层,得到序列编码层输出的该关键词候选序列的序列编码向量;
将每一关键词候选序列的序列编码向量输入至关键词排列模型的序列关联层,得到序列关联层输出的每一关键词候选序列的序列关联编码;
将每一关键词候选序列的序列关联编码输入至关键词排列模型的语义连贯判定层,得到语义连贯判定层输出的每一关键词候选序列的语义连贯程度。
图9示例了一种电子设备的实体结构示意图,如图9所示,该电子设备可以包括:处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940,其中,处理器910,通信接口920,存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令,以执行关键词抽取方法,该方法包括:确定待抽取文本;将所述待抽取文本输入至关键词抽取模型,得到所述关键词抽取模型输出的所述待抽取文本的关键词抽取结果;其中,所述关键词抽取模型是以样本文本中样本分词的主题关联度和预测关键词概率之间的一致性为目标训练得到的。
此外,上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的关键词抽取方法,该方法包括:确定待抽取文本;将所述待抽取文本输入至关键词抽取模型,得到所述关键词抽取模型输出的所述待抽取文本的关键词抽取结果;其中,所述关键词抽取模型是以样本文本中样本分词的主题关联度和预测关键词概率之间的一致性为目标训练得到的。
又一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的关键词抽取方法,该方法包括:确定待抽取文本;将所述待抽取文本输入至关键词抽取模型,得到所述关键词抽取模型输出的所述待抽取文本的关键词抽取结果;其中,所述关键词抽取模型是以样本文本中样本分词的主题关联度和预测关键词概率之间的一致性为目标训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (11)
1.一种关键词抽取方法,其特征在于,包括:
确定待抽取文本;
将所述待抽取文本输入至关键词抽取模型,得到所述关键词抽取模型输出的所述待抽取文本的关键词抽取结果;
其中,所述关键词抽取模型是以样本文本中样本分词的主题关联度和预测关键词概率之间的一致性为目标训练得到的。
2.根据权利要求1所述的关键词抽取方法,其特征在于,所述关键词抽取模型的损失函数包括主题关键词一致性损失函数;
所述主题关键词一致性损失函数是基于每一样本分词的主题关联度与预测关键词概率之间的距离确定得到的;
其中,任一样本分词的主题关联度和预测关键词概率均是基于所述任一样本分词的上下文语义表示确定的。
3.根据权利要求2所述的关键词抽取方法,其特征在于,所述关键词抽取模型的损失函数还包括关键词预测损失函数,或,还包括关键词预测损失函数以及主题分类损失函数;
所述关键词预测损失函数表征所述样本文本的样本关键词抽取结果和样本关键词的差异度;
所述主题分类损失函数表征所述样本文本的预测主题类型和样本主题类型的差异度;
其中,所述预测主题类型是基于每一样本分词的主题关联度和上下文语义表示确定得到的。
4.根据权利要求3所述的关键词抽取方法,其特征在于,所述样本关键词是基于如下步骤获取的:
遍历样本文本的标题中的每一标题分词,若当前标题分词与下一标题分词构成的词序列存在于所述样本文本的正文中,则将所述当前标题分词与下一标题分词构成的词序列作为当前标题分词;否则,将所述当前标题分词作为候选关键词,并将所述下一标题分词作为当前标题分词;
删除包含在其他候选关键词内的候选关键词,以及在所述样本文本的正文中出现次数小于预设数量的候选关键词,得到所述样本文本的样本关键词。
5.根据权利要求1至4任一项所述的关键词抽取方法,其特征在于,所述将所述待抽取文本输入至关键词抽取模型,得到所述关键词抽取模型输出的所述待抽取文本的关键词抽取结果,具体包括:
将所述待抽取文本中的每一分词输入至所述关键词抽取模型的上下文语义编码层,得到所述上下文语义编码层输出的每一分词的上下文语义表示;
将每一分词的上下文语义表示输入至所述关键词抽取模型的关键词预测层,得到所述关键词预测层输出的所述关键词抽取结果。
6.根据权利要求5所述的关键词抽取方法,其特征在于,所述将每一分词的上下文语义表示输入至所述关键词抽取模型的关键词预测层,得到所述关键词预测层输出的所述关键词抽取结果,具体包括:
将每一分词的上下文语义表示输入至所述关键词预测层的注意力层,得到所述注意力层输出的每一分词的主题关联度;
将每一分词的上下文语义表示和主题关联度输入至所述关键词预测层的文档主题表示层,得到所述文档主题表示层输出的文档主题向量表示;
将所述文档主题向量表示和每一分词的上下文语义表示输入至所述关键词预测层的序列标注层,得到所述序列标注层输出的所述关键词抽取结果。
7.根据权利要求1至4任一项所述的关键词抽取方法,其特征在于,所述将所述待抽取文本输入至关键词抽取模型,得到所述关键词抽取模型输出的所述待抽取文本的关键词抽取结果,之后还包括:
基于所述关键词抽取结果,确定若干个关键词候选序列;
将每一关键词候选序列输入至关键词排列模型,得到所述关键词排列模型输出的每一关键词候选序列的语义连贯程度;
基于每一关键词候选序列的语义连贯程度,确定关键词序列;
其中,所述关键词排列模型是基于样本文本的样本关键词候选序列以及样本关键词序列训练得到的。
8.根据权利要求7所述的关键词抽取方法,其特征在于,所述将每一关键词候选序列输入至关键词排列模型,得到所述关键词排列模型输出的每一关键词候选序列的语义连贯程度,具体包括:
将任一关键词候选序列中的每一关键词输入至所述关键词排列模型的序列编码层,得到所述序列编码层输出的所述任一关键词候选序列的序列编码向量;
将每一关键词候选序列的序列编码向量输入至所述关键词排列模型的序列关联层,得到所述序列关联层输出的每一关键词候选序列的序列关联编码;
将每一关键词候选序列的序列关联编码输入至所述关键词排列模型的语义连贯判定层,得到所述语义连贯判定层输出的每一关键词候选序列的语义连贯程度。
9.一种关键词抽取装置,其特征在于,包括:
待抽取文本确定单元,用于确定待抽取文本;
关键词抽取单元,用于将所述待抽取文本输入至关键词抽取模型,得到所述关键词抽取模型输出的所述待抽取文本的关键词抽取结果;
其中,所述关键词抽取模型是以样本文本中样本分词的主题关联度和预测关键词概率之间的一致性为目标训练得到的。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述关键词抽取方法的步骤。
11.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至8任一项所述关键词抽取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011379769.0A CN112464656B (zh) | 2020-11-30 | 2020-11-30 | 关键词抽取方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011379769.0A CN112464656B (zh) | 2020-11-30 | 2020-11-30 | 关键词抽取方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112464656A true CN112464656A (zh) | 2021-03-09 |
CN112464656B CN112464656B (zh) | 2024-02-13 |
Family
ID=74805918
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011379769.0A Active CN112464656B (zh) | 2020-11-30 | 2020-11-30 | 关键词抽取方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112464656B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113032552A (zh) * | 2021-05-25 | 2021-06-25 | 南京鸿程信息科技有限公司 | 一种基于文本摘要的政策要点抽取方法与提取系统 |
CN113157889A (zh) * | 2021-04-21 | 2021-07-23 | 韶鼎人工智能科技有限公司 | 一种基于主题损失的视觉问答模型构建方法 |
CN113270092A (zh) * | 2021-05-11 | 2021-08-17 | 云南电网有限责任公司 | 一种基于lda算法的调度语音关键词提取方法 |
CN113722436A (zh) * | 2021-08-30 | 2021-11-30 | 平安科技(深圳)有限公司 | 文本信息提取方法、装置、计算机设备及存储介质 |
CN113723051A (zh) * | 2021-08-26 | 2021-11-30 | 泰康保险集团股份有限公司 | 一种文本标注方法、装置、电子设备及存储介质 |
CN114003706A (zh) * | 2021-07-13 | 2022-02-01 | 北京金山数字娱乐科技有限公司 | 关键词组合生成模型训练方法及装置 |
CN114492669A (zh) * | 2022-02-16 | 2022-05-13 | 平安科技(深圳)有限公司 | 关键词推荐模型训练方法、推荐方法和装置、设备、介质 |
CN114936565A (zh) * | 2022-07-06 | 2022-08-23 | 北京金山数字娱乐科技有限公司 | 主旨信息提取方法及装置 |
CN115546814A (zh) * | 2022-10-08 | 2022-12-30 | 招商局通商融资租赁有限公司 | 关键合同字段抽取方法、装置、电子设备及存储介质 |
CN116361422A (zh) * | 2023-06-02 | 2023-06-30 | 深圳得理科技有限公司 | 关键词提取方法、文本检索方法及相关设备 |
Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160188702A1 (en) * | 2014-12-30 | 2016-06-30 | Facebook, Inc. | Suggested Queries for Locating Posts on Online Social Networks |
CN106156204A (zh) * | 2015-04-23 | 2016-11-23 | 深圳市腾讯计算机系统有限公司 | 文本标签的提取方法和装置 |
US20170316086A1 (en) * | 2014-09-09 | 2017-11-02 | Beijing Sogou Technology Development Co., Ltd. | Input method, device, and electronic apparatus |
CN108376131A (zh) * | 2018-03-14 | 2018-08-07 | 中山大学 | 基于seq2seq深度神经网络模型的关键词抽取方法 |
CN108959387A (zh) * | 2018-05-31 | 2018-12-07 | 科大讯飞股份有限公司 | 信息获取方法及装置 |
CN109190111A (zh) * | 2018-08-07 | 2019-01-11 | 北京奇艺世纪科技有限公司 | 一种文档正文关键词提取方法及装置 |
WO2019076191A1 (zh) * | 2017-10-20 | 2019-04-25 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置、存储介质及电子装置 |
CN109766544A (zh) * | 2018-12-24 | 2019-05-17 | 中国科学院合肥物质科学研究院 | 基于lda和词向量的文档关键词抽取方法和装置 |
US20190163690A1 (en) * | 2016-11-10 | 2019-05-30 | Tencent Technology (Shenzhen) Company Limited | Keyword extraction method, apparatus and server |
CN109918510A (zh) * | 2019-03-26 | 2019-06-21 | 中国科学技术大学 | 跨领域关键词提取方法 |
CN109933804A (zh) * | 2019-03-27 | 2019-06-25 | 北京信息科技大学 | 融合主题信息与双向lstm的关键词抽取方法 |
CN110263323A (zh) * | 2019-05-08 | 2019-09-20 | 清华大学 | 基于栅栏式长短时记忆神经网络的关键词抽取方法及系统 |
CN111160017A (zh) * | 2019-12-12 | 2020-05-15 | 北京文思海辉金信软件有限公司 | 关键词抽取方法、话术评分方法以及话术推荐方法 |
WO2020131004A1 (en) * | 2017-12-29 | 2020-06-25 | Nokia Technologies Oy | Domain-independent automated processing of free-form text |
CN111666752A (zh) * | 2020-04-20 | 2020-09-15 | 中山大学 | 一种基于关键词注意力机制的电路教材实体关系抽取方法 |
CN111680509A (zh) * | 2020-06-10 | 2020-09-18 | 四川九洲电器集团有限责任公司 | 基于共现语言网络的文本关键词自动抽取方法和装置 |
CN111767713A (zh) * | 2020-05-09 | 2020-10-13 | 北京奇艺世纪科技有限公司 | 关键词的提取方法、装置、电子设备及存储介质 |
CN111832248A (zh) * | 2020-07-27 | 2020-10-27 | 科大讯飞股份有限公司 | 文本规整方法、装置、电子设备和存储介质 |
CN111859961A (zh) * | 2020-07-29 | 2020-10-30 | 华中师范大学 | 一种基于改进TopicRank算法的文本关键词抽取方法 |
CN111881334A (zh) * | 2020-07-15 | 2020-11-03 | 浙江大胜达包装股份有限公司 | 一种基于半监督学习的关键词到企业的检索方法 |
-
2020
- 2020-11-30 CN CN202011379769.0A patent/CN112464656B/zh active Active
Patent Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170316086A1 (en) * | 2014-09-09 | 2017-11-02 | Beijing Sogou Technology Development Co., Ltd. | Input method, device, and electronic apparatus |
US20160188702A1 (en) * | 2014-12-30 | 2016-06-30 | Facebook, Inc. | Suggested Queries for Locating Posts on Online Social Networks |
CN106156204A (zh) * | 2015-04-23 | 2016-11-23 | 深圳市腾讯计算机系统有限公司 | 文本标签的提取方法和装置 |
US20190163690A1 (en) * | 2016-11-10 | 2019-05-30 | Tencent Technology (Shenzhen) Company Limited | Keyword extraction method, apparatus and server |
WO2019076191A1 (zh) * | 2017-10-20 | 2019-04-25 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置、存储介质及电子装置 |
WO2020131004A1 (en) * | 2017-12-29 | 2020-06-25 | Nokia Technologies Oy | Domain-independent automated processing of free-form text |
CN108376131A (zh) * | 2018-03-14 | 2018-08-07 | 中山大学 | 基于seq2seq深度神经网络模型的关键词抽取方法 |
CN108959387A (zh) * | 2018-05-31 | 2018-12-07 | 科大讯飞股份有限公司 | 信息获取方法及装置 |
CN109190111A (zh) * | 2018-08-07 | 2019-01-11 | 北京奇艺世纪科技有限公司 | 一种文档正文关键词提取方法及装置 |
CN109766544A (zh) * | 2018-12-24 | 2019-05-17 | 中国科学院合肥物质科学研究院 | 基于lda和词向量的文档关键词抽取方法和装置 |
CN109918510A (zh) * | 2019-03-26 | 2019-06-21 | 中国科学技术大学 | 跨领域关键词提取方法 |
CN109933804A (zh) * | 2019-03-27 | 2019-06-25 | 北京信息科技大学 | 融合主题信息与双向lstm的关键词抽取方法 |
CN110263323A (zh) * | 2019-05-08 | 2019-09-20 | 清华大学 | 基于栅栏式长短时记忆神经网络的关键词抽取方法及系统 |
CN111160017A (zh) * | 2019-12-12 | 2020-05-15 | 北京文思海辉金信软件有限公司 | 关键词抽取方法、话术评分方法以及话术推荐方法 |
CN111666752A (zh) * | 2020-04-20 | 2020-09-15 | 中山大学 | 一种基于关键词注意力机制的电路教材实体关系抽取方法 |
CN111767713A (zh) * | 2020-05-09 | 2020-10-13 | 北京奇艺世纪科技有限公司 | 关键词的提取方法、装置、电子设备及存储介质 |
CN111680509A (zh) * | 2020-06-10 | 2020-09-18 | 四川九洲电器集团有限责任公司 | 基于共现语言网络的文本关键词自动抽取方法和装置 |
CN111881334A (zh) * | 2020-07-15 | 2020-11-03 | 浙江大胜达包装股份有限公司 | 一种基于半监督学习的关键词到企业的检索方法 |
CN111832248A (zh) * | 2020-07-27 | 2020-10-27 | 科大讯飞股份有限公司 | 文本规整方法、装置、电子设备和存储介质 |
CN111859961A (zh) * | 2020-07-29 | 2020-10-30 | 华中师范大学 | 一种基于改进TopicRank算法的文本关键词抽取方法 |
Non-Patent Citations (4)
Title |
---|
LI YAN 等: "Prior Knowledge Integrated with Self-attention for Event Detection", 《INFORMATION RETRIEVAL, CCIR 2018》 * |
刘啸剑;谢飞;: "结合主题分布与统计特征的关键词抽取方法", 计算机工程, no. 07 * |
宁珊 等: "融合LSTM和LDA差异的新闻文本关键词抽取方法", 《计算机工程与科学》, no. 01 * |
杨丹浩;吴岳辛;范春晓;: "一种基于注意力机制的中文短文本关键词提取模型", 计算机科学, no. 01 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113157889A (zh) * | 2021-04-21 | 2021-07-23 | 韶鼎人工智能科技有限公司 | 一种基于主题损失的视觉问答模型构建方法 |
CN113270092A (zh) * | 2021-05-11 | 2021-08-17 | 云南电网有限责任公司 | 一种基于lda算法的调度语音关键词提取方法 |
CN113032552A (zh) * | 2021-05-25 | 2021-06-25 | 南京鸿程信息科技有限公司 | 一种基于文本摘要的政策要点抽取方法与提取系统 |
CN114003706A (zh) * | 2021-07-13 | 2022-02-01 | 北京金山数字娱乐科技有限公司 | 关键词组合生成模型训练方法及装置 |
CN113723051B (zh) * | 2021-08-26 | 2023-09-15 | 泰康保险集团股份有限公司 | 一种文本标注方法、装置、电子设备及存储介质 |
CN113723051A (zh) * | 2021-08-26 | 2021-11-30 | 泰康保险集团股份有限公司 | 一种文本标注方法、装置、电子设备及存储介质 |
CN113722436A (zh) * | 2021-08-30 | 2021-11-30 | 平安科技(深圳)有限公司 | 文本信息提取方法、装置、计算机设备及存储介质 |
CN114492669A (zh) * | 2022-02-16 | 2022-05-13 | 平安科技(深圳)有限公司 | 关键词推荐模型训练方法、推荐方法和装置、设备、介质 |
WO2023155304A1 (zh) * | 2022-02-16 | 2023-08-24 | 平安科技(深圳)有限公司 | 关键词推荐模型训练方法、推荐方法和装置、设备、介质 |
CN114492669B (zh) * | 2022-02-16 | 2024-06-28 | 平安科技(深圳)有限公司 | 关键词推荐模型训练方法、推荐方法和装置、设备、介质 |
CN114936565A (zh) * | 2022-07-06 | 2022-08-23 | 北京金山数字娱乐科技有限公司 | 主旨信息提取方法及装置 |
CN115546814A (zh) * | 2022-10-08 | 2022-12-30 | 招商局通商融资租赁有限公司 | 关键合同字段抽取方法、装置、电子设备及存储介质 |
CN116361422A (zh) * | 2023-06-02 | 2023-06-30 | 深圳得理科技有限公司 | 关键词提取方法、文本检索方法及相关设备 |
CN116361422B (zh) * | 2023-06-02 | 2023-09-19 | 深圳得理科技有限公司 | 关键词提取方法、文本检索方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112464656B (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112464656B (zh) | 关键词抽取方法、装置、电子设备和存储介质 | |
CN110348016B (zh) | 基于句子关联注意力机制的文本摘要生成方法 | |
CN113011533B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN110119765B (zh) | 一种基于Seq2seq框架的关键词提取方法 | |
CN111783474B (zh) | 一种评论文本观点信息处理方法、装置及存储介质 | |
WO2019153737A1 (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN111651996B (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN111966826A (zh) | 一种构建文本分类系统的方法、系统、介质及电子设备 | |
CN110750635A (zh) | 一种基于联合深度学习模型的法条推荐方法 | |
CN113282711B (zh) | 一种车联网文本匹配方法、装置、电子设备及存储介质 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN116304020A (zh) | 一种基于义原分析和跨度特征的工业文本实体抽取方法 | |
CN114676346A (zh) | 新闻事件处理方法、装置、计算机设备和存储介质 | |
CN113051886B (zh) | 一种试题查重方法、装置、存储介质及设备 | |
CN117828024A (zh) | 一种插件检索方法、装置、存储介质及设备 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN116629238A (zh) | 文本增强质量评估方法、电子设备、存储介质 | |
CN116187317A (zh) | 文本生成方法、装置、设备及计算机可读介质 | |
CN115269846A (zh) | 文本处理方法、装置、电子设备及存储介质 | |
CN117151089A (zh) | 新词发现方法、装置、设备和介质 | |
KR102357023B1 (ko) | 대화 분절 문장의 복원을 위한 장치 및 방법 | |
CN114254622A (zh) | 一种意图识别方法和装置 | |
CN113688633A (zh) | 一种提纲确定方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230508 Address after: 230026 No. 96, Jinzhai Road, Hefei, Anhui Applicant after: University of Science and Technology of China Applicant after: IFLYTEK Co.,Ltd. Address before: 230088 666 Wangjiang West Road, Hefei hi tech Development Zone, Anhui Applicant before: IFLYTEK Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |