CN111209468B - 一种用于生成关键词的方法与设备 - Google Patents
一种用于生成关键词的方法与设备 Download PDFInfo
- Publication number
- CN111209468B CN111209468B CN202010006961.9A CN202010006961A CN111209468B CN 111209468 B CN111209468 B CN 111209468B CN 202010006961 A CN202010006961 A CN 202010006961A CN 111209468 B CN111209468 B CN 111209468B
- Authority
- CN
- China
- Prior art keywords
- vector
- text
- decoder
- probability distribution
- hidden vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 239000013598 vector Substances 0.000 claims abstract description 297
- 230000015654 memory Effects 0.000 claims abstract description 84
- 238000000605 extraction Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 9
- 230000008034 disappearance Effects 0.000 abstract description 3
- 238000004880 explosion Methods 0.000 abstract description 3
- 238000013528 artificial neural network Methods 0.000 description 25
- 230000008569 process Effects 0.000 description 16
- 230000007246 mechanism Effects 0.000 description 13
- 230000010076 replication Effects 0.000 description 13
- 230000006870 function Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 125000004122 cyclic group Chemical group 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000005291 magnetic effect Effects 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000005294 ferromagnetic effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请的目的是提供一种用于生成关键词的方法与设备。生成设备获取输入文本的单词嵌入向量以及整体文本向量;将所述单词嵌入向量输入编码器,并经由所述编码器编码,以获得与所述单词嵌入向量相对应的编码隐向量;将所述整体文本向量输入记忆力网络中,以获取与所述整体文本向量以及所述记忆力网络中所包含的相关文档相对应的输出隐向量;将所述编码隐向量以及所述输出隐向量输入到解码器中,并经由所述解码器解码,以获取与所述输入文本相对应的词表概率分布。本申请同时解决了OOV的问题和生成未出现词的问题,也解决了传统的RNN的模型梯度消失和梯度爆炸等问题,可以准确地为任何输入文档生成高度相关并且全面的关键词。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种用于生成关键词的技术。
背景技术
关键词是对一段文本的关键信息的总结,也是对整个文本重要信息的高度浓缩和概括。关键词对于自然语言处理领域的很多任务都有帮助,比如文本摘要、文本分类、意见挖掘等,因此关键词生成也是自然语言处理领域的基础任务。根据生成的关键词是否在当前输入文本中出现,分为未出现关键词(Absent Keyphrase)和出现关键词(PresentKeyphrase)两种,因此,关键词的生成效率、生成准确性以及覆盖范围的广泛性,则是衡量关键词生成任务的重要参考指标。
发明内容
本申请的目的是提供一种用于生成关键词的方法与设备。
根据本申请的一个实施例,提供了一种用于生成关键词的方法,其中,该方法包括以下步骤:
获取输入文本的单词嵌入向量以及整体文本向量;
将所述单词嵌入向量输入编码器,并经由所述编码器编码,以获得与所述单词嵌入向量相对应的编码隐向量;
将所述整体文本向量输入记忆力网络中,以获取与所述整体文本向量以及所述记忆力网络中所包含的相关文档相对应的输出隐向量;
将所述编码隐向量以及所述输出隐向量输入到解码器中,并经由所述解码器解码,以获取与所述输入文本相对应的词表概率分布。
根据本申请的另一个实施例,提供了一种用于生成关键词的生成设备,其中,所述生成设备包括:
用于获取输入文本的单词嵌入向量以及整体文本向量的装置;
用于将所述单词嵌入向量输入编码器,并经由所述编码器编码,以获得与所述单词嵌入向量相对应的编码隐向量的装置;
用于将所述整体文本向量输入记忆力网络中,以获取与所述整体文本向量以及所述记忆力网络中所包含的相关文档相对应的输出隐向量的装置;
用于将所述编码隐向量以及所述输出隐向量输入到解码器中,并经由所述解码器解码,以获取与所述输入文本相对应的词表概率分布的装置。
根据本申请的另一个实施例,提供了一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个计算机程序;
当所述一个或多个计算机程序被所述一个或多个处理器执行时,使得所述一个或多个处理器用于执行以下操作:
获取输入文本的单词嵌入向量以及整体文本向量;
将所述单词嵌入向量输入编码器,并经由所述编码器编码,以获得与所述单词嵌入向量相对应的编码隐向量;
将所述整体文本向量输入记忆力网络中,以获取与所述整体文本向量以及所述记忆力网络中所包含的相关文档相对应的输出隐向量;
将所述编码隐向量以及所述输出隐向量输入到解码器中,并经由所述解码器解码,以获取与所述输入文本相对应的词表概率分布。
根据本申请的另一个实施例,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序可被处理器用于执行以下操作:
获取输入文本的单词嵌入向量以及整体文本向量;
将所述单词嵌入向量输入编码器,并经由所述编码器编码,以获得与所述单词嵌入向量相对应的编码隐向量;
将所述整体文本向量输入记忆力网络中,以获取与所述整体文本向量以及所述记忆力网络中所包含的相关文档相对应的输出隐向量;
将所述编码隐向量以及所述输出隐向量输入到解码器中,并经由所述解码器解码,以获取与所述输入文本相对应的词表概率分布。
与现有技术相比,本申请将记忆力网络引入到编解码器架构中,利用记忆力网络单独对输入文本进行处理,以生成关键词,从而具有如下优点:
1.能够从外部知识库中检索相似文档并利用高度相关的内容,提高预测未出现词的能力;
2.记忆力机制提供了领域迁移的能力,基于庞大的外部知识库,模型可以轻松地迁移到特定领域,如医疗和金融;
3.记忆力网络还能够兼容各种外部知识库,具有高度灵活性,可以根据用户的需求进行添加。
此外,本申请还采用了复制机制,以从输入文本中显式复制重要单词加入到输出的预测内容中,辅助模型提高预测单词的准确率;利用生成概率,决定每个词复制概率和词表概率的权重,可以有机地融合两种概率所提供的信息,解决了OOV(未登录词,Out-of-Vocabulary)的问题。
此外,本申请的所述编码器和/或所述解码器采用Transformer架构,也即利用了Transformer的模型架构进行序列到序列的生成,具有更强大的并行计算和长期记忆能力,解决了传统的基于RNN的模型梯度消失和梯度爆炸的问题,提高了生成过程的效率。
综上所述,本申请同时解决了OOV的问题和生成未出现词的问题,也解决了传统的RNN的模型梯度消失和梯度爆炸等问题,可以准确地为任何输入文档生成高度相关并且全面的关键词。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出根据本申请一个实施例的一种用于生成关键词的方法流程图;
图2示出根据本申请另一个实施例的一种用于生成关键词的方法流程图;
图3示出根据本申请一个实施例的一种用于生成关键词的生成设备示意图;
图4示出根据本申请另一个实施例的一种用于生成关键词的生成设备示意图;
图5示出根据本申请一个实施例的一种用于生成关键词的架构图;
图6示出了可被用于实施本申请中所述的各个实施例的示例性系统。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
生成关键词的方法分为两类:一类是抽取式,一类是生成式。
抽取式方法是从输入文本中选择重要的单词或者短语抽取出来,作为生成的结果,其候选词空间限定在所有输入文本中出现的词中,生成过程中只需要在较小的范围内进行搜索。因此,抽取式方法不能生成未出现关键词。
生成式方法可以生成在原文中未出现的关键词。基于循环神经网络在序列到序列任务上出色的表现,将循环神经网络应用于关键词生成任务中,并利用更多的信息来提升性能。
若仅是为了生成固定数量的关键词,可以利用CopyRNN。这种循环神经网络可以将一个输入文本X和N个关键词做成N个文档—关键词对,但是每个文档对应的关键词数量(N)是不同的,所以模型无法提前预知当前文档对应关键词的数量,只能预测固定数量(比如N=k)个关键词。
为了生成合适数量的关键词,可以利用catSeq。这种循环神经网络将一个输入文档对应的N个关键词连接起来作为一个序列进行预测。在这一个序列不同的关键词之间,加上特殊的符号标记[SEP],并且在文档开头和末尾分别添加特殊标记[BOS]和[EOS],这样可以保证生成过程自动停止,从而生成不同数量的关键词。
申请人进一步发现,上述方法存在以下不足:
1.上述方法均是基于循环神经网络(RNN)的架构进行改进,然而RNN不能够并行的特点导致训练过程非常缓慢,且RNN在处理长时间记忆方面能力较弱。
2.上述方法忽略了其他文档本身自带的重要信息,这些信息可以为当前文档的关键词生成提供重要的参考。
因此,本申请提出了一种新型的生成关键词的方法与设备,以解决上述基于循环神经网络的关键词生成方式所存在的一种或多种缺陷。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
本申请所述的生成设备,包括但不限于网络设备,或者网络设备与用户设备的组合。其中,所述网络设备包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、嵌入式设备等。所述网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。
所述用户设备包括但不限于任何一种可与用户进行人机交互的电子产品,例如个人电脑、智能手机、平板电脑等,所述电子产品可以采用任意操作系统,如windows操作系统、android操作系统、iOS操作系统等。
当然,本领域技术人员应能理解上述设备仅为举例,其他现有的或今后可能出现的设备如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
下面结合附图对本申请作进一步详细描述。
图1示出根据本申请一个实施例的一种用于生成关键词的方法流程图。
其中,该方法包括步骤S1、步骤S2、步骤S3以及步骤S4。在步骤S1中,所述生成设备获取输入文本的单词嵌入向量以及整体文本向量;在步骤S2中,所述生成设备将所述单词嵌入向量输入编码器,并经由所述编码器编码,以获得与所述单词嵌入向量相对应的编码隐向量;在步骤S3中,所述生成设备将所述整体文本向量输入记忆力网络中,以获取与所述整体文本向量以及所述记忆力网络中所包含的相关文档相对应的输出隐向量;在步骤S4中,所述生成设备将所述编码隐向量以及所述输出隐向量输入到解码器中,并经由所述解码器解码,以获取与所述输入文本相对应的词表概率分布。
在步骤S1中,所述生成设备获取输入文本的单词嵌入向量以及整体文本向量。
具体地,所述生成设备获取由用户或系统指定的输入文本,并对其进行处理,例如,经过嵌入层B(Embedding Layer B),将所述输入文本转换为向量,以获取输入文本的单词嵌入向量以及整体文本向量(Document Embedding)。其中,所述单词嵌入向量包含了单词本身的语义嵌入向量和位置编码向量。
在步骤S2中,所述生成设备将所述单词嵌入向量输入编码器,并经由所述编码器编码,以获得与所述单词嵌入向量相对应的编码隐向量。
具体地,所述编码器包括Multi-Head Attention和Feed Forward两个神经网络层,Multi-Head Attention是利用注意力机制来提炼向量的神经网络层,Feed Forward则是利用如Relu激活函数,将Multi-Head Attention中得到的提炼好的向量再投影到一个更大的空间,在该大空间里可以更方便地提取需要的信息。
所述生成设备将所述单词的嵌入向量输入到所述编码器,通过Multi-HeadAttention和Feed Forward两个神经网络层,进行计算得到每个单词在这一层的向量表达,最终得到与所述单词嵌入向量相对应的编码隐向量。所述单词嵌入向量可以在上述两个神经网络层中计算至少一次。通过编码器,可以充分地对原文本的信息进行编码,获取文本中单词的语义信息,进而得到整句话的编码隐向量。
在步骤S3中,所述生成设备将所述整体文本向量输入记忆力网络中,以获取与所述整体文本向量以及所述记忆力网络中所包含的相关文档相对应的输出隐向量。
具体地,所述记忆力网络中所包含的文档,即所述记忆力网络所对应的知识库,所述文档可以是某一具体领域的文档,如在线医疗领域,从而可以为患者的提问提取出关键词,方便医生回答,或者如金融领域,从而为金融新闻提取关键性标签,自动分类,高效整合信息等;所述文档也可以是非限定领域的任意文档。根据不同的文档,可以将所述关键词生成应用于不同的领域。
所述记忆力网络中的相关文档,即为与所述输入文本相关联的文档。所述记忆力网络中的文档可以是与所述输入文本直接相关联的文档,从而所述生成网络直接调用所述文档即可;或者所述生成设备可以检索所述记忆力网络中所有文档并从中找出相关文档。
然后,所述生成设备基于所述整体文本向量,将所述相关文档中的重要信息编码到所述输出隐向量中。
其中,步骤S2与步骤S3可以并行处理,也可以按照依次处理。最终将步骤S2以及步骤S3所输出的向量输入到步骤S4中进行处理。
在一种实施例中,所述方法还包括步骤S6(未示出)和步骤S7(未示出)。其中,在步骤S6中,所述生成设备根据所述输入文本所对应的关键词提取需求,确定与所述关键词提取需求相对应的文本知识集合;在步骤S7中,所述生成设备将所述文本知识用作所述记忆力网络中所包含的相关文档。
具体地,所述关键词提取需求可以基于关键词提取任务需求和/或语料相关信息进行确定,所述关键词提取任务需求和/或语料相关信息包括但不限于所述输入文本的领域需求、所述输入文本的应用需求、所述输入文本所对应的用户的用户需求、所述输入文本的关键词数量需求等。所述生成设备基于所述关键词提取需求,选择或者检索以得到与所述关键词提取需求相对应的文本知识集合。例如,若所述领域需求为游戏领域,则可将与游戏相关联的文档作为文本知识集合。然后,所述生成设备将所述文本知识结合作为所述记忆力网络中所包含的相关文档。
在此,所述相关文档可以包括全部训练集和测试集的无标签文本,所述生成设备将其组成一个文本知识集合D={d1,d2,…,dn},以用于后续计算。在一种实施例中,在文本知识集合D中,相关文档以字符串的形式存在于集合D。
在一种实施例中,在步骤S3中,所述生成设备获取所述记忆力网络中所包含的相关文档所对应的文本键向量以及文本值向量;根据所述整体文本向量与所述文本键向量,获取所述输入文本与所述相关文档的相似度;根据所述相似度以及所述文本值向量,获取与所述整体文本向量以及所述记忆力网络中所包含的相关文档相对应的输出隐向量。
具体地,所述生成设备例如利用嵌入层A(Embedding Layer A)得到相关文档中所有文本的文本键向量,并利用例如嵌入层C(EmbeddingLayer C)以得到相关文档中所有文本的文本值向量。
然后,所述生成设备将所述整体文本向量输入到记忆力网络中,与所述相关文档的所有文本的文本键向量计算内积,以获取所述输入文本与所述相关文档的相似度。
基于所述相似度,对所述文本值向量进行加权求和,以得到所述输出隐向量。
在一种实施例中,所述编码器和/或所述解码器采用Transformer架构。
利用Transformer架构,在一个时间步内可以同时处理多个字符单位,所述字符单位的长度可以基于系统缺省或主动配置,从而实现了并行计算能力;而RNN架构中,在一个时间步只能处理一个字符单位,因此优于RNN架构。
在步骤S4中,所述生成设备将所述编码隐向量以及所述输出隐向量输入到解码器中,并经由所述解码器解码,以获取与所述输入文本相对应的词表概率分布。
具体地,所述解码器包括Feed Forward、Multi-Head Attention以及MaskedMulti-Head Attention三个神经网络层。所述编码隐向量以及所述输出隐向量可以在上述三个神经网络层中计算至少一次。
所述生成设备将所述编码隐向量以及所述输出隐向量输入到解码器中,经由上述三个神经网络层,最终能够获取与所述输入文本相对应的词表概率分布。
其中,所述词表概率分布,反映了词表中每一个词被选中的概率。概率越高,则将其选定为关键词的可能性越大;没有出现在词表中的词,该概率为0。
在一种实施例中,在步骤S4中,所述生成设备拼接所述编码隐向量以及所述输出隐向量,以获得最终隐向量;根据所述最终隐向量以及所述解码器的历史状态输出,经过解码器进行解码后,获取所述解码器的当前状态输出;利用softmax函数对所述当前状态输出进行处理,以获取与所述输入文本相对应的词表概率分布。
具体地,所述生成设备将所述编码隐向量以及所述输出隐向量进行拼接,以获得最终隐向量。所述拼接操作即为把一个向量连接到另一个向量尾部,其不会改变现有向量,仅仅返回被拼接向量的一个副本。在一种实施例中,可利用concat函数进行计算。
然后,所述生成设备将所述解码器前一时刻的状态输出作为当前时刻的输入值,并将其输入到Masked Multi-Head Attention层中,以获得所述解码器的隐向量。
然后,将所述最终隐向量输入到Multi-Head Attention以及MaskedMulti-HeadAttention这两个神经网络层中,将所述最终隐向量与所述解码器的隐向量进行计算,以获得注意力分数的概率分布。
以所述概率分布为权重,对所述最终隐向量进行加权求和,以获得上下文向量。
利用所述解码器对所述解码器的隐向量以及所述上下文向量进行解码,以获得所述解码器的当前状态输出。
然后,所述生成设备利用softmax对所述当前状态输出进行处理,以获取与所述输入文本相对应的词表概率分布。在一种实施例中,在执行softmax处理前,可以将所述当前状态输出先行输入到linear层中,以进行线性转换,然后在经由softmax处理以获得词表概率分布。
图2示出根据本申请另一个实施例的一种用于生成关键词的方法流程图。
其中,该方法包括步骤S1、步骤S2、步骤S3、步骤S4以及步骤S5。在步骤S1中,所述生成设备获取输入文本的单词嵌入向量以及整体文本向量;在步骤S2中,所述生成设备将所述单词嵌入向量输入编码器,并经由所述编码器编码,以获得与所述单词嵌入向量相对应的编码隐向量;在步骤S3中,所述生成设备将所述整体文本向量输入记忆力网络中,以获取与所述整体文本向量以及所述记忆力网络中所包含的相关文档相对应的输出隐向量;在步骤S4中,所述生成设备将所述编码隐向量以及所述输出隐向量输入到解码器中,并经由所述解码器解码,以获取与所述输入文本相对应的词表概率分布;在步骤S5中,所述生成设备将所述词表概率分布以及所述解码器解码时所生成的相应参数,输入到指针生成网络中,以获取与所述输入文本相对应的最终概率分布。
在此,所述步骤S1、步骤S2、步骤S3以及步骤S4与图1中所述对应步骤相同或相似,故在此不再赘述,并通过引用的方式包含于此。
在步骤S5中,所述生成设备将所述词表概率分布以及所述解码器解码时所生成的相应参数,输入到指针生成网络中,以获取与所述输入文本相对应的最终概率分布。
具体地,所述解码器解码时所生成的相应参数包括但不限于上下文向量、解码器的隐向量、所述解码器前一时刻的状态输出(即作为当前时刻的输入值)、词表概率分布、注意力分数的概率分布等。所述指针生成网络根据上述参数,获取复制概率分布;进一步地,为所述词表概率分布以及复制概率分布分别确定相应的权重,并利用该权重对所述词表概率分布以及复制概率分布进行加权求和,以获取与所述输入文本相对应的最终概率分布。
在此,所述指针生成网络能够实现复制机制,从而提升预测能力。
在一种实施例中,在步骤S5中,所述生成设备根据所述解码器解码时所生成的相应参数,确定生成概率;确定与所述输入文本相对应的复制概率分布;根据所述生成概率、所述词表概率分布以及所述复制概率分布,确定与所述输入文本相对应的最终概率分布。
具体地,所述生成设备根据所述上下文向量、编码器的隐向量以及所述解码器前一时刻的状态输出确定生成概率。
然后,所述生成设备根据注意力分数的概率分布,对所述输入文本中每个单词进行注意力分数的求和,以得到复制概率分布。其中,所述复制概率分布反应了输入文档中每个单词被选中的概率。概率越高,则将其选定为关键词的可能性越大;没有出现在词表中的词,该概率为0。
然后,所述生成设备对所述生成概率进行处理,以作为所述词表概率分布以及所述复制概率分布的权重系数;例如,用所述生成概率作为词表概率分布的权重系数,利用(1-生成概率)作为所述复制概率分布的权重系数,并对两者进行加权求和,以得到最终概率分布。在此,还可以根据所述词表概率分布以及所述复制概率分布所对应的比重关系,对所述权重系数进行进一步调整,从而获取最终概率分布。
在此,所述最终概率分布既包括了词表(即相关文档所对应的词)中每个词被选中的概率,也包括了出现在原文(即输入文档)中的每个词被选中的概率。最终的输出就是在最终概率分布中拥有最高概率的词。
基于上述处理,本申请实现了一种关键词生成的方法,其可以应用于自然语言处理领域多种任务,例如文本自动摘要、文本分类、意见挖掘等,此外,本申请还能适用于领域应用,例如在线医疗领域,为患者的提问提取出关键词,方便医生回答;金融领域,为金融新闻提取关键性标签,自动分类,高效整合信息等;并且,本申请还能够适用于搜索引擎,为搜索内容提供更准确的标签,提升用户搜索体验;
图3示出根据本申请一个实施例的一种用于生成关键词的生成设备示意图。
其中,所述生成设备10包括装置101、装置102、装置103以及装置104。所述装置101获取输入文本的单词嵌入向量以及整体文本向量;所述装置102将所述单词嵌入向量输入编码器,并经由所述编码器编码,以获得与所述单词嵌入向量相对应的编码隐向量;所述装置103将所述整体文本向量输入记忆力网络中,以获取与所述整体文本向量以及所述记忆力网络中所包含的相关文档相对应的输出隐向量;所述装置104将所述编码隐向量以及所述输出隐向量输入到解码器中,并经由所述解码器解码,以获取与所述输入文本相对应的词表概率分布。
所述装置101获取输入文本的单词嵌入向量以及整体文本向量。
具体地,所述生成设备获取由用户或系统指定的输入文本,并对其进行处理,例如,经过嵌入层B(Embedding Layer B),以获取输入文本的单词嵌入向量以及整体文本向量(Document Embedding)。其中,所述单词嵌入向量包含了单词本身的语义嵌入向量和位置编码向量。
所述装置102将所述单词嵌入向量输入编码器,并经由所述编码器编码,以获得与所述单词嵌入向量相对应的编码隐向量。
具体地,所述编码器包括Multi-Head Attention和Feed Forward两个神经网络层,Multi-Head Attention是利用注意力机制来提炼向量的神经网络层,Feed Forward则是利用如Relu激活函数,将Multi-Head Attention中得到的提炼好的向量再投影到一个更大的空间,在该大空间里可以更方便地提取需要的信息。
所述生成设备将所述单词的嵌入向量输入到所述编码器,通过Multi-HeadAttention和Feed Forward两个神经网络层,进行计算得到每个单词在这一层的向量表达,最终得到与所述单词嵌入向量相对应的编码隐向量。所述单词嵌入向量可以在上述两个神经网络层中计算至少一次。通过编码器,可以充分地对原文本的信息进行编码,获取文本中单词的语义信息,进而得到整句话的编码隐向量。
所述装置103将所述整体文本向量输入记忆力网络中,以获取与所述整体文本向量以及所述记忆力网络中所包含的相关文档相对应的输出隐向量。
具体地,所述记忆力网络中所包含的文档,即所述记忆力网络所对应的知识库,所述文档可以是某一具体领域的文档,如在线医疗领域,从而可以为患者的提问提取出关键词,方便医生回答,或者如金融领域,从而为金融新闻提取关键性标签,自动分类,高效整合信息等;所述文档也可以是非限定领域的任意文档。根据不同的文档,可以将所述关键词生成应用于不同的领域。
所述记忆力网络中的相关文档,即为与所述输入文本相关联的文档。所述记忆力网络中的文档可以是与所述输入文本直接相关联的文档,从而所述生成网络直接调用所述文档即可;或者所述生成设备可以检索所述记忆力网络中所有文档并从中找出相关文档。
然后,所述生成设备基于所述整体文本向量,将所述相关文档中的重要信息编码到所述输出隐向量中。
其中,所述装置102与所述装置103可以并行处理,也可以按照依次处理。最终将所述装置102以及所述装置103所输出的向量输入到装置104中进行处理。
在一种实施例中,所述生成设备10还包括装置106(未示出)和装置107(未示出)。其中,所述装置106根据所述输入文本所对应的关键词提取需求,确定与所述关键词提取需求相对应的文本知识集合;所述装置107将所述文本知识用作所述记忆力网络中所包含的相关文档。
具体地,所述关键词提取需求可以基于关键词提取任务需求和/或语料相关信息进行确定,所述关键词提取任务需求和/或语料相关信息包括但不限于所述输入文本的领域需求、所述输入文本的应用需求、所述输入文本所对应的用户的用户需求、所述输入文本的关键词数量需求等。所述生成设备基于所述关键词提取需求,选择或者检索以得到与所述关键词提取需求相对应的文本知识集合。例如,若所述领域需求为游戏领域,则可将与游戏相关联的文档作为文本知识集合。然后,所述生成设备将所述文本知识结合作为所述记忆力网络中所包含的相关文档。
在此,所述相关文档可以包括全部训练集和测试集的无标签文本,所述生成设备将其组成一个文本知识集合D={d1,d2,…,dn},以用于后续计算。在一种实施例中,在文本知识集合D中,相关文档以字符串的形式存在于集合D。
在一种实施例中,所述装置103获取所述记忆力网络中所包含的相关文档所对应的文本键向量以及文本值向量;根据所述整体文本向量与所述文本键向量,获取所述输入文本与所述相关文档的相似度;根据所述相似度以及所述文本值向量,获取与所述整体文本向量以及所述记忆力网络中所包含的相关文档相对应的输出隐向量。
具体地,所述生成设备例如利用嵌入层A(Embedding Layer A)得到相关文档中所有文本的文本键向量,并利用例如嵌入层C(EmbeddingLayer C)以得到相关文档中所有文本的文本值向量。
然后,所述生成设备将所述整体文本向量输入到记忆力网络中,与所述相关文档的所有文本的文本键向量计算内积,以获取所述输入文本与所述相关文档的相似度。
基于所述相似度,对所述文本值向量进行加权求和,以得到所述输出隐向量。
在一种实施例中,所述编码器和/或所述解码器采用Transformer架构。
利用Transformer架构,在一个时间步内可以同时处理多个字符单位,所述字符单位的长度可以基于系统缺省或主动配置,从而实现了并行计算能力;而RNN架构中,在一个时间步只能处理一个字符单位,因此优于RNN架构。
所述装置104将所述编码隐向量以及所述输出隐向量输入到解码器中,并经由所述解码器解码,以获取与所述输入文本相对应的词表概率分布。
具体地,所述解码器包括Feed Forward、Multi-Head Attention以及MaskedMulti-Head Attention三个神经网络层。所述编码隐向量以及所述输出隐向量可以在上述三个神经网络层中计算至少一次。
所述生成设备将所述编码隐向量以及所述输出隐向量输入到解码器中,经由上述三个神经网络层,最终能够获取与所述输入文本相对应的词表概率分布。
其中,所述词表概率分布,反映了词表中每一个词被选中的概率。概率越高,则将其选定为关键词的可能性越大;没有出现在词表中的词,该概率为0。
在一种实施例中,所述装置104拼接所述编码隐向量以及所述输出隐向量,以获得最终隐向量;根据所述最终隐向量以及所述解码器的历史状态输出,经过解码器进行解码后,获取所述解码器的当前状态输出;利用softmax对所述当前状态输出进行处理,以获取与所述输入文本相对应的词表概率分布。
具体地,所述生成设备将所述编码隐向量以及所述输出隐向量进行拼接,以获得最终隐向量。所述拼接操作即为把一个向量连接到另一个向量尾部,其不会改变现有向量,仅仅返回被拼接向量的一个副本。在一种实施例中,可利用concat函数进行计算。
然后,所述生成设备将所述解码器前一时刻的状态输出作为当前时刻的输入值,并将其输入到Masked Multi-Head Attention层中,以获得所述解码器的隐向量。
然后,将所述最终隐向量输入到Multi-Head Attention以及MaskedMulti-HeadAttention这两个神经网络层中,将所述最终隐向量与所述解码器的隐向量进行计算,以获得注意力分数的概率分布。
以所述概率分布为权重,对所述最终隐向量进行加权求和,以获得上下文向量。
利用所述解码器对所述解码器的隐向量以及所述上下文向量进行解码,以获得所述解码器的当前状态输出。
然后,所述生成设备利用softmax对所述当前状态输出进行处理,以获取与所述输入文本相对应的词表概率分布。在一种实施例中,在执行softmax处理前,可以将所述当前状态输出先行输入到linear层中,以进行线性转换,然后在经由softmax处理以获得词表概率分布。
图4示出根据本申请另一个实施例的一种用于生成关键词的生成设备示意图。
其中,所述生成设备10包括装置101、装置102、装置103、装置104以及装置105。所述装置101获取输入文本的单词嵌入向量以及整体文本向量;所述装置102将所述单词嵌入向量输入编码器,并经由所述编码器编码,以获得与所述单词嵌入向量相对应的编码隐向量;所述装置103将所述整体文本向量输入记忆力网络中,以获取与所述整体文本向量以及所述记忆力网络中所包含的相关文档相对应的输出隐向量;所述装置104将所述编码隐向量以及所述输出隐向量输入到解码器中,并经由所述解码器解码,以获取与所述输入文本相对应的词表概率分布;所述装置105将所述词表概率分布以及所述解码器解码时所生成的相应参数,输入到指针生成网络中,以获取与所述输入文本相对应的最终概率分布。
在此,所述装置101、所述装置102、所述装置103以及所述装置104与图3中所述对应装置相同或相似,故在此不再赘述,并通过引用的方式包含于此。
所述装置105将所述词表概率分布以及所述解码器解码时所生成的相应参数,输入到指针生成网络中,以获取与所述输入文本相对应的最终概率分布。
具体地,所述解码器解码时所生成的相应参数包括但不限于上下文向量、解码器的隐向量、所述解码器前一时刻的状态输出(即作为当前时刻的输入值)、词表概率分布、注意力分数的概率分布等。所述指针生成网络根据上述参数,获取复制概率分布;进一步地,为所述词表概率分布以及复制概率分布分别确定相应的权重,并利用该权重对所述词表概率分布以及复制概率分布进行加权求和,以获取与所述输入文本相对应的最终概率分布。
在此,所述指针生成网络能够实现复制机制,从而提升预测能力。
在一种实施例中,所述装置105根据所述解码器解码时所生成的相应参数,确定生成概率;确定与所述输入文本相对应的复制概率分布;根据所述生成概率、所述词表概率分布以及所述复制概率分布,确定与所述输入文本相对应的最终概率分布。
具体地,所述生成设备根据所述上下文向量、编码器的隐向量以及所述解码器前一时刻的状态输出确定生成概率。
然后,所述生成设备根据注意力分数的概率分布,对所述输入文本中每个单词进行注意力分数的求和,以得到复制概率分布。其中,所述复制概率分布反应了输入文档中每个单词被选中的概率。概率越高,则将其选定为关键词的可能性越大;没有出现在词表中的词,该概率为0。
然后,所述生成设备对所述生成概率进行处理,以作为所述词表概率分布以及所述复制概率分布的权重系数;例如,用所述生成概率作为词表概率分布的权重系数,利用(1-生成概率)作为所述复制概率分布的权重系数,并对两者进行加权求和,以得到最终概率分布。在此,还可以根据所述词表概率分布以及所述复制概率分布所对应的比重关系,对所述权重系数进行进一步调整,从而获取最终概率分布。
在此,所述最终概率分布既包括了词表(即相关文档所对应的词)中每个词被选中的概率,也包括了出现在原文(即输入文档)中的每个词被选中的概率。最终的输出就是在最终概率分布中拥有最高概率的词。
基于上述处理,本申请实现了一种关键词生成的方法,其可以应用于自然语言处理领域多种任务,例如文本自动摘要、文本分类、意见挖掘等,此外,本申请还能适用于领域应用,例如在线医疗领域,为患者的提问提取出关键词,方便医生回答;金融领域,为金融新闻提取关键性标签,自动分类,高效整合信息等;并且,本申请还能够适用于搜索引擎,为搜索内容提供更准确的标签,提升用户搜索体验;
图5示出根据本申请一个实施例的一种用于生成关键词的架构图。
所述输入文本,即图5中“...learn a SVM-like framework of linearPCA...”首先经过嵌入层B(Embedding Layer B),同时得到每个单词的嵌入向量表示x和整体文本向量表示u(Document Embedding)。在此,每个单词即为一个分词。
所述架构包括编码器编码、记忆力机制、解码器解码和复制机制四个部分。
编码器编码:
将所述单词嵌入向量表示x输入到编码器,通过多头注意(Multi-HeadAttention)和前馈(Feed Forward)两个神经网络层,进行计算得到每个单词在这一层的向量表达,这个过程可以重复N次。通过这种设计,可以充分地对原文本的信息进行编码,获取文本中单词的语义信息,进而得到整句话的编码隐向量h。
记忆力机制:
在获取到编码器对输入文本的整体文本向量表示u之后,利用如下的记忆力网络机制来为当前文本提供外部知识的信息。
首先构造外部知识库,将全部训练集和测试集的无标签文本组成一个文本知识集合D={d1,d2,…,dn};
利用嵌入层A(Embedding Layer A)得到集合D中所有文本的键向量;
将所述整体文本向量表示u输入到记忆力网络中,首先和文本集合D的所有文本的键向量计算内积,求出当前文档和所有文档的相似度P;
同时,集合D中的所有文档集合通过嵌入层C(Embedding Layer C)得到文本的值向量;
基于相似度P对所有文本的值向量进行加权求和得到输出隐向量o。
通过以上步骤,记忆力网络检索了所有文档并从中找出相关文档,将相关文档的重要信息编码到输出隐向量o中。
解码器解码:
将所述编码隐向量h以及所述输出隐向量o拼接起来得到最终隐向量h*=[h,o];
当前解码器输入yt-1经过解码器的遮蔽多头注意机制(MaskedMulti-HeadAttention)层得到解码器隐向量s;
将h*输入到解码器中,h*和s进行计算得到注意力分数的概率分布ai;
以ai为权重,对h*进行加权求和得到上下文向量c;
解码器对所述上下文向量c和所述解码器隐向量s进行解码,得到解码器的状态输出y。
y经过一个linear层,然后经过softmax得到最终解码器的词表概率分布Pvocab。
复制机制:
根据所述上下文向量c,解码器隐向量s和当前解码器输入yt-1计算生成概率pgen;
解码器解码得到的词表概率分布Pvocab,反映了词表中每一个词被选中的概率;没有出现在词表中的词,该概率为0;
利用注意力分数的概率分布ai,对输入文档中每个单词进行注意力分数的求和,得到复制概率分布Pcopy,其反映了输入文档中每个单词被选中的概率,没有出现在输入文档中的词,该概率为0;
利用生成概率pgen作为词表概率分布的权重系数,(1-pgen)作为复制概率分布的权重系数,进行加权求和,得到最终概率分布。最终概率分布既包括了词表中每个词被选中的概率,也包括了出现在原文中的每个词被选中的概率。在一种实施例中,最终的输出就是在最终概率分布中拥有最高概率的词。例如,图中的最终概率分布反应了如单词“vector”、“pca”等所对应的概率,单词“vector”即为最有最高概率的词,因此将“vector”作为最终输出。
图6示出了可被用于实施本申请中所述的各个实施例的示例性系统。
在一些实施例中,系统600能够作为图1、图2、图3、图4或图5所示的实施例或其他所述实施例中的任意一个生成设备。在一些实施例中,系统600可包括具有指令的一个或多个计算机可读介质(例如,系统存储器或NVM/存储设备620)以及与该一个或多个计算机可读介质耦合并被配置为执行指令以实现模块从而执行本申请中所述的动作的一个或多个处理器(例如,(一个或多个)处理器605)。
对于一个实施例,系统控制模块610可包括任意适当的接口控制器,以向(一个或多个)处理器605中的至少一个和/或与系统控制模块610通信的任意适当的设备或组件提供任意适当的接口。
系统控制模块610可包括存储器控制模块630,以向系统存储器615提供接口。存储器控制模块630可以是硬件模块、软件模块和/或固件模块。
系统存储器615可被用于例如为系统600加载和存储数据和/或指令。对于一个实施例,系统存储器615可包括任意适当的易失性存储器,例如,适当的DRAM。在一些实施例中,系统存储器615可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。
对于一个实施例,系统控制模块610可包括一个或多个输入/输出(I/O)控制器,以向NVM/存储设备620及(一个或多个)通信接口625提供接口。
例如,NVM/存储设备620可被用于存储数据和/或指令。NVM/存储设备620可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。
NVM/存储设备620可包括在物理上作为系统600被安装在其上的设备的一部分的存储资源,或者其可被该设备访问而不必作为该设备的一部分。例如,NVM/存储设备620可通过网络经由(一个或多个)通信接口625进行访问。
(一个或多个)通信接口625可为系统600提供接口以通过一个或多个网络和/或与任意其他适当的设备通信。系统600可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信。
对于一个实施例,(一个或多个)处理器605中的至少一个可与系统控制模块610的一个或多个控制器(例如,存储器控制模块630)的逻辑封装在一起。对于一个实施例,(一个或多个)处理器605中的至少一个可与系统控制模块610的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例,(一个或多个)处理器605中的至少一个可与系统控制模块610的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例,(一个或多个)处理器605中的至少一个可与系统控制模块610的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。
在各个实施例中,系统600可以但不限于是:服务器、工作站、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)。在各个实施例中,系统600可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,系统600包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。本领域技术人员应能理解,计算机程序指令在计算机可读介质中的存在形式包括但不限于源文件、可执行文件、安装包文件等,相应地,计算机程序指令被计算机执行的方式包括但不限于:该计算机直接执行该指令,或者该计算机编译该指令后再执行对应的编译后程序,或者该计算机读取并执行该指令,或者该计算机读取并安装该指令后再执行对应的安装后程序。在此,计算机可读介质可以是可供计算机访问的任意可用的计算机可读存储介质或通信介质。
通信介质包括藉此包含例如计算机可读指令、数据结构、程序模块或其他数据的通信信号被从一个系统传送到另一系统的介质。通信介质可包括有导的传输介质(诸如电缆和线(例如,光纤、同轴等))和能传播能量波的无线(未有导的传输)介质,诸如声音、电磁、RF、微波和红外。计算机可读指令、数据结构、程序模块或其他数据可被体现为例如无线介质(诸如载波或诸如被体现为扩展频谱技术的一部分的类似机制)中的已调制数据信号。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被更改或设定的信号。调制可以是模拟的、数字的或混合调制技术。
作为示例而非限制,计算机可读存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动的介质。例如,计算机可读存储介质包括,但不限于,易失性存储器,诸如随机存储器(RAM,DRAM,SRAM);以及非易失性存储器,诸如闪存、各种只读存储器(ROM,PROM,EPROM,EEPROM)、磁性和铁磁/铁电存储器(MRAM,FeRAM);以及磁性和光学存储设备(硬盘、磁带、CD、DVD);或其它现在已知的介质或今后开发的能够存储供计算机系统使用的计算机可读信息/数据。
在此,根据本申请的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (13)
1.一种用于生成关键词的方法,其中,该方法包括以下步骤:
获取输入文本的单词嵌入向量以及整体文本向量;
将所述单词嵌入向量输入编码器,并经由所述编码器编码,以获得与所述单词嵌入向量相对应的编码隐向量;
将所述整体文本向量输入记忆力网络中,以获取与所述整体文本向量以及所述记忆力网络中所包含的相关文档相对应的输出隐向量;
将所述编码隐向量以及所述输出隐向量输入到解码器中,并经由所述解码器解码,以获取与所述输入文本相对应的词表概率分布;
其中,获取与所述整体文本向量以及所述记忆力网络中所包含的相关文档相对应的输出隐向量的步骤包括:
获取所述记忆力网络中所包含的相关文档所对应的文本键向量以及文本值向量;
根据所述整体文本向量与所述文本键向量,获取所述输入文本与所述相关文档的相似度;
根据所述相似度以及所述文本值向量,获取与所述整体文本向量以及所述记忆力网络中所包含的相关文档相对应的输出隐向量。
2.根据权利要求1所述的方法,其中,该方法还包括:
将所述词表概率分布以及所述解码器解码时所生成的相应参数,输入到指针生成网络中,以获取与所述输入文本相对应的最终概率分布。
3.根据权利要求2所述的方法,其中,获取与所述输入文本相对应的最终概率分布的步骤包括:
根据所述解码器解码时所生成的相应参数,确定生成概率;
确定与所述输入文本相对应的复制概率分布;
根据所述生成概率、所述词表概率分布以及所述复制概率分布,确定与所述输入文本相对应的最终概率分布。
4.根据权利要求1至3中任一项所述的方法,其中,所述编码器和/或所述解码器采用Transformer架构。
5.根据权利要求1至3中任一项所述的方法,其中,该方法还包括:
根据所述输入文本所对应的关键词提取需求,确定与所述关键词提取需求相对应的文本知识集合;
将所述文本知识用作所述记忆力网络中所包含的相关文档。
6.根据权利要求1所述的方法,其中,获取与所述输入文本相对应的词表概率分布的步骤包括:
拼接所述编码隐向量以及所述输出隐向量,以获得最终隐向量;
根据所述最终隐向量以及所述解码器的历史状态输出,经过解码器进行解码后,获取所述解码器的当前状态输出;
利用softmax对所述当前状态输出进行处理,以获取与所述输入文本相对应的词表概率分布。
7.一种用于生成关键词的生成设备,其中,所述生成设备包括:
用于获取输入文本的单词嵌入向量以及整体文本向量的装置;
用于将所述单词嵌入向量输入编码器,并经由所述编码器编码,以获得与所述单词嵌入向量相对应的编码隐向量的装置;
用于将所述整体文本向量输入记忆力网络中,以获取与所述整体文本向量以及所述记忆力网络中所包含的相关文档相对应的输出隐向量的装置;
用于将所述编码隐向量以及所述输出隐向量输入到解码器中,并经由所述解码器解码,以获取与所述输入文本相对应的词表概率分布的装置;
其中,用于获取与所述整体文本向量以及所述记忆力网络中所包含的相关文档相对应的输出隐向量的步装置用于:
获取所述记忆力网络中所包含的相关文档所对应的文本键向量以及文本值向量;
根据所述整体文本向量与所述文本键向量,获取所述输入文本与所述相关文档的相似度;
根据所述相似度以及所述文本值向量,获取与所述整体文本向量以及所述记忆力网络中所包含的相关文档相对应的输出隐向量。
8.根据权利要求7所述的生成设备,其中,所述生成设备还包括:
用于将所述词表概率分布以及所述解码器解码时所生成的相应参数,输入到指针生成网络中,以获取与所述输入文本相对应的最终概率分布的装置。
9.根据权利要求7或8所述的生成设备,其中,所述编码器和/或所述解码器采用Transformer架构。
10.根据权利要求7或8所述的生成设备,其中,所述生成设备还包括:
用于根据所述输入文本所对应的关键词提取需求,确定与所述关键词提取需求相对应的文本知识集合的装置;
用于将所述文本知识用作所述记忆力网络中所包含的相关文档的装置。
11.根据权利要求7或8所述的生成设备,其中,用于获取与所述输入文本相对应的词表概率分布的装置用于:
拼接所述编码隐向量以及所述输出隐向量,以获得最终隐向量;
根据所述最终隐向量以及所述解码器的历史状态输出,经过解码器进行解码后,获取所述解码器的当前状态输出;
利用softmax对所述当前状态输出进行处理,以获取与所述输入文本相对应的词表概率分布。
12.一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个计算机程序;
当所述一个或多个计算机程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至6中任一项所述的方法。
13.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序可被处理器执行如权利要求1至6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010006961.9A CN111209468B (zh) | 2020-01-03 | 2020-01-03 | 一种用于生成关键词的方法与设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010006961.9A CN111209468B (zh) | 2020-01-03 | 2020-01-03 | 一种用于生成关键词的方法与设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111209468A CN111209468A (zh) | 2020-05-29 |
CN111209468B true CN111209468B (zh) | 2023-11-14 |
Family
ID=70787837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010006961.9A Active CN111209468B (zh) | 2020-01-03 | 2020-01-03 | 一种用于生成关键词的方法与设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111209468B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114692613A (zh) * | 2020-12-29 | 2022-07-01 | 阿里巴巴集团控股有限公司 | 一种关键词抽取方法及装置和编码器和解码器 |
CN115083537A (zh) * | 2021-03-10 | 2022-09-20 | 腾讯科技(深圳)有限公司 | 分子骨架跃迁的处理方法、装置、介质及电子设备 |
CN115796144B (zh) * | 2023-02-07 | 2023-04-28 | 中国科学技术大学 | 一种基于固定格式的受控文本生成方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109376234A (zh) * | 2018-10-10 | 2019-02-22 | 北京京东金融科技控股有限公司 | 一种训练摘要生成模型的方法和装置 |
CN110209801A (zh) * | 2019-05-15 | 2019-09-06 | 华南理工大学 | 一种基于自注意力网络的文本摘要自动生成方法 |
CN110619034A (zh) * | 2019-06-27 | 2019-12-27 | 中山大学 | 基于Transformer模型的文本关键词生成方法 |
-
2020
- 2020-01-03 CN CN202010006961.9A patent/CN111209468B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109376234A (zh) * | 2018-10-10 | 2019-02-22 | 北京京东金融科技控股有限公司 | 一种训练摘要生成模型的方法和装置 |
CN110209801A (zh) * | 2019-05-15 | 2019-09-06 | 华南理工大学 | 一种基于自注意力网络的文本摘要自动生成方法 |
CN110619034A (zh) * | 2019-06-27 | 2019-12-27 | 中山大学 | 基于Transformer模型的文本关键词生成方法 |
Non-Patent Citations (1)
Title |
---|
丁建立.基于双编码器的短文本自动摘要方法.计算机应用.2019,第3476-3481页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111209468A (zh) | 2020-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10861456B2 (en) | Generating dialogue responses in end-to-end dialogue systems utilizing a context-dependent additive recurrent neural network | |
US11775761B2 (en) | Method and apparatus for mining entity focus in text | |
US10599686B1 (en) | Method and system for extracting information from graphs | |
US20200089755A1 (en) | Multi-task multi-modal machine learning system | |
CN111209468B (zh) | 一种用于生成关键词的方法与设备 | |
Mei et al. | Automated audio captioning: An overview of recent progress and new challenges | |
CN110852106B (zh) | 基于人工智能的命名实体处理方法、装置及电子设备 | |
KR101896973B1 (ko) | 기계학습 모델을 이용한 자연어 생성 시스템, 방법, 및 컴퓨터 판독가능매체 | |
US11533495B2 (en) | Hierarchical video encoders | |
CN110334186A (zh) | 数据查询方法、装置、计算机设备及计算机可读存储介质 | |
JP2023550211A (ja) | テキストを生成するための方法および装置 | |
US11822893B2 (en) | Machine learning models for detecting topic divergent digital videos | |
CN113051910A (zh) | 一种用于预测人物角色情绪的方法和装置 | |
CN114691836B (zh) | 文本的情感倾向性分析方法、装置、设备及介质 | |
CN113822018B (zh) | 实体关系联合抽取方法 | |
CN112885315A (zh) | 模型的生成方法、音乐合成的方法、系统、设备及介质 | |
Li | Application of Machine Learning Combined with Wireless Network in Design of Online Translation System | |
US20240078431A1 (en) | Prompt-based sequential learning | |
WO2023216065A1 (en) | Differentiable drug design | |
Amani et al. | Symbolic Autoencoding for Self-Supervised Sequence Learning | |
Goyal et al. | Ingenious: Text Summarization and Question Answering | |
Trinh | Structured Dialogue State Management for Task-Oriented Dialogue Systems | |
CN116796824A (zh) | 网络模型压缩方法、装置、电子设备和可读介质 | |
CN114298004A (zh) | 复述文本生成方法、装置、设备、介质和程序产品 | |
CN118734867A (zh) | 文本翻译方法、相关设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |