CN115130470A - 一种文本关键词的生成方法、装置、设备及介质 - Google Patents

一种文本关键词的生成方法、装置、设备及介质 Download PDF

Info

Publication number
CN115130470A
CN115130470A CN202211025888.5A CN202211025888A CN115130470A CN 115130470 A CN115130470 A CN 115130470A CN 202211025888 A CN202211025888 A CN 202211025888A CN 115130470 A CN115130470 A CN 115130470A
Authority
CN
China
Prior art keywords
word
text
dictionary
probability
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211025888.5A
Other languages
English (en)
Other versions
CN115130470B (zh
Inventor
蒋建慧
王思宇
黄尧
王音
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hongzhiwei Technology Shanghai Co ltd
Gusu Laboratory of Materials
Original Assignee
Hongzhiwei Technology Shanghai Co ltd
Gusu Laboratory of Materials
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hongzhiwei Technology Shanghai Co ltd, Gusu Laboratory of Materials filed Critical Hongzhiwei Technology Shanghai Co ltd
Priority to CN202211025888.5A priority Critical patent/CN115130470B/zh
Publication of CN115130470A publication Critical patent/CN115130470A/zh
Application granted granted Critical
Publication of CN115130470B publication Critical patent/CN115130470B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种文本关键词的生成方法、装置、设备及介质。涉及自然语言处理领域。该方法包括:获取与源文本对应的词向量表示序列;将词向量表示序列分别输入至编码网络和序列标注网络,获取与源文本对应的第一类上下文表示序列和第二类上下文表示序列;将词向量表示序列、第一类上下文表示序列和第二类上下文表示序列共同输入至译码网络中,获取所述译码网络输出的词典概率向量序列;每个词典概率向量中包括词典中的每个词典词被选择作为文本关键词的概率值;根据所述词典概率向量序列,生成与所述源文本对应的文本关键词。通过本发明的技术方案,能够尽可能多地生成与源文本对应的关键字,提高关键字的生成率。

Description

一种文本关键词的生成方法、装置、设备及介质
技术领域
本发明涉及自然语言处理领域,尤其涉及一种文本关键词的生成方法、装置、设备及介质。
背景技术
为保证信息检索、文本摘要以及文本分类的准确性,通常需要预先对文本进行关键词生成。现有技术中通常使用生成文档内关键词和文档外关键词的方法对文本内容进行概括表示。
现有技术中,生成文档内关键词的方法通常采用两种方法,一种为将关键词提取作为一个排序任务,先从源文本中提取一组候选短语,然后从排序后重要性得分较高的候选短语中选择关键词;另一种为将关键词提取作为序列标注任务,使用长短期记忆网络-条件随机场(Long Short-Term Memory-Conditional Random Field,LSTM-CRF)或变压器的双向编码器表示(Bidirectional Encoder Representation from Transformers,BERT)模型对序列进行标注。生成文档内关键词和文档外关键词的方法通常需要基于序列生成模型对源文本进行编码,然后通过解码器动态从词典中生成关键词以及从源文本拷贝关键词,从而生成文档内关键词和文档外关键词。
然而,生成文档内关键词的两种方法虽然在一定程度上提高了文档内关键词的提取性能,但是却无法生成文档外关键词。生成文档内关键词和文档外关键词的方法虽然可以同时预测文档内关键词和文档外关键词,但是在编码器中引入拷贝机制时只考虑了超出词典外的词(Out Of Vocabulary,OOV),以致关键字的生成率降低。因此,如何尽可能多地生成与源文本对应的关键字,提高关键字的生成率是目前亟待解决的问题。
发明内容
本发明提供了一种文本关键词的生成方法、装置、设备及介质,以解决文本关键词的生成率较低的问题。
根据本发明的一方面,提供了一种文本关键词的生成方法,包括:
获取与源文本对应的词向量表示序列,所述词向量表示序列中包括源文本中每个文本词的词向量表示;
将词向量表示序列分别输入至编码网络和序列标注网络,获取与源文本对应的第一类上下文表示序列和第二类上下文表示序列;第二类上下文表示中包含有源文本中种子词的特征;
将词向量表示序列、第一类上下文表示序列和第二类上下文表示序列共同输入至译码网络中,获取所述译码网络输出的词典概率向量序列;每个词典概率向量中包括词典中的每个词典词被选择作为文本关键词的概率值;
根据所述词典概率向量序列,生成与所述源文本对应的文本关键词。
根据本发明的另一方面,提供了一种文本关键词的生成装置,包括:
词向量表示序列获取模块,用于获取与源文本对应的词向量表示序列,所述词向量表示序列中包括源文本中每个文本词的词向量表示;
上下文表示序列获取模块,用于将词向量表示序列分别输入至编码网络和序列标注网络,获取与源文本对应的第一类上下文表示序列和第二类上下文表示序列;第二类上下文表示中包含有源文本中种子词的特征;
译码模块,用于将词向量表示序列、第一类上下文表示序列和第二类上下文表示序列共同输入至译码网络中,获取所述译码网络输出的词典概率向量序列;每个词典概率向量中包括词典中的每个词典词被选择作为文本关键词的概率值;
关键词生成模块,用于根据所述词典概率向量序列,生成与所述源文本对应的文本关键词。
根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的文本关键词的生成方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的文本关键词的生成方法。
本发明实施例的技术方案,通过将与源文本对应的词向量表示序列分别输入至编码网络和序列标注网络,获取与源文本对应的第一类上下文表示序列和第二类上下文表示序列,再将词向量表示序列、第一类上下文表示序列和第二类上下文表示序列共同输入至译码网络中,获取译码网络输出的词典概率向量序列,最后根据词典概率向量序列,生成与所述源文本对应的文本关键词,解决了关键字的生成率较低的问题,能够尽可能多地生成与源文本对应的关键字,提高关键字的生成率。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例一提供的一种文本关键词的生成方法的流程图;
图2a是根据本发明实施例二提供的一种文本关键词的生成方法的流程图;
图2b是根据本发明实施例二提供的一种生成和OOV拷贝概率的生成方法的流程图;
图2c是根据本发明实施例二提供的一种生成和种子词拷贝概率的生成方法的流程图;
图2d是根据本发明实施例二提供的一种文本关键词的生成方法的流程示意图;
图3是根据本发明实施例三提供的一种文本关键词的生成装置的结构示意图;
图4是实现本发明实施例的文本关键词的生成方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
图1为本发明实施例一提供了一种文本关键词的生成方法的流程图,本实施例可适用于尽可能多地生成与源文本对应的关键字的情况,该方法可以由文本关键词的生成装置来执行,该文本关键词的生成装置可以采用硬件和/或软件的形式实现,该文本关键词的生成装置可配置于电子设备中。如图1所示,该方法包括:
S110、获取与源文本对应的词向量表示序列,所述词向量表示序列中包括源文本中每个文本词的词向量表示。
其中,源文本可以指需要进行关键词生成的文本。词向量表示序列可以指由源文本中每个文本词的词向量表示组成的序列。词向量表示可以指根据预设的向量转换机制获取的,文本词对应的向量表示,示例性的,文本词为“文明”,根据预设的向量转换机制,词向量表示可以为“000111”。
S120、将词向量表示序列分别输入至编码网络和序列标注网络,获取与源文本对应的第一类上下文表示序列和第二类上下文表示序列;第二类上下文表示中包含有源文本中种子词的特征。
其中,编码网络可以指对源文本进行编码处理的网络,通常可以通过编码网络获得各个词向量表示的隐含状态。序列标注网络可以指对源文本中可能生成关键词的种子词进行标注的网络,通常可以通过序列标注网络获得各个词向量表示的隐含特征。第一上下文表示序列可以指编码网络生成的,用于对源文本中每个文本词的词向量表示的隐含状态进行显示的序列。第二类上下文表示可以指序列标注网络生成的,用于对源文本中每个文本词的词向量表示的隐含特征进行显示的序列。
需要说明的是,由于序列标注网络最终目的生成对源文本的种子词标注结果,因此,序列标注网络在成功完成模型训练后,其所获得的各个词向量表示的隐含特征,种子词的特征强度应该是高于普通词的特征强度的,进而第二类上下文表示中包含有源文本中种子词的特征。
在一个可选的实施方式中,为了更好地从源文本中生成第一上下文表示序列,编码网络可以为预先训练的双向门控循环单元网络;将词向量表示序列输入至编码网络,获取与源文本对应的第一类上下文表示序列,包括:将词向量表示序列输入至所述双向门控循环单元网络中;通过双向门控循环单元网络,获取与每个文本词分别对应的前向隐含状态和反向隐含状态;通过双向门控循环单元网络,将与每个文本词分别对应的前向隐含状态和反向隐含状态进行特征拼接,得到与每个文本词分别对应的第一类上下文表示,以形成与源文本对应的第一类上下文表示序列。
其中,双向门控循环单元网络可以指具有两个方向门控循环单元(GateRecurrent Unit,GRU)的网络,示例性的,可以包含前向门控循环单元,以及反向门控循环单元。前向隐含状态可以指通过前向门控循环单元生成的各个文本词的隐含状态;反向隐含状态可以指通过反向门控循环单元生成的各个文本词的隐含状态。特征拼接可以指将前向隐含状态和反向隐含状态进行组合。
具体的,将词向量表示序列输入至预先训练的双向门控循环单元网络中,通过双向门控循环单元网络,获取与每个文本词分别对应的前向隐含状态和反向隐含状态,进而,将与每个文本词分别对应的前向隐含状态和反向隐含状态进行特征拼接,得到与每个文本词分别对应的第一类上下文表示,再将所有文本词分别对应的第一类上下文表示组合,即可形成与源文本对应的第一类上下文表示序列。
在另一个可选的实施方式中,为保证每个词向量表示的对应标签的准确性,序列标注网络为预先训练的LSTM-CRF网络;所述LSTM-CRF网络使用BIESO标签体系为输入序列添加标签;将词向量表示序列输入至序列标注网络,获取与源文本对应的第二类上下文表示序列,包括:将词向量表示序列输入至所述LSTM-CRF网络中;获取所述LSTM-CRF网络中的LSTM输出的每个文本词的隐含层特征,作为与每个文本词分别对应的第二类上下文表示,以形成与源文本对应的第二类上下文表示序列。
其中,BIESO标签体系可以指依据设定标准识别源文本中种子词的体系,示例性的,可以为按照(开始,中间,结束,单一,其他)标准识别源文本中种子词。
具体的,将词向量表示序列输入至预先训练的LSTM-CRF网络中,得到每个文本词的隐含层特征,作为与每个文本词分别对应的第二类上下文表示,最终将所有文本词分别对应的第二类上下文表示进行组合,形成与源文本对应的第二类上下文表示序列。
S130、将词向量表示序列、第一类上下文表示序列和第二类上下文表示序列共同输入至译码网络中,获取所述译码网络输出的词典概率向量序列;每个词典概率向量中包括词典中的每个词典词被选择作为文本关键词的概率值。
其中,译码网络可以指对词典中的每个词典词被选择作为文本关键词的概率值进行预测的网络。词典可以指预先设定的包含多个预设关键词的数据集。词典概率向量序列中包括多个词典概率向量,每个词典概率向量中包括词典中的每个词典词被选择作为文本关键词的概率值。
可选的,词典概率向量序列中包括的词典概率向量的数量与词向量表示序列中包括的词向量表示的数量值相一致。
S140、根据所述词典概率向量序列,生成与所述源文本对应的文本关键词。
其中,文本关键词可以指用于对源文本内容进行概述的关键词。
其中,可以根据所述词典概率向量序列中的每个词典概率向量,确定从词库中选择0个、1个或者多个词典词作为所述源文本的文本关键字。
可选的,可以预先设定一个概率阈值,进而可以从每个词典概率向量获取概率值大于或者等于该概率阈值的全部词典词作为文本关键词。当然,如果一个词典概率向量中包括的最大概率值也小于该概率阈值时,则说明书针对该词典概率向量无法有效提取文本关键词。
本发明实施例的技术方案,通过将与源文本对应的词向量表示序列分别输入至编码网络和序列标注网络,获取与源文本对应的第一类上下文表示序列和第二类上下文表示序列,再将词向量表示序列、第一类上下文表示序列和第二类上下文表示序列共同输入至译码网络中,获取译码网络输出的词典概率向量序列,最后根据词典概率向量序列,生成与所述源文本对应的文本关键词,解决了关键字的生成率较低的问题,能够尽可能多地生成与源文本对应的关键字,提高关键字的生成率。
实施例二
图2a为本发明实施例二提供的一种文本关键词的生成方法的流程图,本实施例以上述实施例为基础,将词向量表示序列、第一类上下文表示序列和第二类上下文表示序列共同输入至译码网络中,获取所述译码网络输出的词典概率向量序列的操作进行细化,具体可以为:将词向量表示序列、第一类上下文表示序列和第二类上下文表示序列共同输入至译码网络中;通过所述译码网络针对所述词向量表示序列,获取与每个文本词分别对应的目标隐藏层特征;通过所述译码网络根据每个文本词的目标隐藏层特征和所述第一类上下文表示序列,计算得到在每个文本词的作用下,词典中每个词典词的生成和OOV拷贝概率;通过所述译码网络根据每个文本词的目标隐藏层特征和所述第二类上下文表示序列,计算得到在每个文本词的作用下,词典中每个词典词的生成和种子词拷贝概率;通过所述译码网络根据在每个文本词的作用下,每个词典词的生成和OOV拷贝概率,以及生成和种子词拷贝概率,计算得到与每个文本词对应的词典概率向量,以得到所述词典概率向量序列。如图2a所示,该方法包括:
S210、获取与源文本对应的词向量表示序列,所述词向量表示序列中包括源文本中每个文本词的词向量表示。
具体的,在获取源文本之后,根据预设的向量转换机制得到源文本对应的词向量表示序列X,
Figure 52705DEST_PATH_IMAGE001
,其中,
Figure 227334DEST_PATH_IMAGE002
可以指源文本中第i个文本词的词向量表示;u 1 可以指词向量表示的维度,一个文本词对应一个u 1 维度的词向量表示;n可以指源文本的长度,即源文本中文本词的数量。
S220、将词向量表示序列输入至所述双向门控循环单元网络中;通过双向门控循环单元网络,获取与每个文本词分别对应的前向隐含状态和反向隐含状态。
具体的,将词向量表示序列
Figure 500184DEST_PATH_IMAGE003
输入双向门控循环单元网络中,从两个方向读取词向量表示序列,输出每个文本词分别对应的前向隐含状态
Figure 776575DEST_PATH_IMAGE004
和反向隐含状态
Figure 261914DEST_PATH_IMAGE005
。其中,u i+1可以表示后一个文本词的词向量表示序列,u i-1可以表示前一个文本词的词向量表示序列。
S230、通过双向门控循环单元网络,将与每个文本词分别对应的前向隐含状态和反向隐含状态进行特征拼接,得到与每个文本词分别对应的第一类上下文表示,以形成与源文本对应的第一类上下文表示序列。
具体的,将
Figure 166417DEST_PATH_IMAGE006
Figure 722686DEST_PATH_IMAGE007
级联在一起,组合成第i个文本词对应的第一类上下文表示u i ,其中,u i 的长度为2u 2
Figure 266800DEST_PATH_IMAGE008
。进而,将所有文本词对应的第一类上下文表示进行组合,得到与源文本对应的第一类上下文表示序列。
S240、将词向量表示序列输入至所述LSTM-CRF网络中;获取所述LSTM-CRF网络中的LSTM输出的每个文本词的隐含层特征,作为与每个文本词分别对应的第二类上下文表示,以形成与源文本对应的第二类上下文表示序列。
具体的,将第i个文本词对应的词向量表示
Figure 962354DEST_PATH_IMAGE009
输入至LSTM-CRF网络中,得到隐含层特征
Figure 377155DEST_PATH_IMAGE010
,作为第i个文本词对应的第二类上下文表示,进而,将所有文本词对应的第二类上下文表示进行组合,得到与源文本对应的第二类上下文表示序列。
S250、将词向量表示序列、第一类上下文表示序列和第二类上下文表示序列共同输入至译码网络中。
S260、通过所述译码网络针对所述词向量表示序列,获取与每个文本词分别对应的目标隐藏层特征。
具体的,可以根据公式
Figure 867173DEST_PATH_IMAGE011
计算第t个文本词对应的目标隐藏层特征St。其中,t-1可以指前一时间步;et-1可以指前一文本词yt-1对应的词向量表示。
其中,e0是“<BOS>”的词嵌入表示,“<BOS>”代表句首符号。
S270、通过所述译码网络根据每个文本词的目标隐藏层特征和所述第一类上下文表示序列,计算得到在每个文本词的作用下,词典中每个词典词的生成和OOV拷贝概率。
其中,生成和OOV拷贝概率可以指从OOV中拷贝单词以及从词典中生成单词的概率。其中,从OOV中拷贝单词的概率可以理解为直接使用源文本中的文本词但是超过原设定范围的词典中的词来作为关键词的概率。
在一个可选的实施方式中,如图2b所示,通过所述译码网络根据每个文本词的目标隐藏层特征和所述第一类上下文表示序列,计算得到在每个文本词的作用下,词典中每个词典词的生成和OOV拷贝概率,可以包括:
S2701、通过所述译码网络采用注意力机制算法,根据每个文本词的目标隐藏层特征和所述第一类上下文表示序列,计算得到每个文本词的第一注意力权重。
其中,第一注意力权重是源文本中文本词的注意力权重,示例性的,可以根据公式
Figure 367425DEST_PATH_IMAGE012
计算源文本中第t个文本词对应的第一注意力权重,
Figure 601091DEST_PATH_IMAGE013
可以指网络学习的权重。
如前所述,在将所述词向量表示序列输入至所述译码网络之后,该译码网络会针对每个文本词相应输出匹配的目标隐藏层特征S,其中,t个文本词对应的目标隐藏层特征为St
Figure 480185DEST_PATH_IMAGE014
为编码器输出的与源文本对应的第一类上下文表示序列,n为源文本中包括的文本词的数量值。attn(.)为预设的注意力计算函数,用于计算每个词典词对源文本中每个文本词的注意力权重特征。
S2702、通过所述译码网络将每个文本词的第一注意力权重与每个文本词的目标隐藏层特征进行特征拼接,并根据第一拼接结果,得到在每个文本词的作用下,词典中每个词典词的第一生成概率。
其中,第一拼接结果可以指将每个文本词的第一注意力权重
Figure 390373DEST_PATH_IMAGE015
与每个文本词的目标隐藏层特征St拼接后得到的结果。示例性的,可以使用公式
Figure 925390DEST_PATH_IMAGE016
表示第一拼接结果。
第一生成概率可以指当前时间步t产生词yt的概率,也即,每个词典词用于作为生成源文本的关键词的概率。示例性的,可以根据公式
Figure 753626DEST_PATH_IMAGE017
表示在t个文本词的作用下,词典中每个词典词的第一生成概率。其中, W v3 、W v4 b v3 以及b v4 为预先训练的译码网络的模型参数,
Figure 752806DEST_PATH_IMAGE018
为归一化指示函数。
S2703、通过所述译码网络计算得到每个文本词的目标隐藏层特征和第一类上下文表示之间的第一注意力得分,计算得到在每个文本词的作用下,词典中每个词典词的OOV拷贝概率。
其中,第t个文本词的第一注意力得分可以指目标隐藏层特征St与第一类上下文 表示ut之间的注意力得分,示例性的,可以根据公式
Figure 319048DEST_PATH_IMAGE019
获得,其中,
Figure 262733DEST_PATH_IMAGE020
指st 和ui之间的注意力得分,每当确定wi=yt(确定找到了相同词)时,将计算得到的
Figure 431677DEST_PATH_IMAGE020
,也即注 意力得分进行对应相加后得到
Figure 488626DEST_PATH_IMAGE019
。OOV拷贝概率可以指从OOV中拷贝的概 率,示例性的,可以通过公式
Figure 225769DEST_PATH_IMAGE021
计算得出。
S2704、通过所述译码网络对在每个文本词的作用下,每个词典词的所述第一生成概率与所述OOV拷贝概率通过门机制进行合并,得到在每个文本词的作用下,词典中每个词典词的生成和OOV拷贝概率。
可选的,所述通过门机制进行合并的方式,可以为按照1:1的合并比例将上述两个概率进行合并处理,或者按照固定的合并比例对上述两个概率进行合并,还可以根据源文本动态确定出合并比例,对上述两个概率进行合并,本实施例对此并不进行限制。
在一个可选的实施方式中,通过所述译码网络对在每个文本词的作用下,每个词典词的所述第一生成概率与所述OOV拷贝概率进行通过门机制进行合并,可以包括:
将每个文本词的前一文本词的词向量表示与每个文本词的第一拼接结果进行再次拼接,并采用预设的激活函数对拼接结果进行处理,得到第一合并权重;按照所述第一合并权重,对在每个文本词的作用下,每个词典词的所述第一生成概率与所述OOV拷贝概率通过门机制进行合并。
其中,第一合并权重可以指第一生成概率与OOV拷贝概率合并时的权重。
具体的,仍以源文本中的第t个文本词为例,可以将第t个文本词的前一文本词,也即,第t-1个文本词的词向量表示et-1与第t个文本词的第一拼接结果
Figure 407483DEST_PATH_IMAGE022
进行再次拼接,得到
Figure 770331DEST_PATH_IMAGE023
,之后,利用激活函数进行处理得到第一合并权重
Figure 472665DEST_PATH_IMAGE024
,最后,按照第一合并权重对第一生成概率与OOV拷贝概率通过门机制进行合并,得到在第t个文本词的作用下的生成和OOV拷贝概率
Figure 302080DEST_PATH_IMAGE025
其中,
Figure 830145DEST_PATH_IMAGE026
Figure 747416DEST_PATH_IMAGE027
为形如sigmoid函数的激活函数,
Figure 965908DEST_PATH_IMAGE028
Figure 841591DEST_PATH_IMAGE029
为预先训练的译码网络的模型参数。当然,本领域技术人员可以理解的是,还可以选取其他形式的激活函数,例如:tanh函数或者ReLU函数等,这里并不进行限制。
S280、通过所述译码网络根据每个文本词的目标隐藏层特征和所述第二类上下文表示序列,计算得到在每个文本词的作用下,词典中每个词典词的生成和种子词拷贝概率。
在一个可选的实施方式中,如图2c所示,通过所述译码网络根据每个文本词的目标隐藏层特征和所述第二类上下文表示序列,计算得到在每个文本词的作用下,词典中每个词典词的生成和种子词拷贝概率,可以包括:
S2801、通过所述译码网络采用注意力机制算法,根据每个文本词的目标隐藏层特征和所述第二类上下文表示序列,计算得到每个文本词的第二注意力权重。
其中,第二注意力权重可以指源文本中文本词的注意力权重,示例性的,可以根据公式
Figure 247165DEST_PATH_IMAGE030
计算与源文本中第t个文本词对应的第二注意力权重。
其中,
Figure 968127DEST_PATH_IMAGE031
为所述第二类上下文表示序列,
Figure 306705DEST_PATH_IMAGE032
可以指网络学习的权重。
S2802、通过所述译码网络将每个文本词的第二注意力权重与每个文本词的目标隐藏层特征进行特征拼接,并根据第二拼接结果,得到在每个文本词的作用下,词典中每个词典词的第二生成概率。
其中,第二拼接结果可以指将每个文本词的第二注意力权重
Figure 87710DEST_PATH_IMAGE033
与每个文本词的目标隐藏层特征St拼接后得到的结果。示例性的,可以使用公式
Figure 246159DEST_PATH_IMAGE034
表示第二拼接结果。第二生成概率可以指当前时间步t从词典中产生词yt的概率,也即,每个种子词用于作为生成源文本的关键词的概率。
示例性的,可以根据公式:
Figure 770812DEST_PATH_IMAGE035
表示在t个文本词的作用下,词典中每个种子词的第二生成概率。其中,W v1 、W v2 b v1 以及b v2 为预先训练的译码网络的模型参数,
Figure 229475DEST_PATH_IMAGE036
为归一化指示函数。
S2803、通过所述译码网络计算得到每个文本词的目标隐藏层特征和第二上下文表示之间的第二注意力得分,计算得到在每个文本词的作用下,词典中每个词典词的种子词拷贝概率。
其中,第t个文本词的第二注意力得分可以指目标隐藏层特征St与第二类上下文 表示vi之间的注意力得分,示例性的,可以根据公式
Figure 571595DEST_PATH_IMAGE037
获得,
Figure 561548DEST_PATH_IMAGE038
是St和序 列标注层vi之间的注意力得分,每当确定wi=yt(确定找到了相同词)时,将计算得到的
Figure 280105DEST_PATH_IMAGE038
,也即注意力得分进行对应相加后得到
Figure 931623DEST_PATH_IMAGE037
种子词拷贝概率可以指从种子词中拷贝的概率,示例性的,可以通过公式
Figure 444644DEST_PATH_IMAGE039
计算得出。
S2804、通过所述译码网络对在每个文本词的作用下,每个词典词的所述第二生成概率与所述种子词拷贝概率通过门机制进行合并,得到在每个文本词的作用下,词典中每个词典词的生成和种子词拷贝概率。
可选的,所述通过门机制进行合并的方式,可以为按照1:1的合并比例将上述两个概率进行合并处理,或者按照固定的合并比例对上述两个概率进行合并,还可以根据源文本动态确定出合并比例,对上述两个概率进行合并,本实施例对此并不进行限制。
在一个可选的实施方式中,通过所述译码网络对在每个文本词的作用下,每个词典词的所述第二生成概率与所述种子词拷贝概率通过门机制进行合并,可以包括:
将每个文本词的前一文本词的词向量表示与每个文本词的第二拼接结果进行再次拼接,并采用预设的激活函数对拼接结果进行处理,得到第二合并权重;按照所述第二合并权重,对在每个文本词的作用下,每个词典词的所述第二生成概率与所述种子词拷贝概率通过门机制进行合并。
其中,第二合并权重可以指第二生成概率与种子词拷贝概率合并时的权重。
具体的,仍以源文本中的第t个文本词为例,可以将第t个每个文本词的前一文本词,也即,第t-1个文本词的词向量表示et-1与第t个文本词的第二拼接结果
Figure 62838DEST_PATH_IMAGE040
进行再次拼接,得到
Figure 444141DEST_PATH_IMAGE041
,之后,利用激活函数进行处理得到第二合并权重
Figure 362550DEST_PATH_IMAGE042
,最后,按照第二合并权重对第二生成概率与种子词拷贝概率通过门机制进行合并,得到生成和种子词拷贝概率
Figure 639947DEST_PATH_IMAGE043
其中,
Figure 276596DEST_PATH_IMAGE044
Figure 930431DEST_PATH_IMAGE045
Figure 172188DEST_PATH_IMAGE046
为预先训练的译码网络的模型参数。
S290、通过所述译码网络根据在每个文本词的作用下,每个词典词的生成和OOV拷贝概率,以及生成和种子词拷贝概率,计算得到与每个文本词对应的词典概率向量,以得到所述词典概率向量序列。
具体的,在得到第t个文本词yt对应的生成和OOV拷贝概率,以及生成和种子词拷贝概率之后,可以将生成和OOV拷贝概率,以及生成和种子词拷贝概率进行加和,得到第t个文本词yt对应的词典概率向量,示例性的,如公式
Figure 886066DEST_PATH_IMAGE047
进而,将所有文本词对应的词典概率向量进行组合,得到词典概率向量序列。
S2100、根据所述词典概率向量序列,生成与所述源文本对应的文本关键词。
本发明实施例的技术方案,通过将与源文本对应的词向量表示序列输入至双向门控循环单元网络,获取与每个文本词分别对应的前向隐含状态和反向隐含状态;并将前向隐含状态和反向隐含状态进行特征拼接,得到与每个文本词分别对应的第一类上下文表示,以形成与源文本对应的第一类上下文表示序列;将与源文本对应的词向量表示序列输入至LSTM-CRF网络中,获取每个文本词的隐含层特征,作为与每个文本词分别对应的第二类上下文表示,以形成与源文本对应的第二类上下文表示序列;进而,将词向量表示序列、第一类上下文表示序列和第二类上下文表示序列共同输入至译码网络中,获取与每个文本词分别对应的目标隐藏层特征;根据每个文本词的目标隐藏层特征和第一类上下文表示序列,计算得到在每个文本词的作用下,词典中每个词典词的生成和超出词典词OOV拷贝概率;根据每个文本词的目标隐藏层特征和第二类上下文表示序列,计算得到在每个文本词的作用下,词典中每个词典词的生成和种子词拷贝概率;最终,根据在每个文本词的作用下,每个词典词的生成和OOV拷贝概率,以及生成和种子词拷贝概率,计算得到与每个文本词对应的词典概率向量,以得到所述词典概率向量序列,进而生成与所述源文本对应的文本关键词,解决了关键字的生成率较低的问题,能够尽可能多地生成与源文本对应的关键字,提高关键字的生成率。
图2d是根据本发明实施例二提供的一种文本关键词的生成方法的流程示意图。具体的,获取与源文本对应的词向量表示序列,并将词向量表示序列分别输入至编码网络和序列标注网络,获取与源文本对应的第一类上下文表示序列和第二类上下文表示序列;进一步的,将词向量表示序列、第一类上下文表示序列和第二类上下文表示序列共同输入至译码网络中,针对所述词向量表示序列,获取与每个文本词分别对应的目标隐藏层特征;通过OOV词拷贝机制根据每个文本词的目标隐藏层特征和第一类上下文表示序列,计算得到在每个文本词的作用下,词典中每个词典词的生成和OOV拷贝概率;通过种子词拷贝机制根据每个文本词的目标隐藏层特征和第二类上下文表示序列,计算得到在每个文本词的作用下,词典中每个词典词的生成和种子词拷贝概率;之后,根据在每个文本词的作用下,每个词典词的生成和OOV拷贝概率,以及生成和种子词拷贝概率,计算得到与每个文本词对应的词典概率向量,以得到词典概率向量序列;最终,根据词典概率向量序列,生成与源文本对应的文本关键词。
实施例三
图3为本发明实施例三提供的一种文本关键词的生成装置的结构示意图。如图3所示,该装置包括:词向量表示序列获取模块310、上下文表示序列获取模块320、译码模块330以及关键词生成模块340;
词向量表示序列获取模块310,用于获取与源文本对应的词向量表示序列,所述词向量表示序列中包括源文本中每个文本词的词向量表示;
上下文表示序列获取模块320,用于将词向量表示序列分别输入至编码网络和序列标注网络,获取与源文本对应的第一类上下文表示序列和第二类上下文表示序列;第二类上下文表示中包含有源文本中种子词的特征;
译码模块330,用于将词向量表示序列、第一类上下文表示序列和第二类上下文表示序列共同输入至译码网络中,获取所述译码网络输出的词典概率向量序列;每个词典概率向量中包括词典中的每个词典词被选择作为文本关键词的概率值;
关键词生成模块340,用于根据所述词典概率向量序列,生成与所述源文本对应的文本关键词。
本发明实施例的技术方案,通过将与源文本对应的词向量表示序列分别输入至编码网络和序列标注网络,获取与源文本对应的第一类上下文表示序列和第二类上下文表示序列,再将词向量表示序列、第一类上下文表示序列和第二类上下文表示序列共同输入至译码网络中,获取译码网络输出的词典概率向量序列,最后根据词典概率向量序列,生成与所述源文本对应的文本关键词,解决了关键字的生成率较低的问题,能够尽可能多地生成与源文本对应的关键字,提高关键字的生成率。
可选的,编码网络为预先训练的双向门控循环单元网络;
上下文表示序列获取模块320,具体可以用于:将词向量表示序列输入至所述双向门控循环单元网络中;通过双向门控循环单元网络,获取与每个文本词分别对应的前向隐含状态和反向隐含状态;通过双向门控循环单元网络,将与每个文本词分别对应的前向隐含状态和反向隐含状态进行特征拼接,得到与每个文本词分别对应的第一类上下文表示,以形成与源文本对应的第一类上下文表示序列。
可选的,序列标注网络为预先训练的LSTM-CRF网络; LSTM-CRF网络使用BIESO标签体系为输入序列添加标签;
上下文表示序列获取模块320,具体可以用于:将词向量表示序列输入至所述LSTM-CRF网络中;获取所述LSTM-CRF网络中的LSTM输出的每个文本词的隐含层特征,作为与每个文本词分别对应的第二类上下文表示,以形成与源文本对应的第二类上下文表示序列。
可选的,译码网络为单向门控循环单元网络;
译码模块330具体可以包括:数据输入单元、隐藏层特征获取单元、生成和OOV拷贝概率计算单元、生成和种子词拷贝概率计算单元以及词典概率向量计算单元;
其中,数据输入单元,用于将词向量表示序列、第一类上下文表示序列和第二类上下文表示序列共同输入至译码网络中;
隐藏层特征获取单元,用于通过所述译码网络针对所述词向量表示序列,获取与每个文本词分别对应的目标隐藏层特征;
生成和OOV拷贝概率计算单元,用于通过所述译码网络根据每个文本词的目标隐藏层特征和所述第一类上下文表示序列,计算得到在每个文本词的作用下,词典中每个词典词的生成和OOV拷贝概率;
生成和种子词拷贝概率计算单元,用于通过所述译码网络根据每个文本词的目标隐藏层特征和所述第二类上下文表示序列,计算得到在每个文本词的作用下,词典中每个词典词的生成和种子词拷贝概率;
词典概率向量计算单元,用于通过所述译码网络根据在每个文本词的作用下,每个词典词的生成和OOV拷贝概率,以及生成和种子词拷贝概率,计算得到与每个文本词对应的词典概率向量,以得到所述词典概率向量序列。
可选的,生成和OOV拷贝概率计算单元,具体可以用于:通过所述译码网络采用注意力机制算法,根据每个文本词的目标隐藏层特征和所述第一类上下文表示序列,计算得到每个文本词的第一注意力权重;通过所述译码网络将每个文本词的第一注意力权重与每个文本词的目标隐藏层特征进行特征拼接,并根据第一拼接结果,得到在每个文本词的作用下,词典中每个词典词的第一生成概率;通过所述译码网络计算得到每个文本词的目标隐藏层特征和第一类上下文表示之间的第一注意力得分,计算得到在每个文本词的作用下,词典中每个词典词的OOV拷贝概率;通过所述译码网络对在每个文本词的作用下,每个词典词的所述第一生成概率与所述OOV拷贝概率通过门机制进行合并,得到在每个文本词的作用下,词典中每个词典词的生成和OOV拷贝概率。
可选的,生成和种子词拷贝概率计算单元,具体可以用于:通过所述译码网络采用注意力机制算法,根据每个文本词的目标隐藏层特征和所述第二类上下文表示序列,计算得到每个文本词的第二注意力权重;通过所述译码网络将每个文本词的第二注意力权重与每个文本词的目标隐藏层特征进行特征拼接,并根据第二拼接结果,得到在每个文本词的作用下,词典中每个词典词的第二生成概率;通过所述译码网络计算得到每个文本词的目标隐藏层特征和第二上下文表示之间的第二注意力得分,计算得到在每个文本词的作用下,词典中每个词典词的种子词拷贝概率;通过所述译码网络对在每个文本词的作用下,每个词典词的所述第二生成概率与所述种子词拷贝概率通过门机制进行合并,得到在每个文本词的作用下,词典中每个词典词的生成和种子词拷贝概率。
可选的,生成和OOV拷贝概率计算单元,具体可以用于:将每个文本词的前一文本词的词向量表示与每个文本词的第一拼接结果进行再次拼接,并采用预设的激活函数对拼接结果进行处理,得到第一合并权重;按照所述第一合并权重,对在每个文本词的作用下,每个词典词的所述第一生成概率与所述OOV拷贝概率通过门机制进行合并;
生成和种子词拷贝概率计算单元,具体可以用于:将每个文本词的前一文本词的词向量表示与每个文本词的第二拼接结果进行再次拼接,并采用预设的激活函数对拼接结果进行处理,得到第二合并权重;按照所述第二合并权重,对在每个文本词的作用下,每个词典词的所述第二生成概率与所述种子词拷贝概率通过门机制进行合并。
本发明实施例所提供的文本关键词的生成装置可执行本发明任意实施例所提供的文本关键词的生成方法,具备执行方法相应的功能模块和有益效果。
实施例四
图4示出了可以用来实施本发明的实施例的电子设备410的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图4所示,电子设备410包括至少一个处理器420,以及与至少一个处理器420通信连接的存储器,如只读存储器(ROM)430、随机访问存储器(RAM)440等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器420可以根据存储在只读存储器(ROM)430中的计算机程序或者从存储单元490加载到随机访问存储器(RAM)440中的计算机程序,来执行各种适当的动作和处理。在RAM 440中,还可存储电子设备410操作所需的各种程序和数据。处理器420、ROM 430以及RAM440通过总线450彼此相连。输入/输出(I/O)接口460也连接至总线450。
电子设备410中的多个部件连接至I/O接口460,包括:输入单元470,例如键盘、鼠标等;输出单元480,例如各种类型的显示器、扬声器等;存储单元490,例如磁盘、光盘等;以及通信单元4100,例如网卡、调制解调器、无线通信收发机等。通信单元4100允许电子设备410通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器420可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器420的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器420执行上文所描述的各个方法和处理,例如文本关键词的生成方法。
该方法包括:
获取与源文本对应的词向量表示序列,所述词向量表示序列中包括源文本中每个文本词的词向量表示;
将词向量表示序列分别输入至编码网络和序列标注网络,获取与源文本对应的第一类上下文表示序列和第二类上下文表示序列;第二类上下文表示中包含有源文本中种子词的特征;
将词向量表示序列、第一类上下文表示序列和第二类上下文表示序列共同输入至译码网络中,获取所述译码网络输出的词典概率向量序列;每个词典概率向量中包括词典中的每个词典词被选择作为文本关键词的概率值;
根据所述词典概率向量序列,生成与所述源文本对应的文本关键词。
在一些实施例中,文本关键词的生成方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元490。在一些实施例中,计算机程序的部分或者全部可以经由ROM 430和/或通信单元4100而被载入和/或安装到电子设备410上。当计算机程序加载到RAM 440并由处理器420执行时,可以执行上文描述的文本关键词的生成方法的一个或多个步骤。备选地,在其他实施例中,处理器420可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文本关键词的生成方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种文本关键词的生成方法,其特征在于,包括:
获取与源文本对应的词向量表示序列,所述词向量表示序列中包括源文本中每个文本词的词向量表示;
将词向量表示序列分别输入至编码网络和序列标注网络,获取与源文本对应的第一类上下文表示序列和第二类上下文表示序列;第二类上下文表示中包含有源文本中种子词的特征;
将词向量表示序列、第一类上下文表示序列和第二类上下文表示序列共同输入至译码网络中,获取所述译码网络输出的词典概率向量序列;每个词典概率向量中包括词典中的每个词典词被选择作为文本关键词的概率值;
根据所述词典概率向量序列,生成与所述源文本对应的文本关键词。
2.根据权利要求1所述的方法,其特征在于,所述编码网络为预先训练的双向门控循环单元网络;
将词向量表示序列输入至编码网络,获取与源文本对应的第一类上下文表示序列,包括:
将词向量表示序列输入至所述双向门控循环单元网络中;
通过双向门控循环单元网络,获取与每个文本词分别对应的前向隐含状态和反向隐含状态;
通过双向门控循环单元网络,将与每个文本词分别对应的前向隐含状态和反向隐含状态进行特征拼接,得到与每个文本词分别对应的第一类上下文表示,以形成与源文本对应的第一类上下文表示序列。
3.根据权利要求1所述的方法,其特征在于,所述序列标注网络为预先训练的LSTM-CRF网络;所述LSTM-CRF网络使用BIESO标签体系为输入序列添加标签;
将词向量表示序列输入至序列标注网络,获取与源文本对应的第二类上下文表示序列,包括:
将词向量表示序列输入至所述LSTM-CRF网络中;
获取所述LSTM-CRF网络中的LSTM输出的每个文本词的隐含层特征,作为与每个文本词分别对应的第二类上下文表示,以形成与源文本对应的第二类上下文表示序列。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述译码网络为单向门控循环单元网络;
将词向量表示序列、第一类上下文表示序列和第二类上下文表示序列共同输入至译码网络中,获取所述译码网络输出的词典概率向量序列,包括:
将词向量表示序列、第一类上下文表示序列和第二类上下文表示序列共同输入至译码网络中;
通过所述译码网络针对所述词向量表示序列,获取与每个文本词分别对应的目标隐藏层特征;
通过所述译码网络根据每个文本词的目标隐藏层特征和所述第一类上下文表示序列,计算得到在每个文本词的作用下,词典中每个词典词的生成和超出词典词OOV拷贝概率;
通过所述译码网络根据每个文本词的目标隐藏层特征和所述第二类上下文表示序列,计算得到在每个文本词的作用下,词典中每个词典词的生成和种子词拷贝概率;
通过所述译码网络根据在每个文本词的作用下,每个词典词的生成和OOV拷贝概率,以及生成和种子词拷贝概率,计算得到与每个文本词对应的词典概率向量,以得到所述词典概率向量序列。
5.根据权利要求4所述的方法,其特征在于,通过所述译码网络根据每个文本词的目标隐藏层特征和所述第一类上下文表示序列,计算得到在每个文本词的作用下,词典中每个词典词的生成和OOV拷贝概率,包括:
通过所述译码网络采用注意力机制算法,根据每个文本词的目标隐藏层特征和所述第一类上下文表示序列,计算得到每个文本词的第一注意力权重;
通过所述译码网络将每个文本词的第一注意力权重与每个文本词的目标隐藏层特征进行特征拼接,并根据第一拼接结果,得到在每个文本词的作用下,词典中每个词典词的第一生成概率;
通过所述译码网络计算得到每个文本词的目标隐藏层特征和第一类上下文表示之间的第一注意力得分,计算得到在每个文本词的作用下,词典中每个词典词的OOV拷贝概率;
通过所述译码网络对在每个文本词的作用下,每个词典词的所述第一生成概率与所述OOV拷贝概率通过门机制进行合并,得到在每个文本词的作用下,词典中每个词典词的生成和OOV拷贝概率。
6.根据权利要求5所述的方法,其特征在于,通过所述译码网络根据每个文本词的目标隐藏层特征和所述第二类上下文表示序列,计算得到在每个文本词的作用下,词典中每个词典词的生成和种子词拷贝概率,包括:
通过所述译码网络采用注意力机制算法,根据每个文本词的目标隐藏层特征和所述第二类上下文表示序列,计算得到每个文本词的第二注意力权重;
通过所述译码网络将每个文本词的第二注意力权重与每个文本词的目标隐藏层特征进行特征拼接,并根据第二拼接结果,得到在每个文本词的作用下,词典中每个词典词的第二生成概率;
通过所述译码网络计算得到每个文本词的目标隐藏层特征和第二上下文表示之间的第二注意力得分,计算得到在每个文本词的作用下,词典中每个词典词的种子词拷贝概率;
通过所述译码网络对在每个文本词的作用下,每个词典词的所述第二生成概率与所述种子词拷贝概率通过门机制进行合并,得到在每个文本词的作用下,词典中每个词典词的生成和种子词拷贝概率。
7.根据权利要求6所述的方法,其特征在于,通过所述译码网络对在每个文本词的作用下,每个词典词的所述第一生成概率与所述OOV拷贝概率通过门机制进行合并,包括:
将每个文本词的前一文本词的词向量表示与每个文本词的第一拼接结果进行再次拼接,并采用预设的激活函数对拼接结果进行处理,得到第一合并权重;
按照所述第一合并权重,对在每个文本词的作用下,每个词典词的所述第一生成概率与所述OOV拷贝概率通过门机制进行合并;
通过所述译码网络对在每个文本词的作用下,每个词典词的所述第二生成概率与所述种子词拷贝概率通过门机制进行合并,包括:
将每个文本词的前一文本词的词向量表示与每个文本词的第二拼接结果进行再次拼接,并采用预设的激活函数对拼接结果进行处理,得到第二合并权重;
按照所述第二合并权重,对在每个文本词的作用下,每个词典词的所述第二生成概率与所述种子词拷贝概率通过门机制进行合并。
8.一种文本关键词的生成装置,其特征在于,包括:
词向量表示序列获取模块,用于获取与源文本对应的词向量表示序列,所述词向量表示序列中包括源文本中每个文本词的词向量表示;
上下文表示序列获取模块,用于将词向量表示序列分别输入至编码网络和序列标注网络,获取与源文本对应的第一类上下文表示序列和第二类上下文表示序列;第二类上下文表示中包含有源文本中种子词的特征;
译码模块,用于将词向量表示序列、第一类上下文表示序列和第二类上下文表示序列共同输入至译码网络中,获取所述译码网络输出的词典概率向量序列;每个词典概率向量中包括词典中的每个词典词被选择作为文本关键词的概率值;
关键词生成模块,用于根据所述词典概率向量序列,生成与所述源文本对应的文本关键词。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的文本关键词的生成方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的文本关键词的生成方法。
CN202211025888.5A 2022-08-25 2022-08-25 一种文本关键词的生成方法、装置、设备及介质 Active CN115130470B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211025888.5A CN115130470B (zh) 2022-08-25 2022-08-25 一种文本关键词的生成方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211025888.5A CN115130470B (zh) 2022-08-25 2022-08-25 一种文本关键词的生成方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN115130470A true CN115130470A (zh) 2022-09-30
CN115130470B CN115130470B (zh) 2022-11-22

Family

ID=83387470

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211025888.5A Active CN115130470B (zh) 2022-08-25 2022-08-25 一种文本关键词的生成方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN115130470B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117786092A (zh) * 2024-02-27 2024-03-29 成都晓多科技有限公司 一种商品评论关键短语提取方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111078865A (zh) * 2019-12-24 2020-04-28 北京百度网讯科技有限公司 文本标题生成方法和装置
CN112183083A (zh) * 2020-08-31 2021-01-05 杭州远传新业科技有限公司 文摘自动生成方法、装置、电子设备及存储介质
CN112528655A (zh) * 2020-12-18 2021-03-19 北京百度网讯科技有限公司 关键词生成方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111078865A (zh) * 2019-12-24 2020-04-28 北京百度网讯科技有限公司 文本标题生成方法和装置
CN112183083A (zh) * 2020-08-31 2021-01-05 杭州远传新业科技有限公司 文摘自动生成方法、装置、电子设备及存储介质
CN112528655A (zh) * 2020-12-18 2021-03-19 北京百度网讯科技有限公司 关键词生成方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117786092A (zh) * 2024-02-27 2024-03-29 成都晓多科技有限公司 一种商品评论关键短语提取方法及系统
CN117786092B (zh) * 2024-02-27 2024-05-14 成都晓多科技有限公司 一种商品评论关键短语提取方法及系统

Also Published As

Publication number Publication date
CN115130470B (zh) 2022-11-22

Similar Documents

Publication Publication Date Title
KR102577514B1 (ko) 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체
JP7264866B2 (ja) イベント関係の生成方法、装置、電子機器及び記憶媒体
CN113553412B (zh) 问答处理方法、装置、电子设备和存储介质
CN112528655B (zh) 关键词生成方法、装置、设备及存储介质
JP2022151649A (ja) 音声認識モデルのトレーニング方法、装置、機器、および記憶媒体
CN114861889B (zh) 深度学习模型的训练方法、目标对象检测方法和装置
CN113053367A (zh) 语音识别方法、语音识别的模型训练方法以及装置
CN113010678B (zh) 分类模型的训练方法、文本分类方法及装置
CN115640520B (zh) 跨语言跨模态模型的预训练方法、设备和存储介质
CN115631261B (zh) 图像生成模型的训练方法、图像生成方法和装置
CN115062718A (zh) 语言模型训练方法、装置、电子设备及存储介质
CN115130470B (zh) 一种文本关键词的生成方法、装置、设备及介质
CN114647727A (zh) 应用于实体信息识别的模型训练方法、装置和设备
CN115269768A (zh) 要素文本处理方法、装置、电子设备和存储介质
CN112948584A (zh) 短文本分类方法、装置、设备以及存储介质
CN114880520B (zh) 视频标题生成方法、装置、电子设备和介质
CN115860003A (zh) 一种语义角色分析方法、装置、电子设备及存储介质
CN115563242A (zh) 汽车信息筛选方法、装置、电子设备及存储介质
CN112560437B (zh) 文本通顺度的确定方法、目标模型的训练方法及装置
CN115357710A (zh) 表格描述文本生成模型的训练方法、装置及电子设备
CN117371447A (zh) 命名实体识别模型的训练方法、装置及存储介质
CN114491030A (zh) 技能标签的抽取、候选短语分类模型的训练方法及装置
CN112784600A (zh) 信息排序方法、装置、电子设备和存储介质
CN113360602B (zh) 用于输出信息的方法、装置、设备以及存储介质
CN116738973B (zh) 一种搜索意图识别方法、构建预测模型的方法和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant