CN109902273B

CN109902273B - 关键词生成模型的建模方法和装置

Info

Publication number: CN109902273B
Application number: CN201910090894.0A
Authority: CN
Inventors: 王健宗; 贾雪丽
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-01-30
Filing date: 2019-01-30
Publication date: 2024-05-07
Anticipated expiration: 2039-01-30
Also published as: WO2020155769A1; CN109902273A

Abstract

本申请提供了一种关键词生成模型的建模方法和装置，该方法包括：获取样本数据，该样本数据包括样本文本和该样本文本的M_i个样本关键词；根据该样本文本和该M_i个样本关键词，确定该样本数据对应的M_i个文本‑关键词对，该M_i个文本‑关键词对中的第i个文本‑关键词对包括该样本文本和第i个样本关键词；根据该M_i个文本‑关键词对和编码器‑解码器模型，建立该关键词生成模型，其中，该编码器‑解码器模型包括编码器模型和解码器模型，该关键词生成模型用于表示该样本文本中的词语序列和样本关键词中的词语序列之间的映射关系。采用本申请提供的关键词生成模型的建模方法和装置，能够建立有效提取文本关键词的模型。

Description

关键词生成模型的建模方法和装置

技术领域

本申请涉及智能决策领域，并且更具体地，涉及智能决策领域中关键词生成模型的建模方法和装置。

背景技术

关键词是一段简短的总结性内容，表达了较长文本的主要语义含义。关键词的典型用法是在科学出版物中提供论文的核心信息。高质量的关键短语可以帮助理解，组织和访问文档内容。

现有技术中，通常通过以下两种方法提取文本中的关键词:

第一种思路是利用统计信息，典型的有TF-IDF方法，通过计算文本中词的出现频率，以及在整个文档库中的出现频率来确定词的关键程度；第二中思路是利用语义信息，比如keygraph算法，通过建立文本的图表达来发现文本中字的聚类，从而获得最能表现这段文字的字，作为关键词。

RNN(递归神经网络)组合Encoder-Decoder(编码解码器)的模型作为一种端对端的模型，为变长的语句建模提供了强大的工具，在自然语言处理领域有有着广泛的应用。

因此，如何建立能够从文本中提取出高质量关键词的关键件词生成模型是一个亟待解决的问题。

发明内容

本申请提供一种关键词生成模型的建模方法和装置，能够建立有效提取文本关键词的模型。

为实现上述目的，本申请提供一种关键词生成模型的建模方法，包括以下内容：

获取样本数据，所述样本数据包括样本文本和所述样本文本的M_i个样本关键词，所述样本文本包括和每个样本关键词均为词语序列，M_i为大于1的整数；

根据所述样本文本和所述M_i个样本关键词，确定所述样本数据对应的M_i个文本-关键词对，所述M_i个文本-关键词对中的第i个文本-关键词对包括所述样本文本和第i个样本关键词，i为大于0且小于或等于M_i的整数；

根据所述M_i个文本-关键词对和编码器-解码器模型，建立所述关键词生成模型，其中，所述编码器-解码器模型包括编码器模型和解码器模型，所述关键词生成模型用于表示所述样本文本中的词语序列和样本关键词中的词语序列之间的映射关系。

在一种可能的实现方式中，所述方法还包括：获取目标文本，所述目标文本为词语序列；根据所述目标文本和所述关键词生成模型，生成所述目标文本的目标关键词。

在一种可能的实现方式中，根据所述目标文本和所述关键词生成模型，生成所述目标文本的目标关键词，包括：根据所述编码器模型对所述目标文本进行编码，得到隐藏表达式；根据所述隐藏表达式和预设的非线性函数，得到上下文向量；根据所述解码器模型对所述上下文向量进行解编码，得到所述目标关键词。

在一种可能的实现方式中，根据所述目标文本和所述关键词生成模型，生成所述目标文本的目标关键词，包括：根据所述编码器模型对所述目标文本进行编码，得到隐藏表达式；根据所述隐藏表达式和所述隐藏表达式中每个词语序列的权重，得到上下文向量；根据所述解码器模型对所述上下文向量进行解编码，得到所述目标关键词。

在一种可能的实现方式中，所述编码器模型和所述解码器模型均为RNN。

在一种可能的实现方式中，所述编码器模型为GRU，所述解码器模型为前向GRU。

为实现上述目的，本申请还提供一种关键词生成模型的建模装置，该装置具体包括：

获取单元，用于获取样本数据，所述样本数据包括样本文本和所述样本文本的M_i个样本关键词，所述样本文本和每个样本关键词均为词语序列，M_i为大于1的整数；

确定单元，用于根据所述样本文本和所述M_i个样本关键词，确定所述样本数据对应的M_i个文本-关键词对，所述M_i个文本-关键词对中的第i个文本-关键词对包括所述样本文本和第i个样本关键词，i为大于0且小于或等于M_i的整数；

建立单元，用于根据所述M_i个文本-关键词对和编码器-解码器模型，建立所述关键词生成模型，其中，所述编码器-解码器模型包括编码器模型和解码器模型，所述关键词生成模型用于表示所述样本文本中的词语序列和样本关键词中的词语序列之间的映射关系。

在一种可能的实现方式中，所述装置还包括生成单元；所述获取单元还用于获取目标文本，所述目标文本为词语序列；所述生成单元用于根据所述目标文本和所述关键词生成模型，生成所述目标文本的目标关键词。

在一种可能的实现方式中，所述生成单元具体用于根据所述编码器模型对所述目标文本进行编码，得到隐藏表达式；根据所述隐藏表达式和预设的非线性函数，得到上下文向量；根据所述解码器模型对所述上下文向量进行解编码，得到所述目标关键词。

在一种可能的实现方式中，所述生成单元具体用于根据所述编码器模型对所述目标文本进行编码，得到隐藏表达式；根据所述隐藏表达式和所述隐藏表达式中每个词语序列的权重，得到上下文向量；根据所述解码器模型对所述上下文向量进行解编码，得到所述目标关键词。

为实现上述目的，本申请还提供一种文本关键词的生成装置，该装置具体包括：

所述获取单元还用于获取目标文本，所述目标文本为词语序列；

生成单元，用于根据所述目标文本和所述关键词生成模型，生成所述目标文本的目标关键词。

为实现上述目的，本申请还提供一种计算机设备，包括存储器、处理器、通信接口以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述存储器、所述处理器以及所述通信接口之间通过内部连接通路互相通信，所述处理器执行所述计算机程序时实现上述方法的以下步骤：

获取样本数据，所述样本数据包括样本文本和所述样本文本的M_i个样本关键词，所述样本文本和每个样本关键词均为词语序列，M_i为大于1的整数；

为实现上述目的，本申请还提供计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的以下步骤：

本申请实施例提供的关键词生成模型的建模方法、装置、计算机设备和计算机可读存储介质中，

附图说明

图1是本申请实施例提供的关键词生成模型的建模方法的示意性流程图；

图2是本申请实施例提供的文本关键词的生成方法的示意性流程图；

图3是本申请实施例提供的关键词生成模型的建模装置的示意性框图；

图4是本申请实施例提供的另一关键词生成模型的建模装置示意性框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1示出了本申请实施例提供的关键词生成模型的建模方法100的示意性流程图。应理解，该方法100可以由关键词生成模型的建模装置执行。

可选地，该装置可以为具有计算功能和通信接口的装置，例如，移动终端，更进一步地，该装置可以为移动终端中的功能模块。

该方法100包括如下步骤：

S110，获取样本数据，所述样本数据包括样本文本和所述样本文本的M_i个样本关键词，所述样本文本和每个样本关键词均为词语序列，M_i为大于1的整数；

S120，根据所述样本文本和所述M_i个样本关键词，确定所述样本数据对应的M_i个文本-关键词对，所述M_i个文本-关键词对中的第i个文本-关键词对包括所述样本文本和第i个样本关键词，i为大于0且小于或等于M_i的整数；

S130，根据所述M_i个文本-关键词对和编码器-解码器模型，建立所述关键词生成模型，其中，所述编码器-解码器模型包括编码器模型和解码器模型，所述关键词生成模型用于表示所述样本文本中的词语序列和样本关键词中的词语序列之间的映射关系。

需要说明的是，该文本关键词数据集中包括若干用于训练模型的“文本-关键词”对，其中，文本指出版物的标题和摘要，关键词指出版物的作者分配的关键词。

可选地，所述方法还包括：获取目标文本，所述目标文本为词语序列；根据所述目标文本和所述关键词生成模型，生成所述目标文本的目标关键词。

在一种可能的方式中，根据所述目标文本和所述关键词生成模型，生成所述目标文本的目标关键词，包括：根据所述编码器模型对所述目标文本进行编码，得到隐藏表达式；根据所述隐藏表达式和预设的非线性函数，得到上下文向量；根据所述解码器模型对所述上下文向量进行解编码，得到所述目标关键词。

可选地，本申请实施例中的关键词生成模型可以为多种深度学习模型，本申请实施例对此不作限定。

在一种可能的实现方式中，所述编码器模型和所述解码器模型均为RNN(recursive neural network，递归神经网络)。

例如，假设给定的关键词数据集包括N个样本数据时，其中，第i个样本数据为(x⁽ⁱ⁾,p⁽ⁱ⁾)，包括一个样本文本x⁽ⁱ⁾和M_i个样本关键词样本文本x⁽ⁱ⁾和样本关键词p^(i,j)都是词语序列，如公式(1)和公式(2)所示：

其中，L_x(i)和L_p(i,j)分别代表词序列x⁽ⁱ⁾和p^(i,j)的长度。

由于每个样本数据包含一个样本文本多个样本关键词，为了应用RNN编码器-解码器模型，需要将样本数据转换为仅包含一个样本文本词序列和一个样本关键词序列的文本-关键词对。所以将(x⁽ⁱ⁾,p⁽ⁱ⁾)重新定义为M_i对，如公式(3)所示：

为简单起见，下面用(x,y)表示样本数据，其中x表示样本文本，y表示样本关键词。

应理解，关键词生成模型的基本思想是将样本文本的词语序列的内容压缩成带有编码器模型的隐藏表示，并基于该隐藏表示与解码器模型一起生成相应的样本关键词的词语序列。

那么，编码器模型将可变长度输入序列x＝(x₁,x₂,...,x_t)转换为一组隐藏表示h＝(h₁,h₂,...,h_t)，通过沿时间t迭代得到以下公式(4)：

h_t＝f(x_t,h_t-1) (4)

其中，公式(4)是一个非线性方程，通过非线性函数q得到上下文向量c作为整个输入x的表示，上下文向量c如公式(5)所示：

c＝q(h₁,h₂,...,h_t) (5)

接下来，解码器模型通过条件语言模型解压缩上下文向量c并逐个字地生成可变长度的序列y＝(y₁,y₂,...,y_t)，

其中，s_t＝f(y_t-1,s_t-1,c)，p(y_t|y_1,...,t-1,x)＝g(y_t-1,s_t,c)，s_t是时间t时解码器模型的隐藏状态，非线性函数g是一个softmax分类器，它输出词汇表中所有单词的概率。y_t是t时刻的预测词，通常取g(·)之后的概率最大的词。

应理解，在给定样本文本词序列的情况下，编码器模型和解码器模型网络被联合训练以用于最大化目标序列的条件概率。训练后，使用波束搜索生成关键词，并保留最大堆以获得具有最高概率的预测关键词序列。

在另一种可能的实现方式中，所述编码器模型为GRU，所述解码模型为前向GRU。

需要说明的是，GRU(bidirectional gated recurrent unit，双向门控递归单元)可以被用作编码器来代替简单的RNN，它与其他LSTM(long short-term memory，长期短期记忆网络)相比，通常可以提供比简单RNN和更简单结构更好的语言建模性能。因此，可以采用用GRU替代上述的f函数，前向GRU被用作解码器。此外，还采用了关注机制来提高性能。关注机制使模型动态地关注输入中的重要部分。

因此，在另一种可能的实现方式中，根据所述目标文本和所述关键词生成模型，生成所述目标文本的目标关键词，包括：根据所述编码器模型对所述目标文本进行编码，得到隐藏表达式；根据所述隐藏表达式和所述隐藏表达式中每个词语序列的权重，得到上下文向量；根据所述解码器模型对所述上下文向量进行解编码，得到所述目标关键词。

例如，上述上下文向量c被计算为隐藏表示h＝(h₁,h₂,...,h_t)的加权和，如公式(6)所示：

c_i＝∑α_ijh_j (6)

其中，a(s_i-1,h_j)是一个用来测量s_i-1,h_j之间相似度的一个软对齐函数，即位置j周围的输入与位置i处的输出相匹配的程度。

更进一步地，为了确保学习表示的质量和缩小词汇量，RNN模型通常考虑一定数量的频繁词汇，但是大量的长尾关键词可能会被忽略，也就是说，RNN不能回忆任何包含词外单词的关键词。

实际上，一些比较重要的短语也可以通过其上下文中的位置和语法信息来识别，尽管它们的确切含义是未知的。因此，可以采用复制机制使RNN能够通过从文本中选择适当的单词来预测词汇单词以外的单词。

需要说明的是，长尾关键词(Long Tail Keyword)是非目标关键词但与目标关键词相关的具有相同或类似意思的组合型关键词。

例如：以“汽车”为目标关键词，“敞篷汽车”是根据该产品特点拓展的长尾关键词。

又例如：以“除湿机”为目标关键词，“工业用途除湿机”是根据应用领域拓展的长尾关键词。

又例如：以“童装”为目标关键词，“童装批发市场，童装代理商，童装品牌加盟”都是通过商业模式拓展的长尾关键词。

又例如：以“英语培训”为目标关键词，“英语培训机构，英语培训中心，英语培训学校”都是通过企业性质拓展的长尾关键词。

又例如：以“护手霜”为目标关键词，“护手霜直销，护手霜团购，护手霜网购”都是根据销售模式拓展的长尾关键词。

又例如：以“减肥”为目标关键词，“我要减肥，减肥用什么药”都是通过网民搜索意图拓展的长尾关键词。

因此，通过结合复制机制，预测每个新词y_t的概率由两部分组成。第一项是产生这个词的概率，第二项是从目标文本中复制它的概率，如公式(7)所示：

p(y_t|y_1,...,t-1,x)＝p_g(y_t|y_1,...,t-1,x)+p_c(y_t|y_1,...,t-1,x) (7)

其中，χ是文本x中所有独特词的集合，/>σ是非线性函数，W_c∈R是学习参数矩阵。z是所有分数的总和，用于归一化。

类似于关注机制，复制机制将目标文本中每个单词的重要性与位置关注的度量进行加权。但与预测词汇中所有单词的下一个单词的生成RNN不同，复制部分p_c(y_t|y_1,...,t-1,x)仅考虑目标文本中的单词。

需要说明的是，一方面，具有复制机制的RNN能够预测词源超出词汇但在目标文本中的单词；另一方面，该模型可能会优先考虑出现的单词，这些单词迎合了大多数关键词往往出现在目标文本中的事实。

图2示出了本申请实施例提供的文本关键词的生成方法200的示意性流程图。应理解，该方法200可以由文本关键词的生成方法执行。

该方法200包括如下步骤：

S210，获取样本数据，所述样本数据包括样本文本和所述样本文本的M_i个样本关键词，所述样本文本和每个样本关键词均为词语序列，M_i为大于1的整数。

S220，根据所述样本文本和所述M_i个样本关键词，确定所述样本数据对应的M_i个文本-关键词对，所述M_i个文本-关键词对中的第i个文本-关键词对包括所述样本文本和第i个样本关键词，i为大于0且小于或等于M_i的整数。

S230，根据所述M_i个文本-关键词对和编码器-解码器模型，建立所述关键词生成模型，其中，所述编码器-解码器模型包括编码器模型和解码器模型，所述关键词生成模型用于表示所述样本文本中的词语序列和样本关键词中的词语序列之间的映射关系。

S240，获取目标文本，所述目标文本为词语序列。

S250，根据所述目标文本和所述关键词生成模型，生成所述目标文本的目标关键词

上面结合图1和图2介绍了本申请实施例提供的关键词生成模型的建模方法和文本关键词的生成方法，下面将结合图3和图4介绍本申请实施例提供的文本关键词的生成置。

图3示出了本申请实施例提供的关键词生成模型的建模装置300的示意性框图。该装置300包括：

获取单元310，用于获取样本数据，所述样本数据包括样本文本和所述样本文本的M_i个样本关键词，所述样本文本和每个样本关键词均为词语序列，M_i为大于1的整数；

确定单元320，用于根据所述样本文本和所述M_i个样本关键词，确定所述样本数据对应的M_i个文本-关键词对，所述M_i个文本-关键词对中的第i个文本-关键词对包括所述样本文本和第i个样本关键词，i为大于0且小于或等于M_i的整数；

建立单元330，用于根据所述M_i个文本-关键词对和编码器-解码器模型，建立所述关键词生成模型，其中，所述编码器-解码器模型包括编码器模型和解码器模型，所述关键词生成模型用于表示所述样本文本中的词语序列和样本关键词中的词语序列之间的映射关系。

图4示出了本申请实施例提供的关键词生成模型的建模装置400的示意性框图。该装置400可以为图3中所述的装置300，该装置400可以采用如图4所示的硬件架构。该装置400可以包括处理器410、通信接口420和存储器430，该处理器410、通信接口420和存储器430通过内部连接通路互相通信。图3中的确定单元320和建立单元330所实现的相关功能可以由处理器410来实现。图3中的获取单元310所实现的相关功能可以由处理器410控制通信接口420来实现。

该处理器410可以包括是一个或多个处理器，例如包括一个或多个中央处理单元(central processing unit，CPU)，在处理器是一个CPU的情况下，该CPU可以是单核CPU，也可以是多核CPU。

该通信接口420用于输入和/或输出数据。该通信接口可以包括发送接口和接收接口，发送接口用于输出数据，接收接口用于输入数据。

该存储器530包括但不限于是随机存取存储器(random access memory，RAM)、只读存储器(read-only memory，ROM)、可擦除可编程存储器(erasable programmable readonly memory，EPROM)、只读光盘(compact disc read-only memory，CD-ROM)，该存储器530用于存储相关指令及数据。

存储器430用于存储该装置的程序代码和数据，可以为单独的器件或集成在处理器410中。

具体地，所述处理器410用于控制通信接口420调用存储器430中存储的代码指令并执行该代码指令。具体可参见方法实施例中的描述，在此不再赘述。

可以理解的是，图4仅仅示出了装置的简化设计。在实际应用中，该装置400还可以分别包含必要的其他元件，包含但不限于任意数量的通信接口、处理器、控制器、存储器等，而所有可以实现本申请的装置都在本申请的保护范围之内。

在一种可能的设计中，该装置400可以被替换为芯片装置，例如可以为可用于该装置中的芯片，用于实现该装置中处理器410的相关功能。该芯片装置可以为实现相关功能的现场可编程门阵列，专用集成芯片，系统芯片，中央处理器，网络处理器，数字信号处理电路，微控制器，还可以采用可编程控制器或其他集成芯片。该芯片中，可选的可以包括一个或多个存储器，用于存储程序代码，当所述代码被执行时，使得处理器实现相应的功能。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种关键词生成模型的建模方法，其特征在于，包括：

根据所述M_i个文本-关键词对和编码器-解码器模型，建立所述关键词生成模型，其中，所述编码器-解码器模型包括编码器模型和解码器模型，所述关键词生成模型用于表示所述样本文本中的词语序列和样本关键词中的词语序列之间的映射关系；

所述方法还包括：

获取目标文本，所述目标文本为词语序列；

根据所述目标文本和所述关键词生成模型，生成所述目标文本的目标关键词。

2.根据权利要求1所述的方法，其特征在于，根据所述目标文本和所述关键词生成模型，生成所述目标文本的目标关键词，包括：

根据所述编码器模型对所述目标文本进行编码，得到隐藏表达式；

根据所述隐藏表达式和预设的非线性函数，得到上下文向量；

根据所述解码器模型对所述上下文向量进行解编码，得到所述目标关键词。

3.根据权利要求1所述的方法，其特征在于，根据所述目标文本和所述关键词生成模型，生成所述目标文本的目标关键词，包括：

根据所述隐藏表达式和所述隐藏表达式中每个词语序列的权重，得到上下文向量；

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述编码器模型和所述解码器模型均为RNN。

5.根据权利要求1至3中任一项所述的方法，其特征在于，所述编码器模型为GRU，所述解码器模型为前向GRU。

6.一种关键词生成模型的建模装置，其特征在于，包括：

建立单元，用于根据所述M_i个文本-关键词对和编码器-解码器模型，建立所述关键词生成模型，其中，所述编码器-解码器模型包括编码器模型和解码器模型，所述关键词生成模型用于表示所述样本文本中的词语序列和样本关键词中的词语序列之间的映射关系；

所述装置还包括生成单元；

所述生成单元用于根据所述目标文本和所述关键词生成模型，生成所述目标文本的目标关键词。

7.一种计算机设备，包括存储器、处理器、显示器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述存储器、所述处理器以及所述显示器之间通过内部连接通路互相通信，其特征在于，所述处理器控制所述显示器执行所述计算机程序时实现上述权利要求1至5中任一项所述的方法的步骤。

8.一种计算机可读存储介质，用于存储计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述权利要求1至5中任一项所述的方法的步骤。