CN110457700B

CN110457700B - 短文本描述方法和装置

Info

Publication number: CN110457700B
Application number: CN201910723855.XA
Authority: CN
Inventors: 赵文涛; 朱成璋; 刘丹; 李倩; 李盼
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2019-08-07
Filing date: 2019-08-07
Publication date: 2020-04-21
Anticipated expiration: 2039-08-07
Also published as: CN110457700A

Abstract

本申请涉及一种短文本描述方法、装置、计算机设备和存储介质。所述方法包括：获取待描述短文本的词嵌入矩阵和字符嵌入矩阵，将词嵌入矩阵和字符嵌入矩阵分别输入预先设置的掩码卷积网络，得到词嵌入矩阵对应的词层面卷积特征和字符嵌入矩阵对应的字符层面卷积特征，将词层面卷积特征和字符层面卷积特征分别输入预先设置的递归神经网络模型，得到词层面卷积特征对应的词层面向量表示和字符层面卷积特征对应的字符层面向量表示，对词层面向量表示和字符层面向量表示进行叠加，得到待描述短文本的短文本描述。采用本方法能够提高短文本描述的准确性。

Description

短文本描述方法和装置

技术领域

本申请涉及计算机技术领域，特别是涉及一种短文本描述方法和装置。

背景技术

伴随着移动互联网和通讯技术的迅速发展，基于社交媒体、手机短信等的短文本信息进入了爆发式的增长阶段。这一类的短文本往往具有词汇少、非正式表达多、拼写错误常见几大特点。如何有效的将此类短文本嵌入到向量空间中进行深入挖掘分析具有极大的研究价值，也在诸如情感分析、顾客流失检测、问题检索和个性化推荐等各类实际应用场景中发挥着重要的作用。

现有针对短文本描述的研究方法中，大多依赖于噪声识别和稀疏扩展两大技术。然而，在许多应用的短文本识别中，短文本中的噪声形式多样、变化迅速，现有方法大多无法自适应进行识别。此外，将稀疏的短文本显式扩展为高质量密集文本更是非常困难，因此，根据目前的短文本描述无法准确解析出短文本表达的意思。

发明内容

基于此，有必要针对上述技术问题，提供一种能够解决短文本描述不够准确问题的短文本描述方法、装置、计算机设备和存储介质。

一种短文本描述方法，所述方法包括：

获取待描述短文本的词嵌入矩阵和字符嵌入矩阵；

将所述词嵌入矩阵和所述字符嵌入矩阵分别输入预先设置的掩码卷积网络，得到所述词嵌入矩阵对应的词层面卷积特征和所述字符嵌入矩阵对应的字符层面卷积特征；

将所述词层面卷积特征和所述字符层面卷积特征分别输入预先设置的递归神经网络模型，得到所述词层面卷积特征对应的词层面向量表示和所述字符层面卷积特征对应的字符层面向量表示；

对所述词层面向量表示和所述字符层面向量表示进行叠加，得到所述待描述短文本的短文本描述。

在其中一个实施例中，还包括：获取预先设置的词嵌入转换矩阵；根据所述词嵌入转换矩阵，将所述待描述短文本转换为词嵌入矩阵；获取预先设置的字符嵌入转换矩阵；根据所述字符嵌入转换矩阵，将所述待描述短文本转换为字符嵌入矩阵。

在其中一个实施例中，所述掩码卷积网络包括：词掩码卷积网络和字符掩码卷积网络；还包括：将所述词嵌入矩阵输入多个相同尺寸的词掩码卷积网络，得到对应数量的所述词嵌入矩阵对应的词特征向量；所述词掩码卷积网络的宽度是根据所述词嵌入矩阵的向量维度确定的；根据所述词特征向量，得到词层面卷积特征；将所述字符嵌入矩阵输入多个相同尺寸的字符掩码卷积网络，得到对应数量的所述词嵌入矩阵对应的字符特征向量；所述掩码卷积网络的宽度是根据所述字符嵌入矩阵的向量维度确定的；根据所述字符特征向量，得到字符层面特征。

在其中一个实施例中，所述掩码卷积网络包括掩码过滤器和掩码矩阵；所述掩码过滤器为权重矩阵；所述权重矩阵与所述掩码矩阵相位相乘对所述掩码卷积网络进行打码；还包括：根据所述权重矩阵的行组合，设置多个掩码矩阵；根据所述权重矩阵对应的掩码过滤器和多个所述掩码矩阵，设置对应数量的掩码卷积网络；将所述词嵌入矩阵和所述字符嵌入矩阵分别输入多个所述掩码卷积网络，得到所述词嵌入矩阵对应的词卷积矩阵和所述字符嵌入矩阵对应的字符卷积矩阵；采用跨过滤器的最大池化方法对所述词卷积矩阵进行合成，得到词层面卷积特征；采用跨过滤器的最大池化方法对所述字符卷积矩阵进行合成，得到字符层面卷积特征。

在其中一个实施例中，还包括：采用线性激活函数作为所述掩码卷积网络的非线性函数。

在其中一个实施例中，还包括：将通过不同高度的所述掩码卷积网络输出的词层面卷积特征输入预先设置的递归神经网络模型，得到所述词层面卷积特征对应的词层面向量表示；将通过不同高度的所述掩码卷积网络输出的字符层面卷积特征输入预先设置的递归神经网络模型，得到所述字符层面卷积特征对应的字符层面向量表示。

在其中一个实施例中，还包括：将所述词层面向量表示和所述字符层面向量表示合成为合成表示矩阵；根据所述合成表示矩阵的转置矩阵，得到所述待描述短文本的短文本描述。

一种短文本描述装置，所述装置包括：

数据获取模块，用于获取待描述短文本的词嵌入矩阵和字符嵌入矩阵；

卷积处理模块，用于将所述词嵌入矩阵和所述字符嵌入矩阵分别输入预先设置的掩码卷积网络，得到所述词嵌入矩阵对应的词层面卷积特征和所述字符嵌入矩阵对应的字符层面卷积特征；

神经网络处理模块，用于将所述词层面卷积特征和所述字符层面卷积特征分别输入预先设置的递归神经网络模型，得到所述词层面卷积特征对应的词层面向量表示和所述字符层面卷积特征对应的字符层面向量表示；

合成模块，用于对所述词层面向量表示和所述字符层面向量表示进行叠加，得到所述待描述短文本的短文本描述。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待描述短文本的词嵌入矩阵和字符嵌入矩阵；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待描述短文本的词嵌入矩阵和字符嵌入矩阵；

上述短文本描述方法、装置、计算机设备和存储介质，通过提取短文本的词嵌入矩阵和字符嵌入矩阵，将词嵌入矩阵和字符嵌入矩阵输入掩码卷积网络和递归神经网络模型，从掩码卷积网络和递归神经网络模型对短文本进行特征提取，学习短文本中多粒度噪声容忍模式，通过多粒度的噪声容忍模式，即解决了短文本中的噪声问题，还解决了短文本中稀疏问题，从而生成准确的短文本描述。

附图说明

图1为一个实施例中短文本描述方法的应用场景图；

图2为一个实施例中短文本描述方法的流程示意图；

图3为一个实施例中获取待描述短文本的词嵌入矩阵和字符嵌入矩阵步骤的流程示意图；

图4为一个实施例中得到词层面卷积特征和字符层面卷积特征步骤的流程示意图；

图5为一个实施例中掩码卷积网络的结构示意图；

图6为一个实施例中获取词层面卷积特征和字符层面卷积特征步骤的流程示意图；

图7为一个实施例中跨过滤器的工作模式的流程示意图；

图8为一个实施例中短文本描述装置的结构框图；

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的短文本描述方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

具体的，终端102是用户的手持终端，用户在终端102中编辑出短文本，服务器104通过网络接收到终端102发送的短文本，执行对该短文本的转化。具体转化时，服务器104可以包括数据库，服务器104将终端102发送的短文本保存在数据库中，服务器104从数据库中取出短文本，确定该短文本为待描述短文本，并且获取待描述短文本的词嵌入矩阵和字符嵌入矩阵，然后分别将词嵌入矩阵和字符嵌入矩阵输入预先设置好的掩码卷积网络，得到词嵌入矩阵对应的词层面卷积特征和字符嵌入矩阵对应的字符层面卷积特征。然后将词层面卷积特征和字符层面卷积特征分别输入预先设置的递归神经网络模型，得到词层面卷积特征对应的词层面向量表示和字符层面卷积特征对应的字符层面向量表示。最后通过向量叠加的方式得到待描述短文本的短文本描述。通过提取学习多粒度的短文本特征，可以执行对短文本的准确表示。

在一个实施例中，如图2所示，提供了一种短文本描述方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，获取待描述短文本的词嵌入矩阵和字符嵌入矩阵。

词嵌入矩阵表示把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量，本步骤中词指的是对待描述短文本进行词提取得到的词。

同理，字符嵌入矩阵表示把一个维数为所有字符的数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个字符被映射为实数域上的向量，本步骤中字符指的是对待描述短文本进行字符提取得到的。

短文本指的是字数较少、内容不明显的文本，例如：留言、短信、消息、短邮件等，可以采用短文本分类的方法，识别文本是否为短文本。

步骤204，将词嵌入矩阵和字符嵌入矩阵分别输入预先设置的掩码卷积网络，得到词嵌入矩阵对应的词层面卷积特征和字符嵌入矩阵对应的字符层面卷积特征。

掩码卷积网络指的是带有掩码操作的卷积神经网络，掩码操作可以过滤掉矩阵中的噪声。从而解决短文本中噪声大的问题。

词层面卷积特征和字符层面卷积特征可以是向量形式或者矩阵形式。

在具体实现时，分别设置不同的掩码卷积网络，分别处理词嵌入矩阵和字符嵌入矩阵，从而实现二者同步处理。

步骤206，将词层面卷积特征和字符层面卷积特征分别输入预先设置的递归神经网络模型，得到词层面卷积特征对应的词层面向量表示和字符层面卷积特征对应的字符层面向量表示。

递归神经网络模型(Recursive Neural Network,RNN)，是一种深度学习算法，可以解决掩码卷积网络的输出的广度依赖关系。

步骤208，对词层面向量表示和字符层面向量表示进行叠加，得到待描述短文本的短文本描述。

通过对词层面向量表示和字符层面向量表示进行叠加，使得最终结果融合字符训练得到的结果和词训练得到的结果，从而进一步提高文本表示的准确性。

上述短文本描述方法中，通过提取短文本的词嵌入矩阵和字符嵌入矩阵，将词嵌入矩阵和字符嵌入矩阵输入掩码卷积网络和递归神经网络模型，从掩码卷积网络和递归神经网络模型对短文本进行特征提取，学习短文本中多粒度噪声容忍模式，通过多粒度的噪声容忍模式，即解决了短文本中的噪声问题，还解决了短文本中稀疏问题，从而生成准确的短文本描述。

对于步骤202，在其中一个实施例中，解决了如何获取待描述短文本的词嵌入矩阵和字符嵌入矩阵，如图3所示，具体步骤如下：

步骤302，获取预先设置的词嵌入转换矩阵。

步骤304，根据词嵌入转换矩阵，将待描述短文本转换为词嵌入矩阵。

步骤306，获取预先设置的字符嵌入转换矩阵。

步骤308，根据字符嵌入转换矩阵，将待描述短文本转换为字符嵌入矩阵。

本实施例中，通过设置嵌入转换矩阵，在获取到待转换短文本时，可以之间将待转换短文本转换为嵌入矩阵。

对于步骤302和步骤304，在一具体实施例中，给定短文本为

通过查询得到词嵌入转换矩阵为

那么通过该词嵌入转换矩阵，可以将短文本T转化为词嵌入矩阵

其中，n_w表示短文本中的最大单词数量，n_W表示预设语料库中词汇个数，n_e ^w表示词嵌入的向量维度。

具体的，词嵌入转换矩阵T_w是服务器预先训练好的，随着训练数据的增加，在训练过程中不断优化更新词嵌入转换矩阵T_w中元素的值。

对于步骤306和步骤308，在一具体实施例中，对于给定的

通过查询得到字符嵌入转换矩阵

通过该字符嵌入转换矩阵，可以将短文本T转化为字符嵌入矩阵

其中，n_c表示短文本中最大字符数量，n_C表示预设语料库行中字符个数，n_e ^c表示字符嵌入的相连维度。

具体的，字符嵌入转换矩阵T_c是服务器预先训练好的，随着训练数据的增加，在训练过程中不断优化更新字符嵌入转换矩阵T_c中元素的值。字符嵌入转换矩阵T_c初始可以采用随机矩阵。

对于步骤204，在其中一个实施例中，由于词嵌入矩阵和字符嵌入矩阵的向量维度不同，因此在设置掩码卷积网络中过滤器的宽度时，需要根据词嵌入矩阵的向量维度，设置词掩码卷积网络的宽度，根据字符嵌入矩阵的向量维度确定字符掩码卷积网络的宽度。

在另一实施例中，如图4所示，可以采用如下步骤得到词层面卷积特征和字符层面卷积特征：

步骤402，将词嵌入矩阵输入多个相同尺寸的词掩码卷积网络，得到对应数量的词嵌入矩阵对应的词特征向量。

步骤404，根据词特征向量，得到词层面卷积特征。

步骤406，将字符嵌入矩阵输入多个相同尺寸的字符掩码卷积网络，得到对应数量的词嵌入矩阵对应的字符特征向量。

字符掩码卷积网络的宽度是根据字符嵌入矩阵的向量维度确定的。

步骤408，根据字符特征向量，得到字符层面特征。

本实施例中，通过掩码卷积网络，对词嵌入矩阵和字符嵌入矩阵进行处理，从而根据掩码卷积矩阵输出的向量，得到词层面卷积特征和字符层面卷积特征，从而得到的特征，可以捕获到词与词之间或者字符与字符之间的相同粒度的不同种类的关系。

对于步骤402和步骤404，在一个实施例中，将词嵌入矩阵

输入预先设置的词掩码卷积网络矩阵，输出词特征向量

其中，

表示掩码卷积网络的高度，对于向量o_mcw中的第k个位置为：

其中，o_k为第k个位置的元素，M_i,j为掩码矩阵中的元素W_i,j为权重矩阵中的元素，E_k+i-1,j为词嵌入矩阵中的元素，b表示一个偏置项，g(·)为一个非线性函数。因此，对于多个掩码卷积网络，可以输出多个词特征向量，记作

其中，nf表示掩码卷积网络的个数。可以采用矩阵O_mcw作为词层面卷积特征。

具体的，非线性函数可以采用线性激活函数，即ReLU函数，其中满足

偏置项

对于步骤406和步骤408，在另一个实施例中，将字符嵌入矩阵

输入预先设置的字符掩码卷积网络矩阵，输出字符特征向量

其中，

表示掩码卷积网络的宽度，对于向量o_mcc中的第k个位置为：

其中，o_k为第k个位置的元素，M_i,j为掩码矩阵中的元素W_i,j为权重矩阵中的元素，E_k+i-1,j为字符嵌入矩阵中的元素，b表示一个偏置项，g(·)为一个非线性函数。因此，对于多个掩码卷积网络，可以输出多个词特征向量，记作

其中，nf表示掩码卷积网络的个数。可以采用矩阵O_mcc作为词层面卷积特征。

偏置项

上述实施例中，通过多个相同尺寸的掩码卷积网络，相同尺寸指的是，可以提取出输入数据在相同粒度的不同种类的关系，从而利于解决短文本的噪声容忍问题。

在一个实施例中，掩码卷积网络在执行掩码操作时，通过权重矩阵与掩码矩阵相位相乘对掩码卷积网络进行打码，通过对权重矩阵中的权重进行打码，从而可以实现掩码卷积网络的特征向量输出。因此，掩码卷积网络由掩码过滤器和掩码矩阵构成，掩码过滤器即权重矩阵，如图5所示，一个掩码卷积网络中包括若干个掩码过滤器以及与其数量对应的掩码矩阵。

在另一个实施例中，可以采用如下步骤获取词层面卷积特征和字符层面卷积特征，如图6所示，具体步骤如下：

步骤602，根据权重矩阵的行组合，设置多个掩码矩阵。

行组合指的是第一行和第二行为一个行组合，第一行也可以是一个行组合，即，对于高度为

的卷积网络，共有

个组合，因此，可以设置

个掩码矩阵。

步骤604，根据权重矩阵对应的掩码过滤器和多个所述掩码矩阵，设置对应数量的掩码卷积网络。

步骤606，将词嵌入矩阵和字符嵌入矩阵分别输入多个掩码卷积网络，得到词嵌入矩阵对应的词卷积矩阵和字符嵌入矩阵对应的字符卷积矩阵。

步骤608，采用跨过滤器的最大池化方法对词卷积矩阵进行合成，得到词层面卷积特征。

步骤610，采用跨过滤器的最大池化方法对字符卷积矩阵进行合成，得到字符层面卷积特征。

本实施例中，由于赞声可能出现在正常单词或者字符之间的任何位置，因此，可以采取不同位置的掩码方式，以应对任意位置的噪声。

对于步骤606，在一实施例中，由于上述多个相同尺寸的掩码卷积网络可以生成一个词层面卷积特征O_mcw或者一个字符层面卷积特征O_mcc，因此，在不同位置掩码时，可以直接得到词卷积矩阵为

以及字符卷积矩阵

对于步骤608和步骤610，在得到卷积矩阵时，可以采用跨过滤器的最大池化方法将得到的词卷积矩阵和字符卷积矩阵合成统一的词层面卷积特征和字符层面卷积特征。在具体实现时，跨过滤器的最大池化方法对比不同卷积矩阵中相同位置的值，并且选取这些值中最大的作为层面卷积特征中在该位置的值，形式上，词层面卷积特征中在(i，j)位置的值得计算方法为：

其中，

指的是矩阵O_mcw中第k个词层面卷积特征O_mcw中(i，j)位置的值，同理可以得到字符层面卷积特征。本实施例中，词层面卷积特征O_mcw和字符层面卷积特征O_mcc中，每个元素之间存在一种模式关系，一个位置上的值越大，表示该模式关系越显著，通过跨过滤器的最大池化方法，掩码卷积网络总可以捕捉到短文本中对于噪声容忍的最显著模式。

跨过滤器的工作模式如图7所示，其中黑色区域为掩码位置，另外，图7中一组掩码矩阵和掩码过滤器表示多个相同掩码卷积网络。

在一个实施例中，在得到词层面向量表示时，需要将通过不同高度的掩码卷积网络输出的词层面卷积特征输入预先设置的递归神经网络模型，得到词层面卷积特征对应的词层面向量表示。在得到字符层面向量表示时，需要将通过不同高度的掩码卷积网络输出的字符层面卷积特征输入预先设置的递归神经网络模型，得到字符层面卷积特征对应的字符层面向量表示。本实施例中，由于采用了不同高度的掩码卷积网络，因此可以捕获到多种粒度的模式关系，从而提高文本表示准确性。

在另一实施例中，在计算短文本描述时，可以将词层面向量表示和字符层面向量表示合成为合成表示矩阵，根据合成表示矩阵的转置矩阵，得到待描述短文本的短文本描述。

具体的，递归神经网络模型可以采用门控递归单元实现，将词层面卷积特征输入门控递归单元，得到门控递归单元输出的h_tw，对于词层面卷积特征中的第t行，门控递归单元的输出

可由此进行如下计算：

其中，

表示递归神经网络输出的向量维度，

是sigmoid函数，

是tanh函数，

是重置门，

是更新门。U^z,U^r,U^h,V^z,V^r以及

是门控递归单元中的转换矩阵。同理可以得到字符层面卷积特征输入门控递归单元的输出

设置掩码卷积网络的高度，例如分别为2、3、4，得到3个不同的词层面卷积特征输出，和3个不同的字符层面卷积特征输出，采用一个跨递归网络的最大池化方法，将3个不同的词层面卷积特征输出合成为词层面向量表示，将3个不同的字符层面卷积特征输出合成为字符层面向量表示。

具体的，词层面向量表示中第i个位置的计算公式为

其中，

为3个不同递归神经网络的输出，字符层面向量表示中第i个位置的计算公式为

其中，

为3个不同递归神经网络的输出。将词层面向量表示

和字符层面的递归网络输出

合成为一个统一的向量作为短文本描述：

应该理解的是，虽然图2-4、6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-4、6中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图8所示，提供了一种短文本描述装置，包括：数据获取模块802、卷积处理模块804、神经网络处理模块806和合成模块808，其中：

数据获取模块802，用于获取待描述短文本的词嵌入矩阵和字符嵌入矩阵；

卷积处理模块804，用于将所述词嵌入矩阵和所述字符嵌入矩阵分别输入预先设置的掩码卷积网络，得到所述词嵌入矩阵对应的词层面卷积特征和所述字符嵌入矩阵对应的字符层面卷积特征；

神经网络处理模块806，用于将所述词层面卷积特征和所述字符层面卷积特征分别输入预先设置的递归神经网络模型，得到所述词层面卷积特征对应的词层面向量表示和所述字符层面卷积特征对应的字符层面向量表示；

合成模块808，用于对所述词层面向量表示和所述字符层面向量表示进行叠加，得到所述待描述短文本的短文本描述。

在其中一个实施例中，数据获取模块802还用于获取预先设置的词嵌入转换矩阵；根据所述词嵌入转换矩阵，将所述待描述短文本转换为词嵌入矩阵；获取预先设置的字符嵌入转换矩阵；根据所述字符嵌入转换矩阵，将所述待描述短文本转换为字符嵌入矩阵。

在其中一个实施例中，所述掩码卷积网络包括：词掩码卷积网络和字符掩码卷积网络；卷积处理模块804还用于将所述词嵌入矩阵输入多个相同尺寸的词掩码卷积网络，得到对应数量的所述词嵌入矩阵对应的词特征向量；所述词掩码卷积网络的宽度是根据所述词嵌入矩阵的向量维度确定的；根据所述词特征向量，得到词层面卷积特征；将所述字符嵌入矩阵输入多个相同尺寸的字符掩码卷积网络，得到对应数量的所述词嵌入矩阵对应的字符特征向量；所述字符掩码卷积网络的宽度是根据所述字符嵌入矩阵的向量维度确定的；根据所述字符特征向量，得到字符层面特征。

在其中一个实施例中，所述掩码卷积网络包括掩码过滤器和掩码矩阵；所述掩码过滤器为权重矩阵；所述权重矩阵与所述掩码矩阵相位相乘对所述掩码卷积网络进行打码；卷积处理模块804还用于根据所述权重矩阵的行组合，设置多个掩码矩阵；根据所述权重矩阵对应的掩码过滤器和多个所述掩码矩阵，设置对应数量的掩码卷积网络；将所述词嵌入矩阵和所述字符嵌入矩阵分别输入多个所述掩码卷积网络，得到所述词嵌入矩阵对应的词卷积矩阵和所述字符嵌入矩阵对应的字符卷积矩阵；采用跨过滤器的最大池化方法对所述词卷积矩阵进行合成，得到词层面卷积特征；采用跨过滤器的最大池化方法对所述字符卷积矩阵进行合成，得到字符层面卷积特征。

在其中一个实施例中，卷积处理模块804还用于采用线性激活函数作为所述掩码卷积网络的非线性函数。

在其中一个实施例中，神经网络处理模块806还用于将通过不同高度的所述掩码卷积网络输出的词层面卷积特征输入预先设置的递归神经网络模型，得到所述词层面卷积特征对应的词层面向量表示；将通过不同高度的所述掩码卷积网络输出的字符层面卷积特征输入预先设置的递归神经网络模型，得到所述字符层面卷积特征对应的字符层面向量表示。

在其中一个实施例中，合成模块808还用于将所述词层面向量表示和所述字符层面向量表示合成为合成表示矩阵；根据所述合成表示矩阵的转置矩阵，得到所述待描述短文本的短文本描述。

关于短文本描述装置的具体限定可以参见上文中对于短文本描述方法的限定，在此不再赘述。上述短文本描述装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储短文本数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种短文本描述方法。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取待描述短文本的词嵌入矩阵和字符嵌入矩阵；

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取预先设置的词嵌入转换矩阵；根据所述词嵌入转换矩阵，将所述待描述短文本转换为词嵌入矩阵；获取预先设置的字符嵌入转换矩阵；根据所述字符嵌入转换矩阵，将所述待描述短文本转换为字符嵌入矩阵。

在一个实施例中，所述掩码卷积网络包括：词掩码卷积网络和字符掩码卷积网络；处理器执行计算机程序时还实现以下步骤：将所述词嵌入矩阵输入多个相同尺寸的词掩码卷积网络，得到对应数量的所述词嵌入矩阵对应的词特征向量；所述词掩码卷积网络的宽度是根据所述词嵌入矩阵的向量维度确定的；根据所述词特征向量，得到词层面卷积特征；将所述字符嵌入矩阵输入多个相同尺寸的字符掩码卷积网络，得到对应数量的所述词嵌入矩阵对应的字符特征向量；所述字符掩码卷积网络的宽度是根据所述字符嵌入矩阵的向量维度确定的；根据所述字符特征向量，得到字符层面特征。

在一个实施例中，所述掩码卷积网络包括掩码过滤器和掩码矩阵；所述掩码过滤器为权重矩阵；所述权重矩阵与所述掩码矩阵相位相乘对所述掩码卷积网络进行打码；处理器执行计算机程序时还实现以下步骤：根据所述权重矩阵的行组合，设置多个掩码矩阵；根据所述权重矩阵对应的掩码过滤器和多个所述掩码矩阵，设置对应数量的掩码卷积网络；将所述词嵌入矩阵和所述字符嵌入矩阵分别输入多个所述掩码卷积网络，得到所述词嵌入矩阵对应的词卷积矩阵和所述字符嵌入矩阵对应的字符卷积矩阵；采用跨过滤器的最大池化方法对所述词卷积矩阵进行合成，得到词层面卷积特征；采用跨过滤器的最大池化方法对所述字符卷积矩阵进行合成，得到字符层面卷积特征。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：采用线性激活函数作为所述掩码卷积网络的非线性函数。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将通过不同高度的所述掩码卷积网络输出的词层面卷积特征输入预先设置的递归神经网络模型，得到所述词层面卷积特征对应的词层面向量表示；将通过不同高度的所述掩码卷积网络输出的字符层面卷积特征输入预先设置的递归神经网络模型，得到所述字符层面卷积特征对应的字符层面向量表示。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将所述词层面向量表示和所述字符层面向量表示合成为合成表示矩阵；根据所述合成表示矩阵的转置矩阵，得到所述待描述短文本的短文本描述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取待描述短文本的词嵌入矩阵和字符嵌入矩阵；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取预先设置的词嵌入转换矩阵；根据所述词嵌入转换矩阵，将所述待描述短文本转换为词嵌入矩阵；获取预先设置的字符嵌入转换矩阵；根据所述字符嵌入转换矩阵，将所述待描述短文本转换为字符嵌入矩阵。

在一个实施例中，所述掩码卷积网络包括：词掩码卷积网络和字符掩码卷积网络；计算机程序被处理器执行时还实现以下步骤：将所述词嵌入矩阵输入多个相同尺寸的词掩码卷积网络，得到对应数量的所述词嵌入矩阵对应的词特征向量；所述词掩码卷积网络的宽度是根据所述词嵌入矩阵的向量维度确定的；根据所述词特征向量，得到词层面卷积特征；将所述字符嵌入矩阵输入多个相同尺寸的字符掩码卷积网络，得到对应数量的所述词嵌入矩阵对应的字符特征向量；所述字符掩码卷积网络的宽度是根据所述字符嵌入矩阵的向量维度确定的；根据所述字符特征向量，得到字符层面特征。

在一个实施例中，所述掩码卷积网络包括掩码过滤器和掩码矩阵；所述掩码过滤器为权重矩阵；所述权重矩阵与所述掩码矩阵相位相乘对所述掩码卷积网络进行打码；计算机程序被处理器执行时还实现以下步骤：根据所述权重矩阵的行组合，设置多个掩码矩阵；根据所述权重矩阵对应的掩码过滤器和多个所述掩码矩阵，设置对应数量的掩码卷积网络；将所述词嵌入矩阵和所述字符嵌入矩阵分别输入多个所述掩码卷积网络，得到所述词嵌入矩阵对应的词卷积矩阵和所述字符嵌入矩阵对应的字符卷积矩阵；采用跨过滤器的最大池化方法对所述词卷积矩阵进行合成，得到词层面卷积特征；采用跨过滤器的最大池化方法对所述字符卷积矩阵进行合成，得到字符层面卷积特征。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：采用线性激活函数作为所述掩码卷积网络的非线性函数。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：将通过不同高度的所述掩码卷积网络输出的词层面卷积特征输入预先设置的递归神经网络模型，得到所述词层面卷积特征对应的词层面向量表示；将通过不同高度的所述掩码卷积网络输出的字符层面卷积特征输入预先设置的递归神经网络模型，得到所述字符层面卷积特征对应的字符层面向量表示。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：将所述词层面向量表示和所述字符层面向量表示合成为合成表示矩阵；根据所述合成表示矩阵的转置矩阵，得到所述待描述短文本的短文本描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种短文本描述方法，所述方法包括：

获取待描述短文本的词嵌入矩阵和字符嵌入矩阵；

对所述词层面向量表示和所述字符层面向量表示进行叠加，得到所述待描述短文本的短文本描述；

所述掩码卷积网络包括：词掩码卷积网络和字符掩码卷积网络；

将所述词嵌入矩阵和所述字符嵌入矩阵分别输入预先设置的掩码卷积网络，得到所述词嵌入矩阵对应的词层面卷积特征和所述字符嵌入矩阵对应的字符层面卷积特征，包括：

将所述词嵌入矩阵输入多个相同尺寸的词掩码卷积网络，得到对应数量的所述词嵌入矩阵对应的词特征向量；所述词掩码卷积网络的宽度是根据所述词嵌入矩阵的向量维度确定的；

根据所述词特征向量，得到词层面卷积特征；

将所述字符嵌入矩阵输入多个相同尺寸的字符掩码卷积网络，得到对应数量的所述词嵌入矩阵对应的字符特征向量；所述字符掩码卷积网络的宽度是根据所述字符嵌入矩阵的向量维度确定的；

根据所述字符特征向量，得到字符层面特征。

2.根据权利要求1所述的方法，其特征在于，所述获取待描述短文本的词嵌入矩阵和字符嵌入矩阵，包括：

获取预先设置的词嵌入转换矩阵；

根据所述词嵌入转换矩阵，将所述待描述短文本转换为词嵌入矩阵；

获取预先设置的字符嵌入转换矩阵；

根据所述字符嵌入转换矩阵，将所述待描述短文本转换为字符嵌入矩阵。

3.根据权利要求1所述的方法，其特征在于，所述掩码卷积网络包括掩码过滤器和掩码矩阵；所述掩码过滤器为权重矩阵；所述权重矩阵与所述掩码矩阵相位相乘对所述掩码卷积网络进行打码；

根据所述权重矩阵的行组合，设置多个掩码矩阵；

根据所述权重矩阵对应的掩码过滤器和多个所述掩码矩阵，设置对应数量的掩码卷积网络；

将所述词嵌入矩阵和所述字符嵌入矩阵分别输入多个所述掩码卷积网络，得到所述词嵌入矩阵对应的词卷积矩阵和所述字符嵌入矩阵对应的字符卷积矩阵；

采用跨过滤器的最大池化方法对所述词卷积矩阵进行合成，得到词层面卷积特征；

采用跨过滤器的最大池化方法对所述字符卷积矩阵进行合成，得到字符层面卷积特征。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

采用线性激活函数作为所述掩码卷积网络的非线性函数。

5.根据权利要求1至4任一项所述的方法，其特征在于，将所述词层面卷积特征和所述字符层面卷积特征分别输入预先设置的递归神经网络模型，得到所述词层面卷积特征对应的词层面向量表示和所述字符层面卷积特征对应的字符层面向量表示，包括：

将通过不同高度的所述掩码卷积网络输出的词层面卷积特征输入预先设置的递归神经网络模型，得到所述词层面卷积特征对应的词层面向量表示；

将通过不同高度的所述掩码卷积网络输出的字符层面卷积特征输入预先设置的递归神经网络模型，得到所述字符层面卷积特征对应的字符层面向量表示。

6.根据权利要求5所述的方法，其特征在于，对所述词层面向量表示和所述字符层面向量表示进行叠加，得到所述待描述短文本的短文本描述，包括：

将所述词层面向量表示和所述字符层面向量表示合成为合成表示矩阵；

根据所述合成表示矩阵的转置矩阵，得到所述待描述短文本的短文本描述。

7.一种短文本描述装置，其特征在于，所述装置包括：

合成模块，用于对所述词层面向量表示和所述字符层面向量表示进行叠加，得到所述待描述短文本的短文本描述；

所述掩码卷积网络包括：词掩码卷积网络和字符掩码卷积网络；卷积处理模块还用于将所述词嵌入矩阵输入多个相同尺寸的词掩码卷积网络，得到对应数量的所述词嵌入矩阵对应的词特征向量；所述词掩码卷积网络的宽度是根据所述词嵌入矩阵的向量维度确定的；根据所述词特征向量，得到词层面卷积特征；将所述字符嵌入矩阵输入多个相同尺寸的字符掩码卷积网络，得到对应数量的所述词嵌入矩阵对应的字符特征向量；所述字符掩码卷积网络的宽度是根据所述字符嵌入矩阵的向量维度确定的；根据所述字符特征向量，得到字符层面特征。

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。