CN111783469A

CN111783469A - 一种提取文本句子特征的方法

Info

Publication number: CN111783469A
Application number: CN202010602449.0A
Authority: CN
Inventors: 杨小兵; 陈欣
Original assignee: China Jiliang University
Current assignee: China Jiliang University
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2020-10-16

Abstract

本发明公开了一种提取文本句子特征的方法，包括以下步骤：对词向量进行Self‑Attention算法计算，对得到的注意力序列做卷积操作获取到特征矩阵，最后对特征矩阵根据最大池化算法进行计算输出文本句子特征。本方法解决现有技术中存在的剔重准确度低和词语排序混乱。

Description

一种提取文本句子特征的方法

技术领域

本发明涉及情绪分析领域，尤其涉及一种提取文本句子特征的方法。

背景技术

随着微信、支付宝、微博等社交平台和购物平台给人们的生活带来巨大的影响，越来越多的用户通过语言文字在平台上进行交流，分享生活。对这些语言文字进行语义分析可以获得用户的内心活动，分析用户的性格特点。

进行语义分析的前提是提取文本句子特征，现有的提取文本句子特征的方法中存在词语剔重准确度低，词语排序混乱的问题。

发明内容

本发明提供的一种提取文本句子特征的方法，旨在解决现有技术中存在剔重准确度低的问题。

为实现上述目的，本发明采用以下技术方案：

本发明的一种提取文本句子特征的方法，包括以下步骤：

根据Self-Attention算法对词向量进行计算，获取注意力序列；

对所述注意力序列做卷积操作获取特征矩阵；

对所述特征矩阵利用最大池化算法输出文本句子特征。

先对不平衡样本进行平衡操作，获得平衡样本的词向量，再对词向量进行Self-Attention算法计算，对得到的注意力序列做卷积操作获取到特征矩阵，最后对特征矩阵根据最大池化算法进行计算输出文本句子特征。本方法解决现有技术中存在的剔重准确度低和词语排序混乱的问题。

作为优选，根据Self-Attention算法对词向量进行计算，输出注意力序列，包括：

利用点积算法获取所述词向量的权重；

对所述权重进行归一化处理；

根据权重Key和键值Value加权求和输出注意力序列，计算公式为：

其中Q∈R^n×dk,K∈R^m×dk,V∈R^m×dv。

作为优选，对所述注意力序列做卷积操作输出特征矩阵，包括：

根据卷积核长度对所述注意力序列处理为注意力分量；

对所述注意力分量进行卷积操作输出特征矩阵，计算公式为：

C＝(c₁,c₂,…,c_n-h+1)，其中，c_i是对注意力分量X_i:i+h-1进行卷积操作后提取的特征。

作为优选，对所述特征矩阵利用最大池化算法输出文本句子特征，包括：

根据最大池化算法对所述特征矩阵进行采样输出优化特征；

将所述优化特征进行向量组合输出文本句子特征。

一种提取文本句子特征的装置，包括：

计算模块，根据Self-Attention算法对词向量进行计算，输出注意力序列；

卷积操作模块，对所述注意力序列做卷积操作输出特征矩阵；

最大池化模块，对所述特征矩阵利用最大池化算法输出文本句子特征。

作为优选，所述计算模块包括：

点积算法单元，利用点积算法获取所述词向量的权重；

归一化单元，对所述权重进行归一化处理；

注意力序列单元，根据权重Key和键值Value加权求和输出注意力序列，计算公式为：

其中Q∈R^n×dk,K∈R^m×dk,V∈R^m×dv。

作为优选，所述卷积操作模块包括：

卷积核长度单元，根据卷积核长度对所述注意力序列处理为注意力分量；

卷积操作单元，对所述注意力分量进行卷积操作输出特征矩阵，计算公式为：

作为优选，所述最大池化模块包括：

优化特征单元，根据最大池化算法对所述特征矩阵进行采样输出优化特征；

文本句子特征单元，将所述优化特征进行向量组合输出文本句子特征。

一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如上述中任一项所述的一种提取文本句子特征的方法。

一种存储有计算机程序的计算机可读存储介质，所述计算机程序使计算机执行时实现如上述中任一项所述的一种提取文本句子特征的方法。

本发明具有如下有益效果：

对词向量进行Self-Attention算法计算，对得到的注意力序列做卷积操作获取到特征矩阵，最后对特征矩阵根据最大池化算法进行计算输出文本句子特征。本方法解决现有技术中存在的剔重准确度低和词语排序混乱的问题。

附图说明

图1是本发明实施例实现一种提取文本句子特征的方法第一流程图；

图2是本发明实施例实现一种提取文本句子特征的方法第二流程图；

图3是本发明实施例实现一种提取文本句子特征的方法第三流程图；

图4是本发明实施例实现一种提取文本句子特征的方法第四流程图；

图5是本发明实施例实现一种提取文本句子特征的方法具体实施流程图。

图6是本发明实施例实现一种提取文本句子特征的装置示意图；

图7是本发明实施例实现一种提取文本句子特征的装置计算模块示意图；

图8是本发明实施例实现一种提取文本句子特征的装置卷积操作模块示意图；

图9是本发明实施例实现一种提取文本句子特征的装置最大池化模块示意图；

图10是本发明实施例实现一种提取文本句子特征的装置具体实施流程图；

图11是本发明实施例实现一种提取文本句子特征的方法的一种电子设备示意图。

具体实施方式

下面将结合附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在介绍本发明技术方案之前，示例性的介绍一种本发明技术方案可能适用的场景。

实施例1

如图1所示，一种提取文本句子特征的方法，包括以下步骤：

S110、根据Self-Attention算法对词向量进行计算，获取注意力序列；

S120、对所述注意力序列做卷积操作获取特征矩阵；

S130、对所述特征矩阵利用最大池化算法输出文本句子特征。

根据实施例1可知，首先对不平衡样本进行平衡操作，本方法中的平衡操作技术是将欠采样和过采样有效的结合，得到平衡样本的词向量，对词向量进行Self-Attention算法计算，对得到的注意力序列做卷积操作获取到特征矩阵，最后对特征矩阵根据最大池化算法进行计算输出文本句子特征。本方法解决现有技术中存在的剔重准确度低和词语排序混乱的问题。

实施例2

如图2所示，一种提取文本句子特征的方法，包括：

S210、根据Self-Attention算法对词向量进行计算，获取注意力序列；

S220、利用点积算法获取所述词向量的权重；

S230、对所述权重进行归一化处理；

S240、根据权重Key和键值Value加权求和输出注意力序列，计算公式为：

其中Q∈R^n×dk,K∈R^m×dk,V∈R^m×dv。

根据实施例2可知，根据点积相似度函数计算Query和每个Key的相似度，获取到词向量的权重，再根据Softmax函数对权重进行归一化处理，最后将权重和相应的键值Value加权求和得到注意力序列，计算公式为

其中Q∈R^n×dk,K∈R^m×dk,V∈R^m×dv。根据点击进行相似度的计算，其中因子d_k起到调节作用，使得内积不至于太大。本方法可以降低数据维度，减小处理高纬度数据的计算负担。

实施例3

如图3所示，一种提取文本句子特征的方法，包括：

S310、根据Self-Attention算法对词向量进行计算，获取注意力序列；

S320、对所述注意力序列做卷积操作获取特征矩阵；

S330、根据卷积核长度对所述注意力序列处理为注意力分量；

S340、对所述注意力分量进行卷积操作输出特征矩阵，计算公式为：C＝(c₁,c₂,…,c_n-h+1)，其中，c_i是对注意力分量X_i:i+h-1进行卷积操作后提取的特征。

实施例3中，根据卷积核长度对所述注意力序列处理为注意力分量，例如长度为h的卷积核可以把注意力序列分为{X0:h-1，X1:h，…，Xi:i+h-1，…，Xn-h+1:n}样式的注意力分量，再将注意力分量进行卷积操作输出特征矩阵，计算公式为：C＝(c₁,c₂,…,c_n-h+1)，其中，c_i是对注意力分量X_i:i+h-1进行卷积操作后提取的特征，其中每次滑动窗口得到的c_i计算公式为：c_i＝relu(W·X_i:i+h-1+b)，其中W为卷积核权重，b为偏置。本方法可以迭代提取出负责的特征，可以更好的进行词语排序以及提高剔重准确度。

实施例4

如图4所示，一种提取文本句子特征的方法，包括：

S410、根据Self-Attention算法对词向量进行计算，获取注意力序列；

S420、对所述注意力序列做卷积操作获取特征矩阵；

S430、对所述特征矩阵利用最大池化算法输出文本句子特征；

S440、根据最大池化算法对所述特征矩阵进行采样输出优化特征；

S450、将所述优化特征进行向量组合输出文本句子特征。

实施例4中，根据最大池化算法对特征矩阵进行采样计算，计算公式为：l_i＝max(c₁,c₂,…,c_n-h+1)，得到优化特征，将优化特征进行向量组合输出文本句子特征。本方法使用多个滤波器对序列进行特征提取，从而获得剔重准确度高的文本句子特征，

实施例5

如图5所示，一种具体的实施方式可为：

S510、将不平衡样本经过样本平衡操作得到平衡样本。

由于样本类别严重不均衡，所以在语义获取之前添加一步样本平衡操作。本方法采用的平衡样本技术是将欠采样和过采样有效结合。具体过程如下：样本数设定为m条，首先使用随机欠采样方法对大于m条的数据执行m次欠采样，然后对于低于m条的数据执行m次过采样。最后，我们得到w组平衡样本，然后将w组平衡样本合并到训练集样本中进行训练。

S520、将平衡样本的词向量根据点击函数进行计算获取权重。

在文本情绪分析的过程中，为了提高模型效果，除了需要考虑词语之间的语义依赖关系，还要考虑各词语对于情绪分类的影响程度，影响较大的词语需要赋予更高的权重。根据相似度函数计算Query和每个Key的相似度，获取权重，常用的相似度函数包括点积，拼接，感知机等，本方法使用点积函数计算相似度获取权重。

S530、对权重进行归一化处理并计算得到序列。

使用Softmax函数对这些权重进行归一化；最后将权重和相应的键值Value加权求和得到最后的Attention，计算公式为：

其中Q∈R^n×dk,K∈R^m×dk,V∈R^m×dv。本方法的作用是将n×d_k的序列Q编码成了一个新的n×d_v的序列[18]。本文采用Self-Attention结构，即Attention(X，X，X)，X表示输入序列。在序列内部做Attention，寻找序列内部的联系。

S540、根据不同的卷积核长度对输入序列进行特征提取并进行卷积操作。

通过不同的卷积核对输入的序列进行局部特征提取。长度为h的卷积核可以把序列分为{X0:h-1，X1:h，…，Xi:i+h-1，…，Xn-h+1:n}，对每一个分量做卷积操作得到卷积特征如下，C＝(c₁,c₂,…,c_n-h+1)，其中，ci是对分量Xi:i+h-1进行卷积操作后提取的特征。每次滑动窗口得到的ci计算如下：c_i＝relu(W·X_i:i+h-1+b)，W为卷积核权重，b为偏置。

S550、对特征矩阵进行采样操作，得到文本句子特征。

对卷积后得到的特征矩阵C执行下采样操作，从中选取局部最优特征，本文采用的是最大池化进行采样，得到的特征表示为：l_i＝max(c₁,c₂,…,c_n-h+1)，之后将得到的特征组合得到向量L:L＝(l₁,l₂,…,l_n)。选择多个滤波器对序列进行特征提取，经过以上操作即可得到文本句子特征。

实施例6

如图6所示，一种提取文本句子特征的装置，包括：

计算模块10，根据Self-Attention算法对词向量进行计算，输出注意力序列；

卷积操作模块20，对所述注意力序列做卷积操作输出特征矩阵；

最大池化模块30，对所述特征矩阵利用最大池化算法输出文本句子特征。

上述装置的一种实施方式可为：计算模块10，根据Self-Attention算法对词向量进行计算，输出注意力序列，卷积操作模块20，对所述注意力序列做卷积操作输出特征矩阵，最后，最大池化模块30，对所述特征矩阵利用最大池化算法输出文本句子特征。

实施例7

如图7所示，一种提取文本句子特征的装置的计算模块10包括：

点积算法单元12，利用点积算法获取所述词向量的权重；

归一化单元14，对所述权重进行归一化处理；

注意力序列单元16，根据权重Key和键值Value加权求和输出注意力序列，计算公式为：

其中Q∈R^n×dk,K∈R^m×dk,V∈R^m×dv。

上述装置的计算模块10的一种实施方式可为：点积算法单元12，利用点积算法获取所述词向量的权重，然后归一化单元14，对所述权重进行归一化处理，最后注意力序列单元16，根据权重Key和键值Value加权求和输出注意力序列，计算公式为：

其中Q∈R^n×dk,K∈R^m×dk,V∈R^m×dv。

实施例8

如图8所示，一种提取文本句子特征的装置的卷积操作模块20包括：

卷积核长度单元22，根据卷积核长度对所述注意力序列处理为注意力分量；

卷积操作单元24，对所述注意力分量进行卷积操作输出特征矩阵，计算公式为：C＝(c₁,c₂,…,c_n-h+1)，其中，c_i是对注意力分量X_i:i+h-1进行卷积操作后提取的特征。

上述装置的卷积操作模块20的一种实施方式可为：卷积核长度单元12，根据卷积核长度对所述注意力序列处理为注意力分量，然后卷积操作单元14，对所述注意力分量进行卷积操作输出特征矩阵，计算公式为：C＝(c₁,c₂,…,c_n-h+1)，其中，c_i是对注意力分量X_i:i+h-1进行卷积操作后提取的特征。

实施例9

如图9所示，一种提取文本句子特征的装置的最大池化模块30，包括：

优化特征单元32，根据最大池化算法对所述特征矩阵进行采样输出优化特征；

文本句子特征单元34，将所述优化特征进行向量组合输出文本句子特征。

上述装置的最大池化模块30的一种实施方式可为：优化特征单元32，根据最大池化算法对所述特征矩阵进行采样输出优化特征，文本句子特征单元34，将所述优化特征进行向量组合输出文本句子特征。

实施例10

如图10所示，一种具体的实施方式可为：

S1010、将不平衡样本经过样本平衡操作得到平衡样本。

S1020、将平衡样本的词向量根据点击函数进行计算获取权重。

S1030、对权重进行归一化处理并计算得到序列。

S1040、根据不同的卷积核长度对输入序列进行特征提取并进行卷积操作。

S1050、对特征矩阵进行采样操作，得到文本句子特征。

实施例11

如图11所示，一种电子设备，包括存储器1101和处理器1102，所述存储器1101用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器1102执行以实现上述的一种提取文本句子特征的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的电子设备的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

一种存储有计算机程序的计算机可读存储介质，所述计算机程序使计算机执行时实现如上述的一种提取文本句子特征的方法。

示例性的，计算机程序可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器1101中，并由处理器1102执行，以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在计算机设备中的执行过程。

计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括，但不仅限于，存储器1101、处理器1102。本领域技术人员可以理解，本实施例仅仅是计算机设备的示例，并不构成对计算机设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件，例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。

处理器1102可以是中央处理单元(CentralProcessingUnit，CPU)，还可以是其他通用处理器1102、数字信号处理器1102(DigitalSignalProcessor，DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、现成可编程门阵列(Field-ProgRAM503mableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器1102可以是微处理器1102或者该处理器1102也可以是任何常规的处理器1102等。

存储器1101可以是计算机设备的内部存储单元，例如计算机设备的硬盘或内存。存储器1101也可以是计算机设备的外部存储设备，例如计算机设备上配备的插接式硬盘，智能存储卡(SmartMediaCard,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(FlashCard)等。进一步地，存储器1101还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器1101用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器1101还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述仅为本发明的具体实施例，但本发明的技术特征并不局限于此，任何本领域的技术人员在本发明的领域内，所作的变化或修饰皆涵盖在本发明的专利范围之中。

Claims

1.一种提取文本句子特征的方法，其特征在于，包括：

根据Self-Attention算法对词向量进行计算，获取注意力序列；

对所述注意力序列做卷积操作获取特征矩阵；

对所述特征矩阵利用最大池化算法输出文本句子特征。

2.根据权利要求1所述的一种提取文本句子特征的方法，其特征在于，根据Self-Attention算法对词向量进行计算，输出注意力序列，包括：

利用点积算法获取所述词向量的权重；

对所述权重进行归一化处理；

其中Q∈R^n×dk,K∈R^m×dk,V∈R^m×dv。

3.根据权利要求2所述的一种提取文本句子特征的方法，其特征在于，对所述注意力序列做卷积操作输出特征矩阵，包括：

根据卷积核长度对所述注意力序列处理为注意力分量；

对所述注意力分量进行卷积操作输出特征矩阵，计算公式为：C＝(c₁,c₂,…,c_n-h+1)，其中，c_i是对注意力分量X_i:i+h-1进行卷积操作后提取的特征。

4.根据权利要求3所述的一种提取文本句子特征的方法，其特征在于，对所述特征矩阵利用最大池化算法输出文本句子特征，包括：

根据最大池化算法对所述特征矩阵进行采样输出优化特征；

将所述优化特征进行向量组合输出文本句子特征。

5.一种提取文本句子特征的装置，其特征在于，包括：

6.根据权利要求5所述的一种提取文本句子特征的装置，其特征在于，所述计算模块，包括：

点积算法单元，利用点积算法获取所述词向量的权重；

归一化单元，对所述权重进行归一化处理；

其中Q∈R^n×dk,K∈R^m×dk,V∈R^m×dv。

7.根据权利要求6所述的一种提取文本句子特征的装置，其特征在于，所述卷积操作模块，包括：

卷积操作单元，对所述注意力分量进行卷积操作输出特征矩阵，计算公式为：C＝(c₁,c₂,…,c_n-h+1)，其中，c_i是对注意力分量X_i:i+h-1进行卷积操作后提取的特征。

8.根据权利要求7所述的一种提取文本句子特征的装置，其特征在于，所述最大池化模块，包括：

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如权利要求1～4中任一项所述的一种基于细粒度情感字典的网络情绪分析方法。

10.一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序使计算机执行时实现如权利要求1～4中任一项所述的一种基于细粒度情感字典的网络情绪分析方法。