CN116306673B

CN116306673B - 一种文本特征提取方法与系统、电子设备、介质

Info

Publication number: CN116306673B
Application number: CN202310255047.1A
Authority: CN
Inventors: 戚耀; 陈红阳; 吕劲松; 刘善赟
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-03-16
Filing date: 2023-03-16
Publication date: 2023-10-24
Anticipated expiration: 2043-03-16
Also published as: CN116306673A

Abstract

本发明公开了一种文本特征提取方法与系统、电子设备、介质，所述方法包括将文本序列转换成形状为(H_in,W_in,D_in)的张量序列，其中H_in、W_in、D_in为正整数；构建文本特征提取网络，通过文本特征提取网络提取张量序列特征。本发明方法对文本序列的每个元素特征和文本特征都扩展了两个维度，使特征张量可以比词向量包含更多的方位、形状等语义信息，同时结合拥有局部连接特性的文本特征提取网络处理张量序列，增强了特征的可解释性和语义容量。

Description

一种文本特征提取方法与系统、电子设备、介质

技术领域

本发明涉及人工智能和自然语言处理领域，尤其是涉及一种文本特征提取方法与系统、电子设备、介质。

背景技术

随着计算机科学的发展，大规模存储、大规模计算技术的完善，人工智能技术中的自然语言处理在日常生活越来越流行，在机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比等方向有着广泛的应用。

在自然语言处理的相关应用中，文本特征提取是其核心问题。目前的流行的做法是，把文本中的组成元素，如词汇、字等用一个向量来表示，称为词向量，将词向量按顺序输入人工智能算法模型来获取文本特征。word2vec、LSTM、RNN、BERT等算法都是基于词向量来开发的。

然而，基于词向量的文本特征提取方法存在可解释性弱的问题，词向量在特征空间的位置和方向很难与该词在现实世界中所表示的物体对应起来，尤其是比较抽象的词汇，如方位词的词向量的意义会更难解释。此外，word2vec、LSTM、RNN、BERT等算法对向量的处理方式比较局限，基本都是对整个向量的所有元素进行加权聚合，语义性弱，灵活度低。

因此，亟需提出一种文本特征提取方法，以提高可解释性。

发明内容

针对现有技术不足，本发明提供了一种文本特征提取方法与装置。

为实现上述发明目的，本发明的技术方案为：

本发明实施例的第一方面提供了一种文本特征提取方法，所述方法包括：

将文本序列转换成形状为(H_in,W_in,D_in)的张量序列，其中H_in、W_in、D_in为正整数；

构建文本特征提取网络，通过文本特征提取网络提取张量序列特征。

本发明实施例的第二方面提供了一种文本特征提取系统，用于实现上述的文本特征提取方法，所述系统包括：

张量序列生成模块，用于将文本序列转换成形状为(H_in,W_in,D_in)的张量序列，其中H_in、W_in、D_in为正整数；

文本特征提取网络模块，用于提取张量序列特征。

本发明实施例的第三方面提供了一种电子设备，包括存储器和处理器，所述存储器与所述处理器耦接；其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现上述的文本特征提取方法。

本发明实施例的第四方面提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述的文本特征提取方法。与现有技术相比，本发明的有益效果为：本发明提供了一种文本特征提取方法，本发明将文本序列转换成形状为(H_in,W_in,D_in)的张量序列，对文本序列的每个元素特征和文本特征都扩展了两个维度，使特征张量可以比词向量包含更多的方位、形状等语义信息，同时结合拥有局部连接特性的文本特征提取网络处理张量序列，提高了提取文本特征的可解释性、语义性、灵活度。

附图说明

图1是本发明实施例的文本特征提取方法的流程图；

图2是本发明提供的一种可能的预设表示意图；

图3是本发明提供的全连接线性映射计算过程示意图；

图4是本发明提供的文本特征提取网络第一实施例结构示意图；

图5是本发明提供的文本特征提取网络第二实施例结构示意图；

图6是本发明提供的文本特征提取网络第三实施例结构示意图；

图7是本发明提供的参数训练流程图；

图8是本发明提供的一种文本特征提取系统示意图；

图9是本发明提供的一种电子设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，下述的实施例及实施方式中的特征可以相互组合。

如图1所示，本发明实施例中提供了一种文本特征提取方法，所述方法具体包括以下步骤：

步骤S1，将文本序列转换成形状为(H_in,W_in,D_in)的张量序列，其中H_in、W_in、D_in为正整数。

需要说明的是，所述张量序列的长度与文本序列的长度相同。通过以上步骤，对文本序列的每个元素特征和文本特征都扩展了H和W两个维度，特征张量可以比文本特征向量包含更多的方位、形状等语义信息，增强了特征的可解释性和语义容量，尤其是在多模态应用中且和视觉模态结合时，更增强了特征的可解释性。

在本实例中，不限制文本序列的形式，文本序列的形式是可以根据实际需求来确定的。也就是说，只要是合理的文本序列，如以字词为元素的文本序列、以词向量为元素的序列等，都可以通过上述方法来提取特征。只要用形状为(H,W,D_in)张量作为文本序列的每个元素的特征，就可以增加文本特征的表达空间，以解决现有技术中可解释性弱，语义性弱，灵活度低的问题。

进一步地，将文本序列转换成形状为(H_in,W_in,D_in)的张量序列包括：通过配置预设表确定文本序列中的每个元素对应的张量，和/或通过全连接线性映射法确定文本序列中的每个元素对应的张量。

其中，通过配置预设表确定文本序列中的每个元素对应的张量包括：

在本实施例中，所述文本序列是由以下一种或多种元素按一定顺序组成的序列：字、字母、词、单词、单词切片、固定短语和/或标点符号。上述步骤S1中生成的张量序列可以通过查询预设表确定所述文本序列中的每个元素对应的所述张量。

示例性地，图2示意了一种可能的预设表，该表每行存放一个可能存在于文本序列中的元素和一个与之对应的张量，所述预设表中存放文本序列中的元素的列中没有重复元素。对这样的文本序列和预设表，可以依次遍历文本序列中的元素，从预设表中获取文本序列元素所对应的张量，并按文本序列的顺序构建张量序列。

在一替代实施例中，通过全连接线性映射法确定文本序列中的每个元素对应的张量包括：所述文本序列是以词向量序列的形式来表示的，上述步骤S1中生成张量序列也可以通过全连接线性映射的方式计算所述元素对应的所述张量。

图3是全连接线性映射计算过程示意图，具体来说，张量中的每一个数值，都由词向量的所有数值加权求和计算得到，计算张量的不同位置的数值时利用到的加权参数不同。

以上几个实施例都只采用了一种生成张量序列的方式，还有一种生成方式是对文本序列的部分元素采取查预设表的方式，对文本序列的另一部分采取全连接线性映射的方式来生成张量序列。在包含多条文本序列的数据集而言，对每条文本序列，也可以采用不同的生成张量序列的方式，只要提前确定好对每条文本的生成张量序列方式并固定，就不会影响文本特征提取效果。

步骤S2，构建文本特征提取网络，通过文本特征提取网络提取张量序列特征。

所述文本特征提取网络包括预处理单元、空间维度局部连接的处理单元和后处理单元。

所述预处理单元用于对张量序列进行预处理，包括以下一种或多种操作：恒等映射、插入一个或多个元素、为每个元素分别执行一个函数。

其中，插入一个或多个元素具体为：在序列的某一个或多个索引处，插入形状、数据类型和序列中其他元素相同的张量。

为每个元素分别执行一个函数具体为：对序列的第i个元素L[i]，执行函数f_i，得到新序列{f₁(L[1]),f₂(L[2]),…,f_n(L[n])}，需要特别指出的是当i≠j时，f_i和f_j可以相同，也可以不同。

所述空间维度局部连接的处理单元用于对预处理后的张量序列进行特征提取，可以包括：ConvLSTM层、双向ConvLSTM层、卷积层、动态卷积层、可变形卷积层、池化层。

所述后处理单元用于对张量序列特征进行后处理，包括以下一种或多种操作：恒等映射、求均值、求最大值、求和、取出序列中的一项。

其中，取出序列中的一项具体为：取出序列中某一索引对应的元素。

需要说明的是，上述步骤S2中的文本特征提取网络结构可以是：

如图4所示，所述文本特征提取网络中的空间维度局部连接的处理单元由1个归一化层、3个ConvLSTM层、3个激活层和3个池化层组成。具体地，空间维度局部连接的处理单元由依次连接的归一化层、第一ConvLSTM层、第一激活层、第一池化层、第二ConvLSTM层、第二激活层、第二池化层、第三ConvLSTM层、第三激活层、第三池化层组成。其中，归一化层采取Batch Norm，激活层采取ReLU激活函数，池化层采取Max Pooling。在此实施例中，所选取的预处理单元可以是恒等映射，后处理单元可以是恒等映射、求均值、求最大值、求和中的一种或多种操作组合。其中，求均值具体为：对输出序列的每个元素，求它们的平均张量；求最大值具体为：对输出序列的每个元素，在每个坐标[h,w,d]上分别求最大值，组成输出张量；求和具体为：求输出序列的所有元素的和张量。

在一替代实施例中，上述步骤S2中的文本特征提取网络结构也可以是：

如图5所示，所述文本特征提取网络中的空间维度局部连接的处理单元由3个自注意力层、3个2-D卷积层和3个激活层组成。具体地，空间维度局部连接的处理单元由依次连接的第一自注意力层、第一2-D卷积层、第一激活层、第二自注意力层、第二2-D卷积层、第二激活层、第三自注意力层、第三2-D卷积层、第三激活层组成。其中，激活层采取tanh激活函数。在本实施例中，所选取的预处理单元可以是两步：a)插入一个或多个元素，具体为在序列头插入一个代表特殊占位符[CLS]的张量；b)为每个元素分别执行一个函数，其中为每个元素所执行的函数不同，具体地，第i个元素所执行的函数是f_i。后处理单元可以是取出序列中的一项，具体为，取出第一项，即占位符[CLS]所对应的输出。

所述f_i定义如下：

f_pos(L[pos])[h,w,d]＝L[pos][h,,]+PE(pos,,,)，其中

其中，L为张量列表，pos为张量在序列中的索引，h为H维度索引，w为W维度索引，d为通道维度索引，PE(.)为位置编码，k为整数。

在另一替代实施例中，上述步骤S2中的文本特征提取网络结构还可以是：

如图6所示，所述文本特征提取网络中的空间维度局部连接的处理单元由依次连接的1个3-D卷积层、1个双向ConvLSTM层和一个全连接层组成。在本实施例中，所选取的预处理单元可以是为每个元素分别执行一个函数，具体地，为每个元素都执行归一化函数，后处理单元可以是恒等映射。

在上面的实施例中，ConvLSTM、双向ConvLSTM、3-D卷积层和全连接层可以依据定义直接对输入序列进行处理；2-D卷积层、池化层、激活层可以对输入序列中的每个张量分别进行处理；自注意力层可以对输入序列X中每个元素的每个空间位置的特征，分别输入自注意力层提取特征，得到特征序列Z，计算公式为：Z[:][h,w]＝F(X[:][h,w,:])，其中，F表示自注意力层，所述每个空间位置的特征为固定张量的H、W维度坐标所获取的D_in维向量。

上面几个实施例只说明了部分文本特征提取网络的构建方式，实际可以灵活选取不同层和不同预处理和不同后处理搭配方式来灵活地构建文本特征提取网络。

上面几个实施例中利用了ConvLSTM、双向ConvLSTM、2-D卷积、3-D卷积、池化层的空间维度上的局部连接特性，文本特征提取网络以类似处理图像的方式处理文本序列，使得张量序列和文本特征能够学到一定的方位和形状信息。这些实施例仅列出了部分在空间维度(即H和W维度)上有局部连接特性的处理层，本领域普通技术人员应当能够准确理解在空间维度上有局部连接特性的具体含义，其他具备在空间维度上有局部连接特性的处理层如常规卷积的变体，以及将卷积或卷积的变体融入序列处理算法中的相关方法或其他改进，也应在本发明的保护范围内。

以上各个实施例中，它们的生成张量序列的方式、文本特征提取神经网络结构等方式都可以进行替换、组合，只要不产生矛盾，不相互冲突，都应在本发明的保护范围内。

可选地，以上实施例所涉及的文本特征提取网络参数、预设表中的张量以及全连接线性映射的参数可以根据以下步骤来获取。具体包括以下子步骤：

步骤S100，收集数据集，所述数据集有多个实例构成，所述实例包含语义一致的文本信息和图像信息，所述文本信息具体为文本序列，所述图像信息具体为对应的数字图像(digital image)。

示例性地，若文本信息为“苹果”，则其语义一致的图像信息即为苹果的图片。

步骤S101，从数据集采样B个实例，其中B为正整数。

步骤S102，对所采样的B个实例中的图像信息提取形状为(B,H,W,D)的图像信息特征F_b，其中H、W、D均为正整数。

步骤S103，对所采样的B个实例中的文本信息提取形状为(B,H,W,D)的文本信息特征G_b，其中H、W、D均为正整数。

步骤S104，对图像信息特征F_b和文本信息特征G_b进行归一化处理，得到归一化图像特征和归一化文本特征/>表达式如下：

其中，‖·‖_F为Frobenius范数；

步骤S105，定义形状为(B,B)的分数矩阵S，S的每个元素计算公式为:

其中，⊙表示哈达玛积(Hadamard积)。

步骤S106，对分数矩阵S的每行分别计算softmax函数，得到形状为(B,B)的行分数矩阵S_r；

步骤S107，对分数矩阵S的每列分别计算softmax函数，得到形状为(B,B)的列分数矩阵S_c；

步骤S108，计算损失函数，其中，损失函数的表达式为：

其中，E为单位矩阵；

步骤S109，利用反向传播算法更新参数；

步骤S110，重复步骤S101至步骤S109，实时更新参数。

在对文本特征提取网络进行训练获取文本特征提取网络参数的过程中，本实施例通过图像信号的显式监督，使模型学到和现实视觉相符的文本特征，应当指出的是，即使没有图像信息，仅利用文本相关的如多语种翻译、前后句匹配等信息进行监督训练，同样可以训练得到一个可用的文本特征提取网络，只是其学到的形状和方位等信息无法和现实的图像找到对应关系而已。

如图8所示是本发明实施例提供的一种文本特征提取系统的结构示意，该装置包括：

张量序列生成模块10，用于将文本序列转换成形状为(H_in,W_in,D_in)的张量序列，其中H_in、W_in、D_in为正整数；

文本特征提取网络模块20，用于提取张量序列特征。

参数获取模块30，用于获取文本特征提取网络参数、预设表中的张量以及全连接线性映射的参数。

关于上述实施例中的系统，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

对于系统实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

如图9所示，本申请实施例提供一种电子设备，其包括存储器101，用于存储一个或多个程序；处理器102。当一个或多个程序被处理器102执行时，实现如上述第一方面中任一项的方法。

还包括通信接口103，该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器101可用于存储软件程序及模块，处理器102通过执行存储在存储器101内的软件程序及模块，从而执行各种功能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或数据的通信。

其中，存储器101可以是但不限于，随机存取存储器101(Random Access Memory，RAM)，只读存储器101(Read Only Memory，ROM)，可编程只读存储器101(ProgrammableRead-Only Memory，PROM)，可擦除只读存储器101(Erasable Programmable Read-OnlyMemory，EPROM)，电可擦除只读存储器101(Electric Erasable Programmable Read-OnlyMemory，EEPROM)等。

处理器102可以是一种集成电路芯片，具有信号处理能力。该处理器102可以是通用处理器102，包括中央处理器102(Central Processing Unit，CPU)、网络处理器102(Network Processor，NP)等；还可以是数字信号处理器102(Digital Signal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请所提供的实施例中，应该理解到，所揭露的方法及系统，也可以通过其它的方式实现。以上所描述的方法及系统实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的方法及系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

另一方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器102执行时实现如上述第一方面中任一项的方法。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器101(ROM，Read-Only Memory)、随机存取存储器101(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本特征提取方法，其特征在于，所述方法包括：

将文本序列转换成形状为(H_in，W_in，D_in)的张量序列，其中H_in、W_in、D_in为正整数；将文本序列转换成形状为(H_in，W_in，D_in)的张量序列包括：

通过配置并查询预设表确定文本序列中的每个元素对应的张量；

和/或，

通过全连接线性映射法确定文本序列中的每个元素对应的张量；

构建文本特征提取网络，通过文本特征提取网络提取张量序列特征；

所述方法还包括：获取文本特征提取网络参数、预设表中的张量以及全连接线性映射的参数；包括：

获取数据集，数据集由若干个实例构成，每一实例包含语义一致的文本信息和图像信息；

从数据集采样B个实例，其中B为正整数；

对B个实例中的图像信息提取形状为(B，H，W，D)的图像信息特征F_b，其中H、W、D均为正整数；

对B个实例中的文本信息提取形状为(B，H，W，D)的文本信息特征G_b，其中H、W、D均为正整数；

对图像信息特征F_b和文本信息特征G_b进行归一化，记为归一化图像特征和归一化文本特征/>

定义形状为(B，B)的分数矩阵S，分数矩阵S中的每个元素为其中⊙表示哈达玛积；

对分数矩阵S的每行分别计算softmax函数，得到形状为(B，B)的行分数矩阵S_r；

对分数矩阵S的每列分别计算softmax函数，得到形状为(B，B)的列分数矩阵S_c；

计算损失函数，利用反向传播算法更新参数；其中，损失函数的表达式为：

其中E为单位矩阵。

2.根据权利要求1所述的文本特征提取方法，其特征在于，通过配置并查询预设表确定文本序列中的每个元素对应的张量包括：

配置预设表，所述预设表的每行存放一个可能存在于文本序列中的元素和一个与之对应的张量，且预设表中存放文本序列中的元素的列中没有重复元素；

通过查询预设表确定文本序列中的每个元素对应的张量。

3.根据权利要求1或2所述的文本特征提取方法，其特征在于，所述文本特征提取网络包括预处理单元、空间维度局部连接的处理单元和后处理单元；

所述预处理单元用于对张量序列进行预处理，包括以下一种或多种操作：恒等映射、插入一个或多个元素、每个元素分别执行一个函数；

所述空间维度局部连接的处理单元用于对预处理后的张量序列进行特征提取；

4.一种文本特征提取系统，用于实现权利要求1-3任一项所述的文本特征提取方法，其特征在于，所述系统包括：

张量序列生成模块，用于将文本序列转换成形状为(H_in，W_in，D_in)的张量序列，其中H_in、W_in、D_in为正整数；将文本序列转换成形状为(H_in，W_in，D_in)的张量序列包括：

和/或，

文本特征提取网络模块，用于提取张量序列特征；

所述系统还包括：参数获取模块，用于获取文本特征提取网络参数、预设表中的张量以及全连接线性映射的参数；包括：

从数据集采样B个实例，其中B为正整数；

对分数矩阵S的每行分别计算softmax函数，得到形状为(B,B)的行分数矩阵S_r；

对分数矩阵S的每列分别计算softmax函数，得到形状为(B,B)的列分数矩阵S_c；

其中E为单位矩阵。

5.一种电子设备，包括存储器和处理器，其特征在于，所述存储器与所述处理器耦接；其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现上述权利要求1-3任一项所述的文本特征提取方法。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-3中任一所述的文本特征提取方法。