CN113609867B

CN113609867B - 基于单层网络结构学习上下文信息的方法及系统

Info

Publication number: CN113609867B
Application number: CN202110978023.XA
Authority: CN
Inventors: 卫金茂; 朴乘锴; 朱亚朋; 王宇辰
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2024-02-02
Anticipated expiration: 2041-08-23
Also published as: CN113609867A

Abstract

本发明属于深度学习领域，提供了一种基于单层网络结构学习上下文信息的方法及系统。其中，该方法包括获取文本信息，并将每个句子分成目标单词、上文和下文这三部分，对目标单词、上文和下文分别进行向量表示；基于目标单词、上文和下文向量表示及第一门控结构，建立目标单词及其上下文之间的关系；基于第二门控结构从目标单词及其上下文之间的关系中提取语义特征，并通过加权形式来形成最终的文本表示；其中，第一门控结构和第二门控结构均包含单词‑上下文注意力机制。

Description

基于单层网络结构学习上下文信息的方法及系统

技术领域

本发明属于深度学习领域，尤其涉及一种基于单层网络结构学习上下文信息的方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

在深度学习领域，深层模型可以获取更加充分的上下文信息，但是，在计算资源受限情况下，太深的模型将严重影响计算性能，甚至对模型的可行性产生影响，而浅层模型又难以很好覆盖全部上下文信息，最终导致无法充分学习上下文，影响文本分类的准确率。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种基于单层网络结构学习上下文信息的方法及系统，其具有在经济计算成本更低的情况下，获得高文本分类准确率的优点。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于单层网络结构学习上下文信息的方法。

一种基于单层网络结构学习上下文信息的方法，其包括：

获取文本信息，并将每个句子分成目标单词、上文和下文这三部分，对目标单词、上文和下文分别进行向量表示；

基于目标单词、上文和下文向量表示及第一门控结构，建立目标单词及其上下文之间的关系；

基于第二门控结构从目标单词及其上下文之间的关系中提取语义特征，并通过加权形式来形成最终的文本表示；其中，第一门控结构和第二门控结构均包含单词-上下文注意力机制。

本发明的第二个方面提供一种基于单层网络结构学习上下文信息的系统。

一种基于单层网络结构学习上下文信息的系统，其包括：

向量表示模块，其用于获取文本信息，并将每个句子分成目标单词、上文和下文这三部分，对目标单词、上文和下文分别进行向量表示；

关系建立模块，其用于基于目标单词、上文和下文向量表示及第一门控结构，建立目标单词及其上下文之间的关系；

文本表示模块，其用于基于第二门控结构从目标单词及其上下文之间的关系中提取语义特征，并通过加权形式来形成最终的文本表示；其中，第一门控结构和第二门控结构均包含单词-上下文注意力机制。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于单层网络结构学习上下文信息的方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于单层网络结构学习上下文信息的方法中的步骤。

与现有技术相比，本发明的有益效果是：

本发明的该方法是在目标单词与其上下文向量而不是其相邻单词之间建立语义关系，因此，模型的存储成本随着序列长度线性增长，而不是平方增长。相对的，该模型在时间复杂度方面显著降低，可以节省大量的计算成本。

本发明的该方法具有单层网络结构，能够在一层内充分利用上下文信息，可以有效解决浅层网络会忽略远程关系或截断语义信息的传播，而深层网络导致上下文范围超过序列长度，不必要的信息会干扰模型的问题。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例的基于单层网络结构学习上下文信息方法流程图；

图2为本发明实施例中生成向量表示R的过程；

图3为本发明实施例的采用的基于全局上下文的语义特征信息提取方法的网络结构图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

如图1所示，本实施例提供了一种基于单层网络结构学习上下文信息的方法，其具体包括如下步骤：

步骤1：获取文本信息，并将每个句子分成目标单词、上文和下文这三部分，对目标单词、上文和下文分别进行向量表示。

首先从获取全局上下文语义特征信息的角度出发，定义了一种新的网络结构，生成向量表示R的过程如图2所示，给定一个句子其中每个S_t,(t∈(1，m)),表示第t个单词的词向量，m是S的长度，n是词向量的维数，我们的目标是生成S的词向量表示公式为：

R＝{FCSR(S₁|S)，FCSR(S₂|S)，...FCSR(S_m|S)}

以S_t为目标单词，其表示向量R_t通过FCSR(Full-context semantic representation，全局上下文语义表示)生成，首先，分别将S_t的左右上下文词S₁～S_t-1和S_t+1～S_m压缩为固定长度的向量。其中，基于全局上下文的语义特征信息提取方法的网络结构如图3所示。

将输入句子分成目标单词及其上下文并获取不同的向量表示，采取基于FOFE(Fixed-size Ordinally Forgetting Encoding，学习不定长序列表示方法)的上下文收集方法将任意数量的上下文词压缩为固定大小的向量表示，公式为：

其中，FOFE(S_i，S_j)是句子S从S_i到S_j的压缩向量，a是控制历史向量影响的权重。

当获取上下文表示信息时，对于句子S中的每一个单词S_t，通过构造左上下文和右上下文/>的方式来收集完整范围的上下文信息。公式为：

对于边界情况，将和/>设置为零。

步骤2：基于目标单词、上文和下文向量表示及第一门控结构，建立目标单词及其上下文之间的关系。

通过门控的方式建立目标单词与上下文之间的关系，公式为：

其中表示第t个单词的门控单元，/>代表S_t的上下文表示。/>和/>代表的是可以训练的参数。/>代表偏置，σ代表激活函数，*代表矩阵乘法。

单词-上下文注意力机制使用目标单词S_t以及它的上下文向量和/>作为x,y和z。然后如上述公式所示，将输入向量转化为不同的语义空间以生成门。最后，将门控信息加到相应的向量上来计算C_t和/>其中C_t是S_t在其上下文中的权重，/>是C_t的非线性表示。

如表1所示，首先单词-上下文注意力机制使用目标单词S_t以及它的上下文向量和/>作为x,y和z，然后将输入向量转化为不同的语义空间以生成门。最后，将门控信息加到相应的向量上来计算C_t和/>

表1

步骤3：基于第二门控结构从目标单词及其上下文之间的关系中提取语义特征，并通过加权形式来形成最终的文本表示；其中，第一门控结构和第二门控结构均包含单词-上下文注意力机制。

第一门控结构和第二门控结构都包含有单词-上下文注意力机制，公式如下：

f_a(x，y，z；g_x，g_y，g_z)

f_t(v；g_o)

其中x,y和z是输入向量表示，v是f_a的输出。

单词-上下文注意力机制通过学习门控单元g_x，g_y，g_z和g_o来决定应将哪些信息集成到表示向量当中，表述公式如下所示：

V＝f_a(x，y，z；g_x，g_y，g_z)＝x⊙g_x+y⊙g_y+z⊙g_z

其中⊙表示点乘，对于每个输入向量来说，比如，单词-上下文注意力机制学习一个门控单元/>以逐项乘积加权x中的每个特征。然后将他们相加以生成v和其非线性表示/>直观的讲，单词-上下文注意力机制是一种简洁的方法，它将输入矢量和门控的乘法相加。

获取的这些关系中提取语义特征并通过加权的形式来形成最终的文本表示。公式为：

其中表示控制信息流动的门控单元，/>和/>是可训练的权重和偏置。

最终学习的语义向量可以被表达成如下形式：

H_t和为语义特征；为了综合每个特征的贡献，设置/>因此，句子R的最终表示形式为R＝{R_t，t∈(1，m)}。

如表2所示，获取最终的语义表示的过程为：

表2

单词-上下文注意力机制强调全面关系对目标单词的影响。为了综合每个特征的贡献，我们设置因此，句子R的最终表示形式为R＝{R_t，t∈(1，m)}。

本实施例通过将每个目标词和它的全面上下文相配合，我们发明的方法被设置为在全局层面上提取语义特征，而无需多层网络结构。最后，我们通过attention层将所有表示向量压缩成固定长度的向量。

实施例二

本实施例提供了一种基于单层网络结构学习上下文信息的系统，其具体包括如下模块：

此处需要说明的是，本实施例中的各个模块，与实施例一中的各个步骤一一对应，其具体实施过程相同，此处不再累述。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于单层网络结构学习上下文信息的方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于单层网络结构学习上下文信息的方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于单层网络结构学习上下文信息的方法，其特征在于，包括：

基于第二门控结构从目标单词及其上下文之间的关系中提取语义特征，并通过加权形式来形成最终的文本表示；其中，第一门控结构和第二门控结构均包含单词-上下文注意力机制；

所述目标单词上文的向量计算方法为：使用FOFE算法将目标单词的上文压缩为第一固定长度的向量；

所述目标单词下文的向量计算方法为：使用FOFE算法将目标单词的下文压缩为第二固定长度的向量；

其中，所述对目标单词、上文和下文分别进行向量表示的具体方法为：采取基于FOFE的上下文收集方法将任意数量的上下文词压缩为固定大小的向量表示，公式为：

其中，FOFE(S_i，S_j)是句子S从S_i到S_j的压缩向量，a是控制历史向量影响的权重；当获取上下文表示信息时，对于句子S中的每一个单词S_t，通过构造左上下文和右上下文/>的方式来收集完整范围的上下文信息，公式为：

对于边界情况，将第一个词的左上下文和最后一个词的右上下文/>设置为零。

2.如权利要求1所述的基于单层网络结构学习上下文信息的方法，其特征在于，所述语义特征通过attention层将所有语义特征对应的表示向量通过加权形式压缩成固定长度的向量。

3.如权利要求1所述的基于单层网络结构学习上下文信息的方法，其特征在于，通过FCSR算法生成目标单词的向量表示。

4.一种基于单层网络结构学习上下文信息的系统，其特征在于，包括：

文本表示模块，其用于基于第二门控结构从目标单词及其上下文之间的关系中提取语义特征，并通过加权形式来形成最终的文本表示；其中，第一门控结构和第二门控结构均包含单词-上下文注意力机制；

5.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-3中任一项所述的基于单层网络结构学习上下文信息的方法中的步骤。

6.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-3中任一项所述的基于单层网络结构学习上下文信息的方法中的步骤。