CN113641792B

CN113641792B - 基于并行化零冗余长短期记忆网络的文本处理方法及系统

Info

Publication number: CN113641792B
Application number: CN202110931048.4A
Authority: CN
Inventors: 卫金茂; 朴乘锴; 王宇辰; 朱亚朋
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2021-08-13
Filing date: 2021-08-13
Publication date: 2023-11-21
Anticipated expiration: 2041-08-13
Also published as: CN113641792A

Abstract

本发明属于文本信息处理领域，提供了一种基于并行化零冗余长短期记忆网络的文本处理方法及系统。其中，该方法包括获取待处理文本数据并转换为词嵌入向量形式；根据待处理文本数据包含的词语数量，自适应计算待处理文本数据中每个词语的上下文窗口覆盖范围；在并行化零冗余长短期记忆网络内，压缩所述上下文窗口覆盖范围内的所有词嵌入向量，形成局部注意力向量矩阵，再通过哈达玛积矩阵相乘，并行计算得到所有词嵌入向量对应的局部上下文向量；将待处理文本数据对应的局部上下文向量经分类网络模型处理，得到文本分类或标注结果。

Description

基于并行化零冗余长短期记忆网络的文本处理方法及系统

技术领域

本发明属于文本信息处理领域，尤其涉及一种基于并行化零冗余长短期记忆网络的文本处理方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着新一代人工智能(Artificial Intelligence,AI)技术的快速发展与不断成熟，云计算、集群计算以及小型服务器的算力持续提高，智能设备的广泛普及，各类互联网应用已经成为用户日程生活中不可缺少的内容。所以自然语言处理领域的相关任务是人工智能技术的重要发展方向。

自然语言数据不能被计算机直接识别和处理，所以在进行各类自然语言处理领域的任务之前，必须将其表示为计算机能够识别的数值型数据。这一过程即广义的文本表示。面向文本分类、序列标注等具体应用，文本表示的目的是充分挖掘其中的语义信息，将隐含的词义和间接的词语关联表示为稠密、低秩的向量。这一过程被称为狭义文本表示。文本表示作为自然语言处理领域中的热点和难点问题，一直受到研究人员的密切关注。

LSTM(长短期记忆网络)的结构特点提供了发现词语之间关联信息的能力，但还存在以下问题：1)串行序列特性：LSTM是一种单向模型，只能按顺序读取词语，可能忽略自然语言的局部语义环境(如倒叙、强调等)，虽然双向LSTM可以提供额外的反向序列，但是其本质仍然是单向传播。并且，LSTM的设计特性决定了该模型不支持并行计算，必须等当前词语处理完毕后才能处理下一个词语，降低了文本处理速度。2)循环次数不固定：当文本数据较长的时候，经过多次迭代的隐藏状态可能忽略长跨度词语关联，给语义分析带来困难。同时，在训练过程中，LSTM还会遇到梯度消失或爆炸的问题。3)上下文范围难以确定：在深度模型中，上下文窗口表示每个词语受到相邻词语影响的范围大小，可以通过叠加多层的方式扩大。通常情况下，较浅的模型只获取少量上下文信息，不利于语义信息的提取。

综上所述，由于现有的LSTM结构导致文本处理速度慢，语义信息提取量少且语义分析困难，最终降低了文本的处理效率。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种基于并行化零冗余长短期记忆网络的文本处理方法及系统，其能够快速准确地处理文本，提高文本处理效率。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于并行化零冗余长短期记忆网络的文本处理方法，其包括：

获取待处理文本数据并转换为词嵌入向量形式；

根据待处理文本数据包含的词语数量，自适应计算待处理文本数据中每个词语的上下文窗口覆盖范围；

在并行化零冗余长短期记忆网络内，压缩所述上下文窗口覆盖范围内的所有词嵌入向量，形成局部注意力向量矩阵，再通过哈达玛积矩阵相乘，并行计算得到所有词嵌入向量对应的局部上下文向量；

将待处理文本数据对应的局部上下文向量经分类网络模型处理，得到文本分类或标注结果。

本发明的第二个方面提供一种基于并行化零冗余长短期记忆网络的文本处理系统，其包括：

词嵌入向量转换模块，其用于获取待处理文本数据并转换为词嵌入向量形式；

上下文窗口确定模块，其用于根据待处理文本数据包含的词语数量，自适应计算待处理文本数据中每个词语的上下文窗口覆盖范围；

上下文向量并行计算模块，其用于在并行化零冗余长短期记忆网络内，压缩所述上下文窗口覆盖范围内的所有词嵌入向量，形成局部注意力向量矩阵，再通过哈达玛积矩阵相乘，并行计算得到所有词嵌入向量对应的局部上下文向量；

文本处理模块，其用于将待处理文本数据对应的局部上下文向量经分类网络模型处理，得到文本分类或标注结果。

本发明的第三个方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于并行化零冗余长短期记忆网络的文本处理方法中的步骤。

本发明的第四个方面提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于并行化零冗余长短期记忆网络的文本处理方法中的步骤。

与现有技术相比，本发明的有益效果是：

(1)本发明基于并行化思想，将LSTM中横向循环过程转换为纵向传播过程，打破了LSTM中词语的前后依赖关系，为每个词语计算其上下文窗口内的局部语义信息，在并行化零冗余长短期记忆网络内，压缩所述上下文窗口覆盖范围内的所有词嵌入向量，形成局部注意力向量矩阵，再通过哈达玛积矩阵相乘，并行计算得到所有词嵌入向量对应的局部上下文向量，充分利用了并行计算的优势，易于部署，提高了文本处理的效率。

(2)本发明使用纵向迭代方式，迭代次数不受文本长度影响，且仅与模型层数有关，避免了因文本数据较长导致的长跨度依赖关系丢失的情况，而且根据文本长度和模型层数动态计算上下文窗口，这样不会产生上下文信息不足和冗余，使得长度较小的文本数据语义单一，抽象程度低，因此为其分配较小的语义联系搜索范围；长度较大的文本数据语义复杂，抽象程度高，因此为其分配较大的语义联系搜索范围，通过动态调整上下文窗口的大小，可以恰好获得每条文本数据全部上下文信息，从而实现了提取全局语义特征的目的，提高了文本处理的精度，进而提高了文本后期分类的准确性。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例的基于并行化零冗余长短期记忆网络的文本处理方法流程图；

图2是本发明实施例的并行化零冗余长短期记忆网络内部数据处理流程图；

图3(a)是传统长短期记忆网络结构示意图；

图3(b)是本发明实施例的并行化零冗余长短期记忆网络结构示意图；

图4(a)是本发明实施例的并行化零冗余长短期记忆网络在1层条件下的ROC曲线示意图；

图4(b)是本发明实施例的并行化零冗余长短期记忆网络在2层条件下的ROC曲线示意图；

图4(c)是本发明实施例的并行化零冗余长短期记忆网络在3层条件下的ROC曲线示意图；

图4(d)是本发明实施例的并行化零冗余长短期记忆网络在4层条件下的ROC曲线示意图；

图4(e)是本发明实施例的并行化零冗余长短期记忆网络在5层条件下的ROC曲线示意图；

图4(f)是本发明实施例的并行化零冗余长短期记忆网络在6层条件下的ROC曲线示意图；

图4(g)是本发明实施例的并行化零冗余长短期记忆网络在7层条件下的ROC曲线示意图；

图4(h)是本发明实施例的并行化零冗余长短期记忆网络在8层条件下的ROC曲线示意图；

图4(i)是本发明实施例的并行化零冗余长短期记忆网络在9层条件下的ROC曲线示意图；

图4(j)是本发明实施例的并行化零冗余长短期记忆网络在10层条件下的ROC曲线示意图；

图5(a)是传统长短期记忆网络在1层条件下的ROC曲线示意图；

图5(b)是传统长短期记忆网络在2层条件下的ROC曲线示意图；

图5(c)是传统长短期记忆网络在3层条件下的ROC曲线示意图；

图5(d)是传统长短期记忆网络在4层条件下的ROC曲线示意图；

图5(e)是传统长短期记忆网络在5层条件下的ROC曲线示意图；

图5(f)是传统长短期记忆网络在6层条件下的ROC曲线示意图；

图5(g)是传统长短期记忆网络在7层条件下的ROC曲线示意图；

图5(h)是传统长短期记忆网络在8层条件下的ROC曲线示意图；

图5(i)是传统长短期记忆网络在9层条件下的ROC曲线示意图；

图5(j)是传统长短期记忆网络在10层条件下的ROC曲线示意图；

图6(a)是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络两个模型在1层条件下且在Cook分类数据集上的分类准确率对比结果；

图6(b)是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络两个模型在2层条件下且在Cook分类数据集上的分类准确率对比结果；

图6(c)是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络两个模型在3层条件下且在Cook分类数据集上的分类准确率对比结果；

图6(d)是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络两个模型在4层条件下且在Cook分类数据集上的分类准确率对比结果；

图6(e)是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络两个模型在5层条件下且在Cook分类数据集上的分类准确率对比结果；

图6(f)是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络两个模型在6层条件下且在Cook分类数据集上的分类准确率对比结果；

图6(g)是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络两个模型在7层条件下且在Cook分类数据集上的分类准确率对比结果；

图6(h)是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络两个模型在8层条件下且在Cook分类数据集上的分类准确率对比结果；

图6(i)是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络两个模型在9层条件下且在Cook分类数据集上的分类准确率对比结果；

图6(j)是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络两个模型在10层条件下且在Cook分类数据集上的分类准确率对比结果；

图7(a)是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络两个模型在1层条件下POS序列标注数据集上的F1-score值对比结果；

图7(b)是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络两个模型在2层条件下POS序列标注数据集上的F1-score值对比结果；

图7(c)是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络两个模型在3层条件下POS序列标注数据集上的F1-score值对比结果；

图7(d)是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络两个模型在4层条件下POS序列标注数据集上的F1-score值对比结果；

图7(e)是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络两个模型在5层条件下POS序列标注数据集上的F1-score值对比结果；

图7(f)是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络两个模型在6层条件下POS序列标注数据集上的F1-score值对比结果；

图7(g)是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络两个模型在7层条件下POS序列标注数据集上的F1-score值对比结果；

图7(h)是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络两个模型在8层条件下POS序列标注数据集上的F1-score值对比结果；

图7(i)是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络两个模型在9层条件下POS序列标注数据集上的F1-score值对比结果；

图7(j)是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络两个模型在10层条件下POS序列标注数据集上的F1-score值对比结果；

图8是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络的时间性能对比图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

如图1所示，本实施例提供了一种基于并行化零冗余长短期记忆网络的文本处理方法，其具体包括如下步骤：

步骤1：获取待处理文本数据并转换为词嵌入向量形式。

步骤2：根据待处理文本数据包含的词语数量，自适应计算待处理文本数据中每个词语的上下文窗口覆盖范围。

在本实施例中，所述上下文窗口覆盖范围的计算过程为：

根据待处理文本数据包含的词语数量与并行化零冗余长短期记忆网络的层数作商后向上取整，得到待处理文本数据中每个词语的上下文窗口覆盖范围。

其中，所述并行化零冗余长短期记忆网络为预先训练完成，且训练完成后的并行化零冗余长短期记忆网络层数为已知值。

其中，S为待处理的文本数据，|S|为其中的词语数量，|L|表示模型的层数，表示向上取整。

在本实施例中，所述上下文窗口覆盖范围大小决定每个词嵌入向量对应的语义特征多少。

具体地，CTX表示在模型的任意层中目标词语的语义联系搜索范围。CTX值越小，说明模型中每个词语接收到的上下文信息越少，提取到的判别特征越少；CTX值越大，则意味着词语收到上下文影响越大，提取的语义特征越多。

步骤3：在并行化零冗余长短期记忆网络内，压缩所述上下文窗口覆盖范围内的所有词嵌入向量，形成局部注意力向量矩阵，再通过哈达玛积矩阵相乘，并行计算得到所有词嵌入向量对应的局部上下文向量。

其中，局部注意力向量矩阵内的每个局部注意力向量的形状均为[1，n]的向量形式。

对于给定的文本向量S_t，首先分别使用线性变换将其转换为Q_t，K_t和v_t。计算过程如公式(2)-公式(4)所示。

Q_t＝S_t×W_q+b_q， (2)

K_t＝S_t×W_k+b_k， (3)

V_t＝S_t×W_v+b_v. (4)

其中，W_q，W_k和W_v为线性变换的权重参数，其形状为[n，n]，b_q，b_k和b_v为偏置，其形状为[1，n]。

使用激活函数将K_t转换为非线性形式并与V_t作哈达玛积得到注意力矩阵At。该过程如下所示。

A_t＝σ(K_t)⊙V_t

其中，激活函数σ表示线性整流函数(Rectified Linear Unit，ReLU)。

将其上下文窗口中的词语压缩为一个形状为[1，n]的上下文注意力向量，然后通过哈达玛积(Hadamard productions)计算得到文本数据的词嵌入向量s_t的语义关联向量，该计算过程如公式(5)所示。

对于第一个词语和最后一个词语等边界条件，我们在相应位置补零。算法1给出了局部上下文注意力的计算流程和伪代码。

由于线性变换等价于对矩阵右乘一个权重矩阵W，所以前文所述的线性变换可以直接进行并行化操作。并行化计算过程如公式(6)-公式(8)所示。

其中，公式(6)-公式(8)与公式(2)-(4)分别对应，S、Q、K、V的下标表示词语的序号。例如，St表示文本S中的第t个词语对应的词向量。W、b的下标表示attention的参数。q、k、v分别表示计算query，key和value时使用到的参数矩阵(W)和偏置(b)。没有下标的S、Q、K、V表示整个文本数据，包含所有词语。例如S＝{S₁，S₂，...，S_t，...S_|S|}。

Q＝S×W_q+b_q， (6)

K＝S×W_k+b_k， (7)

V＝S×W_v+b_v。 (8)

其中，

相应地，因注意力矩阵的主要操作为哈达玛积(点对点乘法)，所以可以直接并行化实现。计算过程如公式(9)所示。

A＝σ(K)⊙V。 (9)

其中，

对于给定的上下文窗口CTX和注意力矩阵A，本发明通过矩阵乘法计算C_t。众所周知，对矩阵左乘一个方阵T等价于对该矩阵进行初等列变换。通过设定T中的元素，可以根据CTX动态调整C_t在A上的覆盖范围。算法2给出了T的计算过程。

在给定上述动态上下文窗口和并行化局部注意力向量的条件下，并行化长短期记忆网络的计算过程可分为三个步骤。因上下文向量打破了LSTM中顺序计算的特点，所以下面的操作可以直接进行并行化计算。

1)计算LSTM中的门结构

对于任意文本向量和上下文向量/>可以为其计算和LSTM中形式相似的四个门结构，计算过程如公式(11-14)所示。

G_f＝σ(S×W_f1+H×W_f2+C×W_f3+b_f)， (11)

G_d＝σ(S×W_d1+H×W_d2+C×W_d3+b_d)， (12)

G_i＝σ(S×W_i1+H×W_i2+C×W_i3+b_i)， (13)

G_o＝σ(S×W_o1+H×W_o2+C×W_o3+b_o)。 (14)

其中，G_*∈R^m×n表示用于提取特征的门结构，w_*表示形状为[n，n]的权重矩阵，b_*表示偏置，σ表示激活函数，H表示形状为[m，n]的隐藏状态，在第一层H＝S，并逐层更新。

2)更新隐藏状态

根据文本向量S，和对应的G_f，G_d和G_i对H进行更新，更新过程如公式(15)所示。

H：＝S⊙G_f+V⊙G_d+G_i。 (15)

其中，V表示文本状态，在第一层V＝s，且逐层更新。

3)更新文本状态

文本状态是隐藏状态的非线性版本，更新过程如公式(16)所示。

V：＝σ(H⊙tanh(G_o))。 (16)

根据公式，每个G_*都由当前词语和其上下文向量共同生成，每个词语所对应的门不同，具有时序特异性。同时，每个门直接与文本向量和隐藏状态进行哈达玛积运算，保证了实例特异性。相较于Transformer，本实施例提出的模型具有双重特异性结构，在拟合能力上比共享型结构具有优势，可以提高模型的鲁棒性。

步骤4：将待处理文本数据对应的局部上下文向量经分类网络模型处理，得到文本分类或标注结果。

相较于现有文本表示模型，如图3(b)本实施例的并行化零冗余长短期记忆网络将横向循环的LSTM转换为纵向并行模型，用逐层扩大上下文感受域的模式代替沿时序方向迭代词语的模式。同时针对文本数据长度的差异性，提出了动态上下文窗口，避免了上下文窗口不能完美适配文本数据长度和模型层数导致的上下文信息不足和冗余的问题。此外，本实施例支持完全并行化计算，可以使模型直接部署在各种并行计算平台上，而不需要专门优化。传统的LSTM结构，如图3(a)所示。

本实施例的该文本处理方法在公开分类数据集和序列标注数据集上的性能均达到了较好结果。从图4(a)-图4(j)和图5(a)-图5(j)可以看出，相比于LSTM，本实施例的并行化零冗余长短期记忆网络在1-10层均达到更好的ROC和AUC评分，且各层结果波动幅度较小，说明该模型具有较好的可优化性。同时，由于上下文信息利用得当，模型容易收敛。

如图6(a)-图6(j)所示，本实施例的并行化零冗余长短期记忆网络在5～10次迭代后即可趋于稳定。且收敛后波动小于LSTM，说明该模型具有较好的拟合能力和稳定性。与ROC曲线结果一致，本实施例的并行化零冗余长短期记忆网络的分类准确率显著高于LSTM，说明纵向传播的模型结构的有效性。

如图7(a)-图7(j)所示的两种模型在POS公开数据集上的F1评分表明，本实施例提出的并行化零冗余长短期记忆网络序列标注数据集上的性能优于LSTM。同时，收敛速度也比LSTM快约1/3。说明纵向传播的结构因具有相同的循环次数而冗余训练。结合在分了任务上的实验结果，验证了本实施例提出的并行化零冗余长短期记忆网络对多种自然语言处理任务具有较好的兼容性。

如图8所示，本实施例提出的并行化零冗余长短期记忆网络在不同数据集上到都达到了稳定的时间性能。同时，相比于LSTM的序列特性，纵向循环可以获得显著的训练时间增益。

需要说明的是，步骤1和步骤2的顺序，如图2所示，本领域技术人员可根据实际情况来任意调整并不影响基于并行化零冗余长短期记忆网络的文本处理方法的最终结果。

实施例二

本实施例提供了一种基于并行化零冗余长短期记忆网络的文本处理系统，其具体包括如下模块：

(1)词嵌入向量转换模块，其用于获取待处理文本数据并转换为词嵌入向量形式。

(2)上下文窗口确定模块，其用于根据待处理文本数据包含的词语数量，自适应计算待处理文本数据中每个词语的上下文窗口覆盖范围。

其中，所述上下文窗口覆盖范围大小决定每个词嵌入向量对应的语义特征多少。

在所述上下文窗口确定模块中，所述上下文窗口覆盖范围的计算过程为：

(3)上下文向量并行计算模块，其用于在并行化零冗余长短期记忆网络内，压缩所述上下文窗口覆盖范围内的所有词嵌入向量，形成局部注意力向量矩阵，再通过哈达玛积矩阵相乘，并行计算得到所有词嵌入向量对应的局部上下文向量。

(4)文本处理模块，其用于将待处理文本数据对应的局部上下文向量经分类网络模型处理，得到文本分类或标注结果。

此处需要说明的是，本实施例的基于并行化零冗余长短期记忆网络的文本处理系统中的各个模块，与实施例一中的各个步骤一一对应，其具体实施过程相同，此处不再累述。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的基于并行化零冗余长短期记忆网络的文本处理方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的基于并行化零冗余长短期记忆网络的文本处理方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于并行化零冗余长短期记忆网络的文本处理方法，其特征在于，包括：

获取待处理文本数据并转换为词嵌入向量形式；

根据待处理文本数据包含的词语数量，自适应计算待处理文本数据中每个词语的上下文窗口覆盖范围；其中，所述上下文窗口覆盖范围的计算过程为：

根据待处理文本数据包含的词语数量与并行化零冗余长短期记忆网络的层数作商后向上取整，得到待处理文本数据中每个词语的上下文窗口覆盖范围；

在并行化零冗余长短期记忆网络内，压缩所述上下文窗口覆盖范围内的所有词嵌入向量，形成局部注意力向量矩阵，再通过哈达玛积矩阵相乘，并行计算得到所有词嵌入向量对应的局部上下文向量；所述并行化零冗余长短期记忆网络将横向循环的LSTM转换为纵向并行模型，用逐层扩大上下文感受域的模式代替沿时序方向迭代词语的模式；并行计算得到所有词嵌入向量对应的局部上下文向量的过程为：

并行化计算上下文窗口覆盖范围内所有词嵌入向量的线性变换，得到压缩后的所述上下文窗口覆盖范围内的所有词嵌入向量，形成局部注意力向量矩阵，其过程为：

Q＝S×W_q+b_q (6)

K＝S×W_k+b_k (7)

V＝S×W_v+b_v (8)

其中，

其中，S表示文本向量；m表示文本数据长度；下标t表示第t个词语；W_q，W_k和w_v为线性变换的权重参数，b_q，b_k和b_v为偏置；

通过哈达玛积矩阵相乘，并行计算得到所有词嵌入向量对应的局部上下文向量的过程为：

A＝σ(K)⊙V (9)其中，为全文的注意力矩阵；激活函数σ表示线性整流函数；其中，注意力矩阵A_t等于激活函数将K_t转换为非线性形式并与V_t作哈达玛积；

并行化长短期记忆网络的计算分为三个步骤：

计算LSTM中的门结构：对于任意文本向量和上下文向量为其计算和LSTM中形式相似的四个门结构，计算过程为：

G_f＝σ(S×W_f1+H×W_f2+C×W_f3+b_f) (11)

G_d＝σ(S×W_d1+H×W_d2+C×W_d3+b_d) (12)

G_i＝σ(S×W_i1+H×W_i2+C×W_i3+b_i) (13)

G_o＝σ(S×W_o1+H×W_o2+C×W_o3+b_o) (14)

其中，G_*∈R^m×n表示用于提取特征的门结构，W_*表示形状为[n，n]的权重矩阵，b_*表示偏置，σ表示激活函数，H表示形状为[m，n]的隐藏状态，在第一层H＝S，并逐层更新；

2)更新隐藏状态；

根据文本向量S，和对应的G_f，G_d和G_i对H进行更新，更新过程为：

H：＝S⊙G_f+V⊙G_d+G_i (15)

其中，V表示文本状态，在第一层V＝S，且逐层更新；

3)更新文本状态：

文本状态是隐藏状态的非线性版本，更新过程如公式(16)所示：

V：＝σ(H⊙tanh(G_o)) (16)

2.如权利要求1所述的基于并行化零冗余长短期记忆网络的文本处理方法，其特征在于，所述上下文窗口覆盖范围大小决定每个词嵌入向量对应的语义特征多少。

3.如权利要求1所述的基于并行化零冗余长短期记忆网络的文本处理方法，其特征在于，所述并行化零冗余长短期记忆网络为预先训练完成，且训练完成后的并行化零冗余长短期记忆网络层数为已知值。

4.如权利要求1所述的基于并行化零冗余长短期记忆网络的文本处理方法，其特征在于，局部注意力向量矩阵内的每个局部注意力向量的形状均为[1，n]的向量形式。

5.一种基于并行化零冗余长短期记忆网络的文本处理系统，其特征在于，包括：

上下文窗口确定模块，其用于根据待处理文本数据包含的词语数量，自适应计算待处理文本数据中每个词语的上下文窗口覆盖范围；其中，在所述上下文窗口确定模块中，所述上下文窗口覆盖范围的计算过程为：

所述并行化零冗余长短期记忆网络将横向循环的LSTM转换为纵向并行模型，用逐层扩大上下文感受域的模式代替沿时序方向迭代词语的模式；并行计算得到所有词嵌入向量对应的局部上下文向量的过程为：

Q＝S×W_q+b_q (6)

K＝S×W_k+b_k (7)

V＝S×W_v+b_v (8)

其中，

A＝σ(K)⊙V (9)

其中，为全文的注意力矩阵；激活函数σ表示线性整流函数；其中，注意力矩阵A_t等于激活函数将K_t转换为非线性形式并与V_t作哈达玛积；