CN113641792B - 基于并行化零冗余长短期记忆网络的文本处理方法及系统 - Google Patents
基于并行化零冗余长短期记忆网络的文本处理方法及系统 Download PDFInfo
- Publication number
- CN113641792B CN113641792B CN202110931048.4A CN202110931048A CN113641792B CN 113641792 B CN113641792 B CN 113641792B CN 202110931048 A CN202110931048 A CN 202110931048A CN 113641792 B CN113641792 B CN 113641792B
- Authority
- CN
- China
- Prior art keywords
- text
- long
- short
- memory network
- redundancy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015654 memory Effects 0.000 title claims abstract description 97
- 238000003672 processing method Methods 0.000 title claims abstract description 14
- 239000013598 vector Substances 0.000 claims abstract description 97
- 238000000034 method Methods 0.000 claims abstract description 46
- 239000011159 matrix material Substances 0.000 claims abstract description 42
- 238000012545 processing Methods 0.000 claims abstract description 32
- 238000004364 calculation method Methods 0.000 claims abstract description 23
- 238000002372 labelling Methods 0.000 claims abstract description 8
- 230000007787 long-term memory Effects 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 30
- 230000006403 short-term memory Effects 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 14
- 230000004913 activation Effects 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims 2
- 238000007906 compression Methods 0.000 claims 2
- 230000010365 information processing Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 10
- 238000003058 natural language processing Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明属于文本信息处理领域,提供了一种基于并行化零冗余长短期记忆网络的文本处理方法及系统。其中,该方法包括获取待处理文本数据并转换为词嵌入向量形式;根据待处理文本数据包含的词语数量,自适应计算待处理文本数据中每个词语的上下文窗口覆盖范围;在并行化零冗余长短期记忆网络内,压缩所述上下文窗口覆盖范围内的所有词嵌入向量,形成局部注意力向量矩阵,再通过哈达玛积矩阵相乘,并行计算得到所有词嵌入向量对应的局部上下文向量;将待处理文本数据对应的局部上下文向量经分类网络模型处理,得到文本分类或标注结果。
Description
技术领域
本发明属于文本信息处理领域,尤其涉及一种基于并行化零冗余长短期记忆网络的文本处理方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
随着新一代人工智能(Artificial Intelligence,AI)技术的快速发展与不断成熟,云计算、集群计算以及小型服务器的算力持续提高,智能设备的广泛普及,各类互联网应用已经成为用户日程生活中不可缺少的内容。所以自然语言处理领域的相关任务是人工智能技术的重要发展方向。
自然语言数据不能被计算机直接识别和处理,所以在进行各类自然语言处理领域的任务之前,必须将其表示为计算机能够识别的数值型数据。这一过程即广义的文本表示。面向文本分类、序列标注等具体应用,文本表示的目的是充分挖掘其中的语义信息,将隐含的词义和间接的词语关联表示为稠密、低秩的向量。这一过程被称为狭义文本表示。文本表示作为自然语言处理领域中的热点和难点问题,一直受到研究人员的密切关注。
LSTM(长短期记忆网络)的结构特点提供了发现词语之间关联信息的能力,但还存在以下问题:1)串行序列特性:LSTM是一种单向模型,只能按顺序读取词语,可能忽略自然语言的局部语义环境(如倒叙、强调等),虽然双向LSTM可以提供额外的反向序列,但是其本质仍然是单向传播。并且,LSTM的设计特性决定了该模型不支持并行计算,必须等当前词语处理完毕后才能处理下一个词语,降低了文本处理速度。2)循环次数不固定:当文本数据较长的时候,经过多次迭代的隐藏状态可能忽略长跨度词语关联,给语义分析带来困难。同时,在训练过程中,LSTM还会遇到梯度消失或爆炸的问题。3)上下文范围难以确定:在深度模型中,上下文窗口表示每个词语受到相邻词语影响的范围大小,可以通过叠加多层的方式扩大。通常情况下,较浅的模型只获取少量上下文信息,不利于语义信息的提取。
综上所述,由于现有的LSTM结构导致文本处理速度慢,语义信息提取量少且语义分析困难,最终降低了文本的处理效率。
发明内容
为了解决上述背景技术中存在的技术问题,本发明提供一种基于并行化零冗余长短期记忆网络的文本处理方法及系统,其能够快速准确地处理文本,提高文本处理效率。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种基于并行化零冗余长短期记忆网络的文本处理方法,其包括:
获取待处理文本数据并转换为词嵌入向量形式;
根据待处理文本数据包含的词语数量,自适应计算待处理文本数据中每个词语的上下文窗口覆盖范围;
在并行化零冗余长短期记忆网络内,压缩所述上下文窗口覆盖范围内的所有词嵌入向量,形成局部注意力向量矩阵,再通过哈达玛积矩阵相乘,并行计算得到所有词嵌入向量对应的局部上下文向量;
将待处理文本数据对应的局部上下文向量经分类网络模型处理,得到文本分类或标注结果。
本发明的第二个方面提供一种基于并行化零冗余长短期记忆网络的文本处理系统,其包括:
词嵌入向量转换模块,其用于获取待处理文本数据并转换为词嵌入向量形式;
上下文窗口确定模块,其用于根据待处理文本数据包含的词语数量,自适应计算待处理文本数据中每个词语的上下文窗口覆盖范围;
上下文向量并行计算模块,其用于在并行化零冗余长短期记忆网络内,压缩所述上下文窗口覆盖范围内的所有词嵌入向量,形成局部注意力向量矩阵,再通过哈达玛积矩阵相乘,并行计算得到所有词嵌入向量对应的局部上下文向量;
文本处理模块,其用于将待处理文本数据对应的局部上下文向量经分类网络模型处理,得到文本分类或标注结果。
本发明的第三个方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于并行化零冗余长短期记忆网络的文本处理方法中的步骤。
本发明的第四个方面提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于并行化零冗余长短期记忆网络的文本处理方法中的步骤。
与现有技术相比,本发明的有益效果是:
(1)本发明基于并行化思想,将LSTM中横向循环过程转换为纵向传播过程,打破了LSTM中词语的前后依赖关系,为每个词语计算其上下文窗口内的局部语义信息,在并行化零冗余长短期记忆网络内,压缩所述上下文窗口覆盖范围内的所有词嵌入向量,形成局部注意力向量矩阵,再通过哈达玛积矩阵相乘,并行计算得到所有词嵌入向量对应的局部上下文向量,充分利用了并行计算的优势,易于部署,提高了文本处理的效率。
(2)本发明使用纵向迭代方式,迭代次数不受文本长度影响,且仅与模型层数有关,避免了因文本数据较长导致的长跨度依赖关系丢失的情况,而且根据文本长度和模型层数动态计算上下文窗口,这样不会产生上下文信息不足和冗余,使得长度较小的文本数据语义单一,抽象程度低,因此为其分配较小的语义联系搜索范围;长度较大的文本数据语义复杂,抽象程度高,因此为其分配较大的语义联系搜索范围,通过动态调整上下文窗口的大小,可以恰好获得每条文本数据全部上下文信息,从而实现了提取全局语义特征的目的,提高了文本处理的精度,进而提高了文本后期分类的准确性。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例的基于并行化零冗余长短期记忆网络的文本处理方法流程图;
图2是本发明实施例的并行化零冗余长短期记忆网络内部数据处理流程图;
图3(a)是传统长短期记忆网络结构示意图;
图3(b)是本发明实施例的并行化零冗余长短期记忆网络结构示意图;
图4(a)是本发明实施例的并行化零冗余长短期记忆网络在1层条件下的ROC曲线示意图;
图4(b)是本发明实施例的并行化零冗余长短期记忆网络在2层条件下的ROC曲线示意图;
图4(c)是本发明实施例的并行化零冗余长短期记忆网络在3层条件下的ROC曲线示意图;
图4(d)是本发明实施例的并行化零冗余长短期记忆网络在4层条件下的ROC曲线示意图;
图4(e)是本发明实施例的并行化零冗余长短期记忆网络在5层条件下的ROC曲线示意图;
图4(f)是本发明实施例的并行化零冗余长短期记忆网络在6层条件下的ROC曲线示意图;
图4(g)是本发明实施例的并行化零冗余长短期记忆网络在7层条件下的ROC曲线示意图;
图4(h)是本发明实施例的并行化零冗余长短期记忆网络在8层条件下的ROC曲线示意图;
图4(i)是本发明实施例的并行化零冗余长短期记忆网络在9层条件下的ROC曲线示意图;
图4(j)是本发明实施例的并行化零冗余长短期记忆网络在10层条件下的ROC曲线示意图;
图5(a)是传统长短期记忆网络在1层条件下的ROC曲线示意图;
图5(b)是传统长短期记忆网络在2层条件下的ROC曲线示意图;
图5(c)是传统长短期记忆网络在3层条件下的ROC曲线示意图;
图5(d)是传统长短期记忆网络在4层条件下的ROC曲线示意图;
图5(e)是传统长短期记忆网络在5层条件下的ROC曲线示意图;
图5(f)是传统长短期记忆网络在6层条件下的ROC曲线示意图;
图5(g)是传统长短期记忆网络在7层条件下的ROC曲线示意图;
图5(h)是传统长短期记忆网络在8层条件下的ROC曲线示意图;
图5(i)是传统长短期记忆网络在9层条件下的ROC曲线示意图;
图5(j)是传统长短期记忆网络在10层条件下的ROC曲线示意图;
图6(a)是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络两个模型在1层条件下且在Cook分类数据集上的分类准确率对比结果;
图6(b)是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络两个模型在2层条件下且在Cook分类数据集上的分类准确率对比结果;
图6(c)是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络两个模型在3层条件下且在Cook分类数据集上的分类准确率对比结果;
图6(d)是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络两个模型在4层条件下且在Cook分类数据集上的分类准确率对比结果;
图6(e)是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络两个模型在5层条件下且在Cook分类数据集上的分类准确率对比结果;
图6(f)是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络两个模型在6层条件下且在Cook分类数据集上的分类准确率对比结果;
图6(g)是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络两个模型在7层条件下且在Cook分类数据集上的分类准确率对比结果;
图6(h)是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络两个模型在8层条件下且在Cook分类数据集上的分类准确率对比结果;
图6(i)是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络两个模型在9层条件下且在Cook分类数据集上的分类准确率对比结果;
图6(j)是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络两个模型在10层条件下且在Cook分类数据集上的分类准确率对比结果;
图7(a)是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络两个模型在1层条件下POS序列标注数据集上的F1-score值对比结果;
图7(b)是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络两个模型在2层条件下POS序列标注数据集上的F1-score值对比结果;
图7(c)是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络两个模型在3层条件下POS序列标注数据集上的F1-score值对比结果;
图7(d)是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络两个模型在4层条件下POS序列标注数据集上的F1-score值对比结果;
图7(e)是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络两个模型在5层条件下POS序列标注数据集上的F1-score值对比结果;
图7(f)是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络两个模型在6层条件下POS序列标注数据集上的F1-score值对比结果;
图7(g)是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络两个模型在7层条件下POS序列标注数据集上的F1-score值对比结果;
图7(h)是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络两个模型在8层条件下POS序列标注数据集上的F1-score值对比结果;
图7(i)是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络两个模型在9层条件下POS序列标注数据集上的F1-score值对比结果;
图7(j)是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络两个模型在10层条件下POS序列标注数据集上的F1-score值对比结果;
图8是本发明实施例的并行化零冗余长短期记忆网络和传统长短期记忆网络的时间性能对比图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
如图1所示,本实施例提供了一种基于并行化零冗余长短期记忆网络的文本处理方法,其具体包括如下步骤:
步骤1:获取待处理文本数据并转换为词嵌入向量形式。
步骤2:根据待处理文本数据包含的词语数量,自适应计算待处理文本数据中每个词语的上下文窗口覆盖范围。
在本实施例中,所述上下文窗口覆盖范围的计算过程为:
根据待处理文本数据包含的词语数量与并行化零冗余长短期记忆网络的层数作商后向上取整,得到待处理文本数据中每个词语的上下文窗口覆盖范围。
其中,所述并行化零冗余长短期记忆网络为预先训练完成,且训练完成后的并行化零冗余长短期记忆网络层数为已知值。
其中,S为待处理的文本数据,|S|为其中的词语数量,|L|表示模型的层数,表示向上取整。
在本实施例中,所述上下文窗口覆盖范围大小决定每个词嵌入向量对应的语义特征多少。
具体地,CTX表示在模型的任意层中目标词语的语义联系搜索范围。CTX值越小,说明模型中每个词语接收到的上下文信息越少,提取到的判别特征越少;CTX值越大,则意味着词语收到上下文影响越大,提取的语义特征越多。
步骤3:在并行化零冗余长短期记忆网络内,压缩所述上下文窗口覆盖范围内的所有词嵌入向量,形成局部注意力向量矩阵,再通过哈达玛积矩阵相乘,并行计算得到所有词嵌入向量对应的局部上下文向量。
其中,局部注意力向量矩阵内的每个局部注意力向量的形状均为[1,n]的向量形式。
对于给定的文本向量St,首先分别使用线性变换将其转换为Qt,Kt和vt。计算过程如公式(2)-公式(4)所示。
Qt=St×Wq+bq, (2)
Kt=St×Wk+bk, (3)
Vt=St×Wv+bv. (4)
其中,Wq,Wk和Wv为线性变换的权重参数,其形状为[n,n],bq,bk和bv为偏置,其形状为[1,n]。
使用激活函数将Kt转换为非线性形式并与Vt作哈达玛积得到注意力矩阵At。该过程如下所示。
At=σ(Kt)⊙Vt
其中,激活函数σ表示线性整流函数(Rectified Linear Unit,ReLU)。
将其上下文窗口中的词语压缩为一个形状为[1,n]的上下文注意力向量,然后通过哈达玛积(Hadamard productions)计算得到文本数据的词嵌入向量st的语义关联向量,该计算过程如公式(5)所示。
对于第一个词语和最后一个词语等边界条件,我们在相应位置补零。算法1给出了局部上下文注意力的计算流程和伪代码。
由于线性变换等价于对矩阵右乘一个权重矩阵W,所以前文所述的线性变换可以直接进行并行化操作。并行化计算过程如公式(6)-公式(8)所示。
其中,公式(6)-公式(8)与公式(2)-(4)分别对应,S、Q、K、V的下标表示词语的序号。例如,St表示文本S中的第t个词语对应的词向量。W、b的下标表示attention的参数。q、k、v分别表示计算query,key和value时使用到的参数矩阵(W)和偏置(b)。没有下标的S、Q、K、V表示整个文本数据,包含所有词语。例如S={S1,S2,...,St,...S|S|}。
Q=S×Wq+bq, (6)
K=S×Wk+bk, (7)
V=S×Wv+bv。 (8)
其中,
相应地,因注意力矩阵的主要操作为哈达玛积(点对点乘法),所以可以直接并行化实现。计算过程如公式(9)所示。
A=σ(K)⊙V。 (9)
其中,
对于给定的上下文窗口CTX和注意力矩阵A,本发明通过矩阵乘法计算Ct。众所周知,对矩阵左乘一个方阵T等价于对该矩阵进行初等列变换。通过设定T中的元素,可以根据CTX动态调整Ct在A上的覆盖范围。算法2给出了T的计算过程。
在给定上述动态上下文窗口和并行化局部注意力向量的条件下,并行化长短期记忆网络的计算过程可分为三个步骤。因上下文向量打破了LSTM中顺序计算的特点,所以下面的操作可以直接进行并行化计算。
1)计算LSTM中的门结构
对于任意文本向量和上下文向量/>可以为其计算和LSTM中形式相似的四个门结构,计算过程如公式(11-14)所示。
Gf=σ(S×Wf1+H×Wf2+C×Wf3+bf), (11)
Gd=σ(S×Wd1+H×Wd2+C×Wd3+bd), (12)
Gi=σ(S×Wi1+H×Wi2+C×Wi3+bi), (13)
Go=σ(S×Wo1+H×Wo2+C×Wo3+bo)。 (14)
其中,G*∈Rm×n表示用于提取特征的门结构,w*表示形状为[n,n]的权重矩阵,b*表示偏置,σ表示激活函数,H表示形状为[m,n]的隐藏状态,在第一层H=S,并逐层更新。
2)更新隐藏状态
根据文本向量S,和对应的Gf,Gd和Gi对H进行更新,更新过程如公式(15)所示。
H:=S⊙Gf+V⊙Gd+Gi。 (15)
其中,V表示文本状态,在第一层V=s,且逐层更新。
3)更新文本状态
文本状态是隐藏状态的非线性版本,更新过程如公式(16)所示。
V:=σ(H⊙tanh(Go))。 (16)
根据公式,每个G*都由当前词语和其上下文向量共同生成,每个词语所对应的门不同,具有时序特异性。同时,每个门直接与文本向量和隐藏状态进行哈达玛积运算,保证了实例特异性。相较于Transformer,本实施例提出的模型具有双重特异性结构,在拟合能力上比共享型结构具有优势,可以提高模型的鲁棒性。
步骤4:将待处理文本数据对应的局部上下文向量经分类网络模型处理,得到文本分类或标注结果。
相较于现有文本表示模型,如图3(b)本实施例的并行化零冗余长短期记忆网络将横向循环的LSTM转换为纵向并行模型,用逐层扩大上下文感受域的模式代替沿时序方向迭代词语的模式。同时针对文本数据长度的差异性,提出了动态上下文窗口,避免了上下文窗口不能完美适配文本数据长度和模型层数导致的上下文信息不足和冗余的问题。此外,本实施例支持完全并行化计算,可以使模型直接部署在各种并行计算平台上,而不需要专门优化。传统的LSTM结构,如图3(a)所示。
本实施例的该文本处理方法在公开分类数据集和序列标注数据集上的性能均达到了较好结果。从图4(a)-图4(j)和图5(a)-图5(j)可以看出,相比于LSTM,本实施例的并行化零冗余长短期记忆网络在1-10层均达到更好的ROC和AUC评分,且各层结果波动幅度较小,说明该模型具有较好的可优化性。同时,由于上下文信息利用得当,模型容易收敛。
如图6(a)-图6(j)所示,本实施例的并行化零冗余长短期记忆网络在5~10次迭代后即可趋于稳定。且收敛后波动小于LSTM,说明该模型具有较好的拟合能力和稳定性。与ROC曲线结果一致,本实施例的并行化零冗余长短期记忆网络的分类准确率显著高于LSTM,说明纵向传播的模型结构的有效性。
如图7(a)-图7(j)所示的两种模型在POS公开数据集上的F1评分表明,本实施例提出的并行化零冗余长短期记忆网络序列标注数据集上的性能优于LSTM。同时,收敛速度也比LSTM快约1/3。说明纵向传播的结构因具有相同的循环次数而冗余训练。结合在分了任务上的实验结果,验证了本实施例提出的并行化零冗余长短期记忆网络对多种自然语言处理任务具有较好的兼容性。
如图8所示,本实施例提出的并行化零冗余长短期记忆网络在不同数据集上到都达到了稳定的时间性能。同时,相比于LSTM的序列特性,纵向循环可以获得显著的训练时间增益。
需要说明的是,步骤1和步骤2的顺序,如图2所示,本领域技术人员可根据实际情况来任意调整并不影响基于并行化零冗余长短期记忆网络的文本处理方法的最终结果。
实施例二
本实施例提供了一种基于并行化零冗余长短期记忆网络的文本处理系统,其具体包括如下模块:
(1)词嵌入向量转换模块,其用于获取待处理文本数据并转换为词嵌入向量形式。
(2)上下文窗口确定模块,其用于根据待处理文本数据包含的词语数量,自适应计算待处理文本数据中每个词语的上下文窗口覆盖范围。
其中,所述上下文窗口覆盖范围大小决定每个词嵌入向量对应的语义特征多少。
在所述上下文窗口确定模块中,所述上下文窗口覆盖范围的计算过程为:
根据待处理文本数据包含的词语数量与并行化零冗余长短期记忆网络的层数作商后向上取整,得到待处理文本数据中每个词语的上下文窗口覆盖范围。
(3)上下文向量并行计算模块,其用于在并行化零冗余长短期记忆网络内,压缩所述上下文窗口覆盖范围内的所有词嵌入向量,形成局部注意力向量矩阵,再通过哈达玛积矩阵相乘,并行计算得到所有词嵌入向量对应的局部上下文向量。
(4)文本处理模块,其用于将待处理文本数据对应的局部上下文向量经分类网络模型处理,得到文本分类或标注结果。
此处需要说明的是,本实施例的基于并行化零冗余长短期记忆网络的文本处理系统中的各个模块,与实施例一中的各个步骤一一对应,其具体实施过程相同,此处不再累述。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例一所述的基于并行化零冗余长短期记忆网络的文本处理方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例一所述的基于并行化零冗余长短期记忆网络的文本处理方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于并行化零冗余长短期记忆网络的文本处理方法,其特征在于,包括:
获取待处理文本数据并转换为词嵌入向量形式;
根据待处理文本数据包含的词语数量,自适应计算待处理文本数据中每个词语的上下文窗口覆盖范围;其中,所述上下文窗口覆盖范围的计算过程为:
根据待处理文本数据包含的词语数量与并行化零冗余长短期记忆网络的层数作商后向上取整,得到待处理文本数据中每个词语的上下文窗口覆盖范围;
在并行化零冗余长短期记忆网络内,压缩所述上下文窗口覆盖范围内的所有词嵌入向量,形成局部注意力向量矩阵,再通过哈达玛积矩阵相乘,并行计算得到所有词嵌入向量对应的局部上下文向量;所述并行化零冗余长短期记忆网络将横向循环的LSTM转换为纵向并行模型,用逐层扩大上下文感受域的模式代替沿时序方向迭代词语的模式;并行计算得到所有词嵌入向量对应的局部上下文向量的过程为:
并行化计算上下文窗口覆盖范围内所有词嵌入向量的线性变换,得到压缩后的所述上下文窗口覆盖范围内的所有词嵌入向量,形成局部注意力向量矩阵,其过程为:
Q=S×Wq+bq (6)
K=S×Wk+bk (7)
V=S×Wv+bv (8)
其中,
其中,S表示文本向量;m表示文本数据长度;下标t表示第t个词语;Wq,Wk和wv为线性变换的权重参数,bq,bk和bv为偏置;
通过哈达玛积矩阵相乘,并行计算得到所有词嵌入向量对应的局部上下文向量的过程为:
A=σ(K)⊙V (9)其中,为全文的注意力矩阵;激活函数σ表示线性整流函数;其中,注意力矩阵At等于激活函数将Kt转换为非线性形式并与Vt作哈达玛积;
并行化长短期记忆网络的计算分为三个步骤:
计算LSTM中的门结构:对于任意文本向量和上下文向量为其计算和LSTM中形式相似的四个门结构,计算过程为:
Gf=σ(S×Wf1+H×Wf2+C×Wf3+bf) (11)
Gd=σ(S×Wd1+H×Wd2+C×Wd3+bd) (12)
Gi=σ(S×Wi1+H×Wi2+C×Wi3+bi) (13)
Go=σ(S×Wo1+H×Wo2+C×Wo3+bo) (14)
其中,G*∈Rm×n表示用于提取特征的门结构,W*表示形状为[n,n]的权重矩阵,b*表示偏置,σ表示激活函数,H表示形状为[m,n]的隐藏状态,在第一层H=S,并逐层更新;
2)更新隐藏状态;
根据文本向量S,和对应的Gf,Gd和Gi对H进行更新,更新过程为:
H:=S⊙Gf+V⊙Gd+Gi (15)
其中,V表示文本状态,在第一层V=S,且逐层更新;
3)更新文本状态:
文本状态是隐藏状态的非线性版本,更新过程如公式(16)所示:
V:=σ(H⊙tanh(Go)) (16)
将待处理文本数据对应的局部上下文向量经分类网络模型处理,得到文本分类或标注结果。
2.如权利要求1所述的基于并行化零冗余长短期记忆网络的文本处理方法,其特征在于,所述上下文窗口覆盖范围大小决定每个词嵌入向量对应的语义特征多少。
3.如权利要求1所述的基于并行化零冗余长短期记忆网络的文本处理方法,其特征在于,所述并行化零冗余长短期记忆网络为预先训练完成,且训练完成后的并行化零冗余长短期记忆网络层数为已知值。
4.如权利要求1所述的基于并行化零冗余长短期记忆网络的文本处理方法,其特征在于,局部注意力向量矩阵内的每个局部注意力向量的形状均为[1,n]的向量形式。
5.一种基于并行化零冗余长短期记忆网络的文本处理系统,其特征在于,包括:
词嵌入向量转换模块,其用于获取待处理文本数据并转换为词嵌入向量形式;
上下文窗口确定模块,其用于根据待处理文本数据包含的词语数量,自适应计算待处理文本数据中每个词语的上下文窗口覆盖范围;其中,在所述上下文窗口确定模块中,所述上下文窗口覆盖范围的计算过程为:
根据待处理文本数据包含的词语数量与并行化零冗余长短期记忆网络的层数作商后向上取整,得到待处理文本数据中每个词语的上下文窗口覆盖范围;
上下文向量并行计算模块,其用于在并行化零冗余长短期记忆网络内,压缩所述上下文窗口覆盖范围内的所有词嵌入向量,形成局部注意力向量矩阵,再通过哈达玛积矩阵相乘,并行计算得到所有词嵌入向量对应的局部上下文向量;
所述并行化零冗余长短期记忆网络将横向循环的LSTM转换为纵向并行模型,用逐层扩大上下文感受域的模式代替沿时序方向迭代词语的模式;并行计算得到所有词嵌入向量对应的局部上下文向量的过程为:
并行化计算上下文窗口覆盖范围内所有词嵌入向量的线性变换,得到压缩后的所述上下文窗口覆盖范围内的所有词嵌入向量,形成局部注意力向量矩阵,其过程为:
Q=S×Wq+bq (6)
K=S×Wk+bk (7)
V=S×Wv+bv (8)
其中,
其中,S表示文本向量;m表示文本数据长度;下标t表示第t个词语;Wq,Wk和wv为线性变换的权重参数,bq,bk和bv为偏置;
通过哈达玛积矩阵相乘,并行计算得到所有词嵌入向量对应的局部上下文向量的过程为:
A=σ(K)⊙V (9)
其中,为全文的注意力矩阵;激活函数σ表示线性整流函数;其中,注意力矩阵At等于激活函数将Kt转换为非线性形式并与Vt作哈达玛积;
并行化长短期记忆网络的计算分为三个步骤:
计算LSTM中的门结构:对于任意文本向量和上下文向量/>为其计算和LSTM中形式相似的四个门结构,计算过程为:
Gf=σ(S×Wf1+H×Wf2+C×Wf3+bf) (11)
Gd=σ(S×Wd1+H×Wd2+C×Wd3+bd) (12)
Gi=σ(S×Wi1+H×Wi2+C×Wi3+bi) (13)
Go=σ(S×Wo1+H×Wo2+C×Wo3+bo) (14)
其中,G*∈Rm×n表示用于提取特征的门结构,W*表示形状为[n,n]的权重矩阵,b*表示偏置,σ表示激活函数,H表示形状为[m,n]的隐藏状态,在第一层H=S,并逐层更新;
2)更新隐藏状态;
根据文本向量S,和对应的Gf,Gd和Gi对H进行更新,更新过程为:
H:=S⊙Gf+V⊙Gd+Gi (15)
其中,V表示文本状态,在第一层V=S,且逐层更新;
3)更新文本状态:
文本状态是隐藏状态的非线性版本,更新过程如公式(16)所示:
V:=σ(H⊙tanh(Go)) (16)
文本处理模块,其用于将待处理文本数据对应的局部上下文向量经分类网络模型处理,得到文本分类或标注结果。
6.如权利要求5所述的基于并行化零冗余长短期记忆网络的文本处理系统,其特征在于,所述上下文窗口覆盖范围大小决定每个词嵌入向量对应的语义特征多少。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一项所述的基于并行化零冗余长短期记忆网络的文本处理方法中的步骤。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-4中任一项所述的基于并行化零冗余长短期记忆网络的文本处理方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110931048.4A CN113641792B (zh) | 2021-08-13 | 2021-08-13 | 基于并行化零冗余长短期记忆网络的文本处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110931048.4A CN113641792B (zh) | 2021-08-13 | 2021-08-13 | 基于并行化零冗余长短期记忆网络的文本处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113641792A CN113641792A (zh) | 2021-11-12 |
CN113641792B true CN113641792B (zh) | 2023-11-21 |
Family
ID=78421555
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110931048.4A Active CN113641792B (zh) | 2021-08-13 | 2021-08-13 | 基于并行化零冗余长短期记忆网络的文本处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113641792B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105718440A (zh) * | 2014-12-03 | 2016-06-29 | 南开大学 | 基于聚合加权矩阵压缩算法的文本语义表示方法 |
CN109711380A (zh) * | 2019-01-03 | 2019-05-03 | 电子科技大学 | 一种基于全局上下文信息的时序行为片段生成系统及方法 |
CN110781306A (zh) * | 2019-10-31 | 2020-02-11 | 山东师范大学 | 一种英文文本的方面层情感分类方法及系统 |
WO2021042543A1 (zh) * | 2019-09-04 | 2021-03-11 | 平安科技(深圳)有限公司 | 基于长短期记忆网络的多轮对话语义分析方法和系统 |
CN113241178A (zh) * | 2021-05-28 | 2021-08-10 | 温州康宁医院股份有限公司 | 一种确定被测者的抑郁症严重程度的方法及装置 |
-
2021
- 2021-08-13 CN CN202110931048.4A patent/CN113641792B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105718440A (zh) * | 2014-12-03 | 2016-06-29 | 南开大学 | 基于聚合加权矩阵压缩算法的文本语义表示方法 |
CN109711380A (zh) * | 2019-01-03 | 2019-05-03 | 电子科技大学 | 一种基于全局上下文信息的时序行为片段生成系统及方法 |
WO2021042543A1 (zh) * | 2019-09-04 | 2021-03-11 | 平安科技(深圳)有限公司 | 基于长短期记忆网络的多轮对话语义分析方法和系统 |
CN110781306A (zh) * | 2019-10-31 | 2020-02-11 | 山东师范大学 | 一种英文文本的方面层情感分类方法及系统 |
CN113241178A (zh) * | 2021-05-28 | 2021-08-10 | 温州康宁医院股份有限公司 | 一种确定被测者的抑郁症严重程度的方法及装置 |
Non-Patent Citations (1)
Title |
---|
预训练模型下融合注意力机制的多语言文本情感分析方法;胡德敏;褚成伟;胡晨;胡钰媛;;小型微型计算机系统(02);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113641792A (zh) | 2021-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11531889B2 (en) | Weight data storage method and neural network processor based on the method | |
CN109101235B (zh) | 一种软件程序的智能解析方法 | |
CN111625276B (zh) | 基于语义与语法信息融合的代码摘要生成方法及系统 | |
CN110673840A (zh) | 一种基于标签图嵌入技术的自动代码生成方法及系统 | |
CN110457661B (zh) | 自然语言生成方法、装置、设备及存储介质 | |
JP7417679B2 (ja) | 情報抽出方法、装置、電子機器及び記憶媒体 | |
KR20190038258A (ko) | 구조 정보 선행 학습을 통한 딥러닝 관계 추출 시스템 및 이를 이용한 딥러닝 관계 추출 성능 향상 방법 | |
CN113641819A (zh) | 基于多任务稀疏共享学习的论辩挖掘系统及方法 | |
CN109086865A (zh) | 一种基于切分循环神经网络的序列模型建立方法 | |
CN103995805A (zh) | 面向文本大数据的词语处理方法 | |
CN104850533A (zh) | 一种带约束的非负矩阵分解方法及求解方法 | |
CN112764738A (zh) | 基于多视图程序特征的代码自动生成方法及系统 | |
CN106934458A (zh) | 基于深度学习的多层自动编码方法及系统 | |
CN104933038A (zh) | 机器翻译方法和机器翻译装置 | |
US8422802B2 (en) | Robust large-scale visual codebook construction | |
CN113641854B (zh) | 一种将文字转化为视频的方法及系统 | |
CN111444328A (zh) | 一种带有解释生成的自然语言自动预测推断方法 | |
CN113641792B (zh) | 基于并行化零冗余长短期记忆网络的文本处理方法及系统 | |
Samplawski et al. | Towards objection detection under iot resource constraints: Combining partitioning, slicing and compression | |
CN113792594A (zh) | 一种基于对比学习的视频中语言片段定位方法及装置 | |
CN112417089B (zh) | 一种基于深度学习的高并行性阅读理解的方法 | |
CN117235216A (zh) | 一种基于异构知识融合的知识推理方法 | |
Azizi et al. | Sensitivity-Aware Mixed-Precision Quantization and Width Optimization of Deep Neural Networks Through Cluster-Based Tree-Structured Parzen Estimation | |
CN114170490A (zh) | 基于自适应数据量化和多面体模板的图像识别方法及系统 | |
CN112287641B (zh) | 一种同义句生成方法、系统、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |