CN109582786B - 一种基于自动编码的文本表示学习方法、系统及电子设备 - Google Patents

一种基于自动编码的文本表示学习方法、系统及电子设备 Download PDF

Info

Publication number
CN109582786B
CN109582786B CN201811287359.6A CN201811287359A CN109582786B CN 109582786 B CN109582786 B CN 109582786B CN 201811287359 A CN201811287359 A CN 201811287359A CN 109582786 B CN109582786 B CN 109582786B
Authority
CN
China
Prior art keywords
text
word
vector
decoder
predicted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811287359.6A
Other languages
English (en)
Other versions
CN109582786A (zh
Inventor
曲强
杨敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201811287359.6A priority Critical patent/CN109582786B/zh
Publication of CN109582786A publication Critical patent/CN109582786A/zh
Application granted granted Critical
Publication of CN109582786B publication Critical patent/CN109582786B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种基于自动编码的文本表示学习方法、系统及电子设备。该方法包括:步骤a:使用编码器对原始文本进行编码,生成原始文本编码后的向量表达,并通过编码矩阵输出编码后的文本;步骤b:随机删除所述原始文本中的词,并将被删除的词的词向量置0,将未被删除的词使用预训练好的词向量表示,得到新的文本;步骤c:将所述编码后的文本与新的文本输入到解码器中,并通过解码矩阵预测所述被删除的在时间片t的待预测词的向量表达。本申请采用字谜游戏的方法,结合基于神经网络的自动编码机制,生成给定文本更精确的向量表达。实验结果表明,本申请能提高文本分类、信息抽取等自然语言任务的准确率,改进自然语言处理任务的效果。

Description

一种基于自动编码的文本表示学习方法、系统及电子设备
技术领域
本申请属于文本表示学习技术领域,特别涉及一种基于自动编码的文本表示学习方法、系统及电子设备。
背景技术
在自然语言处理任务中,文本表示作为数据处理的基础步骤,引起了广泛的研究。在自然语言处理的实际应用中,若能对输入的文本进行精确的表达往往能提高自然语言处理的效率和效果。
在无监督文本表达中,最早的文本表示方法为词袋法(bag-of-words)。词袋法用一个one-hot向量来表示文本中出现的每一个词,此one-hot向量的每一维代表一个文本中的词,若维度对应的词为当前词,则此维度的值为1,否则为0。因此,在词袋法中,每一个词被表示为一个高维的,只有一个维度值为1而其他维度值为0的向量,向量长度为文本中出现过的词的数量。另外,隐性语义分析(LatentSemantic Analysis)[Evangelopoulos NE.Latent semantic analysis[J].Annual Review of Information Science&Technology,2013,4(6):683-692.]的方法先构造词频矩阵,再运用矩阵降维,矩阵分解的方法来习得词语的向量表达。其次,word2vec[Goldberg Y,Levy O.word2vec Explained:deriving Mikolov et al.'s negative-sampling word-embedding method[J].EprintArxiv,2014.]的方法通过材料库中每个词的上下文,采用神经网络学习一个语言模型,根据学习得到的语言模型得到每个词语的表达。Word2vec方法构造成的词语表达能够包含词语的语义及语法信息。
在文本表达方面,现有技术中也提出了很多基于机器学习和统计的方法。然而,现有的方法虽然可以学习出词语的向量表达,但对训练数据运用的不充分导致学习出的向量表达不够精确,另外,简单的将词语表达的连接作为文本表达也使得最终的表达缺失了对应文本的独特信息。具体来说,现有的文本表达方法存在以下几点不足:
1)词袋法的表达使得最终的表达为稀疏且高维的,容易使数据产生维度灾难而影响最终的自然语言处理任务的效果。且在词袋法中,无法表示词与词之间的关系。例如‘电脑’和‘计算机’在词袋法中被视为完全不同的词。
2)词袋法及隐性语义模型,或者其他基于矩阵分解的词向量学习法无法有效利用词语的语序信息。例如,‘The dog is in front of the cat’(狗在猫前面)和‘The cat isinfront of the dog’(猫在狗前面),在构造词袋表示或者词频矩阵时,这两句话的表示是一样的,以致习得的表达是无法利用语序信息的。
3)现有的文本表达方法多为简单的将其中的词向量连接,这种表达方法无法有效的表达文本的全局信息。
4)因为每个文本长度不同,通过拼接词向量的方法而产生的文本表达长短不一。在后续自然语言任务的处理中,不得不使用截断或者填充的方法来构造定长输入,影响任务效果。
基于现有文本表达方法的不足,本申请设计了一个无监督模型的文本表达学习网络,利用基于神经网络的自编码器生成对给定文本的定长向量表达。
发明内容
本申请提供了一种基于自动编码的文本表示学习方法、系统及电子设备,旨在至少在一定程度上解决现有技术中的上述技术问题之一。
为了解决上述问题,本申请提供了如下技术方案:
一种基于自动编码的文本表示学习方法,包括以下步骤:
步骤a:使用编码器对原始文本进行编码,生成原始文本编码后的向量表达,并通过编码矩阵输出编码后的文本;
步骤b:随机删除所述原始文本中的词,并将被删除的词的词向量置0,将未被删除的词使用预训练好的词向量表示,得到新的文本;
步骤c:将所述编码后的文本与新的文本输入到解码器中,并通过解码矩阵预测所述被删除的在时间片t的待预测词的向量表达。
本申请实施例采取的技术方案还包括:所述步骤a还包括:将所述原始文本中的每个词用预训练好的词向量表示;具体为:设所述原始文本d由n个词组成,d=[w1,w2,...,wi,...,wn],wi为所述原始文本中的第f个词,采用word2vec模型得到每个词的低维向量表达,将所述原始文本中的每个词通过训练好的向量映射到低维空间中。
本申请实施例采取的技术方案还包括:在所述步骤a中,所述编码器为长短期记忆网络LSTM;设xi为词wi的低维向量表达,所述长短期记忆网络LSTM中的隐含状态zi更新公式为:
Figure BDA0001849359960000041
上述公式中,θe表示编码器的待训练参数;
然后,通过如下公式作为原始文本的向量表达:
e=tanh(Wezn+be)
上述公式中,We为一个可训练的编码矩阵,be为可训练的偏置值,Zn为第n个隐含状态。
本申请实施例采取的技术方案还包括:在所述步骤c中,所述解码器为双向长短期记忆的编码网络BI-LSTM,所述双向长短期记忆的编码网络BI-LSTM通过被预测词的上下文和原始文本的编码来预测被预测词的隐含表达。
本申请实施例采取的技术方案还包括:在所述步骤c中,所述通过解码矩阵预测所述被删除的在时间片t的待预测词的向量表达具体为:假设所述新的文本为{x′1,...,x′n},xzero为一个长度等于|xt|的全0向量:
Figure BDA0001849359960000042
设xt为位于时间片t的待预测词的实际词向量表达,n为文本长度,DccodeNet为解码网络,则通过解码器预测的词向量表达
Figure BDA0001849359960000043
为:
Figure BDA0001849359960000044
本申请实施例采取的另一技术方案为:一种基于自动编码的文本表示学习系统,包括:
文本编码模块:用于使用编码器对原始文本进行编码,生成原始文本编码后的向量表达,并通过编码矩阵输出编码后的文本;
文本删除模块:用于随机删除所述原始文本中的词,并将被删除的词的词向量置0,将未被删除的词使用预训练好的词向量表示,得到新的文本;
文本解码模块:用于将所述编码后的文本与新的文本输入到解码器中,并通过解码矩阵预测所述被删除的在时间片t的待预测词的向量表达。
本申请实施例采取的技术方案还包括文本预处理模块,所述文本预处理模块用于将所述原始文本中的每个词用预训练好的词向量表示;具体为:设所述原始文本d由n个词组成,d=[w1,w2,...,wi,...,wn],wi为所述原始文本中的第i个词,采用word2vec模型得到每个词的低维向量表达,将所述原始文本中的每个词通过训练好的向量映射到低维空间中。
本申请实施例采取的技术方案还包括:所述编码器为长短期记忆网络LSTM;设xi为词wi的低维向量表达,所述长短期记忆网络LSTM中的隐含状态zi更新公式为:
Figure BDA0001849359960000051
上述公式中,θe表示编码器的待训练参数;
然后,通过如下公式作为原始文本的向量表达:
e=tanh(Wezn+be)
上述公式中,We为一个可训练的编码矩阵,be为可训练的偏置值,Zn为第n个隐含状态。
本申请实施例采取的技术方案还包括:所述解码器为双向长短期记忆的编码网络BI-LSTM,所述双向长短期记忆的编码网络BI-LSTM通过被预测词的上下文和原始文本的编码来预测被预测词的隐含表达。
本申请实施例采取的技术方案还包括:所述文本解码模块通过解码矩阵预测所述被删除的在时间片t的待预测词的向量表达具体为:假设所述新的文本为{x′1,...,x′n},xzero为一个长度等于|xt|的全0向量:
Figure BDA0001849359960000061
设xt为位于时间片t的待预测词的实际词向量表达,n为文本长度,DecodeNet为解码网络,则通过解码器预测的词向量表达
Figure BDA0001849359960000062
为:
Figure BDA0001849359960000063
本申请实施例采取的又一技术方案为:一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的基于自动编码的文本表示学习方法的以下操作:
步骤a:使用编码器对原始文本进行编码,生成原始文本编码后的向量表达,并通过编码矩阵输出编码后的文本;
步骤b:随机删除所述原始文本中的词,并将被删除的词的词向量置0,将未被删除的词使用预训练好的词向量表示,得到新的文本;
步骤c:将所述编码后的文本与新的文本输入到解码器中,并通过解码矩阵预测所述被删除的在时间片t的待预测词的向量表达。
相对于现有技术,本申请实施例产生的有益效果在于:本申请实施例的基于自动编码的文本表示学习方法、系统及电子设备采用字谜游戏的方法,结合基于神经网络的自动编码机制,生成给定文本更精确的向量表达。实验结果表明,本申请能提高文本分类、信息抽取等自然语言任务的准确率,改进自然语言处理任务的效果。
附图说明
图1是本申请实施例的基于自动编码的文本表示学习方法的流程图;
图2是本申请实施例的基于自动编码的文本表示学习系统的结构示意图;
图3是本申请实施例提供的基于自动编码的文本表示学习方法的硬件设备结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
为了解决现有技术中存在的问题,受到字谜游戏的启发,本申请设计了文本编码网络(Document Encoding Network,DEN)。该网络是一种运用自动编码框架结合无监督学习的文本表达方法,利用基于神经网络的自编码器生成给定文本的定长向量表达。给定一个文本,该网络首先随机删掉一些原始文本中的词,然后通过剩下的词尝试使用自编码器重构原始文本。如果训练后的自编码器能比较好的重构出原始文本,表示学习后的自编码器已经习得原始文本的语言模型,则可通过将原始文本的词向量输入到自编码器中得到原始文本的向量表达。
具体地,请参阅图1,是本申请实施例的基于自动编码的文本表示学习方法的流程图。本申请实施例的基于自动编码的文本表示学习方法包括以下步骤:
步骤100:将原始文本中的每个词用预训练好的词向量表示,并将词向量表示后的原始文本输入到编码器中;
步骤100中,设原始文本d由n个词组成,d=[w1,w2,...,wi,...,wn],wi为文本中的第i个词,采用word2vec模型得到每个词的低维向量表达,将原始文本中的每个词通过训练好的向量映射到低维空间中。
步骤200:使用编码器对输入的原始文本进行编码,生成原始文本编码后的向量表达;
步骤200中,本申请实施例采用长短期记忆网络LSTM(Long Short-Term Memory)作为编码器,假设xi为词wi的低维向量表达,长短期记忆网络LSTM中的隐含状态zi可以通过如下公式得到更新:
Figure BDA0001849359960000081
公式(1)中,θe表示编码器的待训练参数。
然后,可以通过如下公式作为原始文本编码后的向量表达:
e=tanh(Wezn+be) (2)
公式(2)中,We为一个可训练的编码矩阵,be为可训练的偏置值,Zn为第n个隐含状态。
步骤300:将编码器的输出输入到编码矩阵中,通过编码矩阵输出编码后的文本;
步骤400:随机删除原始文本中一定数量的词,并将被删除的词的词向量置0,将未被删除的词使用预训练好的词向量表示,得到新的文本;
步骤500:将编码后的文本与新的文本输入到解码器中,并通过一个解码矩阵得到被删除的在时间片t的待预测词向量表达
Figure BDA0001849359960000091
步骤500中,受到字谜游戏的启发,本申请通过对给定文本随机删除一些词来平衡已知信息和未知信息,通过用不完整的文本表达预测完整文本的编码来训练解码器。例如,输入的不完整文本为[三,-,-,在,-,上,走],需要通过解码器来预测文本中缺失的部分。
假设随机删除部分词后的新的文本为{x′1,...,x′n},xzero为一个长度等于|xt|的全0向量:
Figure BDA0001849359960000092
设xt为位于时间片t的待预测词的实际词向量表达,n为文本长度,DecodeNet为解码网络,则通过解码器预测的词向量表达
Figure BDA0001849359960000093
为:
Figure BDA0001849359960000094
本申请实施例中,采用双向(前向和后向)长短期记忆的编码网络BI-LSTM作为解码器,双向长短期记忆的编码网络BI-LSTM通过被预测词的上下文和给定文本的编码来预测被预测词的隐含表达。
Figure BDA0001849359960000095
Figure BDA0001849359960000096
分别为前向长短期记忆网络和反向长短期记忆网络的参数,则:
Figure BDA0001849359960000101
Figure BDA0001849359960000102
然后可以通过下式得到
Figure BDA0001849359960000103
Figure BDA0001849359960000104
公式(7)中,
Figure BDA0001849359960000105
Figure BDA0001849359960000106
Figure BDA0001849359960000107
的串联,Wp为可训练的解码矩阵,bp为可训练的偏置值,
Figure BDA0001849359960000108
为t时刻前向网络神经元中的值,
Figure BDA0001849359960000109
为t时刻反向网络神经元中的值。
在解码器训练过程中,以待预测词向量表达
Figure BDA00018493599600001010
与实际词向量表达xt的差值作为训练的损失函数,损失函数设置为:
Figure BDA00018493599600001011
公式(8)中,cj为表示当前词wj是否被删除的参数:
Figure BDA00018493599600001012
对于有N个文本的训练集,对编码器及解码器联合,进行端到端的训练,训练目标函数为:
Figure BDA00018493599600001013
公式(10)中,θe为编码器的参数,θd为解码器的参数,训练过程可用梯度下降等方法实现。
请参阅图2,是本申请实施例的基于自动编码的文本表示学习系统的结构示意图。本申请实施例的基于自动编码的文本表示学习系统包括文本预处理模块、文本编码模块、文本删除模块和文本解码模块。
文本预处理模块:用于将原始文本中的每个词用预训练好的词向量表示,并将词向量表示后的原始文本输入到编码器中;其中,设原始文本d由n个词组成,d=[w1,w2,...,wi,...,wn],wi为文本中的第i个词,采用word2vec模型得到每个词的低维向量表达,将原始文本中的每个词通过训练好的向量映射到低维空间中。
文本编码模块:用于使用编码器对输入的原始文本进行编码,生成原始文本编码后的向量表达,将编码器的输出输入到编码矩阵中,通过编码矩阵输出编码后的文本;本申请实施例采用长短期记忆网络LSTM(Long Short-Term Memory)作为编码器,假设xi为词wi的低维向量表达,长短期记忆网络LSTM中的隐含状态zi可以通过如下公式得到更新:
Figure BDA0001849359960000111
公式(1)中,θe表示编码器的待训练参数。
然后,可以通过如下公式作为原始文本编码后的向量表达:
e=tanh(Wezn+be) (2)
公式(2)中,We为一个可训练的编码矩阵,be为可训练的偏置值,Zn为第n个隐含状态。
文本删除模块:用于随机删除原始文本中一定数量的词,并将被删除的词的词向量置0,将未被删除的词使用预训练好的词向量表示,得到新的文本;
文本解码模块:用于将编码后的文本与新的文本输入到解码器中,并通过一个解码矩阵得到被删除的在时间片t的待预测词向量表达
Figure BDA0001849359960000112
其中,本申请受到字谜游戏的启发,通过对给定文本随机删除一些词来平衡已知信息和未知信息,通过用不完整的文本表达预测完整文本的编码来训练解码器。例如,输入的不完整文本为[三,-,-,在,-,上,走],需要通过解码器来预测文本中缺失的部分。
假设随机删除部分词后的新的文本为{x′1,...,x′n},xzero为一个长度等于|xt|的全0向量:
Figure BDA0001849359960000121
设xt为位于时间片t的待预测词的实际词向量表达,n为文本长度,DecodeNet为解码网络,则通过解码器预测的词向量表达
Figure BDA0001849359960000122
为:
Figure BDA0001849359960000123
本申请实施例中,采用双向(前向和后向)长短期记忆的编码网络BI-LSTM作为解码器,双向长短期记忆的编码网络BI-LSTM通过被预测词的上下文和给定文本的编码来预测被预测词的隐含表达。
Figure BDA0001849359960000124
Figure BDA0001849359960000125
分别为前向长短期记忆网络和反向长短期记忆网络的参数,则:
Figure BDA0001849359960000126
Figure BDA0001849359960000127
然后可以通过下式得到
Figure BDA0001849359960000128
Figure BDA0001849359960000129
公式(7)中,
Figure BDA00018493599600001210
Figure BDA00018493599600001211
Figure BDA00018493599600001212
的串联,Wp为可训练的解码矩阵,bp为可训练的偏置值,
Figure BDA00018493599600001213
为t时刻前向网络神经元中的值,
Figure BDA00018493599600001214
为t时刻反向网络神经元中的值。
在解码器训练过程中,以待预测词向量表达
Figure BDA00018493599600001215
与实际词向量表达xt的差值作为训练的损失函数,损失函数设置为:
Figure BDA0001849359960000131
公式(8)中,cj为表示当前词wj是否被删除的参数:
Figure BDA0001849359960000132
对于有N个文本的训练集,对编码器及解码器联合,进行端到端的训练,训练目标函数为:
Figure BDA0001849359960000133
公式(10)中,θe为编码器的参数,θd为解码器的参数,训练过程可用梯度下降等方法实现。
为了验证本申请的可行性和有效性,以下通过实验对本申请和现有方法在文档分类和文档检索两个自然语言处理任务上的效果进行了比较。参与比较的现有方法包括段落向量(Paragraph Vector,PV)[Le,Quoc,and T.Mikolov.″Distributed representationsof sentences and documents.″International Conference on InternationalConference on Machine LearningJMLR.org,2014:II-1188.]、skip-thought(ST)[KirosR,Zhu Y,Salakhutdinov R,et al.Skip-Thought Vectors[J].Computer Science,2015,28.]、TF-IDF[Wu H C,Luk R WP,Wong K F,et al.Interpreting TF-IDF term weightsas making relevance decisions[J].Acm Transactions on Information Systems,2008,26(3):55-59.]、Latent Dirichlet allocation(LDA)[Blei D M,Ng A Y,Jordan MI.Latent dirichlet allocation[J].Journal of Machine Learning Research,2012,3:993-1022.]和隐性语义分析(LatentSemantic Analysis,LSA)[Evangelopoulos NE.Latent semantic analysis[J].Annual Review of Information Science&Technology,2013,4(6):683-692.]。对于本申请提出方法的实验,使用word2vec模型预训练词向量和随机生成词向量两种方法。
实验参数部分,使用预训练的或者随机生成的100维词向量连接作为给定文本的输入,编码器长短期记忆网络LSTM的隐含单元数设为512,解码器双向长短期记忆网络BI-LSTM的隐含单元数设为256,最后生成的文本表达设置为64维。参与比较的方法参数设置和原文章中一致。
实验数据集采用20Newsgroups数据集,此数据集包含20个新闻主题的18845篇文档,实验中使用10443篇文档作为训练集,6973篇文档作为测试集。另外,在训练过程中随机抽取10%的训练数据作为验证数据集。数据集中文档的平均长度为92.8个词,整个数据集包含41,877个不同的词。
在文本分类任务中,将学习出的文本表达结合一个逻辑回归分类器(LogisticRegression)来判断输入文本属于哪个话题,实验结果如表1所示:
表1文档分类任务结果比较
Figure BDA0001849359960000141
在文档提取任务中,将测试集中的文档作为查询,计算此文档与训练集中的所有文档的余弦相似度,再依据余弦相似度的值从高到低进行排序,选取前25/50/100的文档作为提取出的相关文档。若提取出的文档与输入文档为同一话题下的,则为提取正确,否则为提取错误。实验结果如表2所示:
表2文档提取任务结果比较
Figure BDA0001849359960000151
实验结果表明,本申请实施例的基于自动编码的文本表示学习方法对于分类任务与文档提取任务都能更好的表达给定文本,从而改进具体自然语言处理任务的效果。
本申请实施例中涉及的神经网络部分都可以由神经网络的其他变种替代,例如,编码器部分除了用长短期记忆LSTM也可以用双向长短期记忆BILSTM、门循环单元GRU等。
图3是本申请实施例提供的基于自动编码的文本表示学习方法的硬件设备结构示意图。如图3所示,该设备包括一个或多个处理器以及存储器。以一个处理器为例,该设备还可以包括:输入系统和输出系统。
处理器、存储器、输入系统和输出系统可以通过总线或者其他方式连接,图3中以通过总线连接为例。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述方法实施例的处理方法。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理系统。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入系统可接收输入的数字或字符信息,以及产生信号输入。输出系统可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器中,当被所述一个或者多个处理器执行时,执行上述任一方法实施例的以下操作:
步骤a:使用编码器对原始文本进行编码,生成原始文本编码后的向量表达,并通过编码矩阵输出编码后的文本;
步骤b:随机删除所述原始文本中的词,并将被删除的词的词向量置0,将未被删除的词使用预训练好的词向量表示,得到新的文本;
步骤c:将所述编码后的文本与新的文本输入到解码器中,并通过解码矩阵预测所述被删除的在时间片t的待预测词的向量表达。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例提供的方法。
本申请实施例提供了一种非暂态(非易失性)计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行以下操作:
步骤a:使用编码器对原始文本进行编码,生成原始文本编码后的向量表达,并通过编码矩阵输出编码后的文本;
步骤b:随机删除所述原始文本中的词,并将被删除的词的词向量置0,将未被删除的词使用预训练好的词向量表示,得到新的文本;
步骤c:将所述编码后的文本与新的文本输入到解码器中,并通过解码矩阵预测所述被删除的在时间片t的待预测词的向量表达。
本申请实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行以下操作:
步骤a:使用编码器对原始文本进行编码,生成原始文本编码后的向量表达,并通过编码矩阵输出编码后的文本;
步骤b:随机删除所述原始文本中的词,并将被删除的词的词向量置0,将未被删除的词使用预训练好的词向量表示,得到新的文本;
步骤c:将所述编码后的文本与新的文本输入到解码器中,并通过解码矩阵预测所述被删除的在时间片t的待预测词的向量表达。
本申请实施例的基于自动编码的文本表示学习方法、系统及电子设备采用字谜游戏的方法,结合基于神经网络的自动编码机制,生成给定文本更精确的向量表达。实验结果表明,本申请能提高文本分类、信息抽取等自然语言任务的准确率,改进自然语言处理任务的效果。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本申请中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本申请所示的这些实施例,而是要符合与本申请所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种基于自动编码的文本表示学习方法,其特征在于,包括以下步骤:
步骤a:使用编码器对原始文本进行编码,生成原始文本编码后的向量表达,并通过编码矩阵输出编码后的文本;
步骤b:随机删除所述原始文本中的词,并将被删除的词的词向量置0,将未被删除的词使用预训练好的词向量表示,得到新的文本;
步骤c:将所述编码后的文本与新的文本输入到解码器中,并通过解码矩阵预测所述被删除的在时间片t的待预测词的向量表达;
采用双向长短期记忆的编码网络BI-LSTM作为解码器,双向长短期记忆的编码网络BI-LSTM通过被预测词的上下文和给定文本的编码来预测被预测词的隐含表达;
Figure FDA0002683868830000011
Figure FDA0002683868830000012
分别为前向长短期记忆网络和反向长短期记忆网络的参数,则:
Figure FDA0002683868830000013
Figure FDA0002683868830000014
然后可以通过下式得到
Figure FDA0002683868830000015
Figure FDA0002683868830000016
公式(7)中,
Figure FDA0002683868830000017
Figure FDA0002683868830000018
Figure FDA0002683868830000019
的串联,Wp为可训练的解码矩阵,bp为可训练的偏置值,
Figure FDA00026838688300000110
为t时刻前向网络神经元中的值,
Figure FDA00026838688300000111
为t时刻反向网络神经元中的值;
在解码器训练过程中,以待预测词向量表达
Figure FDA00026838688300000112
与实际词向量表达xt的差值作为训练的损失函数,损失函数设置为:
Figure FDA0002683868830000021
公式(8)中,cj为表示当前词wj是否被删除的参数:
Figure FDA0002683868830000022
对于有N个文本的训练集,对编码器及解码器联合,进行端到端的训练,训练目标函数为:
Figure FDA0002683868830000023
公式(10)中,θe为编码器的参数,θd为解码器的参数,训练过程可用梯度下降方法实现。
2.根据权利要求1所述的基于自动编码的文本表示学习方法,其特征在于,所述步骤a还包括:将所述原始文本中的每个词用预训练好的词向量表示;具体为:设所述原始文本d由n个词组成,d=[w1,w2,…,wi,...,wn],wi为所述原始文本中的第i个词,采用word2vec模型得到每个词的低维向量表达,将所述原始文本中的每个词通过训练好的向量映射到低维空间中。
3.根据权利要求2所述的基于自动编码的文本表示学习方法,其特征在于,在所述步骤a中,所述编码器为长短期记忆网络LSTM;设xi为词wi的低维向量表达,所述长短期记忆网络LSTM中的隐含状态zi更新公式为:
Figure FDA0002683868830000024
上述公式中,θe表示编码器的待训练参数;
然后,通过如下公式作为原始文本的向量表达:
e=tanh(Wezn+be)
上述公式中,We为一个可训练的编码矩阵,be为可训练的偏置值,Zn为第n个隐含状态。
4.根据权利要求1所述的基于自动编码的文本表示学习方法,其特征在于,在所述步骤c中,所述通过解码矩阵预测所述被删除的在时间片t的待预测词的向量表达具体为:假设所述新的文本为{x′1,…,x′n},xzero为一个长度等于|xt|的全0向量:
Figure FDA0002683868830000031
设xt为位于时间片t的待预测词的实际词向量表达,n为文本长度,DecodeNet为解码网络,则通过解码器预测的词向量表达
Figure FDA0002683868830000032
为:
Figure FDA0002683868830000033
5.一种基于自动编码的文本表示学习系统,其特征在于,包括:
文本编码模块:用于使用编码器对原始文本进行编码,生成原始文本编码后的向量表达,并通过编码矩阵输出编码后的文本;
文本删除模块:用于随机删除所述原始文本中的词,并将被删除的词的词向量置0,将未被删除的词使用预训练好的词向量表示,得到新的文本;
文本解码模块:用于将所述编码后的文本与新的文本输入到解码器中,并通过解码矩阵预测所述被删除的在时间片t的待预测词的向量表达;
采用双向长短期记忆的编码网络BI-LSTM作为解码器,双向长短期记忆的编码网络BI-LSTM通过被预测词的上下文和给定文本的编码来预测被预测词的隐含表达;
Figure FDA0002683868830000034
Figure FDA0002683868830000035
分别为前向长短期记忆网络和反向长短期记忆网络的参数,则:
Figure FDA0002683868830000041
Figure FDA0002683868830000042
然后可以通过下式得到
Figure FDA0002683868830000043
Figure FDA0002683868830000044
公式(7)中,
Figure FDA0002683868830000045
Figure FDA0002683868830000046
Figure FDA0002683868830000047
的串联,Wp为可训练的解码矩阵,bp为可训练的偏置值,
Figure FDA0002683868830000048
为t时刻前向网络神经元中的值,
Figure FDA0002683868830000049
为t时刻反向网络神经元中的值;
在解码器训练过程中,以待预测词向量表达
Figure FDA00026838688300000410
与实际词向量表达xt的差值作为训练的损失函数,损失函数设置为:
Figure FDA00026838688300000411
公式(8)中,cj为表示当前词wj是否被删除的参数:
Figure FDA00026838688300000412
对于有N个文本的训练集,对编码器及解码器联合,进行端到端的训练,训练目标函数为:
Figure FDA00026838688300000413
公式(10)中,θe为编码器的参数,θd为解码器的参数,训练过程可用梯度下降方法实现。
6.根据权利要求5所述的基于自动编码的文本表示学习系统,其特征在于,还包括文本预处理模块,所述文本预处理模块用于将所述原始文本中的每个词用预训练好的词向量表示;具体为:设所述原始文本d由n个词组成,d=[w1,w2,…,wi,...,wn],wi为所述原始文本中的第i个词,采用word2vec模型得到每个词的低维向量表达,将所述原始文本中的每个词通过训练好的向量映射到低维空间中。
7.根据权利要求6所述的基于自动编码的文本表示学习系统,其特征在于,所述编码器为长短期记忆网络LSTM;设xi为词wi的低维向量表达,所述长短期记忆网络LSTM中的隐含状态zi更新公式为:
Figure FDA0002683868830000054
上述公式中,θe表示编码器的待训练参数;
然后,通过如下公式作为原始文本的向量表达:
e=tanh(Wezn+be)
上述公式中,We为一个可训练的编码矩阵,be为可训练的偏置值,Zn为第n个隐含状态。
8.根据权利要求5所述的基于自动编码的文本表示学习系统,其特征在于,所述文本解码模块通过解码矩阵预测所述被删除的在时间片t的待预测词的向量表达具体为:假设所述新的文本为{x′1,…,x′n},xzero为一个长度等于|xt|的全0向量:
Figure FDA0002683868830000051
设xt为位于时间片t的待预测词的实际词向量表达,n为文本长度,DecodeNet为解码网络,则通过解码器预测的词向量表达
Figure FDA0002683868830000052
为:
Figure FDA0002683868830000053
9.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述权利要求1至4任一项所述的基于自动编码的文本表示学习方法的以下操作:
步骤a:使用编码器对原始文本进行编码,生成原始文本编码后的向量表达,并通过编码矩阵输出编码后的文本;
步骤b:随机删除所述原始文本中的词,并将被删除的词的词向量置0,将未被删除的词使用预训练好的词向量表示,得到新的文本;
步骤c:将所述编码后的文本与新的文本输入到解码器中,并通过解码矩阵预测所述被删除的在时间片t的待预测词的向量表达。
CN201811287359.6A 2018-10-31 2018-10-31 一种基于自动编码的文本表示学习方法、系统及电子设备 Active CN109582786B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811287359.6A CN109582786B (zh) 2018-10-31 2018-10-31 一种基于自动编码的文本表示学习方法、系统及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811287359.6A CN109582786B (zh) 2018-10-31 2018-10-31 一种基于自动编码的文本表示学习方法、系统及电子设备

Publications (2)

Publication Number Publication Date
CN109582786A CN109582786A (zh) 2019-04-05
CN109582786B true CN109582786B (zh) 2020-11-24

Family

ID=65920976

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811287359.6A Active CN109582786B (zh) 2018-10-31 2018-10-31 一种基于自动编码的文本表示学习方法、系统及电子设备

Country Status (1)

Country Link
CN (1) CN109582786B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532381B (zh) * 2019-07-15 2023-09-26 中国平安人寿保险股份有限公司 一种文本向量获取方法、装置、计算机设备及存储介质
CN110889404A (zh) * 2019-11-21 2020-03-17 山东浪潮人工智能研究院有限公司 一种基于修正网络的不规则文本识别系统及方法
CN111563534B (zh) * 2020-04-09 2023-02-14 华南理工大学 一种基于自编码器的任务导向型词嵌入向量融合方法
KR20210129583A (ko) * 2020-04-20 2021-10-28 사운드하운드, 인코포레이티드 미디어 재생 디바이스에서의 콘텐츠 필터링
CN111639657A (zh) * 2020-06-03 2020-09-08 浪潮软件股份有限公司 一种不规则文字识别方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104216954A (zh) * 2014-08-20 2014-12-17 北京邮电大学 突发事件话题状态的预测装置及预测方法
CN107391709A (zh) * 2017-07-28 2017-11-24 深圳市唯特视科技有限公司 一种基于新型注意模型进行图像字幕生成的方法
CN107705784A (zh) * 2017-09-28 2018-02-16 百度在线网络技术(北京)有限公司 文本正则化模型训练方法和装置、文本正则化方法和装置
WO2018157765A1 (zh) * 2017-03-02 2018-09-07 华为技术有限公司 数据库系统中对象的编码及运算方法与数据库服务器
CN108595632A (zh) * 2018-04-24 2018-09-28 福州大学 一种融合摘要与主体特征的混合神经网络文本分类方法
CN108717574A (zh) * 2018-03-26 2018-10-30 浙江大学 一种基于连词标记和强化学习的自然语言推理方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104216954A (zh) * 2014-08-20 2014-12-17 北京邮电大学 突发事件话题状态的预测装置及预测方法
WO2018157765A1 (zh) * 2017-03-02 2018-09-07 华为技术有限公司 数据库系统中对象的编码及运算方法与数据库服务器
CN107391709A (zh) * 2017-07-28 2017-11-24 深圳市唯特视科技有限公司 一种基于新型注意模型进行图像字幕生成的方法
CN107705784A (zh) * 2017-09-28 2018-02-16 百度在线网络技术(北京)有限公司 文本正则化模型训练方法和装置、文本正则化方法和装置
CN108717574A (zh) * 2018-03-26 2018-10-30 浙江大学 一种基于连词标记和强化学习的自然语言推理方法
CN108595632A (zh) * 2018-04-24 2018-09-28 福州大学 一种融合摘要与主体特征的混合神经网络文本分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Support vector machines and Word2vec for text classification with semantic features";Joseph Lilleberg et al.;《 2015 IEEE 14th International Conference on Cognitive Informatics & Cognitive Computing》;20150914;全文 *
"基于LSTM自动编码机的短文本聚类方法";黄建翀 等;《计算机技术与自动化》;20170930;第36卷(第3期);全文 *
"实用网络编码系统的可靠传输策略";王伟 等;《通信技术》;20100504;第43卷(第3期);全文 *

Also Published As

Publication number Publication date
CN109582786A (zh) 2019-04-05

Similar Documents

Publication Publication Date Title
CN109582786B (zh) 一种基于自动编码的文本表示学习方法、系统及电子设备
US10860630B2 (en) Methods and systems for generating and traversing discourse graphs using artificial neural networks
Kumar et al. Syntax-guided controlled generation of paraphrases
Rocktäschel et al. Reasoning about entailment with neural attention
WO2022057776A1 (zh) 一种模型压缩方法及装置
CN108376132B (zh) 相似试题的判定方法及系统
CN110688854B (zh) 命名实体识别方法、装置及计算机可读存储介质
Masum et al. Abstractive method of text summarization with sequence to sequence RNNs
CN111382231B (zh) 意图识别系统及方法
CN111625634A (zh) 词槽识别方法及装置、计算机可读存储介质、电子设备
WO2023137911A1 (zh) 基于小样本语料的意图分类方法、装置及计算机设备
CN113761868B (zh) 文本处理方法、装置、电子设备及可读存储介质
CN110738059A (zh) 一种文本相似度计算方法及系统
Hon Artificial neural networks
CN115129807A (zh) 基于自注意的社交媒体主题评论的细粒度分类方法及系统
CN112287239B (zh) 课程推荐方法、装置、电子设备及存储介质
CN112417155B (zh) 基于指针-生成Seq2Seq模型的庭审询问生成方法、装置、介质
Kondurkar et al. Modern applications with a focus on training chatgpt and gpt models: Exploring generative ai and nlp
CN113704393A (zh) 关键词提取方法、装置、设备及介质
Joty et al. Modeling speech acts in asynchronous conversations: A neural-CRF approach
Bai et al. Gated character-aware convolutional neural network for effective automated essay scoring
Kim et al. Multi-pretraining for large-scale text classification
Gendron et al. Natural language processing: a model to predict a sequence of words
CN114519353A (zh) 模型的训练方法、情感消息生成方法和装置、设备、介质
CN114610743A (zh) 结构化查询语言语句处理方法和系统、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant