CN109582786B - 一种基于自动编码的文本表示学习方法、系统及电子设备 - Google Patents
一种基于自动编码的文本表示学习方法、系统及电子设备 Download PDFInfo
- Publication number
- CN109582786B CN109582786B CN201811287359.6A CN201811287359A CN109582786B CN 109582786 B CN109582786 B CN 109582786B CN 201811287359 A CN201811287359 A CN 201811287359A CN 109582786 B CN109582786 B CN 109582786B
- Authority
- CN
- China
- Prior art keywords
- text
- word
- vector
- decoder
- predicted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 239000013598 vector Substances 0.000 claims abstract description 129
- 230000014509 gene expression Effects 0.000 claims abstract description 75
- 239000011159 matrix material Substances 0.000 claims abstract description 46
- 230000015654 memory Effects 0.000 claims description 36
- 238000012549 training Methods 0.000 claims description 30
- 230000006403 short-term memory Effects 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 13
- 230000002457 bidirectional effect Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- 210000002569 neuron Anatomy 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 4
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 230000007787 long-term memory Effects 0.000 claims 4
- 238000011478 gradient descent method Methods 0.000 claims 2
- 238000003058 natural language processing Methods 0.000 abstract description 9
- 238000013528 artificial neural network Methods 0.000 abstract description 8
- 230000000694 effects Effects 0.000 abstract description 8
- 238000000605 extraction Methods 0.000 abstract description 8
- 230000007246 mechanism Effects 0.000 abstract description 3
- 238000004458 analytical method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种基于自动编码的文本表示学习方法、系统及电子设备。该方法包括:步骤a:使用编码器对原始文本进行编码,生成原始文本编码后的向量表达,并通过编码矩阵输出编码后的文本;步骤b:随机删除所述原始文本中的词,并将被删除的词的词向量置0,将未被删除的词使用预训练好的词向量表示,得到新的文本;步骤c:将所述编码后的文本与新的文本输入到解码器中,并通过解码矩阵预测所述被删除的在时间片t的待预测词的向量表达。本申请采用字谜游戏的方法,结合基于神经网络的自动编码机制,生成给定文本更精确的向量表达。实验结果表明,本申请能提高文本分类、信息抽取等自然语言任务的准确率,改进自然语言处理任务的效果。
Description
技术领域
本申请属于文本表示学习技术领域,特别涉及一种基于自动编码的文本表示学习方法、系统及电子设备。
背景技术
在自然语言处理任务中,文本表示作为数据处理的基础步骤,引起了广泛的研究。在自然语言处理的实际应用中,若能对输入的文本进行精确的表达往往能提高自然语言处理的效率和效果。
在无监督文本表达中,最早的文本表示方法为词袋法(bag-of-words)。词袋法用一个one-hot向量来表示文本中出现的每一个词,此one-hot向量的每一维代表一个文本中的词,若维度对应的词为当前词,则此维度的值为1,否则为0。因此,在词袋法中,每一个词被表示为一个高维的,只有一个维度值为1而其他维度值为0的向量,向量长度为文本中出现过的词的数量。另外,隐性语义分析(LatentSemantic Analysis)[Evangelopoulos NE.Latent semantic analysis[J].Annual Review of Information Science&Technology,2013,4(6):683-692.]的方法先构造词频矩阵,再运用矩阵降维,矩阵分解的方法来习得词语的向量表达。其次,word2vec[Goldberg Y,Levy O.word2vec Explained:deriving Mikolov et al.'s negative-sampling word-embedding method[J].EprintArxiv,2014.]的方法通过材料库中每个词的上下文,采用神经网络学习一个语言模型,根据学习得到的语言模型得到每个词语的表达。Word2vec方法构造成的词语表达能够包含词语的语义及语法信息。
在文本表达方面,现有技术中也提出了很多基于机器学习和统计的方法。然而,现有的方法虽然可以学习出词语的向量表达,但对训练数据运用的不充分导致学习出的向量表达不够精确,另外,简单的将词语表达的连接作为文本表达也使得最终的表达缺失了对应文本的独特信息。具体来说,现有的文本表达方法存在以下几点不足:
1)词袋法的表达使得最终的表达为稀疏且高维的,容易使数据产生维度灾难而影响最终的自然语言处理任务的效果。且在词袋法中,无法表示词与词之间的关系。例如‘电脑’和‘计算机’在词袋法中被视为完全不同的词。
2)词袋法及隐性语义模型,或者其他基于矩阵分解的词向量学习法无法有效利用词语的语序信息。例如,‘The dog is in front of the cat’(狗在猫前面)和‘The cat isinfront of the dog’(猫在狗前面),在构造词袋表示或者词频矩阵时,这两句话的表示是一样的,以致习得的表达是无法利用语序信息的。
3)现有的文本表达方法多为简单的将其中的词向量连接,这种表达方法无法有效的表达文本的全局信息。
4)因为每个文本长度不同,通过拼接词向量的方法而产生的文本表达长短不一。在后续自然语言任务的处理中,不得不使用截断或者填充的方法来构造定长输入,影响任务效果。
基于现有文本表达方法的不足,本申请设计了一个无监督模型的文本表达学习网络,利用基于神经网络的自编码器生成对给定文本的定长向量表达。
发明内容
本申请提供了一种基于自动编码的文本表示学习方法、系统及电子设备,旨在至少在一定程度上解决现有技术中的上述技术问题之一。
为了解决上述问题,本申请提供了如下技术方案:
一种基于自动编码的文本表示学习方法,包括以下步骤:
步骤a:使用编码器对原始文本进行编码,生成原始文本编码后的向量表达,并通过编码矩阵输出编码后的文本;
步骤b:随机删除所述原始文本中的词,并将被删除的词的词向量置0,将未被删除的词使用预训练好的词向量表示,得到新的文本;
步骤c:将所述编码后的文本与新的文本输入到解码器中,并通过解码矩阵预测所述被删除的在时间片t的待预测词的向量表达。
本申请实施例采取的技术方案还包括:所述步骤a还包括:将所述原始文本中的每个词用预训练好的词向量表示;具体为:设所述原始文本d由n个词组成,d=[w1,w2,...,wi,...,wn],wi为所述原始文本中的第f个词,采用word2vec模型得到每个词的低维向量表达,将所述原始文本中的每个词通过训练好的向量映射到低维空间中。
本申请实施例采取的技术方案还包括:在所述步骤a中,所述编码器为长短期记忆网络LSTM;设xi为词wi的低维向量表达,所述长短期记忆网络LSTM中的隐含状态zi更新公式为:
上述公式中,θe表示编码器的待训练参数;
然后,通过如下公式作为原始文本的向量表达:
e=tanh(Wezn+be)
上述公式中,We为一个可训练的编码矩阵,be为可训练的偏置值,Zn为第n个隐含状态。
本申请实施例采取的技术方案还包括:在所述步骤c中,所述解码器为双向长短期记忆的编码网络BI-LSTM,所述双向长短期记忆的编码网络BI-LSTM通过被预测词的上下文和原始文本的编码来预测被预测词的隐含表达。
本申请实施例采取的技术方案还包括:在所述步骤c中,所述通过解码矩阵预测所述被删除的在时间片t的待预测词的向量表达具体为:假设所述新的文本为{x′1,...,x′n},xzero为一个长度等于|xt|的全0向量:
本申请实施例采取的另一技术方案为:一种基于自动编码的文本表示学习系统,包括:
文本编码模块:用于使用编码器对原始文本进行编码,生成原始文本编码后的向量表达,并通过编码矩阵输出编码后的文本;
文本删除模块:用于随机删除所述原始文本中的词,并将被删除的词的词向量置0,将未被删除的词使用预训练好的词向量表示,得到新的文本;
文本解码模块:用于将所述编码后的文本与新的文本输入到解码器中,并通过解码矩阵预测所述被删除的在时间片t的待预测词的向量表达。
本申请实施例采取的技术方案还包括文本预处理模块,所述文本预处理模块用于将所述原始文本中的每个词用预训练好的词向量表示;具体为:设所述原始文本d由n个词组成,d=[w1,w2,...,wi,...,wn],wi为所述原始文本中的第i个词,采用word2vec模型得到每个词的低维向量表达,将所述原始文本中的每个词通过训练好的向量映射到低维空间中。
本申请实施例采取的技术方案还包括:所述编码器为长短期记忆网络LSTM;设xi为词wi的低维向量表达,所述长短期记忆网络LSTM中的隐含状态zi更新公式为:
上述公式中,θe表示编码器的待训练参数;
然后,通过如下公式作为原始文本的向量表达:
e=tanh(Wezn+be)
上述公式中,We为一个可训练的编码矩阵,be为可训练的偏置值,Zn为第n个隐含状态。
本申请实施例采取的技术方案还包括:所述解码器为双向长短期记忆的编码网络BI-LSTM,所述双向长短期记忆的编码网络BI-LSTM通过被预测词的上下文和原始文本的编码来预测被预测词的隐含表达。
本申请实施例采取的技术方案还包括:所述文本解码模块通过解码矩阵预测所述被删除的在时间片t的待预测词的向量表达具体为:假设所述新的文本为{x′1,...,x′n},xzero为一个长度等于|xt|的全0向量:
本申请实施例采取的又一技术方案为:一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的基于自动编码的文本表示学习方法的以下操作:
步骤a:使用编码器对原始文本进行编码,生成原始文本编码后的向量表达,并通过编码矩阵输出编码后的文本;
步骤b:随机删除所述原始文本中的词,并将被删除的词的词向量置0,将未被删除的词使用预训练好的词向量表示,得到新的文本;
步骤c:将所述编码后的文本与新的文本输入到解码器中,并通过解码矩阵预测所述被删除的在时间片t的待预测词的向量表达。
相对于现有技术,本申请实施例产生的有益效果在于:本申请实施例的基于自动编码的文本表示学习方法、系统及电子设备采用字谜游戏的方法,结合基于神经网络的自动编码机制,生成给定文本更精确的向量表达。实验结果表明,本申请能提高文本分类、信息抽取等自然语言任务的准确率,改进自然语言处理任务的效果。
附图说明
图1是本申请实施例的基于自动编码的文本表示学习方法的流程图;
图2是本申请实施例的基于自动编码的文本表示学习系统的结构示意图;
图3是本申请实施例提供的基于自动编码的文本表示学习方法的硬件设备结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
为了解决现有技术中存在的问题,受到字谜游戏的启发,本申请设计了文本编码网络(Document Encoding Network,DEN)。该网络是一种运用自动编码框架结合无监督学习的文本表达方法,利用基于神经网络的自编码器生成给定文本的定长向量表达。给定一个文本,该网络首先随机删掉一些原始文本中的词,然后通过剩下的词尝试使用自编码器重构原始文本。如果训练后的自编码器能比较好的重构出原始文本,表示学习后的自编码器已经习得原始文本的语言模型,则可通过将原始文本的词向量输入到自编码器中得到原始文本的向量表达。
具体地,请参阅图1,是本申请实施例的基于自动编码的文本表示学习方法的流程图。本申请实施例的基于自动编码的文本表示学习方法包括以下步骤:
步骤100:将原始文本中的每个词用预训练好的词向量表示,并将词向量表示后的原始文本输入到编码器中;
步骤100中,设原始文本d由n个词组成,d=[w1,w2,...,wi,...,wn],wi为文本中的第i个词,采用word2vec模型得到每个词的低维向量表达,将原始文本中的每个词通过训练好的向量映射到低维空间中。
步骤200:使用编码器对输入的原始文本进行编码,生成原始文本编码后的向量表达;
步骤200中,本申请实施例采用长短期记忆网络LSTM(Long Short-Term Memory)作为编码器,假设xi为词wi的低维向量表达,长短期记忆网络LSTM中的隐含状态zi可以通过如下公式得到更新:
公式(1)中,θe表示编码器的待训练参数。
然后,可以通过如下公式作为原始文本编码后的向量表达:
e=tanh(Wezn+be) (2)
公式(2)中,We为一个可训练的编码矩阵,be为可训练的偏置值,Zn为第n个隐含状态。
步骤300:将编码器的输出输入到编码矩阵中,通过编码矩阵输出编码后的文本;
步骤400:随机删除原始文本中一定数量的词,并将被删除的词的词向量置0,将未被删除的词使用预训练好的词向量表示,得到新的文本;
步骤500中,受到字谜游戏的启发,本申请通过对给定文本随机删除一些词来平衡已知信息和未知信息,通过用不完整的文本表达预测完整文本的编码来训练解码器。例如,输入的不完整文本为[三,-,-,在,-,上,走],需要通过解码器来预测文本中缺失的部分。
假设随机删除部分词后的新的文本为{x′1,...,x′n},xzero为一个长度等于|xt|的全0向量:
本申请实施例中,采用双向(前向和后向)长短期记忆的编码网络BI-LSTM作为解码器,双向长短期记忆的编码网络BI-LSTM通过被预测词的上下文和给定文本的编码来预测被预测词的隐含表达。
公式(8)中,cj为表示当前词wj是否被删除的参数:
对于有N个文本的训练集,对编码器及解码器联合,进行端到端的训练,训练目标函数为:
公式(10)中,θe为编码器的参数,θd为解码器的参数,训练过程可用梯度下降等方法实现。
请参阅图2,是本申请实施例的基于自动编码的文本表示学习系统的结构示意图。本申请实施例的基于自动编码的文本表示学习系统包括文本预处理模块、文本编码模块、文本删除模块和文本解码模块。
文本预处理模块:用于将原始文本中的每个词用预训练好的词向量表示,并将词向量表示后的原始文本输入到编码器中;其中,设原始文本d由n个词组成,d=[w1,w2,...,wi,...,wn],wi为文本中的第i个词,采用word2vec模型得到每个词的低维向量表达,将原始文本中的每个词通过训练好的向量映射到低维空间中。
文本编码模块:用于使用编码器对输入的原始文本进行编码,生成原始文本编码后的向量表达,将编码器的输出输入到编码矩阵中,通过编码矩阵输出编码后的文本;本申请实施例采用长短期记忆网络LSTM(Long Short-Term Memory)作为编码器,假设xi为词wi的低维向量表达,长短期记忆网络LSTM中的隐含状态zi可以通过如下公式得到更新:
公式(1)中,θe表示编码器的待训练参数。
然后,可以通过如下公式作为原始文本编码后的向量表达:
e=tanh(Wezn+be) (2)
公式(2)中,We为一个可训练的编码矩阵,be为可训练的偏置值,Zn为第n个隐含状态。
文本删除模块:用于随机删除原始文本中一定数量的词,并将被删除的词的词向量置0,将未被删除的词使用预训练好的词向量表示,得到新的文本;
文本解码模块:用于将编码后的文本与新的文本输入到解码器中,并通过一个解码矩阵得到被删除的在时间片t的待预测词向量表达其中,本申请受到字谜游戏的启发,通过对给定文本随机删除一些词来平衡已知信息和未知信息,通过用不完整的文本表达预测完整文本的编码来训练解码器。例如,输入的不完整文本为[三,-,-,在,-,上,走],需要通过解码器来预测文本中缺失的部分。
假设随机删除部分词后的新的文本为{x′1,...,x′n},xzero为一个长度等于|xt|的全0向量:
本申请实施例中,采用双向(前向和后向)长短期记忆的编码网络BI-LSTM作为解码器,双向长短期记忆的编码网络BI-LSTM通过被预测词的上下文和给定文本的编码来预测被预测词的隐含表达。
公式(8)中,cj为表示当前词wj是否被删除的参数:
对于有N个文本的训练集,对编码器及解码器联合,进行端到端的训练,训练目标函数为:
公式(10)中,θe为编码器的参数,θd为解码器的参数,训练过程可用梯度下降等方法实现。
为了验证本申请的可行性和有效性,以下通过实验对本申请和现有方法在文档分类和文档检索两个自然语言处理任务上的效果进行了比较。参与比较的现有方法包括段落向量(Paragraph Vector,PV)[Le,Quoc,and T.Mikolov.″Distributed representationsof sentences and documents.″International Conference on InternationalConference on Machine LearningJMLR.org,2014:II-1188.]、skip-thought(ST)[KirosR,Zhu Y,Salakhutdinov R,et al.Skip-Thought Vectors[J].Computer Science,2015,28.]、TF-IDF[Wu H C,Luk R WP,Wong K F,et al.Interpreting TF-IDF term weightsas making relevance decisions[J].Acm Transactions on Information Systems,2008,26(3):55-59.]、Latent Dirichlet allocation(LDA)[Blei D M,Ng A Y,Jordan MI.Latent dirichlet allocation[J].Journal of Machine Learning Research,2012,3:993-1022.]和隐性语义分析(LatentSemantic Analysis,LSA)[Evangelopoulos NE.Latent semantic analysis[J].Annual Review of Information Science&Technology,2013,4(6):683-692.]。对于本申请提出方法的实验,使用word2vec模型预训练词向量和随机生成词向量两种方法。
实验参数部分,使用预训练的或者随机生成的100维词向量连接作为给定文本的输入,编码器长短期记忆网络LSTM的隐含单元数设为512,解码器双向长短期记忆网络BI-LSTM的隐含单元数设为256,最后生成的文本表达设置为64维。参与比较的方法参数设置和原文章中一致。
实验数据集采用20Newsgroups数据集,此数据集包含20个新闻主题的18845篇文档,实验中使用10443篇文档作为训练集,6973篇文档作为测试集。另外,在训练过程中随机抽取10%的训练数据作为验证数据集。数据集中文档的平均长度为92.8个词,整个数据集包含41,877个不同的词。
在文本分类任务中,将学习出的文本表达结合一个逻辑回归分类器(LogisticRegression)来判断输入文本属于哪个话题,实验结果如表1所示:
表1文档分类任务结果比较
在文档提取任务中,将测试集中的文档作为查询,计算此文档与训练集中的所有文档的余弦相似度,再依据余弦相似度的值从高到低进行排序,选取前25/50/100的文档作为提取出的相关文档。若提取出的文档与输入文档为同一话题下的,则为提取正确,否则为提取错误。实验结果如表2所示:
表2文档提取任务结果比较
实验结果表明,本申请实施例的基于自动编码的文本表示学习方法对于分类任务与文档提取任务都能更好的表达给定文本,从而改进具体自然语言处理任务的效果。
本申请实施例中涉及的神经网络部分都可以由神经网络的其他变种替代,例如,编码器部分除了用长短期记忆LSTM也可以用双向长短期记忆BILSTM、门循环单元GRU等。
图3是本申请实施例提供的基于自动编码的文本表示学习方法的硬件设备结构示意图。如图3所示,该设备包括一个或多个处理器以及存储器。以一个处理器为例,该设备还可以包括:输入系统和输出系统。
处理器、存储器、输入系统和输出系统可以通过总线或者其他方式连接,图3中以通过总线连接为例。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述方法实施例的处理方法。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理系统。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入系统可接收输入的数字或字符信息,以及产生信号输入。输出系统可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器中,当被所述一个或者多个处理器执行时,执行上述任一方法实施例的以下操作:
步骤a:使用编码器对原始文本进行编码,生成原始文本编码后的向量表达,并通过编码矩阵输出编码后的文本;
步骤b:随机删除所述原始文本中的词,并将被删除的词的词向量置0,将未被删除的词使用预训练好的词向量表示,得到新的文本;
步骤c:将所述编码后的文本与新的文本输入到解码器中,并通过解码矩阵预测所述被删除的在时间片t的待预测词的向量表达。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例提供的方法。
本申请实施例提供了一种非暂态(非易失性)计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行以下操作:
步骤a:使用编码器对原始文本进行编码,生成原始文本编码后的向量表达,并通过编码矩阵输出编码后的文本;
步骤b:随机删除所述原始文本中的词,并将被删除的词的词向量置0,将未被删除的词使用预训练好的词向量表示,得到新的文本;
步骤c:将所述编码后的文本与新的文本输入到解码器中,并通过解码矩阵预测所述被删除的在时间片t的待预测词的向量表达。
本申请实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行以下操作:
步骤a:使用编码器对原始文本进行编码,生成原始文本编码后的向量表达,并通过编码矩阵输出编码后的文本;
步骤b:随机删除所述原始文本中的词,并将被删除的词的词向量置0,将未被删除的词使用预训练好的词向量表示,得到新的文本;
步骤c:将所述编码后的文本与新的文本输入到解码器中,并通过解码矩阵预测所述被删除的在时间片t的待预测词的向量表达。
本申请实施例的基于自动编码的文本表示学习方法、系统及电子设备采用字谜游戏的方法,结合基于神经网络的自动编码机制,生成给定文本更精确的向量表达。实验结果表明,本申请能提高文本分类、信息抽取等自然语言任务的准确率,改进自然语言处理任务的效果。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本申请中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本申请所示的这些实施例,而是要符合与本申请所公开的原理和新颖特点相一致的最宽的范围。
Claims (9)
1.一种基于自动编码的文本表示学习方法,其特征在于,包括以下步骤:
步骤a:使用编码器对原始文本进行编码,生成原始文本编码后的向量表达,并通过编码矩阵输出编码后的文本;
步骤b:随机删除所述原始文本中的词,并将被删除的词的词向量置0,将未被删除的词使用预训练好的词向量表示,得到新的文本;
步骤c:将所述编码后的文本与新的文本输入到解码器中,并通过解码矩阵预测所述被删除的在时间片t的待预测词的向量表达;
采用双向长短期记忆的编码网络BI-LSTM作为解码器,双向长短期记忆的编码网络BI-LSTM通过被预测词的上下文和给定文本的编码来预测被预测词的隐含表达;
公式(8)中,cj为表示当前词wj是否被删除的参数:
对于有N个文本的训练集,对编码器及解码器联合,进行端到端的训练,训练目标函数为:
公式(10)中,θe为编码器的参数,θd为解码器的参数,训练过程可用梯度下降方法实现。
2.根据权利要求1所述的基于自动编码的文本表示学习方法,其特征在于,所述步骤a还包括:将所述原始文本中的每个词用预训练好的词向量表示;具体为:设所述原始文本d由n个词组成,d=[w1,w2,…,wi,...,wn],wi为所述原始文本中的第i个词,采用word2vec模型得到每个词的低维向量表达,将所述原始文本中的每个词通过训练好的向量映射到低维空间中。
5.一种基于自动编码的文本表示学习系统,其特征在于,包括:
文本编码模块:用于使用编码器对原始文本进行编码,生成原始文本编码后的向量表达,并通过编码矩阵输出编码后的文本;
文本删除模块:用于随机删除所述原始文本中的词,并将被删除的词的词向量置0,将未被删除的词使用预训练好的词向量表示,得到新的文本;
文本解码模块:用于将所述编码后的文本与新的文本输入到解码器中,并通过解码矩阵预测所述被删除的在时间片t的待预测词的向量表达;
采用双向长短期记忆的编码网络BI-LSTM作为解码器,双向长短期记忆的编码网络BI-LSTM通过被预测词的上下文和给定文本的编码来预测被预测词的隐含表达;
公式(8)中,cj为表示当前词wj是否被删除的参数:
对于有N个文本的训练集,对编码器及解码器联合,进行端到端的训练,训练目标函数为:
公式(10)中,θe为编码器的参数,θd为解码器的参数,训练过程可用梯度下降方法实现。
6.根据权利要求5所述的基于自动编码的文本表示学习系统,其特征在于,还包括文本预处理模块,所述文本预处理模块用于将所述原始文本中的每个词用预训练好的词向量表示;具体为:设所述原始文本d由n个词组成,d=[w1,w2,…,wi,...,wn],wi为所述原始文本中的第i个词,采用word2vec模型得到每个词的低维向量表达,将所述原始文本中的每个词通过训练好的向量映射到低维空间中。
9.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述权利要求1至4任一项所述的基于自动编码的文本表示学习方法的以下操作:
步骤a:使用编码器对原始文本进行编码,生成原始文本编码后的向量表达,并通过编码矩阵输出编码后的文本;
步骤b:随机删除所述原始文本中的词,并将被删除的词的词向量置0,将未被删除的词使用预训练好的词向量表示,得到新的文本;
步骤c:将所述编码后的文本与新的文本输入到解码器中,并通过解码矩阵预测所述被删除的在时间片t的待预测词的向量表达。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811287359.6A CN109582786B (zh) | 2018-10-31 | 2018-10-31 | 一种基于自动编码的文本表示学习方法、系统及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811287359.6A CN109582786B (zh) | 2018-10-31 | 2018-10-31 | 一种基于自动编码的文本表示学习方法、系统及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109582786A CN109582786A (zh) | 2019-04-05 |
CN109582786B true CN109582786B (zh) | 2020-11-24 |
Family
ID=65920976
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811287359.6A Active CN109582786B (zh) | 2018-10-31 | 2018-10-31 | 一种基于自动编码的文本表示学习方法、系统及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109582786B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532381B (zh) * | 2019-07-15 | 2023-09-26 | 中国平安人寿保险股份有限公司 | 一种文本向量获取方法、装置、计算机设备及存储介质 |
CN110889404A (zh) * | 2019-11-21 | 2020-03-17 | 山东浪潮人工智能研究院有限公司 | 一种基于修正网络的不规则文本识别系统及方法 |
CN111563534B (zh) * | 2020-04-09 | 2023-02-14 | 华南理工大学 | 一种基于自编码器的任务导向型词嵌入向量融合方法 |
KR20210129583A (ko) * | 2020-04-20 | 2021-10-28 | 사운드하운드, 인코포레이티드 | 미디어 재생 디바이스에서의 콘텐츠 필터링 |
CN111639657A (zh) * | 2020-06-03 | 2020-09-08 | 浪潮软件股份有限公司 | 一种不规则文字识别方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104216954A (zh) * | 2014-08-20 | 2014-12-17 | 北京邮电大学 | 突发事件话题状态的预测装置及预测方法 |
CN107391709A (zh) * | 2017-07-28 | 2017-11-24 | 深圳市唯特视科技有限公司 | 一种基于新型注意模型进行图像字幕生成的方法 |
CN107705784A (zh) * | 2017-09-28 | 2018-02-16 | 百度在线网络技术(北京)有限公司 | 文本正则化模型训练方法和装置、文本正则化方法和装置 |
WO2018157765A1 (zh) * | 2017-03-02 | 2018-09-07 | 华为技术有限公司 | 数据库系统中对象的编码及运算方法与数据库服务器 |
CN108595632A (zh) * | 2018-04-24 | 2018-09-28 | 福州大学 | 一种融合摘要与主体特征的混合神经网络文本分类方法 |
CN108717574A (zh) * | 2018-03-26 | 2018-10-30 | 浙江大学 | 一种基于连词标记和强化学习的自然语言推理方法 |
-
2018
- 2018-10-31 CN CN201811287359.6A patent/CN109582786B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104216954A (zh) * | 2014-08-20 | 2014-12-17 | 北京邮电大学 | 突发事件话题状态的预测装置及预测方法 |
WO2018157765A1 (zh) * | 2017-03-02 | 2018-09-07 | 华为技术有限公司 | 数据库系统中对象的编码及运算方法与数据库服务器 |
CN107391709A (zh) * | 2017-07-28 | 2017-11-24 | 深圳市唯特视科技有限公司 | 一种基于新型注意模型进行图像字幕生成的方法 |
CN107705784A (zh) * | 2017-09-28 | 2018-02-16 | 百度在线网络技术(北京)有限公司 | 文本正则化模型训练方法和装置、文本正则化方法和装置 |
CN108717574A (zh) * | 2018-03-26 | 2018-10-30 | 浙江大学 | 一种基于连词标记和强化学习的自然语言推理方法 |
CN108595632A (zh) * | 2018-04-24 | 2018-09-28 | 福州大学 | 一种融合摘要与主体特征的混合神经网络文本分类方法 |
Non-Patent Citations (3)
Title |
---|
"Support vector machines and Word2vec for text classification with semantic features";Joseph Lilleberg et al.;《 2015 IEEE 14th International Conference on Cognitive Informatics & Cognitive Computing》;20150914;全文 * |
"基于LSTM自动编码机的短文本聚类方法";黄建翀 等;《计算机技术与自动化》;20170930;第36卷(第3期);全文 * |
"实用网络编码系统的可靠传输策略";王伟 等;《通信技术》;20100504;第43卷(第3期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109582786A (zh) | 2019-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109582786B (zh) | 一种基于自动编码的文本表示学习方法、系统及电子设备 | |
US10860630B2 (en) | Methods and systems for generating and traversing discourse graphs using artificial neural networks | |
Kumar et al. | Syntax-guided controlled generation of paraphrases | |
Rocktäschel et al. | Reasoning about entailment with neural attention | |
WO2022057776A1 (zh) | 一种模型压缩方法及装置 | |
CN108376132B (zh) | 相似试题的判定方法及系统 | |
CN110688854B (zh) | 命名实体识别方法、装置及计算机可读存储介质 | |
Masum et al. | Abstractive method of text summarization with sequence to sequence RNNs | |
CN111382231B (zh) | 意图识别系统及方法 | |
CN111625634A (zh) | 词槽识别方法及装置、计算机可读存储介质、电子设备 | |
WO2023137911A1 (zh) | 基于小样本语料的意图分类方法、装置及计算机设备 | |
CN113761868B (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN110738059A (zh) | 一种文本相似度计算方法及系统 | |
Hon | Artificial neural networks | |
CN115129807A (zh) | 基于自注意的社交媒体主题评论的细粒度分类方法及系统 | |
CN112287239B (zh) | 课程推荐方法、装置、电子设备及存储介质 | |
CN112417155B (zh) | 基于指针-生成Seq2Seq模型的庭审询问生成方法、装置、介质 | |
Kondurkar et al. | Modern applications with a focus on training chatgpt and gpt models: Exploring generative ai and nlp | |
CN113704393A (zh) | 关键词提取方法、装置、设备及介质 | |
Joty et al. | Modeling speech acts in asynchronous conversations: A neural-CRF approach | |
Bai et al. | Gated character-aware convolutional neural network for effective automated essay scoring | |
Kim et al. | Multi-pretraining for large-scale text classification | |
Gendron et al. | Natural language processing: a model to predict a sequence of words | |
CN114519353A (zh) | 模型的训练方法、情感消息生成方法和装置、设备、介质 | |
CN114610743A (zh) | 结构化查询语言语句处理方法和系统、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |