CN106547735A - 基于深度学习的上下文感知的动态词或字向量的构建及使用方法 - Google Patents
基于深度学习的上下文感知的动态词或字向量的构建及使用方法 Download PDFInfo
- Publication number
- CN106547735A CN106547735A CN201610938238.8A CN201610938238A CN106547735A CN 106547735 A CN106547735 A CN 106547735A CN 201610938238 A CN201610938238 A CN 201610938238A CN 106547735 A CN106547735 A CN 106547735A
- Authority
- CN
- China
- Prior art keywords
- word
- vector
- context
- dynamic
- global characteristics
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 title claims abstract description 240
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000013135 deep learning Methods 0.000 title claims abstract description 19
- 238000003058 natural language processing Methods 0.000 claims abstract description 23
- 238000010276 construction Methods 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 12
- 230000007935 neutral effect Effects 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 108010074506 Transfer Factor Proteins 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000001537 neural effect Effects 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 6
- 238000002372 labelling Methods 0.000 abstract description 5
- 230000011218 segmentation Effects 0.000 abstract description 3
- 238000013519 translation Methods 0.000 abstract description 2
- 238000013473 artificial intelligence Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 239000000945 filler Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000004836 empirical method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明属于计算机自然语言处理技术领域,具体为一种基于深度学习的上下文感知的动态词或字向量的构建及使用方法。基于深度学习的上下文感知的词或字向量动态构造方法包括:从海量文本中通过无监督学习方法同时学习到词或字的全局特征向量及其在特定上下文出现时的特征向量表示,结合全局特征向量和上下文特征向量动态地产生词或字向量表示。本发明还根据上下文动态构造词或字向量应用于自然语言处理系统。本发明主要用于解决词或字在不同上下文下表示不同意思的问题,即一词或一字多义的问题。使用动态词或字向量可以明显地提高不同语言的各种自然语言处理任务的性能,比如:中文分词、词性标注、命名识别、语法分析、语义角色标注、情感分析、文本分类、机器翻译等。
Description
技术领域
本发明属于计算机自然语言处理技术领域,具体涉及动态词或字向量构建及使用方法。
背景技术
近年来,深度学习使近期人工智能研究取得突破性的进展,它结束了人工智能长达十多年未能有突破性进展的局面,并迅速在工业界产生影响。深度学习有别于仅可以完成特定任务的狭隘的人工智能系统(面向特定任务的功能模拟),作为通用的人工智能技术,可以应对各种情况和问题,已在图像识别、语音识别等领域得到极其成功的应用,在自然语言处理领域(主要是英文)也取得成效。深度学习是目前实现人工智能最有效、也是取得成效最大的实施方法。
目前性能表现较好的深度学习系统一般都使用半监督的学习方式来训练其模型,即采用无监督的预训练和有监督的参数调整。在自然语言处理中,从海量文本中学习体现词或字的语义和语法特征的向量表示是最重要的预训练,以训练得到的词或字的向量表示作为深度神经网络的初值有利于避免在后续有监督的训练中陷入较劣的局部最优值。本发明公开了一种根据上下文动态构建词或字的向量表示的方法,主要用于解决词或字在不同上下文下表示不同意思的问题,即一词或一字多义的问题。该方法不需要进行计算复杂性高、且准确度低的词或字的义项消岐,并且能够明显地提高不同语言的各种自然语言处理任务的性能,比如:中文分词、词性标注、命名识别、语法分析、文本分类、、情感分析、语义角色标注、机器翻译等。
发明内容
本发明提供一种基于深度学习的上下文感知的动态词或字向量的构建及使用方法,目的在于解决词或字在不同上下文下表示不同意思的问题,即一词或一字多义的问题(比如英文中的词和汉语中的字)。
动态词或字的向量表示方法可以用于需将词或字转化成相应的向量表示,并且以这些向量表示作为输入的自然语言处理系统,特别适用于基于深度学习技术所研发的自然语言处理系统。本发明方法的优点在于,可以根据词或字所出现的上下文信息动态构建能够表征在该上下文中的语义和语法功能的向量表示,在提高使用动态词或字向量的自然语言系统性能的同时,避免了计算复杂性高、且准确性较低的词或字的义项消岐问题。
本发明提供的基于深度学习的上下文感知的动态词或字向量的构建方法,是采用计算机根据上下文动态构造词或字的特征向量表示,具体步骤如下:
(1)首先,从海量文本中,通过无监督学习的方式获得词或字的全局特征向量及其在特定上下文中的特征向量表示;
(2)然后,根据所获得的全局特征向量及其在特定上下文中的特征向量动态产生词或字的向量表示;具体介绍如下:
(一)从海量文本中,通过无监督学习的方式获得词或字的全局特征向量及其在特定上下文中的特征向量表示;
从海量文本中通过无监督学习方法同时学习到词或字的全局特征向量及其在特定上下文出现时的特征向量表示所使用的神经网络,其结构如图1所示,其中,目标词或字的周围上下文词或字的向量拼接成上下文特征矩阵;由单维卷积从上下文特征矩阵产生词或字的上下文特征向量;由Logistic回归方法让该上下文特征向量将目标词或字的全局特征向量与非目标词或字的全局特征向量区分开来。
一个词或字的语义一般与其周围词或字最为相关,因而网络采用窗口模型,即在产生当前词或字的上下文表示向量时,将这个词或字的周围的若干个词或字作为输入。如果窗口大小设置成11,则表示将这个词或字左边和右边各五个词或字作为输入窗口。如果左边和右边的词或字的数量不足于窗口规定的大小,则使用特殊的填充符代替。
在使用神经网络训练时,每一个词或字对应到两个向量,一个称为普通特征向量,用于通过卷积神经网络产生目标词或字(中心词或字)的上下文表示向量,普通特征向量将作为神经网络(图1)的输入向量;另一个称为全局特征向量,用作目标词或字的代表向量。
对于每一个输入句子中某个窗口上下文,窗口中的词或字(除了位于中间的目标词或字外)以它们的普通特征向量表示,并且拼接成上下文特征矩阵,特征矩阵的列数为窗口大小减一,每一列为对应词或字的普通特征向量。然后对特征矩阵进行单维卷积运算,单维卷积是指对于特征矩阵每一行向量点积相应的参数向量(即卷积核),不同行向量进行点积操作时使用不同的卷积核。在单维卷积的作用下,特征矩阵转换成与词或字向量维度相同的向量,该向量表示可以看成是目标词或字所在上下文的特征表示。获得某个上下文的特征向量表示之后,采用Logistic回归方法让该上下文特征向量能够将目标词或字的全局特征向量与非目标词或字的全局特征向量区分开来。
如图1所示的神经网络的训练目标为:在给定上下文的情况下,目标词或字出现的条件概率最大,即训练的目标函数是:
(公式1)
其中:D为特定语言的词典或字典,包括该语言所需训练的词或字;C t 是目标词或字t在训练集中可能出现的所有上下文;θ表示神经网络的所有参数,包括单维卷积的权重、词或字的普通特征向量和全局特征向量。
公式1中的概率P θ (t|c)可以使用Logistic回归分解成对于目标和非目标词或字的形式:
(公式2)
其中:v(c)是通过单维卷积网络产生的目标词或字的当前上下文特征表示;s(x)为词或字x的全局特征向量表示;neg(t)是根据出现频率通过随机采样从词典或字典中挑选的一组非目标词或字,作为训练的负样本;ϕ表示Sigmoid非线性函数。
采用梯度下降法来最小化负的目标函数,训练过程中所有参数会被迭代更新,包括单维卷积的权重、词或字的普通特征向量和全局特征向量。
上述词或字的全局特征向量及其上下文特征向量表示的无监督协同学习方法的特点在于:
(1)采用单维卷积来产生文本窗口的上下文语义特征表示,减少了网络模型的参数数量,加快了词或字向量的训练和使用时间;
(2)每个词或字对应到两个向量,一个称为普通特征向量,用于通过卷积神经网络产生目标词或字(中心词或字)的上下文表示向量;另一个称为全局特征向量,用于目标词或字的代表向量。这两个向量也可以设置成相同;
(3)在训练过程中同时训练词或字的特征向量以及其出现的上下文表示向量;
(4)适宜的使用字或词向量的维度为50~300,窗口大小为5至11的单数,非线性层的函数为Sigmoid的网络配置。
(二)根据所获得的全局特征向量及其在特定上下文中的特征向量动态产生词或字的向量表示;
一个词或字的语义会受到其出现的上下文的影响,特别一个词或字有多个义项时(即一词或一字多义)。上下文感知的动态产生词或字的向量表示的方法如下:
f(x, c) = (1 − α) s(x) +αv(c) (公式3)
其中:x表示句子中的每一个当前词或字;c表示当前词或字的上下文(即窗口中除当前词或字外的若干个词或字);s(x)为当前词或字的全局特征向量表示;v(c)则是上下文窗口中的词或字的普通特征向量通过单维卷积所产生的当前上下文的特征向量表示;α为加权系数,表示在产生动态词或字向量表示时,两个组成向量之间的比重关系。
使用公式3来产生上下文感知的动态词或字的向量的原理是:词或字出现在特定上下文时,其全局特征向量表示由于受到当前上下文的影响,将向当前上下文的特征向量偏移,以反映当前上下文的影响。
上述结合全局特征向量和上下文特征向量动态产生词或字向量表示方法的特点在于:
(1)采用词或字全局特征向量和特定上下文特征向量的加权平均来动态产生上下文感知的词或字的向量,以反映当前上下文对词或字表义的影响;
(2)使用上下文窗口中的词或字的普通特征向量通过单维卷积所产生的当前上下文的特征向量表示;
(3)适宜的加权系数α的取值范围为[0.15, 0.25];
(4)适宜的词或字向量的维度为50至300维之间。
本发明提出的基于深度学习的上下文感知的动态词或字向量的构建方法所构建的词或字向量,可用于自然语言处理系统中,构成基于深度学习的自然语言处理系统,其结构如图2所示。这些系统首先将词或字转换成向量作为输入,经过若干网络层转换产生高层特征表示后,用于完成各类自然语言处理任务。方法是用动态构造的词或字向量代替之前所使用的词或字向量。
具体来说,是在之前的系统中移除词或字向量Lookup层(用于将输入语句中的词或字转换成相应的特征向量表示),然后增加单维卷积层和加权平均计算层。即首先使用当前上下文窗口中的词或字(不包括位于窗口中间的词或字)的普通特征向量通过单维卷积产生的当前上下文的特征向量表示,然后与位于窗口中间的词或字的全局特征向量进行加权平均之后产生窗口中心词或字的动态词或字向量。对于输入的句子,从左向右依次产生每个词或字的动态向量,作为下一层网络的输入,之后的网络与原先的系统相同,但在任务相关的监督训练时则需要根据误差调整词或字的普通特征向量和全局特征向量,以及单维卷积层的权重。
上述根据上下文动态构造词或字向量应用于自然语言处理系统方法的特点在于:
(1)之前系统中移除词或字向量Lookup层(用于将输入语句中的词或字转换成相应的特征向量表示),然后增加单维卷积层和加权平均计算层;
(2)采用词或字全局特征向量和特定上下文特征向量的加权平均来动态产生上下文感知的词或字的向量,以反映当前上下文对词或字表义的影响;
(3)使用上下文窗口中的词或字的普通特征向量通过单维卷积所产生的当前上下文的特征向量表示;
(4)适宜的加权系数的取值范围为[0.15, 0.25];
(5)任务相关的监督训练时,前1至3轮迭代不调整用于产生上文下文感知的动态词或字向量的普通特征向量、全局特征向量和单维卷积,之后所有神经网络参数再一起协同调整。
发明效果
本发明所公开的基于深度学习的上下文感知的动态词或字向量与其他具有代表性的词或字向量学习方法,在序列标注任务(包括:中文分词、中文命名识别、英文词性分析、英文浅层句法分析)的性能比较结果如表1所示。所有的方法都采用相同的维基百科语料进行训练,并且以文献[1]的网络作为序列标注模型。表1列示了序列标注模型使用包含具有代表性领域样本的训练集学习后,在测试集上达到的性能结果。
表1.模型标注性能比较
英文词性分析使用准确性指标,而其它三个任务使用F1指标。F1指标计算方法为2PR/(P + R),其中P为准确率,R为召回率。基线是指所使用的词或字向量的初值完全随机产生,其它都由各自方法产生的词或字向量作为序列标注的自然语言处理系统的初值,然后在训练集上根据具体任务进行调整。如表1所示,上下文感知的动态词或字向量明显优于其它比较方法,能够提高两种不同语言在不同任务上的性能。
术语解释
自然语言处理:计算机科学领域与人工智能领域中的一个重要分支,研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。
附图说明
图1.同步训练词或字向量及其上下文向量表示的神经网络结构图。
图2.使用动态构造上下文感知词或字向量的方法示意图。
具体实施方式
本发明公开了一种采用计算机根据上下文动态构造词或字的特征向量表示及其使用方法,主要用于解决词或字在不同上下文下表示不同意思的问题,即一词或一字多义的问题(比如英文中的词和汉语中的字)。动态词或字向量的方法可以用于需将词或字转化成相应的向量表示,并且以这些向量表示作为输入的自然语言处理系统,特别适用于基于深度学习技术所研发的自然语言处理系统。具体实施步骤如下:
(1)收集目标语言的大量文本语料(如:维基百科)。
(2)从语料中抽取词表或字表。出现频率较少的生僻词或字可以用一个特殊符号代替。
(3)采用词或字的全局特征向量及其上下文特征向量表示的无监督学习方法(如图1所示)使用文本语料对词或字向量进行训练。
从海量文本中通过无监督学习方法同时学习到词或字的全局特征向量及其在特定上下文出现时的特征向量表示所使用的神经网络结构如图1所示。一个词或字的语义一般与其周围词或字最为相关,因而网络采用窗口模型,即在产生当前词或字的上下文表示向量时,将这个词或字的周围的若干个词或字作为输入。如果窗口大小设置成11,则表示将这个词或字左边和右边各五个词或字作为输入窗口。如果左边和右边的词或字的数量不足于窗口规定的大小,则使用特殊的填充符代替。
在训练和使用时,每一个词或字对应到两个向量,一个称为普通特征向量,用于通过卷积神经网络产生目标词或字(中心词或字)的上下文表示向量,普通特征向量将作为图1的输入向量;另一个称为全局特征向量,用于目标词或字的代表向量。
对于每一个输入句子中某个窗口上下文,窗口中的词或字(除了位于中间的目标词或字外)以它们的普通特征向量表示,并且拼接成上下文特征矩阵,特征矩阵的列数为窗口大小减一,每一列为对应词或字的普通特征。然后对特征矩阵进行单维卷积运算,单维卷积是指对于特征矩阵每一行向量点积相应的参数向量(卷积核),不同行向量进行点积操作时使用不同的卷积核。在单维卷积的作用下,特征矩阵转换成与词或字向量维度相同的向量,该向量表示可以看成是目标词或字所在上下文的特征表示。获得某个上下文的特征向量表示之后,方法采用Logistic回归让该上下文特征向量能够将目标词或字的全局特征向量与非目标词或字的全局特征向量区分开来。
如图1所示的神经网络的训练目标为:给定上下文的情况下,目标词或字出现的条件概率最大,即训练的目标函数是:
(公式1)
其中:D为特定语言的词典或字典,包括了该语言所需训练的词或字;C t 是目标词或字t在训练集中可能出现的所有上下文;θ表示神经网络的所有参数,包括单维卷积的权重、词或字的普通特征向量和全局特征向量。
公式1中的概率P θ (t|c)可以使用Logistic回归分解成对于目标和非目标词或字的形式:
(公式2)
其中:v(c)是通过单维卷积网络产生的目标词或字的当前上下文特征表示;s(x)为词或字x的全局特征向量表示;neg(t)是根据出现频率通过随机采样从词典或字典中挑选的一组非目标词或字,作为训练的负样本;ϕ表示Sigmoid非线性函数。
采用梯度下降法来最小化负的目标函数,训练过程中所有参数会被迭代更新,包括词或字的普通特征向量和全局特征向量。
(4)为特定的自然语言处理任务选择训练和使用的系统(特别是基于深度学习的自然语言处理系统),该系统接收词或字以向量表示作为输入。使用结合全局特征向量和上下文特征向量动态产生词或字向量表示(如图2所示)代替系统之前使用的词或字向量Lookup层。根据任务训练集合,系统涉及的所有参数进行协同训练,即在监督训练时需要根据误差进一步调整词或字的普通特征向量和全局特征向量,以及单维卷积层的参数。
一个词或字的语义会受到其出现的上下文的影响,特别一个词或字有多个义项时(即一词或一字多义)。上下文感知的动态词或字向量的构建方法如下:
f(x, c) = (1 − α) s(x) +αv(c) (公式3)
其中:x表示句子中的每一个当前词或字;c表示当前词或字的上下文(即窗口中除当前词或字外的若干个词或字);s(x)为当前词或字的全局特征向量表示;v(c)则是上下文窗口中的词或字的普通特征向量通过单维卷积所产生的当前上下文的特征向量表示;α为加重系数,表示在产生动态词或字向量表示时,两个组成向量之间的比重关系。
(5)将训练完成的系统采用根据上下文动态构造词或字向量应用于自然语言处理系统的方法(如图2所示)进行实际使用。
具体方法是在之前的系统中移除词或字向量Lookup层(用于将输入语句中的词或字转换成相应的特征向量表示),然后增加单维卷积层和加权平均计算层。即首先使用当前上下文窗口中的词或字(不包括位于窗口中间的词或字)的普通特征向量通过单维卷积产生当前上下文的特征向量表示,然后与位于窗口中间的词或字的全局特征向量进行加权平均之后产生窗口中心词或字的动态词或字向量。对于输入的句子,从左向右依次产生每个词或字的动态向量,作为下一层网络的输入,之后的网络与原先的系统相同。
参考文献
[1] Ronan Collobert, Jason Weston, Léon Bottou, MichaelKarlen,KorayKavukcuoglu, and PavelKuksa. Natural language processing (almost) fromscratch.Journal of Machine Learning Research, 12:2493–2537, 2011.
[2] T. Mikolov, K. Chen, G. Corrado, and J. Dean. Efficient estimation ofword representations in vector space. CoRR abs/1301.3781, 2013.
[3] J. Pennington, R. Socher, and C. D. Manning.Glove: global vectors forword representation. In Proceedings of the International Conferenceon Empirical Methods in Natural Language Processing(EMNLP’14), 2014.。
Claims (6)
1.一种基于深度学习的上下文感知的动态词或字向量的构建方法,是采用计算机根据上下文动态构造词或字的特征向量表示,其特征在于,具体步骤如下:
(1)首先,从海量文本中,通过无监督学习的方式获得词或字的全局特征向量及其在特定上下文中的特征向量表示;
(2)然后,根据所获得的全局特征向量及其在特定上下文中的特征向量动态产生词或字的向量表示;
分别介绍如下:
(一)从海量文本中,通过无监督学习的方式获得词或字的全局特征向量及其在特定上下文中的特征向量表示;
从海量文本中通过无监督学习方法同时学习到词或字的全局特征向量及其在特定上下文出现时的特征向量表示所使用的神经网络,其中,将目标词或字的周围上下文词或字的向量拼接成上下文特征矩阵,采用单维卷积从上下文特征矩阵产生词或字的上下文特征向量,然后采用Logistic回归方法让该上下文特征向量将目标词或字的全局特征向量与非目标词或字的全局特征向量区分开来;
一个词或字的语义一般与其周围词或字最为相关,因而网络采用窗口模型,即在产生当前词或字的上下文表示向量时,将这个词或字的周围的若干个词或字作为输入;
在使用神经网络训练时,每一个词或字对应到两个向量,一个称为普通特征向量,用于通过卷积神经网络产生目标词或字的上下文表示向量,普通特征向量将作为神经网络的输入向量;另一个称为全局特征向量,用作目标词或字的代表向量;
对于每一个输入句子中某个窗口上下文,窗口中的词或字,以它们的普通特征向量表示,并且拼接成上下文特征矩阵,特征矩阵的列数为窗口大小减一,每一列为对应词或字的普通特征向量;然后对特征矩阵进行单维卷积运算,单维卷积是指对于特征矩阵每一行向量点积相应的参数向量即卷积核,不同行向量进行点积操作时使用不同的卷积核;在单维卷积的作用下,特征矩阵转换成与词或字向量维度相同的向量,该向量表示可以看成是目标词或字所在上下文的特征表示;获得某个上下文的特征向量表示之后,采用Logistic回归方法让该上下文特征向量能够将目标词或字的全局特征向量与非目标词或字的全局特征向量区分开来;
神经网络的训练目标为:在给定上下文的情况下,目标词或字出现的条件概率最大,即训练的目标函数是:
(公式1)
其中:D为特定语言的词典或字典,包括该语言所需训练的词或字;C t 是目标词或字t在训练集中可能出现的所有上下文;θ表示神经网络的所有参数,包括单维卷积的权重、词或字的普通特征向量和全局特征向量;
公式1中的概率P θ (t|c)使用Logistic回归分解成对于目标和非目标词或字的形式:
(公式2)
其中:v(c)是通过单维卷积网络产生的目标词或字的当前上下文特征表示;s(x)为词或字x的全局特征向量表示;neg(t)是根据出现频率通过随机采样从词典或字典中挑选的一组非目标词或字,作为训练的负样本;ϕ表示Sigmoid非线性函数;
采用梯度下降法最小化负的目标函数,训练过程中所有参数会被迭代更新,包括单维卷积的权重、词或字的普通特征向量和全局特征向量;
(二)根据所获得的全局特征向量及其在特定上下文中的特征向量动态产生词或字的向量表示;
上下文感知的动态产生词或字的向量表示的方法如下:
f(x, c) = (1 − α) s(x) +αv(c) (公式3)
其中:x表示句子中的每一个当前词或字;c表示当前词或字的上下文(即窗口中除当前词或字外的若干个词或字);s(x)为当前词或字的全局特征向量表示;v(c)则是上下文窗口中的词或字的普通特征向量通过单维卷积所产生的当前上下文的特征向量表示;α为加权系数,表示在产生动态词或字向量表示时,两个组成向量之间的比重关系。
2.根据权利要求1所述的基于深度学习的上下文感知的动态词或字向量的构建方法,其特征在于,使用字或词向量的维度为50~300,窗口大小为5至11的单数,非线性层的函数为Sigmoid的网络配置。
3.根据权利要求1或2所述的基于深度学习的上下文感知的动态词或字向量的构建方法,其特征在于,所述加权系数α的取值范围为[0.15, 0.25]。
4.一种如权利要求1、2或3所述的基于深度学习的上下文感知的动态词或字向量的构建方法所构建的词或字向量,在自然语言处理系统中的应用,方法是用动态构造的词或字向量代替之前所使用的词或字向量,构成基于深度学习的自然语言处理系统,这些系统首先将词或字转换成向量作为输入,经过若干网络层转换产生高层特征表示后,用于完成各类自然语言处理任务。
5.根据权利要求4所述的应用,其特征在于,是在现有的系统中移除词或字向量Lookup层,然后增加单维卷积层和加权平均计算层;即首先使用当前上下文窗口中的词或字的普通特征向量通过单维卷积产生的当前上下文的特征向量表示,然后与位于窗口中间的词或字的全局特征向量进行加权平均之后产生窗口中心词或字的动态词或字向量;对于输入的句子,从左向右依次产生每个词或字的动态向量,作为下一层网络的输入,之后的网络与原先的系统相同,但在任务相关的监督训练时则需要根据误差调整词或字的普通特征向量和全局特征向量,以及单维卷积层的参数。
6.根据权利要求5所述的应用,其特征在于,在任务相关的监督训练时,前1至3轮迭代不调整用于产生上文下文感知的动态词或字向量的普通特征向量、全局特征向量和单维卷积。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610938238.8A CN106547735B (zh) | 2016-10-25 | 2016-10-25 | 基于深度学习的上下文感知的动态词或字向量的构建及使用方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610938238.8A CN106547735B (zh) | 2016-10-25 | 2016-10-25 | 基于深度学习的上下文感知的动态词或字向量的构建及使用方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106547735A true CN106547735A (zh) | 2017-03-29 |
CN106547735B CN106547735B (zh) | 2020-07-07 |
Family
ID=58393056
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610938238.8A Expired - Fee Related CN106547735B (zh) | 2016-10-25 | 2016-10-25 | 基于深度学习的上下文感知的动态词或字向量的构建及使用方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106547735B (zh) |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107102989A (zh) * | 2017-05-24 | 2017-08-29 | 南京大学 | 一种基于词向量、卷积神经网络的实体消歧方法 |
CN107169035A (zh) * | 2017-04-19 | 2017-09-15 | 华南理工大学 | 一种混合长短期记忆网络和卷积神经网络的文本分类方法 |
CN107423284A (zh) * | 2017-06-14 | 2017-12-01 | 中国科学院自动化研究所 | 融合中文单词内部结构信息的句子表示的构建方法及系统 |
CN107463658A (zh) * | 2017-07-31 | 2017-12-12 | 广州市香港科大霍英东研究院 | 文本分类方法及装置 |
CN107844476A (zh) * | 2017-10-19 | 2018-03-27 | 广州索答信息科技有限公司 | 一种增强的词性标注方法 |
CN108388914A (zh) * | 2018-02-26 | 2018-08-10 | 中译语通科技股份有限公司 | 一种基于语义计算的分类器构建方法、分类器 |
CN108446273A (zh) * | 2018-03-15 | 2018-08-24 | 哈工大机器人(合肥)国际创新研究院 | 基于狄式过程的卡尔曼滤波词向量学习方法 |
CN108846077A (zh) * | 2018-06-08 | 2018-11-20 | 泰康保险集团股份有限公司 | 问答文本的语义匹配方法、装置、介质及电子设备 |
CN108875810A (zh) * | 2018-06-01 | 2018-11-23 | 阿里巴巴集团控股有限公司 | 针对训练语料从词频表中进行负例采样的方法及装置 |
CN108984526A (zh) * | 2018-07-10 | 2018-12-11 | 北京理工大学 | 一种基于深度学习的文档主题向量抽取方法 |
CN109165288A (zh) * | 2018-09-17 | 2019-01-08 | 北京神州泰岳软件股份有限公司 | 一种多语义监督的词向量训练方法及装置 |
WO2019079922A1 (zh) * | 2017-10-23 | 2019-05-02 | 腾讯科技(深圳)有限公司 | 会话信息处理方法及其装置、存储介质 |
CN109785828A (zh) * | 2017-11-13 | 2019-05-21 | 通用汽车环球科技运作有限责任公司 | 基于用户语音风格的自然语言生成 |
CN110019784A (zh) * | 2017-09-29 | 2019-07-16 | 北京国双科技有限公司 | 一种文本分类方法及装置 |
WO2019149076A1 (zh) * | 2018-02-05 | 2019-08-08 | 阿里巴巴集团控股有限公司 | 词向量生成方法、装置以及设备 |
CN110298016A (zh) * | 2018-03-21 | 2019-10-01 | 普天信息技术有限公司 | 一种词性标注方法及装置 |
CN110442874A (zh) * | 2019-08-09 | 2019-11-12 | 南京邮电大学 | 一种基于词向量的中文词义预测方法 |
CN110717325A (zh) * | 2019-09-04 | 2020-01-21 | 北京三快在线科技有限公司 | 文本的情感分析方法、装置、电子设备及存储介质 |
CN110765269A (zh) * | 2019-10-30 | 2020-02-07 | 华南理工大学 | 基于动态词向量和层级神经网络的文档级情感分类方法 |
CN111368564A (zh) * | 2019-04-17 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机可读存储介质和计算机设备 |
CN111563381A (zh) * | 2019-02-12 | 2020-08-21 | 阿里巴巴集团控股有限公司 | 文本处理方法和装置 |
CN111651973A (zh) * | 2020-06-03 | 2020-09-11 | 拾音智能科技有限公司 | 一种基于句法感知的文本匹配方法 |
CN111858939A (zh) * | 2020-07-27 | 2020-10-30 | 上海五节数据科技有限公司 | 一种基于上下文信息和卷积神经网络的文本情感分类方法 |
CN112199950A (zh) * | 2020-10-16 | 2021-01-08 | 支付宝(杭州)信息技术有限公司 | 用于事件检测的网络训练方法及装置 |
CN112209040A (zh) * | 2020-11-04 | 2021-01-12 | 黄家顺 | 一种基于人工智能的自动标记物流载板及其使用方法 |
CN112232058A (zh) * | 2020-10-15 | 2021-01-15 | 济南大学 | 基于深度学习三层语义抽取框架的假新闻识别方法及系统 |
CN112287698A (zh) * | 2020-12-25 | 2021-01-29 | 北京百度网讯科技有限公司 | 篇章翻译方法、装置、电子设备和存储介质 |
CN112860907A (zh) * | 2021-04-27 | 2021-05-28 | 华南师范大学 | 一种情感分类方法及设备 |
CN113128199A (zh) * | 2021-05-11 | 2021-07-16 | 济南大学 | 基于预训练语言模型与多重词信息嵌入的字向量生成方法 |
US20220121692A1 (en) * | 2020-04-24 | 2022-04-21 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method, apparatus, device and computer storage medium for retrieving geographic positions |
CN116070638A (zh) * | 2023-01-03 | 2023-05-05 | 广东工业大学 | 一种中文语句特征构造的训练更新方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120150531A1 (en) * | 2010-12-08 | 2012-06-14 | At&T Intellectual Property I, L.P. | System and method for learning latent representations for natural language tasks |
US20120265531A1 (en) * | 1999-11-12 | 2012-10-18 | Bennett Ian M | Speech based learning/training system using semantic decoding |
CN105740327A (zh) * | 2016-01-22 | 2016-07-06 | 天津中科智能识别产业技术研究院有限公司 | 一种基于用户偏好的自适应采样方法 |
CN105894088A (zh) * | 2016-03-25 | 2016-08-24 | 苏州赫博特医疗信息科技有限公司 | 基于深度学习及分布式语义特征医学信息抽取系统及方法 |
CN105976056A (zh) * | 2016-05-03 | 2016-09-28 | 成都数联铭品科技有限公司 | 基于双向rnn的信息提取系统 |
CN105975555A (zh) * | 2016-05-03 | 2016-09-28 | 成都数联铭品科技有限公司 | 一种基于双向递归神经网络的企业简称提取方法 |
-
2016
- 2016-10-25 CN CN201610938238.8A patent/CN106547735B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120265531A1 (en) * | 1999-11-12 | 2012-10-18 | Bennett Ian M | Speech based learning/training system using semantic decoding |
US20120150531A1 (en) * | 2010-12-08 | 2012-06-14 | At&T Intellectual Property I, L.P. | System and method for learning latent representations for natural language tasks |
CN105740327A (zh) * | 2016-01-22 | 2016-07-06 | 天津中科智能识别产业技术研究院有限公司 | 一种基于用户偏好的自适应采样方法 |
CN105894088A (zh) * | 2016-03-25 | 2016-08-24 | 苏州赫博特医疗信息科技有限公司 | 基于深度学习及分布式语义特征医学信息抽取系统及方法 |
CN105976056A (zh) * | 2016-05-03 | 2016-09-28 | 成都数联铭品科技有限公司 | 基于双向rnn的信息提取系统 |
CN105975555A (zh) * | 2016-05-03 | 2016-09-28 | 成都数联铭品科技有限公司 | 一种基于双向递归神经网络的企业简称提取方法 |
Cited By (55)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107169035B (zh) * | 2017-04-19 | 2019-10-18 | 华南理工大学 | 一种混合长短期记忆网络和卷积神经网络的文本分类方法 |
CN107169035A (zh) * | 2017-04-19 | 2017-09-15 | 华南理工大学 | 一种混合长短期记忆网络和卷积神经网络的文本分类方法 |
CN107102989B (zh) * | 2017-05-24 | 2020-09-29 | 南京大学 | 一种基于词向量、卷积神经网络的实体消歧方法 |
CN107102989A (zh) * | 2017-05-24 | 2017-08-29 | 南京大学 | 一种基于词向量、卷积神经网络的实体消歧方法 |
CN107423284A (zh) * | 2017-06-14 | 2017-12-01 | 中国科学院自动化研究所 | 融合中文单词内部结构信息的句子表示的构建方法及系统 |
CN107423284B (zh) * | 2017-06-14 | 2020-03-06 | 中国科学院自动化研究所 | 融合中文单词内部结构信息的句子表示的构建方法及系统 |
CN107463658A (zh) * | 2017-07-31 | 2017-12-12 | 广州市香港科大霍英东研究院 | 文本分类方法及装置 |
CN107463658B (zh) * | 2017-07-31 | 2020-03-31 | 广州市香港科大霍英东研究院 | 文本分类方法及装置 |
CN110019784B (zh) * | 2017-09-29 | 2021-10-15 | 北京国双科技有限公司 | 一种文本分类方法及装置 |
CN110019784A (zh) * | 2017-09-29 | 2019-07-16 | 北京国双科技有限公司 | 一种文本分类方法及装置 |
CN107844476A (zh) * | 2017-10-19 | 2018-03-27 | 广州索答信息科技有限公司 | 一种增强的词性标注方法 |
CN109964223B (zh) * | 2017-10-23 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 会话信息处理方法及其装置、存储介质 |
US10971141B2 (en) | 2017-10-23 | 2021-04-06 | Tencent Technology (Shenzhen) Company Limited | Session information processing method and device and storage medium |
WO2019079922A1 (zh) * | 2017-10-23 | 2019-05-02 | 腾讯科技(深圳)有限公司 | 会话信息处理方法及其装置、存储介质 |
CN109964223A (zh) * | 2017-10-23 | 2019-07-02 | 腾讯科技(深圳)有限公司 | 会话信息处理方法及其装置、存储介质 |
CN109785828B (zh) * | 2017-11-13 | 2023-05-23 | 通用汽车环球科技运作有限责任公司 | 基于用户语音风格的自然语言生成 |
CN109785828A (zh) * | 2017-11-13 | 2019-05-21 | 通用汽车环球科技运作有限责任公司 | 基于用户语音风格的自然语言生成 |
US10824819B2 (en) | 2018-02-05 | 2020-11-03 | Alibaba Group Holding Limited | Generating word vectors by recurrent neural networks based on n-ary characters |
WO2019149076A1 (zh) * | 2018-02-05 | 2019-08-08 | 阿里巴巴集团控股有限公司 | 词向量生成方法、装置以及设备 |
CN108388914A (zh) * | 2018-02-26 | 2018-08-10 | 中译语通科技股份有限公司 | 一种基于语义计算的分类器构建方法、分类器 |
CN108388914B (zh) * | 2018-02-26 | 2022-04-01 | 中译语通科技股份有限公司 | 一种基于语义计算的分类器构建方法、分类器 |
CN108446273A (zh) * | 2018-03-15 | 2018-08-24 | 哈工大机器人(合肥)国际创新研究院 | 基于狄式过程的卡尔曼滤波词向量学习方法 |
CN108446273B (zh) * | 2018-03-15 | 2021-07-20 | 哈工大机器人(合肥)国际创新研究院 | 基于狄式过程的卡尔曼滤波词向量学习方法 |
CN110298016A (zh) * | 2018-03-21 | 2019-10-01 | 普天信息技术有限公司 | 一种词性标注方法及装置 |
CN108875810A (zh) * | 2018-06-01 | 2018-11-23 | 阿里巴巴集团控股有限公司 | 针对训练语料从词频表中进行负例采样的方法及装置 |
CN108846077A (zh) * | 2018-06-08 | 2018-11-20 | 泰康保险集团股份有限公司 | 问答文本的语义匹配方法、装置、介质及电子设备 |
CN108984526B (zh) * | 2018-07-10 | 2021-05-07 | 北京理工大学 | 一种基于深度学习的文档主题向量抽取方法 |
CN108984526A (zh) * | 2018-07-10 | 2018-12-11 | 北京理工大学 | 一种基于深度学习的文档主题向量抽取方法 |
CN109165288B (zh) * | 2018-09-17 | 2019-08-27 | 北京神州泰岳软件股份有限公司 | 一种多语义监督的词向量训练方法及装置 |
CN109165288A (zh) * | 2018-09-17 | 2019-01-08 | 北京神州泰岳软件股份有限公司 | 一种多语义监督的词向量训练方法及装置 |
CN111563381A (zh) * | 2019-02-12 | 2020-08-21 | 阿里巴巴集团控股有限公司 | 文本处理方法和装置 |
CN111563381B (zh) * | 2019-02-12 | 2023-04-21 | 阿里巴巴集团控股有限公司 | 文本处理方法和装置 |
CN111368564A (zh) * | 2019-04-17 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机可读存储介质和计算机设备 |
CN110442874A (zh) * | 2019-08-09 | 2019-11-12 | 南京邮电大学 | 一种基于词向量的中文词义预测方法 |
CN110442874B (zh) * | 2019-08-09 | 2023-06-13 | 南京邮电大学 | 一种基于词向量的中文词义预测方法 |
CN110717325A (zh) * | 2019-09-04 | 2020-01-21 | 北京三快在线科技有限公司 | 文本的情感分析方法、装置、电子设备及存储介质 |
CN110765269B (zh) * | 2019-10-30 | 2023-04-28 | 华南理工大学 | 基于动态词向量和层级神经网络的文档级情感分类方法 |
CN110765269A (zh) * | 2019-10-30 | 2020-02-07 | 华南理工大学 | 基于动态词向量和层级神经网络的文档级情感分类方法 |
US20220121692A1 (en) * | 2020-04-24 | 2022-04-21 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method, apparatus, device and computer storage medium for retrieving geographic positions |
CN111651973A (zh) * | 2020-06-03 | 2020-09-11 | 拾音智能科技有限公司 | 一种基于句法感知的文本匹配方法 |
CN111651973B (zh) * | 2020-06-03 | 2023-11-07 | 拾音智能科技有限公司 | 一种基于句法感知的文本匹配方法 |
CN111858939A (zh) * | 2020-07-27 | 2020-10-30 | 上海五节数据科技有限公司 | 一种基于上下文信息和卷积神经网络的文本情感分类方法 |
CN112232058A (zh) * | 2020-10-15 | 2021-01-15 | 济南大学 | 基于深度学习三层语义抽取框架的假新闻识别方法及系统 |
CN112232058B (zh) * | 2020-10-15 | 2022-11-04 | 济南大学 | 基于深度学习三层语义抽取框架的假新闻识别方法及系统 |
CN112199950A (zh) * | 2020-10-16 | 2021-01-08 | 支付宝(杭州)信息技术有限公司 | 用于事件检测的网络训练方法及装置 |
CN112209040B (zh) * | 2020-11-04 | 2022-01-28 | 江苏亿翔云鸟信息技术有限公司 | 一种基于人工智能的自动标记物流载板及其使用方法 |
CN112209040A (zh) * | 2020-11-04 | 2021-01-12 | 黄家顺 | 一种基于人工智能的自动标记物流载板及其使用方法 |
CN112287698B (zh) * | 2020-12-25 | 2021-06-01 | 北京百度网讯科技有限公司 | 篇章翻译方法、装置、电子设备和存储介质 |
CN112287698A (zh) * | 2020-12-25 | 2021-01-29 | 北京百度网讯科技有限公司 | 篇章翻译方法、装置、电子设备和存储介质 |
CN112860907B (zh) * | 2021-04-27 | 2021-06-29 | 华南师范大学 | 一种情感分类方法及设备 |
CN112860907A (zh) * | 2021-04-27 | 2021-05-28 | 华南师范大学 | 一种情感分类方法及设备 |
CN113128199B (zh) * | 2021-05-11 | 2022-06-21 | 济南大学 | 基于预训练语言模型与多重词信息嵌入的字向量生成方法 |
CN113128199A (zh) * | 2021-05-11 | 2021-07-16 | 济南大学 | 基于预训练语言模型与多重词信息嵌入的字向量生成方法 |
CN116070638A (zh) * | 2023-01-03 | 2023-05-05 | 广东工业大学 | 一种中文语句特征构造的训练更新方法及系统 |
CN116070638B (zh) * | 2023-01-03 | 2023-09-08 | 广东工业大学 | 一种中文语句特征构造的训练更新方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN106547735B (zh) | 2020-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106547735A (zh) | 基于深度学习的上下文感知的动态词或字向量的构建及使用方法 | |
CN110765966B (zh) | 一种面向手写文字的一阶段自动识别与翻译方法 | |
CN110134946B (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN109948691B (zh) | 基于深度残差网络及注意力的图像描述生成方法和装置 | |
CN107273355A (zh) | 一种基于字词联合训练的中文词向量生成方法 | |
CN110532554A (zh) | 一种中文摘要生成方法、系统及存储介质 | |
CN106354710A (zh) | 一种神经网络关系抽取方法 | |
CN109977234A (zh) | 一种基于主题关键词过滤的知识图谱补全方法 | |
CN108830287A (zh) | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 | |
CN108280064A (zh) | 分词、词性标注、实体识别及句法分析的联合处理方法 | |
CN106776538A (zh) | 企业非标准格式文档的信息提取方法 | |
CN109885824A (zh) | 一种层次的中文命名实体识别方法、装置及可读存储介质 | |
CN106570456A (zh) | 基于全卷积递归网络的手写汉字文本识别方法 | |
CN105868184A (zh) | 一种基于循环神经网络的中文人名识别方法 | |
CN108197294A (zh) | 一种基于深度学习的文本自动生成方法 | |
CN113723075B (zh) | 融合词屏蔽数据增强与对抗学习的特定目标情感分析方法 | |
CN106547737A (zh) | 基于深度学习的自然语言处理中的序列标注方法 | |
CN108549658A (zh) | 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统 | |
CN109359297A (zh) | 一种关系抽取方法及系统 | |
CN106919557A (zh) | 一种结合主题模型的文档向量生成方法 | |
CN112733866A (zh) | 一种提高可控图像文本描述正确性的网络构建方法 | |
CN104699797B (zh) | 一种网页数据结构化解析方法和装置 | |
CN103020167B (zh) | 一种计算机中文文本分类方法 | |
CN107357785A (zh) | 主题特征词抽取方法及系统、情感极性判断方法及系统 | |
CN109299464B (zh) | 基于网络链接和文档内容的主题嵌入、文档表示方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200707 |
|
CF01 | Termination of patent right due to non-payment of annual fee |