CN111062209A - 自然语言处理模型训练方法和自然语言处理模型 - Google Patents
自然语言处理模型训练方法和自然语言处理模型 Download PDFInfo
- Publication number
- CN111062209A CN111062209A CN201911292065.7A CN201911292065A CN111062209A CN 111062209 A CN111062209 A CN 111062209A CN 201911292065 A CN201911292065 A CN 201911292065A CN 111062209 A CN111062209 A CN 111062209A
- Authority
- CN
- China
- Prior art keywords
- word
- embedding
- word sense
- natural language
- language processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000012549 training Methods 0.000 title claims abstract description 60
- 238000003058 natural language processing Methods 0.000 title claims abstract description 55
- 238000013528 artificial neural network Methods 0.000 claims abstract description 24
- 239000013598 vector Substances 0.000 claims abstract description 22
- 230000008569 process Effects 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 9
- 230000015654 memory Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 14
- 238000003780 insertion Methods 0.000 claims description 4
- 230000037431 insertion Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 238000010420 art technique Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种自然语言处理模型训练方法,包括:将当前训练样本输入至输入层,以得到对应于当前训练样本的样本向量;LSTM神经网络对样本向量进行处理,以得到对应于当前训练样本的隐藏层输出;获取对应于当前训练样本的多个词义嵌入;输出层根据隐藏层输出和多个词义嵌入确定对应于每一个词义嵌入的权重值;根据多个词义嵌入和每一个词义嵌入的权重值确定对应于当前训练样本的消歧词嵌入;通过对消歧词嵌入和当前训练样本的真实词义嵌入进行最小化交叉熵处理,以完成对自然语言处理模型的训练。通过LSTM获取当前训练样本的上下文信息,从而能够基于LSTM的隐藏层输出确定出对应于当前训练样本的不同词义嵌入的各自的权重值,进而实现消歧的目的。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种自然语言处理模型训练方法和自然语言处理模型。
背景技术
语言模型能够对单词序列的联合概率分布进行建模,从而衡量句子的流畅性与合理程度。常见的语言模型有n-gram语言模型与神经网络语言模型。由于拥有更良好的性能,神经网络语言模型在自动语音识别和自然语言处理领域被广泛使用。根据隐藏层结构的不同,神经网络语言模型可分为RNN、LSTM等模型。
n-gram语言模型是一种统计模型,对训练语料中所有n元组出现的频度进行统计来计算整句话的概率。与n-gram语言模型相比,神经网络语言模型使用向量表示单词和上下文信息,并拥有更好的泛化性能。循环神经网络(RNN)拥有另一个优点,即估算概率时考虑了所有的历史单词。针对RNN梯度爆炸或梯度消失的问题,有研究者提出了性能更好的长短时记忆神经网络(LSTM)。目前,LSTM语言模型被应用得最多。
通常,神经网络语言模型由三部分组成:输入嵌入层,隐藏层和输出嵌入层。每个嵌入层将单词映射到一个实值向量,也即单词的“分布式表示”。多义是自然语言中一种普遍的现象,在常见词中经常出现。例如,在“他是代表小李来参加学生代表大会的”一句中,“代表”一词分别指代了动词与名词的两种不同含义。尽管词嵌入在捕获语义特征方面取得了成功,但它天然地无法处理词语的多义性。
此外,多义词的嵌入将被训练为近似其不同语义含义的平均值。假设距离度量为d,根据三角不等式,d(x,y)≤d(x,z)+d(y,z)。因此,与同一个单词的不同词义同义的单词对将在向量空间中被错误地拉向彼此。例如,“代替”和“委员”的距离将不超过距离d(代替,代表)和d(委员,代表)的总和。
在目前的神经网络语言模型中,每个单词仅与词嵌入中的单个词向量关联,忽略了不同词义之间可能存在的差别。
发明内容
本发明实施例提供一种自然语言处理模型训练方法和自然语言处理模型,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种自然语言处理模型训练方法,所述语言模型包括输入层、隐藏层和输出层,所述隐藏层采用LSTM神经网络,所述方法包括:
将当前训练样本输入至所述输入层,以得到对应于所述当前训练样本的样本向量;
所述LSTM神经网络对所述样本向量进行处理,以得到对应于所述当前训练样本的隐藏层输出;
获取对应于所述当前训练样本的多个词义嵌入;
所述输出层根据所述隐藏层输出和所述多个词义嵌入确定对应于每一个词义嵌入的权重值;
根据所述多个词义嵌入和每一个词义嵌入的权重值确定对应于所述当前训练样本的消歧词嵌入;
通过对所述消歧词嵌入和所述当前训练样本的真实词义嵌入进行最小化交叉熵处理,以完成对所述自然语言处理模型的训练。
第二方面,本发明实施例提供一种自然语言处理方法,采用前述任一项所述的方法训练得到的自然语言处理模型进行自然语言处理。
第三方面,本发明实施例提供一种自然语言处理模型,包括:
输入层,配置为将当前待识别文本输入至所述输入层,以得到对应于所述当前待识别文本的文本向量;
隐藏层,所述隐藏层采用LSTM神经网络,配置为所述LSTM神经网络对所述文本向量进行处理,以得到对应于所述当前待识别文本的隐藏层输出;
输出层,获取对应于所述当前待识别文本的多个词义嵌入;根据所述隐藏层输出和所述多个词义嵌入确定对应于每一个词义嵌入的权重值;根据所述多个词义嵌入和每一个词义嵌入的权重值确定对应于所述当前待识别文本的消歧词嵌入。
第四方面,本发明实施例提供一种存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项自然语言处理模型训练方法。
第五方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明上述任一项自然语言处理模型训练方法。
第六方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项自然语言处理模型训练方法。
本发明实施例的有益效果在于:本申请实施例中通过采用LSTM,获取当前训练样本的上下文信息(即,语境信息),从而能够基于LSTM的隐藏层输出确定出对应于当前训练样本的不同词义嵌入的各自的权重值,进而实现消歧的目的,然后将消歧词嵌入与真实的词义嵌入进行最小化交叉熵处理,从而完成了对语言模型的训练。训练所得到的语言模型能够根据当前的语境识别出多义词的正确的词义,因而能够在语音识别中进行更加准确的语音识别。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的自然语言处理模型训练方法的一实施例的流程图;
图2为本发明的自然语言处理模型的一实施例的结构图;
图3a为基准模型下绘制的歧义词产生周围的语义空间子集示意图;
图3b本发明的自然语言处理模型下绘制的歧义词产生周围的语义空间子集示意图;
图4为本发明的电子设备的一实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
有一些现有技术试图解决学习多词义嵌入的问题。可分解为训练语料库的词义消歧和特定词义嵌入的更新两个步骤。一些现有技术采用两阶段方法,首先使用预训练的模型执行词义消歧,再进行语义嵌入学习。可通过对单词出现的上下文进行聚类以重新标记训练集中的词义并重新训练词义嵌入。有最新现有技术基于SemCor语料计算单词的平均上下文表示。这些方法较为费时或依赖于外部知识库。其他现有技术在Skip-gram模型中同时执行词义消歧和嵌入学习。但是,在大多数现有技术的训练过程中,上下文词语不会与中心词一起被消除歧义。
神经网络语言模型由于其良好的性能而得到了广泛的应用。分布式的词嵌入被用来表示语义信息。然而,每个单词在嵌入层中仅与单个向量相关联,使得模型无法捕获多义词的词义。在本发明中,我们通过为嵌入层中的每个单词分配多个细粒度的词义嵌入来解决此问题。本文提出的模型通过注意力机制以无监督的方式区分单词的不同词义。实验验证了我们的方法在语言模型建模和自动语音识别(ASR)中的优势。我们另外在标准的单词相似度任务上进行了研究。结果表明,本文提出的方法对多义词的建模是有效的,从而获得更好的单词表示。
如图1所示,本发明的实施例提供一种自然语言处理模型训练方法,所述语言模型包括输入层、隐藏层和输出层,所述隐藏层采用LSTM神经网络,所述方法包括:
S10、将当前训练样本输入至所述输入层,以得到对应于所述当前训练样本的样本向量;
S20、所述LSTM神经网络对所述样本向量进行处理,以得到对应于所述当前训练样本的隐藏层输出;
S40、所述输出层根据所述隐藏层输出和所述多个词义嵌入确定对应于每一个词义嵌入的权重值;
S50、根据所述多个词义嵌入和每一个词义嵌入的权重值确定对应于所述当前训练样本的消歧词嵌入;示例性地,采用加权和的形式计算得到消歧词嵌入,具体可以采用以下公式实现:
S60、通过对所述消歧词嵌入和所述当前训练样本的真实词义嵌入进行最小化交叉熵处理,以完成对所述自然语言处理模型的训练。
在一些实施例中,本发明实施例提供一种自然语言处理方法,采用前述任一项所述的方法训练得到的自然语言处理模型进行自然语言处理。
如图2所示,本发明实施例提供一种自然语言处理模型,包括:
输入层,配置为将当前待识别文本输入至所述输入层,以得到对应于所述当前待识别文本的文本向量;
隐藏层,所述隐藏层采用LSTM神经网络,配置为所述LSTM神经网络对所述文本向量进行处理,以得到对应于所述当前待识别文本的隐藏层输出;
输出层,获取对应于所述当前待识别文本的多个词义嵌入;根据所述隐藏层输出和所述多个词义嵌入确定对应于每一个词义嵌入的权重值;根据所述多个词义嵌入和每一个词义嵌入的权重值确定对应于所述当前待识别文本的消歧词嵌入。
本发明所达到的以上的有益效果以及所取得的成绩也得到的实际实验的验证,以下将对发明人所进行的实验进行详细的说明。
1.引言
在本发明中,我们开发了一个简单而有效的语言模型,该模型能够捕获多义词的歧义。模型参数以完全不受监督的方式更新,不受缺少大型带注释语料库的限制。我们的模型经过训练,可以联合执行WSD和在纯文本数据上嵌入学习。在输出层中,每个单词都分配有代表不同意义的多个细粒度嵌入。我们采用注意力机制来根据上下文计算特定于语义的词嵌入的加权和。此外,我们可以将消歧的嵌入内容输入模型输入中,从而进一步提高性能。我们在实验中进行了定性和定量分析,以证明我们方法的有效性。
2.具有注意力多词义嵌入的语言模型
2.1、LSTM语言模型
给定一个单词序列(w1,w2,……wT),其联合概率可以用链式规则分解:
其中,w1和wT表示句子的开头和结尾。因此,P(w1)=1。
令V表示单词的词表。假设要嵌入模型的嵌入尺寸和隐藏尺寸为d。输入嵌入层Win∈R|v|×d将每个单词wt映射到d维嵌入向量xt。给定ht-1,ct-1,xt作为输入,LSTM转换使用以下公式在每个时间步计算隐藏状态ht和单元状态ct:
其中,W为参数矩阵,b为偏差。
输出层由嵌入矩阵Wout∈R|v|×d和偏置向量bout∈R|v|组成。令ew和bw表示w的输出嵌入和偏置项(w∈V)。等式(1)中的P(w|w1,w2……wt)的概率可以近似为Pθ(w|ht-1,ct-1,xt),
通过最小化预测概率分布和真实单词wt+1之间的交叉熵损失来优化语言模型θ的参数,
先前的工作表明,在语言模型中的输入嵌入Win和输出投影矩阵Wout之间共享权重会带来更好的性能。权重绑定不仅减少了模型参数的总数,而且使模型免于学习一个输入和输出嵌入之间的一对一对应关系。在绑定的LSTMLM中,Win=Wout。
2.2、结构化注意力多词义嵌入
注意到,在等式(2)和等式(3)中,每个单词都与单个嵌入向量相关联,从而限制了神经网络基于不同的单词含义进行估计。在本发明中,我们提出了一种学习多义词嵌入的语言模型。对于非绑定模型(untied model),我们将N(N>1)个词嵌入分配给输出层中的每个单词,并使输入层保持不变。因此,输出嵌入矩阵成为W'out∈RN×|V|×d。在绑定模型中,我们另外有W'in=W'out。
为了有效地训练多义词嵌入,我们引入了注意力机制来计算消歧词嵌入。如图2所示,在每个时间步,提出的模型都会自动搜索与每个单词的给定上下文相关的词义嵌入。此过程也可以被视为网络基于上下文表示执行词义辨别。
假设e1 w,e2 w……eN w是输出层中w的多个词嵌入。消除歧义的嵌入uw计算为这些词嵌入的加权和,
每个词嵌入ej w的权重αj由下式计算:
计算歧义消除嵌入的过程可以针对词表中的所有单词并行运行。因此,如等式(3)中那样,用uw代替ew(其中,w∈V)来计算预测分布:
Pθ(w|ht-1,ct-1,xt)
在时间步t-1处,将目标词wt的消歧嵌入表示为ut,ut也可作为下一时刻单词wt对应的输入嵌入。因此,网络可以在输入表示中利用词义信息,并以一种更好的方式对句子建模。例如,假设模型在时间t-1之前看到单词序列为“他是代表小李来参加学生……”,而下一个预测的单词是“代表”,则计算出ut相对于“代表”的动词词义嵌入会更接近其名词词义嵌入。通过在下一个时间步骤中输入ut,模型可以吸收以下信息:输入单词可能是名词,因此可以在以下估计中进行更准确的预测。在本发明中,我们在非绑定模型中将步骤t的输入嵌入设置为xt,在绑定模型中将输入嵌入设置为ut。
3.实验
3.1、实验设置
为了评估我们的算法,我们在三个标准数据集上训练了我们提出的模型和基线LSTMLM。宾夕法尼亚树银行(PTB)包含1989年《华尔街日报》材料的100万个单词。Text8是Google发布的维基百科文章的集合。短消息服务(SMS)数据集是中文会话语料库。表1列出了这些数据集的详细描述。
表1.运行的单词数,测试集上的OOV率[%]和三个数据集的词汇量。
在所有数据集上,我们使用一个带有LSTM隐藏层的语言模型。为了进行权重绑定,我们选择等于256的嵌入大小和隐藏大小。在训练和评估PTB和SMS时,句子没有级联。对于text8语料库,BPTT参数设置为35。我们使用带有动量的SGD优化器进行训练。初始学习率设置为2.0,而当验证集的困惑度(PPL)没有得到改善时,学习率减半。采用早停方法以防止过拟合。
在我们的实验中,我们计算所有数据集的困惑度结果。对于PTB和SMS,给出的困惑度没有跨越句子边界,这与ASR设置一致。我们还通过执行50个最佳假设重打分,评估了我们在SMS评估集上提出的模型的字符错误率(CER)(大约25小时,3K语音)。在text8上,我们进一步研究了标准单词相似性任务上多词义嵌入的质量。
3.2、语言建模与记录实验
我们在表2中训练了绑定和未绑定的语言模型,并在PTB和text8上显示了困惑度结果。第一行表示将每个单词与单个嵌入相关联的基线LSTMLM,这可以看作是我们模型的特殊情况N=1。由于具有四种以上词义的多义词很少见,我们在N=2和N=3的情况下训练提出的模型。对非绑定模型的结果表明,通过在输出层中分配多词义嵌入,提议的模型可以学习区分不同的词义,从而胜过基线模型。通过使用歧义消除的嵌入作为模型输入,可以在绑定的模型上观察到其他性能提升。在大多数情况下,与三个词嵌入相关的模型产生最佳性能,而在text8的非绑定模型中,当N从2增加到3时,困惑度增加的幅度很小。给每个单词分配太多的词义可能会使模型难以优化。据统计,WordNet 3.0中大约80%的单词是单义的,少于5%的单词具有三种以上的意义。因此,将N设置为2将在实践中覆盖大多数多义性。
表2.PTB和text8的单词级别困惑度结果。
我们还对n个最佳假设的重打分测试了我们的方法。在这里,我们仅训练显示出比未绑定模型优越的绑定模型。表3显示了单词级别的困惑度和CER结果。由于大量的中文单词是多义词,因此增加每个单词的嵌入数会产生更好的困惑度结果。此外,在N=2时,CER相对提高了3.7%。
表3.SMS的困惑度和CER[%]结果。
3.3、单词相似度实验
我们在三个标准单词相似性数据集上评估训练嵌入的质量:WordSim-353,Mturk-771和RG-65数据集。每个数据集都包含一个单词对列表以及人类指定的相似度得分,范围从1到10。所有模型都在text8语料库上进行训练,以提取特定的单词嵌入。
对于每个数据集,我们展示了人类判断得分与针对每个单词对w和w'计算的模型相似度得分之间的Spearman等级相关性。对于输入嵌入,相似性度量定义为sim(w,w')=d(ew,ew'),余弦距离为d。由于处理输出嵌入和绑定嵌入的多义词嵌入不是那么简单,因此我们采用现有技术中提出的加权相似性度量,
表4.在text8语料库上训练的嵌入的单词相似性结果。对于不同的嵌入,报告了Spearman的相关性:未绑定模型的输入/输出嵌入和绑定模型的嵌入。
表4列出了几种预先训练的语言模型的实验结果。这里,我们设置α=5。通常,输出嵌入优于输入嵌入,并且绑定嵌入产生的性能与输出嵌入相当。在N=2的情况下,我们的模型在具有不同嵌入类型的所有数据集上均明显优于基线模型。在某些情况下,分配N=3个词义嵌入的模型可获得更好的性能。值得一提的是,在非绑定模型中,输入嵌入的质量也随输出嵌入一起提高。结果表明,我们的方法减轻了意义混淆的问题,从而提高了整个模型的表示能力。
本发明的方法可以处理多种语言,以下表5中列出了具有多个含义英文的情况下的实施例,具体地,是在text8上训练的绑定嵌入的余弦相似度计算得出的Top-5最近邻英文单词。
表5.在text8上训练的绑定嵌入的余弦相似度计算得出的Top-5最近邻英文单词。
3.4、定性分析
表5中列出了与几个多义词相关的最近邻结果。对于基线模型和建议的模型,我们计算与给词嵌入或与给定词的每个特定意义嵌入的余弦相似度最高的前五个词。结果表明,我们的模型有效地捕获了歧义词的不同含义,而基线模型的嵌入仅捕获了最常用的含义。
图3a为基准模型下绘制的歧义词产生周围的语义空间子集示意图(N=1),图3b本发明的自然语言处理模型下绘制的歧义词产生周围的语义空间子集示意图(N=2)(以表5中“produce”下的数据为例),在由t-SNE计算的二维语义空间中,产生的最近邻居的可视化。农产品既可以解释为农业食品,也可以解释为存在。与两种含义有关的单词以不同的颜色显示。在基准模型中,与农产品同义的谷物和产品被错误地拉近。使用我们的模型获得的结果显示在右侧,产生了更好的语义空间。
4.结论与未来工作
在本发明中,我们提出了一种语言模型的扩展,该模型以无监督的方式为每个单词学习多个嵌入。该模型在语言建模,语音识别和单词相似性任务上有效地捕获了不同的词义,并优于传统的LSTMLM。此外,我们的方法可以轻松地适应其他神经元网络框架。我们将进一步研究在其他NLP任务中多义嵌入的用法。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作合并,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在一些实施例中,本发明实施例提供一种非易失性计算机可读存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项自然语言处理模型训练方法。
在一些实施例中,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项自然语言处理模型训练方法。
在一些实施例中,本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行自然语言处理模型训练方法。
在一些实施例中,本发明实施例还提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现自然语言处理模型训练方法。
在一些实施例中,本发明实施例提供一种非易失性计算机可读存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项自然语言处理方法。
在一些实施例中,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项自然语言处理方法。
在一些实施例中,本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行自然语言处理方法。
在一些实施例中,本发明实施例还提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现自然语言处理方法。
图4是本申请另一实施例提供的执行自然语言处理方法的电子设备的硬件结构示意图,如图4所示,该设备包括:
一个或多个处理器410以及存储器420,图4中以一个处理器410为例。
执行自然语言处理方法的设备还可以包括:输入装置430和输出装置440。
处理器410、存储器420、输入装置430和输出装置440可以通过总线或者其他方式连接,图4中以通过总线连接为例。
存储器420作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的自然语言处理方法对应的程序指令/模块。处理器410通过运行存储在存储器420中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例自然语言处理方法。
存储器420可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据自然语言处理装置的使用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器420可选包括相对于处理器410远程设置的存储器,这些远程存储器可以通过网络连接至自然语言处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置430可接收输入的数字或字符信息,以及产生与自然语言处理装置的用户设置以及功能控制有关的信号。输出装置440可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器420中,当被所述一个或者多个处理器410执行时,执行上述任意方法实施例中的自然语言处理方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (9)
1.一种自然语言处理模型训练方法,所述自然语言处理语言模型包括输入层、隐藏层和输出层,所述隐藏层采用LSTM神经网络,所述方法包括:
将当前训练样本输入至所述输入层,以得到对应于所述当前训练样本的样本向量;
所述LSTM神经网络对所述样本向量进行处理,以得到对应于所述当前训练样本的隐藏层输出;
获取对应于所述当前训练样本的多个词义嵌入;
所述输出层根据所述隐藏层输出和所述多个词义嵌入确定对应于每一个词义嵌入的权重值;
根据所述多个词义嵌入和每一个词义嵌入的权重值确定对应于所述当前训练样本的消歧词嵌入;
通过对所述消歧词嵌入和所述当前训练样本的真实词义嵌入进行最小化交叉熵处理,以完成对所述自然语言处理模型的训练。
4.一种自然语言处理方法,采用权利要求1-3中任一项所述的方法训练得到的自然语言处理模型进行自然语言处理。
5.一种自然语言处理模型,包括:
输入层,配置为将当前待识别文本输入至所述输入层,以得到对应于所述当前待识别文本的文本向量;
隐藏层,所述隐藏层采用LSTM神经网络,配置为所述LSTM神经网络对所述文本向量进行处理,以得到对应于所述当前待识别文本的隐藏层输出;
输出层,获取对应于所述当前待识别文本的多个词义嵌入;根据所述隐藏层输出和所述多个词义嵌入确定对应于每一个词义嵌入的权重值;根据所述多个词义嵌入和每一个词义嵌入的权重值确定对应于所述当前待识别文本的消歧词嵌入。
8.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4中任意一项所述方法的步骤。
9.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-4中任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911292065.7A CN111062209A (zh) | 2019-12-16 | 2019-12-16 | 自然语言处理模型训练方法和自然语言处理模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911292065.7A CN111062209A (zh) | 2019-12-16 | 2019-12-16 | 自然语言处理模型训练方法和自然语言处理模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111062209A true CN111062209A (zh) | 2020-04-24 |
Family
ID=70301895
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911292065.7A Pending CN111062209A (zh) | 2019-12-16 | 2019-12-16 | 自然语言处理模型训练方法和自然语言处理模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111062209A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111841017A (zh) * | 2020-05-29 | 2020-10-30 | 北京编程猫科技有限公司 | 一种游戏ai的编程实现方法及装置 |
CN113158687A (zh) * | 2021-04-29 | 2021-07-23 | 新声科技(深圳)有限公司 | 语义的消歧方法及装置、存储介质、电子装置 |
WO2023168601A1 (zh) * | 2022-03-08 | 2023-09-14 | 京东方科技集团股份有限公司 | 自然语言处理模型的训练方法、装置、存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170270100A1 (en) * | 2016-03-18 | 2017-09-21 | International Business Machines Corporation | External Word Embedding Neural Network Language Models |
CN109448706A (zh) * | 2018-12-12 | 2019-03-08 | 苏州思必驰信息科技有限公司 | 神经网络语言模型压缩方法及系统 |
CN109785833A (zh) * | 2019-01-02 | 2019-05-21 | 苏宁易购集团股份有限公司 | 用于智能设备的人机交互语音识别方法及系统 |
US20190156817A1 (en) * | 2017-11-22 | 2019-05-23 | Baidu Usa Llc | Slim embedding layers for recurrent neural language models |
WO2019115200A1 (en) * | 2017-12-11 | 2019-06-20 | Koninklijke Philips N.V. | System and method for efficient ensembling of natural language inference |
WO2019229769A1 (en) * | 2018-05-28 | 2019-12-05 | Thottapilly Sanjeev | An auto-disambiguation bot engine for dynamic corpus selection per query |
-
2019
- 2019-12-16 CN CN201911292065.7A patent/CN111062209A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170270100A1 (en) * | 2016-03-18 | 2017-09-21 | International Business Machines Corporation | External Word Embedding Neural Network Language Models |
US20190156817A1 (en) * | 2017-11-22 | 2019-05-23 | Baidu Usa Llc | Slim embedding layers for recurrent neural language models |
WO2019115200A1 (en) * | 2017-12-11 | 2019-06-20 | Koninklijke Philips N.V. | System and method for efficient ensembling of natural language inference |
WO2019229769A1 (en) * | 2018-05-28 | 2019-12-05 | Thottapilly Sanjeev | An auto-disambiguation bot engine for dynamic corpus selection per query |
CN109448706A (zh) * | 2018-12-12 | 2019-03-08 | 苏州思必驰信息科技有限公司 | 神经网络语言模型压缩方法及系统 |
CN109785833A (zh) * | 2019-01-02 | 2019-05-21 | 苏宁易购集团股份有限公司 | 用于智能设备的人机交互语音识别方法及系统 |
Non-Patent Citations (4)
Title |
---|
ALESSANDRO RAGANATO 等: "Neural Sequence Learning Models for Word Sense Disambiguation", pages 1156 - 1167 * |
柳杨 等: "基于门控卷积机制与层次注意力机制的多语义词向量计算方法", 《中文信息学报》, vol. 32, no. 7, pages 1 - 10 * |
第258-264页: "基于词嵌入辅助机制的情感分析", vol. 46, no. 46, pages 258 - 264 * |
赵鸿阳;: "基于深度学习的智能聊天机器人的研究与实现", no. 06 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111841017A (zh) * | 2020-05-29 | 2020-10-30 | 北京编程猫科技有限公司 | 一种游戏ai的编程实现方法及装置 |
CN113158687A (zh) * | 2021-04-29 | 2021-07-23 | 新声科技(深圳)有限公司 | 语义的消歧方法及装置、存储介质、电子装置 |
CN113158687B (zh) * | 2021-04-29 | 2021-12-28 | 新声科技(深圳)有限公司 | 语义的消歧方法及装置、存储介质、电子装置 |
WO2023168601A1 (zh) * | 2022-03-08 | 2023-09-14 | 京东方科技集团股份有限公司 | 自然语言处理模型的训练方法、装置、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110210029B (zh) | 基于垂直领域的语音文本纠错方法、系统、设备及介质 | |
CN110349572B (zh) | 一种语音关键词识别方法、装置、终端及服务器 | |
CN110148416B (zh) | 语音识别方法、装置、设备和存储介质 | |
US10504010B2 (en) | Systems and methods for fast novel visual concept learning from sentence descriptions of images | |
CN107329949B (zh) | 一种语义匹配方法和系统 | |
CN108920666B (zh) | 基于语义理解的搜索方法、系统、电子设备及存储介质 | |
CN109840287A (zh) | 一种基于神经网络的跨模态信息检索方法和装置 | |
CN110163181B (zh) | 手语识别方法及装置 | |
CN111062209A (zh) | 自然语言处理模型训练方法和自然语言处理模型 | |
CN110688489B (zh) | 基于交互注意力的知识图谱推演方法、装置和存储介质 | |
WO2020244065A1 (zh) | 基于人工智能的字向量定义方法、装置、设备及存储介质 | |
CN111382255A (zh) | 用于问答处理的方法、装置、设备和介质 | |
CN109710732B (zh) | 信息查询方法、装置、存储介质和电子设备 | |
CN108536735B (zh) | 基于多通道自编码器的多模态词汇表示方法与系统 | |
CN111694941B (zh) | 一种回复信息确定方法、装置、存储介质及电子设备 | |
CN109145083B (zh) | 一种基于深度学习的候选答案选取方法 | |
CN113590810B (zh) | 摘要生成模型训练方法、摘要生成方法、装置及电子设备 | |
CN109492085B (zh) | 基于数据处理的答案确定方法、装置、终端及存储介质 | |
CN110678882A (zh) | 使用机器学习从电子文档选择回答跨距 | |
CN110717021A (zh) | 人工智能面试中获取输入文本和相关装置 | |
CN110895656A (zh) | 一种文本相似度计算方法、装置、电子设备及存储介质 | |
KR20150001567A (ko) | 단어의 쾌-불쾌 지수 예측 장치 및 방법 | |
CN110852071A (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN110389999A (zh) | 一种信息抽取的方法、装置、存储介质及电子设备 | |
CN110019832B (zh) | 语言模型的获取方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant after: Sipic Technology Co.,Ltd. Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant before: AI SPEECH Ltd. |