CN109992773B - 基于多任务学习的词向量训练方法、系统、设备及介质 - Google Patents

基于多任务学习的词向量训练方法、系统、设备及介质 Download PDF

Info

Publication number
CN109992773B
CN109992773B CN201910213032.2A CN201910213032A CN109992773B CN 109992773 B CN109992773 B CN 109992773B CN 201910213032 A CN201910213032 A CN 201910213032A CN 109992773 B CN109992773 B CN 109992773B
Authority
CN
China
Prior art keywords
word vector
named entity
module
training
language model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910213032.2A
Other languages
English (en)
Other versions
CN109992773A (zh
Inventor
庄浩杰
王聪
孙庆华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201910213032.2A priority Critical patent/CN109992773B/zh
Publication of CN109992773A publication Critical patent/CN109992773A/zh
Application granted granted Critical
Publication of CN109992773B publication Critical patent/CN109992773B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Abstract

本发明公开了一种基于多任务学习的词向量训练方法、系统、设备及介质,所述方法包括:获取训练集,所述训练集包括文本词语序列‑命名实体标签序列的配对数据;搭建语言模型模块和命名实体识别模块,将语言模型模块和命名实体识别模块作为外部模块;交替训练词向量字典和外部模块,所述词向量字典采用文本词语序列和外部模块的输出进行训练,所述语言模型模块采用词向量字典训练输出的词向量序列进行训练,所述命名实体识别模块采用词向量字典训练输出的词向量序列和命名实体标签序列进行训练。本发明可以提高词向量在多个外部实际任务中的测试效果以及增强词向量表示的鲁棒性。

Description

基于多任务学习的词向量训练方法、系统、设备及介质
技术领域
本发明涉及一种基于多任务学习的词向量训练方法、系统、设备及介质,属于词向量训练领域。
背景技术
词向量的表示是自然语言处理中最基本的任务之一,它是每个词语在计算机进行处理的表示。从概念上讲,它是每个单词在向量空间的数学嵌入。词向量的表示包含了语言建模和特征学习等技术,目的在于解决如何表征来自词汇表的单词或短语到向量空间的映射过程。
词向量的表示主要可分为三种方法:
1)one-hot向量表示:假设词库总共有n个词,那每一个词向量表示为一个1*n的高维向量,而每个词都会在某个索引值为1,其余位置全部都取值为0。
2)基于SVD(Singular Value Decomposition,奇异值分解)分解的方法:首先遍历文本数据集所有的词语,统计词出现的次数,然后用一个矩阵X来表示所有的次数情况,并对X进行奇异值分解。最后用每一行的向量作为所有词表中词的词向量。
3)基于上下文的分布式表示方法:通过上下文的词语进行预测某个位置的词语(CBOW方法),或者通过某个位置的词语来预测上下文的词语(Skip-Gram方法)等方法进行训练,得到每个词语的分布式表示,且每个词向量的维度都可以相对较低。
one-hot向量表示的缺点如下:
1)每个词向量维度很高,而且非常稀疏,这导致在后续任务的计算中,计算复杂度太大,效率不高。
2)无法表示词语之间的相似性,不同词语之间的相似度无法通过词向量的计算获基于SVD分解的方发有以下缺点:
1)矩阵的维度可能会变化(当有新的词语出现时)。
2)矩阵是非常稀疏的,这是因为大多数词并不同时出现。
3)训练过程复杂度太高。
随着当今信息时代海量数据的出现,硬件计算能力的提升以及深度学习的发展,基于上下文的分布式表示方法也越来越多地采用了神经网络来进行训练词向量。在自然语言处理中,常用的神经网络结构有:
1)卷积神经网络(Convolutional Neural Network,简称CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元。卷积神经网络中每层卷积层由若干卷积单元组成,每个卷积单元的参数都是通过反向传播算法最佳化得到的。卷积运算的目的是提取输入的不同特征,第一层卷积层可能只能提取一些基本特征,更多层的网络能从基本特征中迭代提取更复杂的特征。
2)递归神经网络(Recurrent Neural Network,简称RNN)也是神经网络的一种。递归神经网络可以描述动态时间行为,因为和前馈神经网络接受较特定结构的输入不同,RNN将状态在自身网络中循环传递,因此可以接受更广泛的时间序列结构输入。单纯的RNN因为无法处理随着递归,可能出现权重指数级爆炸或梯度消失的问题,导致RNN难以捕捉长期时间关联。LSTM(Long Short-Term Memory,长短期记忆网络),GRU(Gated Recurrent Units,门控循环单元)是两个用于缓解该问题的RNN变体。
3)Transformer(变换)网络是谷歌提出的一种基于注意力机制的网络结构,它采用的是encoder-decoder(编码器-解码器)结构,并加上注意力机制以及前馈神经网络。一个基于Transformer的可训练的神经网络可以通过堆叠Transformer的形式进行搭建。在很多seq2seq(输入为序列,输出也为序列)任务中取得了非常理想的成绩。
词向量的作用在于为其他的NLP任务(建立语言模型、命名实体识别、对话系统,文本自动摘要等任务)提供合适的词语向量表示。通常情况下,词向量的表示越好,将其应用在实际任务时,可以取得更好的效果。而使用实际任务的效果作为指标,也是词向量表示的评价方法之一。
现有大部分基于神经网络的分布式词向量训练方法都是以语料库中的所有文本集合作为训练数据,而没有与外部实际任务进行相结合,或者在训练一个外部实际任务时,得到词向量的表示。这些方法的缺点有:
1)忽略了多个外部实际任务对词向量训练的影响,词向量可能无法在多个外部任务中取得较好的测试效果。
2)词向量的鲁棒性较低,对词语替换等人为干扰较为敏感。
发明内容
有鉴于此,本发明提供了一种基于多任务学习的词向量训练方法、系统、计算机设备设备及存储介质,其可以提高词向量在多个外部实际任务中的测试效果以及增强词向量表示的鲁棒性。
本发明的第一个目的在于提供一种基于多任务学习的词向量训练方法。
本发明的第二个目的在于提供一种基于多任务学习的词向量训练系统。
本发明的第三个目的在于提供一种计算机设备。
本发明的第四个目的在于提供一种存储介质。
本发明的第一个目的可以通过采取如下技术方案达到:
一种基于多任务学习的词向量训练方法,所述方法包括:
获取训练集;其中,所述训练集包括文本词语序列-命名实体标签序列的配对数据;
搭建语言模型模块和命名实体识别模块,将语言模型模块和命名实体识别模块作为外部模块;
交替训练词向量字典和外部模块;其中,所述词向量字典采用文本词语序列和外部模块的输出进行训练,所述语言模型模块采用词向量字典训练输出的词向量序列进行训练,所述命名实体识别模块采用词向量字典训练输出的词向量序列和命名实体标签序列进行训练。
进一步的,所述语言模型模块包括一个单层长短期记忆网络结构和一个全连接层。
进一步的,所述命名实体识别模块采用变换网络结构中的编码器,包括六个堆叠的编码器;
每个编码器包括一个自注意力层和一个全连接层,最顶层编码器的输出向量再输入一个全连接层和一个softmax层,计算每个标签的概率,并取概率最大的标签作为预测标签。
进一步的,所述语言模型模块的损失函数如下式:
Figure BDA0002001152060000031
其中,N与T分别为mini-batch的样本数量以及每个句子的长度,对于第i个句子xi,根据前j个词语正确预测出下一个词语的概率为
Figure BDA0002001152060000032
进一步的,所述命名实体识别模块的损失函数如下式:
Figure BDA0002001152060000033
其中,N与T分别为mini-batch的样本数量以及每个句子的长度,对于第i个句子xi的第j个词语,正确的标签为
Figure BDA0002001152060000041
模型正确预测出该标签的概率为
Figure BDA0002001152060000042
进一步的,所述词向量字典的参数更新公式如下:
Figure BDA0002001152060000043
其中,θ为词向量字典矩阵参数,LLM为语言模型模块的损失函数,LNER为命名实体识别模块的损失函数;词向量字典利用梯度下降,求出语言模型模块的损失函数和命名实体识别模块的损失函数对θ的偏微分,乘上一个学习系数lr,对θ进行更新。
进一步的,所述外部模块的参数更新公式如下:
Figure BDA0002001152060000044
Figure BDA0002001152060000045
其中,
Figure BDA0002001152060000046
为语言模型模块参数,τ为命名实体识别模型参数,LLM为语言模型模块的损失函数,LNER为命名实体识别模块的损失函数;语言模型模块利用梯度下降,求出语言模型模块的损失函数对
Figure BDA0002001152060000047
的偏微分,乘上一个学习系数lr,对
Figure BDA0002001152060000048
进行更新;命名实体识别模型利用梯度下降,求出命名实体识别模型的损失函数对τ的偏微分,乘上一个学习系数lr,对τ进行更新。
本发明的第二个目的可以通过采取如下技术方案达到:
一种基于多任务学习的词向量训练系统,所述系统包括:
获取单元,用于获取训练集;其中,所述训练集包括文本词语序列-命名实体标签序列的配对数据;
搭建单元,用于搭建语言模型模块和命名实体识别模块,将语言模型模块和命名实体识别模块作为外部模块;
训练单元,用于交替训练词向量字典和外部模块;其中,所述词向量字典采用文本词语序列和外部模块的输出进行训练,所述语言模型模块采用词向量字典训练输出的词向量序列进行训练,所述命名实体识别模块采用词向量字典训练输出的词向量序列和命名实体标签序列进行训练。
本发明的第三个目的可以通过采取如下技术方案达到:
一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现上述的词向量训练方法。
本发明的第四个目的可以通过采取如下技术方案达到:
一种存储介质,存储有程序,所述程序被处理器执行时,实现上述的词向量训练方法。
本发明相对于现有技术具有如下的有益效果:
本发明通过搭建语言模型模块和命名实体识别模块,基于多任务学习,将词向量字典、语言模型模块和命名实体识别模块分为两个阶段进行交替训练,最后可以完成基于多任务的词向量训练,此时词向量字典中存储了训练完毕的词向量,可以提高词向量在多个外部实际任务中的测试效果以及增强词向量表示的鲁棒性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明实施例1的词向量字典的原理图。
图2为本发明实施例1的语言模型模块的原理图。
图3为本发明实施例1的命名实体识别模块的原理图。
图4为本发明实施例1的词向量字典、语言模型模块和命名实体识别模块在训练时的连接图。
图5为本发明实施例1的基于多任务学习的词向量训练方法的流程图。
图6为本发明实施例1的语言模型模块的结构图。
图7为本发明实施例1的命名实体识别模块的结构图。
图8为本发明实施例1的命名实体识别模块中每个编码器的结构图。
图9为本发明实施例2的基于多任务学习的词向量训练系统的结构框图。
图10为本发明实施例3的计算机设备的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
本实施例提供了一种基于多任务学习的词向量训练方法,该方法利用词向量字典、语言模型模块和命名实体识别模块实现,词向量字典、语言模型模块和命名实体识别模块的具体说明如下:
1)词向量字典的输入为待查询的词语的one-hot向量,输出为该词语的词向量表示,词向量字典实际为一个字典矩阵,对于输入one-hot向量,以索引值为1的位置进行查询,得到该词语的词向量表示即可,词向量字典的原理如图1所示。
2)语言模型模块是第一个外部实际任务,即建立语言模型,语言模型是指某个词语序列出现的概率,比如“今天天气不错”的出现概率会高于“天气今天不错”;对于语言模型模块,其输入一个词向量序列,输出下一个最可能出现的词语,语言模型模块的原理如下图2所示。
3)命名实体识别模块是第二个外部实际任务,命名实体识别是指自然语言处理任务中的一项基本任务,它是识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,例如,对于“特朗普是美国总统”的“特朗普”和“美国”都代表一个具体事物,因此都是命名实体。在特定领域中,可以对命名实体进行特殊的规定划分;命名实体识别模块的输入是一个词向量序列,输出另外一个标签序列,分别表示对应位置的词语属于哪个标签,命名实体识别模块的原理如图3所示。
词向量字典、语言模型模块和命名实体识别模块在训练时,其连接图(即整个模型的结构图)如图4所示:
如图5所示,本实施例的词向量训练方法包括以下步骤:
S101、获取训练集。
本实施例的训练集包括文本词语序列-命名实体标签序列的配对数据,文本词语序列记为X集合,命名实体标签序列记为Y集合。
S102、搭建语言模型模块和命名实体识别模块,将语言模型模块和命名实体识别模块作为外部模块。
A、搭建语言模型模块
本实施例的语言模型模块的结构如图6所示,其包括一个单层长短期记忆网络(LSTM)结构和一个全连接层,单层长短期记忆网络包括多个长短期记忆网络单元,其中每个长短期记忆网络单元为512维,其对应一个词向量。
B、搭建命名实体识别模块
本实施例的命名实体识别模块的结构如图7所示,其采用变换(Transformer)网络结构中的编码器,包括六个堆叠的编码器(encoder),每个编码器的结构如图8所示,包括一个自注意力层和一个全连接层;命名实体识别模块中最顶层编码器的输出向量再输入一个全连接层和一个softmax层,计算每个标签的概率,并取概率最大的标签作为预测标签。
搭建语言模型模块和命名实体识别模块搭建完成后,将语言模型模块和命名实体识别模块作为外部模块。
S103、交替训练词向量字典和外部模块。
本实施例的训练分为两个阶段,分别为词向量字典训练阶段和外部模块(语言模型模块和命名实体识别模块)训练阶段。
语言模型模块的损失函数如下式:
Figure BDA0002001152060000071
其中,N与T分别为mini-batch的样本数量以及每个句子的长度,对于第i个句子xi,根据前j个词语(第0个为句子开始的特殊标记)正确预测出下一个词语的概率为
Figure BDA0002001152060000072
命名实体识别模块的损失函数如下式:
Figure BDA0002001152060000073
其中,N与T分别为mini-batch的样本数量以及每个句子的长度,对于第i个句子xi的第j个词语,正确的标签为
Figure BDA0002001152060000074
模型正确预测出该标签的概率为
Figure BDA0002001152060000075
对于词向量字典训练阶段,词向量字典采用文本词语序列和外部模块的输出进行训练,词向量字典的参数更新公式如下:
Figure BDA0002001152060000076
其中,θ为词向量字典矩阵参数;词向量字典利用梯度下降,求出语言模型模块的损失函数和命名实体识别模块的损失函数对θ的偏微分,乘上一个学习系数lr,对θ进行更新。
对于外部模块训练阶段,语言模型模块采用词向量字典训练输出的词向量序列进行训练,命名实体识别模块采用词向量字典训练输出的词向量序列和命名实体标签序列进行训练;外部模块的参数更新公式如下:
Figure BDA0002001152060000077
Figure BDA0002001152060000078
其中,
Figure BDA0002001152060000081
为语言模型模块参数,τ为命名实体识别模型参数;语言模型模块利用梯度下降,求出语言模型模块的损失函数对
Figure BDA0002001152060000082
的偏微分,乘上一个学习系数lr,对
Figure BDA0002001152060000083
进行更新;命名实体识别模型利用梯度下降,求出命名实体识别模型的损失函数对τ的偏微分,乘上一个学习系数lr,对τ进行更新。
上述参数更新采用Adam优化算法,其中学习系数设为1e-3
这样两个阶段进行交替训练,在某一个阶段进行训练时,另一个阶段的模块参数固定不变,这样通过多个迭代的参数轮流更新,三个不同网络不断进行优化,直到训练结束,最后词向量字典中存储了训练完毕的词向量。
本领域技术人员可以理解,实现上述实施例的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,相应的程序可以存储于计算机可读存储介质中。
应当注意,尽管在附图中以特定顺序描述了上述实施例的方法操作,但是这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
实施例2:
如图9所示,本实施例提供了一种基于多任务学习的词向量训练系统,该系统包括获取单元901、搭建单元902和训练单元903,各个单元的具体功能如下:
所述获取单元901,用于获取训练集;其中,所述训练集包括文本词语序列-命名实体标签序列的配对数据。
所述搭建单元902,用于搭建语言模型模块和命名实体识别模块,将语言模型模块和命名实体识别模块作为外部模块。
所述训练单元903,用于交替训练词向量字典和外部模块;其中,所述词向量字典采用文本词语序列和外部模块的输出进行训练,所述语言模型模块采用词向量字典训练输出的词向量序列进行训练,所述命名实体识别模块采用词向量字典训练输出的词向量序列和命名实体标签序列进行训练。
本实施例中各个单元的具体实现可以参见上述实施例1,在此不再一一赘述;需要说明的是,本实施例提供的装置仅以上述各功能单元的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能单元完成,即将内部结构划分成不同的功能单元,以完成以上描述的全部或者部分功能。
实施例3:
本实施例提供了一种计算机设备,该计算机设备可以是服务器、计算机等,如图10所示,其包括通过系统总线1001连接的处理器1002、存储器、输入装置1003、显示器1004和网络接口1005,该处理器用于提供计算和控制能力,该存储器包括非易失性存储介质1006和内存储器1007,该非易失性存储介质1006存储有操作系统、计算机程序和数据库,该内存储器1007为非易失性存储介质中的操作系统和计算机程序的运行提供环境,处理器1002执行存储器存储的计算机程序时,实现上述实施例1的词向量训练方法,如下:
获取训练集;其中,所述训练集包括文本词语序列-命名实体标签序列的配对数据;
搭建语言模型模块和命名实体识别模块,将语言模型模块和命名实体识别模块作为外部模块;
交替训练词向量字典和外部模块;其中,所述词向量字典采用文本词语序列和外部模块的输出进行训练,所述语言模型模块采用词向量字典训练输出的词向量序列进行训练,所述命名实体识别模块采用词向量字典训练输出的词向量序列和命名实体标签序列进行训练。
实施例4:
本实施例提供了一种存储介质,该存储介质为计算机可读存储介质,其存储有计算机程序,所述程序被处理器执行时,处理器执行存储器存储的计算机程序时,实现上述实施例1的词向量训练方法,如下:
获取训练集;其中,所述训练集包括文本词语序列-命名实体标签序列的配对数据;
搭建语言模型模块和命名实体识别模块,将语言模型模块和命名实体识别模块作为外部模块;
交替训练词向量字典和外部模块;其中,所述词向量字典采用文本词语序列和外部模块的输出进行训练,所述语言模型模块采用词向量字典训练输出的词向量序列进行训练,所述命名实体识别模块采用词向量字典训练输出的词向量序列和命名实体标签序列进行训练。
本实施例中所述的存储介质可以是磁盘、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、U盘、移动硬盘等介质。
综上所述,本发明通过搭建语言模型模块和命名实体识别模块,基于多任务学习,将词向量字典、语言模型模块和命名实体识别模块分为两个阶段进行交替训练,最后可以完成基于多任务的词向量训练,此时词向量字典中存储了训练完毕的词向量,可以提高词向量在多个外部实际任务中的测试效果以及增强词向量表示的鲁棒性。
以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明构思加以等同替换或改变,都属于本发明专利的保护范围。

Claims (9)

1.一种基于多任务学习的词向量训练方法,其特征在于,所述方法包括:
获取训练集;其中,所述训练集包括文本词语序列-命名实体标签序列的配对数据;
搭建语言模型模块和命名实体识别模块,将语言模型模块和命名实体识别模块作为外部模块;
交替训练词向量字典和外部模块;其中,所述词向量字典采用文本词语序列和外部模块的输出进行训练,所述语言模型模块采用词向量字典训练输出的词向量序列进行训练,所述命名实体识别模块采用词向量字典训练输出的词向量序列和命名实体标签序列进行训练;
所述词向量字典的参数更新公式如下:
Figure FDA0002479963890000011
其中,θ为词向量字典矩阵参数,LLM为语言模型模块的损失函数,LNER为命名实体识别模块的损失函数;词向量字典利用梯度下降,求出语言模型模块的损失函数和命名实体识别模块的损失函数对θ的偏微分,乘上一个学习系数lr,对θ进行更新。
2.根据权利要求1所述的词向量训练方法,其特征在于,所述语言模型模块包括一个单层长短期记忆网络结构和一个全连接层。
3.根据权利要求1所述的词向量训练方法,其特征在于,所述命名实体识别模块采用变换网络结构中的编码器,包括六个堆叠的编码器;
每个编码器包括一个自注意力层和一个全连接层,最顶层编码器的输出向量再输入一个全连接层和一个softmax层,计算每个标签的概率,并取概率最大的标签作为预测标签。
4.根据权利要求1-3任一项所述的词向量训练方法,其特征在于,所述语言模型模块的损失函数如下式:
Figure FDA0002479963890000012
其中,N与T分别为mini-batch的样本数量以及每个句子的长度,对于第i个句子xi,根据前j个词语正确预测出下一个词语的概率为
Figure FDA0002479963890000013
5.根据权利要求1-3任一项所述的词向量训练方法,其特征在于,所述命名实体识别模块的损失函数如下式:
Figure FDA0002479963890000021
其中,N与T分别为mini-batch的样本数量以及每个句子的长度,对于第i个句子xi的第j个词语,正确的标签为
Figure FDA0002479963890000022
模型正确预测出该标签的概率为
Figure FDA0002479963890000023
6.根据权利要求1-3任一项所述的词向量训练方法,其特征在于,所述外部模块的参数更新公式如下:
Figure FDA0002479963890000024
Figure FDA0002479963890000025
其中,
Figure FDA0002479963890000026
为语言模型模块参数,τ为命名实体识别模型参数,LLM为语言模型模块的损失函数,LNER为命名实体识别模块的损失函数;语言模型模块利用梯度下降,求出语言模型模块的损失函数对
Figure FDA0002479963890000028
的偏微分,乘上一个学习系数lr,对
Figure FDA0002479963890000029
进行更新;命名实体识别模型利用梯度下降,求出命名实体识别模型的损失函数对τ的偏微分,乘上一个学习系数lr,对τ进行更新。
7.一种基于多任务学习的词向量训练系统,其特征在于,所述系统包括:
获取单元,用于获取训练集;其中,所述训练集包括文本词语序列-命名实体标签序列的配对数据;
搭建单元,用于搭建语言模型模块和命名实体识别模块,将语言模型模块和命名实体识别模块作为外部模块;
训练单元,用于交替训练词向量字典和外部模块;其中,所述词向量字典采用文本词语序列和外部模块的输出进行训练,所述语言模型模块采用词向量字典训练输出的词向量序列进行训练,所述命名实体识别模块采用词向量字典训练输出的词向量序列和命名实体标签序列进行训练;
所述词向量字典的参数更新公式如下:
Figure FDA0002479963890000027
其中,θ为词向量字典矩阵参数,LLM为语言模型模块的损失函数,LNER为命名实体识别模块的损失函数;词向量字典利用梯度下降,求出语言模型模块的损失函数和命名实体识别模块的损失函数对θ的偏微分,乘上一个学习系数lr,对θ进行更新。
8.一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现权利要求1-6任一项所述的词向量训练方法。
9.一种存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1-6任一项所述的词向量训练方法。
CN201910213032.2A 2019-03-20 2019-03-20 基于多任务学习的词向量训练方法、系统、设备及介质 Expired - Fee Related CN109992773B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910213032.2A CN109992773B (zh) 2019-03-20 2019-03-20 基于多任务学习的词向量训练方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910213032.2A CN109992773B (zh) 2019-03-20 2019-03-20 基于多任务学习的词向量训练方法、系统、设备及介质

Publications (2)

Publication Number Publication Date
CN109992773A CN109992773A (zh) 2019-07-09
CN109992773B true CN109992773B (zh) 2020-10-27

Family

ID=67129646

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910213032.2A Expired - Fee Related CN109992773B (zh) 2019-03-20 2019-03-20 基于多任务学习的词向量训练方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN109992773B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110851597A (zh) * 2019-10-28 2020-02-28 青岛聚好联科技有限公司 一种基于同类实体替换的语句标注的方法及装置
CN111291564B (zh) * 2020-03-03 2023-10-31 腾讯科技(深圳)有限公司 一种用于词向量获取的模型训练方法、装置和存储介质
CN113779185B (zh) * 2020-06-10 2023-12-29 武汉Tcl集团工业研究院有限公司 一种自然语言模型的生成方法和计算机设备
CN112131864A (zh) * 2020-09-10 2020-12-25 上海交通大学 一种基于自注意机制的中文词向量训练方法
CN112257417A (zh) * 2020-10-29 2021-01-22 重庆紫光华山智安科技有限公司 一种多任务命名实体识别训练方法、介质及终端
CN113139623B (zh) * 2021-05-14 2021-11-09 中国人民解放军91977部队 舰船目标识别方法及装置
CN113342964B (zh) * 2021-06-03 2022-04-19 云南大学 一种基于移动业务的推荐类型确定方法及系统
CN113779997B (zh) * 2021-09-03 2023-10-10 珠海格力电器股份有限公司 实体识别方法、装置、电子设备及存储介质
CN116245107B (zh) * 2023-05-12 2023-08-04 国网天津市电力公司培训中心 电力审计文本实体识别方法、装置、设备及存储介质
CN116502640B (zh) * 2023-06-29 2023-12-12 深圳须弥云图空间科技有限公司 基于上下文的文本表征模型训练方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104881401A (zh) * 2015-05-27 2015-09-02 大连理工大学 一种专利文献聚类方法
CN106202054A (zh) * 2016-07-25 2016-12-07 哈尔滨工业大学 一种面向医疗领域基于深度学习的命名实体识别方法
CN107085800A (zh) * 2017-04-24 2017-08-22 中国科学技术大学 基于众筹平台的多产品供应数量优化方法
CN108038492A (zh) * 2017-11-23 2018-05-15 西安理工大学 一种基于深度学习的感性词向量及情感分类方法
CN108628823A (zh) * 2018-03-14 2018-10-09 中山大学 结合注意力机制和多任务协同训练的命名实体识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102195627B1 (ko) * 2015-11-17 2020-12-28 삼성전자주식회사 통역 모델 생성 장치 및 방법과, 자동 통역 장치 및 방법
CN107220311B (zh) * 2017-05-12 2020-12-08 北京理工大学 一种利用局部嵌入话题建模的文本表示方法
CN108763931B (zh) * 2018-05-28 2021-11-16 上海交通大学 基于Bi-LSTM和文本相似性的漏洞检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104881401A (zh) * 2015-05-27 2015-09-02 大连理工大学 一种专利文献聚类方法
CN106202054A (zh) * 2016-07-25 2016-12-07 哈尔滨工业大学 一种面向医疗领域基于深度学习的命名实体识别方法
CN107085800A (zh) * 2017-04-24 2017-08-22 中国科学技术大学 基于众筹平台的多产品供应数量优化方法
CN108038492A (zh) * 2017-11-23 2018-05-15 西安理工大学 一种基于深度学习的感性词向量及情感分类方法
CN108628823A (zh) * 2018-03-14 2018-10-09 中山大学 结合注意力机制和多任务协同训练的命名实体识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
中文命名实体识别算法研究;谢志宁;《中国优秀硕士学位论文全文数据库》;20180115;正文第1-50页 *
基于混合主题模型的文本蕴涵识别;盛雅琦;《人工智能及识别技术》;20150529;全文 *

Also Published As

Publication number Publication date
CN109992773A (zh) 2019-07-09

Similar Documents

Publication Publication Date Title
CN109992773B (zh) 基于多任务学习的词向量训练方法、系统、设备及介质
US20230100376A1 (en) Text sentence processing method and apparatus, computer device, and storage medium
CN108733792B (zh) 一种实体关系抽取方法
CN111368996B (zh) 可传递自然语言表示的重新训练投影网络
WO2021047286A1 (zh) 文本处理模型的训练方法、文本处理方法及装置
CN112528672B (zh) 一种基于图卷积神经网络的方面级情感分析方法及装置
CN111078836B (zh) 基于外部知识增强的机器阅读理解方法、系统、装置
WO2022007823A1 (zh) 一种文本数据处理方法及装置
US11227128B2 (en) Linguistically rich cross-lingual text event embeddings
WO2021159714A1 (zh) 一种数据处理方法及相关设备
CN109840287A (zh) 一种基于神经网络的跨模态信息检索方法和装置
CN109947931B (zh) 基于无监督学习的文本自动摘要方法、系统、设备及介质
CN110580288B (zh) 基于人工智能的文本分类方法和装置
KR20200129639A (ko) 모델 학습 방법 및 장치
CN111694940A (zh) 一种用户报告的生成方法及终端设备
WO2023137911A1 (zh) 基于小样本语料的意图分类方法、装置及计算机设备
CN113239169A (zh) 基于人工智能的回答生成方法、装置、设备及存储介质
CN112257449A (zh) 命名实体识别方法、装置、计算机设备和存储介质
CN111898636A (zh) 一种数据处理方法及装置
Dai et al. Hybrid deep model for human behavior understanding on industrial internet of video things
CN110889505A (zh) 一种图文序列匹配的跨媒体综合推理方法和系统
CN114492661A (zh) 文本数据分类方法和装置、计算机设备、存储介质
CN116543289B (zh) 一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法
CN109977194B (zh) 基于无监督学习的文本相似度计算方法、系统、设备及介质
Han et al. Generative adversarial networks for open information extraction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20201027

CF01 Termination of patent right due to non-payment of annual fee