CN111428490A - 一种利用语言模型的指代消解弱监督学习方法 - Google Patents

一种利用语言模型的指代消解弱监督学习方法 Download PDF

Info

Publication number
CN111428490A
CN111428490A CN202010212088.9A CN202010212088A CN111428490A CN 111428490 A CN111428490 A CN 111428490A CN 202010212088 A CN202010212088 A CN 202010212088A CN 111428490 A CN111428490 A CN 111428490A
Authority
CN
China
Prior art keywords
word
model
words
language model
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010212088.9A
Other languages
English (en)
Other versions
CN111428490B (zh
Inventor
辛欣
明坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Publication of CN111428490A publication Critical patent/CN111428490A/zh
Application granted granted Critical
Publication of CN111428490B publication Critical patent/CN111428490B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Abstract

本发明涉及一种利用语言模型的指代消解弱监督学习方法,属于自然语言处理中的信息抽取技术领域。所述方法包括:步骤1:数据集的预处理;步骤2:先在少量标注的数据集上训练指代消解模型;步骤3:在大规模无标注数据集上基于多头自注意力机制训练语言模型;步骤4:在无标注和有标注的数据上进行基于指代消解模型输出的弱监督学习,引入对多头自注意力机制特殊设计的损失,将多头自注意力机制中的抽头划分为特殊抽头和普通抽头,分别计算不同的损失。所述方法使特殊抽头具有输出与指代消解模型相似分布概率的能力,提升了指代消解系统的准确度,得到的语言模型和指代消解模型能够扩展现有指代消解模型的使用领域,模型参数具有更好的可解释性。

Description

一种利用语言模型的指代消解弱监督学习方法
技术领域
本发明涉及一种利用语言模型的指代消解弱监督学习方法,属于自然语言处理技术领域。
背景技术
指代消解是指对于给定的文本篇章,分析出文本篇章中所有表示同一实体的词语,实体通常是人或物品。以句子“小李去了法国旅游,他在那边玩得很开心。”为例,句子中的两个代词“他”和“那边”分别表示“小李”和“法国”。代词“他”与“小李”的关系称为“指代”,在这个“指代”关系中具有确切意义的词称为先行词,先行词通常是名词词组,即例句中的“小李”和“法国”;表述会随先行词发生变化的词称为照应语,照应语通常是代词,即例句中的“他”和“那边”。分析代词“他”和“那边”分别与哪些词语有“指代”关系的过程称为指代消解。
指代消解技术是文本摘要和对话问答系统中的关键支撑技术。在上述系统中,用户关心实体间往往散布于文本的不同位置,涉及的实体通常可以有多种不同的表达方式,为了更准确且没有遗漏地从文本中抽取相关信息,必须对其中的指代关系进行消解,以获得相应信息在该文本中的完整描述。例如,在文本摘要系统中,摘要系统会从输入文本中选择若干句能代表文本主旨的语句作为摘要输出,但生成的摘要中可能含有代词,例如“他”,为了保证摘要能够给出明确的信息,此时需要指代消解系统分析出代词“这一计划”所指的具体人物;在购物网站的客服自动问答系统中,经常会遇到“我想投诉这家店铺”等类型的客户诉求,想要解决客户的问题,需要根据前后文和语境推断出代词“这家店铺”具体指哪家店铺。
现有的指代消解方法需要大量人工标注出指代关系的文本数据,训练过程中从数据中随机抽取若干例句输入模型,由双向长短期记忆网络结合上下文提取句子中每一个词的特征变量,然后根据词特征变量计算出该词与其他词存在指代关系的概率,并推断出句子中代词所指的具体实体,再根据推断结果计算模型损失,更新模型参数。
但是在现有指代消解方法的模型训练中,需要先由人工标注大量数据,再将标注好的数据输入模型进行学习,从而获得指代关系的判别器。但是目前公开的指代消解标注数据并不多,尤其在各种不同的特定领域内,少有公开的数据,并且人工标注指代消解数据的成本也较高,如果缺少相关领域的数据进行训练,现有指代消解方法的精确度会大幅下降。另外,现有方法通过神经网络训练指代消解模型的方案,得到的模型解释性不足。
发明内容
本发明的目的在于针对现有指代消解方法受数据缺失影响会导致精确度下降的技术缺陷,提出了一种利用语言模型的指代消解弱监督学习方法。
所述利用语言模型的指代消解弱监督学习方法,包括以下步骤:
步骤1:分别对数据集中的有标注数据和无标注数据进行预处理;
其中,对无标注数据进行的预处理包括分词、词性标注以及生成词向量,对有标注数据进行的处理为词向量处理;
步骤2:基于有标注数据训练指代消解模型A,对于输入的词序列,先生成词序列对应的词向量序列,再由指代消解模型A计算出各词之间的指代关系候选分数,然后由各词之间的指代关系候选分数推断出各词的指代关系,依据推断出的各词指代关系计算出本次训练的指代消解任务损失,最后由损失进行反向传播,更新指代消解模型A中的所有参数;不断重复此步骤,得到训练好的指代消解模型A;
其中,两个词之间的指代关系候选分数表示这两个词表示同一实体的概率;词的指代关系是指该词是否有先行词,以及该词若有先行词,那么具体是输入词序列中的哪个词为先行词;训练好的指代消解模型A能够独立完成指代消解,用于弱监督训练;
步骤2具体包括以下子步骤;
步骤2.1:计算指代关系候选分数;通过(1)计算第i个词与第j个词之间的指代关系候选分数s(i,j):
s(i,j)=coreference(e1,...ej,...,ei...,eM) (1)
其中,指代关系候选分数s(i,j)表示模型A输出的关于第j个词为第i个词的先行词的概率;coreference(·)是指代关系候选函数,对于输入的词向量序列[e1,...ej,...,ei...,eM],返回第j个词为第i个词的先行词的概率;i的取值范围为2到M,j的取值范围为1到i-1;
步骤2.2:推断指代关系;通过指代关系候选分数s(i,j)确定第i个词与第j个词之间的指代关系,具体包括以下子步骤:
步骤2.2.1:推断候选先行词;通过指代关系候选分数s(i,*)确定第i个词与第j个词之间的候选先行词,具体通过(2)计算:
ki=argmax(s(i,*)) (2)
其中,s(i,*)表示s(i,j)由j从2到i-1依次取值所得的集合,即s(i,*)=[s(i,1),...,s(i,i-1)];argmax(·)是取最大值参数函数,该函数的输出是在输入的有序集合中最大值所对应的位置,ki表示对于第i个词,该词可能的先行词为输入词序列中的第ki个词;i的取值范围为2到M,j的取值范围为1到i-1;
步骤2.2.2:推断先行词;通过指代关系候选分数s(i,*)确定第i个词的先行词,具体通过(3)计算:
Figure BDA0002423181830000041
其中,k′i表示对于第i个词,该词先行词为输入词序列中的第k′i个词;当s(i,ki)>0时,k′i=ki,k′i具有实际意义;当s(i,ki)<<0时,k′i=0,k′i不具有实际意义,即对于第i个词,该词没有先行词;i的取值范围为2到M;
步骤2.3:通过(4)计算指代消解任务损失:
Figure BDA0002423181830000042
其中,log(·)是对数函数,Υ(i)表示第i个词的候选先行词词序,即Υ(i)={∈,1,...,i-1),∈表示第i个词没有先行词;GOLD(i)表示由与第i个词指向相同实体的其他词组成的集合;
步骤2.4:进行反向传播,通过(5)计算指代消解模型A中所有参数的更新值:
Figure BDA0002423181830000051
其中,θi表示指代消解模型A中第i个参数;步骤2.1的coreference(·)函数中包含指代消解模型A的所有参数;μ表示学习率,根据经验选择;通过不断进行反向传播,指代消解模型A中的所有参数将不断发生变化,使lossA逐渐变小,最终得到训练好的指代消解模型A;
步骤3:基于无标注数据,采用多头自注意力机制训练语言模型B,在训练过程中,首先对于输入的词序列,随机遮住一个词,即对该词进行掩码处理;然后通过计算各词的编码器特征和解码器特征以提取被遮住词的上下文语义、语境信息,依据上下文语义、语境信息推断出被遮住词,即掩码词;再计算掩码词预测任务的损失;由损失反向传播更新语言模型B中的所有参数,得到训练好的语言模型B;
其中,语言模型是指当句子中的某个词被遮住时,能够通过其他词的信息正确预测出被遮住词的模型;语言模型B中的参数包括编码器和解码器中参与多头自注意力机制运算的映射矩阵;
步骤3体包括以下子步骤:
步骤3.1:掩码处理;对于输入语言模型的词序列,进行掩码处理,具体通过(6)计算:
Figure BDA0002423181830000052
其中,M表示输入词序列的长度,Random(·)是随机数函数,对于输入的数字,返回1到该数字之间的一个随机数;“1到该数字之间”包括该数字;
Figure BDA0002423181830000053
表示用于掩码处理的词向量;
Figure BDA0002423181830000054
是模型的参数,通过训练过程得到具体的取值;
步骤3.2:计算词的编码器特征;对于掩码处理后的词序列,通过多头自注意力机制的编码器部分编码编码器特征;
其中,编码器特征指输入词向量后,由多头自注意力机制的编码器部分输出的特征,步骤3.2具体包括以下子步骤:
步骤3.2.1:通过(7)计算单头自注意力机制输出headi
Figure BDA0002423181830000061
其中,headi表示第i个头的自注意力机制的输出;softmax(·)是指数归一化函数,对于输入进行指数归一化;Q,K,V分别表示自注意力机制中的查询、键、值,Q,K,V三个矩阵相等,都为将输入的词向量按行排列所得的矩阵;
Figure BDA0002423181830000062
分别为与Q,K,V对应的映射矩阵;dk表示矩阵K的列数;
步骤3.2.2:基于headi通过(8)计算多头自注意力机制输出,即编码器特征mei
mei=Concat(head1,...,headH)Wo (8)
其中,head1,...,headH表示由步骤3.2.1计算得到的H个单头自注意力机制输出;编码器特征mei对应第i个词的编码器特征,H是自注意力机制的头数,依据经验选择;Wo为H个拼接后的单头自注意力机制输出向量到多头自注意力机制输出的映射矩阵;
步骤3.3:计算词的解码器特征mdi,该特征由输入词序列对应的词向量和编码器特征,通过多头自注意力机制的解码器计算得到;具体通过(9)计算:
mdi=Decoder([e1,...,ei],[me1,...,mei]) (9)
其中,mdi表示第i个词的解码器特征;[e1,...,ei]由表示从1个词到第i个词的词向量组成的序列;[me1,...,mei]由表示从1个词到第i个词的解码器特征组成的序列;Decoder(·)表示多头自注意力机制的解码器,对于输入的从第1个词到第i个词的词向量组成的序列和从第1个词到第i个词的编码器特征组成的序列,返回第i个词向量对应的多头自注意力机制解码器输出mdi
步骤3.4通过(10)和(11)计算掩码词预测的损失:
Figure BDA0002423181830000071
Figure BDA0002423181830000072
其中,pi是模型输出的对于输入词序列中进行掩码处理的词为输出词典中的第i个词的概率;
Figure BDA0002423181830000073
表示输入词序列中进行掩码处理的词对应的解码器特征的转置;WDi表示从词的解码器特征到输出词典中各个词概率的映射矩阵WD的第i行;N表示语言模型输出词典中的词数;ωi∈{0,1}表示在输出词典中的第i个词是否是输入词序列中进行掩码处理的词,当ωi=0时,表示词典中的第i个词不是输入词序列中进行掩码处理的词;当ωi=1时,表示词典中的第i个词是输入词序列中进行掩码处理的词,即该掩码词在进行掩码处理前是输出词典中的第i;log(·)是对数函数;exp(·)是指数函数;
步骤3.5:进行反向传播,通过(12)计算语言模型B中所有参数的更新值:
Figure BDA0002423181830000081
其中,θi表示语言模型B中第i个参数;μ表示学习率,根据经验选择;通过不断进行反向传播,语言模型B中的所有参数将不断发生变化,使lossB1逐渐变小,最终得到训练好的语言模型B;语言模型B中的所有参数指步骤3.2.1、步骤3.2.2、步骤3.2.3中语言模型B的多头自注意力机制的编码器和解码器中的所有映射矩阵;步骤4:进行语言模型B的弱监督训练,基于无标注数据和有标注数据,语言模型B的注意力分数分布在受到指代消解模型A输出的指代关系候选分数的指导;具体为:在弱监督学习中将语言模型B中自注意力机制的多个抽头划分特殊单头自注意力机制和普通单头自注意力机制;
其中,特殊单头自注意力机制对应的注意力分布在训练中与指代消解模型A的输出逐渐趋向相似,普通单头自注意力机制对应的自注意力分布在训练中学习与指代消解模型的输出逐渐趋向不同,具体的注意力分布训练通过特殊单头自注意力机制和普通单头自注意力机制分别计算不同的交叉熵损失实现;再由该损失进行反向传播,更新语言模型B的参数后,得到具有独立完成指代消解关系计算的能力语言模型B;其中,指代消解模型A的输出指模型A在处理输入词序列后,输出的各词之间的指代关系候选分数;
步骤4:语言模型B的弱监督训练具体包括以下子步骤:
步骤4.1:计算语言模型B对于输入词序列中特殊词的注意力分数,在步骤3.2所述的注意力机制中模型B的具有H个单头注意力机制,其中有Hs个是特殊单头自注意力机制,其余为普通单头自注意力机制;其中Sh=[Sh11,...,Shij,...,Shkk,]表示第九个特殊单头自注意力机制对于输入词序列中特殊词的注意力分数;特殊词是指执行步骤1.2后,词性被标注为名词或代词的词;K指在输入词序列中特殊词的个数,即输入词序列中包含的名词和代词的个数之和;Nh=[Nh11,...,Nhij,...,Nhkk,]表示第九个普通单头自注意力机制对于输入词序列中特殊词的注意力分数,i的取值范围为1到K,j的取值范围为1到i;
步骤4.2:计算指代消解模型A对于输入词序列中特殊词的指代关系候选分数,通过模型A在无标注数据上,由步骤2.1,得到L=[l11,...,lij,...,lkk,],lij表示输入词序列中的第i个特殊词与第j个特殊词的候选关系分数,L表示模型A对于输入词序列中特殊词计算得到的指代关系候选分数序列;K指在输入词序列中特殊词的个数,即输入词序列中包含的名词和代词的个数之和;
步骤4.3:通过(13)计算语言模型B弱监督训练的损失lossB2
Figure BDA0002423181830000091
步骤4.4:通过(14)计算语言模型B的训练总损失lossB
lossB=αlossB1+(1-α)lossB2 (14)
其中,α是调节两个损失的超参数;训练总损失lossB由语言模型B的掩码词预测损失lossB1和语言模型B弱监督训练的损失lossB2按一定比例加权计算得到;
步骤4.5:进行反向传播,通过(15)计算语言模型B中所有参数的更新值:
Figure BDA0002423181830000101
其中,θi表示语言模型B中第i个参数;μ表示学习率根据经验选择;通过不断进行反向传播,语言模型B中的所有参数将不断发生变化,使lossB逐渐变小,最终得到训练好的具有独立完成指代消解关系计算的能力的语言模型B;步骤4.6:模型A、B交替迭代训练,具体包括以下子步骤:
步骤4.6.1:从有标注数据中随机一个抽取句子输入指代消解模型A,由步骤2计算lossA,再进行反向传播迭代,更新指代消解模型A中的所有参数;
步骤4.6.2:从无标注数据中随机抽取一个句子输入指代语言模型B,由步骤3.4计算lossB1,并由步骤4.1计算语言模型B输出的各特殊词词之间的注意力分数;再由步骤4.2计算指代消解模型A对于该输入词序列输出的各特殊词词之间的指代关系候选分数s(i,j),再由步骤4.4计算lossB;最后进行反向传播迭代,更新语言模型B中的所有参数。
步骤4.6.3:不断重复步骤4.6.1与步骤4.6.2,直到指代消解模型A的损失lossA<εA且语言模型B的损失lossB<εB
其中,εA和εB分别是指代消解模型A和语言模型B的训练停止界限,依据经验选取;
有益效果
本发明是一种利用语言模型的指代消解弱监督方法,与现有技术相比,具有如下有益效果:
1.所述方法针对现有方法在数据不足时精确度下降的技术缺陷,引入在未标注数据上训练语言模型,然后进行弱监督训练的方法,提升了指代消解系统的准确度,得到的语言模型和指代消解模型能够扩展现有指代消解模型的使用领域,具有更强的泛用性;
2.所述方法针对现有方法模型可解释性不足的问题,引入对多头自注意力机制特殊设计的损失,将多头自注意力机制中的抽头划分为特殊抽头和普通抽头,分别计算不同的损失,使特殊抽头具有输出与指代消解模型相似分布概率的能力,提高了模型参数的可解释性。
附图说明
图1是本发明一种利用语言模型的指代消解弱监督学习方法的流程图;
图2是本发明模型训练损失计算流程图;
图3是本发明中指代消解模型A在少量标注数据上的训练演示;
图4是本发明中语言模型B在大规模无标注数据上的训练演示。
具体实施方式
下面结合具体实施例1以及附图1、附图2、附图3、附图4对本发明一种利用语言模型的指代消解弱监督学习方法进行细致阐述。
实施例1
本实施例阐述了本发明所述的一种利用语言模型的指代消解弱监督方法中的具体实施。
图1所示,是所述方法的流程图,训练过程中,轮流从有标注和无标注的数据中随机抽取句子输入模型。
具体实施时,无标注数据往往是大规模的;小规模的数据指包含千数量级的训练文本篇章,即为数据中有几千篇文本,每篇文本的篇幅约为几百字;大规模的数据是指数据中的文本为百万级以上,其中的每篇文本的篇幅也约为几百字;
有标注的数据中已经包含了人工标注的分词和词性的结果,所以仅对其进行生成词向量的处理。
图2所示,是所述方法所包含的三种损失的计算流程。
首先从有标注的指代消解数据中随机抽取的一个句子,有标注即该句子已人工进行分词,已被人工标注出具有指代关系的簇;本实施例以“史密斯/去了/法国/旅游/,/他/在/当地/玩得/很/开心/。”为例;此时:
x=[x1,x2,...,xM]=
[史密斯,去了,法国,旅游,,,他,在,当地,玩,很,开心,。],Cluster=[[史密斯,他]];Cluster是表示人工标注的该句子的指代消解簇,Cluster是二维元组,该元组第一维的维度即为该句子中有几个指代消解簇,该元组第二维的维度即为每个指代消解簇中词的个数,属于同一个指代消解簇的词在句子中表示同一个实体,即该句子的Cluster元组中第一维的维度是1,表示该句子中存在一个指代消解簇,该元组中唯一簇的维度是2,分别是″史密斯″和″他″,表示该句子中的″史密斯″和″他″皆表示同一个实体,实体指人物或物品,M=12,M表示句子中词的个数;
步骤1:数据预处理,对于已标注的数据,使用词嵌入技术,将句子中的每个词转化为其嵌入向量,具体包括以下子步骤;
步骤1.1:由BERT模型生成各词中每个字的字向量,即对于词″史密斯″,由BERT模型分别生成史″、″密、″斯″三个字对应的字向量,对于输入句子中的其他词,也进行相应的处理;
步骤1.2:将由BERT模型生成字向量进行算术平均,计算得到词向量,即对于词″史密斯″,由步骤B.1计算得到″史″、″密、″斯″三个字对应的字向量,现将这三个字向量进行算术平均的结果作为词″史密斯″的词向量;
步骤2:计算各词之间的指代关系候选分数,具体包括以下子步骤:
步骤2.1:计算各词之间的指代关系候选分数s(i,j),如果s(i,j)>0则表示模型判断“输入序列中的第j个词是第i个词的先行词”具有可能性,即在本例中″他″和″史密斯″这一对词所对应的先行词候选分数为s(6,1),如果s(6,1)>0则表示模型判断″他″和″史密斯″具有指向相同实体的可能性;
其中,步骤1到步骤2.1如图3所示;步骤3按照end2end模型进行计算,end2end模型引用自以下文献;
Lee K,He L,Zettlemoyer L.Higher-order Coreference Resolution withCoarse-to-fine Inference[J].2018..
步骤2.2:推断各词的指代关系;对于一个词,如果它与某一个在它之前出现的词之间的指代关系候选分数最大且大于零,则该词为这个词的先行词,在本例中,指代消解模型A对于词″他″与其之前词的指代关系候选分数分别为s(6,1)=0.7,s(6,2)=0.06,s(6,3)=0.12,s(6,4)=0.11,s(6,5)=0.01,由s(6,1)为其中的最大项,可推理出指代消解模型A判断″他″和″史密斯″指向相同实体;
步骤2.3:计算指代消解任务lossA,进行反向传播迭代,更新模型A的参数;
至此,模型A的一次训练过程结束,轮换为进行模型B的训练,具体包括以下子步骤:
从无标注的大规模数据中随机抽取的一个句子,无标注即该句子无人工标注相关结果,没有人工分词结果,没有人工标注的指代消解簇;例如,输入的句子为“小亮赢了比赛,他很开心。”,与步骤A不同,无标注的数据除了句子文本,不包含其他信息;
重复步骤1:进行无标注数据句子的预处理,具体包括以下子步骤:
步骤1.1:对输入的句子进行分词,得到X=[x1,x2,...,xM]=[小亮,赢,了,比赛,,,他,很开心,。],M=8,M为句子长度;
步骤1.2:对分词后的句子进行词性标注,对于本例中的句子,各词的词性分别为:小亮(名词)、赢(动词)、了(助动词)、比赛(名词)、,(标点)、他(代词)、很开心(形容词)、。(标点);
步骤1:生成词向量,通过嵌入技术,将句子中的每个词转化为其嵌入向量;
步骤3:训练语言模型B,具体包括以下子步骤;
步骤3.1:从输入词序列中随机选取一个词进行掩码处理,本例中″他″被随机选中,将表示″他″的词向量被重置为掩码词向量
Figure BDA0002423181830000152
进行掩码处理,即
Figure BDA0002423181830000151
e6表示词″他″在进行掩码处理前对应的词向量,其他词的词向量保持不变,进行掩码处理后,语言模型A将无法直接获得关于″他″这一词的语音信息,需要借助句子中其他词的语义信息判断出进行掩码处理的词原本内容;
步骤3.2:参考Transformer多头自注意力机制,对于输入的词向量序列,计算单头自注意力机制输出headij,i表示该自注意力机制的头数,j表示输出与第i个词相对应;计算多头自注意力机制编码器部分的输出mei,e表示编码器部分的输出,i表示与第i个词相对应;
步骤3.3:参考Transformer多头自注意力机制,计算多头自注意力机制解码器部分的输出mdi,d表示解码器部分的输出,i表示与第i个词相对应;
其中,步骤8和步骤9按照Transformer模型进行计算,Transformer模型引用自以下文献;
Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Advances in neural information processing systems.2017:5998-6008.
步骤3.4计算lossB1;通过模型B预测输入词序列中进行掩码处理的词的原本内容,在本例中″他″是需要语言模型B进行预测的词,由步骤3.3得到″他″对应的解码器向量md6,再将解码器向量md6由单层前向神经网络映射至输出词典,得到语言模型B对于进行掩码处理的词的原本内容的预测概率,并由此概率计算lossB1;输出词典表示语言模型B进行掩码词预测时的输出空间,例如进行掩码处理的词可能是两万个词中的任意一个,那么这两万个词就组成了掩码词预测的输出词典,在本例中输出词典是数据集中所有词的集合;
步骤4:进行语言模型B和指代消解模型A的弱监督学习,图4中展示了进行弱监督训练时,语言模型A的注意力分数分布向指代消解模型B的指代关系候选分数分布的学习过程;在联合训练前,训练好的指代消解模型A具有独立完成指代消解关系计算的能力,但受到标注数据少的影响,精确度和使用领域的泛用性都不是最佳;基于大规模无标注数据训练好的语言模型具有很好的获取语句上下文信息相关特征的能力,词的上下文信息对进行指代消解关系的推断有重要作用,但此时语言模型B不具有独立完成指代消解关系计算的能力;弱监督具体包括以下子步骤:
步骤4.1:计算语言模型B对于输入词序列中特殊词的注意力分数,由步骤3.3可计算得到在Transformer多头自注意力机制中各词之间注意力分数,然后仅筛选出与名词和代词相关的注意力分数,即在本例中,只筛选出各词与″小亮″和″他″之间的注意力分数;
步骤4.2:由指代消解模型A在该输入词序列上执行步骤2.1计算得到词间的指代关系候选分数s(i,j);然后筛选输入词序列中对应的指代关系候选分数;即在本例中,只筛选出输入词序列中其余各词与″小亮″和″他″之间的指代关系候选分数;
步骤4.3:由步骤4.1和步骤4.2的注意力分数和指代关系候选分数计算交叉熵损失得到lossB2,然后与lossB1按一定加权相加得到lossB,在本例中lossB=0.7lossB1+0.3lossB2;然后进行反向传播迭代,更新模型B的参数;由以上步骤得到的语言模型B具有进行指代消解任务的能力。
其中,在进行lossB2的计算时,所述方法针对现有方法模型可解释性不足的问题,引入对多头自注意力机制特殊设计的损失,将多头自注意力机制中的抽头划分为特殊抽头和普通抽头,分别计算不同的损失,使特殊抽头具有输出与指代消解模型相似分布概率的能力,提高了模型参数的可解释性。
所述方法针对现有方法在数据不足时精确度下降的技术缺陷,引入在大规模未标注数据进行语言模型,然后进行弱监督训练的方法,提升了指代消解系统的准确度,得到的语言模型和指代消解模型能够扩展现有指代消解模型的使用领域,具有更强的泛用性。
以上所述为本发明的较佳实施例而已,本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。

Claims (10)

1.一种利用语言模型的指代消解弱监督学习方法,其特征在于:包括以下步骤:
步骤1:分别对数据集中的有标注数据和无标注数据进行预处理;
其中,对无标注数据进行的预处理包括分词、词性标注以及生成词向量,对有标注数据进行的处理为词向量处理;
步骤2:基于有标注数据训练指代消解模型A,对于输入的词序列,先生成词序列对应的词向量序列,再由指代消解模型A计算出各词之间的指代关系候选分数,然后由各词之间的指代关系候选分数推断出各词的指代关系,依据推断出的各词指代关系计算出本次训练的指代消解任务损失,最后由损失进行反向传播,更新指代消解模型A中的所有参数;不断重复此步骤,得到训练好的指代消解模型A;
步骤2中,两个词之间的指代关系候选分数表示这两个词表示同一实体的概率;词的指代关系是指该词是否有先行词,以及该词若有先行词,那么具体是输入词序列中的哪个词为先行词;训练好的指代消解模型A能够独立完成指代消解,用于弱监督训练;
步骤2具体包括以下子步骤;
步骤2.1:计算指代关系候选分数;
步骤2.2:推断指代关系;通过指代关系候选分数确定词与词之间的指代关系;
步骤2.3:计算指代消解任务损失;
步骤2.4:进行反向传播计算指代消解模型A中所有参数的更新值;
步骤3:基于无标注数据,采用多头自注意力机制训练语言模型B,在训练过程中,首先对于输入的词序列,随机遮住一个词,即对该词进行掩码处理;然后通过计算各词的编码器特征和解码器特征以提取被遮住词的上下文语义、语境信息,依据上下文语义、语境信息推断出被遮住词,即掩码词;再计算掩码词预测任务的损失;由损失反向传播更新语言模型B中的所有参数,得到训练好的语言模型B;
其中,语言模型是指当句子中的某个词被遮住时,能够通过其他词的信息正确预测出被遮住词的模型;语言模型B中的参数包括编码器和解码器中参与多头自注意力机制运算的映射矩阵;
步骤3体包括以下子步骤:
步骤3.1:掩码处理;对于输入语言模型的词序列,进行掩码处理;
步骤3.2:计算词的编码器特征;对于掩码处理后的词序列,通过多头自注意力机制的编码器部分编码编码器特征;
其中,编码器特征指输入词向量后,由多头自注意力机制的编码器部分输出的特征;
步骤3.3:计算词的解码器特征mdi,该特征由输入词序列对应的词向量和编码器特征,通过多头自注意力机制的解码器计算得到;
步骤3.4计算掩码词预测的损失:
步骤3.5:进行反向传播,计算语言模型B中所有参数的更新值;
步骤4:语言模型B的弱监督训练具体包括以下子步骤:
步骤4.1:计算语言模型B对于输入词序列中特殊词的注意力分数,在步骤3.2所述的注意力机制中模型B的具有H个单头注意力机制,其中有Hs个是特殊单头自注意力机制,其余为普通单头自注意力机制;其中Sh=[Sh11,...,Shik,...,Shkk,]表示第h个特殊单头自注意力机制对于输入词序列中特殊词的注意力分数;特殊词是指执行步骤1.2后,词性被标注为名词或代词的词;K指在输入词序列中特殊词的个数,即输入词序列中包含的名词和代词的个数之和;Nh=[Nh11,...,Nhij,...,Nhkk,]表示第h个普通单头自注意力机制对于输入词序列中特殊词的注意力分数,i的取值范围为1到K,j的取值范围为1到i;
步骤4.2:计算指代消解模型A对于输入词序列中特殊词的指代关系候选分数,通过模型A在无标注数据上,由步骤2.1,得到L=[l11,...,lij,...,lkk,],lij表示输入词序列中的第i个特殊词与第j个特殊词的候选关系分数,L表示模型A对于输入词序列中特殊词计算得到的指代关系候选分数序列;K指在输入词序列中特殊词的个数,即输入词序列中包含的名词和代词的个数之和;
步骤4.3:通过(1)计算语言模型B弱监督训练的损失lossB2
Figure FDA0002423181820000031
步骤4.4:通过(2)计算语言模型B的训练总损失lossB
lossB=αlossB1+(1-α)lossB2 (2)
其中,α是调节两个损失的超参数;训练总损失lossB由语言模型B的掩码词预测损失lossB1和语言模型B弱监督训练的损失lossB2按一定比例加权计算得到;
步骤4.5:进行反向传播,通过(3)计算语言模型B中所有参数的更新值:
Figure FDA0002423181820000041
其中,θi表示语言模型B中第i个参数;μ表示学习率根据经验选择;通过不断进行反向传播,语言模型B中的所有参数将不断发生变化,使lossB逐渐变小,最终得到训练好的具有独立完成指代消解关系计算的能力的语言模型B;步骤4.6:模型A、B交替迭代训练,具体包括以下子步骤:
步骤4.6.1:从有标注数据中随机一个抽取句子输入指代消解模型A,由步骤2计算lossA,再进行反向传播迭代,更新指代消解模型A中的所有参数;
步骤4.6.2:从无标注数据中随机抽取一个句子输入指代语言模型B,由步骤3.4计算lossB1,并由步骤4.1计算语言模型B输出的各特殊词词之间的注意力分数;再由步骤4.2计算指代消解模型A对于该输入词序列输出的各特殊词词之间的指代关系候选分数s(i,j),再由步骤4.4计算lossB;最后进行反向传播迭代,更新语言模型B中的所有参数。
步骤4.6.3:不断重复步骤4.6.1与步骤4.6.2,直到指代消解模型A的损失lossA<εA且语言模型B的损失lossB<εB
其中,εA和εB分别是指代消解模型A和语言模型B的训练停止界限,依据经验选取。
2.根据权利要求1所述的一种利用语言模型的指代消解弱监督学习方法,其特征在于:步骤2.1通过(4)计算第i个词与第j个词之间的指代关系候选分数s(i,j):
s(i,j)=coreference(e1,…ej,…,ei...,eM) (4)
其中,指代关系候选分数s(i,j)表示模型A输出的关于第j个词为第i个词的先行词的概率;coreference(·)是指代关系候选函数,对于输入的词向量序列[e1,...ei,...,ei...,eM],返回第j个词为第i个词的先行词的概率;i的取值范围为2到M,j的取值范围为1到i-1。
3.根据权利要求1所述的一种利用语言模型的指代消解弱监督学习方法,其特征在于:步骤2.2具体包括以下子步骤:
步骤2.2.1:推断候选先行词;通过指代关系候选分数s(i,*)确定第i个词与第j个词之间的候选先行词,具体通过(5)计算:
ki=argmax(s(i,*)) (5)
其中,s(i,*)表示s(i,j)由j从2到i-1依次取值所得的集合,即s(i,*)=[s(i,1),...,s(i,i-1)];argmax(·)是取最大值参数函数,该函数的输出是在输入的有序集合中最大值所对应的位置,ki表示对于第i个词,该词可能的先行词为输入词序列中的第ki个词;i的取值范围为2到M,j的取值范围为1到i-1;
步骤2.2.2:推断先行词;通过指代关系候选分数s(i,*)确定第i个词的先行词,具体通过(6)计算:
Figure FDA0002423181820000061
其中,k′i表示对于第i个词,该词先行词为输入词序列中的第k′i个词;当s(i,ki)>0时,k′i=ki,k′i具有实际意义;当s(i,ki)<<0时,k′i=0,k′i不具有实际意义,即对于第i个词,该词没有先行词;i的取值范围为2到M。
4.根据权利要求1所述的一种利用语言模型的指代消解弱监督学习方法,其特征在于:步骤2.3具体通过(7):
Figure FDA0002423181820000062
其中,log(·)是对数函数,Υ(i)表示第i个词的候选先行词词序,即Υ(i)={∈,1,...,i-1},∈表示第i个词没有先行词;GOLD(i)表示由与第i个词指向相同实体的其他词组成的集合。
5.根据权利要求1所述的一种利用语言模型的指代消解弱监督学习方法,其特征在于:步骤2.4具体通过(8)计算指代消解模型A中所有参数的更新值:
Figure FDA0002423181820000063
其中,θi表示指代消解模型A中第i个参数;步骤2.1的coreference(·)函数中包含指代消解模型A的所有参数;μ表示学习率,根据经验选择;通过不断进行反向传播,指代消解模型A中的所有参数将不断发生变化,使lossA逐渐变小,最终得到训练好的指代消解模型A。
6.根据权利要求1所述的一种利用语言模型的指代消解弱监督学习方法,其特征在于:步骤3.1掩码处理,具体通过(9)计算:
Figure FDA0002423181820000071
其中,M表示输入词序列的长度,Random(·)是随机数函数,对于输入的数字,返回1到该数字之间的一个随机数;“1到该数字之间”包括该数字;
Figure FDA0002423181820000072
表示用于掩码处理的词向量;
Figure FDA0002423181820000073
是模型的参数,通过训练过程得到具体的取值。
7.根据权利要求1所述的一种利用语言模型的指代消解弱监督学习方法,其特征在于:步骤3.2具体包括以下子步骤:
步骤3.2.1:通过(10)计算单头自注意力机制输出headi
Figure FDA0002423181820000074
其中,headi表示第i个头的自注意力机制的输出;softmax(·)是指数归一化函数,对于输入进行指数归一化;Q,K,V分别表示自注意力机制中的查询、键、值,Q,K,V三个矩阵相等,都为将输入的词向量按行排列所得的矩阵;
Figure FDA0002423181820000075
分别为与Q,K,V对应的映射矩阵;dk表示矩阵K的列数;
步骤3.2.2:基于headi通过(11)计算多头自注意力机制输出,即编码器特征mei
mei=Concat(head1,...,headH)Wo (11)
其中,head1,...,headH表示由步骤3.2.1计算得到的H个单头自注意力机制输出;编码器特征mei对应第i个词的编码器特征,H是自注意力机制的头数,依据经验选择;Wo为H个拼接后的单头自注意力机制输出向量到多头自注意力机制输出的映射矩阵。
8.根据权利要求1所述的一种利用语言模型的指代消解弱监督学习方法,其特征在于:步骤3.3中编码器特征具体通过(12)计算:
mdi=Decoder([e1,...,ei],[me1,…,mei]) (12)
其中,mdi表示第i个词的解码器特征;[e1,...,ei]由表示从1个词到第i个词的词向量组成的序列;[me1,...,mei]由表示从1个词到第i个词的解码器特征组成的序列;Decoder(·)表示多头自注意力机制的解码器,对于输入的从第1个词到第i个词的词向量组成的序列和从第1个词到第i个词的编码器特征组成的序列,返回第i个词向量对应的多头自注意力机制解码器输出mdi
9.根据权利要求1所述的一种利用语言模型的指代消解弱监督学习方法,其特征在于:步骤3.4通过(13)和(14)计算掩码词预测的损失
Figure FDA0002423181820000081
Figure FDA0002423181820000082
其中,pi是模型输出的对于输入词序列中进行掩码处理的词为输出词典中的第i个词的概率;
Figure FDA0002423181820000083
表示输入词序列中进行掩码处理的词对应的解码器特征的转置;WDi表示从词的解码器特征到输出词典中各个词概率的映射矩阵WD的第i行;N表示语言模型输出词典中的词数;ωi∈{0,1}表示在输出词典中的第i个词是否是输入词序列中进行掩码处理的词,当ωi=0时,表示词典中的第i个词不是输入词序列中进行掩码处理的词;当ωi=1时,表示词典中的第i个词是输入词序列中进行掩码处理的词,即该掩码词在进行掩码处理前是输出词典中的第i;log(·)是对数函数;exp(·)是指数函数。
10.根据权利要求1所述的一种利用语言模型的指代消解弱监督学习方法,其特征在于:步骤3.5中,特殊单头自注意力机制对应的注意力分布在训练中与指代消解模型A的输出逐渐趋向相似,普通单头自注意力机制对应的自注意力分布在训练中学习与指代消解模型的输出逐渐趋向不同,具体的注意力分布训练通过特殊单头自注意力机制和普通单头自注意力机制分别计算不同的交叉熵损失实现;再由该损失进行反向传播,更新语言模型B的参数后,得到具有独立完成指代消解关系计算的能力语言模型B;其中,指代消解模型A的输出指模型A在处理输入词序列后,输出的各词之间的指代关系候选分数。
CN202010212088.9A 2020-01-17 2020-03-24 一种利用语言模型的指代消解弱监督学习方法 Active CN111428490B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2020100506540 2020-01-17
CN202010050654 2020-01-17

Publications (2)

Publication Number Publication Date
CN111428490A true CN111428490A (zh) 2020-07-17
CN111428490B CN111428490B (zh) 2021-05-18

Family

ID=71549041

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010212088.9A Active CN111428490B (zh) 2020-01-17 2020-03-24 一种利用语言模型的指代消解弱监督学习方法

Country Status (1)

Country Link
CN (1) CN111428490B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633014A (zh) * 2020-12-11 2021-04-09 厦门渊亭信息科技有限公司 一种基于神经网络的长文本指代消解方法和装置
CN112926344A (zh) * 2021-03-13 2021-06-08 中国科学院新疆理化技术研究所 基于词向量替换数据增强的机器翻译模型训练方法、装置、电子设备及存储介质
CN113221569A (zh) * 2021-05-27 2021-08-06 中国人民解放军军事科学院国防工程研究院工程防护研究所 一种毁伤试验文本信息抽取方法
CN113971407A (zh) * 2021-12-23 2022-01-25 深圳佑驾创新科技有限公司 语义特征提取方法及计算机可读存储介质
WO2022036616A1 (zh) * 2020-08-20 2022-02-24 中山大学 一种基于低标注资源生成可推理问题的方法和装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101446943A (zh) * 2008-12-10 2009-06-03 苏州大学 一种中文处理中基于语义角色信息的指代消解方法
US20110106807A1 (en) * 2009-10-30 2011-05-05 Janya, Inc Systems and methods for information integration through context-based entity disambiguation
CN104008160A (zh) * 2014-05-29 2014-08-27 吴春尧 一种实现并行话题控制的模糊推理聊天机器人方法和系统
CN105589844A (zh) * 2015-12-18 2016-05-18 北京中科汇联科技股份有限公司 一种用于多轮问答系统中缺失语义补充的方法
CN106997346A (zh) * 2017-06-05 2017-08-01 深圳市唯特视科技有限公司 一种基于无监督方式对教学视频进行指代消解的方法
CN108595408A (zh) * 2018-03-15 2018-09-28 中山大学 一种基于端到端神经网络的指代消解方法
CN108628828A (zh) * 2018-04-18 2018-10-09 国家计算机网络与信息安全管理中心 一种基于自注意力的观点及其持有者的联合抽取方法
CN109446534A (zh) * 2018-09-21 2019-03-08 清华大学 机器翻译方法及装置
CN110134944A (zh) * 2019-04-08 2019-08-16 国家计算机网络与信息安全管理中心 一种基于强化学习的指代消解方法
US10418032B1 (en) * 2015-04-10 2019-09-17 Soundhound, Inc. System and methods for a virtual assistant to manage and use context in a natural language dialog
CN110413996A (zh) * 2019-07-15 2019-11-05 阿里巴巴集团控股有限公司 构造零指代消解语料的方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101446943A (zh) * 2008-12-10 2009-06-03 苏州大学 一种中文处理中基于语义角色信息的指代消解方法
US20110106807A1 (en) * 2009-10-30 2011-05-05 Janya, Inc Systems and methods for information integration through context-based entity disambiguation
CN104008160A (zh) * 2014-05-29 2014-08-27 吴春尧 一种实现并行话题控制的模糊推理聊天机器人方法和系统
US10418032B1 (en) * 2015-04-10 2019-09-17 Soundhound, Inc. System and methods for a virtual assistant to manage and use context in a natural language dialog
CN105589844A (zh) * 2015-12-18 2016-05-18 北京中科汇联科技股份有限公司 一种用于多轮问答系统中缺失语义补充的方法
CN106997346A (zh) * 2017-06-05 2017-08-01 深圳市唯特视科技有限公司 一种基于无监督方式对教学视频进行指代消解的方法
CN108595408A (zh) * 2018-03-15 2018-09-28 中山大学 一种基于端到端神经网络的指代消解方法
CN108628828A (zh) * 2018-04-18 2018-10-09 国家计算机网络与信息安全管理中心 一种基于自注意力的观点及其持有者的联合抽取方法
CN109446534A (zh) * 2018-09-21 2019-03-08 清华大学 机器翻译方法及装置
CN110134944A (zh) * 2019-04-08 2019-08-16 国家计算机网络与信息安全管理中心 一种基于强化学习的指代消解方法
CN110413996A (zh) * 2019-07-15 2019-11-05 阿里巴巴集团控股有限公司 构造零指代消解语料的方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HONGLIANG FEI ET AL.: "End-to-end Deep Reinforcement Learning Based Coreference Resolution", 《PROCEEDINGS OF THE 57TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *
KENTON LEE ET AL.: "Higher-order Coreference Resolution with Coarse-to-fine Inference", 《ARXIV》 *
赵国荣 等: "一种基于组块分析的共现词提取方法", 《情报科学》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022036616A1 (zh) * 2020-08-20 2022-02-24 中山大学 一种基于低标注资源生成可推理问题的方法和装置
CN112633014A (zh) * 2020-12-11 2021-04-09 厦门渊亭信息科技有限公司 一种基于神经网络的长文本指代消解方法和装置
CN112633014B (zh) * 2020-12-11 2024-04-05 厦门渊亭信息科技有限公司 一种基于神经网络的长文本指代消解方法和装置
CN112926344A (zh) * 2021-03-13 2021-06-08 中国科学院新疆理化技术研究所 基于词向量替换数据增强的机器翻译模型训练方法、装置、电子设备及存储介质
CN112926344B (zh) * 2021-03-13 2023-11-17 中国科学院新疆理化技术研究所 基于词向量替换数据增强的机器翻译模型训练方法、装置、电子设备及存储介质
CN113221569A (zh) * 2021-05-27 2021-08-06 中国人民解放军军事科学院国防工程研究院工程防护研究所 一种毁伤试验文本信息抽取方法
CN113971407A (zh) * 2021-12-23 2022-01-25 深圳佑驾创新科技有限公司 语义特征提取方法及计算机可读存储介质

Also Published As

Publication number Publication date
CN111428490B (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
CN111428490B (zh) 一种利用语言模型的指代消解弱监督学习方法
CN109344236B (zh) 一种基于多种特征的问题相似度计算方法
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN110110062B (zh) 机器智能问答方法、装置与电子设备
CN110737758A (zh) 用于生成模型的方法和装置
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
Svoboda et al. New word analogy corpus for exploring embeddings of Czech words
CN112287090A (zh) 一种基于知识图谱的金融问题反问方法及系统
Habib et al. An exploratory approach to find a novel metric based optimum language model for automatic bangla word prediction
CN110347833B (zh) 一种多轮对话的分类方法
CN111723583B (zh) 基于意图角色的语句处理方法、装置、设备及存储介质
CN113705207A (zh) 语法错误识别方法及装置
Han et al. Lexicalized neural unsupervised dependency parsing
CN116108840A (zh) 一种文本细粒度情感分析方法、系统、介质和计算设备
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN114676699A (zh) 实体情感分析方法、装置、计算机设备和存储介质
CN114896973A (zh) 一种文本处理方法、装置及电子设备
CN110633363B (zh) 一种基于nlp和模糊多准则决策的文本实体推荐方法
Alhijawi et al. Novel textual entailment technique for the Arabic language using genetic algorithm
CN113761875A (zh) 事件抽取方法、装置、电子设备及存储介质
CN113780418A (zh) 一种数据的筛选方法、系统、设备和存储介质
CN112347784A (zh) 一种结合多任务学习的跨文档实体识别方法
CN112329478A (zh) 一种构建因果关系确定模型的方法、装置和设备
CN111815426A (zh) 一种涉及金融投研的数据处理方法及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant