CN111967258B - 一种构建共指消解模型的方法、共指消解的方法和介质 - Google Patents
一种构建共指消解模型的方法、共指消解的方法和介质 Download PDFInfo
- Publication number
- CN111967258B CN111967258B CN202010667443.1A CN202010667443A CN111967258B CN 111967258 B CN111967258 B CN 111967258B CN 202010667443 A CN202010667443 A CN 202010667443A CN 111967258 B CN111967258 B CN 111967258B
- Authority
- CN
- China
- Prior art keywords
- text
- word
- model
- coreference
- coreference resolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种构建共指消解模型的方法、共指消解的方法和介质,所述方法包括A1、构建初始共指消解模型,所述初始共指消解模型包括预训练模块、文段向量模块、指称词判断模块和共指判断模块,其中,所述预训练模块采用预训练的XLNet模型,所述指称词判断模块包括第一前馈网络,所述共指判断模块包括第二前馈网络;A2、获取包括多个句子的训练数据集,所述训练数据集带有人工标注的共指关系;A3、用所述训练数据集对初始共指消解模型进行多轮训练至其收敛获得共指消解模型。本发明实施例的技术方案可以提升共指消解过程对于长距离依赖的共指关系的判断性能。
Description
技术领域
本发明涉及自然语言处理领域,具体来说,涉及共指消解技术领域,更具体地说,涉及一种构建共指消解模型的方法、共指消解的方法和介质。
背景技术
在自然语言中用不同的表述来指代同一实体很常见。例如,代词常用语代替名称,名词缩写用于代替名词全称。两个语言表述如果有相同的指代对象则可称为共指。换句话说,如果两者指代相同的实体则可称为共指。实体是指文本中具有特定意义的事物名称或者符号,如人名、地名、机构名、日期、专有名词等。
共指消解,是指对文本进行处理以识别在文本中哪些指代指的是现实世界中的同一个实体。换言之,共指消解的目的是找到文本中的作为指称词的名词、名词短语、代词、代词短语等实体并将它们进行归类,得到文本中指向相同实体的指代簇。例如,对文本:“北京大学创立于1898年维新变法之际,初名京师大学堂,简称北大,是中国近现代第一所国立综合性大学,她是新文化运动的中心和五四运动的策源地。”进行共指消解,得到该语句中的表述“北京大学、京师大学堂、北大、她”组成的指代簇,该指代簇内的文段都是共同指代相同的实体,即,北京大学。而一篇文章中往往包括多种实体,在共指消解时会形成多个指代簇,由此以指示文章中的共指关系。
参见图1,通常,基于深度神经网络的共指消解方法可以分为单词特征提取、指称词特征提取、指称词判断、共指关系预测四个阶段。其中,单词特征提取阶段由编码器完成单词特征提取,通常采用BERT(Bidirectional Encoder Representation fromTransformers)模型作为预训练模块(编码器)生成单词的词向量;指称词特征提取阶段根据组成文段的单词的词向量求平均生成文段(Span)的文段向量;指称词判断阶段由分类器完成,通常通过前馈网络完成判断生成的指称词是否是真的指称词的置信分数;共指关系预测阶段由前馈网络完成判断生成的指称词是否包含共指关系,并由此通过极大似然得到最终的共指分数及共指结果。
共指消解中,获得的词向量所包含的上下文信息对后续正确判断不同指代的共指关系十分重要。常用的词向量生成方法有两种,一种词向量生成方法是查询词典获得普通的词向量,例如是查询谷歌公司(Google)用word2vec预训练的300维的新闻语料的词典GoogleNews-vectors-negative300.bin得到的词向量,其存在的问题是对于长距离上下文信息抽取不足,在基于该词向量生成方法得到的词向量生成指称词向量时,存在长距离共指判断依赖的信息的丢失以致无法进行长距离的共指关系判断的问题;另一种词向量生成方法是将单词输入预训练模型生成单词的词向量。
预训练模型很早就已经在计算机视觉领域中广泛使用,最近几年,自然语言处理领域才开始进入预训练模型的时代。一般来说,使用预训练模型需要经过两个阶段,一是需要在一个规模比较庞大、质量比较高的数据集上进行模型的预训练,使模型学到领域内的一些知识,得到性能较好的预训练模型。二是基于得到的预训练模型,根据下游不同的任务需要,对预训练模型进行再训练,在新的特定的任务数据集上对模型进行微调。预训练模型因为基于数目庞大、质量较高的数据集进行了预训练,所以预训练模型在一开始已经被训练到拟合了大部分的领域内的知识,相当于预训练模型的网络已经很好的拟合了领域内的大部分任务,而采用预训练模型进行微调相当于直接将网络初始化为一个比较好的参数,而不是像普通网络一样,进行随机初始化,相当于缩短了模型训练的时间,直接从一个拟合好的参数基础上进行训练,仅需要通过针对特定数据集的拟合对参数进行微弱的修改就可以达到模型的最优状态。共指消解领域所采用的预训练模型通常为BERT模型,BERT模型可以支持的最大符号(Token)长度为512(包括单词和标点),超出的部分会被分段(截断),在分段的情况下丢失了前段的信息长期依赖性,也存在对于长距离上下文信息抽取不足的问题,无法满足超过段分割长度的共指关系的共指关系判断。现有的共指消解的处理模式虽然在一些应用领域取得了实际的效果,但是无法进行长距离的共指关系判断,仅限于局部上下文的共指消解。
发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种构建共指消解模型的方法、共指消解的方法和介质。
本发明的目的是通过以下技术方案实现的:
根据本发明的第一方面,提供一种构建共指消解模型的方法,包括:A1、构建初始共指消解模型,所述初始共指消解模型包括预训练模块、文段向量模块、指称词判断模块和共指判断模块,其中,所述预训练模块采用预训练的XLNet模型,所述指称词判断模块包括第一前馈网络,所述共指判断模块包括第二前馈网络;A2、获取包括多个句子的训练数据集,所述训练数据集带有人工标注的共指关系;A3、用所述训练数据集对初始共指消解模型进行多轮训练至其收敛获得共指消解模型。其中,每轮训练包括:用XLNet模型的分段循环机制捕捉训练数据集中各句子的长距离依赖关系,得到以词向量表示的句子;用文段向量模块处理以词向量表示的句子,得到句子中所有文段的文段向量,其中,文段是句子中的单个单词或者预设粒度内的至少两个连续单词组成的序列;用指称词判断模块的第一前馈网络处理句子中所有文段的文段向量,得到各文段能用于作为指称词的置信分数,并将其中置信分数大于预定阈值的文段作为指称词;用共指判断模块的第二前馈网络基于每两个指称词的文段向量计算共指分数,并基于每两个指称词的共指分数根据极大似然准则估计预测的共指关系;根据预测的共指关系和人工标注的共指关系的比对结果优化所述极大似然准则所对应的损失函数,并根据优化后的损失函数更新XLNet模型、文段向量模块、指称词判断模块和共指判断模块的参数。
在本发明的一些实施例中,所述训练数据集是对带有人工标注的共指关系的文本数据集进行如下处理得到的数据集:将带有人工标注的共指关系的文本数据集中的文本按照分句规则进行分句,得到多个句子;根据XLNet模型的词表对句子进行分词,得到由多个单词组成的句子;查询单词在预设的单词词典中的单词索引,得到用单词索引表示的句子。
在本发明的一些实施例中,所述用XLNet模型的分段循环机制捕捉训练数据集中各句子的长距离依赖关系包括:通过双流注意力机制中的内容流注意力机制获取句子中各单词的内容信息;通过双流注意力机制中的查询流注意力机制获取句子中各单词的上下文信息;根据单词的内容信息和单词的上下文信息基于分段循环机制获取单词的词向量,得到以词向量表示的句子。
优选的,所述文段向量模块基于硬注意力机制处理句子中各文段所含单词的词向量。
优选的,满足以下评价规则中任意一个则视为共指消解模型已训练至收敛:第一评价规则:训练轮数达到自定义的上限轮数;第二评价规则:共指消解模型在训练数据集上训练得到的损失函数在连续两轮训练后得到两个损失函数的值与该前期得到的损失函数的最小值相比均没有下降。
优选的,所述上限轮数设为20轮。
根据本发明的第二方面,提供一种采用第一方面所述的构建共指消解模型的方法得到的共指消解模型进行共指消解的方法,包括:B1、对待识别文本进行处理得到用单词索引表示的句子;B2、将待识别文本中用单词索引表示的句子输入所述共指消解模型,输出预测的共指关系。
在本发明的一些实施例中,所述共指消解模型包括XLNet模型、文段向量模块、指称词判断模块和共指判断模块,所述指称词判断模块包括第一前馈网络,所述共指判断模块包括第二前馈网络,所述步骤B2包括:B21、用XLNet模型的分段循环机制捕捉待识别文本中各句子的长距离依赖关系,得到以词向量表示的句子;B22、用文段向量模块处理以词向量表示的句子,得到句子中所有文段的文段向量,其中,文段是句子中的单个单词或者预设粒度内的至少两个连续单词组成的序列;B23、用指称词判断模块的第一前馈网络处理待识别文本的句子中所有文段的文段向量,得到各文段能用于作为指称词的置信分数,并将其中置信分数大于预定阈值的文段作为指称词;B24、用共指判断模块的第二前馈网络基于每两个指称词的文段向量计算共指分数,并基于每两个指称词的共指分数根据极大似然准则进行共指关系的预测,输出预测的共指关系。
根据本发明的第三方面,提供一种电子设备,包括:一个或多个处理器;以及存储器,其中存储器用于存储一个或多个可执行指令;所述一个或多个处理器被配置为经由执行所述一个或多个可执行指令以实现第一方面和/或第二方面所述方法的步骤。
与现有技术相比,本发明的优点在于:
本发明构建的共指消解模型采取预训练的XLNet模型提取单词的词向量用于后续的共指判断,XLNet模型的双流注意力机制和分段循环机制可获得段与段之间的长距离上下文信息,捕捉各句子的长距离依赖关系,生成具有长距离上下文信息依赖的词向量,据此提升共指消解过程对于长距离依赖的共指关系的判断性能。
附图说明
以下参照附图对本发明实施例作进一步说明,其中:
图1为根据现有的共指消解模型进行共指消解的示意图;
图2为根据本发明实施例的共指消解模型进行训练和预测的过程的示意图;
图3为根据本发明实施例的共指消解模型进行共指消解的示意图;
图4为根据本发明的一个示例的共指消解模型进行共指消解的示意图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如在背景技术部分提到的,现有的共指消解的处理模式无法进行长距离的共指关系判断,采用普通词向量或者BERT模型提取的词向量仅限于局部上下文的共指消解。本发明构建的共指消解模型采取预训练的XLNet模型提取单词的词向量用于后续的共指判断,XLNet模型的双流注意力机制和分段循环机制可获得段与段之间的长距离上下文信息,捕捉各句子的长距离依赖关系,生成具有长距离上下文信息依赖的词向量,据此提升共指消解过程对于长距离依赖的共指关系的判断性能。最终得到的共指消解模型在开源数据集上进行长距离共指消解的性能得到了有效提升。
本发明提供一种构建共指消解模型的方法,包括步骤A1、A2、A3。为了更好地理解本发明,下面结合具体的实施例针对每一个步骤分别进行详细说明。
在步骤A1中,构建初始共指消解模型,初始共指消解模型包括预训练模块、文段向量模块、指称词判断模块和共指判断模块,其中,预训练模块采用预训练的XLNet模型,指称词判断模块包括第一前馈网络,共指判断模块包括第二前馈网络。
根据本发明的一个实施例,初始共指消解模型包括依次连接的预训练的XLNet模型、文段向量模块、指称词判断模块和共指判断模块。预训练的XLNet模型是卡内基梅隆大学(CMU)与谷歌大脑团队(Google Brain)推出的XLNet模型。在预训练的BERT模型之后,针对BERT模型的优化模型层出不穷,基于BERT模型的衍生模型也是数不胜数。XLNet模型便是其中的一个基于BERT的衍生模型。它针对BERT模型的缺点进行优化,既能结合上文和下文,又能避免BERT模型由于遮蔽标志(MASK)导致的独立性和数据分布一致性问题。为此,XLNet模型使用一系列方法,构造出了一种能够结合上文和下文的自回归模型。针对BERT模型的缺陷,XLNet模型的分段循环机制采用自回归和降噪自编码的融合,并通过排序语言模型获取上下文信息,为了在不改变自回归模型基本结构的条件下引入下文信息,XLNet模型使用了对输入序列进行排列组合的方法,把下文信息排到前面,赋予了单向模型感知下文的能力。
在步骤A2中,获取包括多个句子的训练数据集,训练数据集带有人工标注的共指关系。
根据本发明的一个实施例,训练数据集是对带有人工标注的共指关系的文本数据集进行如下处理得到的数据集:将带有人工标注的共指关系的文本数据集中的文本按照分句规则进行分句,得到多个句子;根据XLNet模型的词表对句子进行分词,得到由多个单词组成的句子;查询单词在预设的单词词典中的单词索引,得到用单词索引表示的句子。文本数据集例如是Ontonotes数据集。单词索引相当于是单词在单词词典中的单词序号,以分句后得到一个句子“Tom is 30years old,and he is a doctor.”为例,查询单词词典后得到以单词索引表示的句子,即用单词词典中的该单词的序号来表示该句子,查询时标点符号视为单词进行处理,由此,得到[2546,1111,1477,1202,1386,118,1106,1120,1111,171,3996,120]形式的用单词索引表示的句子。
在步骤A3中,参见图2和图3,用训练数据集对初始共指消解模型进行多轮训练至其收敛获得共指消解模型。
优选的,满足以下评价规则中任意一个则视为共指消解模型已训练至收敛:第一评价规则:训练轮数达到自定义的上限轮数;第二评价规则:共指消解模型在训练数据集上训练得到的损失函数在连续两轮训练后得到两个损失函数的值与该前期得到的损失函数的最小值相比均没有下降。优选的,上限轮数设为20轮。
根据本发明的一个实施例,在训练过程中会对共指消解模型的多个模块进行多轮训练。多轮训练的每轮训练包括:A31、A32、A33、A34,下面对每个步骤进行说明。
步骤A31:用XLNet模型的分段循环机制捕捉训练数据集中各句子的长距离依赖关系,得到以词向量表示的句子。在该步骤中,将步骤A2得到的以单词索引表示的句子输入XLNet模型,经过XLNet模型的处理,输出以词向量表示的句子。优选的,用XLNet模型的分段循环机制捕捉训练数据集中各句子的长距离依赖关系包括:通过双流注意力机制中的内容流注意力机制获取句子中各单词的内容信息;通过双流注意力机制中的查询流注意力机制获取句子中各单词的上下文信息;根据单词的内容信息和单词的上下文信息基于分段循环机制获取单词的词向量,得到以词向量表示的句子。针对BERT模型的缺陷,XLNet模型采用双流自注意力机制,即两种自注意力。一个是内容流注意力机制(Transformer中的标准自注意力)。另一个是查询流注意力机制(XLNet模型中用来替换BERT模型中的被遮蔽的单词)。同时,针对BERT模型无法处理超长文本的缺陷,XLNet模型采用了Transformer XL中相对位置编码和分段循环网络机制的思路。XLNet模型的输入形式和BERT模型类似,即词序号向量、句序号向量以及位置向量。本发明采用预训练的XLNet模型进行微调的方式,由于预训练的XLNet模型采用了段与段之间的循环机制,使得当前段在建模的时候能够利用之前段的信息来实现长期依赖性的特性,避免了在基于BERT模型的共指消解模型仅能得到局部的共指消解结果或者指称词向量需要由上下两个段落的生成的拼接的问题,提升了指称词向量的生成质量,从而提升了共指消解模型的效果。
步骤A32:用文段向量模块处理以词向量表示的句子,得到句子中所有文段的文段向量,其中,文段是句子中的单个单词或者预设粒度内的至少两个连续单词组成的序列。优选的,文段向量模块基于硬注意力机制处理句子中各文段所含单词的词向量。优选的,预设粒度内一般设置为小于等于10的数值,比如,预设粒度设为8。以句子“Tom is 30yearsold,and he is a doctor.”为例,在预设粒度设为3的情况下,会把句子中含有3个连续单词及以下的每个序列均作为一个文段,即:Tom、Tom is、is 30、30years old、years old、old、,and、and he、he is、is、is a、a、a doctor等3个连续词以下的序列均会作为一个文段,然后基于文段所包含单词的词向量生成的文段向量。例如,按照以下方式得到文段向量:espan=[xstart,xend,x*],其中,espan表示文段的向量,xstart表示文段中首词的词向量,xend表示文段中尾词的词向量,x*表示文段中单词的词向量通过注意力机制得到的注意力词向量:x*通过双流注意力机制得到:其中,ai,t表示利用硬注意力机制得到的文段i中的单词t对于文段i的注意力权重,/>ak表示对当前文段的所有单词的整体注意力的求和项,at表示当前单词t的注意力值,exp()表示指数函数,at=wt FFNNt(xt),FFNNt表示文段向量模块的前馈网络,wt表示文段向量模块的前馈网络的权重参数,xt表示当前单词t的词向量。现有技术中,提取文段向量时通常是简单地将文段中各词的词向量求平均从而得到文段向量,而本发明通过硬注意力机制提取文段向量,所获取的文段向量能够更好地体现上下文的依赖关系,从而使得共指消解的效果得到提升,尤其是在基于采用了双流注意力机制提取的词向量的基础上,配合使用硬注意力机制得到文段向量,使得长距离的共指消解的效果得到进一步提升。
步骤A32:用指称词判断模块的第一前馈网络处理句子中所有文段的文段向量,得到各文段能用于作为指称词的置信分数,并将其中置信分数大于预定阈值的文段作为指称词。例如,基于生成的文段向量,经过指称词判断的前馈网络得到指称词的置信分数(Mention Score),置信分数s(i)=wmFFNN1(espan),其中,wm表示第一前馈网络的权重参数,FFNN1表示第一前馈网络,espan表示文段向量。优选的,用指称词判断模块的第一前馈网络处理句子中所有文段的文段向量是指通过第一前馈网络得到文段是否为指称词的置信分数,置信分数的范围为0到1之间的浮点数。根据前面得到的置信分数选择可能为指称词的文段。优选的,预定阈值设为0.8,以使后续共指消解的结果的准确度更高。
步骤A33:用共指判断模块的第二前馈网络基于每两个指称词的文段向量计算共指分数,并基于每两个指称词的共指分数根据极大似然准则估计预测的共指关系。例如,基于指称词的置信分数,将置信分数大于预设阈值的文段作为指称词,并采用第二前馈网络得到共指分数,公式为:c(i,j)=waFFNNm(ei,ej,xij),其中,c(i,j)表示指称词i与j是否存在共指关系的共指分数,ei表示指称词i的向量表示,ej表示指称词j的向量表示,xij表示共指判断模块中设定的指称词i与指称词j之间的其他特征,例如向量相似度、向量距离等;然后基于极大似然得到正确的共指指代簇。在一个示例中,获得指代簇的方式为:N表示文段数,i表示当前文段i,yi表示判断与文段i具有共指关系的文段,GOLD表示正确的指代簇,p(y)表示经过归一化的文段i与文段yi的共指分数,可以看作是i与yi存在共指关系的共指概率,该共指概率最后用作极大似然的公式中损失函数的计算。在该共指概率的大小超过共指概率阈值时则认为两个指称词指示的是同一实体。共指概率阈值的实际值可以根据需要共指关系预测的宽松程度进行调整,例如,设置为0.6~0.8中的某个值。
步骤A34:根据预测的共指关系和人工标注的共指关系的比对结果优化极大似然准则所对应的损失函数,并根据优化后的损失函数更新XLNet模型、文段向量模块、指称词判断模块和共指判断模块的参数。应当理解的是,这里的参数是指共指消解模型的各个模块所采用的网络的权重参数。例如,XLNet模型的双流注意力机制所对应的网络的权重参数,文段向量模块的前馈网络的权重参数wt,指称词判断模块的第一前馈网络的权重参数wm,共指判断模块的第二前馈网络的权重参数wa。
本发明还提供一种采用前述构建共指消解模型的方法得到的共指消解模型进行共指消解的方法,包括:步骤B1和B2,下面对这两个步骤进行详细说明。
在步骤B1中,对待识别文本进行处理得到用单词索引表示的句子。
根据本发明的一个实施例,步骤B1包括:B11、将待识别文本按照分句规则进行分句,得到多个句子;B12、根据XLNet模型的词表对句子进行分词,得到由多个单词组成的句子;B13、查询单词在预设的单词词典中的单词索引,得到用单词索引表示的句子。
在步骤B2中,将待识别文本中用单词索引表示的句子输入所述共指消解模型,输出预测的共指关系。
根据本发明的一个实施例,步骤B2包括:B21、用XLNet模型的分段循环机制捕捉待识别文本中各句子的长距离依赖关系,得到以词向量表示的句子;即,在该步骤中,将以单词索引表示的句子输入到XLNet模型,输出以词向量表示的句子;B22、用文段向量模块处理以词向量表示的句子,得到句子中所有文段的文段向量,其中,文段是句子中的单个单词或者预设粒度内的至少两个连续单词组成的序列;B23、用指称词判断模块的第一前馈网络处理待识别文本的句子中所有文段的文段向量,得到各文段能用于作为指称词的置信分数,并将其中置信分数大于预定阈值的文段作为指称词;B24、用共指判断模块的第二前馈网络基于每两个指称词的文段向量计算共指分数,并基于每两个指称词的共指分数根据极大似然准则进行共指关系的预测,输出预测的共指关系。
根据本发明的一个实施例,一种共指消解的方法,包括:S1、构建共指消解模型,其包括依次连接的预训练模块、文段向量模块、指称词判断模块和共指判断模块,其中,预训练模块采用预训练的XLNet模型;S2、载入预训练的XLNet模型,将以单词索引表示的句子输入XLNet模型得到以词向量表示的句子;S3、通过文段向量模块的前馈网络和硬注意力机制得到每个文段的文段向量;S4、基于每个文段向量通过前馈网络计算指称词的置信分数,该置信分数指示对应文段能作为指称词的置信度,分数越高表示置信度越高,选取置信分数高于预定阈值作为指称词,并判断该该指称词和其他指称词的共指分数;S5、基于共指分数采用极大似然估计每个指称词最优可能的先行词,得到预测的共指关系。预测过程的数据流转顺序可以参考图2。
根据本发明的一个示例,参见图4,本发明的共指消解的主要流程为:通过预训练模块获取具有长距离依赖的词向量,然后基于获得的词向量通过文段向量模块获得句子中各个文段的文段向量,然后指称词判断模块会判断各个文段的置信分数,对于能够作为指称词的每两个文段(假设文段i和文段j)则进一步通过共指判断模块计算共指分数c(i,j),根据共指分数采用极大似然法估计单词的先行词,即在该单词之前出现的指向同一实体的单词,该单词和该单词的所有先行词则最终形成共指指代簇。例如,对于某个文本中的某个句子“Tom is 30years old,and he is a doctor”,其中的指称词有Tom、he、a doctor,通过共指消解可以得到,针对a doctor最优的先行词为he,针对he最优的先行词为Tom,这些词最终形成一个共指指代簇,作为共指消解模型对该文本的预测的共指关系的一部分。
经过实验,针对本发明提出的共指消解模型,与现有主流深度学习共指消解模型E2E CR(End-to-end neural coreference resolution)与C2F(Higher-ordercoreference resolution with coarse-to-fine inference)模型进行性能对比,模型效果如下。
模型(Models) | MUC | B3 | CEAF | Avg F |
E2E CR | 75.8 | 65.0 | 60.8 | 67.2 |
C2F CR | 80.4 | 70.8 | 67.6 | 73.0 |
BertBase CR | 81.3 | 71.6 | 68.8 | 73.9 |
XL CR(本发明) | 81.4 | 72.2 | 69.1 | 74.2 |
实验结果中E2E CR、C2F CR、BertBase CR分别为三种经典的共指消解算法模型,MUC、B3、CEAF分别为三种共指消解性能评估指标,根据实验结果,可以得出结论,本发明提出的共指消解模型,明显优于传统模型,并且优于近些年流行的E2E CR模型等端到端共指消解模型,特别地在与同样是预训练模型的BERTBase CR模型进行对比时,XL CR模型同样具有优势,这说明,本发明的共指消解模型确实解决了基于普通词向量对于长距离上下文信息抽取不足,同时预训练模型词向量在分段的情况下丢失了前段的信息长期依赖性的问题。并且避免了BERTBase CR模型由于采用BERT存在的无法处理超长文本的缺陷。本发明的共指消解模型利用自回归和降噪自编码的融合,并通过排序语言模型获取上下文信息,采用双流自注意力机制,利用了预训练模型XLNet模型中采用的信息抽取器Transformer XL的特性、相对位置编码和分段RNN机制的思路,避免了在其他预训练模型BERTBase CR中指称词向量需要由上下两个段落的生成的拼接的问题,提升了指称词向量的生成质量,从而提升了共指消解模型的效果。
为了验证本发明的共指消解模型针对长距离共指消解的性能提升,本文针对数据集的文本不同长度及E2E CR模型、BERT CR模型和本发明XLCR模型在不同长度文本上的性能进行统计与对比,如下表所示:
根据实验结果,本发明提出的共指消解模型在文本长度大的文档的共指消解性能明显优于E2E CR与BERT CR,并且随着文本长度的增大,从F1分数来看,本发明的共指消解模型的性能上的性能下降幅度最小,可以推断本文的模型在对于文本中长距离的共指消解具有明显优势,解决了预训练模型的词向量在分段的情况下丢失了前段的信息长期依赖性的问题,提升了长距离共指关系的判断性能,从而提升了共指消解模型的效果。
需要说明的是,虽然上文按照特定顺序描述了各个步骤,但是并不意味着必须按照上述特定顺序来执行各个步骤,实际上,这些步骤中的一些可以并发执行,甚至改变顺序,只要能够实现所需要的功能即可。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (9)
1.一种构建共指消解模型的方法,其特征在于,包括:
A1、构建初始共指消解模型,所述初始共指消解模型包括预训练模块、文段向量模块、指称词判断模块和共指判断模块,其中,所述预训练模块采用预训练的XLNet模型,所述指称词判断模块包括第一前馈网络,所述共指判断模块包括第二前馈网络;
A2、获取包括多个句子的训练数据集,所述训练数据集带有人工标注的共指关系;
A3、用所述训练数据集对初始共指消解模型进行多轮训练至其收敛获得共指消解模型;其中,每轮训练包括:
用XLNet模型的分段循环机制捕捉训练数据集中各句子的长距离依赖关系,得到以词向量表示的句子,其包括:
通过双流注意力机制中的内容流注意力机制获取句子中各单词的内容信息,
通过双流注意力机制中的查询流注意力机制获取句子中各单词的上下文信息,
根据单词的内容信息和单词的上下文信息基于分段循环机制获取单词的词向量,得到以词向量表示的句子;
用文段向量模块处理以词向量表示的句子,得到句子中所有文段的文段向量,其中,文段是句子中的单个单词或者预设粒度内的至少两个连续单词组成的序列;
用指称词判断模块的第一前馈网络处理句子中所有文段的文段向量,得到各文段能用于作为指称词的置信分数,并将其中置信分数大于预定阈值的文段作为指称词;
用共指判断模块的第二前馈网络基于每两个指称词的文段向量计算共指分数,并基于每两个指称词的共指分数根据极大似然准则估计预测的共指关系;
根据预测的共指关系和人工标注的共指关系的比对结果优化所述极大似然准则所对应的损失函数,并根据优化后的损失函数更新XLNet模型、文段向量模块、指称词判断模块和共指判断模块的参数。
2.根据权利要求1所述的构建共指消解模型的方法,其特征在于,所述训练数据集是对带有人工标注的共指关系的文本数据集进行如下处理得到的数据集:
将带有人工标注的共指关系的文本数据集中的文本按照分句规则进行分句,得到多个句子;
根据XLNet模型的词表对句子进行分词,得到由多个单词组成的句子;
查询单词在预设的单词词典中的单词索引,得到用单词索引表示的句子。
3.根据权利要求1至2任一项所述构建共指消解模型的方法,其特征在于,所述文段向量模块基于硬注意力机制处理句子中各文段所含单词的词向量。
4.根据权利要求1至2任一项所述构建共指消解模型的方法,其特征在于,满足以下评价规则中任意一个则视为共指消解模型已训练至收敛:
第一评价规则:训练轮数达到自定义的上限轮数;
第二评价规则:共指消解模型在训练数据集上训练得到的损失函数在连续两轮训练后得到两个损失函数的值与该前期得到的损失函数的最小值相比均没有下降。
5.根据权利要求4所述的构建共指消解模型的方法,其特征在于,所述上限轮数设为20轮。
6.一种采用权利要求1至5任一项所述的构建共指消解模型的方法得到的共指消解模型进行共指消解的方法,其特征在于,包括:
B1、对待识别文本进行处理得到用单词索引表示的句子;
B2、将待识别文本中用单词索引表示的句子输入所述共指消解模型,输出预测的共指关系。
7.根据权利要求6所述的共指消解的方法,其特征在于,所述共指消解模型包括XLNet模型、文段向量模块、指称词判断模块和共指判断模块,所述指称词判断模块包括第一前馈网络,所述共指判断模块包括第二前馈网络,
所述步骤B2包括:
B21、用XLNet模型的分段循环机制捕捉待识别文本中各句子的长距离依赖关系,得到以词向量表示的句子;
B22、用文段向量模块处理以词向量表示的句子,得到句子中所有文段的文段向量,其中,文段是句子中的单个单词或者预设粒度内的至少两个连续单词组成的序列;
B23、用指称词判断模块的第一前馈网络处理待识别文本的句子中所有文段的文段向量,得到各文段能用于作为指称词的置信分数,并将其中置信分数大于预定阈值的文段作为指称词;
B24、用共指判断模块的第二前馈网络基于每两个指称词的文段向量计算共指分数,并基于每两个指称词的共指分数根据极大似然准则进行共指关系的预测,输出预测的共指关系。
8.一种计算机可读存储介质,其特征在于,其上包含有计算机程序,所述计算机程序可被处理器执行以实现权利要求1至7中任一项所述方法的步骤。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;以及
存储器,其中存储器用于存储一个或多个可执行指令;
所述一个或多个处理器被配置为经由执行所述一个或多个可执行指令以实现权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010667443.1A CN111967258B (zh) | 2020-07-13 | 2020-07-13 | 一种构建共指消解模型的方法、共指消解的方法和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010667443.1A CN111967258B (zh) | 2020-07-13 | 2020-07-13 | 一种构建共指消解模型的方法、共指消解的方法和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111967258A CN111967258A (zh) | 2020-11-20 |
CN111967258B true CN111967258B (zh) | 2023-07-21 |
Family
ID=73361588
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010667443.1A Active CN111967258B (zh) | 2020-07-13 | 2020-07-13 | 一种构建共指消解模型的方法、共指消解的方法和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111967258B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112732870B (zh) * | 2020-12-31 | 2024-03-05 | 平安科技(深圳)有限公司 | 基于词向量的搜索方法、装置、设备及存储介质 |
CN112988971A (zh) * | 2021-03-15 | 2021-06-18 | 平安科技(深圳)有限公司 | 基于词向量的搜索方法、终端、服务器及存储介质 |
CN112765958B (zh) * | 2021-03-17 | 2023-07-04 | 中国平安人寿保险股份有限公司 | 代词消解方法、装置、电子设备及存储介质 |
CN115186820B (zh) * | 2022-09-07 | 2023-01-10 | 粤港澳大湾区数字经济研究院(福田) | 事件共指消解方法、装置、终端及计算机可读存储介质 |
CN116562303B (zh) * | 2023-07-04 | 2023-11-21 | 之江实验室 | 一种参考外部知识的指代消解方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9514098B1 (en) * | 2013-12-09 | 2016-12-06 | Google Inc. | Iteratively learning coreference embeddings of noun phrases using feature representations that include distributed word representations of the noun phrases |
CN109902145A (zh) * | 2019-01-18 | 2019-06-18 | 中国科学院信息工程研究所 | 一种基于注意力机制的实体关系联合抽取方法和系统 |
CN110134944A (zh) * | 2019-04-08 | 2019-08-16 | 国家计算机网络与信息安全管理中心 | 一种基于强化学习的指代消解方法 |
WO2019229769A1 (en) * | 2018-05-28 | 2019-12-05 | Thottapilly Sanjeev | An auto-disambiguation bot engine for dynamic corpus selection per query |
CN111061861A (zh) * | 2019-12-12 | 2020-04-24 | 西安艾尔洛曼数字科技有限公司 | 一种基于XLNet的文本摘要自动生成方法 |
-
2020
- 2020-07-13 CN CN202010667443.1A patent/CN111967258B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9514098B1 (en) * | 2013-12-09 | 2016-12-06 | Google Inc. | Iteratively learning coreference embeddings of noun phrases using feature representations that include distributed word representations of the noun phrases |
WO2019229769A1 (en) * | 2018-05-28 | 2019-12-05 | Thottapilly Sanjeev | An auto-disambiguation bot engine for dynamic corpus selection per query |
CN109902145A (zh) * | 2019-01-18 | 2019-06-18 | 中国科学院信息工程研究所 | 一种基于注意力机制的实体关系联合抽取方法和系统 |
CN110134944A (zh) * | 2019-04-08 | 2019-08-16 | 国家计算机网络与信息安全管理中心 | 一种基于强化学习的指代消解方法 |
CN111061861A (zh) * | 2019-12-12 | 2020-04-24 | 西安艾尔洛曼数字科技有限公司 | 一种基于XLNet的文本摘要自动生成方法 |
Non-Patent Citations (1)
Title |
---|
范意兴 ; 郭嘉丰 ; 兰艳艳 ; 徐君 ; 程学旗.《基于上下文的深度语义句子检索模型》.《中文信息学报》.2017,156-162 . * |
Also Published As
Publication number | Publication date |
---|---|
CN111967258A (zh) | 2020-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111967258B (zh) | 一种构建共指消解模型的方法、共指消解的方法和介质 | |
CN110737758B (zh) | 用于生成模型的方法和装置 | |
Dos Santos et al. | Deep convolutional neural networks for sentiment analysis of short texts | |
CN110543639B (zh) | 一种基于预训练Transformer语言模型的英文句子简化算法 | |
WO2020082560A1 (zh) | 文本关键词提取方法、装置、设备及计算机可读存储介质 | |
WO2019196314A1 (zh) | 文本信息相似度匹配方法、装置、计算机设备及存储介质 | |
CN109697289B (zh) | 一种改进的用于命名实体识别的主动学习方法 | |
CN110413768B (zh) | 一种文章题目自动生成方法 | |
CN110619034A (zh) | 基于Transformer模型的文本关键词生成方法 | |
CN112906392B (zh) | 一种文本增强方法、文本分类方法及相关装置 | |
CN108073571B (zh) | 一种多语言文本质量评估方法及系统、智能文本处理系统 | |
CN111832282B (zh) | 融合外部知识的bert模型的微调方法、装置及计算机设备 | |
CN111046652A (zh) | 文本纠错方法、文本纠错装置、存储介质和电子设备 | |
CN110807324A (zh) | 一种基于IDCNN-crf与知识图谱的影视实体识别方法 | |
CN113177412A (zh) | 基于bert的命名实体识别方法、系统、电子设备及存储介质 | |
CN113836274A (zh) | 基于语义解析的摘要提取方法、装置、设备及介质 | |
Fusayasu et al. | Word-error correction of continuous speech recognition based on normalized relevance distance | |
CN111160014B (zh) | 一种智能分词方法 | |
Noaman et al. | Enhancing recurrent neural network-based language models by word tokenization | |
CN115759119A (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN112380862B (zh) | 自动获取病理信息的方法、装置和存储介质 | |
CN110489759B (zh) | 基于词频的文本特征加权及短文本相似性计算方法、系统和介质 | |
CN111178009B (zh) | 一种基于特征词加权的文本多语种识别方法 | |
CN111639189A (zh) | 一种基于文本内容特征的文本图构建方法 | |
CN111428487A (zh) | 模型训练方法、歌词生成方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |