CN116562303B - 一种参考外部知识的指代消解方法及装置 - Google Patents
一种参考外部知识的指代消解方法及装置 Download PDFInfo
- Publication number
- CN116562303B CN116562303B CN202310810661.XA CN202310810661A CN116562303B CN 116562303 B CN116562303 B CN 116562303B CN 202310810661 A CN202310810661 A CN 202310810661A CN 116562303 B CN116562303 B CN 116562303B
- Authority
- CN
- China
- Prior art keywords
- model
- relationship
- mention
- references
- relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000012549 training Methods 0.000 claims abstract description 87
- 238000013145 classification model Methods 0.000 claims abstract description 84
- 230000029087 digestion Effects 0.000 claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 19
- 238000002372 labelling Methods 0.000 claims 1
- 244000070406 Malus silvestris Species 0.000 description 43
- 235000011430 Malus pumila Nutrition 0.000 description 33
- 235000015103 Malus silvestris Nutrition 0.000 description 33
- 239000011159 matrix material Substances 0.000 description 14
- 239000004744 fabric Substances 0.000 description 12
- 239000010985 leather Substances 0.000 description 12
- 235000013399 edible fruits Nutrition 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 6
- 244000062250 Kaempferia rotunda Species 0.000 description 5
- 235000013422 Kaempferia rotunda Nutrition 0.000 description 5
- 235000005087 Malus prunifolia Nutrition 0.000 description 5
- 235000021016 apples Nutrition 0.000 description 5
- 229910052500 inorganic mineral Inorganic materials 0.000 description 5
- 239000011707 mineral Substances 0.000 description 5
- 229940088594 vitamin Drugs 0.000 description 5
- 229930003231 vitamin Natural products 0.000 description 5
- 235000013343 vitamin Nutrition 0.000 description 5
- 239000011782 vitamin Substances 0.000 description 5
- 101001014572 Homo sapiens MARCKS-related protein Proteins 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 102100032514 MARCKS-related protein Human genes 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 239000003550 marker Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 102100028162 ATP-binding cassette sub-family C member 3 Human genes 0.000 description 1
- 102100028187 ATP-binding cassette sub-family C member 6 Human genes 0.000 description 1
- 101000986633 Homo sapiens ATP-binding cassette sub-family C member 3 Proteins 0.000 description 1
- 101000986621 Homo sapiens ATP-binding cassette sub-family C member 6 Proteins 0.000 description 1
- 229920002334 Spandex Polymers 0.000 description 1
- 238000012896 Statistical algorithm Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000009954 braiding Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000004759 spandex Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种参考外部知识的指代消解方法及装置,该方法首先输入句子训练提及识别模型,该模型标记出句子中的提及;输入指定两个或三个提及的句子拼接上提及对应的知识,训练关系分类模型判断指定提及中是否有共指关系,并标记出存在共指关系的提及。训练好模型后用于指代消解。本发明方法在参考外部知识进行指代消解的过程中,考虑了句子整体的语义信息。关系分类模型训练过程中,训练模型判断提及间是否存在共指关系,以及训练模型标记出存在共指关系的提及,并且输入有指代三个提及时,这种训练方法使得模型对提及和共指关系的理解更深刻,使模型有更强的指代消解能力。
Description
技术领域
本发明属于自然语言处理及指代消解技术的技术领域,尤其涉及一种参考外部知识的指代消解方法及装置。
背景技术
在语言学中,采用简称或代称来代替已经出现过的某一词语,这种情况称为指代。指代能够避免同一词语反复出现造成语句臃肿和赘述,但也会出现指代不明的问题。将指代同一对象的不同指称划分到一个等价集合的过程称为指代消解。指代消解是NLP领域一项基础性研究,在阅读理解、信息抽取、多轮对话等任务中起到重要作用。
指代消解主要经历了从规则到神经网络模型的发展过程。Hobbs等人提出一种指代消解算法,采用广度优先算法便利对文本解析生成的句法分析树,并根据手工规则有效匹配实体短语与先行语之间的共指关系。基于规则的指代消解方法通过制定严密的规则约束来达到匹配指代词和先行词的目的,没有很好的扩展性。随着数据规模的扩张,出现了基于统计学算法的指代消解。先行词和指代词之间的共现频率成为研究关系的指标。Dagan等提出了一种在大型语料库中自动收集共现模式统计信息的方法,能够达到消除回指指称和句法歧义的效果。随着机器学习的兴起,出现了基于机器学习的指代消解方法。机器学习方法可以认为是规则加统计方法的结合。McCarthy等人提出指称对模型,将指代消解任务转化为判断先行语与指代词之间是否匹配的分类任务。Luo等人将文本当中所有指称词组用贝尔树结构进行表示,采用“ANY”的特征表示形式来获取指代链特征。Yang等人采用归纳逻辑编程算法构建实体-指称模型,为组织不同的实体知识和指称提供了一种关系式的方法。Iida等人提出一种基于中心理论构建的“tournament”模型,对两个候选先行语进行比较,选择概率大的建立共指关系。近几年,深度学习的发展使得越来越多的神经网络模型用于指定消解。《Improving Coreference Resolution by Learning Entity-LevelDistributed Representations》中提出了一种生成 Cluster-Pair 向量的方法,并利用聚类的方式进行指代消解。
然而指代消解是一项很有挑战的任务,它需要对文本和常识有深刻的理解。例如“我的口袋里装着一个又大又圆的苹果,它快被撑破了。”和“我的口袋里装着一个又大又圆的苹果,它肯定很好吃。”这两句,“它”指代的对象可以是“口袋”也可以是“苹果”。想要实现指代消解必须对句子语义和提及的知识有所了解。《Knowledge-aware PronounCoreference Resolution》提出了一种可以参考外部知识的指代消解方法,然而这种方法采用的模型结构提取特征能力弱,参考外部知识时也没有将整体句子语义考虑在内。之后的一些基于大模型以文本生成方式来进行指代消解的方法无法参考外部知识进行指代消解。
发明内容
针对现有技术不足,本发明提出了一种参考外部知识的指代消解方法。
为实现上述目的,本发明的技术方案为:
本发明第一方面:一种参考外部知识的指代消解方法,所述方法包括以下步骤:
(1)生成训练数据:获取目标文本,标记目标文本句子中的提及作为提及识别模型的训练数据;所述训练数据包括提及识别训练数据和关系分类训练数据;
(2)搭建提及识别模型和关系分类模型;
(3)利用步骤(1)得到的数据训练提及识别模型和关系分类模型;
(4)将训练好的模型用于指代消解;即先利用提及识别模型识别出句子中的提及,指定句子中的任意两个提及,从知识库中检索出指定提及的知识,并拼接到句子中后输入至关系分类模型中,所述关系分类模型则预测输入的提及是否有共指关系。
具体地,所述步骤(1)中标记目标文本句子中的提及作为提及识别模型的训练数据,具体为,指定文本句子中的两个或三个提及,检索出指定提及对应的知识,并标注指定提及间是否存在共指关系和存在共指关系的提及,作为关系分类模型的训练数据。
具体地,所述步骤(1)中提及识别训练数据用于训练提及识别模型,即对于输入句子,用0表示非提及,1表示提及的开始位置,2表示提及的非开始位置对句子进行标注得到提及识别标签序列。
具体地,所述训练提及识别模型时,输入句子,训练模型预测每个字符的标签;训练提及识别模型的损失函数为:
其中Loss_tag为提及识别的损失,i为第i个位置,n为输入句子的长度,为第i个位置模型的预测类型值,/>为第i个位置的类型标签,s为输入句子的整数索引向量。
具体地,所述步骤(1)中关系分类训练数据用于训练关系分类模型,关系分类模型以“[CLS]”开始,之后拼接输入句子,之后拼接“[SEP]”,之后拼接指定提及对应的知识,保持长度不超过512;用指定提及码来表示指定提及的信息,将指定的提及信息以012序列的形式表示出来;0表示非指定内容,1表示指定提及的开始位置,2表示指定提及的非开始位置。
进一步地,所述步骤(4)中所述关系分类模型预测输入的提及是否有共指关系,其所述关系分类模型在训练时不仅要判断指定提及中是否有共指关系,并标记出有共指关系的提及;具体为:
(6.1)当所述关系分类模型输入中指定两个提及时,若这两个提及指代的是同一对象,关系分类模型应该判断有共指关系,并将这两个提及都进行标记;若这两个提及指代的是不同对象,关系分类模型应该判断无共指关系,则并不标记任何提及;
(6.2)当所述关系分类模型输入中指定三个提及时,若这三个提及指代的是同一对象,则关系分类模型应该判断有共指关系,并将这三个提及都进行标记;若只有两个指代的是同一对象,则关系分类模型应该判断有共指关系,并将这两个提及进行标记;若三个提及指代的是不同的对象,则关系分类模型应该判断无共指关系,则并不标记任何提及。
具体地,所述关系分类模型在训练时不仅要判断指定提及中是否有共指关系,并标记出有共指关系的提及,即训练关系分类模型时,指定两个或三个提及,训练模型判断指定提及中是否存在共指关系,并标记出存在共指关系的提及,其训练关系分类模型的损失函数为:
其中Loss_ref为关系分类模型的损失,为关系分类的模型预测值,r为关系分类的标签,sk为输入的句子和知识的拼接文本对应的整数索引向量,mids为输入的指定提及码,i为句子的第i个位置,n为句子的长度,/>为句子第i个位置模型的预测值,/>为句子第i个位置的标签。
进一步地,所述训练关系分类模型预测时,若只需要指定两个提及,关系分类模型判断指代的两个提及是否有共指关系。
具体地,所述步骤(2)中提及识别模型采用在中文语料上预训练过的SpanBERT模型;所述关系分类模型采用在中文语料上预训练过的RoBERTa模型。
本发明的第二方面:一种参考外部知识的指代消解装置,该装置包括以下模块:
训练数据生成模块:获取目标文本,标记目标文本句子中的提及作为提及识别模型的训练数据;所述训练数据包括提及识别训练数据和关系分类训练数据;
搭建模块:搭建提及识别模型和关系分类模型;
模型训练模块:利用步骤(1)得到的数据训练提及识别模型和关系分类模型;
指代消解模块:将训练好的模型用于指代消解;即先利用提及识别模型识别出句子中的提及,指定句子中的任意两个提及,从知识库中检索出指定提及的知识,并拼接到句子中后输入至关系分类模型中,所述关系分类模型预测输入的提及是否有共指关系。
本发明的有益效果如下:
首先提出了一种可以参考外部知识的指代消解方法。在参考外部知识进行指代消解的过程中,考虑了句子整体的语义信息,使得模型可以更好的根据句子语义理解和筛选外部知识;其次,提出的方法在关系分类模型训练过程中,加入了三个提及的情况。指定三个提及的情况下,不仅仅训练模型判断提及间是否存在共指关系,还训练模型标记出存在共指关系的提及。这种训练方法使得模型对提及和共指关系的理解更深刻,使模型有更强的指代消解能力。
附图说明
图1为本发明方法的流程图;
图2为提及识别模型输入输出示意图;
图3为关系分类模型输入输出示意图;
图4为本发明的装置流程框图。
具体实施方式
下面结合附图,对本发明提出的一种参考外部知识的指代消解方法进行详细说明。在不冲突的情况下,下述的实施例及实施方式中的特征可以相互组合。
如图1所示,本发明提出的一种参考外部知识的指代消解方法包括如下步骤:
(1)生成训练数据
从网上爬取文章段落进行标注,先标记出句子中的提及,再对每个提及从知识库中搜索出对应的知识用于生成训练数据;训练数据包括提及识别训练数据和关系分类训练数据。
提及识别训练数据用于训练提及识别模型。如图2所示,用0表示非提及,1表示提及的开始位置,2表示提及的非开始位置对句子进行标注得到提及识别标签序列。以“我的口袋里装着一个又大又圆的苹果,它快被撑破了。”为例,句子中有“我”、“口袋”、“苹果”和“它”四个提及,对应的提及识别标签序列为:“101200000000001201000000”。
关系分类训练数据用于训练关系分类模型。关系分类训练数据包括两提及关系分类数据和三提及关系分类数据。两提及关系分类数据指定句子中的两个提及,训练模型判断这两个提及是否有共指关系。三提及关系分类数据指定句子中的三个提及,训练模型判断这三个提及中是否存在共指关系,并标记出存在共指关系的提及。如果三个提及都存在共指关系,则三个提及都要标记出来。
如图3所示,以“我的口袋里装着一个又大又圆的苹果,它快被撑破了。”为例,两提及关系分类数据的样例如下:
输入文本:“[CLS]我的口袋里装着一个又大又圆的苹果,它快被撑破了。[SEP]口袋:口袋指指缝在衣服上用以装东西的袋形部分,衣兜;或一种装物用具,一般用布、皮做成;用布、皮等做成的装东西的用具。苹果:又称柰或林檎,是苹果树的果实,一般呈红色,但需视品种而定,富含矿物质和维生素,是人们最常食用的水果之一。有时苹果也指某科技公司,总部位于某加州的某个地区。”
输入指定提及码:“000120000000000120000000000……”;
关系分类标签:0;
存在共指关系提及标签:000000000000000000000000;
输入文本:“[CLS]我的口袋里装着一个又大又圆的苹果,它快被撑破了。[SEP]口袋:口袋指指缝在衣服上用以装东西的袋形部分,衣兜。或一种装物用具,一般用布、皮做成;用布、皮等做成的装东西的用具。它:代词,代指非人的事物。”
输入指定提及码:“000120000000000000100000000……”;
关系分类标签:1;
存在共指关系提及标签:001200000000000001000000;
三提及关系分类数据如下:
输入文本:“[CLS]我的口袋里装着一个又大又圆的苹果,它快被撑破了。[SEP]我:第一人称代词。口袋:口袋指指缝在衣服上用以装东西的袋形部分,衣兜;或一种装物用具,一般用布、皮做成;用布、皮等做成的装东西的用具。苹果:又称柰或林檎,是苹果树的果实,一般呈红色,但需视品种而定,富含矿物质和维生素,是人们最常食用的水果之一。有时苹果也指某科技公司,总部位于某加州的某个地区。”
输入指定提及码:“010120000000000120000000000……”;
关系分类标签:0;
存在共指关系提及标签:000000000000000000000000;
输入文本:“[CLS]我的口袋里装着一个又大又圆的苹果,它快被撑破了。[SEP]口袋:口袋指指缝在衣服上用以装东西的袋形部分,衣兜。或一种装物用具,一般用布、皮做成;用布、皮等做成的装东西的用具。苹果:又称柰或林檎,是苹果树的果实,一般呈红色,但需视品种而定,富含矿物质和维生素,是人们最常食用的水果之一。有时苹果也指某科技公司,总部位于某加州的某个地区。它:代词,代指非人的事物。”
输入指定提及码:000120000000000120100000000……;
关系分类标签:1;
存在共指关系提及标签:001200000000000001000000;
其中输入文本在需要指代消解的句子前拼接[CLS],之后拼接[SEP]。在[SEP]之后拼接指定提及的知识,输入指定提及码将指定的提及信息以012序列的形式表示出来,0表示非指定内容,1表示指定提及的开始位置,2表示指定提及的非开始位置。上述例子中输入指代提及码后面的省略号表示省略的0。关系分类标签表示指定的提及是否有共指关系,0表示无共指关系,1表示有共指关系。由于三提及分类数据输入中指定了三个提及,它们的关系存在如下几种可能:三个提及都没共指关系、只有两个提及有共指关系、三个提及都有共指关系。当三个提及都没共指关系时,关系分类标签为0,否则为1。当关系分类标签为1时,还需要标记出存在共指关系的提及来区分是只有两个提及有共指关系还是三个提及都有共指关系。为了保持关系分类任务数据格式的统一,给两提及关系分类任务也添加存在共指关系提及标签。存在共指关系提及标签用012序列的方式表达了存在共指关系的提及;1表示存在共指关系提及的开始位置,2表示存在共指关系提及的非开始位置,0表示其他。
(2)搭建模型
搭建模型包括提及识别模型和关系分类模型的搭建。
提及识别模型用于标注出句子中的提及。提及识别模型采用在中文语料上预训练过的SpanBERT模型。SpanBERT与BERT模型结构相同,但在训练任务上有所改进。它采用SpanMasking的方式屏蔽连续的随机跨度,而不是随机标记的方式生成训练数据。增加SpanBoundary Objective的训练目标,训练跨度边界表示来预测屏蔽跨度的整个内容,而不依赖其中的单个标记表示。在训练任务上的改进使得SpanBERT很适合实体识别和提及识别这类的任务。
关系分类模型用于判断输入的提及中是否存在共指关系,并标记出存在共指关系的提及。关系分类模型的输入是指定了提及的句子和提及相关的知识。在大规模预料上预训练过的RoBERTa模型有很好的特征提取能力,采用RoBERTa中文预训练模型作为关系分类模型。
(3)训练模型
将提及识别训练数据的输入句子转化为整数索引向量输入SpanBERT,得到每个位置对应的输出向量。再将每个位置对应的输出向量输入线性层进行分类,得到该位置的标签。对比模型的预测标签序列和标注得到损失。最小化损失来训练模型。提及识别模型的训练过程用公式表示为:
;
其中为SpanBERT模型输出的编码矩阵,s为输入句子的整数索引向量,为SpanBERT的编码运算,MLP为前馈神经网络,Loss_tag为提及识别的损失,i为第i个位置,n为输入句子的长度,/>为第i个位置模型的预测类型值,/>为第i个位置的类型标签,s为输入句子。
将关系分类训练数据的输入句子转化为整数索引向量,与指定提及码一起输入模型,训练模型判断是否存在共指关系,并标记出存在共指关系的提及。训练的损失函数为关系分类损失和提及标记损失的和。关系分类模型的训练过程用公式表示为:
;
;
;
;
其中为RoBERTa模型输出的编码矩阵,RoBERTa_Encode为RoBERTa的编码运算,MLP1和MLP2为前馈神经网络运算,Loss_ref为关系分类模型的损失,/>为关系分类的模型预测值,r为关系分类的标签,sk为输入的句子和知识的拼接文本对应的整数索引向量,mids为输入的指定提及码,i为句子的第i个位置,n为句子的长度,/>为句子第i个位置模型的预测值,/>为句子第i个位置的标签。
(4)模型预测
将训练好的提及识别模型和关系分类模型用于指代消解,先用提及识别模型识别出句子中的提及,再检索每个提及对应的知识。将所有两个提及的组合指定出来,拼接对应的知识输入关系分类模型,关系分类模型预测指定的提及是否有共指关系。
提及识别模型进行预测时,将句子转化为整数索引列表输入模型,模型将整数索引对应的嵌入向量和位置编码信息相加得到矩阵,用公式表示为:
;
其中为得到的结果矩阵,s为输入句子的整数索引列表,为获
取字嵌入矩阵运算,为获取位置编码矩阵运算。
获取位置编码矩阵运算通过构造三角函数来表征位置信息,具体的:
;
;
其中为位置k的编码向量的第2i个分量,/>为位置k的编码向量的第2i+1个分量,k为位置,i为维度分量。
之后将得到的矩阵输入多层encoder得到编码输出。计算过程可表示为:
;
;
其中为第i层encoder的输出,encoder通过Transformer的Encoder端编码运算得到,/>为模型输出的编码矩阵。
其中encoder运算输入先后经过多头注意力、残差连接、层归一化、线性层、残差连接以及层归一化处理,其公式表达如下:
;
;
其中为第i层encoder的输入,/>为中间结果矩阵,/>为第i层encoder的输出,LayerNormalization为层归一化。MultiHeadAttention为多头注意力计算,具体计算公式为:
;
;
其中Q、K、V为输入矩阵,Concat为向量拼接运算,h为头数,、/>、/>为第i头的权重。
上述的将句子的整数索引向量经过模型得到编码矩阵的过程是Transformer的编码过程,将模型的这一运算过程用公式概括为如下形式:
;
得到编码矩阵后,将每个位置的编码输入前馈网络层进行分类,得到每个位置的标签。公式表示如下:
;
其中i为第i个位置,为第i个位置的预测值,MLP为前馈神经网络。
用提及识别模型识别出句子中的提及之后,将识别出的提及中两两配对,并拼接上对应的知识输入关系分类模型,关系分类模型预测输入的提及是否有共指关系。值得注意的是在预测阶段输入不用指定三个提及,指定两个提及即可。以“我的口袋里装着一个又大又圆的苹果,它肯定很好吃。”为例,设提及识别模型识别出了提及:我、口袋、苹果和它。从知识库中检索出各个提及对应的知识:
我:第一人称代词。
口袋:口袋指指缝在衣服上用以装东西的袋形部分,衣兜。或一种装物用具,一般用布、皮做成;用布、皮等做成的装东西的用具。
苹果:又称柰或林檎,是苹果树的果实,一般呈红色,但需视品种而定,富含矿物质和维生素,是人们最常食用的水果之一。有时苹果也指某科技公司,总总部位于某加州的某个地区。
它:代词,代指非人的事物。
因此该句子可以生成关系分类模型的输入数据:
输入文本:“[CLS]我的口袋里装着一个又大又圆的苹果,它肯定很好吃。[SEP]我:第一人称代词。口袋:口袋指指缝在衣服上用以装东西的袋形部分,衣兜。或一种装物用具,一般用布、皮做成;用布、皮等做成的装东西的用具。”
输入指定提及码:010120000000000000000000000……;
输入文本:“[CLS]我的口袋里装着一个又大又圆的苹果,它肯定很好吃。[SEP]我:第一人称代词。苹果:又称柰或林檎,是苹果树的果实,一般呈红色,但需视品种而定,富含矿物质和维生素,是人们最常食用的水果之一。有时苹果也指某科技公司,总部位于某加州的某个地区。”
输入指定提及码:010000000000000120000000000……;
输入文本:“[CLS]我的口袋里装着一个又大又圆的苹果,它肯定很好吃。[SEP]我:……它:……”;
输入指定提及码:010000000000000000100000000……;
输入文本:“[CLS]我的口袋里装着一个又大又圆的苹果,它肯定很好吃。[SEP]口袋:……苹果:……”;
输入指定提及码:000120000000000120000000000……;
输入文本:“[CLS]我的口袋里装着一个又大又圆的苹果,它肯定很好吃。[SEP]口袋:……它:……”;
输入指定提及码:000120000000000000100000000……;
输入文本:“[CLS]我的口袋里装着一个又大又圆的苹果,它肯定很好吃。[SEP]苹果:……它:……”;
输入指定提及码:000000000000000120100000000……;
将数据输入关系分类模型,模型的计算过程用公式表示为如下形式:
;
其中为将输入的指定提及码编码为矩阵的运算,sk为输入的句子拼接上知识后的整数索引向量,mids为指定提及码;其余符号与提及识别模型运算的公式表示相同。
由于关系分类模型的RoBERTa模型在结构上与提及识别模型的SpanBERT相同,将关系分类模型RoBERTa模型的运算用公式概括为如下形式:
;
其中为模型输出的编码矩阵。
将[CLS]对应的输出编码向量输入前馈网络层进行分类,得到指定提及是否有指定关系的分类结果。公式表达如下:
;
其中为是否存在共指关系的预测结果,MLP为前馈神经网络,/>为[CLS]对应的输出编码。
关系分类模型对所有提及对之间的关系进行预测之后,根据提及之间的共指关系链可以得到指代同一对象的提及集。对于“我的口袋里装着一个又大又圆的苹果,它肯定很好吃。”,关系分类模型应该得到“苹果”和“它”是指同一对象,与“我”和“口袋”构成句子中三个相互独立的对象。
图4是根据实施例示出的一种参考外部知识的指代消解装置流程框图。参照图4,该装置包括以下模块:
训练数据生成模块:获取目标文本,标记目标文本句子中的提及作为提及识别模型的训练数据;所述训练数据包括提及识别训练数据和关系分类训练数据;
搭建模块:搭建提及识别模型和关系分类模型;
模型训练模块:利用步骤(1)得到的数据训练提及识别模型和关系分类模型;
指代消解模块:将训练好的模型用于指代消解;即先利用提及识别模型识别出句子中的提及,指定句子中的任意两个提及,从知识库中检索出指定提及的知识,并拼接到句子中后输入至关系分类模型中,所述关系分类模型预测输入的提及是否有共指关系。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。
Claims (6)
1.一种参考外部知识的指代消解方法,其特征在于,所述方法包括以下步骤:
(1)生成训练数据:所述训练数据包括提及识别训练数据和关系分类训练数据;获取目标文本,标记目标文本句子中的提及作为提及识别模型的训练数据;指定文本句子中的两个或三个提及,检索出指定提及对应的知识,并标注指定提及间是否存在共指关系和存在共指关系的提及,作为关系分类模型的训练数据;关系分类模型的训练数据中包含指定两个提及和指定三个提及的情况;
(2)搭建提及识别模型和关系分类模型;提及识别模型采用在中文语料上预训练过的SpanBERT模型;关系分类模型采用在中文语料上预训练过的RoBERTa模型;
(3)利用步骤(1)得到的数据训练提及识别模型和关系分类模型;训练提及识别模型时,输入句子,训练模型预测每个字符的标签;训练关系分类模型时,输入中指定两个提及时,若这两个提及指代的是同一对象,关系分类模型判断有共指关系,并将这两个提及都进行标记;若这两个提及指代的是不同对象,关系分类模型判断无共指关系,则并不标记任何提及;输入中指定三个提及时,若这三个提及指代的是同一对象,则关系分类模型判断有共指关系,并将这三个提及都进行标记;若只有两个指代的是同一对象,则关系分类模型判断有共指关系,并将这两个提及进行标记;若三个提及指代的是不同的对象,则关系分类模型判断无共指关系,则并不标记任何提及;
(4)将训练好的模型用于指代消解;即先利用提及识别模型识别出句子中的提及,指定句子中的任意两个或三个提及,从知识库中检索出指定提及的知识,并拼接到句子中后输入至关系分类模型中,所述关系分类模型则预测输入的提及是否有共指关系和存在共指关系的提及。
2.根据权利要求1所述的一种参考外部知识的指代消解方法,其特征在于,所述步骤(1)中提及识别训练数据用于训练提及识别模型,即对于输入句子,用0表示非提及,1表示提及的开始位置,2表示提及的非开始位置对句子进行标注得到提及识别标签序列。
3.根据权利要求1所述的一种参考外部知识的指代消解方法,其特征在于,所述训练提及识别模型时,输入句子,训练模型预测每个字符的标签;训练提及识别模型的损失函数为:
其中,P为概率,为在输入句子s条件下,第i个位置的预测类型/>等于第i个位置的类型标签yi;Loss_tag为提及识别的损失,i为第i个位置,n为输入句子的长度,/>为第i个位置模型的预测类型值,yi为第i个位置的类型标签,s为输入句子的整数索引向量。
4.根据权利要求1所述的一种参考外部知识的指代消解方法,其特征在于,所述步骤(1)中关系分类训练数据用于训练关系分类模型,关系分类模型以“[CLS]”开始,之后拼接输入句子,之后拼接“[SEP]”,之后拼接指定提及对应的知识,保持长度不超过512;用指定提及码来表示指定提及的信息,将指定的提及信息以012序列的形式表示出来;0表示非指定内容,1表示指定提及的开始位置,2表示指定提及的非开始位置。
5.根据权利要求1所述的一种参考外部知识的指代消解方法,其特征在于,所述关系分类模型在训练时不仅要判断指定提及中是否有共指关系,并标记出有共指关系的提及,即训练关系分类模型时,指定两个或三个提及,训练模型判断指定提及中是否存在共指关系,并标记出存在共指关系的提及,其训练关系分类模型的损失函数为:
其中Loss_ref为关系分类模型的损失,r^为关系分类的模型预测值,r为关系分类的标签,sk为输入的句子和知识的拼接文本对应的整数索引向量,mids为输入的指定提及码,i为句子的第i个位置,n为句子的长度,为句子第i个位置模型的预测值,ti为句子第i个位置的标签;P为概率,P(r^=r|sk,mids)为在输入sk和mids条件下,关系模型的预测值r^等于关系分类的标签r的概率,/>为在输入sk和mids条件下,第i个位置的预测值/>等于第i个位置的标签ti的概率。
6.一种参考外部知识的指代消解装置,其特征在于,该装置包括以下模块:
训练数据生成模块:获取目标文本,标记目标文本句子中的提及作为提及识别模型的训练数据;所述训练数据包括提及识别训练数据和关系分类训练数据;
搭建模块:搭建提及识别模型和关系分类模型;提及识别模型采用在中文语料上预训练过的SpanBERT模型;关系分类模型采用在中文语料上预训练过的RoBERTa模型;
模型训练模块:利用得到的数据训练提及识别模型和关系分类模型;训练提及识别模型时,输入句子,训练模型预测每个字符的标签;训练关系分类模型时,输入中指定两个提及时,若这两个提及指代的是同一对象,关系分类模型判断有共指关系,并将这两个提及都进行标记;若这两个提及指代的是不同对象,关系分类模型判断无共指关系,则并不标记任何提及;输入中指定三个提及时,若这三个提及指代的是同一对象,则关系分类模型判断有共指关系,并将这三个提及都进行标记;若只有两个指代的是同一对象,则关系分类模型判断有共指关系,并将这两个提及进行标记;若三个提及指代的是不同的对象,则关系分类模型判断无共指关系,则并不标记任何提及;
指代消解模块:将训练好的模型用于指代消解;即先利用提及识别模型识别出句子中的提及,指定句子中的任意两个或三个提及,从知识库中检索出指定提及的知识,并拼接到句子中后输入至关系分类模型中,所述关系分类模型则预测输入的提及是否有共指关系和存在共指关系的提及。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310810661.XA CN116562303B (zh) | 2023-07-04 | 2023-07-04 | 一种参考外部知识的指代消解方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310810661.XA CN116562303B (zh) | 2023-07-04 | 2023-07-04 | 一种参考外部知识的指代消解方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116562303A CN116562303A (zh) | 2023-08-08 |
CN116562303B true CN116562303B (zh) | 2023-11-21 |
Family
ID=87486463
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310810661.XA Active CN116562303B (zh) | 2023-07-04 | 2023-07-04 | 一种参考外部知识的指代消解方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116562303B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462126A (zh) * | 2013-09-22 | 2015-03-25 | 富士通株式会社 | 一种实体链接方法及装置 |
CN107943847A (zh) * | 2017-11-02 | 2018-04-20 | 平安科技(深圳)有限公司 | 企业关系提取方法、装置及存储介质 |
CN110134944A (zh) * | 2019-04-08 | 2019-08-16 | 国家计算机网络与信息安全管理中心 | 一种基于强化学习的指代消解方法 |
CN111967258A (zh) * | 2020-07-13 | 2020-11-20 | 中国科学院计算技术研究所 | 一种构建共指消解模型的方法、共指消解的方法和介质 |
CN112585596A (zh) * | 2018-06-25 | 2021-03-30 | 易享信息技术有限公司 | 用于调查实体之间的关系的系统和方法 |
CN113297843A (zh) * | 2020-02-24 | 2021-08-24 | 华为技术有限公司 | 指代消解的方法、装置及电子设备 |
CN113435190A (zh) * | 2021-05-18 | 2021-09-24 | 北京理工大学 | 一种融合多层次信息抽取和降噪的篇章关系抽取方法 |
CN113536795A (zh) * | 2021-07-05 | 2021-10-22 | 杭州远传新业科技有限公司 | 实体关系抽取的方法、系统、电子装置和存储介质 |
CN114266245A (zh) * | 2020-09-16 | 2022-04-01 | 北京金山数字娱乐科技有限公司 | 一种实体链接方法及装置 |
CN115759042A (zh) * | 2022-10-07 | 2023-03-07 | 东南大学 | 一种基于句法感知提示学习的句子级问题生成方法 |
CN116049419A (zh) * | 2022-11-12 | 2023-05-02 | 中国人民解放军战略支援部队信息工程大学 | 融合多模型的威胁情报信息抽取方法及系统 |
CN116258931A (zh) * | 2022-12-14 | 2023-06-13 | 之江实验室 | 基于ViT和滑窗注意力融合的视觉指代表达理解方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7813916B2 (en) * | 2003-11-18 | 2010-10-12 | University Of Utah | Acquisition and application of contextual role knowledge for coreference resolution |
-
2023
- 2023-07-04 CN CN202310810661.XA patent/CN116562303B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015062117A (ja) * | 2013-09-22 | 2015-04-02 | 富士通株式会社 | 実体のリンク付け方法及び実体のリンク付け装置 |
CN104462126A (zh) * | 2013-09-22 | 2015-03-25 | 富士通株式会社 | 一种实体链接方法及装置 |
CN107943847A (zh) * | 2017-11-02 | 2018-04-20 | 平安科技(深圳)有限公司 | 企业关系提取方法、装置及存储介质 |
CN112585596A (zh) * | 2018-06-25 | 2021-03-30 | 易享信息技术有限公司 | 用于调查实体之间的关系的系统和方法 |
CN110134944A (zh) * | 2019-04-08 | 2019-08-16 | 国家计算机网络与信息安全管理中心 | 一种基于强化学习的指代消解方法 |
CN113297843A (zh) * | 2020-02-24 | 2021-08-24 | 华为技术有限公司 | 指代消解的方法、装置及电子设备 |
CN111967258A (zh) * | 2020-07-13 | 2020-11-20 | 中国科学院计算技术研究所 | 一种构建共指消解模型的方法、共指消解的方法和介质 |
CN114266245A (zh) * | 2020-09-16 | 2022-04-01 | 北京金山数字娱乐科技有限公司 | 一种实体链接方法及装置 |
CN113435190A (zh) * | 2021-05-18 | 2021-09-24 | 北京理工大学 | 一种融合多层次信息抽取和降噪的篇章关系抽取方法 |
CN113536795A (zh) * | 2021-07-05 | 2021-10-22 | 杭州远传新业科技有限公司 | 实体关系抽取的方法、系统、电子装置和存储介质 |
CN115759042A (zh) * | 2022-10-07 | 2023-03-07 | 东南大学 | 一种基于句法感知提示学习的句子级问题生成方法 |
CN116049419A (zh) * | 2022-11-12 | 2023-05-02 | 中国人民解放军战略支援部队信息工程大学 | 融合多模型的威胁情报信息抽取方法及系统 |
CN116258931A (zh) * | 2022-12-14 | 2023-06-13 | 之江实验室 | 基于ViT和滑窗注意力融合的视觉指代表达理解方法和系统 |
Non-Patent Citations (4)
Title |
---|
Incorporating Context and External Knowledge for Pronoun Coreference Resolution;Hongming Zhang 等;《arXiv》;第1节、第3节、第4.1节、第7节 * |
Knowledge-aware Pronoun Coreference Resolution;Hongming Zhang 等;《arXiv》;1-10 * |
基于分类信心重排序的中文共指消解研究;冯元勇 等;《中文信息学报》(第6期);22-28 * |
基于框架语义的共指消解研究;武宇娟;《中国优秀硕士学位论文全文数据库 信息科技辑》;第2021年卷(第1期);I138-2286 * |
Also Published As
Publication number | Publication date |
---|---|
CN116562303A (zh) | 2023-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ghannay et al. | Word embedding evaluation and combination | |
Xu et al. | A FOFE-based local detection approach for named entity recognition and mention detection | |
CN110275936B (zh) | 一种基于自编码神经网络的相似法律案例检索方法 | |
CN114020768B (zh) | 中文自然语言的sql语句生成模型的构建方法及应用 | |
CN111708882B (zh) | 基于Transformer的中文文本信息缺失的补全方法 | |
CN109684642B (zh) | 一种结合页面解析规则和nlp文本向量化的摘要提取方法 | |
CN113836930A (zh) | 一种中文危险化学品命名实体识别方法 | |
CN112183094A (zh) | 一种基于多元文本特征的中文语法查错方法及系统 | |
CN112380863A (zh) | 一种基于多头自注意力机制的序列标注方法 | |
Szarvas et al. | A highly accurate Named Entity corpus for Hungarian | |
Kestemont et al. | Integrated sequence tagging for medieval Latin using deep representation learning | |
CN114757184B (zh) | 实现航空领域知识问答的方法和系统 | |
CN114911947A (zh) | 一种基于知识提示的概念抽取模型 | |
CN113076718B (zh) | 一种商品属性抽取方法及其系统 | |
Kim et al. | Zero‐anaphora resolution in Korean based on deep language representation model: BERT | |
CN115687567A (zh) | 一种不需要标注数据的短文本搜索相似长文本方法 | |
CN117610562B (zh) | 一种结合组合范畴语法和多任务学习的关系抽取方法 | |
CN116562303B (zh) | 一种参考外部知识的指代消解方法及装置 | |
CN117076608A (zh) | 一种基于文本动态跨度的整合外部事件知识的脚本事件预测方法及装置 | |
Bölücü et al. | Bidirectional lstm-cnns with extended features for named entity recognition | |
CN109960782A (zh) | 一种基于深度神经网络的藏文分词方法及装置 | |
CN115906856A (zh) | 一种命名实体识别方法、系统、存储介质及终端 | |
Kumar et al. | ManuBERT: A pretrained Manufacturing science language representation model | |
Affi et al. | Arabic named entity recognition using variant deep neural network architectures and combinatorial feature embedding based on cnn, lstm and bert | |
CN113486666A (zh) | 一种医学命名实体识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |