CN114118092A - 一种快速启动的交互式关系标注与抽取框架 - Google Patents

一种快速启动的交互式关系标注与抽取框架 Download PDF

Info

Publication number
CN114118092A
CN114118092A CN202111474423.3A CN202111474423A CN114118092A CN 114118092 A CN114118092 A CN 114118092A CN 202111474423 A CN202111474423 A CN 202111474423A CN 114118092 A CN114118092 A CN 114118092A
Authority
CN
China
Prior art keywords
relation
extraction
result
extracted
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111474423.3A
Other languages
English (en)
Inventor
李学恺
漆桂林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202111474423.3A priority Critical patent/CN114118092A/zh
Publication of CN114118092A publication Critical patent/CN114118092A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种快速启动的交互式关系标注与抽取框架,包括以下步骤:S1:使用通用命名实体识别数据集对命名实体识别模型进行预训练;S2:使用通用关系抽取数据集对少样本关系抽取模型进行预训练;S3:设定待抽取关系和少量标注数据;S4:对待抽取文本进行数据预处理;S5:使用命名实体识别模型对待抽取文本进行命名实体识别;S6:对实体进行人工配对;S7:对配对结果进行初步关系抽取;S8:对关系抽取结果进行人工校对;S9:对少样本关系抽取模型进行微调;S10:重复S4到S9直到所有的待抽取文本均处理完成。该方案克服现有启动成本高昂和重人力成本投入的缺点,实现具有快速启动和低人工成本特性的关系标注和抽取。

Description

一种快速启动的交互式关系标注与抽取框架
技术领域
本发明涉及一种以人机交互为基础,快速启动的交互式关系标注与抽取框架,属于计算机人工智能以及自然语言处理技术领域。
背景技术
关系抽取是信息抽取领域的重要子任务,在知识图谱、对话系统和知识问答系统的构建等多个应用场景中起到关键作用,在医疗、军事、金融等领域也具有广泛的应用价值。关系抽取的主要目标是从文本中抽取出<主、谓、宾>的三元组结构,或<头、关系、尾>。关系抽取的常见形式是输入一段文本和其涉及的两个实体,判断文本内容是否描述了两个实体之间存在的关系,并推断出存在何种关系。
在过去的研究中,监督学习关系抽取方法取得了不错的效果。但监督学习方法本身依赖于大量的标注数据,这些标注数据的获得往往需要耗费极大的人力物力,这使得监督学习方法在实际业务落地中的冷启动成本非常高昂,难以普及。此外,监督学习方法的可迁移性也较差,例如用通用领域语料训练出来的监督学习关系抽取模型,很难应用于特定领域。因此,监督学习关系抽取方法在实际应用落地中存在诸多问题。
少样本学习技术是一种解决冷启动数据需求问题的有效方法。元学习技术是少样本学习技术中的一类重要技术,利用元学习可对关系抽取任务进行预训练,从而获得关系抽取模型的一套初始化参数。这一套初始化参数能够利用少数训练数据进行快速收敛,从而解决关系抽取任务中的冷启动数据需求问题。
主动学习技术被广泛用于降低标注成本,且在计算机视觉领域取得了较好的效果。主动学习技术通过计算机器学习过程中的指标,获取较难分类的数据样本。然后人工对这些样本进行校对和审核,并将校对后数据重新用于机器学习模型的训练,从而提升机器学习模型的性能,并降低标注的数据量。
发明内容
本发明正是针对现有技术中存在的问题,提供一种快速启动的交互式关系标注与抽取框架,该技术方案提出了利用人工校对信息降低标注数据并提升模型性能的主动学习技术,结合了少样本关系抽取技术以提升模型的冷启动性能,基于本发明公布的框架,可有效克服现有关系抽取系统冷启动成本高昂和重人力成本投入的缺点,实现具有快速启动和低人工成本特性的关系标注和抽取系统。
为了实现上述目的,本发明的技术方案如下,一种快速启动的交互式关系标注与抽取框架,包括以下步骤:
S1:使用通用命名实体识别数据集对命名实体识别模型进行预训练;
S2:使用通用关系抽取数据集对少样本关系抽取模型进行预训练;
S3:设定待抽取关系和少量标注数据;
S4:对待抽取文本进行数据预处理;
S5:使用命名实体识别模型对待抽取文本进行命名实体识别;
S6:对实体进行人工配对;
S7:对配对结果进行初步关系抽取;
S8:对关系抽取结果进行人工校对;
S9:对少样本关系抽取模型进行微调;
S10:重复S4到S9直到所有的待抽取文本均处理完成。本框架提出了利用人工校对信息降低标注数据并提升模型性能的主动学习技术,结合了少样本关系抽取技术以提升模型的冷启动性能。利用校对后数据进行模型微调,提升模型抽取的效果。基于本发明公布的框架,可有效克服现有关系抽取系统冷启动成本高昂和重人力成本投入的缺点,实现具有快速启动和低人工成本特性的关系标注和抽取系统。
作为本发明的一种改进,步骤S1:使用通用命名实体识别数据集对命名实体识别模型进行预训练,构建快速启动交互式关系标注与抽取框架,其中框架包含:命名实体识别模型、少样本关系抽取模型、待处理文本仓库、通用命名实体识别数据集、通用关系抽取数据集和专用关系抽取数据仓库,此外,所述框架还包含人工校对交互方法、元学习训练方法、参数更新方法和主动学习。
作为本发明的一种改进,步骤S2使用通用关系抽取数据集对少样本关系抽取模型进行预训练,具体如下,构建框架中的命名实体识别模型Netner,采用通用领域命名实体类识别数据集进行预训练;构建所述框架中的少样本关系抽取模型Netre,先使用通用领域关系抽取数据集以元学习方式训练,得到初始化参数θ0,再使用专用关系抽取数仓库对Netre的参数θ0进行微调,得到参数θ1
作为本发明的一种改进,步骤S3:设定待抽取关系和少量标注数据;从待处理文本仓库中,选取一条待抽取文本S。
作为本发明的一种改进,步骤S4:对待抽取文本进行数据预处理;使用预训练的命名实体类识别模型对待抽取文本进行命名实体识别,为方便标注者处理,在待处理文本中将命名实体识别的结果{e1,e2,...en}进行标记。
作为本发明的一种改进,步骤S5:使用命名实体识别模型对待抽取文本进行命名实体识别,具体如下,标注者手动将S4中识别出的命名实体进行配对,即选出需要进行关系抽取的头尾实体对{eh,et}。将被标注者选中的实体对{eh,et},以及包含实体对的句子S、实体类型{Ch,Ct}和实体在句子中的相对位置{Posh,Post}作为下一步进行关系抽取的输入。
作为本发明的一种改进,步骤S6:对实体进行人工配对,标注者手动将命名实体进行配对:在文本中依次点击两个实体,先点击的实体为头实体eh,对应类型为Ch,后点击的实体为et,对应类型为Ct;实体根据点击的实体和其所在的句子之间的关系,计算实体在句子中的相对位置,具体做法如下:
1)若eh和et均包含于句子S,则将句子S的第一个字的序号标记为0,第二个字的序号标记为1,依次标记整个句子S,则Posh={hstart,hend},Post={tstart,tend}。其中hstart为eh的开始的字的序号,hend为eh的结束的字的序号,tstart为et的开始的字的序号,tend为et的结束的字的序号;
2)若eh和et包含于两个相连的句子S1和S2,则将S1和S2进行连接,记为S,若S长度小于等于预设阈值L,并按1)所述方法进行处理;若S长度大于预设阈值L,则不构成配对,并提示标注者;
3)若eh和et包含于两个不相连的句子S1和S2,则将S1、中间句子、S2进行连接,记为S,若S长度小于等于预设阈值L,则按1)的所述方法进行处理;若S长度大于预设阈值L,则不构成配对,并提示标注者。
作为本发明的一种改进,步骤S7:对配对结果进行初步关系抽取,具体如下,
S7:标注者人工校对S6中的抽取结果,确认预测关系
Figure BDA0003392376690000031
是否正确。如果预测正确,则将结果关系记为
Figure BDA0003392376690000032
并同步骤S6的输入一并记录为一组正确关系抽取结果
Figure BDA0003392376690000033
如果预测错误,则需要标注者人工从候选关系集合R中选择正确的结果关系
Figure BDA0003392376690000034
并记
Figure BDA0003392376690000035
并同步骤S6的输入一并记录为一组校对关系抽取结果
Figure BDA0003392376690000036
作为本发明的一种改进,步骤S8:对关系抽取结果进行人工校对;具体如下:
标注者人工校对S7中的抽取结果,确认预测关系
Figure BDA0003392376690000037
是否正确,其具体做法如下:
1)如果预测正确,则将结果关系记为
Figure BDA0003392376690000038
并同S5的输入一并记录为一组正确关系抽取结果
Figure BDA0003392376690000039
2)如果预测错误,则需要标注者人工从候选关系集合R中选择正确的结果关系
Figure BDA00033923766900000310
并记
Figure BDA00033923766900000311
并同S5的输入一并记录为一组校对关系抽取结果
Figure BDA00033923766900000312
作为本发明的一种改进,步骤S9:对少样本关系抽取模型进行微调;具体如下:
1)当存入的正确关系抽取结果数量小于K+且校对关系抽取结果数量小于K-时,使用所有专用关系抽取数据仓库中的数据对Netre进行微调,其参数更新公式如下:
Figure BDA0003392376690000041
其中,θi-1为更新前的参数,θi为更新后参数,D为所有专用关系抽取数据仓库中的数据;
当参数更新后,将D中的所有校对关系抽取结果D-取出,用θi初始化关系抽取模型,并对D-进行预测,将仍然预测错误的结果的错误次数加1;并使用仍然预测错误的校对结果对参数进行一次微调;
2)当存入的正确关系抽取结果数量大于等于K+或校对关系抽取结果数量大于等于K-时,从正确关系抽取结果D+中随机选取K+个正确关系抽取结果,从校对关系抽取结果中,按以下公式计算各结果的选中概率:
Figure BDA0003392376690000042
其中,Pi表示第i个校对关系抽取结果被选中的概率,ECi表示该结果在1)所述的微调后预测中,错误的累计次数;计算所有校对关系抽取结果的概率,被并按概率不重复地选择K-个校对关系抽取结果,组成微调数据集,并对参数进行一次微调。
当参数更新后,如1)所述再对所有校对关系抽取结果进行一次预测,将仍然预测错误的结果的错误次数加1;并使用仍然预测错误的校对结果对参数进行一次微调。
作为本发明的一种改进,步骤S10:微调后的少样本关系抽取模型Netre用于后续的待抽取文本的抽取任务。
相对于现有技术,本发明具有如下优点,该技术方案本发明中所述的少样本关系抽取面向的是冷启动知识图谱构建等使用领域的关系抽取方法。在少样本关系抽取中,在系统启动时,需要对所需抽取的关系进行预设,这要求系统使用者完善待抽取关系的关系名称和关系描述的录入,并对每个待抽取关系添加少量标注好的抽取数据。不同于监督学习关系抽取方法,少样本关系抽取的预训练在不同关系的数据集上进行,这一数据集需按任务进行组织,数据组织的基本单位是任务,而每个任务的构成则遵守被称为N-way-K-shot的实验设定。N-way指的是每个任务中被分类的类别数量为N,K-shot指的是在这些任务中的支持集中,每个类别包含了K个训练样本。支持集指的是一个任务中用于训练关系抽取模型的数据,查询集则指的则是用于测试关系抽取模型的数据。在元训练阶段使用的任务被称为元训练任务,在元测试阶段使用的任务被称为元测试任务,而且它们包含不同的分类类别,一般若干元训练任务构成一个轮次,元训练阶段包含一或多个轮次。在元测试阶段,元学习器将在元训练阶段获得的元知识快速应用于支持集的训练过程,通过使用极少量支持集快速对关系抽取模型进行微调,并使用微调结果对专用关系抽取数据集进行关系分类预测。所述框架具有快速启动和低人工成本的特性,这两个特性的实现依赖于:1)利用少样本关系抽取算法实现快速启动的特性,通过元学习方法预训练关系抽取模型的初始化参数,利用该初始化参数可使用极少量数据完成快速启动;2)利用人机交互提供监督信息,利用主动学习技术筛选数据对模型进行微调,提升模型性能并降低微调的时间需求。本框架与现有技术相比,考虑了人机交互所带来的监督信息,利用少样本关系抽取技术解决在关系抽取系统启动阶段的冷启动问题,利用主动学习技术降低模型在微调时所需要使用的数据量,提高了模型的性能并降低了微调所需的时间。有效解决了关系抽取系统的冷启动问题,提出了具有快速启动和低人工成本特性的关系标注和抽取系统框架。基于该框架,可以开发出具有如上特点的关系标注与抽取系统,此类系统在知识图谱构建、对话系统构建、问答系统构建上具有广泛的应用价值和意义。
附图说明
图1是关系抽取的常见形式示意图;
图2是本发明中所提出的框架总体示意图;
图3是本发明实施例中的关系抽取神经网络分类模型的结构。
具体实施方式:
为了加深对本发明的理解,下面结合附图对本实施例做详细的说明。
实施例1:参见图1-图3,一种快速启动的交互式关系标注与抽取框架,包括以下步骤:
S1:使用通用命名实体识别数据集对命名实体识别模型进行预训练;
S2:使用通用关系抽取数据集对少样本关系抽取模型进行预训练;
S3:设定待抽取关系和少量标注数据;
S4:对待抽取文本进行数据预处理;
S5:使用命名实体识别模型对待抽取文本进行命名实体识别;
S6:对实体进行人工配对;
S7:对配对结果进行初步关系抽取;
S8:对关系抽取结果进行人工校对;
S9:对少样本关系抽取模型进行微调;
S10:重复S4到S9直到所有的待抽取文本均处理完成。
其中,步骤S1中的快速启动的交互式关系标注与抽取框架如图2所示;
构建快速启动的交互式关系标注与抽取框架,其中框架包含:命名实体识别模型、少样本关系抽取模型、待处理文本仓库、通用命名实体识别数据集、通用关系抽取数据集和专用关系抽取数据仓库,此外,所述框架还包含人工校对交互方法、元学习训练方法、参数更新方法和主动学习。
步骤S2使用通用关系抽取数据集对少样本关系抽取模型进行预训练,具体如下,构建框架中的命名实体识别模型Netner,采用通用领域命名实体类识别数据集进行预训练;构建所述框架中的少样本关系抽取模型Netre,先使用通用领域关系抽取数据集以元学习方式训练,得到初始化参数θ0,再使用专用关系抽取数仓库对Netre的参数θ0进行微调,得到参数θ1
所述步骤S2中所述的专用关系抽取数据仓库仅包含标注者自行制定的关系类型和少量的相应标注数据。
所述步骤S2中所述的构建少样本关系抽取模型Netre的步骤中,元学习训练方法,详述如下:
Figure BDA0003392376690000061
进一步地,所述步骤S2中所述的构建少样本关系抽取模型Netre的步骤中,元学习微调方法,详述如下:
Figure BDA0003392376690000071
步骤S3:设定待抽取关系和少量标注数据;从待处理文本仓库中,选取一条待抽取文本S;
步骤S4:对待抽取文本进行数据预处理;使用预训练的命名实体类识别模型对待抽取文本进行命名实体识别,为方便标注者处理,在待处理文本中将命名实体识别的结果{e1,e2,...en}进行标记,具体做法为:将文本中所识别出的实体按不同的类型进行颜色标记,其中,实体类型为预先定义的;
步骤S5:使用命名实体识别模型对待抽取文本进行命名实体识别,具体如下,标注者手动将S4中识别出的命名实体进行配对,即选出需要进行关系抽取的头尾实体对{eh,et}。将被标注者选中的实体对{eh,et},以及包含实体对的句子S、实体类型{Ch,Ct}和实体在句子中的相对位置{Posh,Post}作为下一步进行关系抽取的输入。
步骤S6:对实体进行人工配对,标注者手动将命名实体进行配对:在文本中依次点击两个实体,先点击的实体为头实体eh,对应类型为Ch,后点击的实体为et,对应类型为Ct;实体根据点击的实体和其所在的句子之间的关系,计算实体在句子中的相对位置,具体做法如下:
1)若eh和et均包含于句子S,则将句子S的第一个字的序号标记为0,第二个字的序号标记为1,依次标记整个句子S,则Posh={hstart,hend},Post={tstart,tend}。其中hstart为eh的开始的字的序号,hend为eh的结束的字的序号,tstart为et的开始的字的序号,tend为et的结束的字的序号;
2)若eh和et包含于两个相连的句子S1和S2,则将S1和S2进行连接,记为S,若S长度小于等于预设阈值L,并按1)所述方法进行处理;若S长度大于预设阈值L,则不构成配对,并提示标注者;
3)若eh和et包含于两个不相连的句子S1和S2,则将S1、中间句子、S2进行连接,记为S,若S长度小于等于预设阈值L,则按1)的所述方法进行处理;若S长度大于预设阈值L,则不构成配对,并提示标注者。
步骤S7:对配对结果进行初步关系抽取,具体如下,
S7:标注者人工校对S6中的抽取结果,确认预测关系
Figure BDA0003392376690000081
是否正确。如果预测正确,则将结果关系记为
Figure BDA0003392376690000082
并同步骤S6的输入一并记录为一组正确关系抽取结果
Figure BDA0003392376690000083
如果预测错误,则需要标注者人工从候选关系集合R中选择正确的结果关系
Figure BDA0003392376690000084
并记
Figure BDA0003392376690000085
并同步骤S6的输入一并记录为一组校对关系抽取结果
Figure BDA0003392376690000086
步骤S8:对关系抽取结果进行人工校对;具体如下:
标注者人工校对S7中的抽取结果,确认预测关系
Figure BDA0003392376690000087
是否正确,其具体做法如下:
1)如果预测正确,则将结果关系记为
Figure BDA0003392376690000088
并同S5的输入一并记录为一组正确关系抽取结果
Figure BDA0003392376690000089
2)如果预测错误,则需要标注者人工从候选关系集合R中选择正确的结果关系
Figure BDA00033923766900000810
并记
Figure BDA00033923766900000811
并同S5的输入一并记录为一组校对关系抽取结果
Figure BDA00033923766900000812
步骤S9:对少样本关系抽取模型进行微调;具体如下:
1)当存入的正确关系抽取结果数量小于K+且校对关系抽取结果数量小于K-时,使用所有专用关系抽取数据仓库中的数据对Netre进行微调,其参数更新公式如下:
Figure BDA00033923766900000813
其中,θi-1为更新前的参数,θi为更新后参数,D为所有专用关系抽取数据仓库中的数据;
当参数更新后,将D中的所有校对关系抽取结果D-取出,用θi初始化关系抽取模型,并对D-进行预测,将仍然预测错误的结果的错误次数加1;并使用仍然预测错误的校对结果对参数进行一次微调;
2)当存入的正确关系抽取结果数量大于等于K+或校对关系抽取结果数量大于等于K-时,从正确关系抽取结果D+中随机选取K+个正确关系抽取结果,从校对关系抽取结果中,按以下公式计算各结果的选中概率:
Figure BDA0003392376690000091
其中,Pi表示第i个校对关系抽取结果被选中的概率,ECi表示该结果在1)所述的微调后预测中,错误的累计次数;计算所有校对关系抽取结果的概率,被并按概率不重复地选择K-个校对关系抽取结果,组成微调数据集,并对参数进行一次微调;
当参数更新后,如1)所述再对所有校对关系抽取结果进行一次预测,将仍然预测错误的结果的错误次数加1;并使用仍然预测错误的校对结果对参数进行一次微调。
步骤S10:微调后的少样本关系抽取模型Netre用于后续的待抽取文本的抽取任务。
具体实施例:参照图1一图3,本实施例中,通用命名实体识别数据集为MUC-6和MUC-7数据集,通用关系抽取数据集为FewRel,待处理文本仓库中的文本段来源于Wikipedia。命名实体识别模型是基于条件随机场的序列标注模型,关系抽取模型采用PrototypicalNetwork结构,其中,采用PCNN模型为文本句子和实体进行编码,其结构如图3所示,采用GloVe词嵌入向量作为预训练词向量对句子中的词进行编码。
本实施例中应用本发明提供的一种快速启动的交互式关系标注与抽取框架,其总体框架如图2所示,其具体包括如下步骤:
步骤1)使用通用命名实体识别数据集对命名实体识别模型进行预训练;
设定命名实体的7个类型:地点(Location),人物(Person),机构组织(Organization),货币(Money),百分比(Percent),日期(Date),时间(Time);使用MUC 6和MUC 7数据集的训练集作为训练数据;训练数据文件中,每行得第一个是字,第二个是它的标签,使用空格分隔,标签类型为“BIO-类型”联合标签;使用BERT预训练模型对训练数据进行嵌入编码,使用条件随机场作为解码器;使用命名实体类识别任务常用的路径得分和的负对数作为损失函数;
步骤2)使用通用关系抽取数据集对少样本关系抽取模型进行预训练;
使用FewRel数据集对少样本关系抽取模型进行预训练,在训练文件中,每个训练实例由三个部分组成,自然语言句子S,头实体eh和尾实体et。其中,每个实体中包含三个部分,实体指称,实体首字在S中的相对位置和实体尾字在S中的相对位置;使用GloVe对自然语言句子S中的单词进行嵌入式向量编码,使用PCNN将句子的嵌入式编码和实体相对位置信息进行编码得到实体向量;使用BiLSTM对关系标签进行编码得到关系向量;采用余弦相似度计算实体向量和关系向量计算相似度得分;使用间隔损失函数作为训练的损失函数;
步骤3)设定待抽取关系和少量标注数据;
标注者手动添加若干个待抽取关系,每个关系需要添加关系名称和关系描述;此外,针对每个待抽取关系,添加10个标注数据,标注数据结构同FewRel数据集中的数据结构;
步骤4)对待抽取文本进行数据预处理;
待抽取文本需先进行清洗和预处理,以方便后续抽取流程,具体操作为:
1)滤除特殊符号和标点,采用正则表达式匹配来滤除文本中除逗号、句号、问号、引号和书名号之外的其他所有特殊符号符号;
2)为保证抽取速度,将按段落为单位存放。针对长文本,本实施例中以300词为上限,将长文本以句子划分成段落,以限制内最后一个自然句的结束作为分割条件;
步骤5)使用命名实体识别模型对待抽取文本进行命名实体识别;
针对命名实体识别的结果,根据“BIO-类型”标签,将不同实体进行划分,并标记各实体的类型;本实施例中以特殊颜色对实体进行了标注,在预选定义的七类实体中,每类实体均定义不同颜色,并和文本一同进行显示;
步骤6)对实体进行人工配对;
在本实施例中,标注者在文本中依次点击两个实体进行配对。先点击的实体为头实体eh,对应类型为Ch,后点击的实体为et,对应类型为Ct;实体根据点击的实体和其所在的句子之间的关系,计算实体在句子中的相对位置,具体做法如下:
1)若eh和et均包含于句子S,则将句子S的第一个字的序号标记为0,第二个字的序号标记为1,依次标记整个句子S,则Posh={nstart,hend},Post={tstart,tend}。其中hstart为eh的开始的字的序号,hend为eh的结束的字的序号,tstart为et的开始的字的序号,tend为et的结束的字的序号;
2)若eh和et包含于两个相连的句子S1和S2,则将S1和S2进行连接,记为S,若S长度小于等于预设阈值L,并按1)所述方法进行处理;若S长度大于预设阈值L,则不构成配对,并提示标注者;
3)若eh和et包含于两个不相连的句子S1和S2,则将S1、中间句子、S2进行连接,记为S,若S长度小于等于预设阈值L,则按1)的所述方法进行处理;若S长度大于预设阈值L,则不构成配对,并提示标注者;
步骤7)对配对结果进行初步关系抽取;
将配对结果输入给关系抽取模型,关系抽取模型取出句子S、实体eh和et、实体相对位置Posh和Post,将其编码为实例向量;将专用关系抽取数据仓库中的候选关系取出,并将其编码为关系向量;计算实例向量与关系向量之间的余弦相似度,并选择相似度最高的关系向量所代表的关系作为预测关系
Figure BDA0003392376690000111
步骤8)对关系抽取结果进行人工校对;
在本实施例中,标注者需要人工校对步骤7)中的抽取结果,确认预测关系
Figure BDA0003392376690000112
是否正确。其具体做法如下:
1)如果预测正确,则将结果关系记为
Figure BDA0003392376690000113
并步骤7)的输入一并记录为一组正确关系抽取结果
Figure BDA0003392376690000114
2)如果预测错误,则需要标注者人工从候选关系集合R中选择正确的结果关系
Figure BDA0003392376690000115
并记
Figure BDA0003392376690000116
并步骤7)的输入一并记录为一组校对关系抽取结果
Figure BDA0003392376690000117
步骤9)对少样本关系抽取模型进行微调;
在本实施例中,当专用关系抽取数据仓库存入的关系抽取结果数量达到一定数量后,使用其中的数据对少样本关系抽取模型Netre进行微调,其具体做法如下:
1)当存入的正确关系抽取结果数量小于K+且校对关系抽取结果数量小于K-时,使用所有专用关系抽取数据仓库中的数据对Netre进行微调,其参数更新公式如下:
Figure BDA0003392376690000118
其中,θi-1为更新前的参数,θi为更新后参数,D为所有专用关系抽取数据仓库中的数据;
当参数更新后,将D中的所有校对关系抽取结果D-取出,用θi初始化关系抽取模型,并对D-进行预测,将仍然预测错误的结果的错误次数加1;并使用仍然预测错误的校对结果对参数进行一次微调;
2)当存入的正确关系抽取结果数量大于等于K+或校对关系抽取结果数量大于等于K-时,从正确关系抽取结果D+中随机选取K+个正确关系抽取结果,从校对关系抽取结果中,按以下公式计算各结果的选中概率:
Figure BDA0003392376690000119
其中,Pi表示第i个校对关系抽取结果被选中的概率,ECi表示该结果在1)所述的微调后预测中,错误的累计次数;计算所有校对关系抽取结果的概率,被并按概率不重复地选择K-个校对关系抽取结果,组成微调数据集,并对参数进行一次微调;
当参数更新后,如1)所述再对所有校对关系抽取结果进行一次预测,将仍然预测错误的结果的错误次数加1;并使用仍然预测错误的校对结果对参数进行一次微调;
步骤10)重复步骤4)到步骤9)直到所有的待抽取文本均处理完成。
综上所述,本发明方法基于人机交互所带来的监督信息,提出了一种结合少样本关系抽取技术和主动学习技术的互式关系标注与抽取框架。该方法利用了少样本关系抽取技术解决在关系抽取系统启动阶段的冷启动问题,利用主动学习技术降低模型在微调时所需要使用的数据量,提高了模型的性能并降低了微调所需的时间。基于该方法,可有效克服现有关系抽取系统冷启动成本高昂和重人力成本投入的缺点,实现具有快速启动和低人工成本特性的关系标注和抽取系统。此类系统在知识图谱构建、对话系统构建、问答系统构建等自然语言处理领域及信息抽取领域具有广泛的应用价值和应用前景。
需要说明的是上述实施例,并非用来限定本发明的保护范围,在上述技术方案的基础上所作出的等同变换或替代均落入本发明权利要求所保护的范围。

Claims (10)

1.一种快速启动的交互式关系标注与抽取框架,其特征在于,包括以下步骤:
S1:使用通用命名实体识别数据集对命名实体识别模型进行预训练;
S2:使用通用关系抽取数据集对少样本关系抽取模型进行预训练;
S3:设定待抽取关系和少量标注数据;
S4:对待抽取文本进行数据预处理;
S5:使用命名实体识别模型对待抽取文本进行命名实体识别;
S6:对实体进行人工配对;
S7:对配对结果进行初步关系抽取;
S8:对关系抽取结果进行人工校对;
S9:对少样本关系抽取模型进行微调;
S10:重复S4到S9直到所有的待抽取文本均处理完成。
2.根据权利要求1所述的快速启动的交互式关系标注与抽取框架,其特征在于,步骤S1:使用通用命名实体识别数据集对命名实体识别模型进行预训练,构建快速启动交互式关系标注与抽取框架,框架包含:命名实体识别模型、少样本关系抽取模型、待处理文本仓库、通用命名实体识别数据集、通用关系抽取数据集和专用关系抽取数据仓库。
3.根据权利要求2所述的快速启动的交互式关系标注与抽取框架,其特征在于,步骤S2使用通用关系抽取数据集对少样本关系抽取模型进行预训练,具体如下,构建框架中的命名实体识别模型Netner,采用通用领域命名实体类识别数据集进行预训练;构建所述框架中的少样本关系抽取模型Netre,先使用通用领域关系抽取数据集以元学习方式训练,得到初始化参数θ0,再使用专用关系抽取数仓库对Netre的参数θ0进行微调,得到参数θ1
4.根据权利要求3所述的快速启动的交互式关系标注与抽取框架,其特征在于,步骤S3:设定待抽取关系和少量标注数据;从待处理文本仓库中,选取一条待抽取文本S。
5.根据权利要求4所述的快速启动的交互式关系标注与抽取框架,其特征在于,步骤S4:对待抽取文本进行数据预处理;使用预训练的命名实体类识别模型对待抽取文本进行命名实体识别,在待处理文本中将命名实体识别的结果{e1,e2,...en}进行标记。
6.根据权利要求5所述的快速启动的交互式关系标注与抽取框架,其特征在于,步骤S5:使用命名实体识别模型对待抽取文本进行命名实体识别,具体如下,标注者手动将S4中识别出的命名实体进行配对,即选出需要进行关系抽取的头尾实体对{eh,et},将被标注者选中的实体对{eh,et},以及包含实体对的句子S、实体类型{Ch,Ct}和实体在句子中的相对位置{Posh,Post}作为下一步进行关系抽取的输入。
7.根据权利要求6所述的快速启动的交互式关系标注与抽取框架,其特征在于,步骤S6:对实体进行人工配对,标注者手动将命名实体进行配对:在文本中依次点击两个实体,先点击的实体为头实体eh,对应类型为Ch,后点击的实体为et,对应类型为Ct;实体根据点击的实体和其所在的句子之间的关系,计算实体在句子中的相对位置,具体做法如下:
1)若eh和et均包含于句子S,则将句子S的第一个字的序号标记为0,第二个字的序号标记为1,依次标记整个句子S,则Posh={hstart,hend},Post={tstart,tend},其中hstart为eh的开始的字的序号,hend为eh的结束的字的序号,tstart为et的开始的字的序号,tend为et的结束的字的序号;
2)若eh和et包含于两个相连的句子S1和S2,则将S1和S2进行连接,记为S,若S长度小于等于预设阈值L,并按1)所述方法进行处理;若S长度大于预设阈值L,则不构成配对,并提示标注者;
3)若eh和et包含于两个不相连的句子S1和S2,则将S1、中间句子、S2进行连接,记为S,若S长度小于等于预设阈值L,则按1)的所述方法进行处理;若S长度大于预设阈值L,则不构成配对,并提示标注者。
8.根据权利要求7所述的快速启动的交互式关系标注与抽取框架,其特征在于,步骤S7:对配对结果进行初步关系抽取,具体如下,
S7:标注者人工校对S6中的抽取结果,确认预测关系
Figure FDA0003392376680000021
是否正确,如果预测正确,则将结果关系记为
Figure FDA0003392376680000022
并同步骤S6的输入一并记录为一组正确关系抽取结果
Figure FDA0003392376680000023
如果预测错误,则需要标注者人工从候选关系集合R中选择正确的结果关系
Figure FDA0003392376680000024
并记
Figure FDA0003392376680000025
并同步骤S6的输入一并记录为一组校对关系抽取结果
Figure FDA0003392376680000026
9.根据权利要求8所述的快速启动的交互式关系标注与抽取框架,其特征在于,步骤S8:对关系抽取结果进行人工校对;具体如下:
标注者人工校对S7中的抽取结果,确认预测关系
Figure FDA0003392376680000027
是否正确,其具体做法如下:
1)如果预测正确,则将结果关系记为
Figure FDA0003392376680000028
并同S5的输入一并记录为一组正确关系抽取结果
Figure FDA0003392376680000029
2)如果预测错误,则需要标注者人工从候选关系集合R中选择正确的结果关系
Figure FDA00033923766800000210
并记
Figure FDA0003392376680000031
并同S5的输入一并记录为一组校对关系抽取结果
Figure FDA0003392376680000032
10.根据权利要求9所述的快速启动的交互式关系标注与抽取框架,其特征在于,步骤S9:对少样本关系抽取模型进行微调;具体如下:
1)当存入的正确关系抽取结果数量小于K+且校对关系抽取结果数量小于K-时,使用所有专用关系抽取数据仓库中的数据对Netre进行微调,其参数更新公式如下:
Figure FDA0003392376680000033
其中,θi-1为更新前的参数,θi为更新后参数,D为所有专用关系抽取数据仓库中的数据;
当参数更新后,将D中的所有校对关系抽取结果D-取出,用θi初始化关系抽取模型,并对D-进行预测,将仍然预测错误的结果的错误次数加1;并使用仍然预测错误的校对结果对参数进行一次微调;
2)当存入的正确关系抽取结果数量大于等于K+或校对关系抽取结果数量大于等于K-时,从正确关系抽取结果D+中随机选取K+个正确关系抽取结果,从校对关系抽取结果中,按以下公式计算各结果的选中概率:
Figure FDA0003392376680000034
其中,Pi表示第i个校对关系抽取结果被选中的概率,ECi表示该结果在1)所述的微调后预测中,错误的累计次数;计算所有校对关系抽取结果的概率,被并按概率不重复地选择K-个校对关系抽取结果,组成微调数据集,并对参数进行一次微调;
当参数更新后,如1)所述再对所有校对关系抽取结果进行一次预测,将仍然预测错误的结果的错误次数加1;并使用仍然预测错误的校对结果对参数进行一次微调。
CN202111474423.3A 2021-12-03 2021-12-03 一种快速启动的交互式关系标注与抽取框架 Pending CN114118092A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111474423.3A CN114118092A (zh) 2021-12-03 2021-12-03 一种快速启动的交互式关系标注与抽取框架

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111474423.3A CN114118092A (zh) 2021-12-03 2021-12-03 一种快速启动的交互式关系标注与抽取框架

Publications (1)

Publication Number Publication Date
CN114118092A true CN114118092A (zh) 2022-03-01

Family

ID=80366649

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111474423.3A Pending CN114118092A (zh) 2021-12-03 2021-12-03 一种快速启动的交互式关系标注与抽取框架

Country Status (1)

Country Link
CN (1) CN114118092A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115238702A (zh) * 2022-09-21 2022-10-25 中科雨辰科技有限公司 一种实体库处理方法及存储介质
CN117422960A (zh) * 2023-12-14 2024-01-19 广州华微明天软件技术有限公司 一种基于元学习的图像识别持续学习方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115238702A (zh) * 2022-09-21 2022-10-25 中科雨辰科技有限公司 一种实体库处理方法及存储介质
CN115238702B (zh) * 2022-09-21 2022-12-06 中科雨辰科技有限公司 一种实体库处理方法及存储介质
CN117422960A (zh) * 2023-12-14 2024-01-19 广州华微明天软件技术有限公司 一种基于元学习的图像识别持续学习方法
CN117422960B (zh) * 2023-12-14 2024-03-26 广州华微明天软件技术有限公司 一种基于元学习的图像识别持续学习方法

Similar Documents

Publication Publication Date Title
CN110032648B (zh) 一种基于医学领域实体的病历结构化解析方法
CN109800414B (zh) 语病修正推荐方法及系统
Severyn et al. Modeling relational information in question-answer pairs with convolutional neural networks
CN109885660A (zh) 一种知识图谱赋能的基于信息检索的问答系统和方法
CN106980609A (zh) 一种基于词向量表示的条件随机场的命名实体识别方法
CN110163181B (zh) 手语识别方法及装置
CN111310470B (zh) 一种融合字词特征的中文命名实体识别方法
CN110909549B (zh) 对古汉语进行断句的方法、装置以及存储介质
CN108845988B (zh) 一种实体识别方法、装置、设备及计算机可读存储介质
CN114118092A (zh) 一种快速启动的交互式关系标注与抽取框架
CN111966810B (zh) 一种用于问答系统的问答对排序方法
CN109271524B (zh) 知识库问答系统中的实体链接方法
CN111400455A (zh) 基于知识图谱的问答系统的关系检测方法
CN110096572B (zh) 一种样本生成方法、装置及计算机可读介质
CN111159485A (zh) 尾实体链接方法、装置、服务器及存储介质
CN115186665B (zh) 一种基于语义的无监督学术关键词提取方法及设备
CN111897954A (zh) 一种用户评论方面挖掘系统、方法、及存储介质
CN113901170A (zh) 结合Bert模型和模板匹配的事件抽取方法及系统、电子设备
CN115510864A (zh) 一种融合领域词典的中文农作物病虫害命名实体识别方法
Ye et al. Improving cross-domain Chinese word segmentation with word embeddings
CN112613293A (zh) 摘要生成方法、装置、电子设备及存储介质
Li et al. LSTM-based deep learning models for answer ranking
CN112926323B (zh) 基于多级残差卷积与注意力机制的中文命名实体识别方法
CN113903420A (zh) 一种语义标签确定模型的构建方法、病历解析方法
CN110807327B (zh) 一种基于语境化胶囊网络的生物医学实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination