CN114528394A - 一种基于掩码语言模型的文本三元组提取方法及装置 - Google Patents
一种基于掩码语言模型的文本三元组提取方法及装置 Download PDFInfo
- Publication number
- CN114528394A CN114528394A CN202210426479.XA CN202210426479A CN114528394A CN 114528394 A CN114528394 A CN 114528394A CN 202210426479 A CN202210426479 A CN 202210426479A CN 114528394 A CN114528394 A CN 114528394A
- Authority
- CN
- China
- Prior art keywords
- text
- mask
- entity
- language model
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 46
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000002372 labelling Methods 0.000 claims description 18
- 239000012634 fragment Substances 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000005065 mining Methods 0.000 claims description 4
- 238000002360 preparation method Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims description 2
- 230000000873 masking effect Effects 0.000 claims 1
- 230000035515 penetration Effects 0.000 description 18
- 238000012545 processing Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 235000002722 Dioscorea batatas Nutrition 0.000 description 1
- 235000006536 Dioscorea esculenta Nutrition 0.000 description 1
- 240000001811 Dioscorea oppositifolia Species 0.000 description 1
- 235000003416 Dioscorea oppositifolia Nutrition 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 210000000689 upper leg Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于掩码语言模型的文本三元组提取方法及装置,首先用自定义模板和自定义分隔符构造掩码语言模型的训练样本,包含实体类型预测的训练样本和关系类型预测的训练样本,并进行向量化表示,对掩码语言模型进行训练和预测,得到掩模位置上模型词中某个字符的置信度,选取各实体类型名称对应位置的置信度的最大值,该最大值为实体类型结果的置信度;将预测的实体和实体之间的关系形成三元组。本发明利用掩码语言模型对上下文的建模能力进行文本实体识别和关系识别,可在少量标注样本场景下的达到高准确率,减少了通常的用分类层进行多种类型识别时扩展性差的问题,同时用相同的方法进行关系识别,最终可得到三元组和事件单元。
Description
技术领域
本发明涉及文本三元组提取领域,尤其涉及一种基于掩码语言模型的文本三元组提取方法及装置。
背景技术
在文本信息抽取的应用场景中,场景多样、细化,缺少标注样本,标注样本获取成本高是工业应用上面临的现状,目前的技术针对少量标注样本的场景还没有成熟的方案,面对这样的现状,如何更有效的对实体和关系识别进行建模,是一个热门的研究方向。
目前的文本信息抽取方法中,基于模型训练的方法需要大量的标注样本,虽然有一些深度模型呈现准确度越来越高,需要的标注样本量越来越少的趋势,但仍然需要一定量的标注样本才能训练得到可用的模型,在获得样本前,无法开展工作,这样的过程相当于将开发成本转嫁到样本的标注上,整体开发效率仍然低下。将掩码语言模型的方法应用到实体识别时,遇到的最大问题是候选词过多,计算效率低。本发明基于掩码语言模型进行实体和关系识别,并得到三元组或事件单元,在少量样本的情形下达到高准确率。
发明内容
本发明目的在于针对现有技术的不足,提出一种基于掩码语言模型的文本三元组提取方法及装置。
本发明的目的是通过以下技术方案来实现的:第一方面,本发明提供了一种基于掩码语言模型的文本三元组提取方法,该方法包括以下步骤:
(1)样本准备:获取文本S中的全部候选实体及其实体类型,将“文本S-实体E-实体类型T”作为一个样本,用候选实体的自定义模板将样本整理成新的文本,将文本S与候选实体的自定义模板用自定义分隔符连接,并将多个候选实体的自定义模板合并连接为一条文本,从文本S中截取文本片段S2,文本片段S2为包含多个候选实体的片段,文本片段S2加上若干个候选实体的长度要小于掩码语言模型允许输入的最大长度,得到用于掩码语言模型训练的训练样本;
(2)样本向量化表示:将训练样本转为文本向量,将实体类型T作为掩模,记录其在训练样本中的位置以及实体E的向量;
(3)掩码语言模型训练:将文本向量输入语言表征模型,得到输出向量,将输出向量输入预训练语言模型,再从得到的语言模型向量中取出掩模对应位置的值,输入线性分类网络,得到掩模位置上为模型词表中某个字符的置信度,其长度为模型词表大小,与训练样本中实体E的向量比较,用交叉熵得到训练损失;
(4)掩码语言模型预测:选取各实体类型名称对应位置的置信度,取最大值对应的实体类型名称,作为文本S2-实体E对中实体E的类型,该最大值为实体类型结果的置信度;
(5)关系识别:预设语料中标注了实体以及实体间的关系,对每一条文本,取出全部实体对,将“文本S-实体E1-实体E2-关系类型R”作为一个样本,用实体对的自定义模板将样本整理成一个新的文本,将文本S与实体对的自定义模板用自定义分隔符连接,并将多个实体对的自定义模板合并连接为一条文本,从文本S中截取文本片段S3,文本片段S3为包含多个候选实体的片段,文本片段S3加上若干个实体对模板的长度要小于掩码语言模型允许输入的最大长度,得到用于掩码语言模型训练的训练样本;将关系类型R作为掩模,采用步骤(2)-(4)相同的方式进行掩码语言模型的训练和预测,得到预测的实体之间的关系类型;
(6)将实体和实体之间的关系形成三元组。
进一步地,步骤(1)中,通过分词、ngram语言模型或短语挖掘计算文本中的候选实体。
进一步地,步骤(1)中,所述候选实体的自定义模板包括“其中E是__的实体”、“E是__”、“实体E为__”。
进一步地,步骤(1)中,将候选实体的自定义模板中的“__”用符号[MASK]表示,[MASK]的个数与实体类型名称的字符个数相同,实体类型名称用统一长度的字符表示。
进一步地,步骤(1)中,所述自定义分隔符为不存在于实体中的分隔符,包括“;”、“:”或“[SEP]”。
进一步地,步骤(2)中,将训练文本转为文本向量的过程为将训练文本中的字、标点符号和英文单词转为模型词表中的子词并用对应的数字序列表示。
进一步地,步骤(4)中,掩码语言模型预测时,采用bart生成模型,样本构造选择如下两种情况之一:
1)将“文本S2”为掩码语言模型中编码层的输入,候选实体的自定义模板的样本为掩码语言模型中解码层的输入;
2)将文本S2与候选实体的自定义模板用自定义分隔符连接后的文本作为掩码语言模型编码层输入,实体类型名称为解码层输入;
掩码语言模型输出为与候选实体的自定义模板的样本长度相同的置信度向量,置信度向量中每个位置的长度为模型词表的大小,用动态规划方法计算得到向量中各实体类型名称的置信度,选取最大值作为实体E的实体类型。
进一步地,步骤(4)中,掩码语言模型预测时,采用bert序列标注模型,在输入时对序列标注模型的每一层加入固定长度的前缀,该前缀作为可调参数,序列标注模型输出时忽略前缀部分,只选取文本部分对应位置的输出,输入crf网络层得到序列标签,与文本的BIO序列标注对比,产生交叉熵损失,对前缀参数,或前缀参数和bert序列标注模型参数进行调节;其中前缀由随机产生的数值输入到embedding网络、线性网络和非线性激活函数得到的向量。
第三方面,本发明还提供了一种基于掩码语言模型的文本三元组提取装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现所述的基于掩码语言模型的文本三元组提取方法。
第三方面,本发明还提供了一种计算机可读存储介质,其上存储有程序,所述程序被处理器执行时,实现所述的基于掩码语言模型的文本三元组提取方法。
本发明的有益效果:本发明利用掩码语言模型对上下文的建模能力进行文本实体识别和关系识别,可在少量标注样本场景下的达到高准确率,将多种实体的识别在相同的框架下建模,扩展灵活,减少了通常的用分类层进行多种类型识别时扩展性差的问题,同时用相同的方法进行关系识别,最终可得到三元组和事件单元。
附图说明
图1为本发明提供的一种基于掩码语言模型的文本三元组提取方法流程图。
图2为本发明实体类型识别的流程示意图。
图3为本发明提供的一种基于掩码语言模型的文本三元组提取装置结构示意图。
具体实施方式
以下结合附图对本发明具体实施方式作进一步详细说明。
如图1和图2所示,本发明提供的一种基于掩码语言模型的文本三元组提取方法,针对具有少量标注语料的场景进行三元组的提取,包括实体识别和关系提取。该方法包括以下步骤:
(1)样本准备:通过分词、ngram语言模型或短语挖掘计算文本S中的全部候选实体,得到一条文本S中的全部候选实体及其实体类型,如果不是实体类型,则定义其类型为“其他”,实体类型名称用一致长度的文本来表示,如“药物”“疾病”“其他”都是长度为2的类型名称,将“文本S-实体E-实体类型T”作为一个样本,用候选实体的自定义模板将样本整理成新的文本,所述候选实体的自定义模板包括“其中E是__的实体”、“E是__”、“实体E为__”;将文本S与候选实体的自定义模板用自定义分隔符连接,所述自定义分隔符为不存在于实体中的分隔符,包括“;”、“:”、[SEP],如用候选实体的自定义模板“其中E是__的实体”形成一个样本“文本S;其中E是T的实体”。或将文本S和候选实体的模板文本作为2个句子,中间用模型词表中的特殊符号[SEP]连接。
(2)模型加速:为了减少每条文本的计算次数,加快模型的训练和预测,将文本中出现的多个候选实体的自定义模板合并连接为一条文本,作为模型的输入。例如:对于文本S中的多个候选实体E1、E2、...En,采用模板“E是__”,连接后变为“文本S;E1是[MASK][MASK];E2是[MASK][MASK];...En是[MASK][MASK]”,作为模型的输入,预测文本中的多个MASK值。为了保证文本长度小于模型最大长度MAX_LEN(一般为512),即连接后的文本进行数字序列表示tokenize后的长度小于模型最大长度,同时保证有足够的上下文信息来预测实体类型,需对文本S和候选实体模板作如下处理:对全部候选实体按照起始位置和长度进行排序(优先起始位置,在起始位置相同时按长度排序),排序后按顺序选取n个候选实体及文本S的片段S2,S2取第1个选取实体所在的片段,再向左右扩展M个tokenize后的字符,每新增选取一个候选实体,对S2更新,即如果新增实体的终点位置大于S2的终点位置,将S2终点位置更新为新增实体的终点位置,直到长度>=MAX_LEN,当长度大于MAX_LEN时删除最后一次实体新增和S2更新,得到总体长度<=MAX_LEN的连接文本,作为用于掩码语言模型训练的训练样本。合并的结果是大大减少了一条文本的模型推理次数,加快了训练和预测。
(3)样本向量化表示:将训练样本转为文本向量,即将文本中的字、标点符号和英文单词转为模型词表中的子词并用对应的数字序列表示,将实体类型T作为掩模,将候选实体的自定义模板中的“__”用符号[MASK]表示,[MASK]的个数与实体类型名称的字符个数相同,实体类型名称用统一长度的字符表示。并记录[MASK]在文本中的位置mask_position;并记录实体E的向量;
(4)掩码语言模型训练:用bert等语言理解模型,随机将文本S2中的字符换成[MASK],并对其内容预测,用预测结果与原始内容比较并产生交叉熵损失,得到预训练模型。将文本向量输入预训练好的bert模型,得到输出向量,将输出向量输入由线性网络和非线性激活函数构成的预训练语言模型,再从得到的语言模型向量中取出掩模对应位置的值,输入线性分类网络或lstm网络,得到掩模位置上为模型词表中某个字符的置信度,其长度为模型词表大小,与训练样本中实体E的向量比较,用交叉熵得到训练损失;
可选的,可将自定义模板中非[MASK]部分的字符用[UNK]替换,在训练中对其进行微调,代替需要人工选择模板的不足,不同模板的选择对于模型准确率的影响较大。
难样本挖掘训练:由于样本数量巨大,在对全部数据训练完一轮后,对训练数据预测一遍,选取出预测错误的样本,以及预测正确但是置信度小于阈值的样本,作为难样本,投入下一轮的训练。同时,将难样本取出进行核对,发现标注中的错误并纠正,纠正后再投入训练。如此能够快速发现标注中的错误,快速提高标注质量和模型质量。
(5)掩码语言模型预测:选取各实体类型名称对应位置的置信度,取最大值对应的实体类型名称,作为文本S2-实体E对中实体E的类型,该最大值为实体类型结果的置信度。
可选的,掩码语言模型预测时,采用bart生成模型,样本构造选择如下两种情况之一:
1)将“文本S2”为掩码语言模型中编码层的输入,候选实体的自定义模板的样本为掩码语言模型中解码层的输入;
2)将文本S2与候选实体的自定义模板用自定义分隔符连接后的文本,如“文本S2;其中E是__”作为掩码语言模型编码层输入,实体类型名称为解码层输入;
掩码语言模型输出为与候选实体的自定义模板的样本长度相同的置信度向量,置信度向量中每个位置的长度为模型词表的大小,用动态规划方法如ctc网络层计算得到向量中各实体类型名称的置信度,即“其中E是T1的实体”、“其中E是T2的实体”等多个实体类型名称的置信度,选取最大值作为实体E的实体类型。
可选的,掩码语言模型预测时,采用bert序列标注模型,在输入时对序列标注模型的每一层加入固定长度的前缀,该前缀作为可调参数,序列标注模型输出时忽略前缀部分,只选取文本部分对应位置的输出,输入crf网络层得到序列标签,与文本的BIO序列标注对比,产生交叉熵损失,对前缀参数,或前缀参数和bert序列标注模型参数进行调节;其中前缀由随机产生的数值输入到embedding网络、线性网络和非线性激活函数得到的向量。
(6)关系识别:预设语料中标注了实体以及实体间的关系,对每一条文本,取出全部实体对,将“文本S-实体E1-实体E2-关系类型R”作为一个样本,用实体对的自定义模板将样本整理成一个新的文本,将文本S与实体对的自定义模板用自定义分隔符连接,如用实体对的自定义模板“其中E1和E2是__关系”形成一个文本“文本S;其中E1和E2是R关系”,将关系类型R作为掩模,采用步骤(2)-(5)相同的方式进行掩码语言模型的训练和预测,得到预测的实体之间的关系类型;
(7)将实体和实体之间的关系形成三元组。
对于由多个实体连接形成的事件单元,在得到实体后可按照上述步骤构造事件提取模板,并用相同的方式训练和预测。
实施例:
输入文本S:“值得注意的是,从这家公司的股权穿透图可以看到,某司的CEO王某控股95%,某司的联合创始人兼CTO穆某均持股5%,其目前负责某司点评的金融服务及公司事务。”
输入文本截取S2:“这家公司的股权穿透图可以看到,某司的CEO王某控股95%”
候选实体:股权穿透图可以、股权穿透图可以看到、穿透、穿透图、穿透图可以、穿透图可以看到、穿透图可以看到,、图可以、图可以看到、图可以看到,、图可以看到,某司、可以、可以看到、可以看到,、可以看到,某司、可以看到,某司的、看到、看到,、看到,某司、看到,某司的、,某司、,某司的、,某司的CEO、某司、某司的、某司的CEO、某司的CEO王某、某司的CEO王某控股、的CEO、的CEO王某、的CEO王某控股、的CEO王某控股95%、CEO、CEO王某、CEO王某控股、CEO王某控股95%、王某、王某控股、王某控股95%、控股、控股95%、95%。
合并拼接后的模型输入:这家公司的股权穿透图可以看到,某司的CEO王某控股95%;股权穿透图可以是[MASK][MASK];股权穿透图可以看到是[MASK][MASK];穿透是[MASK][MASK];穿透图是[MASK][MASK];穿透图可以是[MASK][MASK];穿透图可以看到是[MASK][MASK];穿透图可以看到,是[MASK][MASK];图可以是[MASK][MASK];图可以看到是[MASK][MASK];图可以看到,是[MASK][MASK];图可以看到,某司是[MASK][MASK];可以是[MASK][MASK];可以看到是[MASK][MASK];可以看到,是[MASK][MASK];可以看到,某司是[MASK][MASK];可以看到,某司的是[MASK][MASK];看到是[MASK][MASK];看到,是[MASK][MASK];看到,某司是[MASK][MASK];看到,某司的是[MASK][MASK];,某司是[MASK][MASK];,某司的是[MASK][MASK];,某司的CEO是[MASK][MASK];某司是[MASK][MASK];某司的是[MASK][MASK];某司的CEO是[MASK][MASK];某司的CEO王某是[MASK][MASK];某司的CEO王某控股是[MASK][MASK];的CEO是[MASK][MASK];的CEO王某是[MASK][MASK];的CEO王某控股是[MASK][MASK];的CEO王某控股95%是[MASK][MASK];CEO是[MASK][MASK];CEO王某是[MASK][MASK];CEO王某控股是[MASK][MASK];CEO王某控股95%是[MASK][MASK];王某是[MASK][MASK];王某控股是[MASK][MASK];王某控股95%是[MASK][MASK];控股是[MASK][MASK];控股95%是[MASK][MASK];95%是[MASK][MASK]
模型预测结果:这家公司的股权穿透图可以看到,某司的CEO王某控股95%;股权穿透图可以是其他;股权穿透图可以看到是其他;穿透是其他;穿透图是其他;穿透图可以是其他;穿透图可以看到是其他;穿透图可以看到,是其他;图可以是其他;图可以看到是其他;图可以看到,是其他;图可以看到,某司是其他;可以是其他;可以看到是其他;可以看到,是其他;可以看到,某司是其他;可以看到,某司的是其他;看到是其他;看到,是其他;看到,某司是其他;看到,某司的是其他;,某司是其他;,某司的是其他;,某司的CEO是其他;某司是机构;某司的是其他;某司的CEO是其他;某司的CEO王某是其他;某司的CEO王某控股是其他;的CEO是其他;的CEO王某是其他;的CEO王某控股是其他;的CEO王某控股95%是其他;CEO是其他;CEO王某是其他;CEO王某控股是其他;CEO王某控股95%是其他;王某是人名;王某控股是其他;王某控股95%是其他;控股是其他;控股95%是其他;95%是其他
即得到人名类型实体“王某”,机构类型实体“某司”。
关系识别:在得到实体结果后,进行关系识别。
模型输入:这家公司的股权穿透图可以看到,某司的CEO王某控股95%;其中某司和王某是[MASK][MASK]关系
模型预测结果:这家公司的股权穿透图可以看到,某司的CEO王某控股95%;其中某司和王某是股东关系
即得到“王某”和“某司”是股东关系。
与前述基于掩码语言模型的文本三元组提取方法的实施例相对应,本发明还提供了基于掩码语言模型的文本三元组提取装置的实施例。
参见图3,本发明实施例提供的一种基于掩码语言模型的文本三元组提取装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,用于实现上述实施例中的基于掩码语言模型的文本三元组提取方法。
本发明基于掩码语言模型的文本三元组提取装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图3所示,为本发明基于掩码语言模型的文本三元组提取装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于掩码语言模型的文本三元组提取方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。
Claims (10)
1.一种基于掩码语言模型的文本三元组提取方法,其特征在于,该方法包括以下步骤:
(1)样本准备:获取文本S中的全部候选实体及其实体类型,将“文本S-实体E-实体类型T”作为一个样本,用候选实体的自定义模板将样本整理成新的文本,将文本S与候选实体的自定义模板用自定义分隔符连接,并将多个候选实体的自定义模板合并连接为一条文本,从文本S中截取文本片段S2,文本片段S2为包含多个候选实体的片段,文本片段S2加上若干个候选实体的长度要小于掩码语言模型允许输入的最大长度,得到用于掩码语言模型训练的训练样本;
(2)样本向量化表示:将训练样本转为文本向量,将实体类型T作为掩模,记录其在训练样本中的位置以及实体E的向量;
(3)掩码语言模型训练:将文本向量输入语言表征模型,得到输出向量,将输出向量输入预训练语言模型,再从得到的语言模型向量中取出掩模对应位置的值,输入线性分类网络,得到掩模位置上为模型词表中某个字符的置信度,其长度为模型词表大小,与训练样本中实体E的向量比较,用交叉熵得到训练损失;
(4)掩码语言模型预测:选取各实体类型名称对应位置的置信度,取最大值对应的实体类型名称,作为文本S2-实体E对中实体E的类型,该最大值为实体类型结果的置信度;
(5)关系识别:预设语料中标注了实体以及实体间的关系,对每一条文本,取出全部实体对,将“文本S-实体E1-实体E2-关系类型R”作为一个样本,用实体对的自定义模板将样本整理成一个新的文本,将文本S与实体对的自定义模板用自定义分隔符连接,并将多个实体对的自定义模板合并连接为一条文本,从文本S中截取文本片段S3,文本片段S3为包含多个候选实体的片段,文本片段S3加上若干个实体对模板的长度要小于掩码语言模型允许输入的最大长度,得到用于掩码语言模型训练的训练样本;将关系类型R作为掩模,采用步骤(2)-(4)相同的方式进行掩码语言模型的训练和预测,得到预测的实体之间的关系类型;
(6)将实体和实体之间的关系形成三元组。
2.根据权利要求1所述的一种基于掩码语言模型的文本三元组提取方法,其特征在于,步骤(1)中,通过分词、ngram语言模型或短语挖掘计算文本中的候选实体。
3.根据权利要求1所述的一种基于掩码语言模型的文本三元组提取方法,其特征在于,步骤(1)中,所述候选实体的自定义模板包括“其中E是__的实体”、“E是__”、“实体E为__”。
4.根据权利要求3所述的一种基于掩码语言模型的文本三元组提取方法,其特征在于,步骤(1)中,将候选实体的自定义模板中的“__”用符号[MASK]表示,[MASK]的个数与实体类型名称的字符个数相同,实体类型名称用统一长度的字符表示。
5.根据权利要求1所述的一种基于掩码语言模型的文本三元组提取方法,其特征在于,步骤(1)中,所述自定义分隔符为不存在于实体中的分隔符,包括“;”、“:”或“[SEP]”。
6.根据权利要求1所述的一种基于掩码语言模型的文本三元组提取方法,其特征在于,步骤(2)中,将训练文本转为文本向量的过程为将训练文本中的字、标点符号和英文单词转为模型词表中的子词并用对应的数字序列表示。
7.根据权利要求1所述的一种基于掩码语言模型的文本三元组提取方法,其特征在于,步骤(4)中,掩码语言模型预测时,采用bart生成模型,样本构造选择如下两种情况之一:
1)将“文本S2”为掩码语言模型中编码层的输入,候选实体的自定义模板的样本为掩码语言模型中解码层的输入;
2)将文本S2与候选实体的自定义模板用自定义分隔符连接后的文本作为掩码语言模型编码层输入,实体类型名称为解码层输入;
掩码语言模型输出为与候选实体的自定义模板的样本长度相同的置信度向量,置信度向量中每个位置的长度为模型词表的大小,用动态规划方法计算得到向量中各实体类型名称的置信度,选取最大值作为实体E的实体类型。
8.根据权利要求1所述的一种基于掩码语言模型的文本三元组提取方法,其特征在于,步骤(4)中,掩码语言模型预测时,采用bert序列标注模型,在输入时对序列标注模型的每一层加入固定长度的前缀,该前缀作为可调参数,序列标注模型输出时忽略前缀部分,只选取文本部分对应位置的输出,输入crf网络层得到序列标签,与文本的BIO序列标注对比,产生交叉熵损失,对前缀参数,或前缀参数和bert序列标注模型参数进行调节;其中前缀由随机产生的数值输入到embedding网络、线性网络和非线性激活函数得到的向量。
9.一种基于掩码语言模型的文本三元组提取装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,其特征在于,所述处理器执行所述可执行代码时,实现如权利要求1-8中任一项所述的基于掩码语言模型的文本三元组提取方法。
10.一种计算机可读存储介质,其上存储有程序,其特征在于,所述程序被处理器执行时,实现如权利要求1-8中任一项所述的基于掩码语言模型的文本三元组提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210426479.XA CN114528394B (zh) | 2022-04-22 | 2022-04-22 | 一种基于掩码语言模型的文本三元组提取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210426479.XA CN114528394B (zh) | 2022-04-22 | 2022-04-22 | 一种基于掩码语言模型的文本三元组提取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114528394A true CN114528394A (zh) | 2022-05-24 |
CN114528394B CN114528394B (zh) | 2022-08-26 |
Family
ID=81627939
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210426479.XA Active CN114528394B (zh) | 2022-04-22 | 2022-04-22 | 一种基于掩码语言模型的文本三元组提取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114528394B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116662579A (zh) * | 2023-08-02 | 2023-08-29 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、计算机及存储介质 |
CN117171653A (zh) * | 2023-11-02 | 2023-12-05 | 成方金融科技有限公司 | 一种识别信息关系的方法、装置、设备及存储介质 |
CN118132685A (zh) * | 2024-05-07 | 2024-06-04 | 恒生电子股份有限公司 | 文本处理模型训练方法及装置、文本处理方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
CN112559556A (zh) * | 2021-02-25 | 2021-03-26 | 杭州一知智能科技有限公司 | 表格模式解析和序列掩码的语言模型预训练方法及系统 |
CN112560486A (zh) * | 2020-11-25 | 2021-03-26 | 国网江苏省电力有限公司电力科学研究院 | 基于多层神经网络的电力实体识别方法、存储介质和设备 |
CN113704392A (zh) * | 2021-04-13 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 文本中实体关系的抽取方法、装置、设备及存储介质 |
US20210374334A1 (en) * | 2020-05-29 | 2021-12-02 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method for training language model, electronic device and readable storage medium |
WO2021238337A1 (zh) * | 2020-05-29 | 2021-12-02 | 华为技术有限公司 | 用于实体标注的方法和装置 |
CN113761893A (zh) * | 2021-11-11 | 2021-12-07 | 深圳航天科创实业有限公司 | 一种基于模式预训练的关系抽取方法 |
CN113806493A (zh) * | 2021-10-09 | 2021-12-17 | 中国人民解放军国防科技大学 | 一种用于互联网文本数据的实体关系联合抽取方法、装置 |
-
2022
- 2022-04-22 CN CN202210426479.XA patent/CN114528394B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
US20210374334A1 (en) * | 2020-05-29 | 2021-12-02 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method for training language model, electronic device and readable storage medium |
WO2021238337A1 (zh) * | 2020-05-29 | 2021-12-02 | 华为技术有限公司 | 用于实体标注的方法和装置 |
CN112560486A (zh) * | 2020-11-25 | 2021-03-26 | 国网江苏省电力有限公司电力科学研究院 | 基于多层神经网络的电力实体识别方法、存储介质和设备 |
CN112559556A (zh) * | 2021-02-25 | 2021-03-26 | 杭州一知智能科技有限公司 | 表格模式解析和序列掩码的语言模型预训练方法及系统 |
CN113704392A (zh) * | 2021-04-13 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 文本中实体关系的抽取方法、装置、设备及存储介质 |
CN113806493A (zh) * | 2021-10-09 | 2021-12-17 | 中国人民解放军国防科技大学 | 一种用于互联网文本数据的实体关系联合抽取方法、装置 |
CN113761893A (zh) * | 2021-11-11 | 2021-12-07 | 深圳航天科创实业有限公司 | 一种基于模式预训练的关系抽取方法 |
Non-Patent Citations (1)
Title |
---|
陈彦光等: "《面向法律文本的三元组抽取模型》", 《计算机工程》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116662579A (zh) * | 2023-08-02 | 2023-08-29 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、计算机及存储介质 |
CN116662579B (zh) * | 2023-08-02 | 2024-01-26 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、计算机及存储介质 |
CN117171653A (zh) * | 2023-11-02 | 2023-12-05 | 成方金融科技有限公司 | 一种识别信息关系的方法、装置、设备及存储介质 |
CN117171653B (zh) * | 2023-11-02 | 2024-01-23 | 成方金融科技有限公司 | 一种识别信息关系的方法、装置、设备及存储介质 |
CN118132685A (zh) * | 2024-05-07 | 2024-06-04 | 恒生电子股份有限公司 | 文本处理模型训练方法及装置、文本处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114528394B (zh) | 2022-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114528394B (zh) | 一种基于掩码语言模型的文本三元组提取方法及装置 | |
CN107220235B (zh) | 基于人工智能的语音识别纠错方法、装置及存储介质 | |
CN112417885A (zh) | 基于人工智能的答案生成方法、装置、计算机设备及介质 | |
CN111832318B (zh) | 单语句自然语言处理方法、装置、计算机设备及可读存储介质 | |
CN110222328B (zh) | 基于神经网络的分词和词类标注方法、装置、设备及存储介质 | |
CN110704547B (zh) | 基于神经网络的关系抽取数据生成方法、模型及训练方法 | |
CN113948066B (zh) | 一种实时转译文本的纠错方法、系统、存储介质和装置 | |
CN113656547B (zh) | 文本匹配方法、装置、设备及存储介质 | |
CN114661881A (zh) | 一种基于问答模式的事件抽取方法、装置和设备 | |
CN111160026B (zh) | 一种模型训练方法、装置、实现文本处理的方法及装置 | |
CN115658898A (zh) | 一种中英文本实体关系抽取方法、系统及设备 | |
CN113743101A (zh) | 文本纠错方法、装置、电子设备和计算机存储介质 | |
CN113673228A (zh) | 文本纠错方法、装置、计算机存储介质及计算机程序产品 | |
CN111916063A (zh) | 基于bpe编码的序列化方法、训练方法、系统及存储介质 | |
CN110851597A (zh) | 一种基于同类实体替换的语句标注的方法及装置 | |
CN116129883A (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN114330375A (zh) | 一种基于固定范式的术语翻译方法及系统 | |
CN112836498A (zh) | 数据处理方法、识别方法、装置及计算设备 | |
CN114519357B (zh) | 基于机器学习的自然语言处理方法和系统 | |
CN114090928B (zh) | 嵌套html实体解码方法、装置、计算机设备和存储介质 | |
CN118035426B (zh) | 一种基于用户画像的机器人客服自动回复方法及系统 | |
CN113255292B (zh) | 基于预训练模型的端到端文本生成方法及相关设备 | |
CN112181389B (zh) | 生成教程片段的api标记的方法、系统及计算机设备 | |
CN110728141B (zh) | 一种分词方法、装置、电子设备及存储介质 | |
CN116522920A (zh) | 一种实体关系抽取方法、装置及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: 310051 7th floor, building B, 482 Qianmo Road, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province Patentee after: Huoshi Creation Technology Co.,Ltd. Address before: 310051 7th floor, building B, 482 Qianmo Road, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province Patentee before: HANGZHOU FIRESTONE TECHNOLOGY Co.,Ltd. |
|
CP01 | Change in the name or title of a patent holder |