CN116561308A - 一种基于强化对比学习微调的跨域小样本关系抽取方法和系统 - Google Patents
一种基于强化对比学习微调的跨域小样本关系抽取方法和系统 Download PDFInfo
- Publication number
- CN116561308A CN116561308A CN202310358885.1A CN202310358885A CN116561308A CN 116561308 A CN116561308 A CN 116561308A CN 202310358885 A CN202310358885 A CN 202310358885A CN 116561308 A CN116561308 A CN 116561308A
- Authority
- CN
- China
- Prior art keywords
- category
- class
- training
- layer
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 79
- 238000012549 training Methods 0.000 claims abstract description 64
- 238000000034 method Methods 0.000 claims abstract description 60
- 230000008447 perception Effects 0.000 claims abstract description 51
- 230000002708 enhancing effect Effects 0.000 claims abstract description 15
- 230000006870 function Effects 0.000 claims abstract description 14
- 238000012360 testing method Methods 0.000 claims abstract description 14
- 238000012795 verification Methods 0.000 claims abstract description 11
- 230000002787 reinforcement Effects 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 20
- 230000004927 fusion Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 6
- 238000002156 mixing Methods 0.000 claims description 4
- 238000003860 storage Methods 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims 1
- 238000013461 design Methods 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 6
- 238000009826 distribution Methods 0.000 description 5
- 238000012512 characterization method Methods 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000013526 transfer learning Methods 0.000 description 3
- 230000004931 aggregating effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于强化对比学习微调的跨域小样本关系抽取方法和系统。该方法包括:利用预训练语言模型和特定领域知识库,采用训练集和验证集训练得到预训练的特征提取模型;利用测试集中支持集的少量新类样本,通过类别感知层和数据增强层进行增强后,利用对比学习损失函数对预训练的特征提取模型和类别感知层进行微调;将待处理的查询实例通过预训练的特征提取模型提取特征,并通过类别感知层进行增强,计算增强后的查询实例与各个类别原型之间的相似度,选择最相似的类别原型所属的类别作为查询实例的关系类别。本发明能够弥合不同领域之间的语义空间差距,并从新类中学习新的类敏感信息,能够有效提高关系预测的准确度。
Description
技术领域
本发明属于信息技术领域,具体涉及一种基于强化对比学习微调的跨域小样本关系抽取方法和系统。
背景技术
近年来,随着信息技术的快速发展,互联网中生成的数据呈现爆炸式增长。这些数据包括结构化数据(如表格数据)和非结构化数据(如文本、图像、音频等),这些数据的规模和复杂性不断增加,使得传统的数据分析方法变得不再适用。信息抽取技术的研究因此变得越来越重要。这种技术是指从大量的非结构化文本数据中提取出结构化的信息。这些信息可以是实体、关系和事件。与传统的文本挖掘技术相比,信息抽取技术更注重从文本中提取出结构化的信息,并将其存储到数据库中,以供进一步分析和应用。信息抽取技术的应用非常广泛,如在金融领域中,可以利用信息抽取技术来提取财务报告中的关键信息,以便进行风险评估和投资决策。在医疗领域中,信息抽取技术可以帮助提取医疗记录中的关键信息,以帮助医生进行诊断和治疗决策。在电子商务领域中,可以利用信息抽取技术来自动化产品分类和描述,从而提高销售效率和用户体验。
传统的关系抽取方法通常需要大量的标注数据来训练模型,然而在实际应用中,标注数据的获取成本往往非常高昂。特别是在跨域场景下,由于数据的异构性,很难直接将一个领域的标注数据应用于另一个领域。因此,如何在不同领域之间实现跨域关系抽取成为了研究的重点。跨域小样本关系抽取技术的研究旨在解决在小样本情况下跨域关系抽取的问题。在这种情况下,由于数据量很少,传统的机器学习方法容易出现过拟合等问题,导致关系抽取的准确率降低。因此,研究者们开始探索一些新的方法来解决这个问题。其中,迁移学习和元学习是两个较为常见的方法。迁移学习是一种通过利用已有的知识来解决新问题的方法。在跨域小样本关系抽取中,迁移学习可以将已训练好的模型通过在新的领域中利用少量数据来进行微调从而用于新领域的关系抽取中。元学习则是一种学习如何学习的方法,通过在不同的任务中学习到的共性知识,以快速适应新任务。这种方法可以通过学习如何快速适应新领域的数据来提高关系抽取的准确率。对于跨域小样本关系抽取技术的研究可以更好地满足实际应用的需求,大大提升数据分析的能力。
现有的跨域小样本关系抽取方法主要有基于迁移学习和元学习的方法。这些方法虽然在一定程度上缓解了跨域小样本问题,但仍然存在以下缺陷:
1)基于元学习的方法通常在常见类中预先训练特征提取器,然后直接应用到新类中。然而,不同领域之间的特征分布存在着巨大的差距。直接将特征提取器应用于新类将获得次优表示,导致分类性能显著下降。微调可以从新的样本中学习并改进语义空间,从而缓解这一问题。但是传统的基于微调的方法通常对特征提取器进行微调并重新训练一个新的分类层。然而,在跨域小样本关系抽取中,新类的样本数量很少,无法很好地训练新的分类层。因此,通过微调来优化语义空间是一项艰巨的挑战。
2)在新类中无法学习类敏感信息可能导致关系混乱,使实例难以区分。由于以前的一些工作只考虑上下文信息,而没有学习新类中的任何类敏感信息,因此可能无法区分混淆关系。为了学习类敏感信息,可能需要在同一类的样本之间建立关联,或者设计一些新的网络层。由于新类的标记样本数量很少,很难控制要学习的内容,模型容易陷入过拟合的风险。
发明内容
针对现有跨域小样本关系抽取方法的不足,本发明提出了一种基于强化对比学习微调的跨域小样本关系抽取方法和系统。该方法专注于在跨域和小样本条件下使用少量新域的样本对模型进行微调,以弥合不同领域之间的语义空间差距,并从新类中学习新的类敏感信息。
本发明采用的技术方案如下:
一种基于强化对比学习微调的跨域小样本关系抽取方法,包括以下步骤:
利用预训练语言模型和特定领域知识库,采用训练集和验证集进行训练,得到预训练的特征提取模型;
利用测试集中支持集的少量新类样本,通过类别感知层和数据增强层进行增强后,利用对比学习损失函数对所述预训练的特征提取模型和类别感知层进行微调;
将待处理的查询实例通过所述预训练的特征提取模型提取特征,并通过所述类别感知层进行增强,计算增强后的查询实例与各个类别原型之间的相似度,选择最相似的类别原型所属的类别作为查询实例的关系类别。
进一步地,在训练所述特征提取模型之前,将训练集、验证集和测试集中需要预测关系的头尾实体取出,从预先训练好的知识库实体嵌入中取出对应的实体嵌入并且构成相应的嵌入文件。
进一步地,所述利用预训练语言模型和特定领域知识库,采用训练集和验证集进行训练,得到预训练的特征提取模型,包括:
使用预训练语言模型BERT对输入文本进行编码,并获得句子中每个词的上下文化的嵌入表示,同时采用特殊标记填充在句中实体的两侧,以标记实体边界并为编码器突出显示实体,并且设置一个最大长度,用另一种特殊标记将所有的句子填充到该长度;
将句子中每个词的上下文化的嵌入表示输入到知识融合网络中,并将根据实体id检索出的预训练知识一起作为所述知识融合网络的输入;所述知识融合网络由若干个多层感知机构成,首先聚合实体的多级概念表示,以取均值的方式进行,然后将实体表示依次与概念表示和实体描述表示通过全连接层进行融合,得到最终的样本特征;
对于训练集的支持集和查询集中的样本特征进行归一化后,计算有监督对比损失。
进一步地,所述类别感知层分别为支持集的每个类别初始化一个类别感知向量,其维度与每个样本经过特征提取模型后得出的特征维度相同,将支持集中每个类别的样本特征分别与其类别感知向量进行点乘得到类别感知的样本特征,微调过程中利用类别感知的样本特征通过梯度反向传播的方式来自动优化类别感知层,学习每个类别特有的类别特定信息,提高样本的可区分性。
进一步地,所述数据增强层通过dropout和随机扰动来获取增强样本,将其与未增强的样本混合之后计算有监督对比损失以微调整个特征提取模型和类别感知层。
进一步地,所述将查询实例通过类别感知层进行增强,包括:根据候选预测类别的数量创建查询实例的副本,每个关系类别的查询实例副本与其对应的类别感知向量相乘得到类别感知的查询实例特征;用于增强查询实例的类别感知层与进行微调的类别感知层共享参数,充分利用微调过程中学习到的类别特有信息以增强查询实例的特征。
一种基于强化对比学习微调的跨域小样本关系抽取系统,其包括:
特征提取模块,用于利用预训练语言模型和特定领域知识库,采用训练集和验证集进行训练,得到预训练的特征提取模型;
微调模块,用于利用测试集中支持集的少量新类样本,通过类别感知层和数据增强层进行增强后,利用对比学习损失函数对所述预训练的特征提取模型和类别感知层进行微调;
分类模块,用于将待处理的查询实例通过所述预训练的特征提取模型提取特征,并通过所述类别感知层进行增强,计算增强后的查询实例与各个类别原型之间的相似度,选择最相似的类别原型所属的类别作为查询实例的关系类别。
本发明的有益效果如下:
1)本发明针对现有的基于元学习的方法中,无法对编码器进行领域自适应,从而导致在新域当中无法生成较好的表征,提出基于对比学习的微调模块。与传统的重新训练分类层的微调方法不同,在本发明中,微调被建模为一个基于对比学习的任务,用于在新类中细化语义空间。这种设计下,模型可以避免引入额外的分类层,从而降低过拟合的风险。在新域的少量样本中进行微调可以探索新域的特征空间,弥补不同领域之间的特征分布差距并且学习新的类别敏感信息得到更好的特征表示,从而提高关系预测的准确度。
2)本发明针对现有的大部分方法中,在新的类别里只依赖于上下文信息,无法学习类敏感信息可能导致关系混乱,无法区分混淆关系,提出类别感知层和数据增强层。类型感知层在特征级突出每个实例的类敏感信息,有助于区分混淆关系的细微差别。数据增强机制可以保证对比学习中的正实例对和负实例对,提高基于对比学习的微调的稳定性。同时在预测过程中也可以使用类别感知层中的信息对于查询实例进行特征增强,从而帮助模型提高对于查询实例关系的预测准确度。
附图说明
图1是本发明方法的流程示意图。
图2是本发明方法提出的模型预训练-微调架构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步详细说明。
本发明提出一种基于强化对比学习微调的跨域小样本关系抽取方法,该方法专注于在跨域和小样本条件下使用少量新域的样本对模型进行微调,以弥合不同领域之间的语义空间差距,并从新类中学习新的类敏感信息。具体来说,为了获得更好的表示,该方法先在大规模公共领域数据集中对特征提取模块进行了预训练,该模块可以捕获上下文信息并结合每个实例的背景知识。基于对比学习的微调模块可以用于弥补常见类和新类在语义空间上的差距。在本发明中微调被建模为一个对比学习的任务,通过实例对来计算有监督的对比损失,并对整个模型进行优化。通过这种方式模型可以改进语义空间,并且在不引入任何额外的分类层的情况下,获得更好的新类样本表示。同时,本发明还设计了类型感知网络和数据增强机制,用于强化基于对比学习的微调能力。类型感知网络在特征级突出每个实例的类敏感信息,有助于区分混淆关系的细微差别。数据增强机制可以保证对比学习中的正实例对和负实例对,提高基于对比学习的微调的稳定性。最后,本发明设计了一个分类模块来获取关系类别原型和增强查询表征,这些查询实例的表征可以更加关注类敏感信息,从而提高分类性能。
本发明提出的基于强化对比学习的跨域小样本关系抽取方法主要由基于知识增强的特征提取模块、基于对比学习的微调模块和基于查询特征混合增强的分类模块组成。
基于知识增强的特征提取模块通过利用大规模预训练语言模型和额外的特定领域知识库中的知识可以获取更好的词表征,同时多源信息的融合也能够使得小样本条件下每个样例中的信息更加丰富,在对应的特征空间中更加具有区分性。
基于对比学习的微调模块可以用于弥补不同领域之间的特征分布差距并且学习新的类别敏感信息。与传统的重新训练分类层的微调方法不同,在本发明中,微调被建模为一个基于对比学习的任务,用于在新类中优化语义空间。这种设计下,模型可以避免引入额外的分类层,从而降低过拟合的风险。该模块还设计了类型感知网络和数据增强机制,类型感知网络旨在从特征层面学习新类中的类敏感信息,有助于区分混淆关系的细微差别。它基于这样一个命题:对于一个特征向量,有一些位置编码类敏感信息,也有一些位置编码域信息。对于同一领域的不同类别,类别敏感位置的特征对分类有显著的贡献。然而,编码域信息的位置特征可能有较低的贡献。对于新领域中向某些方向偏斜的特征,其整体分布可能与普通领域中的特征相差甚远。所以不同领域之间的类敏感位置可能不一样,这表明我们需要在新类中学习新的类敏感信息。类型感知网络由多个具有少量参数的特定类别可训练向量组成。每个特定于类别的向量对应一个关系,该向量可以为类别敏感的信息位置分配较高的权重,而为无用的信息位置分配较低的权重。数据增强机制旨在丰富新类的实例,保证对比学习中正实例对和反实例对的存在,从而提高基于对比学习的微调的稳定性。通常,在对比学习中,每个类别至少需要两个实例以形成一个批次,用于计算对比学习中的损失。一个批次的处理由正实例对和负实例对构成,其中属于同一类别的实例是正实例对,属于不同类别的实例是负实例对。然而,如果每个批次只包含负实例对而不包含正实例对,基于对比学习的模型将由于缺乏正监督信息而崩溃。数据增强机制可以利用dropout和随机扰动来增强支持集中的样本以获得额外的标记样本用于计算对比损失。
基于查询特征混合增强的分类模块通过比较原型和类型增强查询,可以更加关注类敏感的位置特征,并获得更好的分类性能。在与新类中的各个关系原型进行比较时,更多地关注类敏感特征位置有利于区分查询实例。为此,本发明首先为每个查询实例创建多个副本,然后通过查询增强网络为每个副本突出类敏感特性。这样,在与每个原型进行比较时,模型将更加重点关注查询的对应类敏感特征。
按照本发明所提供的设计方案,一种基于强化对比学习的跨域小样本关系抽取方法,其流程如图1所示,具体包含如下步骤:
步骤1.预训练知识嵌入准备。将训练集,验证集和测试集中需要预测关系的头尾实体取出,从预先训练好的知识库实体嵌入中取出对应的实体嵌入并且构成相应的嵌入文件(如实体描述知识嵌入,实体概念知识嵌入)。
步骤2.特征提取模块的模型预训练。
首先使用预训练语言模型BERT作为编码器,对输入文本(即训练集)进行编码,并获得句子中每个词的上下文化的嵌入表示,考虑到实体词在跨域小样本关系抽取任务中的关键作用,本方法采用特殊的标记来填充在句中实体的两侧,以标记实体边界并为编码器突出显示实体。然后设置一个最大长度,并用另一种特殊的标记将所有的句子填充到这个长度,以便并行处理。
得到句子中每个词的嵌入后,将其输入到知识融合网络(知识融合层)中,同时根据实体id检索出预训练知识一起作为知识融合网络的输入。知识融合网络由若干个多层感知机构成,该网络首先聚合实体的多级概念表示,以取均值的方式进行。然后将实体表示依次与概念表示和实体描述表示通过全连接层进行融合,得到最终的样例特征。该网络旨在将上下文化的实体信息与知识库中的实体特有信息进行融合,优化实体表示。对于训练集的支持集和查询集中的样本,都通过同样的方式进行处理得到特征,将特征进行归一化后即可计算有监督对比损失。
实际上,跨域小样本关系抽取是一个基于对比的任务。对于查询集中的每个查询,需要将其与支持集中所有关系的实例或原型进行比较,然后根据比较的结果确定该查询属于哪种关系。由于有监督对比损失也是通过对比来计算的,所以可以选择将其作为本方法在预训练阶段的损失函数。有监督对比损失需要对支持集和查询集中的所有实例进行配对,然后根据这些实例对的相似性来计算损失以优化模型,当训练损失收敛,验证集的准确率在一定轮数不再提高时,训练终止并保存最优模型。
步骤3.基于对比学习的微调。通过预训练得到基础的特征提取器后,可以利用测试集的新类中少量的支持集样本对其进行微调以优化其特征空间。在这个过程中,本发明通过类别感知层和数据增强层来提高微调过程的学习能力和稳定性。首先,对于支持集的多个类别,分别为每个类别初始化一个类别感知向量,其维度与每个样本经过特征提取器后得出的特征维度相同。将支持集中每个类别的样本特征分别与其类别感知向量进行点乘得到类别感知的样本特征。微调过程中可以利用这些经过类别感知增强的样本通过梯度反向传播的方式来自动优化类别感知层,学习每个类别特有的类别特定信息,提高样本的可区分性。在微调过程中,由于不能获取到查询集样本的标签,只能利用支持集中的样本进行模型优化,而支持集中的样本标签数量可能不足以构建足够的正样本对用于计算有监督对比损失,容易导致模型崩溃,本发明采用数据增强机制,即通过dropout和随机扰动来获取增强样本,将其与未增强的样本混合之后计算有监督对比损失以微调整个模型。
步骤4.查询实例增强以及预测。对于测试集的支持集中的样本,首先将每个类别的样本通过原型网络进行聚合,从而得到每个类别的原型,该原型可以很好的表征关系类型,利用类别原型与查询实例的对比即可进行分类。其中,原型网络是指将同一类别的所有实例进行聚合的均值函数,原型是指某一关系类别的所有样本聚合后的关系原型表示。在与类别原型进行比较时,更多地关注类别敏感特征位置有利于区分查询实例。在得到微调后的特征提取模块和类别感知层后,首先需要根据候选预测类别的数量创建查询实例的副本,每个关系类别的查询实例副本与其对应的类别感知向量相乘得到类别感知的查询实例特征。在与每个类别原型进行比较时,模型将重点关注查询实例的对应类敏感特征。最后,模型应该选择最相似的类别原型所属的类别作为查询实例的关系类别。为了度量查询与每个原型之间的距离,本发明采用点积的方式来计算相似度得分。具体来说,将类感知查询与对应的原型点乘,并使用softmax函数得到用于分类的查询标签概率以进行分类。
上述的,步骤1中,实体的外部知识包括实体描述信息和实体多级概念信息,可以来源于一些已经预训练好的知识图谱中,也可以通过维基百科进行查询后利用一些预训练的语言模型编码得到。
上述的,步骤2中,上下文化的实体表示和外部知识的融合公式为:
其中hhead和htail分别为由编码器计算得到的上下文化的头尾实体嵌入,和分别表示头尾实体的知识嵌入。FFNN是前馈神经网络,由全连接层构成。hc是实体Ci的概念嵌入,/>为拼接符号,Norm为归一化层,hep为融合上下文和描述信息的头尾实体表示,为实体Ci的所有概念表示的均值,/>为最终经过知识融合的样本特征,/>为头实体的概念表示的均值,/>为尾实体的概念表示的均值,|Ci|为实体Ci所具有的概念的数量。
上述的,步骤2的训练过程中的有监督对比损失的计算公式为:
其中,i表示查询集和支持集中样本的索引,J(i)代表所有与实例i具有相同标签的样本的索引集合,A(i)代表除了i以外的所有样本的索引集合。和/>分别代表支持集和查询集。τ是对比学习中的温度超参数。
上述的,步骤3中,类别感知层初始化为1,所有的特征初始被赋予相同的权重。利用类别感知层对各个类别的样本进行增强的公式为:
其中,表示经过类别感知增强的样本特征,vi是可学习的权重向量,维度与/>相同,/>表示点乘操作。
上述的,步骤3中,由于新类的支持集中只包含极少数的样本,过度的训练会导致模型过拟合,所以微调的步长需要控制在较小的数值内。在1-shot场景下,必须采用数据增强扩充每个类别的样本数量从而防止模型崩溃。上述的,步骤3中,数据增强的过程可以表达为:
其中,表示经过随机扰动和dropout增强的样本特征,std代表标准差,U(a,b)表示从a到b的均匀分布噪声,是具有与/>相同形状的矩阵,而非标量。dropout表示dropout函数,λ是一个控制相对噪声强度的超参数。
上述的,步骤3中,微调过程中有监督对比学习损失的计算公式为:
其中为原始支持集样本特征和通过类别感知层以及数据增强层增强后的支持集样本特征的索引集合。/>表示在/>中索引为i的特征,该特征根据索引的不同来自于增强后的支持集样本或未增强的支持集样本。集合J(i),A(i)的意义同上文一致。
上述的,步骤4中,用于增强查询实例的类别感知层与步骤3中微调的类别感知层共享参数,从而可以充分利用微调过程中学习到的类别特有信息以增强查询实例的特征。
本发明的关键点如下:
1)本发明提出基于对比学习的微调形式可以用于弥补不同领域之间的特征分布差距并且学习新的类别敏感信息。与传统的重新训练分类层的微调方法不同,在本发明中,微调被建模为一个基于对比学习的任务,用于在新域中优化特征空间。在这种设计下,模型可以避免引入额外的分类层,从而降低过拟合的风险。引入微调这一过程可以更加充分的探索新域的信息,提高更多的额外信息用于领域自适应,在这一过程当中可以通过附加其它模块来提高微调的各种能力。通过有监督对比学习的形式来计算损失以进行微调的公式为:
2)本发明提出的类别感知层和数据增强层可以有效提高微调的学习能力和稳定性。对于支持集的多个类别,分别为每个类别初始化一个类别感知向量。将支持集中每个类别的样本特征分别与其类别感知向量进行点乘得到类别感知的样本特征,可以使得每个类别样本的特征更加关注于类别特定的位置的特征。微调过程中可以利用这些经过类别感知增强的样本通过梯度反向传播来自动优化类别感知层,学习每个类别特有的类别特定信息,提高样本的可区分性。在微调过程中,由于不能获取到查询集样本的标签,只能利用支持集中的样本进行模型优化,而支持集中的样本标签数量可能不足以构建足够的正样本对用于计算有监督对比损失,容易导致模型崩溃,本发明通过dropout和随机扰动来获取增强样本,将其与未增强的样本混合之后计算有监督对比损失以微调整个模型。进行类别感知和数据增强的公式为:
为更好的表达本发明中提出的基于强化对比学习的跨域小样本关系抽取方法,下面以利用样本数量为K(K种关系)*N(每种关系有N个样本)的支持集 对查询实例q进行关系分类为例,对本发明进行进一步的说明。
图1为本发明的整体流程图,包括预训练知识嵌入准备,模型预训练,基于对比学习的微调,查询实例增强以及预测四个部分。
步骤1.预训练知识嵌入准备。将训练,验证和测试数据集中需要预测关系的头尾实体取出,从预先训练好的知识库实体嵌入中取出对应数据集中的实体并且构成相应的实体嵌入文件(如实体描述知识嵌入,实体概念知识嵌入)。
步骤2.模型预训练。图2是本发明实例的跨域小样本关系抽取的总体模型架构图,包含特征提取模块,基于对比学习的微调模块和基于查询实例特征增强的分类模块。预训练阶段主要用于优化特征提取模块。在该模块中,首先使用预训练语言模型BERT对输入文本进行编码,并获得句子中每个词的上下文化的嵌入表示,考虑到实体词在跨域小样本关系抽取任务中的关键作用,本方法采用特殊的标记[unused1],[unused2]来填充在句中实体的两侧,以标记实体边界并为编码器突出显示实体。然后设置一个最大长度m,并用特殊的标记[pad]将所有的句子填充到这个长度,以便并行化处理。得到句子头尾实体的嵌入hhead,htail后,将其输入到知识融合网络中,同时根据实体id检索出预训练知识一起作为知识融合网络的输入。知识融合网络由若干个多层感知机构成,该网络首先将聚合实体的多级概念表示hc,以取均值的方式进行。然后将实体表示依次与概念表示和实体描述表示通过全连接层进行融合,得到最终的样例特征/>通过有监督对比学习计算损失以优化模型。
步骤3.基于对比学习的微调。通过预训练得到基础的特征提取器后,可以利用测试集的新类中少量的支持集样本对其进行微调以继续优化其特征空间。在这个过程中,本发明通过类别感知层和数据增强层来提高微调的学习能力和稳定性。首先,对于支持集的多个类别的样本/>分别为每个类别初始化一个类别感知向量vi,其维度与每个样本经过特征提取器后得出的特征维度相同。将支持集中每个类别的样本特征/>分别与其对应的类别感知向量vi进行点乘得到类别感知的样本特征/>微调过程中可以利用这些经过类别感知增强的样本通过梯度反向传播来自动优化类别感知层,学习每个类别特有的类别特定信息,提高样本的可区分性。在微调过程中,由于不能获取到查询集样本的标签,只能利用支持集中的样本进行模型优化,而支持集中的样本标签数量可能不足以构建足够的正样本对用于计算有监督对比损失,容易导致模型崩溃,本发明通过dropout和随机扰动来获取增强样本/>将其与未增强的样本混合之后计算有监督对比损失以微调整个模型。
步骤4.查询实例增强以及预测。对于测试集的支持集中的样本,首先需要将每个类别的K个样本通过原型网络进行聚合,从而得到每个类别的原型利用类别原型与查询实例q的对比即可进行分类。在与关系原型进行比较时,更多地关注类敏感特征位置有利于区分查询实例。在得到微调后的特征提取模块和类别感知层后,首先需要创建N个查询实例的副本,每个关系类别的查询实例副本q与其对应的类别感知向量vi相乘得到类别感知的查询向量/>在与每个原型进行比较时,模型将重点关注查询实例的对应类敏感特征。最后,模型应该选择最相似的类别原型作为查询的关系类别。为了度量查询/>与每个原型之间的距离,本发明采用点积来计算相似度得分。具体来说,将类感知查询/>与对应的原型/>点乘,并使用softmax函数得到用于分类的查询标签概率p(y=r|S,q),选择标签概率值最高的类别作为查询实例的类别。
本发明的跨域小样本关系抽取方法,能够在通用领域和某一特定领域之间实现跨域关系抽取。其中跨域、某一特定领域具体可以是医疗领域与金融领域、法律领域与电子商务领域、农业领域与航空航天领域等。例如,对于跨通用领域与医疗领域的情况,采用本发明方法,可以实现跨域关系抽取,进而可以将跨域关系抽取结果用于医学知识库构建,实现医学知识数据库系统等具体功能。再例如,对于跨通用领域与法律领域的情况,采用本发明方法,可以实现跨域关系抽取,进而可以将跨域关系抽取结果用于获取司法文本中的关键信息,实现司法案件要素分析等具体功能。
本发明的另一实施例提供一种基于强化对比学习微调的跨域小样本关系抽取系统,其包括:
特征提取模块,用于利用预训练语言模型和特定领域知识库,采用训练集和验证集进行训练,得到预训练的特征提取模型;
微调模块,用于利用测试集中支持集的少量新类样本,通过类别感知层和数据增强层进行增强后,利用对比学习损失函数对所述预训练的特征提取模型和类别感知层进行微调;
分类模块,用于将待处理的查询实例通过所述预训练的特征提取模型提取特征,并通过所述类别感知层进行增强,计算增强后的查询实例与各个类别原型之间的相似度,选择最相似的类别原型所属的类别作为查询实例的关系类别。
其中各模块的具体实施过程参见前文对本发明方法的描述。
本发明的另一实施例提供一种计算机设备(计算机、服务器、智能手机等),其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明方法中各步骤的指令。
本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明方法的各个步骤。
以上公开的本发明的具体实施例,其目的在于帮助理解本发明的内容并据以实施,本领域的普通技术人员可以理解,在不脱离本发明的精神和范围内,各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例所公开的内容,本发明的保护范围以权利要求书界定的范围为准。
Claims (10)
1.一种基于强化对比学习微调的跨域小样本关系抽取方法,其特征在于,包括以下步骤:
利用预训练语言模型和特定领域知识库,采用训练集和验证集进行训练,得到预训练的特征提取模型;
利用测试集中支持集的少量新类样本,通过类别感知层和数据增强层进行增强后,利用对比学习损失函数对所述预训练的特征提取模型和类别感知层进行微调;
将待处理的查询实例通过所述预训练的特征提取模型提取特征,并通过所述类别感知层进行增强,计算增强后的查询实例与各个类别原型之间的相似度,选择最相似的类别原型所属的类别作为查询实例的关系类别。
2.根据权利要求1所述的方法,其特征在于,在训练所述特征提取模型之前,将训练集、验证集和测试集中需要预测关系的头尾实体取出,从预先训练好的知识库实体嵌入中取出对应的实体嵌入并且构成相应的嵌入文件。
3.根据权利要求1所述的方法,其特征在于,所述利用预训练语言模型和特定领域知识库,采用训练集和验证集进行训练,得到预训练的特征提取模型,包括:
使用预训练语言模型BERT对输入文本进行编码,并获得句子中每个词的上下文化的嵌入表示,同时采用特殊标记填充在句中实体的两侧,以标记实体边界并为编码器突出显示实体,并且设置一个最大长度,用另一种特殊标记将所有的句子填充到该长度;
将句子中每个词的上下文化的嵌入表示输入到知识融合网络中,并将根据实体id检索出的预训练知识一起作为所述知识融合网络的输入;所述知识融合网络由若干个多层感知机构成,首先聚合实体的多级概念表示,以取均值的方式进行,然后将实体表示依次与概念表示和实体描述表示通过全连接层进行融合,得到最终的样本特征;
对于训练集的支持集和查询集中的样本特征进行归一化后,计算有监督对比损失。
4.根据权利要求1所述的方法,其特征在于,所述类别感知层分别为支持集的每个类别初始化一个类别感知向量,其维度与每个样本经过特征提取模型后得出的特征维度相同,将支持集中每个类别的样本特征分别与其类别感知向量进行点乘得到类别感知的样本特征,微调过程中利用类别感知的样本特征通过梯度反向传播的方式来自动优化类别感知层,学习每个类别特有的类别特定信息,提高样本的可区分性。
5.根据权利要求1所述的方法,其特征在于,所述数据增强层通过dropout和随机扰动来获取增强样本,将其与未增强的样本混合之后计算有监督对比损失以微调整个特征提取模型和类别感知层。
6.根据权利要求1所述的方法,其特征在于,所述将查询实例通过类别感知层进行增强,包括:根据候选预测类别的数量创建查询实例的副本,每个关系类别的查询实例副本与其对应的类别感知向量相乘得到类别感知的查询实例特征;用于增强查询实例的类别感知层与进行微调的类别感知层共享参数,充分利用微调过程中学习到的类别特有信息以增强查询实例的特征。
7.根据权利要求1所述的方法,其特征在于,所述对比学习损失函数为:
其中为原始支持集样本特征和通过类别感知层以及数据增强层增强后的支持集样本特征的索引集合;/>表示在/>中索引为i的特征,该特征根据索引的不同来自于增强后的支持集样本或未增强的支持集样本;J(i)代表所有与实例i具有相同标签的样本的索引集合,A(i)代表除了i以外的所有样本的索引集合,τ是对比学习中的温度超参数。
8.一种基于强化对比学习微调的跨域小样本关系抽取系统,其特征在于,包括:
特征提取模块,用于利用预训练语言模型和特定领域知识库,采用训练集和验证集进行训练,得到预训练的特征提取模型;
微调模块,用于利用测试集中支持集的少量新类样本,通过类别感知层和数据增强层进行增强后,利用对比学习损失函数对所述预训练的特征提取模型和类别感知层进行微调;
分类模块,用于将待处理的查询实例通过所述预训练的特征提取模型提取特征,并通过所述类别感知层进行增强,计算增强后的查询实例与各个类别原型之间的相似度,选择最相似的类别原型所属的类别作为查询实例的关系类别。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1~7中任一项所述方法的指令。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现权利要求1~7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310358885.1A CN116561308A (zh) | 2023-04-06 | 2023-04-06 | 一种基于强化对比学习微调的跨域小样本关系抽取方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310358885.1A CN116561308A (zh) | 2023-04-06 | 2023-04-06 | 一种基于强化对比学习微调的跨域小样本关系抽取方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116561308A true CN116561308A (zh) | 2023-08-08 |
Family
ID=87485213
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310358885.1A Pending CN116561308A (zh) | 2023-04-06 | 2023-04-06 | 一种基于强化对比学习微调的跨域小样本关系抽取方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116561308A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118093885A (zh) * | 2024-04-29 | 2024-05-28 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置及设备、介质、产品 |
-
2023
- 2023-04-06 CN CN202310358885.1A patent/CN116561308A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118093885A (zh) * | 2024-04-29 | 2024-05-28 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置及设备、介质、产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11615246B2 (en) | Data-driven structure extraction from text documents | |
Scheidegger et al. | Efficient image dataset classification difficulty estimation for predicting deep-learning accuracy | |
Liu et al. | Cross-domain sentiment aware word embeddings for review sentiment analysis | |
CN105393264A (zh) | 人机交互学习中的交互区段提取 | |
Zhao et al. | The study on the text classification for financial news based on partial information | |
CN112256866B (zh) | 一种基于深度学习的文本细粒度情感分析算法 | |
CN117453921B (zh) | 一种大语言模型的数据信息标签处理方法 | |
CN111125406A (zh) | 一种基于自适应聚类学习的视觉关系检测方法 | |
AU2022204702B2 (en) | Multimodal multitask machine learning system for document intelligence tasks | |
CN115878904A (zh) | 基于深度学习的知识产权个性化推荐方法、系统及介质 | |
US20220100967A1 (en) | Lifecycle management for customized natural language processing | |
CN112632377B (zh) | 一种基于用户评论情感分析与矩阵分解的推荐方法 | |
EP3948501A1 (en) | Hierarchical machine learning architecture including master engine supported by distributed light-weight real-time edge engines | |
CN114357170A (zh) | 模型训练方法、分析方法、装置、设备及介质 | |
CN111985207B (zh) | 一种访问控制策略的获取方法、装置及电子设备 | |
CN116561308A (zh) | 一种基于强化对比学习微调的跨域小样本关系抽取方法和系统 | |
CN114722805A (zh) | 基于大小导师知识蒸馏的少样本情感分类方法 | |
Feng et al. | Ontology semantic integration based on convolutional neural network | |
CN113722439A (zh) | 基于对抗性类别对齐网络的跨领域情感分类方法及系统 | |
US20240028828A1 (en) | Machine learning model architecture and user interface to indicate impact of text ngrams | |
CN117151222A (zh) | 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质 | |
CN115238645A (zh) | 资产数据识别方法、装置、电子设备和计算机存储介质 | |
Wang et al. | Application of Natural Language Processing in Financial Risk Detection | |
Zhong et al. | Dispute Classification and Analysis: Deep Learning–Based Text Mining for Construction Contract Management | |
Bonfitto | A semantic approach for constructing knowledge graphs extracted from tables |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |