CN117131403A - 一种小样本关系分类过滤方法、装置及设备 - Google Patents
一种小样本关系分类过滤方法、装置及设备 Download PDFInfo
- Publication number
- CN117131403A CN117131403A CN202311083691.1A CN202311083691A CN117131403A CN 117131403 A CN117131403 A CN 117131403A CN 202311083691 A CN202311083691 A CN 202311083691A CN 117131403 A CN117131403 A CN 117131403A
- Authority
- CN
- China
- Prior art keywords
- instance
- candidate
- seed
- instances
- relationship
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001914 filtration Methods 0.000 title claims abstract description 64
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000012549 training Methods 0.000 claims abstract description 68
- 238000012937 correction Methods 0.000 claims abstract description 25
- 238000002372 labelling Methods 0.000 claims abstract description 24
- 230000006870 function Effects 0.000 claims description 22
- 239000013598 vector Substances 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 13
- 238000010276 construction Methods 0.000 claims description 7
- 230000001276 controlling effect Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 4
- 230000001105 regulatory effect Effects 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 12
- 238000003860 storage Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 235000019013 Viburnum opulus Nutrition 0.000 description 3
- 244000071378 Viburnum opulus Species 0.000 description 3
- 239000010419 fine particle Substances 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000201976 Polycarpon Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 239000011362 coarse particle Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种小样本关系分类过滤方法、装置及设备,该方法包括:构建粗粒度过滤器,用于对未标记的语料集进行过滤得到与种子实例具有相同实体及具有相似语义的候选实例;构建细粒度过滤器,用于对候选实例进行过滤,得到与种子实例的关系概念相同的候选实例;将该候选实例定义为阳性实例集,将与种子实例的关系概念不同的候选实例定义为负样本集;构建假阳性实例修正模块,用于调整、控制分类器在训练期间使用的负样本集的比例;基于已获得的少量的属于新出现的关系的标注实例,以及经假阳性实例修正模块调整后的阳性实例集、负样本集训练分类器,使其对小样本数据进行关系分类。本发明的方法能够提取高质量实例训练分类器,提升分类器精度。
Description
技术领域
本发明实施例涉及数据过滤分类技术领域,特别涉及一种小样本关系分类过滤方法、装置及设备。
背景技术
近年来,信息技术和互联网迎来了爆炸性的发展,网上存在着包含大量信息的非结构化文本。信息提取(IE)涉及从这些文本中提取有价值的知识,包括命名实体识别、事件检测(ED)、关系分类(RC)等。在这些任务中,关系分类旨在通过检测某个句子中包含的一对实体之间的关系,在现实中具有巨大的实用价值,例如为许多下游应用(知识图谱或问答系统)提供了输入。如图1所示,句子S1包含两个实体,即头部实体"高速路"和尾部实体"河流"。关系分类的目的是判断上述两个实体之间是否存在"交叉"关系。由于其相当大的商业价值,关系分类已经成为信息抽取中最突出的研究课题之一。然而,注释实例的稀缺限制了数据驱动的关系分类方法的有效性,特别是对于只有少数实例的新出现的关系。
因此,现有的方法主要从两个方面来提升小样本数据分类模型的性能,即提高注释的数量和质量。为了提高实例的数量,许多研究人员选择了使用半监督学习与远程监督。远程监督利用实体对齐来自动地、持续地标记从外部数据库中的无标注实例。然而,远程监督的强关系假设:“如果两个句子中含有相同实例,那么他们表示相同关系”,往往会给模型引入大量的噪音。因此,现有方案提出了一种神经滚雪球算法,这是一种远距离监督方法。为了解决噪声问题,它利用关系孪生网络(RSN)通过测量查询实例与支持种子实例之间的距离来确定它们是否有相同的关系。此外,提示学习在提升实例的质量方面获得了广泛关注。提示学习中的模板可以存储丰富的语义,并激发预训练语言模型(PLM)的常识,使其成为小样本学习任务的优秀表现者。许多基于提示的方法已经被提出,如PRBOOST、PTR和PAIE。然而,这些方法只关注个别句子和局部层面的特征,如实体对,而忽略了全局层面概念语义的丰富信息。对单个信息的过度依赖很可能导致语义偏差,这将阻碍对关系的全面准确的语义的整体理解,特别是在小样本学习的设置下。
发明内容
本发明所要解决的问题为提供一种能够解决小样本训练数据匮乏,提升小样本识别精度的小样本关系分类过滤方法、装置及设备。
为解决上述问题,本发明公开了一种小样本关系分类过滤方法,包括:
构建粗粒度过滤器,所述粗粒度过滤器用于对未标记的语料集进行过滤得到与种子实例具有相同实体的第一候选实例及具有相似语义的第二候选实例;
构建细粒度过滤器,所述细粒度过滤器用于对所述第一候选实例与第二候选实例进行过滤,得到与所述种子实例的关系概念相同的第三候选实例;
将所述第三候选实例定义为阳性实例集,将所述第一候选实例与第二候选实例中与所述种子实例的关系概念不同的候选实例定义为负样本集,所述关系概念用于描述不同实例间的关系;
构建假阳性实例修正模块,所述假阳性实例修正模块用于调整、控制所述分类器在训练期间使用的所述负样本集的比例;
基于已获得的少量的属于新出现的关系的标注实例,以及经所述假阳性实例修正模块调整后的所述阳性实例集、负样本集训练所述分类器;
基于训练好的所述分类器对小样本数据进行关系分类。
作为一可选实施例,所述构建粗粒度过滤器,包括:
设置实体对齐模块,其用于识别出所述语料集中与种子实例具有相同实体的第一候选实例;
设置关系孪生网络,其用于通过测量所述语料集中的实例与种子实例中词向量间的距离过滤出与所述种子实例具有相似语义的第二候选实例;
基于所述实体对齐模块及关系孪生网络形成所述粗粒度过滤器。
作为一可选实施例,所述种子实例包括多个,所述通过测量所述语料集中的实例与种子实例中词向量间的距离过滤出与所述种子实例具有相似语义的第二候选实例,包括:
所述关系孪生网络通过测量所述语料集中的实例与种子实例中词向量间的欧式距离以确定两实例间的相似性分数:
基于所述语料集中的各实例与各所述种子实例间的相似性分数计算平均相似性分数;
基于多个所述平均相似性分数过滤出与各所述种子实例具有相似语义的第二候选实例;
其中,σ(·)是sigmoid激活函数,fp(·)用于编码句子向量,SRSN(·)的范围是0到1,权重wp和偏差bp是可训练的参数,是种子实例,/>是语料集中的实例。
作为一可选实施例,所述构建细粒度过滤器,包括:
设置提示模板生成函数,用于将所述第一候选实例、第二候选实例分别转化为符合输入模板要求的新文本,所述输入模板包含候选实例中的文本描述、关系概念以及标签栏,所述标签栏中用于添加候选实例与种子实例的关系概念是否一致的标签;
预训练语言模型,用于根据所述种子实例的关系概念处理对应所述第一候选实例、第二候选实例的新文本,以基于处理结果将匹配各所述新文本的标签添加至所述标签栏中,并根据所述标签实现对所述第一候选实例、第二候选实例的过滤,得到所述第三候选实例。
作为一可选实施例,还包括:
基于获得的满足常出现的关系的标注实例分别对所述粗粒度过滤器、细粒度过滤器、分类器进行预训练;
基于预训练后的所述粗粒度过滤器、细粒度过滤器对所述语料集进行过滤得到所述阳性实例集、负样本集;
基于所述阳性实例集、负样本集以及少量的属于新出现的关系的标注实例训练预训练后的所述分类器。
作为一可选实施例,所述基于获得的满足常出现的关系的标注实例分别对所述粗粒度过滤器、细粒度过滤器、分类器进行预训练,包括:
基于所述满足常出现的关系的标注实例中的任意两个实例,结合交叉熵损失对所述粗粒度过滤器进行预训练;
构建不同的输入模板,并基于所述不同的输入模板和满足常出现的关系的标注实例对所述细粒度过滤器进行预训练,所述输入模板包含模板格式内容、候选实例中的文本描述、关系概念以及标签栏,所述标签栏中用于添加候选实例与种子实例的关系概念是否一致的标签;
基于小样本学习模式及满足常出现的关系的标注实例对所述分类器进行预训练。
作为一可选实施例,所述构建不同的输入模板,包括:
构建文本描述与关系概念在不同位置的输入模板、缺少部分或全部所述模板格式内容的输入模板,和通过改变关系概念以形成负模板的输入模板。
作为一可选实施例,还包括:
基于所述假阳性实例修正模块将所述分类器的参数和损失函数修正为:
其中,Bpos为一批阳性实例,Bneg为一批负样本集中的负面实例,为分类器,μ是负向采样损失系数,用于控制所述分类器在训练期间使用所述负面实例的比例。
本发明另一实施例同时提供一种小样本关系分类过滤装置,包括:
第一构建模块,用于构建粗粒度过滤器,所述粗粒度过滤器用于对未标记的语料集进行过滤得到与种子实例具有相同实体的第一候选实例及具有相似语义的第二候选实例;
第二构建模块,用于构建细粒度过滤器,所述细粒度过滤器用于对所述第一候选实例与第二候选实例进行过滤,得到与所述种子实例的关系概念相同的第三候选实例;
定义模块,用于将所述第三候选实例定义为阳性实例集,将所述第一候选实例与第二候选实例中与所述种子实例的关系概念不同的候选实例定义为负样本集,所述关系概念用于描述不同实例间的关系;
第三构建模块,其用于构建假阳性实例修正模块,所述假阳性实例修正模块用于调整、控制分类器在训练期间使用的所述负样本集的比例;
训练模块,用于根据已获得的少量的属于新出现的关系的标注实例,以及经所述假阳性实例修正模块调整后的所述阳性实例集、负样本集训练所述分类器;
分类模块,用于根据训练好的所述分类器对小样本数据进行关系分类。
本发明另一实施例还提供一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行以实现如上文中任一项实施例所述的小样本过滤分类方法。
基于上述实施例的公开可以获知,本发明实施例具备的有益效果包括通过采用粗粒度、细粒度的双层过滤器来从语料集中捕捉高质量的实例,扩充训练数据,提高分类器的训练精度,并规避了现有的半监督学习中出现的噪声问题。此外,本实施例的方法利用将输入文本改为符合输入模板要求的新文本来帮助分类器理解输入文本和种子实例间关系概念的联系,进而提升分类器对小样本关系分类的精度。而且,为了提高输入模板对实例间非归属关系的识别能力,本实施例的方法在细粒度过滤器的预训练阶段还引入了不同的输入模板,包括负面模板及内容不同的正面模板。另外,为了缓解分类器训练过程中的过度拟合问题,本实施例方法还增设了假阳性实例修正模块来动态地调整参与训练的负样本集的比例,进而降低阳性实例对分类器性能过拟合的损害。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为关系分类的一实例示意图。
图2为本发明实施例中的小样本过滤分类方法流程图。
图3为本发明实施例中在无标签语料集中获取的数据分布。
图4为本发明实施例中粗粒度到细粒度的过滤器模型的工作流程图。
图5为本发明实施例中的细粒度过滤器的工作过程图。
图6为细粒度过滤器(CHP)过滤识别假阳性实例的过程图。
图7为本发明实施例中的小样本过滤分类装置的结构框图。
具体实施方式
下面,结合附图对本发明的具体实施例进行详细的描述,但不作为本发明的限定。
应理解的是,可以对此处公开的实施例做出各种修改。因此,下述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本公开的范围和精神内的其他修改。
包含在说明书中并构成说明书的一部分的附图示出了本公开的实施例,并且与上面给出的对本公开的大致描述以及下面给出的对实施例的详细描述一起用于解释本公开的原理。
通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本发明的这些和其它特性将会变得显而易见。
还应当理解,尽管已经参照一些具体实例对本发明进行了描述,但本领域技术人员能够确定地实现本发明的很多其它等效形式,它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。
当结合附图时,鉴于以下详细说明,本公开的上述和其他方面、特征和优势将变得更为显而易见。
此后参照附图描述本公开的具体实施例;然而,应当理解,所公开的实施例仅仅是本公开的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本公开模糊不清。因此,本文所公开的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本公开。
本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”,其均可指代根据本公开的相同或不同实施例中的一个或多个。
下面,结合附图详细的说明本发明实施例。
如图1所示,本发明实施例提供一种小样本关系分类过滤方法,包括:
S100:构建粗粒度过滤器,粗粒度过滤器用于对未标记的语料集进行过滤得到与种子实例具有相同实体的第一候选实例及具有相似语义的第二候选实例;
S101:构建细粒度过滤器,细粒度过滤器用于对第一候选实例与第二候选实例进行过滤,得到与种子实例的关系概念相同的第三候选实例;
S102:将第三候选实例定义为阳性实例集,将第一候选实例与第二候选实例中与种子实例的关系概念不同的候选实例定义为负样本集,关系概念用于描述不同实例间的关系;
S103:构建假阳性实例修正模块,假阳性实例修正模块用于调整、控制分类器在训练期间使用的负样本集的比例;
S104:基于已获得的少量的属于新出现的关系的标注实例,以及经假阳性实例修正模块调整后的阳性实例集、负样本集训练分类器;
S105:基于训练好的分类器对小样本数据进行关系分类。
基于上述实施例的公开可以获知,本实施例公开的方法具备的有益效果包括通过采用粗粒度、细粒度的双层过滤器来从语料集中捕捉高质量的实例,扩充训练数据,提高分类器的训练精度,并规避了现有的半监督学习中出现的噪声问题。另外,为了缓解分类器训练过程中的过度拟合问题,本实施例方法还增设了假阳性实例修正模块来动态地调整参与训练的负样本集的比例,进而降低阳性实例对分类器性能过拟合的损害。
通过本实施例公开的方法可以使得分类器在低资源情况下仍具有高精度的分类效果,召回率与F1值(F1分数(F1-score)是分类问题的一个衡量指标,是精确率和召回率的调和平均数)相对基线也得到了明显的改善,真正实现了分类器能够像人类一样思考,克服了与输入数据中的局部信息有关的限制,实现了不论输入文本序列的长短、种子实例的数量,亦或是假阳性实例的干扰,分类器均能够学习到文本语义并进行高精确率的关系分类。
进一步地,现有的关系分类数据的主要分布特征如下:1)一定数量的属于常出现的关系的标注实例Dpre;2)少量的属于新出现的关系的标注实例Dn;3)大量的无标签语料库/集Du。本实施例中的方法结合半监督小样本学习方法,充分利用上述三类数据实现分类器的训练。概况来讲,本实施例中的方法包括两个阶段,第一阶段是数据增强。例如从Dn中抽取一系列种子实例xs,包括其实体对[eh,et]、关系标签rs和关系概念cs。接下来,所有未贴标签的实例xu∈Du将通过预定义的匹配规则与种子实例进行比较。如果这些未标记的实例符合条件,它们将被选中并被送入模型以训练分类器(其他位置处的符号/>同为分类器)。另外,本实施例还特别设计了一个提示模板生成函数,如下所示:
fT(xu,cs,[Mask])→T(xu)
其中,模板T(xu)包含关系概念cs、输入文本xu(候选实例中的文本描述)和特殊标记[Mask](标签),[Mask]中表征实例间关系的标签是决定该实例是否应该被标记的标准,也即该候选实例是否与种子实例具有相同的关系概念。第二阶段是新关系的测试过程。与传统的小样本关系分类不同,本实施例的方法是测试来自Dn、Du和Dpre的输入文本x及其对应的实体对eh和et。该模型旨在将一个无标签实例分类到新的关系标签中,具体如下:
其中表示所有涉及的关系标签的集合。
如图3所示,矩形方框代表未标记的语料集(未标注语料库);左侧圆圈代表由粗粒度过滤器识别的阳性实例-第一候选实例;右侧圆圈标志着由粗粒度过滤器识别出的阳性实例-第二候选实例;而穿过两个圆圈的阴影重叠部分代表细粒度过滤器识别出的真正阳性实例-第三候选实例。而本实施例中分类器模型的目标是尽可能多地从未标记的语料集中获得被阴影重叠部分标记的实例。
具体地,本实施例中的分类器是以雪球结构为模型框架,从外部未标记的语料集中识别匹配的关系实例。在执行本实施例中的方法流程时,首先需要构建粗粒度过滤器,包括:
S106:设置实体对齐模块,其用于识别出语料集中与种子实例具有相同实体的第一候选实例;
S107:设置关系孪生网络,其用于通过测量语料集中的实例与种子实例中词向量间的距离过滤出与种子实例具有相似语义的第二候选实例;
S108:基于实体对齐模块及关系孪生网络形成粗粒度过滤器。
例如,如图4所示,粗粒度过滤器执行的就是一个粗粒度滚雪球的工作流程,其包括实体对齐模块和关系孪生网络(简称RSN模块)。粗粒度过滤器可以从Dn中随机选择几个种子实例形成一个种子实例集Ds,每个实例对应于一个关系rs∈Rn和一个关系概念cs∈Cn,同时形成一个实体对集Es,然后将Du中的每个输入实例(输入句子)/>分别在实体对齐模块和RSN模块中与/>进行比较。
具体地,粗粒度过滤器是利用实体对齐模块来识别种子实例共享相同实体的输入实例/>该过程可被描述为:
其中eh和et是的实体对。Ealign(·)决定了/>和/>之间的实体对是否匹配。εpos_ent(·)指的是匹配的实体对集合。然后满足Ealign的实例/>将被添加到候选实例集Dpos-ent中,也就是形成第一候选实例。
然而,实体对齐模块本质作为一个粗粒度的过滤器,往往会提取与共享实体但表达不同关系的实例,也就是会过滤出噪声数据。例如,句子#1"比尔-盖茨创立了微软"和句子#2"比尔-盖茨宣布离开微软"共享相同的实体对,即"比尔-盖茨"和"微软",但是,不同语句中的两个实体间包括不同的关系,其分别为"创立"和"离开"。因此,在这个阶段获得的正面实例(第一候选实例)将被送入CHP(细粒度过滤器)进行进一步过滤。
通过实体对齐模块的过滤,已经从语料集中收集到了一些具有新关系的实例,然而,上述过程仍然遗漏了实体对与中的不同但代表相同关系的实例,例如"比尔-盖茨创立了微软"和"乔布斯创立了苹果"。事实上,在实际应用中存在大量这样的实例。
因此,本实施例采用关系孪生网络(以下简称RSN)来捕捉该类被遗漏的实例。由上可知,种子实例包括多个,本实施例中的RSN是通过测量语料集中的实例与种子实例中词向量间的距离过滤出与种子实例具有相似语义的第二候选实例,其包括:
S109:关系孪生网络通过测量语料集中的实例与种子实例中词向量间的欧式距离以确定两实例间的相似性分数:
S110:基于语料集中的各实例与各种子实例间的相似性分数计算平均相似性分数;
S111:基于多个平均相似性分数过滤出与各种子实例具有相似语义的第二候选实例;
其中,σ(·)是sigmoid激活函数,fp(·)用于编码句子向量,SRSN(·)的范围是0到1,权重wp和偏差bp是可训练的参数,是种子实例,/>是语料集中的实例。
具体地,本实施例中的RSN相当于是计算种子实例和查询实例/>(语料集中的实例)之间的距离,以确定他们共享相同关系的概率:
计算出的相似性分数(概率)越大,表明两个实例表达相同关系的可能性越大。在获得相似性分数后,可通过计算查询实例对各种种子实例的平均分数:
其中n是种子实例的数量。可选地,本实施例中是选择分数由高到低排名中的前K个实例作为阳性实例数据集Dpos-RSN,即第二候选实例。也可以是设置RSN的阈值,如设置为0.5,以基于该阈值及多个平均相似性分数过滤得到第二候选实例。该第二候选实例同样不全为准确的阳性实例,即同时符合具有相同实体对且具有相似语义的实例,故同样需要通过细粒度过滤器进行再次过滤。
进一步地,本实施例中的细粒度过滤器是基于概念启发式提示(CHP)概念形成的,其灵感来自于人类在理解新概念时的逻辑推理。例如对于"尼克创办了一所福利学校,教孩子们学习科学"这个句子,人们总是专注于"创办"一词,而不是"尼克"和"福利学校"等实体(词汇)。因此,"创办"这一关系的含义是至关重要的。在这个概念的激励下,本实施例构建了细粒度过滤器,包括:
S112:设置提示模板生成函数,用于将第一候选实例、第二候选实例分别转化为符合输入模板要求的新文本,输入模板包含候选实例中的文本描述、关系概念以及标签栏,标签栏中用于添加候选实例与种子实例的关系概念是否一致的标签;
S113:预训练语言模型,用于根据种子实例的关系概念处理对应第一候选实例、第二候选实例的新文本,以基于处理结果将匹配各新文本的标签添加至标签栏中,并根据标签实现对第一候选实例、第二候选实例的过滤,得到第三候选实例。
具体地,设置的提示模板生成函数fT可以将粗粒度过滤器提取的候选实例转化为符合输入模板要求的新文本,即包含候选实施例的文本描述、关系概念以及标签栏,然后利用预训练语言模型(PLM)对新文本进行处理,得到表征当前候选实例与种子实例间是否具有相同关系概念的标签,具体流程可以参考图5所示,图5中描述了给定一个输入x,模板生成函数fT将其转换为包含关系概念的新文本,接着将新文本发送到PLM中,以获得[Mask](标签)标记的隐藏嵌入的过程。
对于Dpos-ent中由实体对齐模块得出的第一候选实例给定种子关系概念和种子标签/>构建输入模板(新文本)如下:
随后将新文本输入到PLM以填充得到[Mask]的答案,并确定是否标志着关系rs。对于被认为构成这种关系的实例,则可以给它们贴上弱阳性标签,然后把它们附加到准确的阳性实例集Dpos中。其中,上述实例必须满足以下条件:
上述方程表明,[Mask]标记为h[Mask]为可以被映射到种子关系的标签。关于假阳性实例,可以将其附加到负样本集Dneg中,如下所示:
其中表示细粒度过滤器CHP的过滤条件没有得到满足。通过上述过程,可以从外部未标记的语料集中收集可靠的高质量正面实例(准确的阳性实例),以增加注释数据(训练数据)。同时,识别出的具有高错误率的诱导实例被聚集起来形成负样本集,使结合该负样本集进行分类器训练时可以增强模型的稳健性,实现细粒度过滤。
进一步地,与上述过程类似,被过滤出的第二候选实例Dpos-RSN被输入到CHP过滤器中,并最终被赋予一个弱标签。然后,基于过滤结果将第二候选实例划分为一个阳性实例集Dpos(第三候选实例)和一个负样本集合Dneg。如下所示:
前两个方程分别代表RSN的过滤条件以及CHP的过滤条件。经过上述方法流程就可以最大限度地收集了图3中阴影重叠部分的数据。由于上述的输入模板是基于关系概念启发式概念实现的,故基于该输入模板可以使细粒度过滤器在低资源条件下充分学习标签和输入文本之间的语义联系,有效识别出假阳性实例,还能够有效激发隐藏在PLM中的丰富知识。
例如,举个实例,参考图6,其左图描述了一个实例符合实体对齐标准但不符合概念启发式提示标准的情况。由图可知,种子实例和未标记的实例具有相同的实体对"MyFreedom,Make some noise",但却表示不同的关系。在种子实例中,实体对的关系是"partof",表明"My Freedom"是专辑"Make some noise"中一首歌曲。相反,在未标记的实例中,它们的关系是"follows",表示"My Freedom"位置在歌曲"Make some noise"的后面。
图6中的右图显示,RSN对属于不同关系的两个实例进行了错误分类。根据RSN的原理,这种错误分类是由于这两个句子的结构具有可比性,它们都表达了一个人的职业属性,而基于概念启发式提示形成的输入模板却能辅助过滤器对其进行正确分类。因此,概念启发式提示的引用不仅可以帮助过滤器识别真正的阳性实例,还可以检测出假的阳性实例,这对于纠正模型的分类能力至关重要。
进一步地,在另一实施例中,所述方法还包括:
S114:基于获得的满足常出现的关系的标注实例分别对粗粒度过滤器、细粒度过滤器、分类器进行预训练;
S115:基于预训练后的粗粒度过滤器、细粒度过滤器对语料集进行过滤得到阳性实例集、负样本集;
S116:基于阳性实例集、负样本集以及少量的属于新出现的关系的标注实例训练预训练后的分类器。
其中,基于获得的满足常出现的关系的标注实例分别对粗粒度过滤器、细粒度过滤器、分类器进行预训练,包括:
S117:基于满足常出现的关系的标注实例中的任意两个实例,结合交叉熵损失对粗粒度过滤器进行预训练;
S118:构建不同的输入模板,并基于不同的输入模板和满足常出现的关系的标注实例对细粒度过滤器进行预训练,输入模板包含模板格式内容、候选实例中的文本描述、关系概念以及标签栏,标签栏中用于添加候选实例与种子实例的关系概念是否一致的标签;
S119:基于小样本学习模式及满足常出现的关系的标注实例对分类器进行预训练。
在构建不同的输入模板时,包括:
S120:构建文本描述与关系概念在不同位置的输入模板、缺少部分或全部模板格式内容的输入模板,和通过改变关系概念以形成负模板的输入模板。
例如,为了使分类器能够更好地将实例迁移到新出现的关系上,本实施例提出在大量的现有关系Dpre上预训练RSN模块、分类器和CHP过滤器。对于/>本实施例通过传统的N-way K-shot模式对其进行预训练。对于RSN,本实施例是从Dpre中随机挑选两个句子,然后用交叉熵损失来训练。对于CHP过滤器,本实施例通过设置了三个正模板和一个负模板来训练提高其性能。
具体地,本实施例设置了三个正提示模板Ti(·),i=1,2,3,并在大量的现有关系Rpre上训练。例如,给定一个输入文本和它的关系/>并用关系概念建立一个关系概念提示模板如下:/>
该模板包括输入文本的描述、关系概念、标签栏以及模板格式内容,例如下表:
其中“这个句子[]包含了这种关系[]。这种说法是[]”即为模板格式内容。前三个模板的格式内容不同,而且T1和T2中输入文本和关系概念的填充位置也不同,该种设置是为了探索输入文本和关系概念的在不同位置对细粒度过滤器的影响。而T3模板的设置是为了探索模板是否需要关键语义以外的额外词汇,如是否需要模板格式内容。继续结合图5所示,通过将模板输入PLM,可以得到v的隐藏向量h[Mask],鉴于令牌v∈V的嵌入,故可以计算出v填入[Mask]位置的概率:
由于希望细粒度过滤器能够用"是"、"正确"或"对的"这样的词来回答v[mask],表明输入的句子包含该种子关系,也可认为是与种子实例具有相同的关系概念。反之,如果v[mask]是"不是"、"错误"或"假的",则说明没有关系。然后,便可将这些词的向量映射到相应的关系上:
其中是标签映射函数/>Y→V,Y是真实值。然而为每个关系只构建积极的实例(阳性实例)会引入语义偏差。这些实例提供的收益很少,并损害了模型。为了提高模型的稳健性,本实施例在预训练细粒度过滤器时还为每个关系ri制作了正负模板,即上表中后两个模板,以纠正过多的正模板带来的语义倾斜。在负模板中,关系概念从/>改为了该负模板的设置主要是用来判断一个实例是否不属于指定的关系。这种能力对于以后将该细粒度过滤器移植到过滤器网络中是至关重要的,因为大多数没有标签的样本不属于要判断的关系。正如之前指出的,如果不设置负模板,模型的整体性能会大大降低。而通过上述不同模板的训练,可以使细粒度过滤器实现最终学习目标-损失函数最小化:
其中L是交叉熵损失;Nx是一批输入实例的数量。另外,训练时可以将每个关系的分类设定为二元分类任务,以提高模型的效率,同时便于增加新的关系类型。
优选地,上述从粗到细的过滤器产生了大量高质量的弱标记实例,即阳性实例集和负样本集。然而,若仅仅依靠正面实例来训练分类器,会导致阳性实例和负样本的数量极不平衡。这种不平衡会使分类器具有较高的召回率和较低的精度。为了解决这个问题,本实施例提出了在模型中增设一个假阳性实例修正模块,利用假阳性实例来修正分类器在训练过程中的倾斜度,从而缓解了由过多的阳性实例引起的过度拟合问题。
例如,对于一个种子关系可以提取一批阳性实例Bpos和一批负样本集中的负面实例Bneg。然后,将这些实例与Dn结合起来,训练分类器。基于该假阳性实例修正模块可以将分类器的参数和损失函数修正为:
其中,为分类器,μ是负向采样损失系数,也就是一个超参数,可以取值0.5或其他值,表示假阳性实例的输入规模,用于控制分类器在训练期间使用负面实例的比例。
可选地,在本实施例中,执行上述方法流程涉及的设备及应用程序包括:小样本实例数据通过BERT(一种语言表征模型)进行编码,该实验使用window11系统,在pycharm软件(集成开发环境)上,采用torch3.8(开源的机器学习库)、采用NVIDIA GTX 3060GPU进行实施。对于语料集中的文本数据的获取可以通过多种途径,如网络搜集、人为定向搜集等等。
如图7所示,本发明另一实施例同时提供一种小样本关系分类过滤装置100,包括:
第一构建模块,用于构建粗粒度过滤器,所述粗粒度过滤器用于对未标记的语料集进行过滤得到与种子实例具有相同实体的第一候选实例及具有相似语义的第二候选实例;
第二构建模块,用于构建细粒度过滤器,所述细粒度过滤器用于对所述第一候选实例与第二候选实例进行过滤,得到与所述种子实例的关系概念相同的第三候选实例;
定义模块,用于将所述第三候选实例定义为阳性实例集,将所述第一候选实例与第二候选实例中与所述种子实例的关系概念不同的候选实例定义为负样本集,所述关系概念用于描述不同实例间的关系;
第三构建模块,其用于构建假阳性实例修正模块,所述假阳性实例修正模块用于调整、控制分类器在训练期间使用的所述负样本集的比例;
训练模块,用于根据已获得的少量的属于新出现的关系的标注实例,以及经所述假阳性实例修正模块调整后的所述阳性实例集、负样本集训练所述分类器;
分类模块,用于根据训练好的所述分类器对小样本数据进行关系分类。
作为一可选实施例,所述构建粗粒度过滤器,包括:
设置实体对齐模块,其用于识别出所述语料集中与种子实例具有相同实体的第一候选实例;
设置关系孪生网络,其用于通过测量所述语料集中的实例与种子实例中词向量间的距离过滤出与所述种子实例具有相似语义的第二候选实例;
基于所述实体对齐模块及关系孪生网络形成所述粗粒度过滤器。
作为一可选实施例,所述种子实例包括多个,所述通过测量所述语料集中的实例与种子实例中词向量间的距离过滤出与所述种子实例具有相似语义的第二候选实例,包括:
所述关系孪生网络通过测量所述语料集中的实例与种子实例中词向量间的欧式距离以确定两实例间的相似性分数:
基于所述语料集中的各实例与各所述种子实例间的相似性分数计算平均相似性分数;
基于多个所述平均相似性分数过滤出与各所述种子实例具有相似语义的第二候选实例;
其中,σ(·)是sigmoid激活函数,fp(·)用于编码句子向量,SRSN(·)的范围是0到1,权重wp和偏差bp是可训练的参数,是种子实例,/>是语料集中的实例。
作为一可选实施例,所述构建细粒度过滤器,包括:
设置提示模板生成函数,用于将所述第一候选实例、第二候选实例分别转化为符合输入模板要求的新文本,所述输入模板包含候选实例中的文本描述、关系概念以及标签栏,所述标签栏中用于添加候选实例与种子实例的关系概念是否一致的标签;
预训练语言模型,用于根据所述种子实例的关系概念处理对应所述第一候选实例、第二候选实例的新文本,以基于处理结果将匹配各所述新文本的标签添加至所述标签栏中,并根据所述标签实现对所述第一候选实例、第二候选实例的过滤,得到所述第三候选实例。
作为一可选实施例,还包括:
预训练模块,用于根据获得的满足常出现的关系的标注实例分别对所述粗粒度过滤器、细粒度过滤器、分类器进行预训练;
过滤模块,用于根据预训练后的所述粗粒度过滤器、细粒度过滤器对所述语料集进行过滤得到所述阳性实例集、负样本集;
所述训练模块根据所述阳性实例集、负样本集以及少量的属于新出现的关系的标注实例训练预训练后的所述分类器。
作为一可选实施例,所述基于获得的满足常出现的关系的标注实例分别对所述粗粒度过滤器、细粒度过滤器、分类器进行预训练,包括:
基于所述满足常出现的关系的标注实例中的任意两个实例,结合交叉熵损失对所述粗粒度过滤器进行预训练;
构建不同的输入模板,并基于所述不同的输入模板和满足常出现的关系的标注实例对所述细粒度过滤器进行预训练,所述输入模板包含模板格式内容、候选实例中的文本描述、关系概念以及标签栏,所述标签栏中用于添加候选实例与种子实例的关系概念是否一致的标签;
基于小样本学习模式及满足常出现的关系的标注实例对所述分类器进行预训练。
作为一可选实施例,所述构建不同的输入模板,包括:
构建文本描述与关系概念在不同位置的输入模板、缺少部分或全部所述模板格式内容的输入模板,和通过改变关系概念以形成负模板的输入模板。
作为一可选实施例,还包括:
修正模块,用于根据所述假阳性实例修正模块将所述分类器的参数和损失函数修正为:
其中,Bpos为一批阳性实例,Bxeg为一批负样本集中的负面实例,为分类器,μ是负向采样损失系数,用于控制所述分类器在训练期间使用所述负面实例的比例。
本发明另一实施例还提供一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行以实现如上文中任一项实施例所述的小样本关系分类过滤方法。
进一步地,本发明一实施例还提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的小样本关系分类过滤方法。应理解,本实施例中的各个方案具有上述方法实施例中对应的技术效果,此处不再赘述。
进一步地,本发明实施例还提供了一种计算机程序产品,所述计算机程序产品被有形地存储在计算机可读介质上并且包括计算机可读指令,所述计算机可执行指令在被执行时使至少一个处理器执行诸如上文所述实施例中的小样本关系分类过滤方法。
需要说明的是,本发明的计算机存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读介质例如可以但不限于是电、磁、光、电磁、红外线、或半导体的系统、系统或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储介质(RAM)、只读存储介质(ROM)、可擦式可编程只读存储介质(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储介质(CD-ROM)、光存储介质件、磁存储介质件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、系统或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输配置为由指令执行系统、系统或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、天线、光缆、RF等等,或者上述的任意合适的组合。
另外,本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的系统。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品,该指令系统实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。
Claims (10)
1.一种小样本关系分类过滤方法,其特征在于,包括:
构建粗粒度过滤器,所述粗粒度过滤器用于对未标记的语料集进行过滤得到与种子实例具有相同实体的第一候选实例及具有相似语义的第二候选实例;
构建细粒度过滤器,所述细粒度过滤器用于对所述第一候选实例与第二候选实例进行过滤,得到与所述种子实例的关系概念相同的第三候选实例;
将所述第三候选实例定义为阳性实例集,将所述第一候选实例与第二候选实例中与所述种子实例的关系概念不同的候选实例定义为负样本集,所述关系概念用于描述不同实例间的关系;
构建假阳性实例修正模块,所述假阳性实例修正模块用于调整、控制分类器在训练期间使用的所述负样本集的比例;
基于已获得的少量的属于新出现的关系的标注实例,以及经所述假阳性实例修正模块调整后的所述阳性实例集、负样本集训练所述分类器;
基于训练好的所述分类器对小样本数据进行关系分类。
2.根据权利要求1所述的小样本关系分类过滤方法,其特征在于,所述构建粗粒度过滤器,包括:
设置实体对齐模块,其用于识别出所述语料集中与种子实例具有相同实体的第一候选实例;
设置关系孪生网络,其用于通过测量所述语料集中的实例与种子实例中词向量间的距离过滤出与所述种子实例具有相似语义的第二候选实例;
基于所述实体对齐模块及关系孪生网络形成所述粗粒度过滤器。
3.根据权利要求2所述的小样本关系分类过滤方法,其特征在于,所述种子实例包括多个,所述通过测量所述语料集中的实例与种子实例中词向量间的距离过滤出与所述种子实例具有相似语义的第二候选实例,包括:
所述关系孪生网络通过测量所述语料集中的实例与种子实例中词向量间的欧式距离以确定两实例间的相似性分数:
基于所述语料集中的各实例与各所述种子实例间的相似性分数计算平均相似性分数;
基于多个所述平均相似性分数过滤出与各所述种子实例具有相似语义的第二候选实例;
其中,σ(·)是sigmoid激活函数,fp(·)用于编码句子向量,SRSN(·)的范围是0到1,权重wp和偏差bp是可训练的参数,是种子实例,/>是语料集中的实例。
4.根据权利要求1所述的小样本关系分类过滤方法,其特征在于,所述构建细粒度过滤器,包括:
设置提示模板生成函数,用于将所述第一候选实例、第二候选实例分别转化为符合输入模板要求的新文本,所述输入模板包含候选实例中的文本描述、关系概念以及标签栏,所述标签栏中用于添加候选实例与种子实例的关系概念是否一致的标签;
预训练语言模型,用于根据所述种子实例的关系概念处理对应所述第一候选实例、第二候选实例的新文本,以基于处理结果将匹配各所述新文本的标签添加至所述标签栏中,并根据所述标签实现对所述第一候选实例、第二候选实例的过滤,得到所述第三候选实例。
5.根据权利要求1所述的小样本关系分类过滤方法,其特征在于,还包括:
基于获得的满足常出现的关系的标注实例分别对所述粗粒度过滤器、细粒度过滤器、分类器进行预训练;
基于预训练后的所述粗粒度过滤器、细粒度过滤器对所述语料集进行过滤得到所述阳性实例集、负样本集;
基于所述阳性实例集、负样本集以及少量的属于新出现的关系的标注实例训练预训练后的所述分类器。
6.根据权利要求5所述的小样本关系分类过滤方法,其特征在于,所述基于获得的满足常出现的关系的标注实例分别对所述粗粒度过滤器、细粒度过滤器、分类器进行预训练,包括:
基于所述满足常出现的关系的标注实例中的任意两个实例,结合交叉熵损失对所述粗粒度过滤器进行预训练;
构建不同的输入模板,并基于所述不同的输入模板和满足常出现的关系的标注实例对所述细粒度过滤器进行预训练,所述输入模板包含模板格式内容、候选实例中的文本描述、关系概念以及标签栏,所述标签栏中用于添加候选实例与种子实例的关系概念是否一致的标签;
基于小样本学习模式及满足常出现的关系的标注实例对所述分类器进行预训练。
7.根据权利要求6所述的小样本关系分类过滤方法,其特征在于,所述构建不同的输入模板,包括:
构建文本描述与关系概念在不同位置的输入模板、缺少部分或全部所述模板格式内容的输入模板,和通过改变关系概念以形成负模板的输入模板。
8.根据权利要求1所述的小样本关系分类过滤方法,其特征在于,还包括:
基于所述假阳性实例修正模块将所述分类器的参数和损失函数修正为:
其中,Bpos为一批阳性实例,Bneg为负样本集中的一批负面实例,为分类器,μ是负向采样损失系数,用于控制所述分类器在训练期间使用所述负面实例的比例。
9.一种小样本关系分类过滤装置,其特征在于,包括:
第一构建模块,用于构建粗粒度过滤器,所述粗粒度过滤器用于对未标记的语料集进行过滤得到与种子实例具有相同实体的第一候选实例及具有相似语义的第二候选实例;
第二构建模块,用于构建细粒度过滤器,所述细粒度过滤器用于对所述第一候选实例与第二候选实例进行过滤,得到与所述种子实例的关系概念相同的第三候选实例;
定义模块,用于将所述第三候选实例定义为阳性实例集,将所述第一候选实例与第二候选实例中与所述种子实例的关系概念不同的候选实例定义为负样本集,所述关系概念用于描述不同实例间的关系;
第三构建模块,其用于构建假阳性实例修正模块,所述假阳性实例修正模块用于调整、控制分类器在训练期间使用的所述负样本集的比例;
训练模块,用于根据已获得的少量的属于新出现的关系的标注实例,以及经所述假阳性实例修正模块调整后的所述阳性实例集、负样本集训练所述分类器;
分类模块,用于根据训练好的所述分类器对小样本数据进行关系分类。
10.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行以实现如权利要求1-8任一项所述的小样本过滤分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311083691.1A CN117131403A (zh) | 2023-08-25 | 2023-08-25 | 一种小样本关系分类过滤方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311083691.1A CN117131403A (zh) | 2023-08-25 | 2023-08-25 | 一种小样本关系分类过滤方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117131403A true CN117131403A (zh) | 2023-11-28 |
Family
ID=88862301
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311083691.1A Pending CN117131403A (zh) | 2023-08-25 | 2023-08-25 | 一种小样本关系分类过滤方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117131403A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117556277A (zh) * | 2024-01-12 | 2024-02-13 | 暨南大学 | 一种用于知识图谱实体对齐的初始对齐种子生成方法 |
-
2023
- 2023-08-25 CN CN202311083691.1A patent/CN117131403A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117556277A (zh) * | 2024-01-12 | 2024-02-13 | 暨南大学 | 一种用于知识图谱实体对齐的初始对齐种子生成方法 |
CN117556277B (zh) * | 2024-01-12 | 2024-04-05 | 暨南大学 | 一种用于知识图谱实体对齐的初始对齐种子生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110825881B (zh) | 一种建立电力知识图谱的方法 | |
CN106980608A (zh) | 一种中文电子病历分词和命名实体识别方法及系统 | |
CN109829430A (zh) | 基于异构层次化注意机制的跨模态行人再识别方法及系统 | |
CN114332568B (zh) | 域适应图像分类网络的训练方法、系统、设备及存储介质 | |
CN111444343A (zh) | 基于知识表示的跨境民族文化文本分类方法 | |
CN112580362B (zh) | 一种基于文本语义监督的视觉行为识别方法、系统及计算机可读介质 | |
CN112256866B (zh) | 一种基于深度学习的文本细粒度情感分析算法 | |
CN108804595B (zh) | 一种基于word2vec的短文本表示方法 | |
Huang et al. | Siamese network-based supervised topic modeling | |
Ionescu et al. | Knowledge transfer between computer vision and text mining | |
Almarsoomi et al. | AWSS: An algorithm for measuring Arabic word semantic similarity | |
CN117131403A (zh) | 一种小样本关系分类过滤方法、装置及设备 | |
Zhang et al. | Making the relation matters: Relation of relation learning network for sentence semantic matching | |
CN112966117A (zh) | 实体链接方法 | |
Helmy et al. | Applying deep learning for Arabic keyphrase extraction | |
CN116522945A (zh) | 一种食品安全领域中命名实体的识别模型和方法 | |
Baboo et al. | Sentiment analysis and automatic emotion detection analysis of twitter using machine learning classifiers | |
CN112434686B (zh) | 针对ocr图片的端到端含错文本分类识别仪 | |
CN111597330A (zh) | 一种基于支持向量机的面向智能专家推荐的用户画像方法 | |
CN113901224A (zh) | 基于知识蒸馏的涉密文本识别模型训练方法、系统及装置 | |
An et al. | Improving targeted multimodal sentiment classification with semantic description of images. | |
Yi et al. | Dual model medical invoices recognition | |
Lee et al. | Generating Realistic Images from In-the-wild Sounds | |
Aktas et al. | Text classification via network topology: A case study on the holy quran | |
CN113792541A (zh) | 一种引入互信息正则化器的方面级情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |