CN115203420A - 实体关系分类模型训练方法、实体关系分类方法及装置 - Google Patents
实体关系分类模型训练方法、实体关系分类方法及装置 Download PDFInfo
- Publication number
- CN115203420A CN115203420A CN202210878182.7A CN202210878182A CN115203420A CN 115203420 A CN115203420 A CN 115203420A CN 202210878182 A CN202210878182 A CN 202210878182A CN 115203420 A CN115203420 A CN 115203420A
- Authority
- CN
- China
- Prior art keywords
- training
- text
- prototype
- new
- new class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 660
- 238000013145 classification model Methods 0.000 title claims abstract description 143
- 238000000034 method Methods 0.000 title claims abstract description 125
- 230000014509 gene expression Effects 0.000 claims abstract description 57
- 230000008569 process Effects 0.000 claims abstract description 24
- 238000012512 characterization method Methods 0.000 claims description 48
- 230000006870 function Effects 0.000 claims description 48
- 238000004590 computer program Methods 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 14
- 150000001875 compounds Chemical group 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 230000007246 mechanism Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 4
- 239000002131 composite material Substances 0.000 claims description 4
- 230000001902 propagating effect Effects 0.000 claims description 2
- 238000005070 sampling Methods 0.000 description 22
- 238000005516 engineering process Methods 0.000 description 16
- 238000013473 artificial intelligence Methods 0.000 description 14
- 230000006978 adaptation Effects 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 9
- 238000013135 deep learning Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 230000001360 synchronised effect Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 239000003814 drug Substances 0.000 description 4
- 229940079593 drug Drugs 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 239000011248 coating agent Substances 0.000 description 3
- 238000000576 coating method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
- 238000011269 treatment regimen Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种实体关系分类模型训练方法、实体关系分类方法及装置,包括:在任一次训练过程中,根据基类样本集和新类样本集获取新类训练样本集和混合训练样本集,分类模型包括预训练的基类表征编码器、新类表征编码器和交叉对齐单元,针对混合训练样本集中的每一训练文本,以训练文本为分类模型的输入,输出训练文本的分类概率分布,交叉对齐单元用于对新类原型和训练文本的查询表示进行交叉对齐更新,得到更新的新类原型和训练文本的更新查询表示,根据混合训练样本集中的每一训练文本的分类概率分布和每一训练文本的分类标签,对分类模型的参数进行调整,直到满足停止训练条件,将满足停止训练条件确定的分类模型输出为实体关系分类模型。
Description
技术领域
本申请实施例涉及人工智能技术领域,尤其涉及一种实体关系分类模型训练方法、实体关系分类方法及装置。
背景技术
关系分类(Relation classification,RC)是关系抽取的一个重要子任务,是对给定文本中两个标记实体之间的关系进行分类。少样本学习是指通过少量样本学习到解决问题的模型,而增量少样本学习是指在大量含标签的样本先进行预训练得到预训练模型,然后将预训练模型迁移至少样本的场景时,既不会让含有大量样本的预训练模型的准确率下降,同时也可以针对少样本进行领域自适应。
相关技术中,基础增量式模型(IncreProtoNet)是一个专注于增量少样本关系分类的模型,IncreProtoNet包含两个独立的两阶段原型网络模型,第一个原型网络模型训练是在第一阶段进行预训练以获取基类原型(即基础关系的特征嵌入空间)和基类特征编码器,第二个原型网络模型训练是在第二阶段通过少样本训练获得新类原型(即新类关系的特征嵌入空间)和新类特征编码器。
然而,在使用训练好的IncreProtoNet进行关系分类时,其对新类关系识别的准确性不高。
发明内容
本申请提供一种实体关系分类模型训练方法、实体关系分类方法及装置,可以提高实体关系分类中对新类关系识别的准确性。
第一方面,本申请提供一种实体关系分类模型训练方法,包括:
在任一次分类模型的训练过程中,根据基类样本集和新类样本集获取新类训练样本集和混合训练样本集,所述分类模型包括预训练的基类表征编码器、新类表征编码器和交叉对齐单元;
针对所述混合训练样本集中的每一训练文本,以所述训练文本为所述分类模型的输入,输出所述训练文本的分类概率分布,所述交叉对齐单元用于对新类原型和所述训练文本的查询表示进行交叉对齐更新,得到更新的新类原型和所述训练文本的更新查询表示,所述新类原型为所述新类训练样本集通过所述新类表征编码器的输出;
根据所述混合训练样本集中的每一训练文本的分类概率分布和所述每一训练文本的分类标签,对所述分类模型的参数进行调整,直到满足停止训练条件;
将满足所述停止训练条件所确定的所述分类模型输出为实体关系分类模型。
第二方面,本申请提供一种实体关系分类方法,包括:
接收待分类文本;
将所述待分类文本输入实体关系分类模型,得到所述待分类文本的分类概率分布,所述实体关系分类模型根据第一方面所述的方法训练得到;
将所述待分类文本的分类概率分布中最大概率对应的实体关系,确定为所述待分类文本的实体关系。
第三方面,本申请提供一种实体关系分类模型训练装置,包括:
获取模块,用于在任一次分类模型的训练过程中,根据基类样本集和新类样本集获取新类训练样本集和混合训练样本集,所述分类模型包括预训练的基类表征编码器、新类表征编码器和交叉对齐单元;
训练模块,用于针对所述混合训练样本集中的每一训练文本,以所述训练文本为所述分类模型的输入,输出所述训练文本的分类概率分布,所述交叉对齐单元用于对新类原型和所述训练文本的查询表示进行交叉对齐更新,得到更新的新类原型和所述训练文本的更新查询表示,所述新类原型为所述新类训练样本集通过所述新类表征编码器的输出;
调整模块,用于根据所述混合训练样本集中的每一训练文本的分类概率分布和所述每一训练文本的分类标签,对所述分类模型的参数进行调整,直到满足停止训练条件;
输出模块,用于将满足所述停止训练条件所确定的所述分类模型输出为实体关系分类模型。
第四方面,本申请提供一种实体关系分类装置,包括:
接收模块,用于接收待分类文本;
处理模块,用于将所述待分类文本输入实体关系分类模型,得到所述待分类文本的分类概率分布,所述实体关系分类模型根据第一方面所述的方法训练得到;
确定模块,用于将所述待分类文本的分类概率分布中最大概率对应的实体关系,确定为所述待分类文本的实体关系。
第五方面,本申请提供一种计算机设备,包括:处理器和存储器,该存储器用于存储计算机程序,该处理器用于调用并运行该存储器中存储的计算机程序,以执行第一方面的方法。
第六方面,本申请提供一种计算机可读存储介质,包括指令,当其在计算机程序上运行时,使得所述计算机执行如第一方面的方法。
第七方面,本申请提供一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使得所述计算机执行如第一方面的方法。
综上,在本申请中,通过训练分类模型,该分类模型包括预训练的基类表征编码器、新类表征编码器和交叉对齐单元,在任一次训练过程中,先根据基类样本集和新类样本集获取新类训练样本集和混合训练样本集,针对混合训练样本集中的每一训练文本,以训练文本为分类模型的输入,输出训练文本的分类概率分布,根据混合训练样本集中的每一训练文本的分类概率分布和每一训练文本的分类标签,对分类模型的参数进行调整,直到满足停止训练条件,最终训练出的分类模型即为实体关系分类模型。其中,分类模型中的交叉对齐单元用于对新类原型和训练文本的查询表示进行交叉对齐更新,得到更新的新类原型和训练文本的更新查询表示。而训练文本的分类概率分布根据更新的新类原型和训练文本的更新查询表示计算得到。由于交叉对齐单元对新类原型和训练文本的查询表示进行了交叉对齐更新,对齐更新的查询表示可以更好地对齐新的训练文本,并将基类原型和新类原型分开以优化新类原型。优化的新类原型(即更新的新类原型)可以帮助对齐来自不同表征编码器的查询表示。从而实现了在基类特征嵌入空间和新类特征嵌入空间之间进行对齐,以便灵活地编码查询实例(即待分类文本)并进一步进行正确的关系分类。从而,训练出的实体关系分类模型提高了实体关系分类中对新类关系识别的准确性,同时保持了对基类关系识别的较高的准确性。
进一步地,在本申请实施例中,通过交叉对齐单元对新类原型和训练文本的查询表示进行了迭代交叉对齐更新,经过多轮迭代更新,使得对齐更新的查询表示可以更好地对齐新类原型,并将基础原型和新类原型分开以优化新类原型,更进一步提高实体关系分类模型对新类关系识别的准确性。
进一步地,在本申请实施例中,在调整模型参数时,不仅根据混合训练样本集中的每一训练文本的分类概率分布和每一训练文本的分类标签的构建的损失函数反向传播调整模型参数,还根据混合训练样本集中的每一新类训练文本、更新的新类原型、每一新类训练文本的更新查询表示和基类原型计算出的四元原型损失来调整模型参数,进一步缓解基类和新类之间不兼容的特征嵌入空间,从而实现更有效的域适应,减少相似类之间的距离,更进一步提高实体关系分类模型对新类关系识别的准确性。
附图说明
图1为本申请实施例提供的一种实体关系分类模型训练方法以及实体关系分类方法的实施场景示意图;
图2为本申请实施例提供的一种实体关系分类模型训练方法的流程图;
图3为本申请实施例提供的一种实体关系分类模型训练方法的流程图;
图4为本申请实施例提供的一种实体关系分类模型训练方法的过程示意图;
图5为本申请实施例提供的一种实体关系分类方法的流程图;
图6为本申请实施例提供的一种实体关系分类模型训练装置的结构示意图;
图7为本申请实施例提供的一种实体关系分类装置的结构示意图;
图8是本申请实施例提供的计算机设备700的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在介绍本申请技术方案之前,下面先对本申请相关知识进行介绍:
人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP):是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
深度学习(Deep Learning,DL):是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是学习训练样本数据的内在规律和表示层次,这些学习过程中获得的信息对文字、图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。
神经网络(Neural Network,NN):在机器学习和认知科学领域的一种模仿生物神经网络结构和功能的深度学习模型。
增量少样本学习:是指在大量含标签的样本先进行预训练得到预训练模型,然后将预训练模型迁移至少样本的场景时,既不会让含有大量样本的预训练模型的准确率下降,同时也可以针对少样本进行领域自适应。
领域自适应(Domain Adaptation):是迁移学习中很重要的一部分内容,目的是把分布不同的源域和目标域的数据,映射到一个特征空间中,使其在该空间中的距离尽可能近。于是在特征空间中对源域训练的目标函数,就可以迁移到目标域上,提高目标域上的准确率。
基类:基类(base class)包括大量用于训练模型的带分类标签的样本,这些带分类标签的样本的数量满足模型训练的需求,基类用于训练本申请实施例中的基类表征编码器。
新类:新类(novel class)是与基类相对的概念,比如,若使用多个带标签的样本训练一个模型,对于训练好的该模型而言,训练时使用的多个带标签的样本就是基类,而基类中不包括的关系类型就是新类。通常,新类中的每个类别只包括少量的带标签的样本,本申请实施例中,新类可以指少样本(few-shot)。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本本申请实施例提供的方案涉及人工智能的自然语言处理技术以及机器学习/深度学习等技术,具体通过如下实施例进行说明。
相关技术中,对新类关系识别的准确性不高。为解决这一问题,本申请通过训练分类模型,该分类模型包括预训练的基类表征编码器、新类表征编码器和交叉对齐单元,在任一次训练过程中,先根据基类样本集和新类样本集获取新类训练样本集和混合训练样本集,针对混合训练样本集中的每一训练文本,以训练文本为分类模型的输入,输出训练文本的分类概率分布,根据混合训练样本集中的每一训练文本的分类概率分布和每一训练文本的分类标签,对分类模型的参数进行调整,直到满足停止训练条件,最终训练出的分类模型即为实体关系分类模型。其中,分类模型中的交叉对齐单元用于对新类原型和训练文本的查询表示进行交叉对齐更新,得到更新的新类原型和训练文本的更新查询表示。而训练文本的分类概率分布根据更新的新类原型和训练文本的更新查询表示计算得到。由于交叉对齐单元对新类原型和训练文本的查询表示进行了交叉对齐更新,对齐更新的查询表示可以更好地对齐新的训练文本,并将基类原型和新类原型分开以优化新类原型。优化的新类原型(即更新的新类原型)可以帮助对齐来自不同表征编码器的查询表示。从而实现了在基类特征嵌入空间和新类特征嵌入空间之间进行对齐,以便灵活地编码查询实例(即待分类文本)并进一步进行正确的关系分类。从而,训练出的实体关系分类模型提高了实体关系分类中对新类关系识别的准确性,同时保持了对基类关系识别的较高的准确性。
进一步地,本申请实施例中通过交叉对齐单元对新类原型和训练文本的查询表示进行了迭代交叉对齐更新,经过多轮迭代更新,使得对齐更新的查询表示可以更好地对齐新类原型,并将基础原型和新类原型分开以优化新类原型,更进一步提高实体关系分类模型对新类关系识别的准确性。
进一步地,本申请实施例中在调整模型参数时,不仅根据混合训练样本集中的每一训练文本的分类概率分布和每一训练文本的分类标签的构建的损失函数反向传播调整模型参数,还根据混合训练样本集中的每一新类训练文本、更新的新类原型、每一新类训练文本的更新查询表示和基类原型计算出的四元原型损失来调整模型参数,进一步缓解基类和新类之间不兼容的特征嵌入空间,从而实现更有效的域适应,减少相似类之间的距离,更进一步提高实体关系分类模型对新类关系识别的准确性。
本申请实施例可应用于各种场景,包括但不限于云技术、人工智能、机器人、智能医疗、智能客服等等场景。
下面将对本申请实施例的技术方案能够适用的应用场景做一些简单介绍,需要说明的是,下面介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时,可以根据实际需要灵活地应用本申请实施例提供的技术方案。
本申请实施例提供的实体关系分类模型训练方法以及实体关系分类方法,可应用于文本分类场景,下面结合几种应用场景进行说明。
1、医疗文本分类场景中,在医疗场景下,需要对医疗文本进行识别和分类。
在医疗场景下,本申请实施例提供的实体关系分类模型训练方法以及实体关系分类方法可应用于服务器。在模型训练阶段,服务器可以根据输入的基类样本集和新类样本集,使用本申请实施例提供的实体关系分类模型训练方法训练出实体关系分类模型。在模型应用阶段,服务器在接收到待分类文本后,将待分类文本输入实体关系分类模型,得到待分类文本的分类概率分布,将待分类文本的分类概率分布中最大概率对应的实体关系,确定为待分类文本的实体关系。从而,可实现对输入的文本进行实体关系分类,例如,一个文本中的两个实体是A和B,分类的结果是:A是B的药品,或者,A是B的治疗方案。
由于现实场景下的医疗文本很多难以获得,或者有很多是长尾类别。此时增量少样本学习就可以作为一个比较好的方式来解决长尾或者数据量太少的问题。即可采用本申请实施例提供的实体关系分类模型训练方法以及实体关系分类方法。
2、医疗意图识别场景,需要进行意图识别分类。
在医疗对话或者问答时,需要对用户输入的查询实例(query)和历史对话进行意图识别分类,即就是识别出意图,如果现有对话问答的数据量不足或者需要识别长尾类别的意图时,可以该增量少样本学习的方式来解决该问题,即可采用本申请实施例提供的实体关系分类模型训练方法以及实体关系分类方法。该方法可应用于服务器。在模型训练阶段,服务器可以根据输入的基类样本集和新类样本集,使用本申请实施例提供的实体关系分类模型训练方法训练出实体关系分类模型。在模型应用阶段,服务器在接收到输入的查询实例后,将查询实例输入实体关系分类模型,得到查询实例的分类概率分布,将查询实例的分类概率分布中最大概率对应的实体关系,确定为查询实例的意图。通过使用本申请实施例的方法可提高医疗意图识别的准确率。
上述仅以几种常见的应用场景为例进行示意性说明,本申请实施例提供的方法还可以应用于其他需要对文本进行实体关系分类的场景,本申请实施例并不对实际应用场景构成限定。
示例性的,图1为本申请实施例提供的一种实体关系分类模型训练方法以及实体关系分类方法的实施场景示意图,如图1所示,本申请实施例的实施场景涉及服务器1和终端设备2,终端设备2可以通过通信网络与服务器1进行数据通信。
其中,在一些可实现方式中,终端设备2是指一类具备丰富人机交互方式、拥有接入互联网能力、通常搭载各种操作系统、具有较强处理能力的设备。用户终端可以是智能手机、平板电脑、便携式笔记本电脑、台式电脑等用户终端或电话手表等,但不限于此。可选的,本申请实施例中,终端设备2中安装有具备智能医疗或智能客服功能的应用程序。
其中,在一些可实现方式中,终端设备2包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。
图1中的服务器1可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。本申请对此不做限制。本申请实施例中,服务器1可以为终端设备2中安装的具备智能医疗或智能客服功能的应用程序的后台服务器。
在一些可实现方式中,图1示例性地示出了一个用户终端、一台服务器,实际上可以包括其他数量的用户终端和服务器,本申请对此不做限制。
示例性地,终端设备2上可以安装并运行具备智能医疗或智能客服功能的目标应用程序,用户可操作终端设备2上安装的目标应用程序来实现智能医疗等服务,例如,用户线上进行疾病的咨询和药品咨询等,用户通过目标应用程序输入药品咨询问题(其中包括两个实体A和B),终端设备2将携带该药品咨询问题的咨询请求发送至服务器1,服务器1可处理终端设备2发送的咨询请求,执行本申请实施例提供的实体关系分类方法,识别出咨询问题中两个实体A和B的关系类型,例如识别出A是B的治疗方案。服务器可将识别结果发送给终端设备2,终端设备2在当前页面回复该识别结果给用户。
下面将对本申请技术方案进行详细阐述:
图2为本申请实施例提供的一种实体关系分类模型训练方法的流程图,如图2所示,该方法可以包括:
S101、在任一次分类模型的训练过程中,根据基类样本集和新类样本集获取新类训练样本集和混合训练样本集,分类模型包括预训练的基类表征编码器、新类表征编码器和交叉对齐单元。
具体来说,分类模型的训练需要进行多次,每一次的训练过程相同。
其中,基类样本集包括多个关系类型和每一关系类型对应的样本,不同关系类型对应的样本数量可以相同也可以不同,新类样本集包括多个关系类型和每一关系类型对应的样本,基类样本集中不包括的关系类型是新类样本集中包括的关系类型。
新类训练样本集是从新类样本集中按照第一预设采样方式采样的样本,例如,新类样本集中包括30个新类关系类型,第一预设采样方式可以为:从30个新类关系类型中采样5个新类关系类型,每个新类关系类型采样5个样本,即采样25个样本组成新类训练样本集,每个样本为新类训练样本集中的训练样本。或者,第一预设采样方式可以为:从30个新类关系类型中采样5个新类关系类型,每个新类关系类型采样1个样本。即采样5个样本组成新类训练样本集,每个样本为新类训练样本集中的训练样本。
混合训练样本集是从新类样本集和基类样本集中按照第二预设采样方式采样的样本,混合训练样本集中既包括采样的新类样本也包括采样的基类样本,第二预设采样方式可以为:从基类样本集中采样与基类训练样本集包括的关系类型相同的关系类型对应的样本,以及从新类样本集中采样与新类训练样本集包括的关系类型相同的关系类型对应的样本。
需要说明的是,第一预设采样方式和第二预设采样方式需要使得基类训练样本集、新类训练样本集和混合训练样本集中没有重复的样本。
在每一次分类模型的训练过程中,先按照上述方式,根据基类样本集和新类样本集获取新类训练样本集和混合训练样本集。
本申请实施例中,分类模型包括预训练的基类表征编码器、新类表征编码器和交叉对齐单元,即就是说,在执行S101之前,预训练基类表征编码器。先根据基类样本集获取基类训练样本集,可以是从基类样本集中采样样本组成基类训练样本集,例如基类样本集中包括1000种关系类型,每种关系类型对应多个样本,从基类样本集中采样900种关系类型,每种关系类型例如采样10个样本,采样的900*10=9000个样本组成基类训练样本集。获取到基类训练样本集后,根据基类训练样本集预训练基类表征编码器,具体是以基类训练样本集为基类表征编码器的输入,输出基类原型,并训练得到基类表征编码器。
其中,b=1,2,.....Nbase,xb,i是Ib,i通过基类表征编码器的嵌入向量,Kb是基类训练样本集中训练样本的总数。
S102、针对混合训练样本集中的每一训练文本,以训练文本为分类模型的输入,输出训练文本的分类概率分布,交叉对齐单元用于对新类原型和训练文本的查询表示进行交叉对齐更新,得到更新的新类原型和训练文本的更新查询表示,新类原型为新类训练样本集通过新类表征编码器的输出。
具体来说,本实施例中的分类模型包括预训练的基类表征编码器、新类表征编码器和交叉对齐单元。针对混合训练样本集中的每一训练文本,以训练文本为分类模型的输入,输出训练文本的分类概率分布,具体可以包括:
S1021、将新类训练样本集输入新类表征编码器,输出新类原型。
其中,n=1,2,.....Nnovel,x′n,i是I′n,i通过新类表征编码器的嵌入向量,K′n是新类训练样本集中训练样本的总数。
S1022、以训练文本为基类表征编码器的输入,输出训练文本的基类特征嵌入。
S1023、以训练文本为新类表征编码器的输入,输出训练文本的新类特征嵌入。
S1024、根据预训练得到的基类原型、新类原型、复合函数、训练文本的基类特征嵌入和训练文本的新类特征嵌入,得到训练文本的查询表示,复合函数通过注意力机制计算得到。
示例性地,根据预训练得到的基类原型Pbase、新类原型Pnovel、训练文本的基类特征嵌入和训练文本的新类特征嵌入以及复合函数f,得到训练文本的查询表示xq,训练文本的查询表示为:其中,复合函数通过注意力机制计算得到。
S1025、对新类原型和训练文本的查询表示进行交叉对齐更新,得到更新的新类原型和训练文本的更新查询表示。
在一种可实施的方式中,对新类原型和训练文本的查询表示进行交叉对齐更新,得到更新的新类原型和训练文本的更新查询表示,具体可以为:
首先,计算训练文本的查询表示与新类训练样本集中的每个新类训练样本之间的注意力权重。
示例性地,训练文本的查询表示xq与新类训练样本集中的每个新类训练样本x′n,i之间的注意力权重γn,i可以为如下公式所示:
其中,K′n是新类训练样本集中训练样本的总数,其中d是欧式距离。
接着,使用训练文本的查询表示与新类训练样本集中的每个新类训练样本之间的注意力权重,对新类训练样本集中的新类训练样本通过新类表征编码器的嵌入向量加权求和,得到更新的新类原型。
示例性地,更新的新类原型为如下公式所示:
更新的新类原型还可以用如下公式表示:
该公式的含义与上述公式相同。
然后,根据基类原型、更新的新类原型、复合函数、训练文本的基类特征嵌入和训练文本的新类特征嵌入,得到训练文本的更新查询表示。
通过上述过程,对新类原型和训练文本的查询表示进行交叉对齐更新,得到更新的新类原型和训练文本的更新查询表示。由于大部分查询实例属于基类关系,交叉对齐更新增强了基类关系实例和新类关系实例之间的交互,这有助于在基类关系和新类关系这两个特征嵌入空间之间进行对齐。
上述方式中,新类原型和训练文本的查询表示只更新了一次,为进一步提高新类关系识别的准确性,本实施例中可以迭代对齐(IA)更新。迭代对齐将交叉对齐从单轮扩展到多轮,进一步促进了交互和对齐,从而进一步提高了新类关系识别的准确性。在另一种可实施的方式中,对新类原型和训练文本的查询表示进行交叉对齐更新,得到更新的新类原型和训练文本的更新查询表示,具体可以包括:
根据预设的交叉对齐迭代更新次数,对新类原型和训练文本的查询表示进行交叉对齐迭代更新,得到更新的新类原型和训练文本的更新查询表示。
可选的,上述根据预设的交叉对齐迭代更新次数,对新类原型和训练文本的查询表示进行交叉对齐迭代更新,得到更新的新类原型和训练文本的更新查询表示,具体可以为:
S1、计算训练文本的第t-1轮更新查询表示与新类训练样本集中的每个新类训练样本之间的注意力权重,t大于0,训练文本的第0轮更新查询表示为训练文本的查询表示。
S2、使用训练文本的第t-1轮更新查询表示与新类训练样本集中的每个新类训练样本之间的注意力权重,对新类训练样本集中的新类训练样本通过新类表征编码器的嵌入向量加权求和,得到第t轮更新的新类原型。
S3、根据基类原型、第t轮更新的新类原型、复合函数、训练文本的基类特征嵌入和训练文本的新类特征嵌入,得到训练文本的第t轮更新查询表示。
重复上述过程,直到t等于N,N为预设的交叉对齐迭代更新次数。
本实施方式中,通过交叉对齐单元对新类原型和训练文本的查询表示进行了迭代交叉对齐更新,经过多轮迭代更新,使得对齐更新的查询表示可以更好地对齐新类原型,并将基础原型和新类原型分开以优化新类原型,更进一步提高实体关系分类模型对新类关系识别的准确性。
S1026、根据基类原型、更新的新类原型和训练文本的更新查询表示,计算得到训练文本的分类概率分布。
具体地,训练文本的分类概率分布pθ(ri|q)可以为如下公式所示:
其中,是Pall={Pbase,Pnovel}中的第i个原型对。上述公式中的xq为训练文本的更新查询表示,中的Pnovel是更新的新类原型,Pbase是基类原型。训练文本的分类概率分布包括训练文本q属于关系类型ri的概率,ri为第i-th个关系类型中的任一个关系类型。
S103、根据混合训练样本集中的每一训练文本的分类概率分布和每一训练文本的分类标签,对分类模型的参数进行调整,直到满足停止训练条件。
在一种可实施的方式中,S103具体可以包括:
S1031、根据混合训练样本集中的每一训练文本的分类概率分布和每一训练文本的分类标签,构建损失函数。
具体地,可选的,构建损失函数,可以是计算每一训练文本的分类概率分布和每一训练文本的分类标签之间的交叉熵损失,然后对混合训练样本集中的所有训练文本的交叉熵损失求和,得到交叉熵损失和。
S1032、根据损失函数,反向传播调整新类表征编码器的参数,直到满足停止训练条件。
可选的,可以是根据交叉熵损失和反向传播调整新类表征编码器的参数,直到满足停止训练条件,本实施例中停止训练条件可以是交叉熵损失和收敛,即停止训练。
在另一种可实施的方式中,混合训练样本集包括新类训练文本和基类训练文本,S103具体可以包括:
S1031’、根据混合训练样本集中的每一新类训练文本、更新的新类原型和预训练得到基类原型计算四元原型损失。
可选的,根据混合训练样本集中的每一新类训练文本、更新的新类原型和预训练得到基类原型计算四元原型损失,具体可以包括:
针对每一新类训练文本,计算新类训练文本的目标距离,目标距离为第一目标距离和第二目标距离的和,第一目标距离根据第一预设超参数、第一距离和第二距离确定,第二目标距离根据第二预设超参数、第一距离和第三距离确定。
其中,第一距离为新类训练文本的表征与新类训练文本对应的目标关系类型的原型之间的欧式距离;第二距离为:新类训练文本的表征与更新的新类原型中除目标关系类型之外的一关系类型的原型之间的欧式距离;或者,第二距离为:新类训练文本的表征与基类原型中的一关系类型的原型之间的欧式距离;第三距离为更新的新类原型中除目标关系类型之外的一关系类型的原型和基类原型中的一关系类型的原型之间的欧式距离。
将混合训练样本集中的所有新类训练文本的目标距离的和确定为四元原型损失。
可选的,四元原型损失可以为如下公式所示:
其中,Nnovel为混合训练样本集中新类关系类型的个数,M为每个关系类型的训练文本的数量。δ1和δ2是预设超参数,例如分别可以为5和15,d为欧氏距离。是一个四元组,分别是混合训练样本集中的一新类训练文本的表征、该新类训练文本对应的目标关系类型的原型、更新的新类原型中除目标关系类型之外的一关系类型的原型和基类原型中的一个关系类型的原型。
第一目标距离根据第一预设超参数δ1、第一距离d1和第二距离d2确定,如上公式所示,为max(0,δ1+d1-d2)。第二目标距离根据第二预设超参数δ2、第一距离d1和第三距离d3确定,如上公式所示,为max(0,δ2+d1-d3)。
S1032’、根据混合训练样本集中的每一训练文本的分类概率分布和每一训练文本的分类标签,构建损失函数。
可选的,构建损失函数,可以是计算每一训练文本的分类概率分布和每一训练文本的分类标签之间的交叉熵损失,然后对混合训练样本集中的所有训练文本的交叉熵损失求和,得到交叉熵损失和。
S1033’、根据四元原型损失和损失函数,反向传播调整新类表征编码器的参数,直到满足停止训练条件。
本实施例中,同时根据四元原型损失和损失函数,反向传播调整新类表征编码器的参数,直到满足停止训练条件。相应地,停止训练条件可以是四元原型损失和交叉熵损失和收敛。
本实施方式中,通过在调整模型参数时,不仅根据混合训练样本集中的每一训练文本的分类概率分布和每一训练文本的分类标签的构建的损失函数反向传播调整模型参数,还根据混合训练样本集中的每一新类训练文本、更新的新类原型、每一新类训练文本的更新查询表示和基类原型计算出的四元原型损失来调整模型参数,进一步缓解基类和新类之间不兼容的特征嵌入空间,从而实现更有效的域适应,减少相似类之间的距离,更进一步提高实体关系分类模型对新类关系识别的准确性。
S104、将满足停止训练条件所确定的分类模型输出为实体关系分类模型。
本实施例提供的实体关系分类模型训练方法,通过训练分类模型,该分类模型包括预训练的基类表征编码器、新类表征编码器和交叉对齐单元,在任一次训练过程中,先根据基类样本集和新类样本集获取新类训练样本集和混合训练样本集,针对混合训练样本集中的每一训练文本,以训练文本为分类模型的输入,输出训练文本的分类概率分布,根据混合训练样本集中的每一训练文本的分类概率分布和每一训练文本的分类标签,对分类模型的参数进行调整,直到满足停止训练条件,最终训练出的分类模型即为实体关系分类模型。其中,分类模型中的交叉对齐单元用于对新类原型和训练文本的查询表示进行交叉对齐更新,得到更新的新类原型和训练文本的更新查询表示。而训练文本的分类概率分布根据更新的新类原型和训练文本的更新查询表示计算得到。由于交叉对齐单元对新类原型和训练文本的查询表示进行了交叉对齐更新,对齐更新的查询表示可以更好地对齐新的训练文本,并将基类原型和新类原型分开以优化新类原型。优化的新类原型(即更新的新类原型)可以帮助对齐来自不同表征编码器的查询表示。从而实现了在基类特征嵌入空间和新类特征嵌入空间之间进行对齐,以便灵活地编码查询实例(即待分类文本)并进一步进行正确的关系分类。从而,训练出的实体关系分类模型提高了实体关系分类中对新类关系识别的准确性,同时保持了对基类关系识别的较高的准确性。
下面结合图3和图4,采用一个具体的实施例对本申请实施例提供的实体关系分类模型训练方法进行详细说明。
图3为本申请实施例提供的一种实体关系分类模型训练方法的流程图,图4为本申请实施例提供的一种实体关系分类模型训练方法的过程示意图,如图3和图4所示,本实施例的方法可以包括:
S201、根据基类样本集获取基类训练样本集,根据基类训练样本集预训练基类表征编码器。
具体地,可以是从基类样本集中采样样本组成基类训练样本集Dtrain,例如基类样本集中包括1000种关系类型,每种关系类型对应多个样本,从基类样本集中采样900种关系类型,每种关系类型例如采样10个样本,采样的900*10=9000个样本组成基类训练样本集。
其中,b=1,2,.....Nbase,xb,i是Ib,i通过基类表征编码器的嵌入向量,Kb是基类训练样本集中训练样本的总数。
S202、在任一次分类模型的训练过程中,根据基类样本集和新类样本集获取新类训练样本集和混合训练样本集,分类模型包括预训练的基类表征编码器、新类表征编码器和交叉对齐单元。
具体来说,在一种可实施的方式中,新类训练样本集S是从新类样本集中按照第一预设采样方式采样的样本,例如,新类样本集中包括30个新类关系类型,第一预设采样方式可以为:从30个新类关系类型中采样5个新类关系类型,每个新类关系类型采样5个样本,即采样25个样本组成新类训练样本集,每个样本为新类训练样本集中的训练样本。或者,第一预设采样方式可以为:从30个新类关系类型中采样5个新类关系类型,每个新类关系类型采样1个样本。即采样5个样本组成新类训练样本集,每个样本为新类训练样本集中的训练样本。
混合训练样本集Q是从新类样本集和基类样本集中按照第二预设采样方式采样的样本,混合训练样本集中既包括采样的新类样本也包括采样的基类样本,第二预设采样方式可以为:从基类样本集中采样与基类训练样本集包括的关系类型相同的关系类型对应的样本,以及从新类样本集中采样与新类训练样本集包括的关系类型相同的关系类型对应的样本。需要说明的是,第一预设采样方式和第二预设采样方式需要使得基类训练样本集、新类训练样本集和混合训练样本集中没有重复的样本。
S203、将新类训练样本集输入新类表征编码器,输出新类原型。
其中,n=1,2,.....Nnovel,x′n,i是I′n,i通过新类表征编码器的嵌入向量,K′n是新类训练样本集中训练样本的总数。
S204、针对混合训练样本集中的每一训练文本,以该训练文本为基类表征编码器的输入,输出训练文本的基类特征嵌入。
S205、以该训练文本为新类表征编码器的输入,输出训练文本的新类特征嵌入。
S206、根据预训练得到的基类原型、新类原型、复合函数、训练文本的基类特征嵌入和训练文本的新类特征嵌入,得到训练文本的查询表示,复合函数通过注意力机制计算得到。
示例性地,根据预训练得到的基类原型Pbase、新类原型Pnouel、训练文本的基类特征嵌入和训练文本的新类特征嵌入以及复合函数f,得到训练文本的查询表示xq,训练文本的查询表示为:其中,复合函数通过注意力机制计算得到。
S207、根据预设的交叉对齐迭代更新次数,对新类原型和训练文本的查询表示进行交叉对齐迭代更新,得到更新的新类原型和训练文本的更新查询表示。
具体地,在一种可实施的方式中,S207具体可以为:
S2071、计算训练文本的第t-1轮更新查询表示与新类训练样本集中的每个新类训练样本之间的注意力权重,t大于0,训练文本的第0轮更新查询表示为训练文本的查询表示。
S2072、使用训练文本的第t-1轮更新查询表示与新类训练样本集中的每个新类训练样本之间的注意力权重,对新类训练样本集中的新类训练样本通过新类表征编码器的嵌入向量加权求和,得到第t轮更新的新类原型。
具体地,t=1时,计算训练文本的第0轮更新查询表示与新类训练样本集中的每个新类训练样本之间的注意力权重,即计算训练文本的查询表示与新类训练样本集中的每个新类训练样本之间的注意力权重。
示例性地,训练文本的查询表示xq与新类训练样本集中的每个新类训练样本x′n,i之间的注意力权重γn,i可以为如下公式所示:
其中,K′n是新类训练样本集中训练样本的总数,其中d是欧式距离。
接着,使用训练文本的查询表示与新类训练样本集中的每个新类训练样本之间的注意力权重,对新类训练样本集中的新类训练样本通过新类表征编码器的嵌入向量加权求和,得到第1轮更新的新类原型。
示例性地,第1轮更新的新类原型为如下公式所示:
第1轮更新的新类原型还可以用如下公式表示:
该公式的含义与上述公式相同。
S2073、根据基类原型、第t轮更新的新类原型、复合函数、训练文本的基类特征嵌入和训练文本的新类特征嵌入,得到训练文本的第t轮更新查询表示。
根据基类原型、第1轮更新的新类原型、复合函数、训练文本的基类特征嵌入和训练文本的新类特征嵌入,得到训练文本的第1轮更新查询表示。即:
t大于或等于2时,
重复上述过程,直到t等于N,N为预设的交叉对齐迭代更新次数。
本实施方式中,通过交叉对齐单元对新类原型和训练文本的查询表示进行了迭代交叉对齐更新,经过多轮迭代更新,使得对齐更新的查询表示可以更好地对齐新类原型,并将基础原型和新类原型分开以优化新类原型,更进一步提高实体关系分类模型对新类关系识别的准确性。
如图4中所示,N=3,即交叉对齐迭代更新次数为3次,可选的,N还可以为5、7等等。
S208、根据基类原型、更新的新类原型和训练文本的更新查询表示,计算得到训练文本的分类概率分布。
具体地,训练文本的分类概率分布pθ(ri|q)可以为如下公式所示:
其中,是Pall={Pbase,Pnovel}中的第i个原型对。上述公式中的xq为训练文本的更新查询表示,中的Pnovel是更新的新类原型,Pbase是基类原型。训练文本的分类概率分布包括训练文本q属于关系类型ri的概率,ri为第i-th个关系类型中的任一个关系类型。
S209、根据混合训练样本集中的每一新类训练文本、更新的新类原型和预训练得到基类原型计算四元原型损失。
可选的,根据混合训练样本集中的每一新类训练文本、更新的新类原型和预训练得到基类原型计算四元原型损失,具体可以包括:
针对每一新类训练文本,计算新类训练文本的目标距离,目标距离为第一目标距离和第二目标距离的和,第一目标距离根据第一预设超参数、第一距离和第二距离确定,第二目标距离根据第二预设超参数、第一距离和第三距离确定。
其中,第一距离为新类训练文本的表征与新类训练文本对应的目标关系类型的原型之间的欧式距离;第二距离为:新类训练文本的表征与更新的新类原型中除目标关系类型之外的一关系类型的原型之间的欧式距离;或者,第二距离为:新类训练文本的表征与基类原型中的一关系类型的原型之间的欧式距离;第三距离为更新的新类原型中除目标关系类型之外的一关系类型的原型和基类原型中的一关系类型的原型之间的欧式距离。
将混合训练样本集中的所有新类训练文本的目标距离的和确定为四元原型损失。
可选的,四元原型损失可以为如下公式所示:
其中,Nnovel为混合训练样本集中新类关系类型的个数,M为每个关系类型的训练文本的数量。δ1和δ2是预设超参数,例如分别可以为5和15,d为欧氏距离。是一个四元组,分别是混合训练样本集中的一新类训练文本的表征、该新类训练文本对应的目标关系类型的原型、更新的新类原型中除目标关系类型之外的一关系类型的原型和基类原型中的一个关系类型的原型。
第一目标距离根据第一预设超参数δ1、第一距离d1和第二距离d2确定,如上公式所示,为max(0,δ1+d1-d2)。第二目标距离根据第二预设超参数δ2、第一距离d1和第三距离d3确定,如上公式所示,为max(0,δ2+d1-d3)。
S210、计算每一训练文本的分类概率分布和每一训练文本的分类标签之间的交叉熵损失,然后对混合训练样本集中的所有训练文本的交叉熵损失求和,得到交叉熵损失和。
S211、根据四元原型损失和交叉熵损失和,反向传播调整新类表征编码器的参数,直到满足停止训练条件。
具体地,停止训练条件可以是四元原型损失和交叉熵损失和收敛。
S212、将满足停止训练条件所确定的分类模型输出为实体关系分类模型。
本实施例提供的实体关系分类模型训练方法,通过训练分类模型,该分类模型包括预训练的基类表征编码器、新类表征编码器和交叉对齐单元,其中,分类模型中的交叉对齐单元用于对新类原型和训练文本的查询表示进行迭代交叉对齐更新,得到更新的新类原型和训练文本的更新查询表示。而训练文本的分类概率分布根据更新的新类原型和训练文本的更新查询表示计算得到。由于交叉对齐单元对新类原型和训练文本的查询表示进行了迭代交叉对齐更新,对齐更新的查询表示可以更好地对齐新的训练文本,并将基类原型和新类原型分开以优化新类原型。优化的新类原型(即更新的新类原型)可以帮助对齐来自不同表征编码器的查询表示。从而实现了在基类特征嵌入空间和新类特征嵌入空间之间进行对齐,以便灵活地编码查询实例(即待分类文本)并进一步进行正确的关系分类。从而,训练出的实体关系分类模型提高了实体关系分类中对新类关系识别的准确性,同时保持了对基类关系识别的较高的准确性。而且,通过在调整模型参数时,不仅根据混合训练样本集中的每一训练文本的分类概率分布和每一训练文本的分类标签的构建的损失函数反向传播调整模型参数,还根据混合训练样本集中的每一新类训练文本、更新的新类原型、每一新类训练文本的更新查询表示和基类原型计算出的四元原型损失来调整模型参数,进一步缓解基类和新类之间不兼容的特征嵌入空间,从而实现更有效的域适应,减少相似类之间的距离,更进一步提高实体关系分类模型对新类关系识别的准确性。
本申请实施例提供的实体关系分类模型在增量少数展示学习任务中获得了显著改进。如下表一为本申请实施例提供的实体关系分类模型(Glove-Incre-ICAPQ和BERT-Incre-ICAPQ)和现有的基础增量式模型(Glove-IncreProtoNet和BERT-IncreProtoNet)的分类准确率的对比:
表一 分类准确率(%)对比
从上表一中,我们可以看到,对于FewRel 1.0数据集,本申请的模型在1-shotlearning(是指每个关系类型随机采样1个文本)和5-shot learning(是指每个关系类型随机采样5个文本)任务中都取得了较好的成绩。与IncreProtoNet相比,本申请的模型显着提高了新类分类准确率3-10%,同时保持了基类识别的高精度。这表明本申请实施例提出的迭代交叉对齐更新机制和四元原型损失可以极大地提高模型对新类别关系的识别能力。是因为迭代交叉对齐机制可以获得更有效的新类原型,并更好地对齐来自不同编码器的查询表示。
混合训练样本集的训练样本越多,新类分类的改进就越大。从上表一可以看出,使用GloVe或BERT作为初始文本编码器,对于小说类,5-shot学习的改进比1-shot学习更显著。这是因为混合训练样本集的训练样本较多时,迭代交叉对齐更新机制和四元原型损失可以帮助分离基类和新类,减少相似类之间的距离,并使新类和对应原型的查询尽可能接近。
为了进一步证明本申请方法的优越性,本申请实施例将FewRel 2.0中的少样本领域适应(few-shot DA)挑战扩展到增量少样本域适应。与原始增量少样本关系分类(RC)不同,测试集中的新实例被添加的医学领域实例所取代。由于测试集中新实例的域不再与训练集一致,因此要求模型能够跨域迁移,这更真实,更具挑战性。下面表二为本申请实施例提供的实体关系分类模型(Glove-Incre-ICAPQ和BERT-Incre-ICAPQ)和现有的基础增量式模型(Glove-IncreProtoNet和BERT-IncreProtoNet)的分类准确率(%)对比:
表二 分类准确率(%)对比
上表二中说明了Incre-ProtoNet和本申请的模型的比较结果,可以看到:(1)IncreProtNet和本申请实施例的模型在几乎所有指标上都出现了巨大的下降,这证明了增量的难度少样本领域适应。(2)本申请实施例的模型在所有指标上都优于Incre-ProtoNet。特别是在5-shot设置中,新类关系的分类准确性平均提高了7个百分点以上。(3)本申请实施例的方法的性能下降率低于IncreProtoNet。这些观察表明,本申请实施例提出的交叉对齐模块为关系原型和查询实例提供了更准确、稳健和通用的表示。
图5为本申请实施例提供的一种实体关系分类方法的流程图,该方法的执行主体可以是服务器,如图5所示,该方法可以包括:
S301、接收待分类文本。
S302、将待分类文本输入实体关系分类模型,得到待分类文本的分类概率分布。
其中,实体关系分类模型根据图2或图3所示的方法训练得到。
可选的,待分类文本包括文本、第一实体、第二实体以及第一实体在文本中的位置和第二实体在文本中的位置,S302具体可以为:
将待分类文本输入实体关系分类模型,得到第一实体和第二实体之间的分类概率分布。
S303、将待分类文本的分类概率分布中最大概率对应的实体关系,确定为待分类文本的实体关系。
具体地,将第一实体和第二实体之间的分类概率分布中最大概率对应的实体关系,确定为第一实体和第二实体之间的实体关系。
本实施例提供的实体关系分类方法,通过采用图2或图3所示的方法训练得到的实体关系分类模型,可提高实体关系分类中对新类关系识别的准确性,同时保持了对基类关系识别的较高的准确性。
图6为本申请实施例提供的一种实体关系分类模型训练装置的结构示意图,如图6所示,该装置可以包括:获取模块11、训练模块12、调整模块13和输出模块14,其中,
获取模块11用于在任一次分类模型的训练过程中,根据基类样本集和新类样本集获取新类训练样本集和混合训练样本集,分类模型包括预训练的基类表征编码器、新类表征编码器和交叉对齐单元;
训练模块12用于针对混合训练样本集中的每一训练文本,以训练文本为分类模型的输入,输出训练文本的分类概率分布,交叉对齐单元用于对新类原型和训练文本的查询表示进行交叉对齐更新,得到更新的新类原型和训练文本的更新查询表示,新类原型为新类训练样本集通过新类表征编码器的输出;
调整模块13用于根据混合训练样本集中的每一训练文本的分类概率分布和每一训练文本的分类标签,对分类模型的参数进行调整,直到满足停止训练条件;
输出模块14用于将满足停止训练条件所确定的分类模型输出为实体关系分类模型。
可选的,训练模块12用于:
将新类训练样本集输入新类表征编码器,输出新类原型;
以训练文本为基类表征编码器的输入,输出训练文本的基类特征嵌入;
以训练文本为新类表征编码器的输入,输出训练文本的新类特征嵌入;
根据预训练得到的基类原型、新类原型、复合函数、训练文本的基类特征嵌入和训练文本的新类特征嵌入,得到训练文本的查询表示,复合函数通过注意力机制计算得到;
对新类原型和训练文本的查询表示进行交叉对齐更新,得到更新的新类原型和训练文本的更新查询表示;
根据基类原型、更新的新类原型和训练文本的更新查询表示,计算得到训练文本的分类概率分布。
可选的,训练模块12具体用于:
计算训练文本的查询表示与新类训练样本集中的每个新类训练样本之间的注意力权重;
使用训练文本的查询表示与新类训练样本集中的每个新类训练样本之间的注意力权重,对新类训练样本集中的新类训练样本通过新类表征编码器的嵌入向量加权求和,得到更新的新类原型;
根据基类原型、更新的新类原型、复合函数、训练文本的基类特征嵌入和训练文本的新类特征嵌入,得到训练文本的更新查询表示。
可选的,训练模块12具体用于:
根据预设的交叉对齐迭代更新次数,对新类原型和训练文本的查询表示进行交叉对齐迭代更新,得到更新的新类原型和训练文本的更新查询表示。
可选的,训练模块12具体用于:
计算训练文本的第t-1轮更新查询表示与新类训练样本集中的每个新类训练样本之间的注意力权重,t大于0,训练文本的第0轮更新查询表示为训练文本的查询表示;
使用训练文本的第t-1轮更新查询表示与新类训练样本集中的每个新类训练样本之间的注意力权重,对新类训练样本集中的新类训练样本通过新类表征编码器的嵌入向量加权求和,得到第t轮更新的新类原型;
根据基类原型、第t轮更新的新类原型、复合函数、训练文本的基类特征嵌入和训练文本的新类特征嵌入,得到训练文本的第t轮更新查询表示;
重复上述过程,直到t等于N,N为预设的交叉对齐迭代更新次数。
可选的,调整模块13用于:
根据混合训练样本集中的每一训练文本的分类概率分布和每一训练文本的分类标签,构建损失函数;
根据损失函数,反向传播调整新类表征编码器的参数,直到满足停止训练条件。
可选的,混合训练样本集包括新类训练文本和基类训练文本,调整模块13用于:
根据混合训练样本集中的每一新类训练文本、更新的新类原型和预训练得到基类原型计算四元原型损失;
根据混合训练样本集中的每一训练文本的分类概率分布和每一训练文本的分类标签,构建损失函数;
根据四元原型损失和损失函数,反向传播调整新类表征编码器的参数,直到满足停止训练条件。
可选的,调整模块13用于:
针对每一新类训练文本,计算新类训练文本的目标距离,目标距离为第一目标距离和第二目标距离的和,第一目标距离根据第一预设超参数、第一距离和第二距离确定,第二目标距离根据第二预设超参数、第一距离和第三距离确定。
其中,第一距离为新类训练文本的表征与新类训练文本对应的目标关系类型的原型之间的欧式距离;第二距离为:新类训练文本的表征与更新的新类原型中除目标关系类型之外的一关系类型的原型之间的欧式距离;或者,第二距离为:新类训练文本的表征与基类原型中的一关系类型的原型之间的欧式距离;第三距离为更新的新类原型中除目标关系类型之外的一关系类型的原型和基类原型中的一关系类型的原型之间的欧式距离。
将混合训练样本集中的所有新类训练文本的目标距离的和确定为四元原型损失。
可选的,四元原型损失可以为如下公式所示:
其中,Nnovel为混合训练样本集中新类关系类型的个数,M为每个关系类型的训练文本的数量。δ1和δ2是预设超参数,例如分别可以为5和15,d为欧氏距离。是一个四元组,分别是混合训练样本集中的一新类训练文本的表征、该新类训练文本对应的目标关系类型的原型、更新的新类原型中除目标关系类型之外的一关系类型的原型和基类原型中的一个关系类型的原型。
第一目标距离根据第一预设超参数δ1、第一距离d1和第二距离d2确定,如上公式所示,为max(0,δ1+d1-d2)。第二目标距离根据第二预设超参数δ2、第一距离d1和第三距离d3确定,如上公式所示,为max(0,δ2+d1-d3)。
图7为本申请实施例提供的一种实体关系分类装置的结构示意图,如图7所示,该装置可以包括:接收模块21、处理模块22和确定模块23,其中,
接收模块21用于接收待分类文本;
处理模块22用于将待分类文本输入实体关系分类模型,得到待分类文本的分类概率分布,实体关系分类模型根据图2或图3的方法训练得到;
确定模块23用于将待分类文本的分类概率分布中最大概率对应的实体关系,确定为待分类文本的实体关系。
可选的,待分类文本包括文本、第一实体、第二实体以及第一实体在文本中的位置和第二实体在文本中的位置;处理模块22用于:将待分类文本输入实体关系分类模型,得到第一实体和第二实体之间的分类概率分布。
可选的,确定模块23用于:
将第一实体和第二实体之间的分类概率分布中最大概率对应的实体关系,确定为第一实体和第二实体之间的实体关系。
应理解的是,装置实施例与方法实施例可以相互对应,类似的描述可以参照方法实施例。为避免重复,此处不再赘述。具体地,图6所示的实体关系分类模型训练装置或图7所示的实体关系分类装置可以执行计算机设备对应的方法实施例,并且该装置中的各个模块的前述和其它操作和/或功能分别为了实现计算机设备对应的方法实施例,为了简洁,在此不再赘述。
上文中结合附图从功能模块的角度描述了本申请实施例的实体关系分类模型训练装置和实体关系分类装置。应理解,该功能模块可以通过硬件形式实现,也可以通过软件形式的指令实现,还可以通过硬件和软件模块组合实现。具体地,本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成,结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。可选地,软件模块可以位于随机存储器,闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法实施例中的步骤。
图8是本申请实施例提供的计算机设备700的示意性框图。
如图8所示,该计算机设备700可包括:
存储器710和处理器720,该存储器710用于存储计算机程序,并将该程序代码传输给该处理器720。换言之,该处理器720可以从存储器710中调用并运行计算机程序,以实现本申请实施例中的方法。
例如,该处理器720可用于根据该计算机程序中的指令执行上述方法实施例。
在本申请的一些实施例中,该处理器720可以包括但不限于:
通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。
在本申请的一些实施例中,该存储器710包括但不限于:
易失性存储器和/或非易失性存储器。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DR RAM)。
在本申请的一些实施例中,该计算机程序可以被分割成一个或多个模块,该一个或者多个模块被存储在该存储器710中,并由该处理器720执行,以完成本申请提供的方法。该一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述该计算机程序在该电子设备中的执行过程。
如图8所示,该计算机设备还可包括:
收发器730,该收发器730可连接至该处理器720或存储器710。
其中,处理器720可以控制该收发器730与其他设备进行通信,具体地,可以向其他设备发送信息或数据,或接收其他设备发送的信息或数据。收发器730可以包括发射机和接收机。收发器730还可以进一步包括天线,天线的数量可以为一个或多个。
应当理解,该电子设备中的各个组件通过总线系统相连,其中,总线系统除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。
本申请还提供了一种计算机存储介质,其上存储有计算机程序,该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说,本申请实施例还提供一种包含指令的计算机程序产品,该指令被计算机执行时使得计算机执行上述方法实施例的方法。
当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,该模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。例如,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
以上该,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以该权利要求的保护范围为准。
Claims (15)
1.一种实体关系分类模型训练方法,其特征在于,包括:
在任一次分类模型的训练过程中,根据基类样本集和新类样本集获取新类训练样本集和混合训练样本集,所述分类模型包括预训练的基类表征编码器、新类表征编码器和交叉对齐单元;
针对所述混合训练样本集中的每一训练文本,以所述训练文本为所述分类模型的输入,输出所述训练文本的分类概率分布,所述交叉对齐单元用于对新类原型和所述训练文本的查询表示进行交叉对齐更新,得到更新的新类原型和所述训练文本的更新查询表示,所述新类原型为所述新类训练样本集通过所述新类表征编码器的输出;
根据所述混合训练样本集中的每一训练文本的分类概率分布和所述每一训练文本的分类标签,对所述分类模型的参数进行调整,直到满足停止训练条件;
将满足所述停止训练条件所确定的所述分类模型输出为实体关系分类模型。
2.根据权利要求1所述的方法,其特征在于,所述以所述训练文本为所述分类模型的输入,输出所述训练文本的分类概率分布,包括:
将所述新类训练样本集输入所述新类表征编码器,输出所述新类原型;
以所述训练文本为所述基类表征编码器的输入,输出所述训练文本的基类特征嵌入;
以所述训练文本为所述新类表征编码器的输入,输出所述训练文本的新类特征嵌入;
根据预训练得到的基类原型、所述新类原型、复合函数、所述训练文本的基类特征嵌入和所述训练文本的新类特征嵌入,得到所述训练文本的查询表示,所述复合函数通过注意力机制计算得到;
对所述新类原型和所述训练文本的查询表示进行交叉对齐更新,得到更新的新类原型和所述训练文本的更新查询表示;
根据所述基类原型、所述更新的新类原型和所述训练文本的更新查询表示,计算得到所述训练文本的分类概率分布。
3.根据权利要求2所述的方法,其特征在于,所述对所述新类原型和所述训练文本的查询表示进行交叉对齐更新,得到更新的新类原型和所述训练文本的更新查询表示,包括:
计算所述训练文本的查询表示与所述新类训练样本集中的每个新类训练样本之间的注意力权重;
使用所述训练文本的查询表示与所述新类训练样本集中的每个新类训练样本之间的注意力权重,对所述新类训练样本集中的新类训练样本通过所述新类表征编码器的嵌入向量加权求和,得到所述更新的新类原型;
根据所述基类原型、所述更新的新类原型、复合函数、所述训练文本的基类特征嵌入和所述训练文本的新类特征嵌入,得到所述训练文本的更新查询表示。
4.根据权利要求2所述的方法,其特征在于,所述对所述新类原型和所述训练文本的查询表示进行交叉对齐更新,得到更新的新类原型和所述训练文本的更新查询表示,包括:
根据预设的交叉对齐迭代更新次数,对所述新类原型和所述训练文本的查询表示进行交叉对齐迭代更新,得到更新的新类原型和所述训练文本的更新查询表示。
5.根据权利要求4所述的方法,其特征在于,所述根据预设的交叉对齐迭代更新次数,对所述新类原型和所述训练文本的查询表示进行交叉对齐迭代更新,得到更新的新类原型和所述训练文本的更新查询表示,包括:
计算所述训练文本的第t-1轮更新查询表示与所述新类训练样本集中的每个新类训练样本之间的注意力权重,所述t大于0,所述训练文本的第0轮更新查询表示为所述训练文本的查询表示;
使用所述训练文本的第t-1轮更新查询表示与所述新类训练样本集中的每个新类训练样本之间的注意力权重,对所述新类训练样本集中的新类训练样本通过所述新类表征编码器的嵌入向量加权求和,得到第t轮更新的新类原型;
根据所述基类原型、所述第t轮更新的新类原型、复合函数、所述训练文本的基类特征嵌入和所述训练文本的新类特征嵌入,得到训练文本的第t轮更新查询表示;
重复上述过程,直到所述t等于N,所述N为所述预设的交叉对齐迭代更新次数。
6.根据权利要求1所述的方法,其特征在于,所述根据所述混合训练样本集中的每一训练文本的分类概率分布和所述每一训练文本的分类标签,对所述分类模型的参数进行调整,直到满足停止训练条件,包括:
根据所述混合训练样本集中的每一训练文本的分类概率分布和所述每一训练文本的分类标签,构建损失函数;
根据所述损失函数,反向传播调整所述新类表征编码器的参数,直到满足所述停止训练条件。
7.根据权利要求1所述的方法,其特征在于,所述混合训练样本集包括新类训练文本和基类训练文本,所述根据所述混合训练样本集中的每一训练文本的分类概率分布和所述每一训练文本的分类标签,对所述分类模型的参数进行调整,直到满足停止训练条件,包括:
根据所述混合训练样本集中的每一新类训练文本、所述更新的新类原型和预训练得到基类原型计算四元原型损失;
根据所述混合训练样本集中的每一训练文本的分类概率分布和所述每一训练文本的分类标签,构建损失函数;
根据所述四元原型损失和所述损失函数,反向传播调整所述新类表征编码器的参数,直到满足所述停止训练条件。
8.根据权利要求7所述的方法,其特征在于,所述根据所述混合训练样本集中的每一新类训练文本、所述更新的新类原型和预训练得到基类原型计算四元原型损失,包括:
针对所述每一新类训练文本,计算所述新类训练文本的目标距离,所述目标距离为第一目标距离和第二目标距离的和,所述第一目标距离根据第一预设超参数、第一距离和第二距离确定,所述第二目标距离根据第二预设超参数、第一距离和第三距离确定;
其中,所述第一距离为所述新类训练文本的表征与所述新类训练文本对应的目标关系类型的原型之间的欧式距离;
所述第二距离为:所述新类训练文本的表征与所述更新的新类原型中除所述目标关系类型之外的一关系类型的原型之间的欧式距离;或者,
所述第二距离为:所述新类训练文本的表征与所述基类原型中的一关系类型的原型之间的欧式距离;
所述第三距离为所述更新的新类原型中除所述目标关系类型之外的一关系类型的原型和所述基类原型中的一关系类型的原型之间的欧式距离;
将所述混合训练样本集中的所有新类训练文本的目标距离的和确定为所述四元原型损失。
9.一种实体关系分类方法,其特征在于,包括:
接收待分类文本;
将所述待分类文本输入实体关系分类模型,得到所述待分类文本的分类概率分布,所述实体关系分类模型根据权利要求1-8任一项所述的方法训练得到;
将所述待分类文本的分类概率分布中最大概率对应的实体关系,确定为所述待分类文本的实体关系。
10.根据权利要求9所述的方法,其特征在于,所述待分类文本包括文本、第一实体、第二实体以及所述第一实体在所述文本中的位置和所述第二实体在所述文本中的位置;
所述将所述待分类文本输入实体关系分类模型,得到所述待分类文本的分类概率分布,包括:
将所述待分类文本输入所述实体关系分类模型,得到所述第一实体和所述第二实体之间的分类概率分布。
11.根据权利要求10所述的方法,其特征在于,所述将所述待分类文本的分类概率分布中最大概率对应的实体关系,确定为所述待分类文本的实体关系,包括:
将所述第一实体和所述第二实体之间的分类概率分布中最大概率对应的实体关系,确定为所述第一实体和所述第二实体之间的实体关系。
12.一种实体关系分类模型训练装置,其特征在于,包括:
获取模块,用于在任一次分类模型的训练过程中,根据基类样本集和新类样本集获取新类训练样本集和混合训练样本集,所述分类模型包括预训练的基类表征编码器、新类表征编码器和交叉对齐单元;
训练模块,用于针对所述混合训练样本集中的每一训练文本,以所述训练文本为所述分类模型的输入,输出所述训练文本的分类概率分布,所述交叉对齐单元用于对新类原型和所述训练文本的查询表示进行交叉对齐更新,得到更新的新类原型和所述训练文本的更新查询表示,所述新类原型为所述新类训练样本集通过所述新类表征编码器的输出;
调整模块,用于根据所述混合训练样本集中的每一训练文本的分类概率分布和所述每一训练文本的分类标签,对所述分类模型的参数进行调整,直到满足停止训练条件;
输出模块,用于将满足所述停止训练条件所确定的所述分类模型输出为实体关系分类模型。
13.一种实体关系分类装置,其特征在于,包括:
接收模块,用于接收待分类文本;
处理模块,用于将所述待分类文本输入实体关系分类模型,得到所述待分类文本的分类概率分布,所述实体关系分类模型根据权利要求1至8或9至11中任一项所述的方法训练得到;
确定模块,用于将所述待分类文本的分类概率分布中最大概率对应的实体关系,确定为所述待分类文本的实体关系。
14.一种计算机设备,其特征在于,包括:
处理器和存储器,所述存储器用于存储计算机程序,所述处理器用于调用并运行所述存储器中存储的计算机程序,以执行权利要求1至8或9至11中任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,包括指令,当其在计算机程序上运行时,使得所述计算机执行如权利要求1至8或9至11中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210878182.7A CN115203420B (zh) | 2022-07-25 | 2022-07-25 | 实体关系分类模型训练方法、实体关系分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210878182.7A CN115203420B (zh) | 2022-07-25 | 2022-07-25 | 实体关系分类模型训练方法、实体关系分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115203420A true CN115203420A (zh) | 2022-10-18 |
CN115203420B CN115203420B (zh) | 2024-04-26 |
Family
ID=83583208
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210878182.7A Active CN115203420B (zh) | 2022-07-25 | 2022-07-25 | 实体关系分类模型训练方法、实体关系分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115203420B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111767400A (zh) * | 2020-06-30 | 2020-10-13 | 平安国际智慧城市科技股份有限公司 | 文本分类模型的训练方法、装置、计算机设备和存储介质 |
CN113610151A (zh) * | 2021-08-05 | 2021-11-05 | 哈尔滨理工大学 | 一种基于原型网络的自编码器网络机制解决小样本图像分类的系统、方法、设备及存储介质 |
CN114549894A (zh) * | 2022-01-20 | 2022-05-27 | 北京邮电大学 | 基于嵌入增强和自适应的小样本图像增量分类方法及装置 |
CN114580484A (zh) * | 2022-04-28 | 2022-06-03 | 西安电子科技大学 | 一种基于增量学习的小样本通信信号自动调制识别方法 |
CN114580566A (zh) * | 2022-03-22 | 2022-06-03 | 南通大学 | 一种基于间隔监督对比损失的小样本图像分类方法 |
US20220207410A1 (en) * | 2020-12-28 | 2022-06-30 | International Business Machines Corporation | Incremental learning without forgetting for classification and detection models |
-
2022
- 2022-07-25 CN CN202210878182.7A patent/CN115203420B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111767400A (zh) * | 2020-06-30 | 2020-10-13 | 平安国际智慧城市科技股份有限公司 | 文本分类模型的训练方法、装置、计算机设备和存储介质 |
US20220207410A1 (en) * | 2020-12-28 | 2022-06-30 | International Business Machines Corporation | Incremental learning without forgetting for classification and detection models |
CN113610151A (zh) * | 2021-08-05 | 2021-11-05 | 哈尔滨理工大学 | 一种基于原型网络的自编码器网络机制解决小样本图像分类的系统、方法、设备及存储介质 |
CN114549894A (zh) * | 2022-01-20 | 2022-05-27 | 北京邮电大学 | 基于嵌入增强和自适应的小样本图像增量分类方法及装置 |
CN114580566A (zh) * | 2022-03-22 | 2022-06-03 | 南通大学 | 一种基于间隔监督对比损失的小样本图像分类方法 |
CN114580484A (zh) * | 2022-04-28 | 2022-06-03 | 西安电子科技大学 | 一种基于增量学习的小样本通信信号自动调制识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115203420B (zh) | 2024-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112465017A (zh) | 分类模型训练方法、装置、终端及存储介质 | |
CN111753076B (zh) | 对话方法、装置、电子设备及可读存储介质 | |
CN109992773A (zh) | 基于多任务学习的词向量训练方法、系统、设备及介质 | |
CN112131883B (zh) | 语言模型训练方法、装置、计算机设备和存储介质 | |
CN116010684A (zh) | 物品推荐方法、装置及存储介质 | |
CN116861995A (zh) | 多模态预训练模型的训练及多模态数据处理方法和装置 | |
CN112836502B (zh) | 一种金融领域事件隐式因果关系抽取方法 | |
CN118096924B (zh) | 图像处理方法、装置、设备及存储介质 | |
CN110929532A (zh) | 数据处理方法、装置、设备及存储介质 | |
WO2024120504A1 (zh) | 一种数据处理方法及相关设备 | |
CN115376495A (zh) | 语音识别模型训练方法、语音识别方法及装置 | |
CN111324736A (zh) | 人机对话模型训练方法、人机对话方法及系统 | |
CN118246537B (zh) | 基于大模型的问答方法、装置、设备及存储介质 | |
CN115510186A (zh) | 基于意图识别的即时问答方法、装置、设备及存储介质 | |
CN117711001B (zh) | 图像处理方法、装置、设备和介质 | |
CN112132269B (zh) | 模型处理方法、装置、设备及存储介质 | |
CN118136000A (zh) | 语音意图识别及模型训练方法、装置、设备及存储介质 | |
CN111090740B (zh) | 一种用于对话系统的知识图谱生成方法 | |
CN116975221A (zh) | 文本阅读理解方法、装置、设备及存储介质 | |
CN114547308B (zh) | 文本处理的方法、装置、电子设备及存储介质 | |
CN115203420B (zh) | 实体关系分类模型训练方法、实体关系分类方法及装置 | |
CN112149426B (zh) | 阅读任务处理方法及相关设备 | |
CN115131600A (zh) | 检测模型训练方法、检测方法、装置、设备及存储介质 | |
CN113657092B (zh) | 识别标签的方法、装置、设备以及介质 | |
CN113761837B (zh) | 实体关系类型确定方法、装置和设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |