CN117829122A - 基于条件的文本相似度模型训练方法、装置及介质 - Google Patents
基于条件的文本相似度模型训练方法、装置及介质 Download PDFInfo
- Publication number
- CN117829122A CN117829122A CN202311727901.6A CN202311727901A CN117829122A CN 117829122 A CN117829122 A CN 117829122A CN 202311727901 A CN202311727901 A CN 202311727901A CN 117829122 A CN117829122 A CN 117829122A
- Authority
- CN
- China
- Prior art keywords
- similarity
- text
- sentence
- sample
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 104
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000005259 measurement Methods 0.000 claims abstract description 63
- 230000004044 response Effects 0.000 claims abstract description 20
- 239000013598 vector Substances 0.000 claims description 52
- 238000004590 computer program Methods 0.000 claims description 16
- 238000012512 characterization method Methods 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000013136 deep learning model Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 6
- 230000008569 process Effects 0.000 description 14
- 230000006870 function Effects 0.000 description 9
- 241000251468 Actinopterygii Species 0.000 description 8
- 244000025254 Cannabis sativa Species 0.000 description 8
- 241000283690 Bos taurus Species 0.000 description 7
- 241000282326 Felis catus Species 0.000 description 7
- 230000009471 action Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000003542 behavioural effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 101100421200 Caenorhabditis elegans sep-1 gene Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及自然语言处理技术领域,提供了一种基于条件的文本相似度模型训练方法、装置及介质。该方法包括:获取训练集中的句子对样本;响应于测定条件的确定操作,确定用于判断句子对样本相似度的测定条件,并将句子对样本与对应的测定条件组合成一个三元组;响应于相似度标签的标定,确定三元组的相似度标签,将句子对样本、测定条件和相似度标签组合成一个四元组,相似度标签用于表征基于测定条件标定的句子对样本的相似度;将训练集中得到的每个四元组作为待训练文本相似度模型的输入,对待训练文本相似度模型进行训练和评估,得到用于相似度判断的文本相似度模型。本申请实施例解决了现有技术中存在判断结果具有歧义性的问题。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种基于条件的文本相似度模型训练方法、装置及介质。
背景技术
语义文本相似度(Semantic Textual Similarity,STS)在自然语言处理(NaturalLanguage Processing,NLP)领域一直是一个基石性的任务,它的核心目标是测量并定量一对句子之间的相似程度。
这项技术在信息检索、问答系统以及各种基于向量的方法中都有着广泛的应用,并对这些领域的发展起到了推动作用。现有的处理STS的方法包括以下几种:1.基于词向量的方法:将句子表示为词向量的组合,并计算词向量之间的相似度。常用的词向量模型包括Word2Vec和GloVe。然后,通过计算句子中所有词向量的平均值或加权平均值来得到整个句子的表示。2.基于句子向量的方法:将句子表示为固定长度的向量,并计算向量之间的相似度。常用的方法包括使用预训练的句子编码器,如InferSent和Universal SentenceEncoder,将句子映射到向量空间。3.基于语法和语义特征的方法:考虑句子的语法结构和语义信息,如词性、依存关系和语义角色等。通过提取这些特征并计算它们之间的相似度来衡量句子的相似度。4.基于机器学习的方法:使用机器学习算法,如支持向量机(SupportVector Machine,SVM)和随机森林(Random Forest),从训练数据中学习句子之间的相似度模型。这些模型可以根据句子的特征预测相似度。但是,以上方法都是基于整个句子进行相似度判断,导致现有模型在处理具有多样化条件的细粒度语义相似度时,得到的判断结果可能存在歧义。
因此,现有技术存在判断结果存在歧义的问题。
发明内容
有鉴于此,本申请实施例提供了一种基于条件的文本相似度模型训练方法、装置及介质,以解决现有技术中判断结果具有歧义性的问题。
本申请实施例的第一方面,提供了一种基于条件的文本相似度模型训练方法,包括:获取训练集中的句子对样本,训练集中的句子对样本用于训练文本相似度模型;响应于测定条件的确定操作,确定用于判断句子对样本相似度的测定条件,并将句子对样本与对应的测定条件组合成一个三元组;响应于相似度标签的标定,确定三元组的相似度标签,将句子对样本、测定条件和相似度标签组合成一个四元组,相似度标签用于表征基于测定条件标定的句子对样本的相似度;将训练集中得到的每个四元组作为待训练文本相似度模型的输入,对待训练文本相似度模型进行训练和评估,得到用于相似度判断的文本相似度模型。
本申请实施例的第二方面,提供了一种基于条件的文本相似度模型训练装置,包括:获取模块,被配置为获取训练集中的句子对样本,训练集中的句子对样本用于训练文本相似度模型;条件确定模块,被配置为响应于测定条件的确定操作,确定用于判断句子对样本相似度的测定条件,并将句子对样本与对应的测定条件组合成一个三元组;标定模块,被配置为响应于相似度标签的标定,确定三元组的相似度标签,将句子对样本、测定条件和相似度标签组合成一个四元组,相似度标签用于表征基于测定条件标定的所述句子对样本的相似度;训练模块,被配置为将训练集中得到的每个四元组作为待训练文本相似度模型的输入,对待训练文本相似度模型进行训练和评估,得到用于相似度判断的文本相似度模型。
本申请实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
本申请实施例的第四方面,提供了一种介质,该介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
通过确定句子对样本的测定条件,将句子对样本和该句子对样本的测定条件组合成一个三元组,再确定该三元组的相似度标签,将该三元组与该三元组的相似度标签组合成一个四元组,重复上述步骤获得与训练集中句子对样本所对应的多个四元组。将多个四元组输入至待训练的文本相似度模型中,对该待训练的文本相似度模型进行训练和评估,如果多个四元组输入待训练的文本相似度模型后得到的输出结果与对应的相似度标签一致,则说明该模型已经达到准确预测相似度的效果,如果不一致则利用多个四元组对待训练的文本相似度模型进行训练直至输出结果与对应的相似度标签一致,这样可以通过设计测定条件,实现多角度条件化的文本相似度判断,以解决判断整个句子导致结果具有歧义性的问题。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本申请实施例提供的一种基于条件的文本相似度模型训练方法的流程示意图;
图2是本申请实施例提供的另一种基于条件的文本相似度模型训练方法的流程示意图;
图3是本申请实施例提供的一种基于条件的文本相似度模型训练装置的结构示意图;
图4是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
此外,需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
下面将结合附图详细说明根据本申请实施例的一种基于条件的文本相似度模型训练方法和装置。
图1是本申请实施例提供的一种基于条件的文本相似度模型训练方法的流程示意图。如图1所示,该基于条件的文本相似度模型训练方法包括:
S101,获取训练集中的句子对样本,训练集中的句子对样本用于训练文本相似度模型。
S102,响应于测定条件的确定操作,确定用于判断句子对样本相似度的测定条件,并将句子对样本与对应的测定条件组合成一个三元组。
S103,响应于相似度标签的标定,确定三元组的相似度标签,将句子对样本、测定条件和相似度标签组合成一个四元组,相似度标签用于表征基于测定条件标定的句子对样本的相似度。
S104,将训练集中得到的每个四元组作为待训练文本相似度模型的输入,对待训练文本相似度模型进行训练和评估,得到用于相似度判断的文本相似度模型。
在一些实施例中,在获取训练集中的句子对样本之前,还包括:获取具有图像标注的图像样本数据集,将数据集中的图像样本作为待检索图像输入至预设深度学习模型,提取待检索图像的特征向量;根据待检索图像的特征向量与数据库中已有图像的特征向量,得到检索结果;提取待检索图像的图像标注作为第一文本,并提取检索结果中每张已有图像的图像标注作为第二文本,第二文本至少包括一个文本;将第一文本与所述第二文本中的文本两两配对,得到句子对样本;根据多个图像样本,获取多个句子对样本并生成训练集。
在对待训练的文本相似度模型进行训练和评估之前,还要获取训练集,以获取足够多的句子对样本对模型进行训练和评估,使得训练或评估后的文本相似度模型具有较高置信度。
具体地,可以选取具有图像标注(caption)的图像数据作为基本训练数据集合,并选取具有高相似度的两张图像作为句子对样本的提取对象,具体来说,首先获取带有图像标注的图像样本数据集,将其中的图像样本作为待检索图像,通过预设深度学习模型获取待检索图像的特征向量,再根据待检索图像的特征向量与现有数据库中已有图像的特征向量进行比较,得到具有高相似度的已有图像作为检索结果输出。分别提取待检索图像的图像标注作为第一文本,和输出结果的图像标注作为第二文本,由于检索结果中可能存在多张图像,所以第二文本至少包括一个文本(此处不考虑未检索到相似图像的情况),所以将第一文本与第二文本中的文本进行两两配对,得到至少一个句子对样本,将图像样本数据集中的图像样本作为待检索图像,重复上述步骤,便可以获得多个句子对样本,将获得的多个句子对样本集合成训练集,以供后续使用。
其中,预设深度学习模型可以是一种卷积神经网络模型,也可以是一种基于注意力机制的深度学习模型,只要预设深度学习模型能够高效提取待检索图像的特征向量即可。
进一步地,通过检索与待检索图像具有高相似度的图像可以获得具有一定相似度的图像标注,也即可以获得具有一定相似度的第一文本与第二文本。此外,应了解,第一文本是待检索图像对应的图像标注,其本身可以只包含一个句子,由于训练集需要大量的句子对训练,所以训练集中包含多个第一文本,同样,训练集中可以包含多个第二文本,但由于第二文本中可能含有多个文本,所以句子对样本由第一文本和第二文本中的一个文本构成。
根据上述实施例的方法,便可以实现利用图像资源获取训练集,该实施例可以利用比较成熟的深度学习技术,较为便捷地获取训练集,这样可以减少训练集获取的工作量。当然,本申请实施例也可以通过其他方法获取训练集,例如,从公开的文本库中获取对应文本生成训练集,此处不做限制。
在一些实施例中,根据待检索图像的特征向量与数据库中已有图像的特征向量,得到检索结果,包括:利用余弦相似度的计算方法,计算待检索图像的特征向量与数据库中已有图像的特征向量的余弦相似度,返回检索结果,检索结果表示余弦相似度高于预设值所对应的已有图像。
具体地,这是一种检索图像的具体过程,可以通过计算待检索图像的特征向量与数据库中已有图像的特征向量的余弦相似度,来获取检索结果,得到与待检索图像具有高相似度的已有图像,从而获取对应的图像标注生成具有一定相似度的句子对样本,图像的相似度与图像标注的相似度并非完全一样,但高度关联,所以可以通过检索高相似度的图像来获取对应的图像标注生成对应的句子对样本。
进一步地,可以通过余弦计算方法来获取与待检索图像具有高相似度的已有图像,通过余弦定理可知,两个向量的余弦值越接近1说明两个向量越相似,所以可以获取待检索图像的特征向量与已有图像的特征向量的余弦值接近1的已有图像作为检索结果,在具体实施例中,可以设定输出对应的余弦值最接近1的预设数量的已有图像作为检索结果,例如,输出最相似的10张图像作为检索结果。也可以设定对应余弦值大于预设值的已有图像作为检索结果,例如,输出对应余弦值大于0.8的已有图像作为检索图像,此处不做限制,并且如果选择后者作为检索结果的输出方式时余弦值需要根据具体情况设定。
根据上述实施例的方法,可以获取具有高相似度的图像标注,便可以生成对应的句子对样本,这样便于后续对待训练文本相似度模型进行训练和评估。
在一些实施例中,响应于测定条件的确定操作,确定用于判断句子对样本相似度的测定条件,并将句子对样本与对应的测定条件组合成一个三元组,包括:根据句子对样本的内容,响应于测定条件的确定操作,确定句子对样本的极性测定条件,极性测定条件包括句子对样本中相似度最高的测定条件和相似度最低的测定条件;根据极性测定条件,分别生成包含对应极性条件与句子对样本的三元组。
具体地,本实施例表明,在获取句子对样本之后,需要人工对句子对样本的具体内容确定其测定条件(Condition),主要表示引入条件来准确评估句子对样本的相似度,作为一个示例,对于句子对样本:“猫爱吃鱼”和“牛爱吃草”可以设定“行为动作”为测定条件,也就是说基于“行为动作”对两个句子进行相似度判断。并将其组合成一个三元组:{“猫爱吃鱼”、“牛爱吃草”和“行为动作”}。
这是可以表示一种测定条件的确定过程,但在实际训练过程中,为了使得训练结果更加具有鲁棒性,可以选择句子对样本的极性测定条件作为训练模型的输入。也即选择句子对样本中最相似的和最不相似的两个测定条件,可以将其分别称为C_max与C_min。例如上述句子对中,由于两者主体的行为都是吃,所以C_max可以为“行为动作”。又因为两者提到的食物一个是“鱼”一个是“草”其相似度低,所以C_min可以为“食物”。这样通过训练句子对样本中最相似和最不相似的测定条件,不仅可以提高文本相似度模型的鲁棒性,还可以提升边界识别能力,并解决样本偏斜问题。
具体来讲,通过训练最相似和最不相似的测定条件,可以使得模型学习到更广泛的表示能力,以使得模型能够更好地处理各种相似度的句子对,这样便提高了模型的鲁棒性。通过学习最相似的测定条件,模型能够捕捉到相似句子对中的共享信息和特征,学习最不相似的测定条件,模型能够更好的区分相似和不相似的句子对,从而可以增强对边界情况的识别能力。还因为在实际情况中通常相似的句子对比不相似的句子对多,如果仅用相似度高的测定条件进行训练,模型可能会倾向于将所有句子对都判定为相似,所以通过增加对最不相似的测定条件进行训练,可以平衡训练集中的句子对样本的分布,使得模型更加准确地预测相似和不相似的句子对,以此解决了样本偏斜的问题。
在一些实施例中,将训练集中得到的每个四元组作为待训练文本相似度模型的输入,对待训练文本相似度模型进行训练和评估,得到用于相似度判断的文本相似度模型,包括:将每个四元组中的句子对样本和测定条件进行拼接,得到第一输入值;将每个四元组中的相似度标签进行归一化处理,得到第二输入值;将第一输入值输入至待训练文本相似度模型的编码器中,得到包含整个文本序列的表征向量;将表征向量输入至多层感知器,获得句子对样本相似度判断的输出结果;根据输出结果与第二输入值,对待训练文本相似度模型进行训练和评估,得到文本相似度模型。
具体地,可以人工对之前确定的三元组的相似度标签,并进行标注生成四元组,每个四元组可以包括句子对(即句子一和句子二)、测定条件和相似度标签,可以将相似度分为5个等级,也即相似度标签可以包括1、2、3、4、5,依次可以表示“完全不相似”到“非常相似”。
作为一个示例,对于三元组:{“猫爱吃鱼”(句子一),“牛爱吃草”(句子二),“行为动作”(测定条件)},若其相似度标签被标定为5,因此可以得到四元组:{“猫爱吃鱼”,“牛爱吃草”,“行为动作”,5}作为训练数据。
在得到四元组之后,首先需要对其进行特殊处理,即在句子对与测定条件之间插入一个特殊分隔符(SEP),并在序列的开头添加一个特殊标记([CLS])作为整个句子对的表示,以前文示例为例可以得到第一输入值:[CLS]猫爱吃鱼[SEP]牛爱吃草[SEP]行为动作。然后将相似度标签进行归一化处理得到第二输入值:1。然后可以将第一输入值输入至待训练文本相似度模型的编码器中,对其进行向量化,得到包含整个序列的表征向量,将该表征向量输入至多层感知器(即Multilayer Perceptron,MLP),可以得到对于该句子对样本的相似度判断的输出结果该输出结果可以是一个0到1之间的值,然后将该输出结果与第二输入值进行比较,重复上述步骤可以对待训练文本相似度模型进行训练和评估。
可以根据上述步骤实现对文本相似度模型进行训练和评估。也即如果输出结果与第二输入值一致,则进一步利用其他句子对样本对该文本相似度模型进行评估,若多个句子对样本的输出结果均为对应标定的第二输入值,则可以评估该文本相似度模型达到预设效果。若输出结果与对应的第二输入值不一致则通过反向更新网络参数,并利用其他多个句子对样本对文本相似度模型进行训练,直至输出结果与对应第二输入值一致。
在一些实施例中,对待训练文本相似度模型进行训练和评估,得到用于相似度判断的文本相似度模型,还包括:将预先确定的相似度标签作为有序标签,使用有序标签分类器对待训练文本相似度模型进行训练,得到待训练文本相似度模型的输出结果;利用有序交叉熵损失计算输出结果与真实标签之间的差异,并通过反向传播算法更新所述待训练文本相似度模型的参数。
前文提到的多层感知器可以用于模型的训练,也即MLP可以表示一种前馈神经网络,由多个神经元层组成,在训练过程中MLP可以将输入的表征向量传递到网络的输入层,并通过每一层的激活函数进行计算,最终得到输出结果,然后通过比较输出结果和真实标签之间的差异,使用反向传播算法来更新网络中的权重和偏置,前文提到的第一输入值可以视为此处的真实标签,也即人工标定的相似度标签归一化后的值。
具体地,通过本实施例说明,除了上述模型训练方法,还可以通过有序交叉熵损失函数来优化模型,也即可以将相似度标签作为有序标签,使用有序标签分类器,对待训练文本相似度模型进行训练,利用有序交叉熵损失计算输出结果与真实标签之间的差异,并利用反向传播算法来更新网络参数,这样可以输出句子对基于不同角度的条件对应的相似度判断结果。
作为一个示例,可以基于五个相似度标签:1、2、3、4、5。假如句子对样本的相似度预测结果为3,则根据有序交叉熵损失函数,可以把3以前的相似度标签(1、2)和之后的相似度标签(4、5)都考虑在内,这样可以更好地优化文本相似度模型在整个标签序列上的预测能力。
需要说明的是,反向传播算法是通过计算交叉熵损失函数关于网络参数的梯度,然后利用梯度信息对参数进行更新,逐步减小损失函数,从而优化模型,关于反向传播算法此处不做过多说明。
根据上述实施例的方法,使用有序交叉熵损失函数对模型进行训练,可以对相似度标签的顺序关系进行建模,使得模型可以更全面地考虑输入句子对的相似度,得到更加准确的输出结果,避免了输出结果具有歧义的问题,提高了模型的预测能力,使其能够多角度地预测句子对的相似度。
在一些实施例中,对待训练文本相似度模型进行训练和评估,得到用于相似度判断的文本相似度模型之后,还包括:获取待判断句子对;响应于测定条件的确定操作,确定待判断句子对的测定条件,并将待判断句子对与所述待判断句子对的测定条件串联成一个整体;将整体输入至所述文本相似度模型,得到待判断句子对基于测定条件的相似度。
具体地,首先获取待判断的句子对,人工设计其测定条件,将待判断句子对与测定条件进行拼接,输入训练完成的文本相似度模型,然后输出判断得到的相似度。这样实现了利用训练完成的文本相似度模型对句子对相似度判断的过程。
图2是本申请实施例的另一种基于条件的文本相似度模型训练方法的流程图示意图,下面结合图2对本申请实施例进行说明:
本申请实施例中文本相似度模型可以为BERT模型,并以“猫爱吃鱼”与“牛爱吃草”为待判断句子对作为示例,确定以“食物”为测定条件。首先在BERT模型中,对待判断句子对进行特殊处理,也即可以给句子对之间插入一个特殊分隔符(SEP)对句子进行分割,并在序列开头添加一个特殊标记([CLS])作为对整个序列的表示。这样待判断句子对可以被看作是一个整体的输入序列。然后,将整个待判断句子对输入至训练好的BERT编码器(Encoder)中,通过多层Transformer结构对整个序列进行编码,在编码过程中,句子的每个词元都会进行向量化表示,也即得到es11、es12、esep1、es21等表示对词元的向量,同样会生成包含整个待判断句子对的语义信息的表征向量即ecls。然后将该表征向量输入到一个MLP模型中,该模型也可以称为Ranker模型,在该模型中根据预先确定的测定条件,对“猫爱吃鱼”与“牛爱吃草”的相似度进行判断。这样便可以得到待判断句子对基于测定条件的相似度判断结果,基于条件的文本相似度的判断结果不会存在歧义,如此便解决了现有技术中判断结果具有歧义的问题,可以处理具有多样化条件的细粒度语义相似度。
需要说明的是,本申请实施例可以使用BERT模型进行自然语言处理,也可以使用其他的句子编码模型,此处不做限制。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图3是本申请实施例提供的一种基于条件的文本相似度模型训练装置的示意图。如图3所示,该基于条件的文本相似度模型训练装置包括:
获取模块301,被配置为获取训练集中的句子对样本,所述训练集中的句子对样本用于训练文本相似度模型;
条件确定模块302,被配置为响应于测定条件的确定操作,确定用于判断所述句子对样本相似度的测定条件,并将所述句子对样本与对应的测定条件组合成一个三元组;
标定模块303,被配置为响应于相似度标签的标定,确定所述三元组的相似度标签,将所述句子对样本、测定条件和相似度标签组合成一个四元组,所述相似度标签用于表征基于所述测定条件标定的所述句子对样本的相似度;
训练模块304,被配置为将所述训练集中得到的每个四元组作为待训练文本相似度模型的输入,对所述待训练文本相似度模型进行训练和评估,得到用于相似度判断的文本相似度模型。
在一些实施例中,获取模块301具体用于获取具有图像标注的图像样本数据集,将数据集中的图像样本作为待检索图像输入至预设深度学习模型,提取待检索图像的特征向量;根据待检索图像的特征向量与数据库中已有图像的特征向量,得到检索结果;提取待检索图像的图像标注作为第一文本,并提取检索结果中每张已有图像的图像标注作为第二文本,第二文本至少包括一个文本;将第一文本与第二文本中的文本两两配对,得到句子对样本;根据多个图像样本,获取多个句子对样本并生成训练集。
在一些实施例中,获取模块301具体用于利用余弦相似度的计算方法,计算待检索图像的特征向量与数据库中已有图像的特征向量的余弦相似度,返回检索结果,检索结果表示余弦相似度高于预设值所对应的已有图像。
在一些实施例中,条件确定模块302具体用于根据句子对样本的内容,响应于测定条件的确定操作,确定句子对样本的极性测定条件,极性测定条件包括句子对样本中相似度最高的测定条件和相似度最低的测定条件;根据极性测定条件,分别生成包含对应极性条件与句子对样本的三元组。
在一些实施例中,训练模块304具体用于将每个四元组中的句子对样本和测定条件进行拼接,得到第一输入值;将每个四元组中的相似度标签进行归一化处理,得到第二输入值;将第一输入值输入至待训练文本相似度模型的编码器中,得到包含整个文本序列的表征向量;将表征向量输入至多层感知器,获得句子对样本相似度判断的输出结果;根据输出结果与第二输入值,对待训练文本相似度模型进行训练和评估,得到所述文本相似度模型。
在一些实施例中,训练模块304具体用于将预先确定的相似度标签作为有序标签,使用有序标签分类器对所述待训练文本相似度模型进行训练,得到待训练文本相似度模型的输出结果;利用有序交叉熵损失计算输出结果与真实标签之间的差异,并通过反向传播算法更新所述待训练文本相似度模型的参数。
在一些实施例中,训练模块304具体用于获取待判断句子对;响应于测定条件的确定操作,确定待判断句子对的测定条件,并将待判断句子对与待判断句子对的测定条件串联成一个整体;将整体输入至文本相似度模型,得到待判断句子对基于测定条件的相似度。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
图4是本申请实施例提供的电子设备4的示意图。如图4所示,该实施例的电子设备4包括:处理器401、存储器402以及存储在该存储器402中并且可在处理器401上运行的计算机程序403。处理器401执行计算机程序403时实现上述各个方法实施例中的步骤。或者,处理器401执行计算机程序403时实现上述各装置实施例中各模块/单元的功能。
电子设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备4可以包括但不仅限于处理器401和存储器402。本领域技术人员可以理解,图4仅仅是电子设备4的示例,并不构成对电子设备4的限定,可以包括比图示更多或更少的部件,或者不同的部件。
处理器401可以是中央处理单元(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
存储器402可以是电子设备4的内部存储单元,例如,电子设备4的硬盘或内存。存储器402也可以是电子设备4的外部存储设备,例如,电子设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。存储器402还可以既包括电子设备4的内部存储单元也包括外部存储设备。存储器402用于存储计算机程序以及电子设备所需的其它程序和数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种基于条件的文本相似度模型训练方法,其特征在于,包括:
获取训练集中的句子对样本,所述训练集中的句子对样本用于训练文本相似度模型;
响应于测定条件的确定操作,确定用于判断所述句子对样本相似度的测定条件,并将所述句子对样本与对应的测定条件组合成一个三元组;
响应于相似度标签的标定,确定所述三元组的相似度标签,将所述句子对样本、测定条件和相似度标签组合成一个四元组,所述相似度标签用于表征基于所述测定条件标定的所述句子对样本的相似度;
将所述训练集中得到的每个四元组作为待训练文本相似度模型的输入,对所述待训练文本相似度模型进行训练和评估,得到用于相似度判断的文本相似度模型。
2.根据权利要求1所述的方法,其特征在于,在所述获取训练集中的句子对样本之前,还包括:
获取具有图像标注的图像样本数据集,将所述数据集中的图像样本作为待检索图像输入至预设深度学习模型,提取所述待检索图像的特征向量;
根据所述待检索图像的特征向量与数据库中已有图像的特征向量,得到检索结果;
提取待检索图像的图像标注作为第一文本,并提取所述检索结果中每张已有图像的图像标注作为第二文本,所述第二文本至少包括一个文本;
将所述第一文本与所述第二文本中的文本两两配对,得到所述句子对样本;
根据多个图像样本,获取多个所述句子对样本并生成所述训练集。
3.根据权利要求2所述的方法,其特征在于,所述根据所述待检索图像的特征向量与数据库中已有图像的特征向量,得到检索结果,包括:
利用余弦相似度的计算方法,计算所述待检索图像的特征向量与数据库中已有图像的特征向量的余弦相似度,返回检索结果,所述检索结果表示所述余弦相似度高于预设值所对应的已有图像。
4.根据权利要求1所述的方法,其特征在于,所述响应于测定条件的确定操作,确定用于判断所述句子对样本相似度的测定条件,并将所述句子对样本与对应的测定条件组合成一个三元组,包括:
根据所述句子对样本的内容,响应于所述测定条件的确定操作,确定所述句子对样本的极性测定条件,所述极性测定条件包括所述句子对样本中相似度最高的测定条件和相似度最低的测定条件;
根据所述极性测定条件,分别生成包含对应极性条件与所述句子对样本的三元组。
5.根据权利要求1所述的方法,其特征在于,所述将所述训练集中得到的每个四元组作为待训练文本相似度模型的输入,对所述待训练文本相似度模型进行训练和评估,得到用于相似度判断的文本相似度模型,包括:
将所述每个四元组中的句子对样本和测定条件进行拼接,得到第一输入值;
将所述每个四元组中的相似度标签进行归一化处理,得到第二输入值;
将所述第一输入值输入至所述待训练文本相似度模型的编码器中,得到包含整个文本序列的表征向量;
将所述表征向量输入至多层感知器,获得所述句子对样本相似度判断的输出结果;
根据所述输出结果与所述第二输入值,对所述待训练文本相似度模型进行训练和评估,得到所述文本相似度模型。
6.根据权利要求1所述的方法,其特征在于,所述对所述待训练文本相似度模型进行训练和评估,得到用于相似度判断的文本相似度模型,还包括:
将预先确定的相似度标签作为有序标签,使用有序标签分类器对所述待训练文本相似度模型进行训练,得到待训练文本相似度模型的输出结果;
利用有序交叉熵损失计算所述输出结果与真实标签之间的差异,并通过反向传播算法更新所述待训练文本相似度模型的参数。
7.根据权利要求1所述的方法,其特征在于,所述对所述待训练文本相似度模型进行训练和评估,得到用于相似度判断的文本相似度模型之后,还包括:
获取待判断句子对;
响应于所述测定条件的确定操作,确定所述待判断句子对的测定条件,并将所述待判断句子对与所述待判断句子对的测定条件串联成一个整体;
将所述整体输入至所述文本相似度模型,得到所述待判断句子对基于所述测定条件的相似度。
8.一种基于条件的文本相似度模型训练装置,其特征在于,包括:
获取模块,被配置为获取训练集中的句子对样本,所述训练集中的句子对样本用于训练文本相似度模型;
条件确定模块,被配置为响应于测定条件的确定操作,确定用于判断所述句子对样本相似度的测定条件,并将所述句子对样本与对应的测定条件组合成一个三元组;
标定模块,被配置为响应于相似度标签的标定,确定所述三元组的相似度标签,将所述句子对样本、测定条件和相似度标签组合成一个四元组,所述相似度标签用于表征基于所述测定条件标定的所述句子对样本的相似度;
训练模块,被配置为将所述训练集中得到的每个四元组作为待训练文本相似度模型的输入,对所述待训练文本相似度模型进行训练和评估,得到用于相似度判断的文本相似度模型。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。
10.一种介质,所述介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311727901.6A CN117829122A (zh) | 2023-12-14 | 2023-12-14 | 基于条件的文本相似度模型训练方法、装置及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311727901.6A CN117829122A (zh) | 2023-12-14 | 2023-12-14 | 基于条件的文本相似度模型训练方法、装置及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117829122A true CN117829122A (zh) | 2024-04-05 |
Family
ID=90505032
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311727901.6A Pending CN117829122A (zh) | 2023-12-14 | 2023-12-14 | 基于条件的文本相似度模型训练方法、装置及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117829122A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118013069A (zh) * | 2024-04-09 | 2024-05-10 | 杭州海康威视数字技术股份有限公司 | 一种图像检索方法、装置、存储介质和电子设备 |
-
2023
- 2023-12-14 CN CN202311727901.6A patent/CN117829122A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118013069A (zh) * | 2024-04-09 | 2024-05-10 | 杭州海康威视数字技术股份有限公司 | 一种图像检索方法、装置、存储介质和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112966074B (zh) | 一种情感分析方法、装置、电子设备以及存储介质 | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
US11755838B2 (en) | Machine learning for joint recognition and assertion regression of elements in text | |
CN109902156B (zh) | 实体检索方法、存储介质和电子设备 | |
WO2020236483A1 (en) | Cross-lingual information retrieval and information extraction | |
CN111881671B (zh) | 一种属性词提取方法 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN114722826B (zh) | 模型的训练方法和装置、电子设备、存储介质 | |
CN117829122A (zh) | 基于条件的文本相似度模型训练方法、装置及介质 | |
Ciaburro et al. | Python Machine Learning Cookbook: Over 100 recipes to progress from smart data analytics to deep learning using real-world datasets | |
CN113326383B (zh) | 一种短文本实体链接方法、装置、计算设备与存储介质 | |
CN112307738B (zh) | 用于处理文本的方法和装置 | |
Lindén et al. | Evaluating combinations of classification algorithms and paragraph vectors for news article classification | |
CN113779190A (zh) | 事件因果关系识别方法、装置、电子设备与存储介质 | |
CN111611796A (zh) | 下位词的上位词确定方法、装置、电子设备及存储介质 | |
CN110287396B (zh) | 文本匹配方法及装置 | |
CN113988085B (zh) | 文本语义相似度匹配方法、装置、电子设备及存储介质 | |
CN116109449A (zh) | 一种数据处理方法及相关设备 | |
CN115270900A (zh) | 一种用户意图识别方法和装置、电子设备、存储介质 | |
CN114358011A (zh) | 命名实体提取方法与装置以及电子设备 | |
CN110750979B (zh) | 一种篇章连贯性的确定方法以及检测装置 | |
CN117951303B (zh) | 基于生成式大模型的文本信息关联性分析方法及设备 | |
EP4379567A1 (en) | Method and apparatus with entity linking | |
Jony et al. | Domain specific fine tuning of pre-trained language model in NLP | |
CN114329068A (zh) | 一种数据处理方法及装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |