CN112287134A - 检索模型的训练和识别方法、电子设备及存储介质 - Google Patents
检索模型的训练和识别方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112287134A CN112287134A CN202010990105.1A CN202010990105A CN112287134A CN 112287134 A CN112287134 A CN 112287134A CN 202010990105 A CN202010990105 A CN 202010990105A CN 112287134 A CN112287134 A CN 112287134A
- Authority
- CN
- China
- Prior art keywords
- feature
- sample
- model
- sample object
- generation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 86
- 238000012549 training Methods 0.000 title claims abstract description 56
- 238000006243 chemical reaction Methods 0.000 claims abstract description 25
- 238000013507 mapping Methods 0.000 claims abstract description 9
- 230000009977 dual effect Effects 0.000 claims description 20
- 238000013519 translation Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 8
- 239000000284 extract Substances 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 241000764238 Isis Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/483—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/432—Query formulation
- G06F16/434—Query formulation using image data, e.g. images, photos, pictures taken by a user
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种检索模型的训练和识别方法、二值转换模型的训练方法、电子设备及存储介质。该训练方法包括:获取第一样本集,第一样本集中包括多个第一样本,每个第一样本包括一对第一样本对象和第二样本对象,第一样本对象和第二样本对象的模态不同;利用检索模型提取第一样本对象的第一特征和第二样本对象的第一特征;利用检索模型将第一特征映射成第二特征;利用生成模型的解码器生成第一样本对象的第二特征对应的第一生成对象、第二样本对象的第二特征对应的第二生成对象;利用鉴别器对第一生成对象和第二生成对象进行鉴别,基于鉴别结果调整检索模型的参数。通过上述方式,本申请能够提高检索模型的检索能力。
Description
技术领域
本申请涉及机器学习技术领域,特别是涉及一种检索模型的训练和识别方法、二值转换模型的训练方法、电子设备及存储介质。
背景技术
跨模态检索是一项极具挑战性的任务,它要求检索模型能够连接不同模态数据之间所存在的巨大语义鸿沟。在检索模型支持图像、文本两种模态的前提下,对跨检索模型的检索(检索与图像匹配的文本)过程进行举例说明。检索模型可以提取图像的特征,然后对该提取得到的特征与数据库中文本特征的相似度进行一一计算,并找到符合相似度条件的文本特征对应的文本作为与该图像匹配的文本。
一般来说,为了实现检索的目的,在使用检索模型进行检索之前,需要对其进行训练,以提高后续检索模型的检索能力。但是,现有的训练方法得到的检索模型的检索能力依然受限。
发明内容
本申请提供一种检索模型的训练和识别方法、二值转换模型的训练方法、电子设备及存储介质,能够解决现有训练方法得到的检索模型的检索能力受限的问题。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种检索模型的训练方法,该方法包括:获取第一样本集,其中,第一样本集中包括多个第一样本,每个第一样本包括一对第一样本对象和第二样本对象,第一样本对象和第二样本对象的模态不同;利用检索模型提取第一样本对象的第一特征和第二样本对象的第一特征,第一特征属于第一语义空间;利用检索模型将第一特征映射成第二特征,第二特征属于第二语义空间,第二语义空间为生成模型的编码器提取的特征所属语义空间;利用生成模型的解码器生成第一样本对象的第二特征对应的第一生成对象、第二样本对象的第二特征对应的第二生成对象,第一生成对象和第二样本对象的模态相同,第二生成对象和第一样本对象的模态相同;利用鉴别器对第一生成对象和第二生成对象进行鉴别,基于鉴别结果调整检索模型的参数。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种二值转换模型的训练方法,该方法包括:获取第一样本集,第一样本集包括多个第一样本,每个第一样本包括一对第一样本对象和第二样本对象,第一样本对象和第二样本对象的模态不同;利用检索模型提取第一样本对象的第七特征和第二样本对象的第七特征;利用二值转换模型将第七特征转换为第八特征;基于第七特征和第八特征之间的差异,调整二值转换模型的参数;检索模型为经上述训练方法得到的。
为解决上述技术问题,本申请采用的又一个技术方案是:提供一种基于检索模型的识别方法,该方法包括:获取待检索对象;利用检索模型提取待检索对象的第九特征;利用检索模型基于第九特征在数据库中检索与待检索对象匹配的目标对象,其中,目标对象的模态与待检索对象的模态不同;检索模型为经上述训练方法得到的。
为解决上述技术问题,本申请采用的又一个技术方案是:提供一种电子设备,该电子设备包括处理器、与处理器连接的存储器,其中,存储器存储有程序指令;处理器用于执行存储器存储的程序指令以实现上述方法。
为解决上述技术问题,本申请采用的再一个技术方案是:提供一种存储介质,存储有程序指令,该程序指令被执行时能够实现上述方法。
通过上述方式,本申请在对检索模型进行训练的过程中,利用检索模型将提取到第一样本对象/第二样本对象的第一语义空间的第一特征之后,还会将第一特征映射成第二语义空间的第二特征,而由于第二语义空间为生成模型提取的特征所在语义空间,因此通过鉴别器对基于第二特征生成的第一生成对象/第二生成对象进行鉴别的结果来调整检索模型的参数,能够优化检索模型的特征提取性能,从而使得检索模型后续在被使用的过程中提取到的特征更有辨别性,进而提升检索模型的检索能力。
附图说明
图1是本申请检索模型的训练方法第一实施例的流程示意图;
图2是本申请对检索模型训练的结构示意图;
图3是本申请检索模型的训练方法第二实施例的流程示意图;
图4是本申请检索模型的训练方法第三实施例的流程示意图;
图5是本申请检索模型的训练方法第四实施例的流程示意图;
图6是本申请检索模型的训练方法第五实施例的流程示意图;
图7是本申请对生成模型训练的结构示意图;
图8是本申请检索模型的训练方法第六实施例的流程示意图;
图9是本申请检索模型的识别方法一实施例的流程示意图;
图10是图9中S73的具体流程示意图;
图11是本申请二值转换模型的训练方法一实施例的流程示意图;
图12是图11中S84的具体流程示意图;
图13是本申请电子设备一实施例的结构示意图;
图14是本申请存储介质一实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,在不冲突的情况下,本文所描述的实施例可以与其它实施例相结合。
图1是本申请检索模型的训练方法第一实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图1所示的流程顺序为限。如图1所示,本实施例可以包括:
S11:获取第一样本集。
其中,第一样本集中包括多个第一样本,每个第一样本包括一对第一样本对象和第二样本对象,第一样本对象和第二样本对象的模态不同。
本申请所提及的样本对象的模态可以为图像、文本、语音等。为简化描述,本申请后文以每个第一样本包括的第一样本对象的模态为图像、第二样本对象的模态为文本进行说明。本申请后文也将第一样本对象称为图像,将第二样本对象称为文本。
举例说明,第一样本集D={d1,d2,…,dm},di(i=1,…,m)为第一样本。di=(xi,yi),xi为第一样本对象(图像),为第一样本对象的特征尺寸,yi为第二样本对象(文本),为第二样本对象的特征尺寸。
S12:利用检索模型提取第一样本对象的第一特征和第二样本对象的第一特征。
第一特征属于第一语义空间。
结合图2进行说明,检索模型也可以被称为判别模型Discriminative,由于本申请涉及的模态为图像和文本,因此检索模型可以包括图像检索网络NetI和文本检索网络NetT。本申请对NetI和NetT的训练可以一起进行,也即可以将成对的xi和yi一起输入Discriminative进行训练。
其中,Discriminative可以包括特征提取模块。因此,将xi输入NetI,NetI的特征提取模块可以提取到xi的第一特征 是特征尺寸,将yi输入NetT,NetT的特征提取模块可以提取到yi的第一特征
S13:利用检索模型将第一特征映射成第二特征。
第二特征属于第二语义空间。第二语义空间为生成模型的编码器提取的特征所属语义空间。
可以理解的是,本申请涉及的生成模型包括编码器和解码器。编码器可以提取样本对象的特征,解码器可以基于编码器提取的特征生成与样本对象对应的生成对象,生成对象与样本对象的模态不同。
继续结合图2进行说明,Discriminative还可以包括映射模块。出于对齐第一特征与编码器提取到的特征所在语义空间的考虑,可以利用NetI的映射模块对进行映射处理得到xi的第二特征可以利用NetT的映射模块对进行映射处理得到yi的第二特征 属于第二图像语义空间GI,属于第二文本语义空间GT。
S14:利用生成模型的解码器生成第一样本对象的第二特征对应的第一生成对象、第二样本对象的第二特征对应的第二生成对象。
第一生成对象和第二样本对象的模态相同,第二生成对象和第一样本对象的模态相同。
第一生成对象可以为与xi对应的文本第二生成对象为与yi对应的图像在得到第二特征后,可以将其输入生成模型的解码器。具体而言,生成模型可以包括文本生成网络I2T(·)和图像生成网络T2I(·),I2T(·)可以包括文本解码器Text Decoder,T2I(·)可以包括图像解码器Image Decoder。在得到后,可以将其输入Text Decoder,以利用Text Decoder基于生成与xi对应的 在得到后,可以将其输入Image Decoder,以利用Image Decoder基于生成与yi对应的
S14:利用鉴别器对第一生成对象和第二生成对象进行鉴别,基于鉴别结果调整检索模型的参数。
仍结合图2进行说明,鉴别器Discriminator可以包括文本鉴别器TextDiscriminator和图像鉴别器Image Discriminator,Text Discriminator可以对文本进行鉴别,也即Text Discriminator可以用来鉴别是否基于NetI得到的生成的;Image Discriminator可以对图像进行鉴别,也即Image Discriminator可以用来鉴别是否是基于NetT得到的生成的。或者说,Discriminator可以用来鉴别第一生成对象/第二生成对象是基于生成模型得到的特征还是检索模型得到的特征生成的。
可以理解的是,由于第二特征所属语义空间与生成模型的编码器提取的特征所属语义空间相同,因此,利用鉴别器得到的鉴别结果包括两种,其中一种为第一生成对象/第二生成对象是基于检索模型得到的特征生成的,另一种为第一生成对象/第二生成对象是基于生成模型得到的特征生成的。通过鉴别结果对检索模型的参数进行不断调整,能够使得检索模型得到的特征与生成模型得到的特征越来越近,而鉴别器越来越难鉴别出第一生成对象/第二生成对象是基于生成模型得到的特征生成的。换句话说,能够使得检索模型学习到生成模型进行特征提取的方法,进而,检索模型得到的特征是结合了检索模型原有的获取特征的逻辑以及生成模型获取特征的逻辑得到的,所以更加具有辨别性,在后续进行检索过程中,能够检索到更准确的对象。
其中,根据鉴别器的鉴别结果调整检索模型的参数所依据的损失函数LGAN公式可以如下:
因此,通过本实施例的实施,本申请在对检索模型进行训练的过程中,利用检索模型将提取到第一样本对象/第二样本对象的第一语义空间的第一特征之后,还会将第一特征映射成第二语义空间的第二特征,而由于第二语义空间为生成模型提取的特征所在语义空间,因此通过鉴别器对基于第二特征生成的第一生成对象/第二生成对象进行鉴别的结果来调整检索模型的参数,能够优化检索模型的特征提取性能,从而使得检索模型后续在被使用的过程中提取到的特征更有辨别性,进而提升检索模型的检索能力。
为减弱检索模型将提取得到的特征映射到生成模型的编码器得到的特征所属空间造成的损失,可以利用生成模型的编码器得到的特征,然后基于检索模型的编码器得到的特征与检索模型得到的特征之间的差异,来调整生成模型的映射模块的参数,使得生成模型映射得到的特征与检索模型的编码器得到的特征更加接近。对此采用的方法具体可以如下:
图3是本申请检索模型的训练方法第二实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图4所示的流程顺序为限。本实施例是在上述第一实施例的基础上的进一步扩展,如图4所示,本实施例可以包括:
S21:利用生成模型的编码器提取第一样本对象的第三特征和第二样本对象的第三特征。
生成模型包括的文本生成网络I2T(·)除了可以包括文本解码器Text Decoder之外,还可以包括图像编码器Image Encoder,图像生成网络T2I(·)除了可以包括图像解码器Image Decoder之外,还可以包括文本编码器Text Encoder。Image Encoder可以提取xi的第三特征 Text Encoder可以提取yi的第三特征
S22:基于第二特征和第三特征之间的差异,调整检索模型的参数。
基于第二特征和第三特征之间的差异,调整检索模型的参数所依据的损失函数LHR公式可以如下:
从而,在对检索模型进行训练阶段,所依据的损失函数可以为:
LKD=β1LHR+β2LGAN
其中,β1和β2为权重参数。
另外,在上述第一实施例S14利用鉴别器对第一生成对象和第二生成对象进行鉴别之前,还可以对鉴别器进行训练,以提升鉴别器的鉴别能力。下面结合图4对鉴别器的训练过程进行说明:
图4是本申请检索模型的训练方法第三实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图4所示的流程顺序为限。如图4所示,本实施例可以包括:
S31:利用生成模型的编码器得到第一样本对象的第四特征和第二样本对象的第四特征,并利用检索模型得到第一样本对象的第五特征和第二样本对象的第五特征。
第四特征和第五特征属于第二语义空间,第四特征的得到方式与第二特征的得到方式相同。
S32:利用生成模型的解码器生成第一样本对象的第四特征对应的第三生成对象和第二样本对象的第四特征对应的第四生成对象,并利用生成模型的编码器生成第一样本对象的第五特征对应的第五生成对象和第二样本对象的第五特征对应的第六生成对象。
第三生成对象、第五生成对象和第二样本对象的模态相同,第四生成对象、第六生成对象和第一样本对象的模态相同。
本步骤详细说明请参见前面的实施例,在此不再重复。
S33:利用鉴别器对第三生成对象和第五生成对象进行鉴别,并利用鉴别器对第四生成对象和第六生成对象进行鉴别,基于鉴别结果调整鉴别器的参数。
其中,为文本鉴别器对基于文本生成网络的图像编码器得到的第四特征生成的文本的鉴别结果,为图像鉴别器对基于图像生成网络的文本编码器得到的第四特征生成的图像的鉴别结果;为文本鉴别器对基于图像检索网络得到的第五特征生成的文本的鉴别结果,为图像鉴别器对基于文本检索网络得到的第五特征生成的图像的鉴别结果。
另外,在通过上述实施例提供的方法结合生成模型和鉴别器对检索模型进行训练之前,或者说在S12之前,还可以单独对检索模型进行预训练,具体方法可以如下:
图5是本申请检索模型的训练方法第四实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图5所示的流程顺序为限。如图5所示,本实施例可以包括:
S41:利用检索模型得到第一样本对象的第六特征和第二样本对象的第六特征。
本步骤中第六特征为检索模型的特征提取模块提取到的特征,具体与前面提及的第一特征获取方法类似,在此不再重复。
S42:利用检索模型对第六特征进行分类,基于分类结果调整检索模型的参数。
其中,每个样本包含的样本对象可以带有语义标签,语义标签可以代表正确的语义类别,每个样本对象可能属于一个语义类别,也可能属于多个语义类别。例如,第一样本对象xi带有的语义标签为li, 为语义类别的总数。若lij=1,则代表xi属于第j个语义类别;若lij=0,则代表xi不属于第j个语义类别。
检索模型还可以包括分类网络NetL,分类网络可以对图像检索网络和文本检索网络提取得到的特征进行分类。
另外,本实施例中S41之后,还可以包括:
基于第一样本间样本对象的第六特征的差异,以及基于第一样本内样本对象的第六特征的差异,调整检索模型的参数。
从而,在预训练阶段,对检索模型的参数进行调整所依据的损失函数LR可以如下:
其中,α1、α2和α3为权重参数。
此外,在上述实施例中结合生成模型来对检索模型进行训练之前,或者说在S14之前,可以对生成模型进行训练,以提高生成模型得到的生成对象与对应的样本对象之间的匹配程度。具体可以如下:
图6是本申请检索模型的训练方法第五实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图6所示的流程顺序为限。如图6所示,在上述实施例的基础上,本实施例可以包括:
S51:利用生成模型生成第一样本对象对应的第七生成对象和第二样本对象对应的第八生成对象。
第七生成对象和第二样本对象的模态相同,第八生成对象和第一样本对象的模态相同。
第八生成对象与第三生成对象的获取方式相同,第九生成对象与第四生成对象的获取方式相同。具体描述请参考前面的说明,在此不再重复。
结合图7进行说明,生成模型包括I2T(·)和T2I(·),I2T(·)包括文本解ImageEncoder和Text Decoder,T2I(·)包括Text Encoder和Image Decoder。
S52:利用对偶模型获取第一样本对象和第七生成对象的第一匹配结果、第二样本对象和第八生成对象的第一匹配结果,基于第一匹配结果调整生成模型的参数。
继续结合图7进行说明,对偶模型Dual(·)也可以被称为对偶正则化网络DualRegularizer Network。其可以表示为多层神经网络,最后一层为sigmoid激活函数。Dual(·)可以用于测量同一样本包括的两个不同模态的样本对象之间的匹配程度。故本申请所指利用对偶模型得到的匹配结果可以为匹配度。如图7所示,Dual(·)的输入为第一样本对象和第七生成对象对,以及第二样本对象和第八生成对象对。
此外,为提高对偶模型得到匹配结果的准确程度,在上述实施例S52之前,还可以包括:对偶模型进行训练。具体可以如下:
图8是本申请检索模型的训练方法第六实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图8所示的流程顺序为限。如图8所示,在上述实施例的基础上,本实施例可以包括:
S61:基于第一样本集中第一样本对象和第二样本对象的匹配程度,获取第二样本集。
第二样本集包括第二样本和第三样本,第二样本包括的一对第一样本对象和第二样本对象的匹配程度大于第三样本包括的一对第一样本对象和第二样本对象的匹配程度。
在一具体实施方式中,可以基于第一样本集中第一样本对象和第二样本对象的匹配程度,构建K近邻表Tx和Ty。其中,Tx可以看作由m个第一样本对象组成的列向量,即m*1的矩阵而Ty可以看作一个m*K的矩阵其中每一行为Tx中对应行的第一样本对象匹配的K个第二样本对象。
第一样本也可以被称为正样本pos,其中包括当前第一样本对象和与当前第一样本对象对应的一个匹配的第二样本对象。例如,pos=(x1,y1K)。
第二样本也可以被称为负样本neg,其中包括当前第一样本对象和与当前第一样本对象对应的K个匹配的第二样本对象之外的第二样本对象。例如,neg=(x1,ymK)。
当然,第二样本集的方法并不受限于上述方法,也可根据实际需要而选择其他方法。例如,设定一匹配度阈值,在第二样本对象与当前第一样本对象的匹配度高于该匹配度阈值的情况下,可将其与当前第一样本对象组合为第一样本;而在低于该匹配度阈值的情况下,可将其与当前第一样本对象组合为第二样本。
S62:利用对偶模型获取第一样本包括的一对第一样本对象和第二样本对象之间的第二匹配结果、第二样本包括的一对第一样本对象和第二样本对象之间的第二匹配结果。
S63:基于第二匹配结果调整对偶模型的参数。
基于第二匹配结果调整对偶模型的参数所依据的损失函数LDual可以如下:
其中,Dual(pos)为第一样本包括的一对第一样本对象和第二样本对象之间的第二匹配结果,Dual(neg)为第二样本包括的一对第一样本对象和第二样本对象之间的第二匹配结果,n为第二样本集合中第一样本的数量和第二样本的数量。
为了验证通过本申请对检索模型的训练效果,还可以利用Flickr-25K,NUS-WIDE、MS COCO等跨模态检索数据集对检索模型进行验证。验证结果表明,相较于未结合生成模型训练的检索模型而言,经过利用生成模型训练的检索模型无论是在16比特、32比特或64比特的特征哈希编码情况下都能够取得更加精准的检索效果。
图9是本申请检索模型的识别方法一实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图9所示的流程顺序为限。如图9所示,本实施例可以包括:
S71:获取待检索对象。
待检索对象的模态可以为检索模型支持的模态。仍然以检索模型支持图像和文本两种模态进行说明。其中,检索模型可以检索与文本对应的图像,或者检索与图像对应的文本,则称检索模型支持图像、文本两种模态。
S72:利用检索模型提取待检索对象的第九特征。
本实施例的检索模型可以但不限于为经前面实施例中的训练方法得到的。
S73:利用检索模型基于第九特征在数据库中检索与待检索对象匹配的目标对象。
其中,目标对象的模态与待检索对象的模态不同。
数据库中包含的对象与待检索对象的模态不相同。检索模型支持跨模态检索,因此可以从数据库中检索与待检索对象模态不同的但与待检索对象匹配的目标对象。
检索模型可以直接基于其提取到的第九特征在数据库中检索与待检索对象匹配的对象。
出于加快检索速度的考虑,也可以先利用二值转换模型对第九特征二值转换到汉明空间,检索模型基于经转换的第九特征在数据库中检索与待检索对象匹配的对象。在汉明空间中,特征表示为预设长度的二进制代码。参阅图10,此种情况下,S73可以包括:
S731:利用二值转换模型将第九特征转换成第十特征。
第九特征属于第一语义空间,第十特征属于汉明空间。
本实施例涉及的二值转换模型B()可以但不限于为后面实施例中的训练方法得到的。
二值转换模型B(·)可以被称为Binary Transform Net,其可以对第九特征进行转换处理,得到第十特征。举例说明,第一样本对象的第九特征为经二值转换模型B(·)得到的第一样本对象的第十特征为第二样本对象的第九特征为经二值转换模型得到的第二样本对象的第十特征为
S732:利用检索模型基于第十特征在数据库中检索与待检索对象匹配的目标对象。
在S731中未对第十特征进行sign操作的情况下,检索模型可直接基于第十特征在数据库中检索与待检索对象匹配的目标对象。在S731中对第十特征进行sign操作的情况下,检索模型可基于经sign操作的第十特征在数据库中检索与待检索对象匹配的目标对象。
本实施例其他详细描述请参考其他实施例的说明,在此不再重复。
图11是本申请二值转换模型的训练方法一实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图11所示的流程顺序为限。如图11所示,本实施例可以包括:
S81:获取第一样本集。
第一样本集包括多个第一样本,每个第一样本包括一对第一样本对象和第二样本对象,第一样本对象和第二样本对象的模态不同。
S82:利用检索模型提取第一样本对象的第七特征和第二样本对象的第七特征。
本实施例涉及的检索模型可以但不限于为经前面实施例中的训练方法得到。
S83:利用二值转换模型将第七特征转换为第八特征。
S84:基于第七特征和第八特征之间的差异,调整二值转换模型的参数。
在一具体实施方式中,可以基于第一样本对象的第七特征和第二样本对象的第七特征的第一特征中心,以及第一样本对象的第八特征和第九样本对象的第八特征的第二特征中心,调整二值转换模型的参数。参阅图12,在此情况下,S84可以包括:
S841:获取第一样本对应的第一特征中心和第二特征中心。
第一特征中心为第一样本对象的第七特征和第二样本对象的第七特征的中心,第二特征中心为第一样本对象的第八特征和第二样本对象的第八特征的中心。
第一样本的第一特征中心可以为该第一样本包括的第一样本对象的第七特征和该第一样本包括的第二样本对象的第七特征的中心。第一样本的第二特征中心可以为该第一样本包括的第一样本对象的第八特征和该第一样本包括的第二样本对象的第八特征的中心。一个第一样本对应一个第一特征中心和一个第二特征中心。
S842:获取不同第一特征中心之间的距离,以及不同第二特征中心之间的距离。
所谓不同第一特征中心之间的距离,也即不同的第一样本对应的第一特征中心之间的距离。所谓不同第二特征中心之间的距离,也即不同的第一样本对应的第二特征中心之间的距离。
S843:基于距离调整二值转换模型的参数。
在另一具体实施方式中,可以基于第一样本间样本对象的第八特征的差异,以及基于第一样本内样本对象的第八特征的差异,调整二值转换模型的参数。所依据的的损失函数可以如下:
本实施例其他详细描述请参考其他实施例的说明,在此不再重复。
通过本实施例的实施,可以对二值转换模型进行训练,从而提高二值转换模型的转换精度。
图13是本申请电子设备一实施例的结构示意图。如图13所示,该电子设备包括处理器91、与处理器耦接的存储器92。
其中,存储器92存储有用于实现上述任一实施例的方法的程序指令;处理器91用于执行存储器92存储的程序指令以实现上述方法实施例的步骤。其中,处理器91还可以称为CPU(Central Processing Unit,中央处理单元)。处理器91可能是一种集成电路芯片,具有信号的处理能力。处理器91还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
图14是本申请存储介质一实施例的结构示意图。如图14所示,本申请实施例的存储介质100存储有程序指令101,该程序指令101被执行时实现本申请上述实施例提供的方法。其中,该程序指令101可以形成程序文件以软件产品的形式存储在上述存储介质100中,以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质100包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (18)
1.一种检索模型的训练方法,其特征在于,包括:
获取第一样本集,其中,所述第一样本集中包括多个第一样本,每个所述第一样本包括一对第一样本对象和第二样本对象,所述第一样本对象和所述第二样本对象的模态不同;
利用所述检索模型提取所述第一样本对象的第一特征和所述第二样本对象的第一特征,所述第一特征属于第一语义空间;
利用所述检索模型将所述第一特征映射成第二特征,所述第二特征属于第二语义空间,所述第二语义空间为所述生成模型的编码器提取的特征所属语义空间;
利用生成模型的解码器生成所述第一样本对象的第二特征对应的第一生成对象、所述第二样本对象的第二特征对应的第二生成对象,所述第一生成对象和所述第二样本对象的模态相同,所述第二生成对象和所述第一样本对象的模态相同;
利用鉴别器对所述第一生成对象和所述第二生成对象进行鉴别,基于鉴别结果调整所述检索模型的参数。
2.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:
利用所述生成模型的编码器提取所述第一样本对象的第三特征和所述第二样本对象的第三特征;
基于所述第二特征和第三特征之间的差异,调整所述检索模型的参数。
3.根据权利要求1所述的方法,其特征在于,在利用鉴别器对所述第一生成对象和所述第二生成对象进行鉴别之前,包括:
对所述鉴别器进行训练。
4.根据权利要求3所述的方法,其特征在于,所述对所述鉴别器进行训练,包括:
利用所述生成模型的编码器得到所述第一样本对象的第四特征和所述第二样本对象的第四特征,并利用所述检索模型得到所述第一样本对象的第五特征和所述第二样本对象的第五特征,所述第四特征和第五特征属于第二语义空间,所述第五特征的得到方式与所述第二特征的得到方式相同;
利用所述生成模型的解码器生成所述第一样本对象的第四特征对应的第三生成对象和所述第二样本对象的第四特征对应的第四生成对象,并利用所述生成模型的编码器生成所述第一样本对象的第五特征对应的第五生成对象和所述第二样本对象的第五特征对应的第六生成对象,所述第三生成对象、第五生成对象和所述第二样本对象的模态相同,所述第四生成对象、第六生成对象和所述第一样本对象的模态相同;
利用所述鉴别器对所述第三生成对象和第五生成对象进行鉴别,并利用所述鉴别器对所述第四生成对象和第六生成对象进行鉴别,基于鉴别结果调整所述鉴别器的参数。
5.根据权利要求1所述的方法,其特征在于,在所述利用所述检索模型提取所述第一样本对象的第一特征和所述第二样本对象的第一特征之前,包括:
对所述检索模型进行预训练。
6.根据权利要求5所述的方法,其特征在于,所述对所述检索模型进行预训练,包括:
利用所述检索模型提取所述第一样本对象的第六特征和第二样本对象的第六特征;
利用所述检索模型对所述第六特征进行分类,基于分类结果调整所述检索模型的参数。
7.根据权利要求6所述的方法,其特征在于,在所述利用所述检索模型提取所述第一样本对象的第六特征和第二样本对象的第六特征之后,还包括:
基于所述第一样本间样本对象的第六特征的差异,以及基于所述第一样本内样本对象的第六特征的差异,调整所述检索模型的参数。
8.根据权利要求1所述的方法,其特征在于,在所述利用生成模型的解码器生成所述第一样本对象的第二特征对应的第一生成对象、所述第二样本对象的第二特征对应的第二生成对象之前,还包括:
对所述生成模型进行训练。
9.根据权利要求8所述的方法,其特征在于,所述对所述生成模型进行训练,包括:
利用所述生成模型生成所述第一样本对象对应的第七生成对象和所述第二样本对象对应的第八生成对象,所述第七生成对象和所述第二样本对象的模态相同,所述第八生成对象和所述第一样本对象的模态相同;
利用对偶模型获取所述第一样本对象和第七生成对象的第一匹配结果、所述第二样本对象和第八生成对象的第一匹配结果,基于所述第一匹配结果调整所述生成模型的参数。
10.根据权利要求9所述的方法,其特征在于,在所述利用对偶模型获取所述第一样本对象和第七生成对象的第一匹配结果、所述第二样本对象和第八生成对象的第一匹配结果之前,还包括:
对所述对偶模型进行训练。
11.根据权利要求10所述的方法,其特征在于,所述对所述对偶模型进行训练,包括:
基于所述第一样本集中所述第一样本对象和第二样本对象的匹配程度,获取第二样本集,所述第二样本集包括第二样本和第三样本,所述第二样本包括的一对所述第一样本对象和第二样本对象的匹配程度大于所述第三样本包括的一对所述第一样本对象和第二样本对象的匹配程度;
利用对偶模型获取所述第一样本包括的一对所述第一样本对象和第二样本对象之间的第二匹配结果、第二样本包括的一对所述第一样本对象和第二样本对象之间的第二匹配结果;
基于所述第二匹配结果调整所述对偶模型的参数。
12.一种二值转换模型的训练方法,其特征在于,包括:
获取第一样本集,所述第一样本集包括多个第一样本,每个所述第一样本包括一对第一样本对象和第二样本对象,所述第一样本对象和第二样本对象的模态不同;
利用检索模型提取所述第一样本对象的第七特征和所述第二样本对象的第七特征;
利用所述二值转换模型将所述第七特征转换为第八特征;
基于所述第七特征和第八特征之间的差异,调整所述二值转换模型的参数;
所述检索模型为经权利要求1-11中任一项所述训练方法得到的。
13.根据权利要求12所述的方法,其特征在于,所述基于所述第九特征和第十特征之间的差异,调整所述二值转换模型的参数,包括:
基于所述第一样本对象的第七特征和所述第二样本对象的第七特征的第一特征中心,以及所述第一样本对象的第八特征和所述第九样本对象的第八特征的第二特征中心,调整所述二值转换模型的参数;
和/或,基于所述第一样本间样本对象的第八特征的差异,以及基于所述第一样本内样本对象的第八特征的差异,调整所述二值转换模型的参数。
14.根据权利要求13所述的方法,其特征在于,所述基于所述第一样本对象的第七特征和所述第二样本对象的第七特征的第一特征中心,以及所述第一样本对象的第八特征和所述第九样本对象的第八特征的第二特征中心,调整所述二值转换模型的参数,包括:
获取所述第一样本对应的第一特征中心和所述第二特征中心,所述第一特征中心为所述第一样本对象的第七特征和所述第二样本对象的第七特征的中心,所述第二特征中心为所述第一样本对象的第八特征和所述第二样本对象的第八特征的中心;
获取不同所述第一特征中心之间的距离,以及不同所述第二特征中心之间的距离;
基于所述距离调整所述二值转换模型的参数。
15.一种基于检索模型的识别方法,其特征在于,包括:
获取待检索对象;
利用所述检索模型提取所述待检索对象的第九特征;
利用所述检索模型基于所述第九特征在数据库中检索与所述待检索对象匹配的目标对象,其中,所述目标对象的模态与所述待检索对象的模态不同;
所述检索模型为经权利要求1-11中任一项的训练方法得到的。
16.根据权利要求15所述的方法,其特征在于,所述利用所述检索模型基于所述第九特征在数据库中检索与所述待检索对象匹配的目标对象,包括:
利用二值转换模型将所述第九特征转换成第十特征,所述第九特征属于第一语义空间,所述第十特征属于汉明空间;
所述利用所述检索模型基于所述第十特征在所述数据库中检索与所述待检索对象匹配的目标对象;
所述二值转换模型为经权利要求12-14中任一项的训练方法得到的。
17.一种电子设备,其特征在于,包括处理器、与所述处理器连接的存储器,其中,
所述存储器存储有程序指令;
所述处理器用于执行所述存储器存储的所述程序指令以实现权利要求1-16中任一项所述的方法。
18.一种存储介质,其特征在于,所述存储介质存储程序指令,所述程序指令被执行时实现如权利要求1-16中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010990105.1A CN112287134B (zh) | 2020-09-18 | 2020-09-18 | 检索模型的训练和识别方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010990105.1A CN112287134B (zh) | 2020-09-18 | 2020-09-18 | 检索模型的训练和识别方法、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112287134A true CN112287134A (zh) | 2021-01-29 |
CN112287134B CN112287134B (zh) | 2021-10-15 |
Family
ID=74421035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010990105.1A Active CN112287134B (zh) | 2020-09-18 | 2020-09-18 | 检索模型的训练和识别方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112287134B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115114395A (zh) * | 2022-04-15 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 内容检索及模型训练方法、装置、电子设备和存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150186423A1 (en) * | 2008-08-08 | 2015-07-02 | The Research Foundation For The State University Of New York | Enhanced max margin learning on multimodal data mining in a multimedia database |
CN107391505A (zh) * | 2016-05-16 | 2017-11-24 | 腾讯科技(深圳)有限公司 | 一种图像处理方法及系统 |
US20180165554A1 (en) * | 2016-12-09 | 2018-06-14 | The Research Foundation For The State University Of New York | Semisupervised autoencoder for sentiment analysis |
CN109886326A (zh) * | 2019-01-31 | 2019-06-14 | 深圳市商汤科技有限公司 | 一种跨模态信息检索方法、装置和存储介质 |
CN110209867A (zh) * | 2019-06-05 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 图像检索模型的训练方法、装置、设备及存储介质 |
CN111353076A (zh) * | 2020-02-21 | 2020-06-30 | 华为技术有限公司 | 训练跨模态检索模型的方法、跨模态检索的方法和相关装置 |
CN111460077A (zh) * | 2019-01-22 | 2020-07-28 | 大连理工大学 | 一种基于类语义引导的跨模态哈希检索方法 |
CN111461203A (zh) * | 2020-03-30 | 2020-07-28 | 北京百度网讯科技有限公司 | 跨模态处理方法、装置、电子设备和计算机存储介质 |
CN111651661A (zh) * | 2020-06-03 | 2020-09-11 | 拾音智能科技有限公司 | 一种图文跨媒体检索方法 |
-
2020
- 2020-09-18 CN CN202010990105.1A patent/CN112287134B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150186423A1 (en) * | 2008-08-08 | 2015-07-02 | The Research Foundation For The State University Of New York | Enhanced max margin learning on multimodal data mining in a multimedia database |
CN107391505A (zh) * | 2016-05-16 | 2017-11-24 | 腾讯科技(深圳)有限公司 | 一种图像处理方法及系统 |
US20180165554A1 (en) * | 2016-12-09 | 2018-06-14 | The Research Foundation For The State University Of New York | Semisupervised autoencoder for sentiment analysis |
CN111460077A (zh) * | 2019-01-22 | 2020-07-28 | 大连理工大学 | 一种基于类语义引导的跨模态哈希检索方法 |
CN109886326A (zh) * | 2019-01-31 | 2019-06-14 | 深圳市商汤科技有限公司 | 一种跨模态信息检索方法、装置和存储介质 |
CN110209867A (zh) * | 2019-06-05 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 图像检索模型的训练方法、装置、设备及存储介质 |
CN111353076A (zh) * | 2020-02-21 | 2020-06-30 | 华为技术有限公司 | 训练跨模态检索模型的方法、跨模态检索的方法和相关装置 |
CN111461203A (zh) * | 2020-03-30 | 2020-07-28 | 北京百度网讯科技有限公司 | 跨模态处理方法、装置、电子设备和计算机存储介质 |
CN111651661A (zh) * | 2020-06-03 | 2020-09-11 | 拾音智能科技有限公司 | 一种图文跨媒体检索方法 |
Non-Patent Citations (4)
Title |
---|
YAN HUA 等: ""Deep Semantic correlation with Adversarial Learning for Cross-modal retrieval"", 《2019 IEEE 9TH INTERNATIONAL CONFERENCE ON ELECTRONICS INFORMATION AND EMERGENCY COMMUNICATION(ICEIEC)》 * |
刘瑶: ""融合CCA和Adaboost的跨模态多媒体信息检索"", 《中国优秀硕士论文全文数据库 信息科技辑》 * |
林泽航: ""基于深度模型的事件检测算法研究"", 《中国优秀硕士论文全文数据库 信息科技辑》 * |
邓一姣等: ""面向跨模态检索的协同注意力网络模型"", 《计算机科学》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115114395A (zh) * | 2022-04-15 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 内容检索及模型训练方法、装置、电子设备和存储介质 |
CN115114395B (zh) * | 2022-04-15 | 2024-03-19 | 腾讯科技(深圳)有限公司 | 内容检索及模型训练方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112287134B (zh) | 2021-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107526799B (zh) | 一种基于深度学习的知识图谱构建方法 | |
CN106951422B (zh) | 网页训练的方法和装置、搜索意图识别的方法和装置 | |
CN105354307B (zh) | 一种图像内容识别方法及装置 | |
WO2020114100A1 (zh) | 一种信息处理方法、装置和计算机存储介质 | |
Liu et al. | Uniting keypoints: Local visual information fusion for large-scale image search | |
CN105138977A (zh) | 一种大数据环境下的人脸识别方法 | |
WO2021159812A1 (zh) | 癌症分期信息处理方法、装置及存储介质 | |
JP6104209B2 (ja) | ハッシュ関数生成方法、ハッシュ値生成方法、装置、及びプログラム | |
CN113033438A (zh) | 一种面向模态非完全对齐的数据特征学习方法 | |
CN110968697A (zh) | 文本分类方法、装置、设备及可读存储介质 | |
CN114398681A (zh) | 训练隐私信息分类模型、识别隐私信息的方法和装置 | |
Chen et al. | Towards unsupervised automatic speech recognition trained by unaligned speech and text only | |
CN112287134B (zh) | 检索模型的训练和识别方法、电子设备及存储介质 | |
Ngo et al. | Vireo/dvmm at trecvid 2009: High-level feature extraction, automatic video search, and content-based copy detection | |
CN112287217B (zh) | 医学文献检索方法、装置、电子设备及存储介质 | |
CN116798417B (zh) | 语音意图识别方法、装置、电子设备及存储介质 | |
JP2017162009A (ja) | 特徴量生成装置、方法、及びプログラム | |
CN105117735A (zh) | 一种大数据环境下的图像检测方法 | |
JP6017277B2 (ja) | 特徴ベクトルの集合で表されるコンテンツ間の類似度を算出するプログラム、装置及び方法 | |
CN105975643B (zh) | 一种基于文本索引的实时图像检索方法 | |
Jin et al. | End-to-end dnn-cnn classification for language identification | |
CN111460808A (zh) | 同义文本识别及内容推荐方法、装置及电子设备 | |
WO2023173541A1 (zh) | 基于文本的情绪识别方法、装置、设备及存储介质 | |
CN113723111B (zh) | 一种小样本意图识别方法、装置、设备及存储介质 | |
Zhang et al. | Category multi-representation: a unified solution for named entity recognition in clinical texts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |