CN112287134A - 检索模型的训练和识别方法、电子设备及存储介质 - Google Patents

检索模型的训练和识别方法、电子设备及存储介质 Download PDF

Info

Publication number
CN112287134A
CN112287134A CN202010990105.1A CN202010990105A CN112287134A CN 112287134 A CN112287134 A CN 112287134A CN 202010990105 A CN202010990105 A CN 202010990105A CN 112287134 A CN112287134 A CN 112287134A
Authority
CN
China
Prior art keywords
feature
sample
model
sample object
generation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010990105.1A
Other languages
English (en)
Other versions
CN112287134B (zh
Inventor
刘俊浩
杨敏
李成明
徐睿峰
姜青山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN202010990105.1A priority Critical patent/CN112287134B/zh
Publication of CN112287134A publication Critical patent/CN112287134A/zh
Application granted granted Critical
Publication of CN112287134B publication Critical patent/CN112287134B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/434Query formulation using image data, e.g. images, photos, pictures taken by a user

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种检索模型的训练和识别方法、二值转换模型的训练方法、电子设备及存储介质。该训练方法包括:获取第一样本集,第一样本集中包括多个第一样本,每个第一样本包括一对第一样本对象和第二样本对象,第一样本对象和第二样本对象的模态不同;利用检索模型提取第一样本对象的第一特征和第二样本对象的第一特征;利用检索模型将第一特征映射成第二特征;利用生成模型的解码器生成第一样本对象的第二特征对应的第一生成对象、第二样本对象的第二特征对应的第二生成对象;利用鉴别器对第一生成对象和第二生成对象进行鉴别,基于鉴别结果调整检索模型的参数。通过上述方式,本申请能够提高检索模型的检索能力。

Description

检索模型的训练和识别方法、电子设备及存储介质
技术领域
本申请涉及机器学习技术领域,特别是涉及一种检索模型的训练和识别方法、二值转换模型的训练方法、电子设备及存储介质。
背景技术
跨模态检索是一项极具挑战性的任务,它要求检索模型能够连接不同模态数据之间所存在的巨大语义鸿沟。在检索模型支持图像、文本两种模态的前提下,对跨检索模型的检索(检索与图像匹配的文本)过程进行举例说明。检索模型可以提取图像的特征,然后对该提取得到的特征与数据库中文本特征的相似度进行一一计算,并找到符合相似度条件的文本特征对应的文本作为与该图像匹配的文本。
一般来说,为了实现检索的目的,在使用检索模型进行检索之前,需要对其进行训练,以提高后续检索模型的检索能力。但是,现有的训练方法得到的检索模型的检索能力依然受限。
发明内容
本申请提供一种检索模型的训练和识别方法、二值转换模型的训练方法、电子设备及存储介质,能够解决现有训练方法得到的检索模型的检索能力受限的问题。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种检索模型的训练方法,该方法包括:获取第一样本集,其中,第一样本集中包括多个第一样本,每个第一样本包括一对第一样本对象和第二样本对象,第一样本对象和第二样本对象的模态不同;利用检索模型提取第一样本对象的第一特征和第二样本对象的第一特征,第一特征属于第一语义空间;利用检索模型将第一特征映射成第二特征,第二特征属于第二语义空间,第二语义空间为生成模型的编码器提取的特征所属语义空间;利用生成模型的解码器生成第一样本对象的第二特征对应的第一生成对象、第二样本对象的第二特征对应的第二生成对象,第一生成对象和第二样本对象的模态相同,第二生成对象和第一样本对象的模态相同;利用鉴别器对第一生成对象和第二生成对象进行鉴别,基于鉴别结果调整检索模型的参数。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种二值转换模型的训练方法,该方法包括:获取第一样本集,第一样本集包括多个第一样本,每个第一样本包括一对第一样本对象和第二样本对象,第一样本对象和第二样本对象的模态不同;利用检索模型提取第一样本对象的第七特征和第二样本对象的第七特征;利用二值转换模型将第七特征转换为第八特征;基于第七特征和第八特征之间的差异,调整二值转换模型的参数;检索模型为经上述训练方法得到的。
为解决上述技术问题,本申请采用的又一个技术方案是:提供一种基于检索模型的识别方法,该方法包括:获取待检索对象;利用检索模型提取待检索对象的第九特征;利用检索模型基于第九特征在数据库中检索与待检索对象匹配的目标对象,其中,目标对象的模态与待检索对象的模态不同;检索模型为经上述训练方法得到的。
为解决上述技术问题,本申请采用的又一个技术方案是:提供一种电子设备,该电子设备包括处理器、与处理器连接的存储器,其中,存储器存储有程序指令;处理器用于执行存储器存储的程序指令以实现上述方法。
为解决上述技术问题,本申请采用的再一个技术方案是:提供一种存储介质,存储有程序指令,该程序指令被执行时能够实现上述方法。
通过上述方式,本申请在对检索模型进行训练的过程中,利用检索模型将提取到第一样本对象/第二样本对象的第一语义空间的第一特征之后,还会将第一特征映射成第二语义空间的第二特征,而由于第二语义空间为生成模型提取的特征所在语义空间,因此通过鉴别器对基于第二特征生成的第一生成对象/第二生成对象进行鉴别的结果来调整检索模型的参数,能够优化检索模型的特征提取性能,从而使得检索模型后续在被使用的过程中提取到的特征更有辨别性,进而提升检索模型的检索能力。
附图说明
图1是本申请检索模型的训练方法第一实施例的流程示意图;
图2是本申请对检索模型训练的结构示意图;
图3是本申请检索模型的训练方法第二实施例的流程示意图;
图4是本申请检索模型的训练方法第三实施例的流程示意图;
图5是本申请检索模型的训练方法第四实施例的流程示意图;
图6是本申请检索模型的训练方法第五实施例的流程示意图;
图7是本申请对生成模型训练的结构示意图;
图8是本申请检索模型的训练方法第六实施例的流程示意图;
图9是本申请检索模型的识别方法一实施例的流程示意图;
图10是图9中S73的具体流程示意图;
图11是本申请二值转换模型的训练方法一实施例的流程示意图;
图12是图11中S84的具体流程示意图;
图13是本申请电子设备一实施例的结构示意图;
图14是本申请存储介质一实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,在不冲突的情况下,本文所描述的实施例可以与其它实施例相结合。
图1是本申请检索模型的训练方法第一实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图1所示的流程顺序为限。如图1所示,本实施例可以包括:
S11:获取第一样本集。
其中,第一样本集中包括多个第一样本,每个第一样本包括一对第一样本对象和第二样本对象,第一样本对象和第二样本对象的模态不同。
本申请所提及的样本对象的模态可以为图像、文本、语音等。为简化描述,本申请后文以每个第一样本包括的第一样本对象的模态为图像、第二样本对象的模态为文本进行说明。本申请后文也将第一样本对象称为图像,将第二样本对象称为文本。
举例说明,第一样本集D={d1,d2,…,dm},di(i=1,…,m)为第一样本。di=(xi,yi),
Figure BDA0002690575780000041
xi为第一样本对象(图像),
Figure BDA0002690575780000042
为第一样本对象的特征尺寸,yi为第二样本对象(文本),
Figure BDA0002690575780000043
为第二样本对象的特征尺寸。
S12:利用检索模型提取第一样本对象的第一特征和第二样本对象的第一特征。
第一特征属于第一语义空间。
结合图2进行说明,检索模型也可以被称为判别模型Discriminative,由于本申请涉及的模态为图像和文本,因此检索模型可以包括图像检索网络NetI和文本检索网络NetT。本申请对NetI和NetT的训练可以一起进行,也即可以将成对的xi和yi一起输入Discriminative进行训练。
其中,Discriminative可以包括特征提取模块。因此,将xi输入NetI,NetI的特征提取模块可以提取到xi的第一特征
Figure BDA0002690575780000044
Figure BDA0002690575780000045
Figure BDA0002690575780000046
是特征尺寸,将yi输入NetT,NetT的特征提取模块可以提取到yi的第一特征
Figure BDA0002690575780000051
Figure BDA0002690575780000052
第一语义空间S也可以被称为公共语义空间,
Figure BDA0002690575780000053
Figure BDA0002690575780000054
属于第一语义空间S。
S13:利用检索模型将第一特征映射成第二特征。
第二特征属于第二语义空间。第二语义空间为生成模型的编码器提取的特征所属语义空间。
可以理解的是,本申请涉及的生成模型包括编码器和解码器。编码器可以提取样本对象的特征,解码器可以基于编码器提取的特征生成与样本对象对应的生成对象,生成对象与样本对象的模态不同。
继续结合图2进行说明,Discriminative还可以包括映射模块。出于对齐第一特征与编码器提取到的特征所在语义空间的考虑,可以利用NetI的映射模块对
Figure BDA0002690575780000055
进行映射处理得到xi的第二特征
Figure BDA0002690575780000056
可以利用NetT的映射模块对
Figure BDA0002690575780000057
进行映射处理得到yi的第二特征
Figure BDA0002690575780000058
Figure BDA0002690575780000059
属于第二图像语义空间GI
Figure BDA00026905757800000510
属于第二文本语义空间GT
S14:利用生成模型的解码器生成第一样本对象的第二特征对应的第一生成对象、第二样本对象的第二特征对应的第二生成对象。
第一生成对象和第二样本对象的模态相同,第二生成对象和第一样本对象的模态相同。
第一生成对象可以为与xi对应的文本
Figure BDA00026905757800000511
第二生成对象为与yi对应的图像
Figure BDA00026905757800000512
在得到第二特征后,可以将其输入生成模型的解码器。具体而言,生成模型可以包括文本生成网络I2T(·)和图像生成网络T2I(·),I2T(·)可以包括文本解码器Text Decoder,T2I(·)可以包括图像解码器Image Decoder。在得到
Figure BDA00026905757800000513
后,可以将其输入Text Decoder,以利用Text Decoder基于
Figure BDA00026905757800000514
生成与xi对应的
Figure BDA00026905757800000515
Figure BDA00026905757800000516
在得到
Figure BDA00026905757800000517
后,可以将其输入Image Decoder,以利用Image Decoder基于
Figure BDA00026905757800000518
生成与yi对应的
Figure BDA00026905757800000519
Figure BDA00026905757800000520
S14:利用鉴别器对第一生成对象和第二生成对象进行鉴别,基于鉴别结果调整检索模型的参数。
仍结合图2进行说明,鉴别器Discriminator可以包括文本鉴别器TextDiscriminator和图像鉴别器Image Discriminator,Text Discriminator可以对文本进行鉴别,也即Text Discriminator可以用来鉴别
Figure BDA0002690575780000061
是否基于NetI得到的
Figure BDA0002690575780000062
生成的;Image Discriminator可以对图像进行鉴别,也即Image Discriminator可以用来鉴别
Figure BDA0002690575780000063
是否是基于NetT得到的
Figure BDA0002690575780000064
生成的。或者说,Discriminator可以用来鉴别第一生成对象/第二生成对象是基于生成模型得到的特征还是检索模型得到的特征生成的。
可以理解的是,由于第二特征所属语义空间与生成模型的编码器提取的特征所属语义空间相同,因此,利用鉴别器得到的鉴别结果包括两种,其中一种为第一生成对象/第二生成对象是基于检索模型得到的特征生成的,另一种为第一生成对象/第二生成对象是基于生成模型得到的特征生成的。通过鉴别结果对检索模型的参数进行不断调整,能够使得检索模型得到的特征与生成模型得到的特征越来越近,而鉴别器越来越难鉴别出第一生成对象/第二生成对象是基于生成模型得到的特征生成的。换句话说,能够使得检索模型学习到生成模型进行特征提取的方法,进而,检索模型得到的特征是结合了检索模型原有的获取特征的逻辑以及生成模型获取特征的逻辑得到的,所以更加具有辨别性,在后续进行检索过程中,能够检索到更准确的对象。
其中,根据鉴别器的鉴别结果调整检索模型的参数所依据的损失函数LGAN公式可以如下:
Figure BDA0002690575780000065
Figure BDA0002690575780000066
Figure BDA0002690575780000067
其中,
Figure BDA0002690575780000068
为Image Discriminator对
Figure BDA0002690575780000069
的鉴别结果,
Figure BDA00026905757800000610
为ImageDiscriminator对
Figure BDA00026905757800000611
的鉴别结果。
因此,通过本实施例的实施,本申请在对检索模型进行训练的过程中,利用检索模型将提取到第一样本对象/第二样本对象的第一语义空间的第一特征之后,还会将第一特征映射成第二语义空间的第二特征,而由于第二语义空间为生成模型提取的特征所在语义空间,因此通过鉴别器对基于第二特征生成的第一生成对象/第二生成对象进行鉴别的结果来调整检索模型的参数,能够优化检索模型的特征提取性能,从而使得检索模型后续在被使用的过程中提取到的特征更有辨别性,进而提升检索模型的检索能力。
为减弱检索模型将提取得到的特征映射到生成模型的编码器得到的特征所属空间造成的损失,可以利用生成模型的编码器得到的特征,然后基于检索模型的编码器得到的特征与检索模型得到的特征之间的差异,来调整生成模型的映射模块的参数,使得生成模型映射得到的特征与检索模型的编码器得到的特征更加接近。对此采用的方法具体可以如下:
图3是本申请检索模型的训练方法第二实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图4所示的流程顺序为限。本实施例是在上述第一实施例的基础上的进一步扩展,如图4所示,本实施例可以包括:
S21:利用生成模型的编码器提取第一样本对象的第三特征和第二样本对象的第三特征。
生成模型包括的文本生成网络I2T(·)除了可以包括文本解码器Text Decoder之外,还可以包括图像编码器Image Encoder,图像生成网络T2I(·)除了可以包括图像解码器Image Decoder之外,还可以包括文本编码器Text Encoder。Image Encoder可以提取xi的第三特征
Figure BDA0002690575780000071
Figure BDA0002690575780000072
Text Encoder可以提取yi的第三特征
Figure BDA0002690575780000073
Figure BDA0002690575780000074
S22:基于第二特征和第三特征之间的差异,调整检索模型的参数。
基于第二特征和第三特征之间的差异,调整检索模型的参数所依据的损失函数LHR公式可以如下:
Figure BDA0002690575780000075
从而,在对检索模型进行训练阶段,所依据的损失函数可以为:
LKD=β1LHR2LGAN
其中,β1和β2为权重参数。
另外,在上述第一实施例S14利用鉴别器对第一生成对象和第二生成对象进行鉴别之前,还可以对鉴别器进行训练,以提升鉴别器的鉴别能力。下面结合图4对鉴别器的训练过程进行说明:
图4是本申请检索模型的训练方法第三实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图4所示的流程顺序为限。如图4所示,本实施例可以包括:
S31:利用生成模型的编码器得到第一样本对象的第四特征和第二样本对象的第四特征,并利用检索模型得到第一样本对象的第五特征和第二样本对象的第五特征。
第四特征和第五特征属于第二语义空间,第四特征的得到方式与第二特征的得到方式相同。
S32:利用生成模型的解码器生成第一样本对象的第四特征对应的第三生成对象和第二样本对象的第四特征对应的第四生成对象,并利用生成模型的编码器生成第一样本对象的第五特征对应的第五生成对象和第二样本对象的第五特征对应的第六生成对象。
第三生成对象、第五生成对象和第二样本对象的模态相同,第四生成对象、第六生成对象和第一样本对象的模态相同。
本步骤详细说明请参见前面的实施例,在此不再重复。
S33:利用鉴别器对第三生成对象和第五生成对象进行鉴别,并利用鉴别器对第四生成对象和第六生成对象进行鉴别,基于鉴别结果调整鉴别器的参数。
本步骤中,基于文本鉴别结果调整文本鉴别器的参数所依据的损失函数
Figure BDA0002690575780000081
可以如下:
Figure BDA0002690575780000082
基于图像鉴别结果调整图像鉴别器的参数所依据的损失函数
Figure BDA0002690575780000083
可以如下:
Figure BDA0002690575780000091
其中,
Figure BDA0002690575780000092
为文本鉴别器对基于文本生成网络的图像编码器得到的第四特征生成的文本
Figure BDA0002690575780000093
的鉴别结果,
Figure BDA0002690575780000094
为图像鉴别器对基于图像生成网络的文本编码器得到的第四特征生成的图像
Figure BDA0002690575780000095
的鉴别结果;
Figure BDA0002690575780000096
为文本鉴别器对基于图像检索网络得到的第五特征生成的文本
Figure BDA0002690575780000097
的鉴别结果,
Figure BDA0002690575780000098
为图像鉴别器对基于文本检索网络得到的第五特征生成的图像
Figure BDA0002690575780000099
的鉴别结果。
另外,在通过上述实施例提供的方法结合生成模型和鉴别器对检索模型进行训练之前,或者说在S12之前,还可以单独对检索模型进行预训练,具体方法可以如下:
图5是本申请检索模型的训练方法第四实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图5所示的流程顺序为限。如图5所示,本实施例可以包括:
S41:利用检索模型得到第一样本对象的第六特征和第二样本对象的第六特征。
本步骤中第六特征为检索模型的特征提取模块提取到的特征,具体与前面提及的第一特征获取方法类似,在此不再重复。
S42:利用检索模型对第六特征进行分类,基于分类结果调整检索模型的参数。
其中,每个样本包含的样本对象可以带有语义标签,语义标签可以代表正确的语义类别,每个样本对象可能属于一个语义类别,也可能属于多个语义类别。例如,第一样本对象xi带有的语义标签为li
Figure BDA00026905757800000910
Figure BDA00026905757800000911
为语义类别的总数。若lij=1,则代表xi属于第j个语义类别;若lij=0,则代表xi不属于第j个语义类别。
检索模型还可以包括分类网络NetL,分类网络可以对图像检索网络和文本检索网络提取得到的特征进行分类。
基于分类结果调整检索模型的参数,能够使得后续检索模型提取的特征更具有辨别性。其中,基于分类结果调整检索模型的参数所依据的损失函数
Figure BDA0002690575780000101
可以如下:
Figure BDA0002690575780000102
其中,
Figure BDA0002690575780000103
为xi的第六特征,
Figure BDA0002690575780000104
为yi的第六特征,
Figure BDA0002690575780000105
为对xi的第六特征的分类结果,
Figure BDA0002690575780000106
为对yi的第六特征的分类结果。
另外,本实施例中S41之后,还可以包括:
基于第一样本间样本对象的第六特征的差异,以及基于第一样本内样本对象的第六特征的差异,调整检索模型的参数。
其中,基于第一样本间样本对象的第六特征的差异调整检索模型的参数所依据的损失函数
Figure BDA0002690575780000107
可以如下:
Figure BDA0002690575780000108
Figure BDA0002690575780000109
基于第一样本内样本对象的第六特征的差异,调整检索模型的参数所依据的损失函数
Figure BDA00026905757800001010
可以如下:
Figure BDA00026905757800001011
从而,在预训练阶段,对检索模型的参数进行调整所依据的损失函数LR可以如下:
Figure BDA00026905757800001012
其中,α1、α2和α3为权重参数。
此外,在上述实施例中结合生成模型来对检索模型进行训练之前,或者说在S14之前,可以对生成模型进行训练,以提高生成模型得到的生成对象与对应的样本对象之间的匹配程度。具体可以如下:
图6是本申请检索模型的训练方法第五实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图6所示的流程顺序为限。如图6所示,在上述实施例的基础上,本实施例可以包括:
S51:利用生成模型生成第一样本对象对应的第七生成对象和第二样本对象对应的第八生成对象。
第七生成对象和第二样本对象的模态相同,第八生成对象和第一样本对象的模态相同。
第八生成对象与第三生成对象的获取方式相同,第九生成对象与第四生成对象的获取方式相同。具体描述请参考前面的说明,在此不再重复。
结合图7进行说明,生成模型包括I2T(·)和T2I(·),I2T(·)包括文本解ImageEncoder和Text Decoder,T2I(·)包括Text Encoder和Image Decoder。
S52:利用对偶模型获取第一样本对象和第七生成对象的第一匹配结果、第二样本对象和第八生成对象的第一匹配结果,基于第一匹配结果调整生成模型的参数。
继续结合图7进行说明,对偶模型Dual(·)也可以被称为对偶正则化网络DualRegularizer Network。其可以表示为多层神经网络,最后一层为sigmoid激活函数。Dual(·)可以用于测量同一样本包括的两个不同模态的样本对象之间的匹配程度。故本申请所指利用对偶模型得到的匹配结果可以为匹配度。如图7所示,Dual(·)的输入为第一样本对象和第七生成对象对,以及第二样本对象和第八生成对象对。
可以基于第一样本对象和第七生成对象的第一匹配结果,调整文本生成网络的参数,具体依据的损失函数
Figure BDA0002690575780000111
可以如下:
Figure BDA0002690575780000112
可以基于第二样本对象和第八生成对象的第一匹配结果,调整图像生成网络的参数,具体依据的损失函数
Figure BDA0002690575780000121
可以如下:
Figure BDA0002690575780000122
其中,
Figure BDA0002690575780000123
为第七生成对象,
Figure BDA0002690575780000124
为xi
Figure BDA0002690575780000125
的第一匹配结果,
Figure BDA0002690575780000126
为第八生成对象,
Figure BDA0002690575780000127
为yi
Figure BDA0002690575780000128
的第一匹配结果。
此外,为提高对偶模型得到匹配结果的准确程度,在上述实施例S52之前,还可以包括:对偶模型进行训练。具体可以如下:
图8是本申请检索模型的训练方法第六实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图8所示的流程顺序为限。如图8所示,在上述实施例的基础上,本实施例可以包括:
S61:基于第一样本集中第一样本对象和第二样本对象的匹配程度,获取第二样本集。
第二样本集包括第二样本和第三样本,第二样本包括的一对第一样本对象和第二样本对象的匹配程度大于第三样本包括的一对第一样本对象和第二样本对象的匹配程度。
在一具体实施方式中,可以基于第一样本集中第一样本对象和第二样本对象的匹配程度,构建K近邻表Tx和Ty。其中,Tx可以看作由m个第一样本对象组成的列向量,即m*1的矩阵
Figure BDA0002690575780000129
而Ty可以看作一个m*K的矩阵
Figure BDA00026905757800001210
其中每一行为Tx中对应行的第一样本对象匹配的K个第二样本对象。
第一样本也可以被称为正样本pos,其中包括当前第一样本对象和与当前第一样本对象对应的一个匹配的第二样本对象。例如,pos=(x1,y1K)。
第二样本也可以被称为负样本neg,其中包括当前第一样本对象和与当前第一样本对象对应的K个匹配的第二样本对象之外的第二样本对象。例如,neg=(x1,ymK)。
当然,第二样本集的方法并不受限于上述方法,也可根据实际需要而选择其他方法。例如,设定一匹配度阈值,在第二样本对象与当前第一样本对象的匹配度高于该匹配度阈值的情况下,可将其与当前第一样本对象组合为第一样本;而在低于该匹配度阈值的情况下,可将其与当前第一样本对象组合为第二样本。
S62:利用对偶模型获取第一样本包括的一对第一样本对象和第二样本对象之间的第二匹配结果、第二样本包括的一对第一样本对象和第二样本对象之间的第二匹配结果。
S63:基于第二匹配结果调整对偶模型的参数。
基于第二匹配结果调整对偶模型的参数所依据的损失函数LDual可以如下:
Figure BDA0002690575780000131
其中,Dual(pos)为第一样本包括的一对第一样本对象和第二样本对象之间的第二匹配结果,Dual(neg)为第二样本包括的一对第一样本对象和第二样本对象之间的第二匹配结果,n为第二样本集合中第一样本的数量和第二样本的数量。
为了验证通过本申请对检索模型的训练效果,还可以利用Flickr-25K,NUS-WIDE、MS COCO等跨模态检索数据集对检索模型进行验证。验证结果表明,相较于未结合生成模型训练的检索模型而言,经过利用生成模型训练的检索模型无论是在16比特、32比特或64比特的特征哈希编码情况下都能够取得更加精准的检索效果。
图9是本申请检索模型的识别方法一实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图9所示的流程顺序为限。如图9所示,本实施例可以包括:
S71:获取待检索对象。
待检索对象的模态可以为检索模型支持的模态。仍然以检索模型支持图像和文本两种模态进行说明。其中,检索模型可以检索与文本对应的图像,或者检索与图像对应的文本,则称检索模型支持图像、文本两种模态。
S72:利用检索模型提取待检索对象的第九特征。
本实施例的检索模型可以但不限于为经前面实施例中的训练方法得到的。
S73:利用检索模型基于第九特征在数据库中检索与待检索对象匹配的目标对象。
其中,目标对象的模态与待检索对象的模态不同。
数据库中包含的对象与待检索对象的模态不相同。检索模型支持跨模态检索,因此可以从数据库中检索与待检索对象模态不同的但与待检索对象匹配的目标对象。
检索模型可以直接基于其提取到的第九特征在数据库中检索与待检索对象匹配的对象。
出于加快检索速度的考虑,也可以先利用二值转换模型对第九特征二值转换到汉明空间,检索模型基于经转换的第九特征在数据库中检索与待检索对象匹配的对象。在汉明空间中,特征表示为预设长度的二进制代码。参阅图10,此种情况下,S73可以包括:
S731:利用二值转换模型将第九特征转换成第十特征。
第九特征属于第一语义空间,第十特征属于汉明空间。
本实施例涉及的二值转换模型B()可以但不限于为后面实施例中的训练方法得到的。
二值转换模型B(·)可以被称为Binary Transform Net,其可以对第九特征进行转换处理,得到第十特征。举例说明,第一样本对象的第九特征为
Figure BDA0002690575780000141
经二值转换模型B(·)得到的第一样本对象的第十特征为
Figure BDA0002690575780000142
第二样本对象的第九特征为
Figure BDA0002690575780000143
经二值转换模型得到的第二样本对象的第十特征为
Figure BDA0002690575780000144
此外,本步骤中,在得到第十特征之后,还可以对第十特征进行sign操作,从而将第一样本对象的第十特征
Figure BDA0002690575780000145
转换为
Figure BDA0002690575780000146
将第二样本对象的第十特征为
Figure BDA0002690575780000151
转换为
Figure BDA0002690575780000152
S732:利用检索模型基于第十特征在数据库中检索与待检索对象匹配的目标对象。
在S731中未对第十特征进行sign操作的情况下,检索模型可直接基于第十特征在数据库中检索与待检索对象匹配的目标对象。在S731中对第十特征进行sign操作的情况下,检索模型可基于经sign操作的第十特征在数据库中检索与待检索对象匹配的目标对象。
本实施例其他详细描述请参考其他实施例的说明,在此不再重复。
图11是本申请二值转换模型的训练方法一实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图11所示的流程顺序为限。如图11所示,本实施例可以包括:
S81:获取第一样本集。
第一样本集包括多个第一样本,每个第一样本包括一对第一样本对象和第二样本对象,第一样本对象和第二样本对象的模态不同。
S82:利用检索模型提取第一样本对象的第七特征和第二样本对象的第七特征。
本实施例涉及的检索模型可以但不限于为经前面实施例中的训练方法得到。
S83:利用二值转换模型将第七特征转换为第八特征。
本步骤所指转换包括前面实施例提及的转换处理而不包括激活处理。举例说明,二值转换模型将第一样本对象的第七特征为
Figure BDA0002690575780000153
第一样本对象的第八特征为
Figure BDA0002690575780000154
二值转换模型将第二样本对象的第七特征为
Figure BDA0002690575780000155
第二样本对象的第八特征为
Figure BDA0002690575780000156
S84:基于第七特征和第八特征之间的差异,调整二值转换模型的参数。
在一具体实施方式中,可以基于第一样本对象的第七特征和第二样本对象的第七特征的第一特征中心,以及第一样本对象的第八特征和第九样本对象的第八特征的第二特征中心,调整二值转换模型的参数。参阅图12,在此情况下,S84可以包括:
S841:获取第一样本对应的第一特征中心和第二特征中心。
第一特征中心为第一样本对象的第七特征和第二样本对象的第七特征的中心,第二特征中心为第一样本对象的第八特征和第二样本对象的第八特征的中心。
第一样本的第一特征中心可以为该第一样本包括的第一样本对象的第七特征和该第一样本包括的第二样本对象的第七特征的中心。第一样本的第二特征中心可以为该第一样本包括的第一样本对象的第八特征和该第一样本包括的第二样本对象的第八特征的中心。一个第一样本对应一个第一特征中心和一个第二特征中心。
举例说明,第一样本对象的第七特征和第二样本对象的第七特征的第一特征中心为
Figure BDA0002690575780000161
第一样本对象的第八特征和第二样本对象的第八特征的第二特征中心为
Figure BDA0002690575780000162
S842:获取不同第一特征中心之间的距离,以及不同第二特征中心之间的距离。
所谓不同第一特征中心之间的距离,也即不同的第一样本对应的第一特征中心之间的距离。所谓不同第二特征中心之间的距离,也即不同的第一样本对应的第二特征中心之间的距离。
特征中心之间的距离可以为余弦距离,也可以为欧式距离等等。以余弦距离进行举例说明,不同第一特征中心之间的距离可以为
Figure BDA0002690575780000163
不同第二特征中心之间的距离可以为
Figure BDA0002690575780000164
S843:基于距离调整二值转换模型的参数。
基于距离调整二值转换模型的参数所依据的损失函数
Figure BDA0002690575780000165
可以如下:
Figure BDA0002690575780000166
在另一具体实施方式中,可以基于第一样本间样本对象的第八特征的差异,以及基于第一样本内样本对象的第八特征的差异,调整二值转换模型的参数。所依据的的损失函数可以如下:
Figure BDA0002690575780000171
Figure BDA0002690575780000172
本实施例其他详细描述请参考其他实施例的说明,在此不再重复。
通过本实施例的实施,可以对二值转换模型进行训练,从而提高二值转换模型的转换精度。
图13是本申请电子设备一实施例的结构示意图。如图13所示,该电子设备包括处理器91、与处理器耦接的存储器92。
其中,存储器92存储有用于实现上述任一实施例的方法的程序指令;处理器91用于执行存储器92存储的程序指令以实现上述方法实施例的步骤。其中,处理器91还可以称为CPU(Central Processing Unit,中央处理单元)。处理器91可能是一种集成电路芯片,具有信号的处理能力。处理器91还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
图14是本申请存储介质一实施例的结构示意图。如图14所示,本申请实施例的存储介质100存储有程序指令101,该程序指令101被执行时实现本申请上述实施例提供的方法。其中,该程序指令101可以形成程序文件以软件产品的形式存储在上述存储介质100中,以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质100包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (18)

1.一种检索模型的训练方法,其特征在于,包括:
获取第一样本集,其中,所述第一样本集中包括多个第一样本,每个所述第一样本包括一对第一样本对象和第二样本对象,所述第一样本对象和所述第二样本对象的模态不同;
利用所述检索模型提取所述第一样本对象的第一特征和所述第二样本对象的第一特征,所述第一特征属于第一语义空间;
利用所述检索模型将所述第一特征映射成第二特征,所述第二特征属于第二语义空间,所述第二语义空间为所述生成模型的编码器提取的特征所属语义空间;
利用生成模型的解码器生成所述第一样本对象的第二特征对应的第一生成对象、所述第二样本对象的第二特征对应的第二生成对象,所述第一生成对象和所述第二样本对象的模态相同,所述第二生成对象和所述第一样本对象的模态相同;
利用鉴别器对所述第一生成对象和所述第二生成对象进行鉴别,基于鉴别结果调整所述检索模型的参数。
2.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:
利用所述生成模型的编码器提取所述第一样本对象的第三特征和所述第二样本对象的第三特征;
基于所述第二特征和第三特征之间的差异,调整所述检索模型的参数。
3.根据权利要求1所述的方法,其特征在于,在利用鉴别器对所述第一生成对象和所述第二生成对象进行鉴别之前,包括:
对所述鉴别器进行训练。
4.根据权利要求3所述的方法,其特征在于,所述对所述鉴别器进行训练,包括:
利用所述生成模型的编码器得到所述第一样本对象的第四特征和所述第二样本对象的第四特征,并利用所述检索模型得到所述第一样本对象的第五特征和所述第二样本对象的第五特征,所述第四特征和第五特征属于第二语义空间,所述第五特征的得到方式与所述第二特征的得到方式相同;
利用所述生成模型的解码器生成所述第一样本对象的第四特征对应的第三生成对象和所述第二样本对象的第四特征对应的第四生成对象,并利用所述生成模型的编码器生成所述第一样本对象的第五特征对应的第五生成对象和所述第二样本对象的第五特征对应的第六生成对象,所述第三生成对象、第五生成对象和所述第二样本对象的模态相同,所述第四生成对象、第六生成对象和所述第一样本对象的模态相同;
利用所述鉴别器对所述第三生成对象和第五生成对象进行鉴别,并利用所述鉴别器对所述第四生成对象和第六生成对象进行鉴别,基于鉴别结果调整所述鉴别器的参数。
5.根据权利要求1所述的方法,其特征在于,在所述利用所述检索模型提取所述第一样本对象的第一特征和所述第二样本对象的第一特征之前,包括:
对所述检索模型进行预训练。
6.根据权利要求5所述的方法,其特征在于,所述对所述检索模型进行预训练,包括:
利用所述检索模型提取所述第一样本对象的第六特征和第二样本对象的第六特征;
利用所述检索模型对所述第六特征进行分类,基于分类结果调整所述检索模型的参数。
7.根据权利要求6所述的方法,其特征在于,在所述利用所述检索模型提取所述第一样本对象的第六特征和第二样本对象的第六特征之后,还包括:
基于所述第一样本间样本对象的第六特征的差异,以及基于所述第一样本内样本对象的第六特征的差异,调整所述检索模型的参数。
8.根据权利要求1所述的方法,其特征在于,在所述利用生成模型的解码器生成所述第一样本对象的第二特征对应的第一生成对象、所述第二样本对象的第二特征对应的第二生成对象之前,还包括:
对所述生成模型进行训练。
9.根据权利要求8所述的方法,其特征在于,所述对所述生成模型进行训练,包括:
利用所述生成模型生成所述第一样本对象对应的第七生成对象和所述第二样本对象对应的第八生成对象,所述第七生成对象和所述第二样本对象的模态相同,所述第八生成对象和所述第一样本对象的模态相同;
利用对偶模型获取所述第一样本对象和第七生成对象的第一匹配结果、所述第二样本对象和第八生成对象的第一匹配结果,基于所述第一匹配结果调整所述生成模型的参数。
10.根据权利要求9所述的方法,其特征在于,在所述利用对偶模型获取所述第一样本对象和第七生成对象的第一匹配结果、所述第二样本对象和第八生成对象的第一匹配结果之前,还包括:
对所述对偶模型进行训练。
11.根据权利要求10所述的方法,其特征在于,所述对所述对偶模型进行训练,包括:
基于所述第一样本集中所述第一样本对象和第二样本对象的匹配程度,获取第二样本集,所述第二样本集包括第二样本和第三样本,所述第二样本包括的一对所述第一样本对象和第二样本对象的匹配程度大于所述第三样本包括的一对所述第一样本对象和第二样本对象的匹配程度;
利用对偶模型获取所述第一样本包括的一对所述第一样本对象和第二样本对象之间的第二匹配结果、第二样本包括的一对所述第一样本对象和第二样本对象之间的第二匹配结果;
基于所述第二匹配结果调整所述对偶模型的参数。
12.一种二值转换模型的训练方法,其特征在于,包括:
获取第一样本集,所述第一样本集包括多个第一样本,每个所述第一样本包括一对第一样本对象和第二样本对象,所述第一样本对象和第二样本对象的模态不同;
利用检索模型提取所述第一样本对象的第七特征和所述第二样本对象的第七特征;
利用所述二值转换模型将所述第七特征转换为第八特征;
基于所述第七特征和第八特征之间的差异,调整所述二值转换模型的参数;
所述检索模型为经权利要求1-11中任一项所述训练方法得到的。
13.根据权利要求12所述的方法,其特征在于,所述基于所述第九特征和第十特征之间的差异,调整所述二值转换模型的参数,包括:
基于所述第一样本对象的第七特征和所述第二样本对象的第七特征的第一特征中心,以及所述第一样本对象的第八特征和所述第九样本对象的第八特征的第二特征中心,调整所述二值转换模型的参数;
和/或,基于所述第一样本间样本对象的第八特征的差异,以及基于所述第一样本内样本对象的第八特征的差异,调整所述二值转换模型的参数。
14.根据权利要求13所述的方法,其特征在于,所述基于所述第一样本对象的第七特征和所述第二样本对象的第七特征的第一特征中心,以及所述第一样本对象的第八特征和所述第九样本对象的第八特征的第二特征中心,调整所述二值转换模型的参数,包括:
获取所述第一样本对应的第一特征中心和所述第二特征中心,所述第一特征中心为所述第一样本对象的第七特征和所述第二样本对象的第七特征的中心,所述第二特征中心为所述第一样本对象的第八特征和所述第二样本对象的第八特征的中心;
获取不同所述第一特征中心之间的距离,以及不同所述第二特征中心之间的距离;
基于所述距离调整所述二值转换模型的参数。
15.一种基于检索模型的识别方法,其特征在于,包括:
获取待检索对象;
利用所述检索模型提取所述待检索对象的第九特征;
利用所述检索模型基于所述第九特征在数据库中检索与所述待检索对象匹配的目标对象,其中,所述目标对象的模态与所述待检索对象的模态不同;
所述检索模型为经权利要求1-11中任一项的训练方法得到的。
16.根据权利要求15所述的方法,其特征在于,所述利用所述检索模型基于所述第九特征在数据库中检索与所述待检索对象匹配的目标对象,包括:
利用二值转换模型将所述第九特征转换成第十特征,所述第九特征属于第一语义空间,所述第十特征属于汉明空间;
所述利用所述检索模型基于所述第十特征在所述数据库中检索与所述待检索对象匹配的目标对象;
所述二值转换模型为经权利要求12-14中任一项的训练方法得到的。
17.一种电子设备,其特征在于,包括处理器、与所述处理器连接的存储器,其中,
所述存储器存储有程序指令;
所述处理器用于执行所述存储器存储的所述程序指令以实现权利要求1-16中任一项所述的方法。
18.一种存储介质,其特征在于,所述存储介质存储程序指令,所述程序指令被执行时实现如权利要求1-16中任一项所述的方法。
CN202010990105.1A 2020-09-18 2020-09-18 检索模型的训练和识别方法、电子设备及存储介质 Active CN112287134B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010990105.1A CN112287134B (zh) 2020-09-18 2020-09-18 检索模型的训练和识别方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010990105.1A CN112287134B (zh) 2020-09-18 2020-09-18 检索模型的训练和识别方法、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112287134A true CN112287134A (zh) 2021-01-29
CN112287134B CN112287134B (zh) 2021-10-15

Family

ID=74421035

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010990105.1A Active CN112287134B (zh) 2020-09-18 2020-09-18 检索模型的训练和识别方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112287134B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115114395A (zh) * 2022-04-15 2022-09-27 腾讯科技(深圳)有限公司 内容检索及模型训练方法、装置、电子设备和存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150186423A1 (en) * 2008-08-08 2015-07-02 The Research Foundation For The State University Of New York Enhanced max margin learning on multimodal data mining in a multimedia database
CN107391505A (zh) * 2016-05-16 2017-11-24 腾讯科技(深圳)有限公司 一种图像处理方法及系统
US20180165554A1 (en) * 2016-12-09 2018-06-14 The Research Foundation For The State University Of New York Semisupervised autoencoder for sentiment analysis
CN109886326A (zh) * 2019-01-31 2019-06-14 深圳市商汤科技有限公司 一种跨模态信息检索方法、装置和存储介质
CN110209867A (zh) * 2019-06-05 2019-09-06 腾讯科技(深圳)有限公司 图像检索模型的训练方法、装置、设备及存储介质
CN111353076A (zh) * 2020-02-21 2020-06-30 华为技术有限公司 训练跨模态检索模型的方法、跨模态检索的方法和相关装置
CN111461203A (zh) * 2020-03-30 2020-07-28 北京百度网讯科技有限公司 跨模态处理方法、装置、电子设备和计算机存储介质
CN111460077A (zh) * 2019-01-22 2020-07-28 大连理工大学 一种基于类语义引导的跨模态哈希检索方法
CN111651661A (zh) * 2020-06-03 2020-09-11 拾音智能科技有限公司 一种图文跨媒体检索方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150186423A1 (en) * 2008-08-08 2015-07-02 The Research Foundation For The State University Of New York Enhanced max margin learning on multimodal data mining in a multimedia database
CN107391505A (zh) * 2016-05-16 2017-11-24 腾讯科技(深圳)有限公司 一种图像处理方法及系统
US20180165554A1 (en) * 2016-12-09 2018-06-14 The Research Foundation For The State University Of New York Semisupervised autoencoder for sentiment analysis
CN111460077A (zh) * 2019-01-22 2020-07-28 大连理工大学 一种基于类语义引导的跨模态哈希检索方法
CN109886326A (zh) * 2019-01-31 2019-06-14 深圳市商汤科技有限公司 一种跨模态信息检索方法、装置和存储介质
CN110209867A (zh) * 2019-06-05 2019-09-06 腾讯科技(深圳)有限公司 图像检索模型的训练方法、装置、设备及存储介质
CN111353076A (zh) * 2020-02-21 2020-06-30 华为技术有限公司 训练跨模态检索模型的方法、跨模态检索的方法和相关装置
CN111461203A (zh) * 2020-03-30 2020-07-28 北京百度网讯科技有限公司 跨模态处理方法、装置、电子设备和计算机存储介质
CN111651661A (zh) * 2020-06-03 2020-09-11 拾音智能科技有限公司 一种图文跨媒体检索方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
YAN HUA 等: ""Deep Semantic correlation with Adversarial Learning for Cross-modal retrieval"", 《2019 IEEE 9TH INTERNATIONAL CONFERENCE ON ELECTRONICS INFORMATION AND EMERGENCY COMMUNICATION(ICEIEC)》 *
刘瑶: ""融合CCA和Adaboost的跨模态多媒体信息检索"", 《中国优秀硕士论文全文数据库 信息科技辑》 *
林泽航: ""基于深度模型的事件检测算法研究"", 《中国优秀硕士论文全文数据库 信息科技辑》 *
邓一姣等: ""面向跨模态检索的协同注意力网络模型"", 《计算机科学》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115114395A (zh) * 2022-04-15 2022-09-27 腾讯科技(深圳)有限公司 内容检索及模型训练方法、装置、电子设备和存储介质
CN115114395B (zh) * 2022-04-15 2024-03-19 腾讯科技(深圳)有限公司 内容检索及模型训练方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN112287134B (zh) 2021-10-15

Similar Documents

Publication Publication Date Title
CN107526799B (zh) 一种基于深度学习的知识图谱构建方法
CN106951422B (zh) 网页训练的方法和装置、搜索意图识别的方法和装置
CN105354307B (zh) 一种图像内容识别方法及装置
Wang et al. Deep cascaded cross-modal correlation learning for fine-grained sketch-based image retrieval
WO2020114100A1 (zh) 一种信息处理方法、装置和计算机存储介质
CN112784696B (zh) 基于图像识别的唇语识别方法、装置、设备及存储介质
Liu et al. Uniting keypoints: Local visual information fusion for large-scale image search
Natarajan et al. BBN VISER TRECVID 2013 Multimedia Event Detection and Multimedia Event Recounting Systems.
WO2021159812A1 (zh) 癌症分期信息处理方法、装置及存储介质
CN110968697A (zh) 文本分类方法、装置、设备及可读存储介质
JP6104209B2 (ja) ハッシュ関数生成方法、ハッシュ値生成方法、装置、及びプログラム
CN112287134B (zh) 检索模型的训练和识别方法、电子设备及存储介质
Ngo et al. Vireo/dvmm at trecvid 2009: High-level feature extraction, automatic video search, and content-based copy detection
JP2017162009A (ja) 特徴量生成装置、方法、及びプログラム
Jin et al. End-to-end dnn-cnn classification for language identification
Poornima et al. Multi-modal features and correlation incorporated Naive Bayes classifier for a semantic-enriched lecture video retrieval system
CN111460808A (zh) 同义文本识别及内容推荐方法、装置及电子设备
JP2014102772A (ja) 特徴ベクトルの集合で表されるコンテンツ間の類似度を算出するプログラム、装置及び方法
CN114781348B (zh) 一种基于词袋模型的文本相似度计算方法及系统
CN113723111B (zh) 一种小样本意图识别方法、装置、设备及存储介质
CN112287217B (zh) 医学文献检索方法、装置、电子设备及存储介质
Tang et al. Large visual words for large scale image classification
CN113111855A (zh) 一种多模态情感识别方法、装置、电子设备及存储介质
Ito et al. The effects of unimodal representation choices on multimodal learning
Kang et al. Learning Deep Semantic Embeddings for Cross-Modal Retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant