CN111523663B - 一种目标神经网络模型训练方法、装置以及电子设备 - Google Patents

一种目标神经网络模型训练方法、装置以及电子设备 Download PDF

Info

Publication number
CN111523663B
CN111523663B CN202010321189.XA CN202010321189A CN111523663B CN 111523663 B CN111523663 B CN 111523663B CN 202010321189 A CN202010321189 A CN 202010321189A CN 111523663 B CN111523663 B CN 111523663B
Authority
CN
China
Prior art keywords
sample set
neural network
network model
data
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010321189.XA
Other languages
English (en)
Other versions
CN111523663A (zh
Inventor
希滕
张刚
温圣召
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010321189.XA priority Critical patent/CN111523663B/zh
Publication of CN111523663A publication Critical patent/CN111523663A/zh
Application granted granted Critical
Publication of CN111523663B publication Critical patent/CN111523663B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本申请公开了一种目标神经网络模型训练方法、装置以及电子设备,涉及机器学习技术领域。具体实现方案为:获取第一模态的第一样本集以及第二模态的第二样本集的特征分布;将第一样本集输入初始深度神经网络模型,得到第一样本集的特征数据,第一样本集的特征数据包括第一样本集的第一类特征数据;基于第一样本集的第一类特征数据,得到第一样本集的特征分布;利用第一损失函数对初始深度神经网络模型的参数进行调整,得到目标神经网络模型;其中,第一损失函数与第一样本集的特征分布以及第二样本集的特征分布相关。可提高目标深度神经网络模型的准确性。

Description

一种目标神经网络模型训练方法、装置以及电子设备
技术领域
本申请涉及计算机技术中的机器学习技术领域,尤其涉及一种目标神经网络模型训练方法、装置以及电子设备。
背景技术
随着信息技术的不断推进,跨模态应用也越来越广,例如,跨模态识别以及跨模态检索等。
目前,常常用一个模态的数据来训练一个网络模型,训练完成的网路模型可对该模态的待测数据进行有效预测,然而利用该训练完成的网络模型对跨模态数据(与训练网络模型的数据的模态不同,与训练网路模型的数据差异较大)进行预测,容易导致预测不准确,即现有网络模型准确性较低。
发明内容
本申请提供一种目标神经网络模型训练方法、装置和电子设备,以解决现有网络模型准确性较低的问题。
第一方面,本申请一个实施例提供一种目标神经网络模型训练方法,包括:
获取第一模态的第一样本集以及第二模态的第二样本集的特征分布;
将所述第一样本集输入初始深度神经网络模型,得到所述第一样本集的特征数据,所述第一样本集的特征数据包括所述第一样本集的第一类特征数据;
基于所述第一样本集的第一类特征数据,得到所述第一样本集的特征分布;
利用第一损失函数对所述初始深度神经网络模型的参数进行调整,得到目标神经网络模型;
其中,所述第一损失函数与所述第一样本集的特征分布以及所述第二样本集的特征分布相关。
在本申请的实施例的模型训练过程中,首先利用第一模态的第一样本集输入初始深度神经网络,得到第一样本集的特征数据,然后利用第一样本集的特征数据估计第一样本集的特征分布,再利用与第一样本集的特征分布以及第二样本集的特征分布相关的第一损失函数对初始深度神经网络模型的参数进行调整,得到目标神经网络模型,实现对初始深度神经网络模型的训练。由于在模型训练过程中,不但利用了第一模态的第一样本集的特征分布,可训练模型对第一模态的数据的特征提取能力,而且利用了第二模态的第二样本集的特征分布,可训练模型对第二模态的数据的特征提取能力,从而使训练得到的目标深度神经网路模型能够适应于不同模态的数据,即提高目标深度神经网络模型的准确性。
第二方面,本申请一个实施例提供一种目标神经网络模型训练装置,所述装置包括:
第一获取模块,用于获取第一模态的第一样本集以及第二模态的第二样本集的特征分布;
第一特征获取模块,用于将所述第一样本集输入初始深度神经网络模型,得到所述第一样本集的特征数据,所述第一样本集的特征数据包括所述第一样本集的第一类特征数据;
第一特征分布获取模块,用于基于所述第一样本集的第一类特征数据,得到所述第一样本集的特征分布;
确定模块,用于利用第一损失函数对所述初始深度神经网络模型的参数进行调整,得到目标神经网络模型;
其中,所述第一损失函数与所述第一样本集的特征分布以及所述第二样本集的特征分布相关。
在本申请的实施例的目标神经网络模型训练装置在训练过程中,首先利用第一模态的第一样本集输入初始深度神经网络,得到第一样本集的特征数据,然后利用第一样本集的特征数据估计第一样本集的特征分布,再利用与第一样本集的特征分布以及第二样本集的特征分布相关的第一损失函数对初始深度神经网络模型的参数进行调整,得到目标神经网络模型,实现对初始深度神经网络模型的训练。由于在模型训练过程中,不但利用了第一模态的第一样本集的特征分布,可训练模型对第一模态的数据的特征提取能力,而且利用了第二模态的第二样本集的特征分布,可训练模型对第二模态的数据的特征提取能力,从而使训练得到的目标深度神经网路模型能够适应于不同模态的数据,即提高目标深度神经网络模型的准确性。
第三方面,本申请一个实施例还提供一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请各实施例提供的方法。
第四方面,本申请一个实施例还提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本申请各实施例提供的方法。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是本申请提供的一个实施例的目标神经网络模型训练方法的流程示意图之一;
图2是本申请提供的一个实施例的目标神经网络模型训练方法的流程示意图之二;
图3是本申请提供的一个实施例的目标神经网络模型训练装置的结构图;
图4是用来实现本申请实施例的目标神经网络模型训练方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
如图1所示,根据本申请的实施例,本申请提供一种目标神经网络模型训练方法,包括:
步骤S101:获取第一模态的第一样本集以及第二模态的第二样本集的特征分布。
模态指数据的存在形式,第一模态与第二模态不同,第一样本集可以为第一图像样本集,第二样本集可以为第二图像样本集,即集合中均是图像样本,两个集合之间图像样本的模态不同,即两个集合中记录的是不同模态的图像,不同模态的图像,其图像数据的形式不同。举例说明,第一样本集中样本为RGB图像,为第一模态的图像,第二样本集中的样本为红外图像,为第二模态的图像。在本实施例的型训练过程中,首先获取第一模态的第一样本集,以及第二模态的第二样本集的特征分布,为后续训练过程提供依据。作为一个示例,第二样本集的特征分布可基于第二样本集的第一类特征数据得到。
步骤S102:将第一样本集输入初始深度神经网络模型,得到第一样本集的特征数据。
获得第一样本集后,可将第一样本集输入预先构建的初始深度神经网络模型,通过初始深度神经网络对第一样本集进行特征提取,以得到第一样本的特征数据,可以理解,该过程为训练初始深度神经网络过程中的前向传播中的部分。其中,第一样本集的特征数据包括第一样本集的第一类特征数据,作为一个示例,第一类特征数据可以为ID类特征数据等。
步骤S103:基于第一样本集的第一类特征数据,得到第一样本集的特征分布。
第一样本集中包括多个第一样本,第一样本可以为第一图像样本,通过初始深度神经网络模型得到的第一样本集的特征数据包括第一样本集中每个第一样本的特征数据,第一样本的特征数据包括第一样本的第一类特征数据。可根据第一样本集的第一类特征数据,估计第一样本集的第一类特征数据的分布,即估计第一样本集的特征分布。估计第一样本集的特征分布的方式有多种,在此不作限定。
步骤S104:利用第一损失函数对初始深度神经网络模型的参数进行调整,得到目标神经网络模型。
其中,第一损失函数与第一样本集的特征分布以及第二样本集的特征分布相关。可以理解,在得到第一样本集的特征分布后,利用第一样本集的特征分布以及第二样本集的特征分布计算第一损失函数,利用第一损失函数对初始深度神经网络模型的参数进行调整,实现对初始深度神经网络模型的训练,得到目标神经网络模型,上述利用第一损失函数对初始深度神经网络模型的参数进行调整的过程可以理解为该过程为训练初始深度神经网络过程中的反向传播。
在本申请的实施例的模型训练过程中,首先利用第一模态的第一样本集输入初始深度神经网络,得到第一样本集的特征数据,然后利用第一样本集的特征数据估计第一样本集的特征分布,再利用与第一样本集的特征分布以及第二样本集的特征分布相关的第一损失函数对初始深度神经网络模型的参数进行调整,得到目标神经网络模型,实现对初始深度神经网络模型的训练。由于在模型训练过程中,不但利用了第一模态的第一样本集的第一类特征的特征分布,可训练模型对第一模态的数据的第一类特征提取能力,而且利用了第二模态的第二样本集的特征分布,可训练模型对第二模态的数据的特征提取能力,从而使训练得到的目标深度神经网路模型能够适应于不同模态的数据,即提高目标深度神经网络模型的准确性。
在一个实施例中,得到目标神经网络模型之后,可获取待预测对象;将待预测对象输入目标深度神经网络模型进行预测,得到待预测对象的预测结果。由于在训练得到目标神经网络模型的过程中,考虑了第一模态的第一样本集的特征分布以及第二模态的第二样本集的特征分布,不但可训练目标神经网络模型对第一模态的数据的特征提取能力,而且可训练对第二模态的数据的特征提取能力,如此,得到的目标神经网络在后续的预测过程中,不但可适应第一模态的待预测对象,而且可适应第二模态的待预测对象,从而提高对待预测对象预测的准确性。
作为一个示例,上述目标神经网络模型可应用于不同场景,例如搜索场景、识别场景等,即目标神经网络模型可应用在对应的搜索平台、识别系统中等,从而,待预测对象可以为待搜索对象、待识别对象等。另外,上述对象可以为图像等,即目标深度神经网路模型基于待预测图像进行预测,得到预测结果。作为一个示例,识别系统可以包括但不限于人脸识别系统等。
在一个实施例中,第一损失函数中包括第二样本集的特征分布与第一样本集的特征分布之间的距离。
第二样本集的特征分布与第一样本集的特征分布之间的距离可以表示第二样本集的特征分布与第一样本集的特征分布之间的差异程度,第一样本集为第一模态的样本集,第二样本集为第二模态的样本集,依此作为对模型参数调整的依据,实现模型训练,可使得到的目标深度神经网络模型对第二模态的数据的进行特征提取的能力提高,即提高对第二模态的数据特征提取的准确性,从而提高目标深度神经网络模型的准确性。
作为一个示例,上述距离包括但不限于欧式距离、KL距离、范数距离、多个距离的加权和等,多个距离可以包括欧式距离、KL距离和范数距离。
在一个实施例中,第一损失函数还与第一样本集的预测输出结果以及第一样本集的标准输出结果相关。
将第一样本集输入初始深度神经网络模型,通过初始深度神经网模型不但可对第一样本集进行特征提取得到第一样本集的第一类特征数据,还可对第一样本集进行预测,得到第一样本集的预测输出结果,且第一样本集有对应的标准输出结果,可将第一样本集的标准输出结果输入初始神经网络模型,如此,在第一样本集的特征分布以及第二样本集的特征分布的基础上,在第一损失函数中还引入第一样本集的预测输出结果以及第一样本集的标准输出结果,并利用该第一损失函数对初始深度神经网络模型进行训练,得到目标深度神经网络。
即在本实施中,用于训练的第一损失函数不但与第一样本集的特征分布以及第二样本集的特征分布有关,而且与第一样本集的预测输出结果以及第一样本集的标准输出结果有关,通过该第一损失函数进行训练,可使得到的目标深度神经网络的准确性进一步提高。
在一个示例中,初始深度神经网路模型包括第一前序层以及第一输出层,第一前序层的输出为第一输出层的输入,将第一样本集输入第一前序层,通过第一前序层输出第一样本集的特征数据,第一样本集的特征数据输出至第一输出层,通过第一输出层输出第一样本集的预测输出结果。其中,第一前序层可以有多层,例如,包括第一输入层以及第一中间层等,第一样本集输入到输入层,第一输入层的输出为第一中间层的输入,第一中间层的输出为第一输出层的输入,第一中间层也可以是多层。
作为一个示例,上述第一损失函数还包括第一样本集的预测输出结果与第一样本集的标准输出结果之间的误差和。
该误差和可以理解为第一样本集中每个第一样本的预测输出结果与对应的标准输出结果之间的误差之和。该误差为绝对误差,即第一样本的预测输出结果与对应的标准输出结果之差的绝对值。
在本示例中,第一样本集的预测输出结果与第一样本集的标准输出结果之间的误差和,能够表示第一样本集的预测输出结果与标准输出结果之间的差距,在利用第一误差函数进行模型训练过程中,在第一误差函数中引入第一样本集的预测输出结果与第一样本集的标准输出结果之间的误差和,可提高训练准确性,使得到的目标深度神经网络模型的准确性更高。
在一个实施例中,第一样本集的特征数据还包括第一样本集的第二类特征数据,第一样本集的预测输出结果与第一样本集的第一类特征数据以及第一样本集的第二类特征数据相关。
第一样本集输入初始深度神经网络模型,不但可提取第一样本集的第一类特征数据,而且可提取第一样本集的第二类特征数据,基于第一样本集的第一类特征数据以及第二类特征数据,输出第一样本集的预测输出结果。作为一个示例,第一样本集输入第一前序层,通过第一前序层提取第一样本集的第一类特征数据和第二类特征数据,并传递给第一输出层,通过第一输出层输出第一样本集的预测输出结果。
在本实施例中,通过初始神经网络模型不但可提取第一样本集的第一类特征数据,而且可提取第一样本集的第二类特征数据,在第一样本集的第一类特征数据以及第一样本集的第二类特征数据的基础上,得到第一样本集的预测输出结果,利用与该第一样本集的预测输出结果有关的第一损失函数调整初始神经网络模型的模型参数,实现模型训练,使得到的目标神经网络的准确性提高。
在一个实施例中,获取第二模态的第二样本集的特征分布的方式,包括:获取第二模态的第二样本集;将第二样本集输入已训练的第一深度神经网络模型,得到第二样本集的第一类特征数据;基于第二样本集的第一类特征数据,得到第二样本集的特征分布。即在本实施例中,提供一种目标神经网络模型训练方法,如图2所示,该方法包括:
步骤S201:获取第二模态的第二样本集。
步骤S202:将第二样本集输入已训练的第一深度神经网络模型,得到第二样本集的第一类特征数据。
步骤S203:基于第二样本集的第一类特征数据,得到第二样本集的特征分布。
其中,已训练的第一深度神经网络模型基于第三样本集训练得到,第三样本集为第二模态的样本集,即已训练的第一深度神经网络模型通过第二模态的第三样本集训练得到。作为一个示例,第三样本集可以是第三图像样本集等,其中可包括多个第三样本,第三样本可以为第三图像样本。
基于第三样本训练得到已训练的第一深度神经网络模型后,可将已训练的第一深度神经网络模型的模型参数冻结,然后将第二样本集输入已训练的第一深度神经网络模型,通过已训练的第一深度网络模型进行特征提取得到第二样本集的第一类特征数据。将已训练的第一深度神经网络模型的模型参数冻结,可以理解为将已训练的第一深度神经网络模型的模型参数固定,已训练的第一深度神经网络模型的模型参数不作调整,输入第二样本集后,即使对其进行特征提取以及能够得到其预测结果,但不对模型参数进行调整。得到第二样本集的第一类特征数据后,基于第二样本集的第一类特征数据,估计第二样本集的特征分布,估计第二样本集的特征分布的方式有多种,在此不作限定。
步骤S204:获取第一模态的第一样本集。
步骤S205:将第一样本集输入初始深度神经网络模型,得到第一样本集的特征数据。
第一样本集的特征数据包括第一样本集的第一类特征数据。
步骤S206:基于第一样本集的第一类特征数据,得到第一样本集的特征分布。
步骤S207:利用第一损失函数对初始深度神经网络模型的参数进行调整,得到目标神经网络模型。
其中,第一损失函数与第一样本集的特征分布以及第二样本集的特征分布相关。
步骤S204-步骤S207与上述步骤S101-S104对应,不再赘述。
在本实施例中,第二模态的第二样本集的特征分布,是将第二模态的第二样本集输入到第一深度神经网络模型,通过利用第二模态的第三样本集训练得到的第一深度神经网络模型进行特征提取得到的第二样本集的第一类特征数据估计得到,第二样本集与第三样本集的模态相同,如此,可提高第二样本集的特征分布的准确性,依此对初始深度神经网络模型的训练得到目标深度神经网络,以提高对初始深度神经网络模型的训练准确性,从而提高得到的目标深度神经网络模型的准确性。
在一个示例中,已训练的第一深度神经网路模型包括第二前序层以及第二输出层,第二前序层以及第二输出层已完成训练,第二前序层的输出为第二输出层的输入。将第二样本集输入第二前序层,通过第二前序层输出第二样本集的特征数据。其中,第二前序层可以有多层,例如,包括第二输入层以及第二中间层等,第二样本集输入到第二输入层,第二输入层的输出为第二中间层的输入,第二中间层的输出为第二输出层的输入,第二中间层也可以是多层。
下面以一个具体实施例对上述模型训练过程加以具体说明。以该模型训练方法应用于人脸识别系统,第一类特征数据为ID类特征数据,第一样本集中包括多个红外图像,第二样本集中包括多个第一RGB图像以及第三样本集中包括多个第二RGB图像,为例进行说明,红外图像和RGB图像的模态不同,是跨模态的。模型训练流程如下:
利用第一样本集中的多个第二RGB图像进行模型训练,得到已训练的第一深度神经网络模型,并保存已训练的第一深度神经网络模型。
冻结已训练的第一深度神经网络模型的模型参数,基于已训练的第一深度神经网络模型中的第二前序层对第二样本集中的多个第一RGB图像进行特征提取,得到第二样本集的ID类特征数据,依次估计第二样本集的特征分布。
构建初始深度神经网络模型,可以理解为跨模态的深度神经网络模型,该模型可提取第一类特征数据和第二类特征数据。
利用第一样本集中的多个红外图像对初始深度神经网路模型进行训练得到目标深度神经网络。首先将多个红外图像输入初始深度神经网路模型,通过初始深度神经网路模型提取第一样本集的多个红外图像的ID类特征数据,并以此估计第一样本集的特征分布,将第二样本集的特征分布与第一样本集的特征分布的距离作为第一损失函数,利用第一损失函数,更新初始深度神经网路模型的模型参数,若满足训练收敛条件,则停止训练,得到目标深度神经网络。例如,训练收敛条件可以为训练迭代次数满足预设次数、更新后的模型参数与更新前的最近一次的模型参数相同,即模型参数无变化等,只要满足其中的任一项,即可停止训练。若利用第一损失函数,更新初始深度神经网路模型的模型参数后,未满足训练收敛条件,则返回将多个红外图像输入初始深度神经网路模型继续进行训练,直到满足训练收敛条件。
需要说明的是,第一样本集的特征分布可以直接利用第一样本集的ID类特征数据估计,当特征维度较高时,比较适合通过蒙特卡洛采样的方式对分布进行估计,即也可以间接的通过蒙特卡洛采样的方式估计分布。具体通过蒙特卡洛采样方式对第一样本集的ID类特征数据进行采样,得到第一样本集的第一采样特征数据,减少特征维度,从而减少计算量,利用第一样本集的第一采样特征数据估计第一样本集的特征分布,在人脸识别场景,ID类特征数据维度一般为128、256或512,可直接估计特征的分布。另外,第二样本集的特征分布可以直接利用第二样本集的ID类特征数据估计,当特征维度较高时,比较适合通过蒙特卡洛采样的方式对分布进行估计,即也可以间接的通过蒙特卡洛采样的方式估计分布。具体通过蒙特卡洛采样方式对第二样本集的ID类特征数据进行采样,得到第二样本集的第二采样特征数据,减少特征维度,从而减少计算量,利用第二样本集的第二采样特征数据估计第二样本集的特征分布。
第一样本集的特征分布与第二样本集的特征分布之间的距离,可以是KL距离,也可以是欧式距离,或者范数距离,亦可以是用户自定义的距离,也可以是由多个距离加权求和得到的综合距离。
当第二RGB图像的数量远远大于红外图像的数量时,第一损失函数,可以作为主要损失函数指导模型训练,可以忽略红外图像任务本身的损失函数只保留该第一损失函数。如此,在训练过程中,预测红外图像的输出结果时可以直接使用ID类特征数据的分支进行预测而忽略第二类特征数据的分支。
目前,现有模型训练过程中,使用RGB图像训练模型,对于后续待预测的跨模态图像(与RGB图像为不同模态的图像),例如红外图像,利用通过RGB图像训练得到的模型进行预测时,由于跨模态图像与RGB图像之间的差异性较大,容易导致预测精度较低。本申请提供的目标神经网络模型训练方法,是基于ID类特征数据进行解耦的迁移学习方法,即在通过第一模态的第一样本集对初始深度神经网路模型进行训练时,引入第二模态的第二样本集的特征分布,即考虑了不同模态的样本集,提高训练得到的目标深度神经网络模型的精度。
请参考图3,本申请提供一种实施例的目标神经网络模型训练装置300,装置包括:
第一获取模块301,用于获取第一模态的第一样本集以及第二模态的第二样本集的特征分布;
第一特征获取模块302,用于将第一样本集输入初始深度神经网络模型,得到第一样本集的特征数据,第一样本集的特征数据包括第一样本集的第一类特征数据;
第一特征分布获取模块303,用于基于第一样本集的第一类特征数据,得到第一样本集的特征分布;
确定模块304,用于利用第一损失函数对初始深度神经网络模型的参数进行调整,得到目标神经网络模型;
其中,第一损失函数与第一样本集的特征分布以及第二样本集的特征分布相关。
在一个实施例中,第一损失函数中包括第二样本集的特征分布与第一样本集的特征分布之间的距离。
在一个实施例中,第一损失函数还与第一样本集的预测输出结果以及第一样本集的标准输出结果相关。
在一个实施例中,第一样本集的特征数据还包括第一样本集的第二类特征数据,第一样本集的预测输出结果与第一样本集的第一类特征数据以及第一样本集的第二类特征数据相关。
在一个实施例中,第一获取模块301,包括:
样本集获取模块,用于获取第二模态的第二样本集;
第二特征获取模块,用于将第二样本集输入已训练的第一深度神经网络模型,得到第二样本集的第一类特征数据,其中,已训练的第一深度神经网络模型基于第三样本集训练得到,第三样本集为第二模态的样本集;
第二特征分布获取模块,用于基于第二样本集的第一类特征数据,得到第二样本集的特征分布。
上述各实施例的目标神经网络模型训练装置为实现上述各实施例的目标神经网络模型训练方法的装置,技术特征对应,技术效果对应,在此不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图4所示,是根据本申请实施例的目标神经网络模型训练方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图4所示,该电子设备包括:一个或多个处理器401、存储器402,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUM的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图4中以一个处理器401为例。
存储器402即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的目标神经网络模型训练方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的目标神经网络模型训练方法。
存储器402作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的目标神经网络模型训练方法对应的程序指令/模块(例如,附图3所示的第一获取模块301、第一特征获取模块302、第一特征分布获取模块303、定模块304)。处理器401通过运行存储在存储器402中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的目标神经网络模型训练方法。
存储器402可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据键盘显示的电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器402可选包括相对于处理器401远程设置的存储器,这些远程存储器可以通过网络连接至键盘显示的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
目标神经网络模型训练方法的电子设备还可以包括:输入装置403和输出装置404。处理器401、存储器402、输入装置403和输出装置404可以通过总线或者其他方式连接,图4中以通过总线连接为例。
输入装置403可接收输入的数字或字符信息,以及产生与键盘显示的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置404可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASMC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者第二可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,不但利用了第一模态的第一样本集的特征分布,可训练模型对第一模态的数据的特征提取能力,而且利用了第二模态的第二样本集的特征分布,可训练模型对第二模态的数据的特征提取能力,从而使训练得到的目标深度神经网路模型能够适应于不同模态的数据,即提高目标深度神经网络模型的准确性。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (12)

1.一种目标神经网络模型训练方法,其特征在于,至少应用于搜索场景或识别场景,所述方法包括:
获取第一模态的第一样本集以及第二模态的第二样本集的特征分布,所述第一样本集为第一图像样本集,所述第二样本集为第二图像样本集,所述第一图像样本集与所述第二图像样本集为所述搜索场景或所述识别场景下不同模态的图像集;
将所述第一样本集输入初始深度神经网络模型,得到所述第一样本集的特征数据,所述第一样本集的特征数据包括所述第一样本集的第一类特征数据;
基于所述第一样本集的第一类特征数据,得到所述第一样本集的特征分布;
利用第一损失函数对所述初始深度神经网络模型的参数进行调整,得到目标神经网络模型;
其中,所述第一损失函数与所述第一样本集的特征分布以及所述第二样本集的特征分布相关。
2.根据权利要求1所述的方法,其特征在于,所述第一损失函数中包括第二样本集的特征分布与第一样本集的特征分布之间的距离。
3.根据权利要求1所述的方法,其特征在于,所述第一损失函数还与所述第一样本集的预测输出结果以及所述第一样本集的标准输出结果相关。
4.根据权利要求3所述的方法,其特征在于,所述第一样本集的特征数据还包括第一样本集的第二类特征数据,所述第一样本集的预测输出结果与所述第一样本集的第一类特征数据以及所述第一样本集的第二类特征数据相关。
5.根据权利要求1所述的方法,其特征在于,获取第二模态的第二样本集的特征分布的方式,包括:
获取所述第二模态的第二样本集;
将所述第二样本集输入已训练的第一深度神经网络模型,得到所述第二样本集的第一类特征数据,其中,所述已训练的第一深度神经网络模型基于第三样本集训练得到,所述第三样本集为所述第二模态的样本集;
基于所述第二样本集的第一类特征数据,得到所述第二样本集的特征分布。
6.一种目标神经网络模型训练装置,其特征在于,至少应用于搜索场景或识别场景,所述装置包括:
第一获取模块,用于获取第一模态的第一样本集以及第二模态的第二样本集的特征分布,所述第一样本集为第一图像样本集,所述第二样本集为第二图像样本集,所述第一图像样本集与所述第二图像样本集为所述搜索场景或所述识别场景下不同模态的图像集;
第一特征获取模块,用于将所述第一样本集输入初始深度神经网络模型,得到所述第一样本集的特征数据,所述第一样本集的特征数据包括所述第一样本集的第一类特征数据;
第一特征分布获取模块,用于基于所述第一样本集的第一类特征数据,得到所述第一样本集的特征分布;
确定模块,用于利用第一损失函数对所述初始深度神经网络模型的参数进行调整,得到目标神经网络模型;
其中,所述第一损失函数与所述第一样本集的特征分布以及所述第二样本集的特征分布相关。
7.根据权利要求6所述的装置,其特征在于,所述第一损失函数中包括第二样本集的特征分布与第一样本集的特征分布之间的距离。
8.根据权利要求6所述的装置,其特征在于,所述第一损失函数还与所述第一样本集的预测输出结果以及所述第一样本集的标准输出结果相关。
9.根据权利要求8所述的装置,其特征在于,所述第一样本集的特征数据还包括第一样本集的第二类特征数据,所述第一样本集的预测输出结果与所述第一样本集的第一类特征数据以及所述第一样本集的第二类特征数据相关。
10.根据权利要求6所述的装置,其特征在于,所述第一获取模块,包括:
样本集获取模块,用于获取所述第二模态的第二样本集;
第二特征获取模块,用于将所述第二样本集输入已训练的第一深度神经网络模型,得到所述第二样本集的第一类特征数据,其中,所述已训练的第一深度神经网络模型基于第三样本集训练得到,所述第三样本集为所述第二模态的样本集;
第二特征分布获取模块,用于基于所述第二样本集的第一类特征数据,得到所述第二样本集的特征分布。
11.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-5中任一所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行如权利要求1-5中任一所述的方法。
CN202010321189.XA 2020-04-22 2020-04-22 一种目标神经网络模型训练方法、装置以及电子设备 Active CN111523663B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010321189.XA CN111523663B (zh) 2020-04-22 2020-04-22 一种目标神经网络模型训练方法、装置以及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010321189.XA CN111523663B (zh) 2020-04-22 2020-04-22 一种目标神经网络模型训练方法、装置以及电子设备

Publications (2)

Publication Number Publication Date
CN111523663A CN111523663A (zh) 2020-08-11
CN111523663B true CN111523663B (zh) 2023-06-23

Family

ID=71903764

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010321189.XA Active CN111523663B (zh) 2020-04-22 2020-04-22 一种目标神经网络模型训练方法、装置以及电子设备

Country Status (1)

Country Link
CN (1) CN111523663B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112149635A (zh) * 2020-10-23 2020-12-29 北京百度网讯科技有限公司 跨模态人脸识别模型训练方法、装置、设备以及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832351A (zh) * 2017-10-21 2018-03-23 桂林电子科技大学 基于深度关联网络的跨模态检索方法
CN108647736A (zh) * 2018-05-16 2018-10-12 南京大学 一种基于感知损失和匹配注意力机制的图像分类方法
CN108898218A (zh) * 2018-05-24 2018-11-27 阿里巴巴集团控股有限公司 一种神经网络模型的训练方法、装置、及计算机设备
CN109299342A (zh) * 2018-11-30 2019-02-01 武汉大学 一种基于循环生成式对抗网络的跨模态检索方法
CN109583569A (zh) * 2018-11-30 2019-04-05 中控智慧科技股份有限公司 一种基于卷积神经网络的多模态特征融合方法及装置
CN110046551A (zh) * 2019-03-18 2019-07-23 中国科学院深圳先进技术研究院 一种人脸识别模型的生成方法及设备
CN110070030A (zh) * 2019-04-18 2019-07-30 北京迈格威科技有限公司 图像识别与神经网络模型的训练方法、装置和系统
CN110119775A (zh) * 2019-05-08 2019-08-13 腾讯科技(深圳)有限公司 医疗数据处理方法、装置、系统、设备和存储介质
CN110458038A (zh) * 2019-07-19 2019-11-15 天津理工大学 基于双链深度双流网络的小数据跨域动作识别方法
CN110909889A (zh) * 2019-11-29 2020-03-24 北京迈格威科技有限公司 一种基于特征分布的训练集生成、模型训练方法及装置
CN111046959A (zh) * 2019-12-12 2020-04-21 上海眼控科技股份有限公司 模型训练方法、装置、设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10373056B1 (en) * 2018-01-25 2019-08-06 SparkCognition, Inc. Unsupervised model building for clustering and anomaly detection

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832351A (zh) * 2017-10-21 2018-03-23 桂林电子科技大学 基于深度关联网络的跨模态检索方法
CN108647736A (zh) * 2018-05-16 2018-10-12 南京大学 一种基于感知损失和匹配注意力机制的图像分类方法
CN108898218A (zh) * 2018-05-24 2018-11-27 阿里巴巴集团控股有限公司 一种神经网络模型的训练方法、装置、及计算机设备
CN109299342A (zh) * 2018-11-30 2019-02-01 武汉大学 一种基于循环生成式对抗网络的跨模态检索方法
CN109583569A (zh) * 2018-11-30 2019-04-05 中控智慧科技股份有限公司 一种基于卷积神经网络的多模态特征融合方法及装置
CN110046551A (zh) * 2019-03-18 2019-07-23 中国科学院深圳先进技术研究院 一种人脸识别模型的生成方法及设备
CN110070030A (zh) * 2019-04-18 2019-07-30 北京迈格威科技有限公司 图像识别与神经网络模型的训练方法、装置和系统
CN110119775A (zh) * 2019-05-08 2019-08-13 腾讯科技(深圳)有限公司 医疗数据处理方法、装置、系统、设备和存储介质
CN110458038A (zh) * 2019-07-19 2019-11-15 天津理工大学 基于双链深度双流网络的小数据跨域动作识别方法
CN110909889A (zh) * 2019-11-29 2020-03-24 北京迈格威科技有限公司 一种基于特征分布的训练集生成、模型训练方法及装置
CN111046959A (zh) * 2019-12-12 2020-04-21 上海眼控科技股份有限公司 模型训练方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN111523663A (zh) 2020-08-11

Similar Documents

Publication Publication Date Title
CN111539514B (zh) 用于生成神经网络的结构的方法和装置
JP6594534B2 (ja) テキスト情報処理方法およびデバイス
CN111259671B (zh) 文本实体的语义描述处理方法、装置及设备
CN111783451A (zh) 用于增强文本样本的方法和装置
CN112270711B (zh) 模型训练以及姿态预测方法、装置、设备以及存储介质
EP3961476A1 (en) Entity linking method and apparatus, electronic device and storage medium
KR20210132578A (ko) 지식 그래프를 구축하는 방법, 장치, 기기 및 저장 매체
CN111274407B (zh) 知识图谱中三元组置信度计算方法和装置
CN112559870B (zh) 多模型融合方法、装置、电子设备和存储介质
CN111090991B (zh) 场景纠错方法、装置、电子设备和存储介质
CN111862987B (zh) 语音识别方法和装置
CN111695519B (zh) 关键点定位方法、装置、设备以及存储介质
CN110019849B (zh) 一种基于注意力机制的视频关注时刻检索方法及装置
CN112380104A (zh) 用户属性识别方法、装置、电子设备及存储介质
CN112528995A (zh) 用于训练目标检测模型的方法、目标检测方法及装置
CN112288483A (zh) 用于训练模型的方法和装置、用于生成信息的方法和装置
CN111640103A (zh) 图像检测方法、装置、设备以及存储介质
CN111582477A (zh) 神经网络模型的训练方法和装置
CN111523663B (zh) 一种目标神经网络模型训练方法、装置以及电子设备
EP3866065B1 (en) Target detection method, device and storage medium
CN111582452B (zh) 生成神经网络模型的方法和装置
CN112580723A (zh) 多模型融合方法、装置、电子设备和存储介质
CN112488126A (zh) 特征图处理方法、装置、设备以及存储介质
CN111680599A (zh) 人脸识别模型处理方法、装置、设备和存储介质
CN111177479A (zh) 获取关系网络图中节点的特征向量的方法以及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant