CN111626315A - 模型训练方法、对象识别方法、装置、介质及电子设备 - Google Patents

模型训练方法、对象识别方法、装置、介质及电子设备 Download PDF

Info

Publication number
CN111626315A
CN111626315A CN201910152180.8A CN201910152180A CN111626315A CN 111626315 A CN111626315 A CN 111626315A CN 201910152180 A CN201910152180 A CN 201910152180A CN 111626315 A CN111626315 A CN 111626315A
Authority
CN
China
Prior art keywords
model
additional
training
classification
additional sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910152180.8A
Other languages
English (en)
Inventor
刘武
梅涛
刘鑫辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201910152180.8A priority Critical patent/CN111626315A/zh
Publication of CN111626315A publication Critical patent/CN111626315A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本公开涉及计算机技术领域,具体涉及一种模型训练方法、对象识别方法、模型训练装置、对象识别装置、计算机可读存储介质及电子设备。本公开实施例中的模型训练方法用于对包括特征提取层和分类层的预训练模型进行追加训练,该方法包括:基于预训练模型的特征提取层构建追加样本分类模型;利用标注追加类型的追加样本对追加样本分类模型进行训练以确定追加类型的追加分类权重;将追加分类权重添加至预训练模型的分类层。该方法不必对原始样本进行重复训练可以在保证模型整体精度的情况下不断增加新的数据类型,而且可以极大地节约模型训练成本,提高模型训练效率。

Description

模型训练方法、对象识别方法、装置、介质及电子设备
技术领域
本公开涉及计算机技术领域,具体涉及一种模型训练方法、对象识别方法、模型训练装置、对象识别装置、计算机可读存储介质及电子设备。
背景技术
当前,随着人工智能的发展,一些自动化设备已经逐步取代人类,并发挥着重要作用。在日常消费的结算系统中,基于深度学习的商品自动结算台系统已经能够完全通过实时摄像采集系统实现全自动化结算,并能获得较高的精度。在这种全自动化结算系统中,首先通过实时摄像头检测到商品,并提取得到单个商品图像的特征信息,然后在查询数据库中进行查询,得到最终的商品类型。其中查询数据库的建立是其中的重要一环,包含着商品图像的特征信息和商品标签。由于日常商品种类繁多,并且随着时间的推移,一些商品会下架,新的商品会不断增加,随之而来的一个重要问题是建立新的图像数据查询库。因此需要对新商品图像进行数据库入库操作,以满足实际的运维要求。
在相关技术中,可以利用深度学习模型进行商品的自动识别和分类。在深度学习的初始模型训练过程中,往往需要采集大量的图像数据样本,才能训练出较高的精度。由于新商品的种类不断增加,其数据的采集量级需要达到旧数据集的量级,则需要耗费大量的人力物力去进行数据的采集和标注,并且数据的标注也需要专门的技术人员进行标注,其总体成本较高,不利于长期发展。而如果新商品的数据采集量过低则会影响最终的训练精度。另外,每当一批新商品入库时,需要将初始模型进行重新训练,随着种类的增多,训练所耗费的时间和资源也就越多,而且新的商品会不断分散旧商品的识别率,因此随着种类越来越多其整体精度往往会不断下降。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种模型训练方法、对象识别方法、模型训练装置、对象识别装置、计算机可读存储介质及电子设备,进而至少在一定程度上克服由于相关技术的限制而导致的模型追加训练时存在的训练成本高、训练精度差等技术问题。
根据本公开的一个方面,提供一种模型训练方法,用于对包括特征提取层和分类层的预训练模型进行追加训练,其特殊之处在于,所述方法包括:
基于所述预训练模型的特征提取层构建追加样本分类模型;
利用标注追加类型的追加样本对所述追加样本分类模型进行训练以确定所述追加类型的追加分类权重;
将所述追加分类权重添加至所述预训练模型的分类层。
在本公开的一种示例性实施方式中,所述追加样本分类模型包括追加样本特征生成器和追加样本权重生成器;所述基于所述预训练模型的特征提取层构建追加样本分类模型,包括:
将所述预训练模型的特征提取层进行参数固定,以形成所述追加样本特征生成器;
从所述预训练模型的分类层中获取原始分类权重,并基于所述原始分类权重构建所述追加样本权重生成器。
在本公开的一种示例性实施方式中,所述基于所述原始分类权重构建所述追加样本权重生成器,包括:
利用所述追加样本特征生成器对追加样本进行特征提取以得到所述追加样本的特征向量;
根据所述特征向量计算对应于所述追加样本的追加类型的均值向量;
将所述均值向量和所述预训练模型的原始分类权重作为输入参数并将所述追加分类权重作为输出参数,构建所述追加样本权重生成器。
在本公开的一种示例性实施方式中,所述均值向量基于如下公式计算得到:
Figure BDA0001981797880000031
其中,Fj为所述追加类型的均值向量,m为对应于所述追加类型的追加样本的数量,fi为所述追加样本的特征向量。
在本公开的一种示例性实施方式中,所述追加样本权重生成器基于如下公式构建得到:
Figure BDA0001981797880000032
其中,Wn为所述追加类型的追加分类权重,n为所述追加类型的数量,base为所述预训练模型的原始类型数量,attention()为注意力模型函数,Fj为所述追加类型的均值向量,lb为待学习的注意力分配参数,Wb为所述预训练模型的原始分类权重。
根据本公开的一个方面,提供一种对象识别方法,其特殊之处在于,包括:
获取包含待识别对象的图像;
将所述图像输入预先训练的对象识别模型,以得到所述待识别对象的识别结果;
其中,所述对象识别模型是由以上任意一项示例性实施方式中的模型训练方法训练得到的。
根据本公开的一个方面,提供一种模型训练装置,用于对包括特征提取层和分类层的预训练模型进行追加训练,其特殊之处在于,所述装置包括:
模型构建模块,被配置为基于所述预训练模型的特征提取层构建追加样本分类模型;
模型训练模块,被配置为利用标注追加类型的追加样本对所述追加样本分类模型进行训练以确定所述追加类型的追加分类权重;
权重追加模块,被配置为将所述追加分类权重添加至所述预训练模型的分类层。
根据本公开的一个方面,提供一种对象识别装置,其特殊之处在于,包括:
图像获取模块,被配置为获取包含待识别对象的图像;
图像识别模块,被配置为将所述图像输入预先训练的对象识别模型,以得到所述待识别对象的识别结果;
其中,所述对象识别模型是由以上任意一项示例性实施方式中的模型训练方法训练得到的。
根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,其特殊之处在于,所述计算机程序被处理器执行时实现以上任一所述的方法。
根据本公开的一个方面,提供一种电子设备,其特殊之处在于,包括处理器和存储器;其中,存储器用于存储所述处理器的可执行指令,所述处理器被配置为经由执行所述可执行指令来执行以上任一所述的方法。
在本公开示例性实施方式所提供的模型训练方法、对象识别方法、模型训练装置、对象识别装置、计算机可读存储介质及电子设备中,利用数据样本底层基础特征相关的特点,在预训练模型的特征提取层基础上构建新的追加样本分类模型,然后利用追加样本分类模型的训练结果对预训练模型的分类层进行更新,这种追加训练的方法不必对原始样本进行重复训练。另外,追加样本的训练结果主要决定追加类型的识别和分类精度,而不会对原始类型的识别和分类精度产生影响,因此可以在保证模型整体精度的情况下不断增加新的数据类型。除此之外,追加样本的数据量级不必与原始样本保持一致,可以避免大量繁杂的数据采集和标注工作,占用资源较少,可以极大地节约模型训练成本,提高模型训练效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出本公开一种示例性实施方式中模型训练方法的步骤流程图。
图2示意性示出本公开另一示例性实施方式中模型训练方法的部分步骤流程图。
图3示意性示出本公开另一示例性实施方式中模型训练方法的部分步骤流程图。
图4示意性示出本公开一种示例性实施方式中对象识别方法的步骤流程图。
图5示出了本公开模型训练方法在一应用场景下的原理示意图。
图6示意性示出本公开一种示例性实施方式中模型训练装置的组成框图。
图7示意性示出本公开一种示例性实施方式中对象识别装置的组成框图。
图8示意性示出本公开示例性实施方式中一种程序产品的示意图。
图9示意性示出本公开示例性实施方式中一种电子设备的模块示意图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施例使得本公开将更加全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
本公开的示例性实施方式中首先提供一种模型训练方法,用于对包括特征提取层和分类层的预训练模型进行追加训练。其中,预训练模型是利用原始样本训练得到的权重模型,该模型至少可以包括用于对原始样本进行特征提取的特征提取层以及用于根据提取到的特征输出分类结果的分类层。以基于深度学习的商品自动结算台系统为例,本示例性实施方式中的预训练模型可以以分类模型为基准,将商品图像进行分类,模型的输入数据为商品图像,模型输出数据为对应的商品类别。本示例性实施方式中的预训练模型可以是卷积神经网络模型(Convolutional Neural Networks,CNN)或者其他任意形式的机器学习模型。当预训练模型为CNN模型时,特征提取层可以对应于CNN模型中的卷积层和全连接层,而分类层可以使用softmax分类器,相应的损失函数可以为交叉熵损失函数(CrossEntropy Loss),另外,分类层也可以使用SVM分类器或者其他任意的分类函数模型,本示例性实施方式对此不做特殊限定。
如图1所示,本示例性实施方式提供的模型训练方法主要可以包括以下步骤:
步骤S110.基于预训练模型的特征提取层构建追加样本分类模型。
本步骤将预先训练得到的预训练模型进行结构分离,并在其特征提取层的基础上构建追加样本分类模型。追加样本分类模型是区别于预训练模型的新的权重模型,用于以追加样本为输入数据进行追加训练。仍以应用于商品分类的CNN模型为例,CNN模型的卷积层作为基础图像特征提取部分,可以对图像底层特征进行抽取。而不管是用于训练预训练模型的原始样本还是用于训练追加样本分类模型的追加样本,商品图像中大部分商品的形状、颜色、纹理等底层特征信息具有一定的相关性。因此,本步骤可以在CNN模型训练完成后,固定其卷积层,作为追加样本的特征提取算子。
步骤S120.利用标注追加类型的追加样本对追加样本分类模型进行训练以确定追加类型的追加分类权重。
预训练模型是利用原始样本训练得到的,本步骤需要在原始样本的基础上进行追加样本的扩展,追加样本主要可以是与原始样本属于不同样本类型的新的数据样本,从而可以在预训练模型的原始分类结果基础上增加对应于追加样本的新的分类标签和分类权重。本步骤对各个追加样本进行追加类型的标注后作为输入数据对追加样本分类模型进行训练,训练完成后便可以确定追加类型的追加分类权重。由于追加样本分类模型的训练过程独立于原始的预训练模型,因此追加样本的数据量级可以不同于原始样本的数据量级。而且即便当追加样本的数据量很少时,也不会影响整体的识别精度,进而可以在保证原始样本识别精度的情况下增加新的数据类别。
步骤S130.将追加分类权重添加至预训练模型的分类层。
在经过步骤S120的训练过程后,可以由训练完成的追加样本分类模型得到追加类型的追加分类权重,本步骤则可以将这部分追加分类权重添加至预训练模型的分类层中,以完成对预训练模型的追加训练,实现了在预训练模型的原始类型和原始分类权重的基础上增加新的追加类型和追加分类权重。
在本示例性实施方式提供的模型训练方法中,利用数据样本底层基础特征相关的特点,在预训练模型的特征提取层基础上构建新的追加样本分类模型,然后利用追加样本分类模型的训练结果对预训练模型的分类层进行更新,这种追加训练的方法不必对原始样本进行重复训练。另外,追加样本的训练结果主要决定追加类型的识别和分类精度,而不会对原始类型的识别和分类精度产生影响,因此可以在保证模型整体精度的情况下不断增加新的数据类型。除此之外,追加样本的数据量级不必与原始样本保持一致,可以避免大量繁杂的数据采集和标注工作,占用资源较少,可以极大地节约模型训练成本,提高模型训练效率。
在本公开的另一示例性实施方式中,由步骤S110构建的追加样本分类模型可以包括追加样本特征生成器和追加样本权重生成器。其中,追加样本特征生成器用于对追加样本进行特征提取,追加样本权重生成器用于根据追加样本特征生成器的特征提取结果生成追加类型的追加分类权重。
在此基础上,如图2所示,步骤S110.基于预训练模型的特征提取层构建追加样本分类模型,可以进一步包括以下步骤:
步骤S210.将预训练模型的特征提取层进行参数固定,以形成追加样本特征生成器。
以预先训练完成的CNN模型为例,本步骤可以将CNN模型的卷积层进行参数固定,而全连接层则需要接入网络进行训练,以获取适应新的追加类型的特征向量。这里用于对追加样本进行特征提取的部分即构成了追加样本分类模型的追加样本特征生成器。
步骤S220.从预训练模型的分类层中获取原始分类权重,并基于原始分类权重构建追加样本权重生成器。
在本示例性实施方式中,可以从预训练模型的分类层中获取对应于原始类型的原始分类权重,然后将原始分类权重纳入至追加样本权重生成器的构建中。例如可以利用注意力机制生成追加样本权重生成器,从而可以利用原始类型的原始分类权重整合得到追加类型的追加分类权重。
需要说明的是,在本公开的其他示例性实施方式中,也可以构建其他形式的追加样本分类模型,本公开对此不做特殊限定。
在以上示例性实施方式的基础上,步骤S220中的基于原始分类权重构建追加样本权重生成器可以进一步包括如图3所示的以下步骤:
步骤S310.利用追加样本特征生成器对追加样本进行特征提取以得到追加样本的特征向量。
利用步骤S210中形成的追加样本特征生成器可以对追加样本进行特征提取,得到对应于追加样本底层特征的特征向量。
步骤S320.根据特征向量计算对应于追加样本的追加类型的均值向量。
本示例性实施方式中所使用的追加样本可以对应于多种不同追加类型。本步骤可以按照追加类型的不同,对相应的追加样本的特征向量进行处理,以得到各种追加类型的均值向量。举例而言,本步骤中的均值向量可以基于如下公式计算得到:
Figure BDA0001981797880000091
其中,Fj为第j项追加类型的均值向量,m为对应于该追加类型的追加样本的数量,fi为对应于该追加类型中第i个追加样本的特征向量。
步骤S330.将均值向量和预训练模型的原始分类权重作为输入参数并将追加分类权重作为输出参数,构建追加样本权重生成器。
本步骤中构建的追加样本权重生成器以步骤S320计算得到的均值向量以及预训练模型的原始分类权重作为输入参数,并以追加类型的追加分类权重作为输出参数,具体可以是对均值向量和原始分类权重进行注意力模型的分支计算得到每一追加类型的权重分支。举例而言,本步骤中的追加样本权重生成器可以基于如下公式构建得到:
Figure BDA0001981797880000092
其中,Wn为此次训练过程中追加类型的追加分类权重,n为此次训练过程中追加类型的数量,base为预训练模型的原始类型数量,attention()为注意力模型函数,Fj为第j项追加类型的均值向量,lb为待学习的注意力分配参数,Wb为预训练模型的原始分类权重。注意力分配参数lb由后续的训练过程学习得到。
本示例性实施方式中使用的注意力模型函数可以是基于余弦距离、欧式距离或者其他任意的表征向量距离的函数,本示例性实施方式对此不做特殊限定。
本公开还提供一种基于以上示例性实施方式中模型训练方法的对象识别方法,该方法可以应用于基于图像识别的商品分类和产品分拣等任意的人工智能应用场景中。如图4所示,该方法主要可以包括以下步骤:
步骤S410.获取包含待识别对象的图像。
本步骤可以利用摄像机、摄影机等任意的图像采集设备获取包含待识别对象的图像。例如,在商品自动结算台系统中,可以利用摄像头实时采集需要进行费用结算的商品的图像。
步骤S420.将图像输入预先训练的对象识别模型,以得到待识别对象的识别结果。
将步骤S410获取到的图像输入至预先训练的对象识别模型即可以输出得到图像中待识别对象的识别结果,例如可以是具体某一商品的商品标签,随后再从数据库中查询得到到对应该商品标签的费用信息以完成商品的自动结算。本步骤中所使用的对象识别模型是由如以上任意一项示例性实施方式所提供的模型训练方法训练得到的。
下面结合一具体应用场景对本公开示例性实施方式中提供的模型训练方法做出详细说明。
如图5所示,该应用场景涉及一种应用于商品自动结算台中用于对少量商品样本进行入库的模型训练方法,该方法可以基于预训练模型进行追加样本的训练操作。主要在原有的CNN模型基础上添加了追加样本特征生成器与追加样本权重生成器,其中追加样本特征生成器用于对追加样本特征进行分析和提取,追加样本权重生成器用于对分类层中新的追加类型进行权重构建,此时分类层可以获得基于原始标签外的新分类结果。针对新入库商品进行模型训练时,主要对追加样本特征生成器与追加样本权重生成器进行训练,以满足追加样本的特征提取和追加样本、原始样本之间的分类训练工作。该训练方法不必对原始样本重新训练,只需利用原始样本中的全连接层参数与分类层的参数,并结合追加样本数据进行训练,不会对原始样本识别率产生下降的影响,同时也能识别新增加的追加样本。
该应用场景下的模型训练方法原理可以具体体现为如下过程:
步骤1:建立初始深度学习模型,对原始样本数据进行训练并得到训练完成的权重模型,将待提取特征库数据(其中存储原始样本)通过该训练后的模型提取特征建立原始商品特征库和索引。该步骤主要目的是建立预训练模型与原始图像特征库,预训练模型的训练是基于深度学习的结算台系统中的一个必不可少的过程,该模型一般是以分类模型为基准,将商品图像进行分类,输入为样本图像,输出为所对应的类别,损失函数为交叉熵损失函数。利用训练完成的模型,对图像搜索库数据进行特征提取,将全连接层作为图像特征层,用以表征图像信息,建立原始图像特征库。
步骤2:得到预训练模型后,将模型的卷积层、全连接层、分类层分离,并构建新的权重模型。将卷积层进行固定,全连接层需要接入网络进行训练,以获取适应新的追加类型的特征向量,该部分为确定追加样本特征生成器的过程。本步骤对步骤1中训练得到的CNN模型进行分离,将卷积层作为基础图像特征提取,可以认为卷积层是对图像底层特征进行抽取,而商品图像中大部分商品的形状、颜色、纹理等信息具有一定的相关性。当初始模型训练完成后,固定卷积层,作为追加样本的初始特征提取算子。
步骤3:将步骤2中所得到的追加样本的特征向量引入追加样本权重生成器,并对分类层进行相应的调整,结合原始样本中分类层的相关参数,引入注意力模型参数的计算,以生成新增加的追加样本分类权重。
步骤4:将追加样本特征生成器以及追加样本权重生成器进行联合训练,输入为追加样本商品图像,输出为追加样本类别标签。训练完成后,将模型的特征提取层作为追加样本的数据提取层,以此可做为追加样本入库的数据特征。通过步骤2和步骤3分别建立追加样本特征生成器和追加样本权重生成器后,本步骤可以构建输入和输出数据,并采用梯度下降法对追加样本分类模型进行训练。训练中会根据分类损失更新追加样本特征生成器参数和追加样本权重生成器参数。其中分类损失函数为交叉熵损失函数。训练得到模型后将追加样本查询库数据送入初始CNN模型得到初步的特征提取向量,再经过追加样本特征生成器得到最终的样本特征向量,作为入库数据。
由以上应用场景中的模型训练过程可知,本公开示例性实施方式提供的模型训练方法能够解决当自动结算系统建立后,少量新增商品数据样本如何入库并训练的问题。采用该方法进行入库,可以避免大量繁杂的数据采集和标注工作。而且该方法中每种追加类型对应的追加样本数据量级往往可以控制在10张图像以下,无需与原始样本的数据量级保持一致,且不会影响整体的识别精度。另外,采用该方法能保证在原有商品识别率不会下降的前提下,不断增加新的商品数据类别,并且训练所占用的资源较少,能够解决当前基于深度学习的自动结算台系统的长期入库问题。
需要说明的是,虽然以上示例性实施方式以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或者必须执行全部的步骤才能实现期望的结果。附加地或者备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
在本公开的另一示例性实施方式中,还提供一种基于以上实施例中模型训练方法的模型训练装置,该模型训练装置用于对包括特征提取层和分类层的预训练模型进行追加训练。如图6所示,模型训练装置600主要可以包括:模型构建模块610、模型训练模块620和权重追加模块630。
其中,模型构建模块610被配置为基于预训练模型的特征提取层构建追加样本分类模型。模型构建模块610可以将预先训练得到的预训练模型进行结构分离,并在其特征提取层的基础上构建追加样本分类模型。追加样本分类模型是区别于预训练模型的新的权重模型,用于以追加样本为输入数据进行追加训练。
模型训练模块620被配置为利用标注追加类型的追加样本对追加样本分类模型进行训练以确定追加类型的追加分类权重。预训练模型是利用原始样本训练得到的,本步骤需要在原始样本的基础上进行追加样本的扩展,追加样本主要可以是与原始样本属于不同样本类型的新的数据样本,从而可以在预训练模型的原始分类结果基础上增加对应于追加样本的新的分类标签和分类权重。模型训练模块620对各个追加样本进行追加类型的标注后作为输入数据对追加样本分类模型进行训练,训练完成后便可以确定追加类型的追加分类权重。
权重追加模块630被配置为将追加分类权重添加至预训练模型的分类层。在经过模型训练模块620进行训练后,可以由训练完成的追加样本分类模型得到追加类型的追加分类权重,权重追加模块630则可以将这部分追加分类权重添加至预训练模型的分类层中,以完成对预训练模型的追加训练,实现了在预训练模型的原始类型和原始分类权重的基础上增加新的追加类型和追加分类权重。
在本公开的另一示例性实施方式中,模型构建模块610可以进一步包括:特征生成器构建模块和权重生成器构建模块。
其中,特征生成器构建模块被配置为将预训练模型的特征提取层进行参数固定,以形成追加样本特征生成器。以预先训练完成的CNN模型为例,特征生成器构建模块可以将CNN模型的卷积层进行参数固定,而全连接层则需要接入网络进行训练,以获取适应新的追加类型的特征向量。这里用于对追加样本进行特征提取的部分即构成了追加样本分类模型的追加样本特征生成器。
权重生成器构建模块被配置为从预训练模型的分类层中获取原始分类权重,并基于原始分类权重构建追加样本权重生成器。权重生成器构建模块可以从预训练模型的分类层中获取对应于原始类型的原始分类权重,然后将原始分类权重纳入至追加样本权重生成器的构建中。例如可以利用注意力机制生成追加样本权重生成器,从而可以利用原始类型的原始分类权重整合得到追加类型的追加分类权重。
在本公开的另一示例性实施方式中,权重生成器构建模块可以进一步包括:特征向量提取单元、均值向量计算单元和生成器构建单元。
其中,特征向量提取单元被配置为利用追加样本特征生成器对追加样本进行特征提取以得到追加样本的特征向量。利用特征生成器构建模块构建形成的追加样本特征生成器可以对追加样本进行特征提取,得到对应于追加样本底层特征的特征向量。
均值向量计算单元被配置为根据特征向量计算对应于追加样本的追加类型的均值向量。本示例性实施方式中所使用的追加样本可以对应于多种不同追加类型。均值向量计算单元可以按照追加类型的不同,对相应的追加样本的特征向量进行处理,以得到各种追加类型的均值向量。
生成器构建单元被配置为将均值向量和预训练模型的原始分类权重作为输入参数并将追加分类权重作为输出参数,构建追加样本权重生成器。生成器构建单元所构建的追加样本权重生成器以均值向量计算单元计算得到的均值向量以及预训练模型的原始分类权重作为输入参数,并以追加类型的追加分类权重作为输出参数,具体可以是对均值向量和原始分类权重进行注意力模型的分支计算得到每一追加类型的权重分支。
在本公开的另一示例性实施方式中,还提供一种基于以上实施例中对象识别方法的对象识别装置。如图7所示,对象识别装置700主要可以包括:图像获取模块710和图像识别模块720。
其中,图像获取模块710被配置为获取包含待识别对象的图像。图像获取模块710可以利用摄像机、摄影机等任意的图像采集设备获取包含待识别对象的图像。例如,在商品自动结算台系统中,可以利用摄像头实时采集需要进行费用结算的商品的图像。
图像识别模块720被配置为将图像输入预先训练的对象识别模型,以得到待识别对象的识别结果。图像识别模块720将图像获取模块710获取到的图像输入至预先训练的对象识别模型即可以输出得到图像中待识别对象的识别结果,例如可以是具体某一商品的商品标签,随后再从数据库中查询得到到对应该商品标签的费用信息以完成商品的自动结算。图像识别模块720所使用的对象识别模型是由如以上任意一项示例性实施方式所提供的模型训练方法训练得到的。
上述模型训练装置和对象识别装置的其他具体细节已经在对应的模型训练方法和对象识别方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
在本公开的示例性实施方式中,还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时可实现本公开的上述的方法。在一些可能的实施方式中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码;该程序产品可以存储在一个非易失性存储介质(可以是CD-ROM、U盘或者移动硬盘等)中或网络上;当所述程序产品在一台计算设备(可以是个人计算机、服务器、终端装置或者网络设备等)上运行时,所述程序代码用于使所述计算设备执行本公开中上述各示例性实施例中的方法步骤。
参见图8所示,根据本公开的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑磁盘只读存储器(CD-ROM)并包括程序代码,并可以在计算设备(例如个人计算机、服务器、终端装置或者网络设备等)上运行。然而,本公开的程序产品不限于此。在本示例性实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或者多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。
可读存储介质例如可以为但不限于电、磁、光、电磁、红外线或半导体的系统、装置或器件、或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件或者上述的任意合适的组合。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任意可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户计算设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络(包括局域网(LAN)或广域网(WAN)等)连接到用户计算设备;或者,可以连接到外部计算设备,例如利用因特网服务提供商来通过因特网连接。
在本公开的示例性实施方式中,还提供一种电子设备,所述电子设备包括至少一个处理器以及至少一个用于存储所述处理器的可执行指令的存储器;其中,所述处理器被配置为经由执行所述可执行指令来执行本公开中上述各示例性实施例中的方法步骤。
下面结合图9对本示例性实施方式中的电子设备900进行描述。电子设备900仅仅为一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
参见图9所示,电子设备900以通用计算设备的形式表现。电子设备900的组件可以包括但不限于:至少一个处理单元910、至少一个存储单元920、连接不同系统组件(包括处理单元910和存储单元920)的总线930、显示单元940。
其中,存储单元920存储有程序代码,所述程序代码可以被处理单元910执行,使得处理单元910执行本公开中上述各示例性实施例中的方法步骤。
存储单元920可以包括易失性存储单元形式的可读介质,例如随机存取存储单元921(RAM)和/或高速缓存存储单元922,还可以进一步包括只读存储单元923(ROM)。
存储单元920还可以包括具有一组(至少一个)程序模块925的程序/实用工具924,这样的程序模块包括但不限于:操作系统、一个或者多个应用程序、其他程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线930可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用各种总线结构中的任意总线结构的局域总线。
电子设备900也可以与一个或多个外部设备1000(例如键盘、指向设备、蓝牙设备等)通信,还可以与一个或者多个使得用户可以与该电子设备900交互的设备通信,和/或与使得该电子设备900能与一个或多个其他计算设备进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(I/O)接口950进行。并且,电子设备900还可以通过网络适配器960与一个或者多个网络(例如局域网(LAN)、广域网(WAN)和/或公共网络,例如因特网)通信。如图9所示,网络适配器960可以通过总线930与电子设备900的其他模块通信。应当明白,尽管图中未示出,可以结合电子设备900使用其他硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
本领域技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。
上述所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中,如有可能,各实施例中所讨论的特征是可互换的。在上面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组件、材料等。在其它情况下,不详细示出或描述公知结构、材料或者操作以避免模糊本公开的各方面。

Claims (10)

1.一种模型训练方法,用于对包括特征提取层和分类层的预训练模型进行追加训练,其特征在于,所述方法包括:
基于所述预训练模型的特征提取层构建追加样本分类模型;
利用标注追加类型的追加样本对所述追加样本分类模型进行训练以确定所述追加类型的追加分类权重;
将所述追加分类权重添加至所述预训练模型的分类层。
2.根据权利要求1所述的模型训练方法,其特征在于,所述追加样本分类模型包括追加样本特征生成器和追加样本权重生成器;所述基于所述预训练模型的特征提取层构建追加样本分类模型,包括:
将所述预训练模型的特征提取层进行参数固定,以形成所述追加样本特征生成器;
从所述预训练模型的分类层中获取原始分类权重,并基于所述原始分类权重构建所述追加样本权重生成器。
3.根据权利要求2所述的模型训练方法,其特征在于,所述基于所述原始分类权重构建所述追加样本权重生成器,包括:
利用所述追加样本特征生成器对追加样本进行特征提取以得到所述追加样本的特征向量;
根据所述特征向量计算对应于所述追加样本的追加类型的均值向量;
将所述均值向量和所述预训练模型的原始分类权重作为输入参数并将所述追加分类权重作为输出参数,构建所述追加样本权重生成器。
4.根据权利要求3所述的模型训练方法,其特征在于,所述均值向量基于如下公式计算得到:
Figure FDA0001981797870000011
其中,Fj为所述追加类型的均值向量,m为对应于所述追加类型的追加样本的数量,fi为所述追加样本的特征向量。
5.根据权利要求3所述的模型训练方法,其特征在于,所述追加样本权重生成器基于如下公式构建得到:
Figure FDA0001981797870000021
其中,Wn为所述追加类型的追加分类权重,n为所述追加类型的数量,base为所述预训练模型的原始类型数量,attention()为注意力模型函数,Fj为所述追加类型的均值向量,lb为待学习的注意力分配参数,Wb为所述预训练模型的原始分类权重。
6.一种对象识别方法,其特征在于,包括:
获取包含待识别对象的图像;
将所述图像输入预先训练的对象识别模型,以得到所述待识别对象的识别结果;
其中,所述对象识别模型是由如权利要求1-5中任意一项所述的模型训练方法训练得到的。
7.一种模型训练装置,用于对包括特征提取层和分类层的预训练模型进行追加训练,其特征在于,所述装置包括:
模型构建模块,被配置为基于所述预训练模型的特征提取层构建追加样本分类模型;
模型训练模块,被配置为利用标注追加类型的追加样本对所述追加样本分类模型进行训练以确定所述追加类型的追加分类权重;
权重追加模块,被配置为将所述追加分类权重添加至所述预训练模型的分类层。
8.一种对象识别装置,其特征在于,包括:
图像获取模块,被配置为获取包含待识别对象的图像;
图像识别模块,被配置为将所述图像输入预先训练的对象识别模型,以得到所述待识别对象的识别结果;
其中,所述对象识别模型是由如权利要求1-5中任意一项所述的模型训练方法训练得到的。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-6中任意一项所述的方法。
10.一种电子设备,其特征在于,包括:
处理器;
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器被配置为经由执行所述可执行指令来执行权利要求1-6中任意一项所述的方法。
CN201910152180.8A 2019-02-28 2019-02-28 模型训练方法、对象识别方法、装置、介质及电子设备 Pending CN111626315A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910152180.8A CN111626315A (zh) 2019-02-28 2019-02-28 模型训练方法、对象识别方法、装置、介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910152180.8A CN111626315A (zh) 2019-02-28 2019-02-28 模型训练方法、对象识别方法、装置、介质及电子设备

Publications (1)

Publication Number Publication Date
CN111626315A true CN111626315A (zh) 2020-09-04

Family

ID=72271715

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910152180.8A Pending CN111626315A (zh) 2019-02-28 2019-02-28 模型训练方法、对象识别方法、装置、介质及电子设备

Country Status (1)

Country Link
CN (1) CN111626315A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931865A (zh) * 2020-09-17 2020-11-13 平安科技(深圳)有限公司 图像分类模型的训练方法、装置、计算机设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931865A (zh) * 2020-09-17 2020-11-13 平安科技(深圳)有限公司 图像分类模型的训练方法、装置、计算机设备及存储介质
CN111931865B (zh) * 2020-09-17 2021-01-26 平安科技(深圳)有限公司 图像分类模型的训练方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN109003624B (zh) 情绪识别方法、装置、计算机设备及存储介质
CN108959246A (zh) 基于改进的注意力机制的答案选择方法、装置和电子设备
KR102288249B1 (ko) 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체
CN112632385A (zh) 课程推荐方法、装置、计算机设备及介质
CN111460250B (zh) 用于画像的数据的清洗方法、装置、介质及电子设备
CN109598517B (zh) 商品通关处理、对象的处理及其类别预测方法和装置
CN110347908B (zh) 语音购物方法、装置、介质及电子设备
CN110598620A (zh) 模型训练方法和装置、目标检测方法和装置
CN111209478A (zh) 任务推送方法及装置、存储介质及电子设备
CN111199541A (zh) 图像质量评价方法、装置、电子设备及存储介质
CN109582788A (zh) 垃圾评论训练、识别方法、装置、设备及可读存储介质
CN110188210A (zh) 一种基于图正则化与模态独立的跨模态数据检索方法及系统
CN111191445A (zh) 广告文本分类方法及装置
WO2024083121A1 (zh) 一种数据处理方法及其装置
CN110929119A (zh) 数据标注方法、装置、设备及计算机存储介质
CN110443317A (zh) 一种纸档资料电子化的方法、装置和电子设备
CN110704803A (zh) 目标对象的评估值计算方法及装置、存储介质、电子设备
CN110348581B (zh) 用户特征群中用户特征寻优方法、装置、介质及电子设备
CN111626315A (zh) 模型训练方法、对象识别方法、装置、介质及电子设备
CN116958512A (zh) 目标检测方法、装置、计算机可读介质及电子设备
CN117291185A (zh) 任务处理方法、实体识别方法及任务处理的数据处理方法
CN110717577A (zh) 一种注意区域信息相似性的时间序列预测模型构建方法
CN115017385A (zh) 一种物品搜索方法、装置、设备和存储介质
CN114299196A (zh) 海报自动生成方法及系统、存储介质、终端设备
CN114529191A (zh) 用于风险识别的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination