CN109784421A - 一种识别模型的构建方法及装置 - Google Patents
一种识别模型的构建方法及装置 Download PDFInfo
- Publication number
- CN109784421A CN109784421A CN201910091868.XA CN201910091868A CN109784421A CN 109784421 A CN109784421 A CN 109784421A CN 201910091868 A CN201910091868 A CN 201910091868A CN 109784421 A CN109784421 A CN 109784421A
- Authority
- CN
- China
- Prior art keywords
- training sample
- training
- identification model
- sample
- loss function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Image Analysis (AREA)
Abstract
本申请提供了一种识别模型的构建方法及装置,方法包括:获取第一样本集和第二样本集,第一样本集的样本数量小于第一预设值,第二样本集的样本数量大于第二预设值,第一样本集与第二样本集中的训练样本至少具有部分相同的视觉特征;用第一样本集训练初始的第一识别模型,并获取训练得到的第一识别模型的参数作为第一目标参数,第一识别模型的输入为第一样本集中任意两个样本组成的样本对,识别目标为样本对中的两个样本是否属于同一类别;将第一目标参数作为初始的第二识别模型的初始参数,用第一样本集和第二样本集训练初始的第二识别模型,训练得到的第二识别模型作为目标识别模型。本申请使得使用较少的样本也可训练出准确度较高的识别模型。
Description
技术领域
本申请涉及图像识别技术领域,更具体地说,涉及一种识别模型的构建方法及装置。
背景技术
图像识别技术指的是,给定一幅测试图像,利用预先训练好的识别模型判别它所属的类别,识别模型采用带类别标签的训练图像训练得到。
可以理解的是,影响识别模型性能优劣的主要因素之一就是训练样本,通常情况,训练样本越多,通过训练样本训练得到的识别模型的性能越优。
然而,在某些应用场景下,由于某种原因,能够收集到的训练样本较少,收集的训练样本较少势必导致训练得到的识别模型准确度不高,无法满足对应应用场景对识别准确度的要求。
发明内容
有鉴于此,本申请提供了一种识别模型的构建方法及装置,用以解决某应用场景下的训练样本较少导致训练得到的识别模型准确度不高,无法满足该应用场景对识别准确度的要求的问题,其技术方案如下:
一种识别模型的构建方法,包括:
获取第一训练样本集和第二训练样本集,其中,所述第一训练样本集的样本数量小于第一预设值,所述第二训练样本集的样本数量大于第二预设值,所述第一预设值小于所述第二预设值,所述第一训练样本集中的训练样本与所述第二训练样本集中的训练样本至少具有部分相同的视觉特征;
用所述第一训练样本集训练初始的第一识别模型,并获取训练得到的第一识别模型的参数作为第一目标参数,其中,第一识别模型的输入为所述第一训练样本集中的任意两个训练样本组成的训练样本对,所述第一识别模型的识别目标为输入的训练样本对中的两个训练样本是否属于同一类别;
将所述第一目标参数作为初始的第二识别模型的初始参数,用所述第一训练样本集和所述第二训练样本集训练所述初始的第二识别模型,训练得到的第二识别模型作为目标识别模型。
可选的,所述初始的第一识别模型的初始参数为第二目标参数;
获取所述第二目标参数的过程包括:
用所述第二训练样本集训练初始的第三识别模型,获取训练得到的第三识别模型的参数作为所述第二目标参数。
其中,所述用所述第一训练样本集训练初始的第一识别模型,包括:
从所述第一训练样本集中获取具有标注结果的训练样本对,其中,所述标注结果至少包括用于指示所述训练样本对中的两个训练样本是否属于同一类别的第一标注结果;
将所述具有标注结果的训练样本对输入所述初始的第一识别模型,获得输入的训练样本对所对应的识别结果,该识别结果用于指示所述输入的训练样本对中的两个训练样本是否属于同一类别;
基于所述输入的训练样本对所对应的识别结果、所述输入的训练样本对的标注结果以及预设的损失函数,更新所述初始的第一识别模型的参数。
其中,所述预设的损失函数为基于对比的损失函数,或者,为由基于交叉熵的损失函数和所述基于对比的损失函数组成的损失函数,其中,所述基于对比的损失函数用于使第一识别模型能够学习到不同类别样本的差异;
若所述预设的损失函数为所述基于对比的损失函数,则所述训练样本对的标注结果包括用于指示所述训练样本对中的两个训练样本是否属于同一类别的第一标注结果;
若所述预设的损失函数为由所述基于交叉熵的损失函数和所述基于对比的损失函数组成的损失函数,则所述训练样本对的标注结果包括用于指示所述训练样本对中的两个训练样本是否属于同一类别的第一标注结果,以及,用于指示所述训练样本对中两个训练样本分别所属类别的第二标注结果。
其中,所述第一识别模型、所述第二识别模型和所述第三识别模型中的任一识别模型包括:特征提取模块、特征规范化处理模块和分类模块;
所述特征提取模块,用于从输入的训练样本或训练样本对中提取样本特征;
所述特征规范化处理模块,用于对所述特征提取模块提取的样本特征进行规范化处理,以将所述特征提取模块提取的样本特征约束在高维空间的超球面上;
所述分类模块,用于基于所述特征规范化处理模块进行规范化处理后的样本特征确定输入的训练样本或训练样本对所对应的识别结果。
一种识别模型的构建装置,包括:样本集获取模块、第一训练模块、第一参数获取模块和第二训练模块;
所述样本集获取模块,用于获取第一训练样本集和第二训练样本集,其中,所述第一训练样本集的样本数量小于第一预设值,所述第二训练样本集的样本数量大于第二预设值,所述第一预设值小于所述第二预设值,所述第一训练样本集中的训练样本与所述第二训练样本集中的训练样本至少具有部分相同的视觉特征;
所述第一训练模块,用于用所述第一训练样本集训练初始的第一识别模型,其中,第一识别模型的输入为所述第一训练样本集中的任意两个训练样本组成的训练样本对,所述第一识别模型的识别目标为输入的训练样本对中的两个训练样本是否属于同一类别;
所述第一参数获取模块,用于获取所述第一训练模块训练得到的第一识别模型的参数作为第一目标参数;
所述第二训练模块,用于将所述第一目标参数作为初始的第二识别模型的初始参数,用所述第一训练样本集和所述第二训练样本集训练所述初始的第二识别模型,训练得到的第二识别模型作为目标识别模型。
可选的,所述初始的第一识别模型的初始参数为第二目标参数;
所述装置还包括:第三训练模块和第二参数获取模块;
所述第三训练模块,用于用所述第二训练样本集训练初始的第三识别模型;
所述第二参数获取模块,用于获取训练得到的第三识别模型的参数作为所述第二目标参数。
其中,所述第一训练模块,具体用于从所述第一训练样本集中获取具有标注结果的训练样本对,其中,所述标注结果至少包括用于指示所述训练样本对中的两个训练样本是否属于同一类别的第一标注结果;将所述具有标注结果的训练样本对输入所述初始的第一识别模型,获得输入的训练样本对对应的识别结果,该识别结果用于指示所述输入的训练样本对中的两个训练样本是否属于同一类别;基于所述输入的训练样本对所对应的识别结果、所述输入的训练样本对的标注结果以及预设的损失函数,更新所述初始的第一识别模型的参数。
其中,所述预设的损失函数为基于对比的损失函数,或者,为由基于交叉熵的损失函数和所述基于对比的损失函数组成的损失函数,其中,所述基于对比的损失函数用于使第一识别模型能够学习到不同类别样本的差异;
若所述预设的损失函数为所述基于对比的损失函数,则所述训练样本对的标注结果包括用于指示所述训练样本对中的两个训练样本是否属于同一类别的第一标注结果;
若所述预设的损失函数为由所述基于交叉熵的损失函数和所述基于对比的损失函数组成的损失函数,则所述训练样本对的标注结果包括用于指示所述训练样本对中的两个训练样本是否属于同一类别的第一标注结果,以及,用于指示所述训练样本对中两个训练样本分别所属类别的第二标注结果。
其中,所述第一识别模型、所述第二识别模型和所述第三识别模型中的任一识别模型包括:特征提取模块、特征规范化处理模块和分类模块;
所述特征提取模块,用于从输入的训练样本或训练样本对中提取样本特征;
所述特征规范化处理模块,用于对所述特征提取模块提取的样本特征进行规范化处理,以将所述特征提取模块提取的样本特征约束在高维空间的超球面上;
所述分类模块,用于基于所述特征规范化处理模块进行规范化处理后的样本特征确定输入的训练样本或训练样本对所对应的识别结果。
从上述的技术方案可以看出,本申请实施例提供的识别模型的构建方法及装置中,第一识别模型的输入为从第一训练样本集中获取的任意两个训练样本组成的训练样本对,识别任务为输入的训练样本对中的两个训练样本是否属于同一类别,本申请通过将单个训练样本变为两个训练样本组成的训练样本对,极大扩充了样本数量,通过数量较多的训练样本对第一识别模型进行训练,能够获得识别准确度较高的第一识别模型,将训练得到的第一识别模型的参数作为初始的第二识别模型的初始参数,利用第一训练样本集和第二训练样本集进一步对该初始的第二识别模型进行训练,可获得准确度较高的目标识别模型(即最终的识别模型)。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的识别模型的构建方法的一流程图;
图2为本申请实施例提供的识别模型的构建方法的另一流程图;
图3为本申请实施例提供的识别模型的构建方法中,用第一训练样本集训练初始的第一识别模型的流程示意图;
图4为本申请实施例提供的识别模型的构建方法中,第一识别模型、第二识别模型和第三识别模型中任一识别模型的结构示意图;
图5为本申请实施例提供的识别模型的构建装置的一结构示意图;
图6为本申请实施例提供的识别模型的构建装置的另一结构示意图;
图7为本申请实施例提供的识别模型的构建设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了能够在训练样本较少的情况下,获得比较准确的识别模型,本案发明人进行了深入研究,经过深入研究,最终提出了解决方案,该解决方案的基本思想为:将包含少量训练样本的第一训练样本集进行扩充,从而获得较多数量的样本,用扩充后的训练样本进行训练;为了进一步提升识别模型对第一训练样本集中训练样本的学习能力,先用样本数量较多、且与第一训练样本集中的样本具有相似的视觉特征的第二训练样本集进行预训练。接下来通过下述实施例对本申请提供的识别模型的构建方法进行详细介绍。
请参阅图1,示出了本申请实施例提供的识别模型的构建方法的一流程示意图,该方法可以包括:
步骤S101:获取第一训练样本集和第二训练样本集。
其中,第一训练样本集的样本数量小于第一预设值,第二训练样本集的样本数量大于第二预设值,第一预设值小于第二预设值,即第一训练样本集为包含较少数量(比如小于50)的训练样本的样本集,第二训练样本集为包含较多数量的训练样本的样本集。
其中,第一训练样本集中的训练样本与第二训练样本集中的训练样本至少具有部分相同的视觉特征。示例性的,属于同一大类的样本可能又分为多个小类,有的小类的样本数量多(这类样本组成的样本集可为第二训练样本集),而有的小类的样本数量少(这类样本组成的样本集可为第一训练样本集),由于这两个小类均属于同一大类,因此,至少具有部分相同的视觉特征,比如,同一品牌的商品包括多个系列,这些系列会有一些相同的视觉特征,以某品牌的洗发水为例,该品牌的洗发水包括多个系列,这些系列存在共同的视觉特征,比如相同的设计风格,当然,也存在一些显著的差异,比如,不同系列的图案和文字不同。
步骤S102:用第一训练样本集训练初始的第一识别模型,并获取训练得到的第一识别模型的参数作为第一目标参数。
其中,第一识别模型的输入为第一训练样本集中的任意两个训练样本组成的训练样本对,第一识别模型的识别目标为输入的训练样本对中的两个训练样本是否属于同一类别。
需要说明的是,通常的识别模型的输入为一个训练样本,识别任务为识别出输入的训练样本所属的类别,本实施例为了实现样本扩充,将识别模型的识别任务修改为识别训练样本对中的两个训练样本是否属于同一类别,即识别模型的输入不再是单个训练样本,而是一训练样本对。假设第一训练样本集中有50个训练样本,从这50个训练样本中任意获取两个训练样本组成训练样本对,则可获得上千个训练样本对,对于第一识别模型而言,训练样本由几十个扩充成了上千个,训练样本数量极大地增加。
另外,对于初始的第一识别模型的初始参数,在一种可能的实现方式中,可将初始的第一识别模型的初始参数设置为随机参数或者设置为预设参数,在另一种可能的实现方式也是较优选的实现方式中,可用第二训练样本集对初始的第三识别模型进行预训练,训练得到的第三识别模型的参数作为初始的第一识别模型的初始参数,如此可提升第一识别模型对于第一训练样本集中训练样本的学习能力。
步骤S103:将第一目标参数作为初始的第二识别模型的初始参数,用第一训练样本集和第二训练样本集训练初始的第二识别模型,训练得到的第二识别模型作为目标识别模型。
本申请实施例提供的模型构建方法中,第一识别模型的输入为从第一训练样本集中获取的任意两个训练样本组成的训练样本对,识别任务为输入的训练样本对中的两个训练样本是否属于同一类别,本实施例通过将单个训练样本变为两个训练样本组成的训练样本对,极大扩充了样本数量,通过数量较多的训练样本对第一识别模型进行训练,能够获得识别准确度较高的第一识别模型,将训练得到的第一识别模型的参数作为初始的第二识别模型的初始参数,融合第一训练样本集和第二训练样本集进一步对该初始的第二识别模型进行训练,可获得准确度较高的目标识别模型即最终的识别模型。
请参阅图2,示出了本申请实施例提供的识别模型的构建方法的另一流程示意图,该方法可以包括:
步骤S201:获取第一训练样本集和第二训练样本集。
其中,第一训练样本集的样本数量小于第一预设值,第二训练样本集的样本数量大于第二预设值,第一预设值小于第二预设值,第一训练样本集中的训练样本与第二训练样本集中的训练样本至少具有部分相同的视觉特征。
步骤S202:用第二训练样本集训练初始的第三识别模型,获取训练得到的第三识别模型的参数作为第二目标参数。
步骤S203:将第二目标参数作为初始的第一识别模型的初始参数,用第一训练样本集训练初始的第一识别模型,并获取训练得到的第一识别模型的参数作为第一目标参数。
由于第一训练样本集中的训练样本与第二训练样本集中的训练样本具有相似性,因此,可先采用第二训练样本集中的训练样本进行预学习,将基于第二训练样本集训练得到的第三识别模型的参数作为初始的第一识别模型的初始参数,能够提升第一识别模型对于第一训练样本集中样本的学习能力。
其中,第一识别模型的输入为第一训练样本集中的任意两个训练样本组成的训练样本对,第一识别模型的识别目标为输入的训练样本对中的两个训练样本是否属于同一类别。
步骤S204:将第一目标参数作为初始的第二识别模型的初始参数,用第一训练样本集和第二训练样本集训练初始的第二识别模型,训练得到的第二识别模型作为目标识别模型。
本申请实施例提供的识别模型的构建方法,采用由浅入深、层层递进的方式对识别模型进行训练,即首先使用样本数量较多的第二训练样本集进行训练,然后使用样本数量较少的第一训练样本集进行训练,最后融合第一训练样本集和第二训练样本集进行训练,从而得到最终的识别模型。一方面,先采用样本数量较多,且与第一训练样本集中的训练样本相似的第二训练样本集对初始的第三识别模型进行训练,然后将训练得到的第三识别模型的参数作为初始第一识别模型的初始参数,使得第一识别模型对第一训练样本集中训练样本的学习能力得以提升;另一方面,通过将第一训练样本集中单个训练样本变为两个训练样本组成的训练样本对,极大扩充了训练样本的数量,通过数量较多的训练样本对第一识别模型进行训练,能够获得识别准确度较高的第一识别模型,将训练得到的第一识别模型的参数作为初始的第二识别模型的初始参数,融合第一训练样本集和第二训练样本集进一步对该初始的第二识别模型进行训练,可获得准确度较高的目标识别模型。
以下对上述实施例中,用第二训练样本集训练初始的第三识别模型的过程进行介绍。
用第二训练样本集训练初始的第三识别模型的过程可以包括:从第二训练样本集中获取一具有标注结果的训练样本,其中,该训练样本的标注结果用于指示该训练样本所属的类别;将具有标注结果的训练样本输入初始的第一识别模型,获得输入的训练样本对应的识别结果,该识别结果用于指示输入的训练样本所属的类别;基于输入的训练样本对应的识别结果、训练样本的标注结果和预设的损失参数(比如,基于交叉熵的损失函数(softmax cross entropy loss))更新初始的第三识别模型的参数;对第三识别模型进行多次训练迭代,直至第三识别模型收敛。
以下对上述实施例中,用第一训练样本集训练初始的第一识别模型进行介绍。
请参阅图3,示出了用第一训练样本集训练初始的第一识别模型的流程示意图,可以包括:
步骤S301:从第一训练样本集中获取具有标注结果的训练样本对。
在一种可能的实现方式中,训练样本对的标注结果包括用于指示训练样本对中的两个训练样本是否属于同一类别的第一标注结果;在另一种可能的实现方式中,训练样本对的标注结果包括用于指示训练样本对中的两个训练样本是否属于同一类别的第一标注结果,以及,用于指示训练样本对中两个训练样本分别所属类别的第二标注结果。
步骤S302:将具有标注结果的训练样本对输入初始的第一识别模型,获得输入的训练样本对所对应的识别结果。
其中,输入的训练样本对所对应的识别结果用于指示输入的训练样本对中的两个训练样本是否属于同一类别。
步骤S303:基于输入的训练样本对所对应的识别结果、输入的训练样本对的标注结果以及预设的损失函数,更新初始的第一识别模型的参数。
对第一识别模型进行多次训练迭代,直至第一识别模型收敛。
在一种可能的实现方式中,预设的损失函数可以为基于对比的损失函数,在另一种可能的实现方式也是较优选的实现方式中,预设的损失函数可以为由基于交叉熵的损失函数和基于对比的损失函数组成的损失函数,具体的,预设的损失函数LOSS可通过下式确定:
LOSS=Ls+λLc (1)
其中,Ls为基于交叉熵的损失函数,Lc为基于对比的损失函数,λ为一设定常数,比如,可以为0.1。
本实施例之所以采用基于对比的损失函数是为了使识别模型能够学习到不同类别的样本的差异性,并拉大不同类别在特征空间的距离。需要说明的是,识别模型通常使用的损失函数为基于交叉熵的损失函数,基于交叉熵的损失函数本质上是将训练样本的标注结果的one-hot向量当做一个概率分布,希望模型输出能够拟合这个分布,也就是说本质上这种损失函数是KL散度的一种特殊形式,若训练样本过少,不利于分布的学习,本实施例引入基于对比的损失函数可以从特征空间的角度规范特征的提取方式,使得学习到的特征具有更强的可分性,从另一个角度提高了模型学习的能力,降低了对数据量的需求。
另外,需要说明的是,若预设的损失函数为基于对比的损失函数,则上述训练样本对的标注结果需包括用于指示训练样本对中的两个训练样本是否属于同一类别的第一标注结果,若预设的损失函数为由基于交叉熵的损失函数和基于对比的损失函数组成的损失函数,则上述训练样本对的标注结果需包括用于指示训练样本对中的两个训练样本是否属于同一类别的第一标注结果,以及,用于指示训练样本对中两个训练样本分别所属类别的第二标注结果。
可选的,对于通过上述过程训练得到的第一识别模型,可采用测试集对其进行测试,若经测试,第一识别模型的性能满足要求,则结束对第一识别模型的训练,若经测试,第一识别模型的性能不满足要求,可进一步对第一识别模型进行训练,直至训练得到的第一识别模型的性能满足要求。
由于第一识别模型的输入为样本对,因此,在对第一识别模型进行测试时,同样需要输入样本对,基于此,可将测试样本与一已知类别的样本组成样本对输入第一识别模型,若经识别,测试样本与已知类别的样本属于同一类别,则可知测试样本的类别即为已知样本的类别。
最后对上述实施例中第一识别模型、第二识别模型和第三识别模型的结构进行介绍。
请参阅图4,示出了上述的第一识别模型、第二识别模型和第三识别模型中的任一识别模型的结构示意图,可以包括:特征提取模块401、特征规范化处理模块402和分类模块403。
特征提取模块401,用于从输入的训练样本或训练样本对中提取样本特征。
特征规范化处理模块402,用于对特征提取模块提取的样本特征进行规范化处理,以将特征提取模块提取的样本特征约束在高维空间的超球面上。
考虑到引入的基于对比的损失函数基于欧氏距离,因此,各类别样本可能距离极大,与之对应的各参数梯度也将不够稳定,不利于网络的迭代更新,有鉴于此,本实施例在特征空间利用规范化算法对样本特征进行规范化(比如,可使用L2范数),将样本特征约束在高维空间的超球面上,使得反传梯度足够稳定,进而提升识别精度。
分类模块403,用于基于规范化处理后的样本特征确定输入的训练样本或训练样本对对应的识别结果。
与上述方法相对应,本申请实施例还提供了一种识别模型的构建装置,下面对本申请实施例提供的识别模型的构建装置进行描述,下文描述的识别模型的构建装置与上文描述的识别模型的构建方法可相互对应参照。
请参阅图5,图5为本申请实施例提供的一种识别模型的构建装置的结构示意图,该装置可以包括:样本集获取模块501、第一训练模块502和第一参数获取模块503和第二训练模块504。
样本集获取模块501,用于获取第一训练样本集和第二训练样本集。
其中,所述第一训练样本集的样本数量小于第一预设值,所述第二训练样本集的样本数量大于第二预设值,所述第一预设值小于所述第二预设值,所述第一训练样本集中的训练样本与所述第二训练样本集中的训练样本至少具有部分相同的视觉特征;
第一训练模块502,用于用所述第一训练样本集训练初始的第一识别模型。
其中,第一识别模型的输入为所述第一训练样本集中的任意两个训练样本组成的训练样本对,所述第一识别模型的识别目标为输入的训练样本对中的两个训练样本是否属于同一类别。
第一参数获取模块503,用于获取所述第一训练模块训练得到的第一识别模型的参数作为第一目标参数。
第二训练模块504,用于将所述第一目标参数作为初始的第二识别模型的初始参数,用所述第一训练样本集和所述第二训练样本集训练所述初始的第二识别模型,训练得到的第二识别模型作为目标识别模型。
本申请实施例提供的模型构建装置在构建识别模型时,第一识别模型的输入为从第一训练样本集中获取的任意两个训练样本组成的训练样本对,识别任务为输入的训练样本对中的两个训练样本是否属于同一类别,本实施例通过将单个训练样本变为两个训练样本组成的训练样本对,极大扩充了样本数量,通过数量较多的训练样本对第一识别模型进行训练,能够获得识别准确度较高的第一识别模型,将训练得到的第一识别模型的参数作为初始的第二识别模型的初始参数,融合第一训练样本集和第二训练样本集进一步对该初始的第二识别模型进行训练,可获得准确度较高的目标识别模型即最终的识别模型。
优选的,上述实施例中所述初始的第一识别模型的初始参数可以为第二目标参数。如图6所示,上述实施例提供的识别模型的构建装置还可以包括第三训练模块601和第二参数获取模块602。
第三训练模块601,用于用所述第二训练样本集训练初始的第三识别模型。第二参数获取模块602,用于获取训练得到的第三识别模型的参数作为所述第二目标参数。
上述实施例中的第一训练模块502,具体用于从所述第一训练样本集中获取具有标注结果的训练样本对,其中,所述标注结果至少包括用于指示所述训练样本对中的两个训练样本是否属于同一类别的第一标注结果;将所述具有标注结果的训练样本对输入所述初始的第一识别模型,获得输入的训练样本对对应的识别结果,该识别结果用于指示所述输入的训练样本对中的两个训练样本是否属于同一类别;基于所述输入的训练样本对所对应的识别结果、所述输入的训练样本对的标注结果以及预设的损失函数,更新所述初始的第一识别模型的参数。
在一种可能的实现方式中,上述实施例中的所述预设的损失函数为基于对比的损失函数,或者,为由基于交叉熵的损失函数和所述基于对比的损失函数组成的损失函数,其中,所述基于对比的损失函数用于使第一识别模型能够学习到不同类别样本的差异。
若所述预设的损失函数为所述基于对比的损失函数,则所述训练样本对的标注结果包括用于指示所述训练样本对中的两个训练样本是否属于同一类别的第一标注结果;若所述预设的损失函数为由所述基于交叉熵的损失函数和所述基于对比的损失函数组成的损失函数,则所述训练样本对的标注结果包括用于指示所述训练样本对中的两个训练样本是否属于同一类别的第一标注结果,以及,用于指示所述训练样本对中两个训练样本分别所属类别的第二标注结果。
在一种可能的实现方式中,上述实施例中的所述第一识别模型、所述第二识别模型和所述第三识别模型中的任一识别模型包括:特征提取模块、特征规范化处理模块和分类模块。
所述特征提取模块,用于从输入的训练样本或训练样本对中提取样本特征;所述特征规范化处理模块,用于对所述特征提取模块提取的样本特征进行规范化处理,以将所述特征提取模块提取的样本特征约束在高维空间的超球面上;所述分类模块,用于基于所述特征规范化处理模块进行规范化处理后的样本特征确定输入的训练样本或训练样本对所对应的识别结果。
本申请实施例还提供了一种识别模型的构建设备,请参阅图7,示出了该识别模型的构建设备的结构示意图,该设备可以包括:至少一个处理器701,至少一个通信接口702,至少一个存储器703和至少一个通信总线704;
在本申请实施例中,处理器701、通信接口702、存储器703、通信总线704的数量为至少一个,且处理器701、通信接口702、存储器703通过通信总线704完成相互间的通信;
处理器701可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器703可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取第一训练样本集和第二训练样本集,其中,所述第一训练样本集的样本数量小于第一预设值,所述第二训练样本集的样本数量大于第二预设值,所述第一预设值小于所述第二预设值,所述第一训练样本集中的训练样本与所述第二训练样本集中的训练样本至少具有部分相同的视觉特征;
用所述第一训练样本集训练初始的第一识别模型,并获取训练得到的第一识别模型的参数作为第一目标参数,其中,第一识别模型的输入为所述第一训练样本集中的任意两个训练样本组成的训练样本对,所述第一识别模型的识别目标为输入的训练样本对中的两个训练样本是否属于同一类别;
将所述第一目标参数作为初始的第二识别模型的初始参数,用所述第一训练样本集和所述第二训练样本集训练所述初始的第二识别模型,训练得到的第二识别模型作为目标识别模型。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
获取第一训练样本集和第二训练样本集,其中,所述第一训练样本集的样本数量小于第一预设值,所述第二训练样本集的样本数量大于第二预设值,所述第一预设值小于所述第二预设值,所述第一训练样本集中的训练样本与所述第二训练样本集中的训练样本至少具有部分相同的视觉特征;
用所述第一训练样本集训练初始的第一识别模型,并获取训练得到的第一识别模型的参数作为第一目标参数,其中,第一识别模型的输入为所述第一训练样本集中的任意两个训练样本组成的训练样本对,所述第一识别模型的识别目标为输入的训练样本对中的两个训练样本是否属于同一类别;
将所述第一目标参数作为初始的第二识别模型的初始参数,用所述第一训练样本集和所述第二训练样本集训练所述初始的第二识别模型,训练得到的第二识别模型作为目标识别模型。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种识别模型的构建方法,其特征在于,包括:
获取第一训练样本集和第二训练样本集,其中,所述第一训练样本集的样本数量小于第一预设值,所述第二训练样本集的样本数量大于第二预设值,所述第一预设值小于所述第二预设值,所述第一训练样本集中的训练样本与所述第二训练样本集中的训练样本至少具有部分相同的视觉特征;
用所述第一训练样本集训练初始的第一识别模型,并获取训练得到的第一识别模型的参数作为第一目标参数,其中,第一识别模型的输入为所述第一训练样本集中的任意两个训练样本组成的训练样本对,所述第一识别模型的识别目标为输入的训练样本对中的两个训练样本是否属于同一类别;
将所述第一目标参数作为初始的第二识别模型的初始参数,用所述第一训练样本集和所述第二训练样本集训练所述初始的第二识别模型,训练得到的第二识别模型作为目标识别模型。
2.根据权利要求1所述的识别模型的构建方法,其特征在于,所述初始的第一识别模型的初始参数为第二目标参数;
获取所述第二目标参数的过程包括:
用所述第二训练样本集训练初始的第三识别模型,获取训练得到的第三识别模型的参数作为所述第二目标参数。
3.根据权利要求1或2所述的识别模型的构建方法,其特征在于,所述用所述第一训练样本集训练初始的第一识别模型,包括:
从所述第一训练样本集中获取具有标注结果的训练样本对,其中,所述标注结果至少包括用于指示所述训练样本对中的两个训练样本是否属于同一类别的第一标注结果;
将所述具有标注结果的训练样本对输入所述初始的第一识别模型,获得输入的训练样本对所对应的识别结果,该识别结果用于指示所述输入的训练样本对中的两个训练样本是否属于同一类别;
基于所述输入的训练样本对所对应的识别结果、所述输入的训练样本对的标注结果以及预设的损失函数,更新所述初始的第一识别模型的参数。
4.根据权利要求3所述的识别模型的构建方法,其特征在于,所述预设的损失函数为基于对比的损失函数,或者,为由基于交叉熵的损失函数和所述基于对比的损失函数组成的损失函数,其中,所述基于对比的损失函数用于使第一识别模型能够学习到不同类别样本的差异;
若所述预设的损失函数为所述基于对比的损失函数,则所述训练样本对的标注结果包括用于指示所述训练样本对中的两个训练样本是否属于同一类别的第一标注结果;
若所述预设的损失函数为由所述基于交叉熵的损失函数和所述基于对比的损失函数组成的损失函数,则所述训练样本对的标注结果包括用于指示所述训练样本对中的两个训练样本是否属于同一类别的第一标注结果,以及,用于指示所述训练样本对中两个训练样本分别所属类别的第二标注结果。
5.根据权利要求2所述的识别模型的构建方法,其特征在于,所述第一识别模型、所述第二识别模型和所述第三识别模型中的任一识别模型包括:特征提取模块、特征规范化处理模块和分类模块;
所述特征提取模块,用于从输入的训练样本或训练样本对中提取样本特征;
所述特征规范化处理模块,用于对所述特征提取模块提取的样本特征进行规范化处理,以将所述特征提取模块提取的样本特征约束在高维空间的超球面上;
所述分类模块,用于基于所述特征规范化处理模块进行规范化处理后的样本特征确定输入的训练样本或训练样本对所对应的识别结果。
6.一种识别模型的构建装置,其特征在于,包括:样本集获取模块、第一训练模块、第一参数获取模块和第二训练模块;
所述样本集获取模块,用于获取第一训练样本集和第二训练样本集,其中,所述第一训练样本集的样本数量小于第一预设值,所述第二训练样本集的样本数量大于第二预设值,所述第一预设值小于所述第二预设值,所述第一训练样本集中的训练样本与所述第二训练样本集中的训练样本至少具有部分相同的视觉特征;
所述第一训练模块,用于用所述第一训练样本集训练初始的第一识别模型,其中,第一识别模型的输入为所述第一训练样本集中的任意两个训练样本组成的训练样本对,所述第一识别模型的识别目标为输入的训练样本对中的两个训练样本是否属于同一类别;
所述第一参数获取模块,用于获取所述第一训练模块训练得到的第一识别模型的参数作为第一目标参数;
所述第二训练模块,用于将所述第一目标参数作为初始的第二识别模型的初始参数,用所述第一训练样本集和所述第二训练样本集训练所述初始的第二识别模型,训练得到的第二识别模型作为目标识别模型。
7.根据权利要求6所述的识别模型的构建装置,其特征在于,其特征在于,所述初始的第一识别模型的初始参数为第二目标参数;
所述装置还包括:第三训练模块和第二参数获取模块;
所述第三训练模块,用于用所述第二训练样本集训练初始的第三识别模型;
所述第二参数获取模块,用于获取训练得到的第三识别模型的参数作为所述第二目标参数。
8.根据权利要求6或7所述的识别模型的构建装置,其特征在于,所述第一训练模块,具体用于从所述第一训练样本集中获取具有标注结果的训练样本对,其中,所述标注结果至少包括用于指示所述训练样本对中的两个训练样本是否属于同一类别的第一标注结果;将所述具有标注结果的训练样本对输入所述初始的第一识别模型,获得输入的训练样本对对应的识别结果,该识别结果用于指示所述输入的训练样本对中的两个训练样本是否属于同一类别;基于所述输入的训练样本对所对应的识别结果、所述输入的训练样本对的标注结果以及预设的损失函数,更新所述初始的第一识别模型的参数。
9.根据权利要求8所述的识别模型的构建装置,其特征在于,所述预设的损失函数为基于对比的损失函数,或者,为由基于交叉熵的损失函数和所述基于对比的损失函数组成的损失函数,其中,所述基于对比的损失函数用于使第一识别模型能够学习到不同类别样本的差异;
若所述预设的损失函数为所述基于对比的损失函数,则所述训练样本对的标注结果包括用于指示所述训练样本对中的两个训练样本是否属于同一类别的第一标注结果;
若所述预设的损失函数为由所述基于交叉熵的损失函数和所述基于对比的损失函数组成的损失函数,则所述训练样本对的标注结果包括用于指示所述训练样本对中的两个训练样本是否属于同一类别的第一标注结果,以及,用于指示所述训练样本对中两个训练样本分别所属类别的第二标注结果。
10.根据权利要求7所述的识别模型的构建装置,其特征在于,所述第一识别模型、所述第二识别模型和所述第三识别模型中的任一识别模型包括:特征提取模块、特征规范化处理模块和分类模块;
所述特征提取模块,用于从输入的训练样本或训练样本对中提取样本特征;
所述特征规范化处理模块,用于对所述特征提取模块提取的样本特征进行规范化处理,以将所述特征提取模块提取的样本特征约束在高维空间的超球面上;
所述分类模块,用于基于所述特征规范化处理模块进行规范化处理后的样本特征确定输入的训练样本或训练样本对所对应的识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910091868.XA CN109784421A (zh) | 2019-01-30 | 2019-01-30 | 一种识别模型的构建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910091868.XA CN109784421A (zh) | 2019-01-30 | 2019-01-30 | 一种识别模型的构建方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109784421A true CN109784421A (zh) | 2019-05-21 |
Family
ID=66502947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910091868.XA Pending CN109784421A (zh) | 2019-01-30 | 2019-01-30 | 一种识别模型的构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109784421A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110457481A (zh) * | 2019-08-20 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 一种分类模型训练的方法、装置、设备以及存储介质 |
CN110796594A (zh) * | 2019-10-28 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 一种图像生成方法、装置及设备 |
CN111191723A (zh) * | 2019-12-30 | 2020-05-22 | 创新奇智(北京)科技有限公司 | 基于级联分类器的少样本商品分类系统及分类方法 |
CN111291841A (zh) * | 2020-05-13 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 图像识别模型训练方法、装置、计算机设备和存储介质 |
CN112115791A (zh) * | 2020-08-18 | 2020-12-22 | 北京嘀嘀无限科技发展有限公司 | 图像识别方法、装置、电子设备和计算机可读存储介质 |
CN112732913A (zh) * | 2020-12-30 | 2021-04-30 | 平安科技(深圳)有限公司 | 一种非均衡样本的分类方法、装置、设备及存储介质 |
CN113449750A (zh) * | 2020-03-26 | 2021-09-28 | 顺丰科技有限公司 | 模型训练方法、使用方法、相关装置及存储介质 |
-
2019
- 2019-01-30 CN CN201910091868.XA patent/CN109784421A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110457481A (zh) * | 2019-08-20 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 一种分类模型训练的方法、装置、设备以及存储介质 |
CN110796594A (zh) * | 2019-10-28 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 一种图像生成方法、装置及设备 |
CN111191723A (zh) * | 2019-12-30 | 2020-05-22 | 创新奇智(北京)科技有限公司 | 基于级联分类器的少样本商品分类系统及分类方法 |
CN113449750A (zh) * | 2020-03-26 | 2021-09-28 | 顺丰科技有限公司 | 模型训练方法、使用方法、相关装置及存储介质 |
CN111291841A (zh) * | 2020-05-13 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 图像识别模型训练方法、装置、计算机设备和存储介质 |
CN111291841B (zh) * | 2020-05-13 | 2020-08-21 | 腾讯科技(深圳)有限公司 | 图像识别模型训练方法、装置、计算机设备和存储介质 |
CN112115791A (zh) * | 2020-08-18 | 2020-12-22 | 北京嘀嘀无限科技发展有限公司 | 图像识别方法、装置、电子设备和计算机可读存储介质 |
CN112732913A (zh) * | 2020-12-30 | 2021-04-30 | 平安科技(深圳)有限公司 | 一种非均衡样本的分类方法、装置、设备及存储介质 |
CN112732913B (zh) * | 2020-12-30 | 2023-08-22 | 平安科技(深圳)有限公司 | 一种非均衡样本的分类方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109784421A (zh) | 一种识别模型的构建方法及装置 | |
CN109961008B (zh) | 基于文字定位识别的表格解析方法、介质及计算机设备 | |
US10096121B2 (en) | Human-shape image segmentation method | |
CN107343223B (zh) | 视频片段的识别方法和装置 | |
CN112926405A (zh) | 一种安全帽佩戴检测方法、系统、设备及存储介质 | |
CN109509222B (zh) | 直线类物体的检测方法及装置 | |
CN107563445A (zh) | 一种基于半监督学习的提取图像特征的方法与装置 | |
CN104778238B (zh) | 一种视频显著性的分析方法及装置 | |
CN111723856B (zh) | 一种图像数据处理方法、装置、设备及可读存储介质 | |
CN104978569B (zh) | 一种基于稀疏表示的增量人脸识别方法 | |
CN109284700B (zh) | 图像中多个人脸检测的方法、存储介质、设备及系统 | |
Alzahrani et al. | Community detection in bipartite networks using random walks | |
CN105225236B (zh) | 一种二值图像连通区域并行化检测方法及系统 | |
CN111125408A (zh) | 基于特征提取的搜索方法、装置、计算机设备和存储介质 | |
CN111160225A (zh) | 基于深度学习的人体解析方法和装置 | |
CN113869098A (zh) | 植物病害识别方法、装置、电子设备及存储介质 | |
CN115546586A (zh) | 红外弱小目标的检测方法、装置、计算设备及存储介质 | |
CN105740903B (zh) | 多属性识别方法及装置 | |
CN112733724B (zh) | 基于判别样本元挖掘器的亲属关系验证方法和装置 | |
CN104318224A (zh) | 一种人脸识别方法及监控设备 | |
US20150309982A1 (en) | Grammatical error correcting system and grammatical error correcting method using the same | |
CN107944340B (zh) | 一种结合直接度量和间接度量的行人再识别方法 | |
CN109492098A (zh) | 基于主动学习和语义密度的目标语料库构建方法 | |
CN106055636A (zh) | 一种岩石便携智能识别方法 | |
CN109784207A (zh) | 一种人脸识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190521 |
|
RJ01 | Rejection of invention patent application after publication |