CN112132199A - 图片识别模型的训练方法及设备 - Google Patents

图片识别模型的训练方法及设备 Download PDF

Info

Publication number
CN112132199A
CN112132199A CN202010977452.0A CN202010977452A CN112132199A CN 112132199 A CN112132199 A CN 112132199A CN 202010977452 A CN202010977452 A CN 202010977452A CN 112132199 A CN112132199 A CN 112132199A
Authority
CN
China
Prior art keywords
cluster
picture
dimensional features
dimensional
clusters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010977452.0A
Other languages
English (en)
Inventor
陈志远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Eye Control Technology Co Ltd
Original Assignee
Shanghai Eye Control Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Eye Control Technology Co Ltd filed Critical Shanghai Eye Control Technology Co Ltd
Priority to CN202010977452.0A priority Critical patent/CN112132199A/zh
Publication of CN112132199A publication Critical patent/CN112132199A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明的目的是提供一种图片识别模型的训练方法及设备,本发明提出了一种量化某子空间对图片数据的合适程度的方法,从而量化了高维特征各个通道对于数据的拟合能力,增加了对高维多通道的可操作性,并成为数据选择子空间的理论依据。本发明充分挖掘了高维空间的利用率,让高维空间的特征都各自专注于某些数据,促进了多个子空间的互补能力,一定程度上成功实现了子空间的互相解耦,从而降低训练难度,提高收敛速度,并提高最终性能。

Description

图片识别模型的训练方法及设备
技术领域
本发明涉及计算机领域,尤其涉及一种图片识别模型的训练方法及设备。
背景技术
深度度量学习(deep metric learning)的目的是学习出一个度量空间,让语义上相似的物体在嵌入空间中的距离(度量)足够近,让语义上不相似的物体在特征空间中距离(度量)足够远。这也是大多数计算机视觉任务的共同目的,从语义上理解物体。目前的方法大都是对所有数据,学出一个统一的度量空间。利用三元组或二元组损失函数约束,让语义相同的物体的高维特征的欧式距离(L2 distance)尽可能近,不同物体的L2距离尽可能远。
大多数因为数据的方差比较大,类别巨大,所以统一的度量空间会加大训练难度,比如说动物的类别和家具的类别语义上是不一样的,所以强行用同一种度量空间来度量他们会加大训练难度。且不能充分利用巨大的高维空间。
发明内容
本发明的一个目的是提供一种图片识别模型的训练方法及设备。
根据本发明的一个方面,提供了一种图片识别模型的训练方法,该方法包括:
一种图片识别模型的训练方法,其中,该方法包括:
步骤S1,对整体数据集中的图片进行d维的特征提取,对提取出的特征进行聚类,以得到K个簇,其中,d、K为正整数;
步骤S2,计算K个簇中的每个簇分别与d维特征中的每一维特征的适合程度;
步骤S3,基于K个簇中的每个簇分别与d维特征中的每一维特征的适合程度,为每个簇匹配一个包含d维特征中的多维特征的子空间,以使每个簇各自匹配后的子空间的适合程度之和最大,其中,各个子空间所包含的各维特征互不相同;
步骤S4,遍历对整体数据集中的每张图片,对每张图片确定所属的簇,获取每张图片所属的簇对应的子空间,基于损失函数对所述每张图片进行对应子空间的图片识别模型的一轮训练,重新执行步骤S1~S4,直到各子空间的图片识别模型收敛为止。
进一步的,上述方法中,计算K个簇中的每个簇分别与d维特征中的每一维特征的适合程度,包括:
对于K个簇中的某一个簇Ck对d维的特征中的其中一维特征fi的适合程度用如下公式进行计算:
Figure BDA0002686248420000021
其中,三元组(xa,xp,xn)~Ck是在簇Ck中采样出的,
Figure BDA0002686248420000022
表示在d维的特征中的第i维特征中定义的余弦距离,xa、xp、xn分别表示的是整体数据集中的一张图片,整体数据集训练记为
Figure BDA0002686248420000023
为各张图片,xp表示的是和xa同一类别的图片,xn表示的是和xa不同类别的图片。
进一步的,上述方法中,为每个簇匹配一个包含d维特征中的多维特征的子空间,包括:
基于K个簇中的每个簇分别与d维特征中的每一维特征的适合程度,将d维特征均分到每个簇。
进一步的,上述方法中,基于K个簇中的每个簇分别与d维特征中的每一维特征的适合程度,将d维特征均分到每个簇,包括:
基于K个簇中的每个簇分别与d维特征中的每一维特征的适合程度,用线性规划的方法将d维特征均分到每个簇。
根据本发明的另一方面,还提供一种图片识别模型的训练设备,其中,该设备包括:
第一装置,用于对整体数据集中的图片进行d维的特征提取,对提取出的特征进行聚类,以得到K个簇,其中,d、K为正整数;
第二装置,用于计算K个簇中的每个簇分别与d维特征中的每一维特征的适合程度;
第三装置,用于基于K个簇中的每个簇分别与d维特征中的每一维特征的适合程度,为每个簇匹配一个包含d维特征中的多维特征的子空间,以使每个簇各自匹配后的子空间的适合程度之和最大,其中,各个子空间所包含的各维特征互不相同;
第四装置,用于遍历对整体数据集中的每张图片,对每张图片确定所属的簇,获取每张图片所属的簇对应的子空间,基于损失函数对所述每张图片进行对应子空间的图片识别模型的一轮训练,重新执行步骤第一至第四装置,直到各子空间的图片识别模型收敛为止。
进一步的,上述设备中,所述第二装置,用于对于K个簇中的某一个簇Ck对d维的特征中的其中一维特征fi的适合程度用如下公式进行计算:
Figure BDA0002686248420000031
其中,三元组(xa,xp,xn)~Ck是在簇Ck中采样出的,
Figure BDA0002686248420000032
表示在d维的特征中的第i维特征中定义的余弦距离,xa、xp、xn分别表示的是整体数据集中的一张图片,整体数据集训练记为
Figure BDA0002686248420000033
为各张图片,xp表示的是和xa同一类别的图片,xn表示的是和xa不同类别的图片。
进一步的,上述设备中,所述第三装置,用于基于K个簇中的每个簇分别与d维特征中的每一维特征的适合程度,将d维特征均分到每个簇。
进一步的,上述设备中,所述第三装置,用于基于K个簇中的每个簇分别与d维特征中的每一维特征的适合程度,用线性规划的方法将d维特征均分到每个簇。
根据本发明的另一方面,还提供一种基于计算的设备,其中,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
步骤S1,对整体数据集中的图片进行d维的特征提取,对提取出的特征进行聚类,以得到K个簇,其中,d、K为正整数;
步骤S2,计算K个簇中的每个簇分别与d维特征中的每一维特征的适合程度;
步骤S3,基于K个簇中的每个簇分别与d维特征中的每一维特征的适合程度,为每个簇匹配一个包含d维特征中的多维特征的子空间,以使每个簇各自匹配后的子空间的适合程度之和最大,其中,各个子空间所包含的各维特征互不相同;
步骤S4,遍历对整体数据集中的每张图片,对每张图片确定所属的簇,获取每张图片所属的簇对应的子空间,基于损失函数对所述每张图片进行对应子空间的图片识别模型的一轮训练,重新执行步骤S1~S4,直到各子空间的图片识别模型收敛为止。
根据本发明的另一方面,还提供一种计算机可读存储介质,其上存储有计算机可执行指令,其中,该计算机可执行指令被处理器执行时使得该处理器:
步骤S1,对整体数据集中的图片进行d维的特征提取,对提取出的特征进行聚类,以得到K个簇,其中,d、K为正整数;
步骤S2,计算K个簇中的每个簇分别与d维特征中的每一维特征的适合程度;
步骤S3,基于K个簇中的每个簇分别与d维特征中的每一维特征的适合程度,为每个簇匹配一个包含d维特征中的多维特征的子空间,以使每个簇各自匹配后的子空间的适合程度之和最大,其中,各个子空间所包含的各维特征互不相同;
步骤S4,遍历对整体数据集中的每张图片,对每张图片确定所属的簇,获取每张图片所属的簇对应的子空间,基于损失函数对所述每张图片进行对应子空间的图片识别模型的一轮训练,重新执行步骤S1~S4,直到各子空间的图片识别模型收敛为止。
与现有技术相比,本发明提出了一种量化某子空间对图片数据的合适程度的方法,从而量化了高维特征各个通道对于数据的拟合能力,增加了对高维多通道的可操作性,并成为数据选择子空间的理论依据。
本发明充分挖掘了高维空间的利用率,让高维空间的特征都各自专注于某些数据,促进了多个子空间的互补能力,一定程度上成功实现了子空间的互相解耦,从而降低训练难度,提高收敛速度,并提高最终性能。
本发明可以让数据自适应地学习各自的度量空间,充分利用好高维空间,最终让高维空间分成很多互相协助(互补、互相补充)的子空间,降低训练难度,提高最终效果,是一种可插拔式训练方式,端到端训练过程,训练完成后,并不改变模型的使用方式。所以是一种可插拔式的高效训练方法。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一实施例的一种图片识别模型的训练方法的流程图;
图2示出本发明的一实施例的K个簇集与d个子空间最优匹配示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
如图1和2所示,本发明提供一种图片识别模型的训练方法,所述方法包括:
步骤S1,聚类:
对整体数据集中的图片进行d维的特征提取,对提取出的特征进行聚类,以得到K个簇,其中,d、K为正整数,K小于等于d;
可选的,本步骤中可以对整体数据集中的图片用卷积神经网络进行特征提取之后(如经过Conv+Embedding layer),再对提取出的特征进行K-means聚类,如图1中clustering算法,产生多个簇;
可以先把所有的图片提取出的特征按余弦距离进行K-means聚类,一共聚成K个簇:{Ck|1≤k≤K}。K是参数,可以手动调节。
具体的,整体数据集训练记为
Figure BDA0002686248420000071
为各张图片,各张图片的标签分别记为Y={y1,…,yn},卷积神经网络和嵌入层(Embedding Layer)把一张图片映射为高维(d维)特征。记作
Figure BDA0002686248420000072
θf网络参数。度量学习中f(·;θf)一般被归一化为单位长度(即||f(xj)||2=1),度量学习的目的是为了学习这样的一个特征提取器f°(x;θf),使同类的样本的特征距离的近,不同类样本距离的远。在度量学习中,两张图片的特征的距离一般定义为余弦距离df(xi,xj)=1-f(xi)·f(xj),其中,||f(xi)||2=||f(xj)||2=1);
步骤S2,对每个簇量化每一维子空间适合程度:
计算K个簇中的每个簇Ck分别与d维特征中的每一维特征fi的适合程度;
在此,为了对每个簇进行子空间选择,需要量化每个簇和每一维特征的适合程度,比如说,提取出的特征(feature)是512维,K-means聚类后形成K个簇,那么需要把512维的整个空间分成K个子空间,每个簇都需要分配到一个适合自己的子空间,所以需要分别量化特定的某个簇相对于每个子空间的适合程度;
可选的,对于d维的特征,分解为K个子空间特征,即f(·;θf)分成{f1,…,fd},每个fi代表d维的特征中的其中一维,是一个数。对于K个簇中的某一个簇Ck对d维的特征中的其中一维特征fi的适合程度用公式计算:
Figure BDA0002686248420000073
三元组(xa,xp,xn)~Ck是在簇Ck中采样出的,其中,
Figure BDA0002686248420000074
表示在第i维特征中定义的余弦距离,即仅用d维的特征中的第i维特征计算出的余弦距离,xa、xp、xn分别表示的是整体数据集中的一张图片,整体数据集训练记为
Figure BDA0002686248420000081
为各张图片,各张图片的类别分别记为Y={y1,…,yn},xp(positive)表示的是和xa同一类别的图片,即ya=yp,xn(negative)表示的是和xa不同类别的图片,即ya≠yn
步骤S3,簇和子空间的最优匹配:
基于K个簇中的每个簇分别与d维特征中的每一维特征的适合程度,为每个簇匹配一个包含d维特征中的多维特征的子空间,以使每个簇各自匹配后的子空间的适合程度之和最大,其中,各个子空间所包含的各维特征互不相同;
在此,量化完每一维特征对K个簇之间的适合程度之后,需要进行最优匹配,使每个簇可以匹配到一个子空间,且不互相冲突,即每个子空间所包含的维度特征不同,且实现K个子空间和K个簇的双射,即K个子空间和K个簇是一一对应关系,最终实现K个簇中每个簇各自匹配后的子空间的适合程度之和最大;
优选的,基于K个簇中的每个簇分别与d维特征中的每一维特征的适合程度,将d维特征均分到每个簇。
在此,基于已有K个簇,每个簇对d维特征中的每一维的特征都要计算出合适程度
Figure BDA0002686248420000082
记为
Figure BDA0002686248420000083
K个簇可以根据合适程度,来最优均分d个维度,即每个簇选取适合自己的d/K个维度作为对应的子空间。
可选的,最优平分的过程可以抽象成最优匹配的过程,用线性规划(LinearProgramming problem)的约束条件可以表示为:
Figure BDA0002686248420000091
subject to Mki≥0,k=1,…,K,i=1,…,d
Figure BDA0002686248420000092
Figure BDA0002686248420000093
最优匹配的矩阵Mki可以通过这样的线性规划问题解决。可以采用任何线性规划的解决方法,比如最优传输规划和最大完全匹配算法。
步骤S4,端到端训练:
遍历对整体数据集中的每张图片,对每张图片确定所属的簇,获取每张图片所属的簇对应的子空间,基于损失函数对所述每张图片进行对应子空间的图片识别模型的一轮训练,重新执行步骤S1~S4,直到各子空间的图片识别模型收敛为止。
在此,解出最优匹配后,对每个训练样本只选择步骤S3解出的那些子空间来训练即可。损失函数任意,不做任何限制,本发明是可插拔式的训练方法,可以融入任何度量学习的损失函数中。每轮训练结束后,重新执行步骤S1~S4,直到收敛为止。
具体的,解出最优匹配矩阵Mki后,在训练过程中,对于某个训练样本xi属于第k个簇,即xi∈Ck,那么根据步骤S3解出最优匹配矩阵中的第k行,可以得到Ck选取的适合自己的d/K个维度作为子空间,所以训练时使用此子空间提取出的特征即可,损失函数任意,可与任何损失函数兼容,本发明是可插拔式的训练方法,可以融入任何度量学习的损失函数中。整体数据集中的所有图片xi的训练作为一轮,每轮训练结束后,重新执行步骤S1~S4,直到收敛为止。
根据本发明的另一方面,还提供一种图片识别模型的训练设备,其中,该设备包括:
第一装置,用于对整体数据集中的图片进行d维的特征提取,对提取出的特征进行聚类,以得到K个簇,其中,d、K为正整数;
第二装置,用于计算K个簇中的每个簇分别与d维特征中的每一维特征的适合程度;
第三装置,用于基于K个簇中的每个簇分别与d维特征中的每一维特征的适合程度,为每个簇匹配一个包含d维特征中的多维特征的子空间,以使每个簇各自匹配后的子空间的适合程度之和最大,其中,各个子空间所包含的各维特征互不相同;
第四装置,用于遍历对整体数据集中的每张图片,对每张图片确定所属的簇,获取每张图片所属的簇对应的子空间,基于损失函数对所述每张图片进行对应子空间的图片识别模型的一轮训练,重新执行步骤第一至第四装置,直到各子空间的图片识别模型收敛为止。
进一步的,上述设备中,所述第二装置,用于对于K个簇中的某一个簇Ck对d维的特征中的其中一维特征fi的适合程度用如下公式进行计算:
Figure BDA0002686248420000101
其中,三元组(xa,xp,xn)~Ck是在簇Ck中采样出的,
Figure BDA0002686248420000102
表示在d维的特征中的第i维特征中定义的余弦距离,xa、xp、xn分别表示的是整体数据集中的一张图片,整体数据集训练记为
Figure BDA0002686248420000103
为各张图片,xp表示的是和xa同一类别的图片,xn表示的是和xa不同类别的图片。
进一步的,上述设备中,所述第三装置,用于基于K个簇中的每个簇分别与d维特征中的每一维特征的适合程度,将d维特征均分到每个簇。
进一步的,上述设备中,所述第三装置,用于基于K个簇中的每个簇分别与d维特征中的每一维特征的适合程度,用线性规划的方法将d维特征均分到每个簇。
根据本发明的另一方面,还提供一种基于计算的设备,其中,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
步骤S1,对整体数据集中的图片进行d维的特征提取,对提取出的特征进行聚类,以得到K个簇,其中,d、K为正整数;
步骤S2,计算K个簇中的每个簇分别与d维特征中的每一维特征的适合程度;
步骤S3,基于K个簇中的每个簇分别与d维特征中的每一维特征的适合程度,为每个簇匹配一个包含d维特征中的多维特征的子空间,以使每个簇各自匹配后的子空间的适合程度之和最大,其中,各个子空间所包含的各维特征互不相同;
步骤S4,遍历对整体数据集中的每张图片,对每张图片确定所属的簇,获取每张图片所属的簇对应的子空间,基于损失函数对所述每张图片进行对应子空间的图片识别模型的一轮训练,重新执行步骤S1~S4,直到各子空间的图片识别模型收敛为止。
根据本发明的另一方面,还提供一种计算机可读存储介质,其上存储有计算机可执行指令,其中,该计算机可执行指令被处理器执行时使得该处理器:
步骤S1,对整体数据集中的图片进行d维的特征提取,对提取出的特征进行聚类,以得到K个簇,其中,d、K为正整数;
步骤S2,计算K个簇中的每个簇分别与d维特征中的每一维特征的适合程度;
步骤S3,基于K个簇中的每个簇分别与d维特征中的每一维特征的适合程度,为每个簇匹配一个包含d维特征中的多维特征的子空间,以使每个簇各自匹配后的子空间的适合程度之和最大,其中,各个子空间所包含的各维特征互不相同;
步骤S4,遍历对整体数据集中的每张图片,对每张图片确定所属的簇,获取每张图片所属的簇对应的子空间,基于损失函数对所述每张图片进行对应子空间的图片识别模型的一轮训练,重新执行步骤S1~S4,直到各子空间的图片识别模型收敛为止。
与现有技术相比,本发明提出了一种量化某子空间对图片数据的合适程度的方法,从而量化了高维特征各个通道对于数据的拟合能力,增加了对高维多通道的可操作性,并成为数据选择子空间的理论依据。
综上所述,本发明提出了一种量化某子空间对图片数据的合适程度的方法,从而量化了高维特征各个通道对于数据的拟合能力,增加了对高维多通道的可操作性,并成为数据选择子空间的理论依据。
本发明充分挖掘了高维空间的利用率,让高维空间的特征都各自专注于某些数据,促进了多个子空间的互补能力,一定程度上成功实现了子空间的互相解耦,从而降低训练难度,提高收敛速度,并提高最终性能。
本发明可以让数据自适应地学习各自的度量空间,充分利用好高维空间,最终让高维空间分成很多互相协助(互补、互相补充)的子空间,降低训练难度,提高最终效果,是一种可插拔式训练方式,端到端训练过程,训练完成后,并不改变模型的使用方式。所以是一种可插拔式的高效训练方法。
本发明的训练完成的图片识别模型可以用于图像分类、图像检索、图像搜索等各个应用领域。
本发明的各设备和存储介质实施例的详细内容,具体可参见各方法实施例的对应部分,在此,不再赘述。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (10)

1.一种图片识别模型的训练方法,其中,该方法包括:
步骤S1,对整体数据集中的图片进行d维的特征提取,对提取出的特征进行聚类,以得到K个簇,其中,d、K为正整数;
步骤S2,计算K个簇中的每个簇分别与d维特征中的每一维特征的适合程度;
步骤S3,基于K个簇中的每个簇分别与d维特征中的每一维特征的适合程度,为每个簇匹配一个包含d维特征中的多维特征的子空间,以使每个簇各自匹配后的子空间的适合程度之和最大,其中,各个子空间所包含的各维特征互不相同;
步骤S4,遍历对整体数据集中的每张图片,对每张图片确定所属的簇,获取每张图片所属的簇对应的子空间,基于损失函数对所述每张图片进行对应子空间的图片识别模型的一轮训练,重新执行步骤S1~S4,直到各子空间的图片识别模型收敛为止。
2.根据权利要求1所述的方法,其中,计算K个簇中的每个簇分别与d维特征中的每一维特征的适合程度,包括:
对于K个簇中的某一个簇Ck对d维的特征中的其中一维特征fi的适合程度用如下公式进行计算:
Figure FDA0002686248410000011
其中,三元组(xa,xp,xn)~Ck是在簇Ck中采样出的,
Figure FDA0002686248410000012
表示在d维的特征中的第i维特征中定义的余弦距离,xa、xp、xn分别表示的是整体数据集中的一张图片,整体数据集训练记为X={x1,…,xn},x1,…,xn为各张图片,xp表示的是和xa同一类别的图片,xn表示的是和xa不同类别的图片。
3.根据权利要求1所述的方法,其中,为每个簇匹配一个包含d维特征中的多维特征的子空间,包括:
基于K个簇中的每个簇分别与d维特征中的每一维特征的适合程度,将d维特征均分到每个簇。
4.根据权利要求3所述的方法,其中,基于K个簇中的每个簇分别与d维特征中的每一维特征的适合程度,将d维特征均分到每个簇,包括:
基于K个簇中的每个簇分别与d维特征中的每一维特征的适合程度,用线性规划的方法将d维特征均分到每个簇。
5.一种图片识别模型的训练设备,其中,该设备包括:
第一装置,用于对整体数据集中的图片进行d维的特征提取,对提取出的特征进行聚类,以得到K个簇,其中,d、K为正整数;
第二装置,用于计算K个簇中的每个簇分别与d维特征中的每一维特征的适合程度;
第三装置,用于基于K个簇中的每个簇分别与d维特征中的每一维特征的适合程度,为每个簇匹配一个包含d维特征中的多维特征的子空间,以使每个簇各自匹配后的子空间的适合程度之和最大,其中,各个子空间所包含的各维特征互不相同;
第四装置,用于遍历对整体数据集中的每张图片,对每张图片确定所属的簇,获取每张图片所属的簇对应的子空间,基于损失函数对所述每张图片进行对应子空间的图片识别模型的一轮训练,重新执行步骤第一至第四装置,直到各子空间的图片识别模型收敛为止。
6.根据权利要求5所述的设备,其中,所述第二装置,用于对于K个簇中的某一个簇Ck对d维的特征中的其中一维特征fi的适合程度用如下公式进行计算:
Figure FDA0002686248410000031
其中,三元组(xa,xp,xn)~Ck是在簇Ck中采样出的,
Figure FDA0002686248410000032
表示在d维的特征中的第i维特征中定义的余弦距离,xa、xp、xn分别表示的是整体数据集中的一张图片,整体数据集训练记为X={x1,…,xn},x1,…,xn为各张图片,xp表示的是和xa同一类别的图片,xn表示的是和xa不同类别的图片。
7.根据权利要求5所述的设备,其中,所述第三装置,用于基于K个簇中的每个簇分别与d维特征中的每一维特征的适合程度,将d维特征均分到每个簇。
8.根据权利要求7所述的设备,其中,所述第三装置,用于基于K个簇中的每个簇分别与d维特征中的每一维特征的适合程度,用线性规划的方法将d维特征均分到每个簇。
9.一种基于计算的设备,其中,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
步骤S1,对整体数据集中的图片进行d维的特征提取,对提取出的特征进行聚类,以得到K个簇,其中,d、K为正整数;
步骤S2,计算K个簇中的每个簇分别与d维特征中的每一维特征的适合程度;
步骤S3,基于K个簇中的每个簇分别与d维特征中的每一维特征的适合程度,为每个簇匹配一个包含d维特征中的多维特征的子空间,以使每个簇各自匹配后的子空间的适合程度之和最大,其中,各个子空间所包含的各维特征互不相同;
步骤S4,遍历对整体数据集中的每张图片,对每张图片确定所属的簇,获取每张图片所属的簇对应的子空间,基于损失函数对所述每张图片进行对应子空间的图片识别模型的一轮训练,重新执行步骤S1~S4,直到各子空间的图片识别模型收敛为止。
10.一种计算机可读存储介质,其上存储有计算机可执行指令,其中,该计算机可执行指令被处理器执行时使得该处理器:
步骤S1,对整体数据集中的图片进行d维的特征提取,对提取出的特征进行聚类,以得到K个簇,其中,d、K为正整数;
步骤S2,计算K个簇中的每个簇分别与d维特征中的每一维特征的适合程度;
步骤S3,基于K个簇中的每个簇分别与d维特征中的每一维特征的适合程度,为每个簇匹配一个包含d维特征中的多维特征的子空间,以使每个簇各自匹配后的子空间的适合程度之和最大,其中,各个子空间所包含的各维特征互不相同;
步骤S4,遍历对整体数据集中的每张图片,对每张图片确定所属的簇,获取每张图片所属的簇对应的子空间,基于损失函数对所述每张图片进行对应子空间的图片识别模型的一轮训练,重新执行步骤S1~S4,直到各子空间的图片识别模型收敛为止。
CN202010977452.0A 2020-09-16 2020-09-16 图片识别模型的训练方法及设备 Pending CN112132199A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010977452.0A CN112132199A (zh) 2020-09-16 2020-09-16 图片识别模型的训练方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010977452.0A CN112132199A (zh) 2020-09-16 2020-09-16 图片识别模型的训练方法及设备

Publications (1)

Publication Number Publication Date
CN112132199A true CN112132199A (zh) 2020-12-25

Family

ID=73845966

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010977452.0A Pending CN112132199A (zh) 2020-09-16 2020-09-16 图片识别模型的训练方法及设备

Country Status (1)

Country Link
CN (1) CN112132199A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080021686A1 (en) * 2006-02-16 2008-01-24 Microsoft Corporation Cluster modeling, and learning cluster specific parameters of an adaptive double threading model
US20180165546A1 (en) * 2016-12-13 2018-06-14 Axis Ab Method, computer program product and device for training a neural network
CN108922544A (zh) * 2018-06-11 2018-11-30 平安科技(深圳)有限公司 通用向量训练方法、语音聚类方法、装置、设备及介质
CN110188225A (zh) * 2019-04-04 2019-08-30 吉林大学 一种基于排序学习和多元损失的图像检索方法
CN111027442A (zh) * 2019-12-03 2020-04-17 腾讯科技(深圳)有限公司 用于行人重识别的模型训练方法、识别方法、装置及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080021686A1 (en) * 2006-02-16 2008-01-24 Microsoft Corporation Cluster modeling, and learning cluster specific parameters of an adaptive double threading model
US20180165546A1 (en) * 2016-12-13 2018-06-14 Axis Ab Method, computer program product and device for training a neural network
CN108922544A (zh) * 2018-06-11 2018-11-30 平安科技(深圳)有限公司 通用向量训练方法、语音聚类方法、装置、设备及介质
CN110188225A (zh) * 2019-04-04 2019-08-30 吉林大学 一种基于排序学习和多元损失的图像检索方法
CN111027442A (zh) * 2019-12-03 2020-04-17 腾讯科技(深圳)有限公司 用于行人重识别的模型训练方法、识别方法、装置及介质

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
JIE LIANG 等: "Simultaneous subspace clustering and cluster number estimating based on triplet relationship", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》, 31 December 2019 (2019-12-31), pages 1 *
JIWEN LU等: "Deep Metric Learning for Visual Understanding: An Overview of Recent Advances", 《IEEE SIGNAL PROCESSING MAGAZINE》, vol. 34, no. 6, 9 November 2017 (2017-11-09), pages 76 - 84, XP055455130, DOI: 10.1109/MSP.2017.2732900 *
XIAOCUI LI 等: "Semi-supervised clustering with deep metric learning and graph embedding", 《WORLD WIDE WEB》, vol. 23, 24 August 2019 (2019-08-24), pages 781, XP037055357, DOI: 10.1007/s11280-019-00723-8 *
刘嘉威: "视频监控中的行人再识别算法研究", 《中国博士学位论文全文数据库 信息科技辑(月刊)》, no. 7, 15 July 2019 (2019-07-15), pages 136 - 55 *
吴运宏 等: "基于微簇的桥梁监测数据流异常识别研究", 《计算机应用与软件》, no. 9, 15 September 2016 (2016-09-15), pages 52 - 56 *
张国帅: "基于深度学习的多目标跟踪关联模型设计", 《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)》, no. 8, 15 August 2020 (2020-08-15), pages 138 - 369 *
纪明宇 等: "综合特征Markov模型稳态性质验证方法", 《计算机工程与设计》, vol. 34, no. 11, 16 November 2013 (2013-11-16), pages 3924 - 3928 *

Similar Documents

Publication Publication Date Title
US11294624B2 (en) System and method for clustering data
US8676725B1 (en) Method and system for entropy-based semantic hashing
US10827981B2 (en) System and method for evaluating a cognitive load on a user corresponding to a stimulus
WO2023108995A1 (zh) 向量相似度计算方法、装置、设备及存储介质
CN112580436B (zh) 一种基于黎曼流形坐标对齐的脑电信号域适应方法
CN111310074B (zh) 兴趣点的标签优化方法、装置、电子设备和计算机可读介质
CN111125658B (zh) 识别欺诈用户的方法、装置、服务器和存储介质
CN111782826A (zh) 知识图谱的信息处理方法、装置、设备及存储介质
US11709858B2 (en) Mapping of unlabeled data onto a target schema via semantic type detection
CN114332500B (zh) 图像处理模型训练方法、装置、计算机设备和存储介质
CN106570173B (zh) 一种基于Spark的高维稀疏文本数据聚类方法
CN110825902B (zh) 特征相似性搜索的实现方法、装置、电子设备及存储介质
CN110209863B (zh) 用于相似图片检索的方法与设备
US11960846B2 (en) Embedding inference
CN111462760B (zh) 声纹识别系统、方法、装置及电子设备
CN110209895B (zh) 向量检索方法、装置和设备
CN110377721B (zh) 自动问答方法、装置、存储介质及电子设备
CN112132199A (zh) 图片识别模型的训练方法及设备
CN112800138B (zh) 大数据分类方法及系统
CN114495911A (zh) 说话人聚类方法、装置及设备
CN114049637A (zh) 一种目标识别模型的建立方法、系统、电子设备及介质
CN109949076B (zh) 建立超球面映射模型的方法、信息推荐方法及装置
CN113516141B (zh) 深度度量模型的优化方法、设备及存储介质
CN113298149B (zh) 图像聚类方法及系统
CN113537104B (zh) 一种基于互联网医院的处方图片智能识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination