CN111340195B - 网络模型的训练方法及装置、图像处理方法及存储介质 - Google Patents
网络模型的训练方法及装置、图像处理方法及存储介质 Download PDFInfo
- Publication number
- CN111340195B CN111340195B CN202010160713.XA CN202010160713A CN111340195B CN 111340195 B CN111340195 B CN 111340195B CN 202010160713 A CN202010160713 A CN 202010160713A CN 111340195 B CN111340195 B CN 111340195B
- Authority
- CN
- China
- Prior art keywords
- training image
- training
- image
- network
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及人工智能技术领域,提供一种网络模型的训练方法及装置、图像处理方法及存储介质。其中,网络模型的训练方法包括:将训练图像输入至主干网络进行特征提取,获得训练图像的特征图;将特征图输入至第一分支网络进行处理,获得训练图像的全局特征,以及,将特征图输入至第二分支网络进行处理,获得训练图像的局部特征;联合训练图像的全局特征以及局部特征形成训练图像的特征;基于训练图像的特征计算损失,并根据损失计算结果更新主干网络的参数。上述方法由于同时利用了训练图像的全局特征以及局部特征训练主干网络,从而训练好的主干网络可以视为同时学习了训练图像的全局特征和局部特征,因此其执行图像处理任务可以获得较好的结果。
Description
技术领域
本发明涉及人工智能技术领域,具体而言,涉及一种网络模型的训练方法及装置、图像处理方法及存储介质。
背景技术
商品细分类可以指基于商品的图像来区分外观相似、仅存在细节不同的商品的方法。在现有技术中,通常先使用训练好的网络模型(如神经网络模型)从图像中提取商品特征,然后基于提取出的特征进行商品分类。然而,现有的网络模型通常被训练为只能提取商品的全局特征,但外观相似的商品其差异恰恰在局部细节,因此导致利用提取出的全局特征进行商品细分类效果不佳。
发明内容
本申请实施例的目的在于提供一种网络模型的训练方法及装置、图像处理方法及存储介质,以改善上述技术问题。
为实现上述目的,本申请提供如下技术方案:
第一方面,本申请实施例提供一种网络模型的训练方法,包括:将训练图像输入至主干网络进行特征提取,获得所述训练图像的特征图,所述主干网络为神经网络;将所述训练图像的特征图输入至第一分支网络进行处理,获得所述训练图像的全局特征,以及,将所述训练图像的特征图输入至第二分支网络进行处理,获得所述训练图像的局部特征;联合所述训练图像的全局特征以及局部特征形成所述训练图像的特征;基于所述训练图像的特征计算损失,并根据损失计算结果更新所述主干网络的参数。
上述方法中的网络模型设计了主干网络以及两个分支网络,两个分支网络分别用于获取训练图像的全局特征和局部特征,然后联合两方面的特征形成训练图像的特征,并基于训练图像的特征计算预测损失(例如,可以基于该特征进行商品分类预测并计算预测损失等),进而更新主干网络的参数。
其中,主干网络即被训练的对象,训练好后主干网络可以用于执行图像处理任务(例如,商品细分类任务等),由于同时利用了训练图像的全局特征以及局部特征进行训练,从而最终获得的主干网络可以视为既学习了训练图像的全局特征又学习了训练图像的局部特征,因此执行图像处理任务可以获得较好的结果(例如,较高的商品细分类精度)。
在第一方面的一些实现方式中,所述将所述训练图像的特征图输入至所述第一分支网络进行处理,获得所述训练图像的全局特征,包括:利用所述第一分支网络对所述训练图像的特征图进行池化以及特征嵌入,获得所述训练图像的全局特征。
上述实现方式中的池化操作用于数据降维,以便降低后续运算量,特征嵌入操作用于将数据转换为向量表示,由于第一分支网络是对完整的训练图像的特征图进行处理,所以得到的是训练图像的全局特征。或者说通过设置第一分支网络,主干网络可以学习到训练图像的全局特征。
在第一方面的一些实现方式中,所述将所述训练图像的特征图输入至所述第二分支网络进行处理,获得所述训练图像的局部特征,包括:确定所述训练图像的特征图中的遮挡区域,对所述遮挡区域内的像素进行擦除或者模糊处理;对处理后的所述训练图像的特征图进行池化以及特征嵌入,获得所述训练图像的局部特征。
上述实现方式中通过选择遮挡区域,将训练图像的特征图中的一部分擦除或者模糊掉,剩余部分只是原特征图的局部,因此再进行池化以及特征嵌入得到是的训练图像的局部特征。或者说通过设置第二分支网络,主干网络可以学习到训练图像的局部特征。
在第一方面的一些实现方式中,所述遮挡区域的面积大于预设阈值,和/或,所述遮挡区域在所述训练图像的特征图中的位置随机选取,和/或,所述遮挡区域为连续区域。
可以要求遮挡区域足够大,否则除遮挡区域以外的特征图和完整的特征图区别不大,主干网络无法有效学习训练图像的局部特征;可以要求遮挡区域的位置随机选取,以使特征图中的每个区域被选为遮挡区域的概率相同,这样主干网络可以有效学习训练图像的各个位置的局部特征,特别是在对训练图像的内容缺少先验知识的前提下,有必要进行全面的学习;可以要求遮挡区域是连续的,以使遮挡区域擦除或者模糊掉的部分具有一定的语义,否则除遮挡区域以外的特征图在语义上是完整的,主干网络无法有效学习训练图像的局部特征。
以上三种措施,可以选择其中一项或几项实施。
在第一方面的一些实现方式中,所述训练图像为一批图像,所述训练图像的特征图为一批尺寸相同的特征图,且各张特征图上的所述遮挡区域的位置和尺寸均相同。
在网络模型的训练实践中,可以采取分批次(batch)进行训练的方式,每批次输入多张训练图像(当然输入一张也可以),一批训练图像在经主干网络处理后将得到对应的一批特征图,这些特征图具有相同的尺寸,从而在确定遮挡区域的位置和尺寸时对于同一批特征图可以统一确定,处理起来比较简单。
另外,对于商品细分类等场景,待分类的商品通常放置在同一的位置,并且同一批训练图像通常从同一角度采集,因此在选择遮挡区域的位置和尺寸时对同一批训练图像对应的特征图选择相同的位置和尺寸,特征图中被遮挡(指擦除或模糊)住的区域也基本对应训练图像中商品相同的部分,使得对于各张训练图像的局部特征的学习具有一致性,这是比较合理的选择。
在第一方面的一些实现方式中,所述联合所述训练图像的全局特征以及局部特征形成所述训练图像的特征,包括:将所述训练图像的全局特征以及局部特征进行拼接,形成所述训练图像的特征,或者,将所述训练图像的全局特征以及局部特征进行加权求和,形成所述训练图像的特征。
联合特征的方式比较灵活,比如上面所述的拼接或者加权求和(直接求和可视为加权求和的一种特殊情况),还可以采用其他方式。
在第一方面的一些实现方式中,所述训练图像的特征通过加权求和的方式形成,每更新一次所述主干网络的参数为一轮训练,当已进行的训练轮次小于预设轮次时,所述训练图像的全局特征的求和权重取第一权重,所述训练图像的局部特征的求和权重取第二权重,且所述第一权重大于所述第二权重。
在训练初期,由于对于局部特征的学习还不充分,第二分支网络输出训练图像的局部特征表达效果可能不佳,因此此时在确定训练图像的特征时可以以第一分支网络输出的全局特征为主,或者说利用第一分支网络对第二分支网络进行监督学习。待训练一段时间后,再调高局部特征的权重占比。
第二方面,本申请实施例提供一种图像处理方法,包括:获取待处理图像;将所述待处理图像输入至通过第一方面或第一方面的任意一种可能的实现方式提供的方法训练获得的主干网络进行处理,获得所述主干网络输出的所述待处理图像的特征图;利用所述待处理图像的特征图执行图像处理任务。
上述方法由于采用了第一方面或第一方面的任意一种可能的实现方式提供的方法训练主干网络,所以该主干网络能够有效提取待处理图像中的全局特征和局部特征,进而将提取出的特征图用于执行特定的图像处理任务(例如,商品细分类等)能够获得较好的结果。
第三方面,本申请实施例提供一种网络模型的训练装置,包括:主干处理模块,用于将训练图像输入至主干网络进行特征提取,获得所述训练图像的特征图,所述主干网络为神经网络;分支处理模块,用于将所述训练图像的特征图输入至第一分支网络进行处理,获得所述训练图像的全局特征,以及,将所述训练图像的特征图输入至第二分支网络进行处理,获得所述训练图像的局部特征;特征联合模块,用于联合所述训练图像的全局特征以及局部特征形成所述训练图像的特征;参数更新模块,用于基于所述训练图像的特征计算损失,并根据损失计算结果更新所述主干网络的参数。
第四方面,本申请实施例提供一种图像处理装置,包括:图像获取模块,用于获取待处理图像;特征提取模块,用于将所述待处理图像输入至通过第一方面或第一方面的任意一种可能的实现方式提供的方法训练获得的主干网络进行处理,获得所述主干网络输出的所述待处理图像的特征图;任务执行模块,用于利用所述待处理图像的特征图执行图像处理任务。
第五方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器读取并运行时,执行第一方面、第二方面或两方面的任意一种可能的实现方式提供的方法的步骤。
第六方面,本申请实施例提供一种电子设备,包括:存储器以及处理器,所述存储器中存储有计算机程序指令,所述计算机程序指令被所述处理器读取并运行时,执行第一方面、第二方面或两方面的任意一种可能的实现方式提供的方法的步骤。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例提供的一种网络模型的结构图;
图2示出了本申请实施例提供的一种网络模型的训练方法的流程图;
图3示出了本申请实施例提供的一种网络模型的训练装置的模块图;
图4示出了本申请实施例提供的一种图像处理装置的模块图;
图5示出了本申请实施例提供的一种电子设备的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
图1示出了本申请实施例提供的一种网络模型的结构图。该网络模型主要包括主干网络100、第一分支网络110以及第二分支网络120三个部分,相互之间的连接关系如图所示。其中,主干网络100为神经网络,例如可以是卷积神经网络、循环神经网络等,其具体结构不限定,可以参考现有技术中的实现方式,而第一分支网络110和第二分支网络120可能的结构在后文再进行阐述。
该网络模型在训练阶段使用,被训练的对象包括主干网络100、第一分支网络110以及第二分支网络120,但只有主干网络100会作为训练的产物输出并用于执行具体的图像处理任务,而第一分支网络110和第二分支网络120虽然也会参与训练过程,但并不作为训练的产物输出,即第一分支网络110和第二分支网络120可以视为对主干网络100的训练起辅助作用的网络结构。从训练输出的角度来看,也可以将主干网络100视为实际训练的对象。
在网络模型的训练阶段,模型的输入为训练图像,输入至主干网络100,模型的输出为训练图像的全局特征以及局部特征,分别从第一分支网络110输出以及第二分支网络120输出。在后文介绍本申请实施例提供的网络模型的训练方法时还会结合图1作进一步说明。
图2示出了本申请实施例提供的一种网络模型的训练方法的流程图。该方法可由一电子设备执行,图5示出了该电子设备的一种可能的结构,具体可以参考后文描述。参照图2,该方法包括:
步骤S200:将训练图像输入至主干网络进行特征提取,获得训练图像的特征图。
网络模型的训练可以分成多轮进行,每一轮的训练方法都是类似的,步骤S200至步骤S240揭示了其中任意一轮训练的过程,具有普遍性。
训练图像可以指训练集中的样本,训练集的获取途径不作限定,例如可以是自行采集,也可以直接使用网络上他人打包好的训练集。对于训练图像,根据主干网络的不同,可以进行适当的预处理,例如可以统一缩放成预设的尺寸后再输入至主干网络,以及对训练图像进行去均值、归一化、白化等处理。
根据前面提到的,本申请方案中的主干网络为一种神经网络,可以进行特征提取并得到训练图像的特征图。关于主干网络的特征提取过程,属于现有技术,例如,若主干网络为卷积神经网络,则可以通过设置若干卷积层进行特征提取,本申请对此不进行具体阐述。
步骤S210:将训练图像的特征图输入至第一分支网络进行处理,获得训练图像的全局特征,以及,将训练图像的特征图输入至第二分支网络进行处理,获得训练图像的局部特征。
在一些实现方式中,第一分支网络可以包括池化层以及特征嵌入层(此处及后文中网络的一层可以理解为网络执行的一种操作,不一定对应有实际的网络结构)。其中,池化层用于对训练图像的特征图执行池化操作,池化操作的具体类型不限,例如可以是最大池化、平均池化等。池化操作的目的是为了对数据进行降维处理,以便降低后续步骤的运算量,可以理解的,若设备的运算性能支持,也可以不进行池化操作。特征嵌入层用于对池化后的特征图执行特征嵌入操作,其主要功能是将二维的特征图转化为一维的向量表示(可称为特征向量),便于后续处理。还可以理解的,第一分支网络中还可以包含其他网络结构,例如卷积层等,在图1中并未示出。
通过对第一分支网络的描述不难看出,第一分支网络是对训练图像的整张特征图进行处理,所以得到的是训练图像的全局特征。
在一些实现方式中,第二分支网络可以包括:遮挡处理层、池化层以及特征嵌入层。在遮挡处理层,首先在训练图像的特征图中确定一个遮挡区域,然后对特征图位于该遮挡区域内的像素进行擦除或者模糊处理后输出。其中,遮挡区域的可以根据预设的规则进行确定,在后文会给出一些例子。擦除可以是指将特征图位于遮挡区域内的像素值置0,模糊处理可以是指通过滤波的方式(如均值模糊、高斯模糊、中值模糊等)处理特征图位于遮挡区域内的像素,总之,无论是采用擦除还是模糊处理都是为了消除或弱化遮挡区域内像素的特征或者说语义信息,后文有时为了表述上的简单也将擦除和模糊处理合称遮挡处理。经过遮挡处理层输出的特征图可以依次输入至池化层以及特征嵌入层进行处理,关于池化层以及特征嵌入层其功能和第一分支网络中的类似,不再重复介绍。可以理解的,第二分支网络中还可以包含其他网络结构,例如卷积层等,在图1中并未示出。
通过对第二分支网络的描述不难看出,通过设置遮挡处理层,将训练图像的特征图中的一部分进行遮挡处理,消除或弱化了特征图位于遮挡区域内的特征,未遮挡的部分只是原特征图的局部,因此在此基础上进行池化以及特征嵌入得到是的训练图像的局部特征。
步骤S220:联合训练图像的全局特征以及局部特征形成训练图像的特征。
联合可以指一种融合不同特征的操作,通过联合训练图像的全局特征和局部特征,形成的训练图像的特征中既包含了全局信息又包含了局部信息,从而可以有效地表征训练图像。联合两项特征的方式比较灵活,例如,可以将全局特征与局部特征进行拼接(Concate)形成训练图像的特征,又例如,可以将全局特征与局部特征进行加权求和形成训练图像的特征(直接求和可视为加权求和的一种特殊情况),当然也不排除采用其他方式。
步骤S230:基于训练图像的特征计算损失,并根据损失计算结果更新主干网络的参数。
基于步骤S220中获得的训练图像的特征,可以进行预测并利用预设的损失函数计算预测损失,进而可以基于计算出的预测损失更新主干网络中的参数,例如,若主干网络为卷积神经网络,需要更新的参数包括卷积核的权重参数以及偏置参数等。上述预测的内容和主干网络最终的应用场景有关:例如,若希望将训练好的主干网络用于商品细分类,则可以基于训练图像的特征预测训练图像中商品的类别;若希望将训练好的主干网络用于商品检测,则可以基于训练图像的特征预测训练图像中商品的位置和类别,等等。以图1为例,仅依靠图中示出的结构还无法输出预测结果,比如要输出商品分类结果,至少要在网络模型中加上分类器,将训练图像的特征输入至分类器,由分类器输出商品分类结果。
基于预测损失更新主干网络中的参数可以采用现有的方法,例如反向传播算法等,此处不作具体解释。事实上,包括主干网络、第一分支网络和第二分支网络在内的网络模型可以作为一个整体进行训练,若第一分支网络和第二分支网络中有需要更新的参数(比如分支网络中也包含卷积层的情况),也可以在训练时进行更新,但由于最终训练过程只输出主干网络,所以在步骤S230中仅提及了主干网络中参数的更新问题。
步骤S240:判断是否满足训练结束条件。
每更新一次主干网络的参数视为进行了一轮训练,在一轮训练的完成后,可以判断是否满足训练结束条件,若不满足训练结束条件,则跳转至步骤S200,输入新的训练图像继续迭代,若满足训练结束条件,则终止迭代过程并输出训练好的主干网络。具体的训练结束条件本申请的方案并不限定,例如,可以是训练轮次达到了预设的数量、训练时间达到了预设的时长、计算出的预测损失不再变化等。
训练好的主干网络可以用于执行图像处理任务(例如,商品细分类任务等)。具体而言,可以首先获取待处理图像(例如,待分类的商品图像),然后将待处理图像输入训练好的主干网络进行特征提取,获得主干网络输出的待处理图像的特征图,最后利用待处理图像的特征图执行图像处理任务(例如,将待处理图像的特征图输入至分类器进行分类),并获得执行结果(例如,商品的类别)。需要指出,训练好的主干网络既可以直接用于待处理图像的特征提取,也可以进一步进行测试、验证、调整后再用于待处理图像的特征提取,本申请对此不限定。
综上所述,在本申请实施例提供的方法中,网络模型设计了主干网络、第一分支网络以及第二分支网络,第一分支网络用于获取训练图像的全局特征,第二分支网络用于获取训练图像的局部特征,然后联合两方面的特征形成训练图像的特征,并基于训练图像的特征训练主干网络。在这一过程中,通过设置第一分支网络,主干网络可以学习到训练图像的全局特征;通过设置第二分支网络,主干网络可以学习到训练图像的局部特征。最终由于主干网络既学习了训练图像的全局特征又学习了训练图像的局部特征,因此执行图像处理任务可以获得较好的结果(例如,较高的商品细分类精度等)。
而在上述方法的一些实现方式中,第二分支网络通过设置遮挡区域的方式,迫使主干网络只学习特征图未被遮挡区域覆盖的特征,从而主干网络可以有效学习到训练图像中的局部特征。作为对比,在一些对照实施例中,或者需要对训练图像中的某些局部区域先进行标注(例如,导致相似商品可以进行区别的区域),过于依赖人工介入,费时费力;在另一些对照实施例中,先将训练图像切分,然后对每个小部分进行局部特征提取以及学习,此种方式对训练图像的形状有一定要求,例如若要进行水平方向切分,则要求训练图像的高度应大于宽度,方法的适用范围比较有限。而本申请的方案既不需要预先标注,也不涉及图像切分,对于局部特征的提取更加简单、高效。当然,在一些可选方案中,也不排除将对照实施例中的方案或构思应用到本申请中的第二分支网络中用于获取训练图像的局部特征。
进一步的,在介绍步骤S210时提到,第二分支网络中的遮挡区域的可以根据预设的规则进行确定,该预设的规则可以包括,但不限于以下规则中的一项或几项:
(1)遮挡区域的面积大于预设阈值。
该规则即要求遮挡区域要足够大,否则若遮挡区域面积太小,无法有效遮挡住特征图中的语义信息,除遮挡区域以外的特征图和完整的特征图区别不大,则主干网络无法有效学习训练图像的局部特征。这里的预设阈值可以是具体的像素数量,也可以是占训练图像的特征图的比例。
(2)遮挡区域在训练图像的特征图中的位置随机选取。
若每轮训练时遮挡区域在特征图中的位置随机选取,则当训练轮次较多时(神经网络模型的训练轮次通常都较多),特征图中的每个区域被选为遮挡区域的概率相同,这样主干网络可以有效学习训练图像的各个位置的局部特征。在很多时候,对训练图像的内容缺少先验知识,并不太清楚哪个位置的局部特征更为重要,此时有必要进行全面的学习。当然,在对训练图像的内容具有先验知识的情况下,比如对于若干外观相似的商品,事先知道商品右下角的数字是其区别点所在,则可以根据该先验知识合理设置遮挡区域的位置,使得对于局部特征的学习集中在商品右下角的区域内。
(3)遮挡区域为连续区域。
该规则即要求构成遮挡区域的像素之间应该是连通的,而非离散的,例如,最简单的情况,遮挡区域可以为一个矩形。否则若遮挡区域不是连续的,比如是一些离散的像素点,除遮挡区域以外的特征图在语义上是基本完整的(离散的像素点造成的语义缺失不大),进而主干网络无法有效学习训练图像的局部特征。
以上三项规则分别限定了遮挡区域的尺寸、位置以及形态。当然,具体遮挡区域选择什么尺寸、什么位置以及什么形态也可以根据实际需求确定,未必要遵守以上的规则。
上文中并未介绍训练图像的具体输入形式。在网络模型的训练实践中,可以采取分批次(batch)进行训练的方式,每批次输入一张或多张训练图像。对于一些特定的应用场景,还可以对训练图像有一些要求,例如对于商品细分类,可以要求在同一批训练图像中商品大致位于同样的位置,并且图像大致从同一角度采集,即具有某种程度上的一致性。因为即使对于同一件商品,若从不同角度拍摄,获得的图像内容区别很大,若同一批训练图像中的各张图像内容差异过大,对学习训练图像的特征不利。
若训练图像为一批图像,则得到的训练图像的特征图也是一批特征图,若训练图像在输入主干网络时具有相同的尺寸,则主干网络输出的特征图也具有相同的尺寸。对于一批尺寸相同的特征图,可以统一为其确定一个遮挡区域,或者说各张特征图上的遮挡区域的位置和尺寸均设置为相同(注意,此处的一张特征图还可能包含多个通道)。其原因在于:第一,这样处理相较于为每张特征图都选取不同的遮挡区域更为简单;第二,若同一批训练图像具有一致性,比如像上面提到的,商品大致放置在同一的位置,图像大致从同一角度采集,则在选择遮挡区域的位置和尺寸时对同一批训练图像对应的特征图选择相同的位置和尺寸,遮挡区域也基本对应训练图像中商品相同的部分,这样使得对于各张训练图像的局部特征的学习具有一致性,有利于获得较好的学习效果。
此外,发明人长期研究主干网络的训练过程发现,在训练初期,由于对于局部特征的学习还不充分,第二分支网络输出训练图像的局部特征表达效果可能不佳,对训练结果造成负面影响,因此此时在确定训练图像的特征时可以以第一分支网络输出的全局特征为主,或者说利用第一分支网络对第二分支网络进行监督学习。待训练一段时间后,由于主干网络参数的更新,第二分支网络输出训练图像的局部特征表达效果改善后,则可不再进行监督或者削弱监督力度。
以训练图像的特征通过全局特征和局部特征加权求和的方式形成的情况为例,上述监督学习可以体现为求和权重的调整,当已进行的训练轮次小于预设轮次时(即处于训练初期),训练图像的全局特征的求和权重取第一权重,训练图像的局部特征的求和权重取第二权重,且第一权重大于第二权重,即在训练图像的特征中以全局特征为主,对局部特征进行监督学习。当已进行的训练轮次不小于预设轮次时,则可考虑降低第一权重并增大第二权重,相当于不再对局部特征进行监督学习或者削弱监督力度。
图3示出了本申请实施例提供的网络模型的训练装置300的功能模块图。参照图3,网络模型的训练装置300包括:
主干处理模块310,用于将训练图像输入至主干网络进行特征提取,获得所述训练图像的特征图,所述主干网络为神经网络;
分支处理模块320,用于将所述训练图像的特征图输入至第一分支网络进行处理,获得所述训练图像的全局特征,以及,将所述训练图像的特征图输入至第二分支网络进行处理,获得所述训练图像的局部特征;
特征联合模块330,用于联合所述训练图像的全局特征以及局部特征形成所述训练图像的特征;
参数更新模块340,用于基于所述训练图像的特征计算损失,并根据损失计算结果更新所述主干网络的参数。
在网络模型的训练装置300的一种实现方式中,分支处理模块320将所述训练图像的特征图输入至所述第一分支网络进行处理,获得所述训练图像的全局特征,包括:利用所述第一分支网络对所述训练图像的特征图进行池化以及特征嵌入,获得所述训练图像的全局特征。
在网络模型的训练装置300的一种实现方式中,分支处理模块320将所述训练图像的特征图输入至所述第二分支网络进行处理,获得所述训练图像的局部特征,包括:确定所述训练图像的特征图中的遮挡区域,对所述遮挡区域内的像素进行擦除或者模糊处理;对处理后的所述训练图像的特征图进行池化以及特征嵌入,获得所述训练图像的局部特征。
在网络模型的训练装置300的一种实现方式中,所述遮挡区域的面积大于预设阈值,和/或,所述遮挡区域在所述训练图像的特征图中的位置随机选取,和/或,所述遮挡区域为连续区域。
在网络模型的训练装置300的一种实现方式中,所述训练图像为一批图像,所述训练图像的特征图为一批尺寸相同的特征图,且各张特征图上的所述遮挡区域的位置和尺寸均相同。
在网络模型的训练装置300的一种实现方式中,特征联合模块330联合所述训练图像的全局特征以及局部特征形成所述训练图像的特征,包括:将所述训练图像的全局特征以及局部特征进行拼接,形成所述训练图像的特征,或者,将所述训练图像的全局特征以及局部特征进行加权求和,形成所述训练图像的特征。
在网络模型的训练装置300的一种实现方式中,所述训练图像的特征通过加权求和的方式形成,每更新一次所述主干网络的参数为一轮训练,当已进行的训练轮次小于预设轮次时,所述训练图像的全局特征的求和权重取第一权重,所述训练图像的局部特征的求和权重取第二权重,且所述第一权重大于所述第二权重。
本申请实施例提供的网络模型的训练装置300,其实现原理及产生的技术效果在前述方法实施例中已经介绍,为简要描述,装置实施例部分未提及之处,可参考方法施例中相应内容。
图4示出了本申请实施例提供的图像处理装置400的功能模块图。参照图4,图像处理装置400包括:
图像获取模块410,用于获取待处理图像;
特征提取模块420,用于将所述待处理图像输入至通过本申请实施例提供的网络模型的训练方法训练获得的主干网络进行处理,获得所述主干网络输出的所述待处理图像的特征图;
任务执行模块430,用于利用所述待处理图像的特征图执行图像处理任务。
本申请实施例提供的图像处理装置400,其实现原理及产生的技术效果在前述方法实施例中已经介绍,为简要描述,装置实施例部分未提及之处,可参考方法施例中相应内容。
图5示出了本申请实施例提供的电子设备500的一种可能的结构。参照图5,电子设备500包括:处理器510、存储器520以及通信接口530,这些组件通过通信总线540和/或其他形式的连接机构(未示出)互连并相互通讯。
其中,存储器520包括一个或多个(图中仅示出一个),其可以是,但不限于,随机存取存储器(Random Access Memory,简称RAM),只读存储器(Read Only Memory,简称ROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,简称EEPROM)等。处理器510以及其他可能的组件可对存储器520进行访问,读和/或写其中的数据。
处理器510包括一个或多个(图中仅示出一个),其可以是一种集成电路芯片,具有信号的处理能力。上述的处理器510可以是通用处理器,包括中央处理器(CentralProcessing Unit,简称CPU)、微控制单元(Micro Controller Unit,简称MCU)、网络处理器(Network Processor,简称NP)或者其他常规处理器;还可以是专用处理器,包括数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application SpecificIntegrated Circuits,简称ASIC)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
通信接口530包括一个或多个(图中仅示出一个),可以用于和其他设备进行直接或间接地通信,以便进行数据的交互。通信接口530可以包括进行有线和/或无线通信的接口。
在存储器520中可以存储一个或多个计算机程序指令,处理器510可以读取并运行这些计算机程序指令,以实现本申请实施例提供的网络模型的训练方法和/或图像处理方法以及其他期望的功能。
可以理解,图5所示的结构仅为示意,电子设备500还可以包括比图5中所示更多或者更少的组件,或者具有与图5所示不同的配置。图5中所示的各组件可以采用硬件、软件或其组合实现。电子设备500可能是实体设备,例如PC机、笔记本电脑、平板电脑、手机、服务器、嵌入式设备等,也可能是虚拟设备,例如虚拟机、虚拟化容器等。并且,电子设备500也不限于单台设备,也可以是多台设备的组合或者大量设备构成的集群。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被计算机的处理器读取并运行时,执行本申请实施例提供的网络模型的训练方法和/或图像处理方法。例如,计算机可读存储介质可以实现为图5中电子设备500中的存储器520。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (9)
1.一种网络模型的训练方法,其特征在于,包括:
将训练图像输入至主干网络进行特征提取,获得所述训练图像的特征图,所述主干网络为神经网络;
将所述训练图像的特征图输入至第一分支网络进行处理,获得所述训练图像的全局特征,以及,将所述训练图像的特征图输入至第二分支网络进行处理,获得所述训练图像的局部特征;
联合所述训练图像的全局特征以及局部特征形成所述训练图像的特征;
基于所述训练图像的特征计算损失,并根据损失计算结果更新所述主干网络的参数;
其中,所述将所述训练图像的特征图输入至所述第二分支网络进行处理,获得所述训练图像的局部特征,包括:
确定所述训练图像的特征图中的遮挡区域,对所述遮挡区域内的像素进行擦除或者模糊处理,所述遮挡区域在所述训练图像的特征图中的位置随机选取;
对处理后的所述训练图像的特征图进行池化以及特征嵌入,获得所述训练图像的局部特征。
2.根据权利要求1所述的网络模型的训练方法,其特征在于,所述将所述训练图像的特征图输入至所述第一分支网络进行处理,获得所述训练图像的全局特征,包括:
利用所述第一分支网络对所述训练图像的特征图进行池化以及特征嵌入,获得所述训练图像的全局特征。
3.根据权利要求1所述的网络模型的训练方法,其特征在于,所述遮挡区域的面积大于预设阈值,和/或,所述遮挡区域为连续区域。
4.根据权利要求1所述的网络模型的训练方法,其特征在于,所述训练图像为一批图像,所述训练图像的特征图为一批尺寸相同的特征图,且各张特征图上的所述遮挡区域的位置和尺寸均相同。
5.根据权利要求1-4中任一项所述的网络模型的训练方法,其特征在于,所述联合所述训练图像的全局特征以及局部特征形成所述训练图像的特征,包括:
将所述训练图像的全局特征以及局部特征进行拼接,形成所述训练图像的特征,或者,将所述训练图像的全局特征以及局部特征进行加权求和,形成所述训练图像的特征。
6.根据权利要求5所述的网络模型的训练方法,其特征在于,所述训练图像的特征通过加权求和的方式形成,每更新一次所述主干网络的参数为一轮训练,当已进行的训练轮次小于预设轮次时,所述训练图像的全局特征的求和权重取第一权重,所述训练图像的局部特征的求和权重取第二权重,且所述第一权重大于所述第二权重。
7.一种图像处理方法,其特征在于,包括:
获取待处理图像;
将所述待处理图像输入至通过权利要求1-6中任一项所述的方法训练获得的主干网络进行处理,获得所述主干网络输出的所述待处理图像的特征图;
利用所述待处理图像的特征图执行图像处理任务。
8.一种网络模型的训练装置,其特征在于,包括:
主干处理模块,用于将训练图像输入至主干网络进行特征提取,获得所述训练图像的特征图,所述主干网络为神经网络;
分支处理模块,用于将所述训练图像的特征图输入至第一分支网络进行处理,获得所述训练图像的全局特征,以及,将所述训练图像的特征图输入至第二分支网络进行处理,获得所述训练图像的局部特征;
特征联合模块,用于联合所述训练图像的全局特征以及局部特征形成所述训练图像的特征;
参数更新模块,用于基于所述训练图像的特征计算损失,并根据损失计算结果更新所述主干网络的参数;
其中,所述分支处理模块将所述训练图像的特征图输入至所述第二分支网络进行处理,获得所述训练图像的局部特征,包括:确定所述训练图像的特征图中的遮挡区域,对所述遮挡区域内的像素进行擦除或者模糊处理,所述遮挡区域在所述训练图像的特征图中的位置随机选取;对处理后的所述训练图像的特征图进行池化以及特征嵌入,获得所述训练图像的局部特征。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器读取并运行时,执行如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010160713.XA CN111340195B (zh) | 2020-03-09 | 2020-03-09 | 网络模型的训练方法及装置、图像处理方法及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010160713.XA CN111340195B (zh) | 2020-03-09 | 2020-03-09 | 网络模型的训练方法及装置、图像处理方法及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111340195A CN111340195A (zh) | 2020-06-26 |
CN111340195B true CN111340195B (zh) | 2023-08-22 |
Family
ID=71184263
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010160713.XA Active CN111340195B (zh) | 2020-03-09 | 2020-03-09 | 网络模型的训练方法及装置、图像处理方法及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111340195B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113934870B (zh) * | 2020-07-14 | 2024-05-28 | 北京达佳互联信息技术有限公司 | 多媒体推荐模型的训练方法、装置及服务器 |
CN111899244B (zh) * | 2020-07-30 | 2021-02-12 | 推想医疗科技股份有限公司 | 图像分割、网络模型的训练方法及装置,及电子设备 |
CN113762304B (zh) * | 2020-11-26 | 2024-02-06 | 北京京东乾石科技有限公司 | 图像处理方法、图像处理装置和电子设备 |
CN112560791B (zh) * | 2020-12-28 | 2022-08-09 | 苏州科达科技股份有限公司 | 识别模型的训练方法、识别方法、装置及电子设备 |
CN112861659B (zh) * | 2021-01-22 | 2023-07-14 | 平安科技(深圳)有限公司 | 一种图像模型训练方法、装置及电子设备、存储介质 |
CN113221662B (zh) * | 2021-04-14 | 2022-09-27 | 上海芯翌智能科技有限公司 | 人脸识别模型的训练方法及装置、存储介质、终端 |
CN113239981B (zh) * | 2021-04-23 | 2022-04-12 | 中国科学院大学 | 局部特征耦合全局表征的图像分类方法 |
CN113205131A (zh) * | 2021-04-28 | 2021-08-03 | 阿波罗智联(北京)科技有限公司 | 图像数据的处理方法、装置、路侧设备和云控平台 |
CN114494800B (zh) * | 2022-02-17 | 2024-05-10 | 平安科技(深圳)有限公司 | 预测模型训练方法、装置、电子设备及存储介质 |
CN114972774A (zh) * | 2022-04-20 | 2022-08-30 | 平安科技(深圳)有限公司 | 特定区域的图像描述生成方法、装置、设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102970411A (zh) * | 2012-10-24 | 2013-03-13 | 康佳集团股份有限公司 | 基于人脸检测的智能手机锁屏解锁控制方法及智能手机 |
CN104992148A (zh) * | 2015-06-18 | 2015-10-21 | 江南大学 | 基于随机森林的atm终端部分遮挡人脸关键点检测方法 |
TW201843654A (zh) * | 2017-08-30 | 2018-12-16 | 大陸商騰訊科技(深圳)有限公司 | 圖像描述生成方法、模型訓練方法、設備和儲存媒體 |
CN109102483A (zh) * | 2018-07-24 | 2018-12-28 | 厦门美图之家科技有限公司 | 图像增强模型训练方法、装置、电子设备及可读存储介质 |
CN109117879A (zh) * | 2018-08-03 | 2019-01-01 | 南京旷云科技有限公司 | 图像分类方法、装置及系统 |
CN109447169A (zh) * | 2018-11-02 | 2019-03-08 | 北京旷视科技有限公司 | 图像处理方法及其模型的训练方法、装置和电子系统 |
CN109544482A (zh) * | 2018-11-29 | 2019-03-29 | 厦门美图之家科技有限公司 | 一种卷积神经网络模型生成方法及图像增强方法 |
CN109784415A (zh) * | 2019-01-25 | 2019-05-21 | 北京地平线机器人技术研发有限公司 | 图像识别方法及装置、训练卷积神经网络的方法及装置 |
CN109815770A (zh) * | 2019-01-31 | 2019-05-28 | 北京旷视科技有限公司 | 二维码检测方法、装置及系统 |
CN110059744A (zh) * | 2019-04-16 | 2019-07-26 | 腾讯科技(深圳)有限公司 | 训练神经网络的方法、图像处理的方法、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304755B (zh) * | 2017-03-08 | 2021-05-18 | 腾讯科技(深圳)有限公司 | 用于图像处理的神经网络模型的训练方法和装置 |
-
2020
- 2020-03-09 CN CN202010160713.XA patent/CN111340195B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102970411A (zh) * | 2012-10-24 | 2013-03-13 | 康佳集团股份有限公司 | 基于人脸检测的智能手机锁屏解锁控制方法及智能手机 |
CN104992148A (zh) * | 2015-06-18 | 2015-10-21 | 江南大学 | 基于随机森林的atm终端部分遮挡人脸关键点检测方法 |
TW201843654A (zh) * | 2017-08-30 | 2018-12-16 | 大陸商騰訊科技(深圳)有限公司 | 圖像描述生成方法、模型訓練方法、設備和儲存媒體 |
CN109102483A (zh) * | 2018-07-24 | 2018-12-28 | 厦门美图之家科技有限公司 | 图像增强模型训练方法、装置、电子设备及可读存储介质 |
CN109117879A (zh) * | 2018-08-03 | 2019-01-01 | 南京旷云科技有限公司 | 图像分类方法、装置及系统 |
CN109447169A (zh) * | 2018-11-02 | 2019-03-08 | 北京旷视科技有限公司 | 图像处理方法及其模型的训练方法、装置和电子系统 |
CN109544482A (zh) * | 2018-11-29 | 2019-03-29 | 厦门美图之家科技有限公司 | 一种卷积神经网络模型生成方法及图像增强方法 |
CN109784415A (zh) * | 2019-01-25 | 2019-05-21 | 北京地平线机器人技术研发有限公司 | 图像识别方法及装置、训练卷积神经网络的方法及装置 |
CN109815770A (zh) * | 2019-01-31 | 2019-05-28 | 北京旷视科技有限公司 | 二维码检测方法、装置及系统 |
CN110059744A (zh) * | 2019-04-16 | 2019-07-26 | 腾讯科技(深圳)有限公司 | 训练神经网络的方法、图像处理的方法、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111340195A (zh) | 2020-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111340195B (zh) | 网络模型的训练方法及装置、图像处理方法及存储介质 | |
CN109478239B (zh) | 检测图像中的对象的方法和对象检测系统 | |
CN109740534B (zh) | 图像处理方法、装置及处理设备 | |
KR101640998B1 (ko) | 화상 처리 장치 및 화상 처리 방법 | |
CN109829448B (zh) | 人脸识别方法、装置及存储介质 | |
US20220019870A1 (en) | Verification of classification decisions in convolutional neural networks | |
CN110807788A (zh) | 医学图像处理方法、装置、电子设备及计算机存储介质 | |
CN111401516A (zh) | 一种神经网络通道参数的搜索方法及相关设备 | |
US20220261659A1 (en) | Method and Apparatus for Determining Neural Network | |
CN108229673B (zh) | 卷积神经网络的处理方法、装置和电子设备 | |
CN112633159B (zh) | 人-物交互关系识别方法、模型训练方法及对应装置 | |
CN111695596A (zh) | 一种用于图像处理的神经网络以及相关设备 | |
CN114155365A (zh) | 模型训练方法、图像处理方法及相关装置 | |
CN111652181B (zh) | 目标跟踪方法、装置及电子设备 | |
CN112836653A (zh) | 人脸隐私化方法、设备、装置及计算机存储介质 | |
CN114511523B (zh) | 基于自监督学习的胃癌分子亚型分类方法及装置 | |
CN112381824B (zh) | 一种对图像的几何特征进行提取的方法和相关产品 | |
US20190392243A1 (en) | Segmenting irregular shapes in images using deep region growing with an image pyramid | |
CN107886060A (zh) | 基于视频的行人自动检测与跟踪方法 | |
CN111353577B (zh) | 基于多任务的级联组合模型的优化方法、装置及终端设备 | |
US10776923B2 (en) | Segmenting irregular shapes in images using deep region growing | |
CN113221929A (zh) | 一种图像处理方法以及相关设备 | |
CN112884706B (zh) | 一种基于神经网络模型的图像评估系统和相关产品 | |
CN112801238B (zh) | 一种图像分类方法、装置、电子设备及存储介质 | |
CN111414922B (zh) | 特征提取方法、图像处理方法、模型训练方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |