CN111191664B - 标签识别网络的训练方法、标签识别装置/方法及设备 - Google Patents
标签识别网络的训练方法、标签识别装置/方法及设备 Download PDFInfo
- Publication number
- CN111191664B CN111191664B CN201811353105.XA CN201811353105A CN111191664B CN 111191664 B CN111191664 B CN 111191664B CN 201811353105 A CN201811353105 A CN 201811353105A CN 111191664 B CN111191664 B CN 111191664B
- Authority
- CN
- China
- Prior art keywords
- sub
- image
- network
- tag
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 114
- 238000000034 method Methods 0.000 title claims abstract description 101
- 238000012545 processing Methods 0.000 claims abstract description 45
- 238000006243 chemical reaction Methods 0.000 claims abstract description 28
- 230000008569 process Effects 0.000 claims description 55
- 230000015654 memory Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 description 36
- 238000010586 diagram Methods 0.000 description 18
- 239000013598 vector Substances 0.000 description 15
- 238000000605 extraction Methods 0.000 description 13
- 238000013527 convolutional neural network Methods 0.000 description 12
- 241000282472 Canis lupus familiaris Species 0.000 description 9
- 238000010422 painting Methods 0.000 description 9
- 238000010428 oil painting Methods 0.000 description 8
- 241000282326 Felis catus Species 0.000 description 7
- 230000004927 fusion Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000002372 labelling Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
- G06V10/7784—Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
- G06V10/7788—Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors the supervisor being a human, e.g. interactive learning with a human teacher
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/35—Categorising the entire scene, e.g. birthday party or wedding scene
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
Abstract
本公开提供了一种用于标签识别网络的训练方法、标签识别装置/方法及设备。所述用于标签识别网络的训练方法包括:获取第一数量的第一图像,每个第一图像具有其标准标签;利用所述第一数量的第一图像及其标准标签来调整所述标签识别网络的参数;从所述第一数量的第一图像中选择第二数量的第一图像作为待转换图像,所述第二数量小于第一数量;对于每个待转换图像,进行风格转换处理以生成与其对应的第二图像,并将该待转换图像的标准标签作为该第二图像的标准标签;以及利用所述第二数量的第二图像及其标准标签来调整所述标签识别网络的参数。
Description
技术领域
本公开涉及标签识别领域,具体的涉及一种标签识别网络的训练方法、标签识别装置/方法及设备。
背景技术
利用神经网络来进行图像标签的识别是随着深度学习技术的发展而新兴起来的技术,所述标签可以表示为图像的内容、场景以及图像风格等特征。在现有的图像标签识别方法中,需要将待识别图像输入至神经网络中,所述神经网络对其进行处理,从而生成该待识别图像的标签。要想实现理想的标签输出结果,需要预先收集大量的标注有真实标签的训练图像,用于完成对于神经网络的训练过程。所述训练过程可以包括将训练图像输入至待训练的神经网络中,并输出对应于该训练图像的输出结果,利用神经网络损失函数基于该输出结果和对应于该训练图像的真实标签来调整神经网络的参数,通过不断的训练过程,使得神经网络输出的结果越来越接近真实标签。
发明内容
根据本公开的一方面,提供了一种用于标签识别网络的训练方法,包括:获取第一数量的第一图像,每个第一图像具有其标准标签;利用所述第一数量的第一图像及其标准标签来调整所述标签识别网络的参数;从所述第一数量的第一图像中选择第二数量的第一图像作为待转换图像,所述第二数量小于第一数量;对于每个待转换图像,进行风格转换处理以生成与其对应的第二图像,并将该待转换图像的标准标签作为该第二图像的标准标签;以及利用所述第二数量的第二图像及其标准标签来调整所述标签识别网络的参数。
根据本公开实施例,所述方法还包括:获取第三数量的第三图像,每个第三图像具有其标准标签;利用所述第三数量的第三图像及其标准标签来调整所述标签识别网络的参数,其中所述第三图像的风格与所述第二图像的风格相同。
根据本公开实施例,其中,所述第一图像为摄影图像,所述第二图像为第一图像经由风格转换处理生成的绘画作品,所述第三图像为真实的绘画作品。
根据本公开实施例,其中,所述标签识别网络包括第一子网络和第二子网络;所述第一子网络接收输入图像,向第二子网络输出中间子图像,并且生成该输入图像的第一子识别标签,以及所述第二子网络从第一子网络接收所述中间子图像,生成第二子识别标签。
根据本公开实施例,其中,所述利用所述第一数量的第一图像及其标准标签来调整所述标签识别网络的参数包括:对于所述第一数量的第一图像中的一部分第一图像,将每个第一图像作为输入图像输入到第一子网络,根据该输入图像的标准标签和该第一子网络输出的第一子识别标签来调整所述第一子网络的参数;以及固定所述第一子网络的参数,利用所述第一数量的第一图像中的至少一部分第一图像中的每个第一图像作为输入图像输入到第一子网络,根据该输入图像的标准标签和该第二子网络输出的第二子识别标签来调整所述第二子网络的参数。
根据本公开实施例,其中,所述第一子网络具有多个卷积层,并且所述调整所述第二子网络的参数包括:对于每个第一图像,将所述第一子网络中第i卷积层的输出结果作为第一中间子图像输入到第二子网络;将所述第一子网络中第j卷积层的输出结果作为第二中间子图像输入到第二子网络,所述第二中间子图像与第一中间子图像具有不同的尺寸;根据该第一图像的标准标签和该第二子网络输出的第二子识别标签来调整所述第二子网络的参数,其中,i小于j,i和j为正整数。
根据本公开实施例,其中,所述标准标签包括内容标签或场景标签。
根据本公开的另一方面,提供了一种标签识别装置,包括:第一子网络模块,用于接收输入图像,对输入图像进行处理生成中间子图像,并且生成该输入图像的第一子识别标签;第二子网络模块,用于从第一子网络模块接收所述中间子图像,并且对所述中间子图像进行处理生成第二子识别标签;以及组合模块,用于组合所述第一子识别标签和第二子识别标签,生成识别标签。
根据本公开实施例,其中,所述第一子网络模块具有多个卷积层,并且将第i卷积层的输出结果作为第一中间子图像输入到第二子网络模块,将第j卷积层的输出结果作为第二中间子图像输入到第二子网络,所述第二中间子图像与第一中间子图像具有不同的尺寸;i小于j,i和j为正整数。
根据本公开实施例,所述标签识别装置还包括训练模块,用于:获取第一数量的第一图像,每个第一图像具有其标准标签;利用所述第一数量的第一图像及其标准标签来调整所述标签识别网络的参数;从所述第一数量的第一图像中选择第二数量的第一图像作为待转换图像,所述第二数量小于第一数量;对于每个待转换图像,进行风格转换处理以生成与其对应的第二图像,并将该待转换图像的标准标签作为该第二图像的标准标签;以及利用所述第二数量的第二图像及其标准标签来调整所述标签识别网络的参数。
根据本公开实施例,所述训练模块还用于获取第三数量的第三图像,每个第三图像具有其标准标签;利用所述第三数量的第三图像及其标准标签来调整所述标签识别网络的参数,其中所述第三图像的风格与所述第二图像的风格相同。
根据本公开实施例,其中,所述训练模块利用所述第一数量的第一图像及其标准标签来调整所述标签识别网络的参数包括:对于所述第一数量的第一图像中的一部分第一图像,将每个第一图像作为第一训练图像输入到第一子网络模块,根据该训练图像的标准标签和该第一子网络模块输出的第一子识别标签来调整所述第一子网络模块的参数;以及固定所述第一子网络模块的参数,利用所述第一数量的第一图像中的至少一部分第一图像中的每个第一图像作为第二训练图像输入到第一子网络模块,根据该第二训练图像的标准标签和该第二子网络模块输出的第二子识别标签来调整所述第二子网络模块的参数。
根据本公开实施例,其中,所述训练模块调整所述第二子网络模块的参数包括:接收所述第一子网络模块输出的第一中间子图像和第二中间子图像,并对所述中间子图像进行处理以生成第二子识别标签;根据该输入图像的标准标签和该第二子网络模块输出的第二子识别标签来调整所述第二子网络模块的参数。
根据本公开实施例,其中,所述第一图像为摄影图像,所述第二图像为第一图像经由风格转换处理生成的绘画作品,所述第三图像为真实的绘画作品。
根据本公开实施例,其中,所述标准标签包括内容标签或场景标签。
根据本公开的又一方面,提供了一种标签识别方法,包括:获取输入图像;利用标签识别网络的第一子网络接收所述输入图像并对所述输入图像进行处理,输出中间子图像并生成第一子识别标签;利用标签识别网络的第二子网络从所述第一子网络接收所述中间子图像,并对所述中间子图像进行图像处理生成第二子识别标签;以及组合所述第一子识别标签和第二子识别标签,生成识别标签。
根据本公开实施例,其中,所述第一子网络具有多个卷积层,将第i卷积层的输出结果作为第一中间子图像,将第j卷积层的输出结果作为第二中间子图像,所述第一中间子图像与第二中间子图像具有不同的尺寸,i小于j,i和j为正整数;利用所述标签识别网络基于所述第一子识别标签和第二子识别标签生成识别标签。
根据本公开的又一方面,提供了一种图像处理设备,包括:一个或多个处理器;一个或多个存储器,其中,所述存储器存储有计算机可读代码,所述计算机可读代码当由所述一个或多个处理器运行时执行如上所述的用于标签识别网络的训练方法或执行如上所述的标签识别方法。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本公开实施例的用于标签识别网络的训练方法的流程图;
图2A中示出了根据本公开实施例的第一图像的示意图;
图2B中示出了根据本公开实施例的第三图像的示意图;
图3示出了根据本公开实施例的标签识别网络的结构示意图;
图4示出了根据本公开实施例的调整标签识别网络的参数的流程图;
图5示出了根据本公开的标签识别网络的进一步的示意图;
图6示出了根据本公开实施例的调整所述第二子网络的参数的流程图;
图7示出了根据本公开实施例的标签识别装置的示意图;
图8示出了根据本公开实施例的标签识别网络的结构图;
图9示出了根据本公开实施例的特征关联网络的结构图;
图10示出了根据本公开实施例的特征提取网络的结构图;
图11示出了根据本公开实施例的置信度网络的结构图;
图12示出了根据本公开实施例的标签识别方法的流程图;
图13示出了根据本公开实施例的图像处理设备的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
本公开中使用了流程图用来说明根据本公开的实施例的方法的步骤。应当理解的是,前面或后面的步骤不一定按照顺序来精确的进行。相反,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步。
人工神经网络(Artificial Neural Networks)是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的,并具有自学习和自适应的能力。基于神经网络的深度学习技术在对于数据的理解、图像特征识别等方面具有非常大的潜力。例如,利用神经网络进行标签识别可以有效、快速地实现图像分类等功能。
在构建了神经网络的结构之后,需要对神经网络设置初始参数值,并通过预先构建的训练图像数据库来完成对于神经网络的训练过程,使得其能输出预期结果,例如识别图像中的内容标签。所述训练过程可以理解为不断调整神经网络的参数的过程,利用损失函数基于大量的具有真实标签的训练图像来不断优化神经网络的参数,即,使得神经网络的输出结果越来越接近真实标签。换句话说,经过训练的神经网络学习到了输出预期结果的能力。
由此,在利用神经网络实现对于某类风格(例如,油画)的绘画作品的内容特征进行识别的任务中,需要预先构建包含大量的该类风格的绘画作品特征的图像数据库,并且需要对每幅图像预先标注真实标签。然而,在构建图像数据库的过程中,例如,期望要识别具有油画特征的绘画作品中的内容特征,需要收集大量的油画作品的图像。然而,通常很难获得足够数量的具有油画特征的绘画作品来作为训练图像。并且,对于获得的具有油画特征的绘画作品,需要人为的标注其真实标签,例如,一幅油画作品的内容特征为狗,则需要将与该油画作品对应的标签标注为狗,由此,神经网络的训练过程还面临着巨大的标注任务量的问题。此外,在期望神经网络实现针对多种绘画风格的绘画作品识别多种内容特征的应用情景中,所需的训练图像的数据量以及标注真实标签的任务量也随之增加。
本公开提出了一种用于标签识别网络的训练方法、标签识别装置/方法及设备。所述用于标签识别网络的训练方法,可以基于容易获得的普通摄影图像结合图像风格转换处理来实现上述标签识别网络的训练过程,所述标签识别识别网络可以是具有神经网络架构的标签识别装置。
图1示出了根据本公开实施例的用于标签识别网络的训练方法的流程图。首先,在步骤S101,获取第一数量的第一图像,其中,每个第一图像具有其标准标签。所述第一图像可以为容易获得的摄影图像,例如,图2A中所示出的。通过收集第一数量的第一图像来构建用于训练所述标签识别网络的训练图像数据库。
所述标签识别网络可以是基于神经网络的结构,并可以预期用于实现对各类风格的绘画作品进行内容特征的识别,并输出内容特征标签。由于第一图像为摄影图像,相较于绘画作品的图像,可以更容易的获得大量的图像数据,例如基于现有的图像数据库。例如,所述第一数量可以为一万幅图像。所述标签识别网络输出的内容特征标签可以是包含一个值的标签或者是多个值的标签向量,即利用标签识别网络实现对于一幅输入图像的多标签识别。例如,可以预期所述标签识别网络实现对于10个内容特征的识别,所述内容特征可以分别是猫、狗、人、窗户、天空、太阳、山、河流、房子、椅子,则当将一幅图像输入至所述标签识别网络后,将期望所述网络输出一标签向量,例如,R=(1110000000),此标签向量表示所述标签识别网络通过对输入图像进行图像处理后,判断所述输入图像中包含猫、狗和人的内容特征,而不包含窗户、天空、太阳、山、河流、房子、椅子的内容特征。可以理解的是,上述关于内容特征的标签仅为示例性的,根据本公开的标签识别网络还可以用于识别其他内容特征,或者也可以用于识别场景特征、图像风格特征(例如,油画、水墨画等),在此不再赘述。
接着,在步骤S102,利用所述第一数量的第一图像及其标准标签来调整所述标签识别网络的参数。所述调整标签识别网络的参数可以是利用第一图像来训练所述标签识别网络进行内容特征识别的过程。例如,可以将所述第一数量的第一图像中的每一幅图像逐个输入至标签识别网络中,所述标签识别网络针对输入图像可以生成一标签向量R,通过比较标签识别网络输出的标签向量R和该第一图像的真实标签向量Y1来不断调整标签识别网络的参数,使得其生成的标签向量R越来越接近真实标签Y1。
根据本公开实施例,所述参数可以包括标签识别网络中卷积神经网络的卷积核和偏置,所述卷积核和偏置可以决定用于生成标签识别结果的图像特征的使能情况,例如,通过所述卷积核和偏置可以决定从输入图像中提取的特征图中的每个元素对于生成识别标签的贡献权重值。通过调整所述标签识别网络的参数使得输出的识别标签更接近于真实标签。
根据本公开实施例,所述利用第一数量的第一图像及其标准标签来调整所述标签识别网络的参数的过程可以通过构建损失函数的方式并计算损失值的方式来实现。例如,将某一第一图像I1输入至标签识别网络后,所述标签识别网络对该第一图像进行处理,并生成识别标签R,基于该标签R以及该第一图像的真实标签Y1,按照损失函数来计算当前网络的损失值,并基于计算得到的损失值来调整所述网络的参数。再将另一第一图像I2输入至标签识别网络后,再次按照上述过程计算损失值并调整所述网络的参数,从而使得所述网络的损失值逐渐减小,所述网络生成的识别标签逐渐接近真实标签,即训练所述网络进行图像处理并输出预期的结果。
由此,需要对用于训练的第一图像进行真实的内容特征的标注。例如,可以通过现有的标注工具或人工地进行标注,需要注意的是,本公开实施例与进行真实标签的标注的方法无关,并不构成对于本公开的限制。例如,对于如图2A中示出的第一图像,可以将其真实标签标注为Y1=(1100000000),即表示该图像中包含有猫和狗的特征,而不包含人、窗户、天空、太阳、山、河流、房子、椅子的特征。
在步骤S102中,可以基于第一数量的具有真实标签的第一图像来实现对于标签识别网络的初步训练,所述标签识别网络可以是预期用于实现对于绘画作品的内容特征进行识别。在此初步训练的过程中,由于第一图像为摄影图像,则相较于绘画作品更容易获得足够数量的图像数据。此外,绘画作品多为对于真实场景的抽象的表示,相比较而言,真实反映图像特征的摄影图像更容易准确地标注其内容特征标签。换句话说,步骤S102中利用摄影图像来对标签识别网络进行初步训练的过程降低了获取大量的带有真实标签的绘画作品训练图像的难度。例如,可以将经过如步骤S102中所述的初步训练的标签识别网络表示为模型1。
接着,在步骤S103中,从所述第一数量的第一图像中选择第二数量的第一图像作为待转换图像,其中,所述第二数量可以小于第一数量。在步骤S104中,对于每个待转换图像,进行风格转换处理以生成与其对应的第二图像,并将该待转换图像的标准标签作为该第二图像的标准标签。
由于所述标签识别网络预期用于对绘画作品进行内容特征识别,则在步骤S102的训练的基础上,需要利用具有绘画作品特征的图像进行进一步的训练。
根据本公开的实施例中,将上述训练过程与图像风格转换处理相结合,通过图像风格转换处理来将所述第一数量的第一图像中的一部分图像,例如第二数量的第一图像转换为具有绘画风格的第二图像。所述图像风格转换处理可以基于现有的风格转换处理工具来实现,例如利用具有风格转换功能的另一神经网络来进行上述转换过程。例如,将作为摄影图像的第一图像转换为具有油画风格的第二图像。此外,在预期所述标签识别网络实现针对多种绘画风格的图像进行特征识别的情况中,还可以利用风格转换工具来将所述待转换图像转换成不同的绘画风格,并分别对所述标签识别网络进行训练。
在本公开中,例如可以根据产生所述绘画作品所使用的物质材料、工具或表现手法的不同来对所述绘画作品的风格进行分类。例如,绘画作品的风格可以是中国画、油画、版画、水彩画、水粉画、素描、速写等类型。需要注意的是,所述绘画作品的风格并不构成对于本公开的限制。
此外,由于所述第二图像为对第一图像进行图像风格转换处理获得的图像,则所述获得的第二图像的标准标签Y2与生成其的第一图像的标准标签Y1相同。
接着,在步骤S105中,利用所述第二数量的第二图像及其标准标签来调整所述标签识别网络的参数,所述标签识别网络的参数的调整过程可以在经过初步训练的模型1的基础上进行。如上所述,所述第二图像的标准标签Y2与生成其的第一图像的标准标签Y1相同,则在此步骤中,无需再对第二图像进行标准标签的标注。根据本公开实施例,步骤S105可以为在经过步骤102的初步训练的基础上,对所述标签识别网络进行进一步的训练的过程,即进一步的调整所述标签识别网络的参数,以使得其学习对于经过图像风格转换处理后的第二图像的内容特征的识别。所述调整的过程与步骤S102中相似,即,将第二数量的第二图像中的每一幅图像输入至所述标签识别网络,并输出一识别标签R,通过比较输出的识别标签R和该输入图像的真实标签Y2来调整所述标签识别网络的参数,使得其输出的识别标签R越来越接近真实标签Y2,从而使得所述标签识别网络实现对于绘画作品的内容特征的识别。例如,可以将经过如步骤S105中所述的训练步骤的标签识别网络表示为模型2。
在根据本公开的实施例中,基于容易获得的摄影图像结合图像风格转换处理来实现标签识别网络的训练。由于通过转换获得的第二图像具有与生成其的第一图像相同的标准标签,减少了对于第二图像进行真实标签标注的步骤,从而简化所述标签识别网络的训练过程。
如图1所示,在根据本公开的一个实施例中,所述用于标签识别网络的训练方法还可以包括步骤S106和步骤S107。
在步骤S106中,获取第三数量的第三图像,每个第三图像具有其标准标签。例如,可以获得与第二图像风格相同的真实的绘画作品作为第三图像,并利用标注工具对其进行真实标签的标注,以用于进一步训练所述标签识别网络。图2B中示出了根据本公开实施例的第三图像的示意图。对于图2B中示出的第三图像,其标准标签Y3可以是Y3=(0011000001),即表示该第三图像中包含人、窗户和椅子的特征,而不包含猫、狗、、天空、太阳、山、河流和房子的特征。
接着,在步骤S107中,利用所述第三数量的第三图像及其标准标签来调整所述标签识别网络的参数。此参数调整过程可以在经过步骤S105调整获得的模型2的基础上进行,即实现对于所述标签识别网络的更进一步地训练,使得其输出的识别标签R更接近真实标签Y3。所述调整过程与步骤S102和S105相似,在此不再赘述。
由于所述标签识别网络在此步骤S107之前已经经过如步骤S102和步骤S105所述的训练过程,由此所需的第三图像的数量可以远小于第一数量或第二数量。例如,在第一数量为一万的情况下,所述第三数量可以为一百。由此在训练所述标签识别网络来进行绘画作品标签识别的过程中,减少了所需的真实绘画作品的数量,简化了获取大量绘画作品并对其进行真实标签标注的过程。例如,可以将经过如步骤S107中所述的训练步骤的标签识别网络表示为模型3,并作为最终的用于识别绘画作品中的内容特征的标签识别网络。
根据本公开实施例,其中,所述标签识别网络可以包括第一子网络和第二子网络。图3示出了根据本公开实施例的标签识别网络的结构示意图。其中,可以由所述标签识别网络中的第一子网络来接收输入图像,所述第一子网络中可以包含多个卷积层以实现对于输入图像的特征进行处理,以向所述第二子网络输出中间子图像,并且生成该输入图像的第一子识别标签R1。
所述标签识别网络的第二子网络从第一子网络接收所述中间子图像,用以生成第二子识别标签R2。根据本公开实施例,所述标签识别网络可以基于第一子识别标签R1和第二子识别标签R2来生成识别标签R。例如,最终输出的识别标签可以表示为R=0.5×(R1+R2),其中,所述R、R1和R2可以为对应于多个内容特征的标签向量,也可以为对应于一个内容特征的标签值。根据本公开的其他实施例,还可以采用其他的方式来基于R1和R2生成R。例如,可以通过对R1和R2设置不同的权重值来得到R,此处所述识别标签R可以表示为R=a×R1+b×R2,其中,数值a和b可以是R1和R2的权重值
此外,所述标签识别网络还可以输出第一子识别标签R1、第二子识别标签R2和识别标签R三者。
如图4所示,根据本公开的一个实施例,在步骤S102中,利用所述第一数量的第一图像及其标准标签来调整所述标签识别网络的参数还可以包括步骤S201和步骤S202。
在步骤S201中,对于所述第一数量的第一图像中的一部分第一图像,将每个第一图像作为输入图像输入到第一子网络,根据该输入图像的标准标签和该第一子网络输出的第一子识别标签来调整所述第一子网络的参数。即,在上述步骤S201中,可以首先训练如图3中示出的第一子网络的参数,在此过程中,只基于第一子网络输出的第一子识别标签R1以及第一图像的标准标签Y1来调整所述第一子网络的参数,而不调整第二子网络的参数。
接着,在步骤S202中,固定所述第一子网络的参数,利用所述第一数量的第一图像中的至少一部分第一图像中的每个第一图像作为输入图像输入到第一子网络,根据该输入图像的标准标签和该第二子网络输出的第二子识别标签R2来调整所述第二子网络的参数。
上述步骤S201和步骤S202中,将第一子网络和第二子网络分别进行训练的过程可以根据标签识别网络的具体情况来选择进行。举例来说,在第一子网络已经具有较好的初始参数的情况下,可以适当的减少用于训练所述第一子网络的第一图像的个数,在第二子网络为新构建的神经网络,且初始参数不成熟的情况下,适当的增加用于训练所述第二子网络的第一图像的个数,从而使得上述两部分的网络的学习能力相匹配,避免同时训练两个网络可能造成地某个子网络学习能力较强而另一子网络学习能力较弱的情况。
此外,所述用于训练所述第一子网络的第一图像与用于训练所述第二子网络的第一图像可以相同也可以不相同,本公开对此并不进行限制。
根据本公开实施例,在训练所述标签识别网络的过程中,可以根据所述第一子网络的和第二子网络的初始参数的具体情况来将第一子网络和第二子网络的参数分别进行训练。其中,将第一子网络和第二子网络的参数分别进行训练可以包括先训练第一子网络,固定第一子网络的参数,再训练第二子网络。根据本公开的另一实施例,也可以直接将所述标签识别网络作为一个整体来进行上述参数调整的过程,即根据最终输出的识别标签R来共同调整所述第一子网络和第二子网络的参数。根据本公开的其他实施例,还可以将上述子网络的分别训练和作为一个整体进行训练的过程相结合来进行。
根据本公开实施例的所述第一子网络可以由多个卷积层组成,用于对输入图像的特征进行处理,从而生成第一识别子标签。需要理解的是,所述第一子网络的结构还可以根据需要设置其他的结构,例如全连接层、池化层或归一化层等。
图5示出了根据本公开的标签识别网络的进一步的示意图。如图5中示出的,所述第一子网络包括n个卷积层,如卷积层Conv1、卷积层Convi、卷积层Convj和卷积层Convn。如上所述,图5中示出的第一子网络的结构仅为示意性的,所述第一子网络还可以包括其他的卷积层或其他的处理结构。
在图5中,卷积层Convi输出的中间子图像M1不仅输入至其后的卷积层Convj,还输入至第二子网络,卷积层Convj输出的中间子图像M2也不仅输入至其后的卷积层Convn,还输入至第二子网络。所述中间子图像M1和M2可以作为用于训练所述第二子网络的第一中间子图像M1和第二中间子图像M2。其中,所述卷积层Convi和卷积层Convj在第一子网络中可以为相邻的卷积层,也可以不相邻的卷积层,其中,i小于j,i和j为正整数。
在根据本公开的实施例中,所述第二子网络在接收到所述中间子图像M1和M2后,可以分别对其进行图像特征提取并进行图像特征融合等处理,从而生成第二子识别标签R2。
根据本公开的调整所述第二子网络的参数,对于每个第一图像,还可以包括如图6所示出的以下步骤。
在步骤S301中,将所述第一子网络中第i卷积层Convi的输出结果M1作为第一中间子图像输入到第二子网络;在步骤S302中,将所述第一子网络中第j卷积层Convj的输出结果作为第二中间子图像M2输入到第二子网络。由于第二中间子图像M2与第一中间子图像M1相比,经过了更多的卷积层的处理,例如经过卷积层Convj的处理,使得第二中间子图像M2的尺寸与第一中间子图像M1不相同。所述第二中间子图像M2的尺寸小于所述第一中间子图像M1的尺寸。
接着,在步骤S303中,根据该第一图像的标准标签和该第二子网络输出的第二子识别标签R2来调整所述第二子网络的参数。所述第二子网络接收第一子网络中经过不同层数的卷积层处理后的两个子图像M1和M2,所述子图像M1和M2具有来自不同层级的内容特征。通过图像特征融合等处理,所述第二子网络输出第二子识别标签R2,并根据第二子识别标签R2和用于生成该子图像的第一图像的真实标签来调整所述第二子网络的参数,使得第二子网络的输出结果越来越接近真实标签。
根据本公开实施例的用于标签识别网络的训练方法,基于容易获得的摄影图像结合图像风格转换处理来实现所述标签识别网络的训练,所述标签识别识别网络可以是具有神经网络架构的标签识别装置。由于通过图像风格转换处理获得的第二图像具有与生成其的第一图像相同的标准标签,减少了对于第二图像进行真实标签标注的步骤,从而简化所述标签识别网络的训练过程。此外,利用摄影图像来对标签识别网络进行初步训练的过程也降低了获取大量的带有真实标签的绘画作品的图像的难度。
以下将结合附图对根据本公开一个实施例的标签识别装置进行详细的描述。需要理解的是,根据本公开的训练方法可以用于训练所述标签识别装置,还可以用于实现对于其他的标签识别神经网络结构的训练过程。
本公开提供了一种标签识别标签装置,图7示出了所述标签识别装置100的示意图。所述标签识别网络100例如可以包括第一子网络模块101、第二子网络模块102和组合模块103。其中,所述第一子网络模块101可以用于接收输入图像,对输入图像进行处理生成中间子图像,并且生成该输入图像的第一子识别标签。所述第二子网络模块102可以用于从第一子网络模块101接收所述中间子图像,并且对所述中间子图像进行处理生成第二子识别标签。所述组合模块103可以用于组合所述第一子识别标签和第二子识别标签,生成识别标签。
根据本公开的实施例,所述第一子网络模块101可以为现有技术中用于实现内容特征分类的卷积神经网络(例如ResNet-101)。所述卷积神经网络的网络深度可以为101层,并且,经过图像数据库(ImageNet)中大量图像的训练后,所述卷积神经网络可以将输入的图像分为例如1000个标签类别,例如键盘、鼠标、铅笔和各种动物等,即所述卷积神经网络输出的识别标签为包含1000个值的标签向量。在所述标签向量中,如果某一位置处的数值为1,即表示所述卷积神经网络判断得到输入图像中包含与该位置对应的特征,例如猫;如果标签向量中另一位置处的数值为0,即表示所述卷积神经网络判断得到该输入图像中不包含与该位置对应的特征,例如狗。所述卷积神经网络的输入图像的大小可以为224×224。
在现有技术的基础上,可以利用上述经过所述图像数据库(ImageNet)训练的卷积神经网络来实现对于输入图像进行预期的特征识别。例如,所述卷积神经网络本身由于经过上述图像数据库的训练可以实现对于1000个特征的识别,即具有可以实现特征识别的初始参数。在此基础上,可以利用所述卷积神经网络实现预期的特征识别,例如,实现对于猫、狗、人、窗户、天空、太阳、山、河流、房子、椅子的10个内容特征的识别。此处,仅需要基于预期的特征识别任务在所述卷积神经网络的基础上继续训练所述网络以实现预期的识别结果,并根据预期实现的内容特征的数目(例如,10)输出识别标签R。
由于所述第一子网络模块101可以通过现有的卷积神经网络(ResNet-101)来实现,在此不再赘述所述第一子网络模块101的具体结构。需要注意的是,根据本公开的其他实施例中,所述第一子网络模块101还可以实施为可以实现图像特征识别的其他的神经网络,所述第一子网络模块101的结构并不构成对于本公开的限制。
根据本公开实施例,所述第一子网络模块101接收输入图像,输出中间子图像,并生成该输入图像的第一子识别标签R1。
根据本公开实施例,所述标签识别网络100中的第二子网络模块102接收所述第一子网络模块101输出的中间子图像,并输出第二子识别标签R2。
图8示出了根据本公开实施例的标签识别网络的结构图,其中,所述第一子网络模块101采用如上所述的卷积神经网络(ResNet-101)的结构,在此不再赘述。所述第二子网络模块102接收第一子网络模块101输出的第一中间子图像M1以及第二中间子图像M2。其中,所述第一中间子图像M1可以为所述第一子网络模块101的第i卷积层的输出结果,例如卷积层Conv4_x,此时,i=4。所述第二中间子图像M2可以为所述第一子网络模块101的第j卷积层的输出结果,例如卷积层Conv5_x,此时,j=5。由于,M2与M1相比,经过了更多层数的卷积层的处理,例如,卷积层Conv5_x,从而使得M2特征图(Feature map)的尺寸小于M1的特征图尺寸。例如,M1的特征图为14×14×1024,则经过卷积层Conv5_x处理后的得到的M2的特征图可以为7×7×2048。其中,14×14或7×7表示特征图的尺寸,1024或2048表示特征图的通道数,所述通道数与卷积层中卷积核的数目相同。例如,可以将经过较多卷积层处理得到的第二子图像M2表示为高层特征,将经过相对较少卷积层处理得到的第一子图像M1表示为低层特征。
作为低层特征的所述第一中间子图像M1由于具有的特征图的尺寸较大,而包含较多的纹理信息(或称为细节信息),而作为高层特征的所述第二中间子图像M2由于具有的特征图的尺寸较小,且经过了更深层的卷积网络的处理从而包含丰富的语义信息,换句话说,所述高层特征中由于进行了更深层的分析而提取有更准确的图像特征。所述第二子网络模块102接收具有不同层级特征的中间子图像而共同进行图像特征处理,实现利用不同尺寸的特征图来进行内容特征的识别。通过将上述高层特征与低层特征进行融合的过程既可以充分利用高层特征中的语义信息,也可以充分利用低层特征中的细节信息,从而更有利于提高内容特征识别的准确性。
如图8中所示出的,所述标签识别装置100的第二子网络模块102可以包括特征融合网络、特征关联网络、特征提取网络、置信度网络等结构。其中,所述特征融合网络用于接收第一子网络模块101接收的中间子图像M1和M2。
根据本公开实施例,所述特征融合网络可以分别利用卷积网络Conv来对中间子图像M1和M2进行处理,并分别输出处理结果P1和P2。例如,在所述第一中间子图像M1的特征图为14×14×1024,所述第二中间子图像M2的特征图为7×7×2048的情况下,子图像M1经过一256核1×1的卷积层进行处理后,可以生成具有256通道的特征图P1,其尺寸为14×14×256;子图像M2经过一256核1×1的卷积层进行处理后,可以生成具有256通道的特征图P2,其尺寸为7×7×256。然后,将所述特征图进行2倍的上采样处理,从而使得输出的特征图P3具有与特征图P1相同的14×14×256尺寸。所述特征融合网络还可以包含有合并模块(Concat),所述合并模块例如可以采用Concat函数来实现,用于将两个或多个数组结合起来。例如,可以将特征图P1和P3一起输入至合并模块,所述合并模块将P1和P3进行合并,并输出一合并后的特征图P4,其尺寸为14×14×512。
根据本公开实施例,所述特征融合网络将特征图P4输入至特征关联网络,图9示出了根据本公开实施例的特征关联网络的结构图。
如图9所示,所述特征关联网络可以用于接收特征图P4,所述特征图P4的尺寸例如可以是14×14×512,所述特征关联网络还可以对接收的特征图P4中的特征进行关联处理,用来增强特征的表达,换句话说,所述特征关联网络可以使得神经网络更加关注于与预期的结果相关的特征,从而实现更好的特征识别的效果。根据本公开的一个实施例,所述特征关联网络例如可以包括现有技术中的位置注意力模块(Position Attention,PA)和通道注意力模块(Channel Attention,CA)来分别对输入的特征图进行处理,还可以包括卷积网络Conv来进一步提取经过位置注意力模块或通道注意力模块输出的特征图,并分别生成特征图P5’和P5”,从而进一步实现跨通道的交互和信息整合。所述特征图P5’和P5”的尺寸例如可以是14×14×512。所述特征关联网络还可以对于特征图P5’和P5”进行相加处理,以得到特征图P5,P5的尺寸例如可以是14×14×512。所述特征关联网络还可以将该特征图P5分别输出至特征提取网络和置信度网络。需要注意的是,所述特征关联网络还可以是根据图像处理的需要设置有其他的处理结构,本公开对比并不作限制。
图10示出了根据本公开实施例的特征提取网络的结构图,所述特征提取网络可以用于接收特征关联网络输出的特征图P5,其尺寸可以是14×14×512。根据本公开的一个实施例,所述特征提取网络可以采用现有技术中的注意力网络的结构。神经网络的注意力例如可以理解为人类的选择性视觉注意力机制,其核心目标是从众多信息中选择出对于当前处理任务更关键的信息。如图10中所示出的,所述特征提取网络可以包括256通道1×1卷积层、256通道3×3卷积层、num_classes通道1×1卷积层组成,其中num_classes为预期要识别的内容特征的个数。例如,在预期要识别10个内容特征的情况下,其中,所述内容特征可以分别是猫、狗、人、窗户、天空、太阳、山、河流、房子、椅子,此时num_classes的值可以设置为10,即所述特征提取网络将输出尺寸为14×14×10的特征图P6。
图11示出了根据本公开实施例的置信度网络的结构图,用于生成与所述特征提取网络提取的特征图相对应的置信度值,即用于判断输入的图像中是否包含有预期要识别的内容特征。根据本公开的一个实施例,所述特征提取网络例如可以包括有256通道1×1卷积层、num_classes通道1×1卷积层,其中num_classes为预期要识别的内容特征的个数,例如,num_classes=10。所述置信度网络最终输出特征图P7,其尺寸例如可以是14×14×10。
根据本公开实施例,所述特征提取网络可以用于实现对于图像特征的分析,例如,在预期要识别的内容特征为如上所述的10个特征标签情况下,所述特征提取网络关注于图像特征的提取,并针对每个特征标签匹配到与之对应的特征图。所述置信度网络可以用于判断所述将每个特征标签与之对应的特征图进行匹配的结果的可信度。
在如图8所示的第二子网络模块102中,可以将上述两个网络输出的结果P6和P7中的对应元素进行相乘处理,以生成最终的特征图P8。然后,所述第二子网络模块102还可以包括求和池化模块(sumpooling),例如可以用于对接收的特征图P8中每个通道的特征图的所述像素值求和,这样每一个通道的特征图得到一个数值,即num_classes个通道的特征图最终会得到一个长度为num_classes的向量,该向量即可以作为第二子网络模块102输出的第二子识别标签R2。
由此,利用所述第一子网络模块101和第二子网络模块102分别得到两个子识别标签,即标签向量R1和标签向量R2。根据本公开实施例,所述标签识别模块100还可以利用组合模块103来将上述子识别标签R1和R2进行组合,来得到识别标签R。例如,所述识别标签R可以表示为R=0.5×(R1+R2)。根据本公开的其他实施例,还可以采用其他的方式来基于R1和R2生成R。例如,可以通过对R1和R2设置不同的权重值来得到R,此处所述识别标签R可以表示为R=a×R1+b×R2,其中,数值a和b可以为R1和R2的权重值。
根据本公开的标签识别装置中的第二子网络模块可以接收第一子网络模块输出的具有不同尺寸的特征图,从而将所述具有不同尺寸的特征图的进行融合,以充分利用具有高层特征的特征图中包含的语义信息以及具有低层特征的特征图中包含的细节信息,从而提供所述标签识别装置进行标签识别的准确性。
根据本公开实施例,所述标签识别装置还可以包括训练模块,用于获取第一数量的第一图像,每个第一图像具有其标准标签;利用所述第一数量的第一图像及其标准标签来调整所述标签识别网络的参数;从所述第一数量的第一图像中选择第二数量的第一图像作为待转换图像,所述第二数量小于第一数量;对于每个待转换图像,进行风格转换处理以生成与其对应的第二图像,并将该待转换图像的标准标签作为该第二图像的标准标签;以及利用所述第二数量的第二图像及其标准标签来调整所述标签识别网络的参数。根据本公开实施例,其中,所述标准标签可以包括内容标签或场景标签。
根据本公开实施例,所述训练模块还用于获取第三数量的第三图像,每个第三图像具有其标准标签;利用所述第三数量的第三图像及其标准标签来调整所述标签识别网络的参数,其中所述第二图像与所述第三图像的绘画风格相同。
根据本公开实施例,其中,所述训练模块利用所述第一数量的第一图像及其标准标签来调整所述标签识别网络的参数包括:对于所述第一数量的第一图像中的一部分第一图像,将每个第一图像作为第一训练图像输入到第一子网络模块,根据该训练图像的标准标签和该第一子网络模块输出的第一子识别标签来调整所述第一子网络模块的参数;以及固定所述第一子网络模块的参数,利用所述第一数量的第一图像中的至少一部分第一图像中的每个第一图像作为第二训练图像输入到第一子网络模块,根据该第二训练图像的标准标签和该第二子网络模块输出的第二子识别标签来调整所述第二子网络模块的参数。
根据本公开实施例,其中,所述训练模块调整所述第二子网络模块的参数包括:接收所述第一子网络模块输出的第一中间子图像和第二中间子图像,并对所述中间子图像进行处理以生成第二子识别标签;根据该输入图像的标准标签和该第二子网络模块输出的第二子识别标签来调整所述第二子网络模块的参数。
根据本公开实施例,其中,所述第一图像可以为摄影图像,所述第二图像可以为第一图像经由风格转换处理生成的绘画作品,所述第三图像可以为真实的绘画作品。
根据本公开实施例,所述训练模块训练所述标签识别网络参数的过程可以参照如图1中示出的过程,在此不再赘述。
根据本公开的另一实施例,还提出了一种标签识别方法,图12示出了根据本公开实施例的标签识别方法的流程图。
如图12所示,在步骤S401,获取输入图像,所述输入图像可以为预期识别其内容特征的绘画作品图像。接着,在步骤S402中,利用标签识别网络的第一子网络接收所述输入图像并对所述输入图像进行处理,输出中间子图像并生成第一子识别标签R1。所述标签识别网络例如可以实施为如图3或图8中示出的网络或装置。在利用所述标签识别网络进行标签识别之前,可以利用如图1中所示的训练方法基于大量的摄影图像结合图像风格转换处理对所述标签识别网络进行训练,调整网络中的参数,使得所述标签识别网络能够输出预期的识别标签。所述第一子网络的结构可以是如图8中所示出的。
接着,在步骤S403中,利用标签识别网络的第二子网络从所述第一子网络接收所述中间子图像,并对所述中间子图像进行图像处理生成第二子识别标签R2。根据本公开实施例,所述第二子网络的结构可以如图8中所示出的。
最后,在步骤S404中,所述标签识别网络可以组合所述第一子识别标签R1和第二子识别标签R2,从而生成最终的识别标签R。
根据本公开实施例的标签识别方法,其中,所述第一子网络具有多个卷积层,将第i卷积层的输出结果作为第一中间子图像M1,将第j卷积层的输出结果作为第二中间子图像M2,所述第一中间子图像M1与第二中间子图像M2具有不同的尺寸,i小于j,i和j为正整数;利用所述标签识别网络基于所述第一子识别标签M1和第二子识别标签M2来生成识别标签R。
例如,所述识别标签R可以表示为R=0.5×(R1+R2)。根据本公开的其他实施例,还可以采用其他的方式来基于R1和R2生成R。例如,可以通过对R1和R2设置不同的权重值来得到R,此处所述识别标签R可以表示为R=a×R1+b×R2,其中,数值a和b可以为R1和R2的权重值。
此外,所述标签识别网络还可以输出第一子识别标签R1、第二子识别标签R2和识别标签R三者。其中,所述R、R1和R2可以为对应于多个内容特征的标签向量,也可以为对应于一个内容特征的标签值。
根据本公开的又一方面,提供了一种图像处理设备。图13示出了根据本公开实施例的图像处理设备200的结构示意图。
如图13所示,所述图像处理设备200可以包括一个或多个处理器201以及一个或多个存储器202。其中,所述存储器202存储有计算机可读代码,所述计算机可读代码当由所述一个或多个处理器201运行时执行如上所述的用于标签识别网络的训练方法或执行如上所述的标签识别方法。
本公开提供了用于标签识别网络的训练方法、标签识别装置/方法以及图像处理设备。所述用于标签识别网络的训练方法基于容易获得的摄影图像结合图像风格转换处理来实现对于所述标签识别网络的训练过程。由于通过转换获得的第二图像具有与生成其的第一图像相同的标准标签,即减少了对于第二图像进行真实标签标注的步骤,从而简化所述标签识别网络的训练过程。此外,相较于绘画作品,所述摄影图像更容易获得大量的用于训练神经网络的训练数据,即减少了获得大量的绘画作品并对其进行真实标签标注的任务量。由此,根据本公开的训练方法,可以利用容易获得摄影图像以及少量的绘画作品的图像来实现对于预期用于对具有绘画作品特征的图像进行标签识别的神经网络的训练过程。
此外,根据本公开的标签识别装置中的第二子网络模块可以接收第一子网络模块输出的具有不同尺寸的特征图,从而将所述具有不同尺寸的特征图的进行融合,以充分利用具有高层特征的特征图中包含的语义信息以及具有低层特征的特征图中包含的细节信息,从而提供所述标签识别装置进行标签识别的准确性。
除非另有定义,这里使用的所有术语(包括技术和科学术语)具有与本公开所属领域的普通技术人员共同理解的相同含义。还应当理解,诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
以上是对本公开的说明,而不应被认为是对其的限制。尽管描述了本公开的若干示例性实施例,但本领域技术人员将容易地理解,在不背离本公开的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此,所有这些修改都意图包含在权利要求书所限定的本公开范围内。应当理解,上面是对本公开的说明,而不应被认为是限于所公开的特定实施例,并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本公开由权利要求书及其等效物限定。
Claims (15)
1.一种用于标签识别网络的训练方法,包括:
获取第一数量的第一图像,每个第一图像具有其标准标签;
利用所述第一数量的第一图像及其标准标签来调整所述标签识别网络的参数;
从所述第一数量的第一图像中选择第二数量的第一图像作为待转换图像,所述第二数量小于第一数量;
对于每个待转换图像,进行风格转换处理以生成与其对应的第二图像,并将该待转换图像的标准标签作为该第二图像的标准标签;以及
利用所述第二数量的第二图像及其标准标签来调整所述标签识别网络的参数。
2.根据权利要求1所述的训练方法,还包括:
获取第三数量的第三图像,每个第三图像具有其标准标签;
利用所述第三数量的第三图像及其标准标签来调整所述标签识别网络的参数,其中
所述第三图像的风格与所述第二图像的风格相同。
3.根据权利要求2所述的训练方法,其中,所述第一图像为摄影图像,所述第二图像为第一图像经由风格转换处理生成的绘画作品,所述第三图像为真实的绘画作品。
4.根据权利要求1所述的训练方法,其中,所述标签识别网络包括第一子网络和第二子网络;
所述第一子网络接收输入图像,向第二子网络输出中间子图像,并且生成该输入图像的第一子识别标签,以及
所述第二子网络从第一子网络接收所述中间子图像,生成第二子识别标签。
5.根据权利要求4所述的训练方法,其中,所述利用所述第一数量的第一图像及其标准标签来调整所述标签识别网络的参数包括:
对于所述第一数量的第一图像中的一部分第一图像,将每个第一图像作为输入图像输入到第一子网络,根据该输入图像的标准标签和该第一子网络输出的第一子识别标签来调整所述第一子网络的参数;以及
固定所述第一子网络的参数,利用所述第一数量的第一图像中的至少一部分第一图像中的每个第一图像作为输入图像输入到第一子网络,根据该输入图像的标准标签和该第二子网络输出的第二子识别标签来调整所述第二子网络的参数。
6.根据权利要求5所述的训练方法,其中,所述第一子网络具有多个卷积层,并且所述调整所述第二子网络的参数包括:对于每个第一图像,
将所述第一子网络中第i卷积层的输出结果作为第一中间子图像输入到第二子网络;
将所述第一子网络中第j卷积层的输出结果作为第二中间子图像输入到第二子网络,所述第二中间子图像与第一中间子图像具有不同的尺寸;
根据该第一图像的标准标签和该第二子网络输出的第二子识别标签来调整所述第二子网络的参数,
其中,i小于j,i和j为正整数。
7.根据权利要求1所述的训练方法,其中,所述标准标签包括内容标签或场景标签。
8.一种标签识别装置,包括:
第一子网络模块,用于接收输入图像,对输入图像进行处理生成中间子图像,并且生成该输入图像的第一子识别标签;
第二子网络模块,用于从第一子网络模块接收所述中间子图像,并且对所述中间子图像进行处理生成第二子识别标签;
组合模块,用于组合所述第一子识别标签和所述第二子识别标签,以生成识别标签;以及
训练模块,用于:
获取第一数量的第一图像,每个第一图像具有其标准标签;
利用所述第一数量的第一图像及其标准标签来调整标签识别网络的参数,其中,所述标签识别网络包括所述第一子网络模块和第二子网络模块;
从所述第一数量的第一图像中选择第二数量的第一图像作为待转换图像,所述第二数量小于第一数量;
对于每个待转换图像,进行风格转换处理以生成与其对应的第二图像,并将该待转换图像的标准标签作为该第二图像的标准标签;以及
利用所述第二数量的第二图像及其标准标签来调整所述标签识别网络的参数。
9.根据权利要求8所述的标签识别装置,其中,所述第一子网络模块具有多个卷积层,并且将第i卷积层的输出结果作为第一中间子图像输入到所述第二子网络模块,将第j卷积层的输出结果作为第二中间子图像输入到所述第二子网络模块,所述第二中间子图像与所述第一中间子图像具有不同的尺寸;
其中,i小于j,i和j为正整数。
10.根据权利要求8所述的标签识别装置,所述训练模块还用于获取第三数量的第三图像,每个第三图像具有其标准标签;
利用所述第三数量的第三图像及其标准标签来调整所述标签识别网络的参数,其中所述第三图像的风格与所述第二图像的风格相同。
11.根据权利要求8所述的标签识别装置,其中,所述训练模块利用所述第一数量的第一图像及其标准标签来调整所述标签识别网络的参数包括:对于所述第一数量的第一图像中的一部分第一图像,将每个第一图像作为第一训练图像输入到第一子网络模块,根据该训练图像的标准标签和该第一子网络模块输出的第一子识别标签来调整所述第一子网络模块的参数;以及
固定所述第一子网络模块的参数,利用所述第一数量的第一图像中的至少一部分第一图像中的每个第一图像作为第二训练图像输入到第一子网络模块,根据该第二训练图像的标准标签和该第二子网络模块输出的第二子识别标签来调整所述第二子网络模块的参数。
12.根据权利要求11所述的标签识别装置,其中,所述训练模块调整所述第二子网络模块的参数包括:
接收所述第一子网络模块输出的第一中间子图像和第二中间子图像,并对所述中间子图像进行处理以生成第二子识别标签;
根据该输入图像的标准标签和该第二子网络模块输出的第二子识别标签来调整所述第二子网络模块的参数。
13.根据权利要求8所述的标签识别装置,其中,所述第一图像为摄影图像,所述第二图像为第一图像经由风格转换处理生成的绘画作品,第三图像为真实的绘画作品。
14.根据权利要求8所述的标签识别装置,其中,所述标准标签包括内容标签或场景标签。
15.一种图像处理设备,包括:
一个或多个处理器;
一个或多个存储器,
其中,所述存储器存储有计算机可读代码,所述计算机可读代码当由所述一个或多个处理器运行时执行如权利要求1-7任一项所述的用于标签识别网络的训练方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811353105.XA CN111191664B (zh) | 2018-11-14 | 2018-11-14 | 标签识别网络的训练方法、标签识别装置/方法及设备 |
US16/509,774 US11100369B2 (en) | 2018-11-14 | 2019-07-12 | Training method for tag identification network, tag identification apparatus/method and device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811353105.XA CN111191664B (zh) | 2018-11-14 | 2018-11-14 | 标签识别网络的训练方法、标签识别装置/方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111191664A CN111191664A (zh) | 2020-05-22 |
CN111191664B true CN111191664B (zh) | 2024-04-23 |
Family
ID=70551828
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811353105.XA Active CN111191664B (zh) | 2018-11-14 | 2018-11-14 | 标签识别网络的训练方法、标签识别装置/方法及设备 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11100369B2 (zh) |
CN (1) | CN111191664B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10846593B2 (en) * | 2018-04-27 | 2020-11-24 | Qualcomm Technologies Inc. | System and method for siamese instance search tracker with a recurrent neural network |
CN111738113B (zh) * | 2020-06-10 | 2023-07-07 | 杭州电子科技大学 | 基于双注意力机制与语义约束的高分辨遥感图像的道路提取方法 |
CN114257707A (zh) * | 2020-09-21 | 2022-03-29 | 安霸国际有限合伙企业 | 具有彩色夜间模式的智能ip摄像头 |
CN113228116A (zh) * | 2020-12-28 | 2021-08-06 | 商汤国际私人有限公司 | 图像识别方法和装置、图像生成方法和装置、神经网络的训练方法和装置 |
CN113052254B (zh) * | 2021-04-06 | 2022-10-04 | 安徽理工大学 | 多重注意力幽灵残差融合分类模型及其分类方法 |
CN112990390B (zh) * | 2021-05-19 | 2021-08-06 | 腾讯科技(深圳)有限公司 | 一种图像识别模型的训练方法、图像识别的方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975931A (zh) * | 2016-05-04 | 2016-09-28 | 浙江大学 | 一种基于多尺度池化的卷积神经网络人脸识别方法 |
CN108764018A (zh) * | 2018-04-03 | 2018-11-06 | 北京交通大学 | 一种基于卷积神经网络的多任务车辆再识别方法及装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9594977B2 (en) * | 2015-06-10 | 2017-03-14 | Adobe Systems Incorporated | Automatically selecting example stylized images for image stylization operations based on semantic content |
US9904849B2 (en) * | 2015-08-26 | 2018-02-27 | Digitalglobe, Inc. | System for simplified generation of systems for broad area geospatial object detection |
EP3371777A1 (en) * | 2015-11-06 | 2018-09-12 | THOMSON Licensing | Method for transfer of a style of a reference visual object to another visual object, and corresponding electronic device, computer readable program products and computer readable storage medium |
US20180060719A1 (en) * | 2016-08-29 | 2018-03-01 | International Business Machines Corporation | Scale-space label fusion using two-stage deep neural net |
US10916001B2 (en) * | 2016-11-28 | 2021-02-09 | Adobe Inc. | Facilitating sketch to painting transformations |
US10152768B2 (en) * | 2017-04-14 | 2018-12-11 | Facebook, Inc. | Artifact reduction for image style transfer |
-
2018
- 2018-11-14 CN CN201811353105.XA patent/CN111191664B/zh active Active
-
2019
- 2019-07-12 US US16/509,774 patent/US11100369B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975931A (zh) * | 2016-05-04 | 2016-09-28 | 浙江大学 | 一种基于多尺度池化的卷积神经网络人脸识别方法 |
CN108764018A (zh) * | 2018-04-03 | 2018-11-06 | 北京交通大学 | 一种基于卷积神经网络的多任务车辆再识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111191664A (zh) | 2020-05-22 |
US20200151506A1 (en) | 2020-05-14 |
US11100369B2 (en) | 2021-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111191664B (zh) | 标签识别网络的训练方法、标签识别装置/方法及设备 | |
CN109002852B (zh) | 图像处理方法、装置、计算机可读存储介质和计算机设备 | |
CN109886066B (zh) | 基于多尺度和多层特征融合的快速目标检测方法 | |
CN108416384B (zh) | 一种图像标签标注方法、系统、设备及可读存储介质 | |
CN112016476B (zh) | 由目标检测引导的复杂交通视觉显著性预测方法及系统 | |
CN110458077B (zh) | 一种车辆颜色识别方法及系统 | |
CN109783666B (zh) | 一种基于迭代精细化的图像场景图谱生成方法 | |
CN114067107B (zh) | 基于多粒度注意力的多尺度细粒度图像识别方法及系统 | |
CN111881262A (zh) | 基于多通道神经网络的文本情感分析方法 | |
CN110910395A (zh) | 图像编码方法和装置、利用它们的测试方法和测试装置 | |
CN109409240A (zh) | 一种结合随机游走的SegNet遥感图像语义分割方法 | |
CN112016601B (zh) | 基于知识图谱增强小样本视觉分类的网络模型构建方法 | |
JP6935939B2 (ja) | マルチフィーディングを適用した学習方法及び学習装置並びにそれを利用したテスト方法及びテスト装置 | |
CN113239820A (zh) | 基于属性定位与关联的行人属性识别方法及系统 | |
CN117079299B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN114677687A (zh) | 一种融合ViT与卷积神经网络的毛笔字体类型快速识别方法 | |
CN114037640A (zh) | 图像生成方法及装置 | |
CN114626476A (zh) | 基于Transformer与部件特征融合的鸟类细粒度图像识别方法及装置 | |
CN114863407A (zh) | 一种基于视觉语言深度融合的多任务冷启动目标检测方法 | |
Jishan et al. | Bangla language textual image description by hybrid neural network model | |
CN111310867A (zh) | 一种基于图片的文本生成方法及装置 | |
Li et al. | Image decomposition with multilabel context: Algorithms and applications | |
CN112215130B (zh) | 一种基于2.5d/3d混合卷积模型的人体行为识别方法 | |
CN115565146A (zh) | 基于自编码器获取鸟瞰图特征的感知模型训练方法及系统 | |
CN115424123A (zh) | 基于多头注意力机制的多阶段深度网络室内场景识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |