CN111061889A - 图片多标签的自动识别方法和装置 - Google Patents

图片多标签的自动识别方法和装置 Download PDF

Info

Publication number
CN111061889A
CN111061889A CN201811202664.0A CN201811202664A CN111061889A CN 111061889 A CN111061889 A CN 111061889A CN 201811202664 A CN201811202664 A CN 201811202664A CN 111061889 A CN111061889 A CN 111061889A
Authority
CN
China
Prior art keywords
module
tag
picture
label
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811202664.0A
Other languages
English (en)
Other versions
CN111061889B (zh
Inventor
李月
王婷婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Boe Yiyun Hangzhou Technology Co ltd
Original Assignee
BOE Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BOE Technology Group Co Ltd filed Critical BOE Technology Group Co Ltd
Priority to CN201811202664.0A priority Critical patent/CN111061889B/zh
Priority to PCT/CN2019/077671 priority patent/WO2020077940A1/en
Priority to US16/611,463 priority patent/US20220180624A1/en
Priority to EP19848956.9A priority patent/EP3867808A1/en
Publication of CN111061889A publication Critical patent/CN111061889A/zh
Application granted granted Critical
Publication of CN111061889B publication Critical patent/CN111061889B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata

Abstract

公开了一种自动识别图片中的多标签的方法、装置及其计算机程序实现。该方法包括:由主干网络模块从图片中提取图片的特征图,并对特征图进行多标签分类,得到图片的类别、题材和第一内容标签预测结果;由特征增强模块基于特征图获得每个特征通道的重要程度,并根据每个特征通道的重要程度增强特征图中的重要程度高的特征,输出经特征增强的特征图;以及将经特征增强的特征图输入空间正则化模块,经过空间正则化模块中的正则化处理得到图片的第二内容标签预测结果;对第一内容标签预测结果和第二内容标签预测结果进行加权平均以得到加权的内容标签预测结果;和从类别、题材和加权的内容标签预测结果组成的标签预测结果向量生成图片的标签集合。

Description

图片多标签的自动识别方法和装置
技术领域
本公开总地涉及图片标签的识别,更具体而言,涉及一种用于图片多标签自动识别的方法和装置。
背景技术
多标签图片分类是一项极具挑战性的工作,在诸如场景识别、多目标识别、人体属性识别之类的领域中具有广泛的应用前景。图片的标签,以画作标签为例,一般分为类别标签(国画、油画、素描、水粉水彩等)、题材标签(风景、人物、动物等)、内容标签(天空、房子、山、水、马等)等,其中类别标签与题材标签针对整幅画作的特征进行判断和分类,而内容标签则针对画作的局部特征进行判断和分类。
目前已有的图片标签识别方法主要分为单标签识别与多标签识别,两类识别方法具有一定差异。单标签识别方法基于基础分类网络,而多标签识别多基于注意力机制,通过局部关键特征和位置信息进行标签的识别,适用于对两个相似主题通过各个局部比较来识别标签。但目前已有的方法均是基于普通图片(包括例如照片、图片或者画作)来生成对应的内容标签或者场景标签,没有考虑图片(例如艺术画作)标签的特点,使得识别效果较差。同时,还需要单独的网络来分别生成单标签与多标签,使得模型的计算量较大。
发明内容
根据本公开的第一方面,提供了一种自动识别图片中的多标签的方法,所述方法包括:由主干网络模块从图片中提取所述图片的特征图,并对所述特征图进行多标签分类,得到所述图片的类别标签预测结果
Figure 100002_DEST_PATH_IMAGE001
、题材标签预测结果
Figure 358593DEST_PATH_IMAGE002
和第一内容标签预测结果
Figure 100002_DEST_PATH_IMAGE003
;由特征增强模块基于所述特征图获得每个特征通道的重要程度,并根据所述每个特征通道的重要程度增强所述特征图中的重要程度高的特征,并输出经特征增强的特征图;以及将所述经特征增强的特征图输入空间正则化模块,经过所述空间正则化模块中的正则化处理得到所述图片的第二内容标签预测结果
Figure 947837DEST_PATH_IMAGE004
;对第一内容标签预测结果
Figure 100002_DEST_PATH_IMAGE005
和第二内容标签预测结果
Figure 163793DEST_PATH_IMAGE004
进行加权平均以得到加权的内容标签预测结果
Figure 559002DEST_PATH_IMAGE006
;和从类别标签预测结果
Figure 100002_DEST_PATH_IMAGE007
、题材标签预测结果
Figure 373374DEST_PATH_IMAGE008
和加权的内容标签预测结果
Figure 133520DEST_PATH_IMAGE009
组成的标签预测结果向量
Figure DEST_PATH_IMAGE010
来生成所述图片的标签集合。
在一些实施例中,特征增强模块包括第一卷积模块且该第一卷积模块包括顺序连接的全局池化层、第一卷积层、非线性激活函数、第二卷积层与激活函数,以及该方法包括使用所述特征增强模块生成多个特征通道的加权权值来增强所述特征图中与要识别的所述标签的特征关联程度较高的特征。
在一些实施例中,在通过所述特征增强模块增强所述特征图中的重要程度高的特征之前,还包括通过第二卷积模块来提取所述特征图中针对整体图片的高级语义特征。
在一些实施例中,所述第一卷积模块和第二卷积模块组成集成卷积结构,且串联连接的集成卷积结构的个数通过超参数M来设置,其中M为大于等于2的整数,并且M是基于不同内容标签个数和训练数据集的大小确定的。
在一些实施例中,生成图片的标签集合还包括通过K维全连接模块处理标签预测结果向量
Figure 400553DEST_PATH_IMAGE011
,以输出语义关联增强的标签预测结果向量
Figure DEST_PATH_IMAGE012
,其中K是包括类别标签、题材标签和内容标签在内的所有标签的数量,
Figure 537137DEST_PATH_IMAGE013
是语义关联增强的类别标签预测结果,
Figure DEST_PATH_IMAGE014
是语义关联增强的题材标签预测结果,
Figure 206015DEST_PATH_IMAGE015
是语义关联增强的内容标签预测结果。
在一些实施例中,将语义关联增强的题材标签预测结果
Figure DEST_PATH_IMAGE016
和语义关联增强的内容标签预测结果
Figure 402641DEST_PATH_IMAGE017
分别与各自的置信度阈值进行比较,以确定它们中的各个标签是否存在。
在一些实施例中,采用回归学习的方式,通过训练来得到与题材标签预测结果
Figure DEST_PATH_IMAGE018
和内容标签预测结果
Figure 156971DEST_PATH_IMAGE019
中的每个标签对应的置信度阈值。
在一些实施例中,阈值设定模块包括两层卷积网络Con 1*n和Conv n*1,所述两层卷积网络Con 1*n和Conv n*1后面分别接有Batchnorm和Relu函数的网络结构,其中n可以根据标签个数和训练效果进行调整。
在一些实施例中,在对图片进行识别之前,还包括以下训练步骤:利用所有标签数据训练所述主干网络模块的第一网络参数,并固定所述第一网络参数;以及在所述第一网络参数固定的情况下,利用带有内容标签的训练数据训练所述特征增强模块和空间正则化网络的第二网络参数,并固定所述第二网络参数。
在一些实施例中,在通过K维全连接模块处理标签预测结果向量
Figure DEST_PATH_IMAGE020
之前,还包括以下训练步骤:在训练并固定所述第一网络参数和第二网络参数的情况下,利用所有训练数据训练所述K维全连接模块的第三网络参数,并固定所述第三网络参数;其中,K是包括类别标签、题材标签和内容标签在内的所有标签的数量。
在一些实施例中,利用阈值设定模块训练得到所述置信度阈值是在训练并固定所述第一网络参数、第二网络参数、第三网络参数的情况下进行的。
根据本公开的第二方面,提供了一种自动识别图片中的多标签的装置,包括:主干网络模块,被配置为从所述图片中提取所述图片的特征图,并对所述特征图进行多标签分类,得到所述图片的类别标签预测结果
Figure 67551DEST_PATH_IMAGE021
、题材标签预测结果
Figure DEST_PATH_IMAGE022
和第一内容标签预测结果
Figure 528620DEST_PATH_IMAGE023
;特征增强模块,被配置为基于所述特征图获得每个特征通道的重要程度,并根据所述每个特征通道的重要程度来增强所述特征图中的重要程度较高的特征并输出经特征增强的特征图;以及空间正则化模块,被配置为将所述经特征增强的特征图输入空间正则化模块,经过所述空间正则化模块中的正则化处理得到所述图片的第二内容标签预测结果
Figure DEST_PATH_IMAGE024
;加权模块,被配置为对第一内容标签预测结果
Figure 535628DEST_PATH_IMAGE025
和第二内容标签预测结果
Figure DEST_PATH_IMAGE026
进行加权平均以得到加权的内容标签预测结果
Figure 449357DEST_PATH_IMAGE027
;和标签生成模块,被配置为从类别标签预测结果
Figure DEST_PATH_IMAGE028
、题材标签预测结果
Figure 662164DEST_PATH_IMAGE029
和加权的内容标签预测结果
Figure DEST_PATH_IMAGE030
组成的标签预测结果向量
Figure 305635DEST_PATH_IMAGE031
来生成所述图片的标签集合。
在一些实施例中,特征增强模块包括第一卷积模块。该第一卷积模块包括顺序连接的全局池化层、第一卷积层、非线性激活函数、第二卷积层与激活函数,以生成多个特征通道的加权权值来增强所述特征图中的重要程度较高的特征。
在一些实施例中,所述装置还包括特征提取模块,其包括第二卷积模块以提取所述特征图中针对整体图片的高级语义特征。所述特征提取模块的输出被提供给所述特征增强模块作为输入。
在一些实施例中,所述第一卷积模块和第二卷积模块组成集成卷积结构。串联连接的集成卷积结构的个数通过超参数M来设置,其中M为大于等于2的整数,并且M是基于不同内容标签个数和训练数据集的大小确定的。
在一些实施例中,所述标签生成模块还包括K维全连接模块,其被配置为对标签预测结果向量
Figure DEST_PATH_IMAGE032
进行处理,以输出语义关联增强的标签预测结果向量
Figure 844063DEST_PATH_IMAGE033
,其中K是包括类别标签、题材标签和内容标签在内的所有标签的数量,
Figure DEST_PATH_IMAGE034
是语义关联增强的类别标签预测结果,
Figure 746554DEST_PATH_IMAGE035
是语义关联增强的题材标签预测结果,
Figure DEST_PATH_IMAGE036
是语义关联增强的内容标签预测结果。
在一些实施例中,所述标签生成模块还包括标签判定模块,被配置为将语义关联增强的题材标签预测结果
Figure 825368DEST_PATH_IMAGE037
和语义关联增强的内容标签预测结果
Figure DEST_PATH_IMAGE038
分别与各自的置信度阈值进行比较,以确定它们中的各个标签是否存在。
在一些实施例中,所述标签生成模块还包括阈值设定模块,被配置为采用回归学习的方式,通过训练来得到与题材标签预测结果
Figure 526608DEST_PATH_IMAGE039
和内容标签预测结果
Figure DEST_PATH_IMAGE040
中的每个标签对应的置信度阈值。
在一些实施例中,阈值设定模块包括两层卷积网络Con 1*n和Conv n*1,所述两层卷积网络Con 1*n和Conv n*1后面分别接有Batchnorm和Relu函数的网络结构,其中n可以根据标签个数和训练效果进行调整。
在一些实施例中,所述主干网络模块、特征增强模块和空间正则化模块还被配置为在对图片进行识别之前进行如下的训练:利用所有标签数据训练所述主干网络模块的第一网络参数;以及在所述第一网络参数固定的情况下,利用带有内容标签的训练数据训练所述特征增强模块和空间正则化网络的第二网络参数。
在一些实施例中,K维全连接模块还被配置为在对标签预测结果向量
Figure 298255DEST_PATH_IMAGE041
进行处理之前进行如下的训练:在训练并固定所述第一网络参数和第二网络参数的情况下,利用所有训练数据训练所述K维全连接模块的第三网络参数,并固定所述第三网络参数。
在一些实施例中,阈值设定模块还被配置为在训练并固定所述第一网络参数、第二网络参数、第三网络参数的情况下训练得到所述置信度阈值。
根据本公开的第三方面,提供了一种用于自动识别图片中的多标签的计算机设备,包括:一个或多个处理器;和耦合到所述一个或多个处理器的存储器,该存储器存储指令,所述指令在被所述一个或多个处理器执行时使得该计算机设备执行根据本公开第一方面所述的方法。
根据本公开的第四方面,提供了一种计算机程序产品,所述计算机程序产品包括存储有指令的计算机可读存储介质,所述指令在被计算系统的至少一个处理器执行时使得计算系统执行本公开第一方面所述的方法。
附图说明
通过阅读以下的详细说明和仔细查看相关联的附图,这些和其它的特征与优点将是明显的。应当明白,上述的一般性说明和以下的详细说明均仅仅是说明性的,而不是对所要求保护的方面的限制。
图1图示了根据本公开实施例的自动识别图片多标签的方法的流程图。
图2图示了根据本公开一个实施例的用于自动识别图片的多标签的装置的一个示例性框图。
图3图示了根据本公开一个实施例的一种卷积结构。
图4图示了根据本公开另一个实施例的另一种卷积结构。
图5图示了根据本公开一个实施例的阈值设定模块中的卷积结构。
图6图示了根据本发明一个实施例的用于自动识别图片的多标签的装置的另一示例性框图。
具体实施方式
图片所涉及的标签可以分为类别标签、题材标签、内容标签等多种标签。以画作为例,类别标签可以是例如国画、油画、素描、水彩画等,题材标签可以是例如风景、人物、动物等,而内容标签可以是天空、房子、山、水、马等。类别标签为单标签,即每幅画仅与诸如油画、素描之类的一个类别标签相对应。题材标签和内容标签为多标签,即每幅画可以与多个标签相对应(例如该幅画既包含风景又包含人物,既包括天空又包括马等)。图片的特征分为整体特征和局部特征。类别标签与题材标签针对图片的整体特征进行分类,而内容标签针对图片的局部特征进行分类,即利用局部图片特征来进行识别。
本公开以空间正则化网络模型为基本模型。所述空间正则化网络模型包括两个主要组成部分:主干网络模块和空间正则化模块。主干网络模块主要针对图片的整体特征进行分类,而空间正则化模块主要针对图片的局部特征进行分类。
图1图示了按照本公开实施例的自动识别图片多标签的方法100的流程图。该方法可以结合任何合适的硬件、软件、固件或其组合来执行。
在步骤102中,由主干网络模块从待处理的图片中提取所述图片的特征图。在一些实施例中,该特征图可以是3维的,维度为W×H×C,其中W代表宽,H代表高,C代表特征的通道数。主干网络模块还对所述特征图进行标签分类,得到图片的类别标签预测结果
Figure DEST_PATH_IMAGE042
、题材标签预测结果
Figure 186576DEST_PATH_IMAGE043
和第一内容标签预测结果
Figure DEST_PATH_IMAGE044
,第一内容标签预测结果也即给予主干网络提取特征的内容标签预测结果。可选地,图片在被转换为预定尺寸(例如224×224)的图片后被输入到主干网络模块进行处理。
主干网络可以具有各种不同的卷积结构,诸如深度残差网络ResNet 101、LeNet、AlexNet、GoolgeNet等。示例性地,在主干网络为ResNet 101的情况下,主干网络中包括例如卷积层ResNet Conv 1-5、平均池化层(average pooling)和全连接层。ResNet101的一种具体结构可以如表1所示。
Figure 69082DEST_PATH_IMAGE045
表1 ResNet 101的卷积结构示例。
在一个实施例中,主干网络模块中的ResNet Conv 1-4被用于提取待处理的图片所代表的图片的特征图。在一个实施例中,主干网络模块中的ResNet Conv 5、平均池化层和全连接层被用于对所述特征图进行标签分类。
在步骤104中,由特征增强模块基于所述特征图获得每个特征通道的重要程度,根据所述每个特征通道的重要程度增强所述特征图中的重要程度高的特征,并输出经特征增强的特征图。正如已知的,特征图的每个特征通道的特征会突出显示一些信息(如某些位置处的值较大)。特征通道的重要程度可以基于与要识别的所述标签的特征的关联程度来确定。在一些实施例中,当要识别某个标签时,可以通过判断某个特征通道是否具有与该标签的特征相符合的特征分布来确定该特征通道的重要程度。当某个特征通道具有与该标签的特征相符合的特征分布时,可以确定该特征通道的重要程度较高或者是有用的,反之则是不重要或者用处不大的。可以通过增强重要程度高的特征通道来突出标签出现的位置。举例而言,如果要识别的标签中有太阳标签,那么因为太阳多出现在图片中的上方位置,所以如果某个特征通道的特征图靠上方位置处的元素的数值较大,则认为该特征通道的重要程度较高。
在一些实施例中,特征增强模块通过生成对应于各特征通道的加权权值,且使用所述加权权值来对特征通道进行加权而增强特征图中的重要程度高的特征。在这些实施例中,重要程度高的特征被赋予更大的加权权值。
在步骤106中,将经特征增强的特征图输入空间正则化模块,经过所述空间正则化模块中的正则化处理得到所述图片的第二内容标签预测结果
Figure DEST_PATH_IMAGE046
,第二内容标签预测结果
Figure 285213DEST_PATH_IMAGE047
是经正则化的内容标签预测结果。在一个实施例中,使用空间正则化模块对图片的局部图片特征进行区分且进行标签语义和空间的关联。可选地,可以通过空间正则化模块对特征图进行注意力特征提取和正则化处理。
在步骤108中,对第一内容标签预测结果
Figure DEST_PATH_IMAGE048
和第二内容标签预测结果
Figure 899865DEST_PATH_IMAGE049
进行加权平均以得到加权的内容标签预测结果
Figure DEST_PATH_IMAGE050
。所述加权平均可以是例如
Figure 541062DEST_PATH_IMAGE051
,或者也可以使用其它适用的加权系数进行加权平均。
在步骤110中,从类别标签预测结果
Figure DEST_PATH_IMAGE052
、题材标签预测结果
Figure 899362DEST_PATH_IMAGE053
和加权的内容标签预测结果
Figure DEST_PATH_IMAGE054
组成的标签预测结果向量
Figure 748763DEST_PATH_IMAGE055
生成图片的标签集合。
通过按照本公开实施例的方案,使得能够增加对各个特征通道之间的相对关系(例如重要程度)的考虑。而且通过以学习的方式自动获取每个特征通道的重要程度,从而提升了有用的特征、抑制用处不大的特征。作为一个区分各局部特征的预处理手段,按照本公开实施例的特征增强为后面获取各个标签的注意力图的生成提供更加有区分性的特征图。
在一些实施例中,按照本公开实施例的方案还考虑了在图片的各类型标签(比如类别标签与题材标签、内容标签与类别标签等)之间存在的较强语义相关性,比如竹子内容标签常常出现在国画类型的作品中,宗教题材标签常常出现在油画中。为了加强这种标签之间的相关性,在得到标签预测结果向量
Figure DEST_PATH_IMAGE056
之后,再次增加标签语义关联。示例性地,可以通过K维全连接模块处理标签预测结果向量
Figure 49163DEST_PATH_IMAGE056
,以输出语义关联增强的标签预测结果向量
Figure 912077DEST_PATH_IMAGE057
,其中K是所要识别的、包括类别标签、题材标签和内容标签在内的所有标签的数量,
Figure DEST_PATH_IMAGE058
是语义关联增强的类别标签预测结果,
Figure 762484DEST_PATH_IMAGE059
是语义关联增强的题材标签预测结果,
Figure DEST_PATH_IMAGE060
是语义关联增强的内容标签预测结果。可选地,可以通过学习得到各个标签之间的加权关系即权值,从而得到了加入整体标签语义关联后的识别结果y2
在一些实施例中,因为类别标签为单标签分类,因此可以直接对输出的类别标签预测结果向量进行softmax函数计算,取其中置信度最高的标签作为预测的类别标签。softmax函数的输入是一向量yclass,输出的是归一化后的向量,即向量中的每个元素是每个类别对应的置信度。经过归一化之后这些元素之和为1。示例性地,如果对某个图片的类别标签的预测结果进行softmax函数计算后得到的结果是:国画0.1、油画0.2、素描0.4、水粉水彩0.3,那么判定所预测的类别标签的结果为置信度最高的素描标签。
在一些实施例中,题材标签和内容标签二者属于多标签分类,即每幅画可以与多个标签相对应(例如该幅画既包含风景又包含人物,既包括天空又包括马等)。这样,它们二者的置信度可借助阈值
Figure 651678DEST_PATH_IMAGE061
进行筛选,即如果某个标签预测的置信度大于阈值
Figure 122980DEST_PATH_IMAGE061
,则该标签预测为真,即存在该标签;否则该标签预测为假,即不存在该标签。示例性地,借助阈值
Figure 591964DEST_PATH_IMAGE061
的筛选可如下式(1)所示地进行,
Figure DEST_PATH_IMAGE062
(1)
其中
Figure 557646DEST_PATH_IMAGE063
为题材和内容标签个数,
Figure DEST_PATH_IMAGE064
是用于每个标签预测的置信度,
Figure 614595DEST_PATH_IMAGE065
为置信度阈值,
Figure DEST_PATH_IMAGE066
为最终预测的题材和内容标签真假结果。
由于每个标签的识别难度、训练数据量大小与分布不同,如果为所有类标签的置信度阈值设定统一的一个阈值
Figure 243416DEST_PATH_IMAGE067
,会降低某些标签的识别准确率。在一些实施例中,取代使用统一的阈值,可以通过训练得到针对每类题材和内容标签的分别的置信度阈值
Figure 143239DEST_PATH_IMAGE061
。示例性地,可采用回归学习的方式,通过训练来分别获取每类题材和内容标签的置信度阈值
Figure DEST_PATH_IMAGE068
按照本公开的实施例,在使用上文所述的自动识别图片多标签的方法之前,还包括对所述模型进行训练的过程。
在第一训练阶段中,在自动识别图片中的标签之前,利用所有标签训练数据来训练主干网络模块的第一网络参数。以使用Resnet101作为主干网络为例,可以仅训练Conv1-4和Conv 5。训练主干网络模块输出类别标签预测结果
Figure 647032DEST_PATH_IMAGE069
、题材标签预测结果
Figure DEST_PATH_IMAGE070
和第一内容标签预测结果
Figure 886384DEST_PATH_IMAGE071
。第一训练阶段可以利用损失函数来进行。第一训练阶段的损失函数被设定为:
Figure DEST_PATH_IMAGE072
,其中类别标签损失函数
Figure 184641DEST_PATH_IMAGE073
可以按照softmax交叉熵损失函数方式计算,而题材标签损失函数
Figure DEST_PATH_IMAGE074
和内容标签损失函数
Figure 571760DEST_PATH_IMAGE075
可以按照sigmoid交叉熵损失函数方式计算。
在第二训练阶段中,在固定第一网络参数的情况下,可以利用带有内容标签的训练数据去训练特征增强模块和空间正则化模块的第二网络参数。训练特征增强模块和空间正则化模块输出第二内容标签预测结果
Figure DEST_PATH_IMAGE076
。第二训练阶段的损失函数被设定为
Figure 754611DEST_PATH_IMAGE077
对第一内容标签预测结果
Figure DEST_PATH_IMAGE078
和第二内容标签预测结果
Figure 582889DEST_PATH_IMAGE079
进行加权平均以得到加权的内容标签预测结果
Figure DEST_PATH_IMAGE080
。所述加权平均可以是例如
Figure 819092DEST_PATH_IMAGE081
,或可以使用其它加权系数的加权平均。
训练数据可以由图片和每张图片所对应的真实标签组成,其中标签可以为类别、题材与内容标签中的一个或多个。举例而言,一幅图片对应的真实标签(可以通过人工标注得到)可以是:油画(类别标签)、风景(题材标签)、写实(题材标签)、人(内容标签)、山(内容标签)、水(内容标签)。在训练过程中,有些训练阶段会利用所有的图片与标签,而有些训练阶段会利用带有某个或某些特定分类(例如类别、题材、内容中的一个或多个)的标签的图片。示例性地,在第二训练阶段中仅用带有内容标签的图片训练网络。
可选地,在通过K维全连接模块处理标签预测结果向量y1的情况下,训练过程还包括第三训练阶段。在第三训练阶段中,在通过K维全连接模块处理标签预测结果向量y1之前,在已经训练并固定第一网络参数和第二网络参数的情况下,可以利用所有训练数据来训练K维全连接模块的第三网络参数,即对标签之间的加权参数进行训练。对K维全连接模块的训练输出语义标签关系增强的标签预测结果向量
Figure DEST_PATH_IMAGE082
,其中K是包括类别标签、题材标签和内容标签在内的所有标签的数量,
Figure 365611DEST_PATH_IMAGE083
是语义关联增强的类别标签预测结果,
Figure DEST_PATH_IMAGE084
是语义关联增强的题材标签预测结果,
Figure 476787DEST_PATH_IMAGE085
是语义关联增强的内容标签预测结果。第三训练阶段的损失函数被设定为
Figure DEST_PATH_IMAGE086
可选地,训练过程还包括用于分别获取每类题材和内容标签的置信度阈值
Figure 425151DEST_PATH_IMAGE068
的第四训练阶段。在第四训练阶段中,将第三训练阶段中得到的类别标签
Figure 393107DEST_PATH_IMAGE087
置信度中softmax数值最高的类别作为该图片的类别标签。固定第一至第三训练阶段的所有网络参数(即第一、第二和第三网络产生),仅对阈值训练中用到的阈值回归模型的参数进行训练。第四训练阶段的损失函数被设定为
Figure 489239DEST_PATH_IMAGE089
,其中i为训练的第i幅图,j为第j个标签,
Figure DEST_PATH_IMAGE090
为第j个标签的groundtruth(0或1),
Figure 25611DEST_PATH_IMAGE091
Figure DEST_PATH_IMAGE092
分别为标签j的置信度和阈值。基于这一损失函数而得到了每个标签j对应的阈值
Figure 267630DEST_PATH_IMAGE093
,从而得到借助阈值筛选后的题材和内容标签置信度预测结果,作为最终的题材和内容标签的预测结果。三类标签合起来则为最终的标签预测结果。
图2示出了用于自动识别图片的多标签的装置200的框图。装置200主要包括主干网络模块202、特征增强网络模块204、空间正则化模块206、加权模块208和标签生成模块210。
主干网络模块202被配置为从待处理的图片中提取所述图片的特征图。该特征图是3维的,维度为W×H×C,其中W代表宽,H代表高,C代表特征的通道数。主干网络模块202还被配置为对所述特征图进行标签分类,得到图片的类别标签预测结果
Figure DEST_PATH_IMAGE094
、题材标签预测结果
Figure 344170DEST_PATH_IMAGE095
和第一内容标签预测结果
Figure DEST_PATH_IMAGE096
。示例性地,在主干网络为ResNet 101的情况下,ResNet 101中的ResNet Conv 1-4被用于提取待处理的图片中的所述图片的特征图。在一个实施例中,ResNet 101中的ResNet Conv 5、平均池化层(average pooling)和全连接层被用于对所述特征图进行标签分类,且输出图片的类别标签预测结果
Figure 865282DEST_PATH_IMAGE097
、题材标签预测结果
Figure DEST_PATH_IMAGE098
和第一内容标签预测结果
Figure 114997DEST_PATH_IMAGE099
特征增强模块204被配置为基于所述特征图获得每个特征通道的重要程度,根据所述每个特征通道的重要程度增强所述特征图中的重要程度高的特征,并输出经特征增强的特征图。具体地,特征增强模块是通过卷积结构来实现的。
空间正则化模块206被配置为对经特征增强的特征图进行正则化处理以得到所述图片的第二内容标签预测结果
Figure DEST_PATH_IMAGE100
。在一个实施例中,空间正则化模块中包括注意力网络、置信度网络以及空间正则化网络。注意力网络用于生成注意力图,该注意力图的通道个数与内容标签的个数相同。置信度网络用于对注意力图进一步加权。由于注意力图的通道个数与内容标签的个数一致,即每个通道的注意力图代表了一个内容标签分类的特征分布。在通过置信度网络进行加权时,可以将大的权值赋予当前图片中出现的内容标签分类所对应的注意力图,而将小的权值赋予当前图片中没有的内容标签所对应的注意力图。通过这种方式可以实现内容标签有无的判断。而空间正则化网络则对注意力图输出的结果进行语义和空间关联。在这个实施例中,空间正则化模块206被配置为对经特征增强的特征图进行注意力特征提取和正则化处理以得到所述图片的第二内容标签预测结果。
加权模块208被配置为对第一内容标签预测结果
Figure 37954DEST_PATH_IMAGE101
和第二内容标签预测结果
Figure DEST_PATH_IMAGE102
进行加权平均以得到加权的内容标签预测结果
Figure 347713DEST_PATH_IMAGE103
。所述加权平均可以是例如
Figure DEST_PATH_IMAGE104
,或者以可以使用其它适用的加权系数来进行加权平均。
标签生成模块210被配置为从类别标签预测结果
Figure 854655DEST_PATH_IMAGE105
、题材标签预测结果
Figure DEST_PATH_IMAGE106
和加权的内容标签预测结果
Figure 908062DEST_PATH_IMAGE107
组成的标签预测结果向量
Figure DEST_PATH_IMAGE108
来生成图片的标签集合。标签集合包括类别标签、题材标签和内容标签中的一个或多个。类别标签可以是单标签。题材标签和内容标签可以是多标签。在一些实施例中,标签生成模块210可以为一个图片生成多于一个的题材标签和/或内容标签。
在一些实施例中,标签生成模块210包括标签判定模块212,用于基于标签预测的置信度来从标签预测结果向量
Figure 685525DEST_PATH_IMAGE109
判定图片的标签集合。
在一些实施例中,为了加强各大类标签的语义关联,标签生成模块210还包括K维全连接模块214。K维全连接模块214在得到标签预测结果向量
Figure DEST_PATH_IMAGE110
之后,对其进行处理以输出语义关联增强的标签预测结果向量
Figure 166185DEST_PATH_IMAGE111
,其中K是包括类别标签、题材标签和内容标签在内的所有标签的数量,
Figure DEST_PATH_IMAGE112
是语义关联增强的类别标签预测结果,
Figure 396309DEST_PATH_IMAGE113
是语义关联增强的题材标签预测结果,
Figure DEST_PATH_IMAGE114
是语义关联增强的内容标签预测结果。K维全连接模块214通过K个元素全连接层方式(K-d fc,K为要识别的所有标签的个数),经由学习得到各个标签之间的加权关系即权值,从而得到了加入整体标签语义关联后的识别结果y2。在一些实施例中,标签判定模块212基于标签预测的置信度来从语义关联增强的标签预测结果向量
Figure 253407DEST_PATH_IMAGE115
判定图片的标签集合。
题材标签和内容标签二者属于多标签分类,因而它们二者的置信度需要借助阈值
Figure 885376DEST_PATH_IMAGE061
进行判定。在一些实施例中,标签生成模块210还包括阈值设定模块216,阈值设定模块216被配置为采用回归学习的方式,通过训练来得到并设定每个标签(包括题材标签和内容标签)对应的置信度阈值。举例而言,如果有10个题材标签和10个内容标签,则对应有20个置信度阈值。在一些实施例中,标签判定模块212使用阈值设定模块216所设定的置信度阈值来判定每个标签的存在与否。
主干网络模块202、特征增强模块204和空间正则化模块206还被配置为在对图片中的标签进行自动识别之前进行训练。可以利用所有标签数据训练所述主干网络模块的第一网络参数。以使用Resnet101作为主干网络为例,第一网络参数可以包括用于Resnet101Conv 1-Conv 4和Conv 5的参数。在固定第一网络参数的情况下,可以利用带有内容标签的训练数据训练用于所述特征增强模块和空间正则化模块的第二网络参数。
在一些实施例中,K维全连接模块212还被配置为在对标签预测结果向量
Figure DEST_PATH_IMAGE116
进行处理之前进行训练。K是包括类别标签、题材标签和内容标签在内的所有标签的数量。在训练并固定所述第一网络参数和第二网络参数的情况下,可以利用所有训练数据训练所述K维全连接模块的第三网络参数,例如标签之间的加权参数。
在一些实施例中,对阈值设定模块216进行的训练是在训练并固定所述第一网络参数、第二网络参数、第三网络参数的情况下进行的。
图3示出了按照本公开一个实施例的构成特征增强模块的卷积模块。如图3所示,卷积模块包括顺序连接的全局池化层(Global pooling)、第一卷积层、非线性激活函数、第二卷积层与激活函数。通过输入特征图,使之通过该卷积结构,可以生成并输出用于多个特征通道的加权权值。示例性地,第一卷积层可以是1*1*64卷积层、非线性激活函数可以是relu函数、第二卷积层可以是1*1*1024卷积层,以及激活函数可以是sigmoid函数。通过如此构造的卷积模块可以生成1024个特征通道的加权权值。可以理解,第一和第二卷积层的卷积核大小和通道数量可以依据给定的实现而基于训练来适当地选择。
通过将生成的权值叠加在特征图的特征通道上,可以增强所述特征图中重要程度较高的特征,也即与要识别标签的特征的关联程度较高的特征。这里,全局池化层可以采用全局最大池化或全局平均池化。按照本公开的实施例,可以根据实际增强效果来选择全局最大池化或全局平均池化。正如已知的,relu函数是一种激活函数,其是分段线性函数,可以把所有的负值都变为0,而正值不变;而sigmoid函数同样是一种激活函数,其可以将一个实数映射到(0,1)的区间。
按照本公开的实施例,在特征增强模块中所使用的卷积模块的个数(即卷积深度)可以被设置为超参数M,M为大于等于2的整数。当特征增强模块中有多个卷积模块,这些卷积模块被顺序地串联在一起。可选地,M可以基于不同内容标签个数和训练数据集的大小来确定。举例而言,当标签个数越多、需要训练的数据集越大时,可以增加M使网络更深。可选地,如果训练数据较少,如训练图片为几万张,那么可以将M选择为2个。如果是训练图片是百万级的数据量,则可以将M调整为5个。附加地,M还可以根据训练效果进行调节。
在一些实施例中,在特征图被输入到特征增强模块之前还可以包括特征提取模块来提取所述特征图中针对整体图片的高级语义特征。高级语义特征更关注语义信息,更少关注细节信息,而低级特征包含更多细节信息。
图4示出了按照本公开实施例的构成特征提取模块和特征增强模块的卷积结构。特征提取模块由第一卷积模块组成,而特征增强模块由第二卷积模块组成。示例性地,如图4所示,第一卷积模块可包含三个卷积层,例如1*1*256卷积层、3*3*256卷积层与1*1*1024卷积层。第二卷积模块可包括全局池化层(Global pooling)、1*1*64卷积层、relu非线性激活函数、1*1*1024卷积层与sigmoid激活函数。
当特征图被输入到该第一卷积模块中时,所述特征图中针对整体图片的高级语义特征可以被提取。被进行特征提取的特征图随后被输入到第二卷积模块。第二卷积模块可以生成1024个特征通道的加权权值。该生成的权值被叠加在原来特征提取模块(也即第一卷积结构)的输出结果上来增强所述特征图中重要程度较高的特征。
可选地,第一卷积模块和第二卷积模块可以组成一个集成卷积结构。可以使多个集成卷积结构通过串联连接方式连接以实现特征提取和增强功能。串联连接的集成卷积结构的个数可以被设置为超参数M,M为大于等于2的整数。
图5示出了按照本公开实施例的阈值设定模块的一种网络结构。参见图5,阈值设定模块的网络结构包含两个卷积层Con 1*n和Conv n*1,且在每个卷积层后面分别连接有batchnorm和relu函数,其中n可以根据标签个数和训练效果进行调整。Batchnorm是常用的加速神经网络训练、加速收敛速度及稳定性的算法。在图5所示的网络结构中,针对每一步训练,训练数据都是批量输入的,例如一次输入24张图片。在这种情况下,使batchnorm接在卷积层后便可以根据卷积计算得到的批量中间结果,计算批量中间结果的均值方差,对批量中间结果进行归一化,从而解决输入数据分布不一致的问题。这可以减少图像之间的绝对差异,突出相对差异,从而加快训练速度。在一些实施例中,n在实际训练过程中可以根据训练效果增加或者减小。在一些实施例中,标签个数越多,n越大。
阈值设定模块使用阈值回归模型,其损失函数被设定为
Figure 536937DEST_PATH_IMAGE117
,其中i为训练的第i幅图,j为第j个标签,
Figure DEST_PATH_IMAGE118
为第j个标签的groundtruth(0或1),
Figure 21402DEST_PATH_IMAGE119
Figure DEST_PATH_IMAGE120
分别为标签j的置信度和阈值。可以通过训练该阈值回归模型来得到并设定每个标签对应的置信度阈值
Figure 416611DEST_PATH_IMAGE068
。正如已知的,在机器学习中groundtruth可以表示有监督的机器学习技术的训练集分类的准确性,在统计模型中用于证明或者推翻某个假设。示例性地,在进行训练时,首先会以人工方式筛选出一些图片来作为模型训练的训练数据。之后,同样以人工方式对其进行标签的标注,即每幅图片都有什么标签。这些图片所对应的真实标签数据就是groundtruth。
在得到每个标签对应的置信度阈值
Figure 965404DEST_PATH_IMAGE068
后,可以根据下式(2)来确定每个标签的预测结构:
Figure 991129DEST_PATH_IMAGE121
(2)
其中
Figure DEST_PATH_IMAGE122
为题材和内容标签个数,
Figure 258162DEST_PATH_IMAGE123
是每个标签预测的置信度,
Figure 394745DEST_PATH_IMAGE068
为每个标签的置信度阈值,
Figure DEST_PATH_IMAGE124
为最终预测的标签真假结果。
图6图示了根据本公开实施例的用于自动识别图像的多标签的装置的另一示例性框图。如图6所示,图片被输入主干网络模块602后,多个卷积层(即Resnet101 Conv 1-4)用于从图片中提取所述图片的特征图。特征图依次经过主干网络模块602中的又一卷积层(即Resnet 101 Conv 5)、平均池化层和全连接层的处理,得到所述图片的类别标签预测结果
Figure 798045DEST_PATH_IMAGE125
、题材标签预测结果
Figure DEST_PATH_IMAGE126
和第一内容标签预测结果
Figure 994671DEST_PATH_IMAGE127
特征图还被输入到特征增强模块604。特征增强模块604基于所述特征图获得每个特征通道的重要程度,根据所述每个特征通道的重要程度增强所述特征图中的重要程度高的特征,并输出经特征增强的特征图。
经特征增强的特征图被输入到空间正则化模块606。经过所述空间正则化模块中注意力网络和置信度网络以及正则化网络的处理得到所述图片的第二内容标签预测结果
Figure DEST_PATH_IMAGE128
加权模块608对第一内容标签预测结果
Figure 749000DEST_PATH_IMAGE129
和第二内容标签预测结果
Figure DEST_PATH_IMAGE130
进行加权平均以得到加权的内容标签预测结果
Figure 922230DEST_PATH_IMAGE131
。标签生成模块610从类别标签预测结果
Figure DEST_PATH_IMAGE132
、题材标签预测结果
Figure 445616DEST_PATH_IMAGE133
和加权的内容标签预测结果
Figure DEST_PATH_IMAGE134
生成标签预测结果向量
Figure 813143DEST_PATH_IMAGE135
在标签判定模块612中通过对类别标签预测结果进行softmax函数的计算而判定该图片的类别标签,以及通过对题材标签预测结果和内容标签预测结果进行sigmoid函数的计算而判定该图片的题材标签和内容标签。
在一些实施例中,如图6所示,在被输入到标签判定模块612之前,标签预测结果向量
Figure DEST_PATH_IMAGE136
被输入到K维全连接模块614,以经由其输出语义关联增强的标签预测结果向量
Figure 789189DEST_PATH_IMAGE137
,其中K是包括类别标签、题材标签和内容标签在内的所有标签的数量,
Figure DEST_PATH_IMAGE138
是语义关联增强的类别标签预测结果,
Figure 267575DEST_PATH_IMAGE139
是语义关联增强的题材标签预测结果,
Figure DEST_PATH_IMAGE140
是语义关联增强的内容标签预测结果。K维全连接模块614输出的语义关联增强的标签预测结果向量
Figure 911046DEST_PATH_IMAGE141
被输入到标签判定模块612以生成标签集合
在一些实施例中。阈值设定模块616为每个标签设定的置信度阈值,且标签判定模块612基于阈值设定模块616设定的置信度阈值来筛选题材标签预测结果
Figure DEST_PATH_IMAGE142
和内容标签预测结果
Figure 183896DEST_PATH_IMAGE143
中各标签的置信度,由此而判定该图片的题材和内容标签,进而生成由类别标签、题材标签和内容标签中的一个或多个组成的标签集合。
按照本公开的实施例,通过结合图片标签的特点对现有的标签分类方案进行了改进。通过加入对不同标签之间关系的增强和各类标签阈值的学习,实现了用一个网络同时生成画作的单标签(类别标签)与多标签(题材标签与内容标签)的技术效果。由此,在提高标签识别效果的同时,还降低了模型计算量。按照本公开实施例的方案生成的标签数据可用于图片的网络搜索、大数据分析等应用方向。
本公开的各种实施例中的“装置”、“模块”等可以通过使用硬件单元、软件单元或它们的组合而被实施。硬件单元的示例可包括设备、构件、处理器、微处理器、电路、电路元件(例如,晶体管、电阻器、电容器、电感器等等)、集成电路、专用集成电路(ASIC)、可编程逻辑器件(PLD)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、存储器单元、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片组等等。软件单元的示例可包括软件构件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例行程序、子程序、函数、方法、过程、软件接口、应用程序接口(API)、指令集、计算代码、计算机代码、代码段、计算机代码段、单词、值、符号、或它们的任何组合。确定实施例是否通过使用硬件单元和/或软件单元被实施可以根据任意数量的因素而变化,诸如想要的计算速率、功率电平、耐热性、处理周期预算、输入数据速率、输出数据速率、存储器资源、数据总线速度、和其它设计或性能约束,正如对于给定的实现所想要的。
某些实施例可包括制造品。制造品可包括用来存储逻辑的存储介质。存储介质的示例可包括能够存储电子数据的一种或多种类型的有形的计算机可读存储媒体,包括易失性存储器或非易失性存储器、可拆卸或不可拆卸存储器、可擦除或不可擦除存储器、可写或可再写存储器等等。逻辑的示例可包括各种软件单元,诸如软件构件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例行程序、子程序、函数、方法、过程、软件接口、应用程序接口(API)、指令集、计算代码、计算机代码、代码段、计算机代码段、单词、值、符号、或它们的任何组合。在一个实施例中,例如,制造品可以存储可执行计算机程序指令,它们在被计算机执行时使得计算机执行按照所描述的实施例的方法和/或操作。可执行计算机程序指令可包括任何适当类型的代码,诸如源代码、编译的代码、解释的代码、可执行代码、静态代码、动态代码等等。可执行计算机程序指令可以按照预定义的计算机语言、方式或语法被实施,用于指令计算机去执行一定的功能。指令可以通过使用任何适当的高级、低级、面向对象的、视觉的、编译的和/或解释的编程语言而被实施。
一些实施例可以通过使用表达“一个实施例”或“一些实施例”连同它们的派生词而被描述。这些术语是指结合实施例描述的特定特征、结构或特性被包括在至少一个实施例中。在申请书的各个地方出现的词组“在一个实施例中”不一定必须全都指同一个实施例。
附加地,在上述的详细说明中,可以看到,为了简化公开内容,各种特征在单个实施例中被聚合在一起。这种公开的方法不被解译为反映了所要求保护的实施例需要比在每项权利要求中明确叙述的特征更多特征的意图。相反,正如以下的权利要求反映的,本公开的主题在于少于单个公开的实施例的所有特征。因此,以下的权利要求据此被合并到详细说明中,每项权利要求独自地作为单独的实施例。在所附权利要求中,术语“包括(including)实和“其中 (in which))分别被用作为相应术语“包括(comprising)”和“其中(wherein)”的简明英语的等同物。而且,术语“第一”、“第二”、“第三”等等仅仅被用作为标签,且不打算对它们的对象施加数值要求。
虽然本主题是以特定于结构特征和/或方法动作的语言被描述的,但应当明白,在所附权利要求中限定的主题不是必须限于以上描述的具体特征或动作。相反,上面描述的具体的特征和动作是作为实施权利要求的示例性形式被公开的。

Claims (24)

1.一种自动识别图片中的多标签的方法,所述方法包括:
由主干网络模块从图片中提取所述图片的特征图,并对所述特征图进行多标签分类,得到所述图片的类别标签预测结果
Figure DEST_PATH_IMAGE001
、题材标签预测结果
Figure 61718DEST_PATH_IMAGE002
和第一内容标签预测结果
Figure DEST_PATH_IMAGE003
由特征增强模块基于所述特征图获得每个特征通道的重要程度,并根据所述每个特征通道的重要程度增强所述特征图中的重要程度高的特征,并输出经特征增强的特征图;以及
将所述经特征增强的特征图输入空间正则化模块,经过所述空间正则化模块中的正则化处理得到所述图片的第二内容标签预测结果
Figure 41175DEST_PATH_IMAGE004
对第一内容标签预测结果
Figure DEST_PATH_IMAGE005
和第二内容标签预测结果
Figure 883230DEST_PATH_IMAGE006
进行加权平均以得到加权的内容标签预测结果
Figure DEST_PATH_IMAGE007
;和
从类别标签预测结果
Figure 278439DEST_PATH_IMAGE008
、题材标签预测结果
Figure DEST_PATH_IMAGE009
和加权的内容标签预测结果
Figure 656593DEST_PATH_IMAGE010
组成的标签预测结果向量
Figure DEST_PATH_IMAGE011
来生成所述图片的标签集合。
2.根据权利要求1所述的方法,其中所述特征增强模块包括第一卷积模块且该第一卷积模块包括顺序连接的全局池化层、第一卷积层、非线性激活函数、第二卷积层、线性激活函数,以及该方法包括使用所述特征增强模块生成多个特征通道的加权权值来增强所述特征图中与要识别的所述标签的特征的关联程度较高的特征。
3.根据权利要求2所述的方法,在通过所述特征增强模块增强所述特征图中的重要程度高的特征之前,还包括通过第二卷积模块来提取所述特征图中针对整体图片的高级语义特征。
4.根据权利要求3所述的方法,其中所述第一卷积模块和第二卷积模块组成集成卷积结构,且串联连接的集成卷积结构的个数通过超参数M来设置,M为大于等于2的整数,并且M是基于不同内容标签个数和训练数据集的大小确定的。
5.根据权利要求1所述方法,其中生成图片的标签集合还包括通过K维全连接模块处理标签预测结果向量
Figure 479055DEST_PATH_IMAGE012
,以输出语义关联增强的标签预测结果向量
Figure DEST_PATH_IMAGE013
,其中K是包括类别标签、题材标签和内容标签在内的所有标签的数量,
Figure 808405DEST_PATH_IMAGE014
是语义关联增强的类别标签预测结果,
Figure DEST_PATH_IMAGE015
是语义关联增强的题材标签预测结果,
Figure 7306DEST_PATH_IMAGE016
是语义关联增强的内容标签预测结果。
6.根据权利要求5所述的方法,其中通过将语义关联增强的题材标签预测结果
Figure DEST_PATH_IMAGE017
和语义关联增强的内容标签预测结果
Figure 738501DEST_PATH_IMAGE018
分别与各自的置信度阈值进行比较,以确定它们中的各个标签是否存在。
7.根据权利要求6所述的方法,还包括利用阈值设定模块采用回归学习的方式,通过训练来得到与题材标签预测结果
Figure DEST_PATH_IMAGE019
和内容标签预测结果
Figure 731865DEST_PATH_IMAGE020
中的每个标签对应的置信度阈值。
8.根据权利要求7所述的方法,其中所述阈值设定模块包括两层卷积网络con n×1和con 1×n,所述两层卷积网络con n×1和con 1×n后面分别接有batch norm和relu函数的网络结构,其中n是根据标签个数和训练效果而调整的。
9.根据权利要求7所述的方法,其中在对图片进行识别之前,还包括以下的训练步骤:
利用所有标签数据训练所述主干网络模块的第一网络参数,并固定所述第一网络参数;以及
在所述第一网络参数固定的情况下,利用带有内容标签的训练数据训练所述特征增强模块和空间正则化模块的第二网络参数,并固定所述第二网络参数。
10.根据权利要求9所述的方法,其中在通过K维全连接模块处理标签预测结果向量
Figure DEST_PATH_IMAGE021
之前,还包括以下的训练步骤:
在训练并固定所述第一网络参数和第二网络参数的情况下,利用所有标签数据训练所述K维全连接模块的第三网络参数,并固定所述第三网络参数;
其中,K是包括类别标签、题材标签和内容标签在内的所有标签的数量。
11.根据权利要求10所述的方法,其中利用阈值设定模块训练得到所述置信度阈值是在训练并固定所述第一网络参数、第二网络参数、第三网络参数的情况下进行的。
12.一种自动识别图片中的多标签的装置,包括:
主干网络模块,被配置为从所述图片中提取所述图片的特征图,并对所述特征图进行多标签分类,得到所述图片的类别标签预测结果
Figure 548511DEST_PATH_IMAGE022
、题材标签预测结果
Figure DEST_PATH_IMAGE023
和第一内容标签预测结果
Figure 849305DEST_PATH_IMAGE024
特征增强模块,被配置为基于所述特征图获得每个特征通道的重要程度,并根据所述每个特征通道的重要程度来增强所述特征图中的重要程度较高的特征并输出经特征增强的特征图;以及
空间正则化模块,被配置为将所述经特征增强的特征图输入空间正则化模块,经过所述空间正则化模块中的正则化处理得到所述图片的第二内容标签预测结果
Figure DEST_PATH_IMAGE025
加权模块,被配置为对第一内容标签预测结果
Figure 372690DEST_PATH_IMAGE026
和第二内容标签预测结果
Figure DEST_PATH_IMAGE027
进行加权平均以得到加权的内容标签预测结果
Figure 864851DEST_PATH_IMAGE028
;和
标签生成模块,被配置为从类别标签预测结果
Figure DEST_PATH_IMAGE029
、题材标签预测结果
Figure 106477DEST_PATH_IMAGE030
和加权的内容标签预测结果
Figure DEST_PATH_IMAGE031
组成的标签预测结果向量
Figure 443917DEST_PATH_IMAGE032
来生成所述图片的标签集合。
13.根据权利要求12所述的装置,其中所述特征增强模块包括第一卷积模块,且该第一卷积模块包括连接的全局池化层、第一卷积层、非线性激活函数、第二卷积层、线性激活函数,以生成多个特征通道的加权权值来增强所述特征图中的重要程度较高的特征。
14.根据权利要求12所述的装置,还包括特征提取模块,其包括第二卷积模块以提取所述特征图中针对整体图片的高级语义特征,且所述特征提取模块的输出被提供给所述特征增强模块作为输入。
15.根据权利要求14所述的装置,其中所述第一卷积模块和第二卷积模块组成集成卷积结构,以及串联连接的集成卷积结构的个数通过超参数M来设置,其中M为大于等于2的整数,并且M是基于不同内容标签个数和训练数据集的大小确定的。
16.根据权利要求12所述装置,其中所述标签生成模块还包括K维全连接模块,其被配置为对标签预测结果向量
Figure 87388DEST_PATH_IMAGE021
进行处理,以输出语义关联增强的标签预测结果向量
Figure DEST_PATH_IMAGE033
,其中K是包括类别标签、题材标签和内容标签在内的所有标签的数量,
Figure 484872DEST_PATH_IMAGE034
是语义关联增强的类别标签预测结果,
Figure DEST_PATH_IMAGE035
是语义关联增强的题材标签预测结果,
Figure 213793DEST_PATH_IMAGE036
是语义关联增强的内容标签预测结果。
17.根据权利要求16所述的装置,所述标签生成模块还包括标签判定模块,被配置为将语义关联增强的题材标签预测结果
Figure DEST_PATH_IMAGE037
和语义关联增强的内容标签预测结果
Figure 856389DEST_PATH_IMAGE038
分别与各自的置信度阈值进行比较,以确定它们中的各个标签是否存在。
18.根据权利要求17所述的装置,所述标签生成模块还包括阈值设定模块,被配置为采用回归学习的方式,通过训练来得到与题材标签预测结果
Figure DEST_PATH_IMAGE039
和内容标签预测结果
Figure 354367DEST_PATH_IMAGE040
中的每个标签对应的置信度阈值。
19.根据权利要求18所述的装置,其中所述阈值设定模块包括两层卷积网络con n×1和con 1×n,所述两层卷积网络con n×1和con 1×n后面分别接有batchnorm和relu函数的网络结构,其中n是根据标签个数和训练效果而调整的。
20.根据权利要求12所述的装置,所述主干网络模块、特征增强模块和空间正则化模块还被配置为在对图片进行识别之前进行如下的训练:
利用所有标签数据训练所述主干网络模块的第一网络参数;以及
在所述第一网络参数固定的情况下,利用带有内容标签的训练数据训练所述特征增强模块和空间正则化模块的第二网络参数。
21.根据权利要求20所述的装置,其中K维全连接模块还被配置为在对标签预测结果向量
Figure DEST_PATH_IMAGE041
进行处理之前进行如下的训练:
在训练并固定所述第一网络参数和第二网络参数的情况下,利用所有训练数据训练所述K维全连接模块的第三网络参数。
22.根据权利要求21所述的装置,其中阈值设定模块还被配置为在训练并固定所述第一网络参数、第二网络参数、第三网络参数的情况下训练得到所述置信度阈值。
23.一种用于自动识别图片中的多标签的计算机设备,包括:
一个或多个处理器;和
耦合到所述一个或多个处理器的存储器,该存储器存储指令,所述指令在被所述一个或多个处理器执行时使得该计算机设备执行根据权利要求1-11中任一项所述的方法。
24.一种计算机程序产品,所述计算机程序产品包括存储有指令的计算机可读存储介质,所述指令在被计算系统的至少一个处理器执行时使得计算系统执行根据权利要求1-11中任一项所述的方法。
CN201811202664.0A 2018-10-16 2018-10-16 图片多标签的自动识别方法和装置 Active CN111061889B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201811202664.0A CN111061889B (zh) 2018-10-16 2018-10-16 图片多标签的自动识别方法和装置
PCT/CN2019/077671 WO2020077940A1 (en) 2018-10-16 2019-03-11 Method and device for automatic identification of labels of image
US16/611,463 US20220180624A1 (en) 2018-10-16 2019-03-11 Method and device for automatic identification of labels of an image
EP19848956.9A EP3867808A1 (en) 2018-10-16 2019-03-11 Method and device for automatic identification of labels of image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811202664.0A CN111061889B (zh) 2018-10-16 2018-10-16 图片多标签的自动识别方法和装置

Publications (2)

Publication Number Publication Date
CN111061889A true CN111061889A (zh) 2020-04-24
CN111061889B CN111061889B (zh) 2024-03-29

Family

ID=70283319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811202664.0A Active CN111061889B (zh) 2018-10-16 2018-10-16 图片多标签的自动识别方法和装置

Country Status (4)

Country Link
US (1) US20220180624A1 (zh)
EP (1) EP3867808A1 (zh)
CN (1) CN111061889B (zh)
WO (1) WO2020077940A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016450A (zh) * 2020-08-27 2020-12-01 京东方科技集团股份有限公司 机器学习模型的训练方法、装置和电子设备
CN112347279A (zh) * 2020-05-20 2021-02-09 杭州贤芯科技有限公司 一种手机相片搜索方法
CN112732871A (zh) * 2021-01-12 2021-04-30 上海畅圣计算机科技有限公司 一种机器人催收获取客户意向标签的多标签分类方法
CN115272780A (zh) * 2022-09-29 2022-11-01 北京鹰瞳科技发展股份有限公司 训练多标签分类模型的方法及相关产品

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11494616B2 (en) * 2019-05-09 2022-11-08 Shenzhen Malong Technologies Co., Ltd. Decoupling category-wise independence and relevance with self-attention for multi-label image classification
CN113313669B (zh) * 2021-04-23 2022-06-03 石家庄铁道大学 一种地铁隧道表面病害图像顶层语义特征增强方法
CN113868240B (zh) * 2021-11-30 2022-03-11 深圳佑驾创新科技有限公司 数据清洗方法及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9443314B1 (en) * 2012-03-29 2016-09-13 Google Inc. Hierarchical conditional random field model for labeling and segmenting images
WO2017198039A1 (zh) * 2016-05-16 2017-11-23 中兴通讯股份有限公司 标签推荐方法及装置
US20180032801A1 (en) * 2016-07-27 2018-02-01 International Business Machines Corporation Inferring body position in a scan

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8483447B1 (en) * 2010-10-05 2013-07-09 Google Inc. Labeling features of maps using road signs
DE102015000377A1 (de) * 2014-02-07 2015-08-13 Adobe Systems, Inc. Bereitstellen einer Zeichenhilfe unter Nutzung einer Merkmalserfassung und eines semantischen Kennzeichnens

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9443314B1 (en) * 2012-03-29 2016-09-13 Google Inc. Hierarchical conditional random field model for labeling and segmenting images
WO2017198039A1 (zh) * 2016-05-16 2017-11-23 中兴通讯股份有限公司 标签推荐方法及装置
CN107391509A (zh) * 2016-05-16 2017-11-24 中兴通讯股份有限公司 标签推荐方法及装置
US20180032801A1 (en) * 2016-07-27 2018-02-01 International Business Machines Corporation Inferring body position in a scan

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347279A (zh) * 2020-05-20 2021-02-09 杭州贤芯科技有限公司 一种手机相片搜索方法
CN112016450A (zh) * 2020-08-27 2020-12-01 京东方科技集团股份有限公司 机器学习模型的训练方法、装置和电子设备
CN112016450B (zh) * 2020-08-27 2023-09-05 京东方科技集团股份有限公司 机器学习模型的训练方法、装置和电子设备
CN112732871A (zh) * 2021-01-12 2021-04-30 上海畅圣计算机科技有限公司 一种机器人催收获取客户意向标签的多标签分类方法
CN115272780A (zh) * 2022-09-29 2022-11-01 北京鹰瞳科技发展股份有限公司 训练多标签分类模型的方法及相关产品
CN115272780B (zh) * 2022-09-29 2022-12-23 北京鹰瞳科技发展股份有限公司 训练多标签分类模型的方法及相关产品

Also Published As

Publication number Publication date
EP3867808A1 (en) 2021-08-25
US20220180624A1 (en) 2022-06-09
WO2020077940A1 (en) 2020-04-23
CN111061889B (zh) 2024-03-29

Similar Documents

Publication Publication Date Title
CN111061889B (zh) 图片多标签的自动识别方法和装置
Chen et al. Underwater object detection using Invert Multi-Class Adaboost with deep learning
US20210295089A1 (en) Neural network for automatically tagging input image, computer-implemented method for automatically tagging input image, apparatus for automatically tagging input image, and computer-program product
Xie et al. Multilevel cloud detection in remote sensing images based on deep learning
Albani et al. A deep learning approach for object recognition with NAO soccer robots
US8379994B2 (en) Digital image analysis utilizing multiple human labels
CN111178251B (zh) 一种行人属性识别方法及系统、存储介质及终端
EP3539050A1 (en) Neural network-based action detection
CN111027493A (zh) 一种基于深度学习多网络软融合的行人检测方法
Pan et al. Weakly-supervised image semantic segmentation using graph convolutional networks
Lee et al. An ensemble method of cnn models for object detection
Jeong et al. Co-salient object detection based on deep saliency networks and seed propagation over an integrated graph
Su et al. Cascaded pyramid mining network for weakly supervised temporal action localization
CN110807437A (zh) 视频粒度特征确定方法、装置和计算机可读存储介质
Suhail et al. Convolutional neural network based object detection: A review
Ukwuoma et al. Animal species detection and classification framework based on modified multi-scale attention mechanism and feature pyramid network
Fu et al. A case study of utilizing YOLOT based quantitative detection algorithm for marine benthos
CN114298179A (zh) 一种数据处理方法、装置及设备
Juyal et al. Multilabel image classification using the CNN and DC-CNN model on Pascal VOC 2012 dataset
CN114462290A (zh) 一种生成预训练人工智能模型的方法及装置
Anusha et al. Object detection using deep learning
Cho et al. N-rpn: Hard example learning for region proposal networks
CN111858999B (zh) 一种基于分段困难样本生成的检索方法及装置
Liu et al. Learning to refine object contours with a top-down fully convolutional encoder-decoder network
Kalidindi et al. Plant disease detection using faster RCNN networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210521

Address after: Room 2305, luguyuyuan venture building, 27 Wenxuan Road, high tech Development Zone, Changsha City, Hunan Province, 410005

Applicant after: BOE Yiyun Technology Co.,Ltd.

Address before: 100015 No. 10, Jiuxianqiao Road, Beijing, Chaoyang District

Applicant before: BOE TECHNOLOGY GROUP Co.,Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20240226

Address after: Room 207, 207M, Building 1, 1818-1 Wenyi West Road, Yuhang Street, Yuhang District, Hangzhou City, Zhejiang Province, 311121

Applicant after: BOE Yiyun (Hangzhou) Technology Co.,Ltd.

Country or region after: China

Address before: Room 2305, luguyuyuan venture building, 27 Wenxuan Road, high tech Development Zone, Changsha City, Hunan Province, 410005

Applicant before: BOE Yiyun Technology Co.,Ltd.

Country or region before: China

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant