CN112288044B - 基于树型结构的多尺度残差网络的新闻画面属性识别方法 - Google Patents

基于树型结构的多尺度残差网络的新闻画面属性识别方法 Download PDF

Info

Publication number
CN112288044B
CN112288044B CN202011543555.2A CN202011543555A CN112288044B CN 112288044 B CN112288044 B CN 112288044B CN 202011543555 A CN202011543555 A CN 202011543555A CN 112288044 B CN112288044 B CN 112288044B
Authority
CN
China
Prior art keywords
news
residual error
model
image
error network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011543555.2A
Other languages
English (en)
Other versions
CN112288044A (zh
Inventor
温序铭
袁琦
袁霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Sobey Digital Technology Co Ltd
Original Assignee
Chengdu Sobey Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Sobey Digital Technology Co Ltd filed Critical Chengdu Sobey Digital Technology Co Ltd
Priority to CN202011543555.2A priority Critical patent/CN112288044B/zh
Publication of CN112288044A publication Critical patent/CN112288044A/zh
Application granted granted Critical
Publication of CN112288044B publication Critical patent/CN112288044B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于树型结构的多尺度残差网络的新闻画面属性识别方法,包括步骤:S1,标注新闻画面属性类别、层级定义及数据;S2,标注后,构建新闻画面属性通用的多尺度残差网络模型;S3,根据步骤S1标注的数据,使用步骤S2构建的模型训练更新其参数;S4,根据步骤S1定义的层级关系,构造预测树,用于新闻画面属性识别等;本发明高效,可实现自动化、高精度识别新闻画面属性,同时具备可扩展性,实现了满足实际工程应用场景的需要。

Description

基于树型结构的多尺度残差网络的新闻画面属性识别方法
技术领域
本发明涉及新闻画面属性分类领域,更为具体的,涉及一种基于树型结构的多尺度残差网络的新闻画面属性识别方法。
背景技术
新闻视频作为一种重要的新闻资讯传播手段,相比起通过报纸、电台、广播等作为传播载体的新闻资讯传播方式,往往具有对新闻事件描述更加直观和具现化的特性。其中,新闻视频包含的视觉信息,更是能够提供诸多的有用属性、标签,帮助各电视台、自媒体从业者根据各种属性、标签对新闻素材进行分门别类,构建自有的新闻素材库,方便重用。随着近几年,互联网的高速发展,各种自媒体的蓬勃发展,新闻资讯数量呈现几何式增长,传统的人工标注素材建库入库流程就显得非常繁琐且效率尤为低下,一种自动化、高精度、高效率以及具备可扩展性的新闻素材属性、标签提取技术就显得十分必要。
卷积神经网络由多层感知机(MLP)演变而来,由于其具有局部区域连接、权值共享、降采样等结构特点,使得卷积神经网络在图像处理领域表现出色。而残差网络通过引入捷径链接,将输入跨层传递与卷积结果相加,使得训练一个深度很深的卷积神经网络成为可能。虽然其在各个学术领域诸如图像分类、目标检测、语意分割等都取得了相较于传统计算机视觉算法更加优越的性能,但在实际工程应用中,依然存在着诸多问题:
(1)针对实际的工程应用场景,往往需要对现有的网络模型结构进行微调甚至重新设计。
(2)神经网络由于其自身的特性,天然有利于解决闭集问题,且性能表现优异。但实际工程应用场景,往往需要解决的是开集问题。当将此类模型直接应用在工程应用中而不对输入做额外判别筛选时,得到的模型输出结果往往不可知和令人无法接受。比如一个能够分辨苹果和香蕉的二分类模型,当输入图像实际为西瓜时,模型可能会认为其依然为苹果或者香蕉,甚至模型输出的置信度还并不低。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于树型结构的多尺度残差网络的新闻画面属性识别方法,高效,可实现自动化、高精度识别新闻画面属性,同时具备可扩展性,实现了满足实际工程应用场景的需要。
本发明的目的是通过以下方案实现的:
一种基于树型结构的多尺度残差网络的新闻画面属性识别方法,包括步骤:
S1,标注新闻画面属性类别、层级定义及数据;
S2,标注后,构建新闻画面属性通用的多尺度残差网络模型;
S3,根据步骤S1标注的数据,使用步骤S2构建的模型训练更新其参数;
S4,根据步骤S1定义的层级关系,构造预测树,用于新闻画面属性识别。
进一步地,步骤S1包括:
S101,确定新闻画面属性的分类体系,所述分类体系采用多层级类别表示,包括每一层级的详细类别和不同层级的类别之间的隶属关系;
S102,根据已经确定的分类体系,获取每个类别的新闻画面图像样本。
进一步地,步骤S2包括:
S201,以深度残差网络为基础,在每个阶段引入侧向连接,分别记作
Figure 125263DEST_PATH_IMAGE001
,将每个阶段特征维度变换到相同维度,分别记作
Figure 350708DEST_PATH_IMAGE002
,再自顶向 下,递归地对
Figure 799007DEST_PATH_IMAGE003
进行上采样和平滑操作,并与
Figure 375482DEST_PATH_IMAGE004
相加进行特征融合,得到最终各 阶段的融合特征
Figure 52582DEST_PATH_IMAGE005
,即:
Figure 398113DEST_PATH_IMAGE006
各阶段融合特征如下:
Figure 282892DEST_PATH_IMAGE007
其中,x为输入图像,
Figure 831816DEST_PATH_IMAGE008
表示输入图像x在网络第n个阶段得到的特征图,
Figure 561875DEST_PATH_IMAGE009
Figure 761912DEST_PATH_IMAGE010
为2D卷积操作,输出通道固定为128,核大小为1;S为平滑操作;用核大小 3*3,输入通道和输出通道相同的2D卷积操作实现,
Figure 305676DEST_PATH_IMAGE011
表示双线性插值上采样2倍;
S202,根据步骤S1确定的类别层级关系确定每个分类器的类别个数,调整网络的全连接层。
进一步地,步骤S3包括:
S301,初始化网络参数,所有卷积层初始参数满足kaiming正态分布,所有全连接层初始参数满足0均值的正态分布,偏执项均初始化为0;
S302,根据分类器类别数目,定义二元交叉熵损失
Figure 591163DEST_PATH_IMAGE012
和开集损失
Figure 859334DEST_PATH_IMAGE013
,二 元交叉熵损失函数公式如下:
Figure 179457DEST_PATH_IMAGE014
其中y目标标签,取值0或1,x为输入图像;
开集损失函数如下:
Figure DEST_PATH_IMAGE015
其中,x表示输入图像,
Figure 422350DEST_PATH_IMAGE016
中,
Figure 929555DEST_PATH_IMAGE017
表示模型输出的
Figure 1416DEST_PATH_IMAGE018
得分,
Figure 926778DEST_PATH_IMAGE019
中,
Figure 793103DEST_PATH_IMAGE020
表示模型提取的N维图像特征,
Figure 318762DEST_PATH_IMAGE021
中,
Figure 741784DEST_PATH_IMAGE022
为批大小,
Figure 315461DEST_PATH_IMAGE023
表示该批输入中,模型提取到的 第i个样本的特征,
Figure 352687DEST_PATH_IMAGE024
表示其对应类别特征的中心点,
Figure 365642DEST_PATH_IMAGE025
为欧式距离;KKC表示已知类, 即闭集分类中实际需要划分的类别,KUC表示已知的未知类,即训练时已知的不属于KKC类 别的其他所有样本组成的背景、垃圾类别,
Figure 530038DEST_PATH_IMAGE026
均为超参数,由人工设定,其中
Figure 413681DEST_PATH_IMAGE027
是L1的系数,
Figure 887387DEST_PATH_IMAGE028
是L2的系数,
Figure 856480DEST_PATH_IMAGE029
表示边界值;c表示当输入图像x的目标类别;当分类器类别 数大于二时,使用开集损失作为损失函数,当分类器类别数等于二时,使用二元交叉熵损失 作为损失函数;
S303,按批输入色彩空间为RGB的3通道图像,宽高均缩放到设定个像素並将数值 归一化到
Figure 558988DEST_PATH_IMAGE030
,采用随机翻转、色彩抖动作为图像增强方法,并使用步骤S302中对应的损 失函数计算网络预测值与真实值误差,使用批梯度下降法反向传播误差更新模型参数,反 复迭代直到模型收敛。
进一步地,步骤S201中,以原始50层的深度残差网络为基础。
进一步地,步骤S303中,宽高均缩放到224个像素。
本发明的有益效果是:
(1)本发明提供了一种高效,可实现自动化、高精度识别新闻画面属性的方法,同时具备可扩展性;具体的,提出一种新闻画面属性的类别和层级划分处理操作,构建一种对于新闻画面属性不同层级分类通用的模型结构,能够充分融合图像低级别特征和高级别特征,增加了属性划分的精度;并且,提出一种适用于工程应用中的开集分类问题的损失函数应用处理步骤,使得模型在利用数据预测时对于不属于训练集中任意KKC类别的样本,能有拒绝识别的能力,从而实现了真正满足实际工程应用场景的需要。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的方法步骤流程图;
图2为本发明实施例中树形结构的新闻画面属性类别层级示意图;
图3为本发明实施例中使用多层相关吉布斯采样方法训练模型的流程图。
具体实施方式
本说明书中所有实施例公开的所有特征(包括任何附加权利要求、摘要和附图),或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
如图1~3所示,一种基于树型结构的多尺度残差网络的新闻画面属性识别方法,包括步骤:
S1,标注新闻画面属性类别、层级定义及数据;
S2,标注后,构建新闻画面属性通用的多尺度残差网络模型;
S3,根据步骤S1标注的数据,使用步骤S2构建的模型训练更新其参数;
S4,根据步骤S1定义的层级关系,构造预测树,用于新闻画面属性识别。
进一步地,步骤S1包括:
S101,确定新闻画面属性的分类体系,所述分类体系采用多层级类别表示,包括每一层级的详细类别和不同层级的类别之间的隶属关系;
S102,根据已经确定的分类体系,获取每个类别的新闻画面图像样本。
进一步地,步骤S2包括:
S201,以深度残差网络为基础,在每个阶段引入侧向连接,分别记作
Figure 562716DEST_PATH_IMAGE001
,将每个阶段特征维度变换到相同维度,分别记作
Figure 941745DEST_PATH_IMAGE002
,再自顶向 下,递归地对
Figure 398134DEST_PATH_IMAGE003
进行上采样和平滑操作,并与
Figure 904333DEST_PATH_IMAGE004
相加进行特征融合,得到最终各 阶段的融合特征
Figure 762568DEST_PATH_IMAGE005
,即:
Figure 843656DEST_PATH_IMAGE006
各阶段融合特征如下:
Figure 787341DEST_PATH_IMAGE007
其中,x为输入图像,
Figure 658800DEST_PATH_IMAGE008
表示输入图像x在网络第n个阶段得到的特征图,
Figure 371541DEST_PATH_IMAGE009
Figure 623531DEST_PATH_IMAGE010
为2D卷积操作,输出通道固定为128,核大小为1;S为平滑操作;用核大小 3*3,输入通道和输出通道相同的2D卷积操作实现,
Figure 805245DEST_PATH_IMAGE011
表示双线性插值上采样2倍;
S202,根据步骤S1确定的类别层级关系确定每个分类器的类别个数,调整网络的全连接层。
进一步地,步骤S3包括:
S301,初始化网络参数,所有卷积层初始参数满足kaiming正态分布,所有全连接层初始参数满足0均值的正态分布,偏执项均初始化为0;
S302,根据分类器类别数目,定义二元交叉熵损失
Figure 902514DEST_PATH_IMAGE012
和开集损失
Figure 469762DEST_PATH_IMAGE013
,二 元交叉熵损失函数公式如下:
Figure 627073DEST_PATH_IMAGE014
其中y目标标签,取值0或1,x为输入图像;
开集损失函数如下:
Figure 296083DEST_PATH_IMAGE031
其中,x表示输入图像,
Figure 197043DEST_PATH_IMAGE016
中,
Figure 884376DEST_PATH_IMAGE017
表示模型输出的
Figure 212590DEST_PATH_IMAGE018
得分,
Figure 368896DEST_PATH_IMAGE019
中,
Figure 73546DEST_PATH_IMAGE020
表示模型提取的N维图像特征,
Figure 615386DEST_PATH_IMAGE021
中,
Figure 862303DEST_PATH_IMAGE022
为批大小,
Figure 489594DEST_PATH_IMAGE023
表示该批输入中,模型提取到的 第i个样本的特征,
Figure 466777DEST_PATH_IMAGE024
表示其对应类别特征的中心点,
Figure 128703DEST_PATH_IMAGE025
为欧式距离;KKC表示已知类, 即闭集分类中实际需要划分的类别,KUC表示已知的未知类,即训练时已知的不属于KKC类 别的其他所有样本组成的背景、垃圾类别,
Figure 549451DEST_PATH_IMAGE026
均为超参数,由人工设定,其中
Figure 664037DEST_PATH_IMAGE027
是L1的系数,
Figure 710491DEST_PATH_IMAGE028
是L2的系数,
Figure 226923DEST_PATH_IMAGE029
表示边界值;c表示当输入图像x的目标类别;当分类器类别 数大于二时,使用开集损失作为损失函数,当分类器类别数等于二时,使用二元交叉熵损失 作为损失函数;
S303,按批输入色彩空间为RGB的3通道图像,宽高均缩放到设定个像素並将数值 归一化到
Figure 818572DEST_PATH_IMAGE030
,采用随机翻转、色彩抖动作为图像增强方法,并使用步骤S302中对应的损 失函数计算网络预测值与真实值误差,使用批梯度下降法反向传播误差更新模型参数,反 复迭代直到模型收敛。
进一步地,步骤S201中,以原始50层的深度残差网络为基础。
进一步地,步骤S303中,宽高均缩放到224个像素。
在本发明的其他实施例中,如图1所示,本实施例提供一种基于树形结构的多尺度残差网络的新闻画面属性的识别方法,包括构建模型的构建过程:
步骤一:新闻画面属性类别、层级定义及数据标注;
该步骤一中,可以经由专业新闻相关从业者讨论,所有属性类别及隶属层级关系根据其需求和建议得出。其中,步骤一包括如下子步骤:
步骤101:确定新闻画面属性的分类体系,这里的分类体系采用多层级类别表示,包括每一层级的详细类别和不同层级的类别之间的隶属关系;本实施例中,可以如图2所示的分类体系为例。
步骤102:根据已经确定的分类体系,获取每个类别的新闻画面图像样本;在本实施例中,通过使用爬虫技术在互联网爬取北京、山西、青海等各省市电视台的新闻栏目取得原始视频素材共38个,然后使用镜头切分算法将每个视频切分成若干镜头,通过人工标注每个镜头的首帧和结束帧,组成最终的训练数据集。
步骤二:新闻画面属性通用模型构建;
本实施例中,所有模型均可采用50层的多尺度残差网络构建。具体地,步骤二中包括如下子步骤:
步骤201:新闻画面属性通用的多尺度残差网络模型构建,各阶段的融合特征
Figure 420455DEST_PATH_IMAGE033
的特征图大小、通道数计算如下:
Figure 5020DEST_PATH_IMAGE035
其中,
Figure 375958DEST_PATH_IMAGE036
表示取输入特征图的通道数、特征图宽度和特征图高度。
对各阶段融合特征
Figure 138509DEST_PATH_IMAGE037
的自适应平均池化、批归一化、RELU激活后的特征图大小、 通道数如下:
Figure 227688DEST_PATH_IMAGE039
Figure 615944DEST_PATH_IMAGE041
展开后相加并取平均得到2048维的特征向 量作为最终提取的图像特征表示。
步骤202:根据步骤一确定的类别层级关系,确定每个分类器的类别个数,调整网 络的全连接层;具体的,根据在本实施例确定的如图2所示的层级分类体系中,共拟定构建4 个分类器
Figure 595051DEST_PATH_IMAGE042
,其中
Figure 777771DEST_PATH_IMAGE043
使用开集损失函数,负责对多视窗场景、图文场景、演 播室场景进行分类,即KKC类别数为3;
Figure 354245DEST_PATH_IMAGE044
负责分类信息图文和非信息图文,为二分类器, 采用二元交叉熵损失函数;
Figure 280613DEST_PATH_IMAGE045
采用开集损失函数,负责对单人演播室和双人演播室进行分 类,KKC类别数为2;
Figure DEST_PATH_IMAGE046
为二分类器,负责分类人物特写和非人物特写,采用二元交叉熵损失 函数;
步骤三:根据步骤一标注的数据,使用步骤二构建的模型训练更新其参数;本实施例中,一共需要训练4个模型,包括如下步骤:
步骤301:分别初始化
Figure DEST_PATH_IMAGE047
网络参数,所有卷积层初始参数满足 kaiming正态分布,所有全连接层初始参数满足0均值的正态分布,偏执项均初始化为0;
步骤302:对于使用开集损失函数的
Figure 439193DEST_PATH_IMAGE043
Figure 58393DEST_PATH_IMAGE045
分类器,需要设置相关超参数;在本 实施例中,
Figure DEST_PATH_IMAGE048
步骤303:使用步骤一中构建的新闻画面属性数据集和步骤二中构建的模型分别 训练
Figure 138476DEST_PATH_IMAGE047
,均按批输入色彩空间为RGB的3通道图像,宽高均缩放到224个像素 並将数值归一化到,采用随机翻转、色彩抖动作为图像增强方法使用批梯度下降法反向传 播误差更新模型参数,反复迭代直到模型收敛;
步骤四:基于步骤一划分的层级关系、步骤二构建的模型结构、步骤三训练得到的 分类器
Figure 602955DEST_PATH_IMAGE047
,生成预测树,具体流程如图3所示等。
本发明功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,在一台计算机设备(可以是个人计算机,服务器,或者网络设备等)以及相应的软件中执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、或者光盘等各种可以存储程序代码的介质,进行测试或者实际的数据在程序实现中存在于只读存储器(Random Access Memory,RAM)、随机存取存储器(Random Access Memory,RAM)等。

Claims (5)

1.一种基于树型结构的多尺度残差网络的新闻画面属性识别方法,其特征在于,包括步骤:
S1,标注新闻画面属性类别、层级定义及数据;
S2,标注后,构建新闻画面属性通用的多尺度残差网络模型;步骤S2包括:
S201,以深度残差网络为基础,在每个阶段引入侧向连接,分别记作
Figure 168286DEST_PATH_IMAGE001
,将 每个阶段特征维度变换到相同维度,分别记作
Figure 554268DEST_PATH_IMAGE002
,再自顶向下, 递归地对
Figure 537267DEST_PATH_IMAGE003
进行上采样和平滑操作,并与
Figure 612103DEST_PATH_IMAGE004
相加进行特征融合,得到最终各阶 段的融合特征
Figure 629737DEST_PATH_IMAGE005
,即:
Figure 921041DEST_PATH_IMAGE006
各阶段融合特征如下:
Figure 906184DEST_PATH_IMAGE007
其中,x为输入图像,
Figure 308346DEST_PATH_IMAGE008
表示输入图像x在网络第n个阶段得到的特征图,
Figure 180487DEST_PATH_IMAGE009
Figure 393425DEST_PATH_IMAGE010
为2D卷积操作,输出通道固定为128,核大小为1;S为平滑操作,用核大小 3*3,输入通道和输出通道相同的2D卷积操作实现,
Figure 351017DEST_PATH_IMAGE011
表示双线性插值上采样2倍;
S202,根据步骤S1确定的类别层级关系确定每个分类器的类别个数,调整网络的全连接层;S3,根据步骤S1标注的数据,使用步骤S2构建的模型训练更新其参数;
S4,根据步骤S1定义的层级关系,构造预测树,用于新闻画面属性识别。
2.根据权利要求1所述的基于树型结构的多尺度残差网络的新闻画面属性识别方法,其特征在于,步骤S1包括:
S101,确定新闻画面属性的分类体系,所述分类体系采用多层级类别表示,包括每一层级的详细类别和不同层级的类别之间的隶属关系;
S102,根据已经确定的分类体系,获取每个类别的新闻画面图像样本。
3.根据权利要求1所述的基于树型结构的多尺度残差网络的新闻画面属性识别方法,其特征在于,步骤S3包括:
S301,初始化网络参数,所有卷积层初始参数满足kaiming正态分布,所有全连接层初始参数满足0均值的正态分布,偏执项均初始化为0;
S302,根据分类器类别数目,定义二元交叉熵损失
Figure 291291DEST_PATH_IMAGE012
和开集损失
Figure 267206DEST_PATH_IMAGE013
,二元交叉 熵损失函数公式如下:
Figure 900313DEST_PATH_IMAGE014
其中y目标标签,取值0或1,x为输入图像;
开集损失函数如下:
Figure 610780DEST_PATH_IMAGE016
其中,x表示输入图像,
Figure 836968DEST_PATH_IMAGE017
中,
Figure 949281DEST_PATH_IMAGE018
表示模型输出的
Figure 487710DEST_PATH_IMAGE019
得分,
Figure 934740DEST_PATH_IMAGE020
中,
Figure 216817DEST_PATH_IMAGE021
表示 模型提取的N维图像特征,
Figure 403210DEST_PATH_IMAGE022
中,
Figure 112540DEST_PATH_IMAGE023
为批大小,
Figure 250129DEST_PATH_IMAGE024
表示该批输入中,模型提取到的第i 个样本的特征,
Figure 804739DEST_PATH_IMAGE025
表示其对应类别特征的中心点,
Figure 114147DEST_PATH_IMAGE026
为欧式距离;KKC表示已知类,即闭 集分类中实际需要划分的类别,KUC表示已知的未知类,即训练时已知的不属于KKC类别的 其他所有样本组成的背景、垃圾类别,
Figure 525537DEST_PATH_IMAGE027
均为超参数,由人工设定,其中
Figure 901154DEST_PATH_IMAGE028
是L1的 系数,
Figure 774301DEST_PATH_IMAGE029
是L2的系数,
Figure 450133DEST_PATH_IMAGE030
表示边界值;c表示输入图像x的目标类别;当分类器类别数大于二 时,使用开集损失作为损失函数,当分类器类别数等于二时,使用二元交叉熵损失作为损失 函数;
S303,按批输入色彩空间为RGB的3通道图像,宽高均缩放到设定个像素並将数值归一 化到
Figure 32424DEST_PATH_IMAGE031
,采用随机翻转、色彩抖动作为图像增强方法,并使用步骤S302中对应的损失函 数计算网络预测值与真实值误差,使用批梯度下降法反向传播误差更新模型参数,反复迭 代直到模型收敛。
4.根据权利要求1所述的基于树型结构的多尺度残差网络的新闻画面属性识别方法,其特征在于,步骤S201中,以原始50层的深度残差网络为基础。
5.根据权利要求3所述的基于树型结构的多尺度残差网络的新闻画面属性识别方法,其特征在于,步骤S303中,宽高均缩放到224个像素。
CN202011543555.2A 2020-12-24 2020-12-24 基于树型结构的多尺度残差网络的新闻画面属性识别方法 Active CN112288044B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011543555.2A CN112288044B (zh) 2020-12-24 2020-12-24 基于树型结构的多尺度残差网络的新闻画面属性识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011543555.2A CN112288044B (zh) 2020-12-24 2020-12-24 基于树型结构的多尺度残差网络的新闻画面属性识别方法

Publications (2)

Publication Number Publication Date
CN112288044A CN112288044A (zh) 2021-01-29
CN112288044B true CN112288044B (zh) 2021-07-27

Family

ID=74426031

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011543555.2A Active CN112288044B (zh) 2020-12-24 2020-12-24 基于树型结构的多尺度残差网络的新闻画面属性识别方法

Country Status (1)

Country Link
CN (1) CN112288044B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778594A (zh) * 2016-12-12 2017-05-31 燕山大学 基于lmd熵特征和lvq神经网络的运动想象脑电信号识别方法
CN108334847A (zh) * 2018-02-06 2018-07-27 哈尔滨工业大学 一种真实场景下的基于深度学习的人脸识别方法
US10395167B2 (en) * 2017-01-25 2019-08-27 Boe Technology Group Co., Ltd. Image processing method and device
CN110189255A (zh) * 2019-05-29 2019-08-30 电子科技大学 基于两级检测的人脸检测方法
CN110197152A (zh) * 2019-05-28 2019-09-03 南京邮电大学 一种用于自动驾驶系统的道路目标识别方法
US10748062B2 (en) * 2016-12-15 2020-08-18 WaveOne Inc. Deep learning based adaptive arithmetic coding and codelength regularization
CN111985533A (zh) * 2020-07-14 2020-11-24 中国电子科技集团公司第三十六研究所 一种基于多尺度信息融合的增量式水声信号识别方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980248B (zh) * 2010-11-09 2012-12-05 西安电子科技大学 基于改进视觉注意力模型的自然场景目标检测方法
CN102629319B (zh) * 2012-03-27 2014-02-19 中国科学院自动化研究所 基于特定边界检测子的鲁棒虹膜区域分割方法
CN105981008B (zh) * 2014-05-27 2019-05-28 北京旷视科技有限公司 学习深度人脸表示
KR102634166B1 (ko) * 2016-10-04 2024-02-08 한화비전 주식회사 다중 크기 컨볼루션 블록 층을 이용한 얼굴 인식 장치
CN107704866B (zh) * 2017-06-15 2021-03-23 清华大学 基于新型神经网络的多任务场景语义理解模型及其应用
CN109034230B (zh) * 2018-07-17 2021-03-30 厦门大学 一种基于深度学习的单幅图像相机溯源方法
CN108960198A (zh) * 2018-07-28 2018-12-07 天津大学 一种基于残差ssd模型的交通标志检测与识别方法
CN109753887B (zh) * 2018-12-17 2022-09-23 南京师范大学 一种基于增强核稀疏表示的sar图像目标识别方法
CN109816695A (zh) * 2019-01-31 2019-05-28 中国人民解放军国防科技大学 一种复杂背景下的红外小型无人机目标检测与跟踪方法
CN110059558B (zh) * 2019-03-15 2023-08-25 江苏大学 一种基于改进ssd网络的果园障碍物实时检测方法
CN110705457B (zh) * 2019-09-29 2024-01-19 核工业北京地质研究院 一种遥感影像建筑物变化检测方法
CN111222574B (zh) * 2020-01-07 2022-04-05 西北工业大学 基于多模型决策级融合的舰船与民船目标检测与分类方法
CN112085001B (zh) * 2020-09-23 2024-04-23 清华大学苏州汽车研究院(相城) 一种基于多尺度边缘特征检测的隧道识别模型及方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778594A (zh) * 2016-12-12 2017-05-31 燕山大学 基于lmd熵特征和lvq神经网络的运动想象脑电信号识别方法
US10748062B2 (en) * 2016-12-15 2020-08-18 WaveOne Inc. Deep learning based adaptive arithmetic coding and codelength regularization
US10395167B2 (en) * 2017-01-25 2019-08-27 Boe Technology Group Co., Ltd. Image processing method and device
CN108334847A (zh) * 2018-02-06 2018-07-27 哈尔滨工业大学 一种真实场景下的基于深度学习的人脸识别方法
CN110197152A (zh) * 2019-05-28 2019-09-03 南京邮电大学 一种用于自动驾驶系统的道路目标识别方法
CN110189255A (zh) * 2019-05-29 2019-08-30 电子科技大学 基于两级检测的人脸检测方法
CN111985533A (zh) * 2020-07-14 2020-11-24 中国电子科技集团公司第三十六研究所 一种基于多尺度信息融合的增量式水声信号识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Multi-scale CNN for Multi-sensor Feature Fusion in Helical Gear Fault Detection;Li T等;《Procedia Manufacturing》;20200131;第49卷;第89-93页 *
深度学习在图像识别中的应用研究综述;郑远攀等;《计算机工程与应用》;20190419;第55卷(第12期);第20-36页 *

Also Published As

Publication number Publication date
CN112288044A (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
CN111476284B (zh) 图像识别模型训练及图像识别方法、装置、电子设备
CN107424159B (zh) 基于超像素边缘和全卷积网络的图像语义分割方法
Shen et al. Higher order energies for image segmentation
Farabet et al. Scene parsing with multiscale feature learning, purity trees, and optimal covers
CN108345850B (zh) 基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法
Lassalle et al. A scalable tile-based framework for region-merging segmentation
CN111368636B (zh) 目标分类方法、装置、计算机设备和存储介质
CN111986125A (zh) 一种用于多目标任务实例分割的方法
CN112115291B (zh) 一种基于深度学习的三维室内模型检索方法
CN112069884A (zh) 一种暴力视频分类方法、系统和存储介质
CN110517270B (zh) 一种基于超像素深度网络的室内场景语义分割方法
Oluwasammi et al. Features to text: a comprehensive survey of deep learning on semantic segmentation and image captioning
CN116363374B (zh) 图像语义分割网络持续学习方法、系统、设备及存储介质
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
US20070110308A1 (en) Method, medium, and system with category-based photo clustering using photographic region templates
CN115240024A (zh) 一种联合自监督学习和半监督学习的地外图片分割方法和系统
CN110347853B (zh) 一种基于循环神经网络的图像哈希码生成方法
CN114821022A (zh) 融合主观逻辑和不确定性分布建模的可信目标检测方法
CN110287369B (zh) 一种基于语义的视频检索方法及系统
CN112527959B (zh) 基于无池化卷积嵌入和注意分布神经网络的新闻分类方法
CN114092819A (zh) 一种图像分类方法及装置
CN112288044B (zh) 基于树型结构的多尺度残差网络的新闻画面属性识别方法
CN117011515A (zh) 基于注意力机制的交互式图像分割模型及其分割方法
CN111832435A (zh) 基于迁移与弱监督的美丽预测方法、装置及存储介质
CN110942463A (zh) 一种基于生成对抗网络的视频目标分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant