CN112288044B

CN112288044B - 基于树型结构的多尺度残差网络的新闻画面属性识别方法

Info

Publication number: CN112288044B
Application number: CN202011543555.2A
Authority: CN
Inventors: 温序铭; 袁琦; 袁霞
Original assignee: Chengdu Sobey Digital Technology Co Ltd
Current assignee: Chengdu Sobey Digital Technology Co Ltd
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2021-07-27
Anticipated expiration: 2040-12-24
Also published as: CN112288044A

Abstract

本发明公开了一种基于树型结构的多尺度残差网络的新闻画面属性识别方法，包括步骤：S1，标注新闻画面属性类别、层级定义及数据；S2，标注后，构建新闻画面属性通用的多尺度残差网络模型；S3，根据步骤S1标注的数据，使用步骤S2构建的模型训练更新其参数；S4，根据步骤S1定义的层级关系，构造预测树，用于新闻画面属性识别等；本发明高效，可实现自动化、高精度识别新闻画面属性，同时具备可扩展性，实现了满足实际工程应用场景的需要。

Description

基于树型结构的多尺度残差网络的新闻画面属性识别方法

技术领域

本发明涉及新闻画面属性分类领域，更为具体的，涉及一种基于树型结构的多尺度残差网络的新闻画面属性识别方法。

背景技术

新闻视频作为一种重要的新闻资讯传播手段，相比起通过报纸、电台、广播等作为传播载体的新闻资讯传播方式，往往具有对新闻事件描述更加直观和具现化的特性。其中，新闻视频包含的视觉信息，更是能够提供诸多的有用属性、标签，帮助各电视台、自媒体从业者根据各种属性、标签对新闻素材进行分门别类，构建自有的新闻素材库，方便重用。随着近几年，互联网的高速发展，各种自媒体的蓬勃发展，新闻资讯数量呈现几何式增长，传统的人工标注素材建库入库流程就显得非常繁琐且效率尤为低下，一种自动化、高精度、高效率以及具备可扩展性的新闻素材属性、标签提取技术就显得十分必要。

卷积神经网络由多层感知机（MLP）演变而来，由于其具有局部区域连接、权值共享、降采样等结构特点，使得卷积神经网络在图像处理领域表现出色。而残差网络通过引入捷径链接，将输入跨层传递与卷积结果相加，使得训练一个深度很深的卷积神经网络成为可能。虽然其在各个学术领域诸如图像分类、目标检测、语意分割等都取得了相较于传统计算机视觉算法更加优越的性能，但在实际工程应用中，依然存在着诸多问题：

（1）针对实际的工程应用场景，往往需要对现有的网络模型结构进行微调甚至重新设计。

（2）神经网络由于其自身的特性，天然有利于解决闭集问题，且性能表现优异。但实际工程应用场景，往往需要解决的是开集问题。当将此类模型直接应用在工程应用中而不对输入做额外判别筛选时，得到的模型输出结果往往不可知和令人无法接受。比如一个能够分辨苹果和香蕉的二分类模型，当输入图像实际为西瓜时，模型可能会认为其依然为苹果或者香蕉，甚至模型输出的置信度还并不低。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于树型结构的多尺度残差网络的新闻画面属性识别方法，高效，可实现自动化、高精度识别新闻画面属性，同时具备可扩展性，实现了满足实际工程应用场景的需要。

本发明的目的是通过以下方案实现的：

一种基于树型结构的多尺度残差网络的新闻画面属性识别方法，包括步骤：

S1，标注新闻画面属性类别、层级定义及数据；

S2，标注后，构建新闻画面属性通用的多尺度残差网络模型；

S3，根据步骤S1标注的数据，使用步骤S2构建的模型训练更新其参数；

S4，根据步骤S1定义的层级关系，构造预测树，用于新闻画面属性识别。

进一步地，步骤S1包括：

S101，确定新闻画面属性的分类体系，所述分类体系采用多层级类别表示，包括每一层级的详细类别和不同层级的类别之间的隶属关系；

S102，根据已经确定的分类体系，获取每个类别的新闻画面图像样本。

进一步地，步骤S2包括：

S201，以深度残差网络为基础，在每个阶段引入侧向连接，分别记作

，将每个阶段特征维度变换到相同维度，分别记作

，再自顶向下，递归地对

进行上采样和平滑操作，并与

相加进行特征融合，得到最终各阶段的融合特征

，即：

各阶段融合特征如下：

其中，x为输入图像，

表示输入图像x在网络第n个阶段得到的特征图，

；

为2D卷积操作，输出通道固定为128，核大小为1；S为平滑操作；用核大小 3*3，输入通道和输出通道相同的2D卷积操作实现，

表示双线性插值上采样2倍；

S202，根据步骤S1确定的类别层级关系确定每个分类器的类别个数，调整网络的全连接层。

进一步地，步骤S3包括：

S301，初始化网络参数，所有卷积层初始参数满足kaiming正态分布，所有全连接层初始参数满足0均值的正态分布，偏执项均初始化为0；

S302，根据分类器类别数目，定义二元交叉熵损失

和开集损失

，二元交叉熵损失函数公式如下：

其中y目标标签，取值0或1，x为输入图像；

开集损失函数如下：

其中，x表示输入图像，

中，

表示模型输出的

得分，

中，

表示模型提取的N维图像特征，

中，

为批大小，

表示该批输入中，模型提取到的第i个样本的特征，

表示其对应类别特征的中心点，

为欧式距离；KKC表示已知类，即闭集分类中实际需要划分的类别，KUC表示已知的未知类，即训练时已知的不属于KKC类别的其他所有样本组成的背景、垃圾类别，

均为超参数，由人工设定，其中

是L1的系数，

是L2的系数，

表示边界值；c表示当输入图像x的目标类别；当分类器类别数大于二时，使用开集损失作为损失函数，当分类器类别数等于二时，使用二元交叉熵损失作为损失函数；

S303，按批输入色彩空间为RGB的3通道图像，宽高均缩放到设定个像素並将数值归一化到

，采用随机翻转、色彩抖动作为图像增强方法，并使用步骤S302中对应的损失函数计算网络预测值与真实值误差，使用批梯度下降法反向传播误差更新模型参数，反复迭代直到模型收敛。

进一步地，步骤S201中，以原始50层的深度残差网络为基础。

进一步地，步骤S303中，宽高均缩放到224个像素。

本发明的有益效果是：

（1）本发明提供了一种高效，可实现自动化、高精度识别新闻画面属性的方法，同时具备可扩展性；具体的，提出一种新闻画面属性的类别和层级划分处理操作，构建一种对于新闻画面属性不同层级分类通用的模型结构，能够充分融合图像低级别特征和高级别特征，增加了属性划分的精度；并且，提出一种适用于工程应用中的开集分类问题的损失函数应用处理步骤，使得模型在利用数据预测时对于不属于训练集中任意KKC类别的样本，能有拒绝识别的能力，从而实现了真正满足实际工程应用场景的需要。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的方法步骤流程图；

图2为本发明实施例中树形结构的新闻画面属性类别层级示意图；

图3为本发明实施例中使用多层相关吉布斯采样方法训练模型的流程图。

具体实施方式

本说明书中所有实施例公开的所有特征（包括任何附加权利要求、摘要和附图），或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合和/或扩展、替换。

如图1~3所示，一种基于树型结构的多尺度残差网络的新闻画面属性识别方法，包括步骤：

S1，标注新闻画面属性类别、层级定义及数据；

进一步地，步骤S1包括：

进一步地，步骤S2包括：

，将每个阶段特征维度变换到相同维度，分别记作

，再自顶向下，递归地对

进行上采样和平滑操作，并与

相加进行特征融合，得到最终各阶段的融合特征

，即：

各阶段融合特征如下：

其中，x为输入图像，

表示输入图像x在网络第n个阶段得到的特征图，

；

表示双线性插值上采样2倍；

进一步地，步骤S3包括：

S302，根据分类器类别数目，定义二元交叉熵损失

和开集损失

，二元交叉熵损失函数公式如下：

其中y目标标签，取值0或1，x为输入图像；

开集损失函数如下：

其中，x表示输入图像，

中，

表示模型输出的

得分，

中，

表示模型提取的N维图像特征，

中，

为批大小，

表示该批输入中，模型提取到的第i个样本的特征，

表示其对应类别特征的中心点，

均为超参数，由人工设定，其中

是L1的系数，

是L2的系数，

进一步地，步骤S201中，以原始50层的深度残差网络为基础。

进一步地，步骤S303中，宽高均缩放到224个像素。

在本发明的其他实施例中，如图1所示，本实施例提供一种基于树形结构的多尺度残差网络的新闻画面属性的识别方法，包括构建模型的构建过程：

步骤一：新闻画面属性类别、层级定义及数据标注；

该步骤一中，可以经由专业新闻相关从业者讨论，所有属性类别及隶属层级关系根据其需求和建议得出。其中，步骤一包括如下子步骤：

步骤101：确定新闻画面属性的分类体系，这里的分类体系采用多层级类别表示，包括每一层级的详细类别和不同层级的类别之间的隶属关系；本实施例中，可以如图2所示的分类体系为例。

步骤102：根据已经确定的分类体系，获取每个类别的新闻画面图像样本；在本实施例中，通过使用爬虫技术在互联网爬取北京、山西、青海等各省市电视台的新闻栏目取得原始视频素材共38个，然后使用镜头切分算法将每个视频切分成若干镜头，通过人工标注每个镜头的首帧和结束帧，组成最终的训练数据集。

步骤二：新闻画面属性通用模型构建；

本实施例中，所有模型均可采用50层的多尺度残差网络构建。具体地，步骤二中包括如下子步骤：

步骤201：新闻画面属性通用的多尺度残差网络模型构建，各阶段的融合特征

的特征图大小、通道数计算如下：

其中，

表示取输入特征图的通道数、特征图宽度和特征图高度。

对各阶段融合特征

的自适应平均池化、批归一化、RELU激活后的特征图大小、通道数如下：

将

展开后相加并取平均得到2048维的特征向量作为最终提取的图像特征表示。

步骤202：根据步骤一确定的类别层级关系，确定每个分类器的类别个数，调整网络的全连接层；具体的，根据在本实施例确定的如图2所示的层级分类体系中，共拟定构建4 个分类器

，其中

使用开集损失函数，负责对多视窗场景、图文场景、演播室场景进行分类，即KKC类别数为3；

负责分类信息图文和非信息图文，为二分类器，采用二元交叉熵损失函数；

采用开集损失函数，负责对单人演播室和双人演播室进行分类，KKC类别数为2；

为二分类器，负责分类人物特写和非人物特写，采用二元交叉熵损失函数；

步骤三：根据步骤一标注的数据，使用步骤二构建的模型训练更新其参数；本实施例中，一共需要训练4个模型，包括如下步骤：

步骤301:分别初始化

网络参数，所有卷积层初始参数满足 kaiming正态分布，所有全连接层初始参数满足0均值的正态分布，偏执项均初始化为0；

步骤302:对于使用开集损失函数的

和

分类器，需要设置相关超参数；在本实施例中，

；

步骤303:使用步骤一中构建的新闻画面属性数据集和步骤二中构建的模型分别训练

，均按批输入色彩空间为RGB的3通道图像，宽高均缩放到224个像素並将数值归一化到，采用随机翻转、色彩抖动作为图像增强方法使用批梯度下降法反向传播误差更新模型参数，反复迭代直到模型收敛；

步骤四：基于步骤一划分的层级关系、步骤二构建的模型结构、步骤三训练得到的分类器

，生成预测树，具体流程如图3所示等。

本发明功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，在一台计算机设备（可以是个人计算机，服务器，或者网络设备等）以及相应的软件中执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、或者光盘等各种可以存储程序代码的介质，进行测试或者实际的数据在程序实现中存在于只读存储器（Random Access Memory，RAM）、随机存取存储器（Random Access Memory，RAM）等。