CN113255628B

CN113255628B - 一种针对新闻场景的景别识别方法

Info

Publication number: CN113255628B
Application number: CN202110799561.2A
Authority: CN
Inventors: 陆维琛; 温序铭; 李�杰; 党博
Original assignee: Chengdu Sobey Digital Technology Co Ltd
Current assignee: Chengdu Sobey Digital Technology Co Ltd
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2021-10-15
Anticipated expiration: 2041-07-15
Also published as: CN113255628A

Abstract

本发明公开了一种针对新闻场景的景别识别方法，包括步骤：S1，构建电视新闻场景的景别识别数据集、场景识别数据集和目标检测数据集；S2，选取场景识别训练网络和目标检测训练网络分别进行训练，得到训练后的场景识别模型和目标检测模型；S3，为目标检测数据集中每个类别增加一个反映其实际尺寸的先验信息；S4，对景别识别数据集中的图像进行编码，将景别识别数据集中的图像输入训练后的目标检测模型，得到图像中的景物信息，并将该景物信息编码为特征；S5，基于编码后的景别数据集训练支持向量机进行景别识别等。本发明有效地融合了图像中的目标和场景信息，适用于多种场景和主体目标，可有效地提升新闻视频的编辑效率，减少人工成本。

Description

一种针对新闻场景的景别识别方法

技术领域

本发明涉及电视新闻制作领域，更为具体的，涉及一种针对新闻场景的景别识别方法。

背景技术

随着网络技术的发展，数字视频的普及，融媒体的兴起，视频数据的处理和分析技术变得越来越重要。

景别是指由于被摄物体与摄像机距离不同，而造成被摄物体在画面中所呈现出的范围大小不同。虽然景别的划分没有一个严格的标准，但通常被划分为远景、全景、中景、近景、特写。

在电视新闻制作过程中，一般来说既要有新闻事件的全景画面，也要有新闻细节的近景或特写画面，还应考虑到后期剪辑的方便而包含不同景别的画面。

通过交替地使用各种不同的景别，可以使得对事件的叙述、人物思想感情的表达、人物关系的处理更具有表现力。

由于电视新闻制作过程中有大量的原始素材，若通过人工的方式来对景别进行判断需要很高的人力成本。

发明内容

本发明的目的在于克服现有技术的不足，提供一种针对新闻场景的景别识别方法，有效地融合了图像中的目标和场景信息，适用于多种场景和主体目标，可有效地提升新闻视频的编辑效率，减少人工成本等。

本发明的目的是通过以下方案实现的：

一种针对新闻场景的景别识别方法，包括步骤：

S1，构建电视新闻场景的景别识别数据集、场景识别数据集、目标检测数据集；

S2，选取场景识别训练网络和目标检测训练网络分别进行训练，得到训练后的场景识别模型和目标检测模型；

S3，为目标检测数据集中每个目标类别增加一个反映其实际尺寸的先验信息；

S4，对景别识别数据集中的图像进行编码，将景别识别数据集中的图像同时输入训练后的场景识别和目标检测模型，从而得到图像中的景物信息，并将该景物信息编码为特征；

S5，基于编码后的景别识别数据集训练支持向量机进行景别识别。

进一步地，在步骤S1中，构建电视新闻场景的景别识别数据集、场景识别、目标检测数据集包括步骤：S11，收集新闻视频并从中提取图片，构成图片集合；S12，对步骤S11中每张图片的景别类别和场景进行标注，从而构成景别识别数据集和场景识别数据集；其中，构建目标检测数据集包括步骤：S1a，在COCO数据集的基础上，加入Open Image v4中与人体相关的数据，构成目标检测数据集。

进一步地，在步骤S2中，在步骤S12构成的场景识别数据集上训练得到场景识别模型，在步骤S1a构成的目标检测数据集上训练得到目标检测模型。

进一步地，在步骤S3中，包括如下步骤：

S31，从目标检测数据集中，针对每个目标类别各选择多张图像作为代表样本；

S32，根据步骤S31选出的代表样本，为每个类别分配一个能够反映其实际大小尺寸的变量S作为先验信息。

进一步地，在步骤S4中，包括如下步骤：

S41，使用目标检测模型对景别识别数据集中选出的每个样本进行目标检测，记录检测结果中最大检测框的宽和高分别占图像幅面宽和高的比例

和

：

；

；

其中，

和

分别为最大检测框的宽和高，

和

分别为图像幅面的宽和高；

S42，根据景别识别数据集中每个样本中最大检测框的类别，将该类别所对应的步骤S32中所述的变量S记录下来，此时

，

，

共同作为对应图像的目标编码信息

：

；

S43，使用场景识别模型对景别识别数据集中的每个样本进行场景识别，将每个样本对应的场景类别记录下来，作为场景编码信息

；

S44，将步骤S42中的目标编码信息

和步骤S43中的场景编码信息

拼接起来作为用于景别识别的特征

：

。

进一步地，在步骤S5中，包括如下子步骤：

S51，将经过目标编码和场景编码后的样本集合作为最终的景别识别数据集；

S52，将步骤S51中的景别识别数据集按照设定比例划分为训练集和测试集；

S53，在步骤S52划分的训练集上进行10折交叉验证法确定最优超参数；

S54，使用步骤S53中确定的最优超参数训练支持向量机，训练得到最终的支持向量机模型进行景别识别。

进一步地，在步骤S32中，所述变量S：

其中，

分别代表极大、大、中、中小、小、极小。

进一步地，在步骤S52中，所述设定比例为5:1。

本发明的有益效果包括：

本发明的方法针对新闻视频场景和主体多变的特性，提供了一种适用于多种场景和主体类别的景别识别解决方案。通过场景识别和目标检测，有效地融合了图像中的目标和场景信息，同时引入各目标物体的实际尺寸作为先验信息，从而使得本发明的方法适用于多种场景和主体目标，可有效地提升新闻视频的编辑效率，减少人工成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的整体流程图；

图2为本发明实施例中的构造景别识别数据集的流程图；

图3为本发明实施例中的对景别识别数据集进行编码的流程图；

图4为本发明实施例中的训练支持向量机并用于景别识别的流程图。

具体实施方式

本说明书中所有实施例公开的所有特征，或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合和/或扩展、替换。

实施例1

如图1所示，一种针对新闻场景的景别识别方法，包括步骤：

S4，对景别识别数据集中的图像进行编码，将景别识别数据集中的图像输入训练后的场景识别和目标检测模型，从而得到图像中的景物信息，并将该景物信息编码为特征；

实施例2

在实施例1的基础上，在步骤S1中，如图2所示，构建电视新闻场景的景别识别数据集、场景识别数据集、目标检测数据集包括步骤：

S11，收集新闻视频并从中提取图片，构成图片集合；

S12，对每张图片的景别类别和场景进行标注，从而构成景别识别数据集和场景识别数据集；其中，构建目标检测数据集包括步骤：S1a，在COCO数据集的基础上，加入OpenImage v4中与人体相关的数据，构成目标检测数据集。

在本实施例中，可以预先定义景别类别为：远景、中景、近景、特写；场景类别为：室内环境，城市风光，户外环境，演播室。然后从新闻视频中搜集图像形成一个图像集合，请4位专业人士对图像集合的每张图像的景别类别和场景类别进行标注，对4位专业人士的标注结果进行处理，筛选出标注结果一致的图像集合，作为景别识别和场景识别的数据集。

在本实施例中，在步骤S12构成的场景识别数据集上训练得到场景识别模型，在步骤S1a构成的目标检测数据集上训练得到目标检测模型。

实施例3

在实施例2的基础上，在步骤S3中，包括如下步骤：

实施例4

在实施例3的基础上，在步骤S4中，如图3所示，包括如下步骤：

和

：

；

；

其中，

和

分别为最大检测框的宽和高，

和

分别为图像幅面的宽和高；

，

，

共同作为对应图像的目标编码信息

：

；

S44，将步骤S42中的目标编码信息

和步骤S43中的场景编码信息

拼接起来作为用于景别识别的特征

：

。

实施例5

在实施例4的基础上，在步骤S5中，如图4所示，包括如下步骤：

在步骤S32中，所述变量S：

其中，

分别代表极大、大、中、中小、小、极小。

实施例6

在实施例5的基础上，在步骤S52中，设定比例为5:1。

本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。

上述技术方案只是本发明的一种实施方式，对于本领域内的技术人员而言，在本发明公开了应用方法和原理的基础上，很容易做出各种类型的改进或变形，而不仅限于本发明上述具体实施方式所描述的方法，因此前面描述的方式只是优选的，而并不具有限制性的意义。

除以上实例以外，本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例，各个实施例的特征可以互换或替换，本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

本发明功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，在一台计算机设备（可以是个人计算机，服务器，或者网络设备等）以及相应的软件中执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、或者光盘等各种可以存储程序代码的介质，进行测试或者实际的数据在程序实现中存在于只读存储器（Random Access Memory，RAM）、随机存取存储器（Random Access Memory，RAM）等。

Claims

1.一种针对新闻场景的景别识别方法，其特征在于，包括步骤：

在步骤S3中，包括如下步骤：

S32，根据步骤S31选出的代表样本，为每个类别分配一个能够反映其实际大小尺寸的变量S作为先验信息；

在步骤S4中，包括如下步骤：

和

：

；

；

其中，

和

分别为最大检测框的宽和高，

和

分别为图像幅面的宽和高；

，

，

共同作为对应图像的目标编码信息

：

；

S44，将步骤S42中的目标编码信息

和步骤S43中的场景编码信息

拼接起来作为用于景别识别的特征

：

；

2.根据权利要求1所述的一种针对新闻场景的景别识别方法，其特征在于，在步骤S1中，构建电视新闻场景的景别识别数据集、场景识别、目标检测数据集包括步骤：S11，收集新闻视频并从中提取图片，构成图片集合；S12，对步骤S11中每张图片的景别类别和场景进行标注，从而构成景别识别数据集和场景识别数据集；其中，构建目标检测数据集包括步骤：S1a，在COCO数据集的基础上，加入OpenImagev4中与人体相关的数据，构成目标检测数据集。

3.根据权利要求2所述的一种针对新闻场景的景别识别方法，其特征在于，在步骤S2中，在步骤S12构成的场景识别数据集上训练得到场景识别模型，在步骤S1a构成的目标检测数据集上训练得到目标检测模型。

4.根据权利要求1所述的一种针对新闻场景的景别识别方法，其特征在于，在步骤S5中，包括如下子步骤：

5.根据权利要求4所述的一种针对新闻场景的景别识别方法，其特征在于，在步骤S32中，所述变量S：

其中，

分别代表极大、大、中、中小、小、极小。

6.根据权利要求1所述的一种针对新闻场景的景别识别方法，其特征在于，在步骤S52中，设定比例为5:1。