CN110610500A

CN110610500A - 基于动态语义特征的新闻视频自适应拆条方法

Info

Publication number: CN110610500A
Application number: CN201910840238.8A
Authority: CN
Inventors: 付倩慧; 李庆奎; 傅景楠; 王羽; 杨雪静; 弓镇宇; 勾青超
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2019-12-24

Abstract

本发明提出了一种基于动态语义特征的新闻视频自适应拆条方法，选取演播室场景与主持人同在为拆分特征，以此寻找新闻内容条目的拆分时间点；具体包括如下步骤：步骤一，视频抽帧预处理；步骤二，训练NewlicNet模型；步骤三，确定关键帧图片时间点；步骤四，新闻视频拆分。本发明基于动态语义特征的新闻视频自适应拆条方法，基于频道标识符、演播室场景信息和主持人同在特征对新闻视频进行拆分。

Description

基于动态语义特征的新闻视频自适应拆条方法

技术领域

本发明涉及人工智能技术领域，尤其是涉及一种基于动态语义特征的新闻视频自适应拆条方法。

背景技术

随着人们生活节奏的加快和网络信息技术的迅猛发展，对于视频内容的精准观阅成为一个亟待解决问题。作为每日重大事件播报以及价值观传播的新闻视频是一种重要的媒体力量，其推动规范社会秩序、社会公德、民主化进程。如何将较长的新闻视频按其内容拆分成多个条目，如何对新闻视频单个内容条目的精准用户再传播，成为一个有意义的课题。

目前，我国新媒体行业对于短视频拆分，主要依赖于人工剪辑，存在劳动强度大、拆分内容是否精准、拆分时间是否有存在重叠性、拆分后视频是否可播放等突出问题，对视频内容精准用户传播造成巨大障碍。在新媒体高速发展的时代，对新闻视频资源深度挖掘开发利用，提高新闻内容传播的时效性以及满足用户对于新闻内容针对性的需求，提出采用基于深度学习的新闻视频拆条技术替代人工剪辑。

Danna的《A Multi-Sltage Approach for News Video Segmentation Based onAutomatic Anchorperson Number Detection》采用无监督方式进行基于播音员镜头检测的新闻语义单元分割，即模板镜头与有一位播音员和两位播音员的镜头比较，从而对镜头进行分类。该算法需对于模板镜头进行数据标签，浪费大量时间与精力，若某播音员没有模板镜头，更易导致拆分失误。而且对于一个主持人播报2条或2条以上新闻故事的情况，该方法容易造成新闻故事单元分割的漏检。Wang《Content-based Audio ClassificationUsing Support Vector Machines and Independent Component Analysis》基于独立变量分析，转换对数功率，将音频特征、频率倒谱系数和五个感知特征相结合，形成新的音频特征，提出一种基于帧的多类支持向量机的音频分类方法。这种基于音频信息的方法从音频的角度进行故事单元分割，虽然对于广告、天气预报和新闻片头等检测准确率较高，但只能作为新闻视频故事单元分割的一个有效的辅助手段，并不能达到准确的分割效果。

通过对新闻视频深度分析，得知新闻视频一般由以下几部分组成：视频开始背景阶段；两位主持人就今日重点内容做简单介绍；主持人A(B)对具体内容做概述播报，场外详细新闻内容；两位主持人收拾文件结束今日新闻播报。

发明内容

本发明旨在提供一种基于动态语义特征的新闻视频自适应拆条方法，基于频道标识符、演播室场景信息和主持人同在特征对新闻视频进行拆分。

本发明的技术方案是这样实现的：基于动态语义特征的新闻视频自适应拆条方法，选取演播室场景与主持人同在为拆分特征，以此寻找新闻内容条目的拆分时间点；具体包括如下步骤：

步骤一，视频抽帧预处理；

步骤二，训练NewlicNet模型；

步骤三，确定关键帧图片时间点；

步骤四，新闻视频拆分。

作为一种优选的技术方案，步骤一中，视频抽帧预处理具体包括：将新闻视频流转换为新闻视频图像集，为记录每张图片所处原新闻视频时间点，以每秒为单位抽取一帧图像。新闻视频每秒为25帧图像，即每25帧图像抽取第一帧图像；为降低计算量与计算复杂性，凸显真实有用的图像特征，将RGB图像转化为二值图像。

作为一种优选的技术方案，步骤二中，训练NewlicNet模型包括：

根据特征1新闻开始背景(S)、特征2演播室场景与两位主持人同在(D)、特征3演播室场景与一位女主持人同在(W)、特征4演播室场景与一位男主持人同在(M)、特征5场外详细新闻内容(N)共五类特征，搭建深度神经网络NewlicNet模型，实现对图片集分类,分为S、D、W、M、N共五类。

作为一种优选的技术方案，步骤三中，确定关键帧图片时间点；关键帧图片所处类别为：D、W、M三类，寻找该类别每个连续时间段图像，并记录起始点图片时间点，即关键帧图片时间点。

作为一种优选的技术方案，步骤四中，所述新闻视频拆分的算法：根据关键帧图片时间点，调用ffmpeg包，对原新闻视频实现基于语义分割。

作为一种优选的技术方案，所述新闻视频拆分的算法具体包括：

(1)将视频以每秒为单位抽帧为图片集；

输入：新闻视频，若以x月x日30分钟离线新闻视频为例；

输出：新闻视频图片集(则输出1800张图片)

(2)将图片集做灰度、二值处理

(3)搭建NewlicNet深度神经网络模型；

输入：新闻视频图片集

输出：分类图片集(共5类，特征分别为新闻开始背景(S)、演播室场景与两位主持人同在(D)、演播室场景与一位女主持人同在(W)、演播室场景与一位男主持人同在(M)、场外详细新闻内容(N))；

(4)寻找D、W、M三类每个连续时间段图像，确定起始图片，寻找其时间点；

输入：特征为D、W、M的图片集；

输出：该图片集中连续时间段图像中的起始图片，即关键帧图片在原新闻视频中的精确时间点；

(5)调用ffmpeg包，对原新闻视频剪辑；

输入：关键帧图片在原新闻视频中的精确时间点；

输出：按照时间点对原新闻视频进行自动拆分。

作为一种优选的技术方案，步骤二中，所述NewlicNet模型运行步骤如下：

(1)该模型运行完成一次，即完成一次训练，实现对于权值更新，为下一次训练奠定基础；

(2)数据集内图片经裁剪处理后，输入数据集图像尺寸为224x224，经卷积层1提取第一层特征；卷积层1其卷积核尺寸、卷积核个数、填充行(列)数如表1所示；卷积后特征图长、宽尺寸计算公式为(2)、(3)，故第一层卷积后特征图1尺寸为53x53；

(3)特征图1作为浅层特征经均值池化1、卷积核1处理后与后续5层特征图深层、浅层特征融合；后续特征图1至特征图5的均值池化、卷积处理过程如上，为方便后续融合，处理后特征图尺寸都为5x5；特征图1经池化层1、卷积层2卷积后，由公式(2)、(3)得，所得特征图2尺寸为23x23；特征图2经池化层2、卷积层3卷积后，由公式(2)、(3)得，所得特征图3尺寸为18x18；特征图3经卷积层4卷积后，所得特征图4尺寸为16x16；特征图4经卷积层5卷积后，所得特征图5尺寸为14x14；

(4)深层、浅层特征融合后，全连接层6的输入数据为5x5x256，即共256个5x5的特征图，全连接层6的神经元个数为1024个；故，全连接层7的输入数据为1x1024，输入全连接层8的数据为1x1024，全连接层8共5个神经元，输出数据为1x5；通过输出5组精度值与损失值与已知正确精度值与损失值的差值，更新下一次训练权值。

作为一种优选的技术方案，所述NewlicNet模型训练的具体步骤包括：

为加强模型精度且避免模型出现过拟合情况，故采用三轮训练过程；

第一轮训练：图片集共4000张，选择10％共400张图片为测试集，则3600张图片为训练集；下面以训练集为例说明训练过程，测试集与训练集训练过程相同，则不再赘述；

训练集训练过程：

1.训练次数i＝0；初始权值是随机且独立，以保证每个权值更新过程是不同的，为每个权值赋予一个接近零的值，该赋值代码公式如下所示：

w＝0.01×numpy.Random.randn(D,H)

2.NewlicNet模型结构示意图如图4所示，测试集图片输入模型后，完成分类工作，共分为5类，故共5组精度值与损失值；

设置两个差值都小于0.0002，证明模型分类成功；

判断模型输出5组精度值与损失值与已知正确精度值与损失值相比较差值是否都小于0.0002；

若是，结果差值小于0.0002；

判断是否达到迭代次数i＝207860；若是，则训练结束，模型训练成功；若否，则继续训练，采用梯度下降法赋值下一次训练的初始权值；

若否，结果差值大于0.0002，则继续训练，采用梯度下降法赋值下一次训练的初始权值；直到差值小于0.0002且训练次数为i＝207860同时成立，则训练结束，模型训练成功；

第二轮训练：图片集共34526张，选择3453张图片为测试集，则31073张图片为训练集；下面以训练集为例说明训练过程，测试集与训练集训练过程相同，则不再赘述；

训练集训练过程：

1.训练次数i＝0；初始权值为第一轮最后一次训练结果，采用梯度下降法赋值的初始权值；

设置两个差值都小于0.0002，证明模型分类成功；

若是，结果差值小于0.0002；

判断是否达到迭代次数i＝395000；若是，则训练结束，模型训练成功；

若否，则继续训练，采用梯度下降法赋值下一次训练的初始权值；

若否，结果差值大于0.0002，则继续训练，采用梯度下降法赋值下一次训练的初始权值；直到差值小于0.0002且训练次数为i＝395000同时成立，则训练结束，模型训练成功；

第三轮训练：图片集共53845张，选择5385张图片为测试集，则48460张图片为训练集；下面以训练集为例说明训练过程，测试集与训练集训练过程相同，则不再赘述；

训练集训练过程：

1.训练次数i＝0；初始权值为第二轮最后一次训练结果，采用梯度下降法赋值的初始权值；

设置两个差值都小于0.0002，证明模型分类成功；

若是，结果差值小于0.0002；

判断是否达到迭代次数i＝230000；若是，则训练结束，模型训练成功；若否，则继续训练，采用梯度下降法赋值下一次训练的初始权值；

若否，结果差值大于0.0002，则继续训练，采用梯度下降法赋值下一次训练的初始权值；直到差值小于0.0002且训练次数为i＝230000同时成立，则训练结束，模型训练成功。

采用了上述技术方案，本发明的有益效果为：本发明根据新闻场景等特征，提取关键帧，将整段新闻视频实现基于语义分割，主要内容围绕着新闻视频演播室场景特征和主持人特征展开，包括对原整段新闻视频抽帧策略的性能优化、针对演播室场景特征和主持人特征分类的深度神经网络的搭建与优化、由关键帧获取精确切分时间点算法的设计与优化。通过实验结果表明，本专利所提出的基于动态语义特征算法，应用于新闻视频内容条目拆分取得较好的实验效果，评价指标优于目前所存在的算法，通过对897分钟25秒的央视新闻联播视频的三轮迭代实验验证，准确率、召回率和F1值分别为99.96％、99.89％、99.92％。实验指标充分说明，本算法拆分精度高，即极大程度降低因人工拆分所导致拆分精度低、拆分不准确，以及拆分过程劳动强度大这些问题。该专利的实施，有助于视频内容精准传播、观看，促进对新闻视频的结构化处理，充分利用新闻视频语义信息的应用价值。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图

图1新闻视频各组成部分示意图；

图2为本发明的图片抽帧预处理流程图；

图3为本发明的特征示意图；

图4为本发明的NewlicNet网络结构图；

图5为本发明的NewlicNet模型训练过程图；

图6为本发明的新闻视频拆分算法原理结构图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1和图2所示，基于动态语义特征的新闻视频自适应拆条方法，选取演播室场景与主持人同在为拆分特征，以此寻找新闻内容条目的拆分时间点；具体包括如下步骤：

步骤一，视频抽帧预处理；将新闻视频流转换为新闻视频图像集，为记录每张图片所处原新闻视频时间点，以每秒为单位抽取一帧图像。新闻视频每秒为25帧图像，即每25帧图像抽取第一帧图像；为降低计算量与计算复杂性，凸显真实有用的图像特征，将RGB图像转化为二值图像。

步骤二，如图3所示，训练NewlicNet模型；根据特征1新闻开始背景(S)、特征2演播室场景与两位主持人同在(D)、特征3演播室场景与一位女主持人同在(W)、特征4演播室场景与一位男主持人同在(M)、特征5场外详细新闻内容(N)共五类特征，搭建深度神经网络NewlicNet模型，实现对图片集分类,分为S、D、W、M、N共五类。

步骤三，确定关键帧图片时间点；确定关键帧图片时间点；关键帧图片所处类别为：D、W、M三类，寻找该类别每个连续时间段图像，并记录起始点图片时间点，即关键帧图片时间点。

步骤四，新闻视频拆分；所述新闻视频拆分的算法：根据关键帧图片时间点，调用ffmpeg包，对原新闻视频实现基于语义分割。

新闻视频拆分的算法具体包括：

(1)将视频以每秒为单位抽帧为图片集；

输入：新闻视频，若以x月x日30分钟离线新闻视频为例；

输出：新闻视频图片集(则输出1800张图片)

(2)将图片集做灰度、二值处理

(3)搭建NewlicNet深度神经网络模型；

输入：新闻视频图片集

输入：特征为D、W、M的图片集；

(5)调用ffmpeg包，对原新闻视频剪辑；

输入：关键帧图片在原新闻视频中的精确时间点；

输出：按照时间点对原新闻视频进行自动拆分。

如图4所示，NewlicNet模型运行步骤如下所述：

该模型运行完成一次，即完成一次训练，实现对于权值更新，为下一次训练奠定基础。

数据集内图片经裁剪处理后，输入数据集图像尺寸为224x224，经卷积层1提取第一层特征。卷积层1其卷积核尺寸、卷积核个数、填充行(列)数如表1所示。卷积后特征图长、宽尺寸计算公式为(2)、(3)，故第一层卷积后特征图1尺寸为53x53。

特征图1作为浅层特征经均值池化1、卷积核1处理后与后续5层特征图深层、浅层特征融合。后续特征图1至特征图5的均值池化、卷积处理过程如上，为方便后续融合，处理后特征图尺寸都为5x5。特征图1经池化层1、卷积层2卷积后，由公式(2)、(3)得，所得特征图2尺寸为23x23。特征图2经池化层2、卷积层3卷积后，由公式(2)、(3)得，所得特征图3尺寸为18x18。特征图3经卷积层4卷积后，所得特征图4尺寸为16x16。特征图4经卷积层5卷积后，所得特征图5尺寸为14x14。

深层、浅层特征融合后，全连接层6的输入数据为5x5x256，即共256个5x5的特征图，全连接层6的神经元个数为1024个。故，全连接层7的输入数据为1x1024，输入全连接层8的数据为1x1024，全连接层8共5个神经元，输出数据为1x5。通过输出5组精度值与损失值与已知正确精度值与损失值的差值，更新下一次训练权值。

NewlicNet模型训练过程图如图5所示。下面是NewlicNet模型训练的具体步骤包括：

为加强模型精度且避免模型出现过拟合情况，故采用三轮训练过程。

第一轮训练：图片集共4000张，选择10％共400张图片为测试集，则3600张图片为训练集。下面以训练集为例说明训练过程，测试集与训练集训练过程相同，则不再赘述。

训练集训练过程：

w＝0.01×numpy.Random.randn(D,H)

2.NewlicNet模型结构示意图如图4所示，测试集图片输入模型后，完成分类工作，共分为5类，故共5组精度值与损失值。

设置两个差值都小于0.0002，证明模型分类成功。

判断模型输出5组精度值与损失值与已知正确精度值与损失值相比较差值是否都小于0.0002。

若是，结果差值小于0.0002。

判断是否达到迭代次数i＝207860。若是，则训练结束，模型训练成功；

若否，则继续训练，采用梯度下降法赋值下一次训练的初始权值。

若否，结果差值大于0.0002，则继续训练，采用梯度下降法赋值下一次训练的初始权值。直到差值小于0.0002且训练次数为i＝207860同时成立，则训练结束，模型训练成功。

第二轮训练：图片集共34526张，选择3453张图片为测试集，则31073张图片为训练集。下面以训练集为例说明训练过程，测试集与训练集训练过程相同，则不再赘述。

训练集训练过程：

1.训练次数i＝0；初始权值为第一轮最后一次训练结果，采用梯度下降法赋值的初始权值。

设置两个差值都小于0.0002，证明模型分类成功。

若是，结果差值小于0.0002。

判断是否达到迭代次数i＝395000。若是，则训练结束，模型训练成功；

若否，结果差值大于0.0002，则继续训练，采用梯度下降法赋值下一次训练的初始权值。直到差值小于0.0002且训练次数为i＝395000同时成立，则训练结束，模型训练成功。

第二轮训练：图片集共53845张，选择5385张图片为测试集，则48460张图片为训练集。下面以训练集为例说明训练过程，测试集与训练集训练过程相同，则不再赘述。

训练集训练过程：

1.训练次数i＝0；初始权值为第二轮最后一次训练结果，采用梯度下降法赋值的初始权值。

设置两个差值都小于0.0002，证明模型分类成功。

若是，结果差值小于0.0002。

判断是否达到迭代次数i＝230000。若是，则训练结束，模型训练成功；

若否，结果差值大于0.0002，则继续训练，采用梯度下降法赋值下一次训练的初始权值。直到差值小于0.0002且训练次数为i＝230000同时成立，则训练结束，模型训练成功。

新闻视频拆分算法原理结构图如图6所示。

为每个参数赋予一个接近零的初始化值，该代码如下所示：

w＝0.01×numpy.Random.randn(D,H) (1)

输入图像尺寸为224x224，特征图计算公式为：

其中，h为图片长、w为图片宽、stride为卷积步长、kernel为卷积核尺寸、padding为填充行(列)数、out为输出、in为输入。

表1 卷积层尺寸表

表2 池化层尺寸表

表3 全连接层数据表

全连接层	输入数据	神经元个数
			全连接层6	5x5x256	1024
全连接层7	1x1024	1024
			全连接层8	1x1024	5

其中，P为精确率、R为召回率、F1为F1分数、TP为预测类正确、FP为错将其他类预测为正确类、FN为正确类预测为其他类。

表4 精确率、召回率和F1值结果表

表5 迭代算法实验结果表

表6 实验结果对比表

通过实验结果表明，本专利所提出的算法，应用于新闻视频内容条目拆分取得较好的实验效果，且评价指标优于目前所存在的算法，通过101个新闻联播视频的三轮迭代实验验证，召回率0.99593、准确率0.99986。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于动态语义特征的新闻视频自适应拆条方法，其特征在于，选取演播室场景与主持人同在为拆分特征，以此寻找新闻内容条目的拆分时间点；具体包括如下步骤：

步骤一，视频抽帧预处理；

步骤二，训练NewlicNet模型；

步骤三，确定关键帧图片时间点；

步骤四，新闻视频拆分。

2.如权利要求1所述的基于动态语义特征的新闻视频自适应拆条方法，其特征在于，步骤一中，视频抽帧预处理具体包括：将新闻视频流转换为新闻视频图像集，为记录每张图片所处原新闻视频时间点，以每秒为单位抽取一帧图像。新闻视频每秒为25帧图像，即每25帧图像抽取第一帧图像；为降低计算量与计算复杂性，凸显真实有用的图像特征，将RGB图像转化为二值图像。

3.如权利要求1所述的基于动态语义特征的新闻视频自适应拆条方法，其特征在于，步骤二中，训练NewlicNet模型包括：

4.如权利要求3所述的基于动态语义特征的新闻视频自适应拆条方法，其特征在于，步骤三中，确定关键帧图片时间点；关键帧图片所处类别为：D、W、M三类，寻找该类别每个连续时间段图像，并记录起始点图片时间点，即关键帧图片时间点。

5.如权利要求3所述的基于动态语义特征的新闻视频自适应拆条方法，其特征在于，步骤四中，所述新闻视频拆分的算法：根据关键帧图片时间点，调用ffmpeg包，对原新闻视频实现基于语义分割。

6.如权利要求5所述的基于动态语义特征的新闻视频自适应拆条方法，其特征在于，所述新闻视频拆分的算法具体包括：

(1)将视频以每秒为单位抽帧为图片集；

输入：新闻视频，若以x月x日30分钟离线新闻视频为例；

输出：新闻视频图片集(则输出1800张图片)

(2)将图片集做灰度、二值处理

(3)搭建NewlicNet深度神经网络模型；

输入：新闻视频图片集

输入：特征为D、W、M的图片集；

(5)调用ffmpeg包，对原新闻视频剪辑；

输入：关键帧图片在原新闻视频中的精确时间点；

输出：按照时间点对原新闻视频进行自动拆分。

7.如权利要求3所述的基于动态语义特征的新闻视频自适应拆条方法，其特征在于，步骤二中，所述NewlicNet模型运行步骤如下：

8.如权利要求7所述的基于动态语义特征的新闻视频自适应拆条方法，其特征在于，所述NewlicNet模型训练的具体步骤包括：

训练集训练过程：

w＝0.01×numpy.Random.randn(D,H)

2.根据NewlicNet模型结构，测试集图片输入模型后，完成分类工作，共分为5类，故共5组精度值与损失值；

设置两个差值都小于0.0002，证明模型分类成功；

若是，结果差值小于0.0002；

判断是否达到迭代次数i＝207860；若是，则训练结束，模型训练成功；若否，

则继续训练，采用梯度下降法赋值下一次训练的初始权值；

训练集训练过程：

设置两个差值都小于0.0002，证明模型分类成功；

若是，结果差值小于0.0002；

训练集训练过程：

设置两个差值都小于0.0002，证明模型分类成功；

若是，结果差值小于0.0002；

判断是否达到迭代次数i＝230000；若是，则训练结束，模型训练成功；若否，

则继续训练，采用梯度下降法赋值下一次训练的初始权值；