CN111401368B

CN111401368B - 一种基于深度学习的新闻视频标题提取方法

Info

Publication number: CN111401368B
Application number: CN202010211414.4A
Authority: CN
Inventors: 王中元; 陈何玲; 裴盈娇; 黄宝金; 涂卫平
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2023-04-18
Anticipated expiration: 2040-03-24
Also published as: CN111401368A

Abstract

本发明公开了一种基于深度学习的新闻视频标题提取方法，包括关键帧提取、关键帧文字检测、关键帧文字特征提取和特征聚类。在关键帧提取过程中，使用帧间差分法，将与前一帧内容变化较大的帧作为关键帧；在关键帧文字检测过程中，使用EAST网络确定关键帧的文字区域；在关键帧文字特征提取过程中，使用卷积神经网络(CNN)提取关键帧的特征，再将特征依次输入循环神经网络(RNN)，得到文字区域的特征向量；在特征聚类过程中，使用欧氏距离得到相邻关键帧之间的相似度，根据相似度对关键帧的文字进行聚类，得到新闻视频标题图像。本发明利用深度学习技术，依据关键帧的文字特征和新闻视频字幕特征产生新闻视频标题，具有提取准确、运算快的优点。

Description

一种基于深度学习的新闻视频标题提取方法

技术领域

本发明属于人工智能技术领域，涉及一种新闻视频标题提取方法，具体涉及一种基于深度学习的新闻视频标题提取方法。

技术背景

新闻视频具有形象直观、信息量大的特点，是人们获取信息的重要来源，新闻视频分析及处理正成为智能媒体领域的研究热点。作为新闻视频的一个重要特征，标题条字幕是获取新闻视频高层语义内容的重要线索，表达了新闻故事的中心意思，在新闻视频拆分、内容描述、检索和智能推荐中具有重要应用。

新闻视频标题字幕的获取主要依靠标题条检测，标题条检测主要包括五类方法。第一类，基于边缘检测的方法，该类虽然可以快速检测到文字区域，但鲁棒性较差。第二类，基于纹理特征的方法，该方法能够适用于具有复杂特征的图片，但算法的效率较低。第三类，基于区域特征的方法，该方法对图片对比度以及分辨率要求较高。第四类，基于标题条形状特征快速检测的方法，该方法利用标题条是固定矩形的特点，降低了复杂度，提高了检测速度。第五类，基于机器学习的检测方法，将图片分割为若干个子块，送入已训练好的分类器中，得到子块有字幕或无字幕的分类结果，该方法正确率较高，但大量数据集导致模型训练的复杂度过高。

现有的新闻视频标题字幕提取方法不仅速度慢、鲁棒性较差，并且提取效果还严重依赖于字幕区域特定的位置和形状。为此，有必要发展新的基于深度学习的新闻视频标题提取方法。

发明内容

为了解决上述技术问题，本发明利用深度学习检测关键帧的文字和提取文字特征，通过聚类得到新闻视频标题。对于关键帧文字检测，采用EAST网络；对于文字特征提取，采用CNN和RNN。本发明方法比传统方法更快、更准确，也不依赖于字幕的形状和位置。

本发明所采用的技术方案是：一种基于深度学习的新闻视频标题提取方法，其特征在于，包括以下步骤：

步骤1：利用帧间差分方法提取关键帧；

步骤2：使用EAST网络得到关键帧文字区域；

步骤3：使用CNN和RNN先后提取关键帧文字区域的特征向量；

步骤4：根据得到的特征向量进行关键帧的相似性比较，然后进行聚类得到新闻视频标题字幕图像。

相对于现有技术，本发明方法具有如下积极效果：

1)本发明中涉及的方法不依赖于字幕的位置、形状等特征，而是基于关键帧上所有文字内容判定是否为标题字幕，因而算法的普适性好。

2)本发明利用深度学习对关键帧文字进行检测，并提取其特征，相对于传统方法而言，更加快速、准确，鲁棒性更好。

附图说明

图1：本发明实施例的流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施案例对本发明做进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明提供的一种基于深度学习的新闻视频标题提取方法，包括以下步骤：

步骤1：使用帧间差分的方法实现关键帧提取；

其原理在于将相邻两帧图像进行差分，用得到的图像的平均像素强度来衡量两帧图像的变化大小。每当视频中的某一帧与前一帧画面的内容变化较大时，便认为是关键帧，并将其提取出来。算法流程简述如下：

步骤1.1：利用OpenCV库读取视频，依次计算帧间差分，得到平均帧间差分强度D(x,y)，其中

式中，f_k(x,y)和f_k+1(x,y)分别为第k帧和k+1帧图像，w和h为图像的长和宽， x和y为图像的坐标；

步骤1.2：基于步骤1.1得到的平均帧间差分强度，选择平均帧间差分强度为局部最大值的帧作为视频关键帧，并将其保存。

步骤2：利用EAST网络检测关键帧的文字位置；

EAST网络主要由全卷积网络(FCN)和NMS组成，FCN能很好地提取图像的浅层和深层特征，并将其融合，以达到将图像每个像素都精确分类的效果，最后输出文字框；NMS只留下FCN输出文字框中的局部得分最大的框，其表示为最终的文字定位结果。步骤如下：

步骤2.1：将关键帧进行减均值和缩放等图像预处理。

步骤2.2：将预处理后的关键帧输入四个阶段的卷积层，得到四个不同规模的特征图f₁、f₂、f₃、f₄，其相对于输入图片分别缩小了1/4、1/8、1/16、1/32。

步骤2.3：将f₄上采样后，得到特征图h₁，h₁与f₃串联，然后经过1×1和3×3 的卷积后，可以得到融合特征图h₂；将h₂上采样后，与f₂串联，然后经过1×1 和3×3的卷积后，可以得到融合特征图h₃；将h₃上采样后，与f₁串联，然后经过1×1和3×3的卷积后，可以得到融合特征图h₄；最后经过3×3的卷积后输出最后的特征图。

步骤2.4：将最后得到的特征图与大小为1×1通道数为1的卷积核进行卷积，得到一张得分图F_s。F_s的大小为原图的1/4，通道数为1，每个像素表示对应于原图中像素为文字的概率值。

步骤2.5：将最后得到的特征图与大小为1×1通道数为4的卷积核进行卷积，得到四个通道的Text boxes，四个通道分别表示该像素点到文本框的四条边的距离；将最后得到的特征图与大小为1×1通道数为1的卷积核进行卷积，得到一个通道的Text rotationangle，表示该像素所在框的倾斜角度；这里Text boxes和Text rotation angle合起来称为Geometry map，用F_g表示。

步骤2.6：将得到的边框用非极大值抑制(NMS)进行整合，输出最后的关键帧文字区域。

步骤3：利用CNN和RNN提取文字特征向量；

CNN是一种很好的提取图像特征的网络，但是CNN并不能结合相邻像素的特征，对像素特征进行预测，所以我们需要结合双向RNN更好地对每个文字像素进行预测。步骤如下：

步骤3.1：将步骤1所得到的关键帧文字区域输入VGG结构的网络中，为了能将CNN提取的特征输入致LSTM中，此网络将VGG的第三、四层的池化层的核尺度由2×2变成了1×2；为了能加速网络模型训练，在第五、六层后面加上BN层。因为输入图像不定宽，所以最后输出N个1×512的特征。

步骤3.2：将CNN得到的特征按顺序输入RNN中，为了防止训练时梯度的消失，所以采用了LSTM神经单元作为RNN的单元；因为序列的前向信息和后向信息都有助于序列的预测，所以采用了双向RNN网络。最后得到关键帧文字区域的特征向量。

步骤4：利用相邻关键帧的特征相似度，对关键帧进行聚类。

根据步骤3得到的特征向量可以得到相邻关键帧的相似度，因为有些相同字幕的相似度比较小而导致聚类效果不好，所以本发明将相似度相减以后再进行聚类。步骤如下：

步骤4.1：使用欧式距离计算相邻关键帧的文字相似度，得到一个相似度向量P，欧式距离的公式为：

其中，n表示图像的像素点数，x_i和y_i分别表示两张图片的第i个像素点；

步骤4.2：将相似度向量的两个相邻元素相减，即P[i+1]-P[i]，如果相邻元素相减之和的绝对值在0.5的范围内，且连续有三个值都在0.5范围内，则认为含有标题，输出其帧号。

步骤4.3：为了防止相同标题字幕之间因为有说话字幕将其判定为两个标题字幕，将步骤4.2产生的含有标题的帧再次执行步骤4.2，最后将相似度绝对值在0.5以内的新闻视频标题字幕图像输出。

本发明利用深度学习对关键帧文字区域进行检测，通过比较相邻帧的相似度判定其是否为标题字幕，比较而言，本发明方法更加快速、准确，鲁棒性更好。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于深度学习的新闻视频标题提取方法，其特征在于，包括以下步骤：

步骤1：利用帧间差分方法提取关键帧；

步骤1的具体实现包括以下步骤：

步骤1.1：利用OpenCV库读取视频，依次计算帧间差分，得到平均帧间差分强度D(x,y)；

式中，f_k(x,y)和f_k+1(x,y)分别为第k帧和k+1帧图像，w和h为图像的长和宽，x和y为图像的坐标；

步骤1.2：基于步骤1.1得到的平均帧间差分强度，选择平均帧间差分强度为局部最大值的帧作为视频关键帧，并将其保存；

步骤2：使用EAST网络得到关键帧文字区域；

步骤3：使用CNN和RNN先后提取关键帧文字区域的特征向量；

2.根据权利要求1所述的基于深度学习的新闻视频标题提取方法，其特征在于，步骤2的具体实现包括以下步骤：

步骤2.1：将关键帧进行图像预处理，包括减均值和缩放处理；

步骤2.2：将预处理后的关键帧输入四个阶段的卷积层，得到四个不同规模的特征图f₁、f₂、f₃、f₄，其相对于输入图片分别缩小了1/4、1/8、1/16、1/32；

步骤2.3：将f₄上采样后，得到特征图h₁，h₁与f₃串联，然后经过1×1和3×3的卷积后，得到融合特征图h₂；将h₂上采样后，与f₂串联，然后经过1×1和3×3的卷积后，得到融合特征图h₃；将h₃上采样后，与f₁串联，然后经过1×1和3×3的卷积后，得到融合特征图h₄；最后经过3×3的卷积后输出最后的特征图；

步骤2.4：将步骤2.3最后得到的特征图与大小为1×1通道数为1的卷积核进行卷积，得到一张得分图F_s；F_s的大小为原图的1/4，通道数为1，每个像素表示对应于原图中像素为文字的概率值；

步骤2.5：将最后得到的特征图与大小为1×1通道数为4的卷积核进行卷积，得到四个通道的Text boxes，四个通道分别表示该像素点到文本框的四条边的距离；将最后得到的特征图与大小为1×1通道数为1的卷积核进行卷积，得到一个通道的Text rotationangle，表示该像素所在框的倾斜角度；这里Text boxes和Text rotation angle合起来称为Geometry map，用F_g表示；

步骤2.6：将步骤2.5得到的文本框用非极大值抑制NMS进行整合，输出最后的关键帧文字区域。

3.根据权利要求1所述的基于深度学习的新闻视频标题提取方法，其特征在于，步骤3的具体实现包括以下步骤：

步骤3.1：将步骤2所得到的关键帧文字区域输入VGG结构的网络中，为了能将VGG提取的特征输入致LSTM中，将VGG的第三、四层的池化层的核尺度由2×2变成了1×2；为了能加速网络模型训练，在VGG的第五、六层后面加上BN层；因为输入图像不定宽，所以最后输出N个1×512的特征；

步骤3.2：将CNN得到的特征按顺序输入RNN中，为了防止训练时梯度的消失，采用LSTM神经单元作为RNN的单元；因为序列的前向信息和后向信息都有助于序列的预测，所以采用双向RNN网络；最后得到关键帧文字区域的特征向量。

4.根据权利要求1所述的基于深度学习的新闻视频标题提取方法，其特征在于，步骤4的具体实现包括以下步骤：

步骤4.2：将相似度向量的两个相邻元素相减，即P[i+1]-P[i]，如果相邻元素相减之和的绝对值在0.5的范围内，且连续有三个值都在0.5范围内，则认为含有标题，输出其帧号；