CN108881744A

CN108881744A - 一种视频新闻演播室自动识别方法

Info

Publication number: CN108881744A
Application number: CN201810858257.9A
Authority: CN
Inventors: 颜涛; 王雷; 张洋
Original assignee: Chengdu Hua Seiun Technology Co Ltd
Current assignee: Chengdu Hua Seiun Technology Co Ltd
Priority date: 2018-07-31
Filing date: 2018-07-31
Publication date: 2018-11-23

Abstract

本发明涉及一种视频新闻演播室自动识别方法，利用现代计算机视频图像处理技术以及人工智能技术，对视频新闻节目进行自动分析，能够快速并精确地识别出新闻演播室时间点，解决以人工方式对视频新闻节目拆条中的低效率问题，为视频新闻资源的二次加工利用提供有效的技术手段。

Description

一种视频新闻演播室自动识别方法

技术领域

本发明涉及媒体加工领域，具体涉及一种视频新闻演播室自动识别方法。

背景技术

新媒体节目生产通常需要对传统媒体节目进行二次加工过程，广播电视行业中大量的多媒体数据中具有重要价值的新闻节目需要深度开发利用，来源不同的成品新闻节目视频。内容拆条是对传统媒体节目的二次加工过程，其内容来源主要有传统媒体媒资中心或影视公司成品素材，基于用户思维开展视音频内容研究和切分著录，立足广播电视特点，用广播电视语言和视角，揭示素材的内容要素和信息，深度挖掘有价值信息，在拆条和编目后用于IPTV、OTT、手机电视等全媒体应用，满足新媒体视听节目碎片化要求。

新闻节目数据的大量涌现，民众对新闻时效性要求不断提高，现行主要依靠人工逐帧检视新闻视频进行新闻拆条的方式，已经不能适应上述发展，根本无法在规定时间内完成新闻节目的制作。

发明内容

本发明的目的在于克服现有技术的不足，提供一种视频新闻演播室自动识别方法，利用现代计算机图像内容自动识别算法和人工智能策略，对电视新闻节目中新闻演播室进行高效的识别提供有效技术方案，而新闻演播室画面在新闻视频中出现和结束的时间点可直接用于新闻拆条。

本发明的目的是通过以下技术方案来实现的：

一种视频新闻演播室自动识别方法，其步骤如下：

S1：抽取视频帧：定时抽取新闻节目视频的图像帧作为新闻演播室检测对象；

S2：视频图像帧人脸提取：对抽取的图像帧逐一进行人脸识别并提取人脸特征值，同时定位出每一帧图像中的人脸位置；

S3：图像按人脸聚类，获得候选新闻演播室图像集合：对包含人脸的图像帧，按人脸特征值做无监督聚类，根据聚类得到的类别，选取其中属于新闻主持人类别的图像，作为候选新闻演播室图像集合；

S4：根据图像背景颜色风格和人物外套颜色风格剔除非演播室图像：

S5：精确定位新闻演播室边界时间点。

进一步的，所述人脸位置检测以及人脸特征值提取使用开源人脸识别库dlib获得，人脸位置由一个对角点确定的矩形表示，矩形的左上顶点坐标为(left，top)，右下顶点坐标为(right，bottom)，人脸特征值由一个128维向量表示。

进一步的，所述图像背景颜色风格剔除非演播室图像的步骤如下：

S01：图像预处理：对候选图像去黑边，图像做高斯模糊预处理，降低图像噪声的干扰；

S02：背景区域选取：选择图像中人脸两侧背景区域作为颜色分析的区域；

S03：背景主颜色提取：对选定区域内图像的每个像素点提取HSV颜色空间中的颜色表示，即颜色按色相，对比度，明度三个分量的形式表示，对所有像素点颜色统计每种色相值出现的次数，以计数最多的色相值描述该图像的背景颜色风格；

S04：像按背景颜色风格聚类：对候选新闻演播室图像集合中的图像，按图像背景的颜色风格进行无监督聚类，聚类完成后筛选出包含图像成员最多的类别，将属于其他类别的图像剔除出候选新闻演播室图像集合。

进一步的，所述人物外套颜色风格剔除非演播室图像的步骤如下：

S11：图像预处理：对候选图像做高斯模糊预处理，降低图像噪声的干扰；

S12：外套颜色提取：通过和人脸的相对位置关系，确定人物外套颜色拾取点，像素点的颜色表示选择HSV颜色空间，将颜色的色相分量值作为衣服的颜色风格；

S13：图像按人物外套颜色风格聚类：对候选新闻演播室图像集合中的图像，按图像中人物外套颜色风格进行无监督聚类，聚类完成后筛选出包含图像成员最多的类别，将属于其他类别的图像剔除出候选新闻演播室图像集合。

进一步的，所述精确检测新闻演播室边界时间点步骤如下：

S21：按照新闻演播室图像对应的时间点，将时间上连续的图像进行分组，取每组图像对应时间段的起点和终点时间，从而得到一组新闻演播室图像初略的持续时间区间；

S22：将相互交叠、连续、临近的时间区间合并；

S23：对每一个合并后的初略的时间段，在起、始时间点附近搜索视频转场时间点，将转场时间点作为新闻演播室持续的精确边界时间点，从而得到一组新闻演播室的精确起始时间。

进一步的，通过搜索检测起始时间点前后1秒范围内的所有视频帧，检测到图像帧剧烈变化的时间点，作为转场时间点。

本发明的有益效果是：本发明所提出的视频新闻演播室自动识别方法，利用现代计算机视频图像处理技术以及人工智能技术，对视频新闻节目进行自动分析，能够快速并精确地识别出新闻演播室时间点，解决以人工方式对视频新闻节目拆条中的低效率问题，为视频新闻资源的二次加工利用提供有效的技术手段。

附图说明

图1是本发明的流程图。

具体实施方式

下面结合具体实施例进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

如图1所示，一种视频新闻演播室自动识别方法，其具体实现步骤如下：

S1，抽取视频帧：对新闻节目视频以固定的间隔抽取图像帧，得到的一组图像帧作为新闻演播室初略检测对象，所述固定的间隔可以为25帧(1秒)，即每秒提取一张图片，由于目前电视标准是25FPS，所以每间隔25帧提取一张；固定间隔抽帧图像作为初略检查对象，可以极大降低数据处理量，显著提高检测的效率。

S2，视频图像帧人脸提取：对S1中抽取图像帧逐一进行人脸识别，包含人脸的图像定位出每个图像中的人脸位置，并提取人脸特征值；人脸位置检测以及人脸特征值提取使用开源人脸识别库dlib获得。人脸位置由一个对角点确定的矩形表示，矩形的左上顶点坐标为(left，top)，右下顶点坐标为(right，bottom)。人脸特征值由一个128维向量表示。

S3，图像按人脸聚类，获得候选新闻演播室图像集合：对包含人脸的图像帧，使用Mean Shift 聚类算法按人脸特征值做无监督聚类，再根据聚类得到的类别，选取其中属于新闻主持人类别图像，作为候选新闻演播室图像集合；上述主持人类别的判断，可将包含图像成员数最多的类别G_max作为主持人图像组。由于同一新闻中，主持人人数可能为2，因此需要检查其他类别图像组中是否与包与分组G_max中相同的图像成员，若有，则也将该分组认定为主持人类别图像分组。

S4，根据图像背景颜色风格剔除非演播室图像：

S01，图像预处理：对候选图像去黑边；对图像做高斯模糊预处理，降低图像噪声的干扰；

S02，背景区域选取：选择图像中人脸两侧背景区域作为颜色分析的区域；以图像中包含两个人脸为例，人脸矩形框按S2所述方法分别表示(left₁，top₁，right₁，bottom₁)和(left₂，top₂，right₂，bottom₂)，若图像宽度为w，则选取的背景区域为3个部分，分别表示为(0，top_min，left₁，bottom_max)，(right₁，top_min，left₂，bottom_max)，(right₂，top_min，w，bottom_max)，其中的top_min表示top₁和top₂中的较小者，而bottom_max表示bottom₁和bottom₂中的较大者。

S03，背景主颜色提取：对选定区域内图像的每个像素点的提取HSV颜色空间中的颜色表示，即颜色按色相，对比度，明度三个分量的形式表示，对所有像素点颜色统计每种色相值出现的次数，以计数最多的色相值h_b描述该图像的背景颜色风格；

S04，图像按背景颜色风格聚类：对候选新闻演播室图像集合中的图像，使用MeanShift 聚类算法按图像背景的颜色风格，即色相值h_b对候选图像进行无监督聚类，聚类完成后筛选出包含图像成员最多的类别，将属于其他类别的图像剔除出候选新闻演播室图像集合；

S5，根据人物外套颜色风格剔除非演播室图像：

S11，图像预处理：对候选图像做高斯模糊预处理，降低图像噪声的干扰；

S12，外套颜色提取：通过和人脸的相对位置关系，确定人物外套颜色拾取点，像素点的颜色表示选择HSV颜色空间，将颜色的色相分量值h_c作为衣服的颜色风格；颜色拾取点可以选择人脸位置矩形框下侧两个顶点向下移动一倍矩形框高度对应的两个点的坐标位置。在颜色拾取点分别取得两点的颜色数值，并做算术平均，得到外套颜色。

S13，图像按人物外套颜色风格聚类：对候选新闻演播室图像集合中的图像，使用Mean Shift 聚类算法按图像中人物外套颜色风格，即色相值h_c对候选图像进行无监督聚类，聚类完成后筛选出包含图像成员最多的类别，将属于其他类别的图像剔除出候选新闻演播室图像集合；

S6，精确检测新闻演播室边界时间点：

S21，按照新闻演播室图像对应的时间点，将时间上连续的图像进行分组，取每组图像对应时间段的起点和终点时间，从而得到一组新闻演播室图像初略的持续时间区间；

S22，时间区间合并：将相互交叠，连续，临近的时间区间合并；例如时间区间[10，15]、[15，25]将被合并为[10，25]。

S23，对每一个合并后得到的初略的时间段，在起、始时间点附近搜索视频转场时间点，将转场时间点作为新闻演播室持续的精确边界时间点，从而得到一组新闻演播室的精确起始时间，通过搜索检测时间点前后1秒范围内的所有视频帧，检测到图像帧剧烈变化的时间点，作为转场时间点。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种视频新闻演播室自动识别方法，其特征在于，其步骤如下：

S5：精确定位新闻演播室边界时间点。

2.根据权利要求1所述的一种视频新闻演播室自动识别方法，其特征在于，所述人脸位置检测以及人脸特征值提取使用开源人脸识别库dlib获得，人脸位置由一个对角点确定的矩形表示，矩形的左上顶点坐标为(left，top)，右下顶点坐标为(right，bottom)，人脸特征值由一个128维向量表示。

3.根据权利要求2所述的一种视频新闻演播室自动识别方法，其特征在于，所述图像背景颜色风格剔除非演播室图像的步骤如下：

4.根据权利要求3所述的一种视频新闻演播室自动识别方法，其特征在于，所述人物外套颜色风格剔除非演播室图像的步骤如下：

5.根据权利要求4所述的一种视频新闻演播室自动识别方法，其特征在于，所述精确检测新闻演播室边界时间点步骤如下：

S22：将相互交叠、连续、临近的时间区间合并；

6.根据权利要求5所述的一种视频新闻演播室自动识别方法，其特征在于，通过搜索检测起始时间点前后1秒范围内的所有视频帧，检测到图像帧剧烈变化的时间点，作为转场时间点。