CN112200078A

CN112200078A - 一种基于视频智能分析的语料数据集生成方法及系统

Info

Publication number: CN112200078A
Application number: CN202011076112.7A
Authority: CN
Inventors: 谭强; 孙善宝; 徐驰; 于�玲
Original assignee: Jinan Inspur Hi Tech Investment and Development Co Ltd
Current assignee: Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority date: 2020-10-10
Filing date: 2020-10-10
Publication date: 2021-01-08

Abstract

本发明公开了一种基于视频智能分析的语料数据集生成方法及系统，属于视频图像处理领域；所述的方法具体步骤如下：S1根据视频材料内容的变化将视频切割成小片段视频子集；S2对视频子集的关键帧进行提取；S3对关键帧的情景位置、人物关系和字幕进行图像分析、识别；S4将连续情景中的分析结果和语音信息共同保存为多维度语料数据；本发明对视频进行视频镜头分割、关键帧提取、场景分类、图像智能识别的智能处理，通过视频智能分析技术对海量的影视作品进行分析，根据分析结果，针对特定场景、采集语音数据，与语言信息结合组成多维语料数据库，语料数据集生成更加智能，且对视频材料的处理更加高效，生成的多维语料数据库更加丰富、可靠。

Description

一种基于视频智能分析的语料数据集生成方法及系统

技术领域

本发明公开一种基于视频智能分析的语料数据集生成方法及系统，涉及视频图像处理技术领域。

背景技术

视频智能分析是计算机视觉领域中的重要分支。场景、事件、人物、对话是构成视频的重要组成部分，前者反映了视频中的相对固定的“语境”背景信息，后者则用来描述视频主体行为。在影视作品中进行视频分析，自动化视频理解，特别是结合场景实时、对话识别、人物识别、字母文字识别具有很大意义；

影视作品一般具有场景清晰、人物清晰、对白清晰、字幕清晰等优点，是实现视频智能分析的优秀资源。而且影视资源数据量巨大，能够实现大量数据集的生成；

但对影视作品进行视频分析的工作量巨大，且影视视频画面内容信息量较大，信息提取较为复杂，故现设计一种基于视频智能分析的语料数据集生成方法及系统，以解决上述问题。

发明内容

本发明针对现有技术的问题，提供一种基于视频智能分析的语料数据集生成方法及系统，所采用的技术方案为：一种基于视频智能分析的语料数据集生成方法，所述的方法具体步骤如下：

S1根据视频材料内容的变化将视频切割成小片段视频子集；

S2对视频子集的关键帧进行提取；

S3对关键帧的情景位置、人物关系和字幕进行图像分析、识别；

S4将连续情景中的分析结果和语音信息共同保存为多维度语料数据。

所述S1中的视频材料内容变化包括视频镜头分割、视频字幕变化和镜头变化。

所述S2对视频子集图像清晰、人物清晰的关键帧进行提取。

所述S3中使用深度学习训练完成的识别模型对关键帧的图像特征进行识别，具体步骤包括：

S301对图像特征层次进行分级；

S302利用卷积神经网络对二维图像进行处理。

所述S302利用卷积神经网络对二维图像进行图像特征提取和降维处理，具体步骤包括：

S3021卷积神经网络的卷积层通过卷积核提取图像特征；

S3022卷积神经网络的采样层对图像特征进行降维；

S3023卷积神经网络的全连接层和分类层对图像特征进行分类；

S3024卷积神经网络按照标签调整权值和滤波数据。

一种基于视频智能分析的语料数据集生成系统，所述的系统具体包括材料切割模块、关键帧提取模块、关键帧处理模块和数据集保存模块：

材料切割模块：根据视频材料内容的变化将视频切割成小片段视频子集；

关键帧提取模块：对视频子集的关键帧进行提取；

关键帧处理模块：对关键帧的情景位置、人物关系和字幕进行图像分析、识别；

数据集保存模块：将连续情景中的分析结果和语音信息共同保存为多维度语料数据。

所述材料切割模块中的视频材料内容变化包括视频镜头分割、视频字幕变化和镜头变化。

所述关键帧提取模块对视频子集图像清晰、人物清晰的关键帧进行提取。

所述关键帧处理模块中使用深度学习训练完成的识别模型对关键帧的图像特征进行识别，关键帧处理模块具体包括层级划分模块和图像处理模块：

层级划分模块：对图像特征层次进行分级；

图像处理模块：利用卷积神经网络对二维图像进行处理。

所述图像处理模块具体包括特征提取模块、特征降维模块、特征分类模块和特征优化模块：

特征提取模块：卷积神经网络的卷积层通过卷积核提取图像特征；

特征降维模块：卷积神经网络的采样层对图像特征进行降维；

特征分类模块：卷积神经网络的全连接层和分类层对图像特征进行分类；

特征优化模块：卷积神经网络按照标签调整权值和滤波数据。

本发明的有益效果为：本发明对视频进行视频镜头分割、关键帧提取、场景分类、图像智能识别的智能处理，通过视频智能分析技术对海量的影视作品进行分析，根据分析结果，针对特定场景、采集语音数据，与语言信息结合组成多维语料数据库，语料数据集生成更加智能，且对视频材料的处理更加高效，生成的多维语料数据库更加丰富、可靠。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明方法的流程图；图2是本发明系统的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

实施例一：

一种基于视频智能分析的语料数据集生成方法，所述的方法具体步骤如下：

S1根据视频材料内容的变化将视频切割成小片段视频子集；

S2对视频子集的关键帧进行提取；

S4将连续情景中的分析结果和语音信息共同保存为多维度语料数据；

通过本发明方法对视频进行智能分析时，首先按照S1对影视作品进行镜头分割，根据视频中字幕变化以及镜头变化，将视频切割成小片段视频子集，然后按照S2对每个视频子集进行关键帧提取，提取出视频图像清晰、人物清晰的关键帧，接着按照S3对提取的关键帧使用图像分析技术进行图像分析，分析其中的情景位置识别，如卧室、机场、车站、车内等场景，情境中关键人物的关系识别，如父子、夫妻、同事等关系，和字幕识别；根据上述分析结果，最后按照S4将连续情景中的分析结果和语音信息一起保存为一条多维度语料数据，对大量影视剧进行分析提取后，形成多维语料数据集；

进一步的，所述S1中的视频材料内容变化包括视频镜头分割、视频字幕变化和镜头变化；

进一步的，所述S2对视频子集图像清晰、人物清晰的关键帧进行提取；

进一步的，所述S3中使用深度学习训练完成的识别模型对关键帧的图像特征进行识别，具体步骤包括：

S301对图像特征层次进行分级；

S302利用卷积神经网络对二维图像进行处理；

情景、位置识别使用深度学习训练完成的识别模型，图像特征根据层次不同，可以将场景大致分为低层特征、中层特征和高层特征三个层次，其中底层特征包括纹理信息、颜色信息和形状信息等；中层特征是建立在底层特征基础上的中间语义特征，包括语义的对象方法、局部语义概念的方法和语义属性方法；高层特征包含场景语义概念，如卧室中的床、卫生间的坐便器等；

再进一步的，所述S302利用卷积神经网络对二维图像进行图像特征提取和降维处理，具体步骤包括：

S3021卷积神经网络的卷积层通过卷积核提取图像特征；

S3022卷积神经网络的采样层对图像特征进行降维；

S3024卷积神经网络按照标签调整权值和滤波数据；

卷积神经网络可以直接处理二维图像，图像特征提取和降维是分步进行的；首先按照S3021利用卷积层通过卷积核和提取图像特征，然后按照S3022通过采样层对图像特征进行降维，接着按照S3023通过全连接层和分类层进行分类；最后按照S3024利用卷积神经网络按照标签不断调整权值和滤波参数，使得提取的特征不断优化；

本方法使用新型卷积神经网络，包括4个卷积层、4个采样层，1个全连接层和1个分类层.卷积层使用ReLu函数作为激活函数，使用MIT-67indoor数据集和Scene-15数据集进行训练测试；

人物关系识别首先根据影视剧作品的演员表生成剧中人物关系知识图谱，采集并生成剧中人物人脸特征值，然后使用基于FaceNet的人脸特征提取技术提取视频帧中的人脸特征值，并与采集的人脸特征值对比实现人物识别，完成人物识别后，结合人物关系知识图谱完成人物关系判断。

实施例二：

关键帧提取模块：对视频子集的关键帧进行提取；

数据集保存模块：将连续情景中的分析结果和语音信息共同保存为多维度语料数据；

通过本发明系统对视频进行智能分析时，首先通过材料切割模块对影视作品进行镜头分割，根据视频中字幕变化以及镜头变化，将视频切割成小片段视频子集，然后利用关键帧提取模块对每个视频子集进行关键帧提取，提取出视频图像清晰、人物清晰的关键帧，接着使用关键帧处理模块对提取的关键帧使用图像分析技术进行图像分析，分析其中的情景位置识别，如卧室、机场、车站、车内等场景，情境中关键人物的关系识别，如父子、夫妻、同事等关系，和字幕识别；根据上述分析结果，最后通过数据集保存模块将连续情景中的分析结果和语音信息一起保存为一条多维度语料数据，对大量影视剧进行分析提取后，形成多维语料数据集；

进一步的，所述材料切割模块中的视频材料内容变化包括视频镜头分割、视频字幕变化和镜头变化；

进一步的，所述关键帧提取模块对视频子集图像清晰、人物清晰的关键帧进行提取；

进一步的，所述关键帧处理模块中使用深度学习训练完成的识别模型对关键帧的图像特征进行识别，关键帧处理模块具体包括层级划分模块和图像处理模块：

层级划分模块：对图像特征层次进行分级；

图像处理模块：利用卷积神经网络对二维图像进行处理；

再进一步的，所述图像处理模块具体包括特征提取模块、特征降维模块、特征分类模块和特征优化模块：

特征优化模块：卷积神经网络按照标签调整权值和滤波数据；

卷积神经网络可以直接处理二维图像，图像特征提取和降维是分步进行的；首先通过特征提取模块利用卷积层通过卷积核和提取图像特征，然后使用特征降维模块通过采样层对图像特征进行降维，接着使用特征分类模块通过全连接层和分类层进行分类；最后利用特征优化模块通过卷积神经网络按照标签不断调整权值和滤波参数，使得提取的特征不断优化；

本系统使用新型卷积神经网络，包括4个卷积层、4个采样层，1个全连接层和1个分类层.卷积层使用ReLu函数作为激活函数，使用MIT-67indoor数据集和Scene-15数据集进行训练测试；

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于视频智能分析的语料数据集生成方法，其特征是所述的方法具体步骤如下：

S1根据视频材料内容的变化将视频切割成小片段视频子集；

S2对视频子集的关键帧进行提取；

2.根据权利要求1所述的基于视频智能分析的语料数据集生成方法，其特征是所述S1中的视频材料内容变化包括视频镜头分割、视频字幕变化和镜头变化。

3.根据权利要求1所述的基于视频智能分析的语料数据集生成方法，其特征是所述S2对视频子集图像清晰、人物清晰的关键帧进行提取。

4.根据权利要求1所述的基于视频智能分析的语料数据集生成方法，其特征是所述S3中使用深度学习训练完成的识别模型对关键帧的图像特征进行识别，具体步骤包括：

S301对图像特征层次进行分级；

S302利用卷积神经网络对二维图像进行处理。

5.根据权利要求4所述的基于视频智能分析的语料数据集生成方法，其特征是所述S302利用卷积神经网络对二维图像进行图像特征提取和降维处理，具体步骤包括：

S3021卷积神经网络的卷积层通过卷积核提取图像特征；

S3022卷积神经网络的采样层对图像特征进行降维；

S3024卷积神经网络按照标签调整权值和滤波数据。

6.一种基于视频智能分析的语料数据集生成系统，其特征是所述的系统具体包括材料切割模块、关键帧提取模块、关键帧处理模块和数据集保存模块：

关键帧提取模块：对视频子集的关键帧进行提取；

7.根据权利要求6所述的基于视频智能分析的语料数据集生成系统，其特征是所述材料切割模块中的视频材料内容变化包括视频镜头分割、视频字幕变化和镜头变化。

8.根据权利要求7所述的基于视频智能分析的语料数据集生成系统，其特征是所述关键帧提取模块对视频子集图像清晰、人物清晰的关键帧进行提取。

9.根据权利要求8所述的基于视频智能分析的语料数据集生成系统，其特征是所述关键帧处理模块中使用深度学习训练完成的识别模型对关键帧的图像特征进行识别，关键帧处理模块具体包括层级划分模块和图像处理模块：

层级划分模块：对图像特征层次进行分级；

图像处理模块：利用卷积神经网络对二维图像进行处理。

10.根据权利要求9所述的基于视频智能分析的语料数据集生成系统，其特征是所述图像处理模块具体包括特征提取模块、特征降维模块、特征分类模块和特征优化模块：