CN113660484B

CN113660484B - 基于音视频内容的音视频属性比对方法、系统、终端及介质

Info

Publication number: CN113660484B
Application number: CN202110958062.3A
Authority: CN
Inventors: 杨森; 吴志刚; 王延东; 李行军; 杨登山
Original assignee: Beijing Dianzhong Kuaikan Technology Co ltd
Current assignee: Beijing Dianzhong Kuaikan Technology Co ltd
Priority date: 2021-06-29
Filing date: 2021-08-18
Publication date: 2024-04-26
Anticipated expiration: 2041-08-18
Also published as: CN113660484A

Abstract

本发明属于音视频技术领域，公开了一种基于音视频内容的音视频属性比对方法、系统、终端及介质，通过抽图像块采样、图像前后景分层标示、动静态特征匹配运算、字幕和图标分离、滤波和波形变换等过程，实现基于内容的视频属性的提取。本发明结合卷积神经网络技术，针对短视频内容特征比对技术研究，通过深度学习模型构建、样本特征提取、样本特征快速比对、分布式并行计算、数据视化展示、弹性扩展架构等技术开发，可支持移动存储设备视频样本比对和支持API接口调用形式进行对图像及视频进行低俗属性识别，实现短视频分类筛查，为网络环境的监管提供先进科技武器和装备。

Description

基于音视频内容的音视频属性比对方法、系统、终端及介质

技术领域

本发明属于音视频技术领域，尤其涉及一种基于音视频内容的音视频属性比对方法、系统、终端及介质。

背景技术

目前，随着互联网的不断发展，通过互联网传播的图片、视频及音频等多媒体信息具有内容丰富、感观性强等特点，已经逐渐成为不良信息在互联网上传播所采取的主要方式之一。而其中不乏暴力恐怖类视频，这类视频对未成年人容易造成不好的心理影响。所造成的文化污染、网络犯罪等问题已经受到人们越来越多的关注。如何及时发现网络中的暴力恐怖类视频，并准确地对这些信息进行识别和判断，进而采取有效的监管措施，已经成为十分紧迫的问题。

对互联网上的音视频进行分类管控，传统的方式是通过人工检测审核处理海量的音视频，这种方法工作量大，错看漏看、来不及看等已成为常见的困扰点，简单依靠人工检测、查看所有视频图像数据已经不太现实。以往的音视频属性提取一般是由音视频解码器针对视频内容的编码、封装参数的描述，与内容本身的含义、分类无关，无法根据音视频的内容进行准确的属性定义，不能全面及时地管控暴力恐怖类视频的扩散，因此希望找到一种能够实现自动化的暴力恐怖音视频检测的方法。

通过上述分析，现有技术存在的问题及缺陷为：

（1）传统的方式是通过人工检测审核处理海量的音视频，这种方法工作量大，错看漏看、来不及看等已成为常见的困扰点，简单依靠人工检测、查看所有视频图像数据已经不太现实。

（2）以往的音视频属性提取一般是由音视频解码器针对视频内容的编码、封装参数的描述，与内容本身的含义、分类无关，无法根据音视频的内容进行准确的属性定义，不能全面及时地管控暴力恐怖类视频的扩散。

发明内容

针对现有技术存在的问题，本发明提供了一种基于音视频内容的音视频属性比对方法、系统、终端及介质。

本发明是这样实现的，一种基于音视频内容的音视频属性比对方法，进行音视频数据的采集，将采集的视频重命名，命名是按照，编写程序，导入音视频文件包，然后逐个遍历音视频，按照文件名的关键词将采集的音视频数据信息进行初步的分类；

根据获得分类后的音视频数据信息，进行视频的抽图像块采样、图像前后景分层标示、动静态特征匹配运算、字幕和图标分离、滤波和波形变换，实现基于内容的视频属性的提取，同时结合CNN卷积神经网络实现对视频图像抽图像块、训练、匹配、识别操作；

视频图像识别包括：

构建视频图像特征识别矩阵分析短视频播放状态，对于图像序列在时间间隔很小的情况下，用式（1）的状态模型来预测；

其中表示在第/>图像块图像中的系统状态，/>表示的是系统的估计误差，/>是状态转换矩阵；则：

其中，、/>是短视频运动目标在相邻两图像块间/>和/>方向的速度量，、/>是其/>和/>方向的加速度，/>、/>表示目标物的矩形窗口的长度和宽度，/>、/>表示其矩形窗口的长度和宽度的变化率；

在采样时间很小且矩形变化为线性时，则：

当系统状态与观测值之间是线性关系时，系统量测方程为：

表示量测向量，/>是量测矩阵，/>是量测误差，且：

；

构建视频图像特征识别矩阵为：

利用运动目标的特征与目前目标所处的区域特点构建新矩阵，利用矩形跟踪法判别目标是否产生、是否消失；并分析目标特征，预判目标状态空间，判断目标的所处运动状态；

获取短视频播放状态后，进行是否合法判断：

将短视频划分为不重叠的部分，每部分有图像块，被称为图像块窗口，图像块窗口的长度应尽量小以进行实时编码，选择/>为短视频一秒内的图像块数，覆盖持续一秒内的视觉事件；

从每个图像块窗口中选择关键图像块，图像块号为，以关键图像块为中心图像块形成一个长度为/>的关键段，/>是固定值，对应于关键图像块和关键段的集合为，关键图像块是关键段中的中心图像块，关键段的长度/>小于图像块窗口的长度/>；

通过对关键图像块进行高度压缩构成参考图像块，参考图像块记录着关键图像块的主要内容，对于图像块窗口内不在关键段中的其他图像块，通过图像块窗口号、图像块号以及其他图像块与同一个窗口内关键图像块的距离构成图像块索引；

将参考图像块嵌入到关键段中，图像块窗口内不属于关键段的其他图像块的图像块索引被嵌入到同一图像块中；

每个参考图像块都被视为一个合法比特序列，每个是比特的信息，其中表示编码符号长度，是编码符号的数量，关键段中的每个图像块都被分解成个大小为的块，块的大小表示是否合法位的精度表示：

；

式中，表示N表示图像块分解的块数，b ²表示块的大小，W表示短视频宽度，H表示短视频高度；

对于每一图像块，被分解的/>个块表示为/>，利用喷泉编码将参考图像块嵌入这些块中/>，/>块中的每个块都携带从参考图像块/>进行喷泉编码而获得的水印有效载荷符号，/>的相应水印有效载荷由表示，并计算为/>的伪随机线性组合，/>的符号长度等于/>；验证水印由哈希函数/>和/>组成：

；

关键图像块的选择使用基于直方图比较方法即基于图像块窗口中镜头变化的边界位置提取关键图像块，对于每一图像块，计算差异特征值：

；

式中，表示图像块/>的强度直方图，/>是强度值；

对于图像块窗口内的任何其他图像块，满足/>，通过选择关键图像块/>，如果关键图像块到图像块窗口中起始图像块的距离小于/>，/>，将/>替换/>；同样，如果关键图像块到图像块窗口中最后一图像块的距离小于/>，/>，将/>替换/>，选取的每个图像块窗口长度基本相似，图像块窗口中的关键图像块都代表该图像块窗口的内容。

进一步，所述的抽图像块采样包括：将分类好的音视频进行抽图像块采样，每次读入内存一类音视频文件，然后遍历视频文件，将每个音视频存入处理缓存单元中，存入处理音视频的轨道中，抽图像块是每隔三图像块除去两图像块，然后将剩下的图像块移动紧挨对齐，实现对音视频的抽图像块操作；

所述视频属性的提取分为图像的属性提取（抽取关键图像块），属性提取是一个关键的步骤，为后续的深度学习算法的应用提供基础；关键图像块是视频的镜头表示图像块，基于关键图像块的属性检索是基于内容视频检索的重要一部分,包括颜色特征、纹理特征、形状特征静态属性；视频中的运动分为场景中对象物体产生的局部运动和基于摄像机移动的全局运动，对象的运动、镜头的运动、拍摄设备的运动运动属性；

视频特征文件是视频本身所具有的物理性质，从多个角度反应视频内容信息；视频特征提取是对视频进行识别的前提，视频特征包括颜色特征、纹理特征以及视频的运动特性；暴恐视频特征主要提取血液、阴暗、打斗及暴恐旗帜、人物和场景以及敏感人物视频特征，并与训练样本进行比对，快速定位，判断是否包含暴恐内容；

音频特征是提取音视频的音频波形转换、波形图谱，通过音频特征与训练样本进行内容比对，判断是否包含暴恐内容。

进一步，所述的图像前后景分层标示包括：根据导入的音视频，将抽图像块采样完成后的视频存为待定样本，根据所需要的参数信息获取待分割图像的前景区域，分为前景区域和背景区域，根据所述待分割图像中每个像素的颜色信息和空间位置信息确定每个像素的近邻像素，根据所述前景区域，可能前景区域和背景区域及每个像素的近邻像素，确定每个像素作为目标前景区域的概率值，根据所述待分割图像中每个像素作为目标前景区域的概率值，对所述待分割图像进行前后景分割，将分割完毕的前后景标记为不同颜色的标签，便于后续的识别处理。

进一步，所述的动静态特征匹配运算包括：通过将音视频信息分段后提取特征信息，计算获取到相对应类别的视频参数信息，然后通过B+树和哈希表，存储相应的参数信息，然后根据提取检测每段视频的参数信息，存储为B+树和哈希表，等待后续的数据信息对比，案子视频每一图像块的播放过程中，动态的识别和存储相应的音视频参数信息，同时再对比每类视频的存储B+树和哈希表，实现对视频特征的动静态匹配运算。

进一步，所述的卷积神经网络（CNN）用来识别位移、缩放及其他形式扭曲不变性的二维图形；由于CNN的特征检测层通过训练数据进行学习，在使用CNN时，避免显示的特征抽取，而隐式地从训练数据中进行学习；同一特征映射面上的神经元权值相同，网络能够并行学习；卷积神经网络以多维输入向量的图像直接输入网络，避免特征提取和分类过程中数据重建的复杂度。

进一步，利用训练好的CNN分类模型对接收到的预处理后的音视频信号本集进行特征学习，获得能够表征样本信号内在信息的特征；

利用不同的降维算法对得到的高维特征降维并可视化，根据可视化后的效果图，选择降维效果最佳的算法得到的低维特征数据，并基于识别效果图的数量计算未知调制类型信号的识别率，预先训练好的模型样本，直接将处理后的音视频样本信息喂入到模型中去，训练出位移缩放所需要的识别操作。

本发明的另一目的在于提供一种基于音视频内容的音视频属性比对系统，包括：

音视频数据采集模块，用于进行音视频数据的采集，将采集的视频重命名，命名是按照，编写程序，导入音视频文件包；

音视频分类模块，用于逐个遍历音视频，按照文件名的关键词将采集的音视频数据信息进行初步的分类；

视频图像属性提取、识别模块，用于根据获得分类后的音视频数据信息，进行视频的抽图像块采样、图像前后景分层标示、动静态特征匹配运算、字幕和图标分离、滤波和波形变换，实现基于内容的视频属性的提取，同时结合CNN卷积神经网络实现对视频图像抽图像块、训练、匹配、识别操作。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

进行音视频数据的采集，将采集的视频重命名，命名是按照，编写程序，导入音视频文件包；

然后逐个遍历音视频，按照文件名的关键词将采集的音视频数据信息进行初步的分类；

根据获得分类后的音视频数据信息，进行视频的抽图像块采样、图像前后景分层标示、动静态特征匹配运算、字幕和图标分离、滤波和波形变换，实现基于内容的视频属性的提取，同时结合CNN卷积神经网络实现对视频图像抽图像块、训练、匹配、识别操作。

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述的基于音视频内容的音视频属性比对方法。

本发明的另一目的在于提供一种APP，所述APP搭载有音视频解码器，并执行如下步骤：

结合上述的所有技术方案，本发明所具备的优点及积极效果为：

本发明方法结合卷积神经网络技术，针对短视频内容特征比对技术研究，通过深度学习模型构建、样本特征提取、样本特征快速比对、分布式并行计算、数据视化展示、弹性扩展架构等技术开发，可支持移动存储设备视频样本比对和支持API接口调用形式进行短视频样本分类识别技术平台，提供基于内容特征的短视频属性分析技术，基于深度学习技术建立涉恐涉暴图像/视频识别和血腥暴力图像/视频识别模型，对图像及视频进行低俗属性识别，实现短视频分类筛查，为网络环境的监管提供先进科技武器和装备。

本发明实现了一种以视频画面内容特性为检索依据，通过抽图像块采样、图像前后景分层标示、动静态特征匹配运算、字幕和图标分离、滤波和波形变换等过程，实现基于内容的视频属性的提取。本发明方法结合卷积神经网络技术，针对短视频内容特征比对技术研究，通过深度学习模型构建、样本特征提取、样本特征快速比对、分布式并行计算、数据视化展示、弹性扩展架构等技术开发，可支持移动存储设备视频样本比对和支持API接口调用形式进行短视频样本分类识别技术平台，提供基于内容特征的短视频属性分析技术，基于深度学习技术建立涉恐涉暴图像/视频识别和血腥暴力图像/视频识别模型，对图像及视频进行低俗属性识别，实现短视频分类筛查，为网络环境的监管提供先进科技武器和装备。

本发明通过采用喷泉编码嵌入水印并在解码器端进行提取，与传统的视频改变恢复方法进行对比，使用发明提出的算法，图像的质量明显更好，效率也比已有的算法更好，质量范围约为35.2-49.6dB。图像的PSNR值是评价图像质量的一种描述方式，是已有的评价标准。PSNR的单位是dB，数值越大表示失真越小，PSNR高于40dB说明图像质量极好（即非常接近原始图像）；在30—40dB通常表示图像质量是好的（即失真可以察觉但可以接受）；在30dB为普遍基准；在20—30dB说明图像质量差；最后，PSNR低于20dB图像不可接受。与已有算法的对比，本发明具有更好的识别能力和计算性能。

本发明减少视频采集的工作量；通过动态捕捉视频信息与自动预警机制建立关联，提示目标物的出现以便网络环境监管人员及时采取措施，同时自动提取有关联信息的视频，便于侦查人员进行串并案分析及视频比对分析处理，找到有价值的线索等。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于音视频内容的音视频属性比对方法原理图。

图2是本发明实施例提供的基于音视频内容的音视频属性比对方法流程图。

图3是本发明实施例提供的基于音视频内容的音视频属性比系统示意图。图中：1、音视频数据采集模块；2、音视频分类模块；3、视频图像属性提取、识别模块。

图4是本发明实施例提供的识别操作方法流程图。

图5是本发明实施例提供的视频图像识别方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种基于音视频内容的音视频属性比对方法，下面结合附图对本发明作详细的描述。

图1是本发明实施例提供的基于音视频内容的音视频属性比对方法原理。

如图2所示，本发明提供一种基于音视频内容的音视频属性比对方法，包括：

S101，进行音视频数据的采集，将采集的视频重命名，命名是按照，编写程序，导入音视频文件包。

S102，然后逐个遍历音视频，按照文件名的关键词将采集的音视频数据信息进行初步的分类，本系统使用的音视频软件是Windows Media，最普遍的音视频处理软件。

S103，然后进行视频的抽图像块采样、图像前后景分层标示、动静态特征匹配运算、字幕和图标分离、滤波和波形变换等过程，实现基于内容的视频属性的提取，同时还结合了CNN卷积神经网络实现对视频图像的一系列操作。

如图3所示，本发明还于提供一种基于音视频内容的音视频属性比对系统，包括：

音视频数据采集模块1，用于进行音视频数据的采集，将采集的视频重命名，命名是按照，编写程序，导入音视频文件包；

音视频分类模块2，用于逐个遍历音视频，按照文件名的关键词将采集的音视频数据信息进行初步的分类；

视频图像属性提取、识别模块3，用于根据获得分类后的音视频数据信息，进行视频的抽图像块采样、图像前后景分层标示、动静态特征匹配运算、字幕和图标分离、滤波和波形变换，实现基于内容的视频属性的提取，同时结合CNN卷积神经网络实现对视频图像抽图像块、训练、匹配、识别操作。

作为优选实施例，步骤S103所述的抽图像块采样是，将分类好的音视频进行抽图像块采样，每次读入内存一类音视频文件，然后遍历视频文件，将每个音视频存入处理缓存单元中，存入处理音视频的轨道中，本发明中抽图像块是每隔三图像块除去两图像块，然后将剩下的图像块移动紧挨对齐，实现对音视频的抽图像块操作。

步骤S103所述的视频的属性提取可以分为图像的属性提取（抽取关键图像块），属性提取是一个关键的步骤，为之后的深度学习算法的应用提供了基础。关键图像块是视频的镜头表示图像块，基于关键图像块的属性检索是基于内容视频检索的重要一部分,包括颜色特征、纹理特征、形状特征等静态属性；视频中的运动通常分为场景中对象物体产生的局部运动和基于摄像机移动的全局运动，对象的运动、镜头的运动、拍摄设备的运动等运动属性等。

所述的视频特征文件是视频本身所具有的物理性质，能从多个角度反应视频内容信息。视频特征提取是对视频进行识别的前提，视频特征主要包括颜色特征、纹理特征以及视频的运动特性等；暴恐视频特征主要提取血液、阴暗、打斗及暴恐旗帜、人物和场景以及敏感人物等视频特征，并与训练样本进行比对，快速定位，判断是否包含暴恐内容。

作为优选实施例，步骤S103所述的图像前后景分层标示，根据导入的音视频，将抽图像块采样完成后的视频存为待定样本，根据所需要的参数信息获取待分割图像的前景区域，分为前景区域和背景区域，根据所述待分割图像中每个像素的颜色信息和空间位置信息确定每个像素的近邻像素，根据所述前景区域，可能前景区域和背景区域及每个像素的近邻像素，确定每个像素作为目标前景区域的概率值，根据所述待分割图像中每个像素作为目标前景区域的概率值，对所述待分割图像进行前后景分割，将分割完毕的前后景标记为不同颜色的标签，便于后续的识别处理。

作为优选实施例，步骤S103所述的动静态特征匹配运算是通过将音视频信息分段后提取特征信息，计算获取到相对应类别的视频参数信息，然后通过B+树和哈希表，存储相应的参数信息，然后根据提取检测每段视频的参数信息，存储为B+树和哈希表，等待后续的数据信息对比，案子视频每一图像块的播放过程中，动态的识别和存储相应的音视频参数信息，同时再对比每类视频的存储B+树和哈希表，实现对视频特征的动静态匹配运算。

作为优选实施例，步骤S103所述的卷积神经网络（简称CNN）主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于CNN的特征检测层通过训练数据进行学习，所以在使用CNN时，避免了显示的特征抽取，而隐式地从训练数据中进行学习；再者由于同一特征映射面上的神经元权值相同，所以网络可以并行学习，这也是卷积网络相对于神经元彼此相连网络的一大优势。卷积神经网络以其局部权值共享的特殊结构在图像处理方面有着独特的优越性，其布局更接近于实际的生物神经网络，权值共享降低了网络的复杂性，特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。

作为优选实施例，如图4所示，识别操作方法包括：

S201，利用训练好的CNN分类模型对接收到的预处理后的音视频信号本集进行特征学习，获得能够表征样本信号内在信息的特征；

S202，利用不同的降维算法对得到的高维特征降维并可视化，根据可视化后的效果图，选择降维效果最佳的算法得到的低维特征数据；

S203，并基于识别效果图的数量来计算未知调制类型信号的识别率，预先训练好的模型样本，直接将处理后的音视频样本信息喂入到模型中去，就能训练出位移缩放等一系列所需要的识别操作。

下面结合实验结论对本发明的效果作进一步描述。

结论

本发明实现了能实时的处理海量视频，处理视频的效率高而且准确度高，实现对音视频属性提取，对内容本身的含义、分类和根据音视频的内容进行准确的属性定义，能全面及时地管控暴力恐怖类视频的扩散。

本发明通过对现有的视频和实时的视频进行抽图像块采样、图像前后景分层标示、动静态特征匹配运算、字幕和图标分离、滤波和波形变换等过程，实现基于内容的视频属性的提取，同时还结合了CNN卷积神经网络实现对视频图像的一系列操作。

下面结合具体仿真实验对本发明技术方案作进一步描述；

如图5所示，视频图像识别包括：

S301,构建视频图像特征识别矩阵分析短视频播放状态，对于图像序列在时间间隔很小的情况下，用式（1）的状态模型来预测；

在采样时间很小且矩形变化为线性时，则：

当系统状态与观测值之间是线性关系时，系统量测方程为：

表示量测向量，/>是量测矩阵，/>是量测误差，且：

；

构建视频图像特征识别矩阵为：

S302,获取短视频播放状态后，进行是否合法判断：

；

式中，表示图像块/>的强度直方图，/>是强度值；

对于图像块窗口内的任何其他图像块，满足/>，通过选择关键图像块/>，如果关键图像块到图像块窗口中起始图像块的距离小于/>，/>，将/>替换/>；同样，如果关键图像块到图像块窗口中最后一图像块的距离小于/>，/>，将/>替换/>，选取的每个图像块窗口长度基本相似，图像块窗口中的关键图像块都代表该图像块窗口的内容。/>

实验评估中使用的十个测试视频来自REWIND视频复制-移动训练数据库。每个视频序列的分辨率为像素和30图像块每秒的图像块速率。图像块窗口的长度/>设置为20图像块。因此，能够覆盖持续0.67秒左右的视觉事件，视频图像块分为/>大小为/>的块。关键图像块的图像块索引和参考图像块嵌入在Y亮度分量的第二个LSB中。因此，嵌入的容量等于64bpb（每个块的位数），或等价于1bpp（每个像素的位数）。

选择长度为的关键段等于5或等效地设置为/>，在关键段中的每个/>块中32位用于嵌入哈希函数。哈希函数是通过MD5算法生成，符号长度/>也设置为32，即32位用于将喷泉编码的参考图像块嵌入到在关键段内的每个块中。每个图像块索引/>的大小设置为24位，其中14位专用于图像块窗口编号/>，5位用于图像块窗口内视频图像块的编号/>，5位用于同一个图像块窗口内图像块/>到关键图像块的距离/>。解码器从每个块/>提取图像块索引/>和/>。选择已知的图像块索引/>以满足下列条件：

1）是最大值；

2），其中/>表示取决于/>的阈值；

在实验中，设置，即检测的图像块索引至少达到120才能被确认。

2、图像块内改变检测与恢复实验

当视频遭受图像块内改变时，关键图像块的内容会发生改变，原始关键图像块、加水印的关键图像块和被改变的关键图像块，显示了复原的关键图像块，其中被改变部分被恢复参考图像块中的相应部分替换。关键图像块的内容和关键段的内容是相关联的，因此改变率是指关键段中的改变率。通过将恢复的视频图像块与改变的关键图像块进行比较，可以明显地看出恢复视频图像块对改变关键图像块的修改。通过实验找出最高的可逆改变率，每一条线都表示REWIND视频数据集的测试视频之一的特定关键图像块。对应的图像块窗口随机改变20次，等于10%，20%，…，60%和67%。恢复的关键图像块的平均PSNR值随着改变率的增加而降低。PSNR计算值与平均PSNR的标准偏差从/>的0.54降低至的0.13。由实验得出，/>时标准偏差等于0.42，/>时标准偏差等于0.28，/>时标准偏差等于0.22，/>时标准偏差等于0.19，/>时标准偏差等于0.14。当改变率超过67%时，将不能恢复关键图像块，但该方法仍然可以检测改变。恢复的关键图像块的平均PSNR在33.dB-41.6dB之间，在司法鉴定和执法应用等场景是可以接受的。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明较优的具体的实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于音视频内容的音视频属性比对方法，进行音视频数据的采集，将采集的视频重命名，命名是按照，编写程序，导入音视频文件包，然后逐个遍历音视频，按照文件名的关键词将采集的音视频数据信息进行初步的分类，其特征在于，根据获得分类后的音视频数据信息，进行视频的抽图像块采样、图像前后景分层标示、动静态特征匹配运算、字幕和图标分离、滤波和波形变换，实现基于内容的视频属性的提取，同时结合CNN卷积神经网络实现对视频图像抽图像块、训练、匹配、识别操作；

视频图像识别包括：

其中，、/>是短视频运动目标在相邻两图像块间/>和/>方向的速度量，/>、是其/>和/>方向的加速度，/>、/>表示目标物的矩形窗口的长度和宽度，/>、/>表示其矩形窗口的长度和宽度的变化率；

在采样时间很小且矩形变化为线性时，则：

当系统状态与观测值之间是线性关系时，系统量测方程为：

表示量测向量，/>是量测矩阵，/>是量测误差，且：

；

构建视频图像特征识别矩阵为：

获取短视频播放状态后，进行是否合法判断：

；

对于每一图像块，被分解的/>个块表示为/>，利用喷泉编码将参考图像块嵌入这些块中/>，/>块中的每个块都携带从参考图像块/>进行喷泉编码而获得的水印有效载荷符号，/>的相应水印有效载荷由/>表示，并计算为/>的伪随机线性组合，/>的符号长度等于/>；验证水印由哈希函数和/>组成：

；

式中，表示图像块/>的强度直方图，/>是强度值；

2.如权利要求1所述的基于音视频内容的音视频属性比对方法，其特征在于，所述的抽图像块采样包括：将分类好的音视频进行抽图像块采样，每次读入内存一类音视频文件，然后遍历视频文件，将每个音视频存入处理缓存单元中，存入处理音视频的轨道中，抽图像块是每隔三图像块除去两图像块，然后将剩下的图像块移动紧挨对齐，实现对音视频的抽图像块操作；

所述视频属性的提取分为图像的属性提取，属性提取是一个关键的步骤，为后续的深度学习算法的应用提供基础；关键图像块是视频的镜头表示图像块，基于关键图像块的属性检索是基于内容视频检索的重要一部分,包括颜色特征、纹理特征、形状特征静态属性；视频中的运动分为场景中对象物体产生的局部运动和基于摄像机移动的全局运动，对象的运动、镜头的运动、拍摄设备的运动运动属性；

3.如权利要求1所述的基于音视频内容的音视频属性比对方法，其特征在于，所述的图像前后景分层标示包括：根据导入的音视频，将抽图像块采样完成后的视频存为待定样本，根据所需要的参数信息获取待分割图像的前景区域，分为前景区域和背景区域，根据所述待分割图像中每个像素的颜色信息和空间位置信息确定每个像素的近邻像素，根据所述前景区域，可能前景区域和背景区域及每个像素的近邻像素，确定每个像素作为目标前景区域的概率值，根据所述待分割图像中每个像素作为目标前景区域的概率值，对所述待分割图像进行前后景分割，将分割完毕的前后景标记为不同颜色的标签，便于后续的识别处理。

4.如权利要求1所述的基于音视频内容的音视频属性比对方法，其特征在于，所述的动静态特征匹配运算包括：通过将音视频信息分段后提取特征信息，计算获取到相对应类别的视频参数信息，然后通过B+树和哈希表，存储相应的参数信息，然后根据提取检测每段视频的参数信息，存储为B+树和哈希表，等待后续的数据信息对比，案子视频每一图像块的播放过程中，动态的识别和存储相应的音视频参数信息，同时再对比每类视频的存储B+树和哈希表，实现对视频特征的动静态匹配运算。

5.如权利要求1所述的基于音视频内容的音视频属性比对方法，其特征在于，所述的卷积神经网络（CNN）用来识别位移、缩放及其他形式扭曲不变性的二维图形；由于CNN的特征检测层通过训练数据进行学习，在使用CNN时，避免显示的特征抽取，而隐式地从训练数据中进行学习；同一特征映射面上的神经元权值相同，网络能够并行学习；卷积神经网络以多维输入向量的图像直接输入网络，避免特征提取和分类过程中数据重建的复杂度。

6.如权利要求5所述的基于音视频内容的音视频属性比对方法，其特征在于，利用训练好的CNN分类模型对接收到的预处理后的音视频信号本集进行特征学习，获得能够表征样本信号内在信息的特征；

7.一种信息数据处理终端，其特征在于，所述信息数据处理终端包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1~6任意一项所述的基于音视频内容的音视频属性比对方法。