CN113850186A

CN113850186A - 基于卷积神经网络的智能流媒体视频大数据分析方法

Info

Publication number: CN113850186A
Application number: CN202111119866.0A
Authority: CN
Inventors: 张才明
Original assignee: China Institute Of Industrial Relations
Current assignee: China Institute Of Industrial Relations
Priority date: 2021-09-24
Filing date: 2021-09-24
Publication date: 2021-12-28
Also published as: CN115114963B; CN115114963A

Abstract

本发明提供了一种基于卷积神经网络的智能流媒体视频大数据分析方法，包括：通过单帧预测器对流媒体视频数据进行分帧识别，得到图像帧；将图像帧输入基于卷积神经网络的数据分析模型进行处理；采用递归神经网络将各图像帧进行时序拟合，输出全场景化识别框架。本发明采用基于卷积神经网络的数据分析模型替代现有技术采用的检测、识别、分割以及跟踪四个步骤，一是数据处理结构更清晰；二是通过共享计算能够提高算法效率，并且通过多个相关任务共同学习来提高算法性能；三是统一框架之后只需要做关键帧的标注就可以，在训练的过程中就会把数据前后帧串联起来，减少了标注量，提高了效率。

Description

基于卷积神经网络的智能流媒体视频大数据分析方法

技术领域

本发明涉及流媒体视频大数据处理技术领域，特别涉及一种基于卷积神经网络的智能流媒体视频大数据分析方法。

背景技术

卷积神经网络(Convolutional Neural Networks，即CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学习(deeplearning)的代表算法之一。

视频内容分析是要对视频内容有一个比较完整的理解，它是通过摄像头或者通过视频，要站在机器的角度去看而不是以人的身份区理解和分析视频内容。从数据角度来首，根据数据将业务场景拆分成几个核心的技术问题：检测、识别、分割以及跟踪，针对这些问题以持续去做优化。

传统算法中，音视频处理中经常在开始时会有很多数据预处理，比如图像裁减、音视频平衡化等等，按照传统分类框架会提取各种特征：点特征、边缘特征、轮廓特征等等，音频中会有频谱特征以及一些实际特征。特征提取完成之后，需要串联一个比较强的分类器以及各种算法，针对各种问题再加入一些后处理，来进行分类识别。

发明内容

为了解决上述技术问题，本发明提供了一种基于卷积神经网络的智能流媒体视频大数据分析方法，包括以下步骤：

S100通过单帧预测器对流媒体视频数据进行分帧识别，得到图像帧；

S200将图像帧输入基于卷积神经网络的数据分析模型进行处理；

S300采用递归神经网络将各图像帧进行时序拟合，输出全场景化识别框架。

可选的，在S200步骤中，数据分析模型进行处理的方式如下：

S210将输入的各图像帧在结果层次进行参数共享，并对多图像帧进行了多任务深度学习；

S220采用数据分析模型中做解卷积处理进行分割；

S230采用数据分析模型中的本地CNN架构在图像层面做进行遍历滑动进行识别。

可选的，在S200步骤中，输入的图像帧为原始图像，基于卷积神经网络的数据分析模型中定义了损失函数和优化目标，进行深度学习，通过自我迭代，逐步达到优化收敛。

可选的，S200步骤中使用的所述数据分析模型的构建方法如下：

获得训练样本图像和测试样本图像；

构建卷积神经网络基础模型，包括配置卷积单元、激活单元和池化单元，读取卷积单元配置数据、激活单元配置数据、池化单元配置数据、卷积层的层数及全连接层的层数；根据卷积单元配置数据配置卷积单元、根据激活单元配置数据配置激活单元及根据池化单元配置数据配置池化单元，配置卷积层的层数、全连接层的层数构建成卷积神经网络基础模型；

将训练样本图像输入卷积神经网络基础模型，经过前向传递和反向传递两个步骤反复循环更新网络的权值矩阵，其中，在前向传递时，在每个原始卷积核上，以手调核与原始卷积核的点乘对原始卷积核的调制，得到调制卷积核，以调制卷积核取代原始卷积核，进行神经网络的前向传递；直至达到设定次数训练过程结束，得到训练好的卷积神经网络模型；

将测试样本图像输入到训练好的卷积神经网络模型进行测试验证，进行优化调整，即得到数据分析模型。

可选的，在S200步骤中，依据流媒体视频数据构建只有特征模型部分的CNN模型构图，作为特征构图；

将图像帧的全连接层连接至特征构图，形成初级网络模型；使用训练数据集训练初级网络模型，提取初级网络模型中各层的特征图；

计算特征图和其相连图像帧的平均模型几何形状，并根据平均局部几何结构得到计算结果；

使用训练数据集并结合损失函数对预测模型进行训练，并用训练完成后的预测模型对输入图像进行深度预测，根据深度预测对后续图像帧进行优化调整。

可选的，在S100步骤中，对流媒体视频数据格式进行初始化，保留流媒体视频数据中的主要时间结构；采用时空辨识模型在捕捉流媒体视频数据内容中主要要素时，捕捉每个图像帧存在容易忽略的细节信息的关键区域，在每帧图片中选定并关注关键区域；

在S200步骤中，采用基于图像合成方法本地化的损失函数，接收包括关键区域的第一图像帧和包括细节信息的第二图像帧；分析图像帧以确定局部损失函数，合并第一图像帧和第二图像帧，生成包含细节信息呈现的流媒体视频数据。

可选的，在S210步骤中，构建参数共享的特征提取框架，特征提取框架包括多个卷积块的图像帧特征。

可选的，在S100步骤中，若流媒体视频数据同时用多个摄像装置进行采集，则对各摄像装置采用的媒体视频数据进行分帧识别后，还进行图像帧的筛选，筛选时，选定其中一个摄像装置的媒体视频数据为主选数据，其它摄像装置的媒体视频数据为副选数据，将主选数据中的各图像帧的图像质量逐一与处于其前一图像帧和后一图像帧时间段内副选数据的各图像帧经权值运算后图像质量进行比对，若主选数据的图像质量小于其中一个副选数据经权值运算后图像质量，则以该副选数据的图像帧替代主选数据的图像帧作为有效图像帧进行后续处理。

可选的，所述权值运算中采用的权值根据副选数据的摄像装置相对主选数据的摄像装置的采集角度系数进行确定。

可选的，在S220步骤中，选择可用的分割点用来分割所述图像帧，并将图像帧的这些被分割图像片断辨认为符号，将图像帧的图像片断与表示符号或者符号的一部分图像模板进行比较，其中，

图像帧的图像片断对应从第一分割点到第二分割点的分割点序列，比较得到与图像模板相关的候选图像片断，候选图像片断构成对图像帧的所述图像片断的辨认结果，每个候选图像片断与图像模板和所述图像帧的所述图像片断之间的匹配的度量相关，形成候选图像片断的序列表示，序列表示包括对应图像帧中的分割点的数据块，其中，

数据块包括对与随后分割点相对应的数据块的数据索引，数据索引包括候选图像片断的信息以及分割点之间的图像帧的图像片断的相关的度量，将候选图像片断的序列表示与对照表进行比较，对照表设定被表示为符号序列，其中，

符号序列保持对被允许的随后的符号的数据索引，找到对应着对照表中被允许的符号序列的候选图像片断序列，以及将这些被允许的符号序列中的至少一个返回，作为图像帧的候选辨认结果。

本发明的基于卷积神经网络的智能流媒体视频大数据分析方法，采用基于卷积神经网络的数据分析模型替代现有技术采用的检测、识别、分割以及跟踪四个步骤，对于流媒体视频的数据端而言，数据不是人抽象化的数据，而是原始数据，不再抽象化的盘面特征预估，对于深度学习的目标端，能够把各种损失函数和优化目标定义清楚，给定了数据和优化目标，深度学习的过程是一个自我迭代，逐步优化收敛的过程；本发明的优点包括：一是数据处理结构更清晰，不是针对各个业务层来做的，更多是把它抽象成为几个核心的技术模块，这样就能极大效果的按照各种计算调优的方式来解决问题；二是提高算法效率与性能，从实际经验来说，因为很多参数本身就是共享的，而所有视频进来都能够一次forward得到所有的结果，因此通过共享计算能够提高算法效率，并且通过多个相关任务共同学习来提高算法性能；三是减少了标注量，对于视频分析来说比较大的一个问题是标注，视频级别的分析所需要数据的标注量很大，统一框架之后只需要做关键帧的标注就可以，因为在训练的过程中就会把数据前后帧串联起来。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种基于卷积神经网络的智能流媒体视频大数据分析方法流程图；

图2为本发明的基于卷积神经网络的智能流媒体视频大数据分析方法实施例采用数据分析模型进行处理的流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

如图1所示，本发明实施例提供了一种基于卷积神经网络的智能流媒体视频大数据分析方法，包括以下步骤：

上述技术方案的工作原理为：本方案采用的递归神经网络可以使用监督学习和非监督学习理论进行训练，在监督学习时，递归神经网络使用反向传播算法(Back-probagation,BP)更新权重参数，计算过程可类比循环神经网络的随时间反向传播(BPThrough Time,BPTT)算法。非监督学习的递归神经网络被用于结构信息的表征学习；递归神经网络的核心部分由阶层分布的节点构成，可以将高阶层的节点称为父节点，低阶层的节点称为子节点，最末端的子节点为输出节点，节点的性质与树中的节点相同。递归神经网络的输出节点通常位于树状图的最上方，此时其结构是自下而上绘制的，父节点位于子节点的下方；本发明中，以数据分析模型处理后的各图像帧为输入数据，对递归神经网络第i阶层的节点，采用以下公式计算节点的系统状态：

Q_i＝F(wq_i+kD_i+α)

上式中，Q_i表示第i阶层节点的系统状态；q_i表示第i阶层节点的所有父节点的系统状态，若有多个父节点则表示父节点合并矩阵的系统状态；D_i是第i阶层的节点的输入数据，若没有输入则不进行计算；F表示激励函数；w表示父节点的权重系数；k表示第i阶层节点的权重系数；α表示基础权重系数；各权重系数与节点的阶层无关，即递归神经网络所有节点的权重是共享的；

根据各阶层节点的系统状态进行时序拟合，输出全场景化识别框架。

上述技术方案的有益效果为：在传统音视频处理中，经常在开始时会有很多数据预处理，比如图像裁减、音视频平衡化等等，按照传统分类框架会提取各种特征：点特征、边缘特征、轮廓特征等等，音频中会有频谱特征以及一些实际特征。特征提取完成之后，需要串联一个比较强的分类器以及各种算法，针对各种问题再加入一些后处理，来进行分类识别。本方案采用基于卷积神经网络的数据分析模型替代现有技术采用的检测、识别、分割以及跟踪四个步骤，对于流媒体视频的数据端而言，数据不是人抽象化的数据，而是原始数据，不再抽象化的盘面特征预估，对于深度学习的目标端，能够把各种损失函数和优化目标定义清楚，给定了数据和优化目标，深度学习的过程是一个自我迭代，逐步优化收敛的过程；本方案的优点包括：一是数据处理结构更清晰，不是针对各个业务层来做的，更多是把它抽象成为几个核心的技术模块，这样就能极大效果的按照各种计算调优的方式来解决问题；二是提高算法效率与性能，从实际经验来说，因为很多参数本身就是共享的，而所有视频进来都能够一次forward得到所有的结果，因此通过共享计算能够提高算法效率，并且通过多个相关任务共同学习来提高算法性能；三是减少了标注量，对于视频分析来说比较大的一个问题是标注，视频级别的分析所需要数据的标注量很大，统一框架之后只需要做关键帧的标注就可以，因为在训练的过程中就会把数据前后帧串联起来。

在一个实施例中，如图2所示，在S200步骤中，数据分析模型进行处理的方式如下：

S220采用数据分析模型中做解卷积处理进行分割；

上述技术方案的工作原理为：本地CNN架构(Local CNN structure)，在S230步骤中，可以采用以下公式计算图像帧的复合特征：

P_(j，k)＝F(j)P(k_j)

上式中，P_(j，k)表示第j个图像帧的复合特征，k_j表示第j个图像帧的二进制掩码标识，F(j)表示第j个图像帧映射的投影算子，P(k_j)表示第j个图像帧遍历滑动采样掩模标识映射到输出的大小；将得到复合特征用于后续的时序拟合，可以增强拟合效果，得到最佳的全场景化识别框架输出。

上述技术方案的有益效果为：本方案通过单帧预测器对流媒体视频数据进行分帧识别，得到的图像帧输入预先构建的基于卷积神经网络的数据分析模型进行处理；采用递归神经网络将各图像帧进行时序拟合，输出全场景化识别框架；本方案可以通过共享计算提高算法效率，并且通过多个相关任务共同学习来提高算法性能。

在一个实施例中，在S200步骤中，输入的图像帧为原始图像，基于卷积神经网络的数据分析模型中定义了损失函数和优化目标，进行深度学习，通过自我迭代，逐步达到优化收敛。

上述技术方案的工作原理和有益效果为：本方方案限定数据分析模型输入的图像帧为原始图像，通过定义的损失函数和优化目标，进行深度学习，自我迭代，逐步达到优化收敛；省去了音视频处理中经常采用的数据预处理过程，使得数据处理过程更简洁，处理效率更高；还可以减少由于处理干预过多导致的数据失真，保持数据真实性，增强用户的良好体验。

在一个实施例中，S200步骤中使用的所述数据分析模型的构建方法如下：

获得训练样本图像和测试样本图像；

将训练样本图像输入卷积神经网络基础模型，经过前向传递和反向传递两个步骤反复循环更新网络的权值矩阵，其中，在前向传递时，在每个原始卷积核上，以手调核与原始卷积核的点乘对原始卷积核的调制，得到调制卷积核，以调制卷积核取代原始卷积核，进行神经网络的前向传递；直至达到设定次数训练过程结束，得到训练好的卷积神经网络模型，该模型只需要进行一次构建，即可长期使用。

上述技术方案的工作原理和有益效果为：本方案提供了可选用的数据分析模型的构建方法，通过构建卷积神经网络基础模型，分别采用训练样本图像和测试样本图像进行训练和测试，以使得模型可适用于视频数据处理，并通过测试验证，从而得到符合需要的数据分析模型。

在一个实施例中，在S200步骤中，依据流媒体视频数据构建只有特征模型部分的CNN模型构图，作为特征构图；

上述技术方案的工作原理和有益效果为：本方案根据平均相对局部几何结构误差，并基于损失函数训练CNN，进而提高CNN回归深度图像的精确与清晰，生成的深度图保留了更多场景的几何结构特征，使得更容易进行图像全场景化，提高时序拟合效率。

在一个实施例中，在S100步骤中，对流媒体视频数据格式进行初始化，保留流媒体视频数据中的主要时间结构；采用时空辨识模型在捕捉流媒体视频数据内容中主要要素时，捕捉每个图像帧存在容易忽略的细节信息的关键区域，在每帧图片中选定并关注关键区域；

上述技术方案的工作原理和有益效果为：本方案通过对流媒体视频数据格式进行初始化，保留流媒体视频数据中的主要时间结构，以时空辨识模型在捕捉流媒体视频数据内容中的主要要素，并捕捉每个图像帧存在容易忽略的细节信息的关键区域进行关注，可以增强对图像帧中细节信息的识别，通过时空辨识模型进行关键区域的跟踪，提高流媒体视频数据的时空质量。

在一个实施例中，在S210步骤中，构建参数共享的特征提取框架，特征提取框架包括多个卷积块的图像帧特征。

上述技术方案的工作原理和有益效果为：本方案通过特征提取框架，可以利用参数共享深度学习网络训练提高图像特征的准确性，增强参数共享稳定性。

在一个实施例中，在S100步骤中，若流媒体视频数据同时用多个摄像装置进行采集，则对各摄像装置采用的媒体视频数据进行分帧识别后，还进行图像帧的筛选，筛选时，选定其中一个摄像装置的媒体视频数据为主选数据，其它摄像装置的媒体视频数据为副选数据，将主选数据中的各图像帧的图像质量逐一与处于其前一图像帧和后一图像帧时间段内副选数据的各图像帧经权值运算后图像质量进行比对，若主选数据的图像质量小于其中一个副选数据经权值运算后图像质量，则以该副选数据的图像帧替代主选数据的图像帧作为有效图像帧进行后续处理；所述权值运算中采用的权值根据副选数据的摄像装置相对主选数据的摄像装置的采集角度系数进行确定。

上述技术方案的工作原理和有益效果为：本方案中的图像质量的评测项目可以包括曝光、清晰度、颜色、质感、噪音、防手抖、闪光灯、对焦和伪像这九个评测项目，其中每一个评测项目还还会分成几个评测小项目，例如伪像可以测试锐化、畸变和暗角等评测小项目，这些评测项目的选取有利于机器量化处理，避免人工干预存在的主观误差；本方案通过设置多个摄像装置进行采集，并采用筛选方式提高用于后续处理的图像帧质量，保障了数据处理的顺利进行；筛选中引入权值运算，使得后续图像帧时序拟合的连接性更好。

在一个实施例中，在S220步骤中，选择可用的分割点用来分割所述图像帧，并将图像帧的这些被分割图像片断辨认为符号，将图像帧的图像片断与表示符号或者符号的一部分图像模板进行比较，其中，

上述技术方案的工作原理和有益效果为：本方案在数据分析模型中采用选择可用的分割点用来分割所述图像帧，可以提高分割后图像帧的图像片断中信息的关联性和完整性；通过将图像片断辨认为符号，以每个候选图像片断与图像模板和所述图像帧的所述图像片断之间的匹配的度量相关形成序列表示，引入候选图像片断的序列表示的对照表，可以简化处理，能够让处理便捷化。

在一个实施例中，在S200步骤中，对数据分析模型进行处理后的图像帧的像素稳定性进行评估，包括：

对图像帧进行分块处理，形成若干个图像块；

采以下公式计算每个图像帧中图像块的像素值进行稳定性指标：

其中，τ为图像帧中图像块的像素值进行稳定性指标，T_i,j代表第i个图像块中的第j个像素特征，像素特征为通过设定的转换机制进行转换处理得到的特征数据，所述特征数据是对图像块的像素值进行提取，并对提取的像素值进行数据标准化处理后的数据；i＝1,2...N，N表示图像块的数量；j＝1,2...μ，μ为图像块中的像素特征的数量；

若稳定性指标大于指标阈值，表示处理后的图像帧稳定性良好，反之表示存在较大失真，需要通过与数据分析模型处理前的图像帧对比进行优化和调整。

上述技术方案的工作原理和有益效果为：本方案通过对数据分析模型进行处理后的图像帧进行分块处理，再通过上述算法对各图像块的像素稳定性进行评估，若稳定性指标大于指标阈值，表示处理后的图像帧稳定性良好，反之表示存在较大失真，需要通过与数据分析模型处理前的图像帧对比进行优化和调整，可以防止数据失真，保障了处理后的数据的真实性；另外，该稳定性评价结果还反映了所采用的数据分析模型的合理性，可以由此对数据分析模型作为调整优化的验证方式。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于卷积神经网络的智能流媒体视频大数据分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于卷积神经网络的智能流媒体视频大数据分析方法，其特征在于，在S200步骤中，数据分析模型进行处理的方式如下：

S220采用数据分析模型中做解卷积处理进行分割；

3.根据权利要求1所述的基于卷积神经网络的智能流媒体视频大数据分析方法，其特征在于，在S200步骤中，输入的图像帧为原始图像，基于卷积神经网络的数据分析模型中定义了损失函数和优化目标，进行深度学习，通过自我迭代，逐步达到优化收敛。

4.根据权利要求1所述的基于卷积神经网络的智能流媒体视频大数据分析方法，其特征在于，S200步骤中使用的所述数据分析模型的构建方法如下：

获得训练样本图像和测试样本图像；

5.根据权利要求1所述的基于卷积神经网络的智能流媒体视频大数据分析方法，其特征在于，在S200步骤中，依据流媒体视频数据构建只有特征模型部分的CNN模型构图，作为特征构图；

6.根据权利要求1所述的基于卷积神经网络的智能流媒体视频大数据分析方法，其特征在于，在S100步骤中，对流媒体视频数据格式进行初始化，保留流媒体视频数据中的主要时间结构；采用时空辨识模型在捕捉流媒体视频数据内容中主要要素时，捕捉每个图像帧存在容易忽略的细节信息的关键区域，在每帧图片中选定并关注关键区域；

7.根据权利要求2所述的基于卷积神经网络的智能流媒体视频大数据分析方法，其特征在于，在S210步骤中，构建参数共享的特征提取框架，特征提取框架包括多个卷积块的图像帧特征。

8.根据权利要求1所述的基于卷积神经网络的智能流媒体视频大数据分析方法，其特征在于，在S100步骤中，若流媒体视频数据同时用多个摄像装置进行采集，则对各摄像装置采用的媒体视频数据进行分帧识别后，还进行图像帧的筛选，筛选时，选定其中一个摄像装置的媒体视频数据为主选数据，其它摄像装置的媒体视频数据为副选数据，将主选数据中的各图像帧的图像质量逐一与处于其前一图像帧和后一图像帧时间段内副选数据的各图像帧经权值运算后图像质量进行比对，若主选数据的图像质量小于其中一个副选数据经权值运算后图像质量，则以该副选数据的图像帧替代主选数据的图像帧作为有效图像帧进行后续处理。

9.根据权利要求8所述的基于卷积神经网络的智能流媒体视频大数据分析方法，其特征在于，所述权值运算中采用的权值根据副选数据的摄像装置相对主选数据的摄像装置的采集角度系数进行确定。

10.根据权利要求2所述的基于卷积神经网络的智能流媒体视频大数据分析方法，其特征在于，在S220步骤中，选择可用的分割点用来分割所述图像帧，并将图像帧的这些被分割图像片断辨认为符号，将图像帧的图像片断与表示符号或者符号的一部分图像模板进行比较，其中，