CN115114963A - 基于卷积神经网络的智能流媒体视频大数据分析方法 - Google Patents

基于卷积神经网络的智能流媒体视频大数据分析方法 Download PDF

Info

Publication number
CN115114963A
CN115114963A CN202210863948.4A CN202210863948A CN115114963A CN 115114963 A CN115114963 A CN 115114963A CN 202210863948 A CN202210863948 A CN 202210863948A CN 115114963 A CN115114963 A CN 115114963A
Authority
CN
China
Prior art keywords
image
image frame
data
streaming media
media video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210863948.4A
Other languages
English (en)
Other versions
CN115114963B (zh
Inventor
张才明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Institute Of Industrial Relations
Original Assignee
China Institute Of Industrial Relations
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Institute Of Industrial Relations filed Critical China Institute Of Industrial Relations
Publication of CN115114963A publication Critical patent/CN115114963A/zh
Application granted granted Critical
Publication of CN115114963B publication Critical patent/CN115114963B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于卷积神经网络的智能流媒体视频大数据分析方法,包括:通过单帧预测器对流媒体视频数据进行分帧识别,得到图像帧;将图像帧输入基于卷积神经网络的数据分析模型进行处理;采用递归神经网络将各图像帧进行时序拟合,输出全场景化识别框架。本发明采用基于卷积神经网络的数据分析模型替代现有技术采用的检测、识别、分割以及跟踪四个步骤,一是数据处理结构更清晰;二是通过共享计算能够提高算法效率,通过多个相关任务共同学习来提高算法性能;三是统一框架之后只需要做关键帧的标注就可以,在训练的过程中就会把数据前后帧串联起来,减少了标注量,提高了效率。

Description

基于卷积神经网络的智能流媒体视频大数据分析方法
技术领域
本发明涉及流媒体视频大数据处理技术领域,特别涉及一种基于卷积神经网络的智能流媒体视频大数据分析方法。
背景技术
卷积神经网络(Convolutional Neural Networks,即CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deeplearning)的代表算法之一。
视频内容分析是要对视频内容有一个比较完整的理解,它是通过摄像头或者通过视频,要站在机器的角度去看而不是以人的身份区理解和分析视频内容。从数据角度来首,根据数据将业务场景拆分成几个核心的技术问题:检测、识别、分割以及跟踪,针对这些问题以持续去做优化。
传统算法中,音视频处理中经常在开始时会有很多数据预处理,比如图像裁减、音视频平衡化等等,按照传统分类框架会提取各种特征:点特征、边缘特征、轮廓特征等等,音频中会有频谱特征以及一些实际特征。特征提取完成之后,需要串联一个比较强的分类器以及各种算法,针对各种问题再加入一些后处理,来进行分类识别。
发明内容
为了解决上述技术问题,本发明提供了一种基于卷积神经网络的智能流媒体视频大数据分析方法,包括以下步骤:
S100通过单帧预测器对流媒体视频数据进行分帧识别,得到图像帧;
S200将图像帧输入基于卷积神经网络的数据分析模型进行处理;
对数据分析模型进行处理后的图像帧的像素稳定性进行评估,包括:
对图像帧进行分块处理,形成若干个图像块;
计算每个图像帧中图像块像素值的稳定性指标;
若稳定性指标大于指标阈值,表示处理后的图像帧稳定性良好,反之表示存在较大失真,需要通过与数据分析模型处理前的图像帧对比进行优化和调整;
S300采用递归神经网络将各图像帧进行时序拟合,输出全场景化识别框架。
可选的,在S200步骤中,数据分析模型进行处理的方式如下:
S210将输入的各图像帧在结果层次进行参数共享,并对多图像帧进行了多任务深度学习;
S220采用数据分析模型中做解卷积处理进行分割;
S230采用数据分析模型中的本地CNN架构在图像层面做遍历滑动进行识别。
可选的,在S200步骤中,输入的图像帧为原始图像,基于卷积神经网络的数据分析模型中定义了损失函数和优化目标,进行深度学习,通过自我迭代,逐步达到优化收敛。
可选的,S200步骤中使用的所述数据分析模型的构建方法如下:
获得训练样本图像和测试样本图像;
构建卷积神经网络基础模型,包括配置卷积单元、激活单元和池化单元,读取卷积单元配置数据、激活单元配置数据、池化单元配置数据、卷积层的层数及全连接层的层数;根据卷积单元配置数据配置卷积单元、根据激活单元配置数据配置激活单元及根据池化单元配置数据配置池化单元,配置卷积层的层数、全连接层的层数构建成卷积神经网络基础模型;
将训练样本图像输入卷积神经网络基础模型,经过前向传递和反向传递两个步骤反复循环更新网络的权值矩阵,其中,在前向传递时,在每个原始卷积核上,以手调核与原始卷积核的点乘对原始卷积核的调制,得到调制卷积核,以调制卷积核取代原始卷积核,进行神经网络的前向传递;直至达到设定次数训练过程结束,得到训练好的卷积神经网络模型;
将测试样本图像输入到训练好的卷积神经网络模型进行测试验证,进行优化调整,即得到数据分析模型。
可选的,在S200步骤中,依据流媒体视频数据构建只有特征模型部分的CNN模型构图,作为特征构图;
将图像帧的全连接层连接至特征构图,形成初级网络模型;使用训练数据集训练初级网络模型,提取初级网络模型中各层的特征图;
计算特征图和其相连图像帧的平均模型几何形状,并根据平均局部几何结构得到计算结果;
使用训练数据集并结合损失函数对预测模型进行训练,并用训练完成后的预测模型对输入图像进行深度预测,根据深度预测对后续图像帧进行优化调整。
可选的,在S100步骤中,对流媒体视频数据格式进行初始化,保留流媒体视频数据中的主要时间结构;采用时空辨识模型在捕捉流媒体视频数据内容中主要要素时,捕捉每个图像帧存在容易忽略的细节信息的关键区域,在每帧图片中选定并关注关键区域;
在S200步骤中,采用基于图像合成方法本地化的损失函数,接收包括关键区域的第一图像帧和包括细节信息的第二图像帧;分析图像帧以确定局部损失函数,合并第一图像帧和第二图像帧,生成包含细节信息呈现的流媒体视频数据。
可选的,在S210步骤中,构建参数共享的特征提取框架,特征提取框架包括多个卷积块的图像帧特征。
可选的,在S100步骤中,若流媒体视频数据同时用多个摄像装置进行采集,则对各摄像装置采用的媒体视频数据进行分帧识别后,还进行图像帧的筛选,筛选时,选定其中一个摄像装置的媒体视频数据为主选数据,其它摄像装置的媒体视频数据为副选数据,将主选数据中的各图像帧的图像质量逐一与处于其前一图像帧和后一图像帧时间段内副选数据的各图像帧经权值运算后图像质量进行比对,若主选数据的图像质量小于其中一个副选数据经权值运算后图像质量,则以该副选数据的图像帧替代主选数据的图像帧作为有效图像帧进行后续处理;
所述权值运算中采用的权值根据副选数据的摄像装置相对主选数据的摄像装置的采集角度系数进行确定。
可选的,在S220步骤中,选择可用的分割点用来分割所述图像帧,并将图像帧的这些被分割图像片断辨认为符号,将图像帧的图像片断与表示符号或者符号的一部分图像模板进行比较,其中,
图像帧的图像片断对应从第一分割点到第二分割点的分割点序列,比较得到与图像模板相关的候选图像片断,候选图像片断构成对图像帧的所述图像片断的辨认结果,每个候选图像片断与图像模板和所述图像帧的所述图像片断之间的匹配的度量相关,形成候选图像片断的序列表示,序列表示包括对应图像帧中的分割点的数据块,其中,
数据块包括对与随后分割点相对应的数据块的数据索引,数据索引包括候选图像片断的信息以及分割点之间的图像帧的图像片断的相关的度量,将候选图像片断的序列表示与对照表进行比较,对照表设定被表示为符号序列,其中,
符号序列保持对被允许的随后的符号的数据索引,找到对应着对照表中被允许的符号序列的候选图像片断序列,以及将这些被允许的符号序列中的至少一个返回,作为图像帧的候选辨认结果。
可选的,在S300步骤中,实施动态物体跟踪分析,具体分析方式如下:
S310对时序拟合后的各图像帧中的动态物体进行时序标注;
S320识别各图像帧中动态物体的记录位置,并将同一图像帧中动态物体的记录位置与时序标注进行关联;
S330依照时序标注将关联动态物体的记录位置进行运动线路的后台描绘;
S340根据后台描绘的运动线路分析并记录动态物体的动态信息。
可选的,还包括对流媒体视频进行发布与链路分析,具体包括:
获取流媒体视频发布链路的链路参数,发布链路用于传输流媒体视频文件;
根据链路参数配置流媒体视频文件的编码参数;
根据编码参数对流媒体视频文件进行编码生成数据包,通过发布链路传输数据包;
获取数据包大小及布链路传输速率,分析测算流媒体视频发布需要的时间。
本发明的基于卷积神经网络的智能流媒体视频大数据分析方法,采用基于卷积神经网络的数据分析模型替代现有技术采用的检测、识别、分割以及跟踪四个步骤,对于流媒体视频的数据端而言,数据不是人抽象化的数据,而是原始数据,不再抽象化的盘面特征预估,对于深度学习的目标端,能够把各种损失函数和优化目标定义清楚,给定了数据和优化目标,深度学习的过程是一个自我迭代,逐步优化收敛的过程;本发明的优点包括:一是数据处理结构更清晰,不是针对各个业务层来做的,更多是把它抽象成为几个核心的技术模块,这样就能极大效果的按照各种计算调优的方式来解决问题;二是提高算法效率与性能,从实际经验来说,因为很多参数本身就是共享的,而所有视频进来都能够一次forward得到所有的结果,因此通过共享计算能够提高算法效率,并且通过多个相关任务共同学习来提高算法性能;三是减少了标注量,对于视频分析来说比较大的一个问题是标注,视频级别的分析所需要数据的标注量很大,统一框架之后只需要做关键帧的标注就可以,因为在训练的过程中就会把数据前后帧串联起来。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种基于卷积神经网络的智能流媒体视频大数据分析方法流程图;
图2为本发明的基于卷积神经网络的智能流媒体视频大数据分析方法实施例采用数据分析模型进行处理的流程图;
图3为本发明的基于卷积神经网络的智能流媒体视频大数据分析方法实施例实施动态物体跟踪分析的流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
如图1所示,本发明实施例提供了一种基于卷积神经网络的智能流媒体视频大数据分析方法,包括以下步骤:
S100通过单帧预测器对流媒体视频数据进行分帧识别,得到图像帧;
S200将图像帧输入基于卷积神经网络的数据分析模型进行处理;
对数据分析模型进行处理后的图像帧的像素稳定性进行评估,包括:
对图像帧进行分块处理,形成若干个图像块;
计算每个图像帧中图像块像素值的稳定性指标;
若稳定性指标大于指标阈值,表示处理后的图像帧稳定性良好,反之表示存在较大失真,需要通过与数据分析模型处理前的图像帧对比进行优化和调整;
S300采用递归神经网络将各图像帧进行时序拟合,输出全场景化识别框架。
上述技术方案的工作原理为:本方案采用的递归神经网络可以使用监督学习和非监督学习理论进行训练,在监督学习时,递归神经网络使用反向传播算法(Back-probagation,BP)更新权重参数,计算过程可类比循环神经网络的随时间反向传播(BPThrough Time,BPTT)算法。非监督学习的递归神经网络被用于结构信息的表征学习;递归神经网络的核心部分由阶层分布的节点构成,可以将高阶层的节点称为父节点,低阶层的节点称为子节点,最末端的子节点为输出节点,节点的性质与树中的节点相同。递归神经网络的输出节点通常位于树状图的最上方,此时其结构是自下而上绘制的,父节点位于子节点的下方;本发明中,以数据分析模型处理后的各图像帧为输入数据,对递归神经网络第i阶层的节点,采用以下公式计算节点的系统状态:
Qi=F(wqi+kDi+α)
上式中,Qi表示第i阶层节点的系统状态;qi表示第i阶层节点的所有父节点的系统状态,若有多个父节点则表示父节点合并矩阵的系统状态;Di是第i阶层的节点的输入数据,若没有输入则不进行计算;F表示激励函数;w表示父节点的权重系数;k表示第i阶层节点的权重系数;α表示基础权重系数;各权重系数与节点的阶层无关,即递归神经网络所有节点的权重是共享的;根据各阶层节点的系统状态进行时序拟合,输出全场景化识别框架;本方案采用像素稳定性评估方式来评价数据分析模型处理后的图像帧,通过计算每个图像帧中图像块像素值的稳定性指标,并将计算结果与指标阈值进行对比的量化分析方式确定各图像块的像素稳定性是否满足要求,若不满足则采用数据分析模型处理前后的图像帧对比的方式,进行优化和调整。
上述技术方案的有益效果为:在传统音视频处理中,经常在开始时会有很多数据预处理,比如图像裁减、音视频平衡化等等,按照传统分类框架会提取各种特征:点特征、边缘特征、轮廓特征等等,音频中会有频谱特征以及一些实际特征。特征提取完成之后,需要串联一个比较强的分类器以及各种算法,针对各种问题再加入一些后处理,来进行分类识别。本方案采用基于卷积神经网络的数据分析模型替代现有技术采用的检测、识别、分割以及跟踪四个步骤,对于流媒体视频的数据端而言,数据不是人抽象化的数据,而是原始数据,不再抽象化的盘面特征预估,对于深度学习的目标端,能够把各种损失函数和优化目标定义清楚,给定了数据和优化目标,深度学习的过程是一个自我迭代,逐步优化收敛的过程;本方案的优点包括:一是数据处理结构更清晰,不是针对各个业务层来做的,更多是把它抽象成为几个核心的技术模块,这样就能极大效果的按照各种计算调优的方式来解决问题;二是提高算法效率与性能,从实际经验来说,因为很多参数本身就是共享的,而所有视频进来都能够一次forward得到所有的结果,因此通过共享计算能够提高算法效率,并且通过多个相关任务共同学习来提高算法性能;三是减少了标注量,对于视频分析来说比较大的一个问题是标注,视频级别的分析所需要数据的标注量很大,统一框架之后只需要做关键帧的标注就可以,因为在训练的过程中就会把数据前后帧串联起来;本方案还可以防止数据失真,保障处理后的数据的真实性;稳定性评价结果还反映了所采用的数据分析模型的合理性,可以由此对数据分析模型作为调整优化的验证方式。
在一个实施例中,如图2所示,在S200步骤中,数据分析模型进行处理的方式如下:
S210将输入的各图像帧在结果层次进行参数共享,并对多图像帧进行了多任务深度学习;
S220采用数据分析模型中做解卷积处理进行分割;
S230采用数据分析模型中的本地CNN架构在图像层面做遍历滑动进行识别。
上述技术方案的工作原理为:本地CNN架构(Local CNN structure),在S230步骤中,可以采用以下公式计算图像帧的复合特征:
P(j,k)=F(j)P(kj)
上式中,P(j,k)表示第j个图像帧的复合特征,kj表示第j个图像帧的二进制掩码标识,F(j)表示第j个图像帧映射的投影算子,P(kj)表示第j个图像帧遍历滑动采样掩模标识映射到输出的大小;将得到复合特征用于后续的时序拟合,可以增强拟合效果,得到最佳的全场景化识别框架输出。
上述技术方案的有益效果为:本方案通过单帧预测器对流媒体视频数据进行分帧识别,得到的图像帧输入预先构建的基于卷积神经网络的数据分析模型进行处理;采用递归神经网络将各图像帧进行时序拟合,输出全场景化识别框架;本方案可以通过共享计算提高算法效率,并且通过多个相关任务共同学习来提高算法性能。
在一个实施例中,在S200步骤中,输入的图像帧为原始图像,基于卷积神经网络的数据分析模型中定义了损失函数和优化目标,进行深度学习,通过自我迭代,逐步达到优化收敛。
上述技术方案的工作原理和有益效果为:本方方案限定数据分析模型输入的图像帧为原始图像,通过定义的损失函数和优化目标,进行深度学习,自我迭代,逐步达到优化收敛;省去了音视频处理中经常采用的数据预处理过程,使得数据处理过程更简洁,处理效率更高;还可以减少由于处理干预过多导致的数据失真,保持数据真实性,增强用户的良好体验。
在一个实施例中,S200步骤中使用的所述数据分析模型的构建方法如下:
获得训练样本图像和测试样本图像;
构建卷积神经网络基础模型,包括配置卷积单元、激活单元和池化单元,读取卷积单元配置数据、激活单元配置数据、池化单元配置数据、卷积层的层数及全连接层的层数;根据卷积单元配置数据配置卷积单元、根据激活单元配置数据配置激活单元及根据池化单元配置数据配置池化单元,配置卷积层的层数、全连接层的层数构建成卷积神经网络基础模型;
将训练样本图像输入卷积神经网络基础模型,经过前向传递和反向传递两个步骤反复循环更新网络的权值矩阵,其中,在前向传递时,在每个原始卷积核上,以手调核与原始卷积核的点乘对原始卷积核的调制,得到调制卷积核,以调制卷积核取代原始卷积核,进行神经网络的前向传递;直至达到设定次数训练过程结束,得到训练好的卷积神经网络模型,该模型只需要进行一次构建,即可长期使用。
将测试样本图像输入到训练好的卷积神经网络模型进行测试验证,进行优化调整,即得到数据分析模型。
上述技术方案的工作原理和有益效果为:本方案提供了可选用的数据分析模型的构建方法,通过构建卷积神经网络基础模型,分别采用训练样本图像和测试样本图像进行训练和测试,以使得模型可适用于视频数据处理,并通过测试验证,从而得到符合需要的数据分析模型。
在一个实施例中,在S200步骤中,依据流媒体视频数据构建只有特征模型部分的CNN模型构图,作为特征构图;
将图像帧的全连接层连接至特征构图,形成初级网络模型;使用训练数据集训练初级网络模型,提取初级网络模型中各层的特征图;
计算特征图和其相连图像帧的平均模型几何形状,并根据平均局部几何结构得到计算结果;
使用训练数据集并结合损失函数对预测模型进行训练,并用训练完成后的预测模型对输入图像进行深度预测,根据深度预测对后续图像帧进行优化调整。
上述技术方案的工作原理和有益效果为:本方案根据平均相对局部几何结构误差,并基于损失函数训练CNN,进而提高CNN回归深度图像的精确与清晰,生成的深度图保留了更多场景的几何结构特征,使得更容易进行图像全场景化,提高时序拟合效率。
在一个实施例中,在S100步骤中,对流媒体视频数据格式进行初始化,保留流媒体视频数据中的主要时间结构;采用时空辨识模型在捕捉流媒体视频数据内容中主要要素时,捕捉每个图像帧存在容易忽略的细节信息的关键区域,在每帧图片中选定并关注关键区域;
在S200步骤中,采用基于图像合成方法本地化的损失函数,接收包括关键区域的第一图像帧和包括细节信息的第二图像帧;分析图像帧以确定局部损失函数,合并第一图像帧和第二图像帧,生成包含细节信息呈现的流媒体视频数据。
上述技术方案的工作原理和有益效果为:本方案通过对流媒体视频数据格式进行初始化,保留流媒体视频数据中的主要时间结构,以时空辨识模型在捕捉流媒体视频数据内容中的主要要素,并捕捉每个图像帧存在容易忽略的细节信息的关键区域进行关注,可以增强对图像帧中细节信息的识别,通过时空辨识模型进行关键区域的跟踪,提高流媒体视频数据的时空质量。
在一个实施例中,在S210步骤中,构建参数共享的特征提取框架,特征提取框架包括多个卷积块的图像帧特征。
上述技术方案的工作原理和有益效果为:本方案通过特征提取框架,可以利用参数共享深度学习网络训练提高图像特征的准确性,增强参数共享稳定性。
在一个实施例中,在S100步骤中,若流媒体视频数据同时用多个摄像装置进行采集,则对各摄像装置采用的媒体视频数据进行分帧识别后,还进行图像帧的筛选,筛选时,选定其中一个摄像装置的媒体视频数据为主选数据,其它摄像装置的媒体视频数据为副选数据,将主选数据中的各图像帧的图像质量逐一与处于其前一图像帧和后一图像帧时间段内副选数据的各图像帧经权值运算后图像质量进行比对,若主选数据的图像质量小于其中一个副选数据经权值运算后图像质量,则以该副选数据的图像帧替代主选数据的图像帧作为有效图像帧进行后续处理;所述权值运算中采用的权值根据副选数据的摄像装置相对主选数据的摄像装置的采集角度系数进行确定。
上述技术方案的工作原理和有益效果为:本方案中的图像质量的评测项目可以包括曝光、清晰度、颜色、质感、噪音、防手抖、闪光灯、对焦和伪像这九个评测项目,其中每一个评测项目还还会分成几个评测小项目,例如伪像可以测试锐化、畸变和暗角等评测小项目,这些评测项目的选取有利于机器量化处理,避免人工干预存在的主观误差;本方案通过设置多个摄像装置进行采集,并采用筛选方式提高用于后续处理的图像帧质量,保障了数据处理的顺利进行;筛选中引入权值运算,使得后续图像帧时序拟合的连接性更好。
在一个实施例中,在S220步骤中,选择可用的分割点用来分割所述图像帧,并将图像帧的这些被分割图像片断辨认为符号,将图像帧的图像片断与表示符号或者符号的一部分图像模板进行比较,其中,
图像帧的图像片断对应从第一分割点到第二分割点的分割点序列,比较得到与图像模板相关的候选图像片断,候选图像片断构成对图像帧的所述图像片断的辨认结果,每个候选图像片断与图像模板和所述图像帧的所述图像片断之间的匹配的度量相关,形成候选图像片断的序列表示,序列表示包括对应图像帧中的分割点的数据块,其中,
数据块包括对与随后分割点相对应的数据块的数据索引,数据索引包括候选图像片断的信息以及分割点之间的图像帧的图像片断的相关的度量,将候选图像片断的序列表示与对照表进行比较,对照表设定被表示为符号序列,其中,
符号序列保持对被允许的随后的符号的数据索引,找到对应着对照表中被允许的符号序列的候选图像片断序列,以及将这些被允许的符号序列中的至少一个返回,作为图像帧的候选辨认结果。
上述技术方案的工作原理和有益效果为:本方案在数据分析模型中采用选择可用的分割点用来分割所述图像帧,可以提高分割后图像帧的图像片断中信息的关联性和完整性;通过将图像片断辨认为符号,以每个候选图像片断与图像模板和所述图像帧的所述图像片断之间的匹配的度量相关形成序列表示,引入候选图像片断的序列表示的对照表,可以简化处理,能够让处理便捷化。
在一个实施例中,在S200步骤中,对数据分析模型进行处理后的图像帧的像素稳定性进行评估时,采以下公式计算每个图像帧中图像块的像素值进行稳定性指标:
Figure BDA0003757807340000111
其中,τ为图像帧中图像块的像素值进行稳定性指标,Ti,j代表第i个图像块中的第j个像素特征,像素特征为通过设定的转换机制进行转换处理得到的特征数据,所述特征数据是对图像块的像素值进行提取,并对提取的像素值进行数据标准化处理后的数据;i=1,2...N,N表示图像块的数量;j=1,2...μ,μ为图像块中的像素特征的数量。
上述技术方案的工作原理和有益效果为:本方案通过上述算法对各图像块的像素稳定性进行评估,若稳定性指标大于指标阈值,表示处理后的图像帧稳定性良好,反之表示存在较大失真,需要通过与数据分析模型处理前的图像帧对比进行优化和调整,可以防止数据失真,保障了处理后的数据的真实性;另外,该稳定性评价结果还反映了所采用的数据分析模型的合理性,可以由此对数据分析模型作为调整优化的验证方式。
在一个实施例中,在S300步骤中,实施动态物体跟踪分析,具体分析方式如下:
S310对时序拟合后的各图像帧中的动态物体进行时序标注;
S320识别各图像帧中动态物体的记录位置,并将同一图像帧中动态物体的记录位置与时序标注进行关联;
S330依照时序标注将关联动态物体的记录位置进行运动线路的后台描绘;
S340根据后台描绘的运动线路分析并记录动态物体的动态信息。
上述技术方案的工作原理和有益效果为:本方案采用图像分析方式,对动态物体的进行跟踪分析,通过跟踪记录位置进行运动线路的后台描绘,采用后台描绘的运动线路分析并记录动态物体的动态信息,动态信息可以包括动态物体的来处、移动方向以及目的地等,实现了流媒体视频中的动态物体留痕,增加了流媒体视频的信息记录量,提高了流媒体视频的信息详细性,便于需要时进行调取使用。
在一个实施例中,还包括对流媒体视频进行发布与链路分析,具体包括:
获取流媒体视频发布链路的链路参数,发布链路用于传输流媒体视频文件;
根据链路参数配置流媒体视频文件的编码参数;
根据编码参数对流媒体视频文件进行编码生成数据包,通过发布链路传输数据包;
获取数据包大小及布链路传输速率,分析测算流媒体视频发布需要的时间。
上述技术方案的工作原理和有益效果为:本方案将对流媒体视频的分析扩展至其发布与链路,针对发布链路的链路参数配置流媒体视频文件的编码参数,通过编码参数将流媒体视频转化为数据包,通过发布链路传输进行发布,同时获取数据包大小及布链路传输速率,根据数据包大小及布链路传输速率进行分析测算,得到流媒体视频发布需要的时间;通过对流媒体视频进行发布与链路分析,能够了解链路参数对发布时长的影响,从而根据发布需求可以反向指导流媒体视频的发布链路选择,使得发布链路与对应流媒体视频的发布需求相适应。
在一个实施例中,在S200步骤中,对图像帧的分块处理采用动态阈值分割算法进行分割,将图像帧分割为m×n的图像块;
采用的动态阈值算法如下:
Figure BDA0003757807340000131
上式中,Tk表示第k个图像块的阈值,即像素均值;m和n分别表示分割出来的图像块的横向像素尺寸和纵向像素尺寸,即分割出m×n大小的图像块;(i,j)表示图像块的像素坐标;I(i,j)表示第k个图像块的(i,j)像素点的像素值;
采用以下算法对第k个图像块进行补偿处理:
I(i,j)=A当
Figure BDA0003757807340000132
I(i,j)=B当
Figure BDA0003757807340000133
I(i,j)=I(i,j)当
Figure BDA0003757807340000134
Figure BDA0003757807340000135
上式中,I(i,j)表示阈值变化后第k个图像块的(i,j)像素点的像素值;I(i,j)表示原第k个图像块的(i,j)像素点的像素值;A和B分别表示不同条件下阈值变化后第k个图像块中缺陷点的像素值;γ和τ分别表示第一补偿系数和第二补偿系数;
通过补偿处理识别出图像块的缺陷点,再对缺陷点进行影响因素分析;
采用相邻像素点的像素均值方式进行缺陷点去除处理。
上述技术方案的工作原理和有益效果为:本方案采用动态阈值分割算法对图像帧进行图像块分割,可以照顾图像帧存在的光照场差异,使得图像块分割更合理;通过引入第一补偿系数和第二补偿系数进行补偿处理,可以提高图像块中缺陷点识别的准确性,降低缺陷点识别误差,从而保障缺陷点影响因素分析的可靠性,通过缺陷点去除能够有效排除干扰,提高图像质量,进而保障后续拟合后全场景化识别框架的可靠性。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种基于卷积神经网络的智能流媒体视频大数据分析方法,其特征在于,包括以下步骤:
S100通过单帧预测器对流媒体视频数据进行分帧识别,得到图像帧;
S200将图像帧输入基于卷积神经网络的数据分析模型进行处理;
对数据分析模型进行处理后的图像帧的像素稳定性进行评估,包括:
对图像帧进行分块处理,形成若干个图像块;
计算每个图像帧中图像块像素值的稳定性指标;
若稳定性指标大于指标阈值,表示处理后的图像帧稳定性良好,反之表示存在较大失真,需要通过与数据分析模型处理前的图像帧对比进行优化和调整;
S300采用递归神经网络将各图像帧进行时序拟合,输出全场景化识别框架。
2.根据权利要求1所述的基于卷积神经网络的智能流媒体视频大数据分析方法,其特征在于,在S200步骤中,数据分析模型进行处理的方式如下:
S210将输入的各图像帧在结果层次进行参数共享,并对多图像帧进行了多任务深度学习;
S220采用数据分析模型中做解卷积处理进行分割;
S230采用数据分析模型中的本地CNN架构在图像层面做遍历滑动进行识别。
3.根据权利要求1所述的基于卷积神经网络的智能流媒体视频大数据分析方法,其特征在于,S200步骤中使用的所述数据分析模型的构建方法如下:
获得训练样本图像和测试样本图像;
构建卷积神经网络基础模型,包括配置卷积单元、激活单元和池化单元,读取卷积单元配置数据、激活单元配置数据、池化单元配置数据、卷积层的层数及全连接层的层数;根据卷积单元配置数据配置卷积单元、根据激活单元配置数据配置激活单元及根据池化单元配置数据配置池化单元,配置卷积层的层数、全连接层的层数构建成卷积神经网络基础模型;
将训练样本图像输入卷积神经网络基础模型,经过前向传递和反向传递两个步骤反复循环更新网络的权值矩阵,其中,在前向传递时,在每个原始卷积核上,以手调核与原始卷积核的点乘对原始卷积核的调制,得到调制卷积核,以调制卷积核取代原始卷积核,进行神经网络的前向传递;直至达到设定次数训练过程结束,得到训练好的卷积神经网络模型;
将测试样本图像输入到训练好的卷积神经网络模型进行测试验证,进行优化调整,即得到数据分析模型。
4.根据权利要求1所述的基于卷积神经网络的智能流媒体视频大数据分析方法,其特征在于,在S200步骤中,依据流媒体视频数据构建只有特征模型部分的CNN模型构图,作为特征构图;
将图像帧的全连接层连接至特征构图,形成初级网络模型;使用训练数据集训练初级网络模型,提取初级网络模型中各层的特征图;
计算特征图和其相连图像帧的平均模型几何形状,并根据平均局部几何结构得到计算结果;
使用训练数据集并结合损失函数对预测模型进行训练,并用训练完成后的预测模型对输入图像进行深度预测,根据深度预测对后续图像帧进行优化调整。
5.根据权利要求1所述的基于卷积神经网络的智能流媒体视频大数据分析方法,其特征在于,在S100步骤中,对流媒体视频数据格式进行初始化,保留流媒体视频数据中的主要时间结构;采用时空辨识模型在捕捉流媒体视频数据内容中主要要素时,捕捉每个图像帧存在容易忽略的细节信息的关键区域,在每帧图片中选定并关注关键区域;
在S200步骤中,采用基于图像合成方法本地化的损失函数,接收包括关键区域的第一图像帧和包括细节信息的第二图像帧;分析图像帧以确定局部损失函数,合并第一图像帧和第二图像帧,生成包含细节信息呈现的流媒体视频数据。
6.根据权利要求2所述的基于卷积神经网络的智能流媒体视频大数据分析方法,其特征在于,在S210步骤中,构建参数共享的特征提取框架,特征提取框架包括多个卷积块的图像帧特征。
7.根据权利要求1所述的基于卷积神经网络的智能流媒体视频大数据分析方法,其特征在于,在S100步骤中,若流媒体视频数据同时用多个摄像装置进行采集,则对各摄像装置采用的媒体视频数据进行分帧识别后,还进行图像帧的筛选,筛选时,选定其中一个摄像装置的媒体视频数据为主选数据,其它摄像装置的媒体视频数据为副选数据,将主选数据中的各图像帧的图像质量逐一与处于其前一图像帧和后一图像帧时间段内副选数据的各图像帧经权值运算后图像质量进行比对,若主选数据的图像质量小于其中一个副选数据经权值运算后图像质量,则以该副选数据的图像帧替代主选数据的图像帧作为有效图像帧进行后续处理;
所述权值运算中采用的权值根据副选数据的摄像装置相对主选数据的摄像装置的采集角度系数进行确定。
8.根据权利要求2所述的基于卷积神经网络的智能流媒体视频大数据分析方法,其特征在于,在S220步骤中,选择可用的分割点用来分割所述图像帧,并将图像帧的这些被分割图像片断辨认为符号,将图像帧的图像片断与表示符号或者符号的一部分图像模板进行比较,其中,
图像帧的图像片断对应从第一分割点到第二分割点的分割点序列,比较得到与图像模板相关的候选图像片断,候选图像片断构成对图像帧的所述图像片断的辨认结果,每个候选图像片断与图像模板和所述图像帧的所述图像片断之间的匹配的度量相关,形成候选图像片断的序列表示,序列表示包括对应图像帧中的分割点的数据块,其中,
数据块包括对与随后分割点相对应的数据块的数据索引,数据索引包括候选图像片断的信息以及分割点之间的图像帧的图像片断的相关的度量,将候选图像片断的序列表示与对照表进行比较,对照表设定被表示为符号序列,其中,
符号序列保持对被允许的随后的符号的数据索引,找到对应着对照表中被允许的符号序列的候选图像片断序列,以及将这些被允许的符号序列中的至少一个返回,作为图像帧的候选辨认结果。
9.根据权利要求1所述的基于卷积神经网络的智能流媒体视频大数据分析方法,其特征在于,在S300步骤中,实施动态物体跟踪分析,具体分析方式如下:
S310对时序拟合后的各图像帧中的动态物体进行时序标注;
S320识别各图像帧中动态物体的记录位置,并将同一图像帧中动态物体的记录位置与时序标注进行关联;
S330依照时序标注将关联动态物体的记录位置进行运动线路的后台描绘;
S340根据后台描绘的运动线路分析并记录动态物体的动态信息。
10.根据权利要求1所述的基于卷积神经网络的智能流媒体视频大数据分析方法,其特征在于,还包括对流媒体视频进行发布与链路分析,具体包括:
获取流媒体视频发布链路的链路参数,发布链路用于传输流媒体视频文件;
根据链路参数配置流媒体视频文件的编码参数;
根据编码参数对流媒体视频文件进行编码生成数据包,通过发布链路传输数据包;
获取数据包大小及布链路传输速率,分析测算流媒体视频发布需要的时间。
CN202210863948.4A 2021-09-24 2022-07-21 基于卷积神经网络的智能流媒体视频大数据分析方法 Active CN115114963B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2021111198660 2021-09-24
CN202111119866.0A CN113850186A (zh) 2021-09-24 2021-09-24 基于卷积神经网络的智能流媒体视频大数据分析方法

Publications (2)

Publication Number Publication Date
CN115114963A true CN115114963A (zh) 2022-09-27
CN115114963B CN115114963B (zh) 2023-04-07

Family

ID=78979628

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202111119866.0A Pending CN113850186A (zh) 2021-09-24 2021-09-24 基于卷积神经网络的智能流媒体视频大数据分析方法
CN202210863948.4A Active CN115114963B (zh) 2021-09-24 2022-07-21 基于卷积神经网络的智能流媒体视频大数据分析方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202111119866.0A Pending CN113850186A (zh) 2021-09-24 2021-09-24 基于卷积神经网络的智能流媒体视频大数据分析方法

Country Status (1)

Country Link
CN (2) CN113850186A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117237393A (zh) * 2023-11-06 2023-12-15 深圳金语科技有限公司 基于流媒体后视镜的图像处理方法、装置及计算机设备

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101128838A (zh) * 2005-02-28 2008-02-20 Zi德库玛股份公司 辨认图
CN102289813A (zh) * 2011-08-30 2011-12-21 西安交通大学 一种无参考图像的模糊程度评价方法
JP2014030069A (ja) * 2012-07-31 2014-02-13 Casio Comput Co Ltd 画像選択装置、画像選択方法及びプログラム
US20140193032A1 (en) * 2013-01-07 2014-07-10 GM Global Technology Operations LLC Image super-resolution for dynamic rearview mirror
JP2014204206A (ja) * 2013-04-02 2014-10-27 日本電信電話株式会社 主観画質推定装置、主観画質推定方法、及びプログラム
WO2016073205A1 (en) * 2014-11-07 2016-05-12 Thomson Licensing Collaborative video upload method and apparatus
CN105809638A (zh) * 2016-03-01 2016-07-27 深圳Tcl数字技术有限公司 图像处理方法及装置
US20160323559A1 (en) * 2015-04-29 2016-11-03 Panasonic Intellectual Property Management Co., Ltd. Method for selecting cameras and image distribution system capable of appropriately selecting cameras
CN107204010A (zh) * 2017-04-28 2017-09-26 中国科学院计算技术研究所 一种单目图像深度估计方法与系统
CN107633296A (zh) * 2017-10-16 2018-01-26 中国电子科技集团公司第五十四研究所 一种卷积神经网络构建方法
CN108171117A (zh) * 2017-12-05 2018-06-15 南京南瑞信息通信科技有限公司 基于多核异构并行计算的电力人工智能视觉分析系统
CN110751021A (zh) * 2019-09-03 2020-02-04 北京迈格威科技有限公司 图像处理方法、装置、电子设备和计算机可读介质
CN110830756A (zh) * 2018-08-07 2020-02-21 华为技术有限公司 一种监控方法与装置
US20200126290A1 (en) * 2018-10-23 2020-04-23 Canon Kabushiki Kaisha Image processing apparatus, image processing method and storage medium
CN111160569A (zh) * 2019-12-30 2020-05-15 第四范式(北京)技术有限公司 基于机器学习模型的应用开发方法、装置及电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112037263B (zh) * 2020-09-14 2024-03-19 山东大学 基于卷积神经网络和长短期记忆网络的手术工具跟踪系统
CN113221655B (zh) * 2021-04-12 2022-09-30 重庆邮电大学 基于特征空间约束的人脸欺骗检测方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101128838A (zh) * 2005-02-28 2008-02-20 Zi德库玛股份公司 辨认图
CN102289813A (zh) * 2011-08-30 2011-12-21 西安交通大学 一种无参考图像的模糊程度评价方法
JP2014030069A (ja) * 2012-07-31 2014-02-13 Casio Comput Co Ltd 画像選択装置、画像選択方法及びプログラム
US20140193032A1 (en) * 2013-01-07 2014-07-10 GM Global Technology Operations LLC Image super-resolution for dynamic rearview mirror
JP2014204206A (ja) * 2013-04-02 2014-10-27 日本電信電話株式会社 主観画質推定装置、主観画質推定方法、及びプログラム
WO2016073205A1 (en) * 2014-11-07 2016-05-12 Thomson Licensing Collaborative video upload method and apparatus
US20160323559A1 (en) * 2015-04-29 2016-11-03 Panasonic Intellectual Property Management Co., Ltd. Method for selecting cameras and image distribution system capable of appropriately selecting cameras
CN105809638A (zh) * 2016-03-01 2016-07-27 深圳Tcl数字技术有限公司 图像处理方法及装置
CN107204010A (zh) * 2017-04-28 2017-09-26 中国科学院计算技术研究所 一种单目图像深度估计方法与系统
CN107633296A (zh) * 2017-10-16 2018-01-26 中国电子科技集团公司第五十四研究所 一种卷积神经网络构建方法
CN108171117A (zh) * 2017-12-05 2018-06-15 南京南瑞信息通信科技有限公司 基于多核异构并行计算的电力人工智能视觉分析系统
CN110830756A (zh) * 2018-08-07 2020-02-21 华为技术有限公司 一种监控方法与装置
US20200126290A1 (en) * 2018-10-23 2020-04-23 Canon Kabushiki Kaisha Image processing apparatus, image processing method and storage medium
CN110751021A (zh) * 2019-09-03 2020-02-04 北京迈格威科技有限公司 图像处理方法、装置、电子设备和计算机可读介质
CN111160569A (zh) * 2019-12-30 2020-05-15 第四范式(北京)技术有限公司 基于机器学习模型的应用开发方法、装置及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MULTI-SCALE DEEP RESIDUAL LEARNING-BASED SINGLE IMAGE HAZE REMOV: "Multi-Scale Deep Residual Learning-Based Single Image Haze Removal via Image Decomposition", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117237393A (zh) * 2023-11-06 2023-12-15 深圳金语科技有限公司 基于流媒体后视镜的图像处理方法、装置及计算机设备
CN117237393B (zh) * 2023-11-06 2024-05-17 深圳金语科技有限公司 基于流媒体后视镜的图像处理方法、装置及计算机设备

Also Published As

Publication number Publication date
CN113850186A (zh) 2021-12-28
CN115114963B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN109801256B (zh) 一种基于感兴趣区域和全局特征的图像美学质量评估方法
US7983486B2 (en) Method and apparatus for automatic image categorization using image texture
JP4991923B2 (ja) 画像処理方法及び装置
CN113112519B (zh) 基于感兴趣目标分布的关键帧筛选方法
CN107944403B (zh) 一种图像中的行人属性检测方法及装置
CN108182421A (zh) 视频分割方法和装置
CN106157330B (zh) 一种基于目标联合外观模型的视觉跟踪方法
WO2019197021A1 (en) Device and method for instance-level segmentation of an image
CN111402298A (zh) 基于目标检测与轨迹分析的粮库视频数据压缩方法
CN115761240B (zh) 一种混沌反向传播图神经网络的图像语义分割方法及装置
CN112906614A (zh) 基于注意力指导的行人重识别方法、装置及存储介质
CN114155213A (zh) 基于主动学习的芯片缺陷检测方法和装置
CN115114963B (zh) 基于卷积神经网络的智能流媒体视频大数据分析方法
CN112613349A (zh) 基于深度混合卷积神经网络的时序动作检测方法及装置
Khoshboresh-Masouleh et al. A deep multi-modal learning method and a new RGB-depth data set for building roof extraction
Mseddi et al. Real-time scene background initialization based on spatio-temporal neighborhood exploration
Goldmann et al. Towards fully automatic image segmentation evaluation
CN115909392A (zh) 一种基于宠物设备平台的联合目标检测识别方法
CN115761647A (zh) 基于计算机视觉的变电站内物体运动轨迹检测方法及系统
CN112949634B (zh) 一种铁路接触网鸟窝检测方法
CN115661188A (zh) 一种边缘计算平台下的道路全景目标检测跟踪方法
Prabakaran et al. Key frame extraction analysis based on optimized convolution neural network (ocnn) using intensity feature selection (ifs)
Shah et al. Real versus fake 4K-authentic resolution assessment
CN113313210A (zh) 用于数据处理的方法和设备
CN114139656B (zh) 一种基于深度卷积分析的图片归类方法及播控平台

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant