CN115278360A - 一种视频数据处理方法及电子设备 - Google Patents

一种视频数据处理方法及电子设备 Download PDF

Info

Publication number
CN115278360A
CN115278360A CN202210843748.2A CN202210843748A CN115278360A CN 115278360 A CN115278360 A CN 115278360A CN 202210843748 A CN202210843748 A CN 202210843748A CN 115278360 A CN115278360 A CN 115278360A
Authority
CN
China
Prior art keywords
video
type
class
feature
outputting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210843748.2A
Other languages
English (en)
Other versions
CN115278360B (zh
Inventor
王雨婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianyi Cloud Technology Co Ltd
Original Assignee
Tianyi Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianyi Cloud Technology Co Ltd filed Critical Tianyi Cloud Technology Co Ltd
Priority to CN202210843748.2A priority Critical patent/CN115278360B/zh
Publication of CN115278360A publication Critical patent/CN115278360A/zh
Application granted granted Critical
Publication of CN115278360B publication Critical patent/CN115278360B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440218Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by transcoding between formats or standards, e.g. from MPEG-2 to MPEG-4

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本申请提供了一种视频数据处理方法及电子设备,该方法包括:获取目标视频,将目标视频分割为n个视频块;将n个视频块分别传入共享层,输出n个视频块各自对应的特征图;将得到的n个特征图分别传入各自对应的内容感知特征调制层,输出n个特征图各自对应的特征矩阵;将n个特征图以及得到的n个特征矩阵传入累加层,输出目标矩阵;判定目标矩阵与原始视频矩阵之间的差异值是否小于预设阈值;若小于预设阈值,上传目标矩阵;若大于预设阈值,更新第一类参数与第二类参数。通过本申请实施例提供的技术方案,可以降低每个视频块的原始参数,减少了视频传输系统的存储成本与带宽成本,提升了用户体验。

Description

一种视频数据处理方法及电子设备
技术领域
本申请涉及视频处理技术领域,尤其涉及一种视频数据处理方法及电子设备。
背景技术
随着互联网的迅速发展,各种视频软件的不断更新,针对视频传输的需求日益增加。视频传输性能对用户体验质量(Quality of Experience,QoE)产生重大影响,在其过程中确保用户体验质量成为当下一项具有挑战性的工作。
传输的视频质量主要取决于服务器和客户端之间的带宽。但随着互联网视频的爆炸式增长,视频传输基本设施承受了巨大负担,导致用户体验质量不佳。对此,大量研究人员对视频传输方式进行了研究。
传统的视频传输采用卫星和专用有线网络等方式,但存在用户使用成本高昂、灵活性差等问题。而深度神经网络(Deep Neural Networks,DNN)具有非线性动力学系统,处理信息速度快,在图像处理、信号识别等领域中具有广泛应用。通过DNN可以提高视频传输的质量:首先将视频分割成块;其次将LR视频块和相应的内容感知模型传输到客户端;最后客户端运行模型推断以解析LR块。在这种方式下,在有限的网络宽带下用户可以获得更好的QoE。
然而,使用DNN训练分割好的视频块时,需对每个视频块进行单独的训练。当进行长视频传输时,需要大量的独立模型,这将影响视频传输系统的存储成本与带宽成本,降低了用户QoE。
发明内容
本申请提供了一种视频数据处理方法及电子设备,用以实现在视频传输减少视频传输系统的存储成本与带宽成本以及提升用户体验质量的效果。具体实现方案如下:
第一方面,本申请提供了一种视频数据处理方法,所述方法包括:
获取目标视频,将所述目标视频分割为n个视频块,其中,n为大于等于1的整数;
将所述n个视频块分别传入共享层,输出所述n个视频块各自对应的特征图;
将得到的n个特征图分别传入各自对应的内容感知特征调制层,输出所述n个特征图各自对应的特征矩阵;
将所述n个特征图以及得到的n个特征矩阵传入累加层,输出目标矩阵;
判定所述目标矩阵与原始视频矩阵之间的差异值是否小于预设阈值;
若小于预设阈值,上传所述目标矩阵;
若不小于预设阈值,更新第一类参数与第二类参数,其中,所述第一类参数为内容感知特征调制层的参数,所述第二类参数为共享层的参数。
通过将目标视频分割成n个视频块,并对这n个视频块输入共享层与内容感知特征调制层的处理过程,获得了更好的超分辨率性能,提升了用户体验质量。
在一种可能的设计中,将所述n个视频块分别传入共享层,包括:
将所述n个视频块分别传入n个增强深度超分辨率网络模型,输出所述n个视频块各自对应的特征图;
计算n个特征图相互之间的余弦距离;
在确定所有余弦距离在预设范围内后,将所述n个视频块分别传入共享层。
通过对上述n个视频块的处理过程,将模型的大小从n个增强深度超分辨率网络模型减少到1个共享增强深度超分辨率网络模型,降低了每个视频块的原始参数,减少了计算资源,以及减少了视频传输系统的存储成本与带宽成本。
在一种可能的设计中,将所述n个视频块分别传入共享层,输出所述n个视频块各自对应的特征图,包括:
将所述n个视频块分别传入第一类共享层,输出所述n个视频块各自对应的第一类特征图;
将得到的n个第一类特征图分别传入第二类共享层,输出所述n个第一类特征图各自对应的第二类特征图。
在一种可能设计中,将得到的n个特征图分别传入各自对应的内容感知特征调制层,输出所述n个特征图各自对应的特征矩阵,包括:
将所述n个特征图分别传入各自对应的第一类内容感知特征调制层,输出所述n个特征图各自对应的第一类特征矩阵;
将得到的n个第一类特征矩阵分别传入整流线性单元共享层,输出所述n个第一类特征矩阵各自对应的第二类特征矩阵;
将得到的n个第二类特征矩阵分别传入第三类共享层,输出所述n个第二类特征矩阵各自对应的第三类特征矩阵;
将得到的n个第三类特征矩阵分别传入各自对应的第二类内容感知特征调制层,输出所述n个第三类特征矩阵各自对应的第四类特征矩阵。
在一种可能设计中,更新第一类参数与第二类参数,包括:
计算所述n个视频块各自对应的内容感知特征调制层的第一类损失值,并记录所述第一类损失值;
根据所述第一类损失值更新所述视频块对应的内容感知特征调制层中的第一类参数;
根据所述n个视频块的第一类损失值计算所述n个视频块的第二类损失值;
根据所述第二类损失值更新第二类参数。
在一种可能设计中,所述第一类损失值的具体计算为:
Figure BDA0003751373650000031
其中,i表示第i个视频块,Li表示第i个视频块的第一类损失值,s表示一个视频块中第s个样本,S表示一个视频块中样本总数,
Figure BDA0003751373650000032
表示第i个视频块的第s个样本的原始帧,
Figure BDA0003751373650000041
表示第i个视频块的第s个样本的生成帧。
在一种可能设计中,所述第二类损失值的具体计算为:
Figure BDA0003751373650000042
其中,L表示所述n个视频块的总损失值,i表示第i个视频块,Li表示第i个视频块的第一类损失值。
在一种可能设计中,所述差异值的具体计算为:
Figure BDA0003751373650000043
其中,D表示目标矩阵与原始视频矩阵之间的差异值,i表示第i个视频块,s表示一个视频块中第s个样本,S表示一个视频块中样本总数,
Figure BDA0003751373650000044
表示第i个视频块的第s个样本的原始帧,
Figure BDA0003751373650000045
表示第i个视频块的第s个样本的生成帧。
第二方面,本申请还提供了一种视频数据处理系统,所述系统包括:
获取模块,用于获取目标视频,将所述目标视频分割为n个视频块,其中,n为大于等于1的整数;
特征图输出模块,用于将所述n个视频块分别传入共享层,输出所述n个视频块各自对应的特征图;
特征矩阵输出模块,用于将得到的n个特征图分别传入各自对应的内容感知特征调制层,输出所述n个特征图各自对应的特征矩阵;
联合模块,用于将所述n个特征图以及得到的n个特征矩阵传入累加层,输出目标矩阵;
处理模块,用于判定所述目标矩阵与原始视频矩阵之间的差异值是否小于预设阈值;
若小于预设阈值,上传所述目标矩阵;
若不小于预设阈值,更新第一类参数与第二类参数,其中,所述第一类参数为内容感知特征调制层的参数,所述第二类参数为共享层的参数。
在一种可能的设计中,所述特征图输出模块,具体用于将所述n个视频块分别传入n个增强深度超分辨率网络模型,输出所述n个视频块各自对应的特征图;
计算n个特征图相互之间的余弦距离;
在确定所有余弦距离在预设范围内后,将所述n个视频块分别传入共享层。
在一种可能的设计中,所述特征图输出模块,具体用于将所述n个视频块分别传入第一类共享层,输出所述n个视频块各自对应的第一类特征图;
将得到的n个第一类特征图分别传入第二类共享层,输出所述n个第一类特征图各自对应的第二类特征图。
在一种可能的设计中,所述特征矩阵输出模块,具体用于将所述n个特征图分别传入各自对应的第一类内容感知特征调制层,输出所述n个特征图各自对应的第一类特征矩阵;
将得到的n个第一类特征矩阵分别传入整流线性单元共享层,输出所述n个第一类特征矩阵各自对应的第二类特征矩阵;
将得到的n个第二类特征矩阵分别传入第三类共享层,输出所述n个第二类特征矩阵各自对应的第三类特征矩阵;
将得到的n个第三类特征矩阵分别传入各自对应的第二类内容感知特征调制层,输出所述n个第三类特征矩阵各自对应的第四类特征矩阵。
在一种可能的设计中,所述处理模块,具体用于计算所述n个视频块各自对应的内容感知特征调制层的第一类损失值,并记录所述第一类损失值;
根据所述第一类损失值更新所述视频块对应的内容感知特征调制层中的第一类参数;
根据所述n个视频块的第一类损失值计算所述n个视频块的第二类损失值;
根据所述第二类损失值更新第二类参数。
第三方面,本申请提供了一种电子设备,包括:
存储器,用于存放计算机程序;
处理器,用于执行所述存储器上所存放的计算机程序时,实现上述的一种视频数据处理方法步骤。
第四方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述的一种视频数据处理方法步骤。
上述第二方面至第四方面中的各个方面以及各个方面可能达到的技术效果请参照上述针对第一方面或第一方面中的各种可能方案可以达到的技术效果说明,这里不再重复赘述。
附图说明
图1为本申请提供的一种视频数据处理方法的流程图;
图2为不同增强深度超分辨率网络模型的特征图的示意图;
图3为余弦距离矩阵示意图;
图4为增强深度超分辨率网络模型训练过程示意图;
图5为本申请提供的一种视频数据处理系统的示意图;
图6为本申请提供的一种电子设备示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述。方法实施例中的具体操作方法也可以应用于装置实施例或系统实施例中。需要说明的是,在本申请的描述中“多个”理解为“至少两个”。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。A与B连接,可以表示:A与B直接连接和A与B通过C连接这两种情况。另外,在本申请的描述中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。
下面结合附图,对本申请实施例进行详细描述。
当前,在视频传输时,首先会将视频分割成块;其次采用模型对每个视频块进行单独的训练;在本申请实施例中,该模型为增强深度超分辨率网络模型(enhanced deepsuper-resolution network,EDSR),然后通过每个EDSR模型进行推断解析视频块。在这种方式下,需要大量的独立EDSR模型训练视频块,比如说有n个视频块就对应有n个EDSR模型,因此,通过该方式就增大了计算量,消耗了视频传输系统的存储成本与带宽成本,降低了用户QoE。
因此,本申请实施例提供了一种视频传输的方法,通过该方法能够将每个视频块使用单独的一个EDSR优化为n个视频块使用共享的一个EDSR,减少计算资源,以及减少视频传输系统的存储成本与带宽成本,提升了用户QoE。
参照图1所示为本申请实施例提供的一种视频传输的方法流程图,该方法包括:
S1,获取目标视频,将目标视频分割为n个视频块;
在获取到目标视频之后,可以得到一个原始视频矩阵,随后会按照视频块的划分条件,将目标视频进行划分,得到n个视频块。在本申请实施例中,该划分条件可以是基于时间长度进行划分,也可以是按照数据量大小进行划分,在本申请实施例中并不限定具体的划分方式。
S2,将n个视频块分别传入共享层,输出n个视频块各自对应的特征图;
具体来讲,将步骤S1中获取到的n个视频块分别传入n个EDSR模型并对模型进行训练,得到n个训练好的模型EDSR1,EDSR2…EDSRn,并输出n个视频块各自对应的特征图,从而可以得到n个特征图。
这里需要说明的是,在本申请实施例中,可以对这n个模型EDSR1,EDSR2…EDSRn输入随机的超分重建数据集(DIVerse 2K resolution high quality images,DIV2K),将得到的DIV2K特征图进行可视化,从而确定各个DIV2K特征图之间的关系。比如说,如图2所示,图2中包含了n个视频块中的3个视频块分别对应的特征图,可以确定各个特征图之间存在较小差异。
进一步,计算n个特征图相互之间的余弦距离,这里需要说明是,每个特征图可以与n个特征图中的其他特征图之间进行余弦距离运算,因此每个特征图都对应n-1个余弦距离。比如说,如图3所示,图3中包含了n个特征图中的18个特征图之间两两对应的余弦距离,可以确定各个特征图之间的余弦距离较小。
随后,确定n个特征图相互之间的余弦距离在预设范围内,在本申请实施例中,该预设范围为一个较小的范围,也就是说,需要保证每个特征图之间余弦距离差异很小,从而在该基础上才能够通过一个线性函数来进行余弦距离之间的关系建模。
这里需要说明的是,在本申请实施例中,每个特征图的n-1个余弦距离均在预设范围内。此时,可以将步骤S1中获取到的n个视频块传入共享层,输出n个视频块各自对应的特征图。具体来讲,将n个视频块分别传入第一类共享层,输出n个视频块各自对应的第一类特征图,从而可以得到n个第一类特征图。
将n个第一类特征图分别传入第二类共享层,输出n个第一类特征图各自对应的第二类特征图,从而可以得到n个第二类特征图。
这里需要说明是,第一类共享层以及第二类共享层都是现有EDSR的特征图计算过程,在本申请实施例中就不再进行具体的说明。
S3,将得到的n个特征图分别传入各自对应的内容感知特征调制层,输出n个特征图各自对应的特征矩阵;
具体来讲,将步骤S2中得到的n个第二类特征图分别传入各自对应的第一类内容感知特征调制层(Content-aware Feature Modulation,CaFM),输出n个第二类特征图各自对应的第一类特征矩阵,从而得到n个第一类特征矩阵。在本申请实施例中,CaFM的具体计算公式如下:
CaFM(xj)=aj*xj+bj,0<j≤C
其中,xj表示第j个输入的第二类特征图,aj表示通道缩放比例,bj表示通道偏置,C表示特征通道的个数。
随后,将n个第一类特征矩阵分别传入整流线性单元(Rectified Linear Unit,Relu)共享层,输出n个第一类特征矩阵各自对应的第二类特征矩阵,从而得到n个第二类特征矩阵。
然后,将n个第二类特征矩阵分别传入第三类共享层,输出n个第二类特征矩阵各自对应的第三类特征矩阵,从而得到n个第三类特征矩阵。
进一步,将n个第三类特征矩阵分别传入各自对应的第二类CaFM,输出n个第三类特征矩阵各自对应的第四类特征矩阵,从而得到n个第四类特征矩阵。
S4,将n个特征图以及得到的n个特征矩阵传入累加层,输出目标矩阵;
这里需要说明的是,n个特征图包括步骤S2中得到的n个第一类特征图与n个第二类特征图;n个特征矩阵为步骤S3中在最后一类CaFM输出的n个第四类特征矩阵判;累加层表示n个第一类特征图、n个第二类特征图以及n个第四类特征矩阵按元素相加。
S5,判定目标矩阵与原始视频矩阵之间的差异值是否小于预设阈值;
具体来讲,记录步骤S4中输出的目标矩阵以及步骤S1中获取的原始视频矩阵,计算上述目标矩阵与上述原始矩阵之间的差异值。在本申请实施例中,差异值的具体计算公式如下:
Figure BDA0003751373650000091
其中,D表示目标矩阵与原始视频矩阵之间的差异值,i表示第i个视频块,s表示一个视频块中第s个样本,S表示一个视频块中样本总数,
Figure BDA0003751373650000092
表示第i个视频块的第s个样本的原始帧,
Figure BDA0003751373650000093
表示第i个视频块的第s个样本的生成帧。
进一步,将该差异值与预设阈值进行比较,若小于预设阈值,则执行步骤S6;若不小于预设阈值,则执行步骤S7。
S6,上传目标矩阵;
在上传目标矩阵后,输出视频。
S7,更新第一类参数与第二类参数。
这里需要说明的是,第一类参数为CaFM的参数,第二类参数为共享层的参数。
具体来讲,需要先计算n个视频块各自对应的CaFM的第一类损失值,并记录第一类损失值;根据第一类损失值更新视频块对应的CaFM中的第一类参数;根据n个视频块的第一类损失值计算n个视频块的第二类损失值;根据第二类损失值更新第二类参数。在本申请实施例中,第一类损失值的具体计算公式如下:
Figure BDA0003751373650000101
其中,Li表示第i个视频块的第一类损失值。
在本申请实施例中,第二类损失值的具体计算公式如下:
Figure BDA0003751373650000102
其中,L表示所述n个视频块的总损失值。
在本申请实施例中,通过第一类损失值更新第一类参数以及通过第二类损失值更新第二类损失函数的更新方式可以是基于动量优化算法的方式进行更新,也可以是按照自适应梯度算法的方式进行更新,在本申请实施例中并不限定具体的更新方式。
在更新第一类参数与第二类参数后,依次进行步骤S2、步骤S3、步骤S4、步骤S5,直至目标矩阵与原始视频矩阵之间的差异值满足预设阈值。
本申请所提出的基于超分辨率算法优化的神经网络视频传输方法,采用了DNN的过拟合性,可以将模型的大小从n个EDSR减少到1个共享EDSR;降低了每个视频块的原始参数,且获得了更好的超分辨率(Super-Resolution,SR)性能;减少了计算资源,以及减少了视频传输系统的存储成本与带宽成本,提升了用户QoE。
下面结合具体的应用过程对本申请技术方案做进一步的说明。
如图4所示为视频块的处理过程示意图,首先将原始视频分割为n个视频块;
将该n个视频块分别传入第一类共享层,输出n个视频块各自对应的第一类特征图;
将得到的n个第一类特征图分别传入第二类共享层,输出n个第一类特征图分别对应的第二类特征图;
将得到的n个第二类特征图分别传入各自对应的第一类CaFM,得到n个第二类特征图各自对应的第一类特征矩阵;
将得到的n个第一类特征矩阵分别传入Relu共享层,得到n个第一类特征矩阵各自对应的第二类特征矩阵;
将得到的n个第二类特征矩阵分别传入第三类共享层,得到n个第二类特征矩阵各自对应的第三类特征矩阵;
将得到的第三类特征矩阵分别传入各自对应的第二类CaFM,得到n个第三类特征矩阵各自对应的第四类特征矩阵;
将得到的n个第一类特征图、n个第二类特征图以及n个第四类特征矩阵传入加和层,输出目标矩阵。
通过上述视频块的处理过程,将模型的大小从n个EDSR减少到1个共享EDSR;降低了每个视频块的原始参数,且获得了更好的SR性能;减少了计算资源,以及减少了视频传输系统的存储成本与带宽成本,提升了用户QoE。
基于同一发明构思,本申请实施例中还提供了一种视频数据处理系统,如图5所示为本申请提供的一种视频数据处理系统的结构示意图,该系统包括:
获取模块501,用于获取目标视频,将所述目标视频分割为n个视频块,其中,n为大于等于1的整数;
特征图输出模块502,用于将所述n个视频块分别传入共享层,输出所述n个视频块各自对应的特征图;
特征矩阵输出模块503,用于将得到的n个特征图分别传入各自对应的内容感知特征调制层,输出所述n个特征图各自对应的特征矩阵;
联合模块504,用于将所述n个特征图以及得到的n个特征矩阵传入累加层,输出目标矩阵;
处理模块505,用于判定所述目标矩阵与原始视频矩阵之间的差异值是否小于预设阈值;
若小于预设阈值,上传所述目标矩阵;
若不小于预设阈值,更新第一类参数与第二类参数,其中,所述第一类参数为内容感知特征调制层的参数,所述第二类参数为共享层的参数。
在一种可能的设计中,特征图输出模块502,具体用于将所述n个视频块分别传入n个EDSR,输出所述n个视频块各自对应的特征图;
计算n个特征图相互之间的余弦距离;
在确定所有余弦距离在预设范围内后,将所述n个视频块分别传入共享层。
在一种可能的设计中,特征图输出模块502,具体用于将所述n个视频块分别传入第一类共享层,输出所述n个视频块各自对应的第一类特征图;
将得到的n个第一类特征图分别传入第二类共享层,输出所述n个第一类特征图各自对应的第二类特征图。
在一种可能的设计中,特征矩阵输出模块503,具体用于将所述n个特征图分别传入各自对应的第一类CaFM,输出所述n个特征图各自对应的第一类特征矩阵;
将得到的n个第一类特征矩阵分别传入Relu共享层,输出所述n个第一类特征矩阵各自对应的第二类特征矩阵;
将得到的n个第二类特征矩阵分别传入第三类共享层,输出所述n个第二类特征矩阵各自对应的第三类特征矩阵;
将得到的n个第三类特征矩阵分别传入各自对应的第二类CaFM,输出所述n个第三类特征矩阵各自对应的第四类特征矩阵。
在一种可能的设计中,处理模块505,具体用于计算所述n个视频块各自对应的CaFM的第一类损失值,并记录所述第一类损失值;
根据所述第一类损失值更新所述视频块对应的CaFM中的第一类参数;
根据所述n个视频块的第一类损失值计算所述n个视频块的第二类损失值;
根据所述第二类损失值更新第二类参数。
基于同一发明构思,本申请实施例中还提供了一种电子设备,所述电子设备可以实现前述视频数据处理系统的功能,参考图6,所述电子设备包括:
至少一个处理器601,以及与至少一个处理器601连接的存储器602,本申请实施例中不限定处理器601与存储器602之间的具体连接介质,图6中是以处理器601和存储器602之间通过总线600连接为例。总线600在图6中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线600可以分为地址总线、数据总线、控制总线等,为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。或者,处理器601也可以称为控制器,对于名称不做限制。
在本申请实施例中,存储器602存储有可被至少一个处理器601执行的指令,至少一个处理器601通过执行存储器602存储的指令,可以执行前文论述的视频数据处理方法。处理器601可以实现图5所示的视频数据处理系统中各个模块的功能。
其中,处理器601是该装置的控制中心,可以利用各种接口和线路连接整个该控制设备的各个部分,通过运行或执行存储在存储器602内的指令以及调用存储在存储器602内的数据,该装置的各种功能和处理数据,从而对该装置进行整体监控。
在一种可能的设计中,处理器601可包括一个或多个处理单元,处理器601可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器601中。在一些实施例中,处理器601和存储器602可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器601可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的视频数据处理方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器602作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器602可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器602是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器602还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
通过对处理器601进行设计编程,可以将前述实施例中介绍的视频数据处理方法所对应的代码固化到芯片内,从而使芯片在运行时能够执行图6所示的实施例的视频数据处理方法的步骤。如何对处理器601进行设计编程为本领域技术人员所公知的技术,这里不再赘述。
基于同一发明构思,本申请实施例还提供一种存储介质,该存储介质存储有计算机指令,当该计算机指令在计算机上运行时,使得计算机执行前文论述的视频数据处理方法。
在一些可能的实施方式中,本申请提供的视频数据处理方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在装置上运行时,程序代码用于使该控制设备执行本说明书上述描述的根据本申请各种示例性实施方式的视频数据处理方法中的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种视频数据处理方法,其特征在于,所述方法包括:
获取目标视频,将所述目标视频分割为n个视频块,其中,n为大于等于1的整数;
将所述n个视频块分别传入共享层,输出所述n个视频块各自对应的特征图;
将得到的n个特征图分别传入各自对应的内容感知特征调制层,输出所述n个特征图各自对应的特征矩阵;
将所述n个特征图以及得到的n个特征矩阵传入累加层,输出目标矩阵;
判定所述目标矩阵与原始视频矩阵之间的差异值是否小于预设阈值;
若小于预设阈值,上传所述目标矩阵;
若不小于预设阈值,更新第一类参数与第二类参数,其中,所述第一类参数为内容感知特征调制层的参数,所述第二类参数为共享层的参数。
2.如权利要求1所述的方法,其特征在于,将所述n个视频块分别传入共享层,包括:
将所述n个视频块分别传入n个增强深度超分辨率网络模型,输出所述n个视频块各自对应的特征图;
计算n个特征图相互之间的余弦距离;
在确定所有余弦距离在预设范围内后,将所述n个视频块分别传入共享层。
3.如权利要求1所述的方法,其特征在于,将所述n个视频块分别传入共享层,输出所述n个视频块各自对应的特征图,包括:
将所述n个视频块分别传入第一类共享层,输出所述n个视频块各自对应的第一类特征图;
将得到的n个第一类特征图分别传入第二类共享层,输出所述n个第一类特征图各自对应的第二类特征图。
4.如权利要求1所述的方法,其特征在于,将得到的n个特征图分别传入各自对应的内容感知特征调制层,输出所述n个特征图各自对应的特征矩阵,包括:
将所述n个特征图分别传入各自对应的第一类内容感知特征调制层,输出所述n个特征图各自对应的第一类特征矩阵;
将得到的n个第一类特征矩阵分别传入整流线性单元共享层,输出所述n个第一类特征矩阵各自对应的第二类特征矩阵;
将得到的n个第二类特征矩阵分别传入第三类共享层,输出所述n个第二类特征矩阵各自对应的第三类特征矩阵;
将得到的n个第三类特征矩阵分别传入各自对应的第二类内容感知特征调制层,输出所述n个第三类特征矩阵各自对应的第四类特征矩阵。
5.如权利要求1所述的方法,其特征在于,更新第一类参数与第二类参数,包括:
计算所述n个视频块各自对应的内容感知特征调制层的第一类损失值,并记录所述第一类损失值;
根据所述第一类损失值更新所述视频块对应的内容感知特征调制层中的第一类参数;
根据所述n个视频块的第一类损失值计算所述n个视频块的第二类损失值;
根据所述第二类损失值更新第二类参数。
6.如权利要求5所述的方法,其特征在于,所述第一类损失值的具体计算为:
Figure FDA0003751373640000021
其中,i表示第i个视频块,Li表示第i个视频块的第一类损失值,s表示一个视频块中第s个样本,S表示一个视频块中样本总数,
Figure FDA0003751373640000022
表示第i个视频块的第s个样本的原始帧,
Figure FDA0003751373640000023
表示第i个视频块的第s个样本的生成帧。
7.如权利要求5所述的方法,其特征在于,所述第二类损失值的具体计算为:
Figure FDA0003751373640000031
其中,L表示所述n个视频块的总损失值,i表示第i个视频块,Li表示第i个视频块的第一类损失值。
8.如权利要求1所述的方法,其特征在于,所述差异值的具体计算为:
Figure FDA0003751373640000032
其中,D表示目标矩阵与原始视频矩阵之间的差异值,i表示第i个视频块,s表示一个视频块中第s个样本,S表示一个视频块中样本总数,
Figure FDA0003751373640000033
表示第i个视频块的第s个样本的原始帧,
Figure FDA0003751373640000034
表示第i个视频块的第s个样本的生成帧。
9.一种电子设备,其特征在于,包括:
存储器,用于存放计算机程序;
处理器,用于执行所述存储器上所存放的计算机程序时,实现权利要求1-8中任一项所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-8任一项所述的方法步骤。
CN202210843748.2A 2022-07-18 2022-07-18 一种视频数据处理方法及电子设备 Active CN115278360B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210843748.2A CN115278360B (zh) 2022-07-18 2022-07-18 一种视频数据处理方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210843748.2A CN115278360B (zh) 2022-07-18 2022-07-18 一种视频数据处理方法及电子设备

Publications (2)

Publication Number Publication Date
CN115278360A true CN115278360A (zh) 2022-11-01
CN115278360B CN115278360B (zh) 2023-11-07

Family

ID=83768447

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210843748.2A Active CN115278360B (zh) 2022-07-18 2022-07-18 一种视频数据处理方法及电子设备

Country Status (1)

Country Link
CN (1) CN115278360B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103181169A (zh) * 2010-10-01 2013-06-26 高通股份有限公司 使用联合上下文模型对系数进行熵译码
CN106991445A (zh) * 2017-04-05 2017-07-28 重庆大学 一种基于深度学习的超声造影肿瘤自动识别与检测方法
US20200092552A1 (en) * 2018-09-18 2020-03-19 Google Llc Receptive-Field-Conforming Convolutional Models for Video Coding
WO2020062299A1 (zh) * 2018-09-30 2020-04-02 华为技术有限公司 一种神经网络处理器、数据处理方法及相关设备
CN112468827A (zh) * 2020-11-12 2021-03-09 鹏城实验室 视频获取方法、装置、设备及计算机可读存储介质
CN113378862A (zh) * 2021-07-09 2021-09-10 上海商汤科技开发有限公司 一种图像处理方法及装置、电子设备和存储介质
CN113424535A (zh) * 2019-02-13 2021-09-21 北京字节跳动网络技术有限公司 基于运动矢量预测表的历史更新
CN113469350A (zh) * 2021-07-07 2021-10-01 武汉魅瞳科技有限公司 一种适于npu的深度卷积神经网络加速方法和系统
CN113537254A (zh) * 2021-08-27 2021-10-22 重庆紫光华山智安科技有限公司 图像特征提取方法、装置、电子设备及可读存储介质
US20210409789A1 (en) * 2018-09-28 2021-12-30 Korea Advanced Institute Of Science And Technology Method and apparatus for transmitting adaptive video in real time using content-aware neural network
US20220019847A1 (en) * 2020-07-20 2022-01-20 Beijing Baidu Netcom Science And Technology Co., Ltd. Active interaction method, electronic device and readable storage medium
WO2022037228A1 (zh) * 2020-08-19 2022-02-24 鹏城实验室 一种基于智能边缘的svc视频的传输方法及智能边缘
US20220067386A1 (en) * 2020-08-27 2022-03-03 International Business Machines Corporation Deterministic learning video scene detection
CN114730331A (zh) * 2019-12-18 2022-07-08 华为技术有限公司 数据处理装置和数据处理方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103181169A (zh) * 2010-10-01 2013-06-26 高通股份有限公司 使用联合上下文模型对系数进行熵译码
CN106991445A (zh) * 2017-04-05 2017-07-28 重庆大学 一种基于深度学习的超声造影肿瘤自动识别与检测方法
US20200092552A1 (en) * 2018-09-18 2020-03-19 Google Llc Receptive-Field-Conforming Convolutional Models for Video Coding
US20210409789A1 (en) * 2018-09-28 2021-12-30 Korea Advanced Institute Of Science And Technology Method and apparatus for transmitting adaptive video in real time using content-aware neural network
WO2020062299A1 (zh) * 2018-09-30 2020-04-02 华为技术有限公司 一种神经网络处理器、数据处理方法及相关设备
CN112789627A (zh) * 2018-09-30 2021-05-11 华为技术有限公司 一种神经网络处理器、数据处理方法及相关设备
CN113424535A (zh) * 2019-02-13 2021-09-21 北京字节跳动网络技术有限公司 基于运动矢量预测表的历史更新
CN114730331A (zh) * 2019-12-18 2022-07-08 华为技术有限公司 数据处理装置和数据处理方法
US20220019847A1 (en) * 2020-07-20 2022-01-20 Beijing Baidu Netcom Science And Technology Co., Ltd. Active interaction method, electronic device and readable storage medium
WO2022037228A1 (zh) * 2020-08-19 2022-02-24 鹏城实验室 一种基于智能边缘的svc视频的传输方法及智能边缘
US20220067386A1 (en) * 2020-08-27 2022-03-03 International Business Machines Corporation Deterministic learning video scene detection
CN112468827A (zh) * 2020-11-12 2021-03-09 鹏城实验室 视频获取方法、装置、设备及计算机可读存储介质
CN113469350A (zh) * 2021-07-07 2021-10-01 武汉魅瞳科技有限公司 一种适于npu的深度卷积神经网络加速方法和系统
CN113378862A (zh) * 2021-07-09 2021-09-10 上海商汤科技开发有限公司 一种图像处理方法及装置、电子设备和存储介质
CN113537254A (zh) * 2021-08-27 2021-10-22 重庆紫光华山智安科技有限公司 图像特征提取方法、装置、电子设备及可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WEI LIU;SHANGBIN LI: "Human Motion Target Recognition Using Convolutional Neural Network and Global Constraint Block Matching", IEEE, vol. 8 *
高大鹏;朱建刚;: "多维度自适应3D卷积神经网络原子行为识别", 计算机工程与应用, no. 04 *

Also Published As

Publication number Publication date
CN115278360B (zh) 2023-11-07

Similar Documents

Publication Publication Date Title
CN111192292B (zh) 基于注意力机制与孪生网络的目标跟踪方法及相关设备
Xie et al. Spatially adaptive inference with stochastic feature sampling and interpolation
CN107730474B (zh) 图像处理方法、处理装置和处理设备
Yu et al. Inclusive gan: Improving data and minority coverage in generative models
CN112101169B (zh) 基于注意力机制的道路图像目标检测方法及相关设备
CN109949219B (zh) 一种超分辨率图像的重构方法、装置及设备
CN112232426B (zh) 目标检测模型的训练方法、装置、设备及可读存储介质
CN106855952B (zh) 基于神经网络的计算方法及装置
CN113132723B (zh) 一种图像压缩方法及装置
JP2023523029A (ja) 画像認識モデル生成方法、装置、コンピュータ機器及び記憶媒体
CN111488985A (zh) 深度神经网络模型压缩训练方法、装置、设备、介质
US20200389182A1 (en) Data conversion method and apparatus
CN111914908B (zh) 一种图像识别模型训练方法、图像识别方法及相关设备
CN114841327A (zh) 计算图的处理方法、装置、可读介质及电子设备
CN112163601A (zh) 图像分类方法、系统、计算机设备及存储介质
CN114610475A (zh) 一种智能资源编排模型的训练方法
DE102022128165A1 (de) Datenpfadschaltungsentwurf unter verwendung von reinforcement learning
CN113326851A (zh) 图像特征提取方法、装置、电子设备及存储介质
CN113780523B (zh) 图像处理方法、装置、终端设备及存储介质
CN112529767B (zh) 图像数据处理方法、装置、计算机设备和存储介质
US20220044109A1 (en) Quantization-aware training of quantized neural networks
CN115278360B (zh) 一种视频数据处理方法及电子设备
CN116957024A (zh) 利用神经网络模型进行推理的方法和装置
CN110781223A (zh) 数据处理方法及装置、处理器、电子设备及存储介质
CN107992821B (zh) 一种图像识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant