CN117495853B - 视频数据处理方法、设备及存储介质 - Google Patents

视频数据处理方法、设备及存储介质 Download PDF

Info

Publication number
CN117495853B
CN117495853B CN202311844174.1A CN202311844174A CN117495853B CN 117495853 B CN117495853 B CN 117495853B CN 202311844174 A CN202311844174 A CN 202311844174A CN 117495853 B CN117495853 B CN 117495853B
Authority
CN
China
Prior art keywords
original video
features
fusion
feature
video frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311844174.1A
Other languages
English (en)
Other versions
CN117495853A (zh
Inventor
吴伟
胡术明
李凯
陈颖
刘旭
余刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taobao China Software Co Ltd
Original Assignee
Taobao China Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taobao China Software Co Ltd filed Critical Taobao China Software Co Ltd
Priority to CN202311844174.1A priority Critical patent/CN117495853B/zh
Publication of CN117495853A publication Critical patent/CN117495853A/zh
Application granted granted Critical
Publication of CN117495853B publication Critical patent/CN117495853B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/30Scenes; Scene-specific elements in albums, collections or shared content, e.g. social network photos or video
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例提供一种视频数据处理方法、设备及存储介质。在本申请实施例中,针对原始视频数据进行下采样,在低分辨率尺度下提取全局特征,可以降低全局特征的计算复杂度;为了避免细节信息的丢失,针对原始视频数据进行网格化抽样,基于抽样后的视频帧进行细节特征提取,将提取的细节特征作为全局特征的补充;将全局特征和细节特征进行有效的融合,充分利用全局特征和细节特征之间的互补性;基于融合后的特征进行视频质量的评估,即能降低视频质量评估的计算复杂度,又能提高视频质量评估的准确性。

Description

视频数据处理方法、设备及存储介质
技术领域
本申请涉及视频处理技术领域,尤其涉及一种视频数据处理方法、设备及存储介质。
背景技术
随着内容社交平台的发展,越来越多的用户生成内容(UGC)视频被产生和分享。这些UGC视频包括个人日常生活、旅行经历、创意作品等各种类型。然而,由于UGC视频的产生方式和上传流程的多样性,往往难以获得对应的参考视频用于质量评估。
在这种情况下,无参考视频质量评估的意义就显得尤为重要。无参考视频质量评估方式通过提取原始视频的特征,如图像清晰度等来判断视频的质量,更加客观和准确。然而,现有方法在处理较高分辨率视频时,模型的计算复杂度较高,算力资源消耗较大。
发明内容
本申请的多个方面提供一种视频数据处理方法、设备及存储介质,用以降低模型的计算复杂度。
本申请实施例提供一种视频数据处理方法,包括:获取原始视频数据,原始视频数据包括多个原始视频帧;对多个原始视频帧分别下采样以得到多个第一目标视频帧,对多个第一目标视频帧进行特征提取,以得到多个原始视频帧的全局特征;对多个原始视频帧分别网格化抽样得到多个第二目标视频帧,对多个第二目标视频帧进行细节特征提取,以得到多个原始视频帧的细节特征;对多个原始视频帧的全局特征和细节特征进行特征融合,以得到多个原始视频帧对应的目标融合特征;根据多个原始视频帧对应的目标融合特征,生成原始视频数据的质量数据。
本申请实施例还提供一种电子设备,包括:存储器和处理器;存储器,用于存储计算机程序;处理器,与存储器耦合,用于执行计算机程序,以实现本申请实施例提供的视频数据处理方法中的各步骤。
本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,当计算机程序被处理器执行时,致使处理器实现本申请实施例提供的视频数据处理方法中的各步骤。
在本申请实施例中,针对原始视频数据进行下采样,在低分辨率尺度下提取全局特征,可以降低全局特征的计算复杂度;为了避免细节信息的丢失,针对原始视频数据进行网格化抽样,基于抽样后的视频帧进行细节特征提取,将提取的细节特征作为全局特征的补充;将全局特征和细节特征进行有效的融合,充分利用全局特征和细节特征之间的互补性;基于融合后的特征进行视频质量的评估,即能降低视频质量评估的计算复杂度,又能提高视频质量评估的准确性。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请一示例性实施例提供的视频数据处理方法的流程示意图;
图2a为本申请一示例性实施例提供的视频数据处理的架构示意图;
图2b为本申请另一示例性实施例提供的视频数据处理的架构示意图;
图3a为本申请一示例性实施例提供的提取全局特征的示意图;
图3b为本申请一示例性实施例提供的网格化抽样的示意图;
图3c为本申请一示例性实施例提供的提取细节特征的示意图;
图3d为本申请一示例性实施例提供的基于交叉注意力机制的特征融合的示意图;
图4为本申请一示例性实施例提供的视频数据处理装置的结构示意图;
图5为本申请一示例性实施例提供的电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。另外,本申请涉及的各种模型(包括但不限于语言模型或大模型)是符合相关法律法规和标准规定的。
目前,无参考视频质量评估算法使用原始分辨率的视频数据作为输入,提取原始视频帧的全局特征用于后续视频质量评估,以避免丢失视频细节信息。然而,这种处理会导致较高的计算复杂度,对于高分辨率视频数据而言更为明显。
在本申请实施例中,针对原始视频数据进行下采样,在低分辨率尺度下提取全局特征,可以降低全局特征的计算复杂度;为了避免细节信息的丢失,针对原始视频数据进行网格化抽样,基于抽样后的视频帧进行细节特征提取,将提取的细节特征作为全局特征的补充;将全局特征和细节特征进行有效的融合,充分利用全局特征和细节特征之间的互补性;基于融合后的特征进行视频质量的评估,即能降低视频质量评估的计算复杂度,又能提高视频质量评估的准确性。
以下结合附图,对本申请实施例提供的一种解决方案进行详细说明。
图1为本申请一示例性实施例提供的视频数据处理方法的流程示意图。如图1所示,该方法包括:
101、获取原始视频数据,原始视频数据包括多个原始视频帧;
102、对多个原始视频帧分别下采样以得到多个第一目标视频帧,对多个第一目标视频帧进行特征提取,以得到多个原始视频帧的全局特征;
103、对多个原始视频帧分别网格化抽样得到多个第二目标视频帧,对多个第二目标视频帧进行细节特征提取,以得到多个原始视频帧的细节特征;
104、对多个原始视频帧的全局特征和细节特征进行特征融合,以得到多个原始视频帧对应的目标融合特征;
105、根据多个原始视频帧对应的目标融合特征,生成原始视频数据的质量数据。
在本实施例中,原始视频数据具有原始分辨率,原始分辨率可以包含但不限于:360p(480×360)、480p(640×480)、720p(1280×720)、1080p(1920×1080)、2K(2560×1440)、4K(3840×2160)或8K(7680×4320)等。分辨率中的p表示视频像素的总行数,例如1080P则表示视频总共有1080行像素数,720p表示视频总共有720行像素数等。
在本实施例中,图2a提供一种视频数据处理的架构图,该视频数据处理架构包括:第一特征提取网络、第二特征提取网络、特征融合模块和质量评估模块。下面进行详细介绍。
在本实施例中,为了降低模型的计算复杂度,对多个原始视频帧分别下采样以得到多个第一目标视频帧。下采样是对多个原始视频帧中包含的像素点进行下采样,得到分辨率较低的视频帧的过程。其中,第一目标视频帧的分辨率并不限定,针对不同原始视频帧进行下采样得到的第一目标视频帧的分辨率可以相同,也可以不相同。例如,针对分辨率为4K的原始视频帧进行下采样得到的第一目标视频帧的分辨率可以是480p;针对分辨率为2K的原始视频帧进行下采样得到的第一目标视频帧的分辨率可以是360p;或者,针对任一分辨率的原始视频帧进行下采样均得到分辨率是256p的第一目标视频帧。其中,下采样模块可以实现为池化层(pooling)或卷积层等。优选地,第一特征提取网络可以将具有不同原始分辨率的原始视频帧下采样到同一个相对较低的分辨率,例如360p,以降低特征的计算复杂度。
在本实施例中,利用第一特征提取网络对较低分辨率的多个第一目标视频帧进行特征提取,以得到多个原始视频帧的全局特征。其中,全局特征可以是语义特征,例如,多个原始视频帧的语义特征可以包含但不限于:第一目标视频帧中的颜色、纹理以及形状等特征,以及第一目标视频帧中包含物体的大小和位置等特征。第一特征提取网络可以是任何能够对多个第一目标视频帧进行特征提取,以得到多个原始视频帧的全局特征的模型。例如,第一特征提取网络可以包含但不限于:Swin Transformer V2,AlexNet、ConvNext、高效神经网络(EfficientNet)模型或ResNet。Swin Transformer V2是一种超大规模视觉模型,Swin Transformer V2通过对输入的第一目标视频帧进行分块,得到多个图像块,然后对每个图像块进行特征提取,最后将每个图像块得到的特征拼接起来形成原始视频帧的全局特征。AlexNet是一种卷积神经网络,包括卷积层、池化层和全连接层等。ConvNext是一种预训练模型,基于数据集进行预训练,使用迁移学习技术,在多个下游任务上实现了较优的性能,例如特征提取等。EfficientNet是一种结合了深度、宽度和分辨率的神经网络结构,该网络在训练中具有高精度、低复杂度和快速收敛速度等特性。
需要说明的是,上述第一特征提取网络是针对较低分辨率的第一目标视频帧进行特征提取,提取的全局特征可能会丢失相关细节特征,影响后续视频质量评估的准确性。基于此,为了弥补细节特征的丢失,本申请实施例提供基于网格化抽样的第二特征提取网络,用于提取细节特征,将细节特征作为全局特征的补充,从而提高后续视频质量评估的准确性。其中,网格化抽样是通过在原始视频帧上画网格并进行随机抽样的特征抽取方式,网格化抽样会保持保留原始视频帧的局部细节,有利于从视频帧中提取质量相关的细节特征。
在本实施例中,可以对多个原始视频帧分别网格化抽样得到多个第二目标视频帧。利用第二特征提取网络对多个第二目标视频帧进行细节特征提取,以得到多个原始视频帧的细节特征。其中,视频帧的细节特征是指视频帧中的灰度变化情况,包含了视频帧的孤立点、细线或画面突变等,常见的细节特征包括边缘信息、纹理信息或突变信息等。第二特征提取网络可以包含但不限于:Swin Transformer V2、卷积神经网络(ConvolutionalNeural Network,CNN)、循环神经网络(Recurrent Neural Networks,RNN)或Transformer模型等。Transformer是一种基于自注意力机制的深度学习模型。Swin Transformer V2通过图像分块(Patch-Partition)和合并处理(Patch-Merging)进行多尺度特征提取,从而提取细节特征。
为了更好地融合提取到的全局特征与细节特征,本实施例还提供特征融合模块,用于对多个原始视频帧的全局特征和细节特征进行有效特征融合,以得到多个原始视频帧对应的目标融合特征,目标融合特征可以同时包含原始图像帧中的局部细节和全局语义,有利于提升视频质量评估的准确率。其中,凡是能够实现特征融合的模块均适用于本申请实施例。例如,特征融合模块可以包含但不限于如下方式:图像金字塔(Featurized imagepyramid)模型、密集卷积网络(Densely connected convolutional networks,DenseNet)或U-Net网络等。其中,U-Net是一种用于图像分割的神经网络模型,U-Net的特征融合方式是拼接,将不同通道(channel)的特征在通道维度拼接在一起,形成更厚的特征。
本实施例还提供质量评估模块,用于根据多个原始视频帧对应的目标融合特征,生成原始视频数据的质量数据。在本申请实施例中,质量数据是指质量评估模块输出的能够表征原始视频数据的质量的融合特征值,并不限定该质量数据的取值大小和数量。
其中,可以通过斯皮尔曼秩相关系数(Spearman Rank-Order CorrelationCoefficient,SROCC)来评估本申请实施例给出的原始视频数据的质量数据的准确度,为便于描述和区分,将采用本申请实施例提供的视频数据处理方法得到的原始视频数据对应的质量数据称为预测质量数据,将通过用户该原始视频数据进行主观打分得到的原始视频数据的质量数据称为主观质量数据,SROCC表示本申请实施例给出的原始视频的预测质量数据与用户对该原始视频数据进行主观打分得到的主观质量数据之间的相关性,相关性越高,说明本申请实施例给出的质量数据越接近主观质量数据,准确率越高。
在本申请实施例中,针对原始视频数据进行下采样,在低分辨率尺度下提取全局特征,可以降低全局特征的计算复杂度。同时,为了避免细节信息的丢失,针对原始视频数据进行网格化抽样,基于抽样后的视频帧进行细节特征提取,将提取的细节特征作为全局特征的补充。将全局特征和细节特征进行有效的融合,充分利用全局特征和细节特征之间的互补性。基于融合后的特征进行视频质量的评估,即能降低视频质量评估的计算复杂度,又能提高视频质量评估的准确性。
进一步,对于处理高分辨率的原始视频数据的质量评估尤其重要,可以减少计算资源的需求,并且更适用于实时应用场景。
在一可选实施例中,如图2b所示,本申请实施例话提供一种视频处理架构,该架构包括:基于指定分辨率的第一特征提取网络、基于网格化抽样的第二特征提取网络、基于交叉注意力机制的特征融合模块以及基于时空融合的质量评估模块。下面进行举例说明。
1)基于指定分辨率的第一特征提取网络:
在一可选实施例中,对多个原始视频帧分别下采样以得到多个第一目标视频帧的实施方式,包括:将多个原始视频帧分别下采样至第一指定分辨率,以得到多个第一目标视频帧;其中,第一指定分辨率小于原始视频数据具有的原始分辨率。例如,第一指定分辨率可以是256×256或128×128等。
在一可选实施例中,提供一种利用第一特征提取网络对多个第一目标视频帧进行特征提取,以得到多个原始视频帧的全局特征的实施方式。由于具有较强的全局特征的整合能力,第一特征提取网络可以实现为Swin Transformer V2模型。将多个第一目标视频帧分别输入第一特征提取网络(如,Swin Transformer V2)进行多尺度特征的提取,并获取第一特征提取网络中最后多个(如,2个)转换模块(如,Transformer模块)输出的特征图,作为多个第一目标视频帧各自的多尺度特征图;将多个第一目标视频帧各自的多尺度特征图进行拼接,得到多个原始视频帧的全局特征。
例如,每个原始视频帧的全局特征表示为:。其中,指的是第/>个第一目标视频帧,/>和/>表示Swin Transformer V2的最后两层Transformer模块输出的特征图,/>表示特征图拼接操作,这里Swin Transformer V2是在面向识别任务的数据集(ImageNet)上预先训练得到的模型。在此说明,在本申请实施例中,可以直接使用预训练得到的Swin Transformer V2模型,也可以借助于垂直领域的样本数据对预训练得到的Swin Transformer V2模型进行微调,得到适用于本申请实施例的模型,对此不做限定。
在图3a中示例性的展示了一种提取全局特征的示意图,但并不限于此。
2)基于网格化抽样的第二特征提取网络:
在一可选实施例中,对多个原始视频帧分别网格化抽样得到多个第二目标视频帧的实施方式,包括:针对任一原始视频帧,将原始视频帧切分为多个图像区域;从多个图像区域中分别抽取图像块;并将抽取到的图像块进行拼接得到一个第二目标视频帧。第二目标视频帧的分辨率与原始视频帧的分辨率可以相同,也可以不相同。优选地,从多个图像区域中分别随机抽取具有相同分辨率的图像块,且图像块的分辨率使得拼接得到的第二目标视频帧的分辨率与原始视频帧的分辨率相同。其中,将原始视频帧切分为N×N个图像区域或N×M个图像区域,N,M为正整数;抽取图像块的分辨率可以是p×p,即长宽像素点数量相同,或者抽取图像块的分辨率可以是p×m,即,长宽像素点数量不相同,p,m为正整数。
例如,每一个原始视频帧先经过空域上的网格化抽样,如图3b所示。具体地,将每一个原始视频帧/>均切分成/>个大小相同的图像区域(如矩形区域),表示为集合/>,其中,/>表示第/>行第/>列的图像区域。每个原始视频帧的高度、宽度分别用像素点的数量H和W表示,/>可以表示为如下:
其中,为了保留原始视频数据在空域上的细节信息,在每块的图像区域内随机抽取分别率为的图像块,得到/>个分辨率为p×p的图像块,将这N×N个图像块进行拼接,得到分辨率为pN×pN的第二目标视频帧。在图3b中以N×N实现为8×8为例进行图示,但并不限于此。
在一可选实施例中,可以采用视频质量评估数据集对第二特征提取网络进行模型训练,在训练过程中,可以更新第二特征提取网络的模型参数,例如,更新网络权重,从而得到能够保留质量相关的局部细节特征的网络权重。模型训练过程:获取多个原始样本图像,针对任一原始样本图像,将原始样本图像切分为多个样本图像区域,从多个样本图像区域中分别获取样本图像块,将样本图像块进行拼接,以得到目标样本图像;利用多个目标样本图像对已有特征提取网络进行训练,以得到第二特征提取网络。例如,获取多个原始样本图像,将多个原始样本图像分成N×N个样本图像区域(如,网格区域),从每个网格区域中抽取p×p的图像块,可以得到N×N个分辨率为p×p的图像块,将N×N个分辨率为p×p的图像块拼接成目标样本图像,将目标样本图像输入至已有特征提取网络(如,Swin TransformerV2模型)进行训练,用原始样本图像的视频质量作标签(label)计算模型损失函数(loss),不断更新迭代,直到得到符合要求的第二特征提取网络。
图3c示例性的展示了一种提取细节特征的示意图,但并不限于此。
3)基于交叉注意力机制的特征融合模块:
为了进一步提高视频质量评估的准确性,在一可选实施例中,特征融合模块实现为基于交叉注意力机制的特征融合模型,可以基于交叉注意力机制,对多个原始视频帧的全局特征和细节特征进行特征融合,以得到多个原始视频帧对应的目标融合特征。其中,交叉注意机制是相对传统注意力机制而言的,传统的注意力机制主要用于捕捉输入特征内部的相关性,而交叉注意机制则进一步考虑了不同特征之间的关联。通过引入注意力机制可以自适应地预测补充细节后的全局特征,充分利用全局特征和细节特征之间的互补性,提高视频质量评估的准确性。
可选地,将多个原始视频帧的全局特征和细节特征输入基于交叉注意力机制的特征融合网络;在特征融合网络中,针对任一原始视频帧,将原始视频帧的细节特征映射为值矩阵和键矩阵,将原始视频帧的全局特征映射为查询矩阵;根据查询矩阵和键矩阵,生成原始视频帧对应的交叉注意力权重,并根据交叉注意力权重矩阵和值矩阵,生成全局特征对应的细节缺失特征;将细节缺失特征与全局特征进行融合,以得到原始视频帧对应的目标融合特征。图3d示例性的展示了一种基于交叉注意力机制,对多个原始视频帧的全局特征和细节特征进行特征融合,以得到多个原始视频帧对应的目标融合特征的实施方式,但并不限于此。
例如,可以通过全连接层或卷积层等将原始视频帧的细节特征映射为值矩阵和键矩阵,将细节特征用表示,其中,R表示整个特征空间,B表示批处理大小,M表示图像块的数目(如,8×8),C特征通道数,k表示第k个第二目标视频帧的细节特征,值矩阵用/>表示,键矩阵用/>表示。细节特征/>与值矩阵/>和键矩阵/>之间的映射关系表示为:/>,/>
又例如,可以通过卷积层或全连接层等将原始视频帧的全局特征映射为查询矩阵。全局特征用表示,R表示整个特征空间,B表示批处理大小,M表示图像块的数目(如,8×8),C特征通道数,k表示第k个第一目标视频帧的全局特征,查询矩阵用表示,原始视频帧的全局特征与查询矩阵之间的映射关系表示为:/>。其中,/>、/>和/>是已知的权重矩阵,权重矩阵/>、/>和/>可以在基于交叉注意力机制的特征融合模型的训练过程中学习到的。模型训练过程和推理过程相似,采用视频质量评估数据集中的原始样本图像对模型进行训练,将全局特征和局部细节特征输入已有基于交叉注意力机制的特征融合模型,得到训练融合特征,将原始样本的样本融合特征作为标注信息,计算训练融合特征与样本融合特征计算损失函数,不断迭代,直至训练得到符合要求的模型,并获取权重矩阵/>、权重矩阵/>和权重矩阵/>
进一步可选地,可以计算查询矩阵和键矩阵的点积,对点积结果进行归一化处理,以得到原始视频帧对应的交叉注意力权重。例如,计算查询矩阵和键矩阵/>的点积,对点积结果进行归一化处理,得到原始视频帧对应的交叉注意力权重矩阵,SoftMax表示进行注意力权重归一化处理。
进一步可选地,将交叉注意力权重矩阵和值矩阵相乘,得到全局特征的细节缺失特征。例如,全局特征的细节缺失特征
进一步可选地,将细节缺失特征与全局特征相加,得到初始融合特征;将初始融合特征经过线性层和激活函数层,得到原始视频帧对应的目标融合特征。例如,初始融合特征为细节缺失特征与全局特征相加,即,目标融合特征,其中,/>为线性层,/>为激活函数层,具体是修正线性单元激活函数。又例如,可以为细节缺失特征与全局特征赋予相应的权重后再相加,例如,为细节缺失特征和全局特征分别赋予的权重为0.4和0.6,目标融合特征为/>,对此不作限定。
4)基于时空融合的质量评估模块:
在一可选实施例中,根据多个原始视频帧对应的目标融合特征,获取多个融合特征对,一个融合特征对包括相互对应的时域融合特征和空域融合特征;根据多个融合特征对中相互对应的时域融合特征和空域融合特征,生成多个时空融合特征;根据多个时空融合特征,生成原始视频数据的质量数据。
其中,根据多个原始视频帧对应的目标融合特征,获取多个融合特征对的实施方式并不限定。例如,可以每隔设定帧数(如,2帧、3帧或4帧等),计算目标融合特征的差值的绝对值,得到时域融合特征;相应地,可以将每隔设定帧数(如,2帧、3帧或4帧等)的目标融合特征直接作为空域融合特征。优选地,将相邻原始视频帧对应的目标融合特征的差值的绝对值分别作为时域融合特征,并将奇数帧或偶数帧对应的目标融合特征分别作为空域融合特征;对应相同奇数帧或偶数帧的时域融合特征和空域融合特征形成一个融合特征对。例如,针对16个原始视频帧对应16个目标融合特征,分别用B1,B2,B3,…,B15,B16表示;可以分别计算B1和B2,B3和B4,…,B15和B16之间的目标融合特征的差值的绝对值,得到8个时域融合特征分别为:C1、C2、C3,…,C7和C8;将奇数帧B1,B3,B5,…,B15或偶数帧B2,B4,B6,…,B16的目标融合特征分别作为空域融合特征,即可以得到8个空域融合特征。例如,多个融合特征对可以表示为(C1,B1),(C2,B3)、…,(C7,B13)和(C7,B15),或者多个融合特征对可以表示为:(C1,B2),(C2,B4)、…,(C7,B14)和(C7,B16)。
可选地,可以对目标融合特征在空域进行平均池化,得到目标融合特征/>对应的特征向量/>。可以基于多个原始视频帧对应的目标融合特征对应的特征向量/>,生成原始视频数据的质量数据。
偶数帧的特征向量用表示,奇数帧的特征向量用/>表示,k为0和正整数,时域上的特征波动,即时域融合特征/>表示为:,融合特征对可以表示为/>
可选地,针对任一时空融合特征对,经过多层感知机(Multi-Layer Perceptron,MLP)进行回归,以得到多个帧级质量数据,例如,帧级质量数据表示为。其中,根据多个帧级质量数据确定原始视频帧的质量数据的实施方式并不限定。例如,根据多个帧级质量数据的数量,对多个帧级质量数据求平均,得到原始视频帧的质量数据。如,原始视频帧的质量数据表示为:,其中,T//2表示整除。又例如,可以从多个帧级质量数据中选择质量数据的最大值、最小值或众数值等作为原始视频帧的质量数据。
需要说明的是,上述实施例所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤101至步骤103的执行主体可以为设备;又比如,步骤101和102的执行主体可以为设备,步骤103的执行主体可以为设备B;等等。
另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
图4为本申请示例性实施例提供的一种视频数据处理装置的结构示意图,如图4所示,该装置包括:获取模块41、第一特征提取模块42、第二特征提取模块43、特征融合模块44和质量评估模块45。
获取模块,用于获取原始视频数据,原始视频数据包括多个原始视频帧;
第一特征提取模块,用于对多个原始视频帧分别下采样以得到多个第一目标视频帧,对多个第一目标视频帧进行特征提取,以得到多个原始视频帧的全局特征;
第二特征提取模块,用于对多个原始视频帧分别网格化抽样得到多个第二目标视频帧,对多个第二目标视频帧进行细节特征提取,以得到多个原始视频帧的细节特征;
特征融合模块,用于对多个原始视频帧的全局特征和细节特征进行特征融合,以得到多个原始视频帧对应的目标融合特征;
质量评估模块,用于根据多个原始视频帧对应的目标融合特征,生成原始视频数据的质量数据。
在一可选实施例中,第一特征提取模块,具体用于:将多个原始视频帧分别下采样至第一指定分辨率,以得到多个第一目标视频帧;其中,第一指定分辨率小于原始视频数据具有的原始分辨率。
在一可选实施例中,第二特征提取模块具体用于:针对任一原始视频帧,将原始视频帧切分为多个图像区域;从多个图像区域中分别抽取图像块,并将抽取到的图像块进行拼接得到一个第二目标视频帧。
可选地,第二特征提取模块具体用于:从多个图像区域中分别随机抽取具有相同分辨率的图像块,且图像块的分辨率使得第二目标视频帧的分辨率与原始视频帧的分辨率相同。
在一可选实施例中,该装置还包括:处理模块和训练模块。获取模块,还用于获取多个原始样本图像;处理模块,用于针对任一原始样本图像,将原始样本图像切分为多个样本图像区域,从多个样本图像区域中分别获取样本图像块,将样本图像块进行拼接,以得到目标样本图像;训练模块,用于利用多个目标样本图像对已有特征提取网络进行训练,以得到第二特征提取网络。
在一可选实施例中,特征融合模块,具体用于:基于交叉注意力机制,对多个原始视频帧的全局特征和细节特征进行特征融合,以得到多个原始视频帧对应的目标融合特征。
可选地,特征融合模块,具体用于:将多个原始视频帧的全局特征和细节特征输入基于交叉注意力机制的特征融合网络;在特征融合网络中,针对任一原始视频帧,将原始视频帧的细节特征映射为值矩阵和键矩阵,将原始视频帧的全局特征映射为查询矩阵;根据查询矩阵和键矩阵,生成原始视频帧对应的交叉注意力权重,并根据交叉注意力权重矩阵和值矩阵,生成全局特征对应的细节缺失特征;将细节缺失特征与全局特征进行融合,以得到原始视频帧对应的目标融合特征。
进一步可选地,特征融合模块具体用于:计算查询矩阵和键矩阵的点积,对点积结果进行归一化处理,以得到原始视频帧对应的交叉注意力权重矩阵。
进一步可选地,特征融合模块具体用于:将交叉注意力权重矩阵和值矩阵相乘,得到全局特征的细节缺失特征。
进一步可选地,特征融合模块具体用于:将细节缺失特征与全局特征相加,得到初始融合特征;将初始融合特征经过线性层和激活函数层,得到原始视频帧对应的目标融合特征。
进一步可选地,质量评估模块具体用于:根据多个原始视频帧对应的目标融合特征,获取多个融合特征对,一个融合特征对包括相互对应的时域融合特征和空域融合特征;根据多个融合特征对中相互对应的时域融合特征和空域融合特征,生成多个时空融合特征;根据多个时空融合特征,生成原始视频数据的质量数据。
进一步可选地,质量评估模块具体用于:将相邻原始视频帧对应的目标融合特征的差值的绝对值分别作为时域融合特征,并将奇数帧或偶数帧对应的目标融合特征分别作为空域融合特征;对应相同奇数帧或偶数帧的时域融合特征和空域融合特征形成一个融合特征对。
进一步可选地,质量评估模块具体用于:针对任一时空融合特征对,经过多层感知机MLP进行回归,以得到多个帧级质量数据;根据多个帧级质量数据的数量,对多个帧级质量数据求平均,得到原始视频帧的质量数据。关于本申请实施例提供的图4所示装置中各步骤的详细实施方式以及有益效果已经在前述实施例中进行了详细描述,此处将不做详细阐述说明。
图5为本申请示例性实施例提供的一种电子设备的结构示意图,如图5所示,该设备包括:存储器54和处理器55。
存储器54,用于存储计算机程序,并可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令等。
处理器55,与存储器54耦合,用于执行存储器54中的计算机程序,以用于:获取原始视频数据,原始视频数据包括多个原始视频帧;对多个原始视频帧分别下采样以得到多个第一目标视频帧,对多个第一目标视频帧进行特征提取,以得到多个原始视频帧的全局特征;对多个原始视频帧分别网格化抽样得到多个第二目标视频帧,对多个第二目标视频帧进行细节特征提取,以得到多个原始视频帧的细节特征;对多个原始视频帧的全局特征和细节特征进行特征融合,以得到多个原始视频帧对应的目标融合特征;根据多个原始视频帧对应的目标融合特征,生成原始视频数据的质量数据。
在一可选实施例中,处理器55在对多个原始视频帧分别下采样以得到多个第一目标视频帧时,具体用于:将多个原始视频帧分别下采样至第一指定分辨率,以得到多个第一目标视频帧;其中,第一指定分辨率小于原始视频数据具有的原始分辨率。
在一可选实施例中,处理器55在对多个原始视频帧分别网格化抽样得到多个第二目标视频帧时,具体用于:针对任一原始视频帧,将原始视频帧切分为多个图像区域;从多个图像区域中分别抽取图像块,并将抽取到的图像块进行拼接得到一个第二目标视频帧。
可选地,处理器55在从多个图像区域中分别抽取图像块时,具体用于:从多个图像区域中分别随机抽取具有相同分辨率的图像块,且图像块的分辨率使得第二目标视频帧的分辨率与原始视频帧的分辨率相同。
在一可选实施例中,处理器55还用于:获取多个原始样本图像;针对任一原始样本图像,将原始样本图像切分为多个样本图像区域,从多个样本图像区域中分别获取样本图像块,将样本图像块进行拼接,以得到目标样本图像;利用多个目标样本图像对已有特征提取网络进行训练,以得到第二特征提取网络。
在一可选实施例中,处理器55在对多个原始视频帧的全局特征和细节特征进行特征融合,以得到多个原始视频帧对应的目标融合特征时,具体用于:基于交叉注意力机制,对多个原始视频帧的全局特征和细节特征进行特征融合,以得到多个原始视频帧对应的目标融合特征。
可选地,处理器55在基于交叉注意力机制,对多个原始视频帧的全局特征和细节特征进行特征融合,以得到多个原始视频帧对应的目标融合特征时,具体用于:将多个原始视频帧的全局特征和细节特征输入基于交叉注意力机制的特征融合网络;在特征融合网络中,针对任一原始视频帧,将原始视频帧的细节特征映射为值矩阵和键矩阵,将原始视频帧的全局特征映射为查询矩阵;根据查询矩阵和键矩阵,生成原始视频帧对应的交叉注意力权重,并根据交叉注意力权重矩阵和值矩阵,生成全局特征对应的细节缺失特征;将细节缺失特征与全局特征进行融合,以得到原始视频帧对应的目标融合特征。
进一步可选地,处理器55在根据查询矩阵和键矩阵,生成原始视频帧对应的交叉注意力权重时,具体用于:计算查询矩阵和键矩阵的点积,对点积结果进行归一化处理,以得到原始视频帧对应的交叉注意力权重矩阵。
进一步可选地,处理器55在根据交叉注意力权重矩阵和值矩阵,生成原始视频帧的细节缺失特征时,具体用于:将交叉注意力权重矩阵和值矩阵相乘,得到全局特征的细节缺失特征。
进一步可选地,处理器55在将细节缺失特征与全局特征进行融合,以得到原始视频帧对应的目标融合特征时,具体用于:将细节缺失特征与全局特征相加,得到初始融合特征;将初始融合特征经过线性层和激活函数层,得到原始视频帧对应的目标融合特征。
进一步可选地,处理器55在根据多个原始视频帧对应的目标融合特征,生成原始视频数据的质量数据时,具体用于:根据多个原始视频帧对应的目标融合特征,获取多个融合特征对,一个融合特征对包括相互对应的时域融合特征和空域融合特征;根据多个融合特征对中相互对应的时域融合特征和空域融合特征,生成多个时空融合特征;根据多个时空融合特征,生成原始视频数据的质量数据。
进一步可选地,处理器55在根据多个原始视频帧对应的目标融合特征,获取多个融合特征对时,具体用于:将相邻原始视频帧对应的目标融合特征的差值的绝对值分别作为时域融合特征,并将奇数帧或偶数帧对应的目标融合特征分别作为空域融合特征;对应相同奇数帧或偶数帧的时域融合特征和空域融合特征形成一个融合特征对。
进一步可选地,处理器55在根据多个时空融合特征,生成原始视频数据的质量数据时,具体用于:针对任一时空融合特征对,经过多层感知机MLP进行回归,以得到多个帧级质量数据;根据多个帧级质量数据的数量,对多个帧级质量数据求平均,得到原始视频帧的质量数据。
关于本申请实施例提供的图5所示设备中各步骤的详细实施方式以及有益效果已经在前述实施例中进行了详细描述,此处将不做详细阐述说明。
进一步,如图5所示,该电子设备还包括:通信组件56、显示器57、电源组件58、音频组件59等其它组件。图5中仅示意性给出部分组件,并不意味着电子设备只包括图5所示组件。另外,图5中虚线框内的组件为可选组件,而非必选组件,具体可视电子设备的产品形态而定。本实施例的电子设备可以实现为台式电脑、笔记本电脑、智能手机或IOT设备等终端设备,也可以是常规服务器、云服务器或服务器阵列等服务端设备。若本实施例的电子设备实现为台式电脑、笔记本电脑、智能手机等终端设备,可以包含图5中虚线框内的组件;若本实施例的电子设备实现为常规服务器、云服务器或服务器阵列等服务端设备,则可以不包含图5中虚线框内的组件。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被执行时能够实现上述图1所示方法实施例中可由会话状态同步设备执行的各步骤。
上述存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random-Access Memory,SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read Only Memory,EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM),可编程只读存储器(Programmable Read-Only Memory,PROM),只读存储器(Read-Only Memory,ROM),磁存储器,快闪存储器,磁盘或光盘。
上述通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络,如WiFi,2G、3G、4G/LTE、5G等移动通信网络,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件还包括近场通信(Near Field Communication,NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(Radio Frequency Identification,RFID)技术,红外数据协会(InfraredData Association,IrDA)技术,超宽带(Ultra Wide Band,UWB)技术,蓝牙(BlueTooth,BT)技术和其他技术来实现。
上述显示器包括屏幕,其屏幕可以包括液晶显示器(Liquid Crystal Display,LCD)和触摸面板(TouchPanel,TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。
上述电源组件,为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
上述音频组件,可被配置为输出和/或输入音频信号。例如,音频组件包括一个麦克风(Microphone,MIC),当音频组件所在设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中,音频组件还包括一个扬声器,用于输出音频信号。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、只读光盘(Compact Disc Read-Only Memory,CD-ROM)、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(Central ProcessingUnit,CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RandomAccess Memory,RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(Phase-change Random AccessMemory,PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(Digital Video Disc,DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (13)

1.一种视频数据处理方法,其特征在于,包括:
获取原始视频数据,所述原始视频数据包括多个原始视频帧;
对所述多个原始视频帧分别下采样以得到多个第一目标视频帧,对所述多个第一目标视频帧进行特征提取,以得到所述多个原始视频帧的全局特征;
对所述多个原始视频帧分别网格化抽样得到多个第二目标视频帧,对所述多个第二目标视频帧进行细节特征提取,以得到所述多个原始视频帧的细节特征;
将所述多个原始视频帧的全局特征和细节特征输入基于交叉注意力机制的特征融合网络;
在所述特征融合网络中,针对任一原始视频帧,将所述原始视频帧的细节特征映射为值矩阵和键矩阵,将所述原始视频帧的全局特征映射为查询矩阵;
根据所述查询矩阵和所述键矩阵,生成所述原始视频帧对应的交叉注意力权重,并根据所述交叉注意力权重矩阵和所述值矩阵,生成所述全局特征对应的细节缺失特征;
将所述细节缺失特征与所述全局特征进行融合,以得到所述原始视频帧对应的目标融合特征;
根据所述多个原始视频帧对应的目标融合特征,生成所述原始视频数据的质量数据。
2.根据权利要求1所述的方法,其特征在于,对所述多个原始视频帧分别下采样以得到多个第一目标视频帧,包括:
将所述多个原始视频帧分别下采样至第一指定分辨率,以得到所述多个第一目标视频帧;其中,所述第一指定分辨率小于所述原始视频数据具有的原始分辨率。
3.根据权利要求1所述的方法,其特征在于,对所述多个原始视频帧分别网格化抽样得到多个第二目标视频帧,包括:
针对任一原始视频帧,将所述原始视频帧切分为多个图像区域;从所述多个图像区域中分别抽取图像块,并将抽取到的图像块进行拼接得到一个第二目标视频帧。
4.根据权利要求3所述的方法,其特征在于,从所述多个图像区域中分别抽取图像块,包括:
从所述多个图像区域中分别随机抽取具有相同分辨率的图像块,且所述图像块的分辨率使得所述第二目标视频帧的分辨率与所述原始视频帧的分辨率相同。
5.根据权利要求1-4任一项所述的方法,其特征在于,还包括:
获取多个原始样本图像;
针对任一原始样本图像,将所述原始样本图像切分为多个样本图像区域,从所述多个样本图像区域中分别获取样本图像块,将所述样本图像块进行拼接,以得到目标样本图像;
利用多个目标样本图像对已有特征提取网络进行训练,以得到细节特征提取的特征提取网络。
6.根据权利要求1所述的方法,其特征在于,根据所述查询矩阵和所述键矩阵,生成所述原始视频帧对应的交叉注意力权重,包括:
计算所述查询矩阵和所述键矩阵的点积,对点积结果进行归一化处理,以得到所述原始视频帧对应的交叉注意力权重矩阵。
7.根据权利要求1所述的方法,其特征在于,根据所述交叉注意力权重矩阵和所述值矩阵,生成所述原始视频帧的细节缺失特征,包括:
将所述交叉注意力权重矩阵和所述值矩阵相乘,得到所述全局特征的细节缺失特征。
8.根据权利要求1所述的方法,其特征在于,将所述细节缺失特征与所述全局特征进行融合,以得到所述原始视频帧对应的目标融合特征,包括:
将所述细节缺失特征与所述全局特征相加,得到初始融合特征;
将所述初始融合特征经过线性层和激活函数层,得到所述原始视频帧对应的目标融合特征。
9.根据权利要求8所述的方法,其特征在于,根据所述多个原始视频帧对应的目标融合特征,生成所述原始视频数据的质量数据,包括:
根据所述多个原始视频帧对应的目标融合特征,获取多个融合特征对,一个融合特征对包括相互对应的时域融合特征和空域融合特征;
根据所述多个融合特征对中相互对应的时域融合特征和空域融合特征,生成多个时空融合特征;
根据所述多个时空融合特征,生成所述原始视频数据的质量数据。
10.根据权利要求9所述的方法,其特征在于,根据所述多个原始视频帧对应的目标融合特征,获取多个融合特征对,包括:
将相邻原始视频帧对应的目标融合特征的差值的绝对值分别作为时域融合特征,并将奇数帧或偶数帧对应的目标融合特征分别作为空域融合特征;
对应相同奇数帧或偶数帧的时域融合特征和空域融合特征形成一个融合特征对。
11.根据权利要求9所述的方法,其特征在于,根据所述多个时空融合特征,生成所述原始视频数据的质量数据,包括:
针对任一时空融合特征对,经过多层感知机MLP进行回归,以得到多个帧级质量数据;
根据所述多个帧级质量数据的数量,对所述多个帧级质量数据求平均,得到所述原始视频帧的质量数据。
12.一种电子设备,其特征在于,包括:存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,与所述存储器耦合,用于执行所述计算机程序,以实现权利要求1-11中任一项所述方法中的步骤。
13.一种存储有计算机程序的计算机可读存储介质,其特征在于,当所述计算机程序被处理器执行时,致使所述处理器实现权利要求1-11中任一项所述方法中的步骤。
CN202311844174.1A 2023-12-28 2023-12-28 视频数据处理方法、设备及存储介质 Active CN117495853B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311844174.1A CN117495853B (zh) 2023-12-28 2023-12-28 视频数据处理方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311844174.1A CN117495853B (zh) 2023-12-28 2023-12-28 视频数据处理方法、设备及存储介质

Publications (2)

Publication Number Publication Date
CN117495853A CN117495853A (zh) 2024-02-02
CN117495853B true CN117495853B (zh) 2024-05-03

Family

ID=89672998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311844174.1A Active CN117495853B (zh) 2023-12-28 2023-12-28 视频数据处理方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117495853B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381020A (zh) * 2020-11-20 2021-02-19 深圳市银星智能科技股份有限公司 一种视频场景识别方法、系统及电子设备
CN113329226A (zh) * 2021-05-28 2021-08-31 北京字节跳动网络技术有限公司 数据的生成方法、装置、电子设备及存储介质
CN114241360A (zh) * 2021-11-23 2022-03-25 清华大学 一种基于自适应推理的视频识别方法和装置
CN115731168A (zh) * 2022-11-11 2023-03-03 百果园技术(新加坡)有限公司 视频质量评估方法、系统、电子设备及存储介质
CN116152611A (zh) * 2023-04-14 2023-05-23 山东省凯麟环保设备股份有限公司 一种多级多尺度点云补全方法、系统、设备及存储介质
CN116486071A (zh) * 2023-03-13 2023-07-25 中国科学院自动化研究所 图像分块特征提取方法、装置及存储介质
CN116597267A (zh) * 2023-07-12 2023-08-15 腾讯科技(深圳)有限公司 图像识别方法、装置、计算机设备和存储介质
CN116934820A (zh) * 2023-07-27 2023-10-24 杭州电子科技大学 基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准方法及系统
CN116977200A (zh) * 2023-04-18 2023-10-31 腾讯科技(深圳)有限公司 视频去噪模型的处理方法、装置、计算机设备和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020190112A1 (en) * 2019-03-21 2020-09-24 Samsung Electronics Co., Ltd. Method, apparatus, device and medium for generating captioning information of multimedia data
US20230115551A1 (en) * 2021-10-12 2023-04-13 Adobe Inc. Localization of narrations in image data

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381020A (zh) * 2020-11-20 2021-02-19 深圳市银星智能科技股份有限公司 一种视频场景识别方法、系统及电子设备
CN113329226A (zh) * 2021-05-28 2021-08-31 北京字节跳动网络技术有限公司 数据的生成方法、装置、电子设备及存储介质
CN114241360A (zh) * 2021-11-23 2022-03-25 清华大学 一种基于自适应推理的视频识别方法和装置
CN115731168A (zh) * 2022-11-11 2023-03-03 百果园技术(新加坡)有限公司 视频质量评估方法、系统、电子设备及存储介质
CN116486071A (zh) * 2023-03-13 2023-07-25 中国科学院自动化研究所 图像分块特征提取方法、装置及存储介质
CN116152611A (zh) * 2023-04-14 2023-05-23 山东省凯麟环保设备股份有限公司 一种多级多尺度点云补全方法、系统、设备及存储介质
CN116977200A (zh) * 2023-04-18 2023-10-31 腾讯科技(深圳)有限公司 视频去噪模型的处理方法、装置、计算机设备和存储介质
CN116597267A (zh) * 2023-07-12 2023-08-15 腾讯科技(深圳)有限公司 图像识别方法、装置、计算机设备和存储介质
CN116934820A (zh) * 2023-07-27 2023-10-24 杭州电子科技大学 基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Adaptive Focus for Efficient Video Recognition;Yulin Wang等;《2021 IEEE/CVF International Conference on Computer Vision》;20211017;第16229-16238页 *
基于局部正交特征融合的小样本图像分类;涂泽良;《广东工业大学学报》;20231130;第11页 *

Also Published As

Publication number Publication date
CN117495853A (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
US10628961B2 (en) Object tracking for neural network systems
US10937169B2 (en) Motion-assisted image segmentation and object detection
US10977802B2 (en) Motion assisted image segmentation
CN109543714B (zh) 数据特征的获取方法、装置、电子设备及存储介质
US11741578B2 (en) Method, system, and computer-readable medium for improving quality of low-light images
CN110189246B (zh) 图像风格化生成方法、装置及电子设备
CN112954312B (zh) 一种融合时空特征的无参考视频质量评估方法
CN110751649B (zh) 视频质量评估方法、装置、电子设备及存储介质
US20220101539A1 (en) Sparse optical flow estimation
US20220156943A1 (en) Consistency measure for image segmentation processes
WO2021237732A1 (zh) 图像对齐方法及装置、电子设备、存储介质
US20220351333A1 (en) Image reconstruction method, electronic device and computer-readable storage medium
CN114757837A (zh) 目标模型的渲染方法、设备及存储介质
CN116402679A (zh) 一种轻量级红外超分辨率自适应重建方法
US20240244098A1 (en) Content completion detection for media content
CN111369557A (zh) 图像处理方法、装置、计算设备和存储介质
CN114170425A (zh) 模型训练、图像分类方法、服务器及存储介质
CN112053366A (zh) 模型训练、样本生成方法、电子设备及存储介质
CN113822871A (zh) 基于动态检测头的目标检测方法、装置、存储介质及设备
CN117495853B (zh) 视频数据处理方法、设备及存储介质
CN110197459B (zh) 图像风格化生成方法、装置及电子设备
CN116630362A (zh) 模型训练、图像处理方法、设备及存储介质
CN116977200A (zh) 视频去噪模型的处理方法、装置、计算机设备和存储介质
CN117495854B (zh) 视频数据处理方法、设备及存储介质
CN112052863B (zh) 一种图像检测方法及装置、计算机存储介质、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant