CN113055666B - 一种视频质量评估方法及装置 - Google Patents

一种视频质量评估方法及装置 Download PDF

Info

Publication number
CN113055666B
CN113055666B CN201911369917.8A CN201911369917A CN113055666B CN 113055666 B CN113055666 B CN 113055666B CN 201911369917 A CN201911369917 A CN 201911369917A CN 113055666 B CN113055666 B CN 113055666B
Authority
CN
China
Prior art keywords
information
video
feature
characteristic diagram
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911369917.8A
Other languages
English (en)
Other versions
CN113055666A (zh
Inventor
张碧武
刘阳兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan TCL Group Industrial Research Institute Co Ltd
Original Assignee
Wuhan TCL Group Industrial Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan TCL Group Industrial Research Institute Co Ltd filed Critical Wuhan TCL Group Industrial Research Institute Co Ltd
Priority to CN201911369917.8A priority Critical patent/CN113055666B/zh
Publication of CN113055666A publication Critical patent/CN113055666A/zh
Application granted granted Critical
Publication of CN113055666B publication Critical patent/CN113055666B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种视频质量评估方法及装置,涉及视频处理技术领域,能够提高对视频块的质量评估的准确性。该方法包括:将待评估的视频划分为多个视频块;将所述多个视频块分别输入到已训练的视频评估模型中处理,得到每个视频块的评估分数;其中,所述视频评估模型对所述每个视频块的处理包括提取所述视频块的第一多尺度特征信息,并根据所述第一多尺度特征信息确定所述视频块的评估分数,所述第一多尺度特征信息用于描述基于多种预设尺寸的感受野从所述视频块提取的特征;根据所述每个视频块的评估分数,计算所述视频的质量分数。

Description

一种视频质量评估方法及装置
技术领域
本申请涉及视频处理技术领域,尤其涉及一种视频质量评估方法及装置。
背景技术
视频质量评估视技术主要是用来评估视频质量的好坏。视频质量评估方法基于是否需要参考无损视频分为全参考和无参考两大类。由于无参考的视频质量评估方法不需要参考无损视频,因此具有更广泛的用途。
目前,一种常见的无参考的视频质量评估方法是基于3D卷积神经网络(卷Convolutional Neural Networks,CNN)对视频块进行质量评估。针对视频质量评估的3D-CNN模型在提取视频特征时,通过简单堆叠的五层卷积层以及池化层提取视频块的特征。然而基于简单堆叠的网络结构从视频块中提取的特征一般较为单薄,不够丰富,从而造成评估结果的准确性不高。
发明内容
本申请实施例提供了一种视频质量评估方法及装置,可以解决现有技术中评估结果准确性不高的问题。
第一方面,本申请实施例提供了一种视频质量评估方法,其特征在于,包括:
将待评估的视频划分为多个视频块;
将所述多个视频块分别输入到训练好的视频评估模型中处理,得到每个视频块的评估分数;其中,所述视频评估模型对所述每个视频块的处理包括提取所述视频块的第一多尺度特征信息,并根据所述第一多尺度特征信息确定所述视频块的评估分数,所述第一多尺度特征信息用于描述基于多种预设尺寸的感受野从所述视频块提取的特征;
根据所述每个视频块的评估分数,计算所述视频的质量分数。
采用本申请提供的视频质量评估方法,由于视频评估模型能够基于多种预设尺寸的感受野对视频块的特征进行提取,使得提取到的第一多尺度特征信息中包含不同尺寸感受野的特征,提高了从视频块中提取的语义特征的丰富度。进而当该视频评估模型利用第一多尺度特征信息计算评估分数时,提高了评估分数的准确性。
可选的,所述将所述多个视频块分别输入到训练好的视频评估模型中处理,得到每个视频块的评估分数之前,所述方法还包括:
将训练样本集合中的视频块样本输入初始视频评估模型中处理,得到所述视频块样本的评估分数;其中,所述训练样本集合包括多个视频块样本及各个视频块样本分别对应的意见得分;
根据预设的损失函数计算所述视频块样本的评估分数和所述视频块样本对应的意见得分之间的损失值;
当所述损失值不满足预设条件时,调整所述初始视频评估模型的模型参数,并返回执行所述将视频块样本输入初始视频评估模型中处理,得到所述视频块样本的评估分数的步骤;
当所述损失值满足所述预设条件时,停止训练所述初始视频评估模型,并将训练后的所述初始视频评估模型作为所述视频评估模型。
第二方面,本申请实施例提供一种视频处理装置,包括:
划分单元,用于将待评估的视频划分为多个视频块;
评估单元,用于将所述多个视频块分别输入到训练好的视频评估模型中处理,得到每个视频块的评估分数;其中,所述视频评估模型对所述每个视频块的处理包括提取所述视频块的第一多尺度特征信息,并根据所述第一多尺度特征信息确定所述视频块的评估分数,所述第一多尺度特征信息用于描述基于多种预设尺寸的感受野从所述视频块提取的特征;
第一计算单元,用于根据所述每个视频块的评估分数,计算所述视频的质量分数。
可选的,所述视频评估装置还包括:
训练单元,用于在所述评估单元将所述多个视频块分别输入到训练好的视频评估模型中处理,得到每个视频块的评估分数之前,将训练样本集合中的视频块样本输入初始视频评估模型中处理,得到所述视频块样本的评估分数;其中,所述训练样本集合包括多个视频块样本及各个视频块样本分别对应的意见得分;
第二计算单元,用于根据预设的损失函数计算所述视频块样本的评估分数和所述视频块样本对应的意见得分之间的损失值;
调整单元,用于当所述损失值不满足预设条件时,调整所述初始视频评估模型的模型参数,并返回执行所述将视频块样本输入初始视频评估模型中处理,得到所述视频块样本的评估分数的步骤;
固定单元,用于当所述损失值满足所述预设条件时,停止训练所述初始视频评估模型,并将训练后的所述初始视频评估模型作为所述视频评估模型。
基于上述第一方面或者第二方面,可选的,所述提取所述视频块的第一多尺度特征信息,包括:
对所述视频块进行卷积和下采样处理,得到预设格式的第一封装信息;
基于所述多种预设尺寸的感受野对所述第一封装信息进行特征提取,得到所述第一多尺度特征信息;
所述根据所述第一多尺度特征信息确定所述视频块的评估分数,包括:
对所述第一多尺度特征信息进行深度特征提取,得到第一语义特征信息,所述第一语义特征信息用于描述从所述第一多尺度特征信息中提取的特征;
根据所述第一语义特征信息确定所述视频块的评估分数。
在该可选方式中,第一多尺度特征信息中描述的特征可以理解为视频块的表层特征,例如视频块中每一帧图片中包含的轮廓、颜色、纹理、形状以及空间关系等特征。而第一语义特征信息中描述的特征可以理解为视频块的深层特征,例如,第一多尺度特征信息中描述浅层特征的各种组合。提取的浅层特征越丰富,浅层特征组合的深层特征就越丰富。从而基于这些深层特征确定的视频块的评估分数就越准确。
可选的,所述基于所述多种预设尺寸的感受野对所述第一封装信息进行特征提取,得到所述第一多尺度特征信息,包括:
根据所述第一封装信息的特征通道数,将所述第一封装信息划分为M个第一特征图信息,M≥2,M为正整数;
对所述M个第一特征图信息进行分组卷积操作,获得每个第一特征图信息的K个第二特征图信息,所述K个第二特征图信息的感受野的尺寸分别为预设的K种尺寸,K≥2,K为正整数;
对获得的M×K个第二特征图信息进行交叉融合,得到M个第三特征图信息,其中,每个第三特征图信息用于描述来自不同第一特征图信息且感受野的尺寸不同的K个第二特征图信息的特征融合结果;
对所述M个第三特征图信息进行融合处理,得到所述第一多尺度特征信息,所述第一多尺度特征信息的特征通道数与所述第一封装信息的特征通道数相同。
基于该可选方式,通过第一封装信息按照其特征通道数划分为M个第一特征图信息,然后采用分组卷积的方式对M个第一特征图信息进行并行处理,获得M组特征输出。最后将M组特征进行融合,得到第一多尺度特征信息。由于每个第一特征图信息相比于第一封装信息的特征通道数有所减少,因此,相比于直接对第一封装信息进行卷积操作时参与计算的参数量,每个组卷积网络对第一特征图信息进行卷积操作时的参与计算的参数量大大减少,从而减少了视频处理设备的计算量,提高了视频处理设备的数据处理效率。
可选的,所述根据所述第一封装信息的特征通道数,将所述第一封装信息划分为M个第一特征图信息,包括:
对所述第一封装信息进行卷积操作,以将所述第一封装信息的特征通道数从第一特征通道数减小为第二特征通道数;
按照所述第二特征通道数将所述第一封装信息平均划分为所述M个第一特征图信息。
基于该可选的方式,减少第一特征图信息的特征通道数,进而进一步减少了对后续对第一特征图信息进行分组卷积时参与计算的参数量,进一步提高了视频处理设备的数据处理效率。
可选的,所述对获得的M×K个第二特征图信息进行交叉融合,得到M个第三特征图信息,包括:
将获得的M×K个第二特征图信息进行M次相加和卷积操作,得到所述M个第三特征图信息;
其中,每一次相加和卷积操作针对所述M×K个第二特征图信息中感受野的尺寸不同的K个第二特征图信息;当M≥K时,所述K个第二特征图信息分别对应不同的第一特征图信息;当M<K时,所述K个第二特征图信息中存在M个第二特征图信息,且所述M个第二特征图信息分别对应不同的第一特征图信息。
可选的,当M=K=4时,所述每个第一特征图信息的4个第二特征图信息分别为第一尺寸特征图信息、第二尺寸特征图信息、第三尺寸特征图信息以及第四尺寸特征图信息;所述将获得的M×K个第二特征图信息进行M次相加和卷积操作,得到所述M个第三特征图信息,包括:
将第1个第一特征图信息的第一尺寸特征图信息、第2个第一特征图信息的第二尺寸特征图信息、第3个第一特征图信息的第三尺寸特征图信息、第4个第一特征图信息的第四尺寸特征图信息进行相加和卷积操作,得到第1个第三特征图信息;
将第1个第一特征图信息的第四尺寸特征图信息、第2个第一特征图信息的第一尺寸特征图信息、第3个第一特征图信息的第二尺寸特征图信息、第4个第三特征图信息的第三尺寸特征图信息进行相加和卷积操作,得到第2个第三特征图信息;
将第1个第一特征图信息的第三尺寸特征图信息、第2个第一特征图信息的第四尺寸特征图信息、第3个第一特征图信息的第一尺寸特征图信息、第4个第三特征图信息的第二尺寸特征图信息进行相加和卷积操作,得到第3个第三特征图信息;
将第1个第一特征图信息的第二尺寸特征图信息、第2个第一特征图信息的第三尺寸特征图信息、第3个第一特征图信息的第四尺寸特征图信息、第4个第三特征图信息的第一尺寸特征图信息进行相加和卷积操作,得到第4个第三特征图信息。
可选的,所述对所述第一多尺度特征信息进行深度特征提取,得到第一语义特征信息,包括:
对所述第一多尺度特征信息进行N级级联的下采样和残差卷积处理,得到N个分辨率层级的第一特征信息,N≥2;
分别对每一分辨率层级的第一特征信息进行全局池化处理,得到每一分辨率层级的第二特征信息;
将得到的N个所述第二特征信息进行级联处理,得到所述第一语义特征信息。
基于该可选方式,每一级下采样处理能够减小特征图的尺寸,从而减少下层网络结构的计算量,提高了视频处理设备的数据处理效率。
可选的,所述根据所述第一语义特征信息确定所述视频块的评估分数,包括:
对所述第一语义特征信息进行全连接处理,得到所述评估分数。
可选的,所述将训练样本集合中的视频块样本输入初始视频评估模型中处理,得到所述视频块样本的评估分数,包括:
对所述视频块样本进行卷积和下采样处理,得到预设格式的第二封装信息;
基于所述多种预设尺寸的感受野对所述第二封装信息进行特征提取,得到所述第二多尺度特征信息,所述第二多尺度特征信息用于描述基于所述多种预设尺寸的感受野从所述第二封装信息中提取的特征;
对所述第二多尺度特征信息进行深度特征提取,得到第一语义特征信息,所述第二语义特征信息用于描述从所述第二多尺度特征信息中提取的特征;
根据所述第二语义特征信息确定所述视频块样本的评估分数。
第三方面,本申请实施例提供了一种视频处理设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的视频质量评估方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的视频质量评估方法的步骤。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在视频处理设备上运行时,使得视频处理设备执行上述第一方面所述的视频质量评估方法的步骤。
可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的一种视频质量评估方法的示意流程图一;
图2是本申请一实施例提供的视频评估模型的网络结构示意图;
图3是本申请一个实施例提供的一种视频质量评估方法的示意流程图二;
图4是本申请一实施例提供的多尺度特征融合网络的网络结构示意图;
图5是本申请一个实施例提供的一种视频质量评估方法的示意流程图三;
图6是本申请一实施例提供的深层语义提取网络的网络结构示意图;
图7是本申请一实施例提供的残差卷积层的网络结构示意图;
图8是本申请一个实施例提供的一种视频质量评估方法的示意流程图四;
图9是本申请一实施例提供的视频处理装置的结构示意图一;
图10是本申请一实施例提供的视频处理装置的结构示意图二;
图11是本申请一实施例提供的视频处理设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
还应当理解,在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
为了说明本申请所述的技术方案,下面通过具体实施例来进行说明。
请参见图1,图1是本申请一个实施例提供的一种视频质量评估方法的示意流程图。本实施例中视频质量评估方法的执行主体为视频处理设备,语音处理设备包括但不限于智能手机、平板电脑、可穿戴设备等移动终端,还可以是台式电脑、机器人、服务器等。如图1所示的视频质量评估方法可包括:
S101:将待评估的视频划分为多个视频块。
视频处理设备在获取到待评估的视频后,可以根据视频评估模型的输入尺寸要求,将待评估的视频分为多个视频块,每个视频块包括视频的至少一个视频帧。
例如,本申请所采用的视频评估模型要求输入的数据在时间维度上为16个连续的帧。假设,待评估的视频由256个视频帧构成,视频处理设备即可将视频划分为256/16=16个视频块,每个视频块包括16个连续的视频块。
在一个示例中,若待评估的视频所包含的视频帧数量不能被16整除,视频处理设备则可以用相邻的视频帧填充。例如,待评估的视频由260个视频帧构成,对于最后4个视频帧,视频设备可以利用与这4个视频帧连续的12个视频帧填充,形成由16个连续的视频帧构成的视频块。即,第17个视频块包括该视频的最后16个连续的视频帧。
S102:将所述多个视频块分别输入到已训练的视频评估模型中处理,得到所述每个视频块的评估分数。
S103:根据所述每个视频块的评估分数,计算所述视频的质量分数。
在本实施例中,视频处理设备中预先存储有预先训练好的视频评估模型。该视频评估模型是使用机器学习算法,基于样本训练集对初始视频评估模型训练得到。其中,初始视频评估模型是本申请提供一种在没有无损视频作为参考的情况下实现对受损视频进行质量评估的深度学习网络模型。样本训练集中包括多个视频块样本以及与各个视频块样本对应的意见得分(Mean Opinion Score,MOS)。
可以理解的是,视频评估模型可以由视频处理设备预先训练好,也可以由其他设备预先训练好后将视频评估模型对应的文件移植至视频处理设备中。也就是说,训练该视频评估模型的执行主体与使用该视频评估模型进行视频质量评估的执行主体可以是相同的,也可以是不同的。例如,当采用其他设备训练初始视频评估模型时,其他设备对初始视频评估模型结束训练后,固定初始视频评估模型的模型参数,得到视频评估模型对应的文件。然后将该文件移植到视频处理设备中。
视频处理设备在获取到待评估的视频的多个视频块后,利用视频评估模型对每个视频块进行处理,得到每个视频块的评估分数,进而根据每个视频块的评估分数计算待评估的视频的质量分数。
在本实施例中,所述视频评估模型对所述每个视频块的处理包括提取所述视频块的第一多尺度特征信息,并根据所述第一多尺度特征信息确定所述视频块的评估分数。
其中,第一多尺度特征信息用于描述基于多种预设尺寸的感受野(ReceptiveField)从所述视频块提取的特征。所谓感受野是指卷积神经网络中每层输出的特征图(feature map)上的像素点在输入图片上映射的区域。也就是说感受野是指从输入图片上提取特征的范围。感受野越小,提取到的特征的范围就越小,感受野越大,提取到的特征的范围就越大。
在本实施例中,由于视频评估模型能够基于多种预设尺寸的感受野对视频块的特征进行提取,使得提取到的第一多尺度特征信息中包含不同尺寸感受野的特征。相比于基于单一感受野提取特征的方式,该视频评估模型能够获得语义更加丰富的特征。进而当该视频评估模型利用第一多尺度特征信息计算评估分数时,提高了评估分数的准确性。
在一个示例中,视频评估模型在提取视频块的第一多尺度特征信息时,可以先对输入到视频评估模型中的视频块进行卷积和下采样处理,得到预设格式的第一封装信息。例如,预设格式可以为特征通道数为16的格式。然后基于多种预设尺寸的感受野对该第一封装信息进行特征提取,得到第一多尺度特征信息。也就是说,视频评估模型可以先对输入的视频块进行格式封装,得到数据格式便于进行多尺度特征提取的第一封装信息。然后从第一封装信息中提取第一多尺度特征信息,即第一多尺度特征信息描述了基于多种预设尺寸的感受野从该第一封装信息中提取的特征。
视频评估模型根据第一多尺度特征信息确定视频块的评估分数时,可以先对所述第一多尺度特征信息进行深度特征提取,得到第一语义特征信息;然后,根据所述第一语义特征信息确定所述视频块的评估分数。
其中,所述第一语义特征信息用于描述从所述第一多尺度特征信息中提取的特征。所谓深度特征提取可以理解为对第一多尺度特征信息做进一步的特征提取。在该实例中,第一多尺度特征信息中描述的特征可以理解为视频块的表层特征,例如视频块中每一帧图片中包含的轮廓、颜色、纹理、形状以及空间关系等特征。而对第一语义特征信息中描述的特征可以理解为视频块的深层特征,例如,第一多尺度特征信息中描述浅层特征的各种组合。提取的浅层特征越丰富,浅层特征组合的深层特征就越丰富。从而基于这些深层特征确定的视频块的评估分数就越准确。
在一个示例中,视频评估模型的网络结构可以如图2所示,包括输入层、多尺度特征融合网络、深度语义提取网络以及输出层。
其中,输入层用于对输入的视频块进行格式封装,得到符合下层网络(例如多尺度特征融合网络)的输入要求的第一封装信息。即视频处理装置将视频块输入到视频评估模型中的输入层,由输入层对视频块进行卷积和下采样处理,得到预设格式的第一封装信息。
示例性的,输入层可以包括一个卷积层(如图2所示的conv层)和一个下采样层(如图2所示的down层)。假设视频块的尺寸为(16,h,w,3),其中,16表示视频块的视频帧数,h为视频帧的高,w为视频帧的高,3表示视频帧的特征通道数。例如,3个特征通道分别表示红绿蓝(red green blue,RGB)三通道。在本申请中,视频帧的高和宽的具体尺寸不限,支持各种尺寸的视频帧的输入。
当多尺度特征融合网络要求输入的视频块的格式为16通道,那么conv层可以包括16个卷积核,每个卷积核的尺寸为(1*5*5),卷积步长为(1,2,2),卷积操作之间的间隔为2。当视频块输入到输入层,经过conv层的操作后,视频块的尺寸变为(16,h/2,w/2,16),即特征通道数从3变为16。而down层用于对conv层的输出进行最大值池化下采样操作,输出格式为(16,h/4,w/4,16)的第一封装信息。
输入层输出的第一封装信息作为多尺度特征融合网络的输入,被输入到多尺度特征融合网络中处理,得到第一多尺度特征信息。即由多尺度特征融合网络基于多种预设尺寸的感受野对第一封装信息进行特征提取,然后输出第一多尺度特征信息。
在一个示例中,多尺度特征融合网络在对第一封装信息进行特征提取时,可以采用分组卷积的方式进行特征提取。例如,多尺度特征融合网络中设置有M个组卷积网络。视频处理设备可以先将第一封装信息按照其特征通道数划分为M个第一特征图信息,然后将该M个第一特征图信息分别输入到M个组卷积网络,进行并行的分组卷积操作,获得M组特征输出。最后将M组特征进行融合,得到第一多尺度特征信息。
由于每个第一特征图信息相比于第一封装信息的特征通道数有所减少,因此,相比于直接对第一封装信息进行卷积操作时参与计算的参数量,每个组卷积网络对第一特征图信息进行卷积操作时的参与计算的参数量大大减少,从而减少了视频处理设备的计算量,提高了视频处理设备的数据处理效率。
示例性的,图3为本申请另一个实施例提供的一种视频质量评估方法的示意流程图,主要涉及基于多种预设尺寸的感受野对第一封装信息进行特征提取,得到第一多尺度特征信息的一种可能的实施方式。也就是多尺度特征融合网络采用分组卷积的方式对输入的第一封装信息的处理流程。参见图3,该方法包括:
S301,根据所述第一封装信息的特征通道数,将所述第一封装信息划分为M个第一特征图信息,M≥2,M为正整数。
示例性的,第一种可能的实现方式为,视频处理设备可以直接按照第一封装信息的特征通道数进行平均划分。例如,第一封装信息的特征通道数是16,M=4。那么,视频处理设备将第一封装信息平均划分成4个第一特征图信息后,每个第一特征图的通道数为16/4=4。
可选的,第二种可能的实现方式为,视频处理设备也可以对第一封装信息进行卷积操作,以将第一封装信息的特征通道数从第一特征通道数减小为第二特征通道数;按照第二特征通道数将第一封装信息平均划分M个第一特征图信息。
例如,第一封装信息的特征通道数是16(即第一特征通道数),M=4。视频处理设备可以利用尺寸为(1*1*1)的卷积核对第一封装信息进行卷积处理后,第一封装信息的特征通道数减半,变为8(即第二特征通道数)。然后视频处理设备按照第二特征通道数将第一封装信息平均划分4个第一特征图信息,每个第一特征图的通道数为8/4=2。
值得说明的是,相比于第一种可能的实现方式,由于第二种可能的实现方式能够减少第一特征图信息的特征通道数,进而进一步减少了对后续对第一特征图信息进行分组卷积时参与计算的参数量,进一步提高了视频处理设备的数据处理效率。
S302,对所述M个第一特征图信息进行分组卷积操作,获得每个第一特征图信息的K个第二特征图信息,所述K个第二特征图信息的感受野的尺寸分别为预设的K种尺寸。
示例性的,多尺度特征融合网络中设置有M个组卷积网络,视频处理设备将M个第一特征图信息分别输入到M个组卷积网络中,由该M个组卷积网络并行处理该M个第一特征图信息。
在每个组卷积网络中包含多层卷积层。例如,若每个组卷积网络包含多层卷积核为(1*3*3)的卷积层,在这种情况下每经过一层卷积层的处理后得到的第二特征图的感受野的尺寸为(2*n+1)*(2*n+1),n表示经过卷积层的层数。
例如,假设K=4,K个预设尺寸分别为1*1、3*3、5*5以及7*7。那么在一个组卷积网络中,视频处理设备则提取未经过卷积处理时感受野为1*1的特征信息、经过一层卷积处理后感受野为3*3的特征信息、经过两层卷积处理后感受野为5*5的特征信息,以及经过三层卷积处理后感受野为7*7的特征信息作为4个第二特征图信息。
当4个组卷积网络分别完成卷积处理后,视频处理设备从每个第一特征图信息中提取到感受野的尺寸分别为1*1、3*3、5*5以及7*7的4个第二特征图信息,一共获取4×4=16个第二特征图信息。
S303,对获得的M×K个第二特征图信息进行交叉融合,得到M个第三特征图信息,其中,每个第三特征图信息用于描述来自不同第一特征图信息且感受野的尺寸不同的K个第二特征图信息的特征融合结果。
在该示例中,视频处理设备采用交叉融合的方式,将M×K个第二特征图信息中来自不同第一特征图信息且感受野的尺寸不同的K个第二特征图信息融合为一个第三特征图信息,得到M个第三特征图信息。所谓融合即为将K个第二特征图信息相加,得到一个第三特征图信息。
示例性的,视频处理设备可以将获得的M×K个第二特征图信息进行M次相加和卷积操作,得到所述M个第三特征图信息。其中,每一次相加和卷积操作针对所述M×K个第二特征图信息中感受野的尺寸不同的K个第二特征图信息;当M≥K时,所述K个第二特征图信息分别对应不同的第一特征图信息;当M<K时,所述K个第二特征图信息中存在M个第二特征图信息,且所述M个第二特征图信息分别对应不同的第一特征图信息。
视频处理设备可以并行执行这M次相加和卷积操作,从而提高处理速度。
基于这种交叉融合的方式,视频处理设备获得的第三特征信息中包含有M个感受野尺寸不同的特征信息,从而实现了多尺度特征提取的过程。
S304,对所述M个第三特征图信息进行融合处理,得到所述第一多尺度特征信息,所述第一多尺度特征信息的特征通道数与所述第一封装信息的特征通道数相同。
示例性的,若在上述步骤S301中,视频处理设备直接对第一封装信息的特征通道数进行平分,得到M个第一特征图信息。那么,此时视频处理设备对M个第三特征图信息的融合处理时,可以直接将M个第三特征图信息的特征通道进行级联,获得与第一封装信息的特征通道数相同的第一多尺度特征信息。
若是在上述步骤301中,视频处理设备先将第一封装信息的特征通道数从第一特征通道数减少为第二特征通道数,在平分为M个第一特征图信息。那么,此时视频处理设备对M个第三特征图信息的融合处理时,可以先将M个第三特征图信息的特征通道进行级联,获得特征通道数为第二特征通道数的特征信息。然后对该特征信息进行卷积操作,获得与第一封装信息的第一特征通道数相同的第一多尺度特征信息。
下面以M=K=4为例,对多尺度特征融合网络,以及多尺度特征融合网络对输入的第一封装信息的处理流程进行示例性的说明。
示例性的,当M=4时,多尺度特征融合网络的网络结构可以如图4所示。包括第一卷积层、4个组卷积网络、4个相加层、4个第二卷积层、第三卷积层。
其中,第一卷积层用于将第一封装信息的特征通道数从第一特征通道数减小为第二特征通道数。假设,在该示例中多尺度特征融合网络需要先将输入的第一封装信息的特征通道数减半,那么,当输入层输出的第一封装信息的尺寸为(16,h/4,w/4,16)时,该第一卷积层中可以包含16/2=8个尺寸为(1*1*1)的卷积核。那么经过第一卷积层的处理之后输出的特征信息(如图4所示的X)的尺寸为(16,h/4,w/4,8)。
第一卷积层输出的X按照特征通道数平均划分为4个第一特征信息,为了便于描述,如图4所示,我们将第1个第一特征信息记为x1,将第2个第一特征信息记为x2,将第3个第一特征信息记为x3,第4个第一特征信息记为x4。4个第一特征信息的尺寸为(16,h/4,w/4,2)。4个第一特征信息分别输入到4个组卷积网络,分别得到每个第一特征图信息的4个第二特征图信息。所述每个第一特征图信息的4个第二特征图信息分别为第一尺寸特征图信息、第二尺寸特征图信息、第三尺寸特征图信息以及第四尺寸特征图信息。这4个第二特征图信息的感受野尺寸分别为预设的4种不同的尺寸。
示例性的,每个组卷积网络包括4层卷积层,也可以包括4层以上的卷积层,具体可以基于预设的感受野尺寸进行设置。示例性的,以预设的4种感受野的尺寸分别为1*1、3*3、5*5、7*7为例,每个组卷积网络包括4层卷积层。其中,第一层包括2个尺寸为(1*1*1)的卷积核,卷积步长为(1,1,1)。第二层、第三层和第四层中均包括2个尺寸为(3*3*3)的卷积核,卷积步长为(1,1,1)。以x1为例,x1输入到第一层后,输出的第一尺寸特征图信息的尺寸仍为(16,h/4,w/4,2),感受野不变(为1*1)。为了便于描述,下文中将第一层输出的第一尺寸特征图信息记为a1。
第一层输出的a1输入到第二层处理后,得到的第二尺寸特征图信息的尺寸仍为(16,h/4,w/4,2),感受野变为3*3。为了便于描述,下文中将第二层输出的第二尺寸特征图信息记为f·a1,其中,一个f表示对a1执行了一层卷积核尺寸为(3*3*3)的卷积处理。
第二层输出的f·a1输入到第三层处理后,得到的第三尺寸特征图信息的尺寸仍为(16,h/4,w/4,2),感受野变为5*5。为了便于描述,下文中将第三层输出的第三尺寸特征图信息记为f·f·a1,其中,两个f表示对a1执行了两层卷积核尺寸为(3*3*3)的卷积处理。
第三层输出的f·f·a1输入到第四层处理后,得到的第四尺寸特征图信息的尺寸仍为(16,h/4,w/4,2),感受野变为7*7。为了便于描述,下文中将第三层输出的第四尺寸特征图信息记为f·f·f·a1,其中,三个f表示对a1执行了三层卷积核尺寸为(3*3*3)的卷积处理。
相应的,第二个组卷积网络对x2进行卷积处理后,输出的4个第二特征图信息分别为a2、f·a2、f·f·a2、f·f·f·a2。第三个组卷积网络对x3进行卷积处理后,输出的4个第二特征图信息分别为a3、f·a3、f·f·a3、f·f·f·a3。第四个组卷积网络对x4进行卷积处理后,输出的4个第二特征图信息分别为a4、f·a4、f·f·a4、f·f·f·a4。
然后将自不同组卷积网络以及不同卷积层的4个第二特征图信息进行相加和卷积操作,得到4个第三特征图信息。如图4所示,我们将第1个第三特征图信息记为y1,将第2个第三特征图信息记为y2,将第3个第三特征图信息记为y3,将第4个第三特征图信息记为y4。
例如,将第1个第一特征图信息x1的第一尺寸特征图信息a1、第2个第一特征图信息x2的第二尺寸特征图信息f·a2、第3个第一特征图信息x3的第三尺寸特征图信息f·f·a3、第4个第一特征图信息x4的第四尺寸特征图信息f·f·f·a4进行相加和卷积操作,得到第1个第三特征图信息y1。
将第1个第一特征图信息x1的第四尺寸特征图信息f·f·f·a1、第2个第一特征图信息x2的第一尺寸特征图信息a2、第3个第一特征图信息x3的第二尺寸特征图信息f·a3、第4个第三特征图信息x4的第三尺寸特征图信息进f·f·a4行相加和卷积操作,得到第2个第三特征图信息y2。
将第1个第一特征图信息x1的第三尺寸特征图信息f·f·a1、第2个第一特征图信息x2的第四尺寸特征图信息f·f·f·a2、第3个第一特征图信息x3的第一尺寸特征图信息a3、第4个第三特征图信息x4的第二尺寸特征图信息f·a4进行相加和卷积操作,得到第3个第三特征图信息y3。
将第1个第一特征图信息x1的第二尺寸特征图信息f·a1、第2个第一特征图信息x2的第三尺寸特征图信息f·f·a2、第3个第一特征图信息x3的第四尺寸特征图信息f·f·f·a3、第4个第三特征图信息x4的第一尺寸特征图信息a4进行相加和卷积操作,得到第4个第三特征图信息y4。
示例性的,每个组卷积网络中的4个卷积层输出4个第二特征图信息分别输入到4个相加层(如图4所示C1、C2、C3、C4)进行相加。即对于每个相加层来说,将来自不同组卷积网络以及不同卷积层的4个第二特征图信息作为输入。
其中,C1的输入为a1、f·a2、f·f·a3以及f·f·f·a4。
C2的输入为f·f·f·a1、a2、f·a3以及f·f·a4。
C3的输入为f·f·a1、f·f·f·a2、a3以及f·a4。
C4的输入为f·a1、f·f·a2、f·f·f·a3以及a4。
每个相加层对输入的4个第二特征图信息进行相加处理,得到一个尺寸仍为(16,h/4,w/4,2)的特征图信息,将该特征图信息输入到对应的第二卷积层中进行卷积处理后,得到对应的第三特征图信息,最终得到4个第三特征图信息。其中,第二卷积层包括尺寸为(1*1*1)的卷积核。
基于图4所示的网络结构,y1、y2、y3、y4与x1、x2、x3、x4的各个第二特征图信息之间的关系可以如下等式所示:
y1=a1+f·a2+f·f·a3+f·f·f·a4
y2=f·f·f·a1+a2+f·a3+f·f·a4
y3=f·f·a1+f·f·f·a2+a3+f·a4
y4=f·a1+f·f·a2+f·f·f·a3+a4
可以理解的是,视频处理设备在执行交叉融合和时,执行了如下公式所示的计算过程:
Figure BDA0002339399520000181
4个相加层输出的4个第三特征图信息的特征通道级联后输入第三卷积层处理,输出第一多尺度特征信息。其中,4个第三特征图信息的特征通道级联后,融合成为尺寸为(16,h/4,w/4,8)的特征信息。第三卷积层所包含的尺寸为(1*1*1)的卷积核的个数,与第一封装信息输入多尺度特征融合网络时的特征通道数相关。由于第一封装信息的特征通道数为16,因此第三卷积层包含16个(1*1*1)的卷积核。那个,将4个第三特征图信息的特征通道级联后的特征信息输入到第三卷积层处理后,输出特征通道数为16的第一多尺度特征信息。
多尺度特征融合网络输出的第一多尺度特征信息作为深层语义提取网络的输入,被输入到深层语义提取网络中处理,得到第一语义特征信息。即由深层语义提取网络对第一多尺度特征信息进行深度特征提取,然后输出第一语义特征信息。
示例性的,图5为本申请另一个实施例提供的一种视频质量评估方法的示意流程图,主要涉及对第一多尺度特征信息进行深度特征提取,得到第一语义特征信息的一种可能的实施方式。也就是深层语义特征提取网络对输入的第一多尺度的处理流程。参见图5,该方法包括:
S501,对所述第一多尺度特征信息进行N级级联的下采样和残差卷积处理,得到N个分辨率层级的第一特征信息,N≥2。
S502,分别对每一分辨率层级的第一特征信息进行全局池化处理,得到每一分辨率层级的第二特征信息。
S503,将得到的N个所述第二特征信息进行级联处理,得到所述第一语义特征信息。
示例性的,假设N=4,那么深层语义特征提取网络的网络结构可以如图6所示。包含4级级联的下采样层(如图6所示down)和残差卷积层(如图6所示conv_res)、分别与每一级的残差卷积层连接的全局池化层(Pool-3D)、与每一个全局池化层连接的连接层(如图6所示concat)。
其中,每一级下采样层用于减小输入到下层网络结构(即该下采样层的输出端连接的残差卷积层)的特征图的尺寸,从而减少下层网络结构的计算量。每一级的残差卷积层用于提取对应分辨率层级的特征图。每一级的残差卷积层的输出端连接的全局池化层用于执行三维的全局最大池化下采样处理,提取对应分辨率层级的语义特征信息。连接层用于将4个全局池化层输出的语义特征信息的特征通道进行级联,输出第一语义特征信息。
示例性的,每一级下采样层包含尺寸为(1*1*1)的卷积核、卷积步长为(1,1,1)的卷积层和池化尺寸(pool_size)为(2,2,2)的最大值池化层。其中,卷积层中所包含的卷积核的个数与输入该下采样层的特征信息的特征通道数相同。这样,可以保证输入该采样层的特征信息的特征通道数不变,而其他维度(包括视频帧数、视频帧的高和宽)减半。
每一级的残差卷积层的网络结构可以如图7所示,包括激活函数层以及两个3D卷积层(如图7所示con3d),分别为第一3D卷积层和第二3D卷积层。激活函数层的输出端连接到第一3D卷积层的输入端,第一3D卷积层的输出端连接到第二3D卷积层的输入端。且残差卷积层的输入和输出之间建立有残差连接,以使得输出的特征信息的特征通道数扩大两倍。
其中,激活函数层所采用的激活函数可以是带参数的线性整流函数(ParametricRectified Linear Unit,PReLU)。
第一3D卷积层包括尺寸为(1*3*3)的卷积核,卷积步长为(1,1,1)。第二3D卷积层包括尺寸为(3*1*1)的卷积核,卷积步长为(1,1,1)。第一3D卷积层和第二3D卷积层中所包含的卷积核的个数与输入该残差卷积层的特征信息的特征通道数相同。
示例性的,经过多尺度特征融合网络处理后,输入到深层语义特征提取网络的第一多尺度特征信息的尺寸为(16,h/4,w/4,16)。第一级下采样层和残差卷积层中涉及到的各个卷积层均包括16个对应尺寸的卷积核。
第一多尺度特征信息输入到第一级下采样层进行处理,输出的特征信息的尺寸在其他维度上减半,变为(8,h/8,w/8,16)。然后该特征信息输入到第一级的残差卷积层中处理后,输出的第一分辨率层级的第一特征信息的尺寸为(8,h/8,w/8,32)。
相应的,第二级下采样层和残差卷积层中涉及到的各个卷积层均包括32个对应尺寸的卷积核。那么,第一分辨率层级的第一特征信息输入到第二级的下采样层进行处理,输出的特征信息的尺寸(4,h/16,w/16,32)。然后该特征信息输入到第二级的残差卷积层中处理后,输出的第二分辨率层级的第一特征信息的尺寸为(4,h/16,w/16,64)。
相应的,第三级下采样层和残差卷积层中涉及到的各个卷积层均包括64个对应尺寸的卷积核。那么,第二分辨率层级的第一特征信息输入到第三级的下采样层进行处理,输出的特征信息的尺寸(2,h/32,w/32,64)。然后该特征信息输入到第三级的残差卷积层中处理后,输出的第三分辨率层级的第一特征信息的尺寸为(2,h/32,w/32,128)。
相应的,第四级下采样层和残差卷积层中涉及到的各个卷积层均包括128个对应尺寸的卷积核。那么,第三分辨率层级的第一特征信息输入到第四级的下采样层进行处理,输出的特征信息的尺寸(1,h/64,w/64,128)。然后该特征信息输入到第四级的残差卷积层中处理后,输出的第四分辨率层级的第一特征信息的尺寸为(1,h/64,w/64,256)。
然后将4个分辨率层级的第一特征信息分别输入到对应的全局池化层中进行三维的全局最大池化下采样处理,得到4个分辨率层级的第二特征信息。其中,第一级分辨率层级的第二特征信息的尺寸为(8,h/8,w/8,32)、第二级分辨率层级的第二特征信息的尺寸为(4,h/16,w/16,64)、第三级分辨率层级的第二特征信息的尺寸为(2,h/32,w/32,128)、第四级分辨率层级的第二特征信息的尺寸为(1,h/64,w/64,256)。
然后将4个分辨率层级的第二特征信息进行级联,也就是将4个分辨率层级的第二特征信息的特征通道数相加,输出特征通道数为480的第一语义特征信息。
深度语义提取网络输出的第一语义特征信息作为输出层的输入,被输入到输出层中处理,得到视频块的评估分数。即由输出层根据第一语义特征信息确定视频块的评估分数。
在一个示例中,视频处理设备根据第一语义特征信息确定视频块的评估分数时,可以对第一语义特征信息进行全连接处理,得到评估分数。
示例性的,输出层可以包括一个神经元个数(units)为256的第一全连接层(dense)和一个神经元个数为1的第二全连接层。例如,当第一语义特征信息的通道数为480时,经过第一全连接层进行特征通道融合后输出特征通道数为256的特征信息。该特征信息的每个特征通道都是对输入的480个特征通道的数据进行非线性组合得到。然后将该特征信息输入到第二全连接层进行处理,将256个特征通道的数据进行非线性组合,输出一个数值。该数值即为视频块的评估分数。
至此,视频评估模型输出一个视频块的评估分数。
当视频处理设备基于视频评估模型,获得每个视频块的评估分数后,即可根据通过计算多个视频块的评估分数的平均值,确定待评估的视频的质量分数。
参见图8,为本申请的另一个实施例的一种视频质量评估方法的示意流程图。主要涉及在执行如图1所示的视频质量评估过程之前,获得视频评估模型的过程。该方法包括:
S801,将训练样本集合中的视频块样本输入初始视频评估模型中处理,得到所述视频块样本的评估分数。
其中,所述训练样本集合包括多个视频块样本及各个视频块样本分别对应的意见得分(Mean Opinion Score,MOS)。
示例性的,训练样本集合可以来自在线公开数据集,例如konvid-1k数据集或者LIVE数据集。可以将在先公开数据集中的受损短视频按照视频评估模型的输入格式要求划分为多个视频块,作为视频块样本。将数据集中每个受损短视频对应的mos作为对应多个视频块样本的mos。然后将所有视频块样本及各个视频块样本对应的mos划分为训练样本集合和验证样本集合。
可以理解的是,初始视频评估模型在训练过程中对应的网络结构,与在应用过程(评估视频块的评估分数)中所对应的网络结构相同。例如,在训练的过程中,初始视频评估模型包括包括输入层、多尺度特征融合网络、深度语义提取网络以及输出层。那么相应地,在通过训练好的视频评估模型评估视频块的评估分数时,视频评估模型也包括包括输入层、多尺度特征融合网络、深度语义提取网络以及输出层。
相应的,将训练样本集合中的视频块样本输入初始视频评估模型中处理,得到所述视频块样本的评估分数的过程,与上述步骤S102中将所述多个视频块分别输入到训练好的视频评估模型中处理,得到所述每个视频块的评估分数的过程类似。
例如,将训练样本集合中的视频块样本输入初始视频评估模型中处理,得到所述视频块样本的评估分数,具体可以包括:对所述视频块样本进行卷积和下采样处理,得到预设格式的第二封装信息;基于所述多种预设尺寸的感受野对所述第二封装信息进行特征提取,得到所述第二多尺度特征信息,所述第二多尺度特征信息用于描述基于所述多种预设尺寸的感受野从所述第二封装信息中提取的特征;对所述第二多尺度特征信息进行深度特征提取,得到第一语义特征信息,所述第二语义特征信息用于描述从所述第二多尺度特征信息中提取的特征;根据所述第二语义特征信息确定所述视频块样本的评估分数。
那么,将训练样本集合中的视频块样本输入初始视频评估模型中处理,得到所述视频块样本的评估分数的具体实现方式,可以参见上述步骤S102中将所述多个视频块分别输入到训练好的视频评估模型中处理,得到所述每个视频块的评估分数的实现方式,此处不在赘述。
一种可选的方式为,为了避免训练好的视频评估模型出现过拟合的情况,可以在初始视频评估模型的输出层的第一全连接层和第二全连接层之间设置剔除层(dropout)。例如,当第二语义特征信息的通道数为480时,经过第一个全连接层进行特征通道融合后输出特征通道数为256的特征信息。然后将该特征信息输入到剔除层,随机删除50%的神经元,防止训练好的视频评估模型过拟合。然后将从剔除层输出的征通道数为256的特征信息输入到第二全连接层进行处理,将256个特征通道的数据进行非线性组合,输出一个数值。该数值即为视频块样本的评估分数。
即在这种可选的方式中,初始视频评估模型的输出层与训练好的视频评估模型的输出层不同。
S802,根据预设的损失函数(loss function)计算所述视频块样本的评估分数和所述视频块样本对应的意见得分之间的损失值。
其中,视频块样本的评估分数和视频块样本对应的意见得分之间的损失值用于衡量评估结果的准确度。
在该示例中,可以利用均方差公式作为损失函数,通过计算评估分数与意见得分之间的均方差,确定损失值。
在得到视频块样本的评估分数与意见得分之间的损失值时,判断损失值是否满足预设条件。当损失值不满足预设条件时,执行S803;当损失值满足预设条件时,执行S804。预设条件可以是损失值小于或等于预设的损失值阈值,也可以是损失值属于预设的误差范围,但并不限于此,还可以根据实际情况进行设置,此处不做限制。
S803,当所述损失值不满足预设条件时,调整所述初始视频评估模型的模型参数,并返回执行所述将视频块样本输入初始视频评估模型中处理,得到所述视频块样本的评估分数的步骤。
例如,假设预设条件为损失值小于或等于预设的损失值阈值。那么,当执行训练过程的设备(例如,视频处理设备,或者其他设备)在确认当前的损失值大于预设的损失值阈值时,判定当前的初始视频评估模型准确度还未达到要求。此时,需要调整初始视频评估模型的模型参数,之后返回S801,继续执行S801和S802,直到在S802中确定的损失值小于或等于预设的损失值阈值时,执行S804。
S804,当所述损失值满足所述预设条件时,停止训练所述初始视频评估模型,并将训练后的所述初始视频评估模型作为所述视频评估模型。
例如,假设预设条件为损失值小于或等于预设的损失值阈值。那么,当执行训练过程的设备在确认当前的损失值小于或者等于预设的损失值阈值时,判定当前的初始视频评估模型的训练符合预期要求,停止训练初始视频评估模型。
此时调整模型参数后的初始视频评估模型经过了大量的样本训练,且其损失值保持在一个较小的范围内,使用该初始视频评估模型对视频块进行处理,可以获得较准确的评估分数。因此,可以确定停止训练时(即最后一次训练完成后)的初始视频评估模型作为视频评估模型。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
请参见图9,图9是本申请实施例提供的视频处理装置的示意图。包括的各单元用于执行图1、图3、图4、图5和图8对应的实施例中的各步骤,具体请参阅图1、图3、图4、图5和图8各自对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图9,视频处理装置9包括:
划分单元91,用于将待评估的视频划分为多个视频块。
评估单元92,用于将所述多个视频块分别输入到训练好的视频评估模型中处理,得到每个视频块的评估分数;其中,所述视频评估模型对所述每个视频块的处理包括提取所述视频块的第一多尺度特征信息,并根据所述第一多尺度特征信息确定所述视频块的评估分数,所述第一多尺度特征信息用于描述基于多种预设尺寸的感受野从所述视频块提取的特征。
第一计算单元93,用于根据所述每个视频块的评估分数,计算所述视频的质量分数。
可选的,所述评估单元92提取所述视频块的第一多尺度特征信息,包括:对所述视频块进行卷积和下采样处理,得到预设格式的第一封装信息;基于所述多种预设尺寸的感受野对所述第一封装信息进行特征提取,得到所述第一多尺度特征信息。
所述评估单元92根据所述第一多尺度特征信息确定所述视频块的评估分数,包括:对所述第一多尺度特征信息进行深度特征提取,得到第一语义特征信息,所述第一语义特征信息用于描述从所述第一多尺度特征信息中提取的特征;根据所述第一语义特征信息确定所述视频块的评估分数。
可选的,所述评估单元92基于所述多种预设尺寸的感受野对所述第一封装信息进行特征提取,得到所述第一多尺度特征信息,包括:根据所述第一封装信息的特征通道数,将所述第一封装信息划分为M个第一特征图信息,M≥2;对所述M个第一特征图信息进行分组卷积操作,获得每个第一特征图信息的K个第二特征图信息,所述K个第二特征图信息的感受野的尺寸分别为预设的K种尺寸;对获得的M×K个第二特征图信息进行交叉融合,得到M个第三特征图信息,其中,每个第三特征图信息用于描述来自不同第一特征图信息且感受野的尺寸不同的K个第二特征图信息的特征融合结果;对所述M个第三特征图信息进行融合处理,得到所述第一多尺度特征信息,所述第一多尺度特征信息的特征通道数与所述第一封装信息的特征通道数相同。
可选的,所述评估单元92根据所述第一封装信息的特征通道数,将所述第一封装信息划分为M个第一特征图信息,包括:对所述第一封装信息进行卷积操作,以将所述第一封装信息的特征通道数从第一特征通道数减小为第二特征通道数;按照所述第二特征通道数将所述第一封装信息平均划分为所述M个第一特征图信息。
可选的,所述评估单元92对获得的M×K个第二特征图信息进行交叉融合,得到M个第三特征图信息,包括:将获得的M×K个第二特征图信息进行M次相加和卷积操作,得到所述M个第三特征图信息;其中,每一次相加和卷积操作针对所述M×K个第二特征图信息中感受野的尺寸不同的K个第二特征图信息;当M≥K时,所述K个第二特征图信息分别对应不同的第一特征图信息;当M<K时,所述K个第二特征图信息中存在M个第二特征图信息,且所述M个第二特征图信息分别对应不同的第一特征图信息。
可选的,当M=K=4时,所述每个第一特征图信息的4个第二特征图信息分别为第一尺寸特征图信息、第二尺寸特征图信息、第三尺寸特征图信息以及第四尺寸特征图信息;所述评估单元92将获得的M×K个第二特征图信息进行M次相加和卷积操作,得到所述M个第三特征图信息,包括:
将第1个第一特征图信息的第一尺寸特征图信息、第2个第一特征图信息的第二尺寸特征图信息、第3个第一特征图信息的第三尺寸特征图信息、第4个第一特征图信息的第四尺寸特征图信息进行相加和卷积操作,得到第1个第三特征图信息;
将第1个第一特征图信息的第四尺寸特征图信息、第2个第一特征图信息的第一尺寸特征图信息、第3个第一特征图信息的第二尺寸特征图信息、第4个第三特征图信息的第三尺寸特征图信息进行相加和卷积操作,得到第2个第三特征图信息;
将第1个第一特征图信息的第三尺寸特征图信息、第2个第一特征图信息的第四尺寸特征图信息、第3个第一特征图信息的第一尺寸特征图信息、第4个第三特征图信息的第二尺寸特征图信息进行相加和卷积操作,得到第3个第三特征图信息;
将第1个第一特征图信息的第二尺寸特征图信息、第2个第一特征图信息的第三尺寸特征图信息、第3个第一特征图信息的第四尺寸特征图信息、第4个第三特征图信息的第一尺寸特征图信息进行相加和卷积操作,得到第4个第三特征图信息。
可选的,所述评估单元92对所述第一多尺度特征信息进行深度特征提取,得到第一语义特征信息,包括:对所述第一多尺度特征信息进行N级级联的下采样和残差卷积处理,得到N个分辨率层级的第一特征信息,N≥2;分别对每一分辨率层级的第一特征信息进行全局池化处理,得到每一分辨率层级的第二特征信息;将得到的N个所述第二特征信息进行级联处理,得到所述第一语义特征信息。
可选的,所述评估单元92根据所述第一语义特征信息确定所述视频块的评估分数,包括:对所述第一语义特征信息进行全连接处理,得到所述评估分数。
可选的,基于图9,如图10所示,所述视频评估装置9还包括:
训练单元94,用于在所述评估单元92将所述多个视频块分别输入到训练好的视频评估模型中处理,得到每个视频块的评估分数之前,将训练样本集合中的视频块样本输入初始视频评估模型中处理,得到所述视频块样本的评估分数;其中,所述训练样本集合包括多个视频块样本及各个视频块样本分别对应的意见得分。
第二计算单元95,用于根据预设的损失函数计算所述视频块样本的评估分数和所述视频块样本对应的意见得分之间的损失值;
调整单元96,用于当所述损失值不满足预设条件时,调整所述初始视频评估模型的模型参数,并返回执行所述将视频块样本输入初始视频评估模型中处理,得到所述视频块样本的评估分数的步骤;
固定单元97,用于当所述损失值满足所述预设条件时,停止训练所述初始视频评估模型,并将训练后的所述初始视频评估模型作为所述视频评估模型。
可选的,所述训练单元94将训练样本集合中的视频块样本输入初始视频评估模型中处理,得到所述视频块样本的评估分数,包括:对所述视频块样本进行卷积和下采样处理,得到预设格式的第二封装信息;基于所述多种预设尺寸的感受野对所述第二封装信息进行特征提取,得到所述第二多尺度特征信息,所述第二多尺度特征信息用于描述基于所述多种预设尺寸的感受野从所述第二封装信息中提取的特征;对所述第二多尺度特征信息进行深度特征提取,得到第一语义特征信息,所述第二语义特征信息用于描述从所述第二多尺度特征信息中提取的特征;根据所述第二语义特征信息确定所述视频块样本的评估分数。
图11是本申请实施例提供的视频处理设备的示意图。如图11所示,该实施例的视频处理设备11包括:处理器110、存储器111以及存储在所述存储器111中并可在所述处理器110上运行的计算机程序112,例如语音识别程序。处理器110执行所述计算机程序112时实现上述各个视频质量评估方法实施例中的步骤,例如图1所示的步骤111至113。或者,所述处理器110执行所述计算机程序112时实现上述各装置实施例中各模块/单元的功能,例如图9所示模块91-97的功能。
示例性的,所述计算机程序112可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器111中,并由处理器110执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序112在所述视频处理设备11中的执行过程。例如,所述计算机程序112可以被分割成获取单元、转换单元、识别单元,各单元具体功能请参阅图5对应地实施例中地相关描述,此处不赘述。
所述视频处理设备11可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述视频处理设备可包括,但不仅限于,处理器110、存储器111。本领域技术人员可以理解,图11仅仅是语音识别备11的示例,并不构成对视频处理设备11的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述视频处理设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器110可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器111可以是所述视频处理设备11的内部存储单元,例如视频处理设备11的硬盘或内存。所述存储器111也可以是所述视频处理设备11的外部存储设备,例如所述视频处理设备11上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。进一步地,所述存储器111还可以既包括所述视频处理设备11的内部存储单元也包括外部存储设备。所述存储器111用于存储所述计算机程序以及所述视频处理设备所需的其他程序和数据。所述存储器111还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述视频质量评估方法。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在视频处理设备上运行时,使得视频处理设备执行时实现可实现上述视频质量评估方法。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (12)

1.一种视频质量评估方法,其特征在于,包括:
将待评估的视频划分为多个视频块,所述视频块包括所述视频的至少一个视频帧;
将所述多个视频块分别输入到已训练的视频评估模型中处理,得到每个视频块的评估分数;其中,所述视频评估模型对所述每个视频块的处理包括提取所述视频块的第一多尺度特征信息,并根据所述第一多尺度特征信息确定所述视频块的评估分数,所述第一多尺度特征信息用于描述基于多种预设尺寸的感受野从所述视频块提取的特征;
根据所述每个视频块的评估分数,计算所述视频的质量分数。
2.根据权利要求1所述的视频质量评估方法,其特征在于,所述提取所述视频块的第一多尺度特征信息,包括:
对所述视频块进行卷积和下采样处理,得到预设格式的第一封装信息;
基于所述多种预设尺寸的感受野对所述第一封装信息进行特征提取,得到所述第一多尺度特征信息;
所述根据所述第一多尺度特征信息确定所述视频块的评估分数,包括:
对所述第一多尺度特征信息进行深度特征提取,得到第一语义特征信息,所述第一语义特征信息用于描述从所述第一多尺度特征信息中提取的特征;
根据所述第一语义特征信息确定所述视频块的评估分数。
3.根据权利要求2所述的视频质量评估方法,其特征在于,所述基于所述多种预设尺寸的感受野对所述第一封装信息进行特征提取,得到所述第一多尺度特征信息,包括:
根据所述第一封装信息的特征通道数,将所述第一封装信息划分为M个第一特征图信息,M≥2,且M为正整数;
对所述M个第一特征图信息进行分组卷积操作,获得每个第一特征图信息的K个第二特征图信息,所述K个第二特征图信息的感受野的尺寸分别为预设的K种尺寸,K≥2,且K为正整数;
对获得的M×K个第二特征图信息进行交叉融合,得到M个第三特征图信息,其中,每个第三特征图信息用于描述来自不同第一特征图信息且感受野的尺寸不同的K个第二特征图信息的特征融合结果;
对所述M个第三特征图信息进行融合处理,得到所述第一多尺度特征信息,所述第一多尺度特征信息的特征通道数与所述第一封装信息的特征通道数相同。
4.根据权利要求3所述的视频质量评估方法,其特征在于,所述根据所述第一封装信息的特征通道数,将所述第一封装信息划分为M个第一特征图信息,包括:
对所述第一封装信息进行卷积操作,以将所述第一封装信息的特征通道数从第一特征通道数减小为第二特征通道数;
按照所述第二特征通道数将所述第一封装信息平均划分为所述M个第一特征图信息。
5.根据权利要求3所述的视频质量评估方法,其特征在于,所述对获得的M×K个第二特征图信息进行交叉融合,得到M个第三特征图信息,包括:
将获得的M×K个第二特征图信息进行M次相加和卷积操作,得到所述M个第三特征图信息;
其中,每一次相加和卷积操作针对所述M×K个第二特征图信息中感受野的尺寸不同的K个第二特征图信息;当M≥K时,所述K个第二特征图信息分别对应不同的第一特征图信息;当M<K时,所述K个第二特征图信息中存在M个第二特征图信息,且所述M个第二特征图信息分别对应不同的第一特征图信息。
6.权利要求5所述的视频质量评估方法,其特征在于,当M=K=4时,所述每个第一特征图信息的4个第二特征图信息分别为第一尺寸特征图信息、第二尺寸特征图信息、第三尺寸特征图信息以及第四尺寸特征图信息;所述将获得的M×K个第二特征图信息进行M次相加和卷积操作,得到所述M个第三特征图信息,包括:
将第1个第一特征图信息的第一尺寸特征图信息、第2个第一特征图信息的第二尺寸特征图信息、第3个第一特征图信息的第三尺寸特征图信息、第4个第一特征图信息的第四尺寸特征图信息进行相加和卷积操作,得到第1个第三特征图;
将第1个第一特征图信息的第四尺寸特征图信息、第2个第一特征图信息的第一尺寸特征图信息、第3个第一特征图信息的第二尺寸特征图信息、第4个第三特征图信息的第三尺寸特征图信息进行相加和卷积操作,得到第2个第三特征图;
将第1个第一特征图信息的第三尺寸特征图信息、第2个第一特征图信息的第四尺寸特征图信息、第3个第一特征图信息的第一尺寸特征图信息、第4个第三特征图信息的第二尺寸特征图信息进行相加和卷积操作,得到第3个第三特征图;
将第1个第一特征图信息的第二尺寸特征图信息、第2个第一特征图信息的第三尺寸特征图信息、第3个第一特征图信息的第四尺寸特征图信息、第4个第三特征图信息的第一尺寸特征图信息进行相加和卷积操作,得到第4个第三特征图。
7.根据权利要求1所述的视频质量评估方法,其特征在于,所述对所述第一多尺度特征信息进行深度特征提取,得到第一语义特征信息,包括:
对所述第一多尺度特征信息进行N级级联的下采样和残差卷积处理,得到N个分辨率层级的第一特征信息,N≥2,N为正整数;
分别对每一分辨率层级的第一特征信息进行全局池化处理,得到每一分辨率层级的第二特征信息;
将得到的N个所述第二特征信息进行级联处理,得到所述第一语义特征信息。
8.根据权利要求2所述的视频质量评估方法,其特征在于,所述根据所述第一语义特征信息确定所述视频块的评估分数,包括:
对所述第一语义特征信息进行全连接处理,得到所述评估分数。
9.根据权利要求1-8任一项所述的视频质量评估方法,其特征在于,所述将所述多个视频块分别输入到训练好的视频评估模型中处理,得到每个视频块的评估分数之前,所述方法还包括:
将训练样本集合中的视频块样本输入初始视频评估模型中处理,得到所述视频块样本的评估分数;其中,所述训练样本集合包括多个视频块样本及各个视频块样本分别对应的意见得分;
根据预设的损失函数计算所述视频块样本的评估分数和所述视频块样本对应的意见得分之间的损失值;
当所述损失值不满足预设条件时,调整所述初始视频评估模型的模型参数,并返回执行所述将视频块样本输入初始视频评估模型中处理,得到所述视频块样本的评估分数的步骤;
当所述损失值满足所述预设条件时,停止训练所述初始视频评估模型,并将训练后的所述初始视频评估模型作为所述视频评估模型。
10.根据权利要求9所述的视频质量评估方法,其特征在于,所述将训练样本集合中的视频块样本输入初始视频评估模型中处理,得到所述视频块样本的评估分数,包括:
对所述视频块样本进行卷积和下采样处理,得到预设格式的第二封装信息;
基于所述多种预设尺寸的感受野对所述第二封装信息进行特征提取,得到第二多尺度特征信息,所述第二多尺度特征信息用于描述基于所述多种预设尺寸的感受野从所述第二封装信息中提取的特征;
对所述第二多尺度特征信息进行深度特征提取,得到第二语义特征信息,所述第二语义特征信息用于描述从所述第二多尺度特征信息中提取的特征;
根据所述第二语义特征信息确定所述视频块样本的评估分数。
11.一种视频处理设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至10任一项所述的视频质量评估方法。
12.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至10任一项所述的视频质量评估方法。
CN201911369917.8A 2019-12-26 2019-12-26 一种视频质量评估方法及装置 Active CN113055666B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911369917.8A CN113055666B (zh) 2019-12-26 2019-12-26 一种视频质量评估方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911369917.8A CN113055666B (zh) 2019-12-26 2019-12-26 一种视频质量评估方法及装置

Publications (2)

Publication Number Publication Date
CN113055666A CN113055666A (zh) 2021-06-29
CN113055666B true CN113055666B (zh) 2022-08-09

Family

ID=76505727

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911369917.8A Active CN113055666B (zh) 2019-12-26 2019-12-26 一种视频质量评估方法及装置

Country Status (1)

Country Link
CN (1) CN113055666B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408470B (zh) * 2021-06-30 2024-03-08 北京达佳互联信息技术有限公司 数据处理方法、装置、电子设备、存储介质及程序产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018052586A1 (en) * 2016-09-14 2018-03-22 Konica Minolta Laboratory U.S.A., Inc. Method and system for multi-scale cell image segmentation using multiple parallel convolutional neural networks
CN108304793A (zh) * 2018-01-26 2018-07-20 北京易真学思教育科技有限公司 在线学习分析系统及方法
CN109376603A (zh) * 2018-09-25 2019-02-22 北京周同科技有限公司 一种视频识别方法、装置、计算机设备及存储介质
CN110312124A (zh) * 2019-07-31 2019-10-08 中国矿业大学 一种基于显著性多特征融合的移动巡检视频质量修正方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101482973B (zh) * 2009-01-21 2010-11-10 西安交通大学 基于早期视觉的部分参考图像质量评价方法
CN104350746A (zh) * 2012-05-31 2015-02-11 汤姆逊许可公司 基于局部幅度和相位谱的图像质量测量
CN107784654B (zh) * 2016-08-26 2020-09-25 杭州海康威视数字技术股份有限公司 图像分割方法、装置及全卷积网络系统
CN106686377B (zh) * 2016-12-30 2018-09-04 佳都新太科技股份有限公司 一种基于深层神经网络的视频重点区域确定方法
CN109886358B (zh) * 2019-03-21 2022-03-08 上海理工大学 基于多时空信息融合卷积神经网络的人体行为识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018052586A1 (en) * 2016-09-14 2018-03-22 Konica Minolta Laboratory U.S.A., Inc. Method and system for multi-scale cell image segmentation using multiple parallel convolutional neural networks
CN108304793A (zh) * 2018-01-26 2018-07-20 北京易真学思教育科技有限公司 在线学习分析系统及方法
CN109376603A (zh) * 2018-09-25 2019-02-22 北京周同科技有限公司 一种视频识别方法、装置、计算机设备及存储介质
CN110312124A (zh) * 2019-07-31 2019-10-08 中国矿业大学 一种基于显著性多特征融合的移动巡检视频质量修正方法

Also Published As

Publication number Publication date
CN113055666A (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
TWI729352B (zh) 卷積神經網路的調整方法及電子裝置
CN110689599B (zh) 基于非局部增强的生成对抗网络的3d视觉显著性预测方法
CN110473137A (zh) 图像处理方法和装置
CN110751649B (zh) 视频质量评估方法、装置、电子设备及存储介质
CN110059728B (zh) 基于注意力模型的rgb-d图像视觉显著性检测方法
CN111445418A (zh) 图像去雾处理方法、装置及计算机设备
CN111582007A (zh) 物体识别方法、装置和网络
CN110136144B (zh) 一种图像分割方法、装置及终端设备
CN111860046B (zh) 一种改进MobileNet模型的人脸表情识别方法
CN110532959B (zh) 基于双通道三维卷积神经网络的实时暴力行为检测系统
CN115631112B (zh) 一种基于深度学习的建筑轮廓矫正方法及装置
CN110222718A (zh) 图像处理的方法及装置
WO2022166258A1 (zh) 行为识别方法、装置、终端设备及计算机可读存储介质
WO2019001323A1 (zh) 信号处理的系统和方法
CN109447023B (zh) 确定图像相似度的方法、视频场景切换识别方法及装置
CN112997479A (zh) 跨阶段跳跃连接处理图像的方法、系统和计算机可读介质
CN110503083A (zh) 一种关键点检测方法、装置及电子设备
US20200218777A1 (en) Signal Processing Method and Apparatus
CN113421242A (zh) 基于深度学习的焊点外观质量检测方法、装置及终端
CN113055666B (zh) 一种视频质量评估方法及装置
CN111814534A (zh) 视觉任务的处理方法、装置和电子系统
CN111784699A (zh) 一种对三维点云数据进行目标分割方法、装置及终端设备
CN110728351A (zh) 数据处理方法、相关设备及计算机存储介质
CN115631330B (zh) 特征提取方法、模型训练方法、图像识别方法及应用
CN116993987A (zh) 一种基于轻量级神经网络模型的图像语义分割方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant