CN110674925A - 基于3d卷积神经网络的无参考vr视频质量评价方法 - Google Patents

基于3d卷积神经网络的无参考vr视频质量评价方法 Download PDF

Info

Publication number
CN110674925A
CN110674925A CN201910810602.6A CN201910810602A CN110674925A CN 110674925 A CN110674925 A CN 110674925A CN 201910810602 A CN201910810602 A CN 201910810602A CN 110674925 A CN110674925 A CN 110674925A
Authority
CN
China
Prior art keywords
video
viewport
convolutional neural
neural network
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910810602.6A
Other languages
English (en)
Other versions
CN110674925B (zh
Inventor
郭杰锋
陈小康
黄联芬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN201910810602.6A priority Critical patent/CN110674925B/zh
Publication of CN110674925A publication Critical patent/CN110674925A/zh
Application granted granted Critical
Publication of CN110674925B publication Critical patent/CN110674925B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

本发明提出了一种基于3D卷积神经网络的无参考VR视频质量评价方法,该方法包括:采用视口生成法获取VR视频中每一帧所对应的多个视口,并将位置相同的视口组合成一个视口视频,以便根据所述VR视频生成多个视口视频;建立3D卷积神经网络模型,并根据生成好的视口视频对所述3D卷积神经网络模型进行训练;基于训练好的3D卷积神经网络模型对待评价VR视频对应的视口视频进行预测,以获得所述待评价VR视频对应的视口视频的MOS值;对属于同一个VR视频的视口视频所对应的MOS值进行池化操作,以获得所述待评价VR视频的最终视频质量分数;由此,该方法充分考虑了VR视频的特性,并采用无参考方式以大大提高VR视频质量评价的效率。

Description

基于3D卷积神经网络的无参考VR视频质量评价方法
技术领域
本发明涉及视频处理技术领域,特别涉及一种基于3D卷积神经网络的无参考VR视频质量评价方法和一种计算机设备。
背景技术
相关技术中,VR视频的客观质量按是否需要参考视频数据,分为全参考、半参考和无参考客观质量评价,由于VR视频与传统视频存在一定的差异,使得传统视频的无参考方法不适合用来评价VR视频的质量,因此现有对于VR视频的质量评价方法中大多采用全参考或部分参考的方式,但是,由于VR视频普遍具有较高的分辨率,所以导致其数据量成倍增长,使得VR视频的参考视频数据量变得特别庞大,导致其难以获取和传输,从而大大降低了VR视频质量评价的效率。
发明内容
本发明旨在至少在一定程度上解决上述技术中的技术问题之一。为此,本发明的一个目的在于提出一种基于3D卷积神经网络的无参考VR视频质量评价方法,该方法充分考虑了VR视频的特性,并采用无参考方式以大大提高VR视频质量评价的效率。
本发明的第二个目的在于提出一种计算机设备。
为达到上述目的,本发明第一方面实施例提出了一种基于3D卷积神经网络的无参考VR视频质量评价方法,该方法包括以下步骤:采用视口生成法获取VR视频中每一帧所对应的多个视口,并将位置相同的视口组合成一个视口视频,以便根据所述VR视频生成多个视口视频;建立3D卷积神经网络模型,并根据生成好的视口视频对所述3D卷积神经网络模型进行训练;基于训练好的3D卷积神经网络模型对待评价VR视频对应的视口视频进行预测,以获得所述待评价VR视频对应的视口视频的MOS值;对属于同一个VR视频的视口视频所对应的MOS值进行池化操作,以获得所述待评价VR视频的最终视频质量分数。
根据本发明实施例的基于3D卷积神经网络的无参考VR视频质量评价方法,首先采用视口生成法获取VR视频中每一帧所对应的多个视口,并将位置相同的视口组合成一个视口视频,以便根据VR视频生成多个视口视频,接着建立3D卷积神经网络模型,并根据生成好的视口视频对3D卷积神经网络模型进行训练,然后基于训练好的3D卷积神经网络模型对待评价VR视频对应的视口视频进行预测,以获得待评价VR视频对应的视口视频的MOS值,最后对属于同一个VR视频的视口视频所对应的MOS值进行池化操作,以获得待评价VR视频的最终视频质量分数;由此,通过充分考虑VR视频的特性,并采用无参考方式以大大提高VR视频质量评价的效率。
另外,根据本发明上述实施例提出的基于3D卷积神经网络的无参考VR视频质量评价方法还可以具有如下附加的技术特征:
可选地,建立所述3D卷积神经网络模型,并根据生成好的视口视频对所述3D卷积神经网络模型进行训练,包括:将VR视频根据视频的MOS值分为十类,以构建一个十分类网络结构,并通过3D卷积神经网络构建一个回归预测网络结构,通过迁移学习将所述十分类网络结构保存的模型参数作为回归预测模型的预训练模型以训练回归预测模型;根据随机梯度下降法,将所述多个视口视频分批次输入到所述十分类网络结构中以训练分类模型,并通过迁移学习将所述分类模型作为回归预测模型的预训练模型以训练回归预测模型,并经过多次迭代以获取所述3D卷积神经网络模型。
可选地,通过以下公式对VR视频中的视口进行提取:
Figure BDA0002184940850000021
Figure BDA0002184940850000022
Figure BDA0002184940850000023
其中,E表示球面上的一个点,e′表示该点在视口上映射的二维齐次坐标,R表示旋转矩阵,k表示三维坐标到二维坐标的变换矩阵,cx和cy表示视口纹理坐标的中心点,fx和fy表示以像素表示的焦距,w表示视口的宽,fovx表示视口。
可选地,所述视口视频通过以下公式生成:
Figure BDA0002184940850000024
其中,NV表示每一帧VR视频切割出的视口视频数,n的取值范围为[0,T-1]的正整数,T表示南半球或北半球中心点分布的纬度线数量,Sn表示第n条纬度线上切割的视口数。
可选地,若W×cos(n×90°/T)/w为整数,则Sn=W×cos(n×90°/T)/w,;
若W×cos(n×90°/T)/w不为整数,则Sn=W×cos(n×90°/T)/w+1;
其中,W表示VR视频图片帧的宽,w表示视口的宽。
可选地,所述十分类网络结构包括八个卷积层、五个池化层、两个全连接层和一个十分类输出层,其中,所述十分类输出层经过softmax计算以获得分类结果,卷积时采用Padding方法,损失函数使用softmax的交叉熵函数。
可选地,所述回归预测网络结构包括八个卷积层、五个池化层、两个全连接层和一个回归预测节点,其中,激活函数使用整流线性单元,卷积时采用Padding方法,损失函数使用MSE损失函数。
可选地,所述交叉熵函数通过以下公式表述:
其中,y表示MOS值,
Figure BDA0002184940850000032
表示预测分。
可选地,所述MSE损失函数通过以下公式表述:
Figure BDA0002184940850000033
其中,y表示MOS值,
Figure BDA0002184940850000034
表示预测分,N表示共有N个VR视频。
为达到上述目的,本发明第二方面实施例提出了一种计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上述的基于3D卷积神经网络的无参考VR视频质量评价方法。
根据本发明实施例的计算机设备,通过存储器存储基于3D卷积神经网络的无参考VR视频质量评价程序,这样基于3D卷积神经网络的无参考VR视频质量评价程序被处理器执行时实现上述的基于3D卷积神经网络的无参考VR视频质量评价方法,通过充分考虑VR视频的特性,并采用无参考方式以大大提高VR视频质量评价的效率。
附图说明
图1为根据本发明实施例的基于3D卷积神经网络的无参考VR视频质量评价方法的流程示意图;
图2为根据本发明实施例的VR视频的视口示意图;
图3为根据本发明实施例的VR视频的视口分割示意图;
图4为根据本发明实施例的4个视口ERP投影图;
图5为根据本发明实施例的100个视口ERP投影图;
图6为根据本发明实施例的视口球面投影图,其中(a)为视口球面投影正视图,(b)为视口球面投影俯视图;
图7为根据本发明实施例的VR视频质量评价分类网络结构的结构示意图;
图8为根据本发明实施例的VR视频质量评价回归预测网络结构的结构示意图
图9为根据本发明实施例的VR视频观看方式示意图,其中,(a)为平面模型观看方式,(b)为球面模型观看方式;
图10为根据本发明实施例的VR视频在2D平面出现扭曲的示意图;
图11为根据本发明实施例的视口切割法对比图,其中,(a)为普通切割示意图,(b)为视口切割示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
为了更好的理解上述技术方案,下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
图1为根据本发明实施例的基于3D卷积神经网络的无参考VR视频质量评价方法的流程示意图,如图1所示,本发明实施例的基于3D卷积神经网络的无参考VR视频质量评价方法包括以下步骤:
步骤101,采用视口生成法获取VR视频中每一帧所对应的多个视口,并将位置相同的视口组合成一个视口视频,以便根据VR视频生成多个视口视频。
也就是说,通过视口生成法获取VR视频中每一帧所对应的多个视口,并将不同帧之间的位置相同的视口组合成一个视口视频,从而根据该VR视频生成多个视口视频。
作为一个实施例,通过以下公式对VR视频中的视口进行提取:
Figure BDA0002184940850000041
Figure BDA0002184940850000042
Figure BDA0002184940850000043
其中,E表示球面上的一个点,e′表示该点在视口上映射的二维齐次坐标,R表示旋转矩阵,k表示三维坐标到二维坐标的变换矩阵,cx和cy表示视口纹理坐标的中心点,fx和fy表示以像素表示的焦距,w表示视口的宽,fovx表示视口。
需要说明的是,作为一个实施例,如图1所示,E=[x,y,z]T表示球面上的一个点,e′=[x′,y′,z′]T表示该点在视口上映射的二维齐次坐标,其中z′=0,R表示旋转矩阵,k表示三维坐标到二维坐标的变换矩阵,其中cx和cy表示视口纹理坐标的中心点O′,fx和fy表示以像素表示的焦距,w表示视口在像素域上的宽,fovx表示在视口,即HMD中每只眼睛能看到的水平视野。
作为一个实施例,视口视频通过以下公式生成:
Figure BDA0002184940850000051
其中,NV表示每一帧VR视频切割出的视口视频数,n的取值范围为[0,T-1]的正整数,T表示南半球或北半球中心点分布的纬度线数量,Sn表示第n条纬度线上切割的视口数。
需要说明的是,若W×cos(n×90°/T)/w为整数,则Sn=W×cos(n×90°/)/w;若W×cos(n×90°/T)/w不为整数,则Sn=W×cos(n×90°/)/w+1;其中,W表示VR视频图片帧的宽,w表示视口的宽。
需要说明的是,作为一个具体实施例,假设数据库内的VR视频分辨率为W×H,W表示VR视频图片帧的宽,H表示VR视频图片帧的高,每个VR视频包含L帧,将每个视口视频的分辨率设置为w×h,w表示视口视频图片帧的宽,h表示视口视频图片帧的高,切割时时域上采用无重叠切割方式,而在空域上切割方式采用有重叠切割方式。在时域上以每l帧作为一个短视频,可以将每个L帧的VR视频分割为L/l个VR短视频;在空域上,为了解决过采样的问题,将按以下方式对VR视频进行视口分割。
如图3所示,ABCD和A'B'C'D'表示两个视口,每个视口的分辨率是w×h,视口靠近赤道方向的边缘不重叠,越接近极点重叠越多,阴影部分表示视口重叠的部分,由于经度是等长的,因此在经度方向上,视口视频之间切割时是否重叠取决于H/h是否为整数,若为整数,则不重叠,若不为整数,则重叠。
以北半球为例,令T表示北半球中心点分布的纬度线数量,若H/2h为整数,则T=H/2h,若H/2h不为整数,则T=(H/2h)+1。则南北半球总的经度方向上可分割出2T个视口视频,即所有视口视频的中心点将会分布在2T条纬度线上,呈南北对称分布,规定北半球纬度为正,南半球纬度为负,以北半球为例,中心点分布的纬度线应遵循如下规律(2n+1)×90°/2T,n取值为0,1,2…(T-1)。
由于越靠近极点,采样率越高,所以纬度上的采样不能采取等分,而是采取重叠方式。在北半球,纬度是根据视口视频的下边缘不重叠来划分的,因此视口视频的顶部会产生重叠,南半球则正好相反。以北半球为例,视口视频下边缘的纬度遵循如下规律n×90°/T,n取值为0,1,2…(T-1),因此在纬度上切割遵循如下规律W×cos(n×90°/T)/w,n取值为0,1,2…(T-1)。令Sn表示第n条纬度线上切割的视口数,若W×cos(n×90°/T)/w为整数,则Sn=W×cos(n×90°/T)/w,若W×cos(n×90°/T)/w不为整数,则Sn=W×cos(n×90°/T)/w+1。则每一帧VR视频可以切割出的视口视频数为:
Figure BDA0002184940850000061
该方法越靠近极点,切割的视口视频越少,因此能解决过采样问题。每个VR视频可以使用视口切割法分割出NVL/l个视口视频。其中,图4-图6分别为用此方法产生的视口在ERP上的投影关系和在球面的投影关系。
需要说明的是,视口视频图片帧的宽与视口的宽相同。
步骤102,建立3D卷积神经网络模型,并根据生成好的视口视频对3D卷积神经网络模型进行训练。
作为一个实施例,建立3D卷积神经网络模型,并根据生成好的视口视频对3D卷积神经网络模型进行训练,包括:
将VR视频根据视频的MOS值分为十类,以构建一个十分类网络结构,并通过3D卷积神经网络构建一个回归预测网络结构,通过迁移学习将十分类网络结构保存的模型参数作为回归预测模型的预训练模型以训练回归预测模型;
根据随机梯度下降法,将多个视口视频分批次输入到十分类网络结构中以训练分类模型,并通过迁移学习将分类模型作为回归预测模型的预训练模型以训练回归预测模型,并经过多次迭代以获取3D卷积神经网络模型。
需要说明的是,十分类网络结构包括八个卷积层、五个池化层、两个全连接层和一个十分类输出层,其中,十分类输出层经过softmax计算以获得分类结果,卷积时采用Padding方法,损失函数使用softmax的交叉熵函数;并且该交叉熵函数通过以下公式表述:
Figure BDA0002184940850000062
其中,y表示MOS值,
Figure BDA0002184940850000063
表示预测分。
需要说明的是,回归预测网络结构包括八个卷积层、五个池化层、两个全连接层和一个回归预测节点,其中,激活函数使用整流线性单元,卷积时采用Padding方法,损失函数使用MSE损失函数;并且该MSE损失函数通过以下公式表述:
Figure BDA0002184940850000064
其中,y表示MOS值,
Figure BDA0002184940850000065
表示预测分,N表示共有N个VR短视频。
作为一个具体实施例,首先,使用3D卷积神经网络构成一个十分类网络结构,并将VR视频根据视频的MOS值分为十类,其中0-10分为第一类,10-20分为第二类,以此类推,90-100为第十类;网络中包含八个卷积层、五个池化层、两个全连接层和一个十分类的输出层,输出层经过softmax计算后得出分类结果,卷积时使用Padding方法,采用Dropout策略防止过拟合,损失函数使用softmax的交叉熵函数,交叉熵公式通过以下公式表述:
Figure BDA0002184940850000071
其中,y表示MOS值,
Figure BDA0002184940850000072
表示预测分;其中,分类网络结构如图7所示。
接着,使用3D卷积神经网络构建一个回归预测网络结构,利用迁移学习,加载十分类网络结构分类保存的模型参数,作为回归预测模型的预训练模型,然后训练回归预测模型。网络中包含八个卷积层、五个池化层、两个全连接层和一个回归预测节点,激活函数使用整流线性单元(ReLU),卷积时使用Padding方法,采用Dropout策略防止过拟合,损失函数使用MSE损失函数,该MSE损失函数通过以下公式表述:
其中,y表示MOS值,
Figure BDA0002184940850000074
表示预测分,N表示共有N个VR短视频,回归预测网络结构如图8所示。
最后,使用随机梯度下降法,分批次训练网络,每次输入一个batch的视口视频,先训练分类网络,分类网络的标签是该VR视频的所属类别,之后使用迁移学习加载分类网络训练好的模型,作为回归预测网络的预训练模型,然后训练回归预测网络,网络的标签为视口视频所属原视频的MOS值,经过多次迭代后网络各层权重得到充分优化,最终获得可评价VR视频质量的3D卷积神经网络模型。
需要说明的是,回归预测网络训练时先随机从VR视频数据库中选出N1个VR视频,再分别从这N1个VR视频切割出的视口视频中随机选取N2个视口视频,组成N1×N2个视口视频放入网络中进行训练,训练时属于同一个VR视频的N2个视口视频预测分先做池化操作再输入损失函数中训练。
步骤103,基于训练好的3D卷积神经网络模型对待评价VR视频对应的视口视频进行预测,以获得待评价VR视频对应的视口视频的MOS值。
步骤104,对属于同一个VR视频的视口视频所对应的MOS值进行池化操作,以获得待评价VR视频的最终视频质量分数。
作为一个实施例,将测试集中的待评价的视口视频输入回归预测网络中,得到各个待评价视口视频的预测分,然后将所有属于同一个VR视频的视口视频所对应的预测分做池化操作得到最终的VR视频的质量分数。
根据本发明实施例的基于3D卷积神经网络的无参考VR视频质量评价方法,首先采用视口生成法获取VR视频中每一帧所对应的多个视口,并将位置相同的视口组合成一个视口视频,以便根据VR视频生成多个视口视频,接着建立3D卷积神经网络模型,并根据生成好的视口视频对3D卷积神经网络模型进行训练,然后基于训练好的3D卷积神经网络模型对待评价VR视频对应的视口视频进行预测,以获得待评价VR视频对应的视口视频的MOS值,最后对属于同一个VR视频的视口视频所对应的MOS值进行池化操作,以获得待评价VR视频的最终视频质量分数;由此,通过充分考虑VR视频的特性,并采用无参考方式以大大提高VR视频质量评价的效率。
另外,本发明使用4个常用的衡量质量评价算法的指标以评估本发明方法的性能,分别是皮尔逊相关系数(PCC,Pearson Correlation Coefficient)、斯皮尔曼等级相关系数(SRCC,Spearman Rank Correlation Coefficient)、均方根误差(RMSE,Root MeanSquare Error)和平均绝对误差(MAE,Mean Absolute Error)。其中,PCC和SRCC的取值范围均为-1到1,越接近1表示两者正相关度越高,越接近-1,表示两者负相关程度越高。RMSE和MAE取值均需大于0,数值越接近0,代表结果差异越小,即结果越好。
为了验证本发明对于VR视频质量评价的有效性,本发明与现有的VR视频质量评价方法进行对比验证,如下表1所示;表1中全参考方法是现有的PSNR相关法,无参考是本发明提出的方法,测试时网络输入使用3×16×224×224,3表示颜色通道,16表示视频帧数,224×224表示视频分辨率。
表1结果分析
Figure BDA0002184940850000081
综上所述,本发明所提出的基于3D卷积神经网络的无参考VR视频质量评价方法充分利用了VR视频的特性,采用视口生成法对VR视频库进行预处理,视口生成能最大限度还原用户实际上看到的VR视频内容,其中,图9为VR视频的观看方式,图10为VR视频在ERP投影上产生扭曲,图11为使用普通切割和视口生成的效果,由此可以看到使用视口生成消除了扭曲,另外,本发明采用3D卷积神经网络构建深度学习模型,不仅能提取空间域信息,也能够提取时间域信息,从而能够提取VR视频更高维度的特征,且训练过程为端到端,无需人工提取特征。并且本方法得到的VR视频质量客观评价结果与主观评价结果具有较高的一致性,能够较为准确的反映VR视频的质量。
另外,本发明实施例还提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上述的基于3D卷积神经网络的无参考VR视频质量评价方法。
根据本发明实施例的计算机设备,通过存储器存储基于3D卷积神经网络的无参考VR视频质量评价程序,这样基于3D卷积神经网络的无参考VR视频质量评价程序被处理器执行时实现上述的基于3D卷积神经网络的无参考VR视频质量评价方法,通过充分考虑VR视频的特性,并采用无参考方式以大大提高VR视频质量评价的效率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不应理解为必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于3D卷积神经网络的无参考VR视频质量评价方法,其特征在于,包括以下步骤:
采用视口生成法获取VR视频中每一帧所对应的多个视口,并将位置相同的视口组合成一个视口视频,以便根据所述VR视频生成多个视口视频;
建立3D卷积神经网络模型,并根据生成好的视口视频对所述3D卷积神经网络模型进行训练;
基于训练好的3D卷积神经网络模型对待评价VR视频对应的视口视频进行预测,以获得所述待评价VR视频对应的视口视频的MOS值;
对属于同一个VR视频的视口视频所对应的MOS值进行池化操作,以获得所述待评价VR视频的最终视频质量分数。
2.如权利要求1所述的基于3D卷积神经网络的无参考VR视频质量评价方法,其特征在于,建立所述3D卷积神经网络模型,并根据生成好的视口视频对所述3D卷积神经网络模型进行训练,包括:
将VR视频根据视频的MOS值分为十类,以构建一个十分类网络结构,并通过3D卷积神经网络构建一个回归预测网络结构,通过迁移学习将所述十分类网络结构保存的模型参数作为回归预测模型的预训练模型以训练回归预测模型;
根据随机梯度下降法,将所述多个视口视频分批次输入到所述十分类网络结构中以训练分类模型,并通过迁移学习将所述分类模型作为回归预测模型的预训练模型以训练回归预测模型,并经过多次迭代以获取所述3D卷积神经网络模型。
3.如权利要求1所述的基于3D卷积神经网络的无参考VR视频质量评价方法,其特征在于,通过以下公式对VR视频中的视口进行提取:
Figure FDA0002184940840000011
Figure FDA0002184940840000012
Figure FDA0002184940840000013
其中,E表示球面上的一个点,e′表示该点在视口上映射的二维齐次坐标,R表示旋转矩阵,k表示三维坐标到二维坐标的变换矩阵,cx和cy表示视口纹理坐标的中心点,fx和fy表示以像素表示的焦距,w表示视口的宽,fovx表示视口。
4.如权利要求1所述的基于3D卷积神经网络的无参考VR视频质量评价方法,其特征在于,所述视口视频通过以下公式生成:
Figure FDA0002184940840000021
其中,NV表示每一帧VR视频切割出的视口视频数,n的取值范围为[0,T-1]的正整数,T表示南半球或北半球中心点分布的纬度线数量,S×表示第n条纬度线上切割的视口数。
5.如权利要求4所述的基于3D卷积神经网络的无参考VR视频质量评价方法,其特征在于,
若W×cos(n×90°/T)/w为整数,则Sn=W×cos(n×90°/T)/w;
若W×cos(n×90°/T)/w不为整数,则Sn=W×cos(n×90°/T)/w+1;
其中,W表示VR视频图片帧的宽,w表示视口的宽。
6.如权利要求2所述的基于3D卷积神经网络的无参考VR视频质量评价方法,其特征在于,所述十分类网络结构包括八个卷积层、五个池化层、两个全连接层和一个十分类输出层,其中,所述十分类输出层经过softmax计算以获得分类结果,卷积时采用Padding方法,损失函数使用softmax的交叉熵函数。
7.如权利要求2所述的基于3D卷积神经网络的无参考VR视频质量评价方法,其特征在于,所述回归预测网络结构包括八个卷积层、五个池化层、两个全连接层和一个回归预测节点,其中,激活函数使用整流线性单元,卷积时采用Padding方法,损失函数使用MSE损失函数。
8.如权利要求6所述的基于3D卷积神经网络的无参考VR视频质量评价方法,其特征在于,所述交叉熵函数通过以下公式表述:
Figure FDA0002184940840000022
其中,y表示MOS值,
Figure FDA0002184940840000023
表示预测分。
9.如权利要求7所述的基于3D卷积神经网络的无参考VR视频质量评价方法,其特征在于,所述MSE损失函数通过以下公式表述:
Figure FDA0002184940840000024
其中,y表示MOS值,
Figure FDA0002184940840000025
表示预测分,N表示共有N个VR视频。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如权利要求1-9中任一项所述的基于3D卷积神经网络的无参考VR视频质量评价方法。
CN201910810602.6A 2019-08-29 2019-08-29 基于3d卷积神经网络的无参考vr视频质量评价方法 Active CN110674925B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910810602.6A CN110674925B (zh) 2019-08-29 2019-08-29 基于3d卷积神经网络的无参考vr视频质量评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910810602.6A CN110674925B (zh) 2019-08-29 2019-08-29 基于3d卷积神经网络的无参考vr视频质量评价方法

Publications (2)

Publication Number Publication Date
CN110674925A true CN110674925A (zh) 2020-01-10
CN110674925B CN110674925B (zh) 2023-04-18

Family

ID=69075912

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910810602.6A Active CN110674925B (zh) 2019-08-29 2019-08-29 基于3d卷积神经网络的无参考vr视频质量评价方法

Country Status (1)

Country Link
CN (1) CN110674925B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112004078A (zh) * 2020-08-20 2020-11-27 厦门大学 基于生成对抗网络的虚拟现实视频质量评价方法及系统
WO2022193211A1 (en) * 2021-03-18 2022-09-22 Intel Corporation Real-time adaptive correction in viewport prediction for improved immersive video
CN115550609A (zh) * 2022-09-19 2022-12-30 上海永天科技股份有限公司 一种可实现自动适配的楼宇物联网监控系统
WO2023036045A1 (zh) * 2021-09-09 2023-03-16 中兴通讯股份有限公司 模型训练方法、视频质量评估方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105160678A (zh) * 2015-09-02 2015-12-16 山东大学 基于卷积神经网络的无参考立体图像质量评估方法
WO2017177661A1 (zh) * 2016-04-15 2017-10-19 乐视控股(北京)有限公司 基于卷积神经网络的视频检索方法及系统
CN107959848A (zh) * 2017-12-08 2018-04-24 天津大学 基于三维卷积神经网络的通用型无参考视频质量评价算法
CN108269250A (zh) * 2017-12-27 2018-07-10 武汉烽火众智数字技术有限责任公司 基于卷积神经网络评估人脸图像质量的方法和装置
CN108924542A (zh) * 2018-05-24 2018-11-30 天津大学 基于显著性和稀疏性的无参考立体视频质量评价方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105160678A (zh) * 2015-09-02 2015-12-16 山东大学 基于卷积神经网络的无参考立体图像质量评估方法
WO2017177661A1 (zh) * 2016-04-15 2017-10-19 乐视控股(北京)有限公司 基于卷积神经网络的视频检索方法及系统
CN107959848A (zh) * 2017-12-08 2018-04-24 天津大学 基于三维卷积神经网络的通用型无参考视频质量评价算法
CN108269250A (zh) * 2017-12-27 2018-07-10 武汉烽火众智数字技术有限责任公司 基于卷积神经网络评估人脸图像质量的方法和装置
CN108924542A (zh) * 2018-05-24 2018-11-30 天津大学 基于显著性和稀疏性的无参考立体视频质量评价方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王志明: "无参考图像质量评价综述", 《自动化学报》 *
陈小康: "基于3D卷积神经网络的VR视频质量评价方法", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112004078A (zh) * 2020-08-20 2020-11-27 厦门大学 基于生成对抗网络的虚拟现实视频质量评价方法及系统
CN112004078B (zh) * 2020-08-20 2021-09-03 厦门大学 基于生成对抗网络的虚拟现实视频质量评价方法及系统
WO2022193211A1 (en) * 2021-03-18 2022-09-22 Intel Corporation Real-time adaptive correction in viewport prediction for improved immersive video
WO2023036045A1 (zh) * 2021-09-09 2023-03-16 中兴通讯股份有限公司 模型训练方法、视频质量评估方法、装置、设备及介质
CN115550609A (zh) * 2022-09-19 2022-12-30 上海永天科技股份有限公司 一种可实现自动适配的楼宇物联网监控系统

Also Published As

Publication number Publication date
CN110674925B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN110674925B (zh) 基于3d卷积神经网络的无参考vr视频质量评价方法
CN110555434B (zh) 一种局部对比和全局指导的立体图像视觉显著性检测方法
Wang et al. Detect globally, refine locally: A novel approach to saliency detection
CN108428227B (zh) 基于全卷积神经网络的无参考图像质量评价方法
CN111182292B (zh) 无参考视频质量评估方法、系统、视频接收器、智能终端
CN105657402B (zh) 一种深度图恢复方法
CN109727246A (zh) 一种基于孪生网络的对比学习图像质量评估方法
CN105160678A (zh) 基于卷积神经网络的无参考立体图像质量评估方法
CN110059728B (zh) 基于注意力模型的rgb-d图像视觉显著性检测方法
CN110570363A (zh) 基于带有金字塔池化与多尺度鉴别器的Cycle-GAN的图像去雾方法
CN108389192A (zh) 基于卷积神经网络的立体图像舒适度评价方法
CN113435282B (zh) 基于深度学习的无人机影像麦穗识别方法
CN110210492B (zh) 一种基于深度学习的立体图像视觉显著性检测方法
CN112004078B (zh) 基于生成对抗网络的虚拟现实视频质量评价方法及系统
CN112818969A (zh) 一种基于知识蒸馏的人脸姿态估计方法及系统
CN110516716A (zh) 基于多分支相似度网络的无参考图像质量评价方法
CN107491734A (zh) 基于多核融合与空间Wishart LapSVM的半监督极化SAR图像分类方法
CN110826411B (zh) 一种基于无人机图像的车辆目标快速识别方法
Fu et al. Blind image quality assessment for multiply distorted images via convolutional neural networks
CN111047543A (zh) 图像增强方法、装置和存储介质
CN110827312A (zh) 一种基于协同视觉注意力神经网络的学习方法
Kim et al. Deep blind image quality assessment by employing FR-IQA
CN104574391A (zh) 一种基于自适应特征窗口的立体视觉匹配方法
CN114663880A (zh) 基于多层级跨模态自注意力机制的三维目标检测方法
CN117422619A (zh) 图像重建模型的训练方法、图像重建方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant