CN108235058B - 视频质量处理方法、存储介质和终端 - Google Patents

视频质量处理方法、存储介质和终端 Download PDF

Info

Publication number
CN108235058B
CN108235058B CN201810031214.3A CN201810031214A CN108235058B CN 108235058 B CN108235058 B CN 108235058B CN 201810031214 A CN201810031214 A CN 201810031214A CN 108235058 B CN108235058 B CN 108235058B
Authority
CN
China
Prior art keywords
video
quality
video frame
enhanced
processing method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810031214.3A
Other languages
English (en)
Other versions
CN108235058A (zh
Inventor
王学文
王雷
胡骁东
林宪晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Cubesili Information Technology Co Ltd
Original Assignee
Guangzhou Cubesili Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Cubesili Information Technology Co Ltd filed Critical Guangzhou Cubesili Information Technology Co Ltd
Priority to CN201810031214.3A priority Critical patent/CN108235058B/zh
Publication of CN108235058A publication Critical patent/CN108235058A/zh
Application granted granted Critical
Publication of CN108235058B publication Critical patent/CN108235058B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234327Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into layers, e.g. base layer and one or more enhancement layers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/86Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving reduction of coding artifacts, e.g. of blockiness
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234363Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering the spatial resolution, e.g. for clients with a lower screen resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/2662Controlling the complexity of the video stream, e.g. by scaling the resolution or bitrate of the video stream based on the client capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440227Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by decomposing into layers, e.g. base layer and one or more enhancement layers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440263Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the spatial resolution, e.g. for displaying on a connected PDA

Abstract

本发明提供一种视频质量处理方法、存储介质和终端,以解决现有技术中存在的视频质量增强效果较差的问题。所述的方法包括步骤:构建视频帧的训练样本;基于所述训练样本对卷积神经网络模型进行训练,获得视频质量增强模型,其中,所述卷积神经网络模型包含依序排列的第一卷积层集合、残差模块集合、第一像素重排模块或者第一反卷积模块、第二卷积层集合、第二像素重排模块或者第二反卷积模块、第三卷积层集合;获取质量待增强的视频帧,并输入所述视频质量增强模型,获得质量增强后的视频帧。本发明实施例能够实现较好的视频质量增强效果。

Description

视频质量处理方法、存储介质和终端
技术领域
本发明涉及互联网技术领域,具体而言,本发明涉及一种视频质量处理方法、存储介质和终端。
背景技术
由于受存储空间与网络传输带宽的限制,在对视频进行存储或传输之前通常需要采用低码率的压缩编码方式对视频进行压缩,在这一过程中视频质量大为下降,经常会出现模糊、编码块状效应等影响观众观感的不良效应。传统的视频质量增强方法包括去噪、缩放插值、去编码块状效应等方法,但是这些方法对视频质量增强的效果较差。
发明内容
本发明针对现有方式的缺点,提出一种视频质量处理方法、存储介质和终端,用以解决现有技术中存在的视频质量增强效果较差的问题,以实现较好的视频质量增强效果。
本发明的实施例根据第一个方面,提供了一种视频质量处理方法,包括步骤:
构建视频帧的训练样本;
基于所述训练样本对卷积神经网络模型进行训练,获得视频质量增强模型,其中,所述卷积神经网络模型包含依序排列的第一卷积层集合、残差模块集合、第一像素重排模块或者第一反卷积模块、第二卷积层集合、第二像素重排模块或者第二反卷积模块、第三卷积层集合;
获取质量待增强的视频帧,并输入所述视频质量增强模型,获得质量增强后的视频帧。
本实施例提供的视频质量处理方法,基于自行设计的深度学习中的卷积神经网络模型对视频质量进行增强,能够集去噪、超分辨率、去编码块状效应等多种视频质量增强效果于一体,同时实现多种增强效果,得到更为清晰、高质量的视频,效果远超传统技术中的视频质量增强方法。
在一个实施例中,所述第一卷积层集合包含两个卷积层,所述残差模块集合包含三个残差模块,所述第二卷积层集合和所述第三卷积层集合均包含一个卷积层。
本实施例所提供的卷积神经网络模型不仅能够实现较好的视频质量增强效果,而且计算量较小,能够实现对视频的实时处理。
在一个实施例中,所述获取质量待增强的视频帧,包括:
接收用户上传的编码后的视频流;
对所述视频流进行解码,获得质量待增强的视频帧。
在一个实施例中,所述获得质量增强后的视频帧之后,还包括:
对质量增强后的视频帧进行编码,获得编码后的视频流,并将编码后的视频流分发给各个客户端。
本实施例在服务器端部署本发明实施例提出的视频质量处理方法,将用户上传的低质量视频增强为高质量视频再分发给客户端进行观看,解决了由于上传端网络不佳需要使用低码率编码视频才能实时上传视频数据到服务器,使得用户最终观看到的视频质量较差的问题。
在一个实施例中,所述获取质量待增强的视频帧,包括:
接收服务器端分发的编码后的视频流;
对所述视频流进行解码,获得质量待增强的视频帧。
在一个实施例中,所述获得质量增强后的视频帧之后,还包括:
播放质量增强后的视频帧。
本实施例在客户端部署本发明实施例提出的视频质量处理方法,将客户端接收到的低质量视频增强为高质量视频直接播放给用户观看,解决了由于上传端网络不佳需要使用低码率编码视频才能实时上传视频数据到服务器,使得用户最终观看到的视频质量较差的问题,以及解决了由于客户端的网络环境较差只能从服务器实时下载低码率编码视频,使得用户看到的视频质量较差的问题。
在一个实施例中,所述并输入所述视频质量增强模型之前,还包括:
对所述视频质量增强模型执行剪枝、蒸馏、量化和稀疏化中的任意一种操作或者任意几种操作。
本实施例通过对视频质量增强模型执行剪枝、蒸馏、量化和稀疏化中的任意一种操作或者任意几种操作,实现了对视频质量增强模型的压缩,降低了计算复杂度,因此能够应用在计算力较低的设备中。
在一个实施例中,所述构建视频帧的训练样本,包括:
获取多个第一视频帧以及每个第一视频帧对应的第二视频帧,其中,所述第一视频帧的分辨率高于对应的第二视频帧的分辨率;
从每个第一视频帧及其对应的第二视频帧的同一位置分别提取预设尺寸的子图,将提取的各个子图作为训练样本。
本实施例将选取的子图作为训练样本,在保证模型精度的同时降低了计算量。
本发明的实施例根据第二个方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述任意一项所述的视频质量处理方法。
本实施例提供的计算机可读存储介质,基于自行设计的深度学习中的卷积神经网络模型对视频质量进行增强,能够集去噪、超分辨率、去编码块状效应等多种视频质量增强效果于一体,同时实现多种增强效果,得到更为清晰、高质量的视频,效果远超传统技术中的视频质量增强方法。
本发明的实施例根据第三个方面,还提供了一种终端,所述终端包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至8中任意一项所述的视频质量处理方法。
本实施例提供的终端,基于自行设计的深度学习中的卷积神经网络模型对视频质量进行增强,能够集去噪、超分辨率、去编码块状效应等多种视频质量增强效果于一体,同时实现多种增强效果,得到更为清晰、高质量的视频,效果远超传统技术中的视频质量增强方法。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明一个实施例的视频质量处理方法的流程示意图;
图2为本发明一个实施例的卷积神经网络模型的结构示意图;
图3为本发明一个具体实施例的终端的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal Communications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本技术领域技术人员可以理解,这里所使用的服务器、云端、远端网络设备等概念,具有等同效果,其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。本发明的实施例中,远端网络设备、终端设备与WNS服务器之间可通过任何通信方式实现通信,包括但不限于,基于3GPP、LTE、WIMAX的移动通信、基于TCP/IP、UDP协议的计算机网络通信以及基于蓝牙、红外传输标准的近距无线传输方式。
有必要先对本发明的研究背景进行简单介绍。
近年来,深度学习技术得到快速发展与应用,得益于大量数据的积累,以及计算性能的提高,训练复杂的神经网络模型变得可能。在图像识别,物体追踪,视频理解,图像去噪、图像超分辨率等计算机视觉领域深度学习都取得了很好的效果。发明人经研究发现,基于深度学习中的全卷积神经网络实现端到端的视频质量增强,能够集去噪、超分辨率、去编码块状效应等多种视频质量增强效果与一体,一个方法实现多种增强效果,同时效果远超传统视频增强方法,且通过对全卷积网络进行特别设计,使用高效的算法实现可以做到对视频实时增强。因此,基于该研究发现,本发明实施例提出了一种新的视频质量处理的方法,能够将压缩后的低质量视频进行处理后得到更为清晰、高质量的视频。
下面结合附图对本发明的具体实施方式进行详细介绍。
如图1所示,为一实施例的视频质量处理方法的流程示意图,该方法包括步骤:
S110、构建视频帧的训练样本。
视频都是由静止的画面组成的,这些静止的画面被称为一帧视频,也即是视频帧。在机器学习和模式识别等领域中,一般需要将样本分成独立的三部分:训练集(trainset),也即是训练样本;验证集(validation set);测试集(test set)。其中,训练集用来估计模型,验证集用来确定网络结构或者控制模型复杂程度的参数,而测试集则检验最终选择最优的模型的性能如何。
构建训练样本的方式有很多,例如,在一个实施例中,所述构建视频帧的训练样本,包括:
S1101、获取多个第一视频帧以及每个第一视频帧对应的第二视频帧,其中,所述第一视频帧的分辨率高于对应的第二视频帧的分辨率。
视频帧的类型可以根据本发明实施例所提供方法的应用场景确定,例如,本发明实施例所提供的方法应用在视频直播场景中,则视频帧为直播视频中的视频帧,又例如,本发明实施例所提供的方法应用在短视频中,则视频帧为短视频中的视频帧。其中,短视频是指在各种新媒体平台上播放的、适合在移动状态和短时休闲状态下观看的、高频推送的视频内容,时间几秒到几分钟不等。
第一视频帧为高分辨率视频帧,即高质量视频帧,第二视频帧为低分辨率视频帧,即低质量视频帧。第一视频帧对应的第二视频帧指的分辨率不同内容相同的两个视频帧。在训练时,需要收集大量的高质量视频帧和对应的低质量视频帧(hframes-lframes),每一个高质量视频帧和对应的低质量视频帧构成一个视频帧对。
S1102、从每个第一视频帧及其对应的第二视频帧的同一位置分别提取预设尺寸的子图,将提取的各个子图作为训练样本。
子图所在视频帧中的位置可以根据需要进行设定,提取的子图尺寸也可以根据需要进行设定。从每一个视频帧对的对应位置提取大小为S的子图对(hsub-lsub)作为训练样本,从而在保证模型精度的同时降低了计算量。
S120、基于所述训练样本对卷积神经网络模型进行训练,获得视频质量增强模型,其中,所述卷积神经网络模型包含依序排列的第一卷积层集合、残差模块集合、第一像素重排模块或者第一反卷积模块、第二卷积层集合、第二像素重排模块或者第二反卷积模块、第三卷积层集合。
为了实现视频质量的增强,需要先构建卷积神经网络模型。卷积神经网络模型包含依序排列的第一卷积层集合、残差模块集合、第一像素重排模块或者第一反卷积模块、第二卷积层集合、第二像素重排模块或者第二反卷积模块、第三卷积层集合。
依序排列指的是各个部分按照前后顺序依次排列。卷积层集合中均包含若干个卷积层,每个卷积层集合所包含的卷积层的数目可以相同,也可以不相同。残差模块集合中包含若干个残差模块。像素重排(PixelShuffle)模块和反卷积模块任选其中一种类型,考虑到反卷积模块计算量相较PixelShuffle模块较大,优选PixelShuflle模块,另外,优选的,PixelShuffle模块数量为2个或者反卷积模块的数量为2个。因此,卷积神经网络模型包含依序排列的若干个卷积层、若干个残差模块、1个像素重排模块或者1个反卷积模块、若干个卷积层、1个像素重排模块或者1个反卷积模块、若干个卷积层。
为了在保证模型精度的前提下降低计算量,从而满足产品的实时性要求,在一个实施例中,所述第一卷积层集合包含两个卷积层,所述残差模块集合包含三个残差模块,所述第二卷积层集合和所述第三卷积层集合均包含一个卷积层。第一像素重排模块或者第一反卷积模块的数量为1,第二像素重排模块或者第二反卷积模块的数量为1。
如图2所示,为一实施例的卷积神经网络模型的结构示意图。该卷积神经网络模型包含4个卷积层、3个残差模块、2个PixelShuffle模块,它们依照:卷积层、卷积层、残差模块、残差模块、残差模块、PixelShuffle模块、卷积层、PixelShuffle模块、卷积层的顺序排列,构成一个卷积神经网络模型。
构建好卷积神经网络模型后,就需要训练卷积神经网络模型,以得到视频质量增强模型。可选的,对构建的卷积神经网络模型初始化后,使用随机梯度优化算法与构建的训练样本对卷积神经网络模型进行训练,经过多次迭代后就可以得到一个效果最佳的模型网络,即视频质量增强模型。
应当理解,本发明并不对卷积神经网络模型训练的方式进行限定,用户还可以根据实际需要选择其它算法,然后结合构建的训练样本对卷积神经网络模型进行训练。
S130、获取质量待增强的视频帧,并输入所述视频质量增强模型,获得质量增强后的视频帧。
质量待增强的视频帧即低分辨率视频帧,构建好视频质量增强模型后,在该视频质量增强模型中输入低分辨率视频帧,就可以输出高分辨率视频帧,即质量增强后的视频帧。
为进一步提升网络运行效率满足视频实时需求,还需要将视频质量增强模型小型化,以降低运算复杂度,更好的部署在计算力较低的设备上。因此,在一个实施例中,所述并输入所述视频质量增强模型之前,还包括:对所述视频质量增强模型执行剪枝、蒸馏、量化和稀疏化中的任意一种操作或者任意几种操作。其中,剪枝、蒸馏、量化和稀疏化均可以采用现有技术中已有的方式实现。
本发明提供的视频质量增强模型可以根据需要部署在任何终端,例如本发明提供的视频质量增强模型可以部署在服务器端,也可以部署在客户端。下面针对服务器端部署和客户端部署进行说明。
一、服务器端
在一个实施例中,所述获取质量待增强的视频帧,包括:接收用户上传的编码后的视频流;对所述视频流进行解码,获得质量待增强的视频帧。所述获得质量增强后的视频帧之后,还包括:对质量增强后的视频帧进行编码,获得编码后的视频流,并将编码后的视频流分发给各个客户端。
如果视频质量增强模型部署在服务器端,用户上传编码后的视频流至服务器,服务器将视频流解码成序列帧,即质量待增强的视频帧,然后输入视频质量增强模型,经过视频质量增强模型增强处理为清晰度更高、分辨率更高的视频帧,然后服务器对生成的视频帧重新进行编码,分发给各客户端。
二、客户端
在一个实施例中,所述获取质量待增强的视频帧,包括:接收服务器端分发的编码后的视频流;对所述视频流进行解码,获得质量待增强的视频帧。所述获得质量增强后的视频帧之后,还包括:播放质量增强后的视频帧。
如果视频质量增强模型部署在客户端,用户上传的编码视频流直接经服务器分发给接收设备,即客户端,客户端对视频流解码后获得序列帧,即质量待增强的视频帧,将序列帧输入视频质量增强模型,经过视频质量增强模型的增强处理,得到清晰度更高,分辨率更高的视频帧,生成的视频帧直接播放观看。
本发明可以用于视频直播、短视频等产品中。为了更好的理解本发明,下面结合视频直播的应用场景以及短视频的应用场景进行介绍。应当理解,用户还可以根据需要将本发明应用于其它应用场景中,本发明并不对此作出限定。
一、视频直播
在视频直播中由于实时性的限制,一方面由于开播端的网络环境可能较差,因此必须使用低码率编码视频才能实时上传视频数据到服务器,使得用户最终观看到的视频质量较差;另一方面由于观看端的网络环境可能较差,因此只能从服务器实时下载低码率编码视频,也使得用户看到的视频质量较差。针对这两种情况可以采用以下两种解决方案:
1、在服务器端部署本发明提出的视频质量处理方法,将开播端上传的低质量视频增强为高质量视频再分发给观看端进行观看,解决开播端网络不佳所导致的用户最终观看到的视频质量较差的问题。
2、在观看端部署本发明提出的视频质量处理方法,将观看端接收到的低质量视频增强为高质量视频直接播放给用户观看,可以同时解决开播端与观看端网络较差所导致的用户最终观看到的视频质量较差的问题。
第2个方案对用户设备计算能力要求较高,第1个方案则不受这个限制。
二、短视频
短视频产品对实时性要求相对较宽松,使用本发明实施例提供的视频质量处理方法可以节省视频上传和下载的流量,具体方案如下:
1、在服务器端部署本发明提出的视频质量处理方法,用户可以向服务器上传低码率的短视频,服务器将低码率的短视频增强为高质量视频再分发给观看端进行观看,大大节省了视频上传的流量。
2、在观看端部署本发明提出的视频质量处理方法,用户可以向服务器上传低码率的短视频,观看端可以从服务器直接下载低码率的短视频,然后将观看端接收到的低质量视频增强为高质量视频直接播放给用户观看,大大节省了视频上传和下载的流量。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述任意一项所述的视频质量处理方法。所述存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random AcceSS Memory,随即存储器)、EPROM(EraSable ProgrammableRead-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically EraSableProgrammable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,存储介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。可以是只读存储器,磁盘或光盘等。
本发明实施例还提供了一种终端,所述终端包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现前述任意一项所述的视频质量处理方法。
如图3所示,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该终端可以为包括手机、平板电脑、服务器等任意终端设备,以终端为手机为例:
图3示出的是与本发明实施例提供的终端相关的手机的部分结构的框图。参考图3,手机包括:射频(Radio Frequency,RF)电路1510、存储器1520、输入单元1530、显示单元1540、传感器1550、音频电路1560、无线保真(wireless fidelity,Wi-Fi)模块1570、处理器1580、以及电源1590等部件。本领域技术人员可以理解,图3中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图3对手机的各个构成部件进行具体的介绍:
RF电路1510可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1580处理;另外,将设计上行的数据发送给基站。通常,RF电路1510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,LNA)、双工器等。此外,RF电路1510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication,GSM)、通用分组无线服务(General Packet RadioService,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
存储器1520可用于存储软件程序以及模块,处理器1580通过运行存储在存储器1520的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如视频质量处理功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如视频质量增强模型等)等。此外,存储器1520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1530可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1530可包括触控面板1531以及其他输入设备1532。触控面板1531,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1531上或在触控面板1531附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1531可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1580,并能接收处理器1580发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1531。除了触控面板1531,输入单元1530还可以包括其他输入设备1532。具体地,其他输入设备1532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1540可包括显示面板1541,可选的,可以采用液晶显示器(LiquidCrystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1541。进一步的,触控面板1531可覆盖显示面板1541,当触控面板1531检测到在其上或附近的触摸操作后,传送给处理器1580以确定触摸事件的类型,随后处理器1580根据触摸事件的类型在显示面板1541上提供相应的视觉输出。虽然在图3中,触控面板1531与显示面板1541是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1531与显示面板1541集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1550,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1541的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1541和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1560、扬声器1561,传声器1562可提供用户与手机之间的音频接口。音频电路1560可将接收到的音频数据转换后的电信号,传输到扬声器1561,由扬声器1561转换为声纹信号输出;另一方面,传声器1562将收集的声纹信号转换为电信号,由音频电路1560接收后转换为音频数据,再将音频数据输出处理器1580处理后,经RF电路1510以发送给比如另一手机,或者将音频数据输出至存储器1520以便进一步处理。
Wi-Fi属于短距离无线传输技术,手机通过Wi-Fi模块1570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图3示出了Wi-Fi模块1570,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1580是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1520内的软件程序和/或模块,以及调用存储在存储器1520内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1580可包括一个或多个处理单元;优选的,处理器1580可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1580中。
手机还包括给各个部件供电的电源1590(比如电池),优选的,电源可以通过电源管理系统与处理器1580逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
传统技术中的视频质量增强方法依赖于不同的先验知识,需要针对各自目标对算法过程进行特别设计,实现逻辑较为复杂。并且,传统方法如去噪、超分辨率、去压缩负效应等独立模块难以很好地结合,无法联调优化,最终效果得不到保证,质量增强效果不是很理想。
本发明实施例使用精心设计的卷积神经网络模型,采用端到端的方式训练,实现逻辑简单。对视频处理后,能同时达到去噪,超分辨率和去压缩负效应多种增强效果,质量增强效果远优于传统方法。另外通过对网络结构的特别设计和高效实现,能够实现对视频的实时处理。在相同传输带宽情况下可提升接收端视频质量,在相同接收视频质量下可以大幅节省带宽和流量。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种视频质量处理方法,其特征在于,包括步骤:
获取多个第一视频帧以及分辨率低于第一视频帧且内容与第一视频帧相同的第二视频帧,从每个第一视频帧及其对应的第二视频帧的同一位置分别提取预设尺寸的子图,将提取的各个子图作为训练样本;
基于所述训练样本对卷积神经网络模型进行训练,获得视频质量增强模型,其中,所述卷积神经网络模型包含依序排列的第一卷积层集合、残差模块集合、第一像素重排模块或者第一反卷积模块、第二卷积层集合、第二像素重排模块或者第二反卷积模块、第三卷积层集合;其中,依照卷积层、卷积层、残差模块、残差模块、残差模块、像素重排模块、卷积层、像素重排模块、卷积层的顺序排列;
获取质量待增强的视频帧,并输入所述视频质量增强模型,获得质量增强后的视频帧。
2.根据权利要求1所述的视频质量处理方法,其特征在于,所述获取质量待增强的视频帧,包括:
接收用户上传的编码后的视频流;
对所述视频流进行解码,获得质量待增强的视频帧。
3.根据权利要求2所述的视频质量处理方法,其特征在于,所述获得质量增强后的视频帧之后,还包括:
对质量增强后的视频帧进行编码,获得编码后的视频流,并将编码后的视频流分发给各个客户端。
4.根据权利要求1所述的视频质量处理方法,其特征在于,所述获取质量待增强的视频帧,包括:
接收服务器端分发的编码后的视频流;
对所述视频流进行解码,获得质量待增强的视频帧。
5.根据权利要求4所述的视频质量处理方法,其特征在于,所述获得质量增强后的视频帧之后,还包括:
播放质量增强后的视频帧。
6.根据权利要求1所述的视频质量处理方法,其特征在于,所述并输入所述视频质量增强模型之前,还包括:
对所述视频质量增强模型执行剪枝、蒸馏、量化和稀疏化中的任意一种操作或者任意几种操作。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至6中任意一项所述的视频质量处理方法。
8.一种终端,其特征在于,所述终端包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至6中任意一项所述的视频质量处理方法。
CN201810031214.3A 2018-01-12 2018-01-12 视频质量处理方法、存储介质和终端 Active CN108235058B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810031214.3A CN108235058B (zh) 2018-01-12 2018-01-12 视频质量处理方法、存储介质和终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810031214.3A CN108235058B (zh) 2018-01-12 2018-01-12 视频质量处理方法、存储介质和终端

Publications (2)

Publication Number Publication Date
CN108235058A CN108235058A (zh) 2018-06-29
CN108235058B true CN108235058B (zh) 2021-09-17

Family

ID=62641792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810031214.3A Active CN108235058B (zh) 2018-01-12 2018-01-12 视频质量处理方法、存储介质和终端

Country Status (1)

Country Link
CN (1) CN108235058B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109862389B (zh) * 2018-11-20 2021-08-20 北京奇艺世纪科技有限公司 一种视频处理方法、装置、服务器及存储介质
CN110099280B (zh) * 2019-05-24 2020-05-08 浙江大学 一种无线自组织网络带宽受限下的视频业务质量增强方法
CN110232417B (zh) * 2019-06-17 2022-10-25 腾讯科技(深圳)有限公司 图像识别方法、装置、计算机设备及计算机可读存储介质
CN112449140B (zh) 2019-08-29 2021-09-14 华为技术有限公司 视频超分辨率处理方法及装置
CN112887758B (zh) * 2019-11-29 2023-04-14 北京百度网讯科技有限公司 视频处理方法和装置
CN113628121B (zh) * 2020-05-06 2023-11-14 阿里巴巴集团控股有限公司 数据处理、训练多媒体数据的方法和装置
CN112422870B (zh) * 2020-11-12 2021-09-17 复旦大学 一种基于知识蒸馏的深度学习视频插帧方法
CN114513684A (zh) * 2020-11-16 2022-05-17 飞狐信息技术(天津)有限公司 视频画质增强模型的构建方法、视频画质增强方法及装置
CN112291570B (zh) * 2020-12-24 2021-03-26 浙江大学 一种基于轻量级可形变卷积神经网络的实时视频增强方法
CN112565819B (zh) * 2020-12-24 2023-04-07 新奥特(北京)视频技术有限公司 一种视频数据处理的方法及装置、电子设备、存储介质
CN112801918A (zh) * 2021-03-11 2021-05-14 苏州科达科技股份有限公司 图像增强模型的训练方法、图像增强方法及电子设备
CN113115075B (zh) * 2021-03-23 2023-05-26 广州虎牙科技有限公司 一种视频画质增强的方法、装置、设备以及存储介质
CN113538287B (zh) * 2021-07-29 2024-03-29 广州安思创信息技术有限公司 视频增强网络训练方法、视频增强方法及相关装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017222140A1 (ko) * 2016-06-24 2017-12-28 한국과학기술원 Cnn 기반 인루프 필터를 포함하는 부호화 방법과 장치 및 복호화 방법과 장치

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101070981B1 (ko) * 2009-11-05 2011-10-06 홍익대학교 산학협력단 경계선 성분 분류 기반 신경회로망 모델을 이용한 영상 화질 개선방법
CN106683048B (zh) * 2016-11-30 2020-09-01 浙江宇视科技有限公司 一种图像超分辨率方法及设备
CN106791927A (zh) * 2016-12-23 2017-05-31 福建帝视信息科技有限公司 一种基于深度学习的视频增强与传输方法
CN106683067B (zh) * 2017-01-20 2020-06-23 福建帝视信息科技有限公司 一种基于残差子图像的深度学习超分辨率重建方法
CN106960415A (zh) * 2017-03-17 2017-07-18 深圳市唯特视科技有限公司 一种基于像素递归超分辨率模型恢复图像的方法
CN107123091B (zh) * 2017-04-26 2020-02-14 福建帝视信息科技有限公司 一种基于深度学习的近红外人脸图像超分辨率重建方法
CN107240066A (zh) * 2017-04-28 2017-10-10 天津大学 基于浅层和深层卷积神经网络的图像超分辨率重建算法
CN107358575A (zh) * 2017-06-08 2017-11-17 清华大学 一种基于深度残差网络的单幅图像超分辨率重建方法
CN107507141A (zh) * 2017-08-07 2017-12-22 清华大学深圳研究生院 一种基于自适应残差神经网络的图像复原方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017222140A1 (ko) * 2016-06-24 2017-12-28 한국과학기술원 Cnn 기반 인루프 필터를 포함하는 부호화 방법과 장치 및 복호화 방법과 장치

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Image quality and QoE in multimedia systems;M. Klima等;《2009 19th International Conference Radioelektronika》;20090707;第3-10页 *
深度卷积神经网络的发展及其在计算机视觉领域的应用;张顺等;《计算机学报》;20170918;第42卷(第03期);第453-482页 *

Also Published As

Publication number Publication date
CN108235058A (zh) 2018-06-29

Similar Documents

Publication Publication Date Title
CN108235058B (zh) 视频质量处理方法、存储介质和终端
CN108322685B (zh) 视频插帧方法、存储介质以及终端
CN111544886B (zh) 一种画面显示的方法以及相关装置
US20220261960A1 (en) Super-resolution reconstruction method and related apparatus
CN109919087B (zh) 一种视频分类的方法、模型训练的方法及装置
CN107005721B (zh) 直播间视频流推送控制方法及相应的服务器与移动终端
CN106412691B (zh) 一种视频图像的截取方法和装置
CN106412702B (zh) 一种视频片段的截取方法和装置
CN108011686B (zh) 信息编码帧丢失恢复方法和装置
CN110636375B (zh) 视频流处理方法、装置、终端设备及计算机可读存储介质
CN107895192B (zh) 深度卷积网络压缩方法、存储介质和终端
CN108391127B (zh) 视频编码方法、装置、存储介质及设备
CN108322780B (zh) 平台用户行为的预测方法、存储介质和终端
CN109168013B (zh) 一种抽帧的方法、装置、设备及计算机可读存储介质
US9111336B2 (en) Method and apparatus for image filtering
CN112184548A (zh) 图像超分辨率方法、装置、设备及存储介质
WO2018233411A1 (zh) 预测模式选择方法、视频编码设备及存储介质
CN105407353A (zh) 一种图像压缩方法,及装置
CN107644395B (zh) 图像处理方法以及移动设备
CN108337533B (zh) 视频压缩方法和装置
US11641498B2 (en) Method, systems and devices for providing adjusted video content according to viewing distance
CN110852951A (zh) 图像处理方法、装置、终端设备及计算机可读存储介质
JP2016076766A (ja) 情報処理装置および情報処理方法
CN109474833B (zh) 一种网络直播的方法、相关装置和系统
CN110766610B (zh) 一种超分辨率图像的重建方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210114

Address after: 511442 3108, 79 Wanbo 2nd Road, Nancun Town, Panyu District, Guangzhou City, Guangdong Province

Applicant after: GUANGZHOU CUBESILI INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 511442 29 floor, block B-1, Wanda Plaza, Huambo business district, Panyu District, Guangzhou, Guangdong.

Applicant before: GUANGZHOU HUADUO NETWORK TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant