CN107454446A - 基于体验质量分析的视频帧管理方法及其装置 - Google Patents

基于体验质量分析的视频帧管理方法及其装置 Download PDF

Info

Publication number
CN107454446A
CN107454446A CN201710397366.0A CN201710397366A CN107454446A CN 107454446 A CN107454446 A CN 107454446A CN 201710397366 A CN201710397366 A CN 201710397366A CN 107454446 A CN107454446 A CN 107454446A
Authority
CN
China
Prior art keywords
video
frame
quality
experience
management method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710397366.0A
Other languages
English (en)
Inventor
白日禹
李圭相
成耆芸
牟炯注
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung SDS Co Ltd
Original Assignee
Samsung SDS Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung SDS Co Ltd filed Critical Samsung SDS Co Ltd
Publication of CN107454446A publication Critical patent/CN107454446A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/637Control signals issued by the client directed to the server or network components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/647Control signaling between network components and server or clients; Network processes for video distribution between server and clients, e.g. controlling the quality of the video stream, by dropping packets, protecting content from unauthorised alteration within the network, monitoring of network load, bridging between two different networks, e.g. between IP and wireless
    • H04N21/64784Data processing by the network
    • H04N21/64792Controlling the complexity of the content stream, e.g. by dropping packets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/2662Controlling the complexity of the video stream, e.g. by scaling the resolution or bitrate of the video stream based on the client capabilities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234381Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering the temporal resolution, e.g. decreasing the frame rate by frame skipping
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/647Control signaling between network components and server or clients; Network processes for video distribution between server and clients, e.g. controlling the quality of the video stream, by dropping packets, protecting content from unauthorised alteration within the network, monitoring of network load, bridging between two different networks, e.g. between IP and wireless

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明涉及一种基于体验质量分析的视频帧管理方法及其装置。基于QoE分析的视频帧管理方法可包括以下步骤:针对构成视频的第一帧,进行所述第一帧的分类;利用预先经过机器学习的学习模型,确定当从所述视频中删除经分类后的所述第一帧时对所述视频的体验质量产生的影响度;判断当从所述视频中删除所述第一帧时与所述影响度相应地降低的所述视频的体验质量是否为用户指定的最低要求质量以上;当判断为最低要求质量以上时,将所述第一帧标记为可删除帧;以及针对构成所述视频的第二帧至第n帧,反复执行所述分类的步骤、所述确定的步骤、所述判断的步骤和所述标记的步骤。

Description

基于体验质量分析的视频帧管理方法及其装置
技术领域
本发明涉及一种基于体验质量(QoE;Quality of user Experience)分析对视频帧进行管理的方法及其装置。更详细而言,涉及一种如下的方法及执行该方法的装置:该方法利用关于实际用户能够认知的视频质量的测量算法,来最大限度减小用户感到的质量下降,并且缩减在网络上传送视频时所需要的数据量。
背景技术
近几年,利用网络的视频使用急剧增加。这与超高速互联网的普及和如智能手机等能够拍摄动态图像的设备的普及相吻合。例如,如在工作单位与同事进行视频会议或者在家采用交互式网络电视(IPTV)等通过流式传输与家人享受电视节目或电影的情况那样,目前通过网络(network)使用视频成为日常生活。
视频与单纯的文本(text)、图片(image)或者音频(audio)不同,在执行业务中需要的数据量达到数倍。例如,为了通过流式传输享受一首歌曲,一个三分钟左右的mp3音乐文件需要7.2MB左右的数据。如果计算该音乐文件的比特率(bit rate),则可得到每秒7.2×1000/3×60=40Kbyte/s的值。为了将字节(byte)换算为比特(bit)而乘以8,则可知该音乐文件为320Kbps音质的音乐文件。即,为了通过流式传输享受该音乐文件,网络带宽(bandwidth)最小应为320Kbps以上。
接下来将视频文件作为一例进行说明。一个三分钟左右的mp4动态图像文件需要27MB左右的数据。该动态图像文件的分辨率为1280×720,帧速为24帧/秒。如果计算该动态图像文件的比特率,则可知该视频文件为1200Kbps即1.2Mbps画质的动态图像文件。为了通过流式传输享受该动态图像文件,网络带宽最小应为1.2Mbps以上。可知与前面列举的音乐文件相比,需要四倍左右的网络带宽。
如此,为了通过网络而利用视频,需要比其他种类的内容(content)更多的带宽。这样一来,还有可能根据情况而出现动态图像中断或破缺的现象。特别是,由于在动态图像流的情况下实时性很重要,因此为了顺利地提供服务,需要缩减通过网络传送的数据量。
缩减播放动态图像所需的数据量的方法有多种。例如,调节分辨率也是一个方法。在YouTube网站中,作为动态图像播放器的设定项目具有能够调节动态图像分辨率的选项。如240p、360p、480p、720p、1080p等选项表示动态图像的纵向分辨率,1280×720相当于720p,通常称作高清(HD),1920×1080相当于1080p,通常称作全高清(Full HD)或FHD。
除通过调节动态图像分辨率来缩减数据量的方法之外,还可以通过调节动态图像画质来缩减数据量。其实,动态图像利用错视现象,该错视现象通过连续排列稍有差异的静止图片来如移动那样显示。此时,可通过调节连续排列的静止图片的质量来缩减数据量。
可根据通常称作编解码器(codec)的有损压缩方式的差异来缩减为了播放动态图像而需要在网络上传送的数据量。这是由运算量来代替网络传送量缩减的优点的方式。在利用特定编解码器对动态图像进行编码后由发送端传送,并由接收端再次利用特定编解码器对此进行解码而播放的过程中,发送端和接收端分别需要由中央处理器(CPU)进行运算。
用于缩减为了播放动态图像而需要的数据量的另一种方法为调节帧率(framerate)的方法。如前所述,动态图像利用连续排列图片的方式,将每一个图片称作帧(frame),将每秒排列几个图片称作每秒帧数(FPS;Frame per Second)。在电影的情况下每秒帧数为24fps,电视主要使用30fps的每秒帧数。
可通过调节该帧数来缩减为了播放动态图像而需要的数据量。在与此相关的现有技术中有由高通公司(美国)申请的KR2015-0132372A(2015年11月25日)。KR2015-0132372A的发明名称为“用于通过丢弃视频帧来降低在网络上传送视频所需的比特率的方法(METHOD FOR DECREASING THE BIT RATE NEEDED TO TRANSMIT VIDEOS OVER A NETWORKBY DROPPING VIDEO FRAMES)”。
上述现有技术通过以下方法缩减数据传送量即比特率:1)分析经编码后的视频帧来移除多个帧而不进行重新编码;2)一同传送用于说明被移除帧的元数据。但是,上述现有技术具有如下缺点:在编码和解码步骤中需要前后处理和附加协议,如需要在接收端利用元数据来识别被移除帧并生成代替该帧的替代帧等。此外,由于对现有系统带来较多的变形,在使用性及扩展性方面没有效率。
不仅如此,用于调节帧率的以往的其他现有技术的重点也大部分仅放在通过故意移除部分帧(丢帧;frame dropping)来缩减比特率的方面,未考虑由此导致的视频质量的下降即用户满意度的下降。即,由于现有技术均仅依赖于网络QoS(业务质量;Quality ofService)参数,因此在接收端无法保障空间或时间视频的图像质量。
于是,需要能够以视频图像质量为基准调节帧率的方法。
发明内容
本发明所要解决的技术问题是提供一种基于QoE分析对视频帧进行管理的方法及执行该方法的装置。即,提供一种通过客观指标(视频质量度量;Video Quality Metrics)和主观指标(平均主观意见分;MOS;Mean Opinion Scores)的评价来了解可移除视频的信息量,并利用该信息量故意移除视频帧的方法及其装置。
本发明的技术问题并不限于以上所提的技术问题,本领域技术人员可通过以下记载清楚理解未提到的其他技术问题。
为了解决上述技术问题,本发明的一方面的基于QoE分析的视频帧管理方法可包括以下步骤:对构成视频的各个帧进行分类;对各个帧确定当从所述视频中删除所述帧时对所述视频的体验质量(QoE)产生的影响度;以及当反映所述影响度的所述视频的体验质量满足用户指定的最低要求质量条件时,将所述帧标记(marking)为可删除帧。
在一实施例中,对所述帧进行分类的步骤可包括:利用所述视频的分辨率(Resolution)、编解码器(Codec)、GOP(图像组,Group of Picture)的大小、帧率(FPS)、所述帧的帧类型(I/P/B)和帧位置(Position in Video Frame)中的一个以上来对所述帧进行分类。
在另一实施例中,确定对所述视频的体验质量(QoE)产生的影响度的步骤可包括:通过将所述帧的分类结果应用到预先经过学习的学习模型中来确定影响度。
在又一实施例中,通过将所述帧的分类结果应用到预先经过学习的学习模型中来确定影响度的步骤可包括:利用通过所述学习模型生成的决策树(Decision Tree),来在所述决策树中确定与所述帧对应的节点;以及利用分配到所述节点中的体验质量,来确定所述帧的删除对所述视频的体验质量产生的影响度。
在又一实施例中,可进一步包括:从所述视频中删除构成所述视频的多个帧中的被标记为可删除帧的帧;以及通过网络将删除被标记的所述帧之后的视频提供给接收终端。
在又一实施例中,可进一步包括:通过网络将所述视频提供给接收终端;针对在网络传送过程中丢失的帧,从所述接收终端接收重传请求;以及仅在所述丢失的帧未被标记为可删除帧的情况下,作为对所述重传请求的响应,通过网络将所述丢失的帧提供给所述接收终端。
在又一实施例中,可进一步包括:将第一视频作为输入数据,并删除构成所述第一视频的特征帧;通过对删除所述特定帧之后的第一视频和原来的第一视频进行比较,来评价所述特定帧的删除对所述第一视频的体验质量产生的影响度;以及机器学习步骤,将其他视频作为输入数据,反复执行所述删除的步骤和所述评价的步骤。
在又一实施例中,评价所述特征帧的删除对所述第一帧的体验质量产生的影响度的步骤可进一步包括:执行主观体验质量评价(主观视频质量;Subjective VideoQuality)和客观体验质量评价(客观视频质量度量;Objective Video Quality Metrics)。
在又一实施例中,所述主观体验质量评价可包括平均主观意见分MOS(MeanOpinion Score)。
在又一实施例中,所述客观体验质量评价可包括峰值信噪比PSNR(Peak Signal-to-Noise Ratio)或结构相似性SSIM(Structural Similarity)。
在又一实施例中,可进一步包括:利用通过所述客观体验质量评价获得的结果值,来预测所述主观体验质量评价的结果值。
本发明的实施例的效果如下。
第一、能够基于视频质量评价度量(Video Quality Assessment Metric)和MOS测量结果,来学习与视频包和网络参数之间的关系有关的视频图像质量状态,并通过对用户体验质量(QoE)进行建模而泛化。由此,能够针对特定视频,根据网络状态筛选出可移除的视频包,并且缩减数据传送量。
第二、在传送视频之后,接收端可根据需要向发送端发送重传请求,此时可通过减少该重传请求的必要性来缩减原来的网络带宽的使用量。由此,即使在恶劣的网络环境下也能使用较小的带宽,将提供给最终目标即用户的视频质量保持在同一水平。
如果利用具有这种效果的本发明,则在视频流业务或实时多媒体传送领域中能够以较少的数据传送量提供较高质量的业务。例如,本发明可应用到视频会议、视频聊天和视频点播业务(VOD;Video on Demand)等中,并且还可以应用到用作实时监控及安保的CCTV、监控IPTV(Surveillance IPTV)、视频管理系统(VMS;Video Management System)、智能家居(Smart Home)图像和图像分析(VA;Video Analysis)等中。
本发明的效果并不限于以上所提的效果,本领域技术人员可通过以下记载清楚理解未提到的其他效果。
附图说明
图1是用于说明帧率调节(丢帧;frame dropping)的示意图。
图2是用于说明比特率(bit rate)随分辨率和帧率(frame rate)而变化的示意图。
图3a是用于说明比特率与网络带宽(bandwidth)之间相关关系的示意图,图3b是用于说明发送端和接收端的示意图。
图4是本发明的一实施例的基于QoE分析对视频帧进行管理的方法的顺序图。
图5a至图5b是用于说明可在本发明的一实施例中使用的主观QoE指标和客观QoE指标的图。
图6是用于说明可在本发明的一实施例中使用的、通过机器学习对不同移除率(丢弃率;Drop Rate)下的QoE的变化进行建模的过程的顺序图。
图7是用于说明可在图6所示机器学习中使用的特征向量(Feature Vector)的示意图。
图8a至8c是用于说明通过机器学习生成的决策树的示意图。
图9a至图9b是用于说明在传送视频数据的过程中如何应用本发明的一实施例的基于QoE分析对视频帧进行管理的方法的图。
图10a至图11是表示利用本发明的一实施例的基于QoE分析对视频帧进行管理的方法,来测试视频质量如何根据网络环境而变化的结果的图。
图12是表示本发明的一实施例的基于QoS分析的视频帧管理装置的硬件结构的一例的图。
具体实施方式
下面,参照附图对本发明的优选实施例进行详细说明。参照附图的同时参照详细后述的实施例,将会清楚理解本发明的优点及特征以及实现它们的方法。但是,本发明并不限于以下所公开的实施例,而是可以以彼此不同的多种方式实现,本实施例仅仅用于完整地公开本发明,并且为了向本发明所属技术领域的技术人员完整地告知本发明的范畴而提供的,本发明仅由权利要求的范畴定义。在说明书全文中相同的附图标记指相同的结构要素。
如果没有其他定义,则在本说明书中使用的所有用语(包括技术用语及科技用语)能够以本发明所属技术领域的技术人员共同理解的含义使用。另外,在通常使用的词典中定义的用语只要没有被明确地特别定义,就不能理想地或过度地解释。在本说明书中使用的用语用于说明实施例,并不旨在限制本发明。在本说明书中,只要在句子中未特别提到,单数形式的表述就可以包括复数形式的表述。
在说明书中使用的“包括(comprises)”和/或“包含(comprising)”并不排除提到的结构要素、步骤、动作和/或元素之外的一个以上的其他结构要素、步骤、动作和/或元素的存在或附加。
下面,参照附图对本发明进行更详细说明。
图1是用于说明帧率调节(丢帧;frame dropping)的示意图。
参照图1可知,原始视频101具有总计五个帧。原始视频101所具有的帧为1号帧至5号帧,通过依次播放这些帧来使人感到帧中的客体运动的感觉。
此时,如果通过删除2号帧来制作编辑后的视频102,则将原来由五个帧构成的动态图像只由四个帧播放,因此能够缩减播放动态图像所需的数据量。但是,由于编辑后的视频102从1号帧突然转到3号帧而播放画面,因此有可能让人感到视频中断或者不自然。
即,通过调节帧率而获得的利益即数据量的减少则与视频质量降低这一损失具有权衡(trade-off)关系。删除的帧越多,则播放该动态图像所需的数据量越少,但会降低视频质量。
问题在于,通过调节帧率而实现的数据量减少与视频质量下降虽然具有相关关系,但并不具有比例关系。例如,假设图1的原始视频101为经MJPEG编解码器编码后的动态图像。由于MJPEG编解码器以构成视频的帧单位来压缩图片,因此MJPEG编解码器为压缩时不会对各帧之间产生影响的编解码器。在此情况下,由于各帧的分辨率相同,因此不管是编号为1号的帧还是编号为5号的帧,帧的大小均相同。即,不管删除哪一帧,因删除的帧而减少的数据量均相同。
但是,根据各帧中显示的客体以何种程度的速度感进行运动、帧图片是清晰的还是经过动态模糊(motion blur)处理的等,观看该视频的用户所感到的质量即QoE只能不同。因此,根据删除哪一帧,QoE有可能不同。
由于现有的帧率调节方法将重点仅放在简单地按照网络带宽提供业务的方法上,因此具有未考虑视频质量的缺点。即,现有的在先技术不会考虑删除1号帧还是删除2号帧还是删除5号帧。在先技术简单地只考虑编辑后的视频102是否因通过删除各帧而获得的数据量的减少而满足网络带宽。
即,现有的帧率调节方法在确定是否要删除帧时,将重点放在当删除各帧时减少的数据量上。而本发明在确定是否要删除帧时,将重点放在当删除各帧时降低的视频质量上。为此,需要对帧删除和视频质量的变化进行客观数值化。为此,本发明采用机器学习。对此,稍后将在图6中进行更详细说明。
图2是用于说明比特率(bit rate)随分辨率和帧率(frame rate)而变化的示意图。
图2是为了与具体数值一同查看图1中示意性地说明的内容而举例的图。图2中例示出总计五个分辨率下的比特率。示出当将帧率从分辨率最低的1兆像素(Mega Pixel)改变至5兆像素时,比特率如何变化。
例如,1兆像素具有1280×720的分辨率,即具有高清(HD)分辨率。此时,在动态图像为7fps的情况下,具有0.9~1.8Mbps的比特率。即,网络带宽最小为0.9~1.8Mbps以上时,才能顺利提供业务。在动态图像为15fps的情况下,具有1.6~3.1Mbps的比特率;在动态图像为30fps的情况下,具有3.1~6.2Mbps的比特率。
同样,5兆像素具有2560×1920的分辨率。此时,在动态图像为7fps的情况下,具有3.5~5.7Mbps的比特率。即,网络带宽最小为3.5~5.7Mbps以上时,才能顺利地提供业务。在动态图像为15fps的情况下,具有6.1~10.1Mbps的比特率;在动态图像为30fps的情况下,具有12.1~16.4Mbps的比特率。
从图2还可知,即使为相同分辨率的动态图像,比特率也会根据帧的调节而变化。当然,图2仅为一种示例,比特率的具体值可根据所使用的编解码器而任意改变。但是,通过图2可知,可通过故意缩减帧来降低动态图像比特率。
图3a是用于说明比特率与网络带宽(bandwidth)之间相关关系的示意图,图3b是用于说明发送端和接收端的示意图。
参照图3可知,根据比特率,网络带宽被划分为视频质量低的区间(Low)、中间区间(Medium)和高的区间(High)。在图3a中,在由比特率和网络带宽构成的坐标平面中显示的曲线示意性地表示用户所体验的视频质量。
即,总体上可知,比特率越高则具有越将视频质量更高地评价的倾向,但两者并不具有精确的比例关系。现有的视频帧调节方法将重点只放在网络带宽上,只关注播放该动态图像所需的数据量的降低。未考虑由此导致何种程度的质量下降。
但是,从图3b中也可知,在通过网络进行的视频传送中,接收端的最终接受主体为用户。即,不考虑视频的质量下降在人眼中为何种程度,而简单地缩减传送中所需要的数据量是没有意义的。
考虑这一点,本发明在缩减视频播放所需要的数据量时,以用户体验到的质量变化的定量/定性水平为基础确定数据包的可移除量。为了以与视频流的传送相关的视频信息及传送信息为基础,移除及调节构成该视频帧的视频包,采用主观指标和客观指标这两者。
即,利用主观指标和客观指标来获得可能会产生视频质量下降的临界值,并在该临界值内另行标记(marking)需要删除的帧。这种一系列过程可在对视频进行编码后通过网络传送的期间完成。如果对可删除帧进行标记(marking),则可在网络传送过程中随时移除该可删除帧来缩减视频流所需的网络带宽。而且,能够避免因重传而导致的附加的带宽浪费。
图4是本发明的一实施例的基于QoE分析对视频帧进行管理的方法的顺序图。
经常变化的网络条件和状况会导致丢包、延迟及抖动(Jitter),从而对需要保障实时性的视频流质量带来影响。例如,可能会产生破缺、阻塞、模糊、冻结(freezing)或突然结束等。因此,视频流要求严格而苛刻的网络条件。
为了解决这种问题,本发明通过精确地分析视频种类及类型、网络条件及其他信息对视频质量的影响,并进行建模来导出可移除视频信息的临界值。在此过程中可利用机器学习。
即,根据视频内容和类型以及等级来准备多种学习数据,并将该学习数据暴露到产生网络丢包或延迟的视频流中,并利用多种质量测量方法来计算视频质量。通过反复学习该过程并进行建模来导出泛化的模型。
根据该建模和关系式,针对需要数据传送的视频,按用户设定的满意度来确定是否要移除视频包,并在数据传送中参考。在图4中,步骤S1000至S3000为关于数据传送过程的步骤,S4000为关于机器学习的步骤。
首先,查看机器学习过程,在S4000步骤中为了学习而利用视频数据集。例如,利用如分辨率、编解码器、播放时间、帧率和比特率等视频本身的设定较为多样的视频来进行机器学习。
此时,利用表来简单整理可使用的数据集的例则如下。
[表1]
接着,查看各视频数据集的详细参数则如下。在Live视频的情况下如表2所示,在UDP-Stream的情况下如表3所示,在YouTube片花(Trailers)的情况下如表4所示。
[表2]
[表3]
类型
丢包(A) 统一为0.1~50%
丢包(B) 突发为90%、2~4秒
冻结 延迟:1~4秒
[表4]
类型
内容类型 全部(播放时间为30秒)
持续时间 30、60秒
分辨率 全高清(1080p)、高清(720p)、其他(480、360、240)
屏幕尺寸 3.7~4.1英寸
请求人数 162(年龄:18~60;性别:M/F)
在Live视频的情况下,在20个网络和编解码器设定下利用十个移动视频(20×10=200),在UDP-stream的情况下,在多种设定下对五个视频进行测试,在YouTube的情况下,利用从2011年至2014年之间出现的2280个有名的视频片花。
表1至表4的视频数据集为在实现本发明的过程中用作机器学习的输入数据的视频的具体数值。该具体数值并不是用于限定发明,而是为了帮助理解发明而提供的资料。实际上,在机器学习过程中,也可以使用与表1至表4的数据集不同的视频数据集。
在如此以多种参数设定多种数据集的情况下,测量移除特定帧的情况下的质量下降。用户体验质量可通过两种指标来测量。一种是主观指标,是利用如MOS的测量方法的指标。并且,另一种是客观指标,是利用如PSNR或SSIM等的测量方法的指标。
通过这种机器学习过程,能够将在删除视频帧的情况下因该帧的删除而引起何种程度的质量下降泛化。例如,可通过决策树的形式来计算出这种分析模型。如此泛化的模型可用作对实际需要网络传送的特定视频判断是否要删除帧的基准。
所述机器学习过程例如可通过以下方式执行。假设第一视频和从所述第一视频中移除特定帧而生成的第二视频包含在视频数据集时,可通过比较所述第一视频和所述第二视频的体验质量来评价从所述第一视频中删除所述特定帧时所能预测的质量下降。那么,学习模型可利用所述特定帧的特征向量和所述预测的质量下降来学习。这种机器学习过程可对包含在所述视频数据集中的其他视频反复执行。
再次回到图4查看步骤S1000至S3000,在发送端对视频进行编码(S1000)。本发明的对象为如此编码后的视频。即,无需为了应用本发明的帧管理方法而再次进行编码。本发明为能够在发送端的编码步骤(S1000)和接收端的解码步骤(S3000)之间应用的方法。
即,本发明的目的在于,在发送端通过网络传送经编码后的动态图像之前应用本发明缩减传送中需要的数据量的同时最大限度减小用户感到的体验质量的下降。由于本发明应用到编码(S1000)与解码(S2000)之间,因此无需其他协议。即,本发明的帧管理方法能够在最大限度减小现有发送端或接收端的变更的情况下应用。
对编码后的动态图像执行分类(Classification)操作(S2100)。即,该操作为检测(detecting)编码后生成的视频包且根据视频属性和信息进行分类的步骤。
接着,执行分级操作(S2200)。该操作是指以在移除经分类后的视频包信息的情况下产生的质量下降的程度为基准确定各视频包的重要度的步骤。在此,对于在移除特定包的情况下产生的质量下降程度而言,利用在S4000的机器学习中使用的模型。
接着,执行确定(Decision)操作(S2300)。该操作为利用对每个视频包确定的重要度来确定是否要移除该包的步骤。在此过程中可使用用户预先指定的策略(Policy)或规则(Rule)。
例如,假设从用户接收在网络传送中以MOS为基准将视频质量确保为4.1以上的设定。那么,在将重要度划分为1(高质量;High Quality)~10(低质量;Low Quality)的十个阶段时,可确定只传送重要度高于6的包,即,只传送重要度为1至6的包。尽管在丢弃剩余7~10的包的情况下产生质量下降,但如果能够以MOS为基准确保4.1以上的质量则足够。
接着,执行标记(Marker)操作(S2400)。该步骤是指对确定丢弃的视频包另行标记的操作。如此在只进行标记之后,在实际传送数据时也可以不丢弃被标记为可以丢弃的包,而是传送该包。代替此,还可以在接收端应用已标记的信息。例如,在接收原始数据之后仅对遗漏的包向发送端请求重传时,也可以排除被标记的包。
接着,执行存储(Store)操作(S2500)和排队(Queue)操作(S2600)。在此,根据需要以重传为目的将可移除的包存储到传送队列(Queue)中。
最后,执行整形(Shaper)或丢弃(Dropper)操作(S2700)。通常使用削减帧或丢弃帧的表述,之前在用户指定的体验质量内另行标记可删除帧。移除该帧后向接收端传送数据量缩减后的视频包。
接收端在接收该视频包之后,可通过解码步骤播放视频(S3000)。在此过程中能够播放虽然与原来的视频文件相比较数据量缩减但用户体验的质量几乎没有区别的动态图像文件。由此,即使在较小的网络带宽下也能提供关于优异质量动态图像的服务。
图5a至图5b是用于说明可在本发明的一实施例中使用的主观QoE指标和客观QoE指标的图。
前面在说明图4时,提出用于测量QoE的两种指标。其中,第一种为主观质量指标(Subjective Video Quality),是被称作MOS的测量方法。
MOS(平均主观意见分;Mean Opinion Score)是指通过对原始视频和由原始视频获得的产物进行比较,并以主观观点用1分~5分来评价所述产物的质量与原来的原始视频的质量之间实质上的相同性有多大的指标。MOS为主观评价方法,通过对话型意见测试、听取意见测试或采访和调查测试的方法综合实际人们的意见来测量指标。
利用MOS进行的评价方法如下。1)首先让评价人员观看待测试视频的原始视频(参考视频;Reference Video)。2)接着,让评价人员观看移除特定帧后的测试视频(TestVideo)。3)最后,评价人员可根据测试视频与原始视频之间的相似度有多大来从1分至5分打分的方式进行评价。
MOS是为了在现有的语音通话中测量语音质量而提出的方法。MOS具有1至5总计五个评价等级。1为最低等级,5为最高等级。参照图5a,1表示差的等级,2表示不好的等级,3表示一般的等级,4表示好的等级,5表示非常好的等级。越靠近原始动态图像则给出越高的分数即5分,与原始动态图像之间的差异越大则给出越低的分数。
如此,由于MOS利用人们感性打分的测量方法,因此称作主观评价(主观测试;Subjective Testing),实际上测量语音通话质量的过程基于ITU-T(国际电信联盟电信标准分局;International Telecommunication Union TelecommunicationStandardization Sector)标准等,经过更精密的实验过程。
但是,该方法始终为主观测量方法,在准确性和公平性上可能有问题,并且具有因评价花费时间且复杂而需要较高的费用的缺点。实际上,在机器学习过程中可利用MOS来测量主观指标,但这会成为非常繁琐的事情。
为了解决该问题,开发了能够预测人们评价的MOS值的客观/预测性测试(Objective/Predictive Testing)算法。即,利用客观评价指标来预测MOS值。在图5b中可以看到该变换表。图5b中举例了作为主观评价指标的MOS与作为客观评价指标的PSNR及SSIM之间的变换关系。
客观评价指标可利用PSNR(Peak Signal-to-Noise Ratio)或SSIM(StructuralSimilarity)等。除此之外,可使用两种以上的其他客观评价指标算法。
PSNR是指峰值信噪比,表示信号可具有的最大功率与噪音功率之比。主要在图像或动态图像的有损压缩中评价画质信息时使用该PSNR。可在不考虑信号功率的情况下利用均方误差(MSE;Mean Square Error)来计算峰值信噪比。
[数学式1]
[数学式2]
其中,MAXI为图像的最大值,可通过从相应信道的最大值中减去最小值来求出MAXI。例如在8比特(bit)的灰阶图像的情况下,MAXI为255(255-0)。由于通过对数刻度来测量PSNR,因此单位为db,丢失越少则具有越高的值。在无损图像的情况下MSE为0,因此不能定义PSNR。在PSNR的情况下最大值为45db。
参照图5b可知,以PSNR为准37db以上的范围对应于MOS标准的第5级。同样,31~37db的范围相当于MOS标准的第4级,25~31db的范围相当于MOS标准的第3级,20~25db的范围相当于MOS标准的第2级,20db以下的范围相当于MOS标准的第1级。如果利用图5b的变换表,则能在不直接测量MOS的情况下通过PSNR来间接地预测MOS值。
客观评价指标的又一例有SSIM。SSIM是以结构相似性为基准评价质量的方法。SSIM是为了改善现有的PSNR或MSE有可能与人的视觉认识不一致的缺点而提出的测量方法。
[式3]
·μx为x的均值
·μy为y的均值
·为x的方差
·为y的方差
·σxy为x和y的协方差
·c1=(k1L)2、c2=(k2L)2为用来稳定具有弱分母的除法的两个变量
·L像素值的动态范围(通常是2#每个像素的比特数-1)
·默认地,k1=0.01、k2=0.03
SSIM具有0至1.0之间的值,与原始视频越相似则具有越靠近1.0的值。参照图5b可知,以SIMM为准0.93以上的范围相当于MOS标准的第5级。同样,0.85~0.93的范围相当于MOS标准的第4级,0.75~0.85的范围相当于MOS标准的第3级,0.55~0.77的范围相当于MOS标准的第2级,0.55以下的范围相当于MOS标准的第1级。如果利用图5b的变换表,则能在不直接测量MOS的情况下通过SSIM来间接地预测MOS值。
图6是用于说明可在本发明的一实施例中使用的、通过机器学习对不同移除率(丢弃率;Drop Rate)下的QoE的变化进行建模的过程的顺序图。
利用图6对通过图4查看的机器学习进行更详细说明。参照图6,机器学习过程可针对视频数据集进行学习(S4100)。提取作为学习数据的视频信息(S4200),并根据已设定的丢包率(Drop Rate)(S4300)人为地移除帧(S4400)。
在移除帧之后通过主观评价指标和客观评价指标来测量移除帧后的视频质量(S4500、S4600)。在此,如在前面通过图5a至图5b查看,可以不直接测量主观评价指标,而是通过变换表从客观评价指标间接测量主观评价指标。
根据评价指标,以相关关系的形式导出在不同的视频属性和网络条件下的质量变化(S4700)。图7中更详细说明用于导出相关模型及关系式的特征向量(Feature Vector)的例。
可通过如此泛化的模型来预测根据帧的移除程度的质量下降。如图4中查看,在当通过网络传送视频时,在满足用户所期望的质量的限度内确定尽可能删除的帧的操作中可应用通过机器学习生成的模型。
图7是用于说明可在图6所示机器学习中使用的特征向量(Feature Vector)的示意图。
参照图7,相关关系可根据与视频相关的信息例如编解码器为MPEG2还是MPEG4或H.264等而不同。不仅如此,相关关系可根据在GOP(图片组;Group of Picture)中帧类型为I还是B还是P而不同。分辨率、GOP的大小等与视频相关的多种信息可用作分析相关关系的特征向量。
同样,网络的丢包率或延迟和抖动等也可用作分析相关关系的特征向量。如果利用这种特征向量且通过机器学习来分析相关关系,则能获得如图8的决策树。
图8a至图8c是用于说明通过图6所示机器学习生成的决策树的示意图。
参照图8a至图8c可知,根据用作每个节点的特征向量的项目值确定最终末端节点。例如,在4号末端节点为LI(丢包影响;Loss Impact)小于0.72且TVI(时间变量影响;Temporal Variable Impact)小于0的节点,其MOS相当于第5级。同样,31号末端节点为LI大于或等于1.42且TVI大于或等于0.04的节点,此时的MOS相当于第2.06级。
参照图8a至图8c的示例可部分看出,如何因按各条件移除的视频包而最终确定MOS等级。每当移除包时,可通过分析该视频包的属性值和测量出的质量之间的相关关系,来了解如图8a至图8c的示例那样视频包对质量产生的影响度。
但是,图8a至图8c的示例仅为帮助理解发明的资料,根据所输入视频数据集的种类或网络环境,如图8a至图8c的决策树可任意具有其他结构或其他值。图8a至图8c的示例仅用于说明可通过机器学习过程获得的产物。
图9a至图9b是用于说明如何在传送视频数据的过程中应用本发明的一实施例的基于QoE分析对视频帧进行管理的方法的图。
通过图4说明了以下过程:即,针对各视频帧分析在删除该帧的情况下对体验质量产生的影响度,并判断该帧是否为可删除帧,并对各帧标记(marking)该判断结果。如此了解可删除帧之后实际删除帧的过程可根据应用本发明的方式或目的而不同。
在与缩减实际传送量相比,网络环境下的丢包情况较多而重传请求较多的情况下,也可以如图9a所示那样,只在请求重传时应用本发明,从而可根据重要度选择性地判断是否要重传。即,在最初的视频传送时,正常传送未删除帧的原始视频,如果接收端请求重传因网络丢失而遗漏的包,则此时可应用本发明。
例如,在接收端(Receiver)要求总计十个已丢失包(丢失的包;lost packet)的情况下,也可根据遗漏各包时对视频的体验质量产生的影响度,对部分包进行重传,对部分包则排除在重传对象外。由此,能够缩减重传时消耗的网络带宽量。在即使不进行重传,用户感到的体验质量没有区别的情况下,可忽略重传请求。将该方式称作软组合压制方案(SoftCombined Suppression Schemes)。
或者,还可以索性从最早传送视频包时开始预先判断而删除部分包之后进行传送。即,该方法为在与应用到重传的情况相比更扩展的范围内积极干预的方法。在将缩减视频的绝对传送量自身作为目的的情况下,可在第一步骤中移除可删除帧之后进行发送。通过如此删除帧并传送而获得的带宽可作为其他用途应用。将该方式称作强组合压制方案(Strong Combined Suppression Schemes)。
如此通过机器学习来判断能否在用户要求的体验质量内删除各帧,并在各帧上标记(marking)出能否删除,由此在发送端与接收端之间的视频传送过程中能够进行各种应用。
如果利用目前为止通过图1至图9b查看的本发明,则能够获得如下的优点。
依赖性(DEPENDENCY)
首先,第一为依赖性方面的优点。由于本发明的对象为由视频编解码器编码后的视频包,因此不会受到视频编解码器的影响。即,无需进行重新编码,并且在由发送端进行编码后由接收端进行解码的期间在任何位置上均可应用功能。
相反,对于被设计成能够在时间及空间上应对网络变化量的可伸缩视频编解码(Scalable Video Codec,SVC)例如H.264的方式而言,由于其通过编解码器来调节网络传送量,因此对于其他视频编解码器的用户而言具有扩展性及使用性降低的缺点。此外,在对网络QoS参数反应敏感的情况下,即在根据网络状态经常变更图像质量的情况下具有无法避免频繁的延迟。
此外,在可伸缩编解码器的情况下,因视频包及帧的丢失而导致的错误传播率较大,因此具有重传及修复的复杂度增加的缺点。这种缺点最终将成为接收端的视频质量下降的又一主要原因。此外,具有在仅通过一个视频质量接收服务时带宽使用量高于现有使用量的缺点。
冗余性(REDUNDANCY)
接着,第二为冗余方面的优点。由于本发明在传送过程中只删除部分帧,因此接收端只需对删除部分帧后的动态图像进行解码来播放即可。此外,由于发送端也不会对编码过程带来影响,因此本发明方法为可在现有发送端进行编码后传送视频数据之前应用的数据缩减方法。
即,本发明的基于QoE分析的帧管理方法不需要收发端的附加数据生成或控制通信及协议。换言之,具有不会进一步要求视频编解码器、编码及解码的变化以及控制的优点。
扩展性(Expansion)
第三为扩展方面的优点。可通过对由发送端编码后的视频另行标记可移除帧,从而在从网络发送端至接收端之间经过的网络组件中根据网络负载提供可优先移除的信息。由此,可根据需要缩减网络开销(overhead)。
减少网络带宽(NETWORK BANDWIDTH REDUCTION)
第四为减少网络带宽方面的优点。因网络不稳定而产生的丢包会引起接收端的重传。此时,如图9a的示例,在接收端请求重传时,可根据对视频质量产生的影响来选择性地进行重传(Soft Combined Suppression)。
此外,如图9b的示例,可由发送端根据所期望的网络传送量预先删除可移除的帧后只传送所期望的视频。由此,能够从根本上缩减网络使用量而不会损害体验质量(StrongCombined Suppression,强组合压制)。
在消极应用的情况下,仅对重传请求判断是否为相当于允许质量临界值的视频包后删除帧。这在频繁产生重传请求的情况下能够提高效率。
相反,在积极应用的情况下,仅在设定指定的质量而没有视频编解码器变化的情况下移除视频包,由此能够在使用少量带宽的情况下提供相同画质及质量的视频流业务。在积极应对时,具有以下特征:与网络QoS无关地只根据视觉残像效果及视频图像质量来发挥缩减效果。
如果查看实际缩减的网络带宽的实验值,则在应用软组合(Soft-combining)进行视频压制(Video Suppression)时,可呈现出10~19%的传送效率;在应用强组合(Strong-Combining)时,可获得节约9%~14.6%的网络带宽的效果。对于消极应用情况下的具体数值,稍后在图10a至图10b中进行更详细说明。
基于用户QoE的确定(UserQoE-Based DECISION)
最后为以用户体验质量为基准的数据缩减的优点。数据传送量的缩减有助于缩小待传送的绝对信息量。此时,可利用人的视觉特性(人的视错觉和感受持续性;Humanoptical illusion and perceptual persistence)、视频结构及多媒体传送的特性来缩减数据量。即,基于视频用户的体验质量来导出可移除的允许值,并利用该允许值在媒体传送及传递的过程中发挥缩减效果。
图10a至图11是表示利用本发明的一实施例的基于QoE分析对视频帧进行管理的方法,来测试视频质量如何根据网络环境而变化的结果的图。
参照图10a,可看到在故意产生6~8%左右丢包的网络环境和产生12~14%的丢包的网络环境下,利用软组合压制(Soft Combined Suppression)方式通过十次测试来测试体验质量变化的结果。
查看PSNR的测量指标,可看到在丢包率为6~8%的情况下获得36.31db的体验质量,在丢包率为12~14%的情况下获得33.82db的体验质量。这在MOS标准中为第4级视频质量,相当于好(Good)的质量。通过图表查看该体验质量则如图10b所示。可看到在丢包更多的网络环境下体验质量也几乎没有减少。
同样查看SSIM的测量指标,可看到在丢包率为6~8%的情况下获得0.940的体验质量,在丢包率为12~14%的情况下获得0.937的体验质量。这在MOS标准中为第5级视频质量,相当于非常好(Excellent)的质量。通过图表观察该体验质量则如图10b所示。可看到在丢包更多的网络环境下体验质量也几乎没有减少。
参照图11,可看到在无网络丢失的环境下首次传送视频数据之前移除帧,从而以强组合压制(Strong Combined Suppression)方式缩减带宽使用量的情况下,测试体验质量变化的结果。
参照图11,可看到在利用本发明的帧管理方法的情况下,节约了19.6%的数据量。特别是,当与原始动态图像相比较时几乎没有降低体验质量的情况下实现这种数据缩减,因此更有意义。
图12是表示本发明的一实施例的基于QoS分析的视频帧管理装置的硬件结构的一例的图。
参照图12,基于QoS分析的视频帧管理装置100可包括一个以上的处理器510、存储器520、贮存器560和接口570。处理器510、存储器520、贮存器560和接口570通过系统总线550来接收及发送数据。
处理器510运行加载于存储器520中的计算机程序,存储器520从贮存器560加载(load)所述计算机程序。所述计算机程序可包括帧分类操作521、等级确定操作523和标记操作525。
帧分类操作521执行以下功能:加载存储于贮存器560中的视频561,并且针对构成所述视频561的各帧,考虑所述视频561的信息和所述各帧的信息等的情况下对所述各帧进行分类。对于如此分类后的各帧,后面可由等级确定操作523应用学习模型。
等级确定操作523可利用预先经过机器学习的学习模型569来预测在从视频562中删除特征帧的情况下会产生何种程度的体验质量下降。由此确定各帧的等级。如此确定的等级可在后面的标记操作525中与用户预先指定的视频561的最低要求质量进行比较的过程中使用。
在标记操作525中,针对在等级确定操作523中对各帧确定的等级和用户指定的最低要求质量进行比较,来判断即使删除该帧是否也满足用户指定的最低要求质量。如果满足,则因为即使删除该帧也对体验质量的影响较少,因此将该帧另行标记为可删除帧。如此标记的帧可在后面通过网络进行视频传送过程中、或在通过网络进行视频重传过程中使用。
图12的各结构要素可以表示软件(Software)、或者如现场可编程门阵列(FPGA:Field-Programmable Gate Array)或专用集成电路(ASIC:Application-SpecificIntegrated Circuit)等的硬件(Hardware)。但是,所述结构要素的含义并不限于软件或硬件,而是可以构成为位于可寻址(Addressing)的存储介质,还可以构成为执行一个或更多个处理器。在所述结构要素中提供的功能可通过进一步细化的结构要素来实现,还可以通过将多个结构要素结合来执行特定功能的一个结构要素实现。
以上参照附图对本发明的实施例进行了说明,但本发明所属技术领域的技术人员应能理解,本发明可在不改变本发明的技术思想或必要特征的情况下以其他具体方式实施。因此,应理解以上所述的实施例在所有方面为示例性的而不是限定性的。

Claims (12)

1.一种基于体验质量分析的视频帧管理方法,包括以下步骤:
对构成视频的各个帧进行分类;
针对各个帧确定当从所述视频中删除所述帧时所述视频的体验质量QoE的预测的质量下降;以及
当反映所述质量下降的所述视频的体验质量满足用户指定的最低要求质量条件时,将所述帧标记为可删除帧。
2.根据权利要求1所述的基于体验质量分析的视频帧管理方法,其中,
对帧进行分类的步骤包括:
利用所述视频的分辨率、编解码器、图片组的大小、帧率、所述帧的帧类型和帧位置中的一个以上,来对所述帧进行分类。
3.根据权利要求1所述的基于体验质量分析的视频帧管理方法,其中,
确定所述视频的体验质量QoE的质量下降的步骤包括:
通过将所述帧的分类结果应用到预先经过学习的学习模型中来确定影响度。
4.根据权利要求3所述的基于体验质量分析的视频帧管理方法,其中,
通过将所述帧的分类结果应用到预先经过学习的学习模型中来确定影响度的步骤包括:
利用通过所述学习模型生成的决策树,从所述决策树中确定所述帧所对应的节点;以及
利用分配到所述节点中的体验质量,确定当删除所述帧时所述视频的体验质量的预测的质量下降。
5.根据权利要求1所述的基于体验质量分析的视频帧管理方法,其中,进一步包括:
从所述视频中删除构成所述视频的多个帧中的被标记为可删除帧的帧;以及
通过网络将删除被标记的帧之后的视频提供给接收终端。
6.根据权利要求1所述的基于体验质量分析的视频帧管理方法,其中,进一步包括:
通过网络将所述视频提供给接收终端;
针对在网络传送过程中丢失的帧,从所述接收终端接收重传请求;以及
仅在所述丢失的帧未被标记为可删除帧的情况下,作为对所述重传请求的响应,通过网络将所述丢失的帧提供给所述接收终端。
7.根据权利要求1所述的基于体验质量分析的视频帧管理方法,其中,
确定所述视频的体验质量QoE的质量下降的步骤包括:
利用视频数据集,执行对学习模型的机器学习;及
利用所述学习模型,确定所述质量下降,
执行所述机器学习的步骤包括:
从第一视频移除特定帧而生成第二视频,其中所述第一视频及所述第二视频为包含在所述视频数据集中的视频;
对所述第一视频和所述第二视频的体验质量进行比较,评价当从所述第一视频删除所述特定帧时的预测的第一质量下降;及
利用所述特定帧及所述第一质量下降,执行对所述学习模型的机器学习。
8.根据权利要求7所述的基于体验质量分析的视频帧管理方法,其中,
评价当删除所述特征帧时的预测的第一质量下降的步骤包括:
基于主观体验质量评价和客观体验质量评价,评价所述第一质量下降。
9.根据权利要求8所述的基于体验质量分析的视频帧管理方法,其中,
所述主观体验质量评价包括平均主观意见分MOS。
10.根据权利要求8所述的基于体验质量分析的视频帧管理方法,其中,
所述客观体验质量评价包括峰值信噪比PSNR或结构相似性SSIM。
11.根据权利要求8所述的基于体验质量分析的视频帧管理方法,其中,进一步包括:
利用通过所述客观体验质量评价获得的结果值,预测所述主观体验质量评价的结果值。
12.基于体验质量分析的视频帧管理装置,包括:
一个以上的处理器;
网络接口;
存储器,用于加载由所述处理器执行的计算机程序;以及
贮存器,用于存储所述计算机程序,
所述计算机程序包括以下操作:
对构成视频的各个帧进行分类;
针对各个帧确定当从所述视频中删除所述帧时所述视频的体验质量QoE的预测的质量下降;以及
当反映所述质量下降的所述视频的体验质量满足用户指定的最低要求质量条件时,将所述帧标记为可删除帧。
CN201710397366.0A 2016-05-30 2017-05-31 基于体验质量分析的视频帧管理方法及其装置 Pending CN107454446A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2016-0066380 2016-05-30
KR1020160066380A KR20170135069A (ko) 2016-05-30 2016-05-30 QoE 분석 기반 비디오 프레임 관리 방법 및 그 장치

Publications (1)

Publication Number Publication Date
CN107454446A true CN107454446A (zh) 2017-12-08

Family

ID=60418572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710397366.0A Pending CN107454446A (zh) 2016-05-30 2017-05-31 基于体验质量分析的视频帧管理方法及其装置

Country Status (3)

Country Link
US (1) US20170347159A1 (zh)
KR (1) KR20170135069A (zh)
CN (1) CN107454446A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI843883B (zh) * 2019-09-27 2024-06-01 新加坡商雷蛇(亞太)私人有限公司 提供一或多組圖形參數之方法、執行用以實施該方法之程式的電腦以及包含用以執行該方法之指令的非暫時性電腦可讀媒體

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10609418B2 (en) * 2017-04-18 2020-03-31 Qualcomm Incorporated System and method for intelligent data/frame compression in a system on a chip
KR20200063303A (ko) * 2018-11-19 2020-06-05 삼성전자주식회사 영상 처리 장치 및 그 제어방법
CN109815365A (zh) * 2019-01-29 2019-05-28 北京字节跳动网络技术有限公司 用于处理视频的方法和装置
EP3912361A4 (en) * 2019-02-25 2022-11-16 Samsung Electronics Co., Ltd. USER-ORIENTED CONTENT STREAMING METHOD AND SYSTEM
US11025987B2 (en) 2019-08-15 2021-06-01 Hulu, LLC Prediction-based representation selection in video playback
US11438545B2 (en) 2019-12-23 2022-09-06 Carrier Corporation Video image-based media stream bandwidth reduction
US11463651B2 (en) 2019-12-23 2022-10-04 Carrier Corporation Video frame-based media stream bandwidth reduction
CN111144495B (zh) * 2019-12-27 2024-03-22 浙江宇视科技有限公司 一种业务分发方法、装置及介质
KR20220043764A (ko) * 2020-09-29 2022-04-05 삼성전자주식회사 비디오 품질 평가 방법 및 장치
US11812081B2 (en) 2020-11-02 2023-11-07 Hulu, LLC Session based adaptive playback profile decision for video streaming
CN114205677B (zh) * 2021-11-30 2022-10-14 浙江大学 一种基于原型视频的短视频自动编辑方法
CN115396695A (zh) * 2022-08-18 2022-11-25 上海哔哩哔哩科技有限公司 由移动终端执行的方法、移动终端、介质及计算机系统
KR20240103754A (ko) * 2022-12-27 2024-07-04 씨제이올리브네트웍스 주식회사 인공지능 기반 동영상 품질 분석 시스템 및 그 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI843883B (zh) * 2019-09-27 2024-06-01 新加坡商雷蛇(亞太)私人有限公司 提供一或多組圖形參數之方法、執行用以實施該方法之程式的電腦以及包含用以執行該方法之指令的非暫時性電腦可讀媒體

Also Published As

Publication number Publication date
US20170347159A1 (en) 2017-11-30
KR20170135069A (ko) 2017-12-08

Similar Documents

Publication Publication Date Title
CN107454446A (zh) 基于体验质量分析的视频帧管理方法及其装置
Song et al. Acceptability-based QoE models for mobile video
Duanmu et al. A quality-of-experience index for streaming video
De Pessemier et al. Quantifying the influence of rebuffering interruptions on the user's quality of experience during mobile video watching
JP5215288B2 (ja) 映像符号化のための時間的品質メトリック
Yang et al. Survey on QoE assessment approach for network service
Zadtootaghaj et al. Quality estimation models for gaming video streaming services using perceptual video quality dimensions
Aguiar et al. Video quality estimator for wireless mesh networks
Jumisko-Pyykkö et al. Experienced quality factors: qualitative evaluation approach to audiovisual quality
Shang et al. Study of the subjective and objective quality of high motion live streaming videos
Duanmu et al. A knowledge-driven quality-of-experience model for adaptive streaming videos
US12069122B2 (en) System and method for managing video streaming quality of experience
Zhang et al. Quality-of-experience evaluation for digital twins in 6G network environments
Aguiar et al. A real-time video quality estimator for emerging wireless multimedia systems
Demirbilek et al. Machine learning--based parametric audiovisual quality prediction models for real-time communications
Rehman et al. Perceptual experience of time-varying video quality
Zhou et al. A brief survey on adaptive video streaming quality assessment
Usman et al. A novel no-reference metric for estimating the impact of frame freezing artifacts on perceptual quality of streamed videos
Qian et al. SVM-based QoE estimation model for video streaming service over wireless networks
Saha et al. Perceptual video quality assessment: The journey continues!
Ghosh et al. MO-QoE: Video QoE using multi-feature fusion based optimized learning models
Zhang et al. Qoecenter: A visual platform for qoe evaluation of streaming video services
Danish et al. A hybrid prediction model for video quality by QoS/QoE mapping in wireless streaming
Zhang et al. A QOE-driven approach to rate adaptation for dynamic adaptive streaming over http
Yeganeh et al. Joint effect of stalling and presentation quality on the quality-of-experience of streaming videos

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20171208

WD01 Invention patent application deemed withdrawn after publication