CN113115060A - 视频传输方法、装置及系统 - Google Patents

视频传输方法、装置及系统 Download PDF

Info

Publication number
CN113115060A
CN113115060A CN202110370679.3A CN202110370679A CN113115060A CN 113115060 A CN113115060 A CN 113115060A CN 202110370679 A CN202110370679 A CN 202110370679A CN 113115060 A CN113115060 A CN 113115060A
Authority
CN
China
Prior art keywords
video
code rate
client
type
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110370679.3A
Other languages
English (en)
Other versions
CN113115060B (zh
Inventor
姚冕
王亚新
刘唱
杨洁琼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202110370679.3A priority Critical patent/CN113115060B/zh
Publication of CN113115060A publication Critical patent/CN113115060A/zh
Application granted granted Critical
Publication of CN113115060B publication Critical patent/CN113115060B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/637Control signals issued by the client directed to the server or network components
    • H04N21/6373Control signals issued by the client directed to the server or network components for rate control, e.g. request to the server to modify its transmission rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明提供一种视频传输方法、装置及系统,属于人工智能技术领域。该视频传输方法应用于客户端,包括:提取视频的类型特征,根据类型特征确定视频类型;将视频输入视频类型对应的预设语义分割网络模型中,得到核心区域信息;根据核心区域信息对视频进行区域划分并向各区域分配对应的采样率;按照各区域对应的采样率将各区域的视频采样上传至服务器。本发明可以自适应地调整传输码率和视频内容欠采样率,从而增强在线视频对传输网络波动的抗干扰能力,提升低带宽等恶劣网络状况下的视频质量,改善用户体验。

Description

视频传输方法、装置及系统
技术领域
本发明涉及人工智能技术领域,具体地,涉及一种视频传输方法、装置及系统。
背景技术
随着移动通信技术和智能终端设备的迅猛发展,在线音视频业务的应用场景在广度和深度上得到了极大的拓展。新兴音视频技术,例如实时直播和虚拟现实(VR)深刻改变了人们的生活方式,孵化了一批全新的产业。在金融行业,在线音视频平台赋能了一些新颖技术,例如远程金融面审和基于声纹、视频的生物识别等,为客户提供了更加高效、优质、安全的服务,为面向未来的数字化银行、智慧金融提供了坚实的技术基础。
然而,由于在线音视频的应用场景越来越多样化,移动网络通信质量的波动成为了影响用户体验的主要因素之一。在一些特殊场景,例如高速移动的交通工具(高铁和汽车)、信号阻隔严重的封闭空间(地下室和电梯轿厢)、移动通信基站覆盖边缘区域和用户高度聚集场合(体育馆),移动网络质量会出现明显恶化,具体体现在通信带宽的降低和网络延时的提高。因此,如何提升恶劣通信环境下的在线音视频质量,为用户提供稳定、可靠、优质的体验,成为了一个重要而亟待解决的课题。
码率自适应技术通过实时监测用户当前的网络状况和缓冲情况动态调整下一个视频小切片的码率,从而实现更少的缓存和更好的视频质量,是解决低带宽条件下在线音视频传输问题的有效手段。但是,现有技术是建立在对相关参数的假设上,不适用于难以预测的复杂网络环境。
欠采样是另一种低带宽条件下传输音视频内容时常用的技术手段。传统的欠采样技术对图像全部内容采用统一的低于奈奎斯特频率的采样率,还原后的图像在信息损失的空间分布上是均匀的。然而,不同空间区域的视频内容在重要程度上往往有区别。比如在以人像为核心的音视频内容中,相较于背景内容,人们更加关心人像区域的清晰程度。如果能够根据不同区域视频内容的重要性采用差异化的采样率,即针对关键区域信息进行过采样,针对非关键区域信息进行欠采样,用户可以在有限的带宽条件下或者更好的体验。
发明内容
本发明实施例的主要目的在于提供一种视频传输方法、装置及系统,以自适应地调整传输码率和视频内容欠采样率,从而增强在线视频对传输网络波动的抗干扰能力,提升低带宽等恶劣网络状况下的视频质量,改善用户体验。
为了实现上述目的,本发明实施例提供一种应用于客户端的视频传输方法,包括:
提取视频的类型特征,根据类型特征确定视频类型;
将视频输入视频类型对应的预设语义分割网络模型中,得到核心区域信息;
根据核心区域信息对视频进行区域划分并向各区域分配对应的采样率;
按照各区域对应的采样率将各区域的视频采样上传至服务器。
本发明实施例还提供一种应用于客户端的视频传输装置,包括:
视频类型模块,用于提取视频的类型特征,根据类型特征确定视频类型;
核心区域模块,用于将视频输入视频类型对应的预设语义分割网络模型中,得到核心区域信息;
采样率分配模块,用于根据核心区域信息对视频进行区域划分并向各区域分配对应的采样率;
视频上传模块,用于按照各区域对应的采样率将各区域的视频采样上传至服务器。
本发明实施例的应用于客户端的视频传输方法及装置先根据视频的类型特征确定视频类型,再将视频输入视频类型对应的预设语义分割网络模型中,得到核心区域信息,然后根据核心区域信息对视频进行区域划分并向各区域分配对应的采样率以将各区域的视频采样上传至服务器,可以自适应地调整视频内容欠采样率,从而增强在线视频对传输网络波动的抗干扰能力,提升低带宽等恶劣网络状况下的视频质量,改善用户体验。
本发明实施例还提供一种应用于服务器的视频传输方法,包括:
接收来自客户端的视频,获取视频对应的目标码率特征;
将目标码率特征输入基于码率训练数据创建的码率模型中,得到码率;
按照码率将视频传输至客户端,以使客户端对码率下的视频进行重构还原后播放。
本发明实施例还提供一种应用于服务器的视频传输装置,包括:
目标码率特征模块,用于接收来自客户端的视频,获取视频对应的目标码率特征;
码率模块,用于将目标码率特征输入基于码率训练数据创建的码率模型中,得到码率;
视频传输模块,用于按照码率将视频传输至客户端,以使客户端对码率下的视频进行重构还原后播放。
本发明实施例的应用于服务器的视频传输方法及装置先获取视频对应的目标码率特征,再将目标码率特征输入码率模型中,得到码率,最后按照码率将视频传输至客户端,以使客户端对码率下的视频进行重构还原后播放,可以自适应地调整传输码率,从而增强在线视频对传输网络波动的抗干扰能力,提升低带宽等恶劣网络状况下的视频质量,改善用户体验。
本发明实施例还提供一种视频传输系统,包括:
如上所述的应用于客户端的视频传输装置;以及
如上所述的应用于服务器的视频传输装置。
本发明实施例的视频传输系统可以自适应地调整传输码率和视频内容欠采样率,从而增强在线视频对传输网络波动的抗干扰能力,提升低带宽等恶劣网络状况下的视频质量,改善用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中应用于客户端的视频传输方法的流程图;
图2是本发明另一实施例中应用于客户端的视频传输方法的流程图;
图3是本发明一实施例中应用于服务器的视频传输方法的流程图;
图4是本发明另一实施例中应用于服务器的视频传输方法的流程图;
图5是本发明实施例中重新创建码率模型的示意图;
图6是本发明实施例中应用于客户端的视频传输装置的结构框图;
图7是本发明实施例中应用于服务器的视频传输装置的结构框图;
图8是本发明实施例中视频传输系统的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
鉴于现有技术不适用于难以预测的复杂网络环境并采用统一的采样率,本发明实施例提供一种视频传输方法,可以自适应地调整传输码率和视频内容欠采样率,从而增强在线视频对传输网络波动的抗干扰能力,提升低带宽等恶劣网络状况下的视频质量,改善用户体验。
图1是本发明一实施例中应用于客户端的视频传输方法的流程图。图2是本发明另一实施例中应用于客户端的视频传输方法的流程图。如图1-图2所示,应用于客户端的视频传输方法包括:
S101:提取视频的类型特征,根据类型特征确定视频类型。
其中,类型特征包括颜色特征、纹理特征和尺度不变特征变换(SIFT,Scale-invariant feature transform)特征。
根据类型特征确定视频类型包括:根据颜色特征、纹理特征和尺度不变特征变换特征生成视频特征组;根据视频特征组确定视频类型。
具体实施时,可以根据视频特征组和视频分类数据集确定视频类型。其中,常用的视频分类数据集包括HMDB-51、UCF-101和Kinetics-700等。本发明可以采用HMDB-51视频分类数据集。
本发明还可以将视频特征组输入从服务器预先下载的聚类学习模型以确定视频类型。聚类学习模型可以采用K-means算法进行训练、评估和更新。
S102:将视频输入视频类型对应的预设语义分割网络模型中,得到核心区域信息。
具体实施时,可以采用3D卷积为各类型的视频训练一种语义分割网络模型用于内容感知,提取出视频中的核心区域信息。
S103:根据核心区域信息对视频进行区域划分并向各区域分配对应的采样率。
具体实施时,可以通过采样装置为各区域的音视频内容分配不同的采样率并且进行采样操作,针对核心区域进行密集采样(过采样),确保采样后的视频上传服务器后经过信号还原可以完美重构核心区域的音视频内容;针对非核心区域采用欠采样,减少冗余图像内容,以牺牲部分非核心区域信息为代价,降低传输所需带宽资源。
S104:按照各区域对应的采样率将各区域的视频采样上传至服务器。
具体实施时,客户端根据各区域对应的采样率对本地音视频内容进行分区域采样和上传。
图1所示的应用于客户端的视频传输方法的执行主体可以为客户端。由图1所示的流程可知,本发明实施例的应用于客户端的视频传输方法先根据视频的类型特征确定视频类型,再将视频输入视频类型对应的预设语义分割网络模型中,得到核心区域信息,然后根据核心区域信息对视频进行区域划分并向各区域分配对应的采样率以将各区域的视频采样上传至服务器,可以自适应地调整视频内容欠采样率,从而增强在线视频对传输网络波动的抗干扰能力,提升低带宽等恶劣网络状况下的视频质量,改善用户体验。
图3是本发明一实施例中应用于服务器的视频传输方法的流程图。图4是本发明另一实施例中应用于服务器的视频传输方法的流程图。如图3-图4所示,应用于服务器的视频传输方法包括:
S201:接收来自客户端的视频,获取视频对应的目标码率特征。
其中,目标码率特征包括当前内容特征、历史网络特征和历史音视频回放特征。
获取视频对应的目标码率特征包括:从视频中提取当前内容特征,确定当前时刻的历史时间段,从来自客户端的吞吐量轨迹中提取历史时间段内的历史网络特征和历史音视频回放特征。
当前内容特征为待传输视频(切片)的大小和视频质量的表征;历史网络特征为历史视频切片的大小与下载时间的比值;历史音视频回放特征包括历史时间段内的视频切片的视频质量、缓冲占用率、下载时间和归一化视频切片存量。
S202:将目标码率特征输入基于码率训练数据创建的码率模型中,得到码率。
其中,码率模型基于神经网络训练码率训练数据获得,训练过程依次为前向传播、通过Softmax层输出码率概率分布、计算损失函数、反向传播和参数更新,同时进行多次迭代,最终利用训练好的码率模型计算出传输下一个视频切片的码率。
S203:按照码率将视频传输至客户端,以使客户端对码率下的视频进行重构还原后播放。
具体实施时,可以通过客户端中的还原装置对码率下的视频进行重构还原。由于应用于客户端的视频传输方法将视频上传至服务器时对音视频内容进行了分区域的欠采样,因此还原装置需要针对不同区域采取特定的恢复方式来重构音视频内容。客户端中的播放器对码率下的音视频内容进行解码、渲染和播放,它是视频传输系统与用户的主要交互接口。
待视频播放结束后,播放器收集所下载的视频切片(视频)大小和下载时间,从而得到吞吐量轨迹,并将收集到的吞吐量轨迹递交给优化评估装置,后者对吞吐量轨迹进行分析评估,执行S301。
图3所示的应用于服务器的视频传输方法的执行主体可以为服务器。由图3所示的流程可知,本发明实施例的应用于服务器的视频传输方法先获取视频对应的目标码率特征,再将目标码率特征输入码率模型中,得到码率,最后按照码率将视频传输至客户端,以使客户端对码率下的视频进行重构还原后播放,可以自适应地调整传输码率,从而增强在线视频对传输网络波动的抗干扰能力,提升低带宽等恶劣网络状况下的视频质量,改善用户体验。
图5是本发明实施例中重新创建码率模型的示意图。如图5所示,重新创建码率模型包括:
S301:根据吞吐量轨迹确定用户体验数据。
具体实施时,可以通过优化评估装置对客户端递交的网络吞吐量轨迹进行分析评估,实时确定当前使用策略与最优策略在用户体验质量方面的差别。用户体验数据为归一化用户体验质量,它是由使用当前策略获得的用户体验质量与使用最优策略获得的用户体验质量的比值定义的。
S302:将用户体验数据与预设用户体验阈值进行比较,根据比较结果确定吞吐量轨迹对应的码率待训练数据。
具体实施时,可以通过网络吞吐量轨迹收集装置筛选、收集符合要求的吞吐量轨迹,并将从吞吐量轨迹中提取出的历史网络特征和历史音视频回放特征递交给神经网络训练。理论上讲,由客户端收集、递交的全部吞吐量轨迹都可以交由神经网络,但在实际操作层面,这些数据过于庞大,会导致神经网络无法在一个可接受的时间内收敛;另外,网络状况在大多数情况下是与之前的情形相似的。因此,网络吞吐量轨迹收集装置通过给定的预设用户体验阈值对优化评估装置计算得到的用户体验数据进行筛选,只有低于预设用户体验阈值的吞吐量轨迹才会被收集、递交给神经网络。
S303:当码率待训练数据的数量达到预设值时,根据码率待训练数据更新码率训练数据,根据更新后的码率训练数据重新创建码率模型。
具体实施时,当网络吞吐量轨迹收集装置中存储的码率待训练数据达到预设值后,将码率待训练数据追加入码率训练数据集并重新训练神经网络,更新码率模型参数。
综上,本发明实施例的视频传输方法利用机器学习相关技术,有机结合码率自适应和欠采样与还原算法这两条技术路线,可以在两个层面提升低带宽条件下在线音视频质量。一、根据既往网络状态和音视频特征,通过机器学习制定自适应码率,最大化利用有限通信带宽资源。二、通过对音视频内容进行区域划分和采样,根据信息区域的重要程度分配不同的采样率,从而减少冗余内容,降低音视频传输所需带宽,客户端收信息后进行视频、图像还原,从而重构出高质量的音视频内容。
基于同一发明构思,本发明实施例还提供了一种应用于客户端的视频传输装置,由于该装置解决问题的原理与应用于客户端的视频传输方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
图6是本发明实施例中应用于客户端的视频传输装置的结构框图。如图6所示,应用于客户端的视频传输装置包括:
视频类型模块,用于提取视频的类型特征,根据类型特征确定视频类型;
核心区域模块,用于将视频输入视频类型对应的预设语义分割网络模型中,得到核心区域信息;
采样率分配模块,用于根据核心区域信息对视频进行区域划分并向各区域分配对应的采样率;
视频上传模块,用于按照各区域对应的采样率将各区域的视频采样上传至服务器。
在其中一种实施例中,类型特征包括颜色特征、纹理特征和尺度不变特征变换特征;
视频类型模块包括:
视频特征组单元,用于根据颜色特征、纹理特征和尺度不变特征变换特征生成视频特征组;
视频类型单元,用于根据视频特征组确定视频类型。
综上,本发明实施例的应用于客户端的视频传输装置先根据视频的类型特征确定视频类型,再将视频输入视频类型对应的预设语义分割网络模型中,得到核心区域信息,然后根据核心区域信息对视频进行区域划分并向各区域分配对应的采样率以将各区域的视频采样上传至服务器,可以自适应地调整视频内容欠采样率,从而增强在线视频对传输网络波动的抗干扰能力,提升低带宽等恶劣网络状况下的视频质量,改善用户体验。
基于同一发明构思,本发明实施例还提供了一种应用于服务器的视频传输装置,由于该装置解决问题的原理与应用于服务器的视频传输方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
图7是本发明实施例中应用于服务器的视频传输装置的结构框图。如图7所示,应用于服务器的视频传输装置包括:
目标码率特征模块,用于接收来自客户端的视频,获取视频对应的目标码率特征;
码率模块,用于将目标码率特征输入基于码率训练数据创建的码率模型中,得到码率;
视频传输模块,用于按照码率将视频传输至客户端,以使客户端对码率下的视频进行重构还原后播放。
在其中一种实施例中,目标码率特征包括当前内容特征、历史网络特征和历史音视频回放特征;
目标码率特征模块包括:
内容特征提取单元,用于从视频中提取所述当前内容特征;
网络回放特征提取单元,用于确定当前时刻的历史时间段,从来自客户端的吞吐量轨迹中提取历史时间段内的历史网络特征和历史音视频回放特征。
在其中一种实施例中,还包括:
用户体验数据模块,用于根据吞吐量轨迹确定用户体验数据;
码率待训练数据模块,用于将用户体验数据与预设用户体验阈值进行比较,根据比较结果确定吞吐量轨迹对应的码率待训练数据;
码率模型更新模块,用于当码率待训练数据的数量达到预设值时,根据码率待训练数据更新码率训练数据,根据更新后的码率训练数据重新创建码率模型。
基于同一发明构思,本发明实施例还提供了一种视频传输系统。图8是本发明实施例中视频传输系统的结构框图。如图8所示,视频传输系统包括:
如上所述的应用于客户端的视频传输装置;以及
如上所述的应用于服务器的视频传输装置。
在实际应用中,应用于客户端的视频传输装置包括播放器1、还原装置2、区域划分装置3和采样装置4。应用于服务器的视频传输装置包括存储装置5、神经网络模块6、网络吞吐量轨迹收集装置7和优化评估装置8。根据数据流动的顺序,客户端上传音视频内容时,音视频源9依次通过区域划分装置3、采样装置4和存储装置5;用户从服务器下载音视频内容时,音视频内容依次通过存储装置5、神经网络模块6、还原装置2、播放器1、优化评估装置8、网络吞吐量轨迹收集装置7和神经网络模块6。下面将详细描述每个装置的工作原理和主要用途:
播放器1用于对码率下的音视频内容进行解码、渲染和播放,它是视频传输系统与用户的主要交互接口。
还原装置2用于对服务器下载得到的音视频内容进行重构还原。由于采样装置在传输视频时对音视频内容进行了分区域的欠采样,因此还原装置2需要针对不同区域采取特定的恢复方式来重构音视频内容。
区域划分装置3包括视频类型模块和核心区域模块,用于对不同类型的视频进行训练、识别和区域划分。
采样装置4包括采样率分配模块和视频上传模块,用于根据区域划分装置3得到的区域划分结果为不同区域的音视频内容分配不同的采样率并且进行采样操作。分配原则为:针对核心区域进行密集采样,确保采样后的视频上传服务器后经过信号还原可以完美重构核心区域的音视频内容;针对非核心区域进行欠采样,从而减少冗余图像内容,降低传输所需带宽。
存储装置5用于存储用户上传的音视频数据,为服务器提供音视频资源。
神经网络模块6包括目标码率特征模块、码率模块、视频传输模块和码率模型更新模块,用于根据历史网络特征、历史音视频回放特征和待要传输视频切片的内容特征确定待传输视频切片的码率选择概率分布。具体来说,已经完成下载的N个视频切片的大小与下载时间的比值定义了历史网络特征;待传输视频切片的大小和视频质量一同表征了内容特征;历史音视频回放特征包括历史时间段内的视频切片的视频质量、缓冲占用率、下载时间和归一化视频切片存量。神经网络模块6的训练过程与传统深度学习神经网络训练过程类似,依次经过前向传播、通过Softmax层输出码率概率分布、计算损失函数、反向传播和参数更新,同时进行多次迭代,最终利用训练好的码率模型计算出传输下一个视频切片的码率。
网络吞吐量轨迹收集装置7包括码率待训练数据模块,用于筛选、收集符合要求的吞吐量轨迹,并将从吞吐量轨迹中提取出的历史网络特征和历史音视频回放特征递交给神经网络训练。理论上讲,由客户端收集、递交的全部吞吐量轨迹都可以交由神经网络,但在实际操作层面,这些数据过于庞大,会导致神经网络无法在一个可接受的时间内收敛;另外,网络状况在大多数情况下是与之前的情形相似的。因此,网络吞吐量轨迹收集装置通过给定的预设用户体验阈值对优化评估装置计算得到的用户体验数据进行筛选,只有低于预设用户体验阈值的吞吐量轨迹才会被收集、递交给神经网络。
优化评估装置8包括用户体验数据模块,用于对客户端递交的网络吞吐量轨迹进行分析评估,实时确定当前使用策略与最优策略在用户体验质量方面的差别。用户体验数据为归一化用户体验质量,它是由使用当前策略获得的用户体验质量与使用最优策略获得的用户体验质量的比值定义的。
综上,本发明实施例的视频传输系统综合运用基于神经网络的码率自适应算法和语义分割算法,在时间和空间两个维度上提高有限带宽的利用效率,减少冗余信息以降低传输音视频内容所需带宽资源。在码率自适应算法中引入了模型更新和视频质量,有效提升了用户体验;借助语义分割算法对不同区域的重要程度动态分配采样率,在保证核心音视频内容质量的情况下,有效降低了平均采样率。本发明显著增强了在线音视频对传输网络波动的抗干扰能力,提升了低带宽等恶劣网络状况下的音视频质量,改善了用户体验。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元,或装置都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。

Claims (11)

1.一种应用于客户端的视频传输方法,其特征在于,包括:
提取视频的类型特征,根据所述类型特征确定视频类型;
将所述视频输入所述视频类型对应的预设语义分割网络模型中,得到核心区域信息;
根据所述核心区域信息对所述视频进行区域划分并向各区域分配对应的采样率;
按照各区域对应的采样率将各区域的视频采样上传至服务器。
2.根据权利要求1所述的应用于客户端的视频传输方法,其特征在于,所述类型特征包括颜色特征、纹理特征和尺度不变特征变换特征;
根据所述类型特征确定视频类型包括:
根据所述颜色特征、所述纹理特征和所述尺度不变特征变换特征生成视频特征组;
根据所述视频特征组确定视频类型。
3.一种应用于服务器的视频传输方法,其特征在于,包括:
接收来自客户端的视频,获取所述视频对应的目标码率特征;
将所述目标码率特征输入基于码率训练数据创建的码率模型中,得到码率;
按照所述码率将所述视频传输至客户端,以使所述客户端对所述码率下的视频进行重构还原后播放。
4.根据权利要求3所述的应用于服务器的视频传输方法,其特征在于,所述目标码率特征包括当前内容特征、历史网络特征和历史音视频回放特征;
获取所述视频对应的目标码率特征包括:
从所述视频中提取所述当前内容特征;
确定当前时刻的历史时间段,从来自所述客户端的吞吐量轨迹中提取所述历史时间段内的历史网络特征和历史音视频回放特征。
5.根据权利要求4所述的应用于服务器的视频传输方法,其特征在于,还包括:
根据所述吞吐量轨迹确定用户体验数据;
将所述用户体验数据与预设用户体验阈值进行比较,根据比较结果确定所述吞吐量轨迹对应的码率待训练数据;
当所述码率待训练数据的数量达到预设值时,根据所述码率待训练数据更新所述码率训练数据,根据更新后的码率训练数据重新创建码率模型。
6.一种应用于客户端的视频传输装置,其特征在于,包括:
视频类型模块,用于提取视频的类型特征,根据所述类型特征确定视频类型;
核心区域模块,用于将所述视频输入所述视频类型对应的预设语义分割网络模型中,得到核心区域信息;
采样率分配模块,用于根据所述核心区域信息对所述视频进行区域划分并向各区域分配对应的采样率;
视频上传模块,用于按照各区域对应的采样率将各区域的视频采样上传至服务器。
7.根据权利要求6所述的应用于客户端的视频传输装置,其特征在于,所述类型特征包括颜色特征、纹理特征和尺度不变特征变换特征;
所述视频类型模块包括:
视频特征组单元,用于根据所述颜色特征、所述纹理特征和所述尺度不变特征变换特征生成视频特征组;
视频类型单元,用于根据所述视频特征组确定视频类型。
8.一种应用于服务器的视频传输装置,其特征在于,包括:
目标码率特征模块,用于接收来自客户端的视频,获取所述视频对应的目标码率特征;
码率模块,用于将所述目标码率特征输入基于码率训练数据创建的码率模型中,得到码率;
视频传输模块,用于按照所述码率将所述视频传输至客户端,以使所述客户端对所述码率下的视频进行重构还原后播放。
9.根据权利要求8所述的应用于服务器的视频传输装置,其特征在于,所述目标码率特征包括当前内容特征、历史网络特征和历史音视频回放特征;
目标码率特征模块包括:
内容特征提取单元,用于从所述视频中提取所述当前内容特征;
网络回放特征提取单元,用于确定当前时刻的历史时间段,从来自所述客户端的吞吐量轨迹中提取所述历史时间段内的历史网络特征和历史音视频回放特征。
10.根据权利要求9所述的应用于服务器的视频传输装置,其特征在于,还包括:
用户体验数据模块,用于根据所述吞吐量轨迹确定用户体验数据;
码率待训练数据模块,用于将所述用户体验数据与预设用户体验阈值进行比较,根据比较结果确定所述吞吐量轨迹对应的码率待训练数据;
码率模型更新模块,用于当所述码率待训练数据的数量达到预设值时,根据所述码率待训练数据更新所述码率训练数据,根据更新后的码率训练数据重新创建码率模型。
11.一种视频传输系统,其特征在于,包括:
权利要求6-7任一权利要求所述的应用于客户端的视频传输装置;以及
权利要求8-10任一权利要求所述的应用于服务器的视频传输装置。
CN202110370679.3A 2021-04-07 2021-04-07 视频传输方法、装置及系统 Active CN113115060B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110370679.3A CN113115060B (zh) 2021-04-07 2021-04-07 视频传输方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110370679.3A CN113115060B (zh) 2021-04-07 2021-04-07 视频传输方法、装置及系统

Publications (2)

Publication Number Publication Date
CN113115060A true CN113115060A (zh) 2021-07-13
CN113115060B CN113115060B (zh) 2022-10-25

Family

ID=76714419

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110370679.3A Active CN113115060B (zh) 2021-04-07 2021-04-07 视频传输方法、装置及系统

Country Status (1)

Country Link
CN (1) CN113115060B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108200430A (zh) * 2017-12-27 2018-06-22 华中科技大学 一种基于视觉显著度的自适应下采样深度图压缩方法
CN109754089A (zh) * 2018-12-04 2019-05-14 浙江大华技术股份有限公司 一种模型训练系统及方法
CN110072119A (zh) * 2019-04-11 2019-07-30 西安交通大学 一种基于深度学习网络的内容感知视频自适应传输方法
CN110996125A (zh) * 2019-11-18 2020-04-10 腾讯科技(深圳)有限公司 一种视频流的生成方法、装置、电子设备及存储介质
CN111107440A (zh) * 2019-12-26 2020-05-05 腾讯科技(深圳)有限公司 视频传输控制方法及装置、设备、存储介质
WO2020167490A1 (en) * 2019-02-15 2020-08-20 Microsoft Technology Licensing, Llc Incremental training of machine learning tools
CN111985454A (zh) * 2020-09-03 2020-11-24 深圳壹账通智能科技有限公司 人脸识别方法、装置、设备及计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108200430A (zh) * 2017-12-27 2018-06-22 华中科技大学 一种基于视觉显著度的自适应下采样深度图压缩方法
CN109754089A (zh) * 2018-12-04 2019-05-14 浙江大华技术股份有限公司 一种模型训练系统及方法
WO2020167490A1 (en) * 2019-02-15 2020-08-20 Microsoft Technology Licensing, Llc Incremental training of machine learning tools
CN110072119A (zh) * 2019-04-11 2019-07-30 西安交通大学 一种基于深度学习网络的内容感知视频自适应传输方法
CN110996125A (zh) * 2019-11-18 2020-04-10 腾讯科技(深圳)有限公司 一种视频流的生成方法、装置、电子设备及存储介质
CN111107440A (zh) * 2019-12-26 2020-05-05 腾讯科技(深圳)有限公司 视频传输控制方法及装置、设备、存储介质
CN111985454A (zh) * 2020-09-03 2020-11-24 深圳壹账通智能科技有限公司 人脸识别方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN113115060B (zh) 2022-10-25

Similar Documents

Publication Publication Date Title
US20220239925A1 (en) Method and apparatus for applying deep learning techniques in video coding, restoration and video quality analysis (vqa)
CN110324621B (zh) 视频编码方法、装置、电子设备和存储介质
CN110072119B (zh) 一种基于深度学习网络的内容感知视频自适应传输方法
KR102050780B1 (ko) 신경망을 이용한 컨텐츠 인지 기반 컨텐츠 전송 서버 장치 및 방법
CN110781433A (zh) 数据类型的确定方法和装置、存储介质及电子装置
CN112584119B (zh) 一种基于强化学习的自适应全景视频传输方法及系统
CN113315978B (zh) 一种基于联邦学习的协作式在线视频边缘缓存方法
CN116233445B (zh) 视频的编解码处理方法、装置、计算机设备和存储介质
CN110996131A (zh) 视频编码方法、装置、计算机设备及存储介质
CN111277827B (zh) 一种视频数据处理方法、装置、设备以及可读存储介质
Fujihashi et al. Wireless 3D point cloud delivery using deep graph neural networks
CN112055263A (zh) 基于显著性检测的360°视频流传输系统
CN107205150A (zh) 编码方法及装置
CN112817563A (zh) 目标属性配置信息确定方法、计算机设备和存储介质
Guo et al. A video-quality driven strategy in short video streaming
CN113115060B (zh) 视频传输方法、装置及系统
KR102130076B1 (ko) 특징 영역의 학습 중요도를 바탕으로 스트리밍 파일의 해상도를 개선하는 방법
CN113141526A (zh) QoE驱动下的联合资源分配的点云视频自适应传输方法
CN112004092A (zh) 一种基于改进图像块分类算法的bp神经网络图像压缩方法
CN114025190B (zh) 多码率调度方法和多码率调度装置
CN114900717B (zh) 视频数据传输方法、装置、介质和计算设备
CN116155873A (zh) 一种云边协同的图像处理方法、系统、设备及介质
JP2024511103A (ja) 近似値に基づいて画像又はビデオの品質を評価する方法及び装置、第1のモデルの訓練方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム
CN113542780B (zh) 一种网络直播视频的压缩伪影去除方法及装置
CN114298199A (zh) 转码参数模型的训练方法、视频转码方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant