CN113271477B - 视频数据传输方法、装置及系统 - Google Patents

视频数据传输方法、装置及系统 Download PDF

Info

Publication number
CN113271477B
CN113271477B CN202110533101.5A CN202110533101A CN113271477B CN 113271477 B CN113271477 B CN 113271477B CN 202110533101 A CN202110533101 A CN 202110533101A CN 113271477 B CN113271477 B CN 113271477B
Authority
CN
China
Prior art keywords
video
sparse
video frame
dimensional matrix
video data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110533101.5A
Other languages
English (en)
Other versions
CN113271477A (zh
Inventor
姚冕
罗亚明
阮明慧
王亚新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202110533101.5A priority Critical patent/CN113271477B/zh
Publication of CN113271477A publication Critical patent/CN113271477A/zh
Application granted granted Critical
Publication of CN113271477B publication Critical patent/CN113271477B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种视频数据传输方法、装置及系统,可用于金融领域或其他技术领域,该方法包括:提取出待传输视频数据中每个视频帧的稀疏特性特征;根据稀疏特性特征对每个视频帧进行区域划分,得到每个视频帧各自对应的划分区域;将每个视频帧转化为一维矩阵,得到所述视频数据对应的一维矩阵数据流;根据每个所述视频帧各自对应的划分区域以及每个划分区域各自对应的稀疏基,对所述一维矩阵数据流进行稀疏变换,得到稀疏变换后的一维矩阵数据流;对所述稀疏变换后的一维矩阵数据流进行随机不等间距的亚采样,得到压缩采样结果;将所述压缩采样结果发送到视频接收端。本发明有助于提升低带宽条件下在线音视频的质量。

Description

视频数据传输方法、装置及系统
技术领域
本发明涉及视频传输技术领域,具体而言,涉及一种视频数据传输方法、装置及系统。
背景技术
随着移动通信技术的迅猛发展和智能终端设备的普及,在线音视频业务已经成为了当下最重要的互联网服务之一,应用场景在广度和深度上得到了极大的拓展。新兴音视频技术(虚拟现实,实时直播等)层出不穷,深刻地改变且丰富了人们的生活方式,催生了一些全新的产业。然而,现有的音视频传输机制对通信网络的质量依赖严重,由于在线音视频技术的应用场景越来越多样化,移动网络通信质量的波动成为了影响用户体验的主要因素之一。在一些特殊场景,例如高速移动的交通工具(高铁),信号阻隔严重的封闭空间(地下室、电梯轿厢),移动通信基站覆盖边缘区域,用户高度聚集场所(体育馆),移动网络质量会明显恶化,具体体现在通信带宽的降低和网络延时的提高。如何提升恶劣通信环境下的视频传输质量,提升用户在恶劣通信环境下观看视频的体验,成为了一个亟待解决的问题。
发明内容
本发明为了解决上述背景技术中的技术问题,提出了一种视频数据传输方法、装置及系统。
为了实现上述目的,根据本发明的一个方面,提供了一种视频数据传输方法,该方法包括:
提取出待传输视频数据中每个视频帧的稀疏特性特征;
根据所述稀疏特性特征对每个所述视频帧进行区域划分,得到每个所述视频帧各自对应的划分区域;
将每个所述视频帧转化为一维矩阵,得到所述视频数据对应的一维矩阵数据流;
根据每个所述视频帧各自对应的划分区域以及每个划分区域各自对应的稀疏基,对所述一维矩阵数据流进行稀疏变换,得到稀疏变换后的一维矩阵数据流;
对所述稀疏变换后的一维矩阵数据流进行随机不等间距的亚采样,得到压缩采样结果;
将所述压缩采样结果发送到视频接收端,以使所述视频接收端根据所述压缩采样结果以及预设的压缩采样重构算法生成重构的视频数据。
可选的,所述根据所述稀疏特性特征对每个所述视频帧进行区域划分,得到每个所述视频帧各自对应的划分区域,具体包括:
将每个所述视频帧对应的稀疏特性特征输入到预设的聚类算法模型中,得到每个所述视频帧各自对应的划分区域,其中,所述聚类算法模型为采用稀疏特性特征作为训练样本训练得出的。
可选的,该视频数据传输方法,还包括:
获取训练样本集以及标签样本,其中,所述训练样本集中的训练样本为稀疏特性特征,所述标签样本为带有划分区域标签的稀疏特性特征;
将所述标签样本将作为聚类算法的初始聚类中心,并根据所述训练样本集进行模型训练,得到所述聚类算法模型。
可选的,所述将每个所述视频帧转化为一维矩阵,具体包括:
抽取每个所述视频帧的图像区域的二维数据,并将所述二维数据逐列转换为一维矩阵。
可选的,若所述视频接收端为服务器,则所述压缩采样重构算法包括:BP算法、GPSR算法、迭代阈值算法以及基于图模型推断的贝叶斯算法;若所述视频接收端为客户端,则所述压缩采样重构算法包括:OMP算法、迭代阈值算法以及基于图模型推断的贝叶斯算法。
可选的,所述待传输视频数据为音视频数据。
为了实现上述目的,根据本发明的另一方面,提供了一种视频数据传输装置,该装置包括:
稀疏特性特征提取模块,用于提取出待传输视频数据中每个视频帧的稀疏特性特征;
区域划分模块,用于根据所述稀疏特性特征对每个所述视频帧进行区域划分,得到每个所述视频帧各自对应的划分区域;
一维矩阵转化模块,用于将每个所述视频帧转化为一维矩阵,得到所述视频数据对应的一维矩阵数据流;
稀疏基配置模块,用于根据每个所述视频帧各自对应的划分区域以及每个划分区域各自对应的稀疏基,对所述一维矩阵数据流进行稀疏变换,得到稀疏变换后的一维矩阵数据流;
压缩采样模块,用于对所述稀疏变换后的一维矩阵数据流进行随机不等间距的亚采样,得到压缩采样结果;
数据发送模块,用于将所述压缩采样结果发送到视频接收端,以使所述视频接收端根据所述压缩采样结果以及预设的压缩采样重构算法生成重构的视频数据。
可选的,所述区域划分模块,具体包括:
机器学习应用单元,用于将每个所述视频帧对应的稀疏特性特征输入到预设的聚类算法模型中,得到每个所述视频帧各自对应的划分区域,其中,所述聚类算法模型为采用稀疏特性特征作为训练样本训练得出的。
为了实现上述目的,根据本发明的另一方面,提供了一种视频数据传输系统,该系统包括:视频发送端和视频接收端;
所述视频发送端,用于:提取出待传输视频数据中每个视频帧的稀疏特性特征;根据所述稀疏特性特征对每个所述视频帧进行区域划分,得到每个所述视频帧各自对应的划分区域;将每个所述视频帧转化为一维矩阵,得到所述视频数据对应的一维矩阵数据流;根据每个所述视频帧各自对应的划分区域以及每个划分区域各自对应的稀疏基,对所述一维矩阵数据流进行稀疏变换,得到稀疏变换后的一维矩阵数据流;对所述稀疏变换后的一维矩阵数据流进行随机不等间距的亚采样,得到压缩采样结果;以及将所述压缩采样结果发送到所述视频接收端;
所述视频接收端,用于根据所述压缩采样结果以及预设的压缩采样重构算法生成重构的视频数据。
可选的,所述视频发送端,具体将每个所述视频帧对应的稀疏特性特征输入到预设的聚类算法模型中,得到每个所述视频帧各自对应的划分区域,其中,所述聚类算法模型为采用稀疏特性特征作为训练样本训练得出的。
为了实现上述目的,根据本发明的另一方面,还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述视频数据传输方法中的步骤。
为了实现上述目的,根据本发明的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序在计算机处理器中执行时实现上述视频数据传输方法中的步骤。
本发明的有益效果为:本发明通过对视频进行稀疏变换以及压缩采样,显著缩减了传输内容大小,从根本上降低了传输音视频内容的带宽需求,视频接收端利用重构算法,即可完美恢复出音视频内容,提升了恶劣通信环境下的音视频传输的质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本发明实施例视频数据传输方法的第一流程图;
图2是本发明实施例视频数据传输方法的第二流程图;
图3是本发明实施例视频数据传输系统示意图;
图4是本发明实施例区域划分装置框架图;
图5是本发明实施例压缩采样装置框架图;
图6是本发明实施例视频数据传输装置的结构框图;
图7是本发明实施例计算机设备示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
需要说明的是,本发明的视频数据传输方法、装置及系统可用于金融领域,也可以应用于其他技术领域。
本发明提供一种视频数据传输方法、装置及系统,用于提升低带宽条件下在线音视频的质量,本发明可以用远低于传统采样频率的采样率对音视频内容进行压缩感知,大大缩小了采样后的视频大小,显著降低了传输时对通信网络带宽的需求;视频接收端利用重构算法可以无损的恢复原始视频,保障并改善了低带宽条件下的用户体验。
本发明的一个方面提供了一种视频数据传输系统,如图3所示,本发明的视频数据传输系统包含视频发送端和视频接收端。在本发明实施例中,视频发送端和视频接收端均可以为客户端或者服务器。
在本发明一个应用场景中,视频发送端为客户端,视频接收端为服务器,客户端将视频数据发送到服务器,对应用户通过客户端进行音视频直播,将直播的视频数据实时传输到直播平台的后台服务器。
在本发明另一个应用场景中,视频发送端为服务器,视频接收端为客户端,服务器将视频数据发送到客户端,对应直播平台的后台服务器将视频数据发送到观看直播的用户的客户端。
在本发明实施例中,所述视频发送端,具体用于:
提取出待传输视频数据中每个视频帧的稀疏特性特征;
根据所述稀疏特性特征对每个所述视频帧进行区域划分,得到每个所述视频帧各自对应的划分区域;
将每个所述视频帧转化为一维矩阵,得到所述视频数据对应的一维矩阵数据流;
根据每个所述视频帧各自对应的划分区域以及每个划分区域各自对应的稀疏基,对所述一维矩阵数据流进行稀疏变换,得到稀疏变换后的一维矩阵数据流;
对所述稀疏变换后的一维矩阵数据流进行随机不等间距的亚采样,得到压缩采样结果;以及将所述压缩采样结果发送到所述视频接收端;
在本发明实施例中,所述视频接收端,用于根据所述压缩采样结果以及预设的压缩采样重构算法重构的视频数据。
本发明的主要发明点为区域划分以及压缩采样,在本发明实施例中,视频发送端中设置有区域划分装置和压缩采样装置,用于实现本发明的区域划分以及压缩采样,下面将结合附图详细描述本发明的区域划分和压缩采样。为了更好的理解它们的工作原理,首先对压缩采样理论做简要介绍。
压缩采样理论最早在数字信号处理领域提出。根据经典的奈奎斯特采样定理,只有当采样频率高于信号中最高频率的2倍时,才能完美得从采样后的数字信号中恢复出原始信号。当采样率低于奈奎斯特频率,信号在频域会发生混叠,重构出的信号相较于原始信号会出现失真。2004年,几位科学家向这一信号处理领域的金科玉律发起了挑战,从数学理论上证明了如果信号是稀疏的,那么它可以由远低于奈奎斯特采样率的采样点完美重构恢复。具体而言,压缩采样理论认为:如果一个信号在某个变换域是稀疏(非零点数远远小于信号总点数)的,则可以用一个与变换基不相关的测量矩阵将稀疏的高维变换域信号投影到一个低维空间上,然后通过求解优化问题从低维投影中以高概率重构出原始信号。
以一维信号举例说明,x是长度为n的原始信号,可用n×1矩阵表示。
Figure BDA0003068657480000061
为m×n的测量矩阵,它将高维信号x投影到低维空间,对应着亚采样(压缩采样)的过程。亚采样的结果可用一个m×1矩阵y表示为
Figure BDA0003068657480000062
其中m远小于n。
亚采样结果y和测量矩阵
Figure BDA0003068657480000063
是已知的,因此压缩采样的重构问题就是求解方程组
Figure BDA0003068657480000064
得到原始信号。只要原始信号是稀疏的,并且测量矩阵
Figure BDA0003068657480000065
满足有限等距性质,就可以从m个测量值中准确重构出n个原始信号。然而,很多信号本身不是稀疏的,例如本方案中需要处理的视频图像信号,此时需要将信号x在某种稀疏基Ψ上进行稀疏表示,即x=Ψs,s为稀疏系数。将其代入
Figure BDA0003068657480000071
可得
Figure BDA0003068657480000072
Figure BDA0003068657480000073
c被称为传感矩阵。最终,任意信号x的压缩采样重构可由求解y=cs(y和c已知)中的s,再用x=Ψs获得。
为了得到原始信号的稀疏表示,可以使用正交变换或者一个过完备的字典。常用的正交变换方法包括频域变换,离散余弦变换(DCT),离散小波变换(DWT),双树小波变换(DT-WT)。在实际情况下,原始信号在变换域中不会呈现完全的稀疏性,只需要在变换域中近似满足稀疏性,即大部分数值接近零,只有少量较大的非零值,就可以认为该信号是可以压缩采样的。由于音视频图像内容的复杂性,以及近似稀疏特性,使用单一稀疏基对视频图像内容进行表示难以获得最优重构效果,因此本发明设计了基于机器学习的区域划分装置,根据视频中每帧图像的稀疏特性对其进行区域划分,为不同区域指定最优稀疏基进行稀疏变换。
在本发明实施例中,视频接收端采用的压缩采样重构算法主要包括基追踪(BP)算法、基追踪降噪(BPDN)算法、基于梯度的迭代分割和阈值(IST)算法、可分逼近(SpaRSA)算法、梯度投影算法(GPSR);贪婪算法,包括正交匹配追踪(OMP)算法、压缩采样匹配追踪(CoSaMP)算法;迭代阈值算法;基于图像结构的贝叶斯算法;基于图模型推断的贝叶斯算法等。
本发明利用多种重构算法形成算法池,综合考虑设备的计算性能、时效性、重构音视频质量等因素,针对特定场景选取最优重构算法。具体而言,若所述视频接收端为服务器,则所述压缩采样重构算法包括:BP算法、GPSR算法、迭代阈值算法以及基于图模型推断的贝叶斯算法;若所述视频接收端为客户端,则所述压缩采样重构算法包括:OMP算法、迭代阈值算法以及基于图模型推断的贝叶斯算法。
在本发明一个实施例中,所述视频发送端具体将每个所述视频帧对应的稀疏特性特征输入到预设的聚类算法模型中,得到每个所述视频帧各自对应的划分区域,其中,所述聚类算法模型为采用稀疏特性特征作为训练样本训练得出的。
在本发明一个实施例中,所述视频发送端,还用于获取训练样本集以及标签样本,将所述标签样本将作为聚类算法的初始聚类中心,并根据所述训练样本集进行模型训练,得到所述聚类算法模型,其中,所述训练样本集中的训练样本为稀疏特性特征,所述标签样本为带有划分区域标签的稀疏特性特征。在本发明一个实施例中,划分区域标签包括:频域变换、离散余弦变换(DCT)、离散小波变换(DWT)、双树小波变换(DT-WT)以及过完备字典。
在本发明一个实施例中,所述视频发送端,具体抽取每个所述视频帧的图像区域的二维数据,并将所述二维数据逐列转换为一维矩阵。
在本发明一个实施例中,本发明的待传输视频数据为音视频数据。
在本发明实施例中,视频发送端中设置有区域划分装置,用于实现本发明的:提取出待传输视频数据中每个视频帧的稀疏特性特征;根据所述稀疏特性特征对每个所述视频帧进行区域划分,得到每个所述视频帧各自对应的划分区域。
图4是本发明实施例区域划分装置框架图,如图4所示,在本发明一个实施例中,本发明的区域划分装置包括:特征提取模块21、聚类学习模块22、数据集模块23、模型评估模块24、模型优化模块25。下面将详细描述每个模块的工作原理和主要用途。
特征提取模块21,利用2D卷积神经网络,从视频数据中的每帧图像中提取稀疏特性特征。具体的,特征提取模块21对视频数据逐帧采用2D-CNN提取特征,并将稀疏特性特征交给聚类学习模块22。
聚类学习模块22,负责训练聚类算法模型,并根据特征提取模块21提供的稀疏特性特征,对视频数据中的每帧图像进行区域划分,划分结果交给模型评估模块24。在模型训练阶段,首先创建频域变换,离散余弦变换(DCT),离散小波变换(DWT),双树小波变换(DT-WT)和过完备字典这5类区域划分的标签样本,并将这些标签样本作为K-meas算法的初始聚类中心;然后利用数据集模块23提供的视频数据,进行稀疏特性特征提取、聚类和区域划分,从而训练算法模型。
数据集模块23,负责为聚类学习模块22提供视频数据集供算法模型训练使用。常用的视频数据集包括HMDB-51、UCF-101、Kinetics-700等,本发明可以采用HMDB-51视频数据集。
模型评估模块24,负责对聚类学习模块22输出的区域划分结果进行评估。该子模块接收视频内容每帧的区域划分结果,根据划分结果为不同区域分配对应的稀疏基并进行稀疏表示,并将各区域稀疏表示结果与对应标签样本的稀疏表示效果进行比对,如果评估效果达到阈值,则将划分结果输出,并将视频内容和划分结果补充到数据集模块23;如果评估效果达不到阈值,则将激活模型优化模块25。
模型优化模块25,负责重新训练算法模型并进行更新。当模型评估模块24提示区域划分效果低于阈值,模型优化模块25将被激活,它会利用触发该模块的视频帧重新训练聚类学习模块22,并更新算法模型。
在本发明实施例中,视频发送端中设置有压缩采样装置,用于实现本发明的:将每个所述视频帧转化为一维矩阵,得到所述视频数据对应的一维矩阵数据流;根据每个所述视频帧各自对应的划分区域以及每个划分区域各自对应的稀疏基,对所述一维矩阵数据流进行稀疏变换,得到稀疏变换后的一维矩阵数据流;对所述稀疏变换后的一维矩阵数据流进行随机不等间距的亚采样,得到压缩采样结果。
图5是本发明实施例压缩采样装置框架图,如图5所示,本发明的压缩采样装置包括:数据处理模块31、稀疏基配置模块32、随机采样模块33。下面将详细描述每个模块的工作原理和主要用途。
数据处理模块31,负责对视频帧数据进行预处理。该模块接收视频帧和区域划分结果,抽取每个视频帧图像区域的二维数据并将其逐列转换为一维矩阵,数据处理结果交给稀疏基配置模块32。
稀疏基配置模块32,负责将视频帧数据变换到稀疏域。该模块接收来自数据处理模块31的一维矩阵数据流和区域划分结果,针对每一个划分区域的一维矩阵数据流,选用区域划分装置为该区域指定的稀疏基,进行稀疏变换,变换结果传递给随机采样模块33。
随机采样模块33,负责对经过稀疏变换的视频帧数据进行随机不等间距的亚采样。该模块对应上文理论介绍中的测量矩阵
Figure BDA0003068657480000091
需要满足约束等距性条件,或者说测量矩阵
Figure BDA0003068657480000092
与稀疏基不相关。随机采样模块33接收来自稀疏基配置模块32提供的一维矩阵数据流,对其进行随机不等距的亚采样,从而得到的压缩采样结果。
基于同一发明构思,本发明实施例还提供了一种视频数据传输方法,应用于上述实施例的视频数据传输系统。由于视频数据传输方法解决问题的原理与视频数据传输系统相似,因此视频数据传输方法的实施例可以参见视频数据传输系统的实施例,重复之处不再赘述。
图1是本发明实施例视频数据传输方法的第一流程图,实施主体为上述实施例视频数据传输系统中的视频发送端,如图1所示,本发明的视频数据传输方法包括步骤S101至步骤S106。
步骤S101,提取出待传输视频数据中每个视频帧的稀疏特性特征。
步骤S102,根据所述稀疏特性特征对每个所述视频帧进行区域划分,得到每个所述视频帧各自对应的划分区域。
在本发明一个实施例中,所述划分区域具体包括:频域变换、离散余弦变换(DCT)、离散小波变换(DWT)、双树小波变换(DT-WT)以及过完备字典。
步骤S103,将每个所述视频帧转化为一维矩阵,得到所述视频数据对应的一维矩阵数据流。
步骤S104,根据每个所述视频帧各自对应的划分区域以及每个划分区域各自对应的稀疏基,对所述一维矩阵数据流进行稀疏变换,得到稀疏变换后的一维矩阵数据流。
步骤S105,对所述稀疏变换后的一维矩阵数据流进行随机不等间距的亚采样,得到压缩采样结果。
步骤S106,将所述压缩采样结果发送到视频接收端,以使所述视频接收端根据所述压缩采样结果以及预设的压缩采样重构算法生成重构的视频数据。
在本发明一个实施例中,上述步骤S102的根据所述稀疏特性特征对每个所述视频帧进行区域划分,得到每个所述视频帧各自对应的划分区域,具体包括:
将每个所述视频帧对应的稀疏特性特征输入到预设的聚类算法模型中,得到每个所述视频帧各自对应的划分区域,其中,所述聚类算法模型为采用稀疏特性特征作为训练样本训练得出的。
图2是本发明实施例视频数据传输方法的第二流程图,实施主体为上述实施例视频数据传输系统中的视频发送端,如图2所示,本发明上述聚类算法模型具体由步骤S201和步骤S202训练得出。
步骤S201,获取训练样本集以及标签样本,其中,所述训练样本集中的训练样本为稀疏特性特征,所述标签样本为带有划分区域标签的稀疏特性特征。
在本发明一个实施例中,本发明先获取现有技术的视频数据集,例如可以采用HMDB-51视频数据集,进而通过2D卷积神经网络提取出视频数据集中每个视频帧的稀疏特性特征,得到本发明的训练样本集。
步骤S202,将所述标签样本将作为聚类算法的初始聚类中心,并根据所述训练样本集进行模型训练,得到所述聚类算法模型。
在本发明一个实施例中,上述步骤S103的将每个所述视频帧转化为一维矩阵,具体包括:
抽取每个所述视频帧的图像区域的二维数据,并将所述二维数据逐列转换为一维矩阵。
由以上实施例可以看出,本发明提供了一种提升低带宽条件下在线音视频质量的系统及方法,综合运用了聚类机器学习算法和压缩采样技术,实现了用远低于传统采样频率(奈奎斯特频率)的采样率对音视频内容进行压缩感知,带来了以下3点主要有益效果:
1、极大地缩减了压缩采样后的视频大小,从根本上显著降低了在线音视频传输时对通信网络带宽的需求;
2、接收端利用重构算法可以无损地恢复出原始视频,保障并改善了低带宽条件下的用户体验;
3、提供了音视频数据上传和下载的完整链路,拓展了本发明的应用场景,不仅可以用于传统视频点播服务,还可以用于实时直播等应用。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
基于同一发明构思,本发明实施例还提供了一种视频数据传输装置,可以用于实现上述实施例所描述的视频数据传输方法,如下面的实施例所述。由于视频数据传输装置解决问题的原理与视频数据传输方法相似,因此视频数据传输装置的实施例可以参见视频数据传输方法的实施例,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图6是本发明实施例视频数据传输装置的结构框图,如图6所示,本发明实施例视频数据传输装置包括:
稀疏特性特征提取模块1,用于提取出待传输视频数据中每个视频帧的稀疏特性特征;
区域划分模块2,用于根据所述稀疏特性特征对每个所述视频帧进行区域划分,得到每个所述视频帧各自对应的划分区域;
一维矩阵转化模块3,用于将每个所述视频帧转化为一维矩阵,得到所述视频数据对应的一维矩阵数据流;
稀疏基配置模块4,用于根据每个所述视频帧各自对应的划分区域以及每个划分区域各自对应的稀疏基,对所述一维矩阵数据流进行稀疏变换,得到稀疏变换后的一维矩阵数据流;
压缩采样模块5,用于对所述稀疏变换后的一维矩阵数据流进行随机不等间距的亚采样,得到压缩采样结果;
数据发送模块6,用于将所述压缩采样结果发送到视频接收端,以使所述视频接收端根据所述压缩采样结果以及预设的压缩采样重构算法生成重构的视频数据。
在本发明一个实施例中,所述区域划分模块2具体包括:
机器学习应用单元,用于将每个所述视频帧对应的稀疏特性特征输入到预设的聚类算法模型中,得到每个所述视频帧各自对应的划分区域,其中,所述聚类算法模型为采用稀疏特性特征作为训练样本训练得出的。
为了实现上述目的,根据本申请的另一方面,还提供了一种计算机设备。如图7所示,该计算机设备包括存储器、处理器、通信接口以及通信总线,在存储器上存储有可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述实施例方法中的步骤。
处理器可以为中央处理器(Central Processing Unit,CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及单元,如本发明上述方法实施例中对应的程序单元。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及作品数据处理,即实现上述方法实施例中的方法。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个单元存储在所述存储器中,当被所述处理器执行时,执行上述实施例中的方法。
上述计算机设备具体细节可以对应参阅上述实施例中对应的相关描述和效果进行理解,此处不再赘述。
为了实现上述目的,根据本申请的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序在计算机处理器中执行时实现上述视频数据传输方法中的步骤。本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(RandomAccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (16)

1.一种视频数据传输方法,其特征在于,包括:
提取出待传输视频数据中每个视频帧的稀疏特性特征;
根据所述稀疏特性特征对每个所述视频帧进行区域划分,得到每个所述视频帧各自对应的划分区域;
将每个所述视频帧转化为一维矩阵,得到所述视频数据对应的一维矩阵数据流;
根据每个所述视频帧各自对应的划分区域以及每个划分区域各自对应的稀疏基,对所述一维矩阵数据流进行稀疏变换,得到稀疏变换后的一维矩阵数据流;
对所述稀疏变换后的一维矩阵数据流进行随机不等间距的亚采样,得到压缩采样结果;
将所述压缩采样结果发送到视频接收端,以使所述视频接收端根据所述压缩采样结果以及预设的压缩采样重构算法生成重构的视频数据。
2.根据权利要求1所述的视频数据传输方法,其特征在于,所述根据所述稀疏特性特征对每个所述视频帧进行区域划分,得到每个所述视频帧各自对应的划分区域,具体包括:
将每个所述视频帧对应的稀疏特性特征输入到预设的聚类算法模型中,得到每个所述视频帧各自对应的划分区域,其中,所述聚类算法模型为采用稀疏特性特征作为训练样本训练得出的。
3.根据权利要求2所述的视频数据传输方法,其特征在于,还包括:
获取训练样本集以及标签样本,其中,所述训练样本集中的训练样本为稀疏特性特征,所述标签样本为带有划分区域标签的稀疏特性特征;
将所述标签样本将作为聚类算法的初始聚类中心,并根据所述训练样本集进行模型训练,得到所述聚类算法模型。
4.根据权利要求1所述的视频数据传输方法,其特征在于,所述将每个所述视频帧转化为一维矩阵,具体包括:
抽取每个所述视频帧的图像区域的二维数据,并将所述二维数据逐列转换为一维矩阵。
5.根据权利要求1所述的视频数据传输方法,其特征在于,若所述视频接收端为服务器,则所述压缩采样重构算法包括:BP算法、GPSR算法、迭代阈值算法以及基于图模型推断的贝叶斯算法;若所述视频接收端为客户端,则所述压缩采样重构算法包括:OMP算法、迭代阈值算法以及基于图模型推断的贝叶斯算法。
6.根据权利要求1所述的视频数据传输方法,其特征在于,所述待传输视频数据为音视频数据。
7.一种视频数据传输装置,其特征在于,包括:
稀疏特性特征提取模块,用于提取出待传输视频数据中每个视频帧的稀疏特性特征;
区域划分模块,用于根据所述稀疏特性特征对每个所述视频帧进行区域划分,得到每个所述视频帧各自对应的划分区域;
一维矩阵转化模块,用于将每个所述视频帧转化为一维矩阵,得到所述视频数据对应的一维矩阵数据流;
稀疏基配置模块,用于根据每个所述视频帧各自对应的划分区域以及每个划分区域各自对应的稀疏基,对所述一维矩阵数据流进行稀疏变换,得到稀疏变换后的一维矩阵数据流;
压缩采样模块,用于对所述稀疏变换后的一维矩阵数据流进行随机不等间距的亚采样,得到压缩采样结果;
数据发送模块,用于将所述压缩采样结果发送到视频接收端,以使所述视频接收端根据所述压缩采样结果以及预设的压缩采样重构算法生成重构的视频数据。
8.根据权利要求7所述的视频数据传输装置,其特征在于,所述区域划分模块,具体包括:
机器学习应用单元,用于将每个所述视频帧对应的稀疏特性特征输入到预设的聚类算法模型中,得到每个所述视频帧各自对应的划分区域,其中,所述聚类算法模型为采用稀疏特性特征作为训练样本训练得出的。
9.一种视频数据传输系统,其特征在于,包括:视频发送端和视频接收端;
所述视频发送端,用于:提取出待传输视频数据中每个视频帧的稀疏特性特征;根据所述稀疏特性特征对每个所述视频帧进行区域划分,得到每个所述视频帧各自对应的划分区域;将每个所述视频帧转化为一维矩阵,得到所述视频数据对应的一维矩阵数据流;根据每个所述视频帧各自对应的划分区域以及每个划分区域各自对应的稀疏基,对所述一维矩阵数据流进行稀疏变换,得到稀疏变换后的一维矩阵数据流;对所述稀疏变换后的一维矩阵数据流进行随机不等间距的亚采样,得到压缩采样结果;以及将所述压缩采样结果发送到所述视频接收端;
所述视频接收端,用于根据所述压缩采样结果以及预设的压缩采样重构算法生成重构的视频数据。
10.根据权利要求9所述的视频数据传输系统,其特征在于,
所述视频发送端,具体将每个所述视频帧对应的稀疏特性特征输入到预设的聚类算法模型中,得到每个所述视频帧各自对应的划分区域,其中,所述聚类算法模型为采用稀疏特性特征作为训练样本训练得出的。
11.根据权利要求10所述的视频数据传输系统,其特征在于,
所述视频发送端,还用于获取训练样本集以及标签样本,将所述标签样本将作为聚类算法的初始聚类中心,并根据所述训练样本集进行模型训练,得到所述聚类算法模型,其中,所述训练样本集中的训练样本为稀疏特性特征,所述标签样本为带有划分区域标签的稀疏特性特征。
12.根据权利要求9所述的视频数据传输系统,其特征在于,
所述视频发送端,具体抽取每个所述视频帧的图像区域的二维数据,并将所述二维数据逐列转换为一维矩阵。
13.根据权利要求9所述的视频数据传输系统,其特征在于,若所述视频接收端为服务器,则所述压缩采样重构算法包括:BP算法、GPSR算法、迭代阈值算法以及基于图模型推断的贝叶斯算法;若所述视频接收端为客户端,则所述压缩采样重构算法包括:OMP算法、迭代阈值算法以及基于图模型推断的贝叶斯算法。
14.根据权利要求9所述的视频数据传输系统,其特征在于,所述待传输视频数据为音视频数据。
15.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任一项所述的方法。
16.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序在计算机处理器中执行时实现如权利要求1至6任意一项所述的方法。
CN202110533101.5A 2021-05-17 2021-05-17 视频数据传输方法、装置及系统 Active CN113271477B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110533101.5A CN113271477B (zh) 2021-05-17 2021-05-17 视频数据传输方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110533101.5A CN113271477B (zh) 2021-05-17 2021-05-17 视频数据传输方法、装置及系统

Publications (2)

Publication Number Publication Date
CN113271477A CN113271477A (zh) 2021-08-17
CN113271477B true CN113271477B (zh) 2022-07-08

Family

ID=77231108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110533101.5A Active CN113271477B (zh) 2021-05-17 2021-05-17 视频数据传输方法、装置及系统

Country Status (1)

Country Link
CN (1) CN113271477B (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011156250A1 (en) * 2010-06-07 2011-12-15 Thomson Licensing Learned transform and compressive sensing for video coding
CN103346798B (zh) * 2013-06-05 2016-07-06 中国科学院微电子研究所 一种以低于奈奎斯特频率的采样频率进行信号采集方法
CN106056640B (zh) * 2016-06-03 2019-03-26 西北大学 基于形态成分分解结合压缩感知的图像压缩方法
CN110719473B (zh) * 2019-09-03 2021-11-23 上海交通大学 基于结构化稀疏的可伸缩压缩视频采集与重构系统

Also Published As

Publication number Publication date
CN113271477A (zh) 2021-08-17

Similar Documents

Publication Publication Date Title
EP3259916B1 (en) Visual processing using sub-pixel convolutions
CN104199627B (zh) 基于多尺度在线字典学习的可分级视频编码系统
Rasheed et al. Image compression based on 2D Discrete Fourier Transform and matrix minimization algorithm
CN115409716B (zh) 视频处理方法、装置、存储介质及设备
KR20200050284A (ko) 영상 적응적 양자화 테이블을 이용한 영상의 부호화 장치 및 방법
Sethi et al. Image compression using Haar wavelet transform
CN113271477B (zh) 视频数据传输方法、装置及系统
Ali et al. Image and audio fractal compression: Comprehensive review, enhancements and research directions
Padmavati et al. DCT combined with fractal quadtree decomposition and Huffman coding for image compression
Siddeq et al. A new 2D image compression technique for 3D surface reconstruction
CN115361556A (zh) 一种基于自适应的高效视频压缩算法及其系统
CN113949867B (zh) 一种图像处理的方法及装置
Goklani et al. A review on image reconstruction using compressed sensing algorithms: OMP, CoSaMP and NIHT
Thepade et al. New clustering algorithm for Vector Quantization using Haar sequence
Liu et al. CARP: Compression through adaptive recursive partitioning for multi-dimensional images
Anbarjafari et al. Resolutıon enhancement based image compression technique using singular value decomposition and wavelet transforms
CN117459727B (zh) 一种图像处理方法、装置、系统、电子设备及存储介质
Nahar A compression original image based on the DDWT technique and enhancement SNR
Hasan Combination of lossy and lossless for image compression
Sarinova et al. MATHEMATICAL FRAMEWORK FORMULATION AND IMPLEMENTATION FOR HYPERSPECTRAL AEROSPACE IMAGES PROCESSING
Gashnikov et al. Methods and Algorithms for Image Compression Based on Machine Learning
KR20230030728A (ko) 통합 함수를 이용한 신경망 기반의 안개 제거 장치 및 방법
Nahar et al. Enhancement Medical Images Based on the Optimize Double Density Wavelet Transform Technique
WO2023285997A1 (en) Task-oriented dynamic mesh compression using occupancy networks
CN114882133A (zh) 一种图像编解码方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant