CN112492314B - 一种基于机器学习的动态运动估计算法选择的方法 - Google Patents

一种基于机器学习的动态运动估计算法选择的方法 Download PDF

Info

Publication number
CN112492314B
CN112492314B CN202011337046.4A CN202011337046A CN112492314B CN 112492314 B CN112492314 B CN 112492314B CN 202011337046 A CN202011337046 A CN 202011337046A CN 112492314 B CN112492314 B CN 112492314B
Authority
CN
China
Prior art keywords
motion estimation
video
vmaf
estimation algorithm
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011337046.4A
Other languages
English (en)
Other versions
CN112492314A (zh
Inventor
王明琛
刘宇新
朱政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Microframe Information Technology Co ltd
Original Assignee
Hangzhou Microframe Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Microframe Information Technology Co ltd filed Critical Hangzhou Microframe Information Technology Co ltd
Priority to CN202011337046.4A priority Critical patent/CN112492314B/zh
Publication of CN112492314A publication Critical patent/CN112492314A/zh
Application granted granted Critical
Publication of CN112492314B publication Critical patent/CN112492314B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明提供了一种基于机器学习的动态运动估计算法选择的方法,属于视频编码技术领域。本发明的核心思想在于通过机器学习的方法,在同码率下,对每个类型的视频用不同的运动估计算法进行编码,得到每一类视频的每种运动估计方法的VMAF和编码用时。通过设定VMAF阈值,根据VMAF阈值自适应的匹配高效率低复杂度的运动估计算法,以达到降低编码器复杂度的目的,从而在保证视频质量的同时节省了码率。

Description

一种基于机器学习的动态运动估计算法选择的方法
技术领域
本发明涉及视频编码技术领域,尤其涉及一种基于机器学习的动态运动估计算法选择的方法。
背景技术
视频编码是以视频信号的相关性和人眼的视觉特性为出发点,通过恰当的编码方法,来消除各类相关性和人眼特性所产生的冗余,从而在保证视频质量的同时,降低码率。视频信号之间的冗余,主要表现在时域相关性和空域相关性。时域相关性,指的是图象序列中相邻的图象之间相似性;空域相关性,指的是同一图象中,相邻像素之间的相似性。基于这种相似性,可以采用预测编码的方式,用已知的已编码的像素,对当前像素进行预测,将当前像素与预测值做减法得到预测残差,然后再对预测的残差进行编码,从而达到降低码率的目的。
视频序列的相邻帧之间存在位移,在对当前像素进行帧间预测编码时,最佳参考像素的所在位置,并不一定总是与当前像素具有相同的二维坐标。所以,帧间预测编码,又可以称作“基于运动补偿的预测编码”。帧间预测编码的目的,就是为当前像素寻找最佳预测值,而寻找该预测值的所在位置的过程,则被称为“运动估计”。运动估计技术,是预测编码的关键技术,它有效的消除了图象帧间的时域冗余度,从而提高了压缩效率。但同时,为了最大程度的消除时域冗余度,编码器在进行运动估计时需要进行大量的搜索工作,以便在参考图像中寻找到与当前像素最佳匹配的参考像素。所以,运动估计模块由于其复杂的计算过程,成为决定编码器计算复杂度的主要因素。针对不同种类的视频,如何选择高效率低复杂度的运动估计算法,是本发明要解决的主要问题。
发明内容
本发明提供了一种基于机器学习的动态运动估计算法选择的方法。本发明的核心思想在于通过机器学习的方法,在同码率下,对每个类型的视频用不同的运动估计算法进行编码,得到每一类视频的每种运动估计方法的VMAF和编码用时,通过设定VMAF阈值,根据VMAF阈值自适应的匹配高效率低复杂度的运动估计算法,以达到降低编码器复杂度的目的,从而在保证视频质量的同时节省了码率。具体包括如下步骤。
(1)准备各种类型的视频,比如:游戏直播、体育赛事、动漫、电影、综艺等,作为训练数据训练视频分类神经网络模型。
(2)比较不同运动估计算法对于每类视频的压缩性能。
(2.1)对每一类视频用不同运动估计算法进行编码,编码时以同样的目标码率为限制。
(2.2)分别获得每一类视频用每一种运动估计算法的VMAF评分和编码用时。
(2.3)通过拟合以编码时长为横轴,以VMAF纵轴的曲线,以曲线斜率最大的点对应的VMAF值作为VMAF阈值,找到最接近VMAF阈值的运动估计算法,该算法为该类视频的最优运动估计算法。
(3)对带压缩视频进行压缩,最终输出压缩后的视频。
(3.1)将带压缩视频输入步骤(1)中训练好的网络模型进行分类。
(3.2)根据步骤(2)中得到的结论选择最优的运动估计算法对待压缩视频进行压缩。
(3.3)输出压缩后的视频。
附图说明
图1为本发明一种基于机器学习的动态运动估计算法选择的方法的流程图。
图2为4种类型视频使用不同运动估计算法编码的VMAF和编码时长曲线图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
下面结合附图对本发明作更进一步的说明。
如图1所示,本发明的一种基于机器学习的动态运动估计算法选择的方法具体包括以下步骤。
(1)准备各种类型的视频,比如:游戏直播、体育赛事、动漫、电影、综艺等,作为训练数据训练视频分类神经网络模型。
(2)比较不同运动估计算法对于每类视频的压缩性能。
(2.1)对每一类视频用不同运动估计算法进行编码,编码时以同样的目标码率为限制:以X.264的搜索方法为例,但不限于所举例的方法,对于每类视频分别用菱形搜索算法、六边形搜索算法、非对称十字型多层次六边形格点搜索算法和完全搜索法进行编码。
(2.1.1)对于视频A用菱形搜索算法进行搜索:通过计算各点的匹配误差,得到MBD点。如果MBD点位于模板中心,则停止搜索,此时的MBD点就是最优匹配点,对应的宏块就是最佳匹配块。如果MBD点不在模板中心位置,则以现在MBD点为中心点,继续进行小菱形搜索,直至MBD点位于中心点为止。
(2.1.2)对于视频A用六边形搜索算法进行搜索:首先按六边形模板对包括中心点在内的7个点进行 SAD计算,如果 MBD点在六边形的中心,则停止搜索,以该MBD点为中心,将搜索模板改为菱形,然后进行匹配计算,得到的 MBD点即为所求的最佳匹配点;否则,以该MBD点为中心组成新的六边形,并计算新加入的点,如此往复,直到MBD点在六边形的中心。
(2.1.3)对于视频A用非对称十字型多层次六边形格点搜索算法进行搜索,该算法综合考虑了大范围运动和缓慢运动的特点,利用时空相关性进行运动矢量场的预测,并采用了多种形状的模板进行搜索,例如六边形搜索法,菱形搜索法等,兼顾了搜索速度和搜索质量,搜索步骤如下。
(2.1.3.1)准静止块检测:搜索中值预测矢量和原点后,通过是否满足收敛收缩的
条件来判断是否为准静止块,若满足,进行收敛搜索后停止搜索,否则进入步骤(2.1.3.2)。
(2.1.3.2)运动类型判定:进行一次小的局部搜索,获得最佳匹配点后,对运动类
型进行判断:若满足大运动块的要求进入步骤(2.1.3.3);否则进入步骤(2.1.3.4)。
(2.1.3.3)大运动块搜索:以获得的最佳匹配点为中心,进行对称的十字形搜索,
获得最佳匹配点后进入一次6点的六边形搜索,获得最佳匹配点后,采用不断扩大一倍搜索半径的 16 点的大六边形模板进行搜索,直至搜索超出范围结束步骤(2.1.3.3)。
(2.1.3.4)中运动块搜索:首先检测上层块预测矢量,并进行一次小的局部搜索,获得最佳匹配点。再次判断是否满足收敛搜索的条件:满足则进入步骤(2.1.3.5),进行收敛搜索后结束搜索;否则使用扩展的六边形搜索以确定的最佳匹配点为中心进行连续的中六边形搜索,直至其最佳的运动矢量位于六边形的中心。获得最佳匹配点后进入步骤(2.1.3.5)。
(2.1.3.5)小运动块的精细搜索以当前最佳匹配点为中心进行小菱形模板搜索,直至最佳匹配点为菱形中心。
(2.1.4)对于视频A用完全搜索法进行搜索:首先从坐标(0,0)出发,按照某种路径由近及远逐个计算SAD值,直到遍历搜索框内的所有的点;然后在所有SAD值中找到最小误差MBD点,该点即最佳匹配点。
(2.1.5)分别获得视频A用每一种运动估计算法的VMAF和编码用时。
(2.2)分别获得每一类视频用每一种运动估计算法的VMAF评分和编码用时。
(2.3)通过拟合以编码时长为横轴,以VMAF纵轴的曲线,以曲线斜率最大的点对应的VMAF值作为VMAF阈值,找到最接近VMAF阈值的运动估计算法,该算法为该类视频的最优运动估计算法。
(3)对带压缩视频进行压缩,最终输出压缩后的视频。
(3.1)将带压缩视频输入步骤(1)中训练好的网络模型进行分类。
(3.2)根据步骤(2)中得到的结论选择最优的运动估计算法对待压缩视频进行压缩。
(3.3)输出压缩后的视频。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (2)

1.一种基于机器学习的动态运动估计算法选择的方法,其特征在于,包括以下步骤:
S1:基于卷积神经网络训练视频分类模型;
S2:比较不同运动估计算法对于每类视频的压缩性能:
S2.1 对每一类视频用不同运动估计算法进行编码,以同样的目标码率为限制;
S2.2 分别获得每一类视频用每一种运动估计算法的VMAF评分和编码用时;
S2.3 通过拟合以编码时长为横轴,以VMAF纵轴的曲线,找到与VMAF阈值最接近的运动估计算法,则该算法为该类视频的最优运动估计算法;
S3:根据待压缩视频的类型和实验结果选择最优运动估计算法进行压缩,最终输出压缩后的视频。
2.根据权利要求1所述的方法,其特征在于,所述VMAF阈值是在指S2.3拟合的曲线中斜率最大的点对应的VMAF评分。
CN202011337046.4A 2020-11-25 2020-11-25 一种基于机器学习的动态运动估计算法选择的方法 Active CN112492314B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011337046.4A CN112492314B (zh) 2020-11-25 2020-11-25 一种基于机器学习的动态运动估计算法选择的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011337046.4A CN112492314B (zh) 2020-11-25 2020-11-25 一种基于机器学习的动态运动估计算法选择的方法

Publications (2)

Publication Number Publication Date
CN112492314A CN112492314A (zh) 2021-03-12
CN112492314B true CN112492314B (zh) 2024-05-14

Family

ID=74934543

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011337046.4A Active CN112492314B (zh) 2020-11-25 2020-11-25 一种基于机器学习的动态运动估计算法选择的方法

Country Status (1)

Country Link
CN (1) CN112492314B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1753501A (zh) * 2005-10-31 2006-03-29 连展科技(天津)有限公司 一种h.264/avc的帧间运动估计的模式选择方法
CN101237580A (zh) * 2008-02-29 2008-08-06 西北工业大学 基于中心预测的整数像素快速混合搜索方法
CN101771878A (zh) * 2010-01-14 2010-07-07 广西大学 面向全景视频编码的自适应选择全局运动估计方法
CN110312131A (zh) * 2019-07-01 2019-10-08 杭州当虹科技股份有限公司 一种基于深度学习的内容自适应在线视频编码方法
CN110324618A (zh) * 2019-07-03 2019-10-11 上海电力学院 基于vmaf准则的提高视频质量的优化编码方法
CN110401834A (zh) * 2019-08-06 2019-11-01 杭州微帧信息科技有限公司 一种基于深度学习的自适应视频编码方法
CN111970511A (zh) * 2020-07-21 2020-11-20 上海交通大学 一种基于vmaf的感知视频率失真编码优化方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1574995A1 (en) * 2004-03-12 2005-09-14 Thomson Licensing S.A. Method for encoding interlaced digital video data

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1753501A (zh) * 2005-10-31 2006-03-29 连展科技(天津)有限公司 一种h.264/avc的帧间运动估计的模式选择方法
CN101237580A (zh) * 2008-02-29 2008-08-06 西北工业大学 基于中心预测的整数像素快速混合搜索方法
CN101771878A (zh) * 2010-01-14 2010-07-07 广西大学 面向全景视频编码的自适应选择全局运动估计方法
CN110312131A (zh) * 2019-07-01 2019-10-08 杭州当虹科技股份有限公司 一种基于深度学习的内容自适应在线视频编码方法
CN110324618A (zh) * 2019-07-03 2019-10-11 上海电力学院 基于vmaf准则的提高视频质量的优化编码方法
CN110401834A (zh) * 2019-08-06 2019-11-01 杭州微帧信息科技有限公司 一种基于深度学习的自适应视频编码方法
CN111970511A (zh) * 2020-07-21 2020-11-20 上海交通大学 一种基于vmaf的感知视频率失真编码优化方法及装置

Also Published As

Publication number Publication date
CN112492314A (zh) 2021-03-12

Similar Documents

Publication Publication Date Title
EP3777207B1 (en) Content-specific neural network distribution
US9332271B2 (en) Utilizing a search scheme for screen content video coding
US11076168B2 (en) Inter-prediction method and apparatus, and storage medium
CN110087087A (zh) Vvc帧间编码单元预测模式提前决策及块划分提前终止方法
US11363276B2 (en) Intra-frame prediction method and apparatus, video coding device, and storage medium
US20110261886A1 (en) Image prediction encoding device, image prediction encoding method, image prediction encoding program, image prediction decoding device, image prediction decoding method, and image prediction decoding program
JP2023542397A (ja) ビデオ動き推定方法、装置、機器、及びコンピュータプログラム
CN111479110B (zh) 针对h.266/vvc的快速仿射运动估计方法
CN104160703A (zh) 经对象检测所通知的编码
KR102261669B1 (ko) 인공신경망 기반 객체영역 검출방법, 장치 및 이에 대한 컴퓨터 프로그램
CN106604035B (zh) 一种用于视频编码和压缩的运动估计的方法
CN114286093A (zh) 一种基于深度神经网络的快速视频编码方法
CN112291562B (zh) 针对h.266/vvc的快速cu分区和帧内模式决策方法
CN112492314B (zh) 一种基于机器学习的动态运动估计算法选择的方法
CN106611043B (zh) 一种视频搜索方法及系统
CN117115587A (zh) 一种基于gdnn的工业视频全局稀疏对抗样本生成方法和设备
CN108074247A (zh) 视频帧产生方法及其系统
CN110519597B (zh) 一种基于hevc的编码方法、装置、计算设备和介质
CN114040209A (zh) 运动估计方法、装置、电子设备及存储介质
CN104486633B (zh) 视频错误掩藏方法及装置
CN107197281A (zh) 一种实现运动估计的方法及电子设备
CN110278434B (zh) 一种快速多复合帧视频编码的方法、装置及存储介质
CN114173206A (zh) 融合用户兴趣和行为特征的低复杂度视点预测方法
Babu et al. Performance analysis of block matching algorithms for highly scalable video compression
WO2018205780A1 (zh) 一种运动估计实现方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant