CN116996680B - 一种用于视频数据分类模型训练的方法及装置 - Google Patents

一种用于视频数据分类模型训练的方法及装置 Download PDF

Info

Publication number
CN116996680B
CN116996680B CN202311244675.6A CN202311244675A CN116996680B CN 116996680 B CN116996680 B CN 116996680B CN 202311244675 A CN202311244675 A CN 202311244675A CN 116996680 B CN116996680 B CN 116996680B
Authority
CN
China
Prior art keywords
video
video data
quality evaluation
encoded
evaluation target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311244675.6A
Other languages
English (en)
Other versions
CN116996680A (zh
Inventor
尉苗苗
杨涵悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Shilong Software Co ltd
Original Assignee
Shanghai Shilong Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Shilong Software Co ltd filed Critical Shanghai Shilong Software Co ltd
Priority to CN202311244675.6A priority Critical patent/CN116996680B/zh
Publication of CN116996680A publication Critical patent/CN116996680A/zh
Application granted granted Critical
Publication of CN116996680B publication Critical patent/CN116996680B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/142Detection of scene cut or scene change
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/149Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本申请提供了一种用于视频数据分类模型训练的方法及装置。其方法包括:获取若干个不同视频类型的视频数据;设定每个视频数据的质量评估目标结果,并根据视频类型和质量评估目标结果,给每个视频数据标注标签,其中,标签是视频类型及其对应的预设质量评估目标结果的组合,每类标签对应一组视频编码参数值;提取视频数据的视频图像特征,并将其和质量评估目标结果作为融合特征,和标签组成样本数据,构建样本数据集;训练分类器,得到视频数据分类模型。通过该方法获得的视频数据分类模型可用于预测待编码视频数据的标签类别,结合预设的对照表,可自适应确定视频编码参数值,提高了参数设置效率,还可动态实现码率和编码后视频质量的平衡。

Description

一种用于视频数据分类模型训练的方法及装置
技术领域
本申请涉及视频编码技术领域,尤其涉及一种用于视频数据分类模型训练的技术。
背景技术
视频采集设备采集的原始视频通常为YUV格式,以分辨率为例,一个YUV420格式、像素为1920x1080的视频图像大小约为3Mbit,如果要传输一个每秒30帧这种视频图像帧的视频,则每秒要传输约93Mb数据,对网络带宽要求太高,而且原始视频中往往包括冗余信息,去除冗余信息并不影响视频质量,因此,原始视频通常都要经过视频编码压缩后才会传输。
由于不同视频类别的视频内容复杂度往往差异巨大,同一视频中不同场景的内容也可能复杂度不同。如果原始视频经过视频编码后想要达到满意的视频质量,需要针对不同内容复杂度的视频类别设置不同的视频编码参数。现有视频编码标准,比如H264、H265、vp8、vp9、av1等,定义了很多与视频编码相关的参数,且各参数需要配合设置才能保证编码后的视频质量,因此,如果是在编码前针对不同内容复杂度的视频类别手动进行设置,效率将很低,且一次设置,对于内容复杂度不同的视频,无法兼顾编码码率和编码后的视频质量,比如,在编码前手动设置好的一个适中的编码码率,对于具有复杂运动内容的体育竞技类视频,因未编码码率偏小可能会导致编码后的视频内容丢失细节较多,编码后的视频质量不高,而对于没有复杂内容的动漫类视频,又可能会因未编码码率偏高,造成带宽浪费。
发明内容
本申请的目的是提供一种用于视频数据分类模型训练的方法及装置,可将训练后得到的该视频数据分类模型用于预测待编码视频数据的标签类型,进而结合预设的标签与视频编码参数值对照表,可确定对应的一组视频编码参数值,以至少部分解决现有技术中视频编码参数设置效率低且无法兼顾编码码率和编码后的视频质量的技术问题。
根据本申请的一个方面,提供了一种用于视频数据分类模型训练的方法,其中,所述方法包括:
获取若干个不同视频类型的视频数据;
设定每个视频数据对应的质量评估目标结果,并根据每个视频数据的视频类型和质量评估目标结果,给每个视频数据标注标签,其中,所述标签是视频类型及其对应的预设质量评估目标结果的组合,其中,每类标签对应一组视频编码参数值;
提取每个视频数据的视频图像特征,并将每个视频数据的视频图像特征和质量评估目标结果确定为所述视频数据的融合特征;
将每个视频数据的融合特征和标签组成样本数据,构建样本数据集;
基于所述样本数据集训练分类器,当满足预设条件时,得到视频数据分类模型。
可选地,其中,所述一组视频编码参数值的确定包括:
确定一组视频编码参数,并根据每个标签对应的预设质量评估目标结果和与其对应的视频类型相同的视频数据,通过量子行为粒子群优化算法确定所述一组视频编码参数的最优值,作为所述标签对应的一组视频编码参数值。
可选地,其中,所述通过量子行为粒子群优化算法确定所述视频编码参数的最优值包括:
基于量子行为粒子群优化算法,将所述一组视频编码参数作为粒子,构造求解粒子位置的目标函数:
其中,是一组视频编码参数,/>是编码器采用/>对编码前视频数据进行编码得到的视频数据的质量评估结果,/>是编码器采用/>对编码前视频数据进行编码得到的视频数据的码率,T是标签对应的预设质量评估目标结果。
可选地,其中,所述一组视频编码参数包括CRF和以下至少一项:
Bframes,Ref,Qpstep,Ipratio,Pbratio。
可选地,所述一种用于视频数据分类模型训练的方法还包括:
获取待编码视频数据的融合特征,并将所述待编码视频数据的融合特征输入所述视频数据分类模型,得到所述待编码视频数据的标签;
基于所述标签和预设的标签与视频编码参数值对照表,确定于所述标签对应的一组视频编码参数值,并基于所述一组视频编码参数值,对所述待编码视频数据进行编码。
可选地,其中,在所述获取待编码视频数据的融合特征之前,所述方法还包括:
对获取的待编码视频数据进行逐帧预处理,其中,所述获取待编码视频数据的融合特征包括:
获取预处理后的待编码视频数据的融合特征。
可选地,其中,在所述获取待编码视频数据的融合特征之前,所述方法还包括:
对获取的待编码视频数据进行图像分析,并基于图像分析结果进行逐帧预处理,其中,所述获取待编码视频数据的融合特征包括:
获取预处理后的待编码视频数据的融合特征。
根据本申请的另一方面,提供了一种用于视频数据分类模型训练的装置,其中,所述装置包括:
第一模块,用于获取若干个不同视频类型的视频数据;
第二模块,用于设定每个视频数据质量评估目标结果,并根据每个视频数据的视频类型和质量评估目标结果,给每个视频数据标注标签,其中,所述标签是视频类型及其对应的预设质量评估目标结果的组合,其中,每类标签对应一组视频编码参数值;
第三模块,用于提取每个视频数据的视频图像特征,并将每个视频数据的视频图像特征和质量评估目标结果确定为所述视频数据的融合特征;
第四模块,用于将每个视频数据的融合特征和标签组成样本数据,构建样本数据集;
第五模块,用于基于所述样本数据集训练分类器,当满足预设条件时,得到视频数据分类模型。
可选地,所述一种用于视频数据分类模型训练的装置还包括:
第六模块,用于获取待编码视频数据的融合特征,并将所述待编码视频数据的融合特征输入所述视频数据分类模型,得到所述待编码视频数据的标签;
第七模块,用于基于所述标签和预设的标签与视频编码参数值对照表,确定与所述标签对应的一组视频编码参数值,并基于所述一组视频编码参数值,对所述待编码视频数据进行编码。
与现有技术相比,本申请提供了一种用于视频数据分类模型训练的方法及装置。其方法包括:获取若干个不同视频类型的视频数据;设定每个视频数据的质量评估目标结果,并根据每个视频数据的视频类型和质量评估目标结果,给每个视频数据标注标签,其中,所述标签是视频类型及其对应的预设质量评估目标结果的组合,其中,每类标签对应一组视频编码参数值;提取每个视频数据的视频图像特征,并将每个视频数据的视频图像特征和质量评估目标结果确定为所述视频数据的融合特征;将每个视频数据的融合特征和标签组成样本数据,构建样本数据集;基于所述样本数据集训练分类器,当满足预设条件时,得到视频数据分类模型。进一步地,获取待编码视频数据的融合特征,并将所述融合特征输入所述视频数据分类模型,得到所述待编码视频数据的标签;基于所述标签和预设的标签与视频编码参数值对照表,确定与所述标签对应的一组视频编码参数值,并基于所述一组视频编码参数值,对所述待编码视频数据进行编码。通过该方法,可获得视频数据分类模型,采用该视频数据分类模型可预测待编码视频数据的标签类别,根据其标签类别,结合预设的标签与视频编码参数值对照表,可自适应确定用于待编码视频数据的视频编码参数值,提高了视频编码参数设置效率,而且还可动态实现编码码率和编码后视频质量的平衡。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本申请一个方面的一种用于视频数据分类模型训练的方法流程示意图;
图2示出根据本申请另一个方面的一种用于视频数据分类模型训练的装置示意图;
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
在本申请的各实施例的一个典型的配置中,设备、系统各可信方和/或装置各模块均可包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM) 和/或非易失性内存等形式,如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或者任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
视频采集设备采集的未编码的原始视频数据通常为YUV格式(若原始视频数据为RGB格式,通常也会先转码成YUV格式,再做视频编码处理后存储或传输),一个YUV格式的原始视频数据包括若干帧YUV格式的视频图像帧,对原始视频数据进行视频编码即是将原始视频数据输入设置好视频编码参数初始值的视频编码器,对每帧视频图像帧进行视频编码,然后输出经过压缩的编码后的视频数据。
视频数据的视频质量通常是用户根据应用场景或其它实际需要预先确定的,然后再确定视频编码参数值。通常可采用质量评估结果对视频数据的视频质量进行评价。
本申请提供了一种用于视频数据分类模型训练的技术方案。在该技术方案中,先构建样本数据集,包括:获取若干视频类型的视频数据,其中,视频类型的类别可根据视频数据内容复杂度和/或场景等因素定义。接着设定每个视频数据的质量评估目标结果,并根据每个视频数据的视频类型和设定的质量评估目标结果给每个视频数据标注标签。其中,视频数据的质量评估目标结果通常来说是用户根据应用场景或其它实际需要设定的,与视频数据的视频类型无关。另外,设定了质量评估目标结果的同一视频数据,通常可采用多组不同的视频编码参数值对该视频数据进行编码,都可获得满足质量评估目标结果的编码后视频数据,但对应的码率是不同的(码率会影响存储空间和/或传输带宽)。为了兼顾视频质量和码率,针对同一视频类型,可以预设多个对应的质量评估目标结果。比如,假设动漫类视频数据的视频类型定义为2,若采用VMAF (Video Multi-Method Assessment Fusion,视频质量多方法评价融合)作为质量评估方法,则可以预设VMAF得分为80分、85分、90分、95分等作为质量评估目标结果;若采用PSNR(Peak Signal-to-Noise Ratio、峰值信噪比)作为质量评估方法,则可以预设PSNR值为38dB、40 dB、42 dB、45 dB、50 dB等作为质量评估目标结果;若采用SSIM (Structural Similarity,结构相似性) 作为质量评估方法,则可以预设SSIM值为0.97、0.98、0.99、0.995等作为质量评估目标结果。以上仅为举例,在此采用何种视频质量评价体系不作限定。其中,将视频类型和其对应的预设质量评估目标结果的组合作为标签,可定义若干标签,其中,标签类别应多于视频类型类别。其中,每类标签对应一组视频编码参数值,该组视频编码参数值表征该标签(视频类型和预设质量评估目标结果的组合)对应的码率最低的一组编码参数值(即预设质量评估目标结果下的编码码率最低),将每个标签与其对应的一组视频编码参数值集合起来,组成一个标签与视频编码参数值对照表。提取每个视频数据的视频图像特征,将该视频数据的视频图像特征和设定的质量评估目标结果作为融合特征,和该视频数据的标签组成样本数据,构建样本数据集。
再采用该样本数据集训练分类器,得到视频数据分类模型。可在编码器中集成该视频数据分类模型和上述标签与视频编码参数值对照表,当待编码视频数据输入编码器进行编码,先确定该待编码视频数据的视频图像特征,并将视频图像特征及设定的该待编码视频数据的质量评估目标结果输入该视频数据分类模型,得到该待编码视频数据的预测标签,然后结合上述标签与视频编码参数值对照表,确定与该预测标签对应的一组视频编码参数值,编码器自动采用该组视频编码参数值对该待编码视频数据进行编码。
为更进一步阐述本申请所采取的技术手段及取得的效果,下面结合附图及优选实施例,对本申请的技术方案,进行清楚和完整的描述。
图1示出根据本申请一个方面的一种用于视频数据分类模型训练的方法流程示意图,其中,一个实施例的方法包括:
S101获取若干个不同视频类型的视频数据;
S102设定每个视频数据的质量评估目标结果,并根据每个视频数据的视频类型和质量评估目标结果,给每个视频数据标注标签,其中,所述标签是视频类型及其对应的预设质量评估目标结果的组合,其中,每类标签对应一组视频编码参数值;
S103提取每个视频数据的视频图像特征,并将每个视频数据的视频图像特征和质量评估目标结果确定为所述视频数据的融合特征;
S104将每个视频数据的融合特征和标签组成样本数据,构建样本数据集;
S105基于所述样本数据集训练分类器,当满足预设条件时,得到视频数据分类模型。
本申请的各方法实施例/可选实施例可通过设备100实施或执行,其中,设备100是具备视频编解码软硬件环境的计算机设备。其中,所述计算机设备包括但不限于个人计算机、笔记本电脑、工业计算机、服务器、网络主机、单个网络服务器或网络服务器集群。在此,所述计算机设备仅为举例,其他现有的或者今后可能出现的设备和/或资源平台如适用于本申请也应包含在本申请的保护范围内,在此,以引用的方式包含于此。
在该实施例中,在步骤S101中,设备100获取到若干视频类型的视频数据,其中,视频类型的类别是根据视频数据内容复杂度和/或场景预先定义的,比如,体育类视频数据的视频类型可定义为1,动漫类视频数据的视频类型可定义为2,新闻类视频数据的视频类型可定义为3等等。为了保证样本数据的多样性,应获取到包括所有视频类型的视频数据。
其中,视频数据通常是YUV格式,可以是视频文件,也可以是实时采集的视频数据,还可以来自互联网等公开的视频数据,在此,不作限制。若获得的视频数据为RGB格式,通常先转码成YUV格式。
其中,每个视频数据包括的视频图像帧数没有限制,比如,可以是一段几秒、十几秒长的视频,或者是一个电影的片段或情节的场景的视频。
其中,为了增加数据多样性以及后续分类器训练的泛化能力,还可以对获取到的视频数据作剪辑、拼接等处理,以得到更多不同类型的视频数据。
继续在该实施例中,在步骤S102中,设定每个视频数据的质量评估目标结果,并根据每个视频数据的视频类型和质量评估目标结果,给每个视频数据标注标签,其中,所述标签是视频类型及其对应的预设质量评估目标结果的组合,其中,每类标签对应一组视频编码参数值。
视频数据的视频质量,可采用质量评估结果进行评价,其中,质量评估结果可采用VMAF、PSNR、SSIM、VQA (Video Quality Assessment,视频质量评价) 等视频质量评价方法中的一项,或者多项组合。其中,VMAF是由美国奈飞(Netflix)公司开发的一套主观视频质量评估体系,VMAF将人类视觉建模与机器学习相结合,可以预测主观视频质量。因此,采用VMAF来获取的质量评估结果通常与视频的实际感知质量联系更紧密。常采用预训练的VMAF模型来获取视频数据的VMAF得分,作为该视频数据的质量评估结果,常用的预训练的VMAF模型包括vmaf_4k_v0.6.1、vmaf_v0.6.1、vmaf_v0.6.1neg等。PSNR经常用作图像压缩等领域中信号重建质量的测量方法,通过均方误差(MSE)进行定义。常用的PSNR模型包括PSNR、PSNR-HVS等。SSIM是一种用以衡量两张数字图像相似程度的指标。通过衡量视频数据的编码压缩前的视频图像和对应的编码压缩后的视频图像的相似程度,来评价该视频数据的质量。常用的SSIM模型包括SSIM、MS-SSIM等。VQA是以人眼的主观质量评估结果为依据,使用算法模型对失真视频进行评估。
针对每个视频类型,可以预设多个对应的质量评估目标结果,分别将视频类型和每一个对应的预设质量评估目标结果的组合作为一类标签。示例性的,假设体育类视频数据的视频类型定义为1,动漫类视频数据的视频类型定义为2,若采用VMAF作为视频质量评价方法,则预设质量评估目标结果为VMAF得分,用户结合实际应用场景或使用需要,预设质量评估目标结果分别为80分、85分、90分、95分,针对视频类型1,则可定义4类标签,分别为1-80、1-85、1-90和1-95;针对视频类型2,则又可定义4类标签,分别为2-80、2-85、2-90和2-95。若采用PSNR作为视频质量评价方法,则预设质量评估目标结果为PSNR值,用户结合实际应用场景或使用需要,预设质量评估目标结果分别为40 dB、42 dB、45 dB和50dB,针对视频类型1,则可定义4类标签:分别为1-40、1-42、1-45和1-50,针对视频类型2,则又可定义4类标签,分别为2-40、2-42、2-45和2-50。若采用SSIM作为视频质量评价方法,则预设质量评估目标结果为SSIM值,用户结合实际应用场景或使用需要,预设质量评估目标结果分别为0.97、0.98、0.99和0.995,针对视频类型1,则可定义4类标签,分别为1-0.97、1-0.98、1-0.99和1-0.995,针对视频类型2,则又可定义4类标签,分别为2-0.97、2-0.98、2-0.99和2-0.995。
在步骤S102中,结合实际应用场景和/或使用需要,可对步骤S101中获取到的每个视频数据,设定质量评估目标结果,并根据每个视频数据的视频类型和其对应的预设质量评估目标结果,给每个视频数据标注标签。通常,对于相同应用场景和/或使用需要的不同类型的视频数据,应设定相同的质量评估目标结果。其中,在给视频数据标注标签时,如果在预设的标签中,没有标签对应的预设质量评估目标结果与该视频数据设定的质量评估目标结果相同,可采用与该视频数据设定的质量评估目标结果最接近的预设质量评估目标结果且视频类型相同的标签对该视频数据进行标注。本申请中,针对同一视频类型预定义的标签类别越多,本申请适用的应用场景和/或满足的使用需要就越广。
其中,针对预定义的每一类标签,对应预设一组视频编码参数值,该组视频编码参数值表征:在该标签对应的预设质量评估目标结果下,采用该组视频编码参数值的编码码率最低。可预先将每个标签与其对应的一组视频编码参数值集合起来,组成一个标签与视频编码参数值对照表。
可选地,其中,所述一组视频编码参数值的确定包括:
确定一组视频编码参数,并根据每个标签对应的预设质量评估目标结果和与其对应的视频类型相同的视频数据,通过量子行为粒子群优化算法确定对应的视频编码参数的最优值,并作为所述标签对应的一组视频编码参数值。
其中,先可根据实际使用需要和/或其它主客观因素,确定一组视频编码参数,针对每个标签,然后可从获取到的视频数据中,确定与标签对应的视频类型相同的视频数据,或者是其它合法获取的与标签对应的视频类型相同的视频数据,并结合每个标签对应的预设质量评估目标结果,通过量子行为粒子群优化算法,确定该组视频编码参数的最优值,作为该标签对应的一组视频编码参数值,其中,该组视频编码参数值是能够达到该标签对应的预设质量评估目标结果的若干组视频编码参数值中编码码率最低的一组编码参数值。
可选地,其中,所述通过量子行为粒子群优化算法确定所述视频编码参数的最优值包括:
基于量子行为粒子群优化算法,将所述一组视频编码参数作为粒子,构造求解粒子位置的目标函数:
其中,是一组视频编码参数,/>是采用/>进行编码得到的质量评估结果,/>是采用/>进行编码得到的码率,T是预设质量评估目标结果。
其中,将预先确定的包括N个视频编码参数的一组视频编码参数记为/>,作为粒子。将标签对应的预设质量评估目标结果T作为与该标签对应的视频类型相同的视频数据的质量评估目标结果,按照预设质量评估目标结果T下编码码率/>最低的目标,构造一个关于/>的最优化问题的目标函数,利用量子行为粒子群优化算法,进行最优化处理,以得到/>的最优解,即与上述目标对应的一组视频编码参数值,作为该视频数据的一组视频编码参数值。其中,
量子行为粒子群优化算法的参数较少,随机性强,收敛速度快,能覆盖整个解空间,具有非常好的全局搜索能力,本申请通过量子行为粒子群优化算法,基于解空间的求解非线性规划问题的最优解,进行参数优化。
其中,将作为量子行为粒子群优化算法中的粒子,初始化粒子群的相关参数,包括但不限于:最大迭代次数max_n、搜索空间(即解空间)、粒子的个数M(该参数体现粒子群体规模,通常根据求解的最优化问题的规模设置)、随机初始化粒子的初始位置(即随机设置/>各视频编码参数初值)。
每次迭代时,第个粒子/>当前的初始位置/>,其中,/>。其中,位置/>中的各坐标对应一组视频编码参数值。
可构造一个关于的最优化问题的目标函数,可计算出每次迭代时每个粒子对应的函数值,然后将所有粒子的函数值相比较,可确定其中最大值对应的粒子,该粒子的位置即为该次迭代中的全局最好位置,
其中,该目标函数可构造如下公式(1):
(1)
其中,是一组视频编码参数,/>是采用/>对视频数据进行编码得到的编码后视频数据的质量评估结果,/>是采用/>对视频数据进行编码得到的编码后视频数据的码率,T是标签对应的预设质量评估目标结果。
其中,在确定的搜索空间中,中各视频编码参数作为变量,其范围是确定的(每个视频编码参数都有确定的设置范围,各个变量的设置范围即构成了搜索空间,或称解空间),因此,上述目标函数实际为每次迭代时根据/>中的变量个数及对应搜索空间的约束条件解非线性规划问题。
每次迭代时,第个粒子/>当前的初始位置/>可为该粒子的当前个体最好位置(对应的目标函数值最大或者最小)/>,其中,/>,/>。在第一次迭代时,每个粒子的初始位置/>作为当前的个体最好位置/>,即/>。每次迭代后各粒子的当前个体最好位置通常会发生变化,在第n次迭代时,M个粒子/>中第i个粒子的当前个体最好位置/>。可按照公式(1),计算出对应目标函数值,然后将M个粒子对应的目标函数值进行比较,找到其中最大值maxF(/>),该最大值对应的粒子的位置,即为该次迭代得到的全局最好位置/>,其中,
(2)
其中,根据量子行为粒子群优化算法,第(n+1)次迭代时粒子的位置各坐标更新可参照如下公式(3)确定:
(3)
公式(3)中,取“+”或取“-”的概率都为0.5,其中,,/>称为收缩-扩张系数,一般情况下,/>可采用固定取值或随迭代次数线性减小的方式确定,/>为区间(0, 1)上的均匀分布随机数,第/>个粒子的收敛过程以点/>为吸引子,其中,/>可由如下公式(4)确定:
(4)
其中,,/>是一个区间(0, 1)上均匀分布的随机数。
公式(3)中,称为平均最好位置坐标,定义为所有粒子个体的最好位置坐标的平均,可由如下公式(5)确定:
(5)
在对每个粒子的当前个体位置进行更新后,可采用公式(1)计算每个粒子的目标函数值,并采用如下公式(6)来更新个体最好位置:
(6)
由上式得到的每个粒子的个体最好位置是指到当前为止(即第(n+1)次迭代时),具有最大目标函数值的粒子位置。
每个粒子的个体最好位置确定后,就可根据公式(2)更新当次迭代的全局最好位置
当完成max_n次迭代,最后确定的全局最好位置对应的即为的最优值,将其作为与该视频数据的视频类型及预设质量评估目标结果组成的标签唯一对应的一组视频编码参数值。
其中,可根据实际使用需要和/或其它主客观因素,确定一组视频编码参数。可选地,其中,所述一组视频编码参数包括CRF和以下至少一项:
Bframes,Ref,Qpstep,Ipratio,Pbratio。
视频编码器中可设置的视频编码参数很多,其中,参数CRF(恒定码率因子,Constant Rate Factor)表示一种编码模式,可以向上或向下调整视频数据码率以达到选定的质量级别,而不是特定的视频数据码率,可使得编码器在预期视频质量下获得最大的视频编码效率,其中, CRF 越小,则视频压缩率越小,编码后的视频质量越好,但编码后的视频数据越多;而CRF 越大,则视频压缩率越高,但编码后的视频质量越差。CRF的取值范围是[0,51]。
Bframes表示编码后视频图像I帧和P帧之间的B帧的数量,取值范围通常是[0,16]。
Ref表示视频图像参考帧数目,取值范围通常是[0,16]。
Qpstep表示视频图像两帧之间量化器的最大变化,取值范围通常是[1,4]。
Ipratio表示与P帧相比,I帧量化器的目标平均增加,取值范围通常是[1.0,1.5]。
Pbratio表示与B帧相比,P帧量化器的目标平均增加,其取值范围与参数Ipratio相关,通常是[1.0,Ipratio]。
其中,与标签一一对应的一组视频编码参数包括CRF和以下参数中至少一项:Bframes,Ref,Qpstep,Ipratio,Pbratio。
示例性1,与标签一一对应的一组视频编码参数包括2个参数(上述N为2):CRF(简称C)和Bframes(简称B),则上述目标函数最大值maxF()可参照如下公式(7a)计算:
(7a)
其中,F(C,B)参照公式(1)计算。其中,参数B也可以替换成参数Ref(简称R)、参数Qpstep(简称Q)、参数Ipratio(简称I)或者参数Pbratio(简称P)中的任意一个。
示例性2,与标签一一对应的一组视频编码参数包括3个参数(上述N为3):C、B和R,则上述目标函数最大值maxF()可参照如下公式(7b)计算:
(7b)
其中,F(C,B,R)参照公式(1)计算。其中,参数B和参数R也可以替换成参数B、R、Q、I或者P中的任意两个。
示例性3,与标签一一对应的一组视频编码参数包括4个参数(上述N为4):C、B、R和Q,则上述目标函数最大值maxF()可参照如下公式(7c)计算:
(7c)
其中,F(C,B,R,Q)参照公式(1)计算。其中,参数B、R和Q也可以替换成参数B、R、Q、I或者P中的任意三个。
示例性4,与标签一一对应的一组视频编码参数包括5个参数(上述N为5):C、B、R、Q和I,则上述目标函数最大值maxF()可参照如下公式(7d)计算:
(7d)
其中,F(C,B,R,Q,I)参照公式(1)计算。其中,参数B、R和Q也可以替换成参数B、R、Q、I或者P中的任意四个。
示例性5,与标签一一对应的一组视频编码参数包括6个参数(上述N为6):C、B、R、Q、I和P,则上述目标函数最大值maxF()可参照如下公式(7e)计算:
(7e)
其中,F(C,B,R,Q,I,P)参照公式(1)计算。
其中,对于所述一组视频编码参数之外的视频编码参数,其参数值可在设备100初始化时采用预设值设置。
继续在该实施例中,在步骤S103中,提取每个视频数据的视频图像特征,并将每个视频数据的视频图像特征和质量评估目标结果确定为该视频数据的融合特征。
其中,提取每个视频数据的视频图像特征,可以是提取视频数据的单帧视频图像后确定该帧的视频图像特征,也可以是随机或者规律性提取多帧视频图像后确定每帧的视频图像特征,再将多帧视频图像特征的均值作为该视频数据的视频图像特征。在此,不作限定,任何视频数据的视频图像特征提取方法如适用本申请,都应包含在本申请的保护范围内。
其中,视频数据的视频图像特征应能体现该视频该内容的复杂度和/或场景,比如,视频图像的纹理特征(可通过GLCM(Gray level Co-occurrence Matrix,灰度共生矩阵)或LBP (Local Binary Pattern,局部二值模式)等算法提取),形状特征(可通过霍夫变换、傅里叶形状描述符法、几何参数法等提取),颜色特征(颜色直方图等方法提取)等。
其中,在提取到视频数据的视频图像特征后,将该视频图像特征和在步骤S102中设定的该视频数据的质量评估目标结果整合成该视频数据的融合特征,比如,若视频数据的视频图像特征对应的特征向量为R(r1,r2,…,rn),其设定的质量评估目标结果为score,则融合特征对应的特征向量可为R’(r1,r2,…,rn,score)。
继续在该实施例中,在步骤S104中,将每个视频数据的融合特征和标签组成样本数据,构建样本数据集。
其中,每个视频数据的视频图像特征和质量评估目标结果组成融合特征,将融合特征和该视频数据标注的标签作为一个样本数据,所有视频数据对应的样本数据构建成样本数据集。
继续在该实施例中,在步骤S105中,采用该样本数据集,训练分类器,当满足预设条件时,可得到用于预测视频数据标签类别的视频数据分类模型。
其中,可结合实际应用场景和/或需要,将样本数据集中的样本数据按照一定比例划分为训练集、测试集和/或验证集,将样本数据中视频数据的融合特征输入分类器,预测该视频数据的标签类别;将样本数据中的该视频数据的标签作为真值,结合预测的标签类别,如果一致,则作为正样本,如果不一致,则作为负样本。根据预设条件,比如,经过预设迭代次数训练后的分类器对测试集或验证集中的样本数据的预测衡量指标,比如准确率、精确率和/或召回率等,满足预设阈值,则该训练后的分类器可作为用于预测视频数据标签类别的视频数据分类模型。
其中,采用的分类器可以是多层次SVM(Support Vector Machines,支持向量机)分类器,也可采用如神经网络、决策树、贝叶斯分类器等支持多分类的分类模型。
可将得到的视频数据分类模型结合前述预先确定的标签与视频编码参数值对照表用于确定待编码视频数据的相关视频编码参数的参数值。
可选地,所述一种用于视频数据分类模型训练的方法还包括:
S106获取待编码视频数据的融合特征,并将所述待编码视频数据的融合特征输入所述视频数据分类模型,得到所述待编码视频数据的标签;
S107基于所述标签和预设的标签与视频编码参数值对照表,确定与所述标签对应的一组视频编码参数值,并基于所述一组视频编码参数值,对所述待编码视频数据进行编码。
在该可选实施例中,对于待编码视频数据,在步骤S106中,先获取该待编码视频数据的融合特征,即该待编码视频数据的视频图像特征和结合实际应用场景和/或使用需要设定的质量评估目标结果,并将该待编码视频数据的融合特征输入上述视频数据分类模型,输出该待编码视频数据的预测标签类别。其中,该预测标签对应的预设质量评估目标结果与设定的该待编码视频数据的质量评估目标结果相同或最接近。其中,设定的质量评估目标结果所采用的视频质量评价方法应与预定义标签时采用的视频质量评价方法相同,示例性的,可以是VMAF或PSNR或SSIM或VQA。
继续在该可选实施例中,在步骤S107中,设备100根据视频数据分类模型输出的该待编码视频数据的预测标签,参照预先确定的标签与视频编码参数值对照表,确定与该预测标签对应的一组视频编码参数值,并自动采用该组视频编码参数值设置对应的视频编码参数,其它视频编码参数可在设备100初始化时设置为初始值,然后自动对该待编码视频数据进行编码。可获得最接近设定的质量评估目标结果的视频质量且在该视频质量下编码码率最低的编码后视频数据。
可选地,在步骤S106中,在获取待编码视频数据的融合特征之前,所述方法还包括:
对获取的待编码视频数据进行逐帧预处理,其中,所述获取待编码视频数据的融合特征包括:
获取预处理后的待编码视频数据的融合特征。
其中,为了去除待编码视频数据中影响视频图像质量的干扰和/或提升视频图像质量,设备100在获取到待编码视频数据后,还可以先对待编码视频数据的每个视频帧进行视频图像预处理,然后再获取预处理后的待编码视频数据的融合特征,将该融合特征输入上述分类模型,得到对应的一组视频编码参数值。例如,对每个视频帧都进行图像锐化(或称边缘增强)操作,以补偿视频图像的轮廓,增强视频图像的边缘及灰度跳变的部分,使视频图像变得清晰,突出视频图像中的物体的边缘、轮廓,或者其中的线性目标要素的特征,以提高物体边缘与周围像元之间的反差。也可以采取其它预处理方法,如降噪、色彩增强、细节补强、超分辨率、智能插帧等,从而能够有效增强视频图像对比度、去除原始未编码视频帧中的干扰,提升未编码视频图像画面质量。
为了使得采取的预处理方法更有针对性,提高预处理效果,可选地,其中,在对所述待编码视频数据进行逐帧编码前,所述方法还包括:
对所述待编码视频数据进行逐帧分析,并根据分析结果对每个视频帧进行预处理;
其中,所述获取待编码视频数据的融合特征包括:
获取预处理后的待编码视频数据的融合特征。
其中,设备100在获取到待编码视频数据后,还可以先对待编码视频数据的每个视频帧进行视频图像进行图像分析,根据图像分析结果采取相应的预处理方法。比如,可采用图像噪声检测算法检测视频图像是否包含高斯噪声等噪声干扰,如有,则可相应地对视频图像做降噪预处理;可采用图像对比度检测算法检测视频图像,然后相应地对视频图像做直方图均衡化或其它方式的对比度增强预处理。
图2示出根据本申请另一个方面的一种用于视频数据分类模型训练的装置示意图,其中,一个实施例的该装置包括:
第一模块210,用于获取若干个不同视频类型的视频数据;
第二模块220,用于设定每个视频数据的质量评估目标结果,并根据每个视频数据的视频类型和质量评估目标结果,给每个视频数据标注标签,其中,所述标签是视频类型及其对应的预设质量评估目标结果的组合,其中,每类标签对应一组视频编码参数值;
第三模块230,用于提取每个视频数据的视频图像特征,并将每个视频数据的视频图像特征和质量评估目标结果确定为所述视频数据的融合特征;
第四模块240,用于将每个视频数据的融合特征和标签组成样本数据,构建样本数据集;
第五模块250,用于基于所述样本数据集训练分类器,当满足预设条件时,得到视频数据分类模型。
在该实施例中,该装置部署或者集成在执行前述方法实施例和/或可选实施例中的设备100中。
在该实施例中,该装置的第一模块210获取到若干包括所有视频类型的视频数据,其中,视频类型的类别是根据视频数据内容复杂度和/或场景预先定义的,比如,体育类视频数据的视频类型可定义为1,动漫类视频数据的视频类型可定义为2,新闻类视频数据的视频类型可定义为3等等。
继续在该实施例中,该装置的第二模块220可结合实际应用场景和/或使用需要,设定每个视频数据对应的质量评估目标结果,并根据每个视频数据的视频类型和其对应的预设质量评估目标结果,给每个视频数据标注标签,其中,所述标签是视频类型及其对应的预设质量评估目标结果的组合,其中,每类标签对应一组视频编码参数值。
继续在该实施例中,该装置的第三模块230可提取每个视频数据的视频图像特征,并将每个视频数据的视频图像特征和设定的该视频数据的质量评估目标结果确定为该视频数据的融合特征。
继续在该实施例中,该装置的第四模块240将每个视频数据的融合特征和标签组成样本数据,构建样本数据集。其中,每个视频数据的视频图像特征和质量评估目标结果组成融合特征,将融合特征和该视频数据标注的标签作为一个样本数据,所有视频数据对应的样本数据构建成样本数据集。
继续在该实施例中,该装置的第五模块250采用该样本数据集,训练分类器,当满足预设条件时,可得到视频数据分类模型。
通过该装置上述各模块,可根据获取到的若干视频数据,构建样本数据集,基于该样本数据集和现有的分类器,可得到一种用于预测视频数据标签类别的视频数据分类模型。
采用该视频数据分类模型,可预测待编码视频数据的标签类别,结合预先确定的标签与视频编码参数值对照表,还可动态自适应设置设备100中该组视频编码参数的参数值后,对该待编码视频数据进行编码。
可选地,一种用于视频数据分类模型训练的装置还包括:
第六模块260,用于获取待编码视频数据的融合特征,并将所述待编码视频数据的融合特征输入所述视频数据分类模型,得到所述待编码视频数据的标签;
第七模块270,用于基于所述标签和预设的标签与视频编码参数值对照表,确定与所述标签对应的一组视频编码参数值,并基于所述一组视频编码参数值,对所述待编码视频数据进行编码。
在该可选实施例中,该装置的第六模块260先获取待编码视频数据的融合特征,即该待编码视频数据的视频图像特征和结合实际应用场景和/或使用需要设定的质量评估目标结果,并将该待编码视频数据的融合特征输入上述视频数据分类模型,输出该待编码视频数据的预测标签类别。
继续在该可选实施例中,该装置的第七模块270根据第六模块260输出的该待编码视频数据的预测标签,参照预先确定的标签与视频编码参数值对照表,确定与该预测标签对应的一组视频编码参数值,并采用该组视频编码参数值,自动设置对应的视频编码参数,其它视频编码参数可在设备100初始化时设置为初始值,然后对该待编码视频数据进行编码。可获得最接近设定的质量评估目标结果的视频质量且在该视频质量下编码码率最低的编码后视频数据。
上述系统的各个实施例和/或可选实施例中,系统各模块执行的方法步骤中未提及之处与前述各个相关的方法实施例和/或可选实施例相同,在此不再赘述。
根据本申请的又一方面,还提供了一种计算机可读介质,所述计算机可读介质存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现前述各方法实施例。
需要注意的是,本申请中各方法实施例和/或可选实施例可以不严格限定各步骤执行的顺序,只要各方法实施例和/或可选实施例能解决现有技术存在的缺陷,实现本申请的发明目的,获得有益效果。本申请中各方法实施例和/或可选实施例可在软件和/或软件与硬件的组合体中被实施。本申请中涉及的软件程序可以通过处理器执行以实现上述各实施例的步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中。
另外,本申请的一部分或者全部可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。
根据本申请的再一方面,还提供了一种用于视频数据分类模型训练的设备,该设备包括:存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该设备运行前述各实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件和/或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (9)

1.一种用于视频数据分类模型训练的方法,其特征在于,所述方法包括:
获取若干个不同视频类型的视频数据;
设定每个视频数据的质量评估目标结果,并根据每个视频数据的视频类型和质量评估目标结果,给每个视频数据标注标签,其中,所述标签是视频类型及其对应的预设质量评估目标结果的组合,其中,每类标签对应一组视频编码参数值,其中,所述一组视频编码参数值的确定包括:确定一组视频编码参数,并根据每个标签对应的预设质量评估目标结果和与其对应的视频类型相同的视频数据,通过量子行为粒子群优化算法确定所述一组视频编码参数的最优值,作为所述标签对应的一组视频编码参数值,其中,所述通过量子行为粒子群优化算法确定所述视频编码参数的最优值包括:基于量子行为粒子群优化算法,将所述一组视频编码参数作为粒子,构造求解粒子位置的目标函数:
其中,是一组视频编码参数,/>是采用/>进行编码得到的质量评估结果,/>是采用/>进行编码得到的码率,T是预设质量评估目标结果;
提取每个视频数据的视频图像特征,并将每个视频数据的视频图像特征和质量评估目标结果确定为所述视频数据的融合特征;
将每个视频数据的融合特征和标签组成样本数据,构建样本数据集;
基于所述样本数据集训练分类器,当满足预设条件时,得到视频数据分类模型。
2.根据权利要求1所述的方法,其特征在于,所述一组视频编码参数包括CRF和以下至少一项:
Bframes,Ref,Qpstep,Ipratio,Pbratio。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取待编码视频数据的融合特征,并将所述待编码视频数据的融合特征输入所述视频数据分类模型,得到所述待编码视频数据的标签;
基于所述标签和预设的标签与视频编码参数值对照表,确定与所述标签对应的一组视频编码参数值,并基于所述一组视频编码参数值,对所述待编码视频数据进行编码。
4.根据权利要求3所述的方法,其特征在于,在所述获取待编码视频数据的融合特征之前,所述方法还包括:
对获取的待编码视频数据进行逐帧预处理,其中,所述获取待编码视频数据的融合特征包括:
获取预处理后的待编码视频数据的融合特征。
5.根据权利要求3所述的方法,其特征在于,在所述获取待编码视频数据的融合特征之前,所述方法还包括:
对获取的待编码视频数据进行图像分析,并基于图像分析结果进行逐帧预处理,其中,所述获取待编码视频数据的融合特征包括:
获取预处理后的待编码视频数据的融合特征。
6.一种用于视频数据分类模型训练的装置,其特征在于,所述装置包括:
第一模块,用于获取若干个不同视频类型的视频数据;
第二模块,用于设定每个视频数据的质量评估目标结果,并根据每个视频数据的视频类型和质量评估目标结果,给每个视频数据标注标签,其中,所述标签是视频类型及其对应的预设质量评估目标结果的组合,其中,每类标签对应一组视频编码参数值,其中,所述一组视频编码参数值的确定包括:确定一组视频编码参数,并根据每个标签对应的预设质量评估目标结果和与其对应的视频类型相同的视频数据,通过量子行为粒子群优化算法确定所述一组视频编码参数的最优值,作为所述标签对应的一组视频编码参数值,其中,所述通过量子行为粒子群优化算法确定所述视频编码参数的最优值包括:基于量子行为粒子群优化算法,将所述一组视频编码参数作为粒子,构造求解粒子位置的目标函数:
其中,是一组视频编码参数,/>是采用/>进行编码得到的质量评估结果,/>是采用/>进行编码得到的码率,T是预设质量评估目标结果;
第三模块,用于提取每个视频数据的视频图像特征,并将每个视频数据的视频图像特征和质量评估目标结果确定为所述视频数据的融合特征;
第四模块,用于将每个视频数据的融合特征和标签组成样本数据,构建样本数据集;
第五模块,用于基于所述样本数据集训练分类器,当满足预设条件时,得到视频数据分类模型。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第六模块,用于获取待编码视频数据的融合特征,并将所述待编码视频数据的融合特征输入所述视频数据分类模型,得到所述待编码视频数据的标签;
第七模块,用于基于所述标签和预设的标签与视频编码参数值对照表,确定与所述标签对应的一组视频编码参数值,并基于所述一组视频编码参数值,对所述待编码视频数据进行编码。
8.一种计算机可读介质,其特征在于,
其上存储有计算机可读指令,所述计算机可读指令被处理器执行以实现如权利要求1至5中任一项所述的方法。
9.一种用于视频数据分类模型训练的设备,其特征在于,所述设备包括:
一个或多个处理器;以及
存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所述处理器执行如权利要求1至5中任一项所述方法的操作。
CN202311244675.6A 2023-09-26 2023-09-26 一种用于视频数据分类模型训练的方法及装置 Active CN116996680B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311244675.6A CN116996680B (zh) 2023-09-26 2023-09-26 一种用于视频数据分类模型训练的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311244675.6A CN116996680B (zh) 2023-09-26 2023-09-26 一种用于视频数据分类模型训练的方法及装置

Publications (2)

Publication Number Publication Date
CN116996680A CN116996680A (zh) 2023-11-03
CN116996680B true CN116996680B (zh) 2023-12-12

Family

ID=88523505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311244675.6A Active CN116996680B (zh) 2023-09-26 2023-09-26 一种用于视频数据分类模型训练的方法及装置

Country Status (1)

Country Link
CN (1) CN116996680B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101336080B1 (ko) * 2012-05-30 2013-12-03 중앙대학교 산학협력단 Dpso-qi 알고리듬을 활용한 설계 시스템 및 방법
CN104539962A (zh) * 2015-01-20 2015-04-22 北京工业大学 一种融合视觉感知特征的可分层视频编码方法
CN108235001A (zh) * 2018-01-29 2018-06-29 上海海洋大学 一种基于时空特征的深海视频质量客观评价模型
CN109948742A (zh) * 2019-03-25 2019-06-28 西安电子科技大学 基于量子神经网络的手写体图片分类方法
CN110121110A (zh) * 2019-05-07 2019-08-13 北京奇艺世纪科技有限公司 视频质量评估方法、设备、视频处理设备及介质
CN110322467A (zh) * 2019-05-24 2019-10-11 谦互智能科技(湖州)有限公司 一种提升3d轮廓传感器计算板材表面点云密度的算法
CN110351561A (zh) * 2018-04-03 2019-10-18 朱政 一种用于视频编码优化的高效强化学习训练方法
CN111277826A (zh) * 2020-01-22 2020-06-12 腾讯科技(深圳)有限公司 一种视频数据处理方法、装置及存储介质
CN112672157A (zh) * 2020-12-22 2021-04-16 广州博冠信息科技有限公司 视频编码方法、装置、设备及存储介质
WO2021138855A1 (zh) * 2020-01-08 2021-07-15 深圳市欢太科技有限公司 模型训练方法、视频处理方法、装置、存储介质及电子设备
CN115052146A (zh) * 2022-06-16 2022-09-13 上海大学 一种基于分类的内容自适应下采样视频编码优化方法
CN116233439A (zh) * 2022-12-13 2023-06-06 海信视像科技股份有限公司 确定码率控制参数的方法及装置
CN116320429A (zh) * 2023-04-12 2023-06-23 瀚博半导体(上海)有限公司 视频编码方法、装置、计算机设备及计算机可读存储介质
CN116506622A (zh) * 2023-06-26 2023-07-28 瀚博半导体(上海)有限公司 模型训练方法及视频编码参数优化方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8712157B2 (en) * 2011-04-19 2014-04-29 Xerox Corporation Image quality assessment
US11586842B2 (en) * 2020-03-18 2023-02-21 Vmware, Inc. System and method for machine learning based video quality assessment
TWI743919B (zh) * 2020-08-03 2021-10-21 緯創資通股份有限公司 視訊處理裝置及視訊串流的處理方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101336080B1 (ko) * 2012-05-30 2013-12-03 중앙대학교 산학협력단 Dpso-qi 알고리듬을 활용한 설계 시스템 및 방법
CN104539962A (zh) * 2015-01-20 2015-04-22 北京工业大学 一种融合视觉感知特征的可分层视频编码方法
CN108235001A (zh) * 2018-01-29 2018-06-29 上海海洋大学 一种基于时空特征的深海视频质量客观评价模型
CN110351561A (zh) * 2018-04-03 2019-10-18 朱政 一种用于视频编码优化的高效强化学习训练方法
CN109948742A (zh) * 2019-03-25 2019-06-28 西安电子科技大学 基于量子神经网络的手写体图片分类方法
CN110121110A (zh) * 2019-05-07 2019-08-13 北京奇艺世纪科技有限公司 视频质量评估方法、设备、视频处理设备及介质
CN110322467A (zh) * 2019-05-24 2019-10-11 谦互智能科技(湖州)有限公司 一种提升3d轮廓传感器计算板材表面点云密度的算法
WO2021138855A1 (zh) * 2020-01-08 2021-07-15 深圳市欢太科技有限公司 模型训练方法、视频处理方法、装置、存储介质及电子设备
CN111277826A (zh) * 2020-01-22 2020-06-12 腾讯科技(深圳)有限公司 一种视频数据处理方法、装置及存储介质
CN112672157A (zh) * 2020-12-22 2021-04-16 广州博冠信息科技有限公司 视频编码方法、装置、设备及存储介质
CN115052146A (zh) * 2022-06-16 2022-09-13 上海大学 一种基于分类的内容自适应下采样视频编码优化方法
CN116233439A (zh) * 2022-12-13 2023-06-06 海信视像科技股份有限公司 确定码率控制参数的方法及装置
CN116320429A (zh) * 2023-04-12 2023-06-23 瀚博半导体(上海)有限公司 视频编码方法、装置、计算机设备及计算机可读存储介质
CN116506622A (zh) * 2023-06-26 2023-07-28 瀚博半导体(上海)有限公司 模型训练方法及视频编码参数优化方法和装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CNN-based parameter selection for fast VVC intra-picture encoding;Gerhard Tech et al;《2021 IEEE international conference on image processing(ICIP)》)》;第2109-2113页 *
基于卷积神经网络的时空融合的无参考视频质量评价方法;王春峰;苏荔;黄庆明;;中国科学院大学学报(第04期);全文 *
基于深度学习的视频质量诊断技术研究;王佑卿;李振杰;;中国安防(第06期);全文 *
改进PSO与K均值聚类肤色分割的人脸检测算法;班俊硕;赖惠成;林宪峰;杨敏;董九玲;;激光杂志(第02期);全文 *
贝叶斯网络分类器的参数学习算法研究与实现;丁晓彬;中国优秀硕士学位论文全文数据库(电子期刊);全文 *

Also Published As

Publication number Publication date
CN116996680A (zh) 2023-11-03

Similar Documents

Publication Publication Date Title
CN111028308B (zh) 一种图像中信息的隐写及读取方法
CN111382555B (zh) 数据处理方法、介质、装置和计算设备
US11062210B2 (en) Method and apparatus for training a neural network used for denoising
CN110570433A (zh) 基于生成对抗网络的图像语义分割模型构建方法和装置
CN114667522A (zh) 将数据样本转换为正常数据
CN111696046A (zh) 一种基于生成式对抗网络的水印去除方法和装置
Zhao et al. Detecting deepfake video by learning two-level features with two-stream convolutional neural network
CN114694074A (zh) 一种使用图像生成视频的方法、装置以及存储介质
CN114820303A (zh) 低清图像重建超分辨率人脸图像的方法、系统及存储介质
CN116935292B (zh) 一种基于自注意力模型的短视频场景分类方法及系统
CN117478886A (zh) 多媒体数据编码方法、装置、电子设备及存储介质
CN117437426A (zh) 一种高密度代表性原型指引的半监督语义分割方法
CN116996680B (zh) 一种用于视频数据分类模型训练的方法及装置
CN113452996A (zh) 一种视频编码、解码方法及装置
CN117061760A (zh) 一种基于注意力机制的视频压缩方法和系统
CN113627342B (zh) 视频深度特征提取优化的方法、系统、设备及存储介质
CN116129417A (zh) 一种基于低质量图像的数字仪表读数检测方法
Žižakić et al. Efficient local image descriptors learned with autoencoders
CN114841887A (zh) 一种基于多层次差异学习的图像恢复质量评价方法
Szoke et al. Image compression techniques using local binary pattern
Wang et al. Median filtering detection using LBP encoding pattern★
CN117041581B (zh) 一种用于视频编码参数优化的方法、装置及设备
CN117078564B (zh) 视频会议画面的智能生成方法及其系统
CN117278780B (zh) 视频编解码方法、装置、设备及存储介质
CN116091849B (zh) 基于分组解码器的轮胎花纹分类方法、系统、介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant