CN115052154B - 一种模型训练和视频编码方法、装置、设备及存储介质 - Google Patents

一种模型训练和视频编码方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115052154B
CN115052154B CN202210602534.6A CN202210602534A CN115052154B CN 115052154 B CN115052154 B CN 115052154B CN 202210602534 A CN202210602534 A CN 202210602534A CN 115052154 B CN115052154 B CN 115052154B
Authority
CN
China
Prior art keywords
sample
model
target
division
image block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210602534.6A
Other languages
English (en)
Other versions
CN115052154A (zh
Inventor
张旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202210602534.6A priority Critical patent/CN115052154B/zh
Publication of CN115052154A publication Critical patent/CN115052154A/zh
Application granted granted Critical
Publication of CN115052154B publication Critical patent/CN115052154B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/192Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding the adaptation method, adaptation tool or adaptation type being iterative or recursive
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/196Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本公开提供了一种模型训练和视频编码方法、装置、设备及存储介质,涉及人工智能技术领域,具体涉及云计算、视频处理、媒体云技术,可应用在智能云场景下。包括:根据样本编码单元CU对样本视频帧划分后的样本图像块,确定样本图像块对应的样本可选特征和样本划分指示信息;根据样本图像块对应的样本可选特征和样本划分指示信息,训练第一模型;根据训练后的第一模型,从样本可选特征中筛选第一样本关键特征;基于第一样本关键特征和样本划分指示信息,训练第二模型,得到CU划分指示预测模型。本方案通过训练能够预测CU划分指示信息的模型,并将其应用在基于HEVC技术对CU进行递归划分的过程中,极大提高了CU递归划分效率,进而提高视频编码效率。

Description

一种模型训练和视频编码方法、装置、设备及存储介质
技术领域
本公开涉及人工智能技术领域,具体涉及云计算、视频处理、媒体云技术,可应用在智能云场景下。
背景技术
随着视频技术的发展,一种高效视频编码(High Efficiency Video Coding,HEVC)技术逐渐兴起,在基于HEVC技术对视频进行编码的过程中,需要确定编码单元(Coding Unit,CU)的最佳尺寸。而CU最佳尺寸的确定,又需要依赖CU的递归划分结果,由于CU递归划分过程繁琐,复杂度较高,严重影响视频编码速度,因此,亟需改进。
发明内容
本公开提供了一种模型训练和视频编码方法、装置、设备及存储介质。
根据本公开的一方面,提供了一种模型训练方法,包括:
根据样本编码单元CU对样本视频帧划分后的样本图像块,确定所述样本图像块对应的样本可选特征和样本划分指示信息;
根据所述样本图像块对应的样本可选特征和所述样本划分指示信息,训练第一模型;
根据训练后的第一模型,从所述样本可选特征中筛选第一样本关键特征;
基于所述第一样本关键特征和样本划分指示信息,训练第二模型,得到CU划分指示预测模型。
根据本公开的另一方面,提供了一种视频编码方法,包括:
通过第一模型,根据目标CU对目标视频帧划分后的目标图像块,确定所述目标图像块对应的目标关键特征;其中,所述第一模型根据样本图像块对应的样本可选特征和样本划分指示信息,训练得到;所述样本可选特征和所述样本划分指示信息根据样本CU对样本视频帧划分后的样本图像块确定;
通过CU划分指示预测模型,根据所述目标关键特征,预测所述目标图像块的划分指示信息;其中,所述CU划分指示预测模型基于本公开任一实施例所述的模型训练方法训练得到;
在所述划分指示信息为停止划分的情况下,结束对所述目标图像块的划分,并确定所述目标图像块的划分结果;
根据所述目标图像块的划分结果,确定CU的最佳划分尺寸,并根据所述最佳尺寸的CU,对所述目标视频帧进行视频编码。
根据本公开的另一方面,提供了一种电子设备,该电子设备包括:
至少一个处理器;以及
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开任一实施例的模型训练方法或视频编码方法方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开任一实施例的模型训练方法或视频编码方法。
本公开实施例,通过训练能够预测CU划分指示信息的模型,并将其应用在基于HEVC技术对CU进行递归划分的过程中,极大的降低了CU递归划分过程的复杂度,提高了CU递归划分效率,进而提高了视频编码效率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例提供的一种模型训练方法的流程图;
图2是根据本公开实施例提供的一种模型训练方法的流程图;
图3是根据本公开实施例提供的一种模型训练方法的流程图;
图4是根据本公开实施例提供的一种模型训练方法的流程图;
图5A是根据本公开实施例提供的一种视频编码方法的流程图;
图5B是根据本公开实施例提供的视频编码原理图;
图6是根据本公开实施例提供的一种视频编码方法的流程图;
图7是根据本公开实施例提供的一种视频编码方法的流程图;
图8是根据本公开实施例提供的一种模型训练装置的结构示意图;
图9是根据本公开实施例提供的一种视频编码装置的结构示意图;
图10是用来实现本公开实施例的模型训练或视频编码方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在介绍本公开实施例之前,需要说明的是,随着视频技术的发展HEVC技术逐渐兴起,在基于HEVC技术对视频进行编码的过程中,需要确定编码单元CU的最佳尺寸。而CU最佳尺寸的确定,需要基于CU的递归划分结果来确定,目前,CU递归划分方式是先通过64x64尺寸的CU对视频帧进行划分,再针对划分后的每一64x64的图像块,通过32x32尺寸的CU进行划分,再针对划分后的每一32x32的图像块,通过16x16尺寸的CU进行划分,再针对划分后的每一16x16的图像块,通过8x8尺寸的CU进行划分,进而再确定每一尺寸的划分结果,并根据划分结果选择CU对该视频帧进行划分的最佳尺寸。该方法虽然可以保证CU最佳尺寸确定的准确性,但是由于每一CU都需要从64x64划分到8x8,造成了复杂度的升高,使得编码速度变慢,本公开实施例正是基于上述问题,给出了如下方案,即先训练一个能够预测每一尺寸的CU划分是否提前结束的CU划分指示预测模型,然后再将训练后的CU划分指示预测模型应用在基于HEVC技术对CU进行递归划分的过程中,来提高CU递归划分效率,进而提高了视频编码效率。具体方案如下:
图1是根据本公开实施例提供的一种模型训练方法的流程图;本公开实施例适用于在基于HEVC技术对视频进行编码的场景下,如何提高CU划分效率的情况。该方法可以由模型训练装置来执行,该装置可以采用软件和/或硬件的方式实现。具体可以集成于具有模型训练功能的电子设备中。如图1所示,本实施例提供的模型训练方法可以包括:
S101,根据样本编码单元CU对样本视频帧划分后的样本图像块,确定样本图像块对应的样本可选特征和样本划分指示信息。
其中,编码单元CU可以是基于HEVC技术对视频进行编码的过程中,采用四叉树结构划分视频图像帧的依据。每个CU可以由一个亮度块和两个色度块,以及相应的语法元素组成,亮度CU尺寸可是64x64、32x32、16x16、8x8,色度CU的尺寸可以是32x32、16x16、8x8、4x4,尺寸越大,压缩效果越好,但同时可能造成像素的误差更大。
本实施例的样本CU可以是用于进行模型训练所选取的各种不同尺寸的CU,例如,可以覆盖64x64、32x32、16x16、8x8四种尺寸的CU。
样本视频帧是用于进行模型训练所选取的视频图像帧,为了保证模型训练的精准性和泛化性,本实施例可以选择多个覆盖不同复杂度的视频序列中的图像帧,作为样本视频帧。
样本图像块可以是基于样本CU对样本视频帧进行划分后,得到划分后的每一图像块。样本图像块对应的样本可选特征可以是与CU划分相关的所有特征,例如,可以包括但不限于:划分后的样本图像块的基本信息特征、深度信息特征,以及与CU最佳编码模式相关的统计特征等。其中,基本信息特征又进一步可以包括:率失真代价(Rate DistortionOptimation,RDcost),尺寸,亮度均值,亮度方差,运动估计矢量(Motion Vector,mv)等。深度特征包括:时域邻块CU的深度信息和空域邻块CU的深度信息等。其中,时域邻块CU的深度信息可以是该样本视频帧在视频序列中的前一视频帧,采用该样本CU进行划分的同一位置的深度信息;空域邻块CU的深度信息,可以是该样本视频帧中,样本CU划分后的图像块的相邻图像块中,已知深度信息的那些相邻图像块的深度值的平均值。
样本划分指示信息可以是表征该样本CU对样本视频帧划分的操作是否结束的指示信息。
可选的,本实施例可以依次将64x64、32x32、16x16、8x8四种尺寸的CU作为样本CU,采用现有的CU递归划分的方式对样本视频帧进行划分,根据每次划分得到的图像块,先确定CU最佳编码模式,然后再根据该CU最佳编码模式对图像块进行编码,例如,可以包括像素特征的编码、深度特征的编码以及CU模式相关特征的编码等,得到各样本CU划分视频图像帧得到的各样本图像块的样本可选特征。
再根据所有尺寸的样本CU划分后的样本图像块的样本可选特征中的率失真代价,确定划分后的每一样本图像块对应的样本CU是否需要结束当前尺寸的CU划分操作。例如,假设尺寸为16x16的样本CU对尺寸为32x32的样本CU划分的图像块1进一步划分为四个图像块2,则可以基于四个图像块2的率失真代价之和,与图像块1的率失真代价比较,确定是32x32的样本CU对应的图像块1是否可结束CU互划分,即是否需要进一步基于6x16的样本CU进行进一步的划分,即得到图像块1对应的样本划分指示信息。若需要结束CU划分,则样本划分指示信息为结束,如可以用1表示,若不需要结束CU划分,则样本划分指示信息为不结束,如可以用0表示。
需要说明的是,本实施例中,针对样本CU划分样本视频后得到的每一样本图像块,都对应一组样本可选特征,以及该样本图像块对应的CU划分指示信息,即该样本图像块是否需要继续使用下一尺寸CU进行划分的指示信息。
S102,根据样本图像块对应的样本可选特征和样本划分指示信息,训练第一模型。
其中,第一模型可以是用于根据输入的样本可选特征解析是否需要结束CU划分,即解析划分指示信息的神经网络模型。
本实施例可以是针对不同尺寸的样本CU对样本视频帧划分后的每一个样本图像块,将该样本图像块对应的样本可选特征和样本划分指示信息作为一组训练数据,对第一模型进行一次迭代训练,具体的,可以是将样本可选特征作为第一模型的输入,得到该第一模型输出的预测划分指示信息,并根据预测划分指示信息和样本划分指示信息,计算损失值,并根据损失值来对第一模型的参数进行调整,即完成对第一模型的一次迭代训练。通过多组训练数据对第一模型进行多次迭代训练后,可以对训练后的第一模型进行测试,若测试通过,则完成对第一模型的训练。
S103,根据训练后的第一模型,从样本可选特征中筛选第一样本关键特征。
其中,第一样本关键特征可以是根据训练后的第一模型确定出的对样本划分指示信息的确定,起到重要决定性作用的样本可选特征。
本实施例基于样本可选特征和样本划分指示信息,对第一模型进行训练的过程中,第一模型就能够学习到不同维度的样本可选特征与划分指示信息之间的相关性。即经过S102训练后的第一模型的网络参数中可包含特征贡献度参数,其中,该特征贡献度参数可以表征不同维度的可选特征对于划分指示信息的确定起到的贡献程度。本实施例可以从训练后的第一模型中解析出不同维度的样本可选特征对应的特征贡献度参数,然后基于解析出的特征贡献度参数从样本可选特征中,选择特征贡献度高的样本可选特征,作为第一样本关键特征。
S104,基于第一样本关键特征和样本划分指示信息,训练第二模型,得到CU划分指示预测模型。
其中,CU划分指示预测模型为训练后的第二模型,两者均用于根据输入的关键特征解析是否需要结束CU划分,即解析划分指示信息的神经网络模型。需要说明的是,本实施例的第一模型和第二模型可以同一种算法的二分类预测模型,也可以是不同算法的二分类预测模型。若第一模型和第二模型为同一算法的二分类预测模式时,两模型可以是同一个预训练后的二分类模型,还可以是将训练后的第一模型作为第二模型进行本步骤的训练。对此不进行限定。
可选的,本实施例可以是针对不同尺寸的样本CU对样本视频帧划分后的每一个样本图像块,将该样本图像块对应的第一样本关键特征和样本划分指示信息作为一组训练数据,对第二模型进行一次训练,具体的,可以是将第一样本关键特征作为第二模型的输入,得到该第二模型输出的预测划分指示信息,并根据预测划分指示信息和样本划分指示信息,计算损失值,并根据损失值来对第二模型的参数进行调整,即完成对第二模型的一次迭代训练。通过多组训练数据对第二模型进行多次迭代训练后,可以对训练后的第二模型进行测试,若测试通过,则完成对第二模型的训练,此时训练好的第二模型即为本公开实施例最终想要得到的CU划分指示预测模型,即可以将训练好的CU划分指示预测模型应用在基于HEVC技术的视频编码过程中,具体的应用过程将在后续实施例进行详细介绍。
本公开实施例的方案,选择样本CU对样本视频帧划分后的样本图像块对应的样本可选特征和样本划分指示信息作为训练数据,来训练第一模型,根据训练后的第一模型,从样本可选特征中筛选第一样本关键特征,进而根据筛选后的第一样本关键特征和样本划分指示信息,对第二模型进行训练,得到CU划分指示预测模型。本方案先基于所有的样本特征及其对应的样本划分指示信息训练第一模型,由于训练后的第一模型的内部参数可以表征不同维度的可选特征对模型预测所起的贡献程度,所以基于该内部参数,可以从多维度的可选样本特征中,精准筛选出重要性高的样本关键特征,来训练最终的CU划分指示预测模型,本方案通过模型训练的方式来提取重要的关键特征,提高了关键特征选择的准确性。另外,本方案训练后的CU划分指示预测模型无需针对所有维度的可选特征进行预测,极大的降低了模型预测过程的复杂度,因此,本方案的模型训练方式,不但降低了训练好的CU划分指示预测模型的复杂度,还提高了模型训练的精准性。
可选的,本实施例的第一模型和第二模型可以采用支持向量机(Support VectorMachine,SVM)、决策树、随机森林和梯度增强决策树(Gradient Boosting Decision Tree,XGBOOST)等算法的模型,可优选采用XGBOOST模型。XGBOOST模型相较SVM和决策树等模型有着更加优越的性能。使得训练后得到的CU划分指示预测模型的准确性和泛化性更强。
可选的,在本实施例中,确定样本视频帧的方式可以是:根据时域复杂度和/或空域复杂度,从候选视频帧序列中确定样本视频帧序列;从样本视频帧序列中确定样本视频帧。
其中,时域复杂度用于表征一组视频序列是否存在场景频繁变化的情况,若是,则说明时域复杂度高,即一组视频序列中出现的不同场景的数量越多,时域复杂度越高。空域复杂度用于表征一帧视频图像中图像背景的复杂度,若背景单一,则说明空域复杂度低,否则,说明空域复杂度高。
本方案选择的样本视频序列,最好覆盖各种时域复杂度和/或空域复杂度的视频序列,然后将选择的覆盖各种时域复杂度和/或空域复杂度的样本视频序列中的每一帧图像,都作为一个样本视频帧。还可以是按照一定的规则,从样本视频序列中抽取一些图像帧作为样本视频帧。本实施例选择的样本视频帧覆盖各种时域复杂度和/或空域复杂度,能够极大提高训练后的CU划分指示预测模型的泛化能力。
图2是根据本公开实施例提供的一种模型训练方法的流程图。本公开实施例在上述实施例的基础上,进一步对如何根据训练后的第一模型,从样本可选特征中筛选第一样本关键特征进行详细解释说明,如图2所示,本实施例提供的模型训练方法可以包括:
S201,根据样本编码单元CU对样本视频帧划分后的样本图像块,确定样本图像块对应的样本可选特征和样本划分指示信息。
S202,根据样本图像块对应的样本可选特征和样本划分指示信息,训练第一模型。
S203,根据训练后的第一模型的模型参数,确定样本可选特征的权重值。
其中,由于经过S202训练后的第一模型的网络参数中可包含不同维度的样本可选特征对应的特征贡献度参数,本实施例可以根据不同样本可选特征对应的特征贡献度参数确定各样本可选特征的权重值。
具体的,本实施例可以先基于第一模型的网络构建方式,确定包含特征贡献度参数的网络层,然后从该网络层中提取出各维度的样本可选特征对应的特征贡献度参数,然后可以直接将各维度的样本可选特征对应的特征贡献度参数作为该维度的可选样本特征对应的权重值;还可以是对各维度的样本可选特征对应的特征贡献度参数进行归一化处理后,将归一化处理后的各特征贡献度参数值,作为各维度的可选样本特征对应的权重值。
S204,根据样本可选特征的权重值,对样本可选特征进行重要性排序。
具体的,本实施例可以是对不同维度的样本可选特征,按照权重值从大到小的顺序,或从小到大的顺序进行排序,即完成为对样本可选特征进行重要性排序。
S205,根据样本可选特征的重要性排序结果,从样本可选特征中筛选第一样本关键特征。
可选的,本实施例可以是根据S204对样本可选特征的重要性排序结果,从样本可选特征中,筛选出重要性较高的可选样本特征作为第一样本关键特征。
例如,可以是选择重要性排序结果中,权重值较大的预设个数的样本可选特征作为第一样本关键特征;还可以是选择权重值大于权重阈值的样本可选特征作为第一样本关键特征等,对此不进行限定。
S206,基于第一样本关键特征和样本划分指示信息,训练第二模型,得到CU划分指示预测模型。
本公开实施例的方案,选择样本CU对样本视频帧划分后的样本图像块对应的样本可选特征和样本划分指示信息作为训练数据,来训练第一模型,根据训练后的第一模型,确定各维度的样本可选特征的权重值,根据该权重值对样本可选特征进行重要性排序后,选择重要的样本可选特征作为第一样本关键特征,进而根据筛选后的第一样本关键特征和样本划分指示信息,对第二模型进行训练,得到CU划分指示预测模型。本方案给出了一种根据训练了后的第一模型,确定关键特征的优选方式,该方式通过确定不同可选特征的权重值,进行排序后筛选关键特征,提高了关键特征筛选的效率和准确性,进而提高了后续训练得到的CU划分指示预测模型的精准性。
图3是根据本公开实施例提供的一种模型训练方法的流程图。本公开实施例在上述实施例的基础上,进一步对如何基于第一样本关键特征和样本划分指示信息,训练第二模型,得到CU划分指示预测模型进行详细解释说明,如图3所示,本实施例提供的模型训练方法可以包括:
S301,根据样本编码单元CU对样本视频帧划分后的样本图像块,确定样本图像块对应的样本可选特征和样本划分指示信息。
S302,根据样本图像块对应的样本可选特征和样本划分指示信息,训练第一模型。
S303,根据训练后的第一模型,从样本可选特征中筛选第一样本关键特征。
S304,根据预设筛选规则,从样本可选特征中筛选第二样本关键特征。
其中,本实施例的预设筛选规则可以是任何用于协助进行关键特征筛选的规则,例如,可以是基于CU划分的专业知识和大量的统计分析,指定关键特征的筛选规则,例如,指定要选择的关键特征的种类。还可以是根据特征重要性的计算公式,并将计算公式作为该预设筛选规则等。
其中,第二样本关键特征可以是根据预设筛选规则定出的对样本划分指示信息的确定,起到重要决定性作用的样本可选特征。
具体的,若预设筛选规则中指定了关键特征的种类,则可以直接从样可选特征中选出该预设筛选规则中指定种类的样本可选特征作为第二样本关键特征;若预设筛选规则中记录有重要性计算公式,则可以是将各样本可选特征的特征值代入到对应的计算公式中,确定出该可选样本特征的重要性数值,进而选择重要性数值高的可选样本特征作为第二样本关键特征。
S305,根据第一样本关键特征和第二样本关键特征,确定样本输入特征。
其中,样本输入特征是指最终要输入到第二模型中,对第二模型进行训练的特征。
可选的,本实施例可以将第一样本关键特征和第二样本关键特征进行融合处理,如求交集或并集处理,得到最终筛选出的样本关键特征,即样本输入特征。本方案优选将第一样本关键特征和第二样本关键特征求并集,以保证筛选的样本关键特征的全面性。
S306,根据样本输入特征和样本划分指示信,训练第二模型,得到CU划分指示预测模型。
本公开实施例的方案。选择样本CU对样本视频帧划分后的样本图像块对应的样本可选特征和样本划分指示信息作为训练数据,来训练第一模型,根据训练后的第一模型和预设筛选规则,从样本可选特征中筛选出两部分样本关键特征,融合得到样本输入特征,进而根据样本输入特征和样本划分指示信息,对第二模型进行训练,得到CU划分指示预测模型。本方案基于模型和规则两种方式来确定关键特征,提高了关键特征确定的准确性和全面性,为后续训练高精度的CU划分指示预测模型提供了保障。
图4是根据本公开实施例提供的一种模型训练方法的流程图。本公开实施例在上述实施例的基础上,进一步对如何根据样本CU对样本视频帧划分后的样本图像块,确定样本图像块对应的样本可选特征进行详细解释说明,如图4所示,本实施例提供的模型训练方法可以包括:
S401,根据样本CU对样本视频帧划分后的样本图像块,确定样本图像块对应的样本原始特征和样本划分指示信息。
S402,对样本原始特征进行特征预处理,得到样本可选特征。
其中,所述特征预处理包括:衍生变量处理、归一化处理和离散化处理中的至少一种。
需要说明的是,本实施例的样本原始特征可以是根据划分后的样本图像块确定出的与CU划分相关的所有维度的特征,上述实施例介绍的方案是直接将样本原始特征作为样本可选特征的情况,本实施例给出了对样本原始特征进行特征工程处理后得到样本可选特征的优选实例。
具体的,本实施例可以是对S401确定的样本原始特征进行进一步特征工程处理操作,例如,对样本原始特征进行衍生变量处理、归一化处理和离散化处理中的至少一种,得到样本可选特征,该方式得到的样本可选特征不但在数量上优于样本原始特征,且质量上也优于样本原始特征。
例如,可以是先基于衍生变量处理算法,对样本原始特征进行处理,以扩充样本原始特征的特征量,然后在对扩充后的特征进行归一化和离散化处理,并将进行归一化和离散化处理后的特征作为样本可选特征。
S403,根据样本图像块对应的样本可选特征和样本划分指示信息,训练第一模型。
S404,根据训练后的第一模型,从样本可选特征中筛选第一样本关键特征。
S405,基于第一样本关键特征和样本划分指示信息,训练第二模型,得到CU划分指示预测模型。
本公开实施例的方案。对样本CU对样本视频帧划分后的样本图像块对应的样本原始特征进行特征工程预处理后,得到样本原始特征,并将其与样本划分指示信息一并作为训练数据,来训练第一模型,根据训练后的第一模型,从样本可选特征中筛选出样本关键特征,进而根据样本关键特征和样本划分指示信息,对第二模型进行训练,得到CU划分指示预测模型。本方案对样本原始特征进行特征工程预处理操作来提高样本可选特征的多样性和精准性,具体的,通过衍生变量处理,能够提高可选特征的多样性,通过归一化和离散化处理,能够在一定范围内消除奇异样本特征导致的不良影响,且基于归一化和离散化处理后的特征进行候选模型训练操作,能够加快梯度下降求最优解的速度,进而提高模型训练精度。
图5A是根据本公开实施例提供的一种视频编码方法的流程图;图5B是根据本公开实施例提供的视频编码原理图。本公开实施例适用于基于HEVC技术对视频进行编码的情况。该方法可以由视频编码装置来执行,该装置可以采用软件和/或硬件的方式实现。具体可以集成于具有视频编码功能的电子设备中。如图5A-5B所示,本实施例提供的视频编码方法可以包括:
S501,通过第一模型,根据目标CU对目标视频帧划分后的目标图像块,确定目标图像块对应的目标关键特征。
其中,第一模型是上述实施例介绍的根据样本图像块对应的样本可选特征和样本划分指示信息训练得到的;该样本可选特征和样本划分指示信息根据样本CU对样本视频帧划分后的样本图像块确定。需要说明的是,关于第一模型的介绍及训练方式在上述实施例中进行了详细介绍,在此不进行赘述。
目标CU可以是基于HEVC技术对视频进行编码时,所选取的各种不同尺寸的CU,例如,可以覆盖64x64、32x32、16x16、8x8四种尺寸的CU。本实施例可以是在视频编码的过程中,将每一尺寸的CU依次作为目标CU。
目标视频帧可以是当前需要进行视频编码的视频序列中的任意视频帧。目标图像块可以是基于目标CU对目标视频帧进行划分后,得到划分后的每一图像块。目标图像块对应的目标关键特征可以是与CU划分相关的重要性较高的特征。
可选的,本实施例可以是先根据上述实施例训练好的第一模型,确定出对预测划分指示信息相对重要的目标特征种类,具体的,可以是根据上述实施例训练后的第一模型的模型参数,确定所有可选种类的特征的权重值,然后基于权重值,对所有可选种类的特征进行重要性排序。选择重要性高的可选种类作为目标特征种类。然后根据目标CU对目标视频帧划分后的目标图像块,执行特征编码处理,只确定与目标特征种类相关的特征,作为目标图像块对应的目标关键特征。
需要说明的是,本实施例的目标关键特征是从划分后的目标图像块的基本信息特征、深度信息特征,以及与CU最佳编码模式相关的统计特征等中选出的。其中,基本信息特征又进一步可以包括:率失真代价(Rate Distortion Optimation,RDcost),尺寸,亮度均值,亮度方差,运动估计矢量(Motion Vector,mv)等。深度特征包括:时域邻块CU的深度信息和空域邻块CU的深度信息等。
S502,通过CU划分指示预测模型,根据目标关键特征,预测目标图像块的划分指示信息。
其中,本实施例的CU划分指示预测模型基于上述任意实施例介绍的模型训练方法训练得到;
可选的,如图5B所示,本实施例针对目标视频帧,可以先将64x64的CU作为目标CU,将目标视频帧作为待划分图像;执行基于该目标CU对待划分图像进行划分的操作,得到划分后的目标图像块,然后计算目标CU的各个模式(即编码模式),并从中确定出最佳编码模式,然后基于该最佳编码模式,对目标图像块进行编码,只获取基于第一模型确定的相对重要的特征种类对应的特征,即目标关键特征,然后将目标关键特征输入到训练好的CU划分指示预测模型中,该模型即可根据输入的目标关键特征,解析该目标CU是否还需停止划分的划分指示信息。
若划分指示信息为停止划分,则本实施例可以是执行S503的操作,停止对该目标图像块的继续划分,并执行后续S504的操作。否则,需要将下一尺寸CU作为目标CU,例如,若当前尺寸为64x64,则下一尺寸CU为比当前尺寸小一尺寸的CU,即32x32。将当前的目标图像块作为待划分图像,继续执行基于目标CU对待划分图像进行划分的操作,然后判断是否达到整体划分结束条件,即目标图像帧已经划分到最大层,或对目标图像帧进行CU划分图像块的计算已经都执行完,若达到,则执行S504的操作,否则继续执行S501及其后续操作。
S503,在划分指示信息为停止划分的情况下,结束对目标图像块的划分,并确定目标图像块的划分结果。
可选的,针对每一尺寸的目标CU,若S502基于CU划分指示预测模型预测出划分指示信息为停止划分,则不在使用下一尺寸的CU对本次划分的目标图像块进行继续划分,且需要根据本次划分得到的四个目标图像块的率失真代价,以及这四个目标图像块对应上一尺寸的CU图像块的率失真代价,确定是否需要划分到目标图像块这个CU尺寸,作为目标图像块的划分结果,即上一尺寸的CU是否需要进一步划分为当前尺寸CU。
需要说明的是,本实施例中上一尺寸的CU是指比当前尺寸大一尺的CU,下一尺寸的CU是比当前尺寸小一尺寸的CU,例如,若当前尺寸为32x32,则其上一尺寸为64x64,其下一尺寸为16x16。
S504,根据目标图像块的划分结果,确定CU的最佳划分尺寸,并根据最佳尺寸的CU,对目标视频帧进行视频编码。
具体的,本实施例可以根据目标图像块的划分结果,即针对每一尺寸的目标图像块是否需要继续向下划分,按照一定的规则,确定出划分目标视频帧的CU的最佳划分尺寸,然后基于该最佳划分尺寸的CU对目标视频帧进行划分后,基于HEVC编码规则,对划分后的目标视频帧进行高效视频编码,得到对该目标视频帧的编码结果。
本公开实施例的方案,通过第一模型,根据目标CU对目标视频帧划分后的目标图像块,确定目标关键特征,并通过CU划分指示预测模型预测目标关键特征对应的目标图像块的划分指示信息。在该划分指示信息为停止划分的情况下,结束对目标图像块的划分,并确定该目标图像块对应的划分结果,在得到所有目标图像块的划分结果后,确定CU的最佳划分尺寸,进而根据该最佳划分尺寸,基于HEVC技术对目标视频帧进行视频编码处理。本方案使用的目标关键特征,是基于训练后的第一模型的内部参数确定的,所以该目标关键特征预测的划分指示信息更为精准,进而能够将更为精准的判断出是否需要提前结束对当前尺寸CU的划分,在提高CU划分效率的同时保证了CU划分结果的准确性,进而提高视频编码过程的效率和准确性。
可选的,本实施例中的第一模型和CU划分指示预测模型优选为XGBOOST模型。由于XGBOOST模型相较SVM和决策树等模型有着更加优越的性能。所以使得训练后得到的CU划分指示预测模型的准确性和泛化性更强。
图6是根据本公开实施例提供的一种视频编码方法的流程图。本公开实施例在上述实施例的基础上,进一步对如何通过第一模型,根据目标CU对目标视频帧划分后的目标图像块,确定目标图像块对应的目标关键特征进行详细解释说明,如图6所示,本实施例提供的模型训练方法可以包括:
S601,通过第一模型,根据目标CU对目标视频帧划分后的目标图像块,确定目标图像块对应的第一子关键特征。
其中,第一模型根据样本图像块对应的样本可选特征和样本划分指示信息,训练得到;样本可选特征和样本划分指示信息根据样本CU对样本视频帧划分后的样本图像块确定。
其中,第一子关键特征可以是通过第一模型确定出的对预测划分指示信息,起到重要决定性作用的特征。
可选的,本步骤通过第一模型,根据目标CU对目标视频帧划分后的目标图像块,确定目标图像块对应的第一子关键特征的过程与上述实施例中的S501介绍的通过第一模型,根据目标CU对目标视频帧划分后的目标图像块,确定目标图像块对应的目标关键特征的方式类似,在此不进行赘述。
S602,根据预设筛选规则,根据目标图像块,确定目标图像块对应的第二子关键特征。
其中,本实施例的预设筛选规则可以是任何用于协助确定目标图像块对应的关键特征的规则,例如,可以是基于CU划分的专业知识和大量的统计分析,指定关键特征的筛选规则,例如,指定要选择的关键特征的种类。还可以是根据特征重要性的计算公式,并将计算公式作为该预设筛选规则等。
其中,第二子关键特征可以是根据预设筛选规则定出的对预测划分指示信息,起到重要决定性作用的特征。
本实施例可以是根据预设筛选规则确定出对预测划分指示信息相对重要的另一部分目标特征种类,然后根据目标CU对目标视频帧划分后的目标图像块,执行特征编码处理,只确定与该部分目标特征种类相关的特征,作为目标图像块对应的另一部子关键特征,即第二子关键特征。
具体的,若预设筛选规则中指定了关键特征的种类,则可以直接将该预设筛选规则中指定的可选特征的种类作为目标特征种类;若预设筛选规则中记录有重要性计算公式,则可以是将各特征种类对应的特征值代入到对应的计算公式中,确定出各特征种类的重要性数值,进而选择重要性数值高的各特征种类作为目标特征种类。
S603,根据第一子关键特征和第二子关键特征,确定目标图像块对应的目标关键特征。
可选的,本实施例可以将第一子关键特征和第二子关键特征进行融合处理,如求交集或并集处理,得到目标关键特征。本方案优选将第一子关键特征和第二子关键特征求并集,以保证确定的目标关键特征的全面性。
S604,通过CU划分指示预测模型,根据目标关键特征,预测目标图像块的划分指示信息。
其中,CU划分指示预测模型基于上述任意实施例介绍的的模型训练方法训练得到。
S605,在划分指示信息为停止划分的情况下,结束对目标图像块的划分,并确定目标图像块的划分结果。
S606,根据目标图像块的划分结果,确定CU的最佳划分尺寸,并根据最佳尺寸的CU,对目标视频帧进行视频编码。
本公开实施例的方案,通过第一模型和预设筛选规则,根据目标CU对目标视频帧划分后的目标图像块,确定两部分子关键特征融合得到目标关键特征,并通过CU划分指示预测模型预测目标关键特征对应的目标图像块的划分指示信息。在该划分指示信息为停止划分的情况下,结束对目标图像块的划分,并确定该目标图像块对应的划分结果,在得到所有目标图像块的划分结果后,确定CU的最佳划分尺寸,进而根据该最佳划分尺寸,基于HEVC技术对目标视频帧进行视频编码处理。本方案基于模型和规则两种方式来确定目标关键特征,提高了目标关键特征确定的准确性和全面性,为后续CU划分指示预测模型精准预测划分指示信息,以及快速且高质量的完成对视频的编码提供了保障。
图7是根据本公开实施例提供的一种视频编码方法的流程图。本公开实施例在上述实施例的基础上,进一步对如何通过CU划分指示预测模型,根据目标关键特征,预测目标图像块的划分指示信息进行详细解释说明,如图7所示,本实施例提供的模型训练方法可以包括:
S701,通过第一模型,根据目标CU对目标视频帧划分后的目标图像块,确定目标图像块对应的目标关键特征。
其中,第一模型根据样本图像块对应的样本可选特征和样本划分指示信息,训练得到;样本可选特征和所述样本划分指示信息根据样本CU对样本视频帧划分后的样本图像块确定。
S702,对目标关键特征进行特征预处理,得到目标输入特征。
其中,特征预处理包括:衍生变量处理、归一化处理和离散化处理中的至少一种。
需要说明的是,本实施例在确定出目标关键特征后,可以对该目标关键特征进行特征工程处理后得到输入到CU划分指示预测模型中的输入特征,即目标输入特征。
具体的,本实施例可以是对S701确定的目标关键特征进行进一步特征工程处理操作,例如,对目标关键特征进行衍生变量处理、归一化处理和离散化处理中的至少一种,得到目标输入特征,该方式得到的目标输入特征不但在数量上优于目标关键特征,且质量上也优于目标关键特征。
例如,可以是先基于衍生变量处理算法,对目标关键特征进行处理,以扩充目标关键特征,然后再对扩充后的目标关键特征进行归一化和离散化处理,并将进行归一化和离散化处理后的目标关键特征作为目标输入特征。
S703,将目标输入特征作为CU划分指示预测模型的输入,得到目标图像块的划分指示信息。
其中,CU划分指示预测模型基于上述任意实施例介绍的的模型训练方法训练得到。
S704,在划分指示信息为停止划分的情况下,结束对目标图像块的划分,并确定目标图像块的划分结果。
S705,根据目标图像块的划分结果,确定CU的最佳划分尺寸,并根据最佳尺寸的CU,对目标视频帧进行视频编码。
本公开实施例的方案,通过第一模型,根据目标CU对目标视频帧划分后的目标图像块,确定目标关键特征,对目标关键特征进行特征预处理后,得到目标输入特征,并通过CU划分指示预测模型预测目标输入特征对应的目标图像块的划分指示信息。在该划分指示信息为停止划分的情况下,结束对目标图像块的划分,并确定该目标图像块对应的划分结果,在得到所有目标图像块的划分结果后,确定CU的最佳划分尺寸,进而根据该最佳划分尺寸,基于HEVC技术对目标视频帧进行视频编码处理。本方案对目标关键特征进行特征工程预处理操作来提高输入到CU划分指示预测模型中的特征的多样性和精准性,具体的,通过衍生变量处理,能够提高目标输入特征的多样性,通过归一化和离散化处理,能够在一定范围内消除奇异关键特征导致的不良影响,提高CU划分指示预测模型预测结果的准确性,进而提高视频的编码结果的准确性。
图8是根据本公开实施例提供的一种模型训练装置的结构示意图,本公开实施例适用于在基于HEVC技术对视频进行编码的场景下,如何提高CU划分效率的情况。该装置可以配置于具有模型训练功能的电子设备中,采用软件和/或硬件来实现,该装置可以实现本公开任意实施例的模型训练方法。如图8所示,该模型训练装置800包括:
样本特征信息确定模块801,用于根据样本编码单元CU对样本视频帧划分后的样本图像块,确定所述样本图像块对应的样本可选特征和样本划分指示信息;
模型训练模块802,用于根据所述样本图像块对应的样本可选特征和所述样本划分指示信息,训练第一模型;
特征筛选模块803,用于根据训练后的第一模型,从所述样本可选特征中筛选第一样本关键特征;
所述模型训练模块802,还用于基于所述第一样本关键特征和样本划分指示信息,训练第二模型,得到CU划分指示预测模型。
本公开实施例的方案,选择样本CU对样本视频帧划分后的样本图像块对应的样本可选特征和样本划分指示信息作为训练数据,来训练第一模型,根据训练后的第一模型,从样本可选特征中筛选第一样本关键特征,进而根据筛选后的第一样本关键特征和样本划分指示信息,对第二模型进行训练,得到CU划分指示预测模型。本方案先基于所有的样本特征及其对应的样本划分指示信息训练第一模型,由于训练后的第一模型的内部参数可以表征不同维度的可选特征对模型预测所起的贡献程度,所以基于该内部参数,可以从多维度的可选样本特征中,精准筛选出重要性高的样本关键特征,来训练最终的CU划分指示预测模型,本方案通过模型训练的方式来提取重要的关键特征,提高了关键特征选择的准确性。另外,本方案训练后的CU划分指示预测模型无需针对所有维度的可选特征进行预测,极大的降低了模型预测过程的复杂度,因此,本方案的模型训练方式,不但降低了训练好的CU划分指示预测模型的复杂度,还提高了模型训练的精准性。
进一步的,所述特征筛选模块803,包括:
特征权重确定单元,用于根据训练后的第一模型的模型参数,确定所述样本可选特征的权重值;
特征排序单元,用于根据所述样本可选特征的权重值,对所述样本可选特征进行重要性排序;
特征筛选单元,用于根据所述样本可选特征的重要性排序结果,从所述样本可选特征中筛选第一样本关键特征。
进一步的,所述模型训练模块802,包括:
特征筛选单元,用于根据预设筛选规则,从所述样本可选特征中筛选第二样本关键特征;
特征融合单元,用于根据所述第一样本关键特征和所述第二样本关键特征,确定样本输入特征;
模型训练单元,用于根据所述样本输入特征和所述样本划分指示信,训练第二模型,得到CU划分指示预测模型。
进一步的,样本特征信息确定模块801,包括:
特征确定单元,用于根据样本CU对样本视频帧划分后的样本图像块,确定所述样本图像块对应的样本原始特征;
原始特征预处理单元,用于对所述样本原始特征进行特征预处理,得到样本可选特征;其中,所述特征预处理包括:衍生变量处理、归一化处理和离散化处理中的至少一种。
进一步的,所述模型训练装置800,还包括:
视频序列确定模块,用于根据时域复杂度和/或空域复杂度,从候选视频帧序列中确定样本视频帧序列;
视频帧确定模块,用于从所述样本视频帧序列中确定所述样本视频帧。
进一步的,所述第一模型和所述第二模型为梯度增强决策树XGBOOST模型。
图9是根据本公开实施例提供的一种视频编码装置的结构示意图,本公开实施例适用于基于HEVC技术对视频进行编码的情况。该装置可以配置于具有视频编码功能的电子设备中,采用软件和/或硬件来实现,该装置可以实现本公开任意实施例的视频编码方法。如图9所示,该视频编码装置900包括:
目标特征确定模块901,用于通过第一模型,根据目标CU对目标视频帧划分后的目标图像块,确定所述目标图像块对应的目标关键特征;其中,所述第一模型根据样本图像块对应的样本可选特征和样本划分指示信息,训练得到;所述样本可选特征和所述样本划分指示信息根据样本CU对样本视频帧划分后的样本图像块确定;
指示信息预测模块902,用于通过CU划分指示预测模型,根据所述目标关键特征,预测所述目标图像块的划分指示信息;其中,所述CU划分指示预测模型基于本公开任意实施例介绍的模型训练方法训练得到;
图像块划分模块903,用于在所述划分指示信息为停止划分的情况下,结束对所述目标图像块的划分,并确定所述目标图像块的划分结果;
视频编码模块904,用于根据所述目标图像块的划分结果,确定CU的最佳划分尺寸,并根据所述最佳尺寸的CU,对所述目标视频帧进行视频编码。
本公开实施例的方案,通过第一模型,根据目标CU对目标视频帧划分后的目标图像块,确定目标关键特征,并通过CU划分指示预测模型预测目标关键特征对应的目标图像块的划分指示信息。在该划分指示信息为停止划分的情况下,结束对目标图像块的划分,并确定该目标图像块对应的划分结果,在得到所有目标图像块的划分结果后,确定CU的最佳划分尺寸,进而根据该最佳划分尺寸,基于HEVC技术对目标视频帧进行视频编码处理。本方案使用的目标关键特征,是基于训练后的第一模型的内部参数确定的,所以该目标关键特征预测的划分指示信息更为精准,进而能够将更为精准的判断出是否需要提前结束对当前尺寸CU的划分,在提高CU划分效率的同时保证了CU划分结果的准确性,进而提高视频编码过程的效率和准确性。
进一步的,所述目标特征确定模块901具体用于:
通过第一模型,根据目标CU对目标视频帧划分后的目标图像块,确定所述目标图像块对应的第一子关键特征;
根据预设筛选规则,根据所述目标图像块,确定所述目标图像块对应的第二子关键特征;
根据所述第一子关键特征和所述第二子关键特征,确定所述目标图像块对应的目标关键特征。
进一步的,所述指示信息预测模块902,包括:
目标特征预处理单元,用于对所述目标关键特征进行特征预处理,得到目标输入特征;其中,所述特征预处理包括:衍生变量处理、归一化处理和离散化处理中的至少一种;
特征输入单元,用于将所述目标输入特征作为所述CU划分指示预测模型的输入,得到所述目标图像块的划分指示信息。
进一步,所述第一模型和所述CU划分指示预测模型为XGBOOST模型。
上述产品可执行本公开任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
本公开的技术方案中,所涉及的任一视频帧,比如样本视频帧、目标视频帧等的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图10所示,设备1000包括计算单元1001,其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序,来执行各种适当的动作和处理。在RAM 1003中,还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
设备1000中的多个部件连接至I/O接口1005,包括:输入单元1006,例如键盘、鼠标等;输出单元1007,例如各种类型的显示器、扬声器等;存储单元1008,例如磁盘、光盘等;以及通信单元1009,例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理,例如模型训练或视频编码方法。例如,在一些实施例中,模型训练或视频编码方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1008。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时,可以执行上文描述的模型训练或视频编码方法的一个或多个步骤。备选地,在其他实施例中,计算单元1001可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行模型训练或视频编码方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。
云计算(cloud computing),指的是通过网络接入弹性可扩展的共享物理或虚拟资源池,资源可以包括服务器、操作系统、网络、软件、应用和存储设备等,并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术,可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (22)

1.一种模型训练方法,包括:
根据样本编码单元CU对样本视频帧划分后的样本图像块,确定所述样本图像块对应的样本可选特征和样本划分指示信息;
根据所述样本图像块对应的样本可选特征和所述样本划分指示信息,训练第一模型;所述第一模型用于学习不同维度的所述样本可选特征与所述样本划分指示信息之间的相关性;
根据训练后的第一模型,从所述样本可选特征中筛选第一样本关键特征;
基于所述第一样本关键特征和样本划分指示信息,训练第二模型,得到CU划分指示预测模型。
2.根据权利要求1所述的方法,其中,根据训练后的第一模型,从所述样本可选特征中筛选第一样本关键特征,包括:
根据训练后的第一模型的模型参数,确定所述样本可选特征的权重值;
根据所述样本可选特征的权重值,对所述样本可选特征进行重要性排序;
根据所述样本可选特征的重要性排序结果,从所述样本可选特征中筛选第一样本关键特征。
3.根据权利要求1或2所述的方法,其中,基于所述第一样本关键特征和样本划分指示信息,训练第二模型,得到CU划分指示预测模型,包括:
根据预设筛选规则,从所述样本可选特征中筛选第二样本关键特征;
根据所述第一样本关键特征和所述第二样本关键特征,确定样本输入特征;
根据所述样本输入特征和所述样本划分指示信息,训练第二模型,得到CU划分指示预测模型。
4.根据权利要求1-3中任一项所述的方法,其中,根据样本CU对样本视频帧划分后的样本图像块,确定所述样本图像块对应的样本可选特征,包括:
根据样本CU对样本视频帧划分后的样本图像块,确定所述样本图像块对应的样本原始特征;
对所述样本原始特征进行特征预处理,得到样本可选特征;其中,所述特征预处理包括:衍生变量处理、归一化处理和离散化处理中的至少一种。
5.根据权利要求1-4中任一项所述的方法,还包括:
根据时域复杂度和/或空域复杂度,从候选视频帧序列中确定样本视频帧序列;
从所述样本视频帧序列中确定所述样本视频帧。
6.根据权利要求1-5中任一项所述的方法,其中,所述第一模型和所述第二模型为梯度增强决策树XGBOOST模型。
7.一种视频编码方法,包括:
通过第一模型,根据目标CU对目标视频帧划分后的目标图像块,确定所述目标图像块对应的目标关键特征;其中,所述第一模型根据样本图像块对应的样本可选特征和样本划分指示信息,训练得到;所述样本可选特征和所述样本划分指示信息根据样本CU对样本视频帧划分后的样本图像块确定;所述第一模型用于学习不同维度的所述样本可选特征与所述样本划分指示信息之间的相关性;
通过CU划分指示预测模型,根据所述目标关键特征,预测所述目标图像块的划分指示信息;其中,所述CU划分指示预测模型基于权利要求1-6中任一项所述的模型训练方法训练得到;
在所述划分指示信息为停止划分的情况下,结束对所述目标图像块的划分,并确定所述目标图像块的划分结果;
根据所述目标图像块的划分结果,确定CU的最佳划分尺寸,并根据所述最佳尺寸的CU,对所述目标视频帧进行视频编码。
8.根据权利要求7所述的方法,其中,通过第一模型,根据目标CU对目标视频帧划分后的目标图像块,确定所述目标图像块对应的目标关键特征,包括:
通过第一模型,根据目标CU对目标视频帧划分后的目标图像块,确定所述目标图像块对应的第一子关键特征;
根据预设筛选规则,根据所述目标图像块,确定所述目标图像块对应的第二子关键特征;
根据所述第一子关键特征和所述第二子关键特征,确定所述目标图像块对应的目标关键特征。
9.根据权利要求7或8所述的方法,其中,所述通过CU划分指示预测模型,根据所述目标关键特征,预测所述目标图像块的划分指示信息,包括:
对所述目标关键特征进行特征预处理,得到目标输入特征;其中,所述特征预处理包括:衍生变量处理、归一化处理和离散化处理中的至少一种;
将所述目标输入特征作为所述CU划分指示预测模型的输入,得到所述目标图像块的划分指示信息。
10.根据权利要求7-9中任一项所述的方法,其中,所述第一模型和所述CU划分指示预测模型为XGBOOST模型。
11.一种模型训练装置,包括:
样本特征信息确定模块,用于根据样本编码单元CU对样本视频帧划分后的样本图像块,确定所述样本图像块对应的样本可选特征和样本划分指示信息;
模型训练模块,用于根据所述样本图像块对应的样本可选特征和所述样本划分指示信息,训练第一模型;所述第一模型用于学习不同维度的所述样本可选特征与所述样本划分指示信息之间的相关性;
特征筛选模块,用于根据训练后的第一模型,从所述样本可选特征中筛选第一样本关键特征;
所述模型训练模块,还用于基于所述第一样本关键特征和样本划分指示信息,训练第二模型,得到CU划分指示预测模型。
12.根据权利要求11所述的装置,其中,所述特征筛选模块,包括:
特征权重确定单元,用于根据训练后的第一模型的模型参数,确定所述样本可选特征的权重值;
特征排序单元,用于根据所述样本可选特征的权重值,对所述样本可选特征进行重要性排序;
特征筛选单元,用于根据所述样本可选特征的重要性排序结果,从所述样本可选特征中筛选第一样本关键特征。
13.根据权利要求11或12所述的装置,其中,所述模型训练模块,包括:
特征筛选单元,用于根据预设筛选规则,从所述样本可选特征中筛选第二样本关键特征;
特征融合单元,用于根据所述第一样本关键特征和所述第二样本关键特征,确定样本输入特征;
模型训练单元,用于根据所述样本输入特征和所述样本划分指示信息,训练第二模型,得到CU划分指示预测模型。
14.根据权利要求11-13中任一项所述的装置,其中,样本特征信息确定模块,包括:
特征确定单元,用于根据样本CU对样本视频帧划分后的样本图像块,确定所述样本图像块对应的样本原始特征;
原始特征预处理单元,用于对所述样本原始特征进行特征预处理,得到样本可选特征;其中,所述特征预处理包括:衍生变量处理、归一化处理和离散化处理中的至少一种。
15.根据权利要求11-14中任一项所述的装置,还包括:
视频序列确定模块,用于根据时域复杂度和/或空域复杂度,从候选视频帧序列中确定样本视频帧序列;
视频帧确定模块,用于从所述样本视频帧序列中确定所述样本视频帧。
16.根据权利要求11-15中任一项所述的装置,其中,所述第一模型和所述第二模型为梯度增强决策树XGBOOST模型。
17.一种视频编码装置,包括:
目标特征确定模块,用于通过第一模型,根据目标CU对目标视频帧划分后的目标图像块,确定所述目标图像块对应的目标关键特征;其中,所述第一模型根据样本图像块对应的样本可选特征和样本划分指示信息,训练得到;所述样本可选特征和所述样本划分指示信息根据样本CU对样本视频帧划分后的样本图像块确定;所述第一模型用于学习不同维度的所述样本可选特征与所述样本划分指示信息之间的相关性;
指示信息预测模块,用于通过CU划分指示预测模型,根据所述目标关键特征,预测所述目标图像块的划分指示信息;其中,所述CU划分指示预测模型基于权利要求1-6中任一项所述的模型训练方法训练得到;
图像块划分模块,用于在所述划分指示信息为停止划分的情况下,结束对所述目标图像块的划分,并确定所述目标图像块的划分结果;
视频编码模块,用于根据所述目标图像块的划分结果,确定CU的最佳划分尺寸,并根据所述最佳尺寸的CU,对所述目标视频帧进行视频编码。
18.根据权利要求17所述的装置,其中,所述目标特征确定模块具体用于:
通过第一模型,根据目标CU对目标视频帧划分后的目标图像块,确定所述目标图像块对应的第一子关键特征;
根据预设筛选规则,根据所述目标图像块,确定所述目标图像块对应的第二子关键特征;
根据所述第一子关键特征和所述第二子关键特征,确定所述目标图像块对应的目标关键特征。
19.根据权利要求17或18所述的装置,其中,所述指示信息预测模块,包括:
目标特征预处理单元,用于对所述目标关键特征进行特征预处理,得到目标输入特征;其中,所述特征预处理包括:衍生变量处理、归一化处理和离散化处理中的至少一种;
特征输入单元,用于将所述目标输入特征作为所述CU划分指示预测模型的输入,得到所述目标图像块的划分指示信息。
20.根据权利要求17-19中任一项所述的装置,其中,所述第一模型和所述CU划分指示预测模型为XGBOOST模型。
21. 一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的模型训练方法,或权利要求7-10中任一项所述的视频编码方法。
22.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的模型训练方法,或权利要求7-10中任一项所述的视频编码方法。
CN202210602534.6A 2022-05-30 2022-05-30 一种模型训练和视频编码方法、装置、设备及存储介质 Active CN115052154B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210602534.6A CN115052154B (zh) 2022-05-30 2022-05-30 一种模型训练和视频编码方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210602534.6A CN115052154B (zh) 2022-05-30 2022-05-30 一种模型训练和视频编码方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN115052154A CN115052154A (zh) 2022-09-13
CN115052154B true CN115052154B (zh) 2023-04-14

Family

ID=83159120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210602534.6A Active CN115052154B (zh) 2022-05-30 2022-05-30 一种模型训练和视频编码方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115052154B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115526438B (zh) * 2022-11-28 2023-04-07 中国西安卫星测控中心 基于集成学习模型的虚拟资源池扩展生成方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112967341A (zh) * 2021-02-23 2021-06-15 湖北枫丹白露智慧标识科技有限公司 基于实景图像的室内视觉定位方法、系统、设备及存储介质
WO2021164534A1 (zh) * 2020-02-18 2021-08-26 Oppo广东移动通信有限公司 图像处理方法、装置、设备及存储介质
CN113781588A (zh) * 2021-07-01 2021-12-10 杭州未名信科科技有限公司 一种基于神经网络的帧内编码单元尺寸划分方法
CN114143540A (zh) * 2021-12-09 2022-03-04 浙江大华技术股份有限公司 视频编码方法及装置、视频解码方法及装置、电子设备
WO2022088631A1 (zh) * 2020-10-28 2022-05-05 Oppo广东移动通信有限公司 图像编码方法、图像解码方法及相关装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110176027B (zh) * 2019-05-27 2023-03-14 腾讯科技(深圳)有限公司 视频目标跟踪方法、装置、设备及存储介质
CN111385585B (zh) * 2020-03-18 2022-05-24 北京工业大学 一种基于机器学习的3d-hevc深度图编码单元划分方法
CN111510728B (zh) * 2020-04-12 2022-05-06 北京工业大学 一种基于深度特征表达与学习的hevc帧内快速编码方法
CN111798456A (zh) * 2020-05-26 2020-10-20 苏宁云计算有限公司 一种实例分割模型的训练方法、装置、实例分割方法
CN112738511B (zh) * 2021-04-01 2021-06-25 杭州微帧信息科技有限公司 一种结合视频分析的快速模式决策方法及装置
CN114222133A (zh) * 2021-12-10 2022-03-22 上海大学 一种基于分类的内容自适应vvc帧内编码快速划分方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021164534A1 (zh) * 2020-02-18 2021-08-26 Oppo广东移动通信有限公司 图像处理方法、装置、设备及存储介质
WO2022088631A1 (zh) * 2020-10-28 2022-05-05 Oppo广东移动通信有限公司 图像编码方法、图像解码方法及相关装置
CN112967341A (zh) * 2021-02-23 2021-06-15 湖北枫丹白露智慧标识科技有限公司 基于实景图像的室内视觉定位方法、系统、设备及存储介质
CN113781588A (zh) * 2021-07-01 2021-12-10 杭州未名信科科技有限公司 一种基于神经网络的帧内编码单元尺寸划分方法
CN114143540A (zh) * 2021-12-09 2022-03-04 浙江大华技术股份有限公司 视频编码方法及装置、视频解码方法及装置、电子设备

Also Published As

Publication number Publication date
CN115052154A (zh) 2022-09-13

Similar Documents

Publication Publication Date Title
CN113657465B (zh) 预训练模型的生成方法、装置、电子设备和存储介质
CN110347873B (zh) 视频分类方法、装置、电子设备及存储介质
CN112052787A (zh) 基于人工智能的目标检测方法、装置及电子设备
CN111047563B (zh) 一种应用于医学超声图像的神经网络构建方法
JP7436670B2 (ja) 路車協調における目標検出方法、装置及び路側機器
JP2022028870A (ja) 車線検出方法、装置、電子機器、記憶媒体及び車両
CN114449343A (zh) 一种视频处理方法、装置、设备及存储介质
CN109190646A (zh) 一种基于神经网络的数据预测方法、装置及神经网络系统
CN114781650B (zh) 一种数据处理方法、装置、设备以及存储介质
CN115052154B (zh) 一种模型训练和视频编码方法、装置、设备及存储介质
CN113869521A (zh) 构建预测模型的方法、装置、计算设备和存储介质
CN114494776A (zh) 一种模型训练方法、装置、设备以及存储介质
CN114715145B (zh) 一种轨迹预测方法、装置、设备及自动驾驶车辆
CN112508126A (zh) 深度学习模型训练方法、装置、电子设备及可读存储介质
CN112399177B (zh) 一种视频编码方法、装置、计算机设备及存储介质
CN114360027A (zh) 一种特征提取网络的训练方法、装置及电子设备
CN115579069A (zh) scRNA-Seq细胞类型注释数据库的构建方法、装置及电子设备
CN115984640A (zh) 一种基于组合蒸馏技术的目标检测方法、系统和存储介质
CN114548307A (zh) 分类模型训练方法和装置、分类方法和装置
CN112866693B (zh) 编码单元cu的划分方法、装置、电子设备和存储介质
CN114693950B (zh) 一种图像特征提取网络的训练方法、装置及电子设备
CN115190295B (zh) 视频帧处理方法、装置、设备及存储介质
CN114463584B (zh) 图像处理、模型训练方法、装置、设备、存储介质及程序
CN115423094A (zh) 模型训练方法、装置及电子设备
CN114707010A (zh) 模型训练和媒介信息处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant