CN113837107A - 模型训练方法、视频处理方法、电子设备及可读存储介质 - Google Patents

模型训练方法、视频处理方法、电子设备及可读存储介质 Download PDF

Info

Publication number
CN113837107A
CN113837107A CN202111131420.XA CN202111131420A CN113837107A CN 113837107 A CN113837107 A CN 113837107A CN 202111131420 A CN202111131420 A CN 202111131420A CN 113837107 A CN113837107 A CN 113837107A
Authority
CN
China
Prior art keywords
video
low
data set
quality
attribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111131420.XA
Other languages
English (en)
Inventor
黄飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Music Entertainment Technology Shenzhen Co Ltd
Original Assignee
Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Music Entertainment Technology Shenzhen Co Ltd filed Critical Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority to CN202111131420.XA priority Critical patent/CN113837107A/zh
Publication of CN113837107A publication Critical patent/CN113837107A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了模型训练方法、视频处理方法、电子设备及可读存储介质,该模型训练方法包括:获取目标业务场景中有标签的视频数据集;对视频数据集中的视频抽离样本关键帧,得到全局信息视频帧数据集;定位样本关键帧中的局部信息并进行裁剪,得到局部信息视频帧数据集;将全局信息视频帧数据集和局部信息视频帧数据集确定为低质量视频数据集;获取初始低质量视频归因识别模型;将低质量视频数据集的样本输入初始低质量视频归因识别模型,得到样本对应的归因识别结果;基于样本的归因识别结果与对应标签,调节初始低质量视频归因识别模型以得到训练完成的低质量视频归因识别模型。本申请,能够得到归因识别准确率更高的低质量视频归因识别模型。

Description

模型训练方法、视频处理方法、电子设备及可读存储介质
技术领域
本申请涉及视频技术领域,特别是涉及一种模型训练方法、视频处理方法、电子设备及可读存储介质。
背景技术
受录制设备、光线、网络传输等因素影响,会导致视频清晰度参差不齐。一般地,低质量视频呈现出各种类型不同程度的过曝光、噪点、蒙层、杂光等现象,导致视频播放效果欠佳,影响观看体验。
一些视频低质量归因识别的方案,能有效检测出不同类型的低质量因素,为提高视频质量提供针对性改善建议。具体的,这些方案使用深度学习方法,构建视频数据集并进行低质量分类标注,基于resnet-18网络提取特征并直接作分类处理。但是,这种方案的整个方法较常规,由于特征提取能力受到一定限制,导致归因识别准确率不高。
综上所述,如何有效地解决低质量视频归因识别等问题,是目前本领域技术人员急需解决的技术问题。
发明内容
本申请的目的是提供一种模型训练方法、视频处理方法、电子设备及可读存储介质,通过结合视频中的全局信息特征和局部信息特征,来对视频进行低质量视频归因识别,能够有效提升归因识别准确率问题。
为解决上述技术问题,本申请提供如下技术方案:
一种模型训练方法,包括:
获取目标业务场景中有标签的视频数据集;
对所述视频数据集中的视频抽离样本关键帧,得到全局信息视频帧数据集;
定位所述样本关键帧中的局部信息并进行裁剪,得到局部信息视频帧数据集;
将所述全局信息视频帧数据集和局部信息视频帧数据集确定为所述低质量视频数据集;
获取初始低质量视频归因识别模型;
将所述低质量视频数据集的样本输入所述初始低质量视频归因识别模型,得到样本对应的归因识别结果;
基于所述样本的归因识别结果与对应所述标签,调节所述初始低质量视频归因识别模型以得到训练完成的低质量视频归因识别模型。
优选地,基于所述样本的归因识别结果与对应所述标签,调节所述初始低质量视频归因识别模型以得到训练完成的低质量视频归因识别模型,包括:
比对所述样本对应的归因识别结果与对应所述标签,得到比对结果;其中,所述比对结果为对应的低质量视频归因识别准确率;
利用所述低质量视频归因识别准确率计算出模型损失值;
在所述模型损失值达到预设标准时,停止迭代调节所述初始低质量视频归因识别模型,得到所述低质量视频归因识别模型。
优选地,所述获取目标业务场景中有标签的视频数据集,包括:
针对直播业务场景构建多样化的指标视频数据集,并添加低质量直播视频样本,得到低质量直播视频数据集;
为所述低质量直播视频数据集中的视频样本标注分类标签,并过滤不符合预设条件的视频样本,得到所述有标签的视频数据集。
优选地,对所述视频数据集中的视频抽离样本关键帧,得到全局信息视频帧数据集,包括:
从所述视频数据集中的视频中抽离出关键帧;
对所述关键帧进行边缘补形处理后,按照预设尺寸对所述关键帧进行双线性插值缩放,得到所述全局信息视频帧。
优选地,定位所述样本关键帧中的局部信息并进行裁剪,得到局部信息视频帧数据集,包括:
检测出所述全局信息视频帧中的异常点,并将所述异常点确定为所述局部信息中心点;
利用所述异常点对所述全局信息视频帧进行裁剪,得到所述局部信息视频帧。
优选地,将所述低质量视频数据集的样本输入所述初始低质量视频归因识别模型,得到样本对应的归因识别结果,包括:
将所述全局信息视频帧和所述局部信息视频帧作为所述初始低质量视频归因识别模型的双路网络的输入;
分别提取所述全局信息视频帧的全局特征,所述局部信息视频帧的局部特征;
沿着通道维度对所述全局特征和所述局部特征进行特征映射,得到维数相同的全局特征图和局部特征图;
融合所述全局特征图和所述局部特征图,得到混合双线性特征图;
利用所述混合双线性特征图,获得所述低质量视频数据集中样本对应的归因识别结果。
优选地,融合所述全局特征图和所述局部特征图,得到混合双线性特征图,包括:
对所述全局特征图和所述局部特征图进行池化,得到全局特征池化向量和局部特征池化向量;
对所述全局特征向量和所述局部特征池化向量进行点到点的内积处理,得到所述混合双线性特征图。
优选地,利用所述混合双线性特征图,获得所述低质量视频数据集中样本对应的归因识别结果,包括:
对所述混合双线性特征图进行池化,得到混合特征向量;
将所述混合特征向量与全连接层相接,并通过归一化指数函数输出各视频低质量类别的类别概率分布;
利用所述类别概率分布,确定所述归因识别结果。
一种视频处理方法,包括:
获取目标视频,并对所述目标视频进行关键帧抽离,得到目标全局信息视频帧;
定位所述目标全局信息视频帧的局部信息并进行裁剪,得到目标局部信息视频帧;
将所述目标全局信息视频帧和所述目标局部信息视频帧输入至上述模型训练方法对应训练好的低质量视频归因识别模型进行低质量视频归因识别,得到目标归因识别结果;
基于所述目标归因识别结果,输出视频质量提升建议。
一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述视频处理方法的步骤。
一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述视频处理方法的步骤。
应用本申请实施例所提供的方法,获取目标业务场景中有标签的视频数据集;对视频数据集中的视频抽离样本关键帧,得到全局信息视频帧数据集;定位样本关键帧中的局部信息并进行裁剪,得到局部信息视频帧数据集;将全局信息视频帧数据集和局部信息视频帧数据集确定为低质量视频数据集;获取初始低质量视频归因识别模型;将低质量视频数据集的样本输入初始低质量视频归因识别模型,得到样本对应的归因识别结果;基于样本的归因识别结果与对应标签,调节初始低质量视频归因识别模型以得到训练完成的低质量视频归因识别模型。
在本申请中,首先获取目标业务场景中的有标签的视频数据集,然后对视频数据集中的视频抽离出样本关键帧,从而得到全局信息视频帧数据集。然后,定位全局信息视频帧的局部信息并进行裁剪,得到局部信息视频帧数据集。将全局信息视频帧数据集和局部信息视频帧数据集确定为低质量视频数据集,并将低质量视频数据集的样本输入初始低质量视频归因识别模型,得到样本对应的归因识别结果。基于样本的归因识别结果与对应标签,调节初始低质量视频归因识别模型以得到训练完成的低质量视频归因识别模型。由于训练低质量视频归因识别模型不仅关注了全局特征也关注了局部特征,能够有效提升最终训练得到的低质量视频归因识别模型的归因识别结果准确率。进一步,便可使得视频质量提升建议更加精准,更加利于提升视频质量。
相应地,本申请实施例还提供了与上述视频处理方法相对应的电子设备和可读存储介质,具有上述技术效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中一种模型训练方法的实施流程图;
图2为本申请实施例中一种视频处理方法的实施流程图;
图3为本申请实施例中一种低质量视频归因识别的实施示意图;
图4为本申请实施例中一种低质量视频归因识别方法的流程示意图;
图5为本申请实施例中一种模型训练装置的示意图;
图6为本申请实施例中一种视频处理装置的示意图;
图7为本申请实施例中一种电子设备的结构示意图;
图8为本申请实施例中一种电子设备的具体结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参考图1,图1为本申请实施例中一种模型训练方法的流程图,该方法包括以下步骤:
S100、获取目标业务场景中有标签的视频数据集。
其中,目标业务场景即可对应需训练出的低质量视频归因识别模型的具体应用场景,如直播场景、转播场景等。
在本实施例中,该视频数据集为有标签的数据集,即该视频数据集中的视频样本具有正确的低质量视频归因,如导致目标视频低质量的具体原因类型,如过曝光、噪点、蒙层、杂光、正常、未知等。
在本申请中的一种具体实施方式中,当目标业务场景为直播业务场景,步骤S100获取目标业务场景中有标签的视频数据集,包括:
步骤一、针对直播业务场景构建多样化的指标视频数据集,并添加低质量直播视频样本,得到低质量直播视频数据集;
步骤二、为低质量直播视频数据集中的视频样本标注分类标签,并过滤不符合预设条件的视频样本,得到有标签的视频数据集。
即,首先可针对直播业务场景构建多样化的直播视频数据集,人工筛选并批量加入低质量直播视频样本,作数据分布均衡处理使低质量视频达到合适的占比(如0.5,当然也可以为其他适宜的比值,可以通过实践数据统计得出,在此不再一一列举)。
然后,可对低质量直播视频数据集二次筛选,过滤不符合要求(如因网络传输导致的低质量这种视频录制者难以无法改善的原因)的视频样本,同时进行客观分类标注,标签类型包括过曝光、噪点、蒙层、杂光、正常、未知等,形成带标签的视频数据集。
S200、对视频数据集中的视频抽离样本关键帧,得到全局信息视频帧数据集。
一般地,视频压缩中,每帧代表一幅静止的图像。而在实际压缩时,会采取各种算法减少数据的容量。下面以IPB(视频帧间压缩编码格式)这种压缩算法为例,对如何剥离关键帧进行详细说明。
对于IPB压缩算法而言,其中I帧是关键帧,属于帧内压缩,和AVI(Audio VideoInterleaved,音频视频交错格式)的压缩是一样的。P是向前搜索的意思。B是双向搜索。P和B都是基于I帧来压缩数据。具体的,I帧表示关键帧,即这一帧画面的完整保留,解码时只需要本帧数据就可以完成;P帧表示的是这一帧跟之前的一个关键帧(或P帧)的差别,解码时需要用之前缓存的画面叠加上本帧定义的差别,生成最终画面,即P帧没有完整画面数据,只有与前一帧的画面差别的数据;B帧是双向差别帧,也就是B帧记录的是本帧与前后帧的差别。
也就是说,在剥离关键帧时,仅需剥离出其中的I帧即可,具体如何确定I帧,则可根据IPB压缩算法的具体定义而确定,在此不再一一赘述。
优选地,步骤S200对视频数据集中的视频抽离样本关键帧,得到全局信息视频帧数据集,包括:
步骤一、从视频数据集中的视频中抽离出关键帧;
步骤二、对关键帧进行边缘补形处理后,按照预设尺寸对关键帧进行双线性插值缩放,得到全局信息视频帧。
为了避免进行尺寸变换后导致图像中内容变形,在抽离出关键帧之后,可以对关键帧进行边缘补形处理。具体的,可以采用已有的边缘补形方案来对关键帧进行处理。
完成了边缘补形处理之后,便可以按照预设的尺寸大小,对关键帧进行缩放处理,具体的可以采用双线性插值缩放的方式对关键帧进行缩放处理,从而得到全局信息视频帧。当然,在实际应用中,还进行尺寸缩放处理时,还可以采用其他缩放方式,对视频帧的尺寸大小继续归一化,在此不再一一说明。
S300、定位样本关键帧中的局部信息并进行裁剪,得到局部信息视频帧数据集。
其中,局部信息即相对于全局信息而言的部分信息。
可在全局信息视频帧中找出局部信息,然后对局部信息进行裁剪,从而得到局部信息视频帧。例如,全局信息视频帧对应N*M的一个图像,局部信息视频帧则可以为这个图像中的一个局部区域,大小为n*m(n小于等于N,m小于等于M,且n与m不同时分别与N和M相等)。
优选地,步骤3400定位样本关键帧中的局部信息并进行裁剪,得到局部信息视频帧数据集,包括:
步骤一、检测出全局信息视频帧中的异常点,并将异常点确定为局部信息中心点;
步骤二、利用异常点对全局信息视频帧进行裁剪,得到局部信息视频帧。
也就是说,可以采用图像异常检测算法检测出全局信息视频帧中的异常点,如亮度与相邻像素差异大于预设阈值的点,色饱和度与相邻像素差异大于预设阈值的点。
确定出异常点之后,可以直接将该异常点确定为具备信息的中心点。即可以采用特定尺度大小,且中心为该异常点的矩形框等方式,基于该异常度进行图像裁剪,从而得到具备信息视频帧。
S400、将全局信息视频帧数据集和局部信息视频帧数据集确定为低质量视频数据集。
S500、获取初始低质量视频归因识别模型。
该初始低质量视频归因识别模型可以具体为一个新构建的模型,也可以为采用了迁移信息的思想,并基于两步微调的方式对模型进行训练,其第一步微调后得到的初始低质量视频归因识别模型。例如,该初始低质量视频归因识别模型可以为经过首先使用在ImageNet(用于视觉对象识别软件研究的大型可视化数据库)公开数据集上的预训练模型微调网络分类器。
S600、将低质量视频数据集的样本输入初始低质量视频归因识别模型,得到样本对应的归因识别结果。
S700、基于样本的归因识别结果与对应标签,调节初始低质量视频归因识别模型以得到训练完成的低质量视频归因识别模型。
其中,步骤S700基于样本的归因识别结果与对应标签,调节初始低质量视频归因识别模型以得到训练完成的低质量视频归因识别模型,包括:
步骤一、比对样本对应的归因识别结果与对应标签,得到比对结果;其中,比对结果为对应的低质量视频归因识别准确率;
步骤二、利用低质量视频归因识别准确率计算出模型损失值;
步骤三、在模型损失值达到预设标准时,停止迭代调节初始低质量视频归因识别模型,得到低质量视频归因识别模型。
具体的,可基于归因识别结果与对应标签的相似度,确定出低质量视频归因识别准确率,然后利用低质量视频归因识别准确率计算出模型损失值,基于该模型损失值对初始低质量视频归因识别模型进行迭代调节,最终得到满足预设标准的低质量视频归因识别模型。其中,预设标准可以为模型损失值趋于稳定或达到某个预设数值,或者迭代训练次数达到预设次数。
在本申请中的一种具体实施方式中,步骤S700将低质量视频数据集的样本输入初始低质量视频归因识别模型,得到样本对应的归因识别结果,具体包括:
步骤一、将全局信息视频帧和局部信息视频帧作为初始低质量视频归因识别模型的双路网络的输入;
步骤二、分别提取全局信息视频帧的全局特征,局部信息视频帧的局部特征;
具体的,可利用低质量视频归因识别模型中的特征提取层,分别提取全局信息视频帧的全局特征,局部信息视频帧的局部特征。
步骤三、沿着通道维度对全局特征和局部特征进行特征映射,得到维数相同的全局特征图和局部特征图;
具体的,可利用特征提取层最后一个卷积模块,沿着通道维度对全局特征和局部特征进行特征映射,得到维数相同的全局特征图和局部特征图。
步骤四、融合全局特征图和局部特征图,得到混合双线性特征图;
具体的,执行过程,包括:
步骤1、对全局特征图和局部特征图进行池化,得到全局特征池化向量和局部特征池化向量;
步骤2对全局特征向量和局部特征池化向量进行点到点的内积处理,得到混合双线性特征图。
步骤五、利用混合双线性特征图,获得低质量视频数据集中样本对应的归因识别结果。
具体的,执行过程,包括:
步骤1、对混合双线性特征图进行池化,得到混合特征向量;
步骤2、将混合特征向量与全连接层相接,并通过归一化指数函数输出各视频低质量类别的类别概率分布;
步骤3、利用类别概率分布,确定归因识别结果。
应用本申请实施例所提供的方法,获取目标业务场景中有标签的视频数据集;对视频数据集中的视频抽离样本关键帧,得到全局信息视频帧数据集;定位样本关键帧中的局部信息并进行裁剪,得到局部信息视频帧数据集;将全局信息视频帧数据集和局部信息视频帧数据集确定为低质量视频数据集;获取初始低质量视频归因识别模型;将低质量视频数据集的样本输入初始低质量视频归因识别模型,得到样本对应的归因识别结果;基于样本的归因识别结果与对应标签,调节初始低质量视频归因识别模型以得到训练完成的低质量视频归因识别模型。
在本申请中,首先获取目标业务场景中的有标签的视频数据集,然后对视频数据集中的视频抽离出样本关键帧,从而得到全局信息视频帧数据集。然后,定位全局信息视频帧的局部信息并进行裁剪,得到局部信息视频帧数据集。将全局信息视频帧数据集和局部信息视频帧数据集确定为低质量视频数据集,并将低质量视频数据集的样本输入初始低质量视频归因识别模型,得到样本对应的归因识别结果。基于样本的归因识别结果与对应标签,调节初始低质量视频归因识别模型以得到训练完成的低质量视频归因识别模型。由于训练低质量视频归因识别模型不仅关注了全局特征也关注了局部特征,能够有效提升最终训练得到的低质量视频归因识别模型的归因识别结果准确率。进一步,便可使得视频质量提升建议更加精准,更加利于提升视频质量。
在本申请中,还提供了一种视频处理方法,该视频处理方法与模型训练方法相似或相同步骤,可以相互参照。请参考图2,图2为本申请实施例中一种视频处理方法的流程图,该方法包括以下步骤:
S101、获取目标视频,并对目标视频进行关键帧抽离,得到目标全局信息视频帧。
其中,目标视频可以为任意一个需要进行低视频质量归因识别的视频,该视频可以为直播视频,也可以为录制视频。
在本实施例中可以通过直接录制的方式得到目标视频,也可以通过读取磁盘的方式,获取目标视频,还可以通过网络传输,得到该目标视频。
得到目标视频之后,便可以抽离出目标视频中的关键帧,从而得到目标全局信息视频帧。即可以直接将关键帧直接确定为目标全局信息视频帧,也可以通过对关键帧进行预处理,从而得到目标全局信息视频帧。
优选地,为了便于模型处理,还可以将目标全局信息视频帧的大小控制在预设尺寸。也就是说,在实际应用中,步骤S101中的对目标视频进行关键帧抽离,得到目标全局信息视频帧,可具体包括:
步骤一、从目标视频中抽离出关键帧;
步骤二、对关键帧进行边缘补形处理后,按照预设尺寸对关键帧进行双线性插值缩放,得到目标全局信息视频帧。
为便于描述,下面将上述两个步骤结合起来进行说明。
为了避免进行尺寸变换后导致图像中内容变形,在抽离出关键帧之后,可以对关键帧进行边缘补形处理。具体的,可以采用已有的边缘补形方案来对关键帧进行处理。
完成了边缘补形处理之后,便可以按照预设的尺寸大小,对关键帧进行缩放处理,具体的可以采用双线性插值缩放的方式对关键帧进行缩放处理,从而得到目标全局信息视频帧。当然,在实际应用中,还进行尺寸缩放处理时,还可以采用其他缩放方式,对视频帧的尺寸大小继续归一化,在此不再一一说明。
S102、定位目标全局信息视频帧的局部信息并进行裁剪,得到目标局部信息视频帧。
其中,局部信息即相对于全局信息而言的部分信息。
即可以在目标全局信息视频帧中找出局部信息,然后对局部信息进行裁剪,从而得到目标局部信息视频帧。例如,目标全局信息视频帧对应N*M的一个图像,目标局部信息视频帧则可以为这个图像中的一个局部区域,大小为n*m(n小于等于N,m小于等于M,且n与m不同时分别与N和M相等)。
优选地,为了使得目标局部信息视频帧更加具有代表性,在定位局部信息时,可以基于异常点进行定位。具体的,步骤S102定位目标全局信息视频帧的局部信息并进行裁剪,得到目标局部信息视频帧,包括:
步骤一、检测出目标全局信息视频帧中的异常点,并将异常点确定为局部信息中心点;
步骤二、利用异常点对目标全局信息视频帧进行裁剪,得到目标局部信息视频帧。
为便于描述,下面将上述两个步骤结合起来进行说明。
可以采用图像异常检测算法检测出目标全局信息视频帧中的异常点,如亮度与相邻像素差异大于预设阈值的点,色饱和度与相邻像素差异大于预设阈值的点。
确定出异常点之后,可以直接将该异常点确定为具备信息的中心点。即可以采用特定尺度大小,且中心为该异常点的矩形框等方式,基于该异常度进行图像裁剪,从而得到具备信息视频帧。
S103、将目标全局信息视频帧和目标局部信息视频帧输入至如上述模型训练方法对应训练好的低质量视频归因识别模型进行低质量视频归因识别,得到目标归因识别结果。
在本申请实施例中,可以预先训练出一个低质量视频归因识别模型,该模型可以基于目标全局信息视频帧和目标局部信息视频帧对低质量视频进行归因识别。
也就是说,在本实施例中,低质量视频归因识别模型的输入有两个,其一为目标全局信息视频帧,其二为目标局部信息视频帧。
该低质量视频归因识别模型可以针对这两个输入进行特征提取,并结合两种特征来进行低质量归因识别,进而便可得到目标归因识别结果。
具体的,该目标归因识别结果可以具体显示导致目标视频低质量的具体原因类型,如过曝光、噪点、蒙层、杂光、正常、未知等。该目标归因识别结果可以仅对应一种具体原因,也可以为各自原因的概率排序。
S104、基于目标归因识别结果,输出视频质量提升建议。
在模型输出目标归因识别结果之后,便可以基于该目标归因识别结果,最终输出视频质量提升建议。具体的,可以预先将导致视频质量低的具体原因与视频质量提取建议进行一一绑定,如此,在得到目标归因识别结果后,基于该绑定关系,便可快速确定出对应的视频质量提升建议,并进行输出,以便用户可以基于该建议对视频质量进行改善。
应用本申请实施例所提供的方法,获取目标视频,并对目标视频进行关键帧抽离,得到目标全局信息视频帧;定位目标全局信息视频帧的局部信息并进行裁剪,得到目标局部信息视频帧;将目标全局信息视频帧和目标局部信息视频帧输入至如上述模型训练方法对应训练好的低质量视频归因识别模型进行低质量视频归因识别,得到目标归因识别结果;基于目标归因识别结果,输出视频质量提升建议。
在本申请中,在获取到目标视频后,首先进行关键帧抽离,得到目标全局信息视频帧。然后,定位目标全局信息视频帧的局部信息并进行裁剪,得到目标局部信息视频帧。然后,基于训练好的低质量视频归因识别模型对目标全局信息视频帧和目标局部信息视频帧进行低质量视频归因识别,最终得到目标归因识别结果。基于该目标归因识别结果,输出视频质量提升建议,以便用户基于视频指令提取建议改善视频质量。也就是说,输入低质量视频归因识别模型的包括目标全局信息视频帧和目标局部信息视频帧,因而在模型处理过程中,不仅关注了全局特征也关注了局部特征,将二者结合起来进行归因识别,能够有效提升目标归因识别结果的准确率,如此,便可使得输出的视频质量提升建议更加精准,更加利于提升视频质量。
需要说明的是,基于上述实施例,本申请实施例还提供了相应的改进方案。在优选/改进实施例中涉及与上述实施例中相同步骤或相应步骤之间可相互参考,相应的有益效果也可相互参照,在本文的优选/改进实施例中不再一一赘述。
在本申请中的一种具体实施方式中,上述步骤S103将目标全局信息视频帧和目标局部信息视频帧输入至如上述模型训练方法对应训练好的低质量视频归因识别模型进行低质量视频归因识别,得到目标归因识别结果,包括:
步骤一、将目标全局信息视频帧和目标局部信息视频帧作为低质量视频归因识别模型的双路网络的输入。
步骤二、利用低质量视频归因识别模型中的特征提取层,分别提取目标全局信息视频帧的全局特征,目标局部信息视频帧的局部特征。
步骤三、利用特征提取层最后一个卷积模块,沿着通道维度对全局特征和局部特征进行特征映射,得到维数相同的全局特征图和局部特征图。
步骤四、融合全局特征图和局部特征图,得到混合双线性特征图。
具体的,步骤四可以具体包括:
步骤1、对全局特征图和局部特征图进行池化,得到全局特征池化向量和局部特征池化向量;
步骤2、对全局特征向量和局部特征池化向量进行点到点的内积处理,得到混合双线性特征图。
步骤五、利用混合双线性特征图,确定目标归因识别结果。
具体的,步骤五可以具体包括:
步骤1、对混合双线性特征图进行池化,得到混合特征向量;
步骤2、将混合特征向量与全连接层相接,并通过归一化指数函数输出各视频低质量类别的类别概率分布;
步骤3、利用类别概率分布,确定目标归因识别结果。
为便于说明,下面将上述五个步骤结合起来进行说明。
即,分别以目标全局信息视频帧和与其对应的目标局部信息视频帧作为双路网络的输入。优选地,综合考虑网络特征提取能力和模型前馈速度,以ResNet-50作为低质量视频归因识别架构的基础网络,双路网络共享相同的初始化权重,分别提取视频帧的全局与局部特征,其中,全局特征更关注视频帧的整体画质表现,局部特征则更关注视频帧的局部纹理质量表现。
可以具体选取双路网络特征提取层最后一个卷积模块,将其沿通道维度进行特征映射,得到维数更高的特征图,使映射之后的全局特征图与局部特征图保持相同的维数。对局部特征映射层进行求和池化运算(当然,也可以选用最大池化运算),得到局部特征池化向量,该向量的维度大小与全局特征映射层的通道维数相同。将该局部特征池化向量与全局特征映射层上沿通道方向的特征向量进行逐一的内积操作,得到混合双线性特征图,对混合双线性池化特征图进行求和池化得到最终的混合特征向量。
求和池化后得到的混合特征向量与全连接层相接,通过Softmax(归一化指数)函数输出各个低质量类别的类别概率分布,概率值最大的类别即为最终的低质量预测类别。
在本申请一种具体实施方式中,为了提高模型训练效率,还可以采用迁移信息的思想,并基于两步微调的方式对模型进行训练。具体的,训练低质量视频归因识别模型的过程,包括:
步骤一、获取低质量视频数据集;
步骤二、在ImageNet公开数据集上的预训练模型微调网络分类器;
步骤三、以微调得到的模型作为全网络的初始化参数,并结合低质量视频数据集对整个网络进行调优训练,得到低质量视频归因识别准确率达到预设标准的低质量视频归因识别模型。
也就是说,可采用迁移学习的思想,并基于两步微调的训练方式,首先使用在ImageNet(用于视觉对象识别软件研究的大型可视化数据库)公开数据集上的预训练模型微调网络分类器,然后以上一步微调的模型作为全网络的初始化参数进行整个网络的调优训练,使用交叉熵损失函数,以低质量视频归因识别准确率作为模型的效果度量指标。
调整网络的超参数,得到效果相对较优的参数权重作为最终的网络模型,将该模型对应的准确率结果与现有技术方案进行对比,并与主观感知相结合。
优选地,还可对模型作压缩处理,减少网络参数,提高前馈速度,使模型性能更优。在进行部署时,可选取最优模型进行工程化部署,并最终达到上线进行实时低质量识别的目的。
考虑到在本申请中,提出基于全局信息和局部信息来进行低质量视频归因识别,因而训练模型时,也需采用具有全局信息的样本和局部信息的样本进行模型训练。下面结合直播视频场景为例,对如何获取能够满足此需求的低质量视频数据集进行详细说明。具体的,上述步骤一获取低质量视频数据集,包括:
步骤1、针对直播业务场景构建多样化的指标视频数据集,并添加低质量直播视频样本,得到低质量直播视频数据集;
步骤2、为低质量直播视频数据集中的视频样本标注分类标签,并过滤不符合预设条件的视频样本,得到有标签的视频数据集;
步骤3、对视频数据集中的视频抽离样本关键帧,得到目标全局信息视频帧数据集;
步骤4、定位样本关键帧中的局部信息并进行裁剪,得到目标局部信息视频帧数据集;
步骤5、将目标全局信息视频帧数据集和目标局部信息视频帧数据集确定为低质量视频数据集。
即,首先可针对直播业务场景构建多样化的直播视频数据集,人工筛选并批量加入低质量直播视频样本,作数据分布均衡处理使低质量视频达到合适的占比(如0.5,当然也可以为其他适宜的比值,可以通过实践数据统计得出,在此不再一一列举)。
然后,可对低质量直播视频数据集二次筛选,过滤不符合要求(如因网络传输导致的低质量这种视频录制者难以无法改善的原因)的视频样本,同时进行客观分类标注,标签类型包括过曝光、噪点、蒙层、杂光、正常、未知等,形成带标签的视频数据集。
最后,运用传统图像处理工具和算法,从视频中抽离关键帧图像,对关键帧作边缘补形操作,按照既定的尺寸进行双线性插值缩放,得到目标全局信息视频帧数据集。定位帧图像中的局部信息并作裁剪,得到目标局部信息视频帧数据集。按比例划分训练集、验证集以及测试集。
为便于本领域技术人员更好地理解本申请实施例所提供的视频处理方法,下面对直播场景中对直播低质量视频进行归因识别为例,对具体如何实施视频处理方法进行详细说明。
请参考图3和图4,图3为本申请实施例中一种低质量视频归因识别的实施示意图,图4为本申请实施例中一种低质量视频归因识别方法的流程示意图。
其中,低质量直播数据即的构建、数据清洗与预处理具体包括:数据集构建环节和数据清洗与预处理环节。数据集构建环节包括:数据采集、数据初筛、随机分组、低质量视频采样、分别均衡处理、标注细则制定、客观标注和最终得到带标签的数据集。数据清洗与预处理环节包括:标签审核、视频关键帧抽取、双线性插值缩放、全局信息数据集、局部信息定位裁剪、局部信息数据集、数据集划分(如训练集、验证集和测试集)。
基于混合双线性混合池化模型的端到端架构设计包括:端到端网络构成和模型训练。其中,端到端网络构成包括:双路信息输入、基础网络选型、双路特征提取、高纬特征映射、混合双线性池化、混合特征表示、Softmax和归因识别(归因识别还可以参考图4)。模型训练包括:数据增强、损失函数、优化器、预训练模型、学习率衰减策略、全网络训练、正则化、超参数调优、最终模型。
评估方案的建立、准确性评估和调优可分模型指标与效果评估,模型调优与工程化。其中,模型指标与效果评估包括:指标评估(如loss(损失)、准确率)、交叉验证、参数计算和效果评估(SOTA(state-of-the-art,模型性能在当前是最优的比对算法)对比和主观感知)。模型调优与工程化包括:性能调优(如解码优化、前馈优化和指标优化)、模型压缩(如知识蒸馏和模型剪枝)、工程化(如C++重构、后台部署和上线运行)。
需要说明的是,在具体实施中对应的相关术语,例如交叉验证、知识蒸馏等,可以具体参照相关实现和定义,在此不再一一说明。
在图4中,其中左侧上面的人头像即具体对应中间视频帧对应的目标局部信息视频帧,左侧下面的图像即对应中间视频帧对应的目标全局信息视频帧。对该视频帧进行分析的过程可具体参照上文描述,在此不再一一赘述。
由此可见,本申请实施例所提供的视频处理方法,可用于低质量直播视频归因识别,可为直播质量相对较低的主播提供实时的录制建议,提升直播观看质量,为主播和用户都带来更优越的直播体验。
相应于上面的方法实施例,本申请实施例还提供了一种模型训练装置,下文描述的模型训练装置与上文描述的模型训练方法可相互对应参照。
参见图5所示,该装置包括以下模块:
数据集获取模块100,用于获取目标业务场景中有标签的视频数据集;
全局信息获取模块200,用于对视频数据集中的视频抽离样本关键帧,得到全局信息视频帧数据集;
局部信息获取模块300,用于定位样本关键帧中的局部信息并进行裁剪,得到局部信息视频帧数据集;
低质量视频数据集400,用于将全局信息视频帧数据集和局部信息视频帧数据集确定为低质量视频数据集;
初始模型获取模块500,用于获取初始低质量视频归因识别模型;
归因识别模块600,用于将低质量视频数据集的样本输入初始低质量视频归因识别模型,得到样本对应的归因识别结果;
训练调节模块700,用于基于样本的归因识别结果与对应标签,调节初始低质量视频归因识别模型以得到训练完成的低质量视频归因识别模型。
应用本申请实施例所提供的装置,获取目标业务场景中有标签的视频数据集;对视频数据集中的视频抽离样本关键帧,得到全局信息视频帧数据集;定位样本关键帧中的局部信息并进行裁剪,得到局部信息视频帧数据集;将全局信息视频帧数据集和局部信息视频帧数据集确定为低质量视频数据集;获取初始低质量视频归因识别模型;将低质量视频数据集的样本输入初始低质量视频归因识别模型,得到样本对应的归因识别结果;基于样本的归因识别结果与对应标签,调节初始低质量视频归因识别模型以得到训练完成的低质量视频归因识别模型。
在本申请中,首先获取目标业务场景中的有标签的视频数据集,然后对视频数据集中的视频抽离出样本关键帧,从而得到全局信息视频帧数据集。然后,定位全局信息视频帧的局部信息并进行裁剪,得到局部信息视频帧数据集。将全局信息视频帧数据集和局部信息视频帧数据集确定为低质量视频数据集,并将低质量视频数据集的样本输入初始低质量视频归因识别模型,得到样本对应的归因识别结果。基于样本的归因识别结果与对应标签,调节初始低质量视频归因识别模型以得到训练完成的低质量视频归因识别模型。由于训练低质量视频归因识别模型不仅关注了全局特征也关注了局部特征,能够有效提升最终训练得到的低质量视频归因识别模型的归因识别结果准确率。进一步,便可使得视频质量提升建议更加精准,更加利于提升视频质量。
在本申请的一种具体实施方式中,训练调节模块700,具体用于:
比对样本对应的归因识别结果与对应标签,得到比对结果;其中,比对结果为对应的低质量视频归因识别准确率;
利用低质量视频归因识别准确率计算出模型损失值;
在模型损失值达到预设标准时,停止迭代调节初始低质量视频归因识别模型,得到低质量视频归因识别模型。
在本申请的一种具体实施方式中,数据集获取模块100,具体用于:
针对直播业务场景构建多样化的指标视频数据集,并添加低质量直播视频样本,得到低质量直播视频数据集;
为低质量直播视频数据集中的视频样本标注分类标签,并过滤不符合预设条件的视频样本,得到有标签的视频数据集。
在本申请的一种具体实施方式中,全局信息获取模块200,具体用于:
从视频数据集中的视频中抽离出关键帧;
对关键帧进行边缘补形处理后,按照预设尺寸对关键帧进行双线性插值缩放,得到全局信息视频帧。
在本申请的一种具体实施方式中,局部信息获取模块300,具体用于:
检测出全局信息视频帧中的异常点,并将异常点确定为局部信息中心点;
利用异常点对全局信息视频帧进行裁剪,得到局部信息视频帧。
在本申请的一种具体实施方式中,归因识别模块600,具体用于:
将全局信息视频帧和局部信息视频帧作为初始低质量视频归因识别模型的双路网络的输入;
分别提取全局信息视频帧的全局特征,局部信息视频帧的局部特征;
沿着通道维度对全局特征和局部特征进行特征映射,得到维数相同的全局特征图和局部特征图;
融合全局特征图和局部特征图,得到混合双线性特征图;
利用混合双线性特征图,获得低质量视频数据集中样本对应的归因识别结果。
在本申请的一种具体实施方式中,归因识别模块600,具体用于:
对全局特征图和局部特征图进行池化,得到全局特征池化向量和局部特征池化向量;
对全局特征向量和局部特征池化向量进行点到点的内积处理,得到混合双线性特征图。
在本申请的一种具体实施方式中,归因识别模块600,具体用于:
对混合双线性特征图进行池化,得到混合特征向量;
将混合特征向量与全连接层相接,并通过归一化指数函数输出各视频低质量类别的类别概率分布;
利用类别概率分布,确定归因识别结果。
相应于上面的方法实施例,本申请实施例还提供了一种视频处理装置,下文描述的视频处理装置与上文描述的视频处理方法可相互对应参照。
参见图6所示,该装置包括以下模块:
全局信息视频帧获取模块101,用于获取目标视频,并对目标视频进行关键帧抽离,得到目标全局信息视频帧;
局部信息视频帧获取模块102,用于定位目标全局信息视频帧的局部信息并进行裁剪,得到目标局部信息视频帧;
归因识别模块103,用于将目标全局信息视频帧和目标局部信息视频帧输入至如上述模型训练方法对应训练好的低质量视频归因识别模型进行低质量视频归因识别,得到目标归因识别结果;
建议输出模块104,用于基于目标归因识别结果,输出视频质量提升建议。
应用本申请实施例所提供的装置,获取目标视频,并对目标视频进行关键帧抽离,得到目标全局信息视频帧;定位目标全局信息视频帧的局部信息并进行裁剪,得到目标局部信息视频帧;将目标全局信息视频帧和目标局部信息视频帧输入至如上述模型训练方法对应训练好的低质量视频归因识别模型进行低质量视频归因识别,得到目标归因识别结果;基于目标归因识别结果,输出视频质量提升建议。
在本申请中,在获取到目标视频后,首先进行关键帧抽离,得到目标全局信息视频帧。然后,定位目标全局信息视频帧的局部信息并进行裁剪,得到目标局部信息视频帧。然后,基于训练好的低质量视频归因识别模型对目标全局信息视频帧和目标局部信息视频帧进行低质量视频归因识别,最终得到目标归因识别结果。基于该目标归因识别结果,输出视频质量提升建议,以便用户基于视频指令提取建议改善视频质量。也就是说,输入低质量视频归因识别模型的包括目标全局信息视频帧和目标局部信息视频帧,因而在模型处理过程中,不仅关注了全局特征也关注了局部特征,将二者结合起来进行归因识别,能够有效提升目标归因识别结果的准确率,如此,便可使得输出的视频质量提升建议更加精准,更加利于提升视频质量。
在本申请的一种具体实施方式中,归因识别模块103,具体用于将目标全局信息视频帧和目标局部信息视频帧作为低质量视频归因识别模型的双路网络的输入;
利用低质量视频归因识别模型中的特征提取层,分别提取目标全局信息视频帧的全局特征,目标局部信息视频帧的局部特征;
利用特征提取层最后一个卷积模块,沿着通道维度对全局特征和局部特征进行特征映射,得到维数相同的全局特征图和局部特征图;
融合全局特征图和局部特征图,得到混合双线性特征图;
利用混合双线性特征图,确定归因识别结果。
在本申请的一种具体实施方式中,归因识别模块103,具体用于对全局特征图和局部特征图进行池化,得到全局特征池化向量和局部特征池化向量;
对全局特征向量和局部特征池化向量进行点到点的内积处理,得到混合双线性特征图。
在本申请的一种具体实施方式中,归因识别模块103,具体用于对混合双线性特征图进行池化,得到混合特征向量;
将混合特征向量与全连接层相接,并通过归一化指数函数输出各视频低质量类别的类别概率分布;
利用类别概率分布,确定归因识别结果。
在本申请的一种具体实施方式中,全局信息视频帧获取模块101,具体用于从目标视频中抽离出关键帧;
对关键帧进行边缘补形处理后,按照预设尺寸对关键帧进行双线性插值缩放,得到目标全局信息视频帧。
在本申请的一种具体实施方式中,局部信息视频帧获取模块102,具体用于检测出目标全局信息视频帧中的异常点,并将异常点确定为局部信息中心点;
利用异常点对目标全局信息视频帧进行裁剪,得到目标局部信息视频帧。
在本申请的一种具体实施方式中,还包括:
数据集获取模块,用于获取低质量视频数据集;
训练模块,用于在ImageNet公开数据集上的预训练模型微调网络分类器;
以微调得到的模型作为全网络的初始化参数,并结合低质量视频数据集对整个网络进行调优训练,得到低质量视频归因识别准确率达到预设标准的低质量视频归因识别模型。
在本申请的一种具体实施方式中,数据集获取模块,具体用于针对直播业务场景构建多样化的指标视频数据集,并添加低质量直播视频样本,得到低质量直播视频数据集;
为低质量直播视频数据集中的视频样本标注分类标签,并过滤不符合预设条件的视频样本,得到有标签的视频数据集;
对视频数据集中的视频抽离样本关键帧,得到目标全局信息视频帧数据集;
定位样本关键帧中的局部信息并进行裁剪,得到目标局部信息视频帧数据集;
将目标全局信息视频帧数据集和目标局部信息视频帧数据集确定为低质量视频数据集。
相应于上面的方法实施例,本申请实施例还提供了一种电子设备,下文描述的一种电子设备与上文描述的一种视频处理方法可相互对应参照。
参见图7所示,该电子设备包括:
存储器332,用于存储计算机程序;
处理器322,用于执行计算机程序时实现上述方法实施例的视频处理方法的步骤。
具体的,请参考图8,图8为本实施例提供的一种电子设备的具体结构示意图,该电子设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)322(例如,一个或一个以上处理器)和存储器332,存储器332存储有一个或一个以上的计算机应用程序342或数据344。其中,存储器332可以是短暂存储或持久存储。存储在存储器332的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储器332通信,在电子设备301上执行存储器332中的一系列指令操作。
电子设备301还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341。
上文所描述的视频处理方法中的步骤可以由电子设备的结构实现。
相应于上面的方法实施例,本申请实施例还提供了一种可读存储介质,下文描述的一种可读存储介质与上文描述的一种视频处理方法可相互对应参照。
一种可读存储介质,可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例的视频处理方法的步骤。
该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。
本领域技术人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

Claims (11)

1.一种模型训练方法,其特征在于,包括:
获取目标业务场景中有标签的视频数据集;
对所述视频数据集中的视频抽离样本关键帧,得到全局信息视频帧数据集;
定位所述样本关键帧中的局部信息并进行裁剪,得到局部信息视频帧数据集;
将所述全局信息视频帧数据集和局部信息视频帧数据集确定为所述低质量视频数据集;
获取初始低质量视频归因识别模型;
将所述低质量视频数据集的样本输入所述初始低质量视频归因识别模型,得到样本对应的归因识别结果;
基于所述样本的归因识别结果与对应所述标签,调节所述初始低质量视频归因识别模型以得到训练完成的低质量视频归因识别模型。
2.根据权利要求1所述的模型训练方法,其特征在于,基于所述样本的归因识别结果与对应所述标签,调节所述初始低质量视频归因识别模型以得到训练完成的低质量视频归因识别模型,包括:
比对所述样本对应的归因识别结果与对应所述标签,得到比对结果;其中,所述比对结果为对应的低质量视频归因识别准确率;
利用所述低质量视频归因识别准确率计算出模型损失值;
在所述模型损失值达到预设标准时,停止迭代调节所述初始低质量视频归因识别模型,得到所述低质量视频归因识别模型。
3.根据权利要求1所述的模型训练方法,其特征在于,所述获取目标业务场景中有标签的视频数据集,包括:
针对直播业务场景构建多样化的指标视频数据集,并添加低质量直播视频样本,得到低质量直播视频数据集;
为所述低质量直播视频数据集中的视频样本标注分类标签,并过滤不符合预设条件的视频样本,得到所述有标签的视频数据集。
4.根据权利要求1所述的模型训练方法,其特征在于,对所述视频数据集中的视频抽离样本关键帧,得到全局信息视频帧数据集,包括:
从所述视频数据集中的视频中抽离出关键帧;
对所述关键帧进行边缘补形处理后,按照预设尺寸对所述关键帧进行双线性插值缩放,得到所述全局信息视频帧。
5.根据权利要求1所述的模型训练方法,其特征在于,定位所述样本关键帧中的局部信息并进行裁剪,得到局部信息视频帧数据集,包括:
检测出所述全局信息视频帧中的异常点,并将所述异常点确定为所述局部信息中心点;
利用所述异常点对所述全局信息视频帧进行裁剪,得到所述局部信息视频帧。
6.根据权利要求1至5任一项所述的模型训练方法,其特征在于,将所述低质量视频数据集的样本输入所述初始低质量视频归因识别模型,得到样本对应的归因识别结果,包括:
将所述全局信息视频帧和所述局部信息视频帧作为所述初始低质量视频归因识别模型的双路网络的输入;
分别提取所述全局信息视频帧的全局特征,所述局部信息视频帧的局部特征;
沿着通道维度对所述全局特征和所述局部特征进行特征映射,得到维数相同的全局特征图和局部特征图;
融合所述全局特征图和所述局部特征图,得到混合双线性特征图;
利用所述混合双线性特征图,获得所述低质量视频数据集中样本对应的归因识别结果。
7.根据权利要求6所述模型训练方法,其特征在于,融合所述全局特征图和所述局部特征图,得到混合双线性特征图,包括:
对所述全局特征图和所述局部特征图进行池化,得到全局特征池化向量和局部特征池化向量;
对所述全局特征向量和所述局部特征池化向量进行点到点的内积处理,得到所述混合双线性特征图。
8.根据权利要求6所述的模型训练方法,其特征在于,利用所述混合双线性特征图,获得所述低质量视频数据集中样本对应的归因识别结果,包括:
对所述混合双线性特征图进行池化,得到混合特征向量;
将所述混合特征向量与全连接层相接,并通过归一化指数函数输出各视频低质量类别的类别概率分布;
利用所述类别概率分布,确定所述归因识别结果。
9.一种视频处理方法,其特征在于,包括:
获取目标视频,并对所述目标视频进行关键帧抽离,得到目标全局信息视频帧;
定位所述目标全局信息视频帧的局部信息并进行裁剪,得到目标局部信息视频帧;
将所述目标全局信息视频帧和所述目标局部信息视频帧输入至如权利要求1至8任一项所述模型训练方法对应训练好的低质量视频归因识别模型进行低质量视频归因识别,得到目标归因识别结果;
基于所述目标归因识别结果,输出视频质量提升建议。
10.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至8任一项所述的模型训练方法,和/或,如权利要求8所述的视频处理方法的步骤。
11.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的模型训练方法,和/或,如权利要求9所述的视频处理方法的步骤。
CN202111131420.XA 2021-09-26 2021-09-26 模型训练方法、视频处理方法、电子设备及可读存储介质 Pending CN113837107A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111131420.XA CN113837107A (zh) 2021-09-26 2021-09-26 模型训练方法、视频处理方法、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111131420.XA CN113837107A (zh) 2021-09-26 2021-09-26 模型训练方法、视频处理方法、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN113837107A true CN113837107A (zh) 2021-12-24

Family

ID=78970230

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111131420.XA Pending CN113837107A (zh) 2021-09-26 2021-09-26 模型训练方法、视频处理方法、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113837107A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115689819A (zh) * 2022-09-23 2023-02-03 河北东来工程技术服务有限公司 一种船舶应急训练方法、系统、装置及可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115689819A (zh) * 2022-09-23 2023-02-03 河北东来工程技术服务有限公司 一种船舶应急训练方法、系统、装置及可读存储介质
CN115689819B (zh) * 2022-09-23 2023-06-30 河北东来工程技术服务有限公司 一种船舶应急训练方法、系统、装置及可读存储介质

Similar Documents

Publication Publication Date Title
CN109948446B (zh) 一种视频片段处理方法、装置及计算机可读存储介质
CN109151501A (zh) 一种视频关键帧提取方法、装置、终端设备及存储介质
CN111523566A (zh) 目标视频片段定位方法和装置
CN113112519B (zh) 基于感兴趣目标分布的关键帧筛选方法
US8345742B2 (en) Method of processing moving picture and apparatus thereof
CN111311475A (zh) 检测模型训练方法、装置、存储介质和计算机设备
US20240046644A1 (en) Video classification method, device and system
CN113269787A (zh) 一种基于门控融合的遥感图像语义分割方法
CN111968150A (zh) 一种基于全卷积神经网络的弱监督视频目标分割方法
CN114821390B (zh) 基于注意力和关系检测的孪生网络目标跟踪方法及系统
CN115080865B (zh) 基于多维数据分析的电商数据运营管理系统
CN112383824A (zh) 视频广告过滤方法、设备及存储介质
CN113837107A (zh) 模型训练方法、视频处理方法、电子设备及可读存储介质
CN117474817B (zh) 对合成连续图像进行内容一致化的方法
CN114549373A (zh) Hdr图像生成方法、装置、电子设备及可读存储介质
Bongini et al. GADA: Generative adversarial data augmentation for image quality assessment
CN116091862A (zh) 一种画质识别方法、装置、设备、存储介质及产品
CN116958919A (zh) 目标检测方法、装置、计算机可读介质及电子设备
CN114913312A (zh) 一种深度学习模型数据图像信息采集方法
CN112949431B (zh) 视频篡改检测方法和系统、存储介质
Amemiya et al. Appropriate grape color estimation based on metric learning for judging harvest timing
CN115564709A (zh) 一种对抗场景下电力算法模型鲁棒性的评估方法和系统
Prabakaran et al. Key frame extraction analysis based on optimized convolution neural network (ocnn) using intensity feature selection (ifs)
Shah et al. Real versus fake 4K-authentic resolution assessment
CN113784113A (zh) 一种基于短时时空融合网络和长时序列融合网络的无参考视频质量评价方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination