CN115115969A - 视频检测方法、装置、设备、存储介质和程序产品 - Google Patents

视频检测方法、装置、设备、存储介质和程序产品 Download PDF

Info

Publication number
CN115115969A
CN115115969A CN202210545281.3A CN202210545281A CN115115969A CN 115115969 A CN115115969 A CN 115115969A CN 202210545281 A CN202210545281 A CN 202210545281A CN 115115969 A CN115115969 A CN 115115969A
Authority
CN
China
Prior art keywords
training
ground glass
video
training sample
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210545281.3A
Other languages
English (en)
Inventor
罗达志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210545281.3A priority Critical patent/CN115115969A/zh
Publication of CN115115969A publication Critical patent/CN115115969A/zh
Priority to PCT/CN2023/082240 priority patent/WO2023221634A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种视频检测方法、装置、设备、存储介质和程序产品,相关实施例可以应用于版权管理、版权保护、视频侵权管理、侵权防护、视频安全、版权安全维护等场景。视频检测过程中,通过获取待检测视频对应的视频帧序列,使用训练好的毛玻璃区域检测模型,依次对该视频帧序列中各视频帧进行毛玻璃检测,获得视频帧序列中存在毛玻璃区域的目标视频帧以及这些目标视频帧中毛玻璃区域的位置,对于连续的目标视频帧,进一步按照毛玻璃区域的位置的重合度进行聚类,得到多个连续的目标视频片段,就可以输出多个连续的目标视频片段各自在待检测视频中的起止时间以及毛玻璃区域的位置,提高视频中毛玻璃区域检测的精度。

Description

视频检测方法、装置、设备、存储介质和程序产品
技术领域
本申请涉及计算机处理技术领域,特别是涉及一种视频检测方法及其装置、计算机设备、存储介质和计算机程序产品,还涉及一种毛玻璃区域检测模型的训练方法及其装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着计算机技术的快速发展与机器学习技术的深入研究,基于机器学习的视频检测任务得到了广泛应用,视频检测任务是从视频中检测目标的过程,在视频安全维护、视频版权维护、视频查重等的场景中可以发挥重大作用。
例如,在当今互联网环境中,有些恶意搬运他人视频并以自身账号发布是一种屡见不鲜的视频版权侵犯行为,通常侵权者会通过增加毛玻璃效果等多种对抗方式达到与原视频的区别,再例如,有些账号通过在视频中增加毛玻璃效果遮挡、模糊关键信息的方式传播恶意视频,等等。对于这些情况的发现,需要检测出视频中的毛玻璃区域。
通常,对于视频中毛玻璃区域的检测,一般是基于图像梯度或者方差信息进行的,只能得到视频是否存在毛玻璃区域的检测结果,无法为视频输出直观的毛玻璃检测结果,检测效果不理想。
发明内容
基于此,有必要针对上述技术问题,提供一种可直接输出视频中毛玻璃出现的时间点与在视频画面中具体位置的视频检测方法及其装置、计算机设备、存储介质和计算机程序产品,以及一种毛璃区域检测模型的训练方法及其装置、计算机设备、存储介质和计算机程序产品。
本申请提供了一种视频检测方法,所述方法包括:
获取待检测视频对应的视频帧序列;
通过训练好的毛玻璃区域检测模型,依次对所述视频帧序列中各视频帧进行毛玻璃检测,获得所述视频帧序列中存在毛玻璃区域的目标视频帧以及所述目标视频帧中毛玻璃区域的位置;
对于所述待检测视频中连续的所述目标视频帧,根据毛玻璃区域的位置的重合度进行聚类,得到多个连续的目标视频片段;
输出所述多个连续的目标视频片段各自在所述待检测视频中的起止时间以及所述毛玻璃区域的位置。
本申请提供了一种视频检测装置,所述装置包括:
视频帧获取模块,用于获取待检测视频对应的视频帧序列;
毛玻璃检测模块,用于通过训练好的毛玻璃区域检测模型,依次对所述视频帧序列中各视频帧进行毛玻璃检测,获得所述视频帧序列中存在毛玻璃区域的目标视频帧以及所述目标视频帧中毛玻璃区域的位置;
聚类模块,用于对于所述待检测视频中连续的所述目标视频帧,根据毛玻璃区域的位置的重合度进行聚类,得到多个连续的目标视频片段;
输出模块,用于输出所述多个连续的目标视频片段各自在所述待检测视频中的起止时间以及所述毛玻璃区域的位置。
在一个实施例中,所述视频帧获取模块,还用于获取待检测视频,将所述待检测视频按所述待检测视频的帧率依次切分,得到多个视频分片;从每个视频分片中按预设时间间隔采样,获取预设数量的视频帧;基于从每个视频分片得到的预设数量的视频帧,得到所述视频帧序列。
在一个实施例中,所述毛玻璃检测模块,还用于将所述视频帧序列中的各视频帧,依次输入训练好的毛玻璃区域检测模型;通过所述毛玻璃区域检测模型的特征提取网络,提取所述视频帧对应的特征图;通过所述毛玻璃区域检测模型的毛玻璃分类网络,基于所述视频帧的特征图,获得所述特征图中各特征点的类别与置信度。
在一个实施例中,所述毛玻璃检测模块,还用于获取所述毛玻璃分类网络输出的所述特征图中各特征点的类别与置信度;基于所述特征图的各特征点对应的区域为毛玻璃区域的置信度,以及各特征点对应的预测候选框的预测位置,确定所述视频帧的毛玻璃区域检测结果,所述毛玻璃区域检测结果包括所述视频帧中是否存在毛玻璃区域以及毛玻璃区域的位置;根据所述视频帧序列中各视频帧的毛玻璃区域检测结果,获得所述视频帧序列中存在毛玻璃区域的目标视频帧以及所述目标视频帧中毛玻璃区域的位置。
在一个实施例中,所述装置还包括有标注训练接获取模块,用于获取用于训练毛玻璃区域检测模型的有标注训练样本集合;超参数确定模块,用于根据所述有标注训练样本集合中各个有标注训练样本的标注数据,确定所述有标注训练样本中毛玻璃区域的宽高比;对所述有标注训练样本中毛玻璃区域的宽高比进行聚类,得到多个类中心;有监督训练模块,用于将所述类中心所表示的宽高比作为训练所述毛玻璃区域检测模型的超参数后,使用所述有标注训练样本对所述毛玻璃区域检测模型进行有监督训练。
在一个实施例中,所述装置包括的有标注训练接获取模块,还用于获取多个样本视频;对于每个样本视频,从所述样本视频的首个视频帧开始遍历,当遍历到的视频帧与邻近视频帧不相似时,将所述遍历到的视频帧加入待标注训练样本集合中,当所述遍历到的视频帧与邻近视频帧相似时,则略过所述遍历到的视频帧,直至所述样本视频的视频帧遍历结束;基于所述多个样本视频遍历完成时获得的待标注训练样本集合,得到用于训练毛玻璃区域检测模型的有标注训练样本集合。
在一个实施例中,所述装置包括的有标注训练接获取模块,还用于获取所述有标注训练样本集合中标注无毛玻璃区域的无毛玻璃训练样本;按照设定的嵌入位置,对所述无毛玻璃训练样本进行毛玻璃仿真嵌入,得到仿真毛玻璃训练样本;将所述嵌入位置,作为所述仿真毛玻璃训练样本的标注数据后,将标注了毛玻璃区域的仿真毛玻璃训练样本添加至所述有标注训练样本集合中。
在一个实施例中,所述装置还包括仿真嵌入模块,用于按照设定的嵌入位置,基于毛玻璃模糊度、毛玻璃区域的文本样式和毛玻璃区域的图标样式中的至少一种,对所述无毛玻璃训练样本进行毛玻璃仿真嵌入,得到仿真毛玻璃训练样本。
在一个实施例中,所述装置包括的有监督训练模块,用于利用毛玻璃区域检测模型对有标注训练样本集合中的有标注训练样本进行预测,得到所述有标注训练样本的特征图中各特征点的预测信息;所述特征点的预测信息包括:预测候选框的预测位置、所述预测候选框中是否存在毛玻璃的预测置信度以及所述预测候选框是否为毛玻璃的预测置信度;基于所述特征图的特征点的预测信息以及所述有标注训练样本的标注数据,得到所述有标注训练样本的第一类损失、第二类损失和第三类损失;其中,所述第一类损失表征预测候选框的位置和标注候选框的位置之间的损失;所述第二类损失表征特征点对应的区域存在毛玻璃的预测置信度和标注置信度之间的损失,以及表征特征点对应的区域不存在毛玻璃的预测置信度和真实置信度之间的损失;第三类损失表征特征点对应的区域是否存在毛玻璃的预测置信度和真实置信度之间的损失;基于所述有标注训练样本集合中的有标注训练样本的第一类损失、第二类损失和第三类损失,对毛玻璃区域检测模型的模型参数进行调整,以对所述毛玻璃区域检测模型进行有监督训练。
在一个实施例中,所述装置还包括无标签训练集处理模块,用于获取无标注训练样本集合,对所述无标注训练样本集合中的无标注训练样本进行数据增强,基于所述无标注训练样本和增强后的训练样本,得到无标注样本相似对;将通过有标注训练样本集合进行有监督训练得到的毛玻璃区域检测模型作为初始模型,利用所述初始模型分别对所述无标注样本相似对包括的训练样本进行预测,获取所述无标注样本相似对包括的训练样本各自的预测结果;无标签损失获取模块,用于基于所述无标注样本相似对包括的训练样本各自的预测结果之间的差异,得到所述无标注样本相似对的一致性损失;联合训练模块,用于基于所述无标注样本相似对的一致性损失和有标注训练样本的有标签训练损失,得到联合损失,利用所述联合损失对所述初始模型的模型参数进行调整,得到训练好的毛玻璃区域检测模型。
在一个实施例中,所述无标签训练集处理模块,用于获取初始的无标注训练样本集合,通过所述初始模型,对所述初始的无标注训练样本集合中各无标注训练样本进行预测,根据预测结果确定所述无标注训练样本的伪标签;所述伪标签包括第一标签和第二标签;当预测结果指示所述伪标签为第一标签的无标注训练样本的数量多于所述伪标签为第二标签的无标注训练样本的数量时,按所述伪标签为第二标签的无标注训练样本的数量,对伪标签为第一标签的无标注训练样本进行采样,根据所述伪标签为第二标签的无标注训练样本与采样得到的伪标签为第一标签的无标注训练样本,得到无标注训练样本集合。
在一个实施例中,所述联合训练模块,还用于根据所述初始模型对所述有标注训练样本的预测结果,获取所述有标注训练样本中是否存在毛玻璃区域的预测置信度;将所述是否存在毛玻璃区域的预测置信度小于等于阈值的有标注训练样本作为目标训练样本;基于所述无标注样本相似对的一致性损失和所述目标训练样本的有标签训练损失,得到联合损失。
在一个实施例中,所述无标签损失获取模块,用于对所述无标注样本相似对包括的训练样本各自的预测结果进行锐化处理,根据锐化处理的预测结果计算所述无标注样本相似对的一致性损失。
在一个实施例中,所述无标签损失获取模块,还用于当所述无标注样本相似对包括的训练样本的预测结果中的预测置信度大于阈值时,保留所述无标注样本相似对以参与所述一致性损失的计算;当所述无标注样本相似对包括的训练样本的预测结果中的预结果小于阈值时,剔除所述无标注样本相似对,不参与所述一致性损失的计算。
在一个实施例中,所述装置还包括连续性判定模块,用于获取任两个目标视频帧;当所述任两个目标视频帧对应的呈现时间的差距小于等于阈值时,确定所述任两个目标视频帧为连续的目标视频帧。
在一个实施例中,所述装置还包括重合度获取模块,用于获取连续的目标视频帧的毛玻璃区域的交集面积与并集面积之间的比值;将所述比值作为所述连续的目标视频帧中毛玻璃区域的位置的重合度。
本申请提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行上述视频检测方法。
本申请提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行上述视频检测方法。
本申请提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述视频检测方法。
上述视频检测方法、装置、计算机设备、存储介质和计算机程序产品中,通过训练好的毛玻璃区域检测模型,对视频进行逐帧检测,不仅给出了存在毛玻璃区域的目标视频帧,还给出了目标视频帧中毛玻璃区域的位置,实现毛玻璃的高精度检测;并且在得到目标视频帧后,根据视频帧的连续性和毛玻璃区域位置的重合度,对目标视频帧进行切分,形成连续的目标视频片段,同一视频片段内毛玻璃区域的位置的重合度高于阈值,由此,输出的目标视频片段在待检测视频中的起止时间可以反映毛玻璃区域在待检测视频的起止时间,目标视频片段中毛玻璃区域的位置可以反映毛玻璃在待检测视频中的位置,这样直接输出了视频中毛玻璃出现的时间点与在视频画面中具体位置,提高毛玻璃检测的精度。
本申请提供了一种毛玻璃区域检测模型的训练方法,所述方法包括:
通过有标注训练样本集合,对毛玻璃区域检测模型进行有监督训练得到初始模型;
获取无标注训练样本集合,利用所述初始模型分别对所述无标注训练样本集合中的无标注训练样本与相应的增强训练样本进行预测,获取各自的预测结果,基于所述无标注训练样本与相应的增强训练样本各自的预测结果之间的差异,得到一致性损失;
基于所述有标注训练样本的有标签训练损失与所述一致性损失对所述初始模型进行联合训练,得到训练好的毛玻璃区域检测模型。
本申请提供了一种毛玻璃区域检测模型的训练装置,所述装置包括:
有监督训练模块,用于通过有标注训练样本集合,对毛玻璃区域检测模型进行有监督训练得到初始模型;
无标签损失获取模块,用于获取无标注训练样本集合,利用所述初始模型分别对所述无标注训练样本集合中的无标注训练样本与相应的增强训练样本进行预测,获取各自的预测结果,基于所述无标注训练样本与相应的增强训练样本各自的预测结果之间的差异,得到一致性损失;
联合训练模块,用于基于所述有标注训练样本的有标签训练损失与所述一致性损失对所述初始模型进行联合训练,得到训练好的毛玻璃区域检测模型。
本申请提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行上述毛玻璃区域检测模型的训练方法。
本申请提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行上述毛玻璃区域检测模型的训练方法。
本申请提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述毛玻璃区域检测模型的训练方法。
上述毛玻璃区域检测模型的训练方法、装置、计算机设备、存储介质和计算机程序产品中,先通过少量的有标注训练样本对毛玻璃区域检测模型进行有监督训练,基于有监督训练得到的初始模型对无标注训练样本集合进行预测,得到无标注训练样本与相应的增强训练样本之间的一致性损失,基于有标注训练样本的有标签训练损失和一致性损失,对初始模型进行联合训练,得到最终的毛玻璃区域检测模型,不需要大量的有标注训练样本,可以在降低标注成本的同时,强化毛玻璃区域检测模型的检测性能。
附图说明
图1为一个实施例中视频检测方法或毛玻璃区域检测模型的训练方法的应用环境图;
图2为一个实施例中视频检测方法的流程示意图;
图3为一个实施例中获取视频帧序列的流程示意图;
图4为一个实施例中毛玻璃区域检测的效果示意图;
图5为一个实施例中各单元的构成示意图;
图6为一个实施例中毛玻璃区域检测模型的构成示意图;
图7为一个实施例中锚结构作用示意图;
图8为一个实施例中通过标注方式得到有标注训练样本的流程示意图;
图9为一个实施例中标注过程示意图;
图10为一个实施例中标注数据示意图;
图11为一个实施例中毛玻璃仿真嵌入涉及的样式示意图;
图12为一个实施例中文本颜色调整示意图;
图13为一个实施例中类别平衡化处理流程示意图;
图14为一个实施例中半监督训练框架示意图;
图15为一个实施例中学习率衰减示意图;
图16为一个实施例中毛玻璃区域检测模型的训练方法的流程示意图;
图17为一个实施例中视频检测框架示意图;
图18为一个实施例中半监督训练所用的训练样本来源示意图;
图19为一个实施例中视频检测装置的结构框图;
图20为一个实施例中毛玻璃区域检测模型的训练装置的结构框图;
图21为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本申请所描述的实施例可以与其它实施例相结合。需要说明的是,本申请介绍涉及的“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的视频毛玻璃检测技术。以下先介绍本申请实施例涉及的一些术语:
毛玻璃:指的是在图像或者视频上进行全局或者局部渲染的模糊效果或者半透明效果。
毛玻璃检测:指的是对图像或者视频上的毛玻璃区域进行检测。当检测到存在毛玻璃区域时,需获取毛玻璃区域的位置。
版权视频:指的是有作者版权或者拥有者版权的视频。一般来说,版权视频未经允许不得复制转载。
侵犯视频版权的行为:指的是非版权所有者未经许可,对版权视频进行复制、转载、或者修改后发布的行为。
视频查重:指的是视频平台方,对于发布在视频平台的视频,进行重复检测的步骤,已避免发布的视频侵犯了他人版权。
视频帧:视频本质都是由静止的画面组成的,这些静止的画面被称为帧。
视频帧:视频帧(Frame rate)是用于测量显示帧数的量度,测量单位为每秒显示帧数(Frames per Second,简:FPS)或“赫兹”(Hz)。
CNN(Convolutional neural network):卷积神经网络的简称。
有监督训练:指的是从有标注训练样本集合中推断出函数的机器学习任务;
无监督训练:指的是根据无标注训练样本集合解决模式识别中的各种问题。
半监督训练:也可称为联合训练,指的是联合大量的无标注训练样本和少量的有标注训练样本,进行模式识别工作。
MSE(Mean Square Error):均方误差,计算预测数据和原始数据对应点误差的平方和的均值。
CDRLR(Cosine Decay Restarts Learning Rate):属于一种学习率衰减策略。
准确率:一种评估分类效果的指标,分数越高越好。
精确率:一种评估分类效果的指标,分数越高越好。
召回率:一种评估分类效果的指标,分数越高越好。
传统的毛玻璃检测方案中,一般是基于图像梯度或方差信息进行的,通过分析图像梯度或方差是否大于固定阈值,来判定图像是否存在毛玻璃区域,这一方案依赖固定阈值的设定,对于不同模糊程度的毛玻璃,容易出现漏检或误判;而且,这一方案只能给出图像是否存在毛玻璃区域,难以给出毛玻璃区域砸的位置。
本申请提供的视频检测方案,相关实施例可以广泛应用于版权管理、版权保护、视频侵权管理、侵权防护、视频安全、版权安全维护等场景。在视频检测过程中,通过训练好的毛玻璃区域检测模型进行检测,由于毛玻璃区域检测模型是训练得到的,学习到了很多毛玻璃区域相关的知识,由此,对于不同模糊程度的毛玻璃,可以尽可能降低漏检或误判的情况,并且,该毛玻璃区域检测模型不仅给出视频帧是否存在毛玻璃区域,还给出了毛玻璃区域的位置,提高毛玻璃检测精度。
图1为一个实施例中视频检测方法或毛玻璃区域检测模型的训练方法的应用环境图。其中,终端102与服务器104通过通信网络进行通信。其中,终端102可以通过通信网络与服务器104进行交互;终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群或云服务器来实现。服务器104可以通过数据存储系统存储视频,该数据存储系统可以集成在服务器104中,也可以与服务器104分开设置。
本申请提供的视频检测方法,可以由终端单独执行,也可以由服务器单独执行。该方法还可以由终端和服务器协同执行,例如,终端将待检测视频发给服务器,服务器接收到待检测视频后,获取待检测视频对应的视频帧序列;通过训练好的毛玻璃区域检测模型,依次对视频帧序列中各视频帧进行毛玻璃检测,获得视频帧序列中存在毛玻璃区域的目标视频帧以及目标视频帧中毛玻璃区域的位置;对于待检测视频中连续的目标视频帧,根据毛玻璃区域的位置的重合度进行聚类,得到多个连续的目标视频片段;输出多个连续的目标视频片段各自在待检测视频中的起止时间以及毛玻璃区域的位置。
图2为一个实施例中视频检测方法的流程示意图,以该方法由计算机设备(图1中的终端或服务器)执行为例进行说明;该方法包括以下步骤:
步骤S202,获取待检测视频对应的视频帧序列。
待检测视频为待进行毛玻璃检测的视频,在一个实施例中,可以将视频平台待发布的视频作为待检测视频。
待检测视频包括多个视频帧,各视频帧对应的时刻不同,按照视频帧对应的时刻的先后顺序,对视频帧进行排列,可以得到视频帧序列。其中,视频帧序列可以是根据待检测视频包括的所有视频帧形成,也可以是根据待检测视频的部分视频帧形成。
图3为一个实施例中获取视频帧序列的流程示意图,参照图3,计算机设备可以执行如下步骤:步骤S302,获取待检测视频,将待检测视频按待检测视频的帧率依次切分,得到多个视频分片;步骤S304,从每个视频分片中按预设时间间隔采样,获取预设数量的视频帧;步骤S306,基于从每个视频分片得到的预设数量的视频帧,得到视频帧序列。
其中,视频分片是按照待检测视频的帧率,对待检测视频进行切分得到的片段,例如待检测视频的帧率为F,待检测视频的帧数为A,从该检测视频的首个视频帧开始,每隔F帧进行一次切分,得到相应的视频分片。按照帧率F,对包括A帧的待检测视频切分完毕后,可以得到A/F个视频分片。其中,待检测视频的帧率的计算方式可以是:利用OpenCV开源组件的cv2.CAP_PROP_FPS函数进行计算。
接着,按照预设时间间隔和预设数量,对单个视频分片进行采样,得到预设数量的视频帧;示例性地,按照帧率切分得到视频分片,该视频分片包括视频帧数量为F,设预设数量为N,那么预设时间间隔可以通过帧数表征,为F/N,每隔F/N帧,采样一次,从单个视频分片中得到N个视频帧。
对每个视频分片进行上述采样,可以得到每个视频的N个视频帧,基于每个视频的N个视频帧,以及各视频帧对应的时刻,按照时间先后顺序,对视频帧进行排列,得到视频帧序列。其中,上述的视频帧可以存储为JPG(Joint Photographic Experts)格式图像。
上述实施例中,按预设时间间隔对视频分片进行采样,以按时间平均分布进行采样,使得视频帧序列可以较为全面地反映待检测视频;并且,按照待检测视频的帧率,对待检测视频进行切分,形成视频分片,可以进一步提高视频帧序列的全面反映度。
步骤S204,通过训练好的毛玻璃区域检测模型,依次对视频帧序列中各视频帧进行毛玻璃检测,获得视频帧序列中存在毛玻璃区域的目标视频帧以及目标视频帧中毛玻璃区域的位置。
其中,毛玻璃区域检测模型可以是基于深度学习的方法构建的,以使该毛玻璃区域检测模型可以学习到用于检测毛玻璃区域的知识,用于检测毛玻璃区域的知识包括:高宽比多样、尺寸大小多样、模糊度多样、嵌有不同样式(如文本样式和图标样式),进而,毛玻璃区域检测模型对毛玻璃区域的变异情况具有较强的适应能力。为了使毛玻璃区域检测模型可以学习到用于检测毛玻璃区域的上述知识,所用的训练样本包括的毛玻璃区域在高宽比、尺寸大小、模糊度、嵌入的样式(如文本样式和图标样式)有所不同,丰富多样。
毛玻璃区域检测模型对视频帧进行毛玻璃检测后,输出的检测结果包括:视频帧是否存在毛玻璃区域,以及针对存在毛玻璃区域的视频帧,毛玻璃区域的位置。其中,视频帧序列中存在毛玻璃区域的视频帧称为目标视频帧。
计算机设备在得到视频帧序列后,将视频帧序列的视频帧依次输入毛玻璃区域检测模型中,以使毛玻璃检测模型依次对视频帧进行毛玻璃检测,并输出各视频帧对应的检测结果,以确定存在毛玻璃区域的目标视频帧和目标视频帧中毛玻璃区域的位置。
步骤S206,对于待检测视频中连续的目标视频帧,根据毛玻璃区域的位置的重合度进行聚类,得到多个连续的目标视频片段。
其中,任两个目标视频帧之间是否为连续的目标视频帧,可以根据这两个目标视频帧对应的呈现时间之间的差距是否小于等于阈值来判断,阈值例如是0.5秒。
在一个实施例中,计算机设备可以获取任两个目标视频帧;当任两个目标视频帧对应的呈现时间的差距小于等于阈值时,确定任两个目标视频帧为连续的目标视频帧。
具体地,计算机设备在根据毛玻璃区域检测模型确定各目标视频帧后,保存目标视频帧以及对应的呈现时间。接着,按照呈现时间的先后顺序,对目标视频帧进行排列,判断相邻两个的目标视频帧之间是否为连续的目标视频帧。其中,在判断相邻两个的目标视频帧之间是否为连续的目标视频帧时,计算机设备可以获取相邻两个的目标视频帧的呈现时间,当相邻两个的目标视频帧的呈现时间的差距小于等于阈值时,确定相邻两个的目标视频帧为连续的目标视频帧。
上述实施例中,按照阈值以及两个目标视频帧的呈现时间之间的差距,判断目标视频帧的连续性,提高连续性判断的便捷性。
其中,毛玻璃区域的位置的重合度,是指毛玻璃区域在两个视频帧的位置的重合度,重合度越高,毛玻璃区域在这两个视频帧的聚类性越高。
计算机设备在得到连续的目标视频帧后,可以按照毛玻璃区域在各目标视频帧的位置的重合度,对目标视频帧进行聚类,得到多个连续的目标视频片段,其中同个目标视频片段内相邻的目标视频帧连续,且毛玻璃区域在该目标视频片段内的各目标视频帧的位置重合度较高,位置相近。
在一个实施例中,毛玻璃区域的位置的重合度可以利用杰卡德距离衡量,也即,计算机设备可以获取连续的目标视频帧的毛玻璃区域的交集面积与并集面积之间的比值;将比值作为连续的目标视频帧中毛玻璃区域的位置的重合度。
示例性地,连续的两个目标视频帧分别记为①和②,计算机设备可以基于目标视频帧①中毛玻璃区域的位置,目标视频帧②中毛玻璃区域的位置,得到目标视频帧①和目标视频帧②中毛玻璃区域的交集面积与并集面积,将交集面积和并集面积之间的比值作为连续的目标视频帧①和目标视频帧②中毛玻璃区域的位置的重合度。
上述实施例中,根据毛玻璃区域在目标视频帧中的交集面积与并集面积之间的比值,得到相应的重合度,更准确地表征毛玻璃区域在目标视频帧的聚类性。
步骤S208,输出多个连续的目标视频片段各自在待检测视频中的起止时间以及毛玻璃区域的位置。
由于单个视频中的毛玻璃区域不是一成不变的,毛玻璃区域在视频中的出现时间和出现区域可能出现变化,因此,本申请在视频的层面进行毛玻璃区域的融合,得到多个连续的目标视频片段。接着,将各连续的目标视频片段映射到时间轴,得到各连续的目标视频片段在待检测视频中的起止时间,并以标准格式输出;另外,根据单个连续的目标视频片段内各目标视频帧中毛玻璃区域的位置,可以得到单个连续的目标视频片段的毛玻璃区域的位置。图4为一个实施例中毛玻璃区域检测的效果示意图,参照图4,通过上述步骤S202至S208的处理后,可以获取待检测视频中毛玻璃区域的位置。其中,各连续的目标视频片段各自在待检测视频中的起止时间以及毛玻璃区域的位置,例如是:
{
[时间段1,(左上角坐标x值,左上角坐标y值,右下角坐标x值,右下角坐标y值)],
[时间段2,(左上角坐标x值,左上角坐标y值,右下角坐标x值,右下角坐标y值)],
};
其中,时间段表征单个连续的目标视频片段在待检测视频中的起止时间;左上角坐标x值、左上角坐标y值、右下角坐标x值、右下角坐标y值为毛玻璃区域在单个连续的目标视频片段中的位置。
相应的实例可以为:
{
[0s-10s,(0,0,200,200)],
[12s-30s,(0,0,200,400)],
}。
上述视频检测方法中,通过训练好的毛玻璃区域检测模型,对视频进行逐帧检测,不仅给出了存在毛玻璃区域的目标视频帧,还给出了目标视频帧中毛玻璃区域的位置,实现毛玻璃的高精度检测;并且在得到目标视频帧后,根据视频帧的连续性和毛玻璃区域位置的重合度,对目标视频帧进行切分,形成连续的目标视频片段,同一视频片段内毛玻璃区域的位置的重合度高于阈值,由此,输出的目标视频片段在待检测视频中的起止时间可以反映毛玻璃区域在待检测视频的起止时间,目标视频片段中毛玻璃区域的位置可以反映毛玻璃在待检测视频中的位置,提高毛玻璃检测的精度,该方法可以很好的应用于版权管理、版权保护、视频侵权管理、侵权防护、视频安全、版权安全维护等场景。
在一个实施例中,在通过毛玻璃区域检测模型对视频帧进行毛玻璃检测时,计算机设备可以将视频帧序列中的各视频帧,依次输入训练好的毛玻璃区域检测模型;通过毛玻璃区域检测模型的特征提取网络,提取视频帧对应的特征图;通过毛玻璃区域检测模型的毛玻璃分类网络,基于视频帧的特征图,获得特征图中各特征点的类别与置信度。
其中,毛玻璃区域检测模型可以包括特征提取网络和毛玻璃分类网络。特征提取网络可以是基于ImageNet数据集进行预训练得到的DarkNet53、ResNet或Transformer。在实际应用中,如果毛玻璃区域占据视频的画面的面积较大,毛玻璃分类网络可以是针对大目标的区域检测通路网络,以对毛玻璃区域进行检测,其输出的特征图可以是:13*13*18三维矩阵。
构建毛玻璃区域检测模型的特征提取网络和毛玻璃分类网络所用的底层组件可以包括:卷积组件(CONV)、批量归一化组件(BN)、分段线性组件(Leaky Relu)、矩阵相加组件(Add)、补0组件(Zero padding)。关于这些底层组件,具体说明参照表1。
Figure BDA0003652159000000161
Figure BDA0003652159000000171
表1
接着,可以以这些底层组件,向上构造DBL单元、Res unit单元、RESN单元,图5为一个实施例中各单元的构成示意图,参照图5,DBL单元是根据依次相连的卷积组件、批量归一化组件和分段线性组件形成;Res unit单元包括两个DBL单元和一个矩阵相加组件,其中,第一个DBL单元、第二个DBL单元和矩阵相加组件依次相连,输入第一个DBL单元的输入数据还输给矩阵相加组件;RESN单元包括补0组件、DBL单元和n个Res unit单元,其中,补0组件和DBL单元依次相连,DBL单元的输出结果输入至并行的n个Res unit单元中。其中,当RESN单元包括的Res unit单元的数量n为4时,RESN单元可以记为RES4;当RESN单元包括的Resunit单元的数量n为2时,RESN单元可以记为RES1。
基于上述底层组件和各单元,可以形成毛玻璃区域检测模型的特征提取网络和毛玻璃分类网络,图6为一个实施例中毛玻璃区域检测模型的构成示意图,参照图6,特征提取网络包括DBL单元和多个RESN单元,各RESN单元分别为RES1、RES2、RES8、RES8和RES4;其中,DBL单元、RES1、RES2、RES8、RES8和RES4依次相连。再参照图6,毛玻璃分类网络包括6个DBL单元和卷积组件,其中,5个DBL单元并行,并行的5个DBL单元的输出结果输入第6个DBL单元中,第6个DBL单元和卷积组件串行连接。
设视频帧的尺寸为416*416*3,经由图6示出的毛玻璃区域检测模型进行处理后,输出的特征图可以是13*13*18三维矩阵。该三维矩阵中,包括13*13个特征点,每个特征点对应的预测信息包括:
(1)每个预测候选框的预测位置;
(2)预测置信度,表征预测候选框存在毛玻璃区域的概率;
(3)类别,表征预测候选框存在目标是否为毛玻璃区域。
当毛玻璃分类网络为区域检测通路网络时,可以以每个特征点为中心点,称之为锚,以起到先验指导的作用;接着,可以输出以该特征点为中心的三种宽高比(高度记为b_h,宽度记为b_w)的预测候选框,预测候选框能够较好地框定出毛玻璃区域。其中,预测候选框的预测位置可以通过中心点的坐标t_x和t_y、以及预测候选框的高度b_h和宽度b_w表征。
图7为一个实施例中锚结构作用示意图,参照图7,小框701形成的尺寸为13*13,代表13*13特征图;其中,每个小框701的中心点703对应特征图的特征点;以特征点为中心,形成不同宽高比的预测候选框702。
三种宽高比的预测候选框,属于超参数。在深度学习中,超参数是在开始深度学习之前设置的参数,与通过训练得到的参数不同。通常情况下,可以对超参数进行优化,选择一组最优超参数,以提高深度学习的性能和效果。关于预测候选框的宽高比的设置,在下文介绍。
在一个实施例中,在得到毛玻璃区域检测模型的毛玻璃分类网络输出的特征图中各特征点的类别与置信度后,计算机设备可以基于各特征点对应的区域为毛玻璃区域的置信度,以及各特征点对应的预测候选框的预测位置,确定视频帧的毛玻璃区域检测结果,毛玻璃区域检测结果包括视频帧中是否存在毛玻璃区域以及毛玻璃区域的位置;根据视频帧序列中各视频帧的毛玻璃区域检测结果,获得视频帧序列中存在毛玻璃区域的目标视频帧以及目标视频帧中毛玻璃区域的位置。
单个视频帧的各特征点有对应的类别和置信度,通过类别和置信度可以确定哪些特征点对应的区域较大可能为毛玻璃区域,若该视频帧存在某个特征点,该特征点对应的区域为毛玻璃区域的可能度大于阈值,那么,该视频帧为目标视频帧;对于可能度大于阈值的特征点的预测候选框的预测位置,计算机设备可以将该各预测候选框的预测位置作为毛玻璃区域的位置,得到视频帧的毛玻璃检测结果,也即该视频帧存在毛玻璃区域以及毛玻璃区域的位置。
上述实施例中,由于毛玻璃分类网络是通过大量样本训练得到的,学习到了检测毛玻璃区域的相关知识,因此,通过毛玻璃分类网络输出的特征图得到的各视频帧的毛玻璃区域检测结果,可信度较高,检测结果准确性较高。
以下介绍毛玻璃区域检测模型的训练过程。
毛玻璃区域检测模型的训练可以是有监督训练、无监督训练或者是半监督训练,半监督训练是指结合有监督训练和无监督训练。当采用半监督训练的方式时,可以先利用有标注训练样本集合对毛玻璃区域检测模型进行训练,得到初始模型,然后利用有标注训练样本集合和无标注训练样本集合对初始模型进行训练并得到相应的模型,将该模型作为毛玻璃区域检测模型,以用于毛玻璃检测。
以下介绍有监督训练的内容:
在一个实施例中,计算机设备可以获取用于训练毛玻璃区域检测模型的有标注训练样本集合;根据有标注训练样本集合中各个有标注训练样本的标注数据,确定有标注训练样本中毛玻璃区域的宽高比;对有标注训练样本中毛玻璃区域的宽高比进行聚类,得到多个类中心;将类中心所表示的宽高比作为训练毛玻璃区域检测模型的超参数后,使用有标注训练样本对毛玻璃区域检测模型进行有监督训练。
在有监督训练之前,可以先确定作为超参数的预测候选框的宽高比。具体地,当有标注训练样本存在毛玻璃区域时,其标注数据包括框选该毛玻璃区域的标注候选框的宽高比;在有标注训练样本集合中,计算机设备可以获取存在毛玻璃区域的有标注训练样本对应的宽高比,并对宽高比进行聚类,聚类算法可以是K-means聚类算法(K-meansclustering algorithm);在聚类完成后,计算机设备可以得到多个类中心,例如三个类中心,接着,将类中心对应的宽高比作为超参数,以在有监督训练过程中,毛玻璃区域检测模型基于该超参数,对上述有标注训练样本集合进行预测,得到相应的预测结果。
上述实施例中,在进行有监督训练之前,先基于该有监督训练所用的有标注训练样本集合,确定作为超参数的预测候选框的宽高比,提高毛玻璃区域检测模型的学习能力。
在一个实施例中,用于训练毛玻璃区域检测模型的有标注训练样本可以是通过标注方式(如人工标注)获得的。以下介绍通过标注方式获取有标注训练样本的过程。
图8为一个实施例中通过标注方式得到有标注训练样本的流程示意图,参照图8,计算机设备可以执行如下步骤:步骤S802,获取多个样本视频;步骤S804,对于每个样本视频,从样本视频的首个视频帧开始遍历,当遍历到的视频帧与邻近视频帧不相似时,将遍历到的视频帧加入待标注训练样本集合中,当遍历的视频帧与邻近视频帧相似时,则略过遍历到的视频帧,直至样本视频的视频帧遍历结束;步骤S806,基于多个样本视频遍历完成时获得的待标注训练样本集合,得到用于训练毛玻璃区域检测模型的有标注训练样本集合。
样本视频可以是从互联网获取的,以scrapy库作为底层API(ApplicationProgramming Interface,应用程序编程接口)库,向上构建视频平台的视频爬取脚本,通过视频爬取脚本,在视频平台中爬取视频,并作为样本视频,该样本视频的存储格式可以是mp4格式。在爬取过程中,为获得随机爬取的效果,可以以随机翻页、刷新首页推送等方式刷新页面中的视频。
为了提高标注效率,可以排除相似画面的视频帧,以免重复标注,基于此,本申请实施例采用基于近视镜头的视频帧去重方法。具体地,可以先设定关键视频帧样本库S,接着,对每个样本视频中的视频帧(样本视频的视频帧的存储格式可以是RGB格式)进行去重遍历:从样本视频的首个视频帧开始遍历,当遍历到的视频帧与其邻近视频帧(如前5秒内的视频帧)不相似时,将该遍历到的视频帧加入关键视频帧样本库S,当遍历到的视频帧与其邻近视频帧相似时,则略过该遍历到的视频帧,不将该遍历到的视频帧加入关键视频帧样本库S;接着,对下一视频帧进行去重遍历,直至样本视频的视频帧遍历完成。
在对每个样本视频的视频帧遍历完成后,将关键视频帧样本库S包括的视频帧作为待标注训练样本集合,并进行标注,得到有标注训练样本集合。
在判断两个视频帧是否相似时,计算机设备可以获取这两个视频帧的感知哈希特征值,计算这两个视频帧的感知哈希特征值之间的汉明距离是否小于阈值(该阈值可以设为3),如果这两个视频帧的感知哈希特征值之间的汉明距离小于阈值,则确定这两个视频帧相似,如果这两个视频帧的感知哈希特征值之间的汉明距离大于阈值,则确定这两个视频帧不相似。
图9为一个实施例中标注过程示意图,参照图9,在对关键视频帧样本库S包括的视频帧进行标注时,可以基于标注应用程序进行,在标注应用程序中,输入关键视频帧样本库S包括的视频帧所在文件夹,遍历到关键视频帧样本库S包括的所有视频帧;图10为一个实施例中标注数据示意图,参照图10,对于存在毛玻璃区域的,通过鼠标操作标注候选框,则标注应用程序会自动以[视频帧路径宽高标签x1 y1 x2 y2]格式存储该视频帧的标注数据,其中,x1、y1、x2和y2分别表示标注候选框的左上角坐标x值、左上角坐标y值、右下角坐标x值和右下角坐标y值;(x1,y1)代表标注候选框左上角,(x2,y2)代表标注候选框右上角。对于没有毛玻璃区域的视频帧,可以无需标注候选框,只需将其标签设为无毛玻璃区域。
上述实施例中,对样本视频的视频帧进行去重遍历,当遍历到的视频帧与邻近视频帧不相似时,对该遍历到的视频帧进行标注,以排除画面相似的视频帧,避免重复标注,提高标注效率。
在一个实施例中,从互联网爬取到的样本视频中,大部分是无毛玻璃区域的视频帧,有毛玻璃区域的视频帧过少的话,会导致毛玻璃区域检测模型训练困难,泛化性较差。由此,本申请实施例通过仿真方式,对通过标注方式获得的有标注训练样本进行补充。以下介绍通过仿真方式获得有标注训练样本的过程。
在一个实施例中,计算机设备可以获取有标注训练样本集合中标注无毛玻璃区域的无毛玻璃训练样本;按照设定的嵌入位置,对无毛玻璃训练样本进行毛玻璃仿真嵌入,得到仿真毛玻璃训练样本;将嵌入位置,作为仿真毛玻璃训练样本的标注数据后,将标注了毛玻璃区域的仿真毛玻璃训练样本添加至有标注训练样本集合中。
计算机设备可以获取通过上述标注方式得到标注着无毛玻璃区域的无毛玻璃训练样本,并对这些无毛玻璃训练样本进行仿真处理。计算机设备可以按照设定的嵌入位置,对无毛玻璃训练样本进行毛玻璃仿真嵌入,得到仿真毛玻璃训练样本;根据嵌入位置,得到仿真毛玻璃训练样本的标注数据中的x1、y1、x2和y2,并将标注了毛玻璃区域的仿真毛玻璃训练样本添加至有标注训练样本集合中。
上述实施例中,通过仿真方式得到仿真毛玻璃训练样本,可以降低标注成本,而且,仿真方式多种多样,形成的仿真毛玻璃训练样本尽可能地涵盖了各种场景的毛玻璃区域,提高毛玻璃区域检测模型的泛化性能。
在一个实施例中,毛玻璃仿真嵌入处理过程具体包括:计算机设备可以按照设定的嵌入位置,基于毛玻璃模糊度、毛玻璃区域的文本样式和毛玻璃区域的图标样式中的至少一种,对无毛玻璃训练样本进行毛玻璃仿真嵌入,得到仿真毛玻璃训练样本。
图11为一个实施例中毛玻璃仿真嵌入涉及的样式示意图,参照图11,毛玻璃仿真嵌入涉及的样式可以包括毛玻璃模糊度、文本样式和图标样式中的至少一种。
关于毛玻璃模糊度,可以采用高斯模糊方式来确定,其中涉及到的参数参照表2。
Figure BDA0003652159000000221
表2
计算机设备可以基于上述三种参数,得到不同的参数组合,并根据各参数组合,采用高斯模糊方式,得到不同的毛玻璃模糊度。在根据单个参数组合,得到毛玻璃模糊度时,该参数组合包括的各参数对应的值可以是随机方式确定的,以模拟各式各样的毛玻璃区域。
接着,计算机设备可以在无毛玻璃训练样本上随机选择嵌入位置进行毛玻璃渲染;为使得仿真效果更贴近实际场景,嵌入位置可以满足以下两点之一:(1)有一条边长度为无毛玻璃训练样本的宽度且该边贴近无毛玻璃训练样本上边缘或下边缘;(2)有一条边长度为无毛玻璃训练样本的高度且该边贴近无毛玻璃训练样本左边缘或右边缘。
在确定嵌入位置后,可以按照相应的毛玻璃模糊度,对无毛玻璃训练样本进行渲染,根据嵌入位置,得到仿真毛玻璃训练样本的标注数据中的x1、y1、x2和y2。
关于文本样式,文本样式主要与字体、文本颜色和文本内容有关。
对于字体,可以设定多种,每次毛玻璃仿真嵌入时,可以从设定的多种字体中,随机选择一种字体,设定的多种字体可以参照表3。
宋体 黑体 楷体 华文琥珀
华文隶书 华文新魏 华文行楷 华文仿宋
手札体 苹方 凌慧体 娃娃体
表3
图12为一个实施例中文本颜色调整示意图,参照图12,对于文本颜色,每次毛玻璃仿真嵌入时,可以在R、G、B三个图像颜色通道上,在[0,240]的范围中随机取值,以使得颜色分布更加多样化,并且240为取值的最大值,可以使得文本不至于过于浅色。
对于文本内容,可以从互联网爬取新闻文本,对新闻文本进行分句后,以每个句子为独立单位,构造文本库。在每次毛玻璃仿真嵌入时,从文本库中随机选取一个句子作为此次毛玻璃仿真嵌入的文本内容。
对于每张无毛玻璃训练样本,可以进行0至5次不等的文本样式的嵌入,每次嵌入可以按照以上阐述进行文本渲染,并随机嵌入位置进行嵌入,以此完成文本嵌入,得到相应的仿真毛玻璃训练样本。
关于图标样式,图标样式主要与图标内容本身以及对图标的外观变换有关。
对于图标内容本身,计算机设备可以从互联网爬取大量的尺寸较小的图标,以及图像,并以此构建一个图标库,再以随机的方式,从图标库中选择图标。
对于图标的外观变换,计算机设备可以采用旋转、镜像、透明度、锐度和色差等变换方式,在每次毛玻璃仿真嵌入的时候,随机选择0至2种变换方式,对所选择的图标进行变换,然后在嵌入无毛玻璃训练样本中。
对于每张无毛玻璃训练样本,进行0至3次不等的图标样式的嵌入,每次嵌入均按照以上阐述进行处理,并随机嵌入位置进行嵌入,以此完成图标样式的嵌入。
上述实施例中,从毛玻璃模糊度、毛玻璃区域的文本样式和毛玻璃区域的图标样式中的至少一种,对无毛玻璃训练样本进行毛玻璃仿真嵌入,得到各种各样的仿真毛玻璃训练样本,以使得毛玻璃区域检测模型可以学习到检测各种场景下的毛玻璃区域的相关知识,提高毛玻璃区域检测模型的泛化性能。
在一个实施例中,毛玻璃区域检测模型的有监督训练步骤包括:利用毛玻璃区域检测模型对有标注训练样本集合中的有标注训练样本进行预测,得到有标注训练样本的特征图中各特征点的预测信息;特征点的预测信息包括:预测候选框的预测位置、预测候选框中是否存在毛玻璃的预测置信度以及预测候选框是否为毛玻璃的预测置信度;基于特征图的特征点的预测信息以及有标注训练样本的标注数据,得到有标注训练样本的第一类损失、第二类损失和第三类损失;其中,第一类损失表征预测候选框的位置和标注候选框的位置之间的损失;第二类损失表征特征点对应的区域存在毛玻璃的预测置信度和标注置信度之间的损失,以及表征特征点对应的区域不存在毛玻璃的预测置信度和真实置信度之间的损失;第三类损失表征特征点对应的区域是否存在毛玻璃的预测置信度和真实置信度之间的损失;基于有标注训练样本集合中的有标注训练样本的第一类损失、第二类损失和第三类损失,对毛玻璃区域检测模型的模型参数进行调整,以对毛玻璃区域检测模型进行有监督训练。
计算机设备可以通过上述标注方式和仿真方式,得到有标注训练样本集合。接着,将有标注训练样本集合输入毛玻璃区域检测模型中进行有监督训练,有监督训练所用的损失函数为:
Figure BDA0003652159000000241
上述损失函数的前两项的损失为第一类损失,第一类损失表征预测候选框的位置和标注候选框的位置之间的损失;其中,λbox为候选框损失权重,N1为特征图的长和宽(长宽相同,可以设定N1=13),tx和ty是标注候选框的中间点,t′x和t′y是预测候选框的中间点,th和tw是标注候选框的高和宽,t′h和t′w是预测候选框框的高和宽。
上述损失函数的第三项和第四项的损失为第二类损失,第二类损失表征特征点对应的区域存在毛玻璃的预测置信度和标注置信度之间的损失,以及表征特征点对应的区域不存在毛玻璃的预测置信度和真实置信度之间的损失;其中,λobj为预测候选框的置信度权重,
Figure BDA0003652159000000251
为第i个特征点的第j个预测候选框存在毛玻璃的预测置信度,cij是第i个特征点的第j个预测候选框存在毛玻璃目标的标注置信度;λnoobj为预测候选框无毛玻璃的置信度权重,
Figure BDA0003652159000000252
为第i个特征点的第j个预测候选框无毛玻璃的预测置信度。
上述损失函数的第五项的损失为第三类损失,第三类损失表征特征点对应的区域是否存在毛玻璃的预测置信度和真实置信度之间的损失;其中,λclass是类别权重,p′ij(c)为第i个特征点的第j个预测候选框对第c个类别的预测置信度,pij(c)为第i个特征点的第j个预测候选框对第c个类别的标注置信度。本申请实施例中,由于只有毛玻璃这一类别,无毛玻璃为背景,不视为类别,因此,c可以设为1。
按照上述损失函数的各项,得到各类损失后,按照上述损失函数各项之间的加减关系,得到有标注训练样本集合的有标签训练损失,并利用该有标签训练损失对毛玻璃区域检测模型的模型参数进行调整,以对毛玻璃区域检测模型进行有监督训练。其中,在有监督训练过程中,训练的优化器可以采用动量的SGD函数,初始学习率为0.001,且采用阶梯下降的学习率递减策略,每5个epoch(轮)学习率降低为原来的0.96倍。当有标签训练损失不再下降的时候,有监督训练终止。
上述实施例中,在进行有监督训练的时候,结合多类损失进行模型参数调整,提高毛玻璃区域检测模型的检测性能。
在有监督训练过程中,通过标注方式获得有标注训练样本,成本较大,导致有标注训练样本天然较少,虽然利用无毛玻璃训练样本构建的仿真毛玻璃训练样本,可以对通过标注方式得到的有标注毛玻璃样本进行补充,但是,所能补充的数量也受到无毛玻璃训练样本的数量限制。通过标注方式和通过仿真方式得到的有标注训练样本数量受到限制,难以使得毛玻璃检测模型达到较佳的检测性能。
基于上述介绍的互联网视频下载方法,所能获得的视频数量,较不受限,本申请实施例提供一种对毛玻璃区域检测模型进行半监督训练的方式,该半监督训练的方式主要是利用无标注训练样本集合和有标注训练样本集合,对毛玻璃区域检测模型进行训练,以提升毛玻璃检测模型的检测性能,提高模型泛化性。
在一个实施例中,计算机设备可以获取无标注训练样本集合,对无标注训练样本集合中的无标注训练样本进行数据增强,基于无标注训练样本和增强后的训练样本,得到无标注样本相似对;将通过有标注训练样本集合进行有监督训练得到的毛玻璃区域检测模型作为初始模型,利用初始模型分别对无标注样本相似对包括的训练样本进行预测,获取无标注样本相似对包括的训练样本各自的预测结果;基于无标注样本相似对包括的训练样本各自的预测结果之间的差异,得到无标注样本相似对的一致性损失;基于无标注样本相似对的一致性损失和有标注训练样本的有标签训练损失,得到联合损失,利用联合损失对初始模型的模型参数进行调整,得到训练好的毛玻璃区域检测模型。
其中,无标注样本相似对包括无标注训练样本(可以记为U)及对其增强得到的增强后的训练样本(可以记为U’),增强方式可以是:调整无标注训练样本的饱和度、对比度和色调,增加高斯噪音。
在一个实施例中,无标注训练样本集合可以是经过类别平衡化处理得到的,图13为一个实施例中类别平衡化处理流程示意图,参照图13,类别平衡化处理主要包括:步骤S1302,获取初始的无标注训练样本集合,通过初始模型,对初始的无标注训练样本集合中各无标注训练样本进行预测,根据预测结果确定无标注训练样本的伪标签;伪标签包括第一标签和第二标签;步骤S1304,当预测结果指示伪标签为第一标签的无标注训练样本的数量多于伪标签为第二标签的无标注训练样本的数量时,按伪标签为第二标签的无标注训练样本的数量,对伪标签为第一标签的无标注训练样本进行采样,根据伪标签为第二标签的无标注训练样本与采样得到的伪标签为第一标签的无标注训练样本,得到无标注训练样本集合。
在初始模型对初始的无标注训练样本集合进行预测后,得到初始的无标注训练样本集合中各无标注训练样本的伪标签,若第一标签下的无标注训练样本的数量多于第二标签下的无标注训练样本的数量,则按伪标签为第二标签的无标注训练样本的数量,对伪标签为第一标签的无标注训练样本进行采样,以使采样得到的第一标签的无标注训练样本的数量与第二标签的无标注训练样本的数量一致;接着,根据采样得到的第一标签的无标注训练样本与第二标签的无标注训练样本吗,得到无标注训练样本集合,该无标注训练样本集合为上述经过类别平衡化处理得到的。
上述实施例中,基于初始模型的预测结果得到的伪标签,进行类别平衡化处理,避免毛玻璃区域检测模型对数量较多的类别的预测过拟合,提高毛玻璃区域检测模型的检测性能。
计算机设备得到经过类别平衡化处理的无标注训练样本集合后,按照上述介绍的增强方式,对无标注训练样本进行增强,形成无标注样本相似对。接着,利用初始模型分别对无标注样本相似对包括的训练样本进行预测,该预测可以是一致性预测。
一致性预测是半监督训练中用来从无标签训练训练样本中提取信号的主要方法之一,将一致性预测组合到半监督训练中,以要求在数据发生扰动后,毛玻璃区域检测模型仍然能准确地预测该数据。一致性预测具体指的是,对于海量的、易获取的无标注训练样本U和U增强后的训练样本U’(此处的增强方式在上面有所描述),设定的目标函数强迫毛玻璃区域检测模型对无标注训练样本U和U增强后的训练样本U’作出一致性预测,即毛玻璃区域检测模型对这两者的预测结果应该是一致的。一致性预测相当于给毛玻璃区域检测模型的泛化能力提出了目标,并以大量的无标签训练样本来指导毛玻璃区域检测模型朝着高泛化性的目标前进。
上述设定的目标函数可以采用MSE设定,为:
Figure BDA0003652159000000281
其中,pθ(ui)是无标注训练样本U的预测结果,pθ(u′i)是增强后的训练样本U’的预测结果,函数pθ输出为13*13*18的三维矩阵,以上公式的减法代表两个13*13*18的点对点减法,平方代表减法后所有矩阵点的平方和;i代表前批次中,第i个训练样本,n代表当前批次训练样本的数量,训练过程以降低损失函数为目标。
另外,上述目标函数在采用MSE设定的基础上,还可以增加KL散度等损失函数作为补充。
图14为一个实施例中半监督训练框架示意图,参照图14,计算机设备在初始模型输出的无标注样本相似对包括的训练样本各自的预测结果之间的差异,得到无标注样本相似对的一致性损失,接着,结合有标注训练样本的有标签训练损失,得到联合损失,基于联合损失计算回传梯度,根据回传梯度对初始模型的模型参数进行调整,以进行半监督训练,得到训练好的毛玻璃区域检测模型。
其中,联合损失的公式可以为:Lθ(y)=LossN+λUθ;其中,Lθ(y)为联合损失,LossN为有标签训练损失,Uθ为一致性损失,λ为调整有标签训练损失和一致性损失之间占比的参数。
上述实施例中,利用无标注训练样本集合得到一致性损失,利用有标注训练样本集合得到有标签训练损失,联合一致性损失和有标签训练损失,对毛玻璃区域检测模型的模型参数进行调整,以进行半监督训练,提升毛玻璃检测模型的检测性能,提高模型泛化性能。
在一个实施例中,在半监督训练的过程中,由于有标注训练样本较少,可能出现过拟合的情况,为了防止半监督训练过程中出现快速过拟合的情况,参照图14,本申请实施例提出信号缓释的策略。
在一个实施例中,计算机设备在基于无标注样本相似对的一致性损失和有标注训练样本的有标签训练损失,得到联合损失的过程中,可以根据初始模型对有标注训练样本的预测结果,获取有标注训练样本中是否存在毛玻璃区域的预测置信度;将是否存在毛玻璃区域的预测置信度小于等于阈值的有标注训练样本作为目标训练样本;基于无标注样本相似对的一致性损失和目标训练样本的有标签训练损失,得到联合损失。
上述方式中,对于有标注训练样本,预测置信度过高,表征毛玻璃区域检测模型对这部分样本的预测过于自信,这部分样本容易导致毛玻璃区域检测模型在训练过程中对这部分样本过拟合;基于此,本申请实施例中,将预测置信度小于或等于阈值的有标注训练样本作为目标训练样本,参与损失计算,而预测置信度大于阈值的有标注训练样本则剔除,不参与损失计算,其误差无法反向传递,从而避免毛玻璃区域检测模型在训练过程中对这部分样本过拟合。
具体而言,在训练过程的t时刻,设定阈值为ηt,且1/K≤ηt≤1,其中,K是类别数,在本申请实施例中,K=2。当某个有标注训练样本在类别上的预测置信度大于阈值ηt时,剔除该有标注训练样本,不参与损失计算。
上述实施例中,将预测置信度小于或等于阈值的有标注训练样本作为目标训练样本,参与损失计算,而预测置信度大于阈值的有标注训练样本则剔除,不参与损失计算,其误差无法反向传递,从而避免毛玻璃区域检测模型在训练过程中对这部分样本过拟合。
在一个实施例中,计算机设备可以对无标注样本相似对包括的训练样本各自的预测结果进行锐化处理,根据锐化处理的预测结果计算无标注样本相似对的一致性损失。
当有标注训练样本较少时,初始模型对有标注训练样本认知不足,无标注训练样本的预测结果包括的预测值分布,可能会很平坦,这样会导致联合损失主要来自于有标注训练样本,这与利用无标签训练样本进行半监督训练的思路是不符的。无标注训练样本的预测结果包括的预测值分布,较为丰富的话,有利于半监督训练。
基于此,本申请实施例对无标注样本相似对包括的训练样本各自的预测结果进行锐化处理,根据锐化处理的预测结果计算无标注样本相似对的一致性损失,得到相应的联合损失。
上述实施例中,对无标注样本相似对包括的训练样本各自的预测结果进行锐化处理,避免联合损失主要来自有标签训练损失,有利于半监督训练。
在一个实施例中,锐化处理方式包括:当无标注样本相似对包括的训练样本的预测结果中的预测置信度大于阈值时,保留无标注样本相似对以参与一致性损失的计算;当无标注样本相似对包括的训练样本的预测结果中的预结果小于阈值时,剔除无标注样本相似对,不参与一致性损失的计算。
无标注训练样本的预测置信度较低,表征初始模型对该无标注训练样本的预测效果不好,由此,该无标注训练样本所处的无标注样本相似对,不参与一致性损失计算。无标注训练样本的预测置信度较高,表征初始模型对该无标注训练样本的预测效果较好,由此,该无标注训练样本所处的无标注样本相似对,可以参与一致性损失计算。
上述实施例中,剔除预测置信度较低的无标注训练样本,不参与一致性损失计算,属于锐化处理的基于置信度的掩码方式,实现对无标注训练样本的锐化处理,有利于半监督训练。
在一个实施例中,锐化处理方式还包括:最小化熵方式和Softmax控制方式。其中,最小化熵方式是在计算一致性损失时,加上熵的值,使得毛玻璃检测模型在预测时,可以趋近于熵小的无标注样本相似对。Softmax控制方式是通过调整Softmax函数控制输出值,其中,在类别上的置信度可以通过Softmax(l(X)/τ)计算,其中l(X)表示类别的置信度,τ表示温度,τ越小,分布越锐化。其中,在锐化处理过程中,可以采用基于置信度的掩码方式和最小化熵方式。
在一个实施例中,参照图14,计算机设备可以采用CDRLR(Cosine Decay RestartsLearning Rate)学习率衰减策略,较少的有标注训练样本可能会使得毛玻璃区域检测模型较早陷入局部极值点,图15为一个实施例中学习率衰减示意图,参照图15,Cosine循环衰减学习率具有周期循环的特点,学习率的有规律变化有助于以模型跳出局部极值点,寻找更优极值点。
在一个实施例中,本申请提供一种毛玻璃区域检测模型的训练方法,图16为一个实施例中毛玻璃区域检测模型的训练方法的流程示意图,以该方法由计算机设备(图1中的终端或服务器)执行为例进行说明;该方法包括以下步骤:
步骤S1602,通过有标注训练样本集合,对毛玻璃区域检测模型进行有监督训练得到初始模型。
其中,有标注训练样本可以是通过标注方式和仿真方式得到的。
通过标注方式得到有标注训练样本的过程包括:计算机设备获取多个样本视频;对于每个样本视频,从样本视频的首个视频帧开始遍历,当遍历到的视频帧与邻近视频帧不相似时,将遍历到的视频帧加入待标注训练样本集合中,当遍历的视频帧与邻近视频帧相似时,则略过遍历到的视频帧,直至样本视频的视频帧遍历结束;基于多个样本视频遍历完成时获得的待标注训练样本集合,得到用于训练毛玻璃区域检测模型的有标注训练样本集合。
通过仿真方式得到有标注训练样本的过程包括:计算机设备获取有标注训练样本集合中标注无毛玻璃区域的无毛玻璃训练样本;按照设定的嵌入位置,对无毛玻璃训练样本进行毛玻璃仿真嵌入,得到仿真毛玻璃训练样本;将嵌入位置,作为仿真毛玻璃训练样本的标注数据后,将标注了毛玻璃区域的仿真毛玻璃训练样本添加至有标注训练样本集合中。
步骤S1604,获取无标注训练样本集合,利用初始模型分别对无标注训练样本集合中的无标注训练样本与相应的增强训练样本进行预测,获取各自的预测结果,基于无标注训练样本与相应的增强训练样本各自的预测结果之间的差异,得到一致性损失。
其中,对无标注训练样本(可以记为U)及对其增强得到的增强训练样本(可以记为U’),增强方式可以是:调整无标注训练样本的饱和度、对比度和色调,增加高斯噪音。
计算机设备得到无标注训练样本U的预测结果和增强训练样本U’的预测结果后,按照
Figure BDA0003652159000000311
得到一致性损失。
其中,pθ(ui)是无标注训练样本U的预测结果,pθ(u′i)是增强后的训练样本U’的预测结果,函数pθ输出为13*13*18的三维矩阵,以上公式的减法代表两个13*13*18的点对点减法,平方代表减法后所有矩阵点的平方和;i代表前批次中,第i个训练样本,n代表当前批次训练样本的数量,训练过程以降低损失函数为目标。
步骤S1606,基于有标注训练样本的有标签训练损失与一致性损失对初始模型进行联合训练,得到训练好的毛玻璃区域检测模型。
联合损失的公式可以为:Lθ(y)=LossN+λUθ;其中,Lθ(y)为联合损失,LossN为有标签训练损失,Uθ为一致性损失,λ为调整有标签训练损失和一致性损失之间占比的参数。
上述实施例中,先对毛玻璃区域检测模型进行有监督训练,基于有监督训练得到的初始模型对无标注训练样本集合进行预测,得到无标注训练样本与相应的增强训练样本之间的一致性损失,基于有标注训练样本的有标签训练损失和一致性损失,对初始模型进行联合训练,可以在降低标注成本的同时,强化毛玻璃区域检测模型的检测性能,该方法可以很好的应用于版权管理、版权保护、视频侵权管理、侵权防护、视频安全、版权安全维护等场景。
为了更好地理解上述方法,以下详细阐述一个本申请实施例。图17为一个实施例中视频检测框架示意图,参照图17,本实施例中,主要包括:视频帧提取、视频帧的毛玻璃区域检测、多帧检测结果融合输出三个部分;在实现技术上,主要包括视频平均帧提取技术、基于深度学习的毛玻璃区域检测模型构建技术、训练样本筛选技术、仿真训练样本构建技术、半监督训练框架构建技术、多帧检测结果融合判断技术等。
本实施例主要包括如下步骤:
获取待检测视频,将待检测视频按待检测视频的帧率依次切分,得到多个视频分片;
从每个视频分片中按预设时间间隔采样,获取预设数量的视频帧;
基于从每个视频分片得到的预设数量的视频帧,得到视频帧序列;
将视频帧序列中的各视频帧,依次输入训练好的毛玻璃区域检测模型;
通过毛玻璃区域检测模型的特征提取网络,提取视频帧对应的特征图;
通过毛玻璃区域检测模型的毛玻璃分类网络,基于视频帧的特征图,获得特征图中各特征点的类别与置信度;
获取毛玻璃分类网络输出的特征图中各特征点的类别与置信度;
基于特征图的各特征点对应的区域为毛玻璃区域的置信度,以及各特征点对应的预测候选框的预测位置,确定视频帧的毛玻璃区域检测结果,毛玻璃区域检测结果包括视频帧中是否存在毛玻璃区域以及毛玻璃区域的位置;
根据视频帧序列中各视频帧的毛玻璃区域检测结果,获得视频帧序列中存在毛玻璃区域的目标视频帧以及目标视频帧中毛玻璃区域的位置;
获取任两个目标视频帧;
当任两个目标视频帧对应的呈现时间的差距小于等于阈值时,确定任两个目标视频帧为连续的目标视频帧;
获取连续的目标视频帧的毛玻璃区域的交集面积与并集面积之间的比值;
将比值作为连续的目标视频帧中毛玻璃区域的位置的重合度;
对于待检测视频中连续的目标视频帧,根据毛玻璃区域的位置的重合度进行聚类,得到多个连续的目标视频片段;
输出多个连续的目标视频片段各自在待检测视频中的起止时间以及毛玻璃区域的位置。
本实施例中,训练毛玻璃区域检测模型的过程主要包括如下步骤:
获取用于训练毛玻璃区域检测模型的有标注训练样本集合;
根据有标注训练样本集合中各个有标注训练样本的标注数据,确定有标注训练样本中毛玻璃区域的宽高比;
对有标注训练样本中毛玻璃区域的宽高比进行聚类,得到多个类中心;
将类中心所表示的宽高比作为训练毛玻璃区域检测模型的超参数后,使用有标注训练样本对毛玻璃区域检测模型进行有监督训练。
图18为一个实施例中半监督训练所用的训练样本来源示意图,参照图18,有标注训练样本集合,可以通过标注方式和仿真方式获得;在通过标注方式获得的情况下,主要包括如下步骤:
爬取样本视频,得到多个样本视频;
从多个样本视频取出少量样本视频,得到剩余样本视频;其中少量样本视频用于形成有标注训练样本,剩余样本视频用于形成无标注训练样本;
对于每个样本视频,从样本视频的首个视频帧开始遍历,当遍历到的视频帧与邻近视频帧不相似时,将遍历到的视频帧加入待标注训练样本集合中,当遍历的视频帧与邻近视频帧相似时,则略过遍历到的视频帧,直至样本视频的视频帧遍历结束;
基于多个样本视频遍历完成时获得的待标注训练样本集合,得到用于训练毛玻璃区域检测模型的有标注训练样本集合;该有标注训练样本集合包括有毛玻璃训练样本和无毛玻璃训练样本。
在通过仿真方式获得的情况下,主要包括如下步骤:
获取有标注训练样本集合中标注无毛玻璃区域的无毛玻璃训练样本;
按照设定的嵌入位置,基于毛玻璃模糊度、毛玻璃区域的文本样式和毛玻璃区域的图标样式中的至少一种,对无毛玻璃训练样本进行毛玻璃仿真嵌入,得到仿真毛玻璃训练样本;
将嵌入位置,作为仿真毛玻璃训练样本的标注数据后,将标注了毛玻璃区域的仿真毛玻璃训练样本添加至有标注训练样本集合中。
上述有监督训练的过程,主要包括如下步骤:
利用毛玻璃区域检测模型对有标注训练样本集合中的有标注训练样本进行预测,得到有标注训练样本的特征图中各特征点的预测信息;特征点的预测信息包括:预测候选框的预测位置、预测候选框中是否存在毛玻璃的预测置信度以及预测候选框是否为毛玻璃的预测置信度;
基于特征图的特征点的预测信息以及有标注训练样本的标注数据,得到有标注训练样本的第一类损失、第二类损失和第三类损失;其中,第一类损失表征预测候选框的位置和标注候选框的位置之间的损失;第二类损失表征特征点对应的区域存在毛玻璃的预测置信度和标注置信度之间的损失,以及表征特征点对应的区域不存在毛玻璃的预测置信度和真实置信度之间的损失;第三类损失表征特征点对应的区域是否存在毛玻璃的预测置信度和真实置信度之间的损失;
基于有标注训练样本集合中的有标注训练样本的第一类损失、第二类损失和第三类损失,对毛玻璃区域检测模型的模型参数进行调整,以对毛玻璃区域检测模型进行有监督训练。
本实施例中,将经由有监督训练得到的模型作为初始模型,进行半监督训练,以强化毛玻璃区域检测模型的检测性能。
半监督训练过程主要包括如下步骤:
获取初始的无标注训练样本集合,通过初始模型,对初始的无标注训练样本集合中各无标注训练样本进行预测,根据预测结果确定无标注训练样本的伪标签;伪标签包括第一标签和第二标签;
当预测结果指示伪标签为第一标签的无标注训练样本的数量多于伪标签为第二标签的无标注训练样本的数量时,按伪标签为第二标签的无标注训练样本的数量,对伪标签为第一标签的无标注训练样本进行采样,根据伪标签为第二标签的无标注训练样本与采样得到的伪标签为第一标签的无标注训练样本,得到无标注训练样本集合;
利用初始模型分别对无标注训练样本集合中的无标注训练样本与相应的增强训练样本进行预测,获取各自的预测结果;
对无标注样本相似对包括的训练样本各自的预测结果进行锐化处理,根据锐化处理的预测结果计算无标注样本相似对的一致性损失;
根据初始模型对有标注训练样本的预测结果,获取有标注训练样本中是否存在毛玻璃区域的预测置信度;
将是否存在毛玻璃区域的预测置信度小于等于阈值的有标注训练样本作为目标训练样本;
基于无标注样本相似对的一致性损失和目标训练样本的有标签训练损失,得到联合损失;
基于有标注训练样本的有标签训练损失与一致性损失对初始模型进行联合训练,得到训练好的毛玻璃区域检测模型。
本实施例中,通过训练好的毛玻璃区域检测模型,对视频进行逐帧检测,不仅给出了存在毛玻璃区域的目标视频帧,还给出了目标视频帧中毛玻璃区域的位置,实现毛玻璃的高精度检测;并且在得到目标视频帧后,根据视频帧的连续性和毛玻璃区域位置的重合度,对目标视频帧进行切分,形成连续的目标视频片段,同一视频片段内毛玻璃区域的位置的重合度高于阈值,由此,输出的目标视频片段在待检测视频中的起止时间可以反映毛玻璃区域在待检测视频的起止时间,目标视频片段中毛玻璃区域的位置可以反映毛玻璃在待检测视频中的位置,提高毛玻璃检测的精度和召回率。本申请相关实施例可以很好的应用于版权管理、版权保护、视频侵权管理、侵权防护、视频安全、版权安全维护等场景。
另外,本实施例中,基于深度学习构建毛玻璃区域检测模型,学习识别视频帧中多种宽高比、多种尺寸、多种模糊度、多种嵌入样式的毛玻璃区域,对毛玻璃变异情况具有较强的适应能力,并在视频上对视频帧序列进行检测而后汇总结果,从而获得优良、精细的视频毛玻璃效果识别效果。
在模型训练方面,模仿实际场景情况,尽可能地仿真了毛玻璃效果的训练样本,以从无毛玻璃样本中生成出仿真毛玻璃样本,同时还针对大量互联网未知训练样本设计了针对毛玻璃检测的半监督训练框架,基于无标注样本相似对的一致性损失和目标训练样本的有标签训练损失得到的联合损失,对初始模型进行联合训练,极大地缓解了有标注训练样本获取成本高的问题,在无需继续增加有标注样本的前提下,使毛玻璃区域检测模型具有更好的识别效果。
本实施例构建面向视频帧的毛玻璃区域检测模型的半监督训练框架,用于从海量的互联网未知样本中学习有效信息,包括基于伪标签的无标签训练样本的类别平衡化、无标注样本相似对的构建、一致性预测训练、缓释信号和锐化处理等步骤与策略;其中,基于初始模型的预测结果得到的伪标签,进行类别平衡化处理,避免毛玻璃区域检测模型对数量较多的类别的预测过拟合,提高毛玻璃区域检测模型的检测性能;通过信号缓释的策略,将预测置信度大于阈值的有标注训练样本剔除,不参与损失计算,其误差无法反向传递,以防止毛玻璃区域检测模型在训练过程中对这部分样本过拟合;基于置信度的掩码策略,剔除预测置信度较低的无标注训练样本,不参与一致性损失计算,对无标注训练样本的锐化处理,有利于半监督训练;上述策略大幅度减少了毛玻璃区域检测模型对有标注训练样本的依赖,在无需新增标注训练样本的前提下进一步提升识别效果。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的视频检测方法的视频检测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个视频检测装置实施例中的具体限定和技术效果可以参见上文中对于视频检测方法的限定和技术效果,在此不再赘述。
图19为一个实施例中视频检测装置的结构框图。本实施例提供的视频检测装置可以很好的应用于版权管理、版权保护、视频侵权管理、侵权防护、视频安全、版权安全维护等场景,参照图19,该装置包括:
视频帧获取模块1902,用于获取待检测视频对应的视频帧序列;
毛玻璃检测模块1904,用于通过训练好的毛玻璃区域检测模型,依次对视频帧序列中各视频帧进行毛玻璃检测,获得视频帧序列中存在毛玻璃区域的目标视频帧以及目标视频帧中毛玻璃区域的位置;
聚类模块1906,用于对于待检测视频中连续的目标视频帧,根据毛玻璃区域的位置的重合度进行聚类,得到多个连续的目标视频片段;
输出模块1908,用于输出多个连续的目标视频片段各自在待检测视频中的起止时间以及毛玻璃区域的位置。
在一个实施例中,视频帧获取模块1902,还用于获取待检测视频,将待检测视频按待检测视频的帧率依次切分,得到多个视频分片;从每个视频分片中按预设时间间隔采样,获取预设数量的视频帧;基于从每个视频分片得到的预设数量的视频帧,得到视频帧序列。
在一个实施例中,毛玻璃检测模块1904,还用于将视频帧序列中的各视频帧,依次输入训练好的毛玻璃区域检测模型;通过毛玻璃区域检测模型的特征提取网络,提取视频帧对应的特征图;通过毛玻璃区域检测模型的毛玻璃分类网络,基于视频帧的特征图,获得特征图中各特征点的类别与置信度。
在一个实施例中,毛玻璃检测模块1904,还用于获取毛玻璃分类网络输出的特征图中各特征点的类别与置信度;基于特征图的各特征点对应的区域为毛玻璃区域的置信度,以及各特征点对应的预测候选框的预测位置,确定视频帧的毛玻璃区域检测结果,毛玻璃区域检测结果包括视频帧中是否存在毛玻璃区域以及毛玻璃区域的位置;根据视频帧序列中各视频帧的毛玻璃区域检测结果,获得视频帧序列中存在毛玻璃区域的目标视频帧以及目标视频帧中毛玻璃区域的位置。
在一个实施例中,视频检测装置还包括有标注训练接获取模块,用于获取用于训练毛玻璃区域检测模型的有标注训练样本集合;超参数确定模块,用于根据有标注训练样本集合中各个有标注训练样本的标注数据,确定有标注训练样本中毛玻璃区域的宽高比;对有标注训练样本中毛玻璃区域的宽高比进行聚类,得到多个类中心;有监督训练模块,用于将类中心所表示的宽高比作为训练毛玻璃区域检测模型的超参数后,使用有标注训练样本对毛玻璃区域检测模型进行有监督训练。
在一个实施例中,视频检测装置包括的有标注训练接获取模块,还用于获取多个样本视频;对于每个样本视频,从样本视频的首个视频帧开始遍历,当遍历到的视频帧与邻近视频帧不相似时,将遍历到的视频帧加入待标注训练样本集合中,当遍历的视频帧与邻近视频帧相似时,则略过遍历到的视频帧,直至样本视频的视频帧遍历结束;基于多个样本视频遍历完成时获得的待标注训练样本集合,得到用于训练毛玻璃区域检测模型的有标注训练样本集合。
在一个实施例中,视频检测装置包括的有标注训练接获取模块,还用于获取有标注训练样本集合中标注无毛玻璃区域的无毛玻璃训练样本;按照设定的嵌入位置,对无毛玻璃训练样本进行毛玻璃仿真嵌入,得到仿真毛玻璃训练样本;将嵌入位置,作为仿真毛玻璃训练样本的标注数据后,将标注了毛玻璃区域的仿真毛玻璃训练样本添加至有标注训练样本集合中。
在一个实施例中,视频检测装置还包括仿真嵌入模块,用于按照设定的嵌入位置,基于毛玻璃模糊度、毛玻璃区域的文本样式和毛玻璃区域的图标样式中的至少一种,对无毛玻璃训练样本进行毛玻璃仿真嵌入,得到仿真毛玻璃训练样本。
在一个实施例中,视频检测装置包括的有监督训练模块,用于利用毛玻璃区域检测模型对有标注训练样本集合中的有标注训练样本进行预测,得到有标注训练样本的特征图中各特征点的预测信息;特征点的预测信息包括:预测候选框的预测位置、预测候选框中是否存在毛玻璃的预测置信度以及预测候选框是否为毛玻璃的预测置信度;基于特征图的特征点的预测信息以及有标注训练样本的标注数据,得到有标注训练样本的第一类损失、第二类损失和第三类损失;其中,第一类损失表征预测候选框的位置和标注候选框的位置之间的损失;第二类损失表征特征点对应的区域存在毛玻璃的预测置信度和标注置信度之间的损失,以及表征特征点对应的区域不存在毛玻璃的预测置信度和真实置信度之间的损失;第三类损失表征特征点对应的区域是否存在毛玻璃的预测置信度和真实置信度之间的损失;基于有标注训练样本集合中的有标注训练样本的第一类损失、第二类损失和第三类损失,对毛玻璃区域检测模型的模型参数进行调整,以对毛玻璃区域检测模型进行有监督训练。
在一个实施例中,视频检测装置还包括无标签训练集处理模块,用于获取无标注训练样本集合,对无标注训练样本集合中的无标注训练样本进行数据增强,基于无标注训练样本和增强后的训练样本,得到无标注样本相似对;将通过有标注训练样本集合进行有监督训练得到的毛玻璃区域检测模型作为初始模型,利用初始模型分别对无标注样本相似对包括的训练样本进行预测,获取无标注样本相似对包括的训练样本各自的预测结果;无标签损失获取模块,用于基于无标注样本相似对包括的训练样本各自的预测结果之间的差异,得到无标注样本相似对的一致性损失;联合训练模块,用于基于无标注样本相似对的一致性损失和有标注训练样本的有标签训练损失,得到联合损失,利用联合损失对初始模型的模型参数进行调整,得到训练好的毛玻璃区域检测模型。
在一个实施例中,无标签训练集处理模块,用于获取初始的无标注训练样本集合,通过初始模型,对初始的无标注训练样本集合中各无标注训练样本进行预测,根据预测结果确定无标注训练样本的伪标签;伪标签包括第一标签和第二标签;当预测结果指示伪标签为第一标签的无标注训练样本的数量多于伪标签为第二标签的无标注训练样本的数量时,按伪标签为第二标签的无标注训练样本的数量,对伪标签为第一标签的无标注训练样本进行采样,根据伪标签为第二标签的无标注训练样本与采样得到的伪标签为第一标签的无标注训练样本,得到无标注训练样本集合。
在一个实施例中,联合训练模块,还用于根据初始模型对有标注训练样本的预测结果,获取有标注训练样本中是否存在毛玻璃区域的预测置信度;将是否存在毛玻璃区域的预测置信度小于等于阈值的有标注训练样本作为目标训练样本;基于无标注样本相似对的一致性损失和目标训练样本的有标签训练损失,得到联合损失。
在一个实施例中,无标签损失获取模块,用于对无标注样本相似对包括的训练样本各自的预测结果进行锐化处理,根据锐化处理的预测结果计算无标注样本相似对的一致性损失。
在一个实施例中,无标签损失获取模块,还用于当无标注样本相似对包括的训练样本的预测结果中的预测置信度大于阈值时,保留无标注样本相似对以参与一致性损失的计算;当无标注样本相似对包括的训练样本的预测结果中的预结果小于阈值时,剔除无标注样本相似对,不参与一致性损失的计算。
在一个实施例中,视频检测装置还包括连续性判定模块,用于获取任两个目标视频帧;当任两个目标视频帧对应的呈现时间的差距小于等于阈值时,确定任两个目标视频帧为连续的目标视频帧。
在一个实施例中,视频检测装置还包括重合度获取模块,用于获取连续的目标视频帧的毛玻璃区域的交集面积与并集面积之间的比值;将比值作为连续的目标视频帧中毛玻璃区域的位置的重合度。
上述视频检测装置中,通过训练好的毛玻璃区域检测模型,对视频进行逐帧检测,不仅给出了存在毛玻璃区域的目标视频帧,还给出了目标视频帧中毛玻璃区域的位置,实现毛玻璃的高精度检测;并且在得到目标视频帧后,根据视频帧的连续性和毛玻璃区域位置的重合度,对目标视频帧进行切分,形成连续的目标视频片段,同一视频片段内毛玻璃区域的位置的重合度高于阈值,由此,输出的目标视频片段在待检测视频中的起止时间可以反映毛玻璃区域在待检测视频的起止时间,目标视频片段中毛玻璃区域的位置可以反映毛玻璃在待检测视频中的位置,提高毛玻璃检测的精度,该装置可以很好的应用于版权管理、版权保护、视频侵权管理、侵权防护、视频安全、版权安全维护等场景。
上述视频检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的毛玻璃区域检测模型的训练方法的毛玻璃区域检测模型的训练装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个毛玻璃区域检测模型的训练装置实施例中的具体限定和技术效果可以参见上文中对于毛玻璃区域检测模型的训练方法的限定和技术效果,在此不再赘述。
图20为一个实施例中毛玻璃区域检测模型的训练装置的结构框图。本实施例提供的毛玻璃区域检测模型的训练装置可以很好的应用于版权管理、版权保护、视频侵权管理、侵权防护、视频安全、版权安全维护等场景,参照图20,该装置包括:
有监督训练模块2002,用于通过有标注训练样本集合,对毛玻璃区域检测模型进行有监督训练得到初始模型;
无标签损失获取模块2004,用于获取无标注训练样本集合,利用初始模型分别对无标注训练样本集合中的无标注训练样本与相应的增强训练样本进行预测,获取各自的预测结果,基于无标注训练样本与相应的增强训练样本各自的预测结果之间的差异,得到一致性损失;
联合训练模块2006,用于基于有标注训练样本的有标签训练损失与一致性损失对初始模型进行联合训练,得到训练好的毛玻璃区域检测模型。
上述毛玻璃区域检测模型的训练装置中,先对毛玻璃区域检测模型进行有监督训练,基于有监督训练得到的初始模型对无标注训练样本集合进行预测,得到无标注训练样本与相应的增强训练样本之间的一致性损失,基于有标注训练样本的有标签训练损失和一致性损失,对初始模型进行联合训练,可以在降低标注成本的同时,强化毛玻璃区域检测模型的检测性能,该装置可以很好的应用于版权管理、版权保护、视频侵权管理、侵权防护、视频安全、版权安全维护等场景。
上述毛玻璃区域检测模型的训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端或服务器,其内部结构图可以如图21所示。该计算机设备包括通过系统总线连接的处理器、存储器、输入输出接口(Input/Output,简称I/O接口)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述实施例涉及的数据。该计算机设备的输入输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种上述实施例介绍的方法。
本领域技术人员可以理解,图21中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述各个方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各个方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现上述各个方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (22)

1.一种视频检测方法,其特征在于,所述方法包括:
获取待检测视频对应的视频帧序列;
通过训练好的毛玻璃区域检测模型,依次对所述视频帧序列中各视频帧进行毛玻璃检测,获得所述视频帧序列中存在毛玻璃区域的目标视频帧以及所述目标视频帧中毛玻璃区域的位置;
对于所述待检测视频中连续的所述目标视频帧,根据毛玻璃区域的位置的重合度进行聚类,得到多个连续的目标视频片段;
输出所述多个连续的目标视频片段各自在所述待检测视频中的起止时间以及所述毛玻璃区域的位置。
2.根据权利要求1所述的方法,其特征在于,所述获取待检测视频对应的视频帧序列,包括:
获取待检测视频,将所述待检测视频按所述待检测视频的帧率依次切分,得到多个视频分片;
从每个视频分片中按预设时间间隔采样,获取预设数量的视频帧;
基于从每个视频分片得到的预设数量的视频帧,得到所述视频帧序列。
3.根据权利要求1所述的方法,其特征在于,所述通过训练好的毛玻璃区域检测模型,依次对所述视频帧序列中各视频帧进行毛玻璃检测,包括:
将所述视频帧序列中的各视频帧,依次输入训练好的毛玻璃区域检测模型;
通过所述毛玻璃区域检测模型的特征提取网络,提取所述视频帧对应的特征图;
通过所述毛玻璃区域检测模型的毛玻璃分类网络,基于所述视频帧的特征图,获得所述特征图中各特征点的类别与置信度。
4.根据权利要求3所述的方法,其特征在于,所述获得所述视频帧序列中存在毛玻璃区域的目标视频帧以及所述目标视频帧中毛玻璃区域的位置,包括:
获取所述毛玻璃分类网络输出的所述特征图中各特征点的类别与置信度;
基于所述特征图的各特征点对应的区域为毛玻璃区域的置信度,以及各特征点对应的预测候选框的预测位置,确定所述视频帧的毛玻璃区域检测结果,所述毛玻璃区域检测结果包括所述视频帧中是否存在毛玻璃区域以及毛玻璃区域的位置;
根据所述视频帧序列中各视频帧的毛玻璃区域检测结果,获得所述视频帧序列中存在毛玻璃区域的目标视频帧以及所述目标视频帧中毛玻璃区域的位置。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取用于训练毛玻璃区域检测模型的有标注训练样本集合;
根据所述有标注训练样本集合中各个有标注训练样本的标注数据,确定所述有标注训练样本中毛玻璃区域的宽高比;
对所述有标注训练样本中毛玻璃区域的宽高比进行聚类,得到多个类中心;
将所述类中心所表示的宽高比作为训练所述毛玻璃区域检测模型的超参数后,使用所述有标注训练样本对所述毛玻璃区域检测模型进行有监督训练。
6.根据权利要求1所述的方法,其特征在于,用于训练所述毛玻璃区域检测模型的有标注训练样本的获取步骤包括:
获取多个样本视频;
对于每个样本视频,从所述样本视频的首个视频帧开始遍历,当遍历到的视频帧与邻近视频帧不相似时,将所述遍历到的视频帧加入待标注训练样本集合中,当所述遍历到的视频帧与邻近视频帧相似时,则略过所述遍历到的视频帧,直至所述样本视频的视频帧遍历结束;
基于所述多个样本视频遍历完成时获得的待标注训练样本集合,得到用于训练毛玻璃区域检测模型的有标注训练样本集合。
7.根据权利要求1所述的方法,其特征在于,用于训练所述毛玻璃区域检测模型的有标注训练样本的获取步骤包括:
获取所述有标注训练样本集合中标注无毛玻璃区域的无毛玻璃训练样本;
按照设定的嵌入位置,对所述无毛玻璃训练样本进行毛玻璃仿真嵌入,得到仿真毛玻璃训练样本;
将所述嵌入位置,作为所述仿真毛玻璃训练样本的标注数据后,将标注了毛玻璃区域的仿真毛玻璃训练样本添加至所述有标注训练样本集合中。
8.根据权利要求7所述的方法,其特征在于,所述按照设定的嵌入位置,对所述无毛玻璃训练样本进行毛玻璃仿真嵌入,得到仿真毛玻璃训练样本,包括:
按照设定的嵌入位置,基于毛玻璃模糊度、毛玻璃区域的文本样式和毛玻璃区域的图标样式中的至少一种,对所述无毛玻璃训练样本进行毛玻璃仿真嵌入,得到仿真毛玻璃训练样本。
9.根据权利要求1所述的方法,其特征在于,所述毛玻璃区域检测模型的有监督训练步骤包括:
利用毛玻璃区域检测模型对有标注训练样本集合中的有标注训练样本进行预测,得到所述有标注训练样本的特征图中各特征点的预测信息;所述特征点的预测信息包括:预测候选框的预测位置、所述预测候选框中是否存在毛玻璃的预测置信度以及所述预测候选框是否为毛玻璃的预测置信度;
基于所述特征图的特征点的预测信息以及所述有标注训练样本的标注数据,得到所述有标注训练样本的第一类损失、第二类损失和第三类损失;其中,所述第一类损失表征预测候选框的位置和标注候选框的位置之间的损失;所述第二类损失表征特征点对应的区域存在毛玻璃的预测置信度和标注置信度之间的损失,以及表征特征点对应的区域不存在毛玻璃的预测置信度和真实置信度之间的损失;第三类损失表征特征点对应的区域是否存在毛玻璃的预测置信度和真实置信度之间的损失;
基于所述有标注训练样本集合中的有标注训练样本的第一类损失、第二类损失和第三类损失,对毛玻璃区域检测模型的模型参数进行调整,以对所述毛玻璃区域检测模型进行有监督训练。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取无标注训练样本集合,对所述无标注训练样本集合中的无标注训练样本进行数据增强,基于所述无标注训练样本和增强后的训练样本,得到无标注样本相似对;
将通过有标注训练样本集合进行有监督训练得到的毛玻璃区域检测模型作为初始模型,利用所述初始模型分别对所述无标注样本相似对包括的训练样本进行预测,获取所述无标注样本相似对包括的训练样本各自的预测结果;
基于所述无标注样本相似对包括的训练样本各自的预测结果之间的差异,得到所述无标注样本相似对的一致性损失;
基于所述无标注样本相似对的一致性损失和有标注训练样本的有标签训练损失,得到联合损失,利用所述联合损失对所述初始模型的模型参数进行调整,得到训练好的毛玻璃区域检测模型。
11.根据权利要求10所述的方法,其特征在于,所述获取无标注训练样本集合,包括:
获取初始的无标注训练样本集合,通过所述初始模型,对所述初始的无标注训练样本集合中各无标注训练样本进行预测,根据预测结果确定所述无标注训练样本的伪标签;所述伪标签包括第一标签和第二标签;
当预测结果指示所述伪标签为第一标签的无标注训练样本的数量多于所述伪标签为第二标签的无标注训练样本的数量时,按所述伪标签为第二标签的无标注训练样本的数量,对伪标签为第一标签的无标注训练样本进行采样,根据所述伪标签为第二标签的无标注训练样本与采样得到的伪标签为第一标签的无标注训练样本,得到无标注训练样本集合。
12.根据权利要求10所述的方法,其特征在于,所述基于所述无标注样本相似对的一致性损失和有标注训练样本的有标签训练损失,得到联合损失,包括:
根据所述初始模型对所述有标注训练样本的预测结果,获取所述有标注训练样本中是否存在毛玻璃区域的预测置信度;
将所述是否存在毛玻璃区域的预测置信度小于等于阈值的有标注训练样本作为目标训练样本;
基于所述无标注样本相似对的一致性损失和所述目标训练样本的有标签训练损失,得到联合损失。
13.根据权利要求10所述的方法,其特征在于,所述基于所述无标注样本相似对包括的训练样本各自的预测结果之间的差异,得到所述无标注样本相似对的一致性损失,包括:
对所述无标注样本相似对包括的训练样本各自的预测结果进行锐化处理,根据锐化处理的预测结果计算所述无标注样本相似对的一致性损失。
14.根据权利要求13所述的方法,其特征在于,所述对所述无标注样本相似对包括的训练样本各自的预测结果进行锐化处理,包括:
当所述无标注样本相似对包括的训练样本的预测结果中的预测置信度大于阈值时,保留所述无标注样本相似对以参与所述一致性损失的计算;
当所述无标注样本相似对包括的训练样本的预测结果中的预结果小于阈值时,剔除所述无标注样本相似对,不参与所述一致性损失的计算。
15.根据权利要求1所述的方法,其特征在于,在对于所述待检测视频中连续的所述目标视频帧,根据毛玻璃区域的位置的重合度进行聚类,得到多个连续的目标视频片段之前,所述方法还包括:
获取任两个目标视频帧;
当所述任两个目标视频帧对应的呈现时间的差距小于等于阈值时,确定所述任两个目标视频帧为连续的目标视频帧。
16.根据权利要求1至15任一项所述的方法,其特征在于,在对于所述待检测视频中连续的所述目标视频帧,根据毛玻璃区域的位置的重合度进行聚类之前,所述方法还包括:
获取连续的目标视频帧的毛玻璃区域的交集面积与并集面积之间的比值;
将所述比值作为所述连续的目标视频帧中毛玻璃区域的位置的重合度。
17.一种毛玻璃区域检测模型的训练方法,其特征在于,所述方法包括:
通过有标注训练样本集合,对毛玻璃区域检测模型进行有监督训练得到初始模型;
获取无标注训练样本集合,利用所述初始模型分别对所述无标注训练样本集合中的无标注训练样本与相应的增强训练样本进行预测,获取各自的预测结果,基于所述无标注训练样本与相应的增强训练样本各自的预测结果之间的差异,得到一致性损失;
基于所述有标注训练样本的有标签训练损失与所述一致性损失对所述初始模型进行联合训练,得到训练好的毛玻璃区域检测模型。
18.一种视频检测装置,其特征在于,所述装置包括:
视频帧获取模块,用于获取待检测视频对应的视频帧序列;
毛玻璃检测模块,用于通过训练好的毛玻璃区域检测模型,依次对所述视频帧序列中各视频帧进行毛玻璃检测,获得所述视频帧序列中存在毛玻璃区域的目标视频帧以及所述目标视频帧中毛玻璃区域的位置;
聚类模块,用于对于所述待检测视频中连续的所述目标视频帧,根据毛玻璃区域的位置的重合度进行聚类,得到多个连续的目标视频片段;
输出模块,用于输出所述多个连续的目标视频片段各自在所述待检测视频中的起止时间以及所述毛玻璃区域的位置。
19.一种毛玻璃区域检测模型的训练装置,其特征在于,所述装置包括:
有监督训练模块,用于通过有标注训练样本集合,对毛玻璃区域检测模型进行有监督训练得到初始模型;
无标签损失获取模块,用于获取无标注训练样本集合,利用所述初始模型分别对所述无标注训练样本集合中的无标注训练样本与相应的增强训练样本进行预测,获取各自的预测结果,基于所述无标注训练样本与相应的增强训练样本各自的预测结果之间的差异,得到一致性损失;
联合训练模块,用于基于所述有标注训练样本的有标签训练损失与所述一致性损失对所述初始模型进行联合训练,得到训练好的毛玻璃区域检测模型。
20.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至17中任一项所述的方法。
21.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至17中任一项所述的方法。
22.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至17任一项所述的方法。
CN202210545281.3A 2022-05-19 2022-05-19 视频检测方法、装置、设备、存储介质和程序产品 Pending CN115115969A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210545281.3A CN115115969A (zh) 2022-05-19 2022-05-19 视频检测方法、装置、设备、存储介质和程序产品
PCT/CN2023/082240 WO2023221634A1 (zh) 2022-05-19 2023-03-17 视频检测方法、装置、设备、存储介质和程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210545281.3A CN115115969A (zh) 2022-05-19 2022-05-19 视频检测方法、装置、设备、存储介质和程序产品

Publications (1)

Publication Number Publication Date
CN115115969A true CN115115969A (zh) 2022-09-27

Family

ID=83325592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210545281.3A Pending CN115115969A (zh) 2022-05-19 2022-05-19 视频检测方法、装置、设备、存储介质和程序产品

Country Status (2)

Country Link
CN (1) CN115115969A (zh)
WO (1) WO2023221634A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116822502A (zh) * 2023-08-30 2023-09-29 腾讯科技(深圳)有限公司 网页内容识别方法、装置、计算机设备和存储介质
WO2023221634A1 (zh) * 2022-05-19 2023-11-23 腾讯科技(深圳)有限公司 视频检测方法、装置、设备、存储介质和程序产品

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117649567B (zh) * 2024-01-30 2024-04-09 腾讯科技(深圳)有限公司 数据标注方法、装置、计算机设备和存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7161875B2 (ja) * 2018-07-10 2022-10-27 株式会社Screenホールディングス 画像処理方法、コンピュータプログラムおよび記録媒体
CN110570448A (zh) * 2019-09-07 2019-12-13 深圳岚锋创视网络科技有限公司 一种全景视频的目标追踪方法、装置及便携式终端
CN111291755B (zh) * 2020-02-13 2022-11-15 腾讯科技(深圳)有限公司 对象检测模型训练及对象检测方法、装置、计算机设备和存储介质
CN111582116B (zh) * 2020-04-29 2022-09-13 腾讯科技(深圳)有限公司 一种视频抹除痕迹检测方法、装置、设备和存储介质
CN113301385B (zh) * 2021-05-21 2023-02-28 北京大米科技有限公司 视频数据处理方法、装置、电子设备和可读存储介质
CN114037876A (zh) * 2021-12-16 2022-02-11 马上消费金融股份有限公司 一种模型优化方法和装置
CN115115969A (zh) * 2022-05-19 2022-09-27 腾讯科技(深圳)有限公司 视频检测方法、装置、设备、存储介质和程序产品

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023221634A1 (zh) * 2022-05-19 2023-11-23 腾讯科技(深圳)有限公司 视频检测方法、装置、设备、存储介质和程序产品
CN116822502A (zh) * 2023-08-30 2023-09-29 腾讯科技(深圳)有限公司 网页内容识别方法、装置、计算机设备和存储介质
CN116822502B (zh) * 2023-08-30 2023-11-21 腾讯科技(深圳)有限公司 网页内容识别方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
WO2023221634A1 (zh) 2023-11-23

Similar Documents

Publication Publication Date Title
Chen et al. FFTI: Image inpainting algorithm via features fusion and two-steps inpainting
CN111709409B (zh) 人脸活体检测方法、装置、设备及介质
CN111754596B (zh) 编辑模型生成、人脸图像编辑方法、装置、设备及介质
CN112100346B (zh) 基于细粒度图像特征和外部知识相融合的视觉问答方法
CN115115969A (zh) 视频检测方法、装置、设备、存储介质和程序产品
CN111274994B (zh) 漫画人脸检测方法、装置、电子设备及计算机可读介质
US11501110B2 (en) Descriptor learning method for the detection and location of objects in a video
Li et al. Towards photo-realistic visible watermark removal with conditional generative adversarial networks
CN113177559B (zh) 结合广度和密集卷积神经网络的图像识别方法、系统、设备及介质
CN115565238B (zh) 换脸模型的训练方法、装置、设备、存储介质和程序产品
CN112257665A (zh) 图像内容的识别方法、图像识别模型的训练方法及介质
CN117011883A (zh) 一种基于金字塔卷积和Transformer双分支的行人重识别方法
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
Cao et al. Visual question answering research on multi-layer attention mechanism based on image target features
Wu et al. A large cross-modal video retrieval dataset with reading comprehension
CN115758159B (zh) 基于混合对比学习和生成式数据增强的零样本文本立场检测方法
CN116958740A (zh) 基于语义感知和自适应对比学习的零样本目标检测方法
CN115270943A (zh) 一种基于注意力机制的知识标签提取模型
CN115018215A (zh) 基于多模态认知图谱的人口居住预测方法、系统和介质
CN114329050A (zh) 视觉媒体数据去重处理方法、装置、设备和存储介质
CN113011320A (zh) 视频处理方法、装置、电子设备及存储介质
Liu et al. Res-RNN Network and Its Application in Case Text Recognition
CN117351382A (zh) 视频对象定位方法及其装置、存储介质、程序产品
Wang et al. Mapping Method between 2D Landscape Image and 3D Spatial Data based on Adversarial Relative Depth Constraint Network
Liu et al. Optimization Algorithm of Visual Multimodal Text Recognition for Public Opinion Analysis Scenarios

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination