CN114581833A - 视频类型确定方法、装置、设备以及存储介质 - Google Patents
视频类型确定方法、装置、设备以及存储介质 Download PDFInfo
- Publication number
- CN114581833A CN114581833A CN202210226169.3A CN202210226169A CN114581833A CN 114581833 A CN114581833 A CN 114581833A CN 202210226169 A CN202210226169 A CN 202210226169A CN 114581833 A CN114581833 A CN 114581833A
- Authority
- CN
- China
- Prior art keywords
- sample
- video
- image
- video frame
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000003860 storage Methods 0.000 title claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 151
- 238000012545 processing Methods 0.000 claims abstract description 33
- 238000003709 image segmentation Methods 0.000 claims description 109
- 238000009826 distribution Methods 0.000 claims description 54
- 238000004590 computer program Methods 0.000 claims description 17
- 230000004927 fusion Effects 0.000 claims description 11
- 238000013473 artificial intelligence Methods 0.000 abstract description 7
- 230000008569 process Effects 0.000 description 21
- 238000005516 engineering process Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 14
- 230000001976 improved effect Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 238000012552 review Methods 0.000 description 7
- 239000013598 vector Substances 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008707 rearrangement Effects 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了一种视频类型确定方法、装置、设备以及存储介质,可适用于人工智能、图像处理、区块链等领域。该方法包括:确定待预测视频的各视频帧的初始图像特征;将各初始图像特征输入视频类型预测模型,得到待预测视频的目标类型,其中,视频类型预测模型是基于训练样本集中的各样本视频预测得到的。采用本申请实施例提供的方法,可准确确定视频的类型,适用性高。
Description
技术领域
本申请涉及人工智能领域,尤其涉及一种视频类型确定方法、装置、设备以及存储介质。
背景技术
在视频推荐、视频检索、视频广告投放等领域,对视频进行分类作为视频内容特征最基本的表现方式之一,具有可解释性强、易扩展等优势。例如,在视频推荐领域,可根据目标对象浏览过的视频的视频类型向目标对象推荐感兴趣的视频,在视频检索领域,基于视频类型进行检索可提升检索结果的准确性。
现有技术往往通过识别视频中出现最多的对象来对确定视频类型,但是容易受到背景或风格的影响导致确定出的视频类型与实际类型存在差异,如同样是一个坐着的人,当该人物出现在办公室、餐厅、书房、汽车内甚至海边度假村等场景下时,会和不同的视频类型相对应。现有技术还会通过确定视频帧中的部分视频帧的图像类型,进而根据部分视频帧的图像类型推导出视频的视频类型,但是此方法受视频帧的图像类型的限制较大,导致最终确定出的视频类型准确性较低。
因此,如何准确对视频进行分类成为亟待解决的问题。
发明内容
本申请实施例提供一种视频类型确定方法、装置、设备以及存储介质,可准确确定视频的视频类型,适用性高。
一方面,本申请实施例提供一种视频类型确定方法,该方法包括:
确定待预测视频的各视频帧的初始图像特征;
将各上述初始图像特征输入视频类型预测模型,得到上述待预测视频的目标类型;
其中,上述视频类型预测模型是基于以下方式训练得到的:
确定训练样本集,上述训练样本集包括至少一个样本视频;
确定每一上述样本视频的各样本视频帧,确定每一上述样本视频帧的初始图像样本特征和图像分割样本特征,基于上述初始图像样本特征和上述图像分割样本特征确定该样本视频帧的目标图像样本特征;
从每一上述样本视频的各样本视频帧中确定至少一个第一视频帧,基于各上述第一视频帧的目标图像样本特征,确定该样本视频对应的第一视频样本特征,上述第一视频样本特征表征了每一上述第一视频帧的图像类型属于至少一个预设图像类型的概率;
将每一上述样本视频对应的各目标图像样本特征和第一视频样本特征输入初始模型,得到每一上述样本视频的预测类型;
基于各上述样本视频的实际类型和预测类型确定总训练损失,基于上述总训练损失和上述训练样本集对上述初始模型进行迭代训练,直至上述总训练损失符合训练结束条件时停止训练,并将停止训练时的模型确定为上述视频类型预测模型。
另一方面,本申请实施例提供了一种视频类型确定装置,该装置包括:
特征确定模块,用于确定待预测视频的各视频帧的初始图像特征;
类型预测模块,用于将各上述初始图像特征输入视频类型预测模型,得到上述待预测视频的目标类型;
其中,上述视频类型预测模型是通过模型训练装置训练得到的,上述模型训练装置,用于:
确定训练样本集,上述训练样本集包括至少一个样本视频;
确定每一上述样本视频的各样本视频帧,确定每一上述样本视频帧的初始图像样本特征和图像分割样本特征,基于上述初始图像样本特征和上述图像分割样本特征确定该样本视频帧的目标图像样本特征;
从每一上述样本视频的各样本视频帧中确定至少一个第一视频帧,基于各上述第一视频帧的目标图像样本特征,确定该样本视频对应的第一视频样本特征,上述第一视频样本特征表征了每一上述第一视频帧的图像类型属于至少一个预设图像类型的概率;
将每一上述样本视频对应的各目标图像样本特征和第一视频样本特征输入初始模型,得到每一上述样本视频的预测类型;
基于各上述样本视频的实际类型和预测类型确定总训练损失,基于上述总训练损失和上述训练样本集对上述初始模型进行迭代训练,直至上述总训练损失符合训练结束条件时停止训练,并将停止训练时的模型确定为上述视频类型预测模型。
另一方面,本申请实施例提供了一种电子设备,包括处理器和存储器,该处理器和存储器相互连接;
上述存储器用于存储计算机程序;
上述处理器被配置用于在调用上述计算机程序时,执行本申请实施例提供的视频类型确定方法。
另一方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行以实现本申请实施例提供的视频类型确定方法。
另一方面,本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序,上述计算机程序被处理器执行时实现本申请实施例提供的视频类型确定方法。
在本申请实施例中,基于每一样本视频帧的图像分割样本特征和初始图像样本特征得到每一样本视频帧的目标图像样本视频帧,从而在基于各目标样本视频帧对初始模型进行训练的过程中使得初始模型在样本视频帧的原始图像信息的未被破坏的情况下尽可能多得学习获得各样本视频帧的图像信息。对于每一样本视频而言,通过将该样本视频帧的第一视频样本特征参与初始模型的训练过程,可使初始模型在对每一样本视频的视频类型进行预测时进一步参考对应样本视频中部分视频帧的图像类型属于至少一个预设图像类型的概率,进一步提升初始模型的视频类型的效果和准确性。从而可基于训练得到的视频类型预测模型准确确定待预测视频的目标类型,适用性高。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的视频类型预测模型的训练方法的流程示意图;
图2是本申请实施例提供确定初始图像样本特征的场景示意图;
图3a是本申请实施例提供的确定图像分割样本特征一场景示意图;
图3b是本申请实施例提供的确定图像分割样本特征另一场景示意图;
图4a是本申请实施例提供的确定目标图像样本特征的一场景示意图;
图4b是本申请实施例提供的确定目标图像样本特征的另一场景示意图;
图5a是本申请实施例提供的确定第一视频样本特征的一场景示意图;
图5b是本申请实施例提供的确定第一视频样本特征的另一场景示意图;
图6是本申请实施例提供的初始模型的结构示意图;
图7是本申请实施例提供的视频类型确定方法的流程示意图;
图8是本申请实施例提供的视频类型确定方法的流程框架示意图;
图9是本申请实施例提供的视频类型确定装置的结构示意图;
图10是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例可基于视频类型预测模型确定待预测视频的目标类型。其中,本申请实施例中的视频类型预测模型可适用于以视频的类型为基础的各种应用领域。例如,在视频推荐领域,可基于训练得到的视频类型预测模型确定目标对象浏览过的视频的类型,根据目标对象浏览过的视频的类型,向目标对象推荐其可能感兴趣的相同类型的视频。例如,可基于训练得到的视频类型预测模型预先确定视频库中各视频的类型,进而在从视频库中检索视频时,可按照视频类型进行检索,提升检索准确性的效率。例如,在视频广告投放领域,可基于训练得到的视频类型预测模型确定视频广告的类型,进而向与该类型相关联的对象投放广告视频,实现广告精准化和个性化投放。
其中,本申请实施例提供的视频类型预测模型以及视频类型确定方法可基于人工智能领域、云计算领域、图像处理领域等相关技术实现。如可以人工智能领域中的机器学习技术和图像处理领域中的计算机视觉技术为技术基础进行训练得到视频类型预测模型,进而基于视频类型预测模型对视频类型进行预测。
其中,机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,如基于机器学习技术训练得到分类模型。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。
其中,计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
参见图1,图1是本申请实施例提供的视频类型预测模型的训练方法的流程示意图。如图1所示,本申请实施例提供的视频类型预测模型的训练方法可包括如下步骤:
步骤S11、确定训练样本集,训练样本集包括至少一个样本视频。
在一些可行的实施方式中,可将短视频平台中的短视频作为样本视频以构建训练样本集,或者可确定多个影视剧,并将各影视剧进行切分得到多个样本视频,还可以基于公开的视频数据集来构建训练样本集,具体可基于实际应用场景需求确定,在此不做限制。
其中,训练样本集中的每一样本视频标注有样本标签,每一样本标签用于表征对应的样本视频的实际类型。
其中,本申请实施例中的训练样本集可存储于服务器、数据库、云存储空间或者区块链之中,具体可基于实际应用场景需求确定,在此不做限制。数据库简而言之可视为电子化的文件柜——存储电子文件的处所,在本申请中可用于存储训练样本集。区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块。在本申请中,区块链中的每一个数据块均可存储训练样本集。云存储是在云计算概念上延伸和发展出来的一个新的概念,是指通过集群应用、网格技术以及分布存储文件系统等功能,将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作,共同存储训练样本集。
步骤S12、确定每一样本视频的各样本视频帧,确定每一样本视频帧的初始图像样本特征和图像分割样本特征,基于初始图像样本特征和图像分割样本特征确定该样本视频帧的目标图像样本特征。
在一些可行的实施方式中,在基于训练样本集中的各训练样本进行训练之前,对于每一样本视频,可确定该样本视频的各样本视频帧,即将该样本视频中的所有视频帧确定为该样本视频的各样本视频帧。进而可确定每一样本视频帧的初始图像样本特征和图像分割样本特征,从而基于初始图像样本特征和图像分割样本特征确定该样本视频帧的目标图像样本特征。
即在对初始模型进行训练时,可基于每一样本视频的各样本视频帧的图像分割样本特征和目标图像样本特征对初始模型进行训练,最终得到可预测任一视频的类型的视频类型预测模型。
在一些可行的实施方式中,对于每一样本视频帧,在确定该样本视频帧的初始图像样本特征时,可确定该样本视频帧在各颜色通道对应的颜色特征。其中,每一样本视频帧可包括R(red)、G(green)和B(blue)三个颜色通道对应的颜色特征。
进一步地,对于每一样本视频帧,可将该样本视频帧对应于每一颜色通道对应的颜色特征替换为该样本视频帧对应于除该颜色通道外的其他任一颜色通道的颜色特征,进而得到该样本视频帧的初始图像样本特征。
其中,在将该样本视频帧对应于每一颜色通道的颜色特征进行替换时,可随机采用该样本视频帧对应于任意一个其他颜色通道的颜色特征对该样本视频帧对应于该颜色通道的颜色特征进行替换,也可基于预设顺序(如R→B→G)的顺序,采用该样本视频帧对应于前一个颜色通道的颜色特征对对应于后一个颜色通道的颜色特征进行替换。
需要说明的是,上述对任一样本视频帧对应于任一颜色通道的颜色特征进行替换的实现方式仅为示例,具体可基于实际应用场景需求确定,在此不做限制。
如图2所示,图2是本申请实施例提供确定初始图像样本特征的场景示意图。如图2所示,若一样本视频帧对应于R、G、B三个颜色通道的颜色特征分别为R1、G1、B1,则可采用B1对应的颜色特征对G1对应的颜色特征进行替换得到该样本视频帧对应于G颜色通道的颜色特征G2,采用G1对应的颜色特征对R1对应的颜色特征进行替换得到该样本视频帧对应于R颜色通道的颜色特征R2,采用R1对应的颜色特征对B1对应的颜色特征进行替换得到该样本视频帧对应于B颜色通道的颜色特征B2。
进一步可基于该样本视频帧对应于R、G、B三个颜色通道的颜色特征分别为R2、G2、B2,得到该样本视频帧的初始图像样本特征。
可选地,对于每一样本视频帧,在确定该样本视频帧的初始图像样本特征时,还可将该样本视频帧对应于任意两个颜色通道的颜色特征互换,进而基于该样本视频帧最终对应于各颜色通道的颜色特征得到该样本视频帧的初始图像样本特征。
其中,确定各样本视频帧的初始图像样本特征的过程还可基于RandomRGB图像增强机制进行,在此不再赘述。
基于上述方式得到的初始图像样本特征,可弱化样本视频帧中各元素(如背景元素)对颜色的依赖,在改变样本视频帧中各元素的颜色表达的同时并不改变各元素信息,从而在模型训练过程中减少颜色对模型训练效果的影响,提升模型预测效果。
在一些可行的实施方式中,对于每一样本视频帧,在确定该样本视频帧的图像分割样本特征时,可对该样本视频帧进行图像分割处理,得到图像分割结果,进而将图像分割结果确定为该样本视频帧的图像分割样本特征。
其中,在对每一样本视频帧进行图像分割处理时,可基于预训练的图像分割模型实现,预训练的图像分割模型可以为PointRend模型,也可以为其他模型,具体可基于实际应用场景需求确定,在此不做限制。
可选地,对于每一样本视频帧,在对该样本视频帧进行图像分割处理得到图像分割结果后,可基于图像分割结果确定该样本视频帧中的背景元素,进而将图像分割结果中对应于背景元素的各像素点的特征值替换为第一值,从而可基于各第一值和图像分割结果中对应于非背景元素的各像素点的特征值,确定该样本视频帧的图像分割样本特征。
其中,第一值为预设值,如可以为1,在此不做限制。
参见图3a,图3a是本申请实施例提供的确定图像分割样本特征一场景示意图。若对一样本视频帧进行图像分割处理后得到的图像分割结果如图3a所示,在每个像素点对应的特征值为0时表示该像素点属于该样本视频帧中的背景元素,每个像素点对应的特征值不为0时表示该像素点属于该样本视频帧中的非背景元素的情况下,可将该样本视频帧中对应于背景元素的各像素点的特征值(0)替换为第一值(如1),从而将替换后的图像分割结果确定为该样本视频帧的图像分割样本特征。
可选地,对于每一样本视频帧,在对该样本视频帧进行图像分割处理得到图像分割结果后,可基于图像分割结果确定该样本视频帧中的背景元素,进而将图像分割结果中对应于背景元素的各像素点的特征值替换为第一值,将图像分割结果中对应于非背景元素的各像素点的特征值替换为第二值,进而得到该样本视频帧的图像分割样本特征。
其中,第二值为小于第一值的其他预设值,如可以为0.5,在此不做限制。
参见图3b,图3b是本申请实施例提供的确定图像分割样本特征另一场景示意图。对于一尺寸为H×W×3的样本视频帧,对该样本视频帧进行图像分割梳理后得到尺寸为H×W图像分割结果。其中,H和W分别为该样本视频帧的高和宽,且该样本视频帧的颜色通道数为3。
若每个像素点的取值可能为0、1、2和3,分别代表该像素点属于该样本视频帧中的背景元素、人物元素、物体元素以及文字元素。在此情况下可将图像分割结果中的特征值为0替换为第一值(如1),将其他特征值替换为第二值(如0.5),进而得到该样本视频帧的图像分割样本特征。
基于上述实现方式确定出各样本视频帧的图像分割样本特征,可强化样本视频帧中属于背景元素的像素点的特征值,并对样本视频帧中属于非背景元素的像素点的特征值进行抑制。
其中,在确定各样本视频帧的图像分割样本特征时,可基于直接基于各样本视频帧对应于各颜色通道的颜色特征对各样本视频帧进行图像分割处理,也可基于各样本视频帧的初始图像样本特征对各样本视频帧进行图像分割处理,进而基于图像分割处理结果确定各样本视频帧的图像分割样本特征。
在一些可行的实施方式中,对于每一样本视频帧,在确定出该样本视频帧的初始图像样本特这图像分割样本特征之后,可基于图像分割样本特征对该样本视频帧的初始图像样本特征进行数据增加,得到该样本视频帧的目标图像样本特征。
具体地,对于每一样本视频帧中的每一像素点,可将该初始图像样本特征中对应于该像素点的颜色特征与图像分割样本特征中对应于该像素点的特征值相乘,得到该像素点对应的目标样本特征。在确定出该样本视频帧中各像素点对应的目标样本特征后,可基于该样本视频帧中各像素点对应的目标样本特征,确定该样本视频帧的目标图像样本特征。
也即基于上述方式将每一像素点对应于图像分割样本特征的特征值与对应于初始图像样本特征的各颜色通道的颜色特征相乘,将最终结果确定为该样本视频帧的目标图像样本特征。
可选地,对于每一样本视频帧,在将每一像素点对应于图像分割样本特征的特征值与对应于初始图像样本特征的各颜色通道的颜色特征相乘时,还可对每一像素点再乘以一预设权重,从而实现对非背景元素的图像扰动,提升训练效率。
其中,上述预设权重具体可基于实际应用场景需求确定,如可以为0.3至0.7范围内的任一值,且每一样本视频帧中各非背景元素的像素点对应的预设权重相同。
参见图4a,图4a是本申请实施例提供的确定目标图像样本特征的一场景示意图。一样本视频帧的初始图像样本特征和图像分割样本特征如图4a所示。若该样本视频帧对应的图像分割样本特征中特征值为1表示像素点属于该样本视频帧中的背景元素,特征值为0.5表示像素点属于该样本视频帧中的非背景元素,则图4a所示的初始图像样本特征中属于该样本视频帧中的背景元素的像素点对应的颜色特征为(4,5,3),属于该样本视频帧中的非背景元素的像素点对应的颜色特征为(2,4,6)。
进一步地,对于该样本视频帧中属于背景元素的每一像素点,可将初始图像样本特征中对应于该像素点的颜色特征分别乘1,得到(4,5,3)。对于该样本视频帧中属于非背景元素的每一像素点,可将初始图像样本特征中对应于该像素点的颜色特征分别乘0.5,得到(1,2,3)。从而可基于该样本视频帧中各像素点对应的新的颜色特征,得到该样本视频帧对应的目标图像样本特征。
基于上述实现方式可基于图像分割样本特征对该样本视频帧中的背景元素进行强化,对非背景元素进行弱化,从而减少训练过程中模型对非背景元素的依赖。
可选地,对于每一样本视频帧,在确定该样本视频帧的目标图像样本特征时,还可将该样本视频帧的初始图像样本特征和图像分割样本特征进行拼接得到第一拼接特征,进而将第一拼接特征确定为该样本视频帧的目标图像样本特征。
即对于一个样本视频帧的每一像素点而言,可将该初始图像样本特征对应于该像素点的颜色特征与图像分割样本特征对应于该像素点的特征值拼接,得到该像素点对应的拼接特征。进而基于各像素点的拼接特征得到该样本视频帧的目标图像样本特征。
例如,一样本视频帧的初始图像样本特征的通道数为3(对应R、G、B三个颜色通道),且该样本视频帧的图像分割样本特征为单通道,则将该样本视频帧的初始图像样本特征和图像分割样本特征进行拼接后得到4通道的第一拼接特征,并将其作为该样本视频帧的目标图像样本特征。
参见图4b,图4b是本申请实施例提供的确定目标图像样本特征的另一场景示意图。一样本视频帧的初始图像样本特征和图像分割样本特征如图4b所示。若该样本视频帧对应的图像分割样本特征中特征值为1表示像素点属于该样本视频帧中的背景元素,特征值为0.5表示像素点属于该样本视频帧中的非背景元素,则图4b所示的初始图像样本特征中属于该样本视频帧中的背景元素的像素点对应的颜色特征为(4,5,3),属于该样本视频帧中的非背景元素的像素点对应的颜色特征为(2,4,6)。
进一步地,对于该样本视频帧中属于背景元素的每一像素点,可将初始图像样本特征中对应于该像素点的颜色特征与特征值1进行拼接得到(4,5,3,1)。对于该样本视频帧中属于非背景元素的每一像素点,可将初始图像样本特征中对应于该像素点的颜色特征与特征值0.5进行拼接得到(2,4,6,0.5)。从而可基于该样本视频帧中各像素点对应的新的特征,得到该样本视频帧对应的目标图像样本特征。
步骤S13、从每一样本视频的各样本视频帧中确定至少一个第一视频帧,基于各第一视频帧的目标图像样本特征,确定该样本视频对应的第一视频样本特征。
在一些可行的实施方式中,在确定出各样本视频帧的初始图像样本特征和图像分割样本特征后,对于每一样本视频,可对该样本视频进行抽帧处理以从该样本视频帧的所有样本视频帧中确定出部分样本视频帧(为方便描述,以下称为第一视频帧),进而基于该样本视频的各第一视频帧的目标图像样本特征,确定该样本视频对应的第一视频样本特征,用于参与视频类型预测模型的训练过程。
其中,对于每一样本视频,该样本视频对应的第一视频样本特征表征了该样本视频中每一第一视频帧属于至少一个预设图像类型的概率。
具体地,对于每一样本视频,可将该样本视频的各第一视频帧的目标图像样本特征输入预训练的图像类型预测网络,得到各第一视频帧对应的预测分布特征。
其中,每一第一视频帧对应的预测分布特征为1×m的特征向量,m为预设图像类型的数量,其中的一个特征值用于表征该第一视频帧的图像类型属于该特征值对应的预设图像类型的概率。该第一视频帧对应的预测分布特征中的某一特征值越大,说明该第一视频帧的图像类型属于该特征对应的预设图像类型的概率越大。
进一步地,将各第一视频帧对应的预测分布特征中的各特征值按照由大到小的概率纵向进行排列得到特征值序列,进而从每一特征值序列中截取前预设数量的特征值作为每一预测分布特征对应的目标分布特征。
即对于每一第一视频帧而言,可将该第一视频帧对应的预测分布特征中表示该第一视频帧的图像类型属于对应预设图像类型的概率中的预设数量的最大概率作为该第一视频帧对应的目标分布特征。
其中,每一第一视频帧对应的目标分布特征为1×h的特征向量,h为预设数量,且h小于m。
进一步地,可将各第一视频帧对应的目标分布特征进行拼接得到该样本视频对应的第一视频样本特征。该样本视频对应的第一视频样本特征为k×h的特征向量,k为第一视频帧的数量。
参见图5a,图5a是本申请实施例提供的确定第一视频样本特征的一场景示意图。如图5a所示,若从一样本视频中抽取4个第一视频帧,则可将各第一视频帧的目标图像样本特征输出预训练的图像类型预测网络,得到各第一视频帧对应的预测分布特征。其中,对于每一第一视频帧,图像类型预测网络可通过特征处理网络对该第一视频帧的目标图像样本特征进行处理,并将处理后的特征输入softmax层,得到该第一视频帧对应的预测分布特征。
其中,每一第一视频帧对应的预测分布特征为1×5的特征向量,用于表征该第一视频帧的图像类型属于5个预设图像类型的概率。
进一步将每一预测分布特征(每一特征向量)中的特征值按照由大到小的顺序纵向排列得到新的特征值序列,并从各特征值序列中截取前预设数量(如3)的特征值作为每一预测分布特征对应的目标分布特征。从而可将各目标分布特征输入全连接层以将各目标分布特征进行拼接,得到该样本视频对应的第一视频样本特征。
可选地,在确定每一样本视频对应的第一视频样本特征时,在确定各第一视频帧对应的预测分布特征后,可将该预测分布特征进行拼接得到k×m的预测分布拼接特征。进而对于预测分布拼接特征的每一列,将该列的各特征值按照由大到小的顺序纵向排序,并选取前预设数量h的特征值,从而基于k×m的预测分布拼接特征得到k×h的目标分布特征。
参见图5b,图5b是本申请实施例提供的确定第一视频样本特征的另一场景示意图。如图5b所示,若从一样本视频中抽取4个第一视频帧,则可将各第一视频帧的目标图像样本特征输出预训练的图像类型预测网络,得到各第一视频帧对应的预测分布特征。其中,对于每一第一视频帧,图像类型预测网络可通过特征处理网络对该第一视频帧的目标图像样本特征进行处理,并将处理后的特征输入softmax层,得到该第一视频帧对应的预测分布特征。
其中,每一第一视频帧对应的预测分布特征为1×5的特征向量,用于表征该第一视频帧的图像类型属于5个预设图像类型的概率。
进一步将各预测分布特征输入全连接层以将各预测分布特征进行拼接,得到该样本视频对应的预测分布拼接特征。进一步将预测分布拼接特征中每一列的特征值按照由大到小的顺序纵向排列得到新的特征值序列,并从各特征值序列中截取前预设数量(如3)的特征值得到该样本视频对应的第一视频样本特征。
其中,上述预设图像类型可包括第一预设类型,也可称之为负类型,用于表征不包括任何场景的图像的图像类型,如由一种或者多种颜色构成的图像的图像类型、包括推广信息的图像的图像类型等。
对于每一样本视频中的每一第一视频帧,该第一视频帧对应的预测分布特征可包括第一视频帧属于第一预设类型的概率。在该第一视频帧的实际图像类型为第一预设类型的情况下,该第一视频帧对应的目标分布特征可包括用于表征该第一视频帧属于第一预设类型的概率的特征值。
基于此,对于每一样本视频,若该第一样本视频包括属于第一预设类型的第一视频帧时,该第一样本视频对应的第一视频样本特征中可包括用于表征该第一视频帧属于第一预设类型的概率的特征值,从而可进一步提升该样本视频对应的第一视频样本特征的特征表达,以使得第一视频样本特征具有更高的特征泛化性,从而在对初始模型进行训练的过程中进一步提升模型训练效果。
可选地,在基于上述任一种实现方式得到样本视频对应的第一视频样本特征后,可暂时将其作为初始视频样本特征,进而通过池化层(如平均池化层)对初始视频样本特征进行处理,将池化结果作为样本视频最终对应的第一视频样本特征。
本申请实施例中,预训练的图像类型预测网络可基于骨干网络对各第一视频帧的目标图像样本特征进行处理,并将处理后的特征输入softmax层,得到该第一视频帧对应的预测分布特征。其中,图像类型预测网络中的骨干网络可以为EfficientNet-B4网络,也可以为其他用于对图像类型进行预测的神经网络,在此不做限制。
步骤S14、将每一样本视频对应的各目标图像样本特征和第一视频样本特征输入初始模型,得到该样本视频的预测类型。
在一些可行的实施方式中,在每次对初始模型进行训练时,可将各样本视频对应的所有样本视频帧的目标图像样本特征和第一视频样本特征输入初始模型,进而通过初始模型对应每一样本视频对应的目标图像样本特征和图像级场景样本进行处理之后,得到该样本视频的预测类型。
具体地,对于每一样本视频,在将该样本视频的所有样本视频帧的目标图像样本特征和该样本视频的第一视频样本特征输入初始模型之后,初始模型可先对该样本视频的对应的所有目标图像样本特征进行特征处理,得到该样本视频对应的第二视频样本特征。
其中,对于每一样本视频,该样本视频对应的第二视频样本特征表征了该样本视频的视频内容,也即该样本视频对应的第二视频样本特征可视为该样本视频的视频内容特征。
其中,初始模型可基于任意具有对该样本视频的对应的所有目标图像样本特征进行特征处理,得到该样本视频对应的第二视频样本特征的功能的特征处理网络,具体网络结构在此不做限制。
进一步地,初始模型可将该样本视频对应的第二视频样本特征和第一视频样本特征进行拼接,得到该样本视频对应的目标场景样本特征。进而基于该样本视频对应的目标场景特征,得到该样本视频的视频类型属于各预设视频类型的概率,进而基于该样本视频的视频类型属于各预设视频类型的概率,确定该样本视频的预测类型。
参见图6,图6是本申请实施例提供的初始模型的结构示意图。如图6所示,对于每一样本视频,在将该样本视频的所有样本视频帧的目标图像样本特征和该样本视频的第一视频样本特征输入初始模型之后,初始模型可通过特征处理网络先对该样本视频的对应的所有目标图像样本特征进行特征处理,得到该样本视频对应的第二视频样本特征。
进一步地,初始模型可将该样本视频对应的第二视频样本特征和第一视频样本特征进行拼接,得到该样本视频对应的目标场景样本特征。初始模型可基于NeXtVLAD网络对目标场景样本特征进行处理,并通过注意力模块(如SE gating模块)对处理结果进行注意力增强,以在得到最终的待预测特征的同时使初始模型更加关注信息量较大的通道特征,抑制其中不重要的通道特征。
其中,以SE gating模块为例,其可对NeXtVLAD网络的处理结果进行Squeeze操作得到通道级的全局特征,然后对全局特征进行Excitation操作以学习各个通道间的关系,并得到不同通道对应的的权重,最后乘以原来的视频分类网络得到的处理结果得到最终的待预测特征。
进一步地,基于最终得到的待预测特征,可通过多标签分类器(Multi-labelClassification)得到该样本视频的视频类型属于各预设视频类型的概率,进而基于该样本视频的视频类型属于各预设视频类型的概率,确定该样本视频的预测类型。
步骤S15、基于各样本视频的实际类型和预测类型确定总训练损失,基于总训练损失和训练样本集对初始模型进行迭代训练,直至总训练损失符合训练结束条件时停止训练,并将停止训练时的模型确定为视频类型预测模型。
在一些可行的实施方式中,在确定对初始模型进行训练所对应的总训练损失后,可基于总训练损失以及训练样本集对初始模型进行迭代训练,直至总训练损失符合训练结束条件时停止训练。
其中,上述训练结束条件可以为总训练损失达到收敛,或者连续预设次数的总训练损失小于预设阈值,或者可以为连续预设次数的相邻两次总训练损失的差值小于预设阈值等,具体可基于实际应用场景需求确定,在此不做限制。
对于每次训练,在总训练损失满足训练结束条件时刻停止训练,并将训练结束时的初始模型确定为最终的视频类型预测模型。若在对初始模型的训练过程中总训练损失不满足训练结束条件,则可对初始模型和预训练的卷积网络的相关参数进行调整,并在调整后再次基于上述方式进行训练并确定总训练损失,直至总训练损失满足训练结束条件时停止训练。
在一些可行的实施方式中,对于每一样本视频帧,若该样本视频帧的目标图像样本特征是通过将该样本视频帧的初始图像样本特征和图像分割样本特征进行拼接后得到的,则在将每一样本视频对应的各目标图像样本图像特征输入初始模型以对初始模型进行训练之前,可先将各样本视频帧对应的各目标图像样本特征输入预训练的卷积网络,通过卷积网络对每一样本视频帧的目标图像样本特征进行处理,得到该样本视频帧对应的融合样本特征。
基于此,在不破坏每一样本视频帧的目标图像样本特征的情况下,将该样本视频帧的图像分割样本特征与目标图像样本特征进行融合,从而进一步提升模型训练效果。
例如,一样本视频帧的初始图像样本特征的通道数为3(对应R、G、B三个颜色通道),且该样本视频帧的图像分割样本特征为单通道,则将该样本视频帧的初始图像样本特征和图像分割样本特征进行拼接后得到4通道的目标图像样本特征。
进一步可将该样本视频帧输入预训练的卷积网络对4通道的融合样本特征,从而对于每一样本视频而言,可将该样本视频的所有样本视频帧对应的融合样本特征和对应的第一视频样本特征输入初始模型,得到该样本视频的预测类型。
其中,上述预训练的卷积网络可基于初始模型进行训练。即对于每一样本视频帧,若该样本视频帧的目标图像样本特征是通过将该样本视频帧的初始图像样本特征和图像分割样本特征进行拼接后得到的,则在将每一样本视频对应的各目标图像样本图像特征输入初始模型以对初始模型进行训练之前,可先将各样本视频帧对应的各目标图像样本特征输入初始卷积网络(如1*1的初始卷积层),通过初始卷积网络对每一样本视频帧的目标图像样本特征进行处理,得到该样本视频帧对应的融合样本特征。
进一步地,对于每一样本视频而言,可将该样本视频对应的第一视频样本特征和所有样本视频帧对应的融合样本特征输入初始模型,通过初始模型确定该样本视频的预测类型,并基于预测类型和该样本视频的实际类型确定总训练损失。从而可在此基础上基于总训练损失和训练样本集对初始卷积网络进行迭代训练,即在总训练损失不满足训练结束条件时对初始卷积网络的相关参数进行调整,在总训练损失收敛时停止对初始卷积网络进行迭代训练,得到预训练的卷积网络。
在本申请实施例提供的视频类型预测模型的训练方法中,通过将每一样本视频帧对应于各颜色通道的颜色特征进行调换以及将样本视频帧的图像分割样本特征和初始图像样本特征相融合的方式,在不破坏样本视频帧的原始图像信息的情况下可强化样本视频帧中的背景元素并抑制非背景元素,从而可降低背景元素和颜色要素对模型训练的影响,使得训练得到的视频类型预测模型可在不依赖颜色和背景的情况下,提升视频类型的预测效果和准确性,并进一步提升模型的泛化能力。同时,基于每一样本视频帧的图像分割样本特征和初始图像样本特征得到每一样本视频帧的目标图像样本视频帧,从而在基于各目标样本视频帧对初始模型进行训练的过程中使得初始模型在样本视频帧的原始图像信息的未被破坏的情况下尽可能多得学习获得各样本视频帧的图像信息。对于每一样本视频而言,通过将该样本视频帧的第一视频样本特征和第二视频样本特征参与初始模型的训练过程,可使初始模型在对每一样本视频的视频类型进行预测时进一步参考对应样本视频的完整视频特征以及部分视频帧的图像类型属于至少一个预设图像类型的概率,进一步提升初始模型的视频类型的效果和准确性。
参见图7,图7是本申请实施例提供的视频类型确定方法的流程示意图。
如图7所示,本申请实施例提供的视频类型确定方法可包括如下步骤:
步骤S71、确定待预测视频的各视频帧的初始图像特征。
步骤S72、将各初始图像特征输入视频类型预测模型,得到待预测视频的目标类型。
其中,上述视频类型预测模型为基于图1所示的视频类型预测模型训练方法所训练得到的。
可选地,为得到待预测视频更为准确的视频类型,还可基于图1步骤S12所示的确定初始图像样本特征的方式确定各视频帧的初始图像特征,并基于步骤S12所示的确定目标图像样本特征的方式确定待预测视频的每一视频帧的目标图像特征。
进一步地,可从待预测视频中确定至少一个第二视频帧,并基于图1步骤S13所示的确定第一视频样本特征的方式,基于各第二视频帧的目标图像特征确定待预测视频对应的第一视频特征。从而可将待预测视频的各视频帧的目标图像特征和待预测视频的第一视频特征输入视频类型预测模型,得到待预测视频的目标类型。
其中,视频类型预测模型确定待预测视频的目标类型的具体实施方式,可基于图1所示的初始模型确定任一样本视频的预测类型的实现方式,在此不再赘述。
下面结合图8对本申请实施例提供的视频类型确定方法进行进一步说明。如图8所示,图8是本申请实施例提供的视频类型确定方法的流程框架示意图。
在图8中,视频发布对象通过移动端或者后端应用程序编程接口(ApplicationProgrammingInterface,API)获取接口服务器的接口地址,并向接口服务器提供视频源文件,且在提供视频源文件之前,可对对应的视频内容进行搭配音乐、优化内容等操作。视频消费对象则可通过调用中心服务器从接口服务器获取访问视频文件的索引信息,如下载地址等,从而根据索引信息获取视频源文件以观看视频。其中视频发布对象在提供视频源文件的过程中以及视频消费对象获取视频源文件的过程中,可对视频加载数据(如加载时间)、对象行为数据(如点击操作数据、播放操作数据等)进行上报。
其中,视频发布对象包括可以为内容生产者(Professional Generated Content,PGC),视频源文件可以为原创内容,如可以为用户原创内容(User Generated Content,UCG),在此不做限制。其中视频源文件的上传和下载可通过feeds流的形式实现。
对于接口服务器而言,其可以和视频发布对象直接通讯,可将视频发布对象发布的视频文件的视频元信息写入数据库当中,并可将视频源文件上传至调度中心,以通过调度中心的调度服务器实现视频内容的处理和流转。
对于数据库而言,可将所有视频发布对象发布的视频源文件的元信息进行存储,如将视频源文件的大小、相关连接(如下载连接,封面图片连接等)、视频码率、视频格式、视频标题、发布时间、作者、是否原创、视频分类等相关信息进行存储。其中,视频分类的相关信息可包括多级类型以及对应的标签信息,如一段手机测评视频的多级类型可包括科技、智能手机以及手机型号等。
其中,上述视频源文件的元信息可以由接口服务器在接收到视频源文件之后,会对视频源文件进行转码操作,并在转码完成后向数据库异步返回。
对于调度中心而言,调度中心可调用重排服务对重复和相似内容的视频源文件进行重排,从而可将重排结果写入数据库中,并将视频内容重复的视频源文件发送至人工审核系统,由人工审核系统进行审核并将审核结果返回至数据库。
其中,调度中心复核视频源文件的完整调度过程,如通过接口服务器获取视频发布对象发布的视频源文件,并可从数据库中获取视频源文件的元信息。
其中,调度中心可调用人工审核系统控制视频源文件的调度顺序和优先级,并可对视频内容重复的视频源文件进行过滤。
其中,调度中心可通过分发出口服务的相关服务器,基于推荐引擎或者搜索引擎或者运营直接的展示页面向视频消费对象分发视频。
其中,对于未进行重复过滤的视频源文件,调度中心可向分发出口服务的相关服务器输出视频源文件之间的内容相似度和相似关系链,供推荐系统打散使用;
其中,调度中心可负责对视频类型确定服务的通讯,完成视频类型确定和调度处理。
对于人工审核系统而言,人工审核系统可读取视频源文件的视频内容的原始信息,基于预设的筛选方式对视频源文件进行初步过滤,如将包括预设内容、预设关键词的视频源文件进行初步过滤。
在初步过滤的基础上,可对视频源文件的视频内容和类型标签进行确认提升视频源文件的类型分类和类型标签的准确性。
对于排重服务,可通过重排服务器对视频源文件进行向量化表示,然后建立向量索引并通过向量之间的相似度确定视频源文件之间的相似度。
对于视频下载系统,其可以是一组并行的服务器,也可以是由相关的任务调度和分发集群构成,可从视频存储服务的相关服务器中下载原始的视频源文件,并控制下载的速度和进度。同时可将样本视频中的样本视频进行抽帧处理等操作,以确定每一样本视频对应的第一视频样本特征。
对于样本数据库,其可作为视频类型预测模型的训练过程中用于存储样本视频的数据库,其可包括每一样本视频以及各样本视频的所有视频帧的目标图像样本特征,即对各视频帧进行图像增强后的目标图像样本特征,进而基于样本数据库对初始模型进行训练得到视频类型预测模型。
对于视频存储服务,其可以通过CDN加速服务器进行分布式缓存加速将视频发布对象通过接口服务发布的视频源文件进行存储,还可以基于视频消费对象提供的视频源文件的索引信息向视频消费对象提供对应的视频源文件,还可以对内部视频处理操作提供视频源文件的数据支撑。
对于视频类型确定服务,其可以将视频类型预测模型服务化,和调度中心进行通讯以完成对视频流转链路中视频源文件的视频类型的确定,并将相关结果存储至数据库中作为视频源文件的元信息的一部分。
基于本申请实施例提供的视频类型预测模型的训练方法所训练出的视频类型预测模型,可对自媒体平台、视频流、自媒体社区等产生的视频的类型进行确定,还可应用于智能交通系统(Intelligent Traffic System,ITS)或智能车路协同系统(IntelligentVehicle Infrastructure Cooperative Systems,IVICS)以确定车辆或行人的行驶视频片段的类型,以判断车辆或行人的行驶环境或交通安全性等。
其中,智能交通系统又称智能运输系统(Intelligent Transportation System),是将先进的科学技术(信息技术、计算机技术、数据通信技术、传感器技术、电子控制技术、自动控制理论、运筹学、人工智能等)有效地综合运用于交通运输、服务控制和车辆制造,加强车辆、道路、使用者三者之间的联系。智能车路协同系统,简称车路协同系统,是智能交通系统(ITS)的一个发展方向。车路协同系统是采用先进的无线通信和新一代互联网等技术,全方位实施车车、车路动态实时信息交互,并在全时空动态交通信息采集与融合的基础上开展车辆主动安全控制和道路协同管理,充分实现人车路的有效协同。
参见图9,图9是本申请实施例提供的视频类型确定装置的结构示意图。本申请实施例提供的视频类型确定装置包括:
特征确定模块91,用于确定待预测视频的各视频帧的初始图像特征;
类型预测模块92,用于将各上述初始图像特征输入视频类型预测模型,得到上述待预测视频的目标类型;
其中,上述视频类型预测模型是通过模型训练装置训练得到的,上述模型训练装置,用于:
确定训练样本集,上述训练样本集包括至少一个样本视频;
确定每一上述样本视频的各样本视频帧,确定每一上述样本视频帧的初始图像样本特征和图像分割样本特征,基于上述初始图像样本特征和上述图像分割样本特征确定该样本视频帧的目标图像样本特征;
从每一上述样本视频的各样本视频帧中确定至少一个第一视频帧,基于各上述第一视频帧的目标图像样本特征,确定该样本视频对应的第一视频样本特征,上述第一视频样本特征表征了每一上述第一视频帧的图像类型属于至少一个预设图像类型的概率;
将每一上述样本视频对应的各目标图像样本特征和第一视频样本特征输入初始模型,得到每一上述样本视频的预测类型;
基于各上述样本视频的实际类型和预测类型确定总训练损失,基于上述总训练损失和上述训练样本集对上述初始模型进行迭代训练,直至上述总训练损失符合训练结束条件时停止训练,并将停止训练时的模型确定为上述视频类型预测模型。
在一些可行的实施方式中,对于每一上述样本视频帧,上述模型训练装置,用于:
确定该样本视频帧对应于各颜色通道的颜色特征;
该样本视频帧对应于每一上述颜色通道的颜色特征替换为该样本视频帧对应于除该颜色通道外的其他任一颜色通道的颜色特征,得到该样本视频帧的初始图像样本特征。
在一些可行的实施方式中,对于每一上述样本视频帧,上述模型训练装置,用于:
对该样本视频帧进行图像分割处理,得到图像分割结果;
将上述图像分割结果中对应于背景元素的各像素点的特征值替换为第一值,基于各上述第一值和上述图像分割结果中对应于非背景元素的各像素点的特征值,确定该样本视频帧的图像分割样本特征。
在一些可行的实施方式中,对于每一上述样本视频帧,上述模型训练装置,用于:
将上述图像分割结果中对应于非背景元素的各像素点的特征值替换为第二值;
基于各上述第一值和各上述第二值该样本视频帧的图像分割样本特征。
在一些可行的实施方式中,对于每一上述样本视频帧,上述模型训练装置,用于:
对于该样本视频帧的每一像素点,将上述初始图像样本特征中对应于该像素点的颜色特征与上述图像分割样本特征中对应于该像素点的特征值相乘,得到该像素点对应的目标样本特征,基于该样本视频帧的各像素点对应的目标样本特征,确定该样本视频帧的目标图像样本特征;
将上述初始图像样本特征和上述图像分割样本特征进行拼接得到第一拼接特征,将上述第一拼接特征确定为该样本视频帧的目标图像样本特征。
在一些可行的实施方式中,每一上述样本视频帧的目标图像样本特征是将该样本视频帧的初始图像样本特征和图像分割样本特征进行拼接后得到的,上述模型训练装置,用于:
基于预训练的卷积网络对每一上述样本视频帧的目标图像样本特征进行处理,得到每一上述样本视频帧对应的融合样本特征;
将每一上述样本视频对应的各融合样本特征和第一视频样本特征输入初始模型,得到每一上述样本视频的预测类型。
在一些可行的实施方式中,对于每一上述样本视频,上述模型训练装置,用于:
将该样本视频对应的各第一视频帧的目标图像样本特征输入预训练的图像类型预测网络,得到各上述第一视频帧对应的预测分布特征,其中,每一上述预测分布特征中的一个特征值用于表征对应第一视频帧的图像类型属于该特征值对应的预设图像类型的概率;
将每一上述预测分布特征中的各特征值按照由大到小的顺序进行排列得到特征值序列,从上述特征值序列中截取前预设数量的特征值作为该预测分布特征对应的目标分布特征,基于各上述第一视频帧对应的目标分布特征,确定该样本视频对应的第一视频样本特征。
在一些可行的实施方式中,上述初始模型是基于以下方式确定每一上述视频的预测类型的:
基于该样本视频对应的各目标图像样本特征,确定该样本视频对应的第二视频样本特征,上述第二视频样本特征表征了该样本视频的视频内容;
将该样本视频对应的第二视频样本特征和第一视频样本特征进行拼接,得到该样本视频对应的目标场景样本特征;
基于上述目标场景样本特征确定该样本视频的预测类型。
具体实现中,上述模型训练装置可通过其内置的各个功能模块执行如上述图1中各个步骤所提供的实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
参见图10,图10是本申请实施例提供的电子设备的结构示意图。如图10所示,本实施例中的电子设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,上述电子设备1000还可以包括:对象接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,对象接口1003可以包括显示屏(Display)、键盘(Keyboard),可选对象接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器,也可以是非易失性存储器(non-volatile memory,NVM),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、对象接口模块以及设备控制应用程序。
在图10所示的电子设备1000中,网络接口1004可提供网络通讯功能;而对象接口1003主要用于为对象提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
确定待预测视频的各视频帧的初始图像特征;
将各上述初始图像特征输入视频类型预测模型,得到上述待预测视频的目标类型;
其中,上述视频类型预测模型是上述处理器1001基于以下方式训练得到的:
确定训练样本集,上述训练样本集包括至少一个样本视频;
确定每一上述样本视频的各样本视频帧,确定每一上述样本视频帧的初始图像样本特征和图像分割样本特征,基于上述初始图像样本特征和上述图像分割样本特征确定该样本视频帧的目标图像样本特征;
从每一上述样本视频的各样本视频帧中确定至少一个第一视频帧,基于各上述第一视频帧的目标图像样本特征,确定该样本视频对应的第一视频样本特征,上述第一视频样本特征表征了每一上述第一视频帧的图像类型属于至少一个预设图像类型的概率;
将每一上述样本视频对应的各目标图像样本特征和第一视频样本特征输入初始模型,得到每一上述样本视频的预测类型;
基于各上述样本视频的实际类型和预测类型确定总训练损失,基于上述总训练损失和上述训练样本集对上述初始模型进行迭代训练,直至上述总训练损失符合训练结束条件时停止训练,并将停止训练时的模型确定为上述视频类型预测模型。
在一些可行的实施方式中,对于每一上述样本视频帧,上述处理器1001用于:
确定该样本视频帧对应于各颜色通道的颜色特征;
该样本视频帧对应于每一上述颜色通道的颜色特征替换为该样本视频帧对应于除该颜色通道外的其他任一颜色通道的颜色特征,得到该样本视频帧的初始图像样本特征。
在一些可行的实施方式中,对于每一上述样本视频帧,上述处理器1001用于:
对该样本视频帧进行图像分割处理,得到图像分割结果;
将上述图像分割结果中对应于背景元素的各像素点的特征值替换为第一值,基于各上述第一值和上述图像分割结果中对应于非背景元素的各像素点的特征值,确定该样本视频帧的图像分割样本特征。
在一些可行的实施方式中,对于每一上述样本视频帧,上述处理器1001用于:
将上述图像分割结果中对应于非背景元素的各像素点的特征值替换为第二值;
基于各上述第一值和各上述第二值该样本视频帧的图像分割样本特征。
在一些可行的实施方式中,对于每一上述样本视频帧,上述处理器1001用于:
对于该样本视频帧的每一像素点,将上述初始图像样本特征中对应于该像素点的颜色特征与上述图像分割样本特征中对应于该像素点的特征值相乘,得到该像素点对应的目标样本特征,基于该样本视频帧的各像素点对应的目标样本特征,确定该样本视频帧的目标图像样本特征;
将上述初始图像样本特征和上述图像分割样本特征进行拼接得到第一拼接特征,将上述第一拼接特征确定为该样本视频帧的目标图像样本特征。
在一些可行的实施方式中,每一上述样本视频帧的目标图像样本特征是将该样本视频帧的初始图像样本特征和图像分割样本特征进行拼接后得到的,上述处理器1001用于:
基于预训练的卷积网络对每一上述样本视频帧的目标图像样本特征进行处理,得到每一上述样本视频帧对应的融合样本特征;
将每一上述样本视频对应的各融合样本特征和第一视频样本特征输入初始模型,得到每一上述样本视频的预测类型。
在一些可行的实施方式中,对于每一上述样本视频帧,上述处理器1001用于:
将该样本视频对应的各第一视频帧的目标图像样本特征输入预训练的图像类型预测网络,得到各上述第一视频帧对应的预测分布特征,其中,每一上述预测分布特征中的一个特征值用于表征对应第一视频帧的图像类型属于该特征值对应的预设图像类型的概率;
将每一上述预测分布特征中的各特征值按照由大到小的顺序进行排列得到特征值序列,从上述特征值序列中截取前预设数量的特征值作为该预测分布特征对应的目标分布特征,基于各上述第一视频帧对应的目标分布特征,确定该样本视频对应的第一视频样本特征。
在一些可行的实施方式中,上述初始模型是基于以下方式确定每一上述视频的预测类型的:
基于该样本视频对应的各目标图像样本特征,确定该样本视频对应的第二视频样本特征,上述第二视频样本特征表征了该样本视频的视频内容;
将该样本视频对应的第二视频样本特征和第一视频样本特征进行拼接,得到该样本视频对应的目标场景样本特征;
基于上述目标场景样本特征确定该样本视频的预测类型。
应当理解,在一些可行的实施方式中,上述处理器1001可以是中央处理单元(central processing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specific integratedcircuit,ASIC)、现成可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。该存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。
具体实现中,上述电子设备1000可通过其内置的各个功能模块执行如上述图1和/或图7中各个步骤所提供的实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,被处理器执行以实现图1和/或图7中各个步骤所提供的方法,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
上述计算机可读存储介质可以是前述任一实施例提供的装置或电子设备的内部存储单元,例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备,例如该电子设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。上述计算机可读存储介质还可以包括磁碟、光盘、只读存储记忆体(read-only memory,ROM)或随机存储记忆体(randomaccess memory,RAM)等。进一步地,该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序,上述计算机程序被处理器执行图1和/或图7中各个步骤所提供的方法。
本申请的权利要求书和说明书及附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或电子设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或电子设备固有的其它步骤或单元。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
以上所揭露的仅为本申请较佳实施例而已,不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (12)
1.一种视频类型确定方法,其特征在于,所述方法包括:
确定待预测视频的各视频帧的初始图像特征;
将各所述初始图像特征输入视频类型预测模型,得到所述待预测视频的目标类型;
其中,所述视频类型预测模型是基于以下方式训练得到的:
确定训练样本集,所述训练样本集包括至少一个样本视频;
确定每一所述样本视频的各样本视频帧,确定每一所述样本视频帧的初始图像样本特征和图像分割样本特征,基于所述初始图像样本特征和所述图像分割样本特征确定该样本视频帧的目标图像样本特征;
从每一所述样本视频的各样本视频帧中确定至少一个第一视频帧,基于各所述第一视频帧的目标图像样本特征,确定该样本视频对应的第一视频样本特征,所述第一视频样本特征表征了每一所述第一视频帧的图像类型属于至少一个预设图像类型的概率;
将每一所述样本视频对应的各目标图像样本特征和第一视频样本特征输入初始模型,得到每一所述样本视频的预测类型;
基于各所述样本视频的实际类型和预测类型确定总训练损失,基于所述总训练损失和所述训练样本集对所述初始模型进行迭代训练,直至所述总训练损失符合训练结束条件时停止训练,并将停止训练时的模型确定为所述视频类型预测模型。
2.根据权利要求1所述的方法,其特征在于,对于每一所述样本视频帧,确定该样本视频帧的初始图像样本特征,包括:
确定该样本视频帧对应于各颜色通道的颜色特征;
该样本视频帧对应于每一所述颜色通道的颜色特征替换为该样本视频帧对应于除该颜色通道外的其他任一颜色通道的颜色特征,得到该样本视频帧的初始图像样本特征。
3.根据权利要求1所述的方法,其特征在于,对于每一所述样本视频帧,确定该样本视频帧的图像分割样本特征,包括:
对该样本视频帧进行图像分割处理,得到图像分割结果;
将所述图像分割结果中对应于背景元素的各像素点的特征值替换为第一值,基于各所述第一值和所述图像分割结果中对应于非背景元素的各像素点的特征值,确定该样本视频帧的图像分割样本特征。
4.根据权利要求3所述的方法,其特征在于,对于每一所述样本视频帧,所述基于各所述第一值和所述图像分割结果中对应于非背景元素的各像素点的特征值,确定该样本视频帧的图像分割样本特征,包括:
将所述图像分割结果中对应于非背景元素的各像素点的特征值替换为第二值;
基于各所述第一值和各所述第二值该样本视频帧的图像分割样本特征。
5.根据权利要求1所述的方法,其特征在于,对于每一所述样本视频帧,所述基于所述初始图像样本特征和所述图像分割样本特征确定该样本视频帧的目标图像样本特征,包括以下至少一项:
对于该样本视频帧的每一像素点,将所述初始图像样本特征中对应于该像素点的颜色特征与所述图像分割样本特征中对应于该像素点的特征值相乘,得到该像素点对应的目标样本特征,基于该样本视频帧的各像素点对应的目标样本特征,确定该样本视频帧的目标图像样本特征;
将所述初始图像样本特征和所述图像分割样本特征进行拼接得到第一拼接特征,将所述第一拼接特征确定为该样本视频帧的目标图像样本特征。
6.根据权利要求5所述的方法,其特征在于,每一所述样本视频帧的目标图像样本特征是通过将该样本视频帧的初始图像样本特征和图像分割样本特征进行拼接后得到的,所述将每一所述样本视频对应的各目标图像样本特征和第一视频样本特征输入初始模型,得到每一所述样本视频的预测类型,包括:
基于预训练的卷积网络对每一所述样本视频帧的目标图像样本特征进行处理,得到每一所述样本视频帧对应的融合样本特征;
将每一所述样本视频对应的各融合样本特征和第一视频样本特征输入初始模型,得到每一所述样本视频的预测类型。
7.根据权利要求1所述的方法,其特征在于,对于每一所述样本视频,基于该样本视频对应的各第一视频帧的目标图像样本特征,确定该样本视频对应的第一视频样本特征,包括:
将该样本视频对应的各第一视频帧的目标图像样本特征输入预训练的图像类型预测网络,得到各所述第一视频帧对应的预测分布特征,其中,每一所述预测分布特征中的一个特征值用于表征对应第一视频帧的图像类型属于该特征值对应的预设图像类型的概率;
将每一所述预测分布特征中的各特征值按照由大到小的顺序进行排列得到特征值序列,从所述特征值序列中截取前预设数量的特征值作为该预测分布特征对应的目标分布特征,基于各所述第一视频帧对应的目标分布特征,确定该样本视频对应的第一视频样本特征。
8.根据权利要求1所述的方法,其特征在于,所述初始模型是基于以下方式确定每一所述视频的预测类型的:
基于该样本视频对应的各目标图像样本特征,确定该样本视频对应的第二视频样本特征,所述第二视频样本特征表征了该样本视频的视频内容;
将该样本视频对应的第二视频样本特征和第一视频样本特征进行拼接,得到该样本视频对应的目标场景样本特征;
基于所述目标场景样本特征确定该样本视频的预测类型。
9.一种视频类型确定装置,其特征在于,所述装置包括:
特征确定模块,用于确定待预测视频的各视频帧的初始图像特征;
类型预测模块,用于将各所述初始图像特征输入视频类型预测模型,得到所述待预测视频的目标类型;
其中,所述视频类型预测模型是通过模型训练装置训练得到的,所述模型训练装置,用于:
确定训练样本集,所述训练样本集包括至少一个样本视频;
确定每一所述样本视频的各样本视频帧,确定每一所述样本视频帧的初始图像样本特征和图像分割样本特征,基于所述初始图像样本特征和所述图像分割样本特征确定该样本视频帧的目标图像样本特征;
从每一所述样本视频的各样本视频帧中确定至少一个第一视频帧,基于各所述第一视频帧的目标图像样本特征,确定该样本视频对应的第一视频样本特征,所述第一视频样本特征表征了每一所述第一视频帧的图像类型属于至少一个预设图像类型的概率;
将每一所述样本视频对应的各目标图像样本特征和第一视频样本特征输入初始模型,得到每一所述样本视频的预测类型;
基于各所述样本视频的实际类型和预测类型确定总训练损失,基于所述总训练损失和所述训练样本集对所述初始模型进行迭代训练,直至所述总训练损失符合训练结束条件时停止训练,并将停止训练时的模型确定为所述视频类型预测模型。
10.一种电子设备,其特征在于,包括处理器和存储器,所述处理器和存储器相互连接;
所述存储器用于存储计算机程序;
所述处理器被配置用于在调用所述计算机程序时,执行如权利要求1至8任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现权利要求1至8任一项所述的方法。
12.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现权利要求1至8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210226169.3A CN114581833B (zh) | 2022-03-09 | 2022-03-09 | 视频类型确定方法、装置、设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210226169.3A CN114581833B (zh) | 2022-03-09 | 2022-03-09 | 视频类型确定方法、装置、设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114581833A true CN114581833A (zh) | 2022-06-03 |
CN114581833B CN114581833B (zh) | 2024-10-15 |
Family
ID=81773577
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210226169.3A Active CN114581833B (zh) | 2022-03-09 | 2022-03-09 | 视频类型确定方法、装置、设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114581833B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019241346A1 (en) * | 2018-06-13 | 2019-12-19 | Google Llc | Visual tracking by colorization |
WO2020114378A1 (zh) * | 2018-12-03 | 2020-06-11 | 广州市百果园信息技术有限公司 | 视频水印的识别方法、装置、设备及存储介质 |
CN111652073A (zh) * | 2020-05-08 | 2020-09-11 | 腾讯科技(深圳)有限公司 | 视频分类方法、装置、系统、服务器和存储介质 |
WO2021143008A1 (zh) * | 2020-01-19 | 2021-07-22 | 深圳市商汤科技有限公司 | 类别标注方法及装置、电子设备、存储介质和计算机程序 |
CN113536877A (zh) * | 2021-01-12 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 视频检测方法、装置、设备以及存储介质 |
-
2022
- 2022-03-09 CN CN202210226169.3A patent/CN114581833B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019241346A1 (en) * | 2018-06-13 | 2019-12-19 | Google Llc | Visual tracking by colorization |
WO2020114378A1 (zh) * | 2018-12-03 | 2020-06-11 | 广州市百果园信息技术有限公司 | 视频水印的识别方法、装置、设备及存储介质 |
WO2021143008A1 (zh) * | 2020-01-19 | 2021-07-22 | 深圳市商汤科技有限公司 | 类别标注方法及装置、电子设备、存储介质和计算机程序 |
CN111652073A (zh) * | 2020-05-08 | 2020-09-11 | 腾讯科技(深圳)有限公司 | 视频分类方法、装置、系统、服务器和存储介质 |
CN113536877A (zh) * | 2021-01-12 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 视频检测方法、装置、设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114581833B (zh) | 2024-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10235602B1 (en) | Machine learning artificial intelligence system for identifying vehicles | |
Zhang et al. | Colorful image colorization | |
Schwenzow et al. | Understanding videos at scale: How to extract insights for business research | |
CN112215171B (zh) | 目标检测方法、装置、设备及计算机可读存储介质 | |
CN111353392B (zh) | 换脸检测方法、装置、设备及存储介质 | |
CN110990631A (zh) | 视频筛选方法、装置、电子设备和存储介质 | |
CN111310041B (zh) | 图文发布的方法、模型的训练方法、装置及存储介质 | |
CN108446964B (zh) | 一种基于移动流量dpi数据的用户推荐方法 | |
CN113761253A (zh) | 视频标签确定方法、装置、设备及存储介质 | |
CN111783712A (zh) | 一种视频处理方法、装置、设备及介质 | |
CN110796204A (zh) | 视频标签确定方法、装置和服务器 | |
CN110929806A (zh) | 基于人工智能的图片处理方法、装置及电子设备 | |
CN115393599A (zh) | 构建图像语义分割模型和图像处理的方法、装置、电子设备及介质 | |
CN116935170B (zh) | 视频处理模型的处理方法、装置、计算机设备和存储介质 | |
CN111432206A (zh) | 基于人工智能的视频清晰度处理方法、装置及电子设备 | |
CN114692007B (zh) | 表示信息的确定方法、装置、设备及存储介质 | |
CN115131698A (zh) | 视频属性确定方法、装置、设备及存储介质 | |
CN113706551A (zh) | 一种图像分割方法、装置、设备及存储介质 | |
CN115131634A (zh) | 图像识别方法、装置、设备、存储介质及计算机程序产品 | |
CN115171014A (zh) | 视频处理方法、装置、电子设备及计算机可读存储介质 | |
CN116939287A (zh) | 视频理解方法、装置、电子设备及存储介质 | |
CN115115979A (zh) | 视频中组成元素的识别、替换方法以及视频推荐方法 | |
CN114581833B (zh) | 视频类型确定方法、装置、设备以及存储介质 | |
CN114332678A (zh) | 数据处理方法、装置、存储介质及设备 | |
CN114363660A (zh) | 视频合集确定方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |