CN114332678A - 数据处理方法、装置、存储介质及设备 - Google Patents

数据处理方法、装置、存储介质及设备 Download PDF

Info

Publication number
CN114332678A
CN114332678A CN202111480074.6A CN202111480074A CN114332678A CN 114332678 A CN114332678 A CN 114332678A CN 202111480074 A CN202111480074 A CN 202111480074A CN 114332678 A CN114332678 A CN 114332678A
Authority
CN
China
Prior art keywords
target
feature map
sample
sequence
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111480074.6A
Other languages
English (en)
Inventor
陈思宏
李宇聪
鞠奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111480074.6A priority Critical patent/CN114332678A/zh
Publication of CN114332678A publication Critical patent/CN114332678A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)

Abstract

本申请实施例公开了数据处理方法、装置、存储介质及设备,本申请可以应用于人工智能和智慧交通技术领域。方法包括:对目标视频数据中的M个视频帧进行第一特征提取处理,得到第一特征图序列,对M个视频帧进行第二特征提取处理,得到第二特征图序列;根据第一时间采样参数对第一特征图序列进行采样,得到目标第一特征图,根据第二时间采样参数对第二特征图序列进行采样,得到目标第二特征图;根据目标第一特征图和目标第二特征图生成时间融合特征图;根据时间融合特征图、第一特征图序列以及第二特征图序列,生成目标融合特征图,根据该目标融合特征图确定目标视频数据的视频内容类别。通过本申请,可以提高对目标视频数据进行分类的准确性。

Description

数据处理方法、装置、存储介质及设备
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据处理方法、装置、存储介质及设备。
背景技术
随着人工智能技术的发展,越来越多的应用场景调用分类模型对视频数据进行分类,以确定出视频对应的类别。视频分类是指给定一个视频片段,对其中包含的内容进行分类,在安防、社交媒体、智慧交通等领域,视频分类有着广泛的应用前景。
目前,在对视频数据进行分类时,一般是通过获取视频数据的视频标签和视频简介等文本信息,通过识别该文本信息来确定视频的类型,当视频数据不存在视频标签和视频简介时,则无法对该视频数据进行分类,甚至需要依赖人工进行分类,受主观等因素的影响且人工分类经验有限,导致视频分类的准确性较低。
发明内容
本申请实施例所要解决的技术问题在于,提供一种数据处理方法、装置、存储介质及设备,可以提高对目标视频数据进行分类的准确性。
本申请实施例一方面提供一种数据处理方法,包括:
获取目标视频数据中的M个视频帧,对M个视频帧进行第一特征提取处理,得到第一特征图序列,对M个视频帧进行第二特征提取处理,得到第二特征图序列;
根据第一时间采样参数对第一特征图序列进行采样,得到目标第一特征图,根据第二时间采样参数对第二特征图序列进行采样,得到目标第二特征图;目标第一特征图和目标第二特征图分别对应的视频帧的数量之和等于M,目标第一特征图和目标第二特征图分别对应的视频帧互不相同;
根据目标第一特征图和目标第二特征图生成时间融合特征图;
根据时间融合特征图、第一特征图序列以及第二特征图序列,生成目标融合特征图,对目标融合特征图进行分类,得到目标视频数据的视频内容类别。
其中,第一特征图序列包括M个视频帧分别对应的第一特征图,第二特征图序列包括M个视频帧分别对应的第二特征图;
根据时间融合特征图、第一特征图序列以及第二特征图序列,生成目标融合特征图,对目标融合特征图进行分类,得到目标视频数据的视频内容类别,包括:
在第一特征图序列和第二特征图序列中,将关联相同视频帧的第一特征图和第二特征图进行像素混合拼接,得到M个视频帧分别对应的像素混合特征图;
根据M个视频帧分别对应的像素混合特征图生成像素融合特征图;
根据时间融合特征图和像素融合特征图生成目标融合特征图,对目标融合特征图进行分类,得到目标视频数据的视频内容类别。
其中,获取目标视频数据中的M个视频帧,包括:
获取原始视频数据,获取原始视频数据中每个原始视频帧的内容属性;
根据每个原始视频帧的内容属性,对原始视频数据进行划分,得到N个视频片段;N为正整数;
从N个视频片段中选择目标视频片段,作为目标视频数据;
根据视频采样规则所指示的采样视频帧数量M,对目标视频数据所包括的原始视频帧进行视频帧采样,得到目标视频数据中的M个视频帧。
其中,方法还包括:
获取初始时间采样参数;初始时间采样参数中的采样元素的数量为M;
随机确定初始时间采样参数中具有位置顺序的M个采样元素的元素值,得到第一时间采样参数;元素值包括第一元素阈值和第二元素阈值,第一元素阈值用于指示对特征图进行采样,第二元素阈值用于指示对特征图进行屏蔽;
根据第一时间采样参数中M个采样元素的元素值确定第二时间采样参数;第一时间采样参数与第二时间采样参数中处于相同位置上的采样元素的元素值互不相同。
其中,根据第一时间采样参数对第一特征图序列进行采样,得到目标第一特征图,根据第二时间采样参数对第二特征图序列进行采样,得到目标第二特征图,包括:
调用目标分类模型,在目标分类模型的特征融合层中,基于第一时间采样参数中的第一元素阈值,对第一特征图序列中关联特征图进行采样,基于第一时间采样参数中的第二元素阈值,对第一特征图序列中关联特征图进行屏蔽,得到目标第一特征图;
根据第二时间采样参数中的第一元素阈值,对第二特征图序列中关联特征图进行采样,根据第二时间采样参数中的第二元素阈值,对第二特征图序列中关联特征图进行屏蔽,得到目标第二特征图。
其中,根据目标第一特征图和目标第二特征图生成时间融合特征图,包括:
获取目标第一特征图所对应的视频帧的第一时间戳,获取目标第二特征图所对应的视频帧的第二时间戳;
根据第一时间戳和第二时间戳之间的时间顺序,对目标第一特征图和目标第二特征图进行组合,得到时间融合特征图。
其中,M个视频帧包括视频帧Mi,i为小于或者等于M的正整数;
在第一特征图序列和第二特征图序列中,将关联相同视频帧的第一特征图和第二特征图进行像素混合拼接,得到M个视频帧分别对应的像素混合特征图,包括:
调用目标分类模型,通过目标分类模型中的特征融合层,在第一特征图序列中获取视频帧Mi对应的第一特征图,在第二特征图序列中获取视频帧Mi对应的第二特征图;
根据第一像素采样参数,对视频帧Mi对应的第一特征图进行像素采样,得到第一像素采样特征图,根据第二像素采样参数对视频帧Mi对应的第二特征图进行像素采样,得到第二像素采样特征图;
对第一像素采样特征图和第二像素采样特征图进行像素混合拼接,得到视频帧Mi对应的像素混合特征图。
其中,根据时间融合特征图和像素融合特征图生成目标融合特征图,对目标融合特征图进行分类,得到目标视频数据的视频内容类别,包括:
调用目标分类模型,通过目标分类模型中的特征融合层,对时间融合特征图和像素融合特征图进行相加,得到目标融合特征图;
通过目标分类模型中的卷积层,对目标融合特征图进行卷积处理,得到卷积处理后的目标融合特征图;
通过目标分类模型中的分类层,对卷积处理后的目标融合特征图进行分类处理,得到目标视频数据的视频内容类别。
其中,通过目标分类模型中的分类层,对卷积处理后的目标融合特征图进行分类处理,得到目标视频数据的视频内容类别,包括:
将卷积处理后的目标融合特征图输入分类层中的第一分类子层,对卷积处理后的目标融合特征图进行分类处理,得到第一分类结果;
将卷积处理后的目标融合特征图输入分类层中的第二分类子层,对卷积处理后的目标融合特征图进行分类处理,得到第二分类结果;
获取第一分类结果与第二分类结果的平均值,根据该平均值确定目标视频数据的视频内容类别。
本申请实施例一方面提供一种数据处理方法,包括:
通过初始分类模型,对第一样本视频数据中的M个第一样本视频帧进行第一特征提取处理,得到第一样本特征图序列,对第二样本视频数据中的M个第二样本视频帧进行第二特征提取处理,得到第二样本特征图序列;M为正整数;
根据第一样本时间采样参数对第一样本特征图序列进行采样,得到目标第一样本特征图,根据第二样本时间采样参数对第二样本特征图序列进行采样,得到目标第二样本特征图;目标第一样本特征图和目标第二样本特征图分别对应的样本视频帧的数量之和等于M,目标第一样本特征图在第一样本特征图序列中的位置,与目标第二样本特征图在第二样本特征图序列中的位置互不相同;
根据目标第一样本特征图和目标第二样本特征图生成样本时间融合特征图,根据样本时间融合特征图、第一样本特征图序列以及第二样本特征图序列,生成用于预测视频内容类别的目标样本融合特征图,根据目标样本融合特征图对初始分类模型进行参数调整,得到目标分类模型;目标分类模型用于预测目标视频数据的视频内容类别。
其中,根据目标样本融合特征图对初始分类模型进行参数调整,得到目标分类模型,包括:
根据目标样本融合特征图预测第一样本视频数据的第一预测视频内容类别,根据目标样本融合特征图预测第二样本视频数据的第二预测视频内容类别;
根据第一样本视频数据的第一视频内容类别标签和第一预测视频内容类别生成第一损失函数;
根据第二样本视频数据的第二视频内容类别标签和第二预测视频内容类别生成第二损失函数;
根据第一损失函数和第二损失函数生成总损失函数,根据总损失函数对初始分类模型进行参数调整,当参数调整后的初始分类模型满足训练收敛条件时,将参数调整后的初始分类模型确定为目标分类模型。
其中,根据第一损失函数和第二损失函数生成总损失函数,包括:
根据第一样本像素采样参数对第一样本特征图序列进行像素采样,得到第一样本像素采样特征图序列,调用信息损失预测模型,对第一样本像素采样特征图序列和目标第一样本特征图进行损失预测,得到第一样本特征图序列对应的第一信息损失概率;
根据第二样本像素采样参数对第二样本特征图序列进行像素采样,得到第二样本像素采样特征图序列,调用信息损失预测模型,对第二样本像素采样特征图序列和目标第二样本特征图进行损失预测,得到第二样本特征图序列对应的第二信息损失概率;
根据第一信息损失概率对第一损失函数进行加权处理,得到加权处理后的第一损失函数,根据第二信息损失概率对第二损失函数进行加权处理,得到加权处理后的第二损失函数;
对加权处理后的第一损失函数和第二加权处理后的第二损失函数进行求和处理,得到总损失函数。
本申请实施例一方面提供一种数据处理装置,包括:
第一特征提取模块,用于获取目标视频数据中的M个视频帧,对M个视频帧进行第一特征提取处理,得到第一特征图序列,对M个视频帧进行第二特征提取处理,得到第二特征图序列;
第一采样模块,用于根据第一时间采样参数对第一特征图序列进行采样,得到目标第一特征图,根据第二时间采样参数对第二特征图序列进行采样,得到目标第二特征图;目标第一特征图和目标第二特征图分别对应的视频帧的数量之和等于M,目标第一特征图和目标第二特征图分别对应的视频帧互不相同;
生成模块,用于根据目标第一特征图和目标第二特征图生成时间融合特征图;
分类模块,用于根据时间融合特征图、第一特征图序列以及第二特征图序列,生成目标融合特征图,对目标融合特征图进行分类,得到目标视频数据的视频内容类别。
其中,第一特征图序列包括M个视频帧分别对应的第一特征图,第二特征图序列包括M个视频帧分别对应的第二特征图;
分类模块包括:
像素混合拼接单元,用于在第一特征图序列和第二特征图序列中,将关联相同视频帧的第一特征图和第二特征图进行像素混合拼接,得到M个视频帧分别对应的像素混合特征图;
第一生成单元,用于根据M个视频帧分别对应的像素混合特征图生成像素融合特征图;
分类单元,用于根据时间融合特征图和像素融合特征图生成目标融合特征图,对目标融合特征图进行分类,得到目标视频数据的视频内容类别。
其中,第一特征提取模块包括:
第一获取单元,用于获取原始视频数据,获取原始视频数据中每个原始视频帧的内容属性;
划分单元,用于根据每个原始视频帧的内容属性,对原始视频数据进行划分,得到N个视频片段;N为正整数;
选择单元,用于从N个视频片段中选择目标视频片段,作为目标视频数据;
视频帧采样单元,用于根据视频采样规则所指示的采样视频帧数量M,对目标视频数据所包括的原始视频帧进行视频帧采样,得到目标视频数据中的M个视频帧。
其中,数据处理装置还包括:
获取模块,用于获取初始时间采样参数;初始时间采样参数中的采样元素的数量为M;
第一确定模块,用于随机确定初始时间采样参数中具有位置顺序的M个采样元素的元素值,得到第一时间采样参数;元素值包括第一元素阈值和第二元素阈值,第一元素阈值用于指示对特征图进行采样,第二元素阈值用于指示对特征图进行屏蔽;
第二确定模块,用于根据第一时间采样参数中M个采样元素的元素值确定第二时间采样参数;第一时间采样参数与第二时间采样参数中处于相同位置上的采样元素的元素值互不相同。
其中,第一采样模块包括:
第一采样单元,用于调用目标分类模型,在目标分类模型的特征融合层中,基于第一时间采样参数中的第一元素阈值,对第一特征图序列中关联特征图进行采样,基于第一时间采样参数中的第二元素阈值,对第一特征图序列中关联特征图进行屏蔽,得到目标第一特征图;
第二采样单元,用于根据第二时间采样参数中的第一元素阈值,对第二特征图序列中关联特征图进行采样,根据第二时间采样参数中的第二元素阈值,对第二特征图序列中关联特征图进行屏蔽,得到目标第二特征图。
其中,生成模块包括:
第二获取单元,用于获取目标第一特征图所对应的视频帧的第一时间戳,获取目标第二特征图所对应的视频帧的第二时间戳;
组合单元,用于根据第一时间戳和第二时间戳之间的时间顺序,对目标第一特征图和目标第二特征图进行组合,得到时间融合特征图。
其中,M个视频帧包括视频帧Mi,i为小于或者等于M的正整数;
像素混合拼接单元具体用于:
调用目标分类模型,通过目标分类模型中的特征融合层,在第一特征图序列中获取视频帧Mi对应的第一特征图,在第二特征图序列中获取视频帧Mi对应的第二特征图;
根据第一像素采样参数,对视频帧Mi对应的第一特征图进行像素采样,得到第一像素采样特征图,根据第二像素采样参数对视频帧Mi对应的第二特征图进行像素采样,得到第二像素采样特征图;
对第一像素采样特征图和第二像素采样特征图进行像素混合拼接,得到视频帧Mi对应的像素混合特征图。
其中,分类单元具体用于:
调用目标分类模型,通过目标分类模型中的特征融合层,对时间融合特征图和像素融合特征图进行相加,得到目标融合特征图;
通过目标分类模型中的卷积层,对目标融合特征图进行卷积处理,得到卷积处理后的目标融合特征图;
通过目标分类模型中的分类层,对卷积处理后的目标融合特征图进行分类处理,得到目标视频数据的视频内容类别。
其中,分类单元还具体用于包括:
将卷积处理后的目标融合特征图输入分类层中的第一分类子层,对卷积处理后的目标融合特征图进行分类处理,得到第一分类结果;
将卷积处理后的目标融合特征图输入分类层中的第二分类子层,对卷积处理后的目标融合特征图进行分类处理,得到第二分类结果;
获取第一分类结果与第二分类结果的平均值,根据该平均值确定目标视频数据的视频内容类别。
本申请实施例一方面提供一种数据处理装置,包括:
第二特征提取模块,用于通过初始分类模型,对第一样本视频数据中的M个第一样本视频帧进行第一特征提取处理,得到第一样本特征图序列,对第二样本视频数据中的M个第二样本视频帧进行第二特征提取处理,得到第二样本特征图序列;M为正整数;
第二采样模块,用于根据第一样本时间采样参数对第一样本特征图序列进行采样,得到目标第一样本特征图,根据第二样本时间采样参数对第二样本特征图序列进行采样,得到目标第二样本特征图;目标第一样本特征图和目标第二样本特征图分别对应的样本视频帧的数量之和等于M,目标第一样本特征图在第一样本特征图序列中的位置,与目标第二样本特征图在第二样本特征图序列中的位置互不相同;
参数调整模块,用于根据目标第一样本特征图和目标第二样本特征图生成样本时间融合特征图,根据样本时间融合特征图、第一样本特征图序列以及第二样本特征图序列,生成用于预测视频内容类别的目标样本融合特征图,根据目标样本融合特征图对初始分类模型进行参数调整,得到目标分类模型;目标分类模型用于预测目标视频数据的视频内容类别。
参数调整模块包括:
预测单元,用于根据目标样本融合特征图预测第一样本视频数据的第一预测视频内容类别,根据目标样本融合特征图预测第二样本视频数据的第二预测视频内容类别;
第二生成单元,用于根据第一样本视频数据的第一视频内容类别标签和第一预测视频内容类别生成第一损失函数;
第三生成单元,用于根据第二样本视频数据的第二视频内容类别标签和第二预测视频内容类别生成第二损失函数;
确定单元,用于根据第一损失函数和第二损失函数生成总损失函数,根据总损失函数对初始分类模型进行参数调整,当参数调整后的初始分类模型满足训练收敛条件时,将参数调整后的初始分类模型确定为目标分类模型。
其中,确定单元具体用于:
根据第一样本像素采样参数对第一样本特征图序列进行像素采样,得到第一样本像素采样特征图序列,调用信息损失预测模型,对第一样本像素采样特征图序列和目标第一样本特征图进行损失预测,得到第一样本特征图序列对应的第一信息损失概率;
根据第二样本像素采样参数对第二样本特征图序列进行像素采样,得到第二样本像素采样特征图序列,调用信息损失预测模型,对第二样本像素采样特征图序列和目标第二样本特征图进行损失预测,得到第二样本特征图序列对应的第二信息损失概率;
根据第一信息损失概率对第一损失函数进行加权处理,得到加权处理后的第一损失函数,根据第二信息损失概率对第二损失函数进行加权处理,得到加权处理后的第二损失函数;
对加权处理后的第一损失函数和第二加权处理后的第二损失函数进行求和处理,得到总损失函数。
本申请实施例一方面提供了一种计算机设备,包括:处理器和存储器;
处理器与存储器相连,其中,存储器用于存储计算机程序,计算机程序被处理器执行时,使得该计算机设备执行本申请实施例提供的方法。
本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,该计算机程序适于由处理器加载并执行,以使得具有该处理器的计算机设备执行本申请实施例提供的方法。
本申请实施例一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例提供的方法。
本申请实施例中,通过获取目标视频数据中的M个视频帧,对M个视频帧进行第一特征提取处理,得到第一特征图序列,对M个视频帧进行第二特征提取处理,得到第二特征图序列。通过对M个视频帧进行第一特征提取和第二特征提取,得到M个视频帧的第一特征图序列和第二特征图序列,可以从不同角度提取到M个视频帧不同的特征信息。进一步地,根据第一时间采样参数对第一特征图序列进行采样,得到目标第一特征图,根据第二时间采样参数对第二特征图序列进行采样,得到目标第二特征图。目标第一特征图和目标第二特征图分别对应的视频帧的数量之和等于M,目标第一特征图和目标第二特征图分别对应的视频帧互不相同,根据目标第一特征图和目标第二特征图生成时间融合特征图。可见,从时间维度上分别对第一特征图序列和第二特征图序列进行采样,得到时间融合特征图,以此根据每个视频帧之间的时序信息对目标视频数据进行特征增强,提高目标视频数据的特征增强效果。进一步地,根据时间融合特征图、第一特征图序列以及第二特征图序列,生成目标融合特征图,对目标融合特征图进行分类,得到目标视频数据的视频内容类别。可见,本申请不需要依赖目标视频数据的视频标签和视频简介等文本信息,也不需要依赖人工经验分析,通过对目标融合特征图进行分类,便可以实现对目标视频数据进行准确分类。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据处理系统的架构示意图;
图2是本申请实施例提供的一种数据处理的应用场景示意图;
图3是本申请实施例提供的一种数据处理方法的流程示意图;
图4是本申请实施例提供的一种采用目标分类模型预测视频内容类别的示意图;
图5是本申请实施例提供的一种数据处理方法的流程示意图;
图6是本申请实施例提供的一种获取目标融合特征图方法的示意图;
图7是本申请实施例提供的一种数据处理方法的流程示意图;
图8是本申请实施例提供的一种获取信息损失概率的示意图;
图9是本申请实施例提供的一种初始分类模型训练方法的示意图;
图10是本申请实施例提供的一种数据处理装置的结构示意图;
图11是本申请实施例提供的一种数据处理装置的结构示意图;
图12是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。在本申请中可以采用机器学习技术,通过初始分类模型对第一样本视频数据和第二样本视频数据分别对应的特征图进行特征融合,得到目标样本融合特征图。根据该目标样本融合特征图,对初始分类模型进行参数调整,得到目标分类模型,该目标分类模型用于预测目标视频数据的视频内容类别。这样,通过对初始分类模型进行训练,可以在训练初始分类模型的同时进行输入特征增强和模型集成,提高训练得到的目标分类模型的分类准确性和鲁棒性,即可以提高目标分类模型的泛化性,可以准确预测出不同视频数据的视频内容类别。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。本申请实施例提供的方案涉及人工智能的智慧交通技术,具体通过如下实施例进行说明:本方案可以通过车载终端中的摄像组件,对车辆周围路况进行拍摄,得到目标视频数据。车载终端通过将目标视频数据发送给服务器,通过服务器中的目标分类模型对目标视频数据中车辆的车辆轨迹进行分类,得到目标视频数据中车辆的行驶轨迹(如变更车道、左转弯等),再通过车载终端或者用户终端对目标视频数据中车辆的行驶轨迹进行输出。这样,驾驶人员可以根据目标视频数据中车辆的行驶轨迹进行驾驶预判,为驾驶人员驾驶提供便利。
请参见图1,图1是本申请实施例提供的一种数据处理系统的结构示意图。如图1所示,该数据处理系统可以包括服务器10和用户终端集群。该用户终端集群可以包括一个或者多个用户终端,这里将不对用户终端的数量进行限制。如图1所示,具体可以包括用户终端100a、用户终端100b、用户终端100c、…、用户终端100n。如图1所示,用户终端100a、用户终端100b、用户终端100c、…、用户终端100n可以分别与上述服务器10进行网络连接,以便于每个用户终端可以通过该网络连接与服务器10进行数据交互。
其中,该用户终端集群中的每个用户终端均可以包括:智能手机、平板电脑、笔记本电脑、桌上型电脑、可穿戴设备、智能家居、头戴设备、车载终端等具有数据处理的智能终端。应当理解,如图1所示的用户终端集群中的每个用户终端均可以安装有目标应用(即应用客户端),当该应用客户端运行于各用户终端中时,可以分别与上述图1所示的服务器10之间进行数据交互。
其中,如图1所示,该服务器10可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
为便于理解,本申请实施例可以在图1所示的多个用户终端中选择一个用户终端作为目标用户终端,该目标用户终端可以包括:智能手机、平板电脑、笔记本电脑、桌上型电脑、智能电视等携带数据处理功能的智能终端。例如,为便于理解,本申请实施例可以将图1所示的用户终端100a作为目标用户终端,用户终端100a可以获取目标视频数据中的M个视频帧,M为正整数,如M可以取值为1,2,3...。用户终端100a可以将目标视频数据中的M个视频帧发送给服务器10,服务器10中包括用于对视频数据进行分类的目标分类模型。服务器10可以基于该目标分类模型对用户终端100a上传的目标视频数据中的M个视频帧进行自动分类,得到目标视频数据的视频内容类别,并将该目标视频数据的视频内容类别返回给用户终端100a,以此快速且准确地对目标视频数据进行分类。
为便于理解,进一步地,请参见图2,图2是本申请实施例提供的一种数据处理的应用场景示意图。其中,如图2所示的服务器20e可以为上述的服务器10,如图2所示的目标用户终端20a可以为上述图1中所展示的用户终端集群中的任意一个用户终端,例如,目标用户终端20a可以为上述用户终端100a。如图2所示,目标用户20b可以在目标用户终端20a的视频分享界面20c中,实施点击上传按钮的操作,对需要分享的视频数据进行上传分享,目标用户终端20a可以响应目标用户20b的上传操作,获取到目标用户20b上传的视频数据,作为目标视频数据。当目标用户终端20a接收到目标用户20b上传的目标视频数据后,可以进行界面跳转,将视频分享界面20c跳转至视频分享界面20d,显示“数据上传中”,以提示目标用户20b当前正在对目标用户20b上传的视频数据进行上传中。目标用户终端20a在进行视频分享界面20c跳转至视频分享界面20d的过程中,可以将目标用户20b上传的视频数据,作为目标视频数据发送给服务器20e。服务器20e可以获取目标视频数据中的M个视频帧,调用目标分类模型20f对该目标视频数据中的M个视频帧进行分类处理,得到该目标视频数据的视频内容类别。
进一步地,服务器20e可以将目标视频数据的视频内容类别返回给目标用户终端20a,目标用户终端20a可以根据目标视频数据的视频内容类别输出视频分享界面20g,该视频分享界面20g中包括提示信息20h,该提示信息20h用于提示目标用户20b上传的目标视频数据是否上传成功。其中,目标用户终端20a可以检测该目标视频数据的视频内容类别是否具有合法性,若目标用户终端20a检测到目标视频数据的视频内容类别不具有合法性,则输出包含提示信息20h“视频内容不符合规定,请重新上传”的视频分享界面20g,该提示信息20h“视频内容不符合规定,请重新上传”用于提示目标用户20b所上传的目标视频数据不符合规定(即不合法),即视频数据上传失败需要重新上传。若目标用户终端20a检测到目标视频数据的视频内容类别具有合法性,则输出包含提示信息20h“上传成功”的视频分享界面20g。
例如,在身份验证场景中,需要用户按照指示执行目标动作,当目标用户20b上传按指示录制的目标视频数据后,服务器20e可以对该目标视频数据进行分类,得到该目标视频数据中的用户动作(即视频内容类别)。当目标视频数据中的用户动作为目标动作时,则可以确定目标用户20b的用户动作具有合法性,则输出“上传成功”界面,即对目标用户20b的身份验证通过。若目标用户20b的用户动不属于目标动作时,则可以确定该目标用户20b的用户动作不具有合法性,则输出“视频动作不符合规定,请重新上传”,以提示用户重新按指示进行目标动作的操作,以进行身份验证。通过本申请,可以通过目标分类模型对目标视频数据进行数据增强,准确预测出目标视频数据的视频内容类别,提高后续根据目标视频数据的视频内容类别进行业务处理的准确性。
请参见图3,图3是本申请实施例提供的一种数据处理方法的流程示意图。该数据处理方法可由计算机设备执行,该计算机设备可以为服务器(如上述图1中的服务器10),或者用户终端(如上述图1的用户终端集群中的任一用户终端),本申请对此不做限定。如图3所示,该数据处理方法可以包括但不限于以下步骤:
S101,获取目标视频数据中的M个视频帧,对M个视频帧进行第一特征提取处理,得到第一特征图序列,对M个视频帧进行第二特征提取处理,得到第二特征图序列。
具体的,计算机设备可以通过在时序维度和像素维度上对目标视频数据进行数据增强,可以提高对目标视频数据进行分类的泛化性的同时,也可以提高对目标视频数据进行分类的准确性。其中,计算机设备可以获取目标视频数据中的M个视频帧,该目标视频数据可以是指计算机设备通过摄像组件拍摄得到,也可以通过用户上传视频数据得到。其中,目标视频数据中的M个视频帧可以是指目标视频数据中的所有视频帧,也可以是指目标视频数据中的部分视频帧,M为正整数,如M可以取值为1,2,3…。进一步地,计算机设备可以对M个视频帧进行第一特征提取处理,得到第一特征图序列,对M个视频帧进行第二特征提取处理,得到第二特征图序列。
可选的,计算机设备获取目标视频数据中的M个视频帧的具体方式可以包括:获取原始视频数据,获取原始视频数据中每个原始视频帧的内容属性。根据每个原始视频帧的内容属性,对原始视频数据进行划分,得到N个视频片段;N为正整数。从N个视频片段中选择目标视频片段,作为目标视频数据,根据视频采样规则所指示的采样视频帧数量M,对目标视频数据所包括的原始视频帧进行视频帧采样,得到目标视频数据中的M个视频帧。
具体的,计算机设备可以获取原始视频数据,该原始视频数据可以是指计算机设备可以通过摄像组件,对目标对象进行拍摄得到的视频数据,也可以是指用户上传的视频数据。计算机设备可以获取原始视频数据中每个原始视频帧的内容属性,该内容属性可以是指视频动作类型、视频语言类型等。计算机设备可以根据每个原始视频帧的视频动作类型,对原始视频数据进行划分,得到N个视频片段,以确保每个视频片段中视频帧中的视频动作类型相同,即确保每个视频片段中都是单一的动作内容,N为正整数,如N可以取值为1,2,3…。具体的,计算机设备可以根据原始视频数据中每个原始视频帧的拍摄时间戳之间的时间顺序,依次将具有相同视频动作类型的原始视频帧划分到同一视频片段中。例如,原始视频数据中包括按拍摄时间戳依次排列的原始视频帧1、原始视频帧2、原始视频帧3…原始视频帧10、原始视频帧11…原始视频帧20。若原始视频帧1至原始视频帧10的视频动作类型均为同一个动作类型(如同一个动作),则可以将原始视频帧1至原始视频帧10划分到一个视频片段中。若原始视频帧11至原始视频帧20的视频动作类型均为同一个动作类型,则可以将原始视频帧11至原始视频帧20划分至一个视频片段中。
其中,由于会存在原始视频数据的数据量较大,原始视频数据中的视频内容类别较多(如包括骑车、漂流、散步等多种动作类型),直接对原始视频数据进行分类,数据量较大,且由于视频内容类别较多导致分类不准确。因此可以对原始视频数据进行单一内容属性划分,得到N个视频片段,再对每个视频片段进行分类,得到每个视频片段的视频内容类别,将每个视频片段的视频内容类别确定为原始视频数据的视频内容类别,以此可以提高对原始视频数据进行分类的准确性。其中,为保证目标分类模型对每个视频片段进行分类的鲁棒性,可以对每个视频片段往前往后延长目标时长的时长片段。
进一步的,计算机设备可以从N个视频片段中随机选择目标视频片段,作为目标视频数据,当然,计算机设备可以也按照每个视频片段的时间戳的时间顺序,依次将N个视频片段中的每个视频片段确定为目标视频片段。计算机设备可以根据视频采样规则所指示的采样视频帧数量M,对目标视频数据所包括的原始视频帧进行视频帧采样,得到目标视频数据中的M个视频帧。该视频采样规则可以是指跨步截帧,即间隔一帧截取。例如,目标视频数据中包括原始视频帧1、原始视频帧2、原始视频帧3,若采样视频帧数据M为2,则可以对目标视频数据中的原始视频帧进行跨步截帧,对原始视频帧1进行采样,对原始视频帧2进行丢弃,对原始视频帧3进行采样,以此得到目标视频数据中的2个视频帧。
可选的,计算机设备还可以对每个视频片段进行单一动作划分,得到多个视频子片段,每个视频子片段具有相同的动作姿态,再根据视频采样规则,确保从每个视频子片段中采样出一帧或者多帧视频帧,这样可以确保每个动作姿态均能被采样,进而避免随机采样导致关键信息丢失,可以提高后续视频数据分类的准确性。
可选的,计算机设备也可以直接根据视频采样规则所指示的采样视频帧数量M,对原始视频数据所包括的原始视频帧进行视频帧采样,得到目标视频数据中的M个视频帧。通过对原始视频数据进行视频帧采样,得到目标视频数据中的M个视频帧,这样,可以将不同长度的视频数据都会采样出M个视频帧,以此将不同长度的视频数据转换成固定长度的视频数据,即将不同长度的视频数据转化为固定长度的视频帧序列(即M个视频帧),便于目标分类模型进行后续分类业务处理。
具体的,如图4所示,图4是本申请实施例提供的一种采用目标分类模型预测视频内容类别的示意图,如图4所示,计算机设备可以调用目标分类模型40b,将目标视频数据中的M个视频帧40a输入目标分类模型40b中,该目标分类模型40b用于对视频数据进行分类,得到视频数据的视频内容类别,视频内容类别可以指示视频中的行为类别、场景类别等,该视频内容类别也可以是指视频动作类别(如汽车、漂流、开车等)、视频类别(如教育视频、娱乐视频等)、视频语言类别(如国产剧、英剧、韩剧等)等。计算机设备可以通过目标分类模型40b中的第一特征提取层40c,分别对M个视频帧进行第一特征提取处理,得到M个视频帧分别对应的第一特征图,并对该M个视频帧分别对应的第一特征图进行组合,得到第一特征图序列40f。其中,计算机设备可以根据M个视频帧分别对应的拍摄时间戳,对M个视频帧分别对应的第一特征图进行排列组合,得到第一特征图序列。例如,计算机设备可以根据M个视频帧分别对应的拍摄时间戳的时间顺序,将M个视频帧中拍摄时间戳最早的视频帧的第一特征图排列在最前,然后依次根据视频帧的时间顺序对视频帧的第一特征图进行排列,得到第一特征图序列40f。
进一步地,如图4所示,计算机设备可以通过目标分类模型40b中的第二特征提取层40d,对M个视频帧进行第二特征提取处理,得到M个视频帧分别对应的第二特征图,并对该M个视频帧分别对应的第二特征图进行组合,得到第二特征图序列40g。同样的,计算机设备可以根据M个视频帧的拍摄时间戳,对M个视频帧分别对应的第二特征图进行排列组合,得到第二特征图序列。第二特征图序列的具体排列组合方式可以参考上述得到第一特征图序列的内容,本申请实施例在此不再赘述。
其中,目标分类模型40b中的第一特征提取层40c和第二特征提取层40d均可以为卷积网络层,可以对M个视频帧中每个视频帧进行卷积和池化处理,得到每个视频帧对应的特征图。其中,第一特征提取层40c和第二特征提取层40d中的网络参数(即模型参数)可以相同,也可以不同。若第一特征提取层40c和第二特征提取层40d中的网络参数相同时,则第一特征图序列40f与第二特征图序列40g相同。若第一特征提取层40c和第二特征提取层40d中的网络参数不同时,则第一特征图序列40f和第二特征图序列40g不同。
S102,根据第一时间采样参数对第一特征图序列进行采样,得到目标第一特征图,根据第二时间采样参数对第二特征图序列进行采样,得到目标第二特征图。
具体的,计算机设备可以根据第一时间采样参数对第一特征图序列进行采样,得到目标第一特征图,该第一时间采样参数用于从第一特征图序列中抽取出第一特征图,作为目标第一特征图。根据第二时间采样参数对第二特征图序列进行采样,得到目标第二特征图,该第二时间采样参数用于从第二特征图中抽取出第二特征图,作为目标第二特征图,目标第一特征图和目标第二特征图分别对应的视频帧的数量之和等于M,目标第一特征图和目标第二特征图分别对应的视频帧互不相同。
可选的,计算机设备可以获取初始时间采样参数;初始时间采样参数中的采样元素的数量为M。随机确定初始时间采样参数中具有位置顺序的M个采样元素的元素值,得到第一时间采样参数;元素值包括第一元素阈值和第二元素阈值,第一元素阈值用于指示对特征图进行采样,第二元素阈值用于指示对特征图进行屏蔽。根据第一时间采样参数中M个采样元素的元素值确定第二时间采样参数;第一时间采样参数与第二时间采样参数中处于相同位置上的采样元素的元素值互不相同。
具体的,计算机设备可以获取初始时间采样参数,该初始时间采样参数中的采样元素的数量与目标视频数据中的M个视频帧的数量一致,即初始时间采样参数中的采样元素的数量等于M。该初始时间采样参数中包括具有位置顺序的M个采样元素,该具有位置顺序的M个采样元素的初始元素值可以均为空,计算机设备可以随机确定该初始时间采样参数中具有位置顺序的M个采样元素的元素值,得到第一时间采样参数。其中,采样元素的元素值可以为第一元素阈值,也可以为第二元素阈值,当采样元素的元素值为第一元素阈值时,则指示对特征图进行采样,当采样元素的元素值为第二元素阈值时,则指示对特征图进行屏蔽(即不采样)。其中,第一元素阈值可以为1,用于指示对特征图进行采样,第二元素阈值为0,用于指示对特征图进行丢弃(即不采样)。计算机设备可以随机设置初始时间采样参数中的M个采样元素的元素值为第一元素阈值或者第二元素阈值,得到第一时间采样参数。
进一步地,计算机设备可以根据第一时间采样参数中M个采样元素的元素值确定第二时间采样参数,第一时间采样参数与第二时间采样参数中处于相同位置上的采样元素的元素值互不相同,即若第一时间采样参数中处于第一位置上的采样元素的元素值为第一元素阈值,则第二时间采样参数中处于第一位置上的采样元素的元素值为第二元素阈值。例如,若第一时间采样参数为0110,则第二时间采样参数为1001。
进一步地,计算机设备获取到第一时间采样参数和第二时间采样参数后,根据第一时间采样参数对第一特征图序列进行采样,根据第二时间采样参数对第二特征图序列进行采样的具体方式可以包括:调用目标分类模型。在目标分类模型的特征融合层中,基于第一时间采样参数中的第一元素阈值,对第一特征图序列中关联特征图进行采样。基于第一时间采样参数中的第二元素阈值,对第一特征图序列中关联特征图进行屏蔽,得到目标第一特征图。根据第二时间采样参数中的第一元素阈值,对第二特征图序列中关联特征图进行采样,根据第二时间采样参数中的第二元素阈值,对第二特征图序列中关联特征图进行屏蔽,得到目标第二特征图。
具体的,如图4所示,计算机设备可以在目标分类模型40b的特征融合层40e中,基于第一时间采样参数40h中的第一元素阈值,对第一特征图序列40f中关联特征图进行采样。其中,第一时间采样参数40h中的M个采样元素是具有位置顺序的,第一特征图序列40f中的M个第一特征图也是具有位置顺序的,则可以根据第一时间采样参数40h中具有位置顺序的第一元素阈值,对第一特征图序列40f中相同位置顺序的第一特征图进行采样。可以解释的是,若第一时间采样参数40h中排列第二的元素值为第一元素阈值,则可以对第一特征图序列40f中排列在第二的第一特征图进行采样。计算机设备可以根据第一时间采样参数40h中具有位置顺序的第二元素阈值,对第一特征图序列40f中相同位置顺序的第一特征图进行屏蔽(即不采样),得到目标第一特征图40j。
例如,如图4所示,若第一时间采样参数40h为0110(即排列第二的元素值和排列在第三的元素值为第一元素阈值),第一特征图序列40f中包括具有位置顺序的第一特征图a1、第一特征图b1、第一特征图c1以及第一特征图d1。计算机设备可以根据第一时间采样参数40h中第一元素阈值所在位置,对第一特征图序列40f中具有相同位置的第一特征图b1和第一特征图c1进行采样。根据第一时间采样参数40h中第二元素阈值所在位置,对第一特征图序列中40f具有相同位置的第一特征图a1和第一特征图d1进行屏蔽(即不采样),得到目标第一特征图40k(即第一特征图b1和第一特征图c1)。
同样的,如图4所示,计算机设备可以根据第二时间采样参数40i中具有位置顺序的第一元素阈值,对第二特征图序列40g中相同位置顺序的第二特征图进行采样,根据第二时间采样参数40i中具有位置顺序的第二元素阈值,对第二特征图序列40g中相同位置顺序的第二特征图进行屏蔽(即不采样),得到目标第二特征图。例如,如图4所示,若第一时间采样参数为0110,则第二时间采样参数40i为1001,第二特征图序列40g中包括具有位置顺序的第二特征图a2、第二特征图b2、第二特征图c2以及第二特征图d2。计算机设备可以根据第二时间采样参数40i中第一元素阈值所在位置,对第二特征图序列40g中具有相同位置顺序的第二特征图a2和第二特征图d2进行采样,根据第二时间采样参数40i中第二元素阈值所在位置,对第二特征图序列40g中具有相同位置顺序的第二特征图b2和第一特征图c2进行屏蔽(即不采样),得到目标第二特征图40j(即第二特征图a2和第二特征图d2)。
S103,根据目标第一特征图和目标第二特征图生成时间融合特征图。
具体的,计算机设备可以对目标第一特征图和目标第二特征图进行融合,得到目标时间融合特征图,如计算机设备可以对目标第一特征图和目标第二特征图进行排列组合,得到时间融合特征图。
可选的,计算机设备根据目标第一特征图和目标第二特征图生成时间融合特征图的具体方式可以包括:获取目标第一特征图所对应的视频帧的第一时间戳,获取目标第二特征图所对应的视频帧的第二时间戳。根据第一时间戳和第二时间戳之间的时间顺序,对目标第一特征图和目标第二特征图进行组合,得到时间融合特征图。
具体的,如图4所示,计算机设备可以获取目标第一特征图40k所对应的视频帧的第一时间戳,获取目标第二特征图40j所对应的视频帧的第二时间戳,根据该第一时间戳和第二时间戳之间的时间顺序,对目标第一特征图40k和目标第二特征图40j进行排列组合,得到时间融合特征图。可以理解的是,计算机设备可以将拍摄时间先后顺序,对目标第一特征图40k和目标第二特征图40j进行排列组合,得到时间融合特征图。例如,如图4所示,目标第一特征图40k中包括第一特征图b1和第一特征图c1,该第一特征图b1对应的视频帧的时间戳为12:02,第一特征图c1对应的视频帧的时间戳为12:03。目标第二特征图40j中包括第二特征图a2和第二特征图d2,该第二特征图a2对应的视频帧的时间戳为12:01,第二特征图d2对应的视频帧的时间戳为12:04。计算机设可以根据每个特征图对应的视频帧的时间戳的时间顺序进行排序组合,得到时间融合特征图40l(即第二特征图a2、第一特征图b1、第一特征图c1以及第二特征图d2)。
S104,根据时间融合特征图、第一特征图序列以及第二特征图序列,生成目标融合特征图,对目标融合特征图进行分类,得到目标视频数据的视频内容类别。
具体的,如图4所示,计算机设备可以根据时间融合特征图、第一特征图序列以及第二特征图序列,生成目标融合特征图40m。如图4所示,计算机设备可以通过目标分类模型40b中的卷积层40n,对目标融合特征图40m进行卷积处理,得到卷积处理后的目标融合特征图。计算机设备可以通过目标分类模型中的分类层40o,对卷积处理后的目标融合特征图进行分类处理,得到目标视频数据40a的视频内容类别40p。这样,本申请不需要依赖目标视频数据的视频标签和视频简介等文本信息,也不需要依赖人工经验分析,通过时间维度对目标视频数据进行特征增强,采用特征增强后的目标融合特征图对目标视频数据进行分类,便可以实现对目标视频数据进行准确分类。
可选的,计算机设备可以对时间融合特征图、第一特征图序列以及第二特征图序列进行特征图相加,得到目标融合特征图,通过目标分类模型中的卷积层对该目标融合特征图进行卷积处理,通过目标分类模型中的分裂层对卷积处理后的目标融合特征图进行分类,便可得到目标视频数据的视频内容类别。
可选的,计算机设备可以对第一特征图序列和第二特征图序列进行像素混合拼接,得到像素融合特征图,根据时间融合特征图和像素融合特征图生成目标融合特征图40m。计算机设备可以通过该目标分类模型40b中的卷积层40n,对目标融合特征图40m进行卷积处理,并通过目标分类模型40b中的分类层40o,对卷积处理后的目标融合特征图进行分类处理,得到目标视频数据的视频内容类别40p。这样,通过从时间维度和像素维度上对M个视频帧分别对应的特征图进行融合,即对M个视频帧分别对应的特征图进行特征增强,可以提高对目标视频数据进行分类的准确性。
在本申请实施例中,通过视频采样规则获取目标视频数据中的M个视频帧,对目标视频数据进行预处理,在确保减少计算量的同时,也可以避免采样导致目标视频数据中关键信息丢失,可以提高后续目标视频数据分类的效率。进一步地,对M个视频帧进行第一特征提取处理,得到第一特征图序列,对M个视频帧进行第二特征提取处理,得到第二特征图序列。通过对M个视频帧进行第一特征提取和第二特征提取,得到M个视频帧的第一特征图序列和第二特征图序列,可以从不同角度提取到M个视频帧不同的特征信息。进一步地,根据第一时间采样参数对第一特征图序列进行采样,得到目标第一特征图,根据第二时间采样参数对第二特征图序列进行采样,得到目标第二特征图,目标第一特征图和目标第二特征图分别对应的视频帧构成M个视频帧,根据目标第一特征图和目标第二特征图生成时间融合特征图。可见,从时间维度上分别对第一特征图序列和第二特征图序列进行采样,得到时间融合特征图,以此根据每个视频帧之间的时序信息对目标视频数据进行特征增强,提高目标视频数据的特征增强效果。进一步地,可以通过其他采样方式(如像素采样)对第一特征图序列和第二特征图序列进行特征增强,得到其他维度上的融合特征图,根据时间维度上的时间融合特征图和其他维度上(如像素维度)的融合特征图生成目标融合特征图,对目标融合特征图进行分类,得到目标视频数据的视频内容类别。可见,本申请不需要依赖目标视频数据的视频标签和视频简介等文本信息,也不需要依赖人工经验分析,通过时间维度和其他维度对目标视频数据进行特征增强,采用特征增强后的目标融合特征图对目标视频数据进行分类,便可以实现对目标视频数据进行准确分类。
请参见图5,图5是本申请实施例提供的一种数据处理方法的流程示意图。该数据处理方法可由计算机设备执行,该计算机设备可以为服务器(如上述图1中的服务器10),或者用户终端(如上述图1的用户终端集群中的任一用户终端),本申请对此不做限定。如图5所示,该数据处理方法可以包括但不限于以下步骤:
S201,获取目标视频数据中的M个视频帧,对M个视频帧进行第一特征提取处理,得到第一特征图序列,对M个视频帧进行第二特征提取处理,得到第二特征图序列。
S202,根据第一时间采样参数对第一特征图序列进行采样,得到目标第一特征图,根据第二时间采样参数对第二特征图序列进行采样,得到目标第二特征图。
S203,根据目标第一特征图和目标第二特征图生成时间融合特征图。
具体的,本申请实施例中步骤S201-步骤S203的具体内容可以参见上述图3中步骤S101-步骤S103的具体内容,本申请实施例在此不再赘述。
S204,在第一特征图序列和第二特征图序列中,将关联相同视频帧的第一特征图和第二特征图进行像素混合拼接,得到M个视频帧分别对应的像素混合特征图。
具体的,计算机设备可以在第一特征图序列和第二特征图序列中,将关联相同视频帧的第一特征图和第二特征图进行像素混合拼接,得到M个视频帧分别对应的像素混合特征图。可以理解的是,计算机设备可以对每个视频帧对应的第一特征图和第二特征图进行像素混合拼接,得到每个视频帧对应的像素混合特征图,即一个视频帧对应一个像素混合特征图。
可选的,M个视频帧中包括视频帧Mi,i为小于或者等于M的正整数,如若M取值为3,则i可以取值为1,2,3。计算机设备得到M个视频帧分别对应的像素混合特征图的具体方式可以包括:调用目标分类模型,通过目标分类模型中的特征融合层,在第一特征图序列中获取视频帧Mi对应的第一特征图,在第二特征图序列中获取视频帧Mi对应的第二特征图。根据第一像素采样参数,对视频帧Mi对应的第一特征图进行像素采样,得到第一像素采样特征图,根据第二像素采样参数对视频帧Mi对应的第二特征图进行像素采样,得到第二像素采样特征图。对第一像素采样特征图和第二像素采样特征图进行像素混合拼接,得到视频帧Mi对应的像素混合特征图。
具体的,计算机设备可以调用目标分类模型,通过目标分类模型中的特征融合层,在第一特征图序列中获取视频帧Mi对应的第一特征图,在第二特征图序列中获取视频帧Mi对应的第二特征图。其中,计算机设备可以在(0,1)区间内随机抽取一个阈值作为第一像素采样参数,第二像素采样参数可以为第一像素采样参数与阈值1之间的差值。计算机设备可以根据第一像素采样参数,对视频帧Mi对应的第一特征图进行像素采样,得到第一像素采样特征图。可以理解的是,计算机设备可以采用第一像素采样参数,对视频帧Mi对应的第一特征图进行加权处理,得到第一像素采样特征图。计算机设备可以采用第二像素采样特征图,对视频帧Mi对应的第二特征图进行加权处理,得到第二像素采样特征图。计算机设备可以对视频帧Mi对应的第一像素采样特征图和第二像素采样特征图进行混合拼接,得到视频帧Mi对应的像素混合特征图。
可选的,第一像素采样参数的计算公式可以为如下公式(1):
Figure BDA0003394612890000241
其中,公式(1)中的r是超参数(即调优参数(tuning parameters),需要人为设定),取值范围为[0,+∞],k为像素采样权重,取值范围(0,1)。第二像素采样参数为阈值1与第一像素采样参数之间的差值。
可选的,计算机设备对视频帧Mi对应的第一像素采样特征图和第二像素采样特征图进行混合拼接,得到视频帧Mi对应的像素混合特征图的具体方式可以包括:计算机设备可以在第一像素采样特征图中确定待填充区域,在第二像素采样特征图中确定与待填充区域的区域大小相同的目标区域。计算机设备可以对第二像素采样特征图中的目标区域进行剪切,将第二像素采样特征图中的目标区域对第一像素采样区域中的待填充区域进行填充,得到视频帧Mi对应的像素混合特征图。
可选的,计算机设备可以获取初始特征图,该初始特征图的特征图大小与第一像素采样特征图和第二区域采样特征图的特征图大小相同,该初始特征图为空白特征图。计算机设备可以在初始特征图中随机确定待填充区域,对第一像素采样特征图进行剪切,得到与待填充区域相同区域大小的第一特征图区域,将该第一特征图区域填充至初始特征图的待填充区域中。计算机设备可以对第二像素采样特征图进行剪切,得到与初始特征图中除待填充区域之外的其他区域的区域大小相同的第二特征图区域,将该第二特征图区域填充至初始特征图的其他区域中,得到视频帧Mi对应的像素混合特征图。
S205,根据M个视频帧分别对应的像素混合特征图生成像素融合特征图。
具体的,计算机设备可以根据每个视频帧的时间戳之间的时间顺序,对M个视频帧分别对应的像素混合特征图进行拼接组合,得到像素融合特征图。如计算机设备可以将拍摄时间较先的视频帧对应的像素混合特征图排列在前,将拍摄时间较后的视频帧对应的像素混合特征图排列在后,依次按照每个视频帧的拍摄时间戳,将对应的像素混合特征图进行排列组合,得到像素融合特征图。
S206,根据时间融合特征图和像素融合特征图生成目标融合特征图,对目标融合特征图进行分类,得到目标视频数据的视频内容类别。
具体的,计算机设备可以根据时间融合特征图和像素融合特征图生成目标融合特征图,这样,通过在时间维度和像素维度上,对目标视频数据的M个视频帧的特征图进行特征增强,可以提高对目标视频数据进行分类的准确性。进一步地,计算机设备可以调用目标分类模型,通过该目标分类模型中的卷积层对该目标融合特征图进行卷积处理,提取出目标融合特征图的特征信息。计算机设备可以通过目标分类模型中的分类层对卷积处理后的目标融合特征图进行分类处理,得到目标视频数据的视频内容类别。
如图6所示,图6是本申请实施例提供的一种获取目标融合特征图方法的示意图,如图6所示,计算机设备可以采用第一时间采样参数60c,对第一特征图序列60a进行时间采样。如图6所示,计算机设备对第一特征图序列60a中排列在第一的第一特征图和排列在第四的第一特征图进行采样,将该排列在第一的第一特征图和排列在第四的第一特征图作为目标第一特征图。计算机设备可以采用第二时间采样参数60d,对第二特征图序列60b进行时间采样,如图6所示,计算机设备对第二特征图序列60b中排列在第二的第二特征图和排列在第三的第二特征图进行采样,将排列在第二的第二特征图和排列在第三的第二特征图作为目标第二特征图。计算机设备可以按照视频帧对应的时间戳的时间顺序,对目标第一特征图和目标第二特征图进行组合,得到时间融合特征图60e。进一步地,计算机设备可以采用第一像素采样参数60f,对第一特征图序列60a中的每个第一特征图进行像素采样(即像素加权),得到每个第一特征图对应的第一像素采样特征图。计算机设备可以采用第二像素采样参数60g,对第二特征图序列60b中的每个第二特征图进行像素采样(即像素加权),得到每个第二特征图对应的第二像素采样特征图。计算机设备可以对具有相同位置顺序的第一像素采样特征图和第二像素采样特征图进行混合拼接,得到每个视频帧对应的像素混合特征图。
进一步地,计算机设备可以按照每个视频帧的时间戳的时间顺序,对M个视频帧分别对应的像素混合特征图进行排列组合,得到像素融合特征图60h,具体内容可以参考上述步骤S206的内容,在此不再赘述。计算机设备可以对时间融合特征图60e和像素融合特征图60h进行特征图相加,得到目标融合特征图60i。
可选的,计算机设备得到目标视频数据的视频内容类别的具体方式可以包括:调用目标分类模型,通过目标分类模型中的特征融合层,对时间融合特征图和像素融合特征图进行相加,得到目标融合特征图。通过目标分类模型中的卷积层,对目标融合特征图进行卷积处理,得到卷积处理后的目标融合特征图,通过目标分类模型中的分类层,对卷积处理后的目标融合特征图进行分类处理,得到目标视频数据的视频内容类别。
具体的,计算机设备可以调用目标分类模型,通过目标分类模型中的特征融合层,对时间融合特征图和像素融合特征图进行特征图相加,得到目标融合特征图。其中,由于时间融合特征图是由目标第一特征图和目标第二特征图,按照对应的视频帧的时间戳的时间顺序进行排列组合得到的,像素融合特征图是由M个视频帧分别对应的像素混合特征图,按照视频帧的时间戳的时间顺序进行排列组合得到的。因此,时间融合特征图中包括M个具有位置顺序的特征图。像素融合特征图中也包括M个具有位置顺序的特征图,因此可以将时间融合特征与像素融合特征图中具有相同位置顺序的特征图进行相加(即融合),得到目标融合特征图。
进一步地,计算机设备可以通过目标分类模型中的卷积层,对目标融合特征图进行卷积处理,得到卷积处理后的目标融合特征图。该目标分类模型中的卷积层可以包括多个卷积子层和全连接子层。其中,卷积层用于对目标融合特征图进行消除噪声和特征增强,卷积层中的每个卷积子层对应1个或者多个卷积核(kernel,也可以称为滤波器,或者称为感受野),每个卷积子层中的卷积核的通道数是由输入数据的通道数决定的,每一层输出数据(也就是图像特征信息)的通道数是由该卷积子层中的卷积核的数量决定的,且输出数据中图像高度Hout和图像宽度Wout(即是输出数据中的第二维和第三维)是由输入数据的尺寸、卷积核的尺寸、步长(stride)以及边界填充(padding)共同决定的,即Hout=(Hin-Hkernel+2*padding)/stride+1,Wout=(Win-Wkernel+2*padding)/stride+1。Hin,Hkernel分别表示输入视频帧的高度和卷积核的高度;Win,Wkernel分别表示输入视频帧的宽度和卷积核的宽度。通过卷积层中的全连接子层,可以对多个卷积子层进行卷积处理后的特征信息进行特征分类处理,找到关键特征信息。
进一步地,计算机设备可以通过目标分类模型中的卷积层,对目标融合特征图进行卷积处理,得到卷积处理后的目标融合特征图后,可以通过目标分类模型中的分类层,对卷积处理后的目标融合特征图进行分类处理,得到目标视频数据的视频内容类别。其中,分类层中可以包括多个全连接层,该多个全连接层可以起到“分类器”的作用,将学到的“分布式特征表示”映射到样本标记空间的作用。可以理解的是,全连接层可由卷积操作实现,即全连接层可以转化为卷积核为1x1的卷积,将一个特征空间线性变换到另一个特征空间,进而实现分类。
可选的,计算机设备对卷积处理后的目标融合特征图进行分类处理的具体方式可以包括:将卷积处理后的目标融合特征图输入分类层中的第一分类子层,对卷积处理后的目标融合特征图进行分类处理,得到第一分类结果。将卷积处理后的目标融合特征图输入分类层中的第二分类子层,对卷积处理后的目标融合特征图进行分类处理,得到第二分类结果。获取第一分类结果与第二分类结果的平均值,根据该平均值确定目标视频数据的视频内容类别。
具体的,计算机设备可以将卷积处理后的目标融合特征图输入分类层中的第一分类子层,该第一分类子层可以为全连接网络结构,通过该第一分类子层对卷积处理后的目标融合特征图进行分类处理,得到第一分类结果。计算机设备可以将卷积处理后的目标融合特征图输入分类层中的第二分类子层,该第二分类子层也可以为全连接网络结构,通过该第二分类子层对卷积处理后的目标融合特征图进行分类处理,得到第二分类结果。其中,第一分类子层中的网络参数与第二分类子层中的网络参数不同,这样可以从不同角度对卷积处理后的目标融合特征图进行特征分类,得到不同可能性的结果。计算机设备可以获取第一分类结果和第二分类结果的平均值,对该平均值进行归一化处理(即激活处理softmax),得到目标视频数据的视频内容类别。这样,可以才能够多个角度对目标视频数据进行分类,根据多个分类结果预测目标视频数据的视频内容类别,可以提高目标视频数据的分类准确性。
在本申请实施例中,通过视频采样规则获取目标视频数据中的M个视频帧,对目标视频数据进行预处理,在确保减少计算量的同时,也可以避免采样导致目标视频数据中关键信息丢失,可以提高后续目标视频数据分类的效率。进一步地,对M个视频帧进行第一特征提取处理,得到第一特征图序列,对M个视频帧进行第二特征提取处理,得到第二特征图序列。通过对M个视频帧进行第一特征提取和第二特征提取,得到M个视频帧的第一特征图序列和第二特征图序列,可以从不同角度提取到M个视频帧不同的特征信息。进一步地,根据第一时间采样参数对第一特征图序列进行采样,得到目标第一特征图,根据第二时间采样参数对第二特征图序列进行采样,得到目标第二特征图,根据目标第一特征图和目标第二特征图生成时间融合特征图。可见,从时间维度上分别对第一特征图序列和第二特征图序列进行采样,得到时间融合特征图,以此根据每个视频帧之间的时序信息对目标视频数据进行特征增强,提高目标视频数据的特征增强效果。进一步地,对第一特征图序列和第二特征图序列进行像素采样,得到像素融合特征图,根据时间维度上的时间融合特征图和像素维度上的像素融合特征图生成目标融合特征图,对目标融合特征图进行分类,得到目标视频数据的视频内容类别。可见,本申请通过时间维度和像素维度对目标视频数据进行特征增强,采样特征增强后的目标融合特征图对目标视频数据进行分类,可以提高对目标视频数据进行分类的准确性。
请参见图7,图7是本申请实施例提供的一种数据处理方法的流程示意图。该数据处理方法可由计算机设备执行,该计算机设备可以为服务器(如上述图1中的服务器10),或者用户终端(如上述图1的用户终端集群中的任一用户终端),本申请对此不做限定。如图7所示,该数据处理方法可以包括但不限于以下步骤:
S301,通过初始分类模型,对第一样本视频数据中的M个第一样本视频帧进行第一特征提取处理,得到第一样本特征图序列,对第二样本视频数据中的M个第二样本视频帧进行第二特征提取处理,得到第二样本特征图序列。
具体的,数据增强(即图像特征增强)可以提高模型的泛化性和鲁棒性,进而提高模型的预测效果和适用性。具体的,计算机设备可以获取初始分类模型、第一样本视频数据中的M个第一样本视频帧、第二样本视频数据中的M个第二样本视频帧,获取第一样本视频数据对应的第一视频内容类别标签和第二样本视频数据对应的第二视频内容类别标签。其中,M为正整数,如M可以取值为1,2,3…。其中,第一样本视频数据对应的第一视频内容类别标签和第二样本视频数据对应的第二视频内容类别标签可以由人工标注,也可以由其他方式获得。
进一步地,计算机设备可以通过初始分类模型中的第一特征提取层,对第一样本视频数据中的M个第一样本视频帧进行第一特征提取处理,得到M个第一样本视频帧对应的第一样本特征图序列。计算机设备可以通过初始分类模型中的第二特征提取层,对第二样本视频数据中的M个第二样本视频帧进行第二特征提取处理,得到M个第二样本视频帧对应的第二样本特征图序列。其中,第一特征提取层和第二特征提取层可以为卷积神经网络或者注意力网络,卷积神经网络可以将视频帧(即图像)和卷积核(即滤波器)进行卷积处理,得到视频帧对应的特征图,特征图也可以和卷积核进行卷积处理,生成新的特征图。注意力网络(即Transformer)可以学习序列之间顺序关系,并将序列中的任意两个位置之间的距离是缩小为一个常量,以此提取出每个视频帧之间的关联关系。
S302,根据第一样本时间采样参数对第一样本特征图序列进行采样,得到目标第一样本特征图,根据第二样本时间采样参数对第二样本特征图序列进行采样,得到目标第二样本特征图。
具体的,计算机设备可以根据第一样本时间采样参数,对第一样本特征图序列进行采样,得到目标第一样本特征图,根据第二样本时间采样参数对第二样本特征图序列进行采样,得到目标第二样本特征图。其中,第一样本特征图序列中拍摄时间较先的第一样本视频帧对应的第一样本特征图排列在前,拍摄时间较后的第一样本视频帧对应的第一样本特征图排列在后,即第一样本特征图序列中的每个第一样本特征图均按照对应的第一样本视频帧的时间戳进行排序组合。同样的,第二样本特征图序列中拍摄时间较先的第二样本视频帧对应的第一样本特征图排列在前,拍摄时间较后的第二样本视频帧对应的第一样本特征图排列在后,即第一样本特征图序列中的每个第一样本特征图均按照对应的第二样本视频帧的时间戳进行排序组合。其中,目标第一样本特征图和目标第二样本特征图分别对应的样本视频帧的数量之和等于M,可以理解的是,目标第一样本特征图所对应的第一样本视频帧的数量,与目标第二样本特征图所对应的第二样本视频帧的数量之和等于M。可以理解的是,计算机设备可以根据第一时间采样参数,从第一样本特征图序列中抽取i个第一样本特征图,作为目标第一样本特征图,计算机设备可以根据第二时间采样参数,从第二样本特征图中抽取j个第二样本特征图,作为目标第二样本特征图,i与j之和等于M。其中,第一样本特征图序列中包括具有位置顺序的M个第一样本特征图,即每个第一样本特征图具有不同的先后位置信息,同样的,第二样本特征图序列中包括具有位置顺序的M个第二样本特征图。目标第一样本特征图在第一样本特征图序列中的位置,与目标第二样本特征图在第二样本特征图序列中的位置互不相同,具体内容可以参考上述图3中步骤S102的内容,本申请实施例在此不再赘述。
例如,第一样本特征图序列包括排列在第一位的第一样本特征图p1、排列在第二位的第一样本特征图p2、排列在第三位的第一样本特征图p3以及排列在第四位的第一样本特征图p4,第二样本特征图序列中包括排列在第一位的第二样本特征图q1、排列在第二位的第二样本特征图q2、排列在第三位的第二样特征图q3以及排列在第四位的第二样本特征图q4。若计算机设备可以根据第一时间采样参数从第一样本特征图序列中,确定第一样本特征图p2和第一样本特征图p3为目标第一样本特征图后,则目标第二样本特征图为第二样本特征图q1和第二样本特征图q4,即目标第一样本特征图在第一样本特征图序列中的位置,与目标第二样本特征图在第二样本特征图序列中的位置互不相同。
S303,根据目标第一样本特征图和目标第二样本特征图生成样本时间融合特征图,根据样本时间融合特征图、第一样本特征图序列以及第二样本特征图序列,生成用于预测视频内容类别的目标样本融合特征图,根据目标样本融合特征图对初始分类模型进行参数调整,得到目标分类模型。
具体的,计算机设备可以获取目标第一样本特征图所对应的第一样本视频帧的第一样本时间戳,获取目标第二样本特征图所对应的第二样本视频帧的第二样本时间戳。根据该第一样本时间戳与第二样本时间戳的时间顺序,对目标第一样本特征图和目标第二样本特征图进行排列组合,得到样本时间融合特征图。进一步地,计算机设备可以对第一样本特征图序列和第二样本特征图序列中具有相同位置的特征图进行像素混合拼接,得到M个样本像素混合特征图,具体内容可以参考上述图5中步骤S204的内容,本申请实施例在此不再赘述。计算机设备可以根据M个样本像素混合特征图所对应的位置顺序,对M个样本像素混合特征图进行排列组合,得到样本像素混合特征图。
进一步地,计算机设备可以对样本时间融合特征图和样本像素融合特征图进行融合(即特征图相加),得到用于预测视频内容类别的目标样本融合特征图。根据该目标样本融合特征图,对初始分类模型进行参数调整,得到目标分类模型,该目标分类模型用于预测目标视频数据的视频内容类别。
可选的,计算机设备根据目标样本融合特征图对初始分类模型进行参数调整,得到目标分类模型的具体方式可以包括:根据目标样本融合特征图预测第一样本视频数据的第一预测视频内容类别,根据目标样本融合特征图预测第二样本视频数据的第二预测视频内容类别。根据第一样本视频数据的第一视频内容类别标签和第一预测视频内容类别生成第一损失函数。根据第二样本视频数据的第二视频内容类别标签和第二预测视频内容类别生成第二损失函数。根据第一损失函数和第二损失函数生成总损失函数,根据总损失函数对初始分类模型进行参数调整,当参数调整后的初始分类模型满足训练收敛条件时,将参数调整后的初始分类模型确定目标分类模型。
具体的,计算机设备可以通过初始分类模型中的第一分类层,对目标样本融合特征图进行第一特征分类,得到第一样本视频数据的第一预测视频内容类别。计算机设备可以通过初始分类模型中的第二分类层,对目标样本融合特征图进行第二特征分类,得到第二样本视频数据的第二预测视频内容类别。进一步地,计算机设备可以根据第一样本视频数据的第一视频内容类别标签与第一预测视频内容类别生成第一损失函数,并基于该第一损失函数计算第一视频内容类别标签与第一预测视频内容类别之间的误差。其中,计算机设备可以根据第二样本视频数据的第二视频内容类别标签与第二预测视频内容类别生成第二损失函数,并基于该第二损失函数计算第二视频内容类别标签与第二预测视频内容类别之间的误差。
进一步地,计算机设备可以根据第一损失函数和第二损失函数生成总损失函数,根据该总损失函数计算初始分类模型的模型损失,并根据该模型损失对初始分类模型进行参数调整。其中,计算机设备可以检测参数调整后的初始分类模型是否满足收敛条件,若参数调整后的初始分类模型满足收敛条件时,则可以参数调整后的初始分类模型确定为目标分类模型。若参数调整后的初始分类模型不满足收敛条件,则继续对参数调整后的初始分类模型进行迭代训练,直到初始分类模型满足收敛条件,并将满足收敛条件的初始分类模型确定为目标分类模型。其中,收敛条件可以是指初始分类模型的训练次数达到目标次数,即对初始分类模型进行一次参数调整为一次训练,或者,初始分类模型的模型损失小于或者等于目标损失值。
可选的,计算机设备根据第一损失函数和第二损失函数生成总损失函数的具体方式可以包括:根据第一样本像素采样参数对第一样本特征图序列进行像素采样,得到第一样本像素采样特征图序列。调用信息损失预测模型,对第一样本像素采样特征图序列和目标第一样本特征图进行损失预测,得到第一样本特征图序列对应的第一信息损失概率。根据第二样本像素采样参数对第二样本特征图序列进行像素采样,得到第二样本像素采样特征图序列,调用信息损失预测模型,对第二样本像素采样特征图序列和目标第二样本特征图进行损失预测,得到第二样本特征图序列对应的第二信息损失概率。根据第一信息损失概率对第一损失函数进行加权处理,得到加权处理后的第一损失函数,根据第二信息损失概率对第二损失函数进行加权处理,得到加权处理后的第二损失函数。对加权处理后的第一损失函数和第二加权处理后的第二损失函数进行求和处理,得到总损失函数。
具体的,在对第一样本特征图序列和第二样本特征图序列进行特征采样后,都会有不同程度的信息损失,为了确保初始分类模型在训练的合理化,避免出现训练崩溃的情况,可以根据信息损失预测模型,分别预测第一样本特征图序列和第二样本特征图序列的信息损失程度,根据该信息损失程度对损失函数进行合理化,提高初始分类模型的训练效率。其中,信息损失预测模型可以基于输入的采样特征图输入信息损失概率,该信息损失概率用于指示基于该采样特征图得到对应视频数据的正确视频内容类别的概率。例如,若需要预测动作视频数据的视频动作类别,则该信息损失预测模型可以是指动作识别模型,将动作视频数据的采样特征图输入该动作识别模型中,可以输出根据采样特征图得到动作视频数据的正确动作类别的概率,即该概率用于指示根据动作视频数据的采样特征图能预测出动作视频数据的正确动作类别的概率。具体的,计算机设备可以根据第一样本像素采样参数,对第一样本特征图序列中每个第一样本特征图进行像素采样,得到每个第一样本特征图对应的第一样本像素采样特征图,将每个第一样本特征图对应的第一样本像素采样特征图按对应的位置顺序进行排列组合,得到第一样本像素采样特征图序列。其中,对应的位置顺序为第一样本特征图序列中每个第一样本特征图的位置顺序。计算机设备可以将第一样本像素采样特征图序列和目标第一样本特征图中具有相同位置顺序的特征进行相加,得到第一样本特征图序列的总采样特征图。其中,目标第一样本特征图中采样为0的部分在相加时以0填充,即若目标第一样本特征图中没有排列在第二的样本特征图,则以0填充与排列在第二的第一样本像素采样特征图进行相加。计算机设备可以通过信息损失预测模型,对该第一样本特征图序列的总采样特征图进行信息损失预测,得到第一信息损失概率。该第一信息损失概率可用于指示根据该第一样本特征图序列的总采样特征图,预测出第一样本视频数据的正确视频内容类别的概率。
如图8所示,图8是本申请实施例提供的一种获取信息损失概率的示意图,如图8所示,计算机设备可以采用第一样本像素采样参数,对第一样本特征图序列80a进行像素采样,得到第一样本像素采样特征图序列80b。计算机设备可以采用第一样本时间采样参数,对第一样本特征图序列进行时间采样,得到目标第一样本特征图80c。计算机设备可以将第一样本像素采样特征序列80b和目标第一样本特征图80c中具有相同位置顺序的特征图进行相加,得到第一样本特征图序列80a的总采样特征图80d。计算机设备可以将第一样本特征图序列80a的总采样特征图80d输入信息损失预测模型80e中,对该总采样特征图80d进行损失预测,得到第一样本特征图序列80a对应的第一信息损失概率80f。
同样的,计算机设备可以根据第二样本像素采样参数,对第二样本特征图序列中每个第二样本特征图进行像素采样,得到每个第二样本特征图对应的第二样本像素采样特征图,将每个第二样本特征图对应的第二样本像素采样特征图按对应的位置顺序进行排列组合,得到第二样本像素采样特征图序列,对应的位置顺序为第二样本特征图序列中每个第二样本特征图的位置顺序。计算机设备可以将第二样本像素采样特征图序列和目标第二样本特征图中具有相同位置顺序的特征进行相加,得到第二样本特征图序列的总采样特征图。其中,目标第二样本特征图中采样为0的部分在相加时以0填充,即若目标第二样本特征图中没有排列在第二的样本特征图,则以0填充与排列在第二的第二样本像素采样特征图进行相加。计算机设备可以通过信息损失预测模型,对该第二样本特征图序列的总采样特征图进行信息损失预测,得到第二信息损失概率。该第二信息损失概率可用于指示根据该第二样本特征图序列的总采样特征图,预测出第二样本视频数据的正确视频内容类别的概率。
可选的,计算机设备根据第一损失函数和第二损失函数生成总损失函数的具体方式还可以包括:调用特征损失预测模型,将第一样本特征图序列和目标样本融合特征图输入到特征损失预测模型进行第一损失预测,得到第一样本特征图序列对应的第一信息损失概率。将第二样本特征图序列和目标样本融合特征图输入到特征损失预测模型进行第二损失预测,得到第二样本特征图序列对应的第二信息损失概率。根据第一信息损失概率对第一损失函数进行加权处理,得到加权处理后的第一损失函数,根据第二信息损失概率对第二损失函数进行加权处理,得到加权处理后的第二损失函数。对加权处理后的第一损失函数和第二加权处理后的第二损失函数进行求和处理,得到总损失函数。
具体的,在对第一样本特征图序列和第二样本特征图序列进行特征融合后,都会有不同程度的信息损失,为了确保初始分类模型在训练的合理化,避免出现训练崩溃的情况,可以根据特征损失预测模型预测信息损失程度,根据该信息损失程度对损失函数进行合理化,提高初始分类模型的训练效率。计算机设备可以调用特征损失预测模型,该特征损失预测模型用于对融合后的目标样本融合特征图进行信息损失预测,得到目标样本融合特征图与融合之前的第一样本特征图序列或者第二样本特征图序列之间的差异程度。其中,该特征损失预测模型可以将融合之前的第一样本特征图序列或者第二样本特征图序列,与融合后的目标样本融合特征图进行比对,确定第一样本特征图序列或者第二样本特征图序列中关键特征信息丢失的概率。计算机设备可以将第一样本特征图序列和目标样本融合特征图输入特征损失预测模型中,对目标样本融合特征图进行第一损失预测,得到第一样本特征图序列的第一信息损失概率。可以理解的是,可以通过特征损失预测模型预测第一样本特征图序列经过特征融合后,还剩多少有用信息,该第一信息损失概率可以用于指示目标样本融合特征图中还包括第一样本特征图序列的多少有用信息,即该第一信息损失概率可以用于指示根据该目标样本融合特征图预测第一样本视频数据的正确视频内容类别的概率有多大。
同样的,计算机设备可以将第二样本特征图序列和目标样本融合特征图输入特征损失预测模型中,对目标样本融合特征图进行第二损失预测,得到第二样本特征图序列的第二信息损失概率。可以理解的是,计算机设备可以通过特征损失预测模型预测第二样本特征图序列经过特征融合后,还剩余多少有用信息。该第二信息损失概率可以用于指示目标样本融合特征图中还包括第二样本特征图序列的多少有用信息,即该第二信息损失概率可以用于指示根据目标样本融合特征图预测第二样本视频数据的正确视频内容类别的概率有多大。
进一步地,计算机设备可以采用第一信息损失概率对第一损失函数进行加权处理,得到加权处理后的第一损失函数,采用第一信息损失概率对第二损失函进行加权处理,得到加权处理后的第二损失函数。这样,通过采用第一信息损失概率对第一损失函数进行加权处理,采用第二信息损失概率对第二损失函数进行加权处理,可以避免特征融合时导致信息丢失所带来的训练崩溃。可以理解的是,当目标样本融合特征图中已经完全没有第一样本特征图序列的有用信息时,根据目标样本融合特征图对第一样本视频数据进行分类时,得到的第一预测视频内容类别与第一视频内容类别标签之间误差远远大于目标误差,进而导致初始分类模型达不到收敛条件而出现训练崩溃。进一步地,计算机设备可以对加权处理后的第一损失函数和加权处理后的第二损失函数进行求和处理,得到总损失函数。可见,根据第一信息损失概率和第二信息损失概率,对第一损失函数和第二损失函数进行加权处理,可以使初始分类模型的模型损失的把控更加合理化,且可以避免特征融合时关键信息丢失所带来的训练崩溃,同时也可以加快初始分类模型的收敛速度,提高初始分类模型的训练效率以及提高训练得到的目标分类模型的准确性。
其中,总损失函数的计算机公式可以如下公式(2)所示:
lmix=γ1×lCE(β1,fc1)+γ2×lCE(β2,fc2) (2)
其中,公式(2)中的γ1是指第一样本特征图序列的第一信息损失概率,lCE(β1,fc1)是指第一损失函数,β1是指第一视频内容类别标签,fc1是指第一预测视频内容类别,γ2是指第二样本特征图序列的第二信息损失概率,lCE(β2,fc2)是指第二损失函数,β2是指第二视频内容类别标签,fc2是指第二预测视频内容类别。
可选的,信息损失预测模型可以是由计算机设备预先训练好的,在对目标样本融合特征图进行信息损失预测时直接调用,该信息损失预测模型不参与初始分类模型的参数更新,即信息损失预测模型中的参数不需要进行更新。可见,本申请实施例通过在时间维度上和像素维度上,对第一样本视频数据和第二样本视频数据进行信息混合增强,可以提高数据增强效果。同时,采用信息损失预测模型对融合后的目标样本融合特征图进行信息损失预测,根据信息损失预测模型预测得到的信息损失概率对损失函数进行加权处理(即对目标样本融合特征图中的有用信息进行衡量),避免初始分类模型训练崩溃,确保初始分类模型训练的合理性。
如图9所示,图9是本申请实施例提供的一种初始分类模型训练方法的示意图,如图9所示,计算机设备可以获取第一样本视频数据90a和第二样本视频数据90b。其中,第一样本视频数据包括第一样本视频帧T1、第一样本视频帧T2、第一样本视频帧T3以及第一样本视频帧T4,第二样本视频数据包括第二样本视频帧S1、第二样本视频帧S2、第二样本视频帧S3以及第二样本视频帧S4。计算机设备可以通过初始分类模型中的第一特征提取层,对第一样本视频数据中的每个第一样本视频帧进行特征提取处理,得到第一样本视频数据对应的第一样本特征图序列90c。可以理解的是,计算机设备可以在第一特征提取层中,分别对第一样本视频帧T1、第一样本视频帧T2、第一样本视频帧T3以及第一样本视频帧T4进行特征提取处理,得到第一样本特征图T1、第一样本特征图T2、第一样本特征图T3以及第一样本特征图T4。同样的,计算机设备可以通过初始分类模型中的第二特征提取层,对第二样本视频数据中的每个第二样本视频帧进行特征提取处理,得到第二样本视频数据对应的第二样本特征图序列90c。可以理解的是,计算机设备可以在第二特征提取层中,分别对第二样本视频帧S1、第二样本视频帧S2、第二样本视频帧S3以及第二样本视频帧S4进行特征提取处理,得到第二样本特征图S1、第二样本特征图S2、第二样本特征图S3以及第二样本特征图S4
进一步地,如图9所示,计算机设备可以将第一样本特征图序列90c和第二样本特征图序列90d输入初始分类模型中的特征融合层90e中,对第一样本特征图序列90c和第二样本特征图序列90d进行特征融合,得到目标样本融合特征图90f,具体内容可以参见上述图3中步骤S102-S104以及上述图5中步骤S204-S206的内容,本申请实施例在此不再赘述。计算机设备可以将目标样本融合特征图90f输入初始分类模型中的卷积层90g中,对目标样本融合特征图90f进行卷积处理,得到卷积处理后的目标样本融合特征图,具体内容可以参考上述图5中步骤S206的内容,本申请实施例在此不再赘述。计算机设备可以将卷积处理后的目标样本融合特征图输入初始分类模型中的第一分类层90h中,对卷积处理后的目标样本融合特征图进行第一特征分类,得到第一样本视频数据90a的第一预测视频内容类别90j。计算机设备可以将卷积处理后的目标样本融合特征图输入初始分类模型中的第二分类层90i中,对卷积处理后的目标样本融合特征图进行第二特征分类,得到第二样本视频数据90b的第二预测视频内容类别90k。
进一步地,计算机设备可以根据第一样本视频数据90a的第一视频内容类别标签90l和第一预测视频内容类别90j确定第一损失函数90m,根据第一样本视频数据90b的第二视频内容类别标签90n和第二预测视频内容类别90k确定第二损失函数90o。其中,计算机设备可以将第一样本特征图序列90c的第一样本像素采样特征图序列和目标第一样本特征图输入信息损失预测模型90p,预测得到第一样本特征图序列的第一信息损失概率90q。计算机设备可以将第二样本特征图序列90d的第二样本像素采样特征图序列和目标第二样本特征图输入信息损失预测模型90p中,输出第二样本特征图序列90d对应的第二信息损失概率90r。采用第一信息损失概率90q对第一损失函数90m进行加权处理,得到加权处理后的第一损失函数,采用第二信息损失概率90r对第二损失函数90o进行加权处理,得到加权处理后的第二损失函数。计算机设备可以对加权处理后的第一损失函数和加权处理后的第二损失函数进行求和处理,得到总损失函数90g,可以根据该总损失函数90g对初始分类模型进行迭代训练,得到目标分类模型。具体内容可以参考上述图7中步骤S303的内容,在此不再赘述。
在本申请实施例中,通过初始分类模型,对第一样本视频数据中的M个第一样本视频帧进行第一特征提取处理,得到第一样本特征图序列,对第二样本视频数据中的M个第二样本视频帧进行第二特征提取处理,得到第二样本特征图序列。通过对不同样本视频数据进行特征提取,得到第一样本特征图序列和第二样本特征图序列。根据第一样本时间采样参数对第一样本特征图序列进行采样,得到目标第一样本特征图,根据第二样本时间采样参数对第二样本特征图序列进行采样,得到目标第二样本特征图。目标第一样本特征图和目标第二样本特征图分别对应的样本视频帧的数量之和等于M,目标第一样本特征图在第一样本特征图序列中的位置,与目标第二样本特征图在第二样本特征图序列中的位置互不相同。根据目标第一样本特征图和目标第二样本特征图生成样本时间融合特征图,通过各个样本视频帧的时序信息,分别对第一样本特征图序列和第二样本特征图序列进行采样,对采样得到的目标第一样本特征图和目标第一样本特征图进行特征融合(即特征增强),得到样本时间融合特征图,以此根据时序信息对不同视频数据进行相互特征增强。
根据样本时间融合特征图和样本像素融合特征图,生成用于预测视频内容类别的目标样本融合特征图,这样根据时间维度和像素维度,对第一样本视频数据和第二样本视频数据进行混合特征增强,可以提高特征增强效果。根据目标样本融合特征图对初始分类模型进行参数调整,得到目标分类模型,可以在对初始分类模型进行集成的同时,也提高了训练得到的目标分类模型的准确性和鲁棒性。另外,本方案还采用了信息损失预测模型预测信息损失概率,对初始分类模型的损失函数进行加权处理,以使初始分类模型在训练过程中对采样信息的把控更加合理。同时,也可以避免初始分类模型无法满足收敛条件导致训练崩溃,可以加速初始分类模型的收敛速度,同时也可以提高训练得到的目标分类模型的准确性。可见,本申请不需要依赖目标视频数据的视频标签和视频简介等文本信息,也不需要依赖人工经验分析,便可实现对目标视频数据进行准确分类。
请参见图10,图10是本申请实施例提供的一种数据处理装置1的结构示意图。上述数据处理装置1可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该数据处理装置1为一个应用软件;该数据处理装置1可以用于执行本申请实施例提供的数据处理方法中的相应步骤。如图10所示,该数据处理装置1可以包括:第一特征提取模块11、第一采样模块12、生成模块13、分类模块14、获取模块15、第一确定模块16以及第二确定模块17。
第一特征提取模块11,用于获取目标视频数据中的M个视频帧,对M个视频帧进行第一特征提取处理,得到第一特征图序列,对M个视频帧进行第二特征提取处理,得到第二特征图序列;
第一采样模块12,用于根据第一时间采样参数对第一特征图序列进行采样,得到目标第一特征图,根据第二时间采样参数对第二特征图序列进行采样,得到目标第二特征图;目标第一特征图和目标第二特征图分别对应的视频帧的数量之和等于M,目标第一特征图和目标第二特征图分别对应的视频帧互不相同;
生成模块13,用于根据目标第一特征图和目标第二特征图生成时间融合特征图;
分类模块14,用于根据时间融合特征图、第一特征图序列以及第二特征图序列,生成目标融合特征图,对目标融合特征图进行分类,得到目标视频数据的视频内容类别。
其中,第一特征图序列包括M个视频帧分别对应的第一特征图,第二特征图序列包括M个视频帧分别对应的第二特征图;
分类模块14包括:
像素混合拼接单元1401,用于在第一特征图序列和第二特征图序列中,将关联相同视频帧的第一特征图和第二特征图进行像素混合拼接,得到M个视频帧分别对应的像素混合特征图;
第一生成单元1402,用于根据M个视频帧分别对应的像素混合特征图生成像素融合特征图;
分类单元1403,用于根据时间融合特征图和像素融合特征图生成目标融合特征图,对目标融合特征图进行分类,得到目标视频数据的视频内容类别。
其中,第一特征提取模块11包括:
第一获取单元1101,用于获取原始视频数据,获取原始视频数据中每个原始视频帧的内容属性;
划分单元1102,用于根据每个原始视频帧的内容属性,对原始视频数据进行划分,得到N个视频片段;N为正整数;
选择单元1103,用于从N个视频片段中选择目标视频片段,作为目标视频数据;
视频帧采样单元1104,用于根据视频采样规则所指示的采样视频帧数量M,对目标视频数据所包括的原始视频帧进行视频帧采样,得到目标视频数据中的M个视频帧。
其中,数据处理装置1还包括:
获取模块15,用于获取初始时间采样参数;初始时间采样参数中的采样元素的数量为M;
第一确定模块16,用于随机确定初始时间采样参数中具有位置顺序的M个采样元素的元素值,得到第一时间采样参数;元素值包括第一元素阈值和第二元素阈值,第一元素阈值用于指示对特征图进行采样,第二元素阈值用于指示对特征图进行屏蔽;
第二确定模块17,用于根据第一时间采样参数中M个采样元素的元素值确定第二时间采样参数;第一时间采样参数与第二时间采样参数中处于相同位置上的采样元素的元素值互不相同。
其中,第一采样模块12包括:
第一采样单元1201,用于调用目标分类模型,在目标分类模型的特征融合层中,基于第一时间采样参数中的第一元素阈值,对第一特征图序列中关联特征图进行采样,基于第一时间采样参数中的第二元素阈值,对第一特征图序列中关联特征图进行屏蔽,得到目标第一特征图;
第二采样单元1202,用于根据第二时间采样参数中的第一元素阈值,对第二特征图序列中关联特征图进行采样,根据第二时间采样参数中的第二元素阈值,对第二特征图序列中关联特征图进行屏蔽,得到目标第二特征图。
其中,生成模块13包括:
第二获取单元1301,用于获取目标第一特征图所对应的视频帧的第一时间戳,获取目标第二特征图所对应的视频帧的第二时间戳;
组合单元1302,用于根据第一时间戳和第二时间戳之间的时间顺序,对目标第一特征图和目标第二特征图进行组合,得到时间融合特征图。
其中,M个视频帧包括视频帧Mi,i为小于或者等于M的正整数;
像素混合拼接单元1401具体用于:
调用目标分类模型,通过目标分类模型中的特征融合层,在第一特征图序列中获取视频帧Mi对应的第一特征图,在第二特征图序列中获取视频帧Mi对应的第二特征图;
根据第一像素采样参数,对视频帧Mi对应的第一特征图进行像素采样,得到第一像素采样特征图,根据第二像素采样参数对视频帧Mi对应的第二特征图进行像素采样,得到第二像素采样特征图;
对第一像素采样特征图和第二像素采样特征图进行像素混合拼接,得到视频帧Mi对应的像素混合特征图。
其中,分类单元1403具体用于:
调用目标分类模型,通过目标分类模型中的特征融合层,对时间融合特征图和像素融合特征图进行相加,得到目标融合特征图;
通过目标分类模型中的卷积层,对目标融合特征图进行卷积处理,得到卷积处理后的目标融合特征图;
通过目标分类模型中的分类层,对卷积处理后的目标融合特征图进行分类处理,得到目标视频数据的视频内容类别。
其中,分类单元1403还具体用于包括:
将卷积处理后的目标融合特征图输入分类层中的第一分类子层,对卷积处理后的目标融合特征图进行分类处理,得到第一分类结果;
将卷积处理后的目标融合特征图输入分类层中的第二分类子层,对卷积处理后的目标融合特征图进行分类处理,得到第二分类结果;
获取第一分类结果与第二分类结果的平均值,根据该平均值确定目标视频数据的视频内容类别。
根据本申请的一个实施例,图3所示的数据处理方法所涉及的步骤可由图10所示的数据处理装置1中的各个模块来执行。例如,图3中所示的步骤S101可由图10中的第一特征提取模块11来执行,图3中所示的步骤S102可由图10中的第一采样模块12来执行,图3中所示的步骤S103可由图10中的生成模块13来执行,图3中所示的步骤S104可由图10中的分类模块14来执行等等。
根据本申请的一个实施例,图10所示的数据处理装置1中的各个模块可以分别或全部合并为一个或若干个单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个子单元,可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述模块是基于逻辑功能划分的,在实际应用中,一个模块的功能也可以由多个单元来实现,或者多个模块的功能由一个单元实现。在本申请的其它实施例中,测试装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
在本申请实施例中,通过视频采样规则获取目标视频数据中的M个视频帧,对目标视频数据进行预处理,在确保减少计算量的同时,也可以避免采样导致目标视频数据中关键信息丢失,可以提高后续目标视频数据分类的效率。进一步地,对M个视频帧进行第一特征提取处理,得到第一特征图序列,对M个视频帧进行第二特征提取处理,得到第二特征图序列。通过对M个视频帧进行第一特征提取和第二特征提取,得到M个视频帧的第一特征图序列和第二特征图序列,可以从不同角度提取到M个视频帧不同的特征信息。进一步地,根据第一时间采样参数对第一特征图序列进行采样,得到目标第一特征图,根据第二时间采样参数对第二特征图序列进行采样,得到目标第二特征图,根据目标第一特征图和目标第二特征图生成时间融合特征图。可见,从时间维度上分别对第一特征图序列和第二特征图序列进行采样,得到时间融合特征图,以此根据每个视频帧之间的时序信息对目标视频数据进行特征增强,提高目标视频数据的特征增强效果。进一步地,对第一特征图序列和第二特征图序列进行像素采样,得到像素融合特征图,根据时间维度上的时间融合特征图和像素维度上的像素融合特征图生成目标融合特征图,对目标融合特征图进行分类,得到目标视频数据的视频内容类别。可见,本申请通过时间维度和像素维度对目标视频数据进行特征增强,采样特征增强后的目标融合特征图对目标视频数据进行分类,可以提高对目标视频数据进行分类的准确性。可见,本申请不需要依赖目标视频数据的视频标签和视频简介等文本信息,也不需要依赖人工经验分析,便可实现对目标视频数据进行准确分类。
请参见图11,图11是本申请实施例提供的一种数据处理装置2的结构示意图。上述数据处理装置2可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该数据处理装置2为一个应用软件;该数据处理装置2可以用于执行本申请实施例提供的数据处理方法中的相应步骤。如图11所示,该数据处理装置2可以包括:第二特征提取模块21、第二采样模块22以及参数调整模块23。
第二特征提取模块21,用于通过初始分类模型,对第一样本视频数据中的M个第一样本视频帧进行第一特征提取处理,得到第一样本特征图序列,对第二样本视频数据中的M个第二样本视频帧进行第二特征提取处理,得到第二样本特征图序列;M为正整数;
第二采样模块22,用于根据第一样本时间采样参数对第一样本特征图序列进行采样,得到目标第一样本特征图,根据第二样本时间采样参数对第二样本特征图序列进行采样,得到目标第二样本特征图;目标第一样本特征图和目标第二样本特征图分别对应的样本视频帧的数量之和等于M,目标第一样本特征图在第一样本特征图序列中的位置,与目标第二样本特征图在第二样本特征图序列中的位置互不相同;
参数调整模块23,用于根据目标第一样本特征图和目标第二样本特征图生成样本时间融合特征图,根据样本时间融合特征图、第一样本特征图序列以及第二样本特征图序列,生成用于预测视频内容类别的目标样本融合特征图,根据目标样本融合特征图对初始分类模型进行参数调整,得到目标分类模型;目标分类模型用于预测目标视频数据的视频内容类别。
参数调整模块23包括:
预测单元2301,用于根据目标样本融合特征图预测第一样本视频数据的第一预测视频内容类别,根据目标样本融合特征图预测第二样本视频数据的第二预测视频内容类别;
第二生成单元2302,用于根据第一样本视频数据的第一视频内容类别标签和第一预测视频内容类别生成第一损失函数;
第三生成单元2303,用于根据第二样本视频数据的第二视频内容类别标签和第二预测视频内容类别生成第二损失函数;
确定单元2304,用于根据第一损失函数和第二损失函数生成总损失函数,根据总损失函数对初始分类模型进行参数调整,当参数调整后的初始分类模型满足训练收敛条件时,将参数调整后的初始分类模型确定为目标分类模型。
其中,确定单元2304具体用于:
根据第一样本像素采样参数对第一样本特征图序列进行像素采样,得到第一样本像素采样特征图序列,调用信息损失预测模型,对第一样本像素采样特征图序列和目标第一样本特征图进行损失预测,得到第一样本特征图序列对应的第一信息损失概率;
根据第二样本像素采样参数对第二样本特征图序列进行像素采样,得到第二样本像素采样特征图序列,调用信息损失预测模型,对第二样本像素采样特征图序列和目标第二样本特征图进行损失预测,得到第二样本特征图序列对应的第二信息损失概率;
根据第一信息损失概率对第一损失函数进行加权处理,得到加权处理后的第一损失函数,根据第二信息损失概率对第二损失函数进行加权处理,得到加权处理后的第二损失函数;
对加权处理后的第一损失函数和第二加权处理后的第二损失函数进行求和处理,得到总损失函数。
根据本申请的一个实施例,图7所示的数据处理方法所涉及的步骤可由图11所示的数据处理装置2中的各个模块来执行。例如,图7中所示的步骤S301可由图11中的第二特征提取模块21来执行,图7中所示的步骤S302可由图11中的第二采样模块22来执行,图7中所示的步骤S303可由图11中的参数调整模块23来执行等等。第二特征提取模块21、第二采样模块22以及参数调整模块23。
根据本申请的一个实施例,图11示的数据处理装置2中的各个模块可以分别或全部合并为一个或若干个单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个子单元,可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述模块是基于逻辑功能划分的,在实际应用中,一个模块的功能也可以由多个单元来实现,或者多个模块的功能由一个单元实现。在本申请的其它实施例中,测试装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
在本申请实施例中,通过初始分类模型,对第一样本视频数据中的M个第一样本视频帧进行第一特征提取处理,得到第一样本特征图序列,对第二样本视频数据中的M个第二样本视频帧进行第二特征提取处理,得到第二样本特征图序列。通过对不同样本视频数据进行特征提取,得到第一样本特征图序列和第二样本特征图序列。根据第一样本时间采样参数对第一样本特征图序列进行采样,得到目标第一样本特征图,根据第二样本时间采样参数对第二样本特征图序列进行采样,得到目标第二样本特征图。目标第一样本特征图和目标第二样本特征图分别对应的样本视频帧的数量之和等于M,目标第一样本特征图在第一样本特征图序列中的位置,与目标第二样本特征图在第二样本特征图序列中的位置互不相同。根据目标第一样本特征图和目标第二样本特征图生成样本时间融合特征图,通过各个样本视频帧的时序信息,分别对第一样本特征图序列和第二样本特征图序列进行采样,对采样得到的目标第一样本特征图和目标第一样本特征图进行特征融合(即特征增强),得到样本时间融合特征图,以此根据时序信息对不同视频数据进行相互特征增强。
根据样本时间融合特征图和样本像素融合特征图,生成用于预测视频内容类别的目标样本融合特征图,这样根据时间维度和像素维度,对第一样本视频数据和第二样本视频数据进行混合特征增强,可以提高特征增强效果。根据目标样本融合特征图对初始分类模型进行参数调整,得到目标分类模型,可以在对初始分类模型进行集成的同时,也提高了训练得到的目标分类模型的准确性和鲁棒性。另外,本方案还采用了信息损失预测模型预测信息损失概率,对初始分类模型的损失函数进行加权处理,以使初始分类模型在训练过程中对采样信息的把控更加合理。同时,也可以避免初始分类模型无法满足收敛条件导致训练崩溃,可以加速初始分类模型的收敛速度,同时也可以提高训练得到的目标分类模型的准确性。可见,本申请不需要依赖目标视频数据的视频标签和视频简介等文本信息,也不需要依赖人工经验分析,便可实现对目标视频数据进行准确分类。
请参见图12,图12是本申请实施例提供的一种计算机设备的结构示意图。如图12所示,上述计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,上述计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非易失性的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图12所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图12所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为目标用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现前文图3所对应实施例中对数据处理方法的描述,也可执行前文图10所对应实施例中对数据处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
另外,本申请实施例中所描述的计算机设备1000也可执行前文图7所对应实施例中对数据处理方法的描述,也可执行前文图11所对应实施例中对数据处理装置2的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且计算机可读存储介质中存储有前文提及的数据处理装置1和数据处理装置2所执行的计算机程序,且计算机程序包括程序指令,当处理器执行程序指令时,能够执行前文图3、图5以及图7所对应实施例中对数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可被部署在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行,分布在多个地点且通过通信网络互连的多个计算设备可以组成区块链系统。
此外,需要说明的是:本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或者计算机程序可以包括计算机指令,该计算机指令可以存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器可以执行该计算机指令,使得该计算机设备执行前文图3、图5以及图7所对应实施例中对数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节,请参照本申请方法实施例的描述。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储器(Read-Only Memory,ROM)或随机存储器(Random Access Memory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (15)

1.一种数据处理方法,其特征在于,包括:
获取目标视频数据中的M个视频帧,对所述M个视频帧进行第一特征提取处理,得到第一特征图序列,对所述M个视频帧进行第二特征提取处理,得到第二特征图序列;
根据第一时间采样参数对所述第一特征图序列进行采样,得到目标第一特征图,根据第二时间采样参数对所述第二特征图序列进行采样,得到目标第二特征图;所述目标第一特征图和所述目标第二特征图分别对应的视频帧的数量之和等于M,所述目标第一特征图和所述目标第二特征图分别对应的视频帧互不相同;
根据所述目标第一特征图和所述目标第二特征图,生成时间融合特征图;
根据所述时间融合特征图、所述第一特征图序列以及所述第二特征图序列,生成目标融合特征图,对所述目标融合特征图进行分类,得到所述目标视频数据的视频内容类别。
2.根据权利要求1所述的方法,其特征在于,所述第一特征图序列包括所述M个视频帧分别对应的第一特征图,所述第二特征图序列包括所述M个视频帧分别对应的第二特征图;
所述根据所述时间融合特征图、所述第一特征图序列以及所述第二特征图序列,生成目标融合特征图,对所述目标融合特征图进行分类,得到所述目标视频数据的视频内容类别,包括:
在所述第一特征图序列和所述第二特征图序列中,将关联相同视频帧的第一特征图和第二特征图进行像素混合拼接,得到所述M个视频帧分别对应的像素混合特征图;
根据所述M个视频帧分别对应的像素混合特征图生成像素融合特征图;
根据所述时间融合特征图和所述像素融合特征图生成目标融合特征图,对所述目标融合特征图进行分类,得到所述目标视频数据的视频内容类别。
3.根据权利要求1所述的方法,其特征在于,所述获取目标视频数据中的M个视频帧,包括:
获取原始视频数据,获取所述原始视频数据中每个原始视频帧的内容属性;
根据所述每个原始视频帧的内容属性,对所述原始视频数据进行划分,得到N个视频片段;N为正整数;
从所述N个视频片段中选择目标视频片段,作为目标视频数据;
根据视频采样规则所指示的采样视频帧数量M,对所述目标视频数据所包括的原始视频帧进行视频帧采样,得到所述目标视频数据中的M个视频帧。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取初始时间采样参数;所述初始时间采样参数中的采样元素的数量为M;
随机确定所述初始时间采样参数中具有位置顺序的M个采样元素的元素值,得到第一时间采样参数;所述元素值包括第一元素阈值和第二元素阈值,所述第一元素阈值用于指示对特征图进行采样,所述第二元素阈值用于指示对特征图进行屏蔽;
根据所述第一时间采样参数中M个采样元素的元素值确定第二时间采样参数;所述第一时间采样参数与所述第二时间采样参数中处于相同位置上的采样元素的元素值互不相同。
5.根据权利要求4所述的方法,其特征在于,所述根据第一时间采样参数对所述第一特征图序列进行采样,得到目标第一特征图,根据第二时间采样参数对所述第二特征图序列进行采样,得到目标第二特征图,包括:
调用目标分类模型,在所述目标分类模型的特征融合层中,基于所述第一时间采样参数中的第一元素阈值,对所述第一特征图序列中关联特征图进行采样,基于所述第一时间采样参数中的第二元素阈值,对所述第一特征图序列中关联特征图进行屏蔽,得到目标第一特征图;
根据所述第二时间采样参数中的第一元素阈值,对所述第二特征图序列中关联特征图进行采样,根据所述第二时间采样参数中的第二元素阈值,对所述第二特征图序列中关联特征图进行屏蔽,得到目标第二特征图。
6.根据权利要求1所述的方法,其特征在于,所述根据所述目标第一特征图和所述目标第二特征图生成时间融合特征图,包括:
获取所述目标第一特征图所对应的视频帧的第一时间戳,获取所述目标第二特征图所对应的视频帧的第二时间戳;
根据所述第一时间戳和所述第二时间戳之间的时间顺序,对所述目标第一特征图和所述目标第二特征图进行组合,得到时间融合特征图。
7.根据权利要求2所述的方法,其特征在于,所述M个视频帧包括视频帧Mi,i为小于或者等于M的正整数;
所述在所述第一特征图序列和所述第二特征图序列中,将关联相同视频帧的第一特征图和第二特征图进行像素混合拼接,得到所述M个视频帧分别对应的像素混合特征图,包括:
调用目标分类模型,通过所述目标分类模型中的特征融合层,在所述第一特征图序列中获取视频帧Mi对应的第一特征图,在所述第二特征图序列中获取所述视频帧Mi对应的第二特征图;
根据第一像素采样参数,对所述视频帧Mi对应的第一特征图进行像素采样,得到第一像素采样特征图,根据第二像素采样参数对所述视频帧Mi对应的第二特征图进行像素采样,得到第二像素采样特征图;
对所述第一像素采样特征图和所述第二像素采样特征图进行像素混合拼接,得到所述视频帧Mi对应的像素混合特征图。
8.根据权利要求2所述的方法,其特征在于,所述根据所述时间融合特征图和所述像素融合特征图生成目标融合特征图,对所述目标融合特征图进行分类,得到所述目标视频数据的视频内容类别,包括:
调用目标分类模型,通过所述目标分类模型中的特征融合层,对所述时间融合特征图和所述像素融合特征图进行相加,得到目标融合特征图;
通过所述目标分类模型中的卷积层,对所述目标融合特征图进行卷积处理,得到卷积处理后的目标融合特征图;
通过所述目标分类模型中的分类层,对所述卷积处理后的目标融合特征图进行分类处理,得到所述目标视频数据的视频内容类别。
9.根据权利要求8所述的方法,其特征在于,所述通过所述目标分类模型中的分类层,对所述卷积处理后的目标融合特征图进行分类处理,得到所述目标视频数据的视频内容类别,包括:
将所述卷积处理后的目标融合特征图输入所述分类层中的第一分类子层,对所述卷积处理后的目标融合特征图进行分类处理,得到第一分类结果;
将所述卷积处理后的目标融合特征图输入所述分类层中的第二分类子层,对所述卷积处理后的目标融合特征图进行分类处理,得到第二分类结果;
获取所述第一分类结果与所述第二分类结果的平均值,根据该平均值确定所述目标视频数据的视频内容类别。
10.一种数据处理方法,其特征在于,包括:
通过初始分类模型,对第一样本视频数据中的M个第一样本视频帧进行第一特征提取处理,得到第一样本特征图序列,对第二样本视频数据中的M个第二样本视频帧进行第二特征提取处理,得到第二样本特征图序列;M为正整数;
根据第一样本时间采样参数对所述第一样本特征图序列进行采样,得到目标第一样本特征图,根据第二样本时间采样参数对所述第二样本特征图序列进行采样,得到目标第二样本特征图;所述目标第一样本特征图和所述目标第二样本特征图分别对应的样本视频帧的数量之和等于M,所述目标第一样本特征图在所述第一样本特征图序列中的位置,与所述目标第二样本特征图在所述第二样本特征图序列中的位置互不相同;
根据所述目标第一样本特征图和所述目标第二样本特征图生成样本时间融合特征图,根据所述样本时间融合特征图、所述第一样本特征图序列以及所述第二样本特征图序列,生成用于预测视频内容类别的目标样本融合特征图,根据所述目标样本融合特征图对所述初始分类模型进行参数调整,得到目标分类模型;所述目标分类模型用于预测目标视频数据的视频内容类别。
11.根据权利要求10所述的方法,其特征在于,所述根据所述目标样本融合特征图对所述初始分类模型进行参数调整,得到目标分类模型,包括:
根据所述目标样本融合特征图预测所述第一样本视频数据的第一预测视频内容类别,根据所述目标样本融合特征图预测所述第二样本视频数据的第二预测视频内容类别;
根据所述第一样本视频数据的第一视频内容类别标签和所述第一预测视频内容类别生成第一损失函数;
根据所述第二样本视频数据的第二视频内容类别标签和所述第二预测视频内容类别生成第二损失函数;
根据所述第一损失函数和所述第二损失函数生成总损失函数,根据所述总损失函数对所述初始分类模型进行参数调整,当参数调整后的初始分类模型满足训练收敛条件时,将参数调整后的初始分类模型确定为目标分类模型。
12.根据权利要求11所述的方法,其特征在于,所述根据所述第一损失函数和所述第二损失函数生成总损失函数,包括:
根据第一样本像素采样参数对所述第一样本特征图序列进行像素采样,得到第一样本像素采样特征图序列,调用信息损失预测模型,对所述第一样本像素采样特征图序列和所述目标第一样本特征图进行损失预测,得到所述第一样本特征图序列对应的第一信息损失概率;
根据第二样本像素采样参数对所述第二样本特征图序列进行像素采样,得到第二样本像素采样特征图序列,调用所述信息损失预测模型,对所述第二样本像素采样特征图序列和所述目标第二样本特征图进行损失预测,得到所述第二样本特征图序列对应的第二信息损失概率;
根据所述第一信息损失概率对所述第一损失函数进行加权处理,得到加权处理后的第一损失函数,根据所述第二信息损失概率对所述第二损失函数进行加权处理,得到加权处理后的第二损失函数;
对所述加权处理后的第一损失函数和第二加权处理后的第二损失函数进行求和处理,得到总损失函数。
13.一种数据处理装置,其特征在于,包括:
特征提取处理模块,用于获取目标视频数据中的M个视频帧,对所述M个视频帧进行第一特征提取处理,得到第一特征图序列,对所述M个视频帧进行第二特征提取处理,得到第二特征图序列;
采样模块,用于根据第一时间采样参数对所述第一特征图序列进行采样,得到目标第一特征图,根据第二时间采样参数对所述第二特征图序列进行采样,得到目标第二特征图;所述目标第一特征图和所述目标第二特征图分别对应的视频帧的数量之和等于M,所述目标第一特征图和所述目标第二特征图分别对应的视频帧互不相同;
生成模块,用于根据所述目标第一特征图和所述目标第二特征图生成时间融合特征图;
分类模块,用于根据所述时间融合特征图、所述第一特征图序列以及所述第二特征图序列,生成目标融合特征图,对所述目标融合特征图进行分类,得到所述目标视频数据的视频内容类别。
14.一种计算机设备,其特征在于,包括:处理器和存储器;
所述处理器与存储器相连,其中,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以使得所述计算机设备执行权利要求1-12任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序适于由处理器加载并执行,以使得具有所述处理器的计算机设备执行权利要求1-12任一项所述的方法。
CN202111480074.6A 2021-12-06 2021-12-06 数据处理方法、装置、存储介质及设备 Pending CN114332678A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111480074.6A CN114332678A (zh) 2021-12-06 2021-12-06 数据处理方法、装置、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111480074.6A CN114332678A (zh) 2021-12-06 2021-12-06 数据处理方法、装置、存储介质及设备

Publications (1)

Publication Number Publication Date
CN114332678A true CN114332678A (zh) 2022-04-12

Family

ID=81048859

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111480074.6A Pending CN114332678A (zh) 2021-12-06 2021-12-06 数据处理方法、装置、存储介质及设备

Country Status (1)

Country Link
CN (1) CN114332678A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115547414A (zh) * 2022-10-25 2022-12-30 黑龙江金域医学检验实验室有限公司 潜在毒力因子的确定方法、装置、计算机设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115547414A (zh) * 2022-10-25 2022-12-30 黑龙江金域医学检验实验室有限公司 潜在毒力因子的确定方法、装置、计算机设备及存储介质
CN115547414B (zh) * 2022-10-25 2023-04-14 黑龙江金域医学检验实验室有限公司 潜在毒力因子的确定方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
US11854206B2 (en) Temporally distributed neural networks for video semantic segmentation
CN113518256B (zh) 视频处理方法、装置、电子设备及计算机可读存储介质
CN112215171B (zh) 目标检测方法、装置、设备及计算机可读存储介质
US20230353828A1 (en) Model-based data processing method and apparatus
CN113095346A (zh) 数据标注的方法以及数据标注的装置
CN111783712A (zh) 一种视频处理方法、装置、设备及介质
CN110929806A (zh) 基于人工智能的图片处理方法、装置及电子设备
CN115205150A (zh) 图像的去模糊方法、装置、设备、介质及计算机程序产品
CN112906721A (zh) 图像处理方法、装置、设备及计算机可读存储介质
CN114332678A (zh) 数据处理方法、装置、存储介质及设备
CN117095019B (zh) 一种图像分割方法及相关装置
CN112668675B (zh) 一种图像处理方法、装置、计算机设备及存储介质
CN116935170B (zh) 视频处理模型的处理方法、装置、计算机设备和存储介质
CN111597361B (zh) 多媒体数据处理方法、装置、存储介质及设备
CN116701706B (zh) 一种基于人工智能的数据处理方法、装置、设备及介质
CN115345782A (zh) 图像处理方法、装置、计算机、可读存储介质及程序产品
CN115114461A (zh) 多媒体数据的推荐方法、设备以及计算机可读存储介质
CN114357301A (zh) 数据处理方法、设备及可读存储介质
CN116415019A (zh) 虚拟现实vr图像识别方法及装置、电子设备、存储介质
CN113573043B (zh) 视频噪点识别方法、存储介质及设备
CN117058498B (zh) 分割图评估模型的训练方法、分割图的评估方法及装置
CN116680434B (zh) 基于人工智能的图像检索方法、装置、设备及存储介质
CN116777914B (zh) 一种数据处理方法、装置、设备以及计算机可读存储介质
CN117011616B (zh) 一种图像内容审核方法、装置、存储介质和电子设备
CN114581833A (zh) 视频类型确定方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination