CN117271831B - 一种基于多属性学习的体育视频智能分类方法及系统 - Google Patents
一种基于多属性学习的体育视频智能分类方法及系统 Download PDFInfo
- Publication number
- CN117271831B CN117271831B CN202311533544.XA CN202311533544A CN117271831B CN 117271831 B CN117271831 B CN 117271831B CN 202311533544 A CN202311533544 A CN 202311533544A CN 117271831 B CN117271831 B CN 117271831B
- Authority
- CN
- China
- Prior art keywords
- features
- acquiring
- sports video
- key frame
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000013145 classification model Methods 0.000 claims abstract description 37
- 238000000547 structure data Methods 0.000 claims abstract description 18
- 238000007621 cluster analysis Methods 0.000 claims abstract description 13
- 238000013507 mapping Methods 0.000 claims abstract description 13
- 239000011159 matrix material Substances 0.000 claims description 36
- 230000007246 mechanism Effects 0.000 claims description 20
- 238000001228 spectrum Methods 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 15
- 230000002776 aggregation Effects 0.000 claims description 10
- 238000004220 aggregation Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000005096 rolling process Methods 0.000 claims description 8
- 238000009432 framing Methods 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims description 4
- 238000004380 ashing Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 abstract description 4
- 230000033001 locomotion Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/75—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/7867—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多属性学习的体育视频智能分类方法及系统,包括,获取目标体育视频信息,通过预处理后的目标体育视频信息进行关键帧提取,将关键帧进行聚类分析获取关键帧序列,设定体育视频图像关键帧特征库,通过特征编码获取关键帧序列的特征信息生成多模态属性;提取图像语义特征,生成语义标签映射到低维向量空间,基于图卷积网络构建体育视频分类模型,将语义标签作为模型输入;根据语义标签的相关性获取对应的图结构数据,通过体育视频分类模型获取语义标签嵌入表示导入二分类网络,获取分类结果。本发明通过图卷积网络增强语义标签的表示,提高了对视频细粒度特征的提取能力,在提升分类效率的同时实现体育视频的高精度分类。
Description
技术领域
本发明涉及视频分类技术领域,更具体的,涉及一种基于多属性学习的体育视频智能分类方法及系统。
背景技术
随着网络视频资源的爆炸性增长,对视频内容进行自动分析的应用需求不断扩大。在安全、监控、智能家居、自动驾驶和体育视频分析等领域,视频内容理解和识别技术已经展示出了广泛的应用前景。而体育视频占据了电视广播的很大一部分,是受众群体规模最大的视频类型。将体育视频按运动类别进行索引是进行赛后分析、教练战术形成等后续处理的重要手段,也是实现体育视频摘要、语义标注和检索的基础。
视频分类是指预测给定视频所属的类别,但由于视频序列的动态性及与之相关的光照条件、背景、摄像机角度、是否有遮挡、是否有难以区分的场景特征等变化,可能造成较大的类内差异和类间相似性,故视频分类问题要比单一图像分类复杂得多。由于体育视频中运动行为复杂变化较多,运动场景同样复杂多变,同一运动类型具有不同的表达。以往按照人工标注的形式管理、分类体育视频,不但浪费较多的人力资源,同时因为手工标注存在大量人为主观因素,分类精度不高。因此针对当前分类体育视频结果主观性强、区分正确率低等缺陷,如何提取体育视频的高精度的特征描述符,提升分类准确率是需要解决的问题。
发明内容
为了解决上述技术问题,本发明提出了一种基于多属性学习的体育视频智能分类方法及系统。
本发明第一方面提供了一种基于多属性学习的体育视频智能分类方法,包括:
获取目标体育视频信息,将所述目标体育视频信息进行预处理,通过预处理后的目标体育视频信息进行关键帧提取,将所述关键帧进行聚类分析,获取简化的关键帧序列;
设定体育视频图像关键帧特征库,基于所述关键帧特征库通过特征编码获取关键帧序列的特征信息,根据所述特征信息获取关键帧序列的多模态属性;
通过所述多模态属性提取图像语义特征,根据所述图像语义特征生成语义标签映射到低维向量空间,基于图卷积网络构建体育视频分类模型,将语义标签作为模型输入;
根据语义标签的相关性获取对应的图结构数据,通过体育视频分类模型获取语义标签嵌入表示,将所述语义标签嵌入表示导入二分类网络,获取目标体育视频信息的分类结果。
本方案中,通过预处理后的目标体育视频信息进行关键帧提取,将所述关键帧进行聚类分析,获取简化的关键帧序列,具体为:
获取目标体育视频信息进行预处理,通过预处理后的帧图像序列进行特征提取,将帧图像信息进行色度空间转换,将所述色度空间进行量化,提取帧图像信息的HSV特征作为颜色特征;
另外,将所述帧图像信息进行灰化处理,获取对应的灰度共生矩阵,根据所述灰度共生矩阵获取帧图像信息的纹理特征;
引入注意力机制为所述颜色特征及纹理特征进行融合,利用融合后的特征进行不同帧图像信息之间的相似度,根据所述相似度偏差获取帧图像信息之间的均值和标准差;
根据所述均值和标准差获取阈值信息,根据所述阈值信息及相似度偏差进行判断,根据判断结果读取关键帧,将所述关键帧进行聚类分析,根据聚类有效性确定聚类簇数;
根据所述聚类簇数随机选取初始聚类中心,根据与初始聚类中心的距离将其他关键帧进行指派,经过迭代聚类后生成聚类结果,根据图像质量在不同聚类结果中获取预设数量的关键帧,生成简化后的关键帧序列。
本方案中,设定体育视频图像关键帧特征库,基于所述关键帧特征库通过特征编码获取关键帧序列的特征信息,根据所述特征信息获取关键帧序列的多模态属性,具体为:
将目标体育视频对应的关键帧序列划分为视频时间序列及音频时间序列,利用卷积网络获取视频时间序列中各帧的全局特征,利用所述全局特征获取各帧的目标区域;
在所述目标区域中进行局部特征提取,根据所述局部特征进行运动人像及运动器械的识别,并通过RPN网络对特征图进行卷积,获取不同尺度的区域建议框,并进行锚框回归;
将所述区域建议框的特征图导入全连接层,根据所述全连接层判断是否含有运动人像及运动器械,根据判断结果生成精准锚框,基于锚框中的特征图匹配时序生成视频特征;
将所述语音时间序列进行分帧,并将分帧后的语音时间序列利用短时傅里叶变换生成频谱特征,根据所述频谱特征映射到预设范围的梅尔滤波器获取梅尔频谱,根据所述梅尔频谱获取音频特征;
基于所述视频特征及音频特征进行时间同步构建目标体育视频信息的关键帧特征库,将所述视频特征及音频特征进行特征编码,引入注意力机制进行特征融合获取键帧序列对应的特征矩阵;
根据所述特征矩阵表征目标体育视频对应关键帧序列的多模态属性。
本方案中,通过所述多模态属性提取图像语义特征,具体为:
根据关键帧序列的多模态属性,将所述多模态数据进行扁平化处理生成对应的特征矢量,利用门控结构获取特征矢量的上下文信息,构建两层全连接层,进行正则化处理防止过拟合;
在全连接层中通过所述上下文信息获取对应上下文语义,构建SVM分类器,通过数据检索获取带类别标签的体育视频数据集,对所述SVM分类器进行训练;
利用训练后的SVM分类器根据所述特征矢量获取各类别标签的权重信息,将所述权重信息与所述上下文语义进行卷积,获取关键帧序列对应帧级别的图像语义特征。
本方案中,根据所述图像语义特征生成语义标签映射到低维向量空间,基于图卷积网络构建体育视频分类模型,将语义标签作为模型输入,具体为:
根据所述图像语义特征生成包含自身特征信息的语义标签,将目标体育视频信息中关键帧序列对应的语义标签映射到低维向量空间,在所述低维向量空间中将所述语义标签作为节点生成异构图;
获取各节点对应关键帧中目标区域对应的特征图,根据所述特征图确定主成分投影方向,根据所述主成分投影方向获取关键帧对应的投影矩阵,通过所述投影矩阵获取空间特征信息作为节点附加特征;
根据注意力机制获取各节点的注意力分数,表征附加特征对不同分类类别的重要性,将所述注意力分数与节点对应的语义标签结合,获取各节点的初始注意力特征;
利用图卷积网络对所述异构图进行表示学习构建体育视频分类模型,获取关键帧序列对应的图结构数据,根据所述图结构数据获取邻接矩阵;
通过多头注意力机制获取邻接矩阵中各节点的自注意特征,根据所述自注意力特征结合所述初始注意力特征进行加权聚合,更新节点表示,根据消息传递及邻居聚合获取关键帧序列最终的语义标签嵌入表示。
本方案中,将所述语义标签嵌入表示导入二分类网络,获取目标体育视频信息的分类结果,具体为:
根据所述语义标签嵌入表示生成标签向量,训练二分类网络,将所述标签向量导入训练后的二分类网络,获取标签向量的预测结果,通过所述预测结果获取目标体育视频信息的分类结果;
判断分类结果的精度信息,当所述精度信息小于预设精度阈值时,则对所述体育视频分类模型进行修正优化;
通过所述体育视频分类模型输出的类别标签与体育视频进行匹配,并通过预设的数据标准化处理后,对所述体育视频分类模型的训练集进行数据增强,实现模型的更新训练。
本发明第二方面还提供了一种基于多属性学习的体育视频智能分类系统,该系统包括:存储器、处理器,所述存储器中包括基于多属性学习的体育视频智能分类方法程序,所述基于多属性学习的体育视频智能分类方法程序被所述处理器执行时实现如下步骤:
获取目标体育视频信息,将所述目标体育视频信息进行预处理,通过预处理后的目标体育视频信息进行关键帧提取,将所述关键帧进行聚类分析,获取简化的关键帧序列;
设定体育视频图像关键帧特征库,基于所述关键帧特征库通过特征编码获取关键帧序列的特征信息,根据所述特征信息获取关键帧序列的多模态属性;
通过所述多模态属性提取图像语义特征,根据所述图像语义特征生成语义标签映射到低维向量空间,基于图卷积网络构建体育视频分类模型,将语义标签作为模型输入;
根据语义标签的相关性获取对应的图结构数据,通过体育视频分类模型获取语义标签嵌入表示,将所述语义标签嵌入表示导入二分类网络,获取目标体育视频信息的分类结果。
本发明公开了一种基于多属性学习的体育视频智能分类方法及系统,包括,获取目标体育视频信息,通过预处理后的目标体育视频信息进行关键帧提取,将关键帧进行聚类分析获取关键帧序列,设定体育视频图像关键帧特征库,通过特征编码获取关键帧序列的特征信息生成多模态属性;提取图像语义特征,生成语义标签映射到低维向量空间,基于图卷积网络构建体育视频分类模型,将语义标签作为模型输入;根据语义标签的相关性获取对应的图结构数据,通过体育视频分类模型获取语义标签嵌入表示导入二分类网络,获取分类结果。本发明通过图卷积网络增强语义标签的表示,提高了对视频细粒度特征的提取能力,在提升分类效率的同时实现体育视频的高精度分类。
附图说明
图1示出了本发明一种基于多属性学习的体育视频智能分类方法的流程图;
图2示出了本发明获取关键帧序列的多模态属性的流程图;
图3示出了本发明构建体育视频分类模型获取语义标签嵌入表示的流程图;
图4示出了本发明一种基于多属性学习的体育视频智能分类系统的框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本发明一种基于多属性学习的体育视频智能分类方法的流程图。
如图1所示,本发明第一方面提供了一种基于多属性学习的体育视频智能分类方法,包括:
S102,获取目标体育视频信息,将所述目标体育视频信息进行预处理,通过预处理后的目标体育视频信息进行关键帧提取,将所述关键帧进行聚类分析,获取简化的关键帧序列;
S104,设定体育视频图像关键帧特征库,基于所述关键帧特征库通过特征编码获取关键帧序列的特征信息,根据所述特征信息获取关键帧序列的多模态属性;
S106,通过所述多模态属性提取图像语义特征,根据所述图像语义特征生成语义标签映射到低维向量空间,基于图卷积网络构建体育视频分类模型,将语义标签作为模型输入;
S108,根据语义标签的相关性获取对应的图结构数据,通过体育视频分类模型获取语义标签嵌入表示,将所述语义标签嵌入表示导入二分类网络,获取目标体育视频信息的分类结果。
需要说明的是,获取目标体育视频信息进行滤波去噪及镜头边界检测等预处理,通过预处理后的帧图像序列进行特征提取,将帧图像信息进行色度空间转换,将所述色度空间进行量化,提取帧图像信息的HSV特征作为颜色特征,HSV模型用 H来表示色调,用S来表示饱和度,用V来表示亮度;另外,将所述帧图像信息进行灰化处理,获取对应的灰度共生矩阵,根据所述灰度共生矩阵获取帧图像信息的纹理特征;引入注意力机制为所述颜色特征及纹理特征进行融合,利用融合后的特征进行不同帧图像信息之间的相似度,根据所述相似度偏差获取帧图像信息之间的均值和标准差;根据所述均值和标准差获取阈值信息,根据所述阈值信息及相似度偏差进行判断,根据判断结果读取关键帧,若小于所述阈值信息则视为相似图像,任取其中一帧作为关键帧;若大于所述阈值信息,则判定图像差别较大,均视为关键帧,将所述关键帧进行聚类分析,根据聚类有效性确定聚类簇数;根据所述聚类簇数随机选取初始聚类中心,根据与初始聚类中心的距离将其他关键帧进行指派,经过迭代聚类后生成聚类结果,根据图像质量在不同聚类结果中获取预设数量的关键帧,生成简化后的关键帧序列。
图2示出了本发明获取关键帧序列的多模态属性的流程图。
根据本发明实施例,设定体育视频图像关键帧特征库,基于所述关键帧特征库通过特征编码获取的特征信息,根据所述特征信息获取关键帧序列的多模态属性,具体为:
S202,将目标体育视频对应的关键帧序列划分为视频时间序列及音频时间序列,利用卷积网络获取视频时间序列中各帧的全局特征,利用所述全局特征获取各帧的目标区域;
S204,在所述目标区域中进行局部特征提取,根据所述局部特征进行运动人像及运动器械的识别,并通过RPN网络对特征图进行卷积,获取不同尺度的区域建议框,并进行锚框回归;
S206,将所述区域建议框的特征图导入全连接层,根据所述全连接层判断是否含有运动人像及运动器械,根据判断结果生成精准锚框,基于锚框中的特征图匹配时序生成视频特征;
S208,将所述语音时间序列进行分帧,并将分帧后的语音时间序列利用短时傅里叶变换生成频谱特征,根据所述频谱特征映射到预设范围的梅尔滤波器获取梅尔频谱,根据所述梅尔频谱获取音频特征;
S210,基于所述视频特征及音频特征进行时间同步构建目标体育视频信息的关键帧特征库,将所述视频特征及音频特征进行特征编码,引入注意力机制进行特征融合获取键帧序列对应的特征矩阵;
S212,根据所述特征矩阵表征目标体育视频对应关键帧序列的多模态属性。
需要说明的是,通过引入RPN网络、注意力机制等方法,提取缺陷语义特征,过滤可能存在的干扰噪声及与分类任务无关的负相关信息,突出不同维度的类别特征。根据关键帧序列的多模态属性,将所述多模态数据进行扁平化处理生成对应的特征矢量,利用门控结构获取特征矢量的上下文信息,构建两层全连接层,进行正则化处理防止过拟合;在全连接层中通过所述上下文信息获取对应上下文语义,构建SVM分类器,通过数据检索获取带类别标签的体育视频数据集,对所述SVM分类器进行训练;利用训练后的SVM分类器根据所述特征矢量获取各类别标签的权重信息,将所述权重信息与所述上下文语义进行卷积,获取关键帧序列对应帧级别的图像语义特征。
图3示出了本发明构建体育视频分类模型获取语义标签嵌入表示的流程图。
根据本发明实施例,根据所述图像语义特征生成语义标签映射到低维向量空间,基于图卷积网络构建体育视频分类模型,将语义标签作为模型输入,具体为:
S302,根据所述图像语义特征生成包含自身特征信息的语义标签,将目标体育视频信息中关键帧序列对应的语义标签映射到低维向量空间,在所述低维向量空间中将所述语义标签作为节点生成异构图;
S304,获取各节点对应关键帧中目标区域对应的特征图,根据所述特征图确定主成分投影方向,根据所述主成分投影方向获取关键帧对应的投影矩阵,通过所述投影矩阵获取空间特征信息作为节点附加特征;
S306,根据注意力机制获取各节点的注意力分数,表征附加特征对不同分类类别的重要性,将所述注意力分数与节点对应的语义标签结合,获取各节点的初始注意力特征;
S308,利用图卷积网络对所述异构图进行表示学习构建体育视频分类模型,获取关键帧序列对应的图结构数据,根据所述图结构数据获取邻接矩阵;
S310,通过多头注意力机制获取邻接矩阵中各节点的自注意特征,根据所述自注意力特征结合所述初始注意力特征进行加权聚合,更新节点表示,根据消息传递及邻居聚合获取关键帧序列最终的语义标签嵌入表示。
需要说明的是,将节点对应的语义标签与空间特征进行融合,获取含有标签相关性信息的图节点表示,通过迭代学习更新图卷积网络层的参数,实现图卷积网络对体育视频类别区分的建模功能。根据所述语义标签嵌入表示生成标签向量,训练二分类网络,将所述标签向量导入训练后的二分类网络,获取标签向量的预测结果,通过所述预测结果获取目标体育视频信息的分类结果;判断分类结果的精度信息,当所述精度信息小于预设精度阈值时,则对所述体育视频分类模型进行修正优化;通过所述体育视频分类模型输出的类别标签与体育视频进行匹配,并通过预设的数据标准化处理后,对所述体育视频分类模型的训练集进行数据增强,实现模型的更新训练。
根据本发明实施例,获取目标体育视频信息的关键帧序列,根据所述关键帧序列进行运动员人脸区域分割,获取目标体育视频信息的类别信息,根据所述类别信息获取高频运动肢体关键点,通过所述高频认证肢体关键点在关键帧中进行匹配,获取运动员的肢体运动序列;根据人脸区域进行运动员的人脸识别,获取身份信息,将所述身份信息与所述肢体运动序列匹配,根据同一运动员在预设时间内历史肢体运动序列获取运动员的动作偏好,根据所述动作偏好作为运动员识别的辅助信息,同时根据不同远动员的运动偏好判断对手运动员的比赛策略,根据预测的比赛策略进行分析生成应对方案。
图4示出了本发明一种基于多属性学习的体育视频智能分类系统的框图。
本发明第二方面还提供了一种基于多属性学习的体育视频智能分类系统4,该系统包括:存储器41、处理器42,所述存储器中包括基于多属性学习的体育视频智能分类方法程序,所述基于多属性学习的体育视频智能分类方法程序被所述处理器执行时实现如下步骤:
获取目标体育视频信息,将所述目标体育视频信息进行预处理,通过预处理后的目标体育视频信息进行关键帧提取,将所述关键帧进行聚类分析,获取简化的关键帧序列;
设定体育视频图像关键帧特征库,基于所述关键帧特征库通过特征编码获取关键帧序列的特征信息,根据所述特征信息获取关键帧序列的多模态属性;
通过所述多模态属性提取图像语义特征,根据所述图像语义特征生成语义标签映射到低维向量空间,基于图卷积网络构建体育视频分类模型,将语义标签作为模型输入;
根据语义标签的相关性获取对应的图结构数据,通过体育视频分类模型获取语义标签嵌入表示,将所述语义标签嵌入表示导入二分类网络,获取目标体育视频信息的分类结果。
根据本发明实施例,设定体育视频图像关键帧特征库,基于所述关键帧特征库通过特征编码获取的特征信息,根据所述特征信息获取关键帧序列的多模态属性,具体为:
将目标体育视频对应的关键帧序列划分为视频时间序列及音频时间序列,利用卷积网络获取视频时间序列中各帧的全局特征,利用所述全局特征获取各帧的目标区域;
在所述目标区域中进行局部特征提取,根据所述局部特征进行运动人像及运动器械的识别,并通过RPN网络对特征图进行卷积,获取不同尺度的区域建议框,并进行锚框回归;
将所述区域建议框的特征图导入全连接层,根据所述全连接层判断是否含有运动人像及运动器械,根据判断结果生成精准锚框,基于锚框中的特征图匹配时序生成视频特征;
将所述语音时间序列进行分帧,并将分帧后的语音时间序列利用短时傅里叶变换生成频谱特征,根据所述频谱特征映射到预设范围的梅尔滤波器获取梅尔频谱,根据所述梅尔频谱获取音频特征;
基于所述视频特征及音频特征进行时间同步构建目标体育视频信息的关键帧特征库,将所述视频特征及音频特征进行特征编码,引入注意力机制进行特征融合获取键帧序列对应的特征矩阵;
根据所述特征矩阵表征目标体育视频对应关键帧序列的多模态属性。
需要说明的是,通过引入RPN网络、注意力机制等方法,提取缺陷语义特征,过滤可能存在的干扰噪声及与分类任务无关的负相关信息,突出不同维度的类别特征。根据关键帧序列的多模态属性,将所述多模态数据进行扁平化处理生成对应的特征矢量,利用门控结构获取特征矢量的上下文信息,构建两层全连接层,进行正则化处理防止过拟合;在全连接层中通过所述上下文信息获取对应上下文语义,构建SVM分类器,通过数据检索获取带类别标签的体育视频数据集,对所述SVM分类器进行训练;利用训练后的SVM分类器根据所述特征矢量获取各类别标签的权重信息,将所述权重信息与所述上下文语义进行卷积,获取关键帧序列对应帧级别的图像语义特征。
根据本发明实施例,根据所述图像语义特征生成语义标签映射到低维向量空间,基于图卷积网络构建体育视频分类模型,将语义标签作为模型输入,具体为:
根据所述图像语义特征生成包含自身特征信息的语义标签,将目标体育视频信息中关键帧序列对应的语义标签映射到低维向量空间,在所述低维向量空间中将所述语义标签作为节点生成异构图;
获取各节点对应关键帧中目标区域对应的特征图,根据所述特征图确定主成分投影方向,根据所述主成分投影方向获取关键帧对应的投影矩阵,通过所述投影矩阵获取空间特征信息作为节点附加特征;
根据注意力机制获取各节点的注意力分数,表征附加特征对不同分类类别的重要性,将所述注意力分数与节点对应的语义标签结合,获取各节点的初始注意力特征;
利用图卷积网络对所述异构图进行表示学习构建体育视频分类模型,获取关键帧序列对应的图结构数据,根据所述图结构数据获取邻接矩阵;
通过多头注意力机制获取邻接矩阵中各节点的自注意特征,根据所述自注意力特征结合所述初始注意力特征进行加权聚合,更新节点表示,根据消息传递及邻居聚合获取关键帧序列最终的语义标签嵌入表示。
本发明第三方面还提供一种计算机可读存储介质,所述计算机可读存储介质中包括基于多属性学习的体育视频智能分类方法程序,所述基于多属性学习的体育视频智能分类方法程序被处理器执行时,实现如上述任一项所述的基于多属性学习的体育视频智能分类方法的步骤。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (8)
1.一种基于多属性学习的体育视频智能分类方法,其特征在于,包括以下步骤:
获取目标体育视频信息,将所述目标体育视频信息进行预处理,通过预处理后的目标体育视频信息进行关键帧提取,将所述关键帧进行聚类分析,获取简化的关键帧序列;
设定体育视频图像关键帧特征库,基于所述关键帧特征库通过特征编码获取关键帧序列的特征信息,根据所述特征信息获取关键帧序列的多模态属性;
通过所述多模态属性提取图像语义特征,根据所述图像语义特征生成语义标签映射到低维向量空间,基于图卷积网络构建体育视频分类模型,将语义标签作为模型输入;
根据语义标签的相关性获取对应的图结构数据,通过体育视频分类模型获取语义标签嵌入表示,将所述语义标签嵌入表示导入二分类网络,获取目标体育视频信息的分类结果;
设定体育视频图像关键帧特征库,基于所述关键帧特征库通过特征编码获取关键帧序列的特征信息,根据所述特征信息获取关键帧序列的多模态属性,具体为:
将目标体育视频对应的关键帧序列划分为视频时间序列及音频时间序列,利用卷积网络获取视频时间序列中各帧的全局特征,利用所述全局特征获取各帧的目标区域;
在所述目标区域中进行局部特征提取,根据所述局部特征进行运动人像及运动器械的识别,并通过RPN网络对特征图进行卷积,获取不同尺度的区域建议框,并进行锚框回归;
将所述区域建议框的特征图导入全连接层,根据所述全连接层判断是否含有运动人像及运动器械,根据判断结果生成精准锚框,基于锚框中的特征图匹配时序生成视频特征;
将所述音频时间序列进行分帧,并将分帧后的音频时间序列利用短时傅里叶变换生成频谱特征,根据所述频谱特征映射到预设范围的梅尔滤波器获取梅尔频谱,根据所述梅尔频谱获取音频特征;
基于所述视频特征及音频特征进行时间同步构建目标体育视频信息的关键帧特征库,将所述视频特征及音频特征进行特征编码,引入注意力机制进行特征融合获取键帧序列对应的特征矩阵;
根据所述特征矩阵表征目标体育视频对应关键帧序列的多模态属性。
2.根据权利要求1所述的一种基于多属性学习的体育视频智能分类方法,其特征在于,通过预处理后的目标体育视频信息进行关键帧提取,将所述关键帧进行聚类分析,获取简化的关键帧序列,具体为:
获取目标体育视频信息进行预处理,通过预处理后的帧图像序列进行特征提取,将帧图像信息进行色度空间转换,将所述色度空间进行量化,提取帧图像信息的HSV特征作为颜色特征;
另外,将所述帧图像信息进行灰化处理,获取对应的灰度共生矩阵,根据所述灰度共生矩阵获取帧图像信息的纹理特征;
引入注意力机制为所述颜色特征及纹理特征进行融合,利用融合后的特征进行不同帧图像信息之间的相似度,根据相似度偏差获取帧图像信息之间的均值和标准差;
根据所述均值和标准差获取阈值信息,根据所述阈值信息及相似度偏差进行判断,根据判断结果读取关键帧,将所述关键帧进行聚类分析,根据聚类有效性确定聚类簇数;
根据所述聚类簇数随机选取初始聚类中心,根据与初始聚类中心的距离将其他关键帧进行指派,经过迭代聚类后生成聚类结果,根据图像质量在不同聚类结果中获取预设数量的关键帧,生成简化后的关键帧序列。
3.根据权利要求1所述的一种基于多属性学习的体育视频智能分类方法,其特征在于,通过所述多模态属性提取图像语义特征,具体为:
根据关键帧序列的多模态属性,将所述多模态属性进行扁平化处理生成对应的特征矢量,利用门控结构获取特征矢量的上下文信息,构建两层全连接层,进行正则化处理防止过拟合;
在全连接层中通过所述上下文信息获取对应上下文语义,构建SVM分类器,通过数据检索获取带类别标签的体育视频数据集,对所述SVM分类器进行训练;
利用训练后的SVM分类器根据所述特征矢量获取各类别标签的权重信息,将所述权重信息与所述上下文语义进行卷积,获取关键帧序列对应帧级别的图像语义特征。
4.根据权利要求1所述的一种基于多属性学习的体育视频智能分类方法,其特征在于,根据所述图像语义特征生成语义标签映射到低维向量空间,基于图卷积网络构建体育视频分类模型,将语义标签作为模型输入,具体为:
根据所述图像语义特征生成包含自身特征信息的语义标签,将目标体育视频信息中关键帧序列对应的语义标签映射到低维向量空间,在所述低维向量空间中将所述语义标签作为节点生成异构图;
获取各节点对应关键帧中目标区域对应的特征图,根据所述特征图确定主成分投影方向,根据所述主成分投影方向获取关键帧对应的投影矩阵,通过所述投影矩阵获取空间特征信息作为节点附加特征;
根据注意力机制获取各节点的注意力分数,表征附加特征对不同分类类别的重要性,将所述注意力分数与节点对应的语义标签结合,获取各节点的初始注意力特征;
利用图卷积网络对所述异构图进行表示学习构建体育视频分类模型,获取关键帧序列对应的图结构数据,根据所述图结构数据获取邻接矩阵;
通过多头注意力机制获取邻接矩阵中各节点的自注意力特征,根据所述自注意力特征结合所述初始注意力特征进行加权聚合,更新节点表示,根据消息传递及邻居聚合获取关键帧序列最终的语义标签嵌入表示。
5.根据权利要求1所述的一种基于多属性学习的体育视频智能分类方法,其特征在于,将所述语义标签嵌入表示导入二分类网络,获取目标体育视频信息的分类结果,具体为:
根据所述语义标签嵌入表示生成标签向量,训练二分类网络,将所述标签向量导入训练后的二分类网络,获取标签向量的预测结果,通过所述预测结果获取目标体育视频信息的分类结果;
判断分类结果的精度信息,当所述精度信息小于预设精度阈值时,则对所述体育视频分类模型进行修正优化;
通过所述体育视频分类模型输出的类别标签与体育视频进行匹配,并通过预设的数据标准化处理后,对所述体育视频分类模型的训练集进行数据增强,实现模型的更新训练。
6.一种基于多属性学习的体育视频智能分类系统,其特征在于,该系统包括:存储器、处理器,所述存储器中包括基于多属性学习的体育视频智能分类方法程序,所述基于多属性学习的体育视频智能分类方法程序被所述处理器执行时实现如下步骤:
获取目标体育视频信息,将所述目标体育视频信息进行预处理,通过预处理后的目标体育视频信息进行关键帧提取,将所述关键帧进行聚类分析,获取简化的关键帧序列;
设定体育视频图像关键帧特征库,基于所述关键帧特征库通过特征编码获取关键帧序列的特征信息,根据所述特征信息获取关键帧序列的多模态属性;
通过所述多模态属性提取图像语义特征,根据所述图像语义特征生成语义标签映射到低维向量空间,基于图卷积网络构建体育视频分类模型,将语义标签作为模型输入;
根据语义标签的相关性获取对应的图结构数据,通过体育视频分类模型获取语义标签嵌入表示,将所述语义标签嵌入表示导入二分类网络,获取目标体育视频信息的分类结果;
设定体育视频图像关键帧特征库,基于所述关键帧特征库通过特征编码获取关键帧序列的特征信息,根据所述特征信息获取关键帧序列的多模态属性,具体为:
将目标体育视频对应的关键帧序列划分为视频时间序列及音频时间序列,利用卷积网络获取视频时间序列中各帧的全局特征,利用所述全局特征获取各帧的目标区域;
在所述目标区域中进行局部特征提取,根据所述局部特征进行运动人像及运动器械的识别,并通过RPN网络对特征图进行卷积,获取不同尺度的区域建议框,并进行锚框回归;
将所述区域建议框的特征图导入全连接层,根据所述全连接层判断是否含有运动人像及运动器械,根据判断结果生成精准锚框,基于锚框中的特征图匹配时序生成视频特征;
将所述音频时间序列进行分帧,并将分帧后的音频时间序列利用短时傅里叶变换生成频谱特征,根据所述频谱特征映射到预设范围的梅尔滤波器获取梅尔频谱,根据所述梅尔频谱获取音频特征;
基于所述视频特征及音频特征进行时间同步构建目标体育视频信息的关键帧特征库,将所述视频特征及音频特征进行特征编码,引入注意力机制进行特征融合获取键帧序列对应的特征矩阵;
根据所述特征矩阵表征目标体育视频对应关键帧序列的多模态属性。
7.根据权利要求6所述的一种基于多属性学习的体育视频智能分类系统,其特征在于,通过所述多模态属性提取图像语义特征,具体为:
根据关键帧序列的多模态属性,将所述多模态属性进行扁平化处理生成对应的特征矢量,利用门控结构获取特征矢量的上下文信息,构建两层全连接层,进行正则化处理防止过拟合;
在全连接层中通过所述上下文信息获取对应上下文语义,构建SVM分类器,通过数据检索获取带类别标签的体育视频数据集,对所述SVM分类器进行训练;
利用训练后的SVM分类器根据所述特征矢量获取各类别标签的权重信息,将所述权重信息与所述上下文语义进行卷积,获取关键帧序列对应帧级别的图像语义特征。
8.根据权利要求6所述的一种基于多属性学习的体育视频智能分类系统,其特征在于,根据所述图像语义特征生成语义标签映射到低维向量空间,基于图卷积网络构建体育视频分类模型,将语义标签作为模型输入,具体为:
根据所述图像语义特征生成包含自身特征信息的语义标签,将目标体育视频信息中关键帧序列对应的语义标签映射到低维向量空间,在所述低维向量空间中将所述语义标签作为节点生成异构图;
获取各节点对应关键帧中目标区域对应的特征图,根据所述特征图确定主成分投影方向,根据所述主成分投影方向获取关键帧对应的投影矩阵,通过所述投影矩阵获取空间特征信息作为节点附加特征;
根据注意力机制获取各节点的注意力分数,表征附加特征对不同分类类别的重要性,将所述注意力分数与节点对应的语义标签结合,获取各节点的初始注意力特征;
利用图卷积网络对所述异构图进行表示学习构建体育视频分类模型,获取关键帧序列对应的图结构数据,根据所述图结构数据获取邻接矩阵;
通过多头注意力机制获取邻接矩阵中各节点的自注意力特征,根据所述自注意力特征结合所述初始注意力特征进行加权聚合,更新节点表示,根据消息传递及邻居聚合获取关键帧序列最终的语义标签嵌入表示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311533544.XA CN117271831B (zh) | 2023-11-17 | 2023-11-17 | 一种基于多属性学习的体育视频智能分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311533544.XA CN117271831B (zh) | 2023-11-17 | 2023-11-17 | 一种基于多属性学习的体育视频智能分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117271831A CN117271831A (zh) | 2023-12-22 |
CN117271831B true CN117271831B (zh) | 2024-03-29 |
Family
ID=89208358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311533544.XA Active CN117271831B (zh) | 2023-11-17 | 2023-11-17 | 一种基于多属性学习的体育视频智能分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117271831B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118155119B (zh) * | 2024-03-22 | 2024-09-10 | 苏州科技大学 | 面向智能电梯乘客意图分析的视频分类方法及系统 |
CN118535021B (zh) * | 2024-07-19 | 2024-09-27 | 长春职业技术学院 | 基于虚拟现实的风力发电设备沉浸式仿真实训系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948721A (zh) * | 2019-03-27 | 2019-06-28 | 北京邮电大学 | 一种基于视频描述的视频场景分类方法 |
CN113177141A (zh) * | 2021-05-24 | 2021-07-27 | 北湾科技(武汉)有限公司 | 基于语义嵌入软相似性的多标签视频哈希检索方法及设备 |
CN116340569A (zh) * | 2023-02-09 | 2023-06-27 | 天津大学 | 一种基于语义一致性的半监督短视频分类方法 |
CN116883723A (zh) * | 2023-06-19 | 2023-10-13 | 中国矿业大学 | 一种基于并联语义嵌入的组成式零样本图像分类方法 |
CN116978011A (zh) * | 2023-08-23 | 2023-10-31 | 广州新华学院 | 一种用于智能目标识别的图像语义通信方法及系统 |
CN117011737A (zh) * | 2022-07-15 | 2023-11-07 | 腾讯科技(深圳)有限公司 | 一种视频分类方法、装置、电子设备和存储介质 |
-
2023
- 2023-11-17 CN CN202311533544.XA patent/CN117271831B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948721A (zh) * | 2019-03-27 | 2019-06-28 | 北京邮电大学 | 一种基于视频描述的视频场景分类方法 |
CN113177141A (zh) * | 2021-05-24 | 2021-07-27 | 北湾科技(武汉)有限公司 | 基于语义嵌入软相似性的多标签视频哈希检索方法及设备 |
CN117011737A (zh) * | 2022-07-15 | 2023-11-07 | 腾讯科技(深圳)有限公司 | 一种视频分类方法、装置、电子设备和存储介质 |
CN116340569A (zh) * | 2023-02-09 | 2023-06-27 | 天津大学 | 一种基于语义一致性的半监督短视频分类方法 |
CN116883723A (zh) * | 2023-06-19 | 2023-10-13 | 中国矿业大学 | 一种基于并联语义嵌入的组成式零样本图像分类方法 |
CN116978011A (zh) * | 2023-08-23 | 2023-10-31 | 广州新华学院 | 一种用于智能目标识别的图像语义通信方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117271831A (zh) | 2023-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Unsupervised object segmentation by redrawing | |
CN110235138B (zh) | 用于外观搜索的系统和方法 | |
CN117271831B (zh) | 一种基于多属性学习的体育视频智能分类方法及系统 | |
Cheng et al. | Colorization using neural network ensemble | |
Saghafi et al. | Review of person re‐identification techniques | |
CN106446015A (zh) | 一种基于用户行为偏好的视频内容访问预测与推荐方法 | |
CN109711384A (zh) | 一种基于深度卷积神经网络的人脸识别方法 | |
CN112990282B (zh) | 一种细粒度小样本图像的分类方法及装置 | |
CN113221770B (zh) | 基于多特征混合学习的跨域行人重识别方法及系统 | |
Rabiee et al. | Crowd behavior representation: an attribute-based approach | |
Chi | Self‐organizing map‐based color image segmentation with k‐means clustering and saliency map | |
Ding et al. | Let features decide for themselves: Feature mask network for person re-identification | |
CN115187910A (zh) | 视频分类模型训练方法、装置、电子设备及存储介质 | |
CN113673308B (zh) | 对象识别方法、装置和电子系统 | |
Viedma et al. | Relevant features for gender classification in NIR periocular images | |
Liu et al. | Fast genre classification of web images using global and local features | |
Phan et al. | Lspd: A large-scale pornographic dataset for detection and classification | |
Patil et al. | Video content classification using deep learning | |
CN115115979A (zh) | 视频中组成元素的识别、替换方法以及视频推荐方法 | |
CN114140718A (zh) | 一种目标跟踪方法、装置、设备及存储介质 | |
CN112200080A (zh) | 一种人脸识别方法、装置、电子设备及存储介质 | |
Khan et al. | Face detection in close-up shot video events using video mining | |
Bennur et al. | Face Mask Detection and Face Recognition of Unmasked People in Organizations | |
Han et al. | A Two‐Branch Pedestrian Detection Method for Small and Blurred Target | |
CN117612201B (zh) | 一种基于特征压缩的单样本行人重识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |