CN111339364B - 视频分类方法、介质、装置和计算设备 - Google Patents

视频分类方法、介质、装置和计算设备 Download PDF

Info

Publication number
CN111339364B
CN111339364B CN202010130234.3A CN202010130234A CN111339364B CN 111339364 B CN111339364 B CN 111339364B CN 202010130234 A CN202010130234 A CN 202010130234A CN 111339364 B CN111339364 B CN 111339364B
Authority
CN
China
Prior art keywords
characterization
motion
transducer structure
stage
branch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010130234.3A
Other languages
English (en)
Other versions
CN111339364A (zh
Inventor
姜波
于佳弘
周磊
吴凯琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Hangzhou Network Co Ltd
Original Assignee
Netease Hangzhou Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Hangzhou Network Co Ltd filed Critical Netease Hangzhou Network Co Ltd
Priority to CN202010130234.3A priority Critical patent/CN111339364B/zh
Publication of CN111339364A publication Critical patent/CN111339364A/zh
Application granted granted Critical
Publication of CN111339364B publication Critical patent/CN111339364B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Abstract

本发明的实施方式提供了视频分类方法、介质、装置和计算设备。该方法包括:分别获取视频帧序列的表征特征和运动特征;对表征特征和运动特征进行第一运算,得到补充了运动特征的表征特征;根据补充了运动特征的表征特征,对视频帧序列的类别进行预测。本发明实施例能够提高视频分类的准确率。

Description

视频分类方法、介质、装置和计算设备
技术领域
本发明的实施方式涉及视频识别技术领域,更具体地,本发明的实施方式涉及视频分类方法、介质、装置和计算设备。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
视频动作识别是对一段包含单一动作行为的视频片段进行分类的技术。深度学习技术可以应用于视频动作识别领域,这些深度学习方法所使用的网络结构及识别技术主要分为两类,即采用双流法及两条并行的卷积神经网络(CNN,Convolutional NeuralNetworks)进行识别、以及采用三维(3D)CNN进行识别。
双流法通常将彩色图像(RGB图像)数据和抽取到的光流数据输入到两条并行的CNN网络,用于分别提取表征(Appearance)信息和运动(Motion)信息。由于光流数据的计算耗时较长且需要占用额外的存储空间,同时也不支持端到端的训练,使得双流法对视频识别或分类的准确率较低。
发明内容
本发明期望提供视频分类方法和装置,以至少解决上述一种技术问题。
在本发明实施方式的第一方面中,提供了一种视频分类方法,包括:
分别获取视频帧序列的表征特征和运动特征;
对所述表征特征和运动特征进行第一运算,得到补充了运动特征的表征特征;
根据所述补充了运动特征的表征特征,对所述视频帧序列的类别进行预测。
在本发明的一个实施例中,所述采用解码网络进行所述第一运算,所述解码网络包括第一级Transformer结构;
所述对所述表征特征和运动特征进行第一运算,得到补充了运动特征的表征特征,包括:将所述表征特征作为所述第一级Transformer结构的查询(Query),并将所述运动特征分别作为所述第一级Transformer结构的键(Key)和值(Value),采用所述第一级Transformer结构进行计算,得到所述补充了运动特征的表征特征。
在本发明的一个实施例中,所述解码网络还包括至少一个后续级Transformer结构,所述第一级Transformer结构与各个所述后续级Transformer结构依次连接;
所述对所述表征特征和运动特征进行第一运算,得到补充了运动特征的表征特征,还包括:针对任意一个所述后续级Transformer结构,将前一级Transformer结构的计算结果作为所述后续级Transformer结构的Query,并将所述运动特征分别作为所述后续级Transformer结构的Key和Value,采用所述后续级Transformer结构进行计算;将最后一个所述后续级Transformer结构的计算结果作为所述补充了运动特征的表征特征。
在本发明的一个实施例中,还包括:
对所述第一级Transformer结构/后续级Transformer结构的计算结果进行层归一化处理;
将层归一化处理之后的结果进行语义特征转换;
将语义特征转换之后的结果通过残差结构与所述层归一化处理之后的结果相加,所述残差结构中包含随机失活(Dropout)层;
将通过残差结构相加之后的结果进行层归一化处理,采用处理结果更新所述第一级Transformer结构/后续级Transformer结构的计算结果。
在本发明的一个实施例中,分别获取视频帧序列的表征特征和运动特征,包括:
分别获取所述视频帧序列的表征信息数据和运动信息数据;
对所述表征信息数据和所述运动信息数据进行编码及空间维度压缩,得到所述视频帧序列的表征特征和运动特征。
在本发明的一个实施例中,获取所述视频帧序列的表征信息数据,包括:
对所述视频帧序列中的各帧进行数据预处理,得到所述视频帧序列的表征信息数据。
在本发明的一个实施例中,获取所述视频帧序列的运动信息数据,包括:
将所述视频帧序列中的相邻帧/相邻帧的边缘信息相减,得到所述视频帧序列的运动信息数据;所述相邻帧的边缘信息采用高频算子进行提取。
在本发明的一个实施例中,根据所述补充了运动特征的表征特征,对所述视频帧序列的类别进行预测,包括:
将所述补充了运动特征的表征特征进行特征维度的转换及时间维度的池化操作,得到单视频级别的类别预测结果。
在本发明的一个实施例中,视频帧序列的类别包括:所述视频帧序列中包含的动作的类别。
在本发明实施方式的第二方面中,提供了一种视频分类方法,包括:
分别获取视频帧序列的表征特征和运动特征;
对所述表征特征和运动特征进行第一运算,得到补充了运动特征的表征特征;并对所述表征特征和运动特征进行第二运算,得到补充了表征特征的运动特征;
将所述补充了运动特征的表征特征与补充了表征特征的运动特征进行融合;
根据所述融合的结果对所述视频帧序列的类别进行预测。
在本发明的一个实施例中,采用解码网络的表征支路及运动支路分别进行所述第一运行及第二运算,所述表征支路及所述运动支路分别包括第一级Transformer结构;
所述对所述表征特征和运动特征进行第一运算,得到补充了运动特征的表征特征,包括:将所述表征特征作为所述表征支路的第一级Transformer结构的Query,并将所述运动特征分别作为所述表征支路的第一级Transformer结构的Key和Value,采用所述表征支路的第一级Transformer结构进行计算,得到所述补充了运动特征的表征特征;
所述对所述表征特征和运动特征进行第二运算,得到补充了表征特征的运动特征,包括:将所述运动特征作为所述运动支路的第一级Transformer结构的Query,并将所述表征特征分别作为所述运动支路的第一级Transformer结构的Key和Value,采用所述运动支路的第一级Transformer结构进行计算,得到所述补充了表征特征的运动特征。
在本发明的一个实施例中,所述表征支路及所述运动支路分别还包括至少一个后续级Transformer结构,所述表征支路及所述运动支路的第一级Transformer结构与各个所述后续级Transformer结构依次连接;
所述对所述表征特征和运动特征进行第一运算,得到补充了运动特征的表征特征,还包括:针对所述表征支路的任意一个所述后续级Transformer结构,将所述表征支路中前一级Transformer结构的计算结果作为所述后续级Transformer结构的Query,并将所述运动支路中前一级Transformer结构的计算结果作为所述后续级Transformer结构的Key和Value,采用所述后续级Transformer结构进行计算;将所述表征支路中最后一个所述后续级Transformer结构的计算结果作为所述补充了运动特征的表征特征;
所述对所述表征特征和运动特征进行第二运算,得到补充了运动特征的表征特征,还包括:针对所述运动支路的任意一个所述后续级Transformer结构,将所述运动支路中前一级Transformer结构的计算结果作为所述后续级Transformer结构的Query,并将所述表征支路中前一级Transformer结构的计算结果作为所述后续级Transformer结构的Key和Value,采用所述后续级Transformer结构进行计算;将所述运动支路中最后一个所述后续级Transformer结构的计算结果作为所述补充了表征特征的运动特征。
在本发明的一个实施例中,还包括:
对所述第一级Transformer结构/后续级Transformer结构的计算结果进行层归一化处理;
对层归一化处理之后的结果进行语义特征转换;
将语义特征转换之后的结果通过残差结构与所述层归一化处理之后的结果相加,所述残差结构中包含Dropout层;
对通过残差结构相加之后的结果进行层归一化处理,采用处理结果更新所述第一级Transformer结构/后续级Transformer结构的计算结果。
在本发明的一个实施例中,还包括:
将视频数据均匀划分为多段视频帧;
分别从每段所述视频帧中抽取一个视频帧;
将所述抽取的视频帧组成所述视频帧序列。
在本发明的一个实施例中,所述分别获取视频帧序列的表征特征和运动特征,包括:
分别获取所述视频帧序列的表征信息数据和运动信息数据;
对所述表征信息数据和所述运动信息数据进行编码及空间维度压缩,得到所述视频帧序列的表征特征和运动特征。
在本发明的一个实施例中,获取所述视频帧序列的表征信息数据,包括:
对所述视频帧序列中的各帧进行数据预处理,得到所述视频帧序列的表征信息数据。
在本发明的一个实施例中,获取所述视频帧序列的运动信息数据,包括:
将所述视频帧序列中的相邻帧/相邻帧的边缘信息相减,得到所述视频帧序列的运动信息数据;所述相邻帧的边缘信息采用高频算子进行提取。
在本发明的一个实施例中,所述根据所述融合的结果对所述视频帧序列的类别进行预测,包括:
将所述融合的结果进行特征维度的转换及时间维度的池化操作,得到单视频级别的类别预测结果。
在本发明的一个实施例中,所述视频帧序列的类别包括:所述视频帧序列中包含的动作的类别。
在本发明实施方式的第三方面中,提供了一种视频分类装置,包括:
第一获取模块,用于分别获取视频帧序列的表征特征和运动特征;
第一特征补充模块,用于对所述表征特征和运动特征进行第一运算,得到补充了运动特征的表征特征;
第一预测模块,用于根据所述补充了运动特征的表征特征,对所述视频帧序列的类别进行预测。
在本发明的一个实施例中,所述第一特征补充模块采用解码网络进行所述第一运算,所述解码网络包括第一级Transformer结构;
所述第一特征补充模块用于:将所述表征特征作为所述第一级Transformer结构的查询Query,并将所述运动特征分别作为所述第一级Transformer结构的键Key和值Value,采用所述第一级Transformer结构进行计算,得到所述补充了运动特征的表征特征。
在本发明的一个实施例中,所述解码网络还包括至少一个后续级Transformer结构,所述第一级Transformer结构与各个所述后续级Transformer结构依次连接;
所述第一特征补充模块用于:针对任意一个所述后续级Transformer结构,将前一级Transformer结构的计算结果作为所述后续级Transformer结构的Query,并将所述运动特征分别作为所述后续级Transformer结构的Key和Value,采用所述后续级Transformer结构进行计算;将最后一个所述后续级Transformer结构的计算结果作为所述补充了运动特征的表征特征。
在本发明的一个实施例中,所述第一特征补充模块还用于:
对所述第一级Transformer结构/后续级Transformer结构的计算结果进行层归一化处理;
将层归一化处理之后的结果进行语义特征转换;
将语义特征转换之后的结果通过残差结构与所述层归一化处理之后的结果相加,所述残差结构中包含Dropout层;
将通过残差结构相加之后的结果进行层归一化处理,采用处理结果更新所述第一级Transformer结构/后续级Transformer结构的计算结果。
在本发明的一个实施例中,还包括:
第一视频帧序列生成模块,用于将视频数据均匀划分为多段视频帧,分别从每段所述视频帧中抽取一个视频帧,将所述抽取的视频帧组成所述视频帧序列。
在本发明的一个实施例中,所述第一获取模块包括:
第一数据获取子模块,用于分别获取所述视频帧序列的表征信息数据和运动信息数据;
第一压缩子模块,用于对所述表征信息数据和所述运动信息数据进行编码及空间维度压缩,得到所述视频帧序列的表征特征和运动特征。
在本发明的一个实施例中,所述第一数据获取子模块用于,对所述视频帧序列中的各帧进行数据预处理,得到所述视频帧序列的表征信息数据。
在本发明的一个实施例中,所述第一数据获取子模块用于,将所述视频帧序列中的相邻帧/相邻帧的边缘信息相减,得到所述视频帧序列的运动信息数据;所述相邻帧的边缘信息采用高频算子进行提取。
在本发明的一个实施例中,所述第一预测模块用于,将所述补充了运动特征的表征特征进行特征维度的转换及时间维度的池化操作,得到单视频级别的类别预测结果。
在本发明的一个实施例中,所述视频帧序列的类别包括:所述视频帧序列中包含的动作的类别。
在本发明实施方式的第四方面中,提供了一种视频分类装置,包括:
第二获取模块,用于分别获取视频帧序列的表征特征和运动特征;
第二特征补充模块,用于对所述表征特征和运动特征进行第一运算,得到补充了运动特征的表征特征;并对所述表征特征和运动特征进行第二运算,得到补充了表征特征的运动特征;
融合模块,用于将所述补充了运动特征的表征特征与补充了表征特征的运动特征进行融合;
第二预测模块,用于根据所述融合的结果对所述视频帧序列的类别进行预测。
在本发明的一个实施例中,所述第二特征补充模块采用解码网络的表征支路及运动支路分别进行所述第一运行及第二运算,所述表征支路及所述运动支路分别包括第一级Transformer结构;
所述第二特征补充模块,用于将所述表征特征作为所述表征支路的第一级Transformer结构的Query,并将所述运动特征分别作为所述表征支路的第一级Transformer结构的Key和Value,采用所述表征支路的第一级Transformer结构进行计算,得到所述补充了运动特征的表征特征;
还用于将所述运动特征作为所述运动支路的第一级Transformer结构的Query,并将所述表征特征分别作为所述运动支路的第一级Transformer结构的Key和Value,采用所述运动支路的第一级Transformer结构进行计算,得到所述补充了表征特征的运动特征。
在本发明的一个实施例中,所述表征支路及所述运动支路分别还包括至少一个后续级Transformer结构,所述表征支路及所述运动支路的第一级Transformer结构与各个所述后续级Transformer结构依次连接;
所述第二特征补充模块,还用于针对所述表征支路的任意一个所述后续级Transformer结构,将所述表征支路中前一级Transformer结构的计算结果作为所述后续级Transformer结构的Query,并将所述运动支路中前一级Transformer结构的计算结果作为所述后续级Transformer结构的Key和Value,采用所述后续级Transformer结构进行计算;将所述表征支路中最后一个所述后续级Transformer结构的计算结果作为所述补充了运动特征的表征特征;
还用于针对所述运动支路的任意一个所述后续级Transformer结构,将所述运动支路中前一级Transformer结构的计算结果作为所述后续级Transformer结构的Query,并将所述表征支路中前一级Transformer结构的计算结果作为所述后续级Transformer结构的Key和Value,采用所述后续级Transformer结构进行计算;将所述运动支路中最后一个所述后续级Transformer结构的计算结果作为所述补充了表征特征的运动特征。
在本发明的一个实施例中,所述第二特征补充模块还用于:
对所述第一级Transformer结构/后续级Transformer结构的计算结果进行层归一化处理;
对层归一化处理之后的结果进行语义特征转换;
将语义特征转换之后的结果通过残差结构与所述层归一化处理之后的结果相加,所述残差结构中包含Dropout层;
对通过残差结构相加之后的结果进行层归一化处理,采用处理结果更新所述第一级Transformer结构/后续级Transformer结构的计算结果。
在本发明的一个实施例中,还包括:
第二视频帧序列生成模块,语音将视频数据均匀划分为多段视频帧,分别从每段所述视频帧中抽取一个视频帧,将所述抽取的视频帧组成所述视频帧序列。
在本发明的一个实施例中,所述第二获取模块包括:
第二数据获取子模块,用于分别获取所述视频帧序列的表征信息数据和运动信息数据;
第二压缩子模块,用于对所述表征信息数据和所述运动信息数据进行编码及空间维度压缩,得到所述视频帧序列的表征特征和运动特征。
在本发明的一个实施例中,所述第二数据获取子模块用于,对所述视频帧序列中的各帧进行数据预处理,得到所述视频帧序列的表征信息数据。
在本发明的一个实施例中,第二数据获取子模块用于,将所述视频帧序列中的相邻帧/相邻帧的边缘信息相减,得到所述视频帧序列的运动信息数据;所述相邻帧的边缘信息采用高频算子进行提取。
在本发明的一个实施例中,所述第二预测模块用于,将所述融合的结果进行特征维度的转换及时间维度的池化操作,得到单视频级别的类别预测结果。
在本发明的一个实施例中,所述视频帧序列的类别包括:所述视频帧序列中包含的动作的类别。
在本发明实施方式的第五方面中,提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现上述视频分类方法的步骤。
在本发明实施方式的第六方面中,提供了一种计算设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现视频分类方法的步骤。
根据本发明实施方式的视频分类方法和装置,从视频帧序列中获取表征特征和运动特征,对表征特征和运动特征进行运算,得到补充了运动特征的表征特征,再根据该补充了运动特征的表征特征对视频帧序列的类别进行预测。由于避免了对光流数据的计算,因此能够提高计算速度、节约存储空间;同时,由于避免了光流数据不支持端到端的训练的缺陷,因此能够提高视频分类的准确率。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1示意性地示出了根据本发明一实施方式的视频分类方法实现流程图一;
图2示意性地示出了根据本发明一实施方式的视频分类方法所使用的单路更新的双路Transformer结构示意图;
图3示意性地示出了根据本发明一实施方式的视频分类方法所使用的双路更新的双路Transformer结构示意图;
图4示意性地示出了根据本发明一实施方式的视频分类方法所使用的单路更新的双路Transformer结构细节示意图;
图5示意性地示出了根据本发明一实施方式中,步骤S11的实现流程示意图;
图6示意性地示出了根据本发明一实施方式的视频分类方法实现流程图二;
图7示意性地示出了根据本发明一实施方式的视频分类方法所使用的双路更新的双路Transformer结构细节示意图;
图8示意性地示出了根据本发明一实施方式的用于视频分类方法的介质示意图;
图9示意性地示出了根据本发明一实施方式的视频分类装置结构示意图一;
图10示意性地示出了根据本发明一实施方式的视频分类装置结构示意图二;
图11示意性地示出了根据本发明一实施方式的计算设备的结构示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了视频分类方法、介质、装置和计算设备。
在本文中,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
发明概述
本发明人发现,在现有的使用双流法的视频动作识别或分类方法中,由于需要抽取光流数据,而光流数据的计算耗时较长且需要占用额外的存储空间,同时也不支持端到端的训练,使得现有的方法对视频分类的准确率较低。
有鉴于此,本发明提供一种视频分类方法和装置,采用更简单的运行信息获取方法,获取视频帧序列的表征特征和运动特征,对表征特征和运动特征进行运算,得到补充了运动特征的表征特征,再根据该补充了运动特征的表征特征对视频帧序列的类别进行预测。由于避免了对光流数据的计算,因此能够提高计算速度、节约存储空间;同时,由于避免了光流数据不支持端到端的训练的缺陷,因此能够提高视频分类的准确率。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
示例性方法
下面参考图1来描述根据本发明示例性实施方式的视频分类方法。
本发明实施例提出一种视频分类方法,图1示意性地示出了根据本发明一实施方式的视频分类方法实现流程图一,包括以下步骤:
S11:分别获取视频帧序列的表征特征和运动特征;
S12:对该表征特征和运动特征进行第一运算,得到补充了运动特征的表征特征;
S13:根据该补充了运动特征的表征特征,对该视频帧序列的类别进行预测。
通过上述过程,本发明实施例采用显式地补充运动信息的方式,避免了对光流数据的计算,因此能够提高计算速度、节约存储空间;同时,由于避免了光流数据不支持端到端的训练的缺陷,因此能够提高视频分类的准确率。
在一种可能的实施方式中,采用编码网络和解码网络组合的方式实现显式地补充运动信息,可选地,在该解码网络中设置Transformer结构。首先通过编码网络获取视频帧序列的表征特征和运动特征,再通过解码网络实现表征特征和运动特征的融合。解码网络中设置Transformer结构的目的是在上述获取到的表征特征和运动特征基础上实现序列到序列的任务,同时使用注意力机制处理输入和输出之间的依赖关系,并且完全递归。
本实施例中的Transformer结构的输入包括查询(Query)、键(Key)和值(Value)三个部分。其中Query是待查询的信息,Key和Value组成键值对。简单来说,Transformer的目的是在键值对中获得Query的对应值信息,而Query和Key之间的映射关系由两者的相似度衡量。
本实施例中的Transformer结构可以有两种实现方式:
1)单路更新Transformer结构,图2示意性地示出了根据本发明一实施方式的视频分类方法所使用的单路更新的双路Transformer结构示意图。其中表征特征(如RGB图像特征)作为Transformer结构的Query,运动特征(如相邻帧相减图像特征或者相邻帧的边缘信息相减图像特征,前述两种运动特征又可以称为RGB差异和RGB的边缘信息差异)作为Transformer结构的Key和Value,输入到解码网络中,实现表征信息与运动信息的融合,输出更新后的Query信息。
2)双路更新Transformer结构,图3示意性地示出了根据本发明一实施方式的视频分类方法所使用的双路更新的双路Transformer结构示意图。表征特征(如RGB图像特征)作为Transformer结构的Query,运动特征(如RGB差异或者RGB的边缘信息差异)作为Transformer结构的Key和Value,输入到表征支路解码网络Transformer中;运动特征作为Transformer结构的Query,表征特征作为Transformer结构的Key和Value,输入到运动支路解码网络Transformer中,实现表征特征和运动特征的信息融合。双路更新Transformer结构可以应用于本发明实施例提出的另一种视频分类方法中,该方法将在后续实施例中介绍。
这里的单路更新指的是仅对表征特征通过补充运动特征更新,双路更新指同时通过补充运动特征更新表征特征和通过补充表征特征更新运动特征。对于单路更新Transformer结构,最后通过时间维度的池化操作,获得视频级别的识别结果;对于双路更新Transformer结构,将两路解码网络的输出进行融合,最后通过时间维度的池化操作获得视频级别的识别结果。这里提到的池化操作,可以有多种实现方式,均值池化、最大值池化、加权池化等。这里提到的双路融合方式,也可以有多种实现方法,例如均值融合、加权融合等。
在一种可能的实施方式中,上述步骤S12中可以采用解码网络进行该第一运算,该解码网络包括第一级Transformer结构;
相应地,步骤S12具体可以包括:将该表征特征作为该第一级Transformer结构的Query,并将该运动特征分别作为该第一级Transformer结构的Key和Value,采用该第一级Transformer结构进行计算,得到补充了运动特征的表征特征。
进一步地,上述解码网络还可以包括至少一个后续级Transformer结构,该第一级Transformer结构与各个后续级Transformer结构依次连接。也就是说,上述解码网络包括至少两级Transformer结构,为了方便描述,本申请实施例将依次连接的第一个Transformer结构称为第一级Transformer结构,将其余依次连接的Transformer结构称为后续级Transformer结构。
相应地,步骤S12还可以包括:针对任意一个后续级Transformer结构,将前一级Transformer结构的计算结果作为该后续级Transformer结构的Query,并将该运动特征分别作为该后续级Transformer结构的Key和Value,采用该后续级Transformer结构进行计算;将最后一个后续级Transformer结构的计算结果作为上述补充了运动特征的表征特征。
可选地,上述方法还可以包括:
对第一级Transformer结构/后续级Transformer结构的计算结果进行层归一化处理;
将层归一化处理之后的结果进行语义特征转换;
将语义特征转换之后的结果通过残差结构与层归一化处理之后的结果相加,残差结构中包含随机失活(Dropout)层;
将通过残差结构相加之后的结果进行层归一化处理,采用处理结果更新第一级Transformer结构/后续级Transformer结构的计算结果。
图4示意性地示出了根据本发明一实施方式的视频分类方法所使用的单路更新的双路Transformer结构细节示意图。如图4所示,Transformer结构的Q为表征编码支路的特征输出或者补充了运动特征的表征特征,K和V为运动编码支路的特征输出,并在多个Transformer结构中共用。通过多头Transformer的计算获得融合运动信息的新的表征特征表达。得到的新的特征表达可以经过两个卷积核(kernel)为1*1的卷积层进行语义特征转换,并通过一个残差结构与自身相加得到输出结果。为了增加模型的泛化能力,增加了两个层归一化(Layer Norm)模块,同时在残差结构上增加了随机失活(Dropout)层。输出的特征作为下一个Transformer结构Q的输入,运动编码网络的输出结果仍作为下一个Transformer的K和V的来源。经过连续的多个Transformer结构,获得最终的特征输出。可选地,本申请实施例可以采用连续的4个Transformer结构。
可选地,上述步骤S11之前可以进一步包括:
将视频数据均匀划分为多段视频帧;
分别从每段视频帧中抽取一个视频帧;
将抽取的视频帧组成视频帧序列。
图5示意性地示出了根据本发明一实施方式中,步骤S11的实现流程示意图。如图5所示,步骤S11包括:
S51:分别获取视频帧序列的表征信息数据和运动信息数据;
S52:对表征信息数据和运动信息数据进行编码及空间维度压缩,得到视频帧序列的表征特征和运动特征。
可选地,步骤S51中,获取视频帧序列的表征信息数据包括:对视频帧序列中的各帧进行数据预处理,得到视频帧序列的表征信息数据。
可选地,步骤S51中,获取视频帧序列的运动信息数据包括:将视频帧序列中的相邻帧/相邻帧的边缘信息相减,得到视频帧序列的运动信息数据;相邻帧的边缘信息采用高频算子进行提取。
例如,首先将视频数据均匀分成(t+1)段视频帧,t为正整数;并从每段视频帧中随机抽取1个视频帧,将抽取的视频帧组成视频帧序列。其中对前t帧经过数据预处理之后作为表征支路的输入数据。全部的(t+1)帧的相邻帧相减,获得t帧结果,作为运动支路的输入数据。或者,也可以通过高频算子,先对(t+1)帧数据进行边缘提取之后,再进行相邻帧相减。本发明中的高频算子可以选择索贝尔(Sobel),Laplacian,Canny,Scharr,但不限于常见的高频算子。
可选地,上述步骤S13包括:将补充了运动特征的表征特征进行特征维度的转换及时间维度的池化操作,得到单视频级别的类别预测结果。
具体地,本申请实施例对于经过解码网络获得的特征,可以首先经过全连接层进行特征维度的转换,然后通过时间维度的池化操作,将时间维度压缩至1,获得单视频级别的预测结果。其中的池化操作可以有多种实现方式,如均值池化、最大值池化、加权池化等。
可选地,上述视频帧序列的类别包括:视频帧序列中包含的动作的类别。
本发明实施例还提出另一种视频分类方法,图6示意性地示出了根据本发明一实施方式的视频分类方法实现流程图二,包括以下步骤:
S61:分别获取视频帧序列的表征特征和运动特征;
S62:对表征特征和运动特征进行第一运算,得到补充了运动特征的表征特征;并对表征特征和运动特征进行第二运算,得到补充了表征特征的运动特征;
S63:将补充了运动特征的表征特征与补充了表征特征的运动特征进行融合;
S64:根据融合的结果对视频帧序列的类别进行预测。
通过上述过程,本发明实施例采用显式补充运动信息的方式,避免了对光流数据的计算,因此能够提高计算速度、节约存储空间;同时,由于避免了光流数据不支持端到端的训练的缺陷,因此能够提高视频分类的准确率。并且,在运动特征的基础上补充表征特征,促进表征特征和运动特征的融合,进一步提高视频分类的准确率。
本发明实施例可以采用上述图3所示的双路更新的双路Transformer结构。
在一种可能的实施方式中,上述步骤S62中可以采用解码网络的表征支路及运动支路分别进行第一运行及第二运算,表征支路及运动支路分别包括第一级Transformer结构;
相应地,步骤S62中的对表征特征和运动特征进行第一运算,得到补充了运动特征的表征特征,可以包括:将表征特征作为表征支路的第一级Transformer结构的Query,并将运动特征分别作为表征支路的第一级Transformer结构的Key和Value,采用表征支路的第一级Transformer结构进行计算,得到补充了运动特征的表征特征;
步骤S62中的对表征特征和运动特征进行第二运算,得到补充了表征特征的运动特征,可以包括:将运动特征作为运动支路的第一级Transformer结构的Query,并将表征特征分别作为运动支路的第一级Transformer结构的Key和Value,采用运动支路的第一级Transformer结构进行计算,得到补充了表征特征的运动特征。
进一步地,上述表征支路及运动支路分别还可以包括至少一个后续级Transformer结构,表征支路及运动支路的第一级Transformer结构与各个后续级Transformer结构依次连接。也就是说,上述表征支路和运动支路分别包括至少两级Transformer结构,为了方便描述,本申请实施例将依次连接的第一个Transformer结构称为第一级Transformer结构,将其余的Transformer结构称为后续级Transformer结构。
相应地,步骤S62中的对表征特征和运动特征进行第一运算,得到补充了运动特征的表征特征,还可以包括:针对表征支路的任意一个后续级Transformer结构,将表征支路中前一级Transformer结构的计算结果作为后续级Transformer结构的Query,并将运动支路中前一级Transformer结构的计算结果作为后续级Transformer结构的Key和Value,采用后续级Transformer结构进行计算;将表征支路中最后一个后续级Transformer结构的计算结果作为补充了运动特征的表征特征。
步骤S62中的对表征特征和运动特征进行第二运算,得到补充了运动特征的表征特征,还可以包括:针对运动支路的任意一个后续级Transformer结构,将运动支路中前一级Transformer结构的计算结果作为后续级Transformer结构的Query,并将表征支路中前一级Transformer结构的计算结果作为后续级Transformer结构的Key和Value,采用后续级Transformer结构进行计算;将运动支路中最后一个后续级Transformer结构的计算结果作为补充了表征特征的运动特征。
可选地,上述方法还可以包括:
对第一级Transformer结构/后续级Transformer结构的计算结果进行层归一化处理;
对层归一化处理之后的结果进行语义特征转换;
将语义特征转换之后的结果通过残差结构与层归一化处理之后的结果相加,残差结构中包含Dropout层;
对通过残差结构相加之后的结果进行层归一化处理,采用处理结果更新第一级Transformer结构/后续级Transformer结构的计算结果。
图7示意性地示出了根据本发明一实施方式的视频分类方法所使用的双路更新的双路Transformer结构细节示意图。如图7所示,两条并行的解码网络分别用来实现表征特征和运动特征的更新。表征特征解码网络Transformer结构的Q为表征编码支路的特征输出或者补充了运动特征的表征特征,K和V为运动编码支路的特征输出或者补充了表征特征的运动特征。通过多头Transformer的计算获得融合运动信息的新的表征特征表达。得到的新的特征表达会经过两个kernel为1*1的卷积层进行语义特征转换,并通过一个残差结构与自身相加得到输出结果。为了增加模型的泛化能力,增加了两个Layer Norm模块,同时在残差结构上增加了Dropout层。输出的特征作为下一个表征特征解码网络Transformer结构Q的输入,运动特征解码网络的输出结果,即补充了表征特征的运动特征作为下一个表征特征解码网络Transformer K和V的来源。经过连续的4个Transformer结构,获得最终的表征特征输出。运动特征解码网络支路与表征特征解码网络支路相似,Transformer结构的Q为运动编码支路的特征输出或者补充了表征特征的运动特征,K和V为表征编码支路的特征输出或者补充了运动特征的表征特征。经过连续的多个Transformer结构,获得最终的特征输出。可选地,本申请实施例中的运动支路和表征支路可以分别采用连续的4个Transformer结构。
上述步骤S61之前可以进一步包括生成视频帧序列的过程,该过程与前述实施例步骤S11之前的生成视频帧序列的过程相同。另外,上述步骤S61可以采用与前述实施例的步骤S11相同的实现过程,在此不再赘述。
可选地,上述步骤S64包括:将融合的结果进行特征维度的转换及时间维度的池化操作,得到单视频级别的类别预测结果。
具体地,本申请实施例对于解码网络获得的两路特征,可以首先直接进行融合,再经过全连接层进行特征维度的转换,然后通过时间维度的池化操作,将时间维度压缩至1,获得单视频级别的预测结果。其中的池化操作可以有多种实现方式,如均值池化、最大值池化、加权池化等。前述融合方式也可以有多种实现方法,如均值融合,加权融合等。
可选地,上述视频帧序列的类别包括:视频帧序列中包含的动作的类别。
综上可见,本申请实施例基于相邻帧相减或边缘检测后的相邻帧相减方式显式地获得运动信息,与光流信息相比,时间消耗少,且无额外的存储压力,同时可以实现模型端到端的训练。本申请实施例提出的单路更新的双路Transformer结构,相比自我注意力机制,在表征特征的基础上补充了运动特征,使表征特征和运动特征相融合,实现视频动作分类精度的提升。进一步地,本申请实施例提出的双路更新的双路Transformer结构,在单路更新的基础上,在运动特征的基础上补充表征特征,促进表征特征和运动特征的融合,进一步实现视频动作分类精度的提升。
示例性介质
在介绍了本发明示例性实施方式的方法之后,接下来,参考图8对本发明示例性实施方式的介质进行说明。
在一些可能的实施方式中,本发明的各个方面还可以实现为一种计算机可读介质,其上存储有程序,当程序被处理器执行时用于实现本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的视频分类方法中的步骤。
具体地,上述处理器执行上述程序时用于实现如下步骤:
分别获取视频帧序列的表征特征和运动特征;
对表征特征和运动特征进行第一运算,得到补充了运动特征的表征特征;
根据补充了运动特征的表征特征,对视频帧序列的类别进行预测。
或者,上述处理器执行上述程序时用于实现如下步骤:
分别获取视频帧序列的表征特征和运动特征;
对表征特征和运动特征进行第一运算,得到补充了运动特征的表征特征;并对表征特征和运动特征进行第二运算,得到补充了表征特征的运动特征;
将补充了运动特征的表征特征与补充了表征特征的运动特征进行融合;
根据融合的结果对视频帧序列的类别进行预测。
需要说明的是:上述的介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
如图8所示,描述了根据本发明的实施方式的介质80,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序,并可以在设备上运行。然而,本发明不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于:电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算设备。
示例性装置
在介绍了本发明示例性实施方式的介质之后,接下来,参考图9和图10对本发明示例性实施方式的装置进行说明。
本发明实施例提出一种视频分类装置,图9示意性地示出了根据本发明一实施方式的视频分类装置结构示意图一,包括:
第一获取模块910,用于分别获取视频帧序列的表征特征和运动特征;
第一特征补充模块920,用于对表征特征和运动特征进行第一运算,得到补充了运动特征的表征特征;
第一预测模块930,用于根据补充了运动特征的表征特征,对视频帧序列的类别进行预测。
在一种可能的实施方式中,第一特征补充模块920采用解码网络进行第一运算,解码网络包括第一级Transformer结构;
第一特征补充模块920用于:将表征特征作为第一级Transformer结构的查询Query,并将运动特征分别作为第一级Transformer结构的键Key和值Value,采用第一级Transformer结构进行计算,得到补充了运动特征的表征特征。
在一种可能的实施方式中,解码网络还包括至少一个后续级Transformer结构,第一级Transformer结构与各个后续级Transformer结构依次连接;
第一特征补充模块920用于:针对任意一个后续级Transformer结构,将前一级Transformer结构的计算结果作为后续级Transformer结构的Query,并将运动特征分别作为后续级Transformer结构的Key和Value,采用后续级Transformer结构进行计算;将最后一个后续级Transformer结构的计算结果作为补充了运动特征的表征特征。
在一种可能的实施方式中,第一特征补充模块920还用于:
对第一级Transformer结构/后续级Transformer结构的计算结果进行层归一化处理;
将层归一化处理之后的结果进行语义特征转换;
将语义特征转换之后的结果通过残差结构与层归一化处理之后的结果相加,残差结构中包含随机失活(Dropout)层;
将通过残差结构相加之后的结果进行层归一化处理,采用处理结果更新第一级Transformer结构/后续级Transformer结构的计算结果。
在一种可能的实施方式中,上述装置还包括:
第一视频帧序列生成模块940,用于将视频数据均匀划分为多段视频帧,分别从每段视频帧中抽取一个视频帧,将抽取的视频帧组成视频帧序列。
在一种可能的实施方式中,第一获取模块910包括:
第一数据获取子模块911,用于分别获取视频帧序列的表征信息数据和运动信息数据;
第一压缩子模块912,用于对表征信息数据和运动信息数据进行编码及空间维度压缩,得到视频帧序列的表征特征和运动特征。
在一种可能的实施方式中,第一数据获取子模块911用于,对视频帧序列中的各帧进行数据预处理,得到视频帧序列的表征信息数据。
在一种可能的实施方式中,第一数据获取子模块911用于,将视频帧序列中的相邻帧/相邻帧的边缘信息相减,得到视频帧序列的运动信息数据;相邻帧的边缘信息采用高频算子进行提取。
在一种可能的实施方式中,第一预测模块930用于,将补充了运动特征的表征特征进行特征维度的转换及时间维度的池化操作,得到单视频级别的类别预测结果。
在一种可能的实施方式中,视频帧序列的类别包括:视频帧序列中包含的动作的类别。
本发明实施例提出另一种视频分类装置,图10示意性地示出了根据本发明一实施方式的视频分类装置结构示意图二,包括:
第二获取模块1010,用于分别获取视频帧序列的表征特征和运动特征;
第二特征补充模块1020,用于对表征特征和运动特征进行第一运算,得到补充了运动特征的表征特征;并对表征特征和运动特征进行第二运算,得到补充了表征特征的运动特征;
融合模块1030,用于将补充了运动特征的表征特征与补充了表征特征的运动特征进行融合;
第二预测模块1040,用于根据融合的结果对视频帧序列的类别进行预测。
在一种可能的实施方式中,第二特征补充模块1020采用解码网络的表征支路及运动支路分别进行第一运行及第二运算,表征支路及运动支路分别包括第一级Transformer结构;
第二特征补充模块1020,用于将表征特征作为表征支路的第一级Transformer结构的Query,并将运动特征分别作为表征支路的第一级Transformer结构的Key和Value,采用表征支路的第一级Transformer结构进行计算,得到补充了运动特征的表征特征;
还用于将运动特征作为运动支路的第一级Transformer结构的Query,并将表征特征分别作为运动支路的第一级Transformer结构的Key和Value,采用运动支路的第一级Transformer结构进行计算,得到补充了表征特征的运动特征。
在一种可能的实施方式中,表征支路及运动支路分别还包括至少一个后续级Transformer结构,表征支路及运动支路的第一级Transformer结构与各个后续级Transformer结构依次连接;
第二特征补充模块1020,还用于针对表征支路的任意一个后续级Transformer结构,将表征支路中前一级Transformer结构的计算结果作为后续级Transformer结构的Query,并将运动支路中前一级Transformer结构的计算结果作为后续级Transformer结构的Key和Value,采用后续级Transformer结构进行计算;将表征支路中最后一个后续级Transformer结构的计算结果作为补充了运动特征的表征特征;
还用于针对运动支路的任意一个后续级Transformer结构,将运动支路中前一级Transformer结构的计算结果作为后续级Transformer结构的Query,并将表征支路中前一级Transformer结构的计算结果作为后续级Transformer结构的Key和Value,采用后续级Transformer结构进行计算;将运动支路中最后一个后续级Transformer结构的计算结果作为补充了表征特征的运动特征。
在一种可能的实施方式中,第二特征补充模块1020还用于:
对第一级Transformer结构/后续级Transformer结构的计算结果进行层归一化处理;
对层归一化处理之后的结果进行语义特征转换;
将语义特征转换之后的结果通过残差结构与层归一化处理之后的结果相加,残差结构中包含Dropout层;
对通过残差结构相加之后的结果进行层归一化处理,采用处理结果更新第一级Transformer结构/后续级Transformer结构的计算结果。
在一种可能的实施方式中,还包括:
第二视频帧序列生成模块1050,语音将视频数据均匀划分为多段视频帧,分别从每段视频帧中抽取一个视频帧,将抽取的视频帧组成视频帧序列。
在一种可能的实施方式中,第二获取模块1010包括:
第二数据获取子模块1011,用于分别获取视频帧序列的表征信息数据和运动信息数据;
第二压缩子模块1012,用于对表征信息数据和运动信息数据进行编码及空间维度压缩,得到视频帧序列的表征特征和运动特征。
在一种可能的实施方式中,第二数据获取子模块1011用于,对视频帧序列中的各帧进行数据预处理,得到视频帧序列的表征信息数据。
在一种可能的实施方式中,第二数据获取子模块1011用于,将视频帧序列中的相邻帧/相邻帧的边缘信息相减,得到视频帧序列的运动信息数据;相邻帧的边缘信息采用高频算子进行提取。
在一种可能的实施方式中,第二预测模块1040用于,将融合的结果进行特征维度的转换及时间维度的池化操作,得到单视频级别的类别预测结果。
在一种可能的实施方式中,视频帧序列的类别包括:视频帧序列中包含的动作的类别。
本发明实施例提出的视频分类装置采用显式地补充运动信息的方式,避免了对光流数据的计算,因此能够提高计算速度、节约存储空间;同时,由于避免了光流数据不支持端到端的训练的缺陷,因此能够提高视频分类的准确率。
示例性计算设备
在介绍了本发明示例性实施方式的方法、介质和装置之后,接下来,参考图11对本发明示例性实施方式的计算设备进行说明。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在一些可能的实施方式中,根据本发明实施方式的计算设备可以至少包括至少一个处理单元以及至少一个存储单元。其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本发明的各种示例性实施方式的视频分类方法中的步骤。
下面参照图11来描述根据本发明的这种实施方式的计算设备110。图11显示的计算设备110仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图11所示,计算设备110以通用计算设备的形式表现。计算设备110的组件可以包括但不限于:上述至少一个处理单元1101、上述至少一个存储单元1102,连接不同系统组件(包括处理单元1101和存储单元1102)的总线1103。
总线1103包括数据总线、控制总线和地址总线。
存储单元1102可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)11021和/或高速缓存存储器11022,可以进一步包括非易失性存储器形式的可读介质,例如只读存储器(ROM)11023。
存储单元1102还可以包括具有一组(至少一个)程序模块11024的程序/实用工具11025,这样的程序模块11024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算设备110也可以与一个或多个外部设备1104(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口1105进行。并且,计算设备110还可以通过网络适配器1106与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图11所示,网络适配器1106通过总线1103与计算设备110的其它模块通信。应当理解,尽管图中未示出,可以结合计算设备110使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了视频分类装置的若干单元/模块或子单元/子模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (20)

1.一种视频分类方法,其特征在于,包括:
分别获取视频帧序列的表征特征和运动特征;
将所述表征特征作为解码网络的表征支路的第一级Transformer结构的Query,并将所述运动特征分别作为所述表征支路的第一级Transformer结构的Key和Value,采用所述表征支路的第一级Transformer结构进行计算,得到补充了运动特征的表征特征;
将所述运动特征作为所述解码网络的运动支路的第一级Transformer结构的Query,并将所述表征特征分别作为所述运动支路的第一级Transformer结构的Key和Value,采用所述运动支路的第一级Transformer结构进行计算,得到补充了表征特征的运动特征;
将所述补充了运动特征的表征特征与补充了表征特征的运动特征进行融合;
根据所述融合的结果对所述视频帧序列的类别进行预测。
2.根据权利要求1所述的方法,其特征在于,所述表征支路及所述运动支路分别还包括至少一个后续级Transformer结构,所述表征支路及所述运动支路的第一级Transformer结构与各个所述后续级Transformer结构依次连接;
所述方法还包括:
针对所述表征支路的任意一个所述后续级Transformer结构,将所述表征支路中前一级Transformer结构的计算结果作为所述后续级Transformer结构的Query,并将所述运动支路中前一级Transformer结构的计算结果作为所述后续级Transformer结构的Key和Value,采用所述后续级Transformer结构进行计算;将所述表征支路中最后一个所述后续级Transformer结构的计算结果作为所述补充了运动特征的表征特征;
针对所述运动支路的任意一个所述后续级Transformer结构,将所述运动支路中前一级Transformer结构的计算结果作为所述后续级Transformer结构的Query,并将所述表征支路中前一级Transformer结构的计算结果作为所述后续级Transformer结构的Key和Value,采用所述后续级Transformer结构进行计算;将所述运动支路中最后一个所述后续级Transformer结构的计算结果作为所述补充了表征特征的运动特征。
3.根据权利要求1或2所述的方法,其特征在于,还包括:
对所述第一级Transformer结构/后续级Transformer结构的计算结果进行层归一化处理;
对层归一化处理之后的结果进行语义特征转换;
将语义特征转换之后的结果通过残差结构与所述层归一化处理之后的结果相加,所述残差结构中包含Dropout层;
对通过残差结构相加之后的结果进行层归一化处理,采用处理结果更新所述第一级Transformer结构/后续级Transformer结构的计算结果。
4.根据权利要求1或2所述的方法,其特征在于,还包括:
将视频数据均匀划分为多段视频帧;
分别从每段所述视频帧中抽取一个视频帧;
将所述抽取的视频帧组成所述视频帧序列。
5.根据权利要求4所述的方法,其特征在于,所述分别获取视频帧序列的表征特征和运动特征,包括:
分别获取所述视频帧序列的表征信息数据和运动信息数据;
对所述表征信息数据和所述运动信息数据进行编码及空间维度压缩,得到所述视频帧序列的表征特征和运动特征。
6.根据权利要求5所述的方法,其特征在于,获取所述视频帧序列的表征信息数据,包括:
对所述视频帧序列中的各帧进行数据预处理,得到所述视频帧序列的表征信息数据。
7.根据权利要求5所述的方法,其特征在于,获取所述视频帧序列的运动信息数据,包括:
将所述视频帧序列中的相邻帧/相邻帧的边缘信息相减,得到所述视频帧序列的运动信息数据;所述相邻帧的边缘信息采用高频算子进行提取。
8.根据权利要求1或2所述的方法,其特征在于,所述根据所述融合的结果对所述视频帧序列的类别进行预测,包括:
将所述融合的结果进行特征维度的转换及时间维度的池化操作,得到单视频级别的类别预测结果。
9.根据权利要求1或2所述的方法,其特征在于,所述视频帧序列的类别包括:所述视频帧序列中包含的动作的类别。
10.一种视频分类装置,其特征在于,包括:
第二获取模块,用于分别获取视频帧序列的表征特征和运动特征;
第二特征补充模块,用于将所述表征特征作为解码网络的表征支路的第一级Transformer结构的Query,并将所述运动特征分别作为所述表征支路的第一级Transformer结构的Key和Value,采用所述表征支路的第一级Transformer结构进行计算,得到补充了运动特征的表征特征;还用于将所述运动特征作为所述解码网络的运动支路的第一级Transformer结构的Query,并将所述表征特征分别作为所述运动支路的第一级Transformer结构的Key和Value,采用所述运动支路的第一级Transformer结构进行计算,得到补充了表征特征的运动特征;
融合模块,用于将所述补充了运动特征的表征特征与补充了表征特征的运动特征进行融合;
第二预测模块,用于根据所述融合的结果对所述视频帧序列的类别进行预测。
11.根据权利要求10所述的装置,其特征在于,所述表征支路及所述运动支路分别还包括至少一个后续级Transformer结构,所述表征支路及所述运动支路的第一级Transformer结构与各个所述后续级Transformer结构依次连接;
所述第二特征补充模块,还用于针对所述表征支路的任意一个所述后续级Transformer结构,将所述表征支路中前一级Transformer结构的计算结果作为所述后续级Transformer结构的Query,并将所述运动支路中前一级Transformer结构的计算结果作为所述后续级Transformer结构的Key和Value,采用所述后续级Transformer结构进行计算;将所述表征支路中最后一个所述后续级Transformer结构的计算结果作为所述补充了运动特征的表征特征;
还用于针对所述运动支路的任意一个所述后续级Transformer结构,将所述运动支路中前一级Transformer结构的计算结果作为所述后续级Transformer结构的Query,并将所述表征支路中前一级Transformer结构的计算结果作为所述后续级Transformer结构的Key和Value,采用所述后续级Transformer结构进行计算;将所述运动支路中最后一个所述后续级Transformer结构的计算结果作为所述补充了表征特征的运动特征。
12.根据权利要求10或11所述的装置,其特征在于,所述第二特征补充模块还用于:
对所述第一级Transformer结构/后续级Transformer结构的计算结果进行层归一化处理;
对层归一化处理之后的结果进行语义特征转换;
将语义特征转换之后的结果通过残差结构与所述层归一化处理之后的结果相加,所述残差结构中包含Dropout层;
对通过残差结构相加之后的结果进行层归一化处理,采用处理结果更新所述第一级Transformer结构/后续级Transformer结构的计算结果。
13.根据权利要求10或11所述的装置,其特征在于,还包括:
第二视频帧序列生成模块,语音将视频数据均匀划分为多段视频帧,分别从每段所述视频帧中抽取一个视频帧,将所述抽取的视频帧组成所述视频帧序列。
14.根据权利要求13所述的装置,其特征在于,所述第二获取模块包括:
第二数据获取子模块,用于分别获取所述视频帧序列的表征信息数据和运动信息数据;
第二压缩子模块,用于对所述表征信息数据和所述运动信息数据进行编码及空间维度压缩,得到所述视频帧序列的表征特征和运动特征。
15.根据权利要求14所述的装置,其特征在于,所述第二数据获取子模块用于,对所述视频帧序列中的各帧进行数据预处理,得到所述视频帧序列的表征信息数据。
16.根据权利要求14所述的装置,其特征在于,第二数据获取子模块用于,将所述视频帧序列中的相邻帧/相邻帧的边缘信息相减,得到所述视频帧序列的运动信息数据;所述相邻帧的边缘信息采用高频算子进行提取。
17.根据权利要求10或11所述的装置,其特征在于,所述第二预测模块用于,将所述融合的结果进行特征维度的转换及时间维度的池化操作,得到单视频级别的类别预测结果。
18.根据权利要求10或11所述的装置,其特征在于,所述视频帧序列的类别包括:所述视频帧序列中包含的动作的类别。
19.一种介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-9中任一所述的方法。
20.一种计算设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。
CN202010130234.3A 2020-02-28 2020-02-28 视频分类方法、介质、装置和计算设备 Active CN111339364B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010130234.3A CN111339364B (zh) 2020-02-28 2020-02-28 视频分类方法、介质、装置和计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010130234.3A CN111339364B (zh) 2020-02-28 2020-02-28 视频分类方法、介质、装置和计算设备

Publications (2)

Publication Number Publication Date
CN111339364A CN111339364A (zh) 2020-06-26
CN111339364B true CN111339364B (zh) 2023-09-29

Family

ID=71185838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010130234.3A Active CN111339364B (zh) 2020-02-28 2020-02-28 视频分类方法、介质、装置和计算设备

Country Status (1)

Country Link
CN (1) CN111339364B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065586B (zh) * 2021-03-23 2022-10-18 四川翼飞视科技有限公司 一种非局域的图像分类装置、方法和存储介质
CN113627349B (zh) * 2021-08-12 2023-12-05 南京信息工程大学 一种基于自注意力变换网络的动态人脸表情识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107615272A (zh) * 2015-05-18 2018-01-19 北京市商汤科技开发有限公司 用于预测人群属性的系统和方法
CN108039044A (zh) * 2017-12-05 2018-05-15 安徽大学 基于多尺度卷积神经网络的车辆智能排队的系统及方法
CN109191498A (zh) * 2018-09-05 2019-01-11 中国科学院自动化研究所 基于动态记忆和运动感知的目标检测方法及系统
CN109919087A (zh) * 2019-03-06 2019-06-21 腾讯科技(深圳)有限公司 一种视频分类的方法、模型训练的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107615272A (zh) * 2015-05-18 2018-01-19 北京市商汤科技开发有限公司 用于预测人群属性的系统和方法
CN108039044A (zh) * 2017-12-05 2018-05-15 安徽大学 基于多尺度卷积神经网络的车辆智能排队的系统及方法
CN109191498A (zh) * 2018-09-05 2019-01-11 中国科学院自动化研究所 基于动态记忆和运动感知的目标检测方法及系统
CN109919087A (zh) * 2019-03-06 2019-06-21 腾讯科技(深圳)有限公司 一种视频分类的方法、模型训练的方法及装置

Also Published As

Publication number Publication date
CN111339364A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
CN110347873B (zh) 视频分类方法、装置、电子设备及存储介质
CN108882020B (zh) 一种视频信息处理方法、装置及系统
CN110475129B (zh) 视频处理方法、介质及服务器
CN109522950B (zh) 图像评分模型训练方法及装置和图像评分方法及装置
CN111339364B (zh) 视频分类方法、介质、装置和计算设备
CN110046279B (zh) 视频文件特征的预测方法、介质、装置和计算设备
CN112132834B (zh) 一种心室图像分割方法、系统、装置及存储介质
CN113327599B (zh) 语音识别方法、装置、介质及电子设备
CN112801103B (zh) 文本方向识别及文本方向识别模型训练方法、装置
CN109784243B (zh) 身份确定方法及装置、神经网络训练方法及装置、介质
CN116050496A (zh) 图片描述信息生成模型的确定方法及装置、介质、设备
CN114973049A (zh) 一种统一卷积与自注意力的轻量视频分类方法
CN115359314A (zh) 模型训练方法、图像编辑方法、装置、介质与电子设备
CN113780326A (zh) 一种图像处理方法、装置、存储介质及电子设备
Chen et al. Hetmaml: Task-heterogeneous model-agnostic meta-learning for few-shot learning across modalities
Yi et al. Elanet: effective lightweight attention-guided network for real-time semantic segmentation
CN110175128A (zh) 一种相似代码案例获取方法、装置、设备和存储介质
CN113761845A (zh) 一种文本生成方法、装置、存储介质及电子设备
WO2023160290A1 (zh) 神经网络推理加速方法、目标检测方法、设备及存储介质
CN113409803A (zh) 语音信号处理方法、装置、存储介质及设备
CN112364933A (zh) 图像分类方法、装置、电子设备和存储介质
Weng et al. Hcms: Hierarchical and conditional modality selection for efficient video recognition
CN114185657A (zh) 一种云平台的任务调度方法、装置、存储介质及电子设备
US20200372368A1 (en) Apparatus and method for semi-supervised learning
US20230252360A1 (en) Efficient optimization of machine learning models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant