CN109740670B - 视频分类的方法及装置 - Google Patents

视频分类的方法及装置 Download PDF

Info

Publication number
CN109740670B
CN109740670B CN201910002746.9A CN201910002746A CN109740670B CN 109740670 B CN109740670 B CN 109740670B CN 201910002746 A CN201910002746 A CN 201910002746A CN 109740670 B CN109740670 B CN 109740670B
Authority
CN
China
Prior art keywords
neural network
network model
video
convolutional neural
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910002746.9A
Other languages
English (en)
Other versions
CN109740670A (zh
Inventor
贾红红
赵骥伯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BOE Technology Group Co Ltd
Original Assignee
BOE Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BOE Technology Group Co Ltd filed Critical BOE Technology Group Co Ltd
Priority to CN201910002746.9A priority Critical patent/CN109740670B/zh
Publication of CN109740670A publication Critical patent/CN109740670A/zh
Priority to US16/542,209 priority patent/US11055535B2/en
Application granted granted Critical
Publication of CN109740670B publication Critical patent/CN109740670B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

本发明公开了一种视频分类的方法及装置,涉及视频分类技术领域,提高了对视频文件进行分类的准确率,本发明的主要技术方案为:从待分类视频中提取所述待分类视频对应的原始图像和光流图像;将所述原始图像输入至空域卷积神经网络模型,以获得所述待分类视频对应的空域分类结果;将所述光流图像输入至时域卷积神经网络模型,以获得所述待分类视频对应的时域分类结果,其中,所述时域卷积神经网络模型与所述空域卷积神经网络模型为网络架构不同的卷积神经网络模型;对所述空域分类结果和所述时域分类结果进行融合处理,以获得所述待分类视频对应的分类结果。本发明应用于对视频文件进行分类的过程中。

Description

视频分类的方法及装置
技术领域
本发明涉及视频分类技术领域,尤其涉及一种视频分类的方法及装置。
背景技术
随着互联网技术的不断发展,互联网中出现了各式各样的视频文件,如电影视频文件、电视连续剧视频文件等等,从而使得如何对海量的视频文件进行分析管理,成为了目前亟需解决的重要问题,而在对视频文件进行分析管理的过程中,如何准确的对视频文件进行分类至关重要。在视频分类技术中,由空域卷积神经网络模型和时域卷积神经网络模型构成的双流卷积神经网络模型是具有代表性的一种网络模型,在将视频文件对应的原始图像和光流图像分别输入至空域卷积神经网络模型和时域卷积神经网络模型后,双流卷积神经网络模型便能有效的对该视频文件中的物体进行动作识别,从而能够准确的输出该视频文件对应的类别。
目前,为了便于双流卷积神经网络模型的构建,通常会使用具有相同网络架构的空域卷积神经网络模型和时域卷积神经网络模型构成双流卷积神经网络模型。然而,由于,原始图像和光流图像各自具有不同的特性,因此,使用具有相同网络架构的空域卷积神经网络模型和时域卷积神经网络模型对视频文件对应的原始图像和光流图像进行动作识别,会在一定程度上影响对视频文件中的物体进行动作识别的准确率,从而会降低对视频文件进行分类的准确率。
发明内容
有鉴于此,本发明提供一种视频分类的方法及装置,主要目的在于提高对视频文件进行分类的准确率。
为了解决上述问题,本发明主要提供如下技术方案:
一方面,本发明提供了一种视频分类的方法,该方法包括:
从待分类视频中提取所述待分类视频对应的原始图像和光流图像;
将所述原始图像输入至空域卷积神经网络模型,以获得所述待分类视频对应的空域分类结果;
将所述光流图像输入至时域卷积神经网络模型,以获得所述待分类视频对应的时域分类结果,其中,所述时域卷积神经网络模型与所述空域卷积神经网络模型为网络架构不同的卷积神经网络模型;
对所述空域分类结果和所述时域分类结果进行融合处理,以获得所述待分类视频对应的分类结果。
可选的,在所述从待分类视频中提取所述待分类视频对应的原始图像和光流图像之前,所述方法还包括:
在动作识别数据集和/或手势识别数据集中获取多个训练视频及每个所述训练视频对应的分类标签;
根据多个所述训练视频及每个所述训练视频对应的分类标签对第一卷积神经网络模型进行训练,以获得所述空域卷积神经网络模型;
根据多个所述训练视频及每个所述训练视频对应的分类标签对第二卷积神经网络模型进行训练,以获得所述时域卷积神经网络模型,其中,所述第二卷积神经网络模型与所述第一卷积神经网络模型为网络架构不同的卷积神经网络模型。
可选的,所述根据多个所述训练视频及每个所述训练视频对应的分类标签对第一卷积神经网络模型进行训练,以获得所述空域卷积神经网络模型,包括:
从多个所述训练视频中提取每个所述训练视频对应的原始图像;
将多个所述训练视频对应的原始图像设置为所述第一卷积神经网络模型的训练集,并根据每个所述训练视频对应的原始图像和分类标签之间的映射关系对所述第一卷积神经网络模型的参数进行优化调整;
当所述第一卷积神经网络模型准确输出每个所述训练视频对应的分类标签时,将所述第一卷积神经网络模型确定为所述空域卷积神经网络模型。
可选的,所述根据多个所述训练视频及每个所述训练视频对应的分类标签对第二卷积神经网络模型进行训练,以获得所述时域卷积神经网络模型,包括:
从多个所述训练视频中提取每个所述训练视频对应的光流图像;
将多个所述训练视频对应的光流图像设置为所述第二卷积神经网络模型的训练集,并根据每个所述训练视频对应的光流图像和分类标签之间的映射关系对所述第二卷积神经网络模型的参数进行优化调整;
当所述第二卷积神经网络模型准确输出每个所述训练视频对应的分类标签时,将所述第二卷积神经网络模型确定为所述时域卷积神经网络模型。
可选的,所述对所述空域分类结果和所述时域分类结果进行融合处理,以获得所述待分类视频对应的分类结果,包括:
根据所述空域分类结果对应的第一权重值和所述时域分类结果对应的第二权重值,对所述空域分类结果和所述时域分类结果进行加权求和计算,以获得所述待分类视频对应的分类结果。
可选的,所述空域分类结果包含每个预设分类类别对应的空域得分,所述时域分类结果包含每个所述预设分类类别对应的时域得分;所述根据所述空域分类结果对应的第一权重值和所述时域分类结果对应的第二权重值,对所述空域分类结果和所述时域分类结果进行加权求和计算,以获得所述待分类视频对应的分类结果,包括:
根据所述第一权重值和所述第二权重值,对每个所述预设分类类别对应的空域得分和时域得分进行加权求和计算,以获得每个所述预设分类类别对应的总得分;
将多个所述总得分中的最高总得分对应的预设分类类别确定为所述待分类视频对应的分类结果。
可选的,所述第一卷积神经网络模型为ResNeXt网络模型,所述第二卷积神经网络模型为Inception-v3网络模型。
为了实现上述目的,根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时,实现上述所述的视频分类的方法。
为了实现上述目的,根据本发明的另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序运行时实现上述所述的视频分类的方法。
另一方面,本发明还提供了一种视频分类的装置,该装置包括:
提取单元,用于从待分类视频中提取所述待分类视频对应的原始图像和光流图像;
第一输入单元,用于将所述提取单元提取的所述原始图像输入至空域卷积神经网络模型,以获得所述待分类视频对应的空域分类结果;
第二输入单元,用于将所述提取单元提取的所述光流图像输入至时域卷积神经网络模型,以获得所述待分类视频对应的时域分类结果,其中,所述时域卷积神经网络模型与所述空域卷积神经网络模型为网络架构不同的卷积神经网络模型;
融合单元,用于对所述空域分类结果和所述时域分类结果进行融合处理,以获得所述待分类视频对应的分类结果。
可选的,所述装置还包括:
获取单元,用于在所述提取单元从待分类视频中提取所述待分类视频对应的原始图像和光流图像之前,在动作识别数据集和/或手势识别数据集中获取多个训练视频及每个所述训练视频对应的分类标签;
第一训练单元,用于根据所述获取单元获取的多个所述训练视频及每个所述训练视频对应的分类标签对第一卷积神经网络模型进行训练,以获得所述空域卷积神经网络模型;
第二训练单元,用于根据所述获取单元获取的多个所述训练视频及每个所述训练视频对应的分类标签对第二卷积神经网络模型进行训练,以获得所述时域卷积神经网络模型,其中,所述第二卷积神经网络模型与所述第一卷积神经网络模型为网络架构不同的卷积神经网络模型。
可选的,所述第一训练单元包括:
第一提取模块,用于从多个所述训练视频中提取每个所述训练视频对应的原始图像;
第一设置模块,用于将所述第一提取模块提取的多个所述训练视频对应的原始图像设置为所述第一卷积神经网络模型的训练集;
第一调整模块,用于根据每个所述训练视频对应的原始图像和分类标签之间的映射关系对所述第一卷积神经网络模型的参数进行优化调整;
第一确定模块,用于当所述第一卷积神经网络模型准确输出每个所述训练视频对应的分类标签时,将所述第一卷积神经网络模型确定为所述空域卷积神经网络模型。
可选的,所述第二训练单元包括:
第二提取模块,用于从多个所述训练视频中提取每个所述训练视频对应的光流图像;
第二设置模块,用于将所述第二提取模块提取的多个所述训练视频对应的光流图像设置为所述第二卷积神经网络模型的训练集;
第二调整模块,用于根据每个所述训练视频对应的光流图像和分类标签之间的映射关系对所述第二卷积神经网络模型的参数进行优化调整;
第二确定模块,用于当所述第二卷积神经网络模型准确输出每个所述训练视频对应的分类标签时,将所述第二卷积神经网络模型确定为所述时域卷积神经网络模型。
可选的,所述融合单元包括:
计算模块,用于根据所述空域分类结果对应的第一权重值和所述时域分类结果对应的第二权重值,对所述空域分类结果和所述时域分类结果进行加权求和计算,以获得所述待分类视频对应的分类结果。
可选的,所述空域分类结果包含每个预设分类类别对应的空域得分,所述时域分类结果包含每个所述预设分类类别对应的时域得分;所述计算模块包括:
计算子模块,用于根据所述第一权重值和所述第二权重值,对每个所述预设分类类别对应的空域得分和时域得分进行加权求和计算,以获得每个所述预设分类类别对应的总得分;
确定子模块,用于将所述计算子模块计算的多个所述总得分中的最高总得分对应的预设分类类别确定为所述待分类视频对应的分类结果。
可选的,所述第一卷积神经网络模型为ResNeXt网络模型,所述第二卷积神经网络模型为Inception-v3网络模型。
借由上述技术方案,本发明提供的技术方案至少具有下列优点:
本发明提供的一种视频分类的方法及装置,与现有技术中,使用具有相同网络架构的空域卷积神经网络模型和时域卷积神经网络模型对视频文件对应的原始图像和光流图像进行动作识别相比,本发明能够在从待分类视频中提取待分类视频对应的原始图像和光流图像后,将待分类视频对应的原始图像输入至根据原始图像具有的特性选择的、经过预先训练的空域卷积神经网络模型中,从而获得待分类视频对应的空域分类结果,以及将待分类视频对应的光流图像输入至根据光流图像具有的特性选择的、经过预先训练的时域卷积神经网络模型中,从而获得待分类视频对应的时域分类结果,最终对待分类视频对应的空域分类结果和时域分类结果进行融合处理,从而获得待分类视频对应的分类结果。由于,是根据原始图像和光流图像各自具有的特性,使用具有不同网络架构的空域卷积神经网络模型和时域卷积神经网络模型对待分类视频对应的原始图像和光流图像进行动作识别,因此,能够提高对待分类视频中的物体进行动作识别的准确率,从而能够提高对待分类视频进行分类的准确率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例提供的一种视频分类的方法流程图;
图2为本发明实施例提供的另一种视频分类的方法流程图;
图3为本发明实施例提供的一种视频分类的装置的组成框图;
图4为本发明实施例提供的另一种视频分类的装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
本发明实施例提供一种视频分类的方法,如图1所示,所述方法包括:
101、从待分类视频中提取待分类视频对应的原始图像和光流图像。
其中,待分类视频对应的原始图像可以但不限于为:RGB图像。
在本发明实施例中,由于,一个视频文件由空间元素和时间元素组成,其中,空间元素是指视频文件中的单帧图像(即原始图像),其包含了视频文件中描述的场景和物体的信息;时间元素是指视频文件中的相邻帧之间的运动图像(即光流图像),其包含了视频文件拍摄者和视频文件中的物体的运动信息,因此,为了便于在后续步骤中基于空域卷积神经网络模型和时域卷积神经网络模型对待分类视频进行分类,首先需要从待分类视频中提取待分类视频对应的原始图像和光流图像。
需要进行说明的是,在实际应用过程中,在从待分类视频中提取待分类视频对应的原始图像和光流图像时,可以从待分类视频中提取待分类视频中的每一帧单帧图像,并将提取的每一帧单帧图像作为待分类视频对应的原始图像,以及根据每一帧单帧图像获得待分类视频对应的光流图像;也可以从待分类视频中提取待分类视频中的部分帧单帧图像,并将提取的部分帧单帧图像作为待分类视频对应的原始图像,以及根据部分帧单帧图像获得待分类视频对应的光流图像,本发明实施例对此不进行具体限定。
102、将原始图像输入至空域卷积神经网络模型,以获得待分类视频对应的空域分类结果。
其中,空域卷积神经网络模型为根据原始图像具有的特性选择的、经过预先训练的卷积神经网络模型。
需要进行说明的是,由于,原始图像的纹理和色彩比较丰富,而光流图像的纹理和色彩比较单一,并且,当使用具有相同网络架构的空域卷积神经网络模型和时域卷积神经网络模型对视频文件对应的原始图像和光流图像进行动作识别时,在分别获得空域卷积神经网络模型中每层卷积层对原始图像进行动作识别的识别准确率以及时域卷积神经网络模型中每层卷积层对光流图像进行动作识别的识别准确率后,可以发现时域卷积神经网络模型在相对较浅的卷积层处对光流图像进行动作识别便能获得比较高的识别准确率,而空域卷积神经网络模型则需要在相对较深的卷积层处对原始图像进行动作识别才能获得比较高的识别准确率,此外,还可以发现在相同层数的卷积层处,时域卷积神经网络模型对光流图像进行动作识别的识别准确率要高于空域卷积神经网络模型对原始图像进行动作识别的识别准确率,因此,原始图像和光流图像各自具有不同的特性,且光流图像相较于原始图像更容易提取特征和进行动作识别,从而使用具有相同网络架构的空域卷积神经网络模型和时域卷积神经网络模型对视频文件对应的原始图像和光流图像进行动作识别,会在一定程度上影响对视频文件中的物体进行动作识别的准确率,进而需要根据原始图像和光流图像各自具有的特性,使用具有不同网络架构的空域卷积神经网络模型和时域卷积神经网络模型对待分类视频对应的原始图像和光流图像进行动作识别。
在本发明实施例中,在从待分类视频中提取得到待分类视频对应的原始图像后,需要将待分类视频对应的原始图像输入至根据原始图像具有的特性选择的、经过预先训练的空域卷积神经网络模型中,从而获得待分类视频对应的空域分类结果,即将待分类视频对应的原始图像输入至空域卷积神经网络模型中后,使用空域卷积神经网络模型对待分类视频对应的原始图像进行动作识别,空域卷积神经网络模型在识别完成后,便会输出待分类视频对应的空域分类结果。
103、将光流图像输入至时域卷积神经网络模型,以获得待分类视频对应的时域分类结果。
其中,时域卷积神经网络模型为根据光流图像具有的特性选择的、经过预先训练的卷积神经网络模型;由于,空域卷积神经网络模型是根据原始图像具有的特性选择的,而时域卷积神经网络模型是根据光流图像具有的特性选择的,并且,原始图像和光流图像各自具有不同的特性,因此,时域卷积神经网络模型与空域卷积神经网络模型为网络架构不同的卷积神经网络模型。
在本发明实施例中,在从待分类视频中提取得到待分类视频对应的光流图像后,需要将待分类视频对应的光流图像输入至根据光流图像具有的特性选择的、经过预先训练的时域卷积神经网络模型中,从而获得待分类视频对应的时域分类结果,即将待分类视频对应的光流图像输入至时域卷积神经网络模型中后,使用时域卷积神经网络模型对待分类视频对应的光流图像进行动作识别,时域卷积神经网络模型在识别完成后,便会输出待分类视频对应的时域分类结果。
104、对空域分类结果和时域分类结果进行融合处理,以获得待分类视频对应的分类结果。
在本发明实施例中,在分别获取得到待分类视频对应的空域分类结果和时域分类结果后,对待分类视频对应的空域分类结果和时域分类结果进行融合处理,从而获得待分类视频对应的分类结果。
本发明实施例提供的一种视频分类的方法,与现有技术中,使用具有相同网络架构的空域卷积神经网络模型和时域卷积神经网络模型对视频文件对应的原始图像和光流图像进行动作识别相比,本发明实施例能够在从待分类视频中提取待分类视频对应的原始图像和光流图像后,将待分类视频对应的原始图像输入至根据原始图像具有的特性选择的、经过预先训练的空域卷积神经网络模型中,从而获得待分类视频对应的空域分类结果,以及将待分类视频对应的光流图像输入至根据光流图像具有的特性选择的、经过预先训练的时域卷积神经网络模型中,从而获得待分类视频对应的时域分类结果,最终对待分类视频对应的空域分类结果和时域分类结果进行融合处理,从而获得待分类视频对应的分类结果。由于,是根据原始图像和光流图像各自具有的特性,使用具有不同网络架构的空域卷积神经网络模型和时域卷积神经网络模型对待分类视频对应的原始图像和光流图像进行动作识别,因此,能够提高对待分类视频中的物体进行动作识别的准确率,从而能够提高对待分类视频进行分类的准确率。
以下为了更加详细地说明,本发明实施例提供了另一种视频分类的方法,特别是获得具有不同网络架构的空域卷积神经网络模型和时域卷积神经网络模型的具体方法以及对空域分类结果和时域分类结果进行融合处理,以获得待分类视频对应的分类结果的具体方法,具体如图2所示,该方法包括:
201、获得具有不同网络架构的空域卷积神经网络模型和时域卷积神经网络模型。
在本发明实施例中,为了在从待分类视频中提取得到待分类视频对应的原始图像和光流图像后,能够根据原始图像和光流图像各自具有的特性,使用具有不同网络架构的空域卷积神经网络模型和时域卷积神经网络模型对待分类视频对应的原始图像和光流图像进行动作识别,需要预先根据原始图像具有的特性选择合适的卷积神经网络模型,并对该卷积神经网络模型进行训练,从而获得适用于对原始图像进行动作识别的空域卷积神经网络模型,以及预先根据光流图像具有的特性选择合适的卷积神经网络模型,并对该卷积神经网络模型进行训练,从而获得适用于对光流图像进行动作识别的时域卷积神经网络模型。以下将对如何获得具有不同网络架构的空域卷积神经网络模型和时域卷积神经网络模型进行详细说明。
(1)在动作识别数据集和/或手势识别数据集中获取多个训练视频及每个训练视频对应的分类标签。
其中,动作识别数据集可以但不限于为UCF101数据集、HMDB51数据集等等,手势识别数据集可以但不限于为20BN-JESTER数据集等等。
在本发明实施例中,为了对根据原始图像具有的特性选择的卷积神经网络模型及根据光流图像具有的特性选择的卷积神经网络模型进行训练,首先需要在动作识别数据集和/或手势识别数据集中获取多个训练视频及每个训练视频对应的分类标签。
(2)根据多个训练视频及每个训练视频对应的分类标签对第一卷积神经网络模型进行训练,以获得空域卷积神经网络模型。
其中,第一卷积神经网络模型为根据原始图像具有的特性选择的卷积神经网络模型;其中,第一卷积神经网络模型具体为ResNeXt网络模型。
在本发明实施例中,在从动作识别数据集和/或手势识别数据集中获取得到多个训练视频及每个训练视频对应的分类标签后,便可根据多个训练视频及每个训练视频对应的分类标签对第一卷积神经网络模型进行训练,从而获得适用于对原始图像进行动作识别的空域卷积神经网络模型。具体的,在本步骤中,在根据多个训练视频及每个训练视频对应的分类标签对第一卷积神经网络模型进行训练时,可以先从多个训练视频中提取每个训练视频对应的原始图像;然后,将多个训练视频对应的原始图像设置为第一卷积神经网络模型的训练集对第一卷积神经网络模型进行训练,由于,已知每个训练视频对应的原始图像和分类标签之间的映射关系,即已知将某个训练视频对应的原始图像输入至第一卷积神经网络模型中后,第一卷积神经网络模型会将哪个分类标签输出,因此,将多个训练视频对应的原始图像作为训练集对第一卷积神经网络模型进行训练的过程,便是根据每个训练视频对应的原始图像和分类标签之间的映射关系对第一卷积神经网络模型的参数进行优化调整的过程;在不断的对第一卷积神经网络模型的参数进行优化调整后,当将多个训练视频对应的原始图像输入至第一卷积神经网络模型,第一卷积神经网络模型能够准确的输出每个训练视频对应的分类标签时,便可确定第一卷积神经网络模型的参数调整完毕,此时,便可将训练完成的第一卷积神经网络模型确定为空域卷积神经网络模型。
需要进行说明的是,由于,第一卷积神经网络模型为根据原始图像具有的特性选择的卷积神经网络模型,因此,通过训练第一卷积神经网络模型,而获得的空域卷积神经网络模型便为根据原始图像具有的特性选择的、经过训练的卷积神经网络模型,从而空域卷积神经网络模型适用于对原始图像进行动作识别;此外,由于,是从不同的动作识别数据集和/或手势识别数据集中获取大量的训练视频,并将大量的训练视频对应的原始图像作为训练集对第一卷积神经网络模型进行训练,因此,训练获得的空域卷积神经网络模型具有良好的泛化能力。
(3)根据多个训练视频及每个训练视频对应的分类标签对第二卷积神经网络模型进行训练,以获得时域卷积神经网络模型。
其中,第二卷积神经网络模型为根据光流图像具有的特性选择的卷积神经网络模型;由于,第一卷积神经网络模型是根据原始图像具有的特性选择的,而第二卷积神经网络模型是根据光流图像具有的特性选择的,并且,原始图像和光流图像各自具有不同的特性,因此,第二卷积神经网络模型与第一卷积神经网络模型为网络架构不同的卷积神经网络模型;其中,第二卷积神经网络模型具体为Inception-v3网络模型。
在本发明实施例中,在从动作识别数据集和/或手势识别数据集中获取得到多个训练视频及每个训练视频对应的分类标签后,便可根据多个训练视频及每个训练视频对应的分类标签对第二卷积神经网络模型进行训练,从而获得适用于对光流图像进行动作识别的时域卷积神经网络模型。具体的,在本步骤中,在根据多个训练视频及每个训练视频对应的分类标签对第二卷积神经网络模型进行训练时,可以先从多个训练视频中提取每个训练视频对应的光流图像;然后,将多个训练视频对应的光流图像设置为第二卷积神经网络模型的训练集对第二卷积神经网络模型进行训练,由于,已知每个训练视频对应的光流图像和分类标签之间的映射关系,即已知将某个训练视频对应的光流图像输入至第二卷积神经网络模型中后,第二卷积神经网络模型会将哪个分类标签输出,因此,将多个训练视频对应的光流图像作为训练集对第二卷积神经网络模型进行训练的过程,便是根据每个训练视频对应的光流图像和分类标签之间的映射关系对第二卷积神经网络模型的参数进行优化调整的过程;在不断的对第二卷积神经网络模型的参数进行优化调整后,当将多个训练视频对应的光流图像输入至第二卷积神经网络模型,第二卷积神经网络模型能够准确的输出每个训练视频对应的分类标签时,便可确定第二卷积神经网络模型的参数调整完毕,此时,便可将训练完成的第二卷积神经网络模型确定为时域卷积神经网络模型。
需要进行说明的是,由于,第二卷积神经网络模型为根据光流图像具有的特性选择的卷积神经网络模型,因此,通过训练第二卷积神经网络模型,而获得的时域卷积神经网络模型便为根据光流图像具有的特性选择的、经过训练的卷积神经网络模型,从而时域卷积神经网络模型适用于对光流图像进行动作识别;此外,由于,是从不同的动作识别数据集和/或手势识别数据集中获取大量的训练视频,并将大量的训练视频对应的光流图像作为训练集对第二卷积神经网络模型进行训练,因此,训练获得的时域卷积神经网络模型具有良好的泛化能力。
202、从待分类视频中提取待分类视频对应的原始图像和光流图像。
其中,关于步骤202、从待分类视频中提取待分类视频对应的原始图像和光流图像,可以参考图1对应部分的描述,本发明实施例此处将不再赘述。
203、将原始图像输入至空域卷积神经网络模型,以获得待分类视频对应的空域分类结果。
其中,关于步骤203、将原始图像输入至空域卷积神经网络模型,以获得待分类视频对应的空域分类结果,可以参考图1对应部分的描述,本发明实施例此处将不再赘述。
204、将光流图像输入至时域卷积神经网络模型,以获得待分类视频对应的时域分类结果。
其中,关于步骤204、将光流图像输入至时域卷积神经网络模型,以获得待分类视频对应的时域分类结果,可以参考图1对应部分的描述,本发明实施例此处将不再赘述。
205、根据空域分类结果对应的第一权重值和时域分类结果对应的第二权重值,对空域分类结果和时域分类结果进行加权求和计算,以获得待分类视频对应的分类结果。
在本发明实施例中,在分别获取得到待分类视频对应的空域分类结果和时域分类结果后,便可根据空域分类结果对应的第一权重值和时域分类结果对应的第二权重值,对空域分类结果和时域分类结果进行加权求和计算,从而实现对待分类视频对应的空域分类结果和时域分类结果进行融合处理,进而可以获得待分类视频对应的分类结果。以下将对如何根据空域分类结果对应的第一权重值和时域分类结果对应的第二权重值,对空域分类结果和时域分类结果进行加权求和计算,以获得待分类视频对应的分类结果进行详细说明。
(1)根据第一权重值和第二权重值,对每个预设分类类别对应的空域得分和时域得分进行加权求和计算,以获得每个预设分类类别对应的总得分。
其中,空域分类结果对应的第一权重值与时域分类结果对应的第二权重值之间的比值可以但不限于为:1.5:1,2:1等等;其中,空域分类结果中包含每个预设分类类别对应的空域得分,时域分类结果包含每个预设分类类别对应的时域得分。
在本发明实施例中,在分别获取得到待分类视频对应的空域分类结果和时域分类结果后,便可根据空域分类结果对应的第一权重值和时域分类结果对应的第二权重值,对每个预设分类类别对应的空域得分和时域得分进行加权求和计算(即将每个预设分类类别对应的空域得分乘以第一权重值和时域得分乘以第二权重值后,对两者进行求和计算),从而获得每个预设分类类别对应的总得分。
(2)将多个总得分中的最高总得分对应的预设分类类别确定为待分类视频对应的分类结果。
在本发明实施例中,在获得每个预设分类类别对应的总得分后,便可将多个总得分中的最高总得分对应的预设分类类别确定为待分类视频对应的分类结果。
对于本发明实施例,具体应用场景可以如下所示,但不限于此包括:
在从待分类视频A中提取得到待分类视频A对应的原始图像和光流图像后,将待分类视频A对应的原始图像输入至根据原始图像具有的特性选择的、经过预先训练的空域卷积神经网络模型,从而获得待分类视频A对应的空域分类结果:预设分类类别a:0.2,预设分类类别b:0.5,预设分类类别c:0.1,预设分类类别d:0.1,预设分类类别e:0.1,将待分类视频A对应的光流图像输入至根据光流图像具有的特性选择的、经过预先训练的时域卷积神经网络模型,从而获得待分类视频A对应的时域分类结果:预设分类类别a:0.1,预设分类类别b:0.3,预设分类类别c:0.2,预设分类类别d:0.1,预设分类类别e:0.3。由于,空域分类结果对应的第一权重值与时域分类结果对应的第二权重值之间的比值为:1.5:1,因此,根据第一权重值和第二权重值,对每个预设分类类别对应的空域得分和时域得分进行加权求和计算后,获得每个预设分类类别对应的总得分:预设分类类别a:0.2*1.5+0.1*1=0.4,预设分类类别b:0.5*1.5+0.3*1=1.05,预设分类类别c:0.1*1.5+0.2*1=0.35,预设分类类别d:0.1*1.5+0.1*1=0.25,预设分类类别e:0.1*1.5+1*0.3=0.45。由于,预设分类类别b对应的总得分最高,因此,可以将预设分类类别b确定为待分类视频对应的分类结果。
需要进行说明的是,前述举例中提及的预设分类类别的数量以及每个预设分类类别对应的空域得分和时域得分仅为便于表达,在实际应用过程中,预设分类类别的数量可以为任意数值以及每个预设分类类别对应的空域得分和时域得分可以为任意数值,本发明实施例对此不进行具体限定。
为了实现上述目的,根据本发明的另一方面,本发明实施例还提供了一种电子设备,所述电子设备包括:存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时,实现上述所述的视频分类的方法。
为了实现上述目的,根据本发明的另一方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序运行时实现上述所述的视频分类的方法。
进一步的,作为对上述图1、图2所示方法的实现,本发明实施例提供了一种视频分类的装置。该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置应用于提高对视频文件进行分类的准确率,具体如图3所示,该装置包括:
提取单元31,用于从待分类视频中提取所述待分类视频对应的原始图像和光流图像;
第一输入单元32,用于将提取单元31提取的所述原始图像输入至空域卷积神经网络模型,以获得所述待分类视频对应的空域分类结果;
第二输入单元33,用于将提取单元31提取的所述光流图像输入至时域卷积神经网络模型,以获得所述待分类视频对应的时域分类结果,其中,所述时域卷积神经网络模型与所述空域卷积神经网络模型为网络架构不同的卷积神经网络模型;
融合单元34,用于对所述空域分类结果和所述时域分类结果进行融合处理,以获得所述待分类视频对应的分类结果。
进一步的,如图4所示,该装置还包括:
获取单元35,用于在提取单元31从待分类视频中提取所述待分类视频对应的原始图像和光流图像之前,在动作识别数据集和/或手势识别数据集中获取多个训练视频及每个所述训练视频对应的分类标签;
第一训练单元36,用于根据获取单元35获取的多个所述训练视频及每个所述训练视频对应的分类标签对第一卷积神经网络模型进行训练,以获得所述空域卷积神经网络模型;
第二训练单元37,用于根据获取单元35获取的多个所述训练视频及每个所述训练视频对应的分类标签对第二卷积神经网络模型进行训练,以获得所述时域卷积神经网络模型,其中,所述第二卷积神经网络模型与所述第一卷积神经网络模型为网络架构不同的卷积神经网络模型。
进一步的,如图4所示,第一训练单元36包括:
第一提取模块361,用于从多个所述训练视频中提取每个所述训练视频对应的原始图像;
第一设置模块362,用于将第一提取模块361提取的多个所述训练视频对应的原始图像设置为所述第一卷积神经网络模型的训练集;
第一调整模块363,用于根据每个所述训练视频对应的原始图像和分类标签之间的映射关系对所述第一卷积神经网络模型的参数进行优化调整;
第一确定模块364,用于当所述第一卷积神经网络模型准确输出每个所述训练视频对应的分类标签时,将所述第一卷积神经网络模型确定为所述空域卷积神经网络模型。
进一步的,如图4所示,第二训练单元37包括:
第二提取模块371,用于从多个所述训练视频中提取每个所述训练视频对应的光流图像;
第二设置模块372,用于将第二提取模块371提取的多个所述训练视频对应的光流图像设置为所述第二卷积神经网络模型的训练集;
第二调整模块373,用于根据每个所述训练视频对应的光流图像和分类标签之间的映射关系对所述第二卷积神经网络模型的参数进行优化调整;
第二确定模块374,用于当所述第二卷积神经网络模型准确输出每个所述训练视频对应的分类标签时,将所述第二卷积神经网络模型确定为所述时域卷积神经网络模型。
进一步的,如图4所示,融合单元34包括:
计算模块341,用于根据所述空域分类结果对应的第一权重值和所述时域分类结果对应的第二权重值,对所述空域分类结果和所述时域分类结果进行加权求和计算,以获得所述待分类视频对应的分类结果。
进一步的,如图4所示,所述空域分类结果包含每个预设分类类别对应的空域得分,所述时域分类结果包含每个所述预设分类类别对应的时域得分;计算模块341包括:
计算子模块3411,用于根据所述第一权重值和所述第二权重值,对每个所述预设分类类别对应的空域得分和时域得分进行加权求和计算,以获得每个所述预设分类类别对应的总得分;
确定子模块3412,用于将计算子模块3411计算的多个所述总得分中的最高总得分对应的预设分类类别确定为所述待分类视频对应的分类结果。
进一步的,如图4所示,所述第一卷积神经网络模型为ResNeXt网络模型,所述第二卷积神经网络模型为Inception-v3网络模型。
综上所述,本发明实施例提供的一种视频分类的方法及装置,与现有技术中,使用具有相同网络架构的空域卷积神经网络模型和时域卷积神经网络模型对视频文件对应的原始图像和光流图像进行动作识别相比,本发明实施例能够在从待分类视频中提取待分类视频对应的原始图像和光流图像后,将待分类视频对应的原始图像输入至根据原始图像具有的特性选择的、经过预先训练的空域卷积神经网络模型中,从而获得待分类视频对应的空域分类结果,以及将待分类视频对应的光流图像输入至根据光流图像具有的特性选择的、经过预先训练的时域卷积神经网络模型中,从而获得待分类视频对应的时域分类结果,最终对待分类视频对应的空域分类结果和时域分类结果进行融合处理,从而获得待分类视频对应的分类结果。由于,是根据原始图像和光流图像各自具有的特性,使用具有不同网络架构的空域卷积神经网络模型和时域卷积神经网络模型对待分类视频对应的原始图像和光流图像进行动作识别,因此,能够提高对待分类视频中的物体进行动作识别的准确率,从而能够提高对待分类视频进行分类的准确率。此外,由于,是从不同的动作识别数据集和/或手势识别数据集中获取多个训练视频,并分别将多个训练视频对应的原始图像和光流图像作为训练集对第一卷积神经网络模型和对第二卷积神经网络模型进行训练,因此,训练获得的空域卷积神经网络模型和时域卷积神经网络模型具有良好的泛化能力。
所述视频分类的装置包括处理器和存储器,上述提取单元、第一输入单元、第二输入单元和融合单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高对视频文件进行分类的准确率。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种电子设备,所述电子设备包括:存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时,实现所述的视频分类的方法。
本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序运行时实现上述所述的视频分类的方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
从待分类视频中提取所述待分类视频对应的原始图像和光流图像;
将所述原始图像输入至空域卷积神经网络模型,以获得所述待分类视频对应的空域分类结果;
将所述光流图像输入至时域卷积神经网络模型,以获得所述待分类视频对应的时域分类结果,其中,所述时域卷积神经网络模型与所述空域卷积神经网络模型为网络架构不同的卷积神经网络模型;
对所述空域分类结果和所述时域分类结果进行融合处理,以获得所述待分类视频对应的分类结果。
进一步的,在所述从待分类视频中提取所述待分类视频对应的原始图像和光流图像之前,所述方法还包括:
在动作识别数据集和/或手势识别数据集中获取多个训练视频及每个所述训练视频对应的分类标签;
根据多个所述训练视频及每个所述训练视频对应的分类标签对第一卷积神经网络模型进行训练,以获得所述空域卷积神经网络模型;
根据多个所述训练视频及每个所述训练视频对应的分类标签对第二卷积神经网络模型进行训练,以获得所述时域卷积神经网络模型,其中,所述第二卷积神经网络模型与所述第一卷积神经网络模型为网络架构不同的卷积神经网络模型。
进一步的,所述根据多个所述训练视频及每个所述训练视频对应的分类标签对第一卷积神经网络模型进行训练,以获得所述空域卷积神经网络模型,包括:
从多个所述训练视频中提取每个所述训练视频对应的原始图像;
将多个所述训练视频对应的原始图像设置为所述第一卷积神经网络模型的训练集,并根据每个所述训练视频对应的原始图像和分类标签之间的映射关系对所述第一卷积神经网络模型的参数进行优化调整;
当所述第一卷积神经网络模型准确输出每个所述训练视频对应的分类标签时,将所述第一卷积神经网络模型确定为所述空域卷积神经网络模型。
进一步的,所述根据多个所述训练视频及每个所述训练视频对应的分类标签对第二卷积神经网络模型进行训练,以获得所述时域卷积神经网络模型,包括:
从多个所述训练视频中提取每个所述训练视频对应的光流图像;
将多个所述训练视频对应的光流图像设置为所述第二卷积神经网络模型的训练集,并根据每个所述训练视频对应的光流图像和分类标签之间的映射关系对所述第二卷积神经网络模型的参数进行优化调整;
当所述第二卷积神经网络模型准确输出每个所述训练视频对应的分类标签时,将所述第二卷积神经网络模型确定为所述时域卷积神经网络模型。
进一步的,所述对所述空域分类结果和所述时域分类结果进行融合处理,以获得所述待分类视频对应的分类结果,包括:
根据所述空域分类结果对应的第一权重值和所述时域分类结果对应的第二权重值,对所述空域分类结果和所述时域分类结果进行加权求和计算,以获得所述待分类视频对应的分类结果。
进一步的,所述空域分类结果包含每个预设分类类别对应的空域得分,所述时域分类结果包含每个所述预设分类类别对应的时域得分;所述根据所述空域分类结果对应的第一权重值和所述时域分类结果对应的第二权重值,对所述空域分类结果和所述时域分类结果进行加权求和计算,以获得所述待分类视频对应的分类结果,包括:
根据所述第一权重值和所述第二权重值,对每个所述预设分类类别对应的空域得分和时域得分进行加权求和计算,以获得每个所述预设分类类别对应的总得分;
将多个所述总得分中的最高总得分对应的预设分类类别确定为所述待分类视频对应的分类结果。
进一步的,所述第一卷积神经网络模型为ResNeXt网络模型,所述第二卷积神经网络模型为Inception-v3网络模型。
本文中的设备可以是服务器、PC等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:从待分类视频中提取所述待分类视频对应的原始图像和光流图像;将所述原始图像输入至空域卷积神经网络模型,以获得所述待分类视频对应的空域分类结果;将所述光流图像输入至时域卷积神经网络模型,以获得所述待分类视频对应的时域分类结果,其中,所述时域卷积神经网络模型与所述空域卷积神经网络模型为网络架构不同的卷积神经网络模型;对所述空域分类结果和所述时域分类结果进行融合处理,以获得所述待分类视频对应的分类结果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(traHsitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (16)

1.一种视频分类的方法,其特征在于,所述方法包括:
从待分类视频中提取所述待分类视频对应的原始图像和光流图像,所述光流图像为所述待分类视频中的相邻帧之间的运动图像;
将所述原始图像输入至空域卷积神经网络模型,以获得所述待分类视频对应的空域分类结果,其中,所述空域卷积神经网络模型为根据原始图像具有的特性选择的、经过预先训练的卷积神经网络模型;
将所述光流图像输入至时域卷积神经网络模型,以获得所述待分类视频对应的时域分类结果,其中,所述时域卷积神经网络模型为根据光流图像具有的特性选择的、经过预先训练的卷积神经网络模型,所述时域卷积神经网络模型与所述空域卷积神经网络模型为网络架构不同的卷积神经网络模型;
对所述空域分类结果和所述时域分类结果进行融合处理,以获得所述待分类视频对应的分类结果。
2.根据权利要求1所述的方法,其特征在于,在所述从待分类视频中提取所述待分类视频对应的原始图像和光流图像之前,所述方法还包括:
在动作识别数据集和/或手势识别数据集中获取多个训练视频及每个所述训练视频对应的分类标签;
根据多个所述训练视频及每个所述训练视频对应的分类标签对第一卷积神经网络模型进行训练,以获得所述空域卷积神经网络模型;
根据多个所述训练视频及每个所述训练视频对应的分类标签对第二卷积神经网络模型进行训练,以获得所述时域卷积神经网络模型,其中,所述第二卷积神经网络模型与所述第一卷积神经网络模型为网络架构不同的卷积神经网络模型。
3.根据权利要求2所述的方法,其特征在于,所述根据多个所述训练视频及每个所述训练视频对应的分类标签对第一卷积神经网络模型进行训练,以获得所述空域卷积神经网络模型,包括:
从多个所述训练视频中提取每个所述训练视频对应的原始图像;
将多个所述训练视频对应的原始图像设置为所述第一卷积神经网络模型的训练集,并根据每个所述训练视频对应的原始图像和分类标签之间的映射关系对所述第一卷积神经网络模型的参数进行优化调整;
当所述第一卷积神经网络模型准确输出每个所述训练视频对应的分类标签时,将所述第一卷积神经网络模型确定为所述空域卷积神经网络模型。
4.根据权利要求2所述的方法,其特征在于,所述根据多个所述训练视频及每个所述训练视频对应的分类标签对第二卷积神经网络模型进行训练,以获得所述时域卷积神经网络模型,包括:
从多个所述训练视频中提取每个所述训练视频对应的光流图像;
将多个所述训练视频对应的光流图像设置为所述第二卷积神经网络模型的训练集,并根据每个所述训练视频对应的光流图像和分类标签之间的映射关系对所述第二卷积神经网络模型的参数进行优化调整;
当所述第二卷积神经网络模型准确输出每个所述训练视频对应的分类标签时,将所述第二卷积神经网络模型确定为所述时域卷积神经网络模型。
5.根据权利要求1所述的方法,其特征在于,所述对所述空域分类结果和所述时域分类结果进行融合处理,以获得所述待分类视频对应的分类结果,包括:
根据所述空域分类结果对应的第一权重值和所述时域分类结果对应的第二权重值,对所述空域分类结果和所述时域分类结果进行加权求和计算,以获得所述待分类视频对应的分类结果。
6.根据权利要求5所述的方法,其特征在于,所述空域分类结果包含每个预设分类类别对应的空域得分,所述时域分类结果包含每个所述预设分类类别对应的时域得分;所述根据所述空域分类结果对应的第一权重值和所述时域分类结果对应的第二权重值,对所述空域分类结果和所述时域分类结果进行加权求和计算,以获得所述待分类视频对应的分类结果,包括:
根据所述第一权重值和所述第二权重值,对每个所述预设分类类别对应的空域得分和时域得分进行加权求和计算,以获得每个所述预设分类类别对应的总得分;
将多个所述总得分中的最高总得分对应的预设分类类别确定为所述待分类视频对应的分类结果。
7.根据权利要求2-4中任一项所述的方法,其特征在于,所述第一卷积神经网络模型为ResNeXt网络模型,所述第二卷积神经网络模型为Inception-v3网络模型。
8.一种视频分类的装置,其特征在于,所述装置包括:
提取单元,用于从待分类视频中提取所述待分类视频对应的原始图像和光流图像,所述光流图像为所述待分类视频中的相邻帧之间的运动图像;
第一输入单元,用于将所述提取单元提取的所述原始图像输入至空域卷积神经网络模型,以获得所述待分类视频对应的空域分类结果,其中,所述空域卷积神经网络模型为根据原始图像具有的特性选择的、经过预先训练的卷积神经网络模型;
第二输入单元,用于将所述提取单元提取的所述光流图像输入至时域卷积神经网络模型,以获得所述待分类视频对应的时域分类结果,其中,所述时域卷积神经网络模型为根据光流图像具有的特性选择的、经过预先训练的卷积神经网络模型,所述时域卷积神经网络模型与所述空域卷积神经网络模型为网络架构不同的卷积神经网络模型;
融合单元,用于对所述空域分类结果和所述时域分类结果进行融合处理,以获得所述待分类视频对应的分类结果。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
获取单元,用于在所述提取单元从待分类视频中提取所述待分类视频对应的原始图像和光流图像之前,在动作识别数据集和/或手势识别数据集中获取多个训练视频及每个所述训练视频对应的分类标签;
第一训练单元,用于根据所述获取单元获取的多个所述训练视频及每个所述训练视频对应的分类标签对第一卷积神经网络模型进行训练,以获得所述空域卷积神经网络模型;
第二训练单元,用于根据所述获取单元获取的多个所述训练视频及每个所述训练视频对应的分类标签对第二卷积神经网络模型进行训练,以获得所述时域卷积神经网络模型,其中,所述第二卷积神经网络模型与所述第一卷积神经网络模型为网络架构不同的卷积神经网络模型。
10.根据权利要求9所述的装置,其特征在于,所述第一训练单元包括:
第一提取模块,用于从多个所述训练视频中提取每个所述训练视频对应的原始图像;
第一设置模块,用于将所述第一提取模块提取的多个所述训练视频对应的原始图像设置为所述第一卷积神经网络模型的训练集;
第一调整模块,用于根据每个所述训练视频对应的原始图像和分类标签之间的映射关系对所述第一卷积神经网络模型的参数进行优化调整;
第一确定模块,用于当所述第一卷积神经网络模型准确输出每个所述训练视频对应的分类标签时,将所述第一卷积神经网络模型确定为所述空域卷积神经网络模型。
11.根据权利要求9所述的装置,其特征在于,所述第二训练单元包括:
第二提取模块,用于从多个所述训练视频中提取每个所述训练视频对应的光流图像;
第二设置模块,用于将所述第二提取模块提取的多个所述训练视频对应的光流图像设置为所述第二卷积神经网络模型的训练集;
第二调整模块,用于根据每个所述训练视频对应的光流图像和分类标签之间的映射关系对所述第二卷积神经网络模型的参数进行优化调整;
第二确定模块,用于当所述第二卷积神经网络模型准确输出每个所述训练视频对应的分类标签时,将所述第二卷积神经网络模型确定为所述时域卷积神经网络模型。
12.根据权利要求8所述的装置,其特征在于,所述融合单元包括:
计算模块,用于根据所述空域分类结果对应的第一权重值和所述时域分类结果对应的第二权重值,对所述空域分类结果和所述时域分类结果进行加权求和计算,以获得所述待分类视频对应的分类结果。
13.根据权利要求12所述的装置,其特征在于,所述空域分类结果包含每个预设分类类别对应的空域得分,所述时域分类结果包含每个所述预设分类类别对应的时域得分;所述计算模块包括:
计算子模块,用于根据所述第一权重值和所述第二权重值,对每个所述预设分类类别对应的空域得分和时域得分进行加权求和计算,以获得每个所述预设分类类别对应的总得分;
确定子模块,用于将所述计算子模块计算的多个所述总得分中的最高总得分对应的预设分类类别确定为所述待分类视频对应的分类结果。
14.根据权利要求9-11中任一项所述的装置,其特征在于,所述第一卷积神经网络模型为ResNeXt网络模型,所述第二卷积神经网络模型为Inception-v3网络模型。
15.一种电子设备,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时,实现如权利要求1-7中任一所述的视频分类的方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序运行时实现如权利要求1-7中任一所述的视频分类的方法。
CN201910002746.9A 2019-01-02 2019-01-02 视频分类的方法及装置 Active CN109740670B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910002746.9A CN109740670B (zh) 2019-01-02 2019-01-02 视频分类的方法及装置
US16/542,209 US11055535B2 (en) 2019-01-02 2019-08-15 Method and device for video classification

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910002746.9A CN109740670B (zh) 2019-01-02 2019-01-02 视频分类的方法及装置

Publications (2)

Publication Number Publication Date
CN109740670A CN109740670A (zh) 2019-05-10
CN109740670B true CN109740670B (zh) 2022-01-11

Family

ID=66363101

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910002746.9A Active CN109740670B (zh) 2019-01-02 2019-01-02 视频分类的方法及装置

Country Status (2)

Country Link
US (1) US11055535B2 (zh)
CN (1) CN109740670B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10846593B2 (en) * 2018-04-27 2020-11-24 Qualcomm Technologies Inc. System and method for siamese instance search tracker with a recurrent neural network
US10984246B2 (en) * 2019-03-13 2021-04-20 Google Llc Gating model for video analysis
EP3731154A1 (en) * 2019-04-26 2020-10-28 Naver Corporation Training a convolutional neural network for image retrieval with a listwise ranking loss function
CN110287816B (zh) * 2019-06-05 2021-12-28 北京字节跳动网络技术有限公司 车门动作检测方法、装置和计算机可读存储介质
CN110287820B (zh) * 2019-06-06 2021-07-23 北京清微智能科技有限公司 基于lrcn网络的行为识别方法、装置、设备及介质
CN110674348B (zh) * 2019-09-27 2023-02-03 北京字节跳动网络技术有限公司 视频分类方法、装置及电子设备
CN110909672A (zh) * 2019-11-21 2020-03-24 江苏德劭信息科技有限公司 一种基于双流卷积神经网络和svm的抽烟动作识别方法
CN113095346A (zh) * 2020-01-08 2021-07-09 华为技术有限公司 数据标注的方法以及数据标注的装置
CN111209970B (zh) * 2020-01-08 2023-04-25 Oppo(重庆)智能科技有限公司 视频分类方法、装置、存储介质及服务器
CN111163332A (zh) * 2020-01-08 2020-05-15 深圳市英威诺科技有限公司 视频色情度检测方法、终端及介质
CN111898458A (zh) * 2020-07-07 2020-11-06 中国传媒大学 基于注意力机制的双模态任务学习的暴力视频识别方法
CN112001325A (zh) * 2020-08-25 2020-11-27 广东电网有限责任公司电力科学研究院 一种配电不安全行为的预测方法、装置和服务器
CN114494087A (zh) * 2020-11-12 2022-05-13 安霸国际有限合伙企业 无监督的多尺度视差/光流融合
CN112446331A (zh) * 2020-11-30 2021-03-05 山东大学 基于知识蒸馏的时空双流分段网络行为识别方法及系统
CN112507920B (zh) * 2020-12-16 2023-01-24 重庆交通大学 一种基于时间位移和注意力机制的考试异常行为识别方法
CN112579824A (zh) * 2020-12-16 2021-03-30 北京中科闻歌科技股份有限公司 视频数据分类方法、装置、电子设备及存储介质
CN112784704A (zh) * 2021-01-04 2021-05-11 上海海事大学 一种面向小样本视频动作分类的方法
CN112348125B (zh) * 2021-01-06 2021-04-02 安翰科技(武汉)股份有限公司 基于深度学习的胶囊内窥镜影像识别方法、设备及介质
CN112749672A (zh) * 2021-01-19 2021-05-04 携程旅游网络技术(上海)有限公司 相册视频识别方法、系统、设备及存储介质
CN113190108A (zh) * 2021-03-26 2021-07-30 特斯联科技集团有限公司 一种博物馆展陈无感触摸与声音联动方法和系统
CN113326760B (zh) * 2021-05-26 2023-05-09 上海哔哩哔哩科技有限公司 视频分类方法及装置
CN113705665B (zh) * 2021-08-26 2022-09-23 荣耀终端有限公司 图像变换网络模型的训练方法和电子设备
CN113807318B (zh) * 2021-10-11 2023-10-31 南京信息工程大学 一种基于双流卷积神经网络和双向gru的动作识别方法
CN113936261B (zh) * 2021-12-17 2022-03-22 北京威摄智能科技有限公司 应用于高原地区公路监测数据的处理方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105787458A (zh) * 2016-03-11 2016-07-20 重庆邮电大学 基于人工设计特征和深度学习特征自适应融合的红外行为识别方法
CN106503683A (zh) * 2016-10-28 2017-03-15 武汉大学 一种基于动态注意中心的视频显著目标检测方法
CN107330393A (zh) * 2017-06-27 2017-11-07 南京邮电大学 一种基于视频分析的新生儿疼痛表情识别方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8290253B1 (en) * 2009-10-30 2012-10-16 Adobe Systems Incorporated Method and apparatus for applying Gaussian Mixture Models to local image patches using an adaptive color lookup table
US10289912B1 (en) * 2015-04-29 2019-05-14 Google Llc Classifying videos using neural networks
US9904874B2 (en) * 2015-11-05 2018-02-27 Microsoft Technology Licensing, Llc Hardware-efficient deep convolutional neural networks
US10083378B2 (en) * 2015-12-28 2018-09-25 Qualcomm Incorporated Automatic detection of objects in video images
CN106599789B (zh) * 2016-07-29 2019-10-11 北京市商汤科技开发有限公司 视频类别识别方法和装置、数据处理装置和电子设备
CN106952269B (zh) * 2017-02-24 2019-09-20 北京航空航天大学 近邻可逆的视频前景物体序列检测分割方法及系统
CN107330362B (zh) * 2017-05-25 2020-10-09 北京大学 一种基于时空注意力的视频分类方法
US10579897B2 (en) * 2017-10-02 2020-03-03 Xnor.ai Inc. Image based object detection
CN108764084B (zh) * 2018-05-17 2021-07-27 西安电子科技大学 基于空域分类网络和时域分类网络融合的视频分类方法
US11640519B2 (en) * 2018-10-31 2023-05-02 Sony Interactive Entertainment Inc. Systems and methods for domain adaptation in neural networks using cross-domain batch normalization
US11275973B2 (en) * 2019-04-15 2022-03-15 Noblis, Inc. Adapting pre-trained classification algorithms

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105787458A (zh) * 2016-03-11 2016-07-20 重庆邮电大学 基于人工设计特征和深度学习特征自适应融合的红外行为识别方法
CN106503683A (zh) * 2016-10-28 2017-03-15 武汉大学 一种基于动态注意中心的视频显著目标检测方法
CN107330393A (zh) * 2017-06-27 2017-11-07 南京邮电大学 一种基于视频分析的新生儿疼痛表情识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Attention Computation Model for Coal-mine Surveillance Video Based on Non-uniform Sampling in Spatial Domain and Time Domain;Gang Hua 等;《2010 Asia Pacific Conference on Postgraduate Research in Microelectronics and Electronics (PrimeAsia)》;20100924;1-4 *
基于卷积神经网络的时空融合的无参考视频质量评价方法;王春峰 等;《中国科学院大学学报》;20180715;第35卷(第4期);544-549 *

Also Published As

Publication number Publication date
US20200210708A1 (en) 2020-07-02
US11055535B2 (en) 2021-07-06
CN109740670A (zh) 2019-05-10

Similar Documents

Publication Publication Date Title
CN109740670B (zh) 视频分类的方法及装置
CN110348580B (zh) 构建gbdt模型的方法、装置及预测方法、装置
CN111741330B (zh) 一种视频内容评估方法、装置、存储介质及计算机设备
TW201834463A (zh) 影片資料的推薦方法和裝置
Bianco et al. Predicting image aesthetics with deep learning
CN110516514B (zh) 一种目标检测模型的建模方法和装置
CN108259949B (zh) 一种广告推荐方法、装置及电子设备
CN107545301B (zh) 页面展示方法及装置
CN113095346A (zh) 数据标注的方法以及数据标注的装置
CN111052128B (zh) 用于检测和定位视频中的对象的描述符学习方法
CN112911281A (zh) 一种视频质量评价方法及装置
KR20220114320A (ko) 약지도 학습 기반 시멘틱 영상 분할 학습 데이터 생성 장치 및 방법
Ahmadi et al. Efficient and fast objects detection technique for intelligent video surveillance using transfer learning and fine-tuning
CN117409419A (zh) 图像检测方法、设备及存储介质
CN112101344A (zh) 一种视频文本跟踪方法及装置
Lomotin et al. Automated image and video quality assessment for computational video editing
CN111368634A (zh) 基于神经网络的人头检测方法、系统及存储介质
CN112364933A (zh) 图像分类方法、装置、电子设备和存储介质
Favorskaya et al. Fast salient object detection in non-stationary video sequences based on spatial saliency maps
Nugroho et al. Comparison of deep learning-based object classification methods for detecting tomato ripeness
CN110969602B (zh) 一种图像清晰程度检测方法及装置
YM et al. Analysis on Exposition of Speech Type Video Using SSD and CNN Techniques for Face Detection
CN110751197A (zh) 图片分类方法、图片模型训练方法及设备
Zumer et al. Color-independent classification of animation video
CN116596923B (zh) 基于边缘检测的园林植物识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant