CN111291631B - 视频分析方法及其相关的模型训练方法、设备、装置 - Google Patents

视频分析方法及其相关的模型训练方法、设备、装置 Download PDF

Info

Publication number
CN111291631B
CN111291631B CN202010053048.4A CN202010053048A CN111291631B CN 111291631 B CN111291631 B CN 111291631B CN 202010053048 A CN202010053048 A CN 202010053048A CN 111291631 B CN111291631 B CN 111291631B
Authority
CN
China
Prior art keywords
information
offset
video
feature map
multidimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010053048.4A
Other languages
English (en)
Other versions
CN111291631A (zh
Inventor
邵昊
刘宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Priority to CN202010053048.4A priority Critical patent/CN111291631B/zh
Priority to KR1020217013635A priority patent/KR20210093875A/ko
Priority to PCT/CN2020/078656 priority patent/WO2021142904A1/zh
Priority to JP2021521512A priority patent/JP7096431B2/ja
Priority to TW109113378A priority patent/TWI761813B/zh
Publication of CN111291631A publication Critical patent/CN111291631A/zh
Application granted granted Critical
Publication of CN111291631B publication Critical patent/CN111291631B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种视频分析方法及相关的模型训练方法、设备、装置,其中,视频分析方法包括:获取待分析视频;利用预设网络模型对待分析视频进行特征提取,得到第一多维特征图,其中,第一多维特征图包含与待分析视频对应的不同时序上的特征信息;利用偏移预测网络对第一多维特征图进行预测,得到偏移信息;利用偏移信息对第一多维特征图的至少部分特征信息进行时序偏移,并基于偏移后的特征信息得到第二多维特征图;利用预设网络模型对第二多维特征图进行分析,得到待分析视频的分析结果信息。上述方案,能够提高视频分析的处理速度和准确度。

Description

视频分析方法及其相关的模型训练方法、设备、装置
技术领域
本申请涉及人工智能技术领域,特别是涉及一种视频分析方法及相关的模型训练方法、设备、装置。
背景技术
随着神经网络、深度学习等人工智能技术的发展,对神经网络模型进行训练,并利用经训练的神经网络模型完成分类、检测等任务的方式,逐渐受到人们的青睐。
目前,现有的神经网络模型一般是以静态图像作为处理对象而进行设计的,故当对包含时序信息且数据量较大的视频进行分析处理时,难以确保视频分析的处理速度和准确度。有鉴于此,如何提高视频分析的处理速度和准确度成为亟待解决的问题。
发明内容
本申请提供一种视频分析方法及相关的模型训练方法、设备、装置。
本申请第一方面提供了一种视频分析方法,包括:获取待分析视频;利用预设网络模型对待分析视频进行特征提取,得到第一多维特征图,其中,第一多维特征图包含与待分析视频对应的不同时序上的特征信息;利用偏移预测网络对第一多维特征图进行预测,得到偏移信息;利用偏移信息对第一多维特征图的至少部分特征信息进行时序偏移,并基于偏移后的特征信息得到第二多维特征图;利用预设网络模型对第二多维特征图进行分析,得到待分析视频的分析结果信息。
因此,能够直接对待分析视频的时序信息进行建模,有利于提高视频分析的处理速度,且通过时序偏移,能够使空间信息和时序信息联合交错,故在此基础上进行分析处理,有利于提高视频分析的准确度。
其中,在利用偏移信息对第一多维特征图的至少部分特征信息进行时序偏移,并基于偏移后的特征信息得到第二多维特征图之前,还包括:利用权重预测网络对第一多维特征图进行预测,得到权重信息;利用偏移信息对第一多维特征图的至少部分特征信息进行时序偏移,并基于偏移后的特征信息得到第二多维特征图,包括:利用偏移信息对第一多维特征图的至少部分特征信息进行时序偏移;利用权重信息对偏移后的特征信息进行加权处理;基于加权处理后的特征信息,得到第二多维特征图。
因此,通过偏移、加权的处理步骤能够直接得到空间、时序联合交错的特征信息,有利于提高视频分析的处理速度和准确度。
其中,第一多维特征图的维度包括时序维度和预设维度;利用偏移信息对第一多维特征图的至少部分特征信息进行时序偏移,包括:按照预设维度从第一多维特征图中选择至少一组特征信息,其中,每组特征信息包括同一预设维度上对应不同时序的特征信息;利用偏移信息对至少一组特征信息在时序维度上进行偏移。
因此,按照预设维度从第一多维特征图中选择至少一组特征信息,且每组特征信息包括同一预设维度上对应不同时序的特征信息,并利用偏移信息对至少一组特征信息在时序维度上进行偏移,故能够降低偏移处理的计算量,进一步有利于提高视频分析的处理速度。
其中,预设维度为通道维度;和/或,偏移信息包括第一数量个偏移值,至少一组特征信息包括第一数量组第一特征信息;利用偏移信息对至少一组特征信息在时序维度上进行偏移包括:利用偏移信息中第i个偏移值对第i组第一特征信息在时序维度上进行偏移,得到第i组第二特征信息,其中,i为小于或等于第一数量的正整数。
因此,通过将与偏移信息中包含的偏移值数量相同组数的第一特征信息对应进行偏移处理,能够直接得到空间、时序联合交错的特征信息,有利于提高视频分析的处理速度和准确度。
其中,利用偏移信息中第i个偏移值对第i组第一特征信息在时序维度上进行偏移,得到第i组第二特征信息包括:获取第i个偏移值所属的数值范围,且该数值范围的上限值与下限值之差为一预设数值,将第i组第一特征信息沿时序维度偏移上限值个时序单位,得到第i组第三特征信息,并将第i组第一特征信息沿时序维度偏移下限值个时序单位,得到第i组第四特征信息;以第i个偏移值与下限值之间的差作为权重对第i组第一特征信息进行加权处理,得到第i组第一加权结果,并以上限值与第i个偏移值之间的差作为权重对第i组第四特征信息进行加权处理,得到第i组第二加权结果;计算第i组第一加权结果和第i组第二加权结果之间的和,以作为第i组第二特征信息。
因此,能够方便、快速地对第一特征信息进行偏移处理,有利于提高视频分析的处理速度。
其中,待分析视频包括第二数量帧图像,权重信息包括第二数量个权重值;利用权重信息对偏移后的特征信息进行加权处理包括:对偏移后的每组特征信息,分别利用权重信息中第j个权重值对当前组特征信息中的第j个时序对应的特征值进行加权处理,得到加权处理后的对应组特征信息;其中,j为小于或等于第二数量的正整数。
因此,通过对偏移后的每组特征信息,分别利用权重信息中第j个权重值对当前组特征信息的第j个时序对应的特征值进行加权处理,得到加权处理后的对应组特征信息,从而能够在某些末端的特征信息被偏移出去时,对特征信息进行重新加权,有利于提高视频分析的准确性。
其中,基于加权处理后的特征信息,得到第二多维特征图,包括:利用加权处理后的特征信息以及第一多维特征图中未被偏移的特征信息,组成第二多维特征图。
因此,通过加权处理后的特征信息以及第一多维特征图中未被偏移的特征信息组合成为第二多维特征信息,能够减少计算负荷,有利于提高视频分析的处理速度。
其中,利用权重预测网络对第一多维特征图进行预测,得到权重信息,包括:利用权重预测网络的第一降采样层对第一多维特征图进行降采样,得到第一降采样结果;利用权重预测网络的第一卷积层对第一降采样结果进行卷积处理,得到第一特征提取结果;利用权重预测网络的第一激活层对第一特征提取结果进行非线性处理,得到权重信息。
因此,通过第一降采样层、第一卷积层和第一激活层对第一多维特征图进行逐步层层处理,即能够得到权重信息,能够有效简化权重预测网络的网络结构,减少网络参数,有利于提高用于视频分析的模型训练时的收敛速度,并有利于避免过拟合,从而有利于提高视频分析的准确性。
其中,利用偏移预测网络对第一多维特征图进行预测,得到偏移信息,包括:利用偏移预测网络的第二降采样层对第一多维特征图进行降采样,得到第二降采样结果;利用偏移预测网络的第二卷积层对第二降采样结果进行卷积处理,得到第二特征提取结果;利用偏移预测网络的第一全连接层对第二特征提取结果进行特征连接,得到第一特征连接结果;利用偏移预测网络的第二激活层对第一特征连接结果进行非线性处理,得到非线性处理结果;利用偏移预测网络的第二全连接层对非线性处理结果进行特征连接,得到第二特征连接结果;利用偏移预测网络的第三激活层对第二特征连接结果进行非线性处理,得到偏移信息。
因此,能够有效简化偏移预测网络的网络结构,减少网络参数,有利于提高用于视频分析的模型训练时的收敛速度,并有利于避免过拟合,从而有利于提高视频分析的准确性。
其中,预设网络模型包括至少一个卷积层;利用预设网络模型对待分析视频进行特征提取,得到第一多维特征图,包括:利用预设网络模型的一卷积层对待分析视频进行特征提取,得到第一多维特征图;若预设网络模型的卷积层的数量多于1,则在得到第二多维特征图之后,并在利用预设网络模型对第二多维特征图进行分析,得到待分析视频的分析结果信息之前,方法还包括:利用预设网络模型中未执行特征提取的卷积层对第二多维特征图进行特征提取,得到新的第一多维特征图;执行利用偏移预测网络对新的第一多维特征图进行预测,得到偏移信息的步骤以及后续步骤,以得到新的第二多维特征图;重复执行上述步骤,直至预设网络模型的所有卷积层均完成对新的第二多维特征图的特征提取步骤;利用预设网络模型对第二多维特征图进行分析,得到待分析视频的分析结果信息,包括:利用预设网络模型的全连接层对第二多维特征图进行分析,得到待分析视频的分析结果信息。
因此,在预设网络模型包括的卷积层数量多于1个时,利用预设网络模型中未执行特征提取的卷积层对第二多维特征图进行特征提取,得到新的第一多维特征图,并重新执行偏移预测等步骤,直至预设网络模型中所有卷积层均完成对新的第二多维特征图进行特征提取的步骤,从而利用预设网络模型的全连接层对第二多维特征图进行分析,得到待分析视频的分析结果信息,进而能够提高视频分析的准确性。
其中,待分析视频包括若干帧图像,利用预设网络模型对待分析视频进行特征提取,得到第一多维特征图包括:利用预设网络模型分别对若干帧图像进行特征提取,得到与每一帧图像对应的特征图;将若干个特征图按照与其对应的图像在待分析视频中的时序进行拼接,得到第一多维特征图。
因此,通过预设网络模型分别对待分析视频的若干帧图像进行特征提取,得到与每一帧图像对应的特征图,从而直接将若干个特征图按照与其对应的图像在待分析视频中的时序进行拼接,得到第一多维特征图,能够降低对待分析视频进行特征提取的处理负荷,有利于提高视频分析的处理速度。
本申请第二方面提供了一种用于视频分析的模型训练方法,包括:获取样本视频,其中,样本视频包括预设标注信息;利用预设网络模型对样本视频进行特征提取,得到第一样本多维特征图,其中,第一样本多维特征图包含与样本视频对应的不同时序上的特征信息;利用偏移预测网络对第一样本多维特征图进行预测,得到偏移信息;利用偏移信息对第一样本多维特征图的至少部分特征信息进行时序偏移,并基于偏移后的特征信息得到第二样本多维特征图;利用预设网络模型对第二样本多维特征图进行分析,得到样本视频的分析结果信息;利用预设标注信息和分析结果信息计算损失值;基于损失值,调整预设网络模型和偏移预测网络的参数。
因此,能够直接对样本视频的时序信息进行建模,有利于提高模型训练时的速度,且通过时序偏移,能够使空间信息和时序信息联合交错,故在此基础上进行分析处理,有利于后续提高视频分析的准确度。
本申请第三方面提供了一种视频分析装置,包括视频获取模块、特征提取模块、偏移预测模块、偏移处理模块和网络分析模块,视频获取模块用于获取待分析视频;特征提取模块用于利用预设网络模型对待分析视频进行特征提取,得到第一多维特征图,其中,第一多维特征图包含与待分析视频对应的不同时序上的特征信息;偏移预测模块用于利用偏移预测网络对第一多维特征图进行预测,得到偏移信息;偏移处理模块用于利用偏移信息对第一多维特征图的至少部分特征信息进行时序偏移,并基于偏移后的特征信息得到第二多维特征图;网络分析模块用于利用预设网络模型对第二多维特征图进行分析,得到待分析视频的分析结果信息。
本申请第四方面提供了一种用于视频分析的模型训练装置,包括视频获取模块、特征提取模块、偏移预测模块、偏移处理模块、网络分析模块、损失计算模块和参数调整模块,视频获取模块用于获取样本视频,其中,样本视频包括预设标注信息;特征提取模块用于利用预设网络模型对样本视频进行特征提取,得到第一样本多维特征图,其中,第一样本多维特征图包含与样本视频对应的不同时序上的特征信息;偏移预测模块用于利用偏移预测网络对第一样本多维特征图进行预测,得到偏移信息;偏移处理模块用于利用偏移信息对第一样本多维特征图的至少部分特征信息进行时序偏移,并基于偏移后的特征信息得到第二样本多维特征图;网络分析模块用于利用预设网络模型对第二样本多维特征图进行分析,得到样本视频的分析结果信息;损失计算模块用于利用预设标注信息和分析结果信息计算损失值;参数调整模块用于基于损失值,调整预设网络模型和偏移预测网络的参数。
本申请第五方面提供了一种电子设备,包括相互耦接的存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述第一方面中的视频分析方法,或实现上述第二方面中的用于视频分析的模型训练方法。
本申请第六方面提供了一种计算机可读存储介质,其上存储有程序指令,程序指令被处理器执行时实现上述第一方面中的视频分析方法,或实现上述第二方面中的用于视频分析的模型训练方法。
上述方案,能够直接对待分析视频的时序信息进行建模,有利于提高视频分析的处理速度,且通过时序偏移,能够使空间信息和时序信息联合交错,故在此基础上进行分析处理,有利于提高视频分析的准确度。
附图说明
图1是本申请视频分析方法一实施例的流程示意图;
图2是视频分析处理过程一实施例的示意图;
图3是视频分析各阶段一实施例的示意图
图4是图1中步骤S14一实施例的流程示意图;
图5是本申请视频分析方法另一实施例的流程示意图;
图6是视频分析处理过程另一实施例的示意图;
图7是本申请用于视频分析的模型训练方法一实施例的流程示意图;
图8本申请视频分析装置一实施例的框架示意图;
图9是本申请用于视频分析的模型训练装置一实施例的框架示意图;
图10是本申请电子设备一实施例的框架示意图;
图11是本申请计算机可读存储介质一实施例的框架示意图。
具体实施方式
下面结合说明书附图,对本申请实施例的方案进行详细说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
请参阅图1,图1是本申请视频分析方法一实施例的流程示意图。本申请视频分析方法具体可以由微型计算机、服务器、平板电脑等具有处理功能的电子设备执行,或者由处理器执行程序代码实现。具体而言,可以包括如下步骤:
步骤S11:获取待分析视频。
本申请实施例中,待分析视频可以包括若干帧图像,例如,待分析视频包括8帧图像,或者,待分析视频包括16帧图像,或者,待分析视频包括24帧图像等等,在此不做具体限定。在一个实施场景中,待分析视频可以是监控相机拍摄到的监控视频,以对监控视频中目标对象进行行为分析,例如,目标对象摔倒、目标对象正常行走等等。在另一个实施场景中,待分析视频可以是视频库中的视频,以对视频库中的视频进行分类,例如,足球赛事视频、篮球赛事视频、滑雪赛事视频等等。
步骤S12:利用预设网络模型对待分析视频进行特征提取,得到第一多维特征图。
在一个具体的实施场景中,为了进一步减少网络参数,降低处理负荷,从而提高处理速度,提高训练时收敛速度,避免过拟合,预设网络模型可以是二维神经网络模型,例如,ResNet-50、ResNet-101等等,在此不做具体限定。ResNet网络是由残差块(ResidualBlock)构建的,通过使用多个有参层来学习输入、输出之间的残差表示。
本申请实施例中,第一多维特征图包含与待分析视频对应的不同时序上的特征信息。请结合参阅图2,图2是视频分析处理过程一实施例的示意图。如图2所示,横坐标表示时序维度T上的不同时序,不同时序所对应的方格表示不同时序上的特征信息。在一个实施场景中,为了降低对待分析视频进行特征提取的处理负荷,提高视频分析的处理速度,可以通过预设网络模型分别对待分析视频的若干帧图像进行特征提取,得到每一帧图像对应的特征图,从而直接将若干个特征图按照与其对应的图像在待分析视频中的时序进行拼接,得到第一多维特征图。例如,待分析视频包括8帧图像,则可以利用预设网络模型分别对这8帧图像进行特征提取,得到每一帧图像的特征图,从而直接将8张特征图按照与其对应的图像在待分析视频中的时序进行拼接,得到第一多维特征图。
步骤S13:利用偏移预测网络对第一多维特征图进行预测,得到偏移信息。
不同于常规的静态图像,视频往往更关注于目标对象连续的行为动作,故为了更好地获取视频的内在时序语义,可以整合时间信息和空间信息。故此,本申请实施例中,采用偏移预测网络预测得到偏移信息,以在后续基于该偏移信息进行时序偏移,从而完成时间信息和空间的整合。偏移预测网络具体可以是一预设网络模型,从而可以通过该预设网络模型对第一多维特征图进行预测,直接得到偏移信息。
在一个实施场景中,偏移预测网络可以包括顺序连接的降采样层、卷积层、全连接层、激活层、全连接层和激活层。故此,预测偏移网络仅包含5层,且其中仅卷积层和全连接层包含网络参数,可以在一定程度上简化网络结构,并减少网络参数,从而能够降低网络容量,进而提高收敛速度,避免过拟合,使得训练得到的模型尽可能地准确,进而能够提高视频分析的准确性。
具体地,可以利用偏移预测网络的降采样层对第一多维特征图进行降采样,得到降采样结果。在一个具体的实施场景中,降采样层具体可以是平均池化层,第一多维特征图的维度包括时序维度和预设维度(例如,通道维度),则上述对第一多维特征图进行降采样,得到降采样结果可以表示为:
上式中,c,t分别表示多维中的时序维度和多维中的预设维度(例如,通道维度),zc,t表示降采样结果中第(c,t)个元素,H,W分别表示特征图的高度和宽度,Uc,t表示第一多维特征图中中第(c,t)个元素。
进一步地,可以利用偏移预测网络的卷积层对降采样结果进行卷积处理,得到特征提取结果,偏移预测网络的卷积层具体可以包含数量与待分析视频的帧数相同的卷积核,卷积核的尺寸可以为3*3。并利用偏移预测网络的第一个全连接层对特征提取结果进行特征连接,得到特征连接结果,偏移预测网络的第一个全连接层可以包含数量与待分析视频的帧数相同的神经元。并利用偏移预测网络的第一个激活层对特征连接结果进行非线性处理,得到非线性处理结果,偏移预测网络的第一个激活层可以是ReLU(Rectified LinearUnit,线性整流函数)激活层。并利用偏移预测网络的第二个全连接层对非线性处理结果进行特征连接,得到特征连接结果;再利用偏移预测网络的第二个激活层对特征连接结果进行非线性处理,得到偏移信息,偏移预测网络的第二个激活层可以是Sigmoid激活层,从而能够将偏移信息中的各个元素约束至0至1之间。上述处理具体可以表示为:
offsetraw=σ(W2δ(W1(F1dconv(z)))) (2)
上式中,z表示降采样结果,F1dconv表示偏移预测网络的卷积层,W1表示偏移预测网络的第一个全连接层,δ表示偏移预测网络的第一个激活层,W2表示偏移预测网络的第二个全连接层,σ表示偏移预测网络的第二个激活层,offsetraw表示偏移信息。
在另一个实施场景中,为了提高模型的稳定性和性能,还可以将上述第二个激活层处理得到的偏移信息进行约束处理,使偏移预测信息中的各个元素约束至其中,T表示待分析视频的帧数,具体地,可以将上述利用偏移预测网络的第二个激活层对特征连接结果进行非线性处理得到的偏移信息中的各个元素分别减去0.5,并将减去0.5后所得到的差值乘以待分析视频的帧数,从而得到经约束处理的偏移信息。上述约束处理具体可以表示为:
offset=(offsetraw-0.5)×T (3)
上式中,offsetraw表示经第二个激活层处理得到的偏移信息,T表示待分析视频的帧数,offset表示约束至的偏移信息。
步骤S14:利用偏移信息对第一多维特征图的至少部分特征信息进行时序偏移,并基于偏移后的特征信息得到第二多维特征图。
在一个实施场景中,为了使至少部分特征信息中对应于不同时序上的信息得以偏移,从而整合时间信息和空间信息,提高视频分析的准确性,至少部分具体可以是沿预设维度(例如,通道维度)进行分割而得到的。如图2所示,为了进一步降低处理负荷,第一多维特征图在通道维度的通道数为C,至少部分在通道维度的通道数为此外,还可以利用偏移信息对第一多维特征图的全部特征信息进行时序偏移,在此不做限定。
在一个实施场景中,为了降低偏移计算量,提高视频分析的处理速度,还可以按照预设维度(例如,通道维度)从第一多维特征图中选择至少一组特征信息,其中,每组特征信息包括同一预设维度(例如,通道维度)上对应不同时序的特征信息,此时,偏移预测网络第二个全连接层可以包含数量与所选择的特征信息的组数相同的神经元,从而偏移信息中的元素个数与所选择的特征信息的组数相同,进而可以利用偏移信息中的各个元素分别对至少一组特征信息在时序维度上进行偏移,例如,在时序维度上偏移一个时序单位,或者,在时序维度上偏移两个时序单位等,在此不做具体限定。
在利用偏移信息对第一多维特征图的至少部分特征信息进行时序偏移之后,可以将时序偏移后的至少部分特征信息与第一多维特征图中未进行时序偏移的部分特征信息进行拼接,从而得到第二多维特征图。在一个具体的实施场景中,请结合参阅图2,可以将通道数为的至少部分特征信息进行时序偏移后得到的特征信息与未经时序偏移的通道数为/>的部分特征信息进行拼接,得到第二多维特征图。
步骤S15:利用预设网络模型对第二多维特征图进行分析,得到待分析视频的分析结果信息。
在一个实施场景中,可以利用预设网络模型的全连接层对第二多维特征图进行特征连接,利用预设网络模型的softmax层进行回归,从而得到待分析视频所属的类别(如,足球赛事视频、滑雪赛事视频等),或者,还可以得到待分析视频中目标对象的行为类别(例如,正常行走、摔倒、奔跑等),其他应用场景,可以以此类推,在此不再一一举例。
在一个实施场景中,为了便于处理,上述偏移预测网络可以嵌入在预设网络模型的卷积层之前,例如,预设网络模型为ResNet-50,偏移预测网络可以嵌入在每个残差块中的卷积层之前。在一个实施场景中,预设网络模块可以包括至少一个卷积层,从而在特征提取过程中,可以利用预设网络模型的一卷积层对待分析视频进行特征提取,得到第一多维特征图。
在一个实施场景中,为了提高视频分析的准确性,预设网络模型的卷积层可以多于1个,例如,2个、3个、4个等等,故在对第二多维特征图进行分析之前,还可以利用预设网络模型中未执行特征提取的卷积层对第二多维特征图进行特征提取,得到新的第一多维特征图,具体地,新的第一多维特征图在时序维度上可以保持维数不变,并执行利用偏移预测网络对新的第一多维特征图进行预测,得到偏移信息的步骤以及后续步骤,从而得到新的第二多维特征图,并不断重复上述步骤,直至预设网络模型的所有卷积层均完成对新的第二多维特征图的特征提取步骤,再利用预设网络模型的全连接层对最后得到的第二多维特征图进行分析,得到待分析视频的分析结果信息。请结合参阅图3,图3是视频分析各阶段一实施例的示意图,以预设网络模型包括3个卷积层为例,待分析视频经过预设网络模型的第一个卷积层进行特征提取得到第一多维特征图之后,通过上述相关步骤进行时序偏移,得到第二多维特征图,在利用预设网络模型的全连接层进行分析处理之前,还可以进一步将该第二多维特征图输入第二个卷积层进行特征提取,得到新的第一多维特征图,并通过上述相关步骤对新的第一多维特征图进行时序偏移,得到新的第二多维特征图,类似地,利用第三个卷积层对该新的第二多维特征图进行特征提取,又得到一个新的第一多维特征图,并通过上述相关步骤对新的第一多维特征图进行时序偏移,得到新的第二多维特征图,此时预设网络模型的三个卷积层已全部执行完成特征提取步骤,可以利用预设网络的全连接层对最新得到的第二多维特征图进行分析,得到待分析视频的分析结果信息。当然,在其他实施例中,为了减少计算量,也可以仅在部分卷积层之后增加时序偏移步骤。
上述方案,通过对待分析视频进行特征提取,得到第一多维特征图,且第一多维特征图包含与待分析视频对应的不同时序上的特征信息,并利用偏移预测网络对第一多维特征图进行预测,得到偏移信息,从而利用偏移信息对第一多维特征图的至少部分特征信息进行时序偏移,并基于偏移后的特征信息得到第二多维特征图,进而能够直接对待分析视频的时序信息进行建模,有利于提高视频分析的处理速度,且通过时序偏移,能够使空间信息和时序信息联合交错,故在此基础上进行分析处理,有利于提高视频分析的准确度。
请参阅图4,图4是图1中步骤S14一实施例的流程示意图。本申请实施例中,偏移信息包括第一数量个偏移值,还可以将第一多维特征图的至少部分沿预设维度(例如,通道维度)划分为第一数量组第一特征信息,则可以利用偏移信息中第i个偏移值对第i组第一特征信息在时序维度上进行偏移,得到第i组第二特征信息,其中,i为小于或等于第一数量的正整数。请结合参阅图2,第一多维特征图的至少部分包括2组第一特征信息,则可以利用偏移信息中的第1个偏移值对第1组第一特征信息在时序维度上进行偏移,得到第1组第二特征信息,并利用偏移信息中的第2个偏移值对第2组第一特征信息在时序维度上进行偏移,得到第2组第二特征信息,当上述第一数量为其他值时,可以以此类推,在此不再一一举例。
具体地,可以包括如下步骤:
步骤S141:获取第i个偏移值所属的数值范围,且数值范围的上限值与下限值之差为一预设数值。
在一个实施场景中,预设数值可以为1,数值范围的下限值为对第i个偏移值进行下取整得到的数值,数值范围的上限值为对第i个偏移值进行上取整得到的数值,即对于第i个偏移值Oi,其数值范围可以表示为(n0,n0+1),且n0∈Ν。例如,当偏移值为0.8时,其数值范围为0至1;或者,当偏移值为1.4时,其数值范围为1至2,当偏移值为其他数值时,可以以此类推,在此不再一一举例。通过上述方式,在偏移值为小数时,能够简化后续时序偏移的处理流程。
步骤S142:将第i组第一特征信息沿时序维度偏移上限值个时序单位,得到第i组第三特征信息,并将第i组第一特征信息沿时序维度偏移下限值个时序单位,得到第i组第四特征信息。
本申请实施例中,第i组第一特征信息可以表示为Uc,t,故当第i个偏移值的数值范围表示为(n0,n0+1)时,将第i组第一特征信息沿时序维度偏移上限值个时序单位,得到的第i组第三特征信息可以表示为将第i组第一特征信息沿时序维度偏移下限值个时序单位,得到的第i组第四特征信息可以表示为/>
在一个具体的实施场景中,每个偏移值可能为小数,例如,每个偏移值的数值范围为0至1,即上述上限值为1,下限值为0,预设数值为1,故对于第i组第一特征信息Uc,t而言,对应的第三特征信息可以表示为Uc,t+1,对应的第四特征信息可以表示为Uc,t。此外,第一特征信息在时序维度的范围为[1,T],其中,T等于待分析视频的帧数,如第一特征信息[1 0 00 0 0 0 1]的T为8,第一特征信息可能会在时序偏移过程中由于特征信息被移出而变成零向量,从而在训练过程中出现梯度消失的情况,为缓解该问题,可以为时序偏移后处于(0,1)时序区间和(T,T+1)时序区间的特征信息设置一缓冲区,从而当特征信息在时序上被偏移出T+1时刻,或小于0时刻时,可以将缓冲区固定置为0。例如,以第一特征信息Uc,t是[1 00 0 0 0 0 1]为例,则当第i个偏移值为0.4时,由于其所属的数值范围为0至1,故可以将第一特征信息偏移上限值个(即1个)时序单位,得到对应的第三特征信息[0 1 0 0 0 0 00],并将上述第一特征信息偏移下限值个(即0个)时序单位,得到对应的第四特征信息[1 00 0 0 0 0 1]。当第一特征信息、偏移值为其他数值时,可以以此类推,在此不再一一举例。
步骤S143:以第i个偏移值与下限值之间的差作为权重对第i组第三特征信息进行加权处理,得到第i组第一加权结果,并以上限值与第i个偏移值之间的差作为权重对第i组第四特征信息进行加权处理,得到第i组第二加权结果。
以第i个偏移值表示为Oi为例,故当第i个偏移值的数值范围表示为(n0,n0+1)时,以第i个偏移值Oi与下限值(即n0)之间的差(即Oi-n0)作为权重对第i组第三特征信息(即)进行加权处理,得到对应的第一加权结果(即/>),并以上限值(即n0+1)与第i个偏移值Oi之间的差(即n0+1-Oi)作为权重对第i组第四特征信息/>进行加权处理,得到对应的第二加权结果(即/>)。
在一个具体的实施场景中,每个偏移值可能为小数,例如,每个偏移值的数值范围为0至1,即上述上限值为1,下限值为0,预设数值为1,故对于第一特征信息Uc,t而言,对应的第三特征信息可以表示为Uc,t+1,对应的第四特征信息可以表示为Uc,t,则第一加权结果可以表示为OiUc,t+1,第二加权结果可以表示为(1-Oi)Uc,t。仍以第一特征信息Uc,t表示为一维向量[1 0 0 0 0 0 0 1]为例,则当第i个偏移值为0.4时,对应的第三特征信息可以表示为[01 0 0 0 0 0 0],对应的第四特征信息可以表示为[1 0 0 0 0 0 0 1],故第一加权结果可以表示为[0 0.4 0 0 0 0 0 0],故第二加权结果可以表示为[0.6 0 0 0 0 0 0 0.6]。当第一特征信息、偏移值为其他数值时,可以以此类推,在此不再一一举例。
步骤S144:计算第i组第一加权结果和第i组第二加权结果之间的和,以作为第i组第二特征信息。
以第i个偏移值表示为Oi为例,第一加权结果可以表示为第二加权结果可以表示为/>故第i组第二特征信息可以表示为/>
在一个具体的实施场景中,每个偏移值可能为小数,例如,每个偏移值的数值范围为0至1,即上述上限值为1,下限值为0,预设数值为1,故对于第一特征信息Uc,t而言,第一加权结果可以表示为OiUc,t+1,第二加权结果可以表示为(1-Oi)Uc,t,故第i组第二特征信息可以表示为(1-Oi)Uc,t+OiUc,t+1。仍以第一特征信息Uc,t表示为一维向量[1 0 0 0 0 0 0 1]为例,则当第i个偏移值为0.4时,对应的第一加权结果可以表示为[00.4 0 0 0 0 0 0],对应的第二加权结果可以表示为[0.6 0 0 0 0 0 0 0.6],故第i组第二特征信息可以表示为[0.6 0.4 0 0 0 0 0 0.6]。当第一特征信息、偏移值为其他数值时,可以以此类推,在此不再一一举例。
此外,在一个实施场景中,由于以组单位将每组第一特征信息进行时序偏移,故在训练时,可以采用对称偏移的策略,即训练时可以只训练一半的偏移值,并对其进行转换计算(例如,颠倒其次序)得到另一半偏移值,从而能够减轻训练时的处理负荷。
区别于前述实施例,通过获取第i个偏移值所属的数值范围,且该数值范围的上限值与下限值之差为一预设数值,将第i组第一特征信息沿时序维度偏移上限值个时序单位,得到第i组第三特征信息,并将第i组第一特征信息沿时序维度偏移下限值个时序单位,得到第i组第四特征信息;以第i个偏移值与下限值之间的差作为权重对第i组第一特征信息进行加权处理,得到第i组第一加权结果,并以上限值与第i个偏移值之间的差作为权重对第i组第四特征信息进行加权处理,得到第i组第二加权结果;计算第i组第一加权结果和第i组第二加权结果之间的和,以作为第i组第二特征信息,进而能够方便、快速地对第一特征信息进行偏移处理,有利于提高视频分析的处理速度。
请参阅图5,图5是本申请视频分析方法另一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S51:获取待分析视频。
具体可以参阅前述实施例中的相关步骤。
步骤S52:利用预设网络模型对待分析视频进行特征提取,得到第一多维特征图。
本申请实施例中,第一多维特征图包含与待分析视频对应的不同时序上的特征信息。具体可以参阅前述实施例中的相关步骤。
步骤S53:利用偏移预测网络对第一多维特征图进行预测,得到偏移信息。
请结合参阅图6,图6是视频分析处理过程另一实施例的示意图,如图6所示,第一多维特征图可以经过偏移预测网络进行预测,具体可以参阅前述实施例中的相关步骤。
步骤S54:利用权重预测网络对第一多维特征图进行预测,得到权重信息。
在时序偏移时,第一特征信息首末两端的特征可能会被移出,故为了重新衡量经时序偏移后的第一特征信息中各特征的重要程度,以更好地获取长范围信息,可以采用注意力机制对经时序偏移后的第一特征信息中各特征进行重新加权处理,故需要获取权重信息。请继续结合参阅图6,可以利用权重预测网络对第一多维特征图进行预测,得到权重信息。
在一个实施场景中,权重预测网络可以包括顺序连接的降采样层、卷积层和激活层。故此,权重预测网络仅包含3层,且其中仅卷积层包含网络参数,可以在一定程度上简化网络结构,并减少网络参数,从而能够降低网络容量,进而提高收敛速度,避免过拟合,使得训练得到的模型尽可能地准确,进而能够提高视频分析的准确性。
具体地,可以利用权重预测网络的降采样层对第一多维特征图进行降采样,得到降采样结果。在一个具体的实施场景中,降采样层可以是平均池化层,具体可以参阅前述实施例中的相关步骤。进一步地,可以利用偏移预测网络的卷积层对降采样结果进行卷积处理的,得到特征提取结果,偏移预测网络的卷积层中可以包含1个卷积核,并利用权重预测网络的激活层对特征提取结果进行非线性处理,得到权重信息,该激活层可以是Sigmoid激活层,从而能够将权重信息中的各个元素约束至0至1之间。
此外,为了便于处理,本申请实施例中的偏移预测网络和权重预测网络可以嵌入在预设网络模型的卷积层之前,例如,预设网络模型为ResNet-50,偏移预测网络和权重预测网络可以嵌入在每个残差块的卷积层之前,从而分别利用第一多维特征图,预测得到偏移信息和权重信息,以便后续偏移与加权处理,从而能够在ResNet-50已有的网络参数的基础上,加入少量的网络参数实现时序信息的建模,有利于降低视频分析的处理负荷,提高视频分析的处理速度,且有利于加快模型训练时的收敛速度,避免过拟合,提高视频分析的准确度。当预设网络模型为其他模型时,可以以此类推,在此不再一一举例。
上述步骤S53和步骤S54可以按照先后顺序执行,例如,先执行步骤S53,后执行步骤S54;或者,先执行步骤S54,后执行步骤S53;或者,步骤S53和步骤S54同时执行,在此不做限定。此外,上述步骤S54先于后续的步骤S56执行即可,在此不做限定。
步骤S55:利用偏移信息对第一多维特征图的至少部分特征信息进行时序偏移。
具体可以参阅前述实施例中的相关步骤。
步骤S56:利用权重信息对偏移后的特征信息进行加权处理。
在一个实施场景中,待分析视频具体可以包括第二数量帧图像,权重信息可以包括第二数量个权重值,第二数量具体可以是8、16、24等等,在此不做具体限定。故在加权处理时,可以对偏移后的每组特征信息,分别利用权重信息中的第j个权重值对当前组特征信息中的第j个时序对应的特征值进行加权处理,得到加权处理后的对应组特征信息,其中,j为小于或等于第二数量的正整数。以上述实施例中偏移处理后的特征信息[0.6 0.4 0 0 00 0 0.6]为例,权重信息可以为[0.2 0.1 0.1 0.1 0.1 0.1 0.1 0.2],则分别利用权重信息中的第j个权重值对上述特征信息中的第j个时序对应的特征值进行加权处理后,得到对应组的特征信息为[0.12 0.04 0 0 0 0 0 0.12]。当偏移后的特征信息、权重信息为其他数值时,可以以此类推,在此不再一一举例。
步骤S57:基于加权处理后的特征信息,得到第二多维特征图。
请结合参阅图6,经过时序偏移和加权处理之后,即可得到与第一多维特征图对应的第二多维特征图。在一个实施场景中,可以利用加权处理后的特征信息以及第一多维特征图中未被偏移的特征信息,组成第二多维特征图。具体地,请结合参阅图2,可以将加权处理后的特征信息与第一多维特征图中未被偏移的特征信息进行拼接处理,得到第二多维特征图。得到的第二多维特征图与第一多维特征图具有相同的尺寸。此外,若第一多维特征图中的特征信息均进行了时序偏移处理,则可以直接将加权处理后的特征信息进行组合,作为第二多维特征图。
步骤S58:利用预设网络模型对第二多维特征图进行分析,得到待分析视频的分析结果信息。
具体可以参阅前述实施例中的相关步骤。
区别于前述实施例,利用权重预测网络对第一多维特征图进行预测,得到权重信息,并利用偏移信息对第一多维特征图的至少部分特征信息进行时序偏移,且利用权重信息对偏移后的特征信息进行加权处理,并基于加权处理后的特征信息,得到第二多维特征图,故通过偏移、加权的处理步骤能够直接得到空间、时序联合交错的特征信息,有利于提高视频分析的处理速度和准确度。
请参阅图7,图7是本申请用于视频分析的模型训练方法一实施例的流程示意图。本申请用于视频分析的模型训练方法具体可以由微型计算机、服务器、平板电脑等具有处理功能的电子设备执行,或者由处理器执行程序代码实现。具体而言,可以包括如下步骤:
步骤S71:获取样本视频。
本申请实施例中,样本视频包括预设标注信息。以对视频进行行为分析为例,样本视频的预设标注信息可以包括但不限于:摔倒、正常行走、奔跑;或者,以对视频进行分类为例,样本视频的预设标注信息可以包括但不限于:足球赛事视频、篮球赛事视频、滑雪赛事视频,其他应用场景可以以此类推,在此不再一一举例。
本申请实施例中,样本视频可以包括若干帧图像,例如,可以包括8帧图像,或者,也可以包括16帧图像,或者,还可以包括24帧图像,在此不做具体限定。
步骤S72:利用预设网络模型对样本视频进行特征提取,得到第一样本多维特征图。
在一个具体的实施场景中,为了进一步减少网络参数,降低处理负荷,从而提高处理速度,提高训练时收敛速度,避免过拟合,预设网络模型可以是二维神经网络模型,例如,ResNet-50、ResNet-101等等,在此不做具体限定。ResNet网络是由残差块(ResidualBlock)构建的,通过使用多个有参层来学习输入、输出之间的残差表示。
本申请实施例中,第一样本多维特征图包含与样本视频对应的不同时序上的特征信息。请结合参阅图2,图2是视频分析处理过程一实施例的示意图。如图2所示,横坐标表示时序维度T上的不同时序,不同时序所对应的方格表示不同时序上的特征信息。在一个实施场景中,为了降低对样本视频进行特征提取的处理负荷,提高视频分析的处理速度,可以通过预设网络模型分别对样本视频的若干帧图像进行特征提取,得到每一帧图像对应的特征图,从而直接将若干个特征图按照与其对应的图像在样本视频中的时序进行拼接,得到第一样本多维特征图。例如,样本视频包括8帧图像,则可以利用预设网络模型分别对这8帧图像进行特征提取,得到每一帧图像的特征图,从而直接将8张特征图按照与其对应的图像在样本视频中的时序进行拼接,得到第一样本多维特征图。
步骤S73:利用偏移预测网络对第一样本多维特征图进行预测,得到偏移信息。
偏移预测网络的网络结构具体可以参考前述实施例中的相关步骤,在此不再赘述。在一个实施场景中,还可以利用权重预测网络对第一样本多维特征图进行预测,得到权重信息,权重预测网络的网络结构可以参考前述实施例中的相关步骤,在此不再赘述。
步骤S74:利用偏移信息对第一样本多维特征图的至少部分特征信息进行时序偏移,并基于偏移后的特征信息得到第二样本多维特征图。
利用偏移信息对第一样本多维特征图的至少部分特征信息进行时序偏移的具体实施步骤,可以参考前述实施例中的相关步骤,在此不再赘述。在一个实施场景中,还可以利用权重信息对偏移后的特征信息进行加权处理,并基于加权处理后的特征信息,得到第二样本多维特征图,具体可以参考前述实施例中的相关步骤,在此不再赘述。
在一个实施场景中,预设网络模型可以包括至少一个卷积层,则可以利用预设网络模型的一卷积层对样本视频进行特征提取,得到第一样本多维特征图。在一个具体的实施场景中,预设网络模型的卷积层的数量可以多于1个,则可以利用预设网络模型中未执行特征提取的卷积层对第二样本多维特征图进行特征提取,得到新的第一样本多维特征图,并执行利用偏移预测网络对新的第一样本多维特征图进行预测,得到偏移信息的步骤以及后续步骤,从而得到新的第二样本多维特征图,进而重复执行上述步骤,直至预设网络模型的所有卷积层均完成对新的第二样本多维特征图的特征提取步骤。
步骤S75:利用预设网络模型对第二样本多维特征图进行分析,得到样本视频的分析结果信息。
具体地,可以利用预设网络模型的全连接层对第二样本多维特征图进行分析,得到样本视频的分析结果信息。在一个实施场景中,可以利用预设网络模型的全连接层对第二样本多维特征图进行特征连接,利用预设网络模型的softmax层进行回归,从而得到样本视频属于各个类别(如,足球赛事视频、滑雪赛事视频等)的概率值,或者得到样本视频属于各种行为(如,摔倒、正常行走、奔跑等)的概率值,其他应用场景中,可以以此类推,在此不再一一举例。
步骤S76:利用预设标注信息和分析结果信息计算损失值。
具体地,可以利用均方误差(Mean Square Error)损失函数,或者交叉熵损失函数对预设标注信息和分析结果信息进行损失值计算,在此不做限定。
步骤S77:基于损失值,调整预设网络模型和偏移预测网络的参数。
在一个实施场景中,如前述步骤,还可以利用权重预测网络对第一样本多维特征图进行预测,得到权重信息,从而利用权重信息对偏移后的特征信息进行加权处理,并基于加权处理后的特征信息,得到第二样本多维特征信息,故此,基于损失值,还可以调整预设网络模型和偏移预测网络、权重预测网络的参数。具体地,可以调整预设网络模型中的卷积层、全连接层的参数,并调整偏移预测网络中的卷积层、全连接层的参数,并调整权重预测网络中的卷积层的参数。具体地,可以采用梯度下降法来调整参数,例如批量梯度下降法、随机梯度下降法。
在一个实施场景中,在调整参数之后,还可以重新执行上述步骤S72以及后续步骤,直至计算得到的损失值满足预设训练结束条件为止。具体地,预设训练结束条件可以包括:损失值小于一预设损失阈值,且损失值不再减小,或者,预设训练结束条件还可以包括:参数调整次数达到预设次数阈值,或者,预设训练结束条件还可以包括:利用测试视频测试网络性能达到预设要求(如,准确率达到一预设准确率阈值)。
上述方案,通过对样本视频进行特征提取,得到第一样本多维特征图,且第一样本多维特征图包含与样本视频对应的不同时序上的特征信息,并利用偏移预测网络对第一样本多维特征图进行预测,得到偏移信息,从而利用偏移信息对第一样本多维特征图的至少部分特征信息进行时序偏移,并基于偏移后的特征信息得到第二样本多维特征图,进而能够直接对样本视频的时序信息进行建模,有利于提高模型训练时的速度,且通过时序偏移,能够使空间信息和时序信息联合交错,故在此基础上进行分析处理,有利于后续提高视频分析的准确度。
请结合参阅图8,图8是本申请视频分析装置80一实施例的框架示意图。视频分析装置80包括视频获取模块81、特征提取模块82、偏移预测模块83、偏移处理模块84和网络分析模块85。视频获取模块81用于获取待分析视频;特征提取模块82用于利用预设网络模型对待分析视频进行特征提取,得到第一多维特征图,其中,第一多维特征图包含与待分析视频对应的不同时序上的特征信息;偏移预测模块83用于利用偏移预测网络对第一多维特征图进行预测,得到偏移信息;偏移处理模块84用于利用偏移信息对第一多维特征图的至少部分特征信息进行时序偏移,并基于偏移后的特征信息得到第二多维特征图;网络分析模块85用于利用预设网络模型对第二多维特征图进行分析,得到待分析视频的分析结果信息。
通过上述方案,能够直接对待分析视频的时序信息进行建模,有利于提高视频分析的处理速度,且通过时序偏移,能够使空间信息和时序信息联合交错,故在此基础上进行分析处理,有利于提高视频分析的准确度。
在一些实施例中,视频分析装置80还包括权重预测模块,用于利用权重预测网络对第一多维特征图进行预测,得到权重信息,偏移处理模块84包括偏移处理子模块,用于利用偏移信息对第一多维特征图的至少部分特征信息进行时序偏移,偏移处理模块84包括加权处理子模块,用于利用权重信息对偏移后的特征信息进行加权处理,偏移处理模块84包括特征图获取子模块,用于基于加权处理后的特征信息,得到第二多维特征图。
在一些实施例中,第一多维特征图的维度包括时序维度和预设维度,偏移处理子模块包括特征信息选择单元,用于按照预设维度从第一多维特征图中选择至少一组特征信息,其中,每组特征信息包括同一预设维度上对应不同时序的特征信息,偏移处理子模块包括时序偏移处理单元,用于利用偏移信息对至少一组特征信息在时序维度上进行偏移。
在一些实施例中,预设维度为通道维度;偏移信息包括第一数量个偏移值,至少一组特征信息包括第一数量组第一特征信息,时序偏移处理单元具体用于利用偏移信息中第i个偏移值对第i组第一特征信息在时序维度上进行偏移,得第i组第二特征信息,其中,i为小于或等于第一数量的正整数。
在一些实施例中,时序偏移处理单元包括数值范围获取子单元,用于获取第i个偏移值所属的数值范围,且数值范围的上限值与下限值之差为一预设数值,时序偏移处理单元包括时序偏移处理子单元,用于将第i组第一特征信息沿时序维度偏移上限值个时序单位,得到第i组第三特征信息,并将第i组第一特征信息沿时序维度偏移下限值个时序单位,得到第i组第四特征信息,时序偏移处理单元包括时序加权处理子单元,用于以第i个偏移值与下限值之间的差作为权重对第i组第三特征信息进行加权处理,得到第i组第一加权结果,并以上限值与第i个偏移值之间的差作为权重对第i组第四特征信息进行加权处理,得到第i组第二加权结果,时序偏移处理单元包括特征信息求和子单元,用于计算第i组第一加权结果和第i组第二加权结果之间的和,以作为第i组第二特征信息。
在一些实施例中,待分析视频包括第二数量帧图像,权重信息包括第二数量个权重值,加权处理子模块具体用于对偏移后的每组特征信息,分别利用权重信息中第j个权重值对当前组特征信息中的第j个时序对应的特征值进行加权处理,得到加权处理后的对应组特征信息;其中,j为小于或等于第二数量的正整数。
在一些实施例中,特征图获取子模块具体用于利用加权处理后的特征信息以及第一多维特征图中未被偏移的特征信息,组成第二多维特征图。
在一些实施例中,权重预测模块包括第一降采样子模块,用于利用权重预测网络的第一降采样层对第一多维特征图进行降采样,得到第一降采样结果,权重预测模块包括第一卷积子模块,用于利用权重预测网络的第一卷积层对第一降采样结果进行卷积处理,得到第一特征提取结果,权重预测模块包括第一激活模块,用于利用权重预测网络的第一激活层对第一特征提取结果进行非线性处理,得到权重信息。
在一些实施例中,偏移预测模块83包括第二降采样子模块,用于利用偏移预测网络的第二降采样层对第一多维特征图进行降采样,得到第二降采样结果,偏移预测模块83包括第二卷积子模块,用于利用偏移预测网络的第二卷积层对第二降采样结果进行卷积处理,得到第二特征提取结果,偏移预测模块83包括第一全连接子模块,用于利用偏移预测网络的第一全连接层对第二特征提取结果进行特征连接,得到第一特征连接结果,偏移预测模块83包括第二激活子模块,用于利用偏移预测网络的第二激活层对第一特征连接结果进行非线性处理,得到非线性处理结果,偏移预测模块83包括第二全连接子模块,用于利用偏移预测网络的第二全连接层对非线性处理结果进行特征连接,得到第二特征连接结果,偏移预测模块83包括第三激活子模块,用于利用偏移预测网络的第三激活层对第二特征连接结果进行非线性处理,得到偏移信息。
在一些实施例中,预设网络模型包括至少一个卷积层,特征提取模块82具体用于利用预设网络模型的一卷积层对待分析视频进行特征提取,得到第一多维特征图,若预设网络模型的卷积层的数量多于1,特征提取模块82还具体用于利用预设网络模型中未执行特征提取的卷积层对第二多维特征图进行特征提取,得到新的第一多维特征图,并结合偏移预测模块83和偏移处理模块84执行利用偏移预测网络对新的第一多维特征图进行预测,得到偏移信息的步骤以及后续步骤,以得到新的第二多维特征图,并结合特征提取模块82、偏移预测模块83和偏移处理模块84重复执行上述步骤,直至预设网络模型的所有卷积层均完成对新的第二多维特征图的特征提取步骤,网络分析模块85具体用于利用预设网络模型的全连接层对第二多维特征图进行分析,得到待分析视频的分析结果信息。
在一些实施例中,待分析视频包括若干帧图像,特征提取模块82包括特征提取子模块,用于利用预设网络模型分别对若干帧图像进行特征提取,得到与每一帧图像对应的特征图,特征提取模块82包括特征图拼接子模块,用于将若干个特征图按照与其对应的图像在待分析视频中的时序进行拼接,得到第一多维特征图。
请参阅图9,图7是本申请用于视频分析的模型训练装置90一实施例的框架示意图。用于视频分析的模型训练装置90包括视频获取模块91、特征提取模块92、偏移预测模块93、偏移处理模块94、网络分析模块95、损失计算模块96和参数调整模块97,视频获取模块91用于获取样本视频,其中,样本视频包括预设标注信息;特征提取模块92用于利用预设网络模型对样本视频进行特征提取,得到第一样本多维特征图,其中,第一样本多维特征图包含与样本视频对应的不同时序上的特征信息;偏移预测模块93用于利用偏移预测网络对第一样本多维特征图进行预测,得到偏移信息;偏移处理模块94用于利用偏移信息对第一样本多维特征图的至少部分特征信息进行时序偏移,并基于偏移后的特征信息得到第二样本多维特征图;网络分析模块95用于利用预设网络模型对第二样本多维特征图进行分析,得到样本视频的分析结果信息;损失计算模块96用于利用预设标注信息和分析结果信息计算损失值;参数调整模块97用于基于损失值,调整预设网络模型和偏移预测网络的参数。
通过上述方案,能够直接对样本视频的时序信息进行建模,有利于提高模型训练时的速度,且通过时序偏移,能够使空间信息和时序信息联合交错,故在此基础上进行分析处理,有利于后续提高视频分析的准确度。
在一些实施例中,用于视频分析的模型训练装置90还可以进一步包括其他模块,以执行上述用于视频分析的模型训练方法实施例中的相关步骤,具体可以参考上述视频分析装置实施例中的相关模块,在此不再赘述。
请参阅图10,图10是本申请电子设备100一实施例的框架示意图。电子设备100包括相互耦接的存储器101和处理器102,处理器102用于执行存储器101中存储的程序指令,以实现上述任一视频分析方法实施例的步骤,或实现上述任一用于视频分析的模型训练方法实施例中的步骤。在一个具体的实施场景中,电子设备100可以包括但不限于:微型计算机、服务器,此外,电子设备100还可以包括笔记本电脑、平板电脑等移动设备,在此不做限定。
具体而言,处理器102用于控制其自身以及存储器101以实现上述任一视频分析方法实施例的步骤,或实现上述任一用于视频分析的模型训练方法实施例中的步骤。处理器102还可以称为CPU(Central Processing Unit,中央处理单元)。处理器102可能是一种集成电路芯片,具有信号的处理能力。处理器102还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器102可以由集成电路芯片共同实现。
通过上述方案,能够直接对待分析视频的时序信息进行建模,有利于提高视频分析的处理速度,且通过时序偏移,能够使空间信息和时序信息联合交错,故在此基础上进行分析处理,有利于提高视频分析的准确度。
请参阅图11,图11为本申请计算机可读存储介质110一实施例的框架示意图。计算机可读存储介质110存储有能够被处理器运行的程序指令1101,程序指令1101用于实现上述任一视频分析方法实施例的步骤,或实现上述任一用于视频分析的模型训练方法实施例中的步骤。
通过上述方案,能够直接对待分析视频的时序信息进行建模,有利于提高视频分析的处理速度,且通过时序偏移,能够使空间信息和时序信息联合交错,故在此基础上进行分析处理,有利于提高视频分析的准确度。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (16)

1.一种视频分析方法,其特征在于,包括:
获取待分析视频;
利用预设网络模型对所述待分析视频进行特征提取,得到第一多维特征图,其中,所述第一多维特征图包含与所述待分析视频对应的不同时序上的特征信息;
利用偏移预测网络对所述第一多维特征图进行预测,得到偏移信息;
利用所述偏移信息对所述第一多维特征图的至少部分特征信息进行时序偏移,并基于偏移后的所述特征信息得到第二多维特征图;
利用所述预设网络模型对所述第二多维特征图进行分析,得到所述待分析视频的分析结果信息。
2.根据权利要求1所述的视频分析方法,其特征在于,在所述利用所述偏移信息对所述第一多维特征图的至少部分特征信息进行时序偏移,并基于偏移后的所述特征信息得到第二多维特征图之前,还包括:
利用权重预测网络对所述第一多维特征图进行预测,得到权重信息;
所述利用所述偏移信息对所述第一多维特征图的至少部分特征信息进行时序偏移,并基于偏移后的所述特征信息得到第二多维特征图,包括:
利用所述偏移信息对所述第一多维特征图的至少部分特征信息进行时序偏移;
利用所述权重信息对偏移后的所述特征信息进行加权处理;
基于所述加权处理后的所述特征信息,得到第二多维特征图。
3.根据权利要求2所述的视频分析方法,其特征在于,所述第一多维特征图的维度包括时序维度和预设维度;
所述利用所述偏移信息对所述第一多维特征图的至少部分特征信息进行时序偏移,包括:
按照预设维度从第一多维特征图中选择至少一组特征信息,其中,每组特征信息包括同一预设维度上对应不同时序的特征信息;
利用所述偏移信息对所述至少一组特征信息在时序维度上进行偏移。
4.根据权利要求3所述的视频分析方法,其特征在于,所述预设维度为通道维度;和/或,
所述偏移信息包括第一数量个偏移值,所述至少一组特征信息包括第一数量组第一特征信息;
所述利用所述偏移信息对所述至少一组特征信息在时序维度上进行偏移包括:
利用所述偏移信息中第i个所述偏移值对第i组所述第一特征信息在所述时序维度上进行偏移,得到第i组第二特征信息,其中,所述i为小于或等于所述第一数量的正整数。
5.根据权利要求4所述的视频分析方法,其特征在于,所述利用所述偏移信息中第i个所述偏移值对第i组所述第一特征信息在所述时序维度上进行偏移,得到第i组第二特征信息包括:
获取第i个所述偏移值所属的数值范围,且所述数值范围的上限值与下限值之差为一预设数值;
将第i组所述第一特征信息沿所述时序维度偏移所述上限值个时序单位,得到第i组第三特征信息,并将第i组所述第一特征信息沿所述时序维度偏移所述下限值个时序单位,得到第i组第四特征信息;
以第i个所述偏移值与所述下限值之间的差作为权重对第i组所述第三特征信息进行加权处理,得到第i组第一加权结果,并以所述上限值与所述第i个偏移值之间的差作为权重对第i组所述第四特征信息进行加权处理,得到第i组第二加权结果;
计算所述第i组第一加权结果和第i组第二加权结果之间的和,以作为第i组所述第二特征信息。
6.根据权利要求3所述的视频分析方法,其特征在于,所述待分析视频包括第二数量帧图像,所述权重信息包括第二数量个权重值;
所述利用所述权重信息对偏移后的所述特征信息进行加权处理包括:
对偏移后的每组特征信息,分别利用所述权重信息中第j个权重值对当前组特征信息中的第j个时序对应的特征值进行加权处理,得到加权处理后的对应组特征信息;
其中,所述j为小于或等于所述第二数量的正整数。
7.根据权利要求2所述的视频分析方法,其特征在于,所述基于所述加权处理后的所述特征信息,得到第二多维特征图,包括:
利用所述加权处理后的所述特征信息以及所述第一多维特征图中未被偏移的特征信息,组成所述第二多维特征图。
8.根据权利要求2所述的视频分析方法,其特征在于,所述利用权重预测网络对所述第一多维特征图进行预测,得到权重信息,包括:
利用所述权重预测网络的第一降采样层对所述第一多维特征图进行降采样,得到第一降采样结果;
利用所述权重预测网络的第一卷积层对所述第一降采样结果进行卷积处理,得到第一特征提取结果;
利用所述权重预测网络的第一激活层对所述第一特征提取结果进行非线性处理,得到所述权重信息。
9.根据权利要求1或2所述的视频分析方法,其特征在于,所述利用偏移预测网络对所述第一多维特征图进行预测,得到偏移信息,包括:
利用所述偏移预测网络的第二降采样层对所述第一多维特征图进行降采样,得到第二降采样结果;
利用所述偏移预测网络的第二卷积层对所述第二降采样结果进行卷积处理,得到第二特征提取结果;
利用所述偏移预测网络的第一全连接层对所述第二特征提取结果进行特征连接,得到第一特征连接结果;
利用所述偏移预测网络的第二激活层对所述第一特征连接结果进行非线性处理,得到非线性处理结果;
利用所述偏移预测网络的第二全连接层对所述非线性处理结果进行特征连接,得到第二特征连接结果;
利用所述偏移预测网络的第三激活层对所述第二特征连接结果进行非线性处理,得到所述偏移信息。
10.根据权利要求1或2所述的视频分析方法,其特征在于,所述预设网络模型包括至少一个卷积层;所述利用预设网络模型对所述待分析视频进行特征提取,得到第一多维特征图,包括:
利用预设网络模型的一卷积层对所述待分析视频进行特征提取,得到第一多维特征图;
若所述预设网络模型的卷积层的数量多于1,则在所述得到第二多维特征图之后,并在所述利用所述预设网络模型对所述第二多维特征图进行分析,得到所述待分析视频的分析结果信息之前,所述方法还包括:
利用所述预设网络模型中未执行特征提取的卷积层对所述第二多维特征图进行特征提取,得到新的第一多维特征图;
执行所述利用偏移预测网络对所述新的第一多维特征图进行预测,得到偏移信息的步骤以及后续步骤,以得到新的第二多维特征图;
重复执行上述步骤,直至所述预设网络模型的所有卷积层均完成对新的第二多维特征图的特征提取步骤;
所述利用所述预设网络模型对所述第二多维特征图进行分析,得到所述待分析视频的分析结果信息,包括:
利用所述预设网络模型的全连接层对所述第二多维特征图进行分析,得到所述待分析视频的分析结果信息。
11.根据权利要求1或2所述的视频分析方法,其特征在于,所述待分析视频包括若干帧图像,所述利用预设网络模型对所述待分析视频进行特征提取,得到第一多维特征图包括:
利用所述预设网络模型分别对所述若干帧图像进行特征提取,得到与每一帧图像对应的特征图;
将若干个所述特征图按照与其对应的图像在所述待分析视频中的时序进行拼接,得到所述第一多维特征图。
12.一种用于视频分析的模型训练方法,其特征在于,包括:
获取样本视频,其中,所述样本视频包括预设标注信息;
利用预设网络模型对所述样本视频进行特征提取,得到第一样本多维特征图,其中,所述第一样本多维特征图包含与所述样本视频对应的不同时序上的特征信息;
利用偏移预测网络对所述第一样本多维特征图进行预测,得到偏移信息;
利用所述偏移信息对所述第一样本多维特征图的至少部分特征信息进行时序偏移,并基于偏移后的所述特征信息得到第二样本多维特征图;
利用所述预设网络模型对所述第二样本多维特征图进行分析,得到所述样本视频的分析结果信息;
利用所述预设标注信息和所述分析结果信息计算损失值;
基于所述损失值,调整所述预设网络模型和所述偏移预测网络的参数。
13.一种视频分析装置,其特征在于,包括:
视频获取模块,用于获取待分析视频;
特征提取模块,用于利用预设网络模型对所述待分析视频进行特征提取,得到第一多维特征图,其中,所述第一多维特征图包含与所述待分析视频对应的不同时序上的特征信息;
偏移预测模块,用于利用偏移预测网络对所述第一多维特征图进行预测,得到偏移信息;
偏移处理模块,用于利用所述偏移信息对所述第一多维特征图的至少部分特征信息进行时序偏移,并基于偏移后的所述特征信息得到第二多维特征图;
网络分析模块,用于利用所述预设网络模型对所述第二多维特征图进行分析,得到所述待分析视频的分析结果信息。
14.一种用于视频分析的模型训练装置,其特征在于,包括:
视频获取模块,用于获取样本视频,其中,所述样本视频包括预设标注信息;
特征提取模块,用于利用预设网络模型对所述样本视频进行特征提取,得到第一样本多维特征图,其中,所述第一样本多维特征图包含与所述样本视频对应的不同时序上的特征信息;
偏移预测模块,用于利用偏移预测网络对所述第一样本多维特征图进行预测,得到偏移信息;
偏移处理模块,用于利用所述偏移信息对所述第一样本多维特征图的至少部分特征信息进行时序偏移,并基于偏移后的所述特征信息得到第二样本多维特征图;
网络分析模块,用于利用所述预设网络模型对所述第二样本多维特征图进行分析,得到所述样本视频的分析结果信息;
损失计算模块,用于利用所述预设标注信息和所述分析结果信息计算损失值;
参数调整模块,用于基于所述损失值,调整所述预设网络模型和所述偏移预测网络的参数。
15.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现权利要求1至11任一项所述的视频分析方法,或实现权利要求12所述的模型训练方法。
16.一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求1至11任一项所述的视频分析方法,或实现权利要求12所述的模型训练方法。
CN202010053048.4A 2020-01-17 2020-01-17 视频分析方法及其相关的模型训练方法、设备、装置 Active CN111291631B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202010053048.4A CN111291631B (zh) 2020-01-17 2020-01-17 视频分析方法及其相关的模型训练方法、设备、装置
KR1020217013635A KR20210093875A (ko) 2020-01-17 2020-03-10 비디오 분석 방법 및 연관된 모델 훈련 방법, 기기, 장치
PCT/CN2020/078656 WO2021142904A1 (zh) 2020-01-17 2020-03-10 视频分析方法及其相关的模型训练方法、设备、装置
JP2021521512A JP7096431B2 (ja) 2020-01-17 2020-03-10 ビデオ分析方法及びそれに関連するモデル訓練方法、機器、装置
TW109113378A TWI761813B (zh) 2020-01-17 2020-04-21 視頻分析方法及其相關的模型訓練方法、電子設備、儲存介質

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010053048.4A CN111291631B (zh) 2020-01-17 2020-01-17 视频分析方法及其相关的模型训练方法、设备、装置

Publications (2)

Publication Number Publication Date
CN111291631A CN111291631A (zh) 2020-06-16
CN111291631B true CN111291631B (zh) 2023-11-07

Family

ID=71025430

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010053048.4A Active CN111291631B (zh) 2020-01-17 2020-01-17 视频分析方法及其相关的模型训练方法、设备、装置

Country Status (5)

Country Link
JP (1) JP7096431B2 (zh)
KR (1) KR20210093875A (zh)
CN (1) CN111291631B (zh)
TW (1) TWI761813B (zh)
WO (1) WO2021142904A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695519B (zh) * 2020-06-12 2023-08-08 北京百度网讯科技有限公司 关键点定位方法、装置、设备以及存储介质
CN112417952B (zh) * 2020-10-10 2022-11-11 北京理工大学 一种车辆碰撞防控系统的环境视频信息可用性测评方法
CN112464898A (zh) * 2020-12-15 2021-03-09 北京市商汤科技开发有限公司 事件检测方法及装置、电子设备和存储介质
CN112949449B (zh) * 2021-02-25 2024-04-19 北京达佳互联信息技术有限公司 交错判断模型训练方法及装置和交错图像确定方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229280A (zh) * 2017-04-20 2018-06-29 北京市商汤科技开发有限公司 时域动作检测方法和系统、电子设备、计算机存储介质
CN109919025A (zh) * 2019-01-30 2019-06-21 华南理工大学 基于深度学习的视频场景文本检测方法、系统、设备及介质
CN110084742A (zh) * 2019-05-08 2019-08-02 北京奇艺世纪科技有限公司 一种视差图预测方法、装置及电子设备
CN110660082A (zh) * 2019-09-25 2020-01-07 西南交通大学 一种基于图卷积与轨迹卷积网络学习的目标跟踪方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199902A (zh) 2014-08-27 2014-12-10 中国科学院自动化研究所 一种线性动态系统的相似性度量计算方法
US10223582B2 (en) * 2014-10-28 2019-03-05 Watrix Technology Gait recognition method based on deep learning
US9626803B2 (en) * 2014-12-12 2017-04-18 Qualcomm Incorporated Method and apparatus for image processing in augmented reality systems
CN108229522B (zh) 2017-03-07 2020-07-17 北京市商汤科技开发有限公司 神经网络的训练方法、属性检测方法、装置及电子设备
US10707837B2 (en) 2017-07-06 2020-07-07 Analog Photonics LLC Laser frequency chirping structures, methods, and applications
WO2019035854A1 (en) * 2017-08-16 2019-02-21 Kla-Tencor Corporation MACHINE LEARNING IN RELATION TO METROLOGY MEASUREMENTS
US10430654B1 (en) * 2018-04-20 2019-10-01 Surfline\Wavetrak, Inc. Automated detection of environmental measures within an ocean environment using image data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229280A (zh) * 2017-04-20 2018-06-29 北京市商汤科技开发有限公司 时域动作检测方法和系统、电子设备、计算机存储介质
CN109919025A (zh) * 2019-01-30 2019-06-21 华南理工大学 基于深度学习的视频场景文本检测方法、系统、设备及介质
CN110084742A (zh) * 2019-05-08 2019-08-02 北京奇艺世纪科技有限公司 一种视差图预测方法、装置及电子设备
CN110660082A (zh) * 2019-09-25 2020-01-07 西南交通大学 一种基于图卷积与轨迹卷积网络学习的目标跟踪方法

Also Published As

Publication number Publication date
TWI761813B (zh) 2022-04-21
WO2021142904A1 (zh) 2021-07-22
KR20210093875A (ko) 2021-07-28
JP7096431B2 (ja) 2022-07-05
CN111291631A (zh) 2020-06-16
JP2022520511A (ja) 2022-03-31
TW202129535A (zh) 2021-08-01

Similar Documents

Publication Publication Date Title
CN111291631B (zh) 视频分析方法及其相关的模型训练方法、设备、装置
Oh et al. Crowd counting with decomposed uncertainty
Li et al. No-reference image quality assessment with deep convolutional neural networks
US20220215227A1 (en) Neural Architecture Search Method, Image Processing Method And Apparatus, And Storage Medium
CN111859023B (zh) 视频分类方法、装置、设备及计算机可读存储介质
Ghadiyaram et al. Blind image quality assessment on real distorted images using deep belief nets
WO2021042857A1 (zh) 图像分割模型的处理方法和处理装置
CN112883227B (zh) 一种基于多尺度时序特征的视频摘要生成方法和装置
EP3991102A1 (en) Pruning and/or quantizing machine learning predictors
CN112561028A (zh) 训练神经网络模型的方法、数据处理的方法及装置
CN113221694A (zh) 一种动作识别方法
TW202209194A (zh) 目標模型的獲取
CN112883231A (zh) 短视频流行度预测方法、系统、电子设备及存储介质
Babu et al. No reference opinion unaware quality assessment of authentically distorted images
CN112307934B (zh) 图像检测方法及相关模型的训练方法、装置、设备、介质
CN110717374A (zh) 一种基于改进的多层感知机的高光谱遥感影像分类方法
CN117237756A (zh) 一种训练目标分割模型的方法、目标分割方法及相关装置
CN116758331A (zh) 物体检测方法、装置及存储介质
CN114155388B (zh) 一种图像识别方法、装置、计算机设备和存储介质
CN111144220A (zh) 适于大数据的人员检测方法、装置、设备和介质
CN115661618A (zh) 图像质量评估模型的训练方法、图像质量评估方法及装置
CN115063374A (zh) 模型训练、人脸图像质量评分方法、电子设备及存储介质
Shang et al. Real-time Accurate Object Counting for Smart Farms
CN111860949B (zh) 基于时序图像的预测方法及装置
CN112132175A (zh) 对象分类方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40021532

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant