CN116543460A - 基于人工智能的时空动作识别方法及相关设备 - Google Patents

基于人工智能的时空动作识别方法及相关设备 Download PDF

Info

Publication number
CN116543460A
CN116543460A CN202310498346.8A CN202310498346A CN116543460A CN 116543460 A CN116543460 A CN 116543460A CN 202310498346 A CN202310498346 A CN 202310498346A CN 116543460 A CN116543460 A CN 116543460A
Authority
CN
China
Prior art keywords
recognition
video frame
video
identification
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310498346.8A
Other languages
English (en)
Inventor
何辰立
张恒源
陆进
陈远旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202310498346.8A priority Critical patent/CN116543460A/zh
Publication of CN116543460A publication Critical patent/CN116543460A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/16Image acquisition using multiple overlapping images; Image stitching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Image Analysis (AREA)

Abstract

本申请提出一种基于人工智能的时空动作识别方法、装置、电子设备及存储介质,基于人工智能的时空动作识别方法包括:搭建第一识别网络,第一识别网络包括目标检测模块、交互特征提取模块和动作识别模块;训练第一识别网络以获取第二识别网络,第二识别网络的输入为视频片段,输出为视频片段的待识别视频帧中各识别对象的位置信息和动作类别;在不同的播放速度下,选取待识别视频帧前后预设时间段内的视频帧以组成多个视频片段;将多个视频片段依次输入第二识别网络,输出各视频片段的初始识别结果;融合所有初始识别结果得到待识别视频帧的时空动作识别结果。本申请能提高时空动作识别的准确率。

Description

基于人工智能的时空动作识别方法及相关设备
技术领域
本申请涉及人工智能技术领域,尤其涉及一种基于人工智能的时空动作识别方法及相关设备。
背景技术
在金融、银行或医疗康复领域内,需要对视频中的每个人进行时空动作识别判断是否存在异常行为,确保银行客户或患者的安全。在时空动作识别任务中不仅需要识别视频中动作出现的区间和对应的类别,还要在空间范围内用一个包围框标记出人员的空间位置。
目前,常常需要检测出视频帧中的人员,然后将固定的时间间隔内的视频帧作为该人员的上下文信息,直接获取动作识别结果,然而,这种方式忽略了不同动作发生的时间间隔差异很大的现象,且没有考虑人员与环境、其他人和对象的交互信息,导致时空动作识别结果的误差较大。
发明内容
鉴于以上内容,有必要提出一种基于人工智能的时空动作识别方法及相关设备,以解决如何提高时空动作识别结果的准确率这一技术问题,其中,相关设备包括基于人工智能的时空动作识别装置、电子设备及存储介质。
本申请提供基于人工智能的时空动作识别方法,所述方法包括:
搭建第一识别网络,所述第一识别网络包括目标检测模块、交互特征提取模块和动作识别模块,所述目标检测模块用于定位待识别视频帧中所有识别对象的位置信息,所述交互特征提取模块用于提取待识别视频帧中各识别对象与环境和其他识别对象之间的交互信息,所述动作识别模块用于识别待识别视频帧中所有识别对象的动作类别;
训练所述第一识别网络以获取第二识别网络,所述第二识别网络的输入为视频片段,输出为所述视频片段对应的待识别视频帧中各识别对象的位置信息和动作类别,所述待识别视频帧为所述视频片段的中间位置的视频帧;
从待识别视频中选取任意一个待识别视频帧前后预设时间段内的视频帧以组成一个视频片段,调整所述待识别视频的播放速度以获取所述待识别视频帧对应的多个视频片段;
将所述多个视频片段依次输入所述第二识别网络,输出每一个视频片段的初始识别结果,所述初始识别结果包括所述待识别视频帧中各识别对象的初始位置信息和初始动作类别;
融合不同视频片段的初始识别结果得到所述待识别视频帧的时空动作识别结果,所述时空动作识别结果包括所述待识别视频帧中各识别对象的优化位置信息和优化动作类别。
在一些实施例中,所述搭建第一识别网络包括:
所述目标检测模块的输入为所述待识别视频帧,输出所述待识别视频帧中所有识别对象的位置信息,所述位置信息包括包围识别对象的矩形框的中心点坐标和宽高尺寸;
基于所述识别对象的矩形框对所述待识别视频帧进行裁剪,得到各识别对象的裁剪图;
所述交互特征提取模块的输入为所述视频片段和各识别对象的裁剪图,所述交互特征提取模块包括环境特征提取层和交互特征提取层;
所述环境特征提取层用于提取所述视频片段的静态特征和动态特征,并将所述静态特征和所述动态特征拼接在一起作为环境特征;
在所述交互特征提取层中,利用卷积神经网络对各识别对象的裁剪图进行多次卷积操作得到每个识别对象的姿态特征,拼接所述姿态特征和所述环境特征以获取每个识别对象的第一交互特征,所述第一交互特征用于表征识别对象与环境之间的交互信息;
基于自注意力机制对不同识别对象的第一交互特征进行处理以构建每个识别对象的第二交互特征,所述第二交互特征用于表征识别对象与其他识别对象之间的交互信息;
将相同识别对象的所述第一交互特征和所述第二交互特征相加得到各识别对象的融合交互特征后,将所述融合交互特征输入所述动作识别模块,得到所述待识别视频帧中所有识别对象的动作类别;
将所述待识别视频帧中所有识别对象的所述位置信息和所述动作类别作为所述第一识别网络的输出结果。
在一些实施例中,所述拼接所述姿态特征和所述环境特征以获取每个识别对象的第一交互特征之前,所述方法还包括:
对每个识别对象的姿态特征执行ROI Align操作,所述ROI Align操作用于将不同尺寸的姿态特征处理为预设尺寸。
在一些实施例中,所述基于自注意力机制对不同识别对象的第一交互特征进行处理以构建每个识别对象的第二交互特征包括:
将所有识别对象的第一交互特征沿着列方向按照预设顺序进行排列,得到第一交互矩阵,所述第一交互矩阵中的每一行对应一个识别对象的第一交互特征;
对所述第一交互矩阵与参数化矩阵相乘得到Q矩阵、K矩阵和V矩阵,所述Q矩阵,所述K矩阵和所述V矩阵分别包括所有识别对象的Q向量、K向量和V向量;
基于自注意力机制对所述Q矩阵、所述K矩阵和所述V矩阵进行处理以构建第二交互矩阵,所述第二交互矩阵中的每一行对应一个识别对象的第二交互特征,所述第二交互矩阵满足关系式:
其中,Q,K,V分别表示Q矩阵、K矩阵和V矩阵,KT表示K矩阵的转置,d为所有识别对象的数量,F2所述第二交互矩阵;
从所述第二交互矩阵提取每个识别对象的第二交互特征。
在一些实施例中,所述训练所述第一识别网络以获取第二识别网络包括:
采集多个带有标注信息的视频片段以构建训练集,所述标注信息包括所述视频片段对应的待检测视频帧中所有识别对象的真实位置信息和真实动作类别;
从所述训练集中挑选视频片段并输入所述第一识别网络以获取识别结果,所述识别结果包括所述视频片段对应的待检测视频帧中所有识别对象的预测位置信息和预测动作类别;
基于所述识别结果和所述标注信息计算代价函数,所述代价函数满足关系式:
其中,B为待检测视频帧中识别对象的数量,Zi和Yi分别为待检测视频帧中识别对象i的预测位置信息和预测动作类别,和/>分别为待检测视频帧中识别对象i的真实位置信息和真实动作类别,/>表示计算Zi和/>之间的欧氏距离,/>表示计算Yi和/>之间的交叉熵损失,Loss为所述代价函数的取值;
基于反向传播算法更新所述第一识别网络的可训练参数;
不断从所述训练集中挑选视频片段以更新所述第一识别网络的可训练参数,直到所述代价函数的取值小于预设取值时停止,得到第二识别网络。
在一些实施例中,所述从待识别视频中选取任意一个待识别视频帧前后预设时间段内的视频帧以组成一个视频片段包括:
从所述待识别视频中选取所述待识别视频帧之前预设时间段内的视频帧作为第一视频帧序列;
从所述待识别视频中选取所述待识别视频帧之后预设时间段内的视频帧作为第二视频帧序列;
对比所述第一视频帧序列和所述第二视频帧序列中视频帧的数量;
若所述第一视频帧序列中视频帧的数量大于所述第二视频帧序列,则在所述第二视频帧序列的末端补充空白图像以使所述第一视频帧序列中视频帧的数量等于所述第二视频帧序列;
若所述第一视频帧序列中视频帧的数量小于所述第二视频帧序列,则在所述第一视频帧序列的前段补充空白图像以使所述第一视频帧序列中视频帧的数量等于所述第二视频帧序列;
当所述第一视频帧序列中视频帧的数量等于所述第二视频帧序列时,依次将所述第一视频帧序列、所述待识别视频帧和所述第二视频帧序列排列在一起以组成一个视频片段。
在一些实施例中,所述融合不同视频片段的初始识别结果得到所述待识别视频帧的时空动作识别结果包括:
从所有初始识别结果中提取所述待识别视频帧中各识别对象的初始动作类别;
从同一个识别对象的所有初始动作类别中,选取出现次数最多的初始动作类别作为所述识别对象的优化动作类别;
从所有初始识别结果中提取所述待识别视频帧中各识别对象的初始位置信息,并计算同一个识别对象所有初始位置信息的均值以获取各识别对象的优化位置信息;
将所述待识别视频帧中各识别对象的优化位置信息和优化动作类别作为时空动作识别结果。
本申请实施例还提供一种基于人工智能的时空动作识别装置,所述装置包括:
搭建单元,用于搭建第一识别网络,所述第一识别网络包括目标检测模块、交互特征提取模块和动作识别模块,所述目标检测模块用于定位待识别视频帧中所有识别对象的位置信息,所述交互特征提取模块用于提取待识别视频帧中各识别对象与环境和其他识别对象之间的交互信息,所述动作识别模块用于识别待识别视频帧中所有识别对象的动作类别;
训练单元,用于训练所述第一识别网络以获取第二识别网络,所述第二识别网络的输入为视频片段,输出为所述视频片段对应的待识别视频帧中各识别对象的位置信息和动作类别,所述待识别视频帧为所述视频片段的中间位置的视频帧;
选取单元,用于从待识别视频中选取任意一个待识别视频帧前后预设时间段内的视频帧以组成一个视频片段,调整所述待识别视频的播放速度以获取所述待识别视频帧对应的多个视频片段;
输出单元,用于将所述多个视频片段依次输入所述第二识别网络,输出每一个视频片段的初始识别结果,所述初始识别结果包括所述待识别视频帧中各识别对象的初始位置信息和初始动作类别;
融合单元,用于融合不同视频片段的初始识别结果得到所述待识别视频帧的时空动作识别结果,所述时空动作识别结果包括所述待识别视频帧中各识别对象的优化位置信息和优化动作类别。
本申请实施例还提供一种电子设备,所述电子设备包括:
存储器,存储至少一个指令;
处理器,执行所述存储器中存储的指令以实现所述的基于人工智能的时空动作识别方法。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现所述的基于人工智能的时空动作识别方法。
综上,本申请通过调整待识别视频的播放速度来采集包括不同上下文信息的视频片段,一个待识别视频帧对应多个视频片段;将每个视频片段输入第二识别网络以提取待识别视频帧中每个识别对象与环境和其他识别对象之间的交互信息,并基于交互信息得到初始识别结果;最后,融合不同视频片段的初始识别结果得到时空动作识别结果,提高了时空动作识别结果的准确性。
附图说明
图1是本申请所涉及的基于人工智能的时空动作识别方法的较佳实施例的流程图。
图2是本申请所涉及的第一识别网络的结构示意图。
图3是本申请所涉及的基于人工智能的时空动作识别装置的较佳实施例的功能模块图。
图4是本申请所涉及的基于人工智能的时空动作识别方法的较佳实施例的电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本申请的目的、特征和优点,下面结合附图和具体实施例对本申请进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互结合。在下面的描述中阐述了很多具体细节以便于充分理解本申请,所述描述的实施例仅是本申请一部分实施例,而不是全部的实施例。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
本申请实施例提供一种基于人工智能的时空动作识别方法,可应用于一个或者多个电子设备中,电子设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
电子设备可以是任何一种可与客户进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)、游戏机、交互式网络电视(Internet Protocol Television,IPTV)、智能式穿戴式设备等。
电子设备还可以包括网络设备和/或客户设备。其中,所述网络设备包括,但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量主机或网络服务器构成的云。
电子设备所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network,VPN)等。
如图1所示,是本申请基于人工智能的时空动作识别方法的较佳实施例的流程图。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。本申请实施例提供的基于人工智能的时空动作识别方法能够应用于任一种需要进行时空动作识别的场景中,且该方法能够应用于这些场景的产品中,例如,金融、银行或医疗康复领域内的异常行为识别等等。
S10,搭建第一识别网络,所述第一识别网络包括目标检测模块、交互特征提取模块和动作识别模块,所述目标检测模块用于定位待识别视频帧中所有识别对象的位置信息,所述交互特征提取模块用于提取所述待识别视频帧中各识别对象与环境和其他识别对象之间的交互信息,所述动作识别模块用于识别所述待识别视频帧中所有识别对象的动作类别。
在一个可选的实施例中,所述第一识别网络的输入为任意一个视频片段,预期输出为所述视频片段对应的待识别视频帧中每个识别对象的位置信息和动作类别。其中,所述待识别视频帧为所述视频片段的中间位置的视频帧;所述识别对象为所述视频片段中动作的执行主体,可以为人、机器人、动物等,所述动作类别和所述识别对象与具体的应用场景有关。示例性的,在医疗康复领域内,所述识别对象为患者,所述动作类别为不同的康复动作。
请参见图2,图2是本申请所涉及的第一识别网络的结构示意图。在一个可选的实施例中,所述搭建第一识别网络包括:
所述目标检测模块10的输入为所述待识别视频帧,输出所述待识别视频帧中所有识别对象的位置信息,所述位置信息包括包围识别对象的矩形框的中心点坐标和宽高尺寸;
基于所述识别对象的矩形框对所述待识别视频帧进行裁剪,得到各识别对象的裁剪图;
所述交互特征提取模块20的输入为所述视频片段和各识别对象的裁剪图,所述交互特征提取模块20包括环境特征提取层201和交互特征提取层202;
所述环境特征提取层201用于提取所述视频片段的静态特征和动态特征,并将所述静态特征和所述动态特征拼接在一起作为环境特征;
在所述交互特征提取层202中,利用卷积神经网络对各识别对象的裁剪图进行多次卷积操作得到每个识别对象的姿态特征,拼接所述姿态特征和所述环境特征以获取每个识别对象的第一交互特征,所述第一交互特征用于表征识别对象与环境之间的交互信息;
基于自注意力机制对不同识别对象的第一交互特征进行处理以构建每个识别对象的第二交互特征,所述第二交互特征用于表征识别对象与其他识别对象之间的交互信息;
将相同识别对象的所述第一交互特征和所述第二交互特征相加得到各识别对象的融合交互特征后,将所述融合交互特征输入所述动作识别模块30,得到所述待识别视频帧中所有识别对象的动作类别;
将所述待识别视频帧中所有识别对象的所述位置信息和所述动作类别作为所述第一识别网络的输出结果。
其中,所述目标检测模块10为YOLO、CenterNet、Faster RCNN等现有的目标检测网络中的任意一个。
所述环境特征提取层201为快慢双通道网络SlowFast,SlowFast可对同一个视频片段应用两个平行的卷积神经网络进行处理,一个是Slow分支,用于提取视频片段中的静态特征,另一个是Fast分支,用于提取视频中的动态特征,并将两个分支输出的特征向量拼接在一起作为所述视频片段的环境特征。
所述交互特征提取层包括卷积神经网络和自注意力层,所述卷积神经网络为ResNet、Densenet等现有的神经网络,所述自注意力层为Transformer中的注意力机制。
所述动作识别模块30为包含分类器的全连接网络,所述分类器为softmax函数。
在一个可选的实施例中,所述拼接所述姿态特征和所述环境特征以获取每个识别对象的第一交互特征之前,所述方法还包括:
对每个识别对象的姿态特征执行ROI Align操作,所述ROI Align操作用于将不同尺寸的姿态特征处理为预设尺寸。
需要说明的是,在待检测视频帧中,会由于不同识别对象的身高和距离视频采集装置的距离不同,导致不同识别对象的裁剪图的尺寸不同,进而导致不同识别对象对应的姿态特征的尺寸不同,ROI Align操作可以将不同尺寸的姿态特征处理为相同的预设尺寸。如此,可以使每个识别对象的第一交互特征的尺寸相同,进而保证在构建第二交互特征的过程中不会报错。
在一个可选的实施例中,所述基于自注意力机制对不同识别对象的第一交互特征进行处理以构建每个识别对象的第二交互特征包括:
将所有识别对象的第一交互特征沿着列方向按照预设顺序进行排列,得到第一交互矩阵,所述第一交互矩阵中的每一行对应一个识别对象的第一交互特征;
对所述第一交互矩阵与参数化矩阵相乘得到Q矩阵、K矩阵和V矩阵,所述Q矩阵,所述K矩阵和所述V矩阵分别包括所有识别对象的Q向量、K向量和V向量;
基于自注意力机制对所述Q矩阵、所述K矩阵和所述V矩阵进行处理以构建第二交互矩阵,所述第二交互矩阵中的每一行对应一个识别对象的第二交互特征,所述第二交互矩阵满足关系式:
其中,Q,K,V分别表示Q矩阵、K矩阵和V矩阵,KT表示K矩阵的转置,d为所有识别对象的数量,F2所述第二交互矩阵;
从所述第二交互矩阵提取每个识别对象的第二交互特征。
该可选的实施例中,所述第一交互特征的尺寸为1行N列,其中N的取值与所述第一识别网络的网络结构有关,将所述待识别视频帧中识别对象的数量记为M,则所述第一交互矩阵的尺寸为M行N列。
该可选的实施例中,所述Q矩阵、所述K矩阵和所述V矩阵满足关系式:
其中,分别为Q矩阵、K矩阵和V矩阵对应的参数化矩阵,且参数化矩阵的尺寸为N行P列,P为预先设定,所述参数化矩阵中的数值为可训练参数,其具体取值由所述第一识别网络的训练过程决定;所述Q矩阵、所述K矩阵和所述V矩阵的尺寸均为M行P列,即识别对象的Q向量、K向量和V向量的尺寸为1行P列。
需要说明的是,在自注意力机制中,Q向量、K向量和V向量可以视为第一交互特征的拆分向量,将每一个第一交互特征拆分为Q向量、K向量和V向量三个向量。
所述第二交互矩阵为基于所述Q矩阵、所述K矩阵和所述V矩阵计算得到,故所述第二交互矩阵的尺寸信息为M行P列,所述第二交互矩阵中的每一行对应一个识别对象的第二交互特征,即识别对象的第二交互特征的尺寸为1行P列。
如此,完成第一识别网络的搭建,所述第一识别网络能够提取待识别视频帧中每一个识别对象与环境和其他识别对象之间的交互信息,并基于交互信息得到所述待识别视频帧中每一个识别对象的动作类别和位置信息,提高动作识别的准确性。
S11,训练所述第一识别网络以获取第二识别网络,所述第二识别网络的输入为视频片段,输出为所述视频片段对应的待识别视频帧中各识别对象的位置信息和动作类别,所述待识别视频帧为所述视频片段的中间位置的视频帧。
在一个可选的实施例中,为了约束所述第一识别网络能够准确输出视频片段对应的待识别视频帧中各识别对象的位置信息和动作类别,需要对所述第一识别网络进行训练以更新所述第一识别网络的可训练参数。其中,所述第一识别网络的可训练参数包括所述目标检测模块、所述述动作识别模块和所述环境特征提取层中卷积层和全连接层中的权重,以及所述交互特征提取层中的参数化矩阵。
在一个可选的实施例中,所述训练所述第一识别网络以获取第二识别网络包括:
采集多个带有标注信息的视频片段以构建训练集,所述标注信息包括所述视频片段对应的待检测视频帧中所有识别对象的真实位置信息和真实动作类别;
从所述训练集中挑选视频片段并输入所述第一识别网络以获取识别结果,所述识别结果包括所述视频片段对应的待检测视频帧中所有识别对象的预测位置信息和预测动作类别;
基于所述识别结果和所述标注信息计算代价函数,所述代价函数满足关系式:
其中,B为待检测视频帧中识别对象的数量,Zi和Yi分别为待检测视频帧中识别对象i的预测位置信息和预测动作类别,和/>分别为待检测视频帧中识别对象i的真实位置信息和真实动作类别,/>表示计算Zi和/>之间的欧氏距离,/>表示计算Yi和/>之间的交叉熵损失,Loss为所述代价函数的取值;
基于反向传播算法更新所述第一识别网络的可训练参数;
不断从所述训练集中挑选视频片段以更新所述第一识别网络的可训练参数,直到所述代价函数的取值小于预设取值时停止,得到第二识别网络。
其中,所述预设取值为0.001。
如此,获取第二识别网络,所述第二识别网络的输入为视频片段,能够准确输出所述视频片段对应的待识别视频帧中各识别对象的位置信息和动作类别。
S12,从待识别视频中选取任意一个待识别视频帧前后预设时间段内的视频帧以组成一个视频片段,调整所述待识别视频的播放速度以获取所述待识别视频帧对应的多个视频片段。
在一个可选的实施例中,所述待识别视频为需要进行时空动作识别的任意视频,所述待识别视频中的所有视频帧均为所述待识别视频帧。
在一个可选的实施例中,所述从待识别视频中选取任意一个待识别视频帧前后预设时间段内的视频帧以组成一个视频片段包括:
从所述待识别视频中选取所述待识别视频帧之前预设时间段内的视频帧作为第一视频帧序列;
从所述待识别视频中选取所述待识别视频帧之后预设时间段内的视频帧作为第二视频帧序列;
对比所述第一视频帧序列和所述第二视频帧序列中视频帧的数量;
若所述第一视频帧序列中视频帧的数量大于所述第二视频帧序列,则在所述第二视频帧序列的末端补充空白图像以使所述第一视频帧序列中视频帧的数量等于所述第二视频帧序列;
若所述第一视频帧序列中视频帧的数量小于所述第二视频帧序列,则在所述第一视频帧序列的前段补充空白图像以使所述第一视频帧序列中视频帧的数量等于所述第二视频帧序列;
当所述第一视频帧序列中视频帧的数量等于所述第二视频帧序列时,依次将所述第一视频帧序列、所述待识别视频帧和所述第二视频帧序列排列在一起以组成一个视频片段。
其中,所述预设时间段为5秒;所述空白图像为与所述视频帧大小相等且像素值全为0的图像;所述第一视频帧序列反应所述待识别视频帧之前的信息,所述第二视频帧序列反应所述待识别视频帧之后的信息,故所述视频片段为所述待识别视频帧提供了上下文信息,用于辅助所述待识别视频帧的时空行为识别。
在实际场景中,由于不同动作持续的时间差异很大,比如扣篮动作可能会持续10秒钟,而撑杆跳动作的完成则需要一分钟甚至更多,为了确保视频片段能够提供足够的上下文信息,适用于不同动作的时空动作检测,本申请多次调整所述待识别视频的播放速度,以获取包含不同上下文信息的视频片段。
在一个可选的实施例中,所述播放速度包括0.5倍速、正常倍速、2倍速、3倍速、4倍速,所述播放速度的调整次数和具体的播放速度为预先设定;每调整一次播放速度采集一个视频片段,一个待识别视频帧可对应多个视频片段。所述播放速度越快,单位时间内包含视频帧的数量就越多,所述播放速度对应的视频片段中视频帧的数量也越多,所述视频片段提供的上下文信息也越多。
如此,针对所述待识别视频中的待识别视频帧,采集了多个视频片段,不同视频片段为所述待识别视频帧提供了不同时间长度的上下文信息,可以获取更为丰富的环境特征,避免了因不同动作持续的时间差异很大导致的上下文信息缺失,进而提高后续时空行为识别的准确性。
S13,将所述多个视频片段依次输入所述第二识别网络,输出每一个视频片段的初始识别结果,所述初始识别结果包括所述待识别视频帧中各识别对象的初始位置信息和初始动作类别。
在一个可选的实施例中,将所述待识别视频帧对应的多个视频片段分别输入所述第二识别网络,得到每一个视频片段的初始识别结果,即一个待识别视频帧对应多个初始识别结果,不同初始识别结果对应不同的上下文信息。
如此,将包含不同上下文信息的视频片段输入第二识别网络,得到待识别视频帧对应的多个初始识别结果。
S14,融合不同视频片段的初始识别结果得到所述待识别视频帧的时空动作识别结果,所述时空动作识别结果包括所述待识别视频帧中各识别对象的优化位置信息和优化动作类别。
在一个可选的实施例中,所述融合不同视频片段的初始识别结果得到所述待识别视频帧的时空动作识别结果包括:
从所有初始识别结果中提取所述待识别视频帧中各识别对象的初始动作类别;
从同一个识别对象的所有初始动作类别中,选取出现次数最多的初始动作类别作为所述识别对象的优化动作类别;
从所有初始识别结果中提取所述待识别视频帧中各识别对象的初始位置信息,并计算同一个识别对象所有初始位置信息的均值以获取各识别对象的优化位置信息;
将所述待识别视频帧中各识别对象的优化位置信息和优化动作类别作为时空动作识别结果。
如此,将待识别视频帧对应的多个初始识别结果进行融合,得到最终的时空动作识别结果,提高了时空行为检测的准确性。
由以上技术方案可以看出,本申请通过调整待识别视频的播放速度来采集包括不同上下文信息的视频片段,一个待识别视频帧对应多个视频片段;将每个视频片段输入第二识别网络以提取待识别视频帧中每个识别对象与环境和其他识别对象之间的交互信息,并基于交互信息得到初始识别结果;最后,融合不同视频片段的初始识别结果得到时空动作识别结果,提高了时空动作识别结果的准确性。
请参见图3,图3是本申请基于人工智能的时空动作识别装置的较佳实施例的功能模块图。基于人工智能的时空动作识别装置11包括搭建单元110、训练单元111、选取单元112、输出单元113、融合单元114。本申请所称的模块/单元是指一种能够被处理器13所执行,并且能够完成固定功能的一系列计算机可读指令段,其存储在存储器12中。在本实施例中,关于各模块/单元的功能将在后续的实施例中详述。
在一个可选的实施例中,搭建单元110用于搭建第一识别网络,所述第一识别网络包括目标检测模块、交互特征提取模块和动作识别模块,所述目标检测模块用于定位待识别视频帧中所有识别对象的位置信息,所述交互特征提取模块用于提取待识别视频帧中各识别对象与环境和其他识别对象之间的交互信息,所述动作识别模块用于识别待识别视频帧中所有识别对象的动作类别。
在一个可选的实施例中,所述搭建第一识别网络包括:
所述目标检测模块的输入为所述待识别视频帧,输出所述待识别视频帧中所有识别对象的位置信息,所述位置信息包括包围识别对象的矩形框的中心点坐标和宽高尺寸;
基于所述识别对象的矩形框对所述待识别视频帧进行裁剪,得到各识别对象的裁剪图;
所述交互特征提取模块的输入为所述视频片段和各识别对象的裁剪图,所述交互特征提取模块包括环境特征提取层和交互特征提取层;
所述环境特征提取层用于提取所述视频片段的静态特征和动态特征,并将所述静态特征和所述动态特征拼接在一起作为环境特征;
在所述交互特征提取层中,利用卷积神经网络对各识别对象的裁剪图进行多次卷积操作得到每个识别对象的姿态特征,拼接所述姿态特征和所述环境特征以获取每个识别对象的第一交互特征,所述第一交互特征用于表征识别对象与环境之间的交互信息;
基于自注意力机制对不同识别对象的第一交互特征进行处理以构建每个识别对象的第二交互特征,所述第二交互特征用于表征识别对象与其他识别对象之间的交互信息;
将相同识别对象的所述第一交互特征和所述第二交互特征相加得到各识别对象的融合交互特征后,将所述融合交互特征输入所述动作识别模块,得到所述待识别视频帧中所有识别对象的动作类别;
将所述待识别视频帧中所有识别对象的所述位置信息和所述动作类别作为所述第一识别网络的输出结果。
在一个可选的实施例中,所述拼接所述姿态特征和所述环境特征以获取每个识别对象的第一交互特征之前,所述方法还包括:
对每个识别对象的姿态特征执行ROI Align操作,所述ROI Align操作用于将不同尺寸的姿态特征处理为预设尺寸。
在一个可选的实施例中,所述基于自注意力机制对不同识别对象的第一交互特征进行处理以构建每个识别对象的第二交互特征包括:
将所有识别对象的第一交互特征沿着列方向按照预设顺序进行排列,得到第一交互矩阵,所述第一交互矩阵中的每一行对应一个识别对象的第一交互特征;
对所述第一交互矩阵与参数化矩阵相乘得到Q矩阵、K矩阵和V矩阵,所述Q矩阵,所述K矩阵和所述V矩阵分别包括所有识别对象的Q向量、K向量和V向量;
基于自注意力机制对所述Q矩阵、所述K矩阵和所述V矩阵进行处理以构建第二交互矩阵,所述第二交互矩阵中的每一行对应一个识别对象的第二交互特征,所述第二交互矩阵满足关系式:
其中,Q,K,V分别表示Q矩阵、K矩阵和V矩阵,KT表示K矩阵的转置,d为所有识别对象的数量,F2所述第二交互矩阵;
从所述第二交互矩阵提取每个识别对象的第二交互特征。
在一个可选的实施例中,训练单元111用于训练所述第一识别网络以获取第二识别网络,所述第二识别网络的输入为视频片段,输出为所述视频片段对应的待识别视频帧中各识别对象的位置信息和动作类别,所述待识别视频帧为所述视频片段的中间位置的视频帧。
在一个可选的实施例中,所述训练所述第一识别网络以获取第二识别网络包括:
采集多个带有标注信息的视频片段以构建训练集,所述标注信息包括所述视频片段对应的待检测视频帧中所有识别对象的真实位置信息和真实动作类别;
从所述训练集中挑选视频片段并输入所述第一识别网络以获取识别结果,所述识别结果包括所述视频片段对应的待检测视频帧中所有识别对象的预测位置信息和预测动作类别;
基于所述识别结果和所述标注信息计算代价函数,所述代价函数满足关系式:
其中,B为待检测视频帧中识别对象的数量,Zi和Yi分别为待检测视频帧中识别对象i的预测位置信息和预测动作类别,和/>分别为待检测视频帧中识别对象i的真实位置信息和真实动作类别,/>表示计算Zi和/>之间的欧氏距离,/>表示计算Yi和/>之间的交叉熵损失,Loss为所述代价函数的取值;
基于反向传播算法更新所述第一识别网络的可训练参数;
不断从所述训练集中挑选视频片段以更新所述第一识别网络的可训练参数,直到所述代价函数的取值小于预设取值时停止,得到第二识别网络。
在一个可选的实施例中,选取单元112用于从待识别视频中选取任意一个待识别视频帧前后预设时间段内的视频帧以组成一个视频片段,调整所述待识别视频的播放速度以获取所述待识别视频帧对应的多个视频片段。
在一个可选的实施例中,所述从待识别视频中选取任意一个待识别视频帧前后预设时间段内的视频帧以组成一个视频片段包括:
从所述待识别视频中选取所述待识别视频帧之前预设时间段内的视频帧作为第一视频帧序列;
从所述待识别视频中选取所述待识别视频帧之后预设时间段内的视频帧作为第二视频帧序列;
对比所述第一视频帧序列和所述第二视频帧序列中视频帧的数量;
若所述第一视频帧序列中视频帧的数量大于所述第二视频帧序列,则在所述第二视频帧序列的末端补充空白图像以使所述第一视频帧序列中视频帧的数量等于所述第二视频帧序列;
若所述第一视频帧序列中视频帧的数量小于所述第二视频帧序列,则在所述第一视频帧序列的前段补充空白图像以使所述第一视频帧序列中视频帧的数量等于所述第二视频帧序列;
当所述第一视频帧序列中视频帧的数量等于所述第二视频帧序列时,依次将所述第一视频帧序列、所述待识别视频帧和所述第二视频帧序列排列在一起以组成一个视频片段。
在一个可选的实施例中,输出单元113用于将所述多个视频片段依次输入所述第二识别网络,输出每一个视频片段的初始识别结果,所述初始识别结果包括所述待识别视频帧中各识别对象的初始位置信息和初始动作类别。
在一个可选的实施例中,融合单元114用于融合不同视频片段的初始识别结果得到所述待识别视频帧的时空动作识别结果,所述时空动作识别结果包括所述待识别视频帧中各识别对象的优化位置信息和优化动作类别。
在一个可选的实施例中,所述融合不同视频片段的初始识别结果得到所述待识别视频帧的时空动作识别结果包括:
从所有初始识别结果中提取所述待识别视频帧中各识别对象的初始动作类别;
从同一个识别对象的所有初始动作类别中,选取出现次数最多的初始动作类别作为所述识别对象的优化动作类别;
从所有初始识别结果中提取所述待识别视频帧中各识别对象的初始位置信息,并计算同一个识别对象所有初始位置信息的均值以获取各识别对象的优化位置信息;
将所述待识别视频帧中各识别对象的优化位置信息和优化动作类别作为时空动作识别结果。
由以上技术方案可以看出,本申请通过调整待识别视频的播放速度来采集包括不同上下文信息的视频片段,一个待识别视频帧对应多个视频片段;将每个视频片段输入第二识别网络以提取待识别视频帧中每个识别对象与环境和其他识别对象之间的交互信息,并基于交互信息得到初始识别结果;最后,融合不同视频片段的初始识别结果得到时空动作识别结果,提高了时空动作识别结果的准确性。
请参见图4,是本申请实施例提供的一种电子设备的结构示意图。电子设备1包括存储器12和处理器13。存储器12用于存储计算机可读指令,处理器13用执行所述储器中存储的计算机可读指令以实现上述任一实施例所述的基于人工智能的时空动作识别方法。
在一个可选的实施例中,电子设备1还包括总线、存储在所述存储器12中并可在所述处理器13上运行的计算机程序,例如基于人工智能的时空动作识别程序。
图4仅示出了具有存储器12和处理器13的电子设备1,本领域技术人员可以理解的是,图4示出的结构并不构成对电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
结合图1,电子设备1中的所述存储器12存储多个计算机可读指令以实现一种基于人工智能的时空动作识别方法,所述处理器13可执行所述多个指令从而实现:
搭建第一识别网络,所述第一识别网络包括目标检测模块、交互特征提取模块和动作识别模块,所述目标检测模块用于定位待识别视频帧中所有识别对象的位置信息,所述交互特征提取模块用于提取待识别视频帧中各识别对象与环境和其他识别对象之间的交互信息,所述动作识别模块用于识别待识别视频帧中所有识别对象的动作类别;
训练所述第一识别网络以获取第二识别网络,所述第二识别网络的输入为视频片段,输出为所述视频片段对应的待识别视频帧中各识别对象的位置信息和动作类别,所述待识别视频帧为所述视频片段的中间位置的视频帧;
从待识别视频中选取任意一个待识别视频帧前后预设时间段内的视频帧以组成一个视频片段,调整所述待识别视频的播放速度以获取所述待识别视频帧对应的多个视频片段;
将所述多个视频片段依次输入所述第二识别网络,输出每一个视频片段的初始识别结果,所述初始识别结果包括所述待识别视频帧中各识别对象的初始位置信息和初始动作类别;
融合不同视频片段的初始识别结果得到所述待识别视频帧的时空动作识别结果,所述时空动作识别结果包括所述待识别视频帧中各识别对象的优化位置信息和优化动作类别。
具体地,所述处理器13对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
本领域技术人员可以理解,所述示意图仅仅是电子设备1的示例,并不构成对电子设备1的限定,电子设备1可以是总线型结构,也可以是星形结构,电子设备1还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置,例如电子设备1还可以包括输入输出设备、网络接入设备等。
需要说明的是,电子设备1仅为举例,其他现有的或今后可能出现的电子产品如可适应于本申请,也应包含在本申请的保护范围以内,并以引用方式包含于此。
其中,存储器12至少包括一种类型的可读存储介质,所述可读存储介质可以是非易失性的,也可以是易失性的。所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器12在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。存储器12在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。存储器12不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如基于人工智能的时空动作识别程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器13在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。处理器13是电子设备1的控制核心(Control Unit),利用各种接口和线路连接整个电子设备1的各个部件,通过运行或执行存储在所述存储器12内的程序或者模块(例如执行基于人工智能的时空动作识别程序等),以及调用存储在所述存储器12内的数据,以执行电子设备1的各种功能和处理数据。
所述处理器13执行所述电子设备1的操作系统以及安装的各类应用程序。所述处理器13执行所述应用程序以实现上述各个基于人工智能的时空动作识别方法实施例中的步骤,例如图1所示的步骤。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器12中,并由所述处理器13执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机程序在电子设备1中的执行过程。例如,所述计算机程序可以被分割成搭建单元110、训练单元111、选取单元112、输出单元113、融合单元114。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、计算机设备,或者网络设备等)或处理器(Processor)执行本申请各个实施例所述的基于人工智能的时空动作识别方法的部分。
电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指示相关的硬件设备来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。
其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存储器及其他存储器等。
进一步地,计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
总线可以是外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,在图4中仅用一根箭头表示,但并不表示仅有一根总线或一种类型的总线。所述总线被设置为实现所述存储器12以及至少一个处理器13等之间的连接通信。
本申请实施例还提供一种计算机可读存储介质(图未示),计算机可读存储介质中存储有计算机可读指令,计算机可读指令被电子设备中的处理器执行以实现上述任一实施例所述的基于人工智能的时空动作识别方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。说明书陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本申请的技术方案而非限制,尽管参照较佳实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或等同替换,而不脱离本申请技术方案的精神和范围。

Claims (10)

1.一种基于人工智能的时空动作识别方法,其特征在于,所述方法包括:
搭建第一识别网络,所述第一识别网络包括目标检测模块、交互特征提取模块和动作识别模块,所述目标检测模块用于定位待识别视频帧中所有识别对象的位置信息,所述交互特征提取模块用于提取待识别视频帧中各识别对象与环境和其他识别对象之间的交互信息,所述动作识别模块用于识别待识别视频帧中所有识别对象的动作类别;
训练所述第一识别网络以获取第二识别网络,所述第二识别网络的输入为视频片段,输出为所述视频片段对应的待识别视频帧中各识别对象的位置信息和动作类别,所述待识别视频帧为所述视频片段的中间位置的视频帧;
从待识别视频中选取任意一个待识别视频帧前后预设时间段内的视频帧以组成一个视频片段,调整所述待识别视频的播放速度以获取所述待识别视频帧对应的多个视频片段;
将所述多个视频片段依次输入所述第二识别网络,输出每一个视频片段的初始识别结果,所述初始识别结果包括所述待识别视频帧中各识别对象的初始位置信息和初始动作类别;
融合不同视频片段的初始识别结果得到所述待识别视频帧的时空动作识别结果,所述时空动作识别结果包括所述待识别视频帧中各识别对象的优化位置信息和优化动作类别。
2.如权利要求1所述的基于人工智能的时空动作识别方法,其特征在于,所述搭建第一识别网络包括:
所述目标检测模块的输入为所述待识别视频帧,输出所述待识别视频帧中所有识别对象的位置信息,所述位置信息包括包围识别对象的矩形框的中心点坐标和宽高尺寸;
基于所述识别对象的矩形框对所述待识别视频帧进行裁剪,得到各识别对象的裁剪图;
所述交互特征提取模块的输入为所述视频片段和各识别对象的裁剪图,所述交互特征提取模块包括环境特征提取层和交互特征提取层;
所述环境特征提取层用于提取所述视频片段的静态特征和动态特征,并将所述静态特征和所述动态特征拼接在一起作为环境特征;
在所述交互特征提取层中,利用卷积神经网络对各识别对象的裁剪图进行多次卷积操作得到每个识别对象的姿态特征,拼接所述姿态特征和所述环境特征以获取每个识别对象的第一交互特征,所述第一交互特征用于表征识别对象与环境之间的交互信息;
基于自注意力机制对不同识别对象的第一交互特征进行处理以构建每个识别对象的第二交互特征,所述第二交互特征用于表征识别对象与其他识别对象之间的交互信息;
将相同识别对象的所述第一交互特征和所述第二交互特征相加得到各识别对象的融合交互特征后,将所述融合交互特征输入所述动作识别模块,得到所述待识别视频帧中所有识别对象的动作类别;
将所述待识别视频帧中所有识别对象的所述位置信息和所述动作类别作为所述第一识别网络的输出结果。
3.如权利要求2所述的基于人工智能的时空动作识别方法,其特征在于,所述拼接所述姿态特征和所述环境特征以获取每个识别对象的第一交互特征之前,所述方法还包括:
对每个识别对象的姿态特征执行ROI Align操作,所述ROI Align操作用于将不同尺寸的姿态特征处理为预设尺寸。
4.如权利要求2所述的基于人工智能的时空动作识别方法,其特征在于,所述基于自注意力机制对不同识别对象的第一交互特征进行处理以构建每个识别对象的第二交互特征包括:
将所有识别对象的第一交互特征沿着列方向按照预设顺序进行排列,得到第一交互矩阵,所述第一交互矩阵中的每一行对应一个识别对象的第一交互特征;
对所述第一交互矩阵与参数化矩阵相乘得到Q矩阵、K矩阵和V矩阵,所述Q矩阵,所述K矩阵和所述V矩阵分别包括所有识别对象的Q向量、K向量和V向量;
基于自注意力机制对所述Q矩阵、所述K矩阵和所述V矩阵进行处理以构建第二交互矩阵,所述第二交互矩阵中的每一行对应一个识别对象的第二交互特征,所述第二交互矩阵满足关系式:
其中,Q,K,V分别表示Q矩阵、K矩阵和V矩阵,KT表示K矩阵的转置,d为所有识别对象的数量,F2所述第二交互矩阵;
从所述第二交互矩阵提取每个识别对象的第二交互特征。
5.如权利要求1所述的基于人工智能的时空动作识别方法,其特征在于,所述训练所述第一识别网络以获取第二识别网络包括:
采集多个带有标注信息的视频片段以构建训练集,所述标注信息包括所述视频片段对应的待检测视频帧中所有识别对象的真实位置信息和真实动作类别;
从所述训练集中挑选视频片段并输入所述第一识别网络以获取识别结果,所述识别结果包括所述视频片段对应的待检测视频帧中所有识别对象的预测位置信息和预测动作类别;
基于所述识别结果和所述标注信息计算代价函数,所述代价函数满足关系式:
其中,B为待检测视频帧中识别对象的数量,Zi和Yi分别为待检测视频帧中识别对象i的预测位置信息和预测动作类别,和/>分别为待检测视频帧中识别对象i的真实位置信息和真实动作类别,/>表示计算Zi和/>之间的欧氏距离,/>表示计算Yi和/>之间的交叉熵损失,Loss为所述代价函数的取值;
基于反向传播算法更新所述第一识别网络的可训练参数;
不断从所述训练集中挑选视频片段以更新所述第一识别网络的可训练参数,直到所述代价函数的取值小于预设取值时停止,得到第二识别网络。
6.如权利要求1所述的基于人工智能的时空动作识别方法,其特征在于,所述从待识别视频中选取任意一个待识别视频帧前后预设时间段内的视频帧以组成一个视频片段包括:
从所述待识别视频中选取所述待识别视频帧之前预设时间段内的视频帧作为第一视频帧序列;
从所述待识别视频中选取所述待识别视频帧之后预设时间段内的视频帧作为第二视频帧序列;
对比所述第一视频帧序列和所述第二视频帧序列中视频帧的数量;
若所述第一视频帧序列中视频帧的数量大于所述第二视频帧序列,则在所述第二视频帧序列的末端补充空白图像以使所述第一视频帧序列中视频帧的数量等于所述第二视频帧序列;
若所述第一视频帧序列中视频帧的数量小于所述第二视频帧序列,则在所述第一视频帧序列的前段补充空白图像以使所述第一视频帧序列中视频帧的数量等于所述第二视频帧序列;
当所述第一视频帧序列中视频帧的数量等于所述第二视频帧序列时,依次将所述第一视频帧序列、所述待识别视频帧和所述第二视频帧序列排列在一起以组成一个视频片段。
7.如权利要求1所述的基于人工智能的时空动作识别方法,其特征在于,所述融合不同视频片段的初始识别结果得到所述待识别视频帧的时空动作识别结果包括:
从所有初始识别结果中提取所述待识别视频帧中各识别对象的初始动作类别;
从同一个识别对象的所有初始动作类别中,选取出现次数最多的初始动作类别作为所述识别对象的优化动作类别;
从所有初始识别结果中提取所述待识别视频帧中各识别对象的初始位置信息,并计算同一个识别对象所有初始位置信息的均值以获取各识别对象的优化位置信息;
将所述待识别视频帧中各识别对象的优化位置信息和优化动作类别作为时空动作识别结果。
8.一种基于人工智能的时空动作识别装置,其特征在于,所述装置包括:
搭建单元,用于搭建第一识别网络,所述第一识别网络包括目标检测模块、交互特征提取模块和动作识别模块,所述目标检测模块用于定位待识别视频帧中所有识别对象的位置信息,所述交互特征提取模块用于提取待识别视频帧中各识别对象与环境和其他识别对象之间的交互信息,所述动作识别模块用于识别待识别视频帧中所有识别对象的动作类别;
训练单元,用于训练所述第一识别网络以获取第二识别网络,所述第二识别网络的输入为视频片段,输出为所述视频片段对应的待识别视频帧中各识别对象的位置信息和动作类别,所述待识别视频帧为所述视频片段的中间位置的视频帧;
选取单元,用于从待识别视频中选取任意一个待识别视频帧前后预设时间段内的视频帧以组成一个视频片段,调整所述待识别视频的播放速度以获取所述待识别视频帧对应的多个视频片段;
输出单元,用于将所述多个视频片段依次输入所述第二识别网络,输出每一个视频片段的初始识别结果,所述初始识别结果包括所述待识别视频帧中各识别对象的初始位置信息和初始动作类别;
融合单元,用于融合不同视频片段的初始识别结果得到所述待识别视频帧的时空动作识别结果,所述时空动作识别结果包括所述待识别视频帧中各识别对象的优化位置信息和优化动作类别。
9.一种电子设备,其特征在于,所述电子设备包括:
存储器,存储有计算机可读指令;及
处理器,执行所述存储器中存储的计算机可读指令以实现如权利要求1至7中任意一项所述的基于人工智能的时空动作识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的基于人工智能的时空动作识别方法。
CN202310498346.8A 2023-05-05 2023-05-05 基于人工智能的时空动作识别方法及相关设备 Pending CN116543460A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310498346.8A CN116543460A (zh) 2023-05-05 2023-05-05 基于人工智能的时空动作识别方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310498346.8A CN116543460A (zh) 2023-05-05 2023-05-05 基于人工智能的时空动作识别方法及相关设备

Publications (1)

Publication Number Publication Date
CN116543460A true CN116543460A (zh) 2023-08-04

Family

ID=87446480

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310498346.8A Pending CN116543460A (zh) 2023-05-05 2023-05-05 基于人工智能的时空动作识别方法及相关设备

Country Status (1)

Country Link
CN (1) CN116543460A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117152692A (zh) * 2023-10-30 2023-12-01 中国市政工程西南设计研究总院有限公司 基于视频监控的交通目标检测方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117152692A (zh) * 2023-10-30 2023-12-01 中国市政工程西南设计研究总院有限公司 基于视频监控的交通目标检测方法及系统
CN117152692B (zh) * 2023-10-30 2024-02-23 中国市政工程西南设计研究总院有限公司 基于视频监控的交通目标检测方法及系统

Similar Documents

Publication Publication Date Title
CN111523413B (zh) 生成人脸图像的方法和装置
CN111680678B (zh) 目标区域识别方法、装置、设备及可读存储介质
JP2022554068A (ja) ビデオコンテンツ認識方法、装置、プログラム及びコンピュータデバイス
CN111860377A (zh) 基于人工智能的直播方法、装置、电子设备及存储介质
CN110598095B (zh) 一种识别包含指定信息文章的方法、装置及存储介质
CN111739016A (zh) 目标检测模型训练方法、装置、电子设备及存储介质
KR102187741B1 (ko) 메타데이터 크라우드 소싱 시스템 및 방법
CN112541443B (zh) 发票信息抽取方法、装置、计算机设备及存储介质
CN116543460A (zh) 基于人工智能的时空动作识别方法及相关设备
CN112232203A (zh) 行人识别方法、装置、电子设备及存储介质
CN115222427A (zh) 基于人工智能的欺诈风险识别方法及相关设备
CN113963446A (zh) 一种基于人体骨架的行为识别方法及系统
CN113011320A (zh) 视频处理方法、装置、电子设备及存储介质
CN116363365A (zh) 基于半监督学习的图像分割方法及相关设备
CN116416632A (zh) 基于人工智能的文件自动归档方法及相关设备
CN116012952A (zh) 基于人工智能的行为识别方法及相关设备
CN112102205B (zh) 图像去模糊方法、装置、电子设备及存储介质
CN112312205B (zh) 一种视频处理方法、装置、电子设备和计算机存储介质
CN114972761B (zh) 基于人工智能的车辆部件分割方法及相关设备
CN116030525A (zh) 基于人工智能的人脸识别方法及相关设备
CN116156277B (zh) 基于姿态预测的视频生成方法及相关设备
CN113610739B (zh) 图像数据增强方法、装置、设备及存储介质
CN112132032B (zh) 交通标志牌检测方法、装置、电子设备及存储介质
CN116012891A (zh) 基于图像增强的多尺度行人检测方法、装置、设备及介质
CN116895006A (zh) 基于神经网络的视频人脸融合方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination