CN116665309A - 一种步姿特征识别方法、装置、芯片及终端 - Google Patents

一种步姿特征识别方法、装置、芯片及终端 Download PDF

Info

Publication number
CN116665309A
CN116665309A CN202310925558.XA CN202310925558A CN116665309A CN 116665309 A CN116665309 A CN 116665309A CN 202310925558 A CN202310925558 A CN 202310925558A CN 116665309 A CN116665309 A CN 116665309A
Authority
CN
China
Prior art keywords
feature
features
pedestrian
joint
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310925558.XA
Other languages
English (en)
Other versions
CN116665309B (zh
Inventor
柯武生
翁国权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Ruixin Semiconductor Technology Co ltd
Original Assignee
Shandong Ruixin Semiconductor Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Ruixin Semiconductor Technology Co ltd filed Critical Shandong Ruixin Semiconductor Technology Co ltd
Priority to CN202310925558.XA priority Critical patent/CN116665309B/zh
Publication of CN116665309A publication Critical patent/CN116665309A/zh
Application granted granted Critical
Publication of CN116665309B publication Critical patent/CN116665309B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • G06V40/25Recognition of walking or running movements, e.g. gait recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明实施例公开了一种步姿特征识别方法、装置、芯片及终端,通过提取行人视频序列中的目标行人,并从行人视频序列中分割出来,得到目标行人图像序列;利用人体姿态识别模型,对目标行人图像序列中的各图像进行姿态识别,得到目标行人的三维模型;将各图像对应的三维模型输入至预设的步姿特征识别模型中的特征增强模块和二次检测模块,从不同的维度上提取关节特征,将提取到的各关节特征进行融合识别,并基于融合后的各关节特征对对应的候选区域进行身份预测,得到识别结果。本发明实施例的方案通过增加了特征增强模块和二次检测模块,有效抑制背景信息的干扰和解决不同程度的遮挡问题,减少噪音的影响,提高识别准确度。

Description

一种步姿特征识别方法、装置、芯片及终端
技术领域
本发明涉及人工智能技术领域,特别是涉及一种步姿特征识别方法、装置、芯片及终端。
背景技术
随着安全敏感场合对智能监控系统需求的增加,非接触远距离监控系统成为当前生物识别领域的一个研究热点,例如图像识别,对于在图像或者视频中识别目标对象,目前主要是通过边缘检测和目标模型匹配的方式来实现,但是这样的方式在提取目标和目标的特征时,会同时提取到背景和前景的信息,在对背景信息的提出时,由于存在较多的影响因素,如遮挡等,从而导致身份验证识别的准确度较低。
发明内容
基于此,本发明提供一种步姿特征识别方法、装置、芯片及存储介质,可以提高对目标对象的特征提取的深度,减少噪音的影响,提高识别准确度。
第一方面,提供一种步姿特征识别方法,其特征在于,包括:
获取待识别的行人视频序列,提取所述行人视频序列中的目标行人,并从所述行人视频序列中分割出来,得到目标行人图像序列;
利用OpenPose人体姿态识别模型,对所述目标行人图像序列中的各图像进行姿态识别,得到目标行人的三维模型;
将各所述图像对应的三维模型输入至预设的步姿特征识别模型中的特征增强模块,从不同的维度上提取关节特征,将提取到的各关节特征进行融合识别,基于融合识别的结果从各所述三维模型中确定候选区域;
将各所述候选区域输入至预设的步姿特征识别模型中的二次检测模块,从不同的维度上提取关节特征,将提取到的各关节特征进行融合,并基于融合后的各关节特征对对应的候选区域进行身份预测,得到识别结果。
可选的,所述获取待识别的行人视频序列,提取所述行人视频序列中的目标行人,并从所述行人视频序列中分割出来,得到目标行人图像序列,包括:
获取待识别的行人视频序列;
利用人型识别模型对所述行人视频序列中的行人进行识别,并将识别到的行人从所述行人视频序列中提取出来,得到目标行人图像;
调用行人图像分类模型,对所述目标行人图像进行分类,并对相同类别的目标行人图像设置对应的标记;
将相同标记的目标行人图像按照提取时间的先后顺序排序,得到目标行人序列。
可选的,所述调用行人图像分类模型,对所述目标行人图像进行分类,并对相同类别的目标行人图像设置对应的标记,包括:
调用行人图像分类模型,识别所述目标行人图像中的物体特征,将所述物体特征与预设的行人姿态模型进行匹配,得到行人的轮廓信息;
提取各所述轮廓信息中的着装特征,基于所述着装特征对轮廓信息进行分类,并对相同类别的目标行人图像设置对应的标记。
可选的,所述OpenPose人体姿态识别模型为人体关节检测模型,所述利用OpenPose人体姿态识别模型,对所述目标行人图像序列中的各图像进行姿态识别,得到目标行人的三维模型,包括:
将所述目标行人图像序列中的各图像输入至所述人体关节检测模型,识别各图像中的关节点信息和关节点信息所对应的身体部位;
基于所述身体部位,对各所述关节点信息进行关联,得到目标行人的三维模型;
计算所述三维模型中关联后的两两关节点之间的置信度,并判断所述置信度是否满足预设阈值;
基于判断的结果调整所述三维模型中关节点的位置。
可选的,所述将各所述图像对应的三维模型输入至预设的步姿特征识别模型中的特征增强模块,从不同的维度上提取关节特征,将提取到的各关节特征进行融合识别,基于融合识别的结果从各所述三维模型中确定候选区域,包括:
将各所述图像对应的三维模型输入至预设的步姿特征识别模型中进行五级卷积计算,得到五个卷积特征,每个卷积特征对应一个一级卷积层,所述卷积特征为关节特征;
将五个所述卷积特征输出入至所述步姿特征识别模型中的特征增强模块中,去掉五个所述卷积特征中首尾,并对第二卷积层和第三卷积层输出的卷积特征进行上采样后,将采样到的特征与第二卷积层输出的卷积特征进行融合,得到第一融合特征;
将所述第一融合特征与第五卷积层输出的卷积特征进行融合,基于融合的结果从各所述三维模型中确定对应的候选区域。
可选的,所述将各所述候选区域输入至预设的步姿特征识别模型中的二次检测模块,从不同的维度上提取关节特征,将提取到的各关节特征进行融合,并基于融合后的各关节特征对对应的候选区域进行身份预测,得到识别结果,包括:
将各所述候选区域输入至预设的步姿特征识别模型中的二次检测模块中进行五级卷积计算,得到五个卷积特征,每个卷积特征对应一个一级卷积层,所述卷积特征为关节特征;
选取五个所述卷积特征中排序在后的三个卷积特征进行融合,得到第二融合特征;
将所述第二融合特征与第五卷积层输出的卷积特征进行融合,基于融合后的各关节特征对对应的候选区域进行身份预测,得到识别结果。
可选的,所述基于融合后的各关节特征对对应的候选区域进行身份预测,得到识别结果,包括:
对融合后的各关节特征进行回归处理,并利用置信度计算公式对回归后的各关节特征进行关联性计算,得到步姿特征;
基于所述步姿特征进行身份预测,得到识别结果。
第二方面,提供一种基于多尺度特征融合的步姿特征识别装置,包括:
获取模块,用于获取待识别的行人视频序列,提取所述行人视频序列中的目标行人,并从所述行人视频序列中分割出来,得到目标行人图像序列;
姿态识别模块,用于利用OpenPose人体姿态识别模型,对所述目标行人图像序列中的各图像进行姿态识别,得到目标行人的三维模型;
增强模块,用于将各所述图像对应的三维模型输入至预设的步姿特征识别模型中的特征增强模块,从不同的维度上提取关节特征,将提取到的各关节特征进行融合识别,基于融合识别的结果从各所述三维模型中确定至少一个候选三维模型;
身份检测模块,用于将各所述候选三维模型输入至预设的步姿特征识别模型中的二次检测模块,从不同的维度上提取关节特征,将提取到的各关节特征进行融合,并基于融合后的各关节特征对对应的候选三维模型进行身份预测,得到识别结果。
可选的,所述获取模块具体用于:
获取待识别的行人视频序列;
利用人型识别模型对所述行人视频序列中的行人进行识别,并将识别到的行人从所述行人视频序列中提取出来,得到目标行人图像;
调用行人图像分类模型,对所述目标行人图像进行分类,并对相同类别的目标行人图像设置对应的标记;
将相同标记的目标行人图像按照提取时间的先后顺序排序,得到目标行人序列。
可选的,所述获取模块具体用于:
调用行人图像分类模型,识别所述目标行人图像中的物体特征,将所述物体特征与预设的行人姿态模型进行匹配,得到行人的轮廓信息;
提取各所述轮廓信息中的着装特征,基于所述着装特征对轮廓信息进行分类,并对相同类别的目标行人图像设置对应的标记。
可选的,所述姿态识别模块具体用于:
将所述目标行人图像序列中的各图像输入至所述人体关节检测模型,识别各图像中的关节点信息和关节点信息所对应的身体部位;
基于所述身体部位,对各所述关节点信息进行关联,得到目标行人的三维模型;
计算所述三维模型中关联后的两两关节点之间的置信度,并判断所述置信度是否满足预设阈值;
基于判断的结果调整所述三维模型中关节点的位置。
可选的,所述增强模块具体用于:
将各所述图像对应的三维模型输入至预设的步姿特征识别模型中进行五级卷积计算,得到五个卷积特征,每个卷积特征对应一个一级卷积层,所述卷积特征为关节特征;
将五个所述卷积特征输出入至所述步姿特征识别模型中的特征增强模块中,去掉五个所述卷积特征中首尾,并对第二卷积层和第三卷积层输出的卷积特征进行上采样后,将采样到的特征与第二卷积层输出的卷积特征进行融合,得到第一融合特征;
将所述第一融合特征与第五卷积层输出的卷积特征进行融合,基于融合的结果从各所述三维模型中确定对应的候选区域。
可选的,所述身份检测模块具体用于:
将各所述候选区域输入至预设的步姿特征识别模型中的二次检测模块中进行五级卷积计算,得到五个卷积特征,每个卷积特征对应一个一级卷积层,所述卷积特征为关节特征;
选取五个所述卷积特征中排序在后的三个卷积特征进行融合,得到第二融合特征;
将所述第二融合特征与第五卷积层输出的卷积特征进行融合,基于融合后的各关节特征对对应的候选区域进行身份预测,得到识别结果。
可选的,所述身份检测模块具体用于:
对融合后的各关节特征进行回归处理,并利用置信度计算公式对回归后的各关节特征进行关联性计算,得到步姿特征;
基于所述步姿特征进行身份预测,得到识别结果。
第三方面,提供一种芯片,包括第一处理器,用于从第一存储器中调用并运行计算机程序,使得安装有所述芯片的设备执行如上所述的步姿特征识别方法的各个步骤。
第四方面,提供一种终端,包括第二存储器、第二处理器以及存储在所述第二存储器中并可在所述第二处理器上运行的计算机程序,第二处理器执行所述计算机程序时实现如上介绍的步姿特征识别方法的各个步骤。
上述步姿特征识别方法、装置、芯片及存储介质,获取待识别的行人视频序列,提取所述行人视频序列中的目标行人,并从所述行人视频序列中分割出来,得到目标行人图像序列;利用OpenPose人体姿态识别模型,对所述目标行人图像序列中的各图像进行姿态识别,得到目标行人的三维模型;将各所述图像对应的三维模型输入至预设的步姿特征识别模型中的特征增强模块,从不同的维度上提取关节特征,将提取到的各关节特征进行融合识别,基于融合识别的结果从各所述三维模型中确定候选区域;将各所述候选区域输入至预设的步姿特征识别模型中的二次检测模块,从不同的维度上提取关节特征,将提取到的各关节特征进行融合,并基于融合后的各关节特征对对应的候选区域进行身份预测,得到识别结果。本发明实施例的方案通过增加了特征增强模块和二次检测模块,将语义分割掩膜融合到共享层,有效抑制背景信息的干扰和解决不同程度的遮挡问题,并在此基础上通过二次检测和回归减少误检,提高对目标对象的特征提取的深度,减少噪音的影响,提高识别准确度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例步姿特征识别方法的总体框架图;
图2为本发明实施例步姿特征识别方法的基本流程示意图;
图3为本发明实施例步姿特征识别模型的结构示意图;
图4为本发明实施例基于多尺度特征融合的步姿特征识别装置的基本结构框图;
图5为本发明实施例提供的一种终端的基本结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(AI: Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请根据对于识别率不够高的情况,提出了一种基于 OpenPose提取到的关节点信息建立三维姿态矩阵,网络选用 CNN-LSTM 混合模型的步姿特征识别方法,总体框架如图1所示,具体方法包括以下步骤:
(1)基于 OpenPose 的人体关节点检测模型得到视频中的所有关节点信息。
(2)身体部位之间的关联程度并预测人体不同关键点的置信度图,使用了卷积神经网络在 OpenPose 模型中有两个卷积神经网络分支。一个分支生成关键点,另一个分支生成关联的亲和度 (part afnity felds)。为了确定关节之间的连接,使用了关联的亲和度。该模型的输入是原始视觉图像,并在 2D 空间中生成输出坐标。OpenPose 提取二维图像中关节的位置,是预训练的神经网络模型。
(3)提取到关节点信息构建人体三维姿态信息,构建出步姿特征模型,对人体姿态特征建模,表征步姿特征的时空特征。
(4)每个框架中有 15 个共同点的坐标,作为各行的矢量,以形成一个连接点的三维坐标矩阵,通过该矩阵建立共同点运动。除其他外,该矩阵描述了关节运动的时间序列和人体结构的变化,并描述了关节运动相对位置的变化。
(5)设计 CNN-LSTM 网络模型的网络层参数,进行特征提取。
(6)采用互相关算法,它用于计算两个时间序列之间的相关特征。
(7)对模型进行训练与测试,得到实验结果。
该方法提出的网络结构包含了 LSTM 和 CNN 网络的优点,可以更好地包含时域信息。使用 OpenPose 对人体的关节点信息构建人体三维姿态信息矩阵,构建步姿特征模型,然后设计长短时记忆网络和卷积神经网络的网络层参数,并逐层提取数据的局部空间特征,最后在 CASIA-B 及融合自己拍摄的数据集中进行了相关的实验,验证得到该方法的识别率优于其他方法,并且此方法对视角的变化具有较高的鲁棒性。
请参阅图2,图2为本实施例步姿特征识别方法的基本流程示意图。
如图2所示,一种步姿特征识别方法,包括:
S21,获取待识别的行人视频序列,提取行人视频序列中的目标行人,并从行人视频序列中分割出来,得到目标行人图像序列。
本实施例中,该待识别的行人视频序列可以为某一个目标人物的单独监控视频,可以是多个目标人物的混合监控视频,而该行人视频序列均是在法律允许或者是获得用户授权的前提下获取的。
具体是基于监控系统中的摄像头实时采集得到,可以是从允许隐私授权的情况下从监控系统的后台服务器中截取的特定时间段内的监控视频,并利用目标跟踪工具从监控视频中提取待识别目标人物的视频帧,并按照时间的先后顺序排序,得到行人视频序列。
在本实施例中,在提取目标行人图像序列时,可以分为3个主要阶段:行人检测,行人分割,行人识别。 加入DAE+GAN ,GaitGAN和GaitGANv2使用两个具有编码器-解码器结构的鉴别器,分别用于假/真鉴别和识别。这两个鉴别器可以确保生成的步姿特征图像真实,并且生成的图像包含身份信息。具体是:
获取待识别的行人视频序列;
利用人型识别模型对所述行人视频序列中的行人进行识别,并将识别到的行人从所述行人视频序列中提取出来,得到目标行人图像;
调用行人图像分类模型,对所述目标行人图像进行分类,并对相同类别的目标行人图像设置对应的标记;
将相同标记的目标行人图像按照提取时间的先后顺序排序,得到目标行人序列。
在实际应用中,该人行识别模型可以采用神经网络构建并训练得到的,具体是从物体的五官和身体等特征进行识别的模型,其识别原理是,先判断物体是否为动物物体,其中通过行人视频序列中显示的热力数据进行识别,然后在确定问动物物体后,识别该动物物体是否为两脚行走的动物,最后识别五官和身体等特征,从而确定目标行人,并提取出来,得到目标行人的图像。
进一步的,利用行人图像分类模型对提取到的目标行人图像进行分类,其中该分类可以从五官特征的角度进行分类,也可以是从服饰着装的角度进行识别,该着装的识别方式主要是针对时间跨度较短的视频序列提取到的目标行人图像进行识别。最后对识别出来属于同一人的目标行人图像中的行人标记为相同的标识。
具体的,所述调用行人图像分类模型,对所述目标行人图像进行分类,并对相同类别的目标行人图像设置对应的标记,包括:
调用行人图像分类模型,识别所述目标行人图像中的物体特征,将所述物体特征与预设的行人姿态模型进行匹配,得到行人的轮廓信息;
提取各所述轮廓信息中的着装特征,基于所述着装特征对轮廓信息进行分类,并对相同类别的目标行人图像设置对应的标记。
S12,利用OpenPose人体姿态识别模型,对目标行人图像序列中的各图像进行姿态识别,得到目标行人的三维模型。
该步骤中,由于人在行走过程中可能处于各种不同的状态,现有的步姿特征识别数据集为了保证能够对算法进行有效评估,引入视角、衣着和携带物等协变量,利用方法判别。以步姿特征模板为输入,提取有效的身份特征信息,在辨别有无遮挡物,人群数量时可在2DCNN与3DCNN切换方式,以提高识别速率。
在实际应用中,在得到目标行人图像序列后,将所述目标行人图像序列中的各图像输入至所述人体关节检测模型,识别各图像中的关节点信息和关节点信息所对应的身体部位;
基于所述身体部位,对各所述关节点信息进行关联,得到目标行人的三维模型;
计算所述三维模型中关联后的两两关节点之间的置信度,并判断所述置信度是否满足预设阈值;
基于判断的结果调整所述三维模型中关节点的位置。
即是基于 OpenPose 的人体关节点检测模型得到视频中的所有关节点信息后,计算身体部位之间的关联程度并预测人体不同关键点的置信度图,使用了卷积神经网络在OpenPose 模型中有两个卷积神经网络分支。一个分支生成关键点,另一个分支生成关联的亲和度 (part afnity felds)。为了确定关节之间的连接,使用了关联的亲和度。该模型的输入是原始视觉图像,并在2D空间中生成输出坐标。OpenPose 提取二维图像中关节的位置,是预训练的神经网络模型。提取到关节点信息构建人体三维姿态信息,构建出步姿特征模型,对人体姿态特征建模,表征步姿特征的时空特征。
在本实施例中,对于所述人体关节点检测模型:首先,输入数据集中的视频信息,使用 OpenPose 获取每个框架 15 个关节点或者 20 个关节点为的二维坐标,可以有效地记录运动信息并计算不繁杂。
OpenPose是一种实时的深度神经网络模型,它在单个图像或视频帧中联合检测人的手、面部点、身体和足部关键点。它可以提取到135个关键点信息。基于OpenPose架构的人识别使用了VGG(Visual Geometry Group)网络模型,它是OpenPose的卷积神经网络,是一个具有多层的网络结构。该模型的输入是图像或视频流,它为帧中的每个人生成2D关键点。为了创建给定输入的特征图,VGG网络模型使用前10层。为了编码不同身体部位之间的关联程度并预测人体不同关键点的置信度图,使用了卷积神经网络。在OpenPose模型中有两个卷积神经网络分支。一个分支生成关键点,另一个分支生成关联的亲和度(part affinityfields)。为了确定关节之间的连接,使用了关联的亲和度。该模型的输入是原始视觉图像,并在2D空间中生成输出坐标。OpenPose提取二维图像中关节的位置,是预训练的神经网络模型。
S13,将各所述图像对应的三维模型输入至预设的步姿特征识别模型中的特征增强模块,从不同的维度上提取关节特征,将提取到的各关节特征进行融合识别,基于融合识别的结果从各三维模型中确定候选区域。
S14,将各候选区域输入至预设的步姿特征识别模型中的二次检测模块,从不同的维度上提取关节特征,将提取到的各关节特征进行融合,并基于融合后的各关节特征对对应的候选区域进行身份预测,得到识别结果。
本实施例中,该步姿特征识别模型实际上是采用了两级步姿特征的检测模型来构建,而第一级的检测模型是基于上述步骤S12得到的图像中的目标行人的三维模型作为输入,然后提取其中的步姿特征,然后进行不同维度的卷积计算,得到多个维度的卷积特征,即是步姿特征,并将不同维度的卷积计算得到的步姿特征进行融合后,基于融合的特征对目标行人图像进行分割,得到候选区域。
具体的,提取不同接受域下的特征,进行高低层特征融合,在高层特征预测的基础上,再用底层特征进行预测结果的调整。利用多层卷积神经网络(CNN)特征的互补优势 进行图像检索,基于此,使用的CSMFF行人检测算法除骨干网络外由两个关键部分组成:行人特征增强模块和行人二次检测模块,该模型结构如图3所示。
本实施例中,基于图3的模型结构,步骤S13的实现可以为:
将各所述图像对应的三维模型输入至预设的步姿特征识别模型中进行五级卷积计算,得到五个卷积特征,每个卷积特征对应一个一级卷积层,所述卷积特征为关节特征;
将五个所述卷积特征输出入至所述步姿特征识别模型中的特征增强模块中,去掉五个所述卷积特征中首尾,并对第二卷积层和第三卷积层输出的卷积特征进行上采样后,将采样到的特征与第二卷积层输出的卷积特征进行融合,得到第一融合特征;
将所述第一融合特征与第五卷积层输出的卷积特征进行融合,基于融合的结果从各所述三维模型中确定对应的候选区域。
具体的,浅层卷积产生的特征图包含更多像素信息,有较高的空间分辨率,行人的轮廓更加清晰,用来定位行人会更准确。深层卷积产生的特征图则包含更多的语义信息,用于行人的检测会更精确。所以文中在分割时把多个卷积特征的融合特征作为分割的输入特征。
特征增强模块(PFEM模块)采用的骨干网络是VGG-16,用卷积的前5层来提取特征。不同卷积层生成的特征图表示不同尺度的行人,卷积层越深,特征图的尺寸就越小,因此,需要对不同的卷积层采用不同的采样策略。
具体做法为:保持Conv2_2层的特征图尺寸不变(112×112像素),在Conv3_3层和Conv4_3层上分别添加一个2×2和4×4的反卷积对特征图进行上采样,记为Dconv3_3和Dconv4_3。然后将Dconv3_3、Dconv4_3与Conv2输出的特征图进行级联,生成多层特征融合层,记为融合1层。
为获得较好的语义特征映射,在融合1层上添加由1×1的卷积构成的语义分割分支,用于预测输入图像在采样分辨率上每个像素的类别,记为分割1层。语义分割层形成的行人掩膜有效抑制了背景信息的干扰,并且网络加深时,语义信息会随之进入到卷积层。
利用分割的掩膜获取语义特征映射后,将其与相应的卷积特征图连接作为行人分类的最终特征。具体为分割1层与Conv5_3层特征映射相加连接,记为融合2层,最终输入RPN网络。
本实施例中,基于图3的模型结构,其中二次检测模块是在特征增强模块的输出端增加的一级检测结构,具体是步骤S14的实现可以为:
将各所述候选区域输入至预设的步姿特征识别模型中的二次检测模块中进行五级卷积计算,得到五个卷积特征,每个卷积特征对应一个一级卷积层,所述卷积特征为关节特征;
选取五个所述卷积特征中排序在后的三个卷积特征进行融合,得到第二融合特征;
将所述第二融合特征与第五卷积层输出的卷积特征进行融合,基于融合后的各关节特征对对应的候选区域进行身份预测,得到识别结果。
在实际应用中,通过子PFEM模块增加分割分支,将分割得到的语义信息和骨干网络Conv5_3层特征融合,通过RPN网络提取候选区域,再经过分类和回归得到初步的检测结果。其中,分割语义信息增强行人特征,抑制背景信息,可以减少相似背景干扰,同时提高小目标的检测率。行人二次检测模块分别在Conv4_3层、Conv5_3层上添加一个步长为2的2 ×2卷积核和步长为4的 4×4 卷积核进行反卷积上采样,然后与Conv3层输出的特征级联,生成多层特征融合层,记为融合3层。在此基础上添加语义分割分支,记为分割2层。获得的语义特征映射后与Conv5_3层特征映射相加融合,记为融合4层,作为行人分类的特征。
在实际应用中,在对行人视频序列中识到的已识别行人进行分割,具体是通过边缘检测的方式实现,边缘检测的目的是为了标识步姿特征图像中灰度值突变的区域边界。利用边缘检测优化步姿特征图像的边缘线的基本思路是:首先找到步姿特征图像中灰度跳变的边界点,利用混合滤波对步姿特征图像进行噪处理,然后将这些点像素点组合成一个分割区域,从而将目标分割出来。方法步骤包括:将原始图像进行混合高斯平滑去噪,计算梯度幅值和梯度方向,之后进行非极大值抑制细化边缘,得到更加完整的边缘检测图像。其中,
混合高斯平滑去噪(对步姿特征图像进行去噪处理),基本思想为以中值滤波的输出作为均值滤波的输入,降噪处理。
(1)中值滤波,使用目标点四周多个像素灰度的均值与周围的像素值进行替换。算法为:输入原始图像灰度图像,比较3*3滤波窗口中心所在行、列及对角方向相灰度大小,分别取四个方向的中值,求取得中值的平均值,得到中值滤波输出的图像。
(2)均值滤波,中值滤波输出的图像中选用一个由其邻域像素所构成模板并将该模板中所含像素的灰度求和取平均且以此均值将原像素灰度取而代之。以中值滤波的输出作为均值滤波的输入,降噪处理最后得到降噪后的图像。
计算梯度幅值和梯度方向:
本申请中使用改进的3*3范围内4个方向来替代传统的两个方向计算梯度幅值和方向。增加了45°和135°。梯度幅值和方向分别为:
本实施例中,所述基于融合后的各关节特征对对应的候选区域进行身份预测,得到识别结果,包括:
对融合后的各关节特征进行回归处理,并利用置信度计算公式对回归后的各关节特征进行关联性计算,得到步姿特征;
基于所述步姿特征进行身份预测,得到识别结果。
具体的,通过提前录入A的步姿特征数据,得到经过处理后得到A的步姿特征。
之后若检测到新的步姿特征数据,则基于新的步姿特征数据得到新的步姿特征,将步姿特征与已经录入的步姿特征数据进行对比,若满足条件则确定新的步姿特征数据也是A的,实现步姿特征识别。
综上,基于 OpenPose 对人体姿势进行建模,输入到CNN-LSTM 多网络卷积核相结合的步姿特征识别方法。使用 OpenPose 建立人体关节的三维坐标,构建三维步姿特征模型,分析及设计了 CNN-LSTM 的网络模型结构。最后在 CASIA-B及融合自己拍摄的数据集中进行了相关的实验,验证了本章所提方法的可行性,得到该方法的识别率优于其他方法,并且此方法对视角的变化具有较高的鲁棒性,所以有更好的有益效果。
为解决上述技术问题,本发明实施例还提供一种基于多尺度特征融合的步姿特征识别装置。具体请参阅图4,图4为本实施基于多尺度特征融合的步姿特征识别装置的基本结构框图,包括:
获取模块,用于获取待识别的行人视频序列,提取所述行人视频序列中的目标行人,并从所述行人视频序列中分割出来,得到目标行人图像序列;
姿态识别模块,用于利用OpenPose人体姿态识别模型,对所述目标行人图像序列中的各图像进行姿态识别,得到目标行人的三维模型;
增强模块,用于将各所述图像对应的三维模型输入至预设的步姿特征识别模型中的特征增强模块,从不同的维度上提取关节特征,将提取到的各关节特征进行融合识别,基于融合识别的结果从各所述三维模型中确定至少一个候选三维模型;
身份检测模块,用于将各所述候选三维模型输入至预设的步姿特征识别模型中的二次检测模块,从不同的维度上提取关节特征,将提取到的各关节特征进行融合,并基于融合后的各关节特征对对应的候选三维模型进行身份预测,得到识别结果。
通过增加了特征增强模块和二次检测模块,将语义分割掩膜融合到共享层,有效抑制背景信息的干扰和解决不同程度的遮挡问题,并在此基础上通过二次检测和回归减少误检,提高对目标对象的特征提取的深度,减少噪音的影响,提高识别准确度。
在一些实施方式中,所述获取模块具体用于:
获取待识别的行人视频序列;
利用人型识别模型对所述行人视频序列中的行人进行识别,并将识别到的行人从所述行人视频序列中提取出来,得到目标行人图像;
调用行人图像分类模型,对所述目标行人图像进行分类,并对相同类别的目标行人图像设置对应的标记;
将相同标记的目标行人图像按照提取时间的先后顺序排序,得到目标行人序列。
在一些实施方式中,所述获取模块具体用于:
调用行人图像分类模型,识别所述目标行人图像中的物体特征,将所述物体特征与预设的行人姿态模型进行匹配,得到行人的轮廓信息;
提取各所述轮廓信息中的着装特征,基于所述着装特征对轮廓信息进行分类,并对相同类别的目标行人图像设置对应的标记。
在一些实施方式中,所述姿态识别模块具体用于:
将所述目标行人图像序列中的各图像输入至所述人体关节检测模型,识别各图像中的关节点信息和关节点信息所对应的身体部位;
基于所述身体部位,对各所述关节点信息进行关联,得到目标行人的三维模型;
计算所述三维模型中关联后的两两关节点之间的置信度,并判断所述置信度是否满足预设阈值;
基于判断的结果调整所述三维模型中关节点的位置。
在一些实施方式中,所述增强模块具体用于:
将各所述图像对应的三维模型输入至预设的步姿特征识别模型中进行五级卷积计算,得到五个卷积特征,每个卷积特征对应一个一级卷积层,所述卷积特征为关节特征;
将五个所述卷积特征输出入至所述步姿特征识别模型中的特征增强模块中,去掉五个所述卷积特征中首尾,并对第二卷积层和第三卷积层输出的卷积特征进行上采样后,将采样到的特征与第二卷积层输出的卷积特征进行融合,得到第一融合特征;
将所述第一融合特征与第五卷积层输出的卷积特征进行融合,基于融合的结果从各所述三维模型中确定对应的候选区域。
在一些实施方式中,所述身份检测模块具体用于:
将各所述候选区域输入至预设的步姿特征识别模型中的二次检测模块中进行五级卷积计算,得到五个卷积特征,每个卷积特征对应一个一级卷积层,所述卷积特征为关节特征;
选取五个所述卷积特征中排序在后的三个卷积特征进行融合,得到第二融合特征;
将所述第二融合特征与第五卷积层输出的卷积特征进行融合,基于融合后的各关节特征对对应的候选区域进行身份预测,得到识别结果。
在一些实施方式中,所述身份检测模块具体用于:
对融合后的各关节特征进行回归处理,并利用置信度计算公式对回归后的各关节特征进行关联性计算,得到步姿特征;
基于所述步姿特征进行身份预测,得到识别结果。
本实施例通过基于 OpenPose 对人体姿势进行建模,输入到CNN-LSTM 多网络卷积核相结合的步姿特征识别方法。使用 OpenPose 建立人体关节的三维坐标,构建三维步姿特征模型,分析及设计了 CNN-LSTM 的网络模型结构。最后在 CASIA-B及融合自己拍摄的数据集中进行了相关的实验,验证了本章所提方法的可行性,得到该方法的识别率优于其他方法,并且此方法对视角的变化具有较高的鲁棒性
为解决上述技术问题,本发明实施例还提供一种芯片,该芯片可以为通用处理器,也可以为专用处理器。该芯片包括处理器,处理器用于支持终端执行上述相关步骤,例如从存储器中调用并运行计算机程序,使得安装有所述芯片的设备执行,以实现上述各个实施例中的步姿特征识别方法。
可选的在一些示例下,该芯片还包括收发器,收发器用于接收处理器的控制,用于支持终端执行上述相关步骤,以实现上述各个实施例中的步姿特征识别方法。
可选的,该芯片还可以包括存储介质。
需要说明的是,该芯片可以使用下述电路或者器件来实现:一个或多个现场可编程门阵列(field programmable gate array,FPGA)、可编程逻辑器件(programmablelogicdevice,PLD)、控制器、状态机、门逻辑、分立硬件部件、任何其他适合的电路、或者能够执行本申请通篇所描述的各种功能的电路的任意组合。
本发明还提供一种终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,处理器执行所述计算机程序时实现如上实施例提供的步姿特征识别方法的步骤。
具体请参阅图5,图5为示出的一种终端的基本结构框图,该终端包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该终端的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种步姿特征识别方法。该终端的处理器用于提供计算和控制能力,支撑整个终端的运行。该终端的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种步姿特征识别方法。该终端的网络接口用于与终端连接通信。本领域技术人员可以理解,图中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的终端的限定,具体的终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,执行双向通信的接收和发射硬件的电子设备。这种电子设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal Communications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal DigitalAssistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile InternetDevice,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本发明还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任一实施例所述步姿特征识别方法的步骤。
本实施例还提供了一种计算机程序,该计算机程序可以分布在计算机可读介质上,由可计算装置来执行,以实现上述介绍的步姿特征识别方法的至少一个步骤;并且在某些情况下,可以采用不同于上述实施例所描述的顺序执行所示出或描述的至少一个步骤。
本实施例还提供了一种计算机程序产品,包括计算机可读装置,该计算机可读装置上存储有如上所示的计算机程序。本实施例中该计算机可读装置可包括如上所示的计算机可读存储介质。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种步姿特征识别方法,其特征在于,包括:
获取待识别的行人视频序列,提取所述行人视频序列中的目标行人,并从所述行人视频序列中分割出来,得到目标行人图像序列;
利用OpenPose人体姿态识别模型,对所述目标行人图像序列中的各图像进行姿态识别,得到目标行人的三维模型;
将各所述图像对应的三维模型输入至预设的步姿特征识别模型中的特征增强模块,从不同的维度上提取关节特征,将提取到的各关节特征进行融合识别,基于融合识别的结果从各所述三维模型中确定候选区域;
将各所述候选区域输入至预设的步姿特征识别模型中的二次检测模块,从不同的维度上提取关节特征,将提取到的各关节特征进行融合,并基于融合后的各关节特征对对应的候选区域进行身份预测,得到识别结果。
2.如权利要求1所述的步姿特征识别方法,其特征在于,所述获取待识别的行人视频序列,提取所述行人视频序列中的目标行人,并从所述行人视频序列中分割出来,得到目标行人图像序列,包括:
获取待识别的行人视频序列;
利用人型识别模型对所述行人视频序列中的行人进行识别,并将识别到的行人从所述行人视频序列中提取出来,得到目标行人图像;
调用行人图像分类模型,对所述目标行人图像进行分类,并对相同类别的目标行人图像设置对应的标记;
将相同标记的目标行人图像按照提取时间的先后顺序排序,得到目标行人序列。
3.如权利要求2所述的步姿特征识别方法,其特征在于,所述调用行人图像分类模型,对所述目标行人图像进行分类,并对相同类别的目标行人图像设置对应的标记,包括:
调用行人图像分类模型,识别所述目标行人图像中的物体特征,将所述物体特征与预设的行人姿态模型进行匹配,得到行人的轮廓信息;
提取各所述轮廓信息中的着装特征,基于所述着装特征对轮廓信息进行分类,并对相同类别的目标行人图像设置对应的标记。
4.如权利要求1所述的步姿特征识别方法,其特征在于,所述OpenPose人体姿态识别模型为人体关节检测模型,所述利用OpenPose人体姿态识别模型,对所述目标行人图像序列中的各图像进行姿态识别,得到目标行人的三维模型,包括:
将所述目标行人图像序列中的各图像输入至所述人体关节检测模型,识别各图像中的关节点信息和关节点信息所对应的身体部位;
基于所述身体部位,对各所述关节点信息进行关联,得到目标行人的三维模型;
计算所述三维模型中关联后的两两关节点之间的置信度,并判断所述置信度是否满足预设阈值;
基于判断的结果调整所述三维模型中关节点的位置。
5.如权利要求1-4中任一项所述的步姿特征识别方法,其特征在于,所述将各所述图像对应的三维模型输入至预设的步姿特征识别模型中的特征增强模块,从不同的维度上提取关节特征,将提取到的各关节特征进行融合识别,基于融合识别的结果从各所述三维模型中确定候选区域,包括:
将各所述图像对应的三维模型输入至预设的步姿特征识别模型中进行五级卷积计算,得到五个卷积特征,每个卷积特征对应一个一级卷积层,所述卷积特征为关节特征;
将五个所述卷积特征输出入至所述步姿特征识别模型中的特征增强模块中,去掉五个所述卷积特征中首尾,并对第二卷积层和第三卷积层输出的卷积特征进行上采样后,将采样到的特征与第二卷积层输出的卷积特征进行融合,得到第一融合特征;
将所述第一融合特征与第五卷积层输出的卷积特征进行融合,基于融合的结果从各所述三维模型中确定对应的候选区域。
6.如权利要求5所述的步姿特征识别方法,其特征在于,所述将各所述候选区域输入至预设的步姿特征识别模型中的二次检测模块,从不同的维度上提取关节特征,将提取到的各关节特征进行融合,并基于融合后的各关节特征对对应的候选区域进行身份预测,得到识别结果,包括:
将各所述候选区域输入至预设的步姿特征识别模型中的二次检测模块中进行五级卷积计算,得到五个卷积特征,每个卷积特征对应一个一级卷积层,所述卷积特征为关节特征;
选取五个所述卷积特征中排序在后的三个卷积特征进行融合,得到第二融合特征;
将所述第二融合特征与第五卷积层输出的卷积特征进行融合,基于融合后的各关节特征对对应的候选区域进行身份预测,得到识别结果。
7.如权利要求6所述的步姿特征识别方法,其特征在于,所述基于融合后的各关节特征对对应的候选区域进行身份预测,得到识别结果,包括:
对融合后的各关节特征进行回归处理,并利用置信度计算公式对回归后的各关节特征进行关联性计算,得到步姿特征;
基于所述步姿特征进行身份预测,得到识别结果。
8.一种基于多尺度特征融合的步姿特征识别装置,其特征在于,包括:
获取模块,用于获取待识别的行人视频序列,提取所述行人视频序列中的目标行人,并从所述行人视频序列中分割出来,得到目标行人图像序列;
姿态识别模块,用于利用OpenPose人体姿态识别模型,对所述目标行人图像序列中的各图像进行姿态识别,得到目标行人的三维模型;
增强模块,用于将各所述图像对应的三维模型输入至预设的步姿特征识别模型中的特征增强模块,从不同的维度上提取关节特征,将提取到的各关节特征进行融合识别,基于融合识别的结果从各所述三维模型中确定至少一个候选三维模型;
身份检测模块,用于将各所述候选三维模型输入至预设的步姿特征识别模型中的二次检测模块,从不同的维度上提取关节特征,将提取到的各关节特征进行融合,并基于融合后的各关节特征对对应的候选三维模型进行身份预测,得到识别结果。
9.一种芯片,其特征在于,包括:第一处理器,用于从第一存储器中调用并运行计算机程序,使得安装有所述芯片的设备执行如权利要求1至7任一项所述的步姿特征识别方法的各个步骤。
10.一种终端,其特征在于,包括第二存储器、第二处理器以及存储在所述第二存储器中并可在所述第二处理器上运行的计算机程序,其特征在于,所述第二处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的步姿特征识别方法的步骤。
CN202310925558.XA 2023-07-26 2023-07-26 一种步姿特征识别方法、装置、芯片及终端 Active CN116665309B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310925558.XA CN116665309B (zh) 2023-07-26 2023-07-26 一种步姿特征识别方法、装置、芯片及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310925558.XA CN116665309B (zh) 2023-07-26 2023-07-26 一种步姿特征识别方法、装置、芯片及终端

Publications (2)

Publication Number Publication Date
CN116665309A true CN116665309A (zh) 2023-08-29
CN116665309B CN116665309B (zh) 2023-11-14

Family

ID=87724483

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310925558.XA Active CN116665309B (zh) 2023-07-26 2023-07-26 一种步姿特征识别方法、装置、芯片及终端

Country Status (1)

Country Link
CN (1) CN116665309B (zh)

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428586A (zh) * 2020-03-09 2020-07-17 同济大学 基于特征融合与样本增强的三维人体姿态估计方法
CN112560796A (zh) * 2020-12-29 2021-03-26 平安银行股份有限公司 人体姿态实时检测方法、装置、计算机设备及存储介质
WO2021057810A1 (zh) * 2019-09-29 2021-04-01 深圳数字生命研究院 数据处理、训练、识别方法、装置和存储介质
CN112668531A (zh) * 2021-01-05 2021-04-16 重庆大学 一种基于动作识别的运动姿态矫正方法
CN112991656A (zh) * 2021-02-04 2021-06-18 北京工业大学 基于姿态估计的全景监控下人体异常行为识别报警系统及方法
CN113205595A (zh) * 2021-05-21 2021-08-03 华中科技大学 一种3d人体姿态估计模型的构建方法及其应用
CN113963445A (zh) * 2021-11-15 2022-01-21 河南理工大学 一种基于姿态估计的行人摔倒动作识别方法及设备
WO2022022368A1 (zh) * 2020-07-28 2022-02-03 宁波环视信息科技有限公司 基于深度学习的监所行为规范检测装置及方法
US20220051061A1 (en) * 2019-10-30 2022-02-17 Tencent Technology (Shenzhen) Company Limited Artificial intelligence-based action recognition method and related apparatus
CN114821786A (zh) * 2022-04-27 2022-07-29 南京邮电大学 一种基于人体轮廓和关键点特征融合的步态识别方法
CN115035551A (zh) * 2022-08-10 2022-09-09 武汉东信同邦信息技术有限公司 三维人体姿态估计方法、装置、设备及存储介质
US20220343683A1 (en) * 2020-04-01 2022-10-27 Boe Technology Group Co., Ltd. Expression Recognition Method and Apparatus, Computer Device, and Readable Storage Medium
CN115376034A (zh) * 2021-12-30 2022-11-22 南京工业职业技术大学 一种基于人体三维姿态时空关联动作识别的运动视频采集剪辑方法及装置
CN115497161A (zh) * 2022-09-21 2022-12-20 中国地质大学(武汉) 基于人体姿态矫正的注意力时空图卷积网络行为识别方法
US20230040650A1 (en) * 2021-07-21 2023-02-09 The Board Of Trustees Of The University Of Alabama Real-time, fine-resolution human intra-gait pattern recognition based on deep learning models
CN116453226A (zh) * 2023-05-18 2023-07-18 平安科技(深圳)有限公司 基于人工智能的人体姿态识别方法、装置及相关设备
WO2023134071A1 (zh) * 2022-01-12 2023-07-20 平安科技(深圳)有限公司 行人重识别方法、装置、电子设备及存储介质

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021057810A1 (zh) * 2019-09-29 2021-04-01 深圳数字生命研究院 数据处理、训练、识别方法、装置和存储介质
US20220051061A1 (en) * 2019-10-30 2022-02-17 Tencent Technology (Shenzhen) Company Limited Artificial intelligence-based action recognition method and related apparatus
CN111428586A (zh) * 2020-03-09 2020-07-17 同济大学 基于特征融合与样本增强的三维人体姿态估计方法
US20220343683A1 (en) * 2020-04-01 2022-10-27 Boe Technology Group Co., Ltd. Expression Recognition Method and Apparatus, Computer Device, and Readable Storage Medium
WO2022022368A1 (zh) * 2020-07-28 2022-02-03 宁波环视信息科技有限公司 基于深度学习的监所行为规范检测装置及方法
CN112560796A (zh) * 2020-12-29 2021-03-26 平安银行股份有限公司 人体姿态实时检测方法、装置、计算机设备及存储介质
CN112668531A (zh) * 2021-01-05 2021-04-16 重庆大学 一种基于动作识别的运动姿态矫正方法
CN112991656A (zh) * 2021-02-04 2021-06-18 北京工业大学 基于姿态估计的全景监控下人体异常行为识别报警系统及方法
CN113205595A (zh) * 2021-05-21 2021-08-03 华中科技大学 一种3d人体姿态估计模型的构建方法及其应用
US20230040650A1 (en) * 2021-07-21 2023-02-09 The Board Of Trustees Of The University Of Alabama Real-time, fine-resolution human intra-gait pattern recognition based on deep learning models
CN113963445A (zh) * 2021-11-15 2022-01-21 河南理工大学 一种基于姿态估计的行人摔倒动作识别方法及设备
WO2023082882A1 (zh) * 2021-11-15 2023-05-19 河南理工大学 一种基于姿态估计的行人摔倒动作识别方法及设备
CN115376034A (zh) * 2021-12-30 2022-11-22 南京工业职业技术大学 一种基于人体三维姿态时空关联动作识别的运动视频采集剪辑方法及装置
WO2023134071A1 (zh) * 2022-01-12 2023-07-20 平安科技(深圳)有限公司 行人重识别方法、装置、电子设备及存储介质
CN114821786A (zh) * 2022-04-27 2022-07-29 南京邮电大学 一种基于人体轮廓和关键点特征融合的步态识别方法
CN115035551A (zh) * 2022-08-10 2022-09-09 武汉东信同邦信息技术有限公司 三维人体姿态估计方法、装置、设备及存储介质
CN115497161A (zh) * 2022-09-21 2022-12-20 中国地质大学(武汉) 基于人体姿态矫正的注意力时空图卷积网络行为识别方法
CN116453226A (zh) * 2023-05-18 2023-07-18 平安科技(深圳)有限公司 基于人工智能的人体姿态识别方法、装置及相关设备

Also Published As

Publication number Publication date
CN116665309B (zh) 2023-11-14

Similar Documents

Publication Publication Date Title
US11367272B2 (en) Target detection method, apparatus, and system
Ko et al. Key points estimation and point instance segmentation approach for lane detection
Ding et al. Crowd density estimation using fusion of multi-layer features
Arietta et al. City forensics: Using visual elements to predict non-visual city attributes
WO2021051601A1 (zh) 利用Mask R-CNN选择检测框的方法及系统、电子装置及存储介质
CN111178183B (zh) 人脸检测方法及相关装置
KR101896357B1 (ko) 객체를 검출하는 방법, 디바이스 및 프로그램
CN111178245A (zh) 车道线检测方法、装置、计算机设备和存储介质
CN109035295B (zh) 多目标跟踪方法、装置、计算机设备和存储介质
CN109977832B (zh) 一种图像处理方法、装置及存储介质
CN111931764A (zh) 一种目标检测方法、目标检测框架及相关设备
Lu et al. Cascaded multi-task road extraction network for road surface, centerline, and edge extraction
CN111191533A (zh) 行人重识别的处理方法、装置、计算机设备和存储介质
WO2023030182A1 (zh) 图像生成方法及装置
CN113435432B (zh) 视频异常检测模型训练方法、视频异常检测方法和装置
CN111652181B (zh) 目标跟踪方法、装置及电子设备
CN113348465A (zh) 图像中对象的关联性预测方法、装置、设备和存储介质
Ma et al. An anchor-free object detector with novel corner matching method
US20220300774A1 (en) Methods, apparatuses, devices and storage media for detecting correlated objects involved in image
CN117237867A (zh) 基于特征融合的自适应场面监视视频目标检测方法和系统
Hafeezallah et al. Multi-Scale Network with Integrated Attention Unit for Crowd Counting.
CN116665309B (zh) 一种步姿特征识别方法、装置、芯片及终端
Manasa et al. Differential evolution evolved RBFNN based automated recognition of traffic sign images
Li et al. Pedestrian Motion Path Detection Method Based on Deep Learning and Foreground Detection
Russel et al. Ownership of abandoned object detection by integrating carried object recognition and context sensing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant