CN115482494A - 人体跌倒检测方法及特征提取模型获取方法、和装置 - Google Patents
人体跌倒检测方法及特征提取模型获取方法、和装置 Download PDFInfo
- Publication number
- CN115482494A CN115482494A CN202211263212.XA CN202211263212A CN115482494A CN 115482494 A CN115482494 A CN 115482494A CN 202211263212 A CN202211263212 A CN 202211263212A CN 115482494 A CN115482494 A CN 115482494A
- Authority
- CN
- China
- Prior art keywords
- image
- human body
- feature extraction
- loss function
- standing posture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 100
- 238000001514 detection method Methods 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 45
- 230000006870 function Effects 0.000 claims description 85
- 238000004590 computer program Methods 0.000 claims description 14
- 230000002776 aggregation Effects 0.000 claims description 8
- 238000004220 aggregation Methods 0.000 claims description 8
- 230000014509 gene expression Effects 0.000 claims description 8
- 150000001875 compounds Chemical class 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 8
- 238000012544 monitoring process Methods 0.000 abstract description 6
- 230000004931 aggregating effect Effects 0.000 abstract 1
- 230000036544 posture Effects 0.000 description 89
- 230000000474 nursing effect Effects 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000000452 restraining effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000001217 buttock Anatomy 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 210000002414 leg Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/74—Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请属于图像处理技术领域,尤其涉及一种人体跌倒检测方法及特征提取模型获取方法、和装置,该人体跌倒检测方法包括:将待检测的人体图像输入至特征提取模型中,得到目标图像特征,其中,该特征提取模型基于使站姿类别图像特征聚合并且跌倒类别图像特征与站姿类别图像特征分离的约束训练得到;然后根据所述目标图像特征与预存的站姿类别的人体图像特征均值之间的距离来确定当前人体图像为人体跌倒图像还是人体站姿图像。该方法可以解决由监控摄像头部署位置限制、人体被遮挡引等问题引起的跌倒检测困难的问题。
Description
技术领域
本申请涉及图像处理技术领域,尤其涉及一种人体跌倒检测方法及特征提取模型获取方法、和装置。
背景技术
行人跌倒检测是计算机视觉的经典课题,在视频监控、社会安防等领域也有着实际的应用价值。例如,将行人跌倒检测系统部署于养老院、医院等看护场景,实时地监测老人、病人的身体情况,在其发生跌倒时及时地给看护人员发出信号。与传统人力看护相比,行人跌倒检测系统可以减少养老院和医院的人力成本,同时减小因看护人员疏忽造成的未及时发现老人、病人跌倒的概率。
然而,行人跌倒检测算法往往基于细粒度的人体关键点检测,即通过检测算法定位人体的关键点,然后利用关键点之间的空间位置关系去制定规则,从而判定行人是否跌倒。在实践中发现,基于人体关键点检测的行人跌倒检测算法存在以下两个局限性,即跌倒的判定规则缺乏灵活性和过分依赖于足够准确的人体关键点检测结果。
发明内容
有鉴于此,本申请实施例提供一种人体图像特征提取模型获取方法、人体跌倒检测方法、装置、终端设备和可读存储介质。
第一方面,本申请实施例提供一种人体图像特征提取模型获取方法,包括:
将带人体姿态标注的样本图像输入特征提取网络中进行特征提取,得到图像特征,所述图像特征包括跌倒类别图像特征和站姿类别图像特征;
根据损失函数,对所述特征提取网络进行训练,得到训练后的特征提取模型,所述损失函数包括第一损失函数项和第二损失函数项,所述第一损失函数项用于约束站姿类别图像特征相似性,所述第二损失函数项用于约束站姿类别图像特征聚合并且跌倒类别图像特征与站姿类别图像特征分离。
在一些实施例中,所述约束站姿类别图像特征聚合并且跌倒类别图像特征与站姿类别图像特征分离,包括:
约束每张站姿类别图像特征与站姿类别图像特征的均值之间的距离在预设范围内,以及约束跌倒类别图像特征与所述均值之间的距离大于预设距离阈值。
在一些实施例中,所述第一损失函数项采用交叉熵损失函数,所述第二损失函数项采用度量学习损失函数。
在一些实施例中,所述根据损失函数,对所述特征提取网络进行训练,包括:
通过所述交叉熵损失函数计算所述站姿类别图像特征的交叉熵损失值,并通过所述度量学习损失函数计算所述跌倒类别图像特征与所述站姿类别图像特征的度量学习损失值;
将所述交叉熵损失值和所述度量学习损失值之和作为总损失值,并利用所述总损失值更新所述特征提取网络的网络参数,直至更新后的特征提取网络满足预设收敛条件。
在一些实施例中,所述度量学习损失函数包括第一度量学习损失子函数和第二度量学习损失子函数;所述第一度量学习损失子函数和所述第二度量学习损失子函数的表达式分别为:
在一些实施例中,所述交叉熵损失函数的表达式如下:
式中,Lce表示所述交叉熵损失函数;N为样本图像数量;W1和W2分别表示站姿类别和跌倒类别的权重向量;fi表示第i个样本图像的所述人体图像特征。
在一些实施例中,所述将带人体姿态标注的样本图像输入特征提取网络中进行特征提取,之前还包括:
构造多个训练批次,每个所述训练批注包括数量相等的多张站姿类别样本图像和多张跌倒类别样本图像。
第二方面,本申请实施例还提供一种人体跌倒检测方法,包括:
将待检测的人体图像输入至根据上述的方法得到的特征提取模型中进行特征提取,得到目标图像特征;
若所述目标图像特征与预存的站姿类别图像特征均值之间的距离大于等于预设距离阈值,则确定所述人体图像为人体跌倒图像;
若所述目标图像特征小于所述预设距离阈值,则确定所述人体图像为人体站姿图像。
第三方面,本申请实施例提供一种人体图像特征提取模型获取装置,包括:
特征提取模块,用于将带人体姿态标注的样本图像输入特征提取网络中进行特征提取,得到图像特征,所述图像特征包括跌倒类别图像特征和站姿类别图像特征;
网络训练模块,用于根据损失函数,对所述特征提取网络进行训练,得到训练后的特征提取模型,所述损失函数包括第一损失函数项和第二损失函数项,所述第一损失函数项用于约束站姿类别图像特征相似性,所述第二损失函数项用于约束站姿类别图像特征聚合并且跌倒类别图像特征与站姿类别图像特征分离。
第四方面,本申请实施例还提供一种终端设备,所述终端设备包括处理器和存储器,所述存储器存储有计算机程序,所述处理器用于执行所述计算机程序以实施上述的人体图像特征提取模型获取方法或人体跌倒检测方法。
第五方面,本申请实施例还提供一种可读存储介质,其存储有计算机程序,所述计算机程序在处理器上执行时,实施上述的人体图像特征提取模型获取方法或人体跌倒检测方法。
本申请具有如下有益效果:
本申请提出的人体跌倒检测方法通过将待检测的人体图像输入图像特征提取模型中,得到目标图像特征;再根据目标图像特征与预存的站姿类别的人体图像特征均值之间的距离来确定当前人体图像为人体跌倒图像还是人体站姿图像,其中,在训练过程中,通过两项损失函数项来训练得到上述的图像特征提取模型,第一损失函数项用于约束站姿类别图像特征相似性,第二损失函数项用于约束站姿类别图像特征聚合并且跌倒类别图像特征与站姿类别图像特征分离。该方法可以解决由监控摄像头部署位置限制、人体被遮挡引等问题引起的跌倒检测困难的问题。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1的(a)-(c)示出了行人图像关键点检测的几种示例;
图2的(a)-(b)示出了行人图像出现遮挡的几种示例;
图3示出了本申请实施例的人体图像特征提取模型获取方法的流程图;
图4示出了本申请实施例的人体跌倒检测模型的网络结构示意图;
图5示出了本申请实施例的模型训练损失值计算的流程图;
图6示出了本申请实施例的人体跌倒检测方法的流程图;
图7示出了本申请实施例的人体图像特征提取模型获取装置的结构示意图;
图8示出了本申请实施例的人体跌倒检测装置的结构示意图;
图9示出了本申请实施例的终端设备的结构示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。
通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在下文中,可在本申请的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
除非另有限定,否则这里使用的所有术语(包括技术术语和科学术语)具有与本申请的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本申请的各种实施例中被清楚地限定。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互结合。
对于现有的基于人体关键点检测的行人跌倒检测方法,其先利用人体关键点检测算法定位人体的关键点例如,图1中的(a)、(b)和(c)所示依次为处于正常站姿状态下的姿态、处于正常坐姿状态下的姿态,以及处于跌倒状态的姿态,可定位出人体的一些关键点;然后利用关键点之间的空间位置关系去制定规则,从而判定行人是否跌倒。例如,对于图1中的(c),当发现头部的竖直位置与腰部或者腿部的竖直位置的差值在一定范围内时,是判定该人处于跌倒状态,系统将自动向护理人员发出提醒信号。类似的规则还有“臀部与脚部的竖直位置是否相近”等。然而,由于人体结构的非刚性性质,人体跌倒后的状态的丰富度往往很高,即,如果把跌倒后的人体当做一个类别,其类内的差异是很大的。但是,现有的基于人体关键点检测的行人跌倒检测算法使用的跌倒判定规则往往只考虑了几种典型的跌倒类型,从而原理上无法适用于所有的跌倒类型。
不仅如此,基于人体关键点检测的行人跌倒检测算法往往需要足够鲁棒的人体关键点来判定行人是否跌倒。然而,如图2中的(a)所示,在监控场景下,由于相机的部署位置和拍摄角度的关系,所拍摄到的行人往往会发生严重的“自遮挡”现象,即监控摄像头拍摄到行人部分人体被自身遮挡,导致只有部分人体区域可见。此外,又如图2中的(b)所示,室内环境的复杂性往往也会造成人体被物体遮挡,从而造成只有部分人体区域可见的问题。此时,人体关键点检测算法往往无法准确地给出人体关键点的位置,从而影响跌倒检测的准确性。
为此,本申请提出一种基于度量学习的行人跌倒检测方法,可以鲁棒地区分行人站姿和行人跌倒的情形。该方法主要依据“处于站姿状态下的人体体现出姿态的一致性,但处于跌倒状态下的人体姿态的差异很大”,具体而言,即大部分处于站姿状态的行人的人体都是处于竖直姿态,因此,从不同的角度拍摄到的处于站姿状态下的行人,得到的行人姿态都是相似的。从而,处于站姿状态下的人体图像具有良好的类内紧致性。如图2中的(a)所示,与站姿相比,由于人体结构固有的非刚性性质,不同跌倒状态下的人体姿态的差异是十分明显的,因此,处于跌倒状态下的人体图像不具备类内一致性。
可以理解,本申请的基于度量学习的行人跌倒检测方法能够应用于医院、养老院、家庭等各种看护场景,实时地监测病人、老人等的活动情况,并在检测出发生跌倒时,及时地给看护人员发出信号。值得注意的是,本申请提出的度量学习的思想也可以用于行人识别、人脸识别、图像检索、细粒度图像分析等开放领域的图像识别任务中,具体可根据实际需求作适应性调整。
下面对人体跌倒检测方法进行详细说明。本实施例中,该方法划分两个阶段,即模型训练阶段和模型应用阶段。这里先模型训练阶段进行说明。
请参照图3,示范性地,该人体图像特征提取模型获取方法包括:
S110,将带人体姿态标注的样本图像输入特征提取网络中进行特征提取,得到图像特征。其中,所述图像特征包括跌倒类别图像特征和站姿类别图像特征。
应当明白的是,本实施例中的特征提取网络只是提取图像特征的一个工具,其并不依赖于特定的网络结构,例如,可采用常见的深度学习模型,如ResNet系列的重量级网络、MobileNet系列、shuffleNet系列等轻量级网络等,这里不作限定。
本实施例中,将人体姿态主要分为两大类,分别包括跌倒类别和站姿类别,例其中,站姿类别是指人体处于站立姿态(也称竖直姿态),跌倒类别是指人体处于跌倒状态(非竖直姿态)。
在模型训练阶段,需要先获得一定数据的样本图像,这里将用于训练所述特征提取网络的所有样本图像分为两大类,包括带跌倒类别标注的第一类样本图像(简称跌倒类别样本图像)和带站姿类别标注的第二类样本图像(简称站姿类别样本图像),对于这两类样本图像,可划分出多个训练批次,而且为保证模型训练的鲁棒性,每次训练时,一个训练批次中的跌倒类别样本图像和站姿类别样本图像可以设置为相等。
对于上述步骤S110,如图4所示,对于一个训练批次中的跌倒类别样本图像(即图4中的跌倒图片)和站姿类别样本图像(即图4中的站姿图片),可将每个样本图像输入至选取的特征提取网络中进行特征提取,得到对应姿态的图像特征。例如,来自站姿类别的样本图像可提取得到如图4所示的站姿图像特征,而来自跌倒类别的样本图像可提取得到如图4所示的跌倒图像特征等。
S120,根据损失函数,对所述特征提取网络进行训练,得到训练后的特征提取模型,所述损失函数包括第一损失函数项和第二损失函数项,所述第一损失函数项用于约束站姿类别图像特征相似性,所述第二损失函数项用于约束站姿类别图像特征聚合并且跌倒类别图像特征与站姿类别图像特征分离。
其中,损失函数用于对特征提取网络中提取的图像特征进行监督。通过计算每次训练的损失值来调整网络参数,从而使得该特征提取网络的特征提取效果满足要求。如前述记载,处于站姿状态下的人体体现出姿态的一致性,而处于跌倒状态下的人体图像不具备类内一致性,基于此思想,本实施例创造性地提出基于度量学习对跌倒类别图像特征与站姿类别图像特征分别进行约束,即要求所有的站姿类别图像特征聚合,并且使跌倒类别图像特征与站姿类别图像特征分离,即使得跌倒类别图像特征需要尽量远离站姿类别图像特征。通过利用站姿类别图像特征的一致性特点来设置跌倒类别图像特征的约束,这样可以不需要穷尽所有可能跌倒时的姿态,也不会因为训练样本量的跌倒姿态有限而导致实际模型的检测效率不佳。
在一种实施方式中,上述的第一损失函数项可采用交叉熵损失函数,第二损失函数项采用度量学习损失函数;其中,交叉熵损失函数用于计算对应图像特征的交叉熵损失值,可用于对特征提取网络输出的站姿类别图像特征与输入的站姿类别样本图像之间的相似性进行约束;度量学习损失函数用于计算对应图像特征的度量学习损失。
例如,该交叉熵损失函数的表达式如下:
式中,Lce表示交叉熵损失函数;N为样本图像数量,比如可以是单个训练批次的总数量等等;W1和W2分别表示站姿类别和跌倒类别的权重向量,具体可根据实际需求来设置或随时设置;fi表示第i个样本图像的人体图像特征。
在一种实施方式中,该度量学习损失函数包括第一度量学习损失子函数和第二度量学习损失子函数;其中,第一度量学习损失子函数用于约束每张站姿类别图像特征与站姿类别图像特征的均值之间的距离在预设范围内;而第二度量学习损失子函数则用于约束每张跌倒类别图像特征与上述站姿类别图像特征的均值之间的距离大于预设距离阈值。其中,该预设距离阈值可根据实际需求来相应设置,这里不作限定。
例如,该第一度量学习损失子函数的表达式可为:
式中,表示第一度量学习损失子函数,N为样本图像数量;表示第i个跌倒类别图像特征fi B与站姿类别图像特征的均值之间的距离。其中,上述的站姿类别图像特征的均值可以通过将一个训练批次或多个训练批次中的各个站姿类别图像特征相加后再求平均值来得到。例如,以一个训练批次为例,该均值的计算公式的表达式为:
式中,fi A表示第i个站姿类别图像特征。
例如,该第二度量学习损失子函数的表达式可为:
可以理解,上述几种损失函数的表达式仅为一种示例,在实际使用过程中,除了基于上述的约束条件来构建外,还可以在此约束的基础上增加其他约束条件来进一步限定损失函数的构建,这里不作限定。
如图5所示,对于步骤S120,根据损失函数,对所述特征提取网络进行训练,包括:
S121,通过交叉熵损失函数计算站姿类别图像特征的交叉熵损失值。
针对每个站姿类别样本图像,可根据站姿类别的预设权重和提取到的站姿类别图像特征通过上述交叉熵损失函数,即可计算得到该站姿类别图像特征的交叉熵损失值。
S122,通过度量学习损失函数计算跌倒类别图像特征与站姿类别图像特征的度量学习损失值。
以上述示例的第一度量学习损失子函数和第二度量学习损失子函数,可以分别计算出对应的度量学习损失值。
S123,将所述交叉熵损失值和所述度量学习损失值之和作为总损失值。
S124,利用所述总损失值更新所述特征提取网络的网络参数,直至更新后的特征提取网络满足预设收敛条件。
对于单个训练批次,可利用计算到的本次训练的总损失值来判定特征提取网络是否满足预设收敛条件,若不满足,则需要继续训练,若满足,则停止训练。具体地,对于每次训练,通过本次训练的总损失值作为依据,对特征提取网络中的网络参数进行调整,得到更新后的特征提取网络,若该更新后的特征提取网络所提取的图像特征满足要求,则可以,经过多次训练后,计算得到的损失值在预设范围内时,则可判定特征提取网络已训练好。可以理解,训练好的特征提取网络能够用于提取到所需的人体图像特征。对于上述的预设收敛条件,例如,可以是总损失值足够小,如趋近于0或位于某范围内等,这里不作限定。
接着,基于训练好的特征提取网络,将对模型应用阶段进行说明。通过采集所需应用场景下若干站姿下的人体图像,然后利用训练阶段得到的训练好的特征提取网络来提取图像特征。
请参照图6,基于上述实施例的模型获取方法,本实施例提出一种人体跌倒检测方法,该方法包括:
S210,将待检测的人体图像输入至由上述方法得到的特征提取模型中进行特征提取,得到目标图像特征(记为f)。
S220,检测目标图像特征与预存的站姿类别图像特征均值之间的距离是否大于等于预设距离阈值。
若大于等于,则执行步骤S230,否则执行步骤S240。
其中,该站姿类别图像特征均值可预先通过在对应的应用场景下若干站姿下的人体图像,利用上述实施例的方法得到的训练好的特征提取模型来进行特征提取,然后根据这些提取到的站姿图像特征进行平均值计算,从而得到站姿类别图像特征均值(记为)。可选地,还可以获取不同人体的图像来计算该站姿类别图像特征均值,以进一步提高算法的跨场景能力。
S230,若该距离大于等于预设距离阈值,则确定该人体图像为人体跌倒的图像。
S240,若该距离小于预设距离阈值,则确定该人体图像为人体站立的图像。
示范性地,通过计算和f两个特征向量之间的距离,若该距离大于或等于该预设距离阈值α,则判定该人体图像为跌倒类别的图像,即表明人体发生跌倒;可选地,可通知相应人员等。反之,若该距离小于阈值α,则判定该人体图像为站姿类别的图像,即表明处于站立姿态而未跌倒。
本申请提出的人体跌倒检测方法摆脱了传统行人跌倒检测算法对人体关键点的依赖性,其中,在训练阶段,提出利用度量学习来约束站姿图像特征尽量聚合而跌倒图像特征与站姿图像特征尽量远离的思路,训练得到一个特征提取模型;进而,在应用部署阶段,则利用训练好的模型直接提取出行人图像的特征来判断图片中的人体是否处于跌倒状态,从而能够鲁棒地、快速地对行人是否跌倒作出判定,还可以很好地解决由监控摄像头部署位置限制、人体被遮挡引等问题引起的跌倒检测困难的问题等。
请参照图7,基于上述实施例的模型获取方法,本实施例提出一种人体图像特征提取模型获取装置100,包括:
特征提取模块110,用于将带人体姿态标注的样本图像输入特征提取网络中进行特征提取,得到图像特征,所述图像特征包括跌倒类别图像特征和站姿类别图像特征。
网络训练模块120,用于根据损失函数,对所述特征提取网络进行训练,得到训练后的特征提取模型,所述损失函数包括第一损失函数项和第二损失函数项,所述第一损失函数项用于约束站姿类别图像特征相似性,所述第二损失函数项用于约束站姿类别图像特征聚合并且跌倒类别图像特征与站姿类别图像特征分离。
进一步地,所述第一损失函数项采用交叉熵损失函数,所述第二损失函数项采用度量学习损失函数;网络训练模块120包括损失值计算子模块和参数更新子模块;
其中,损失值计算子模块用于通过所述交叉熵损失函数计算所述站姿类别图像特征的交叉熵损失值,并通过所述度量学习损失函数计算所述跌倒类别图像特征与所述站姿类别图像特征的度量学习损失值,然后将所述交叉熵损失值和所述度量学习损失值之和作为总损失值;参数更新子模块用于利用所述总损失值更新所述特征提取网络的网络参数,直至更新后的特征提取网络满足预设收敛条件。
可以理解,本实施例的装置对应于上述实施例的模型获取方法,上述实施例中的可选项同样适用于本实施例,故在此不再重复描述。
请参照图8,基于上述实施例的人体跌倒检测方法,本实施例提出一种人体跌倒检测装置200,包括:
提取模块210,用于将待检测的人体图像输入至上述特征提取模型中进行特征提取,得到目标图像特征;
判定模块220,用于若所述目标图像特征与预存的站姿类别的人体图像特征均值之间的距离大于等于预设距离阈值,则确定该人体图像为人体跌倒图像;若所述目标图像特征小于所述预设距离阈值,则确定该人体图像为人体站姿图像。
可以理解,本实施例的装置对应于上述实施例的目标重识别方法,上述实施例中的可选项同样适用于本实施例,故在此不再重复描述。
请参照图9,为本申请实施例提出的终端设备10的结构示意图。例如,该终端设备10可以是固定安装式设备,如室内的摄像装置等,也可以是移动式设备,如可移动的陪护机器人等,进一步地,若为机器人,其具体形状并不作限定。示范性地,该终端设备10可以包括存储器11和处理器12,其中,存储器11存储有计算机程序,处理器12用于执行所述计算机程序以实施本申请实施例的人体图像特征提取模型获取方法或人体跌倒检测方法,从而能够鲁棒地、快速地对人体是否跌倒作出判定等。
其中,存储器11可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器11用于存储计算机程序,处理器12在接收到执行指令后,可相应地执行所述计算机程序。
其中,处理器12可以是一种具有信号的处理能力的集成电路芯片。处理器12可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、图形处理器(GraphicsProcessing Unit,GPU)及网络处理器(Network Processor,NP)、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件中的至少一种。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。
在本实施例中,处理器12可以是一种具有信号的处理能力的集成电路芯片。处理器12可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、图形处理器(Graphics Processing Unit,GPU)及网络处理器(Network Processor,NP)、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件中的至少一种。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。
本申请还提供了一种可读存储介质,用于储存上述终端设备中使用的所述计算机程序。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和结构图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或更多个模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。
Claims (10)
1.一种人体图像特征提取模型获取方法,其特征在于,包括:
将带人体姿态标注的样本图像输入特征提取网络中进行特征提取,得到图像特征,所述图像特征包括跌倒类别图像特征和站姿类别图像特征;
根据损失函数,对所述特征提取网络进行训练,得到训练后的特征提取模型,所述损失函数包括第一损失函数项和第二损失函数项,所述第一损失函数项用于约束站姿类别图像特征相似性,所述第二损失函数项用于约束站姿类别图像特征聚合并且跌倒类别图像特征与站姿类别图像特征分离。
2.根据权利要求1所述的人体图像特征提取模型获取方法,其特征在于,所述约束站姿类别图像特征聚合并且跌倒类别图像特征与站姿类别图像特征分离,包括:
约束每张站姿类别图像特征与站姿类别图像特征的均值之间的距离在预设范围内,以及约束跌倒类别图像特征与所述均值之间的距离大于预设距离阈值。
3.根据权利要求1所述的人体图像特征提取模型获取方法,其特征在于,所述第一损失函数项采用交叉熵损失函数,所述第二损失函数项采用度量学习损失函数;所述根据损失函数,对所述特征提取网络进行训练,包括:
通过所述交叉熵损失函数计算所述站姿类别图像特征的交叉熵损失值,并通过所述度量学习损失函数计算所述跌倒类别图像特征与所述站姿类别图像特征的度量学习损失值;
将所述交叉熵损失值和所述度量学习损失值之和作为总损失值,并利用所述总损失值更新所述特征提取网络的网络参数,直至更新后的特征提取网络满足预设收敛条件。
6.根据权利要求1所述的人体图像特征提取模型获取方法,其特征在于,所述将带人体姿态标注的样本图像输入特征提取网络中进行特征提取,之前还包括:
构造多个训练批次,每个所述训练批注包括数量相等的多张站姿类别样本图像和多张跌倒类别样本图像。
7.一种人体跌倒检测方法,其特征在于,包括:
将待检测的人体图像输入至根据权利要求1至6中任一项所述的方法得到的特征提取模型中进行特征提取,得到目标图像特征;
若所述目标图像特征与预存的站姿类别图像特征均值之间的距离大于等于预设距离阈值,则确定所述人体图像为人体跌倒图像;
若所述目标图像特征小于所述预设距离阈值,则确定所述人体图像为人体站姿图像。
8.一种人体图像特征提取模型获取装置,其特征在于,包括:
特征提取模块,用于将带人体姿态标注的样本图像输入特征提取网络中进行特征提取,得到图像特征,所述图像特征包括跌倒类别图像特征和站姿类别图像特征;
网络训练模块,用于根据损失函数,对所述特征提取网络进行训练,得到训练后的特征提取模型,所述损失函数包括第一损失函数项和第二损失函数项,所述第一损失函数项用于约束站姿类别图像特征相似性,所述第二损失函数项用于约束站姿类别图像特征聚合并且跌倒类别图像特征与站姿类别图像特征分离。
9.一种终端设备,其特征在于,所述终端设备包括处理器和存储器,所述存储器存储有计算机程序,所述处理器用于执行所述计算机程序以实施权利要求1-7中任一项所述的方法。
10.一种可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序在处理器上执行时,实施根据权利要求1-7中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211263212.XA CN115482494A (zh) | 2022-10-14 | 2022-10-14 | 人体跌倒检测方法及特征提取模型获取方法、和装置 |
US18/380,086 US20240135579A1 (en) | 2022-10-14 | 2023-10-13 | Method for human fall detection and method for obtaining feature extraction model, and terminal device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211263212.XA CN115482494A (zh) | 2022-10-14 | 2022-10-14 | 人体跌倒检测方法及特征提取模型获取方法、和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115482494A true CN115482494A (zh) | 2022-12-16 |
Family
ID=84395112
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211263212.XA Pending CN115482494A (zh) | 2022-10-14 | 2022-10-14 | 人体跌倒检测方法及特征提取模型获取方法、和装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20240135579A1 (zh) |
CN (1) | CN115482494A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117671799A (zh) * | 2023-12-15 | 2024-03-08 | 武汉星巡智能科技有限公司 | 结合深度测量的人体跌倒检测方法、装置、设备及介质 |
-
2022
- 2022-10-14 CN CN202211263212.XA patent/CN115482494A/zh active Pending
-
2023
- 2023-10-13 US US18/380,086 patent/US20240135579A1/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117671799A (zh) * | 2023-12-15 | 2024-03-08 | 武汉星巡智能科技有限公司 | 结合深度测量的人体跌倒检测方法、装置、设备及介质 |
CN117671799B (zh) * | 2023-12-15 | 2024-09-10 | 武汉星巡智能科技有限公司 | 结合深度测量的人体跌倒检测方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
US20240135579A1 (en) | 2024-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9183431B2 (en) | Apparatus and method for providing activity recognition based application service | |
CN101577006B (zh) | 视频监控中的徘徊检测方法和系统 | |
CN109544592B (zh) | 针对相机移动的运动目标检测算法 | |
US20170011523A1 (en) | Image processing apparatus, image processing method, and storage medium | |
JP2006079272A (ja) | 異常動作検出装置および異常動作検出方法 | |
CN106650965B (zh) | 一种远程视频处理方法及装置 | |
WO2021164662A1 (zh) | 交互关系识别方法、装置、设备及存储介质 | |
CN111079518B (zh) | 一种基于执法办案区场景下的倒地异常行为识别方法 | |
CN108647587B (zh) | 人数统计方法、装置、终端及存储介质 | |
CN111445531A (zh) | 一种多目相机导航方法、装置、设备及存储介质 | |
JP4613230B2 (ja) | 移動物体監視装置 | |
JP2011113313A (ja) | 姿勢推定装置 | |
CN104376575A (zh) | 一种基于多摄像头监控的行人计数方法和装置 | |
CN112418135A (zh) | 人体行为识别方法、装置、计算机设备及可读存储介质 | |
CN113723157B (zh) | 一种农作物病害识别方法、装置、电子设备及存储介质 | |
CN110781733A (zh) | 图像去重方法、存储介质、网络设备和智能监控系统 | |
CN106295710B (zh) | 基于非几何约束的图像局部特征匹配方法、装置及终端 | |
US20160063345A1 (en) | Pattern recognition apparatus, pattern recognition method, and storage medium | |
CN115482494A (zh) | 人体跌倒检测方法及特征提取模型获取方法、和装置 | |
CN112036269A (zh) | 跌倒检测方法、装置、计算机设备和存储介质 | |
Viraktamath et al. | Comparison of YOLOv3 and SSD algorithms | |
CN110309786B (zh) | 一种基于深度视频的哺乳母猪姿态转换识别方法 | |
JP2011113398A (ja) | 姿勢推定装置 | |
CN113256683B (zh) | 目标跟踪方法及相关设备 | |
CN114359341A (zh) | 多目标跟踪方法、装置、终端设备和可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |