CN115170870A - 基于深度学习的婴儿行为特征分类方法和系统 - Google Patents

基于深度学习的婴儿行为特征分类方法和系统 Download PDF

Info

Publication number
CN115170870A
CN115170870A CN202210711384.2A CN202210711384A CN115170870A CN 115170870 A CN115170870 A CN 115170870A CN 202210711384 A CN202210711384 A CN 202210711384A CN 115170870 A CN115170870 A CN 115170870A
Authority
CN
China
Prior art keywords
baby
video
model
infant
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210711384.2A
Other languages
English (en)
Inventor
陈勇维
王子龙
丁晓伟
张政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI CHILDREN'S HOSPITAL
Suzhou Voxelcloud Information Technology Co ltd
Original Assignee
Suzhou Voxelcloud Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Voxelcloud Information Technology Co ltd filed Critical Suzhou Voxelcloud Information Technology Co ltd
Priority to CN202210711384.2A priority Critical patent/CN115170870A/zh
Publication of CN115170870A publication Critical patent/CN115170870A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Abstract

本发明提供了一种基于深度学习的婴儿行为特征分类方法和系统,包括:步骤1:制作婴儿视频数据集,并对数据集中的视频进行分类和时间片段标注;步骤2:制作婴儿关键点数据集;步骤3:对婴儿视频数据集的人体关键点进行预处理;步骤4:使用深度学习模型搭建婴儿行为分类模型,将婴儿视频数据集的人体关键点特征送入到婴儿行为分类模型,计算模型输出分类概率、输出时间片段与标签间的总损失,使用总损失进行反向传播来更新模型参数,待模型参数收敛后完成训练;步骤5:根据分类分支的分类概率判断该视频是否存在不安运动,得到视频存在不安运动的时间片段。本发明可检测婴儿是否缺乏不安运动,减轻医生需要长时间观看婴儿运动视频的负担。

Description

基于深度学习的婴儿行为特征分类方法和系统
技术领域
本发明涉及特征分类计数领域,具体地,涉及一种基于深度学习的婴儿行为特征分类方法和系统。
背景技术
婴儿全身运动行为评估,能用于新生儿和小婴儿的神经系统功能评估,对于婴儿脑瘫的检测具有较高的灵敏度和特异度,检测无创,操作简单,临床应用广泛。对脑瘫高危儿进行早期筛查、诊断、干预,是保证患儿潜在能力最大程度发挥的唯一途径。
但婴儿全身运动行为评估需要专门培训的医务人员,医务人员要在大量读片中反复训练和积累经验。每份视频需要医务人员长时间读片,而长时间的读片给医务人员带来视觉疲劳,也影响医务人员诊断的准确度。
如今,深度学习技术广泛应用于计算机视觉领域。可利用深度学习技术在有标记的视频数据上训练模型,从而能自动分析婴儿视频,减轻医务人员长时间观看视频的负担。
专利文献CN113642525A(申请号:CN202111027601.8)公开了一种基于骨骼点的婴儿神经发育评估方法和系统。S1:拍摄和采集婴儿的运动视频,结合全身运动评估方法对视频进行标注;S2:完成数据采集后,基于姿态估计的方法提取骨骼点的信息,并且对数据进行清洗、分割等过程;S3:基于骨骼点的动作识别模型,结合迁移学习领域中少样本学习训练方式,完成模型的训练和测试。S4:根据模型的预测结果,判断是否需要进一步地诊断和治疗。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于深度学习的婴儿行为特征分类方法和系统。
根据本发明提供的基于深度学习的婴儿行为特征分类方法,包括:
步骤1:使用RGB摄像机拍摄婴儿的运动视频,制作婴儿视频数据集,并对数据集中的视频进行分类和时间片段标注;
步骤2:制作婴儿关键点数据集,在婴儿数据上微调婴儿关键点检测模型,并用该模型对婴儿视频数据集的每帧图像预测人体关键点;
步骤3:对婴儿视频数据集的人体关键点进行预处理,计算人体关键点的特征,然后对标注的时间片段进行归一化处理;
步骤4:使用深度学习模型搭建婴儿行为分类模型,将婴儿视频数据集的人体关键点特征送入到婴儿行为分类模型,计算模型输出分类概率、输出时间片段与标签间的总损失,其中总损失包括分类损失和定位损失,使用总损失进行反向传播来更新模型参数,待模型参数收敛后完成训练;
步骤5:将待预测的婴儿视频经过婴儿关键点检测模型,最后由婴儿行为分类模型输出分类概率和时间片段,根据分类分支的分类概率判断该视频是否存在不安运动,对于被模型判断为存在不安运动的视频,根据定位分支的输出,得到视频存在不安运动的时间片段。
优选的,所述步骤1包括:
步骤1.1:拍摄婴儿的面部和运动的四肢,每个婴儿的拍摄时间为3到5分钟,拍摄期间保证婴儿处于清醒、不哭闹状态,拍摄多个婴儿的运动视频构成婴儿视频数据集;
步骤1.2:对于数据集中的每个视频标注是否存在不安运动,对于存在不安运动的视频,还需要标注出视频中发生不安运动的开始时间和结束时间;
所述步骤2包括:
步骤2.1:收集婴儿图像,包括从互联网收集公开的婴儿视频和图像,以及用摄像机采集婴儿视频,从视频中随机抽样出图像帧;
步骤2.2:对婴儿图像标注人体关键点坐标,将所有婴儿图像及其关键点的标注信息构成婴儿关键点数据集;
步骤2.3:使用Lightweight OpenPose人体关键点检测模型,把在成人数据上预训练的模型在婴儿关键点数据集上微调,得到婴儿关键点检测模型;
步骤2.4:使用婴儿关键点检测模型对婴儿视频数据集的每帧图像的人体关键点进行预测。
优选的,所述步骤3包括:
步骤3.1:人体关键点在视频中每一帧的坐标形成人体关键点序列,对人体关键点进行预处理,包括通过关键点序列插值得到缺失关键点的坐标,对关键点序列进行滤波减少关键点坐标的抖动,根据视频的分辨率对关键点坐标归一化处理;
步骤3.2:计算人体关键点的特征,根据视频每秒的帧数获取两帧图像的时间差,将两帧图像间人体关键点的移动路程除以时间差形成关键点的速度;
步骤3.3:对每个视频获取视频总时长,用标注的时间片段的开始时间和结束数据分别除以视频总时长,从而得到归一化的标注时间片段。
优选的,所述步骤4包括:
步骤4.1:搭建婴儿行为分类模型,模型骨干网络使用MS-G3D,后接两个全连接层分支,一个全连接分支输出分类的概率,另一个分支输出20个值,分别为10个时间片段的开始和结束的时间;
步骤4.2:将人体关键点特征输入到婴儿行为分类模型;
步骤4.3:计算模型的分类损失,根据分类概率判断输入样本的分类类别,若分类概率大于等于设定阈值,则该输入样本被模型判断为缺乏不安运动,而预测概率小于设定阈值,则该输入样本被模型被判断为存在不安运动;
步骤4.4:计算模型的定位损失,对于被判断为存在不安运动的视频,计算模型输出的10个时间片段和归一化标注时间片段的重叠度IOU,定位损失为1-IOU,对于被判断为缺乏不安运动的视频,定位损失为0。
优选的,所述步骤5包括:
步骤5.1:对待预测的婴儿视频进行预测,按照训练过程的数据处理方式,通过婴儿关键点检测模型从婴儿视频数据中提取人体关键点,在人体关键点经过预处理和特征计算后,输入到婴儿行为分类模型,最终输出分类概率和10个时间片段;
步骤5.2:对输出时间片段进行合并,首先合并有时间重叠的片段,然后将时间差小于阈值的片段合并为一个片段,归一化的时间片段乘以视频总时长,把归一化的时间片段恢复到视频原始的时间尺度上,最终输出经过处理的时间片段。
根据本发明提供的基于深度学习的婴儿行为特征分类系统,包括:
模块M1:使用RGB摄像机拍摄婴儿的运动视频,制作婴儿视频数据集,并对数据集中的视频进行分类和时间片段标注;
模块M2:制作婴儿关键点数据集,在婴儿数据上微调婴儿关键点检测模型,并用该模型对婴儿视频数据集的每帧图像预测人体关键点;
模块M3:对婴儿视频数据集的人体关键点进行预处理,计算人体关键点的特征,然后对标注的时间片段进行归一化处理;
模块M4:使用深度学习模型搭建婴儿行为分类模型,将婴儿视频数据集的人体关键点特征送入到婴儿行为分类模型,计算模型输出分类概率、输出时间片段与标签间的总损失,其中总损失包括分类损失和定位损失,使用总损失进行反向传播来更新模型参数,待模型参数收敛后完成训练;
模块M5:将待预测的婴儿视频经过婴儿关键点检测模型,最后由婴儿行为分类模型输出分类概率和时间片段,根据分类分支的分类概率判断该视频是否存在不安运动,对于被模型判断为存在不安运动的视频,根据定位分支的输出,得到视频存在不安运动的时间片段。
优选的,所述模块M1包括:
模块M1.1:拍摄婴儿的面部和运动的四肢,每个婴儿的拍摄时间为3到5分钟,拍摄期间保证婴儿处于清醒、不哭闹状态,拍摄多个婴儿的运动视频构成婴儿视频数据集;
模块M1.2:对于数据集中的每个视频标注是否存在不安运动,对于存在不安运动的视频,还需要标注出视频中发生不安运动的开始时间和结束时间;
所述模块M2包括:
模块M2.1:收集婴儿图像,包括从互联网收集公开的婴儿视频和图像,以及用摄像机采集婴儿视频,从视频中随机抽样出图像帧;
模块M2.2:对婴儿图像标注人体关键点坐标,将所有婴儿图像及其关键点的标注信息构成婴儿关键点数据集;
模块M2.3:使用Lightweight OpenPose人体关键点检测模型,把在成人数据上预训练的模型在婴儿关键点数据集上微调,得到婴儿关键点检测模型;
模块M2.4:使用婴儿关键点检测模型对婴儿视频数据集的每帧图像的人体关键点进行预测。
优选的,所述模块M3包括:
模块M3.1:人体关键点在视频中每一帧的坐标形成人体关键点序列,对人体关键点进行预处理,包括通过关键点序列插值得到缺失关键点的坐标,对关键点序列进行滤波减少关键点坐标的抖动,根据视频的分辨率对关键点坐标归一化处理;
模块M3.2:计算人体关键点的特征,根据视频每秒的帧数获取两帧图像的时间差,将两帧图像间人体关键点的移动路程除以时间差形成关键点的速度;
模块M3.3:对每个视频获取视频总时长,用标注的时间片段的开始时间和结束数据分别除以视频总时长,从而得到归一化的标注时间片段。
优选的,所述模块M4包括:
模块M4.1:搭建婴儿行为分类模型,模型骨干网络使用MS-G3D,后接两个全连接层分支,一个全连接分支输出分类的概率,另一个分支输出20个值,分别为10个时间片段的开始和结束的时间;
模块M4.2:将人体关键点特征输入到婴儿行为分类模型;
模块M4.3:计算模型的分类损失,根据分类概率判断输入样本的分类类别,若分类概率大于等于设定阈值,则该输入样本被模型判断为缺乏不安运动,而预测概率小于设定阈值,则该输入样本被模型被判断为存在不安运动;
模块M4.4:计算模型的定位损失,对于被判断为存在不安运动的视频,计算模型输出的10个时间片段和归一化标注时间片段的重叠度IOU,定位损失为1-IOU,对于被判断为缺乏不安运动的视频,定位损失为0。
优选的,所述模块M5包括:
模块M5.1:对待预测的婴儿视频进行预测,按照训练过程的数据处理方式,通过婴儿关键点检测模型从婴儿视频数据中提取人体关键点,在人体关键点经过预处理和特征计算后,输入到婴儿行为分类模型,最终输出分类概率和10个时间片段;
模块M5.2:对输出时间片段进行合并,首先合并有时间重叠的片段,然后将时间差小于阈值的片段合并为一个片段,归一化的时间片段乘以视频总时长,把归一化的时间片段恢复到视频原始的时间尺度上,最终输出经过处理的时间片段。
与现有技术相比,本发明具有如下的有益效果:
(1)本发明利用标注的视频数据训练婴儿关键点检测模型和婴儿行为分类模型,模型可检测婴儿是否缺乏不安运动,减轻医生需要长时间观看婴儿运动视频的负担;
(2)本发明利用成人的关键点检测模型,在婴儿的关键点数据上微调,能提升婴儿关键点检测的性能;
(3)本发明除了输出视频的分类类别外,还能输出不安运动的时间片段信息,增加分类类别的可信度和模型的解释性。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为婴儿行为特征分类方法的总流程图;
图2为视频预测的流程图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例:
本发明提供了一种基于深度学习的婴儿行为特征分类方法,包括如下步骤:
步骤1:使用RGB摄像机拍摄婴儿的运动视频,制作婴儿视频数据集,并由医生对数据集中的视频进行分类和时间片段的标注;
步骤2:制作婴儿关键点数据集,在婴儿数据上微调婴儿关键点检测模型,并用该模型对婴儿视频数据集的每帧图像预测人体关键点;
步骤3:对婴儿视频数据集的人体关键点进行预处理(包括插值、滤波、归一化),计算人体关键点的4项特征(包括横坐标、纵坐标、移动路程、速度),对标注的时间片段进行归一化处理;
步骤4:使用深度学习模型搭建婴儿行为分类模型,将婴儿视频数据集的人体关键点特征送入到婴儿行为分类模型,计算模型输出分类概率、输出时间片段与标签间的总损失,其中总损失包括分类损失和定位损失,使用总损失进行反向传播来更新模型参数,待模型参数收敛后完成训练;
步骤5:将待预测的婴儿视频经过婴儿关键点检测模型,最后由婴儿行为分类模型输出分类概率和时间片段,根据分类分支的分类概率判断该视频是否存在不安运动,对于被模型判断为存在不安运动的视频,可根据定位分支的输出,得到视频存在不安运动的时间片段。
所述步骤1包含以下步骤:
步骤1.1:婴儿视频数据集的制作。放置婴儿于床垫上,使婴儿处于仰卧位,方便拍摄到婴儿的面部和运动的四肢。用三脚架支撑RGB摄像机,调整摄像机高度和角度保证摄像机能拍摄到婴儿的全身。每个婴儿的拍摄时间3到5分钟。拍摄期间需要保证婴儿处于清醒、不哭闹状态。拍摄多个婴儿的运动视频构成婴儿视频数据集。
步骤1.2:视频的分类和时间片段的标注。对于数据集中的每个视频,医生需观看完整视频,并标注整段视频是否存在不安运动,对于存在不安运动的视频,还需要标注出视频中发生不安运动的开始时间和结束时间。
所述步骤2包含以下步骤:
步骤2.1:收集婴儿图像。一方面从互联网收集公开的婴儿视频和图像,另一方面用摄像机采集婴儿视频,从视频中随机抽样出图像帧。
步骤2.2:制作婴儿关键点数据集。由人员对婴儿图像标注17个人体关键点坐标。所有婴儿图像及其关键点的标注信息构成婴儿关键点数据集。
步骤2.3:训练婴儿关键点检测模型。使用Lightweight OpenPose人体关键点检测模型。Lightweight OpenPose相比原始的OpenPose做了轻量化的改动,推理速度更快。开源的Lightweight OpenPose已在成人的关键点数据集上,进行了预训练。为了使得该模型在婴儿数据上也具有好的性能,把在成人数据上预训练的模型在婴儿关键点数据集上微调。微调后,得到婴儿关键点检测模型。
步骤2.4:使用婴儿关键点检测模型对婴儿视频数据集的每帧图像预测17个人体关键点。
所述步骤3包含以下步骤:
步骤3.1:人体关键点的预处理。人体关键点在视频中每一帧的坐标形成人体关键点序列。婴儿的快速的肢体运动和肢体间的遮挡,可能导致关键点检测模型不能检测到部分关键点,直接丢弃缺失部分关键点的帧影响分类性能。由于人体关键点的坐标在时间和空间上具有连续性,缺失关键点的坐标可由关键点序列插值得到。对关键点序列滤波,可减少关键点坐标的抖动。最后根据视频的分辨率对关键点坐标归一化处理。
步骤3.2:计算人体关键点的特征。视频文件中存储了该视频的每秒的帧数(FPS),FPS的倒数为两帧图像的时间差。两帧图像间人体关键点的移动路程除以时间差形成关键点的速度。从而对于每个人体关键点,能计算出4个特征,分别是关键点的横坐标、纵坐标、移动路程、速度。对于总帧数为N的视频,该视频的17个人体关键点的特征维度为N×17×4。额外增加的移动路程和速度特征,能直接反映婴儿运动特征,有利于行为特征分类。
步骤3.3:对标注的时间片段进行归一化处理。对每个视频首先获取视频总时长,用标注的时间片段的开始时间和结束数据分别除以视频总时长,从而得到归一化的标注时间片段。
所述步骤4包含以下步骤:
步骤4.1:搭建婴儿行为分类模型。模型骨干网络使用了MS-G3D,后接两个全连接层分支,一个全连接分支输出分类的概率,另一个分支输出20个值,分别为10个时间片段的开始和结束的时间。输出多个时间片段有利于对多个不安运动进行精细化的定位。
步骤4.2:将人体关键点特征输入到婴儿行为分类模型,输入数据的维度为“批量大小×9000×17×4”。“批量大小”是一次输入到模型的视频数量,9000是视频总帧数。对于总帧数不足9000帧的视频,用0填充关键点特征。对于超过9000帧的视频,只随机抽取连续9000帧的关键点特征。长的帧序列输入有利于模型提取整段视频的特征信息。
步骤4.3:计算模型的分类损失。分类损失是模型输出的分类概率和标注类别的交叉熵损失。根据分类概率判断输入样本的分类类别。若分类概率大于等于设定阈值,该输入样本被模型判断为缺乏不安运动,而预测概率小于设定阈值,该输入样本被模型被判断为存在不安运动。
步骤4.4:计算模型的定位损失。对于被判断为存在不安运动的视频,计算模型输出的10个时间片段和归一化标注时间片段的重叠度(IOU),定位损失为1-IOU。对于被判断为缺乏不安运动的视频,定位损失为0。
所述步骤5包含以下步骤:
步骤5.1:待预测的婴儿视频的预测。按照训练过程的数据处理方式,婴儿视频数据由婴儿关键点检测模型提取人体关键点,人体关键点经过预处理和特征计算后,输入到婴儿行为分类模型,最终输出分类概率和10个时间片段。
步骤5.2:输出时间片段的合并。对于被模型预测为存在不安运动的视频,模型输出了10个归一化的时间片段,首先合并有时间重叠的片段,然后将时间差小于阈值的片段合并为一个片段。归一化的时间片段乘以视频总时长,可把归一化的时间片段恢复到视频原始的时间尺度上。最终输出经过处理的时间片段。时间片段增加分类类别的可信度和模型的解释性。
根据本发明提供的基于深度学习的婴儿行为特征分类系统,包括:模块M1:使用RGB摄像机拍摄婴儿的运动视频,制作婴儿视频数据集,并对数据集中的视频进行分类和时间片段标注;模块M2:制作婴儿关键点数据集,在婴儿数据上微调婴儿关键点检测模型,并用该模型对婴儿视频数据集的每帧图像预测人体关键点;模块M3:对婴儿视频数据集的人体关键点进行预处理,计算人体关键点的特征,然后对标注的时间片段进行归一化处理;模块M4:使用深度学习模型搭建婴儿行为分类模型,将婴儿视频数据集的人体关键点特征送入到婴儿行为分类模型,计算模型输出分类概率、输出时间片段与标签间的总损失,其中总损失包括分类损失和定位损失,使用总损失进行反向传播来更新模型参数,待模型参数收敛后完成训练;模块M5:将待预测的婴儿视频经过婴儿关键点检测模型,最后由婴儿行为分类模型输出分类概率和时间片段,根据分类分支的分类概率判断该视频是否存在不安运动,对于被模型判断为存在不安运动的视频,根据定位分支的输出,得到视频存在不安运动的时间片段。
所述模块M1包括:模块M1.1:拍摄婴儿的面部和运动的四肢,每个婴儿的拍摄时间为3到5分钟,拍摄期间保证婴儿处于清醒、不哭闹状态,拍摄多个婴儿的运动视频构成婴儿视频数据集;模块M1.2:对于数据集中的每个视频标注是否存在不安运动,对于存在不安运动的视频,还需要标注出视频中发生不安运动的开始时间和结束时间;所述模块M2包括:模块M2.1:收集婴儿图像,包括从互联网收集公开的婴儿视频和图像,以及用摄像机采集婴儿视频,从视频中随机抽样出图像帧;模块M2.2:对婴儿图像标注人体关键点坐标,将所有婴儿图像及其关键点的标注信息构成婴儿关键点数据集;模块M2.3:使用LightweightOpenPose人体关键点检测模型,把在成人数据上预训练的模型在婴儿关键点数据集上微调,得到婴儿关键点检测模型;模块M2.4:使用婴儿关键点检测模型对婴儿视频数据集的每帧图像的人体关键点进行预测。所述模块M3包括:模块M3.1:人体关键点在视频中每一帧的坐标形成人体关键点序列,对人体关键点进行预处理,包括通过关键点序列插值得到缺失关键点的坐标,对关键点序列进行滤波减少关键点坐标的抖动,根据视频的分辨率对关键点坐标归一化处理;模块M3.2:计算人体关键点的特征,根据视频每秒的帧数获取两帧图像的时间差,将两帧图像间人体关键点的移动路程除以时间差形成关键点的速度;模块M3.3:对每个视频获取视频总时长,用标注的时间片段的开始时间和结束数据分别除以视频总时长,从而得到归一化的标注时间片段。所述模块M4包括:模块M4.1:搭建婴儿行为分类模型,模型骨干网络使用MS-G3D,后接两个全连接层分支,一个全连接分支输出分类的概率,另一个分支输出20个值,分别为10个时间片段的开始和结束的时间;模块M4.2:将人体关键点特征输入到婴儿行为分类模型;模块M4.3:计算模型的分类损失,根据分类概率判断输入样本的分类类别,若分类概率大于等于设定阈值,则该输入样本被模型判断为缺乏不安运动,而预测概率小于设定阈值,则该输入样本被模型被判断为存在不安运动;模块M4.4:计算模型的定位损失,对于被判断为存在不安运动的视频,计算模型输出的10个时间片段和归一化标注时间片段的重叠度IOU,定位损失为1-IOU,对于被判断为缺乏不安运动的视频,定位损失为0。所述模块M5包括:模块M5.1:对待预测的婴儿视频进行预测,按照训练过程的数据处理方式,通过婴儿关键点检测模型从婴儿视频数据中提取人体关键点,在人体关键点经过预处理和特征计算后,输入到婴儿行为分类模型,最终输出分类概率和10个时间片段;模块M5.2:对输出时间片段进行合并,首先合并有时间重叠的片段,然后将时间差小于阈值的片段合并为一个片段,归一化的时间片段乘以视频总时长,把归一化的时间片段恢复到视频原始的时间尺度上,最终输出经过处理的时间片段。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种基于深度学习的婴儿行为特征分类方法,其特征在于,包括:
步骤1:使用RGB摄像机拍摄婴儿的运动视频,制作婴儿视频数据集,并对数据集中的视频进行分类和时间片段标注;
步骤2:制作婴儿关键点数据集,在婴儿数据上微调婴儿关键点检测模型,并用该模型对婴儿视频数据集的每帧图像预测人体关键点;
步骤3:对婴儿视频数据集的人体关键点进行预处理,计算人体关键点的特征,然后对标注的时间片段进行归一化处理;
步骤4:使用深度学习模型搭建婴儿行为分类模型,将婴儿视频数据集的人体关键点特征送入到婴儿行为分类模型,计算模型输出分类概率、输出时间片段与标签间的总损失,其中总损失包括分类损失和定位损失,使用总损失进行反向传播来更新模型参数,待模型参数收敛后完成训练;
步骤5:将待预测的婴儿视频经过婴儿关键点检测模型,最后由婴儿行为分类模型输出分类概率和时间片段,根据分类分支的分类概率判断该视频是否存在不安运动,对于被模型判断为存在不安运动的视频,根据定位分支的输出,得到视频存在不安运动的时间片段。
2.根据权利要求1所述的基于深度学习的婴儿行为特征分类方法,其特征在于,所述步骤1包括:
步骤1.1:拍摄婴儿的面部和运动的四肢,每个婴儿的拍摄时间为3到5分钟,拍摄期间保证婴儿处于清醒、不哭闹状态,拍摄多个婴儿的运动视频构成婴儿视频数据集;
步骤1.2:对于数据集中的每个视频标注是否存在不安运动,对于存在不安运动的视频,还需要标注出视频中发生不安运动的开始时间和结束时间;
所述步骤2包括:
步骤2.1:收集婴儿图像,包括从互联网收集公开的婴儿视频和图像,以及用摄像机采集婴儿视频,从视频中随机抽样出图像帧;
步骤2.2:对婴儿图像标注人体关键点坐标,将所有婴儿图像及其关键点的标注信息构成婴儿关键点数据集;
步骤2.3:使用Lightweight OpenPose人体关键点检测模型,把在成人数据上预训练的模型在婴儿关键点数据集上微调,得到婴儿关键点检测模型;
步骤2.4:使用婴儿关键点检测模型对婴儿视频数据集的每帧图像的人体关键点进行预测。
3.根据权利要求1所述的基于深度学习的婴儿行为特征分类方法,其特征在于,所述步骤3包括:
步骤3.1:人体关键点在视频中每一帧的坐标形成人体关键点序列,对人体关键点进行预处理,包括通过关键点序列插值得到缺失关键点的坐标,对关键点序列进行滤波减少关键点坐标的抖动,根据视频的分辨率对关键点坐标归一化处理;
步骤3.2:计算人体关键点的特征,根据视频每秒的帧数获取两帧图像的时间差,将两帧图像间人体关键点的移动路程除以时间差形成关键点的速度;
步骤3.3:对每个视频获取视频总时长,用标注的时间片段的开始时间和结束数据分别除以视频总时长,从而得到归一化的标注时间片段。
4.根据权利要求1所述的基于深度学习的婴儿行为特征分类方法,其特征在于,所述步骤4包括:
步骤4.1:搭建婴儿行为分类模型,模型骨干网络使用MS-G3D,后接两个全连接层分支,一个全连接分支输出分类的概率,另一个分支输出20个值,分别为10个时间片段的开始和结束的时间;
步骤4.2:将人体关键点特征输入到婴儿行为分类模型;
步骤4.3:计算模型的分类损失,根据分类概率判断输入样本的分类类别,若分类概率大于等于设定阈值,则该输入样本被模型判断为缺乏不安运动,而预测概率小于设定阈值,则该输入样本被模型被判断为存在不安运动;
步骤4.4:计算模型的定位损失,对于被判断为存在不安运动的视频,计算模型输出的10个时间片段和归一化标注时间片段的重叠度IOU,定位损失为1-IOU,对于被判断为缺乏不安运动的视频,定位损失为0。
5.根据权利要求1所述的基于深度学习的婴儿行为特征分类方法,其特征在于,所述步骤5包括:
步骤5.1:对待预测的婴儿视频进行预测,按照训练过程的数据处理方式,通过婴儿关键点检测模型从婴儿视频数据中提取人体关键点,在人体关键点经过预处理和特征计算后,输入到婴儿行为分类模型,最终输出分类概率和10个时间片段;
步骤5.2:对输出时间片段进行合并,首先合并有时间重叠的片段,然后将时间差小于阈值的片段合并为一个片段,归一化的时间片段乘以视频总时长,把归一化的时间片段恢复到视频原始的时间尺度上,最终输出经过处理的时间片段。
6.一种基于深度学习的婴儿行为特征分类系统,其特征在于,包括:
模块M1:使用RGB摄像机拍摄婴儿的运动视频,制作婴儿视频数据集,并对数据集中的视频进行分类和时间片段标注;
模块M2:制作婴儿关键点数据集,在婴儿数据上微调婴儿关键点检测模型,并用该模型对婴儿视频数据集的每帧图像预测人体关键点;
模块M3:对婴儿视频数据集的人体关键点进行预处理,计算人体关键点的特征,然后对标注的时间片段进行归一化处理;
模块M4:使用深度学习模型搭建婴儿行为分类模型,将婴儿视频数据集的人体关键点特征送入到婴儿行为分类模型,计算模型输出分类概率、输出时间片段与标签间的总损失,其中总损失包括分类损失和定位损失,使用总损失进行反向传播来更新模型参数,待模型参数收敛后完成训练;
模块M5:将待预测的婴儿视频经过婴儿关键点检测模型,最后由婴儿行为分类模型输出分类概率和时间片段,根据分类分支的分类概率判断该视频是否存在不安运动,对于被模型判断为存在不安运动的视频,根据定位分支的输出,得到视频存在不安运动的时间片段。
7.根据权利要求6所述的基于深度学习的婴儿行为特征分类系统,其特征在于,所述模块M1包括:
模块M1.1:拍摄婴儿的面部和运动的四肢,每个婴儿的拍摄时间为3到5分钟,拍摄期间保证婴儿处于清醒、不哭闹状态,拍摄多个婴儿的运动视频构成婴儿视频数据集;
模块M1.2:对于数据集中的每个视频标注是否存在不安运动,对于存在不安运动的视频,还需要标注出视频中发生不安运动的开始时间和结束时间;
所述模块M2包括:
模块M2.1:收集婴儿图像,包括从互联网收集公开的婴儿视频和图像,以及用摄像机采集婴儿视频,从视频中随机抽样出图像帧;
模块M2.2:对婴儿图像标注人体关键点坐标,将所有婴儿图像及其关键点的标注信息构成婴儿关键点数据集;
模块M2.3:使用Lightweight OpenPose人体关键点检测模型,把在成人数据上预训练的模型在婴儿关键点数据集上微调,得到婴儿关键点检测模型;
模块M2.4:使用婴儿关键点检测模型对婴儿视频数据集的每帧图像的人体关键点进行预测。
8.根据权利要求6所述的基于深度学习的婴儿行为特征分类系统,其特征在于,所述模块M3包括:
模块M3.1:人体关键点在视频中每一帧的坐标形成人体关键点序列,对人体关键点进行预处理,包括通过关键点序列插值得到缺失关键点的坐标,对关键点序列进行滤波减少关键点坐标的抖动,根据视频的分辨率对关键点坐标归一化处理;
模块M3.2:计算人体关键点的特征,根据视频每秒的帧数获取两帧图像的时间差,将两帧图像间人体关键点的移动路程除以时间差形成关键点的速度;
模块M3.3:对每个视频获取视频总时长,用标注的时间片段的开始时间和结束数据分别除以视频总时长,从而得到归一化的标注时间片段。
9.根据权利要求6所述的基于深度学习的婴儿行为特征分类系统,其特征在于,所述模块M4包括:
模块M4.1:搭建婴儿行为分类模型,模型骨干网络使用MS-G3D,后接两个全连接层分支,一个全连接分支输出分类的概率,另一个分支输出20个值,分别为10个时间片段的开始和结束的时间;
模块M4.2:将人体关键点特征输入到婴儿行为分类模型;
模块M4.3:计算模型的分类损失,根据分类概率判断输入样本的分类类别,若分类概率大于等于设定阈值,则该输入样本被模型判断为缺乏不安运动,而预测概率小于设定阈值,则该输入样本被模型被判断为存在不安运动;
模块M4.4:计算模型的定位损失,对于被判断为存在不安运动的视频,计算模型输出的10个时间片段和归一化标注时间片段的重叠度IOU,定位损失为1-IOU,对于被判断为缺乏不安运动的视频,定位损失为0。
10.根据权利要求6所述的基于深度学习的婴儿行为特征分类系统,其特征在于,所述模块M5包括:
模块M5.1:对待预测的婴儿视频进行预测,按照训练过程的数据处理方式,通过婴儿关键点检测模型从婴儿视频数据中提取人体关键点,在人体关键点经过预处理和特征计算后,输入到婴儿行为分类模型,最终输出分类概率和10个时间片段;
模块M5.2:对输出时间片段进行合并,首先合并有时间重叠的片段,然后将时间差小于阈值的片段合并为一个片段,归一化的时间片段乘以视频总时长,把归一化的时间片段恢复到视频原始的时间尺度上,最终输出经过处理的时间片段。
CN202210711384.2A 2022-06-22 2022-06-22 基于深度学习的婴儿行为特征分类方法和系统 Pending CN115170870A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210711384.2A CN115170870A (zh) 2022-06-22 2022-06-22 基于深度学习的婴儿行为特征分类方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210711384.2A CN115170870A (zh) 2022-06-22 2022-06-22 基于深度学习的婴儿行为特征分类方法和系统

Publications (1)

Publication Number Publication Date
CN115170870A true CN115170870A (zh) 2022-10-11

Family

ID=83487766

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210711384.2A Pending CN115170870A (zh) 2022-06-22 2022-06-22 基于深度学习的婴儿行为特征分类方法和系统

Country Status (1)

Country Link
CN (1) CN115170870A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116386671A (zh) * 2023-03-16 2023-07-04 宁波星巡智能科技有限公司 婴幼儿哭声类别识别方法、装置、设备及存储介质
CN117523320A (zh) * 2024-01-03 2024-02-06 深圳金三立视频科技股份有限公司 一种基于关键点的图像分类模型训练方法及终端

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116386671A (zh) * 2023-03-16 2023-07-04 宁波星巡智能科技有限公司 婴幼儿哭声类别识别方法、装置、设备及存储介质
CN116386671B (zh) * 2023-03-16 2024-05-07 宁波星巡智能科技有限公司 婴幼儿哭声类别识别方法、装置、设备及存储介质
CN117523320A (zh) * 2024-01-03 2024-02-06 深圳金三立视频科技股份有限公司 一种基于关键点的图像分类模型训练方法及终端

Similar Documents

Publication Publication Date Title
Gideon et al. The way to my heart is through contrastive learning: Remote photoplethysmography from unlabelled video
Hsu et al. Deep learning with time-frequency representation for pulse estimation from facial videos
CN115170870A (zh) 基于深度学习的婴儿行为特征分类方法和系统
Ahmed The impact of filter size and number of filters on classification accuracy in CNN
Nguyen-Thai et al. A spatio-temporal attention-based model for infant movement assessment from videos
Sabo et al. Estimating parkinsonism severity in natural gait videos of older adults with dementia
Salekin et al. Multi-channel neural network for assessing neonatal pain from videos
CN112201343B (zh) 基于脸部微表情的认知状态识别系统及方法
Jung et al. Deep neural network-based gait classification using wearable inertial sensor data
CN211862821U (zh) 一种基于深度学习的孤独症辅助评估系统
Wu et al. Automatically measure the quality of infants’ spontaneous movement via videos to predict the risk of cerebral palsy
Erekat et al. Enforcing multilabel consistency for automatic spatio-temporal assessment of shoulder pain intensity
Fang et al. Spatial temporal GRU convnets for vision-based real time epileptic seizure detection
Joshi et al. Deep learning based person authentication using hand radiographs: A forensic approach
Bandini et al. A wearable vision-based system for detecting hand-object interactions in individuals with cervical spinal cord injury: First results in the home environment
CN113642525A (zh) 一种基于骨骼点的婴儿神经发育评估方法和系统
Zhang et al. Deep learning based gait analysis for contactless dementia detection system from video camera
CN116671902A (zh) 一种辅助诊断脑瘫的婴儿运动姿态分析系统
Comas et al. Turnip: Time-series U-Net with recurrence for NIR imaging PPG
CN115311737A (zh) 基于深度学习的无察觉式脑卒中患者手部动作识别方法
CN114098714A (zh) 基于机器视觉建立冻结步态识别模型的方法
CN113180594A (zh) 一种多维时空深度学习评估新生儿术后疼痛方法
Kong et al. Nystagmus patterns classification framework based on deep learning and optical flow
Wu et al. A Training-Free Infant Spontaneous Movement Assessment Method for Cerebral Palsy Prediction Based on Videos
Vanijkachorn et al. A deep convolutional LSTM for ADLs classification of the elderly

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20221121

Address after: Room 217, Building A, Emerging Industry Incubation Center, No. 36 Huada Road, Free Trade Zone, Suzhou City, Jiangsu Province, 215600

Applicant after: SUZHOU VOXELCLOUD INFORMATION TECHNOLOGY CO.,LTD.

Applicant after: SHANGHAI CHILDREN'S Hospital

Address before: Room 217, Building A, Emerging Industry Incubation Center, No. 36 Huada Road, Free Trade Zone, Suzhou City, Jiangsu Province, 215600

Applicant before: SUZHOU VOXELCLOUD INFORMATION TECHNOLOGY CO.,LTD.

CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Chen Yongwei

Inventor after: Wang Zilong

Inventor after: Ding Xiaowei

Inventor before: Chen Yongwei

Inventor before: Wang Zilong

Inventor before: Ding Xiaowei

Inventor before: Zhang Zheng

CI02 Correction of invention patent application
CI02 Correction of invention patent application

Correction item: Inventor

Correct: Chen Yongwei|Wang Zilong|Ding Xiaowei|Zhang Zheng

False: Chen Yongwei|Wang Zilong|Ding Xiaowei

Number: 50-01

Volume: 38

CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Chen Yongwei

Inventor after: Yu Guangjun

Inventor after: Tian Yuan

Inventor after: Zhang Chuncao

Inventor after: Wang Shasha

Inventor after: Wang Zilong

Inventor after: Ding Xiaowei

Inventor before: Chen Yongwei

Inventor before: Wang Zilong

Inventor before: Ding Xiaowei

Inventor before: Zhang Zheng