CN110269587B

CN110269587B - 婴幼儿动作分析系统和基于动作的婴幼儿视力分析系统

Info

Publication number: CN110269587B
Application number: CN201910577921.7A
Authority: CN
Inventors: 林浩添; 陈文贲; 龙尔平; 项毅帆
Original assignee: Zhongshan Ophthalmic Center
Current assignee: Zhongshan Ophthalmic Center
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2021-10-08
Anticipated expiration: 2039-06-28
Also published as: CN110269587A

Abstract

本发明涉及一种婴幼儿动作分析系统和基于动作的婴幼儿视力分析系统，其中婴幼儿动作分析系统包括：人脸区域生成模块，用于逐帧识别输入视频中的人脸，得到人脸区域；目标视频提取模块，用于预测所述人脸区域对应人物的年龄，去掉除婴幼儿人脸区域之外的人脸区域，得到目标视频；关键部位定位模块，用于定位目标视频中婴幼儿的关键部位，针对不同的关键部位裁剪出相应的关键部位视频；特定动作分析模块，用于分析所述关键部位视频中是否出现特定动作，得到分析结果。通过本发明可以更智能、更便捷、更准确地获取用于婴幼儿视力评估的数据。

Description

婴幼儿动作分析系统和基于动作的婴幼儿视力分析系统

技术领域

本发明涉及视频处理技术领域，更具体地，涉及一种婴幼儿动作分析系统和基于动作的婴幼儿视力分析系统。

背景技术

现有的婴幼儿视力评估及其眼病筛查技术的缺点主要有以下几点：

1.对检测人员和检测条件要求高：无论是Teller视敏锐度卡还是儿童图形视力表都需要专业测量人员在标准的测量环境下操作，对测试环境、检测设备和检测人员都有较高的要求，人力物力的成本等均较高。

2.适用范围局限性较大：①儿童图形视力卡的视力评估过程要求小朋友能够理解测量过程并且能够跟测量者互动，做出正确反应。而3岁以下的婴幼儿由于认知发育不成熟，通常不能很好理解这一过程，不能配合测量。

②Teller视敏锐度卡的视力评估过程要求小朋友能正常注视放在面前的测量卡片，而部分3岁以下的小朋友在标准检测环境中表现出紧张、恐惧等情绪，伴随哭闹等严重影响正常视力测试过程的行为，严重影响了测试结果的准确性或无法得到有效的测试结果。

3.测试结果的主观性：Teller视敏锐度卡要求测量人员根据小朋友对于不同卡片的反应判断小朋友的视力，而这一判断具有主观性，使得测量结果的可重复性较低。

4.测试环境的限制性：由于测试过程对测试设备、环境的要求，现有的视力评估技术无法在日常生活环境中开展，导致现阶段无法开展婴幼儿视力损伤的大规模筛查(比如日常环境下筛查)。

综上，由于测量人群的特殊性，传统测量手段的成本和表现制约了3岁以下婴幼儿视力测量，导致在现有技术基础上难以开展大面积的婴幼儿人群视力受损的早期筛查，大量视力受损的小朋友错过了最佳治疗时机，视觉不可逆性损伤，发展为终生低视力和盲，给家庭、医疗和社会资源造成了巨大的压力。因此，实现3岁以下婴幼儿视力受损的早期筛查是实现人群视觉健康的重要前提。

发明内容

本发明旨在克服上述现有技术的至少一种缺陷(不足)，提供一种婴幼儿动作分析系统和基于动作的婴幼儿视力分析系统，可以更智能、更便捷、更准确地获取用于婴幼儿视力评估的分析数据。

本发明采取的技术方案是：

一种婴幼儿动作分析系统，包括：

人脸区域生成模块，用于逐帧识别输入视频中的人脸，得到人脸区域；

目标视频提取模块，用于预测所述人脸区域对应人物的年龄，去掉除婴幼儿人脸区域之外的人脸区域，得到目标视频；

关键部位定位模块，用于定位目标视频中婴幼儿的关键部位，针对不同的关键部位裁剪出相应的关键部位视频；

特定动作分析模块，用于分析所述关键部位视频中是否出现特定动作，得到关于视力的分析结果。

利用婴幼儿视力损伤与异常动作之间的高度关联性，通过录制婴幼儿的动作视频作为输入视频，并分别通过人脸区域生成模块、目标视频提取模块、关键部位定位模块、特定动作分析模块对输入视频进行一系列人工智能分析，可以得到用于婴幼儿视力评估的分析结果数据，与传统的婴幼儿视力评估数据的采集方法相比，本实施例可以使得采集过程更加便捷、更智能、更准确，提高了婴幼儿对采集过程的接受程度，并且降低了对采集人员和采集环境的要求，使得视力评估数据的采集更具有稳定性和可重复性。

进一步地，所述关键部位包括躯干、手部、头部、脸部、眼部的两种或以上。

进一步地，所述特定动作包括异常注视动作、异常手部动作、异常眼球运动的一种或多种。

进一步地，所述关键部位定位模块，具体包括：

关节点定位模块，用于对目标视频通过二分支的卷积神经网络重复迭代得到关节部位定位图，定位目标视频中婴幼儿的关节点；

肢体部分定位模块，用于对目标视频通过二分支的卷积神经网络重复迭代得到肢体部分定位图，定位目标视频中婴幼儿的肢体部分；

关键部位获取模块，用于根据所定位的关节点和肢体部分定位婴幼儿的关键部位；

视频裁剪模块，用于针对不同的关键部位裁剪出相应的关键部位视频。

进一步地，所述特定动作分析模块，具体用于采用基于卷积神经网络的时序分割模型TSN(Temporal Segment Network)分析所述关键部位视频中是否出现特定动作，得到关于视力的分析结果数据。

进一步地，所述特定动作分析模块，具体包括：

采样模块，用于将关键部位视频进行稀疏采样生成多个短片段；

空间流卷积模块，用于将每个短片段以RGB格式输入空间流卷积网络进行卷积，得到特定动作出现的第一预测得分；

时间流卷积模块，用于将每个短片段以光流格式输入时间流卷积网络进行卷积，得到特定动作出现的第二预测得分；

融合模块，用于采用段共识函数G(The segmental consensus function)对多个短片段的第一预测得分和第二预测得分进行融合，得到段共识；

预测模块，用于采用预测函数H根据段共识预测关键部位视频中出现特定动作的概率，并将所述概率作为关于视力的分析结果。

进一步地，所述人脸区域生成模块，具体用于对逐帧视频采用多任务级联卷积神经网络Mt-CNN(Multitask cascaded convolutional network)进行人脸识别，得到人脸区域。

进一步地，所述人脸区域生成模块，具体包括：

第一CNN模型，用于在逐帧视频中产生候选区域；

第二CNN模型，用于从候选区域中去除非人脸区域，得到人脸区域；

第三CNN模型，用于输出人脸区域中的人脸关键点位置，根据所述人脸关键点位置调整人脸区域。

一种婴幼儿动作分析系统，包括上所述的婴幼儿动作分析系统和视力评估模块，还包括：

视频播放模块，用于播放预设视频；

视频采集模块，用于拍摄婴幼儿观看所述预设视频时的视频作为输入视频。

通过播放预设视频，可以吸引婴幼儿进行观看，保证婴幼儿的脸可以尽量正对摄像头，这样拍摄得到的视频作为输入视频，有利于婴幼儿动作分析系统对输入视频的智能分析，提高分析的效率和准确度。

一种基于动作的婴幼儿视力分析系统，包括如上所述的婴幼儿动作分析系统，还包括：视力评估模块，用于将关于视力的分析结果输入分类器，并输出婴幼儿视力的受损概率。

通过视力评估模块将由婴幼儿动作分析系统得到的关于视力的分析结果输入分类器中，可以输出婴幼儿视力的受损概率，根据受损概率判断输入视频中的婴幼儿是否视力受损。

与现有技术相比，本发明的有益效果为：

(1)本发明利用婴幼儿视力损伤与异常动作的高度关联性，应用人工智能的技术进行动作识别和分析，从而进一步地评估婴幼儿视力，使得获取到的用于婴幼儿视力评估的数据更具有稳定性和可重复性，并使得根据该数据而得到的婴幼儿视力评估结果更加客观。

(2)本发明可以使得婴幼儿视力评估数据的采集过程更加方便快捷，对婴幼儿视力评估数据采集时的环境条件以及检测人员要求较低，有利于实现婴幼儿视觉损伤的大规模筛查，并且有利于对患者实现长期跟踪和评估；

(3)本发明在播放设定视频的同时拍摄婴幼儿观看设定视频的录像视频，是通过婴幼儿可接受的方法而获取用于视力评估的数据，提高了婴幼儿在视力评估数据采集过程中的配合度。

附图说明

图1为本发明实施例1的系统组成图。

图2为本发明实施例1的二分支的卷积神经网络结构图。

图3为本发明实施例2的系统组成图。

图4为本发明实施例3的系统组成图。

具体实施方式

本发明附图仅用于示例性说明，不能理解为对本发明的限制。为了更好说明以下实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

实施例1

如图1所示，本实施例提供一种婴幼儿动作分析系统，包括：

人脸区域生成模块10，用于逐帧识别输入视频中的人脸，得到人脸区域；

目标视频提取模块20，用于预测所述人脸区域对应人物的年龄，去掉除婴幼儿人脸区域之外的人脸区域，得到目标视频；

关键部位定位模块30，用于定位目标视频中婴幼儿的关键部位，针对不同的关键部位裁剪出相应的关键部位视频；

特定动作分析模块40，用于分析所述关键部位视频中是否出现特定动作，得到关于视力的分析结果。

当婴幼儿视觉功能受损时，在疾病早期患病婴幼儿就会表现出与正常婴幼儿不同的动作行为模态，体现为眼部动作，头部动作等的异常表现。利用婴幼儿视力与动作之间的高度关联性，通过录制婴幼儿的动作视频作为输入视频，并分别通过人脸区域生成模块10、目标视频提取模块20、关键部位定位模块30、特定动作分析模块40对输入视频进行一系列人工智能分析，可以得到用于婴幼儿视力评估的分析结果，与传统的婴幼儿视力评估数据的采集方法相比，本实施例可以使得采集过程更加便捷、更智能、更准确，提高了婴幼儿对采集过程的接收程度，并且降低了对采集人员和采集环境的要求，使得视力评估数据的采集更具有稳定性和可重复性。

在输入视频的录制过程中一般是需要家长或者医生怀抱婴幼儿而进行录制的，通过人脸区域生成模块10逐帧识别输入视频中的人脸，以及目标视频提取模块20对人脸的年龄预测，可以去掉输入视频中出现的家长或者医生，而得到仅含有婴幼儿的目标视频，所得到的目标视频更有利于后续的人工智能分析。

在本实施例中，所述关键部位可以包括躯干、手部、头部、脸部、眼部的两种或以上。

当关键部位包括躯干、手部、头部、脸部、眼部时，关键部位定位模块30定位出目标视频中婴幼儿的关键部位，并分别裁剪出5个独立的只含有躯干视频、只含有手部的视频、只含有头部的视频、只含有脸部的视频、只含有眼部的视频，从而使得特定动作分析模块40更容易分析这些独立的视频是否出现特定的动作，得到关于视力的分析结果。

在本实施例中，所述特定动作包括异常注视动作、异常手部动作、异常眼球运动的一种或多种。

与婴幼儿视力高度关联的动作主要包括四大类：异常注视动作(代偿头位、强迫光凝视、固视、注视不良)、异常手部动作(压眼、戳眼、频繁揉眼)、异常眼球运动(震颤、斜视、双眼运动不协调)以及其它(频繁眨眼、眯眼、频繁皱眉)，异常注视动作、异常手部动作、异常眼球运动的分析容易程度以及分析准确性会相对较高。

优选地，所述关于视力的分析结果可以为多个特定动作相应的一组特定动作信号，所述婴幼儿动作分析系统还包括：

视力状况判断模块，用于将所述特定动作信号转化为婴幼儿视力是否受损的预测信号，得到婴幼儿视力状况分析结果。

在本实施例中，人脸区域生成模块10可以对逐帧视频采用多任务级联卷积神经网络Mt-CNN(Multitask cascaded convolutional network)进行人脸识别，得到人脸区域。

由于姿势、光照或遮挡等原因，对每帧视频进行准确的人脸识别并使得到的人脸区域对齐人脸是比较困难的，所以人脸区域生成模块10在进行人脸识别时可以采用多任务级联卷积神经网络Mt-CNN，从而提升人脸区域生成模块10进行人脸识别的性能。

更具体地，可以采用三层级联的卷积神经网络(Convolutional Neural Network，CNN)，人脸区域生成模块10可以包括：

第一CNN模型，用于在逐帧视频中产生候选区域；

具体实施过程中，第一CNN模型可以采用Mt-CNN的P-Net网络模型，首先利用双线性插值算法对候选区域构建图像金字塔得到12×12大小区域，经过一个全卷积神经网络进行单纯卷积操作后生成一个32维的特征向量，用于判断每一个约12×12大小区域是否为包含人脸，如果包含人脸，则回归出人脸区域的边界框Bounding Box，将bouding box对回原始图像，通过非极大值抑制算法NMS保留分数最高的Bounding box以及移除重叠区域过大的Bounding Box。

第二CNN模型可以采用Mt-CNN的O-net网络模型，先将通过P-Net网络模型认为可能包含人脸的Bounding Box双线性插值到24×24大小，然后输入到O-Net网络模型，经过卷积以及池化等操作后，生成一个128维的特征向量，用于判断该bouding box是否包含人脸，如果包含人脸，也回归出Bounding Box，同样经过NMS过滤。

第三CNN模型可以采用Mt-CNN的R-Net网络模型，先将通过O-Net网络模型认为可能包含人脸的Bounding Box双线性插值到48×48大小，然后输入给R-Net网络模型，经过卷积以及池化等操作后，生成一个256维的特征向量，进行人脸检测和关键点提取。

在本实施例中，目标视频提取模块20可以采用第四CNN模型预测每个人脸区域对应人物的年龄，按照预测的年龄，将除婴幼儿之外的人脸区域裁减掉，得到仅含有婴幼儿的目标视频。

在本实施例中，关键部位定位模块30可以包括：

具体实施过程中，所述关键部位定位模块30还可以包括：

特征图获取模块，用于从目标视频中提取关键部位特征图，该关键部位特征图可以定位目标视频中婴幼儿的关键部位。具体地，可以将目标视频的原始图像通过卷积神经网络VGG-19前10层进行卷积以及池化等操作得到关键部位特征图。

关节部位获取模块以及肢体部分定位模块，将关键部位特征图输入一个二分支的卷积神经网络，经过每个分支各5层卷积计算(卷积核结构依次为：3*3、3*3、3*3、1*1、1*1)，在网络两个分支分别获取第一阶段关节部位定位图以及肢体部分定位图。将生成的关节部位定位图以及肢体部分定位图以及原始的关键部位特征图重新输入一个二分支的卷积神经网络，经过每个分支各7层卷积计算(卷积核结构依次为：7*7、7*7、7*7、7*7、7*7、1*1、1*1)得到新一阶段的关节部位定位图以及肢体部分定位图，不断重复迭代，分别获得最终的关节部位定位图以及肢体部分定位图。二分支的卷积神经网络具体结构如图2所示。

在本实施例中，特定动作分析模块40可以采用基于卷积神经网络的时序分割模型TSN(Temporal Segment Network)分析所述关键部位视频中是否出现特定动作，得到关于视力的分析结果。

更具体地，可以采用BN-inception v3卷积神经网络，特定动作分析模块40可以包括：

假设生成的短片段为K个，则段共识函数G可以为：

上式中，G_i为第i个动作的段共识分数，S_j为第j个片段经过卷积神经网络预测的第i个动作的得分。

预测函数H可以采用sigmoid函数对每一个动作最终的预测分数进行归一化，sigmoid函数公式如下：

上式中，H_i为第i个动作最终预测分数，G_i为段共识函数给出第i个动作的段共识分数。

实施例2

如图3所示，一种婴幼儿动作分析系统，包括实施例1所述的婴幼儿动作分析系统和视力评估模块60，还包括：

视频播放模块51，用于播放预设视频；

视频采集模块52，用于拍摄婴幼儿观看所述预设视频时的视频作为输入视频。

在视频采集模块52拍摄过程中，可以选择在安静、没有外界干扰、采光充足的室内进行，将摄像头摆放在合适高度的平台上，家长抱着孩子正对摄像头。

视频播放模块51可以内置在移动智能终端中，在移动智能终端的屏幕上播放预设视频，同时移动智能终端的摄像头可以作为视频采集模块52，拍摄婴幼儿观看移动智能终端屏幕上所播放的预设视频时的视频。

在具体实施过程中，预设视频可以是容易吸引婴幼儿的动画片。

实施例3

如图4所示，本实施例提供一种基于动作的婴幼儿视力分析系统，包括如实施例1或实施例2所述的婴幼儿动作分析系统，还包括：

视力评估模块60，用于将关于视力的分析结果输入分类器，并输出婴幼儿视力的受损概率。

通过视力评估模块60将由婴幼儿动作分析系统得到的关于视力的分析结果输入分类器(如深度神经网络Deep neural network等)中，可以输出婴幼儿视力的受损概率，根据受损概率判断输入视频中的婴幼儿是否视力受损。

判断输入视频中的婴幼儿是否视力受损的具体过程可以是：判断受损概率是否超过预设的阈值P，如果是则认为阳性，判断输入视频中的婴幼儿是视力受损，否则认为阴性，判断输入视频中的婴幼儿没有视力受损。

显然，本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例，而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种婴幼儿动作分析系统，其特征在于，包括：

特定动作分析模块，用于分析所述关键部位视频中是否出现特定动作，得到关于视力的分析结果；

所述关键部位包括躯干、手部、头部、脸部、眼部的两种或以上。

2.根据权利要求1所述的婴幼儿动作分析系统，其特征在于，所述特定动作包括异常注视动作、异常手部动作、异常眼球运动的一种或多种。

3.根据权利要求1所述的婴幼儿动作分析系统，其特征在于，所述关键部位定位模块，具体包括：

4.根据权利要求1所述的婴幼儿动作分析系统，其特征在于，所述特定动作分析模块，具体用于采用基于卷积神经网络的时序分割模型TSN(Temporal Segment Network)分析所述关键部位视频中是否出现特定动作，得到关于视力的分析结果。

5.根据权利要求4所述的婴幼儿动作分析系统，其特征在于，所述特定动作分析模块，具体包括：

6.根据权利要求1所述的婴幼儿动作分析系统，其特征在于，所述人脸区域生成模块，具体用于对逐帧视频采用多任务级联卷积神经网络Mt-CNN(Multitaskcascadedconvolutional network)进行人脸识别，得到人脸区域。

7.根据权利要求1所述的婴幼儿动作分析系统，其特征在于，所述人脸区域生成模块，具体包括：

第一CNN模型，用于在逐帧视频中产生候选区域；

8.一种婴幼儿动作分析系统，其特征在于，包括如权利要求1至7任一项所述的婴幼儿动作分析系统，还包括：

视频播放模块，用于播放预设视频；

9.一种基于动作的婴幼儿视力分析系统，其特征在于，包括如权利要求1至8任一项所述的婴幼儿动作分析系统，还包括：

视力评估模块，用于将关于视力的分析结果输入分类器，并输出婴幼儿视力的受损概率。