CN110313923A

CN110313923A - 基于联合注意能力测试和音视频行为分析的孤独症早期筛查系统

Info

Publication number: CN110313923A
Application number: CN201910606482.8A
Authority: CN
Inventors: 邹小兵; 潘悦然; 蔡昆京
Original assignee: Duke Kunshan University; Third Affiliated Hospital Sun Yat Sen University
Current assignee: Duke Kunshan University; Third Affiliated Hospital Sun Yat Sen University
Priority date: 2019-07-05
Filing date: 2019-07-05
Publication date: 2019-10-11
Anticipated expiration: 2039-07-05
Also published as: CN110313923B

Abstract

本发明公开了一种基于联合注意能力测试和音视频行为分析的孤独症早期筛查系统，通过采集评估者及被试者的音视频多模态数据并加以分析，以评估预测孤独症谱系障碍，包括数据采集模块，用于对试验过程中被试者、评估者的音视频多模态数据进行多视角多声道的数据采集；预处理模块同步采集的音视频数据，并使用语音识别检测和标记评估者发出指令的时间，截取该时间点后的音视频进行分析；特征提取模块对预处理后的音视频数据进行特征提取，获取语音内容、面部情感等特征；训练分类模块，将提取的组合特征作为机器学习分类器的输入进行训练，得到预测孤独症的分类器模型；预测模块，利用训练所得的分类器模型对被采集数据的被试者进行孤独症分类预测。

Description

基于联合注意能力测试和音视频行为分析的孤独症早期筛查系统

技术领域

本发明涉及图像处理、语音识别领域，尤其涉及一种基于联合注意能力测试和音视频行为分析的孤独症早期筛查系统，基于联合注意能力测试系统，采集评估者及被试者的音视频多模态数据并加以分析，以评估预测孤独症谱系障碍的系统。

背景技术

孤独症谱系障碍(Autism Spectrum Disorder，ASD)，是一种常见的儿童神经发育障碍性疾病。由于孤独症主要影响社交沟通、行为、兴趣等方面的能力，其筛查评估主要通过经验丰富的专业医疗人员进行人工诊断来实现。然而，这对医疗工作人员的专业度和经验度要求极高，这使得纯人工筛查方式难以被普及。因此，越来越多的科研团队投入到研究如何使用人工智能设备辅助对孤独症尽心评估。其中，使用人工智能装置模仿医疗工作者试验测试的方式对儿童进行测评，是一种有效的方式。而这一类试验中，进行“范式及范式组合的测试”试验能够有效结构化、标准化试验环节，达到规范的试验筛查效果。

至今为止，关于孤独症儿童注意力评估的人工智能辅助系统研究，并不多。申请号为CN201811220432.8的中国专利申请“基于非社会性声音刺激行为范式的孤独症初级筛查装置”基于语音处理，计算机视觉，采集被试观测人的面部，眼神以及手势信息并加以分析，以评估孤独症谱系障碍风险系数的早期筛查装置。

申请号为CN201811619354.9的中国专利申请“一种用于孤独症共同注意诊断范式的检测系统及使用方法”包括独立摄像头、深度传感器、计算机和目标图片，通过对人体的动作识别、脸部检测和视线追踪，对孤独症共同注意诊断范式进行检测，有效降低检测的人工成本和诊疗费用，保证检测的客观性和一致性，然而，该专利申请采用了较少的行为测试对被试者进行孤独症风险的评估。

现有技术也有提出通过使用发声玩具吸引儿童注意力，分析试验音视频多模态数据以进行评估，另有现有技术提出通过评估者语音提示及指物来引导被试者关注侧方被指物体，分析单一角度摄像头的视频画面，以对其共同注意力进行评估。这些方法，只分析了儿童接受刺激后的短时间个人行为，均未考虑儿童接受刺激后和外界的交流互动及不可掌控的多种其他活动。而且，角度单一的视频分析，难以精确捕捉完整的试验数据，准确评估儿童患孤独症的风险系数。

如果能够在结构化的测试中，从多个角度利用多模态传感器完整获取并分析儿童接受物品或者他人刺激后的注意力变化以及后续互动内容(如分享互动及求助内容等)的数据，能够更有效、更精确地预测儿童的孤独症患病系数。

发明内容

针对上述技术问题，本发明的目的在于提供一种基于联合注意能力测试和音视频行为分析的孤独症早期筛查系统。本发明涉及图像处理、语音识别领域，尤其涉及一种基于联合注意能力测试的孤独症早期筛查系统，采集全部试验人员，包括被试者(儿童)、评估者(医疗工作人员)或照顾者(家长，主要为父母或与被试者共同生活2周以上的人)，及物品产生吸引注意力刺激及后续连贯反应的音视频数据并加以分析，以评估预测孤独症谱系障碍的系统。

为实现上述目的，本发明是根据以下技术方案实现的：

一种基于联合注意能力测试和音视频行为分析的孤独症早期筛查系统，其特征在于，包括：

数据采集模块，用于对联合注意能力测试试验过程中被试者、评估者和道具的音视频多模态数据进行多视角多声道的同步数据采集；

预处理模块，用于将所有采集的音视频数据进行同步对齐，采用语音识别检测处理音频数据，检测评估者发出注意力指引指令及互动指令的时间，并以此为起始端点截取视频一段时间后的内容，作为视频分析数据；

特征提取模块，用于对预处理获取的多角度多声道音视频数据段落，进行逐帧分析处理，获取语音内容、面部情感、面部朝向、目光、手势、姿势和坐标特征；

训练分类模块，用于对提取的特征进行分析，使用机器学习训练并得到针对本测试的孤独症预测分类器模型；

预测模块，用于利用分类器模型对新的被试者测试音视频中提取的语音内容、语音情感、面部情感、面部朝向、目光、手势和人物或物体坐标特征进行分析，对被试者的孤独症风险进行评估预测。

上述技术方案中，所述数据采集模块包括遥控器、多个RGB-D摄像头、麦克风阵列和/或可穿戴麦克风，所述遥控器用于吸引儿童注意力的可控制可动作无声物体、控制动作物体进行动作；多个所述RGB-D摄像头多角度地隐蔽地布置在场景中，同步输出高质量像素的RGB图像和深度图像；所述麦克风阵列和/或可穿戴麦克风采集高质量的多通道的被试者、评估者的语音并抑制噪声和回声。

上述技术方案中，所述特征提取模块包括声纹识别单元、语音识别单元、情感识别单元、坐标估计单元、目光朝向估计单元、手势检测单元、姿态估计单元；

所述坐标估计单元对场景中的被试者以及评估者的空间位置进行估计，首先进行人物检测，然后进行人物身份重识别，最后再对人物矩形框进行空间转换进行位置估计；

所述语音识别单元将说话者的语音转换为文本内容；

所述声纹识别单元根据声纹识别说话人身份；

所述情感识别单元对被试者实施语音情感以及面部表情的识别，语音情感识别使用基于深度神经网络提取包含情感信息的特征进行情感的分类，而面部表情同样使用深度神经网络模型，输入被试者的脸部矩形框图像，输出其表情分类；

所述目光朝向估计单元对被试者的脸部朝向以及目光注视方向进行估计，能够提取被试者转头反应时间、转头角度、眼神注视方向、眼神注视时间；

所述手势检测单元检测被试者的的手指物动作，使用物体检测模型框架进行指东西手势的检测，当被试者出现指物手势的时候，返回该手势的RGB图像矩形框以及增加一次计数；

所述姿势识别单元对被试者使用深度神经网络进行估计人体姿态的分析估计。

上述技术方案中，所述联合注意能力测试试验的设计包含如下：

第一类测试为自发性相互注意力测试；

第二类测试为响应性相互协调注意力测试；

第三类测试为相互性社会互动要求行为测试；

第四类测试为相互性展示与分享测试；

通过上面四类测试试验的一种或几种组合对被试者的孤独症风险进行评估预测，每一类测试分别评估被试者不同的孤独症表现形式，进而全面评估被试者的孤独症风险。

上述技术方案中，所述联合注意能力测试试验包含如下步骤：

步骤S0：预备环节：在试验开始前，进行场景准备，调试设备，将道具摆放至制定位置；在试验开始后，评估者带领被试者就坐与预设的初始座位，相互熟悉，进入试验状态；

步骤S1：近处吸引环节，为自发性共同注意力测试：评估者启动桌面上的第一个玩具，第一个玩具具有运动轨迹，并用目光关注第一个玩具，观察被试者的目光是否跟随第一个玩具，如果是，至下一步骤；如果不是，评估者通过语言提醒被试者观察第一个玩具，继续观察被试者注意力，重复1次，至下一步骤；

步骤S2：远处吸引环节，为响应性相互协调注意力测试：评估者使用遥控使被试者侧方或后面的第二个玩具露出在场景中，其中第二个玩具默认摆放在其他被试者难以独立获取的地方，并同时看向并指向启动的玩具，其中第二个玩具不发声音且可运动的玩具，观察被试者是否看向或指向第二个玩具并表达喜悦，如果有，至下一步骤；如果否，评估者通过语言提醒被试者观察第二玩具，继续观察被试者注意力，重复1次，如果失败则测试结束，如果成功则至下一步骤；

步骤S3：求助环节，为相互性社会互动要求行为测试，包括如下步骤：

步骤S301：观察被试者是否自主起身接近第二个玩具，如果有，至步骤S302，如果没有，评估者用语言提示被试者可起身拿取玩具，继续观察被试者行动，重复1次，若失败则测试结束，若成功则至步骤S302；

步骤S302：观察被试者是否独立成功拿取第二个玩具，如果是，至步骤S4；如果否，至步骤S303；

步骤S303：继续观察被试者是否看向评估者或者用语言求助，如果是，评估者帮助获取第二个玩具，至步骤S4；如果否，评估者询问被试者是否需要帮助，观察被试者反应，并且帮助获取第二个玩具，至步骤S4；

步骤S4：分享环节，为相互性展示与分享测试，继续观察被试者是否看向评估者分享拿到第二个玩具的喜悦，被试者是否分享或炫耀侧方玩具，如果是，试验结束；如果否，评估者询问被试者是否愿意分享第二个玩具，观察被试者是否用语言或行动表达分享意图，试验结束。

本发明与现有技术相比，具有如下优点：

本发明与现有的儿童注意力相关评估技术相比，具有如下优点：

1.本发明为测试被试者的注意力，提供了真人刺激和自由走动环境，完全模拟生活场景，还原了儿童最真实的自然表现。

2.本发明针对被试者受刺激后较长时间的注意力变化以及后续分享互动及求助内容的数据进行分析，考虑了儿童可能的走动、犹豫、举手、眼神等较长时间内的多种动作，也考虑了儿童和其他人员、试验物品之间多变的、难以预测的互动内容，给儿童更多自我发挥的空间，更慎重对待儿童活动的多变性和不可控性，更全面的考虑了儿童注意力受到影响后的多种可能情况。

3.本发明使用多角度深度摄像头和多人声音采集设备，完整获取了试验场景中的多角度多模态数据，能更准确地记录实验过程中的全部数据。

4.本发明有别于传统的“有/无反应”定性分析法，采用定量分析法，考虑到儿童反应时间长度、转头时间长度、转头角度等连续变量，能更准确地建模预测孤独症系数。

5.本发明除了考虑传动的动作分析法，还综合考虑了儿童的情感变化，通过语言和表情捕捉更多细节，同时考虑了儿童的内在和外在反应，更多更充分地反映了儿童的情绪变化、心理变化，更有利于分析儿童的交流、共情等能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明技术方案的结构框架；

图2为本发明的一项实施例在进行试验采集数据时，被试者、评估者及照顾者进行试验的流程图；

图3、图4分别为本发明的一项实施例在进行试验采集数据时，被试者、评估者及照顾者进行试验场景的俯视图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

本发明提出一种基于联合注意能力测试和音视频行为分析技术的孤独症早期筛查系统，针对传统ASD人工诊断方法成本高、耗时长等特点，及现有ASD人工智能诊断方法中对注意力及社会互动行为分析数据不够完整并考虑儿童(被试者)活动不可控性不足等特点，设计联合注意能力测试，采用机器学习框架自动提取试验中被试者、评估者(及照顾者)和试验物品音视频数据中的行为特征，并依据行为特征训练分类器模型，根据改分类器模型对新评估的被试者进行孤独症风险系数的评估预测。

如图1所示，本发明的技术方案包括：

其中，数据采集模块包括遥控器、多个RGB-D摄像头、麦克风阵列和/或可穿戴麦克风，遥控器用于吸引儿童注意力的可控制可动作无声物体、控制动作物体进行动作；多个RGB-D摄像头多角度地隐蔽地布置在场景中，同步输出高质量像素的RGB图像和深度图像；麦克风阵列采集高质量的多通道的被试者、评估者的语音并抑制噪声和回声。

具体地，多个RGB-D摄像头如图3和4隐蔽地布置在场景中。麦克风为麦克风阵列和/或可穿戴麦克风，如图3和4位置放置，用于采集被试者、评估者的声音信息，能有效抑制噪声和回声，高质量、分通道地采集说话人语音。用于吸引儿童注意力的可控制可动作无声物体、控制动作物体进行动作的遥控器如图3和4所示放置。

所述联合注意能力测试试验的设计包含如下：

第一类测试为自发性相互注意力测试；

第二类测试为响应性相互协调注意力测试；

第三类测试为相互性社会互动要求行为测试；

第四类测试为相互性展示与分享测试。

在本实施例中，进行联合注意能力测试试验的过程如图2所示，其中部分步骤可由照顾者代替评估者，测试试验的流程方案可参考但不限于图2所示方案，图2具体步骤描述如下：

步骤S1：近处吸引环节，为自发性相互注意力测试：评估者启动桌面上的第一个玩具，第一个玩具具有运动轨迹，如：发条玩具小鸡，小火车，并用目光关注第一个玩具，观察被试者的目光是否跟随第一个玩具，如果是，至下一步骤；如果不是，评估者通过语言提醒被试者观察第一个玩具，继续观察被试者注意力，重复1次，至下一步骤；

步骤S2：远处吸引环节，响应性相互协调注意力测试：评估者使用遥控使被试者侧方或后面的第二个玩具露出在场景中，其中第二个玩具默认摆放在其他被试者难以独立获取的地方，并同时看向并指向启动的玩具，其中第二个玩具不发声音且可运动的玩具，如：招财猫，观察被试者是否看向或指向第二个玩具并表达喜悦，如果有，至下一步骤；如果否，评估者通过语言提醒被试者观察第二玩具，继续观察被试者注意力，重复1次，如果失败则测试结束，如果成功则至下一步骤；

预处理模块，用于将所有采集的音视频数据进行同步对齐，采用语音识别检测处理音频数据，检测评估者发出注意力指引指令及互动指令的时间，并以此为起始端点截取视频一段时间后的内容，作为视频分析数据；具体地，在本实施例中，先对多个RGB-D摄像头之间的视频数据进行同步，然后基于时间戳，将视频数据与麦克风采集到的音频数据在进行对齐。

特征提取模块包括声纹识别单元、语音识别单元、情感识别单元、坐标估计单元、目光朝向估计单元、手势检测单元、姿态估计单元；

坐标估计单元对场景中的被试者以及评估者的空间位置进行估计，首先进行人物检测，然后进行人物身份重识别，最后再对人物矩形框进行空间转换进行位置估计；

具体地，坐标估计单元主要是对场景中的人物(被试者与评估者)的空间位置进行估计。首先使用YOLOv3(You Only Look Once)模型对每一帧RGB图像进行人物检测，得到人物矩形框，然后再将矩形框中的人物输入到人物重识别模型中，识别该人物的身份是被试者还是评估者。然后再对人物矩形框进行空间位置估计：选取RGB图像中人物矩形框的中心点，获取其像素点的横坐标u和纵坐标v以及对应深度图中的深度数据d，结合预先获取的摄像机的内参，代入公式计算出该像素点相对摄像机坐标系的3代入公式计算出该像素点相对摄像机坐标系的3D坐标(x,y,z)，本发明以该点的3D坐标位置表示人物的大概空间位置。

z＝d

其中，c_x,c_y,f_x,f_y都是摄像头组件光学参数。

语音识别单元将说话者的语音转换为文本内容；声纹识别单元根据声纹识别说话人身份。

情感识别单元对被试者实施语音情感以及面部表情的识别，语音情感识别使用基于深度神经网络提取包含情感信息的特征进行情感的分类，而面部表情同样使用深度神经网络模型，输入被试者的脸部矩形框图像，输出其表情分类；

具体地，情感识别单元主要是对被试者进行情感的识别，包括语音情感以及RGB图像中体现出来的面部情感。情感的分类类别包括喜、悲、怒、惊、惧、中性等几个类别。语音情感识别使用基于同样ResNet的深度神经网络提取包含情感信息的embedding，然后再进行情感的分类；脸部表情识别先对RGB视频帧先进行被试者的人脸识别，获得被试者的脸部矩形框，然后对脸部框做人脸对齐之后，输入到训练好的基于ResNet20的深度神经网络模型，输出得到其表情分类。

目光朝向估计单元对被试者的脸部朝向以及目光注视方向进行估计，能够提取被试者转头反应时间、转头角度、眼神注视方向、眼神注视时间；

具体地，目光朝向估计单元：主要是对被试者的脸部朝向以及目光注视方向进行估计。使用Dlib的MMOD人脸检测模块，在RGB视频中检测被试者的正脸，并得到其脸部的68个关键点，然后根据68个关键点对应深度图中的深度，计算每个点的空间坐标并组合成脸部空间点云，根据脸部点云平面计算其法线向量，该法线向量即为脸部朝向的方向向量。在68个特征点点云中选取出双眼的特征点，把双眼的3D坐标输入到训练好的眼神估计神经网络模型中，即可得到眼神注视的方向。该单元提取的特征包括被试者反应时间长度、转头时间长度、转头角度、眼神注视方向、眼神注视时间等。

手势检测单元检测被试者的的手指物动作，使用物体检测模型框架进行指东西手势的检测，当被试者出现指物手势的时候，返回该手势的RGB图像矩形框以及增加一次计数；

具体地，手势检测单元主要是检测与识别被试者的的手指物动作。使用Yolov3算法训练出一个指东西手势的检测器，该检测器能检测画面中的手部，识别出被试者指示人或物的手势，并给出手部的矩形框。当被试者出现指物手势的时候，该时间段的手指物计数器增加一个计数。

姿势识别单元对被试者使用深度神经网络进行估计人体姿态的分析估计。

具体地，姿态估计主要是对被试者进行人体姿势分析。使用关键点检测的深度神经网络HRNet(High-Resolution Net)对人体关键点进行估计，将各关键点进行连线形成人体骨架图，进而可以估计人体的姿态。

具体地，在本实施例中，使用支持向量机(support vector machine，SVM)对已标记的特征进行分类。上述单元语音内容、语音情感、面部情感、面部朝向、目光、手势、姿势等特征等作为输入特征x，每个被试者的孤独症打分分数y作为标签，使用支持向量机SVM进行分类模型的训练，通过对最大间隔超平面

w·x-b＝0

进行学习可以求得最优w和b，进而得到整个范式的孤独症预测分类器模型。

具体地，预测模块对一个新被试者的测试音视频多模态数据，提取其中的语音内容、语音情感、面部情感、面部朝向、目光、手势、姿势和坐标特征，输入到训练分类模块的预测ASD的模型中，对测试者的孤独症风险进行评估预测。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于联合注意能力测试和音视频行为分析的孤独症早期筛查系统，其特征在于，包括：

2.根据权利要求1所述的孤独症早期筛查系统，其特征在于，所述数据采集模块包括遥控器、多个RGB-D摄像头、麦克风阵列和/或可穿戴麦克风，所述遥控器用于吸引儿童注意力的可控制可动作无声物体、控制动作物体进行动作；多个所述RGB-D摄像头多角度地隐蔽地布置在场景中，同步输出高质量像素的RGB图像和深度图像；所述麦克风阵列和/或可穿戴麦克风采集高质量的多通道的被试者、评估者的语音并抑制噪声和回声。

3.根据权利要求1所述的孤独症早期筛查系统，其特征在于，所述特征提取模块包括声纹识别单元、语音识别单元、情感识别单元、坐标估计单元、目光朝向估计单元、手势检测单元、姿态估计单元；

所述语音识别单元将说话者的语音转换为文本内容；

所述声纹识别单元根据声纹识别说话人身份；

4.根据权利要求1所述的孤独症早期筛查系统，其特征在于，所述联合注意能力测试试验的设计包含如下：

第一类测试为自发性相互注意力测试；

第二类测试为响应性相互协调注意力测试；

第三类测试为相互性社会互动要求行为测试；

第四类测试为相互性展示与分享测试；

5.根据权利要求4所述的孤独症早期筛查系统，其特征在于，所述联合注意能力测试试验的步骤如下：

步骤S1：近处吸引环节，为自发性相互注意力测试：评估者启动桌面上的第一个玩具，第一个玩具具有运动轨迹，并用目光关注第一个玩具，观察被试者的目光是否跟随第一个玩具，如果是，至下一步骤；如果不是，评估者通过语言提醒被试者观察第一个玩具，继续观察被试者注意力，重复1次，至下一步骤；

步骤S4：分享环节，为相互性展示与分享测试：继续观察被试者是否看向评估者分享拿到第二个玩具的喜悦，被试者是否分享或炫耀侧方玩具，如果是，试验结束；如果否，评估者询问被试者是否愿意分享第二个玩具，观察被试者是否用语言或行动表达分享意图，试验结束。