CN110363129B

CN110363129B - 基于微笑范式和音视频行为分析的孤独症早期筛查系统

Info

Publication number: CN110363129B
Application number: CN201910605990.4A
Authority: CN
Inventors: 李明; 邹小兵; 潘悦然; 蔡昆京
Original assignee: Duke Kunshan University; Third Affiliated Hospital Sun Yat Sen University
Current assignee: Duke Kunshan University; Third Affiliated Hospital Sun Yat Sen University
Priority date: 2019-07-05
Filing date: 2019-07-05
Publication date: 2022-05-27
Anticipated expiration: 2039-07-05
Also published as: CN110363129A

Abstract

本发明公开了一种基于微笑范式和音视频行为分析的孤独症早期筛查系统，包括：数据采集模块，用于采集试验全程的音视频数据；预处理模块，用于同步对齐采集的音视频，分段落标记不同逗笑刺激的时间和类型；特征提取模块，对预处理获取数据，分别进行逐帧分析各项特征；训练分类模块，用于对分段落视频数据提取的特征训练分类器，及整个范式训练孤独症风险系数预测分类器模型；预测模块，对提取的特征通过使用分类器模型，分段落打分，并对整个范式打分。本发明使用与孤独症的早期筛查，使筛查试验更标准化、结构化，试验评估更准确更易读易解释。

Description

基于微笑范式和音视频行为分析的孤独症早期筛查系统

技术领域

本发明涉及语音处理和图像处理领域，尤其涉及到一种基于叫社会性及分享性微笑范式和音视频行为分析的孤独症早期筛查系统，采集评估者诱导微笑时的音视频数据和被试者被诱导时的反应图像数据并加以分析，以评估预测孤独症谱系障碍的系统。

背景技术

孤独症谱系障碍(autism spectrum disorder,ASD)已经越来越被社会所关注。在中国，0至14岁的自闭症儿童患者数量在300万至500 万之间。目前对孤独症的评估方法，主要集中在语言交流障碍、社会交往障碍、重复刻板行为三方面。对ASD进行有效的、准确的评估需要临床经验丰富的专业医疗人员对儿童进行观察，并一同进行试验。

试验中，微笑表情是临床判断被试者共情、交流等其他能力的一项重要指标，逗笑尝试已经是临床中频繁使用的方法。根据最新临床研究发现，社会性微笑比非社会性微笑对于筛查孤独症具有更加明显的帮助。进行社会性及分享性微笑的观察，需要创造真人交流的环境。对复杂多变的真人交流环境分析，需要要临床经验丰富的专业人员与儿童直接深入交流进行评估。这中非量化、非标准化的方法不仅对评估人员的专业性和经验要求高，而且难以进行普及，限制了广泛对孤独症进行准确的早期筛查。

现有技术中，申请号为CN201810464235.4的中国专利申请“一种融入真实人物形象的孤独症干预系统”将孤独症儿童和与其交往关联的其他真实人物的形象，融入到干预系统的虚拟情境之中，帮助孤独症儿童以“第一人称”和“第二人称”的视觉和思维方式全方面介入到虚拟情境之中，提高孤独症儿童的自我意识并帮助他们建立虚拟世界的关联，最终提高他们的社交技能。

申请号为CN201810806203.8的中国专利申请“一种针对自闭症的裸眼3D互动系统”，通过处理分析采集用户的反馈信息，有针对性的播放相应的场景动画与用户进行互动，并根据用户实时的反馈信息，对播放的动画进行调整，其互动性强，并且采用裸眼3D显示装置显示场景动画，其显示效果更佳，更具趣味性和真实性，从而提高其互动效果和交流、学习的能力。

申请号为CN201811590115.5的中国专利申请“一种自闭症评估方法及装置”，通过捕捉自闭症测定者在观看具有不同认知刺激角度的预制视频时的面部活动特征以及自闭症预估神经网络模型，对自闭症测定者是否存在自闭症进行预估，相比于问卷调查的方式，有效缩短了预估时间，提高了预估效率，并且不易受到外界的干扰，评估方法简单易行。

目前，基于逗笑测试，计算机学者们已经尝试了一些方法辅助智能筛查。然而已有的计算机筛查系统主要通过播放视频诱导笑容，这种方法，不仅限制儿童需要佩戴装置或坐在固定装置无法自由活动，而且难以模拟真实生活，尤其难以模拟真实社交场景中与人的社会性交流。使用人工智能的方法进行结构化或半结构化的真实场景非社会性微笑、社会性及分享性微笑评估的研究，暂时处于空白阶段。

发明内容

针对上述技术问题，本发明的目的在于提供一种基于微笑范式和音视频行为分析的孤独症早期筛查系统，该系统能够标准化分分等级非社会性、社会性及分享性微笑反应数据的采集过程，真实模拟社交场景，准确捕捉不同诱导条件及反应数据，预测ASD的患病风险程度，筛查ASD 个体，辅助ASD诊断，提高ASD早期预测的机会。

为实现上述目的，本发明是根据以下技术方案实现的：

一种基于微笑范式和音视频行为分析的孤独症早期筛查系统，其特征在于，包括：

数据采集模块，用于采集逗笑试验过程中被试者、评估者和道具的多个RGB-D摄像头视角多声道的音视频多模态数据；

预处理模块，用于同步采集到的多视角多声道的音视频数据，检测并标记不同逗笑刺激发出的时间以供后续分析；

特征提取模块，用于对预处理获取的被试者、评估者全部角度的视频数据段落，分别进行逐帧分析处理，获取脸部、朝向、目光和手势的特征；

训练分类模块，对分段落视频数据提取的特征进行训练，得到分段落范式打分的分类器模型及整个范式的孤独症预测分类器模型；

预测模块，采用特征提取模块对整个范式视频进行分段落的脸部、朝向、目光和手势特征提取，并使用分类器模型对范式分段落进行打分，对测试者的孤独症风险进行评估预测。

上述技术方案中，所述RGB-D摄像头隐秘布置在试验场地中，多角度全方位采集试验场地深度视频，通过麦克风阵列和/或分别佩戴于被试验者、评估者身上的可穿戴麦克风多声道采集说话人的说话语音和环境声音。

上述技术方案中，所述特征提取模块包括表情识别单元、头部姿态估计单元、目光追踪单元、手势检测与识别单元，

所述表情识别单元对预处理所得视频进行检测，对获取的人脸正脸识别出表情；

所述头部姿态估计单元使用正脸检测获取脸部特征点，根据脸部特征点计算脸部平面的法线向量并转化为头部朝向；

所述目光追踪单元对预处理所得视频进行检测，根据获取的被检测人眼部数据得到被检测人的目光朝向，得到眼神特征；

所述手势检测与识别单元检测手部的矩形框，并给出手势的分类。

上述技术方案中，所述表情识别单元使用残差神经网络在人脸表情数据库上训练表情模型，模型输出多种不同的表情对应的概率得分，其中概率得分最大的即为分类表情；对RGB视频的每帧图像使用正脸人脸检测算法获得脸部矩形框，然后对脸部框做人脸对齐之后，输入到表情识别模型，输出得到每张人脸的表情分类。

上述技术方案中，所述头部姿态估计单元识别人的脸部朝向，先使用正脸检测算法检测RGB视频图像帧中的人脸，获取脸部的landmark标记点，之后得到对应的深度图中的深度，根据公式对标记点计算每个点的世界空间坐标系的3D坐标，每个点组合起来就得到脸部在空间中的点云，根据脸部特征点的点云坐标，计算脸部平面的法线向量，然后将法线向量转化为头部朝向的Yaw、Pitch、Roll的欧拉角表示。

上述技术方案中，所述目光追踪单元用来跟踪被试者以及评估者的眼神注视方向，首先利用正脸检测算法获取RGB视频帧中的脸部特征点，从中选取出双眼的特征点，然后利用空间坐标变换计算出双眼特征点的世界坐标系3D坐标；把双眼的3D坐标输入到目光追踪神经网络模型中，输出目光的朝向。

上述技术方案中，所述手势检测与识别单元利用labelImg工具将手势标注成PASCAL VOC数据集的格式，每个数据集都包含手部的矩形框的四角坐标以及手势的分类，然后使用Yolov3训练出一个手势的检测器，检测器检测画面中的手部并识别手势，并给出其矩形框坐标以及所属的手势分类的置信度得分。

上述技术方案中，所述分类模型训练模块分别对刺激段落视频数据进行脸部表情、头部朝向、目光和手势的特征提取，使用支持向量机SVM 或其他机器学习方法进行分类模型的训练，然后得到分段落范式打分的分类器模型；然后又将所有的段落特征及标签组合作为新的输入特征，对整个社会性的微笑范式的孤独症打分分数作为标签，使用支持向量机 SVM或其他机器学习方法进行训练，得到整个范式的孤独症预测分类器模型。

上述技术方案中，微笑范式的设计包括：

第一类逗笑为玩具突然发动刺激，属于非社会性微笑；

第二类逗笑为对视微笑刺激，属于社会性微笑刺激；

第三类逗笑为语音刺激，属于社会性微笑刺激；

第四类逗笑为躲猫猫游戏刺激，属于社会性微笑刺激；

第五类逗笑为暗示性身体接触刺激，属于社会性微笑刺激；

第六类逗笑为身体接触刺激，属于分享性微笑刺激；

其中通过语音识别根据不同类别逗笑刺激的关键词以及表情和动作识别对各类逗笑进行试验子试验分段，以一种提示语音分别对应一种逗笑刺激，依据特定语音内容分割音视频，分别得到不同种类逗笑刺激段落的数据。

本发明与现有技术相比，具有如下优点：

本发明针对传统孤独症诊断中，社会性及分享性逗笑诊断场景复杂多变、人工成本高、诊断主观性强的难点，通过结构化范式诊断，一体化试验场景和音视频多模态数据采集，提取脸部、眼部、手部、朝向等特征，量化指标，通过机器学习的模型进行打分分类。从而能够更规范的试验，降低场景复杂度的干扰，减少人工成本，提高信息捕捉与判定的准确度，更高效率地对ASD风险系数进行筛查和评估。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本发明的采集场地的布局示意图；

图2是本发明的总框架结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

在本发明的描述中，需要理解的是，术语“径向”、“轴向”、“上”、“下”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“设置”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

本发明的一种基于微笑范式和音视频行为分析的孤独症早期筛查系统，包括：

数据采集模块，用于采集逗笑试验过程中被试者、评估者和道具的多RGB-D摄像头视角多声道的音视频多模态数据；

其中，深度视频数据采集：采用两个RGB-D摄像头如图1布置在场景中，用于采集被试者及其他试验参与人员活动的彩色(RGB)和深度(Depth)信息图像视频。三维RGB-D传感器使用主动双目技术，在传统双目视觉基础上，配以红外结构光辅助投影，能够获取更多的景深细节。该摄像头可输出对齐、同步的RGB图和深度图，并能多设备无干扰、同步工作。单个摄像头的深度视场角约为50°，彩色视场角约为50°，工作距离的范围为0.5m-6m。每个摄像头同步输出1280×960像素的RGB图像和对应的16位深度数据帧。

音频数据采集：用于采集被试者、实验参与人员及实验环境的声音信息。具体如图1所示，使用麦克风阵列和/或将可穿戴麦克风分别佩戴于被试验者、评估者身上，多声道采集说话人的说话语音和环境声音。

具体地，根据时间戳将被试验者、评估者身上的无线便捷麦克风或麦克风阵列采集的录音分成左右通道与每个摄像头的RGB画面分别同步保存成视频，16位的深度数据保存成PNG格式的图片与RGB视频的每一帧一一对应。检测并标记不同逗笑刺激发出的时间，具体地，利用语音识别技术，识别评估者语音中的触发关键词，标记为某一类刺激发出的时间点，并以此为时间起点，获取之后一定时间内被试者、评估者(及照顾者)RGB-D视频数据来进行不同逗笑刺激的段落分割。对于同一类刺激段落内的重复试验，利用物体检测的Yolov3(You Only Look Once)模型对关键物体的出现检测进行重复试验次数的标记分割。

特征提取模块包括表情识别单元、头部姿态估计单元、目光追踪单元、手势检测与识别单元，

表情识别单元对预处理所得视频进行检测，对获取的人脸正脸识别出表情；

表情识别单元使用残差神经网络在人脸表情数据库上训练表情模型，模型输出多种不同的表情对应的概率得分，其中概率得分最大的即为分类表情；对RGB视频的每帧图像使用正脸人脸检测算法获得脸部矩形框，然后对脸部框做人脸对齐之后，输入到表情识别模型，输出得到每张人脸的表情分类。

具体地，使用ResNet在FER2013，CK+等人脸表情数据库上训练表情模型，该模型输出8种不同的表情概率得分，其中概率得分最大的即为分类表情。

头部姿态估计单元使用正脸检测获取脸部特征点，根据脸部特征点计算脸部平面的法线向量并转化为头部朝向；

头部姿态估计单元识别人的脸部朝向，先使用正脸检测算法检测RGB 视频图像帧中的人脸，获取脸部的landmark标记点，之后得到对应的深度图中的深度，根据公式对标记点计算每个点的世界空间坐标系的3D坐标，每个点组合起来就可以得到脸部在空间中的点云，根据脸部特征点的点云坐标，计算脸部平面的法线向量，然后将法线向量转化为头部朝向的Yaw、Pitch、Roll的欧拉角表示。

具体地，根据本发明的一个具体实施例，头部姿态估计单元先使用 Dlib的正脸检测RGB视频图像帧中的人脸，获取脸部的68个landmark标记点，之后得到对应的深度图中的深度，根据公式对68个特征点计算每个点的世界空间坐标系的3D坐标，每个点组合起来就可以得到脸部在空间中的点云。

目光追踪单元对预处理所得视频进行检测，根据获取的被检测人眼部数据得到被检测人的目光朝向，得到眼神特征；

目光追踪单元用来跟踪被试者以及评估者的眼神注视方向，首先利用正脸检测算法获取RGB视频帧中的脸部特征点，从中选取出双眼的特征点，然后利用空间坐标变换计算出双眼特征点的世界坐标系3D坐标；把双眼的3D坐标输入到目光追踪神经网络模型中，输出目光的朝向。其中正脸检测算法采用Dlib正脸检测算法。

手势检测与识别单元检测手部的矩形框，并给出手势的分类。

具体地，手势检测与识别单元利用labelImg工具将手势标注成 PASCAL VOC数据集的格式，每个数据集都包含手部的矩形框的四角坐标以及手势的分类，然后使用Yolov3训练出一个手势的检测器，检测器检测画面中的手部并识别手势，并给出其矩形框坐标以及所属的手势分类的置信度得分。

特征提取模块对每一类别的子试验，对预处理获取的被试者、评估者全部角度的视频数据段落，分别进行逐帧分析处理，着重点是提取被试者微笑的反应时间、微笑时间以及目光和头部姿态特征。

分类模型训练模块分别对刺激段落视频数据进行脸部表情、头部朝向、目光和手势的特征提取，使用支持向量机SVM进行分类模型的训练，然后得到分段落范式打分的分类器模型；然后又将所有的段落特征及标签组合作为新的输入特征，对整个社会性的微笑范式的孤独症打分分数作为标签，使用支持向量机SVM进行训练，得到整个范式的孤独症预测分类器模型。

具体地，根据本发明的一个具体实施例，对第i个刺激段落视频数据进行脸部表情、头部朝向、目光和手势的特征提取，组成特征x_i，该刺激段落评估者的对被试者的得分打分计为y_i，以x_i为输入特征，y_i为输出标签，使用支持向量机SVM进行分类模型的训练，通过对最大间隔超平面 w_i·x_i-b_i＝0进行学习可以求得最优w_i和b_i，然后得到分段落范式打分的分类器模型。然后又将所有的x_i和y_i组合起来作为新的输入特征，整个社会性微笑范式的孤独症打分分数y作为标签，使用支持向量机SVM进行训练，同理可以得到整个范式的孤独症预测分类器模型。

当获得新的被试者分段范式数据特征x′_i时，可以根据w_i·x′_i-b_i计算结果求出其在超平面的哪一侧，即获得对应的分段范式预测得分

综合被试者的所有分段范式数据特征x′_i以及对应的预测得分

就可以求出测试者的孤独症风险预测得分

如图2所示，本发明的具体流程如下：

步骤S1，视频数据采集，通过语音识别根据不同类别逗笑刺激的关键词以及表情和动作识别对各类逗笑进行试验子试验分段，以一种提示语音分别对应一种逗笑刺激，依据特定语音内容分割音视频，分别得到不同种类逗笑刺激段落的数据，试验的具体包括六个部分，分别为六种刺激下的逗笑测试。

步骤S1.1第一类逗笑为玩具突然发动刺激，属于非社会性微笑刺激。

步骤S1.1.1桌上摆放静止的非拟人的玩具可遥控玩具，诱导被试者看向桌面该玩具；

步骤S1.1.2遥控控制该玩具突然启动；

步骤S1.1.3观察被试者是否微笑，微笑反应时间，微笑时长。

步骤S1.2第二类逗笑为对视微笑刺激，属于社会性微笑刺激。

步骤S1.2.1评估者在不接触被试者的前提下，吸引到眼神的交流；

步骤S1.2.2当评估者吸引不到被试者注意时，可以轻轻拍敲桌子三次以辅助吸引被试者的眼神；

步骤S1.2.3评估者对被试者表示微笑；

步骤S1.2.4观察被试者是否微笑，微笑反应时间，微笑时长。

步骤S1.3第三类逗笑为语音刺激，属于社会性微笑刺激。

步骤S1.3.1评估者吸引被试者看向评估者脸庞；

步骤S1.3.2评估者微笑向被试者打招呼，说出打招呼词句(如：“hi”)；

步骤S1.3.3观察被试者是否微笑，微笑反应时间，微笑时长；

步骤S1.3.4向被试者说出赞美词句(如：“哇，你好可爱啊”，“宝宝，你好乖啊”)；

步骤S1.3.5观察被试者是否微笑，微笑反应时间，微笑时长；

步骤S1.3.6照顾者在不接触被试者的条件下，对被试者进行语言刺激，可为打招呼或者夸赞；

步骤S1.3.7观察被试者是否微笑，微笑反应时间，微笑时长。

步骤S1.4第四类逗笑为躲猫猫游戏刺激，属于社会性微笑刺激。

步骤S1.4.1评估者对被试者说“我们来玩躲猫猫吧”；

步骤S1.4.2评估者使用带有标记图案或标记颜色的布遮住自己的脸，使被试者无法看见评估者的面部；

步骤S1.4.3评估者向被试者提问自己在哪里，语气愉悦；

步骤S1.4.4评估者在瞬间将遮脸布放下，与被试者对视，并对被试者笑；

步骤S1.4.5观察被试者是否微笑，微笑反应时间，微笑时长；

步骤S1.4.6重复S1.3.2～S1.3.4总共3次。

步骤S1.5第五类逗笑为暗示性身体接触刺激，属于社会性微笑刺激。

步骤S1.5.1评估中用手隔空对被试者做出挠痒痒的动作，但不接触被试者而身体，并配合语言“我来捉你哦！我来挠痒痒哦！”，语气兴奋；

步骤S1.5.2观察被试者是否微笑，微笑反应时间，微笑时长；

步骤S1.5.3重复S1.4.1～S1.4.2,总共2次。

步骤S1.6第六类逗笑为身体接触刺激，属于分享性微笑刺激。

步骤S1.6.1评估者对被试者说“我真的来挠你痒痒了”；

步骤S1.6.2评估中用手对被试者做出挠痒痒的动作，接触被试者而身体；

步骤S1.6.3观察被试者是否微笑，微笑反应时间，微笑时长。

评估者对被试者社会性及分享性微笑范式的每一类逗笑刺激进行 0,1,2三分类打分(分数越高反应越明显，分数为0则没有微笑反应)；

步骤S2，对采集好的音视频数据进行同步处理。

步骤S3，通过语音识别根据不同类别逗笑刺激的关键词以及表情和动作识别对各类逗笑进行试验子试验分段。

第一类的玩具发动物品检测条件是使用物体识别技术，检测特定玩具在规定时间内是否由静止状态突然发生启动，该玩具启动瞬间则标记者第一类逗笑开始第二类的对视微笑刺激逗笑的检测条件是，使用表情识别看评估者的表情是否为笑，同时使用目光追踪判断评估者和被试者是否有眼神交流，满足这两个条件表示第二类逗笑开始；第三类的语言刺激逗笑的检测条件是使用语音识别依次识别评估者是否说出打招呼词句(如：“hi”)和赞美词句(如：“哇，你好可爱啊”，“宝宝，你好乖啊”) 等词句，当检测到对应词句则说明开始进行第三类逗笑中的打招呼逗笑或赞美逗笑；第四类的躲猫猫游戏刺激逗笑的检测条件为使用语音识别评估者是否说出“我们来玩躲猫猫吧”的语句，同时通过物体检测对遮脸布的出现次数检测来判断该子试验重复的次数；第五类的暗示性身体接触刺激逗笑的检测条件是，使用语音识别来判断评估者是否说出了“我来挠你痒痒好吗？”的句子，如有说明该子试验开始。在该子试验阶段，也通过动作手势识别评估者举起手挠痒痒的手势次数来判断重复的次数；第六类的身体接触刺激逗笑的检测条件是，使用语音识别来判断评估者是否说出了“我真的来挠你痒痒了”的语句，如有说明该子试验开始。

步骤S4，进行子试验的逗笑反馈识别。对于每一类别的子试验，对预处理获取的被试者、评估者全部角度的视频数据段落，分别进行逐帧分析处理，着重点是提取被试者微笑的反应时间，微笑时间以及目光和头部姿态等特征。

使用语音识别技术，识别并标记试验工作人员第i种逗笑刺激行为的时间点t′₁(t＝1,2,3,4,5,6)(其中，i＝1为玩具刺激微笑，i＝2为微笑，i＝3为赞美，i＝4为躲猫猫，i＝5为假装挠痒痒，i＝6为挠痒痒)；使用表情识别技术，识别被试者表情是否在t′₁后笑，并分别标记对应笑容开始的时间点

和笑容结束的时间点t′₃；可以求出被试者在第i种微笑诱导刺激后的反应时间t′₂-t′₁、笑容持续时间t′₃-t′₂。使用目光追踪以及头部姿态检测技术，记录被试者在t′₁时间后的目光朝向以及头部朝向特征；使用手势检测与识别技术，记录被试者在t′₁时间后的手势动作类别；

步骤S5，对每一类刺激子试验段落视频数据进行特征提取后，使用 SVM训练出该类别刺激逗笑打分的分类器模型，然后综合所有类别的段落视频数据特征，以及对应的分段落范式打分，训练出整个范式的孤独症预测分类器模型。

步骤S6，对新试验的数据，使用训练得到的分类器模型进行预测，得到被试者的孤独症风险系数。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于微笑范式和音视频行为分析的孤独症早期筛查系统，其特征在于，包括：

预测模块，采用特征提取模块对整个范式视频进行分段落的脸部、朝向、目光和手势特征提取，并使用分类器模型对范式分段落进行打分，对测试者的孤独症风险进行评估预测；

其中，所述特征提取模块包括表情识别单元、头部姿态估计单元、目光追踪单元、手势检测与识别单元，

所述手势检测与识别单元检测手部的矩形框，并给出手势的分类；

所述训练分类模块分别对刺激段落视频数据进行脸部表情、头部朝向、目光和手势的特征提取，使用机器学习算法进行分类模型的训练，然后得到分段落范式打分的分类器模型；然后又将所有的段落特征及标签组合作为新的输入特征，对整个社会性的微笑范式的孤独症打分分数作为标签，使用机器学习算法进行训练，得到整个范式的孤独症预测分类器模型。

2.根据权利要求1所述的孤独症早期筛查系统，其特征在于，所述RGB-D摄像头隐秘布置在试验场地中，多角度全方位采集试验场地深度视频，通过麦克风阵列和/或分别佩戴于被试验者、评估者身上的可穿戴麦克风多声道采集说话人的说话语音和环境声音。

3.根据权利要求1所述的孤独症早期筛查系统，其特征在于，所述表情识别单元使用残差神经网络在人脸表情数据库上训练表情模型，模型输出多种不同的表情对应的概率得分，其中概率得分最大的即为分类表情；对RGB视频的每帧图像使用正脸人脸检测算法获得脸部矩形框，然后对脸部框做人脸对齐之后，输入到表情识别模型，输出得到每张人脸的表情分类。

4.根据权利要求1所述的孤独症早期筛查系统，其特征在于，所述头部姿态估计单元识别人的脸部朝向，先使用正脸检测算法检测RGB视频图像帧中的人脸，获取脸部的landmark标记点，之后得到对应的深度图中的深度，根据公式对标记点计算每个点的世界空间坐标系的3D坐标，每个点组合起来就得到脸部在空间中的点云，根据脸部特征点的点云坐标，计算脸部平面的法线向量，然后将法线向量转化为表示头部朝向的欧拉角。

5.根据权利要求1所述的孤独症早期筛查系统，其特征在于，所述目光追踪单元用来跟踪被试者以及评估者的眼神注视方向，首先利用正脸检测算法获取RGB视频帧中的脸部特征点，从中选取出双眼的特征点，然后利用空间坐标变换计算出双眼特征点的世界坐标系3D坐标；把双眼的3D坐标输入到目光追踪神经网络模型中，输出目光的朝向。

6.根据权利要求1所述的孤独症早期筛查系统，其特征在于，所述手势检测与识别单元标注手势，标注结果包含手部的矩形框的四角坐标以及手势的分类，然后使用物体检测分类器训练出一个手势的检测器，检测器检测画面中的手部并识别手势，并给出其矩形框坐标以及所属的手势分类的置信度得分。