CN110353703B

CN110353703B - 基于鹦鹉学舌语言范式行为分析的孤独症评估装置及系统

Info

Publication number: CN110353703B
Application number: CN201910605991.9A
Authority: CN
Inventors: 李明; 邹小兵; 潘悦然; 蔡昆京
Original assignee: Duke Kunshan University; Third Affiliated Hospital Sun Yat Sen University
Current assignee: Duke Kunshan University; Third Affiliated Hospital Sun Yat Sen University
Priority date: 2019-07-05
Filing date: 2019-07-05
Publication date: 2021-11-09
Anticipated expiration: 2039-07-05
Also published as: CN110353703A

Abstract

本发明提出了一种基于鹦鹉学舌语言范式行为分析的孤独症评估装置及系统，所述装置包括数据获取模块，用于获取试验过程中被试者及照顾者的音频数据、视频数据；特征获取模块，根据声纹识别说话人身份，逐帧获取在确定照顾者发出诱导语音后预设时间内视频帧中被试者的相关特征信息；分类器训练模块，用于根据所述相关特征信息，并结合诱导语音内容所对应的回答词句库进行分析，对被试者的反应进行分类，并训练分类器，得到孤独症预测模型；预测评估模块，用于根据被试者的所述相关特征信息进行孤独症评估。本发明根据被试者在照顾者提出开放性问题后的语言及其他行为模式进行分析，客观地对被试者进行孤独症谱系障碍评估，使评估更加准确与方便。

Description

基于鹦鹉学舌语言范式行为分析的孤独症评估装置及系统

技术领域

本发明涉及语音识别、图像处理领域，尤其涉及到一种基于鹦鹉学舌语言范式行为分析的孤独症评估装置及系统，根据被试者在照顾者提出开放性问题后的语言及其他行为模式进行分析，以评估孤独症谱系障碍的评估装置及系统。

背景技术

孤独症谱系障碍(Autism spectrum disorder，简称孤独症，ASD)，是一种脑部发育障碍的疾病，是一系列关于儿童行为和发育的问题，严重影响了儿童的交流能力、共情能力、运动能力、兴趣点等方面。为了使得儿童的成长不受孤独症的影响，需要对尽早儿童进行孤独症评估。而在进行儿童孤独症评估时，儿童是否会出现刻板性行为是一项重要指标。刻板性行为主要分为两大类，语言的刻板性行为和行动的刻板性行为。在语言的刻板性行为中，鹦鹉学舌，即立即性仿说，是一种代表性的现象。当儿童与人交流时，交流和理解障碍会使其出现重复问题、答非所问的情况。尤其在应对开放性问题等较难问题时，孤独症儿童容易出现鹦鹉学舌式立即性仿说。在孤独症的评估和干预中，多采用人工评价的模式对儿童的刻板性语言和行为进行评价。因此，评价结果因人而异，没有统一的标准。而且在人工评估中，想要获得较准确的评估结果，对评估人员的专业性、经验性要求高，人工成本十分昂贵。

专利号为CN201811472142.2的专利文件公开了一种基于眼动技术测量孤独症重复刻板行为的测试装置，通过使用带有摄像头的移动端设备播放图像并分析儿童的眼动数据，从而对孤独症进行评估。专利号为CN201611073033.4的专利文件公开了一种对踮脚尖步态的监测方法、装置和用于设在鞋子中的对踮脚尖步态的监测仪器，通过分析踮脚尖步态以对孤独症进行干预。可见，目前对于孤独症刻板性行为分析还主要集中对行动的刻板性行为研究，对儿童的刻板性语言研究仍接近空白。而且，由于生活化的真人交流场景不确定性因素极多，当下的研究中多数为对儿童的自我行为以及儿童对设备物体的反应进行分析，对儿童与真实人物之间互动的分析十分稀少。

因此，如果能够进行半结构化的试验，固定孤独症评估的大致流程，结合人工智能技术对儿童和真实人物的交流进行标准统一的分析，尤其分析刻板性语言，将十分有利于儿童孤独症的早期筛选或评估。

发明内容

针对现有技术的不足，本发明提出一种基于鹦鹉学舌语言范式行为分析的孤独症评估装置及系统。本发明针对照顾者提出相应问题后，根据被试者的语言及其行为反应进行孤独症系障碍评估，可用于孤独症早期筛查。

本发明的技术方案是这样实现的：

一种基于鹦鹉学舌语言范式行为分析的孤独症评估装置，包括

数据获取模块，用于获取试验过程中被试者及照顾者的音频数据、视频数据；

特征获取模块，用于根据声纹识别说话人身份，逐帧获取在确定照顾者发出诱导语音后预设时间内视频帧中被试者的相关特征信息，所述相关特征信息包括语音内容信息、语音情绪信息、目光朝向信息、头部朝向信息和面部表情信息中的一种或多种；

分类器训练模块，用于根据所述相关特征信息，并结合诱导语音内容所对应的回答词句库进行分析，对被试者的反应进行分类；根据被试者的反应类别及相应获取的特征信息训练分类器，得到孤独症预测模型；其中，被试者的反应类别及该类别相应获取的特征作为分类器的输入，被试者是否患有孤独症作为分类器的输出；

预测评估模块，用于根据被试者的所述相关特征信息，通过孤独症预测模型进行预测评估，并得出评估结果。

进一步的，还包括

数据预处理模块，用于基于时间戳将视频数据与音频数据在时间轴上同步对齐。

进一步的，特征获取模块包括声纹识别单元、语音内容信息获取单元、语音情绪信息获取单元、目光朝向信息获取单元、头部朝向信息获取单元和面部表情信息获取单元，其中

声纹识别单元，用于通过声纹识别对音频数据中说话人进行身份识别，以确定被试者及照顾者身份；并用于在确定照顾者在发出诱导语音后，再根据预设时间内视频帧内容从语音内容信息获取单元、语音情绪信息获取单元、目光朝向信息获取单元、头部朝向信息获取单元和/或面部表情信息获取单元中获取被试者的相应特征信息；

语音内容信息获取单元，用于通过语音识别将说话者的语音进行文本转换，以获取语音内容信息；

语音情绪信息获取单元，用于通过深度神经网络获取包含情感信息的嵌入层信息进行情感的分类，以获取语音情绪信息；

目光朝向信息获取单元，用于获取被试者在预设时间内是否看向照顾者的信息；

头部朝向信息获取单元，用于通过脸部检测获取脸部特征点，并确定其空间的3D特征点云；通过脸部特征点的3D特征点云确定脸部平面的法线向量，从而获取头部朝向信息；

面部表情信息获取单元，用于对视频帧中的儿童进行人脸识别，获取人脸矩形框并对齐后作为表情识别模型的输入，以获取被试者的表情分类。

进一步的，特征获取模块还包括

坐标位置信息获取单元，用于获取被试者和/或照顾者的坐标位置信息。

进一步的，坐标位置信息获取单元，用于根据视频帧中相应像素点的横坐标、纵坐标以及对应深度图中的深度数据，并结合预先获取的摄像头组件光学参数，确定该像素点相对摄像机坐标系的3D坐标。

进一步的，分类器训练模块中，被试者的反应分类类别包括求助类别、正确回应-不懂类别、正确回应-回答正确类别、鹦鹉学舌类别、答非所问类别、没有反应类别中的任意组合。

一种基于鹦鹉学舌语言范式行为分析的孤独症评估系统，包括所述基于鹦鹉学舌语言范式行为分析的孤独症评估装置、安装于实验场地四周的多个深度图像采集装置和设置于实验场地内的语音采集装置；其中

深度图像采集装置，用于采集实验环境内试验过程中的视频数据，所述视频数据中包括图像的深度信息；

语音采集装置，用于采集试验过程中的音频数据；

所述深度图像采集装置和语音采集装置皆与所述孤独症评估装置连接。

进一步的，所述深度图像采集装置为RGB-D摄像头，所述语音采集装置为阵列麦克风和/或可穿戴麦克风。

本发明通过分类器模块将大量试验被提取的相应相关特征信息作为训练数据，对被选择机器学习模型进行训练，得到含有参数权重的分类器，从而得到孤独症预测模型；然后通过孤独症预测模型对被试者进行孤独症系障碍评估，从而筛选出孤独症谱系障碍患者，为医生提供参考。本发明是针对照顾者提出相应问题后，根据被试者的语言及其行为反应进行分类，并根据被试者的反应类别及相应获取的特征信息训练分类器，得到孤独症预测模型。

与现有技术相比，本发明具有以下优点：

(1)允许试验在可自由活动的真实场景中进行，使得实验数据更接近生活常态，更能反应被试者综合情况；

(2)采用半结构化的试验流程，使得被评断对象和被评判数据的采集规则更统一，更具有客观性；

(3)使用多角度深度摄像头和阵列麦克风等设备，使得试验信息的采集更完整；

(4)采用人工智能系统捕捉音视频并进行关键信息的提取和处理，保持了数据分析过程的尺度一致，排除人为主观性的干扰；

(5)使用计算机对数据进行分析，对评估人员的专业性和经验性要求显著降低，使得评估更容易普及。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于鹦鹉学舌语言范式行为分析的孤独症评估装置一实施例方式的结构框图；

图2为本发明基于鹦鹉学舌语言范式行为分析的孤独症评估系统一实施例方式的结构框图；

图3为本发明中试验过程的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参阅图1，本发明实施方式公开的一种基于鹦鹉学舌语言范式行为分析的孤独症评估装置，包括

数据获取模块10，用于获取试验过程中被试者及照顾者的音频数据、视频数据；

其中，这里的视频数据为多角度多视角深度视频数据，音频数据为多通道音频数据，以便准确获取被试者及照顾者的相应特征信息，从而更准确地对孤独症进行评估。

特征获取模块20，用于根据声纹识别说话人身份，逐帧获取在确定照顾者发出诱导语音后预设时间内视频帧中被试者的相关特征信息，所述相关特征信息包括语音内容信息、语音情绪信息、目光朝向信息、头部朝向信息和面部表情信息中的一种或多种；

本发明实施方式中，特征获取模块20用于对多角度深度视频及多通道音频数据进行分析，对被试者的语音内容进行识别，对被试者语音情绪进行分析，对被试者进行目光特征及头部朝向特征进行提取。具体的，首先利用端到端的深度神经网络对麦克风阵列采集到的多通道音频的进行声纹识别，分别标记被试者、照顾者；在识别到照顾者的语音后，对其音频的语音内容进行语音识别，识别出开放性问题等诱导语的内容并标记时间，并获取该诱导语发出后预设时间内的音频数据、视频数据；在获取照顾者开放性问题等诱导语后预设时间内的音频数据、视频数据后，在该预设时间内的音频数据、视频数据中检测被试者是否说话；如果被试者发出语音，对被试者的语音内容进行识别转成文字，同时使用对抗学习模型对被试者语音情绪进行分析。进一步，当被试者在诱导后未发出语音信息时，对多角度深度视频进行分析，对被试者进行目光特征、头部朝向特征、面部表情特征进行提取，对照顾者及评估者的坐标进行特征提取。

分类器训练模块30，用于根据所述相关特征信息，并结合诱导语音内容所对应的回答词句库进行分析，对被试者的反应进行分类；根据被试者的反应类别及相应获取的特征信息训练分类器，得到孤独症预测模型；其中，被试者的反应类别及该类别相应获取的特征作为分类器的输入，被试者是否患有孤独症作为分类器的输出；

本发明实施方式中，通过照顾者提出相应开放性问题后，根据被试者的语音内容信息、语音情绪信息、目光朝向信息、头部朝向信息和/或面部表情信息，并结合诱导语音对应的回答词句库，对被试者进行分类。

在鹦鹉学舌样语言范式试验中，照顾者需要在获得被试者注意力的情况下，向被试者说出开放性问题等诱导语时，正常人的反应为正确回答，或如实回答不知道，或者向场内人员求助；而孤独症患者的反应主要为重复听到的词句，或答非所问，或当做封闭性问题进行回答。因此，本发明实施方式，被试者的反应分类类别包括求助类别、正确回应-不懂类别、正确回应-回答正确类别、鹦鹉学舌类别、答非所问类别、没有反应类别中的任意组合。

例如，当照顾者向被试者提出开放性问题时，如：下午我们去哪里？特征获取模块20根据此诱导语音内容标记时间，并获取预设时间内的音频数据、视频数据，确定被试者是否发出语音信息，

是，则确定语音内容信息，通过获取被试者的语音情绪信息；

否，则获取被试者的目光朝向信息、头部朝向信息、面部表情信息，并获取照顾者及被试者的坐标位置信息。

根据以上所获取的特征信息对被试者的反应进行分类。

预测评估模块40，用于根据被试者的所述相关特征信息，通过孤独症预测模型进行预测评估，并得出评估结果。

本发明实施方式中，对已知孤独症谱系障碍被试者进行试验，根据所试验出的数据进行训练分类器，得到孤独症预测模型；最后再根据孤独症预测模型对未知孤独症谱系障碍情况患者进行孤独症谱系障碍评估。

由于本发明主要用于儿童孤独症的早期筛选，因此本发明实施方式中的被试者可为但不限于儿童，照顾者可为但不限于家长或评估人员。

进一步的，基于鹦鹉学舌语言范式行为分析的孤独症评估装置还包括数据预处理模块，用于基于时间戳将视频数据与音频数据在时间轴上同步对齐。

为了能准确地采集被试者及照顾者的数据，本发明实施方式将摄像头设置于标准化环境的四周，以便能多角度记录试验过程中被试者及照顾者的行为变化，因此，在获取被试者及照顾者的相关特征信息之前，先将多个摄像头所录制的视频数据基于时间戳进行同步对齐，再将视频数据与音频数据在时间轴上同步对齐后，再获取被试者及照顾者的相关特征信息。

进一步的，特征获取模块20包括声纹识别单元、语音内容信息获取单元、语音情绪信息获取单元、目光朝向信息获取单元、头部朝向信息获取单元和面部表情信息获取单元，其中

声纹识别单元201，用于通过声纹识别对音频数据中说话人进行身份识别，以确定被试者及照顾者身份；并用于在确定照顾者在发出诱导语音后，再根据预设时间内视频帧内容从语音内容信息获取单元、语音情绪信息获取单元、目光朝向信息获取单元、头部朝向信息获取单元和/或面部表情信息获取单元中获取被试者的相应特征信息；

语音内容信息获取单元202，用于通过语音识别将说话者的语音进行文本转换，以获取语音内容信息；

语音情绪信息获取单元203，用于通过深度神经网络获取包含情感信息的嵌入层信息进行情感的分类，以获取语音情绪信息；

目光朝向信息获取单元204，用于获取被试者在预设时间内是否看向照顾者的信息；

头部朝向信息获取单元205，用于通过脸部检测获取脸部特征点，并确定其空间的3D特征点云；通过脸部特征点的3D特征点云确定脸部平面的法线向量，从而获取头部朝向信息；

面部表情信息获取单元206，用于对视频帧中的儿童进行人脸识别，获取人脸矩形框并对齐后作为表情识别模型的输入，以获取被试者的表情分类。

本发明实施方式中，由于不同的被试者面对照顾者所提问的问题时，会有不同的反应，此时所对应的特征信息不同，通过根据被试者的特征信息，对被试者的反应进行分类。其中，在获取被试者的特征信息前，先将视频数据与音频数据在时间轴上同步对齐后，逐帧获取在确定照顾者发出诱导语音后预设时间内视频帧中被试者的相关特征信息。具体的，

声纹识别单元201，利用端到端的深度神经网络对麦克风阵列和/或可穿戴麦克风采集到的多通道音频的进行声纹识别，分别标记被试者、照顾者；

语音内容信息获取单元201，是通过语音识别获取，将说话者的语音进行文本转换，从而获取被试者的语音内容。

语音情绪信息获取单元202，是通过使用基于ResNet的深度神经网络提取包含情感信息的嵌入层信息，然后再进行情感的分类，从而获取被试者的语言情绪。

目光朝向信息获取单元203，用于利用Dlib的正脸检测获取RGB视频帧中人的脸部特征点，从中确定双眼的特征点后结合深度数据利用空间坐标变换计算出双眼特征点的空间3D坐标，以双眼的空间3D坐标作为目光追踪神经网络模型的输入，从而获取目光朝向信息。

头部朝向信息获取单元204，用于利用Dlib的正脸检测获取RGB视频帧中的人正脸的68个特征标记点，根据这68个特征点的深度数据结合空间坐标变换公式计算每个特征点的空间3D坐标，组成脸部的特征点云坐标；根据所述特征点云坐标计算脸部平面的法线向量，并将法线向量转化为头部姿态的欧拉角，根据欧拉角确定头部朝向信息。

面部表情信息获取单元205，首先使用ResNet20网络在通用的FER2013、CK+等人脸表情数据集上训练表情识别模型，所训练出的表情识别模型能够识别包括喜怒哀等8种不同的表情；然后通过对RGB视频的中每帧视频帧的被试者进行人脸识别后，获取其人脸矩形框再对齐以后，作为表情识别模型的输入，就可以得到被试者的表情分类。

进一步的，特征获取模块20还包括

具体的，坐标位置信息获取单元，是根据视频帧中被试者和/或照顾者相应像素点的横坐标u、纵坐标v以及对应深度图中的深度数据d，并结合预先获取的摄像头组件光学参数(c_x，c_y，f_x，f_y)，确定该像素点相对摄像机坐标系的3D坐标(x，y，z)，其中：

z＝d

根据位置坐标信息获取单元，可确定被试者的活动轨迹，用于对被试者的反应进行分类。

可见，本发明利用端到端的深度神经网络对多通道音频数据进行声纹识别，分别标记被试者、照顾者；在识别到照顾者的语音后，对其音频的语音内容进行语音识别，识别出开放性问题等诱导语的内容并标记时间，并提取该诱导语一段时间后的全部音视频数据；在提取评估者开放性问题等诱导语后的音视频数据后，在被提取的音视频数据中检测被试者是否说话；若被试者发出语音，对被试者的语音内容进行识别转成文字，同时使用对抗学习模型对被试者语音情绪进行分析；若当被试者在诱导后未发出语音信息时，对多角度深度视频进行分析，对被试者进行目光特征、头部朝向特征、面部表情特征进行提取，对照顾者及评估者的坐标进行特征提取；最后利用所提取的特征对被试者的反应进行分类，并进行训练分类器，从而得到孤独症评估模型。

本发明通过分类器模块将大量试验被提取的相应相关特征信息作为训练数据，对被选择机器学习模型进行训练，得到含有参数权重的分类器，从而得到孤独症预测模型；然后通过孤独症预测模型对被试者进行孤独症系障碍评估，从而筛选出孤独症谱系障碍患者，为医生提供参考。

本发明可在自由活动的真实场景中进行，使得实验数据更接近生活常态，更能反应被试者的综合情况，而且本发明采用半结构化的试验流程，使得评断对象和被评判数据的采集规则更统一，更具有客观性。

另外，本发明采用人工智能系统捕捉音视频并进行关键信息的提取和处理，保持了数据分析过程的尺度一致，排除人为主观性的干扰；而且由于使用计算机对数据进行分析，对评估人员的专业性和经验性要求显著降低，使得评估更容易普及。

参阅图2，本发明实施方式还公开了一种基于鹦鹉学舌语言范式行为分析的孤独症评估系统，包括所述基于鹦鹉学舌语言范式行为分析的孤独症评估装置、安装于实验场地四周的多个深度图像采集装置和设置于实验场地内的语音采集装置；其中

语音采集装置，用于采集试验过程中的音频数据；

本发明实施方式中，采集音视频数据为在自由活动场景中、在无需穿戴设备的条件下、在隐藏采集设备的情况下，被试者、照顾者进行鹦鹉学舌样语言范式试验的完整音视频数据。针对每一次照顾者发出诱导语音后，对预设时间内被试者的语言及其行为反应进行识别，从而对每次诱导语音后被试者的反应进行分类，最后根据分类类别及相应特征信息进行训练分类器。

其中，一个完整音视频数据中，不限于出现一次诱导语音。为了保证孤独症预测模型的准确性，本申请对于同一名被试者提出多次开放性问题。每一次提问，均根据被试者的反应进行分类。

具体的，本发明实施方式中的深度图像采集装置可以是但不限于RGB-D摄像头，便于多角度全方位采集试验参与人员与场地的RGB和深度数据；语音采集装置可以是但不限于阵列麦克风和/或可穿戴麦克风，用于多声道采集试验过程中的任务声音和环境声音，能有效地抑制试验环境中的噪声和回声，以采集到高质量的分通道的不同说话人语音。

参阅图3，具体的，利用本发明实施方式基于鹦鹉学舌语言范式行为分析的孤独症评估系统对被试者的反应进行分类的方法，包括以下步骤：

S1，在实验环境内，照顾者在获得被试者注意后，对被试者进行开放性问题提问；

S2，判断被试者在预设时间内是否语言回答照顾者的问题；

是，则转到步骤S3；

否，则转到步骤S5；

S3，判断该语言内容是否为重复性语言；

是，则确定被试者的反应类别为鹦鹉学舌类别；

否，则转到步骤S4；

S4，判断该语言内容是否属于正确或求助词句库；

是，则确定被试者的反应类别为正确回应-回答正确类别；

否，则确定被试者的反应类别为答非所问类别；

S5，判断被试者是否看向他人；

是，则确定被试者的反应类别为正确回应-不懂类别；

否，则确定被试者的反应类别为没有反应类别。

其中，对于每一名被试者进行范式试验时进行多个回合，本发明实施方式以三个回合为例，具体可参考如下步骤：

回合1，照顾者使用偏中性语言色彩的陈述语句同被试者进行交流，照顾者的交流语句可为“你好乖哦”、“宝宝我好喜欢你哦”、“宝宝坐得好端正”；在进行暖场获得被试者注意后，说出一次针对刻板性语言的诱导开放性提问。

回合2，照顾者向被试者提出开放性问题：“下午去哪里玩？”，当该诱导语音经过语音识别及声纹识别后，获取预设时间内的音频数据、视频数据；

回合3，照顾者向被试者提出开放性问题：“晚饭我们吃什么？”，当该诱导语音经过语音识别及声纹识别后，获取预设时间内的音频数据、视频数据。

该实施方式中，首先通过声纹识别说话者身份，逐帧获取在确定照顾者发出诱导语音后预设时间内视频帧中被试者的相关特征信息，包括语音内容信息、语音情绪信息、目光朝向信息、头部朝向信息和/或面部表情信息；然后结合诱导语音内容所对应的回答词句库进行分析，对被试者的反应进行分类。

根据以上实施方式确定被试者的相应反应分类后，再将被试者的反应类别及相应获取的特征信息作为孤独症预测模型的输入，输出被试者的评估结果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于鹦鹉学舌语言范式行为分析的孤独症评估装置，其特征在于，包括

分类器训练模块，用于根据所述相关特征信息，并结合诱导语音内容所对应的回答词句库进行分析，对被试者的反应进行分类；根据被试者的反应类别及相应获取的特征信息训练分类器，得到孤独症预测模型；其中，被试者的反应类别及该类别相应获取的特征作为分类器的输入，被试者是否患有孤独症作为分类器的输出，被试者的反应分类类别包括求助类别、正确回应-不懂类别、正确回应-回答正确类别、鹦鹉学舌类别、答非所问类别、没有反应类别；

2.如权利要求1所述基于鹦鹉学舌语言范式行为分析的孤独症评估装置，其特征在于，还包括

3.如权利要求1所述基于鹦鹉学舌语言范式行为分析的孤独症评估装置，其特征在于，特征获取模块包括声纹识别单元、语音内容信息获取单元、语音情绪信息获取单元、目光朝向信息获取单元、头部朝向信息获取单元和面部表情信息获取单元，其中

面部表情信息获取单元，用于对视频帧中的被试者进行人脸识别，获取人脸矩形框并对齐后作为表情识别模型的输入，以获取被试者的表情分类。

4.如权利要求3所述基于鹦鹉学舌语言范式行为分析的孤独症评估装置，其特征在于，特征获取模块还包括

5.如权利要求4所述基于鹦鹉学舌语言范式行为分析的孤独症评估装置，其特征在于，坐标位置信息获取单元，用于根据视频帧中相应像素点的横坐标、纵坐标以及对应深度图中的深度数据，并结合预先获取的摄像头组件光学参数，确定该像素点相对摄像机坐标系的3D坐标。

6.一种基于鹦鹉学舌语言范式行为分析的孤独症评估系统，其特征在于，包括如权利要求1-5任一项所述基于鹦鹉学舌语言范式行为分析的孤独症评估装置、安装于实验场地四周的多个深度图像采集装置和设置于实验场地内的语音采集装置；其中

语音采集装置，用于采集试验过程中的音频数据；

7.如权利要求6基于鹦鹉学舌语言范式行为分析的孤独症评估系统，其特征在于，所述深度图像采集装置为RGB-D摄像头，所述语音采集装置为阵列麦克风和/或可穿戴麦克风。