CN114242235A

CN114242235A - 一种基于多层级关键特征行为的孤独症患者画像方法

Info

Publication number: CN114242235A
Application number: CN202111546313.3A
Authority: CN
Inventors: 程建宏
Original assignee: Beijing Azuaba Technology Co ltd
Current assignee: Beijing Azuaba Technology Co ltd
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2022-03-25

Abstract

本发明公开一种基于多层级关键特征行为的孤独症患者画像方法，该方法包括：调查问卷设计和采集模块、家长语音自由表述采集模块、半结构化视频采集模块、自由生活视频上传模块、视觉关系检测模块、多模态特征提取模块、孤独症患者画像联合训练模块、孤独症患者画像评估模块以及画像结果呈现模块。本发明从孤独症患者的实际情况以及无偏评估的需要出发，通过家长、诊疗师和被测试者本身等多个层级的多维度关键特征对被测试者孤独症患者的画像进行评估，并挖掘它们的关联性，实现孤独症患者谱系障碍画像的精准构建，供专业医务人员参考，此外，在被测试者社交能力评估过程中通过半结构化视频以及更为准确的视觉关系检测进行评估，评估更为精确。

Description

一种基于多层级关键特征行为的孤独症患者画像方法

技术领域

本发明涉及孤独症治疗技术领域，尤其涉及一种基于多层级关键特征行为的孤独症患者画像方法。

背景技术

公开该背景技术部分的信息旨在增加对本发明总体背景的理解，而不必然被视为承认或以任何形式暗示该信息构成已经成为本领域一般技术人员所公知的现有技术。

孤独症谱系障碍(ASD，Autism Spectrum Disorder，简称孤独症)，是一种脑部发育障碍的疾病。患有该疾病的儿童会在兴趣点、行为能力、语言能力和社交能力等方面呈现出与普通儿童不一样的表现，然而，由于很多家长专业知识的匮乏，他们无法区分患有孤独症儿童与正常儿童的区别，必须通过经验丰富的专业医疗人员和专家进行人工诊断来实现。然而，目前我国这方面的专业人员相对缺乏，且主要集中在一线城市，在偏远地区和欠发达地区，专业医疗人员和专家极度匮乏。此外，在对孤独症儿童诊断时，很多专业人员常常也是通过家长填写调查问卷的形式对该儿童是否患有孤独症进行评估，然而，对于被测试者的社交能力和不恰当行为，非专业人士（家长）可能无法对其进行准确判断，尤其是偏远山区或文化层次较低的家长，因此，仅通过调查问卷的形式对被测试者进行孤独症谱系障碍进行评估存在一定的偏差，此外，也有专业医务人员通过与被测试者进行短时交互和交谈，从而评估被测试者的孤独症谱系障碍，然而，某些行为范式，被测试者可能只有在熟悉的环境下才可能会发生，因此，该评估同样存在一定的偏差。

目前，已经有一些研究人员尝试通过多模态技术对孤独症谱系障碍进行评估，并提出了不同的基于多模态特征的孤独症评估方法、系统和装置。例如，申请号为201910606482.8的中国专利文献“基于联合注意能力测试和音视频行为分析的孤独症早期筛查系统”通过多个RGB-D摄像头和多个麦克风阵列获取对应的多视角和多模态数据，并提取对应的音频特征、面部情感特征、面部朝向、目光、手势、姿态特征，进一步地，通过机器学习技术对试验者进行谱系障碍疾病的评估。

申请号为201910605989.1的中国专利文献“基于不当行为观测分析的孤独症谱系障碍评估装置及系统”同样通过4个深度图像采集装置和语音采集装置获取试验者的多视角和多模态数据，并提取音频特征、眼神方向特征、头部朝向特征、面部表情特征、手指姿势特征、语言情绪特征、位置坐标特征等，最后，通过机器学习算法依次训练多个弱分类器，并将它们级联为孤独症谱系障碍评估模型。

申请号为201910606484.7的中国专利文献“结合调查问卷及多模态范式行为数据分析的孤独症评估系统”通过一个一体化可移动房间箱体，且四周隐藏多个摄像头的方式获取被测试者的音视频数据，然后结合调查问卷数据，通过机器学习算法对被测试者的谱系障碍进行评估，获得了较为精准的效果。

申请号201910605990.4的中国专利文献“基于微笑范式和音视频行为分析的孤独症早期筛查系统”通过多个深度摄像头和麦克风阵列获取试验者的多视角和多模态数据，然后，通过神经网络对其进行评估。然而，目前大部分方法都忽略了调查问卷数据以及多层级数据的作用，仅通过专业医务人员与被测试者进行短时交互和交谈的视频进行评估，该评估的准确性有待提高。

此外，虽然申请号为201910606484.7的中国专利文献“结合调查问卷及多模态范式行为数据分析的孤独症评估系统”融合了调查问卷数据以及多模态数据。然而，其在使用调查问卷时，同等对待调查问卷中的每一项，并直接将其进行累加得分，但是并不能确定每个调查问卷选项是否与孤独症存在直接关联，以及其在孤独症判断时到底起多大的作用，存在一定的不合理性。同时，在通过视频进行评估的过程中，也是简单的通过被测试者的头部朝向、目光朝向、面部表情、姿势、位置、手势等信息进行被测试者的社交能力评估，缺乏对对被测试者与物体之间视觉关系的检测，因此，其社交能力评估性能也有待提高，最后，某些行为范式，例如，刻板动作或不恰当行为，被测试者只有在熟悉的环境下才可能会发生，因此该专利中方案也缺乏对该层级信息的获取和分析。

发明内容

针对上述现有技术存在的问题，本发明提出了一种基于多层级关键特征行为的孤独症患者画像方法。该系统首先通过知识图谱技术挖掘不同调查问卷条目与孤独症谱系障碍的关联，设计更为符合要求的调查问卷，并增加了家长语音自由阐述部分。其次，设计了半结构场景对被测试者的社交能力进行评估，最后增加了被测试者的自由生活视频分析环节。从而可以通过家长、诊疗师和被试者本身等多个层级的多维度关键特征对被测试者进行评估，并充分挖掘它们的潜在关联，实现孤独症患者谱系障碍画像的精准构建，供专业医务人员参考。此外，在被测试者社交能力评估过程中通过更为准确的视觉关系检测进行评估，使得到的评估结果更为精确。为实现上述目的，本发明是根据以下技术方案实现的：

一种基于多层级关键特征行为的孤独症患者画像方法，包括如下步骤：

（1）通过调查问卷设计和采集模块中的综合能力评估量表采集被测试者的综合能力调查问卷数据。

（2）家长通过家长语音自由表述模块录制并上传被测试者的日常表现的音频。

（3）通过半结构化视频采集模块中的半结构化的自然场景设置与被测试者进行不同程度的交互录制相应的视频，并上传到平台。

（4）通过自由生活视频上传模块被测试者某一天的某些日常生活视频上传到平台。

（5）通过视觉关系检测模块对被测试者与物体之间进行视觉关系检测，从而更加准确的评估被测试者的社交能力。

（6）通过多模态特征提取模块对上述采集到的家长自由表述音频数据、半结构化的视频数据、自由生活视频数据进行语音识别、人体检测识别、人体骨架点检测以及物体检测，并进行文本特征、图像特征和时空特征的提取。

（7）通过孤独症患者画像联合训练模块中带标签的多层级数据对孤独症谱系障碍画像模型进行联合训练，构建基于多层级关键特征行为的孤独症患者画像模型。

（8）利用孤独症患者画像评估模块，并根据上传的所述调查问卷、家长自由表述音频、自由生活视频以及半结构化场景采集的视频数据、已经训练好的孤独症患者画像模型，对被测试者孤独症谱系障碍进行画像。

（9）通过孤独症画像结果呈现模块呈现被测试者的孤独症画像，即得。

进一步地，步骤（1）中，所述调查问卷设计和采集模块通过知识图谱和机器学习技术对典型的孤独症评估量表进行深入分析，挖掘不同评估量表条目之间的关联和异同，并结合真实案例进行验证，设计更为合理的综合能力评估量表。此外，考虑到调查问卷的条目不能太多，否则家长容易失去耐心，通过该量表采集被测试者的综合能力调查问卷数据有助于获得更为合理和准确的被测试者综合能力评估数据。

进一步地，步骤（2）中，由于家长对被测试者最为熟悉，通过所述家长语音自由表述采集模块可以让家长充分地阐述被测试者的日常表现，特别地，在家长自由表述中，其叙述时长控制在一定的时间内为宜。

进一步地，步骤（3）中，对于被测试者的社交能力，常常通过家长叙述或调查问卷等形式进行评估，然而，非专业人士可能无法对其进行准确判断。因此，在某特定自然场景下，通过与被测试者按照半结构化的设置进行不同程度的交互，其中半结构化的交互活动为预先定义的交互动作，然后，通过不同传感器采集录制相应的半结构化视频，并上传到平台，后续将根据这些视频通过机器学习算法进行其社交能力的评估。

进一步地，步骤（3）中，还包括半结构化视频录制时的图像采集装置和音频采集装置。

优选地，所述图像采集装置用于录制诊疗师与被测试者的交互过程，且图像采集装置共包括2个RGB-D摄像头，其中一个摄像头安装于场景的顶端，另一个为隐秘放置于诊疗师或家长身旁15cm左右，镜头朝向孩子，将孩子的头部和上半身置于取景框中央。

优选地，所述音频采集装置用于录制诊疗师与被测试者的交互过程的音频信息，其以钢笔形态放置于诊疗师的胸前。

进一步地，步骤（4）中，所述生活视频最好是在被测试者在无意识、独处情况下进行拍摄，每段视频具有一定的时长，并依次进行上传。同时，为了尽可能的减少所拍摄视频的差异，优选在家长与被测试者保持一定的距离的情况下进行拍摄，为此，所述自由生活视频上传模块对拍摄画面中被测试者占整个画面的比例判断视频拍摄距离是否合理，如果不合理，则进行提醒。

进一步地，步骤（5）中，所述视觉关系检测模块不再仅仅是通过被测试者的头部朝向、目光朝向、面部表情、姿势、位置、手势等信息进行被测试者的社交能力评估，而是进一步地对被测试者与物体之间进行视觉关系检测，更加准确的理解其交互过程，从而更为精确地评估其社交能力。特别地，将视频序列分解为一定帧数的视频片段，相邻片段之间也重叠一定的帧数，然后，分别通过人体检测单元、人体骨架点检测单元以及物体检测单元对每一帧进行目标检测，在每个片段上进行人或物体轨迹的抽取，提取对应的时空特征和相关性特征，并进行短期视觉关系的识别，最后，使用贪婪算法将从连续视频片段中检测到的所有短期视觉关系实例合并产生完整的视觉关系。进一步地，该视觉关系通过文本特征提取单元进行特征提取，用于对被测试者的社交能力进行评估。

进一步地，步骤（6）中，所述多模态特征提取模块包括：语音识别单元、文本特征提取单元、人体检测识别单元、人体骨架点检测单元、物体检测单元和时空特征提取单元。其中：

所述语音识别提取单元通过语音识别技术对被测试者、诊疗师和被测试者家长的语音进行识别和文本转换，从而获取对应的语音内容。

所述文本特征提取单元通过自然语言处理技术对调查问卷文本内容、以及语音转换为文本的内容进行特征提取，为后续的联合训练提供基础。

所述人体检测识别单元通过机器学习技术对半结构视频和自由上传视频中的人体进行检测，并对诊疗师或家长、被测试者进行识别。

所述人体骨架点检测单元通过深度学习技术对诊疗师或家长、被测试者进行进一步的人体骨架点检测，为后续视觉关系检测提供帮助。

所述物体检测单元通过小目标检测技术对视频中已定义物体进行检测，并输出对应的位置和类别。

所述时空特征提取单元用于通过三维时空卷积网络对每个视频片段提取对应的时空特征。

进一步地，步骤（7）中，所述孤独症患者画像模型的构建包括如下步骤：首先，调查问卷特征不再是某个固定分数，而是问卷中每个条目发生的频率或存在性，使用对应条目的特征向量参与后续的训练。其次，家长自由表述语音通过语音识别技术进行识别和文本转换，从而获取对应的语音内容，然后通过自然语言处理技术对其进行特征提取，其提取过程融入整个网络模型中。再次，针对半结构视频，通过视觉关系检测模块提取被测试者与物体的关系，获得对应的关系描述词汇，然后也通过自然语言处理技术对其进行文本特征提取，其提取过程也融入整个网络模型中；然后，针对自由生活视频，首先将每个生活视频分为一定帧数的视频片段，相邻片段之间重叠一定的帧数，其次通过时空特征提取单元提取对应的时空特征，再次通过分类器模型对被测试者是否存在刻板行为进行判断，其输出应用于后续的计算；最后，调查问卷特征与其它层级特征的通过全连接层进行融合，并进行联合训练，获得对应的孤独症画像模型。

进一步地，步骤（8）中，所述孤独症患者画像评估模块根据被测试者家长上传的调查问卷、家长语音阐述、自由生活视频、半结构化场景采集的视频等多层级的数据、已经训练好的孤独症患者画像模型，对被测试者孤独症谱系障碍进行画像，供专业人员参考。

本发明与现有技术相比，本发明具有如下的有益效果：

（1）本发明从孤独症患者的实际情况以及无偏评估的需要出发，通过家长、诊疗师和被试者本身等多个层级的多维度关键特征对被测试者进行评估，并充分挖掘它们的潜在关联，实现孤独症患者谱系障碍画像的精准构建，供专业医务人员参考，此外，在被测试者社交能力评估过程中通过半结构化视频以及更为准确的视觉关系检测进行评估，使评估结果更为精确。

（2）本发明提出了一种基于多层级关键特征行为的孤独症患者画像方法、装置及系统，通过家长、诊疗师和被试者本身等多个层级的多维度关键特征对被测试者进行评估，并挖掘它们的关联性，实现孤独症患者谱系障碍画像的精准构建。

（3）本发明提出了基于视觉关系检测的孤独症社交能力评估方法，该方法不再仅仅是通过被测试者的头部朝向、目光朝向、面部表情、姿势、位置、手势等信息进行被测试者的社交能力评估，而是进一步地对被测试者与物体之间进行视觉关系检测，并通过这些视觉关系更加准确的理解其交互过程，从而更为精确地评估其社交能力。

（4）本发明提出了通过知识图谱和机器学习技术对典型的孤独症评估量表进行深入分析，挖掘不同评估量表条目之间的关联和异同，并结合真实案例进行验证，设计更为合理的综合能力评估量表，此外，调查问卷特征不再是某个固定分数，而是问卷中每个条目发生的频率或存在性，且对应条目的向量参与后续的训练。

（5）本发明提出了半结构化的被测试者社交能力评估活动，在某特定自然场景下，通过与被测试者按照半结构化的设置进行不同程度的交互活动，并通过这些半结构化活动对被测试者的社交能力进行评估。

（6）本发明提出了通过多个隐秘的音视频采集设备录制诊疗师与被测试者的交互过程，其中一个RGB-D摄像头安装于场景的顶端，另一个RGB-D摄像头隐秘放置于诊疗师或家长身旁，此外，音频采集装置，用于录制诊疗师与被测试者的交互过程的音频信息，其以便于随身携带的形态放置于诊疗师的胸前。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于多层级关键特征行为的孤独症患者画像方法中半结构化场景设置的视频录制设备安装示意图。

图2为本发明基于多层级关键特征行为的孤独症患者画像方法的结构框图。

图3为本发明基于多层级关键特征行为的孤独症患者画像方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。下面结合附图对本发明作进一步的描述。

参阅图1和图2，示例一种基于多层级关键特征行为的孤独症患者画像方法，其包括：调查问卷设计和采集模块10、家长语音自由表述采集模块20、半结构化视频采集模块30、自由生活视频上传模块40、视觉关系检测模块50、多模态特征提取模块60、孤独症患者画像联合训练模块70以及孤独症患者画像评估模块80，其中：

对于所述调查问卷设计和采集模块10，首先通过知识谱图和机器学习技术，对孤独症典型评估量表进行深入分析和实践，挖掘不同评估量表条目之间的关联和异同，并结合真实案例进行验证，设计更为合理的综合能力评估量表。此外，考虑到调查问卷的条目不能太多，否则家长会失去耐心，最后，通过该量表采集被测试者的综合能力调查问卷数据，获得更为合理和准确的评估被测试者的综合能力评估数据。特别地，目前存在很多孤独症谱系障碍筛查和评估量表，这些量表中存在很多不同的条目，但是哪些条目与孤独症谱系障碍评估存在更大的关联，哪些条目是孤独症患者会同时出现，这些问题还不够明确，因此，考虑到知识图谱是一种用图模型来描述知识和建模世界万物之间的关联关系的技术方法，且由节点和边组成，因此，本实施例通过知识图谱技术为不同量表中所有条目构建一个大规模语义网络，以这些不同量表中的条目作为节点或实体，通过它们的语义关系相连接，即关联作为边。通过发掘实体之间的关联，发掘深层关系，从而构建新的调查问卷，并通过该量表采集被测试者的综合能力调查问卷数据，获得更为合理和准确的被测试者综合能力评估数据。另外，在家长填写调查问卷时，将被测试者发生某种情况的频率作为调查问卷数据，即0表示从未发生、1表示偶尔发生1~2次、2表示发生次数较多、3表示非常频繁，这些数字将作为特征向量参与后续的联合训练。关于知识图谱的构建具体参考以下文献：

[1] https://www.cnblogs.com/coodream2009/p/10242442.html。

[2] https://blog.csdn.net/lairongxuan/article/details/100527179。

对于所述家长语音自由表述采集模块20，考虑到调查问卷仅仅是对常见情况进行调查，不可能面面俱到，家长可能需要对某些重要情况进行补充和重点阐述，其次，由于地域和习俗差异，家长对调查问卷某些条目的理解可能存在差异，此外，考虑到家长对被测试者最为熟悉，增加家长语音自由表述部分可以让家长充分地阐述被测试者的日常表现。

特别地，在家长自由表述中，其叙述时长控制在3~5分钟为宜，另外，考虑到语音识别技术的限制，建议家长尽可能的使用普通话进行讲述。如果某些家长不会讲普通话，建议让其他邻居或家人对其进行翻译。

对于半结构化视频采集模块30，对于被测试者的社交能力，非专业人士可能无法对其进行准确判断，尤其是偏远山区或文化层次较低的家长，因此，通过半结构化的自然场景设置，诊疗师与被测试者进行不同程度的交互，采集录制相应的视频，并上传到平台，后续将根据这些诊疗师深度参与的视频进行其社交能力的评估。特别地，半结构化的交互活动包括玩叫名活动、询问吃零食活动、玩小球活动、玩小汽车活动、玩打电话活动、玩毛绒玩具活动、玩笑容回应、玩手势模仿活动和玩拍手活动等，同时，在诊疗师与被测试者进行交互前，可以事先与被测试者陪伴、交流和玩耍一会，增加亲近感，便于后续的交流；如果诊疗师能够顺利的和被测试者进行交互，那么所有活动由诊疗师和被测试者进行，但是如果被测试者仍然胆小或者胆怯，无法与陌生人正常交流的话，则由其家长代为完成。

在每次交互活动中，先由诊疗师告诉被测试者具体玩什么活动，然后，诊疗师开始具体的活动，等待被测试者的回应。如果被测试者能够快速反应，那么待他做出反应动作后，停止对应的拍摄；如果被测试者没有及时的反应，那么可以继续等待，在等待过程中诊疗师可以重复以上的动作，最多重复4次，但是整个过程拍摄时长最多为2分钟。

在半结构化视频录制时，通过视频采集装置录制诊疗师与被测试者的交互过程，总共包括2个RGB-D摄像头，其中一个摄像头安装于场景的顶端，另一个为隐秘放置于诊疗师或家长身旁15cm左右，镜头朝向孩子，将孩子的头部和上半身置于取景框中央。通过音频采集装置录制诊疗师与被测试者的交互过程的音频信息，其以便于随身携带的形态放置于诊疗师的胸前。

对于所述自由生活视频上传模块40，考虑到某些行为范式，例如，刻板动作或不恰当行为，一般在熟悉的环境下才可能会发生，因此，该模块用于家长将被测试者某一天的某些日常生活视频上传到平台；这些视频最好是在被测试者无意识的、独处情况下进行拍摄，建议拍摄5-10段，每段视频长度3~10分钟，并依次进行上传；同时，为了尽可能的减少所拍摄视频的差异，建议家长距离被测试者3~5米；系统将根据视频中被测试者占整个画面的比例进行判断，如果该比例大于某个阈值T1或小于某个阈值T2，建议家长应该远离或靠近被测试者，重新拍摄视频并上传；此外，考虑到光线亮暗问题，建议家长在白天或者晚上亮灯的情况下进行拍摄；特别地，家长重点观察被测试者是否存在以下刻板行为，例如，原地转圈、反复拉抽屉、反复抬头低头、反复扑动双手、反复摇摆身体、来回下蹲、反复开关门、来回上下楼梯、来回奔跑、来回转动物品。

对于所述视觉关系检测模块50，在很多孤独症谱系障碍算法的社交能力评估中，通过被测试者的头部朝向、目光朝向、面部表情、姿势、位置、手势等信息对被测试者的社交能力进行评估，然而，这些信息缺乏与物体的交互信息，存在较大的误差，因此，该模块通过对被测试者与物体之间的视觉关系进行检测，例如，“小孩-远离-汽车”、“小孩-靠近-小球”、“小孩-接打-电话”等，更加准确的理解其交互过程，并使用这些关系进行更加准确的社交能力评估。在实际应用中，将半结构化视频序列分解为16帧的视频片段，相邻片段之间重叠8帧，然后，分别通过人体检测单元、人体骨架点检测单元以及物体检测单元对每一帧进行目标检测，在每个片段上进行人或物体轨迹的抽取，提取对应的时空特征、位置特征以及相关性特征，并进行短期视觉关系的识别，最后，使用贪婪算法将从连续视频片段中检测到的所有短期视觉关系实例合并产生完整的视觉关系，进一步地，该视觉关系通过文本特征提取单元进行特征提取，用于对被测试者的社交能力进行评估；特别地，在视觉关系三元组<主语，谓语，宾语>中，主语通过目标检测进行获取，它们分别为诊疗师的手、被测试者的手，谓语主要为远离、靠近和接触，宾语主要为零食、小球、被测试者的嘴、小汽车、电话、耳朵、毛绒玩具、被测试者的手等，通过视觉关系检测方法对以上三元组进行检测，例如，“诊疗师的手-接近-小球”、“诊疗师的手-接触-小球”、“诊疗师的手-远离-小球”、“被测试者的手-接近-小球”、“被测试者的手-接触-小球”、“被测试者的手-远离-小球”，这样，就可以推断被测试者是否按照诊疗师的半结构化设置进行“玩小球活动”，最后，使用贪婪算法将从连续视频片段中检测到的所有短期视觉关系实例合并产生完整的视觉关系，形成完整的文本短语信息。具体的视觉关系检测方法参考：Shang X, Ren T, Guo J, et al. VideoVisual Relation Detection[C]// the 2017 ACM. ACM, 2017。

对于所述多模态特征提取模块60，该模块用于对采集的家长音频数据、半结构化的视频数据、自由生活视频数据进行语音识别、人体检测识别、人体骨架点检测以及物体检测，同时，进行文本特征、图像特征和时空特征的提取。所述多模态特征提取模块包括：语音识别单元、文本特征提取单元、人体检测识别单元、人体骨架点检测单元、物体检测单元和时空特征提取单元。

所述语音识别单元通过语音识别技术对被测试者、诊疗师和被测试者家长的语音进行识别和文本转换，从而获取对应的语音内容；特别地，对被测试者家长的语音通过语音识别进行普通话和方言的识别，如果所上传语音为方言，建议更换为普通话，此外，该模块还对被测试者和诊疗师的笑声进行识别；

所述文本特征提取单元通过自然语言处理技术对调查问卷文本内容、以及语音转换为文本的内容进行特征提取，为后续的联合训练提供基础；在文本特征提取过程中，使用目前最为先进的Transformer特征提取器，重点使用了Multi-head注意力机制，具体参见以下两篇论文：

[1] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, LlionJones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin:Attention is All youNeed. NIPS 2017: 5998-6008.

[2] https://segmentfault.com/a/1190000017777183.

所述人体检测识别单元通过机器学习技术对半结构视频和自由上传视频中的人体进行检测，并对诊疗师或家长、被测试者进行识别；特别地，首先通过社交网络上公开的人体数据对Yolo-V4进行预训练，然后，使用海量监控视频中的人体数据对其进行微调，从而获得性能良好的人体检测器，此外，为了能够更好的区分成人和儿童，构建了一个简单的深度学习网络，用来识别成人和儿童。人体检测器Yolo-V4的详细信息参考：https://arxiv.org/pdf/2004.10934.pdf

所述人体骨架点检测单元通过深度学习技术对诊疗师或家长、被测试者进行进一步的人体骨架点检测，这是因为在视觉关系检测的过程中，其主语和宾语可能为诊疗师的手、诊疗师的儿童、诊疗师的嘴、被测试者的手、被测试者的耳朵和被测试者的嘴等信息，通过这些人体骨架点目标的位置信息，可以很好的估计出三元组“主语-谓语-宾语”，从而可以为后续视觉关系检测提供帮助；在人体骨架点检测时，使用了开源的OpenPose代码，具体可以参考：

[1]. Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh: Realtime Multi-person 2D Pose Estimation Using Part Affinity Fields. CVPR 2017: 1302-1310.

[2] https://github.com/CMU-Perceptual-Computing-Lab/openpose.

所述物体检测单元，由于在半结构化视频中需要对三元组的视觉关系进行检测，其中宾语包括零食、小球、小汽车、电话、耳朵和毛绒玩具等，这些目标在视频中相对都比较小，使用常规的YOLO技术无法对其进行目标检测，常常出现漏检现象，因此，针对小目标检测的特殊需求，通过数据增强、复制粘贴等策略对其数据进行扩充，然后，在YoloV5的技术上，通过Transformer和自注意力机制技术对不同尺度物体进行检测，提高小目标的检测精度，减少漏检率，从而达到小目标检测的需求，具体参考文献可以参见：

Xingkui Zhu, Shuchang Lyu, Xu Wang, Qi Zhao:TPH-YOLOv5, ImprovedYOLOv5 Based on Transformer Prediction Head for Object Detection on Drone-captured Scenarios. CoRR abs/2108.11539, 2021

所述时空特征提取单元用于通过三维时空卷积网络对自由上传视频以及半结构视频提取对应的时空特征；特别地，对所有的16帧分段视频通过P3D网络进行时空特征提取，并通过P3D网络最后的全链接层输出时空特征，其特征维度为512。具体P3D网络的技术细节见参考文献Qiu Z , Yao T , Mei T . Learning Spatio-Temporal Representationwith Pseudo-3D Residual Networks[C]// 2017 IEEE International Conference onComputer Vision (ICCV). IEEE, 2017.

对于所述孤独症患者画像联合训练模块70，该模块使用带标签的多层级数据对孤独症谱系障碍画像模型进行联合训练，实现基于多层级关键特征行为的孤独症患者画像模型的构建；具体地，首先，调查问卷特征不再是某个固定分数，而是问卷中每个条目发生的频率或存在性，使用对应条目的特征向量参与后续的训练；其次，家长自由表述语音通过语音识别技术进行识别和文本转换，从而获取对应的语音内容，然后通过Transformer技术对其进行特征提取，其提取过程融入整个网络模型中；再次，针对半结构视频，通过视觉关系检测模块提取被测试者与物体的关系，获得对应的关系描述词汇，然后也通过Transformer技术对其进行文本特征提取，其提取过程也融入整个网络模型中；然后，针对自由生活视频，首先将每个生活视频分为16帧的视频片段，相邻片段之间重叠8帧，其次通过时空特征提取单元提取对应的时空特征，再次通过分类器模型对被测试者是否存在刻板行为进行判断，其输出应用于后续的计算；特别地，将刻板行为动作进行标记，分别为：0：原地转圈、1：反复拉抽屉、2：反复抬头低头、3：反复扑动双手、4：反复摇摆身体、5：来回下蹲、6：反复开关门、7：来回上下楼梯、8：来回奔跑、9：来回转动物品，10：其它动作，同时，将所有自由生活视频通过分类器对其进行分类，最后，将所有视频的分类概率取最大值，并构成11维的刻板行为向量，用于后续的联合训练；最后，调查问卷特征与其它层级特征通过全连接层进行融合，并进行联合训练，获得对应的孤独症画像模型，具体参加图3；特别地，考虑到某些地方方言无法识别，可以对画像模型进行删减，删除对应的自由阐述部分，采用相同的方法进行画像模型训练；

对于所述孤独症患者画像评估模块80，根据被测试者家长上传的调查问卷、自由叙述、生活视频以及半结构化场景采集的视频数据、已经训练好的多层级关键特征行为的孤独症患者画像模型，对被测试者孤独症谱系障碍进行画像，供专业人员参考；

本实施例中首先通过知识图谱技术挖掘不同调查问卷条目与孤独症谱系障碍的关联，设计更为符合要求的调查问卷，同时，考虑到调查问卷不可能面面俱到，家长可能需要对某些重要情况进行补充，因此，增加了家长语音自由阐述部分，其次，对于被测试者的社交能力评估，非专业人士可能无法对其进行准确判断，因此，设计了半结构场景对被测试者的社交能力进行评估，最后，考虑到某些行为范式，例如，刻板动作或不恰当行为，一般在熟悉的环境下才可能会发生，因此，增加了被测试者的自由生活视频分析环节。这样，通过家长、诊疗师和被试者本身等多个层级的多维度关键特征对被测试者进行评估，并充分挖掘它们的潜在关联，实现孤独症患者谱系障碍画像的精准构建，供专业医务人员参考，此外，在被测试者社交能力评估过程中通过更为准确的视觉关系检测进行评估，评估更为精确。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于多层级关键特征行为的孤独症患者画像方法，其特征在于，包括如下步骤：

（1）通过调查问卷设计和采集模块中的综合能力评估量表采集被测试者的综合能力调查问卷数据；

（2）家长通过家长语音自由表述模块录制并上传被测试者的日常表现的音频；

（3）通过半结构化视频采集模块中的半结构化的自然场景设置与被测试者进行不同程度的交互录制相应的视频，并上传到平台；

（4）通过自由生活视频上传模块被测试者某一天的某些日常生活视频上传到平台；

（5）通过视觉关系检测模块对被测试者与物体之间进行视觉关系检测，从而更加准确的评估被测试者的社交能力；

（6）通过多模态特征提取模块对上述采集到的家长自由表述音频数据、半结构化的视频数据、自由生活视频数据进行语音识别、人体检测识别、人体骨架点检测以及物体检测，并进行文本特征、图像特征和时空特征的提取；

（7）通过孤独症患者画像联合训练模块中带标签的多层级数据对孤独症谱系障碍画像模型进行联合训练，构建基于多层级关键特征行为的孤独症患者画像模型；

（8）利用孤独症患者画像评估模块，并根据上传的所述调查问卷、家长自由表述音频、自由生活视频以及半结构化场景采集的视频数据、已经训练好的孤独症患者画像模型，对被测试者孤独症谱系障碍进行画像；

2.根据权利要求1所述的基于多层级关键特征行为的孤独症患者画像方法，其特征在于，步骤（1）中，所述调查问卷设计和采集模块通过知识图谱和机器学习技术对典型的孤独症评估量表进行深入分析，挖掘不同评估量表条目之间的关联和异同，并结合真实案例进行验证，设计综合能力评估量表。

3.根据权利要求1所述的基于多层级关键特征行为的孤独症患者画像方法，其特征在于，步骤（3）中，通过与被测试者按照半结构化的设置进行不同程度的交互，其中半结构化的交互活动为预先定义的交互动作，然后，通过不同传感器采集录制相应的半结构化视频，并上传到平台，后续将根据这些视频通过机器学习算法进行其社交能力的评估。

4.根据权利要求3所述的基于多层级关键特征行为的孤独症患者画像方法，其特征在于，步骤（3）中，还包括半结构化视频录制时的图像采集装置和音频采集装置；

优选地，所述图像采集装置用于录制诊疗师与被测试者的交互过程，且图像采集装置共包括2个RGB-D摄像头，其中一个摄像头安装于场景的顶端，另一个为隐秘放置于诊疗师或家长身旁15cm，镜头朝向孩子，将孩子的头部和上半身置于取景框中央；

5.根据权利要求1所述的基于多层级关键特征行为的孤独症患者画像方法，其特征在于，步骤（4）中，所述生活视频最好是在被测试者在无意识、独处情况下进行拍摄，每段视频具有一定的时长，并依次进行上传；同时，为了尽可能的减少所拍摄视频的差异；

优选地，家长与被测试者保持一定的距离的情况下进行拍摄，为此，所述自由生活视频上传模块对拍摄画面中被测试者占整个画面的比例判断视频拍摄距离是否合理，如果不合理，则进行提醒。

6.根据权利要求1所述的基于多层级关键特征行为的孤独症患者画像方法，其特征在于，步骤（5）中，所述视觉关系检测模块不仅通过被测试者的头部朝向、目光朝向、面部表情、姿势、位置、手势等信息进行被测试者的社交能力评估，而且对被测试者与物体之间进行视觉关系检测。

7.根据权利要求6所述的基于多层级关键特征行为的孤独症患者画像方法，其特征在于，将视频序列分解为一定帧数的视频片段，相邻片段之间也重叠一定的帧数，然后，分别通过人体检测单元、人体骨架点检测单元以及物体检测单元对每一帧进行目标检测，在每个片段上进行人或物体轨迹的抽取，提取对应的时空特征和相关性特征，并进行短期视觉关系的识别，最后，使用贪婪算法将从连续视频片段中检测到的所有短期视觉关系实例合并产生完整的视觉关系；该视觉关系通过文本特征提取单元进行特征提取，用于对被测试者的社交能力进行评估。

8.根据权利要求1所述的基于多层级关键特征行为的孤独症患者画像方法，其特征在于，步骤（6）中，所述多模态特征提取模块包括：语音识别单元、文本特征提取单元、人体检测识别单元、人体骨架点检测单元、物体检测单元和时空特征提取单元。

9.根据权利要求8所述的基于多层级关键特征行为的孤独症患者画像方法，其特征在于，所述语音识别提取单元通过语音识别技术对被测试者、诊疗师和被测试者家长的语音进行识别和文本转换，从而获取对应的语音内容；

所述文本特征提取单元通过自然语言处理技术对调查问卷文本内容、以及语音转换为文本的内容进行特征提取，为后续的联合训练提供基础；

所述人体检测识别单元通过机器学习技术对半结构视频和自由上传视频中的人体进行检测，并对诊疗师或家长、被测试者进行识别；

所述人体骨架点检测单元通过深度学习技术对诊疗师或家长、被测试者进行进一步的人体骨架点检测，为后续视觉关系检测提供帮助；

所述物体检测单元通过小目标检测技术对视频中已定义物体进行检测，并输出对应的位置和类别；

10.根据权利要求1-9任一项所述的基于多层级关键特征行为的孤独症患者画像方法，其特征在于，步骤（7）中，所述孤独症患者画像模型的构建包括如下步骤：首先，调查问卷特征是问卷中每个条目发生的频率或存在性，使用对应条目的特征向量参与后续的训练；其次，家长自由表述语音通过语音识别技术进行识别和文本转换，从而获取对应的语音内容，然后通过自然语言处理技术对其进行特征提取，其提取过程融入整个网络模型中；再次，针对半结构视频，通过视觉关系检测模块提取被测试者与物体的关系，获得对应的关系描述词汇，然后也通过自然语言处理技术对其进行文本特征提取，其提取过程也融入整个网络模型中；然后，针对自由生活视频，首先将每个生活视频分为一定帧数的视频片段，相邻片段之间重叠一定的帧数，其次通过时空特征提取单元提取对应的时空特征，再次通过分类器模型对被测试者是否存在刻板行为进行判断，其输出应用于后续的计算；最后，调查问卷特征与其它层级特征的通过全连接层进行融合，并进行联合训练，获得对应的孤独症画像模型。