CN114974571B

CN114974571B - 多模态数据驱动的孤独症检测系统、设备及存储介质

Info

Publication number: CN114974571B
Application number: CN202210623471.2A
Authority: CN
Inventors: 舒强; 徐佳露; 李晨曦; 阮雯聪; 李海峰; 肖俊
Original assignee: Childrens Hospital of Zhejiang University School of Medicine
Current assignee: Childrens Hospital of Zhejiang University School of Medicine
Priority date: 2022-05-27
Filing date: 2022-06-02
Publication date: 2023-03-24
Anticipated expiration: 2042-06-02
Also published as: CN114974571A

Abstract

本发明公开了一种多模态数据驱动的孤独症检测系统、设备及存储介质，属于人工智能辅助医疗领域。该方法首先收集输入的多模态数据，主要包含问卷回答、脑部磁共振成像和日常生活视频；然后将得到的多模态数据分别通过文本特征提取模块、图像特征提取模块和视频特征提取模块进行特征抽取，初步得到表征孤独症相关的多模态特征；最后通过基于注意力机制的特征融合网络，进一步处理多模态特征，得到孤独症相关信息的综合特征，将其输入分类器来预测儿童患有孤独症的概率。本发明输入多模态特征，并利用注意力机制更好地融合各模态之间的信息，更准确地预测儿童是否患有孤独症。

Description

多模态数据驱动的孤独症检测系统、设备及存储介质

技术领域

本发明属于人工智能辅助医疗领域，尤其涉及自然语言处理中的文本特征编码、计算机视觉中的图像和视频特征编码等技术。

背景技术

孤独症谱系障碍(Autistic Spectrum Disorder,ASD)是一种医疗费用很高的神经发育障碍，早期诊断可以显著减少这些费用。但是，传统的ASD诊断存在等待时间较长、诊断程序不够有效的问题。考虑到孤独症的经济影响和近年来ASD病例数量的增加，我们迫切地需要一个易于实施且有效的孤独症检测方法。

现有的人工智能辅助ASD检测输入主要为单一的数据源，有基于问卷数据的检测、基于人体关键点的检测、基于脑成像的检测、基于面部表情的检测和基于注视点的检测。只基于单一数据的检测，由于输入信号单一，可能会受到输入信号不准确导致误检测的情况，而多模态数据输入能综合各模态输入数据，使检测的结果准确性和可靠性有较大提升。

此外，现有的人工智能辅助ASD检测的很多工作还是基于传统机器学习的技术，总体性能不高。本发明吸收了深度学习的模型方法，并引入注意力机制，有效地提升了ASD检测模型的性能。

发明内容

本发明的目的是为了有效检测孤独症谱系障碍，并提供一种多模态数据驱动的孤独症检测系统、设备及存储介质。

为了实现上述发明目的，本发明具体采用如下的技术方案：

第一方面，本发明提供了一种多模态数据驱动的孤独症检测系统，其包括：

多模态数据收集模块，用于收集输入的多模态数据；所述多模态数据包含针对检测对象的三类数据，其中第一类数据为通过孤独症筛查问题问卷获取的问卷回答，第二类数据为儿童脑部的磁共振成像，第三类数据为儿童的日常生活视频；

特征提取模块，用于将多模态数据收集模块中收集的第一类数据、第二类数据、第三类数据分别通过文本特征提取网络、图像特征提取网络和视频特征提取网络进行特征抽取，得到表征儿童孤独症相关信息的多模态特征；

预测模块，用于通过基于注意力机制的特征融合网络，对所述多模态特征进行融合，得到表征儿童孤独症相关信息的综合特征，并将所述综合特征输入一个二分类器，得到检测对象是否患有孤独症的检测结果。

作为上述第一方面的优选，所述多模态数据收集模块包括问卷调查模块、磁共振图像获取模块和视频获取模块；

所述问卷调查模块，用于供儿童监护人填写预先设计的调查问卷，并从调查问卷的回收数据中提取儿童个人信息以及针对孤独症筛查问题所填写的回答信息，所有提取的信息存储至检测对象的数据表中；

所述磁共振图像获取模块，用于读入儿童脑部的磁共振成像；

所述视频获取模块，用于获取由儿童监护人拍摄的儿童的日常生活视频，并对视频中出现的人物以及面部清晰度进行检测，若视频中出现儿童以外的人物或者儿童的面部表情清晰度不满足要求，则提示重新上传仅有儿童出现且儿童的面部表情清晰度满足要求的日常生活视频。

作为上述第一方面的优选，所述特征提取模块包括文本特征提取模块、图像特征提取模块和视频特征提取模块；

所述文本特征提取模块，用于对第一类数据中的文本信息进行特征提取，其中所述儿童个人信息中的年龄和性别以及所述回答信息中是非题答案均进行0-1编码后直接拼接，再通过前馈神经网络获得第一文本特征，而所述回答信息中描述性问题的回答文本通过词嵌入网络获取第二文本特征，第一文本特征和第二文本特征拼接后输入一个文本特征提取网络中，抽取得到问卷回答中的问卷文本特征F_text；

所述图像特征提取模块，用于将第二类数据中的儿童脑部磁共振成像输入一个图像特征提取网络中，提取得到儿童脑部磁共振成像的脑成像图像特征F_img；

所述视频特征提取模块，用于将第三类数据中的儿童日常生活视频输入一个预训练好的人脸识别器并从视频的每一帧里识别对应的面部区域，再从所有帧中截取识别到的面部区域并分别输入一个面部特征提取网络中，获取视频对应的面部特征

其中T为视频的总帧数，H、W、C分别为视频帧的高度、宽度和通道数；同时，将第三类数据中的儿童日常生活视频整体输入一个行为特征提取网络中，获取视频对应的行为特征/>

作为上述第一方面的优选，所述文本特征提取网络为前馈神经网络；所述图像特征提取网络为卷积神经网络(Convolutional Neural Networks,CNN)；所述面部特征提取网络和所述行为特征提取网络均为3维卷积网络。

作为上述第一方面的优选，所述预测模块中，得到预测结果的具体步骤如下：

S31：将问卷文本特征F_text和脑成像图像特征F_img进行拼接后通过前馈神经网络，得到融合特征F_fusion；

S32：引入空间注意力机制，利用所述融合特征F_fusion作为查询信号，分别获取所述面部特征和所述行为特征在空间维度上的空间注意力权重，进一步得到空间注意力机制处理后的面部特征

和空间注意力机制处理后的行为特征/>

S33：引入时间注意力机制，利用所述融合特征F_fusiob作为查询信号，基于空间注意力机制处理后的面部特征

和行为特征/>

分别获取面部特征和行为特征在时间维度上的注意力权重，进一步得到时间注意力机制处理后的面部特征F_face∈R^C和时间注意力机制处理后的行为特征F_act∈R^C；

S34：将面部特征F_face和行为特征F_act分别通过融合注意力网络得到C维的面部特征权重

和C维的行为特征权重/>

两个权重组合得到权重/>

后通过softmax操作使得每一维对应的面部特征和行为特征的权重和为1，最终得到权重λ∈R^C×2；将面部特征F_face和行为特征F_act拼接为视频组合特征F_comb∈R^C×2，最后利用该权重λ对视频组合特征的特征维度进行加权求和，得到最终的视频特征F_video；

S35：将融合特征F_fusion和视频特征F_video拼接后通过一个二分类器，输出视频中的儿童是否患有孤独症的检测结果。

作为上述第一方面的优选，所述空间注意力机制和时间注意力机制均采用比例点积注意力机制(Scaled Dot-Product Attention)，其公式如下：

其中，d_k为键序列K的特征维度，两个注意力机制的查询序列Q均为F_fusion，两个注意力机制中键序列K均保持与值序列V相同；在空间注意力机制中，K和V均为基于空间序列的面部特征或行为特征；在时间注意力机制中，K和V均为经过空间注意力机制处理后的基于时间序列的面部特征或行为特征。

作为上述第一方面的优选，所述的融合注意力网络为前馈神经网络，输出维度大小为C；所述的二分类器为前馈神经网络，输出维度大小为2。

第二方面，本发明提供了一种计算机电子设备，其包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，能利用如第一方面任一方案所述的多模态数据驱动的孤独症检测系统输出所述检测结果。

第三方面，本发明提供了一种计算机可读存储介质，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，能利用如第一方面任一方案所述的多模态数据驱动的孤独症检测系统输出所述检测结果。

第四方面，本发明提供了一种孤独症检测设备，其包括数据录入装置和检测设备；

所述数据录入装置，用于通过GUI界面和输入设备供用户输入所述多模态数据；

所述检测设备，用于读取所述数据录入装置输入的多模态数据，并利用如第一方面任一方案所述的多模态数据驱动的孤独症检测系统，输出所述检测结果。

相对于现有技术而言，本发明的有益效果如下：

本发明提出了一种多模态数据驱动的孤独症检测方法，可利用获取的问卷回答、磁共振脑成像以及生活视频等多模态的信息，通过深度学习的模型来综合地检测孤独症谱系障碍。本发明的发明构思是基于注意力机制等深度学习方法编码和融合多模态数据，得到能有效检测孤独症的特征编码，最终判断儿童是否患有孤独症。

附图说明

图1为一种多模态数据驱动的孤独症检测系统的组成模块示意图。

图2为一种多模态数据驱动的孤独症检测方法的整体流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施例的限制。本发明各个实施例中的技术特征在没有相互冲突的前提下，均可进行相应组合。

本发明的核心是基于注意力机制和深度神经网络融合输入多模态特征，以达到准确预测孤独症病患可能性。下面对本发明的具体实现过程进行详细阐述。

参见图1所示，在本发明的一个较佳实施例中，提供了一种多模态数据驱动的孤独症检测系统，其包括多模态数据收集模块、特征提取模块和预测模块三部分。下面分别对多模态数据收集模块、特征提取模块和预测模块的具体功能和实现形式进行详细描述。

多模态数据收集模块，用于收集输入的多模态数据；所述多模态数据包含针对检测对象的三类数据，其中第一类数据为通过孤独症筛查问题问卷获取的问卷回答，第二类数据为儿童脑部的磁共振成像，第三类数据为儿童的日常生活视频。

特征提取模块，用于将多模态数据收集模块中收集的第一类数据、第二类数据、第三类数据分别通过文本特征提取网络、图像特征提取网络和视频特征提取网络进行特征抽取，得到表征儿童孤独症相关信息的多模态特征。

需要说明的是，上述多模态数据收集模块中，对于多模态数据的收集形式可以是多样的，例如可以直接从其他数据存储设备或者信息录入设备的已存储数据中读取，也可以在线进行收集，因此其收集方式可根据实际情况而定。

需要说明的是，上述第一类数据中，孤独症筛查问题问卷的具体形式并不做限定，可根据孤独症诊断领域的专家经验或者标准进行设计。本发明中需要孤独症筛查问题问卷获取的问卷回答，其包含的信息维度应当与孤独症诊断相关，具体可由相关领域专家进行辅助筛选。上述第二类数据中，儿童脑部的磁共振成像可通过磁共振设备在线获取，或者有存储磁共成像的数据库中读取，亦可由儿童监护人上传。上述第三类数据建议由儿童监护人拍摄后进行上传。

作为本发明实施例的一种较佳实现方式，上述多模态数据收集模块包括问卷调查模块、磁共振图像获取模块和视频获取模块。

其中，问卷调查模块，用于供儿童监护人填写预先设计的调查问卷，并从调查问卷的回收数据中提取儿童个人信息以及针对孤独症筛查问题所填写的回答信息，所有提取的信息存储至检测对象的数据表中。问卷调查模块可以以GUI界面的形式提供个人信息和回答信息的输入功能，用户可以远程或者本地输入相关的信息。

其中，磁共振图像获取模块，用于读入儿童脑部的磁共振成像。磁共振图像的来源可以是用户自行输入的，也可以从磁共振设备或者存储磁共振成像结果的服务器上读取。

其中，视频获取模块，用于获取由儿童监护人拍摄的儿童的日常生活视频，并对视频中出现的人物以及面部清晰度进行检测，若视频中出现儿童以外的人物或者儿童的面部表情清晰度不满足要求，则提示重新上传仅有儿童出现且儿童的面部表情清晰度满足要求的日常生活视频。日常生活视频的来源可以由用户上传，也可以从视频采集设备中在线采集。

因此，上述问卷调查模块、磁共振图像获取模块和视频获取模块。均可以是纯软件模块形式的信息获取模块，也可以是软硬件结合的信息输入及传输设备。

作为本发明实施例的一种较佳实现方式，上述多特征提取模块包括文本特征提取模块、图像特征提取模块和视频特征提取模块。

其中，文本特征提取模块，用于对第一类数据中的文本信息进行特征提取。由于调查问卷中可包含三类需填写的问题或信息，包括儿童个人信息、是非题形式的问题、描述性形式的问题，均可由儿童监护人根据儿童的实际情况进行填写。其中所述儿童个人信息中的年龄和性别以及所述回答信息中是非题答案均进行0-1编码后直接拼接，再将拼接结果通过前馈神经网络获得第一文本特征，而所述回答信息中描述性问题的回答文本通过词嵌入网络获取第二文本特征，再将第一文本特征和第二文本特征拼接后输入一个文本特征提取网络中，抽取得到问卷回答中的问卷文本特征F_text。

另外，所述图像特征提取模块，用于将第二类数据中的儿童脑部磁共振成像输入一个图像特征提取网络中，提取得到儿童脑部磁共振成像的脑成像图像特征F_img。

另外，视频特征提取模块，用于将第三类数据中的儿童日常生活视频输入一个预训练好的人脸识别器并从视频的每一帧里识别对应的面部区域，再从所有帧中截取识别到的面部区域并分别输入一个面部特征提取网络中，获取视频对应的面部特征

上述文本特征提取模块、图像特征提取模块和视频特征提取模块中的相关特征提取网络可以根据需要设定。作为本发明实施例的一种较佳实现方式，上述文本特征提取网络可采用前馈神经网络；上述图像特征提取网络可采用卷积神经网络(ConvolutionalNeural Networks,CNN)；上述面部特征提取网络和所述行为特征提取网络均可采用3维卷积网络。

作为本发明实施例的一种较佳实现方式，上述预测模块中，得到预测结果的具体步骤如下：

S32：引入空间注意力机制，利用所述融合特征F_fusion作为查询信号，分别获取所述面部特征和所述行为特征在空间维度上的空间注意力权重，根据空间注意力机制进一步得到空间注意力机制处理后的面部特征

和空间注意力机制处理后的行为特征

S33：引入时间注意力机制，利用所述融合特征F_fusion作为查询信号，基于空间注意力机制处理后的面部特征

和行为特征/>

分别获取面部特征和行为特征在时间维度上的注意力权重，根据时间注意力机制进一步得到时间注意力机制处理后的面部特征F_face∈R^c和时间注意力机制处理后的行为特征F_aCt∈R^C。

和C维的行为特征权重/>

两个权重组合得到权重/>

后通过softmax操作使得每一维对应的面部特征和行为特征的权重和为1(softmax操作后权重的C个维度中，每一个维度的2个特征即面部特征和行为特征的权重之和为0)，最终得到权重λ∈R^C×2；将面部特征F_face和行为特征f_act拼接为视频组合特征F_comb∈R^C×2，最后利用该权重λ对视频组合特征的特征维度进行加权求和，得到最终的视频特征F_videO。

需要说明的是，上述时间注意力机制和空间注意力机制的处理时串行的，也就是先对原始的面部特征

和行为特征/>

采用时间注意力机制进行处理，使其降维至T×c维，然后再进一步对降维后的面部特征/>

和行为特征

进行空间注意力机制处理，使其降维至C维。

在本发明的上述实施例中，空间注意力机制和时间注意力机制均可以采用比例点积注意力机制(Scaled Dot-Product Attention)，其公式如下：

也就是说，在空间注意力机制对面部特征

进行处理时，查询序列Q为F_fusion，K和V均为面部特征/>

按空间进行拆分后的T×C维的面部特征序列；在空间注意力机制对行为特征/>

进行处理时，查询序列Q为F_fusion，K和V均为行为特征/>

按空间进行拆分后的T×C维的行为特征序列；在时间注意力机制对面部特征/>

进行处理时，查询序列Q为F_fusion，K和V均为面部特征

按时间进行拆分后的C维的面部特征序列；在空间注意力机制对行为特征

进行处理时，查询序列Q为F_fusion，K和V均为行为特征/>

按时间进行拆分后的C维的行为特征序列。

进一步的，作为本发明实施例的一种较佳实现方式，上述融合注意力网络可采用前馈神经网络，输出维度大小为C；所述的二分类器可采用前馈神经网络，输出维度大小为2。

综上，本发明可充分利用多模态数据，利用注意力机制和深度神经网络可以很好地融合多模态特征，较好地实现孤独症检测任务。

同样的，基于同一发明构思，本发明的另一较佳实施例中还提供了与上述实施例提供的多模态数据驱动的孤独症检测系统对应的一种计算机电子设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，能利用如前述实施例中所述的多模态数据驱动的孤独症检测系统输出所述检测结果。

同样的，基于同一发明构思，本发明的另一较佳实施例中还提供了与上述实施例提供的多模态数据驱动的孤独症检测系统对应的一种计算机可读存储介质，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，能利用如前述实施例中所述的多模态数据驱动的孤独症检测系统输出所述检测结果。

上述多模态数据驱动的孤独症检测系统中的各模块，在被执行是相当于是按序执行的程序模块，因此其本质上是执行了一种数据处理的流程。具体而言，上述实施例中的计算机程序在被执行时，其相当于执行了一种多模态数据驱动的孤独症检测方法，如图2所示，其过程为：

S1、收集输入的多模态数据；所述多模态数据包含针对检测对象的三类数据，其中第一类数据为通过孤独症筛查问题问卷获取的问卷回答，第二类数据为儿童脑部的磁共振成像，第三类数据为儿童的日常生活视频；

S2、将多模态数据收集模块中收集的第一类数据、第二类数据、第三类数据分别通过文本特征提取网络、图像特征提取网络和视频特征提取网络进行特征抽取，得到表征儿童孤独症相关信息的多模态特征；

S3、通过基于注意力机制的特征融合网络，对所述多模态特征进行融合，得到表征儿童孤独症相关信息的综合特征，并将所述综合特征输入一个二分类器，得到检测对象是否患有孤独症的检测结果。

由于上述多模态数据驱动的孤独症检测方法解决问题的原理与本发明上述实施例的多模态数据驱动的孤独症检测系统相似，因此该实施例中装置的各模块具体实现形式未尽之处亦可可以参见上述系统部分的具体实现形式，重复之处不再赘述。

可以理解的是，上述存储介质、存储器可以采用随机存取存储器(Random AccessMemory，RAM)，也可以采用非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。同时存储介质还可以是U盘、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

可以理解的是，上述的处理器可以是通用处理器，包括中央处理器(CentralProcessing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

另外需要说明的是，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本申请所提供的各实施例中，所述的装置和方法中对于步骤或者模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或步骤可以结合或者可以集成到一起，一个模块或者步骤亦可进行拆分。

同样的，基于同一发明构思，本发明的另一较佳实施例中还提供了与上述实施例提供的多模态数据驱动的孤独症检测系统对应的一种孤独症检测设备，其包括数据录入装置和检测设备；

所述数据录入装置，用于通过GUI界面和输入设备供用户输入所述多模态数据。

所述检测设备，用于读取所述数据录入装置输入的多模态数据，并利用如上述实施例所述的多模态数据驱动的孤独症检测系统进行检测，输出所述检测结果。需要说明的是，前述的数据录入装置可以是通过远程方式供用户输入多模态数据的设备，例如能够显示数据录入GUI界面的网页、软件的计算机，也可以是搭载有相关APP的移动端，或者也可以是本地端的集成设备，集成设备中通过显示器显示网页、软件或者APP供用户输入相关数据。另外，假如磁共振成像等数据需要实时采集，亦可将集成设备通过网络连接访问磁共振成像设备的数据存储服务器。另外，前述的检测设备可以是带有结果提示功能的数据处理设备，例如带有能够通过显示器显示检测结果的计算机，或者能够输出检测结果报告单的计算机，也可以是通过云服务器提供上传视频片段后显示检测结果的web网页。因此，一种示例性的孤独症检测设备是一套集成有数据录入功能和结果显示功能的设备，如一台计算机，前述的孤独症检测系统以程序形式安装在该计算机上，用于可在该计算机上输入相关多模态数据，并获取到报告。另一种示例性的孤独症检测设备是基于云平台实现的，前述的孤独症检测系统运行与云平台上，通过网页或者APP向用户提供数据录入功能和检测结果显示功能。

另外需要说明的是，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本申请所提供的各实施例中，所述的系统和方法中对于步骤或者模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或步骤可以结合或者可以集成到一起，一个模块或者步骤亦可进行拆分。

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种多模态数据驱动的孤独症检测系统，其特征在于，包括：

预测模块，用于通过基于注意力机制的特征融合网络，对所述多模态特征进行融合，得到表征儿童孤独症相关信息的综合特征，并将所述综合特征输入一个二分类器，得到检测对象是否患有孤独症的检测结果；

所述多模态数据收集模块包括问卷调查模块、磁共振图像获取模块和视频获取模块；

所述问卷调查模块，用于供儿童监护人填写预先设计的调查问卷，并从调查问卷的回收数据中提取儿童个人信息以及针对孤独症筛查问题所填写的回答信息，所有提取的信息存储至检测对象的数据表中；所述磁共振图像获取模块，用于读入儿童脑部的磁共振成像；所述视频获取模块，用于获取由儿童监护人拍摄的儿童的日常生活视频，并对视频中出现的人物以及面部清晰度进行检测，若视频中出现儿童以外的人物或者儿童的面部表情清晰度不满足要求，则提示重新上传仅有儿童出现且儿童的面部表情清晰度满足要求的日常生活视频；

所述特征提取模块包括文本特征提取模块、图像特征提取模块和视频特征提取模块；