CN114974571A - 多模态数据驱动的孤独症检测系统、设备及存储介质 - Google Patents

多模态数据驱动的孤独症检测系统、设备及存储介质 Download PDF

Info

Publication number
CN114974571A
CN114974571A CN202210623471.2A CN202210623471A CN114974571A CN 114974571 A CN114974571 A CN 114974571A CN 202210623471 A CN202210623471 A CN 202210623471A CN 114974571 A CN114974571 A CN 114974571A
Authority
CN
China
Prior art keywords
data
feature extraction
video
autism
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210623471.2A
Other languages
English (en)
Other versions
CN114974571B (zh
Inventor
舒强
徐佳露
李晨曦
阮雯聪
李海峰
肖俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Childrens Hospital of Zhejiang University School of Medicine
Original Assignee
Childrens Hospital of Zhejiang University School of Medicine
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Childrens Hospital of Zhejiang University School of Medicine filed Critical Childrens Hospital of Zhejiang University School of Medicine
Publication of CN114974571A publication Critical patent/CN114974571A/zh
Application granted granted Critical
Publication of CN114974571B publication Critical patent/CN114974571B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/70Multimodal biometrics, e.g. combining information from different biometric modalities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)

Abstract

本发明公开了一种多模态数据驱动的孤独症检测系统、设备及存储介质,属于人工智能辅助医疗领域。该方法首先收集输入的多模态数据,主要包含问卷回答、脑补磁共振成像和日常生活视频;然后将得到的多模态数据分别通过文本特征提取模块、图像特征提取模块和视频特征提取模块进行特征抽取,初步得到表征孤独症相关的多模态特征;最后通过基于注意力机制的特征融合网络,进一步处理多模态特征,得到孤独症相关信息的综合特征,将其输入分类器来预测儿童患有孤独症的概率。本发明输入多模态特征,并利用注意力机制更好地融合各模态之间的信息,更准确地预测儿童是否患有孤独症。

Description

多模态数据驱动的孤独症检测系统、设备及存储介质
技术领域
本发明属于人工智能辅助医疗领域,尤其涉及自然语言处理中的文本特征编码、计算机视觉中的图像和视频特征编码等技术。
背景技术
孤独症谱系障碍(Autistic Spectrum Disorder,ASD)是一种医疗费用很高的神经发育障碍,早期诊断可以显著减少这些费用。但是,传统的ASD诊断存在等待时间较长、诊断程序不够有效的问题。考虑到孤独症的经济影响和近年来ASD病例数量的增加,我们迫切地需要一个易于实施且有效的孤独症检测方法。
现有的人工智能辅助ASD检测输入主要为单一的数据源,有基于问卷数据的检测、基于人体关键点的检测、基于脑成像的检测、基于面部表情的检测和基于注视点的检测。只基于单一数据的检测,由于输入信号单一,可能会受到输入信号不准确导致误检测的情况,而多模态数据输入能综合各模态输入数据,使检测的结果准确性和可靠性有较大提升。
此外,现有的人工智能辅助ASD检测的很多工作还是基于传统机器学习的技术,总体性能不高。本发明吸收了深度学习的模型方法,并引入注意力机制,有效地提升了ASD检测模型的性能。
发明内容
本发明的目的是为了有效检测孤独症谱系障碍,并提供一种多模态数据驱动的孤独症检测系统、设备及存储介质。
为了实现上述发明目的,本发明具体采用如下的技术方案:
第一方面,本发明提供了一种多模态数据驱动的孤独症检测系统,其包括:
多模态数据收集模块,用于收集输入的多模态数据;所述多模态数据包含针对检测对象的三类数据,其中第一类数据为通过孤独症筛查问题问卷获取的问卷回答,第二类数据为儿童脑部的磁共振成像,第三类数据为儿童的日常生活视频;
特征提取模块,用于将多模态数据收集模块中收集的第一类数据、第二类数据、第三类数据分别通过文本特征提取网络、图像特征提取网络和视频特征提取网络进行特征抽取,得到表征儿童孤独症相关信息的多模态特征;
预测模块,用于通过基于注意力机制的特征融合网络,对所述多模态特征进行融合,得到表征儿童孤独症相关信息的综合特征,并将所述综合特征输入一个二分类器,得到检测对象是否患有孤独症的检测结果。
作为上述第一方面的优选,所述多模态数据收集模块包括问卷调查模块、磁共振图像获取模块和视频获取模块;
所述问卷调查模块,用于供儿童监护人填写预先设计的调查问卷,并从调查问卷的回收数据中提取儿童个人信息以及针对孤独症筛查问题所填写的回答信息,所有提取的信息存储至检测对象的数据表中;
所述磁共振图像获取模块,用于读入儿童脑部的磁共振成像;
所述视频获取模块,用于获取由儿童监护人拍摄的儿童的日常生活视频,并对视频中出现的人物以及面部清晰度进行检测,若视频中出现儿童以外的人物或者儿童的面部表情清晰度不满足要求,则提示重新上传仅有儿童出现且儿童的面部表情清晰度满足要求的日常生活视频。
作为上述第一方面的优选,所述特征提取模块包括文本特征提取模块、图像特征提取模块和视频特征提取模块;
所述文本特征提取模块,用于对第一类数据中的文本信息进行特征提取,其中所述儿童个人信息中的年龄和性别以及所述回答信息中是非题答案均进行0-1编码后直接拼接,再通过前馈神经网络获得第一文本特征,而所述回答信息中描述性问题的回答文本通过词嵌入网络获取第二文本特征,第一文本特征和第二文本特征拼接后输入一个文本特征提取网络中,抽取得到问卷回答中的问卷文本特征Ftext
所述图像特征提取模块,用于将第二类数据中的儿童脑部磁共振成像输入一个图像特征提取网络中,提取得到儿童脑部磁共振成像的脑成像图像特征Fimg
所述视频特征提取模块,用于将第三类数据中的儿童日常生活视频输入一个预训练好的人脸识别器并从视频的每一帧里识别对应的面部区域,再从所有帧中截取识别到的面部区域并分别输入一个面部特征提取网络中,获取视频对应的面部特征
Figure BDA0003675523220000031
其中T为视频的总帧数,H、W、C分别为视频帧的高度、宽度和通道数;同时,将第三类数据中的儿童日常生活视频整体输入一个行为特征提取网络中,获取视频对应的行为特征
Figure BDA0003675523220000032
作为上述第一方面的优选,所述文本特征提取网络为前馈神经网络;所述图像特征提取网络为卷积神经网络(Convolutional Neural Networks,CNN);所述面部特征提取网络和所述行为特征提取网络均为3维卷积网络。
作为上述第一方面的优选,所述预测模块中,得到预测结果的具体步骤如下:
S31:将问卷文本特征Ftext和脑成像图像特征Fimg进行拼接后通过前馈神经网络,得到融合特征Ffusion
S32:引入空间注意力机制,利用所述融合特征Ffusion作为查询信号,分别获取所述面部特征和所述行为特征在空间维度上的空间注意力权重,进一步得到空间注意力机制处理后的面部特征
Figure BDA0003675523220000033
和空间注意力机制处理后的行为特征
Figure BDA0003675523220000034
S33:引入时间注意力机制,利用所述融合特征Ffusiob作为查询信号,基于空间注意力机制处理后的面部特征
Figure BDA0003675523220000035
和行为特征
Figure BDA0003675523220000036
分别获取面部特征和行为特征在时间维度上的注意力权重,进一步得到时间注意力机制处理后的面部特征Fface∈RC和时间注意力机制处理后的行为特征Fact∈RC
S34:将面部特征Fface和行为特征Fact分别通过融合注意力网络得到C维的面部特征权重
Figure BDA0003675523220000037
和C维的行为特征权重
Figure BDA0003675523220000038
两个权重组合得到权重
Figure BDA0003675523220000039
后通过softmax操作使得每一维对应的面部特征和行为特征的权重和为1,最终得到权重λ∈RC×2;将面部特征Fface和行为特征Fact拼接为视频组合特征Fcomb∈RC×2,最后利用该权重λ对视频组合特征的特征维度进行加权求和,得到最终的视频特征Fvideo
S35:将融合特征Ffusion和视频特征Fvideo拼接后通过一个二分类器,输出视频中的儿童是否患有孤独症的检测结果。
作为上述第一方面的优选,所述空间注意力机制和时间注意力机制均采用比例点积注意力机制(Scaled Dot-Product Attention),其公式如下:
Figure BDA0003675523220000041
其中,dk为键序列K的特征维度,两个注意力机制的查询序列Q均为Ffusion,两个注意力机制中键序列K均保持与值序列V相同;在空间注意力机制中,K和V均为基于空间序列的面部特征或行为特征;在时间注意力机制中,K和V均为经过空间注意力机制处理后的基于时间序列的面部特征或行为特征。
作为上述第一方面的优选,所述的融合注意力网络为前馈神经网络,输出维度大小为C;所述的二分类器为前馈神经网络,输出维度大小为2。
第二方面,本发明提供了一种计算机电子设备,其包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,能利用如第一方面任一方案所述的多模态数据驱动的孤独症检测系统输出所述检测结果。
第三方面,本发明提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,能利用如第一方面任一方案所述的多模态数据驱动的孤独症检测系统输出所述检测结果。
第四方面,本发明提供了一种孤独症检测设备,其包括数据录入装置和检测设备;
所述数据录入装置,用于通过GUI界面和输入设备供用户输入所述多模态数据;
所述检测设备,用于读取所述数据录入装置输入的多模态数据,并利用如第一方面任一方案所述的多模态数据驱动的孤独症检测系统,输出所述检测结果。
相对于现有技术而言,本发明的有益效果如下:
本发明提出了一种多模态数据驱动的孤独症检测方法,可利用获取的问卷回答、磁共振脑成像以及生活视频等多模态的信息,通过深度学习的模型来综合地检测孤独症谱系障碍。本发明的发明构思是基于注意力机制等深度学习方法编码和融合多模态数据,得到能有效检测孤独症的特征编码,最终判断儿童是否患有孤独症。
附图说明
图1为一种多模态数据驱动的孤独症检测系统的组成模块示意图。
图2为一种多模态数据驱动的孤独症检测方法的整体流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施例的限制。本发明各个实施例中的技术特征在没有相互冲突的前提下,均可进行相应组合。
本发明的核心是基于注意力机制和深度神经网络融合输入多模态特征,以达到准确预测孤独症病患可能性。下面对本发明的具体实现过程进行详细阐述。
参见图1所示,在本发明的一个较佳实施例中,提供了一种多模态数据驱动的孤独症检测系统,其包括多模态数据收集模块、特征提取模块和预测模块三部分。下面分别对多模态数据收集模块、特征提取模块和预测模块的具体功能和实现形式进行详细描述。
多模态数据收集模块,用于收集输入的多模态数据;所述多模态数据包含针对检测对象的三类数据,其中第一类数据为通过孤独症筛查问题问卷获取的问卷回答,第二类数据为儿童脑部的磁共振成像,第三类数据为儿童的日常生活视频。
特征提取模块,用于将多模态数据收集模块中收集的第一类数据、第二类数据、第三类数据分别通过文本特征提取网络、图像特征提取网络和视频特征提取网络进行特征抽取,得到表征儿童孤独症相关信息的多模态特征。
预测模块,用于通过基于注意力机制的特征融合网络,对所述多模态特征进行融合,得到表征儿童孤独症相关信息的综合特征,并将所述综合特征输入一个二分类器,得到检测对象是否患有孤独症的检测结果。
需要说明的是,上述多模态数据收集模块中,对于多模态数据的收集形式可以是多样的,例如可以直接从其他数据存储设备或者信息录入设备的已存储数据中读取,也可以在线进行收集,因此其收集方式可根据实际情况而定。
需要说明的是,上述第一类数据中,孤独症筛查问题问卷的具体形式并不做限定,可根据孤独症诊断领域的专家经验或者标准进行设计。本发明中需要孤独症筛查问题问卷获取的问卷回答,其包含的信息维度应当与孤独症诊断相关,具体可由相关领域专家进行辅助筛选。上述第二类数据中,儿童脑部的磁共振成像可通过磁共振设备在线获取,或者有存储磁共成像的数据库中读取,亦可由儿童监护人上传。上述第三类数据建议由儿童监护人拍摄后进行上传。
作为本发明实施例的一种较佳实现方式,上述多模态数据收集模块包括问卷调查模块、磁共振图像获取模块和视频获取模块。
其中,问卷调查模块,用于供儿童监护人填写预先设计的调查问卷,并从调查问卷的回收数据中提取儿童个人信息以及针对孤独症筛查问题所填写的回答信息,所有提取的信息存储至检测对象的数据表中。问卷调查模块可以以GUI界面的形式提供个人信息和回答信息的输入功能,用户可以远程或者本地输入相关的信息。
其中,磁共振图像获取模块,用于读入儿童脑部的磁共振成像。磁共振图像的来源可以是用户自行输入的,也可以从磁共振设备或者存储磁共振成像结果的服务器上读取。
其中,视频获取模块,用于获取由儿童监护人拍摄的儿童的日常生活视频,并对视频中出现的人物以及面部清晰度进行检测,若视频中出现儿童以外的人物或者儿童的面部表情清晰度不满足要求,则提示重新上传仅有儿童出现且儿童的面部表情清晰度满足要求的日常生活视频。日常生活视频的来源可以由用户上传,也可以从视频采集设备中在线采集。
因此,上述问卷调查模块、磁共振图像获取模块和视频获取模块。均可以是纯软件模块形式的信息获取模块,也可以是软硬件结合的信息输入及传输设备。
作为本发明实施例的一种较佳实现方式,上述多特征提取模块包括文本特征提取模块、图像特征提取模块和视频特征提取模块。
其中,文本特征提取模块,用于对第一类数据中的文本信息进行特征提取。由于调查问卷中可包含三类需填写的问题或信息,包括儿童个人信息、是非题形式的问题、描述性形式的问题,均可由儿童监护人根据儿童的实际情况进行填写。其中所述儿童个人信息中的年龄和性别以及所述回答信息中是非题答案均进行0-1编码后直接拼接,再将拼接结果通过前馈神经网络获得第一文本特征,而所述回答信息中描述性问题的回答文本通过词嵌入网络获取第二文本特征,再将第一文本特征和第二文本特征拼接后输入一个文本特征提取网络中,抽取得到问卷回答中的问卷文本特征Ftext
另外,所述图像特征提取模块,用于将第二类数据中的儿童脑部磁共振成像输入一个图像特征提取网络中,提取得到儿童脑部磁共振成像的脑成像图像特征Fimg
另外,视频特征提取模块,用于将第三类数据中的儿童日常生活视频输入一个预训练好的人脸识别器并从视频的每一帧里识别对应的面部区域,再从所有帧中截取识别到的面部区域并分别输入一个面部特征提取网络中,获取视频对应的面部特征
Figure BDA0003675523220000071
其中T为视频的总帧数,H、W、C分别为视频帧的高度、宽度和通道数;同时,将第三类数据中的儿童日常生活视频整体输入一个行为特征提取网络中,获取视频对应的行为特征
Figure BDA0003675523220000072
上述文本特征提取模块、图像特征提取模块和视频特征提取模块中的相关特征提取网络可以根据需要设定。作为本发明实施例的一种较佳实现方式,上述文本特征提取网络可采用前馈神经网络;上述图像特征提取网络可采用卷积神经网络(ConvolutionalNeural Networks,CNN);上述面部特征提取网络和所述行为特征提取网络均可采用3维卷积网络。
作为本发明实施例的一种较佳实现方式,上述预测模块中,得到预测结果的具体步骤如下:
S31:将问卷文本特征Ftext和脑成像图像特征Fimg进行拼接后通过前馈神经网络,得到融合特征Ffusion
S32:引入空间注意力机制,利用所述融合特征Ffusion作为查询信号,分别获取所述面部特征和所述行为特征在空间维度上的空间注意力权重,根据空间注意力机制进一步得到空间注意力机制处理后的面部特征
Figure BDA0003675523220000073
和空间注意力机制处理后的行为特征
Figure BDA0003675523220000074
S33:引入时间注意力机制,利用所述融合特征Ffusion作为查询信号,基于空间注意力机制处理后的面部特征
Figure BDA0003675523220000081
和行为特征
Figure BDA0003675523220000082
分别获取面部特征和行为特征在时间维度上的注意力权重,根据时间注意力机制进一步得到时间注意力机制处理后的面部特征Fface∈Rc和时间注意力机制处理后的行为特征FaCt∈RC
S34:将面部特征Fface和行为特征Fact分别通过融合注意力网络得到C维的面部特征权重
Figure BDA0003675523220000083
和C维的行为特征权重
Figure BDA0003675523220000084
两个权重组合得到权重
Figure BDA0003675523220000085
后通过softmax操作使得每一维对应的面部特征和行为特征的权重和为1(softmax操作后权重的C个维度中,每一个维度的2个特征即面部特征和行为特征的权重之和为0),最终得到权重λ∈RC×2;将面部特征Fface和行为特征fact拼接为视频组合特征Fcomb∈RC×2,最后利用该权重λ对视频组合特征的特征维度进行加权求和,得到最终的视频特征FvideO
S35:将融合特征ffuSION和视频特征Fvideo拼接后通过一个二分类器,输出视频中的儿童是否患有孤独症的检测结果。
需要说明的是,上述时间注意力机制和空间注意力机制的处理时串行的,也就是先对原始的面部特征
Figure BDA0003675523220000086
和行为特征
Figure BDA0003675523220000087
采用时间注意力机制进行处理,使其降维至T×c维,然后再进一步对降维后的面部特征
Figure BDA0003675523220000088
和行为特征
Figure BDA0003675523220000089
进行空间注意力机制处理,使其降维至C维。
在本发明的上述实施例中,空间注意力机制和时间注意力机制均可以采用比例点积注意力机制(Scaled Dot-Product Attention),其公式如下:
Figure BDA00036755232200000810
其中,dk为键序列K的特征维度,两个注意力机制的查询序列Q均为Ffusion,两个注意力机制中键序列K均保持与值序列V相同;在空间注意力机制中,K和V均为基于空间序列的面部特征或行为特征;在时间注意力机制中,K和V均为经过空间注意力机制处理后的基于时间序列的面部特征或行为特征。
也就是说,在空间注意力机制对面部特征
Figure BDA0003675523220000091
进行处理时,查询序列Q为Ffusion,K和V均为面部特征
Figure BDA0003675523220000092
按空间进行拆分后的T×C维的面部特征序列;在空间注意力机制对行为特征
Figure BDA0003675523220000093
进行处理时,查询序列Q为Ffusion,K和V均为行为特征
Figure BDA0003675523220000094
按空间进行拆分后的T×C维的行为特征序列;在时间注意力机制对面部特征
Figure BDA0003675523220000095
进行处理时,查询序列Q为Ffusion,K和V均为面部特征
Figure BDA0003675523220000096
按时间进行拆分后的C维的面部特征序列;在空间注意力机制对行为特征
Figure BDA0003675523220000097
进行处理时,查询序列Q为Ffusion,K和V均为行为特征
Figure BDA0003675523220000098
按时间进行拆分后的C维的行为特征序列。
进一步的,作为本发明实施例的一种较佳实现方式,上述融合注意力网络可采用前馈神经网络,输出维度大小为C;所述的二分类器可采用前馈神经网络,输出维度大小为2。
综上,本发明可充分利用多模态数据,利用注意力机制和深度神经网络可以很好地融合多模态特征,较好地实现孤独症检测任务。
同样的,基于同一发明构思,本发明的另一较佳实施例中还提供了与上述实施例提供的多模态数据驱动的孤独症检测系统对应的一种计算机电子设备,其特征在于,包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,能利用如前述实施例中所述的多模态数据驱动的孤独症检测系统输出所述检测结果。
同样的,基于同一发明构思,本发明的另一较佳实施例中还提供了与上述实施例提供的多模态数据驱动的孤独症检测系统对应的一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,能利用如前述实施例中所述的多模态数据驱动的孤独症检测系统输出所述检测结果。
上述多模态数据驱动的孤独症检测系统中的各模块,在被执行是相当于是按序执行的程序模块,因此其本质上是执行了一种数据处理的流程。具体而言,上述实施例中的计算机程序在被执行时,其相当于执行了一种多模态数据驱动的孤独症检测方法,如图2所示,其过程为:
S1、收集输入的多模态数据;所述多模态数据包含针对检测对象的三类数据,其中第一类数据为通过孤独症筛查问题问卷获取的问卷回答,第二类数据为儿童脑部的磁共振成像,第三类数据为儿童的日常生活视频;
S2、将多模态数据收集模块中收集的第一类数据、第二类数据、第三类数据分别通过文本特征提取网络、图像特征提取网络和视频特征提取网络进行特征抽取,得到表征儿童孤独症相关信息的多模态特征;
S3、通过基于注意力机制的特征融合网络,对所述多模态特征进行融合,得到表征儿童孤独症相关信息的综合特征,并将所述综合特征输入一个二分类器,得到检测对象是否患有孤独症的检测结果。
由于上述多模态数据驱动的孤独症检测方法解决问题的原理与本发明上述实施例的多模态数据驱动的孤独症检测系统相似,因此该实施例中装置的各模块具体实现形式未尽之处亦可可以参见上述系统部分的具体实现形式,重复之处不再赘述。
可以理解的是,上述存储介质、存储器可以采用随机存取存储器(Random AccessMemory,RAM),也可以采用非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。同时存储介质还可以是U盘、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
可以理解的是,上述的处理器可以是通用处理器,包括中央处理器(CentralProcessing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
另外需要说明的是,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的各实施例中,所述的装置和方法中对于步骤或者模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或步骤可以结合或者可以集成到一起,一个模块或者步骤亦可进行拆分。
同样的,基于同一发明构思,本发明的另一较佳实施例中还提供了与上述实施例提供的多模态数据驱动的孤独症检测系统对应的一种孤独症检测设备,其包括数据录入装置和检测设备;
所述数据录入装置,用于通过GUI界面和输入设备供用户输入所述多模态数据。
所述检测设备,用于读取所述数据录入装置输入的多模态数据,并利用如上述实施例所述的多模态数据驱动的孤独症检测系统进行检测,输出所述检测结果。需要说明的是,前述的数据录入装置可以是通过远程方式供用户输入多模态数据的设备,例如能够显示数据录入GUI界面的网页、软件的计算机,也可以是搭载有相关APP的移动端,或者也可以是本地端的集成设备,集成设备中通过显示器显示网页、软件或者APP供用户输入相关数据。另外,假如磁共振成像等数据需要实时采集,亦可将集成设备通过网络连接访问磁共振成像设备的数据存储服务器。另外,前述的检测设备可以是带有结果提示功能的数据处理设备,例如带有能够通过显示器显示检测结果的计算机,或者能够输出检测结果报告单的计算机,也可以是通过云服务器提供上传视频片段后显示检测结果的web网页。因此,一种示例性的孤独症检测设备是一套集成有数据录入功能和结果显示功能的设备,如一台计算机,前述的孤独症检测系统以程序形式安装在该计算机上,用于可在该计算机上输入相关多模态数据,并获取到报告。另一种示例性的孤独症检测设备是基于云平台实现的,前述的孤独症检测系统运行与云平台上,通过网页或者APP向用户提供数据录入功能和检测结果显示功能。
另外需要说明的是,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的各实施例中,所述的系统和方法中对于步骤或者模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或步骤可以结合或者可以集成到一起,一个模块或者步骤亦可进行拆分。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (10)

1.一种多模态数据驱动的孤独症检测系统,其特征在于,包括:
多模态数据收集模块,用于收集输入的多模态数据;所述多模态数据包含针对检测对象的三类数据,其中第一类数据为通过孤独症筛查问题问卷获取的问卷回答,第二类数据为儿童脑部的磁共振成像,第三类数据为儿童的日常生活视频;
特征提取模块,用于将多模态数据收集模块中收集的第一类数据、第二类数据、第三类数据分别通过文本特征提取网络、图像特征提取网络和视频特征提取网络进行特征抽取,得到表征儿童孤独症相关信息的多模态特征;
预测模块,用于通过基于注意力机制的特征融合网络,对所述多模态特征进行融合,得到表征儿童孤独症相关信息的综合特征,并将所述综合特征输入一个二分类器,得到检测对象是否患有孤独症的检测结果。
2.根据权利要求1所述的多模态数据驱动的孤独症检测系统,其特征在于,所述多模态数据收集模块包括问卷调查模块、磁共振图像获取模块和视频获取模块;
所述问卷调查模块,用于供儿童监护人填写预先设计的调查问卷,并从调查问卷的回收数据中提取儿童个人信息以及针对孤独症筛查问题所填写的回答信息,所有提取的信息存储至检测对象的数据表中;
所述磁共振图像获取模块,用于读入儿童脑部的磁共振成像;
所述视频获取模块,用于获取由儿童监护人拍摄的儿童的日常生活视频,并对视频中出现的人物以及面部清晰度进行检测,若视频中出现儿童以外的人物或者儿童的面部表情清晰度不满足要求,则提示重新上传仅有儿童出现且儿童的面部表情清晰度满足要求的日常生活视频。
3.根据权利要求2所述的多模态数据驱动的孤独症检测系统,其特征在于,所述特征提取模块包括文本特征提取模块、图像特征提取模块和视频特征提取模块;
所述文本特征提取模块,用于对第一类数据中的文本信息进行特征提取,其中所述儿童个人信息中的年龄和性别以及所述回答信息中是非题答案均进行0-1编码后直接拼接,再通过前馈神经网络获得第一文本特征,而所述回答信息中描述性问题的回答文本通过词嵌入网络获取第二文本特征,第一文本特征和第二文本特征拼接后输入一个文本特征提取网络中,抽取得到问卷回答中的问卷文本特征Ftext
所述图像特征提取模块,用于将第二类数据中的儿童脑部磁共振成像输入一个图像特征提取网络中,提取得到儿童脑部磁共振成像的脑成像图像特征Fimg
所述视频特征提取模块,用于将第三类数据中的儿童日常生活视频输入一个预训练好的人脸识别器并从视频的每一帧里识别对应的面部区域,再从所有帧中截取识别到的面部区域并分别输入一个面部特征提取网络中,获取视频对应的面部特征
Figure FDA0003675523210000021
其中T为视频的总帧数,H、W、C分别为视频帧的高度、宽度和通道数;同时,将第三类数据中的儿童日常生活视频整体输入一个行为特征提取网络中,获取视频对应的行为特征
Figure FDA0003675523210000022
4.根据权利要求3所述的多模态数据驱动的孤独症检测系统,其特征在于,所述文本特征提取网络为前馈神经网络;所述图像特征提取网络为卷积神经网络(ConvolutionalNeural Networks,CNN);所述面部特征提取网络和所述行为特征提取网络均为3维卷积网络。
5.根据权利要求3所述的多模态数据驱动的孤独症检测系统,其特征在于,所述预测模块中,得到预测结果的具体步骤如下:
S31:将问卷文本特征Ftext和脑成像图像特征Fimg进行拼接后通过前馈神经网络,得到融合特征Ffusion
S32:引入空间注意力机制,利用所述融合特征Ffusion作为查询信号,分别获取所述面部特征和所述行为特征在空间维度上的空间注意力权重,进一步得到空间注意力机制处理后的面部特征
Figure FDA0003675523210000023
和空间注意力机制处理后的行为特征
Figure FDA0003675523210000024
S33:引入时间注意力机制,利用所述融合特征Ffusion作为查询信号,基于空间注意力机制处理后的面部特征
Figure FDA0003675523210000025
和行为特征
Figure FDA0003675523210000026
分别获取面部特征和行为特征在时间维度上的注意力权重,进一步得到时间注意力机制处理后的面部特征Fface∈RC和时间注意力机制处理后的行为特征Fact∈RC
S34:将面部特征Fface和行为特征Fact分别通过融合注意力网络得到C维的面部特征权重
Figure FDA0003675523210000031
和C维的行为特征权重
Figure FDA0003675523210000032
两个权重组合得到权重
Figure FDA0003675523210000033
后通过softmax操作使得每一维对应的面部特征和行为特征的权重和为1,最终得到权重λ∈RC×2;将面部特征Fface和行为特征Fact拼接为视频组合特征Fcomb∈RC×2,最后利用该权重λ对视频组合特征的特征维度进行加权求和,得到最终的视频特征Fvideo
S35:将融合特征Ffusion和视频特征Fvideo拼接后通过一个二分类器,输出视频中的儿童是否患有孤独症的检测结果。
6.根据权利要求5所述的多模态数据驱动的孤独症检测系统,其特征在于,所述空间注意力机制和时间注意力机制均采用比例点积注意力机制(Scaled Dot-ProductAttention),其公式如下:
Figure FDA0003675523210000034
其中,dk为键序列K的特征维度,两个注意力机制的查询序列Q均为Ffusion,两个注意力机制中键序列K均保持与值序列V相同;在空间注意力机制中,K和V均为基于空间序列的面部特征或行为特征;在时间注意力机制中,K和V均为经过空间注意力机制处理后的基于时间序列的面部特征或行为特征。
7.根据权利要求5所述的多模态数据驱动的孤独症检测方法,其特征在于:所述的融合注意力网络为前馈神经网络,输出维度大小为C;所述的二分类器为前馈神经网络,输出维度大小为2。
8.一种计算机电子设备,其特征在于,包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,能利用如权利要求1~7任一所述的多模态数据驱动的孤独症检测系统输出所述检测结果。
9.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,能利用如权利要求1~7任一所述的多模态数据驱动的孤独症检测系统输出所述检测结果。
10.一种孤独症检测设备,其特征在于,包括数据录入装置和检测设备;
所述数据录入装置,用于通过GUI界面和输入设备供用户输入所述多模态数据;
所述检测设备,用于读取所述数据录入装置输入的多模态数据,并利用如权利要求1~7任一所述的多模态数据驱动的孤独症检测系统进行检测,输出所述检测结果。
CN202210623471.2A 2022-05-27 2022-06-02 多模态数据驱动的孤独症检测系统、设备及存储介质 Active CN114974571B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210594682 2022-05-27
CN2022105946828 2022-05-27

Publications (2)

Publication Number Publication Date
CN114974571A true CN114974571A (zh) 2022-08-30
CN114974571B CN114974571B (zh) 2023-03-24

Family

ID=82959530

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210623471.2A Active CN114974571B (zh) 2022-05-27 2022-06-02 多模态数据驱动的孤独症检测系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114974571B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117476208A (zh) * 2023-11-06 2024-01-30 无锡市惠山区人民医院 一种基于时间序列的医学影像的认知功能障碍智能辅助识别系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102354349A (zh) * 2011-10-26 2012-02-15 华中师范大学 提高孤独症儿童社会互动能力的人机互动多模态早期干预系统
CN104874087A (zh) * 2015-04-02 2015-09-02 西安交通大学 一种针对孤独症儿童康复训练的手持终端系统
CN109620185A (zh) * 2019-01-31 2019-04-16 山东大学 基于多模态信息的自闭症辅助诊断系统、设备及介质
US20190134011A1 (en) * 2017-11-06 2019-05-09 Stalicla S.A. Pharmaceutical composition for the treatment of autism
CN110313923A (zh) * 2019-07-05 2019-10-11 昆山杜克大学 基于联合注意能力测试和音视频行为分析的孤独症早期筛查系统
CN110349667A (zh) * 2019-07-05 2019-10-18 昆山杜克大学 结合调查问卷及多模态范式行为数据分析的孤独症评估系统
CN111012367A (zh) * 2019-12-27 2020-04-17 华中师范大学 一种精神疾病的智能识别系统
US20200129528A1 (en) * 2018-08-03 2020-04-30 Enterin, Inc. Methods for treating blood pressure conditions using aminosterol compositions
CN111883252A (zh) * 2020-07-29 2020-11-03 济南浪潮高新科技投资发展有限公司 一种婴儿自闭症辅助诊断方法、装置、设备和存储介质
CN113317790A (zh) * 2021-05-27 2021-08-31 山东建筑大学 一种基于持久同调的儿童自闭症神经生物学标记的寻找方法
CN114242235A (zh) * 2021-12-16 2022-03-25 北京阿叟阿巴科技有限公司 一种基于多层级关键特征行为的孤独症患者画像方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102354349A (zh) * 2011-10-26 2012-02-15 华中师范大学 提高孤独症儿童社会互动能力的人机互动多模态早期干预系统
CN104874087A (zh) * 2015-04-02 2015-09-02 西安交通大学 一种针对孤独症儿童康复训练的手持终端系统
US20190134011A1 (en) * 2017-11-06 2019-05-09 Stalicla S.A. Pharmaceutical composition for the treatment of autism
US20200129528A1 (en) * 2018-08-03 2020-04-30 Enterin, Inc. Methods for treating blood pressure conditions using aminosterol compositions
CN109620185A (zh) * 2019-01-31 2019-04-16 山东大学 基于多模态信息的自闭症辅助诊断系统、设备及介质
CN110313923A (zh) * 2019-07-05 2019-10-11 昆山杜克大学 基于联合注意能力测试和音视频行为分析的孤独症早期筛查系统
CN110349667A (zh) * 2019-07-05 2019-10-18 昆山杜克大学 结合调查问卷及多模态范式行为数据分析的孤独症评估系统
CN111012367A (zh) * 2019-12-27 2020-04-17 华中师范大学 一种精神疾病的智能识别系统
CN111883252A (zh) * 2020-07-29 2020-11-03 济南浪潮高新科技投资发展有限公司 一种婴儿自闭症辅助诊断方法、装置、设备和存储介质
CN113317790A (zh) * 2021-05-27 2021-08-31 山东建筑大学 一种基于持久同调的儿童自闭症神经生物学标记的寻找方法
CN114242235A (zh) * 2021-12-16 2022-03-25 北京阿叟阿巴科技有限公司 一种基于多层级关键特征行为的孤独症患者画像方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
JEFFREY I.BERMAN等: "Multimodal Diffusion-MRI and MEGA ssessment of Auditory and Language System Development in Autism Spectrum Disorder", 《FRONTIERS IN NEUROANATOMY》 *
KE NIU等: "Multichannel Deep Attention Neural Networks for the Classification of Autism Spectrum Disorder Using Neuroimaging and Personal Characteristic Data", 《COMPLEXITY》 *
PINHEIRO SANTANA等: "rs‑fMRI and machine learning for ASD diagnosis: a systematic review and meta‑analysis", 《SCIENTIFIC REPORTS》 *
RANJEET RANJAN JHA等: "MHATC: AUTISM SPECTRUM DISORDER IDENTIFICATION UTILIZING MULTI-HEAD ATTENTION ENCODER ALONG WITH TEMPORAL CONSOLIDATION MODULES", 《网页在线公开:HTTPS://ARXIV.ORG/ABS/ 2201.00404V1》 *
WEN-QING XIANG等: "Epidemiological Characteristics of Mycoplasma pneumoniae in Hospitalized Children with Pneumonia in Hangzhou, China", 《IRANIAN JOURNAL OF PEDIATRICS》 *
廖梦怡等: "融合多模态数据的自闭症谱系障碍儿童智能化识别及其有效性", 《科学通报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117476208A (zh) * 2023-11-06 2024-01-30 无锡市惠山区人民医院 一种基于时间序列的医学影像的认知功能障碍智能辅助识别系统
CN117476208B (zh) * 2023-11-06 2024-07-30 无锡市惠山区人民医院 一种基于时间序列的医学影像的认知功能障碍智能辅助识别系统

Also Published As

Publication number Publication date
CN114974571B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
Liang et al. Multibench: Multiscale benchmarks for multimodal representation learning
Tian et al. Multimodal deep representation learning for video classification
US20220198800A1 (en) Video processing method, apparatus and device, and computerreadable storage medium
de Melo et al. MDN: A deep maximization-differentiation network for spatio-temporal depression detection
CN111652066B (zh) 基于多自注意力机制深度学习的医疗行为识别方法
US11568247B2 (en) Efficient and fine-grained video retrieval
CN111461174B (zh) 多层次注意力机制的多模态标签推荐模型构建方法及装置
CN114519809A (zh) 一种基于多尺度语义网络的视听视频解析装置及方法
US11113838B2 (en) Deep learning based tattoo detection system with optimized data labeling for offline and real-time processing
CN112149632A (zh) 一种视频识别方法、装置及电子设备
CN116503785A (zh) 游泳馆监管系统及其方法
CN114974571B (zh) 多模态数据驱动的孤独症检测系统、设备及存储介质
Choudhry et al. A Comprehensive Survey of Machine Learning Methods for Surveillance Videos Anomaly Detection
Lek et al. Academic emotion classification using fer: A systematic review
CN117012370A (zh) 多模态疾病辅助推理系统、方法、终端及存储介质
Kaur et al. An ensemble based approach for violence detection in videos using deep transfer learning
CN116864128A (zh) 基于身体活动行为模式监测的心理状态评估系统及其方法
Feng Dynamic facial stress recognition in temporal convolutional network
Park et al. M2FN: Multi-step modality fusion for advertisement image assessment
Raut et al. Mood-Based Emotional Analysis for Music Recommendation
Regulwar et al. Big Data Collection, Filtering, and Extraction of Features
Lage Cañellas et al. Depression recognition from facial videos: Preprocessing and scheduling choices hide the architectural contributions
CN114898339B (zh) 驾驶行为预测模型的训练方法、装置、设备、存储介质
Zhong et al. Cross-scale Dynamic Relation Network for Object Detection
Muthusamy et al. Recognition of Indian Continuous Sign Language Using Spatio-Temporal Hybrid Cue Network.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant