CN111528859B - 基于多模态深度学习技术的儿童adhd筛查评估系统 - Google Patents

基于多模态深度学习技术的儿童adhd筛查评估系统 Download PDF

Info

Publication number
CN111528859B
CN111528859B CN202010401503.5A CN202010401503A CN111528859B CN 111528859 B CN111528859 B CN 111528859B CN 202010401503 A CN202010401503 A CN 202010401503A CN 111528859 B CN111528859 B CN 111528859B
Authority
CN
China
Prior art keywords
vector
expression
attention
tester
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010401503.5A
Other languages
English (en)
Other versions
CN111528859A (zh
Inventor
张雁翼
浦世亮
朱强
孔鸣
洪文琛
赵天琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Childrens Hospital of Zhejiang University School of Medicine
Original Assignee
Deqing Institute Of Artificial Intelligence Zhejiang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Deqing Institute Of Artificial Intelligence Zhejiang University filed Critical Deqing Institute Of Artificial Intelligence Zhejiang University
Priority to CN202010401503.5A priority Critical patent/CN111528859B/zh
Publication of CN111528859A publication Critical patent/CN111528859A/zh
Application granted granted Critical
Publication of CN111528859B publication Critical patent/CN111528859B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/168Evaluating attention deficit, hyperactivity
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/11Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
    • A61B5/1116Determining posture transitions
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/163Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state by tracking eye movement, gaze, or pupil change
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/165Evaluating the state of mind, e.g. depression, anxiety
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/40Detecting, measuring or recording for evaluating the nervous system
    • A61B5/4076Diagnosing or monitoring particular conditions of the nervous system
    • A61B5/4082Diagnosing or monitoring movement diseases, e.g. Parkinson, Huntington or Tourette
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/40Detecting, measuring or recording for evaluating the nervous system
    • A61B5/4076Diagnosing or monitoring particular conditions of the nervous system
    • A61B5/4088Diagnosing of monitoring cognitive diseases, e.g. Alzheimer, prion diseases or dementia
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • A61B5/7267Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/70Multimodal biometrics, e.g. combining information from different biometric modalities
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B2503/00Evaluating a particular growth phase or type of persons or animals
    • A61B2503/06Children, e.g. for attention deficit diagnosis

Abstract

一种基于多模态深度学习技术的儿童ADHD筛查评估系统,包括:量表测试模块,用于通过ADHD诊断心理学量表采集和评估就诊儿童;软硬件协同模块,用于开发测试软件让就诊儿童完成任务,硬件模组用于记录任务测试过程中的眼动注意力、表情和身体姿态三方面信息;智能分析模块,用于运用计算机视觉技术进行眼动注意力、表情、姿态的分析,还对测试者的鼠标移动、点击和键盘输入动作也做了记录和跟踪,与同质化向量融合;多模态信息融合模型,采用时序多模态信息融合模型BERT,对某个特定时间片段中获取的同质化向量结合测试结果进行预训练,最终生成的模型判断患者在本时间段是否存在异常行为的分类结果。本发明效率较高、准确性较好。

Description

基于多模态深度学习技术的儿童ADHD筛查评估系统
技术领域
本发明涉及一种儿童注意缺陷多动障碍(ADHD)筛查评估系统。
背景技术
注意缺陷多动障碍(ADHD),俗称多动症,是儿童青少年期最常见的神经发育障碍,其临床表现是注意集中困难、活动过度、冲动,情绪不稳定、学习困难等。
目前的ADHD医学影像的智能识别技术主要是基于脑部功能性核磁共振和脑电图等病理方面的研究,或者单独基于眼动或面部表情等观察患者的行为特征。前者的技术操作过程十分复杂,对于很难控制自己行为的儿童而言更为困难,而且这些技术的价格非常昂贵,目前很难有大规模落地的可能。后者的信息维度单一,很难全面的对儿童的行为作出评估,而ADHD儿童的表现形式是多种多样的,单独观察眼动或肢体动作都可能遗漏其他重要的行为特征。
发明内容
为了克服已有儿童ADHD筛查评估方式的效率低下、准确性较差的不足,本发明提供了一种效率较高、准确性较好的基于多模态深度学习技术的儿童ADHD筛查评估系统。
本发明解决其技术问题所采用的技术方案是:
一种基于多模态深度学习技术的儿童ADHD筛查评估系统,包括:
量表测试模块,用于通过ADHD诊断心理学量表采集和评估就诊儿童各方面的行为表现和相关能力;
软硬件协同模块,用于开发测试软件让就诊儿童完成任务,硬件模组包括是多摄像头组及同步控制系统,用于记录任务测试过程中的眼动注意力、表情和身体姿态三方面信息;
智能分析模块,用于将对软硬件协同模块中采集到的多媒体信息进行智能处理,运用计算机视觉技术进行眼动注意力、表情、姿态的分析、跟踪和识别,并转化为下一步机器学习可兼容的同质化向量表示,同时,还对测试者的鼠标移动、点击和键盘输入动作也做了记录和跟踪,可与同质化向量融合;
多模态信息融合模型,采用时序多模态信息融合模型BERT(Devlin et al.,2018),对某个特定时间片段中获取的同质化向量结合测试结果进行预训练,最终生成的模型判断患者在本时间段是否存在异常行为的分类结果。
进一步,所述软硬件协同模块中,位于电脑显示屏后方的1号摄像头用于拍摄测试者的正面图像,采集测试者的眼动与表情变化信息;位于测试者座位侧面的2、3号双目深度摄像头模组可用于拍摄测试者全身,采集测试者三维身体姿态信息。
再进一步,所述软硬件协同模块中,在拍摄期间测试者需要完成ADHD临床诊断的三种心理学测试:Stroop测试、威斯康辛卡片分类测试和表情识别测试,这三种测试分别对患者注意力、抑制认知干扰、抽象思维和认知转移、情绪和社交等认知功能进行评估,Stroop测试通过字义与字体颜色冲突来评测测试者抑制认知干扰的能力;威斯康辛卡片分类测试通过变换颜色、形状、数量的测试规则来评测测试者的认知转移能力;表情测试通过对人脸图片的表情进行分类来评测测试者的社交认知能力;将以上三种执行功能测试整合到一套任务测试软件中。
优选的,三种测试的过程中,测试软件能够与摄像头模组进行交互,当测试者开始测试时,软件会启动摄像头模组开始录制,记录下测试者眼部、表情及姿态视频信息,用于智能分析模块分析提取关键特征;当测试完成时,测试软件会同步停止摄像头模组的录制工作。同时测试软件能够对测量指标进行整合与统计,并记录答题操作的关键时间节点及被测人员的鼠标键盘动作,这些形成了多模态融合机制的数据基础。
所述摄像头模组主要采集了两类视频信息:1)面向测试者面部的摄像头关注测试者眼动(注意力聚焦)及面部肌肉动作(异常表情);2)侧向的双目深度摄像头运用三维视觉感知技术提取每一时刻的人体骨架位置,进行姿态分析。
更进一步,所述智能分析模块包括眼动注意力特征向量计算单元、表情特征向量计算单元和肢体动作特征向量计算单元。
优选的,所述眼动注意力特征向量计算单元,输入为采集到的正面视频VFront和相机标定矩阵Cr,输出为产生的眼动注意力特征向量Fg,包括以下步骤:
1.1瞳孔位置计算:首先通过基于HOG的算法确认脸部位置,对脸部关键点的检测通过连续条件神经场(CCNF)模型框架实现,由此可以计算出平面中的瞳孔位置eh;接着,利用EPnP算法,可将检测到的人脸与平均标准3D脸模F进行对齐,计算出相机坐标系下头部的旋转矩阵Rr以及平移向量tr,此步骤的输出为眼部空间位置er=tr+eh
1.2视线方向计算,视线方向特征可表示为一个包含偏航角(yaw)和俯仰角(pitch)的二维向量g,所述偏航角为视线方向与垂直平面的夹角,所述俯仰角为视线方向与水平面的夹角;
1.3屏幕位置换算:通过外部标定的方式,可以确定屏幕所在平面的空间位置,根据视线方向特征向量g以及眼部位置er可以计算视线与屏幕平面的交点,即为视线在屏幕上的落点ps,再根据屏幕结构得到眼部注意力区域r;
将瞳孔位置、视线方向及屏幕注意力三者进行结合,得到最终的眼动注意力特征向量,表示为fg=[er,g,r]。
所述步骤1.2中,先对眼部图像进行归一化处理:将原图像乘以相机投影矩阵的逆矩阵
Figure BDA0002489650390000041
转化为三维空间中的头部位姿;再将此时的头部原姿态乘以变换矩阵M来固定眼部位置,最后再将归一化后的眼部姿态乘以一个标准相机投影矩阵Cn,得到归一化后的眼部二维图像e;为了计算视线向量,将归一化旋转矩阵Rn=M Rr变换为二维旋转矢量h,将得到的2D头部姿态信息h和单通道灰度眼部图像e输入卷积神经网络模型,输出视线方向特征向量,所述特征向量为包含偏航角和俯仰角的二维向量g。
再优选的,所述表情特征向量计算单元,通过对22种Facial Action CodingSystem(Hamm et al.,2011)描述的面部运动单元和动作对测试者表情变化进行描述,具体的,采用了一种结合Region of Interests(ROI)adaptation,Multi-label Learning,以及optimal LSTM-based temporal fusing的结构对微表情进行检测,表情特征计算的输入为采集到的正面视频VFront,输出为产生的AU概率序列表达Fexp,包括与以下步骤:
2.1首先需要识别出面部关键特征点集合,然后根据这些关键特征点的位置PL推得与表情运动单元相关的对应肌肉的位置PAU,在此基础上,可以构建基于VGGNet的ROIcropping nets(ROI Nets),通过裁剪出网络第12层得到的feature map,由此得到对应每个AU的特征表示,将所有特征向量拼接即得到表示该时刻表情特征的整体向量FAU
2.2由于表情识别任务的输入形式是视频数据,通过前面时刻的表情状态下更准确、更平滑的预测当前时刻的表情状态,利用一个多层LSTM结构对时序化的表情特征向量进行处理,完成对多AU的多任务二值分类问题,得出基于AU特征激活概率的表情特征序列表达Fexp
更优选的,所述肢体动作特征向量计算单元中,输入为采集到的侧面视频VSide,输出为产生的3D骨架序列F3D,包括以下步骤:
3.1置信图与PAF计算:对于图片输入,首先通过10层VGG-19提取图片特征F,再将F输入两个多阶段CNN,一个网络通过置信图的方式确定人体关节点位置,另一个网络通过Part Affinity Fields(PAF)确定肢体方向;最终得到置信图S=(S1,S2,…SJ)与PAF L=(L1,L2,…,LC),其中J,C分别表示关节点和肢体的种类数量;
3.2关节点匹配优化:根据置信图得到关节点的位置,
Figure BDA0002489650390000051
表示第j类关节点中的第m个,通过L计算关节点组
Figure BDA0002489650390000052
相连的置信度
Figure BDA0002489650390000053
Figure BDA0002489650390000054
其中p是两点之间的插值函数:
Figure BDA0002489650390000055
其中,u表示预测点到
Figure BDA0002489650390000056
的距离占
Figure BDA0002489650390000057
Figure BDA0002489650390000058
距离的比值;
3.3最后再将有共同关节点的肢体相连接,形成完整的人体2D骨架特征f2D,最终将2D骨架序列输入一个神经网络,得到3D骨架序列f3D,对于整段视频,最终的3D骨架序列即为:F3D=[f3D1,f3D2,…,f3DN]。
对于整个答题过程,有正面视频VFront,侧面视频VSide,以及答题操作序列A={a1,a2,…,aK},ai代表第i题答题的时间戳,K为答题总数。按照答题时间戳可将整个答题流程切分成K个时间段,对于每个时间段,VFront和Vside所对应的视频帧可以构成一个图像序列,对应的,有从视频帧提取得到对应的眼动注意力向量Fg、微表情Fexp、动作特征向量F3D
对于时刻i,将智能分析模块所得到的三种不同向量fg i(9-d)、fexp i(22-d)、f3D i(75-d)以及该测试者当前的答题情况fans i拼接起来,可以得到表示该时刻测试者行为特征的向量;对于一个片段,可以得到表示当前时刻的行为特征xi=[fg i,fexp i,f3D i,fans i](1-d),由此,对于整段测试,可以得到107维行为特征向量序列X={x0,x1,x2,…,xN},其中x0是一个固定的起始向量。
所述多模态信息融合模型中,异常行为检测模块由12层Transformer编码器组成,每层编码器包括注意力层和前向反馈层(Vaswani et al.,2017),在注意力层中,对于输入x,经过点积-乘积注意力机制计算,得到表示每个序列单元对当前单元的影响权重的向量组Z:
Figure BDA0002489650390000061
其中Q,K,V为注意力机制中的隐变量,
Figure BDA0002489650390000062
为向量组K中向量维度的平方根,对于多头注意力模型,需要利用多组独立的Q,K,V隐变量产生多个向量组{Z1,Z2,…,ZT},T为向量组的总数,以获取更加丰富的模型表达能力,将所有向量组拼接加权求和得多头注意力的输出Zfinal
Zfinal=Concat(Z1,Z2,…,ZT)Wo
前向反馈层由2层全连接层组成,负责对注意力层的输出做进一步处理;此外,注意力层和前向反馈层均被加入残差,以防止编码器层数较多时,反向传播过程中,梯度消失现象的出现;
输出向量组记为Y={y0,y1,y2,…,yN},yi∈RL,其中二维向量y0为x0对应的输出,代表整个时间片段的向量表示,将y0输入到全连接层形式的分类器,得到该片段是否存在异常的分类结果。
本发明的有益效果主要表现在:1.本系统可以提供辅助参考,通过人工智能可以提高工作效率,为患者制定更准确和个体化的治疗方案;2.对患者而言,通过人工智能可以快速地完成各项检查,获得更为精准的诊断和治疗建议;3.人工智能可以尝试去模拟医疗专家的诊疗思维和推理过程,给出较为可靠的辅助参照中间结果。
附图说明
图1是儿童ADHD筛查评估系统的示意图。
图2是眼动注意力特征向量计算单元的流程图。
图3是表情特征向量计算单元的流程图。
图4是肢体动作特征向量计算单元的流程图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图4,一种基于多模态深度学习技术的儿童ADHD筛查评估系统,包括:
量表测试模块,用于通过ADHD诊断心理学量表采集和评估就诊儿童各方面的行为表现和相关能力;传统的纸质问卷手段存在患者填写麻烦、后期数据整理流程重复且繁琐、数据保存及分析不易等问题。因此,我们开发了全套微信小程序代替传统纸质问卷,测试者只需手机扫描二维码即可填写,测试结果能自动整合到最终生成的智能辅助诊断报告中供医生参考;
软硬件协同模块,用于采纳三种执行功能测试,并开发相应的测试软件让就诊儿童完成相关任务,硬件模组包括是多摄像头组及同步控制系统,可以记录任务测试过程中的眼动注意力、表情和身体姿态三方面信息,后期可进行进一步智能分析;
智能分析模块,用于将对软硬件协同模块中采集到的多媒体信息进行智能处理,运用计算机视觉技术进行眼动注意力、表情、姿态的分析、跟踪和识别,并转化为下一步机器学习可兼容的同质化向量表示,同时,还对测试人员的鼠标移动、点击、键盘输入等动作也做了记录和跟踪,可与上述多媒体信息融合分析。
多模态信息融合模型,采用时序多模态信息融合模型BERT(Devlin et al.,2018),对某个特定时间片段中获取的同质化向量结合其他测试结果进行预训练,最终生成的模型可判断患者在本时间段是否存在异常行为,并将异常行为的类型及发生频度作为最终辅助诊断的重要参考依据,取代了传统诊断中完全依赖于医生经验水平的主观观察和描述。
图1描述了摄像头与被测试者的关系,位于电脑显示屏后方的1号摄像头用于拍摄测试者的正面图像,采集测试者的眼动与表情变化信息。位于测试者座位侧面的2、3号双目深度摄像头模组可用于拍摄测试者全身,采集测试者三维身体姿态信息。
在拍摄期间测试者需要完成ADHD临床诊断常用的三种心理学测试:Stroop测试、威斯康辛卡片分类测试和表情识别测试。这三种测试分别对患者注意力、抑制认知干扰、抽象思维和认知转移、情绪和社交等认知功能进行评估,Stroop测试主要通过字义与字体颜色冲突来评测测试者抑制认知干扰的能力;威斯康辛卡片分类测试主要通过变换颜色、形状、数量的测试规则来评测测试者的认知转移能力;表情测试主要通过对人脸图片的表情进行分类来评测测试者的社交认知能力。
将以上三种执行功能测试整合到一套任务测试软件中,整套任务完成时间大致控制在20~30分钟。除了功能上的实现,让专业软件设计人员和儿童心理学专业人员对软件交互、界面设计提出了指导意见,可让被测儿童能在规定时间内顺利完成设计任务在测试者完成。
上述三种测试的过程中,测试软件能够与摄像头模组进行交互,当测试者开始测试时,软件会启动摄像头模组开始录制,记录下测试者眼部、表情及姿态等视频信息,用于智能分析模块分析提取关键特征。当测试完成时,测试软件会同步停止摄像头模组的录制工作。同时测试软件能够对测量指标进行整合与统计,并记录答题操作的关键时间节点及被测人员的鼠标键盘动作,这些形成了我们后续多模态融合机制的数据基础。
摄像头模组主要采集了两类视频信息:1)面向测试者面部的摄像头主要关注测试者眼动(注意力聚焦)及面部肌肉动作(异常表情);2)侧向的双目深度摄像头主要运用三维视觉感知技术提取每一时刻的人体骨架位置,进行姿态分析。
所述智能分析模块包括眼动注意力特征向量计算单元、表情特征向量计算单元和肢体动作特征向量计算单元;
所述眼动注意力特征向量计算单元,输入为采集到的正面视频VFront和相机标定矩阵Cr,输出为产生的眼动注意力特征向量Fg,包括以下步骤:
1.1瞳孔位置计算:首先通过基于HOG的算法确认脸部位置,对脸部关键点的检测通过连续条件神经场(CCNF)模型框架实现,由此可以计算出平面中的瞳孔位置eh;接着,利用EPnP算法,可将检测到的人脸与平均标准3D脸模F进行对齐,计算出相机坐标系下头部的旋转矩阵Rr以及平移向量tr,此步骤的输出为眼部空间位置er=tr+eh
1.2视线方向计算,视线方向特征可表示为一个包括包含偏航角(yaw)和俯仰角(pitch)的二维向量g,所述偏航角为视线方向与垂直平面的夹角,所述俯仰角为视线方向与水平面的夹角;
为了获取视线向量,先对眼部图像进行归一化处理:将原图像乘以相机投影矩阵的逆矩阵
Figure BDA0002489650390000101
转化为三维空间中的头部位姿;再将此时的头部原姿态乘以变换矩阵M来固定眼部位置,最后再将归一化后的眼部姿态乘以一个标准相机投影矩阵Cn,得到归一化后的眼部二维图像e;为了计算视线向量,将归一化旋转矩阵Rn=M Rr变换为二维旋转矢量h,将得到的2D头部姿态信息h和单通道灰度眼部图像e输入卷积神经网络模型,输出视线方向特征向量,所述特征向量为包含偏航角和俯仰角的二维向量g;
1.3屏幕位置换算:通过外部标定的方式,可以确定屏幕所在平面的空间位置,根据视线方向特征向量g以及眼部位置er可以计算视线与屏幕平面的交点,即为视线在屏幕上的落点ps,再根据屏幕结构得到眼部注意力区域r;
1.4将瞳孔位置、视线方向及屏幕注意力三者进行结合,得到最终的眼动注意力特征向量,表示为Fg=[er,g,r]。
所述表情特征向量计算单元,通过对22种Facial Action Coding System(Hammet al.,2011)描述的面部运动单元和动作对测试者表情变化进行描述,具体的,采用了一种结合Region of Interests(ROI)adaptation,Multi-label Learning,以及optimalLSTM-based temporal fusing的结构对微表情进行检测,表情特征计算的输入为采集到的正面视频VFront,输出为产生的AU概率序列表达Fexp,包括与以下步骤:
2.1首先需要识别出面部关键特征点集合,然后根据这些关键特征点的位置PL推得与表情运动单元相关的对应肌肉的位置PAU,在此基础上,可以构建基于VGGNet的ROIcropping nets(ROI Nets),通过裁剪出网络第12层得到的feature map,由此得到对应每个AU的特征表示,将所有特征向量拼接即得到表示该时刻表情特征的整体向量FAU
2.2由于表情识别任务的输入形式是视频数据,通过前面时刻的表情状态下更准确、更平滑的预测当前时刻的表情状态,利用一个多层LSTM结构对时序化的表情特征向量进行处理,完成对多AU的多任务二值分类问题,得出基于AU特征激活概率的表情特征序列表达Fexp
所述肢体动作特征向量计算单元中,输入为采集到的侧面视频VSide,输出为产生的3D骨架序列F3D,包括以下步骤:
3.1置信图与PAF计算:对于图片输入,首先通过10层VGG-19提取图片特征F,再将F输入两个多阶段CNN,一个网络通过置信图的方式确定人体关节点位置,另一个网络通过Part Affinity Fields(PAF)确定肢体方向;最终得到置信图S=(S1,S2,…SJ)与PAF L=(L1,L2,…,LC),其中J,C分别表示关节点和肢体的种类数量;
3.2关节点匹配优化:根据置信图得到关节点的位置,
Figure BDA0002489650390000111
表示第j类关节点中的第m个,通过L计算关节点组
Figure BDA0002489650390000112
相连的置信度
Figure BDA0002489650390000121
Figure BDA0002489650390000122
其中p是两点之间的插值函数:
Figure BDA0002489650390000123
其中,u表示预测点到
Figure BDA0002489650390000124
的距离占
Figure BDA0002489650390000125
Figure BDA0002489650390000126
距离的比值;
3.3最后再将有共同关节点的肢体相连接,形成完整的人体2D骨架特征f2D,最终将2D骨架序列输入一个神经网络,得到3D骨架序列f3D,对于整段视频,最终的3D骨架序列即为:F3D=[f3D1,f3D2,…,f3DN]。
对于整个答题过程,有正面视频VFront,侧面视频VSide,以及答题操作序列A={a1,a2,…,aK},ai代表第i题答题的时间戳,K为答题总数。按照答题时间戳可将整个答题流程切分成K个时间段,对于每个时间段,VFront和Vside所对应的视频帧可以构成一个图像序列,对应的,有从视频帧提取得到对应的眼动注意力向量Fg、微表情Fexp、动作特征向量F3D
对于时刻i,将智能分析模块所得到的三种不同向量fg i(9-d)、fexp i(22-d)、f3D i(75-d)以及该测试者当前的答题情况fans i拼接起来,可以得到表示该时刻测试者行为特征的向量;对于一个片段,可以得到表示当前时刻的行为特征xi=[fg i,fexp i,f3D i,fans i](1-d),由此,对于整段测试,可以得到107维行为特征向量序列X={x0,x1,x2,…,xN},其中x0是一个固定的起始向量。
所述多模态信息融合模型中,异常行为检测模块由12层Transformer编码器组成,每层编码器包括注意力层和前向反馈层(Vaswani et al.,2017),在注意力层中,对于输入x,经过点积-乘积注意力机制计算,得到表示每个序列单元对当前单元的影响权重的向量组Z:
Figure BDA0002489650390000131
其中Q,K,V为注意力机制中的隐变量,
Figure BDA0002489650390000132
为向量组K中向量维度的平方根,对于多头注意力模型,需要利用多组独立的Q,K,V隐变量产生多个向量组{Z1,Z2,…,ZT},T为向量组的总数,以获取更加丰富的模型表达能力,将所有向量组拼接加权求和得多头注意力的输出Zfinal
Zfinal=Concat(Z1,Z2,…,ZT)Wo
前向反馈层由2层全连接层组成,负责对注意力层的输出做进一步处理;此外,注意力层和前向反馈层均被加入残差,以防止编码器层数较多时,反向传播过程中,梯度消失现象的出现;
输出向量组记为Y={y0,y1,y2,…,yN},yi∈RL,其中二维向量y0为x0对应的输出,代表整个时间片段的向量表示,将y0输入到全连接层形式的分类器,得到该片段是否存在异常的分类结果。
在接受执行功能测试之前,测试者将接受一系列ADHD诊断常见的心理学量表测试,对测试者的智力、情绪、社交能力等进行初步评估。师长反馈量表的主要目的是对患者的日常行为功能进行初步评估,作为医生诊断的依据之一。而智力、情绪等评估主要是了解患者完成执行功能测试时的状态,排除智力障碍、短期情绪异常等干扰因素,结合智能分析结果,得出更加准确的诊断结论。具体的评估量表模块名称及测试内容如表1所示。
Figure BDA0002489650390000133
Figure BDA0002489650390000141
表1
将医生在诊断ADHD时使用的Conners、WFIRS-P和SNAP-Ⅳ三个量表做成微信小程序的形式让儿童的家长和老师填写,结合量表测试结果,执行功能测试结果,及对眼动注意力、表情和动作多模态信息进行异常行为识别后的结果,可以自动生成一份标准规范、客观量化的可解释性ADHD评估报告。
本实施例的方案,成本较低,使用寿命长,占用空间小,操作流程上也方便快捷,对操作人员的要求很低。
本说明书的实施例所述的内容仅仅是对构思的实现形式的列举,仅作说明用途。本发明的保护范围不应当被视为仅限于本实施例所陈述的具体形式,本发明的保护范围也及于本领域的普通技术人员根据本发明构思所能想到的等同技术手段。

Claims (3)

1.一种基于多模态深度学习技术的儿童ADHD筛查评估系统,其特征在于,所述系统包括:
量表测试模块,用于通过ADHD诊断心理学量表采集和评估就诊儿童各方面的行为表现和相关能力;
软硬件协同模块,用于开发测试软件让就诊儿童完成任务,硬件模组包括是多摄像头组及同步控制系统,用于记录任务测试过程中的眼动注意力、表情和身体姿态三方面信息;
智能分析模块,用于将对软硬件协同模块中采集到的多媒体信息进行智能处理,运用计算机视觉技术进行眼动注意力、表情、姿态的分析、跟踪和识别,并转化为同质化向量表示,同时,还对测试者的鼠标移动、点击和键盘输入动作也做了记录和跟踪,与同质化向量融合;
多模态信息融合模型,采用时序多模态信息融合模型BERT,对某个特定时间片段中获取的同质化向量结合测试结果进行预训练,最终生成的模型判断患者在本时间段是否存在异常行为的分类结果;
所述软硬件协同模块中,位于电脑显示屏后方的1号摄像头用于拍摄测试者的正面图像,采集测试者的眼动与表情变化信息;位于测试者座位侧面的2、3号双目深度摄像头模组用于拍摄测试者全身,采集测试者三维身体姿态信息;
所述软硬件协同模块中,在拍摄期间测试者需要完成ADHD临床诊断的三种心理学测试:Stroop测试、威斯康辛卡片分类测试和表情识别测试,这三种测试分别对患者注意力、抑制认知干扰、抽象思维和认知转移、情绪和社交等认知功能进行评估,Stroop测试通过字义与字体颜色冲突来评测测试者抑制认知干扰的能力;威斯康辛卡片分类测试通过变换颜色、形状、数量的测试规则来评测测试者的认知转移能力;表情测试通过对人脸图片的表情进行分类来评测测试者的社交认知能力;将以上三种执行功能测试整合到一套任务测试软件中;
三种测试的过程中,测试软件能够与摄像头模组进行交互,当测试者开始测试时,软件会启动摄像头模组开始录制,记录下测试者眼部、表情及姿态视频信息,用于智能分析模块分析提取关键特征;当测试完成时,测试软件会同步停止摄像头模组的录制工作;同时测试软件能够对测量指标进行整合与统计,并记录答题操作的关键时间节点及被测人员的鼠标键盘动作,这些形成了多模态融合机制的数据基础;
所述智能分析模块包括眼动注意力特征向量计算单元、表情特征向量计算单元和肢体动作特征向量计算单元;
所述肢体动作特征向量计算单元中,输入为采集到的侧面视频VSide,输出为产生的3D骨架序列F3D,包括以下步骤:
3.1置信图与PAF计算:对于图片输入,首先通过10层VGG-19提取图片特征F,再将F输入两个多阶段CNN,一个网络通过置信图的方式确定人体关节点位置,另一个网络通过PartAffinity Fields(PAF)确定肢体方向;最终得到置信图S=(S1,S2,…SJ)与PAF L=(L1,L2,…,LC),其中J,C分别表示关节点和肢体的种类数量;
3.2关节点匹配优化:根据置信图得到关节点的位置,
Figure FDA0004059369870000021
表示第j类关节点中的第m个,通过L计算关节点组
Figure FDA0004059369870000022
相连的置信度
Figure FDA0004059369870000023
Figure FDA0004059369870000024
其中p是两点之间的插值函数:
Figure FDA0004059369870000025
其中,u表示预测点到
Figure FDA0004059369870000026
的距离占
Figure FDA0004059369870000027
Figure FDA0004059369870000028
距离的比值;
3.3最后再将有共同关节点的肢体相连接,形成完整的人体2D骨架特征f2D,最终将2D骨架序列输入一个神经网络,得到3D骨架序列f3D,对于整段视频,最终的3D骨架序列即为:F3D=[f3D1,f3D2,…,f3DN];
对于整个答题过程,有正面视频VFront,侧面视频VSide,以及答题操作序列A={a1,a2,…,aK},ai代表第i题答题的时间戳,K为答题总数,按照答题时间戳将整个答题流程切分成K个时间段,对于每个时间段,VFront和Vside所对应的视频帧构成一个图像序列,对应的,有从视频帧提取得到对应的眼动注意力向量Fg、微表情Fexp、动作特征向量F3D
对于时刻i,将智能分析模块所得到的三种不同向量fgi(9-d)、fexpi(22-d)、f3Di(75-d)以及该测试者当前的答题情况fansi拼接起来,得到表示该时刻测试者行为特征的向量;对于一个片段,得到表示当前时刻的行为特征xi=[fgi,fexpi,f3Di,fansi](1-d),由此,对于整段测试,得到N维行为特征向量序列X={x0,x1,x2,…,xN},其中x0是一个固定的起始向量;
所述眼动注意力特征向量计算单元,输入为采集到的正面视频VFront和相机标定矩阵Cr,输出为产生的眼动注意力特征向量Fg,包括以下步骤:
1.1瞳孔位置计算:首先通过基于HOG的算法确认脸部位置,对脸部关键点的检测通过连续条件神经场模型框架实现,由此计算出平面中的瞳孔位置eh;接着,利用EPnP算法,将检测到的人脸与平均标准3D脸模F进行对齐,计算出相机坐标系下头部的旋转矩阵Rr以及平移向量tr,此步骤的输出为眼部空间位置er=tr+eh
1.2视线方向计算,视线方向特征表示为一个包含偏航角和俯仰角的二维向量g,所述偏航角为视线方向与垂直平面的夹角,所述俯仰角为视线方向与水平面的夹角;
1.3屏幕位置换算:通过外部标定的方式,确定屏幕所在平面的空间位置,根据视线方向特征向量g以及眼部位置er计算视线与屏幕平面的交点,即为视线在屏幕上的落点ps,再根据屏幕结构得到眼部注意力区域r;
1.4将瞳孔位置、视线方向及屏幕注意力三者进行结合,得到最终的眼动注意力特征向量,表示为Fg=[er,g,r];
所述步骤1.2中,先对眼部图像进行归一化处理:将原图像乘以相机投影矩阵的逆矩阵
Figure FDA0004059369870000031
转化为三维空间中的头部位姿;再将此时的头部原姿态乘以变换矩阵M来固定眼部位置,最后再将归一化后的眼部姿态乘以一个标准相机投影矩阵Cn,得到归一化后的眼部二维图像e;为了计算视线向量,将归一化旋转矩阵Rn=M Rr变换为二维旋转矢量h,将得到的2D头部姿态信息h和单通道灰度眼部图像e输入卷积神经网络模型,输出视线方向特征向量,所述特征向量为包含偏航角和俯仰角的二维向量g。
2.如权利要求1所述的基于多模态深度学习技术的儿童ADHD筛查评估系统,其特征在于,所述表情特征向量计算单元,通过对22种Facial Action Coding System描述的面部运动单元和动作对测试者表情变化进行描述,对微表情进行检测,表情特征计算的输入为采集到的正面视频VFront,输出为产生的AU概率序列表达Fexp,包括与以下步骤:
2.1首先需要识别出面部关键特征点集合,然后根据这些关键特征点的位置PL推得与表情运动单元相关的对应肌肉的位置PAU,在此基础上,构建基于VGGNet的ROI Nets,通过裁剪出网络第12层得到的feature map,由此得到对应每个AU的特征表示,将所有特征向量拼接即得到表示该时刻表情特征的整体向量FAU
2.2由于表情识别任务的输入形式是视频数据,通过前面时刻的表情状态下更准确、更平滑的预测当前时刻的表情状态,利用一个多层LSTM结构对时序化的表情特征向量进行处理,完成对多AU的多任务二值分类问题,得出基于AU特征激活概率的表情特征序列表达Fexp
3.如权利要求1所述的基于多模态深度学习技术的儿童ADHD筛查评估系统,其特征在于,所述多模态信息融合模型中,异常行为检测模块由12层Transformer编码器组成,每层编码器包括注意力层和前向反馈层,在注意力层中,对于输入x,经过点积-乘积注意力机制计算,得到表示每个序列单元对当前单元的影响权重的向量组Z:
Figure FDA0004059369870000041
其中Q,K,V为注意力机制中的隐变量,
Figure FDA0004059369870000042
为向量组K中向量维度的平方根,对于多头注意力模型,需要利用多组独立的Q,K,V隐变量产生多个向量组{Z1,Z2,…,ZT},T为向量组的总数,以获取更加丰富的模型表达能力,将所有向量组拼接加权求和得多头注意力的输出Zfinal
Zfinal=Concat(Z1,Z2,…,ZT)Wo
前向反馈层由2层全连接层组成,负责对注意力层的输出做进一步处理;此外,注意力层和前向反馈层均被加入残差,以防止编码器层数较多时,反向传播过程中,梯度消失现象的出现;
输出向量组记为Y={y0,y1,y2,…,yN},yi∈RL,其中二维向量y0为x0对应的输出,代表整个时间片段的向量表示,将y0输入到全连接层形式的分类器,得到该片段是否存在异常的分类结果。
CN202010401503.5A 2020-05-13 2020-05-13 基于多模态深度学习技术的儿童adhd筛查评估系统 Active CN111528859B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010401503.5A CN111528859B (zh) 2020-05-13 2020-05-13 基于多模态深度学习技术的儿童adhd筛查评估系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010401503.5A CN111528859B (zh) 2020-05-13 2020-05-13 基于多模态深度学习技术的儿童adhd筛查评估系统

Publications (2)

Publication Number Publication Date
CN111528859A CN111528859A (zh) 2020-08-14
CN111528859B true CN111528859B (zh) 2023-04-18

Family

ID=71968718

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010401503.5A Active CN111528859B (zh) 2020-05-13 2020-05-13 基于多模态深度学习技术的儿童adhd筛查评估系统

Country Status (1)

Country Link
CN (1) CN111528859B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112201343B (zh) * 2020-09-29 2024-02-02 浙江大学 基于脸部微表情的认知状态识别系统及方法
CN112603320A (zh) * 2021-01-07 2021-04-06 岭南师范学院 基于脸部表情分析的光学无损特殊儿童检测仪及检测方法
CN112545519B (zh) * 2021-02-22 2021-06-04 之江实验室 一种群体情感同质性的实时评估方法和评估系统
CN113729710A (zh) * 2021-09-26 2021-12-03 华南师范大学 一种融合多生理模态的实时注意力评估方法及系统
CN113827243B (zh) * 2021-11-29 2022-04-01 江苏瑞脑启智医疗科技有限公司 注意力评估方法及系统
CN114305418B (zh) * 2021-12-16 2023-08-04 广东工业大学 一种用于抑郁状态智能评估的数据采集系统及方法
CN113990494B (zh) * 2021-12-24 2022-03-25 浙江大学 一种基于视频数据的抽动症辅助筛查系统
CN114366103B (zh) * 2022-01-07 2023-07-14 北京师范大学 注意力评估方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107106094A (zh) * 2014-12-16 2017-08-29 皇家飞利浦有限公司 注意力缺陷的评估
CN109712710A (zh) * 2018-04-26 2019-05-03 南京大学 一种基于三维眼动特征的婴幼儿发育障碍智能评估方法
CN110970130A (zh) * 2019-12-30 2020-04-07 段新 一种注意缺陷多动障碍的数据处理方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160367180A1 (en) * 2015-06-17 2016-12-22 Obsevera, Inc. Apparatus and method of conducting medical evaluation of add/adhd
CN108108684B (zh) * 2017-12-15 2020-07-17 杭州电子科技大学 一种融合视线检测的注意力检测方法
CN109902630B (zh) * 2019-03-01 2022-12-13 上海像我信息科技有限公司 一种注意力判断方法、装置、系统、设备和存储介质
CN110313923B (zh) * 2019-07-05 2022-08-16 昆山杜克大学 基于联合注意能力测试和音视频行为分析的孤独症早期筛查系统
CN110764613B (zh) * 2019-10-15 2023-07-18 北京航空航天大学青岛研究院 基于头戴式眼动模组的眼动追踪校准方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107106094A (zh) * 2014-12-16 2017-08-29 皇家飞利浦有限公司 注意力缺陷的评估
CN109712710A (zh) * 2018-04-26 2019-05-03 南京大学 一种基于三维眼动特征的婴幼儿发育障碍智能评估方法
CN110970130A (zh) * 2019-12-30 2020-04-07 段新 一种注意缺陷多动障碍的数据处理方法

Also Published As

Publication number Publication date
CN111528859A (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
CN111528859B (zh) 基于多模态深度学习技术的儿童adhd筛查评估系统
Kaur et al. Prediction and localization of student engagement in the wild
Wang et al. Screening early children with autism spectrum disorder via response-to-name protocol
CN113662545B (zh) 一种基于情绪脑电信号和多任务学习的人格评估方法
CN113662664B (zh) 一种基于仪器追踪的外科手术质量客观自动化评估方法
CN112890815A (zh) 一种基于深度学习的孤独症辅助评估系统和方法
CN111814718A (zh) 一种融合多种判别技术的注意力检测方法
CN111317448A (zh) 一种分析视觉空间认知的方法及系统
CN110192860B (zh) 一种面向网络信息认知的脑成像智能测试分析方法及系统
CN113486744B (zh) 基于眼动和人脸表情范式的学生学习状态评估系统及方法
CN116452592B (zh) 脑血管病ai认知功能评测模型的构建方法、装置及系统
CN112529054B (zh) 一种多源异构数据的多维度卷积神经网络学习者建模方法
CN116452593B (zh) 血管性认知障碍的ai评估模型的构建方法、装置及系统
Wang et al. Student physical fitness test system and test data analysis system based on computer vision
Yiğit et al. Diagnosis of paratuberculosis in histopathological images based on explainable artificial intelligence and deep learning
CN117237351A (zh) 一种超声图像分析方法以及相关装置
Dogra et al. Toward automating Hammersmith pulled-to-sit examination of infants using feature point based video object tracking
Reiter Developing an interpretable schizophrenia deep learning classifier on fMRI and sMRI using a patient-centered DeepSHAP
CN111436212A (zh) 用于医学成像评估的深度学习的应用
Zhang et al. Adhd intelligent auxiliary diagnosis system based on multimodal information fusion
CN115429271A (zh) 基于眼动和面部表情的孤独症谱系障碍筛查系统及方法
Chaabouni et al. Prediction of visual attention with Deep CNN for studies of neurodegenerative diseases
Alharthi et al. Do it the transformer way: A comprehensive review of brain and vision transformers for autism spectrum disorder diagnosis and classification
König et al. Modeling visual exploration in rhesus macaques with bottom-up salience and oculomotor statistics
CN115607159B (zh) 基于眼动序列时空特征分析的抑郁状态鉴别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240223

Address after: No. 3333, Binsheng Road, Binjiang District, Hangzhou City, Zhejiang Province, 310052

Patentee after: THE CHILDREN'S HOSPITAL ZHEJIANG University SCHOOL OF MEDICINE

Country or region after: China

Address before: 313200 Qianyuan Town Intelligent Ecological City Town Living Room (next to Deqing High Speed Railway Station), Deqing County, Huzhou City, Zhejiang Province

Patentee before: Deqing Institute of artificial intelligence, Zhejiang University

Country or region before: China

TR01 Transfer of patent right