CN112163556A - 一种基于深度学习算法的小儿视力障碍筛查系统及方法 - Google Patents

一种基于深度学习算法的小儿视力障碍筛查系统及方法 Download PDF

Info

Publication number
CN112163556A
CN112163556A CN202011110615.1A CN202011110615A CN112163556A CN 112163556 A CN112163556 A CN 112163556A CN 202011110615 A CN202011110615 A CN 202011110615A CN 112163556 A CN112163556 A CN 112163556A
Authority
CN
China
Prior art keywords
eye
face
layer
classification network
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011110615.1A
Other languages
English (en)
Inventor
冯奕乐
党康
丁晓伟
张政
邱可昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Voxelcloud Information Technology Co ltd
Original Assignee
Suzhou Voxelcloud Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Voxelcloud Information Technology Co ltd filed Critical Suzhou Voxelcloud Information Technology Co ltd
Priority to CN202011110615.1A priority Critical patent/CN112163556A/zh
Publication of CN112163556A publication Critical patent/CN112163556A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Geometry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Pathology (AREA)
  • Computational Linguistics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于深度学习算法的小儿视力障碍筛查方法及系统,包括:获取一段儿童上半身的视频;对视频进行实时解析,提取出视频中符合预设要求的高质量片段,裁剪出高质量的面部片段和眼部片段;利用面部片段信息和眼部片段信息分别训练面部分类网络和眼部分类网络,直至损失函数收敛,得到训练后的面部分类网络和眼部分类网络;使用训练后的面部分类网络和眼部分类网络,为每一个面部数组和眼部数组编码,得到相应的患有眼部疾病的概率;将得到的相应的患有眼部疾病的概率进行集成,最终输出儿童是否患有视力障碍的阴阳性判断结果;本发明解决了利用使用智能手机的摄像头拍摄的儿童上半身视频进行视力障碍筛查的问题。

Description

一种基于深度学习算法的小儿视力障碍筛查系统及方法
技术领域
本发明涉及人眼视力的快速视力筛查方法,具体地,涉及一种基于深度学习算法的小儿视力障碍筛查系统及方法。
背景技术
目前现有技术已经有很多能够对人的面部进行关键点检测以及表情识别,且精准度较高。但是,目前尚无任何专利或产品能够针对性地对儿童进行视力健康状况的筛查。即便儿童的表情能够被识别出来,也难以从表情推断出儿童是否患有眼部异常,例如斜视、眼球震颤等。
专利文献CN106169073A(申请号:201610539445.6)公开了一种表情识别方法及系统,一种表情识别方法及系统,能够提高面部表情的识别精度。所述方法包括:获取面部表情图像作为训练样本和测试样本,并提取所述面部表情图像的多个面部关键部位;提取所述面部表情图像和各面部关键部位的面部表情特征;构建稀疏分类器,依据提取的所述训练样本和测试样本的面部表情特征,对所述测试样本的面部表情图像及面部关键部位进行表情分类;对所述稀疏分类器的表情分类结果进行融合,根据融合结果确定所述测试样本的表情类别。该专利中虽然能够识别出人物的标签,但是其提供的信息并不足以支撑疾病的诊断。
此外2019年10月与Nature Biomedical Engineering第1-10页发表的"Discrimination of the behavioural dynamics of vi sually impaired infants viadeep learning."为专利申请人团队的一项前期研究,采用了和本专利类似的技术路线,同样使用拍摄的儿童视频对儿童进行视力障碍检测。但是这一研究主要在医疗场景下进行,其采用的深度神经网络架构和技术路线与本专利并不相同,主要为了契合医疗场景下的数据,且缺乏视频质控模块,不适用于用智能手机拍摄视频的日常环境中。
专利文献CN109924941A(申请号:201910055702.2)公开了一种自动进行数据收集及分析的快速视力筛查方法,其包括如下步骤:第一步、视力检测者在一检测终端输入视力检测请求,第二步、该检测终端将该视力检测请求发送至一控制服务器,第三步、该控制服务器控制一测视系统,由该测视系统将视力表的测视读数依次分组展示给视力检测者,第四步、视力检测者依次分组观察该测视读数,并逐一在该检测终端上输入判断信息,第五步、由该检测终端对该判断信息进行分析最终得到视力检测者的视力值,第六步、由该检测终端将视力检测者的视力值上传至存储云端。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于深度学习算法的小儿视力障碍筛查方法及系统。
根据本发明提供的一种基于深度学习算法的小儿视力障碍筛查方法,包括:
步骤M1:获取一段儿童上半身的视频;
步骤M2:对视频进行实时解析,利用质量控制算法,提取出视频中符合预设要求的高质量片段,并利用人脸的关键点信息,裁剪出高质量的面部片段和眼部片段;
步骤M3:利用面部片段信息和眼部片段信息分别训练面部分类网络和眼部分类网络,直至损失函数收敛,得到训练后的面部分类网络和眼部分类网络;
步骤M4:使用训练后的面部分类网络和眼部分类网络,为每一个面部数组和眼部数组编码,得到相应的患有眼部疾病的概率;
步骤M5:将通过面部分类网络得到的患有眼部疾病的概率和通过眼部分类网络得到的患有眼部疾病的概率进行集成,最终输出儿童是否患有视力障碍的阴阳性判断结果;
所述面部分类网络和眼部分类网络是基于ResNet-18架构搭建两套架构相同的视频分类网络,根据面部数组和眼部数组得到相应的眼部疾病的概率。
优选地,所述步骤M2包括:
步骤M2.1:对输入视频进行逐帧的抽取,形成视频帧;
步骤M2.2:将抽取的视频帧输入到人脸关键点提取网络,得到人脸的关键点信息;
步骤M2.3:利用人脸的关键点信息,进行二维变换,得到人脸朝向的偏航角;
步骤M2.4:当人脸朝向的偏航角超过预设值时,则认为为低质量视频帧,进行删除处理,将剩余连续的高质量视频帧拼合,组成高质量的片段;
步骤M2.5:根据人脸的关键点信息,裁剪出高质量片段中儿童的面部和双眼部分,得到高质量的面部片段和眼部片段。
优选地,所述步骤M3包括:
步骤M3.1:将每个面部片段和眼部片段的信息读取为四维数组,四个维度分别为高、宽、色彩以及时间;
步骤M3.2:对每个像素进行归一化处理,并统一缩放至预设分辨率,得到归一化后的面部数组和眼部数组;
步骤M3.3:基于ResNet-18架构搭建两套架构相同的视频分类网络,分别为面部分类网络和眼部分类网络;
步骤M3.4:基于归一化后的面部数组和眼部数组,利用Adam优化算法分别训练面部分类网络和眼部分类网络,直至相应的损失函数收敛,得到训练后的面部分类网络和眼部分类网络。
优选地,所述视频分类网络包括:多个卷积层、全连接层、时间维度池化、全连接层、ReLU层、全连接层和sigmoid层;
面部数组或眼部数组依次通过多个卷积层、全连接层、时间维度池化、全连接层、ReLU层、全连接层和sigmoid层,得到患有眼部疾病的概率。
优选地,所述多个卷积层的参数在Imagenet数据集上进行过预训练;输入的面部数组或眼部数组在时间维度上的每一帧都会经过卷积层的处理得到相应的特征图;
视频分类网络每个卷积层后都设置一层ReLU层激活函数,对特征图进行非线性处理;
所述ReLU层公式为y=max(0,x),其中:x表示待处理的特征图;y表示结果特征图;
当前卷积层延伸两个卷积层输出的特征图会与当前卷积层的特征图进行加和,得到延伸两个卷积层后最终的结果特征图;
所述加和公式为:y=g(ReLU(f(x)))+x
其中,x表示待处理的特征图;y表示最终输出的结果特征图;f表示第一个卷积层;g表示第二个卷积层;ReLU表示ReLU层;
多个卷积层中第一卷积层,特征张量经过ReLU层处理后还会经过卷积核尺寸为预设值,卷积步长为预设值的MaxPool层进行处理;
MaxPool层的表述公式为:
当X为m×n矩阵,卷积核尺寸为s,t=(0,1,2…p-1),yij=max(xi+s,j+t)其中i≤m-s,j≤n-t
其中,X表示特征图;m表示特征图第一个维度大小;n表示特征图第二个维度大小;p表示卷积核大小,为MaxPool层的参数;s,t表示卷积核尺寸内的枚举变量,遍历从0到p-1;y表示结果特征图中的元素;下标i表示结果特征图第一个维度;下标j表示结果特征图第二个维度;下标s,t表示:卷积核尺寸内的枚举变量,遍历从0到p-1;
通过多个卷积层在时间维度上得到的每一帧的特征图,使用全连接层进行线性处理;全连接层的表达式为:
y=W*X
其中,X表示特征图;W表示全连接层的参数;y表示结果特征图;
将经过全连接层处理后的特征图在时间维度上通过时间维度池化进行全局平均池化处理,将特征图从四维转换为三维;
将三维特征图依次经过全连接层、ReLU层和全连接层处理后,得到最终的特征图,将最终得到的特征图通过Sigmoid层输出最终患有眼部疾病的概率;
Sigmoid层的表达式如下:
Figure BDA0002728478540000041
其中,X表示特征图;y表示最终得到的概率。
优选地,所述损失函数包括:使用加权交叉熵函数计算损失函数,公式如下:
ln=-wn[yn*logxn+(1-yn)*log(1-xn)]
其中,ln表示损失值;wn表述损失权重;yn表示视力障碍的阴阳性标注值向量;xn表示面部分类网络或眼部分类网络输出的儿童是否患有视力障碍的概率向量;下标n表示n个输入视频;
其中,wn表述损失权重;当N表示数据集中阴性样本数量;P表示数据集中阳性样本数量;阳性样本的损失权重为N/(N+P),阴性样本的损失权重为P/(N+P)。
优选地,所述步骤M5包括:
步骤M5.1:将面部特征图和眼部特征图分别通过面部分类网络Sigmoid层和眼部分类网络的Sigmoid层输出得到两个患有眼部疾病的概率;
步骤M5.2:将得到的两个患有眼部疾病的概率进行加权平均,得到最终患有眼部疾病的概率;
步骤M5.3:当得到最终患有眼部疾病的概率大于预设值时,认为儿童患有眼部疾病的结果为阳性,否则为阴性。
优选地,所述步骤M5.3包括:
当得到最终患有眼部疾病的概率大于0.5时,认为儿童患有眼部疾病的结果为阳性,否则为阴性。
根据本发明提供的一种基于深度学习算法的小儿视力障碍筛查系统,包括:
模块M1:获取一段儿童上半身的视频;
模块M2:对视频进行实时解析,利用质量控制算法,提取出视频中符合预设要求的高质量片段,并利用人脸的关键点信息,裁剪出高质量的面部片段和眼部片段;
模块M3:利用面部片段信息和眼部片段信息分别训练面部分类网络和眼部分类网络,直至损失函数收敛,得到训练后的面部分类网络和眼部分类网络;
模块M4:使用训练后的面部分类网络和眼部分类网络,为每一个面部数组和眼部数组编码,得到相应的患有眼部疾病的概率;
模块M5:将通过面部分类网络得到的患有眼部疾病的概率和通过眼部分类网络得到的患有眼部疾病的概率进行集成,最终输出儿童是否患有视力障碍的阴阳性判断结果;
所述面部分类网络和眼部分类网络是基于ResNet-18架构搭建两套架构相同的视频分类网络,根据面部数组和眼部数组得到相应的眼部疾病的概率。
优选地,所述模块M2包括:
模块M2.1:对输入视频进行逐帧的抽取,形成视频帧;
模块M2.2:将抽取的视频帧输入到人脸关键点提取网络,得到人脸的关键点信息;
模块M2.3:利用人脸的关键点信息,进行二维变换,得到人脸朝向的偏航角;
模块M2.4:当人脸朝向的偏航角超过预设值时,则认为为低质量视频帧,进行删除处理,将剩余连续的高质量视频帧拼合,组成高质量的片段;
模块M2.5:根据人脸的关键点信息,裁剪出高质量片段中儿童的面部和双眼部分,得到高质量的面部片段和眼部片段;
所述模块M3包括:
模块M3.1:将每个面部片段和眼部片段的信息读取为四维数组,四个维度分别为高、宽、色彩以及时间;
模块M3.2:对每个像素进行归一化处理,并统一缩放至预设分辨率,得到归一化后的面部数组和眼部数组;
模块M3.3:基于ResNet-18架构搭建两套架构相同的视频分类网络,分别为面部分类网络和眼部分类网络;
模块M3.4:基于归一化后的面部数组和眼部数组,利用Adam优化算法分别训练面部分类网络和眼部分类网络,直至相应的损失函数收敛,得到训练后的面部分类网络和眼部分类网络;
所述视频分类网络包括:多个卷积层、全连接层、时间维度池化、全连接层、ReLU层、全连接层和sigmoid层;
面部数组或眼部数组依次通过多个卷积层、全连接层、时间维度池化、全连接层、ReLU层、全连接层和sigmoid层,得到患有眼部疾病的概率;
所述多个卷积层的参数在Imagenet数据集上进行过预训练;输入的面部数组或眼部数组在时间维度上的每一帧都会经过卷积层的处理得到相应的特征图;
视频分类网络每个卷积层后都设置一层ReLU层激活函数,对特征图进行非线性处理;
所述ReLU层公式为y=max(0,x),其中:x表示待处理的特征图;y表示结果特征图;
当前卷积层延伸两个卷积层输出的特征图会与当前卷积层的特征图进行加和,得到延伸两个卷积层后最终的结果特征图;
所述加和公式为:y=g(ReLU(f(x)))+x
其中,x表示待处理的特征图;y表示最终输出的结果特征图;f表示第一个卷积层;g表示第二个卷积层;ReLU表示ReLU层;
多个卷积层中第一卷积层,特征张量经过ReLU层处理后还会经过卷积核尺寸为预设值,卷积步长为预设值的MaxPool层进行处理;
MaxPool层的表述公式为:
当X为m×n矩阵,卷积核尺寸为s,t=(0,1,2…p-1),yij=max(xi+s,j+t)其中i≤m-s,j≤n-t
其中,X表示特征图;m表示特征图第一个维度大小;n表示特征图第二个维度大小;p表示卷积核大小,为MaxPool层的参数;s,t表示卷积核尺寸内的枚举变量,遍历从0到p-1;y表示结果特征图中的元素;下标i表示结果特征图第一个维度;下标j表示结果特征图第二个维度;下标s,t表示:卷积核尺寸内的枚举变量,遍历从0到p-1;
通过多个卷积层在时间维度上得到的每一帧的特征图,使用全连接层进行线性处理;全连接层的表达式为:
y=W*X
其中,X表示特征图;W表示全连接层的参数;y表示结果特征图;
将经过全连接层处理后的特征图在时间维度上通过时间维度池化进行全局平均池化处理,将特征图从四维转换为三维;
将三维特征图依次经过全连接层、ReLU层和全连接层处理后,得到最终的特征图,将最终得到的特征图通过Sigmoid层输出最终患有眼部疾病的概率;
Sigmoid层的表达式如下:
Figure BDA0002728478540000071
其中,X表示特征图;y表示最终得到的概率;
所述损失函数包括:使用加权交叉熵函数计算损失函数,公式如下:
ln=-wn[yn*logxn+(1-yn)*log(1-xn)]
其中,ln表示损失值;wn表述损失权重;yn表示视力障碍的阴阳性标注值向量;xn表示面部分类网络或眼部分类网络输出的儿童是否患有视力障碍的概率向量;下标n表示n个输入视频;
其中,wn表述损失权重;当N表示数据集中阴性样本数量;P表示数据集中阳性样本数量;阳性样本的损失权重为N/(N+P),阴性样本的损失权重为P/(N+P);
所述模块M5包括:
模块M5.1:将面部特征图和眼部特征图分别通过面部分类网络Sigmoid层和眼部分类网络的Sigmoid层输出得到两个患有眼部疾病的概率;
模块M5.2:将得到的两个患有眼部疾病的概率进行加权平均,得到最终患有眼部疾病的概率;
模块M5.3:当得到最终患有眼部疾病的概率大于预设值时,认为儿童患有眼部疾病的结果为阳性,否则为阴性;
所述模块M5.3包括:
当得到最终患有眼部疾病的概率大于0.5时,认为儿童患有眼部疾病的结果为阳性,否则为阴性。
与现有技术相比,本发明具有如下的有益效果:
1、本发明通过采用质量控制于深度卷积神经网络的架构,解决了利用使用智能手机的摄像头拍摄的儿童上半身视频进行视力障碍筛查的问题。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为基于深度学习算法的小儿视力障碍筛查方法的工作流程;
图2为视频分类网络的架构示意图;
图3为视频分类网络卷积层及架构示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例1
根据本发明提供的一种基于深度学习算法的小儿视力障碍筛查方法,包括:
步骤M1:获取一段儿童上半身的视频;
步骤M2:对视频进行实时解析,利用质量控制算法,提取出视频中符合预设要求的高质量片段,并利用人脸的关键点信息,裁剪出高质量的面部片段和眼部片段;
步骤M3:利用面部片段信息和眼部片段信息分别训练面部分类网络和眼部分类网络,直至损失函数收敛,得到训练后的面部分类网络和眼部分类网络;
步骤M4:使用训练后的面部分类网络和眼部分类网络,为每一个面部数组和眼部数组编码,得到相应的患有眼部疾病的概率;
步骤M5:将通过面部分类网络得到的患有眼部疾病的概率和通过眼部分类网络得到的患有眼部疾病的概率进行集成,最终输出儿童是否患有视力障碍的阴阳性判断结果;
所述面部分类网络和眼部分类网络是基于ResNet-18架构搭建两套架构相同的视频分类网络,根据面部数组和眼部数组得到相应的眼部疾病的概率。
具体地,所述步骤M2包括:
步骤M2.1:对输入视频进行逐帧的抽取,形成视频帧;
步骤M2.2:将抽取的视频帧输入到人脸关键点提取网络,得到人脸的关键点信息;
步骤M2.3:利用人脸的关键点信息,进行二维变换,得到人脸朝向的偏航角;
步骤M2.4:当人脸朝向的偏航角超过预设值时,则认为为低质量视频帧,进行删除处理,将剩余连续的高质量视频帧拼合,组成高质量的片段;
步骤M2.5:根据人脸的关键点信息,裁剪出高质量片段中儿童的面部和双眼部分,得到高质量的面部片段和眼部片段。
具体地,所述步骤M3包括:
步骤M3.1:将每个面部片段和眼部片段的信息读取为四维数组,四个维度分别为高、宽、色彩以及时间;
步骤M3.2:对每个像素进行归一化处理,并统一缩放至预设分辨率,得到归一化后的面部数组和眼部数组;
步骤M3.3:基于ResNet-18架构搭建两套架构相同的视频分类网络,分别为面部分类网络和眼部分类网络;
步骤M3.4:基于归一化后的面部数组和眼部数组,利用Adam优化算法分别训练面部分类网络和眼部分类网络,直至相应的损失函数收敛,得到训练后的面部分类网络和眼部分类网络。
具体地,所述视频分类网络包括:多个卷积层、全连接层、时间维度池化、全连接层、ReLU层、全连接层和sigmoid层;
面部数组或眼部数组依次通过多个卷积层、全连接层、时间维度池化、全连接层、ReLU层、全连接层和sigmoid层,得到患有眼部疾病的概率。
具体地,所述多个卷积层的参数在Imagenet数据集上进行过预训练;输入的面部数组或眼部数组在时间维度上的每一帧都会经过卷积层的处理得到相应的特征图;
视频分类网络每个卷积层后都设置一层ReLU层激活函数,对特征图进行非线性处理;
所述ReLU层公式为y=max(0,x),其中:x表示待处理的特征图;y表示结果特征图;
当前卷积层延伸两个卷积层输出的特征图会与当前卷积层的特征图进行加和,得到延伸两个卷积层后最终的结果特征图;
所述加和公式为:y=g(ReLU(f(x)))+x
其中,x表示待处理的特征图;y表示最终输出的结果特征图;f表示第一个卷积层;g表示第二个卷积层;ReLU表示ReLU层;
多个卷积层中第一卷积层,特征张量经过ReLU层处理后还会经过卷积核尺寸为预设值,卷积步长为预设值的MaxPool层进行处理;
MaxPool层的表述公式为:
当X为m×n矩阵,卷积核尺寸为s,t=(0,1,2…p-1),yij=max(xi+s,j+t)其中i≤m-s,j≤n-t
其中,X表示特征图;m表示特征图第一个维度大小;n表示特征图第二个维度大小;p表示卷积核大小,为MaxPool层的参数;s,t表示卷积核尺寸内的枚举变量,遍历从0到p-1;y表示结果特征图中的元素;下标i表示结果特征图第一个维度;下标j表示结果特征图第二个维度;下标s,t表示:卷积核尺寸内的枚举变量,遍历从0到p-1;
通过多个卷积层在时间维度上得到的每一帧的特征图,使用全连接层进行线性处理;全连接层的表达式为:
y=W*X
其中,X表示特征图;W表示全连接层的参数;y表示结果特征图;
将经过全连接层处理后的特征图在时间维度上通过时间维度池化进行全局平均池化处理,将特征图从四维转换为三维;
将三维特征图依次经过全连接层、ReLU层和全连接层处理后,得到最终的特征图,将最终得到的特征图通过Sigmoid层输出最终患有眼部疾病的概率;
Sigmoid层的表达式如下:
Figure BDA0002728478540000101
其中,X表示特征图;y表示最终得到的概率。
具体地,所述损失函数包括:使用加权交叉熵函数计算损失函数,公式如下:
ln=-wn[yn*logxn+(1-yn)*log(1-xn)]
其中,ln表示损失值;wn表述损失权重;yn表示视力障碍的阴阳性标注值向量;xn表示面部分类网络或眼部分类网络输出的儿童是否患有视力障碍的概率向量;下标n表示n个输入视频;
其中,wn表述损失权重;当N表示数据集中阴性样本数量;P表示数据集中阳性样本数量;阳性样本的损失权重为N/(N+P),阴性样本的损失权重为P/(N+P)。
具体地,所述步骤M5包括:
步骤M5.1:将面部特征图和眼部特征图分别通过面部分类网络Sigmoid层和眼部分类网络的Sigmoid层输出得到两个患有眼部疾病的概率;
步骤M5.2:将得到的两个患有眼部疾病的概率进行加权平均,得到最终患有眼部疾病的概率;
步骤M5.3:当得到最终患有眼部疾病的概率大于预设值时,认为儿童患有眼部疾病的结果为阳性,否则为阴性。
具体地,所述步骤M5.3包括:
当得到最终患有眼部疾病的概率大于0.5时,认为儿童患有眼部疾病的结果为阳性,否则为阴性。
根据本发明提供的一种基于深度学习算法的小儿视力障碍筛查系统,包括:
模块M1:获取一段儿童上半身的视频;
模块M2:对视频进行实时解析,利用质量控制算法,提取出视频中符合预设要求的高质量片段,并利用人脸的关键点信息,裁剪出高质量的面部片段和眼部片段;
模块M3:利用面部片段信息和眼部片段信息分别训练面部分类网络和眼部分类网络,直至损失函数收敛,得到训练后的面部分类网络和眼部分类网络;
模块M4:使用训练后的面部分类网络和眼部分类网络,为每一个面部数组和眼部数组编码,得到相应的患有眼部疾病的概率;
模块M5:将通过面部分类网络得到的患有眼部疾病的概率和通过眼部分类网络得到的患有眼部疾病的概率进行集成,最终输出儿童是否患有视力障碍的阴阳性判断结果;
所述面部分类网络和眼部分类网络是基于ResNet-18架构搭建两套架构相同的视频分类网络,根据面部数组和眼部数组得到相应的眼部疾病的概率。
具体地,所述模块M2包括:
模块M2.1:对输入视频进行逐帧的抽取,形成视频帧;
模块M2.2:将抽取的视频帧输入到人脸关键点提取网络,得到人脸的关键点信息;
模块M2.3:利用人脸的关键点信息,进行二维变换,得到人脸朝向的偏航角;
模块M2.4:当人脸朝向的偏航角超过预设值时,则认为为低质量视频帧,进行删除处理,将剩余连续的高质量视频帧拼合,组成高质量的片段;
模块M2.5:根据人脸的关键点信息,裁剪出高质量片段中儿童的面部和双眼部分,得到高质量的面部片段和眼部片段;
所述模块M3包括:
模块M3.1:将每个面部片段和眼部片段的信息读取为四维数组,四个维度分别为高、宽、色彩以及时间;
模块M3.2:对每个像素进行归一化处理,并统一缩放至预设分辨率,得到归一化后的面部数组和眼部数组;
模块M3.3:基于ResNet-18架构搭建两套架构相同的视频分类网络,分别为面部分类网络和眼部分类网络;
模块M3.4:基于归一化后的面部数组和眼部数组,利用Adam优化算法分别训练面部分类网络和眼部分类网络,直至相应的损失函数收敛,得到训练后的面部分类网络和眼部分类网络;
所述视频分类网络包括:多个卷积层、全连接层、时间维度池化、全连接层、ReLU层、全连接层和sigmoid层;
面部数组或眼部数组依次通过多个卷积层、全连接层、时间维度池化、全连接层、ReLU层、全连接层和sigmoid层,得到患有眼部疾病的概率;
所述多个卷积层的参数在Imagenet数据集上进行过预训练;输入的面部数组或眼部数组在时间维度上的每一帧都会经过卷积层的处理得到相应的特征图;
视频分类网络每个卷积层后都设置一层ReLU层激活函数,对特征图进行非线性处理;
所述ReLU层公式为y=max(0,x),其中:x表示待处理的特征图;y表示结果特征图;
当前卷积层延伸两个卷积层输出的特征图会与当前卷积层的特征图进行加和,得到延伸两个卷积层后最终的结果特征图;
所述加和公式为:y=g(ReLU(f(x)))+x
其中,x表示待处理的特征图;y表示最终输出的结果特征图;f表示第一个卷积层;g表示第二个卷积层;ReLU表示ReLU层;
多个卷积层中第一卷积层,特征张量经过ReLU层处理后还会经过卷积核尺寸为预设值,卷积步长为预设值的MaxPool层进行处理;
MaxPool层的表述公式为:
当X为m×n矩阵,卷积核尺寸为s,t=(0,1,2…p-1),yij=max(xi+s,j+t)其中i≤m-s,j≤n-t
其中,X表示特征图;m表示特征图第一个维度大小;n表示特征图第二个维度大小;p表示卷积核大小,为MaxPool层的参数;s,t表示卷积核尺寸内的枚举变量,遍历从0到p-1;y表示结果特征图中的元素;下标i表示结果特征图第一个维度;下标j表示结果特征图第二个维度;下标s,t表示:卷积核尺寸内的枚举变量,遍历从0到p-1;
通过多个卷积层在时间维度上得到的每一帧的特征图,使用全连接层进行线性处理;全连接层的表达式为:
y=W*X
其中,X表示特征图;W表示全连接层的参数;y表示结果特征图;
将经过全连接层处理后的特征图在时间维度上通过时间维度池化进行全局平均池化处理,将特征图从四维转换为三维;
将三维特征图依次经过全连接层、ReLU层和全连接层处理后,得到最终的特征图,将最终得到的特征图通过Sigmoid层输出最终患有眼部疾病的概率;
Sigmoid层的表达式如下:
Figure BDA0002728478540000131
其中,X表示特征图;y表示最终得到的概率;
所述损失函数包括:使用加权交叉熵函数计算损失函数,公式如下:
ln=-wn[yn*logxn+(1-yn)*log(1-xn)]
其中,ln表示损失值;wn表述损失权重;yn表示视力障碍的阴阳性标注值向量;xn表示面部分类网络或眼部分类网络输出的儿童是否患有视力障碍的概率向量;下标n表示n个输入视频;
其中,wn表述损失权重;当N表示数据集中阴性样本数量;P表示数据集中阳性样本数量;阳性样本的损失权重为N/(N+P),阴性样本的损失权重为P/(N+P);
所述模块M5包括:
模块M5.1:将面部特征图和眼部特征图分别通过面部分类网络Sigmoid层和眼部分类网络的Sigmoid层输出得到两个患有眼部疾病的概率;
模块M5.2:将得到的两个患有眼部疾病的概率进行加权平均,得到最终患有眼部疾病的概率;
模块M5.3:当得到最终患有眼部疾病的概率大于预设值时,认为儿童患有眼部疾病的结果为阳性,否则为阴性;
所述模块M5.3包括:
当得到最终患有眼部疾病的概率大于0.5时,认为儿童患有眼部疾病的结果为阳性,否则为阴性。
实施例2
实施例2是实施例1的变化例
步骤1:利用智能手机的前置摄像头拍摄一段儿童上半身的视频。
步骤2:对视频进行实时解析,利用质量控制算法,提取出视频中高质量的片段。
步骤3:对每一个提取出的高质量片段,利用视频分类网络,给出儿童健康与否的标签及其对应的概率。
所述步骤2中提出的质量控制算法包括如下步骤:
步骤2.1:对输入视频进行逐帧的抽取,形成一系列的视频帧。
步骤2.2:将抽取的视频帧输入到人脸关键点提取网络,质量控制网络得到人脸的关键点信息
步骤2.3:利用步骤2.2所得到的人脸关键点信息,进行二维变换,计算出人脸朝向的偏航角。
步骤2.4:人脸的偏航角超过40度的视频帧认为是低质量视频帧,将其删除步骤2.5:对于剩余的高质量视频帧,将连续的视频帧拼合,组成高质量的片段。
步骤2.6:根据人脸的关键点信息,裁剪出高质量片段中儿童的面部和双眼部分。得到高质量的面部片段和眼部片段。
所述步骤3可以拆分为以下子步骤:
步骤3.1:将每个面部片段和眼部片段的信息读取为四维数组。四个维度分别为高、宽、色彩以及时间。将其中的每一个像素除以预设值,使得每一个像素的值都在0-1之间,得到归一化后的面部数组和眼部数组。并统一缩放至128*128的分辨率。
步骤3.2:搭建两套架构相同的基于ResNet-18架构的视频分类网络。分别以面部数组和眼部数组作为输入,以下称做面部分类网络和眼部分类网络(网络构架详细描述见后文)。
步骤3.3:利用步骤3.1中得到的四维数组分别训练面部分类网络和眼部分类网络(详细描述见后文中的3.3.1到3.3.2)。
步骤3.4:使用训练后的面部分类网络和眼部分类网络,为每一个面部数组和眼部数组编码,得到其对应的特征图。
步骤3.5:利用步骤3.4中所得到的特征图,将两者的输出结果进行集成,最终输出儿童是否患有视力障碍的阴阳性判断结果
所述步骤3.2的视频分类网络包括:
视频分类网络具有多个卷积层,卷积层的参数已在Imagenet数据集上进行过预训练。输入的面部数组或眼部数组在时间维度上的每一帧都会经过卷积层的处理后得到其对应的特征图。
视频分类网络每个卷积层后都搭配一层ReLU层激活函数。对特征图进行非线性处理。
所述ReLU层的公式为:
y=max(0,x),其中:x表示待处理的特征图;y表示结果特征图。
网络每延伸两个卷积层,其输出的特征图会和当前特征图进行加和。得到最终的结果特征图。
所述的加和公式为:
y=g(ReLU(f(x)))+x
其中:x表示待处理的特征图;y表示最终输出的结果特征图;f表示第一个卷积层;g表示第二个卷积层;ReLU表示上述ReLU层。
对于第1卷积层,特征张量经过ReLU层处理后还会经过卷积核尺寸为预设值,卷积步长为预设值的MaxPool层进行处理;
MaxPool层的表述公式为:
当X为m×n矩阵,卷积核尺寸为s,t=(0,1,2…p-1),yij=max(xi+s,j+t)其中i≤m-s,j≤n-t
其中,X表示特征图;m表示特征图第一个维度大小;n表示特征图第二个维度大小;p表示卷积核大小,为MaxPool层的参数;s,t表示卷积核尺寸内的枚举变量,遍历从0到p-1;y表示结果特征图中的元素;下标i表示结果特征图第一个维度;下标j表示结果特征图第二个维度;下标s,t表示:卷积核尺寸内的枚举变量,遍历从0到p-1。
上述所有内容的详细架构已在图3中给出。
对于第17卷积层,时间维度上得到的每一帧的特征图经过ReLU层处理后还会使用全连接层进行线性处理。
全连接层的表述公式为:
y=W*X
其中,X表示特征图;W表示全连接层的参数;y表示结果特征图。
对上述步骤得到的经过线性处理后的特征图在时间维度进行全局平均池化处理,将特征图从四维转换为三维。
将上述的三维特征图经过两次全连接层处理后,得到最终的特征图,并通过Sigmoid层输出最终患有眼部疾病的概率。其中,第一次全连接层后需要接ReLU层进行非线性处理。
上述Sigmoid层的表述公式为:
Figure BDA0002728478540000151
其中,X表示特征图;y表示最终得到的概率。
所述视频分类网络的卷积层包括:如表一所示
Figure BDA0002728478540000161
表一
所述步骤3.3的视频分类网络训练过程包含以下步骤:
步骤3.3.1:使用加权交叉熵函数计算损失函数,其函数公式为:
ln=-wn[yn*logxn+(1-yn)*log(1-xn)]
其中,ln表示:损失值;wn表述:损失权重;yn表示:视力障碍的阴阳性标注值向量;xn表示:面部分类网络或眼部分类网络输出的儿童是否患有视力障碍的概率向量;下标n表示:n个输入视频;
在训练过程中,对每个训练集中的阴性或阳性样本的判断计算损失函数结果时,我们将取1减去对应阴阳性在整个训练数据集中占比为权重来通过损失函数进行损失计算,即:假设数据集中有P个阳性样本,N个阴性样本,那么阳性样本的损失权重为N/(N+P),阴性样本的损失权重为P/(N+P);
步骤3.3.2:使用Adam优化算法作为损失函数的优化算法来不断学习视频分类网络中每一层参数;
所述步骤3.5视频分类网络集成包含以下步骤:
步骤3.5.1:将面部特征图和眼部特征图分别通过Sigmoid层输出得到两个患有眼部疾病的概率。
步骤3.5.2:将步骤3.5.1中得到的两个患有眼部疾病的概率进行加权平均,得到最终患有眼部疾病的概率。
步骤3.5.3:当步骤3.5.2中得到的最终患有眼部疾病的概率大于0.5时,即认为儿童患有眼部疾病的结果为阳性,反之则为阴性。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种基于深度学习算法的小儿视力障碍筛查方法,其特征在于,包括:
步骤M1:获取一段儿童上半身的视频;
步骤M2:对视频进行实时解析,利用质量控制算法,提取出视频中符合预设要求的高质量片段,并利用人脸的关键点信息,裁剪出高质量的面部片段和眼部片段;
步骤M3:利用面部片段信息和眼部片段信息分别训练面部分类网络和眼部分类网络,直至损失函数收敛,得到训练后的面部分类网络和眼部分类网络;
步骤M4:使用训练后的面部分类网络和眼部分类网络,为每一个面部数组和眼部数组编码,得到相应的患有眼部疾病的概率;
步骤M5:将通过面部分类网络得到的患有眼部疾病的概率和通过眼部分类网络得到的患有眼部疾病的概率进行集成,最终输出儿童是否患有视力障碍的阴阳性判断结果;
所述面部分类网络和眼部分类网络是基于ResNet-18架构搭建两套架构相同的视频分类网络,根据面部数组和眼部数组得到相应的眼部疾病的概率。
2.根据权利要求1所述的基于深度学习算法的小儿视力障碍筛查方法,其特征在于,所述步骤M2包括:
步骤M2.1:对输入视频进行逐帧的抽取,形成视频帧;
步骤M2.2:将抽取的视频帧输入到人脸关键点提取网络,得到人脸的关键点信息;
步骤M2.3:利用人脸的关键点信息,进行二维变换,得到人脸朝向的偏航角;
步骤M2.4:当人脸朝向的偏航角超过预设值时,则认为为低质量视频帧,进行删除处理,将剩余连续的高质量视频帧拼合,组成高质量的片段;
步骤M2.5:根据人脸的关键点信息,裁剪出高质量片段中儿童的面部和双眼部分,得到高质量的面部片段和眼部片段。
3.根据权利要求1所述的基于深度学习算法的小儿视力障碍筛查方法,其特征在于,所述步骤M3包括:
步骤M3.1:将每个面部片段和眼部片段的信息读取为四维数组,四个维度分别为高、宽、色彩以及时间;
步骤M3.2:对每个像素进行归一化处理,并统一缩放至预设分辨率,得到归一化后的面部数组和眼部数组;
步骤M3.3:基于ResNet-18架构搭建两套架构相同的视频分类网络,分别为面部分类网络和眼部分类网络;
步骤M3.4:基于归一化后的面部数组和眼部数组,利用Adam优化算法分别训练面部分类网络和眼部分类网络,直至相应的损失函数收敛,得到训练后的面部分类网络和眼部分类网络。
4.根据权利要求3所述的基于深度学习算法的小儿视力障碍筛查方法,其特征在于,所述视频分类网络包括:多个卷积层、全连接层、时间维度池化、全连接层、ReLU层、全连接层和sigmoid层;
面部数组或眼部数组依次通过多个卷积层、全连接层、时间维度池化、全连接层、ReLU层、全连接层和sigmoid层,得到患有眼部疾病的概率。
5.根据权利要求4所述的基于深度学习算法的小儿视力障碍筛查方法,其特征在于,所述多个卷积层的参数在Imagenet数据集上进行过预训练;输入的面部数组或眼部数组在时间维度上的每一帧都会经过卷积层的处理得到相应的特征图;
视频分类网络每个卷积层后都设置一层ReLU层激活函数,对特征图进行非线性处理;
所述ReLU层公式为y=max(0,x),其中:x表示待处理的特征图;y表示结果特征图;
当前卷积层延伸两个卷积层输出的特征图与当前卷积层的特征图进行加和,得到延伸两个卷积层后最终的结果特征图;
所述加和公式为:y=g(ReLU(f(x)))+x
其中,x表示待处理的特征图;y表示最终输出的结果特征图;f表示第一个卷积层;g表示第二个卷积层;ReLU表示ReLU层;
多个卷积层中第一卷积层,特征张量经过ReLU层处理后经过卷积核尺寸为预设值,卷积步长为预设值的MaxPool层进行处理;
MaxPool层的表述公式为:
当X为m×n矩阵,卷积核尺寸为s,t=(0,1,2…p-1),yij=max(xi+s,j+t)其中i≤m-s,j≤n-t
其中,X表示特征图;m表示特征图第一个维度大小;n表示特征图第二个维度大小;p表示卷积核大小,为MaxPool层的参数;s,t表示卷积核尺寸内的枚举变量,遍历从0到p-1;y表示结果特征图中的元素;下标i表示结果特征图第一个维度;下标j表示结果特征图第二个维度;下标s,t表示:卷积核尺寸内的枚举变量,遍历从0到p-1;
通过多个卷积层在时间维度上得到的每一帧的特征图,使用全连接层进行线性处理;
全连接层的表达式为:
y=W*X
其中,X表示特征图;W表示全连接层的参数;y表示结果特征图;
将经过全连接层处理后的特征图在时间维度上通过时间维度池化进行全局平均池化处理,将特征图从四维转换为三维;
将三维特征图依次经过全连接层、ReLU层和全连接层处理后,得到最终的特征图,将最终得到的特征图通过Sigmoid层输出最终患有眼部疾病的概率;
Sigmoid层的表达式如下:
Figure FDA0002728478530000031
其中,X表示特征图;y表示最终得到的概率。
6.根据权利要求1所述的基于深度学习算法的小儿视力障碍筛查方法,其特征在于,所述损失函数包括:使用加权交叉熵函数计算损失函数,公式如下:
ln=-wn[yn*logxn+(1-yn)*log(1-xn)]
其中,ln表示损失值;wn表述损失权重;yn表示视力障碍的阴阳性标注值向量;xn表示面部分类网络或眼部分类网络输出的儿童是否患有视力障碍的概率向量;下标n表示n个输入视频;
其中,wn表述损失权重;当N表示数据集中阴性样本数量;P表示数据集中阳性样本数量;阳性样本的损失权重为N/(N+P),阴性样本的损失权重为P/(N+P)。
7.根据权利要求1所述的基于深度学习算法的小儿视力障碍筛查方法,其特征在于,所述步骤M5包括:
步骤M5.1:将面部特征图和眼部特征图分别通过面部分类网络Sigmoid层和眼部分类网络的Sigmoid层输出得到两个患有眼部疾病的概率;
步骤M5.2:将得到的两个患有眼部疾病的概率进行加权平均,得到最终患有眼部疾病的概率;
步骤M5.3:当得到最终患有眼部疾病的概率大于预设值时,认为儿童患有眼部疾病的结果为阳性,否则为阴性。
8.根据权利要求7所述的基于深度学习算法的小儿视力障碍筛查方法,其特征在于,所述步骤M5.3包括:
当得到最终患有眼部疾病的概率大于0.5时,认为儿童患有眼部疾病的结果为阳性,否则为阴性。
9.一种基于深度学习算法的小儿视力障碍筛查系统,其特征在于,包括:
模块M1:获取一段儿童上半身的视频;
模块M2:对视频进行实时解析,利用质量控制算法,提取出视频中符合预设要求的高质量片段,并利用人脸的关键点信息,裁剪出高质量的面部片段和眼部片段;
模块M3:利用面部片段信息和眼部片段信息分别训练面部分类网络和眼部分类网络,直至损失函数收敛,得到训练后的面部分类网络和眼部分类网络;
模块M4:使用训练后的面部分类网络和眼部分类网络,为每一个面部数组和眼部数组编码,得到相应的患有眼部疾病的概率;
模块M5:将通过面部分类网络得到的患有眼部疾病的概率和通过眼部分类网络得到的患有眼部疾病的概率进行集成,最终输出儿童是否患有视力障碍的阴阳性判断结果;
所述面部分类网络和眼部分类网络是基于ResNet-18架构搭建两套架构相同的视频分类网络,根据面部数组和眼部数组得到相应的眼部疾病的概率。
10.根据权利要求9所述的基于深度学习算法的小儿视力障碍筛查系统,其特征在于,所述模块M2包括:
模块M2.1:对输入视频进行逐帧的抽取,形成视频帧;
模块M2.2:将抽取的视频帧输入到人脸关键点提取网络,得到人脸的关键点信息;
模块M2.3:利用人脸的关键点信息,进行二维变换,得到人脸朝向的偏航角;
模块M2.4:当人脸朝向的偏航角超过预设值时,则认为为低质量视频帧,进行删除处理,将剩余连续的高质量视频帧拼合,组成高质量的片段;
模块M2.5:根据人脸的关键点信息,裁剪出高质量片段中儿童的面部和双眼部分,得到高质量的面部片段和眼部片段;
所述模块M3包括:
模块M3.1:将每个面部片段和眼部片段的信息读取为四维数组,四个维度分别为高、宽、色彩以及时间;
模块M3.2:对每个像素进行归一化处理,并统一缩放至预设分辨率,得到归一化后的面部数组和眼部数组;
模块M3.3:基于ResNet-18架构搭建两套架构相同的视频分类网络,分别为面部分类网络和眼部分类网络;
模块M3.4:基于归一化后的面部数组和眼部数组,利用Adam优化算法分别训练面部分类网络和眼部分类网络,直至相应的损失函数收敛,得到训练后的面部分类网络和眼部分类网络;
所述视频分类网络包括:多个卷积层、全连接层、时间维度池化、全连接层、ReLU层、全连接层和sigmoid层;
面部数组或眼部数组依次通过多个卷积层、全连接层、时间维度池化、全连接层、ReLU层、全连接层和sigmoid层,得到患有眼部疾病的概率;
所述多个卷积层的参数在Imagenet数据集上进行过预训练;输入的面部数组或眼部数组在时间维度上的每一帧都会经过卷积层的处理得到相应的特征图;
视频分类网络每个卷积层后都设置一层ReLU层激活函数,对特征图进行非线性处理;
所述ReLU层公式为y=max(0,x),其中:x表示待处理的特征图;y表示结果特征图;
当前卷积层延伸两个卷积层输出的特征图会与当前卷积层的特征图进行加和,得到延伸两个卷积层后最终的结果特征图;
所述加和公式为:y=g(ReLU(f(x)))+x
其中,x表示待处理的特征图;y表示最终输出的结果特征图;f表示第一个卷积层;g表示第二个卷积层;ReLU表示ReLU层;
多个卷积层中第一卷积层,特征张量经过ReLU层处理后还会经过卷积核尺寸为预设值,卷积步长为预设值的MaxPool层进行处理;
MaxPool层的表述公式为:
当X为m×n矩阵,卷积核尺寸为s,t=(0,1,2…p-1),yij=max(xi+s,j+t)其中i≤m-s,j≤n-t
其中,X表示特征图;m表示特征图第一个维度大小;n表示特征图第二个维度大小;p表示卷积核大小,为MaxPool层的参数;s,t表示卷积核尺寸内的枚举变量,遍历从0到p-1;y表示结果特征图中的元素;下标i表示结果特征图第一个维度;下标j表示结果特征图第二个维度;下标s,t表示:卷积核尺寸内的枚举变量,遍历从0到p-1;
通过多个卷积层在时间维度上得到的每一帧的特征图,使用全连接层进行线性处理;
全连接层的表达式为:
y=W*X
其中,X表示特征图;W表示全连接层的参数;y表示结果特征图;
将经过全连接层处理后的特征图在时间维度上通过时间维度池化进行全局平均池化处理,将特征图从四维转换为三维;
将三维特征图依次经过全连接层、ReLU层和全连接层处理后,得到最终的特征图,将最终得到的特征图通过Sigmoid层输出最终患有眼部疾病的概率;
Sigmoid层的表达式如下:
Figure FDA0002728478530000061
其中,X表示特征图;y表示最终得到的概率;
所述损失函数包括:使用加权交叉熵函数计算损失函数,公式如下:
ln=-wn[yn*logxn+(1-yn)*log(1-xn)]
其中,ln表示损失值;wn表述损失权重;yn表示视力障碍的阴阳性标注值向量;xn表示面部分类网络或眼部分类网络输出的儿童是否患有视力障碍的概率向量;下标n表示n个输入视频;
其中,wn表述损失权重;当N表示数据集中阴性样本数量;P表示数据集中阳性样本数量;阳性样本的损失权重为N/(N+P),阴性样本的损失权重为P/(N+P);
所述模块M5包括:
模块M5.1:将面部特征图和眼部特征图分别通过面部分类网络Sigmoid层和眼部分类网络的Sigmoid层输出得到两个患有眼部疾病的概率;
模块M5.2:将得到的两个患有眼部疾病的概率进行加权平均,得到最终患有眼部疾病的概率;
模块M5.3:当得到最终患有眼部疾病的概率大于预设值时,认为儿童患有眼部疾病的结果为阳性,否则为阴性;
所述模块M5.3包括:
当得到最终患有眼部疾病的概率大于0.5时,认为儿童患有眼部疾病的结果为阳性,否则为阴性。
CN202011110615.1A 2020-10-16 2020-10-16 一种基于深度学习算法的小儿视力障碍筛查系统及方法 Pending CN112163556A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011110615.1A CN112163556A (zh) 2020-10-16 2020-10-16 一种基于深度学习算法的小儿视力障碍筛查系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011110615.1A CN112163556A (zh) 2020-10-16 2020-10-16 一种基于深度学习算法的小儿视力障碍筛查系统及方法

Publications (1)

Publication Number Publication Date
CN112163556A true CN112163556A (zh) 2021-01-01

Family

ID=73867539

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011110615.1A Pending CN112163556A (zh) 2020-10-16 2020-10-16 一种基于深度学习算法的小儿视力障碍筛查系统及方法

Country Status (1)

Country Link
CN (1) CN112163556A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106169073A (zh) * 2016-07-11 2016-11-30 北京科技大学 一种表情识别方法及系统
CN108875602A (zh) * 2018-05-31 2018-11-23 珠海亿智电子科技有限公司 监控环境下基于深度学习的人脸识别方法
CN109924941A (zh) * 2019-01-22 2019-06-25 深圳市聚派乐品科技有限公司 一种自动进行数据收集及分析的快速视力筛查方法
CN110269587A (zh) * 2019-06-28 2019-09-24 中山大学中山眼科中心 婴幼儿动作分析系统和基于动作的婴幼儿视力分析系统
CN110428908A (zh) * 2019-07-31 2019-11-08 广西壮族自治区人民医院 一种基于人工智能的眼睑运动功能评估系统
CN110930378A (zh) * 2019-11-18 2020-03-27 上海体素信息科技有限公司 基于低数据需求的肺气肿影像处理方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106169073A (zh) * 2016-07-11 2016-11-30 北京科技大学 一种表情识别方法及系统
CN108875602A (zh) * 2018-05-31 2018-11-23 珠海亿智电子科技有限公司 监控环境下基于深度学习的人脸识别方法
CN109924941A (zh) * 2019-01-22 2019-06-25 深圳市聚派乐品科技有限公司 一种自动进行数据收集及分析的快速视力筛查方法
CN110269587A (zh) * 2019-06-28 2019-09-24 中山大学中山眼科中心 婴幼儿动作分析系统和基于动作的婴幼儿视力分析系统
CN110428908A (zh) * 2019-07-31 2019-11-08 广西壮族自治区人民医院 一种基于人工智能的眼睑运动功能评估系统
CN110930378A (zh) * 2019-11-18 2020-03-27 上海体素信息科技有限公司 基于低数据需求的肺气肿影像处理方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ERPING LONG: "Discrimination of the behavioural dynamics of visually impaired infants via deep learning", 《NATURE BIOMEDICAL ENGINEERING》 *

Similar Documents

Publication Publication Date Title
US10089556B1 (en) Self-attention deep neural network for action recognition in surveillance videos
CN110929622B (zh) 视频分类方法、模型训练方法、装置、设备及存储介质
CN110287805B (zh) 基于三流卷积神经网络的微表情识别方法及系统
CN112446476A (zh) 神经网络模型压缩的方法、装置、存储介质和芯片
CN111292765B (zh) 一种融合多个深度学习模型的双模态情感识别方法
CN105654141A (zh) 基于Isomap和SVM算法的俯视群养猪个体识别方法
CN110427881B (zh) 基于人脸局部区域特征学习的跨库微表情识别方法及装置
CN111242155A (zh) 一种基于多模深度学习的双模态情感识别方法
CN111353390A (zh) 一种基于深度学习的微表情识别方法
CN113205002B (zh) 非受限视频监控的低清人脸识别方法、装置、设备及介质
CN110930378A (zh) 基于低数据需求的肺气肿影像处理方法及系统
CN115966010A (zh) 一种基于注意力和多尺度特征融合的表情识别方法
Sinha et al. Real time facial emotion recognition using deep learning
CN113536970A (zh) 一种视频分类模型的训练方法及相关装置
Javer et al. Identification of C. elegans strains using a fully convolutional neural network on behavioural dynamics
CN117237994B (zh) 一种油气作业区人员计数及行为检测方法、装置及系统
CN112800979B (zh) 一种基于表征流嵌入网络的动态表情识别方法及系统
Mullick et al. Learning deep and compact models for gesture recognition
Rafiq et al. Real-time vision-based bangla sign language detection using convolutional neural network
CN112163556A (zh) 一种基于深度学习算法的小儿视力障碍筛查系统及方法
CN114120076B (zh) 基于步态运动估计的跨视角视频步态识别方法
CN113887373B (zh) 基于城市智慧体育的并行融合网络的姿态识别方法和系统
CN110969109B (zh) 一种非受限条件下眨眼检测模型及其构建方法和应用
Zhang et al. A pruned deep learning approach for classification of motor imagery electroencephalography signals
Mittel et al. PERI: Part Aware Emotion Recognition in the Wild

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210101

RJ01 Rejection of invention patent application after publication