CN116469148A - 一种基于面部结构识别的概率预测系统及预测方法 - Google Patents

一种基于面部结构识别的概率预测系统及预测方法 Download PDF

Info

Publication number
CN116469148A
CN116469148A CN202310434076.4A CN202310434076A CN116469148A CN 116469148 A CN116469148 A CN 116469148A CN 202310434076 A CN202310434076 A CN 202310434076A CN 116469148 A CN116469148 A CN 116469148A
Authority
CN
China
Prior art keywords
data
face
prediction
video
ratios
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310434076.4A
Other languages
English (en)
Inventor
朱翎嘉
左玉伟
高丽鹤
吴冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Big Health Precision Medical Industry Technology Research Institute
Original Assignee
Shandong Big Health Precision Medical Industry Technology Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Big Health Precision Medical Industry Technology Research Institute filed Critical Shandong Big Health Precision Medical Industry Technology Research Institute
Publication of CN116469148A publication Critical patent/CN116469148A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于面部结构识别的概率预测系统及预测方法,属于智能识别技术领域,首先将数据收集、数据整理、数据处理作为前期工作;接下来计算数据的总体偏差,筛选可用样本,组织构建特征工程;最终基于常见的深度学习库封装原始数据划分训练和测试集,构建模型辅之以正则化、dropout和相关损失函数进行深度学习网络模型的训练、验证和测试。为实现关键特征计算,使用人工智能技术包括机器学习技术和深度学习技术进行特征的计算,通过识别面部的关键点的位置和结构提取相关特征信息,建立全连接神经网络模型来进行识别。无需辅助其他检测设备,仅通过日常手机对面部影像视频进行分析,即可对AH进行日常监测并提高初步识别概率。

Description

一种基于面部结构识别的概率预测系统及预测方法
技术领域
本发明涉及一种基于面部结构识别的概率预测系统及预测方法,属于智能识别技术领域。
背景技术
腺样体是位于鼻咽顶后壁的淋巴组织,是人体内免疫器官。AH(adenoidalhypertrophy)亦称腺样体增殖,以儿童多见。由于腺样体以及腭扁桃体位于呼吸道的第一道防御部位,长期受到各种炎性刺激,从而造成其病理性的增生肥大。AH以张口呼吸、打鼾、流涕、鼻塞、睡眠呼吸困难为主要表现,长期的口呼吸将导致唇肌松驰、下唇外翻,严重者会出现上领狭窄、上前牙唇倾、鼻翼基部变窄等“腺样体面容”;症状缺乏特异性,常被家长误判为感冒、鼻炎、咽炎等疾病,AH可导致儿童注意力缺陷、多动障碍、生长迟滞、认知和行为异常等,对儿童身心危害较大。
由于家长缺乏相关意识,医院睡眠监测复杂而痛苦,手术需要全麻,且费用昂贵(万元左右),大部分儿童AH患者没有得到及时诊治,或耽误了最佳手术时间。腺样体是淋巴组织,在没有受到炎症刺激下也有一定体积,而往往去做检查时都有炎症刺激,这个时候检查出AH占位二分一到五分之四都是正常的,肿大是必然的。轻中度AH是否应做手术在医学界尚无定论,但是专家共识认为,如果AH已经开始影响睡眠,建议手术治疗。其他非监测类手段如调查问卷,敏感度和准确率仅有78%和72%。因此在做手术决定前,一般要基于客观监测。但现在医院监测设备不足,佩戴极为不舒适且噪声大。相比来讲,居家监测具有更大的优势,但目前居家睡眠监测产品如智能床垫,一般只考虑成人,对儿童监测缺乏针对性,不适合用于儿童。因种种原因导致目前很多患者因没有得到及时的监测,而未进行手术治疗,使目前儿童AH治疗率很低。
传统上AH需要专业医生参考专业设备(如电子鼻咽镜、DR、CT、MR、X射线)的测量结果结合临床表现进行确定,这意味着患儿必须要去大型医院检查,这导致患儿家庭时间成本、金钱成本的付出较多,CT、X射线检测对人体造成辐射,且因腺样体位于鼻咽腔顶部,鼻咽镜检查难以准确了解其肥大的情况,儿童多不易配合检查,同时考虑到AH广泛的发病率以及其常被误判为感冒等疾病。为了患儿及早就诊以及减少患儿家庭成本,AH在家庭的初筛显得尤为重要。然而,现今市面上缺少家庭使用的智能的AH初筛方案。
中国专利文件CN111904393B-具有腺样体肥大概率判断功能的智能儿童睡眠监测系统、CN114246578A-腺样体肥大初筛装置、系统以及终端设备两发明专利通过可穿戴设备或非穿戴监测设备对AH进行初步筛查,相对简便、快捷,但需要佩戴或是配备终端监测设备。
发明内容
针对现有技术的不足,为解决以上问题,为避免AH识别方法的副作用及不便捷性,本发明基于AH特征进行模型建立并进行预测,且无需辅助其他检测设备,需要较少的面部信息特征,仅通过日常手机对面部影像视频进行分析,即可对AH进行日常监测并提高初步识别概率。
首先将数据收集、数据整理、数据处理作为前期工作;接下来计算数据的总体偏差,筛选可用样本,组织构建特征工程;最终基于常见的深度学习库封装原始数据划分训练和测试集,构建模型辅之以正则化、dropout和相关损失函数进行深度学习网络模型的训练、验证和测试。从数据库中导出人脸视频文件后,结合给定的有可能与腺样体肥大相关的特征,例如正脸平静自然状态下上唇上缘至下唇上缘与上唇下缘至下唇下缘比值、左眼宽度与左眼高度比值、右眼宽度与右眼高度比值、侧脸状态下鼻部位置面部横距与口部位置面部横距比值等等。为实现关键特征计算,使用人工智能技术包括机器学习技术和深度学习技术进行特征的计算,通过识别面部的关键点的位置和结构提取相关特征信息,建立逻辑回归、支持向量机和神经网络模型,由于逻辑回归不能很好的处理大量特征或变量,而且容易出现过拟合现象,支持向量机同样不能很好的处理大规模样本,同时对参数和核函数的选择敏感,同时结合部分样本数据测试情况遂选择全连接神经网络模型来进行AH识别。
术语解释:
深度学习(Deep Learning):是一种机器学习方法,由多层神经网络构成,通过学习样本数据的内在规律和表示层次,样本数据常常包括图像、文本和声音等,它的最终目标是让机器能够像人一样分析和解决问题。
本发明的技术方案如下:
一种基于面部结构识别的概率预测系统,包括数据模块、特征模块、分析模块;
数据模块用于获取被测对象的视频数据,数据是在单一灰色背景墙下进行拍摄,拍摄所用的设备像素不低于200*200像素,视频数据采集的人脸状态需要包含正脸、左侧脸、右侧脸共三种状态;
特征模块用于利用已有的基于深度学习的包括3D坐标点的468个人脸关键点检测FacePoint模型,计算相关的指标对应比值,并转换成可供程序处理的通用数组格式;FacePoint模型可以通过Google官网获取到;本发明当中共用到包括正脸和侧脸状态下在内的多组特征值,接下来进行相关性分析、一致性检查和PCA等统计方法降维,得到相对少量的面部比值特征;
分析模块用于将所述的面部状态下特征计算值输入进预先建立的初筛模型进行预测,并输出0-1范围内的概率值。
优选的,所述数据模块通过终端设备获取被测对象的面部的正脸、左侧脸、右侧脸共三种状态下的数据,将数据分为训练集和测试集,训练集中的数据已标明被测对象的标签信息,标签信息包括腺样体肥大、扁桃体肿大、张口呼吸、睡眠打鼾。
进一步优选的,终端设备包括终端采集设备、终端显示设备,终端采集设备用于采集并保存符合要求的动态视频情形下的数据,同时将数据传输到云服务器,使得用户可以在线查看数据;云服务器用于将获得的用户数据和构建的数据库信息一并放在云服务器上进行存储,并在服务器上执行运算分析,最终将所得概率结果返回给用户;
所述终端显示设备用于获取展示用户的预测结果,集成于手机、电脑等可移动电子设备中,所述电子设备的主要效果是让用户更加方便的上传自己的面部信息数据及文件并同时获得各项识别的概率预测结果。
进一步优选的,终端采集设备包括三脚架、拍摄设备、可旋转座椅,所述三脚架用于固定位置同时帮助测量人员更加有效的安放可移动电子设备;所述拍摄设备可以包括手机或摄像机;所述可旋转座椅用于拍摄过程中进行转脸,用户通过转脸露出侧脸时不能够有太大的运动幅度和太快的速度,使之更加清楚的拍摄到人的侧脸。
进一步优选的,本系统除预测患腺样体肥大的概率外,本识别系统还可预测有扁桃体肿大、有睡眠打鼾和有张口呼吸的概率,需要将样本数据按照标签进行合理地划分,以腺样体肥大为例,过滤掉含糊不清楚和为空值的标签,剩下的均为有效数据,每个二分类预测问题所包含的数据个数由于空值记录的不同也可能不相同,四部分二分类数据训练数据、测试数据按照70%:30%划分,再从训练集中留出20%作为验证集。
优选的,模型的建立利用常见深度学习库中的函数接口进行,全连接神经网络对特征值有着更好的拟合效果,在数据量不是很大的情况下,一般采用较浅层的神经网络。初筛模型采用三层神经网络,构建中间神经元数分别为20、10、1的三层全连接神经网络,除最后一层输出层外,其中权重初始化采用glorot_normal,激活函数采用relu,添加l2权重正则化,并且都添加BatchNormalization批正则化层和Dropout层。
一种利用上述基于面部结构识别的概率预测系统的预测方法,包括步骤如下:
步骤S10,借助手机、个人电脑等可移动电子设备便捷获取被测对象的平静自然状态下的面部视频数据并上传至云服务器,拍摄视频过程中需要用户先是保持正脸姿态,然后向左转头,继而再转回正面,继续向右转头,最后再转回正面,整个过程匀速保持平稳即可,这样拍摄出来的视频应包括正脸和左侧脸、右侧脸。
数据获取模块通过从手机和网页两个设备端分别获取用户的脸部视频数据和对于腺样体肥大、扁桃体肿大、张口呼吸、睡眠打鼾的标签信息,分别存储在华为OBS和服务器Mysql数据库中;视频格式为MP4,图片文件以jpg格式存储,最小像素为400*400,最大像素为4096*4096,视频中检测到的人脸短边边长不小于200px,尽量避免遮挡、模糊、不当光照和过大的人脸角度等情况出现;
步骤S20,基于采集到的视频数据生成一系列有关人脸的关键检测点,结合腺样体肥大相关病症的临床经验,筛选出可供计算的关键点并计算出对应的长度比值作为原始特征输入进初筛模型;
优选的,脸部关键点为结合人脸和人脸基准点检测模型共检测468个脸部3D坐标点;人脸基准点检测模型基本架构借助于MobileNetv1/v2和SSD(Single ShotMultiBoxDetector);3D人脸基准点检测模型通过借助Google训练的迁移学习模型进行人脸坐标点的三维输出,并通过bootstrap和refine迭代修正坐标预测结果;输出脸部468个关键点情况如图3所示。
进一步优选的,特征计算包括正脸部分和侧脸部分的关键点比值,正脸部分包括:第一组比值:左眼宽度、左眼高度,第二组比值:右眼宽度、右眼高度,第三组比值:上唇上缘至下唇上缘、上唇下缘至下唇下缘,第四组比值:额头面部、全面部面积,第五组比值:唇上下间距、鼻小柱至下颌下缘,第六组比值:颧骨平面横距、眼部外间距;侧脸部分包括:第七组比值:鼻部位置面部横距、口部位置面部横距,第八组比值:眼部位置面部横距、鼻部位置面部横距,第九组比值:鼻梁高度、鼻尖高度。
特征模块基于关键点检测所获取的与预测相关的九组特征比值,从服务器Mysql数据库中导出记录该用户的(腺样体肥大、扁桃体肿大、张口呼吸、睡眠打鼾)标签信息,经过和用户ID标识的匹配,将标签信息添加到单个记录的信息当中,并存储输出为json格式文件,不同的标签信息数据分别存储;
重新按条读取json格式文件组成numpy.ndarray格式训练数据集,标签需要标准化,对不确定具体状况的记录加以排除,标签为有,即存在腺样体肥大等标签状态,相反,则不存在;由此将标签信息由不规则的字符串转换为可供计算机处理的数字信息数据,组成用户记录数据,这样四类诊断数据就划分完毕了。
优选的,为尽量保证训练、验证、测试集三部分的正负样本比例相同,首先计算每种标签状态的正负样本总数,正样本为不存在标签状态的数据,负样本为存在标签状态的数据,然后再按照50%:50%的比例将正样本和负样本分开存储为numpy数组格式,至此,数据整理部分工作结束。
优选的,当数据维度远远大于用户数据数量级的时候,结合pandas库转换格式计算特征的描述值,即标准差,比如标准差和四分位数;通过计算出的描述值删除超出计算标准差3倍的用户记录,标准差计算公式:
其中,n为数据个数,xi为当前数据维度,μ为数据维度平均值;
利用主成分分析降维原始数据,消除数据之间存在的相关性冗余,减少不必要的计算能耗,使得有利于后续模型训练和预测。导入sklearn科学分析库,降低原始数据的维度。
步骤S30,基于预训练好的初筛模型进行前向迭代计算,辅之以相关的激活函数,最终得到腺样体肥大、扁桃体肿大、睡眠打鼾和张口呼吸的预测概率;
构建模型,所述分类的机器学习模型有支持向量机SVM和决策树算法,主要通过sklearn科学计算库,并且建立基于tensorflow的全连接神经网络进行预测,对比之下,神经网络模型预测准确度更胜一筹。因为根据神经网络的通用性准则,在一定程度上,带有非线性激活函数的神经网络可以拟合任意函数。
构建中间神经元数分别为20、10、1的三层全连接神经网络,除最后一层输出层外,其中权重初始化采用glorot_normal,激活函数采用relu,添加l2权重正则化,并且都添加BatchNormalization批正则化层和Dropout层;使得训练出来的模型可以更好的进行预测;损失函数使用二分类中最常用的二进制交叉熵损失函数,
其中函数中的from_logits项参数设置为True,从而更加有效的计算损失函数;优化算法采用Adam梯度下降策略更新各个神经层神经元的权重值;
mt=β1mt-1+(1-β1)gt
其中,gt为t时刻误差函数对各权重的导数值;wt为t时刻各神经元的权重值;wt+1为t+1更新后的各神经元权重值;β1为第一个动量的衰减因子,典型值为0.9;β2为第二个动量的衰减因子,典型值为0.999;∈为平滑项,一般取10-8;η指代学习率;mt为t时刻有偏的第一阶动量估计;为经过校正的第一阶动量估计;vt为t时刻有偏的第二阶动量估计;/>为经过校正的第二阶动量估计;
设置EPOCH训练轮数,开始进行模型的训练迭代,当预测准确度超过75%时或达到设定训练轮数时即停止训练即early_stopping,将张量图和模型权重以tensorflow的ckpt格式保存下来;
输入进新的完整过程下的视频,经过初筛模型运算处理,最终输出该视频中的用户患腺样体肥大、扁桃体肿大、张口呼吸和睡眠打鼾的概率。
本发明的有益效果在于:
本发明提出可以结合多个便携电子设备的概率预测系统,获取从可手持电子设备中拍摄到的视频/图像数据以及明确信息(包括是否腺样体肥大、是否扁桃体肿大、是否睡眠打鼾和是否张口呼吸),视频数据信息经过深度学习网络执行面部轮廓关键点进一步的实现面部某些关键长度之比的计算;通过分析模块将计算值输入预先建立的腺样体预测模型进行计算分析,得到所述被测对象的面容异常的概率,作为三端一体的系统,打通了从数据到分析再到计算的全流程自动化,且无需额外相关装置,可方便的应用到各种场景,同时有效提高家庭初筛的准确性,助力健康中国计划的实施。
附图说明
图1为本发明概率预测系统一示例性实施例的流程示意图;
图2a为本发明正脸的部分所需特征第五组比值示意图;
图2b为本发明正脸的部分所需特征第六组比值示意图;
图3为本发明中脸部所有468个关键点的绘制图;
图4为本发明儿童腺样体肥大实际示意图;
图5为本发明实施例中预测系统的功能原理示意图。
具体实施方式
下面通过实施例并结合附图对本发明做进一步说明,但不限于此。
实施例1:
一种基于面部结构识别的概率预测系统,包括数据模块、特征模块、分析模块;
数据模块用于获取被测对象的视频数据,其中,数据是在单一灰色背景墙下进行拍摄,拍摄所用的设备像素不低于200*200像素,视频数据采集的人脸状态需要包含正脸、左侧脸、右侧脸共三种状态;
所述数据模块通过终端设备获取被测对象的面部的正脸、左侧脸、右侧脸共三种状态下的数据,将数据分为训练集和测试集,训练集中的数据已标明被测对象的标签信息,标签信息包括腺样体肥大、扁桃体肿大、张口呼吸、睡眠打鼾。
本系统除预测患腺样体肥大的概率外,本识别系统还可预测有扁桃体肿大、有睡眠打鼾和有张口呼吸的概率,需要将样本数据按照标签进行合理地划分,以腺样体肥大为例,过滤掉含糊不清楚和为空值的标签,剩下的均为有效数据,每个二分类预测问题所包含的数据个数由于空值记录的不同也可能不相同,四部分二分类数据训练数据、测试数据按照70%:30%划分,再从训练集中留出20%作为验证集。
特征模块用于利用已有的基于深度学习的包括3D坐标点的468个人脸关键点检测FacePoint模型,计算相关的指标对应比值,并转换成可供程序处理的通用数组格式;FacePoint模型可以通过Google官网获取到;本发明当中共用到包括正脸和侧脸状态下在内的多组特征值,接下来进行相关性分析、一致性检查和PCA等统计方法降维,得到相对少量的面部比值特征;
分析模块用于将所述的面部状态下特征计算值输入进预先建立的初筛模型进行预测,并输出0-1范围内的概率值。
模型的建立利用常见深度学习库中的函数接口进行,全连接神经网络对特征值有着更好的拟合效果,在数据量不是很大的情况下,一般采用较浅层的神经网络。初筛模型采用三层神经网络,构建中间神经元数分别为20、10、1的三层全连接神经网络,除最后一层输出层外,其中权重初始化采用glorot_normal,激活函数采用relu,添加l2权重正则化,并且都添加BatchNormalization批正则化层和Dropout层。
实施例2:
一种基于面部结构识别的概率预测系统,其结构如实施例1所述,所不同的是,终端设备包括终端采集设备、终端显示设备,终端采集设备用于采集并保存符合要求的动态视频情形下的数据,同时将数据传输到云服务器,使得用户可以在线查看数据;云服务器用于将获得的用户数据和构建的数据库信息一并放在云服务器上进行存储,并在服务器上执行运算分析,最终将所得概率结果返回给用户;
所述终端显示设备用于获取展示用户的预测结果,集成于手机、电脑等可移动电子设备中,所述电子设备的主要效果是让用户更加方便的上传自己的面部信息数据及文件并同时获得各项识别的概率预测结果。
终端采集设备包括三脚架、拍摄设备、可旋转座椅,所述三脚架用于固定位置同时帮助测量人员更加有效的安放可移动电子设备;所述拍摄设备可以包括手机或摄像机;所述可旋转座椅用于拍摄过程中进行转脸,用户通过转脸露出侧脸时不能够有太大的运动幅度和太快的速度,使之更加清楚的拍摄到人的侧脸。
实施例3:
一种利用实施例2所述基于面部结构识别的概率预测系统的预测方法,包括步骤如下:
步骤S10,借助手机、个人电脑等可移动电子设备便捷获取被测对象的平静自然状态下的面部视频数据并上传至云服务器,拍摄视频过程中需要用户先是保持正脸姿态,然后向左转头,继而再转回正面,继续向右转头,最后再转回正面,整个过程匀速保持平稳即可,这样拍摄出来的视频应包括正脸和左侧脸、右侧脸。左右侧脸的数据用来计算几个脸部特征点距离之比,这些特征用来判断儿童是否患腺样体肥大。其中部分脸部特征距离示例见图2a、图2b。腺样体肥大一般常见于2-10岁的儿童,过后自行消失,但在儿童成长过程中往往因为受到某些炎症的反复刺激,导致其产生恶性增生,对周边组织和细胞都造成连带反应,如图4所示。
数据获取模块通过从手机和网页两个设备端分别获取用户的脸部视频数据和对于腺样体肥大、扁桃体肿大、张口呼吸、睡眠打鼾的标签信息,分别存储在华为OBS和服务器Mysql数据库中;视频格式为MP4,图片文件以jpg格式存储,最小像素为400*400,最大像素为4096*4096,视频中检测到的人脸短边边长不小于200px,尽量避免遮挡、模糊、不当光照和过大的人脸角度等情况出现;
步骤S20,基于采集到的视频数据生成一系列有关人脸的关键检测点,结合腺样体肥大相关病症的临床经验,筛选出可供计算的关键点并计算出对应的长度比值作为原始特征输入进初筛模型;
脸部关键点为结合人脸和人脸基准点检测模型共检测468个脸部3D坐标点;人脸基准点检测模型基本架构借助于MobileNetv1/v2和SSD(Single ShotMultiBoxDetector);3D人脸基准点检测模型通过借助Google训练的迁移学习模型进行人脸坐标点的三维输出,并通过bootstrap和refine迭代修正坐标预测结果;输出脸部468个关键点情况如图3所示。
特征计算包括正脸部分和侧脸部分的关键点比值,正脸部分包括:第一组比值:左眼宽度、左眼高度,第二组比值:右眼宽度、右眼高度,第三组比值:上唇上缘至下唇上缘、上唇下缘至下唇下缘,第四组比值:额头面部、全面部面积,第五组比值:唇上下间距、鼻小柱至下颌下缘,第六组比值:颧骨平面横距、眼部外间距;侧脸部分包括:第七组比值:鼻部位置面部横距、口部位置面部横距,第八组比值:眼部位置面部横距、鼻部位置面部横距,第九组比值:鼻梁高度、鼻尖高度。
计算特征所用到的关键点索引表如下:
表1关键点索引表
根据上表得到有关腺样体肥大识别的九组特征比值。
特征模块基于关键点检测所获取的与预测相关的九组特征比值,从服务器Mysql数据库中导出记录该用户的(腺样体肥大、扁桃体肿大、张口呼吸、睡眠打鼾)标签信息,经过和用户ID标识的匹配,将标签信息添加到单个记录的信息当中,并存储输出为json格式文件,不同的标签信息数据分别存储;
重新按条读取json格式文件组成numpy.ndarray格式训练数据集,标签需要标准化,对不确定具体状况的记录加以排除,标签为有,即存在腺样体肥大等标签状态,相反,则不存在;由此将标签信息由不规则的字符串转换为可供计算机处理的数字信息数据,组成用户记录数据,这样四类诊断数据就划分完毕了。
为尽量保证训练、验证、测试集三部分的正负样本比例相同,首先计算每种标签状态的正负样本总数,正样本为不存在标签状态的数据,负样本为存在标签状态的数据,然后再按照50%:50%的比例将正样本和负样本分开存储为numpy数组格式,至此,数据整理部分工作结束。
当数据维度远远大于用户数据数量级的时候,结合pandas库转换格式计算特征的描述值,即标准差,比如标准差和四分位数;通过计算出的描述值删除超出计算标准差3倍的用户记录,标准差计算公式:
其中,n为数据个数,xi为当前数据维度,μ为数据维度平均值;
利用主成分分析降维原始数据,消除数据之间存在的相关性冗余,减少不必要的计算能耗,使得有利于后续模型训练和预测。导入sklearn科学分析库,降低原始数据的维度。
步骤S30,基于预训练好的初筛模型进行前向迭代计算,辅之以相关的概率激活函数,最终得到腺样体肥大、扁桃体肿大、睡眠打鼾和张口呼吸的预测概率;
构建模型,所述分类的机器学习模型有支持向量机SVM和决策树算法,主要通过sklearn科学计算库,并且建立基于tensorflow的全连接神经网络进行预测,对比之下,神经网络模型预测准确度更胜一筹。因为根据神经网络的通用性准则,在一定程度上,带有非线性激活函数的神经网络可以拟合任意函数。
构建中间神经元数分别为20、10、1的三层全连接神经网络,除最后一层输出层外,其中权重初始化采用glorot_normal,激活函数采用relu,添加l2权重正则化,并且都添加BatchNormalization批正则化层和Dropout层;使得训练出来的模型可以更好的进行预测;损失函数使用二分类中最常用的二进制交叉熵损失函数,
其中函数中的from_logits项参数设置为True,从而更加有效的计算损失函数;优化算法采用Adam梯度下降策略更新各个神经层神经元的权重值;
mt=β1mt-1+(1-β1)gt
其中,gt为t时刻误差函数对各权重的导数值;wt为t时刻各神经元的权重值;wt+1为t+1更新后的各神经元权重值;β1为第一个动量的衰减因子,典型值为0.9;β2为第二个动量的衰减因子,典型值为0.999;∈为平滑项,一般取10-8;η指代学习率;mt为t时刻有偏的第一阶动量估计;为经过校正的第一阶动量估计;vt为t时刻有偏的第二阶动量估计;/>为经过校正的第二阶动量估计。
设置EPOCH训练轮数,开始进行模型的训练迭代,当预测准确度超过75%时或达到设定训练轮数时即停止训练即early_stopping,将张量图和模型权重以tensorflow的ckpt格式保存下来;
输入进新的完整过程下的视频,经过初筛模型运算处理,最终输出该视频中的用户患腺样体肥大、扁桃体肿大、张口呼吸和睡眠打鼾的概率。

Claims (10)

1.一种基于面部结构识别的概率预测系统,其特征在于,包括数据模块、特征模块、分析模块;
数据模块用于获取被测对象的视频数据,其中,数据是在单一灰色背景墙下进行拍摄,拍摄所用的设备像素不低于200*200像素,视频数据采集的人脸状态需要包含正脸、左侧脸、右侧脸共三种状态;
特征模块用于利用已有的基于深度学习的包括3D坐标点的468个人脸关键点检测FacePoint模型,计算相关的指标对应比值,并转换成可供程序处理的通用数组格式;
分析模块用于将所述的面部状态下特征计算值输入进预先建立的初筛模型进行预测,并输出0-1范围内的概率值。
2.根据权利要求1所述的基于面部结构识别的概率预测系统,其特征在于,所述数据模块通过终端设备获取被测对象的面部的正脸、左侧脸、右侧脸共三种状态下的数据,将数据分为训练集和测试集,训练集中的数据已标明被测对象的标签信息,标签信息包括腺样体肥大、扁桃体肿大、张口呼吸、睡眠打鼾。
3.根据权利要求2所述的基于面部结构识别的概率预测系统,其特征在于,终端设备包括终端采集设备、终端显示设备,终端采集设备用于采集并保存符合要求的动态视频情形下的数据,同时将数据传输到云服务器;云服务器用于将获得的用户数据和构建的数据库信息一并放在云服务器上进行存储,并在服务器上执行运算分析,最终将所得概率结果返回给用户;
所述终端显示设备用于获取展示用户的预测结果,集成于手机、电脑可移动电子设备中。
4.根据权利要求3所述的基于面部结构识别的概率预测系统,其特征在于,终端采集设备包括三脚架、拍摄设备、可旋转座椅,所述三脚架用于固定位置同时帮助测量人员;所述拍摄设备包括手机或摄像机;所述可旋转座椅用于拍摄过程中进行转脸。
5.根据权利要求2所述的基于面部结构识别的概率预测系统,其特征在于,将样本数据按照标签进行划分,过滤掉不清楚和为空值的标签,剩下的均为有效数据,训练数据、测试数据按照70%:30%划分,再从训练集中留出20%作为验证集。
6.根据权利要求1所述的基于面部结构识别的概率预测系统,其特征在于,初筛模型采用三层神经网络,构建中间神经元数分别为20、10、1的三层全连接神经网络,除最后一层输出层外,其中权重初始化采用glorot_normal,激活函数采用relu,添加l2权重正则化,并且都添加BatchNormalization批正则化层和Dropout层。
7.一种利用权利要求1所述基于面部结构识别的概率预测系统的预测方法,其特征在于,包括步骤如下:
步骤S10,借助电子设备获取被测对象的平静自然状态下的面部视频数据并上传至云服务器,拍摄视频过程中需要用户先是保持正脸姿态,然后向左转头,继而再转回正面,继续向右转头,最后再转回正面,整个过程匀速;
数据获取模块通过从手机和网页两个设备端分别获取用户的脸部视频数据和对于腺样体肥大、扁桃体肿大、张口呼吸、睡眠打鼾的标签信息,分别存储在华为OBS和服务器Mysql数据库中;视频格式为MP4,最小像素为400*400,最大像素为4096*4096,视频中检测到的人脸短边边长不小于200px;
步骤S20,基于采集到的视频数据生成一系列有关人脸的关键检测点,筛选出可供计算的关键点并计算出对应的长度比值作为原始特征输入进初筛模型;
步骤S30,基于预训练好的初筛模型进行前向迭代计算,辅之以相关的激活函数,最终得到腺样体肥大、扁桃体肿大、睡眠打鼾和张口呼吸的预测概率;
构建中间神经元数分别为20、10、1的三层全连接神经网络,除最后一层输出层外,其中权重初始化采用glorot_normal,激活函数采用relu,添加l2权重正则化,并且都添加BatchNormalization批正则化层和Dropout层;损失函数使用二分类中最常用的二进制交叉熵损失函数,
其中函数中的from_logits项参数设置为True;优化算法采用Adam梯度下降策略更新各个神经层神经元的权重值;
mt=β1mt-1+(1-β1)gt
其中,gt为t时刻误差函数对各权重的导数值;wt为t时刻各神经元的权重值;wt+1为t+1更新后的各神经元权重值;β1为第一个动量的衰减因子,典型值为0.9;β2为第二个动量的衰减因子,典型值为0.999;∈为平滑项,一般取10-8;η指代学习率;mt为t时刻有偏的第一阶动量估计;为经过校正的第一阶动量估计;vt为t时刻有偏的第二阶动量估计;/>为经过校正的第二阶动量估计;
设置EPOCH训练轮数,开始进行模型的训练迭代,当预测准确度超过75%时或达到设定训练轮数时即停止训练,将张量图和模型权重以tensorflow的ckpt格式保存下来;
输入进新的完整过程下的视频,经过初筛模型运算处理,最终输出该视频中的用户患腺样体肥大、扁桃体肿大、张口呼吸和睡眠打鼾的概率。
8.根据权利要求7所述的基于面部结构识别的概率预测系统,其特征在于,脸部关键点为结合人脸和人脸基准点检测模型共检测468个脸部3D坐标点;人脸基准点检测模型基本架构借助于MobileNetv1/v2和SSD;3D人脸基准点检测模型通过借助Google训练的迁移学习模型进行人脸坐标点的三维输出,并通过bootstrap和refine迭代修正坐标预测结果;
脸部各个关键点相互独立,其中关键点组成脸部轮廓、眼部、鼻部区域;人脸外轮廓区域索引列表:[10,338,297,332,284,251,389,356,454,323,361,288,397,365,379,378,400,377,152,148,176,
149,150,136,172,58,132,93,234,127,162,21,54,103,67,109,10],嘴唇轮廓索引列表:[61,146,91,181,84,17,314,405,321,375,291,61,185,40,39,37,0,267,269,270,409,291,78,95,88,178,87,14,317,402,318,324,308,78,191,80,81,82,13,312,311,310,415,308];
优选的,特征计算包括正脸部分和侧脸部分的关键点比值,正脸部分包括:第一组比值:左眼宽度、左眼高度,第二组比值:右眼宽度、右眼高度,第三组比值:上唇上缘至下唇上缘、上唇下缘至下唇下缘,第四组比值:额头面部、全面部面积,第五组比值:唇上下间距、鼻小柱至下颌下缘,第六组比值:颧骨平面横距、眼部外间距;侧脸部分包括:第七组比值:鼻部位置面部横距、口部位置面部横距,第八组比值:眼部位置面部横距、鼻部位置面部横距,第九组比值:鼻梁高度、鼻尖高度;
特征模块基于关键点检测所获取的与预测相关的九组特征比值,从服务器Mysql数据库中导出记录该用户的标签信息,经过和用户ID标识的匹配,将标签信息添加到单个记录的信息当中,并存储输出为json格式文件,不同的标签信息数据分别存储;
重新按条读取json格式文件组成numpy.ndarray格式训练数据集,标签需要标准化,对不确定具体状况的记录加以排除,标签为有,即存在腺样体肥大等标签状态,相反,则不存在;由此将标签信息由不规则的字符串转换为可供计算机处理的数字信息数据,组成用户记录数据。
9.根据权利要求8所述的基于面部结构识别的概率预测系统,其特征在于,首先计算每种标签状态的正负样本总数,正样本为不存在标签状态的数据,负样本为存在标签状态的数据,然后再按照50%:50%的比例将正样本和负样本分开存储为numpy数组格式,至此,数据整理部分工作结束。
10.根据权利要求8所述的基于面部结构识别的概率预测系统,其特征在于,当数据维度远远大于用户数据数量级的时候,结合pandas库转换格式计算特征的描述值,即标准差;通过计算出的描述值删除超出计算标准差3倍的用户记录,标准差计算公式:
其中,n为数据个数,xi为当前数据维度,μ为数据维度平均值。
CN202310434076.4A 2023-03-09 2023-04-21 一种基于面部结构识别的概率预测系统及预测方法 Pending CN116469148A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202310220895 2023-03-09
CN2023102208959 2023-03-09

Publications (1)

Publication Number Publication Date
CN116469148A true CN116469148A (zh) 2023-07-21

Family

ID=87178499

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310434076.4A Pending CN116469148A (zh) 2023-03-09 2023-04-21 一种基于面部结构识别的概率预测系统及预测方法

Country Status (1)

Country Link
CN (1) CN116469148A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117745732A (zh) * 2024-02-21 2024-03-22 江苏康众数字医疗科技股份有限公司 医疗检查的辅助摆位引导方法及图像脱敏处理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117745732A (zh) * 2024-02-21 2024-03-22 江苏康众数字医疗科技股份有限公司 医疗检查的辅助摆位引导方法及图像脱敏处理方法
CN117745732B (zh) * 2024-02-21 2024-05-10 江苏康众数字医疗科技股份有限公司 医疗检查的辅助摆位引导方法及图像脱敏处理方法

Similar Documents

Publication Publication Date Title
Zhao et al. Direct cup-to-disc ratio estimation for glaucoma screening via semi-supervised learning
CN110944577B (zh) 一种血氧饱和度的检测方法与系统
Umri et al. Detection of COVID-19 in chest X-ray image using CLAHE and convolutional neural network
CN110168658B (zh) 患者监测系统和方法
JP7197475B2 (ja) 患者モニタリング・システムおよび方法
AU2018432124A1 (en) Human body health assessment method and system based on sleep big data
Azimi et al. Machine learning-based automatic detection of central sleep apnea events from a pressure sensitive mat
Zhang et al. Hybrid graph convolutional network for semi-supervised retinal image classification
CN114999646B (zh) 新生儿运动发育评估系统、方法、装置及存储介质
Chen et al. A new deep learning framework based on blood pressure range constraint for continuous cuffless BP estimation
CN108652587A (zh) 一种认知功能障碍预防监测装置
CN116110597B (zh) 一种基于数字孪生的患者病症类别智能分析方法及装置
CN116469148A (zh) 一种基于面部结构识别的概率预测系统及预测方法
CN110575178B (zh) 一种运动状态判断的诊断监控综合医疗系统及其判断方法
Tang et al. Deep adaptation network for subject-specific sleep stage classification based on a single-lead ECG
CN117690585B (zh) 一种基于生物反馈的睡眠障碍治疗系统及方法
CN115336973A (zh) 基于自注意力机制和单导联心电信号的睡眠分期系统构建方法、及睡眠分期系统
CN117423423A (zh) 一种基于卷积神经网络的健康档案整合方法、设备及介质
CN116453641B (zh) 一种中医辅助分析信息的数据处理方法及系统
Ben Slama et al. DBN-DNN: discrimination and classification of VNG sequence using deep neural network framework in the EMD domain
Huang et al. Generalized camera-based infant sleep-wake monitoring in NICUs: A multi-center clinical trial
Xie et al. Lightweight Football Motion Recognition and Intensity Analysis Using Low‐Cost Wearable Sensors
KR102371443B1 (ko) 인공지능을 이용한 수면단계 분석 자동화 시스템 및 그 동작 방법
US20240070440A1 (en) Multimodal representation learning
US20240008803A1 (en) Body fluid volume estimation device, body fluid volume estimation method, and non-transitory computer-readable medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination