CN117423041B - 一种基于计算机视觉的面部视频判别中医气血系统 - Google Patents
一种基于计算机视觉的面部视频判别中医气血系统 Download PDFInfo
- Publication number
- CN117423041B CN117423041B CN202311711191.8A CN202311711191A CN117423041B CN 117423041 B CN117423041 B CN 117423041B CN 202311711191 A CN202311711191 A CN 202311711191A CN 117423041 B CN117423041 B CN 117423041B
- Authority
- CN
- China
- Prior art keywords
- blood
- video
- model
- syndrome
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000008280 blood Substances 0.000 title claims abstract description 178
- 239000003814 drug Substances 0.000 title claims abstract description 42
- 230000001815 facial effect Effects 0.000 title claims abstract description 24
- 210000004369 blood Anatomy 0.000 claims abstract description 132
- 208000011580 syndromic disease Diseases 0.000 claims abstract description 62
- 238000000605 extraction Methods 0.000 claims abstract description 54
- 230000004069 differentiation Effects 0.000 claims abstract description 34
- 238000013528 artificial neural network Methods 0.000 claims abstract description 25
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 230000007246 mechanism Effects 0.000 claims abstract description 10
- 239000000284 extract Substances 0.000 claims abstract description 8
- 238000005070 sampling Methods 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 32
- 230000036772 blood pressure Effects 0.000 claims description 23
- 239000013598 vector Substances 0.000 claims description 21
- 238000013527 convolutional neural network Methods 0.000 claims description 19
- 230000007812 deficiency Effects 0.000 claims description 14
- 201000010099 disease Diseases 0.000 claims description 10
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 5
- 208000014951 hematologic disease Diseases 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 4
- 206010041956 Stasis syndrome Diseases 0.000 claims description 3
- 208000005634 blind loop syndrome Diseases 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 7
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000005457 optimization Methods 0.000 abstract 1
- 238000000034 method Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 14
- 238000013186 photoplethysmography Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 208000024891 symptom Diseases 0.000 description 8
- 238000013507 mapping Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 4
- 238000003745 diagnosis Methods 0.000 description 4
- 210000001835 viscera Anatomy 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000000630 rising effect Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000003213 activating effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000010792 warming Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 102000001554 Hemoglobins Human genes 0.000 description 1
- 108010054147 Hemoglobins Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004204 blood vessel Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 235000016709 nutrition Nutrition 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000004962 physiological condition Effects 0.000 description 1
- 230000035790 physiological processes and functions Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/90—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to alternative medicines, e.g. homeopathy or oriental medicines
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Alternative & Traditional Medicine (AREA)
- Biodiversity & Conservation Biology (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Pharmacology & Pharmacy (AREA)
- Pathology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于计算机视觉的面部视频判别中医气血系统,该系统包括视频采集模块、视频预处理模块、特征提取模块、气血辨识模块和模型升级模块;视频采集模块采集受试者面部视频;视频预处理模块将视频裁剪为视频帧;特征提取模块基于Transformer构建气血特征提取模型,使用多头注意力机制、3D卷积等深度神经网络提取所述视频帧的气血特征;气血辨识模块获取最终辨识结果,并通过多任务学习提升模型表现;模型升级模块通过提高模型对难以分类样本的关注度,实现模型闭环优化。本发明以面部视频为采样媒介并采用计算机视觉和人工智能技术构建气血特征提取模型,基于模型提取的气血特征实现中医气血辨证及分类,极大减少了人为干预。
Description
技术领域
本发明涉及计算机视觉领域,尤其涉及一种基于计算机视觉的面部视频判别中医气血系统。
背景技术
气血为生命之根本。中医学认为,“气主煦之,血主濡之”,气具有推动、调控、温煦、防御等作用,可以推动机体生长发育、维持脏腑生理功能;血是构成和维持生命的重要物质及营养基础,具有滋润、儒养脏腑经络的功能。中医气血论是一套完整的辨证理论体系,从物质及功能两个角度整体审查机体状态改变,可视为脏腑、经络等辨证体系的基石,甚则有专家提出“气血理论或成为中医辨证理论体系的核心”这一说法。
目前气血辨识以盈虚通滞状态判断为主,所得证候皆是从不同角度对气血状态进行诊察。气血辨识内容包括:气病辨证,血病辨证及气血同病。每类分别包含不同子类。目前,气血辨证主要依靠医生根据患者症状表现判别,缺乏客观化且简便快捷的判别方法。面诊是中医望诊的主要内容;中医学认为,面部为人体经络汇聚之处,具有丰富的血脉供应。生理状态下,五脏六腑的气血皆上荣于面,病理状态下人体的气血盈衰亦可通过面部反映于外。现代医学认为,中医气血改变可以引起每搏输出量细微变化,此种变化可以通过面部反应出来。因此,面部与人体气血密切相关,且面部皮肤表浅易于观察,可作为判断气血状态的重要途径;随着人工智能等先进技术的发展,计算机视觉技术可灵敏捕捉面部信息随气血变化产生的细微变化,进而“思外揣内”客观化评估中医气血状态变化。
目前计算机视觉技术已取得较大进展,在制造业、军事、医疗诊断等领域应用广泛。面部视频中包含由血红蛋白变化引起的反射光变化(这与中医气血密切相关),计算机视觉技术以高清摄像头为敏感输入,可精准捕获这种反射光变化引起的图像信号改变,通过深度学习等算法建立推理判别能力从而进行目标预测。故而本方法以面部视频为记录媒介,通过计算机视觉技术捕获中医气血信号信息,经人脸ROI区域检测、特征提取、气血辨识建立面部视频与中医气血映射关系,创新中医气血辨识新范式。
目前中医气血辨识客观化主要方法包括:
(1)医生采集患者症候,根据临床经验进行辨识;
(2)医生采集患者症候,根据传统机器学习方法进行辨识;
(3)基于特定设备采集患者症候,根据传统机器学习方法进行辨识。
目前使用的技术方案存在如下问题和缺陷:
(1)目前判断中医气血的方法需要结合多种设备的诊断结果综合判断,而各部分的气血诊断结果均会影响最终判断结果的一致性,使最终诊断结果不够准确;
(2)目前采用传统机器学习或人为设定的规则进行辨识,该过程高度依赖人为先验知识,耗费大量人力和财力,且无法做到标准化和客观化,对于不同诊断人员得到的气血分类结果无法统一。
发明内容
本发明的目的在于克服传统气血辨识需要大量人为干预的复杂步骤,提供一种基于计算机视觉的面部视频判别中医气血系统,以面部视频为记录媒介,并基于Transformer构建气血特征提取模型,实现从面部视频提取中医气血相关特征,并在模型升级模块进行错误勘误及闭环优化,本发明实现的系统仅通过摄像头记录面部视频实现气血辨证,推动中医气血辨证客观化。
为了实现上述发明目的,本发明提供了以下技术方案:
一种基于计算机视觉的面部视频判别中医气血系统,该系统包括:
视频采集模块,采集面部视频;
视频预处理模块,将所述面部视频切割,划分为视频帧;
特征提取模块,基于Transformer构建气血特征提取模型,包括浅层粗特征提取单元、中间层patch embedding单元以及深层注意力机制单元,所述模型从所述视频帧中提取中医气血相关特征;
气血辨识模块,基于所述中医气血相关特征获取气血分类,并将气血辨证损失、心率损失和血压损失的加权求和作为总损失进行模型训练;
模型升级模块,进行最终气血辨证分类,根据所述气血分类结果与专家辨识结果的一致性,判断数据是否需要重新送入气血特征提取模型训练。
优选地,在视频预处理模块中,使用视频编解码工具读取视频流并进行分帧,视频帧数的范围为240-260帧,视频帧图片大小调整为固定尺寸256*256像素,由于尺寸及帧数设定越大,所需硬件、显卡、数据量资源越多、训练时间也越长,故考虑本发明数据量、现有硬件显卡资源和训练时长,设定帧数范围240-260帧,尺寸一般为2的倍数,设定为256*256。
优选地,所述气血特征提取模型的架构具体包括:所述浅层粗特征提取单元从视频帧中提取粗略时空特征,所述中间层patch embedding单元将所述粗略时空特征分成非重叠的tube token并编码,所述深层注意力机制单元包括时空多头自注意力和时空前馈神经网络,所述时空多头自注意力改进投影模式,从所述tubetoken提取注意力特征并喂入所述时空前馈神经网络,所述时空前馈神经网络输出所述中医气血相关特征,鉴于Transformer具有长程上下文建模及时序处理能力,所以所述气血特征提取模型的构建参考transformer架构并进行调整。
优选地,所述浅层粗特征提取单元由指定层数的3D卷积神经网络组成,每层包括3D卷积层、批归一化层、Relu激活函数及最大池化层,从经所述视频预处理模块调整的视频帧中提取粗略时空特征,浅层粗特征提取单元提取粗略的时空特征,从而去除视频冗余信息,为后续提取精准特征做准备。
优选地,所述中间层patch embedding单元由指定层数的3D卷积神经网络组成,将所述粗略时空特征分成非重叠的tube token并且编码。
优选地,所述时空多头自注意力改进投影模式以及获取注意力特征的具体步骤包括:时空多头自注意力使用3D卷积神经网络构建所述tube token的向量Q、K、V投影,并对向量Q、K进行归一化,将向量Q、K、V展平并送入指定个数的注意力头中,再对每个注意力头的特征输出进行特征拼接、线性投影及残差连接后得到注意力特征;由于3D卷积神经网络在处理视频时的优越性,本发明将传统Transformer中构建向量Q、K、V使用的全连接网络改为3D卷积神经网络。
优选地,所述气血辨识模块包括气血辨证单元和多任务学习单元,所述气血辨证单元依次对所述气血相关特征进行时间上采样、空间平均、卷积和线性映射,获取气血分类结果;所述多任务学习单元将气血辨证损失、心率损失和血压损失的加权求和作为总损失进行模型训练。
优选地,多任务学习单元将气血辨证损失、心率损失和血压损失的加权求和作为总损失进行模型训练的具体步骤包括:通过卷积投影、线性投影并使用交叉熵损失函数计算气血辨证损失,通过卷积投影、线性投影并使用均方差损失函数分别计算心率损失和血压损失,最后计算气血辨证损失、心率损失和血压损失的加权求和为总损失,使用所述总损失进行模型训练;中医气血变化可导致每搏输出量细微变化,此种变化可通过远程光电容积描记法记录,而面部信息预测心率、血压亦是由远程光电容积描记法获取。由此可见,气血辨证任务与心率、血压任务息息相关,为气血辨证任务增加心率、血压任务可以使神经网络更关注远程光电容积描记法的记录信息,降低模型训练时间提高准确率。
优选地,在所述气血辨识模块所得气血分类结果包括三大类:气病、血病和气血同病;所述气病包括气虚证、气陷证、气不固证、气脱证、气逆证和气闭证;所述血病包括血虚证、血脱证、血瘀证、血热证和血寒证;所述气血同病包括气血两虚、气虚血瘀、气不摄血、气随血脱、气滞血瘀。
优选地,所述模型升级模块根据最终气血辨证分类结果与专家实际辨识结果的一致性,若不一致则将视频帧数据重新送入模型,使用OHEM训练方式进行迭代训练,直至达到一致则训练完成;使用OHEM训练方式强化模型对难分类预测样本的关注度,进一步优化模型的分类准确率;与传统方法不同,本方案中所有参数升高或降低的调整均由所述气血特征提取模型自主进行,以最终损失持续下降为目的,至损失不再下降为训练终点,从而保证最终结果准确率提升。
与现有技术相比,本发明的有益效果:
本发明采集受试者面部视频,并对所采集的视频作预处理,再基于Transformer构建气血特征提取模型来自动提取预处理后的视频中的气血相关特征,同时将心率和血压作为辅助任务提高所述气血特征提取模型表现,还通过所述模型升级模块训练模型,优化模型最终分类准确率,构建了完整的面部视频判别中医气血系统。与既往方法相比,本发明提出的方法无需分割人脸、提取人脸特征等人为干预的“流程化操作”,完全基于深度神经网络自动提取特征,实现了“端到端”模式的输入面部视频直接输出中医气血辨证及分类,使最终得到的分类结果客观统一,且整个过程更便捷、智能,极大减少了人为干预,提升气血辨证效率,推动了中医气血辨证客观化。
附图说明
图1为本发明一种基于计算机视觉的面部视频判别中医气血系统框图;
图2为本发明一种基于计算机视觉的面部视频判别中医气血系统的特征提取模块框图;
图3为本发明一种基于计算机视觉的面部视频判别中医气血系统的多任务学习单元框图。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
实施例1
如图1所示的一种基于计算机视觉的面部视频判别中医气血系统,该系统包括:视频采集模块、视频预处理模块、特征提取模块、气血辨识模块以及模型升级模块;
具体的,所述视频采集模块采集受试者面部视频,并通过人脸检测模型丢弃面部遮挡或未显露的视频。
具体的,所述视频预处理模块将所述视频采集模块所采集的视频切割,划分为视频帧,并调整所述视频帧图片大小尺寸。
进一步的,在所述视频预处理模块中,使用视频编解码工具读取视频流并进行分帧,视频帧数的范围为240-260帧,视频帧图片大小调整为固定尺寸256*256像素,由于尺寸及帧数的设定越大,需要的硬件、显卡、数据量等资源越多、训练时间也越长,故考虑本发明的数据量、现有硬件显卡资源和训练时长,设定帧数范围240-260帧,尺寸一般为2的倍数,设定为256*256。
具体的,如图2所示的所述特征提取模块基于Transformer构建气血特征提取模型,所述气血特征提取包括浅层粗特征提取单元、中间层patch embedding单元以及深层注意力机制单元,所述模型从视频帧中自动提取中医气血相关特征。
进一步的,所述气血特征提取模型的架构具体包括:所述浅层粗特征提取单元从视频帧中提取粗略时空特征,所述中间层patch embedding单元将所述粗略时空特征分成非重叠的tube token并编码,所述深层注意力机制单元包括时空多头自注意力和时空前馈神经网络,所述时空多头自注意力改进投影模式,从所述tubetoken提取注意力特征并喂入所述时空前馈神经网络,所述时空前馈神经网络输出所述中医气血相关特征,鉴于Transformer具有长程上下文建模及时序处理能力,所以所述气血特征提取模型的构建参考transformer架构并进行调整。
进一步的,所述浅层粗特征提取单元由指定层数的3D卷积神经网络组成,每层包括3D卷积层、批归一化层、Relu激活函数及最大池化层,从经所述视频预处理模块调整的视频帧中提取粗略时空特征,浅层粗特征提取单元提取粗略的时空特征,从而去除视频冗余信息,为后续提取精准特征做准备。
进一步的,所述中间层patch embedding单元由指定层数的3D卷积神经网络组成,将所述粗略时空特征分成非重叠的tube token并且编码。
进一步的,所述时空多头自注意力改进投影模式以及获取注意力特征的具体步骤包括:时空多头自注意力使用3D卷积神经网络构建所述tube token的向量Q、K、V投影,并对向量Q、K进行归一化,将向量Q、K、V展平并送入指定个数的注意力头中,再对每个注意力头的特征输出进行特征拼接、线性投影及残差连接后得到注意力特征,因为传统Transformer构建向量Q、K、V使用的是全连接网络,而在处理视频帧数据时,3D卷积神经网络优于普通的全连接神经网络。
具体的,所述气血辨识模块包括气血辨证单元和多任务学习单元,所述气血辨证单元依次对所述气血相关特征进行时间上采样、空间平均、卷积和线性映射,获取气血分类结果;所述多任务学习单元将心率和血压作为辅助任务,计算所述气血特征提取模型的损失。
进一步的,多任务学习单元将心率和血压作为辅助任务的具体步骤包括:使用深度全连接神经网络建立心率、血压映射,并分别应用交叉熵函数、均方差函数进行气血辨证任务及辅助任务损失计算,最终所述气血特征提取模型的损失为二者的加权求和。中医气血变化可导致每搏输出量细微变化,此种变化可通过远程光电容积描记法记录,而面部信息预测心率、血压亦是由远程光电容积描记法获取。由此可见,气血辨证任务与心率、血压任务息息相关,为气血辨证任务增加心率、血压任务可以使神经网络更关注远程光电容积描记法的记录信息,降低模型训练时间提高准确率。
具体的,所述模型升级模块根据所述气血分类结果与专家实际辨识结果的一致性,判定是否将视频帧数据重新送入模型,并使用OHEM训练方式进行迭代训练,使用OHEM训练方式强化模型对难分类预测样本的关注度,进一步优化模型的分类准确率。与传统方法不同,本方案中所有参数升高或降低的调整均由所述气血特征提取模型自主进行,以最终损失持续下降为目的,至损失不再下降为训练终点,从而保证最终结果准确率提升。
实施例2
本实施例以一位患者进行面部视频录入并进行中医气血辨识来详细说明本发明操作流程。
患者登录系统,录入个人信息,包括姓名、性别、年龄、就诊卡号,开始气血状态辨识。患者在白天自然光下或夜晚白炽灯下进行拍摄,采集设备为高清摄像头,至少保证HD960P以上,患者站立或坐在摄像头前70cm左右,保持面部不动,避免面部头发、口罩等物品遮挡。使用公开数据训练基于SSD的人脸检测及面部遮挡物检测模型,应用该模型丢弃面部遮挡/未显露视频。
视频采集完成后进去视频预处理模块,使用视频编解码工具ffmpeg读取视频流并进行分帧,划分为固定范围的视频帧数w,本实施例中设置w=250;并将视频帧图片大小调整为固定尺寸,本实施例中设置固定尺寸为256×256像素。
如图2所示所述特征提取模块包括浅层粗特征提取单元E stem、中间层patchembedding单元E token和深层注意力机制单元。
所述深层注意力机制单元包括时空多头自注意力单元和前馈神经网络单元。时空多头自注意力单元基于多头注意力机制获取中间特征X add_mid,前馈神经网络单元经过q层3D卷积神经网络获取经神经网络自动提取的中医气血相关特征X att_output,本实施例中设置q=3。
鉴于transformer具有长程上下文建模及时序处理能力,本模块中模型构建参考transformer架构并进行调整,并在浅层增加粗特征提取用于提取粗略时空特征,并将查询向量Q、键值向量K和值向量V的投影模式修改为3D卷积,使网络具有更强的时空特征提取能力,经实验验证,改进投影模式后模型准确性提升了8.1%。所述气血特征提取模型具体架构如下:
浅层粗特征提取单元E stem由p层3D卷积神经网络组成,每层包括3D卷积层、批归一化层、Relu激活函数及最大池化层,用以提取粗略的时空特征,从而去除视频冗余信息,为后续提取精准特征做准备。本实施例中设定p=3,计算方法如下:
X stem=E stem(X);
E stem(X)=MaxPool(Relu(BN(Conv3d(X))));
其中输入视频,L,H,W分别代表视频帧长度、高度、宽度。BN为归一化,Relu为激活函数,Maxpool为最大池化。X stem为经浅层粗特征提取单元E stem提取的粗略时空特征。
中间层patch embedding单元E token用以获取非重叠的tube tokenX token,E token由m层3D卷积神经网络组成,获取固定大小的token。设定m=3,,计算方法如下:
Xtoken=Etoken(Xstem);
深层注意力机制单元包括N个注意力块,本实施例中设定N=4;每个包括时空多头自注意力和时空前馈神经网络E st_ff。时空多头自注意力使用3D卷积神经网络构建向量query (Q)、key (K)、value (V) 投影,并对向量Q、K进行归一化:
Q=BN(φ(X token,ѡ Q));
K=BN(φ(X token,ѡ K));
V=φ(X token,ѡ V);
其中,φ为3D卷积神经网络,ѡ Q、ѡ K、ѡ V分别是构建向量Q、K、V的网络参数,BN为归一化。这里我们将Transformer构建向量query (Q)、key (K)、value (V)的投影方式由传统的全连接神经网络改为3D卷积神经网络,即为向量query (Q)、key (K)、value (V)的投影模式的修改,因为在处理视频帧时,3D卷积明显优于普通的全连接神经网络。后将展平的Q,K,V送入h个注意力头中,设定h=12,每个注意力头的输出特征X j self-att计算如下:
;
其中,是向量K的维度,/>为输出函数。最终,每个注意力头的特征输出经特征拼接、线性投影、残差连接后得到注意力特征X att_mid,具体计算如下:
X att_mid=LN(FC(Concat(X 1 self-att;X 2 self-att;...;X 12 self-att))+X i stem);
其中,i为粗略时空特征X stem所在浅层粗特征提取单元E stem对应被提取的层序,Concat为特征拼接,FC为全连接层,LN为层归一化,并将所述注意力特征X att_mid喂入时空前馈神经网络E st_ff,所述时空前馈神经网络E st_ff由q层3D卷积神经网络组成,本实施例中设定q=5,得到最终的特征输出,即所述气血相关特征X att_output,计算公式如下:
E st_ff=Conv3d(X att_mid)q,q=1,2,...,Q;
X att_output=E st_ff(X att_mid);
所述气血辨识模块包括气血辨证单元及多任务学习单元,其中气血辨证单元依次对相关特征X att_output经时间上采样、空间平均、卷积及线性映射到气血分类结果yʹ,计算公式如下:
;
其中Upstample为时间上采样,Average为空间平均,为卷积映射,/>为线性映射,得到的气血分类结果主要包括三大类:气病、血病、气血同病,具体的,其中气病包括:气虚证、气陷证、气不固证、气脱证、气逆证、气闭证;血病包括:血虚证、血脱证、血瘀证、血热证、血寒证;气血同病包括:气血两虚、气虚血瘀、气不摄血、气随血脱、气滞血瘀。
所述多任务学习单元为通过将心率、血压作为辅助任务进而丰富前述特征提取模块,多任务学习是一种为现有任务增加与该任务有关联的辅助任务从而提高模型表现的方法。前文提及,中医气血变化可导致每搏输出量细微变化,此种变化可通过远程光电容积描记法记录,而面部信息预测心率、血压亦是由远程光电容积描记法获取。由此可见,气血辨证任务与心率、血压任务息息相关,为气血辨证任务增加心率、血压任务可以使神经网络更关注远程光电容积描记法的记录信息,降低模型训练时间提高准确率。本发明实验发现,使用多任务学习单元可使模型准确率提升5.8%。
如图3所示,经所述特征提取模块提取到的特征X att_output经过时间上采样、空间平均后采用多任务学习模式,主任务为气血辨证,通过卷积投影、线性投影并使用交叉熵损失函数计算损失,辅助任务包括心率、血压预测两个,分别通过卷积投影、线性投影并使用均方差损失函数计算损失,最后计算主任务及辅助任务损失的加权求和为总损失L total,使用总损失进行模型训练。
L total=α‧L main+β‧L hr+γ‧L bp;
1=α+β+γ;
其中L main为气血辨证任务损失,L hr为辅助任务心率的损失,L bp为辅助任务血压的损失,α、β、γ为对应的权重,设置α=0.7,β=γ=0.15。模型训练后损失逐渐下降,直至损失下降至最低点收敛后即训练结束,模型参数固定。
所述模型升级模块对该患者进行最终气血辨证分类Y,若系统辨识结果与专家辨识结果不一致,将视频帧数据送入模型重新进行迭代训练,使用OHEM训练方式强化模型对难分类预测样本的关注度,进一步优化模型的分类准确率。值得一提的是,与传统方法不同,本方案中所有参数升高或降低的调整均由模型自主进行,以最终损失持续下降为目的,至损失不在下降为训练终点,保证最终结果准确率提升;进而持续强化模型对难分类样本的处理能力,优化模型最终分类准确率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于计算机视觉的面部视频判别中医气血系统,其特征在于,该系统包括:
视频采集模块,采集面部视频;
视频预处理模块,将所述面部视频切割,划分为视频帧;
特征提取模块,基于Transformer构建气血特征提取模型,从所述视频帧中提取中医气血相关特征;所述气血特征提取模型包括浅层粗特征提取单元、中间层patch embedding单元以及深层注意力机制单元;
所述浅层粗特征提取单元从所述视频帧中提取粗略时空特征;
所述中间层patch embedding单元将所述粗略时空特征分成非重叠的tube token并且编码;
所述深层注意力机制单元包括时空多头自注意力和时空前馈神经网络,所述时空多头自注意力使用3D卷积神经网络构建所述tube token的向量Q、K、V投影,并对向量Q、K进行归一化,将向量Q、K、V展平并送入指定个数的注意力头中,再对每个注意力头的特征输出进行特征拼接、线性投影及残差连接后得到注意力特征;将所述注意力特征喂入所述时空前馈神经网络,所述时空前馈神经网络输出所述中医气血相关特征;
气血辨识模块,获取气血分类结果以及模型训练;
获取所述气血分类结果的步骤包括:依次对所述中医气血相关特征进行时间上采样、空间平均、卷积和线性投影,获取气血分类结果;
所述模型训练的步骤包括:使用交叉熵损失函数计算气血辨证损失,使用均方差损失函数分别计算心率损失和血压损失,最后计算气血辨证损失、心率损失和血压损失的加权求和,获取总损失,使用所述总损失进行模型训练,确定气血特征提取模型参数;
模型升级模块,用于所述气血特征提取模型参数的修正,具体步骤包括:若所述气血分类结果与专家实际辨识结果不一致,则将视频帧数据重新送入模型,并使用OHEM训练方式进行迭代训练,直至修正后的气血特征提取模型输出的气血分类结果与专家实际辨识结果达到一致。
2.根据权利要求1所述的一种基于计算机视觉的面部视频判别中医气血系统,其特征在于,在视频预处理模块中,使用视频编解码工具读取视频流进行分帧,并设定视频帧数的范围为240-260帧,图片大小调整为固定尺寸256*256像素,获取视频帧。
3.根据权利要求1所述的一种基于计算机视觉的面部视频判别中医气血系统,其特征在于,所述浅层粗特征提取单元由指定层数的3D卷积神经网络组成,每层包括3D卷积层、批归一化层、Relu激活函数及最大池化层。
4.根据权利要求3所述的一种基于计算机视觉的面部视频判别中医气血系统,其特征在于,所述中间层patch embedding单元由指定层数的3D卷积神经网络组成。
5.根据权利要求1所述的一种基于计算机视觉的面部视频判别中医气血系统,其特征在于,在所述气血辨识模块所得气血分类结果包括三大类:气病、血病和气血同病;所述气病包括气虚证、气陷证、气不固证、气脱证、气逆证和气闭证;所述血病包括血虚证、血脱证、血瘀证、血热证和血寒证;所述气血同病包括气血两虚、气虚血瘀、气不摄血、气随血脱、气滞血瘀。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311711191.8A CN117423041B (zh) | 2023-12-13 | 2023-12-13 | 一种基于计算机视觉的面部视频判别中医气血系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311711191.8A CN117423041B (zh) | 2023-12-13 | 2023-12-13 | 一种基于计算机视觉的面部视频判别中医气血系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117423041A CN117423041A (zh) | 2024-01-19 |
CN117423041B true CN117423041B (zh) | 2024-03-08 |
Family
ID=89530490
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311711191.8A Active CN117423041B (zh) | 2023-12-13 | 2023-12-13 | 一种基于计算机视觉的面部视频判别中医气血系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117423041B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113343821A (zh) * | 2021-05-31 | 2021-09-03 | 合肥工业大学 | 一种基于时空注意力网络和输入优化的非接触式心率测量方法 |
CN113408508A (zh) * | 2021-08-20 | 2021-09-17 | 中国科学院自动化研究所 | 基于Transformer的非接触式心率测量方法 |
CN114612960A (zh) * | 2022-02-14 | 2022-06-10 | 桂林电子科技大学 | 一种通过面部图像进行中医健康管理的方法及装置 |
CN115100723A (zh) * | 2022-07-13 | 2022-09-23 | 平安科技(深圳)有限公司 | 面色分类方法、装置、计算机可读程序介质及电子设备 |
CN115439683A (zh) * | 2022-08-24 | 2022-12-06 | 杭州电子科技大学 | 基于注意力机制的白细胞细粒度分类方法 |
CN116109818A (zh) * | 2023-04-11 | 2023-05-12 | 成都中医药大学 | 一种基于面部视频的中医脉候判别系统及方法和装置 |
CN116189884A (zh) * | 2023-04-24 | 2023-05-30 | 成都中医药大学 | 一种基于面部视觉的多模态融合中医体质判别方法及系统 |
CN116530981A (zh) * | 2023-05-04 | 2023-08-04 | 北京雪扬科技有限公司 | 一种基于面部识别气血状态分析系统及方法 |
CN116649928A (zh) * | 2023-05-29 | 2023-08-29 | 合肥工业大学 | 一种老年人心血管健康评估方法及装置 |
CN116758619A (zh) * | 2023-08-17 | 2023-09-15 | 山东大学 | 基于面部视频的情感分类方法、系统、存储介质及设备 |
CN116959062A (zh) * | 2023-06-12 | 2023-10-27 | 合肥工业大学 | 非接触式生理心理多参数检测方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100280350A1 (en) * | 2009-05-02 | 2010-11-04 | Xinyu Zhang | Chinese medicine tele-diagnostics and triage system |
-
2023
- 2023-12-13 CN CN202311711191.8A patent/CN117423041B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113343821A (zh) * | 2021-05-31 | 2021-09-03 | 合肥工业大学 | 一种基于时空注意力网络和输入优化的非接触式心率测量方法 |
CN113408508A (zh) * | 2021-08-20 | 2021-09-17 | 中国科学院自动化研究所 | 基于Transformer的非接触式心率测量方法 |
CN114612960A (zh) * | 2022-02-14 | 2022-06-10 | 桂林电子科技大学 | 一种通过面部图像进行中医健康管理的方法及装置 |
CN115100723A (zh) * | 2022-07-13 | 2022-09-23 | 平安科技(深圳)有限公司 | 面色分类方法、装置、计算机可读程序介质及电子设备 |
CN115439683A (zh) * | 2022-08-24 | 2022-12-06 | 杭州电子科技大学 | 基于注意力机制的白细胞细粒度分类方法 |
CN116109818A (zh) * | 2023-04-11 | 2023-05-12 | 成都中医药大学 | 一种基于面部视频的中医脉候判别系统及方法和装置 |
CN116189884A (zh) * | 2023-04-24 | 2023-05-30 | 成都中医药大学 | 一种基于面部视觉的多模态融合中医体质判别方法及系统 |
CN116530981A (zh) * | 2023-05-04 | 2023-08-04 | 北京雪扬科技有限公司 | 一种基于面部识别气血状态分析系统及方法 |
CN116649928A (zh) * | 2023-05-29 | 2023-08-29 | 合肥工业大学 | 一种老年人心血管健康评估方法及装置 |
CN116959062A (zh) * | 2023-06-12 | 2023-10-27 | 合肥工业大学 | 非接触式生理心理多参数检测方法及系统 |
CN116758619A (zh) * | 2023-08-17 | 2023-09-15 | 山东大学 | 基于面部视频的情感分类方法、系统、存储介质及设备 |
Non-Patent Citations (8)
Title |
---|
A prediction model of qi stagnation: A prospective observational studyreferring to two existing models;Ayako Maeda-Minami等;《Computers in Biology and Medicine》;20220516;第146卷;1-6 * |
Instantaneous Physiological Estimation usingVideo Transformers;Ambareesh Revanur等;《arXIv》;20220224;1-13 * |
Multi-Task Temporal Shift Attention Networks for On-Device Contactless Vitals Measurement;Xin Liu等;《34th Conference on Neural Information Processing Systems (NeurIPS 2020)》;20201231;1-12 * |
PhysFormer++: Facial Video-based Physiological Measurement with SlowFast Temporal Difference Transformer;Zitong Yu等;《arXiv》;20230207;1-25 * |
基于IPPG的非接触式血压测量;周守玉;《中国优秀硕士学位论文全文数据库 医药卫生科技辑》;20220115(第01期);E060-7 * |
基于图像处理的望诊面色自动识别研究;陈梦竹等;《中国中医药信息杂志》;20181231;第25卷(第12期);97-101 * |
基于数据驱动策略研究2型糖尿病中医证素辨证模型的构建与优化;赵智慧;《万方》;20221123;1-112 * |
面部气色检测系统研究;王鸿谟等;《贵州省中西医结合学会诊断专业第四次学术会议论文集》;20130621;32-35 * |
Also Published As
Publication number | Publication date |
---|---|
CN117423041A (zh) | 2024-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Niu et al. | Rhythmnet: End-to-end heart rate estimation from face via spatial-temporal representation | |
Niu et al. | Robust remote heart rate estimation from face utilizing spatial-temporal attention | |
CN111728602A (zh) | 基于ppg的无接触血压测量装置 | |
EP3082586A1 (en) | System and methods for measuring physiological parameters | |
Lu et al. | Nas-hr: Neural architecture search for heart rate estimation from face videos | |
Li et al. | Non-contact PPG signal and heart rate estimation with multi-hierarchical convolutional network | |
CN116189884B (zh) | 一种基于面部视觉的多模态融合中医体质判别方法及系统 | |
CN114038564B (zh) | 一种糖尿病无创风险预测方法 | |
CN110664395A (zh) | 图像处理方法、图像处理装置以及存储介质 | |
CN111523617A (zh) | 基于白质融合特征图和残差注意力网络的癫痫检测系统 | |
Jaiswal et al. | Heart rate estimation network from facial videos using spatiotemporal feature image | |
Wang et al. | TransPhys: Transformer-based unsupervised contrastive learning for remote heart rate measurement | |
Wu et al. | Anti-jamming heart rate estimation using a spatial–temporal fusion network | |
KR102108961B1 (ko) | 이미지 기반의 인공지능 딥러닝을 이용한 혈압 추정 장치 | |
WO2023273141A2 (zh) | 一种基于3d cnn的无接触面部血压测量方法 | |
CN114820573A (zh) | 基于半监督学习的房颤辅助分析方法 | |
Hamoud et al. | Contactless oxygen saturation detection based on face analysis: an approach and case study | |
CN117423041B (zh) | 一种基于计算机视觉的面部视频判别中医气血系统 | |
Gupta et al. | Remote photoplethysmography‐based human vital sign prediction using cyclical algorithm | |
CN113197549A (zh) | 一种通过人脸识别技术诊断疾病的系统 | |
Bajraktari et al. | Methods of Contactless Blood Pressure Measurement: A Systematic Review | |
CN115381444A (zh) | 血氧饱和度快速检测方法 | |
CN115147769A (zh) | 一种基于红外视频的生理参数鲁棒性检测方法 | |
CN113598741B (zh) | 一种房颤评价模型训练方法、房颤评价方法和装置 | |
Ben Salah et al. | Contactless heart rate estimation from facial video using skin detection and multi-resolution analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |