CN117636053A - 一种舌面图像分析方法及装置 - Google Patents

一种舌面图像分析方法及装置 Download PDF

Info

Publication number
CN117636053A
CN117636053A CN202311687814.2A CN202311687814A CN117636053A CN 117636053 A CN117636053 A CN 117636053A CN 202311687814 A CN202311687814 A CN 202311687814A CN 117636053 A CN117636053 A CN 117636053A
Authority
CN
China
Prior art keywords
layer
tongue
image
residual
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311687814.2A
Other languages
English (en)
Inventor
曹溪源
张志东
薛晨阳
金春阳
张德龙
李波
臧俊斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North University of China
Original Assignee
North University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North University of China filed Critical North University of China
Priority to CN202311687814.2A priority Critical patent/CN117636053A/zh
Publication of CN117636053A publication Critical patent/CN117636053A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/273Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion removing elements interfering with the pattern to be recognised
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及数字医疗领域,具体提供了一种舌面图像分析方法及装置,该方法包括如下步骤:S1,获取舌面图像;S2,利用第一提取模型对舌面图像进行预处理,得到第一图像;S3,利用第二提取模型对第一图像进行分割,得到第二图像;S4,利用第三提取模型对第二图像进行特征提取,得到舌体特征;S5,将舌体特征输入分类模型,分类模型输出预测结果。本申请方法通过采集患者的舌面图像数据,针对各个舌头进行舌面定位和粗提取,然后分割舌头,并对舌头图像进行标记,生成标准舌象数据集,建立胃癌预测模型。从而利用该模型对胃癌患者进行预测,识别患者是否患有胃癌,或者胃癌的患病程度,识别的准确度较高,能够满足数字化医疗需要的高准确性分析。

Description

一种舌面图像分析方法及装置
技术领域
本申请涉及数字医疗领域,具体而言,涉及一种舌面图像分析方法及装置。
背景技术
舌象能够反映出人体的状况。在中医中,舌诊是观察舌头的色泽、形态的变化来辅助诊断及鉴别的一个简单有效的方法。舌为心之苗,脾之外候,苔由胃气所生。脏腑病变,可在舌质和舌苔上反映出来,舌诊主要诊察舌质和舌苔的形态、色泽、润燥等,以此判断疾病的性质、病势的浅深、气血的盛衰、津液的盈亏及脏腑的虚实等。中西医结合,是将传统的中医中药知识和方法与西医西药的知识和方法结合起来,在提高临床疗效的基础上,阐明机理进而获得新的医学认识。然而,中医大都依赖于医生的经验,不利于进行大范围推广;因此,将舌诊数字化是一个关键的技术,舌诊数字化的基础是对舌面图像进行分析。
舌面图像能够分析得到某些疾病的发展程度,这样能够在这些疾病的早期就发现,从而避免了发现时已经较为严重的情况,耽误治疗的最佳时机。例如,胃癌已经成为一个全球性的健康问题,严重影响了人们的日常生活。在胃癌早期,并不容易被检查到,这使得确诊时,已经较为严重。名称为“舌头图像分析方法及装置”,申请公布号为“CN109740611A”的发明专利中公开了根据舌头图像进行脂肪肝患病情况判断的模型,其中采用了GrabCut算法进行分割,分割精度较低,从而使得判断结果准确率误差较大。名称为“舌面图像分析方法、装置、计算机设备及计算机可读存储介质”,授权公告号为“CN110363072B”的发明专利公开了一种舌面分析的方法,根据舌面图像,分析得到舌头颜色和舌头形状,其中根据HSL颜色空间划分方法对所述舌头图像进行颜色识别,速度缓慢且准确性差。
综上所述,现有技术中舌面图像分析方法的准确性较差,不能满足数字化医疗需要的高准确性分析。
发明内容
本发明的目的在于,针对上述现有技术中的不足,提供一种舌面图像分析方法及装置,以解决现有技术中舌面图像分析方法的准确性较差,不能满足数字化医疗需要的高准确性分析的问题。
为实现上述目的,本发明采用的技术方案如下:
本申请提供一种舌面图像分析方法,该方法包括如下步骤:
S1,获取舌面图像;
S2,利用第一提取模型对舌面图像进行预处理,得到第一图像;
S3,利用第二提取模型对第一图像进行分割,得到第二图像;
S4,利用第三提取模型对第二图像进行特征提取,得到舌体特征;
S5,将舌体特征输入分类模型,分类模型输出预测结果。
其中,第一提取模型为基于深度学习网络的目标检测模型,第二提取模型为卷积神经网络模型。
进一步地,第一图像为舌部图像;第一提取模块包括提取特征部分、特征融合部分、结果预测部分;提取特征部分包括依次连接的第一下采样层、第一残差层、第二残差层、第三残差层、空间池化层和第四残差层;特征融合部分包括依次连接的第一卷积层、第一上采样层、第一残差拼接层、第二卷积层、第二上采样层、第二残差拼接层、第二下采样层、第三残差拼接层、第三下采样层、第四残差拼接层。
更进一步地,第二图像为舌头图像;第二提取模型包括编码部分和解码部分,编码部分包括特征提取部分和空洞空间金字塔池化部分,特征提取部分为基于深度学习的轻量化骨干网络MobileNetV2,空洞空间金字塔池化部分包括并列连接的第一空洞卷积层、第二空洞卷积层、第三空洞卷积层、第四空洞卷积层、全局池化层。
更进一步地,第三提取模型包括依次连接的第六卷积层、第一池化层、第五残差层、第六残差层、第七残差层、第八残差层。
更进一步地,分类模型包括第七卷积层、七个深度可分离残差层、第八卷积层、第二池化层。
本申请还公开一种舌面图像分析装置,该装置包括:
获取模块,用于获取舌面图像;
第一处理模块,用于利用第一提取模型对舌面图像进行预处理,得到第一图像;
第二处理模块,用于利用第二提取模型对第一图像进行分割,得到第二图像;
第三处理模块,用于利用第三提取模型对第二图像进行特征提取,得到舌体特征;
分类模块,用于将舌体特征输入分类模型,分类模型输出预测结果;
其中,第一提取模型为基于深度学习网络的目标检测模型,第二提取模型为卷积神经网络模型。
进一步地,第一图像为舌部图像;第一提取模块包括提取特征部分、特征融合部分、结果预测部分;提取特征部分包括依次连接的第一下采样层、第一残差层、第二残差层、第三残差层、空间池化层和第四残差层;特征融合部分包括依次连接的第一卷积层、第一上采样层、第一残差拼接层、第二卷积层、第二上采样层、第二残差拼接层、第二下采样层、第三残差拼接层、第三下采样层、第四残差拼接层。
更进一步地,第二图像为舌头图像;第二提取模型包括编码部分和解码部分,编码部分包括特征提取部分和空洞空间金字塔池化部分,特征提取部分为基于深度学习的轻量化骨干网络MobileNetV2,空洞空间金字塔池化部分包括并列连接的第一空洞卷积层、第二空洞卷积层、第三空洞卷积层、第四空洞卷积层、全局池化层。
更进一步地,第三提取模型包括依次连接的第六卷积层、第一池化层、第五残差层、第六残差层、第七残差层、第八残差层。
更进一步地,分类模型包括第七卷积层、七个深度可分离残差层、第八卷积层、第二池化层。
与现有技术相比,本发明的有益效果:本申请方法通过采集患者的舌面图像数据,针对各个舌头进行舌面定位和粗提取,然后分割舌头,并对舌头图像进行标记,生成标准舌象数据集,建立胃癌预测模型。从而利用该模型对胃癌患者进行预测,识别患者是否患有胃癌,或者胃癌的患病程度,识别的准确度较高,能够满足数字化医疗需要的高准确性分析。
附图说明
图1为本发明提供的一种舌面图像分析方法的示意图;
图2为本发明提供的第一提取模型的示意图;
图3为本发明提供的第二提取模型的示意图;
图4为第二提取模型处理前后的图像对比,左侧为处理前的第一图像,右侧为处理后的第二图像;
图5为本发明提供的第三提取模型的示意图;
图6为本发明提供的分类模型示意图;
图7为本发明提供的舌面图像采集装置的示意图;
图8为本发明提供的一种舌面图像分析装置的示意图。
具体实施方式
为了使本发明的实施过程更加清楚,下面将会结合附图进行详细说明。
本发明提供了一种舌面图像分析方法,如图1所示,该方法包括如下步骤:
S1,获取舌面图像;
待识别的舌面图像是通过采集仪器得到,采集仪器可以是拍摄装置,得到带有患者舌部的图像,包括RGB三通道值。用于模型训练的数据可以是现有数据集也可以是预先采集得到的自建数据库。本实施例中使用自建数据库进行模型训练,其中包括预先采集到的舌面图像和舌面图像对应的标签,标签包括舌面的特征。被采集人员的年龄在18-70岁之间,其中50岁左右较多,实验人员中有确定胃癌的患者,也有普通亚健康人,存在某些异常舌特征(齿痕裂纹等)但不患病。数据集分为训练集、验证集和测试集,比例为7:2:1,其中训练集用于训练模型,验证集用于验证,测试集用于测试。
利用采集装置对人员的舌面图像进行拍摄。具体地,采用摄像机对人员的舌面图像进行拍摄,为了方便固定,人员下巴可以放置在下颌托上,人员需要伸出舌头,充分露出舌面,舌面与摄像机之间的距离和角度不作具体限定,摄像机聚焦后能够得到清晰的舌面图像即可。例如,可以是摄像头距离人脸18cm,角度为向下12度等等;拍摄可以使用1200万像素无畸变广角130度的摄像头;光源可以为2700Lux@30cm光源或LED光源,能够将舌面照亮,使得充足的光反射进入摄像头即可。采集到的信息包括舌体的空间信息及语义信息,包含了丰富的视觉特征,可供神经网络提取。
进一步地,拍摄图像时需要人员充分伸出舌头,需要看到舌头和喉咙,这对于获取图像的质量十分关键。要做到充分伸出需要进行针对训练,这会使得图像获取不方便进行。本申请公开的辅助装置包括开口器、环形架、压迫柱,能够使得首次舌面图像采集的人员也能够得到高质量的舌面图像。环形架的形状为圆形或椭圆形,优选地,环形架的形状为椭圆状,椭圆的长轴两端固定设置有开口器,开口器的形状为圆弧形,向外弯曲,两端各设置有一个,两个开口器的形状、尺寸、固定角度等相同,对称设置于环形架长轴方向的两端,用于撑开嘴巴两侧;短轴的长度为3-5cm。环形架一方面在竖直方向撑开嘴巴,同时在其上设置水平方向上的开口器,以及压迫柱。压迫柱固定于环形架短轴方向的上侧,固定设置于环形架的内侧。压迫柱用于,挤压舌头根部,使得舌头伸展开,使得舌面充分暴露在摄像机前,便于拍摄舌头的平面图。开口器所在的平面与环形架所在的平面之间的夹角为80-90°,夹角为开口器所在平面(一般为水平平面)与环形架远离舌头一侧的夹角;这样,方便设置压迫柱,也使得环形架不会遮挡拍摄。压迫柱的中心轴线方向为环形器短轴上侧内壁与舌根的连线所在的直线。压迫柱的中心轴线方向与环形架所在平面的夹角为锐角,锐角朝向舌面一侧。
进一步地,压迫柱靠近舌面一端的直径大于远离舌面一端的直径,这样,压迫柱与舌根的接触面积较大,使得舌头充分伸展。在压迫柱与环形架相对的一侧固定设置有LED灯。LED灯发出的光照射在舌面上,舌面反射LED的光,反射光进入摄像头,得到舌面图像;这样,正好形成反射,LED灯设置在压迫柱上,距离舌面更近,使得舌面反射进入摄像机的光场强度更大,从而得到的舌面图像质量更高。
S2,利用第一提取模型对舌面图像进行预处理,得到第一图像;
步骤S1获取的舌面图像中包含了面部在内的其他区域,利用第一提取模型对舌面图像中的舌头部分进行提取,提取得到仅包含舌部区域的第一图像,第一图像为舌部图像。
第一提取模型为预训练的基于深度学习网络的目标检测模型。图2为第一提取模型的示意图,第一提取模型包括提取特征部分、特征融合部分、结果预测部分;提取特征部分用于对图像的RGB通道等信息进行多次提取,多次提取得到的特征抽象程度不同,将抽取到的不同抽象程度的特征信息进行残差拼接,即进行融合,多个残差拼接经过卷积、上采样、下采样等操作后,输出充分融合的特征信息;融合后的信息输入结果预测部分进行预测,得到预测结果,即得到第一图像;这样得到的第一图像更准确。具体地,提取特征部分包括依次连接的第一下采样层、第一残差层、第二残差层、第三残差层、空间池化层和第四残差层。第一下采样层采用的卷积核kernel_size为3;第一残差层、第二残差层、第三残差层、第四残差层均由一条主分支和一条残差分支组成,主分支和残差分支的卷积核kernel_size均为1。
特征融合部分包括依次连接的第一卷积层、第一上采样层、第一残差拼接层、第二卷积层、第二上采样层、第二残差拼接层、第二下采样层、第三残差拼接层、第三下采样层、第四残差拼接层,其中第二残差层与第二残差拼接层连接,第三残差层与第一残差拼接层连接,第四残差层与第一卷积层连接,第二卷积层与第三残差拼接层连接,第一卷积层与第四残差拼接层连接,第二残差拼接层、第三残差拼接层、第四残差拼接层均与第二下采样层连接。第一卷积层、第二卷积层采用的卷积核kernel_size为1;第一残差拼接层、第二残差拼接层、第三残差拼接层、第四残差拼接层均包括一个concat拼接层和一个残差层,残差层由一条主分支和一条残差分支组成,主分支和残差分支的卷积核kernel_size均为1;第二下采样层、第三下采样层所采用的卷积核kernel_size为3,stride为2。本实施例所有卷积层无特殊说明情况下stride均为1,且均与批归一化层和激活函数相连接。
结果预测部分包括第一预测层、第二预测层、第三预测层;三个预测层分别输出不同像素尺寸的结果,其中第一预测层输出结果的尺寸最大,第三预测层输出结果的尺寸最小,不同尺寸的图像中包含的信息的侧重点不同,第一预测层、第二预测层、第三预测层共同决定第一图像,因此,第一图像的提取准确度较高。具体地,三个预测层分别由三个卷积核kernel_size为1的卷积操作构成,输入的特征图的大小由特征融合部分决定,输出的结果被映射到原图中,进行舌部区域的预测。优选地,所述激活函数为SiLU函数,具体地,表达式为:f(x)=x×sigmoid(x),其中,x表示自变量。
由于使用的模型为深度学习模型,工作原理在于回归,建立输出特征与真实特征的关联,根据真实标签与预测标签的映射回归判断是否为舌部区域;也就是通过多个标记好舌部区域的标签和图像一起对第一提取模型进行训练,使得第一提取模型能够从输入的图像中提取到舌部图像,即第一图像。提取到的图像只有舌部区域,相当于在原图中框选出舌部区域,然后将舌区域以外的裁剪掉。这样,仅对舌部区域进行分析,从而减少了其他面部因素的干扰,可以提升分割舌头的准确度。对第一提取模型的训练通过训练集数据完成,具体地,训练批量大小为16,训练200个epochs,学习率随着训练迭代的次数增加而减小,得到最优的模型权重,使得第一提取模型具有较好的提取能力。
S3,利用第二提取模型对第一图像进行分割,得到第二图像;
将步骤S2得到的第一图像利用第二提取模型进行分割,得到第二图像,第二图像为舌头图像,也就是,将舌头图像从舌部图像上提取出来。
第二提取模型为预训练的卷积神经网络模型。第二提取模型包括编码部分和解码部分;编码部分将第二图像逐渐抽象化,抽象后的图像中特征信息占比较大,解码部分将抽象的特征进行上采样,逐渐具体,使得特征容易被识别,从而分割更准确。如图3所示,编码部分包括特征提取部分和空洞空间金字塔池化部分。具体地,特征提取部分为基于深度学习的轻量化骨干网络MobileNetV2;空洞空间金字塔池化部分包括并列连接的第一空洞卷积层、第二空洞卷积层、第三空洞卷积层、第四空洞卷积层、全局池化层。第一空洞卷积层采用的卷积核kernel_size为1;第二空洞卷积层采用的卷积核kernel_size为3,空洞参数rate为6;第三空洞卷积层采用的卷积核kernel_size为3,空洞参数rate为12;第四空洞卷积层所采用的卷积核kernel_size为3,空洞参数rate为18。采用多个不同的空洞卷积层,使得不同尺寸像素下的特征信息充分提取,不同尺寸像素图像对应的特征信息不完全相同,从多个维度反映了特征信息,从而编码后的数据包含更多的特征信息,解码后呈现的特征信息较多,从而最终分割结果更准确。
如图3所示,解码部分包括依次连接的第三卷积层(图3中第一卷积层)、第四上采样层(图3中第一上采样层)、Concat连接、第五卷积层(图3中第三卷积层)、第五上采样层(图3中第二上采样层),和第四卷积层(图3中第二卷积层),结合图3进行描述,其中,特征提取部分与第二卷积层连接,第二卷积层与Concat连接进行连接,第一空洞卷积层、第二空洞卷积层、第三空洞卷积层、第四空洞卷积层、全局池化层均与第一卷积层连接。图3中,第一卷积层所采用的卷积核kernel_size为1,第二卷积层包括两个卷积核均为kernel_size为3的卷积操作,第三卷积层所采用的卷积核kernel_size为1,第一上采样层和第二上采样层均采用双线性插值的计算方式进行。所有卷积层均批归一化层和激活函数相连接。优选地,激活函数为ReLU函数,具体地,f(x)=x,(x≥0),其中,x为自变量。
利用训练数据集对第二提取模块进行训练,利用训练得到的best.th权重文件加载分割算法,可以对输入的第一图像进行分割,得到第二图像。分割的依据为模型对于输入图像的像素级分类,舌体归为1,非舌体归为0,从而将舌体和非舌体分开,达到分割舌头的目的。像素级的分割具有精度高、保留细节信息丰富等特点,对复杂场景适应性强,具有较高的可扩展性,提高了舌头提取的精度。也就是,得到没有其他任何旁杂区域或元素的舌头图像,避免了其他信息的干扰,如图4所示。
S4,利用第三提取模型对第二图像进行特征提取,得到舌体特征;
将第二图像输入第三提取模型进行特征提取,得到包括舌色、老嫩、胖瘦、点刺、齿痕、裂纹、剥苔、薄厚、腐腻、润燥、苔色11种舌体特征的判别,最后输出总特征集合。第三提取模型为预训练的模型,利用训练集数据进行训练。
如图5所示,第三提取模型包括依次连接的第六卷积层(图5中第一卷积层)、第一池化层、第五残差层(图5中第一残差层)、第六残差层(图5中第二残差层)、第七残差层(图5中第三残差层)、第八残差层(图5中第四残差层);对舌头的特征进行充分提取。结合图5,其中,第一卷积层所采用的卷积核kernel_size为7,stride为2;第一池化层的kernel_size为3,stride为2;第一卷积层和第一池化层依次连接;第一残差层包括三个残差块,其中,三个残差块均包括两个卷积层和一个残差连接,其中两个卷积层的kernel_size为3,两个卷积层依次连接;第二残差层包括四个残差块,其中第一个残差块包括两个卷积层和一个卷积残差连接,其中两个卷积层的kernel_size为3,卷积残差连接的kernel_size为3,stride为2;两个卷积层依次连接。其余三个残差块均包括两个卷积层和一个残差连接,其中两个卷积层的kernel_size为3,两个卷积层依次连接。第三残差层包括六个残差块,其中第一个残差块包括两个卷积层和一个卷积残差连接,其中两个卷积层的kernel_size为3,卷积残差连接的kernel_size为3,stride为2;两个卷积层依次连接。其余五个残差块均包括两个卷积层和一个残差连接,其中两个卷积层的kernel_size为3,两个卷积层依次连接。第四残差层包括三个残差块,其中第一个残差块包括两个卷积层和一个卷积残差连接,其中两个卷积层的kernel_size为3,卷积残差连接的kernel_size为3,stride为2;两个卷积层依次连接。其余两个残差块均包括两个卷积层和一个残差连接,其中两个卷积层的kernel_size为3,两个卷积层依次连接。优选地,所述激活函数为ReLU函数,具体地,f(x)=x,(x≥0)。通过串连的多层残差层,将初始图像中的特征与抽象图像中的特征进行多层级融合,将不同抽象程度的特征进行了多层级的深度融合,从而使得提取到的特征更加准确,以便于分类模型进行准确分类。
S5,将舌体特征输入分类模型,分类模型输出预测结果。
胃癌病人中,早期以紫舌及淡白舌常见,其次是红舌。舌苔以白厚腻及黄厚腻为多,舌形多见于裂纹舌、齿痕舌及胖嫩舌田。胃癌位置不同,舌头表现也不相同,贲门癌以紫舌、淡白舌为多,舌苔多腻甚至无苔。也就是,从舌面图像可以得到胃癌的患病情况。将步骤S3得到的分割结果输入第二提取模型,第二提取模型对相关的特征信息,包括舌色、苔色、薄厚等信息进行提取,再利用分类模型即可输出胃癌的预测结果。
如图6所示,分类模型包括依次连接的第七卷积层(图6中第一卷积层)、七个深度可分离残差层、第八卷积层(图6中第二卷积层)、第二池化层(图6中的池化层)。图6中,第一卷积层为kernel_size为3,stride为2;深度可分离卷积层包括卷积层1、深度可分离卷积层、注意力机制模块、卷积层2,其中卷积层1的kernel_size为1,stride为1,深度可分离卷积层kernel_size为3或5;优选地,注意力机制模块为SE注意力机制;第二卷积层kernel_size为1,stride为1;池化层为全局平均池化层。优选地,激活函数为SiLU函数,具体地,f(x)=x×sigmoid(x),x为自变量。该分类模型采用基于复合缩放方法的网络结构,通过同时调整网络的深度、宽度和分辨率来提高效率。与传统模型相比,这种方法在有限的资源下获得更好的结果,提供更高的准确性和更低的计算成本。
需要说明的是,分析方法的流程为:获取所拍摄到的带有患者舌部的图像,对舌部进行预提取得到舌部图像(第一图像),对舌部图像进行舌体分割得到舌头图像(第二图像),对舌体进行舌部特征分析,根据舌体特征进行胃癌预测,分类模型输出预测结果。预测后,本申请还对图像进行标记,生成标准舌象数据集,标记舌体的类别信息,可以扩充原有的数据集,能够提高模型的泛化能力,使得模型的预测准确率更高。
本方案使用了基于深度学习的语义分割算法和特征分类算法,搭建基于舌头图像分析方法的预测模型,利用舌数据集进行专门训练从而达到精确分割舌头并且提取特征的目的。深度学习算法利用神经网络模型,通过对图像的像素级别进行分类,可以更好地捕捉图像中的语义信息,区分舌体和其他部分。神经网络通过深层神经网络结构,可以学习到更抽象和更高级的特征表示,具有强大的表达能力,通过大规模的训练数据和特征学习能力,可以获得更准确的分类结果。另外,深度学习模型可以从不同场景中学习到更丰富的语义信息,具有强大的泛化能力和鲁棒性。
如图7所示,本发明还提供了一种舌面图像采集装置,包括光源装置、通风消毒模块、图像获取模块、数据处理模块。具体地,光源装置:采用亮度和色温可以进行调节的光源,将亮度和色温调节到符合舌诊仪标准值,建仿自然光照条件,光照度为;通风消毒模块:通风装置使用20000转排风扇,消毒装置则采用紫外线光源;图像获取模块:采用摄像机对人员的舌面图像进行拍摄,为了方便固定,人员下巴可以放置在下颌托上,人员需要伸出舌头,充分露出舌面,舌面与摄像机之间的距离和角度不作具体限定,摄像机聚焦后能够得到清晰的舌面图像即可;数据处理模块:包括微型处理器和云端服务器,其上存储方法,使用微型处理器和云端服务器,进行数据处理,部署舌部图像分析模型,舌部图像分析模型包括舌部预提取模型、第一提取模型、第二提取模型、分类模型,并且存储并返回处理结果。
如图8所示,本申请还提供了一种舌面图像分析装置,包括,获取模块、第一处理模块、第二处理模块、第三处理模块、分类模块。获取模块,用于获取舌面图像;第一处理模块,用于利用第一提取模型对舌面图像进行预处理,得到第一图像;第二处理模块,用于利用第二提取模型对第一图像进行分割,得到第二图像;第三处理模块,用于利用第三提取模型对第二图像进行特征提取,得到舌体特征;分类模块,用于将舌体特征输入分类模型,分类模型输出预测结果。其余具体的技术细节与上述一种舌面图像分析方法相同。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种舌面图像分析方法,其特征在于,所述方法包括:
S1,获取舌面图像;
S2,利用第一提取模型对所述舌面图像进行预处理,得到第一图像;
S3,利用第二提取模型对所述第一图像进行分割,得到第二图像;
S4,利用第三提取模型对所述第二图像进行特征提取,得到舌体特征;
S5,将所述舌体特征输入分类模型,所述分类模型输出预测结果;
其中,所述第一提取模型为基于深度学习网络的目标检测模型,所述第二提取模型为卷积神经网络模型。
2.根据权利要求1所述的舌面图像分析方法,其特征在于,所述第一图像为舌部图像;所述第一提取模块包括提取特征部分、特征融合部分、结果预测部分;所述提取特征部分包括依次连接的第一下采样层、第一残差层、第二残差层、第三残差层、空间池化层和第四残差层;所述特征融合部分包括依次连接的第一卷积层、第一上采样层、第一残差拼接层、第二卷积层、第二上采样层、第二残差拼接层、第二下采样层、第三残差拼接层、第三下采样层、第四残差拼接层。
3.根据权利要求2所述的舌面图像分析方法,其特征在于,所述第二图像为舌头图像;所述第二提取模型包括编码部分和解码部分,所述编码部分包括特征提取部分和空洞空间金字塔池化部分,所述特征提取部分为基于深度学习的轻量化骨干网络MobileNetV2,所述空洞空间金字塔池化部分包括并列连接的第一空洞卷积层、第二空洞卷积层、第三空洞卷积层、第四空洞卷积层、全局池化层。
4.根据权利要求3所述的舌面图像分析方法,其特征在于,所述第三提取模型包括依次连接的第六卷积层、第一池化层、第五残差层、第六残差层、第七残差层、第八残差层。
5.根据权利要求4所述的舌面图像分析方法,其特征在于,所述分类模型包括第七卷积层、七个深度可分离残差层、第八卷积层、第二池化层。
6.一种舌面图像分析装置,其特征在于,所述装置包括:
获取模块,用于获取舌面图像;
第一处理模块,用于利用第一提取模型对所述舌面图像进行预处理,得到第一图像;
第二处理模块,用于利用第二提取模型对所述第一图像进行分割,得到第二图像;
第三处理模块,用于利用第三提取模型对所述第二图像进行特征提取,得到舌体特征;
分类模块,用于将所述舌体特征输入分类模型,所述分类模型输出预测结果;
其中,所述第一提取模型为基于深度学习网络的目标检测模型,所述第二提取模型为卷积神经网络模型。
7.根据权利要求6所述的舌面图像分析装置,其特征在于,所述第一图像为舌部图像;所述第一提取模块包括提取特征部分、特征融合部分、结果预测部分;所述提取特征部分包括依次连接的第一下采样层、第一残差层、第二残差层、第三残差层、空间池化层和第四残差层;所述特征融合部分包括依次连接的第一卷积层、第一上采样层、第一残差拼接层、第二卷积层、第二上采样层、第二残差拼接层、第二下采样层、第三残差拼接层、第三下采样层、第四残差拼接层。
8.根据权利要求7所述的舌面图像分析装置,其特征在于,所述第二图像为舌头图像;所述第二提取模型包括编码部分和解码部分,所述编码部分包括特征提取部分和空洞空间金字塔池化部分,所述特征提取部分为基于深度学习的轻量化骨干网络MobileNetV2,所述空洞空间金字塔池化部分包括并列连接的第一空洞卷积层、第二空洞卷积层、第三空洞卷积层、第四空洞卷积层、全局池化层。
9.根据权利要求8所述的舌面图像分析装置,其特征在于,所述第三提取模型包括依次连接的第六卷积层、第一池化层、第五残差层、第六残差层、第七残差层、第八残差层。
10.根据权利要求9所述的舌面图像分析装置,其特征在于,所述分类模型包括第七卷积层、七个深度可分离残差层、第八卷积层、第二池化层。
CN202311687814.2A 2023-12-11 2023-12-11 一种舌面图像分析方法及装置 Pending CN117636053A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311687814.2A CN117636053A (zh) 2023-12-11 2023-12-11 一种舌面图像分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311687814.2A CN117636053A (zh) 2023-12-11 2023-12-11 一种舌面图像分析方法及装置

Publications (1)

Publication Number Publication Date
CN117636053A true CN117636053A (zh) 2024-03-01

Family

ID=90037477

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311687814.2A Pending CN117636053A (zh) 2023-12-11 2023-12-11 一种舌面图像分析方法及装置

Country Status (1)

Country Link
CN (1) CN117636053A (zh)

Similar Documents

Publication Publication Date Title
CN109858540B (zh) 一种基于多模态融合的医学图像识别系统及方法
CN110600122B (zh) 一种消化道影像的处理方法、装置、以及医疗系统
CN107730489A (zh) 无线胶囊内窥镜小肠病变计算机辅助检测系统及检测方法
CN111341437B (zh) 基于舌图像的消化道疾病判断辅助系统
CN111369501B (zh) 一种基于视觉特征识别口腔鳞状细胞癌的深度学习方法
CN112085113B (zh) 一种重症肿瘤影像识别系统及方法
CN111653365A (zh) 一种鼻咽癌辅助诊断模型构建和辅助诊断方法及系统
CN112884788B (zh) 基于丰富上下文网络的视杯视盘分割方法及成像方法
CN113221945B (zh) 基于口腔全景片和双重注意力模块的龋齿识别方法
CN111462082A (zh) 一种病灶图片识别装置、方法、设备及可读存储介质
CN113397485A (zh) 一种基于深度学习的脊柱侧弯筛查方法
Goswami et al. Automated detection of oral cancer and dental caries using convolutional neural network
CN117152507A (zh) 一种牙齿健康状态检测方法、装置、设备及存储介质
CN115471512A (zh) 一种基于自监督对比学习的医学影像分割方法
CN113160151B (zh) 基于深度学习及注意力机制的全景片龋齿深度识别方法
CN114612381A (zh) 一种带有尺度增强和注意力融合的医疗图像病灶检测算法
CN117237351B (zh) 一种超声图像分析方法以及相关装置
CN113539476A (zh) 基于人工智能的胃内窥活检拉曼图像辅助诊断方法和系统
CN114764855A (zh) 基于深度学习的膀胱镜下肿瘤智能分割方法、装置及设备
CN109711306B (zh) 一种基于深度卷积神经网络获取面部特征的方法及设备
CN116664592A (zh) 基于图像的动静脉血管分离方法、装置、电子设备及介质
Sun et al. Liver tumor segmentation and subsequent risk prediction based on Deeplabv3+
CN117636053A (zh) 一种舌面图像分析方法及装置
CN113409264B (zh) 一种自动检测六龄牙龋齿的检测装置
CN115035086A (zh) 一种基于深度学习的结核皮试智能筛查分析方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination