CN114943740A - 一种基于深度学习的舌象实时分割方法 - Google Patents

一种基于深度学习的舌象实时分割方法 Download PDF

Info

Publication number
CN114943740A
CN114943740A CN202210607402.2A CN202210607402A CN114943740A CN 114943740 A CN114943740 A CN 114943740A CN 202210607402 A CN202210607402 A CN 202210607402A CN 114943740 A CN114943740 A CN 114943740A
Authority
CN
China
Prior art keywords
tongue picture
encoder
model
convolution
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210607402.2A
Other languages
English (en)
Inventor
张伶俐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Polytechnic Institute
Original Assignee
Nanjing Polytechnic Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Polytechnic Institute filed Critical Nanjing Polytechnic Institute
Priority to CN202210607402.2A priority Critical patent/CN114943740A/zh
Publication of CN114943740A publication Critical patent/CN114943740A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明提供了一种基于深度学习的舌象实时分割方法,包括以下步骤:步骤1:建立基于移动端拍摄的舌象数据集;步骤2:对数据集进行预处理并划分;步骤3:构建舌象实时分割网络模型对舌象图片进行特征提取;步骤4:构建多尺度信息融合模块插入模型架构中,提升舌象分割精确度;步骤5:构建损失函数,对模型参数进行训练优化;步骤6、使用优化后的模型实现舌象图片实时分割。本发明提供的一个基于深度学习的舌象实时分割方法,深度学习模型参数量少,能够适应移动端应用,减少移动端计算压力。且该方法提出的模型充分利用卷积上下文特征,使得模型精确度达到99.01%。与现有技术相比,既提升了实时预测的速度,又有很高的精度。

Description

一种基于深度学习的舌象实时分割方法
技术领域
本发明涉及舌象实时分割,特别涉及一种基于深度学习的舌象实时分割方法。
背景技术
舌诊是中医治疗过程中关键步骤之一,为医生了解病人体制提供了重大的帮助。在现代医学治疗方案中,舌诊一般包括以下步骤:(1)舌头图像采集,(2)舌头图像分割,(3)舌头颜色校正,(4)疾病诊断。其中,舌头的自动分割在整个过程中起着非常重要的作用,通常研究者们会使用神经网络技术对病人的舌象进行分割,以此来提取舌象的有效信息,作为下一步会诊信息的参考。
近年来,随着互联网医院的发展,利用移动设备的便携性开发舌诊系统引起了人工智能界的广泛关注。然而,很多基于神经网络技术的舌象分割方案模型规模大,不适合在远程舌诊过程中使用。由于病人在随即环境下拍摄,图像质量低且移动端设备计算能力有限,舌象实时分割具有挑战性。CN113781468A 所提出的轻量级卷积神经网络的舌象分割方法,其模型参数量较多,且模型没有充分利用卷积特征的上下文语义信息。
发明内容
1.所要解决的技术问题:
现有的舌象实时分割方法舌象分割方案模型规模大,不适合在远程舌诊过程中使用,而且模型参数量较多,且模型没有充分利用卷积特征的上下文语义信息。
2.技术方案:
为了解决以上问题,本发明提供了一种基于深度学习的舌象实时分割方法,包括以下步骤:步骤1:建立基于移动端拍摄的舌象数据集;步骤2:对数据集进行预处理并划分;步骤3:构建舌象实时分割网络模型对舌象图片进行特征提取;步骤4:构建多尺度信息融合模块插入模型架构中,提升舌象分割精确度;步骤5:构建损失函数,对模型参数进行训练优化;步骤6、使用优化后的模型实现舌象图片实时分割。
在步骤1中,数据包含不少于650张舌头图片,基于在不同环境下拍摄。
所述步骤2中对数据集进行预处理并划分具体的方法为:将所有图片数据的大小调整为256×256,然后对数据进行划分,其中不少于500张作为训练集,不少于150张作为测试集,所示训练集中的图片张数是测试集中的3倍以上。
所述步骤3中构建舌象实时分割网络模型对舌象图片进行特征提取,具体方法为:一:特征提取模块主要包含编码器与解码器;二:编码器模块采用的是轻量级卷积神经网络GhostNet;三:解码器模块采用的是卷积特征跳跃连接,再进行双线性插值与卷积运算预测最终结果。
所述编码器模块输入是256×256×3的舌头图片,经过GhostNet特征提取,输出为16×16×112的特征图,所述解码器模块采用的是将所述编码器模块输出特征图进行双线性插值,再与GhostNet网络第二个卷积模块进行拼接,拼接之后得到的特征图再进行双线性插值和卷积得到最终的预测结果,所述第二卷积模块中特征图是128×128×16。
所述步骤4中构建多尺度信息融合模块插入模型架构中,提升舌象分割精确度。具体方法为:在编码器与解码器连接部分插入多尺度信息融合模块;然后多尺度信息融合模块采用金字塔池化重建编码器输出特征图,重建后的特征图作为解码器输入。
在步骤3的编码器与解码器连接部分插入多尺度信息融合模块,所述信息融合模块模块对编码器输出16×16×112的特征图采用金字塔池化重建编码器输出特征图,重建后的特征图作为解码器输入,金字塔池化包括使用卷积核大小为1×1,2×2,3×3,6×6的卷积对编码器输出特征图进行卷积,将得到的卷积特征图进行双线性插值得到原始特征图大小,并将所有特征图进行拼接,作为解码器的输入。
所述步骤5中构建损失函数,对模型参数进行训练优化,具体方法为:舌象实时分割方法先采用的损失函数为Dice loss,然后采用Adam优化器对模型参数进行优化,学习率设置为0.01。
3.有益效果:
本发明提供的一个基于深度学习的舌象实时分割方法,深度学习模型参数量少,能够适应移动端应用,减少移动端计算压力。且该方法提出的模型充分利用卷积上下文特征,使得模型精确度达到99.01%。本发明与现有技术相比,既提升了实时预测的速度,又有很高的精度,模型的鲁棒性得到了明显的提高。
具体实施方式
下面结合实施例来对本发明进行详细说明。
实施例
一种基于深度学习的舌象实时分割方法,步骤1,建立基于移动端拍摄的舌象数据集,该数据集包含650张舌头图片,都是基于手机在不同环境下拍摄。
步骤2,对该数据集进行预处理并划分:将所有舌头图片大小调整为256×256;之后再对数据集进行划分,其中500张图片作为训练集,150张图片作为测试集。
步骤3,构建舌象实时分割网络模型对舌象图片进行特征提取:所构建的特征提取模块主要包含编码器与解码器。编码器部分采用的是GhostNet特征提取模块,编码器输入是256×256×3的舌头图片,经过GhostNet特征提取,输出为16×16×112的特征图。解码器部分采用的是将编码器输出特征图进行双线性插值,再与GhostNet网络第二个卷积模块(128×128×16)进行拼接,拼接之后得到的特征图再进行双线性插值和卷积得到最终的预测结果。
步骤4,所构建多尺度信息融合模块插入模型架构中,提升舌象分割精确度。在步骤3的编码器与解码器连接部分插入多尺度信息融合模块,该模块对编码器输出16×16×112的特征图采用金字塔池化重建编码器输出特征图,重建后的特征图作为解码器输入。金字塔池化主要包括使用卷积核大小为1×1,2×2,3×3,6×6的卷积对编码器输出特征图进行卷积,将得到的卷积特征图进行双线性插值得到原始特征图大小,并将所有特征图进行拼接,作为解码器的输入。
步骤5,构建损失函数,对模型参数进行训练优化。采用的损失函数为Dice loss,采用Adam优化器对模型参数进行优化,学习率设置为0.01。
步骤6,使用优化后的模型实现舌象图片实时分割。
为了验证本发明的分割结果,即合理性与有效性,本发明与其他方法进行了对比,从表1中可以看出:本发明提出基于深度学习的舌象实时分割方法相较于其他方法处理速度更快。从表2中可以看出:本发明提出的基于深度学习的舌象实时分割方法相较于其他方法准确度更高。
表1 不同舌象分割模型的大小与处理时间。
Figure 914451DEST_PATH_IMAGE001
表2不同舌象分割模型的准确度。
Figure 897451DEST_PATH_IMAGE002

Claims (8)

1.一种基于深度学习的舌象实时分割方法,包括以下步骤:步骤1:建立基于移动端拍摄的舌象数据集;步骤2:对数据集进行预处理并划分;步骤3:构建舌象实时分割网络模型对舌象图片进行特征提取;步骤4:构建多尺度信息融合模块插入模型架构中,提升舌象分割精确度;步骤5:构建损失函数,对模型参数进行训练优化;步骤6、使用优化后的模型实现舌象图片实时分割。
2.如权利要求1所述的方法,其特征在于:在步骤1中,数据包含不少于650张舌头图片,基于在不同环境下拍摄。
3.如权利要求2所述的方法,其特征在于:所述步骤2中对数据集进行预处理并划分具体的方法为:将所有图片数据的大小调整为256×256,然后对数据进行划分,其中不少于500张作为训练集,不少于150张作为测试集,所示训练集中的图片张数是测试集中的3倍以上。
4.如权利要求1-3任一项权利要求所述的方法,其特征在于:所述步骤3中构建舌象实时分割网络模型对舌象图片进行特征提取,具体方法为:一:特征提取模块主要包含编码器与解码器;二:编码器模块采用的是轻量级卷积神经网络GhostNet;三:解码器模块采用的是卷积特征跳跃连接,再进行双线性插值与卷积运算预测最终结果。
5.如权利要求4所述的方法,其特征在于:所述编码器模块输入是256×256×3的舌头图片,经过GhostNet特征提取,输出为16×16×112的特征图,所述解码器模块采用的是将所述编码器模块输出特征图进行双线性插值,再与GhostNet网络第二个卷积模块进行拼接,拼接之后得到的特征图再进行双线性插值和卷积得到最终的预测结果,所述第二卷积模块中特征图是128×128×16。
6.如权利要求4所述的方法,其特征在于:所述步骤4中构建多尺度信息融合模块插入模型架构中,提升舌象分割精确度具体方法为:在编码器与解码器连接部分插入多尺度信息融合模块;然后多尺度信息融合模块采用金字塔池化重建编码器输出特征图,重建后的特征图作为解码器输入。
7.如权利要求6所述的方法,其特征在于:在步骤3的编码器与解码器连接部分插入多尺度信息融合模块,所述信息融合模块模块对编码器输出16×16×112的特征图采用金字塔池化重建编码器输出特征图,重建后的特征图作为解码器输入,金字塔池化包括使用卷积核大小为1×1,2×2,3×3,6×6的卷积对编码器输出特征图进行卷积,将得到的卷积特征图进行双线性插值得到原始特征图大小,并将所有特征图进行拼接,作为解码器的输入。
8.如权利要求1-3、5-7任一项权利要求所述的方法,其特征在于:所述步骤5中构建损失函数,对模型参数进行训练优化,具体方法为:舌象实时分割方法先采用的损失函数为Dice loss,然后采用Adam优化器对模型参数进行优化,学习率设置为0.01。
CN202210607402.2A 2022-05-31 2022-05-31 一种基于深度学习的舌象实时分割方法 Pending CN114943740A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210607402.2A CN114943740A (zh) 2022-05-31 2022-05-31 一种基于深度学习的舌象实时分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210607402.2A CN114943740A (zh) 2022-05-31 2022-05-31 一种基于深度学习的舌象实时分割方法

Publications (1)

Publication Number Publication Date
CN114943740A true CN114943740A (zh) 2022-08-26

Family

ID=82908659

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210607402.2A Pending CN114943740A (zh) 2022-05-31 2022-05-31 一种基于深度学习的舌象实时分割方法

Country Status (1)

Country Link
CN (1) CN114943740A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115908464A (zh) * 2023-01-09 2023-04-04 智慧眼科技股份有限公司 一种舌体图像分割方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115908464A (zh) * 2023-01-09 2023-04-04 智慧眼科技股份有限公司 一种舌体图像分割方法及系统

Similar Documents

Publication Publication Date Title
CN109948691B (zh) 基于深度残差网络及注意力的图像描述生成方法和装置
CN113012172B (zh) 一种基于AS-UNet的医学图像分割方法及系统
CN111626932B (zh) 图像的超分辨率重建方法及装置
CN110969124A (zh) 基于轻量级多分支网络的二维人体姿态估计方法及系统
WO2021253722A1 (zh) 医学图像重建技术的方法、装置、存储介质和电子设备
CN113807340B (zh) 一种基于注意力机制的不规则自然场景文本识别方法
CN114936979B (zh) 一种模型训练方法、图像去噪方法、装置、设备及存储介质
CN114187296B (zh) 胶囊内窥镜图像病灶分割方法、服务器及系统
CN114219719A (zh) 基于双重注意力和多尺度特征的cnn医学ct图像去噪方法
CN114943740A (zh) 一种基于深度学习的舌象实时分割方法
CN115880317A (zh) 一种基于多分支特征融合精炼的医学图像分割方法
CN116757986A (zh) 一种红外与可见光图像融合方法及装置
CN105069767B (zh) 基于表征学习与邻域约束嵌入的图像超分辨重构方法
CN114926336A (zh) 视频超分辨率重建方法、装置、计算机设备及存储介质
CN111091575A (zh) 一种基于强化学习方法的医学图像分割方法
CN107729885B (zh) 一种基于多重残差学习的人脸增强方法
CN114898447B (zh) 一种基于自注意力机制的个性化注视点检测方法及装置
Zhang et al. Consecutive context perceive generative adversarial networks for serial sections inpainting
CN116485654A (zh) 卷积神经网络与Transformer相结合的轻量级单图像超分辨率重建方法
CN116245968A (zh) 基于Transformer的LDR图像生成HDR图像的方法
CN115908451A (zh) 一种结合多视图几何及迁移学习的心脏ct影像分割方法
CN114066760A (zh) 图像去噪方法、网络模型的训练方法、装置、介质和设备
CN113506226A (zh) 运动模糊复原方法及系统
CN113269702A (zh) 基于跨尺度特征融合的低曝光静脉图像增强方法
CN113160055A (zh) 一种基于深度学习的图像超分辨率重建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination