CN111105397A - 一种基于深度学习的中医舌象数据快速标注方法和系统 - Google Patents

一种基于深度学习的中医舌象数据快速标注方法和系统 Download PDF

Info

Publication number
CN111105397A
CN111105397A CN201911315680.5A CN201911315680A CN111105397A CN 111105397 A CN111105397 A CN 111105397A CN 201911315680 A CN201911315680 A CN 201911315680A CN 111105397 A CN111105397 A CN 111105397A
Authority
CN
China
Prior art keywords
tongue
tongue picture
deep learning
marking
chinese medicine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911315680.5A
Other languages
English (en)
Inventor
李慧
张帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Medvalley Technology Co ltd
Original Assignee
Tianjin Medvalley Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Medvalley Technology Co ltd filed Critical Tianjin Medvalley Technology Co ltd
Priority to CN201911315680.5A priority Critical patent/CN111105397A/zh
Publication of CN111105397A publication Critical patent/CN111105397A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于深度学习的中医舌象数据快速标注方法和系统。所述方法和系统对中医舌象数据库中的部分舌象图像的舌象特征标注,标注完成后建立深度学习模型,通过简单的训练完成初步模型的构建,从剩余的未标注舌象数据中随机抽取部分舌象并用初步模型做出预测形成辅助舌象特征标签,然后标注人员对这些标签进行校正,将校正后的数据合并入训练集重新训练并预测和校正,重复以上步骤至整个数据集完成。所述的一种基于深度学习的中医舌象数据快速标注方法和系统通过在中医舌象标注过程中重复训练深度学习模型,在渐进式提高模型准确度的同时预测未标注舌象数据,大大降低标注工作的难度,并在一定程度上加快中舌象数据集的构建。

Description

一种基于深度学习的中医舌象数据快速标注方法和系统
技术领域
本发明属于中医图像标注领域,尤其是一种基于深度学习的中医舌象数据快速标注方法和系统。
背景技术
目前主流的基于深度学习的机器学习技术依赖大量的标注数据,而不同于普通场景中的标注可以通过众包等形式进行,医学图像的标注需要有医学背景的专业人员,对于中医舌象更是如此,因为中医舌象由于其复杂的场景使得标注难度更为提升,同时由于长时间标注导致的视觉疲劳从而引起的标注准确率不稳定等等,导致标注成本很高。
因此迫切需要一种技术,降低标注的工作量,推进标注速度以及提高标注准确性,加快中医舌象数据集的构建。
发明内容
有鉴于此,本发明旨在解决现有技术中舌象数据标注成本高、标注准确性不稳定的技术问题。
为达到上述目的,本发明的技术方案是这样实现的:
一种基于深度学习的中医舌象数据快速标注方法包括:
步骤1、采用符合国家中医采集设备标准的中医舌象采集设备进行采集,并且筛除不符合标注标准的图像形成初步的未标注舌象数据集。
步骤2、从未标注舌象中,随机抽取少量图像,多人多次进行标签标注,验证标注准确性后作为训练集,标记为T1
步骤3、基于TensorFlow构建深度学习网络;
步骤4、T1作为网络输入,迭代训练网络直至训练损失不在降低3次或训练步长到达预设步长,停止训练并获得学习到的网络N1
步骤5、从剩余未标注图像中随机抽取100-200图像作为测试集,标记为V1,使用N1预测获得V1的预测标签N1(V1);
步骤6、人工干预介入,对{V1,N1(V1)}校正,获得校正后的数据V1 -
步骤7、合并V1 -及T1得到第二轮的训练集T2
步骤8、将T2作为下一轮循环的T1,重复步骤4到7直至整个舌象数据集标注完成。2、根据权利要求1所述的一种中医舌诊仪,其特征在于:所述的壳体一侧上设有把手,所述的把手可以绕一端轴线做旋转运动。
进一步的,在步骤1之前还包括一些数据清洗的准则,色彩校正,标注设备参数确定等工作:采集若干舌象图像,筛除掉不符合采集标准的图像,包括有异物,被食物染色等舌象;采用色彩还原度高,高分辨率的显示设备进行标注;由于人体透光性的影响,舌象数据在显示设备上的成像和人眼中的成像存在一些差异,需要使用一定的基于图像处理的色彩还原技术对其进行色彩校正。
一种基于深度学习的中医舌象数据快速标注系统,包括:
舌象采集单元,其采用符合国家中医采集设备标准的中医舌象采集设备进行舌象采集,并且筛除不符合后期标注标准的图像;
舌象标注单元,其使用色彩还原度高,分辨率高的显示器对特定的舌象特征进行标注,注意此处仅标注少量数据完成深度学习模型的初步训练。
进一步的,还包括:
网络搭建单元,其用于深度学习网络结构搭建;
循环标注单元,用于渐进式提高深度学习网络模型准确率和辅助标注人员进行标注。
进一步的,所述循环标注单元包括:
模型训练单元用于深度学习模型的权重求解,模型预测单元;
用于辅助标注人员的标注,人工校正单元用于对网络预测进行人工校准;
数据随机抽取单元,用于从未标注数据中随机抽取部分数据用于前向网络的输入。
相对于现有技术,本发明所述的一种基于深度学习的中医舌象数据快速标注方法和系统具有以下优势:
1、加速舌象标注工作进度,由于深度学习网络的辅助,大大减轻标注的工作量;
2、提升标注的准确度,由于深度学习网络对噪声数据的鲁棒性,即使少量的错误标签,网络也可以学到真正的不同类别之间的分界线,因此本发明利用深度学习网络辅助标注人员对复杂的舌象进行标注工作可以优化标注的准确性;
3、增加对困难样本的标注,由于舌象标注的复杂度,即使有相关专业背景的标注人员对一些困难的舌象数据难以分类,而充分学习之后的深度学习网络可以挖掘更具有鉴别能力的底层特征,从而进行舌象分类。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例所述的基于深度学习模型降低中医舌象数据标注成本以及渐进式提高标注准确率方法的框架流程图;
图2为本发明实施例所述的舌象样本特征组成示意图;
图3为本发明实施例所述的基于深度学习模型降低中医舌象数据标注成本以及渐进式提高标注准确率方法的结构示意图。
具体实施方式
现参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明中的具体含义。
下面将参考附图并结合实施例来详细说明本发明。
图1为根据本发明优选实施方式的基于深度学习模型降低中医舌象数据标注成本以及渐进式提高标注准确率方法的框架流程图。如图1所示,本优选实施方式所述的基于深度学习模型降低中医舌象数据标注成本以及渐进式提高标注准确率方法100从步骤101开始。
在步骤101中,采用符合国家中医采集设备标准的中医舌象采集设备进行采集,并且筛除不符合标注标准的图像形成初步的未标注舌象数据集。
在步骤102中,使用色彩还原度高,分辨率高的显示器对特定的舌象特征进行标注,注意此处仅标注少量数据用于深度学习模型的初步训练。
图2为根据本发明优选实施方式的特定舌象特征组成示意图。如图2所示,本优选实施方式中的中医舌象特征按舌质和舌苔进行初步分类,然后舌质第二步化分为舌色和舌形两类,舌苔第二步化分为苔色和苔质两类,随后舌形具体划分为点刺、裂纹、齿痕,苔质化分为腻苔、腐苔、薄苔、厚苔、滑苔、润苔、燥苔、糙苔、剥苔,因此,在每一副舌象图像中,需要标注舌色、苔色、点刺、裂纹、齿痕、腻、腐、薄、厚、滑、润、燥、糙、剥14个舌象特征,其中从异常检测标注的角度出发,薄苔不做标注,因此只需标注13个舌象特征,又点刺的位置在中医诊断中非常重要,点刺需额外标注出现的位置。此处仅是对本实例所需的舌象特征进行描述,不同的场景需求可能有增有减,故对于具体的舌象特征如何标注不在本发明的范围,不做过多的描述。
在步骤103,进行深度学习网络结构的搭建以及损失函数的定义,由于本发明不侧重这里且不同的场景需要不同的结构设计及损失定义,此处不过多介绍。
在步骤104,使用步骤102中标注好的少量数据对神经网络进行初步的训练,训练停止标志位为训练损失(loss)不在改变超过3次或训练步长(epoch)达到预先设定的步长100。
在步骤105,从未标注数据集中随机抽取100-200副图像通过步骤4训练好的网络,然后在步骤106获得网络预测的标签和对应的舌象数据组合。
在步骤107,介入人工干预,对网络输出的舌象标签进行校正,由于网络已经学习到一定的能力,可以初步的辅助标注人员,减少一定的标注工作量。
在步骤108,合并步骤102的数据和步骤107的数据,将这些数据作为步骤105的输入。
在步骤109,从剩余的未标注数据中重新抽取部分数据,重复步骤105到108,直至整个舌象数据集建立完成。
图3为根据本发明优选的基于深度学习模型降低中医舌象数据标注成本以及渐进式提高标注准确率系统的结构示意图。如图3所示,本优选实施方式所述的基于深度学习模型降低中医舌象数据标注成本以及渐进式提高标注准确率系统300包括:
舌象采集单元301,其采用符合国家中医采集设备标准的中医舌象采集设备进行舌象采集,并且筛除不符合后期标注标准的图像;
舌象标注单元302,其使用色彩还原度高,分辨率高的显示器对特定的舌象特征进行标注,注意此处仅标注少量数据完成深度学习模型的初步训练;
网络搭建单元303,其用于深度学习网络结构搭建;
循环标注单元304,其包括模型训练单元341用于深度学习模型的权重求解,模型预测单元342,用于辅助标注人员的标注,人工校正单元343用于对网络预测进行人工校准,数据随机抽取单元344,用于从未标注数据中随机抽取部分数据用于前向网络的输入。
已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。
通常地,在权利要求中使用的所有术语都根据它们在技术领域的通常含义被解释,除非在其中被另外明确地定义。所有参考“一个/所述/改[装置、组件等]”都被开放地解释为所述装置、组件等中至少一个实例,除非另外明确地说明,这里公开的任何方法的步骤都没必要以公开的准确的顺序进行,除非明确地说明。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于深度学习的中医舌象数据快速标注方法,其特征在于:
步骤1、采用符合国家中医采集设备标准的中医舌象采集设备进行采集,并且筛除不符合标注标准的图像形成初步的未标注舌象数据集。
步骤2、从未标注舌象中,随机抽取少量图像,多人多次进行标签标注,验证标注准确性后作为训练集,标记为T1
步骤3、基于TensorFlow构建深度学习网络;
步骤4、T1作为网络输入,迭代训练网络直至训练损失不在降低3次或训练步长到达预设步长,停止训练并获得学习到的网络N1
步骤5、从剩余未标注图像中随机抽取100-200图像作为测试集,标记为V1,使用N1预测获得V1的预测标签N1(V1);
步骤6、人工干预介入,对{V1,N1(V1)}校正,获得校正后的数据V1 -
步骤7、合并V1 -及T1得到第二轮的训练集T2
步骤8、将T2作为下一轮循环的T1,重复步骤4到7直至整个舌象数据集标注完成。
2.根据权利要求1所述的一种基于深度学习的中医舌象数据快速标注方法,其特征在于:在步骤1之前还包括一些数据清洗的准则,色彩校正,标注设备参数确定等工作:采集若干舌象图像,筛除掉不符合采集标准的图像,包括有异物,被食物染色等舌象;采用色彩还原度高,高分辨率的显示设备进行标注;由于人体透光性的影响,舌象数据在显示设备上的成像和人眼中的成像存在一些差异,需要使用一定的基于图像处理的色彩还原技术对其进行色彩校正。
3.一种基于深度学习的中医舌象数据快速标注系统,其特征在于:包含以下单元:
舌象采集单元,其采用符合国家中医采集设备标准的中医舌象采集设备进行舌象采集,并且筛除不符合后期标注标准的图像;
舌象标注单元,其使用色彩还原度高,分辨率高的显示器对特定的舌象特征进行标注,注意此处仅标注少量数据完成深度学习模型的初步训练。
4.根据权利要求3所述的一种基于深度学习的中医舌象数据快速标注系统,其特征在于:还包括:
网络搭建单元,其用于深度学习网络结构搭建;
循环标注单元,用于渐进式提高深度学习网络模型准确率和辅助标注人员进行标注。
5.根据权利要求4所述的一种基于深度学习的中医舌象数据快速标注系统其特征在于:所述循环标注单元包括:
模型训练单元,用于深度学习模型的权重求解;
模型预测单元,用于辅助标注人员的标注,人工校正单元用于对网络预测进行人工校准;
数据随机抽取单元,用于从未标注数据中随机抽取部分数据用于前向网络的输入。
CN201911315680.5A 2019-12-19 2019-12-19 一种基于深度学习的中医舌象数据快速标注方法和系统 Pending CN111105397A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911315680.5A CN111105397A (zh) 2019-12-19 2019-12-19 一种基于深度学习的中医舌象数据快速标注方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911315680.5A CN111105397A (zh) 2019-12-19 2019-12-19 一种基于深度学习的中医舌象数据快速标注方法和系统

Publications (1)

Publication Number Publication Date
CN111105397A true CN111105397A (zh) 2020-05-05

Family

ID=70422417

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911315680.5A Pending CN111105397A (zh) 2019-12-19 2019-12-19 一种基于深度学习的中医舌象数据快速标注方法和系统

Country Status (1)

Country Link
CN (1) CN111105397A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112883876A (zh) * 2021-02-24 2021-06-01 北京市商汤科技开发有限公司 室内行人检测的方法、装置、设备及计算机存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330889A (zh) * 2017-07-11 2017-11-07 北京工业大学 一种基于卷积神经网络的中医舌色苔色自动分析方法
CN109657722A (zh) * 2018-12-20 2019-04-19 山东农业大学 基于深度学习算法的舌苔图像识别方法及系统
CN109712706A (zh) * 2018-12-19 2019-05-03 新绎健康科技有限公司 一种基于深度学习的望诊方法及装置
CN109766916A (zh) * 2018-12-17 2019-05-17 新绎健康科技有限公司 一种基于深度学习模型确定舌象样本库的方法和系统
CN110119738A (zh) * 2019-05-21 2019-08-13 中电健康云科技有限公司 齿痕检测方法、装置、电子设备及可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330889A (zh) * 2017-07-11 2017-11-07 北京工业大学 一种基于卷积神经网络的中医舌色苔色自动分析方法
CN109766916A (zh) * 2018-12-17 2019-05-17 新绎健康科技有限公司 一种基于深度学习模型确定舌象样本库的方法和系统
CN109712706A (zh) * 2018-12-19 2019-05-03 新绎健康科技有限公司 一种基于深度学习的望诊方法及装置
CN109657722A (zh) * 2018-12-20 2019-04-19 山东农业大学 基于深度学习算法的舌苔图像识别方法及系统
CN110119738A (zh) * 2019-05-21 2019-08-13 中电健康云科技有限公司 齿痕检测方法、装置、电子设备及可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
胡昌华等: "《设备剩余寿命预测与最优维修决策》", 30 November 2018 *
胡昌平等: "《信息资源管理原理》", 30 September 2008 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112883876A (zh) * 2021-02-24 2021-06-01 北京市商汤科技开发有限公司 室内行人检测的方法、装置、设备及计算机存储介质

Similar Documents

Publication Publication Date Title
US20080139966A1 (en) Automatic tongue diagnosis based on chromatic and textural features classification using bayesian belief networks
CN110909780B (zh) 一种图像识别模型训练和图像识别方法、装置及系统
CN102096917B (zh) 胶囊内窥镜冗余图像数据的自动剔除方法
WO2020024127A1 (zh) 骨龄评估与身高预测模型、其系统及其预测方法
TWI684997B (zh) 骨齡評估與身高預測模型之建立方法、骨齡評估與身高預測系統及骨齡評估與身高預測方法
CN108596046A (zh) 一种基于深度学习的细胞检测计数方法及系统
CN103198467B (zh) 图像处理装置以及图像处理方法
CN104484886B (zh) 一种mr图像的分割方法及装置
CN107784319A (zh) 一种基于增强卷积神经网络的病理图像分类方法
CN111161272B (zh) 一种基于生成对抗网络的胚胎组织分割方法
CN109145944B (zh) 一种基于纵向三维图像深度学习特征的分类方法
CN113288452A (zh) 手术质量检测方法及装置
WO2019098415A1 (ko) 자궁경부암에 대한 피검체의 발병 여부를 판정하는 방법 및 이를 이용한 장치
CN115661459A (zh) 一种使用差异信息的2D mean teacher模型
CN111105397A (zh) 一种基于深度学习的中医舌象数据快速标注方法和系统
CN109741285A (zh) 一种水下图像数据集的构建方法及系统
CN117152507B (zh) 一种牙齿健康状态检测方法、装置、设备及存储介质
CN113237881A (zh) 一种特定细胞的检测方法、装置和病理切片检测系统
Li et al. Computer-aided disease diagnosis system in TCM based on facial image analysis
Fonseca et al. Automatic orientation identification of pediatric chest x-rays
CN115641335B (zh) 基于时差培养箱的胚胎异常多级联智能综合分析系统
CN114913086B (zh) 基于生成对抗网络的人脸图像质量增强方法
Trilaksana et al. Sputum smear images database: A resource for deep learning study based to detect Bacilli for TB diagnose
CN114972065A (zh) 色差校正模型的训练方法、系统、电子设备和移动设备
CN108968892A (zh) 一种肠镜下盲区监测的系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 300392-401, Zhongnan building, 18 Haitai West Road, Huayuan Industrial Zone, Binhai New Area, Tianjin

Applicant after: Huiyigu traditional Chinese medicine technology (Tianjin) Co.,Ltd.

Address before: 300392-401, Zhongnan building, 18 Haitai West Road, Huayuan Industrial Zone, Binhai New Area, Tianjin

Applicant before: TIANJIN MEDVALLEY TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20200505

RJ01 Rejection of invention patent application after publication