CN109766916A - 一种基于深度学习模型确定舌象样本库的方法和系统 - Google Patents

一种基于深度学习模型确定舌象样本库的方法和系统 Download PDF

Info

Publication number
CN109766916A
CN109766916A CN201811543209.7A CN201811543209A CN109766916A CN 109766916 A CN109766916 A CN 109766916A CN 201811543209 A CN201811543209 A CN 201811543209A CN 109766916 A CN109766916 A CN 109766916A
Authority
CN
China
Prior art keywords
tongue
sample
image
tongue picture
mark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811543209.7A
Other languages
English (en)
Other versions
CN109766916B (zh
Inventor
王雨晨
宋臣
汤青
魏春雨
周枫明
赵珉一
王东卫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinyi Health Technology Co Ltd
Original Assignee
Xinyi Health Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinyi Health Technology Co Ltd filed Critical Xinyi Health Technology Co Ltd
Priority to CN201811543209.7A priority Critical patent/CN109766916B/zh
Publication of CN109766916A publication Critical patent/CN109766916A/zh
Application granted granted Critical
Publication of CN109766916B publication Critical patent/CN109766916B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提供一种基于深度学习模型确定舌象样本库的方法和系统。所述方法和系统对于舌象样本集中的全部舌样本图像的每个舌象特征进行标注,并在标注后都建立深度学习模型,通过训练和测试来确定舌象特征标注的准确度,当准确度未达到设置的准确度时,对舌象样本集中的该舌象特征在原来标注的基础上进行再次修订,并重新通过深度学习模型来确定标注准确度,通过对每个舌象特征进行多轮标注,多轮深度学习模型检测标注精确度的方式来完成对所有舌象特征标注准确度的确定,从而确定中医舌诊的舌象样本库。所述方法和系统通过对舌象特征进行多轮标注和多次深度学习模型训练检测其准确度,大大提高了舌象标注的准确度。

Description

一种基于深度学习模型确定舌象样本库的方法和系统
技术领域
本发明涉及医学图像标定领域,并且更具体地,涉及一种基于深度学习模型确定舌象样本库的方法和系统。
背景技术
目前对于医学图像的标定技术并不是非常成熟,在中医舌象图像标定上更是如此。由于舌像颜色的相似性、舌形的复杂性以及每种舌象特征并不相同,因此很多标定方法在中医舌象的标定上并不能直接使用,并且算法对标注的准确性要求也很高。
对于目前其他领域的图像标注技术,主要是通过传统计算机视觉方面的算法进行自动标注,比如图像特征提取算法,通过提取图像的特征定位出图像中关键位置进行标注。但是传统计算机视觉的算法不能保证标注的稳定性,如果是待标注图像的关键点数量比较多,或者图像的特征不够明显的情况,通过算法进行图像标注的效率明显降低,且难以保证标注的准确性。
因此,需要一种技术,提高舌象样本集中舌样本图像的舌象特征标注的准确度,从而为中医舌诊提供一个样本充分,标注准确的舌象样本库。
发明内容
为了解决现有技术中舌象样本库中样本的舌象特征标注准确度低的技术问题,本发明提供一种基于深度学习模型确定舌象样本库的方法,所述方法包括:
步骤1、将舌象样本集中第i次标注的全部舌样本图像划分为训练集和测试集,并将第j个舌象特征转换成深度学习模型可识别的数据,其中,1≤i≤m,1≤j≤n,i、j的起始值为1,m、n均为自然数;
步骤2、进行深度学习模型的网络参数配置和求解参数配置;
步骤3、通过运行编写的模型训练脚本文件确定深度学习模型的准确率,当所述准确率低于设置的阈值时,令i=i+1,转至步骤1,当所述准确率大于等于设置的阈值,且j<n时,令i=1,j=j+1,转至步骤1,当所述精确度大于等于设置的阈值,且j=n时,所述包括n个舌象特征标注结果的舌象样本集即为中医舌诊中的舌象样本库。
进一步地,所述方法在将舌象样本集中第i次标注的全部舌样本图像的第j个舌象特征转换成深度学习模型可识别的数据之前还包括:
采集若干舌样本图像,并筛除不符合标注需求的图像后生成舌象样本集,其中所述不符合标注需求的图像包括图像颜色偏差大于设定值,图像模糊、舌上有异物和舌头显示不全;
采用符合标注需求的显示装置呈现舌样本图像,并对所述图像的第j个舌象特征进行第i次标注,其中,所述符合标注需求的显示装置是指分辨率达到设置值的显示装置。
进一步地,所述舌象样本集中第i次标注的全部舌样本图像的第j个舌象特征均是在对舌象样本集中全部舌样本图像的第j个舌象特征进行第i-1次标注的基础上进行再次修正而形成的,其中,2≤i≤m,1≤j≤n,m、n均为自然数。
进一步地,所述将舌象样本集中第i次标注的全部舌样本图像划分为训练集和测试集,并将第j个舌象特征转换成深度学习模型可识别的数据包括:
将舌象样本集中的全部舌样本图像进行划分,其中一部分归属于训练集,剩下的部分归属于测试集;
将舌象样本集中第i次标注的全部舌样本图像的第j个舌象特征按照其特征的种类数量,为每一个种类分别设置一个标签,并以舌样本图像的名称为样本名称,以设置的标签为图像特征的方式分别制作训练集和测试集的文本文件;
将存放训练集和测试集的舌样本图像的两个文件夹与它们分别对应的文本文件都放在同一路径下;
利用图像格式转换工具将舌样本图像训练集和舌样本图像测试集转换深度学习模型要求的文件格式。
进一步地,所述进行深度学习模型的网络参数配置和求解参数配置包括:
设置网络参数中的网络基本结构,即输入层、输出层和中间层,网络模型和每个网络层的参数;
设置求解参数中的调用网络模型的参数,测试时间间隔,每次测试样本数量、优化算法选择、权重衰减项、训练最大迭代次数和运行模式。
根据本发明的另一方面,本发明提供一种基于深度学习模型确定舌象样本库的系统,所述系统包括:
样本制作单元,其用于将舌象样本集中第i次标注的全部舌样本图像划分为训练集和测试集,并将第j个舌象特征转换成深度学习模型可识别的数据,其中,1≤i≤m,1≤j≤n,i、j的起始值为1,m、n均为自然数;
参数设置单元,其用于进行深度学习模型的网络参数配置和求解参数配置;
模型训练单元,其用于通过运行编写的模型训练脚本文件确定深度学习模型的准确率,当所述准确率低于设置的阈值时,令i=i+1,转至步骤1,当所述准确率大于等于设置的阈值,且j<n时,令i=1,j=j+1,转至步骤1,当所述精确度大于等于设置的阈值,且j=n时,所述包括n个舌象特征标注结果的舌象样本集即为中医舌诊中的舌象样本库。
进一步地,所述系统还包括:
舌象采集单元,其用于采集若干舌样本图像,并筛除不符合标注需求的图像后生成舌象样本集,其中所述不符合标注需求的图像包括图像颜色偏差大于设定值,图像模糊、舌上有异物和舌头显示不全;
特征标注单元,其用于采用符合标注需求的显示装置呈现舌样本图像,并对所述图像的第j个舌象特征进行第i次标注,其中,所述符合标注需求的显示装置是指分辨率达到设置值的显示装置。
进一步地,所述对于舌象样本集中第i次标注的全部舌样本图像的第j个舌象特征,均是特征标注单元在对舌象样本集中全部舌样本图像的第j个舌象特征进行第i-1次标注的基础上进行再次修正而形成的,其中,2≤i≤m,1≤j≤n,m、n均为自然数。
进一步地,所述样本制作单元包括:
样本划分单元,其用于将舌象样本集中的全部舌样本图像进行划分,其中一部分归属于训练集,剩下的部分归属于测试集;
文本生成单元,其用于将舌象样本集中第i次标注的全部舌样本图像的第j个舌象特征按照其特征的种类数量,为每一个种类分别设置一个标签,并以舌样本图像的名称为样本名称,以设置的标签为图像特征的方式分别制作训练集和测试集的文本文件;
路径统一单元,其用于使存放训练集和测试集的舌样本图像的两个文件夹与它们分别对应的文本文件位于同一路径下;
格式转换单元,其用于利用图像格式转换工具将舌样本图像训练集和舌样本图像测试集转换深度学习模型要求的文件格式。
进一步地,所述参数设置单元包括:
网络参数设置单元,其用于设置网络参数中的网络基本结构,即输入层、输出层和中间层,网络模型和每个网络层的参数;
求解参数设置单元,其用于设置求解参数中的调用网络模型的参数,测试时间间隔,每次测试样本数量、优化算法选择、权重衰减项、训练最大迭代次数和运行模式。
本发明技术方案提供的基于深度学习模型确定舌象样本库的方法和系统,对于舌象样本集中的全部舌样本图像的每个舌象特征每个建立深度学习模型,通过训练和测试来确定舌象特征标注的准确度,当准确度未达到设置的准确度时,通过对舌象样本集中的该舌象特征在原来标注的基础上进行再次修订,并重新通过深度学习模型来确定标注准确度,通过对每个舌象特征进行多轮标注,多轮深度学习模型检测标注精确度的方式来完成对所有舌象特征标注准确度的确定,从而确定中医舌诊的舌象样本库。本发明所述的基于深度学习模型确定舌象样本库的方法和系统通过对舌样本图像中的每个舌象特征进行多人多轮标注,首先解决了采用计算机视觉算法进行标注稳定性不高的问题,再通过对每轮标注的舌象特征进行深度学习模型训练检测其准确度,大大提高了舌象标注的准确度。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为根据本发明优选实施方式的基于深度学习模型确定舌象样本库的方法的流程图;
图2为为根据本发明优选实施方式的舌象样本特征组成示意图;
图3为根据本发明优选实施方式的基于深度学习模型确定舌象样本库系统的结构示意图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
图1为根据本发明优选实施方式的基于深度学习模型确定舌象样本库的方法的流程图。如图1所示,本优选实施方式所述的基于深度学习模型确定舌象样本库的方法100从步骤101开始。
在步骤101,采集若干舌样本图像,并筛除不符合标注需求的图像后生成舌象样本集,其中所述不符合标注需求的图像包括图像颜色偏差大于设定值,图像模糊、舌上有异物和舌头显示不全。
在步骤102,采用符合标注需求的显示装置呈现舌样本图像,并对所述图像的第j个舌象特征进行第i次标注,其中,所述符合标注需求的显示装置是指分辨率达到设置值的显示装置,1≤i≤m,1≤j≤n,i、j的起始值为1,m、n均为自然数。
图2为根据本发明优选实施方式的舌象样本特征组成示意图。如图2所示,本优选实施方式的中医舌象特征包括舌质和舌苔两大方面,其中,舌质又包括舌色和舌形,舌苔又包括苔色和苔质,再进一步细分,舌形又包括点刺、裂纹、齿痕、舌边尖和胖瘦五个方面,苔质又包括苔质腐腻和苔厚度两方面,因此,从标注需求来看,在舌样本图像上需要标注的共有舌色、点刺、裂纹、齿痕、舌边尖、舌胖瘦、苔色、舌苔腐腻以及舌苔厚度8个特征,即n的取值为8。
在本优选实施方式中,采用分辨率大于1920×1080的笔记本电脑或者分辨率大于2560x1440的液晶显示器进行标注,对每个舌象特征的标注标准如下:
舌色分为六种:舌淡白、舌淡红、舌红、舌暗红、舌淡紫以及舌绛,其中:
舌淡白:比正常舌色浅淡,舌色白,几乎无血色,称为枯白舌。气血两虚,阳虚。
舌淡红:舌色淡红润泽。为气血调和的征象,常见于正常人。病中见之多属病轻。
舌红:较正常舌色红,甚至呈鲜红色。红色可见于整个舌体,亦只可见于舌尖,舌两边。主实热,阴虚
舌暗红:舌体颜色比红舌更加深红,舌红晦暗。体内热气深重的表现,常见于久病,重病的人,多属于阴虚火旺。
舌淡紫:舌淡而泛青紫,多由舌淡白转变而成,其舌淡紫而湿润。可由阴寒内盛,阳气被遏,血行凝滞,或阳气虚衰,气血运行不畅,血脉壅滞所致。
舌绛:较红舌颜色更深,或略带暗红色。主里热亢盛,阴虚火旺。
标注人员根据上述的舌色定义以及自身的专业性的理解,对样本总体进行标注,设置六个文件夹名称分别为这六种舌质颜色名称的空文件夹,将舌样本按照舌象信息进行人工标注,将舌样本分到属于它的特征文件夹中。
齿痕特征分为有齿痕和无齿痕两种,有齿痕即是由舌体边缘有牙齿压迫的痕迹。主脾虚,或水湿内盛证。依旧设为两类文件夹,将样本图像按照特征分别分到这两类文件夹中。
点刺特征分为有点刺和无点刺两种,有点刺有两种形式,分为点舌和刺舌,点舌是指鼓起与舌面的红色、白色、黑色星点;多见舌的边尖部分;而刺舌指芒刺,即舌面上的软刺及颗粒增大成尖峰,高起如刺,摸之棘手,也多见于舌边尖,通常把点刺和芒刺都统一分到有点刺的这类特征中。标注人员按照定义将舌像样本进行人工标注,分别分到两类文件夹中。
裂纹特征也分成有裂纹和无裂纹两种,有裂纹是指舌面上出现形状各异、深浅不一、多少不等之裂纹统称为裂纹舌。裂纹或裂沟中无舌苔覆盖者,多属病理性变化,属于后天性裂纹;裂沟中有舌苔覆盖,多见于先天性裂纹,在标注时将这两种特征都统一标注成有裂纹。和上述操作相同,分别设置两个空文件夹命名为有裂纹和无裂纹,然后标注人员按照经验将舌象样本分成有裂纹和无裂纹两类,分别分配到两个文件夹中。
舌形胖瘦特征分为胖舌,瘦舌和胖瘦适中三种,胖舌是舌体比正常舌大而厚,舌伸满口(满口是指舌头宽度大于等于嘴角的宽度),而瘦舌是指舌体比正常舌瘦小而薄,胖瘦适中即为正常舌。标准人员按照这种特征将舌象样本分为三类,分别放到三个文件夹中。
舌边尖特征分为两种:舌边尖红和其他。舌边尖红的概念是:舌边或者舌尖部分较其他部分颜色偏红。舌尖红多为心火上炎,舌两边红多为肝经有热。标注人员需要设立两个空文件分别命名为舌边尖红和其他,将认为舌边尖红的舌象样本图像放到舌边尖红的文件夹中,把其他的放到正常舌的文件夹中。
苔色分为六种:苔白、苔黄、苔黄白相兼、苔灰黑、苔少和苔无,其中:
苔白:舌面上所附舌苔呈现白色。可为正常舌苔,病中多主表证、寒证湿证,亦可见于热证。
苔黄:舌苔呈黄色。
苔黄白相兼:舌苔的颜色同时呈现黄色和白色。
苔灰黑:苔色浅黑,称为灰苔;苔色深灰,称为黑苔。两者只是浅深之别,故常并成为灰黑苔。主阴寒内盛,或里热炽盛。
苔少:覆盖在舌体的苔质较薄较少。
苔无:舌体表面没有舌苔覆盖。
将这六种苔色名称设为六个空文件夹名称,标注人员按照苔色的定义和自己的理解将舌头样本进行人工标注,分别分到属于它的特征的那类文件夹中。
苔质中的腐腻是指舌苔的一种形态。腻苔是指苔质颗粒细腻致密,融合成片,如涂有油腻之状,中间厚周边薄,紧贴于舌面,揩之不去,刮之不易脱落;腐苔苔质疏松,颗粒粗大,形如豆腐渣堆积舌面,边中皆厚,揩之易去,或成片脱落,舌底光滑。皆主痰湿、积食。将腐腻这类特征分成腐、腻和无腐腻三种类型,并分别设立标签文件夹,然后将符合这一特征的图像放到对应的文件夹中。
舌苔厚度特征分数舌苔厚和舌苔薄两种,以“见底”和“不见底”作为衡量标准,主要反映邪正的盛衰和邪气之浅深。薄苔是透过舌苔能隐约见到舌质。提示胃有生发之气,外感疾病初期在表,病情轻浅或内伤病病情较轻。厚苔不能透过舌苔见到舌质,主痰湿,食积,里热等证。在标注舌象厚薄这类特征时,有的仅仅是舌根处有厚苔,我们也将它认为是厚苔。因此将标注的厚苔图像放到厚苔的文件夹中,标注的薄苔图像放到薄苔文件夹中。
在步骤103,将舌象样本集中第i次标注的全部舌样本图像划分为训练集和测试集,并将第j个舌象特征转换成深度学习模型可识别的数据,其中,1≤i≤m,1≤j≤n,i、j的起始值为1,m、n均为自然数。
优选地,所述将舌象样本集中第i次标注的全部舌样本图像划分为训练集和测试集,并将第j个舌象特征转换成深度学习模型可识别的数据包括:
将舌象样本集中的全部舌样本图像进行划分,其中一部分归属于训练集,剩下的部分归属于测试集;
将舌象样本集中第i次标注的全部舌样本图像的第j个舌象特征按照其特征的种类数量,为每一个种类分别设置一个标签,并以舌样本图像的名称为样本名称,以设置的标签为图像特征的方式分别制作训练集和测试集的文本文件;
将存放训练集和测试集的舌样本图像的两个文件夹与它们分别对应的文本文件都放在同一路径下;
利用图像格式转换工具将舌样本图像训练集和舌样本图像测试集转换深度学习模型要求的文件格式。
在本优选实施方式中,以舌象样本集中第1次标注的全部舌样本图像的第8个特征舌苔厚度为例。将舌象样本集中的样本划分为数量相同的两部分,其中一部分为训练集,另一部分为测试集。将舌苔薄特征设定为标签0,舌苔厚特征设定为标签1,以图像名称为样本名称,标签0和1为图像特征的方式分别制作训练集的文本文件train.txt和验证集的文本文件val.txt,再将存放训练集和验证集的图像数据的两个文件夹:train/和val/和它们所对应的文本文件都放在同一路径下。然后利用convert_imageset工具将图像数据集转换成caffe框架下要求的LMDB格式,运行脚本文件create_imagenet.sh生成文件vgg_train_lmdb和文件vgg_val_lmdb,这两个文件即为对舌苔厚度特征进行第一深度学习模型训练的样本。
在步骤104,进行深度学习模型的网络参数配置和求解参数配置。
优选地,所述进行深度学习模型的网络参数配置和求解参数配置包括:
设置网络参数中的网络基本结构,即输入层、输出层和中间层,网络模型和每个网络层的参数;
设置求解参数中的调用网络模型的参数,测试时间间隔,每次测试样本数量、优化算法选择、权重衰减项、训练最大迭代次数和运行模式。
在本优选实施方式中,caffe的配置文件由两部分组成:
solver.prototxt和net.prototxt。它们实际上对应了Caffe系统架构中两个十分关键的实体——求解器Solver和网络结构Net。求解器solver的流程大致分为:
1.设计好需要优化的对象,以及用于学习的训练网络和用于评估的测试网络;
2.通过forward和backward迭代的进行优化来更新参数;
3.定期的评价测试网络;
4.在优化过程中显示模型和solver的状态。
solver.prototxt是模型参数配置文件,我们在每次训练模型时根据实验的结果来不断的调节这些参数,solver的流程大致分为:
1.设计好需要优化的对象,以及用于学习的训练网络和用于评估的测试网络;
2.通过forward和backward迭代的进行优化来跟新参数;
3.定期的评价测试网络;
4.在优化过程中显示模型和solver的状态。
所述solver.prototxt里的参数的详细的配置如下:
1)net:"examples/mobilenets/mobilenet_train.prototxt"
访参数为调用深度网络模型的参数,每一个模型就是一个net,需要在一个专门的配置文件中对net进行配置,每个net由许多的layer所组成。
2)test_iter:100
该参数需要与测试层test layer中的batch_size结合起来理解。假设数据集中测试样本总数为10000,一次性执行全部数据效率很低,因此我们将测试数据分成几个批次来执行,每次批次的数量就是batch_size。当设置的batch_size为100时,则需要迭代100次才能将10000个数据全部执行完,故test_iter设置为100,执行完一次全部数据,称之为一个epoch。
3)test_interval:500
测试间隔,也就是每训练500次,才进行一次测试。
4)type:SGD
优化算法选择,此参数用于选择深度学习模型的算法,本优选实施方式中选择的是梯度下降法。
5)base_lr:0.01
lr_policy:"inv"
gamma:0.0001
power:0.75
当所选的优选算法为梯度下降法时,需要设置上述四个参数。所述四个参数用于学习率的设置。只要是梯度下降法来求解优化,都会有一个学习率,也叫步长。base_lr用于设置基础学习率,在迭代过程中,可以对基础学习率进行调整,怎么样进行调整,就是调整的策略,由lr_policy来设置。
6)momentum:0.9
同学习率的设置,当优化算法为梯度下降法时,需要设置该参数,即上一次梯度更新的权重。
7)weight_decay:0.0005
该参数为权重衰减项,是所有深度学习模型中必须设置的的一个参数,用于防止深度学习模型训练过拟合。
9)max_iter:20000
所述参数为训练最大迭代次数,当该参数设置太小时,会导致没有收敛,精确度很低;设置太大,会导致震荡,浪费时间。
10)solver_mode:CPU
该参数用于设置运行模式,默认是GPU,如果没有GPU,需要修改成CPU,否则会出错。
另外,不是必须设置的参数还包括:
1)display:100
所述参数值表示每训练100次,在屏幕上显示一次。如果设置为0,则不显示。
2)snapshot:5000
snapshot_prefix:"examples/mobilenets/mobilenet"
该参数用于设置训练多少次后,将训练出来的模型和求解器状态进行保存,默认为0,不保存。snapshot_prefix用于设置保存路径。
网络参数配置文件net.prototxt包括网络的基本结构和类型以及每个网络层的参数配置。本优选实施方式选用MobileNet模型。网络的基本结构为输入层、中间层和输出层。其中,输入层输入模型训练样本中的图像信息,其输出结果即为中间层输入,当中间层有若干层时,上一层的输出即为下一层的输入,最后一个中间层的输出即为输出层的输入,输出层的输出结果即为最终的输出结果。所述每个网络层的参数配置包括输入图像的像素值,填充值,输出的像素值,滤波器数量,窗口大小等。
在步骤105,通过运行编写的模型训练脚本文件确定深度学习模型的准确率,当所述准确率低于设置的阈值时,令i=i+1,转至步骤102,当所述准确率大于等于设置的阈值,且j<n时,令i=1,j=j+1,转至步骤102,当所述精确度大于等于设置的阈值,且j=n时,所述包括n个舌象特征标注结果的舌象样本集即为中医舌诊中的舌象样本库。
在训练过程中主要关注的是测试误差和训练误差,如果测试误差和训练误差都在下降,则处于理想状态;若训练误差下降,测试误差不变或者升高,则出现过拟合现象,需要尝试增大权重衰减项;若训练误差不变或者升高,测试误差降低,该现象不属于正常现象,需要对参数重新进行配置;当测试误差和训练误差都升高,则配置错误或者数据出现问题;当测试误差和训练误差都不变,有两种可能性:
第一、接近一个最小点,考虑降低学习速率;
第二,不收敛,若数据没有问题,则把过拟合的约束放松;train loss和test loss都升高,配置错误或者数据出现问题。
在本优选实施中,一共对舌苔厚度特征进行了三轮标注,其中,第一轮标注后标注准确度输出结果为60%,在第一轮标注的基础上进行第二轮标注后,通过深度学习模型检测,其标注准确度达到85%。由于样本标注准确度已经大幅提升,因此第三轮标注主要是对标注不准确的15%的样本进行标注,第三轮标注完成后,再次进行深度学习模型检测时,标注准确度达到了95%,基本已经达到了中医舌诊自诊的准确度。若不考虑过拟合,而对标注准确度还有更高的要求,则可以再增加几轮标注和模型验证。
图3为根据本发明优选实施方式的基于深度学习模型确定舌象样本库系统的结构示意图。如图3所示,本优选实施方式所述的基于深度学习模型确定舌象样本库的系统300包括:
舌象采集单元301,其用于采集若干舌样本图像,并筛除不符合标注需求的图像后生成舌象样本集,其中所述不符合标注需求的图像包括图像颜色偏差大于设定值,图像模糊、舌上有异物和舌头显示不全;
特征标注单元302,其用于采用符合标注需求的显示装置呈现舌样本图像,并对所述图像的第j个舌象特征进行第i次标注,其中,所述符合标注需求的显示装置是指分辨率达到设置值的显示装置。
样本制作单元303,其用于将舌象样本集中第i次标注的全部舌样本图像划分为训练集和测试集,并将第j个舌象特征转换成深度学习模型可识别的数据,其中,1≤i≤m,1≤j≤n,i、j的起始值为1,m、n均为自然数;
参数设置单元304,其用于进行深度学习模型的网络参数配置和求解参数配置;
模型训练单元305,其用于通过运行编写的模型训练脚本文件确定深度学习模型的准确率,当所述准确率低于设置的阈值时,令i=i+1,转至步骤1,当所述准确率大于等于设置的阈值,且j<n时,令i=1,j=j+1,转至步骤1,当所述精确度大于等于设置的阈值,且j=n时,所述包括n个舌象特征标注结果的舌象样本集即为中医舌诊中的舌象样本库。
优选地,所述对于舌象样本集中第i次标注的全部舌样本图像的第j个舌象特征,均是特征标注单元302在对舌象样本集中全部舌样本图像的第j个舌象特征进行第i-1次标注的基础上进行再次修正而形成的,其中,2≤i≤m,1≤j≤n,m、n均为自然数。
优选地,所述样本制作单元303包括:
样本划分单元331,其用于将舌象样本集中的全部舌样本图像进行划分,其中一部分归属于训练集,剩下的部分归属于测试集;
文本生成单元332,其用于将舌象样本集中第i次标注的全部舌样本图像的第j个舌象特征按照其特征的种类数量,为每一个种类分别设置一个标签,并以舌样本图像的名称为样本名称,以设置的标签为图像特征的方式分别制作训练集和测试集的文本文件;
路径统一单元333,其用于使存放训练集和测试集的舌样本图像的两个文件夹与它们分别对应的文本文件位于同一路径下;
格式转换单元334,其用于利用图像格式转换工具将舌样本图像训练集和舌样本图像测试集转换深度学习模型要求的文件格式。
优选地,所述参数设置单元304包括:
网络参数设置单元341,其用于设置网络参数中的网络基本结构,即输入层、输出层和中间层,网络模型和每个网络层的参数;
求解参数设置单元342,其用于设置求解参数中的调用网络模型的参数,测试时间间隔,每次测试样本数量、优化算法选择、权重衰减项、训练最大迭代次数和运行模式。
已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。
通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释,除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例,除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。

Claims (10)

1.一种基于深度学习模型确定舌象样本库的方法,其特征在于,所述方法包括:
步骤1、将舌象样本集中第i次标注的全部舌样本图像划分为训练集和测试集,并将第j个舌象特征转换成深度学习模型可识别的数据,其中,1≤i≤m,1≤j≤n,i、j的起始值为1,m、n均为自然数;
步骤2、进行深度学习模型的网络参数配置和求解参数配置;
步骤3、通过运行编写的模型训练脚本文件确定深度学习模型的准确率,当所述准确率低于设置的阈值时,令i=i+1,转至步骤1,当所述准确率大于等于设置的阈值,且j<n时,令i=1,j=j+1,转至步骤1,当所述精确度大于等于设置的阈值,且j=n时,所述包括n个舌象特征标注结果的舌象样本集即为中医舌诊中的舌象样本库。
2.根据权利要求1所述的方法,其特征在于,所述方法在将舌象样本集中第i次标注的全部舌样本图像的第j个舌象特征转换成深度学习模型可识别的数据之前还包括:
采集若干舌样本图像,并筛除不符合标注需求的图像后生成舌象样本集,其中所述不符合标注需求的图像包括图像颜色偏差大于设定值,图像模糊、舌上有异物和舌头显示不全;
采用符合标注需求的显示装置呈现舌样本图像,并对所述图像的第j个舌象特征进行第i次标注,其中,所述符合标注需求的显示装置是指分辨率达到设置值的显示装置。
3.根据权利要求1所述的方法,其特征在于,所述舌象样本集中第i次标注的全部舌样本图像的第j个舌象特征均是在对舌象样本集中全部舌样本图像的第j个舌象特征进行第i-1次标注的基础上进行再次修正而形成的,其中,2≤i≤m,1≤j≤n,m、n均为自然数。
4.根据权利要求1所述的方法,其特征在于,所述将舌象样本集中第i次标注的全部舌样本图像划分为训练集和测试集,并将第j个舌象特征转换成深度学习模型可识别的数据包括:
将舌象样本集中的全部舌样本图像进行划分,其中一部分归属于训练集,剩下的部分归属于测试集;
将舌象样本集中第i次标注的全部舌样本图像的第j个舌象特征按照其特征的种类数量,为每一个种类分别设置一个标签,并以舌样本图像的名称为样本名称,以设置的标签为图像特征的方式分别制作训练集和测试集的文本文件;
将存放训练集和测试集的舌样本图像的两个文件夹与它们分别对应的文本文件都放在同一路径下;
利用图像格式转换工具将舌样本图像训练集和舌样本图像测试集转换深度学习模型要求的文件格式。
5.根据权利要求1所述的方法,其特征在于,所述进行深度学习模型的网络参数配置和求解参数配置包括:
设置网络参数中的网络基本结构,即输入层、输出层和中间层,网络模型和每个网络层的参数;
设置求解参数中的调用网络模型的参数,测试时间间隔,每次测试样本数量、优化算法选择、权重衰减项、训练最大迭代次数和运行模式。
6.一种基于深度学习模型确定舌象样本库的系统,其特征在于,所述系统包括:
样本制作单元,其用于所述将舌象样本集中第i次标注的全部舌样本图像划分为训练集和测试集,并将第j个舌象特征转换成深度学习模型可识别的数据,其中,1≤i≤m,1≤j≤n,i、j的起始值为1,m、n均为自然数;
参数设置单元,其用于进行深度学习模型的网络参数配置和求解参数配置;
模型训练单元,其用于通过运行编写的模型训练脚本文件确定深度学习模型的准确率,当所述准确率低于设置的阈值时,令i=i+1,转至步骤1,当所述准确率大于等于设置的阈值,且j<n时,令i=1,j=j+1,转至步骤1,当所述精确度大于等于设置的阈值,且j=n时,所述包括n个舌象特征标注结果的舌象样本集即为中医舌诊中的舌象样本库。
7.根据权利要求6所述的系统,其特征在于,所述系统还包括:
舌象采集单元,其用于采集若干舌样本图像,并筛除不符合标注需求的图像后生成舌象样本集,其中所述不符合标注需求的图像包括图像颜色偏差大于设定值,图像模糊、舌上有异物和舌头显示不全;
特征标注单元,其用于采用符合标注需求的显示装置呈现舌样本图像,并对所述图像的第j个舌象特征进行第i次标注,其中,所述符合标注需求的显示装置是指分辨率达到设置值的显示装置。
8.根据权利要求7所述的系统,其特征在于,所述对于舌象样本集中第i次标注的全部舌样本图像的第j个舌象特征,均是特征标注单元在对舌象样本集中全部舌样本图像的第j个舌象特征进行第i-1次标注的基础上进行再次修正而形成的,其中,2≤i≤m,1≤j≤n,m、n均为自然数。
9.根据权利要求6所述的系统,其特征在于,所述样本制作单元包括:
样本划分单元,其用于将舌象样本集中的全部舌样本图像进行划分,其中一部分归属于训练集,剩下的部分归属于测试集;
文本生成单元,其用于将舌象样本集中第i次标注的全部舌样本图像的第j个舌象特征按照其特征的种类数量,为每一个种类分别设置一个标签,并以舌样本图像的名称为样本名称,以设置的标签为图像特征的方式分别制作训练集和测试集的文本文件;
路径统一单元,其用于使存放训练集和测试集的舌样本图像的两个文件夹与它们分别对应的文本文件位于同一路径下;
格式转换单元,其用于利用图像格式转换工具将舌样本图像训练集和舌样本图像测试集转换深度学习模型要求的文件格式。
10.根据权利要求6所述的系统,其特征在于,所述参数设置单元包括:
网络参数设置单元,其用于设置网络参数中的网络基本结构,即输入层、输出层和中间层,网络模型和每个网络层的参数;
求解参数设置单元,其用于设置求解参数中的调用网络模型的参数,测试时间间隔,每次测试样本数量、优化算法选择、权重衰减项、训练最大迭代次数和运行模式。
CN201811543209.7A 2018-12-17 2018-12-17 一种基于深度学习模型确定舌象样本库的方法和系统 Active CN109766916B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811543209.7A CN109766916B (zh) 2018-12-17 2018-12-17 一种基于深度学习模型确定舌象样本库的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811543209.7A CN109766916B (zh) 2018-12-17 2018-12-17 一种基于深度学习模型确定舌象样本库的方法和系统

Publications (2)

Publication Number Publication Date
CN109766916A true CN109766916A (zh) 2019-05-17
CN109766916B CN109766916B (zh) 2023-05-16

Family

ID=66451202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811543209.7A Active CN109766916B (zh) 2018-12-17 2018-12-17 一种基于深度学习模型确定舌象样本库的方法和系统

Country Status (1)

Country Link
CN (1) CN109766916B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110251084A (zh) * 2019-06-21 2019-09-20 福州数据技术研究院有限公司 一种基于人工智能的舌像检测与识别方法
CN110851630A (zh) * 2019-10-14 2020-02-28 武汉市慧润天成信息科技有限公司 一种深度学习标注样本的管理系统及方法
CN111105397A (zh) * 2019-12-19 2020-05-05 天津慧医谷科技有限公司 一种基于深度学习的中医舌象数据快速标注方法和系统
CN113657449A (zh) * 2021-07-15 2021-11-16 北京工业大学 一种含噪标注数据的中医舌象腐腻分类方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102426583A (zh) * 2011-10-10 2012-04-25 北京工业大学 基于图像内容分析的中医舌象检索方法
CN103745217A (zh) * 2013-12-31 2014-04-23 北京工业大学 基于图像检索的中医舌色苔色自动分析方法
CN105975980A (zh) * 2016-04-27 2016-09-28 百度在线网络技术(北京)有限公司 监控图像标注质量的方法和装置
CN107330889A (zh) * 2017-07-11 2017-11-07 北京工业大学 一种基于卷积神经网络的中医舌色苔色自动分析方法
CN107977671A (zh) * 2017-10-27 2018-05-01 浙江工业大学 一种基于多任务卷积神经网络的舌象分类方法
CN108256580A (zh) * 2018-01-19 2018-07-06 中山市宾哥网络科技有限公司 基于深度学习的商品图像标注方法及其装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102426583A (zh) * 2011-10-10 2012-04-25 北京工业大学 基于图像内容分析的中医舌象检索方法
CN103745217A (zh) * 2013-12-31 2014-04-23 北京工业大学 基于图像检索的中医舌色苔色自动分析方法
CN105975980A (zh) * 2016-04-27 2016-09-28 百度在线网络技术(北京)有限公司 监控图像标注质量的方法和装置
CN107330889A (zh) * 2017-07-11 2017-11-07 北京工业大学 一种基于卷积神经网络的中医舌色苔色自动分析方法
CN107977671A (zh) * 2017-10-27 2018-05-01 浙江工业大学 一种基于多任务卷积神经网络的舌象分类方法
CN108256580A (zh) * 2018-01-19 2018-07-06 中山市宾哥网络科技有限公司 基于深度学习的商品图像标注方法及其装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110251084A (zh) * 2019-06-21 2019-09-20 福州数据技术研究院有限公司 一种基于人工智能的舌像检测与识别方法
CN110851630A (zh) * 2019-10-14 2020-02-28 武汉市慧润天成信息科技有限公司 一种深度学习标注样本的管理系统及方法
CN111105397A (zh) * 2019-12-19 2020-05-05 天津慧医谷科技有限公司 一种基于深度学习的中医舌象数据快速标注方法和系统
CN113657449A (zh) * 2021-07-15 2021-11-16 北京工业大学 一种含噪标注数据的中医舌象腐腻分类方法

Also Published As

Publication number Publication date
CN109766916B (zh) 2023-05-16

Similar Documents

Publication Publication Date Title
CN109766916A (zh) 一种基于深度学习模型确定舌象样本库的方法和系统
Herzlinger et al. AGMT3-D: A software for 3-D landmarks-based geometric morphometric shape analysis of archaeological artifacts
Weinstein et al. Overview of telepathology, virtual microscopy, and whole slide imaging: prospects for the future
CN105164508B (zh) 用于采集和传输测定结果的系统和方法
Chai et al. Modelling the relationships among beliefs about learning, knowledge, and teaching of pre-service teachers in Singapore
Mohler et al. Equivalence, comparability, and methodological progress
CN107209092A (zh) 用于中间解剖的系统和方法
Barnes et al. Whole tumor section quantitative image analysis maximizes between-pathologists' reproducibility for clinical immunohistochemistry-based biomarkers
CN110008925A (zh) 一种基于集成学习的皮肤自动检测方法
Kivisto et al. Does the R-PAS meet standards for forensic use? Considerations with introducing a new Rorschach coding system
CN108287161A (zh) 一种智能茶叶感官审评方法及系统
CN107590622A (zh) 一种住院医师规范化培训过程的360°评测系统及方法
CN110660477A (zh) 幽门螺杆菌自动筛选和标注的系统及方法
Panwar et al. A review: Exploring the role of ChatGPT in the diagnosis and treatment of oral pathologies
Li et al. Computer-aided disease diagnosis system in TCM based on facial image analysis
Diniz et al. Comparison of the whole slide imaging and conventional light microscopy in the grading of oral epithelial dysplasia: a multi-institutional study
Fernandez et al. Analytical validation of the PreciseDx digital prognostic breast cancer test in early-stage breast cancer
Marchevsky Evidence-based medicine in pathology: an introduction
Xu et al. Analysis of the factors influencing teamwork among oncology nurses based on multigroup structural equation model
Tang et al. Developing a short-form measure of personal excellence for use among university students in Taiwan
AlAgha et al. PalAST: A Cross-Platform Mobile Application for Automated Disk Diffusion Antimicrobial Susceptibility Testing.
Rodriguez Leonard Subjective responses to daylight changes in outdoor scenes: Implementing a dynamic view assessment procedure for urban contexts
Sundaramurthy et al. Ethical Dimensions and Future Prospects of Artificial Intelligence in Decision Making Systems for Oncology: A Comprehensive Analysis and Reference Scheme
Joergensen et al. Testing a vocabulary for image indexing and ground truthing
CN109919924A (zh) 一种适用于大批量he染色图片细胞数字化处理的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant