具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供的舌体图片分类方法,可应用在如图1的应用环境中,其中,计算机设备通过网络与计算机设备进行通信。其中,计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。在一实施例中,如图2所示,提供一种舌体图片分类方法,以该方法应用在图1中的客户端为例进行说明,包括如下步骤S101至S105
S101、对舌体图片进行特征提取,得到第一高层语义特征。
在该实施例中,所述舌体图片不要求在光照稳定的密闭空间中完成舌象采集,不需要特定的的采集设备,所述舌体图片可以是自然光下输入的图像。
在其中一个实施例中,该步骤S101进一步包括:
通过基于残差的U型网网络架构对所述第一高层语义特征进行特征提取。
在该实施例中,所述U型网网络架构包括编码网络和解码网络。其中,所述编码网络用于展现高层语义特征,所述解码网络通过结合解码网络采样的高层语义特征和解码网络进行还原,为均衡精度与速度,所述编码网络采用了5个卷积模块,所述解码网络采用了3个反卷积模块。所述编码网络和所述解码网络放大和/或缩小的因子为2。
S102、通过训练好的神经网络模型对所述舌体图片进行颜色校正,得到第二高层语义特征。
在该实施例中,由于舌体图片容易受环境影响,传统的图像处理技术由于需要大量的经验参数,不可避免地导致舌体校正准确度不高。而基于深度学习进行的技术,通常是指进行舌象识别或舌体分割,现有的技术通常忽略了舌象校正。所述颜色校正得到的第二高层语义特征,用于融合到后续网络的特征表达学习中,提高了环境适用性。
在其中一个实施例中,该步骤S102进一步包括了:
通过基于图像熵的灰度世界算法,对所述舌体图片进行颜色校正后生成目标图像进行训练;
对所述第二高层语义特征进行单通道卷积变换,得到颜色校正图。
在该实施例中,普通的颜色校正算法容易校正过度,因此,所述神经网络模型采用了基于图像熵的灰度世界算法,对所述舌体图片进行颜色校正进行训练,通过训练所述舌体图片生成目标图像进行监督学习,在颜色校正的模块的学习过程中,采用回归损失函数Smooth L1-Loss函数,得到所述第二高层语义特征,其中,所述回归损失函数Smooth L1-Loss函数就是学习目标,网络的参数的学习,采用所述回归损失函数Smooth L1-Loss,应用梯度下降法进行优化的,所述回归损失函数Smooth L1-Loss函数,能较好处理一些异常噪声点的干扰,防止校正过度。
在其中一个实施例中,该步骤S102进一步包括了:
计算所述舌体图片通道模块的一维离散相对熵;
计算所述通道模块的约束增益系数;
通过所述一维离散相对熵对所述约束增益系数进行约束,对所述舌体图片进行颜色校正。
在该实施例中,所述通道模块包括R通道、G通道、B通道,所述一维离散相对熵包括一维离散熵,所述一维离散熵是所述通道模块的分布特征统计;
在该实施例中,所述约束增益系数包括Kr约束增益系数,Kg约束增益系数,Kb约束增益系数,所述Kr约束增益系数为所述R通道的约束增益系数,所述Kg约束增益系数为所述G通道的约束增益系数,所述Kb约束增益系数为所述B通道的约束增益系数;
在该实施例中,所述舌体图片进行颜色校正后生成目标标签图像。
S103、通过所述神经网络模型对所述第一高层语义特征和所述第二高层语义特征进行合并操作,得到第三高层语义特征。
在该实施例中,所述第一高层语义特征包括若干个通道,所述第二高层语义特征包括一个通道,所述第三高层语义特征通过所述第一高层语义特征和所述第二高层语义特征进行通道的合并,所述合并过程采用1x1的卷积进行融合。
S104、通过所述神经网络模型对所述第三高层语义特征进行卷积运算,降维得到第四高层语义特征。
在该实施例中,所述第三高层语义特征包括若干个通道,进行卷积运算后,仍包括若干个通道,降维后所述第四高层语义特征只包括一个通道。
在其中一个实施例中,该步骤S104进一步包括:
对所述第四高层语义特征进行二值处理,得到舌体分割图。
在该实施例中,所述第四高层语义特征是用所述舌体分割图进行监督学习的。所述舌体分割图相当于人注意力机制中的掩模图。所述第四高层语义特征,是通过标注的舌体分割图和采用的交叉熵损失函数进行优化学习的,所述分割损失函数能较好处理目标区域的边缘。
S105、通过所述神经网络模型对所述第四高层语义特征进行指数操作,得到第五高层语义特征,其中,对所述第四高层语义特征和所述第五高层语义特征进行点乘操作,得到第六高层语义特征。
在该实施例中,所述融合过程利用生成的舌体分割特征图,融合到前面的第四高层语义特征,这便于后面分类。这过程模拟人视觉原理,先定位,再识别,所述第五层高层语义特征包括包括若干个通道,所述第六高层语义特征只包含一个通道,其中,通过所述指数操作高亮舌体区域,通过所述点乘操作对所述第五高层语义特征在空间维度上与所述第四高层语义特征进行融合,降低舌体分割边缘误差对后续分类识别的影响。
在该实施例中,所述指数操作和所述点乘操作,能模拟人的注意力机制,高亮舌体区域特征。
S106、通过所述神经网络的全连接层对所述第六高层语义特征进行分类运算,得到所述舌体图片分类结果。
在该实施例中,所述全连接层对所述第六高层语义特征进行分类运算,其中,所述分类运算是对所述第六高层语义特征进行特征压缩,所述通过所述神经网络的全连接层对所述第六高层语义特征进行分类运算,得到所述舌体图片分类结果,采用的损失函数为SoftmaxLoss损失函数,所述SoftmaxLoss分类损失函数,能较好处理区分多类问题,提高正确识别率。
在其中一个实施例中,所述S106进一步包括:
所述舌体图片分类结果包括舌色、苔色、苔质、舌形和/或舌象诊断结果。
在该实施例中,所述舌色包括舌淡红、舌淡、舌红、舌绛、舌暗红、舌淡紫、舌紫暗、舌边尖红(舌色局部特征)、瘀斑瘀点(舌色局部特征)。
在该实施例中,所述苔色包括苔白、苔黄白相兼、苔黄、苔灰黑。
在该实施例中,所述苔质包括苔薄、苔厚、苔腻、苔腐、苔少、苔无、苔剥。
在该实施例中,所述舌形包括苔薄、苔厚、苔腻、苔腐、苔少、苔无、苔剥。
在该实施例中,通过所述舌色、苔色、苔质、舌形,结合中医知识,给出所述舌象诊断结果。
上述实施例提供的舌体分类图片方法通过训练统一的神经网络模型,将舌体图片特征提取、舌体图片颜色校正、舌体图片分割和舌体图片识别融合到一起,其中,所述舌体图片通过特征提取得到第一高层语义特征,所述舌体图片通过颜色校正,得到第二高层语义特征用于指导神经网络的特征表达学习,提高了识别精度和环境适用性,通过所述第一高层语义特征与第二高层语义特征融合得到第三高层语义特征,所述第三高层语义特征通过后续卷积变换得到舌体分割图,舌体分割融合到后续分类特征中,这过程类似人的注意力机制,通过先定位后识别的直观思想,能降低了神经网络模型的复杂性。最后输出了舌体图片识别分类结果,解决了舌体图片分类系统复杂性高、精度低的技术问题。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种舌体图片分类装置,该舌体图片分类装置与上述实施例中舌体图片分类方法一一对应。如图3所示,该舌体图片分类装置包括特征提取模块11、颜色校正模块12、合并模块13、分割模块14、点乘模块15和分类模块16。各功能模块详细说明如下:
特征提取模块11,用于通过对舌体图片进行特征提取,得到第一高层语义特征。
第一特征单元,用于通过基于残差的U型网网络架构对所述第一高层语义特征进行特征提取。。
在该实施例中,所述第一特征单元包括编码网络和解码网络。其中,所述编码网络用于展现高层语义特征,所述解码网络通过结合解码网络采样的高层语义特征和解码网络进行还原,为均衡精度与速度,所述编码网络采用了5个卷积模块,所述解码网络采用了3个反卷积模块。所述编码网络和所述解码网络放大和/或缩小的因子为2。
颜色校正模块12,用于通过训练好的神经网络模型对所述舌体图片进行颜色校正,得到第二高层语义特征。
在其中一个实施例中,颜色校正模块12进一步包括:
训练单元,用于通过基于图像熵的灰度世界算法,对所述舌体图片进行颜色校正后生成目标图像进行训练;
第一图片输出单元,用于对所述第二高层语义特征进行单通道卷积变换,得到颜色校正图。
在该实施例中,所述训练单元是所述神经网络模型通过采用基于图像熵的灰度世界算法,对所述舌体图片进行颜色校正生成目标图像进行训练,在颜色校正模块的学习过程中,采用回归损失函数Smooth L1-Loss函数进行学习的。所述第一输出图片单元通过所述训练单元的所述第二高层语义特征进行卷积变换,得到颜色校正图。
在其中一个实施例中,颜色校正模块12进一步包括:
第一计算单元,用于计算所述舌体图片通道模块的一维离散相对熵;
第二计算单元,用于计算所述通道模块的约束增益系数;
校正单元,用于通过所述一维离散相对熵对所述约束增益系数进行约束,对所述舌体图片进行颜色校正。
在该实施例中,所述第一计算单元中所述通道模块包括R通道、G通道、B通道,所述一维离散相对熵包括一维离散熵,所述一维离散熵是所述通道模块的分布特征统计。
在该实施例中,所述第二计算单元中所述约束增益系数包括Kr约束增益系数,Kg约束增益系数,Kb约束增益系数,所述Kr约束增益系数为所述R通道的约束增益系数,所述Kg约束增益系数为所述G通道的约束增益系数,所述Kb约束增益系数为所述B通道的约束增益系数。
在该实施例中,所述校正单元通过所述第一计算单元计算得到的所述一维离散相对熵对所述第二计算单元计算得到的所述约束增益系数进行约束,对所述舌体图片生成颜色校正目标图像图。在颜色校正模块的过程中,采用回归损失函数Smooth L1-Loss函数,结合梯度下降法,进行网络的参数的学习。所述回归损失函数,能较好处理一些异常噪声点的干扰,防止校正过度。
合并模块13,用于通过所述神经网络模型对所述第一高层语义特征和所述第二高层语义特征进行合并操作,得到第三高层语义特征。
分割模块14,用于通过所述神经网络模型对所述第三高层语义特征进行卷积运算,降维得到第四高层语义特征。在其中一个实施例中,分割模块14进一步包括:
第二特征单元,用于通过所述神经网络模型对所述第三高层语义特征进行卷积运算,降维得到第四高层语义特征;
第二输出图片单元,用于对所述第四高层语义特征进行二值处理,得到舌体分割图。
在该实施例中,所述第二特征单元通过对所述第三高层语义特征进行卷积运算后,并降维得到第四高层语义特征,所述第二输出图片单元通过所述第二特征单元的所述第四高层语义特征进行二值处理得到舌体分割图。其中,所述分割模块的训练中,采用的损失函数为交叉熵损失函数,所述交叉熵损失函数能较好处理舌体边界的噪声。
点乘模块15,用于通过所述神经网络模型,对所述第四高层语义特征进行指数操作,得到第五高层语义特征,其中,对所述第四高层语义特征和所述第五高层语义特征进行点乘操作,得到第六高层语义特征。
分类模块16,用于通过所述神经网络的全连接层对所述第六高层语义特征进行分类运算,得到所述舌体图片分类结果。
在该实施例中,所述分类模块16,采用的损失函数为SoftmaxLoss损失函数,所述SoftmaxLoss分类损失函数,能较好处理区分多类问题,提高正确识别率。
在其中一个实施例中,分类模块16进一步包括:
舌色单元,用于对所述舌体图片的舌色特征进行分类;
苔色单元,用于对所述舌体图片的苔色特征进行分类;
苔质单元,用于对所述舌体图片的苔质特征进行分类;
舌形单元,用于对所述舌体图片的舌形特征进行分类;
诊断结果单元,用于对所述舌体图片识别分类进行结果诊断。
在该实施例中,所述舌色单元包括舌淡红、舌淡、舌红、舌绛、舌暗红、舌淡紫、舌紫暗、舌边尖红(舌色局部特征)、瘀斑瘀点(舌色局部特征)。所述苔色单元包括苔白、苔黄白相兼、苔黄、苔灰黑。所述苔质单元包括苔薄、苔厚、苔腻、苔腐、苔少、苔无、苔剥。所述舌形单元包括苔薄、苔厚、苔腻、苔腐、苔少、苔无、苔剥。所述诊断结果单元通过所述舌色单元、苔色单元、苔质单元、舌形单元,结合中医知识,给出所述舌象诊断结果。
其中上述模块/单元中的“第一”和“第二”的意义仅在于将不同的模块/单元加以区分,并不用于限定哪个模块/单元的优先级更高或者其它的限定意义。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式。
关于舌体图片分类装置的具体限定可以参见上文中对于舌体图片分类方法的限定,在此不再赘述。上述舌体图片分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种舌体图片分类方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中舌体图片分类方法的步骤,例如图2所示的步骤S101至步骤S106及该方法的其它扩展和相关步骤的延伸。或者,处理器执行计算机程序时实现上述实施例中舌体图片分类装置的各模块/单元的功能,例如图3所示特征提取模块11、颜色校正模块12、合并模块13、分割模块14、点乘模块15和分类模块16的功能。为避免重复,这里不再赘述。
所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。
所述存储器可以集成在所述处理器中,也可以与所述处理器分开设置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中舌体图片分类方法的步骤,例如图2所示的步骤S106至步骤S106及该方法的其它扩展和相关步骤的延伸。或者,计算机程序被处理器执行时实现上述实施例中舌体图片分类装置的各模块/单元的功能,例如图3所示特征提取模块11、颜色校正模块12、合并模块13、分割模块14、点乘模块15和分类模块16功能。为避免重复,这里不再赘述。
本实施例提供的计算机可读存储介质通过训练统一的神经网络模型,将舌体图片特征提取、舌体图片颜色校正、舌体图片分割和舌体图片识别融合到一起,其中,所述舌体图片通过特征提取得到第一高层语义特征,所述舌体图片通过颜色校正,得到第二高层语义特征用于指导神经网络的特征表达学习,提高了识别精度和环境适用性,通过所述第一高层语义特征与第二高层语义特征融合得到第三高层语义特征,所述第三高层语义特征通过卷积变换得到舌体分割信息,融合到后续高层特征,最后输出了舌体图片识别分类结果。舌体分割指导后续的过程,这采用人的注意力机制,通过先定位后识别的直观思想,降低了神经网络模型的复杂性,解决了舌体图片分类系统复杂性高、精度低的技术问题。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。