CN112489053B

CN112489053B - 一种舌像分割方法、装置及存储介质

Info

Publication number: CN112489053B
Application number: CN202011347107.5A
Authority: CN
Inventors: 刘京京; 许伟成; 钟果; 魏丞昊
Original assignee: Shenzhen Aihexenke Intelligent Medical Co ltd
Current assignee: Shenzhen Aihexenke Intelligent Medical Co ltd
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2021-07-13
Anticipated expiration: 2040-11-26
Also published as: CN112489053A

Abstract

本发明涉及一种舌像分割方法、装置及存储介质，其中，该方法包括：对每个舌像图像标注出背景区域和舌体区域，其像素值分别记为0和1；利用标注的舌像图像集训练二分类语义分割网络模型；将目标图像输入到二分类语义分割网络模型中，得到大小相同的第一二值化预测图像，背景区域的像素值为0，舌体区域的为1；检测图像中的连通区域，保留面积最大的，并将其他连通区域的像素值由1调整为0；按行扫描，计算每行从左到右第一个像素值为1的坐标及最后一个像素值为1的坐标，扫描这两个坐标之间的像素值，当发现不为1的坐标a时，则将a对应的像素值调整为1；将像素值为0的坐标对应的颜色值调整为统一颜色，从而生成目标舌体分割图像。

Description

一种舌像分割方法、装置及存储介质

技术领域

本发明涉及医学诊疗领域，更具体来说，涉及一种基于人工智能的舌像分割方法、装置及存储介质。

背景技术

舌像是指人的舌头的表象。中医讲究望闻问切，舌像作为身体状况的表征中的一种，通过观察舌像的状态例如舌苔的颜色、厚度等，中医医生们能够判断出患者的某些病症，例如是否有胃病、糖尿病等。

但是中医医生的判断，是基于其丰富的经验积累，有赖于其亲自望诊，并不利于患者的自查自诊；同时，因为知识和经验的局限性，使得患者并没有办法做出相对准确的初判，而当前紧缺的医疗资源和往返医院的劳顿，使得患者不能及时有效地了解病情。

随着计算机技术的发展，利用计算机对舌像进行分析，从而给出医学上的初步诊断，对病患和医生来说都非常有帮助。而再计算机分析舌像时，第一步就是要精确地从原始图像中分割出舌体图像，这对后续的分析有着非常重要的作用。

发明内容

为了解决现有技术存在的问题，本发明提供一种精确的舌像分割方法。

本发明的一种舌像分割方法，包括以下步骤：对一舌像数据集的样本图像进行标注，每个所述样本图像为一舌像图像，对每个所述舌像图像标注出背景区域和舌体区域，从而相应地获得每个所述舌像图像的背景数据和舌体数据，所述背景数据包括所述背景区域上各像素的坐标、像素值和颜色值，所述舌体数据包括所述舌体区域上各像素的坐标、像素值和颜色值，所述背景区域的像素值为0，所述舌体区域的像素值为1；

利用标注完成的所述舌像数据集训练二分类语义分割网络模型，类别为背景区域和舌体区域两类；

将目标图像输入到所述二分类语义分割网络模型中，得到与目标图像大小相同的第一二值化预测图像，在第一二值化预测图像中，背景区域的像素值为0，舌体区域的像素值为1；

检测所述第一二值化预测图像中的连通区域，当第一二值化预测图像数据的连通区域为多个时，计算各个连通区域的面积，保留面积最大的连通区域，并将其他连通区域的各像素的像素值由1调整为0，得到第二二值化预测图像；

对所述第二二值化预测图像按行扫描，计算每行从左到右第一个像素值为1的坐标及最后一个像素值为1的坐标，扫描这两个坐标之间的像素值，当发现像素值不为1的坐标a时，计算坐标a所在列从上往下第一个像素值为1的坐标aUp以及最后一个像素值为1的坐标aDown，若坐标a处于坐标aUp与坐标aDown之间，则将a对应的像素值调整为1，否则不调整，从而获得第三二值化预测图像；

将所述第三二值化预测图像中像素值为0的坐标对应的颜色值调整为统一颜色，从而生成目标舌体分割图像。

其中，二分类语义分割网络模型使用encoder-decoder结构，其中encoder模块使用改进的Xception结构作为网络主体。

其中，所述目标图像在进入encoder模块时，分别使用1×1普通卷积，3×3扩张率为6的空洞卷积，3×3扩张率为12的空洞卷积，3×3扩张率为8的空洞卷积以及池化模块得到通道数目为5的特征层，最后对其使用1×1普通卷积，得到的结果为encoder模块的输出特征，该输出特征的空间分辨率相比原图降低了16倍；在decoder模块中，对encoder模块的输出特征进行4倍双线性上采样，得到的特征记为FA，该特征相比原图的空间分辨率降低了4倍；再从encoder中对应着相比原图空间分辨率降低4倍的特征层，经过1×1卷积降通道得到新的输出特征记为FB，其大小于FA相同；将FA和FB连接为双通道特征层，再经过一次3×3卷积细化特征，最后对前述特征进行4倍双线性上采样得到预测结果，即所述第一二值化预测图像。

其中，获得所述第三二值化预测图像后，还对所述第三二值化预测图像进行边缘平滑处理，得到第四二值化预测图像；

将所述第四二值化预测图像中像素值为0的坐标对应的颜色值调整为统一颜色，从而生成目标舌体分割图像。

其中，对所述第三二值化预测图像进行边缘平滑处理的步骤为：

针对每个像素，获取以其为中心的3×3像素矩阵上共9个像素对应的像素值，每个像素值为0或1；

计算所述9个像素中像素值为0的像素个数和为1的像素个数；

当像素值为0的像素个数大于为1的像素个数时，将中心像素的像素值调整为0，反之为1；

所述第三二值化预测图像的每个像素均进行上述处理，从而得到第四二值化预测图像。

其中，对所述第四二值化预测图像中像素值等于1的坐标，其颜色值取所述目标图像的对应坐标的颜色值，从而获得舌体分割图像。

其中，检测所述第一二值化预测图像中的连通区域，具体步骤为：

(1)扫描所述第一二值化预测图像，直到当前像素点B(x,y)＝1；将B(x,y)作为种子，并赋予其一个label，然后将该种子相邻的上下左右4个前景像素都压入栈中；弹出栈顶像素，赋予其相同的label，然后再将与该栈顶像素相邻的所有前景像素都压入栈中；重复上述步骤，直到栈为空；此时，便找到了图像中的一个连通区域，该区域内的像素值都被标记为label；

(2)重复步骤(1)，直到扫描结束，找出所有连通区域；

所述连通区域找到后，分别统计各个连通区域的像素数目，以像素数目最大的连通区域作为舌体区域，并将该区域像素值设置为1，其他所有像素值均设置为0。

本发明的一种舌像分割装置，所述分割装置包括处理器、存储器、显示器，所述处理器、存储器和显示器工作时实现如上所述的舌像分割方法。

本发明的一种计算机可读存储介质，该存储介质内存储有程序，所述程序在被执行时实现如上所述的舌像分割方法。

通过采用前述技术方案，本发明的有益效果为：本发明通过对二值化舌体图像进行多次的调整，消除了可能的非舌体区域错分为舌体区域、舌体区域存在孔洞等通过人工智能自动预测时产生的各种缺陷，提高了预测的准确性，会做舌像分析提供了更为可靠的舌体图像，为后续的舌像分析奠定了良好的计算和分析基础。

附图说明

图1为舌像数据集所收录的样本图像集；

图2(a)是本发明实施例的样本图像的原始图像；

图2(b)显示了图2(a)的样本图像标记的背景区域和舌体区域；

图2(c)为图2(a)所示的样本图像作为目标图像输入到二分类语义分割网络模型中输出的预测图像；

图2(d)为直接将图2(c)所示的预测图像直接映射到目标图像时的舌体分割图像；

图3为图2(a)所示的样本图像作为目标图像经过本发明的舌像分割方法获得的舌像分割图像；

图4为本发明舌像分割装置一个实施例的结构框图；

图5为本发明存储介质一个实施例的结构框图。

具体实施方式

现结合附图和具体实施例对本发明进一步说明。

本申请提供了一种基于语义分割网络模型的舌体图像分割方法，该方法在精心标注的舌像数据集上训练一个二分类语义分割网络模型，然后将目标图像输入该模型进行舌像分割，从而获得舌体分割图像。

具体地，本发明的舌像分割方法，包括以下步骤：

S1、对一舌像数据集的样本图像进行标注，每个所述样本图像为一舌像图像，对每个所述舌像图像标注出背景区域和舌体区域，从而相应地获得每个所述舌像图像数据的背景数据和舌体数据，所述背景数据包括所述背景区域上各像素的坐标、像素值和颜色值，所述舌体数据包括所述舌体区域上各像素的坐标、像素值和颜色值，所述背景区域的像素值为0，所述舌体区域的像素值为1。

这里的舌像数据集，集合了足够多的舌像样本图像，为了模型的鲁棒性，样本采集条件应尽可能多样化。在具体实现中，我们的训练数据集共包含298个真实环境采集的舌像样本。如图1所示，样本图像所使用的采集相机、光照条件、图片大小均不相同。

使用深度学习图像标注工具Labelme用点依次连线,该软件基于python开发，可运行于Windows、Linux、MacOS等各大操作系统。从而人工标注出样本图像中的舌体区域，其余区域为背景区域。将完成的舌体标记信息进行保存，然后将保存的标记信息转换为模型训练所需要的二值化舌体图像，该二值化舌体图像所含的信息至少包括构成背景区域的背景区域各个像素的坐标集合，以及各个像素对应的颜色值，同时还包括标注为区域类别的像素值，例如按照类别，背景区域里的各个像素的像素值或者类别值标记为0。同样地，该二值化舌体图像还包括构成舌体区域的各个像素的坐标集合，以及各个像素坐标对应的颜色值，以及该像素作为舌体区域的类别值，标记为1。图2(a)为样本图像，图2(b)为人工标注后的舌体区域和背景区域。

S2标注完成后，利用标注后的舌像数据集训练二分类语义分割网络模型，类别为背景区域和舌体区域两类；

S3、将目标图像输入到所述二分类语义分割网络模型中，得到与目标图像大小相同的第一二值化预测图像，在第一二值化预测图像中，背景区域的像素值为0，舌体区域的像素值为1；

本发明实施例使用的二分类语义分割网络模型整体网络使用encoder-decoder结构，encoder模块使用改进的Xception结构作为网络主体用于快速计算并保持模型强大学习能力，Xception结构特征在于采用了空洞卷积池化，它可以在不同分辨率上以池化操作捕获丰富上下文信息，在控制计算密度的同时又扩大了网络感受野，该结构有助于捕获不同大小的舌体占比。

本发明中，所述目标图像在进入encoder模块时，分别使用1×1普通卷积，3×3扩张率为6的空洞卷积，3×3扩张率为12的空洞卷积，3×3扩张率为8的空洞卷积以及池化模块得到通道数目为5的特征层，最后对其使用1×1普通卷积，得到的结果为encoder模块的输出特征，该输出特征的空间分辨率相比原图降低了16倍；在decoder模块中，对encoder模块的输出特征进行4倍双线性上采样，得到的特征记为FA，该特征相比原图的空间分辨率降低了4倍；再从encoder中对应着相同分辨率(相比原图空间分辨率降低4倍)的特征层，经过1×1卷积降通道得到新的输出特征记为FB，其大小于FA相同；将FA和FB连接为双通道特征层，再经过一次3×3卷积细化特征，最后对前述特征进行4倍双线性上采样得到预测结果，即所述第一二值化预测图像。

本发明实施例在实际中，为保证舌体分割效果，在网络结构前端加入了图像校准模块，该模块将原始图像以坐标处于(2/3图像高度，1/2图像宽度)的像素为中心，将原始图像压缩裁剪到(512,512)。即假定图像宽度小于高度，舌体处于图像中下方。训练本网络结构使用了298张原始图像，网络迭代次数设置为8000次，实验软硬件环境：为1个NVIDIARTX2080TI显卡，Ubuntu16.04操作系统，pytorch深度学习框架。最终语义分割效果如图2(c)所示，图2(d)为预测图像映射到原始图像的效果，可见预测图像很好地覆盖了原始图像中的舌体区域。

S4、检测所述第一二值化预测图像中的连通区域，并当第一二值化预测图像数据的连通区域为多个时，计算各个连通区域的面积，保留面积最大的连通区域，并将其他连通区域的各像素的像素值由1调整为0，得到第二二值化预测图像。

这一步的必要性在于，通过二分类语义分割网络模型来自动预测舌体区域时，虽然结果基本还原了真实舌体区域，且在同一个二值化舌体图像中孤立错分的舌体区域面积远小于舌体本身，但仍然会部分地存在将脸部、嘴唇等部位像素孤立的区域错分为舌体区域。因此，有必要找到这些通常面积较小且被误分为舌体的区域，将其纠正为背景区域，从而更准确的反映舌体区域。

优选检测第一二值化预测图像中的连通区域采用种子填充算法，具体步骤为：

(1)首先扫描第一二值化预测图像，该图像记为B，直到当前像素点B(x,y)＝1；将B(x,y)作为种子，并赋予其一个label，并设置一个计数器ct＝1，然后将该种子相邻的上下左右4个前景像素都压入栈中；弹出栈顶像素，赋予其相同的label，同时ct＝ct+1，然后再将与该栈顶像素相邻的所有前景像素都压入栈中；重复上述步骤，直到栈为空；此时，便找到了图像中的一个连通区域，该区域内的像素值都被标记为label，且该区域面积为ct，若ct值>1/3图像面积时，可直接结束认定该区域为即舌体区域；

(2)重复步骤(1)，直到扫描结束，找出所有连通区域；

所述连通区域找到后，对对各个连通区域的像素数目ct进行排序，同时，计算标注的第二大连通区域与最大连通区域面积的比值，若该比值超过0.5，整个图像全部像素均设置为0，即无法分割舌体。否则，以像素数目最大的连通区域作为舌体区域，并将该区域像素值设置为1，其他所有像素值均设置为0，得到第二二值化预测图像。

以x为连通区域，i为连通区域数目，x_i表示第i个连通区域的面积，数学公式表达如下：

X_i＝{X₁，X₂，...，X_n}，n为联通区域数目，X_i＞X_i+1

S5、对上述第二二值化预测图像进行孔洞检测与填充。本发明设置这一步骤原因在于，通过对舌像数据集的近300个不同采集条件下的样本图像进行预测结果进行检验，发现预测的舌体区域可能会出现小孔洞的情况。为了消除这些小孔洞的影响，需要进行孔洞检测与填充。

具体的，本发明对第二二值化预测图像数据进行按行扫描，计算每行最左边第一个像素值为1的坐标及最右边像素值为1的坐标，扫描两个坐标之间的像素值，当发现像素值不为1的坐标a时，计算坐标a对应那一列最上方像素值为1的坐标aUp以及最下方像素值为1的坐标aDown，若a处于aUp与aDown之间，则将a对应的像素值设置为1，即第二颜色，也即调整为舌体区域的颜色，从而获得第三二值化预测图像，该图像消除了舌体区域中的小孔洞。

为了获得更优质的舌像，在获得所述第三二值化预测图像后，还设有步骤S6：还对所述第三二值化预测图像进行边缘平滑处理，得到第四二值化预测图像。

其中，对所述第三二值化预测图像进行边缘平滑处理采用邻域投票法，具体步骤为：

针对每个像素，获取以其为中心的3×3像素矩阵上共9个像素对应的像素值，因为是二值化图像，因此每个像素值为0或1；

计算所述9个像素中像素值为0的像素个数和为1的像素个数；

当像素值为0的像素个数大于为1的像素个数时，将该中心像素的像素值调整为0，反之为1；

语义分割网络模型得到的预测图像边缘毛刺感强，不可避免的会侵入非舌体区域像素点，经过本边缘平滑算法处理后，可有效还原舌体区域固有的平滑曲线。

S7：将所述第四二值化预测图像中像素值为0的坐标对应的颜色值调整为统一颜色例如黑色或白色，对所述第四二值化预测图像中像素值等于1的坐标，其颜色值取所述目标图像的对应坐标的颜色值，从而生成目标舌体分割图像，如图3所示。

不过，在另一实施例中，也可以不需要进行边缘平滑处理，从S5进入到S7，直接对所述第三二值化预测图像中像素值为0的像素对应的颜色值调整为统一颜色，像素值等于1的像素对应的颜色值取原始目标图像的相应坐标的颜色值，从而生成目标舌体分割图像。

本发明利用精心标注的舌像数据集训练一个二分类语义网络模型，其中类别为背景和舌体；然后将目标图像输入训练好的二分类语义分割网络模型中得到预测舌体区域，获得第一二值化预测图像；再对图像的连通区域进行计算，保留最大面积的连通区域，其他连通区域调整为背景区域，以最大连通区域为舌体区域，最后将舌体区域的颜色还原为原始的目标图像相应坐标的颜色，最终获得舌体分割图像。

本发明通过对二值化舌体图像进行多次的调整，消除了可能的非舌体区域错分为舌体区域、舌体区域存在孔洞等通过人工智能自动预测时产生的各种缺陷，提高了预测的准确性，会做舌像分析提供了更为可靠的舌体图像，为后续的舌像分析奠定了良好的计算和分析基础。

请参阅图4所示，本发明实施例还提供了一种舌像分割装置，该分割装置包括：处理器401、存储器402、显示器403，该处理器401、存储器402和显示器403在工作时实现上述的舌像分割方法。

其中，处理器401可以是一个通用中央处理器401、微处理器401、特定应用集成电路、或一个或多个用于控制本申请方案程序执行的集成电路。

此外，存储器402可以是只读存储器402、可存储静态信息和指令的静态存储设备、随机存取存储器402、或者可存储信息和指令的动态存储设备，也可以是电可擦可编程只读存储器402、只读光盘、或其他光盘存储、光碟存储、磁盘存储介质或者其他磁存储设备。存储器402与处理器401可以通过通信总线相连接，也可以和处理器401集成在一起。

上述存储器402可用于存储执行本申请方案的程序数据，处理器401可用于执行存储器402中存储的程序数据，以实现上述实施例描述的舌像分割方法。

如图5所示，本发明实施例还提供了一种存储介质，该存储介质500内存储有程序501，该程序501在被执行时实现上述的舌像分割方法。

需要说明的是，本实施例中存储介质500可以是只读存储器、可存储静态信息和指令的静态存储设备、随机存取存储器、或者可存储信息和指令的动态存储设备，也可以是电可擦可编程只读存储器、只读光盘、或其他光盘存储、光碟存储、磁盘存储介质500或者其他磁存储设备。

需要说明的是，本实施例中的程序501可被一种或更多编程语言的任何组合来书写，包括面向对象的编程语言，如JAVA、Smalltalk、C++或类似的编程语言，还包括传统的过程编程语言，如“C”编程语言或类似的编程语言。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

尽管结合优选实施方案具体展示和介绍了本发明，具体实现该技术方案方法和途径很多，以上所述仅是本发明的优选实施方式，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种舌像分割方法，其特征在于，包括以下步骤：

对一舌像数据集的样本图像进行标注，每个所述样本图像为一舌像图像，对每个所述舌像图像标注出背景区域和舌体区域，从而相应地获得每个所述舌像图像的背景数据和舌体数据，所述背景数据包括所述背景区域上各像素的坐标、像素值和颜色值，所述舌体数据包括所述舌体区域上各像素的坐标、像素值和颜色值，所述背景区域的像素值为0，所述舌体区域的像素值为1；

检测所述第一二值化预测图像中的连通区域，并当第一二值化预测图像的连通区域为多个时，计算各个连通区域的面积，保留面积最大的连通区域，并将其他连通区域的各像素的像素值由1调整为0，得到第二二值化预测图像；

2.根据权利要求1所述的舌像分割方法，其特征在于，二分类语义分割网络模型使用encoder-decoder结构，其中encoder模块使用改进的Xception结构作为网络主体。

3.根据权利要求2所述的舌像分割方法，其特征在于，所述目标图像在进入encoder模块时，分别使用1×1普通卷积，3×3扩张率为6的空洞卷积，3×3扩张率为12的空洞卷积，3×3扩张率为8的空洞卷积以及池化模块得到通道数目为5的特征层，最后对其使用1×1普通卷积，得到的结果为encoder模块的输出特征，该输出特征的空间分辨率相比原图降低了16倍；在decoder模块中，对encoder模块的输出特征进行4倍双线性上采样，得到的特征记为FA，该特征相比原图的空间分辨率降低了4倍；再从encoder中对应着相比原图空间分辨率降低4倍的特征层，经过1×1卷积降通道得到新的输出特征记为FB，其大小于FA相同；将FA和FB连接为双通道特征层，再经过一次3×3卷积细化特征，最后对前述特征进行4倍双线性上采样得到预测结果，即所述第一二值化预测图像。

4.根据权利要求1所述的舌像分割方法，其特征在于，获得所述第三二值化预测图像后，还对所述第三二值化预测图像进行边缘平滑处理，得到第四二值化预测图像；

5.根据权利要求4所述的舌像分割方法，其特征在于，对所述第三二值化预测图像进行边缘平滑处理的步骤为：

计算所述9个像素中像素值为0的像素个数和为1的像素个数；

6.根据权利要求4所述的舌像分割方法，其特征在于，对所述第四二值化预测图像中像素值等于1的坐标，其颜色值取所述目标图像的对应坐标的颜色值，从而获得舌体分割图像。

7.根据权利要求1所述的舌像分割方法，其特征在于，检测所述第一二值化预测图像中的连通区域，具体步骤为：

(2)重复步骤(1)，直到扫描结束，找出所有连通区域；

8.一种舌像分割装置，其特征在于，所述分割装置包括处理器、存储器、显示器，所述处理器、存储器和显示器工作时实现权利要求1至7任一项所述的舌像分割方法。

9.一种计算机可读存储介质，该存储介质内存储有程序，所述程序在被执行时实现权利要求1至7中任一项所述的舌像分割方法。