CN112052889B

CN112052889B - 基于双门控递归单元解码的喉镜图像识别方法

Info

Publication number: CN112052889B
Application number: CN202010882806.3A
Authority: CN
Inventors: 缑水平; 刘宁涛; 马兰; 李国栋; 毛莎莎; 童诺; 姚瑶; 李阳阳
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2023-05-05
Anticipated expiration: 2040-08-28
Also published as: CN112052889A

Abstract

本发明公开了一种基于双门控递归单元解码的喉镜图像识别方法，主要解决现有方法无法用于光学喉镜图像，及生成的医学文本报告准确性差和可读性不足的问题。其实现方案为：获取光学喉镜图像数据集以及相应的医学文本报告，并对医学文本报告进行分词和编码操作得到标签数据集；对图像数据集进行缩放和中心化处理，并与标签数据集一同记为训练数据集；构造一个包含13个卷积层、4个池化层和2个门控递归单元的综合网络，并使用训练数据集，利用自适应学习率优化算法对其训练；将一张无标签的光学喉镜图像作为测试数据输入到训练好的综合网络，得到测试图像识别后对应的医学报告。本发明提高了生成文本的准确性和可读性，可用于对喉镜图像的识别。

Description

基于双门控递归单元解码的喉镜图像识别方法

技术领域

本发明属于图像处理领域，特别涉及一种光学喉镜图像的识别方法，可用于为生成光学喉镜图像报告提供依据，提高医生对光学喉镜图像的诊断效率及诊断准确性。

背景技术

喉镜图像对于鼻腔以及咽喉部位疾病的诊断以及治疗有着重要的作用，现有对喉镜图像的诊断一般都需要专业的医生在原始图像中对各个区域进行仔细地检查，这对于医生来说是一个具有挑战性的任务，因为所有病变只能依靠医生肉眼观察，长时间的观察会引起医生注意力下降以及精神疲劳，从而导致医生在检查时产生漏判和误判以及诊断效率的降低。所以，急需一种有效的方法对喉镜图像进行理解，并依据是理解结果自动生成医学报告，从而提升喉镜图像的诊断效率以及诊断精度。

近年来，深度学习在图像处理和分析领域掀起了一阵热潮，在低层次的图像去噪、超分辨任务到高层次的图像检测与图像理解等任务中均有涉及。这种信息处理机制模仿了人类视觉神经系统，对图像处理和分析十分有效，已经有一些研究工作将深度学习应用到了医学图像理解方面，并且取得了不错的结果。

在医学图像理解的应用中，Eric P.Xing等人首先利用卷积神经网络CNN提取胸透图像特征，并用全连接层特征对图像做多标签分类，得到图像的高维特征，从而完成对图像的理解和特征表示，然后将特征以及多分类标签嵌入向量进行联合加权得到图像的联合特征，并使用双层长短期记忆网络LSTM对联合特征解码生成胸透图像的报告。Christy Y.Li等人也是利用CNN提取胸透图像特征完成对图像的理解，然后对图像理解过程得到的特征进行编码得到图像内容向量，之后使用循环神经网络RNN从内容向量循环得到话题向量，然后使用模板句生成图像报告或者使用堆叠RNN解码话题向量生成图像报告，最后通过报告的CIDEr分数作为奖励使用强化学习来实现网络的优化。

Yuan Xue等人使用多个角度的胸透图像得到识别特征向量，并据此并生成图像报告，即首先利用CNN对多个图像提取全连接特征与卷积层特征作为报告生成的特征向量，然后将多个图像的特征堆叠在一起输入到LSTM生成一句总体的描述，接下来利用双向LSTM将上一句描述编码为语义特征，与经过加权的图像特征一起输入到另一个LSTM循环得到整个图像报告。

上述这些算法都是针对X光图像的理解任务，目前仍没有针对光学图像理解和医学报告生成的方法；另一方面，这些算法普遍使用单个LSTM对注意力机制与图文融合建模，具有局限性，即使用单个LSTM模块同时完成注意力向量的获取和从图像特征映射到文本的任务，故无法有效地获取准确的注意力权重，限制了图像理解生成文本的准确性和可读性。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于双门控递归单元解码的喉镜图像识别方法，以准确有效地获取由光学喉镜图像特征生成的注意力权重，进而提高医学文本报告的准确性和可读性。

本发明的技术思路是：利用卷积神经网络CNN提取喉镜图像特征，通过使用第一门控递归单元得到注意力权重，通过使用第二门控递归单元解码加权过的图像特征得到图像报告，其实现步骤包括如下：

(1)获取患者的喉镜图像，记为喉镜数据集P，并取得对应喉镜图像的医学文本报告集合，记为Q；

(2)由医学文本报告集合Q获取标签数据集R：

(2a)对Q中所有报告进行分词操作得到词库，并对词库进行one-hot编码操作进而获取每个词的one-hot向量，并得到词语-one-hot编码映射矩阵D；

(2b)将报告中的每个词语使用对应的one-hot向量表示，得到标签数据集R；

(3)获取训练数据集T：

(3a)将喉镜数据集P中每张图像缩小到224×224，并对缩小后的每张图像中心化，使每个通道像素均值为0，从中心化后的喉镜图像中取出一张喉镜图像，记为Z，将剩余喉镜图像组成中心化后的喉镜数据集P'；

(3b)将中心化后的喉镜数据集P'与标签数据集R进行合并，得到训练数据集T

(4)根据得到的训练数据集T，构造包括1个卷积神经网络和2个门控递归单元的双门控制循环网络M，且卷积网络的输出特征作为第一门控递归单元和第二门控递归单元的输入，第一门控递归单元用于提取注意力权重，第二门控递归单元使用卷积网络的输出和注意力权重获取喉镜数据集P'的输出；

将中心化后的喉镜数据集P'作为该双门控制循环网络M的输入，使用均匀分布初始化双门控制循环网络M的权重W，将双门控制循环网络M的偏置b均初始化为数值0，并将喉镜数据集P'对应的医学文本报告作为双门控制循环网络M的期望输出；

(5)使用训练数据集T，训练双门控制循环网络M：

(5a)打乱训练数据集T中图像的顺序，依次从训练数据集T中选择32个喉镜图像及其标签，记为一个训练批次{I,C}，其中I为一个训练批次中的喉镜图像，C为与I对应的医学文本报告标签；

(5b)将喉镜图像I输入到双门控制循环网络M，经过双门控制循环网络M的前向传播得到喉镜图像I对应的输出O，计算输出O与医学文本报告标签C之间的交叉熵，得到双门控制循环网络M的损失函数L；

(5c)使用自适应学习率优化算法Adam优化双门控制循环网络M的损失函数L，即设初始学习速率为0.0001，使用误差反向传播机制对双门控制循环网络M的权重W和偏置b进行更新；

(5d)重复(4a)到(4c)，直到达到最大迭代次数N＝3000，得到训练好的双门控制循环网络M；

(6)利用训练好的双门控制循环网络M获得喉镜图像Z的医学文本报告：

(6a)将Z输入到训练好的双门控制循环网络M中，经过双门控制循环网络M中卷积神经网络的前向传播得到光学喉镜图像Z的特征；

(6b)将从双门控制循环网络M中卷积神经网络得到的光学喉镜图像Z的特征输入到双门控制循环网络M中的第一个门控递归单元，经过第一个门控递归单元的前向传播得到注意力权重；

(6c)将从双门控制循环网络M中卷积神经网络得到的光学喉镜图像Z的特征与注意力权重相乘后输入到双门控制循环网络M中的第二个门控递归单元，经过第二个门控递归单元的前向传播得到光学喉镜图像Z的输出O，并通过词语-one-hot编码映射矩阵D得到Z的医学文本报告。

本发明与现有技术相比具有以下优点：

1、本发明中的双门控制循环网络M使用光学喉镜图像及其对应的医学文本报告构成的数据集T进行训练和优化，解决了现有相关方法仅能应用于X光图像，无法应用于光学喉镜图像的问题；

2、本发明使用双GRU结构分别对注意力机制和图文融合模块进行建模。相对于现有方法，使用了一个专门的GRU获取注意力权重，能够提升获取到的注意力权重的有效性，从而提高生成文本的准确性和可读性；

附图说明

图1是本发明的实现总流程图；

图2是本发明中训练双门控制循环网络M使用的光学喉镜图像示例图；

图3是本发明中构建的双门控制循环网络M结构图；

图4是本发明实例中使用的光学喉镜图像样例图。

具体实施方式

以下结合附图，对本发明的具体实施方案和效果作进一步的解释和说明：

参照图1，本实例的实现步骤如下：

步骤1：数据准备。

1a)获取患者的光学喉镜图像，记为喉镜数据集P，如图2所示，并取得对应喉镜图像的医学文本报告集合，记为Q；

1b)由医学文本报告集合Q获取标签数据集R：

1b1)对Q中所有报告进行分词操作得到词库，并对词库进行one-hot编码操作进而获取每个词的one-hot向量，并得到词语-one-hot编码映射矩阵D；

1b2)将报告中的每个词语使用对应的one-hot向量表示，得到标签数据集R；

1c)获取训练数据集T：

1c1)将喉镜图像数据集P中每张图像缩小到224×224，并对缩小后的每张图像进行中心化处理，即对缩小后的图像的像素值减去(104，116，122)，得到中心化后图像的像素值(x',y',z')：

(x',y',z')＝(x-104,y-116,z-122)

其中，(x,y,z)为原始图像的像素值；

1c2)将缩小和中心化处理后的喉镜图像数据集P记为P'，并将喉镜图像数据集P'与标签数据集R合并，得到训练数据集T。

步骤2：根据训练数据集T，构造双门控制循环网络M。

参照图3，该双门控制循环网络M包括13个卷积层、4个池化层和2个门控递归单元层，其结构关系为：第一卷积层→第二卷积层→第一池化层→第三卷积层→第四卷积层→第二池化层→第五卷积层→第六卷积层→第七卷积层→第三池化层→第八卷积层→第九卷积层→第十卷积层→第四池化层→第十一卷积层→第十二卷积层→第十三卷积层→第一门控递归单元层→第二门控递归单元层。

各层的参数设置如下：

所述4个池化层均为2×2最大池化，池化步长均为2×2；

所述13个卷积层的卷积核大小均为3×3，卷积步长均为1×1，激活函数均为修正线性单元ReLU，但卷积核的个数不同，其中：

第一卷积层、第二卷积层的卷积核个数均为64；

第三卷积层、第四卷积层的卷积核个数均为128；

第四卷积层、第五卷积层、第六卷积层的卷积核个数均为256；

第七卷积层、第八卷积层、第九卷积层、第十卷积层、第十一卷积层、第十二卷积层、第十三卷积层的卷积核个数均为512；

各层的输出计算如下：

A)计算卷积层的输出ψ_i：

A1)计算卷积层的卷积输出F_i：

其中，F_i表示卷积层的第i个输出，σ_j表示卷积层的第j个输入，

表示卷积层的第i个卷积核，b_i表示卷积层第i个卷积核的偏置，n表示卷积层的输入个数，∑表示求和运算，

表示图像卷积运算；

A2)使用修正线性单元ReLU对卷积输出F_i进行非线性激活，得到ψ_i：

其中，F_i表示卷积层的第i个输出；

B)计算门控递归单元层的输出O：

B1)定义双门控制循环网络M的参数：

E₁,E₂,...,E_i,...,E₇，

其中，E_i＝{W_i,b_i}表示M中的一组权重值W_i和偏置值b_i，i∈{1,2,3,4,5,6,7}；

B2)计算门控递归单元在t时刻的更新权重μ_t：

其中，x_t为门控递归单元在t时刻的输入，e为自然底数，0≤t≤40；

B3)使用t时刻的更新权重u_t，计算门控递归单元在t时刻的记忆状态h_t：

其中，h_t-1为门控递归单元在t-1时刻的记忆状态，t＝0时h_t-1＝h_-1＝0，·表示点乘；

B4)根据门控递归单元在t时刻的记忆状态h_t，计算门控递归单元在t时刻的输出，O_t：

O_t＝argmax(softmax(E₇h_t))，

其中，E₇为双门控制循环网络的第7组参数，h_t为门控递归单元在t时刻的记忆状态，t表示时刻，0≤t≤40，e为自然底数，softmax(·)表示softmax函数；

B5)堆叠向量O_t，得到双门控制循环网络M的输出O：

O＝[O₁；O₂；O₃；…O_t；…O₄₀]，

其中，；表示向量的堆叠。

步骤3：对双门控制循环网络M的权重W和偏置b进行初始化。

3.1)使用均匀分布对双门控制循环网络M的权重W进行初始化，其公式如下：

W_i～U(-0.01,0.01)

其中，W_i表示双门控制循环网络M的第i组权重值，i∈{1,2,3,4,5,6,7}，U(·,·)表示均匀分布，即双门控制循环网络M的权重W服从-0.01到0.01的均匀分布；

3.2)将双门控制循环网络M的偏置b初始化为数值0：

b_i＝0，

其中，b_i表示双门控制循环网络M的第i组偏置值；

步骤4：使用训练数据集T，训练双门控制循环网络M。

4.1)打乱训练数据集T中图像的顺序，并依次从训练数据集T中选择32个光学喉镜图像及其对应的标签，记为一个训练批次{I,C}，其中I为一个训练批次中的光学喉镜图像，作为双门控制循环网络M的输入；C为与I对应的标签，用以计算双门控制循环网络M的损失函数；

4.2)将光学喉镜图像I输入到双门控制循环网络M，经过双门控制循环网络M的前向传播得到光学喉镜图像I对应的输出O，计算输出O与光学喉镜图像I的标签C之间的交叉熵，得到双门控制循环网络M的损失函数L：

其中，C表示喉镜图像I的标签，O表示双门控制循环网络M针对喉镜图像I的输出，Clog(O)为输出O与标签C之间的交叉熵；

4.3)设初始学习速率η＝0.0001，使用自适应学习率优化算法Adam优化双门控制循环网络M的损失函数L，即对双门控制循环网络M的权重W和偏置b进行更新，得到当前优化后的权重W'和偏置b'：

其中，i∈{1,2,3,4,5,6,7}，

表示W_i的梯度，

表示b_i的梯度，·表示点乘；

4.4)重复4.1)到4.3)，直到达到最大迭代次数N＝3000，得到训练好的双门控制循环网络M。

步骤5：利用训练好的双门控制循环网络M获得喉镜图像Z的报告。

5.1)将如图4所示的光学喉镜图像Z输入到训练好的双门控制循环网络M中，经过双门控制循环网络M中卷积神经网络的前向传播，得到光学喉镜图像Z的特征；

5.2)将从双门控制循环网络M中卷积神经网络得到的光学喉镜图像Z的特征输入到双门控制循环网络M中的第一个门控递归单元，经过第一个门控递归单元的前向传播得到注意力权重A；

5.3)将从双门控制循环网络M中卷积神经网络得到的光学喉镜图像Z的特征与注意力权重A相乘后输入到双门控制循环网络M中的第二个门控递归单元，经过第二个门控递归单元的前向传播得到双门控制循环网络M对于光学喉镜图像Z的输出O_z；

5.4)依据双门控制循环网络M对于光学喉镜图像Z的输出O_z和1b1)中获取的词语-one-hot编码映射矩阵D，得到光学喉镜图像Z的医学报告：

词语-one-hot编码映射矩阵D，表示标签数据集R中任一词语和其对应的one-hot编码的一对一映射关系；

双门控制循环网络M对于光学喉镜图像Z的输出O_z＝[O_z1；O_z1；O_z3；...；O_zt；...；O_z40]，1≤t≤40中的任一O_zt表示一个词语的one-hot编码，通过词语-one-hot编码映射矩阵D可将O_zt转换为其对应的词语V_zt，堆叠V_zt即可得到光学喉镜图像Z的医学文本报告。

本实例得到的医学文本报告为：“左声带边缘平整，右声带可见不光滑肿物”。

以上描述仅是本发明的一个具体实例，不构成对本发明的任何限制，显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修正和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims

1.一种基于双门控制循环单元解码的喉镜图像识别方法，其特征在于，包括如下：

(2)由医学文本报告集合Q获取标签数据集R：

(2a)对Q中所有报告进行分词操作得到词库，并对词库进行one-hot编码操作进而得到每个词的one-hot向量，并得到词语one-hot编码映射矩阵D；

(3)获取训练数据集T：

(3a)将喉镜数据集P中每张图像缩小到224×224，并对缩小后的每张图像进行中心化，使每个通道像素均值为0，再从中心化后的喉镜图像中取出一张喉镜图像，记为Z，将P中剩余喉镜图像组成中心化后的喉镜数据集，记为P'；

(3b)将中心化后的喉镜数据集P'与标签数据集R进行合并，得到训练数据集T；

(4)构建双门控制循环网络M并进行初始化：

构造包括1个卷积神经网络和2个门控递归单元的双门控制循环网络M，卷积网络的输出特征作为第一门控递归单元和第二门控递归单元的输入，第一门控递归单元用于提取注意力权重，第二门控递归单元使用卷积网络的输出和注意力权重获取喉镜数据集P'的输出；

将中心化后的喉镜数据集P'作为该双门控制循环网络M的输入，使用均匀分布初始化双门控制循环网络M的权重W，将双门控制循环网络M的偏置b均初始化为数值0，

将中心化后的喉镜数据集P'对应的医学报告作为双门控制循环网络M的期望输出；

(5)使用训练数据集T，训练双门控制循环网络M：

(5a)打乱训练数据集T中图像的顺序，从中选择32个喉镜图像及其标签，记为一个训练批次{I,C}，其中I为一个训练批次中的喉镜图像，C为与I对应的医学文本报告标签；

(5c)使用自适应学习率优化算法Adam优化双门控制循环网络M的损失函数L，即设初始学习速率η＝0.0001，使用误差反向传播机制对双门控制循环网络M的权重W和偏置b进行更新；

(5d)重复(5a)到(5c)，直到达到最大迭代次数N＝3000，得到训练好的双门控制循环网络M；

(6)利用训练好的双门控制循环网络M获得测试数据喉镜图像Z的报告：

(6a)将测试数据喉镜图像Z输入到训练好的双门控制循环网络M中，经过双门控制循环网络M中卷积神经网络的前向传播，得到光学喉镜图像Z的特征向量S；

(6b)将光学喉镜图像Z的特征输入到双门控制循环网络M中的第一个门控递归单元进行前向传播，得到注意力权重A；

(6c)将光学喉镜图像Z的特征向量S与注意力权重A相乘后，输入到双门控制循环网络M中的第二个门控递归单元进行前向传播，得到光学喉镜图像Z的医学报告的输出O，并依据词语one-hot编码转换映射矩阵D得到Z的医学文本报告；

(6d)根据输出O和(2a)中获取的词语one-hot编码映射矩阵D，得到光学喉镜图像Z的医学文本报告。

2.根据权利要求1所述的方法，其中步骤(3a)中对缩小后的每张图像中心化，是用缩小后图像每个点的像素值减去(104，116，122)，得到中心化后图像的像素值(x',y',z')：

(x',y',z')＝(x-104,y-116,z-122)

其中，(x,y,z)为原始图像的像素值。

3.根据权利要求1所述的方法，其中(4)中构造的双门控制循环网络M，包括13个卷积层、4个池化层和2个门控递归单元层，其结构关系为：第一卷积层→第二卷积层→第一池化层→第三卷积层→第四卷积层→第二池化层→第五卷积层→第六卷积层→第七卷积层→第三池化层→第八卷积层→第九卷积层→第十卷积层→第四池化层→第十一卷积层→第十二卷积层→第十三卷积层→第一门控递归单元层→第二门控递归单元层；

该4个池化层均为2×2最大池化，池化步长均为2×2；

该13个卷积层的卷积核大小均为3×3，卷积步长均为1×1，激活函数均为修正线性单元ReLU；

该第一卷积层、第二卷积层的卷积核个数均为64；

该第三卷积层、第四卷积层的卷积核个数均为128；

该第五卷积层、第六卷积层的卷积核个数均为256；

该第七卷积层、第八卷积层、第九卷积层、第十卷积层、第十一卷积层、第十二卷积层、第十三卷积层的卷积核个数均为512。

4.根据权利要求1所述的方法，对(4)中使用的双门控制循环网络M的权重W和b进行初始化，其公式如下：

W_i～U(-0.01,0.01)

b_i＝0

其中，W_i表示双门控制循环M的一组权重值，b_i表示双门控制循环网络M的一组偏置值，i∈{1,2,3,4,5,6,7}，U(·,·)表示均匀分布，即双门控制循环网络M的权重W服从-0.01到0.01的均匀分布。

5.根据权利要求1所述的方法，其中(5b)中输出O与标签C之间的交叉熵，得到双门控制循环网络M的损失函数L，其公式如下：