CN112052889B - 基于双门控递归单元解码的喉镜图像识别方法 - Google Patents

基于双门控递归单元解码的喉镜图像识别方法 Download PDF

Info

Publication number
CN112052889B
CN112052889B CN202010882806.3A CN202010882806A CN112052889B CN 112052889 B CN112052889 B CN 112052889B CN 202010882806 A CN202010882806 A CN 202010882806A CN 112052889 B CN112052889 B CN 112052889B
Authority
CN
China
Prior art keywords
double
laryngoscope
image
convolution layer
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010882806.3A
Other languages
English (en)
Other versions
CN112052889A (zh
Inventor
缑水平
刘宁涛
马兰
李国栋
毛莎莎
童诺
姚瑶
李阳阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202010882806.3A priority Critical patent/CN112052889B/zh
Publication of CN112052889A publication Critical patent/CN112052889A/zh
Application granted granted Critical
Publication of CN112052889B publication Critical patent/CN112052889B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Endoscopes (AREA)

Abstract

本发明公开了一种基于双门控递归单元解码的喉镜图像识别方法,主要解决现有方法无法用于光学喉镜图像,及生成的医学文本报告准确性差和可读性不足的问题。其实现方案为:获取光学喉镜图像数据集以及相应的医学文本报告,并对医学文本报告进行分词和编码操作得到标签数据集;对图像数据集进行缩放和中心化处理,并与标签数据集一同记为训练数据集;构造一个包含13个卷积层、4个池化层和2个门控递归单元的综合网络,并使用训练数据集,利用自适应学习率优化算法对其训练;将一张无标签的光学喉镜图像作为测试数据输入到训练好的综合网络,得到测试图像识别后对应的医学报告。本发明提高了生成文本的准确性和可读性,可用于对喉镜图像的识别。

Description

基于双门控递归单元解码的喉镜图像识别方法
技术领域
本发明属于图像处理领域,特别涉及一种光学喉镜图像的识别方法,可用于为生成光学喉镜图像报告提供依据,提高医生对光学喉镜图像的诊断效率及诊断准确性。
背景技术
喉镜图像对于鼻腔以及咽喉部位疾病的诊断以及治疗有着重要的作用,现有对喉镜图像的诊断一般都需要专业的医生在原始图像中对各个区域进行仔细地检查,这对于医生来说是一个具有挑战性的任务,因为所有病变只能依靠医生肉眼观察,长时间的观察会引起医生注意力下降以及精神疲劳,从而导致医生在检查时产生漏判和误判以及诊断效率的降低。所以,急需一种有效的方法对喉镜图像进行理解,并依据是理解结果自动生成医学报告,从而提升喉镜图像的诊断效率以及诊断精度。
近年来,深度学习在图像处理和分析领域掀起了一阵热潮,在低层次的图像去噪、超分辨任务到高层次的图像检测与图像理解等任务中均有涉及。这种信息处理机制模仿了人类视觉神经系统,对图像处理和分析十分有效,已经有一些研究工作将深度学习应用到了医学图像理解方面,并且取得了不错的结果。
在医学图像理解的应用中,Eric P.Xing等人首先利用卷积神经网络CNN提取胸透图像特征,并用全连接层特征对图像做多标签分类,得到图像的高维特征,从而完成对图像的理解和特征表示,然后将特征以及多分类标签嵌入向量进行联合加权得到图像的联合特征,并使用双层长短期记忆网络LSTM对联合特征解码生成胸透图像的报告。Christy Y.Li等人也是利用CNN提取胸透图像特征完成对图像的理解,然后对图像理解过程得到的特征进行编码得到图像内容向量,之后使用循环神经网络RNN从内容向量循环得到话题向量,然后使用模板句生成图像报告或者使用堆叠RNN解码话题向量生成图像报告,最后通过报告的CIDEr分数作为奖励使用强化学习来实现网络的优化。
Yuan Xue等人使用多个角度的胸透图像得到识别特征向量,并据此并生成图像报告,即首先利用CNN对多个图像提取全连接特征与卷积层特征作为报告生成的特征向量,然后将多个图像的特征堆叠在一起输入到LSTM生成一句总体的描述,接下来利用双向LSTM将上一句描述编码为语义特征,与经过加权的图像特征一起输入到另一个LSTM循环得到整个图像报告。
上述这些算法都是针对X光图像的理解任务,目前仍没有针对光学图像理解和医学报告生成的方法;另一方面,这些算法普遍使用单个LSTM对注意力机制与图文融合建模,具有局限性,即使用单个LSTM模块同时完成注意力向量的获取和从图像特征映射到文本的任务,故无法有效地获取准确的注意力权重,限制了图像理解生成文本的准确性和可读性。
发明内容
本发明的目的在于针对上述现有技术的不足,提出一种基于双门控递归单元解码的喉镜图像识别方法,以准确有效地获取由光学喉镜图像特征生成的注意力权重,进而提高医学文本报告的准确性和可读性。
本发明的技术思路是:利用卷积神经网络CNN提取喉镜图像特征,通过使用第一门控递归单元得到注意力权重,通过使用第二门控递归单元解码加权过的图像特征得到图像报告,其实现步骤包括如下:
(1)获取患者的喉镜图像,记为喉镜数据集P,并取得对应喉镜图像的医学文本报告集合,记为Q;
(2)由医学文本报告集合Q获取标签数据集R:
(2a)对Q中所有报告进行分词操作得到词库,并对词库进行one-hot编码操作进而获取每个词的one-hot向量,并得到词语-one-hot编码映射矩阵D;
(2b)将报告中的每个词语使用对应的one-hot向量表示,得到标签数据集R;
(3)获取训练数据集T:
(3a)将喉镜数据集P中每张图像缩小到224×224,并对缩小后的每张图像中心化,使每个通道像素均值为0,从中心化后的喉镜图像中取出一张喉镜图像,记为Z,将剩余喉镜图像组成中心化后的喉镜数据集P';
(3b)将中心化后的喉镜数据集P'与标签数据集R进行合并,得到训练数据集T
(4)根据得到的训练数据集T,构造包括1个卷积神经网络和2个门控递归单元的双门控制循环网络M,且卷积网络的输出特征作为第一门控递归单元和第二门控递归单元的输入,第一门控递归单元用于提取注意力权重,第二门控递归单元使用卷积网络的输出和注意力权重获取喉镜数据集P'的输出;
将中心化后的喉镜数据集P'作为该双门控制循环网络M的输入,使用均匀分布初始化双门控制循环网络M的权重W,将双门控制循环网络M的偏置b均初始化为数值0,并将喉镜数据集P'对应的医学文本报告作为双门控制循环网络M的期望输出;
(5)使用训练数据集T,训练双门控制循环网络M:
(5a)打乱训练数据集T中图像的顺序,依次从训练数据集T中选择32个喉镜图像及其标签,记为一个训练批次{I,C},其中I为一个训练批次中的喉镜图像,C为与I对应的医学文本报告标签;
(5b)将喉镜图像I输入到双门控制循环网络M,经过双门控制循环网络M的前向传播得到喉镜图像I对应的输出O,计算输出O与医学文本报告标签C之间的交叉熵,得到双门控制循环网络M的损失函数L;
(5c)使用自适应学习率优化算法Adam优化双门控制循环网络M的损失函数L,即设初始学习速率为0.0001,使用误差反向传播机制对双门控制循环网络M的权重W和偏置b进行更新;
(5d)重复(4a)到(4c),直到达到最大迭代次数N=3000,得到训练好的双门控制循环网络M;
(6)利用训练好的双门控制循环网络M获得喉镜图像Z的医学文本报告:
(6a)将Z输入到训练好的双门控制循环网络M中,经过双门控制循环网络M中卷积神经网络的前向传播得到光学喉镜图像Z的特征;
(6b)将从双门控制循环网络M中卷积神经网络得到的光学喉镜图像Z的特征输入到双门控制循环网络M中的第一个门控递归单元,经过第一个门控递归单元的前向传播得到注意力权重;
(6c)将从双门控制循环网络M中卷积神经网络得到的光学喉镜图像Z的特征与注意力权重相乘后输入到双门控制循环网络M中的第二个门控递归单元,经过第二个门控递归单元的前向传播得到光学喉镜图像Z的输出O,并通过词语-one-hot编码映射矩阵D得到Z的医学文本报告。
本发明与现有技术相比具有以下优点:
1、本发明中的双门控制循环网络M使用光学喉镜图像及其对应的医学文本报告构成的数据集T进行训练和优化,解决了现有相关方法仅能应用于X光图像,无法应用于光学喉镜图像的问题;
2、本发明使用双GRU结构分别对注意力机制和图文融合模块进行建模。相对于现有方法,使用了一个专门的GRU获取注意力权重,能够提升获取到的注意力权重的有效性,从而提高生成文本的准确性和可读性;
附图说明
图1是本发明的实现总流程图;
图2是本发明中训练双门控制循环网络M使用的光学喉镜图像示例图;
图3是本发明中构建的双门控制循环网络M结构图;
图4是本发明实例中使用的光学喉镜图像样例图。
具体实施方式
以下结合附图,对本发明的具体实施方案和效果作进一步的解释和说明:
参照图1,本实例的实现步骤如下:
步骤1:数据准备。
1a)获取患者的光学喉镜图像,记为喉镜数据集P,如图2所示,并取得对应喉镜图像的医学文本报告集合,记为Q;
1b)由医学文本报告集合Q获取标签数据集R:
1b1)对Q中所有报告进行分词操作得到词库,并对词库进行one-hot编码操作进而获取每个词的one-hot向量,并得到词语-one-hot编码映射矩阵D;
1b2)将报告中的每个词语使用对应的one-hot向量表示,得到标签数据集R;
1c)获取训练数据集T:
1c1)将喉镜图像数据集P中每张图像缩小到224×224,并对缩小后的每张图像进行中心化处理,即对缩小后的图像的像素值减去(104,116,122),得到中心化后图像的像素值(x',y',z'):
(x',y',z')=(x-104,y-116,z-122)
其中,(x,y,z)为原始图像的像素值;
1c2)将缩小和中心化处理后的喉镜图像数据集P记为P',并将喉镜图像数据集P'与标签数据集R合并,得到训练数据集T。
步骤2:根据训练数据集T,构造双门控制循环网络M。
参照图3,该双门控制循环网络M包括13个卷积层、4个池化层和2个门控递归单元层,其结构关系为:第一卷积层→第二卷积层→第一池化层→第三卷积层→第四卷积层→第二池化层→第五卷积层→第六卷积层→第七卷积层→第三池化层→第八卷积层→第九卷积层→第十卷积层→第四池化层→第十一卷积层→第十二卷积层→第十三卷积层→第一门控递归单元层→第二门控递归单元层。
各层的参数设置如下:
所述4个池化层均为2×2最大池化,池化步长均为2×2;
所述13个卷积层的卷积核大小均为3×3,卷积步长均为1×1,激活函数均为修正线性单元ReLU,但卷积核的个数不同,其中:
第一卷积层、第二卷积层的卷积核个数均为64;
第三卷积层、第四卷积层的卷积核个数均为128;
第四卷积层、第五卷积层、第六卷积层的卷积核个数均为256;
第七卷积层、第八卷积层、第九卷积层、第十卷积层、第十一卷积层、第十二卷积层、第十三卷积层的卷积核个数均为512;
各层的输出计算如下:
A)计算卷积层的输出ψi
A1)计算卷积层的卷积输出Fi
Figure BDA0002654632410000051
其中,Fi表示卷积层的第i个输出,σj表示卷积层的第j个输入,
Figure BDA0002654632410000052
表示卷积层的第i个卷积核,bi表示卷积层第i个卷积核的偏置,n表示卷积层的输入个数,∑表示求和运算,
Figure BDA0002654632410000053
表示图像卷积运算;
A2)使用修正线性单元ReLU对卷积输出Fi进行非线性激活,得到ψi
Figure BDA0002654632410000054
其中,Fi表示卷积层的第i个输出;
B)计算门控递归单元层的输出O:
B1)定义双门控制循环网络M的参数:
E1,E2,...,Ei,...,E7
其中,Ei={Wi,bi}表示M中的一组权重值Wi和偏置值bi,i∈{1,2,3,4,5,6,7};
B2)计算门控递归单元在t时刻的更新权重μt
Figure BDA0002654632410000061
其中,xt为门控递归单元在t时刻的输入,e为自然底数,0≤t≤40;
B3)使用t时刻的更新权重ut,计算门控递归单元在t时刻的记忆状态ht
Figure BDA0002654632410000062
其中,ht-1为门控递归单元在t-1时刻的记忆状态,t=0时ht-1=h-1=0,·表示点乘;
B4)根据门控递归单元在t时刻的记忆状态ht,计算门控递归单元在t时刻的输出,Ot
Ot=argmax(softmax(E7ht)),
其中,E7为双门控制循环网络的第7组参数,ht为门控递归单元在t时刻的记忆状态,t表示时刻,0≤t≤40,e为自然底数,softmax(·)表示softmax函数;
B5)堆叠向量Ot,得到双门控制循环网络M的输出O:
O=[O1;O2;O3;…Ot;…O40],
其中,;表示向量的堆叠。
步骤3:对双门控制循环网络M的权重W和偏置b进行初始化。
3.1)使用均匀分布对双门控制循环网络M的权重W进行初始化,其公式如下:
Wi~U(-0.01,0.01)
其中,Wi表示双门控制循环网络M的第i组权重值,i∈{1,2,3,4,5,6,7},U(·,·)表示均匀分布,即双门控制循环网络M的权重W服从-0.01到0.01的均匀分布;
3.2)将双门控制循环网络M的偏置b初始化为数值0:
bi=0,
其中,bi表示双门控制循环网络M的第i组偏置值;
步骤4:使用训练数据集T,训练双门控制循环网络M。
4.1)打乱训练数据集T中图像的顺序,并依次从训练数据集T中选择32个光学喉镜图像及其对应的标签,记为一个训练批次{I,C},其中I为一个训练批次中的光学喉镜图像,作为双门控制循环网络M的输入;C为与I对应的标签,用以计算双门控制循环网络M的损失函数;
4.2)将光学喉镜图像I输入到双门控制循环网络M,经过双门控制循环网络M的前向传播得到光学喉镜图像I对应的输出O,计算输出O与光学喉镜图像I的标签C之间的交叉熵,得到双门控制循环网络M的损失函数L:
Figure BDA0002654632410000071
其中,C表示喉镜图像I的标签,O表示双门控制循环网络M针对喉镜图像I的输出,Clog(O)为输出O与标签C之间的交叉熵;
4.3)设初始学习速率η=0.0001,使用自适应学习率优化算法Adam优化双门控制循环网络M的损失函数L,即对双门控制循环网络M的权重W和偏置b进行更新,得到当前优化后的权重W'和偏置b':
Figure BDA0002654632410000072
Figure BDA0002654632410000073
其中,i∈{1,2,3,4,5,6,7},
Figure BDA0002654632410000074
表示Wi的梯度,
Figure BDA0002654632410000075
表示bi的梯度,·表示点乘;
4.4)重复4.1)到4.3),直到达到最大迭代次数N=3000,得到训练好的双门控制循环网络M。
步骤5:利用训练好的双门控制循环网络M获得喉镜图像Z的报告。
5.1)将如图4所示的光学喉镜图像Z输入到训练好的双门控制循环网络M中,经过双门控制循环网络M中卷积神经网络的前向传播,得到光学喉镜图像Z的特征;
5.2)将从双门控制循环网络M中卷积神经网络得到的光学喉镜图像Z的特征输入到双门控制循环网络M中的第一个门控递归单元,经过第一个门控递归单元的前向传播得到注意力权重A;
5.3)将从双门控制循环网络M中卷积神经网络得到的光学喉镜图像Z的特征与注意力权重A相乘后输入到双门控制循环网络M中的第二个门控递归单元,经过第二个门控递归单元的前向传播得到双门控制循环网络M对于光学喉镜图像Z的输出Oz
5.4)依据双门控制循环网络M对于光学喉镜图像Z的输出Oz和1b1)中获取的词语-one-hot编码映射矩阵D,得到光学喉镜图像Z的医学报告:
词语-one-hot编码映射矩阵D,表示标签数据集R中任一词语和其对应的one-hot编码的一对一映射关系;
双门控制循环网络M对于光学喉镜图像Z的输出Oz=[Oz1;Oz1;Oz3;...;Ozt;...;Oz40],1≤t≤40中的任一Ozt表示一个词语的one-hot编码,通过词语-one-hot编码映射矩阵D可将Ozt转换为其对应的词语Vzt,堆叠Vzt即可得到光学喉镜图像Z的医学文本报告。
本实例得到的医学文本报告为:“左声带边缘平整,右声带可见不光滑肿物”。
以上描述仅是本发明的一个具体实例,不构成对本发明的任何限制,显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都可能在不背离本发明原理、结构的情况下,进行形式和细节上的各种修正和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims (6)

1.一种基于双门控制循环单元解码的喉镜图像识别方法,其特征在于,包括如下:
(1)获取患者的喉镜图像,记为喉镜数据集P,并取得对应喉镜图像的医学文本报告集合,记为Q;
(2)由医学文本报告集合Q获取标签数据集R:
(2a)对Q中所有报告进行分词操作得到词库,并对词库进行one-hot编码操作进而得到每个词的one-hot向量,并得到词语one-hot编码映射矩阵D;
(2b)将报告中的每个词语使用对应的one-hot向量表示,得到标签数据集R;
(3)获取训练数据集T:
(3a)将喉镜数据集P中每张图像缩小到224×224,并对缩小后的每张图像进行中心化,使每个通道像素均值为0,再从中心化后的喉镜图像中取出一张喉镜图像,记为Z,将P中剩余喉镜图像组成中心化后的喉镜数据集,记为P';
(3b)将中心化后的喉镜数据集P'与标签数据集R进行合并,得到训练数据集T;
(4)构建双门控制循环网络M并进行初始化:
构造包括1个卷积神经网络和2个门控递归单元的双门控制循环网络M,卷积网络的输出特征作为第一门控递归单元和第二门控递归单元的输入,第一门控递归单元用于提取注意力权重,第二门控递归单元使用卷积网络的输出和注意力权重获取喉镜数据集P'的输出;
将中心化后的喉镜数据集P'作为该双门控制循环网络M的输入,使用均匀分布初始化双门控制循环网络M的权重W,将双门控制循环网络M的偏置b均初始化为数值0,
将中心化后的喉镜数据集P'对应的医学报告作为双门控制循环网络M的期望输出;
(5)使用训练数据集T,训练双门控制循环网络M:
(5a)打乱训练数据集T中图像的顺序,从中选择32个喉镜图像及其标签,记为一个训练批次{I,C},其中I为一个训练批次中的喉镜图像,C为与I对应的医学文本报告标签;
(5b)将喉镜图像I输入到双门控制循环网络M,经过双门控制循环网络M的前向传播得到喉镜图像I对应的输出O,计算输出O与医学文本报告标签C之间的交叉熵,得到双门控制循环网络M的损失函数L;
(5c)使用自适应学习率优化算法Adam优化双门控制循环网络M的损失函数L,即设初始学习速率η=0.0001,使用误差反向传播机制对双门控制循环网络M的权重W和偏置b进行更新;
(5d)重复(5a)到(5c),直到达到最大迭代次数N=3000,得到训练好的双门控制循环网络M;
(6)利用训练好的双门控制循环网络M获得测试数据喉镜图像Z的报告:
(6a)将测试数据喉镜图像Z输入到训练好的双门控制循环网络M中,经过双门控制循环网络M中卷积神经网络的前向传播,得到光学喉镜图像Z的特征向量S;
(6b)将光学喉镜图像Z的特征输入到双门控制循环网络M中的第一个门控递归单元进行前向传播,得到注意力权重A;
(6c)将光学喉镜图像Z的特征向量S与注意力权重A相乘后,输入到双门控制循环网络M中的第二个门控递归单元进行前向传播,得到光学喉镜图像Z的医学报告的输出O,并依据词语one-hot编码转换映射矩阵D得到Z的医学文本报告;
(6d)根据输出O和(2a)中获取的词语one-hot编码映射矩阵D,得到光学喉镜图像Z的医学文本报告。
2.根据权利要求1所述的方法,其中步骤(3a)中对缩小后的每张图像中心化,是用缩小后图像每个点的像素值减去(104,116,122),得到中心化后图像的像素值(x',y',z'):
(x',y',z')=(x-104,y-116,z-122)
其中,(x,y,z)为原始图像的像素值。
3.根据权利要求1所述的方法,其中(4)中构造的双门控制循环网络M,包括13个卷积层、4个池化层和2个门控递归单元层,其结构关系为:第一卷积层→第二卷积层→第一池化层→第三卷积层→第四卷积层→第二池化层→第五卷积层→第六卷积层→第七卷积层→第三池化层→第八卷积层→第九卷积层→第十卷积层→第四池化层→第十一卷积层→第十二卷积层→第十三卷积层→第一门控递归单元层→第二门控递归单元层;
该4个池化层均为2×2最大池化,池化步长均为2×2;
该13个卷积层的卷积核大小均为3×3,卷积步长均为1×1,激活函数均为修正线性单元ReLU;
该第一卷积层、第二卷积层的卷积核个数均为64;
该第三卷积层、第四卷积层的卷积核个数均为128;
该第五卷积层、第六卷积层的卷积核个数均为256;
该第七卷积层、第八卷积层、第九卷积层、第十卷积层、第十一卷积层、第十二卷积层、第十三卷积层的卷积核个数均为512。
4.根据权利要求1所述的方法,对(4)中使用的双门控制循环网络M的权重W和b进行初始化,其公式如下:
Wi~U(-0.01,0.01)
bi=0
其中,Wi表示双门控制循环M的一组权重值,bi表示双门控制循环网络M的一组偏置值,i∈{1,2,3,4,5,6,7},U(·,·)表示均匀分布,即双门控制循环网络M的权重W服从-0.01到0.01的均匀分布。
5.根据权利要求1所述的方法,其中(5b)中输出O与标签C之间的交叉熵,得到双门控制循环网络M的损失函数L,其公式如下:
Figure FDA0004134953000000031
其中,C表示输入喉镜图像I的标签,O表示双门控制循环网络M针对喉镜图像I的输出,Clog(O)为输出O与医学文本报告标签C之间的交叉熵。
6.根据权利要求1所述的方法,其中(5c)中使用自适应学习率优化算法Adam优化双门控制循环网络M的损失函数L,设置初始学习率η=0.0001,对双门控制循环网络M的权重W和偏置b进行更新,得到当前优化后的权重W'和偏置b':
Figure FDA0004134953000000032
Figure FDA0004134953000000033
其中,i∈{1,2,3,4,5,6,7},
Figure FDA0004134953000000034
表示Wi的梯度,
Figure FDA0004134953000000035
表示bi的梯度,·表示点乘。
CN202010882806.3A 2020-08-28 2020-08-28 基于双门控递归单元解码的喉镜图像识别方法 Active CN112052889B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010882806.3A CN112052889B (zh) 2020-08-28 2020-08-28 基于双门控递归单元解码的喉镜图像识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010882806.3A CN112052889B (zh) 2020-08-28 2020-08-28 基于双门控递归单元解码的喉镜图像识别方法

Publications (2)

Publication Number Publication Date
CN112052889A CN112052889A (zh) 2020-12-08
CN112052889B true CN112052889B (zh) 2023-05-05

Family

ID=73606458

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010882806.3A Active CN112052889B (zh) 2020-08-28 2020-08-28 基于双门控递归单元解码的喉镜图像识别方法

Country Status (1)

Country Link
CN (1) CN112052889B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112614561A (zh) * 2020-12-24 2021-04-06 北京工业大学 一种基于层级自注意力序列编码的脑ct医学报告生成方法
CN113627424B (zh) * 2021-07-14 2023-09-12 重庆师范大学 一种协同门控循环融合lstm图像标注方法
CN117274185B (zh) * 2023-09-19 2024-05-07 阿里巴巴达摩院(杭州)科技有限公司 检测方法、检测模型产品、电子设备及计算机存储介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017151757A1 (en) * 2016-03-01 2017-09-08 The United States Of America, As Represented By The Secretary, Department Of Health And Human Services Recurrent neural feedback model for automated image annotation
WO2017215284A1 (zh) * 2016-06-14 2017-12-21 山东大学 基于卷积神经网络的胃肠道肿瘤显微高光谱图像处理方法
CN108009154A (zh) * 2017-12-20 2018-05-08 哈尔滨理工大学 一种基于深度学习模型的图像中文描述方法
CN108830287A (zh) * 2018-04-18 2018-11-16 哈尔滨理工大学 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN109492679A (zh) * 2018-10-24 2019-03-19 杭州电子科技大学 基于注意力机制与联结时间分类损失的文字识别方法
CN109726696A (zh) * 2019-01-03 2019-05-07 电子科技大学 基于推敲注意力机制的图像描述生成系统及方法
CN109919174A (zh) * 2019-01-16 2019-06-21 北京大学 一种基于门控级联注意力机制的文字识别方法
WO2019139430A1 (ko) * 2018-01-11 2019-07-18 네오사피엔스 주식회사 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
EP3567605A1 (en) * 2018-05-08 2019-11-13 Siemens Healthcare GmbH Structured report data from a medical text report
CN110610489A (zh) * 2019-08-30 2019-12-24 西安电子科技大学 基于注意力机制的光学喉镜图像病变区标注方法
WO2020024646A1 (en) * 2018-07-31 2020-02-06 Tencent Technology (Shenzhen) Company Limited Monaural multi-talker speech recognition with attention mechanism and gated convolutional networks
CN111027562A (zh) * 2019-12-06 2020-04-17 中电健康云科技有限公司 基于多尺度cnn和结合注意力机制的rnn的光学字符识别方法
CN111275118A (zh) * 2020-01-22 2020-06-12 复旦大学 基于自我修正式标签生成网络的胸片多标签分类方法
CN111291534A (zh) * 2020-02-03 2020-06-16 苏州科技大学 面向中文长文本自动摘要的全局编码方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10867595B2 (en) * 2017-05-19 2020-12-15 Baidu Usa Llc Cold fusing sequence-to-sequence models with language models

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017151757A1 (en) * 2016-03-01 2017-09-08 The United States Of America, As Represented By The Secretary, Department Of Health And Human Services Recurrent neural feedback model for automated image annotation
WO2017215284A1 (zh) * 2016-06-14 2017-12-21 山东大学 基于卷积神经网络的胃肠道肿瘤显微高光谱图像处理方法
CN108009154A (zh) * 2017-12-20 2018-05-08 哈尔滨理工大学 一种基于深度学习模型的图像中文描述方法
WO2019139430A1 (ko) * 2018-01-11 2019-07-18 네오사피엔스 주식회사 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
CN108830287A (zh) * 2018-04-18 2018-11-16 哈尔滨理工大学 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
EP3567605A1 (en) * 2018-05-08 2019-11-13 Siemens Healthcare GmbH Structured report data from a medical text report
WO2020024646A1 (en) * 2018-07-31 2020-02-06 Tencent Technology (Shenzhen) Company Limited Monaural multi-talker speech recognition with attention mechanism and gated convolutional networks
CN109492679A (zh) * 2018-10-24 2019-03-19 杭州电子科技大学 基于注意力机制与联结时间分类损失的文字识别方法
CN109726696A (zh) * 2019-01-03 2019-05-07 电子科技大学 基于推敲注意力机制的图像描述生成系统及方法
CN109919174A (zh) * 2019-01-16 2019-06-21 北京大学 一种基于门控级联注意力机制的文字识别方法
CN110610489A (zh) * 2019-08-30 2019-12-24 西安电子科技大学 基于注意力机制的光学喉镜图像病变区标注方法
CN111027562A (zh) * 2019-12-06 2020-04-17 中电健康云科技有限公司 基于多尺度cnn和结合注意力机制的rnn的光学字符识别方法
CN111275118A (zh) * 2020-01-22 2020-06-12 复旦大学 基于自我修正式标签生成网络的胸片多标签分类方法
CN111291534A (zh) * 2020-02-03 2020-06-16 苏州科技大学 面向中文长文本自动摘要的全局编码方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
A Multi-scale Convolutional Attention Based GRU Network for Text Classification;Xianlun Tang 等;《2019 Chinese Automation Congress (CAC)》;20200213;3009-3013 *
Chinese Text Sentiment Analysis Based on BI-GRU and Self-attention;Yaxing Pan 等;《2020 IEEE 4th Information Technology, Networking, Electronic and Automation Control Conference (ITNEC)》;20200504;1983-1988 *
Multimodal recurrent model with attention for automated radiology report generation;Xue Y 等;《International Conference on Medical Image Computing and》;20181231;457-466 *
Novel Fault Location Method for Power Systems Based on Attention Mechanism and Double Structure GRU Neural Network;Fan Zhang 等;《IEEE Access 》;20200420;第8卷;75237-75248 *
基于GRU-Attention的中文文本分类;孙明敏;《现代信息科技》;20191231;第3卷(第3期);10-12 *
改进的深度学习算法在中文文本分类中的应用;汪明静;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200715;第2020年卷(第7期);I138-1564 *

Also Published As

Publication number Publication date
CN112052889A (zh) 2020-12-08

Similar Documents

Publication Publication Date Title
CN112052889B (zh) 基于双门控递归单元解码的喉镜图像识别方法
CN109471895B (zh) 电子病历表型抽取、表型名称规范化方法及系统
CN108171198B (zh) 基于非对称多层lstm的连续手语视频自动翻译方法
CN111462896B (zh) 一种基于病案的实时智能辅助icd编码系统和方法
CN110610489B (zh) 基于注意力机制的光学喉镜图像病变区标注方法
CN112487820B (zh) 一种中文医疗命名实体识别方法
CN108563624A (zh) 一种基于深度学习的自然语言生成方法
CN109871538A (zh) 一种中文电子病历命名实体识别方法
CN109697285A (zh) 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法
CN109933808B (zh) 一种基于动态配置解码的神经机器翻译方法
CN109492202A (zh) 一种基于拼音的编码与解码模型的中文纠错方法
CN112561064B (zh) 基于owkbc模型的知识库补全方法
CN115331769B (zh) 基于多模态融合的医学影像报告生成方法及装置
CN110837736B (zh) 一种基于字结构的中文医疗记录的命名实体识别方法
CN110909736A (zh) 一种基于长短期记忆模型与目标检测算法的图像描述方法
CN111460824A (zh) 一种基于对抗迁移学习的无标注命名实体识别方法
CN114944213A (zh) 基于记忆驱动的Transformer医学内窥镜图像报告生成方法
CN113516152B (zh) 一种基于复合图像语义的图像描述方法
CN113946685B (zh) 一种融合规则和深度学习的渔业标准知识图谱构建方法
CN111402974A (zh) 一种基于深度学习的电子病历icd自动编码方法
CN114781382A (zh) 基于rwlstm模型融合的医疗命名实体识别系统及方法
CN113191150B (zh) 一种多特征融合的中文医疗文本命名实体识别方法
CN114359656A (zh) 一种基于自监督对比学习的黑色素瘤图像识别方法和存储设备
CN110188791A (zh) 基于自动估计的视觉情感标签分布预测方法
CN113035303A (zh) 一种中文电子病历的命名实体类别标注方法与系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant