CN111048170A

CN111048170A - 基于图像识别的消化内镜结构化诊断报告生成方法与系统

Info

Publication number: CN111048170A
Application number: CN201911338816.4A
Authority: CN
Inventors: 冯建; 左秀丽; 戚庆庆; 赖永航; 李延青; 李�真; 杨晓云; 邵学军; 辛伟
Original assignee: Qingdao Medcare Digital Engineering Co ltd; Qilu Hospital of Shandong University
Current assignee: Qingdao Medcare Digital Engineering Co ltd; Qilu Hospital of Shandong University
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2020-04-21
Anticipated expiration: 2039-12-23
Also published as: CN111048170B

Abstract

本发明公开了一种基于图像识别的消化内镜结构化诊断报告生成方法与系统，所述方法包括以下步骤：获取消化道内镜操作过程中采集的视频数据；根据所述视频数据，针对各视频帧进行当前部位识别和病灶识别；根据识别出的部位和病灶，结合医学知识库，生成相应的描述文本添加到结构化模板中，得到诊断报告。本发明能够基于内镜检查的视频自动生成自然语言描述文本得到结构化的诊断报告，提高诊断报告标准化、规范化程度，提高医师工作效率。

Description

基于图像识别的消化内镜结构化诊断报告生成方法与系统

技术领域

本发明属于人工智能技术领域，尤其涉及一种基于图像识别的消化内镜结构化诊断报告生成方法与系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

目前临床应用的消化内镜诊断报告系统，给医师提供诊断报告书写功能。诊断的形成过程，由内镜医师根据检查过程的情况主观判断形成；诊断报告的书写过程，由医师主动操作计算机鼠标、键盘等输入设备完成。

但是，医师的主观判断，容易随着医师的水平、工作状态等因素的变化，造成诊断描述的遗漏。医师主动操作计算机输入设备书写诊断报告，需要花费大量的时间，效率不高。医生根据主观判断并通过操作计算机输入设备书写诊断报告，难以实现内镜描述及诊断的标准化、规范化，不利于患者在不同医院之间的就诊、随访等。

发明内容

为克服上述现有技术的不足，本发明提供了一种基于图像识别的消化内镜结构化诊断报告生成方法与系统。能够基于内镜检查的视频自动生成自然语言描述文本得到结构化的诊断报告，提高诊断报告标准化、规范化程度，提高医师工作效率。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

一种基于图像识别的消化内镜结构化诊断报告生成方法，包括以下步骤：

获取消化道内镜操作过程中采集的视频数据；

根据所述视频数据，针对各视频帧进行当前部位识别和病灶识别；

根据识别出的部位和病灶，结合医学知识库，生成相应的描述文本添加到结构化模板中，得到诊断报告。

进一步地，采用预先构建的消化道部位识别模型对视频帧进行当前部位识别，所述模型构建方法包括：

获取消化道部位图像并标注出待识别部位；

利用训练集训练消化道部位识别模型；其中，所述消化道部位识别模型基于InceptionResNet V2神经网络进行训练。

进一步地，采用预先构建的病灶识别模型对视频帧进行病灶识别，所述模型构建方法包括：

获取多幅包含已知消化道病灶的消化道图像，并对已知消化道病灶区域进行标注；

根据标注后的训练图像训练消化道病灶识别模型；其中，所述消化道病灶识别模型基于YOLO v3神经网络进行训练。

进一步地，所述医学知识库包括医学术语集和各类疾病的知识图谱。

进一步地，还获取操作者的语音数据；

对所述语音数据进行语音识别，结合医学术语库得到与医学相关的关键词；

根据识别出的部位和病灶，和基于语音识别得到的关键词，结合医学知识库，生成相应的描述文本添加到结构化模板中，得到诊断报告。

进一步地，所述各类疾病的知识图谱构建方法包括：

基于该类疾病的医学术语集，形成命名实体列表；

获取大量历史诊断报告，提取其中的描述文本并规范化为命名实体描述；

将命名实体描述关联语义表达文本，将每个命名实体、命名实体之间的关系以及所述命名实体对应的描述文字以知识图谱的形式存储。

进一步地，所述生成相应的描述文本添加到结构化模板中包括：

若针对当前视频帧识别出了病灶，对当前视频帧进行语义理解，得到实体命名描述；

根据通过图像识别得到的部位和病灶信息，以及通过语音识别得到的关键词，完善实体命名描述；

根据完善后的实体命名描述，查询知识图谱，得到相关描述文字填充到结构化诊断报告中。

一个或多个实施例提供了一种基于图像识别的消化内镜结构化诊断报告生成系统，包括：

内镜图像获取模块，获取消化道内镜操作过程中采集的视频数据；

当前部位识别模块，根据所述视频数据，针对各视频帧进行当前部位识别；

病灶识别模块，根据所述视频数据，针对各视频帧进行病灶识别；

结构化报告生成模块，根据识别出的部位和病灶，结合医学知识库，生成相应的描述文本添加到结构化模板中，得到诊断报告。

一个或多个实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述基于图像识别的消化内镜结构化诊断报告生成方法。

一个或多个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述基于图像识别的消化内镜结构化诊断报告生成方法。

以上一个或多个技术方案存在以下有益效果：

本发明的结构化报告生成方法及系统可以避免由医师主观判断因素造成的诊断描述遗漏、不标准、不规范等情况；可以提高诊断报告标准化、规范化程度；可以大幅度减少医师的诊断报告书写工作量，提高医师工作效率；使得医师可以更专注于对患者的医疗行为，从而给患者更好的医疗服务；可以更好地对患者进行随访等临床工作。

本发明的结构化报告生成方法及系统以内镜检查操作过程中的视频和操作者语音为基础，提取部位、病灶位置、病灶特征等命名实体，同时，还基于多模态语义理解方法基于病灶图像进行语义理解，得到更全面的命名实体，结合知识图谱能够准确地针对本次检查生成描述文本。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例一中基于图像识别的消化内镜结构化诊断报告生成方法流程图。

图2为本发明实施例四中基于图像识别的消化内镜结构化诊断报告生成过程结构示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

如图1所示，本实施例公开了一种基于图像识别的消化内镜结构化诊断报告生成方法，包括以下步骤：

步骤1：获取消化道内镜操作过程中采集的视频数据，以及操作者的语音数据；

上述视频数据和语音数据均是内窥镜操作过程中获取的，通过时间进行关联。

步骤2：根据所述视频数据，针对各视频帧进行当前部位识别和病灶识别；根据所述语音数据进行语音识别；

(1)对视频帧进行当前部位识别的方法包括：

(1.1)构建训练集

收集胃镜和肠镜各部位的图片，筛选消化道部位图像并标注出待识别类别和识别干扰图像的辅助类别构建出训练集，每个部位至少收集500张图像，按照6：2：2方式随机划分成训练集、验证集和测试集。其中，待识别类别包括一级类别及二级类别，二级类别属于一级类别的子类别；

具体地，以下消化道为例，一级类别包括回盲瓣、结肠、乙状结肠和直肠；二级类别属于结肠的子分类，包括升结肠、横结肠和降结肠；辅助类别为预设干扰图像类别，用于排除干扰图像；所述辅助类别包括阑尾开口、积液、镜头与肠壁距离小于预设值、镜头被遮挡、肠腔收缩、肠腔不完整和模糊。由于消化道图像背景单一且容易受特殊因素干扰，增加辅助类别有利于排除干扰，更准确的筛选有效图像。

为了覆盖下消化道检查过程中所有情况，例如具体分类如表1所示：

表1图像分类及选图原则

其中，肠腔因吸气或充气不良，以及肠腔充气良好，可根据肠腔内的气量多少来判断。

一级类别为初步判断，二级类别是因升、横、降结肠相似度过高，需使用细粒度分类网络二次判断，以提高识别准确率。

(1.2)利用训练集训练消化道部位识别模型

消化道部位识别模型包括消化道部位识别模型A和消化道部位识别模型B；其中，消化道部位识别模型A用于识别一级类别和辅助类别，消化道部位识别模型B用于识别二级类别；

具体地，消化道部位识别模型A采用深度学习框架Keras应用模块提供的图像分类模型；通过细粒度分类网络DFL-CNN，使用多分支结构同时利用训练集中的下消化道内窥镜图像的局部信息和全局信息，并对局部区域进行特征监督的方式进行训练，得到消化道部位识别模型B。

其中，Keras是一种高度模块化，由纯Python编写而成并以Tensorflow、 Theano以及CNTK为后端。Keras为支持快速实验而生。Keras将模型可理解为一个层的序列或数据的运算图，完全可配置的模块可以用最少的代价自由组合在一起，而且还具有易扩展性。当然，也可采用InceptionResNet V2，指定初始的学习率、批次的大小、训练停止的条件。

对于细粒度分类网络DFL-CNN(Learning a Discriminative Filter Bankwithin a CNN)：对于细粒度分类，全局信息也是至关重要的。所以需要一条分支解码全局信息。即普通conv+fc层。然后选取适当的一个较高层卷积，分出另外一条分支进行mid-level能力加强，关注局部信息。其能够准确定位到具有分辨力的关键区域，以及从检测到的关键区域中提取有效特征进行分类。

(1.3)基于消化道部位识别模型，判断视频帧所对应的当前部位。

基于消化道部位识别模型A和消化道部位识别模型B对消化道内镜图像进行实时检测，排除属于辅助类别的图像，若存在连续N张非相似图像均为同一类别的概率超过预设阈值，则输出图像所属的一级类别和二级类别，进而确定出内镜所在准确部位，其中，N为大于或等于3的正整数。

作为一种具体实施方式，判断图像为非相似图像的过程为：

通过均值哈希算法生成哈希序列并计算汉明距离，当汉明距离大于所设汉明距离阈值时，则判断图像为非相似图像。

相似度计算逻辑，通过均值哈希算法生成哈希序列并计算汉明距离，当汉明距离大于所设阈值时，则判断图像为非相似图像。相关算法如下：

(a)均值哈希算法

缩放：图片缩放为8*8，保留结构，除去细节。

灰度化：转换为256阶灰度图。

求平均值：计算灰度图所有像素的平均值。

比较：像素值大于平均值记作1，相反记作0，总共64位。

生成hash：将上述步骤生成的1和0按顺序组合。

(b)汉明距离计算

汉明距离/Hamming Distance用来计算两个向量的相似度；即通过比较向量每一位是否相同，若不同则汉明距离加1，这样得到汉明距离。向量相似度越高，对应的汉明距离越小。如10001001和10110001有3位不同。

(2)对视频帧进行病灶识别的方法包括：

将内镜操作过程中实时获取的消化道部位图像输入至消化道病灶区域识别模型，识别病灶区域并进行标注。

(2.1)构建病灶训练集

获取多幅包含已知消化道病灶的消化道部位图像，并对已知消化道病灶区域进行标注，得到病灶训练集。每种病灶至少收集500张图像，按照6： 2：2方式随机划分成训练集、验证集和测试集。

(2.2)训练消化道病灶区域识别模型

指定已有的网络模型架构，或搭建自定义网络模块架构；接收模型训练参数，根据标注后的训练图像训练消化道病灶区域识别模型。

作为一种实施方式，所述已有的网络模型架构采用YOLO v3神经网络。

利用其具有较高的检测准确度且检测速度快的特点，可以满足电子胃镜实时检查的需求。

在这里设置学习率为0.9，权值衰减系数为0.0005，训练最大批次为 50000次，避免训练出现过拟合现象。作为另一种实施方式，所述自定义网络模块架构为：在YOLO v3神经网络基础上，将darknet中的残差块替换为Fire模块。

训练模型提出一种自定义的darknet-squeeze神经网络模型，构建了 one-stage的目标检测框架YOLO-Squeeze。该模型在YOLO v3神经网络模型的darknet-53的backbone基础上，引入SqueezeNet的想法，构建了权衡推断速度和推断精度的backbone，称为darknet-squeeze。

在YOLO v3中，大部分计算资源都花费于darknet-53上，darknet-53由残差块构成，其由1个1x1和1个3×3卷积层和跳连接(skip connection) 组成同时使用类似于SSD的算法在不同的卷积层做推断。尽管darknet-53 实现了很强的性能，但在参数数量和推理时间方面却很耗时，在大图上依然满足不了实时推断的要求。而YOLO-Squeeze探索了一种减少每像素处理量的替代方法。具体地，YOLO-Squeeze将残差块替换为SqueezeNet中的Firemodule，Fire module由两层构成，分别是squeeze层和expand层， squeeze层是一个1X1卷积核的卷积层，expand层是1X1和3X3卷积核的卷积层，expand层中，把1X1和3X3得到的feature map进行concat。

除此之外还借鉴了目标定位损失函数GIoU作为胃早癌病灶检测的检测框的损失函数，GIoU(generalized IoU)与传统的IoU不同，其定义如下：

其中C是包含A和B的最小凸形状。

目标检测中目前大部分的算法仍然采用L1或L2范数作为检测边界框的损失，但这种损失不能很好的度量真实边界框与预测边界框的重叠程度，而IoU作为损失函数在目标检测中也时常出现，但是IoU有个致命的缺点，当真实标注框与预测标注框不重叠时其损失函数为0，此时模型在训练过程中不能更新参数，而GIoU很好的解决了这些问题，本实施例在训练过程中采用了GIoU作为标注框预测的损失函数。

上述darknet-squeeze网络模型，通过引入SqueezeNet中的Fire模型，简化了网络结构，减小了运算量，提高了模型的实时性；通过在目标检测中引入GIoU，保证了目标的检测精度。

训练过程同YOLO v3的训练过程相同。

(2.3)对视频帧进行病灶区域识别

在具体实施中，当出现识别区域重叠的问题时，实际上识别出的是同一个病灶区域，这里加入逻辑判断，如果两个矩形框的面积重叠率超过预设比例(比如：40％)，去除重叠的那个矩形框。

(3)根据所述语音数据进行语音识别包括：

将语音转换成文本，采用自然语音处理方法提取关键词，并获取各关键词出现的时间。

本实施例中，采用语音识别模型(CNN-BILSTM-CTC)进行语音识别，基于医学语料库提取与医学检查过程相关的关键词。

步骤3：根据检查部位、病灶和语音识别结果，结合医学知识库，生成相应的描述文本添加到结构化模板中，得到诊断报告。

其中，医学知识库包含：多种医学术语集、各类疾病的知识图谱，以关系型数据库或图数据库的形式存储，可基于现有的关系型数据库和图数据库检索方法进行数据的查找和匹配。本实施例的医学术语集包含但不限于：《电子病历基本数据集》(中华人民共和国卫生行业标准 WS445.1-2014)、《消化内镜术语集》(中国消化内镜诊治用语标准联合专家委员会编订)、ICD 10、ICD 11、《MINIMAL STANDARD TERMINOLOGY FOR GASTROINTESTINALENDOSCOPY》(世界消化内镜组织WEO编订)。本实施例的疾病知识图谱包含但不限于：胃癌知识图谱、食管癌知识图谱、结直肠癌知识图谱、消化道常见疾病知识图谱。

为了构建命名实体与知识图谱之间的关联，本实施例首先构建了命名实体描述规范，所述规范包括部位、病灶类型、形状、病灶周围情形等。

其中，各类疾病的知识图谱构建方法包括：

基于该类疾病的医学术语集，形成命名实体列表；

本实施例引入知识库问答技术进行知识图谱的查询，具体地，所述步骤3具体包括：

步骤3.1：若针对当前视频帧识别出了病灶，基于多模态语义理解模型，对当前视频帧进行语义理解，得到实体命名描述；

其中，所述多模态语义理解模型基于自建的语料库及内镜图像标注数据构建。本实施例采用图像文本描述(Image Caption)模型。具体地，获取大量历史诊断报告，提取其中的描述文本并规范化为命名实体描述，将标注后的内镜图像和相应的命名实体描述作为训练集，训练多模态语义理解模型。

通过语义理解并不能得到全面的实体命名，例如，可能仅得到病灶形状、病灶周围情形等，还需进一步对命名实体描述进行完善。

步骤3.2：根据通过图像识别得到的部位和病灶信息，以及通过语音识别得到的关键词，完善实体命名描述；

步骤3.3：根据完善后的实体命名描述，查询知识图谱，得到相关描述文字填充到结构化诊断报告中。

具体地，本实施例还根据相关描述文字，采用文本生成模型(seq2seq, Bert)生成自然语言描述文本。

实施例二

本实施例的目的是提供一种基于图像识别的消化内镜结构化诊断报告生成系统，包括：

操作者语音获取模块，获取消化道内镜操作过程中操作者的语音数据；

语音关键词识别模块，根据语音数据识别与医学相关的关键词；

结构化报告生成模块，根据识别出的部位和病灶，以及关键词，结合医学知识库，生成相应的描述文本添加到结构化模板中，得到诊断报告。

实施例三

本实施例的目的是提供一种电子设备。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤，包括：

获取消化道内镜操作过程中采集的视频数据和操作者的语音数据；

根据语音数据识别与医学相关的关键词；

根据识别出的部位和病灶，以及关键词，结合医学知识库，生成相应的描述文本添加到结构化模板中，得到诊断报告。

实施例四

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行以下步骤：

根据语音数据识别与医学相关的关键词；

以上实施例二、三和四中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本发明报告的生成综合了内镜影像识别、医学知识库查询、现场语音识别等技术，基于检查过程中的内镜图像进行部位、病灶的识别，然后通过计算机智能算法，将与证据图像对应的医学诊断知识进行结构化处理、组合，形成消化内镜结构化诊断报告；在诊断报告结构化信息的基础上，依据后台知识库，自动计算、生成结构化信息对应的自然描述语言。使用 Rasa框架进行融合自然语言理解(NLU)和报告生成(自然语言生成NLG)，其具体报告生成过程结构示意图如图2所示。最终生成该次检查关关键词，主题及命名实体关系和对应的检查结果描述，这些文本信息通过后台自动匹配查找医学知识库对知识库进行自动填充和修改，进而完成诊断报告的自动生成。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于图像识别的消化内镜结构化诊断报告生成方法，其特征在于，包括以下步骤：

获取消化道内镜操作过程中采集的视频数据；

2.如权利要求1所述的一种基于图像识别的消化内镜结构化诊断报告生成方法，其特征在于，采用预先构建的消化道部位识别模型对视频帧进行当前部位识别，所述模型构建方法包括：

获取消化道部位图像并标注出待识别部位；

3.如权利要求1所述的一种基于图像识别的消化内镜结构化诊断报告生成方法，其特征在于，采用预先构建的病灶识别模型对视频帧进行病灶识别，所述模型构建方法包括：

4.如权利要求1所述的一种基于图像识别的消化内镜结构化诊断报告生成方法，其特征在于，所述医学知识库包括医学术语集和各类疾病的知识图谱。

5.如权利要求4所述的一种基于图像识别的消化内镜结构化诊断报告生成方法，其特征在于，还获取操作者的语音数据；

6.如权利要求4所述的一种基于图像识别的消化内镜结构化诊断报告生成方法，其特征在于，所述各类疾病的知识图谱构建方法包括：

基于该类疾病的医学术语集，形成命名实体列表；

7.如权利要求6所述的一种基于图像识别的消化内镜结构化诊断报告生成方法，其特征在于，所述生成相应的描述文本添加到结构化模板中包括：

8.一种基于图像识别的消化内镜结构化诊断报告生成系统，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述基于图像识别的消化内镜结构化诊断报告生成方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述基于图像识别的消化内镜结构化诊断报告生成方法。