CN113705546A

CN113705546A - 干扰类别识别模型训练方法、识别方法、装置及电子设备

Info

Publication number: CN113705546A
Application number: CN202111259686.2A
Authority: CN
Inventors: 张阔; 胡珊; 于红刚
Original assignee: Wuhan Endoangel Medical Technology Co Ltd
Current assignee: Wuhan Endoangel Medical Technology Co Ltd
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2021-11-26

Abstract

本申请提供一种干扰类别识别模型训练方法、识别方法、装置及电子设备，训练方法包括：获取消化内镜检查的视频样本集，所述视频样本集中的各视频片段标注有标注干扰类别；通过预设初始模型对所述视频片段对进行训练，得到所述视频片段的预测干扰类别；根据所述标注干扰类别和所述预测干扰类别对所述预设初始模型的参数进行修正，得到干扰类别识别模型。采用本方法，通过消化内镜检查的视频样本训练干扰类别识别模型，通过干扰类别识别模型识别干扰行为无需人工参与，同时准确率更高。

Description

干扰类别识别模型训练方法、识别方法、装置及电子设备

技术领域

本申请涉及人工智能技术领域，具体涉及一种干扰类别识别模型训练方法、识别方法、装置及电子设备。

背景技术

恶性肿瘤是我国居民健康的重要杀手之一，而食管、胃肠等消化道内的肿瘤占据我国所有恶性肿瘤的40%。目前，胃癌、结直肠癌和食管癌等消化道内的癌症均位列我国癌症发病率前5位，年发病和死亡数达全球总数的50%，直接的年均医疗负担近千亿元。采用消化内镜进行内镜检查是消化道内癌症早期诊断和筛查的核心技术手段准。由于内镜医师操作规范性、病变识别能力和视觉疲劳等因素的影响，临床实践中有相当比例的病变，甚至包括进展期病变和癌前病变都可能被漏诊，直接影响到内镜检查质量与筛查效果。

近年来，随着以深度学习为代表的新一代人工智能技术的突破，图像识别技术在消化内镜领域取得了一定的发展。然而，消化内镜检查中由于光照条件、内镜视野狭小和操作水平以及取活检的操作等，经常会出现处于视野模糊，镜头贴壁滑壁，处于手术状态，冲水吸水等干扰的行为。消化内镜检查过程中这些干扰行为不仅会影响医生的正常检查，如果采用了深度学习模型，还会影响深度学习模型对病灶的检测和识别。因此如何识别消化内镜检查视频中的这些干扰行为的类别成为亟待解决的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种干扰类别识别模型训练方法、识别方法、装置及电子设备，通过消化内镜检查的视频样本训练干扰类别识别模型，通过干扰类别识别模型识别干扰行为无需人工参与，同时准确率更高。

第一方面，本申请提供一种干扰类别识别模型训练方法，包括：

获取消化内镜检查的视频样本集，所述视频样本集中的各视频片段标注有标注干扰类别；

通过预设初始模型对所述视频片段对进行训练，得到所述视频片段的预测干扰类别；

根据所述标注干扰类别和所述预测干扰类别对所述预设初始模型的参数进行修正，得到干扰类别识别模型。

在本申请一些实施例中，所述获取消化内镜检查的视频样本集，包括：

获取消化内镜检查视频；

根据所述消化内镜检查视频得到所述视频片段，所述视频片段包含预设帧的图像；

对所述视频片段进行识别标记，得到所述视频样本集。

在本申请一些实施例中，所述预设初始模型包含深度卷积网络模块、ConvLSTM模块、编码器模块以及分类网络模块，所述通过预设初始模型对所述视频片段对进行训练，得到所述视频片段的预测干扰类别，包括：

通过所述深度卷积网络模块提取所述视频片段的空间信息特征；

通过所述ConvLSTM模块根据所述空间信息特征提取时间维度信息特征；

通过所述编码器模块根据所述空间信息特征提取注意力信息特征；

将所述时间维度信息特征和所述注意力信息特征级联，输入到所述分类网络模块，得到所述各视频片段的预测干扰类别。

在本申请一些实施例中，所述通过所述深度卷积网络模块提取所述视频片段的空间信息特征，包括：

通过所述深度卷积网络模块提取所述视频片段中每一帧片段的片段特征；

统计所述视频片段中各帧片段的片段特征并进行归一化，得到所述空间信息特征。

在本申请一些实施例中，所述根据所述标注干扰类别和所述预测干扰类别对所述预设初始模型的参数进行修正，得到干扰类别识别模型，包括：

通过交叉熵损失函数根据所述标注干扰类别和所述预测干扰类别，对所述深度卷积网络模块、所述ConvLSTM模块以及编码器模块的参数进行修正，得到干扰类别识别模型。

根据所述标注干扰类别和所述预测干扰类别对所述预设初始模型的参数进行修正，通过修正之后的模型对所述视频样本集再次进行训练得到新的标注干扰类别进行修正；

重复上述训练以及修正过程，直至某次修正之后的模型训练得到的标注干扰类别达到预设准确率，将最后一次修正后的模型确定为干扰类别识别模型。

第二方面，本申请提供一种干扰类别识别方法，包括：

获取待检测消化内镜检查视频；

通过干扰类别识别模型对所述待检测消化内镜检查视频进行分析，若识别到属于任意干扰类别则进行提示，所述干扰类别识别模型通过上述任意一项所述的干扰类别识别模型训练方法得到。

第三方面，本申请提供一种干扰类别识别训练装置，包括：

样本获取模块，用于获取消化内镜检查的视频样本集，所述视频样本集中的各视频片段标注有标注干扰类别；

类别识别模块，与所述样本获取模块通讯连接，用于通过预设初始模型对所述视频片段对进行训练，得到所述各视频片段的预测干扰类别；

模型训练模块，与所述样本获取模块和所述类别识别模块通讯连接，用于根据所述标注干扰类别和所述预测干扰类别对所述预设初始模型的参数进行修正，得到干扰类别识别模型。

在本申请一些实施例中，所述样本获取模块还用于获取消化内镜检查视频；根据所述消化内镜检查视频得到所述视频片段，所述视频片段包含预设帧的图像；对所述视频片段进行识别标记，得到所述视频样本集。

在本申请一些实施例中，所述类别识别模块还用于通过所述深度卷积网络模块提取所述视频片段的空间信息特征；所述预设初始模型包含深度卷积网络模块、ConvLSTM模块、编码器模块以及分类网络模块，通过所述ConvLSTM模块根据所述空间信息特征提取时间维度信息特征；通过所述编码器模块根据所述空间信息特征提取注意力信息特征；将所述时间维度信息特征和所述注意力信息特征级联，输入到所述分类网络模块，得到所述各视频片段的预测干扰类别。

在本申请一些实施例中，所述类别识别模块还用于通过所述深度卷积网络模块提取所述视频片段中每一帧片段的片段特征；统计所述视频片段中各帧片段的片段特征并进行归一化，得到所述空间信息特征。

在本申请一些实施例中，所述模型训练模块还用于通过交叉熵损失函数根据所述标注干扰类别和所述预测干扰类别，对所述深度卷积网络模块、所述ConvLSTM模块以及编码器模块的参数进行修正，得到干扰类别识别模型。

在本申请一些实施例中，所述模型训练模块还用于根据所述标注干扰类别和所述预测干扰类别对所述预设初始模型的参数进行修正，通过修正之后的模型对所述视频样本集再次进行训练得到新的标注干扰类别进行修正；重复上述训练以及修正过程，直至某次修正之后的模型训练得到的标注干扰类别达到预设准确率，将最后一次修正后的模型确定为干扰类别识别模型。

第四方面，本申请还提供一种服务器，服务器包括：

一个或多个处理器；

存储器；以及

一个或多个应用程序，其中一个或多个应用程序被存储于存储器中，并配置为由处理器执行以实现的干扰类别识别模型训练方法。

第五方面，本申请还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器进行加载，以执行的干扰类别识别模型训练方法中的步骤。

第六方面，本申请实施例提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述第一方面提供的方法。

上述干扰类别识别模型训练方法、识别方法、装置及电子设备，通过消化内镜检查的视频样本训练干扰类别识别模型，通过干扰类别识别模型识别干扰行为无需人工参与，同时准确率更高。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例中干扰类别识别模型训练方法的场景示意图；

图2是本申请实施例中干扰类别识别模型训练方法的流程示意图；

图3是本申请实施例中预设初始模型的结构示意图；

图4是本申请实施例中ConvLSTM模型的结构示意图；

图5是本申请实施例中干扰类别识别方法的流程示意图；

图6是本申请实施例中干扰类别识别模型训练装置的结构示意图；

图7是本申请实施例中电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本申请的描述中，“例如”一词用来表示“用作例子、例证或说明”。本申请中被描述为“例如”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本发明，给出了以下描述。在以下描述中，为了解释的目的而列出了细节。应当明白的是，本领域普通技术人员可以认识到，在不使用这些特定细节的情况下也可以实现本发明。在其它实例中，不会对公知的结构和过程进行详细阐述，以避免不必要的细节使本发明的描述变得晦涩。因此，本发明并非旨在限于所示的实施例，而是与符合本申请所公开的原理和特征的最广范围相一致。

在本申请实施例中，干扰类别识别模型训练方法主要涉及人工智能(ArtificialIntelligence，AI)中的计算机视觉技术（Computer Vision，CV）。其中，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。

计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别（OpticalCharacter Recognition，OCR）、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

在本申请实施例中，需要说明的是，本申请提供的干扰类别识别模型训练方法由于是在电子设备中执行，各电子设备的处理对象均以数据或信息的形式存在，例如时间，实质为时间信息，可以理解的是，后续实施例中若提及尺寸、数量、位置等，均为对应的数据存在，以便电子设备进行处理，具体此处不作赘述。

在本申请实施例中，还需说明的是，本申请实施例提供的干扰类别识别模型训练方法，可以应用于如图1所示的干扰类别识别模型训练系统中。其中，该干扰类别识别模型训练系统包括终端100和服务器200，终端100可以是既包括接收和发射硬件的设备，即具有能够在双向通信链路上，执行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备。终端100具体可以是台式终端或移动终端，终端100具体还可以是手机、平板电脑、笔记本电脑等中的一种，又或是安装于监控现场用于信息采集、存储、传输的摄像头。服务器200可以是独立的服务器，也可以是服务器组成的服务器网络或服务器集群，其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云服务器。其中，云服务器由基于云计算(Cloud Computing)的大量计算机或网络服务器构成。

本领域技术人员可以理解，图1中示出的应用环境，仅仅是与本申请方案一种应用场景，并不构成对本申请方案应用场景的限定，其他的应用环境还可以包括比图1中所示更多或更少的电子设备，例如图1中仅示出1个服务器200，可以理解的，该干扰类别识别模型训练系统还可以包括一个或多个其他服务器，具体此处不作限定。另外，如图1所示，该干扰类别识别模型训练系统还可以包括存储器，用于存储数据，如存储消化内镜检查的视频样本集。

还需说明的是，图1所示干扰类别识别模型训练系统的场景示意图仅仅是一个示例，本发明实施例描述的干扰类别识别模型训练系统以及场景是为了更加清楚的说明本发明实施例的技术方案，并不构成对于本发明实施例提供的技术方案的限定，本领域普通技术人员可知，随着干扰类别识别模型训练系统的演变和新业务场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。

参阅图2，本申请实施例提供了一种干扰类别识别模型训练方法，主要以该方法应用于上述图1中的服务器200来举例说明，该方法包括步骤S201~S203，具体如下：

S201，获取消化内镜检查的视频样本集，所述视频样本集中的各视频片段标注有标注干扰类别。

其中，干扰类别识别图片样本集为包含不同干扰类别的干扰行为的视频片段，干扰行为包括但不限于正常、视野模糊、贴壁滑壁、手术状态、冲水吸水等。视频样本集中的各视频片段均标注有标注干扰类别，可以根据标注的标注干扰类别对视频样本集中的各视频片段进行分类，在后续的模型训练的过程中，可以按照不同的干扰类别选择相应的视频片段分别对模型进行训练，也可以随机选取视频样本集中的视频片段对模型进行训练，在本实施例中不作具体限定。

此外，干扰类别识别图片样本集用于训练模型，因此干扰类别识别图片样本集包括正样本和负样本，正样本中为确定包含某一中干扰类别的干扰行为的视频片段。例如标注干扰类别为视野模糊、贴壁滑壁、手术状态、冲水吸水等的视频片段，负样本为确定不包含任何干扰类别的干扰行为的视频片段，例如标注干扰类别为正常的视频片段，正样本和负样本的视频片段均进行了相应标记。

具体地，服务器200执行干扰类别识别模型训练任务之前，用户可通过终端100向服务器200发送任务请求，任务请求携带需要进行训练的视频样本集。服务器200在接收到任务请求之后，即可按照干扰类别识别模型训练方法，基于视频样本集进行训练。又或者，服务器200执行干扰类别识别模型训练任务之前，服务器200无需获取终端100发送的任务请求，此时的终端100是具有摄像功能的摄像机，终端100定时或实时采集获取到视频样本集之后，即可发送至服务器200执行图片检测任务。而更进一步的是，终端100上可装载有图像获取装置，终端100定时或实时采集视频或图像，将视频样本集发送至服务器200，以使服务器200执行干扰类别识别模型训练任务。

在一个实施例中，本步骤包括：S301，获取消化内镜检查视频；S302，根据所述消化内镜检查视频得到所述视频片段，所述视频片段包含预设帧的图像；S303，对所述视频片段进行识别标记，得到所述视频样本集。

其中，通过内窥镜检查设备，采集大量的消化内镜检查视频，对消化内镜检查视频进行筛选和裁剪，处理成符合要求的视频片段，视频片段包含预设帧的图像，例如可以将各视频片段分为64帧的图像。此外，对视频片段进行识别，判断各个视频片段的干扰类别，然后进行标记，各个视频片段均标记对应的标注干扰类别，得到视频样本集。以便在模型训练的过程中，基于模型预测的预测干扰类别和各视频片段真实的标注干扰类别对模型进行修正，使得模型识别的准确率更高。

S202，通过预设初始模型对所述视频片段对进行训练，得到所述视频片段的预测干扰类别。

具体地，通过预设初始模型对视频样本集中的各视频片段分别对进行训练，分析各视频片段中的特征信息，进而得到各视频片段对应的预测干扰类别。其中，对于每个视频片段都是相同的学习过程，因此下面以其中任意一个视频片段为例对其通过预设初始模型进行训练的过程进行详细说明。

在一个实施例中，所述预设初始模型包含深度卷积网络模块、ConvLSTM模块、编码器模块以及分类网络模块，本步骤包括：S401，通过所述深度卷积网络模块提取所述视频片段的空间信息特征；S402，通过所述ConvLSTM模块根据所述空间信息特征提取时间维度信息特征；S403，通过所述编码器模块根据所述空间信息特征提取注意力信息特征；S404，将所述时间维度信息特征和所述注意力信息特征级联，输入到所述分类网络模块，得到所述各视频片段的预测干扰类别。

具体地，如图3所示，预设初始模型包含深度卷积网络模块、ConvLSTM模块、编码器模块（图示中的Transformer模块）以及分类网络模块（图示中的全连接层和Softmax），深度卷积网络模块提取视频片段中每一帧图像的特征，然后综合视频片段中所有帧图像的特征作为该视频片段的特征分别输入到ConvLSTM模块和编码器模块中，最后ConvLSTM模块和编码器模块输出的特征级联之后输入到分类网络模块进行分类得到视频片段的预测干扰类别。

通过深度卷积网络模块提取视频片段的空间信息特征，空间信息特征可以理解为图片的像素特征，空间信息特征指每张图片上的像素位置等信息，深度卷积网络模块经过卷积层后，一张图片提取出一个预设维度D的特征向量，例如提取出一个1024的特征向量，该特征向量会包含该张图片的像素信息等空间特征，若视频片段包含64帧的图像，则深度卷积网络模块从每个视频片段中总共会提取中64*1024大小的空间特征矩阵，代表视频片段中64帧图片的空间信息。例如采用在ImageNet数据集上预训练好的ResNet50提取各视频片段的空间信息特征，学习过程可以表示为：S _i =RN(W _r , f _j ), j∈[1,N] ，其中，RN表示深度卷积神经网络ResNet50，W _r为深度学习卷积神经网络ResNet50的权重参数，f _j为视频样本集中第i个视频片段的第j帧图像的特征值，f _j∈R ^3*H*W，R指实数域，一张图片是RGB三个通道，所以f _j是一个3*H*W的矩阵，H和W分别是视频帧的高度和宽度，N为视频片段的总帧数。S _i表示视频样本集中第i个视频片段的空间信息特征，i为正整数且不大于视频样本集中的视频片段总数，S _i∈R ^N*D，R指实数域，S _i为N*D的特征矩阵，D取决于深度卷积网络模块的模型架构，例如设为1024。其中本实施例中为了便于理解对各参数进行举例说明，不应理解为仅限于此。

由于ConvLSTM模块的输入需要是视频片段的特征，因此将深度卷积网络模块得到的视频片段的空间信息特征作为ConvLSTM模块的输入，通过ConvLSTM模块根据空间信息特征提取时间维度信息特征。时间维度信息特征是指视频片段的各帧图片的特征的前后之间的相关信息，比如手术器械或其他干扰不会只出现一帧，会有一个前后的联系。LSTM是一种时间循环神经网络，LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件，但长短期记忆网络（LSTM，Long short-term memory）在处理图像时忽略了图像的空间信息，因此本实施例采用带卷积的LSTM，即ConvLSTM代替标准的LSTM。在ConvLSTM中，卷积运输用于输入到状态和状态到状态的转换，不仅可以学习到视频帧的时间维度信息特征，还能进一步提取与时间相关的视频帧的空间信息特征。LSTM的模块上加入了conv卷积操作，卷积conv操作就是用来提取空间特征的，因此可以在提取时间维度信息特征的特征时，没有丢失对空间信息特征（也就是像素特征）的学习。在状态和状态转换时均采用卷积运算，可以有效地保留消化内镜视频帧图像的空间信息特征。ConvLSTM模块的学习过程可表示为：T _i = C(W _l , S _i )，其中，C表示ConvLSTM模块，W _l为ConvLSTM模块的权重参数，S _i表示视频样本集中第i个视频片段的空间信息特征，T _i表示视频样本集中第i个视频片段的时间维度信息特征，T _i∈R ^1*D。

ConvLSTM模型结构示意图如图4所示，其公式为：

，

t表示ConvLSTM的第t步，x _t表示输入数据，h _t表示隐藏层状态，c _t表示存储单元的状态，i _t 、f _t 、o _t分别表示ConvLSTM的输入门、遗忘门和输出门，w和b是网络学习的参数权重和偏差，*、ο、σ和tanh分别表示ConvLSTM中的卷积运算、矩阵乘法、Sigmoid函数和tanh函数。

通过编码器模块根据空间信息特征提取注意力信息特征，注意力信息特征本质是一组权重系数，深度学习网络模块训练会得到很多个通道的特征图（可以理解为很多的特征），如果不加注意力机制，那么每个特征的权重是一样的，模型不会知道哪个更重要，哪个不重要。而加了注意力机制后，相当于每个特征会有个权重系数，重要的特征的权重大，不重要的特征的权重小。编码器模块的学习过程可表示为：

其中，T表示编码器模块，

为编码器模块的权重参数，S _i表示视频样本集中第i个视频片段的空间信息特征，A _i表示视频样本集中第i个视频片段的注意力信息特征，A _i∈R ^1*D。

本实施例中的编码器模块（即Transformer模块），是一个利用完全利用注意力机制的深度学习模型，由一个可迭代的多层注意力机制层（MHA），一个由2个全连接层组成的多层感知器（MLP）组成，其公式为：A _i =MLP(MHA(S _i ))。

将时间维度信息特征和注意力信息特征级联，本实施例中的级联为将两个特征进行拼接，例如，时间维度信息特征和注意力信息特征都是1*D的特征向量，将两个特征向量进行拼接，得到1*2D的特征向量，将级联之后得到的特征向量输入到分类网络模块。首先经过全连接层输出得到1*M维度的视频片段的干扰类别的概率，M为标定的所有的干扰类别的总数，输出结果包含判定该视频片段属于各干扰类别的概率，例如，正常、视野模糊、贴壁滑壁、手术状态、冲水吸水五类，则M为5。经过最大池化操作和Softmax函数输出每个干扰类别的置信度，取置信度最大的干扰类别为当前视频片段的预测干扰类别。

在一个实施例中，步骤S401，通过所述深度卷积网络模块提取所述视频片段的空间信息特征包括：S501，通过所述深度卷积网络模块提取所述视频片段中每一帧片段的片段特征；S502，统计所述视频片段中各帧片段的片段特征并进行归一化，得到所述空间信息特征。

具体地，深度卷积网络模块经过卷积层后提取视频片段中每一帧片段的片段特征，其中片段特征为预设维度D的特征向量，然后综合视频片段中各帧片段的片段特征得到的空间信息特征为N*D的特征向量。其中需要将其归一化到0-1的范围。

S203，根据所述标注干扰类别和所述预测干扰类别对所述预设初始模型的参数进行修正，得到干扰类别识别模型。

具体地，根据标注干扰类别和预测干扰类别对预设初始模型的参数进行修正，本实施例采用损失函数以端到端的方式训练消化内镜干扰类别，损失函数的定义是交叉熵损失函数，是为了求出预测值和真实值的差距，在训练过程中，一开始损失函数会很大，预测值和真实值差距很大，然后针对损失函数反向求导，根据求导的结果来修正预设初始模型中的参数。损失函数公式为

：其中，γ表示交叉熵函数，x _i表示视频样本集中第i个视频片段，P(x _i )表示模型预测的x _i的预测干扰类别的概率值，y _i表示x _i的标注干扰类别，标注干扰类别可以按照预设的对应关系进行参数化，例如，0-正常，1-视野模糊，2-贴壁滑壁，3-手术状态，4-冲水吸水，则y_i∈[0,1,2,3,4]。整个公式表示对交叉熵损失函数最小值优化的过程。

在一个实施例中，本步骤包括：S601，通过交叉熵损失函数根据所述标注干扰类别和所述预测干扰类别，对所述深度卷积网络模块、所述ConvLSTM模块以及编码器模块的参数进行修正，得到干扰类别识别模型。

具体地，预设初始模型包含深度卷积网络模块、ConvLSTM模块、编码器模块以及分类网络模块，因此通过交叉熵损失函数根据标注干扰类别和预测干扰类别，对深度卷积网络模块、ConvLSTM模块以及编码器模块的参数进行修正得到干扰类别识别模型。进一步的，是对上述实施例中的权重参数W _r、W _l以及

进行修正，得到干扰类别识别模型。

在一个实施例中，本步骤包括：S701，根据所述标注干扰类别和所述预测干扰类别对所述预设初始模型的参数进行修正，通过修正之后的模型对所述视频样本集再次进行训练得到新的标注干扰类别进行修正；S702，重复上述训练以及修正过程，直至某次修正之后的模型训练得到的标注干扰类别达到预设准确率，将最后一次修正后的模型确定为干扰类别识别模型。

具体地，损失函数的定义是交叉熵损失函数，是为了求出预测值和真实值的差距，在训练过程中，一开始损失函数会很大，预测值和真实值差距很大，因此需要对模型进行多次修正才能得到训练好的干扰类别识别模型。

因此，当通过交叉熵损失函数根据标注干扰类别和预测干扰类别对预设初始模型的参数进行修正之后，再通过修正之后的模型按照上述实施例所述的流程对视频样本集再次进行训练得到新的标注干扰类别，然后基于新的标注干扰类别对当前训练的模型进行修正。重复上述训练以及修正过程，直至某次修正之后的模型训练得到的标注干扰类别达到预设准确率，则将最后一次修正后的模型确定为干扰类别识别模型。模型预测准确率的判定方式选择任意现有的评判方式即可，本实施例不做具体限定。

其中，对于视频样本集中的视频片段，可以对视频样本集中的视频片段进行分类，每次修正之后的模型进行训练时选择新的类别的视频片段，也就是视频样本集中的视频片段。也可以每次修正之后的模型进行训练时都使用同样的视频片段。另外视频样本集中的视频片段可以分为测试集和训练集，训练集用于训练修正模型，测试集用于测试修正之后的模型是否达到预设准确率。

本实施例通过ConvLSTM模块提取时间维度信息特征，使得时间维度信息特征保留了空间信息特征，此外级联ConvLSTM模块提取的时间维度信息特征和编码器模块提取的注意力信息特征，使得输入到分类网络模块中的特征具有不同的侧重点，使得训练得到的干扰类别识别模型预测准确率更高。

将干扰类别识别模型用于实时的消化内镜检查的视频流中，可以实时得到当前视频的干扰类别，当处于视野模糊、贴壁滑壁、手术状态以及冲水吸水时可以及时提醒操作医生当前的干扰行为，防止漏检，还可以减少干扰行为对病灶检测识别等深度学习模型的影响，提升病灶检测识别模型的精度。

参阅图5，本申请实施例提供了一种干扰类别识别方法，主要应用通过上述实施例所述的干扰类别识别模型训练方法得到的干扰类别识别模型，该方法包括步骤S801~S802，具体如下：

S801获取待检测消化内镜检查视频；

其中，待检测消化内镜检查视频是指需要进行检测其中是否包含预设的干扰类别的干扰行为的检查视频，可以是获取的已有的视频，也可以是通过消化内镜获取的实时视频。

S802通过干扰类别识别模型对所述待检测消化内镜检查视频进行分析，若识别到属于任意干扰类别则进行提示，所述干扰类别识别模型通过如上述任意一项实施例所述的干扰类别识别模型训练方法得到。

其中，通过干扰类别识别模型对待检测消化内镜检查视频进行分析，如果识别到属于任意干扰类别的干扰行为，则进行提示避免漏检，或者禁用病灶检测的功能，避免误检。

为了更好实施本申请实施例中的干扰类别识别模型训练方法，在干扰类别识别模型训练方法基础之上，本申请实施例中还提供一种干扰类别识别模型训练装置，如图6所示，干扰类别识别模型训练装置900包括：

样本获取模块910，用于获取消化内镜检查的视频样本集，所述视频样本集中的各视频片段标注有标注干扰类别；

类别识别模块920，与所述样本获取模块910通讯连接，用于通过预设初始模型对所述视频片段对进行训练，得到所述各视频片段的预测干扰类别；

模型训练模块930，与所述样本获取模块910和所述类别识别模块920通讯连接，用于根据所述标注干扰类别和所述预测干扰类别对所述预设初始模型的参数进行修正，得到干扰类别识别模型。

在本申请一些实施例中，所述样本获取模块910还用于获取消化内镜检查视频；根据所述消化内镜检查视频得到所述视频片段，所述视频片段包含预设帧的图像；对所述视频片段进行识别标记，得到所述视频样本集。

在本申请一些实施例中，所述类别识别模块920还用于通过所述深度卷积网络模块提取所述视频片段的空间信息特征；所述预设初始模型包含深度卷积网络模块、ConvLSTM模块、编码器模块以及分类网络模块，通过所述ConvLSTM模块根据所述空间信息特征提取时间维度信息特征；通过所述编码器模块根据所述空间信息特征提取注意力信息特征；将所述时间维度信息特征和所述注意力信息特征级联，输入到所述分类网络模块，得到所述各视频片段的预测干扰类别。

在本申请一些实施例中，所述类别识别模块920还用于通过所述深度卷积网络模块提取所述视频片段中每一帧片段的片段特征；统计所述视频片段中各帧片段的片段特征并进行归一化，得到所述空间信息特征。

在本申请一些实施例中，所述模型训练模块930还用于通过交叉熵损失函数根据所述标注干扰类别和所述预测干扰类别，对所述深度卷积网络模块、所述ConvLSTM模块以及编码器模块的参数进行修正，得到干扰类别识别模型。

在本申请一些实施例中，所述模型训练模块930还用于根据所述标注干扰类别和所述预测干扰类别对所述预设初始模型的参数进行修正，通过修正之后的模型对所述视频样本集再次进行训练得到新的标注干扰类别进行修正；重复上述训练以及修正过程，直至某次修正之后的模型训练得到的标注干扰类别达到预设准确率，将最后一次修正后的模型确定为干扰类别识别模型。

在本申请一些实施例中，干扰类别识别训练装置900可以实现为一种计算机程序的形式，计算机程序可在如图7所示的电子设备上运行。电子设备的存储器中可存储组成该干扰类别识别训练装置900的各个程序模块，比如，图6所示的样本获取模块910、类别识别模块920以及模型训练模块930。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的干扰类别识别模型训练方法中的步骤。

例如，图7所示的电子设备可以通过如图6所示的干扰类别识别训练装置900中的样本获取模块910执行步骤S201。电子设备可通过类别识别模块920执行步骤S202。电子设备可通过模型训练模块930执行步骤S203。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的电子设备通过网络连接通信。该计算机程序被处理器执行时以实现一种干扰类别识别模型训练方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在本申请一些实施例中，提供了一种电子设备，包括一个或多个处理器；存储器；以及一个或多个应用程序，其中所述一个或多个应用程序被存储于所述存储器中，并配置为由所述处理器执行上述干扰类别识别模型训练方法的步骤。此处干扰类别识别模型训练方法的步骤可以是上述各个实施例的干扰类别识别模型训练方法中的步骤。

在本申请一些实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器进行加载，使得处理器执行上述干扰类别识别模型训练方法的步骤。此处干扰类别识别模型训练方法的步骤可以是上述各个实施例的干扰类别识别模型训练方法中的步骤。

本邻域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上对本申请实施例所提供的一种干扰类别识别模型训练方法、识别方法、装置及电子设备进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种干扰类别识别模型训练方法，其特征在于，包括：

2.如权利要求1所述的干扰类别识别模型训练方法，其特征在于，所述获取消化内镜检查的视频样本集，包括：

获取消化内镜检查视频；

对所述视频片段进行识别标记，得到所述视频样本集。

3.如权利要求2所述的干扰类别识别模型训练方法，其特征在于，所述预设初始模型包含深度卷积网络模块、ConvLSTM模块、编码器模块以及分类网络模块，所述通过预设初始模型对所述视频片段对进行训练，得到所述视频片段的预测干扰类别，包括：

4.如权利要求3所述的干扰类别识别模型训练方法，其特征在于，所述通过所述深度卷积网络模块提取所述视频片段的空间信息特征，包括：

5.如权利要求3所述的干扰类别识别模型训练方法，其特征在于，所述根据所述标注干扰类别和所述预测干扰类别对所述预设初始模型的参数进行修正，得到干扰类别识别模型，包括：

6.如权利要求1所述的干扰类别识别模型训练方法，其特征在于，所述根据所述标注干扰类别和所述预测干扰类别对所述预设初始模型的参数进行修正，得到干扰类别识别模型，包括：

7.一种干扰类别识别方法，其特征在于，包括：

获取待检测消化内镜检查视频；

通过干扰类别识别模型对所述待检测消化内镜检查视频进行分析，若识别到属于任意干扰类别则进行提示，所述干扰类别识别模型通过如权利要求1至6任意一项所述的干扰类别识别模型训练方法得到。

8.一种干扰类别识别训练装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储器；以及一个或多个应用程序，其中所述一个或多个应用程序被存储于所述存储器中，并配置为由所述处理器执行以实现权利要求1至6中任一项所述的干扰类别识别模型训练方法。

10.一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器进行加载，以执行权利要求1至6中任一项所述的干扰类别识别模型训练方法中的步骤。