CN114332025B

CN114332025B - 消化内镜口咽通过时间自动检测系统及方法

Info

Publication number: CN114332025B
Application number: CN202111650207.XA
Authority: CN
Inventors: 曹鱼; 熊孜楠; 陈齐磊; 刘本渊
Original assignee: Changsha Huiwei Intelligent Medical Technology Co ltd
Current assignee: Changsha Huiwei Intelligent Medical Technology Co ltd
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-07-26
Anticipated expiration: 2041-12-29
Also published as: CN114332025A

Abstract

本发明公开了一种消化内镜口咽通过时间自动检测系统及方法。所述自动检测系统包括图像动态预处理模块、基于卷积神经网络的场景分类器、双向场景转换模块、异常情况处理模块以及口咽通过时间计算模块等。本发明提供的自动检测系统及方法能够准确地为消化内镜CAD系统提供场景信息，以及，准确地确定消化内镜从离开口腔末端到向下进入食道的时长，并输出口咽通过时间，从而可以辅助对消化内镜操作者的水平进行准确的评估。

Description

消化内镜口咽通过时间自动检测系统及方法

技术领域

本申请涉及图像处理技术领域，特别涉及一种基于卷积神经网络的消化内镜口咽通过时间自动检测系统及方法。

背景技术

随着数据量的爆发式增长和硬件水平的极大提升，人工智能开始被应用到各大领域，尤其是医疗健康领域。并且，由于各种新型模型的出现，人工智能算法AI已经在很多方面达到甚至超过了人类专家的识别判断能力，比如针对皮肤病变和糖尿病视网膜图像的诊断方面。

同样的，人工智能AI在消化内镜辅助诊疗方面也得到了高度的关注和广泛的使用，其中包括息肉检测与识别、早癌识别与检测、盲区检测等等。在这些应用场景下，基于卷积神经网络的人工智能模型能在短时间内实时准确地找到病灶的位置，并精确地识别出病灶的类型，体现出了人工智能在这方面应用上的价值和潜力。

但是，人工智能模型能够做出这些精准判断的前提，是消化内镜操作者能够顺利地将消化内镜送入患者体内，并获取清晰且准确的各部位图像。因此，对消化内镜操作者的操作水平做出一个准确且可靠的评估，是首要而且非常必要的一项任务。在上消化道的插镜过程中，能否将内镜从口腔送入，快速且精准地通过咽部，进入食道中上端，又是最困难，且最需要保证质量的一步。因为当消化内镜被插入口腔，进镜到接近下咽后壁时，中间会出现V字形咽腔，里面是囊状的梨状窝，到此便无法继续前进，且食管入口通常处于关闭状态，给操作者继续进镜带来阻力。如果操作者手法生疏且强行进镜，一则有可能误入气管，引起患者的强烈不适，二则有可能引起梨状窝和食管下段穿孔，给患者带来伤害和痛苦。然而，目前还未见到人工智能AI在对消化内镜进镜操作评估上的应用，当下的评估手段主要是医生凭据先前的经验，结合在操作者身边进行实时观察，以操作者是否能在三次之内顺利通过咽部来判断并打分。如此则必须有经验丰富的指导者在一旁观察和记录，对本就非常紧缺的医疗人力资源造成一定的浪费。此外，现有的方法不能处理在手术过程中经常出现的突发及异常情况，比如操作者将内窥镜放入患者口腔后，在未进入咽部之前又将其从体内取出，或者是内窥镜在口腔中行进时没有居中，紧贴于患者口腔内壁，造成采集到的图像与咽部的模糊图像相似，而无法被准确分类的情况。

因此，一个能够准确判断操作者能否在短时间内，将消化内镜从口腔通过咽部，并顺利进入食道的智能检测系统及方法，就显得非常必要。

发明内容

本发明的主要目的在于提供一种消化内镜口咽通过时间自动检测系统及方法，以克服现有技术中的不足。

为实现前述发明目的，本发明采用的技术方案包括：

本发明的一个方面提供了一种消化内镜口咽通过时间自动检测系统，包括：

图像动态预处理模块，用于对从消化内镜设备输出的原始图像进行预处理，以获取场景图像；

基于卷积神经网络的场景分类器，用于对所述场景图像进行分类；

双向场景转换模块，用于将所述场景分类器产生的分类序列作为输入，在时序方向对当前的计算区间进行移动，再在区间内部进行分类总值统计，并根据当前场景确定下一步场景；

异常情况处理模块，用于在消化内镜检查过程中对由异常情况引起的时序混乱进行处理，以正确判断消化内镜的场景转换时间点；

口咽通过时间计算模块，用于依据所述双向场景转换模块和异常处理模块输出的信息以及当前区间场景，判断消化内镜通过口腔末端的时间点和消化内镜到达食道中上端的时间点，并计算该两个时间点的时间差，获得消化内镜口咽通过时间。

在一些实施方式中，所述图像动态预处理模块用于动态地裁剪除去原始图像中的无效图像区域，并保留有效图像区域作为所述场景图像，所述无效图像区域包括原始图像中的黑色边框区域，所述有效图像区域包括直接从消化内镜镜头内拍摄到的区域。

进一步的，所述图像动态预处理模块用于对原始图像的像素值进行逐行逐列扫描，并对各行各列的像素值进行求和，当扫描到的任一行或任一列的像素和大于预设的阈值c时，判断离开无效图像区域，并开始进入有效图像区域，记录此时的坐标信息，同理，当在有效图像区域内继续向后或向下扫描，且扫描到任一行或任一列的像素和小于或等于预设的阈值c时，判断离开有效图像区域，记录此时的坐标信息，当获取到所有坐标信息后，将这些坐标以外的无效图像区域去除，从而获得场景图像。

在一些实施方式中，所述基于卷积神经网络的场景分类器是利用训练数据集进行训练获得的；

其中，所述训练数据集的获取方法包括：根据基于监督的机器学习的要求，首先采样多种场景图像作为数据来源，多种场景图像包括体外场景图像、口腔场景图像、咽部场景图像和食道中上部场景图像，并经过专业医生进行质量审核及精确标注后，形成训练数据集。

进一步的，所述基于卷积神经网络的场景分类器是基于预训练样本集进行预训练后，再基于所述训练数据集进行训练获得；所述训练数据集、预训练样本集所包含的场景图像均是经所述图像动态预处理模块处理过的。

进一步的，所述场景分类器以单帧消化内镜图像作为输入，通过通用卷积神经网络后形成预定维度的特征向量，所述特征向量经过多分类线性分类器之后，获得场景图像的分类标签。

在一些实施方式中，所述双向场景转换模块用于将所述场景分类器的分类结果纳入计算区间，并统计区间内分类总值，再根据当前场景和区间内分类总值，更新当前场景标志位，以及，根据当前场景标志位及区间内分类总值，确定场景转换。

进一步的，所述双向场景转换模块依据如下条件1～条件5确定场景转换；

其中体外场景转换为口腔场景由条件1决定，条件1包括：

当前所处场景为体外场景，以及

区间内分类总值

其中i代表区间中的场景状态值，取值范围为[0，1，2，3]，分别代表体外、口腔、咽部、食道中上部场景，

代表场景可以发生转换时区间内的分类总值，其中N代表区间大小，0代表当前帧被分类为体外，1代表当前帧被分类为口腔；

口腔场景转换为体外场景由条件2决定，条件2包括：

当前所处场景为口腔场景，以及

区间内分类总值

其中i代表区间中的值，取值范围为[0，1，2，3]，分别代表体外、口腔、咽部、食道中上部场景，

口腔场景转换为咽部场景由条件3决定，条件3包括：

当前场景为口腔场景，

区间内分类总值

代表场景可以发生转换时区间内的分类总值，其中N代表区间大小，1代表当前帧被分类为口腔，2代表当前帧被分类为咽部，以及

当前口腔标志位为1，代表已经检测到口腔；

咽部场景转换为口腔场景由条件4决定，条件4包括：

当前场景为咽部场景，

区间内分类总值

代表场景可以发生转换时区间内的分类总值，其中N代表区间大小，1代表当前帧被分类为口腔，2代表当前帧被分类为咽部；

咽部场景转换为食道中上部场景由条件5决定，条件5包括：

当前场景为咽部场景；

区间内分类总值

代表场景可以发生转换时区间内的分类总值，其中N代表区间大小，2代表当前帧被分类为咽部，3代表当前帧被分类为食道中上部。

在一些实施方式中，所述异常情况处理模块用于：

设置口腔开始标志位，当所述场景分类器输出的场景分类为口腔场景时，将所述口腔开始标志位设置为1，并允许所述双向场景转换模块执行由口腔场景转换到咽部场景的操作，而当所述场景分类器输出的场景分类由口腔场景转换为体外场景时，则将所述口腔开始标志位重置为0，并禁止所述双向场景转换模块执行由口腔场景转换到咽部场景的操作。

在一些实施方式中，所述异常情况处理模块还用于：

将口腔结束标志位预设为0，当由口腔场景转换为咽部场景时，将所述口腔结束标志位设为1，并记录当前转换时间点t0为消化内镜通过口腔末端的时间点，若在由口腔场景转换为咽部场景后，又检测到口腔且转换为口腔场景，则将所述口腔结束标志位重新设为0，直到下一次由口腔场景向咽部场景的转换开始时，将所述口腔结束标志位设1，并用当前时间点覆盖此前记录的转换时间点t0，作为新的消化内镜通过口腔末端的时间点。

本发明的另一个方面提供了一种消化内镜口咽通过时间自动检测方法，所述方法是基于所述消化内镜口咽通过时间自动检测系统实施的，并且所述方法包括：

(1)以消化内镜设备实时获取场景图像作为原始图像；

(2)对所述原始图像进行动态预处理；

(3)以基于卷积神经网络的场景分类器对经步骤(2)处理后的场景图像进行场景分类；

(4)将所述场景分类器的分类结果纳入当前的计算区间，并统计区间内分类总值，再根据当前场景和区间内分类总值，更新当前场景标志位；

(5)根据当前场景标志位及区间内分类总值，确定场景转换；

(6)根据当前区间内分类总值及步骤(5)的场景转换，确定口腔末端转换时间点t0以及食道中上端转换时间点t1，再计算该两个时间点的时间差值＝(t1-t0)，即口咽通过时间。

较之现有技术，本发明所提供的消化内镜口咽通过时间自动检测系统及方法能够准确地为消化内镜CAD系统提供场景信息，以及，准确地确定消化内镜从离开口腔末端到向下进入食道的时长，并输出口咽通过时间，从而可以辅助对消化内镜操作者的水平进行准确的评估。

附图说明

图1为本发明所述口腔结束点与食道起始点示意图；

图2a-图2b分别为本发明一实施例中经图像动态预处理器处理前后的原始图像；

图3a-图3d分别为本发明一实施例中体外场景、口腔场景、咽部场景、食道中上部场景的图像；

图4为本发明一实施例中基于卷积神经网络的场景分类器的示意图；

图5为本发明一实施例中的双向场景转换图；

图6为本发明一实施例中时间差判断的示意图；

图7为本发明一实施例中消化内镜口咽通过时间自动检测方法的流程图。

具体实施方式

为了解决目前消化内镜操作评估基于人工监督评判的负担，本发明提供了一种基于卷积神经网络的消化内镜口咽通过时间自动检测系统及方法。本发明主要是使用在医生精确标注的数据集上预训练后得到的人工智能模型，对消化内镜采集到的单帧图像进行场景分类，并根据分类结果准确判断消化内镜通过口腔末端时间点(t0)，以及消化内镜到达食道中上部时间点(t1)，然后计算二者的差值(t1-t0)，如图1所示，从而得到从口腔末端穿过咽部到达食道中上部的时间差(即口咽通过时间)，并提供给观察人员，用以评估操作者在该项目上的操作水平。

以下将结合附图及实施例来详细描述本发明的技术方案。然而，可以以许多不同的形式来实现本发明，并且发明不应该被解释为局限于这里的阐述的具体实施例。相反，提供这些实施例是为了解释发明的原理和实际应用，从而使本领域的其他技术人员更加理解本发明的各种实施例和适合于特定预期应用的各种修改。

本发明的一个实施例提供的一种消化内镜口咽通过时间自动检测系统包括：

图像动态预处理模块，用于对从消化内镜设备输出的原始图像进行预处理，动态地裁去对模型训练有干扰作用的黑色信息区域(亦可认为是黑色边框或定义为无效图像区域)，最终得到只包含消化内镜从镜头内拍摄到的区域(亦可定义为有效图像区域)；

基于卷积神经网络(CNN)的场景分类器，是一种在海量图像数据上进行预训练后，又基于大量专业医生标注数据进行微调得到的，可以对消化内镜取得的单帧图像进行精准场景分类的人工智能深度学习卷积网络分类器；

双向场景转换模块，用于过滤噪点图像，以进一步提高消化内镜所获取视频中场景分类准确率；

异常情况处理模块，用于处理消化内镜检查过程中，由于操作者操作不当或一些无法避免的情况引起的时序混乱，从而正确判断消化内镜的场景转换时间点；

口咽通过时间计算模块，用于根据双向场景转换模块输出的结果、异常情况处理模块输出的结果和当前区间场景，准确判断消化内镜通过口腔末端时间点和到达食道中上端开始时间点，并计算该两个时间点的时间差。

其中，从消化内镜设备输出的图像(定义为原始图像)，往往带有占图像总面积约三分之一的黑色区域(即前述无效图像区域)，该黑色区域中包含了一些与手术及仪器相关的基本信息，例如手术时间，病人性别及年龄，消化内镜的参数及序列号，以及当前操作时使用的模式，如冻结、强调、测光、NBI及焦距等。但该黑色区域对卷积神经网络图像分类器模型(如下简称“模型”)的训练会起到较大的干扰作用，也会严重地影响模型对图像中典型特征的学习，因此在将原始图像输入模型前，需要对该黑色区域进行裁剪处理。然而，不同的仪器及设备输出的黑色区域在尺寸上不尽相同，如果仅以固定尺寸对其进行裁剪，则有可能会丢失一些含有关键信息的位置，尤其是靠近边界处的位置。故而，本发明实施例中采用图像动态预处理模块，使其动态地根据原始图像的像素值，将其中位于边缘的黑色区域裁去，从而只保留对模型训练有帮助的、直接从消化内镜镜头拍摄到的图像区域(即前述有效图像区域)。

进一步的，参阅图2a，可以观察到，一个所述的原始图像的黑色区域的主要色彩为黑色，其中掺杂有少量的白色文字信息。而由消化内镜拍摄得到的图像比较鲜亮，为红色偏白。因此本实施例中可以设置一个阈值c(定义为第一阈值)，对原始图像的像素值进行逐行逐列扫描，并对各行各列的像素值进行求和。当扫描到的某一行或某一列的像素和大于该阈值c时，判断离开黑色区域，并开始进入彩色图像区域，此时记录坐标信息；同理，当在有效图像区域内继续向后或向下扫描，且扫描到任一行或任一列的像素和小于或等于预设的该阈值c时，判断离开彩色图像区域，开始进入另一侧的黑色区域，并记录此时的坐标信息。当获取到所有坐标信息后，将这些坐标以外的无效图像区域裁剪去除。本实施例中图像动态预处理模块会对上、下、左、右四个侧面分别进行该动态裁剪的操作，并获取准确边界，在裁去黑色区域的同时，保留完整的图像信息(前述的有效图像区域)，参阅图2b所示。

其中，所述基于卷积神经网络的场景分类器亦可被定义为消化内镜单帧图像场景分类器，其实现技术采用当前通用的卷积神经网络图像分类器模型，包含且不仅限于ResNet、SqueezeNet、ShuffleNet、VGGNet、DenseNet等。该场景分类器首先于大型图像数据集上进行分类预训练，训练完成后，再在由医生精细标注的多类图像数据上进行微调，并得到最终的分类器模型。该多类图像数据主要有四个场景，其分别为体外场景、口腔场景、咽部场景、食道中上部场景。体外场景图像主要包括内镜设备在患者体外(例如手术室环境)捕捉到的图像信息。口腔场景图像主要包括内镜设备从体外进入口腔开始直到口腔末端的场景图像。咽部场景图像主要包括内镜设备捕捉到的离开口腔进入食道过程中的场景图像。食道中上部图像主要包括内镜设备捕捉到的人体内部食道中上部的图像。该分类器以消化内镜检测过程中拍摄的每一帧图像作为输入，并输出该帧图像的分类结果或该类别的概率。

请参阅图3a-图3d分别示出了对应于体外场景、口腔场景、咽部场景、食道中上部场景的一张图像。

在本发明实施例中，采用了基于监督的机器学习方法，首先采样以上四种场景图像作为数据来源，经过专业医生进行质量审核和精确标注之后，形成训练数据集。再对前述模型进行训练，经过闭包测试之后，最终获得准确率较高的消化内镜单帧图像场景分类器。

本发明实施例中的一种基于卷积神经网络的4类别消化内镜场景分类器如图4所示。该分类器以单帧内镜图像作为输入，通过通用卷积神经网络后形成维度为2048的特征向量，该特征向量经过4分类线性分类器之后，最终获得图像场景分类标签。所述通用卷积神经网络包括但不限于ResNet、AlexNet、VGGNet、ShuffleNet、DenseNet、SqueezeNet等。所述4分类线性分类器包含但不限于线性支持向量机(SVM)、Softmax分类器等。本实施例中的通用卷积神经网络可以首先经由ImageNet进行预训练，再经主要包含由专业医生精确标注的前述四种不同场景图像的训练数据集训练获得。

在本发明实施例中，前述双向场景转换模块亦可以被称为基于时序信号区间内分类总值统计的内镜视频双向场景转换模块。前述异常情况处理模块也可以被称为基于时序信号区间内分类总值统计及当前场景类别标志位的异常情况处理模块。

由于消化内镜所获取视频中各帧图像(如下简称“内镜图像”)质量和前述模型泛化能力的局限性，以及消化内镜操作过程中，消化内镜移动、位置和患者体内物质的影响(比如水和杂质)，内镜图像经常出现模糊等情况，因此前述模型对内镜图像的分类不可能完全正确，会对准确地判断消化内镜到达上述四个场景的时间造成较大的影响。鉴于消化内镜手术过程中，其场景转换有特定的顺序规律，即：手术开始时消化内镜镜头从体外通过口腔和咽喉进入食道，手术结束时镜头从口腔移到体外。本发明实施例采用了基于时序信号区间内分类总值统计的双向场景转换模块，以进一步提升消化内镜图像场景分类的可靠性，其实现技术主要是根据前述模型在视频流过程中产生的时序分类结果，结合手术过程顺序规律，进一步确定消化内镜图像对应的场景以及场景转换的方法。该双向场景转换模块将前述模型产生的分类序列作为输入，在时序方向对当前的计算区间进行移动，再在区间内部进行分类总值统计，并根据当前场景确定下一步场景。

图5示出了本发明一个实施例中基于前述双向场景转换模块的双向场景转换图。本发明实施例中所述的场景包含四个场景，即：体外场景(镜头在体外，设定状态值为0)、口腔场景(镜头进入口腔，设定状态值为1)、咽部场景(镜头离开口腔到进入咽部，设定状态值为2)、食道中上部场景(镜头刚进入食道，设定状态值为3)。场景之间的转换由以下条件1～5决定。并且，其中逆向的场景转换，包括口腔到体外，以及咽部到口腔，在实际使用过程中对异常情况处理有着重大的意义，确保记录到最后的口腔末端时间点，从而保证口咽通过时间计算的正确性。

具体而言，体外场景转换为口腔场景由条件1决定，包含两方面：

①当前所处场景为体外场景；

②区间内分类总值

其中i代表区间中的场景状态值，取值范围为[0，1，2，3]，分别代表体外、口腔、咽部、食道中上部场景。

代表场景可以发生转换时区间内的分类总值，其中N代表区间大小，0代表当前帧被分类为体外，1代表当前帧被分类为口腔。如果当前场景为体外，当区间内分类总值超过阈值s1时，可以确定镜头由体外进入口腔场景，而如果只有少量的单帧图像被错误判断，只要区间内分类总值不超过阈值s1，场景保持为体外，不进行转换，这样场景分类的可靠性得到提升。

口腔场景转换为体外场景由条件2决定，包含两方面：

①当前所处场景为口腔场景；

②区间内分类总值

其中i代表区间中的值，取值范围为[0，1，2，3]，分别代表体外、口腔、咽部、食道中上部场景。

代表场景可以发生转换时区间内的分类总值，其中N代表区间大小，0代表当前帧被分类为体外，1代表当前帧被分类为口腔。如果当前场景为口腔，当区间内分类总值小于等于阈值s1时，可以确定镜头口腔进入体外场景，而如果只有少量的单帧图像被错误判断，只要区间内分类总值不小于等于阈值s1，场景保持为口腔，不进行转换。

口腔场景转换为咽部场景由条件3决定，包含三个方面：

①当前场景为口腔场景；

②区间内分类总值

③当前口腔标志位为1，代表已经检测到口腔。如果当前场景为口腔场景，当区间内分类总值超过阈值s2时，可以确定镜头由口腔离开并进入咽部。而如果只有少量的单帧图像被错误判断成咽部，只要区间内分类总值不超过阈值s2，或者口腔标志位为O，则场景保持为口腔场景，不进行转换。

咽部场景转换为口腔场景由条件4决定，包含两个方面：

①当前场景为咽部场景；

②区间内分类总值

代表场景可以发生转换时区间内的分类总值，其中N代表区间大小，1代表当前帧被分类为口腔，2代表当前帧被分类为咽部。如果当前场景为咽部场景，当区间内分类总值小于等于阈值s2时，可以确定镜头由咽部回到口腔，或者是之前检测到的场景为口腔中的模糊场景而非实际的咽部场景。而如果只有少量的单帧图像被错误判断成口腔，只要区间内分类总值不小于等于阈值s2，则场景保持为咽部场景，不进行转换。

咽部场景转换为食道中上部场景由条件5决定，包含两个方面：

①当前场景为咽部场景；

②区间内分类总值

代表场景可以发生转换时区间内的分类总值，其中N代表区间大小，2代表当前帧被分类为咽部，3代表当前帧被分类为食道中上部。如果当前场景为咽部，当区间内分类总值超过阈值s3时，可以确定镜头由咽部进入到食道中上部。而如果只有少量的单帧图像被错误判断成食道中上部，只要区间内分类总值不超过阈值s3，场景保持为咽部，不进行转换。

考虑到在实际应用场景中，根据操作人员的经验，消化内镜的入镜过程并非完全依照标准流程，一次性从体外进入口腔，再向下通过咽部进入食道。相反，操作者可能将内镜放入患者口腔后，再把内镜拿出至体外，并在一段时间后再次插镜。此外，在口腔内部也可能会有和咽部相似的模糊场景出现，若将口腔中出现的模糊场景错当为咽部场景，并判断消化内镜已经进入咽部，将严重影响口腔末端时间点的准确判断。因此，如果忽略这些异常操作，只按照标准流程的时序来进行处理，很可能会错误地判断口腔末端时间点，并最终影响消化内镜通过咽部时间判断的准确性。为了避免内镜在进入咽部前被拿出体外的情况下给场景转换带来的时序混乱，本发明实施例还采用了基于时序信号区间内分类总值统计及当前场景类别标志位的异常情况处理模块，其中通过设置一个口腔开始标志位，当检测到当前场景类别为口腔时，口腔开始标志位被置为1，可以执行下一步由口腔到咽部的场景转换。但如果检测到当前场景类别为体外时，则口腔开始标志位被重置为0，不执行由口腔到咽部的场景转换，该口腔开始标志位的设置可以保证口腔末端时间点不受上述异常情况的影响。

同时，为了准确地判断消化内镜通过口腔及咽部，向下进入食道的时间点，本发明实施例中还会利用异常情况处理模块在统计到区间内分类总值上升到阈值s并引起场景转换，且口腔结束标志位被置为1时，记录下当前时间点t0，作为消化内镜离开口腔的标志时间点。为了避免消化内镜在口腔中行进时没有居中，从而采集到与咽部类似的模糊图像并影响口腔末端时间点判断的问题，本发明实施例中，还会利用异常情况处理模块在场景转换到咽部后且仍有检测到口腔时，先将口腔结束标志位重置为0，再将口腔末端时间点t0更新为当前时间点，从而只记录最后一次发生从口腔到咽部的场景转换时间点，作为正式的口腔末端时间点，来保证其不受口腔中模糊场景的影响，避免先前由于时序混乱造成的误判。

具体的，在本发明实施例中，为了处理消化内镜入镜过程中，消化内镜从口腔退回体外的异常情况，设置口腔开始标志位k，预设值为0。当前述双向场景转换模块中场景从体外转换为口腔时，将口腔开始标志位k设为1。在此条件下，若区间内分类总值超过设定的阈值，则允许模块3进行从口腔向咽部的场景转换。但如果在发生口腔到咽部的场景转换前，消化内镜被操作者移至体外，导致前述模型检测到体外场景，则将口腔开始标志位k重置为0，禁止前述双向场景转换模块执行从口腔到咽部的场景转换。利用该异常情况处理模块，即便在手术过程中，内窥镜从口腔被移至体外，由于口腔开始标志位k为0，前述双向场景转换模块无法执行从口腔到咽部的场景转换，场景分类器就不会开始记录口腔末端时间，从而避免上述异常情况带来的时序混乱问题，记录到错误的口腔末端时间点。

具体的，在本发明实施例中，为了处理消化内镜入镜过程中，在口腔中可能遇到多段口腔与咽部交替出现，从而影响口腔末端时间点判断的情况，设置口腔结束标志位m，预设值为0。当前述双向场景转换模块中场景从口腔转换为咽部时，将口腔结束标志位m设为1，并记录当前转换时间点t0为口腔末端时间点。但倘若在转换开始后，场景分类器又检测到口腔并转换到口腔场景，则在此时将口腔结束标志位重新设为0。直到下一次向咽部的转换开始时，将口腔结束标志位设1，并用当前时间点覆盖先前记录的时间点t0，作为新的口腔末端时间点。这样，即使手术过程中，消化内镜在口腔中产生了多段口腔与咽部交替出现的情况，该异常情况处理模块也可以确保只取最后一次口腔向咽部的转换时间，作为口腔末端时间点。

在本发明实施例中，在利用前述场景分类器对消化内镜取得的图像进行分类，再经由前述双向场景转换模块和异常情况处理模块，对场景转换和异常状况进行处理后，可以取得准确的口腔末端时间点t0(即消化内镜通过口腔末端的时间点)，并取得食道开始时间点t1(即消化内镜通过咽部到达食道中上部位转换的时间点)，最终利用口咽通过时间计算模块计算出该两个时间点的时间差(t1-t0)，并将结果输出，作为操作者的口咽通过时间，请参阅图6。

本发明实施例提供的一种基于前述自动检测系统的消化内镜口咽通过时间自动检测方法是以图像动态预处理器首先对从消化内镜检测设备输出的原始图像进行动态预处理，裁剪掉对卷积神经网络图像分类器模型造成干扰的黑色信息区域，再利用基于卷积神经网络的场景分类器实时高效地为内镜设备获取的图像进行场景分类，继而为了确保消化内镜设备获取的图像场景分类在时序信号上的稳定，进一步利用基于时序信号区间内分类总值统计和当前场景标志位的双向场景转换模块将卷积神经网络产生的分类信号进行整合，进一步加强场景分类以及场景转换的可靠性。以及，为了准确地得到消化内镜从离开口腔到进入食道的时长，还将区间内分类总值统计信息与当前场景标志位相结合，在口腔开始标志位为1，开始向咽部场景进行转换，且区间内分类总值超过一定阈值时，触发并记录当前时间点为口腔末端时间点，此外，为了保证口腔末端时间点的准确判断，还增加了异常情况处理模块，用以过滤不符合时序信息等异常情况给时间判断带来的问题。在已经检测到食道中上部开始信号，且区间内分类总值上升到一定阈值时，触发并记录当前时间点为食道开始时间点，并计算口腔末端时间点与食道开始时间点的时间差，即获得消化内镜的口咽通过时间。

更为直观的，请参阅图7，一种所述的自动检测方法包括如下步骤：

S1、通过消化内镜设备实时获取场景图像(图7中简称为“内镜图像”)；

S2、通过图像动态预处理模块对原始图像进行动态预处理；

S3、将获取的场景图像用场景分类器进行初步场景分类；

S4、将场景分类器输出的结果纳入计算区间，其中区间大小为N；

S5、统计区间内分类总值(图7中简称为“区间内分类总值”)；

S6、根据当前场景和区间内分类总值，更新当前场景标志位；

S7、根据当前场景标志位及区间内分类总值，确定场景转换；

S8、根据当前区间内分类总值，以及步骤S6中的场景转换，确定口腔末端转换时间点t0，以及食道开始时间点t1；

S9、根据口腔末端时间点t0及食道开始时间点t1，计算二者差值(t1-t0)，即口咽通过时间。

请进一步参阅图7，该自动检测方法之中，在完成步骤S4之后，进入步骤S5之前，还进行了过滤噪点图片并处理异常情况的操作。

本发明实施例提供的消化内镜口咽通过时间自动检测系统及方法能够准确地为消化内镜CAD系统提供场景信息，以及准确地确定消化内镜从离开口腔末端到向下进入食道的时长，并输出此时长以辅助对消化内镜操作者的水平进行准确的评估。

应当理解，本发明的技术方案不限于上述具体实施案例的限制，凡是在不脱离本发明宗旨和权利要求所保护的范围情况下，根据本发明的技术方案做出的技术变形，均落于本发明的保护范围之内。

Claims

1.一种消化内镜口咽通过时间自动检测系统，其特征在于，包括：

口咽通过时间计算模块，用于依据所述双向场景转换模块和异常处理模块输出的信息以及当前区间场景，判断消化内镜通过口腔末端的时间点和消化内镜到达食道中上端的时间点，并计算该两个时间点的时间差，获得消化内镜口咽通过时间；

所述双向场景转换模块依据如下条件1~条件5确定场景转换；

其中体外场景转换为口腔场景由条件1决定，条件1包括：

当前所处场景为体外场景，以及

区间内分类总值

> s1，其中i代表区间中的场景状态值，取值范围为[0,1,2,3]，分别代表体外、口腔、咽部、食道中上部场景，s1=

口腔场景转换为体外场景由条件2决定，条件2包括：

当前所处场景为口腔场景，以及

区间内分类总值

<= s1，其中i代表区间中的值，取值范围为[0,1,2,3]，分别代表体外、口腔、咽部、食道中上部场景，s1=

口腔场景转换为咽部场景由条件3决定，条件3包括：

当前场景为口腔场景，

区间内分类总值

> s2，其中i代表区间中的值，取值范围为[0,1,2,3]，分别代表体外、口腔、咽部、食道中上部场景，s2=

当前口腔标志位为1，代表已经检测到口腔；

咽部场景转换为口腔场景由条件4决定，条件4包括：

当前场景为咽部场景，

区间内分类总值

<= s2，其中i代表区间中的值，取值范围为[0,1,2,3]，分别代表体外、口腔、咽部、食道中上部场景，s2=

咽部场景转换为食道中上部场景由条件5决定，条件5包括：

当前场景为咽部场景；

区间内分类总值

> s3，其中i代表区间中的值，取值范围为[0,1,2,3]，分别代表体外、口腔、咽部、食道中上部场景，s3=

2.根据权利要求1所述的消化内镜口咽通过时间自动检测系统，其特征在于：所述图像动态预处理模块用于动态地裁剪除去原始图像中的无效图像区域，并保留有效图像区域作为所述场景图像，所述无效图像区域包括原始图像中的黑色边框区域，所述有效图像区域包括直接从消化内镜镜头内拍摄到的区域。

3.根据权利要求2所述的消化内镜口咽通过时间自动检测系统，其特征在于：所述图像动态预处理模块用于对原始图像的像素值进行逐行逐列扫描，并对各行各列的像素值进行求和，当扫描到的任一行或任一列的像素和大于预设的阈值c时，判断离开无效图像区域，并开始进入有效图像区域，记录此时的坐标信息，同理，当在有效图像区域内继续向后或向下扫描，且扫描到任一行或任一列的像素和小于或等于预设的阈值c时，判断离开有效图像区域，记录此时的坐标信息，当获取到所有坐标信息后，将这些坐标以外的无效图像区域去除，从而获得场景图像。

4.根据权利要求1所述的消化内镜口咽通过时间自动检测系统，其特征在于：所述基于卷积神经网络的场景分类器是利用训练数据集进行训练获得的；

5.根据权利要求4所述的消化内镜口咽通过时间自动检测系统，其特征在于：所述基于卷积神经网络的场景分类器是基于预训练样本集进行预训练后，再基于所述训练数据集进行训练获得；所述训练数据集、预训练样本集所包含的场景图像均是经所述图像动态预处理模块处理过的。

6.根据权利要求4所述的消化内镜口咽通过时间自动检测系统，其特征在于：所述场景分类器以单帧消化内镜图像作为输入，通过通用卷积神经网络后形成预定维度的特征向量，所述特征向量经过多分类线性分类器之后，获得场景图像的分类标签。

7.根据权利要求1所述的消化内镜口咽通过时间自动检测系统，其特征在于：所述双向场景转换模块用于将所述场景分类器的分类结果纳入当前的计算区间，并统计区间内分类总值，再根据当前场景和区间内分类总值，更新当前场景标志位，以及，根据当前场景标志位及区间内分类总值，确定场景转换。

8.根据权利要求1所述的消化内镜口咽通过时间自动检测系统，其特征在于，所述异常情况处理模块用于：

设置口腔开始标志位，当所述场景分类器输出的场景分类为口腔场景时，将所述口腔开始标志位设置为1，并允许所述双向场景转换模块执行由口腔场景转换到咽部场景的操作，而当所述场景分类器输出的场景分类由口腔场景转换为体外场景时，则将所述口腔开始标志位重置为0，并禁止所述双向场景转换模块执行由口腔场景转换到咽部场景的操作；

和/或，将口腔结束标志位预设为0，当由口腔场景转换为咽部场景时，将所述口腔结束标志位设为1，并记录当前转换时间点t0为消化内镜通过口腔末端的时间点，若在由口腔场景转换为咽部场景后，又检测到口腔且转换为口腔场景，则将所述口腔结束标志位重新设为0，直到下一次由口腔场景向咽部场景的转换开始时，将所述口腔结束标志位设1, 并用当前时间点覆盖此前记录的转换时间点t0，作为新的消化内镜通过口腔末端的时间点。

9.一种消化内镜口咽通过时间自动检测方法，其特征在于，所述方法是基于权利要求1-8中任一项所述消化内镜口咽通过时间自动检测系统实施的，并且所述方法包括：

（1）以消化内镜设备实时获取场景图像作为原始图像；

（2）对所述原始图像进行动态预处理；

（3）以基于卷积神经网络的场景分类器对经步骤（2）处理后的场景图像进行场景分类；

（4）将所述场景分类器的分类结果纳入当前的计算区间，并统计区间内分类总值，再根据当前场景和区间内分类总值，更新当前场景标志位；

（5）根据当前场景标志位及区间内分类总值，确定场景转换；

（6）根据当前区间内分类总值及步骤（5）的场景转换，确定口腔末端转换时间点t0以及食道中上端转换时间点t1，再计算该两个时间点的时间差值= (t1-t0)，即口咽通过时间。