CN109997147B

CN109997147B - 对鼓膜病理进行分类的系统、方法和计算机可读介质

Info

Publication number: CN109997147B
Application number: CN201780067908.6A
Authority: CN
Inventors: C·塞那拉司; A·C·莫伯利; T·特克诺斯; G·F·小艾西格; C·A·艾尔玛拉基; N·F·塔吉-沙尔; 于连波; M·N·库尔坎
Original assignee: Ohio State Innovation Foundation
Current assignee: Ohio State Innovation Foundation
Priority date: 2016-09-02
Filing date: 2017-09-01
Publication date: 2023-09-05
Anticipated expiration: 2037-09-01
Also published as: AU2017318691B2; US11612311B2; EP3507743A1; EP3507743B1; EP3507743A4; JP2023182612A; AU2017318691A1; CA3035763A1; CN117058418A; US20210228071A1; US20190216308A1; JP2019534723A; CN109997147A; US10932662B2; AU2022221521A1; WO2018045269A1

Abstract

本申请涉及对鼓膜病理进行分类的系统、方法和计算机可读介质。本发明公开了一种系统和方法，所述系统和方法通过使用高分辨率耳镜图像来检测宽泛范围的耳膜异常以及将所述耳膜的所述状况报告为“正常”或“异常”。

Description

对鼓膜病理进行分类的系统、方法和计算机可读介质

相关申请的交叉引用

本专利申请要求于2016年9月2日提交的美国临时专利申请序列号62/382,914的优先权和权益，该专利申请全文以引用方式并入本文并且构成本专利申请的一部分。

技术领域

本申请涉及对鼓膜病理进行分类的系统、方法和计算机可读介质。

背景技术

耳部感染，特别是中耳的急性感染(急性中耳炎)，是最常见的儿童期疾病，仅在美国，每年医生就诊约为2000万次。通过开发评估耳膜的客观方法，诊断的主观性导致需要解决的关键差距以改善诊断准确性。文献中的少数先前研究集中在基于计算机的耳膜分析以辅助耳部病理的客观诊断，但是这些研究仅限于评估中耳炎，同时排除其他重要的耳部病理[1至4]。开发更具包容性的客观方法来识别耳膜异常将有助于临床医生诊断或排除临床耳镜检查中可能微妙的病理(例如，中耳液)。

目前耳部病理诊断以及现有软件工具的工作如下：和其同事开发的计算机图像分析软件的早期研究尝试专门针对儿科病例的中耳炎[1]。该研究的作者通过使用不同的监督分类器研究了两种颜色描述符的性能：HSV颜色直方图和HSV颜色聚合向量。他们的实验表明，HSV颜色聚合向量表现出比经典颜色直方图更好的性能。然而，作者还得出结论，单独的颜色信息不足以识别中耳炎病例。在最近的一项研究中，Kuruvilla和其同事开发了一个词汇和语法系统，以便将给定的耳膜图像分类为急性中耳炎(AOM)、中耳炎有积液(OME)或无积液(NOE)[2]。该算法以分段步骤开始，该步骤旨在定位耳膜，随后是减少局部照明问题影响的步骤。接下来，提取若干代表性特征以表示临床特征，诸如耳膜的鼓胀或半透明，或耳膜后面的气泡的存在。最后，使用基于分层规则的决策树对图像进行分类。Shie和其同事提出了另一种检测中耳炎的方法[3]。为了将鼓膜与输入耳镜图像分离，他们引入了改进的两步主动轮廓分割方法。然后该算法提取了几个颜色和纹理特征，如Gabor、梯度直方图和网格颜色矩。这些特征中的每一个被单独用于训练不同的支持向量机(SVM)分类器。最后，SVM分类器的预测概率被Adaboost用作最终分类的特征。2015年，Shie和其同事使用转移学习范例进行中耳炎检测[4]。作者从ImageNet图像中提取了无监督码本。使用转移学习的特征向量，这是通过使用码本编码中耳炎图像获得的，他们采用监督学习从标记的中耳炎实例中学习分类器。最后，他们将分类结果与一些启发式特征(在[3]中发表)的结果融合在一起，并且改善了它们的检测性能。虽然数据库的内容和大小的变化以及这些先前研究的重点使得难以客观地比较性能，但是这些方法的准确度范围为73％[1]至89％[2]。

最近，进行了一项研究，以检查使用手持式视频耳镜系统收集的数字图像的专家的诊断准确性(参见A.C.Moberly、M.Zhang、L.Yu、M.Gurcan、C.Senaras、T.N.Teknos等人，“Digital otoscopy versus microscopy:How correct and confident are ear expertsin their diagnoses？”Journal of Telemedicine and Telecare，印刷号1357633X17708531，2017年，该文献以引用方式全部并入本文)。该研究评估了12位耳科医生(接受耳科疾病研究员培训的耳鼻喉科医师)从数据库中检查210个耳部图像的子集的诊断准确性、评估者间一致性和置信水平。这些耳科医生将图像诊断为正常或七种类型的病理。与具有客观评估的耳显微镜的金标准相比，这些医生诊断耳部病理的总体准确率仅为75.6％。该研究的结果进一步支持了对客观计算机辅助图像分析(CAIA)方法的需求，诸如本文所述的方法，以帮助临床医生进行更准确的耳部诊断。

识别耳膜异常的客观方法将有助于临床医生制定或排除目前基于主观信息的诊断，特别是对于临床耳镜检查可能微妙的病理。尽管一些先前的方法[1至4]是有希望的，特别是对于中耳炎的客观评估，但是目前它们均无法识别多于一类的耳膜异常。因此，其他临床相关的异常(例如，鼓室硬化或鼓膜回缩)将被这些先前的方法检测为“中耳炎”或“正常”。由此导致的错误分类可能导致这些病理的临床管理不当。

因此，需要克服的是本领域的挑战的系统和方法，其中一些如上所述。具体地，需要一种及时且准确的方法和系统来分析耳镜检查图像，以便适当地识别和分类多种耳部病理中的任一种。

发明内容

在本文中我们公开并且描述了新颖的自动耳镜检查图像分析系统和方法。目前，该系统和方法被设计成检测超过14种耳膜异常，并且将耳膜的状况报告为“正常”或“异常”以及异常的类型(参见图1A至图1E)。使用高分辨率成人和儿科图像的集中数据库进行了概念验证，这些图像从美国俄亥俄州立大学(OSU)和全国儿童医院(NCH)以及初级保健机构(由Taj-Schaal博士)的耳、鼻和喉(ENT)诊所经由耳镜捕获。与先前的研究不同，本发明所公开的方法旨在使用一组混合特征：1)临床动机的耳膜特征(CMEF)，其被设计用于根据临床知识表征症状，以及2)计算机视觉文献中的几种现有颜色、纹理和形状特征一起。计算机视觉特征包括梯度直方图和网格颜色矩特征，研究发现这些特征在先前的中耳炎检测研究中有用[3、4]，以及MPEG 7描述符，研究已经证明了它们在基于内容的图像检索中的稳健性。尽管在不同的生物医学图像处理问题中分析了MPEG 7描述符[5]，但这是第一项评估MPEG 7描述符对鼓膜图像有效性的研究。相似地，本研究定义了一组新的临床动机耳膜特征，以识别不同类型的异常(如鼓膜造孔管、耳垢和/或穿孔的存在)并且将其整合到框架中。最后，最先进的监督集成学习分类器、模糊堆叠泛化(FSG)中的一个创建了融合空间，该融合空间由基于个体特征的多个基底层分类器的决策构成[6]。因此，而不是依赖于每个特征的个体强度；这些特征的多样性和协作改善了整体分类性能。

本文公开了用于对图像中的鼓膜病理进行分类的方法。一种方法包括使用图像捕获设备(例如，高分辨率数字耳镜)捕获鼓膜的一个或多个图像(例如，耳膜)；对所捕获的一个或多个图像执行预处理；以及使用所捕获的一个或多个图像对鼓膜的病理进行分类。

本文还公开了用于对图像中的鼓膜病理进行分类的系统。一种此类系统包括图像捕获设备(例如，高分辨率数字耳镜)；存储器；和处理器，该处理器与存储器通信，其中处理器执行存储在存储器中的计算机可读指令，这些指令使处理器；对所捕获的一个或多个图像执行预处理；以及使用所捕获的一个或多个图像对鼓膜的病理进行分类。

本公开的另一方面包括一种非暂态计算机程序产品，该非暂态计算机程序产品包括存储在计算机可读介质上的计算机可执行代码段，所述计算机可执行代码段用于执行对图像中的鼓膜病理进行分类的方法，包括：对鼓膜(例如，耳膜)的一个或多个图像执行预处理；以及使用这些图像对鼓膜的病理进行分类。

另外的优点将在下面的描述中部分地阐述或者可通过实践来获知。这些优点将通过所附权利要求书中具体指出的元素和组合来实现和获得。应当理解，上述一般性描述和以下详细描述都仅仅出于示例性和说明性目的，而不是限制性的，如声明中所述。

附图说明

并入并构成本说明书一部分的附图示出了实施方案，并且连同描述一起用来解释所述方法和系统的原理：

图1A至图1E是几种异常的示例摄影图像：图1A为鼓膜硬化，图1B为穿孔，图1C为耳垢，图1D为缩回，图1E为注射后结壳；

图2示出了用于对图像中的耳膜病理进行分类的示例性概览系统；

图3A示出了包括对耳部病理进行分类的方法的实施方案的模块；

图3B示出了示例性复合图像生成方法的流程图，其中情况1发生在新帧包括先前未被另一个重要帧覆盖的新感兴趣区域时，并且如果已经被先前重要帧覆盖的区域在这个新帧中具有更高的质量，则发生情况2；

图3C至图3F示出了来自五秒视频剪辑(图3C至图3E)和新复合图像(图3F)的三个样本帧，其中复合图像覆盖了更大的视野，并且受到模糊、蜡阻塞或眩光的影响较小；

图4A至图4C是示出从耳膜图像中去除嵌入的文本的照片；

图5A和图5B是示出识别耳膜图像中的感兴趣区域(ROI)的照片；

图6A和图6B是示出耳膜图像中眩光的检测和去除的照片；

图7是具有中耳积液诊断的耳朵的基于内容的图像检索的示例；

图8是示出对耳膜病理进行分类的示例性方法的流程图；

图9示出了可用于对图像中的鼓膜病理进行分类的示例性计算机；

图10A至图10C是示出对异常耳膜进行正确分类的图像的照片；

图11A至图11C是示出包括被错误地分类为异常的17个正常耳膜中的三个的照片；并且

图12A至图12C是示出被错误地分类为正常的异常耳膜的照片。

具体实施方式

在公开和描述本发明的方法和系统之前，应当理解，所述方法和系统不限于特定的合成方法、特定部件或特定的组成。另外应当了解，本文所用的术语只是为了描述特定实施方案的目的，并非旨在进行限制。

如本说明书和所附权利要求书中所使用的，单数形式“一个”和“所述”包括复数指代，除非上下文另有明确说明。在本文中，范围可被表示为从“约”一个具体的值，和/或到“约”另一个具体的值。当表示此类范围时，另一个实施方案包括从一个特定值和/或到其他特定值。相似地，当前面用“约”将值表示为近似值时，应当理解，该值的特定值构成了另一个实施方案。还应当理解，每个范围的端值相对于另一个端值以及独立于另一个端值都是有意义的。

“任选的”或“任选地”意指随后描述的事件或情况可发生或可不发生，并且该描述包括所述事件或情况发生的示例和不发生的示例。

在本说明书的整个描述和权利要求书中，词语“包括”及其变型形式，诸如“含有”和“包含”是指“包括但不限于”，而非意图排除例如其他添加物、部件、整数或步骤。“示例性”是指“…的示例”，并且并非意图传达优选的或理想的实施方案的指示。“诸如”并非以限制性意义使用，而是出于解释的目的。

本发明公开了可用于执行所公开的方法和系统的部件。本文公开了这些以及其他部件，并且应当理解，当公开这些部件的组合、子组、交互、组等时，尽管可能没有明确公开对这些部件的各种单独和集合组合和排列中每一者的特定引用，但对于所有的方法和系统，本文对每一者都进行了具体地设想和描述。这适用于本申请的所有方面，包括但不限于所公开的方法中的步骤。因此，如果存在可进行的各种另外的步骤，则应当理解，这些另外的步骤中的每一个步骤可利用所公开的方法的任何特定实施方案或实施方案的组合来进行。

如本领域的技术人员将理解的，所述方法和系统可采取纯硬件实施方案、纯软件实施方案或软件和硬件方面相组合的实施方案的形式。此外，该方法和系统可采取计算机可读存储介质上的计算机程序产品的形式，该计算机可读存储介质具有在存储介质中实施的计算机可读程序指令(例如，计算机软件)。更具体地讲，本发明的方法和系统可采取网络实现的计算机软件的形式。可利用任何合适的计算机可读存储介质，包括硬盘、CD-ROM、光存储设备或磁存储设备。

下面参考方法、系统、装置和计算机程序产品的框图和流程图图示来描述所述方法和系统的实施方案。应当理解，框图和流程图图示中的每个框，以及框图和流程图图示中的框的组合可分别通过计算机程序指令来实现。这些计算机程序指令可被加载到通用计算机、专用计算机或其他可编程数据处理装置上来生产机器，从而使得在计算机或其他可编程数据处理装置上执行的指令创建用于实现在一个或多个流程图框中指定的功能的方法。

这些计算机程序指令可还被存储在计算机可读存储器中，可指示计算机或其他可编程数据处理装置以特定方式工作，从而使得存储在计算机可读存储器中的指令产生制品，该制品包括用于实现在一个或多个流程图框中指定的功能的计算机可读指令。计算机程序指令可还被加载到计算机或其他可编程数据处理装置上，以导致在所述计算机或其他可编程装置上执行一系列可操作步骤来产生计算机实现的过程，使得在所述计算机或其他可编程装置上执行的指令提供用于实现在一个或多个流程图框中指定的功能的步骤。

因此，框图和流程图图示中的框支持用于执行指定功能的方法的组合、用于执行指定功能的步骤和用于执行指定功能的程序指令方法的组合。还应当理解，框图和流程图图示中的每个框以及框图和流程图图示中的框的组合可由执行指定功能或步骤的基于专用硬件的计算机系统或专用硬件和计算机指令的组合来实施。

本发明的方法和系统可通过参见以下对优选实施方案的详细描述和包括在其中的实例以及参见附图以及其前文和下文的描述而更易于理解。

图2示出了用于对图像中的耳部病理进行分类的示例性概览系统。如图2所示，系统100的一个实施方案包括图像捕获机构102。在一个方面，图像捕获机构102可以是相机。更具体地，图像捕获机构102可以是数字耳镜。图像捕获机构102可以拍摄静止和/或视频图像。一般来讲，图像捕获机构102将是数字相机，但是可以是配备有适当的模拟/数字转换器或与之通信的模拟设备。图像捕获机构102可还是网络摄像头、扫描仪、记录器或能够捕获静止图像或视频的任何其他设备。

如图2所示，图像捕获机构102通过例如网络(有线(包括光纤)、无线或有线和无线的组合)或直接连接电缆(例如，使用通用串行总线(USB)连接、IEEE 1394“火线”连接等)与计算设备110直接通信。在其他方面，图像捕获机构102可以远离计算设备110定位，但是能够捕获图像并且将其存储在存储器设备上，使得可以使用例如便携式存储器设备等将图像下载或传输到计算设备110。在一个方面，计算设备110和图像捕获机构102可以包括或者是设备诸如智能设备、智能电话、平板电脑、膝上型计算机或任何其他固定或移动计算设备的一部分。

在基本配置中，计算设备110可以包括处理器104和存储器108。处理器104可以执行存储在存储器108中的计算机可读指令。此外，由图像捕获机构102捕获的图像，无论是静止图像还是视频，都可以存储在存储器108中，并且由处理器104使用存储在存储器108中的计算机可读指令进行处理。

处理器104与图像捕获机构102和存储器108通信。处理器104可以执行存储在存储器108上的计算机可读指令，以使用图像捕获机构102捕获图像。在一个方面，所捕获的图像可以包括受试者的耳膜的图像。

处理器104可还执行存储在存储器108上的计算机可读指令，以使用图像捕获机构102捕获一个或多个数字图像，并且对一个或多个图像中的耳部病理进行分类。

图3A示出了包括对耳部病理进行分类的方法的实施方案的模块。这些模块可以包括可以由处理器104执行的软件。这些模块包括预处理模块202；提取具有临床意义的耳膜特征(CMEF)204；提取计算机视觉特征(CVF)206；以及，利用决策融合进行分类208。本文更详细地描述了这些模块中的每一个。

耳镜诸如HD视频耳镜(例如，美国密苏里州圣路易斯市JEDMED Horus+HD VideoOtoscope)可用于捕获耳膜的一个或多个图像或视频。尽管收集的HD图像的较高分辨率允许识别一些异常，但是该产品的一些设计问题可能会造成自主识别的挑战。在预处理模块202中，减少了这些挑战并且准备了图像以用于计算它们的特征。

由于视觉障碍(例如，蜡、毛发)、不良照明或小视野，获取足够的图像可能是具有挑战性的任务。如果患者是儿童，则可能还存在在患者不合作时能够捕获良好静止图像的问题。为了解决这些挑战，开发了一种新方法。在这种方法中，捕获了耳道的短视频(大约3秒至5秒)。然后，执行图3B所示算法的软件分析耳膜的视频帧并且创建新的镶嵌图像(参见图3C，用于样本输出)。

对于视频序列中的每个新帧，如图3B中所描述的镶嵌图像创建算法确定了没有阻碍的感兴趣区域(例如，蜡、毛发—关于如何实现这一点的详细方法如下)。这些区域中的每一个被分成子节段，并且在对焦、具有足够的对比度和照明方面评估每个节段中的图像质量。如果帧包括耳膜的未包含在先前帧中的部分，或者包括耳膜的已包含的部分但具有更高质量(在对焦、对比度和照明方面)，则将该帧标记为“重要帧”或以其他方式识别。最后，新方法通过考虑视频序列中所有“重要帧”中的感兴趣区域来构建镶嵌图像。

帧可包括不同量的视觉障碍物(例如，蜡、毛发、眩光等)和/或照明质量。如本文所述，该方法包括构造具有优异照明的无障碍物复合图像。因此，该算法在复合图像生成期间检测障碍物(蜡、眩光和毛发—参见下文)和失焦区域。为此，该算法将每个新帧与先前帧进行比较，并且使用更对焦且照明良好的区域更新新图像。为了判定对焦和照明质量，计算了图像熵，并且选择了具有最高熵的帧。

关于蜡检测，耳垢的典型特征之一是其为黄色。因此，通过在CMYK色彩空间中使用阈值来识别黄色区域。在将这些潜在的耳垢区域检测为CMYK空间中具有最高“Y”值的那些区域之后，计算这些耳垢区域的强度(即“Y”值)的梯度量值的平均和标准变化。将这些特征输入到FSG分类器以检测蜡区域。

眩光是由来自鼓膜表面上的耳镜的光的反射引起的。眩光可能是计算某些特征(例如，鼓膜的平均色值)的问题。另一方面，光锥，一种重要的临床诊断线索，可以通过眩光检测算法无意中被视为眩光并且被移除。为了正确地提取特征，本发明所公开的方法包括计算强度值的直方图并且找到与直方图中的最高强度值对应的峰值。该峰值对应于眩光和光锥。为了区分眩光与光锥，应用了区域阈值(其中眩光大于光锥)。

毛发检测包括通过使用线段检测器检测细线性结构，诸如以下描述：R.G.vonGioi、J.Jakubowicz、J.-M.Morel和G.Randall，“LSD:A fast line segment detectorwith a false detection control”，IEEE transactions on pattern analysis andmachine intelligence，2010年，第32卷，第722-732页，该文献以引用方式全部并入本文。每根发束由两条线(毛发的两个边缘)表示，彼此大致平行并且线彼此靠近。因此，具有短距离的每个近似平行线对被认为是毛发候选者。在这些平行线之间计算图像纹理，并且将具有小纹理变化的图像纹理标记为毛发。

在一个实施方案中，在提取感兴趣的区域之后，将这些区域划分为64×64像素块。对于每个块，计算标准偏差、灰度共生矩阵、对比度和平均强度值。对这些值进行加权，以计算图块质量。可以手动或自动确定权重。

为了记录两个帧，自动提取感兴趣的点并且匹配这些点的特征向量。为了提取感兴趣的点，比较了三种最先进方法的性能(参见H.Bay、T.Tuytelaars和L.Van Gool，“Surf:Speeded up robust features”，Computer vision–ECCV 2006，第404-417页，2006年；D.G.Lowe，“Distinctive image features from scale-invariant keypoints”，International journal of computer vision，2004年，第60卷，第91-110页；以及E.Rublee、V.Rabaud、K.Konolige和G.Bradski，“ORB:An efficient alternative to SIFTor SURF”，在Computer Vision(ICCV)、2011IEEE International Conference on，2011年，第2564-2571页，这些文献中的每一个均以引用方式全部并入本文)。为了识别匹配点，该方法计算了两帧中所有可能检测到的特征对之间的距离。该方法使用随机样本一致性算法(RANSAC)估计初始Homograph矩阵(参见M.A.Fischler和R.C.Bolles，“Random sampleconsensus:a paradigm for model fitting with applications to image analysisand automated cartography”，Communications of the ACM，1981年，第24卷，第381-395页，该文献以引用方式全部并入本文)。

根据两个标准，判断每个帧是否为“重要帧”：(1)如果新帧包括先前未被另一个重要帧覆盖的新感兴趣区域；或者(2)如果已经被先前重要帧覆盖的区域在该新帧中具有更高的质量。然后可以通过缝合来创建复合图像(图3F)。本发明所公开的方法在复合图像构造期间使用“重要帧”。该算法为耳膜的子部分选择最合适的“重要帧”，并且使用多波段混合(金字塔混合)方法，该方法确保图像之间的平滑过渡，尽管存在照明差异，同时保留高频细节。

返回图3A，预处理可以包括嵌入的文本去除。在许多情况下，由耳镜捕获的图像将日期和时间信息嵌入图像中以用于临床目的。在预处理中，可能需要去除该嵌入的日期和时间信息。计算机视觉社区已经考虑了静止图像和视频序列的文本检测和去除过程[7]。然而，与一些现有研究不同，本发明为了检测不同频带的嵌入的文本强度比，并且梯度信息一起使用。由于有关文本的可能位置和颜色范围的先前信息，该解决方案允许检测具有高召回率的文本字符。检测到的文本像素用于创建引导场，并且对于这些像素，梯度的量值被设置为零。最后，覆盖的文本被无缝地隐藏[8](图4A至图4C)，导致图4C的图像。

预处理模块202可还包括感兴趣区域(ROI)检测。由于所使用的图像捕获设备(例如，耳镜)的尖端的物理特性，包括耳膜的ROI可以在整个图像中的任何位置。而且，尖端特性可能在图像中的尖端的边界处引起一些反射问题(参见图5A和图5B)。为了解决这个问题，该算法根据它们的强度值群集所有像素，然后通过考虑图像边界上的大多数像素来选择背景区域。在检测到背景像素之后，通过使用具有Bookstein约束的线性最小二乘法将可能的前景像素拟合为椭圆[9]。最后，应用形态学侵蚀操作来消除尖端周围可能的眩光伪影。

预处理模块202可还包括眩光检测和去除。图像中最关键的伪像之一是眩光，其由来自鼓膜的表面上的图像捕获设备(例如，耳镜，包括高分辨率数字耳镜)的光的反射引起。眩光可能是计算某些特征(例如，鼓膜的平均色值)的挑战。另一方面，光锥，一种重要的临床诊断线索，可以通过眩光检测算法无意中被视为眩光并且被移除。为了正确地提取特征，计算强度值的直方图，并且在直方图中找到对应于眩光的相关联峰。在眩光检测之后，该算法创建了图像的修改副本，其中通过使用[8]中的方法将检测到的眩光区域无缝地混合到图像的其余部分(例如，参见图6A和图6B)。

图3A至图3F中所示的模块还包括临床动机的耳膜特征(CMEF)204的提取。CMEF包括一组手工制作的特征，诸如光锥的存在和位置、锤骨的可见度、膜的突起、鼓膜造控管的存在、蜡的存在等，根据用于定义异常和正常的临床知识，这些特征被定义用于表征症状。

计算机视觉特征(CVF)模块206的提取可以包括使用MPEG 7视觉描述符，这些描述符已经在基于内容的图像检索、矩直方图和网格颜色梯度特征中证明了它们作为计算机视觉特征的稳健性。参见T.Sikora，“The MPEG-7visual standard for contentdescription-an overview”，在IEEE Transactions on Circuits and Systems forVideo Technology，2001年6月，第11卷第6期第696-702页，doi:10.1109/76.927422，该文献以引用方式全部并入本文。

分类208可以包括使用称为模糊堆叠泛化(FSG)[6]的双层决策融合技术来检测异常，因为它允许我们使用互补特征的优点而不是强特征。在基底层中，每个特征空间由单独的分类器单独使用，以计算类成员资格向量。然后聚合基底层分类器、类成员资格值的决策，以构造新空间，该空间被馈送到元层分类器。在本说明书的示例部分中提供了与不同分类器的比较。

FSG可还用于多类分类，以识别多种类型的耳部病理：例如，AOM、中耳积液(无感染的液体)、胆脂瘤(耳中常见的破坏性皮肤囊肿)、耳膜穿孔和耳膜回缩与正常。因此，相同的双层决策融合FSG技术被修改用于异常类型的识别，因为它允许使用互补特征的优点而不是强特征。使用模糊类成员资格值来估计置信水平。

另选地或另外地，深度学习可用于对耳膜异常进行分类。神经网络可以使用第一方法的输出、原始视频剪辑和元数据(例如，患者的年龄和性别)。该方法可以包括以下网络中的至少一个：(1)现有的网络模型，即ResNet-50[8]、Inception v3[9]或Inception-Resnet[10]，Inception-Resnet已经在不同的数据集(如imagenet)上进行了训练，用于转移学习(参见K.He、X.Zhang、S.Ren和J.Sun，“Deep residual learning for imagerecognition”，在Proceedings of the IEEE Conference on Computer Vision andPattern Recognition中，2016年，第770-778页；C.Szegedy、V.Vanhoucke、S.Ioffe、J.Shlens和Z.Wojna，“Rethinking the inception architecture for computervision”，在Proceedings of the IEEE Conference on Computer Vision and PatternRecognition中，2016年，第2818-2826页；以及C.Szegedy、S.Ioffe、V.Vanhoucke和A.Alemi，“Inception-v4,inception-resnet and the impact of residual connectionson learning”，arXiv preprint arXiv:1602.07261，2016年，这些文献中的每一个均以引用方式全部并入本文)。(2)新的深度学习网络，采用无监督和监督方法设计和培训。(3)组合两种或更多种不同分类方法的集成神经网络。

另选地或任选地，机器学习可以用于检索类似耳膜病例的图像，以用于耳膜病理的分类。该方法的该实施方案可以由具有不同经验和专业水平的临床医生使用。尽管上述深度学习工具提供的决策支持对于许多临床医生来说已经足够，但是一些医生(特别是那些经验较少的人)在进行最终诊断时可能需要额外的帮助。对于那些临床医生来说，为他们提供一系列具有已经建立的基本事实的相似图像将会有所帮助。在该方法中，描述了使用基于内容的图像检索(CBIR)方法的此类工具。

图像相似性的问题在医学领域具有重要的应用，因为诊断决策常规上涉及使用来自患者数据(图像和元数据)的证据以及医生先前类似病例的经验。基于内容的图像检索是一种图像搜索技术，该技术使用可量化(客观计算)的特征作为搜索标准。本发明所公开的方法基于深度学习技术。图7是具有中耳积液诊断的耳朵的基于内容的图像检索的示例。如图7中可见，基于使用CBIR的测试图像与耳部病理图像的比较，积液的可能性(62％)远大于正常耳(37％)或急性中耳炎(15％)的可能性。

CBIR算法通过分析其视觉内容来搜索相似的图像。如本文所公开的，基于深度学习的解决方案不是依赖于手工制作的特征，而是直接从图像中学习特征。所公开的深度学习方法采用卷积神经网络(CNN)。最后三个完全连接的CNN层可用于提取特征。另外，将CNN结果与不同类型的深度学习结构进行比较。

常规的CBIR方法通常在用于多媒体相似性搜索的低级特征上选择刚性距离函数，诸如使用欧几里德距离。然而，当特征复杂时，固定的刚性相似性/距离函数可能并不总是最佳的。不是直接测量提取的特征空间中的距离，而是使用相似性学习(SL)算法。为了学习相似性度量，采用成对排序模型。对于训练样本i，d_i＝(p_i,p_i ⁺p_i ^-)被称为三元组，其中p_i、p_i ⁺和p_i ^-分别是查询图像、正图像和负图像。定义三元组的铰链损失并且旨在最小化总体损失，即基于三重的排序损失函数。最后，元数据信息是对图像特征的一般补充，以及基于医学内容的图像检索研究。可以结合患者的年龄和种族、症状/体温、先前的耳科病史和其他非图像数据，以将语义信息添加到图像特征，作为减少语义间隙的手段。

图8是示出对耳部病理进行分类的示例性方法的流程图。在一个实施方案中，该方法包括802使用图像捕获设备(例如，耳镜)捕获耳膜的一个或多个图像或视频。在一个方面，一个或多个图像包括一个或多个高分辨率耳镜图像。在804处，对所捕获的一个或多个图像执行预处理。预处理步骤可以包括用于减少基于传感器的问题的预处理步骤，选择一个或多个图像中的感兴趣区域，检测光反射和创建减少这些眩光效果的一个或多个图像的副本。预处理可还包括生成复合图像，如上所述，以去除模糊、蜡、眩光、毛发等。在806处，执行耳膜的病理分类。对病理分类的实施方案之一可以包括从一个或多个图像中提取计算机视觉特征(CVF)。视觉MPEG-7描述符、梯度直方图和网格颜色矩特征中的一个或多个用于提取颜色、纹理和形状信息。从一个或多个图像中提取具有临床意义的耳膜特征(CMEF)。临床动机的耳膜特征从一个或多个图像中识别出异常和正常的一些线索。可以使用CMEF和CVF通过决策融合来对耳膜的病理进行分类。CVF和CMEF信息通过双层堆叠泛化算法(FSG)融合，该算法侧重于互补特征而非强特征。病理分类方法的其他实施方案可还包括使用深度学习和/或CBIR自动识别异常，CBIR利用深度学习特征和训练成对排序模型，两者都如上所述。使用计算设备的处理器执行步骤806，如下所述。

上文已经将该系统描述为由单元组成。本领域技术人员将会理解，这是功能描述，并且各个功能可以由软件、硬件或软件和硬件的组合来执行。单元可以是软件、硬件或软件和硬件的组合。这些单元可包括用于区分样本组织的软件。在一个示例性方面，这些单元可以包括计算设备，该计算设备包括如图9所示以及在下文描述的处理器921。

图9示出了可用于对图像中的鼓膜病理进行分类的示例性计算机。如本文所用，“计算机”可以包括多个计算机。计算机可以包括一个或多个硬件部件，诸如，例如处理器921、随机存取存储器(RAM)模块922、只读存储器(ROM)模块923、存储装置924、数据库925、一个或多个输入/输出(I/O)设备926和界面927。另选地和/或另外地，计算机可以包括一个或多个软件组件，诸如，例如包括用于执行与示例性实施方案相关联的方法的计算机可执行指令的计算机可读介质。预期可以使用软件来实现上文列出的一个或多个硬件部件。例如，存储装置824可以包括与一个或多个其他硬件部件相关联的软件分区。应当理解，上文列出的部件仅是示例性的而不是限制性的。

处理器921可以包括一个或多个处理器，每个处理器被配置为执行指令和处理数据，以执行与计算机相关联的一个或多个功能，用于基于耳膜的一个或多个图像对耳膜的病理进行分类。处理器921可以通信地耦接到RAM 922、ROM 923、存储装置924、数据库925、I/O设备926和界面927。处理器921可以被配置为执行计算机程序指令的序列，以执行各种处理。可以将计算机程序指令加载到RAM 922中，以供处理器921执行。

RAM 922和ROM 923均可以包括一个或多个用于存储与处理器921的操作相关联的信息的设备。例如，ROM 923可以包括被配置为访问和存储与计算机相关联的信息的存储器设备，包括用于识别、初始化和监视一个或多个部件和子系统的操作的信息。RAM 922可以包括用于存储与处理器921的一个或多个操作相关联的数据的存储器设备。例如，ROM 923可以将指令加载到RAM 922中，以供处理器921执行。

存储装置924可包括任何类型的大容量存储设备，该存储设备被配置为存储处理器921可能需要执行与本发明所公开的实施方案一致的过程的信息。例如，存储装置924可以包括一个或多个磁盘和/或光盘设备，诸如硬盘驱动器、CD-ROM、DVD-ROM或任何其他类型的大容量媒体设备。

数据库925可以包括一个或多个软件和/或硬件部件，这些部件协作以存储、组织、分类、过滤和/或排列由计算机和/或处理器921使用的数据。例如，数据库925可以存储耳膜的数字图像以及用于预处理一个或多个图像的计算机可执行指令；从一个或多个图像中提取具有临床意义的耳膜特征(CMEF)；从一个或多个图像中提取计算机视觉特征(CVF)；以及，使用CMEF和CVF和/或计算机可执行指令对决策融合的耳膜病理进行分类，以使用深度学习和/或利用深度学习特征和训练成对排序模型的CBIR自动识别异常。预期数据库925可以存储比上文列出的信息更多和/或不同的信息。

I/O设备926可以包括被配置为与用户通信信息的一个或多个部件，该用户与计算机相关联。例如，I/O设备可以包括具有集成键盘和鼠标的控制台，以允许用户维护数字图像的数据库、数字图像的分析结果、量度等。I/O设备926可还包括显示器，该显示器包括用于在监视器上输出信息的图形用户界面(GUI)。I/O设备926可还包括外围设备，诸如，例如，用于打印与计算机相关联的信息的打印机、用户可访问的磁盘驱动器(例如，USB端口、软盘、CD-ROM或DVD-ROM驱动器等)，以允许用户输入存储在便携式媒体设备、麦克风、扬声器系统或任何其他合适类型的界面设备上的数据。

界面927可以包括被配置为经由通信网络传输和接收数据的一个或多个部件，诸如互联网、局域网、工作站对等网络、直接链路网络、无线网络或任何其他合适的通信平台。例如，界面927可以包括一个或多个调制器、解调器、复用器、解复用器、网络通信设备、无线设备、天线、调制解调器、以及配置成能够经由通信网络进行数据通信的任何其他类型的设备。

实施例

以下提出下面的实施例，以说明根据本发明所公开主题的方法和结果。这些实施例并非旨在包括本文公开的主题的所有方面，而是旨在说明代表性的方法和结果。这些实施例并非旨在排除本领域技术人员显而易见的本发明的等同和变型形式。

已经努力确保关于数字(例如，量、温度等)的准确性，但是应当考虑一定的误差和偏差。除非另有说明，否则份数是重量份，温度是℃或为环境温度，压力是大气压或接近大气压。存在反应条件例如组分浓度、温度、压力和其它反应范围和条件的多种变化和组合，其可用于优化由所述方法获得的产物的纯度和收率。

在示例性研究中，收集了成人和儿科患者的247个鼓膜图像，包括113个具有异常的图像。这些图像从美国俄亥俄州立大学(OSU)和全国儿童医院(NCH)以及初级保健机构(由Taj-Schaal博士)的耳、鼻和喉(ENT)诊所经由HD耳镜(例如，美国密苏里州圣路易斯市JEDMED Horus+HD Video Otoscope)捕获。图像尺寸为1440×1080像素，并且使用JPEG进行压缩。本研究的数据收集阶段正在进行中。

性能评估

基于熟练的耳鼻喉科医生生成的“基本事实”来评估分类性能。在该实验中，使用n倍交叉验证技术，n＝20。根据敏感性、特异性和准确性指标评估结果[10]。

结果与讨论

表1中给出了所述系统和方法的初步结果的混淆矩阵。图10A至图10C示出了对异常耳膜进行正确分类的图像。图11A至图11C包括被归类为异常的17个正常耳膜中的三个。相似地，在图12A至图12C中示出了三个错误分类的异常耳膜。

表1-FSG混淆矩阵的混淆矩阵

此外，还探讨了所选决策融合技术的稳健性。为此，评估了FSG与支持向量机(SVM)[11]和随机森林分类器(RF)[12](表2)相比的分类性能。

	敏感性	特异性	准精性
				FSG	87.3％	81.4％	84.6％
RF	79.9％	77.0％	78.5％
				线性SVM	59.7％	68.1％	63.6％

表2-不同分类器的比较

基于该数据集的初步结果表明，所提出的方法对于“正常”与“异常”分类非常有前景。在这些初步实验中，本发明所公开的系统和方法能够将给定的247个鼓膜图像分类为正常或异常，具有大约84.6％的准确性。根据这些实验，视觉MPEG-7特征非常有望用于鼓膜图像的分类。但是，可也需要CMEF以改善某些异常的性能。

参考文献(除非另有说明，否则所有参考文献均以引用方式并入)：

1.I.、C.Vertan和D.C.Gheorghe，“Automatic pediatric otitisdetection by classification of global image features”，2011年，IEEE。

2.Kuruvilla,A.等人，“Automated Diagnosis of Otitis Media:Vocabularyand Grammar”，International Journal of Biomedical Imaging，2013年，2013年第1-15页。

3.Shie,C.-K.等人，“A hybrid feature-based segmentation andclassification system for the computer aided self-diagnosis of otitis media”，2014年，IEEE。

4.Shie,C.-K.等人，“Transfer representation learning for medical imageanalysis”，2015年，IEEE。

5.Coimbra,M.T.和J.S.Cunha，“MPEG-7visual descriptors-contributions forautomated feature extraction in capsule endoscopy”，IEEE transactions oncircuits and systems for video technology，2006年，第16卷第5期，第628页。

6.Ozay,M.和F.T.Yarman-Vural，“Hierarchical distance learning bystacking nearest neighbor classifiers”，Information Fusion，2016年，第29卷，第14-31页。

7.Lee,C.W.、K.Jung和H.J.Kim，“Automatic text detection and removal invideo sequences”，Pattern Recognition Letters，2003年，第24卷第15期，第2607-2623页。

8.Tanaka,M.、R.Kamio和M.Okutomi，“Seamless image cloning by a closedform solution of a modified poisson problem”，SIGGRAPH Asia 2012海报，2012年，ACM。

9.Bookstein,F.L.，“Fitting conic sections to scattered data”，ComputerGraphics and Image Processing，1979年，第9卷第1期，第56-71页。

10.Fawcett,T.，“An introduction to ROC analysis”，Pattern recognitionletters，2006年，第27卷第8期，第861-874页。

11.Bishop,C.M.，“Pattern recognition”，Machine Learning，2006年，第128卷。

12.Breiman,L.，“Random forests”，Machine learning，2001年，第45卷第1期，第5-32页。

虽然已经结合优选实施方案和具体示例描述了所述方法和系统，但是并非意图将范围限制在所陈述的具体实施方案，因为本文的实施方案在所有方面都旨在是示例性的而不是限制性的。

除非另有明确说明，否则绝无意于将本文所陈述的任何方法理解为要求其步骤以特定顺序执行。因此，在方法权利要求书实际上未叙述其步骤所遵循的顺序或者在权利要求书或描述中没有另外具体说明步骤被限制为特定顺序的情况下，绝无意于在任何方面推断出一种顺序。这适用于任何可能的不明确的解释，其包括：关于步骤或操作流程的布置的逻辑问题；由语法组织或标点符号得出的普通含义；说明书中所述的实施方案的数量或类型。

多种出版物的引用可贯穿于本申请书。这些出版物的公开内容据此全文以引用方式并入本申请中以更全面地描述这些方法和系统所属技术领域的现状。

对于本领域的技术人员将显而易见的是，可在不脱离本发明的范围或精神的前提下作出各种修改形式和变型形式。在考虑了本文所公开的说明书和实践的情况下，其他实施方案对于本领域的技术人员来说将是显而易见的。说明书和实施例应被认为仅为示例性的，本发明的真实范围和实质由以下权利要求书限定。

Claims

1.一种对视频中的鼓膜病理进行分类的方法，所述方法包括以下步骤：

使用视频捕获设备捕获鼓膜的视频；

对所捕获的视频的视频帧执行预处理以生成一个或多个复合图像，其中，所述视频帧中的障碍物和所述视频帧的照明被检测，并且在选择所述视频帧的感兴趣区域中被使用，所选择的感兴趣区域被使用以形成所述一个或多个复合图像；

从所述一个或多个复合图像中提取计算机视觉特征和临床动机的耳膜特征；以及

使用所述计算机视觉特征和所述临床动机的耳膜特征对所述鼓膜的病理进行分类，所述计算机视觉特征和所述临床动机的耳膜特征通过双层堆叠泛化算法融合，所述双层堆叠泛化算法侧重于互补特征而非强特征。

2.根据权利要求1所述的方法，其中，对所述视频帧执行所述预处理以生成所述一个或多个复合图像的步骤包括以下中的一者或多者：减少基于传感器的问题，选择所述视频帧中的所述感兴趣区域，检测眩光效果；以及创建具有减少的眩光效果的所述视频帧的副本。

3.根据权利要求1或2所述的方法，其中，从所述一个或多个复合图像中提取所述计算机视觉特征包括：使用视觉MPEG-7描述符、梯度直方图和网格颜色矩特征中的一个或多个从所述一个或多个复合图像中提取颜色、纹理和形状信息。

4.根据权利要求1所述的方法，其中，所述临床动机的耳膜特征从所述一个或多个复合图像中识别异常和正常的一些线索。

5.根据权利要求1所述的方法，其中，所述临床动机的耳膜特征包括光锥的位置、锤骨的可见度、膜的突起、鼓膜造孔管的存在或蜡的存在。

6.根据权利要求1所述的方法，其中，所述双层堆叠泛化算法包括使用模糊堆叠泛化分类器。

7.根据权利要求1所述的方法，其中，使用所述一个或多个复合图像对所述鼓膜的病理进行分类包括：使用深度学习来自动识别异常。

8.根据权利要求7所述的方法，其中，所述深度学习包括深度学习网络，所述深度学习网络包括Inception V3或ResNet。

9.根据权利要求1所述的方法，其中，使用所述一个或多个复合图像对所述鼓膜的病理进行分类包括：使用基于内容的图像检索将所述一个或多个复合图像与图像库进行比较以识别异常。

10.根据权利要求7至9中任一项所述的方法，其中，所述异常包括急性中耳炎、中耳积液、胆脂瘤、耳膜穿孔和耳膜回缩与正常的一种或多种，其中，所述中耳积液是无感染的液体，并且所述胆脂瘤是耳中常见的破坏性皮肤囊肿。

11.根据权利要求1所述的方法，其中，从所述视频帧中选择的所述感兴趣区域无障碍物，使得生成的一个或多个复合图像不包括障碍物。

12.根据权利要求11所述的方法，其中，所述障碍物包括所述视频帧中的模糊、蜡、眩光和毛发中的一者或多者。

13.根据权利要求1所述的方法，其中，计算图像熵，并且选择具有最高熵值的视频帧，以生成所述一个或多个复合图像。

14.一种用于对视频中的鼓膜病理进行分类的系统，所述系统包括：

视频捕获设备，其中，所述视频捕获设备捕获鼓膜的视频；

存储器，其中，所捕获的视频存储在所述存储器中；以及

处理器，所述处理器与所述存储器通信，其中，所述处理器执行存储在所述存储器中的计算机可读指令，所述计算机可读指令使所述处理器：

从所述一个或多个复合图像中提取计算机视觉特征和临床动机的耳膜特征；并且

15.根据权利要求14所述的系统，其中，所述处理器执行计算机可读指令，以从所述视频帧中选择感兴趣区域，所述感兴趣区域无障碍物，使得生成的一个或多个复合图像不包括障碍物。

16.根据权利要求14所述的系统，其中，对所述视频帧执行所述预处理以生成所述一个或多个复合图像包括以下中的一者或多者：减少基于传感器的问题，选择所述视频帧中的所述感兴趣区域，检测眩光效果，以及创建具有减少的眩光效果的所述视频帧的副本。

17.根据权利要求14至16中任一项所述的系统，其中，从所述一个或多个复合图像中提取所述计算机视觉特征包括：使用视觉MPEG-7描述符、梯度直方图和网格颜色矩特征中的一个或多个从所述一个或多个复合图像中提取颜色、纹理和形状信息。

18.根据权利要求14所述的系统，其中，所述临床动机的耳膜特征从所述一个或多个复合图像中识别异常和正常的一些线索。

19.根据权利要求14所述的系统，其中，所述临床动机的耳膜特征包括光锥的位置、锤骨的可见度、膜的突起、鼓膜造孔管的存在或蜡的存在。

20.根据权利要求14所述的系统，其中，所述双层堆叠泛化算法包括使用模糊堆叠泛化分类器。

21.根据权利要求14所述的系统，其中，使用所述一个或多个复合图像对所述鼓膜的病理进行分类包括：使用深度学习来自动识别异常。

22.根据权利要求21所述的系统，其中，所述深度学习包括深度学习网络，所述深度学习网络包括Inception V3或ResNet。

23.根据权利要求14所述的系统，其中，使用所述一个或多个复合图像对所述鼓膜的病理进行分类包括：使用基于内容的图像检索将所述一个或多个复合图像与图像库进行比较以识别异常。

24.根据权利要求21至23中任一项所述的系统，其中，所述异常包括急性中耳炎、中耳积液、胆脂瘤、耳膜穿孔和耳膜回缩与正常的一种或多种，其中，所述中耳积液是无感染的液体，并且所述胆脂瘤是耳中常见的破坏性皮肤囊肿。

25.根据权利要求14所述的系统，其中，从所述视频帧中选择的所述感兴趣区域无障碍物，使得生成的一个或多个复合图像不包括障碍物。

26.根据权利要求25所述的系统，其中，所述障碍物包括所述视频帧中的模糊、蜡、眩光和毛发中的一者或多者。

27.根据权利要求14所述的系统，其中，计算图像熵，并且选择具有最高熵值的视频帧，以生成所述一个或多个复合图像。

28.一种计算机可读介质，所述计算机可读介质包括存储在所述计算机可读介质上的计算机能够执行的代码段，所述计算机能够执行的代码段用于执行对视频中的鼓膜病理进行分类的方法，所述方法包括：

接收所捕获的鼓膜的视频，其中，所述视频是通过使用视频捕获设备捕获的；

29.根据权利要求28所述的计算机可读介质，其中，从所述视频帧中选择感兴趣区域，所述感兴趣区域无障碍物，使得生成的一个或多个复合图像不包括障碍物。

30.根据权利要求29所述的计算机可读介质，其中，对所述视频帧执行所述预处理以生成所述一个或多个复合图像包括以下中的一者或多者：减少基于传感器的问题，选择所述视频帧中的所述感兴趣区域，检测眩光效果，以及创建具有减少的眩光效果的所述视频帧的副本。

31.根据权利要求28至30中任一项所述的计算机可读介质，其中，从所述一个或多个复合图像中提取所述计算机视觉特征包括：使用视觉MPEG-7描述符、梯度直方图和网格颜色矩特征中的一个或多个从所述一个或多个复合图像中提取颜色、纹理和形状信息。

32.根据权利要求28至30中任一项所述的计算机可读介质，其中，所述临床动机的耳膜特征从所述一个或多个复合图像中识别异常和正常的一些线索。

33.根据权利要求28至30中任一项所述的计算机可读介质，其中，所述临床动机的耳膜特征包括光锥的位置、锤骨的可见度、膜的突起、鼓膜造孔管的存在或蜡的存在。

34.根据权利要求28至30中任一项所述的计算机可读介质，其中，所述双层堆叠泛化算法包括使用模糊堆叠泛化分类器。

35.根据权利要求28所述的计算机可读介质，其中，使用所述一个或多个复合图像对所述鼓膜的病理进行分类包括：对自动识别异常使用深度学习。

36.根据权利要求35所述的计算机可读介质，其中，所述深度学习包括深度学习网络，所述深度学习网络包括Inception V3或ResNet。

37.根据权利要求28所述的计算机可读介质，其中，使用所捕获的一个或多个复合图像对所述鼓膜的病理进行分类包括：使用基于内容的图像检索将所述一个或多个复合图像与图像库进行比较以识别异常。

38.根据权利要求35至37中任一项所述的计算机可读介质，其中，所述异常包括急性中耳炎、中耳积液、胆脂瘤、耳膜穿孔和耳膜回缩与正常的一种或多种，其中，所述中耳积液是无感染的液体，并且所述胆脂瘤是耳中常见的破坏性皮肤囊肿。

39.根据权利要求28所述的计算机可读介质，其中，从所述视频帧中选择的所述感兴趣区域无障碍物，使得生成的一个或多个复合图像不包括障碍物。

40.根据权利要求39所述的计算机可读介质，其中，所述障碍物包括所述视频帧中的模糊、蜡、眩光和毛发中的一者或多者。

41.根据权利要求28所述的计算机可读介质，其中，计算图像熵，并且选择具有最高熵值的视频帧，以生成所述一个或多个复合图像。