识别待检测样本中异常细胞的方法、装置和存储介质
技术领域
本申请涉及细胞图像处理领域,特别涉及识别待检测样本中异常细胞的方法、装置和存储介质。
背景技术
宫颈癌是妇科最常见的恶性肿瘤之一,发病率和病死率在女性恶性肿瘤中均居于第二位。宫颈癌防控关键在于在癌前病变阶段发现和阻断病程,故子宫颈癌前筛查工作尤为重要。目前,发现宫颈癌的主要有效手段为子宫颈细胞涂片检查,先由取样医生做好宫颈细胞涂片,然后分析人员在显微镜或数字切片扫描仪等检测设备下对细胞进行观察,查看是否存在异常的单细胞或细胞团并确定其类别。在宫颈癌筛查过程中,分析人员经常需要上下微调显微镜细螺旋来查看不同层次的图像,充分观察单细胞或者细胞团的三维结构,从而提供异常细胞识别结果。在当前异常细胞识别方法中,由于分析人员经验不足、手动调节检测设备耗费精力、高强度工作下的视觉疲劳等造成的工作误差,使得阅片效率低下、判断过程困难,因而使异常细胞识别结果的准确性受到影响。
发明内容
有鉴于此,有必要提供一种识别待检测样本中异常细胞的方法、装置和存储介质。本发明的实施例至少部分地解决上面提及的问题。本发明中提出的技术充分利用不同层次的图像单个细胞和细胞团分开处理和对单细胞或者细胞团进行分类识别。多层次的图像能够更充分和全面地表现宫颈细胞的三维结构信息,因此本发明提出的多层次细胞图像识别方法能够更准确地识别待检测样本(包括细胞或者细胞团)的类别。
根据本发明的一方面,提供了一种识别待检测样本中异常细胞的方法。该方法包括:获得待检测样本的多层次图像,待检测样本中包括单细胞和细胞团;将多层次图像划分为多个多层次图像区块;将多个多层次图像区块分类成单细胞的多层次图像区块和细胞团的多层次图像区块;将单细胞的多层次图像区块输入至第一图像识别网络,从而得到对应于单细胞的多层次图像区块的第一识别结果;将细胞团的多层次图像区块输入至第二图像识别网络,从而得到对应于细胞团的多层次图像区块的第二识别结果;和根据第一识别结果和第二识别结果来确定待检测样本中是否存在异常细胞。
在一些实施例中,获得待检测样本的多层次图像包括:获得包括待检测样本的不同深度的多层次图像。
在一些实施例中,将多个多层次图像区块分类成单细胞的多层次图像区块和细胞团的多层次图像区块包括:通过确定多个多层次图像区块中每一个多层次图像区块中的细胞核数量进行分类。
在一些实施例中,将单细胞的多层次图像区块输入至第一图像识别网络,从而得到对应于单细胞的多层次图像区块的第一识别结果包括:选取单细胞的多层次图像区块中的至少一层图像区块,并将至少一层图像区块输入至第一图像识别网络的第一部分,从而得到对应于单细胞的多层次图像区块的第一单层次识别结果;将单细胞的多层次图像区块输入至第一图像识别网络的第二部分,从而得到对应于单细胞的多层次图像区块的第一多层次识别结果;对第一单层次识别结果和第一多层次识别结果进行融合以得到第一识别结果;其中第一图像识别网络的第一部分用于提取单细胞的平面信息,以及第一图像识别网络的第二部分用于提取单细胞的立体结构信息。
在一些实施例中,对第一单层次识别结果和第一多层次识别结果进行融合以得到第一识别结果包括:针对单细胞的多种异常细胞类型将第一单层次识别结果和第一多层次识别结果进行加权平均,以得到第一识别结果。
在一些实施例中,将细胞团的多层次图像区块输入至第二图像识别网络,从而得到对应于细胞团的多层次图像区块的第二识别结果包括:选取细胞团的多层次图像区块中的至少一层图像区块,并将至少一层图像区块输入至第二图像识别网络的第一部分,从而得到对应于细胞团的多层次图像区块的第二单层次识别结果;将细胞团的多层次图像区块的多个层次图像区块输入至第二图像识别网络的第二部分,从而得到对应于细胞团的多层次图像区块的第二多层次识别结果;对第二单层次识别结果和第二多层次识别结果进行融合以得到第二识别结果;其中第二图像识别网络的第一部分用于提取细胞团的平面信息,以及第二图像识别网络的第二部分用于提取细胞团的立体结构信息。
在一些实施例中,对第二单层次识别结果和第二多层次识别结果进行融合以得到第二识别结果包括:针对细胞团的多种异常细胞类型将第二单层次识别结果和第二多层次识别结果进行加权平均,以得到第二识别结果。
在一些实施例中,第一图像识别网络和第二图像识别网络均为用于处理三维向量的图像识别网络,第一图像识别网络和第二图像识别网络是相同的图像识别网络或不同的图像识别网络。
在一些实施例中,第一图像识别网络和第二图像识别网络分别基于第一数据集和第二数据集进行训练,第一数据集包括单细胞的多层次图像及单细胞的多层次图像的异常细胞类型标签、第二数据集包括细胞团的多层次图像及细胞团的多层次图像的异常细胞类型标签。
在一些实施例中,第一识别结果指示单细胞的多层次图像区块中存在的异常细胞类型,第二识别结果指示细胞团多层次图像区块中存在的异常细胞类型。方法还包括:根据第一识别结果和第二识别结果来确定待检测样本中的异常细胞类型。
在一些实施例中,待检测样本包括宫颈细胞涂片。
根据本发明的一方面,提供了一种识别待检测样本中异常细胞的设备。设备包括:获得模块,被配置成获得待检测样本的多层次图像,待检测样本中包括单细胞和细胞团;划分模块,被配置成将多层次图像划分为多个多层次图像区块;分类模块,被配置成将多个多层次图像区块分类成单细胞的多层次图像区块和细胞团的多层次图像区块;第一识别模块,被配置成将单细胞的多层次图像区块输入至第一图像识别网络,从而得到对应于单细胞的多层次图像区块的第一识别结果;第二识别模块,被配置成将细胞团的多层次图像区块输入至第二图像识别网络,从而得到对应于细胞团的多层次图像区块的第二识别结果;和确定模块,被配置成根据第一识别结果和第二识别结果来确定待检测样本中是否存在异常细胞。
根据本发明的又一方面,还提供了一种待检测样本中异常细胞的识别设备,包括:存储器,其被配置成存储计算机可执行指令;处理器,其被配置成当计算机可执行指令被处理器执行时根据前述方面提供的识别待检测样本中异常细胞的方法的步骤。
在一些实施例中,该设备还包括:用户接口,其被配置成呈现异常细胞的识别结果。
在一些实施例中,该设备还包括:网络接口,其被配置成发送异常细胞的识别结果。
在一些实施例中,该设备还包括:网络接口,其被配置成接收如下各项数据中的至少一个:待检测样本的多层次图像、第一数据集或第二数据集。
根据本发明的又一方面,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,计算机程序被处理器执行时,使得处理器执行根据前述方面提供的识别待检测样本中异常细胞的方法的步骤。
根据本发明的又一方面,提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,使得处理器执行根据前述方面提供的识别待检测样本中异常细胞的方法的步骤。
本公开要求保护的识别待检测样本中异常细胞的方法将细胞的单层次图像和多层次图像输入多层次图像识别网络,利用基于人工智能的多层次图像识别网络对待检测的样本进行异常细胞识别得到对应的识别结果。该方法充分利用了细胞的深度、形态等信息,同时有效利用了多层次图像所包含的相应细胞的丰富三维结构信息,从而更加准确地对异常细胞进行识别。通过本公开要求保护的细胞涂片中异常细胞的识别方法和设备,实现了基于细胞的三维结构对采样细胞的自动异常细胞分析,节约了分析资源和分析人员的精力。减小了分析人员分析的误差,使得识别结果更加准确。由此,实现了高速度、高精度的异常细胞识别。
根据在下文中所描述的实施例,本发明的这些和其它方面将是清楚明白的,并且将参考在下文中所描述的实施例而被阐明。
附图说明
在下面结合附图对于示例性实施例的描述中,本发明的更多细节、特征和优点被公开,在附图中:
图1示意性示出了相关技术中一种识别待检测样本中异常细胞的方法的示意图;
图2示意性示出了相关技术中的另一种识别待检测样本中异常细胞的方法的示意图;
图3示意性示出了应用根据本发明的一个实施例提供的识别待检测样本中的异常细胞方法的示例场景;
图4示意性示出了应用根据本发明的一个实施例提供的识别待检测样本中的异常细胞方法的智能显微镜;
图5示意性示出了根据本发明一个实施例的识别待检测样本中的异常细胞方法的示例流程图;
图6示意性示出了根据本发明另一个实施例的识别待检测样本中的异常细胞方法的示例流程图;
图7示意性示出了根据本发明一个实施例的多层次图像识别网络的示意图;
图8示意性示出了根据本发明另一个实施例的识别待检测样本中的异常细胞设备的示例框图;
图9示意性示出了根据本发明一个实施例的计算设备的示例框图。
具体实施方式
在详细介绍本发明的实施例之前,首先对一些相关的概念进行解释:
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换言之,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等。近年来开发的智能显微镜在测试中被证明能有效提升分析人员的工作效率、病理分析的精确度和一致性。有助于解决分析人员数量短缺和经验不足的问题。在使用人工智能显微镜时,智能显微镜会将分析结果和判断实时、精确地呈现在显微镜视野内,操作非常简单。智能显微镜可以自动高效地实时统计细胞数量、面积等信息。智能显微镜精准稳定,由此可以避免不同医生判读的差异。此外,因为结果直接反馈在目镜上不干扰分析人员阅片和记录,对用户友好。
卷积神经网络(Convolutional Neural Networks,CNN)是一种可直接作用于原始输入的深度模型,从而使特征构建过程自动化,是人工智能的具体实现工具之一。卷积神经网络在图像分类和目标检测中发挥着出色的效能,深层的多参数网络能够对图像提取细节特征。传统的卷积神经网络仅针对单个帧提取深度特征,忽略了对象的三维结构信息,而细胞在层次顺序上是一个规律变化的层次模型,其层次特征包含细胞深度的重要信息,故采用传统的卷积神经网络模型难以有效地完成细胞三维结构的认知过程。
双流神经网络(two-stream Convnet)是一种基于两个单独识别流、并且通过后期融合进行组合的神经网络架构。具体地,双流神经网络可以用于执行视频中的动作识别。这时,两个单独的识别流为空间流和时间流。空间流根据静止视频帧执行动作识别,而时间流被训练成根据密集光流的形式的移动识别动作。在本发明中,双流神经网络被用于执行细胞(团)中的异常细胞识别。这时,两个单独的识别流分别为空间流和层次流。空间流根据单层细胞(团)图像提取平面信息;而层次流根据多层次细胞(团)图像提取细胞(团)三维结构(例如,深度)信息,通过分析图像在层次顺序上的特征来给出更丰富的深度信息,从而与空间流分支互相补充,有效地改进对图像中对象的三维结构信息的完善。
近来,还提出了利用人工智能技术识别待检测样本中的异常细胞的方法。一种识别异常细胞的方法是如图1中所示的识别待检测样本中异常细胞的方法100。在方法100中,对细胞或细胞团的图像101进行分割102得到单个细胞,然后在103中针对单个细胞分类进行异常分类识别,由此得到针对待检测样本中异常细胞的识别结果。另一种识别异常细胞的方法是如图2中所示的识别待检测样本中异常细胞的方法200。在方法200中,对单层细胞或细胞团的图像201进行分类得到单个细胞202和细胞团203,然后分别在204和205中针对单细胞和细胞团进行分类识别。最后,基于单细胞分类识别的结果和细胞团分类识别的结果得到针对待检测样本中异常细胞的识别结果。
当前的识别待检测样本中异常细胞的方法至少存在下述问题。在方法100中,因为很多细胞团中的细胞的细胞质甚至细胞核都互相重叠在一起,从细胞、尤其是细胞团中分割102出单个细胞并不容易,传统分割方法和基于神经网络的分割方法二者对细胞团进行分割的效果均不理想。另一方面,有些细胞团中的细胞的排列方式对判读细胞团类型具有重要作用,但这种排列信息在分割102细胞(团)得到单个细胞后对该单细胞分类时已经被丢弃了。在方法200中,将单细胞和细胞团分开处理,但只利用到单细胞和细胞团的单层次图像信息201。然而,单个细胞或细胞团本身具有三维立体结构,单层次图像呈现的信息是二维信息,内容十分有限。此外,不同异常类别的细胞团可能在某些层次上具有相似的形态,仅通过单层次图像进行异常细胞识别易于将不同病理类别的细胞团的识别结果相混淆,降低了识别异常细胞的准确性。由此可见,只利用单层次图像信息对单个细胞尤其是细胞团进行异常细胞识别是不充分的。
图3示意性示出了应用根据本发明的一个实施例提供的识别待检测样本中的异常细胞方法的示例场景300。应用场景300中可以包括显微镜301(其具体结构将在图4中详细说明)、数字切片扫描仪302、网络303和服务器304。目前宫颈癌筛查中主要是通过显微镜301或者数字切片扫描仪302进行图像获取,然后供分析人员筛查识别其中的阳性(异常)细胞或者阳性(异常)细胞团类别。本发明中的多层次识别细胞(细胞团)既可以应用在显微镜301端,也可以应用在数字切片扫描仪302上。显微镜301和数字切片扫描仪302用于获得待检测样本的多层次图像。应用场景300中具有显微镜301和数字切片扫描仪302中的任意一者或二者。如本领域技术人员所理解的,应用场景300中也可以包括其他用于获得待检测样本的多层次图像的其他合适装置。这里,首先利用显微镜301和/或数字切片扫描仪302获得待检测样本的多层次图像,并经由网络303发送给服务器304。网络303可以包括有线网络(例如LAN、电缆等等)和无线网络(例如WLAN、蜂窝、卫星等等)、因特网等。服务器304上至少存储有经预先训练的多层次图像识别网络(例如,双流神经网络或其他用于处理三维向量的神经网络结构),并利用该多层次图像识别网络对接收到的多层次图像进行异常细胞识别,得到识别结果。然后,经由网络接口,将识别结果经由网络303发送给显微镜301和/或数字切片扫描仪302。这里,显微镜301和数字切片扫描仪302可以具有各自的显示界面,使得分析人员能够方便地查看异常细胞分析结果。例如,分析结果可以直接反馈在显微镜301的目镜上。值得注意的是,基于多层次图像识别网络所进行的异常细胞识别可以在服务器304上进行,也可以直接在显微镜301和/或数字切片扫描仪302上(在显微镜301和/或数字切片扫描仪302中各自包括处理器的情况下)运行。
图4示意性示出了应用根据本发明的一个实施例提供的识别待检测样本中的异常细胞方法的显微镜301。如图4所示,显微镜301具有目镜3011、粗/细螺旋3012、升降台3013、在载物台上放置的细胞涂片3014以及图像采集设备3015。作为示例,分析人员可以使用该显微镜301对细胞涂片3014进行观察,分析人员通过显微镜301的目镜3011观察细胞涂片3014上相应细胞组织(单细胞或细胞团)的图像,并通过调节粗/细螺旋3012和升降台3013来调节目镜的对焦,从而调节所看到图像的位置、角度、层次和清晰度等。在分析人员确定所要分析的相应细胞组织(单细胞或细胞团)的图像后,可以通过图像采集设备3015采集所确定细胞组织(单细胞或细胞团)的图像的多层次图像,并自动或手动选择其中一张图像作为单层次图像(优选地,选择其中一张较为清晰的图像为单层次图像)。此后,显微镜301将所选单层次图像和全部多个多层次图像发送给服务器进行异常细胞分析,得到异常细胞分析结果。响应于显微镜301接收到来自服务器的异常细胞分析结果,通过显微镜301上配置的显示界面(未示出,例如可以显微镜301的目镜视野)呈现该异常细胞分析结果或叠加在显微镜301获取的数字图像上,供分析人员参考和使用。值得注意的是,该异常细胞识别功能可以由显微镜301的处理器(在显微镜301自身具备处理能力的情况下)执行,或者显微镜301可以将收集的数据(所选单层次图像和全部多个多层次图像)传送给另一个网络设备(例如,图3中的服务器304)执行。
除显微镜301外,分析人员还可以通过数字切片扫描仪302进行图像获取。数字切片扫描仪302可以对整个切片扫描成像。通常情况下,考虑到扫描速度,仅单层扫描。然而,在使用本发明提出的识别待检测样本中的异常细胞方法时,将数字切片扫描仪302设置为多层扫描,使得能够通过数字切片扫描仪302采集所确定细胞组织(单细胞或细胞团)的图像的多层次图像,并自动或手动选择其中一张图像作为单层次图像(优选地,选择其中一张较为清晰的图像为单层次图像)。此后,数字切片扫描仪302将所选单层次图像和全部多个多层次图像发送给服务器进行异常细胞分析,得到异常细胞分析结果。响应于数字切片扫描仪302接收到来自服务器的异常细胞分析结果,通过数字切片扫描仪302上配置的显示界面(未示出)呈现该异常细胞分析结果或叠加在数字切片扫描仪302获取的数字图像上,供分析人员参考和使用。值得注意的是,该异常细胞识别功能可以由数字切片扫描仪302的处理器(在数字切片扫描仪302自身具备处理能力的情况下)执行,或者数字切片扫描仪302可以将收集的数据(所选单层次图像和全部多个多层次图像)传送给另一个网络设备(例如,图3中的服务器304)执行。
图5示意性示出了根据本发明一个实施例的识别待检测样本中的异常细胞方法500的示例流程图。该方法500可以应用在显微镜301上或者数字切片扫描仪302上。由多层次细胞(团)的图像采集装置501(例如上述显微镜301或数字切片扫描仪302)获得多层次细胞(细胞团)的图像502。然后,对多层次细胞(细胞团)的图像502进行分类503,分为单细胞多层图像504和细胞团多层图像505。将单细胞多层次图像504和细胞团多层次图像505分别输入到第一图像识别网络506和第二图像识别网络507中。基于第一图像识别网络506得到的异常细胞识别类型与第二图像识别网络507得到的异常细胞识别类型共同确定(例如进行合并和去重)得到单细胞或细胞团的分类信息508。这种细胞(细胞团)的分类信息可以通过显微镜301上配置的显示界面(例如可以显微镜301的目镜视野)或数字切片扫描仪302上配置的显示界面传给分析人员进行判断,或者叠加在数字扫描仪获取的数字图像上。
图6示意性示出了根据本发明另一个实施例的识别待检测样本中的异常细胞方法600的示例流程图。如图6所示,方法600包括步骤601,获得待检测样本的多层次图像,该待检测样本中包括单细胞和细胞团。例如,在使用显微镜的情况下,分析人员通过显微镜的目镜来观察待检测细胞涂片,并确定目镜内将要进行分析的细胞组织。在分析人员确定所要分析的相应细胞组织的图像后,通过图像采集设备(例如,图3中的图像采集设备3015)采集所确定细胞组织(包括单细胞和细胞团)的图像的多层次图像。在一些实施例中,获得待检测样本的多层次图像包括:获得包括待检测样本的不同深度的多层次图像。这里的多层次图像可以理解成与传统分析人员通过上下微调显微镜细螺旋来查看不同层次的图像。
在步骤602中,将多层次图像划分为多个多层次图像区块。具体地,首先将获取的多层次图像进行去噪声,并去除背景,确定存在细胞组织(包括单细胞和细胞团)的区域。基于所确定的细胞组织的边界对上述获取的多层次图像进行划分,由此获得多个多层次图像区块。
在步骤603中,将多个多层次图像区块分类成单细胞的多层次图像区块和细胞团的多层次图像区块。由于所获得的多个多层次图像区块中既包括单细胞的多层次图像区块,也包括细胞团的多层次图像区块,所以首先对多个多层次图像区块进行分类。具体地,可以通过确定多个多层次图像区块中每一个多层次图像区块中的细胞核数量进行该分类。例如,多个多层次图像区块中的一个图像区块包括的细胞核数量等于1,说明该图像区块仅包括单个细胞,属于单细胞的多层次图像区块;多个多层次图像区块中的另一个图像区块包括的细胞核数量大于1(例如为6),说明该图像区块中包括多个细胞(即细胞团),属于细胞团多层次图像区块。如本领域技术人员所理解的,也可以借助其他分类方法对图像区块进行分类,例如利用一个经训练的神经网络对单细胞的多层次图像区块和细胞团的多层次图像区块进行分类。
在步骤604中,将单细胞的多层次图像区块输入至第一图像识别网络,从而得到对应于单细胞的多层次图像区块的第一识别结果。单细胞可以包括:正常柱状细胞、正常中层细胞、正常表层细胞、轻度鳞状上皮内病变细胞、中度鳞状上皮内病变细胞、重度鳞状上皮内病变细胞、鳞状细胞癌细胞等宫颈单细胞。第一图像识别网络具有采集图像中细胞的三维结构结构、细胞平面结构特征的能力和基于所采集的单细胞的三维结构、细胞平面结构特征对异常细胞类型进行判读的能力。将所获得的单细胞的多层次图像输入至该第一图像识别网络中,从而获得对应于单细胞的多层次图像的第一识别结果。在一个实施例中,选取单细胞的多层次图像区块中的至少一层图像区块,并将至少一层图像区块输入至第一图像识别网络的第一部分,从而得到对应于单细胞的多层次图像区块的第一单层次识别结果;将单细胞的多层次图像区块输入至第一图像识别网络的第二部分,从而得到对应于单细胞的多层次图像区块的第一多层次识别结果;对第一单层次识别结果和第一多层次识别结果进行融合以得到第一识别结果;其中第一图像识别网络的第一部分用于提取单细胞的平面信息,以及第一图像识别网络的第二部分用于提取单细胞的立体结构信息。在一个实施例中,对第一单层次识别结果和第一多层次识别结果进行融合以得到第一识别结果包括:针对单细胞的多种异常细胞类型将第一单层次识别结果和第一多层次识别结果进行加权平均,以得到第一识别结果。
在一些实施例中,该第一图像识别网络可以采用如图7所示的双流神经网络的结构700。第一图像识别网络包括第一图像识别网络的第一部分(例如第一分支701)和第一图像识别网络的第二部分(例如第二分支702)。第一图像识别网络的第一部分用于提取单细胞的平面信息,第一图像识别网络的第二部分用于提取单细胞的立体结构信息。在一个实施例中,该双流神经网络的架构可以使用如下配置:第一层为卷积层,具有7х7х96的卷积核(7х7是空间维度的大小,96是层次维度的大小),步长为2,进行归一化操作,池化核为2х2大小,激活函数为ReLU函数;第二层为卷积层,具有5х5х256的卷积核(5х5是空间维度的大小,256是层次维度的大小),步长为2,进行归一化操作,池化核为2х2大小,激活函数为ReLU函数;第三层为卷积层,具有3х3х512大小的卷积核(3х3是空间维度的大小,512是层次维度的大小),步长为1,激活函数为ReLU函数;第四层为卷积层,具有3х3х512的卷积核(3х3是空间维度的大小,512是层次维度的大小),步长为1,激活函数为ReLU函数;第五层为卷积层,具有3х3х512的卷积核(3х3是空间维度的大小,512是层次维度的大小),步长为1,池化核为2х2大小,激活函数为ReLU函数;第六层为全连接层,具有4096个节点,激活函数为ReLU函数;第七层为全连接层,具有2048个节点,激活函数为ReLU函数;第八层为softmax层。
在这种架构的双流神经网络中,首先初始化该网络的权重值与偏置值参数。在相关技术中,有许多可以实现参数的初始化的方法,在此不再赘述。然后,对该双流神经网络进行训练。如本领域技术人员所理解的,可以对第一图像识别网络的第一部分(例如第一分支701)和第一图像识别网络的第二部分(例如第二分支702)进行训练或联合地进行训练。这里,采用有监督的训练,使用第一数据集对第一图像识别网络进行训练。第一数据集包括单细胞的多层次图像以及与该单细胞的多层次图像相对应的异常细胞类型标签。其中,将可用数据中的输入数据输入到该双流神经网络中对应分支进行完整地计算并得到输出数据,设该双流神经网络的该分支的性能函数为所得到的各个输入数据与相应标签之间的差的平方值的和,通过寻找该性能函数的全局极小点来确定最合适的参数组,优选地,本公开中采取反向传播算法作为寻找全局极小点的算法。进一步地,在确定最合适的参数组过程中,采用泛化方法对该双流神经网络进行泛化,避免该网络的参数组发生过拟合现象。作为示例,可用数据可以分为三部分:训练集、验证集、测试集,其中训练集占70%,验证集占15%,测试集占15%。训练集用来计算梯度或者雅克比矩阵,并确定每次反向迭代中网络权值的更新。验证集是一个指示器,当训练过程中,验证集的误差平方和持续增加,则终止训练。测试集用来最终测试该双流神经网络的使用效果是否满足效果,即测试集的误差平方和是否小于预设阈值。
在采用该经训练的双流神经网络的情况下,从多层次图像区块中选取至少一层图像区块(例如,选取较为清晰的一层图像区块),并将该至少一层图像区块输入至第一图像识别网络的第一部分。在一个实施例中,选取一层图像区块,并将该层图像区块经过5个卷积层,然后经过两层全连接层的处理,最后进入softmax层得到对应于单细胞的多层次图像的第一单层次识别结果。另外地,将单细胞的多层次图像区块输入至第一图像识别网络的第二部分,该单细胞的多层次图像区块经过5个卷积层,然后经过两层全连接层的处理,最后进入softmax层得到对应于单细胞的第一多层次识别结果。在一个实施例中,预先通过单细胞的多层次图像区块得到光流图,这种光流图能够表征单细胞在三维结构方面的信息,然后将该光流图经过5个卷积层,然后经过两层全连接层的处理,最后进入softmax层得到对应于单细胞的第一多层次识别结果。在分别得到第一单层次识别结果和第一多层次识别结果后,将第一单层次识别结果与第一多层次识别结果进行融合以得到第一识别结果。
在一个实施例中,针对单细胞的多种异常细胞类型将第一单层次识别结果和第一多层次识别结果进行融合包括将第一单层次识别结果和第一多层次识别结果进行加权平均操作。以单细胞的异常细胞类型为HSIL为例,第一单层次识别结果为HSIL 0.7。而第一多层次识别结果为HSIL 0.3,则第一识别结果为对第一单层次识别结果为HSIL 0.7和第一多层次识别结果为HSIL 0.3进行加权平均。例如在第一单层次识别结果和第一多层次识别结果的权重相等均为0.5的情况下,加权平均结果为(0.7+0.3)/2=0.5。然后将该加权平均后的结果于预先设定的阈值进行比较。例如在预设阈值为0.4的情况下,则判断细胞性质为高度鳞状上皮内病变(HSIL)。如本领域技术人员所理解的,第一单层次识别结果和第一多层次识别结果的权重可以不相等,并且上述预设阈值也是视情况进行调整。针对单细胞的其他异常类型也进行类似的加权计算。
另外地,该第一图像识别网络可以是其他类型的用于处理三维向量的图像识别网络。首先,该图像识别网络对原始多层次图像按顺序进行特征预提取,产生包括光流信息在内的多个通道信息,将所有通道的信息组合起来得到初始特征图,利用初始特征的先验知识,提高网络初始化的性能。然后,将五个通道的信息输入下层网络的卷积层和下采样层,对其进行进一步的特征提取,卷积层和下采样层拥有不同的宽度和尺度,保证了在提取原始多层次图像的特征的同时,可以有效提取不同尺度的单细胞或细胞团的图像的特征,并使其对单细胞或细胞团运动的不同方向具有鲁棒性。最后,将各层提取的特征在全连接层进行组合,得到一个特征向量,该特征向量同时包含了多层次图像的序列的空间和层次上的特征信息。使用随机梯度下降法(SGD)在自建的多层次图像数据集上有监督地训练网络,并对单细胞或细胞团的病理信息进行判读。
在步骤605中,将细胞团的多层次图像区块输入至第二图像识别网络,从而得到对应于细胞团的多层次图像区块的第二识别结果。术语细胞团可以包括一个或多个正常柱状细胞、正常中层细胞、正常表层细胞、轻度鳞状上皮内病变细胞、中度鳞状上皮内病变细胞、重度鳞状上皮内病变细胞、鳞状细胞癌细胞等宫颈单细胞的各种组合。在一些实施例中,第二图像识别网络具有采集图像中细胞的三维结构结构、细胞平面结构特征的能力和基于所采集的单细胞的三维结构、细胞平面结构特征对异常细胞类型进行判读的能力。将所获得的细胞团的多层次图像输入至该第二图像识别网络中,从而获得对应于细胞团的多层次图像的第二识别结果。在一个实施例中,将细胞团的多层次图像区块输入至第二图像识别网络,从而得到对应于细胞团的多层次图像区块的第二识别结果包括:选取细胞团的多层次图像区块中的至少一层图像区块,并将至少一层图像区块输入至第二图像识别网络的第一部分,从而得到对应于细胞团的多层次图像区块的第二单层次识别结果;将细胞团的多层次图像区块的多个层次图像区块输入至第二图像识别网络的第二部分,从而得到对应于细胞团的多层次图像区块的第二多层次识别结果;对第二单层次识别结果和第二多层次识别结果进行融合以得到第二识别结果;其中第二图像识别网络的第一部分用于提取细胞团的平面信息,以及第二图像识别网络的第二部分用于提取细胞团的立体结构信息。在一个实施例中,对第二单层次识别结果和第二多层次识别结果进行融合以得到第二识别结果包括:针对细胞团的多种异常细胞类型将第二单层次识别结果和第二多层次识别结果进行加权平均,以得到第二识别结果。
在一些实施例中,该第二图像识别网络也可以采用图7中所示的双流神经网络的结构700。第二图像识别网络包括第二图像识别网络的第一部分(例如第一分支701)和第二图像识别网络的第二部分(例如第二分支702)。第二图像识别网络的第一部分用于提取单细胞的平面信息,第二图像识别网络的第二部分用于提取单细胞的立体结构信息。在一个实施例中,该双流神经网络的架构可以使用如下配置:第一层为卷积层,具有7х7х96的卷积核(7х7是空间维度的大小,96是层次维度的大小),步长为2,进行归一化操作,池化核为2х2大小,激活函数为ReLU函数;第二层为卷积层,具有5х5х256的卷积核(5х5是空间维度的大小,256是层次维度的大小),步长为2,进行归一化操作,池化核为2х2大小,激活函数为ReLU函数,优选地,本层无归一化操作,以节省内存;第三层为卷积层,具有3х3х512大小的卷积核(3х3是空间维度的大小,512是层次维度的大小),步长为1,激活函数为ReLU函数;第四层为卷积层,具有3х3х512的卷积核(3х3是空间维度的大小,512是层次维度的大小),步长为1,激活函数为ReLU函数;第五层为卷积层,具有3х3х512的卷积核(3х3是空间维度的大小,512是层次维度的大小),步长为1,池化核为2х2大小,激活函数为ReLU函数;第六层为全连接层,具有4096个节点,激活函数为ReLU函数;第七层为全连接层,具有2048个节点,激活函数为ReLU函数;第八层为softmax层。
在这种架构的双流神经网络中,首先初始化该网络的权重值与偏置值参数,在相关技术中,有许多可以实现参数的初始化的方法,在此不再赘述。然后,对该双流神经网络进行训练。这里采用有监督的训练,使用第二数据集对第二图像识别网络进行训练。第二数据集包括单细胞的多层次图像以及与该单细胞的多层次图像相对应的异常细胞类型标签。这里,如本领域技术人员所理解的,可以对第二图像识别网络的第一部分(例如第一分支701)和第二图像识别网络的第一部分(例如第二分支702)进行训练或联合地进行训练。其中,将可用数据中的输入数据输入到该双流神经网络中对应分支进行完整地计算并得到输出数据,设该双流神经网络的该分支的性能函数为所得到的各个输入数据与相应标签之间的差的平方值的和,通过寻找该性能函数的全局极小点来确定最合适的参数组,优选地,本公开中采取反向传播算法作为寻找全局极小点的算法。进一步地,在确定最合适的参数组过程中,采用泛化方法对该双流神经网络进行泛化,避免该网络的参数组发生过拟合现象。作为示例,可用数据可以分为三部分:训练集、验证集、测试集,其中训练集占70%,验证集占15%,测试集占15%。训练集用来计算梯度或者雅克比矩阵,并确定每次反向迭代中网络权值的更新。验证集是一个指示器,当训练过程中,验证集的误差平方和持续增加,则终止训练。测试集用来最终测试该双流神经网络的使用效果是否满足效果,即测试集的误差平方和是否小于预设阈值。
在采用该经训练的双流神经网络的情况下,从多层次图像区块中选取至少一层图像区块(例如,选取较为清晰的一层图像区块),并将该至少一层图像区块输入至第二图像识别网络的第一部分。在一个实施例中,选取一层图像区块,并将该层图像区块经过5个卷积层,然后经过两层全连接层的处理,最后进入softmax层得到对应于细胞团的多层次图像的第二单层次识别结果。另外地,将细胞团的多层次图像区块输入至第二图像识别网络的第二部分,该细胞团的多层次图像区块经过5个卷积层,然后经过两层全连接层的处理,最后进入softmax层得到对应于细胞团的第二多层次识别结果。在一个实施例中,预先通过细胞团的多层次图像区块得到光流图,这种光流图能够表征细胞团在三维结构方面的信息,然后将该光流图经过5个卷积层,然后经过两层全连接层的处理,最后进入softmax层得到对应于细胞团的第二多层次识别结果。在分别得到第二单层次识别结果和第二多层次识别结果后,将第二单层次识别结果和第二多层次识别结果进行融合以得到第二识别结果。
另外地,该第二图像识别网络可以是其他类型的用于处理三维向量的图像识别网络。首先,该图像识别网络对原始多层次图像按顺序进行特征预提取,产生包括光流信息在内的多个通道信息,将所有通道的信息组合起来得到初始特征图,利用初始特征的先验知识,提高网络初始化的性能。其次,将五个通道的信息输入下层网络的卷积层和下采样层,对其进行进一步的特征提取,卷积层和下采样层拥有不同的宽度和尺度,保证了在提取原始多层次图像的特征的同时,可以有效提取不同尺度的单细胞或细胞团的图像的特征,并使其对单细胞或细胞团不同尺度具有鲁棒性。最后,将各层提取的特征在全连接层进行组合,得到一个特征向量,该特征向量同时包含了多层次图像的空间和层次上的特征信息。使用随机梯度下降法在自建的多层次图像数据集上有监督地训练网络,并对单细胞或细胞团的病理信息进行判读。
在一个实施例中,针对细胞团的多种异常细胞类型将第二单层次识别结果和第二多层次识别结果进行融合包括将第二单层次识别结果和第二多层次识别结果进行加权平均操作。以细胞团的异常细胞类型为HSIL为例,第二单层次识别结果为HSIL 0.7。而第二多层次识别结果为HSIL 0.3,则第二识别结果为对第二单层次识别结果为HSIL 0.7和第二多层次识别结果为HSIL 0.3进行加权平均。例如在第二单层次识别结果和第二多层次识别结果的权重相等均为0.5的情况下,加权平均结果为(0.7+0.3)/2=0.5。然后将该加权平均后的结果与预先设定的阈值进行比较。例如在预设阈值为0.4的情况下,则判断细胞性质为高度鳞状上皮内病变(HSIL)。如本领域技术人员所理解的,第二单层次识别结果和第二多层次识别结果的权重可以不相等,并且上述预设阈值也是视情况进行调整。针对细胞团的其他异常类型也进行类似的加权计算。
在一个实施例中,上述第一图像识别网络和第二图像识别网络均为用于处理三维向量的图像识别网络,第一图像识别网络和第二图像识别网络是相同的多层次图像识别网络或不同的多层次图像识别网络。
在一个实施例中,第一图像识别网络和第二图像识别网络分别基于第一数据集和第二数据集进行训练,第一数据集包括单细胞的多层次图像及单细胞的多层次图像的异常细胞类型标签、第二数据集包括细胞团的多层次图像及细胞团的多层次图像的异常细胞类型标签。
在一个实施例中,第一识别结果指示单细胞的多层次图像区块中存在的异常细胞类型,第二识别结果指示细胞团多层次图像中存在的异常细胞类型。该方法还包括:根据第一识别结果和第二识别结果来确定待检测样本中的异常细胞类型。
在步骤606中,根据第一识别结果和第二识别结果来确定待检测样本中是否存在异常细胞。其中第一识别结果指示单细胞的多层次图像区块中存在的异常细胞类型,第二识别结果指示细胞团多层次图像区块中存在的异常细胞类型。作为一示例,第一识别结果显示单细胞存在LSIL(低度鳞状上皮内病变)和HSIL(高度鳞状上皮内病变);而第二识别结果显示细胞团存在HSIL(高度鳞状上皮内病变)和ASCH(非典型鳞状细胞,倾向于高度病变)。则基于第一识别结果与第二识别结果共同确定(例如进行合并和去重)确定细胞涂片中是存在异常细胞。进一步地,可以通过对一识别结果与第二识别结果进行合并和去重得到细胞图片的异常细胞类型为LSIL(低度鳞状上皮内病变)、HSIL(高度鳞状上皮内病变)和ASCH(非典型鳞状细胞,倾向于高度病变)三种。
在一些实施例中,通过在显微镜或数字切片扫描仪等设备上呈现第一识别结果和第二识别结果来确定待检测样本中是否存在异常细胞。
图8示意性示出了根据本发明另一个实施例的识别待检测样本中的异常细胞装置800的示例框图。该装置800包括:获得模块801、划分模块802、分类模块803、第一识别模块804、第二识别模块805和确定模块806。获得模块801被配置成获得待检测样本的多层次图像,样本中包括单细胞和细胞团。划分模块802被配置成将多层次图像划分为多个多层次图像区块。分类模块803被配置成将多个多层次图像区块分类成单细胞的多层次图像区块和细胞团的多层次图像区块。第一识别模块804被配置成将单细胞的多层次图像区块输入至第一图像识别网络,从而得到对应于单细胞的多层次图像区块的第一识别结果。第二识别模块805被配置成将细胞团的多层次图像区块输入至第二图像识别网络,从而得到对应于细胞团的多层次图像区块的第二识别结果;和确定模块806被配置成根据第一识别结果和第二识别结果来确定待检测样本是否存在异常细胞。
图9示意性示出了一个示例系统900,其包括代表可以实现本文描述的各种技术的一个或多个系统和/或设备的示例计算设备910。
计算设备910可以是例如服务器、台式计算机、膝上型计算机、平板、智能电话、智能手表、可穿戴设备或任何其他合适的计算设备或计算系统,其范围从具有大量存储器和处理器资源的全资源设备到具有有限的存储器和/或处理资源的低资源设备。在一些实施例中,上面关于图8描述的识别待检测样本中的异常细胞装置800可以采取计算设备910的形式。
如图所示,示例计算设备910包括彼此通信耦合的处理系统911、一个或多个计算机可读介质912以及一个或多个I/O接口913。尽管图9中未示出,但是计算设备910还可以包括总线或其他数据和命令传送系统,其将各种组件彼此耦合。总线可以包括不同总线结构的任何一个或组合,该总线结构可以是诸如存储器总线或存储器控制器、外围总线、通用串行总线和/或利用各种总线架构中的任何一种的处理器或局部总线。该总线还涵盖了各种其他示例形式,例如控制和数据线。
处理系统911代表使用硬件执行一个或多个操作的功能。因此,处理系统911被图示为包括可被配置为处理器、功能块等的硬件元件914。这可以包括在硬件中实现作为专用集成电路或使用一个或多个半导体形成的其他逻辑器件。硬件元件914不受其形成的材料或其中采用的处理机构的限制。例如,处理器可以由(多个)半导体和/或晶体管(例如,电子集成电路(IC))组成。在这样的上下文中,处理器可执行指令可以是电子可执行指令。
计算机可读介质912被图示为包括存储器/存储装置915。存储器/存储装置915表示与一个或多个计算机可读介质相关联的存储器/存储容量。存储器/存储装置915可以包括易失性介质(诸如随机存取存储器(RAM))和/或非易失性介质(诸如只读存储器(ROM)、闪存、光盘、磁盘等)。存储器/存储装置915可以包括固定介质(例如,RAM、ROM、固定硬盘驱动器等)以及可移动介质(例如,闪存、可移动硬盘驱动器、光盘等)。示例性地,存储器/存储装置915可以包括例如待检测样本的多层次图像、第一数据集或第二数据集等。计算机可读介质912可以以下面进一步描述的各种其他方式进行配置。
一个或多个输入/输出接口913代表允许用户使用各种输入设备向计算设备910键入命令和信息并且还允许使用各种输出设备将信息呈现给用户和/或发送给其他组件或设备的功能。输入设备的示例包括键盘、光标控制设备(例如,鼠标)、麦克风(例如,用于语音输入)、扫描仪、触摸功能(例如,被配置为检测物理触摸的容性或其他传感器)、相机(例如,可以采用可见或不可见的波长(诸如红外频率)将不涉及触摸的运动检测为手势)、网卡、接收机等等。输出设备的示例包括显示设备(例如,监视器或投影仪)、扬声器、打印机、触觉响应设备、网卡、发射机等。
计算设备910还包括识别细胞异常模块916。识别细胞异常模块916可以作为计算程序指令存储在存储器/存储装置915中。识别细胞异常模块916可以连同处理系统911一起实现关于图8描述的识别待检测样本中的异常细胞装置800的各个模块的全部功能。
本文可以在软件硬件元件或程序模块的一般上下文中描述各种技术。一般地,这些模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元素、组件、数据结构等。本文所使用的术语“模块”、“功能”和“组件”一般表示软件、固件、硬件或其组合。本文描述的技术的特征是与平台无关的,意味着这些技术可以在具有各种处理器的各种计算平台上实现。
所描述的模块和技术的实现可以存储在某种形式的计算机可读介质上或者跨某种形式的计算机可读介质传输。计算机可读介质可以包括可由计算设备910访问的各种介质。作为示例而非限制,计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。
与单纯的信号传输、载波或信号本身相反,“计算机可读存储介质”是指能够持久存储信息的介质和/或设备,和/或有形的存储装置。因此,计算机可读存储介质是指非信号承载介质。计算机可读存储介质包括诸如易失性和非易失性、可移动和不可移动介质和/或以适用于存储信息(诸如计算机可读指令、数据结构、程序模块、逻辑元件/电路或其他数据)的方法或技术实现的存储设备之类的硬件。计算机可读存储介质的示例可以包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光学存储装置、硬盘、盒式磁带、磁带,磁盘存储装置或其他磁存储设备,或其他存储设备、有形介质或适于存储期望信息并可以由计算机访问的制品。
“计算机可读信号介质”是指被配置为诸如经由网络将指令发送到计算设备910的硬件的信号承载介质。信号介质典型地可以将计算机可读指令、数据结构、程序模块或其他数据体现在诸如载波、数据信号或其他传输机制的调制数据信号中。信号介质还包括任何信息传递介质。术语“调制数据信号”是指这样的信号,该信号的特征中的一个或多个被(以这样的方式)设置或改变,从而将信息编码到该信号中。作为示例而非限制,通信介质包括诸如有线网络或直接连线的有线介质以及诸如声、RF、红外和其他无线介质的无线介质。
如前所述,硬件元件914和计算机可读介质912代表以硬件形式实现的指令、模块、可编程器件逻辑和/或固定器件逻辑,其在一些实施例中可以用于实现本文描述的技术的至少一些方面。硬件元件可以包括集成电路或片上系统、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、复杂可编程逻辑器件(CPLD)以及硅中的其他实现或其他硬件设备的组件。在这种上下文中,硬件元件可以作为执行由硬件元件所体现的指令、模块和/或逻辑所定义的程序任务的处理设备,以及用于存储用于执行的指令的硬件设备,例如,先前描述的计算机可读存储介质。
前述的组合也可以用于实现本文所述的各种技术和模块。因此,可以将软件、硬件或程序模块和其他程序模块实现为在某种形式的计算机可读存储介质上和/或由一个或多个硬件元件914体现的一个或多个指令和/或逻辑。计算设备910可以被配置为实现与软件和/或硬件模块相对应的特定指令和/或功能。因此,例如通过使用处理系统的计算机可读存储介质和/或硬件元件914,可以至少部分地以硬件来实现将模块实现为可由计算设备910作为软件执行的模块。指令和/或功能可以由一个或多个(例如,一个或多个计算设备910和/或处理系统911)可执行/可操作以实现本文所述的技术、模块和示例。
本文描述的技术可以由计算设备910的这些各种配置来支持,并且不限于本文所描述的技术的具体示例。计算设备910的功能还可以通过使用分布式系统、诸如通过如下所述的平台930在“云”920上全部或部分地实现。
云920包括和/或代表用于资源932的平台930。平台930抽象云920的硬件(例如,服务器)和软件资源的底层功能。资源932可以包括在远离计算设备910的服务器上执行计算机处理时可以使用的应用和/或数据。资源932还可以包括通过因特网和/或通过诸如蜂窝或Wi-Fi网络的客户网络提供的服务。
平台930可以抽象资源和功能以将计算设备910与其他计算设备连接。平台930还可以用于抽象资源的分级以提供遇到的对于经由平台930实现的资源932的需求的相应水平的分级。因此,在互连设备实施例中,本文描述的功能的实现可以分布在整个系统900内。例如,功能可以部分地在计算设备910上以及通过抽象云920的功能的平台930来实现。
如本领域技术人员所理解的,本发明术语“细胞”不限于宫颈细胞,还包括任何其他可以使用本方法来识别的部位的细胞,包括但不限于喉部细胞、直肠细胞、咽下部细胞、鼻咽细胞等细胞组织以及其他可以通过细胞涂片的方式进行识别的细胞组织。
通过研究附图、公开内容和所附的权利要求书,本领域技术人员在实践所要求保护的主题时,能够理解和实现对于所公开的实施例的变型。在权利要求书中,词语“包括”不排除其他元件或步骤,并且本文使用的词语“一”或“一个”不排除多个。虽然某些特征记载在相互不同的从属权利要求中,但是仅仅这个事实并不表明这些特征的组合不能被使用或实现。