CN111461220B - 图像分析方法、图像分析装置及图像分析系统 - Google Patents

图像分析方法、图像分析装置及图像分析系统 Download PDF

Info

Publication number
CN111461220B
CN111461220B CN202010250222.4A CN202010250222A CN111461220B CN 111461220 B CN111461220 B CN 111461220B CN 202010250222 A CN202010250222 A CN 202010250222A CN 111461220 B CN111461220 B CN 111461220B
Authority
CN
China
Prior art keywords
image
class
category
result
object detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010250222.4A
Other languages
English (en)
Other versions
CN111461220A (zh
Inventor
王晓宁
姚建华
尚鸿
郑瀚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010250222.4A priority Critical patent/CN111461220B/zh
Publication of CN111461220A publication Critical patent/CN111461220A/zh
Priority to PCT/CN2021/080185 priority patent/WO2021197015A1/zh
Priority to US17/699,056 priority patent/US20220207862A1/en
Application granted granted Critical
Publication of CN111461220B publication Critical patent/CN111461220B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Epidemiology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

提供了一种图像分析方法、图像分析装置及图像分析系统。该图像分析方法包括:获得要分析的图像;用图像分类网络对图像进行图像分类,以获得关于图像的图像类别的图像分类结果,图像类别包括第一类别和与第一类别不同的第二类别;用对象检测网络对图像进行对象检测,以获得关于与第一类别相关联的目标对象的对象检测结果;以及基于图像分类结果和对象检测结果,生成图像的图像分析结果。本发明能够提高目标检测的准确度。

Description

图像分析方法、图像分析装置及图像分析系统
技术领域
本公开涉及人工智能技术领域,特别地,涉及一种图像分析方法、图像分析装置以及图像分析系统。
背景技术
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
随着人工智能技术研究和进步,人工智能技术正在应用于各种不同的领域,诸如智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习(Machine Learning)/深度学习(Deep Learning) 等几大方向。
机器学习专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。目前,各种形式的机器学习模型已经彻底改变了人工智能的许多领域。例如,诸如深度神经网络(Deep NeuralNetworks,DNN)的机器学习模型现在被用于许多机器视觉任务。
目前,基于机器学习模型的人工智能技术与医疗技术的融合是人工智能技术应用的热点。
发明内容
根据本公开的一个方面,提供了一种图像分析方法。该图像分析方法包括:获得要分析的图像;用图像分类网络对图像进行图像分类,以获得关于图像的图像类别的图像分类结果,图像类别包括第一类别和与第一类别不同的第二类别;用对象检测网络对图像进行对象检测,以获得关于与第一类别相关联的目标对象的对象检测结果;以及基于图像分类结果和对象检测结果,生成图像的图像分析结果。
根据本公开的另一个方面,提供了一种图像分析装置。该图像分析装置包括一个或多个处理器和存储器。该存储器用于存储一个或多个计算机程序。当一个或多个计算机程序被一个或多个处理器执行时实施:获得要分析的图像;用图像分类网络对图像进行图像分类,以获得指示图像的图像类别的图像分类结果,图像类别包括第一类别和与第一类别不同的第二类别;用对象检测网络对图像进行对象检测,以获得指示是否检测到与第一类别相关联的目标对象的对象检测结果;以及基于对象检测结果和图像分类结果,生成图像的图像分析结果。
根据本公开的又一个方面,提供了一种医学图像分析系统。该医学图像分析系统包括图像采集装置、与图像采集装置耦合的计算装置和与计算装置耦合的显示装置。该图像采集装置用于采集要分析的医学图像。该计算装置包括一个或多个处理器和存储器。该存储器用于存储一个或多个计算机程序,当所述一个或多个计算机程序被所述一个或多个处理器执行时实施:获得要分析的医学图像,用图像分类网络对医学图像进行图像分类,以获得指示医学图像的图像类别的图像分类结果,图像类别包括第一类别和与第一类别不同的第二类别,用对象检测网络对医学图像进行对象检测,以获得指示是否检测到与第一类别相关联的目标对象的对象检测结果,以及基于图像分类结果和对象检测结果,生成医学图像的图像分析结果。该显示装置被配置为显示图像分析结果。
根据本公开的又一个方面,提供了一种计算机可读存储介质,其上存储有一个或多个计算机程序,其中当所述一个或多个计算机程序被一个或多个处理器执行时实现:获得要分析的图像;用图像分类网络对图像进行图像分类,以获得指示图像的图像类别的图像分类结果,图像类别包括第一类别和与第一类别不同的第二类别;用对象检测网络对图像进行对象检测,以获得指示是否检测到与第一类别相关联的目标对象的对象检测结果;以及基于图像分类结果和对象检测结果,生成图像的图像分析结果。
在一些实施方式中,例如,当一个或多个计算机程序被一个或多个处理器执行时实施:在图像分类结果指示图像类别为第一类别并且对象检测结果指示检测到目标对象的情况下,图像分析结果指示图像具有目标对象;在图像分类结果指示图像类别为第二类别并且对象检测结果指示未检测到目标对象的情况下,图像分析结果指示图像不具有目标对象。
在一些实施方式中,例如,在图像分类结果指示图像类别为第二类别的情况下,图像分类结果还包括与第二类别相对应的第一置信度,并且当一个或多个计算机程序被一个或多个处理器执行时实施:在图像分类结果指示图像类别为第二类别并且对象检测结果指示检测到目标对象的情况下,将第一置信度与第一阈值进行比较,在第一置信度小于或等于第一阈值的情况下,图像分析结果指示图像具有目标对象,以及在第一置信度大于第一阈值的情况下,图像分析结果指示图像不具有目标对象。
在一些实施方式中,例如,在图像分析结果指示图像具有目标对象的情况下,图像分析结果包括其中目标对象被标示的图像。
在一些实施方式中,例如,在图像分类结果指示图像类别为第一类别的情况下,图像分类结果还包括与第一类别相对应的第二置信度,并且当一个或多个计算机程序被一个或多个处理器执行时实施:在图像分类结果指示图像类别为第一类别并且对象检测结果指示未检测到目标对象的情况下,将第二置信度与第二阈值进行比较,在第二置信度大于第二阈值的情况下,图像分析结果指示图像具有目标对象,以及在第二置信度小于或等于第二阈值的情况下,图像分析结果指示图像不具有目标对象。
在一些实施方式中,例如,当一个或多个计算机程序被一个或多个处理器执行时实施:确定一个或多个候选区域以及与一个或多个候选区域相对应的多个检测置信度;在多个检测置信度中的每一个小于或等于预设的检测阈值的情况下,对象检测结果指示图像不具有目标对象;在多个检测置信度中的一个或多个大于检测阈值的情况下,对象检测结果指示图像具有目标对象。
在一些实施方式中,例如,在第二置信度大于第二阈值的情况下,图像分析结果包括关于第一候选区域的信息,第一候选区域与多个检测置信度中的最大的检测置信度相对应。
在一些实施方式中,例如,第一类别包括第一子类别和第二子类别。在第二置信度大于第二阈值的情况下,图像分析结果包括关于第二候选区域的信息和关于第三候选区域的信息中的一个或多个,其中第二候选区域与和第一子类别相关的多个检测置信度中的最大的检测置信度相对应,并且第三候选区域与和第二子类别相关的多个检测置信度中的最大的检测置信度相对应。
在一些实施方式中,例如,当一个或多个计算机程序被一个或多个处理器执行时实施:获得训练数据集,训练数据集包括一个或多个标准样本和一个或多个干扰样本,对一个或多个标准样本和一个或多个干扰样本的类别进行标注以获得第一标注样本集,对一个或多个标准样本和一个或多个干扰样本的目标对象进行标注以获得第二标注样本集,以及使用第一标注样本集对图像分类网络进行训练,并且使用第二标注样本集对对象检测网络进行训练。
在一些实施方式中,例如,要分析的图像为生命体组织图像,第一类别为病变类别,第二类别是非病变类别,并且与第一类别相关联的目标对象为病变区域。
在一些实施方式中,例如,图像分类网络包括DenseNet网络或ResNet 网络之一,并且对象检测网络包括YOLOv3网络或RetinaNet网络之一。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对本公开实施例的附图作简单地介绍。明显地,下面描述的附图仅仅涉及本公开的一些实施例,而非对本公开的限制,附图中:
图1示出了根据本公开的一些实施例的图像分析方法的流程图;
图2示出了根据本公开的一些实施例的DenseNet网络(例如, DenseNet-121网络)的示例结构。
图3示出了根据本公开的一些实施例的DenseNet-121网络中的四个稠密块(DenseBlock)中的一个(稠密块D1)的示例结构;
图4A和4B示出了根据本公开的一些实施例的对象检测网络对图像进行检测的示意图;
图5示出了根据本公开的一些实施例的基于Darknet-53的YOLOv3网络的示例结构;
图6示出了根据本公开的一些实施例的基于图像分类结果和对象检测结果来生成图像的图像分析结果的方法的流程图;
图7A示出了根据本公开的一些实施例的标准样本;
图7B示出了根据本公开的一些实施例的干扰样本;
图8示出了根据本公开的一些实施例的图像分析装置的框图;
图9示出了根据本公开的一些实施例的图像分析装置的框图;以及
图10示出了根据本公开的一些实施例的医学图像分析系统的框图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例的附图,对本公开实施例的技术方案进行清楚、完整地描述。明显地,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
这里用于描述本发明的实施例的术语并非旨在限制和/或限定本发明的范围。
例如,除非另外定义,本公开使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。
应该理解的是,本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。除非上下文另外清楚地指出,否则单数形式“一个”、“一”或者“该”等类似词语也不表示数量限制,而是表示存在至少一个。
将进一步理解的是,术语“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
人工智能技术与医疗技术相融合的示例包括使用人工智能技术对医疗图像进行处理、分类、检测或分析。
例如,正在研究基于人工智能技术的内窥镜影像诊断系统。该内窥镜影像诊断系统可以通过内窥镜实时捕捉(采集)生命体组织影像(图像),使用训练好的机器学习模型来自动诊断生命体组织影像的病灶位置以及病灶类型。例如,可以直接利用诸如目标检测模型的机器学习模型来对生命体组织图像进行分类(表示有病灶的病变类别或表示无病灶的非病变类别),并且检测病灶的位置以及病灶类型,从而辅助医生进行诊断。
生命体组织影像不同于自然图像,病灶与背景在外观上有时较为相似,通过肉眼很难进行区分。在这种情况下,仅仅依靠单一目标检测模型,难以获得较好的效果。另外,由于拍摄环境以及拍摄条件,内窥镜可能会采集到模糊、颜色异常、过暗、过亮等低质量影像或不合格影像。因此,仅仅依靠单一的目标检测模型,容易对内窥镜影像做出错误的判断,例如将正常的患者部位误报为病灶(即,假阳性),从而对使用者(例如,医生)造成困扰。
为了至少解决以上问题,本公开的实施例提供了一种图像分析方法、图像分析装置及图像分析系统。
需要说明,虽然以上描述了在对生命体组织图像进行检测时可能出现的问题,然而这并意味着本公开的实施例仅能应用于对生命体组织图像进行检测、分类或分析。本领域技术人员应当清楚,对于一般的图像,也可以采用本公开的实施例提供的方法、装置或系统来进行检测、分类或分析。
下面,将参考附图详细地说明本公开的实施例。应当注意的是,不同的附图中相同的附图标记将用于指代已描述的相同的元件。
在本公开的一些实施例中,生命体组织可以指生命体(具有生命形态的独立个体,其能对外界刺激做出相应反映)的一些组成部分。对于人体,生命体组织包括例如人体的口腔、食管、咽喉、肠胃(例如,胃、十二指肠或结直肠)、肺部或心脏等。对于动物,生命体组织包括例如动物的口腔、食管、咽喉、肠胃(例如,胃、十二指肠或结直肠)、肺部或心脏等。
在本公开的一些实施例中,图像分类可以指将图像结构化为某一类别的信息。
例如,在图像为生命体组织图像的情况下,图像分类可以指确定该图像的类别是表示有病灶的病变类别还是表示无病灶的非病变类别。或者,图像还可以包括确定该图像的类别是病变类别中的良性病变类别还是恶性病变类别。
在本公开的一些实施例中,图像检测(或称为对象检测)可以指确定图像中的特定目标(或特定对象)并获得特定目标的类别信息和/或位置信息。
例如,在图像为生命体组织图像的情况下,图像检测可以指确定该图像的病变区域。或者,图像检测还可以包括确定该病变区域对应的病变类别是良性病变类别还是恶性病变类别。
图1示出了根据本公开的一些实施例的图像分析方法100的流程图。
参考图1,在步骤S110,获得要分析的图像。
在一些实施方式中,可以从图像采集装置接收要分析的图像。或者,可以从存储装置中获得要分析的图像。例如,图像采集装置可以包括照相机或摄像机。例如,图像采集装置可以包括安装有照相机或摄像机的内窥镜。
在一些实施方式中,要分析的图像的类型可以是生命体组织图像。
在步骤S120,用图像分类网络对该图像进行图像分类,以获得关于该图像的图像类别的图像分类结果,图像类别包括第一类别和与第一类别不同的第二类别。例如,第一类别指示该图像具有与第一类别相关联的目标对象,第二类别指示该图像不具有与第一类别相关联的目标对象。在一个示例中,第一类别(例如,病变类别)可以指示该图像包括一个或多个病变区域,而第二类别(例如,非病变类别)可以指示该图像不包括病变区域。
在一些实施方式中,步骤S120可以包括:确定将该图像分类为第一类别的置信度以及将该图像分类为第二类别的置信度;如果将该图像分类为第一类别的置信度大于将该图像分类为第二类别的置信度,则将该图像分类为第一类别,并且如果将该图像分类为第一类别的置信度小于将该图像分类为第二类别的置信度,则确定图像类别为第二类别。
在一些实施方式中,第一类别可以包括第一子类别和第二子类别。在这种情况下,步骤S120可以包括:确定将该图像分类为第一子类别的置信度、将该图像分类为第二子类别的置信度、以及将该图像分类为第二类别的置信度,以及将与最大的置信度相对应的类别确定为该图像的图像类别。例如,在一个具体的示例中,将该图像分类为第一子类别的置信度为0.9,将该图像分类为第二子类别的置信度为0.1,将该图像分类为第二类别的置信度为 0.1。由于将该图像分类为第一子类别的置信度大于将该图像分类为第二类别的置信度以及将该图像分类为第二子类别的置信度,所以可以确定该图像的图像类别为第一类别,并且进一步可以确定该图像的图像类别为第一子类别。在本公开的实施例中,用于分类的置信度可以表示将图像分类为某个类别的可信程度。
可替换地,步骤S120还可以包括:确定将该图像分类为第一子类别的置信度、将该图像分类为第二子类别的置信度;将与最大的置信度确定为将图像分类为第一类别的置信度;确定将该图像分类为第二类别的置信度;以及将第一类别的置信度和第二类别的置信度之中最大的置信度相对应的类别确定为该图像的图像类别。例如,在一个具体的示例中,将该图像分类为第一子类别的置信度为0.9,将该图像分类为第二子类别的置信度为0.1,将该图像分类为第二类别的置信度为0.1。首先,基于将该图像分类为第一子类别的置信度为0.9以及将该图像分类为第二子类别的置信度为0.1,确定将该图像分类为第一类别的置信度为0.9。然后,基于将该图像分类为第一类别的置信度为0.9和将该图像分类为第二类别的置信度为0.1,可以确定该图像的图像类别为第一类别。而且,进一步可以确定该图像的图像类别为第一子类别。在本公开的实施例中,用于分类的置信度可以表示将图像分类为某个类别的可信程度。
在一个示例中,图像分类网络可以实现二分类,以确定该图像的图像类别为第一类别还是第二类别。
在另一个示例中,图像分类网络可以实现三分类,以确定该图像的图像类别为第一类别中的第一子类别、第一类别中的第二子类别还是第二类别。
在一些实施方式中,图像分类结果可以指示图像的图像类别是第一类别还是第二类别。例如,图像分类结果可以包括指示图像的图像类别是第一类别还是第二类别的信息。
在一些实施方式中,图像分类结果可以指示图像的图像类别是第一类别还是第二类别,并且还指示图像的图像类别是第一子类别、第二子类别还是第二类别。例如,图像分类结果可以包括指示图像的图像类别是第一类别还是第二类别的信息,或者可以包括指示图像的图像类别是第一子类别、第二子类别还是第二类别的信息。
在一些示例中,图像分类结果可以包括指示信息以指示图像的图像类别是第一类别还是第二类别。在一个示例中,指示信息可以是指示符。例如,当指示符的值为“0”时,可以指示图像的图像类别是第一类别,并且当指示符的值为“1”时,可以指示图像的图像类别是第二类别。在另一个示例中,指示信息可以是指示图像的图像类别是第一类别还是第二类别的文本信息。
在一些实施方式中,图像分类结果还可以包括关于将该图像分类为相应的类别的置信度的信息。例如,图像分类结果可以包括将该图像分类为第一类别的置信度或将该图像分类为第二类别的置信度中的一个或多个。
在一些实施方式中,在要分析的图像的类型是生命体组织图像的情况下,第一类别为病变类别,第二类别是非病变类别(即,正常类别)。例如,病变类别可以包括第一子类别(良性病变类别)和第二子类别(恶性病变类别 (例如,癌症类别))。
在一些实施方式中,图像分类网络可以被实施为诸如深度神经网络(例如,卷积神经网络(Convolutional neural networks,CNN)的机器学习模型。例如,图像分类网络可以包括基于诸如DenseNet网络(参见Gao Huang,et al. “Densely ConnectedConvolutional Networks”,IEEE Conference on Computer Vision and PatternRecognition(CVPR),2017)或ResNet网络(参见Kaiming He, et al.“Deep ResidualLearning for Image Recognition”,IEEE Conference on Computer Vision andPattern Recognition(CVPR),2016)等的神经网络分类器。 DenseNet网络是一种稠密连接的卷积神经网络,它将每一层以前馈的方式连接到其它每一层。图2示出了DenseNet网络(例如,DenseNet-121网络) 的一种示例结构。参考图2,DenseNet-121网络可以包括卷积(Convolution) 层、池化(Pooling)层、四个稠密块(Dense Block)(稠密块D1、D2、D3 和D4)、三个过渡层(Transition layer)(过渡层T1、T2和T3)和分类 (Classification)层。例如,DenseNet-121网络的增长率(growth-rate),即每一层增加的特征的数量,可以设置为24。图2中示出了各个层的结构和参数。继续参考图2,卷积层包括7×7的卷积(conv),步长(stride)为2。池化层包括3×3的最大池化(max pool)(步长(stride)为2)。过渡层(Transition layer)包括1×1的卷积(conv)和2×2的平均池化(average pool) (步长(stride)为2)。例如,过渡层的特征压缩比率可以设置为0.5。分类层包括7×7的全局平均池化(global average pool)、二维(2D)全连接 (fully-connect)以及softmax。另外,图3中示出了四个稠密块(Dense Block) 中的一个(稠密块D1)的一种示例结构。参考图3,稠密块D1可以包括六个相同的处理过程,该处理过程包括两个批标准化(BatchNormalization)、两个ReLu激活函数、1×1的卷积(Conv)、3×3的卷积(conv)和两个丢弃(Dropout)处理。
虽然以上描述了可以实施图像分类网络的DenseNet网络(例如, DenseNet-121网络)的一种示例结构,然而本公开的实施例不限于此。例如,可以采用各种其他的机器学习模型来实施图像分类网络以对要分析的图像进行分类。
然后,继续参考图1,在步骤S130,用对象检测网络对该图像进行对象检测,以获得关于与第一类别相关联的目标对象的对象检测结果。
在一些实施方式中,对象检测结果可以包括指示是否检测到与第一类别相关联的目标对象的信息。
在一些示例中,对象检测结果可以包括指示信息以指示是否检测到与第一类别相关联的目标对象。在一个示例中,指示信息可以是指示符。例如,当指示符的值为“0”时,可以指示未检测到与第一类别相关联的目标对象的信息,并且当指示符的值为“1”时,可以指示检测到与第一类别相关联的目标对象的信息。
在一些示例中,在对象检测网络检测到目标对象的情况下,对象检测结果可以包括关于检测到的目标对象的信息。例如,关于检测到的目标对象的信息可以包括该目标对象的位置(例如,顶点的坐标)、目标对象的尺寸(例如,长度和宽度)或者该目标对象的类别中的一个或多个。在这种情况下,可以通过对象检测结果中的关于检测到的目标对象的信息来指示检测到与第一类别相关联的目标对象以及该目标对象的位置、尺寸或类别中的一个或多个。
在一些示例中,在对象检测网络未检测到与第一类别相关联的目标对象的情况下,对象检测结果可以包括特定的信息以指示未检测到与第一类别相关联的目标对象。在一个示例中,特定的信息可以为原始的要分析的图像以指示未检测到与第一类别相关联的目标对象。在另一个示例中,特定的信息可以为空(Null)值以指示未检测到与第一类别相关联的目标对象。
在一些示例中,在第一类别包括第一子类别和第二子类别的情况下,对象检测结果还可以包括指示目标对象的类别是第一子类别还是第二子类别的信息。
在一些实施方式中,步骤S130可以包括:确定在图像中是否识别到候选区域;在未识别到候选区域的情况下,对象检测结果可以包括指示未检测到与第一类别相关联的目标对象的信息;在识别到一个或多个候选区域的情况下,根据预设的检测阈值确定一个或多个候选区域是否是目标对象;在所述一个或多个候选区域中的所有候选区域都不是目标对象的情况下,对象检测结果可以包括指示未检测到与第一类别相关联的目标对象的信息;在所述一个或多个候选区域中的至少一个候选区域是目标对象的情况下,对象检测结果可以包括指示检测到与第一类别相关联的目标对象的信息。例如,在相应的候选区域的检测置信度大于预设的检测阈值的情况下,将该候选区域确定为检测到的目标对象,并且,在相应的候选区域的检测置信度小于预设的检测阈值的情况下,不将候选区域确定为检测到目标对象。也就是说,如果所有的候选区域的检测置信度均小于预设的检测阈值,则可以确定未检测到与第一类别相关联的目标对象。在这种情况下,对象检测结果除了包括指示未检测到与第一类别相关联的目标对象的信息以外还可以包括关于候选区域的信息(例如,位置信息和相应的检测置信度)。在本公开的实施例中,检测置信度可以表示将特定区域识别为目标对象的置信度。下面结合图4A 和图4B说明通过对象检测网络对图像进行对象检测的一种具体示例。
参考图4A,对象检测网络对图像IMG进行检测,可以识别到位于相应的检测框(D1、D2、D3和D4)内的多个候选区域,每个候选区域具有与该候选区域相对应的检测置信度。例如,假设检测框D1内的候选区域被识别为第一类别的置信度为0.98,检测框D2内的候选区域被识别为第一类别的置信度为0.2,检测框D3内的候选区域被识别为第一类别的置信度为 0.1,检测框D4内的候选区域被识别为第一类别的置信度为0.92,并且预设的检测阈值为0.9,则将检测框D1和D4内的候选区域确定为目标对象。在这种情况下,对象检测结果可以包括指示检测到与第一类别相关联的目标对象的信息。例如,该信息可以包括关于检测到的目标对象(即,检测框D1 和D4内的区域)的信息(例如,位置信息或相应的检测置信度)。在一种示例中,可以在对象检测结果中通过图像IMG上的相应的检测框D1和D4 来指示目标对象的位置。关于对象检测结果的各种形式可以参考以上描述的各种实施方式。
参考图4B,对象检测网络对图像IMG进行检测,可以识别到位于相应的检测框(D5和D6)内的多个候选区域,每个候选区域具有与该候选区域相对应的检测置信度。例如,假设检测框D5内的候选区域被识别为第一类别的置信度为0.2,检测框D6内的候选区域被识别为第一类别的置信度为 0.1,并且预设的检测阈值为0.9,则可以确定未检测到与第一类别相关联的目标对象。在这种情况下,对象检测结果可以包括指示未检测到与第一类别相关联的目标对象的信息。关于对象检测结果的各种形式可以参考以上描述的各种实施方式。
在一些实施方式中,对象检测网络可以被实施为诸如深度神经网络(例如,卷积神经网络(Convolutional neural networks,CNN)的机器学习模型。例如,对象检测网络可以包括诸如YOLOv3网络(参见Joseph Redmon,et al. “YOLOv3:An IncrementalImprovement”,2018)或RetinaNet网络(参见, Tsung-Yi Lin,et al.“Focal Loss forDense Object Detection”,IEEE Transactions on Pattern Analysis and MachineIntelligence,2017)的各种检测网络。YOLOv3 网络采用多尺度训练方法并基于锚框(anchor box)来进行检测。图5示出了根据本公开的一些实施例的基于Darknet-53的YOLOv3网络的示例结构。参考图5,基于Darknet-53的YOLOv3网络可以包括多个(例如,在图5中, 52个)卷积层(convolutional layer)、多个残差块(residual block)、平均池化层、连接层(例如,通过1×1卷积实现)和softmax。继续参考图5,YOLOv3 网络采用多个尺度(Scale1、Scale2和Scale3)融合的方式做检测(YOLO 检测)。
虽然以上描述了可以实施对象检测网络的YOLOv3网络的一种示例结构,然而本公开的实施例不限于此。例如,可以采用任何合适的机器学习模型来实施对象检测网络以对要分析的图像进行目标检测或对象检测。
接下来,继续参考图1,在步骤S140,基于图像分类结果和对象检测结果,生成图像的图像分析结果。
在一些实施方式中,步骤S140可以包括:在图像分类结果指示图像类别为第一类别并且对象检测结果指示检测到与第一类别相关的目标对象的情况下,可以确定图像具有目标对象并且可以通过图像分析结果指示图像具有目标对象;在图像分类结果指示图像类别为第二类别并且对象检测结果指示未检测到目标对象的情况下,可以确定图像不具有目标对象并且可以通过图像分析结果指示图像不具有目标对象。
在一些实施方式中,步骤S140可以包括:在图像分类结果指示图像类别为第二类别并且对象检测结果指示检测到目标对象的情况下,将第一置信度与第一阈值进行比较,其中第一置信度表示将图像分类为第二类别的置信度;在第一置信度小于或等于预设的第一阈值的情况下,确定图像具有目标对象并且可以通过图像分析结果指示图像具有目标对象;以及在第一置信度大于预设的第一阈值的情况下,确定图像不具有目标对象并且可以通过图像分析结果指示图像不具有目标对象。
在一些示例中,图像分析结果可以包括指示信息以指示图像是否具有与第一类别相关联的目标对象。在一个示例中,指示信息可以是指示符。例如,当指示符的值为“0”时,可以指示图像不具有与第一类别相关联的目标对象的信息,并且当指示符的值为“1”时,可以指示图像具有与第一类别相关联的目标对象的信息。在另一个示例中,指示信息还可以是指示图像具有目标对象的其它信息(例如,文本信息)。
在一些示例中,在图像分析结果指示该图像具有目标对象的情况下,图像分析结果可以包括关于目标对象的信息(例如,该目标对象的位置(例如,顶点的坐标)、目标对象的尺寸(例如,长度和宽度)、该目标对象的类别、或该目标对象的检测置信度中的一个或多个)。在目标对象的数量大于一个的情况下,图像分析结果可以包括关于每个目标对象的信息。在一个示例中,图像分析结果可以包括其中目标对象被标示(例如,通过相应的检测框)的图像。在这种情况下,可以通过其中目标对象被标示的图像来指示图像具有目标对象并且相应的目标对象的位置。例如,在这种情况下,图像分析结果可以包括其中通过检测框标示目标对象的图像。
在一些示例中,图像分析结果可以包括指示图像是否具有与第一类别相关联的目标对象的指示信息(例如,指示符)、以及关于目标对象的信息(例如,该目标对象的位置(例如,顶点的坐标)、目标对象的尺寸(例如,长度和宽度)、该目标对象的类别、或该目标对象的检测置信度中的一个或多个)。
在一些示例中,在图像分析结果指示该图像不具有目标对象的情况下,图像分析结果可以包括特定的信息以指示图像不具有与第一类别相关联的目标对象。在一个示例中,特定的信息可以为原始的要分析的图像,即,其中不存在通过检测框标识的目标对象。在另一个示例中,特定的信息可以为空(null)值以指示图像不具有与第一类别相关联的目标对象。
在一些实施方式中,步骤S140可以包括:在图像分类结果指示图像类别为第一类别并且对象检测结果指示未检测到目标对象的情况下,将第二置信度与第二阈值进行比较,其中第二置信度表示将图像分类为第一类别的置信度;在第二置信度大于第二阈值的情况下,图像分析结果指示图像具有目标对象,以及在第二置信度小于或等于第二阈值的情况下,图像分析结果指示图像不具有目标对象。
以上描述了在步骤S140中基于图像分类结果和对象检测结果来生成图像的图像分析结果的各种分析策略。下面将结合图6描述基于这些策略中的一个或多个来生成图像的图像分析结果的实施方式。
参考图6,在步骤S1410,获得图像分类结果和对象检测结果。
例如,可以从图像分类网络接收图像(例如,生命体组织图像)的图像分类结果,并且从对象检测网络获得对象检测结果。
然后,在步骤S1420,基于对象检测结果确定是否检测到目标对象(例如,与病变类别相对应的病变区域)。
当在步骤S1420中对象检测结果指示检测到目标对象(例如,病变区域) 时,在步骤S1430,基于图像分类结果确定图像类别是第一类别(例如,病变类别)还是第二类别(例如,非病变类别)。
如果在步骤S1430确定图像类别是第一类别(例如,病变类别),则可以在图像分析结果中包括指示图像(例如,生命体组织图像)具有目标对象 (例如,病变区域)的信息。相反,如果确定图像类别是第二类别(例如,非病变类别),则在步骤S1440,确定第一置信度是否大于预设的第一阈值,其中第一置信度表示将图像分类为第二类别(例如,非病变类别)的置信度。如果确定第一置信度大于预设的第一阈值,可以认为将图像(例如,生命体组织图像)分类为第二类别(例如,非病变类别)的置信度较高,并且可以在图像分析结果中包括指示图像(例如,生命体组织图像)不具有目标对象 (例如,病变区域)的信息。相反,如果确定第一置信度小于或等于预设的第一阈值,则认为将图像(例如,生命体组织图像)分类为第二类别(例如,非病变类别)的置信度较低,并且可以在图像分析结果中包括指示图像(例如,生命体组织图像)具有目标对象(例如,病变区域)的信息。关于图像分析结果的各种形式可以参考以上描述的各种实施方式。由此,可以基于用于图像分类的置信度来调整对象检测结果。
当在步骤S1420中对象检测结果指示未检测到目标对象时,在步骤 S1450,确定图像类别是第一类别(例如,病变类别)还是第二类别(例如,非病变类别)。
如果在步骤S1450确定图像类别是第二类别(例如,非病变类别),则在图像分析结果中包括指示图像不具有目标对象(例如,病变区域)的信息。相反,如果在步骤S1450确定图像类别是第一类别(例如,病变类别),则在步骤S1460,确定第二置信度是否大于预设的第二阈值,其中第二置信度表示将图像(例如,生命体组织图像)分类为第一类别(例如,病变类别) 的置信度。如果确定第二置信度大于预设的第二阈值,则可以确定将图像(例如,生命体组织图像)分类为第一类别(例如,病变类别)的置信度较高,并且可以在图像分析结果中包括指示图像(例如,生命体组织图像)具有目标对象(例如,病变区域)的信息。在这种情况下,目标对象可以被确定为在使用对象检测网络对图像进行对象检测时多个检测置信度中的最大的检测置信度相对应的第一候选区域(例如,候选病变区域)。例如,在一个具体的示例中,参考4B,图像分析结果可以包括关于其中与多个检测置信度中的最大的检测置信度相对应的第一候选区域(例如,检测框D5内的区域) 的信息(例如,第一候选区域的位置(例如,顶点的坐标)、尺寸(例如,长度和宽度)、类别、检测置信度中的一个或多个)。另外,如果确定第二置信度小于或等于预设的第二阈值,则可以在图像分析结果中包括指示图像 (例如,生命体组织图像)不具有目标对象(例如,病变区域)的信息。
在一些实施方式中,第一类别(例如,病变类别)可以包括第一子类别 (例如,良性病变类别)和第二子类别(例如,恶性病变类别)。在这种情况下,取决于第一类别是第一子类别(例如,良性病变类别)还是第二子类别(例如,恶性病变类别),可以改变或调整以上实施例中的一些分析策略。下面描述一些示例。
在一个示例中,例如,在步骤S1450中,如果确定图像类别是第一类别 (例如,病变类别),则进一步确定图像类别是第一类别中的第一子类别(例如,良性病变类别)还是第二子类别(例如,恶性病变类别)。如果确定图像类别是第二子类别(例如,恶性病变类别),则可以直接确定图像具有目标对象而不执行步骤S1460。在这种情况下,目标对象可以被确定为在使用对象检测网络对图像进行对象检测时的候选区域(例如,与恶性病变类别相对应的候选病变区域)。例如,图像分析结果可以包括关于该候选区域的信息(例如,该候选区域的位置(例如,顶点的坐标)、尺寸(例如,长度和宽度)、类别、检测置信度中的一个或多个)。
在另一个示例中,例如,在步骤S1450中,如果确定图像类别是第一类别(例如,病变类别),则进一步确定图像类别是第一类别中的第一子类别 (例如,良性病变类别)还是第二子类别(例如,恶性病变类别)。然后,在步骤S1460,确定第二置信度是否大于预设的第二阈值,其中第二置信度表示将图像(例如,生命体组织图像)分类为第一类别(例如,病变类别) (包括第一子类别(例如,良性病变类别)或第二子类别(例如,恶性病变类别))的置信度。在这种情况下,图像分析结果可以包括指示图像(例如,生命体组织图像)具有目标对象(例如,病变区域)的信息,并且可以将第二候选区域和第三候选区域中的一个或多个确定为目标对象,其中第二候选区域与和第一子类别(例如,良性病变类别)相关的多个检测置信度中的最大的检测置信度相对应,并且第三候选区域与和第二子类别(例如,恶性病变类别)相关的多个检测置信度中的最大的检测置信度相对应。例如,图像分析结果可以包括关于第二候选区域的信息(例如,该第二候选区域的位置 (例如,顶点的坐标)、尺寸(例如,长度和宽度)、类别、检测置信度中的一个或多个)和关于第三候选区域的信息(例如,该第三候选区域的位置 (例如,顶点的坐标)、尺寸(例如,长度和宽度)、类别、检测置信度中的一个或多个)中的一个或多个。在一个示例中,图像分析结果可以包括在其中目标对象被标示(例如,通过与第二候选区域相对应的检测框和与第三候选区域相对应的检测框中的一个或多个)的图像。
在本公开的实施例中,预设的检测阈值、预设的第一阈值、预设的第二阈值可以是预设的超参数。例如,可以根据用于对象检测网络的检测任务来设置这些超参数的值。
在一些实施方式中,方法100还可以包括一些附加步骤。例如,在步骤 S110或步骤S120之前还包括:对图像分类网络或对象检测网络中的一个或多个进行训练。
在一些示例中,对图像分类网络或对象检测网络中的一个或多个进行训练包括:获得训练数据集,该训练数据集包括一个或多个标准样本和一个或多个干扰样本;对所述一个或多个标准样本和所述一个或多个干扰样本的类别进行标注以获得第一标注样本集;对所述一个或多个标准样本和所述一个或多个干扰样本的目标对象进行标注以获得第二标注样本集;以及使用第一标注样本集对图像分类网络进行训练,并且使用第二标注样本集对对象检测网络进行训练。在本公开的实施例,标准样本可以指具有较高质量的图像样本,而干扰样本可以指具有较低质量的图像样本。例如,在要分析的图像的类型是生命体组织图像(例如,通过内窥镜获取的)的情况下,图7A示出了一些标准样本的示例,并且图7B示出了一些干扰样本的示例。在图7A 中,不同器官部位(例如,食管、胃、十二指肠、结直肠或咽喉)的内窥镜图像具有较高的质量,因此,图像分类网络或对象检测网络能够对其进行分类或检测。在图7B中,诸如体外图像、非生命体组织图像、过暗的生命体组织图像、过亮的生命体组织图像、模糊的生命体组织图像、包括唾沫的生命体组织图像、包括食物残留的生命体组织图像或者包括气泡的生命体组织图像等属于具有较低的质量的图像样本,并且这些图像属于非病变类别。在本公开的一些实施例中,通过在训练数据集中包括属于非病变类别的具有较低的质量的图像样本,能够提高图像分类网络或对象检测网络对低质量图像的识别能力,减少由于要分析的图像的质量不足引起的假阳性问题。
在一些示例中,在对对象检测网络进行训练时,基于迁移学习(TransferLearning)技术,使用通过ImageNet数据集训练好的参数来初始化对象检测网络。ImageNet数据集是计算机视觉领域的开源数据集,数据量在百万级以上。经过该数据集得到的模型初始点,能避免对象检测网络过拟合,使得对象检测网络容易地收敛到最优点,即具有更好的收敛性。
以上描述了根据本公开的一些实施例的图像分析方法100。在本公开的实施例中,结合来自图像分类网络的图像分类结果和来自对象检测网络的对象检测结果来进行图像的目标检测,通过图像分类结果来对对象检测结果进一步分析,能够提高目标检测的准确度(Precision)。
例如,图像分析方法100可以用于对生命体组织图像进行分析。在这种情况下,第一类别为病变类别,第二类别是非病变类别(即,正常类别),目标对象是与病变类别相对应的病变区域。例如,病变类别可以包括良性病变类别还是恶性病变类别。通过根据本公开的一些实施例的图像分析方法 100,能够提高对病变区域检测的准确度,避免假阳性问题。
例如,将根据本公开的实施例的方法与仅使用检测模型来进行对象检测的方法进行对比,在包括一万多个图像样本的数据集上进行效果评估。使用机器学习模型常用的评价指标:准确度(Precision)、召回率(Recall)、F 值(F-Measure)来进行效果评估。准确率可以表示数据集中的图像样本中被预测正确的图像样本的比例,召回率可以表示数据集中的正例图像样本中被预测正确的正例图像样本的比率,F值可以表示准确率和召回率的加权平均。表1示出了使用根据本公开的实施例的方法来进行对象检测和仅使用检测模型来进行对象检测的效果的对比。
表1本公开的实施例的方法和仅使用检测模型的方法的效果评估
方法 准确度 召回率 F值
仅使用检测模型的方法 77.59% 55.71% 64.86%
根据本公开的实施例的方法 83.80% 55.13% 66.51%
如表1所示,根据本公开的实施例的方法的准确度有显著的提升,召回率具有一定程度的下降,并且F值具有一定程度的提升。因此,根据本公开的实施例的方法具有更好的检测性能。
下面将参考图8描述根据本公开的一些实施例的图像分析装置800。
图8示出了根据本公开的一些实施例的图像分析装置800的框图。
参考图8,图像分析装置800可以包括图像获取模块810、图像分类模块820、图像检测模块830以及图像分析模块840。
图像获取模块810用于获得要分析的图像。
图像分类模块820用于通过图像分类网络对图像进行图像分类,以获得指示图像的图像类别的图像分类结果,图像类别包括第一类别和与第一类别不同的第二类别。
图像检测模块830用于通过对象检测网络对图像进行对象检测,以获得指示是否检测到与第一类别相关联的目标对象的对象检测结果。
图像分析模块840用于基于对象检测结果和图像分类结果,生成图像的图像分析结果。
关于图像获取模块810、图像分类模块820、图像检测模块830以及图像分析模块840的各种配置可以参考以上描述的各种方法实施例。
以上描述了根据本公开的一些实施例的图像分析装置800。在本公开的一些实施例中,图像分析装置800结合来自图像分类网络的图像分类结果和来自对象检测网络的对象检测结果来进行图像的目标检测,通过图像分类结果来对对象检测结果进一步分析,能够提高目标检测的准确度(Precision)。
例如,图像分析装置800可以用于对生命体组织图像进行分析。在这种情况下,第一类别为病变类别,第二类别是非病变类别(即,正常类别),目标对象是与病变类别相对应的病变区域。例如,病变类别可以包括良性病变类别还是恶性病变类别。通过根据本公开的一些实施例的图像分析装置 800,能够提高对病变区域检测的准确度,避免假阳性问题。
下面将参考图9描述根据本公开的一些实施例的图像分析装置900。
图9示出了根据本公开的一些实施例的图像分析装置800的框图。
参考图9,图像分析装置900可以包括一个或多个处理器910和存储器 920。存储器920可以用于存储一个或多个计算机程序。当一个或多个计算机程序被一个或多个处理器910执行时实施:获得要分析的图像;用图像分类网络对图像进行图像分类,以获得指示图像的图像类别的图像分类结果,图像类别包括第一类别和与第一类别不同的第二类别;用对象检测网络对图像进行对象检测,以获得指示是否检测到与第一类别相关联的目标对象的对象检测结果;以及基于对象检测结果和图像分类结果,生成图像的图像分析结果。
处理器910可以包括各种处理电路,诸如但不限于专用处理器、中央处理单元、应用处理器或通信处理器中的一种或更多种。处理器910可以对图像分析装置900的至少一个其他组件执行控制、和/或执行与通信相关的操作或数据处理。
存储器920可以包括易失性和/或非易失性存储器。
在一些实施方式中,当一个或多个计算机程序被一个或多个处理器910 执行时,使得一个或多个处理器910实现如上描述的本公开各种实施例的方法中的一些或全部。
例如,本公开的实施例中的图像分析装置900可以包括诸如智能电话、平板个人计算机(PC)、服务器、移动电话、视频电话、电子书阅读器、台式PC、膝上型计算机、上网本计算机、个人数字助理(PDA)、便携式多媒体播放器(PMP)、MP3播放器、移动医疗设备、照相机或可穿戴设备(例如头戴式设备(HMD)、电子衣服、电子手环、电子项链、电子饰品、电子纹身或智能手表)等。
以上描述了根据本公开的一些实施例的图像分析装置900。在本公开的一些实施例中,图像分析装置900结合来自图像分类网络的图像分类结果和来自对象检测网络的对象检测结果来进行图像的目标检测,通过图像分类结果来对对象检测结果进一步分析,能够提高目标检测的准确度(Precision)。
例如,图像分析装置900可以用于对生命体组织图像进行分析。在这种情况下,第一类别为病变类别,第二类别是非病变类别(即,正常类别),目标对象是与病变类别相对应的病变区域。例如,病变类别可以包括良性病变类别还是恶性病变类别。通过根据本公开的一些实施例的图像分析装置 900,能够提高对病变区域检测的准确度,避免假阳性问题。
下面将参考图10描述根据本公开的一些实施例的医学图像分析系统 1000。
图10示出了根据本公开的一些实施例的医学图像分析系统1000的框图。
参考图10,医学图像分析系统1000可以包括图像采集装置1010、计算装置1020和显示装置1030。
图像采集装置1010可以用于采集要分析的医学图像。例如,图像采集装置可以包括照相机或摄像机。
在一些实施方式中,图像采集装置可以包括其上安装有照相机或摄像机的内窥镜。通过图像采集装置可以对待检测对象(例如,人或动物)进行检查以采集要分析的医学图像。例如,图像采集装置可以由体外经过人体自然腔道送入人体内部,采集体内的器官(例如,口腔、食管、咽喉、肠胃(例如,胃、十二指肠或结直肠)、肺部或心脏等)的医学图像(例如,医学影像),以对体内的器官的状态(例如,健康状态或疾病状态)进行检查。例如,要分析的医学图像的类型可以是生命体组织图像。
计算装置920可以与图像采集装置910耦合并包括一个或多个处理器和存储器。存储器用于存储一个或多个计算机程序。当所述一个或多个计算机程序被所述一个或多个处理器执行时实施:获得要分析的医学图像,用图像分类网络对医学图像进行图像分类,以获得指示医学图像的图像类别的图像分类结果,图像类别包括第一类别和与第一类别不同的第二类别,用对象检测网络对医学图像进行对象检测,以获得指示是否检测到与第一类别相关联的目标对象的对象检测结果,以及基于图像分类结果和对象检测结果,生成医学图像的图像分析结果。
在一些实施方式中,当所述一个或多个计算机程序被一个或多个处理器911执行时,使得一个或多个处理器实现如上描述的本公开各种实施例的方法中的一些或全部。
在一些实施方式中,计算装置1020可以包括诸如智能电话、平板个人计算机(PC)、服务器、移动电话、视频电话、电子书阅读器、台式PC、膝上型计算机、上网本计算机、个人数字助理(PDA)、便携式多媒体播放器 (PMP)、MP3播放器、移动医疗设备、照相机或可穿戴设备(例如头戴式设备(HMD)、电子衣服、电子手环、电子项链、电子饰品、电子纹身或智能手表)等。
在一些实施方式中,计算装置1020可以与图像采集装置有线连接或无线连接。
显示装置1030可以与计算装置1020耦合并被配置为显示图像分析结果。
虽然在图10中,显示装置1030与计算装置1020被示出为分离的部件,然而本公开的实施例不限于此。例如,显示装置1030可以与计算装置1020 集成在一起,或者被实施为计算装置1020的一部分。
以上描述了根据本公开的一些实施例的图像分析系统1000。在本公开的一些实施例中,图像分析系统1000结合来自图像分类网络的图像分类结果和来自对象检测网络的对象检测结果来进行图像的目标检测,通过图像分类结果来对对象检测结果进一步分析,能够提高目标检测的准确度(Precision)。
例如,图像分析系统1000可以用于对生命体组织图像进行分析。在这种情况下,第一类别为病变类别,第二类别是非病变类别(即,正常类别),目标对象是与病变类别相对应的病变区域。例如,病变类别可以包括良性病变类别还是恶性病变类别。通过根据本公开的一些实施例的图像分析系统 900,能够提高对病变区域检测的准确度,避免假阳性问题。
如本文所使用的,术语“模块”可以包括在硬件、软件或固件和/或其任何组合中配置的单元,并且可以与其他术语(例如逻辑、逻辑块、部件或电路)互换使用。模块可以是单个整体部件或执行一个或更多个功能的最小单元或部件。该模块可以机械地或电子地实现,并且可以包括但不限于已知的或将要被开发的执行某些操作的专用处理器、CPU、专用集成电路(ASIC) 芯片、现场可编程门阵列(FPGA)或可编程逻辑器件。
根据本公开的实施例,装置(例如,模块或其功能)或方法(例如,操作或步骤)的至少一部分可以被实现为例如以程序模块的形式存储在计算机可读存储介质中的指令。当由处理器执行该指令时,该指令可以使处理器能够执行相应的功能。计算机可读介质可以包括例如硬盘、软盘、磁介质、光学记录介质、DVD、磁光介质。该指令可以包括由编译器创建的代码或者可由解释器执行的代码。根据本公开的各种实施例的模块或编程模块可以包括上述组件中的至少一个或更多个,可以省略其中的一些,或者还包括其他附加的组件。由根据本公开的各种实施例的模块、编程模块或其他组件执行的操作可以顺序地、并行地、重复地或启发地执行,或者至少一些操作可以以不同的顺序被执行或被省略,或者可以添加其他操作。
以上仅是本发明的示范性实施方式,而非用于限制本发明的保护范围,本发明的保护范围由所附的权利要求确定。

Claims (15)

1.一种图像分析方法,包括:
获得要分析的图像;
用图像分类网络对所述图像进行图像分类,以获得关于所述图像的图像类别的图像分类结果,所述图像类别包括第一类别和与所述第一类别不同的第二类别,其中,在所述图像分类结果指示所述图像类别为第二类别的情况下,所述图像分类结果还包括与所述第二类别相对应的第一置信度,并且在所述图像分类结果指示所述图像类别为第一类别的情况下,所述图像分类结果还包括与所述第一类别相对应的第二置信度;
用对象检测网络对所述图像进行对象检测,以获得关于与所述第一类别相关联的目标对象的对象检测结果;以及
基于所述图像分类结果和所述对象检测结果,生成所述图像的图像分析结果,
其中,基于所述图像分类结果和所述对象检测结果,生成所述图像的图像分析结果,包括:
在所述图像分类结果指示所述图像类别为第二类别并且所述对象检测结果指示检测到所述目标对象的情况下,将所述第一置信度与第一阈值进行比较,得到第一比较结果,并基于第一比较结果得到所述图像分析结果;
在所述图像分类结果指示所述图像类别为第一类别并且所述对象检测结果指示未检测到所述目标对象的情况下,将所述第二置信度与第二阈值进行比较,得到第二比较结果,并基于所述第二比较结果得到所述图像分析结果。
2.根据权利要求1所述的图像分析方法,其中,基于所述图像分类结果和所述对象检测结果,生成所述图像的图像分析结果,还包括:
在所述图像分类结果指示所述图像类别为第一类别并且所述对象检测结果指示检测到所述目标对象的情况下,所述图像分析结果指示所述图像具有所述目标对象;以及
在所述图像分类结果指示所述图像类别为第二类别并且所述对象检测结果指示未检测到所述目标对象的情况下,所述图像分析结果指示所述图像不具有所述目标对象。
3.根据权利要求1所述的图像分析方法,其中,将所述第一置信度与第一阈值进行比较,得到第一比较结果,并基于第一比较结果得到所述图像分析结果包括:
在所述第一置信度小于或等于所述第一阈值的情况下,所述图像分析结果指示所述图像具有所述目标对象,以及
在所述第一置信度大于所述第一阈值的情况下,所述图像分析结果指示所述图像不具有所述目标对象。
4.根据权利要求2或3所述的图像分析方法,其中,在图像分析结果指示所述图像具有所述目标对象的情况下,所述图像分析结果包括其中所述目标对象被标示的所述图像。
5.根据权利要求1所述的图像分析方法,其中,将所述第二置信度与第二阈值进行比较,得到第二比较结果,并基于所述第二比较结果得到所述图像分析结果包括:
在所述第二置信度大于所述第二阈值的情况下,所述图像分析结果指示所述图像具有所述目标对象,以及
在所述第二置信度小于或等于所述第二阈值的情况下,所述图像分析结果指示所述图像不具有所述目标对象。
6.根据权利要求5中所述的图像分析方法,其中,用对象检测网络对所述图像进行对象检测,以获得关于与所述第一类别相关联的目标对象的对象检测结果包括:
确定一个或多个候选区域以及与所述一个或多个候选区域相对应的多个检测置信度;
在所述多个检测置信度中的每一个小于或等于预设的检测阈值的情况下,所述对象检测结果指示所述图像不具有所述目标对象;
在所述多个检测置信度中的一个或多个大于所述检测阈值的情况下,所述对象检测结果指示所述图像具有所述目标对象。
7.根据权利要求6所述的图像分析方法,其中,在所述第二置信度大于所述第二阈值的情况下,所述图像分析结果包括关于第一候选区域的信息,所述第一候选区域与所述多个检测置信度中的最大的检测置信度相对应。
8.根据权利要求6所述的图像分析方法,其中,所述第一类别包括第一子类别和第二子类别,
其中,在所述第二置信度大于所述第二阈值的情况下,所述图像分析结果包括关于第二候选区域的信息和关于第三候选区域的信息中的一个或多个,其中所述第二候选区域与和所述第一子类别相关的多个检测置信度中的最大的检测置信度相对应,并且所述第三候选区域与和所述第二子类别相关的多个检测置信度中的最大的检测置信度相对应。
9.根据权利要求1所述的图像分析方法,其中,在用所述图像分类网络对所述图像进行分类之前或者在用所述对象检测网络对所述图像进行检测之前还包括:对所述图像分类网络或所述对象检测网络中的一个或多个进行训练,并且
其中,对所述图像分类网络或所述对象检测网络中的一个或多个进行训练包括:
获得训练数据集,所述训练数据集包括一个或多个标准样本和一个或多个干扰样本,
对所述一个或多个标准样本和所述一个或多个干扰样本的类别进行标注以获得第一标注样本集,
对所述一个或多个标准样本和所述一个或多个干扰样本的所述目标对象进行标注以获得第二标注样本集,以及
使用所述第一标注样本集对所述图像分类网络进行训练,并且使用所述第二标注样本集对所述对象检测网络进行训练。
10.根据权利要求1所述的图像分析方法,其中,所述要分析的图像为生命体组织图像,所述第一类别为病变类别,所述第二类别是非病变类别,并且与所述第一类别相关联的目标对象为病变区域。
11.根据权利要求1所述的图像分析方法,其中,所述图像分类网络包括DenseNet网络或ResNet网络之一,并且所述对象检测网络包括YOLOv3网络或RetinaNet网络之一。
12.一种图像分析装置,包括:
一个或多个处理器,和
存储器,用于存储一个或多个计算机程序,当所述一个或多个计算机程序被所述一个或多个处理器执行时实施:
获得要分析的图像;
用图像分类网络对所述图像进行图像分类,以获得指示所述图像的图像类别的图像分类结果,所述图像类别包括第一类别和与所述第一类别不同的第二类别,其中,在所述图像分类结果指示所述图像类别为第二类别的情况下,所述图像分类结果还包括与所述第二类别相对应的第一置信度,并且在所述图像分类结果指示所述图像类别为第一类别的情况下,所述图像分类结果还包括与所述第一类别相对应的第二置信度;
用对象检测网络对所述图像进行对象检测,以获得指示是否检测到与所述第一类别相关联的目标对象的对象检测结果;以及
基于所述对象检测结果和所述图像分类结果,生成所述图像的图像分析结果,
其中,基于所述图像分类结果和所述对象检测结果,生成所述图像的图像分析结果,包括:
在所述图像分类结果指示所述图像类别为第二类别并且所述对象检测结果指示检测到所述目标对象的情况下,将所述第一置信度与第一阈值进行比较,得到第一比较结果,并基于第一比较结果得到所述图像分析结果;
在所述图像分类结果指示所述图像类别为第一类别并且所述对象检测结果指示未检测到所述目标对象的情况下,将所述第二置信度与第二阈值进行比较,得到第二比较结果,并基于所述第二比较结果得到所述图像分析结果。
13.根据权利要求12所述的图像分析装置,其中,当所述一个或多个计算机程序被所述一个或多个处理器执行时还实施:
在所述图像分类结果指示所述图像类别为第一类别并且所述对象检测结果指示检测到所述目标对象的情况下,所述图像分析结果指示所述图像具有所述目标对象;以及
在所述图像分类结果指示所述图像类别为第二类别并且所述对象检测结果指示未检测到所述目标对象的情况下,所述图像分析结果指示所述图像不具有所述目标对象。
14.一种医学图像分析系统,包括:
图像采集装置,用于采集要分析的医学图像;
计算装置,与所述图像采集装置耦合并包括:
一个或多个处理器,和
存储器,用于存储一个或多个计算机程序,当所述一个或多个计算机程序被所述一个或多个处理器执行时实施:
获得要分析的医学图像,
用图像分类网络对所述医学图像进行图像分类,以获得指示所述医学图像的图像类别的图像分类结果,所述图像类别包括第一类别和与所述第一类别不同的第二类别,其中,在所述图像分类结果指示所述图像类别为第二类别的情况下,所述图像分类结果还包括与所述第二类别相对应的第一置信度,并且在所述图像分类结果指示所述图像类别为第一类别的情况下,所述图像分类结果还包括与所述第一类别相对应的第二置信度,
用对象检测网络对所述医学图像进行对象检测,以获得指示是否检测到与所述第一类别相关联的目标对象的对象检测结果,以及
基于所述图像分类结果和所述对象检测结果,生成所述医学图像的图像分析结果,
其中,基于所述图像分类结果和所述对象检测结果,生成所述医学图像的图像分析结果,包括:
在所述图像分类结果指示所述图像类别为第二类别并且所述对象检测结果指示检测到所述目标对象的情况下,将所述第一置信度与第一阈值进行比较,得到第一比较结果,并基于第一比较结果得到所述图像分析结果;
在所述图像分类结果指示所述图像类别为第一类别并且所述对象检测结果指示未检测到所述目标对象的情况下,将所述第二置信度与第二阈值进行比较,得到第二比较结果,并基于所述第二比较结果得到所述图像分析结果;和
显示装置,与所述计算装置耦合并被配置为显示所述图像分析结果。
15.一种计算机可读存储介质,其上存储有一个或多个计算机程序,其中当所述一个或多个计算机程序被一个或多个处理器执行时实施:
获得要分析的图像;
用图像分类网络对所述图像进行图像分类,以获得指示所述图像的图像类别的图像分类结果,所述图像类别包括第一类别和与所述第一类别不同的第二类别,其中,在所述图像分类结果指示所述图像类别为第二类别的情况下,所述图像分类结果还包括与所述第二类别相对应的第一置信度,并且在所述图像分类结果指示所述图像类别为第一类别的情况下,所述图像分类结果还包括与所述第一类别相对应的第二置信度;
用对象检测网络对所述图像进行对象检测,以获得指示是否检测到与所述第一类别相关联的目标对象的对象检测结果;以及
基于所述图像分类结果和所述对象检测结果,生成所述图像的图像分析结果,
其中,基于所述图像分类结果和所述对象检测结果,生成所述图像的图像分析结果,包括:
在所述图像分类结果指示所述图像类别为第二类别并且所述对象检测结果指示检测到所述目标对象的情况下,将所述第一置信度与第一阈值进行比较,得到第一比较结果,并基于第一比较结果得到所述图像分析结果;
在所述图像分类结果指示所述图像类别为第一类别并且所述对象检测结果指示未检测到所述目标对象的情况下,将所述第二置信度与第二阈值进行比较,得到第二比较结果,并基于所述第二比较结果得到所述图像分析结果。
CN202010250222.4A 2020-04-01 2020-04-01 图像分析方法、图像分析装置及图像分析系统 Active CN111461220B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010250222.4A CN111461220B (zh) 2020-04-01 2020-04-01 图像分析方法、图像分析装置及图像分析系统
PCT/CN2021/080185 WO2021197015A1 (zh) 2020-04-01 2021-03-11 图像分析方法、图像分析装置及图像分析系统
US17/699,056 US20220207862A1 (en) 2020-04-01 2022-03-18 Image analysis method, image analysis apparatus, and image analysis system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010250222.4A CN111461220B (zh) 2020-04-01 2020-04-01 图像分析方法、图像分析装置及图像分析系统

Publications (2)

Publication Number Publication Date
CN111461220A CN111461220A (zh) 2020-07-28
CN111461220B true CN111461220B (zh) 2022-11-01

Family

ID=71682493

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010250222.4A Active CN111461220B (zh) 2020-04-01 2020-04-01 图像分析方法、图像分析装置及图像分析系统

Country Status (3)

Country Link
US (1) US20220207862A1 (zh)
CN (1) CN111461220B (zh)
WO (1) WO2021197015A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111461220B (zh) * 2020-04-01 2022-11-01 腾讯科技(深圳)有限公司 图像分析方法、图像分析装置及图像分析系统
CN111934738A (zh) * 2020-08-13 2020-11-13 盐城工学院 一种新型应急通信直放站通信方法及系统
CN115242947B (zh) * 2022-07-01 2023-08-08 浙江大学 一种头戴式高清伤口评估及记录系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105976393A (zh) * 2016-05-30 2016-09-28 北京理工大学 大脑局灶性病变自动探测方法及装置
CN109544507A (zh) * 2018-10-18 2019-03-29 清影医疗科技(深圳)有限公司 一种病理图像处理方法及系统、设备、存储介质
CN109961423A (zh) * 2019-02-15 2019-07-02 平安科技(深圳)有限公司 一种基于分类模型的肺结节检测方法、服务器及存储介质
CN110110799A (zh) * 2019-05-13 2019-08-09 广州锟元方青医疗科技有限公司 细胞分类方法、装置、计算机设备和存储介质
CN110119710A (zh) * 2019-05-13 2019-08-13 广州锟元方青医疗科技有限公司 细胞分类方法、装置、计算机设备和存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10586376B2 (en) * 2017-06-13 2020-03-10 Optrascan, Inc. Automated method of predicting efficacy of immunotherapy approaches
CN109190540B (zh) * 2018-06-06 2020-03-17 腾讯科技(深圳)有限公司 活检区域预测方法、图像识别方法、装置和存储介质
CN110110600B (zh) * 2019-04-04 2024-05-24 平安科技(深圳)有限公司 眼部oct图像病灶识别方法、装置及存储介质
CN111461220B (zh) * 2020-04-01 2022-11-01 腾讯科技(深圳)有限公司 图像分析方法、图像分析装置及图像分析系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105976393A (zh) * 2016-05-30 2016-09-28 北京理工大学 大脑局灶性病变自动探测方法及装置
CN109544507A (zh) * 2018-10-18 2019-03-29 清影医疗科技(深圳)有限公司 一种病理图像处理方法及系统、设备、存储介质
CN109961423A (zh) * 2019-02-15 2019-07-02 平安科技(深圳)有限公司 一种基于分类模型的肺结节检测方法、服务器及存储介质
CN110110799A (zh) * 2019-05-13 2019-08-09 广州锟元方青医疗科技有限公司 细胞分类方法、装置、计算机设备和存储介质
CN110119710A (zh) * 2019-05-13 2019-08-13 广州锟元方青医疗科技有限公司 细胞分类方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
WO2021197015A1 (zh) 2021-10-07
US20220207862A1 (en) 2022-06-30
CN111461220A (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
US10482603B1 (en) Medical image segmentation using an integrated edge guidance module and object segmentation network
Li et al. Visual saliency detection based on multiscale deep CNN features
CN111461220B (zh) 图像分析方法、图像分析装置及图像分析系统
Umri et al. Detection of COVID-19 in chest X-ray image using CLAHE and convolutional neural network
Mansour et al. Internet of things and synergic deep learning based biomedical tongue color image analysis for disease diagnosis and classification
CN111597946B (zh) 图像生成器的处理方法、图像生成方法及装置
Yu et al. An object-based visual attention model for robotic applications
Yuan et al. Discriminative joint-feature topic model with dual constraints for WCE classification
Noe et al. Automatic detection and tracking of mounting behavior in cattle using a deep learning-based instance segmentation model
CN115205933A (zh) 面部表情识别方法、装置、设备及可读存储介质
Lukanov et al. Biologically inspired deep learning model for efficient foveal-peripheral vision
Dossso et al. Segmentation of patient images in the neonatal intensive care unit
Perez et al. Cnn-based action recognition and pose estimation for classifying animal behavior from videos: a survey
Nainwal et al. Comparative Study of VGG-13, AlexNet, MobileNet and Modified-DarkCovidNet for Chest X-Ray Classification
Maheshwari et al. Performance Analysis of Mango Leaf Disease using Machine Learning Technique
CN115862120B (zh) 可分离变分自编码器解耦的面部动作单元识别方法及设备
CN116092157A (zh) 一种智能面舌诊方法、系统及智能设备
Wang et al. Optic disc detection based on fully convolutional neural network and structured matrix decomposition
Lupión et al. THPoseLite, a Lightweight Neural Network for Detecting Pose in Thermal Images
Goel et al. Implementation of AI/ML for Human Emotion Detection using Facial Recognition
Pistocchi et al. Kernelized Structural Classification for 3D dogs body parts detection
Hu et al. Latent hierarchical model for activity recognition
Gao et al. UD-YOLOv5s: Recognition of cattle regurgitation behavior based on upper and lower jaw skeleton feature extraction
Wang System designs for diabetic foot ulcer image assessment
CN117952964B (zh) 基于计算机视觉技术的眼底医学影像分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40026343

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant