CN114830107A - 图像处理系统、图像处理装置、内窥镜系统、接口以及图像处理方法 - Google Patents

图像处理系统、图像处理装置、内窥镜系统、接口以及图像处理方法 Download PDF

Info

Publication number
CN114830107A
CN114830107A CN202080087206.6A CN202080087206A CN114830107A CN 114830107 A CN114830107 A CN 114830107A CN 202080087206 A CN202080087206 A CN 202080087206A CN 114830107 A CN114830107 A CN 114830107A
Authority
CN
China
Prior art keywords
image
information
learning
confidence
labeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080087206.6A
Other languages
English (en)
Inventor
岩城秀和
近藤泰成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Olympus Corp
Original Assignee
Olympus Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Olympus Corp filed Critical Olympus Corp
Publication of CN114830107A publication Critical patent/CN114830107A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7784Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
    • G06V10/7792Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors the supervisor being an automated module, e.g. "intelligent oracle"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10068Endoscopic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • G06V2201/032Recognition of patterns in medical or anatomical images of protuberances, polyps nodules, etc.
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Endoscopes (AREA)
  • Image Analysis (AREA)

Abstract

图像处理系统(100)包括:接口(110),其被输入针对拍摄有生物体的学习图像的标注结果;以及处理部(120)。处理部(120)进行以下处理:取得包含难度信息的元数据,该难度信息表示对学习图像进行标注的难度;基于元数据,决定表示标注结果的置信度的置信度信息;以及输出将学习图像、标注结果以及置信度信息关联起来而得到的数据集,作为在学习完毕模型的生成中所使用的数据,该学习完毕模型用于对拍摄有生物体的推理对象图像进行使用深度学习的推理。

Description

图像处理系统、图像处理装置、内窥镜系统、接口以及图像处 理方法
技术领域
本发明涉及图像处理系统、图像处理装置、内窥镜系统、接口以及图像处理方法等。
背景技术
以往,已知有对以生物体图像为对象的图像处理应用深度学习的方法。在深度学习中,需要进行了正确的标注的训练数据。为了准确地进行标注,与取得了数据的域相关的知识、经验等是不可缺少的。
在专利文献1中,提出了如下方法,该方法是对非专家制作的标注数据赋予置信度,并将该置信度用于学习,由此进行精度良好的分类模型的学习。专利文献1的方法以专家制作的标注数据为基础,对非专家制作的标注赋予置信度。
现有技术文献
专利文献
专利文献1:特开2019-282686号公报
发明内容
发明要解决的问题
与普通图像相比,生物体图像缺乏特征差。另外,生物体图像的个体差异大,正常的变化多。因此,即使身为专家的医生进行观察,标注也会因医生而产生偏差。即,在以生物体图像为对象的情况下,难以生成专家制作的优质的标注数据,因此无法应用现有方法。
根据本公开的几个方式,能够提供在以生物体图像为对象的情况下,用于执行精度高的推理处理的图像处理系统、图像处理装置、内窥镜系统、接口以及图像处理方法等。
用于解决问题的手段
本公开的一个方式涉及一种图像处理系统,其包括:接口,其被输入针对拍摄有生物体的学习图像的标注结果;以及处理部,所述处理部进行以下处理:取得包含难度信息的元数据,该难度信息表示对所述学习图像进行标注的难度;基于所述元数据,决定表示所述标注结果的置信度的置信度信息;以及输出将所述学习图像、所述标注结果以及所述置信度信息关联起来而得到的数据集,作为在学习完毕模型的生成中所使用的数据,该学习完毕模型用于对拍摄有生物体的推理对象图像进行使用深度学习的推理。
本公开的其他方式涉及一种图像处理装置,其包括:接口,其被输入针对拍摄有生物体的学习图像的标注结果;以及处理部,其取得包含难度信息的元数据,并将所取得的所述元数据作为用于求出所述标注结果的置信度的信息,与所述学习图像关联起来而输出,该难度信息表示对所述学习图像进行标注的难度,所述学习图像和所述标注结果用于学习完毕模型的生成,该学习完毕模型用于对拍摄有生物体的推理对象图像进行使用深度学习的推理,所述置信度被用作所述深度学习中的目标函数的权重信息。
本公开的又一其他方式涉及一种内窥镜系统,其包括:摄像部,其对生物体进行拍摄从而输出推理对象图像;以及处理部,其基于通过深度学习而学习得到的学习完毕模型,对所述推理对象图像进行推理处理,所述学习完毕模型是基于如下的数据集而学习得到的,该数据集是将拍摄有生物体的学习图像、针对所述学习图像的标注结果、以及基于对所述学习图像赋予的元数据而决定的表示所述标注结果的置信度的置信度信息关联起来而得到的,所述元数据包括表示对所述学习图像进行标注的难度的难度信息,所述学习图像和所述标注结果是所述深度学习中的训练数据,所述置信度信息是所述深度学习中的目标函数的权重信息。
本公开的又一其他方式涉及一种接口,其包括输入部,该输入部被输入针对拍摄有生物体的学习图像的标注结果,所述接口的特征在于,所述接口与处理部连接,所述接口向所述处理部输入包含难度信息的元数据,该难度信息表示对所述学习图像进行标注的难度,所述处理部基于所述元数据,决定表示所述标注结果的置信度的置信度信息,所述处理部输出将所述学习图像、所述标注结果以及所述置信度信息关联起来而得到的数据集,作为在学习完毕模型的生成中所使用的数据,该学习完毕模型用于对拍摄有生物体的推理对象图像进行使用深度学习的推理。
本公开的又一其他方式涉及一种图像处理方法,所述图像处理方法进行以下处理:取得针对拍摄有生物体的学习图像的标注结果;取得包含难度信息的元数据,该难度信息表示对所述学习图像进行标注的难度;基于所述元数据,决定表示所述标注结果的置信度的置信度信息;以及输出将所述学习图像、所述标注结果以及所述置信度信息关联起来而得到的数据集,作为在学习完毕模型的生成中所使用的数据,该学习完毕模型用于对拍摄有生物体的推理对象图像进行使用深度学习的推理。
附图说明
图1是包含图像处理系统的系统的结构例。
图2是图像处理系统的结构例。
图3是内窥镜系统的结构例。
图4是说明包含图像处理系统的系统中的处理的流程图。
图5是说明标注结果和元数据的取得处理的流程图。
图6是用于进行标注的显示图像的例子。
图7是用于进行标注的显示图像的例子。
图8是用于进行标注的显示图像的例子。
图9(A)、图9(B)是求出熟练度的函数的例子。
图10是说明决定置信度的处理的流程图。
图11(A)、图11(B)是神经网络的说明图。
图12是说明置信度与权重信息的关系的图。
具体实施方式
以下,对本实施方式进行说明。此外,以下说明的本实施方式不对权利要求书所记载的内容进行不当限定。另外,在本实施方式中说明的全部结构不一定是本公开的必要结构要件。
1.本实施方式的方法
深度学习是在分类问题、回归问题中使用的机器学习方法,在分类问题中,通过学习预先标注的训练数据来构建分类模型。该学习方法一般被称为有监督学习。标注是指对某个数据赋予相关联的标签。
为了进行有监督学习,需要用于使计算机进行学习的训练数据。训练数据需要与使计算机学习的数据对应的正确的标注。即,计算机能够基于训练数据来学习应如何对输入数据进行分类,从而对未知的输入数据推理分类结果。
在此,训练数据制作时的标注成为问题。为了将给定的数据作为训练数据进行学习,需要正确的标注,但为了准确地进行标注,与取得了数据的域相关的知识、经验等是不可缺少的。例如在对由内窥镜系统拍摄到的生物体图像进行标注的情况下,重要的是,使用内窥镜系统的诊断、治疗的经验、或者以生物体图像为对象进行了标注的经验。另外,重要的是,在制作训练数据时,除了能够进行准确的标注以外,还不会因进行标注的用户而产生差异。
但是,与一般图像相比,生物体图像缺乏特征差、个体差异大、正常的变化多等,因此即使身为专家的医生进行观察,标注也会因医生而产生偏差。因此可以认为,蓄积了包含存在偏差的标注数据的训练数据。
例如,考虑一种用于生成分类器或检测器的机器学习,该分类器对由内窥镜系统拍摄生物体而得到的医疗图像进行分类,该检测器从医疗图像中检测规定被摄体。这里的分类器是学习完毕模型,例如进行将医疗图像分类为拍摄到病变的“病变图像”和未拍摄到病变的“正常图像”的处理。另外,检测器是学习完毕模型,例如进行从医疗图像中检测病变的处理。在制作用于生成这些学习完毕模型的训练数据时,医师进行医疗图像的标注。但是,在医疗图像中,由于在正常区域和病变区域之间常常存在“不太清楚的区域”,因此即使专家进行观察,标注结果也会产生偏差。在生物体图像中,经年变化或个体差异大、正常的变化大等成为增大上述“不太清楚的区域”的原因之一。
在一般的深度学习中,与训练数据的置信度、取得方法相关的信息不用于学习,因此在错误的标注、正确的标注混合存在的状况下,也将全部的训练数据等同地进行处理,并且平等地用于学习。在以生物体图像为对象进行学习的情况下,当将训练数据如以往那样视为等同进行了学习的情况下,会考虑到错误的标注数据对学习造成影响,无法构建精度良好的学习完毕模型的情形。或者,有时会在医疗图像中舍弃上述“不太清楚的区域”的标注数据,不将其用于学习。
在专利文献1中,提出了一种对非专家制作的标注数据赋予置信度并用于学习,由此进行精度良好的分类模型的学习的方法。该方法以专家制作的标注数据为基础,对非专家制作的标注赋予置信度,并且将该置信度反映到分类模型的学习中,从而学习分类模型。该置信度是通过从所选择的非专家数据中搜索处于附近范围内的专家数据来计算相同标签概率,并应用于置信度函数而求出的。
但是,专利文献1等现有方法是以能够取得标注的精度高的专家数据为前提的。因此,在如生物体图像那样,即使身为专家的医生进行标注,标注结果也会产生偏差的情况下,无法应用现有方法。结果,难以以生物体图像为对象来构建推理精度良好的学习完毕模型。
因此,在本实施方式的方法中,取得包含难度信息的元数据,基于该元数据,决定表示标注结果的置信度的置信度信息,该难度信息表示对生物体图像进行标注的难度。另外,标注结果广义上也是对学习图像赋予的元数据,但本实施方式中的元数据表示用于决定标注结果的置信度的数据。即,标注结果和与该标注结果不同的元数据关联到学习图像。
根据本实施方式的方法,即使在以取得精度高的专家数据困难的生物体图像为对象的情况下,也能够生成与适当的置信度相关联的训练数据,因此能够构建推理精度良好的学习完毕模型。换言之,即使不通过进行用户间的比较来计算相对的置信度,也能够决定以单一的用户为对象的绝对的置信度,因此即使在不存在精度足够高的专家数据的情况下也能够决定适当的置信度。另外,根据本实施方式的方法,能够使用正常与病变之间的区域被标注的数据来进行精度高的学习处理。正常与病变之间的区域例如包含病变的边界区域,因此是对病变检测等有用的区域,将该区域用于学习处理的优点大。
2.系统结构例
首先,对包含图像处理系统100的整体系统的结构进行说明,之后,对图像处理系统100的详细结构以及内窥镜系统200的结构进行说明。
2.1整体结构例
图1是包含本实施方式的图像处理系统100的系统的结构例。如图1所示,系统包括:内窥镜系统200、数据库服务器300、标注装置400、置信度决定装置500、学习装置600、推理装置700、图像收集用内窥镜系统800。图像处理系统100例如与标注装置400以及置信度决定装置500对应。但是,系统不限定于图1的结构,能够实施省略它们的一部分结构要素、或者追加其他结构要素等各种变形。
图像收集用内窥镜系统800拍摄用于制作学习完毕模型的多个生物体图像。与此相对,内窥镜系统200拍摄作为使用学习完毕模型进行推理处理的对象的推理对象图像。内窥镜系统200狭义上是对患者执行诊断、处置过程中的系统,但不限定于此。另外,内窥镜系统200拍摄到的推理对象图像能够作为学习完毕模型的更新时的训练数据的一部分来使用。即,内窥镜系统200也可以在其他时机作为图像收集用内窥镜系统800发挥功能。另外,图像收集用内窥镜系统800也可以作为在其他时机拍摄推理对象图像的内窥镜系统200发挥功能。
数据库服务器300既可以是设置于内联网等私有网络的服务器,也可以是设置于互联网等公共通信网的服务器。另外,数据库服务器300也可以通过云计算来实现,具体的方式能够实施各种变形。例如,数据库服务器300可以是1个物理服务器,也可以通过多个物理服务器的分散处理来实现。数据库服务器300首先从图像收集用内窥镜系统800收集学习图像,该学习图像是在过去的诊断、处置中拍摄到的生物体图像。
标注装置400从数据库服务器300取得学习图像,并将标注结果与该学习图像关联起来。具体地,标注装置400包括受理用户的标注的接口。另外,标注装置400取得在标注结果的置信度计算中使用的元数据。标注装置400向数据库服务器300发送将标注结果和元数据与学习图像关联起来而得到的数据。
置信度决定装置500取得上述元数据,基于该元数据,决定表示标注结果的置信度的置信度信息。数据库服务器300存储将标注结果和置信度信息与学习图像关联起来而得到的数据。
学习装置600通过进行基于学习图像、标注结果以及置信度信息的机器学习,生成学习完毕模型。学习完毕模型具体是按照深度学习来进行推理处理的模型。学习装置600将生成的学习完毕模型发送到数据库服务器300。
推理装置700取得由学习装置600生成的学习完毕模型。此外,推理装置700取得在内窥镜系统200的摄像部中拍摄到的生物体图像作为推理对象图像。具体地,摄像部与后述的摄像元件212对应。推理装置700根据来自学习完毕模型的指示进行动作,由此对推理对象图像进行推理处理。例如,推理装置700进行对推理对象图像进行分类的处理、从推理对象图像中检测关注区域的处理。
另外,在图1中示出了如下的例子:标注装置400、置信度决定装置500作为取得存储在数据库服务器300中的信息并对所取得的信息进行处理,并将处理结果发送到数据库服务器300的接口而发挥功能。但是,也可以省略数据库服务器300。例如,标注装置400也可以不经由数据库服务器300而将学习图像、标注结果以及元数据发送到置信度决定装置500。置信度决定装置500也可以不经由数据库服务器300而将学习图像、标注结果以及置信度信息发送到学习装置600。
另外,图1所示的各装置不限定于分体设置,多个装置也可以构成为一体。例如,标注装置400和置信度决定装置500也可以构成为一体。在这种情况下,标注装置400(置信度决定装置500)是进行针对学习图像的标注结果以及元数据的取得、和基于该元数据的置信度信息的计算这两个处理的装置。
另外,置信度决定装置500和学习装置600也可以构成为一体。在这种情况下,置信度决定装置500(学习装置600)是进行通过计算置信度信息来生成用于机器学习的数据的处理、和基于该数据执行机器学习的处理这两个处理的装置。
另外,学习装置600和推理装置700也可以构成为一体。在这种情况下,学习装置600(推理装置700)是进行通过进行机器学习来生成学习完毕模型的处理、和基于该学习完毕模型的推理处理这两个处理的装置。
此外,推理装置700和内窥镜系统200也可以构成为一体。例如,使用图3在后面说明的内窥镜系统200的系统控制装置230包括推理装置700。在这种情况下,内窥镜系统200进行包括拍摄推理对象图像的控制在内的内窥镜系统200的各部的控制和使用学习完毕模型的推理处理双方。
另外,图1中的3个以上的装置也可以构成为一体。例如,标注装置400、置信度决定装置500和学习装置600也可以构成为一体。在这种情况下,在1个装置中执行生成包含标注结果、置信度信息的学习用的数据的处理、和使用该数据的学习处理。另外,图1中的各装置不限定于构成为1个装置,也可以通过多个装置的分散处理来实现。
与本公开有关的系统能够构成为,内窥镜系统、服务器系统、标注作业用用户接口、推理作业用用户接口等以无线或有线的方式相互通信。并且,数据蓄积功能、标注功能、学习功能、推理功能可以安装在这些装置中的任意装置中,也可以分割安装在多个设备中。在本公开中,将这些设备中包含的单个或多个信息处理装置称为处理器。另外,与安装有作为本公开的特征的功能、结构的设备进行通信的设备具备能够适当处理通信数据的功能、结构。例如,可以具备能够处理通信数据的算法,或者可以包括用于通信或用于信息处理的硬件。另外,图1所示的装置中的任意1个能够构成为操作这些设备的网络,并且获得由网络提供的利益、效果。
如上所述,图1是系统结构的一例,包含图像处理系统100的系统的结构能够实施各种变形。
2.2图像处理系统
图2是示出图像处理系统100的详细结构例的图。图像处理系统100包括接口110、处理部120和存储部130。接口110包括图像取得接口111、标注接口112和输出接口115。处理部120包括标注处理部121、元数据取得部123和置信度决定部125。但是,图像处理系统100不限定于图2的结构,能够实施省略它们的一部分结构要素、或者追加其他结构要素等各种变形。
接口110进行数据的输入输出。图像取得接口111是取得由图像收集用内窥镜系统800拍摄到的生物体图像作为学习图像的接口。图像取得接口111例如被实现为经由网络从图像收集用内窥镜系统800或数据库服务器300接收生物体图像的通信接口。这里的网络既可以是内联网等私有网络,也可以是互联网等公共通信网。此外,网络可以是有线,也可以是无线。另外,图像取得接口111既可以按每1帧来取得拍摄有生物体内的图像,也可以汇总取得与多个帧对应的多个图像。
标注接口112是用于受理用户的标注的接口。标注接口112包括显示例如作为标注对象的学习图像的显示部113、和用于用户进行输入操作的操作部114。显示部113例如是液晶显示器或有机EL(Electro-Luminescence:电致发光)显示器等显示装置。操作部114是鼠标或键盘。或者,显示部113和操作部114也可以通过触摸面板而一体地构成。具体的显示图像将使用图6等在后面进行说明。
输出接口115是输出处理部120中的处理结果的接口。例如,输出接口115包括:第一输出接口,其将标注结果和元数据与学习图像关联起来而输出;以及第二输出接口,其输出基于元数据而决定的置信度信息。第一输出接口例如包含在图1的标注装置400中,第二输出接口包含在置信度决定装置500中。但是,如上所述,图像处理系统100能够使用各种结构来实现,例如也可以是元数据不向外部输出的方式。
处理部120执行标注结果和元数据的取得和置信度决定的各处理。标注处理部121进行显示部113的显示控制和来自操作部114的操作信息的取得处理。具体地,为了使用户进行标注,标注处理部121进行包含学习图像和标注结果的显示区域的显示图像的生成处理以及显示控制处理。并且,标注处理部121进行取得用户操作操作部114而对显示图像输入的标注结果的处理。
元数据取得部123取得用于决定标注结果的置信度的元数据。元数据既可以如后述那样通过图像处理来取得,也可以通过使用计时器等对作业时间进行计数来取得,还可以基于操作部114上的用户操作来取得。即,元数据取得部123中的处理包括图像处理、与时间有关的信息的取得处理、操作信息的取得处理等各种处理。
置信度决定部125基于元数据,决定表示标注结果的置信度的置信度信息。置信度信息例如基于学习图像中的标注的难度和进行标注的用户的能力来决定。具体的处理将在后面说明。
存储部130是处理部120等的工作区域,其功能可通过半导体存储器、寄存器、磁存储装置等来实现。另外,存储部130也可以对在数据库服务器300中存储的多个学习图像中的、成为将标注结果和置信度信息关联起来的对象的学习图像进行存储。或者,在省略数据库服务器300的结构的情况下,存储部130也可以是能够蓄积从图像收集用内窥镜系统800发送的多个学习图像的存储装置。
另外,处理部120由下述硬件构成。硬件能够包括处理数字信号的电路和处理模拟信号的电路中的至少一方。例如,硬件能够由安装于电路基板的1个或多个电路装置、1个或多个电路元件构成。1个或多个电路装置例如是IC(Integrated Circuit:集成电路)、FPGA(field-programmable gate array:现场可编程门阵列)等。1个或多个电路元件例如是电阻、电容器等。
另外,处理部120也可以通过下述的处理器来实现。图像处理系统100包括存储信息的存储器、和基于存储在存储器中的信息进行动作的处理器。这里的存储器既可以是存储部130,也可以是不同的存储器。信息例如是程序和各种数据等。处理器包括硬件。处理器能够使用CPU(Central Processing Unit:中央处理单元)、GPU(Graphics ProcessingUnit:图形处理单元)、DSP(Digital Signal Processor:数字信号处理器)等各种处理器。存储器既可以是SRAM(Static Random Access Memory:静态随机存取存储器)、DRAM(Dynamic Random Access Memory:动态随机存取存储器)等半导体存储器,也可以是寄存器,还可以是HDD(Hard Disk Drive:硬盘驱动器)等磁存储装置,还可以是光盘装置等光学式存储装置。例如,存储器存储计算机可读取的命令,该命令由处理器执行,从而处理部120的各部的功能作为处理来实现。具体地,处理部120的各部是标注处理部121、元数据取得部123、置信度决定部125。这里的命令可以是构成程序的命令集的命令,也可以是对处理器的硬件电路指示动作的命令。进而,也能够通过云计算来实现处理部120的各部的全部或一部分,并且通过云计算进行后述的各处理。
另外,本实施方式的处理部120的各部也可以作为在处理器上进行动作的程序的模块来实现。例如,标注处理部121作为生成显示图像的图像处理模块、控制显示部113的控制模块、取得基于操作部114的操作信息的操作信息取得模块等来实现。元数据取得部123作为图像处理模块、取得与作业时间或用户操作有关的信息的信息取得模块等来实现。置信度决定部125作为置信度信息的决定处理模块来实现。
另外,实现本实施方式的处理部120的各部进行的处理的程序例如能够存储在作为计算机可读取的介质的信息存储装置中。信息存储装置例如能够通过光盘、存储卡、HDD、或者半导体存储器等来实现。半导体存储器例如是ROM。处理部120基于存储在信息存储装置中的程序来进行本实施方式的各种处理。即,信息存储装置存储用于使计算机作为处理部120的各部而发挥功能的程序。计算机是具备输入装置、处理部、存储部、输出部的装置。具体地,本实施方式的程序是用于使计算机执行使用图5等在后面说明的各步骤的程序。
如上所述,本实施方式的图像处理系统100包括接口110和处理部120,接口110输入针对拍摄有生物体的学习图像的标注结果。处理部120取得包含难度信息的元数据,并基于元数据来决定表示标注结果的置信度的置信度信息,该难度信息表示对学习图像进行标注的难度。然后,处理部120输出将学习图像、标注结果以及置信度信息关联起来而得到的数据集,作为在学习完毕模型的生成中所使用的数据,该学习完毕模型用于对拍摄有生物体的推理对象图像进行使用深度学习的推理。
拍摄有生物体的图像包括拍摄有病变区域的图像、拍摄有关注区域(ROI:Regionof Interest)的图像、拍摄有给定的细胞的图像、医疗图像、病理图像等各种图像。本实施方式中的关注区域是对于用户而言观察的优先顺序比其他区域相对高的区域。在用户是进行诊断或治疗的医生的情况下,关注区域例如与拍摄有病变部的区域对应。但是,如果医生想要观察的对象是泡或残渣,则关注区域也可以是拍摄有该泡部分或残渣部分的区域。即,用户应关注的对象根据观察目的而不同,但在进行该观察时,对于用户而言观察的优先级比其他区域相对高的区域成为关注区域。
标注结果是通过由用户执行的标注而赋予的信息。在学习完毕模型是进行分类处理的模型的情况下,标注结果是表示分类结果的标签信息。分类结果例如可以是对是病变还是正常进行分类的结果,也可以是以规定等级对息肉的恶性度进行分类的结果,也可以是进行了其他分类的结果。另外,在学习完毕模型是进行检测关注区域的位置的检测处理的模型的情况下,标注结果包含能够确定关注区域的位置的信息。例如标注结果包含检测框和确定该检测框中所包含的被摄体的标签信息。
本实施方式的难度表示对学习图像进行标注的难度。难度信息是指能够确定难度的信息。难度信息例如是标注越难则越大,标注越简单则越小的数值数据。但是,难度信息不限定于数值数据,也可以是用于确定低、中、高这样的规定等级中的任意等级的信息。另外,难度信息可以是上述数值数据或者等级本身,也可以是能够确定它们的其他信息。例如,本实施方式的难度信息既可以是确定后述的识别度、画质、遮挡度、作业时间等的信息,也可以是基于它们计算出的信息。
另外,本实施方式的置信度表示标注结果的准确度。置信度信息是指能够确定置信度的信息。置信度信息例如是标注结果越准确其越大,否则越小的数值数据。但是,置信度信息也可以是确定规定等级中的任意等级的信息。
根据本实施方式的方法,能够考虑学习图像本身的标注的难度来决定置信度。因此,即使在以精度高的专家数据的取得困难的生物体图像为对象的情况下,也能够将适当的置信度与标注结果关联起来,并且能够构建推理精度良好的学习完毕模型。
另外,本实施方式的方法能够应用于图像处理装置,该图像处理装置包括:接口,其输入针对拍摄有生物体的学习图像的标注结果;以及处理部,其取得包含难度信息的元数据,并将所取得的元数据作为用于求出标注结果的置信度的信息,与学习图像关联起来而输出,该难度信息表示对学习图像进行标注的难度。学习图像和标注结果用于生成学习完毕模型,该学习完毕模型用于对拍摄有生物体的推理对象图像进行使用深度学习的推理。置信度被用作深度学习中的目标函数的权重信息。
图像处理装置的接口具体为标注接口112。图像处理装置的处理部具体为标注处理部121和元数据取得部123。即,这里的图像处理装置对应于图1的标注装置400。换言之,本实施方式的方法能够应用于标注装置400。通过从标注装置400连同标注结果一起输出元数据,能够决定适当的置信度信息,并且能够构建使用该置信度信息的推理精度良好的学习完毕模型。
另外,本实施方式的方法能够应用于接口。这里的接口是图2的接口110,狭义上是标注接口112。接口包括输入部,该输入部输入针对拍摄有生物体的学习图像的标注结果。输入部例如是操作部114,但具体的方式能够实施各种变形。接口与处理部120连接,向处理部120输入包含难度信息的元数据,该难度信息表示对学习图像进行标注的难度。处理部120基于元数据,决定表示标注结果的置信度的置信度信息。另外,处理部120输出将学习图像、标注结果以及置信度信息关联起来而得到的数据集,作为学习完毕模型的生成中所使用的数据,该学习完毕模型用于对拍摄有生物体的推理对象图像进行使用深度学习的推理。
另外,本实施方式的图像处理系统100进行的处理也可以作为图像处理方法来实现。在本实施方式的图像处理方法中,取得针对拍摄有生物体的学习图像的标注结果,取得包含难度信息的元数据,该难度信息表示对学习图像进行标注的难度,基于元数据决定表示标注结果的置信度的置信度信息,并且输出将学习图像、标注结果以及置信度信息关联起来而得到的数据集,作为在学习完毕模型的生成中所使用的数据,该学习完毕模型用于对拍摄有生物体的推理对象图像进行使用深度学习的推理。
2.3内窥镜系统
图3是内窥镜系统200的结构例。内窥镜系统200包括:插入部210、外部I/F部220、系统控制装置230、显示部240以及光源装置250。
插入部210是其前端侧向体内插入的部分。插入部210包括:物镜光学系统211、摄像元件212、致动器213、照明透镜214、光导215、AF(Auto Focus:自动对焦)开始/结束按钮216。插入部210也可以改称为内窥镜镜体。
光导215将来自光源252的照明光引导至插入部210的前端。照明透镜214将由光导215引导的照明光照射到被摄体。物镜光学系统211将从被摄体反射的反射光成像为被摄体像。物镜光学系统211包含对焦透镜,能够根据对焦透镜的位置来变更被摄体像成像的位置。致动器213基于来自AF控制部236的指令来驱动对焦透镜。此外,AF不是必须的,内窥镜系统200也可以构成为不包括AF控制部236。
摄像元件212接收经由物镜光学系统211的来自被摄体的光。摄像元件212可以是单色传感器,也可以是具备滤色器的元件。滤色器既可以是广为人知的拜尔滤镜,也可以是补色滤镜,还可以是其他滤镜。补色滤镜是包括青色、品红色和黄色各颜色滤镜的滤镜。
AF开始/结束按钮216是用于用户操作AF的开始/结束的操作接口。外部I/F部220是用于用户对内窥镜系统200进行输入的接口。外部I/F部220例如包括AF控制模式的设定按钮、AF区域的设定按钮、图像处理参数的调整按钮等。
系统控制装置230进行图像处理或整个系统的控制。系统控制装置230包括:A/D转换部231、预处理部232、检测处理部233、后处理部234、系统控制部235、AF控制部236、存储部237。另外,在此,设想针对推理对象图像的处理是关注区域的检测处理的例子,对包含检测处理部233的系统控制装置230进行说明。检测处理部233能够置换为进行分类处理等其他处理的结构。
A/D转换部231将从摄像元件212依次输出的模拟信号转换成数字的图像,并依次输出到预处理部232。预处理部232对从A/D转换部231依次输出的生物体图像进行各种校正处理,并依次输出到检测处理部233、AF控制部236。校正处理包括例如白平衡处理、降噪处理等。
检测处理部233例如进行将从预处理部232取得的校正处理后的图像发送到设置在内窥镜系统200的外部的推理装置700的处理。内窥镜系统200包括未图示的通信部,检测处理部233进行通信部的通信控制。这里的通信部是用于经由给定的网络将生物体图像发送到推理装置700的通信接口。另外,检测处理部233通过进行通信部的通信控制,进行从推理装置700接收检测结果的处理。
或者,系统控制装置230也可以包含推理装置700。在这种情况下,检测处理部233按照存储部237中存储的学习完毕模型的信息进行动作,从而将作为推理对象图像的生物体图像,作为对象来进行推理处理。在学习完毕模型是神经网络的情况下,检测处理部233针对作为输入的推理对象图像,使用通过学习而决定的权重来进行正向的运算处理。然后,基于输出层的输出将检测结果输出。
后处理部234进行基于检测处理部233中的检测结果的后处理,并将后处理后的图像输出到显示部240。这里的后处理可以考虑图像中的检测对象的强调、表示检测结果的信息的附加等各种处理。例如,后处理部234将在检测处理部233中检测出的检测框重叠于从预处理部232输出的图像,由此进行生成显示图像的后处理。
系统控制部235与摄像元件212、AF开始/结束按钮216、外部I/F部220、AF控制部236相互连接,并对各部进行控制。具体地,系统控制部235进行各种控制信号的输入输出。AF控制部236使用从预处理部232依次输出的图像进行AF控制。
显示部240依次显示从后处理部234输出的图像。显示部240例如是液晶显示器、EL显示器等。光源装置250包括发出照明光的光源252。光源252可以是氙光源,也可以是LED,还可以是激光光源。另外,光源252也可以是其他光源,发光方式没有限定。
本实施方式的方法能够应用于内窥镜系统200,该内窥镜系统200包括:摄像部,其拍摄作为生物体图像的推理对象图像;以及处理部,其基于通过深度学习而学习得到的学习完毕模型,对推理对象图像进行推理处理。学习完毕模型是基于数据集进行学习而得到的,该数据集是将拍摄有生物体的学习图像、针对学习图像的标注结果、以及基于对学习图像赋予的元数据而决定的表示标注结果的置信度的置信度信息关联起来而得到的。元数据包含表示对学习图像进行标注的难度的难度信息。学习图像和标注结果是深度学习中的训练数据,置信度信息是深度学习中的目标函数的权重信息。
这里的摄像部例如是上述插入部210所包含的摄像装置,具体地,是经由物镜光学系统211接收来自被摄体的反射光的摄像元件212。另外,这里的处理部例如对应于图3的系统控制装置230,狭义上对应于检测处理部233。学习完毕模型例如存储在存储部237中。
根据本实施方式的方法,能够高精度地进行以在内窥镜系统200中拍摄到的生物体图像为对象的推理处理。例如,在进行关注区域的检测处理的情况下,能够抑制图像内的关注区域的漏看、将关注区域以外的区域错误地检测为关注区域。例如在并行地进行推理对象图像的拍摄和使用学习完毕模型的推理处理的情况下,通过将检测出的关注区域显示于内窥镜系统200的显示部240,能够适当地支持医师的诊断、处置。但是,使用学习完毕模型的推理处理不限定于实时进行的处理。例如,也可以将由内窥镜系统200拍摄到的图像列暂时蓄积于数据库,在诊断等结束后,将该图像列作为对象来执行使用学习完毕模型的推理处理。
3.处理的详细内容
接着,说明在包括本实施方式的图像处理系统100的系统中执行的处理的流程。首先,对整体处理进行说明,之后对各处理进行详细说明。
3.1整体处理
图4是说明在包括图像处理系统100的系统中执行的处理的流程图。首先,在步骤S101中,图像处理系统100取得生物体图像作为学习图像。步骤S101的处理例如是通过图像取得接口111取得蓄积在数据库服务器300中的生物体图像的处理。
在步骤S102中,图像处理系统100取得用户对学习图像赋予的标注结果和用于决定该标注结果的置信度的元数据。关于步骤S102中的处理的详细情况,使用图5~图8在后面进行说明。
在步骤S103中,图像处理系统100基于元数据来决定置信度信息。关于步骤S103中的处理的详细情况,使用图9(A)~图10在后进行说明。图像处理系统100将学习图像、标注结果和置信度信息关联起来而输出。
在步骤S104中,学习装置600基于由图像处理系统100输出的学习图像、标注结果以及置信度信息进行学习处理。学习装置600输出作为学习结果的学习完毕模型。
在步骤S105中,推理装置700取得推理对象图像。步骤S105的处理可以是实时地取得在内窥镜系统200中拍摄到的生物体图像的处理,也可以是读出预先蓄积在推理对象数据库中的生物体图像的处理。
在步骤S106中,推理装置700对推理对象图像进行推理处理。具体地,步骤S106的处理是通过将推理对象图像输入到学习完毕模型,从而对推理对象图像的分类结果、或者关注区域的检测结果等进行运算的处理。
在步骤S107中,推理装置700输出推理结果。步骤S107的处理可以是在内窥镜系统200的显示部240显示表示推理结果的图像的处理,也可以是将推理结果蓄积于数据库等的处理。
另外,设想由多个用户进行标注。在这种情况下,步骤S102的处理按每个用户来执行,并且该执行时机是任意的。例如,在数据库服务器300中蓄积有一定程度的张数的学习图像的情况下,对各用户进行标注的执行委托,各用户在符合自身的情况的时机执行标注。
另外,本实施方式的置信度信息能够不考虑多个用户间的关系,而基于单一用户的标注结果和元数据来决定。因此,步骤S103的处理也能够在步骤S102的处理之后立即执行。但是,如使用图10在后面说明那样,也可以基于由多个用户赋予的标注结果的置信度信息,更新与标注结果相关联的置信度信息。在这种情况下,步骤S103的处理也可以以带元数据的标注结果已经蓄积了规定数量作为条件来执行。
另外,步骤S104的学习处理在取得了规定数量以上的数据集的情况下执行,该数据集是将学习图像、标注结果以及置信度信息关联起来而得到的。但是,在持续进行学习图像的取得和标注的情况下,上述数据集随着时间经过而增加。在这种情况下,也可以反复执行步骤S104的学习处理。例如,通过将已经制作出的学习完毕模型作为初始值,进行使用新追加的数据集的学习处理,从而能够更新该学习完毕模型。
关于步骤S105~S107,如上所述,使用学习完毕模型的推理处理可以在使用内窥镜系统200的诊断中进行,也可以在诊断结束后进行。另外,在随时更新学习完毕模型的情况下,推理装置700可以进行使用最新的学习完毕模型的推理处理,也可以进行使用过去的版本的学习完毕模型的推理处理。换言之,推理装置700取得在学习装置600中生成的学习完毕模型的时机是任意的。
如上所述,图4所示的流程图是包含图像处理系统100的系统中的处理的一例,具体的处理的流程能够实施各种变形。另外,本实施方式的方法能够追加图4中未图示的其他处理。
3.2标注结果和元数据的取得
图5是说明取得标注结果和元数据的处理的流程图。当开始该处理时,在步骤S201中,图像处理系统100生成显示图像,在步骤S202中进行该显示图像的显示控制。具体地,标注处理部121进行以下控制:生成包含由图像取得接口111取得的学习图像在内的标注用的显示图像,并使该显示图像显示于显示部113。
图6是显示图像的例子。如图6所示,显示图像包含A1~A5所示的各显示区域。A1是与作为标注的对象的学习图像有关的信息的显示区域。在A1中,例如显示用于确定学习图像的信息。或者,在A1中,例如显示成为了拍摄对象的患者的信息、拍摄日期时间的信息、拍摄者的信息等。患者的信息例如包括年龄、性别等信息。
A2是显示进行标注的学习图像的区域。A3是显示进行标注的用户的信息的区域。另外,用户的信息既可以在图6所示的画面中由用户自身输入,也可以使用向标注装置400的登录信息等来取得。
A4是用于用户输入标注结果的区域。A4例如也可以是文本框等输入区域。例如用户在使用鼠标等指示设备进行A4所示的显示区域的选择操作后,使用键盘等输入表示标注结果的字符串。在图6中,设想了用于生成图像的分类任务用的学习完毕模型的标注,输入到A4的标注结果表示图像的分类结果。分类结果例如是“正常”、“病变”等标签信息。另外,分类结果也可以是与病变的种类、恶性度有关的标签信息。另外,A4所示的区域也可以使用单选按钮、选择框等输入形式。
A5是用于输入表示用户对标注结果的自我评价的自我评价信息的区域。自我评价信息是表示输入到A4的标注结果对于用户而言能够以何种程度认为准确的信息。自我评价信息既可以是以低、中、高等等级来表现的信息,也可以是数值数据。A5与A4同样地,能够通过文本框、单选按钮、选择框等各种输入形式来实现。
图7是显示图像的其他例。如图7所示,显示图像包含B1~B3所示的各显示区域。B1是与图6的A2同样地显示学习图像的区域。但是,在图7中,设想了用于生成检测关注区域的检测任务用的学习完毕模型的标注。标注结果包含确定图像中的关注区域的位置的信息。因此,B1是能够受理用户用于确定关注区域的位置的操作的区域。例如,用户使用指示设备来操作B4所示的指针,从而指定包围关注区域的区域。用户输入例如能够通过点击矩形状的框区域的1个端点,然后拖拽到对角线上的端点的操作来实现,但也可以通过其他操作来进行。例如,区域指定不限定于矩形,也可以用不定形的边界线包围关注区域,也可以填充关注区域。
B2是显示促使用户进行标注的文本的区域。B3与图6的A5同样地是用于输入用户对标注结果的自我评价的区域。如图7的B3所示,也可以使用以浓淡表现自我评价的高低的热图来输入自我评价。如果是图7的例子,则用户能够使用指示设备等选择4个矩形区域中的任意1个从而输入自我评价。也可以不像B3那样向用户示出自我评价,而根据作业时间自动地设定。
虽然在图7中省略,但也可以设置相当于图6的A1、A3的显示区域。另外,在图6、图7中,可以省略一部分显示区域,或者追加未图示的显示区域,显示图像能够实施各种变形。例如,如后述那样,也可以进行用于生成面向区域分割(segmentation)任务的学习完毕模型的标注,该区域分割任务以像素为单位对被摄体进行分类。这种情况下的操作部114受理对拍摄有关注区域的区域进行填充的用户操作。标注处理部121基于该用户操作取得标注结果。标注结果例如是用户指定的关注区域的像素值成为第一值、其他区域的像素值成为第二值的掩模数据。
返回图5继续进行说明。若开始进行显示图像的显示,则在步骤S203中,图像处理系统100的元数据取得部123开始作业时间的计数。这里的作业时间是元数据的1个,表示用户为了对对象的学习图像附加标注所需要的时间。
在步骤S204中,图像处理系统100判定是否受理了用户的标注输入。例如,判定是否在图6的A4中输入了作为分类结果的标签信息并且在A5中输入了自我评价信息。或者,显示图像也可以包含未图示的决定按钮。在这种情况下,图像处理系统100也可以在已输入标签信息和自我评价信息且按下了决定按钮的情况下,判定为受理了标注输入。在步骤S204中判定为“否”的情况下,图像处理系统100对作业时间进行计数,并等待用户的标注输入。
在步骤S204中判定为“是”的情况下,在步骤S205中,标注处理部121取得使用显示图像输入的标注结果。在步骤S205中,元数据取得部123取得表示使用显示图像输入的自我评价的自我评价信息作为元数据。即,也可以使用用于输入标注的接口来输入元数据的一部分。
在步骤S206中,元数据取得部123取得表示作业时间的作业时间信息作为表示难度的元数据。例如元数据取得部123在步骤S204中判定为“是”的时机停止作业时间的计数,取得该时机下的计数结果作为作业时间信息。或者,元数据取得部123也可以取得用于确定以下期间的信息作为作业时间信息:以步骤S202的显示控制的开始时机为起点、以在步骤S204中判定为“是”的时机为终点的期间。
在步骤S207中,元数据取得部123取得表示学习图像中的关注区域的识别度的识别度信息、表示学习图像的画质的画质信息、表示学习图像中的遮挡物的拍摄状态的遮挡度信息来作为表示难度的元数据。
关注区域的识别度是表示关注区域与其他区域的识别是以何种程度容易的信息。识别度越低,则判定为难度越高。例如,在作为标注结果输入表示关注区域的位置的检测框的例子中,元数据取得部123取得该检测框的识别度。识别度信息例如是表示检测框内部的像素值与检测框外部的像素值的差的信息。这里的像素值例如是多个像素中的像素值的直方图等。或者,识别度信息可以是表示检测框的内部与外部之间的亮度、色调的差的信息,也可以是表示边缘是否清晰的信息,该边缘表示内部与外部的边界。
学习图像的画质是指由图像的明亮度、对比度、清晰度、噪声等表示的图像的状态。明亮度、对比度、清晰度的值越大,画质越高,噪声的噪声量越少,画质越高。画质越低,则越判定为难度高。画质信息可以是确定明亮度、对比度、清晰度、噪声中的任意1个的信息,也可以是与这些信息的2个以上的组合相当的信息。画质信息可以根据学习图像整体来计算,也可以根据一部分来计算。这里的一部分是指认为拍摄关注区域的可能性高的区域,例如是学习图像的中央区域。
学习图像中的遮挡物是存在于关注区域与内窥镜系统200的摄像部之间且有可能妨碍关注区域的观察的物体。遮挡度表示关注区域被遮挡物遮挡的程度,遮挡度越高,则判定为难度越高。遮挡物例如可以考虑泡、炎症、残渣、处置器具等。由于泡、残渣、处置器具等与生物体的颜色不同,因此能够通过图像处理来检测。另外,炎症具有发红等特征,因此能够通过图像处理来检测。元数据取得部123进行从学习图像中检测遮挡物的处理,基于检测结果计算遮挡度信息作为元数据。遮挡度信息例如可以根据遮挡物的有无来判定,也可以基于遮挡物的面积相对于学习图像的面积的比例来判定。另外,在作为标注结果而输入关注区域的位置的情况下,也可以根据遮挡物与关注区域的距离、重叠程度来决定遮挡度信息。关注区域被遮挡物遮挡的可能性越高,由遮挡度信息表示的遮挡度被设定得越高。
在步骤S208中,元数据取得部123取得表示该用户的疲劳度的疲劳度信息和表示熟练度的熟练度信息来作为表示进行了标注的用户的能力的元数据。
疲劳度信息是表示执行标注时的用户的疲劳程度的信息。元数据取得部123例如基于用户以多个学习图像为对象连续地进行了标注的情况下的累计作业时间来计算疲劳度信息。累计作业时间是各学习图像的标注所需要的作业时间的合计。例如在从针对给定的学习图像的标注完成起到显示下一个学习图像为止的间隔小于规定时间的情况下,元数据取得部123判定为标注连续。或者,元数据取得部123也可以将从用户登录到标注装置400起到退出登录为止所进行的标注判定为连续的标注。
另外,疲劳度信息也可以根据其他信息求出。例如元数据取得部123也可以从摄像装置、用户佩戴的各种传感器取得表示用户的生物体活动的生物体信息,并基于该生物体信息求出疲劳度信息。生物体信息例如是用户的眼睑的睁开程度、出汗、心率、脑电波等信息。或者,元数据取得部123也可以基于与用户的睡眠时间有关的信息来计算疲劳度信息。睡眠时间可以由用户输入,也可以基于在就寝中测量出的心率、脑电波来自动地运算。
熟练度信息是表示用户对标注熟练到什么程度的信息。元数据取得部123可以基于用户使用内窥镜系统执行了诊断、观察等的次数即内窥镜使用次数来求出熟练度信息,也可以基于用户的标注执行次数来求出熟练度信息,还可以使用这两者来求出熟练度信息。标注执行次数可以是被进行了标注的学习图像的张数,也可以是将上述连续的标注整体计数为1次标注执行次数而得到的结果。内窥镜使用次数或标注执行次数也可以由用户输入。用户输入例如使用图6的A3所示的显示区域来进行。或者,也可以预先准备将用户与该用户的内窥镜使用次数、标注执行次数进行了关联的数据库,元数据取得部123通过参照该数据库来取得用于求出熟练度信息的信息。
另外,内窥镜使用次数优选是以与成为标注对象的学习图像相同的被摄体为对象的诊断等的执行次数。例如,如果是对使用下部内窥镜拍摄到的大肠图像附加用于确定息肉的标注的情形,则基于使用下部内窥镜的诊断等的执行次数来计算熟练度信息。同样地,对大肠图像附加标注的情形下的熟练度信息优选基于以大肠图像为对象的标注执行次数来计算。
如图5所示,例如并行执行步骤S206~S208的处理。另外,步骤S206~S208的处理不限定于全部执行,也可以省略一部分处理。
如上所述,本实施方式的处理部120通过对学习图像进行图像处理来取得难度信息。即使是专家,标注是容易还是困难也会根据图像而不同,但在专利文献1等的现有方法中未考虑这一点。根据本实施方式的方法,能够基于学习图像的特性,取得用于求出标注结果的置信度的元数据。因此,能够针对每个图像来判断标注结果的置信性。
基于图像处理取得的难度信息包含表示学习图像中的标注对象的识别度的信息、表示学习图像的画质的信息、表示学习图像中的标注对象的遮挡度的信息中的至少1个。
识别度、画质、遮挡度分别如上所述那样,各信息能够基于各种图像处理来求出。如此一来,能够从标注对象与其他被摄体的识别是否容易、图像中的被摄体的视觉辨认性是否高、或者标注对象是否被遮挡物遮挡这样的观点出发来判定难度。另外,拍摄有标注对象的区域是关注区域,如上所述,关于具体的标注对象,能够实施各种变形。例如在将病变作为标注对象的例子中,对泡、残渣是遮挡物进行了说明,但泡、残渣也可以是标注对象。
另外,难度信息也可以包含表示到对学习图像赋予标注结果为止的时间的作业时间信息。作业时间信息可以是作业时间本身,也可以是能够确定作业时间的其他信息。例如,作业时间信息也可以是确定作业开始时机的时刻信息和确定标注的完成时机的时刻信息的组合。
如此一来,能够基于用户进行标注所需的时间来求出进行标注的难度。在作业时间短的情况下判定为难度低,在作业时间长的情况下判定为难度高。
如上所述,难度信息能够包含识别度、画质、遮挡度、作业时间等各种信息。难度信息可以是这些信息中的任意1个,也可以是2个以上的组合。
在难度信息中,作业时间信息需要在考虑了用户的标注的执行状况的基础上决定。具体地,元数据取得部123通过确定标注的开始和结束的时机来取得作业时间信息。
通过图像处理求出的难度信息能够在各种时机运算,不限定于图5的步骤S207。只要是在取得了学习图像之后,则画质信息能够在任意的时机运算。例如,在取得学习图像之后,可以在执行标注之前运算画质信息。另外,在遮挡度信息是遮挡物的有无、尺寸等不考虑关注区域的位置的信息的情况下,只要是在取得了学习图像之后,则该遮挡度信息也能够在任意的时机运算。
另一方面,关于识别度信息,需要确定关注区域和除此以外的区域,并且优选在取得用户的标注结果后,例如在图5的步骤S204中判定为“是”之后被运算。另外,在基于遮挡物和关注区域的位置关系来计算遮挡度信息的情况下,该遮挡度信息也优选在取得用户的标注结果之后被运算。但是,也能够将关注区域的位置假定为例如图像中央部而进行处理。在这种情况下,元数据取得部123可以在标注执行之前对识别度信息或遮挡度信息进行运算。
另外,本实施方式的元数据也可以包含表示使用接口110输入标注结果的用户的能力的能力信息。如在后面说明的那样,处理部120基于难度信息和能力信息来决定置信度信息。
如此一来,能够在考虑了难度信息和能力信息双方的情况下计算置信度,该难度信息是由学习图像侧决定的指标,该能力信息是由用户侧决定的指标。因此,即使是难度相同的学习图像,也能够求出与用户的能力对应的适当的置信度。
本实施方式的能力信息也可以包含表示用户的疲劳度的疲劳度信息。如上所述,疲劳度信息能够基于各种信息求出。
如上所述,设想用户以某种程度汇总的张数的学习图像为对象来执行标注。因此可认为,因持续进行标注而会导致疲劳蓄积,并且标注的精度会降低。根据本实施方式的方法,即使是相同的用户,也能够根据疲劳程度而使标注结果的置信度不同。另外,由本实施方式的疲劳度信息表示的疲劳度不限定于因持续进行一系列的标注所导致的疲劳程度。例如通过使用生物体信息来运算疲劳度信息,能够在考虑了用户的实际的生物体活动的状态的情况下计算出疲劳度。例如,在用户睡眠不足或身体状况不佳、或者在一天的工作的最后进行标注的情况下等,可认为在一系列的标注开始时就已经蓄积了疲劳。通过使用生物体信息,能够考虑不由标注导致的疲劳程度。
另外,能力信息也可以包含表示用户的熟练度的熟练度信息。如此一来,能够在考虑了用户本来的熟练度和由疲劳所导致的能力降低这两者的情况下进行能力信息的运算。即,与仅考虑是否是专家的现有方法相比,能够高精度地评价用户的标注能力。
另外,图像处理系统100的接口110也可以将表示输入了标注结果的用户的自我评价的自我评价信息作为元数据来受理。处理部120基于包含自我评价信息的元数据来决定置信度信息。
这里的接口110例如是标注接口112。即,能够通过相同的接口来实现标注结果的受理和作为元数据的自我评价信息的受理。然而,也可以与标注接口112分开地设置用于受理自我评价信息的接口。
如上所述,难度信息、能力信息能够在图像处理系统100中进行运算和取得,具有不需要用户直接进行元数据的输入的优点。另一方面,自我评价信息是直接反映了用户自身的想法的信息。因此,通过使用自我评价信息,能够使用与难度信息、能力信息不同的观点的信息来计算置信度。
此外,接口110包括显示包含学习图像的显示图像的显示单元113。处理部120也可以进行在显示图像中显示元数据的处理。这里显示的元数据例如是图6的A5和图7的B3所示的自我评价信息。自我评价信息需要由用户进行输入。通过在显示学习图像的显示图像中也能够进行自我评价信息的输入,能够提高用户的便利性。但是,使用标注用的显示图像而显示的元数据不限于自我评价信息。
图8是用于进行标注的显示图像的其他例。如图8所示,显示图像包括C1~C6所示的各显示区域。C1~C4与图6的A1~A4相同,分别是用于输入与学习图像有关的信息、学习图像、用户的信息、标注结果的区域。
C5是显示由元数据取得部123取得的难度信息的显示图像。另外,关于作业时间信息,由于到标注完成为止其是不清楚的,因此这里的难度信息例如是基于画质求出的信息。但是,显示图像也可以包含显示计数中途的作业时间信息的区域。
C6是显示由元数据取得部123取得的疲劳度信息的显示图像。此处的疲劳度信息例如可以是基于生物体信息求出的信息,也可以是基于累计作业时间求出的信息。累计作业时间可以是到针对前1个学习图像的标注为止的作业时间的合计,还可以是对该合计加上计数中途的作业时间后的值。另外,在此作为能力信息而例示了疲劳度信息,但显示图像既可以包含熟练度信息作为显示对象,也可以包含熟练度信息和疲劳度信息双方。
如此一来,能够向用户提示在后台可取得的难度信息、能力信息。另外,通过显示这些元数据,也能够将由学习图像的难度或者用户能力中的至少一方导致而处于容易错误地进行标注的状况这一情况报告给用户。由此,能够抑制赋予不适当的标注结果。
3.3置信度的计算
接着,对置信度决定部125中的置信度决定处理进行说明。置信度决定部125基于上述元数据,求出表示标注结果的置信度的置信度信息。
元数据例如包含难度信息和能力信息。首先,为了简化说明,对难度信息是作业时间信息、能力信息是熟练度信息、该熟练度信息是基于标注次数而求出的例子进行说明。
图9(A)、图9(B)是说明基于标注次数计算熟练度的函数的图。在本实施方式中,预先计算出多个用户的标注次数的平均、方差、标准偏差等。然后,置信度决定部125基于作为元数据取得的标注次数来计算与平均标注次数的偏差。图9(A)、图9(B)中的横轴表示与平均标注次数的偏差,纵轴表示熟练度。如图9(A)所示,置信度决定部125也可以使用Sigmoid函数来计算熟练度。即,标注次数越多于平均标注次数则熟练度越高,次数越少则熟练度越低。另外,置信度决定部125也可以如图9(B)所示那样使用阶梯函数来计算熟练度。在这种情况下,在标注次数未超过一定数量的情况下,能够将熟练度设定得较低。
关于难度信息也是同样的,预先计算出多个用户的标注作业时间的平均、方差、标准偏差等。然后,置信度决定部125基于作为元数据而取得的作业时间信息,计算与平均作业时间的偏差。根据与平均作业时间的偏差来求出难度的函数例如也能够利用Sigmoid函数。即,作业时间越长于平均作业时间则难度越高,作业时间越短则难度越低。另外,作为根据作业时间求出难度的函数,也可以使用阶梯函数等其他函数。
置信度决定部125例如基于下式(1)来计算置信度。f1是将能力设为变量的函数,是0以上且1以下的单调增加函数。这里的单调增加是广义的单调增加,在给定的值x中允许f1’(x)=0。f1’表示f1的微分。f2是将难度设为变量的函数,是0以上且1以下的单调减少函数。a和b例如是满足a+b=1的正数。
置信度=a×f1(能力)+b×f2(难度)…(1)
如使用图9(A)、图9(B)在上面说明的那样,在能力及难度是归一化为0至1的值的情况下,例如f1(x)=x3,f2(x)=1-x3。或者,在用0至1将难度归一化且设定成难度越高则值越小的情况下,关于f2也能够使用f2(x)=x3。在这种情况下,置信度成为0以上且1以下的值,能力越高,另外难度越低,则置信度越大。例如,a=b=1/2,但系数a、b的值能够实施各种变形。
或者,置信度决定部125也可以基于下式(2)来计算置信度。下式(2)中的f3是将能力设为变量的函数,例如f3是值为0以上且1以下的单调增加函数。f4是将难度设为变量的函数,例如是值为1以上的单调增加函数。在这种情况下,置信度也是0以上且1以下的值,能力越高,另外,难度越低,则置信度越大。
置信度=f3(能力)/f4(难度)…(2)
但是,求出置信度的公式、置信度的可取的值的范围不限定于上式(1)、(2),能够实施各种变形。在广义上,置信度决定部125也可以基于下式(3)来计算置信度。下式(3)中的f0是将能力及难度设为变量的多变量函数。例如,f0是与能力相关的偏微分为0以上且与难度相关的偏微分为0以下的任意函数。
置信度=f0(能力,难度)…(3)
另外,元数据也可以包括自我评价信息。在这种情况下,置信度决定部125例如可以使用下式(4)来计算置信度,也可以使用下式(5)来计算置信度。例如,下式(4)的f5(自我评价)是0以上且1以下的单调增加函数。在自我评价归一化为0至1的情况下,例如f5=x3。c例如是满足a+b+c=1的正数。另外,下式(5)的f6(自我评价)为0以上且1以下的单调增加函数。换言之,上式(3)能够如下式(6)那样扩展。
置信度=a×f1(能力)+b×f2(难度)+c×f5(自我评价)…(4)
置信度={f3(能力)×f6(自我评价)}/f4(难度)…(5)
置信度=f0(能力,难度,自我评价)…(6)
另外,如上所述,难度信息也可以包括识别度、画质、遮挡度、作业时间这样的多个信息。置信度决定部125也可以基于识别度、画质以及遮挡度来确定标准作业时间,并基于该标准作业时间和作业时间的比较处理来计算难度。作业时间越长于标准作业时间,置信度决定部125将难度设定得越高,作业时间越短于标准作业时间,置信度决定部125将难度设定得越低。另外,也可以通过将难度、画质、遮挡度、作业时间的每一个设为变量的函数f7,并根据下式(7)来求出难度。f7是识别度越低、画质越低、遮挡度越高、作业时间越长则值越大的函数。换言之,上式(6)能够如下式(8)那样扩展。进而,也可以将画质考虑为通过将图像的明亮度、对比度、清晰度、噪声的每一个设为变量的函数而求出的信息。
难度=f7(识别度,画质,遮挡度,作业时间)…(7)
置信度=f0(能力,识别度,画质,遮挡度,作业时间,自我评价)…(8)
同样地,能力信息也可以包括熟练度信息和疲劳度信息。能力信息例如也可以通过将熟练度信息和疲劳度信息的每一个设为变量的函数f8,并根据下式(9)求出。f8是熟练度越高、疲劳度越低则值越大的函数。换言之,上式(6)能够如下式(10)那样扩展。另外,也可以将上式(8)和下式(10)组合。在这种情况下,置信度是熟练度、疲劳度、识别度、画质、遮挡度、作业时间以及自我评价的函数。
能力=f8(熟练度,疲劳度)…(9)
置信度=f0(熟练度,疲劳度,难度,自我评价)…(10)
图10是说明置信度决定处理的流程图。当开始该处理时,在步骤S301中,置信度决定部125如上述那样基于与各学习图像相关联的元数据,计算对该学习图像赋予的标注结果的置信度。本实施方式的方法能够基于元数据来计算置信度,多个用户之间的比较不是必须的。
关于本实施方式的作为学习图像的生物体图像,如上所述,即使是专家,标注结果也会产生偏差。因此,在针对1个学习图像存在多个用户的标注结果的情况下,有助于提高学习精度的标注结果和使学习精度反而降低的标注结果有时会混合存在。根据本实施方式的方法,在步骤S301中,前者的置信度被计算得较高,后者的置信度被计算得较低,因此不妨碍将所有的学习图像及标注结果用于学习处理。但是,在1张学习图像中存在多个用户的标注结果的情况下,也可以将对该学习图像赋予的标注结果整合,并且通过更新置信度来决定针对整合后的标注结果的置信度。如此一来,能够对1个学习图像赋予更适当的标注结果和置信度,因此与将各标注结果直接用于学习的情况相比,能够构建推理精度高的学习完毕模型。
步骤S302之后与标注结果的整合以及置信度的更新处理对应。首先,在步骤S302中,置信度决定部125判断在1张学习图像中是否存在多个用户的标注结果。
在存在多个用户的标注结果的情况下(步骤S302:“是”),置信度决定部125在步骤S303中判断多个标注结果是否一致。在标注结果表示学习图像的分类结果的情况下,步骤S303的处理是判定分类结果是否全部一致。
在多个标注结果一致的情况下(步骤S303:“是”),在步骤S304中,置信度决定部125采用多个用户的标注结果的置信度的平均值作为置信度。此外,在步骤S304中,置信度决定部125也可以采用多个用户的标注结果的置信度的最大值作为置信度。总之,对于1个学习图像,能够确定1个标注结果和1个置信度。
在多个标注结果不一致的情况下(步骤S303中“否”),在步骤S305中,置信度决定部125通过多数决定原理来决定新的标注结果。具体地,置信度决定部125进行以下处理:将针对成为对象的学习图像所赋予的多个标注结果作为对象,按每个分类结果对其数量进行计数。例如在作为表示分类结果的标签而存在标签A、标签B的情况下,对标签A的数量和标签B的数量进行计数。并且,将用于确定计数值为最大的分类结果的标签采用为标注结果。
然后,在步骤S306中,置信度决定部125进行置信度的更新处理。例如,在步骤S305中选择了标签A的情况下,对预测为标签A的用户的置信度进行平均,并从平均结果中减去基于预测为除此以外的标签的用户的置信度的值,由此求出更新后的置信度。具体地,置信度决定部125通过下式(11)来更新置信度。在下式(11)中,Conf_new表示更新后的置信度。Conf_truth是预测为标签A的用户的置信度的平均值。ΣConf_other是预测为标签A以外的用户的置信度的合计值,n表示对成为对象的学习图像进行了标注的全部用户数。这样,在标注结果存在偏差的情况下,进行使置信度降低的处理。
[数1]
Figure BDA0003697394210000271
在步骤S304的处理后或步骤S306的处理后,在步骤S307中,置信度决定部125根据计算出的置信度来更新标注结果的置信度。另一方面,在学习图像中仅存在1名用户的标注结果的情况下(步骤S302:“否”),不更新置信度,采用在步骤S301中计算出的置信度。
如以上那样,在对给定的学习图像关联了由多个用户输入的第1~第N(N是2以上的整数)标注结果的情况下,首先,处理部120基于对第1~第N标注结果的每一个赋予的元数据,决定第1~第N置信度信息(步骤S301)。之后,基于第1~第N标注结果,决定与学习图像相关联的标注结果(步骤S303、S305),并且基于第1~第N置信度信息,决定所决定的标注结果的置信度信息(步骤S304、S306)。
如此一来,即使在对1张学习图像存在多个用户的标注结果的情况下,也能够决定与学习图像1对1地对应的标注结果以及置信度。
另外,在由置信度信息表示的置信度低于给定的基准值的情况下,处理部120也可以进行要求标注结果的再输入的处理。要求标注结果的再输入的处理可以基于在步骤S301中计算出的单独的置信度来进行,也可以基于步骤S307中的更新后的置信度来进行。
步骤S301的置信度计算也能够在用户的标注完成后立即进行。因此,处理部120也可以在用户的标注输入完成后,在该用户继续进行标注装置400的操作的期间,再次显示图6等显示图像,由此要求标注结果的再输入。或者,在标注和置信度决定在不同的时机执行的情况下,标注结果的再输入例如也可以使用电子邮件等进行。在这种情况下,要求标注结果的再输入的处理是指示向未图示的邮件服务器发送邮件的处理。
关于步骤S307的置信度更新,由于需要使用多个用户的标注结果,因此设想在不同的时机执行标注和置信度决定。因此,要求标注结果的再输入的处理通过指示发送邮件的处理等来实现。
3.4使用置信度的学习
首先,对一般的机器学习的概要进行说明。以下,对使用神经网络的机器学习进行说明。即,以下说明的关注区域检测器及环境分类器例如是使用神经网络的学习完毕模型。但是,本实施方式的方法不限定于此。在本实施方式中,例如可以进行使用SVM(supportvector machine:支持向量机)等其他模型的机器学习,也可以进行使用使神经网络、SVM等各种方法发展后的方法的机器学习。
图11(A)是说明神经网络的示意图。神经网络具有:输入数据的输入层、基于来自输入层的输出进行运算的中间层、以及基于来自中间层的输出而输出数据的输出层。在图11(A)中,例示了中间层为2层的网络,但中间层可以为1层,也可以为3层以上。另外,各层所包含的节点的数量不限定于图11(A)的例子,能够实施各种变形。此外,如果考虑精度,则本实施方式的学习优选使用利用多层神经网络的深度学习。这里的多层狭义上为4层以上。
如图11(A)所示,给定的层所包含的节点与相邻的层的节点连接。对各连接设定有加权系数。各节点将前级的节点的输出与加权系数相乘,求出乘法运算结果的合计值。进而,各节点对合计值加上偏置,通过对加法运算结果应用激活函数来求出该节点的输出。通过从输入层向输出层依次执行该处理,从而求出神经网络的输出。另外,作为激活函数,已知有Sigmoid函数、ReLU函数等各种函数,在本实施方式中能够广泛地应用它们。
神经网络中的学习是决定适当的加权系数的处理。这里的加权系数包含偏置。具体地,学习装置600将训练数据中的输入数据输入到神经网络,通过使用此时的加权系数进行正向的运算而求出输出。学习装置600对表示该输出与训练数据中的正确答案数据的误差的目标函数进行运算。然后,更新加权系数,以使目标函数最小化。在加权系数的更新中,例如能够利用从输出层朝向输入层更新加权系数的误差反向传播法。
另外,神经网络例如也可以是CNN(Convolutional Neural Network:卷积神经网络)。图11(B)是说明CNN的示意图。CNN包含进行卷积运算的卷积层和池化层。卷积层是进行滤波处理的层。池化层是进行将纵向、横向的尺寸缩小的池化运算的层。图11(B)所示的例子是在进行了多次基于卷积层以及池化层的运算之后,通过进行基于全连接层的运算而求出输出的网络。全连接层是在给定的层的节点与前一层的全部节点连接的情况下进行运算处理的层,与使用图11(A)在上面说明的各层的运算对应。另外,虽然在图11(B)中省略了记载,但在CNN中也进行基于激活函数的运算处理。CNN已知有各种结构,在本实施方式中能够广泛地应用它们。
在使用CNN的情况下,处理的顺序也与图11(A)相同。即,学习装置600将训练数据中的输入数据输入至CNN,通过进行使用此时的滤波特性的滤波处理、池化运算而求出输出。计算出表示该输出与正确答案数据的误差的目标函数,并且为了使该目标函数最小化而进行包含滤波特性的加权系数的更新。在更新CNN的加权系数时,例如也能够利用误差反向传播法。
深度学习中的目标函数一般由下式(12)表示。下式(12)中的y表示训练数据中的正确答案标签,f(x)表示作为识别器的神经网络的输出。
min(x,y)=||y-f(x)||…(12)
作为针对图像的分类处理,考虑将该图像分类为M个类别中的任意类别的处理。在此,M为2以上的整数。例如,在CNN的输出层为公知的Softmax层的情况下,作为该Softmax层的输出的f(x)是分类结果为类别1的概率、为类别2的概率、…、为类别M的概率这M个概率数据。与此相对,在标注结果是表示类别i的标签信息的情况下,正确答案数据是类别i的概率成为1、其他类别的概率成为0的数据。学习装置600例如针对M个类别的概率数据分别计算差分绝对值,并将使其和为最小的函数作为目标函数而求出。
在本实施方式中,考虑到因生物体图像复杂而导致正确答案值产生偏差的情况,进行基于置信度的学习处理。例如,如下式(13)所示,学习装置600使用基于置信度的权重即w_conf作为目标函数的权重来进行学习。
min(x,y)=w_conf*||y-f(x)||…(13)
在置信度为最大的1的情况下,上式(13)与上式(12)相同。即,作为对象的训练数据在加权系数的更新中与通常的机器学习的贡献程度相同。与此相对,在置信度降低的情况下,上式(13)的目标函数比上式(12)小。即,置信度低的训练数据的影响变小。由此,能够高效地对正确的数据进行学习。另外,在此将w_conf设为置信度本身,但不限定于此,w_conf也可以是基于置信度而求出的其他值。例如,w_conf可以是大于1的值。
图12是表示置信度和基于该置信度的权重即w_conf的关系的图。如上所述,也可以将w_conf设为置信度本身。另外,处理部120也可以输出与置信度信息成非线性关系的值作为权重信息。例如,如图12所示,w_conf可以是置信度的乘方。在图12中,示出了w_conf为置信度的平方的例子,但关于指数能够实施各种变形。另外,如图12所示,w_conf也可以基于阶梯函数来决定。例如w_conf在置信度为给定的阈值以下的情况下为0,在置信度大于阈值的情况下为1。给定的阈值例如为0.5,但不限定于此。此外,w_conf只要是基于置信度而决定的值即可,具体的关系能够实施各种变形。
另外,学习装置600也可以考虑与w_conf不同的权重而进行学习处理。例如,学习装置600基于下式(14)来更新加权系数。w_balance表示考虑了类别的偏差状况的权重。类别的偏差例如表示被分类为类别1的学习图像的张数和被分类为类别2的学习图像的张数的比率。在类别为3以上的情况下也是同样的,类别的偏差表示类别间的学习图像的张数的偏差。
min(x,y)=w_balance*w_conf*||y-f(x)||…(14)
考虑以下学习处理:对包含息肉的图像即“息肉”和不包含息肉的图像即“正常”中的任意类别生成用于识别输入图像的识别器。例如,在是“正常”的学习图像与是“息肉”的学习图像相比非常多的情况下,由于将输入的图像判断为“正常”,目标函数容易变小。因此,对于拍摄有息肉的图像也容易判断为“正常”,并且使用识别器的分类精度降低。在这种情况下,通过相对地增大被赋予了“息肉”这样的标签的学习图像的权重,并相对地减小被赋予了“正常”这样的标签的学习图像的权重,从而能够抑制因类别的偏差所造成的影响。即,除了基于置信度的权重之外,通过使用考虑了类别间的偏差的权重,能够进一步提高学习的精度。
另外,学习装置600也可以基于下式(15)来更新加权系数。w_object表示基于拍摄有学习图像的拍摄环境和在关注区域中拍摄到的被摄体的组合的权重。
min(x,y)=w_object*w_conf*||y-f(x)||…(15)
例如,在“在使用特殊光作为照明光来拍摄上部消化器官而得到的内窥镜图像中,对肿瘤进行标注”的情况下,由于蓄积了较多的病例,因此用户难以对标注的判断感到困惑。因此,根据拍摄环境和关注区域决定的权重w_object被设定为基于置信度的权重w_conf的影响减小。
另一方面,在“在下部消化器官未染色且使用普通光作为照明光来拍摄下部消化器官而得到的内窥镜图像中,对息肉进行标注”的情况下,由于状况的多样化、病变部分的观察困难,即使是专家也有可能对判断感到困惑。在这种情况下,根据成像环境和关注区域决定的权重w_object被设定为基于置信度的权重w_conf的影响变大。
另外,也可以将上式(14)和(15)组合。即,学习装置600也可以在考虑了基于置信度的权重w_conf、基于类别的偏差的权重w_balance、基于拍摄环境和在关注区域中拍摄到的被摄体的组合的权重w_object的情况下进行学习。
如上所述,处理部120将学习图像和标注结果作为深度学习中的训练数据输出。然后,处理部120将置信度信息作为深度学习中的目标函数的权重信息输出。如此一来,能够考虑置信度来调整训练数据对学习的贡献度,因此能够生成推理精度高的学习完毕模型。
3.5推理
通过学习处理而生成学习完毕模型之后的推理装置700中的处理如图4的步骤S105~S107那样,与不使用置信度的情况相同。即,推理装置700存储由学习装置600生成的学习完毕模型。此外,推理装置700从内窥镜系统200或推理对象数据库取得推理对象图像,并将该推理对象图像输入到学习完毕模型。推理装置700所包含的处理器根据来自学习完毕模型的指示进行动作,由此输出针对推理对象图像的推理结果。在进行分类处理的情况下,推理装置700对推理对象图像赋予表示分类结果的标签。此外,推理装置700输出推理结果。这里的输出例如是使用显示部的显示处理。
此外,基于学习完毕模型的推理装置700的处理器中的运算、即用于基于输入数据将输出数据输出的运算可以通过软件来执行,也可以通过硬件来执行。换言之,在图11(A)的各节点执行的积和运算、在CNN的卷积层中执行的滤波处理等也可以通过软件来执行。或者,上述运算也可以通过FPGA等电路装置来执行。另外,上述运算也可以通过软件与硬件的组合来执行。这样,按照来自学习完毕模型的指令的处理器的动作能够通过各种方式来实现。例如,学习完毕模型包括推理算法和在该推理算法中使用的参数。推理算法是指基于输入数据进行滤波运算等的算法。参数是通过学习处理而取得的参数,例如是加权系数。在这种情况下,推理算法和参数双方都存储在推理装置700的存储器中,处理器也可以读取该推理算法和参数从而通过软件来进行推理处理。或者,推理算法也可以通过FPGA等实现,存储器也可以存储参数。或者,包含参数的推理算法也可以通过FPGA等来实现。在这种情况下,存储学习完毕模型的信息的存储器例如是FPGA的内置存储器。
3.6变形例
以上,主要对学习完毕模型是进行学习图像的分类处理的分类器的例子进行了说明。但是,学习完毕模型也可以是面向检测任务的学习完毕模型,也可以是面向区域分割任务的学习完毕模型。检测任务是指输出关注区域的位置和其可能性的处理。例如,如果是检测息肉的检测任务,则学习完毕模型输出表示推理对象图像中的息肉的位置的信息和该位置的被摄体为息肉的可能性。区域分割任务是指,以像素为单位对在该像素中拍摄到的被摄体进行分类,从而将学习图像分割为多个区域的处理。例如,在将推理对象图像分割为息肉区域和除此以外的区域的情况下,学习完毕模型针对各像素输出该像素为息肉的可能性。
在生成进行检测任务的学习完毕模型的情况下,置信度决定部125以检测对象为单位决定置信度。例如,在1个学习图像中存在多个关注区域的情况下,用户赋予能够确定各个关注区域的标注结果。即,标注处理部121针对1个学习图像,取得与作为检测对象的关注区域的数量相应量的标注结果。
元数据取得部123取得用于决定各标注结果的置信度的元数据。例如,元数据取得部123针对每个标注结果计算识别度信息和遮挡度信息。另外,元数据取得部123可以求出多个标注结果中共同的画质信息。也可以通过以包含检测框的给定的区域为对象来求出画质信息,从而针对每个标注结果求出画质信息。
另外,元数据取得部123将从显示学习图像到输入第一标注结果为止的时间作为该第一标注结果的作业时间信息,并将从输入第一标注结果到输入第二标注结果为止的时间作为第二标注结果的作业时间信息,由此针对每个标注结果计算作业时间信息。但是,元数据取得部123也可以求出多个标注结果中共同的作业时间信息。
另外,设想元数据取得部123求出多个标注结果中共同的疲劳度信息、熟练度信息。但是,也可以逐次测量生物体信息等,针对每个标注结果求出能力信息。
置信度决定部125基于元数据对每个检测对象决定置信度。另外,针对每个检测对象也执行图10的步骤S302~S307所示的处理。例如,在步骤S303中,置信度决定部125判定多个检测框是否足够接近,由此判定多个用户的标注结果是否是针对同一检测对象的标注结果。例如,置信度决定部125求出多个检测框的重叠程度,在该重叠程度为规定阈值以上的情况下,判定为多个标注结果一致。由此,能够将对1个检测对象所赋予的多个标注结果以及置信度进行整合。针对1张学习图像,图像处理系统100输出与该学习图像中包含的检测对象数对应的标注结果和表示各标注结果的置信度的置信度信息。
面向检测任务的学习中的目标函数由表示物体的位置的项和表示物体的可能性的项之和来体现。学习装置600在将基于各检测对象的置信度信息的权重设为w_j_conf的情况下,将该权重w_j_conf用作目标函数的权重信息。具体地,学习装置600基于下式(16)来更新加权系数。下式(16)的第一项对应于以下信息:对关于检测框的位置的模型输出与正确答案数据的差分绝对值乘以权重w_j_conf而得到的信息。下式(16)的第二项对应于以下信息:对关于在检测框中拍摄到的物体的可能性的模型输出与正确答案数据的差分绝对值乘以权重w_j_conf而得到的信息。
[数2]
Figure BDA0003697394210000331
另外,在生成进行区域分割任务的学习完毕模型的情况下,元数据也可以包含能够以像素为单位计算的元数据和在整个图像中共同的元数据。例如,关于画质信息,能够通过设定包含处理对象像素的给定的区域,并针对每个该区域进行处理来对以像素为单位的画质信息进行运算。
置信度决定部125基于元数据对每个像素决定置信度。另外,对每个像素对象也执行图10的步骤S302~S307所示的处理。
在将基于像素(i,j)中的置信度信息的权重设为w_ij_conf的情况下,学习装置600将该权重w_ij_conf作为目标函数的权重信息。像素(i,j)表示相对于推理对象图像的基准点在横向上是第i个且在纵向上是第j个的像素。具体地,学习装置600基于下式(17)来更新加权系数。下式(17)的yij表示像素(i,j)处的正确答案数据,f(xij)表示像素(i,j)处的模型输出。
[数3]
Figure BDA0003697394210000332
另外,如上所述对本实施方式进行了详细说明,但本领域技术人员能够容易地理解,能够进行实质上不脱离本实施方式的新事项以及效果的多种变形。因此,这样的变形例全部包含在本公开的范围内。例如,在说明书或附图中至少一次与更广义或同义的不同术语一起记载的术语在说明书或附图的任何地方都能够置换成该不同的术语。另外,本实施方式以及变形例的全部组合也包含在本公开的范围内。另外,图像处理系统、图像处理装置、内窥镜系统等的结构以及动作等也不限定于本实施方式中说明的内容,能够实施各种变形。
附图标记说明
100…图像处理系统、110…接口、111…图像取得接口、112…标注接口、113…显示部、114…操作部、115…输出接口、120…处理部、121…标注处理部、123…元数据取得部、125…置信度决定部、130…存储部、200…内窥镜系统、210…插入部、211…物镜光学系统、212…摄像元件、213…致动器、214…照明透镜、215…光导、216…AF开始/结束按钮、220…外部I/F部、230…系统控制装置、231…A/D转换部、232…预处理部、233…检测处理部、234…后处理部、235…系统控制部、236…AF控制部、237…存储部、240…显示部、250…光源装置、252…光源、300…数据库服务器、400…标注装置、500…置信度决定装置、600…学习装置、700…推理装置、800…图像收集用内窥镜系统。

Claims (17)

1.一种图像处理系统,其特征在于,包括:
接口,其被输入针对拍摄有生物体的学习图像的标注结果;以及
处理部,
所述处理部进行以下处理:
取得包含难度信息的元数据,该难度信息表示对所述学习图像进行标注的难度;
基于所述元数据,决定表示所述标注结果的置信度的置信度信息;以及
输出将所述学习图像、所述标注结果以及所述置信度信息关联起来而得到的数据集,作为在学习完毕模型的生成中所使用的数据,该学习完毕模型用于对拍摄有生物体的推理对象图像进行使用深度学习的推理。
2.根据权利要求1所述的图像处理系统,其特征在于,
所述处理部通过对所述学习图像进行图像处理来取得所述难度信息。
3.根据权利要求2所述的图像处理系统,其特征在于,
所述难度信息包括表示所述学习图像中的标注对象的识别度的信息、表示所述学习图像的画质的信息、表示所述学习图像中的所述标注对象的遮挡度的信息中的至少一方。
4.根据权利要求1所述的图像处理系统,其特征在于,
所述难度信息包括表示到对所述学习图像赋予所述标注结果为止的时间的作业时间信息。
5.根据权利要求1所述的图像处理系统,其特征在于,
所述元数据包括表示使用所述接口输入所述标注结果的用户的能力的能力信息,
所述处理部基于所述难度信息和所述能力信息来决定所述置信度信息。
6.根据权利要求5所述的图像处理系统,其特征在于,
所述能力信息包括表示所述用户的疲劳度的疲劳度信息。
7.根据权利要求5所述的图像处理系统,其特征在于,
所述能力信息包括表示所述用户的熟练度的熟练度信息。
8.根据权利要求1所述的图像处理系统,其特征在于,
所述接口受理表示由输入了所述标注结果的用户进行的自我评价的自我评价信息,作为所述元数据,
所述处理部基于包含所述自我评价信息的所述元数据来决定所述置信度信息。
9.根据权利要求1所述的图像处理系统,其特征在于,
在给定的所述学习图像与由多个用户输入的第1标注结果~第N(N为2以上的整数)标注结果相关联的情况下,所述处理部进行以下处理:
基于对所述第1标注结果~第N标注结果分别赋予的所述元数据,决定第1置信度信息~第N置信度信息;以及
基于所述第1标注结果~第N标注结果,决定与所述学习图像相关联的所述标注结果,基于所述第1置信度信息~第N置信度信息,对所决定的所述标注结果决定所述置信度信息。
10.根据权利要求1所述的图像处理系统,其特征在于,
所述接口包括显示部,该显示部显示包含所述学习图像的显示图像,
所述处理部进行在所述显示图像中显示所述元数据的处理。
11.根据权利要求1所述的图像处理系统,其特征在于,
所述处理部进行以下处理:
将所述学习图像和所述标注结果作为所述深度学习中的训练数据进行输出;以及
将所述置信度信息作为所述深度学习中的目标函数的权重信息进行输出。
12.根据权利要求1所述的图像处理系统,其特征在于,
所述处理部进行以下处理:
将所述学习图像和所述标注结果作为所述深度学习中的训练数据进行输出;以及
将与所述置信度信息成非线性关系的值作为所述深度学习中的目标函数的权重信息进行输出。
13.根据权利要求1所述的图像处理系统,其特征在于,
在由所述置信度信息表示的所述置信度低于给定的基准值的情况下,所述处理部进行要求所述标注结果的再输入的处理。
14.一种图像处理装置,其特征在于,包括:
接口,其被输入针对拍摄有生物体的学习图像的标注结果;以及
处理部,其取得包含难度信息的元数据,并将所取得的所述元数据作为用于求出所述标注结果的置信度的信息,与所述学习图像关联起来而输出,该难度信息表示对所述学习图像进行标注的难度,
所述学习图像和所述标注结果用于学习完毕模型的生成,该学习完毕模型用于对拍摄有生物体的推理对象图像进行使用深度学习的推理,所述置信度被用作所述深度学习中的目标函数的权重信息。
15.一种内窥镜系统,其特征在于,包括:
摄像部,其对生物体进行拍摄从而输出推理对象图像;以及
处理部,其基于通过深度学习而学习得到的学习完毕模型,对所述推理对象图像进行推理处理,
所述学习完毕模型是基于如下的数据集而学习得到的,该数据集是将拍摄有生物体的学习图像、针对所述学习图像的标注结果、以及基于对所述学习图像赋予的元数据而决定的表示所述标注结果的置信度的置信度信息关联起来而得到的,
所述元数据包括表示对所述学习图像进行标注的难度的难度信息,所述学习图像和所述标注结果是所述深度学习中的训练数据,所述置信度信息是所述深度学习中的目标函数的权重信息。
16.一种接口,其包括输入部,该输入部被输入针对拍摄有生物体的学习图像的标注结果,所述接口的特征在于,
所述接口与处理部连接,
所述接口向所述处理部输入包含难度信息的元数据,该难度信息表示对所述学习图像进行标注的难度,
所述处理部基于所述元数据,决定表示所述标注结果的置信度的置信度信息,
所述处理部输出将所述学习图像、所述标注结果以及所述置信度信息关联起来而得到的数据集,作为在学习完毕模型的生成中所使用的数据,该学习完毕模型用于对拍摄有生物体的推理对象图像进行使用深度学习的推理。
17.一种图像处理方法,其特征在于,
所述图像处理方法进行以下处理:
取得针对拍摄有生物体的学习图像的标注结果;
取得包含难度信息的元数据,该难度信息表示对所述学习图像进行标注的难度;
基于所述元数据,决定表示所述标注结果的置信度的置信度信息;以及
输出将所述学习图像、所述标注结果以及所述置信度信息关联起来而得到的数据集,作为在学习完毕模型的生成中所使用的数据,该学习完毕模型用于对拍摄有生物体的推理对象图像进行使用深度学习的推理。
CN202080087206.6A 2020-03-10 2020-03-10 图像处理系统、图像处理装置、内窥镜系统、接口以及图像处理方法 Pending CN114830107A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/010293 WO2021181520A1 (ja) 2020-03-10 2020-03-10 画像処理システム、画像処理装置、内視鏡システム、インターフェース及び画像処理方法

Publications (1)

Publication Number Publication Date
CN114830107A true CN114830107A (zh) 2022-07-29

Family

ID=77670513

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080087206.6A Pending CN114830107A (zh) 2020-03-10 2020-03-10 图像处理系统、图像处理装置、内窥镜系统、接口以及图像处理方法

Country Status (4)

Country Link
US (1) US20220319153A1 (zh)
JP (1) JP7467595B2 (zh)
CN (1) CN114830107A (zh)
WO (1) WO2021181520A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230056923A1 (en) * 2021-08-20 2023-02-23 GE Precision Healthcare LLC Automatically detecting characteristics of a medical image series
JP7399998B2 (ja) 2022-03-29 2023-12-18 本田技研工業株式会社 教師データ収集装置
CN116363762A (zh) * 2022-12-23 2023-06-30 北京百度网讯科技有限公司 活体检测方法、深度学习模型的训练方法及装置
JP7334920B1 (ja) * 2023-03-02 2023-08-29 FastLabel株式会社 情報処理システム、情報処理方法及びプログラム
CN117238018A (zh) * 2023-09-20 2023-12-15 华南理工大学 基于多粒度的可增量深宽网络活体检测方法、介质及设备

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009110064A (ja) * 2007-10-26 2009-05-21 Toshiba Corp 分類モデル学習装置および分類モデル学習方法
JP2017211689A (ja) * 2016-05-23 2017-11-30 株式会社ツクタ技研 分類モデル装置、分類モデル学習方法、および分類モデル学習プログラム
JP6946081B2 (ja) 2016-12-22 2021-10-06 キヤノン株式会社 情報処理装置、情報処理方法、プログラム
JP7011146B2 (ja) 2017-03-27 2022-01-26 富士通株式会社 画像処理装置、画像処理方法、画像処理プログラム、及び教師データ生成方法
JP7027070B2 (ja) 2017-08-31 2022-03-01 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
JP7104292B2 (ja) * 2017-11-29 2022-07-21 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、プログラム
JP7040104B2 (ja) 2018-02-19 2022-03-23 富士通株式会社 学習プログラム、学習方法および学習装置
US11763188B2 (en) 2018-05-03 2023-09-19 International Business Machines Corporation Layered stochastic anonymization of data
JP7195085B2 (ja) * 2018-08-28 2022-12-23 オリンパス株式会社 アノテーション装置およびアノテーション方法

Also Published As

Publication number Publication date
JP7467595B2 (ja) 2024-04-15
JPWO2021181520A1 (zh) 2021-09-16
WO2021181520A1 (ja) 2021-09-16
US20220319153A1 (en) 2022-10-06

Similar Documents

Publication Publication Date Title
CN114830107A (zh) 图像处理系统、图像处理装置、内窥镜系统、接口以及图像处理方法
US10860930B2 (en) Learning method, image recognition device, and computer-readable storage medium
US11721086B2 (en) Image processing system and image processing method
US11288550B2 (en) Data processing apparatus and method, recognition apparatus, learning data storage apparatus, machine learning apparatus, and program
JP7135504B2 (ja) 画像識別装置、画像識別方法及びプログラム
CN110363768B (zh) 一种基于深度学习的早期癌病灶范围预测辅助系统
US20220130136A1 (en) Image processing method, training device, and image processing device
Estrada et al. Exploratory Dijkstra forest based automatic vessel segmentation: applications in video indirect ophthalmoscopy (VIO)
US20240054638A1 (en) Automatic annotation of condition features in medical images
KR102530010B1 (ko) 의료 영상 기반 질환 중증도 결정 장치 및 방법
US20220335610A1 (en) Image processing system, training method for training device, and storage medium
US20220351483A1 (en) Image processing system, endoscope system, image processing method, and storage medium
KR20200139606A (ko) 자궁경부암 자동 진단 시스템
JP6704095B1 (ja) プログラム、情報処理方法及び情報処理装置
US20220084194A1 (en) Computer program, processor for endoscope, and information processing method
US20230100147A1 (en) Diagnosis support system, diagnosis support method, and storage medium
KR102173321B1 (ko) 형태학적 특징을 이용한 자동 척추 골절 진단 및 검출 장치 및 방법
US20220361739A1 (en) Image processing apparatus, image processing method, and endoscope apparatus
US20240062367A1 (en) Detecting abnormalities in an x-ray image
EP3864620B1 (en) Correcting segmentation of medical images using a statistical analysis of historic corrections
CN114581402A (zh) 胶囊内窥镜质检方法、装置及存储介质
CN112585618A (zh) 用于确定解释图的方法和设备
US20230180999A1 (en) Learning apparatus, learning method, program, trained model, and endoscope system
JP7365261B2 (ja) コンピュータシステムおよびプログラム
EP4372695A1 (en) Saliency maps for deep learning models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination