CN110910340A - 注解装置和注解方法 - Google Patents

注解装置和注解方法 Download PDF

Info

Publication number
CN110910340A
CN110910340A CN201910768755.9A CN201910768755A CN110910340A CN 110910340 A CN110910340 A CN 110910340A CN 201910768755 A CN201910768755 A CN 201910768755A CN 110910340 A CN110910340 A CN 110910340A
Authority
CN
China
Prior art keywords
annotation
image
unit
learning
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910768755.9A
Other languages
English (en)
Inventor
林寿一
李祯
原田久之
坂口诚一郎
长和彦
野中修
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aozhixin Digital Technology Co.,Ltd.
Original Assignee
Olympus Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2018159582A external-priority patent/JP2020035094A/ja
Priority claimed from JP2018159583A external-priority patent/JP7195085B2/ja
Application filed by Olympus Corp filed Critical Olympus Corp
Publication of CN110910340A publication Critical patent/CN110910340A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/40Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/945User interactive design; Environments; Toolboxes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供注解装置和注解方法,能够在不给操作者带来负担的情况下进行注解作业。该注解装置通过手动操作设定指定能够作为注解对象的对象物的特定部分的作业时间或数据量(S11),进行与所设定的作业时间或数据量对应地逐个依次再现可能包含对象物的多个图像并通过手动操作指定所再现的图像内的上述对象物的特定部分的第1手动注解(S15),在第1手动注解结束之后,进行与所设定的作业时间或数据量对应地通过手动操作指定多个图像中的特定部分的第2注解(S21),与第2注解并行地使用在第1注解中取得的对象物与特定部分的关系作为示教数据来学习,由此生成推理模型(S25)。

Description

注解装置和注解方法
技术领域
本发明涉及适合生成示教用数据的注解装置和注解方法,该示教用数据用于生成用于深度学习等机器学习的推理模型。
背景技术
提出了如下技术方案:在显示拍摄有被检体的至少1个医用图像的医用图像处理装置中,判定应该从图像中确认的位置,并显示是否已判定出该位置(参照日本公开特许2015-198928号公报(以下,称作“专利文献1”))。此外,近年来,提出了各种深度学习等机器学习装置,但是,在该机器学习时,需要用于深度学习的示教用数据。为了生成该示教用数据,进行了人以手动的方式指定位置的注解。
如上所述,提出了判定应该诊断的位置的技术方案,但是,没有记载任何关于通过进行注解来生成用于在深度学习等机器学习中使用的示教用数据的内容。此外,也未记载有任何如下内容:在进行注解时,操作者以手动的方式进行,使用推理模型,该推理模型是使用示教用数据而生成的,该示教用数据通过注解生成了剩余部分。此外,在使用推理模型来推理时,必须也验证推理模型的可靠性,但是,未记载任何关于生成学习用的示教数据和用于检测推理模型的可靠性的验证数据的内容。
发明内容
本发明正是鉴于这种情况而完成的,其目的在于,提供一种能够在不给操作者带来负担的情况下进行注解作业的注解装置和注解方法。
本发明的第1方式的注解装置具有:显示控制部,其将一系列的注解作业的作业时间或所述注解作业的图像数据量显示在显示器上,根据可能包含作为注解对象的对象物的多个图像数据,将多个图像依次再现显示在所述显示器上;以及控制部,其取得操作部的操作结果,该操作部指定所述显示器所显示的图像中的特定部分,在所述注解作业中,所述控制部根据所述操作结果,取得针对显示的所述图像的注解信息,在满足基于所设定的所述作业时间或数据量的时间或数据量的时刻,委托学习电路进行学习,该学习用于将已取得所述注解信息的图像数据作为示教数据,生成根据图像数据推理特定部分的推理模型。
本发明的第2方式的注解装置具有:再现部,其依次再现可能包含作为注解对象的对象物的多个图像;指定部,其指定由所述再现部再现的图像内的特定部分;注解信息取得部,其根据由所述指定部指定的特定部分,取得注解信息;设定部,其用于设定指定所述特定部分的作业时间或数据量;以及学习委托部,其委托学习部进行学习,该学习部在针对基于由所述设定部所设定的作业时间或数据量的时间或数据量,结束了由所述指定部对所述特定部分的指定时,使用直到该结束时为止所取得的注解信息,作为表示所述对象物与所述特定部分的关系的示教数据来学习,由此生成推理模型。
本发明的第3方式的注解方法具有以下的步骤:设定作业时间或数据量的步骤,在该作业时间或数据量的范围内,指定能够作为注解对象的对象物的特定部分;注解步骤,与设定的所述作业时间或数据量对应地逐个依次再现可能包含所述对象物的多个图像,指定所再现的图像中的所述对象物的特定部分;以及委托学习装置通过使用在所述注解步骤中所取得的所述对象物与所述特定部分的关系作为示教数据来进行学习,由此生成推理模型的步骤。
根据本发明,能够进行注解作业。
附图说明
图1是示出本发明的第1实施方式的摄像系统的主要电气结构的框图。
图2A和图2B是示出本发明的第1实施方式的摄像系统中的、示教用数据的生成和采用使用示教用数据而生成的推理模型进行的推理的框图。
图3A、图3B、图3C、图3D是示出本发明的第1实施方式的摄像系统中的、注解作业的一例的图。
图4A、图4B、图4C、图4D、图4E是示出本发明的第1实施方式的摄像系统中的、注解作业的其他例子的图。
图5是示出本发明的第1实施方式的摄像系统中的注解的动作的流程图。
图6A、图6B、图6C是示出本发明的第1实施方式的摄像系统中的注解的动作的作业状态的图。
图7是示出本发明的第1实施方式的摄像系统中的注解的动作的第1变形例的流程图。
图8A和图8B是示出本发明的第1实施方式的摄像系统中的注解的动作的第1变形例的作业状态的图。
图9是示出本发明的第1实施方式的摄像系统中的注解的动作的第2变形例的流程图。
图10A和图10B是示出本发明的第1实施方式的摄像系统中的注解的动作的第2变形例的作业状态的图。
图11是示出本发明的第2实施方式的摄像系统的主要电气结构的框图。
图12A和图12B是示出本发明的第2实施方式的摄像系统中的、示教用数据的生成和采用使用示教用数据而生成的推理模型进行的推理的框图。
图13A、图13B、图13C、13D是示出本发明的第2实施方式的摄像系统中的推理结果的显示的例子的图。
图14是示出本发明的第2实施方式的摄像系统中的注解的动作的流程图。
图15A、图15B、图15C、图15D是说明本发明的第2实施方式的摄像系统中的、针对对象物进行注解时的对象范围的确定的图。
图16是示出本发明的第2实施方式的摄像系统中的推理模型的生成的动作的流程图。
图17是示出本发明的第2实施方式的摄像系统中的图像取得装置的控制动作的流程图。
图18A和图18B是说明本发明的第2实施方式的摄像系统中的对象物的大小的测量方法的图。
图19A和图19B是示出本发明的第2实施方式的摄像系统中的注解的动作的变形例的流程图。
具体实施方式
以下,作为本发明的第1实施方式,说明将本发明应用于具有摄像装置(例如,数字照相机、内窥镜用照相机、显微镜用照相机等)和外部装置的摄像系统的例子。该摄像系统的概略如下所述。照相机能够通过网络与外部设备连接。该外部装置能够记录图像,针对该记录的图像,操作者目视并判定作为目标的部位,设该范围为注解(注释)信息。例如,医生进行目视患者的患部的内窥镜图像等并使用鼠标、光标等指定患部的注解作业,设该指定的范围的信息为注解信息。当然,注解作业也可以一并使用触摸面板来以触摸的方式进行,还可以应用笔输入。此外,注解作业也可以一并设置麦克风来使用语音输入或一并设置视线判定照相机来使用视线输入。注解作业结束时的结束操作也可以通过如上所述的操作输入进行,该情况下,还可以利用键盘、鼠标、脚踏开关等。此外,谁进行注解作业也成为重要的证据,所以,也可以通过上述的技术进行操作者的信息输入,也可以根据需要利用各种生物体认证用传感器、电路、算法等。
对于医生等专家来说,注解不一定是主要职责,使用其专业知识,选择业务有富余时来进行作业,因此,不过度花费时间。因此,在开始注解作业时,结合这时的富余时间来预先指定作业时间、图像张数等(例如,参照图5的S11)。当在开始基于手动的注解作业之后经过预先指定的作业时间时、或者针对图像张数进行注解作业时,使用之前已结束赋予的注解信息来进行深度学习(例如,参照图5的S19)。通过该深度学习,生成注解用的推理模型。此外,还与深度学习并行地进行基于手动的注解作业(例如,图5的S21)。
当深度学习结束时,使用通过深度学习而生成的推理模型,通过推理赋予注解信息(例如,参照图5的S25)。操作者目视注解信息的推理结果,判定是否准确地指示了患部等目标物。在该判定结果是准确地赋予了注解信息的情况下,作为示教用数据使用,另一方面,在未准确地赋予注解信息的情况下,操作者以手动的方式修正注解信息,并能够作为示教用数据使用。通过使用这些示教用数据进一步进行深度学习,能够生成可靠性更高的推理模型。
此外,当针对规定时间或规定张数的图像进行注解作业时,分离为示教用数据生成用的带注解信息图像和验证用的带注解信息图像(例如,参照图5的S17)。示教用数据用的带注解信息图像在用于生成推理模型的深度学习中使用。验证用的带注解信息图像在验证所生成的推理模型的可靠性时使用。
图1是示出本发明的第1实施方式的摄像系统的主要电气结构的框图。该摄像系统具有信息取得装置10和外部装置20。作为信息取得装置10,只要是照相机、具有摄像部的智能手机、具有摄像部的PC(个人计算机)、具有摄像部的平板、具有摄像部的内窥镜、安装有摄像部的显微镜装置等能够取得图像信息的设备即可。
信息取得装置10具有图像处理和控制部1、信息取得部2、姿势传感器3、记录部4、操作判定部5、通信部6、显示部8和触摸面板8a。
信息取得部2取得对象物的图像数据。该信息取得部2具有用于形成对象物的光学像的光学系统、用于将该光学像转换为图像信号的摄像元件和进行该摄像元件的控制和图像信号的读出等的摄像电路等。摄像电路还具有图像信号的放大处理和用于转换为图像数据的AD转换电路等。信息取得部2将所取得的图像数据输出到图像处理和控制部1。
姿势传感器3具有陀螺仪传感器、加速度传感器等。姿势传感器3检测信息取得装置10的姿势,并将检测结果输出到图像处理和控制部1。另外,作为姿势传感器3,也可以是倾斜传感器,该情况下,检测信息取得装置10的倾斜。此外,姿势传感器3也可以是电子罗盘,该情况下,例如,检测信息取得装置10的光学系统所朝的方向。在摄影环境、对象物的状态由于其他因素而发生变化的情况下,也可以设置能够检测该环境变化的其他传感器。此外,也可以设置检测对象物的状态、位置或者摄影器材与对象物的位置关系等、能够检测距离、颜色、大小的传感器。预先接收单独的传感器的信号或者进行关联即可。
记录部4具有可电改写的非易失性存储器,该存储器可以是能够安装在信息取得装置10上的记录介质,并且也可以是固定于信息取得装置10的半导体存储器、硬盘等。记录部4记录推理信息4a、图像数据4b和各种数据4c等。推理信息4a是由外部装置20内的学习部进行深度学习而生成的推理模型等的推理信息。图像数据4b是由信息取得部2取得并由图像处理和控制部1实施了图像处理的图像数据。各种数据4c是用于使信息取得装置10进行动作的各种调整数据等。
操作判定部5是供用户对信息取得装置10给出指示的接口,具有各种操作按钮、操作拨盘等操作部件。操作判定部5具有用于判定操作部材的操作状态的判定电路,判定结果输出到图像处理和控制部1。
通信部6具有用于进行无线通信和/或有线通信的通信电路。通信部6与外部装置20内的通信部30进行收发。信息取得装置10通过通信部6将图像数据发送到外部装置20,并从外部装置20接收推理模型。
显示部8具有液晶显示器(LCD)、有机EL等显示器。显示部8根据由信息取得部2取得的图像数据来显示实时取景图像,并且,再现显示基于记录部4所记录的图像数据4b的图像。此外,在显示部8的显示面上设置有触摸面板8b。触摸面板8b检测用户的触摸操作,将该检测结果输出到图像处理和控制部1。
图像处理和控制部1具有控制部1a、图像处理部1b、推理部1c、引导生成部1d、显示控制部1e和相关性判定部1f。图像处理和控制部1是处理器,并且,也可以由ASIC(Application Specific Integrated Circuit:特定用途集成电路)构成。控制部1a具有CPU(Central Processor Unit:中央处理单元),按照记录部4或图像处理和控制部1内的存储器所存储的程序对信息取得装置10内的各部进行控制,由此对整体进行控制。
图像处理部1b具有图像处理电路,对由信息取得部2取得的图像数据实施各种图像处理。作为各种图像处理,例如,存在噪声处理、WB增益校正、轮廓强调、伪色校正等各种图像处理。此外,图像处理部1b对由信息取得部2取得的图像数据实施适用于显示部8中的实时取景图像的图像处理,并实施在记录部4中进行记录时适用的图像处理。
推理部1c也可以具有由硬件构成的推理引擎,并且也可以由CPU等处理器实现基于软件的推理处理。推理部1c输入由外部装置20的学习部26生成的推理模型,设定神经网络的加权、耦合的强度。此外,推理部1c输入由信息取得部2取得的图像数据,使用推理模型来进行推理。
例如,在信息取得装置10是内窥镜的情况下,推理部1c推理患部的位置、患部的症状等。推理部1c将该推理结果输出到相关判定部1f,在判定出前后的图像的时序相关性之后,将推理结果输出到引导生成部1d。引导生成部1d在显示部8上,将患部的位置、症状等引导给操作者。在进行该引导时,相关判定部1d判定图像的时序变化,例如,在过度通过患部的位置的情况下,引导生成部1d输出使得返回观察位置的引导。另外,在生成引导而不判定图像的时序性的情况下,也可以省略相关性判定部1f。
显示控制部1e具有显示控制电路,进行显示部8中的显示控制。例如,对由信息取得部2取得的对象物进行实时取景显示,并且,对记录部4所记录的图像进行再现显示。在进行引导显示等的情况下,强调部1ea进行控制,以进行强调想让用户特别注意的位置的显示。
外部装置20具有控制部21、信息记录部22、再现部23、指定操作部24、通用分类部25、学习部26和通信部30。外部装置20可以是个人计算机(PC)等单机装置,并且也可以是在互联网上连接的服务器。在PC等单机装置的情况下,图像数据也可以不通过通信部而从USB存储器等输入。此外,在外部装置20是在互联网上连接的服务器的情况下,后述的再现部23、指定操作部24等设置在用户能够操作的个人计算机等信息处理装置上,使得能够通过互联网等将该信息处理装置与服务器连接即可。
控制部21是处理器,并且,也可以由ASIC(Application Specific IntegratedCircuit:特定用途集成电路)构成。此外,该控制部21具有CPU(Central Processing Unit:中央处理单元),按照控制部21内或外部装置20内的存储部所存储的程序来对外部装置20内的各部进行控制,由此对整体进行控制。
控制部21是具有CPU、存储器和周边电路等的处理器。该控制部21具有再现控制部21a、特定部分判定部21b、学习/验证分离部21c和暂时学习部21d。这些各部可以由硬件电路构成,并且也可以由CPU按照程序实现。控制部21作为具有以下电路的处理器发挥功能。该“电路”是如下的电路等:(a)取得操作部的操作结果的电路,该操作部指定显示器所显示的图像中的特定部分(例如,图3A~3D、图4A~4E、图5的S15、S21等);(b)在注解作业中,根据操作结果来取得针对所显示的图像的注解信息的电路(例如,图3A~3D、图4A~4E、图5的S15、S21等);以及(c)在满足基于所设定的作业时间或数据量的时间或数据量的时刻,委托学习电路进行学习的电路,该学习用于将已取得注解信息的图像数据作为示教数据,生成根据图像数据推理特定部分的推理模型(例如,参照图5的S17、S19)。
再现控制部21a具有显示控制电路等,将多个赋予注解的对象物(图像)逐个依次再现在再现部23上。即,依次读出对象物记录DB(数据库)22a所存储的图像,将该图像再现显示在再现部23的显示监视器上。另外,图像的再现显示除了依次读出而显示以外,当然也可以并列地显示多个图像。再现控制部21a也可以具有再现控制电路,由该再现控制电路进行图像的再现控制。再现控制部21a作为如下的显示控制电路(显示控制部)发挥功能(例如,参照图3A~3D、图4A~4E、图5的S15、S21等),该显示控制电路(1)将一系列的注解作业的作业时间或上述注解作业的图像数据量显示在显示器上,(2)根据可能包含作为注解对象的对象物的多个图像数据,将多个图像依次再现显示在上述显示器上。
特定部分判定部21b判定由外部装置20的操作者指定的特定部分。当由再现控制部21a在再现部23上再现显示了对象物图像时,操作者通过对指定操作部24进行操作,指定特定部分(例如,参照图3A~3D、图4A~4E和图5的S15等)。特定部分判定部21b识别该指定的特定部分,并与所再现显示的图像的图像数据相关联地记录。该特定部分成为注解信息。例如,在内窥镜图像的情况下,作为特定部分,存在患部的范围等。
学习/验证分离部21c将赋予了注解信息的图像分为在深度学习时使用的图像和在验证推理模型的可靠性时使用的图像。即,赋予了注解信息的图像能够作为示教用数据使用。该示教用数据能够用于生成推理模型时的深度学习,并且能够用于验证推理模型的可靠性。由于在推理模型生成时使用的示教用数据无法用于可靠性的验证,所以学习/验证分离部21c确定将赋予了注解信息的图像在深度学习时使用、还是在验证可靠性时使用(例如,参照图5的S17)。
当由外部装置20的操作者针对对象物记录DB(数据库)22a所记录的图像中的一部分图像指定特定部分的注解作业结束时,暂时学习部21d使用已完成的带注解图像(示教用数据)进行深度学习(例如,参照图5的S19)。该深度学习是用于提取(识别)特定部分的学习。通过该学习生成用于提取特定部分的推理模型。所生成的推理模型被作为暂时学习结果记录22b记录在信息记录部22中。
信息记录部22是可电改写的非易失性存储器,存储各种数据、图像等。信息记录部22中记录有对象物记录DB22a和暂时学习结果记录22b。对象物记录DB 22a是由信息取得部2取得并通过通信部6而发送到外部装置20的图像数据。另外,该对象物记录DB 22a也可以包含由来自多个信息取得装置10的图像数据构成并且记录在其他服务器等中的图像数据。如上所述,暂时学习结果记录22b是由暂时学习部21d生成的推理模型。
再现部23也可以具有液晶显示器(LCD)、有机EL等显示器,并外置于外部装置20。在该再现部23上依次显示基于信息记录部22所记录的对象物记录DB的图像。关于这里所显示的图像,如后所述,由操作者进行赋予注解信息的注解作业(参照图3A~3D、图4A~4E、图5的S15、S21等)。此外,显示由指定操作部24指定的区域。
再现部23作为逐个依次再现显示多个图像的显示器(再现部)发挥功能,该多个图像可能包含作为注解对象的对象物(例如,参照图3A~3D、图4A~E等)。此外,再现部23作为按照分类部的通用分类逐个依次再现多个图像的再现部发挥功能(例如,参照图9的S14)。
指定操作部24也可以是处理器,外置于外部装置20,该处理器包含进行基于鼠标、触摸面板等的操作的接口。指定操作部24供操作者针对再现部23所显示的图像指定特定部分。如上所述,作为特定部分,例如有患部的某个范围等。之后使用图3A~3D和图4A~4E来叙述该指定操作部24对特定部分的指定。此外,能够由指定操作部24设定用户(操作者)以手动的方式进行注解的作业时间或数据量(也可以用图像数量替代使用)等(例如,参照图5的S11)。关于该作业时间、数据量的设定,在作业开始时设定,但是,不限于作业开始时,也可以在作业中设定,并且,还可以在作业中修正所设定的作业时间、数据量等。
指定操作部24作为指定由再现部再现的图像内的对象物的特定部分的处理器(指定部)发挥功能(例如,参照图3A~3D、图4A~4E、图5的S15、S21、图9的S14、S22a等)。此外,指定操作部24作为用于对指定特定部分的作业时间或数据量进行设定的处理器(设定部)发挥功能(例如,参照图5的S11、图6A、图7的S12、图8A)。另外,在本实施方式中,特定部分的指定首先通过用户的手动操作进行,但是,也可以从最初起自动地指定注解。该情况下,自动地指定要处理的时间或作业量,用户验证该注解处理的结果即可。作为自动地指定注解的方法,利用后述的第2实施方式中的注解的赋予即可。此外,也可以在将一系列的注解作业的作业时间或注解作业的图像数据量显示在显示器上时,进行关于进行注解的作业的人是谁的输入(例如,参照图5的S11、图7的S12)。
此外,在由学习部进行推理模型生成时,处理器(指定部)以并行的方式针对多个图像中的、未指定特定部分的剩余图像,通过手动操作指定对象物的特定部分(例如,参照图5的S19、S21、图7的S20、S22、图9的S20a、S22a)。依照由设定部设定的作业时间或数据量,进行通过手动操作指定特定部分的时间和生成推理模型的时间的分配(例如,参照图5的S15、S21和S27的T0、图7的S16和S22的T0/2)。
通用分类部25根据图像的明亮度、色调/色彩、焦点状态等图像模式来对对象物记录DB 22a中的图像进行分类。外部装置20的操作者对对象物记录DB 22a的全部图像进行注解作业(进行特定部分的指定的作业)花费大量的时间。因此,如果利用由暂时学习部21d针对其一部生成的推理模型,则能够缩短时间。该情况下,如果选择不便于通过深度学习来生成推理模型的图像,作为操作者实施注解作业的图像,则能够提高推理模型的可靠性。此外,通过使进行注解作业的图像多样化,能够提高推理模型的可靠性。
另外,也可以使用被作为示教用数据而公开的数据。例如,存在处理特定图像的组织为了进行研究而发布的数据、由评估者销售的数据、能够通过图像检索简单地利用服务获得图像的数据等。这些数据也能够作为几张一组等的集合使用,因此,也可以使用这些数据进行注解。该情况下,由于已知如“几张一组”这样的规格,因此,也可以替代进行“几小时操作”的指定,在注解时将该规格作为规格信息输入。当然,即使手动输入该数据量并估计作业量,也起动同样的效果。也可以根据一张图像的注解花费的时间确定通过手动操作指定图像中的特定部分的时间和通过学习生成推理模型的时间的分配。
通用分类部25根据明亮度、色彩/色调、图像的对比度等,对图像进行模式分类。例如,也可以分类为明/暗、模糊/不模糊、偏红/偏蓝等。也可以由负责手动注解的人进行分类。并且,也可以在该分类时,利用图像的特征分类为级别,在各级别中,利用10个×级别数选择规定数量的图像。此外,进行注解作业的排序,从优先级较高的图像起进行注解作业即可(例如,参照图9的S3、S14)。
通用分类部25作为分类部发挥功能,该分类部依照通用图像级别分类对上述多个图像进行分类,并与分类对应地选择通过手动操作指定特定部分的图像(例如,参照图9的S3、S14等)。此外,在通过手动操作指定特定部分时,分类部指定图像的优先级(例如,参照图9的S3、S14等)。此外,通用分类部25作为遵循通用分类对多个图像进行分类的分类部发挥功能,该多个图像可能包含能够作为注解对象的对象物(例如,参照图9的S3、S14等)。
学习部26也可以具有由硬件构成的推理引擎,并且也可以是由CPU等处理器利用软件实现推理处理的推理引擎。学习部26使用由注解信息化部27生成的带注解的图像数据、即示教数据进行深度学习,生成推理模型。所生成的推理模型通过通信部30发送到信息取得装置10内的推理部1c。
学习部26使用所谓人工智能(AI)进行深度学习(机器学习)。具体而言,学习部26将由注解信息化部27生成的带注解图像(示教用数据)作为母集,使用该示教数据进行深度学习。即,向神经网络的输入层输入带注解图像的图像数据,以使输出结果成为示教用数据的注解信息的方式确定中间层的加权。该中间层的加权(耦合的强度)被作为推理模型输出。之后使用图2A和图2B叙述深度学习。
另外,在本实施方式中,学习部26与暂时学习部21d分离地配置。但是,由于两者均进行深度学习,所以学习部26也可以兼用作暂时学习部21d,相反,暂时学习部21d也可以兼用作学习部26。此外,在控制部21内配置有暂时学习部21d,但是,不限于此,也可以将暂时学习部21d配置于控制部21的外部。并且,也可以将学习部26配置在控制部21内。
学习部26(或暂时学习部21d)作为如下推理引擎(学习部)发挥功能(例如,参照图5的S19、图7的S19、图9的S20a),该推理引擎针对基于由设定部设定的作业时间或数据量(或者图像数量)的时间或数据量(或者图像数量),在由指定部对特定部分的指定结束而变更为另一图像以通过手动操作指定多个图像中的上述特定部分时,使用对象物与特定部分的关系作为示教数据来学习,由此,生成推理模型。此外,在由推理引擎(学习部)生成推理模型之后,针对在多个图像中剩余的图像,利用基于推理模型的推理来指定特定部分(例如,参照图5、图7和图9的S25)。
此外,学习部26作为如下推理引擎(学习部)发挥功能(例如,参照图5的S17、S19、S23),在变更为另一图像以通过手动操作指定多个图像中的特定部分时,分离为学习用的图像集和正解用的图像集,使用学习用图像集的对象物与特定部分的关系作为示教数据来学习而生成推理模型,利用正解用的图像集验证推理模型。
通信部30具有用于进行无线通信和/或有线通信的通信电路。该通信部30与信息取得装置10内的通信部6进行收发。通过通信部30从信息取得装置10接收图像数据,此外,外部装置20将推理模型发送到信息取得装置10。
接着,对深度学习进行说明。“深度学习(Deep learning)”是对使用神经网络的“机器学习”的过程进行了多层构造化而得的。从前向后发送信息并进行判定的“前向传播型神经网络”是代表性的。前向传播型神经网络是最单纯的,具有由N1个神经元构成的输入层、由通过参数给出的N2个神经元构成的中间层、由与要判別的级别的数量对应的N3个神经元构成的输出层这3层即可。如果输入层与中间层、中间层与输出层的各神经元分别耦合加重而连接,则中间层与输出层通过被施加偏置值,能够容易地形成逻辑门。
如果进行简单的判別,则神经网络也可以为3层,但是,通过使中间层为多个,还能够在机器学习的过程中学习多个特征量的组合方法。近年来,基于学习花费的时间、判定精度、消耗能量的观点,9层~152层的神经网络成为实用的。此外,也可以利用在图形识别方面较强的“卷积型神经网络”,该“卷积型神经网络”进行压缩图像的特征量的被称作“卷积”的处理,通过最小限度的处理进行动作。此外,也可以利用如下的“递归型神经网络”(全耦合递归神经网络):对更加复杂的信息进行处理,与意思根据顺位、顺序而发生变化的信息分析对应地使信息在双方向上流动。
为了实现这些技术,也可以使用CPU、FPGA(Field Programmable Gate Array:现场可编程门阵列)等以往具有的通用运算处理电路。但是,不限于此,神经网络的处理大多是矩阵的乘法,因此,也可以利用专用于矩阵计算的称作GPU(Graphic Processing Unit:中央处理单元)、张量处理单元(TPU:Tensor Processing Unit)的处理器。近年来,这样的人工智能(AI)专用硬件的“神经网络处理单元(NPU)”还有时被设置成能够与CPU等其他电路一起集成而组装,并成为处理电路的一部分。
此外,作为机器学习的方法,例如,还存在支持向量机、支持向量回归的方法。这里的学习有计算识别器的权重、滤波器系数、偏移量的方法,除此以外,还有利用逻辑回归处理的方法。在使机器判定某个内容的情况下,人需要教给机器判定的方法。在本实施方式中,采用了通过机器学习导出图像的判定的方法,但是,除此以外,也可以采用适应人通过启发式/探索法而获得的规则的规则库的方法。
接着,使用图2A和图2B来说明用于进行外部装置20内的学习部26中的深度学习的示教用数据和学习部26进行的深度学习。
图2A示出学习部26进行的深度学习。A图像41是由信息取得部2取得的图像。B回答42是由注解化部27生成的注解信息。学习用图像组43a是赋予了注解信息的图像组(示教用数据)。使用该图像组(示教用数据)来进行学习部26内的神经网络(网络的设计)44中的深度学习。验证用图像组43b是与学习用图像组43a同样赋予了注解信息的图像的组,但是,用于验证通过深度学习而生成的推理模型的可靠性,而不用于深度学习。
图2B是说明学习部26进行的深度学习和推理部1c进行的推理的图。将图像组43中的图像输入到神经网络44的输入层,将图像组43中的回答(注解信息)提供给输出层。而且,以使各输出与各输入一致的方式,确定中间层(神经网络44)的各层中的神经元的耦合的强度、加权。中间层的耦合的强度、加权成为推理模型。由学习部26生成的推理模型(中间层的耦合的强度、加权)存储在推理部1c中,并在推理时使用。
图2A和图2B所示的深度学习由外部装置20内的学习部26进行,但是,除此以外,也由控制部21内的暂时学习部21d进行深度学习。由暂时学习部21d进行的深度学习生成用于提取并指示对象物的特定部分的推理模型(例如,参照图5的S19)。
接着,使用图3A至图3D来说明外部装置20的操作者进行的注解作业的例子。图3A示出在再现部23的显示画面23a上显示从对象物记录DB 22a读出的图像的情形。操作者将显示画面23a所显示的对象物51的范围作为特定部分,进行用于由光标55指示的作业。首先,操作者从显示画面23a的右侧所显示的指示用形状53a~53c中选择适合对象物51的特定部分的形状。在图3A~3D所示的例子中,特定部分是四边形,因此,操作者选择四边形的指示用形状53b。由指定操作部24进行该选择。
在图3A中,当操作者选择指示用形状53b时,对指定操作部24进行操作,如图3B所示,使指示用形状54b移动至对象物51的位置。然后,如图3C所示,通过将指示用形状54b的角部分向下侧延伸,指示用形状54b扩展成覆盖对象物51的整体。在该状态下,操作者选择显示画面23a的右下所显示的“完成”图标57。如图3D所示,通过该选择,能够将对象物51的范围确定为特定范围。
接着,使用图4A至图4E来说明外部装置20的操作者进行的注解作业的其他例子。在图3A~3D所示的注解作业例子中,不改变指示用形状53a~53c的形状本身,仅变更指示用形状53a~53c的大小。在图4A~4E所示的注解作业例子中,能够对指示用形状53a~53c的形状本身进行变形。
在图4A中,在再现部23的显示画面23a上显示有从对象物记录DB 22a读出的图像。操作者为了将显示画面23a所显示的对象物52的范围指示为特定部分,首先,从显示画面23a的右侧所显示的指示用形状53a~53c中选择适合对象物52的特定部分的形状。在图4A所示的例子中,特定部分是豆状,因此,操作者利用指定操作部24选择圆形的指示用形状53a。
在图4A中,当操作者选择了指示用形状53a时,对指定操作部24进行操作,如图4B所示,使指示用形状54移动至对象物52的位置。由于在图4B所示的状态下,在指示用形状54a与对象物52之间存在间隙,所以,使指示用形状54a发生变形,以使指示用形状54a的形状接近对象物52的形状。
另外,在图4B中,指示用形状54a为圆形,但是,显然也可以与对象物的形状对应地变更。也可以在图1的信息记录部22等中设置将对象物与指示用形状(图标)的关系对应起来的数据库,使得能够进行这样的变更。此外,为了判定对象物,不仅参考图像数据,也可以参考附带信息、相关的传感器信息。作为单纯的例子,还存在如下方法:较容易研究上下左右一致的图像,并且,利用如使用重力的信息等来判定垂直和水平构图的数字照相机这样的技术。特别是,在指示用形状不是圆形的情况下,这样的信息起作用。
例如,在图3A至图3D所示的例子中,克服重力而沿纵向延伸的柱等的指示用形状54b为矩形。该情况下,当矩形倾斜时,进行校正该倾斜的手动作业,显然作业耗费功夫。相反,在肿瘤、病变中,在肿起部位(肿胀)、凹陷部位(溃疡)这样的分类上,难以成为矩形,圆形更优选。
此外,为了调整大小等,当存在对象物与摄像部的距离信息等时,较方便。由于当距离较近时,看起来较大,当距离较远时,看起来较小,所以在确定指示用形状的圆形图标的半径、直径时,如果存在距离信息、摄影器材的焦距信息、摄像元件的尺寸信息、其中的有效区域信息等,则成为参考,能够显示更高精度的指示用形状图标。如果半径符合该指示用形状图标,则无需调节大小的步骤,并且能够简化。
另外,这样的器材信息也可以利用图1所示的信息取得装置内的各种数据记录部4c中所记录的信息。此外,在摄影时进行变更的信息也可以使用操作判定部5或未图示的各种致动器控制用的编码器等的输出。并且,也可以利用综合这些信息而获得的数值。之后将该信息作为传感器信息进行叙述。
为了调整指示用形状,首先,利用光标55调整圆形的指示用形状54a的直径。接下来,选择凹陷型的修正用的图标53e,如图4C所示,进行操作,使得从圆形的指示用形状54a的外侧压入。此外,如图4D所示,进行操作,使得从圆形的指示用形状54a的内侧拉入。另外,图标53d是直线状的修正用图标。通过对修正用图标53d、53e进行操作,如图4E所示,能够将对象物52的范围决定为特定范围。在该状态下,操作者选择显示画面23a的右下所显示的“完成”图标57。通过该选择,如图4E所示,能够将对象物52的范围决定为特定范围。这里的注解作业是使用PC和鼠标的例子。但是,在最单纯地具有触摸面板的设备中,还能够进行如操作者利用手指、触摸笔等进行区域指定的应用。
这样,需要在注解时进行由各种步骤构成的操作,通过用AI(人工智能)替代其中若干步骤,能够提高作业性。例如,也可以利用AI使最初生成包围图形的对候选的选择、包围图形的大小的选择、将包围图形重叠等的步骤自动化。仅通过使这些步骤中的若干步骤自动化,即可增加作业性,并且能够缩短作业时间,进而减轻操作者的压力。图4C、图4D所示的图标53d、53e等图标也起到与从最初起自动选择包围图形相同的效果。
搭载于照相机、便携设备等信息终端的类型的推理引擎是神经网络的层的数量较少且电力消耗较少并要求高性能的紧凑型的,与搭载于PC等并搜索病变的通常类型的推理引擎不同。搭载于产品的紧凑型的推理引擎难以进行用于以较少的层进行高精度判断的学习,并且花费时间,因此,优选进行准确的注解。因此,进行紧凑型推理引擎用的准确作业,给操作者带来通常以上的压力。
接着,使用图5所示的流程图来说明注解的动作。在该注解中,首先,外部装置20的操作者从再现部23所显示的图像中选择对象物41、42的特定部分,将该特定部分作为注解信息与图像数据相关联。当在规定时间内进行手动注解时或通过手动注解对规定张数的图像进行处理时,进行用于生成注解用的推理模型的深度学习,并且并行地执行手动注解。当生成了推理模型时,之后,通过基于推理模型的推理,赋予注解。在图5所示的流程中,操作者进行一部分的步骤(S15、S21),但是,通过由外部装置20的控制部21内的CPU按照存储器所存储的程序对外部装置20内的各部进行控制,实现其他步骤。
当图5所示的注解的动作开始时,首先,设定作业时间T(S11)。在该步骤中,外部装置20的操作者对指定操作部24进行操作,由此,如图6A所示,输入作业时间。另外,也可以替代作业时间,输入作业张数。在操作者例如是医生等专家的情况下,他们很忙,用于生成示教用数据的注解作业可耗费的时间有限。因此,在步骤S11中,也能够预先设定作业时间(或作业张数)。此外,认为谁进行了注解作业在今后成为利用推理模型时的重要评价基准。因此,也可以在该步骤中进行注解操作者的信息输入,还可以根据需要,利用各种生物体认证用传感器、电路、算法等,以能够保证该准确度。此外,优选在已注解图像(特别是设为示教数据的图像)中将这里的结果例如以元数据等形式与图像相关联。即,这里,控制部21(处理器)控制输入进行注解作业的人是谁的步骤,并使得与时间设定的输入画面的显示一起显示操作者是谁,或者能够进行其修正。
当设定作业时间T时,接着,设定将作业时间T一分为三而得的时间T0(S13)。在注解动作中,如后所述,存在手动注解(参照S15)、手动注解和深度学习的并行实施(参照S19、S21)和基于推理的注解(参照S25)这3个阶段。在该步骤中,设定各自的时间。另外,在本实施方式中,T0设为对作业时间T进行3等分而得的时间,但是,各自的时间也可以不同,不进行3等分。此外,步骤S19和S21中的时间也可以不是相同的时间。
接着,以时间T0进行手动注解(S15)。这里,如使用图3A~3D和图4A~4E所说明的那样,外部装置20的操作者一边目视再现部23所显示的图像,一边对指定操作部24进行操作,从而指定对象物的特定部分。通过该处理,对图像赋予注解信息。
当在开始手动注解之后经过了时间T0时,分离为示教用图像组和验证用图像组(S17)。如使用图2A和图2B所说明的那样,将赋予了注解信息的图像中的一部分作为学习用图像组,将剩余的部分划分为验证用图像组。该分配可以随机进行,并且,也可以根据图像的特征来自动地分配。
当分离为示教用图像组和验证用图像组时,使用手动注解的结果来学习(S19)。这里,在步骤S15中通过手动注解赋予注解信息,使用在步骤S17中分离为示教用图像组(示教用数据)的图像组来进行深度学习。该深度学习生成推理模型,该推理模型用于进行从图像中指定(提取)对象物的特定部分的推理。在学习中,如图6B所示,显示学习执行中标志58。
与步骤S19中的学习并行地以时间T0进行手动注解(S22)。这里,与步骤S15同样,如使用图3A~3D和图4A~4E所说明的那样,外部装置20的操作者一边目视再现部23所显示的图像,一边对指定操作部24进行操作,从而指定对象物的特定部分。另外,在作业中,如图6B所示,在作业经过时间显示部59上显示经过时间。操作者能够根据作业经过时间显示部59的条线图的长度来知道经过时间。当该作业经过时间显示部59的条线图的长度设为以最长对应于作业时间T0时,容易知道作业时间T0与经过时间的关系。
当步骤S19中的学习结束并且时间T0的手动注解结束时,对验证结果进行分数显示(S23)。在步骤S19中,使用示教用图像组生成了推理模型。在该步骤中,将在步骤S17中分离出的验证用图像组作为示教用数据输入到所生成的推理模型,并计算其可靠性。也可以将计算出的可靠性、例如,80%(80分)等显示于图6C的显示画面23a的左下等。
当显示验证结果时,接着,对未实施手动注解的图像进行学习式注解(S25)。在步骤S15和S21中,通过手动注解对图像赋予了注解信息。在该步骤中,针对在S15和S21中未赋予注解信息的剩余图像,使用在步骤S19中所生成的推理模型,通过学习部26或暂时学习部21d中的推理来赋予注解信息。学习式注解使用推理模型来进行,因此,处理时间是极其短的时间(瞬间)。
当在步骤S25中进行学习式注解时,进行注解修改输入(S27)。这里,如图6C所示,显示基于在步骤S25中进行的推理的结果的注解信息(即,对象物的特定部分)。操作者观察该显示来判断是否适当地赋予了注解信息。在未适当地赋予注解信息的情况下,对指定操作部24进行操作,利用指示用形状53a~53c、光标55等进行注解信息的修正。修正的方法与图3A~3D和图4A~4E相同。该注解修改的时间是T0,当对步骤S15、S21和步骤S27中的作业时间进行合计时,该注解修改的时间为在步骤S11中所设定的作业时间T。
当在步骤S27中进行注解修改输入时,接着,对已注解图像进行示教数据化(S29)。这里,将在步骤S15、S21中通过手动注解赋予了注解并且在步骤S25、S27中通过学习式注解赋予了注解的图像组,作为示教数据。学习部26能够使用该示教数据来进行深度学习,生成推理模型。这里,关于手动注解,还包含即使在能够进行手动作业的情况下操作者也不进行手动作业而确认自动地显示的候选而“仅输入OK”的情况,这也称作手动。
这样,在注解的流程中,当操作者预先设定作业时间T时(参照S11),根据该时间来确定针对多个对象图像组的手动注解的时间T0(参照步骤S15、S21)和修正学习式注解的结果的时间T0,遵循该时间进行注解的时间分配。因此,能够在不给医生等专家带来负担的情况下进行注解作业。
此外,使用通过各个手动注解对多个图像赋予了注解信息的图像组,来进行用于赋予注解信息的深度学习,生成了推理模型(参照S19)。使用该生成的推理模型来实施对未进行手动注解的图像组赋予注解的推理(参照S25)。通过进行推理,能够在短时间内大量地赋予注解信息。此外,在进行用于生成推理模型的学习的期间内,也通过手动操作赋予注解(参照S21)。这样,由于能够并行地进行2个处理,所以高效地实施注解。
此外,从通过手动注解而生成的图像组分离示教用图像组和验证用图像组(参照S17),使用示教用图像组来生成注解用的推理模型(参照S19),并使用验证用图像验证了所生成的推理模型的可靠性。因此,能够有效地利用以手动的方式赋予了注解信息的图像组。
接着,使用图7所示的流程图来说明图5所示的注解动作的第1变形例。在图5所示的例子中,预先设定了对在步骤S15和S21中进行的手动注解的作业时间与注解的修改的时间进行合计所得的作业时间T。在本变形例中,考虑手动注解花费的作业时间,预先设定基于学习式注解的注解的辅助开始的时间T0。
图7所示的流程图与图5的流程图相比,除了将步骤S11~S15置换为步骤S12、S16并将步骤S19、S21、S25、S27置换为步骤S20、S22、S28以外都相同。因此,以不同点为中心进行说明。
当图7所示的注解的流程开始时。首先,设定辅助希望开始时间T0(S12)。这里的“辅助希望开始时间”是开始步骤S25中的学习式注解的时间。直到辅助希望开始时间T0为止进行手动注解(S16、S22),当达到辅助希望开始时间T0时,进行基于学习式注解的注解(S25)。这里,外部装置20的操作者对指定操作部24进行操作,由此,如图8A所示,输入辅助希望开始时间。另外,也可以替代输入时间,而输入作业张数。
当设定辅助希望开始时间T0时,接着,进行手动注解(S16)。这里,如使用图3A~3D和图4A~4E所说明的那样,外部装置20的操作者一边目视再现部23所显示的图像,一边对指定操作部24进行操作,从而指定对象物的特定部分。通过该处理,对图像赋予注解信息。在时间T0/2的期间内进行该手动注解。
当在步骤S16中开始手动注解并经过时间T0/2时,分离为示教用图像组和验证用图像组(S17)。当分离为示教用图像组和验证用图像组时,使用手动注解的结果来进行学习(S19)。这里,使用在步骤S17中作为示教用图像组(示教用数据)而分离的图像组来进行深度学习。在学习中,如图8B所示,显示学习执行中标志58。另外,在图7的流程中,也可以以T0/2进行手动注解学习的时间。
与步骤S19中的学习并行地在时间T0/2进行手动注解(S22)。这里,与步骤S16同样,如使用图3A~3D和图4A~4E所说明的那样,外部装置20的操作者一边目视再现部23所显示的图像,一边对指定操作部24进行操作,从而指定对象物的特定部分。另外,在作业中,如图8B所示,在作业经过时间显示部59上显示经过时间。操作者能够根据作业经过时间显示部59的条线图的长度来知道经过时间。当该作业经过时间显示部59的条线图的长度设为以最长对应于作业时间T0时,容易知道作业时间T0与经过时间的关系。此外,当条线图到达右端时,成为步骤S25中的学习式注解、即、带辅助的注解。
当在步骤S19中的学习结束时,生成注解信息赋予用的推理模型。也可以在该推理模型中使用在步骤S17中所分离的验证用图像组来验证所生成的推理模型的可靠性。在步骤S22中进行手动注解时,进行可靠性的验证,如果该可靠性为规定值以上,则也可以结束手动注解。
当在步骤S20中的学习结束时或者在步骤S22中的时间T0/2的手动注解结束时,对未实施手动注解的图像进行学习式注解(S25)。
当进行学习式注解时,接着,进行注解修改输入(S28)。这里,如图8B所示,显示在步骤S25中进行的、基于推理结果的注解信息(即,对象物的特定部分)。操作者观察该显示来判断是否适当地赋予了注解信息。与图5的步骤S27同样,在未适当地赋予注解信息的情况下,对指定操作部24进行操作,利用指示用形状53a~53c、光标55等进行注解信息的修正。修正的方法与图3A~3D和图4A~4E相同。
当在步骤S28中进行注解修改输入时,接着,对已注解图像进行示教数据化(S29)。这里,将在步骤S16、S22中通过手动注解赋予了注解并且在步骤S19、S25、S28中通过学习式注解赋予了注解的图像组作为示教数据。学习部26能够使用该示教数据来进行深度学习,生成推理模型。
这样,在图7所示的注解的流程中,当操作者预先设定辅助希望开始时间T0时(参照S12),在开始注解作业之后经过了辅助希望开始时间T0时,通过学习式注解进行注解(参照S25)。外部装置20的操作者在该期间内进行手动注解即可。通过学习式注解赋予了注解信息的图像根据需要进行注解的修改即可。因此,能够在不给医生等专家带来负担的情况下进行注解作业。
另外,在本变形例中,在步骤S16和S22中的手动注解中,分别在T0/2的时间内进行处理,但是,各时间也可以不是对T0进行2等分而得的时间。也可以适当地不均等地分割。
接着,使用图9所示的流程图来说明图5所示的注解动作的第2变形例。在本变形例中,在进行手动注解之前,对图像进行分类,进行注解时的排序。依照该分类进行手动注解时的排序。能够通过图像分类和排序来提高注解用的推理模型的可靠性。
图9所示的流程图与图5的流程图相比,除了追加步骤S1~S3并将步骤S11~S23置换为步骤S14~S24以外都相同。因此,以不同点为中心进行说明。
当图9所示的注解的流程开始时。首先,判定是否存在类似的学习(S1)。在赋予注解时,判定是否已经赋予了类似的注解。如果存在由其他医生等专家对类似的图像组赋予了注解的情况,则即使是另一个部位,也能够利用此时进行的学习式注解。在该步骤中,判定是否存在可利用的学习。
在步骤S1中的判定结果是不存在类似的学习的情况下,接着,对图像进行分类,进行注解的排序(S3)。对图像进行分类,针对各个分类,以能够以规定数量显示的方式进行分类。即,如果在进行手动注解时,图像的特征存在偏差,则仅特定的部分的推理模型的可靠性较高,其他部分的推理模型的可靠性较低。因此,通过对图像进行分类并按照各分类选择图像,能够无遗漏地对富有多样性的图像进行手动注解。根据图像的明亮度、色调/色彩、焦点状态等图像模式,进行图像分类。此外,进行注解的排序。关于排序,也可以使得各分类中的代表性模式、不便于学习式注解的图像的优先级升高。
当在步骤S3中对图像进行分类并进行注解的排序时,接着,对高优先级图像进行手动注解(S14)。由于在步骤S3中进行了进行注解时的排序,所以,如图10B所示,从优先级较高的图像起依次显示在再现部23上。如使用图3A~3D和图4A~4E所说明的那样,外部装置20的操作者一边观察再现部23所显示的图像,一边对指定操作部24进行操作,指定对象物的特定部分。通过该处理,对图像赋予注解信息。在时间Ts的期间内,进行该手动注解。
当在步骤S16中开始手动注解并经过时间Ts时,分离为示教用图像组和验证用图像组(S17)。在步骤S14中针对优先级较高的图像进行手动注解,将所取得的带注解信息的图像分离为示教用图像组和验证用图像组。
当分离为示教用图像组和验证用图像组时,使用手动注解的结果来进行学习(S20a)。这里,使用在步骤S14中针对优先级高的图像赋予了注解信息的示教用图像组(示教用数据)来进行深度学习。另外,在图9的流程中,关于手动注解学习的时间,也可以以Ts进行。
与步骤S20a中的学习并行地以时间Ts进行手动注解(S22a)。这里,作为优先级较高的图像,针对除了在步骤S14中进行了手动注解的图像以外的图像,如使用图3A~3D和图4A~4E所说明的那样,外部装置20的操作者一边目视再现部23所显示的图像,一边对指定操作部24进行操作,从而指定对象物的特定部分。
当在步骤S20a中进行学习、或者在步骤S22a中进行手动注解后,接着,判定是否完成暂时学习(S24)。在该步骤中,判定步骤S20a中的学习是否已结束。关于该判定,判定针对在步骤S17中所分离的全部示教用图像组的学习是否已结束。但是,也可以是,即使针对全部示教用图像组的学习不结束,也在针对一定数量的图像组的学习已结束的情况下,判定为学习已结束,并且,也可以是,如果使用验证用图像组即可验证具有规定的水平以上的可靠性,则结束学习。在该判定结果是未结束暂时学习的情况下,返回步骤S20a、S22a。
另一方面,在步骤S24中的判定结果是暂时学习已结束的情况或者步骤S1中的判定结果是存在类似学习的情况下,对未实施手动注解的图像进行学习式注解(S25)。这里,在步骤S20a中所生成的注解用的推理模型或者步骤S1中的检索结果是存在类似学习的情况下,使用通过该类似学习而生成的注解用的推理模型来进行学习式注解。接下来,进行注解的修改输入(S28),对已注解图像进行示教数据化(S29)。当生成示教数据时,结束该注解的流程。
这样,在图9所示的注解的流程中,在进行手动注解之前,对图像进行了分类(参照S3)。通过根据该分类,按照各分类选择图像,无遗漏地对富有多样性的图像进行手动注解。因此,能够提高注解用的推理模型的可靠性。此外,对进行手动注解的图像标注优先级(参照S3)。依照该优先级进行手动注解(参照S14)。因此,即使用于手动注解的时间较少,也能够进行有效且可靠性较高的手动注解。
如以上所说明的那样,在本发明的第1实施方式、变形例中,设定对能够作为注解对象的对象物的特定部分进行指定的作业时间或数据量(例如,参照图5的S11),与所设定的作业时间或数据量对应地依次再现可能包含对象物的多个图像,进行指定所再现的图像中的上述对象物的特定部分的注解(例如,参照图5的S15、S21),委托学习装置通过使用在注解中所取得的对象物与特定部分的关系作为示教数据来学习,生成推理模型(S19)。因此,能够在不给操作者带来负担的情况下进行注解作业。即,操作者对预先确定的作业时间或数据量进行作业即可,根据通过该作业而取得的注解信息来生成注解用的推理模型。
此外,在本发明的第1实施方式、变形例中,通过手动操作设定对能够作为注解对象的对象物的特定部分进行指定的作业时间或数据量(或用图像数量替代)(例如,参照图5的S11),进行与所设定的作业时间或数据量(或用图像数量替代)对应地逐个依次再现可能包含对象物的多个图像并通过手动操作指定所再现的图像内的上述对象物的特定部分的第1手动注解(例如,参照图5的S15),在第1手动注解结束之后,进行与所设定的作业时间或数据量(或用图像数量替代)对应地通过手动操作指定多个图像中的特定部分的第2注解(例如,参照图5的S21),通过与第2注解并行地使用在第1注解中所取得的对象物与特定部分的关系作为示教数据来学习,生成推理模型(例如,参照图5的S25)。因此,能够在不给医生等专家带来负担的情况下进行注解作业。
此外,在本发明的第1实施方式、变形例中,逐个依次再现可能包含作为注解对象的对象物的多个图像,通过手动操作指定所再现的图像内的对象物的特定部分(例如,参照图5的S15、S21等),在变更为另一图像以通过手动操作指定多个图像中的特定部分时,分离为学习用的图像集和正解用的图像集(例如,参照图5的S17),使用学习用图像集的对象物与特定部分的关系作为示教数据来学习并生成推理模型(例如,参照图5的S19),使用正解用的图像集验证推理模型(例如,参照图5的S23)。由于将通过手动注解赋予了注解信息的图像分为推理模型生成用的图像组和推理模型验证用的图像组,所以能够有效地用于生成推理模型和验证该推理模型。
此外,在本发明的第1实施方式、变形例中,遵循通用分类,对可能包含作为注解对象的对象物的多个图像进行分类(例如,参照图9的S3),逐个依次再现依照通用分类而分类出的多个图像,通过手动操作指定所再现的图像内的对象物的特定部分(例如,参照图9的S14)。由于能够不存在特定的偏差地选择作为注解对象的图像,所以能够提高所生成的推理模型的可靠性。
另外,在本发明的第1实施方式、变形例中,作为对象物的特定部分,以患者的内窥镜图像中拍摄出的患部为例进行了说明。但是,对象物及其特定部分不限于该例子。
此外,在本发明的第1实施方式、变形例中,使用手动注解的结果来进行学习,并且并行地进行了手动注解(例如,参照图5的S19、S21、图7的S20、S22、图9的S20a、22a)。该2个处理的设定时间设为了相同,但是,也可以不相同。此外,仅在图5所示的例子中,显示了验证结果(图5的S23),但是,在图7和图9所示的例子中,也可以在结束学习之后,使用验证用图像组来验证,并显示该验证结果。
搭载于照相机、便携设备等信息终端产品的紧凑型推理引擎难以进行用于以较少的层进行高精度判断的学习,并且花费时间,因此,期望钻研于准确的注解、学习方法。在生成推理模型时,推理模型的规格根据用于学习的图像而改变,因此,也可以与学习时的信息协作地进行高效的学习。因此,也可以在注解作业时设定表示进行了何种学习的信息,将该信息作为推理信息4a的一部分记录在信息取得装置10的记录部4中。
例如,在利用如下推理模型进行推理的情况下,有可能无法针对存在上下左右的差异的图像进行准确的推理,该推理模型是仅使用根据一般的摄影图像而取得的水平/垂直一致的图像来学习而生成的。因此,通过从推理信息4a读出上述的信息,并在拍摄时,考虑来自姿势传感器3的水平或垂直的信息来对取得图像进行推理,能够进行准确的测量部位判定。使得在使用推理模型进行推理之前加入水平垂直的信息来判定图像的钻研是有效的,优选具有该条件的信息或用于校正图像的传感器。由于推理引擎的规格、性能根据是否在学习时加入这样的限制而发生改变,所以可以一边推进注解作业一边进行这样的试错,也可以显示该试错。
此外,在本实施方式中,可以应用具有姿势传感器、以建筑物所代表的构造物这样的考虑重力而设计的人造物为对象物的例子。这样的受到重力的影响而确定了形状的对象物在自然界中也存在很多。例如,树、草等植物克服重力而成长的对象物较多,动物的脚等也在支撑重力的方向上延伸,脸等的上下左右的方向也根据重力而确定。这是因为,即使不直接受到重力的作用,也在克服重力的方向上存在太阳,或者在相反方向上存在影子,或者水等积存的部分在重力方向上具有与空气的界面等。这样,不仅已知有日常能够观察到的对象物,还已知有微生物、晶体等物质的构造或者脏器的构造、配置、存在于体内外的肿瘤、病变、体液的积存程度等也受到重力的影响,考虑了重力的判定、注解时的辅助能够应用于各种对象物。
此外,也无需拘泥于重力,可用于注解的信息也可以是时刻、位置的信息。该辅助信息通过除了姿势传感器以外的传感器获得即可,使用能够取得信息的传感器即可,该信息成为针对该对象物的注解的辅助。即,在本实施方式的注解装置中,使用来自与图像数据的摄影时状态相关联的传感器数据的信息来检测对象物的特定部分,根据该检测结果辅助注解作业。即,使用来自与图像数据的摄影时相关联的传感器数据的信息,来自动地检测图像数据中的特定部分,根据该检测结果指定对象物的特定部分。
这里,记载为从传感器取得辅助信息,但是,该传感器也可以是多个传感器协作从而输出摄影环境、摄影条件等特定的信息的传感器组(例如,存在根据摄影时的对焦时的控制信息对距离进行换算所得的信息等),辅助信息也可以是用麦克风、照相机捕捉在摄影时参加的人物、动物的反应而得的信息。利用这些传感器,能够在注解时反映来自人的声音的口述结果,并且在注解时反映狗叫时是存在可疑人员这样的辅助信息。
此外,当不存在摄影部位的信息时,有时特定的脏器中的病变的确定等会产生错误。因此,努力将检查时的环境、检查对象的位置、部位的信息关联起来即可。例如,能够通过图像分析等将内窥镜检查时的检查部位判定到该脏器的程度,但是,不限于该方法,还存在根据医用图像等进行类推的方法,该医用图像是基于磁信息或预先获得的放射线的图像。在图4B中所说明的图标54a的大小、形状也可以由处理器不仅利用所显示的图像数据,还根据需要利用辅助信息来确定。例如,在图5的步骤S15、图7的步骤S16中,设为由外部装置20的控制部21(处理器)确定并显示图标即可。
另外,“注解”这个词表示“注释”,因此,狭义而言,表示对图像数据进行某些注释的作业。实际上,由于在进行该注释作业时,选择图像数据或者较好地观察图像数据的时间也变长,所以无法忽略这些作业。即,在本说明书中,注解作业不仅表示进行注释的瞬间,还表示包含图像候选的选择、检索、提取、确认、“OK输入”等在内的作业。在本实施方式中,目标在于总体简化这些作业,专注于使用专业见解标注注释的作业,能够获得高质量的带注解信息数据。能够获得高精度的推理引擎,能够实现可从图像获得的信息的高精度化。因此,将这样的传感器数据、辅助信息用于选择并检索图像以简化注解作业的情况包含在本发明中。
同样,当仅使用针对对象物从特定的距离获得的图像来进行学习时,针对在特定的距离以外拍摄出的图像,无法进行准确的推理。在使用通过这样的图像而生成的推理模型来推理的情况下,能够通过以抵消距离差异的方式对远处的图像进行放大从而虚拟地形成为近处的图像并使用推理模型来推理等的钻研提高精度。该情况下,在一并使用距离传感器等来推理图像时,进行补偿图像的放大缩小的实际与学习数据的差异的校正。可进行如下钻研:预先具备用于存储信息的存储器,该信息表示是使用何种学习数据而生成的模型,在使用推理模型来推理时,利用上述信息来校正图像,使得推理模型能够进行准确的推理。有时在注解作业时注意是否需要进行这样的校正,使得在本实施方式这样的注解作业时能够验证暂时的学习的钻研是有意义的。
当然,也可以通过强化学习的方法进行学习,在该强化学习中,与在摄影现场产生的各种摄影条件的差异对应地,预先以考虑摄影现场的状况或者能够应对未知的状况的方式准备学习数据,使学习数据也包含各种状况,并给与特定的报酬来使之学习。强化学习是通过试错来学习“使价值、效果最大化这样的行动”,是使之进行学习以能够获得更好的回答,而不是直接学习所给出的正解的输出。关于是否应该进行这样的强化学习等无示教学习的判断,也能够通过注解中途的暂时学习反映显示来尽早进行判断,能够减少开发时的精力和时间。
如以上所说明的那样,本发明的第1实施方式具有如下效果:通过反映注解作业中途的暂时学习(基于预先确定的暂时规则的学习),来提高生成推理引擎时的效率。特别是,在如在本实施方式中所示的现场的终端设备中,在生成面向如被使用的便携终端的紧凑型推理引擎时,需要考虑层的数量、消耗电流等消耗能量来进行非常花费精力和时间的学习,以进行应对,因此,能够在注解作业时也考察该学习时的报酬给与方法等,能够尽早进行判断、对应。能够实现一边确认暂时学习的结果一边提前进行规格的修改等的反馈,能够包含缩短时间在内全面地做出贡献以获得优异性能的推理引擎。
此外,在图5等所示的流程图中,使用作业时间对作业量进行了分割,但是,除了通过作业时间进行分割以外,还可以使用数据量对作业量进行分割。也可以用图像数量替代数据量。通过设定是否在最初生成规定数量的示教数据后进行学习,能够与作业时间同样地分割作业量。例如,在以手动的方式对1/3的数据进行注解之后,使用基于该注解的示教数据来学习。然后,通过使用该学习结果(推理模型)的推理,对剩余的2/3的数据进行机器化的注解,由人检查该注解。看起来较好的数据或虽然未进行充分的注解但是人能够以手动的方式简单地修正的数据也可以追加进行注解并在重新学习中使用。进行反复,直到以该作业为目标的全部数据的注解完成为止。
即,关于在对图像数据进行注解以生成该推理模型并将已注解图像作为示教数据来生成推理模型的技术中使用的注解装置的改良,该注解装置具有显示器控制部,该显示器控制部针对用于显示上述图像数据的显示器进行以下的显示控制。即,能够显示注解作业的作业时间或在此时进行的注解作业的图像数据量的信息,并通过该显示实现预定的作业时间中的业务的高效化。此外,根据可能包含作为注解对象的对象物的多个图像数据,来依次再现显示该图像,用户能够在再现显示中随时进行注解作业。此外,能够与该作业的进展对应地取得操作部的操作结果,该操作部指定上述显示器所显示的图像数据中的特定部分。
此外,能够取得针对在上述注解作业中所显示的图像数据的注解信息,并能够在满足基于上述设定的作业时间或数据量的时间或数据量的时刻,委托学习电路将上述已注解的图像数据作为示教数据来进行学习,以生成根据图像数据推理特定部分的推理模型。因此,能够将在特定的作业时间的期间内获得的学习结果反映到接下来的注解作业中。
此外,能够进行作业的时间根据状况而不同,特别是专家存在只能在有限的时间内进行作业的趋势。因此,也可以在注解时进行变更作业时间的操作。例如,也可以在图5的步骤S15、S21和图7的步骤S16、S22中,通过在用户进行手动注解时或者在手动注解之前对指定操作部24进行操作,变更作业时间。显示器控制部(再现控制部21a)也可以显示作业时间的变更结果。通过显示作业时间的变更,能够消除忙碌的专家的不安。如果是谁都能进行的作业,时间的限制也不是那么重要,但是,除非少数的专家否则无法进行注解的情况也较多。这样,期望进行易于着手作业且易于结束作业而不需要打扰专家的钻研。在作业已结束的情况下,需要进行数据保存等,但是,也可以使得即使不以手动的方式进行操作,也能够自动保存。也可以在作业结束时等时刻进行自动保存。这时,有可能还存在作业未结束的图像或作业失败的图像,也可以以在下一次作业时知道这些图像是哪个图像的方式进行记录。例如,也可以检测作业花费过多时间的图像、不确认而结束作业的图像、超时的图像等,对检测出的图像标注元数据。
在以上的说明中,与时间或数据量对应地确定了学习时刻,但是,也可以是如“到几点几分为止能够进行作业”的显示,并且,还可以是时刻设定。如果存在特定的钟表信息,则能够对应该显示。此外,也可以通过所注解的数据量和时间双方将是否能够获得特定的可靠性都包含在内进行判定,决定学习时刻。
这样,在本发明的第1实施方式中,通过将使用少量的已注解数据进行学习而得到的结果应用于未开始的数据,能够自动地进行注解,存在减轻操作者的负荷、压力、作业时间的效果。即,根据本实施方式,能够使注解作业较容易。此外,也可以在作业时间中包含休息时间,例如,也可以在作业花费三天的情况下,也包含操作者的回家时间在内地设为作业时间、作业期间,使用休息时间、回家时间来进行学习。在使用数据量进行管理的情况下,也能够获得相同的效果,还可存在如下应用:在特定的时刻开始学习,或者在停止了作业时开始学习,或者在由于作业或作业中断而经过规定时间之后进行学习。也可以在直到从休息返回时为止或接下来开始作业为止的期间内,进行自动注解用的学习,在再次开始作业时,显现最近的学习效果。但是,也无需限于此。此外,也可以设为注解作业用的应用在特定的时刻启动,并且,也可以设为通过在该时刻估计操作者的行动并判定行动等来确定启动时刻。
此外,在本发明的第1实施方式、变形例中,将再现部23、指定操作部24、通用分类部25、学习部26等形成为与控制部21分体的结构,但是,当然也可以由软件构成各部的全部或者一部分,由控制部21内的CPU来执行。此外,也可以利用硬件电路将控制部21内的各部设置于控制部21的外部。此外,上述的各部可以是根据由Verilog记述的程序语言而生成的门电路等硬件结构,也可以利用DSP(Digital Signal Processor:数字信号处理器)等利用了软件的硬件结构。当然这些还可以组合使用。
接着,对本发明的第2实施方式进行说明。在上述的专利文献1中提出了判定应该诊断的位置的技术方案,但是,没有记载任何关于生成用于在深度学习等机器学习中使用的示教用数据的内容。本实施方式能够简单地生成用于在深度学习等机器学习中使用的示教用数据。
第2实施方式的摄像系统的概略如下所述。照相机能够通过网络与外部设备连接。该外部装置能够记录图像,针对该记录的图像,判定具有宽度的直线构造物的范围,将至该构造物的轮廓部的范围作为注解(注释)信息。即,从图像中自动地检测作为对象的构造物,能够生成对该图像标注了注解信息的示教用数据(详细而言,参照图14、图15)。此外,作为设为对象的构造物,存在桥墩、隧道/建筑物等中的柱、配管等柱状的构造物,但是,除此以外,也可以是储物柜、家具等,不限于柱状。此外,作为构造物,即使不固定,也能够应用本实施方式。
当生成标注了注解信息的示教用数据时,外部装置内的学习部(推理引擎)进行深度学习,能够生成用于测量对象物的推理模型(详细而言,参照图16)。通过利用该生成的推理模型来推理图像,检测构造物,自动地测量构造物的宽度等大小(详细而言,参照图17)。
此外,在本实施方式的变形例中,当生成对外部装置所记录的图像中的规定张数(N张)的图像赋予了注解信息的示教用数据时,使用该示教用数据来进行用于注解信息赋予的深度学习,生成推理模型。然后,针对剩余图像,使用推理模型来进行注解信息的赋予(详细而言,参照图19)。
图11是示出本发明的第2实施方式的摄像系统的主要电气结构的框图。该摄像系统具有信息取得装置10和外部装置200。作为信息取得装置10,只要是照相机、具有摄像部的智能手机、具有摄像部的PC(个人计算机)、具有摄像部的平板等能够取得图像等的信息的设备即可。
信息取得装置10具有图像处理和控制部1、信息取得部2、姿势传感器3、记录部4、操作判定部5、通信部6、显示部8和触摸面板8a。这些各部具有与图1所示的信息取得装置10内的各部相同的功能,因此,省略详细的说明。
图像处理和控制部1具有控制部1a、图像处理部1b、推理部1c、引导部1d和显示控制部1e。图像处理和控制部1是处理器,并且,也可以由ASIC(Application SpecificIntegrated Circuit:特定用途集成电路)构成。控制部1a具有CPU(Central ProcessorUnit:中央处理单元),按照记录部4所存储的程序对信息取得装置10的各部进行控制,由此对整体进行控制。这些各部具有与图1所示的图像处理和控制部1内的各部相同的功能,因此,省略详细的说明。
另外,与图1的情况同样,推理部1c也可以具有由硬件构成的推理引擎,并且也可以由CPU等处理器实现基于软件的推理处理。推理部1c输入由外部装置200的学习部223生成的推理模型,设定神经网络的加权、耦合的强度。此外,推理部1c输入由信息取得部2取得的图像数据,进行推理。
例如,如使用图13所后述的那样,甚至可以根据由信息取得装置10取得的图像来推理储物柜或书桌等器具/装置、建筑物等中的配管/柱等对象物,计算该推理出的对象物的长度(参照图17的S47、S59)。另外,在计算对象物的长度时,也可以不必仅使用推理部1c中的推理结果。例如,在推理结果的可靠性较低的情况下,也可以通过由信息取得装置10的控制部1a等执行如在图14中进行的图像判定来进行判定,由此辅助、代行对对象物的长度的计算。
此外,引导生成部1d在用户使用信息取得装置10来测量各种器具/装置/建筑物时,为了能够适当地测量而生成各种引导显示。例如,当推理部1c根据由信息取得装置10取得的图像来推理储物柜或书桌等器具/装置、建筑物等的配管/柱等对象物时,计算该推理的对象物的长度并显示引导信息。另外,引导生成部1d与推理部1c的协作方法能够根据设计、学习(根据示教数据)而变更。即,也可以直接显示推理部1c中的推理结果,并且,推理部1c也可以仅针对对象部分是什么进行判定,由引导生成部1d进行所判定的对象部分的长度等的测量。
如上所述,例如,在推理结果的可靠性较低的情况下,通过执行特定的图像判定程序等,进行引导显示所需的功能辅助、功能代行即可,也可以将这样的功能设置于引导生成部1d。此外,也可以给出摄像时的姿势、距离、焦点、曝光等的引导,使得能够进行准确的判断。用户一边观察该引导一边进行操作,能够获得准确的计测、测量结果。
此外,显示控制部1e具有显示控制电路,进行显示部8中的显示控制。例如,对由信息取得部2取得的对象物进行实时取景显示,并且,对记录部4所记录的图像进行再现显示。在进行引导显示等的情况下,强调部1ea进行用于强调显示想让用户特别注意的部位的控制。例如,也可以在显示对象物的大小时,显示测量部位(参照图13B~图13D)。触摸面板8b设置于显示部8的显示面,当用户进行触摸操作时,检测触摸信息并输出到图像处理和控制部1。例如,如图13B~图13D所示,在注解时,成为由该强调部1ea使用颜色、对比度强调测量部位的表现,因此,用户识别出由装置、系统准确地掌握作为对象的部分,并能够安心地进行作业。
外部装置200具有控制部221、信息记录部222、学习部223、直线构造物判定部224、构造物延伸方向判定部225、垂直方向判定部226、注解信息化部227、垂直方向轮廓判定部228、涂满部229和通信部230。外部装置200可以是个人计算机(PC)等单机装置,并且也可以是在互联网上连接的服务器。在PC等单机装置的情况下,图像数据也可以不通过通信部而从USB存储器等输入。
控制部221是处理器,并且,也可以由ASIC(Application Specific IntegratedCircuit:特定用途集成电路)构成。此外,该控制部221具有CPU(Central ProcessingUnit:中央处理单元),按照存储部所存储的程序对外部装置200内的各部进行控制,而对整体进行控制。
信息记录部222是可电改写的非易失性存储器,存储各种数据/图像等。信息记录部222将测量对象物是否为准确的尺寸作为证据记录,根据需要记录应该提交给相关机关的文档。该信息记录部222还存储设计图222a、部件数据库(DB)222b、图像数据库(DB)222c。设计图222a是储物柜、书桌等器具/装置、建筑物等的配管/柱等的设计图。此外,部件DB222b是存储与储物柜或书桌等器具/装置、建筑物等的配管/柱等各部件有关的数据的数据库。图像DB 222c是记录从信息取得装置10发送来的图像的数据库(参照图14的S3)。另外,图像DB222c也可以记录从信息取得装置10以外取得的图像。也可以在标注注解时,利用这些数据。
学习部223也可以具有由硬件构成的推理引擎,并且也可以由CPU等处理器利用软件实现推理处理。学习部223使用由注解信息化部27生成的带注解的图像数据、即示教数据来进行深度学习,生成推理模型(参照图16的S23)。所生成的推理模型通过通信部230发送到信息取得装置10内的推理部1c。
此外,在后述的变形例(参照图19A、图19B)中,当存储有规定数量N的由注解信息化部227生成的带注解图像数据时,学习部223将该带注解图像数据作为示教用数据,进行用于注解化的深度学习,生成推理模型(参照图19B的S125、S127)。学习部223作为如下学习部发挥功能,该学习部将图像与由注解信息化部赋予的注解信息的组合作为示教数据,通过机器学习生成对对象部进行推理的推理模型。使用由学习部生成的推理模型来针对与赋予了注解信息的图像不同的图像涂满对象部并赋予注解信息,由此生成示教用数据。因此,针对规定数量N,如果用户赋予注解信息,则能够根据该信息生成推理模型,根据该推理模型对其他图像赋予注解,并能够迅速且大量地进行注解化。
在本实施方式中,也与第1实施方式同样,作为机器学习,进行深度学习(Deeplearning)。关于深度学习,在第1实施方式中详细地进行了说明,因此,省略详细的说明。
直线构造物判定部224依次读出从信息取得装置10发送并记录在图像DB222c中的图像,从该读出的图像中判定是否存在直线状的构造物(参照图14的S45、图15A)。
构造物延伸方向判定部225判定由直线构造物判定部224判定的直线状的构造物延伸的方向(参照图14的S47、图15B)。构造物延伸方向判定部225也可以根据图像数据进行判断,例如,对大致相同颜色是否朝向画面周边延续等进行分析,由此,判定延伸方向。构造物延伸方向判定部225作为对图像进行分析并判定构造物的像的延伸方向的延伸方向判定部发挥功能。
垂直方向判定部226判定与由构造物延伸方向判定部225判定的构造物的延伸方向呈直角地相交的方向(参照图14的S49、图15C)。如果确定了构造物的延伸方向,则与该方向垂直的方向确定为垂直方向。垂直方向判定部226作为判定与由延伸方向判定部判定的延伸方向垂直的方向的垂直方向判定部发挥功能。
垂直方向轮廓判定部228在由垂直方向判定部226判定出的垂直方向上,判定构造物的轮廓部。由信息取得部2取得的图像在通过光学系统形成了图像时,在景深存在进深的情况下,遍及整个画面地存在未合焦的部分。因此,由直线构造物判定部224判定的构造物的轮廓部也存在未合焦的情况。因此,垂直方向轮廓判定部228沿着由垂直方向判定部226判定的垂直方向,对图像的对比度的变化、图像的颜色变化进行分析,由此判定构造物的轮廓部分位于哪里。由于构造物是柱状,所以轮廓部在延伸方向上延伸。因此,垂直方向轮廓判定部28沿着延伸方向依次判定轮廓部。
关于多个构造物,为了使部件或构造物的强度、质量均匀、为了简化部件制造或使用了部件的构造物的设计、施工,能够参考其他部分来类推的情况较多。例如,关于桌子、椅子的腿等,如果测量一条腿,则其他腿也为相同的设计的情况也较多。这样,在部件等级上粗细、长度相同的部件较多,并且存在使用以特定的规格标准化后的部件的趋势,因此,即使摄影图像的轮廓不清楚,也能够从清楚地拍摄出的图像的类似部分进行类推。该情况在人体的骨格等中也一定程度上相同,例如,关于鞋的尺寸等,即使在由于打石膏而无法测量右脚的情况下,如果使用左脚进行测量,也能够获得类似的结果。在施工现场,也存在根据污垢、养护的方法而难以测量的部分,但是,除去该部分来测量即可。
垂直方向轮廓判定部228作为根据构造物的像的对比度变化和/或颜色变化来判定垂直方向上的轮廓部的轮廓判定部发挥功能。该轮廓判定部针对不存在像的对比度变化和/或颜色变化的部分,通过参考附近的相邻部来决定部分的相邻部。
涂满部229针对图像中的构造物,沿着构造物的延伸方向涂满至垂直方向上的轮廓部。即,涂满部229进行涂满处理,以在图像中指定相当于构造物的区域。如上所述,如果构造物在延伸方向上延伸,则轮廓部也延伸至垂直方向。对由轮廓部和构造物的上端/下端包围的区域实施涂满处理即可。该涂满处理利用一般的图像处理电路即可,并且,即使不设置图像处理电路,也可以利用图像处理软件。
涂满部229作为如下涂满部发挥功能,该涂满部针对图像内的构造物实施沿着构造物的延伸方向涂满至垂直方向上的上述轮廓部的图像处理。涂满部229作为图像处理部发挥功能,该图像处理部实施对图像进行分析并涂满对象部的图像处理。
另外,关于该图像处理。除了涂满对象部以外,只要是用边框表示或者用箭头标明对象部,或者变更色彩等能够将对象部与其他部件区分地显示的图像处理即可。此外,涂满只要是针对相同对象的情况均匀地处理从而容易知道并提高观察性的方法,则也可以是其他方法。例如,也可以是轮廓强调、由斜线构成的阴影线、作为漫画的技巧的着墨、音调处理等。此外,作为提高识别性的处理,还存在改变明亮度或者改变为补色或者强调原色的图像处理方法。如果在学习时预先进行该均匀化注解、识别性提高注解,则在对象物的测量现场,当信息取得装置10显示推理结果时,进行相同的显示,由此能够提高观察性。测量现场中的作业要求迅速性,并且优选由小型的设备进行的作业。提高了观察性的推理结果的显示、引导非常有助于高效化。因此,优选预先从学习阶段起进行这样的注解。
注解信息化部227针对由信息取得部2取得的图像,将由涂满部229涂满的区域与图像相关联。即,将所涂满的区域作为注解(注释)与图像相关联。该相关联的图像能够作为由学习部223进行深度学习时的示教数据使用(参照图12)。
注解信息化部227作为将由涂满部涂满的图像设为注解信息的注解信息化部发挥功能。这里,所生成的注解信息和图像作为示教用数据在机器学习中使用,该机器学习用于生成判定构造物的像的推理模型。注解信息化部227作为将由图像处理部涂满的图像设为注解信息的注解信息化部发挥功能。此外,由注解信息化部生成推理模型。注解信息化部227作为检测对象物的轮廓部并设由该轮廓部包围的范围为注解信息的处理器(注解信息化部)发挥功能。该处理器(注解化部)判定对象物的像的延伸方向,进一步判定与延伸方向垂直的方向,根据延伸方向和上述垂直方向来检测轮廓部。
另外,在本实施方式中,上述的直线构造物判定部224、构造物延伸方向判定部225、垂直方向判定部226、注解信息化部227、垂直方向轮廓判定部228和涂满部229也可以形成为与控制部221、学习部223分体的结构。但是,不限于此,也可以由1个或多个处理器构成这些全部或一部分。并且,各部也可以由硬件电路构成,并且也可以由CPU等通过软件来实现功能。此外,在由学习部223学习时使用的示教用数据有时能够使用所公开的数据。例如,存在处理特定图像的组织为了进行研究而发布的数据、由评估者销售的数据、能够通过图像检索简单地利用服务获得图像的数据等。这些数据也能够作为几张一组等的集合来使用,因此,也可以使用这些数据进行注解。
学习部223使用所谓人工智能(AI)进行深度学习(机器学习)。具体而言,学习部223将由注解信息化部227生成的带注解图像(示教用数据)设为母集并且用作示教数据,来进行深度学习。即,向神经网络的输入层输入带注解图像的图像数据,以使输出结果成为示教用数据的注解信息(被判定为(所涂满的)构造物的区域)的方式决定中间层的加权。该中间层的加权(耦合的强度)被作为推理模型输出。之后使用图12叙述学习部223中的深度学习。
通信部230具有用于进行无线通信和/或有线通信的通信电路。该通信部230与信息取得装置10内的通信部6进行收发。通过通信部230从信息取得装置10接收图像数据,此外,外部装置200将推理模型发送到信息取得装置10。
接着,使用图12来说明用于进行外部装置200内的学习部223中的深度学习的示教用数据和学习部223进行的深度学习。另外,对与图2所示的深度学习相同的功能标注与图2相同的符号。
图12A示出学习部223使用的示教用数据。A图像41是由信息取得部2取得的图像。B回答42是由注解化部227生成的注解信息(被判定为构造物的区域)。图像组43是被赋予了注解信息的图像组(示教用数据)。使用该图像组(示教用数据)来进行学习部223内的神经网络(网络的设计)44中的深度学习。
图12B是说明学习部223进行的深度学习和推理部1c进行的推理的图。将图像组43中的图像输入到神经网络44的输入层,将图像组43中的回答(注解信息(被判定为构造物的区域))提供给输出层。而且,以使各输出与各输入一致的方式,预先确定中间层(神经网络44)的各层中的神经元的耦合的强度、加权。中间层的耦合的强度、加权成为推理模型。由学习部223生成的推理模型(中间层的耦合的强度、加权)存储在推理部1c中,并在推理时使用。
接着,使用图13A至图13D,对推理部1c使用由学习部223生成的推理模型来进行的推理进行说明。图13A至图13D所示的例子是由信息取得部2取得图像并根据该图像来计测对象物的大小的情形。这里的对象物是储物柜(参照图13A、图13B)。
图13A示出用户51使用信息取得装置10来计测对象物52的大小的情形。当开始计测时,该信息取得装置10在显示部8上示出计测中。即,在实时取景图像53上显示由信息取得部2取得的图像(在该例子中,储物柜的图像)作为实时取景图像。此外,在推理显示54上显示由推理引擎(推理部1c)推理出对象物52的计测位置。此外,在摄影图标55上显示用于用户51在要进行静态图像摄影时进行指示的图标。用户51在要摄影的情况下,触摸摄影图标55即可。
当由推理引擎推理计测位置并测量该计测位置的大小时,如图13B所示,显示测量结果。即,在测量用画面56上使用箭头显示测量位置,在测量结果显示57上显示对象物的大小的测量结果。另外,之后使用图18叙述测量对象物的大小的计算。
测量用画面56的显示不限于图13B的例子,也可以使用其他显示方法。例如,如图13C、图13D所示,也可以在测量用画面56a、56b上涂满测量对象物,用箭头表示计测位置。在图13C所示的例子中,测量对象物是圆筒的柱状态,并且,在图13D所示的例子中,测量对象物是桌子/椅子等的侧板的长度。
接着,使用图14所示的流程图来说明注解(赋予注释)动作。关于图14中的注解,针对由信息取得部2取得的图像,由用户等示教测量对象物的区域,生成示教用的数据。通过由外部装置20的控制部221内的CPU依照存储器所存储的程序来控制外部装置20内的直线构造物判定部224、构造物延伸方向判定部225、垂直方向判定部226、垂直方向轮廓判定部228、涂满部229和注解信息化部227等来实现该注解的流程图。
当图14所示的注解的动作开始时,首先,判定是否存在学习用图像(S41)。如上所述,由信息取得部2取得的图像通过通信部6、30而作为图像DB222c记录在信息记录部222中。在该步骤中,作为学习用图像,判定信息记录部222中是否记录有图像。
在步骤S41中的判定结果是存在学习用图像的情况下,接着,取得图像(S43)。在该步骤中,从信息记录部222的图像DB222c读出学习用的图像。图15A所示的图像是被从图像DB222作为学习用图像读出的图像的例子。图15A所示的例子中的测量对象物61是在一个方向(Y方向)上延伸的圆柱,部分61a表示未合焦的部分(所谓,失焦部分)。
当取得图像时,接着,进行直线构造物判定(S45)。在该步骤中,直线构造物判定部224判定在步骤S43中所读出的图像是否为直线构造物。有时在图像中存在多个直线构造物。该情况下,也可以优先地检测前表面侧,并且也可以考虑对象物的重叠程度来检测画面中的全部直线构造物。并且,在由信息取得部2取得的图像是立体图像的情况下,也可以判定前后、进深关系,检测画面中的全部直线构造物。
在步骤S45中的判定结果为测量对象物61是直线对象物的情况下,判定构造物延伸方向(S47)。在该步骤中,判定构造物延伸方向判定部225在哪个方向上延伸,使用式计算延伸方向的直线(计算一般式、Y=aX+b)。
当判定构造物延伸方向后,接着,判定与延伸方向垂直的方向(S49)。在该步骤中,垂直方向判定部226使用在步骤S47中计算出的直线式来计算。延伸方向与垂直方向的2个直线、即、Y=aX+B与Y=a’X+b’垂直的条件是m×m’=-1。因此,垂直地与延伸方向相交的直线的式能够通过Y=-(1/a)X+c来计算。
当判定垂直方向后,接着,判定垂直方向轮廓部(S51)。在该步骤中,垂直方向轮廓判定部228根据图像的对比度的变化和/或颜色的变化,判定轮廓部61a。如上所述,由于构造物是在延伸方向上延伸的直线状,因此,轮廓部也沿着延伸方向延伸。因此,垂直方向轮廓判定部228沿着延伸方向连续地(或者间歇地)检测轮廓部61a。另外,在一部分的轮廓部附近,有时不存在图像的对比度的变化、颜色的变化。该情况下,参考在该部分的附近检测出的轮廓部(通过进行插值运算等)来确定轮廓部即可。
当判定轮廓部后,接着,沿着构造物延伸方向涂满至垂直方向的轮廓部(S53)。在该步骤中,涂满部229沿着在步骤S47中求出的延伸方向,涂满用在步骤S51中求出的轮廓部包围的范围。即,实施涂满的图像处理,使得知道对象物的范围。另外,外部装置200也可以在进行涂满时,在信息取得装置10等具有显示部的设备中显示涂满结果。该情况下,在所涂满的区域不适当的情况下,用户也可以修正涂满区域。可以自动地进行该修正,另外,也可以通过由用户以手动的方式对操作部进行操作来进行该修正。此外,也可以在涂满时,进行图像中的轮廓部的坐标判定,使用该坐标进行涂满处理。
当在步骤S53中进行了涂满时,接着,对已涂满图像进行注解信息化(S55)。在该步骤中,注解信息化部227将所涂满的图像B与A图像相关联。即,生成由图15D所示的针对A图像的B回答的集合构成的示教用数据(参照图12A)。
当进行注解信息化时,返回步骤S41,判定是否存在下一个学习用图像数据。如果该判定结果是存在学习用图像数据,则执行步骤S43~S55,进行注解信息化。另一方面,当步骤S41中的判定结果是不存在学习用图像时,结束图14所示的注解的处理,返回原来的流程。
这样,在注解的流程中,针对由信息取得部2取得的图像,从图像中自动地检测测量对象物的区域,将该区域与图像相关联地记录(注解)。通过进行将测量对象的区域与该图像相关联的注解,能够生成用于进行深度学习的示教用数据。与用户以手动的方式指定测量区域相比,由于自动地指定测量区域,因此,能够在短时间内生成大量的示教用数据。
接着,使用图16所示的流程图,对推理模型化的动作进行说明。由外部装置200内的学习部223实现该推理模型化的流程。
当推理模型化的流程开始时,首先,取得示教数据(S61)。这里,依照图14所示的注解的流程,取得由注解化部227生成的带注解的图像数据(示教数据)(参照图12A)。
当取得示教数据后,接着,生成推理模型(S63)。如使用图12B所说明的那样,学习部223使用示教数据来进行深度学习,生成推理模型。
当生成推理模型后,接着,输入验证数据并进行推理(S65)。这里,学习部223将验证数据输入到学习部223内的推理引擎,获得推理结果。验证数据(参照图2A)是知道输入和回答的数据的组合。也可以使用由注解化部227生成的示教数据中的、在步骤S63中生成推理模型时未使用的示教数据。
当使用验证数据进行推理后,接着,判定推理的可靠性是否为规定值以上(S67)。这里,在步骤S25中进行推理时,对推理结果与预先知道的回答进行比较,求出两者一致的比例,设该比例为可靠性。规定值设定为能够判断可靠性是高、还是低的等级。
在步骤S67中的判定结果是推理的可靠性不为规定值以上的情况下,重新设定学习母体(S69)。推理的可靠性较低的原因有可能是学习母体不适当。因此,重新设定学习母体,返回步骤S63,重新进行深度学习。具体而言,进行示教数据的取舍选择、追加等。
另一方面,在步骤S67中的判定结果是推理的可靠性为规定值以上的情况下,发送推理模型(S71)。这里,外部装置200使用通信部230,将在步骤S63中生成的推理模型发送到信息取得装置10。当将推理模型发送到信息取得装置时,结束该流程。
这样,在图16所示的推理模型化的流程中,学习部223使用通过图14所示的注解生成的示教数据(参照S61),生成推理模型(参照S63)。通过使用该推理模型来推理,能够从图像中找出直线构造物。
另外,推理模型的规格根据在学习时使用的图像而发生变化。即,当仅通过水平和垂直一致的图像进行学习时,针对上下左右存在差异的图像,有可能无法进行准确的推理。因此,在使用这样的推理模型来推理的情况下,进行如下的研究即可:在进行推理之前,输入水平垂直的信息并判定图像。此外,当仅通过从特定的距离获得的图像进行学习时,针对在除了特定的距离以外拍摄出的图像,无法进行准确的推理。因此,能够通过在以抵消距离差异的方式对远处的图像进行放大而虚拟地形成为近处的图像之后进行推理等的钻研,提高精度。因此,进行如下等研究即可:预先将表示是使用何种学习数据而生成的推理模型的信息存储到存储器(例如,记录有推理信息4a的记录部4)等中,在利用推理模型时读出表示推理模型的信息,以能够准确地进行推理的方式校正图像。
接着,使用图17所示的流程图对图像取得装置的控制动作进行说明。通过由信息取得装置10内的控制部1a的CPU按照存储器所存储的程序对信息取得装置10内的各部进行控制,实现该图像取得装置控制流程。
当图像取得装置控制的流程开始时,首先,进行推理模型取得、历史记录(S81)。在该步骤中,信息取得装置10根据需要从外部装置20取得推理模型。此外,记录之前的历史。作为历史,例如,记录从外部装置200取得的推理模型的种类、取得日等。
接下来,输入并显示图像,显示建议、引导等(S83)。这里,由信息取得部2输入图像,对该输入的图像在显示部8上进行实时取景图像显示。此外,在推理后述的图像(参照S87)时,能够进行建议、引导等的情况下,也进行该显示。
接着,判定是否进行测量部的推理(S85)。如使用图13A至图13D所说明的那样,用户有时使用信息取得装置10来测量对象物的大小等。在这样的情况下,用户能够利用操作部设定测量部推理模式,该测量部推理模式是通过推理设定应该测量的对象部的模式。在该步骤中,由操作判定部5根据是否设定了该模式来进行判定。
在步骤S85中的判定结果是设定了测量部推理模式的情况下,根据图像进行推理(S87)。这里,推理部1c输入由信息取得部2取得的图像,使用从外部装置200取得的推理模型来推理测量部。
接下来,根据推理结果进行涂满显示(S89)。这里,根据步骤S87中的推理结果来显示涂满。例如,如图13B~图13D的测量用画面所示,也可以以涂满测量部的方式进行显示。但是,在该阶段,延伸方向的判定未结束,因此,成为仅一部分的显示。接下来,进行涂满部的延伸方向的判定(S91)。这里,与如图15B所说明的同样,判定直线状的测量对象物的延伸方向。
接着,判定轮廓部直线性是否良好(S93)。轮廓部根据对比度的变化、颜色的变化来判定,因此,其直线性不一定较好。在该步骤中,图像处理部判定所判定的轮廓部的直线性。
在步骤S93中的判定结果是轮廓部的直线性不好的情况下,校正涂满(S95)。这里,由图像处理部进行校正,使得轮廓部的轮廓线成为直线。此外,用户以手动的方式进行修正,使得轮廓线成为直线。
在步骤S95中进行涂满校正时或者步骤S93中的判定结果是轮廓部的直线性较好的情况下,针对延伸方向判定垂直方向的涂满部(S97)。这里,在直线状的测量对象物中,判定与延伸方向垂直的方向的涂满部。即,在下一个步骤S99中检测宽度,因此,作为前一阶段,在步骤S97中,检测宽度方向。
接下来,进行宽度数据检测和显示(S99)。这里,计算与在步骤S97中检测出的延伸方向垂直的方向的涂满部的宽度。例如,显示图13B~图13D所示的测量结果57。之后使用图18来叙述宽度的计算的详细内容。
当在步骤S99中检测并显示宽度数据时或者步骤S85中的判定结果是未推理测量部的情况下,判定是否进行摄影操作(S101)。在用户进行静态图像拍摄的情况下,对操作部的释放按钮进行操作,或者,对摄影图标55(参照图13A~图13D)进行触摸操作。因此,在该步骤中,判定是否进行了这些操作。在测量如图13A~图13D所示的对象物的长度等的情况下,优选与测量值一起进行作为证据的照片的拍摄。
在步骤S101中的判定结果是未进行摄影操作的情况下,返回步骤S83。另一方面,在进行摄影操作的情况下,拍摄图像,记录相关数据(S103)。这里,信息取得部2取得图像,在由图像处理部1b进行图像处理之后,作为图像数据4b记录在记录部4中。此外,在步骤S99中计算出宽度数据的情况下,也可以同时记录该宽度数据和进行了测量的涂满部的图像。当记录图像摄影和相关数据时,返回步骤S83。
这样,在图像取得装置控制的流程中,使用由外部装置200的学习部223生成的推理模型来推理测量对象部(参照S87)。因此,即使用户不以手动的方式输入测量对象部,也能够自动地推理测量对象部,以涂满的方式显示,并对测量对象物的大小等进行测量。
接着,使用图18来对计算测量对象物的大小的方法进行说明。图18A是信息取得部2的光学系统由1个光学系统72构成的情况。设测量的对象部位71的宽度为w、光学系统72能拍摄到对象部位71的视场角为
Figure BDA0002172865070000394
由光学系统72在摄像元件73上形成对象部位71的图像,摄像元件73的宽度为x0,对象部位71的像的宽度设为x。通过检测轮廓,得知像宽x。此外,从对象部位71到光学系统72的距离是d,光学系统72的焦距设为f。当焦点位置通过自动对焦等而发生变化时,距离d也发生变化。焦距f能够根据透镜信息和变焦信息取得。
在图18A中,对象部位71的宽度w能够通过下述(1)式计算。
w=d·x/f……(1)
此外,视场角
Figure BDA0002172865070000391
能够通过下述(2)式来计算。
Figure BDA0002172865070000392
图18B是信息取得部2的光学系统由2个光学系统72a、72b构成且摄像元件由2个摄像元件73a、73b构成的情况。在图18B中,也设对象部位的宽度为w、视场角为
Figure BDA0002172865070000393
从光学系统72a、72b到对象部位71的距离为d、光学系统72a、72b的焦距为f。摄像元件73a与摄像元件73b的中心间距离(视差)为B(二者偏离B)。摄像元件73a的像位置位于光学系统72a的光轴上,摄像元件73b上的对象部位71的像位置从摄像元件73b的中心位置偏离Δx。即,对象部位71在2个摄像元件之间相对地偏离Δx。这时的距离d能够通过下述(3)式计算。
d=Δx·B/f……(3)
当求出距离d时,通过代入到上述的(1)式,能够计算对象部位71的宽度w。即,如果能够准确地计算距离,则也能够同样计算像宽w。
这样,在本发明的第2实施方式中,通过注解(参照图14、图15)提取直线状的测量对象物,能够进行涂满该对象物等的图像处理。将该涂满的部分作为注解(注释)信息与图像相关地存储(参照图14的S45)。该带注解的图像数据能够作为进行深度学习时的示教用数据使用(参照图16的S61、S63)。用于深度学习的示教用数据必须将回答(在该例子中,涂满的部分)作为注解与一个个的图像相关联,并且是花费精力和时间的作业。但是,在本实施方式中,能够自动地生成带注解的图像数据,能够迅速地生成示教用数据。
接着,使用图19所示的流程图来说明图14所示的注解的流程的变形例。本变形例最初生成规定数量N的带注解的图像,当能够生成N张带注解的图像时,与第1实施方式同样,使用该带注解的图像来生成测量部位提取用的推理模型。图19所示的流程与图14的流程相比,步骤S41、S45~S55相同,因此,以不同点为中心进行说明。
当图19的流程开始时,首先判定是否存在学习用图像(S41)。在该判定结果是存在学习用图像的情况下,取得特定图像(S42)。这里,从图像DB 222c所存储的图像中读出图像。除去已经赋予了注解信息的图像而读出。此外,即使未赋予注解信息,也在步骤S115中,除去被判断为NG的图像而读出。
当取得特定图像时,接着,判定是否存在推理模型(S44)。如后所述,在本变形例中,最初针对规定数量N的图像,生成带注解的图像,将该带注解的图像作为示教数据生成推理模型(参照S127)。在该步骤中,判定是否已生成推理模型。
在步骤S44中的判定结果是未生成推理模型的情况下,在步骤S45~S55中,对图像进行分析,由此,生成带注解的图像(示教用数据)。当生成注解信息时,接着,存储注解信息(S57)。所生成的带注解信息的图像记录在信息记录部222等存储器中。接下来,判定存储器所存储的带注解图像是否具有N张(S59)。在该判定结果是未达到N张的情况下,取得下一个图像(S60)。然后,针对该取得的图像,在步骤S45~S57中生成带注解图像。
在步骤S59中的判定结果是带注解图像达到N张时,进行用于注解化的深度学习(S125)。这里,学习部223使用在步骤S57中所存储的带注解图像来进行用于提取测量对象部位的深度学习。
当进行深度学习时,设学习结果为推理模型M(S127)。这里,设学习部223的学习结果为推理模型M。每当存储N张的带注解的图像时,进行深度学习。最初的深度学习的结果被作为推理模型1存储,下一个深度学习的结果被作为推理模型2存储。之后,依次更新为推理模型3、4、……M。
当生成推理模型M后,返回步骤S41。如果存在学习用图像,则取得特定图像,之后,在步骤S44中判定为存在推理模型。当判定为存在推理模型时,利用推理模型M进行推理(S111)。这里,使用推理模型M来推理在步骤S42中所读出的图像的测量对象部位。接下来,进行涂满(S113)。这里,涂满基于步骤S111中的推理的测量部位,将所涂满的图像显示在显示部8上。
当进行涂满后,接着,判定是否是NG(S115)。这里,用户观察显示部8所显示的图像,判定涂满是OK还是NG。根据推理模型M推理出的结果存在良好地涂满(提取)测量部位的情况和未良好地涂满(提取)测量部位的情况。因此,由用户通过目视判定基于推理结果的图像。在该判定结果是被判定为NG的情况下,返回步骤S41。即,所推理的结果是NG,因此,在步骤S125中的深度学习中除去该推理结果。
另一方面,在步骤S115中的判定结果不为NG的情况下,接着,判定是否需要修改(S117)。在用户目视的结果不为NG但通过推理而涂满(所提取)的测量部位,有时需要修正。因此,在该步骤中,判定用户目视的结果是否是判断为需要修改。
在步骤S117中的判定结果是判断为需要修改的情况下,进行修正(S119)。这里,用户对操作部进行操作,由此,对显示部8所显示的图像施加修正。
当在步骤S119中进行修正后、或者步骤S77中的判定结果是不需要进行修改的情况下,存储注解信息(S121)。这里,将存在修正或不存在修正而设为OK的带注解信息存储到存储器中。
接下来,判定带注解图像是否达到N张(S123)。这里,判定是否在进行上次的深度学习之后,存储有N张带注解图像。在该判定结果是存储有N张带注解图像的情况下,进入上述的步骤S125,进行深度学习。之后,反复上述的动作,当学习用图像消失时(S41→否),结束用于注解化的深度学习。
这样,在本变形例中,当带注解的图像达到N张时,通过深度学习生成推理模型,该推理模型用于生成带注解的图像(参照S59、S125、S127)。然后,当生成该推理模型后,以后使用推理模型来进行用于生成带注解图像的推理(参照S111)。因此,能够迅速且大量地生成带注解的图像数据(示教用数据)。
此外,在使用推理模型来推理出涂满区域的图像通过用户的目视被判断为NG(不适当)的情况下,从带注解的图像数据(示教用数据)中排除该图像(参照S115的“是”)。当未判定为NG的图像到达N张时,再次进行深度学习,重新生成推理模型(参照S123的“是”、S125、S127)。由此,能够提高推理模型的可靠性。
此外,针对未被判定为NG(不适当)的图像,判定是否需要修正注解信息,在需要修正的情况下,将修正后的图像用于对推理模型进行更新时的深度学习(只要是机器学习即可)(参照S117、S119、S125、S127)。因此,只要是能够简单地修正的图像,则能够在用于生成推理模型的学习时作为母体利用。
另外,在本变形例中,规定张数N设为固定值,但是,也可以设为变动数,例如,当表示模型的更新编号的M增加时,规定值N也可以增加,相反也可以减少。此外,在步骤S75和S77中,用户通过目视进行了判断,但是,也可以通过图像分析进行是否是直线构造物和/或是否需要修改。此外,在图9所示的流程中,判定是否能够对不为NG的图像进行修正,在能够修正的情况下进行修正。但是,也可以省略该作业。
此外,在本变形例中,将注解赋予给直线构造物。但是,赋予注解的对象物不限于直线构造物,可以是球形,另外,也可以是立方体、长方体、圆锥体等各种形状的构造物。并且,对象物不限于三维,也可以是二维。
此外,在本变形例中,直到带注解图像到达规定值N为止,与图14的流程同样,通过对图像数据进行分析,赋予了注解。但是,也可以不进行图像分析,而由用户目视图像,指示应该赋予注解的位置/区域,由此赋予注解。例如,也可以由医生一边目视显示在PC等上的图像一边对患部的范围赋予注解。
如以上所说明的那样,在本发明的第2实施方式和变形例中,对图像进行分析,判定构造物的像的延伸方向(参照图14的S47),判定与判定出的延伸方向垂直的方向(参照图14的S49),根据构造物的像的对比度变化和/或颜色变化,判定垂直方向上的轮廓部(参照图14的S51),针对图像内的构造物实施沿着构造物的延伸方向涂满至垂直方向上的轮廓部的图像处理(参照图14的S53),将所涂满的图像作为注解信息(参照图14的S55),图像和注解信息作为示教用数据在机器学习中使用,该机器学习用于生成判定构造物的像的推理模型。因此,能够简单地生成用于在深度学习等机器学习中使用的示教用数据。即,根据本实施方式,能够使注解作业较容易。
此外,实施对图像进行分析并涂满对象部的图像处理(参照图19A的S53),将所涂满的图像作为注解信息(参照图19A的S55),将图像与注解信息的组合作为示教数据,通过机器学习生成推理对象部的推理模型(参照图19B的S125、S127),使用推理模型来针对与赋予了注解信息的图像不同的图像涂满对象部并赋予注解信息,由此生成示教用数据(图19B的S111、S113、S121)。因此,能够简单地生成用于在深度学习等机器学习中使用的示教用数据。
此外,进行对图像进行分析并对图像赋予注解的第1注解处理(参照图19A的S42~S59),并进行第2注解处理,该第2注解处理使用通过第1注解处理而生成的示教数据,来生成用于进行注解赋予的推理模型(参照图19B的S125、S127),并使用推理模型来对与赋予了注解信息的图像不同的图像赋予注解(参照图19B的S111~S127)。因此,能够简单地生成用于在深度学习等机器学习中使用的示教用数据。
此外,直到最初存储了规定数量N的注解信息为止,根据由图像处理部涂满的图像生成注解信息(参照图19A的S45~S59),在存储规定数量N的注解信息之后,使用由学习部生成的推理模型生成了注解信息(参照图19B的S111~S127)。因此,如果用户对规定数量N的图像进行注解化,则以后能够使用推理模型来生成注解信息,能够迅速且大量地进行注解化。
此外,在使用推理模型来赋予了注解信息的图像被判定为不适当的情况下,排除被判定为不适当的图像(图19B的S115的“是”),使用未判定为不适当的图像来进行用于赋予注解信息的机器学习,对推理模型进行更新(参照图19B的S121、S125、S127)。由于在生成推理模型时不使用被判定为不适当的图像,所以能够提高推理模型的可靠性。
此外,针对未被判定为不适当的图像判定是否需要修正注解信息,在需要修正的情况下,将修正后的图像也用于对推理模型进行更新时的机器学习(参照图19B的S117、S119、S121、S125、S127)。因此,由于使用修正图像来生成推理模型,所以能够消除浪费。
此外,在本发明的第2实施方式和变形例中,还包含如下所述的显示装置的发明。该显示装置对所拍摄的对象物图像进行分析,检测并显示测量对象部分(例如,参照图13A至图13D)。该显示装置具有:延伸方向判定部(例如,参照图11的构造物延伸方向判定部225),其判定构造物的像的延伸方向;垂直方向判定部(例如,参照图11的垂直方向判定部226),其判定与由延伸方向判定部判定出的延伸方向垂直的方向;以及轮廓部判定部(例如,参照图11的垂直方向轮廓判定部228),其根据构造物的像的对比度变化和/或颜色变化,判定垂直方向上的轮廓部。然后,针对对象物图像内的构造物,将沿着构造物的延伸方向涂满至垂直方向上的轮廓部的图像作为注解信息,并将注解信息作为示教用数据进行机器学习,使用通过该机器学习而生成的推理模型来检测测量对象部。此外,还包含程序的发明,该程序用于在具有与该显示装置相同的结构的显示装置中设置的计算机中执行。当根据注解信息生成了示教用数据时,能够使用该示教用数据来生成推理模型,因此,以后能够使用该推理模型来推理测量对象部分。
另外,在生成推理模型时,推理模型的规格根据用于学习的图像而发生变化。因此,也可以在注解作业时设定表示进行了何种学习的信息,将该信息作为推理信息4a的一部分记录在信息取得装置10的记录部4中。
例如,在利用如下推理模型进行推理的情况下,有可能无法针对存在上下左右的差异的图像进行准确的推理,该推理模型是仅使用水平/垂直一致的图像来学习而生成的。因此,通过从推理信息4a读出上述的信息,并在拍摄时,考虑来自姿势传感器3的水平或垂直的信息来对取得图像进行推理,由此能够进行准确的测量部位判定。如在进行使用推理模型的推理之前加入水平垂直的信息来判定图像的钻研是有效的,优选具有该条件的信息或用于校正该图像的传感器。
同样,当仅使用从特定的距离获得的图像来进行学习时,针对在特定的距离以外拍摄出的图像,无法进行准确的推理。在使用通过这样的图像而生成的推理模型来推理的情况下,通过以抵消距离差异的方式对远处的图像进行放大从而虚拟地形成为近处的图像并针对该图像使用推理模型来推理等的钻研,能够提高精度。该情况下,在一并使用距离传感器等来推理图像时,进行补偿图像的放大缩小的实际与学习数据的差异的校正。进行如下钻研即可:预先具备用于存储信息的存储器,该信息表示是使用何种学习数据而生成的模型,在使用推理模型来推理时,利用上述信息来校正图像,使得推理模型能够进行准确的推理。
当然,也可以与在摄影现场产生的各种摄影条件的差异对应地,预先以考虑摄影现场的状况或者甚至能够应对未知的状况的方式,准备能够对应各种状况的学习数据,也给与特定的报酬,从而通过强化学习的方法进行学习。强化学习表示通过试错来学习“使价值最大化的行动”,不是直接学习所给出的正解的输出,而是使之进行学习以能够获得更好的回答。特别是,在如本实施方式中所示的现场的终端设备中,在生成如被使用的便携型的紧凑尺寸的推理引擎时,考虑层的数量、消耗电流,来进行非常花费精力和时间的学习而进行应对。
此外,在本发明的第2实施方式和变形例中,列举直线状的构造物为例,说明了对图像赋予注解信息的情况。但是,本实施方式不限于直线状的构造物,可以应用于各种构造物。并且,在医生从X照片、内窥镜照片等图像提取患部并对该患部进行注解时也能够应用。该情况下,作为外部装置,只要能够对单机的PC、与互联网或内部网连接的服务器等所存储的图像进行注解即可。
搭载于照相机、便携设备等信息终端产品的紧凑型的推理引擎难以进行用于以较少的神经网络层进行高精度判断的学习,并且花费时间,因此,期望对准确的注解、学习的方法进行钻研。在生成推理模型时,推理模型的规格根据用于学习的图像而改变,因此,也可以与学习时的信息协作地进行高效的学习。因此,也可以在注解作业时设定表示进行了何种学习的信息,将该信息作为推理信息4a的一部分记录在信息取得装置10的记录部4中。
例如,在利用如下推理模型进行推理的情况下,有可能无法针对存在上下左右的差异的图像进行准确的推理,该推理模型是仅使用利用一般的摄影图像而取得的水平/垂直一致的图像来学习而生成的。因此,通过从推理信息4a读出上述的信息,并在拍摄时考虑来自姿势传感器3的水平或垂直的信息来对取得图像进行推理,能够进行准确的测量部位判定。在进行使用推理模型的推理之前加入水平垂直的信息来判定图像这样的钻研是有效的,该情况下优选具有该条件的信息、用于校正图像的传感器。由于推理引擎的规格、性能根据是否在学习时加入这样的限制而发生改变,因此,可以一边使注解作业进展一边进行这样的试错,另外,也可以显示该试错的经过。
同样,当仅使用从特定的距离获得的图像来对对象物进行学习时,针对在特定的距离以外拍摄出的图像,无法进行准确的推理。在使用通过这样的图像而生成的推理模型来推理的情况下,通过以抵消距离差异的方式对远处的图像进行放大从而虚拟地形成为近处的图像并使用推理模型来推理等的钻研,能够提高精度。该情况下,在一并使用距离传感器等来推理图像时,进行补偿图像的放大缩小的实际与学习数据的差异的校正。进行如下钻研即可:预先具备用于存储信息的存储器,该信息表示是使用何种学习数据而生成的模型,在使用推理模型来推理时,利用上述信息来校正图像,使得推理模型能够进行准确的推理。有时在注解作业时注意是否需要进行这样的校正,使得在如本实施方式的注解作业时能够验证暂时的学习的钻研是有意义的。
当然,也可以通过强化学习的方法进行学习,在该强化学习中,与在摄影现场产生的各种摄影条件的差异对应地,预先以考虑摄影现场的状况或者甚至能够应对未知的状况的方式,准备包含各种状况的学习数据,也给与特定的报酬而使之进行学习。强化学习表示通过试错来学习“使价值、效果最大化的行动”,不是直接学习所给出的正解的输出,而是使之进行学习以能够获得更好的回答。特别是,在如本实施方式中所示的现场使用的终端设备中,便携型的紧凑尺寸的推理引擎优选考虑层的数量、消耗电流来进行非常花费精力和时间的学习以进行应对,因此,能够在注解作业时也考察该学习时的报酬给与方法等。能够实现一边确认暂时学习的结果一边提前进行规格的修改等的反馈,能够包含缩短时间在内全面地做出贡献以获得优异性能的推理引擎。
此外,在本发明的第2实施方式、变形例中,学习部223、直线构造物判定部224、构造物延伸方向判定部225、垂直方向判定部226、注解信息化部227、垂直方向轮廓判定部228和涂满部229形成为与控制部221分体的结构,但是,也可以由CPU(Central ProcessingUnit:中央处理单元)、外围电路和程序代码实现各部的功能的全部或一部分,也可以通过DSP(Digital Signal Processor:数字信号处理器)等利用程序代码执行的电路来实现,还可以是根据由Verilog记述的程序语言而生成的门电路等硬件结构,并且,当然也可以由硬件电路执行。
作为本发明的各实施方式、变形例,包含如下所述的发明。一种注解装置,其具有:再现部,其逐个依次再现可能包含作为注解对象的对象物的多个图像;指定部,其通过手动操作指定由上述再现部再现的图像内的上述对象物的特定部分;学习部,其在变更为另一图像以通过手动操作指定上述多个图像中的上述特定部分时,分离为学习用的图像集和正解用的图像集,将上述学习用图像集的上述对象物与上述特定部分的关系用作示教数据来学习而生成推理模型,通过上述正解用的图像集验证上述推理模型。
此外,作为本发明的各实施方式、变形例,包含如下所述的发明。一种注解方法,其特征在于,逐个依次再现可能包含作为注解对象的对象物的多个图像,通过手动操作指定上述所再现的图像内的上述对象物的特定部分,在变更为另一图像以通过手动操作指定上述多个图像中的上述特定部分时,分离为学习用的图像集和正解用的图像集,将上述学习用图像集的上述对象物与上述特定部分的关系用作示教数据来学习而生成推理模型,通过上述正解用的图像集验证上述推理模型。
此外,作为本发明的各实施方式、变形例,包含如下所述的发明。一种注解装置,其具有:分类部,其遵循通用分类对多个图像进行分类,该多个图像可能包含能够作为注解对象的对象物;再现部,其依照上述分类部的上述通用分类,逐个依次再现上述多个图像;以及指定部,其通过手动操作指定由上述再现部再现的图像内的上述对象物的特定部分。
此外,作为本发明的各实施方式、变形例,包含如下所述的发明。一种注解方法,遵循通用分类对多个图像进行分类,该多个图像可能包含能够作为注解对象的对象物,逐个依次再现依照上述通用分类而分类的上述多个图像,通过手动操作指定上述所再现的图像内的上述对象物的特定部分。
此外,作为本发明的各实施方式、变形例,包含如下所述的发明。一种机器学习装置,其特征在于,具有:延伸方向判定部,其对图像进行分析,判定构造物的像的延伸方向;垂直方向判定部,其判定与由上述延伸方向判定部判定的延伸方向垂直的方向;轮廓判定部,其根据上述构造物的像的对比度变化和/或颜色变化,判定垂直方向上的轮廓部;涂满部,其针对上述图像内的上述构造物,实施沿着上述构造物的延伸方向涂满至上述垂直方向上的上述轮廓部的图像处理;以及注解信息化部,其将由上述涂满部涂满的图像作为注解信息,上述图像和注解信息作为示教用数据,在机器学习中使用,该机器学习用于生成判定构造物的像的推理模型。
此外,作为本发明的各实施方式、变形例,包含如下所述的发明。一种机器学习装置,其当赋予了上述注解信息的图像达到规定张数时,进行用于赋予注解信息的机器学习来生成推理模型,以后,使用该推理模型来对新的图像赋予注解信息。
此外,作为本发明的各实施方式、变形例,包含如下所述的发明。一种机器学习装置,其在使用上述推理模型来赋予注解信息的图像被判定为不适当的情况下,除去被判定为不适当的图像,使用未被判定为不适当的图像来进行用于赋予上述注解信息的机器学习,对推理模型进行更新。
此外,作为本发明的各实施方式、变形例,包含如下所述的发明。一种机器学习装置,其针对上述未被判定为不适当的图像判定是否需要修正上述注解信息,在需要修正的情况下,将修正后的图像也用于对推理模型进行更新时的机器学习。
此外,作为本发明的各实施方式、变形例,包含如下所述的发明。一种机器学习装置,其中,上述轮廓判定部通过在不存在上述像的对比度变化和/或颜色变化的部分中参考附近的相邻部,决定上述部分的相邻部。
此外,作为本发明的各实施方式、变形例,包含如下所述的发明。一种由注解化部生成的推理模型。
此外,作为本发明的各实施方式、变形例,包含如下所述的发明。一种显示装置,其对所拍摄的对象物图像进行分析,检测并显示测量对象部分,其中,该显示装置具有:延伸方向判定部,其判定构造物的像的延伸方向;垂直方向判定部,其判定与由上述延伸方向判定部判定的延伸方向垂直的方向;以及轮廓部判定部,其根据上述构造物的像的对比度变化和/或颜色变化,判定垂直方向上的轮廓部,所述显示装置针对上述对象物图像内的上述构造物,将沿着上述构造物的延伸方向涂满至上述垂直方向上的上述轮廓部的图像作为注解信息,将上述注解信息作为示教用数据进行机器学习,使用通过该机器学习而生成的推理模型来检测上述测量对象部。
此外,作为本发明的各实施方式、变形例,包含如下所述的发明。一种显示方法,对所拍摄的对象物图像进行分析,检测并显示测量对象部分,其中,在学习时,判定构造物的像的延伸方向,判定与所判定的上述延伸方向垂直的方向,在根据上述构造物的像的对比度变化和/或颜色变化判定出垂直方向上的轮廓部之后,针对上述对象物图像内的上述构造物,将沿着上述构造物的延伸方向涂满至上述垂直方向上的上述轮廓部的图像作为注解信息,将上述注解信息作为示教用数据进行机器学习,使用通过该机器学习而生成的推理模型来检测上述测量对象部分。
此外,作为本发明的各实施方式、变形例,包含如下所述的发明。一种显示方法,对所拍摄的对象物图像进行分析,检测并显示测量对象部分,其中,由学习装置判定构造物的像的延伸方向,判定与所判定的上述延伸方向垂直的方向,根据上述构造物的像的对比度变化和/或颜色变化,判定垂直方向上的轮廓部,针对上述对象物图像内的上述构造物,将沿着上述构造物的延伸方向涂满至上述垂直方向上的上述轮廓部的图像作为注解信息,将上述注解信息作为示教用数据进行机器学习,由此,生成推理模型,在显示装置中使用通过上述机器学习而生成的推理模型来检测上述测量对象部分。
此外,作为本发明的各实施方式、变形例,包含如下所述的发明。一种程序,其在计算机中执行,该计算机设置于显示装置,该显示装置对所拍摄的对象物图像进行分析,检测并显示测量对象部分,其中,该程序使上述计算机执行以下步骤:在学习时,判定构造物的像的延伸方向,判定与所判定的上述延伸方向垂直的方向,在根据上述构造物的像的对比度变化和/或颜色变化判定出垂直方向上的轮廓部之后,针对上述对象物图像内的上述构造物,将在沿着上述构造物的延伸方向涂满至上述垂直方向上的上述轮廓部的图像作为注解信息,将上述注解信息作为示教用数据进行机器学习,使用通过该机器学习而生成的推理模型来检测上述测量对象部分。
此外,作为本发明的各实施方式、变形例,包含如下所述的发明。一种程序,其用于在计算机中执行,该计算机设置在显示装置上,该显示装置对所拍摄的对象物图像进行分析,检测并显示测量对象部分,其中,该程序使计算机执行以下步骤:在学习时,判定构造物的像的延伸方向,判定与所判定的上述延伸方向垂直的方向,根据上述构造物的像的对比度变化和/或颜色变化,判定垂直方向上的轮廓部,针对上述对象物图像内的上述构造物,将在沿着上述构造物的延伸方向涂满至上述垂直方向上的上述轮廓部的图像作为注解信息,接收通过将上述注解信息作为示教用数据进行机器学习而生成的推理模型,使用上述接收到的推理模型来检测上述测量对象部分。
此外,作为本发明的各实施方式、变形例,包含如下所述的发明。一种示教用数据生成装置,其具有:图像处理部,其对图像进行分析,实施涂满对象部的图像处理;注解信息化部,其将由上述图像处理部涂满的图像作为注解信息;以及学习部,其将上述图像与由上述注解信息化部赋予的注解信息的组合作为示教数据,通过机器学习生成推理上述对象部的推理模型,所述示教用数据生成装置使用由上述学习部生成的推理模型来针对与上述赋予了注解信息的图像不同的图像涂满上述对象部并赋予注解信息,由此生成示教用数据。
此外,作为本发明的各实施方式、变形例,包含如下所述的发明。一种示教用数据生成装置,其直到最初存储有规定数量N的注解信息为止,根据由上述图像处理部涂满的图像来生成注解信息,在存储有上述规定数量N的注解信息之后,使用由上述学习部生成的推理模型来生成上述注解信息。
此外,作为本发明的各实施方式、变形例,包含如下所述的发明。一种示教用数据生成装置,其在使用上述推理模型来赋予了注解信息的图像被判定为不适当的情况下,除去被判定为不适当的图像,使用未被判定为不适当的图像来进行用于赋予上述注解信息的机器学习,更新推理模型。
此外,作为本发明的各实施方式、变形例,包含如下所述的发明。一种机器学习装置,其针对未被判定为不适当的图像判定是否需要修正上述注解信息,在需要修正的情况下,将修正后的图像也用于对推理模型进行更新时的机器学习。
此外,作为本发明的各实施方式、变形例,包含如下所述的发明。一种机器学习方法,对图像进行分析,判定构造物的像的延伸方向,判定与上述判定出的延伸方向垂直的方向,根据上述构造物的像的对比度变化和/或颜色变化,判定垂直方向上的轮廓部,针对上述图像内的上述构造物,实施沿着上述构造物的延伸方向涂满至上述垂直方向上的上述轮廓部的图像处理,将上述所涂满的图像作为注解信息,上述图像和注解信息作为示教用数据,在机器学习中使用,该机器学习用于生成判定构造物的像的推理模型。
此外,作为本发明的各实施方式、变形例,包含如下所述的发明。一种示教用数据生成方法,对图像进行分析,实施涂满对象部的图像处理,将上述所涂满的图像作为注解信息,将上述图像与上述注解信息的组合作为示教数据,通过机器学习生成推理上述对象部的推理模型,使用上述推理模型来针对与上述赋予了注解信息的图像不同的图像,涂满上述对象部并赋予注解信息,由此,生成示教用数据。
此外,作为本发明的各实施方式、变形例,包含如下所述的发明。一种示教用数据生成方法,对图像进行分析,进行对上述图像赋予注解的第1注解处理,使用通过上述第1注解处理而生成的示教数据来生成用于进行注解赋予的推理模型,使用上述推理模型来针对与上述赋予了注解信息的图像不同的图像进行用于赋予注解的第2注解处理。
此外,在本发明的各实施方式、变形例中,作为信息取得装置,使用数字照相机进行了说明,但是作为照相机,可以是数字单反照相机、无反射镜照相机和袖珍数字照相机,可以是摄像机、摄影机这样的动态图像用的照相机,并且当然可以是内置在移动电话、智能手机、便携信息终端、个人计算机(PC)、平板型计算机、游戏设备等中的照相机、医疗用照相机、显微镜等科学设备用的照相机、汽车搭载用照相机、监视用照相机。无论是哪种照相机,只要是能够取得用于赋予注解的图像的设备,则都能够应用本发明。
此外,关于本说明书中说明的技术中主要利用流程图说明的控制,多数情况下能够利用程序进行设定,有时也保存在记录介质或记录部中。关于记录到该记录介质、记录部中的方法,可以在产品出厂时进行记录,也可以利用发布的记录介质,还可以经由因特网进行下载。
此外,在本发明的各实施方式、变形例中,使用流程图说明了本实施方式中的动作,但是,处理过程也可以改变顺序,并且,也可以省略任意一个步骤,也可以追加步骤,并且还可以进一步变更各步骤内的具体处理内容。
此外,关于权利要求书、说明书和附图中的处理流程,即使为了方便,使用“首先”、“接着”等表现顺序的语言进行了说明,但在没有特别进行说明的地方,不是指必须按该顺序进行实施。
本发明不原样限定为上述实施方式,在实施阶段能够在不脱离其主旨的范围内对结构要素进行变形并具体化。此外,能够通过上述实施方式公开的多个结构要素的适当组合形成各种发明。例如,可以删除实施方式所示的全部结构要素中的几个结构要素。并且,也可以适当组合不同实施方式的结构要素。

Claims (22)

1.一种注解装置,其具有:
显示控制部,其将一系列的注解作业的作业时间或所述注解作业的图像数据量显示在显示器上,根据可能包含作为注解对象的对象物的多个图像数据,将多个图像依次再现显示在所述显示器上;以及
控制部,其取得操作部的操作结果,该操作部指定所述显示器所显示的图像中的特定部分,在所述注解作业中,所述控制部根据所述操作结果,取得针对显示的所述图像的注解信息,在满足基于所设定的所述作业时间或数据量的时间或数据量的时刻,委托学习电路进行学习,该学习用于将已取得所述注解信息的图像数据作为示教数据,生成根据图像数据推理特定部分的推理模型。
2.根据权利要求1所述的注解装置,其中,
在通过所述操作部的操作变更了所述作业时间的情况下,所述显示控制电路将变更后的作业时间显示在所述显示器上。
3.一种注解装置,其具有:
再现部,其依次再现可能包含作为注解对象的对象物的多个图像;
指定部,其指定由所述再现部再现的图像内的特定部分;
注解信息取得部,其根据由所述指定部指定的特定部分,取得注解信息;
设定部,其用于设定指定所述特定部分的作业时间或数据量;以及
学习委托部,其委托学习部进行学习,该学习部在针对基于由所述设定部所设定的作业时间或数据量的时间或数据量,结束了由所述指定部对所述特定部分的指定时,使用直到该结束时为止所取得的注解信息,作为表示所述对象物与所述特定部分的关系的示教数据来学习,由此生成推理模型。
4.根据权利要求3所述的注解装置,其中,
在将一系列的注解作业的作业时间或所述注解作业的图像数据量显示在显示器上时,所述指定部进行关于进行所述注解作业的人是谁的输入。
5.根据权利要求3所述的注解装置,其中,
所述设定部使用来自传感器数据的信息,自动地检测图像数据中的特定部分,根据该检测的结果指定所述对象物的特定部分,所述传感器数据与所述图像数据的摄影时状态相关联。
6.根据权利要求3所述的注解装置,其中,
在由所述学习部生成所述推理模型时,所述指定部以并行的方式针对所述多个图像中的、未指定所述特定部分的剩余图像,通过手动操作指定所述对象物的特定部分。
7.根据权利要求3~6中的任意一项所述的注解装置,其中,
在由所述学习部生成所述推理模型之后,针对在所述多个图像中剩余的图像,利用基于所述推理模型的推理指定所述特定部分。
8.根据权利要求3~7中的任意一项所述的注解装置,其中,
依照作业时间或数据量,进行通过手动操作指定所述特定部分的时间与生成所述推理模型的时间的分配。
9.根据权利要求3~8中的任意一项所述的注解装置,其中,
所述注解装置具有分类部,该分类部依照通用的图像级别分类对所述多个图像进行分类,与所述分类对应地选择通过手动操作指定所述特定部分的图像。
10.根据权利要求9所述的注解装置,其中,
所述分类部在通过手动操作指定所述特定部分时,指定图像的优先级。
11.根据权利要求3所述的注解装置,其中,
所述注解装置还具有注解信息化部,该注解信息化部检测所述对象物的轮廓部,将用该轮廓部包围的范围作为注解信息。
12.根据权利要求11所述的注解装置,其中,
所述注解信息化部判定所述对象物的像的延伸方向,进一步判定与所述延伸方向垂直的方向,根据所述延伸方向和所述垂直的方向检测所述轮廓部。
13.一种注解方法,具有以下步骤:
设定作业时间或数据量的步骤,在该作业时间或数据量的范围内,指定能够作为注解对象的对象物的特定部分;
注解步骤,与设定的所述作业时间或数据量对应地逐个依次再现可能包含所述对象物的多个图像,指定所再现的图像中的所述对象物的特定部分;以及
委托学习装置通过使用在所述注解步骤中所取得的所述对象物与所述特定部分的关系作为示教数据来进行学习,由此生成推理模型的步骤。
14.根据权利要求13所述的注解方法,其中,
在所述注解方法中,通过手动操作指定所述对象物的特定部分。
15.根据权利要求13所述的注解方法,其中,
在所述注解方法中,使用来自传感器数据的信息自动地检测图像数据中的特定部分,根据该检测的结果指定所述对象物的特定部分,该传感器数据与所述图像数据的摄影时状态相关联。
16.根据权利要求13所述的注解方法,其中,
在生成所述推理模型时,以并行的方式针对所述多个图像中的、未指定所述特定部分的剩余图像,通过手动操作指定所述对象物的特定部分。
17.根据权利要求13所述的注解方法,其中,
在所述注解方法中,在生成所述推理模型之后,针对在所述多个图像中剩余的图像,利用基于所述推理模型的推理来指定所述特定部分。
18.根据权利要求13所述的注解方法,其中,
在所述注解方法中,依照作业时间或数据量,进行通过手动操作指定所述特定部分的时间与生成所述推理模型的时间的分配。
19.根据权利要求13所述的注解方法,其中,
依照通用的图像级别分类对所述多个图像进行分类,与所述分类对应地选择通过手动操作指定所述特定部分的图像。
20.根据权利要求19所述的注解方法,其中,
在通过手动操作指定所述特定部分时,指定图像的优先级。
21.根据权利要求13所述的注解方法,其中,
检测所述对象物的轮廓部,将用该轮廓部包围的范围作为注解信息。
22.根据权利要求21所述的注解方法,其中,
在所述注解方法中,判定所述对象物的像的延伸方向,进一步判定与所述延伸方向垂直的方向,根据所述延伸方向和所述垂直的方向检测所述轮廓部。
CN201910768755.9A 2018-08-28 2019-08-20 注解装置和注解方法 Pending CN110910340A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2018-159583 2018-08-28
JP2018159582A JP2020035094A (ja) 2018-08-28 2018-08-28 機械学習装置、教師用データ作成装置、推論モデル、および教師用データ作成方法
JP2018-159582 2018-08-28
JP2018159583A JP7195085B2 (ja) 2018-08-28 2018-08-28 アノテーション装置およびアノテーション方法

Publications (1)

Publication Number Publication Date
CN110910340A true CN110910340A (zh) 2020-03-24

Family

ID=69639906

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910768755.9A Pending CN110910340A (zh) 2018-08-28 2019-08-20 注解装置和注解方法

Country Status (2)

Country Link
US (1) US11030482B2 (zh)
CN (1) CN110910340A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131499A (zh) * 2020-09-24 2020-12-25 腾讯科技(深圳)有限公司 图像标注方法、装置、电子设备及存储介质

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11321618B2 (en) * 2018-04-25 2022-05-03 Om Digital Solutions Corporation Learning device, image pickup apparatus, image processing device, learning method, non-transient computer-readable recording medium for recording learning program, display control method and inference model manufacturing method
JP7187244B2 (ja) * 2018-10-10 2022-12-12 キヤノンメディカルシステムズ株式会社 医用画像処理装置、医用画像処理システム及び医用画像処理プログラム
JP7049974B2 (ja) * 2018-10-29 2022-04-07 富士フイルム株式会社 情報処理装置、情報処理方法、及びプログラム
US11080884B2 (en) * 2019-05-15 2021-08-03 Matterport, Inc. Point tracking using a trained network
US20210373509A1 (en) * 2020-05-28 2021-12-02 Johnson Controls Technology Company Building system with string mapping based on a statistical model
US11693374B2 (en) 2020-05-28 2023-07-04 Johnson Controls Tyco IP Holdings LLP Building system with string mapping based on a sequence to sequence neural network
JP7124852B2 (ja) * 2020-07-30 2022-08-24 カシオ計算機株式会社 教師データの生成方法、教師データの生成装置及びプログラム
US20220245554A1 (en) * 2021-02-03 2022-08-04 Disney Enterprises, Inc. Tagging Performance Evaluation and Improvement

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012185552A (ja) * 2011-03-03 2012-09-27 Nikon Corp 画像判断装置、画像処理装置、カメラ及び画像判断プログラム
US20150379708A1 (en) * 2010-12-07 2015-12-31 University Of Iowa Research Foundation Methods and systems for vessel bifurcation detection
CN107018292A (zh) * 2015-09-14 2017-08-04 奥林巴斯株式会社 摄像操作引导装置以及摄像操作引导方法
US20180075597A1 (en) * 2016-09-09 2018-03-15 Siemens Healthcare Gmbh Tissue Characterization Based on Machine Learning in Medical Imaging

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8272873B1 (en) * 2000-10-16 2012-09-25 Progressive Language, Inc. Language learning system
JP5423305B2 (ja) * 2008-10-16 2014-02-19 株式会社ニコン 画像評価装置及びカメラ
US9055904B2 (en) * 2009-08-03 2015-06-16 Nike, Inc. Multi-touch display and input for vision testing and training
US8500453B2 (en) * 2009-11-02 2013-08-06 Steve M. Simon Apparatus and method for impact activity learning system
US8597027B2 (en) * 2009-11-25 2013-12-03 Loren J. Staplin Dynamic object-based assessment and training of expert visual search and scanning skills for operating motor vehicles
US8930227B2 (en) * 2012-03-06 2015-01-06 State Farm Mutual Automobile Insurance Company Online system for training novice drivers and rating insurance products
US9396534B2 (en) 2014-03-31 2016-07-19 Toshiba Medical Systems Corporation Medical image processing apparatus and medical image processing system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150379708A1 (en) * 2010-12-07 2015-12-31 University Of Iowa Research Foundation Methods and systems for vessel bifurcation detection
JP2012185552A (ja) * 2011-03-03 2012-09-27 Nikon Corp 画像判断装置、画像処理装置、カメラ及び画像判断プログラム
CN107018292A (zh) * 2015-09-14 2017-08-04 奥林巴斯株式会社 摄像操作引导装置以及摄像操作引导方法
US20180075597A1 (en) * 2016-09-09 2018-03-15 Siemens Healthcare Gmbh Tissue Characterization Based on Machine Learning in Medical Imaging

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
林春漪 等: "基于统计学习的多层医学图像语义建模方法", 深圳大学学报理工版 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131499A (zh) * 2020-09-24 2020-12-25 腾讯科技(深圳)有限公司 图像标注方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
US20200074224A1 (en) 2020-03-05
US11030482B2 (en) 2021-06-08

Similar Documents

Publication Publication Date Title
CN110910340A (zh) 注解装置和注解方法
JP2020035095A (ja) アノテーション装置およびアノテーション方法
US9519753B1 (en) Radiology workflow coordination techniques
US20210049353A1 (en) Ai-based physical function assessment system
KR20190100011A (ko) 수술영상을 이용한 수술정보 제공 방법 및 장치
US20120321131A1 (en) Image-related handling support system, information processing apparatus, and image-related handling support method
CN110458829B (zh) 基于人工智能的图像质控方法、装置、设备及存储介质
CN103262083A (zh) 具有患者特异设置的超声成像系统
WO2021181520A1 (ja) 画像処理システム、画像処理装置、内視鏡システム、インターフェース及び画像処理方法
JP7320856B2 (ja) 生体画像診断システム、生体画像診断方法、及びこれを行うための端末
JP2009527063A (ja) 仮想環境において見本及びデータを使用及び統合するシステム及びその方法
JP2020091702A (ja) 撮像装置および撮像方法
JP2011133984A (ja) 動作特徴抽出装置および動作特徴抽出方法
JP2020123304A (ja) 画像処理システム、撮像装置、画像処理装置、電子機器、これらの制御方法、および、プログラム
KR102040525B1 (ko) 인공지능 기반 부품 검색 시스템
US20060259505A1 (en) Diagnostic information input supporting system apparatus, program and method
JP2019191933A (ja) 学習装置、撮像装置、画像処理装置、および学習方法
JP2011182960A (ja) プログラムおよび情報処理装置
JP7166951B2 (ja) 学習依頼装置、学習装置、推論モデル利用装置、推論モデル利用方法、推論モデル利用プログラム及び撮像装置
JP2020065173A (ja) 画像処理装置、学習装置、画像処理方法、学習方法およびプログラム
JP2017080203A (ja) 情報処理装置、情報処理方法、プログラム
JP2021049262A (ja) 画像処理システム及びその制御方法
JP2009527000A (ja) 鳥インフルエンザウイルスの検出を含むデータ分析および特徴認識のための方法およびシステム
JP2017080200A (ja) 情報処理装置、情報処理方法、プログラム
JP2021049248A (ja) 画像処理システム及びその制御方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20211208

Address after: Tokyo, Japan

Applicant after: Aozhixin Digital Technology Co.,Ltd.

Address before: Tokyo, Japan

Applicant before: OLYMPUS Corp.

WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200324