CN112997214B - 信息处理装置、信息处理方法和程序 - Google Patents
信息处理装置、信息处理方法和程序 Download PDFInfo
- Publication number
- CN112997214B CN112997214B CN201980072799.6A CN201980072799A CN112997214B CN 112997214 B CN112997214 B CN 112997214B CN 201980072799 A CN201980072799 A CN 201980072799A CN 112997214 B CN112997214 B CN 112997214B
- Authority
- CN
- China
- Prior art keywords
- learning
- image
- image data
- unit
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 70
- 238000003672 processing method Methods 0.000 title claims description 10
- 239000000284 extract Substances 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims description 158
- 238000000034 method Methods 0.000 claims description 92
- 238000003384 imaging method Methods 0.000 claims description 87
- 230000008569 process Effects 0.000 claims description 66
- 238000011156 evaluation Methods 0.000 claims description 27
- 238000003860 storage Methods 0.000 claims description 13
- 238000001514 detection method Methods 0.000 claims description 10
- 238000012790 confirmation Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims 1
- 238000004891 communication Methods 0.000 description 31
- 230000005540 biological transmission Effects 0.000 description 28
- 230000006870 function Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 22
- 230000003287 optical effect Effects 0.000 description 22
- 230000004048 modification Effects 0.000 description 18
- 238000012986 modification Methods 0.000 description 18
- 238000006243 chemical reaction Methods 0.000 description 15
- 230000004044 response Effects 0.000 description 14
- 238000002674 endoscopic surgery Methods 0.000 description 13
- 238000003825 pressing Methods 0.000 description 13
- 238000003709 image segmentation Methods 0.000 description 12
- 238000001356 surgical procedure Methods 0.000 description 11
- 238000005286 illumination Methods 0.000 description 7
- 238000010336 energy treatment Methods 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 6
- 239000000203 mixture Substances 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 230000005284 excitation Effects 0.000 description 4
- 230000001678 irradiating effect Effects 0.000 description 4
- 238000004091 panning Methods 0.000 description 4
- 210000004204 blood vessel Anatomy 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000001960 triggered effect Effects 0.000 description 3
- 210000003815 abdominal wall Anatomy 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000003153 chemical reaction reagent Substances 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- MOFVSTNWEDAEEK-UHFFFAOYSA-M indocyanine green Chemical compound [Na+].[O-]S(=O)(=O)CCCCN1C2=CC=C3C=CC=CC3=C2C(C)(C)C1=CC=CC=CC=CC1=[N+](CCCCS([O-])(=O)=O)C2=CC=C(C=CC=C3)C3=C2C1(C)C MOFVSTNWEDAEEK-UHFFFAOYSA-M 0.000 description 2
- 229960004657 indocyanine green Drugs 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 229910044991 metal oxide Inorganic materials 0.000 description 2
- 150000004706 metal oxides Chemical class 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000007789 sealing Methods 0.000 description 2
- 230000001225 therapeutic effect Effects 0.000 description 2
- 208000004350 Strabismus Diseases 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000000740 bleeding effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002224 dissection Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000002073 fluorescence micrograph Methods 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000031700 light absorption Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000003595 mist Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/61—Control of cameras or camera modules based on recognised objects
- H04N23/611—Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/164—Detection; Localisation; Normalisation using holistic features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/166—Detection; Localisation; Normalisation using acquisition arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/64—Computer-aided capture of images, e.g. transfer from script file into camera, check of taken image quality, advice or proposal for image composition or decision on when to take image
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/69—Control of means for changing angle of the field of view, e.g. optical zoom objectives or electronic zooming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Studio Devices (AREA)
- Image Analysis (AREA)
Abstract
一种信息处理设备,其具有学习单元,该学习单元被配置为获取数据,根据预定输入提取该数据中的至少部分范围内的数据,并且基于该至少部分范围内的数据执行学习。
Description
技术领域
本公开涉及信息处理装置、信息处理方法和程序。
背景技术
已经提出了用于评估图像的各种技术。例如,下面的专利文献1描述了一种自动评估图像的构图的设备。在专利文献1中描述的技术中,通过使用学习文件来评估图像的构图,该学习文件是通过使用学习型对象识别算法生成的。
引文列表
专利文献
专利文献1:日本专利申请特许公开No.2006-191524
发明内容
本发明要解决的问题
在专利文献1中描述的技术中,由于构建了使用针对该目的最优的图像和不适合该目的的图像的学习文件,因此存在招致学习处理的成本(以下适当地称为学习成本)的问题。
本公开的一个目的是提供学习成本低的信息处理装置、信息处理方法和程序。
问题解决方案
本公开是例如,
一种信息处理装置,其具有学习单元,该学习单元被配置为获取数据,根据预定输入提取该数据中的至少部分范围内的数据,并且基于该至少部分范围内的数据执行学习。
此外,本公开是例如,
一种信息处理方法,包括:获取数据;根据预定输入提取该数据中的至少部分范围内的数据;并且由学习单元基于该至少部分范围内的数据执行学习。
此外,本公开是例如,
一种用于使计算机执行信息处理方法的程序,包括:获取数据;根据预定输入提取该数据中的至少部分范围内的数据;并且由学习单元基于该至少部分范围内的数据执行学习。
附图说明
图1是示出根据实施例的信息处理系统的配置示例的框图。
图2是示出根据实施例的成像设备的配置示例的框图。
图3是示出根据实施例的相机控制单元的配置示例的框图。
图4是示出根据实施例的自动拍摄控制器的配置示例的框图。
图5是用于解释根据实施例的信息处理系统的操作示例的图。
图6是用于解释根据实施例的自动拍摄控制器的操作示例的图。
图7是用于解释根据实施例的自动拍摄控制器的操作示例的流程图。
图8是示出其中可以设置图像分段位置的UI的示例的视图。
图9是示出用于学习视场角的UI的示例的视图。
图10是在描述由根据实施例的学习单元执行的学习视场角的处理的流程时参考的流程图。
图11是在描述由根据实施例的学习单元执行的学习视场角的处理的流程时参考的流程图。
图12是示出其中显示所生成的学习模型等的UI的示例的视图。
图13是用于解释第一变形例的图。
图14是用于解释第二变形例的图。
图15是示出在第二变形例中执行的处理的流程的流程图。
图16是示意性示出手术室系统的整体配置的图。
图17是示出集中式操作面板上的操作画面的显示示例的视图。
图18是示出向其应用手术室系统的操作的状态的示例的图。
图19是示出图18中所示的摄像头和CCU的功能配置的示例的框图。
具体实施方式
在下文中,将参考附图描述本公开的实施例等。注意的是,将以以下次序给出描述。
<实施例>
<变形例>
<应用示例>
以下描述的实施例等是本公开的优选具体示例,并且本公开的内容不限于这些实施例等。
<实施例>
[信息处理系统的配置示例]
图1是示出根据实施例的信息处理系统(信息处理系统100)的配置示例的图。信息处理系统100具有包括例如成像设备1、相机控制单元2和自动拍摄控制器3的配置。注意的是,相机控制单元也可以被称为基带处理器等。
成像设备1、相机控制单元2和自动拍摄控制器3通过有线或无线方式彼此连接,并且可以彼此发送和接收数据,诸如命令和图像数据。例如,在自动拍摄控制器3的控制下,在成像设备1上执行自动拍摄(更具体而言,工作室拍摄)。有线连接的示例包括使用光电复合电缆的连接和使用光纤电缆的连接。无线连接的示例包括局域网(LAN)、蓝牙(注册商标)、Wi-Fi(注册商标)、无线USB(WUSB)等。注意的是,由成像设备1拍摄的图像(拍摄图像)成像设备1可以是运动图像或静止图像。成像设备1获取高分辨率图像(例如,称为4K或8K的图像)。
[信息处理系统中包括的每个设备的配置示例]
(成像设备的配置示例)
接下来,将描述信息处理系统100中包括的每个设备的配置示例。首先,将描述成像设备1的配置示例。图2是示出成像设备1的配置示例的框图。成像设备1包括成像单元11、A/D转换单元12和接口(I/F)13。
成像单元11具有包括诸如透镜之类的成像光学系统(包括用于驱动这些透镜的机构)和图像传感器的配置。图像传感器是电荷耦合器件(CCD)、互补金属氧化物半导体(CMOS)等。图像传感器将通过成像光学系统入射的物体光光电转换成电荷量,以生成图像。
A/D转换单元12将成像单元11中的图像传感器的输出转换成数字信号,并输出该数字信号。A/D转换单元12将例如一行的像素信号同时转换成数字信号。注意的是,成像设备1可以具有临时保持A/D转换单元12的输出的存储器。
I/F 13提供成像设备1和外部设备之间的接口。经由I/F 13,拍摄图像从成像设备1输出到相机控制单元2和自动拍摄控制器3。
(相机控制单元的配置示例)
图3是示出相机控制单元2的配置示例的框图。相机控制单元2具有例如输入单元21、相机信号处理单元22、存储单元23和输出单元24。
输入单元21是要从外部设备输入命令和各种数据的接口。
相机信号处理单元22执行已知的相机信号处理,诸如白平衡调整处理、颜色校正处理、伽玛校正处理、Y/C转换处理和自动曝光(AE)处理。此外,相机信号处理单元22根据自动拍摄控制器3的控制执行图像分段处理,以生成具有预定视场角的图像。
存储单元23存储由相机信号处理单元22进行了相机信号处理的图像数据等。存储单元23的示例包括诸如硬盘驱动器(HDD)之类的磁存储设备、半导体存储设备、光学存储设备、磁光存储设备等。
输出单元24是用于输出由相机信号处理单元22进行了相机信号处理的图像数据等的接口。注意的是,输出单元24可以是与外部设备通信的通信单元。
(自动拍摄控制器的配置示例)
图4是示出自动拍摄控制器3的配置示例的框图,该自动拍摄控制器3是信息处理装置的示例。自动拍摄控制器3由个人计算机、平板型计算机、智能电话等构成。自动拍摄控制器3具有例如输入单元31、面部识别处理单元32、处理单元33、阈值判定处理单元34、输出单元35和操作输入单元36。处理单元33具有学习单元33A和视场角判定处理单元33B。在本实施例中,处理单元33和阈值判定处理单元34与权利要求中的判定单元对应,并且操作输入单元36与权利要求中的输入单元对应。
根据本实施例的自动拍摄控制器3执行与控制阶段对应的处理和与学习阶段对应的处理。控制阶段是以下阶段:使用由学习单元33A生成的学习模型来执行评估,并且在播出(on-air)期间生成图像,其具有被确定为适当的结果(例如,适当的视场角)作为评估的结果。播出意味着拍摄以获取当前正在广播或将来将要广播的图像。学习阶段是学习单元33A进行学习的阶段。学习阶段是当存在用于指示学习开始的输入时要进入的阶段。
分别与控制阶段和学习阶段相关的处理可以同时并行执行,或者可以在不同的定时执行。假设以下模式作为同时执行分别与控制阶段和学习阶段相关的处理的情况。
例如,当在播出期间给出用于切换到转变为学习阶段的模式的触发器时,基于该时段期间的图像来创建和学习教师数据。在学习结束后,学习结果被反映在同一播出中控制阶段的处理过程中。
假设以下模式作为在不同定时执行分别与控制阶段和学习阶段相关的处理的情况。
例如,在一次播出期间(在一些情况下,多次播出)收集的教师数据在存储单元(例如,自动拍摄控制器3的存储单元)等中累积之后被学习,并且这个学习结果将在下一次及其后的播出中用在控制阶段中。
与控制阶段和学习阶段相关的处理的结束定时(触发结束)可以是同时的或不同的。
基于以上内容,将描述自动拍摄控制器3的配置示例等。
输入单元31是要从外部设备输入命令和各种数据的接口。
面部识别处理单元32通过响应于预定输入(例如,用于指示拍摄开始的输入)而对经由输入单元31输入的图像数据执行已知的面部识别处理来检测作为特征的示例的面部区域。然后,生成其中面部区域被符号化的特征图像。在此,符号化意味着在特征部分与其它部分之间进行区分。面部识别处理单元32生成例如特征图像,在该特征图像中,将检测到的面部区域和除面部区域以外的区域以不同的级别进行二值化。生成的特征图像被用于控制阶段中的处理。此外,生成的特征图像还被用于学习阶段中的处理。
如上所述,处理单元33具有学习单元33A和视场角判定处理单元33B。学习单元33A和视场角判定处理单元33B例如基于使用自动编码器的算法进行操作。自动编码器是一种学习神经网络的机构,其可以通过优化网络参数来高效地执行数据的维度压缩,以便输出尽可能多地再现输入,换句话说,输入与输出之间的差是0。
学习单元33A获取生成的特征图像,响应于预定输入(例如,用于指示学习起点的输入)而提取所获取的特征图像的图像数据的至少部分范围中的数据,并基于至少部分范围中的提取出的图像数据来执行学习。具体而言,学习单元33A在基于作为用户期望的图像的正确答案图像(具体而言,在拍摄期间经由输入单元31获取的正确答案图像(在本实施例中,具有适当视场角的图像))而生成的特征图像的图像数据的基础上,根据用于指示学习开始的输入来执行学习。更具体而言,学习单元33A使用其中通过面部识别处理单元32重构与正确答案图像对应的图像数据的特征图像(在本实施例中,面部区域和其它区域被二值化的特征图像)作为学习对象图像数据(教师数据),并根据用于指示学习开始的输入执行学习。注意的是,预定输入除了用于指示学习起点的输入之外还可以包括用于指示学习终点的输入。在这种情况下,学习单元33A提取在从学习起点到学习终点的范围内的图像数据,并且基于提取出的图像数据执行学习。此外,学习起点可以指示学习单元33A开始学习的定时,或者可以指示学习单元33A开始获取要用于学习的教师数据的定时。类似地,学习终点可以指示学习单元33A结束学习的定时,或者可以指示学习单元33A结束获取要用于学习的教师数据的定时。
注意的是,本实施例中的学习意味着通过使用二值化的特征图像作为输入来生成用于输出评估值的模型(神经网络)。
视场角判定处理单元33B使用由学习单元33A获得的学习结果,并且使用由面部识别处理单元32生成的特征图像来计算经由输入单元31获得的图像数据的视场角的评估值。视场角判定处理单元33B将计算出的评估值输出到阈值判定处理单元34。
阈值判定处理单元34将从视场角判定处理单元33B输出的评估值与预定阈值进行比较。然后,基于比较结果,阈值判定处理单元34判定经由输入单元31获取的图像数据中的视场角是否合适。例如,在比较的结果是评估值小于阈值的情况下,阈值判定处理单元34判定经由输入单元31获取的图像数据中的视场角合适。此外,在比较的结果是评估值大于阈值的情况下,阈值判定处理单元34判定经由输入单元31获取的图像数据中的视场角不合适。在确定视场角不合适的情况下,阈值判定处理单元34输出指定图像分段位置的分段位置指示命令,以便获得适当的视场角。注意的是,在控制阶段中执行视场角判定处理单元33B和阈值判定处理单元34中的处理。
输出单元35是输出由自动拍摄控制器3生成的数据和命令的接口。注意的是,输出单元35可以是与外部设备(例如,服务器设备)通信的通信单元。例如,上述分段位置指示命令经由输出单元35被输出到相机控制单元2。
操作输入单元36是用户界面(UI),其总体上是指接受操作输入的配置。操作输入单元36具有例如操作部分,诸如显示部分、按钮和触摸面板。
[信息处理系统的操作示例]
(整个信息处理系统的操作示例)
接下来,将描述根据实施例的信息处理系统100的操作示例。以下描述是在控制阶段中信息处理系统100的操作的示例。图5是用于解释由信息处理系统100执行的操作示例的图。通过成像设备1执行成像操作,获取图像。成像设备1开始获取图像的触发器可以是成像设备1的预定输入,或者可以是从自动拍摄控制器3传输的命令。如图5中所示,例如,通过成像设备1获取其中捕获了两个人的双人拍摄图像IM1。由成像设备1获取的图像被供应给相机控制单元2和自动拍摄控制器3中的每一个。
自动拍摄控制器3确定图像IM1的视场角是否合适。在图像IM1的视场角合适的情况下,图像IM1被存储在相机控制单元2中或从相机控制单元2输出到另一个设备。在图像IM1的视场角不合适的情况下,从自动拍摄控制器3向相机控制单元2输出分段位置指示命令。接收到分段位置指示指令的相机控制单元2在与分段位置指示指令对应的位置处对图像进行分段。如图5中所示,响应于分段位置指示命令而被分段的图像的视场角可以是整体视场角(图5中所示的图像IM2)、其中捕获一个人的单人拍摄图像(图5中所示的图像IM3)等。
(自动拍摄控制器的操作示例)
接下来,将参考图6描述在控制阶段中自动拍摄控制器的操作示例。如上所述,例如,图像IM1由成像设备1获取。图像IM1被输入到自动拍摄控制器3。自动拍摄控制器3的面部识别处理单元32对图像IM1执行面部识别处理320。作为面部识别处理320,可以应用已知的面部识别处理。面部识别处理320在图像IM1中检测作为人的面部区域的面部区域FA1和面部区域FA2,如在图6中由附图标记AA给出的部分处示意性示出的。
然后,面部识别处理单元32生成特征图像,在该特征图像中,作为特征的示例的面部区域FA1和面部区域FA2被符号化。例如,如在图6中由附图标记BB给出的部分处示意性示出的,生成二值化图像IM1A,其中面部区域FA1和面部区域FA2与其它区域区分开。面部区域FA1和面部区域FA2例如由白色级别定义,而非面部区域(阴影线区域)由黑色级别定义。二值化图像IM1A的图像分段位置PO1被输入到处理单元33的视场角判定处理单元33B。注意的是,图像分段位置PO1是例如预设为用于相对于检测到的面部区域(在这个示例中为面部区域FA1和面部区域FA2)进行预定范围的分段的位置的范围。
视场角判定处理单元33B基于图像分段位置PO1计算图像IM1的视场角的评估值。使用已经学习到的学习模型来计算图像IM1的视场角的评估值。如上所述,在本实施例中,由自动编码器计算评估值。在使用自动编码器的方法中,使用其中通过利用正常数据之间的关系和模式以尽可能少的损失压缩和重构数据的模型。在使用这个模型处理正常数据(即,具有适当视场角的图像数据)的情况下,数据损失小。换句话说,压缩之前的原始数据与重构之后的数据之间的差异变小。在本实施例中,这个差异与评估值对应。即,随着图像的视场角更合适,评估值变得更小。但是,在处理异常数据(即,具有不合适的视场角的图像数据)的情况下,数据损失变大。换句话说,作为压缩之前的原始数据与重构之后的数据之间的差异的评估值变大。视场角判定处理单元33B将获得的评估值输出到阈值判定处理单元34。在图6所示的示例中,“0.015”被示为评估值的示例。
阈值判定处理单元34执行阈值判定处理340,以将从视场角判定处理单元33B供应的评估值与预定阈值进行比较。作为比较的结果,在评估值大于阈值的情况下,确定图像IM1的视场角不合适。然后,执行分段位置指示命令输出处理350,其中经由输出单元35输出指示用于实现适当视场角的图像分段位置的分段位置指示命令。分段位置指示命令被供应给相机控制单元2。然后,相机控制单元2的相机信号处理单元22在图像IM1上执行在由分段位置指示命令指示的位置处对图像分段的处理。注意的是,作为比较的结果,在评估值小于阈值的情况下,不输出分段位置指示命令。
图7是示出在控制阶段中由自动拍摄控制器3执行的处理的流程的流程图。当处理开始时,在步骤ST11中,面部识别处理单元32对经由成像设备1获取的图像执行面部识别处理。然后,处理前进到步骤ST12。
在步骤ST12中,面部识别处理单元32执行图像转换处理,并且这种处理生成诸如二值化图像之类的特征图像。特征图像中的图像分段位置被供应给视场角判定处理单元33B。然后,过程前进到步骤ST13。
在步骤ST13中,视场角判定处理单元33B获得评估值,并且阈值判定处理单元34执行阈值判定处理。然后,过程前进到步骤ST14。
在步骤ST14中,作为阈值判定处理的结果,确定视场角是否合适。在视场角合适的情况下,处理结束。在视场角不合适的情况下,处理前进到步骤ST15。
在步骤ST15中,阈值判定处理单元34经由输出单元35将分段位置指示命令输出到相机控制单元2。然后,处理结束。
注意的是,每次拍摄时合适的视场角都会不同。因此,视场角判定处理单元33B和阈值判定处理单元34可以在每次拍摄确定视场角是否合适。具体而言,通过提供多个视场角判定处理单元33和阈值判定处理单元34以便确定每次拍摄的视场角,可以响应于用户期望拍摄的单人拍摄的视场角或双人拍摄的视场角来确定视场角是否合适。
[图像分段位置的设置]
接下来,将给出调整由分段位置指示命令指定的图像分段位置(即,调整视场角)并设置经调整的结果的示例的描述。图8是示出其中可以设置图像的分段位置的UI(UI 40)的示例的视图。UI 40包括显示部分41,并且显示部分41显示两个人和这两个人的面部区域(面部区域FA4和FA5)。此外,显示部分41示出相对于面部区域FA4和FA5的图像分段位置PO4。
此外,在显示部分41的右侧,显示包括在直线上显示的一个圆圈的变焦调整部分42。通过将圆圈移动到一端来放大显示部分41的显示图像,并且通过将圆圈移动到另一端来缩小显示部分41的显示图像。在变焦调整部分42的下侧,显示包括十字键的位置调整部分43。通过适当地操作位置调整部分43的十字键,可以调整图像分段位置PO4的位置。
注意的是,虽然图8示出了用于调整双人拍摄的视场角的UI,但是也有可能使用UI40来调整单人拍摄的视场角等。用户可以使用操作输入单元36来适当地操作UI 40中的变焦调整部分42和位置调整部分43,以使得能够进行与每次拍摄对应的视场角调整,诸如在左侧具有空白,在右侧具有空白,或变焦。注意的是,可以保存通过使用UI 40获得的视场角调整结果,并且可以稍后将其作为预设来调用(recall)。
[关于视场角的学习]
接下来,将给出由自动拍摄控制器3的学习单元33A执行的视场角的学习(即,学习阶段中的处理)的描述。学习单元33A学习例如场景之间的对应关系以及针对每个场景的拍摄条件或编辑条件中的至少一个。在此,场景包括构图。构图是拍摄期间整体画面的配置。具体而言,构图的示例包括人相对于视场角的位置关系,更具体而言,诸如单人拍摄、双人拍摄、在左侧具有空白的单人拍摄以及在右侧具有空白的单人拍摄。这种场景可以由用户指定,如稍后所述。拍摄条件是可以在拍摄期间被调整的条件,并且其具体示例包括屏幕亮度(虹膜增益)、变焦等。编辑条件是可以在拍摄或记录确认期间进行调整的条件,并且其具体示例包括分段视场角、亮度(增益)和图像质量。在本实施例中,将描述学习作为编辑条件之一的视场角的示例。
学习单元33A基于响应于预定输入而获取的数据(在本实施例中为图像数据)响应于用于指示学习开始的输入而执行学习。例如,考虑其中使用成像设备1执行工作室拍摄的示例。在这种情况下,由于在播出期间(拍摄期间)将图像用于广播等,因此表演者的视场角很可能是合适的。但是,在不在播出期间的情况下,即使成像设备1正在获取图像,成像设备1也不移动,并且表演者的面部表情很可能会保持放松并且其移动会不同。即,例如,在播出期间获取的图像的视场角可能是合适的,而不在播出期间的情况下获取的图像的视场角可能是不合适的。
因此,学习单元33A将前者学习为正确答案图像。通过仅使用正确答案图像而不使用不正确答案图像的学习使得能够在学习单元33A学习时降低学习成本。此外,不必给图像数据加上正确答案或不正确答案的标签,也不必获取不正确答案图像。
此外,在本实施例中,学习单元33A通过使用由面部识别处理单元32生成的特征图像(例如,二值化图像)作为学习对象图像数据来执行学习。通过使用其中符号化诸如面部区域之类的特征的图像,可以降低学习成本。在本实施例中,由于将由面部识别处理单元32生成的特征图像用作学习对象图像数据,因此面部识别处理单元32用作学习对象图像数据生成单元。当然,除了面部识别处理单元32之外,可以提供与学习对象图像数据生成单元对应的功能块。在下文中,将详细描述由学习单元33A执行的学习。
(在学习视场角中使用的UI的示例)
图9是示出在由自动拍摄控制器3学习视场角时使用的UI(UI 50)的示例的图。UI50是例如用于使学习单元33A学习单人拍摄的视场角的UI。可以通过例如使用操作输入单元36的操作来适当地改变学习对象的场景。UI 50包括例如显示部分51和显示在显示部分51上的学习视场角选择部分52。学习视场角选择部分52是能够指定用于学习的学习对象图像数据(在本实施例中为特征图像)的范围的UI,其中,在本实施例中,可以选择“整体”和“当前分段位置”。当选择学习视场角选择部分52的“整体”,整体特征图像被用于学习。当选择学习视场角选择部分52的“当前分段位置”时,在预定位置处分段的特征图像被用于学习。这里的图像分段位置是例如使用图8设置的分段位置。
UI 50还包括例如显示在显示部分51上的拍摄开始按钮53A和学习按钮53B。拍摄开始按钮53A是例如标有红色圆圈的按钮(记录按钮),并且用于指示拍摄开始。学习按钮53B是例如用于指示学习开始的矩形按钮。当做出了按下拍摄开始按钮53A的输入时,成像设备1开始拍摄,并且基于通过拍摄获取的图像数据来生成特征图像。当按下学习按钮53B时,由学习单元33A使用生成的特征图像来执行学习。注意的是,拍摄开始按钮53A不需要链接到拍摄开始,并且可以在任何定时操作。
(学习视场角的过程的流程)
接下来,参考图10和11的流程图,将描述在学习阶段中由学习单元33A执行的处理的流程。图10是示出当按下拍摄开始按钮53A以指示拍摄开始时执行的处理的流程的流程图。当处理开始时,经由成像设备1获取的图像经由输入单元31被供应给自动拍摄控制器3。在步骤ST22中,由面部识别处理单元32通过面部识别处理来检测面部区域。然后,处理前进到步骤ST22。
在步骤ST22中,面部识别处理单元32检查UI 50中的学习视场角选择部分52的设置。在学习视场角选择部分52的设置为“整体”的情况下,处理前进到步骤ST23。在步骤ST23中,面部识别处理单元32执行用于生成整个图像的二值化图像的图像转换处理,如在图10中由附图标记CC给出的部分示意性示出的。然后,处理前进到步骤ST25,并且存储(保存)整个生成的图像的二值化图像(静止图像)。整个图像的二值化图像可以存储在自动拍摄控制器3中,或者可以经由输出单元35传输到外部设备并存储在外部设备中。
在步骤ST22的判定处理中,在学习视场角选择部分52的设置为“当前分段位置”的情况下,处理前进到步骤ST24。在步骤ST24中,面部识别处理单元32执行图像转换处理以生成在预定分段位置处分段的图像的二值化图像,如在图10中由附图标记DD给出的部分中示意性示出的。然后,处理前进到步骤ST25,并且存储(保存)生成的分段图像的二值化图像(静止图像)。与整体图像的二值化图像相似,分段图像的二值化图像可以被存储在自动拍摄控制器3中,或者可以经由输出单元35被发送到外部设备并被存储在外部设备中。
图11是示出当按下学习按钮53B以指示学习开始时(即,当进入学习阶段时)执行的处理的流程的流程图。当处理开始时,在步骤ST31中,学习单元33A通过使用当按下拍摄开始按钮53A时生成的特征图像(具体而言,在步骤ST23和步骤ST24中生成并在步骤ST25中存储的特征图像)作为学习对象图像数据来开始学习。然后,处理前进到步骤ST32。
在本实施例中,学习单元33A通过自动编码器执行学习。在步骤ST32中,学习单元33A对准备进行学习的学习对象图像数据执行压缩和重构处理,以生成与学习对象图像数据匹配的模型(学习模型)。当学习单元33A的学习结束时,生成的学习模型被存储(保存)在存储单元(例如,自动拍摄控制器3的存储单元)中。可以经由输出单元35将生成的学习模型输出到外部设备,并且可以将学习模型存储在外部设备中。然后,处理前进到步骤ST33。
在步骤ST33中,由学习单元33A生成的学习模型被显示在UI上。例如,生成的学习模型被显示在自动拍摄控制器3的UI上。图12是示出其中显示学习模型的UI(UI 60)的示例的视图。UI 60包括显示部分61。在显示部分61的中心附近,显示作为学习结果而获得的学习模型(在本实施例中为视场角)62。
在将生成的学习模型存储为预设时,UI 60可以被用于设置学习模型的预设名称等。例如,UI 60具有“预设名称”作为项目63,并且具有“拍摄类型”作为项目64。在示出的示例中,将“中心”设置为“预设名称”,并且将“单人拍摄”设置为“拍摄类型”。
作为学习结果而生成的学习模型被用在阈值判定处理单元34的阈值判定处理中。因此,在本实施例中,UI 60包括“松散判定阈值”作为项目65,这使得能够设置用于判定视场角是否合适的阈值。例如,通过启用阈值的设置,相机操作者变得有可能设置允许视场角有多少偏差。在示出的示例中,将“0.41”设置为“松散判定阈值”。而且,可以通过使用变焦调整部分66和包括十字键的位置调整部分67来调整与学习模型对应的视场角。例如,通过按下显示为“另存为”的按钮68来存储具有各种设置的学习模型。注意的是,在过去已经生成相似场景的学习模型的情况下,新生成的学习模型可以被覆盖并保存在过去生成的学习模型上。
在图12所示的示例中,显示了已经获得的两个学习模型。第一学习模型是与在左侧具有空白的单人拍摄的视场角对应的学习模型,并且是将0.41设置为松散判定阈值的学习模型。第二学习模型是与双人拍摄中的中心的视场角对应的学习模型,并且是将0.17设置为松散判定阈值的学习模型。以这种方式,针对每个场景存储学习模型。
注意的是,在上述示例中,例如,可以例如通过再次按下拍摄开始按钮53A来停止拍摄。此外,可以通过再次按下学习按钮53B来结束与学习阶段相关的处理。此外,可以通过再次按下拍摄开始按钮53A来同时结束拍摄和学习。如上所述,用于拍摄开始的触发器、用于学习开始的触发器、用于拍摄结束的触发器和用于学习结束的触发器可以是独立的操作。在这种情况下,可以按下单人拍摄开始按钮53A,并且可以在拍摄开始之后的拍摄期间按下学习按钮53B,并且可以在播出期间的预定定时(在播出开始、在播出的中间等)执行与学习阶段相关的处理。
此外,在上述示例中,两个单独的按钮被分别用作拍摄开始按钮53A和学习按钮53B。但是,可以仅使用一个按钮,并且这一个按钮可以用作拍摄开始的触发器和学习开始的触发器。即,用于拍摄开始的触发器和用于学习开始的触发器可以是共同的操作。具体而言,通过按下一个按钮,可以指示拍摄开始,并且可以基于通过拍摄获得的图像(在本实施例中为特征图像)与拍摄并行地进行学习单元33A的学习。还有可能执行用于确定通过拍摄获得的图像的视场角是否合适的处理。换句话说,控制阶段中的处理和学习阶段中的处理可以并行执行。注意的是,在这种情况下,通过按下上述一个按钮,可以停止拍摄,并且也可以结束与学习阶段相关的过程。即,用于拍摄结束的触发器和用于学习结束的触发器可以是共同的操作。
此外,如上述示例中那样,在其中提供有两个按钮(诸如拍摄开始按钮53A和学习按钮53B)的示例中,即,在用于拍摄开始的触发器和用于学习开始的触发器用独立的操作执行时,可以提供一个按钮以便用一个操作结束拍摄和学习阶段中的处理。即,用于拍摄开始的触发器和用于学习开始的触发器可以是不同的操作,并且用于拍摄结束的触发器和用于学习结束的触发器可以是共同的操作。
例如,可以通过除再次按下按钮以外的操作来触发拍摄的结束或学习阶段中的处理。例如,可以在拍摄(播出)结束的同时结束拍摄和学习阶段中的处理。例如,当没有指示拍摄正在进行的提示信号的输入时,学习阶段中的处理可以自动结束。此外,还可以通过提示信号的输入来触发学习阶段中的处理的开始。
上面已经描述了本公开的实施例。
根据本实施例,例如,可以在用户期望获取教师数据的任何定时输入用于学习开始的触发器(用于转变到学习阶段的触发器)。此外,由于仅基于响应于学习开始的触发器而获取的正确答案图像的至少一部分来执行学习,因此可以降低学习成本。此外,在工作室拍摄等情况下,通常不拍摄不正确答案图像。但是,在实施例中,由于在学习期间不使用不正确答案图像,因此不必获取不正确答案图像。
此外,在实施例中,作为学习的结果而获得的学习模型被用于确定视场角是否合适。然后,在视场角不合适的情况下,自动校正图像分段位置。因此,相机操作者不必操作成像设备来获取具有适当视场角的图像,并且有可能使在手动执行的拍摄中的一系列操作自动化。
<变形例>
虽然上面已经具体描述了本公开的实施例,但是本公开的内容不限于上述实施例,并且基于本公开的技术思想的各种变形例是可能的。在下文中,将描述变形例。
[第一变形例]
图13是用于解释第一变形例的图。第一变形例与实施例的不同之处在于,成像设备1是PTZ相机1A,并且相机控制单元2是PTZ控制设备2A。PTZ相机1A是其中可以通过遥控器进行摇摄(全景视图的缩写)、倾斜的控制和变焦的控制的相机。摇摄是相机的视场角在水平方向上移动(在水平方向上摆动)的控制,倾斜是相机的视场角在垂直方向上移动(在垂直方向上摆动)的控制,并且变焦是扩大和减小显示的视角的控制。PTZ控制设备2A响应于从自动拍摄控制器3供应的PTZ位置指示命令来控制PTZ相机1A。
将描述在第一变形例中执行的处理。由PTZ相机1A获取的图像被供应给自动拍摄控制器3。如实施例中所描述的,自动拍摄控制器3使用通过学习获得的学习模型来确定所供应的图像的视场角是否合适。在图像的视场角不合适的情况下,将指示用于实现适当视场角的PTZ位置的命令输出到PTZ控制设备2A。PTZ控制设备2A响应于从自动拍摄控制器3供应的PTZ位置指示命令来适当地驱动PTZ相机1A。
例如,如图13中所示,考虑其中在图像IM10中以适当视场角显示女性HU1的示例。假定女性HU1在诸如站立时向上移动。由于女性HU1的移动而使得视场角偏离适当的视场角,因此自动拍摄控制器3生成用于实现适当视场角的PTZ位置指示命令。响应于PTZ位置指示命令,PTZ控制设备2A在倾斜方向上驱动例如PTZ相机1A。通过这样的控制,可以获得具有适当视场角的图像。以这种方式,为了获得具有适当视场角的图像,可以从自动拍摄控制器3输出PTZ位置指令(关于平移、倾斜或变焦中的至少一个的指令)来代替图像分段位置。
[第二变形例]
图14是用于解释第二变形例的图。根据第二变形例的信息处理系统(信息处理系统100A)除了成像设备1、相机控制单元2和自动拍摄控制器3之外,还具有切换器5和自动切换控制器6。成像设备1、相机控制单元2和自动拍摄控制器3的操作与上述实施例中描述的操作相似。自动拍摄控制器3确定视场角是否适合于每个场景,并且根据结果适当地将分段位置指示命令输出到相机控制单元2。相机控制单元2针对每个场景输出具有适当视场角的图像。来自相机控制单元2的多个输出被供应给切换器5。切换器5根据自动切换控制器6的控制从相机控制单元2供应的多个图像中选择并输出预定图像。例如,切换器5响应于从自动切换控制器6供应的切换命令而从相机控制单元2供应的多个图像中选择并输出预定图像。
通过自动切换控制器6输出用于切换图像的切换命令的条件的示例包括以下例示的条件。
例如,自动切换控制器6输出切换命令,以便以预定时间间隔(例如,每10秒)随机地切换诸如单人拍摄或双人拍摄之类的场景。
自动切换控制器6根据广播内容输出切换命令。例如,在表演者讲话的模式下,输出用于选择具有整体视场角的图像的切换命令,并且从切换器5输出所选择的图像(例如,图14中所示的图像IM20)。此外,例如,当广播VTR时,输出用于选择在预定位置处分段的图像的切换命令,并且如图14中所示的图像IM21中所示,所选择的图像被用于画中画(PinP)。通过适当的方法将广播内容切换到VTR的定时输入到自动切换控制器6。注意的是,在PinP模式下,可以连续切换具有不同人物的单人拍摄图像。此外,在广播表演者的模式中,可以切换图像,使得从远处捕获的图像(整体图像)和单人拍摄的图像不连续。
此外,自动切换控制器6可以输出切换命令,该切换命令用于选择具有由自动拍摄控制器3计算出的最低评估值的图像(即,具有小误差并且具有更适当视场角的图像)。
此外,可以通过已知方法识别扬声器,并且自动切换控制器6可以输出用于切换到包括扬声器的拍摄的图像的切换命令。
注意的是,在图14中,从相机控制单元2输出了两条图像数据,但是可以输出更多条图像数据。
图15是示出第二变形例中由自动拍摄控制器3执行的处理的流程的流程图。在步骤ST41中,由面部识别处理单元32执行面部识别处理。然后,处理前进到步骤ST42。
在步骤ST42中,面部识别处理单元32执行图像转换处理以生成特征图像,诸如二值化图像。然后,处理前进到步骤ST43。
在步骤ST43中,根据由视场角判定处理单元33B和阈值判定处理单元34执行的过程,确定图像的视场角是否合适。步骤ST41至ST43的处理与实施例中描述的过程相同。然后,处理前进到步骤ST44。
在步骤ST44中,自动切换控制器6执行用于选择具有预定视场角的图像的视场角选择处理。要选择的图像的条件和视场角如上所述。然后,处理前进到步骤ST45。
在步骤ST45中,自动切换控制器6生成用于选择在步骤ST44的处理中确定的视场角的图像的切换命令,并将生成的切换命令输出到切换器5。切换器5选择具有由切换命令指定的视场角的图像。
[其他变形例]
将描述其他变形例。由自动拍摄控制器3执行的机器学习不限于自动编码器,并且可以是另一种方法。
在并行执行控制阶段中的过程和学习阶段中的处理的情况下,通过控制阶段中的过程确定为视场角不合适的图像可能无法被用作学习阶段中的教师数据,或可能被丢弃。此外,可以改变用于确定视场角的适当性的阈值。对于更严格的评估,阈值可以改变为更低,而对于较宽松的评估,阈值可以改变为较高。可以在UI屏幕上改变阈值,并且可以在UI屏幕上警告和通知阈值的改变。
图像中包括的特征不限于面部区域。例如,特征可以是图像中包括的人的姿势。在这种情况下,将面部识别处理单元替换为执行用于检测姿势的姿势检测处理的姿势检测单元。作为姿势检测处理,可以应用已知的方法。例如,可以应用检测图像中的特征点并基于检测到的特征点来检测姿势的方法。特征点的示例包括基于卷积神经网络(CNN)的特征点、定向梯度直方图(HOG)特征点和基于尺度不变特征变换(SIFT)的特征点。然后,可以将特征点的一部分设置为例如包括方向分量的预定像素水平,并且可以生成与特征点以外的部分区分开的特征图像。
预定输入(本实施例中的拍摄开始按钮53A和学习按钮53B)不限于触摸或点击屏幕,并且可以是对物理按钮等的操作,或者可以是语音输入或手势输入。此外,预定输入可以是由设备执行的自动输入,而不是基于人的输入。
在实施例中,已经给出了将由成像设备1获取的图像数据供应给相机控制单元2和自动拍摄控制器3中的每一个的示例的描述,但是本发明不限于此。例如,可以将由成像设备1获取的图像数据供应给相机控制单元2,并且可以将经过相机控制单元2进行预定信号处理的图像数据供应给自动拍摄控制器3。
响应于预定输入而获取的数据可以是语音数据而不是图像数据。例如,诸如智能扬声器之类的代理可以基于在进行预定输入之后获取的语音数据来执行学习。注意的是,学习单元33A可以负责代理的一些功能。
信息处理装置可以是图像编辑设备。在这种情况下,基于响应于预定输入而获取的图像数据(例如,用于指示编辑开始的输入),根据用于指示学习开始的输入来执行学习。此时,预定输入可以是通过按下编辑按钮的输入(触发器),并且用于指示学习开始的输入可以是通过按下学习按钮的输入(触发器)。
用于编辑开始的触发器、用于学习开始的触发器、用于编辑结束的触发器和用于学习结束的触发器可以彼此独立。例如,当进行按下编辑开始按钮的输入时,开始处理单元的编辑处理,并且基于通过编辑获取的图像数据生成特征图像。当按下学习按钮时,由学习单元使用生成的特征图像来执行学习。此外,可以通过再次按下编辑开始按钮来停止编辑。此外,用于编辑开始的触发器、用于学习开始的触发器、用于编辑结束的触发器和用于学习结束的触发器可以是共同的。例如,可以将编辑按钮和学习按钮作为一个按钮提供,并且可以通过按下一个按钮来结束编辑并且可以结束与学习阶段相关的处理。
此外,除了如上所述通过用户的操作进行的学习开始的触发以外,例如,编辑开始还可以通过启动编辑设备的指令(启动编辑应用)或将编辑数据(视频数据)导入编辑设备的指令来触发。
可以适当地改变根据实施例和变形例的信息处理系统的配置。例如,成像设备1可以是其中成像设备1与相机控制单元2或自动拍摄控制器3的至少一个配置集成的设备。此外,相机控制单元2和自动拍摄控制器3可以被配置为集成设备。此外,自动拍摄控制器3可以具有存储教师数据(在该实施例中为二值化图像)的存储单元。此外,可以将教师数据输出到相机控制单元2,以使自动拍摄控制器3共享存储在相机控制单元2和自动拍摄控制器3中的教师数据。
本公开还可以通过装置、方法、程序、系统等来实现。例如,通过使得能够下载和安装执行以上实施例中描述的功能的程序,并由不具有实施例中描述的功能的装置下载和安装该程序,可以在该装置中执行实施例中描述的控制。本公开还可以通过分发这种程序的服务器来实现。此外,可以适当地组合实施例和变形例中描述的项目。
注意的是,本公开的内容不应当被解释为受本公开中示例的效果的限制。
本公开可以具有以下配置。
(1)一种信息处理装置,其具有学习单元,该学习单元被配置为获取数据,根据预定输入提取该数据中的至少部分范围内的数据,并且基于该至少部分范围内的数据执行学习。
(2)根据(1)所述的信息处理装置,其中
数据是基于与拍摄期间获取的图像对应的图像数据的数据。
(3)根据(1)或(2)所述的信息处理装置,其中
预定输入是指示学习起点的输入。
(4)根据(3)所述的信息处理装置,其中
预定输入是还指示学习终点的输入。
(5)根据(4)所述的信息处理装置,其中
学习单元提取从学习起点到学习终点的范围内的数据。
(6)根据(2)至(5)中的任一项所述的信息处理装置,还包括:
学习对象图像数据生成单元,其被配置为对图像数据执行预定处理,并基于预定处理的结果生成通过重构图像数据而获得的学习对象图像数据,其中
学习单元基于学习对象图像数据来执行学习。
(7)根据(6)所述的信息处理装置,其中
学习对象图像数据是通过预定处理检测到的特征被符号化而得到的图像数据。
(8)根据(6)所述的信息处理装置,其中
预定处理是面部识别处理,并且学习对象图像数据是通过面部识别处理获得的面部区域与其它区域区分开的图像数据。
(9)根据(6)所述的信息处理装置,其中
预定处理是姿势检测处理,并且学习对象图像数据是通过姿势检测处理获得的特征点区域与其它区域区分开的图像数据。
(10)根据(1)至(9)中的任一项所述的信息处理装置,其中
显示基于学习的结果的学习模型。
(11)根据(1)至(10)中的任一项所述的信息处理装置,其中
学习单元针对场景中的每一个来学习场景与拍摄条件或编辑条件中的至少一个之间的对应关系。
(12)根据(11)所述的信息处理装置,其中
场景是由用户指定的场景。
(13)根据(11)所述的信息处理装置,其中
场景是人相对于视场角的位置关系。
(14)根据(11)所述的信息处理装置,其中
拍摄条件是在拍摄期间可以被调整的条件。
(15)根据(11)所述的信息处理装置,其中
编辑条件是在拍摄期间或记录确认期间可以被调整的条件。
(16)根据(11)所述的信息处理装置,其中
针对场景中的每一个存储由学习单元获得的学习结果。
(17)根据(16)所述的信息处理装置,其中
学习结果被存储在能够与信息处理装置进行通信的服务器设备中。
(18)根据(16)所述的信息处理装置,还包括:
判定单元,其被配置为进行使用学习结果的判定。
(19)根据(2)至(19)中的任一项所述的信息处理装置,还包括:
输入单元,其被配置为接受预定输入;以及
成像单元,其被配置为获取图像数据。
(20)一种信息处理方法,包括:获取数据;根据预定输入提取该数据中的至少部分范围内的数据;并且由学习单元基于该至少部分范围内的数据执行学习。
(21)一种用于使计算机执行信息处理方法的程序,包括:获取数据;根据预定输入提取该数据中的至少部分范围内的数据;并且由学习单元基于该至少部分范围内的数据执行学习。
<应用示例>
根据本公开的技术可以应用于各种产品。例如,根据本公开的技术可以被应用于手术室系统。
图16是示意性示出可以应用根据本公开的技术的手术室系统5100的整体配置的图。参考图16,通过连接安装在手术室中的设备组来配置手术室系统5100,该设备组能够经由视听控制器(AV控制器)5107和手术室控制设备5109相互协作。
在手术室中,可以安装各种设备。作为示例,图16图示了用于内窥镜手术的各种类型的设备组5101,在手术室的天花板上提供以对操作者的手进行成像的天花板相机5187、在手术室的天花板上提供以对整个手术室的状态进行成像的手术场所相机5189、多个显示设备5103A至5103D、记录器5105、病床5183,以及照明灯5191。
在此,在这些设备当中,设备组5101属于后述的内窥镜手术系统5113,并且包括内窥镜和显示由内窥镜捕获的图像的显示设备等。属于内窥镜手术系统5113的每个设备也被称为医疗设备。而显示设备5103A至5103D、记录器5105、病床5183和照明灯5191是与例如手术室中的内窥镜手术系统5113分开提供的设备。不属于内窥镜手术系统5113的每个设备也被称为非医疗设备。视听控制器5107和/或手术室控制设备5109相互协作地控制这些医疗设备和非医疗设备的动作。
视听控制器5107整体地控制与医疗设备和非医疗设备中的图像显示相关的处理。具体而言,在手术室系统5100中包括的设备当中,设备组5101、天花板相机5187和手术场所相机5189可以是具有发送要在手术期间显示的信息(以下也称为显示信息)的功能的设备(在下文中,也称为传输源设备)。此外,显示设备5103A至5103D可以是向其输出显示信息的设备(在下文中,也称为输出目的地设备)。此外,记录器5105可以是与传输源设备和输出目的地设备两者对应的设备。视听控制器5107具有控制传输源设备和输出目的地设备的动作、从传输源设备获取显示信息、将显示信息传输到输出目的地设备以及控制显示和记录显示信息的功能。注意的是,显示信息是在手术期间捕获的各种图像、关于手术的各种类型的信息(例如,患者的身体信息、关于过去检查结果的信息、手术过程等)等。
具体而言,可以从设备组5101到视听控制器5107发送关于由内窥镜成像的患者体腔中的手术部位的图像的信息作为显示信息。此外,可以从天花板相机5187发送与由天花板相机5187成像的操作者的手的图像相关的信息作为显示信息。此外,可以从手术场所相机5189发送与指示由手术场所相机5189成像的整体手术室的状态的图像相关的信息作为显示信息。注意的是,在手术室系统5100中存在具有成像功能的另一个设备的情况下,视听控制器5107也可以从该另一个设备获取关于由该另一个设备捕获的图像的信息作为显示信息。
可替代地,例如,关于过去捕获的这些图像的信息由视听控制器5107记录在记录器5105中。视听控制器5107可以从记录器5105获取关于过去捕获的图像的信息作为显示信息。注意的是,记录器5105还可以预先记录关于手术的各种类型的信息。
视听控制器5107使作为输出目的地设备的显示设备5103A至5103D中的至少任何一个显示获取的显示信息(换句话说,在手术期间拍摄的图像以及关于手术的各种类型的信息)。在图示的示例中,显示设备5103A是被安装成从手术室的天花板悬挂的显示设备,显示设备5103B是被安装在手术室的墙壁上的显示设备,显示设备5103C是安装在手术室的桌子上的显示设备,并且显示设备5103D是具有显示功能的移动设备(例如,平板个人计算机(PC))。
此外,虽然在图16中省略了图示,但是手术室系统5100可以包括手术室外部的装置。手术室外部的装置可以是例如连接到在医院内部或外部构建的网络的服务器、医务人员要使用的PC、安装在医院会议室中的投影仪等。在医院外部存在这种外部设备的情况下,视听控制器5107还可以使另一个医院的显示设备经由视频会议系统等显示用于远程医疗的显示信息。
手术室控制设备5109对与非医疗设备中的图像显示相关的处理以外的处理进行全面控制。例如,手术室控制设备5109控制病床5183、天花板相机5187、手术场所相机5189以及照明灯5191的驱动。
手术室系统5100设有集中式操作面板5111,并且用户可以经由集中式操作面板5111将关于图像显示的指示给予视听控制器5107并将关于非医疗设备的动作的指示给到手术室控制设备5109。集中式操作面板5111通过在显示设备的显示面上提供触摸面板而构成。
图17是示出集中式操作面板5111上的操作画面的显示示例的视图。作为示例,图17示出了与在手术室系统5100中提供两个显示设备作为输出目的地设备的情况对应的操作画面。参考图17,操作画面5193设有传输源选择区域5195、预览区域5197和控制区域5201。
在传输源选择区域5195中,相互关联地显示在手术室系统5100中提供的传输源设备和示出传输源设备的显示信息的缩略图画面。用户可以从在传输源选择区域5195中显示的任何传输源设备中选择期望在显示设备上显示的显示信息。
在预览区域5197中,显示在作为输出目的地设备的两个显示设备(监视器1和监视器2)上显示的画面的预览。在图示的示例中,在一个显示设备上以PinP显示四个图像。这四个图像与从在传输源选择区域5195中选择的传输源设备传输的显示信息对应。在这四个图像当中,一个显示为相对大,作为主图像,其余三个显示为相对小,作为子图像。用户可以通过适当地选择在其中显示四个图像的区域来用子图像替换主图像。此外,在显示四个图像的区域的下部中,提供了状态显示区域5199,并且可以在该区域中适当地显示关于手术的状态(例如,手术的经过时间、患者的身体信息等)。
控制区域5201设有:传输源操作区域5203,其中显示用于在传输源设备上执行操作的图形用户界面(GUI)组件;以及输出目的地操作区域5205,其中显示用于对输出目的地设备进行操作的GUI组件。在图示的示例中,传输源操作区域5203设有GUI组件,该GUI组件用于在具有成像功能的传输源设备中的相机上执行各种操作(摇摄、倾斜和变焦)。通过适当地选择这些GUI组件,用户可以在传输源设备中操作相机的动作。注意的是,虽然省略了图示,但是在传输源选择区域5195中选择的传输源设备是记录器的情况下(换句话说,在记录器上过去记录的图像被显示在预览区域5197中的情况下),传输源操作区域5203可以设有用于执行诸如图像的再现、再现停止、倒带和快进之类的操作的GUI组件。
此外,输出目的地操作区域5205设有GUI组件,用于在作为输出目的地设备的显示设备上的显示上执行各种操作(交换、翻转、色彩调整、对比度调整、2D显示和3D显示的切换)。用户可以通过适当地选择这些GUI组件来操作在显示设备上的显示。
注意的是,显示在集中式操作面板5111上的操作画面不限于图示的示例,并且用户可以能够经由集中式操作面板5111执行输入到可以由在手术室系统5100中提供的视听控制器5107和手术室控制设备5109控制的每个设备的操作。
图18是示出如上所述对其应用手术室系统的操作的状态的示例的图。天花板相机5187和手术场所相机5189在手术室的天花板上提供,并且可以对在病床5183上的患者5185的患部上进行治疗的操作者(外科医生)5181的手以及整体手术室的状态进行成像。天花板相机5187和手术场所相机5189可以设有放大倍率调整功能、焦距调整功能、拍摄方向调整功能等。照明灯5191在手术室的天花板上提供并照亮至少操作者5181的手。照明灯5191可以能够适当地调整其照射光量、照射光的波长(颜色)、光的照射方向等。
如图16中所示,内窥镜手术系统5113、病床5183、天花板相机5187、手术场所相机5189和照明灯5191连接,从而能够经由视听控制器5107和手术室控制设备5109(图18中未示出)相互配合。集中式操作面板5111在手术室中提供,并且如上所述,用户可以经由集中式操作面板5111适当地操作存在于手术室中的这些设备。
在下文中,将详细描述内窥镜手术系统5113的配置。如图所示,内窥镜手术系统5113包括:内窥镜5115;其它手术器械5131;支撑内窥镜5115的支撑臂设备5141;以及推车5151,其安装有用于内窥镜手术的各种设备。
在内窥镜手术中,代替切割和打开腹壁,在腹壁中刺穿多个称为套管针5139a至5139d的圆柱形打开工具。然后,从套管针5139a至5139d将内窥镜5115的镜筒5117和其它手术器械5131插入患者5185的体腔中。在图示的示例中,作为其它外科手术器械5131,将吹入管5133、能量治疗器械5135和钳子5137插入患者5185的体腔中。此外,能量治疗器械5135是通过高频电流或超声振动进行组织的切开和剥离、血管的密封等的治疗器械。但是,图示的手术器械5131仅仅是示例,并且内窥镜手术中一般使用的各种手术器械(例如镊子、牵开器等)可以被用作手术器械5131。
由内窥镜5115拍摄的患者5185的体腔中的手术部位的图像显示在显示设备5155上。在实时观看显示在显示设备5155上的手术部位的图像的同时,操作者5181使用能量治疗器械5135或镊子5137执行诸如例如移除患处等治疗。注意的是,虽然省略了图示,但是在手术期间,吹入管5133、能量治疗器械5135和钳子5137由操作者5181、助手等保持。
(支撑臂设备)
支撑臂设备5141包括从基座单元5143延伸的臂单元5145。在图示的示例中,臂单元5145包括关节单元5147a、5147b和5147c以及连杆5149a和5149b,并且由来自臂控制设备5159的控制驱动。臂单元5145支撑内窥镜5115,并控制其位置和朝向。利用这种布置,可以实现内窥镜5115的稳定的位置固定。
(内窥镜)
内窥镜5115包括:镜筒5117,其从远端起预定长度的区域被插入到患者5185的体腔中;以及摄像头5119,其连接到镜筒5117的近端。在图示的示例中,图示了被构造为具有刚性镜筒5117的所谓刚性镜的内窥镜5115,但是内窥镜5115可以被配置为具有柔性镜筒5117的所谓的柔性内窥镜。
在镜筒5117的远端,提供了装有物镜的开口。内窥镜5115与光源设备5157连接,并且由光源设备5157生成的光通过在镜筒5117内延伸的光被引导到镜筒的远端,并通过物镜朝着患者5185的体腔内的观察目标射出。注意的是,内窥镜5115可以是前视内窥镜,或者可以是斜视内窥镜或侧视内窥镜。
在摄像头5119的内部,提供了光学系统和成像元件,并且来自观察目标的反射光(观察光)通过光学系统会聚在成像元件上。观察光被成像元件光电转换,并且生成与观察光对应的电信号,换句话说,与观察图像对应的图像信号。图像信号作为RAW数据被发送到相机控制单元(CCU)5153。注意的是,摄像头5119安装有通过适当地驱动光学系统来调整放大倍率和焦距的功能。
注意的是,例如,为了支持立体视觉(3D显示)等,可以在摄像头5119中提供多个成像元件。在这种情况下,在镜筒5117内,提供了多个中继光学系统,以便将观察光引导到多个成像元件中的每一个。
(推车中安装的各种设备)
CCU 5153由中央处理单元(CPU)、图形处理单元(GPU)等构成,并且一体地控制内窥镜5115和显示设备5155的动作。具体而言,CCU 5153对从摄像头5119接收的图像信号应用用于基于图像信号显示图像的各种类型的图像处理,例如,显影处理(去马赛克处理)等。CCU 5153将经过图像处理的图像信号供应给显示设备5155。此外,CCU 5153与图16中所示的视听控制器5107连接。CCU 5153还将经过图像处理的图像信号供应给视听控制器5107。此外,CCU 5153向摄像头5119发送控制信号以控制其驱动。控制信号可以包括关于成像条件的信息,诸如放大倍率和焦距。关于成像条件的信息可以通过输入设备5161输入,或者可以通过上述集中式操作面板5111输入。
显示设备5155在CCU 5153的控制下基于经过CCU 5153的图像处理的图像信号来显示图像。在内窥镜5115支持高分辨率成像(诸如例如4K(水平像素数3840×垂直像素数2160的数量)、8K(水平像素7680数×垂直像素数4320的数量)等)和/或者支持3D显示的情况下,能够进行高分辨率显示和/或能够分别对应进行3D显示的显示设备可以被作为显示设备5155。在内窥镜5115支持诸如4K或8K之类的高分辨率成像的情况下,可以通过使用具有55英寸或更大的显示设备5155来进一步获得沉浸感。此外,可以取决于应用来提供具有不同分辨率和尺寸的多个显示设备5155。
光源设备5157例如由诸如发光二极管(LED)之类的光源构成,并且在将手术部位成像时将照射光供应给内窥镜5115。
臂控制设备5159例如由诸如CPU之类的处理器构成,并且通过根据预定的程序动作,根据预定的控制方法来控制支撑臂设备5141的臂单元5145的驱动。
输入设备5161是到内窥镜手术系统5113的输入接口。用户可以经由输入设备5161向内窥镜手术系统5113输入各种信息和输入指令。例如,用户经由输入设备5161输入关于手术的各种信息,诸如患者的身体信息和关于手术过程的信息。此外,例如,用户经由输入设备5161输入用于驱动臂单元5145的指令、用于改变内窥镜5115的成像条件(照射光的种类、放大倍率、焦距等)的指令、用于驱动能量治疗器械5135的指令等。
输入设备5161的类型不受限制,并且输入设备5161可以是各种已知的输入设备。例如,可以将鼠标、键盘、触摸面板、开关、脚踏开关5171和/或操纵杆等用作输入设备5161。在将触摸面板用作输入设备5161的情况下,触摸面板可以在显示设备5155的显示表面上提供。
可替代地,输入设备5161是用户穿戴的设备,例如眼镜型可穿戴设备或头戴式显示器(HMD)等,并且根据这些设备检测到的用户的手势或视线来执行各种输入。此外,输入设备5161包括能够检测用户的移动的相机,并且根据从由相机捕获的图像检测到的用户的手势和视线来执行各种输入。而且,输入设备5161包括能够收集用户的语音的麦克风,并且经由麦克风通过语音来执行各种输入。如上所述,通过将输入设备5161配置为能够以非接触方式输入各种类型的信息,特别是属于清洁区域的用户(例如,操作者5181)可以无接触地操作属于不清洁区域的设备。此外,由于用户可以在不从被握持的手术器械上松开他/她的手的情况下操作设备,因此提高了用户的便利性。
治疗器械控制设备5163控制能量治疗器械5135的驱动,以进行组织的消融、切口、血管的密封等。吹入器5165通过吹入管5133将气体发送到体腔中,以使患者5185的体腔膨胀,以确保内窥镜5115的视场并确保操作者的工作空间。记录器5167是能够记录关于手术的各种类型的信息的设备。打印机5169是能够以诸如文本、图像和图形之类的各种形式来打印关于手术的各种类型信息的设备。
在下文中,将更详细地描述内窥镜手术系统5113的特定特征配置。
(支撑臂设备)
支撑臂设备5141包括作为基座的基座单元5143和从基座单元5143延伸的臂单元5145。在图示的示例中,臂单元5145包括多个关节单元5147a、5147b和5147c,以及通过关节单元5147b连接的多个连杆5149a和5149b,但是为了简化,在图18中以简化的方式图示了臂单元5145的构造。在实践中,可以适当地设置关节单元5147a至5147c和连杆5149a和5149b的形状、数量和布置、关节单元5147a至5147c的旋转轴线的方向等,使得臂单元5145具有期望的自由度。例如,臂单元5145可以优选地被配置为具有六个自由度或更多个自由度。利用这种配置,由于内窥镜5115可以在臂单元5145的可移动范围内自由移动,因此有可能将内窥镜5115的镜筒5117从期望的方向插入到患者5185的体腔中。
关节单元5147a至5147c设有致动器,并且关节单元5147a至5147c被配置为通过致动器的驱动绕预定旋转轴线可旋转。通过用臂控制设备5159控制致动器的驱动,控制各个关节单元5147a至5147c的旋转角度,并且控制臂单元5145的驱动。利用这种配置,可以实现对内窥镜5115的位置和朝向的控制。此时,臂控制设备5159可以通过诸如力控制或位置控制之类的各种已知控制方法来控制臂单元5145的驱动。
例如,通过操作员5181经由输入设备5161(包括脚踏开关5171)适当地执行操作输入,可以由臂控制设备5159根据操作输入来适当地控制臂单元5145的驱动,并且可以控制内窥镜5115的位置和朝向。利用这种控制,臂单元5145的远端处的内窥镜5115可以从任何位置移动到任何位置,然后在移动之后的位置处被固定地支撑。注意的是,臂单元5145可以通过所谓的主从方法来操作。在这种情况下,用户可以经由安装在远离手术室的位置处的输入设备5161来对臂单元5145进行远程操作。
此外,在应用力控制的情况下,臂控制设备5159可以执行用于驱动个体关节单元5147a至5147c的致动器的所谓动力辅助控制,使得臂单元5145从用户接收外力并根据外力平滑地移动。因此,当用户在直接触摸臂单元5145的同时移动臂单元5145时,可以以相对轻的力来移动臂单元5145。因此,变得有可能更直观且并且以更简单的操作来移动内窥镜5115,并且可以提高用户的便利性。
在此,一般而言,在内窥镜手术中,内窥镜5115由称为镜医师(scopist)的医生握持。相对于此,由于通过使用支撑臂设备5141,变得有可能在没有人手的情况下更可靠地固定内窥镜5115的位置,因此可以稳定地获得手术部位的图像,并且可以顺利地执行手术。
注意的是,臂控制设备5159可以不必在推车5151中提供。此外,臂控制设备5159可以不必是一个设备。例如,臂控制设备5159可以单独地在支撑臂设备5141的臂单元5145的关节单元5147a至5147c中的每一个处提供,并且多个臂控制设备5159可以彼此协作以实现臂单元5145的驱动控制。
(光源设备)
光源装置5157向内窥镜5115供应用于对手术部位成像的照射光。光源设备5157包括例如由LED、激光光源或其组合构成的白色光源。此时,在白色光源由RGB激光光源的组合构成的情况下,由于可以以高精度控制每种颜色(每个波长)的输出强度和输出定时,因此光源设备5157可以调整捕获的图像的白平衡。此外,在这种情况下,还有可能以时分方式由从来自每个RGB激光光源的激光照射观察目标并且与照射定时同步地控制摄像头5119的成像元件的驱动来捕获与每个RGB对应的图像。根据这个方法,有可能在成像元件中不提供滤色器的情况下获得彩色图像。
此外,可以控制光源设备5157的驱动,以每隔预定时间间隔改变输出的光的强度。通过以时分方式与光强度改变的定时同步地控制摄像头5119的成像元件的驱动来获取图像,并组合图像,有可能生成没有所谓的黑缺陷和过度曝光的高动态范围图像。
此外,光源设备5157可以被配置为能够供应具有与特殊光观察对应的预定波长带的光。在特殊光观察中,例如,执行所谓的窄带成像,其中与正常观察时的照射光(换句话说,白光)相比,通过利用人体组织中光吸收的波长依赖性并用窄带光照射预定组织,以高对比度对诸如粘膜表面层中的血管之类的预定组织进行成像。可替代地,在特殊光观察中,可以执行用于通过由激发光的照射生成的荧光来获得图像的荧光观察。在荧光观察中,有可能执行用激发光照射人体组织并观察来自人体组织的荧光的方法(自发荧光观察)、将诸如吲哚菁绿(ICG)之类的试剂局部注入人体组织中并用与试剂的荧光波长对应的激发光照射人体组织以获得荧光图像的方法等。光源设备5157可以被配置为能够供应与这种特殊光观察对应的窄带光和/或激发光。
(摄像头和CCU)
将参考图19更详细地描述内窥镜5115的摄像头5119和CCU 5153的功能。图19是示出如图18中所示的摄像头5119和CCU 5153的功能配置的示例的框图。
参考图19,摄像头5119具有透镜单元5121、成像单元5123、驱动单元5125、通信单元5127和摄像头控制单元5129作为其功能。此外,CCU 5153具有通信单元5173、图像处理单元5175和控制单元5177作为其功能。摄像头5119和CCU 5153通过传输电缆5179在两个方向上可通信地连接。
首先,将描述摄像头5119的功能配置。透镜单元5121是在与镜筒5117的连接部分处提供的光学系统。从镜筒5117的远端取得的观察光被引导到摄像头5119,并入射在透镜单元5121上。透镜单元5121通过组合包括变焦透镜和聚焦透镜的多个透镜来配置。调整透镜单元5121的光学特点,以将观察光会聚在成像单元5123的成像元件的光接收表面上。此外,变焦透镜和聚焦透镜被配置为使得它们在光轴上的位置可以移动,以调整捕获的图像的放大倍率和焦点。
成像单元5123由成像元件构成,并且部署在透镜单元5121的下游。已经穿过透镜单元5121的观察光会聚在成像元件的光接收表面上,并且通过光电转换生成与观察图像对应的图像信号。由成像单元5123生成的图像信号被提供给通信单元5127。
作为构成成像单元5123的成像元件,例如,使用具有拜耳阵列并且能够进行彩色拍摄的互补金属氧化物半导体(CMOS)型图像传感器。注意的是,作为成像元件,例如,可以使用适用于拍摄4K以上的高分辨率图像的成像元件。由于可以以高分辨率获得手术部位的图像,因此操作者5181可以更详细地掌握手术部位的状态,并且可以更加顺利地进行手术。
此外,构成成像单元5123的成像元件具有这样的配置,该配置具有一对成像元件,用于分别获取与3D显示对应的右眼和左眼的图像信号。执行3D显示使得操作者5181能够更准确地掌握手术部位的生物组织的深度。注意的是,在成像单元5123被构造为多板型的情况下,透镜单元5121的多个系统也与各个成像元件对应地提供。
此外,成像单元5123可以不必在摄像头5119中提供。例如,成像单元5123可以在紧接物镜之后的镜筒5117内提供。
驱动单元5125由致动器构成,并且在来自摄像头控制单元5129的控制下使透镜单元5121的变焦透镜和聚焦透镜沿着光轴移动预定距离。利用这种配置,可以适当地调整成像单元5123捕获的图像的放大倍率和焦点。
通信单元5127由通信设备配置,用于与CCU 5153交换各种类型的信息。通信单元5127经由传输电缆5179将从成像单元5123获得的图像信号作为RAW数据发送到CCU 5153。在这种情况下,为了以低时延显示手术部位的捕获的图像,优选地通过光通信来发送图像信号。这是因为,由于操作者5181在手术期间通过捕获的图像观察患部的状况的同时执行手术,因此,为了更安全和更可靠的手术,要求尽可能实时地实时显示手术部位的运动图像。在执行光通信的情况下,通信单元5127设有将电信号转换成光信号的光电转换模块。图像信号通过光电转换模块被转换成光信号,然后经由传输电缆5179发送到CCU 5153。
此外,通信单元5127从CCU 5153接收用于控制摄像头5119的驱动的控制信号。该控制信号包括例如关于成像条件的信息,诸如指定捕获的图像的帧速率的信息、指定在成像时的曝光值的信息、指定捕获的图像的放大倍率和焦点的信息等。通信单元5127将接收到的控制信号提供给摄像头控制单元5129。注意的是,来自CCU 5153的控制信号也可以通过光通信来传输。在这种情况下,通信单元5127设有将光信号转换成电信号的光电转换模块,并且控制信号被光电转换模块转换成电信号,然后被提供给摄像头控制单元5129。
注意的是,如上所述的诸如帧速率、曝光值、倍率和焦点之类的成像条件是由CCU5153的控制单元5177基于获取的图像信号自动设置的。即,在内窥镜5115中安装了所谓的自动曝光(AE)功能、自动聚焦(AF)功能和自动白平衡(AWB)功能。
摄像头控制单元5129基于经由通信单元5127接收的来自CCU 5153的控制信号来控制摄像头5119的驱动。例如,基于指定捕获的图像的帧速率的信息和/或指定成像时的曝光的信息,摄像头控制单元5129控制成像单元5123的成像元件的驱动。此外,例如,基于指定捕获的图像的放大倍率和焦点的信息,摄像头控制单元5129经由驱动单元5125适当地移动透镜单元5121的变焦透镜和聚焦透镜。摄像头控制单元5129还可以包括存储用于识别镜筒5117和摄像头5119的信息的功能。
注意的是,通过以具有高气密性和防水性的密封结构布置透镜单元5121、成像单元5123等的构造,可以使摄像头5119耐高压灭菌。
接下来,将描述CCU 5153的功能配置。通信单元5173由用于与摄像头5119交换各种信息的通信设备构成。通信单元5173接收经由传输电缆5179从摄像头5119传输的图像信号。在这种情况下,如上所述,图像信号可以通过光通信适当地发送。在这种情况下,与光通信对应,通信单元5173设有将光信号转换成电信号的光电转换模块。通信单元5173向图像处理单元5175提供转换成电信号的图像信号。
此外,通信单元5173将用于控制摄像头5119的驱动的控制信号发送到摄像头5119。该控制信号也可以通过光通信来发送。
图像处理单元5175对从摄像头5119发送的作为RAW数据的图像信号执行各种类型的图像处理。图像处理包括各种类型的已知信号处理,诸如例如显影处理、高图像质量处理(诸如频带强调处理、超分辨率处理、降噪(NR)处理和/或相机抖动校正处理)、放大处理(电子变焦处理)等。此外,图像处理单元5175对图像信号执行波检测处理,用于执行AE、AF和AWB。
图像处理单元5175由诸如CPU或GPU之类的处理器配置,并且上述图像处理和波检测处理可以由处理器根据预定程序来执行。注意的是,在图像处理单元5175由多个GPU构成的情况下,图像处理单元5175适当地划分关于图像信号的信息,并且通过这多个GPU并行地执行图像处理。
控制单元5177执行关于由内窥镜5115对手术部位进行成像以及捕获的图像的显示的各种控制。例如,控制单元5177生成用于控制摄像头5119的驱动的控制信号。此时,在用户已经输入了成像条件的情况下,控制单元5177基于用户的输入生成控制信号。可替代地,在内窥镜5115设有AE功能、AF功能和AWB功能的情况下,响应于图像处理单元5175的波检测处理的结果,控制单元5177适当地计算最优曝光值、焦距和白平衡,并生成控制信号。
此外,控制单元5177基于图像处理单元5175进行了图像处理的图像信号使显示设备5155显示手术部位的图像。此时,控制单元5177通过使用各种图像识别技术识别手术部位图像中的各种物体。例如,通过检测手术部位图像中包括的物体的边缘的形状、颜色等,控制单元5177可以识别出手术器械,诸如钳子、特定的活体部位、出血、使用能量治疗器械5135时的薄雾等。当使显示设备5155显示手术部位的图像时,控制单元5177使用识别结果在手术部位的图像上叠加并显示各种类型的手术支持信息。通过叠加并显示手术支持信息并呈现给操作者5181,变得有可能更加安全可靠地继续手术。
连接摄像头5119和CCU 5153的传输电缆5179是与电信号的通信对应的电信号电缆、与光通信对应的光纤,或这些的复合电缆。
在此,在图示的示例中,使用传输电缆5179通过有线通信来执行通信,但是摄像头5119与CCU 5153之间的通信可以无线地执行。在以无线方式执行两者之间的通信的情况下,由于变得不必将传输电缆5179放置在手术室中,因此有可能消除由于传输电缆5179而妨碍医护人员在手术室中的移动的情况。
上面已经描述了可以对其应用根据本公开的技术的手术室系统5100的示例。注意的是,在此,以对其应用手术室系统5100的医疗系统为内窥镜手术系统5113为例进行描述,但手术室系统5100的配置不限于这个示例。例如,代替内窥镜手术系统5113,手术室系统5100可以应用于用于检查的柔性内窥镜系统或显微外科手术系统。
根据本公开的技术可以适当地应用于上述配置当中的图像处理单元5175等。通过将根据本公开的技术应用于上述手术系统,有可能例如通过编辑记录的手术图像来以适当的视场角对图像进行分段。此外,有可能学习诸如视场角之类的拍摄情况,使得在手术期间的拍摄期间总是可以看到诸如镊子之类的重要工具,并且有可能通过使用学习结果来使手术期间的拍摄自动化。
附图标记列表
1 成像设备
2 相机控制单元
3 自动拍摄控制器
11 成像单元
22 相机信号处理单元
32 面部识别处理单元
33 处理单元
33A 学习单元
33B 视场角判定处理单元
34 阈值判定处理单元
36 操作输入单元
53A,53B 学习按钮
100,100A 信息处理系统
Claims (17)
1.一种信息处理装置,包括:
学习单元,所述学习单元被配置为获取数据,根据预定输入提取所述数据中的至少部分范围内的数据,并且基于所述至少部分范围内的数据执行学习,其中所述数据是基于与拍摄期间获取的图像对应的图像数据的数据;
学习对象图像数据生成单元,所述学习对象图像数据生成单元被配置为对图像数据执行预定处理,并基于预定处理的结果生成通过重构图像数据而获得的学习对象图像数据,其中学习对象图像数据是通过预定处理检测到的特征被符号化而得到的图像数据,并且所述学习单元基于学习对象图像数据来执行学习;
视场角判定处理单元,所述视场角判定处理单元被配置为使用由学习单元获得的学习结果并且使用由学习对象图像数据生成单元生成的学习对象图像数据来计算图像数据的视场角的评估值;以及
阈值判定处理单元,所述阈值判定处理单元被配置为将所述评估值与预定阈值进行比较以确定图像数据的视场角是否合适,其中在图像数据的视场角不合适的情况下,阈值判定处理单元输出指定图像分段位置的分段位置指示命令。
2.根据权利要求1所述的信息处理装置,其中
预定输入是指示学习起点的输入。
3.根据权利要求2所述的信息处理装置,其中
预定输入是还指示学习终点的输入。
4.根据权利要求3所述的信息处理装置,其中
所述学习单元提取从学习起点到学习终点的范围内的数据。
5.根据权利要求1所述的信息处理装置,其中
预定处理是面部识别处理,并且学习对象图像数据是通过面部识别处理获得的面部区域与其它区域区分开的图像数据。
6.根据权利要求1所述的信息处理装置,其中
预定处理是姿势检测处理,并且学习对象图像数据是通过姿势检测处理获得的特征点区域与其它区域区分开的图像数据。
7.根据权利要求1所述的信息处理装置,其中
显示基于学习的结果的学习模型。
8.根据权利要求1所述的信息处理装置,其中
学习单元针对场景中的每一个来学习场景与拍摄条件或编辑条件中的至少一个之间的对应关系。
9.根据权利要求8所述的信息处理装置,其中
场景是由用户指定的场景。
10.根据权利要求8所述的信息处理装置,其中
场景是人相对于视场角的位置关系。
11.根据权利要求8所述的信息处理装置,其中
拍摄条件是在拍摄期间可以被调整的条件。
12.根据权利要求8所述的信息处理装置,其中,
编辑条件是在拍摄期间或记录确认期间可以被调整的条件。
13.根据权利要求8所述的信息处理装置,其中
针对场景中的每一个存储由所述学习单元获得的学习结果。
14.根据权利要求13所述的信息处理装置,其中
学习结果被存储在能够与所述信息处理装置进行通信的服务器设备中。
15.根据权利要求1所述的信息处理装置,还包括:
输入单元,所述输入单元被配置为接受预定输入;以及
成像单元,所述成像单元被配置为获取图像数据。
16.一种信息处理方法,包括:
获取数据,根据预定输入提取所述数据中的至少部分范围内的数据,并且由学习单元基于所述至少部分范围内的数据执行学习,其中所述数据是基于与拍摄期间获取的图像对应的图像数据的数据;
对图像数据执行预定处理,基于预定处理的结果生成通过重构图像数据而获得的学习对象图像数据,并且由学习单元基于学习对象图像数据来执行学习,其中学习对象图像数据是通过预定处理检测到的特征被符号化而得到的图像数据;
使用由学习单元获得的学习结果并且使用学习对象图像数据来计算图像数据的视场角的评估值;以及
将所述评估值与预定阈值进行比较以确定图像数据的视场角是否合适,其中在图像数据的视场角不合适的情况下,输出指定图像分段位置的分段位置指示命令。
17.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被计算机执行时使计算机执行如权利要求16所述的信息处理方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018-213348 | 2018-11-13 | ||
JP2018213348 | 2018-11-13 | ||
PCT/JP2019/037337 WO2020100438A1 (ja) | 2018-11-13 | 2019-09-24 | 情報処理装置、情報処理方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112997214A CN112997214A (zh) | 2021-06-18 |
CN112997214B true CN112997214B (zh) | 2024-04-26 |
Family
ID=70731859
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980072799.6A Active CN112997214B (zh) | 2018-11-13 | 2019-09-24 | 信息处理装置、信息处理方法和程序 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20210281745A1 (zh) |
JP (1) | JP7472795B2 (zh) |
CN (1) | CN112997214B (zh) |
WO (1) | WO2020100438A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4044110A4 (en) * | 2020-10-27 | 2023-02-22 | Samsung Electronics Co., Ltd. | METHOD FOR GENERATION OF IMAGE DATA WITH REDUCED NOISE AND ELECTRONIC DEVICE FOR IMPLEMENTING IT |
WO2023276005A1 (ja) * | 2021-06-29 | 2023-01-05 | 三菱電機株式会社 | 制御装置、撮影システムおよび追尾制御方法 |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6421480A (en) * | 1987-07-17 | 1989-01-24 | Sony Corp | Learning apparatus |
JP2001268562A (ja) * | 2000-03-21 | 2001-09-28 | Nippon Telegr & Teleph Corp <Ntt> | ライブ映像の自動収録方法および装置 |
WO2006086467A1 (en) * | 2005-02-10 | 2006-08-17 | Siemens Corporate Research, Inc. | System and method for using learned discriminative models to segment three dimensional colon image data |
JP2007166383A (ja) * | 2005-12-15 | 2007-06-28 | Nec Saitama Ltd | デジタルカメラ及び画像合成方法並びにプログラム |
JP2007295130A (ja) * | 2006-04-21 | 2007-11-08 | Sharp Corp | 画像データ符号化装置、プログラム、コンピュータ読み取り可能な記録媒体、及び画像データ符号化方法 |
JP2008022103A (ja) * | 2006-07-11 | 2008-01-31 | Matsushita Electric Ind Co Ltd | テレビ番組動画像ハイライト抽出装置及び方法 |
CN101731004A (zh) * | 2007-04-23 | 2010-06-09 | 夏普株式会社 | 摄像装置、记录有该摄像装置的控制程序的计算机可读取的记录介质以及控制方法 |
JP2011113464A (ja) * | 2009-11-30 | 2011-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 属性識別装置、属性識別方法およびプログラム |
JP2013081136A (ja) * | 2011-10-05 | 2013-05-02 | Nikon Corp | 画像処理装置および制御プログラム |
CN103576851A (zh) * | 2012-07-18 | 2014-02-12 | 万代股份有限公司 | 便携式终端装置、控制方法、扩增实境感系统、及衣类 |
WO2014084218A1 (ja) * | 2012-11-27 | 2014-06-05 | 国立大学法人大阪大学 | 対象物検知装置 |
CN104079818A (zh) * | 2013-03-26 | 2014-10-01 | 佳能株式会社 | 摄像装置、图像处理系统、摄像系统和图像处理方法 |
CN106227335A (zh) * | 2016-07-14 | 2016-12-14 | 广东小天才科技有限公司 | 预习讲义与视频课程的交互学习方法及应用学习客户端 |
JP2017049676A (ja) * | 2015-08-31 | 2017-03-09 | セコム株式会社 | 姿勢判定装置および物体検知装置 |
CN106600548A (zh) * | 2016-10-20 | 2017-04-26 | 广州视源电子科技股份有限公司 | 鱼眼摄像头图像处理方法和系统 |
CN106952335A (zh) * | 2017-02-14 | 2017-07-14 | 深圳奥比中光科技有限公司 | 建立人体模型库的方法及其系统 |
CN107615310A (zh) * | 2016-03-28 | 2018-01-19 | 索尼公司 | 信息处理设备 |
CN107862243A (zh) * | 2016-09-21 | 2018-03-30 | 佳能株式会社 | 搜索设备、包括该搜索设备的摄像设备和搜索方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06176542A (ja) * | 1992-12-04 | 1994-06-24 | Oki Electric Ind Co Ltd | マルチメディアオーサリングシステム |
JP4123567B2 (ja) * | 1998-04-30 | 2008-07-23 | ソニー株式会社 | 画像信号処理装置及び方法 |
US20110301982A1 (en) * | 2002-04-19 | 2011-12-08 | Green Jr W T | Integrated medical software system with clinical decision support |
JP5108563B2 (ja) * | 2008-03-03 | 2012-12-26 | 日本放送協会 | ニューラルネットワーク装置及びそれを用いたロボットカメラ制御装置並びにニューラルネットワークプログラム |
US8582866B2 (en) * | 2011-02-10 | 2013-11-12 | Edge 3 Technologies, Inc. | Method and apparatus for disparity computation in stereo images |
JP6214236B2 (ja) * | 2013-03-05 | 2017-10-18 | キヤノン株式会社 | 画像処理装置、撮像装置、画像処理方法、及びプログラム |
WO2014208575A1 (ja) * | 2013-06-28 | 2014-12-31 | 日本電気株式会社 | 映像監視システム、映像処理装置、映像処理方法および映像処理プログラム |
JP6525617B2 (ja) * | 2015-02-03 | 2019-06-05 | キヤノン株式会社 | 画像処理装置およびその制御方法 |
JP6176542B2 (ja) | 2015-04-22 | 2017-08-09 | パナソニックIpマネジメント株式会社 | 電子部品ボンディングヘッド |
JP2017067954A (ja) * | 2015-09-29 | 2017-04-06 | オリンパス株式会社 | 撮像装置、及び撮像装置の像ブレ補正方法 |
JP6701979B2 (ja) * | 2016-06-01 | 2020-05-27 | 富士通株式会社 | 学習モデル差分提供プログラム、学習モデル差分提供方法、および学習モデル差分提供システム |
JP6542824B2 (ja) * | 2017-03-13 | 2019-07-10 | ファナック株式会社 | 入力画像から検出した対象物の像の尤度を計算する画像処理装置および画像処理方法 |
-
2019
- 2019-09-24 JP JP2020556668A patent/JP7472795B2/ja active Active
- 2019-09-24 CN CN201980072799.6A patent/CN112997214B/zh active Active
- 2019-09-24 WO PCT/JP2019/037337 patent/WO2020100438A1/ja active Application Filing
- 2019-09-24 US US17/277,837 patent/US20210281745A1/en not_active Abandoned
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6421480A (en) * | 1987-07-17 | 1989-01-24 | Sony Corp | Learning apparatus |
JP2001268562A (ja) * | 2000-03-21 | 2001-09-28 | Nippon Telegr & Teleph Corp <Ntt> | ライブ映像の自動収録方法および装置 |
WO2006086467A1 (en) * | 2005-02-10 | 2006-08-17 | Siemens Corporate Research, Inc. | System and method for using learned discriminative models to segment three dimensional colon image data |
JP2007166383A (ja) * | 2005-12-15 | 2007-06-28 | Nec Saitama Ltd | デジタルカメラ及び画像合成方法並びにプログラム |
JP2007295130A (ja) * | 2006-04-21 | 2007-11-08 | Sharp Corp | 画像データ符号化装置、プログラム、コンピュータ読み取り可能な記録媒体、及び画像データ符号化方法 |
JP2008022103A (ja) * | 2006-07-11 | 2008-01-31 | Matsushita Electric Ind Co Ltd | テレビ番組動画像ハイライト抽出装置及び方法 |
CN101731004A (zh) * | 2007-04-23 | 2010-06-09 | 夏普株式会社 | 摄像装置、记录有该摄像装置的控制程序的计算机可读取的记录介质以及控制方法 |
JP2011113464A (ja) * | 2009-11-30 | 2011-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 属性識別装置、属性識別方法およびプログラム |
JP2013081136A (ja) * | 2011-10-05 | 2013-05-02 | Nikon Corp | 画像処理装置および制御プログラム |
CN103576851A (zh) * | 2012-07-18 | 2014-02-12 | 万代股份有限公司 | 便携式终端装置、控制方法、扩增实境感系统、及衣类 |
WO2014084218A1 (ja) * | 2012-11-27 | 2014-06-05 | 国立大学法人大阪大学 | 対象物検知装置 |
CN104079818A (zh) * | 2013-03-26 | 2014-10-01 | 佳能株式会社 | 摄像装置、图像处理系统、摄像系统和图像处理方法 |
JP2017049676A (ja) * | 2015-08-31 | 2017-03-09 | セコム株式会社 | 姿勢判定装置および物体検知装置 |
CN107615310A (zh) * | 2016-03-28 | 2018-01-19 | 索尼公司 | 信息处理设备 |
CN106227335A (zh) * | 2016-07-14 | 2016-12-14 | 广东小天才科技有限公司 | 预习讲义与视频课程的交互学习方法及应用学习客户端 |
CN107862243A (zh) * | 2016-09-21 | 2018-03-30 | 佳能株式会社 | 搜索设备、包括该搜索设备的摄像设备和搜索方法 |
CN106600548A (zh) * | 2016-10-20 | 2017-04-26 | 广州视源电子科技股份有限公司 | 鱼眼摄像头图像处理方法和系统 |
CN106952335A (zh) * | 2017-02-14 | 2017-07-14 | 深圳奥比中光科技有限公司 | 建立人体模型库的方法及其系统 |
Non-Patent Citations (4)
Title |
---|
Norihiro Hagita.High-Resolution Performance Capture by Zoom-in Pan-Tilt Cameras.《2012 Second International Conference on 3D Imaging, Modeling, Processing, Visualization & Transmission》.2012,第356-362页. * |
Norimichi Ukita;Shigenobu Fujin * |
一种便携式扫描学习装置;潘孟春;陈棣湘;辛建光;;自动化仪表;20080820(08);全文 * |
基于深度学习的施工安全泛场景数据获取方法;佟瑞鹏;陈策;崔鹏程;傅贵;安宇;;中国安全科学学报;20170515(05);全文 * |
Also Published As
Publication number | Publication date |
---|---|
WO2020100438A1 (ja) | 2020-05-22 |
CN112997214A (zh) | 2021-06-18 |
US20210281745A1 (en) | 2021-09-09 |
JPWO2020100438A1 (ja) | 2021-09-30 |
JP7472795B2 (ja) | 2024-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7363767B2 (ja) | 画像処理装置と画像処理方法およびプログラム | |
CN110168605B (zh) | 用于动态范围压缩的视频信号处理装置、视频信号处理方法和计算机可读介质 | |
WO2018221068A1 (ja) | 情報処理装置、情報処理方法および情報処理プログラム | |
CN110945399B (zh) | 信号处理设备、成像设备、信号处理方法和存储器 | |
US11022859B2 (en) | Light emission control apparatus, light emission control method, light emission apparatus, and imaging apparatus | |
CN112997214B (zh) | 信息处理装置、信息处理方法和程序 | |
CN108353144B (zh) | 多摄像机系统、摄像机、摄像机处理方法、确认设备和确认设备处理方法 | |
US20220217260A1 (en) | Signal processing device, imaging device, and signal processing method | |
JP2019004978A (ja) | 手術システムおよび手術用撮像装置 | |
US11729493B2 (en) | Image capture apparatus and image capture method | |
US11394942B2 (en) | Video signal processing apparatus, video signal processing method, and image-capturing apparatus | |
JP7092111B2 (ja) | 撮像装置、映像信号処理装置および映像信号処理方法 | |
JP7063321B2 (ja) | 撮像装置、映像信号処理装置および映像信号処理方法 | |
US11902692B2 (en) | Video processing apparatus and video processing method | |
JP7230923B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JPWO2018216538A1 (ja) | 情報処理装置、情報処理方法および情報処理プログラム | |
US11910105B2 (en) | Video processing using a blended tone curve characteristic | |
US12126899B2 (en) | Imaging device, imaging control device, and imaging method | |
WO2018179875A1 (ja) | 撮像装置とフォーカス制御方法およびフォーカス判定方法 | |
WO2021181937A1 (ja) | 撮像装置と撮像制御方法およびプログラム | |
WO2020246181A1 (ja) | 画像処理装置、画像処理方法、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |