CN115843371A - 学习方法、图像识别方法、学习装置以及图像识别系统 - Google Patents
学习方法、图像识别方法、学习装置以及图像识别系统 Download PDFInfo
- Publication number
- CN115843371A CN115843371A CN202180048827.8A CN202180048827A CN115843371A CN 115843371 A CN115843371 A CN 115843371A CN 202180048827 A CN202180048827 A CN 202180048827A CN 115843371 A CN115843371 A CN 115843371A
- Authority
- CN
- China
- Prior art keywords
- image
- camera
- learning
- captured
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 35
- 238000010801 machine learning Methods 0.000 claims abstract description 28
- 238000003384 imaging method Methods 0.000 claims description 114
- 230000010365 information processing Effects 0.000 claims description 15
- 238000002834 transmittance Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 7
- 230000003287 optical effect Effects 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 2
- 238000002601 radiography Methods 0.000 abstract description 101
- 238000010586 diagram Methods 0.000 description 49
- 238000012545 processing Methods 0.000 description 36
- 230000004048 modification Effects 0.000 description 25
- 238000012986 modification Methods 0.000 description 25
- 238000004364 calculation method Methods 0.000 description 23
- 238000012937 correction Methods 0.000 description 11
- 230000008859 change Effects 0.000 description 10
- 238000013135 deep learning Methods 0.000 description 7
- 229920013655 poly(bisphenol-A sulfone) Polymers 0.000 description 7
- 229920006395 saturated elastomer Polymers 0.000 description 7
- 238000005553 drilling Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000013013 elastic material Substances 0.000 description 1
- 229920001971 elastomer Polymers 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 239000011295 pitch Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/60—Image enhancement or restoration using machine learning, e.g. neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/56—Cameras or camera modules comprising electronic image sensors; Control thereof provided with illuminating means
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/70—Circuitry for compensating brightness variation in the scene
- H04N23/72—Combination of two or more compensation controls
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/70—Circuitry for compensating brightness variation in the scene
- H04N23/74—Circuitry for compensating brightness variation in the scene by influencing the scene brightness using illuminating means
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/95—Computational photography systems, e.g. light-field imaging systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10141—Special mode during image acquisition
- G06T2207/10152—Varying illumination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Studio Devices (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
学习装置(20)获取与拍摄具有模糊的图像的计算摄像相机(101)有关的计算摄像信息,获取通过拍摄没有模糊或者模糊小的图像的通常的相机拍摄到的通常图像和对通常图像赋予的正确答案标签,基于计算摄像信息和通常图像生成具有模糊的图像,通过进行使用了具有模糊的图像和正确答案标签的机器学习,创建用于识别通过计算摄像相机(101)拍摄到的图像的图像识别模型。
Description
技术领域
本发明涉及一种特别是在家庭内或室内等需要保护隐私的环境中的图像识别方法以及图像识别系统、以及用于创建在该图像识别中被使用的图像识别模型的学习方法以及学习装置。
背景技术
在下述专利文献1中公开了一种图像识别系统,其通过将由光场相机等拍摄到的计算摄像图像输入到识别器,识别器利用已学习的识别模型识别在该计算摄像图像中所包含的物体。
计算摄像图像是通过让视点不同的多个图像相互重叠或者不使用透镜让被摄体像难以对焦等的影响、有意地制造出模糊从而使人难以进行视觉识别的图像。因此,为了构建在特别是家庭内或室内等需要保护隐私的环境中的图像识别系统,最好利用计算摄像图像。
另一方面,因为人难以视觉识别计算摄像图像,所以,在创建识别模型的机器学习中,难以对由光场相机等拍摄到的计算摄像图像赋予正确的正确答案标签。其结果,学习效率降低。
下述专利文献1对这个问题并没有采取任何的对策,因此期望通过实现有效的技术对策来提高学习效率。
现有技术文献
专利文献
专利文献1:国际申请公开公报第2019/054092号
发明内容
本发明的目的在于提供一种技术,在图像识别系统中,既能保护被摄体的隐私又能提高图像识别精度以及机器学习的学习效率。
本发明的一方式涉及的学习方法,作为学习装置的信息处理装置获取与拍摄具有模糊的图像的第一相机有关的计算摄像信息,所述计算摄像信息是通过所述第一相机拍摄到的第一图像与第二图像之间的差分图像,所述第一图像包含点亮状态的点光源,所述第二图像包含熄灭状态的所述点光源,信息处理装置获取通过第二相机拍摄到的第三图像和对所述第三图像赋予的正确答案标签,所述第二相机拍摄没有模糊的图像或者模糊比所述第一相机拍摄到的图像小的图像,信息处理装置基于所述计算摄像信息和所述第三图像生成具有模糊的第四图像,信息处理装置通过进行使用了所述第四图像和所述正确答案标签的机器学习,创建用于对通过所述第一相机拍摄到的图像进行识别的图像识别模型。
附图说明
图1是表示第一实施方式涉及的图像识别系统的构成的模式图。
图2是表示图像识别系统的主要处理的流程的流程图。
图3是示意性地表示作为计算摄像相机的一个例子、以无透镜方式构成的多针孔(multi-pinhole)相机的构成的图。
图4A是表示在多针孔相机中多个针孔的位置关系的图。
图4B是表示通过多针孔相机拍摄的拍摄图像的一个例子的图。
图4C是表示通过多针孔相机拍摄的拍摄图像的一个例子的图。
图5是表示学习装置的主要处理的流程的流程图。
图6是表示第二实施方式涉及的图像识别系统的构成的模式图。
图7是表示图像识别系统的主要处理的流程的流程图。
图8A是用于说明差分图像的生成处理的图。
图8B是用于说明差分图像的生成处理的图。
图8C是用于说明差分图像的生成处理的图。
图9是表示利用LTM作为计算摄像信息的情况下的计算摄像信息获取部的主要处理的流程的流程图。
图10是表示多个PSF的模式图。
图11是表示第三实施方式涉及的图像识别系统的构成的模式图。
图12是表示图像识别系统的主要处理的流程的流程图。
图13是表示图像识别系统的主要处理的流程的流程图。
图14是表示图像识别系统的主要处理的流程的流程图。
图15是表示第四实施方式涉及的图像识别系统的构成的模式图。
图16是表示学习装置的主要处理的流程的流程图。
图17A是表示变形例涉及的多针孔相机的构成的模式图。
图17B是表示变形例涉及的多针孔相机的构成的模式图。
图17C是表示变形例涉及的多针孔相机的构成的模式图。
图17D是表示变形例涉及的多针孔相机的构成的模式图。
图18A是表示变形例涉及的多针孔相机的构成的模式图。
图18B是表示变形例涉及的多针孔相机的构成的模式图。
图18C是表示变形例涉及的多针孔相机的构成的模式图。
图18D是表示变形例涉及的多针孔相机的构成的模式图。
图19是表示变形例涉及的多针孔相机的构成的模式图。
图20是表示变形例涉及的多针孔相机的构成的模式图。
图21是表示变形例涉及的多针孔相机的构成的模式图。
图22A是表示变形例涉及的多针孔相机的构成的模式图。
图22B是表示变形例涉及的多针孔相机的构成的模式图。
图22C是表示变形例涉及的多针孔相机的构成的模式图。
图22D是表示变形例涉及的多针孔相机的构成的模式图。
图22E是表示变形例涉及的多针孔相机的构成的模式图。
图22F是表示变形例涉及的多针孔相机的构成的模式图。
图23A是表示变形例涉及的多针孔相机的构成的模式图。
图23B是表示变形例涉及的多针孔相机的构成的模式图。
图23C是表示变形例涉及的多针孔相机的构成的模式图。
具体实施方式
(本发明的基础知识)
在家庭内或室内等进行环境内人物的行动识别或设备操作者的人物识别等的各种识别技术变得越来越重要。近年来,为了识别物体,被称为深度学习的技术正在备受关注。深度学习是指利用了多层构造的神经网络的机器学习,通过利用大量的学习数据,与现有方法相比,可以实现更高精度的识别性能。在这样的物体识别中,图像信息特别地有效。已经提出了通过在输入设备利用相机并进行将图像信息作为输入的深度学习,能大幅度地提高现有的物体识别能力的各种方法。
然而,在家庭内等配置相机,存在由于黑客入侵等拍摄图像被泄漏到外部会侵害到隐私的问题。因此,需要一种即使是在拍摄图像被泄漏到外部的情况下也能保护被摄体的隐私的对策。
通过光场相机等拍摄的计算摄像图像是通过让视点不同的多个图像相互重叠或者不使用透镜让被摄体像难以对焦等的影响,有意地制造出模糊从而使人难以进行视觉识别的图像。因此,为了构建在特别是家庭内或室内等需要保护隐私的环境中的图像识别系统,最好使用计算摄像图像。
上述专利文献1公开的图像识别系统中,通过光场相机等拍摄对象区域,并将通过该拍摄获取到的计算摄像图像输入到识别器。由此,识别器利用已学习的识别模型识别在该计算摄像图像中所包含的物体。这样,通过利用拍摄计算摄像图像的光场相机等拍摄对象区域,即使是在拍摄图像被泄漏到外部的情况下,因为人难以对计算摄像图像进行视觉识别,所以可以保护被摄体的隐私。
在上述专利文献1所公开的图像识别系统中,通过将利用光场相机等拍摄到的计算摄像图像作为学习用数据进行机器学习来创建识别器所使用的识别模型。然而,因为人难以对计算摄像图像进行视觉识别,所以,在创建识别模型的机器学习中,难以对由光场相机等拍摄到的计算摄像图像赋予正确的正确答案标签。如果对学习用的计算摄像图像赋予了错误的正确答案标签,机器学习的学习效率就会降低。
为了解决该问题,本发明的发明人提出了以下的方案,即,在积累学习用数据的阶段,不是使用诸如计算摄像图像这样的具有模糊的图像(以下,称为“模糊图像”)而是使用没有模糊的图像(以下,称为“普通图像”),在之后的学习阶段,利用基于所使用的相机的计算摄像信息将普通图像进行变换后的模糊图像进行机器学习。由此,想到了即可以保护被摄体的隐私又能提高图像识别精度以及机器学习的学习效率的本发明。
而且,作为保护隐私的另一种观点,如何降低被图像识别装置拍摄的用户的心理负担也很重要。通过拍摄模糊图像,可以宣传能够保护被摄体的隐私。然而,在与用户无关的领域(制造商的工厂等)设定计算摄像信息的情况下,因为会怀疑制造商有可能会将模糊图像复原成普通图像,所以用户的心理负担有可能还会增大。另一方面,考虑到如果被拍摄的用户自身可以变更计算摄像信息,就可以降低用户的心理负担,从而想到了本发明。
接下来,对本发明的各实施方式进行说明。
本发明的一方式涉及的学习方法中,作为学习装置的信息处理装置获取与拍摄具有模糊的图像的第一相机有关的计算摄像信息,所述计算摄像信息是通过所述第一相机拍摄到的第一图像与第二图像之间的差分图像,所述第一图像包含点亮状态的点光源,所述第二图像包含熄灭状态的所述点光源,获取通过第二相机拍摄到的第三图像和对所述第三图像赋予的正确答案标签,所述第二相机拍摄没有模糊的图像或者比所述第一相机拍摄到的图像模糊小的图像,基于所述计算摄像信息和所述第三图像生成具有模糊的第四图像,通过进行使用了所述第四图像和所述正确答案标签的机器学习,创建用于识别通过所述第一相机拍摄到的图像的图像识别模型。
在本发明,所谓“模糊”,表示通过用光场相机或无透镜相机等进行拍摄让视点不同的多个图像相互重叠或者通过不使用透镜让被摄体像难以对焦等的影响,从而处于使人难以进行视觉识别的状态或者单纯就是被摄体处于难以对焦的状态。所谓“具有模糊的图像”,意味着人难以视觉识别的图像或者被摄体没有对焦的图像。所谓“模糊大”意味着人视觉识别的难度大或者被摄体没有对焦的程度大,所谓“模糊小”意味着该难度小或者没有对焦的程度小。所谓“没有模糊的图像”意味着人容易视觉识别的图像或者被摄体处于对焦的图像。
根据该构成,通过拍摄具有模糊的图像的第一相机拍摄作为图像识别对象的被摄体所在的对象区域。因此,即使是在通过第一相机拍摄到的拍摄图像被泄漏到外部的情况下,因为人难以视觉识别该图像,所以可以保护被摄体的隐私。而且,学习用数据即第三图像是通过拍摄没有模糊或模糊小的图像的第二相机进行拍摄的。因为人容易视觉识别该图像,所以可以容易地对第三图像赋予正确的正确答案标签。进一步,与第一相机有关的计算摄像信息是包含点亮状态的点光源的第一图像与包含熄灭状态的点光源的第二图像之间的差分图像。因此,可以不受该点光源以外的被摄体的影响而正确地获取到与实际使用的第一相机有关的计算摄像信息。由此,可以基于该计算摄像信息和第三图像正确地生成在机器学习时使用的第四图像。其结果,即可以保护被摄体的隐私又能提高图像识别精度以及机器学习的学习效率。
在上述方式中,也可以是,所述第一相机是编码孔径相机、多针孔相机以及光场相机的其中之一,所述编码孔径相机具备针对每个区域具有透射率不同的掩模图案的掩模,在所述多针孔相机中,具有被形成有多个针孔的掩模图案的掩模被配置于图像传感器的受光面,所述光场相机获取来自被摄体的光场。
根据该构成,通过使用编码孔径相机、多针孔相机以及光场相机的其中之一作为第一相机,可以对人难以视觉识别的具有模糊的图像适当地进行拍摄。
在上述方式中,也可以是,所述第一相机不具有使来自被摄体的光成像在图像传感器上的光学系统。
根据该构成,因为第一相机不具有使来自被摄体的光成像在图像传感器上的光学系统,所以可以在通过第一相机拍摄的拍摄图像有意地制造出模糊。其结果,使得更难以对拍摄图像中包含的被摄体进行识别,能进一步提高保护被摄体的隐私的效果。
在上述方式中,所述掩模也可以变更为所述掩模图案不同的其它的掩模。
根据该构成,因为通过变更掩模也可以使第一相机的计算摄像信息发生变化,因此例如通过各用户任意地变更掩模,可以使计算摄像信息针对每个用户有所不同。其结果,第三者将第四图像逆变换为第三图像变得更加困难,能进一步提高保护被摄体的隐私的效果。
在上述方式中,也可以是,所述计算摄像信息是点扩散函数(PSF:Point spreadfunction)以及光传输矩阵(LTM:light transmission matrix)的其中之一。
根据该构成,通过利用PSF以及LTM的其中之一,可以简易且正确地获取有关第一相机的计算摄像信息。
在上述方式中,也可以所述信息处理装置进行所述点光源的点亮控制并进行由所述第一相机拍摄所述第一图像的拍摄控制,进行所述点光源的熄灭控制并进行由所述第一相机拍摄所述第二图像的拍摄控制。
根据该构成,通过信息处理装置对点光源以及第一相机的动作进行控制,可以使点光源的点亮以及熄灭的定时与第一相机进行拍摄的定时同步。
在上述方式中,也可以所述信息处理装置在所述差分图像的画质小于允许值的情况下,进行由所述第一相机再次拍摄所述第一图像以及所述第二图像的再次拍摄控制。
根据该构成,在差分图像的画质小于允许值的情况下,通过信息处理装置进行使第一相机进行再次拍摄的控制,可以获取点光源的亮度值被适当地调整后的差分图像。其结果,可以获取到有关第一相机的适当的计算摄像信息。
在上述方式中,也可以是,所述信息处理装置在所述再次拍摄控制中对所述第一相机的曝光时间以及增益的至少其中之一进行修正,以使得最大亮度值对于所述第一图像以及所述第二图像分别在规定范围内。
根据该构成,通过对第一相机的曝光时间以及增益的至少其中之一进行修正,通过再次拍摄控制,可以获取点光源的亮度值被适当地调整后的差分图像。
本发明的另一方式涉及的图像识别方法,在具有识别部的识别装置中,将通过拍摄具有模糊的图像的第一相机拍摄到的图像输入到所述识别部,所述识别部基于已学习的图像识别模型识别所输入的所述图像,输出所述识别部的识别结果,所述图像识别模型是根据上述的学习方法而创建的图像识别模型。
根据该构成,通过拍摄具有模糊的图像的第一相机拍摄作为图像识别对象的被摄体所在的对象区域。因此,即使是在通过第一相机拍摄到的拍摄图像被泄漏到外部的情况下,因为人难以视觉识别该图像,所以可以保护被摄体的隐私。而且,学习用数据即第三图像是通过拍摄没有模糊或模糊小的图像的第二相机进行拍摄的。因为人容易视觉识别该图像,所以可以容易地对第三图像赋予正确的正确答案标签。进一步,与第一相机有关的计算摄像信息是包含点亮状态的点光源的第一图像与包含熄灭状态的点光源的第二图像之间的差分图像。因此,可以不受该点光源以外的被摄体的影响而正确地获取到与实际使用的第一相机有关的计算摄像信息。由此,可以基于该计算摄像信息和第三图像正确地生成在机器学习时使用的第四图像。其结果,即可以保护被摄体的隐私又能提高图像识别精度以及机器学习的学习效率。
本发明的另一方式涉及的学习装置,其包括:获取部,用于获取与拍摄具有模糊的图像的第一相机有关的计算摄像信息,所述计算摄像信息是通过所述第一相机拍摄到的第一图像与第二图像之间的差分图像,所述第一图像包含点亮状态的点光源,所述第二图像包含熄灭状态的所述点光源;存储部,存储通过第二相机拍摄到的第三图像和对所述第三图像赋予的正确答案标签,所述第二相机拍摄没有模糊的图像或者比所述第一相机拍摄到的图像模糊小的图像;图像生成部,基于所述获取部获取到的所述计算摄像信息和从所述存储部读出的所述第三图像,生成具有模糊的第四图像;以及学习部,通过进行使用了所述图像生成部生成的所述第四图像和从所述存储部读出的所述正确答案标签的机器学习,创建用于识别通过所述第一相机拍摄到的图像的图像识别模型。
根据该构成,通过拍摄具有模糊的图像的第一相机拍摄作为图像识别对象的被摄体所在的对象区域。因此,即使是在通过第一相机拍摄到的拍摄图像被泄漏到外部的情况下,因为人难以视觉识别该图像,所以可以保护被摄体的隐私。而且,学习用数据即第三图像是通过拍摄没有模糊或模糊小的图像的第二相机进行拍摄的。因为人容易视觉识别该图像,所以可以容易地对第三图像赋予正确的正确答案标签。进一步,与第一相机有关的计算摄像信息是包含点亮状态的点光源的第一图像与包含熄灭状态的点光源的第二图像之间的差分图像。因此,可以不受该点光源以外的被摄体的影响而正确地获取到与实际使用的第一相机有关的计算摄像信息。由此,图像生成部可以基于该计算摄像信息和第三图像正确地生成在机器学习时使用的第四图像。其结果,即可以保护被摄体的隐私又能提高图像识别精度以及机器学习的学习效率。
本发明的另一方式涉及的图像识别系统,其包括:获取部,用于获取与拍摄具有模糊的图像的第一相机有关的计算摄像信息,所述计算摄像信息是通过所述第一相机拍摄到的第一图像与第二图像之间的差分图像,所述第一图像包含点亮状态的点光源,所述第二图像包含熄灭状态的所述点光源;存储部,存储通过第二相机拍摄到的第三图像和对所述第三图像赋予的正确答案标签,所述第二相机拍摄没有模糊的图像或者模糊比所述第一相机拍摄到的图像小的图像;图像生成部,基于所述获取部获取到的所述计算摄像信息和从所述存储部读出的所述第三图像,生成具有模糊的第四图像;学习部,通过进行使用了所述图像生成部生成的所述第四图像和从所述存储部读出的所述正确答案标签的机器学习,创建图像识别模型;识别部,基于所述学习部创建的所述图像识别模型,识别通过所述第一相机拍摄到的图像;以及输出部,用于输出所述识别部的识别结果。
根据该构成,通过拍摄具有模糊的图像的第一相机拍摄作为图像识别对象的被摄体所在的对象区域。因此,即使是在通过第一相机拍摄到的拍摄图像被泄漏到外部的情况下,因为人难以视觉识别该图像,所以可以保护被摄体的隐私。而且,学习用数据即第三图像是通过拍摄没有模糊或模糊小的图像的第二相机进行拍摄的。因为人容易视觉识别该图像,所以可以容易地对第三图像赋予正确的正确答案标签。进一步,与第一相机有关的计算摄像信息是包含点亮状态的点光源的第一图像与包含熄灭状态的点光源的第二图像之间的差分图像。因此,可以不受该点光源以外的被摄体的影响而正确地获取到与实际使用的第一相机有关的计算摄像信息。由此,图像生成部可以基于该计算摄像信息和第三图像正确地生成在机器学习时使用的第四图像。其结果,即可以保护被摄体的隐私又能提高图像识别精度以及机器学习的学习效率。
本发明,也可以作为用于使计算机执行该方法所包含的特征性的各构成要素的计算机程序来实现,或作为基于该计算机程序而动作的装置或系统来实现。而且,当然也可以使该计算机程序通过CD-ROM等的计算机可读取的非暂时性的记录介质进行流通或者通过英特网等的通信网络进行流通。
另外,在以下说明的各实施方式都是表示本发明的一具体例子的实施方式。在以下的实施方式所示的数值、形状、构成要素、步骤、步骤的顺序等只不过是一个具体例,并不用于限定本发明。而且,以下的实施方式中的构成要素之中、没有记载在表示最上位概念的独立权利要求中的构成要素作为任意的构成要素而被说明。而且,对于所有的实施方式,可以任意地组合它们的内容。
以下,利用附图对本发明的实施方式进行说明。另外,在不同的附图被赋予相同的符号的要素为相同或相应的要素。
(第一实施方式)
图1是表示本发明的第一实施方式涉及的图像识别系统10的构成的模式图。图像识别系统10具备学习装置20和识别装置30。识别装置30具有计算摄像相机(computationalimaging camera)101、识别部106、输出部107。识别部106包含CPU等的处理器以及半导体存储器等的存储器。输出部107是显示装置或扬声器等。而且,学习装置20具有学习数据库102、计算摄像信息获取部103、数据库修正部104、学习部105。学习数据库102是HDD、SSD或半导体存储器等的存储部。计算摄像信息获取部103、数据库修正部104以及学习部105是CPU等的处理器。
图2是表示图像识别系统10的主要处理的流程的流程图。该流程图表示由识别装置30进行的图像的识别处理的流程。首先,计算摄像相机101拍摄对象区域,并将通过该拍摄获得的计算摄像图像输入到识别部106(步骤S101)。接下来,识别部106使用已学习的图像识别模型来识别该计算摄像图像(步骤S102)。该图像识别模型是由学习装置20进行学习而创建的图像识别模型。接下来,输出部107输出由识别部106进行的识别的结果。各步骤的处理的详细情况将在以后说明。
计算摄像相机101与拍摄没有模糊的普通的图像的普通的相机有所不同,拍摄具有模糊的图像即计算摄像图像。计算摄像图像是通过有意地制造出的模糊让人即使观察拍摄图像也不能识别出被摄体,但是通过对摄像到的计算摄像图像实施图像处理可以生成人可以识别或识别部106可以识别的图像的图像。
图3是模式地表示作为计算摄像相机101的一个例子、以无透镜方式构成的多针孔相机(multi-pinhole camera)301的结构的图。图3所示的多针孔相机301具有多针孔掩模301a和CMOS等的图像传感器301b。多针孔掩模301a与图像传感器301b的受光面离开一定距离而配置。多针孔掩模301a具有随机或等间隔地配置的多个针孔301aa。将多个针孔301aa也称为多针孔。图像传感器301b通过各针孔301aa获取被摄体302的图像。通过针孔获取到的图像称为针孔图像。
由于被摄体302的针孔图像根据各针孔301aa的位置以及大小而有所不同,因此图像传感器301b获取多个针孔图像稍微偏移而被重合的状态(多重像)的重叠图像。多个针孔301aa的位置关系会影响到被投影在图像传感器301b上的多个针孔图像的位置关系(即,多重像的重叠的程度),针孔301aa的大小会影响到针孔图像的模糊的程度。
通过使用多针孔掩模301a,可以使位置以及模糊的程度不同的多个针孔图像重叠来获取。即,可以获取有意地制造出的多重像以及模糊的计算摄像图像。因此,所拍摄的图像成为多重像并且模糊的图像,可以获取通过这样的模糊从而保护了被摄体302的隐私的图像。而且,通过改变各针孔的数量、位置以及大小,可以获取模糊方式不同的图像。即,既可以是由用户可以方便地装卸多针孔掩模301a的构成,也可以是事先准备掩模图案不同的多种类的多针孔掩模301a,用户可以自由地更换所使用的多针孔掩模301a的构成。
另外,掩模的变更,除了更换掩模之外,也可以采用其它的各种方法来实现,例如:
·用户使转动自如地安装在图像传感器前面的掩模任意地旋转;
·用户在被安装在图像传感器前面的板的任意部位进行开孔;
·通过使用利用了空间光调制器等的液晶掩模等,任意地设定掩模内的各位置的透射率;
·通过使用橡胶等可伸缩材质成形掩模,利用施加外力使掩模物理性地变形来改变孔的位置以及大小等。以下,依次对这些变形例进行说明。
(用户使掩模任意地旋转的变形例)
图17A至17D是表示用户使掩模任意地旋转的多针孔相机301的结构的图。图17A表示用户可以使掩模任意地旋转的多针孔相机301的概况,图17B表示其剖面的模式图。多针孔相机301具有可以相对于其壳体401旋转的多针孔掩模301a,在多针孔掩模301a连接有把持部402。用户通过把持并操作把持部402,可以使多针孔掩模301a相对于壳体401固定或旋转。关于这样的结构,在把持部402设置螺钉,通过拧紧该螺钉来固定多针孔掩模301a,通过拧松螺钉使多针孔掩模301a旋转即可。图17C以及图17D表示在使把持部402旋转90度之际多针孔掩模301a旋转90度的模式图。如此,通过用户操作该把持部402,可以使多针孔掩模301a旋转。
而且,在用户可以使掩模任意地旋转的多针孔相机301中,如图17C所示,多针孔掩模301a也可以是相对于旋转为不对称的针孔配置。由此,用户通过旋转掩模可以实现各种各样的多针孔图案。
当然,用户可以使掩模任意地旋转的多针孔相机301的结构也可以是不具有把持部402的结构。图18A、18B是表示用户可以使掩模任意地旋转的多针孔相机301的另一构成例的模式图。图18A表示用户可以使掩模任意地旋转的多针孔相机301的另一构成例的概况,图18B表示其剖面的模式图。多针孔掩模301a被固定于镜筒411。而且,图像传感器301b被设置于另一镜筒412,镜筒411和镜筒412通过螺纹结构成为能够旋转的状态。即,镜筒412位于镜筒411的外侧,在其接合部即镜筒411的外侧刻有阳螺纹、在镜筒412的内侧刻有阴螺纹。而且,在镜筒411的阳螺纹处,首先安装固定件413,然后安装镜筒412。在固定件413也与镜筒412同样地刻有阴螺纹。通过采用这样的结构,在将镜筒411拧入镜筒412时,根据固定件413拧入镜筒411的位置而拧入的深度发生变化,可以变更多针孔相机301的旋转角。
图18C、18D是表示根据固定件413拧入镜筒411的位置而拧入的深度发生变化、多针孔相机301的旋转角发生变化的模式图。图18C是将固定件413拧入到镜筒411的深处的情况下的模式图,图18D是仅将固定件413拧入到镜筒411的中途的情况下的模式图。如图18C所示,在将固定件413拧入到镜筒411的深处的情况下,镜筒412可以拧入到镜筒411的深处。另一方面,如图18D所示,在仅将固定件413拧入到镜筒411的中途的情况下,镜筒412只能拧入到镜筒411的中途。因此,根据固定件413拧入镜筒411的位置而拧入的深度发生变化,可以使多针孔掩模301a的旋转角发生变化。
(用户在掩模开孔的变形例)
图19是用户在被安装在图像传感器301b前面的掩模301ab的任意的部位开孔的多针孔相机301的剖面的模式图。在图19中,对与图17相同的构成要素赋予相同的参照符号并省略其说明。最初,在掩模301ab不存在针孔。通过让用户使用针等在该掩模301ab的任意的部位打开多个孔,可以制作任意的形状的多针孔掩模。
(利用空间光调制器任意地设定掩模内的各位置的透射率的变形例)
图20是利用空间光调制器420任意地设定掩模内的各位置的透射率的构成的多针孔相机301的剖面的模式图。在图20中,对与图19相同的构成要素赋予相同的参照符号并省略其说明。空间光调制器420由液晶等构成,可以变更每个像素的透射率。该空间光调制器420作为多针孔掩模而发挥其功能。透射率的变更可以通过省略图示的空间光调制器控制部进行控制。因此,通过用户从事先准备的多个透射率图案之中选择任意的图案,可以实现各种各样的掩模图案(多针孔图案)。
(通过施加外力使掩模变形的变形例)
图21、22A至22F是通过施加外力使掩模变形的构成的多针孔相机301的剖面的模式图。在图21中,对与图19相同的构成要素赋予相同的参照符号并省略其说明。多针孔掩模301ac由多个掩模301a1、301a2、301a3构成,各掩模具有独立地施加外力的驱动部(未图示)。图22A至22C是用于说明构成多针孔掩模301ac的三张掩模301a1、301a2、301a3的模式图。在此,各掩模呈扇型和圆环组合而成的形状。当然,该结构只是一个例子而己,形状并不局限于扇形,构成的片数也不局限于三张。在各掩模形成有一个或多个针孔。另外,在掩模也可以不形成针孔。在此,在掩模301a1形成有两个针孔301aa1、301aa2,在掩模301a2形成有一个针孔301a a 3,在掩模301a3形成有两个针孔301aa4、301aa5。通过施加外力使这三张掩模301a1至301a3移动,可以制作出各种各样的多针孔图案。
图22D至22F表示由三张掩模301a1至301a3构成的三种多针孔掩模301ac。通过省略图示的各驱动部以不同的方式使各掩模301a1至301a3移动,构成在图22D、22E为具有五个针孔的掩模、在图22F为具有四个针孔的掩模。这样的掩模驱动部,可以使用在自动对焦等被广泛利用的超声波马达或线性马达来实现。如此,通过施加外力,可以使多针孔掩模301ac的针孔的数量或位置发生变化。
当然,多针孔掩模不仅可以改变针孔的数量或位置还可以改变针孔的大小。图23A至23C是用于说明通过施加外力使掩模变形的构成的多针孔相机301的多针孔掩模301ad的结构的模式图。多针孔掩模301ad具有多个针孔,由具有弹性的材质构成,具有可以独立地控制四个角的四个驱动部421至424。当然,驱动部的数量不需要一定是四个。通过驱动各驱动部421至424,可以使多针孔掩模301ad的针孔的位置或大小发生变化。
图23B是表示使驱动部421至424向相同方向驱动的情况下的模式图。在该图中,驱动部421至424所示的箭头的方向表示各驱动部的驱动方向。在这种情况下,多针孔掩模301ad在驱动部的驱动方向上平行地移动。另一方面,图23C是表示使驱动部421至424从多针孔掩模301ad的中心部向朝外的方向驱动的情况下的模式图。在这种情况下,由于多针孔掩模301ad随着弹性而被拉伸,针孔的尺寸变大。这样的驱动部421至424,可以使用在自动对焦等被广泛利用的超声波马达或线性马达来实现。如此,通过施加外力,可以使多针孔掩模301ac的针孔的位置或大小发生变化。
图4A是表示在多针孔相机301、多个针孔301aa的位置关系的图。在该例子,形成直线状地排列的三个针孔301aa。设定左端的针孔301aa与中央的针孔301aa之间的间距为L1,设定中央的针孔301aa与右端的针孔301aa之间的间距为L2(<L1)。
图4B以及图4C是表示多针孔相机301拍摄的拍摄图像的一个例子的图。图4B表示在多针孔相机301与被摄体302之间的距离较远、被摄体像较小的情况下的拍摄图像的例子。图4C表示在多针孔相机301与被摄体302之间的距离较近、被摄体像较大的情况下的拍摄图像的例子。通过使间距L1、L2相互不同,无论多针孔相机301与被摄体302之间的距离如何,通过视点不同的多个图像重叠来拍摄重叠图像,所述重叠图像是多个被摄体像以无法单独识别的方式相互重合的状态的图像。
作为计算摄像相机101,除了多针孔相机301以外,也可以使用以下所示的公知的相机等:
·在图像传感器和被摄体之间配置有掩模的编码孔径相机,所述掩模具有针对每个区域其透射率不同的掩模图案;
·具有在图像传感器的受光面配置微透镜阵列(microlens array)的构成,用于获取光场的光场照相机;
·在时间空间对像素信息进行加权相加计算来摄像的压缩传感相机。
而且,希望计算摄像相机101中不具有用于使来自被摄体的光在图像传感器上成像的光学系统(透镜、棱镜、反射镜等)。通过省略光学系统,可以实现相机的小型轻量化、降低成本以及提高设计性并且可以有意地对该相机拍摄的拍摄图像制造出模糊。
识别部106利用学习装置20的学习结果即图像识别模型,对通过计算摄像相机101拍摄到的对象区域的图像,识别在该图像中包含的人(包含人的行动以及表情等)、汽车、自行车或信号等被摄体的类别信息以及各被摄体的位置信息。用于创建图像识别模型的学习中,可以利用使用多层神经网络的深层学习(Deep Learning)等的机器学习。
输出部107输出识别部106识别出的结果。关于输出,可以具有接口部,通过图像、文本或声音等向用户提示识别结果,也可以具有设备控制部,根据识别结果变更控制方法。
学习装置20具有学习数据库102、计算摄像信息获取部103、数据库修正部104、学习部105。学习装置20与有关实际在对象区域的拍摄中使用的计算摄像相机101的计算摄像信息相对应地进行用于创建供识别部106使用的图像识别模型的学习。
而且,图5是表示图像识别系统10的学习装置20的主要处理的流程的流程图。
首先,计算摄像信息获取部103获取计算摄像信息,该计算摄像信息是表示通过计算摄像相机101拍摄了什么样的模糊图像、该模糊的状态的信息(步骤S201)。这即可以通过计算摄像相机101具有发送部、计算摄像信息获取部103具有接收部,用有线或无线来获取计算摄像信息,也可以通过计算摄像信息获取部103具有接口,用户向计算摄像信息获取部103输入计算摄像信息。
作为计算摄像信息,例如,如果计算摄像相机101是多针孔相机301,可以利用表示二维的计算摄像的状态的PSF(Point Spread Function,点扩散函数)。PSF是多针孔相机或编码孔径相机等的相机的传递函数,用以下的关系来表示。
y=k*x
在此,y是通过多针孔相机301拍摄的具有模糊的计算摄像图像,k是PSF,x是通过不使拍摄的场景模糊的普通的相机拍摄的普通图像。而且,*是卷积运算符。
而且,作为计算摄像信息,也可以不利用PSF,而是利用表示四维以上(在相机侧为二维以及在被摄体侧为二维以上)的计算摄像信息的LTM(Lighht Transport Matrix,光传输矩阵)。LTM是光场相机所利用的传递函数。
例如,在计算摄像相机101是多针孔相机301的情况下,通过用多针孔相机301拍摄点光源可以获取到PSF。这可以从PSF对应于相机的脉冲响应可知。即,通过用多针孔相机301对点光源进行摄像而得到的点光源的拍摄图像本身是作为多针孔相机301的计算摄像信息的PSF。在此,作为点光源的拍摄图像最好使用点亮时和熄灭时的差分图像(difference image),对此将在后述的第二实施方式进行说明。
接下来,数据库修正部104获取在学习数据库102中包含的没有模糊的普通图像,学习部105获取在学习数据库102中包含的注释信息(annotation information)(步骤S202)。
接下来,数据库修正部104(图像生成部)利用计算摄像信息获取部103获取到的计算摄像信息,修正学习数据库102(步骤S203)。例如,在识别部106识别环境内的人的行动的情况下,学习数据库102保存通过普通的相机拍摄的没有模糊的多个普通图像和对各图像赋予的注释信息(正确答案标签),所述注释信息表示在各图像中人在哪个位置进行了什么样的行动。在利用普通的相机的情况下,只需对通过该相机拍摄的图像赋予注释信息即可,然而,在通过多针孔相机或光场相机等获取计算摄像图像的情况下,由于即使是人看了该图像也不知道拍摄到了什么,因此很难赋予注释信息。而且,即使在通过与计算摄像相机101较大不同的普通的相机拍摄的图像实施学习处理,识别部106的识别精度也不会变高。在此,通过将事先对通过普通的相机拍摄的图像赋予了注释信息的数据库作为学习数据库102进行保存,并配合计算摄像相机101的计算摄像信息仅使拍摄图像变形,来创建与该计算摄像相机101相匹配的学习数据集,通过实施学习处理来提高识别精度。为此,数据库修正部104对事先准备的通过普通的相机拍摄的拍摄图像z,利用作为计算摄像信息获取部103获取的计算摄像信息的PSF,计算以下的校正图像y。
y=k*z
在此,k表示作为计算摄像信息获取部103获取到的计算摄像信息的PSF,*表示卷积运算符。
学习部105利用如此由数据库修正部104计算出的校正图像和从学习数据库102获取到的注释信息,实施学习处理(步骤S204)。例如,在识别部106是由多层的神经网络而构建的情况下,将校正图像以及注释信息作为训练数据(teacher data)使用,进行基于深度学习(Deep Learning)的机器学习。作为校正预测误差的算法,可以采用反向传播(BackPropagation)算法等。由此,学习部105创建用于识别部106识别通过计算摄像相机101拍摄到的图像的图像识别模型。由于校正图像成为与计算摄像相机101的计算摄像信息一致的图像,因此通过这样的学习,可以进行适合于计算摄像相机101的学习,识别部106可以进行高精度的识别处理。
根据本实施方式涉及的图像识别系统10,通过拍摄具有模糊的图像即计算摄像图像的计算摄像相机101(第一相机)对图像识别对象的被摄体302所在的对象区域进行摄像。因此,即使是在计算摄像相机101的拍摄图像被泄漏到外部的情况下,因为人难以对计算摄像图像进行视觉识别,所以可以保护被摄体302的隐私。而且,通过拍摄没有模糊的图像(或者模糊程度比计算摄像图像小的图像)的普通的相机(第二相机)对被积累在学习数据库102中的普通图像(第三图像)进行拍摄。因此,因为人容易对该图像进行视觉识别,所以可以方便地对普通图像赋予正确的注释信息(正确答案标签)。其结果,即能保护被摄体302的隐私又能提高图像识别精度以及机器学习的学习效率。
而且,作为计算摄像相机101,可以通过使用编码孔径相机、多针孔相机以及光场相机的其中之一,适当地拍摄难以被人进行视觉识别的具有模糊的图像。
而且,在计算摄像相机101,通过省略使来自被摄体302的光成像在图像传感器301b上的光学系统,可以在计算摄像相机101的拍摄图像有意地制造出模糊。其结果,由于更难以识别在该拍摄图像中包含的被摄体302,能进一步提高保护被摄体302的隐私的效果。
而且,在用户可以自由地变更所使用多针孔掩模301a的构成的情况下,由于通过变更掩模从而计算摄像相机10 1的计算摄像信息也会发生变化,例如,通过各用户任意地变更掩模,可以使计算摄像信息针对每个用户而有所不同。其结果,由于第三方难以进行从校正图像(第四图像)向普通图像(第三图像)的逆变换,因此可以进一步提高保护被摄体302的隐私的效果。
而且,通过使用作为计算摄像信息的PSF以及LTM的其中之一,可以简单且适当地获取关于计算摄像相机101的计算摄像信息。
第二实施方式
图6是表示本发明的第二实施方式涉及的图像识别系统11的构成的模式图。在图6中,对于与图1相同的构成要素赋予相同的参照符号并省略其说明。图像识别系统11的学习装置21具有控制部108。而且,图像识别系统11具有存在于通过计算摄像相机101拍摄的对象区域(环境)内的发光部109。发光部109是被视为存在于环境内的点光源的光源,例如,是搭载在电气设备上的LED或照明用LED。而且,也可以通过仅使LED监视器等的监视器的一部分的光点亮以及熄灭,作为发光部109而发挥其功能。通过控制部108控制发光部109以及计算摄像相机101,计算摄像信息获取部103获取计算摄像信息。
而且,图7是表示图像识别系统11的主要处理的流程的流程图。该流程图表示了计算摄像信息获取部103获取计算摄像相机101的计算摄像信息的处理的流程。
首先,控制部108对存在于环境内的发光部109发出点亮的指示(步骤S111)。
接下来,发光部109按照控制部108的指示实施点亮(步骤S112)。
接下来,控制部108发出让计算摄像相机101实施拍摄的指示(步骤S113)。由此,发光部109以及计算摄像相机101可以一边保持同步一边进行动作。
接下来,计算摄像相机101按照控制部108的指示实施拍摄(步骤S114)。所拍摄的图像(第一图像)被从计算摄像相机101输入到计算摄像信息获取部103,被计算摄像信息获取部103暂时地保存。
接下来,控制部108向发光部109发出熄灭的指示(步骤S115)。
接下来,发光部109按照控制部108的指示实施熄灭(步骤S116)。
接下来,控制部108发出让计算摄像相机101实施拍摄的指示(步骤S117)。
接下来,计算摄像相机101按照控制部108的指示实施拍摄(步骤S118)。所拍摄的图像(第二图像)被从计算摄像相机101输入到计算摄像信息获取部103。
接下来,计算摄像信息获取部103生成第一图像和第二图像之间的差分图像(步骤S119)。通过如此求出发光部109在点亮时的第一图像与在熄灭时的第二图像之间的差分图像,可以不受环境内的其它的被摄体的影响地获取仅为点亮状态的发光部109的图像即PSF。
接下来,计算摄像信息获取部103将所生成的差分图像作为计算摄像相机101的计算摄像信息进行获取(步骤S120)。
在如此利用PSF作为计算摄像信息的情况下,计算摄像相机101拍摄发光部109点亮的场景和熄灭的场景的两张图像。此时拍摄的点亮时的图像和熄灭时的图像最好尽可能没有时间差地进行拍摄。
图8A至图8C是用于说明差分图像的生成处理的说明图。图8A是在发光部109点亮时由计算摄像相机101拍摄到的图像。可知发光部109的亮度值较高。图8B是在发光部109熄灭时由计算摄像相机101拍摄到的图像。可知发光部109的亮度值与点亮时相比变低。图8C表示从在发光部109点亮时由计算摄像相机101拍摄到的图像即图8A减去在发光部109熄灭时由计算摄像相机101拍摄到的图像即图8B而得到的差分图像。由于不受发光部109以外的被摄体的影响仅拍摄作为点光源的发光部109,因此可以得知能够获取到PSF。
而且,在利用LTM作为计算摄像信息的情况下,也可以使用被分散配置在环境内的多个发光部109,获取在多个位置的PSF并将其作为LTM。
图9是表示利用LTM作为计算摄像信息的情况下的计算摄像信息获取部103的主要处理的流程的流程图。首先,获取与各发光部109对应的PSF(步骤S301)。这可以如上所述,利用各发光部109在点亮时和在熄灭时的差分图像来获取。通过如此,可以获取到在图像上的多个位置的PSF。图10表示如此获取到的多个PSF的模式图。在这个例子的情况下,在图像上的6个点获取到PSF。
计算摄像信息获取部103通过对如此获取到的多个PSF实施插值处理,计算图像的所有像素的PSF并将其作为LTM(步骤S302)。这样的插值处理可以利用渐变(morphing)等的一般的图像处理。而且,发光部109也可以是用户的智能手机或移动电话的灯光。在这种情况下,也可以由用户来实现发光部109的点亮或熄灭来代替控制部108。
而且,在利用LTM作为计算摄像信息的情况下,也可以不用配置多个发光部109,而是利用较少的发光部109通过移动使发光部109的位置变更。例如,也可以将智能手机或移动电话的灯光作为发光部109加以利用,用户一边改变位置一边实现点亮以及熄灭。或者,也可以利用搭载在无人机或吸尘器机器人等移动体上的LED。或者,也可以将计算摄像相机101设置在移动体等上,或者,也可以通过用户变更朝向或位置,来变更计算摄像图像上的发光部109的位置。
根据本实施方式涉及的图像识别系统11,与计算摄像相机101(第一相机)有关的计算摄像信息是包含点亮状态的点光源的第一图像与包含熄灭状态的点光源的第二图像之间的差分图像。因此,可以不受该点光源以外的被摄体的影响而正确地获取到与实际使用的计算摄像相机101有关的计算摄像信息。由此,可以基于该计算摄像信息和普通图像(第三图像)正确地生成在机器学习中使用的校正图像(第4图像)。
而且,通过学习装置21的控制部108控制发光部109以及计算摄像相机101的动作,可以使发光部109的点亮或熄灭的定时与计算摄像相机101进行摄像的定时正确地同步。
第三实施方式
图11是表示本发明的第三实施方式涉及的图像识别系统12的构成的模式图。在图11中,对于与图6相同的构成要素赋予相同的参照符号并省略其说明。图像识别系统12的学习装置22具有计算摄像信息判断部110。计算摄像信息判断部110判断计算摄像信息获取部103获取到的计算摄像信息的画质的状态。学习装置22根据计算摄像信息判断部110的判断结果切换处理的内容。
而且,图12是表示图像识别系统12的主要处理的流程的流程图。该流程图表示由计算摄像信息判断部110进行画质判断处理的前后的处理的流程。
首先,计算摄像信息获取部103通过与上述第二实施方式的步骤S119(图7)相同的方法,生成发光部109点亮时的第一图像与发光部109熄灭时的第二图像之间的差分图像(步骤S121)。
接下来,计算摄像信息判断部110判断通过计算摄像信息获取部103生成的差分图像的画质是否在允许值以上(步骤S122)。由于在PSF需要不拍摄点光源以外的物体,因此可以利用点亮时与熄灭时之间的差分图像。然而,在点亮时的拍摄和熄灭时的拍摄之间如果有人的动作幅度很大或环境内的亮度急剧地变化等场景的变更的情况下,该场景的变更也会被表现在差分图像,无法获取到正确的PSF。在此,计算摄像信息判断部110对在差分图像中具有规定值以上的亮度的像素数进行计数,在该像素数在阈值以上的情况下判断PSF的画质小于允许值,在该像素数小于阈值的情况下判断PSF的画质在允许值以上。
在计算摄像信息判断部110判断为差分图像的画质小于允许值的情况下(步骤S122:否),接着,控制部108进行如下的指示:为了进行再次的摄影,向发光部109指示发光以及熄灭,向计算摄像相机101指示再次拍摄(步骤S123)。另一方面,在计算摄像信息判断部110判断为差分图像画质在允许值以上的情况下(步骤S122:是),接着,数据库修正部104利用计算摄像信息获取部103作为差分图像获取到的计算摄像信息(PSF),修正学习数据库102(步骤S124)。
在此,作为差分图像的画质劣化的原因之一,可能是计算摄像相机101的设定不当。例如,在计算摄像相机101的曝光时间过短的情况下或者信号放大的增益过小的情况下,图像整体地变暗,发光部109的亮度被埋没在噪声中。相反,在计算摄像相机101的曝光时间过长或信号放大的增益过大的情况下,图像内的高亮度区域的亮度值超过感应范围的上限值而饱和,发光部109的周围变成所谓的泛白的状态。在此,计算摄像信息判断部110确认发光部109在点亮时以及熄灭时的各自的图像的最大亮度值,在最大亮度值超过上限值的情况下或小于下限值的情况下(即,在规定范围外的情况下),也可以判断为差分图像的画质小于允许值。计算摄像信息判断部110通过判断有关发光部109在点亮时的图像的最大亮度值是否超过上限值来判断差分图像的画质,可以判断发光部109的亮度是否超过感应范围而饱和。而且,计算摄像信息判断部110通过判断有关发光部109在点亮时的图像的最大亮度值是否小于下限值来判断差分图像的画质,可以判断发光部109的亮度是否被噪声埋没。而且,在判断为发光部109的亮度处于饱和或者被噪声埋没的情况下,控制部108也可以进行变更计算摄像相机101的设定的控制,以使得在再次拍摄时最大亮度值在上述规定范围内。
图13是表示图像识别系统12的主要处理的流程的流程图。该流程图表示计算摄像信息判断部110进行画质判断处理的前后的处理的流程。
首先,计算摄像信息获取部103获取在发光部109点亮时通过计算摄像相机101拍摄到的第一图像(步骤S131)。
接下来,计算摄像信息判断部110通过确认计算摄像信息获取部103获取到的第一图像的最大亮度值是否超过上限值Th1,来判断该图像的亮度是否处于饱和(步骤S132)。
在最大亮度值超过上限值Th1的情况下即图像的亮度处于饱和的情况下(步骤S132:是),接着,控制部108指示计算摄像相机101使曝光时间变短并实施再次拍摄(步骤S133)。另一方面,当最大亮度值在上限值Th1以下情况下(步骤S132:否),接着,计算摄像信息判断部110通过确认计算摄像信息获取部103获取到的第一图像的最大亮度值是否小于下限值Th2,判断发光部109的亮度是否被噪声埋没(步骤S134)。
在最大亮度值小于下限值Th2的情况下即发光部109的亮度被噪声埋没的情况下(步骤S134:是),接着,控制部108指示计算摄像相机101使曝光时间变长并实施再次拍摄(步骤S135)。另一方面,当最大亮度值在下限值Th2以上的情况下(步骤S134:否),接着,计算摄像信息判断部110判断计算摄像信息获取部103获取到的第一图像的画质在当前的曝光时间下足够高。在这种情况下,控制部108指示发光部109熄灭,而且,指示计算摄像相机10在上述当前的曝光时间下进行拍摄。由此,计算摄像信息获取部103获取发光部109在熄灭时的第二图像(步骤S136)。另外,控制部108对于获取到的第二图像,也可以与上述第一图像同样地控制计算摄像相机101的曝光时间从而使最大亮度值在规定范围内。
当然,控制部108也可以变更计算摄像相机101的曝光时间以外的设定。例如,也可以变更增益。
图14是表示图像识别系统12的主要处理的流程的流程图。该流程图表示计算摄像信息判断部110进行画质判断处理的前后的处理的流程。
在步骤S132的判断中,当最大亮度值超过上限值Th1的情况下即图像的亮度处于饱和的情况下(步骤S132:是),接着,控制部108指示计算摄像相机101进一步减小增益并实施再次拍摄(步骤S137)。
在步骤S134的判断中,当最大亮度值小于下限值Th2的情况下即发光部109的亮度被噪声埋没的情况下(步骤S134:是),接着,控制部108指示计算摄像相机101进一步使增益增大并实施再次拍摄(步骤S138)。
而且,控制部108也可以不是控制计算摄像相机101的曝光时间或者增益,而是控制发光部109的亮度。即,在通过计算摄像信息判断部110判断发光部109的亮度处于饱和的情况下,控制部108控制发光部109以使得降低亮度。相反,在通过计算摄像信息判断部110判断发光部109的亮度被噪声淹没的情况下,控制部108控制发光部109以使得提高亮度。通过提高发光部109的亮度来增大与噪声之间的亮度差。
而且,控制部108在通过计算摄像信息判断部110判断为差分图像的画质小于允许值的情况下,也可以选择在对象区域内存在的其它的发光部并指示该其它的发光部进行发光以及熄灭。这是因为,在具有指向性的光源的情况下,根据计算摄像相机101和发光部109之间的位置关系,存在无论如何画质都会降低的情况,而以上的选择其它的发光部在这种情况下比较有效。
根据本实施方式涉及的图像识别系统12,在差分图像的画质小于允许值的情况下,控制部108通过控制计算摄像相机101进行再次拍摄,可以获取点光源的亮度值被适当地调整的差分图像。其结果,可以获取有关计算摄像相机101的适当的计算摄像信息。
而且,在再次拍摄控制中,控制部108通过修正计算摄像相机101的曝光时间以及增益的至少其中之一,可以获取点光源的亮度值被适当地调整的差分图像。
第四实施方式
图15是表示本发明的第四实施方式涉及的图像识别系统13的构成的模式图。在图15中,对于与图1相同的构成要素赋予相同的参照符号并省略其说明。图像识别系统13的学习装置23具有保存了已学习的多个图像识别模型的存储部112和从该多个图像识别模型之中选择一个图像识别模型的模型选择部111。图像识别系统13的学习装置23不是让学习部105学习被数据库修正部104修正过的学习数据库102,而是具有模型选择部111,从事先已学习过的多个图像识别模型之中选择与计算摄像相机101的计算摄像信息对应的最佳的图像识别模型。例如,在如上所述事先准备了掩模图案不同的多种多针孔掩模301a的情况下,预先创建利用在各多针孔掩模301a的安装状态下的拍摄图像而学习过的图像识别模型,并将这些多个图像识别模型保存在存储部112中。模型选择部111从被保存在存储部112中的多个图像识别模型之中选择与计算摄像相机101的计算摄像信息相对应的一个图像识别模型。
而且,图16是表示图像识别系统13的学习装置23的主要处理的流程的流程图。该流程图表示模型选择部111选择图像识别模型的处理的流程。
首先,计算摄像信息获取部103获取计算摄像相机101的计算摄像信息(步骤S201)。
接下来,模型选择部111从被保存在存储部112中的多个图像识别模型之中选择与计算摄像信息获取部103获取到的计算摄像信息相对应的一个图像识别模型(步骤S211)。这可以事先准备好通过各种计算摄像信息学习过的图像识别模型,然后选择通过最接近该计算摄像信息的计算摄像信息学习过的图像识别模型即可。
如此选择的图像识别模型成为适于计算摄像相机101的图像识别模型。在识别部106设定所选择的图像识别模型作为识别部106使用的图像识别模型。识别部106通过使用该图像识别模型可以进行高精度的识别处理。
根据本实施方式涉及的图像识别系统13,学习装置23从已学习的多个图像识别模型之中选择与计算摄像相机101的计算摄像信息相对应的一个图像识别模型。由此,因为学习装置23不需要重新进行学习,所以可以减轻学习装置23的处理负荷并快速地开始识别装置30的运用。
产业上的可利用性
本发明涉及的学习方法以及识别方法,特别是对于在需要保护被摄体隐私的环境下的图像识别系统有其实用价值。
Claims (11)
1.一种学习方法,作为学习装置的信息处理装置获取与拍摄具有模糊的图像的第一相机有关的计算摄像信息,所述计算摄像信息是通过所述第一相机拍摄到的第一图像与第二图像之间的差分图像,所述第一图像包含点亮状态的点光源,所述第二图像包含熄灭状态的所述点光源,
所述信息处理装置获取通过第二相机拍摄到的第三图像和对所述第三图像赋予的正确答案标签,所述第二相机拍摄没有模糊的图像或者模糊比所述第一相机拍摄到的图像小的图像,
所述信息处理装置基于所述计算摄像信息和所述第三图像来生成具有模糊的第四图像,
所述信息处理装置通过进行使用了所述第四图像和所述正确答案标签的机器学习,创建用于对通过所述第一相机拍摄到的图像进行识别的图像识别模型。
2.根据权利要求1所述的学习方法,其中,
所述第一相机是编码孔径相机、多针孔相机以及光场相机的其中之一,
所述编码孔径相机具备掩模,所述掩模具有透射率在每个区域不同的掩模图案,
所述多针孔相机是具有被形成有多个针孔的掩模图案的掩模被配置于图像传感器的受光面的相机,
所述光场相机获取来自被摄体的光场。
3.根据权利要求1或2所述的学习方法,其中,
所述第一相机不具有使来自被摄体的光成像在图像传感器上的光学系统。
4.根据权利要求2所述的学习方法,其中,
所述掩模能够变更为所述掩模图案不同的其它的掩模。
5.根据权利要求1至4中任一项所述的学习方法,其中,
所述计算摄像信息是点扩散函数以及光传输矩阵的其中之一。
6.根据权利要求1至5中任一项所述的学习方法,其中,
所述信息处理装置进行所述点光源的点亮控制并且进行由所述第一相机拍摄所述第一图像的拍摄控制,所述信息处理装置进行所述点光源的熄灭控制并且进行由所述第一相机拍摄所述第二图像的拍摄控制。
7.根据权利要求6所述的学习方法,其中,
在所述差分图像的画质小于允许值的情况下,所述信息处理装置进行由所述第一相机再次拍摄所述第一图像以及所述第二图像的再次拍摄控制。
8.根据权利要求7所述的学习方法,其中,
所述信息处理装置在所述再次拍摄控制中对所述第一相机的曝光时间以及增益的至少其中之一进行修正,以使得所述第一图像以及所述第二图像各自的最大亮度值分别在规定范围内。
9.一种图像识别方法,在具有识别部的识别装置中,
将通过拍摄具有模糊的图像的第一相机拍摄到的图像输入到所述识别部,
所述识别部基于已学习的图像识别模型来识别所输入的所述图像,
输出所述识别部的识别结果,
所述图像识别模型是通过权利要求1至8中任一项所述的学习方法而创建的图像识别模型。
10.一种学习装置,包括:
获取部,用于获取与拍摄具有模糊的图像的第一相机有关的计算摄像信息,所述计算摄像信息是通过所述第一相机拍摄到的第一图像与第二图像之间的差分图像,所述第一图像包含点亮状态的点光源,所述第二图像包含熄灭状态的所述点光源;
存储部,存储通过第二相机拍摄到的第三图像和对所述第三图像赋予的正确答案标签,所述第二相机拍摄没有模糊的图像或者模糊比所述第一相机拍摄到的图像小的图像;
图像生成部,基于所述获取部获取到的所述计算摄像信息和从所述存储部读出的所述第三图像,生成具有模糊的第四图像;以及
学习部,通过进行使用了所述图像生成部生成的所述第四图像和从所述存储部读出的所述正确答案标签的机器学习,创建用于对通过所述第一相机拍摄到的图像进行识别的图像识别模型。
11.一种图像识别系统,包括:
获取部,用于获取与拍摄具有模糊的图像的第一相机有关的计算摄像信息,所述计算摄像信息是通过所述第一相机拍摄到的第一图像与第二图像之间的差分图像,所述第一图像包含点亮状态的点光源,所述第二图像包含熄灭状态的所述点光源;
存储部,存储通过第二相机拍摄到的第三图像和对所述第三图像赋予的正确答案标签,所述第二相机拍摄没有模糊的图像或者模糊比所述第一相机拍摄到的图像小的图像;
图像生成部,基于所述获取部获取到的所述计算摄像信息和从所述存储部读出的所述第三图像,生成具有模糊的第四图像;
学习部,通过进行使用了所述图像生成部生成的所述第四图像和从所述存储部读出的所述正确答案标签的机器学习,创建图像识别模型;
识别部,基于所述学习部创建的所述图像识别模型,识别通过所述第一相机拍摄到的图像;以及
输出部,用于输出所述识别部的识别结果。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020122187 | 2020-07-16 | ||
JP2020-122187 | 2020-07-16 | ||
PCT/JP2021/024221 WO2022014306A1 (ja) | 2020-07-16 | 2021-06-25 | 学習方法、画像識別方法、学習装置、及び画像識別システム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115843371A true CN115843371A (zh) | 2023-03-24 |
Family
ID=79555251
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180048827.8A Pending CN115843371A (zh) | 2020-07-16 | 2021-06-25 | 学习方法、图像识别方法、学习装置以及图像识别系统 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230134491A1 (zh) |
JP (1) | JPWO2022014306A1 (zh) |
CN (1) | CN115843371A (zh) |
WO (1) | WO2022014306A1 (zh) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6998554B2 (ja) * | 2017-09-12 | 2022-01-18 | パナソニックIpマネジメント株式会社 | 画像生成装置及び画像生成方法 |
JP6641447B2 (ja) * | 2017-12-26 | 2020-02-05 | キヤノン株式会社 | 撮像装置及びその制御方法、プログラム、記憶媒体 |
JP2020095428A (ja) * | 2018-12-12 | 2020-06-18 | 株式会社東芝 | モデル学習システム、モデル学習方法、プログラム、及び記憶媒体 |
-
2021
- 2021-06-25 JP JP2022536223A patent/JPWO2022014306A1/ja active Pending
- 2021-06-25 WO PCT/JP2021/024221 patent/WO2022014306A1/ja active Application Filing
- 2021-06-25 CN CN202180048827.8A patent/CN115843371A/zh active Pending
-
2022
- 2022-12-27 US US18/089,103 patent/US20230134491A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2022014306A1 (ja) | 2022-01-20 |
US20230134491A1 (en) | 2023-05-04 |
JPWO2022014306A1 (zh) | 2022-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11703323B2 (en) | Multi-channel depth estimation using census transforms | |
CN109194876B (zh) | 图像处理方法、装置、电子设备和计算机可读存储介质 | |
JP6911192B2 (ja) | 画像処理方法、装置および機器 | |
JP5108093B2 (ja) | 撮像装置及び撮像方法 | |
US10455217B2 (en) | Electronic apparatus and method of generating depth map | |
US8854533B2 (en) | Image capture apparatus and control method therefor | |
JP2016114946A (ja) | カメラモジュール | |
JP6931369B2 (ja) | 画像処理装置および画像処理方法、ならびに撮像装置 | |
JP2017005380A (ja) | 制御装置、撮像装置、制御方法、プログラム、および、記憶媒体 | |
CN109544620A (zh) | 图像处理方法和装置、计算机可读存储介质和电子设备 | |
US20230138710A1 (en) | Multi-pinhole camera and image identification system | |
JP5964772B2 (ja) | レンズ情報登録システム,レンズ情報登録システムに用いられるレンズ情報サーバおよびカメラ本体 | |
CN115843371A (zh) | 学习方法、图像识别方法、学习装置以及图像识别系统 | |
JP2020057967A (ja) | 画像処理装置、撮像装置、画像処理装置の制御方法およびプログラム | |
JP2020067503A (ja) | 撮像装置、監視システム、撮像装置の制御方法およびプログラム | |
CN114928728A (zh) | 投影设备及异物检测方法 | |
KR100736565B1 (ko) | 파노라마 영상 촬영 방법 및 이를 수행하기 위한이동통신단말기 | |
WO2023127589A1 (ja) | 画像識別システム、画像識別方法、画像識別プログラム及び画像識別プログラムを記録したコンピュータ読み取り可能な非一時的な記録媒体 | |
JP2021127998A (ja) | 距離情報取得装置および距離情報取得方法 | |
KR102486110B1 (ko) | 조도변화에 적응하는 초저조도 카메라 | |
JP6452528B2 (ja) | 監視カメラ | |
JP2014179937A (ja) | 撮像装置、撮像方法および撮像プログラム | |
JP6818798B2 (ja) | 画像処理装置および画像処理方法、ならびに撮像装置 | |
WO2023106010A1 (ja) | 電子機器 | |
JP2020095070A (ja) | 撮像装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |