CN115226406A - 图像生成装置、图像生成方法、记录介质生成方法、学习模型生成装置、学习模型生成方法、学习模型、数据处理装置、数据处理方法、推断方法、电子装置、生成方法、程序和非暂时性计算机可读介质 - Google Patents

图像生成装置、图像生成方法、记录介质生成方法、学习模型生成装置、学习模型生成方法、学习模型、数据处理装置、数据处理方法、推断方法、电子装置、生成方法、程序和非暂时性计算机可读介质 Download PDF

Info

Publication number
CN115226406A
CN115226406A CN202180017681.0A CN202180017681A CN115226406A CN 115226406 A CN115226406 A CN 115226406A CN 202180017681 A CN202180017681 A CN 202180017681A CN 115226406 A CN115226406 A CN 115226406A
Authority
CN
China
Prior art keywords
image
model
data
learning model
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180017681.0A
Other languages
English (en)
Inventor
秦龙平
安藤嘉基
新见雄亮
保坂肇
森山豊
野村宜邦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Semiconductor Solutions Corp
Original Assignee
Sony Semiconductor Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Semiconductor Solutions Corp filed Critical Sony Semiconductor Solutions Corp
Publication of CN115226406A publication Critical patent/CN115226406A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/80Geometric correction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Computer Graphics (AREA)
  • Image Analysis (AREA)

Abstract

[问题]使用计算机图形获取训练数据。[解决方案]一种图像生成方法,包括:获取CG模型或基于CG模型生成的人工图像;并且使用处理器以对CG模型或人工图像进行操作处理,从而生成用于在使用传感器获取的图像所采用的AI学习中的经操作的图像或人工图像的元数据。

Description

图像生成装置、图像生成方法、记录介质生成方法、学习模型 生成装置、学习模型生成方法、学习模型、数据处理装置、数据 处理方法、推断方法、电子装置、生成方法、程序和非暂时性计 算机可读介质
技术领域
本公开涉及图像生成装置、图像生成方法、记录介质生成方法、学习模型生成装置、学习模型生成方法、学习模型、数据处理装置、数据处理方法、推断方法、电子装置、生成方法、程序和非暂时性计算机可读介质。
背景技术
现在,正在广泛地研究通过机器学习等的深度学习和估计模型生成。当执行机器学习时,需要将大量训练数据输入到所生成的模型。此外,需要大量的训练数据来执行验证。为了收集用于生成使用图像作为输入的模型的训练数据,需要获取实际的风景作为图片并绘制绘画。在收集该训练数据之后,执行训练的人经常需要将注释添加到各个训练数据。
然而,需要花费时间和精力来收集数据和添加注释,并且存在发生人为错误等的高概率。当训练特殊情形下的数据(例如,诸如用于支持夜间自动驾驶的模型和用于校正由预定相机拍摄的图像的模型的模型)时,需要在该情形下收集数据,但是收集这样的数据通常是昂贵的。此外,期望首先收集难以遇到的情形的图像作为训练数据,诸如在自动驾驶中发生的事故的场景、病理的图像和手术期间的图像,但是在有意地引起这些情形时存在包括伦理问题的各种问题,并且在数据收集可能的状态下也难以无意地遇到这些情形。
现有技术文献
专利文献
专利文献1:JP H6-348840A
发明内容
[本发明要解决的技术问题]
这里,本公开使用计算机图形实现训练数据的获取。
[问题的解决方案]
根据一个实施方式,数据生成方法是由处理器生成数据的方法,该方法是从CG模型获得用于在机器学习中优化估计模型的训练数据的数据生成方法。
可以从CG模型中获取基于成像相机的参数的图像。
相机的参数可包括与相机的镜头相关的参数。
与相机的镜头相关的参数可以是基于鱼眼镜头、广角镜头、望远镜头、微距镜头和标准镜头中的至少一个的参数。
与相机的透镜相关的参数可以是与由相机的透镜引起的模糊、失真、阴影、耀斑以及重影中的至少一个相关的参数。
相机的参数可包括与相机的光接收传感器相关的参数。
与相机的传感器相关的参数可以是与具有白色像素、黑色像素和随机像素值的缺陷中的至少一个相关的参数。
与相机的传感器相关的参数可以是与图像平面相位差获取像素、偏振像素、IR获取像素、UV获取像素、距离测量像素和温度像素中的至少一个相关的参数。
与相机的传感器相关的参数可以是与滤色器特性、光谱特性、滤色器布置、温度特性、变换效率、灵敏度和读取顺序中的至少一个相关的参数。
可以针对通过从CG模型获取的成像相机的参数变换的图像,获取基于与数据压缩相关的参数的压缩图像。
与数据压缩相关的参数可包括与压缩算法、压缩率、比特率、灰度和色空间变换中的至少一个相关的参数。
可以从CG模型获取多光谱图像和高光谱图像。
可以基于来自CG模型的成像条件来获取图像。
成像条件可以涉及光源的类型、位置和方向中的至少一个。
成像条件可以涉及像素值的饱和。
成像条件可以涉及曝光。
可从CG模型单独地获取作为估计模型的输入图像的正常图像和作为输入正常图像时的期望输出图像的理想图像。
可以使用以上方法中的至少任何一种从CG模型获取正常图像和理想图像。
可以通过向CG模型添加注释来获取理想图像。
可针对理想图像的每一区域或每一像素添加注释。
可以通过在与从CG模型生成理想图像的变换相同的变换中通过几何变换来变换来添加注释。
根据一个实施方式,学习方法包括使用根据以上方法中的任一种使用数据生成方法获取的训练数据优化估计模型。
根据一个实施方式,估计方法包括使用估计模型来执行估计,该估计模型使用根据以上方法中的任一种使用数据生成方法获取的训练数据进行优化。
另外,根据一个实施方式,一种图像生成方法包括:获取CG模型或基于CG模型生成的人工图像;并且通过处理器对CG模型或人工图像执行处理;以及生成用于传感器所获取的图像或人工图像所使用的AI学习的处理图像的元数据。
图像生成方法还可以包括:选择用于处理CG模型或人工图像的至少一个参数;并且在生成CG模型或人工图像的时刻,基于所选择的参数向CG模型或人工图像进行应用。
至少一个参数可以是与传感器相关的参数。
传感器可以至少包括相机。
用于由传感器获取的图像的AI可以用于校正由传感器或相机引起的图像的变化。
图像生成方法还可以包括在记录介质中记录处理图像或人工图像的元数据。
处理图像或人工图像的元数据可与人工图像相关联并被记录在存储介质中。
根据一个实施方式,一种图像生成装置包括处理器,其中,处理器获取CG模型或基于CG模型生成的人工图像,并对CG模型或人工图像进行处理,并生成用于传感器所获取的图像或人工图像的AI学习的经处理的图像的元数据。
根据一个实施方式,一种非暂时性计算机可读介质存储用于在处理器被执行时执行图像生成方法的程序,该方法包括:获取CG模型或基于CG模型生成的人工图像;并且对CG模型或人工图像进行处理,并生成用于传感器所获取的图像或人工图像的AI学习的处理图像的元数据。
根据一个实施方式,学习模型生成方法是一种用于传感器所获取的图像的AI的学习模型生成方法,该方法包括:获取第一图像数据;获取与第一图像数据不同的第二图像数据;并且基于第一图像数据和第二图像数据,生成当输入第一图像数据时,输出与第二图像数据对应的图像的学习模型,其中,第一图像数据是CG模型或基于CG模型生成的人工图像,并且其中,第二图像数据是通过处理器对CG模型或基于CG模型生成的人工图像执行处理而获得的数据。
第二图像数据可以是第二图像的元数据。
根据一个实施方式,学习模型生成装置包括处理器并且生成用于由传感器采集的图像的AI学习模型,其中处理器获取第一图像数据,获取与第一图像数据不同的第二图像数据,并且当输入有第一图像数据时基于第一图像数据和第二图像数据生成输出与第二图像数据相对应的图像的学习模型,其中,第一图像数据是CG模型或基于CG模型生成的人工图像,并且其中,第二图像数据是通过由与处理器相同的处理器或与处理器不同的处理器对CG模型或基于CG模型生成的人工图像执行处理而获得的数据。
根据一种实施方式,一种非暂时性计算机可读介质存储程序,其中,当通过处理器执行该程序时,该程序执行学习模型生成方法,包括:获取第一图像数据;获取与第一图像数据不同的第二图像数据;以及基于第一图像数据和第二图像数据,生成当输入第一图像数据时输出与第二图像数据对应的图像的学习模型,其中,第一图像数据是CG模型或基于CG模型生成的人工图像,并且其中,第二图像数据是通过由与处理器相同的处理器或与处理器不同的处理器对CG模型或基于CG模型生成的人工图像执行处理而获得的数据。
根据一个实施方式,一种推断方法是利用用于由传感器获取的图像的AI学习模型来执行推断的推断方法,推断方法包括:由处理器获取输入图像数据;以及从输入图像数据被输入到的学习模型中获取学习模型的处理结果,其中学习模型是通过获取第一图像数据和不同于第一图像数据的第二图像数据,并且基于第一图像数据和第二图像数据学习而生成的模型,其中第一图像数据是人工生成的人工图像,并且其中第二图像数据是通过对第一图像执行处理而获得的数据。
根据一个实施方式,一种电子装置是利用用于由传感器采集的图像的AI学习模型来执行推断的电子装置,该电子装置包括控制装置,其中控制装置在输入有输入图像数据时,将输入图像数据输入至学习模型,获取输入有输入图像数据的学习模型的处理结果,并输出所获取的处理结果,并且其中,学习模型是用人工生成的人工图像和通过对人工图像进行处理获得的处理图像训练的模型。
根据一个实施方式,一种程序是一种使得处理器执行一种推断方法的程序,该推断方法利用用于传感器所获取的图像的AI学习模型来执行推断,其中推断方法包括:获取输入图像数据;以及从输入图像数据被输入到的学习模型中获取学习模型的处理结果,其中学习模型是通过获取第一图像数据和不同于第一图像数据的第二图像数据,并且基于第一图像数据和第二图像数据学习而生成的模型,其中第一图像数据是人工生成的人工图像,并且其中,第二图像数据是通过对第一图像执行处理而获得的数据。
根据一个实施方式,生成方法是生成用于由传感器获取的图像的AI学习模型的生成方法,包括训练学习模型,在学习模型基于人工生成的人工图像和通过对人工图像执行处理而获得的处理图像,在学习模型中,当输入与由传感器获取的人工图像对应的图像时,输出与处理图像对应的图像。
一种电子装置生成方法可以包括在非暂时性计算机可读介质中记录由以上生成的学习模型。
根据一个实施方式,学习模型是用于由传感器采集的图像的AI学习模型,该学习模型包括:由多个节点组成的多个层,其中多个层中的每个层具有功能,并且多个层中的每个层中的多个节点中的每个节点经由边缘连接到多个层中的其他层中的一个或多个节点,并且其中边缘具有基于人工生成的人工图像和通过对人工图像进行处理所获得的处理图像的权重。
根据一个实施方式,一种非暂时性计算机可读介质是其中记录了用于由传感器采集的图像的AI学习模型的非暂时性计算机可读介质,其中学习模型包括多个由多个节点组成的层,其中,多个层中的每个层具有功能,并且多个层中的每个层中的多个节点中的每个节点经由边缘连接到多个层中的其他层中的一个或多个节点,并且其中,对于边缘,将基于人工生成的人工图像和通过对人工图像执行处理而获得的处理图像而获得的权重信息与边缘相关联地记录。
根据一种实施方式,数据处理方法是基于学习模型得出的结果处理数据的数据处理方法,包括:输入学习模型的结果;基于该学习模型的结果生成处理数据;以及输出处理数据,其中通过将所获取的图像数据输入至预训练的学习模型来获取学习模型芙蓉出水的结果,并且其中预训练的学习模型由人工生成的人工图像和对人工图像进行处理得到的处理图像进行训练。
根据一个实施方式,数据处理装置是基于学习模型得出的结果处理数据的数据处理装置,包括处理器,其执行输入学习模型的结果,基于学习模型的结果生成处理数据,以及输出处理数据,其中通过将所获取的图像数据输入至预训练的学习模型来获取学习模型得出的结果,并且其中预训练的学习模型由人工生成的人工图像和对人工图像进行处理得到的处理图像进行训练。
根据一种实施方式,程序是使处理器执行基于来自学习模型得出的结果处理数据的数据处理方法的程序,其中数据处理方法包括输入学习模型的结果,基于学习模型的结果生成处理数据,以及输出处理数据,其中通过将所获取的图像数据输入至预训练的学习模型来获取学习模型得出的结果,并且其中预训练的学习模型由人工生成的人工图像和对人工图像进行处理得到的处理图像进行训练。
根据一个实施方式,图像生成方法是生成在AI学习中使用的图像的图像生成方法,包括:输入人工生成的人工图像;生成通过对人工图像进行处理所获得的处理图像;以及输出经处理的图像。
附图说明
图1是示出根据一个实施方式的数据生成系统的示例的图。
图2是示出根据一个实施方式的模拟器的示例的图。
图3是示出根据一个实施方式的模拟器的输出示例的图。
图4是示出根据一个实施方式的模拟器的示例的图。
图5是示出根据一种实施方式的CG生成器和模拟器的输出的图。
图6是示出根据一种实施方式的CG生成器和模拟器的输出的图。
图7是示出根据一个实施方式的模拟器的输出示例的图。
图8是示出根据一个实施方式的机器学习系统的示例的图。
图9是示出包括执行AI处理的装置的系统的配置示例的图。
图10是示出电子装置的配置示例的框图。
图11是示出边缘服务器或云服务器的配置示例的框图。
图12是示出光学传感器的配置示例的框图。
图13是示出处理单元的配置示例的框图。
图14是说明使用AI的处理流程的流程图。
图15是说明校正处理的流程的流程图。
图16是说明使用AI的处理流程的流程图。
图17是说明学习处理的流程的流程图。
图18是示出多个装置之间的数据流的图。
具体实施方式
在下文中,将参照附图描述本公开的实施方式。
(第一实施方式)
图1是示意性地示出根据第一实施方式的数据生成系统的示例的图。数据生成系统1包括CG生成器2和模拟器3。数据生成系统1生成用于优化机器学习中的估计模型的训练数据。此外,可以提供输入/输出接口(未示出)等。
CG生成器2生成计算机图形(以下被称为CG)。CG生成器2生成包括执行机器学习所需的训练数据的CG模型。这里,CG模型是指形成在虚拟空间、周围环境等中的3D对象的模型。另外,在下面仅提及CG(或CG模型)的情况下,存在示出该CG模型的情况和使用光线追踪等从CG模型创建的CG图像的情况,但是这些可以根据上下文适当地区分。
模拟器3根据用于学习的各种情形模拟从CG生成器2输出的CG模型,并且输出再现各种情形的图像。
当模拟器3处理由CG生成器2生成的CG模型时,数据生成系统1可以获取根据各种情形的图像。当CG生成器2输出精确的CG模型时,与实际捕获的图像相比,可以获取相对于原始图像具有较少噪声的训练数据,并且可以提高通过机器学习训练的模型的准确度,并且降低数据收集的成本。
在下文中,将描述CG生成器2和模拟器3中的处理。
如上所述,CG生成器2生成接近真实性而不添加噪声等的CG模型。CG生成器2由操作者操作,并且执行对象的创建等。在操作者制作对象、设定了对象的纹理等之后,CG生成器2使用诸如光线跟踪的基于物理的渲染,并且根据基于对象和光源的情形来生成精确的CG模型。
要生成的数据涉及各种情形,但是作为示例,可以想到学习用于由数据生成系统1自动驾驶汽车的训练数据的情况。当然,能够以下面将描述的相同的方式基于其他环境(例如,手术室、水下、海底、航拍、天体、空间、室内、显微物体等中的情形)生成CG模型。这些情况可以基于要在机器学习中训练的模型来适当地设置。
CG生成器2在道路、人行道等模型上生成各种对象的模型,例如,其他汽车、自行车、摩托车、人、路边、护栏、水坑、冰冻表面以及其他障碍物。该生成可由操作者如上所述实现,或者当操作者指定对象时,CG生成器2可自动执行生成。
CG生成器2生成从汽车内部可视地检测所生成的对象、道路等的CG模型。使用适当的渲染来执行CG模型的生成。CG生成器2例如模拟将与作为数据而要获取的情形相对应的光束应用于对象的表面和内部的状态并对其进行渲染的状态,并且根据要获取的情形生成精确的CG。
对象的表面和内部的状态例如是表示在汽车的情况下具有金属质地的表面、在人的情况下具有柔软肌肤质地的表面、在路边的情况下具有植物特性的表面、在建筑物的情况下对应于在建筑物中使用的物质的表面、其他障碍物的表面、或对应于表面层上的物质的表面上的光反射的状态的信息。
该光束是例如阳光、隧道中的隧道照明、或夜间情况下的街道或建筑物灯。此外,光束还可以指定方向。CG生成器2例如通过指定光源的位置来计算发射到每个对象的每个区域的光束的法线。
CG生成器2基于该对象的表面的信息和光束的信息,在被对象反射之后适当地呈现由人眼或相机检测到的视觉信息,并且生成精确的CG模型。生成的CG模型可以是3D CG模型。当以二维表示3D CG模型时,它可以是其中设置层的图像,并且基于用于每个适当层的3D CG模型来提供对象和放射信息。
模拟器3对CG生成器2输出的模型设定例如相机参数、基于透镜等的影响施加噪声、失真等,并且基于要获取的装置信息计算和生成图像数据。例如,基于透镜的数量和透镜性能,从CG模型中获取可以使用与相机透镜光学系统相关的参数获取的图像。此外,可以通过模拟获取基于相机传感器(例如,光接收传感器)的影响的劣化。
图2是示出模拟器3的示例的图。模拟器3包括输入/输出I/F 300、存储单元302、正常模型应用单元304和理想模型应用单元306。
输入输出I/F 300是用于向模拟器3输入数据和从模拟器3输出数据的接口。虽然示出为输入/输出I/F 300,但是当然,输入I/F和输出I/F可以分开提供。这里,CG生成器2本身可以被设置在模拟器3中。在这种情况下,可以省略输入步骤。
存储单元302暂时或非暂时地存储模拟器3所需的数据。存储单元302包括例如存储器。此外,当通过软件执行模拟器3的至少一个功能时,存储单元302可存储用于执行模拟器3的至少一个功能的程序。例如,存储单元302可存储经由输入/输出I/F 300输入的数据,或者可在应用模型之后存储输出数据。另外,在模拟器3的计算中,可以适当地存储进度等。
模拟器3根据经由输入/输出I/F 300获取的CG生成器2生成的CG模型,基于汽车中驾驶员的视线或用于自动驾驶的相机的位置和方位,生成例如视觉感知信息。
正常模型应用单元304使用与所生成的CG模型的目标相机相对应的模型(即,接近真实世界的模型)来生成劣化图像。当确定用于生成模型的目标相机时,可以提供与相机的透镜系统相对应的模型和与诸如安装在相机中的芯片的传感器相对应的模型。此外,模型可基于透镜系统和传感器系统中的成像表面之间的距离考虑劣化因素。关于该模型的信息也可以存储在存储单元302中。
可以设置与多个相机相对应的参数,并且在这种情况下,用户可以经由输入/输出I/F选择哪个相机作为目标,并且正常模型应用单元304可以使用所选择的模型生成劣化图像。
在设置相机的位置和姿势之后,例如,正常模型应用单元304可以将透镜系统中的劣化(诸如像差、模糊和透镜中的杂散光)添加到CG模型,并且还可以将诸如噪声之类的数据添加到传感器中。以这种方式,当使用模型时,生成与目标装置相对应的劣化图像。可从例如规格获取劣化所需的信息(诸如目标装置的透镜系统信息和传感器信息),或者可实际拆卸装置,或者可由装置捕获一些图案,并且可从捕获的图像提取劣化元素并对劣化元素建模。
理想模型应用单元306将CG模型变换成成为理想类型的图像。如在正常模型应用单元304中,理想模型应用单元306可包括理想透镜模型和理想传感器模型。例如,理想模型应用单元306从CG模型获取理想图像数据,使得其匹配用于机器学习的教师数据(标记数据和指示结果的数据)。
正常模型和理想模型的示例将在下面用具体示例来概述和描述。
图3是示出由模拟器3将CG模型转换成图像数据的示例的图。图3示出在与流程图中相同的步骤中如何对图像进行变换。
左上所示的CG模型输入到模拟器3。基于CG模型,生成正常图像(劣化图像)和理想图像。这里,本发明中的正常图像是在与输入至估计模型的图像相同的条件下获取的图像。在估计模型中,例如,当输入正常图像时,执行机器学习中的优化,以便估计理想图像。即,理想图像对应于相对于正常图像的期望估计图像。
正常模型应用单元304将输入的CG数据转换为劣化与输入至待训练的估计模型的数据相同的图像数据(S100)。如上所述,普通模型应用单元304根据关于相机的位置和姿势的信息以及其中设置透镜系统和/或传感器系统的参数的模拟器,基于CG模型中存在的对象等,基于目标相机、传感器等的参数,输出目标相机等获取什么样的成像结果。
另一方面,理想模型应用单元306将输入的CG模型转换为图像,作为用于产生待训练的估计模型的教师数据(S102)。S100和S102的过程可以以任意顺序串行执行或并行执行。
然后,模拟器3将在S100和S102中获取的图像输出到内部或外部存储器(S104)。当图像输出到外部存储器时,其经由输入/输出I/F 300发送到外部。此外,它可以被输出到机器学习装置,而不是被输出到存储器。该情况下,例如,如虚线包围的区域所示,也可以从模拟器3直接向劣化图像是输入图像、理想图像是输出图像的训练对象模型进行输出。虚线部分的过程可由训练装置执行。
这里,如上所述,本公开的内容不限于从CG模型生成劣化图像和理想图像。例如,可以执行其中从CG模型生成理想图像(S102)并且然后从所生成的理想图像生成劣化图像(S100’)的处理。这同样适用于以下实施方式。此外,元数据可以与这些生成的理想图像和劣化图像一起生成。例如,元数据可以是指示在图像中示出什么的注释数据或者指示捕获图像的情形、环境等的数据。以这种方式,还可以获取元数据,该元数据是包括图像信息、关于图像中示出的目标的信息以及关于图像被捕获的环境的信息中的至少一个的信息。
此外,当在此生成的训练数据(理想图像和劣化图像)和诸如元数据的数据被记录在可读存储介质中时,可以生产、生成和提供其中记录这些数据项的存储介质或诸如安装有存储介质的电子装置的装置。存储介质可以是诸如磁盘、光盘、磁光盘和半导体存储器的非易失性存储器(非暂时性计算机可读介质),或者可以是诸如静态随机存取存储器(SRAM)和动态随机存取存储器(DRAM)的易失性存储器。
当使用由模拟器3输出的这些数据项执行训练目标模型的机器学习并且因此输入由设置的相机获取的图像时,可以生成用于输出理想图像的估计模型。
如上所述,根据本实施方式,可以通过与生成CG模型的方法相同的方法来生成用于机器学习的训练数据。当使用CG模型时,可以在通常难以采集的情况下生成大量图像。另外,通过改变CG模型中的对象的位置或改变对象,并且另外改变与相机相关的参数、光源的参数等,并且执行重新绘制,可以生成再现各种情形的图像数据(训练数据)。
例如,即使用于捕获的装置的规格是已知的,由于捕获的数据中的各种劣化因素,难以从实际捕获的数据生成教师数据(其是用于估计模型的输出数据)。根据本实施方式,可以根据所生成的CG模型来获取作为估计模型的输入的劣化图像和作为估计模型的输出的理想图像,并且能够获取适当的训练数据集。
另外,由于能够任意地设定适合于生成训练模型的装置的参数,因此能够针对同一数据生成系统1中的各种装置生成用于估计模型的训练数据。例如,即使原始CG模型相同,也可以通过改变正常模型应用单元304和理想模型应用单元306中的劣化模型来获取与各种装置相对应的训练数据。结果,当生成一个CG模型时,可以生成用于各种装置的训练数据,并且可以降低数据收集的成本。例如,对于具有不同相机和传感器参数的正在开发的多个装置,可以从同一CG模型生成训练数据。
(第二实施方式)
在本实施方式中,向以与上述第一实施方式相同的方式获取的CG模型添加注释信息。注释信息是在机器学习训练中使用的信息或元信息,并且例如是指图像中的对象识别、标记等的信息。
图4是示出根据本实施方式的模拟器3的配置的示例的图。除了模拟器3的配置之外,模拟器3还包括注释添加单元308。
注释添加单元308将注释添加到输入的CG模型。可以为CG数据中的每个区域添加该注释。当针对每个层创建CG数据时,可以针对每个层添加注释。
在模拟器3中,注释添加单元308在CG模型中添加注释。然后,理想模型应用单元306对添加了该注释的CG模型进行变换。
CG生成器2可以与CG模型一起创建注释数据。该注释数据可以是例如指示针对其中绘制CG模型的对象的每个区域该区域示出什么的数据。
图5是示出创建的CG模型的示例的图。在图5的情况下,获取CG模型作为例如3D模型数据。在CG模型中,布置对象O1和对象O2。
例如,CG生成器2生成包括对象O1和对象O2的数据作为一个图像。与此一起,CG生成器2将在对象的模型生成的时刻所添加的注释数据添加到其中每个中存在有图像的区域。
例如,可针对每个像素提供此添加。在针对每个像素进行添加的情况下,例如,除了RGB通道之外,还可以准备示出对象的通道并且将其添加为4D数据。这样,模拟器3能够在图像文件中嵌入注释信息。另外,当产生用于仅实现对象识别的估计模型时,可产生图像数据被删除并且仅存在用于像素或区域的注释信息的标记数据。
作为另一示例,代替增加通道数量,可以生成与CG模型的文件不同的注释用文件,并且可以在注释用文件中维护像素或区域的每个对象的注释信息。然后,该注释信息可以用作用于机器学习的输入。
作为另一示例,CG生成器2可以生成包括对象O1和对象O2的数据作为具有多个层的一个图像。与此一起,CG生成器2添加在针对每层生成对象的模型的时刻所添加的注释数据。
例如,对象O1的注释被添加到包含对象O1的层,并且对象O2的注释被添加到包含对象O2的层。可以与上述相同的方式为层的每个像素或区域提供此注释。
作为另一示例,在层与2D原始图像数据重叠的定时,注释可被添加到图像数据。作为注释添加方法,可以使用与上述相同的方法。
图6是示出作为创建的CG模型的从相机的位置和姿势获取的示例的图。在图6的情况下,以与上述相同的方式获取CG模型作为3D模型数据。在该CG模型中,当从特定相机的位置和姿势观看时,提供对象O1和隐藏在对象O1后面的对象O2。
当由CG生成器2生成CG模型时,如图6所示,还可以在相机位置和方位向隐藏对象添加注释。
这里,图6示出整个对象O2隐藏在对象O1中的情况,但是本发明不限于此,例如,对于其中对象O2的一部分隐藏在对象O1中的情况,可执行相同的处理。在这种情况下,在对象O1和对象O2重叠的区域中,可以添加仅针对对象O1的注释,并且可以添加针对对象O1和对象O2两者的注释。
根据要在机器学习中训练的模型,能够适当地使用该添加。例如,如果期望估计在图像处理中简单地示出什么,则可以添加更接近重叠区域的对象的注释。另一方面,如果期望估计隐藏在其他事物后面的事物的区域等,则可以在重叠区域中添加重叠注释。
图7是示出根据本实施方式的由模拟器3进行的CG模型的变换的示例的图。如图3所示,图7示出如何以与流程图中相同的步骤变换图像。
除注释添加之外的步骤与图3中的相同,因此将省略细节。例如,当CG模型中的图像的右侧轨迹上存在被称为“轨迹”的注释信息时,在本实施方式中,被称为“轨迹”的注释信息被添加到理想图像的轨迹所占据的区域中。
模拟器3基于CG模型和从CG生成器2输出的注释数据来获取添加注释数据的2D原始图像数据(S106)。例如,在基于CG模型获取2D图像的时刻,针对各区域或针对各像素嵌入从CG生成器2输出的注释数据,并且获取添加有注释信息的图像数据。例如,可以通过增加通道的数量或者以像素为单位添加信息作为如上所述的其他文件来实现该获取方法。
然后,使用理想模型对添加注释信息的图像进行变换(S102)。在该处理中,例如,注释信息在理想模型中被几何变换,并且以与对象变换相同的方式被执行。当以这种方式对注释信息进行几何变换时,将注释信息添加到理想图像中每个对象存在的区域。
例如,如果劣化图像是模糊图像,则在相对于模糊图像的理想图像的区域中添加注释信息。如果劣化图像是噪声添加图像,则在相对于噪声添加图像的理想图像的区域中添加注释信息。当以这种方式添加注释信息时,模拟器3输出添加注释信息的劣化图像和理想图像的集合作为用于机器学习的训练数据。如果理想图像具有模糊,则可以使注释边界模糊。注释的模糊意味着,例如,概率信息被添加到在边界处的注释信息,并且此概率信息也可被用作机器学习中的训练数据。
这里,如图6所示,当注释信息被添加到不可见部分时,例如,关于隐藏在交叉点处的挡墙后面的人的信息可被添加到理想图像,并且由于障碍物而不可见的病理区域可被添加到理想图像。通过以这种方式相加,可以实现在自动驾驶中估计交叉路口跳出、估计内窥镜图像中的病理区域以及估计不可见信息的模型的训练。作为示例,这样的输出应用可用于包括隐马尔可夫模型的机器学习,但也可适当地应用于各种模型,而不限于隐马尔可夫模型。
如上所述,根据本实施方式,当如在上面的第一实施方式中那样劣化图像和理想图像用作训练数据时,可以为理想图像添加注释信息。因此,可以通过机器学习更有效地实现训练数据的生成。
图8是示出使用根据本实施方式的数据生成系统1的机器学习系统4的图。机器学习系统4包括数据生成系统1和机器学习装置5。
在以上所有实施方式中,已经描述了用于机器学习的训练数据的生成方法、生成装置和生成系统,但是通过这些生成的训练数据可以用于生成估计模型。因此,本公开还扩展至使用以这种方式生成的训练数据通过机器学习方法、机器学习装置5或机器学习系统4获取的估计模型、估计方法和估计装置。
此外,机器学习装置5可以包括模拟器3。在这种情况下,当输入CG模型时,可以生成训练数据并且可以执行机器学习。此外,CG生成器2还可以包括机器学习装置5。在这种情况下,CG生成器2生成CG模型,并且可以在不改变的情况下实现机器学习。
在下文中,将详细例证理想图像和正常图像(劣化图像)的一些非限制性示例。即,本实施方式的数据生成方法不限于以下实现方式,而是更广泛地定义为具有上述配置的方法。此外,这些示例可以以适当的组合来实现。
(第一示例)
例如,正常模型和/或理想模型可以是适当地添加由于设置在目标装置中的透镜而引起的模糊、失真、阴影、眩光、重影等的模型。这些参数可以由多个透镜中的透镜类型、数值孔径、焦距等表示。由于这样的图像变换由例如点扩散函数(PSF)、表示各种像差的系数、焦度等引起,所以如果在模拟器3中调整这些参数,则可以从CG数据获取劣化图像。此外,可以使用诸如透镜的透射率的信息。该透射率可以针对每个波长来定义。
另外,作为另一示例,可以设定透镜的类型,诸如鱼眼镜头、广角透镜、望远透镜、微距透镜和标准透镜。例如,当正常模型应用单元304使用鱼眼镜头模型并且理想模型应用单元使用标准镜头模型时,可以生成用于估计鱼眼镜头捕获的图像和标准镜头捕获的图像的模型的训练数据。
这些参数可以例如通过光学模拟或实验从镜片规格获取。另外,对象的形状的改变也可以应用于注释的形状。例如,可以生成模型的训练数据,其中在正常模型应用单元304和理想模型应用单元306两者中使用鱼眼镜头模型,根据鱼眼镜头来几何变换注释信息,并且确定鱼眼镜头所捕获的图像中的对象。
另外,作为另一应用示例,通过使用由上述透镜引起的模型,可以生成用于聚焦在期望对象上以实现自动聚焦跟踪的估计模型的训练数据。
此外,作为相机设置,可执行使用偏振滤光器、IR滤光器、ND滤光器等的变换。
(第二示例)
正常模型和理想模型可基于相机的位置和取向来变换。当提供多个相机时,可基于多个相机的相对位置来执行变换。通过设定相机的位置和取向,可以在模拟器3中定义用于执行这种变换的模型。
(第三示例)
正常模型和/或理想模型可执行添加传感器噪声的变换。例如,通过光学散粒噪声、暗电流散粒噪声、随机散粒噪声、图案噪声、像素值相加等实现传感器噪声。这种噪声可以从传感器的规格获取。通过这样设定,能够取得设定了各目标(目标)和相机的相对位置和朝向、设定图像中的目标的位置以及设定多个相机的相对位置和朝向的图像数据。
(第四示例)
正常模型和/或理想模型可以应用于压缩图像(数据压缩图像)以及如上所述的装置规范。例如,可以生成具有压缩算法的图像、压缩率的变化、可变比特率、灰度变薄等,并且这可以被用作劣化模型。例如,可以在利用成像相机的参数从CG模型变换之后应用这些压缩。即,正常模型应用单元304通过利用成像相机的参数压缩通过变换获取的数据来获取图像数据。
此外,在视频的情况下,可以生成其中帧被稀疏化的图像。例如,正常模型可以采集具有比理想模型更小的每秒帧(FPS)的图像集合。在视频中,可以提供由于压缩编解码器导致的劣化。例如,正常模型应用单元304可根据H264产生视频,理想模型应用单元306可使用原始数据产生视频。
此外,正常模型应用单元304可以获取YUV图像,理想模型应用单元306可以获取RGB图像,以生成用于将YUV变换成RGB的颜色空间的变换模型的训练数据。
(第五示例)
正常模型可以是考虑到传感器中成像像素的缺陷而劣化的模型。像素缺陷包括白色、黑色或随机值缺陷,以及图像平面相位差获取像素、偏振像素、IR获取像素、UV获取像素、距离测量像素、温度像素等的图像中未使用的至少一个嵌入式像素的缺陷。正常模型可以是这种像素缺陷的模型。
(第六示例)
正常模型可以是考虑其他传感器的特性的模型。例如,正常模型可以是考虑到传感器的滤色器特性、光谱特性、滤色器布置、温度特性、变换效率、灵敏度(HDR合成和增益特性)和读取顺序(卷帘快门失真)可获取劣化图像的模型。
另外,正常模型和/或理想模型可以是能够考虑与多谱图像、高光谱图像等相对应的相机来获取图像的模型。这可以通过适当地选择光源信息和相机信息(透镜和传感器的组合的参数)来实现。
(第七示例)
正常模型和/或理想模型可以根据成像条件提供变换。例如,成像条件是照明、饱和、曝光等的条件。
照明条件指示例如光源的类型。例如,如上所述,如果设置了阳光、隧道照明或路灯,则可以在CG生成器2侧改变渲染中的设置。此外,模拟器3可以基于由CG生成器2获取的法线信息等获取与各种光源对应的图像。此外,不仅光源的类型,光源的位置和其面对的方向也可以与光源的类型一起设置。
饱和度例如是过度曝光,并且表示超出由于来自周围像素的反射而导致的像素值的颜色的最大值的劣化。
曝光是在基于快门速度、光圈等的条件下拍摄的,并且是曝光不足、曝光过度等的设置。这里,也可以在该曝光条件下覆盖上述像素值的饱和度。
另外,可以设置关于透镜的焦点等的信息。
(第八示例)
当然,可执行简单的几何变换。例如,可以获取用于实现仿射变换、区域提取等的模型的训练数据。
例如,正常模型应用单元304可以将图像变换成仿射变换的图像,并且理想模型应用单元306可以获取没有仿射变换的图像。
作为另一示例,可以实现其中正常模型应用单元304执行整个任意图像的变换,并且理想模型应用单元306提取字符区域的模型。当使用该训练数据时,还可以训练用于从图像中提取字符区域的模型。
在下文中,将示出通过由以上示例生成的数据训练的估计模型的特定非限制性示例。
(第九示例)
数据生成系统1可生成用于执行去马赛克的估计模型训练的数据。正常模型应用单元304从CG数据生成其中像素被稀疏化的图像。该生成例如通过利用滤色器图案来细化每种颜色来实现。另一方面,生成未被稀疏化的图像作为理想图像。在使用这样生成的数据的情况下,能够生成用于实现多色传感器的分辨率的提高的估计模型。
此外,例如,在添加噪声之后经受低通滤波器的图像可用作劣化图像,并且可用作用于提高分辨率的估计模型的训练数据以执行到理想图像的变换。
此外,数据生成系统1可生成用于更精确地实现颜色再现的估计模型的训练数据,诸如线性矩阵和伽马校正。
(第十示例)
数据生成系统1能够生成用于校正像素缺陷的估计模型训练的数据。正常模型应用单元304生成具有缺陷像素的图像。该生成例如通过将缺陷像素变更为任意的值来实现。另一方面,生成没有缺陷像素的图像作为理想图像。在使用这样生成的数据的情况下,能够通过对不用于图像输出的像素部进行插值来生成用于实现估计的估计模型。
(第十一示例)
数据生成系统1可生成用于校正使用偏振传感器获取的图像的估计模型训练的数据。正常模型应用单元304生成偏振图像。该图像可以通过在CG生成器2进行光线追踪时获取偏振状态来生成。然后,理想模型应用单元306生成无偏振图像。当将这些图像用作训练数据时,可以生成用于估计由于偏振引起的劣化被最小化的图像的模型。
作为另一示例,正常模型应用单元304可获取P偏振图像和S偏振图像。在这种情况下,可以从P偏振图像和S偏振图像这两个图像生成用于输出理想图像的估计模型的训练数据。此外,在这种情况下,可以设置获取两个偏振图像的多个相机的位置和方位。
(第十二示例)
数据生成系统1能够生成用于实现多相机融合的估计模型的训练数据。普通模型应用单元304获取由安装在CG模型中的各种位置和姿势的相机拍摄的图像,理想模型应用单元306获取由安装在期望获取图像的位置和姿势的相机拍摄的图像,由此可以获取用于该估计模型的训练数据。对于各个相机,可以单独设定上述各种参数等。当使用该训练数据时,可以根据各种情况生成用于从由多个相机捕获的图像中获取融合图像的估计模型的训练数据。
(第十三示例)
数据生成系统1可基于在以上第四示例中举例说明的图像生成示例生成用于估计图像的模型的训练数据,其中,由于包括时间轴的各种图像和视频的压缩格式,劣化被最小化。当使用这样的训练数据时,例如,可以生成用于校正由于压缩导致的图像质量劣化的模型和用于实现FHR插值的模型,诸如用于生成其中由于JPEG和MPEG导致的块噪声被最小化的图像的模型和用于生成具有变换的帧速率的视频的模型。
接下来,将举例说明注释信息的一些特定非限制性示例。
(第十四示例)
注释添加单元308可以简单地添加具有文本注释的2D图像中示出的对象的信息。这被添加用于图像,并且注释添加单元308添加用于图像的注释信息,例如,用于示出狗的图像的注释信息“狗”和用于示出猫的图像的注释信息“猫”。
当以这种方式添加注释信息时,可以生成用于提取图像中示出的对象的名称的估计模型的训练数据。
(第十五示例)
注释添加单元308可以在2D图像中的矩形区域中添加注释。如上所述,这可以以像素为单位和以区域为单位实现,并且它们的边界通过类似于理想图像的生成的几何变换来变换(例如,仿射变换和根据透镜失真的投影变换)。例如,对于示出狗和猫的图片,注释添加单元308在示出狗的区域中添加注释“狗”,并且在示出猫的区域中添加注释“猫”。
当以这种方式添加注释信息时,可以生成用于识别什么正在移动到图像中的哪个区域的估计模型的训练数据。
(第十六示例)
注释添加单元308可以使用CG模型的对象的区域来添加上述注释信息。当以这种方式基于CG模型添加注释信息时,可以表达当将信息从3D变换到2D时的重叠对象。
在这种情况下,重叠区域中的注释信息项可被适当地处理为训练数据。如在上述实施方式中描述的,作为教师数据,前景中的信息(即,在图像中示出的信息)可被添加作为注释信息。作为另一示例,多个信息项(例如,对象重叠的区域中的前景信息和背景信息两者)可被添加为注释信息。在这种情况下,可以添加能够区分前景和背景的注释信息。此外,不仅对于两个对象,而且对于三个或更多个对象,重叠可以以相同的方式表达。以这种方式添加的注释信息可以可选地在学习期间被移除并且用作训练数据。
以此方式,当添加未示出的注释信息时,还可以训练用于从未示出的内容(例如,如上所述的隐藏在块壁中的人)预测风险的估计模型。
(第十七示例)
在以上所有实施方式中,注释添加单元308可以对视频精确地添加注释信息。这是因为注释添加单元308可以向CG模型的对象添加注释。这使得可以容易地向视频添加注释,这通常是非常困难的。
(第十八示例)
除了对于对象的注释之外,注释添加单元308还可以向由理想模型应用单元306生成的图像添加诸如照明条件、时间、相机方向和取向、镜头信息、成像条件和相机位置(纬度、经度等)之类的元信息作为注释。
(第十九示例)
注释添加单元308可将对象相对于相机的准确相对位置添加为注释。当以这种方式添加准确的位置时,可以在飞行时间(ToF)传感器中添加针对位置估计模型的训练数据的注释。作为另一示例,对象相对于相机的相对位置可被添加为相机在CG模型中的绝对位置和对象在CG模型中的绝对位置。
(第二十示例)
注释添加单元308可添加关于移动的信息(诸如对象的速度、加速度和角速度)作为注释。例如,当添加对象的速度等作为注释时,其可用于恢复由于运动模糊等引起的图像劣化的估计模型的训练数据。
另外,关于对象的速度等的信息可以用作用于恢复滚动快门失真的估计模型的训练数据。
以下,作为非限制性示例,将举例说明可应用使用如上所述生成的训练数据训练的估计模型的应用。
例如,它可以应用于利用声音引导周围环境的模型。这是因为可以从所获取的图像中估计各种对象。另外,还可以估计对象的位置,在这种情况下,它可以是用于提供关于什么存在于哪个位置的信息的模型。
例如,它可以应用于用于读出存在于周围环境中的字符的模型。这也是出于与以上相同的原因。这可以用作用于提取、翻译和输出字符的模型。因而,例如,可以将相机拍摄的图像中的字符翻译成适当的语言,并且将其作为声音或字符信息输出。
例如,它可以用于远程医疗。这是使用用于估计患者的肤色和面部表情、确定受影响区域等的模型来应用的。
例如,它可以应用于车辆分配系统。这可以通过使用用于面部识别的模型来实现对用户面部的认证来应用。另外,在根据自动驾驶的车辆分配系统的情况下,可以使用用于确保自动驾驶的安全性的模型。例如,在不安装昂贵的仪器的情况下,利用由装置(例如,普通智能电话相机和驱动记录器相机)获取的图像,可实现脸部认证等。
例如,它可以用作语音辅助。例如,它可以用作用于从嘴的运动获取言语的内容的模型(用于实现嘴唇阅读的模型)。
例如,其可应用于诸如英语的语言的发音实践。如在以上模型中,根据嘴的运动的确定是可能的。此外,可以获得喉部的移动、舌头的移动等。在这种情况下,它可以被生成为不仅用于输入图像数据而且还用于输入声音数据的模型。
例如,它可以用作用于从图像读取感觉的模型或用于分析情绪的模型。这可以通过将面部表情、肤色等与指示情绪和情绪的注释相关联来实现。
例如,它可以用作用于选择最佳拍摄的相机。例如,通过生成用于学习用于对象识别的估计模型、以及距离和对象运动估计等的训练数据来实现。此外,通过AI可以实现多光谱化,并且可以实现可以任意改变照明条件的模型的训练。
例如,可以使用相机图像将其应用于手掌肌。还可以通过上述系统产生手掌上的诸如皱纹的小形状。在这种情况下,不仅考虑由相机捕获的图像的劣化,而且考虑传送数据时图像的压缩,可生成训练数据。
例如,可以应用它使得从所捕获的图片中可以参考图片书等。这可以通过提高对象识别的准确度来实现。以与上述相同的方式,可以考虑数据传输期间的图像压缩来生成训练数据。
例如,可以应用它使得从葡萄酒标签获得品牌。在这种情况下,作为理想图像,未放置在葡萄酒瓶上的标签可被获取作为教师图像。换言之,在将各种标签放置在CG生成器2中的葡萄酒瓶上之前,可以通过分别获取各种标签的模型信息来获取理想图像。此外,可以考虑通信期间的图像压缩。
例如,可以应用它使得获取涂漆的详细信息。在博物馆等中,照明条件在许多情况下是特殊的,但是根据上述实施方式,可以通过应用于绘画模型的照明条件来吸收这些条件。
例如,与通用AI一样,可以从图像中生成字幕或者识别具有更高准确度的人脸。例如,在人脸识别中,可以从一个CG模型简单地生成其中改变发型的图像,并且佩戴眼镜、配件、面罩等。因此,能够进一步提高识别准确度。
例如,它可以应用于ToF传感器。这是因为能够在CG模型上准确地设定距离。
例如,它可以应用于图像干版。这是因为能够获取对象作为CG模型,并且能够从该对象获取期望的触摸图像。例如,可以将实际图像变换成动画触摸图片或者变换成类似绘画的图像。
例如,可应用于在确定透镜、传感器等的规格的开发中的装置中实现图像处理。这是因为能够基于来自CG模型的参数来适当地获取图像。结果,例如,在数字相机中,可以在产品销售的初始阶段从工厂装运时安装要安装在数字相机中的AI模型,而无需更新固件等。以这种方式,即使对于正在开发的装置,也可以在透镜、传感器等的规格之前实现估计模型的优化。
在上述实施方式中,例如,在图3的示例等中,假设为人工生成的理想图像(在后文中称为人工图像)生成劣化图像,但是通过对人工图像进行处理获得的图像(处理图像)可以不是劣化图像,而是作为推断对象的图像。即,不仅劣化图像,而且对于CG或实际捕获的图像可产生更理想的处理图像(人工图像)。当使用人工图像和处理图像的组合进行训练时,如果生成劣化图像,则可以生成用于当输入劣化图像时输出理想图像的模型,并且如果生成更理想的图像,则可以生成用于当输入人工图像时输出更理想的图像的模型。
例如,该模型是神经网络模型,并且包括多个层(层)和设置在多个层的每中的多个节点。上述训练例如可以是在节点之间训练权重的过程。此外,在CNN等的情况下,可以使用每层中的节点的值本身(包括内核)。
在下文中,将列出通过CG处理的图像和人工图像的组合以及通过该组合训练的模型的一些非限制性示例。例如,可以在应用中实现每个模型。下面的多个示例也可以以适当的组合进行组合。
当生成卷帘快门失真图像时,可以生成用于校正卷帘快门失真图像的模型。
当生成以长波长拍摄的图像时,可以生成具有提高的对象检测准确度的模型。例如,可以从具有对人眼不可见的波长的图像推断通过热传感器获得的图像。
当生成反射光学特性的图像时,可以生成用于推断防止重影和耀斑的图像的模型。
在生成对向车辆的前大灯的光晕图像时,能够生成用于推断危险度预测和光晕消除的模型。
当生成反映残像的图像时,可以生成用于推断去除了残像的图像的模型。
当生成具有透镜失真的图像时,可以生成用于推断具有校正失真的图像的模型。
当生成添加了噪声的图像时,可以生成用于推断降噪的模型。
在生成反映雨、雾等的图像的情况下,能够生成用于推断具有雨滴去除、雾去除等的图像的模型,该模型例如能够应用于风险预测。
在生成反射阳光直射的图像(例如,早晨来自东方的阳光和傍晚来自西方的日光)时,可以生成眩光、反射等被最小化的推断模型,这可以应用于风险预测。
当生成叠加了诸如光学系统模糊和运动模糊等各种点扩散函数(PSF)以及各种滤波器的图像时,可以生成用于校正分辨率的模型。
作为上述非限制性示例之一,当生成散焦图像时,有可能产生用于进行推断以聚焦于任意受试者的模型。
当生成高动态范围(HDR)图像时,可以生成用于推断任意对象未曝光过度或曝光不足的图像的模型。
当产生高帧率(HFR)图像时,可产生用于推断任意对象不模糊的图像的模型。
当生成全天空图像(360度全天空图像)时,可以生成用于做出诸如剪裁任意对象或相反地剪裁非任意对象的推断的模型。
当生成视差图像时,可以生成用于推断深度检测和推断深度图像的模型。
当生成ToF图像时,可以生成用于去除距离噪声和去除距离误差的模型。
当生成通过指定光圈值拍摄的图像时,可以生成用于推断模糊量与指定的光圈值不同的图像的模型。
当生成具有诸如图像传感器制造不均等的不均的图像时,可以生成用于推断去除了由于制造偏差引起的不均的图像的模型。
在生成旧镜头所拍摄的图像的情况下,能够生成用于推断最新的镜头所拍摄的图像的模型。
另一方面,在生成由最新镜头拍摄的图像时,可以生成用于推断由旧镜头拍摄的图像的模型。
当生成原始数据时,可以生成用于推断理想的RGB图像的模型(去马赛克模型)。在这种情况下,可以从原始数据生成理想的RGB图像。
当产生多谱传感器图像时,可以产生能够推断各种状态量的模型,并且作为非限制性示例,可以产生用于估计农业中的收获时间和生长程度的模型。
当生成具有不同光源的图像时,可以生成用于估计光源的模型。
当生成图画渲染的图像时,可以生成用于变换成卡通或者类似图示的绘图的模型。
当生成具有不同天气和时间的图像时,可以生成用于实现条件特定推断的模型。
当产生饱和、曝光不足和超低照度图像时,可以产生用于推断HDR图像并且推断饱和和挤压部分的模型。
当产生低分辨率图像时,可以产生用于推断高分辨率图像和超分辨率图像的模型。
当生成添加了莫尔条纹(moire)的图像时,可以生成用于推断莫尔条纹去除的模型。
当生成其中出现伪色的图像时,可以生成用于校正伪色的模型。
当生成由包括多个频谱的各种滤色器阵列(CFA)图案捕获的图像时,可以生成能够实现适当的马赛克处理的模型。
当生成包括根据传感器中的信号处理的劣化(例如,噪声去除和去马赛克处理的过程中的劣化)的图像时,可以生成用于推断对这些劣化进行校正的图像的模型,例如,应用缺陷校正或ZAF校正。
当生成根据滤色器特性和随时间已经劣化的元素获取的图像时,可以生成用于改善颜色再现性的模型。
当生成已通过图像压缩(诸如JPEG、MPEG和AVC)和视频压缩技术而劣化的图像时,可以生成用于恢复由于压缩而劣化的图像的模型和用于去除块噪声的模型。
当生成低帧率视频信息时,可以生成用于实现帧插值的模型。
当产生在传输期间劣化并且具有低比特率的图像和视频时,可以生成用于推断恢复劣化图像的图像的模型。
当生成隔行图像时,可以生成用于推断逐行图像的模型。例如,可以使诸如旧视频的信息渐进,并且可以生成增加分辨率的模型。
当生成距离图像时,可以生成用于将2D变换成3D的模型、用于生成用于虚拟现实(VR)的图像的模型、用于脸部认证的模型、用于移除背景或合成背景的模型、以及用于合成3D数据的模型。
当生成在各种监视器上显示的图像时,可以生成包括诸如显示器的显示系统的校准模型。
例如,可以是由平视显示器显示的图像,并且在这种情况下,可以生成用于生成针对失真校正、容易看到的颜色和亮度调整的图像的模型。
在生成由多个相机(包括同构和异构)捕获的图像时,可以生成用于生成合成图像的模型。
当从多个图像生成全景图像时,可以生成用于全景合成的模型。
当生成具有相机抖动的图像时,可以生成用于相机抖动校正的推断的模型。
当曝光不足或曝光过度图像被生成时,可以生成用于校正适当曝光的模型。
在生成具有移动对象的模糊的图像的情况下,能够生成用于推断模糊校正图像的模型。
当生成通过提取诸如黑白图像、亮度图像、饱和度图像和色调图像的颜色空间中的任意特征而获得的图像时,可以生成用于将这些图像适当地变换成彩色图像的模型。这可以应用于从在特定条件下捕获的图像等中提取和识别对象等的模型。
当产生褪色图像或深褐色图像时,可以产生用于恢复颜色的模型。例如,它可以是用于从RGB之外的波长推断的模型。
当生成具有相同相位3ch的图像时,可以生成用于合成像素偏移或去除伪影的模型。
在生成照明方向错误的图像的情况下,能够生成用于以适当的照明来推断图像的模型。
当生成反映由于色觉导致的颜色外观的差异的图像时,可以生成用于推断已经变换成容易看到的颜色的图像的模型。
当生成发生闪烁的图像时,可以生成用于推断校正了闪烁的图像的模型。
当生成具有不同视点的图像时,可以生成用于推断具有变换视点的图像的模型。
(总结)
以上实施方式中的每可以用于如下所述的用于学习模型生成的图像生成、与图像有关的元数据生成和学习模型生成的一系列处理。此外,本公开的范围还扩展到使用以此方式生成的学习模型的推断。
(a)用于机器学习的数据生成
在用于生成数据的数据生成器(例如,实现上述生成方法的数据生成装置)中,通过添加任意相机的特性(物理模型)生成高质量图像和低质量图像的目标数据集。如上所述,高质量图像和低质量图像的组合可以是例如高分辨率图像和低分辨率图像、明亮(白天,室外)图像和黑暗(夜间,室内)图像、以及一般光学系统和广角光学系统中的图像。
(b)通过机器学习的模型生成
当通过各种机器学习方法来训练该模型时,可生成用于使用低质量图像来检测目标的模型,并且可生成用于从低质量图像推断高质量图像的模型。此外,这些可以组合。作为非限制性示例,使用从在夜间捕获的图像中检测脸部的训练和从在夜间捕获的脸部图像中推断在白天捕获的脸部图像的训练,可以训练从在夜间捕获的图像中提取和生成在白天捕获的脸部图像的推断模型。
(c)使用模型的应用生成
可以使用用于推断上述高质量目标图像的模型来构建用于跟踪目标的应用。例如,可以使用用于推断人图像的模型来构造用于跟踪特定人的应用。根据如上所述生成的模型,从由任意相机捕获的低质量图像中提取面部,将面部变换成高质量图像,并且因此可以跟踪任意人。例如,可以从脸部图像中搜索预定区域中的丢失的儿童,通过读取犯罪分子的脸部,从诸如监视相机的信息估计犯罪分子的行踪,并进行交通图研究。当然,它不仅可以应用于人类,而且可以跟踪交通违规车辆、搜索被盗的自行车和宠物、以及动物生态系统调查。此外,还可以应用于非运动物体,例如搜索建筑物和地点。
(d)应用的分配
上述应用也可以被分配和部署。例如,当分配从相机捕获的视频中提取脸部以及人脸的应用时,可以使广域的用户使用该应用。该应用可以是通过使用诸如用户的智能电话等的相机获取视频来执行推断的形式,或者可以是其中用户向该应用输入任意视频的形式。当以这种方式使用应用时,可以容易地跟踪丢失的儿童和犯罪分子。这同样适用于其他应用,并且可以使用由任意用户捕获的视频来实现各种估计。另外,这样的应用可以部署在监视相机、任意固定或可移动相机、或连接到这些相机的外围装置上。
(e)应用的使用
当如上所述地分布和部署的应用被使用时,能够以高准确度执行目标跟踪、推断等。由于可以基于所部署的应用被使用的环境通过物理模型来定制模型,因此可以在不降低准确度的情况下实现跟踪等。例如,在安装在某个智能电话中的相机中,可以生成能够从在智能电话中使用的夜间的图像处理图像推断在由CG生成的白天期间的理想图像的模型,使用该模型的应用可被部署到各种相机等,并且当使用该相机等使用该应用时,可以大大增加跟踪等的区域,并且还可以以高准确度确保推断。这里,可以生成适用于白天和夜间的高质量和低质量成像数据的模型,并且可以部署这些模型。例如,如果智能电话在使用应用的一侧上的所有者允许使用相机和通信频带,则可以在智能电话中分析成像信息,或者可以通过通信向服务器发送由智能电话获取的视频。应用可以一起输出位置信息。位置信息可以使用例如全球定位系统(GPS)、Wi-Fi(注册商标)信息或基站信息来获取。这些功能可以具有一种形式,其中通过选择加入开启功能,以便确保拥有智能电话的所有者的安全。此外,代替专用应用,例如,任意应用的插件可以用于通过以与以上相同的方式选择加入智能电话的所有者来分析由任意应用捕获的视频、图像等。
(f)与应用的通信
例如,服务器等可以是允许来自所部署的应用的通信的形式。当以这种方式聚集来自部署在服务器中的应用的信息时,可以收集人体位置信息和关于检测时间等的信息。利用该信息,可以获取每次的位置信息,并且可以提高跟踪性能。另外,作为元数据,可以从应用侧传送人的衣服颜色、身高、性别、面部表情等。用户可以添加元数据。服务器可以基于元数据重新生成图像,更新模型,并且将其应用(重新部署)到应用。此外,例如,诸如警察的用户可以访问服务器,或者可以向已经请求跟踪的用户提供信息。
(g)目标图像的传输
另外,应用程序可以发送由传感器(诸如相机)获取的面部图像数据。例如,如果应用处理在晚上用智能电话相机捕获的视频,则处理功率可能由于数据量而不足。在这种情况下,视频本身可被发送到服务器。可以实时地执行该传输,或者视频可以作为文件被存储一次,并且然后在带宽中存在余量的定时被发送。例如,当建立Wi-Fi连接时,可执行传输。
(h)目标信息的输出和显示
服务器可以基于从所收集的信息推断或重新推断的信息,以容易理解的格式从所部署的应用收集信息或输出时间、位置信息等。例如,服务器可以在地图上以容易理解的格式显示目标时间和位置信息,并将其输出到追踪请求者。此外,在实时处理的情况下,服务器可以通过推送通知等将关于跟踪目标的位置的信息实时输出至请求者。关于位置的信息可以是地址或者可以指示地图上的预定区域、点等。
(i)模型的更新
如上所述,服务器可以在任意定时更新模型。例如,当从应用聚集信息时,要训练的数据被累积。当使用累积的数据来更新模型时,可以提高模型的推断的准确性。另外,可以采用上述实施方式所示的方法对累积的数据进行处理,例如,由高分辨率图像生成低分辨率图像,并利用这组生成的图像更新模型。
如(i)中所描述,在上述实施方式中,不仅使用CG的模型可能劣化以获取低质量图像,而且实际捕获的图像也可能劣化并用于训练模型。
本公开的各方面可经由程序来实现。程序可以被存储在存储单元中,并且更具体地,通过软件的信息处理可以通过硬件实现。软件处理在诸如中央处理单元(CPU)和图形处理单元(GPU)的处理器中执行,并且还可以实现在不同模拟电路或数字电路中,例如,现场可编程门阵列(FPGA)、专用集成电路(ASIC)和数字信号处理器(DSP)。
<使用AI的应用示例>
在应用根据本公开的技术(本技术)的配置中,可以使用诸如机器学习的人工智能(AI)。图9示出包括执行AI处理的装置的系统的配置示例。
电子装置20001是诸如智能电话、平板终端和移动电话的移动终端。电子装置20001具有传感器20011(例如,光学传感器),根据本公开的技术应用于该传感器。光学传感器是将光转换成电信号的传感器(图像传感器)。电子装置20001可以通过对应于预定通信方法的无线通信连接到安装在预定位置的基站20020,并且因此可以经由核心网络20030连接到诸如互联网的网络20040。
在基站20020和核心网20030之间更靠近移动终端的位置设置用于实现移动边缘计算(MEC)的边缘服务器20002。云服务器20003连接到网络20040。边缘服务器20002和云服务器20003可以根据应用来执行各种处理。这里,边缘服务器20002可以设置在核心网络20030中。
AI处理由电子装置20001、边缘服务器20002、云服务器20003或传感器(例如,光学传感器)20011执行。AI处理使用AI(诸如机器学习)来处理根据本公开的技术。AI处理包括学习处理和推断处理。学习处理是生成学习模型的过程。此外,学习处理还包括下述的重新学习处理。推断处理是用于使用学习模型来执行推断的过程。在下文中,关于与根据本公开的技术相关的处理,不使用AI的处理将被称为正常处理,其与AI处理不同。
在电子装置20001、边缘服务器20002、云服务器20003或传感器20011/光传感器20011中,通过由处理器(如中央处理单元(CPU))执行程序或使用专用硬件(如专用于特定应用的处理器)来实现AI处理。例如,图形处理单元(GPU)可以用作专用于特定应用的处理器。
图10示出电子装置20001的配置示例。电子装置20001包括控制各个单元的操作并执行各种过程的CPU 20101、专用于图像处理和并行处理的GPU 20102、诸如动态随机存取存储器(DRAM)的主存储器20103、以及诸如闪存的辅助存储器20104。
辅助存储器20104记录用于AI处理的程序和诸如各种参数的数据。CPU 20101将记录在辅助存储器20104中的程序和参数加载到主存储器20103中,并执行程序。可选地,CPU20101和GPU 20102将记录在辅助存储器20104中的程序和参数加载到主存储器20103中,并执行程序。由此,GPU 20102可以用作图形处理单元上的通用计算(GPGPU)。
这里,CPU 20101和GPU 20102可以被配置为片上系统(SoC)。当CPU 20101执行用于AI处理的程序时,可以不提供GPU 20102。
电子装置20001还包括应用根据本公开的技术的传感器20011/光学传感器20011、操作单元20105(诸如物理按钮和触摸面板)、传感器麦克风20106(其包括至少一个传感器并收集声音)、显示器20107(其显示诸如图像和文本的信息)、扬声器20108(其输出声音)、通信I/F 20109(诸如与预定通信方法对应的通信模块)以及连接这些部件的总线20110。
传感器20106包括诸如光学传感器(图像传感器)、声音传感器(麦克风)、振动传感器、加速度传感器、角速度传感器、压力传感器、气味传感器和生物传感器的各种传感器中的至少一个。在AI处理中,从传感器20106中的至少一个传感器采集的数据可以与从光学传感器20011采集的图像数据一起使用。以这种方式,从各种类型的传感器获得的数据可以与图像数据一起使用,并且因此可以根据多模态AI技术实现适合于各种情况的AI处理。
这里,在AI处理中,可以使用通过根据传感器融合技术对从两个或更多个光学传感器获取的图像数据进行集成处理而获得的数据。两个以上的光学传感器可以是光学传感器20011和传感器20106中的光学传感器的组合,或者多个光学传感器可以设置在光学传感器20011中。例如,光学传感器包括RGB可见光学传感器、使用飞行时间(ToF)等的距离测量传感器、偏振传感器、基于事件的传感器、用于获取IR图像的传感器、可获取多个波长的传感器等。
在电子装置20001中,可由处理器(诸如CPU 20101或GPU 20102)执行AI处理。当电子装置20001的处理器执行推断处理时,由于该处理可以在不需要时间的情况下开始,图像数据由传感器20011/光学传感器20011获取,所以该处理可以高速执行。因此,在电子装置20001中,当推断处理用于诸如需要信息的实时传输的应用(具有短延迟时间)的应用时,用户可以执行没有由于延迟而导致的不适的操作。此外,当电子装置20001的处理器执行AI处理时,与当使用诸如云服务器20003的服务器时相比,不必针对服务器使用通信线路或计算机装置,并且可以低成本地实现该处理。
图11示出边缘服务器20002的配置示例。边缘服务器20002包括控制各个单元的操作并执行各种过程的CPU 20201和专用于图像处理和并行处理的GPU 20202。边缘服务器20002还包括连接至总线20206的主存储器20203(诸如DRAM)、辅助存储器20204(诸如硬盘驱动器(HDD)和固态驱动器(SSD))、以及通信I/F 20205(诸如网络接口卡(NIC))。
辅助存储器20204记录AI处理的程序和数据,例如各种参数。CPU 20201将记录在辅助存储器20204中的程序和参数加载到主存储器20203中,并执行程序。或者,CPU 20201和GPU 20202将记录在辅助存储器20204中的程序和参数加载到主存储器20203中,并执行程序,因此GPU 20202可以用作GPGPU。这里,当CPU 20201执行用于AI处理的程序时,可以不提供GPU 20202。
在边缘服务器20002中,可以通过诸如CPU 20201或GPU 20202之类的处理器执行AI处理。当边缘服务器20002的处理器执行AI处理时,由于边缘服务器20002设置在比云服务器20003更靠近电子装置20001的位置,所以可以减小处理延迟。此外,由于边缘服务器20002具有比电子装置20001和传感器20011/光传感器20011更高的处理能力(诸如计算速度),所以可以将其配置为用于一般目的。因此,当边缘服务器20002的处理器执行AI处理时,如果可以接收数据,则可以执行AI处理,而不管电子装置20001和传感器20011/光传感器20011的规格和性能的差异。当由边缘服务器20002执行AI处理时,可以减少电子装置20001和传感器20011/光传感器20011上的处理负荷。
由于云服务器20003的配置与边缘服务器20002的配置相同,因此将省略其描述。
在云服务器20003中,AI处理可由处理器(诸如CPU 20201和GPU 20202)执行。由于云服务器20003具有比电子装置20001和传感器20011/光传感器20011更高的处理能力(诸如计算速度),所以它可以被配置用于一般目的。因此,当云服务器20003的处理器执行AI处理时,不管电子装置20001和传感器20011/光传感器20011的规格和性能的差异如何,都可以执行AI处理。另外,如果电子装置20001的处理器或传感器20011/光传感器20011难以执行高负荷AI处理,云服务器20003的处理器执行高负荷AI处理,处理结果可以反馈给电子装置20001的处理器或传感器20011/光传感器20011。
图12示出传感器20011/光学传感器20011的配置示例。传感器20011/光传感器20011可以被配置为例如具有叠层结构的单片半导体器件,其中多个基板被层叠。传感器20011/光学传感器20011具有两个基板(基板20301和基板20302)被层压的配置。这里,光学传感器20011的配置不限于层压结构,并且例如,包括成像单元的基板可包括执行AI处理的处理器,诸如CPU和数字信号处理器(DSP)。
二维地布置多个像素的成像单元20321安装在上基板20301中。在下基板20302中安装有:成像处理单元20322,执行与通过成像单元20321的图像捕获有关的处理;输出I/F20323,将捕获的图像和信号处理结果输出到外部;成像控制单元20324,控制通过成像单元20321的图像捕获;CPU 20331和通信I/F 20334。成像块20311包括成像单元20321、成像处理单元20322、输出I/F 20323以及成像控制单元20324。
此外,在下基板20302中,安装了控制各个单元并执行各种处理的CPU 20331、使用捕获的图像执行信号处理的DSP 20332、来自外部的信息等、诸如静态随机存取存储器(SRAM)和动态随机存取存储器(DRAM)的存储器20333、以及与外部交换必要信息的通信I/F20334。信号处理块20312包括CPU 20331、DSP 20332、存储器20333和通信I/F 20334。AI处理可以由CPU 20331和DSP 20332中的至少一个处理器执行。
以这种方式,用于AI处理的信号处理块20312可安装在下基板20302中的层叠结构中,在该层压结构中层叠了多个基板。因此,由于由安装在上基板20301中的用于成像的成像块20311获取的图像数据由安装在下基板20302中的用于AI处理的信号处理块20312处理,所以可在单芯片半导体器件中执行一系列处理。
在传感器20011/光传感器20011中,AI处理可以由诸如CPU 20331的处理器执行。当传感器20011的处理器/光传感器20011执行诸如推断处理的AI处理时,由于在单片半导体器件中执行一系列处理,所以可以提高信息机密性,因为信息不泄漏到传感器的外部。另外,由于不需要将诸如图像数据的数据发送到另一装置,因此传感器20011的处理器/光学传感器20011可以使用图像数据以高速执行AI处理,诸如推断处理。例如,当推断处理用于诸如要求实时性能的应用的应用时,可以充分确保实时性能。这里,确保实时性能意味着能够以短延迟时间传输信息。此外,当传感器20011的处理器/光传感器20011执行AI处理时,电子装置20001的处理器发送各种元数据项,因此可以减少处理并且可以减少功率消耗。
图13示出处理单元20401的配置示例。当电子装置20001的处理器、边缘服务器20002、云服务器20003或传感器20011/光传感器20011根据程序执行各种处理时,其用作处理单元20401。这里,相同或不同装置的多个处理器可用作处理单元20401。
处理单元20401包括AI处理单元20411。AI处理单元20411执行AI处理。AI处理单元20411包括学习单元20421和推断单元20422。
学习单元20421执行生成学习模型的学习处理。在学习处理中,生成已经机器学习的机器学习学习模型,以校正包括在图像数据中的校正目标像素。此外,学习单元20421可以执行用于更新所生成的学习模型的重新学习处理。在以下描述中,将分开描述学习模型的生成和更新,但是由于可以说通过更新学习模型来生成学习模型,所以假设学习模型的生成包括更新学习模型的含义。
其中,学习单元20421对应于本发明实施方式提供的机器学习装置5。此外,当通过学习单元20421执行学习时,可应用本发明的CG生成器2和模拟器3,并且可使用由CG生成器2和模拟器3生成的训练数据(教师图像和劣化图像)。
CG生成器2和模拟器3中的每一个可以设置在学习单元20421中,或者可以设置在电子装置20001、边缘服务器20002、云服务器20003或传感器(例如,光学传感器)20011中。
此外,所生成的学习模型记录在设置于电子装置20001、边缘服务器20002、云服务器20003或光传感器20011中的诸如主存储器或辅助存储器的存储介质中,因此可以在推断单元20422执行的推断处理中新使用。由此,可以生成基于学习模型执行推断处理的电子装置20001、边缘服务器20002、云服务器20003或光学传感器20011。此外,所生成的学习模型可以被记录在独立于电子装置20001、边缘服务器20002、云服务器20003或光学传感器20011的存储介质或电子装置中,并且被提供用于在其他装置中使用。在此,这些电子装置20001、边缘服务器20002、云服务器20003以及光学传感器20011的生成不仅包括在生产过程中在其存储介质中记录新的学习模型,而且还更新已经记录的所生成的学习模型。
推断单元20422使用学习模型来执行推断处理。在推断处理中,例如,使用学习模型执行用于校正包括在图像数据中的校正目标像素的处理。校正目标像素是在对应于图像数据的图像中的多个像素中满足预定条件的要校正的像素。
在下文中,将主要作为用于校正图像数据中包括的校正目标像素的处理的示例来描述推断处理,但是推断处理不限于用于校正校正目标像素的处理,并且可以是如上所述的各种推断处理。
作为机器学习方法,可以使用神经网络、深度学习等。神经网络是模仿人脑神经回路的模型,由输入层、中间层(隐藏层)和输出层三种层组成。深度学习是使用具有多层结构的神经网络的模型,并且可以在每层中重复特征学习并且学习隐藏在大量数据中的复杂模式。
监督学习可以被用作机器学习问题集。例如,在监督学习中,基于所提供的经标记的教师数据来学习特征。由此,可以导出未知数据的标记。作为教师数据,可使用由光学传感器实际获取的图像数据、聚集并管理的获取的图像数据、由模拟器生成的数据集等。
这里,不限于监督学习,可以使用非监督学习、半监督学习、强化学习等。在无监督学习中,大量的未标记学习数据被分析以提取特征,并且基于所提取的特征来执行聚类等。由此,能够基于大量的未知数据来分析和预测趋势。半监督学习是监督学习和无监督学习的组合,并且是这样的方法:在通过监督学习学习特征之后,在无监督学习中提供大量教师数据,并在自动计算特征的同时重复学习。强化学习处理在特定环境中观察代理的当前状态并确定要采取的动作的问题。
以这种方式,当电子装置20001、边缘服务器20002、云服务器20003或传感器20011/光传感器20011的处理器用作AI处理单元20411时,AI处理由这些装置中的一个或多个执行。
AI处理单元20411可以包括学习单元20421和推断单元20422中的至少一个。即,每个装置的处理器可以执行学习处理和推断处理之一以及学习处理和推断处理两者。例如,当电子装置20001的处理器执行推断处理和学习处理时,可提供学习单元20421和推断单元20422,并且当仅执行推断处理时,可仅提供推断单元20422。
每一装置的处理器可执行与学习处理或推断处理相关的所有处理,或在一些处理由每一装置的处理器执行时,剩余处理可由其他装置的处理器执行。此外,每个装置可以具有用于执行AI处理(诸如学习处理和推断处理)的每个功能的公共处理器,或者可以针对每个功能单独地具有处理器。
这里,AI处理可以由除上述装置之外的装置执行。例如,AI处理可以由电子装置20001可以通过无线通信等与其连接的另一电子装置执行。具体地,当电子装置20001是智能电话时,执行AI处理的其他电子装置可以是诸如其他智能电话、平板终端、移动电话、个人计算机(PC)、游戏控制台、TV接收机、可穿戴终端、数字静态相机和数字相机之类的装置。
此外,在使用安装在诸如汽车的移动部件中的传感器和在远程医疗装置中使用的传感器的配置中,能够应用诸如推断处理的AI处理,但是在环境中需要短的延迟时间。在这样的环境中,可以通过在本地侧装置(例如,作为车载装置或医疗装置的电子装置20001)的处理器中执行AI处理而不是经由网络20040在云服务器20003的处理器中执行AI处理来缩短延迟时间。此外,即使当不存在用于连接到网络20040(诸如互联网)的环境时或者当在不能建立高速连接的环境中使用装置时,例如,如果AI处理由本地侧装置(诸如电子装置20001或光学传感器20011)的处理器执行,AI处理可以在更适当的环境中执行。
这里,以上配置是示例,并且可以使用其他配置。例如,电子装置20001不限于诸如智能电话的移动终端,并且可以是诸如PC、游戏控制台、TV接收器、可穿戴终端、数字静态相机和数字相机的电子装置、车载装置或医疗装置。此外,电子装置20001可以通过与诸如无线LAN(局域网)或有线LAN的预定通信方法对应的无线通信或有线通信连接到网络20040。传感器20011不限于具有其中层压多个基板的层压结构的配置,并且可使用其他配置。对于AI处理,可以使用量子计算机、神经元形态计算机等,而不限于每个装置的诸如CPU和GPU的处理器。
(处理流程)
将参考图14的流程图描述使用AI的处理流程。
在步骤S20001中,处理单元20401从传感器20011/光学传感器20011获取图像数据。在步骤S20002中,处理单元20401对获取的图像数据进行校正处理。在该校正处理中,对图像数据的至少一部分执行使用学习模型的推断处理,并且获得校正数据,该校正数据是在对图像数据中包括的校正目标像素进行校正之后的数据。在步骤S20003中,处理单元20401输出在校正处理中获得的校正数据。
这里,将参考图15的流程图详细描述上述步骤S20002中的校正处理。
在步骤S20021中,处理单元20401检测图像数据中包括的校正目标像素。在检测校正目标像素的步骤(下文称为检测步骤)中,执行推断处理或正常处理。
当作为检测步骤执行推断处理时,推断单元20422将图像数据输入到学习模型,输出用于检测输入图像数据中包括的校正目标像素的信息(以下被称为检测信息),从而可以检测校正目标像素。在此,使用其中包括校正目标像素的图像数据是输入并且包括在图像数据中的校正目标像素的检测信息是输出的学习模型。另一方面,当作为检测步骤执行正常处理时,电子装置20001或传感器20011的处理器或信号处理电路/光传感器20011执行检测包括在图像数据中的校正目标像素的处理而不使用AI。
在步骤S20021中,当检测到图像数据中包括的校正目标像素时,处理进入步骤S20022。在步骤S20022,处理单元20401校正所检测的校正目标像素。在校正校正目标像素的步骤(下文被称为校正步骤)中,执行推断处理或正常处理。
当作为校正步骤执行推断处理时,推断单元20422将图像数据和校正目标像素的检测信息输入到学习模型,输出校正后的图像数据或者校正后的校正目标像素的检测信息,从而可以校正校正目标像素。这里,使用其中输入包括校正目标像素和校正目标像素的检测信息的图像数据并且输出校正图像数据或已经校正的校正目标像素的检测信息的学习模型。另一方面,当正常处理作为校正步骤执行时,电子装置20001的处理器或信号处理电路或传感器20011/光传感器20011执行校正包括在图像数据中的校正目标像素的处理而不使用AI。
以这种方式,在校正处理中,在检测校正目标像素的检测步骤中执行推断处理或者正常处理,在校正所检测的校正目标像素的校正步骤中执行推断处理或者正常处理,并且因此在检测步骤和校正步骤中的至少一个步骤中执行推断处理。即,在校正处理中,对来自传感器20011/光学传感器20011的图像数据的至少一部分执行使用学习模型的推断处理。
此外,在校正处理中,当使用推断处理时,检测步骤可与校正步骤整体地执行。当如此执行推断处理时,推断单元20422将图像数据输入到学习模型,输出校正了校正目标像素的图像数据,从而可以校正输入图像数据中包括的校正目标像素。这里,使用其中包括校正目标像素的图像数据是输入并且其中校正目标像素被校正的图像数据是输出的学习模型。
这里,处理单元20401可使用校正数据生成元数据。图16的流程图示出生成元数据时的处理流程。
在步骤S20051和S20052中,与上述步骤S20001和S20002一样,获取图像数据,并且使用所获取的图像数据进行校正处理。在步骤S20053中,处理单元20401使用在校正处理中获得的校正数据生成元数据。在生成元数据的步骤(下文被称为生成步骤)中,执行推断处理或正常处理。
当作为生成步骤执行推断处理时,推断单元20422将校正数据输入到学习模型,并且输出与输入的校正数据相关的元数据,并因此可以生成元数据。在此,使用其中校正的数据是输入并且元数据是输出的学习模型。例如,元数据包括诸如点云和数据结构的3D数据。这里,可以通过端到端机器学习来执行步骤S20051至S20054的处理。另一方面,当正常处理被执行为生成步骤时,电子装置20001的处理器或信号处理电路或传感器20011/光传感器20011执行从校正后的数据产生元数据的处理而不使用AI。
如上所述,在电子装置20001、边缘服务器20002、云服务器20003或传感器20011/光传感器20011中,作为使用来自传感器20011/光传感器20011的图像数据的校正处理,执行检测校正目标像素的检测步骤、校正校正目标像素的校正步骤或校正包括在图像数据中的校正目标像素的校正步骤。此外,在电子装置20001、边缘服务器20002、云服务器20003或传感器20011/光传感器20011中,可以执行利用在校正处理中获得的校正数据生成元数据的生成步骤。
此外,当将该数据(诸如校正数据或元数据)记录在可读存储介质中时,可以生成记录这些数据项的存储介质和安装存储介质的装置(诸如电子装置)。存储介质可以是设置在电子装置20001、边缘服务器20002、云服务器20003或光传感器20011中的诸如主存储器或辅助存储器的存储介质,或者可以是独立于它们的存储介质或电子装置。
当在校正处理中执行检测步骤和校正步骤时,可以在检测步骤、校正步骤和生成步骤中的至少一个步骤中执行使用学习模型的推断处理。具体地,在检测步骤中执行推断处理或正常处理之后,在校正步骤中执行推断处理或正常处理,此外,在生成步骤中执行推断处理或正常处理,因此在至少一个步骤中执行推断处理。
此外,当在校正处理中仅执行校正步骤时,可在校正步骤中执行推断处理,并且可在生成步骤中执行推断处理或正常处理。具体地,在校正步骤中执行推断处理之后,在生成步骤中执行推断处理或正常处理,因此在至少一个步骤中执行推断处理。
以这种方式,在检测步骤、校正步骤和生成步骤中,可以在全部步骤中执行推断处理,或者可以在一些步骤中执行推断处理,并且可以在剩余步骤中执行正常处理。在下文中,将描述在每个步骤中执行推断处理时的处理。
(A)当在检测步骤中执行推断处理时的处理
当在校正处理中执行检测步骤和校正步骤时,如果在检测步骤中执行推断处理,则在推断单元20422中,使用学习模型,在该学习模型中,包括校正目标像素的图像数据是输入,并且包括在图像数据中的校正目标像素的检测信息是输出。该学习模型在由学习单元20421执行的学习处理中生成,并且被提供给推断单元20422并且在执行推断处理时使用。
当参考图17的流程图在校正处理中执行检测步骤和校正步骤时,将在检测步骤中执行推断处理时提前执行的学习处理的流程描述如下。即,学习单元20421获取由光学传感器实际获取的图像数据、聚集并管理的获取的图像数据、由模拟器生成的数据集等作为教师数据(S20061),并且使用获取的教师数据生成学习模型(S20062)。生成其中包括校正目标像素的图像数据是输入并且包括在图像数据中的校正目标像素的检测信息是输出的学习模型,作为该学习模型,并且将该学习模型输出至推断单元20422(S20063)。
(B)当在校正步骤中执行推断处理时的处理
当在校正处理中执行检测步骤和校正步骤时,如果在校正步骤中执行推断处理,则在推断单元20422中,使用学习模型,在该学习模型中,输入包括校正目标像素和校正目标像素的检测信息的图像数据,并且输出校正后的图像数据或校正后目标像素的检测信息。在学习单元20421进行的学习处理中生成该学习模型。
当参考图17的流程图在校正处理中执行检测步骤和校正步骤时,将在校正步骤中执行推断处理时提前执行的学习处理的流程描述如下。即,学习单元20421从光学传感器获取图像数据、由模拟器生成的数据集等作为教师数据(S20061),并且使用获取的教师数据生成学习模型(S20062)。作为该学习模型,生成其中包括校正目标像素和校正目标像素的检测信息的图像数据被输入,并且已经校正的校正图像数据或校正目标像素的检测信息被输出的学习模型,并且输出到推断单元20422(S20063)。
(C)当在校正步骤中执行推断处理时的处理
当在校正处理中仅执行校正步骤时,如果在校正步骤中执行推断处理,则在推断单元20422中,使用学习模型,在该学习模型中,输入包括校正目标像素的图像数据,并且输出校正目标像素校正后的图像数据。在学习单元20421进行的学习处理中生成该学习模型。
当参考图17的流程图在校正处理中仅执行校正步骤时,将在校正步骤中执行推断处理时提前执行的学习处理的流程描述如下。即,学习单元20421从光学传感器获取图像数据、由模拟器生成的数据集等作为教师数据(S20061),并且使用获取的教师数据生成学习模型(S20062)。作为该学习模型,生成其中包括校正目标像素的图像数据是输入并且其中校正目标像素被校正的图像数据是输出的学习模型,并且输出到推断单元20422(S20063)。
这里,诸如学习模型、图像数据和校正数据之类的数据不仅可以在单个装置中使用,而且可以在多个装置之间交换,并且在这些装置中使用。图18示出多个装置之间的数据流。
电子装置20001-1至20001-N(N是1或更大的整数)由每个用户拥有,并且可以经由基站(未示出)等连接到诸如互联网的网络20040。在生产期间,学习装置20501连接到电子装置20001-1,并且由学习装置20501提供的学习模型可被记录在辅助存储器20104中。学习装置20501使用由模拟器20502产生的数据集作为教师数据来产生学习模型且将其提供到电子装置20001-1。这里,教师数据不限于从模拟器20502提供的数据集,可使用由光学传感器实际获取的图像数据、聚集并管理的获取的图像数据等。
虽然未示出,但是与电子装置20001-1相似,对于电子装置20001-2至20001-N,可在生产阶段记录学习模型。在下文中,当不需要彼此区分电子装置20001-1至20001-N时,它们将被称为电子装置20001。
除了电子装置20001之外,学习模型生成服务器20503、学习模型提供服务器20504、数据提供服务器20505、以及应用服务器20506连接到网络20040,并且彼此可以交换数据。每个服务器可以被提供为云服务器。
学习模型生成服务器20503具有与云服务器20003相同的配置,并且可以通过诸如CPU的处理器执行学习处理。学习模型生成服务器20503使用教师数据生成学习模型。虽然在示出的配置中例示了电子装置20001在生产期间记录学习模型的情况,但是可以从学习模型生成服务器20503提供学习模型。学习模型生成服务器20503经由网络20040将所生成的学习模型发送给电子装置20001。电子装置20001接收从学习模型生成服务器20503发送的学习模型并且将其记录在辅助存储器20104中。由此,生成具有学习模型的电子装置20001。
即,在电子装置20001中,当在生产阶段未记录学习模型时,新记录来自学习模型生成服务器20503的学习模型,并且由此生成其中记录了新学习模型的电子装置20001。此外,在电子装置20001中,当在生产阶段已经记录学习模型时,从学习模型生成服务器20503将所记录的学习模型更新为学习模型,并且由此生成其中记录更新的学习模型的电子装置20001。在电子装置20001中,可以使用适当更新的学习模型来执行推断处理。
学习模型不限于直接从学习模型生成服务器20503提供给电子装置20001的模型,而是可以经由网络20040提供聚集和管理不同学习模型的学习模型提供服务器20504。学习模型提供服务器20504不仅向电子装置20001提供学习模型,而且向其他装置提供学习模型,因此可以生成具有学习模型的其他装置。此外,可以提供记录在诸如闪存的可移除存储卡中的学习模型。在电子装置20001中,可以从安装在插槽中的存储卡中读取和记录学习模型。因此,电子装置20001可以在恶劣环境中使用时获取学习模型,在没有通信功能时获取学习模型,或者在具有通信功能但可传输的信息量较小时获取学习模型。
电子装置20001可以经由网络20040向其他装置提供诸如图像数据、校正数据和元数据的数据。例如,电子装置20001经由网络20040将诸如图像数据和校正数据的数据传输到学习模型生成服务器20503。由此,学习模型生成服务器20503可以使用从一个或多个电子装置20001收集的诸如图像数据和校正数据的数据作为教师数据来生成学习模型。当使用大量的教师数据时,可以提高学习处理的准确度。
诸如图像数据和校正数据的数据不仅可以从电子装置20001直接提供给学习模型生成服务器20503,而且可以从汇总和管理不同数据项的数据提供服务器20505提供。数据提供服务器20505可以不仅从电子装置20001而且还从其他装置收集数据,并且不仅可以向学习模型生成服务器20503而且还向其他装置提供数据。
学习模型产生服务器20503可执行重新学习处理,在该重新学习处理中,从电子装置20001或数据提供服务器20505提供的诸如图像数据和校正数据的数据被添加为关于已经产生的学习模型的教师数据,并且可更新学习模型。更新后的学习模型可以被提供给电子装置20001。在学习模型生成服务器20503中,当执行学习处理或重新学习处理时,可以不考虑电子装置20001中的规格和性能的差异来执行该过程。
此外,在电子装置20001中,当用户对校正后的数据或元数据执行正确操作时(例如,当用户输入正确信息时),与校正处理相关的反馈数据可用于重新学习处理。例如,当从电子装置20001向学习模型生成服务器20503传送反馈数据时,学习模型生成服务器20503可以使用来自电子装置20001的反馈数据来执行重新学习处理,并更新学习模型。这里,在电子装置20001中,当用户执行正确操作时,可使用由应用服务器20506提供的应用。
重新学习处理可由电子装置20001来执行。在电子装置20001中,当使用使用图像数据和反馈数据的重新学习处理并且更新学习模型时,可以在装置中改进学习模型。由此,生成具有更新的学习模型的电子装置20001。此外,电子装置20001可以将在重新学习处理中获得的经更新的学习模型传送给学习模型提供服务器20504,并且可以将其提供给其他电子装置20001。因此,更新的学习模型可以在多个电子装置20001之间共享。
可替换地,电子装置20001可以将重新训练的学习模型的差异信息(关于更新之前的学习模型和更新之后的学习模型的差异信息)作为更新信息发送到学习模型生成服务器20503。学习模型生成服务器20503可以基于来自电子装置20001的更新信息来生成改进的学习模型并且将其提供给其他电子装置20001。当交换这种差异信息时,与交换所有信息时相比,可以保护隐私并且可以降低通信成本。这里,与电子装置20001类似,传感器20011/安装在电子装置20001中的光学传感器20011可以执行重新学习处理。
应用服务器20506是可以经由网络20040提供不同应用的服务器。该应用程序使用诸如学习模型的数据、校正数据和元数据来提供预定功能。电子装置20001可以执行经由网络20040从应用服务器20506下载的应用,并且因此可以实现预定功能。或者,应用服务器20506可以例如经由应用编程接口(API)从电子装置20001获取数据,在应用服务器20506上执行应用,并且因此实现预定功能。
以这种方式,在包括应用本技术的装置的系统中,在装置之间交换和分发诸如学习模型、图像数据和校正数据的数据,并且可提供使用这些数据项的各种服务。例如,可以提供经由学习模型提供服务器20504提供学习模型的服务和经由数据提供服务器20505提供诸如图像数据和校正数据的数据的服务。此外,可以提供经由应用服务器20506提供应用的服务。
可替换地,从传感器20011/电子装置20001的光学传感器20011获取的图像数据被输入到由学习模型提供服务器20504提供的学习模型,并且作为其输出获得的校正数据可以被提供。此外,可以产生、生成和提供诸如实现由学习模型提供服务器20504提供的学习模型的电子装置的装置。此外,当将诸如学习模型、校正数据和元数据的数据记录在可读存储介质中时,可以产生、生成和提供其中记录这些数据项的存储介质以及诸如安装该存储介质的电子装置的装置。存储介质可以是诸如磁盘、光盘、磁光盘和半导体存储器的非易失性存储器(非暂时性计算机可读介质),或者可以是诸如静态随机存取存储器(SRAM)和动态随机存取存储器(DRAM)的易失性存储器。
以上实施方式可以具有以下方面。
(1)一种数据生成方法,其是由处理器生成数据的方法,并且其中,从CG模型中获得用于在机器学习中优化估计模型的训练数据。
(2)根据(1)的数据生成方法,其中从CG模型中获取基于成像相机参数的图像。
(3)根据(2)的数据生成方法,其中相机的参数包括与相机的镜头相关的参数。
(4)根据(3)的数据生成方法,其中与相机的镜头相关的参数是基于鱼眼镜头、广角镜头、望远镜头、微距镜头和标准镜头中的至少一个的参数。
(5)根据(3)或(4)的数据生成方法,其中与相机的透镜相关的参数是与由相机的透镜引起的模糊、失真、阴影、眩光以及重影中的至少一个相关的参数。
(6)根据(2)至(5)中任一项的数据生成方法,其中相机的参数包括与相机的光接收传感器相关的参数。
(7)根据(6)的数据生成方法,其中与相机的传感器有关的参数是与具有白色像素、黑色像素和随机像素值的缺陷中的至少一个有关的参数。
(8)根据(6)或(7)的数据生成方法,其中与相机的传感器相关的参数是与图像平面相位差获取像素、偏振像素、IR获取像素、UV获取像素、距离测量像素和温度像素中的至少一个相关的参数。
(9)根据(6)至(8)中任一项的数据生成方法,其中与相机的传感器相关的参数是与滤色器特性、光谱特性、滤色器布置、温度特性、变换效率、灵敏度和读取顺序中的至少一个相关的参数。
(10)根据(1)至(9)中任一项的数据生成方法,其中针对通过从CG模型获取的成像相机的参数变换的图像,获取基于与数据压缩相关的参数的压缩图像。
(11)根据(10)的数据生成方法,其中与数据压缩相关的参数包括与压缩算法、压缩率、比特率、灰度和色空间变换中的至少一个相关的参数。
(12)根据(1)至(11)中任一项的数据生成方法,其中从CG模型中获取多光谱图像和高光谱图像。
(13)根据(1)至(12)中任一项的数据生成方法,其中基于来自CG模型的成像条件获取图像。
(14)根据(13)的数据生成方法,其中成像条件涉及光源的类型、位置和方向中的至少一个。
(15)根据(13)或(14)的数据生成方法,其中成像条件与像素值的饱和度有关。
(16)根据(13)至(15)中任一项的数据生成方法,其中成像条件涉及曝光。
(17)根据(1)至(16)中任一项的数据生成方法,其中从CG模型分别获取作为估计模型的输入图像的正常图像和作为输入正常图像时的期望输出图像的理想图像。
(18)根据(17)的数据生成方法,其中使用根据(2)至(17)中任一项的方法从CG模型获取正常图像和理想图像。
(19)根据(17)或(18)的数据生成方法,其中通过向CG模型添加注释来获取理想图像。
(20)根据(19)的数据生成方法,其中为理想图像的每个区域或每个像素添加注释。
(21)根据(19)或(20)的数据生成方法,其中通过在与从CG模型生成理想图像的变换相同的变换中通过几何变换来变换来添加注释。
(22)一种学习方法,包括使用使用根据(1)至(21)中任一项的数据生成方法获得的训练数据优化估计模型。
(22)一种估计方法,包括使用利用根据(1)至(21)中任一项的数据生成方法获得的训练数据优化的估计模型来执行估计。
(23)一种数据生成装置、学习装置或者估计装置,包括用于执行根据(1)至(22)中任一项的方法的处理器。
此外,可以提供以下方面。
(1)一种图像生成方法,包括:获取CG模型或基于CG模型生成的人工图像;通过处理器对CG模型或人工图像进行处理,并生成用于传感器所获取的图像或人工图像的AI学习的处理图像的元数据。
此外,记录介质生成方法包括将由图像方法生成的图像存储在记录介质中。
(2)根据(1)的图像生成方法,还包括:选择用于处理CG模型或人工图像的至少一个参数;以及
在生成CG模型或人工图像的定时,基于所选择的参数向CG模型或人工图像应用。
(3)根据(2)的图像生成方法,
其中至少一个参数是与传感器相关的参数。
(4)根据(3)的图像生成方法,
其中该传感器至少包括相机。
(5)根据(4)的图像生成方法,
其中用于传感器获取的图像的AI用于校正由传感器或相机引起的图像的变化。
(6)根据(1)的图像生成方法,还包括将处理图像或人工图像的元数据记录在记录介质中。
(7)根据(6)的图像生成方法,
其中经处理的图像或人工图像的元数据与人工图像相关联,并记录在存储介质中。
(8)一种图像生成装置,包括处理器,其中处理器获取CG模型或基于CG模型生成的人工图像,并对CG模型或人工图像进行处理,并生成用于传感器所获取的图像或人工图像的AI学习的处理图像的元数据。
(9)一种非暂时性计算机可读介质,存储当处理器执行时执行图像生成方法的程序,方法包括:获取CG模型或基于CG模型生成的人工图像;并且对CG模型或人工图像进行处理,并生成用于传感器所获取的图像或人工图像的AI学习的处理图像的元数据。
(10)一种学习模型生成方法,是用于由传感器获取的图像的AI的学习模型生成方法,方法包括:获取第一图像数据;获取与第一图像数据不同的第二图像数据;以及基于第一图像数据和第二图像数据,生成当输入第一图像数据时输出与第二图像数据对应的图像的学习模型,其中第一图像数据是CG模型或基于CG模型生成的人工图像,并且其中第二图像数据是通过处理器对CG模型或基于CG模型生成的人工图像执行处理而获得的数据。
(11)根据(10)的学习模型生成方法,其中第二图像数据是第二图像的元数据。
(12)一种学习模型生成装置,包括处理器并且生成用于由传感器获取的图像的AI学习模型,其中处理器获取第一图像数据,获取与第一图像数据不同的第二图像数据,并且当第一图像数据输入时基于第一图像数据和第二图像数据生成输出与第二图像数据对应的图像的学习模型,其中第一图像数据是CG模型或基于CG模型生成的人工图像,并且其中第二图像数据是通过由与处理器相同的处理器或与处理器不同的处理器对CG模型或基于CG模型生成的人工图像执行处理而获得的数据。
(13)一种存储程序的非暂时性计算机可读介质,其中,当通过处理器执行程序时,程序执行学习模型生成方法,学习模型生成方法包括:获取第一图像数据;获取与第一图像数据不同的第二图像数据;以及基于第一图像数据和第二图像数据生成当输入第一图像数据时输出与第二图像数据对应的图像的学习模型,其中第一图像数据是CG模型或基于CG模型生成的人工图像,并且其中第二图像数据是通过由与处理器相同的处理器或与处理器不同的处理器对CG模型或基于CG模型生成的人工图像执行处理而获得的数据。
(14)一种利用AI学习模型执行推断的推断方法,AI学习模型用于由传感器获取的图像,推断方法包括:由处理器获取输入图像数据;以及从输入图像数据被输入到的学习模型中获取学习模型的处理结果,其中学习模型是通过获取第一图像数据和不同于第一图像数据的第二图像数据,并且基于第一图像数据和第二图像数据学习而生成的模型,其中第一图像数据是人工生成的人工图像,并且其中第二图像数据是通过对第一图像执行处理而获得的数据。
(15)一种电子装置,利用用于由传感器获取的图像的AI学习模型执行推断,电子装置包括控制装置,其中控制装置在输入了输入图像数据时,将输入图像数据输入至学习模型,获取输入了输入图像数据的学习模型的处理结果,并输出所获取的处理结果,并且其中学习模型是用人工生成的人工图像和通过对人工图像进行处理获得的处理图像训练的模型。
(16)一种使处理器执行推断方法的程序,推断方法利用用于由传感器获取的图像的AI学习模型来执行推断,其中推断方法包括:获取输入图像数据;以及从输入图像数据被输入到的学习模型中获取学习模型的处理结果,其中学习模型是通过获取第一图像数据和不同于第一图像数据的第二图像数据,并且基于第一图像数据和第二图像数据学习而生成的模型,其中第一图像数据是人工生成的人工图像,并且其中第二图像数据是通过对第一图像执行处理而获得的数据。
(17)一种生成方法,生成用于由传感器获取的图像的AI学习模型,生成方法包括训练学习模型,在学习模型中,基于人工生成的人工图像和通过对人工图像执行处理而获得的处理图像,当输入与由传感器获取的人工图像对应的图像时,输出与处理图像对应的图像。
(18)一种电子装置生成方法,包括将根据(17)生成的学习模型记录在包括在电子装置中的非暂时性计算机可读介质中。
(19)一种用于由传感器获取的图像的AI学习模型,该学习模型包括:多个由多个节点组成的层,其中多个层中的每个层具有功能,并且多个层中的每个层中的多个节点中的每个节点经由边缘连接到多个层中的其他层中的一个或多个节点,并且其中边缘具有基于人工生成的人工图像和通过对人工图像进行处理所获得的处理图像的权重。
(20)一种非暂时性计算机可读介质,其中,记录了用于由传感器获取的图像的AI学习模型,其中学习模型包括多个由多个节点组成的层,其中多个层中的每个层具有功能,并且多个层中的每个层中的多个节点中的每个节点经由边缘连接到多个层中的其他层中的一个或多个节点,并且其中,对于边缘,将基于人工生成的人工图像和通过对人工图像执行处理而获得的处理图像而获得的权重信息与边缘相关联地记录。
(21)一种基于学习模型得出的结果处理数据的数据处理方法,包括:输入学习模型的结果;基于学习模型的结果生成处理数据;以及输出处理数据,其中通过将所获取的图像数据输入至预训练的学习模型来获取学习模型得出的结果,并且其中预训练的学习模型由人工生成的人工图像和对人工图像进行处理得到的处理图像进行训练。
(22)一种数据处理装置,基于学习模型得出的结果处理数据,数据处理装置包括处理器,处理器执行输入学习模型的结果,基于学习模型的结果生成处理数据,并且输出处理数据,其中通过将所获取的图像数据输入至预训练的学习模型来获取学习模型得出的结果,并且其中预训练的学习模型由人工生成的人工图像和对人工图像进行处理得到的处理图像进行训练。
(23)一种程序,使处理器执行基于学习模型得出的结果处理数据的数据处理方法,其中数据处理方法包括输入学习模型的结果,基于学习模型的结果生成处理数据,以及输出处理数据,其中通过将所获取的图像数据输入至预训练的学习模型来获取学习模型得出的结果,并且其中预训练的学习模型由人工生成的人工图像和对人工图像进行处理得到的处理图像进行训练。
(24)一种图像生成方法,用于生成在AI学习中使用的图像,包括:输入人工生成的人工图像;生成通过对人工图像进行处理所获得的处理图像;以及输出经处理的图像。
(25)根据(15)的图像生成方法。
(26)根据(1)的图像生成方法,其中人工图像是计算机图形生成的图像。
(27)根据(1)的图像生成方法,其中人工图像包括元数据,并且其中元数据用于添加注释。
(28)根据(1)的图像生成方法,其中将处理图像和对应于处理图像的人工图像相关联并记录。
本公开的各方面不限于以上实施方式,而是包括各种可能的修改,并且本公开的效果不限于上述内容。实施方式中的组件可以适当的组合应用。即,在不背离从在权利要求及其等同物的范围内限定的内容获得的本公开的概念构思和目的的情况下,可进行各种添加、替换和部分删除。
[参考标号列表]
1 数据生成系统
2 CG生成器
3 模拟器
300 输入/输出I/F
302 存储单元
304 正常模型应用单元
306 理想模型应用单元
308 注释添加单元
4 机器学习系统
5 机器学习装置。

Claims (24)

1.一种图像生成方法,包括:
获取CG模型或者基于所述CG模型生成的人工图像;并且
通过处理器对所述CG模型或者所述人工图像进行处理,并且生成用于AI学习的经处理的图像或所述人工图像的元数据,所述AI学习用于传感器所获取的图像。
2.根据权利要求1所述的图像生成方法,还包括:
选择用于处理所述CG模型或所述人工图像的至少一个参数;并且
在生成所述CG模型或所述人工图像的时刻,基于所选择的参数对所述CG模型或所述人工图像进行应用。
3.根据权利要求2所述的图像生成方法,
其中,所述至少一个参数是与所述传感器相关的参数。
4.根据权利要求3所述的图像生成方法,
其中,所述传感器至少包括相机。
5.根据权利要求4所述的图像生成方法,
其中,用于所述传感器所获取的图像的AI被用于校正由所述传感器或所述相机引起的图像的变化。
6.根据权利要求1所述的图像生成方法,还包括:
将所述经处理的图像或所述人工图像的所述元数据记录在记录介质中。
7.根据权利要求6所述的图像生成方法,
其中,使所述经处理的图像或所述人工图像的所述元数据与所述人工图像相关联,并且记录在存储介质中。
8.一种记录介质生成方法,包括:
将通过根据权利要求1所述的图像生成方法生成的图像存储在记录介质中。
9.一种图像生成装置,包括:
处理器,
其中,所述处理器获取CG模型或基于所述CG模型生成的人工图像,并且
对所述CG模型或所述人工图像进行处理,并且生成用于AI学习的经处理的图像或所述人工图像的元数据,所述AI学习用于传感器所获取的图像。
10.一种非暂时性计算机可读介质,存储有程序,所述程序在处理器执行时执行图像生成方法,所述方法包括:
获取CG模型或基于所述CG模型生成的人工图像;并且
对所述CG模型或所述人工图像进行处理,并且生成用于AI学习的经处理的图像或所述人工图像的元数据,所述AI学习用于传感器所获取的图像。
11.一种学习模型生成方法,是用于传感器所获取的图像的AI学习模型生成方法,所述方法包括:
获取第一图像数据;
获取与所述第一图像数据不同的第二图像数据;并且
基于所述第一图像数据和所述第二图像数据生成学习模型,所述学习模型在输入有所述第一图像数据时,输出与所述第二图像数据相对应的图像,
其中,所述第一图像数据是CG模型或基于所述CG模型生成的人工图像,并且
其中,所述第二图像数据是通过处理器对所述CG模型或基于所述CG模型生成的所述人工图像执行处理而获得的数据。
12.根据权利要求11所述的学习模型生成方法,
其中,所述第二图像数据是第二图像的元数据。
13.一种学习模型生成装置,包括处理器,并且生成用于传感器所获取的图像的AI学习模型,
其中,处理器:
获取第一图像数据;
获取与所述第一图像数据不同的第二图像数据,并且
基于所述第一图像数据和所述第二图像数据生成学习模型,所述学习模型在输入有所述第一图像数据时,输出与所述第二图像数据相对应的图像,
其中,所述第一图像数据是CG模型或基于所述CG模型生成的人工图像,并且
其中,所述第二图像数据是通过由与所述处理器相同的一处理器或与所述处理器不同的一处理器,对所述CG模型或基于所述CG模型生成的所述人工图像执行处理而获得的数据。
14.一种非暂时性计算机可读介质,存储有程序,在所述非暂时性计算机可读介质中,所述程序在被处理器执行时,所述程序执行学习模型生成方法,所述学习模型生成方法包括:获取第一图像数据;获取与所述第一图像数据不同的第二图像数据;并且基于所述第一图像数据和所述第二图像数据生成学习模型,所述学习模型在输入有所述第一图像数据时输出与所述第二图像数据相对应的图像,
其中,所述第一图像数据是CG模型或基于所述CG模型生成的人工图像,并且
其中,所述第二图像数据是通过由与所述处理器相同的一处理器或与所述处理器不同的一处理器,对所述CG模型或基于所述CG模型生成的所述人工图像执行处理而获得的数据。
15.一种推断方法,利用用于传感器所获取的图像的AI学习模型来执行推断,所述推断方法包括:
通过处理器,
获取输入图像数据;并且
从输入有所述输入图像数据的学习模型获取所述学习模型的处理结果,
其中,所述学习模型是通过获取第一图像数据和与所述第一图像数据不同的第二图像数据并且基于所述第一图像数据和所述第二图像数据进行学习而生成的模型,
其中,所述第一图像数据是人工生成的人工图像,并且
其中,所述第二图像数据是通过对第一图像执行处理而获得的数据。
16.一种电子装置,利用用于传感器所获取的图像的AI学习模型来执行推断,所述电子装置包括控制装置,
其中,当输入图像数据输入时,所述控制装置将所述输入图像数据输入至学习模型,获取输入有所述输入图像数据的所述学习模型的处理结果,并且输出所获取的处理结果,并且
其中,所述学习模型是利用人工生成的人工图像和通过对所述人工图像执行处理而获得的经处理的图像训练的模型。
17.一种程序,使处理器执行推断方法,所述推断方法利用用于传感器所获取的图像的AI学习模型来执行推断,
其中,所述推断方法包括:
获取输入图像数据,并且
从输入有所述输入图像数据的学习模型获取所述学习模型的处理结果,
其中,所述学习模型是通过获取第一图像数据和与所述第一图像数据不同的第二图像数据并且基于所述第一图像数据和所述第二图像数据进行学习而生成的模型,
其中,所述第一图像数据是人工生成的人工图像,并且
其中,所述第二图像数据是通过对所述第一图像执行处理而获得的数据。
18.一种生成方法,生成用于传感器所获取的图像的AI学习模型,所述生成方法包括:
训练一学习模型,所述学习模型基于人工生成的人工图像和通过对所述人工图像执行处理而获得的经处理的图像,在所述学习模型中,在输入有所述传感器所获取的与所述人工图像相对应的图像时,输出与所述经处理的图像相对应的图像。
19.一种电子装置生成方法,包括:
将根据权利要求18生成的学习模型记录在电子装置中包括的非暂时性计算机可读介质中。
20.一种AI学习模型,用于传感器所获取的图像,学习模型包括:
多个由多个节点组成的层,
其中,多个层中的每个层具有功能,并且所述多个层中的每个层中的所述多个节点中的每个节点经由边缘连接至所述多个层中的其他层中的一个或多个节点,并且
其中,所述边缘具有基于人工生成的人工图像和通过对所述人工图像执行处理而获得的经处理的图像的权重。
21.一种数据处理方法,基于学习模型得出的结果来处理数据,所述数据处理方法包括:
输入学习模型的结果;
基于所述学习模型的结果生成处理数据;并且
输出所述处理数据,
其中,所述学习模型得出的结果通过将所获取的图像数据输入至预训练的学习模型而获取,并且
其中,所述预训练的学习模型利用人工生成的人工图像和对所述人工图像执行处理而获得的经处理的图像进行训练。
22.一种数据处理装置,基于学习模型得出的结果来处理数据,所述数据处理装置包括处理器,所述处理器执行:
输入学习模型的结果,
基于所述学习模型的结果生成处理数据,并且
输出所述处理数据,
其中,所述学习模型得出的结果通过将所获取的图像数据输入至预训练的学习模型而获取,并且
其中,所述预训练的学习模型利用人工生成的人工图像和对所述人工图像执行处理而获得的经处理的图像进行训练。
23.一种程序,使处理器执行数据处理方法,所述数据处理方法基于学习模型得出的结果来处理数据,
其中,所述数据处理方法包括:
输入学习模型的结果,
基于所述学习模型的结果生成处理数据,并且
输出所述处理数据,
其中,所述学习模型得出的结果通过将所获取的图像数据输入至预训练的学习模型而获取,并且
其中,所述预训练的学习模型利用人工生成的人工图像和对所述人工图像执行处理而获得的经处理的图像进行训练。
24.一种图像生成方法,用于生成在AI学习中使用的图像,包括:
输入人工生成的人工图像;
生成通过对所述人工图像执行处理而获得的经处理的图像;并且
输出经处理的图像。
CN202180017681.0A 2020-03-05 2021-03-02 图像生成装置、图像生成方法、记录介质生成方法、学习模型生成装置、学习模型生成方法、学习模型、数据处理装置、数据处理方法、推断方法、电子装置、生成方法、程序和非暂时性计算机可读介质 Pending CN115226406A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020038061A JP2023056056A (ja) 2020-03-05 2020-03-05 データ生成方法、学習方法及び推定方法
JP2020-038061 2020-03-05
PCT/JP2021/008019 WO2021177324A1 (ja) 2020-03-05 2021-03-02 画像生成装置、画像生成方法、記録媒体生成方法、学習モデル生成装置、学習モデル生成方法、学習モデル、データ処理装置、データ処理方法、推論方法、電子機器、生成方法、プログラム及び非一時的コンピュータ可読媒体

Publications (1)

Publication Number Publication Date
CN115226406A true CN115226406A (zh) 2022-10-21

Family

ID=77613476

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180017681.0A Pending CN115226406A (zh) 2020-03-05 2021-03-02 图像生成装置、图像生成方法、记录介质生成方法、学习模型生成装置、学习模型生成方法、学习模型、数据处理装置、数据处理方法、推断方法、电子装置、生成方法、程序和非暂时性计算机可读介质

Country Status (6)

Country Link
US (1) US20230078763A1 (zh)
EP (1) EP4116938A4 (zh)
JP (1) JP2023056056A (zh)
CN (1) CN115226406A (zh)
TW (1) TW202143120A (zh)
WO (1) WO2021177324A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116797494A (zh) * 2023-08-17 2023-09-22 中南大学湘雅医院 一种基于图像处理的产科手术监测方法、系统及相关设备

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2022149411A1 (zh) * 2021-01-07 2022-07-14
US20220414234A1 (en) * 2021-06-23 2022-12-29 Palantir Technologies Inc. Approaches of performing data processing while maintaining security of encrypted data
CN118235164A (zh) * 2021-11-24 2024-06-21 索尼集团公司 信息处理装置和信息处理方法
JP7302107B1 (ja) * 2022-01-07 2023-07-03 楽天グループ株式会社 学習システム、学習方法、及びプログラム
WO2023157622A1 (ja) * 2022-02-15 2023-08-24 ソニーグループ株式会社 情報処理装置、および情報処理方法、並びにプログラム
WO2023171755A1 (ja) * 2022-03-09 2023-09-14 ソニーセミコンダクタソリューションズ株式会社 情報処理装置、情報処理方法、記録媒体、情報処理システム
WO2023238719A1 (ja) * 2022-06-08 2023-12-14 ソニーグループ株式会社 情報処理装置、情報処理方法、および、コンピュータ読み取り可能な非一時的記憶媒体
US11803710B1 (en) * 2023-03-28 2023-10-31 SurgeTech, LLC Multi-modal machine learning architectures integrating language models and computer vision systems

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018066351A1 (ja) * 2016-10-06 2018-04-12 株式会社アドバンスド・データ・コントロールズ シミュレーションシステム、シミュレーションプログラム及びシミュレーション方法
EP4254349A3 (en) * 2018-07-02 2023-12-06 MasterCard International Incorporated Methods for generating a dataset of corresponding images for machine vision learning
US11995800B2 (en) * 2018-08-07 2024-05-28 Meta Platforms, Inc. Artificial intelligence techniques for image enhancement
JP7191588B2 (ja) * 2018-08-22 2022-12-19 キヤノン株式会社 画像処理方法、画像処理装置、撮像装置、レンズ装置、プログラム、および、記憶媒体
JP7016835B2 (ja) * 2019-06-06 2022-02-07 キヤノン株式会社 画像処理方法、画像処理装置、画像処理システム、学習済みウエイトの製造方法、および、プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116797494A (zh) * 2023-08-17 2023-09-22 中南大学湘雅医院 一种基于图像处理的产科手术监测方法、系统及相关设备
CN116797494B (zh) * 2023-08-17 2023-11-21 中南大学湘雅医院 一种基于图像处理的产科手术监测方法、系统及相关设备

Also Published As

Publication number Publication date
EP4116938A4 (en) 2023-08-09
TW202143120A (zh) 2021-11-16
WO2021177324A1 (ja) 2021-09-10
EP4116938A1 (en) 2023-01-11
US20230078763A1 (en) 2023-03-16
JP2023056056A (ja) 2023-04-19

Similar Documents

Publication Publication Date Title
US20230078763A1 (en) Image generation device, image generation method, recording medium generation method, learning model generation device, learning model generation method, learning model, data processing device, data processing method, inference method, electronic device, generation method, program and non-temporary computer readable medium
WO2022042049A1 (zh) 图像融合方法、图像融合模型的训练方法和装置
CN110428366B (zh) 图像处理方法和装置、电子设备、计算机可读存储介质
US11132771B2 (en) Bright spot removal using a neural network
CN110248096B (zh) 对焦方法和装置、电子设备、计算机可读存储介质
WO2022165809A1 (zh) 一种训练深度学习模型的方法和装置
KR101699919B1 (ko) 다중 노출 퓨전 기반에서 고스트 흐림을 제거한 hdr 영상 생성 장치 및 방법
US20220222776A1 (en) Multi-Stage Multi-Reference Bootstrapping for Video Super-Resolution
CN116018616A (zh) 保持帧中的目标对象的固定大小
WO2020152521A1 (en) Systems and methods for transforming raw sensor data captured in low-light conditions to well-exposed images using neural network architectures
US11687773B2 (en) Learning method and recording medium
JP2024504027A (ja) ポーズ推定方法及び関連する装置
US9299011B2 (en) Signal processing apparatus, signal processing method, output apparatus, output method, and program for learning and restoring signals with sparse coefficients
CN113052056B (zh) 一种视频处理的方法以及装置
US20210319234A1 (en) Systems and methods for video surveillance
JPWO2014103731A1 (ja) 画像処理装置および方法、並びにプログラム
JP7543080B2 (ja) 学習済みモデル及びデータ処理装置
Li et al. Multiframe-based high dynamic range monocular vision system for advanced driver assistance systems
CN115298693A (zh) 数据生成方法、学习方法和估计方法
CN114298942A (zh) 图像去模糊方法及装置、计算机可读介质和电子设备
CN114782280A (zh) 图像处理方法和装置
CN118648019A (zh) 具有全局和局部运动补偿的高级时域低光滤波
CN112203023B (zh) 一种十亿像素视频生成方法及装置、设备、介质
CN115249269A (zh) 目标检测方法、计算机程序产品、存储介质及电子设备
CN110971813B (zh) 一种对焦方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination