CN114830146A

CN114830146A - 基于数据增强的空间分析模型学习装置及方法

Info

Publication number: CN114830146A
Application number: CN202080085371.8A
Authority: CN
Inventors: 白允雅; 金秀珉
Original assignee: Hud Inc
Current assignee: Hud Inc
Priority date: 2020-07-23
Filing date: 2020-11-24
Publication date: 2022-07-29
Also published as: WO2022019389A1; KR20220012784A; JP2023508639A; EP4040347A4; KR102430742B1; JP7362924B2; EP4040347A1; US20220358752A1; KR102208685B9; KR102208685B1

Abstract

本发明的一个实施例的基于数据增强的空间分析模型学习装置包括一个以上的处理器，处理器执行的动作可包括：获取多个空间图像并标注用于表征空间信息的类别，或者获取被标注类别的多个空间图像生成学习数据的操作、生成对第一空间图像包括的像素信息的一部分或全部进行了变更的第二空间图像增强学习数据的操作、将标注到第一空间图像的类别标注到第二空间图像的操作、以及向基于图像分类算法设计的模型输入增强的学习数据，使得学习用于导出空间图像与标注的类别之间的相关关系的模型的加权值，生成判别空间图像的类别的模型的操作。

Description

基于数据增强的空间分析模型学习装置及方法

技术领域

本发明涉及基于数据增强的空间分析模型学习装置及方法。

背景技术

根据韩国互联网振兴院(KISA)的数据，2019年统计的韩国在线购物市场规模为约133万亿韩元，与2018年的111万亿韩元相比增长了约20％。随着网购市场增速的大幅提升，在网购平台上注册的店铺和商品数量快速增加，消费者通过网购而非线下购买商品的比例大幅上升。

另外，线下购物方式是消费者选择商场，用眼睛确认商场内的商品购买心仪商品的一种方式，而网购方式是消费者通过想要的商品的关键字搜索并购买商品的方式，随着商品销售平台的变化，消费者查找商品的方式也在发生变化。

因此，在网购中，良好地设置与商品相关的关键字使消费者的流量能够流向商品页面变得非常重要。但是，仅韩国前10位网购商城中上传的商品数量就已超过4亿件的情况下，很难为每件商品一一设置关键字，因此网购商城需要仅凭商品图像文件即可设置商品关键字的功能的解决方案。

在此，构成商品图像的要素可以大致分为空间、物体、氛围、色彩。由于消费者同样在搜索商品时将使用商品的空间的用途、商品本身、空间的氛围、商品色彩视为重要因素，因此组合作为构成商品的图像的要素的空间、物体、氛围、色彩中任意一个关键字进行搜索。

如上，在需要能够从商品图像中自动提取关于空间、物体、氛围、色彩的关键字的解决方案的情况下，可以引入的代表性技术有利用人工智能的图像分类算法。另外，为了从商品图像中准确地分类出空间、物体、氛围、色彩，有很多需要考虑的因素，如数据质量、数据数量、标注方法、学习难易程度等。因此，需要一种能够生成各种学习数据使得容易学习人工智能模型且能够生成具有准确的性能的模型的技术。

发明内容

技术问题

本发明的实施例要解决的技术问题是提供一种生成能够从图像自动分类该图像所表示的空间的类别的模型的技术。

在此，作为本发明的实施例使用的技术的图像分类人工智能算法可随着用于学习的学习数据的量和质量导致模型的性能产生很大差异。尤其，人工智能模型进行学习的情况下，为了仅使用有限的学习数据创建具有优异性能的模型，重要的是通过包括模型将实际被使用的各种环境或各种状况的变量的学习数据学习模型。本发明提供一种生成对空间图像进行分类的模型时，生成包括模型将实际被使用的各种环境或状况的变量的学习数据的数据增强技术。

但本发明的实施例要实现的技术目的不限于以上技术目的，可在本领域普通技术人员显而易见的范围内从以下要说明的内容导出各种技术目的。

技术方案

本发明的一个实施例的基于数据增强的空间分析模型学习装置包括存储使得执行预定的操作的指令的一个以上的存储器及可操作地连接于所述一个以上的存储器且被设置成运行所述指令的一个以上的处理器，所述处理器执行的操作可包括：获取多个空间图像并标注用于表征对应于所述多个空间图像中每个空间图像的空间信息的类别或者获取被标注所述类别的多个空间图像以生成学习数据的操作；生成对所述多个空间图像中第一空间图像包括的像素信息的一部分或全部进行了变更的第二空间图像增强所述学习数据的操作；将标注到所述第一空间图像的类别标注到所述第二空间图像的操作；以及向基于预定的图像分类算法设计的模型输入增强的所述学习数据，使得学习用于导出所述学习数据中包含的空间图像与对每个所述空间图像标注的类别之间的相关关系的所述模型的加权值，生成根据所述相关关系判别空间图像的类别的模型的操作。

并且，生成所述第二空间图像的操作可包括：对构成所述第一空间图像中包含的像素信息的RGB信息的(x，y，z)元素值，变更使得具有比预定的基准值更大的值的元素值具有更大的值，变更使得具有比所述基准值小的值的元素值具有更小的元素值，以此生成所述第二空间图像的操作。

并且，生成所述第二空间图像的操作可包括根据以下数学式1从所述第一空间图像生成所述第二空间图像的操作，

[数学式1]

dst(I)＝round(max(0，min(α*src(I)-β，255)))

(src(I)：像素信息的变更前元素值(x，y，z)，α：常数，β：常数，dst(I)：像素信息的变更后元素值(x′，y′，z′))。

并且，生成所述第二空间图像的操作可包括根据以下数学式2从所述第一空间图像生成所述第二空间图像的操作，

[数学式2]

Y＝0.1667*R+0.5*G+0.3334*B

(R：像素信息的RGB信息(x，y，z)中x，G：像素信息的RGB信息(x，y，z)中y，B：像素信息的RGB信息(x，y，z)中z，Y：像素信息的变更后元素值(x′，y′，z′))。

并且，生成所述第二空间图像的操作可包括根据以下数学式3及数学式4从所述第一空间图像生成所述第二空间图像的操作，

[数学式3]

dst(I)＝round(max(0，min(α*src(I)-β，255)))

(src(I)：像素信息的变更前元素值(x，y，z)，α：常数，β：常数，dst(I)：像素信息的变更后元素值(x′，y′，z′))，

[数学式4]

Y＝0.1667*R+0.5*G+0.3334*B

(R：所述dst(I)的(x′，y′，z′)中x′，G：所述dst(I)的(x′，y′，z′)中y′，B：所述dst(I)的(x′，y′，z′)中z′，Y：像素信息的变更后元素值(x″，y″，z″))。

并且，生成所述第二空间图像的操作可包括向所述第一空间图像中包含的像素信息的一部分添加噪声信息生成所述第二空间图像的操作。

并且，生成所述第二空间图像的操作可包括根据以下所述数学式5向所述第一空间图像的像素信息添加噪声信息生成所述第二空间图像的操作，

[数学式5]

dst(I)＝round(max(0，min(src(I)±N，255)))

(src(I)：像素信息的变更前元素值(x，y，z)，N：随机数，dst(I)：像素信息的变更后元素值(x′，y′，z′))。

并且，生成所述第二空间图像的操作可包括从作为正中央包括所述第一空间图像所包括的像素中第一像素的NxN(N为3以上的自然数)矩阵大小中包含的多个像素的每个R、G、B的元素值中最大元素值的(R_max，G_max，B_max)减去作为所述多个像素的每个R、G、B的元素平均值的(R_AVG，G_AVG，B_AVG)的值(Rr_max-R_AVG，G_max-G_AVG，B_max-B_AVG)，所述(R_max-R_AVG，G_max-G_AVG，，B_max-B_AVG)的元素值中任意一个小于预设值的情况下，进行对所述第一像素模糊处理的运算以生成所述第二空间图像的操作。

并且，生成所述第二空间图像的操作可包括生成相当于所述第一空间图像中包括的所有像素的个数的遵循平均0及标准偏差100的标准高斯正态分布的随机数信息，对所述所有像素中每个像素分别加上各所述随机数信息生成被插入噪声的所述第二空间图像的操作。

并且，生成所述模型的操作可包括：设定成向根据用于图像识别的深度残差学习ResNet(Deep Residual Learning for Image Recognition)算法设计的神经网络的输入层输入所述学习数据中包含的空间图像，设定成向输出层输入对每个所述空间图像标注的类别，使得学习导出所述学习数据中包含的空间图像与对每个所述空间图像标注的类别之间的相关关系的神经网络的加权值的操作。

并且，基于所述ResNet算法设计的神经网络的超参数中网络层数具有[18，34，50，101，152，200]中的一个值，类别个数包括被分类为客厅/卧室/厨房/浴室的四种类别，迷你批大小具有[32，64，128，256]中的一个值，学习次数具有10至15中的一个值，学习率被设为0.005或0.01，损失函数可被设为SGD或Adam。

本发明的一个实施例的基于数据增强的空间分析模型学习方法可包括：获取多个空间图像并标注用于表征对应于所述多个空间图像中每个空间图像的空间信息的类别或者获取被标注所述类别的多个空间图像以生成学习数据的步骤；生成对所述多个空间图像中第一空间图像包括的像素信息的一部分或全部进行了变更的第二空间图像增强所述学习数据的步骤；将标注到所述第一空间图像的类别标注到所述第二空间图像的步骤；以及向基于预定的图像分类算法设计的模型输入增强的所述学习数据，使得学习用于导出所述学习数据中包含的空间图像与对每个所述空间图像标注的类别之间的相关关系的所述模型的加权值，生成根据所述相关关系判别空间图像的类别的模型的步骤。

技术效果

根据本发明的实施例，能够提供一种图像分类模型，为了使得能够学习即使拍摄同一空间也可能会因为用于拍摄的摄像机的特性、拍摄时间、拍摄者的习惯等实际各种环境或状况而出现拍摄了同一空间但生成的图像却可能不同的变量，利用通过变形原始学习数据确保各种学习数据的数据增强技术增加学习数据的数量且确保高质量的学习数据，自动实现对增强的学习数据的标注，从而容易学习且具有更高的性能。

使用这种图像分类模型，网购商城可以仅凭商品图像使用与商品相关的关键字以有效地将消费者的流量引入商品页面，而且消费者可以利用自己想要的图像查找对自己有用的关键字进行搜索。

此外，可提供通过本说明书直接或间接了解到的各种效果。

附图说明

图1为示出利用本发明的一个实施例的基于数据增强的空间分析模型学习装置生成的模型对图像所表示的空间的类别进行分类的功能的示意图；

图2为本发明的一个实施例的基于数据增强的空间分析模型学习装置的功能框图；

图3为根据变更第一空间图像中包含的像素信息以增强数据的实施例生成的第二空间图像的例示图；

图4A为根据在第一空间图像中包含的像素信息应用灰度以增强数据的实施例生成的第二空间图像的例示图；

图4B为根据在第一空间图像中包含的像素信息的一部分添加噪声来增强数据的实施例生成的第二空间图像的例示图；

图5为用于说明区分第一空间图像中包含的物体的轮廓区域且对非轮廓区域应用模糊生成第二空间图像的方法的例示图；

图6为根据在第一空间图像添加根据高斯正态分布的噪声信息来增强数据的实施例生成的第二空间图像的例示图；

图7为根据本发明的一个实施例的基于数据增强的空间分析模型学习方法的流程图。

具体实施方式

参见附图及结合附图具体说明的下述实施例可明确本发明的优点、特征及其实现方法。但是本发明并不局限于以下公开的实施例，而是可以以不同的多种方式实现，本实施例只是使得本发明公开更加完整，向本发明所属技术领域的普通技术人员完整地传达发明的范畴，本发明的范围由权利要求定义。

在说明本发明的实施例时，对公知功能或构成的具体说明除实际上需要的情况以外予以省略。并且，下述术语是考虑到在本发明的实施例中的功能而定义的术语，可能因使用者、运用者的意图或惯例等而异。因此其定义应以本说明书整体内容为基础。

附图所示且以下说明的功能块只是可能的实现例而已。在其他实现中，在不超出详细说明的思想及范围的范围内可使用其他功能块。并且，虽然本发明的一个以上的功能块被表示成独立块，但本发明的功能块中一个以上可以是执行同一功能的多种硬件及软件构成的组合。

此外，包括某些构成要素这类表述是开放型的表述，只是单纯指代存在该些构成要素，不得理解为排除额外的构成要素。

并且，当提到某个构成要素连接或接入到其他构成要素的情况下，虽然可能直接连接或接入到该其他构成要素，但应理解中间还可能存在其他构成要素。

并且，‘第一’、‘第二’等表述只是用于区分多个构成，不限定构成之间的顺序或其他特征。

以下参见附图对本发明的实施例进行说明。

图1为示出利用本发明的一个实施例的基于数据增强的空间分析模型学习装置100生成的人工智能模型对图像所表示的空间的类别进行分类的功能的示意图。

参见图1，本发明的一个实施例的基于数据增强的空间分析模型学习装置100可提供图1所示的界面的上端菜单的空间分类、物体检测、风格分析、商品推荐功能中空间分类功能。基于数据增强的空间分析模型学习装置100生成用于图1的界面的人工智能模型。人工智能模型能够通过分析输入到图1的左下端的空间图像判别类别(例如，客厅：99％)，也就是空间图像具有什么名称、用途或特性。为了实现这种实施例，结合图2对基于数据增强的空间分析模型学习装置100的构成进行说明。

图2为本发明的一个实施例的基于数据增强的空间分析模型学习装置100的功能框图。

参见图2，一个实施例的基于数据增强的空间分析模型学习装置100可包括存储器110、处理器120、输入接口130、显示部140及通信接口150。

存储器110可包括学习数据DB 111、神经网络模型113及指令DB 115。

学习数据DB 111可包括拍摄室内空间、外部空间等特定空间的空间图像文件。空间图像可通过外部服务器、外部DB(数据库)获得或获得网络上的空间图像。在此，空间图像可以由多个像素(例如，由横向M个、竖向N个构成为矩阵形态的M*N个像素)构成，各像素可包括由R(红)、G(绿)、B(蓝)表示固有颜色的RGB元素值(x，y，z)构成的像素信息。

神经网络模型113可以是基于图像分类人工智能算法学习的人工智能模型，所述图像分类人工智能算法通过分析所输入的空间图像判别表征空间图像对应于以什么名称、用途、特征使用的空间的类别。人工智能模型可通过下述处理器120的操作生成并存储于存储器110。

指令DB 115可存储能够使得执行处理器120的操作的指令。例如，指令DB 115可存储能够使得执行与下述处理器120的操作对应的操作的计算机代码。

处理器120可控制基于数据增强的空间分析模型学习装置100包括的构成，即存储器110、输入接口130、显示部140及通信接口150的所有操作。处理器120可包括标注模块121、增强模块123、学习模块125及控制模块127。处理器120可通过运行存储于存储器110的指令驱动标注模块121、增强模块123、学习模块125及控制模块127，由标注模块121、增强模块123、学习模块125及控制模块127执行的操作可理解为由处理器120执行的操作。

标注模块121能够标注(映射)用于表征包含于多个空间图像中每个图像的空间信息(例如，空间的名称、空间的用途、空间的特性等)的类别以生成将用于学习人工智能模型的学习数据并存储到学习数据DB 111。标注模块121能够通过外部服务器、外部DB获得空间图像或获得网络上的空间图像。空间图像可标注有表征该图像的空间信息的类别(例如，卧室、浴室、厨房、客厅等)。

增强模块123可生成对存储于学习数据DB 111的空间图像(以下将未被增强模块变形的空间图像称为‘第一空间图像’)所包括的像素信息的一部分或全部进行变更的空间图像(以下将被增强模块变形的空间图像称为‘第二空间图像’)以增强学习数据，将第二空间图像添加到学习数据DB 111进行存储。

本发明的实施例的基于数据增强的空间分析模型学习装置100学习的模型具有对空间图像的类别进行分类的功能。在此，对空间图像而言，即使拍摄同一空间也可能会因为用于拍摄的摄像机的特性、拍摄时间、拍摄者的习惯等生成实际空间图像的各种环境或状况从而拍摄了同一空间但由于各种变量而图像文件中包含的信息却不同。因此，为了提高人工智能模型的性能，重要的是用于学习的数据的量及品质。尤其，为了使得能够学习可能由于用于拍摄的摄像机的特性、拍摄时间、拍摄者的习惯而可能发生的变量，增强模块123可通过反映对于一个空间图像实际可能发生的变量的图3至图6的数据增强算法增加学习数据的数量。在此，标注模块121可通过对新生成并进行标注之前的第二空间图像，将对第一空间图像标注的类别标注到第二空间图像以自动实现对增强的学习数据的标注过程，缩短标注时间。

学习模块125能够通过向基于图像分类算法设计的模型输入增强的学习数据，学习用于导出学习数据中包含的空间图像与对各空间图像标注的类别之间的相关关系的加权值，生成根据加权值的相关关系判别新输入的空间图像的类别的人工智能模型。例如，学习模块125可设定成向根据图像分类算法中ResNet(Deep Residual Learning for ImageRecognition，用于图像识别的深度残差学习)算法设计的神经网络的输入层输入学习数据中包含的空间图像，设定成向输出层输入对每个空间图像标注的类别，学习神经网络的加权值以便导出学习数据中包含的空间图像与对每个空间图像标注的类别之间的相关关系，以此生成神经网络。

控制模块127可向完成学习的人工智能模型输入空间图像，导出人工智能模型对输入的空间图像判别的类别作为该空间图像的关键字。因此，控制模块127能够在网购商城服务器的商品DB存储关键字以便能够在包括空间图像的商品页面使用该关键字信息。

输入接口130能够接收用户的输入。例如，标注学习数据的类别的情况下可接收用户的输入。

显示部140可包括包含显示板在内的输出图像的硬件构成。

通信接口150使得能够与外部装置(例如，网购商城服务器、用户终端等)进行通信收发信息。为此，通信接口150可包括无线通信模块或有线通信模块。

以下结合图3至图6说明构成基于数据增强的空间分析模型学习装置100的各构成要素所实现的各种实施例。

图3为根据通过变更第一空间图像中包含的像素信息以增强数据的实施例生成的第二空间图像的例示图。

增强模块123可变形成第一空间图像的像素中亮的部分更亮且暗的部分更暗以增大对比度，或变形成第一空间图像的像素中亮的部分没那么亮且使暗的部分没那么暗以减小对比度，以此生成还能学习到可能根据不同的摄像机的性能或机型而对一个空间生成不同的图像的变量的第二空间图像。

为此，增强模块123可对构成第一空间图像中包含的像素信息的RGB信息的(x，y，z)元素值，变更使得具有比预定的基准值更大的值的元素值具有更大的值，变更使得具有比基准值小的值的元素值具有更小的元素值，以此生成第二空间图像。

例如，增强模块123可对第一空间图像的所有像素具有的像素信息采用以下数学式1生成像素信息发生变更的第二空间图像。

[数学式1]

dst(I)＝round(max(0，min(α*src(I)-β，255)))

(src(I)：像素信息的变更前元素值(x，y，z)，

α：常数，

β：常数，

dst(I)：像素信息的变更后元素值(x′，y′，z′))

根据数学式1，α被设为大于1的值的情况下，可使第一空间图像的像素中亮的部分更亮且使暗的部分更暗以增大对比度，α被设为大于0小于1的值的情况下，可以使第一空间图像的像素中亮的部分没那么亮且暗的部分没那么暗以减小对比度。

并且，R、G、B的元素值通常具有0到255之间的值，因此可以将β设成通过α输出的元素值不远大于255，可使用min函数设成最大值不会大于255。

并且，R、G、B的元素值通常具有0到255之间的值，因此可使用max函数使得通过β输出的元素值不小于0使用max函数。

并且，α被设为具有小数点的值的情况下，可使用round函数使得变更后的像素信息的元素值为整数。

参见图3A，左侧为第一空间图像，右侧是设置α：2.5，β：330并采用数学式1的情况下的第二空间图像。能够确认图3A的右侧第二空间图像相比于第一空间图像，生成了亮的部分变得更亮且暗的部分变得更暗的对比度增大的新的学习数据。

参见图3B，左侧为第一空间图像，右侧是设置α：0.8，β：50并采用数学式1的情况下的第二空间图像。能够确认生成了图3B的右侧第二空间图像相比于第一空间图像，生成了亮的部分变得变得没那么亮且暗的部分变得没那么暗以减小对比度的新的学习数据。

参见图3C，左侧为统一成一个色(R、G、B)＝(183，191，194)的第一空间图像，右侧为设置α：2.5，β：330采用数学式1的情况下的第二空间图像。通过图3C可确认一个像素信息根据数学式1变化的程度。

图4A为根据在第一空间图像中包含的像素信息应用灰度来增强数据的实施例生成的第二空间图像的例示图。

对空间图像的类别的判别受物体的配置、物体的图案(pattern)的影响较大，因此增强模块123可生成反映变量以便将颜色变得单调后更好地学习物体的配置与物体的图案的学习数据。

为此，增强模块123可以如图4A的左侧图像所示，对第一空间图像的所有像素所具有的像素信息，利用以下数学式2生成像素信息具有单调颜色且呈现配置及图案的第二空间图像。

[数学式2]

Y＝0.1667*R+0.5*G+0.3334*B

(R：像素信息的RGB信息(x，y，z)中x，G：像素信息的RGB信息(x，y，z)中y，B：像素信息的RGB信息(x，y，z)中z，Y：像素信息的变更后元素值(x′，y′，z′))

并且，增强模块123可以如图4A的右侧图像所示，对通过以下数学式3增大第一空间图像的对比度后导出的元素值采用以下数学式4生成包含于第一空间图像的物体的配置及图案极其明显的第二空间图像。

[数学式3]

dst(I)＝round(max(0，min(α*src(I)-β，255)))

(src(I)：像素信息的变更前元素值(x，y，z)，α：常数，β：常数，dst(I)：像素信息的变更后元素值(x′，y′，z′))

[数学式4]

Y＝0.1667*R+0.5*G+0.3334*B

(R：在数学式3求出的dst(I)的(x′，y′，z′)中x′，G：在数学式3求出的dst(I)(x′，y′，z′)中y′，B：在数学式3求出的dst(I)的(x′，y′，z′)中z′，Y：像素信息的变更后元素值(x″，y″，z″)

图4B为根据在第一空间图像中包含的像素信息的一部分添加噪声以增强数据的实施例生成的第二空间图像的例示图。

增强模块123可生成用于学习当摄像机放大拍摄的情况下图像中产生噪声的情况的学习数据。为此，增强模块123可在第一空间图像中包含的像素信息的一部分添加噪声信息生成第二空间图像。例如，增强模块123可通过随机数发生算法生成任意的坐标信息，选择第一空间图像中包含的像素中部分坐标，对所选择的坐标的像素具有的元素值利用以下数学式5，对像素信息赋予利用随机数发生算法算出的随机数生成被添加了噪声信息的第二空间图像。

[数学式5]

dst(I)＝round(max(0，min(src(I)±N，255)))

(src(I)：像素信息的变更前元素值(x，y，z)，

N：随机数，dst(I)：像素信息的变更后元素值(x′，y′，z′))

参见图4B可确认左侧为第一空间图像，右侧为采用数学式5添加了噪声的情况下的第二空间图像。

图5为用于说明区分第一空间图像中包含的物体的轮廓区域且对非轮廓区域应用模糊生成第二空间图像的方法的例示图。

增强模块123可通过以下实施例生成物体的轮廓揉碎般的第二空间图像以便学习摄像机对焦不佳的状态下拍摄到的图像。

图5A是为了便于说明而假设包括横向五个x竖向五个矩阵形态的25个像素的第一空间图像并区分各像素区域的例示。在此，各像素具有R、G、B的元素值，但以R(Red)的元素值为基准对实施例进行说明。图5A的各像素区域所示的数字表示R的元素值。

图5A的情况下，对所有像素执行下述方式的运算，但为了便于说明而以正中央的像素为基准对运算进行说明。图5A的情况下，增强模块123能够计算以被执行运算的像素为中央的NxN区域(在图5A中假设N为3)中包含的像素中R元素值的最大值(R_max＝130)与R元素值的平均值(R_avg＝120)之差(R_max-R_avg＝10)，区分出导出的值小于预设值n的情况下的像素(判别为存在于物体的内侧区域的像素)与大于预设值n的情况下的像素(判别为存在于物体的轮廓区域的像素)，如图5B的右侧判别包含于第一空间图像的物体的轮廓。其中，增强模块123可以只对除轮廓区域以外的区域的像素应用高斯模糊算法生成如图5C的右侧图像所示的图像。另外，若以被执行运算的像素为基准的NxN区域有不存在像素的区域(例如，图像的轮廓侧)，则可以省略对该像素进行上述运算，进行模糊处理。

如上，增强模块123能够对包含于第一空间图像的所有像素中每个像素进行上述运算。对被进行运算的像素而言，将中央包含该像素的NxN(N为3以上的奇数)矩阵大小中包含的多个像素选为核心区域，求出从作为包含于核心区域的多个像素的每个R、G、B的元素值中最大元素值的(R_max，G_max，B_max)中减去作为包含于核心区域的多个像素的每个R、G、B的元素平均值的(R_avg，G_avg，B_avg)的值(R_max-R_avg，G_max-G_avg，B_max-B_avg)，(R_max-R_avg，G_max-G_avg，B_max-B_avg)中至少任意一个元素值小于预设值n的情况下可对该像素采用高斯模糊算法生成第二空间图像。

对包含于第一空间图像的所有像素执行如上运算的情况下，只有颜色差异大的轮廓区域的像素仍具有其像素信息，没有颜色差异的区域的像素被模糊处理，因此能够生成可学习摄像机对焦不佳的状态下拍摄的图像的第二空间图像。在此，模糊处理可采用高斯模糊算法，但不限于此，可采用各种模糊过滤器。

参见图5B，左侧为第一空间图像，右侧为通过图5说明的实施例中区分为大于预设值n的情况和小于n的情况的像素生成的图像。图5B的右侧图像也是极其明显地显示物体的轮廓，因此可以出于明确识别物体的配置与图案的目的添加到学习数据使用。

参见图5C，左侧为第一空间图像，右侧为上述图5的实施例中应用N＝7，n＝20的实施例，能够确认轮廓以外的区域被模糊处理的第二空间图像。

并且，还可以将通过图5说明的实施例中对大于预设值n的情况的像素进行模糊处理产生与上述实施例相反的效果的第二空间图像添加到学习数据DB 111。

图6为根据在第一空间图像添加根据高斯正态分布的噪声信息以增强数据的实施例生成的第二空间图像的例示图。

增强模块123能够生成用于学习焦点不在图像的特定部分的情况的学习数据。为此，增强模块123能够生成相当于第一空间图像中包括的所有像素的个数的遵循平均0及标准偏差100的标准高斯正态分布的随机数信息，对所有像素中每个像素加上随机数信息生成被插入噪声信息的第二空间图像。

对通过图3至图6生成的第二空间数据，标注模块121能够将标注到作为变形前的原件的第一空间图像的类别同样地标注到变形后的第二空间图像，以此自动进行对增强的学习数据的标注过程以缩短标注时间。

之后，学习模块125能够向基于图像分类算法设计的模型输入原始学习数据(第一空间图像)与通过图3至图6的实施例增强的学习数据(第二空间图像)，学习用于导出包含于学习数据的空间图像与标注到每个空间图像的类别之间的相关关系的模型的加权值，生成根据相关关系判别空间图像的类别的模型。

这种图像分类算法包括定义人工智能领域处理的各种问题并解决这些问题的机器学习算法。本发明的实施例可通过根据ResNet、LeNet-5、AlexNet、VGG-F、VGG-M、VGG-S、VGG-16、VGG-19、GoogLeNet(inception v1)、SENet的算法设计的人工智能模型进行学习。

人工智能模型可以指通过突触(synapse)的结合形成网络的节点构成的具有解决问题的能力的整体模型。人工智能模型可以通过更新作为构成模型的层之间的加权值的模型参数的学习过程、生成输出值的激活函数(Activation Function)进行定义。

模型参数是指通过学习确定的参数，包括层连接的加权值与神经元的偏差等。并且，超参数是指机器学习算法中学习前应被设置的参数，包括网络层数(num_layer)、学习数据个数(num_training_samples)、类别个数(num_classes)、学习率(Learning Rate)、学习次数(epochs)、迷你批大小(mini_batch_size)、损失函数(optimizer)等。

根据本发明的一个实施例的人工智能模型的超参数可具有如下设定值。例如，图像的大小大的学习数据的情况下，网络层数可从[18，34，50，101，152，200]之间选择。在此，关于网络层数，考虑到学习时间，可以以初始值18学习，学习完预定个数的学习数据后变更成34，从而能够提高准确度。学习数据个数为从所有图像数据减去评价数据的个数的值，共79,756张中63,806张可用作学习数据，其余16,625张可用作评价数据。类别个数可包括被分类为客厅/卧室/厨房/浴室的四种类别。关于迷你批大小，其大小使得收敛速度及最终损失值不同，因此可分别尝试[32，64，128，256]等大小以选择适当的值，优选地，可设定大小128或256。可以将学习次数设为10至15中任意一个值。可以将学习率设为0.005或0.01。损失函数(目的函数)可设为作为默认值的SGD，或设为适合图像分类的Adam。但上述设定值只是一个例示而已，实施例不受限于上述数值。

可以将人工智能模型的学习目的看作确定用于最小化损失函数的模型参数。损失函数可用作用于在人工智能模型的学习过程中确定最佳模型参数的指标。

图7为根据本发明的一个实施例的基于数据增强的空间分析模型学习方法的流程图。图7的基于数据增强的空间分析模型学习方法的各步骤可以由通过图2说明的基于数据增强的空间分析模型学习装置100执行，对各步骤进行如下说明。

首先，标注模块121可获取多个空间图像并标注用于表征对应于多个空间图像中每个空间图像的空间信息的类别，或者获取被标注类别的多个空间图像生成学习数据(S710)。之后，增强模块123生成对多个空间图像中第一空间图像包括的像素信息的一部分或全部进行了变更的第二空间图像增强学习数据(S720)。之后，标注模块121将标注到第一空间图像的类别标注到第二空间图像(S730)。因此，学习模块125可向基于预定的图像分类算法设计的模型输入增强的学习数据，学习用于导出学习数据中包含的空间图像与对每个空间图像标注的类别之间的相关关系的模型的加权值，生成根据相关关系判别空间图像的类别的模型(S740)。

另外，由于已经结合图2至图6对作为上述各步骤的主体的构成要素实施该步骤的过程进行了说明，因此省略重复说明。

上述本发明的实施例可通过多种方式实现。例如，本发明的实施例可通过硬件、固件、(firmware)、软件或它们结合等实现。

通过硬件实现的情况下，本发明的实施例的方法可通过一个或多个ASICs(Application Specific Integrated Circuits，专用集成电路)、DSPs(Digital SignalProcessors，数字信号处理器)、DSPDs(Digital Signal Processing Devices，数字信号处理器件)、PLDs(Programmable Logic Devices，可编程逻辑器件)、FPGAs(FieldProgrammable Gate Arrays，现场可编程门阵列)、处理器、控制器、微控制器、微处理器等实现。

通过固件或软件实现的情况下，根据本发明的实施例的方法可以以执行以上说明的功能或操作的模块、过程或函数等方式实现。存储有软件代码等的计算机程序可存储于计算机可读存储介质或存储器单元，通过处理器驱动。存储器单元位于处理器内部或外部，可通过已经公知的各种方式与处理器收发数据。

并且，本发明所附框图的各框与流程图的各步骤的组合还可通过计算机程序指令实现。这些计算机程序指令可搭载于通用计算机、专用计算机或其他可编程数据处理设备的编码处理器，因此通过计算机或其他可编程数据处理设备的编码处理器执行的该指令生成执行在框图的各框或流程图的各步骤说明的功能的手段。这些计算机程序指令还可以存储于为了通过特定方法实现功能而能够指向计算机或其他可编程数据处理设备的计算机可用或计算机可读存储器，因此存储于该计算机可用或计算机可读存储器的指令还可生产包括执行框图的各框或流程图的各步骤中说明的功能的指令手段的制造品目。计算机程序指令还可搭载于计算机或其他可编程数据处理设备上，因此在计算机或其他可编程数据处理设备上执行一系列操作步骤生成通过计算机执行的处理，计算机或其他可编程数据处理设备执行的指令可提供用于执行框图的各框及流程图的各步骤说明的功能的步骤。

此外，各块或各步骤可以表示包括用于执行特定逻辑功能的一个或多个可运行指令的模块、段或代码的一部分。另外，需要注意的是在几种替代实施例中，在块或步骤提到的功能也可能脱离顺序发生。例如，连续示出的两个框或步骤实际上可实质性地同时执行，或者这些框或步骤时而可根据相应的功能按反向顺序执行。

如上所述，本发明所属技术领域的普通技术人员应当理解本发明在不变更其技术思想或必要特征的前提下可以以其他具体方式实施。因此应理解以上记载的实施例为全面例示而不是进行限定。本发明的范围由所附权利要求范围示出而不是详细说明，应解释权利要求范围的意思及范围和从其等价概念导出的所有变更或变形的方式也包含于本发明的范围。

Claims

1.一种基于数据增强的空间分析模型学习装置，包括存储使得执行预定的操作的指令的一个以上的存储器及可操作地连接于所述一个以上的存储器且被设置成运行所述指令的一个以上的处理器，所述处理器执行的操作包括：

获取多个空间图像并标注用于表征对应于所述多个空间图像中每个空间图像的空间信息的类别或者获取被标注所述类别的多个空间图像以生成学习数据的操作；

生成对所述多个空间图像中第一空间图像包括的像素信息的一部分或全部进行了变更的第二空间图像增强所述学习数据的操作；

将标注到所述第一空间图像的类别标注到所述第二空间图像的操作；以及

向基于预定的图像分类算法设计的模型输入增强的所述学习数据，使得学习用于导出所述学习数据中包含的空间图像与对每个所述空间图像标注的类别之间的相关关系的所述模型的加权值，生成根据所述相关关系判别空间图像的类别的模型的操作。

2.根据权利要求1所述的基于数据增强的空间分析模型学习装置，生成所述第二空间图像的操作包括：

对构成所述第一空间图像中包含的像素信息的RGB信息的(x，y，z)元素值，变更使得具有比预定的基准值更大的值的元素值具有更大的值，变更使得具有比所述基准值小的值的元素值具有更小的元素值，以此生成所述第二空间图像的操作。

3.根据权利要求2所述的基于数据增强的空间分析模型学习装置，生成所述第二空间图像的操作包括：

根据以下数学式1从所述第一空间图像生成所述第二空间图像的操作，

[数学式1]

dst(I)＝round(max(0，min(α*src(I)-β，255)))

4.根据权利要求1所述的基于数据增强的空间分析模型学习装置，生成所述第二空间图像的操作包括：

根据以下数学式2从所述第一空间图像生成所述第二空间图像的操作，

[数学式2]

Y＝0.1667*R+0.5*G+0.3334*B

5.根据权利要求1所述的基于数据增强的空间分析模型学习装置，生成所述第二空间图像的操作包括：

根据以下数学式3及数学式4从所述第一空间图像生成所述第二空间图像的操作，

[数学式3]

dst(I)＝round(max(0，min(α*src(I)-β，255)))

[数学式4]

Y＝0.1667*R+0.5*G+0.3334*B

6.根据权利要求1所述的基于数据增强的空间分析模型学习装置，生成所述第二空间图像的操作包括：

向所述第一空间图像中包含的像素信息的一部分添加噪声信息生成所述第二空间图像的操作。

7.根据权利要求6所述的基于数据增强的空间分析模型学习装置，生成所述第二空间图像的操作包括：

根据以下所述数学式5向所述第一空间图像的像素信息添加噪声信息生成所述第二空间图像的操作，

[数学式5]

dst(I)＝round(max(0，min(src(I)±N，255)))

8.根据权利要求1所述的基于数据增强的空间分析模型学习装置，生成所述第二空间图像的操作包括：

求出从作为正中央包括所述第一空间图像所包括的像素中第一像素的NxN(N为3以上的自然数)矩阵大小中包含的多个像素的每个R、G、B的元素值中最大元素值的(R_max，G_max，B_max)减去作为所述多个像素的每个R、G、B的元素平均值的(R_AVG，G_AVG，B_AVG)的值(R_max-R_AVG，G_max-G_AVG，B_max-B_AVG)，所述(R_max-R_AVG，G_max-G_AVG，B_max-B_AVG)的元素值中任意一个小于预设值的情况下，进行对所述第一像素模糊处理的运算以生成所述第二空间图像的操作。

9.根据权利要求1所述的基于数据增强的空间分析模型学习装置，生成所述第二空间图像的操作包括：

生成相当于所述第一空间图像中包括的所有像素的个数的遵循平均0及标准偏差100的标准高斯正态分布的随机数信息，对所述所有像素中每个像素分别加上各所述随机数信息生成被插入噪声的所述第二空间图像的操作。

10.根据权利要求1所述的基于数据增强的空间分析模型学习装置，生成所述模型的操作包括：

设定成向根据用于图像识别的深度残差学习ResNet(Deep Residual Lear ning forImage Recognition)算法设计的神经网络的输入层输入所述学习数据中包含的空间图像，设定成向输出层输入对每个所述空间图像标注的类别，使得学习导出所述学习数据中包含的空间图像与对每个所述空间图像标注的类别之间的相关关系的神经网络的加权值的操作。

11.根据权利要求10所述的基于数据增强的样式分析模型学习装置，基于所述ResNet算法设计的神经网络的超参数中网络层数具有[18，34，50，101，152，200]中的一个值，类别个数包括被分类为客厅/卧室/厨房/浴室的四种类别，迷你批大小具有[32，64，128，256]中的一个值，学习次数具有10至15中的一个值，学习率被设为0.005或0.01，损失函数被设为SGD或Adam。

12.一种包括权利要求1至11中任一项所述的装置生成的基于数据增强的空间分析模型的装置。

13.一种基于数据增强的空间分析模型学习方法，由基于数据增强的空间分析模型学习装置执行，所述方法包括：

获取多个空间图像并标注用于表征对应于所述多个空间图像中每个空间图像的空间信息的类别或者获取被标注所述类别的多个空间图像以生成学习数据的步骤；

生成对所述多个空间图像中第一空间图像包括的像素信息的一部分或全部进行了变更的第二空间图像增强所述学习数据的步骤；

将标注到所述第一空间图像的类别标注到所述第二空间图像的步骤；以及

向基于预定的图像分类算法设计的模型输入增强的所述学习数据，使得学习用于导出所述学习数据中包含的空间图像与对每个所述空间图像标注的类别之间的相关关系的所述模型的加权值，生成根据所述相关关系判别空间图像的类别的模型的步骤。

14.一种存储于计算机可读存储介质的计算机程序，用于使处理器执行权利要求13所述的方法。