CN109740243B

CN109740243B - 一种基于分件强化学习技术的家具布局方法及系统

Info

Publication number: CN109740243B
Application number: CN201811635668.8A
Authority: CN
Inventors: 陈旋; 付朝阳; 王科涛; 吴天然; 逯懿行; 邵瑞枫
Original assignee: Jiangsu Aijia Household Products Co Ltd
Current assignee: Jiangsu Aijia Household Products Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2022-07-08
Anticipated expiration: 2038-12-29
Also published as: CN109740243A

Abstract

本发明公开一种基于分件强化学习技术的家具布局方法，包括家具布局环境搭建步骤、家具布局强化学习训练步骤和利用强化学习生成家具布局的步骤。首先对于特定的家具布局方案利用人工技术进行评价打分，并对这些数据进行特征提取处理；其次利用神经网络算法进行回归学习，将训练得到的神经网络用于模拟设计师打分；然后对于特定的状态空间和行为动作空间利用强化学习技术，根据环境的反馈作为指导进行学习；最后在实际使用中利用训练完毕的强化学习模型对特定的家具进行布局。本发明的方法实施过程中适用性强，实现了家具布局的自动化，减少了设计成本，极高的提升设计效率。

Description

一种基于分件强化学习技术的家具布局方法及系统

技术领域

本发明涉及强化学习技术，特别涉及一种基于分件强化学习技术的家具布局方法。

背景技术

目前，强化学习技术已经在高维控制问题（诸如机器人等）、工业自动化以及金融等方面得到了广泛应用。而在家居装饰行业中，家具布局的效果严重依赖于设计师。设计师大致分为两类，一类为普通设计师，另一类为专业设计师，为了使客户能够满意，普通设计师往往需要大量的时间设计图纸，占用了大量的设计师资源，而专业设计师设计图纸往往需要高昂的价格，不具备普遍适用性。

而随着房地产行业的深入发展，家居装饰行业也得到了极大的发展，对家居的装饰需求也越来越大，供不应求。

发明内容

目前的家具布局往往依赖于设计师，占用大量资源或者不具备普适性，针对上述问题，本发明提供一种基于分件强化学习技术的家具布局方法，具体来说，首先对于特定的家具布局方案利用人工技术进行评价打分，并对这些数据进行特征提取处理，其次采用神经网络进行回归学习，然后对于特定的状态空间和行为动作空间利用强化学习技术，根据环境的反馈进行学习，最后在实际使用中利用训练完毕的强化学习模型对特定的家具进行布局。

一种基于分件强化学习技术的家具布局方法，包括家具布局环境搭建步骤、家具布局强化训练步骤和家具布局强化学习生成步骤；

其中，家具布局环境搭建步骤包括：

步骤100，获得大量装修布局方案的样本数据；

步骤101，获得对样本数据的装修布局方案的评价打分；

步骤102，将样本数据的装修布局方案转化为特征向量之后作为输入值，将样本数据的评价打分作为输出值；

步骤103，按照装修布局方案当中的家具的种类，分别针对各个家具类别构建利用神经网络模型，对输入值和输出值进行人工智能算法的回归训练，得到多个环境反馈模型M₁、M₂、……、M_n；

其中，家具布局强化训练步骤包括：

步骤200，获得大量未经布局的房间信息数据；

步骤201，获得房间内需要布局的家具信息，并对家具进行分类；

步骤202，构建强化学习Actor-Critic算法模型，模型中将步骤200中获得的房间信息和步骤201中获得的家具信息作为强化学习算法中的状态空间，将家具的空间位置参数作为强化学习中的动作空间；将房间信息和家具信息代入环境反馈模型而得到的输出值作为强化学习的动作值；

步骤203，对强化学习模型进行训练，根据网络参数更新函数，直至训练完成，得到家具布局模型N；

其中，家具布局强化学习生成步骤包括：

步骤300，获得待布局的房间信息；

步骤301，获得需要布局的家具信息；

步骤302，合并房间和家具信息，作为输入特征，输入家居布局的模型N中；

步骤303，将家具布局模型N的输出特征与房间信息结合，即为房间家具布局方案。

在一个实施方式中，样本数据包括房间信息和家具信息。

在一个实施方式中，房间信息包括房间的轮廓坐标和房间的用途。

在一个实施方式中，家具信息包括种类、个数、尺寸、旋转角度、缩放比例和位置坐标等。

在一个实施方式中，评价打分中的评分原则包括：房间功能性家具是否缺失、家具摆放是否合理、房间内饰品等是否摆放合理等。

在一个实施方式中，在强化学习模型的训练中，按各类家具对布局效果的影响重要性由大至小依次将各类家具信息输入至模型中进行训练；上一类家具信息输入并对模型训练完成后，将上一类家具布局固定，再将下一类家具信息输入至模型中继续训练，直至全部类别的家具输入并训练完成。

在一个实施方式中，在强化学习模型的训练中，家具的空间位置参数是指离散化后的空间坐标、旋转角度和缩放比例。

在一个实施方式中，强化学习过程中参数更新公式为：

其中θ是神经网络参数，α是学习率，π(a∣s)是基于状态s选择动作a的概率，CrossEntropy是交叉熵。

在一个实施方式中，在家具布局强化学习生成步骤中，按各类家具对布局效果的影响重要性由大至小依次将各类家具信息输入至模型中进行布局优化；上一类家具信息输入并得到优化布局结果后，将上一类家具布局固定，再将下一类家具信息输入至模型中继续布局优化，直至全部类别的家具输入并完成最终的布局优化结果。

一种基于分件强化学习技术的家具布局系统，包括家具布局环境搭建模块、家具布局强化训练模块、家具布局强化学习生成模块；

其中，家具布局环境搭建模块包括：

样本数据获取模块，用于获得大量装修布局方案的样本数据；

评价打分数据获取模块，用于获得对样本数据的装修布局方案的评价打分；

家具分类模块，用于对布局方案当中的家具分类；

神经网络模块，包括多个环境反馈模型M₁、M₂、……、M_n，分别用于对每种家具的布局和评分之间关系建立神经网络模型，所述的神经网络模型采用样本数据的装修布局方案转化为特征向量之后作为输入值，将样本数据的评价打分作为输出值；

其中，家具布局强化训练模块包括：

房间信息数据获取模块，用于获得大量未经布局的房间信息数据；

家具信息获取模块，用于获得房间内需要布局的家具信息，并对家具进行分类；

强化学习Actor-Critic算法模块，用于将房间信息数据获取模块获得的房间信息和家具信息获取模块获得的家具信息作为强化学习算法中的状态空间，将家具的空间位置参数作为强化学习中的动作空间；将房间信息和家具信息代入环境反馈模型而得到的输出值作为强化学习的动作值；

其中，家具布局强化学习生成模块包括：

房间信息数据获取模块，用于获得待布局的房间信息；

家具信息获取模块，用于获得需要布局的家具信息；

布局结果生成模块，用于将房间信息和家具信息输入至训练完成的强化学习Actor-Critic算法模块中，得到优化布局结果。

在一个实施方式中，样本数据包括房间信息和家具信息。

在一个实施方式中，强化学习Actor-Critic算法模块在训练中，按各类家具对布局效果的影响重要性由大至小依次将各类家具信息输入至模型中进行训练；上一类家具信息输入并对模型训练完成后，将上一类家具布局固定，再将下一类家具信息输入至模型中继续训练，直至全部类别的家具输入并训练完成。

在一个实施方式中，在强化学习Actor-Critic算法模块中，家具的空间位置参数是指离散化后的空间坐标、旋转角度和缩放比例。

在一个实施方式中，在布局结果生成模块中，按各类家具对布局效果的影响重要性由大至小依次将各类家具信息输入至模型中进行布局优化；上一类家具信息输入并得到优化布局结果后，将上一类家具布局固定，再将下一类家具信息输入至模型中继续布局优化，直至全部类别的家具输入并完成最终的布局优化结果。

一种可以运行上述的基于分件强化学习技术的家具布局方法的程序的计算机可读取介质。

有益效果

本发明所提供的基于分件强化学习技术的家具布局方法，实施过程中适用性强，实现了家具布局的自动化，减少了成本。因为不同类型的家具如床、衣柜有不同的功能，在实际生活中也有着不同的布局方案。所以在此发明中，我们将不同类型的家具分别建立一个神经网络进行学习，获得不同家具的布局方案。这样的方式对不同家具的布局方案更具有针对性，因此布局的准确率更高，布局结果也更加精确符合设计师的布局方式。同时，由于利用强化学习和神经网络进行学习时，由于相同类型家具的布局具有相似性，可以使得即使少量数据也有较好的拟合效果，提升训练效果。在训练过程中也大大降低了训练时间和难度。

附图说明

图1为本发明实施例的家具布局环境搭建工作流程图；

图2为本发明实施例的家具布局强化学习训练工作流程图；

图3为本发明实施例的家具布局强化学习生成工作流程图。

具体实施方式

为了更清楚地说明本申请的实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。应当理解，给出这些示例性实施例仅是为了使相关领域的技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

虽然本申请对根据本申请的实施例的系统中的某些系统、模块或单元做出了各种引用，然而，任何数量的不同模块可以被使用并运行在客户端和/或服务器上。所述模块仅是说明性的，并且所述系统和方法的不同方面可以使用不同模块。

同时，本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

由于在户型设计的过程中，各个房间的用途、大小、位置都存在着较大的区别，并且各个房间中的物件，也都存在着相互不同、空间位置关系复杂的问题，导致了人工设计工作量巨大、效率低下，而通过常规的机器学习的方式，又存在着可以学习的样本数量少、变量种类很多、变量之间的相互关系复杂等问题，使得构建机器学习的模型成为一大挑战。特别是对于强化学习过程来说，由于房间种类不同、家具布置复杂的问题，使得自学习难度较大，获得优化的设计结果较为困难。

本发明针对上述的问题，提出了一种基于强化学习的方式在有限样本的基础上，进行家居设计布局的方法。本发明的设计方法是由家具布局环境搭建、家具布局强化训练步骤和家具布局强化学习生成步骤三部分所组成。

家具布局环境搭建的目的是在于利用有限的样本构建出初步的神经网络预测模型。

所述家具布局环境搭建步骤具体为：

步骤100，收集获得大量装修布局方案的信息数据。这里所采用的装修布局方案，主要是现有的、用户已接受的、完整的户型及家具布局信息。所获得的信息中至少需要含有以下信息：每个房间的轮廓坐标，各个房间的用途（厨房、客厅、卧室等），房间内含有的家具信息（种类、个数、尺寸、旋转角度、缩放比例、位置坐标等）。在得到这些信息之后，可以按照现有的数据向量的构建方式将这些信息转化成特征数据。在这些训练数据当中，房间的轮廓坐标是用于提供房间大小以及家具的位置参考坐标的信息；房间的用途是为了体现出不同的房间用途具有不同的家具设计风格要求，进而针对不同的房间用途对其进行人工打分；家具信息用于表达房间当中的不同家具自身特点以及位置关系。通过这三类数据，基本可以反映出每种房间的设计风格。

步骤101，收集获得设计师对步骤100中所获得的装修方案的评价打分，并将此分数作为评价装修布局方案的指标，用于训练神经网络的样本数据。打分前需设计师制定详细严格的打分标准以求打分合理且评判标准一致。评分标准至少需要考虑以下指标：房间内家具的功能性是否完善，家具摆放位置、角度和尺寸是否合理，饰品是否美观等，这里打分是可以人工方式完成。由于不同的房间用途具有不同的家具设置风格，因此需要针对不同的房间进行不同的打分。评分考虑因素：1.房间功能性家具是否缺失(如床、衣柜)。2.家具摆放是否合理(不影响正常使用)。3.房间内饰品等是否摆放合理。这里获得了打分之后，打分是作为后续的神经网络训练和预测过程的输出变量。

步骤102，提取步骤100、101中所获得的装修方案的数据特征，生成格式统一、具有结构化的特征数据，便于使用神经网络进行训练，可以按照常规的特征矩阵的设计方式对信息进行数值化。这里的特征除了房间的信息（用途、轮廓坐标、门窗坐标等），还包括一阶特征（家具自身特征）和二阶特征（家具间相对关系特征）。其中，家具自身特征包含家具用途、摆放位置、尺寸、旋转角度、缩放比例等；家具间相对关系特征包含家具两两之间是否发生碰撞、家具是否出界、家具之间的吸附性等。这些数据特征，可以根据常规的矩阵设计方法来进行，本发明当中没有特别的限定。

步骤103 ，建立神经网络。训练过程中用于训练神经网络的特征（网络输入）采用的是步骤102提取得到的装修布局特征，标签（网络预测）采用的是步骤101中提取得到的相应房间的设计师评分。由于这里采用神经网络，所获得的环境反馈模型M能够根据家居布局时的微小的变化进行相应反馈，对于后期强化学习中的指导会更加具有针对性，甚至能够提发现设计师未考虑到的设计规律。这样的方式对不同家具的布局方案更具有针对性，因此布局的准确率更高，布局结果也更加精确符合设计师的布局方式。神经网络的构建，是针对于某一个房间当中的不同家具分别设置，例如，针对卧室建立的神经网络模型包括ANN1、ANN2、ANN3、……，ANN1输入变量是衣柜、ANN2输入变量是床和床头柜、ANN3输入变量是卧室中的电器，ANN1、ANN2、ANN3的输出变量都是对于卧室的评分。

在后续的神经网络计算过程中，最好是根据家具布局的重要程度依次对以上的各个神经网络进行计算，采用这样设置的原因是：在家具布局当中，是一个多变量的影响结果，一个变量的变化会影响到多个指标的变化，例如，床的位置的改变，不仅会影响到和床头柜之间的位置关系，也会影响到和电视机之间的位置关系，这里的神经网络计算过程当中优选采用对于视觉美感更重要的布局因素进行计算，这样可以保证在对次要因素进行优化的过程当中，不会再次对优化好的重要变量产生影响。例如，按照家具的尺寸、重要性、彼此的依赖关系，对家具布局顺序进行调整，并依次设计不同的网络对布局进行学习。如使用第一个网络学习床及衣柜的布局方案，使用第二个网络学习落地灯、梳妆台的布局方案。网络的输入向量长度都是固定的，由户型信息和家具信息构成。训练和预测时都按照既定的顺序，按照重要性和尺寸依次预测家具的布局方案。神经网络对于家具布局的细微变化与评分之间的关系较为敏感，在确定好神经网络模型之后，可以将其用于强化学习过程当中的对房屋布局的优化。

步骤104，采用神经网络对特征和标签进行回归学习，获得环境反馈模型M。模型M的输入包含房间信息和家具信息。其中房间信息为：房间用途、轮廓坐标、所含门窗的坐标。家具信息为：家具种类、个数、尺寸、旋转角度、缩放比例、位置坐标等。模型M的输出为对该已布局家具的房间的打分。由于本发明将不同类型的家具分别建立一个神经网络进行学习，降低训练难度、提升训练效果的同时，使得数据集有限的情况下依然能够获得较高的布局的准确率

家具布局强化学习训练的目的是在于，在得到前面的神经网络模型的基础上，通过强化学习的方式，找到家居布局的规律，并构建得到一个优化模型。

通过上述的基于分件的神经网络模型的特征工程，可以降低网络的训练难度，使得神经网络更容易注意到户型的信息，进而提升预测的准确率。同时，由神经网络训练得到的打分器对输入非常敏感，使得微小的布局信息（位置坐标、旋转角度）即使是微小的变化，也能够在打分函数中体现出来，对后续的强化学习的指导作用能够大幅度提升。

家具布局强化学习训练步骤具体为：

步骤200，收集大量的未经布局的房间信息数据，这里的数据包含以下信息：房间轮廓坐标、房间用途、门窗等坐标。

步骤201，根据收集得到的数据，统计不同类型房间内需要布局的家具信息（类型、个数等）并根据用途、种类等进行分类，不同的房间类型所需要的家具可以根据通常的设计需求进行人为设定，例如，客厅当中必须有茶几和沙发，卧室当中必须有床头柜、床、衣柜等，这些家具的种类在步骤100当中都能够找到，数量是通过遍历数据库中所有户型图，对家具进行统计得出的结果。分类时应考虑家具的功能、尺寸、摆放位置等。

步骤202，实现强化学习算法Actor-Critic的模型构建，输入为步骤200中得到的房间信息和步骤201中得到的家具信息。将输入特征（房间信息及家具信息）作为强化学习算法中的状态空间State Space，将离散化后的空间坐标、旋转角度、缩放比例作为强化学习中的动作空间Action Space，将环境反馈模型M的输出作为强化学习中的Q值（动作action的值）。定义网络参数更新公式为：

其中θ是神经网络参数，α是学习率，π(a∣s)是基于状态s选择动作a的概率，CrossEntropy是交叉熵。通过本步骤之后，实现了强化学习算法的构建，并将神经网络反馈模型嵌入于强化学习模型。

步骤203，进行模型训练。输入房间和家具信息后，模型将把当前状态（房间和家具信息）输入环境反馈模型M。根据环境反馈模型M的反馈结果选择该类家具当前的最优布局方案。于是训练时即可按顺序输出不同种类的家具布局信息（位置坐标、旋转角度、缩放比例等）。每次得到新的家具布局信息，便将新的布局信息与之前的状态更新合并，得到布局该家具后的新状态。如果网络更新时参数变化不大，说明学习效果已经收敛，此时即可得到家具布局模型N；否则说明模型仍未收敛，继续步骤202训练网络；更具体的说，训练的过程可以采用以下的方式：由于家具被分为不同的种类，并且在这些种类下也设计有不同的神经网络模型，因此首先选择对设计效果影响最大的那一类家具以及相对应的神经网络模型，将这一类家具的信息输入强化学习模型当中，通过神经网络对第一类家具的布局结果进行预测，并将计算得到的预测值返回给强化学习模型，进行模型的训练，当模型收敛之后，将第一类家具的布局结果进行固定，再引入第二类家具，将这类家具的信息再输入给强化学习模型，继续对模型进行训练，直至模型参数收敛，依次将所有的家具输入至模型当中，直至强化学习模型训练完成。采用这样做的目的，一方面保证了对视觉效果影响最大的物件优先进行布置，另一方面，也保证了强化学习模型，在训练的过程当中，优化动作更具有针对性，可以更好的对物品进行移动以及对模型的参数自学习。

通过以上的步骤，就实现了利用未经布置的房屋及其内部物件的信息，对强化学习模型进行训练。完成训练之后，只要通过下面的步骤，对需要进行优化布局的房间进行设计。

步骤204，上述过程的训练结束后，即可得到家具布局模型N。该模型的输入为未经布局的房间（用途、轮廓、门窗坐标）及家具信息（仅有家具种类、尺寸等基础信息）。模型的输出结果为每个家具布局后的信息，包含家具的位置坐标、家具旋转角、家具缩放比例。

强化学习生成家具布局步骤具体为：

步骤300，获得待布局的房间信息。所获得的信息中至少需要含有以下信息：房间的轮廓坐标，房间的用途（厨房、客厅、卧室等）；本步骤的目的是用于对这些待布局的房间进行内部物件的布置，因此需要首先得到这些空的房间的基本信息；

步骤301，获得需要布局的家具信息（种类、个数、尺寸），对需要布局的家具进行分类。此处的家具信息包含步骤102中所提及的一阶特征和二阶特征。本步骤当中，可以获得需要进行布局的家具信息，由于神经网络模型是根据家具种类分别设计的，因此需要根据家具的种类，分别代入这些神经网络模型当中给出预测值。本步骤的目的是根据用户的需求，统计出需要在房间内布置何种家具。经过了步骤300和步骤301，就基本确定了房间信息和物品信息，接下来通过已经训练完成的强化学习步骤对两者之间进行优化匹配。

步骤302，整理合并由步骤300和步骤301获得的数据，作为输入特征，输入家居布局的模型N中。

步骤303，将家具布局模型N的输出特征（含各家具的位置坐标、旋转角度、缩放比例等）与步骤302中得到的输入特征结合，即可得到布局好的房间及家具所有信息。由此信息经过离散变化，即可得到最终布局结果。正如上文所述，由于对于一个房间当中不同类型的物件，是按照其重要性依次进行设置神经网络模型的。在对强化学习模型进行优化设计过程当中，也是优选依次根据种类家具的重要程度采用上述的神经网络模型进行结果的预测。比如我们首先利用第一个神经网络训练床和衣柜的布局，在预测时，输入户型信息（轮廓、门窗坐标等）以及床和衣柜的信息（种类、尺寸），其它的物件物品的信息不输入，网络会对不同而布局方案预测一个评分，通过选取最优方案，我们即可依次得到床和衣柜的布局信息（坐标、旋转角度、缩放比例）。由于床和衣柜作为排序第一的神经网络模型中的物品，其对于整体视觉效果影响较大，首先将其固定之后，从整体上实现了较好的布局结果，再把由第一个神经网络得到的布局信息，更新的目前的户型状态中。接下来，再向家具布局模型N中输入第二个神经网络模型对应的物品信息，如落地灯、梳妆台的神经网络，与第一个神经网络的训练预测步骤相同，我们可以得到其他家具的布局信息，直至所有的家具合理的布局到房间内。

所述输出特征具体包括离散化坐标，离散化旋转角度以及离散化缩放比例。

所述根据输出特征得到布局结果，包括对输出特征分离出离散化坐标，离散化旋转角度以及离散化缩放比例，根据分布进行采样，最后根据采样结果得到当前布局。

基于以上的方法，本发明还提供了一种基于分件强化学习技术的家具布局系统，包括家具布局环境搭建模块、家具布局强化训练模块、家具布局强化学习生成模块；

其中，家具布局环境搭建模块包括：

家具分类模块，用于对布局方案当中的家具分类；

其中，家具布局强化训练模块包括：

其中，家具布局强化学习生成模块包括：

房间信息数据获取模块，用于获得待布局的房间信息；

家具信息获取模块，用于获得需要布局的家具信息；

在一个实施方式中，样本数据包括房间信息和家具信息。

本发明还提供了一种可以运行上述的基于分件强化学习技术的家具布局方法的程序的计算机可读取介质。

此外，本领域技术人员可以理解，本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

计算机可读信号介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等等、或合适的组合形式。计算机可读信号介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机可读信号介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、射频信号、或类似介质、或任何上述介质的组合。

本申请各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写，包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等，常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP，动态编程语言如Python、Ruby和Groovy，或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(LAN)或广域网(WAN)，或连接至外部计算机(例如通过因特网)，或在云计算环境中，或作为服务使用如软件即服务(SaaS)。

此外，除非权利要求中明确说明，本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的服务器或移动设备上安装所描述的系统。

Claims

1.一种基于分件强化学习技术的家具布局方法，其特征在于，包括家具布局环境搭建步骤、家具布局强化训练步骤和家具布局强化学习生成步骤；

其中，家具布局环境搭建步骤包括：

步骤100，获得大量装修布局方案的样本数据；

步骤101，获得对样本数据的装修布局方案的评价打分；

步骤103，按照装修布局方案当中的家具的种类，分别针对各个家具类别构建利用神经网络模型，对输入值和输出值进行人工智能算法的回归训练，得到多个环境反馈模型M1、M2、……、Mn；

其中，家具布局强化训练步骤包括：

步骤200，获得大量未经布局的房间信息数据；

其中，家具布局强化学习生成步骤包括：

步骤300，获得待布局的房间信息；

步骤301，获得需要布局的家具信息；

2.根据权利要求1所述的基于分件强化学习技术的家具布局方法，其特征在于，样本数据包括房间信息和家具信息；房间信息包括房间的轮廓坐标和房间的用途；家具信息包括种类、个数、尺寸、旋转角度、缩放比例和位置坐标；评价打分中的评分原则包括：房间功能性家具是否缺失、家具摆放是否合理、房间内饰品是否摆放合理。

3.根据权利要求1所述的基于分件强化学习技术的家具布局方法，其特征在于，在强化学习模型的训练中，按各类家具对布局效果的影响重要性由大至小依次将各类家具信息输入至模型中进行训练；上一类家具信息输入并对模型训练完成后，将上一类家具布局固定，再将下一类家具信息输入至模型中继续训练，直至全部类别的家具输入并训练完成。

4.根据权利要求1所述的基于分件强化学习技术的家具布局方法，其特征在于，在强化学习模型的训练中，家具的空间位置参数是指离散化后的空间坐标、旋转角度和缩放比例。

5.根据权利要求1所述的基于分件强化学习技术的家具布局方法，其特征在于，在家具布局强化学习生成步骤中，按各类家具对布局效果的影响重要性由大至小依次将各类家具信息输入至模型中进行布局优化；上一类家具信息输入并得到优化布局结果后，将上一类家具布局固定，再将下一类家具信息输入至模型中继续布局优化，直至全部类别的家具输入并完成最终的布局优化结果。

6.一种基于分件强化学习技术的家具布局系统，其特征在于，包括家具布局环境搭建模块、家具布局强化训练模块、家具布局强化学习生成模块；

其中，家具布局环境搭建模块包括：

家具分类模块，用于对布局方案当中的家具分类；

神经网络模块，包括多个环境反馈模型M1、M2、……、Mn，分别用于对每种家具的布局和评分之间关系建立神经网络模型，所述的神经网络模型采用样本数据的装修布局方案转化为特征向量之后作为输入值，将样本数据的评价打分作为输出值；

其中，家具布局强化训练模块包括：

其中，家具布局强化学习生成模块包括：

房间信息数据获取模块，用于获得待布局的房间信息；

家具信息获取模块，用于获得需要布局的家具信息；

7.根据权利要求6所述的基于分件强化学习技术的家具布局系统，其特征在于，样本数据包括房间信息和家具信息；房间信息包括房间的轮廓坐标和房间的用途；家具信息包括种类、个数、尺寸、旋转角度、缩放比例和位置坐标；强化学习Actor-Critic算法模块在训练中，按各类家具对布局效果的影响重要性由大至小依次将各类家具信息输入至模型中进行训练；上一类家具信息输入并对模型训练完成后，将上一类家具布局固定，再将下一类家具信息输入至模型中继续训练，直至全部类别的家具输入并训练完成。

8.根据权利要求6所述的基于分件强化学习技术的家具布局系统，其特征在于，在强化学习Actor-Critic算法模块中，家具的空间位置参数是指离散化后的空间坐标、旋转角度和缩放比例。

9.根据权利要求6所述的基于分件强化学习技术的家具布局系统，其特征在于，在布局结果生成模块中，按各类家具对布局效果的影响重要性由大至小依次将各类家具信息输入至模型中进行布局优化；上一类家具信息输入并得到优化布局结果后，将上一类家具布局固定，再将下一类家具信息输入至模型中继续布局优化，直至全部类别的家具输入并完成最终的布局优化结果。

10.一种可以运行权利要求1-5任一项所述的基于分件强化学习技术的家具布局方法的程序的计算机可读取介质。