CN112779720B

CN112779720B - 洗衣机的控制方法、装置、洗衣机、存储介质及处理器

Info

Publication number: CN112779720B
Application number: CN202011505601.XA
Authority: CN
Inventors: 余录; 林桂锋; 何旭明
Original assignee: Gree Electric Appliances Inc of Zhuhai
Current assignee: Gree Electric Appliances Inc of Zhuhai
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2022-05-31
Anticipated expiration: 2040-12-18
Also published as: CN112779720A

Abstract

本发明公开了一种洗衣机的控制方法、装置、洗衣机、存储介质及处理器，该方法包括：获取待洗衣物的当前材质和当前脏污程度；根据所述待洗衣物的当前材质和当前脏污程度，确定所述洗衣机对所述待洗衣物进行洗衣处理时所选用的当前洗衣模式，并控制所述洗衣机按确定的所述当前洗衣模式运行；获取所述洗衣机按确定的所述当前洗衣模式运行的当前环境状态；根据所述当前环境状态，确定所述洗衣机在按确定的所述当前洗衣模式运行的过程中所需要执行的当前动作，并控制所述洗衣机在按确定的所述当前洗衣模式运行的过程中执行所述当前动作。该方案，通过使洗衣机在不同模式下的运行参数能够根据实际需求调整，从而节约能源。

Description

洗衣机的控制方法、装置、洗衣机、存储介质及处理器

技术领域

本发明属于洗衣机技术领域，具体涉及一种洗衣机的控制方法、装置、洗衣机、存储介质及处理器，尤其涉及一种洗衣机省电的智能控制方法、装置、洗衣机、存储介质及处理器。

背景技术

相关方案中，洗衣机设定的各种模式的洗涤、脱水、烘干等的时间是一个固定值，而在很多时候，如用户衣物比较少或比较干净时设定的时间、以及各种洗涤参数都是过量的，导致水电过量消耗。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的目的在于，提供一种洗衣机的控制方法、装置、洗衣机、存储介质及处理器，以解决洗衣机在不同模式下的运行参数均是固定的，在衣物较少或衣物较干净时存在浪费能源的问题，达到通过使洗衣机在不同模式下的运行参数能够根据实际需求调整，从而节约能源的效果。

本发明提供一种洗衣机的控制方法，包括：获取待洗衣物的当前材质和当前脏污程度；根据所述待洗衣物的当前材质和当前脏污程度，确定所述洗衣机对所述待洗衣物进行洗衣处理时所选用的当前洗衣模式，并控制所述洗衣机按确定的所述当前洗衣模式运行；获取所述洗衣机按确定的所述当前洗衣模式运行的当前环境状态；根据所述当前环境状态，确定所述洗衣机在按确定的所述当前洗衣模式运行的过程中所需要执行的当前动作，并控制所述洗衣机在按确定的所述当前洗衣模式运行的过程中执行所述当前动作。

在一些实施方式中，根据所述待洗衣物的当前材质和当前脏污程度，确定所述洗衣机对所述待洗衣物进行洗衣处理时所选用的当前洗衣模式，包括：根据设定材质、设定脏污程度和设定洗衣模式之间的第一对应关系，将所述第一对应关系中与所述当前材质相同的设定材质、以及与所述当前脏污程度相同的设定脏污程度对应的设定洗衣模式，确定为与所述当前材质和所述当前脏污程度对应的当前洗衣模式。

在一些实施方式中，其中，设定材质、设定脏污程度和设定洗衣模式之间的第一对应关系，包括：经预先训练得到的第一神经网络模型；所述第一神经网络模型的第一输入端能够输入所述当前材质，所述第一神经网络模型的第二输入端能够输入所述设定脏污程度，所述第一神经网络模型的输出端能够输出所述当前洗衣模式。

在一些实施方式中，根据所述当前环境状态，确定所述洗衣机在按确定的所述当前洗衣模式运行的过程中所需要执行的当前动作，包括：根据设定环境状态和设定动作之间的第二对应关系，将所述第二对应关系中与所述当前环境状态相同的设定大环境状态所对应的设定动作，确定为与所述当前环境状态对应的当前动作；其中，所述当前环境状态、所述设定环境状态中的环境状态，包括：温度、湿度、水位、水浊度中的至少之一；所述当前动作、所述设定动作中的动作，包括：电机转速、加热温度、是否进水、以及进水量中的至少之一。

在一些实施方式中，其中，设定环境状态和设定动作之间的第二对应关系，包括：经预先训练得到的第二神经网络模型；所述第二神经网络模型的输入端能够输入所述当前环境状态，所述第二神经网络模型的输出端能够输出所述当前动作。

在一些实施方式中，对所述第二神经网络模型的训练过程，包括：利用Actor网络作为行动决策器，根据输入的当前环境状态，输出需执行的当前动作；根据所述洗衣机执行所述当前动作之后的所述洗衣机的洗衣环境的改变，得到下一环境状态；并确定所述洗衣机执行所述当前动作所耗费的当前电量；利用Critic网络作为评价器，根据所述当前环境状态、所述当前动作、所述当前电量和所述下一环境状态，确定所述行动决策器基于所述当前环境状态给出所述当前动作的决策准确性的实际评估值；基于所述实际评估值和预设的目标评估值，通过梯度损失函数，对所述Actor网络和所述Critic网络进行更新，以优化所述Actor网络和所述Critic网络，依次循环，直至所述实际评估值与所述目标评估值之间的差值达到预设误差。

与上述方法相匹配，本发明另一方面提供一种洗衣机的控制装置，包括：获取单元，被配置为获取待洗衣物的当前材质和当前脏污程度；控制单元，被配置为根据所述待洗衣物的当前材质和当前脏污程度，确定所述洗衣机对所述待洗衣物进行洗衣处理时所选用的当前洗衣模式，并控制所述洗衣机按确定的所述当前洗衣模式运行；所述获取单元，还被配置为获取所述洗衣机按确定的所述当前洗衣模式运行的当前环境状态；所述控制单元，还被配置为根据所述当前环境状态，确定所述洗衣机在按确定的所述当前洗衣模式运行的过程中所需要执行的当前动作，并控制所述洗衣机在按确定的所述当前洗衣模式运行的过程中执行所述当前动作。

在一些实施方式中，所述控制单元，根据所述待洗衣物的当前材质和当前脏污程度，确定所述洗衣机对所述待洗衣物进行洗衣处理时所选用的当前洗衣模式，包括：根据设定材质、设定脏污程度和设定洗衣模式之间的第一对应关系，将所述第一对应关系中与所述当前材质相同的设定材质、以及与所述当前脏污程度相同的设定脏污程度对应的设定洗衣模式，确定为与所述当前材质和所述当前脏污程度对应的当前洗衣模式。

在一些实施方式中，所述控制单元，根据所述当前环境状态，确定所述洗衣机在按确定的所述当前洗衣模式运行的过程中所需要执行的当前动作，包括：根据设定环境状态和设定动作之间的第二对应关系，将所述第二对应关系中与所述当前环境状态相同的设定大环境状态所对应的设定动作，确定为与所述当前环境状态对应的当前动作；其中，所述当前环境状态、所述设定环境状态中的环境状态，包括：温度、湿度、水位、水浊度中的至少之一；所述当前动作、所述设定动作中的动作，包括：电机转速、加热温度、是否进水、以及进水量中的至少之一。

在一些实施方式中，所述控制单元，对所述第二神经网络模型的训练过程，包括：利用Actor网络作为行动决策器，根据输入的当前环境状态，输出需执行的当前动作；根据所述洗衣机执行所述当前动作之后的所述洗衣机的洗衣环境的改变，得到下一环境状态；并确定所述洗衣机执行所述当前动作所耗费的当前电量；利用Critic网络作为评价器，根据所述当前环境状态、所述当前动作、所述当前电量和所述下一环境状态，确定所述行动决策器基于所述当前环境状态给出所述当前动作的决策准确性的实际评估值；基于所述实际评估值和预设的目标评估值，通过梯度损失函数，对所述Actor网络和所述Critic网络进行更新，以优化所述Actor网络和所述Critic网络，依次循环，直至所述实际评估值与所述目标评估值之间的差值达到预设误差。

与上述装置相匹配，本发明再一方面提供一种洗衣机，包括：以上所述的洗衣机的控制装置。

与上述方法相匹配，本发明再一方面提供一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行以上所述的洗衣机的控制方法。

与上述方法相匹配，本发明再一方面提供一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行以上所述的洗衣机的控制方法。

由此，本发明的方案，通过根据衣物材质和衣物脏污程度确定洗衣机的运行模式，并在确定的运行模式下根据温度、湿度、水位、水浊度等状态参数确定洗衣机的动作，以使洗衣机根据当前的运行模式下的状态执行相应的动作，通过使洗衣机在不同模式下的运行参数能够根据实际需求调整，从而节约能源。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明的洗衣机的控制方法的一实施例的流程示意图；

图2为本发明的方法中对所述第二神经网络模型的训练过程的一实施例的流程示意图；

图3为本发明的洗衣机的控制装置的一实施例的结构示意图；

图4为智能选择洗涤模式的神经网络Q-net1的一实施例的流程示意图；

图5为深度确定性策略梯度训练流程的一实施例的流程示意图；

图6为省电模型学习训练流程的一实施例的流程示意图；

图7为深度强化学习Actor-Critic算法的一实施例的流程示意图；

图8为各种模块控制电路的一实施例的结构示意图。

结合附图，本发明实施例中附图标记如下：

102-获取单元；104-控制单元。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明的实施例，提供了一种洗衣机的控制方法，如图1所示本发明的方法的一实施例的流程示意图。该洗衣机的控制方法可以包括：步骤S110至步骤S140。

在步骤S110处，获取待洗衣物的当前材质和当前脏污程度。其中，待洗衣物，是待进行洗衣处理的衣物。该洗衣处理，包括洗涤处理，也包括洗涤后的脱水、烘干等处理。例如：可以根据摄像头采集待洗衣物的图像信息，根据待洗衣物的图像信息进行图像分析，确定待洗衣物的材质和脏污程度。另外，待洗衣物的脏污程度，也可以根据将待洗衣物放在洗衣桶中进行浸泡的过程中水的脏污程度来确定待洗衣物的脏污程度。当然，也可以由用户直接输入待洗衣物的材质和脏污程度。

在步骤S120处，根据所述待洗衣物的当前材质和当前脏污程度，确定所述洗衣机对所述待洗衣物进行洗衣处理时所选用的当前洗衣模式，并控制所述洗衣机按确定的所述当前洗衣模式运行。所述洗衣模式，包括：待洗衣物的材质为羊毛材质时选用的羊毛清洗模式，待洗衣物的材质为纯棉材质时的轻柔清洗模式，待洗衣物的脏污程度较轻时的快速清洗模式，待洗衣物的脏污程度较重时的浸泡清洗模式或强力清洗模式等。

在一些实施方式中，步骤S120中根据所述待洗衣物的当前材质和当前脏污程度，确定所述洗衣机对所述待洗衣物进行洗衣处理时所选用的当前洗衣模式，包括：根据设定材质、设定脏污程度和设定洗衣模式之间的第一对应关系，将所述第一对应关系中与所述当前材质相同的设定材质、以及与所述当前脏污程度相同的设定脏污程度对应的设定洗衣模式，确定为与所述当前材质和所述当前脏污程度对应的当前洗衣模式。

在一些实施方式中，其中，设定材质、设定脏污程度和设定洗衣模式之间的第一对应关系，包括：经预先训练得到的第一神经网络模型。所述第一神经网络模型的第一输入端能够输入所述当前材质，所述第一神经网络模型的第二输入端能够输入所述设定脏污程度，所述第一神经网络模型的输出端能够输出所述当前洗衣模式。

具体地，该第一神经网络模型，记录了大量的不同的衣物性质和脏污程度，进行了分类，并通过训练学习将其对应衣物信息应该选择的洗涤程序对应起来，训练成功后，用在实际生活上就是通过一些技术识别了用户衣物信息后，就会通过巨大的神经网络数据库，找到对应的洗涤模式输出。通过神经网络深度学习实现自动识别衣物信息，进行智能选择洗涤模式，可以确定洗衣机的初始状态。

利用一个训练好的第一神经网络模型，在洗衣机放入衣物后，可以通过识别衣物材质和脏污程度，智能选择洗涤模式启动。一般通过图像识别技术和水质监测等相关技术，将获取的信息作为输入传给神经网络，然后神经网络输出一个洗涤模式控制洗衣机选择相应模式进行洗涤，比如当放入的衣物为羊毛衫，将会选择羊毛洗程序，作为一个初始状态，再如若放入的是普通衣物不脏或比较脏的衣物，根据神经网络匹配一个模式输出，来智能控制洗衣机选择如快洗或极净洗程序启动。如果放入的是小孩衣物或者内衣衣物，则将会轻柔程序启动。

在步骤S130处，在所述洗衣机按确定的所述当前洗衣模式运行的过程中，获取所述洗衣机按确定的所述当前洗衣模式运行的当前环境状态。

在步骤S140处，根据所述当前环境状态，确定所述洗衣机在按确定的所述当前洗衣模式运行的过程中所需要执行的当前动作，并控制所述洗衣机在按确定的所述当前洗衣模式运行的过程中执行所述当前动作。

由此，通过控制洗衣机自我进行控制洗衣机的一些主要模块运转，通过强化学习的训练，使用最佳的参数，在洗净衣服的同时控制耗电量最低，增加用户体验。

在一些实施方式中，步骤S140中根据所述当前环境状态，确定所述洗衣机在按确定的所述当前洗衣模式运行的过程中所需要执行的当前动作，包括：根据设定环境状态和设定动作之间的第二对应关系，将所述第二对应关系中与所述当前环境状态相同的设定大环境状态所对应的设定动作，确定为与所述当前环境状态对应的当前动作。

其中，所述当前环境状态、所述设定环境状态中的环境状态，包括：温度、湿度、水位、水浊度中的至少之一。所述当前动作、所述设定动作中的动作，包括：电机转速、加热温度、是否进水、以及进水量中的至少之一。

具体地，当前状态S_t包括一系列能影响洗衣机主要耗电模块的参数，主要有：水位、浊度、温度和湿度等。其中，水位，影响水阀。浊度，保证衣物洗干净，主要影响电机转动洗涤。温度和湿度，主要影响烘干阶段。通过对获取的当前状态进行归一化去燥处理，输入深度确定性策略模型中，深度确定性模型输出一个执行动作，通过控制模块，控制洗衣机各模块工作，如控制电机转速、加热温度、是否进水、进水多少等等。

由此，通过实验预先使洗衣机学习得到不同的状态使耗电量达到最低的行动策略，将策略程序应用于在控制模块中实现最佳省电洗的功能。

在一些实施方式中，其中，设定环境状态和设定动作之间的第二对应关系，包括：经预先训练得到的第二神经网络模型。所述第二神经网络模型的输入端能够输入所述当前环境状态，所述第二神经网络模型的输出端能够输出所述当前动作。

在一些实施方式中，结合图2所示本发明的方法中对所述第二神经网络模型的训练过程的一实施例流程示意图，进一步说明对所述第二神经网络模型的训练过程的具体过程，包括：步骤S210至步骤S240。

步骤S210，利用Actor网络作为行动决策器，根据输入的当前环境状态，输出需执行的当前动作。

步骤S220，根据所述洗衣机执行所述当前动作之后的所述洗衣机的洗衣环境的改变，得到下一环境状态。并确定所述洗衣机执行所述当前动作所耗费的当前电量。

步骤S230，利用Critic网络作为评价器，根据所述当前环境状态、所述当前动作、所述当前电量和所述下一环境状态，确定所述行动决策器基于所述当前环境状态给出所述当前动作的决策准确性的实际评估值。

步骤S240，基于所述实际评估值和预设的目标评估值，通过梯度损失函数，对所述Actor网络和所述Critic网络进行更新，以优化所述Actor网络和所述Critic网络，依次循环，直至所述实际评估值与所述目标评估值之间的差值达到预设误差。

具体地，在强化学习的基础上引入两个深度神经网络：Actor网络和Critic网络。Actor网络作为行动决策器，根据输入状态s_t，输出执行动作a_t，结合环境然后得到下一状态s_t+1，将当前状态s_t、当前评价值r_t、下一状态s_t+1输入Critic网络，根据TD方法(即梯度损失函数方法)计算出损失函数TD_error，然后使用梯度下降法对Critic网络进行参数反馈更新，同时Critic网络作为评价器被训练，其输出作为Actor网络的参数来评估训练效果，对Actor网络行动策略进行优化。

例如：从得到初始状态s₀开始，Actor网络得到所有初始状态s₀的信息后，通过它自身行动策略函数来进行决策，输出动作a₀(比如控制电机转停、控制进水阀开关、加热管开关等等)，得到下一状态s₁，再次Actor网络得到s₁，输出a₁动作，得到下一状态s₂……以此类推，得到一个序列A₀，s₀-a₀，s₁-a₁，s₂-a₂，……，s_t-a_t。当记录到漂洗结束时测量一个用电量w_xd，同理在脱水结束后得到用电量w_ts，在烘干结束后得到用电量w_烘干，以及最后测得的总耗电W_Z这几个都作为奖励函数的一部分。将一次运行结束获取的序列A₀，w_xd，w_ts，w_hg，W_z作为一条数据存与经验回收池中，同样地第二次第三次等等每次都得到一条数据存入经验池中。Critic网络从中随机取得数据，进行计算各阶段的Q值作为参考值，Critic网络通过计算的q值与估计的q值进行对比(通俗的可以说是对比，实际所用方法为梯度下降法，计算梯度损失函数)，进行自我更新，完善评价机制，最终理想达到的情况是估计q值与实际q值相同。但那是理想情况，实际上只能慢慢逼近。在Critic网络每次优化自己的评价机制后，下次就对Actor网络进行评价，使Actor网络根据评价更改自己的行动策略。比如通过条经验数据计算得到在漂洗阶段电机、烘干加热管、进水阀等等在某些参数下，总耗电情况比较好，就会给予高奖励，下次学习Actor网络就会往这个状态靠，在某些参数下耗电高，Actor网络就会避开这些。Actor网络能做到这些都是通过Critic网络的评价，每次学习都对Actor网络的行动进行评价，Actor网络根据这个评价来优化自己的行动策略。

由此，通过检测当前状态s_t，利用深度确定性策略梯度模型，输出洗衣机执行动作a_t，当前状态改变进入下一状态记录每个状态-动作，并且在每个小阶段(漂洗、脱水、烘干)统计电量，以及奖励函数w_t，统计分阶段的耗电能更好的控制分阶段的动作，逼近总耗电最低的目标，另外洗衣结束后进行总耗电量统计，以及奖励函数评价，评价此次的行动策略，进行自我优化，再重复学习训练。直到达到策略最优的省电，以每100次的强化训练奖励信号的标准差是否小于所设阈值为条件，当满足条件时，即奖励函数基本不变，即可认为已经达到耗电最低。

经大量的试验验证，采用本实施例的技术方案，通过根据衣物材质和衣物脏污程度确定洗衣机的运行模式，并在确定的运行模式下根据温度、湿度、水位、水浊度等状态参数确定洗衣机的动作，以使洗衣机根据当前的运行模式下的状态执行相应的动作，通过使洗衣机在不同模式下的运行参数能够根据实际需求调整，从而节约能源。

根据本发明的实施例，还提供了对应于洗衣机的控制方法的一种洗衣机的控制装置。参见图3所示本发明的装置的一实施例的结构示意图。该洗衣机的控制装置可以包括：获取单元102和控制单元104。

其中，获取单元102，被配置为获取待洗衣物的当前材质和当前脏污程度。该获取单元102的具体功能及处理参见步骤S110。其中，待洗衣物，是待进行洗衣处理的衣物。该洗衣处理，包括洗涤处理，也包括洗涤后的脱水、烘干等处理。例如：可以根据摄像头采集待洗衣物的图像信息，根据待洗衣物的图像信息进行图像分析，确定待洗衣物的材质和脏污程度。另外，待洗衣物的脏污程度，也可以根据将待洗衣物放在洗衣桶中进行浸泡的过程中水的脏污程度来确定待洗衣物的脏污程度。当然，也可以由用户直接输入待洗衣物的材质和脏污程度。

控制单元104，被配置为根据所述待洗衣物的当前材质和当前脏污程度，确定所述洗衣机对所述待洗衣物进行洗衣处理时所选用的当前洗衣模式，并控制所述洗衣机按确定的所述当前洗衣模式运行。该控制单元104的具体功能及处理参见步骤S120。所述洗衣模式，包括：待洗衣物的材质为羊毛材质时选用的羊毛清洗模式，待洗衣物的材质为纯棉材质时的轻柔清洗模式，待洗衣物的脏污程度较轻时的快速清洗模式，待洗衣物的脏污程度较重时的浸泡清洗模式或强力清洗模式等。

在一些实施方式中，所述控制单元104，根据所述待洗衣物的当前材质和当前脏污程度，确定所述洗衣机对所述待洗衣物进行洗衣处理时所选用的当前洗衣模式，包括：所述控制单元104，具体还被配置为根据设定材质、设定脏污程度和设定洗衣模式之间的第一对应关系，将所述第一对应关系中与所述当前材质相同的设定材质、以及与所述当前脏污程度相同的设定脏污程度对应的设定洗衣模式，确定为与所述当前材质和所述当前脏污程度对应的当前洗衣模式。

所述获取单元102，还被配置为在所述洗衣机按确定的所述当前洗衣模式运行的过程中，获取所述洗衣机按确定的所述当前洗衣模式运行的当前环境状态。该获取单元102的具体功能及处理还参见步骤S130。

所述控制单元104，还被配置为根据所述当前环境状态，确定所述洗衣机在按确定的所述当前洗衣模式运行的过程中所需要执行的当前动作，并控制所述洗衣机在按确定的所述当前洗衣模式运行的过程中执行所述当前动作。该控制单元104的具体功能及处理还参见步骤S140。

在一些实施方式中，所述控制单元104，根据所述当前环境状态，确定所述洗衣机在按确定的所述当前洗衣模式运行的过程中所需要执行的当前动作，包括：所述控制单元104，具体还被配置为根据设定环境状态和设定动作之间的第二对应关系，将所述第二对应关系中与所述当前环境状态相同的设定大环境状态所对应的设定动作，确定为与所述当前环境状态对应的当前动作。

在一些实施方式中，所述控制单元104，对所述第二神经网络模型的训练过程，包括：

所述控制单元104，具体还被配置为利用Actor网络作为行动决策器，根据输入的当前环境状态，输出需执行的当前动作。该控制单元104的具体功能及处理还参见步骤S210。

所述控制单元104，具体还被配置为根据所述洗衣机执行所述当前动作之后的所述洗衣机的洗衣环境的改变，得到下一环境状态。并确定所述洗衣机执行所述当前动作所耗费的当前电量。该控制单元104的具体功能及处理还参见步骤S220。

所述控制单元104，具体还被配置为利用Critic网络作为评价器，根据所述当前环境状态、所述当前动作、所述当前电量和所述下一环境状态，确定所述行动决策器基于所述当前环境状态给出所述当前动作的决策准确性的实际评估值。该控制单元104的具体功能及处理还参见步骤S230。

所述控制单元104，具体还被配置为基于所述实际评估值和预设的目标评估值，通过梯度损失函数，对所述Actor网络和所述Critic网络进行更新，以优化所述Actor网络和所述Critic网络，依次循环，直至所述实际评估值与所述目标评估值之间的差值达到预设误差。该控制单元104的具体功能及处理还参见步骤S240。

具体地，在强化学习的基础上引入两个深度神经网络：Actor网络和Critic网络。Actor网络作为行动决策器，根据输入状态s_t，输出执行动作a_t，结合环境然后得到下一状态s_t+1，将当前状态s_t、当前评价值r_t、下一状态s_t+1输入Critic网络，根据TD装置(即梯度损失函数装置)计算出损失函数TD_error，然后使用梯度下降法对Critic网络进行参数反馈更新，同时Critic网络作为评价器被训练，其输出作为Actor网络的参数来评估训练效果，对Actor网络行动策略进行优化。

例如：从得到初始状态s₀开始，Actor网络得到所有初始状态s₀的信息后，通过它自身行动策略函数来进行决策，输出动作a₀(比如控制电机转停、控制进水阀开关、加热管开关等等)，得到下一状态s₁，再次Actor网络得到s₁，输出a₁动作，得到下一状态s₂……以此类推，得到一个序列A₀，s₀-a₀，s₁-a₁，s₂-a₂，……，s_t-a_t。当记录到漂洗结束时测量一个用电量w_xd，同理在脱水结束后得到用电量w_ts，在烘干结束后得到用电量w_烘干，以及最后测得的总耗电W_Z这几个都作为奖励函数的一部分。将一次运行结束获取的序列A₀，w_xd，w_ts，w_hg，W_z作为一条数据存与经验回收池中，同样地第二次第三次等等每次都得到一条数据存入经验池中。Critic网络从中随机取得数据，进行计算各阶段的Q值作为参考值，Critic网络通过计算的q值与估计的q值进行对比(通俗的可以说是对比，实际所用装置为梯度下降法，计算梯度损失函数)，进行自我更新，完善评价机制，最终理想达到的情况是估计q值与实际q值相同。但那是理想情况，实际上只能慢慢逼近。在Critic网络每次优化自己的评价机制后，下次就对Actor网络进行评价，使Actor网络根据评价更改自己的行动策略。比如通过条经验数据计算得到在漂洗阶段电机、烘干加热管、进水阀等等在某些参数下，总耗电情况比较好，就会给予高奖励，下次学习Actor网络就会往这个状态靠，在某些参数下耗电高，Actor网络就会避开这些。Actor网络能做到这些都是通过Critic网络的评价，每次学习都对Actor网络的行动进行评价，Actor网络根据这个评价来优化自己的行动策略。

由于本实施例的装置所实现的处理及功能基本相应于前述图1至图2所示的方法的实施例、原理和实例，故本实施例的描述中未详尽之处，可以参见前述实施例中的相关说明，在此不做赘述。

经大量的试验验证，采用本发明的技术方案，通过根据衣物材质和衣物脏污程度确定洗衣机的运行模式，并在确定的运行模式下根据温度、湿度、水位、水浊度等状态参数确定洗衣机的动作，以使洗衣机根据当前的运行模式下的状态执行相应的动作，在洗净衣服的同时控制耗电量最低，增加用户体验。

根据本发明的实施例，还提供了对应于洗衣机的控制装置的一种洗衣机。该洗衣机可以包括：以上所述的洗衣机的控制装置。

随着人工智能技术飞速发展，机器学习这一技术领域也受到越来越广泛的关注和重视，其中基于深度强化学习开发的AlphaGo(阿尔法围棋，是由Google Deepmind开发的人工智能围棋软件)更是引起全世界的轰动和反响。现在人工智能在感知智能领域已经取得相当大的成就，人工智能广泛运用也只是时间上的事，人工智能洗衣机更是可以展望的。

相关方案中，能够基于神经网络的学习训练，根据衣物衣物材质和洗涤标志智能选择合理洗涤参数，进行选择最佳方案。还通过利用神经网络，能够自动获取待洗衣物的性质，从而能够智能地控制洗衣机进行洗涤。但这些方案，都是根据不同衣物信息，智能选择进入人工设定的洗涤模式或洗涤参数，而这个参数仍然是存在的人为设定一个固定值；是人类专家通过大量实验所定的一个“最大值”，满足一大类衣物可以用此参数洗净衣物，这个值对有些情况可能是过量的，造成耗电问题。

相关方案中，洗衣机的有效的省电解决方案基本都是增加结构，或者增加各种检测技术等来达到减少不必要的洗衣机某些模块过量运行，使洗衣机内部结构更复杂化。

考虑到洗衣机各种模式设定的参数对于不同的衣物信息和状态，是有余量的，造成不必要的耗电量。另外，通过检测技术如图像检测、浊度检测等，来进行控制洗衣机相应控制流程减少不必要的运转，这种方法无法进行动态实时检测，只能检测进程局部静止的某一时刻。

在一些实施方中，本发明的方案，提出一种洗衣机省电的智能控制方法，控制洗衣机自我进行控制洗衣机的一些主要模块运转，通过强化学习的训练，使用最佳的参数，在洗净衣服的同时控制耗电量最低，增加用户体验。

本发明的方案，通过先对洗衣机采用深度强化学习，使洗衣机智能的进行控制洗衣机过程：洗衣机对环境(衣物信息、水浊度、水位等)进行观测，根据观测的结果，进行决策，采取相应的行动(控制电机的转动、进水阀的开关、加热管的启动或关闭等)，同时与环境进行交互，环境以奖励的形式——一个奖励函数反馈给洗衣机，并得到下一个状态。然后通过一个奖励机制去评价策略的好坏，使洗衣机进行自我优化行动策略。并重复进行训练学习，直到最终累积的奖励回报最高，最终得到的策略函数是最优的——在什么状态执行什么行动使耗电量最低，并以此策略应用于洗衣机的智能省电洗。

在一些实施方式中，本发明的方案，使用深度强化学习的方法，通过实验预先使洗衣机学习得到不同的状态使耗电量达到最低的行动策略，将策略程序应用于在控制模块中实现最佳省电洗的功能。

本发明的方案，通过神经网络深度学习实现自动识别衣物信息，进行智能选择洗涤模式。

本发明的方案，在智能选择洗涤模式后，洗衣机启动时的状态作为初始状态，对洗衣机内衣物的开始状态、温度、湿度、浊度、水位等等进行数据归一化处理，并利用深度确定性策略梯度模型计算得到洗衣机在当前状态下需要进行的行动，并由相应的控制模块去执行。再由奖励机制去评价行动策略的好坏，进行自我优化，当次迭代的状态-动作以及得到的反馈奖励作为下一次的样本。反复进行学习训练，直到深度确定性策略梯度模型收敛，即达到洗净衣服的同时耗电量最低，同时得到一个洗衣机一个控制下一步动作的最佳决策函数。由此最佳函数可以制作一个智能控制程序。

具体地，衣物的开始状态，包括衣物的脏污程度与材质还有衣物数量。另外数据归一化处理就是将大范围的数据值全部按照映射关系转化成(0,1)之间的数。例如一组数据为(8,6,4,2)对应归一化为(0.4,0.3,0.2,0.1)；处理后数据间对应比值不变，且总和为1.方便进行数学上的数据处理和分析。

利用深度确定性策略梯度模型计算得到洗衣机在当前状态下需要进行的行动，包括：当前衣物材质为羊毛衫，不脏，当前状态应该进水洗涤，判断需要进水，执行阀门打开动作，根据羊毛不脏，水浊度；温湿度度，我在打开进水阀门30秒之后，进行关闭动作。如果开始状态判断材质是涤纶，不脏；那打开水阀门15秒关闭(因为羊毛类吸水多需要进水多，涤纶吸水差所以进水少)。洗涤结束后，得到新状态，主要是判断水浊度及图像处理得到衣物脏污信息；另外再对比这个阶段耗电量，得到一个奖励反馈，比如7分。下次训练比如进水阀少开一秒；电机少转一下(只是举例)，继续在洗涤结束后得到脏污程度、浊度及耗电量，此次耗电降低了，脏污程度也比较好，给高分(如8.0分)。在一直训练往省电的动作走，同时由环境因素约束(及所诉的那些状态)，主要约束得满足正常洗干净衣物，比如我下一次更加省电，但是浊度不满足要求，奖励会给给低分(如4.0分)。在浊度都满足的条件，一个浊一点，但是耗电量低，一个干净一点。同理，脱水阶段羊毛我就控制电机我执行电机转的更久且达到最高转速更大等，涤纶吸水差反之。其中脱水阶段结束后我获取新状态后(衣物)。再如烘干我羊毛衫、衬衫类，执行动作肯定是加热管温度控制低点，根据湿度控制什么时候该关闭加热管。

本发明的方案，控制模块预装实验强化学习训练得到的使耗电最低最佳策略程序，洗衣机实际使用后，继续开启自主监督学习，在实际使用中继续进行深度强化学习，根据用户的日常习惯优化最佳决策函数，使控制与实际使用更适配。

下面结合图4至图5所示的例子，对本发明的方案的具体实现过程进行示例性说明。

图4为智能选择洗涤模式的神经网络Q-net1的一实施例的流程示意图。如图4所示，神经网络Q-net1，基于衣物材质和脏污程度，能够确定洗涤模式。

图4为一个训练好的神经网络模型，在洗衣机放入衣物后，可以通过识别衣物材质和脏污程度，智能选择洗涤模式启动。一般通过图像识别技术和水质监测等相关技术，将获取的信息作为输入传给神经网络，然后神经网络输出一个洗涤模式控制洗衣机选择相应模式进行洗涤，比如当放入的衣物为羊毛衫，将会选择羊毛洗程序，作为一个初始状态，再如若放入的是普通衣物不脏或比较脏的衣物，根据神经网络匹配一个模式输出，来智能控制洗衣机选择如快洗或极净洗程序启动。如果放入的是小孩衣物或者内衣衣物，则将会轻柔程序启动。本发明的方案，利用此神经网络来确定洗衣机的初始状态。该神经网络模型记录了大量的不同的衣物性质和脏污程度，进行了分类，并通过训练学习将其对应衣物信息应该选择的洗涤程序对应起来，训练成功后，用在实际生活上就是通过一些技术识别了用户衣物信息后，就会通过巨大的神经网络数据库，找到对应的洗涤模式输出。

在本发明的方案中，只是利用这个神经网络控制，选择比较适合的初始状态，后面在此初始状态下进行深度强化学习不断“优化”洗涤策略，到达最省电的最优洗涤策略。

图5为深度确定性策略梯度训练流程的一实施例的流程示意图。图5是深度确定性策略梯度模型的训练过程，目的为了将此模型训练成用户想要的能够满足耗电量最低的模型。如图5所示，深度确定性策略梯度训练流程，包括：

步骤11、获取衣物信息，通过图4所示的神经网络Q-net1选择启动的洗衣机的洗涤模式，即使洗衣机智能选择模型所对应的洗衣模式启动。

步骤12、获取洗衣机的当前状态s_t(初始状态为s₀)。当前状态S_t包括一系列能影响洗衣机主要耗电模块的参数，主要有：水位、浊度、温度和湿度等。其中，水位，影响水阀；浊度，保证衣物洗干净，主要影响电机转动洗涤；温度和湿度，主要影响烘干阶段。

步骤13、通过对获取的当前状态进行归一化去燥处理，输入深度确定性策略模型中，深度确定性模型输出一个执行动作，通过控制模块，控制洗衣机各模块工作，如控制电机转速、加热温度、是否进水、进水多少等等。

例如：归一化，将数据经过处理之后限定到一定的范围内，一般都会将数据限定到[0,1]。数学上归一化有几种方法，去燥可以使用求原数据标准差及方差的方法，使得处理后的数据符合正态分布。依据概率论的知识，假设一组数据服从正态分布，我们设均值是n，方差是v，那么对于每一个离散数值有百分之九十二以上的概率会在(n-3*v，n+3*v)的区间内，所以可以设置在三倍方差v外为噪声干扰，处理时直接去掉这部分数据。

步骤14、将当前需执行的动作输入模拟环境模型，控制洗衣机执行相应动作，得到洗衣机下一状态以及奖励函数值。

步骤15、判断洗衣机是否走完当前阶段，如走完洗涤阶段或脱水阶段或烘干阶段等。若是，则执行步骤16；否则，返回步骤12。

步骤16、检测当前阶段所消耗的电量。如图8所示，另外还加上了一个耗电检测模块进行对最终耗电的检测。

步骤17、收集当前状态、动作、奖励函数值，下一状态以及执行动作，还有每个阶段耗电量及总耗电量，作为一条数据存入深度确定性策略梯度模型经验回收池。

步骤18、判断洗衣机是否结束工作，若是，则执行步骤19；否则，返回步骤12。

步骤19、判断经验回收池是否放慢设定条数据如30000条数据，若是，则执行步骤20；否则，返回步骤12。

步骤20、判断深度确定性策略梯度模型是否收敛，若是，则深度确定性策略梯度模型训练完毕；否则，利用经验回收池中的数据再次训练深度确定性策略模型。

在图5所示的例子中，本发明的方案，采用经验回收方法，构造了一个经验池，在强化学习前，存入了30000条数据在经验池中；在学习中，从经验池中随机取样，可以切断数据间的关联性，加算法收敛速度。

图6为省电模型学习训练流程的一实施例的流程示意图。如图6所示，省电模型学习训练流程，包括：

步骤21、放入样本衣物，获取衣物信息。

步骤22、将当前洗衣机初始状态输入训练完成的确定性策略梯度模型，得到洗衣机在当前状态下所需执行的动作。

步骤23、将洗衣机在当前状态下所需执行的动作输入洗衣机相关控制模块，洗衣机执行动作，与环境进行交互得到下一状态。

步骤24、判断统计每设定次数如100次的训练奖励信号标准差是否小于或等于预设阈值，若是，则强化训练完成；否则，一个迭代循环结束，记录所有状态-动作以及奖励函数以及耗电量作为样本。

图6能够显示进行洗衣机省电智能控制模型的强化学习训练的过程，通过检测当前状态s_t，利用深度确定性策略梯度模型，输出洗衣机执行动作a_t，当前状态改变进入下一状态记录每个状态-动作，并且在每个小阶段(漂洗、脱水、烘干)统计电量，以及奖励函数w_t，统计分阶段的耗电能更好的控制分阶段的动作，逼近总耗电最低的目标，另外洗衣结束后进行总耗电量统计，以及奖励函数评价，评价此次的行动策略，进行自我优化，再重复学习训练。直到达到策略最优的省电，以每100次的强化训练奖励信号的标准差是否小于所设阈值为条件，当满足条件时，即奖励函数基本不变，即可认为已经达到耗电最低。

图7为深度强化学习Actor-Critic算法的一实施例的流程示意图。图7中，Agent，是一种处于一定环境下包装的计算机系统。Actor-Critic(AC)算法，是一种合并了Value-based(比如Q learning)和Policy-based(比如Policy Gradients)两类强化学习算法的算法。

图7为深度强化学习算法架构模型，可以看到，在强化学习的基础上引入两个深度神经网络：Actor网络和Critic网络。Actor网络作为行动决策器，根据输入状态s_t，输出执行动作a_t，结合环境然后得到下一状态s_t+1，将当前状态s_t、当前评价值r_t、下一状态s_t+1输入Critic网络，根据TD方法(即梯度损失函数方法)计算出损失函数TD_error，然后使用梯度下降法对Critic网络进行参数反馈更新，同时Critic网络作为评价器被训练，其输出作为Actor网络的参数来评估训练效果，对Actor网络行动策略进行优化。

其中，q值即q函数值，q函数就是策略函数。q函数值常称为q值也可以说是奖励值。例如t时间下的q值为q(st,at)。q函数代表的是在st状态下执行动作at获得的策略评价。评价高给的奖励值就高。

图8为各种模块控制电路的一实施例的结构示意图。如图8所示，控制模块，包括：深度强化学习评价模块、深度强化学习策略模块和存储器。耗电检测模块、温度检测模块、湿度检测模块、浊度检测模块、电机驱动模块、阀控制模块、烘干加热模块和通信模块，分别与控制模块连接。

本发明的方案中，状态s是包括了温度、湿度、水浊度、水位等，往状态s中加其他可影响因素比如衣物含水率、水电解率等，如加个通过称重得到当前重量，在刚放入衣物时称重得到干衣重量。可计算得到含水率。只是训练时多加一个因素，强化学习模型处理更多相关数据而已，在本发明的方案的保护范围之内。

只是对深度确定性策略梯度算法的优化，比如本发明的方案中经验回收池中放入30000条数据，若增加10万，20万来增加精度，是完成相同功能，也在本发明的方案的保护范围之内。比如使用更高精度的梯度算法来进行优化，但是实现与本发明的方案相同的功能。

由于本实施例的洗衣机所实现的处理及功能基本相应于前述图3所示的装置的实施例、原理和实例，故本实施例的描述中未详尽之处，可以参见前述实施例中的相关说明，在此不做赘述。

经大量的试验验证，采用本发明的技术方案，通过根据衣物材质和衣物脏污程度确定洗衣机的运行模式，并在确定的运行模式下根据温度、湿度、水位、水浊度等状态参数确定洗衣机的动作，以使洗衣机根据当前的运行模式下的状态执行相应的动作，能够根据不同状态调整对应的动作，能够更合理、更节能地完成洗衣过程。

根据本发明的实施例，还提供了对应于洗衣机的控制方法的一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行以上所述的洗衣机的控制方法。

由于本实施例的存储介质所实现的处理及功能基本相应于前述图1至图2所示的方法的实施例、原理和实例，故本实施例的描述中未详尽之处，可以参见前述实施例中的相关说明，在此不做赘述。

经大量的试验验证，采用本发明的技术方案，通过根据衣物材质和衣物脏污程度确定洗衣机的运行模式，并在确定的运行模式下根据温度、湿度、水位、水浊度等状态参数确定洗衣机的动作，以使洗衣机根据当前的运行模式下的状态执行相应的动作，实现动态洗衣，更加智能。

根据本发明的实施例，还提供了对应于洗衣机的控制方法的一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行以上所述的洗衣机的控制方法。

由于本实施例的处理器所实现的处理及功能基本相应于前述图1至图2所示的方法的实施例、原理和实例，故本实施例的描述中未详尽之处，可以参见前述实施例中的相关说明，在此不做赘述。

经大量的试验验证，采用本发明的技术方案，通过根据衣物材质和衣物脏污程度确定洗衣机的运行模式，并在确定的运行模式下根据温度、湿度、水位、水浊度等状态参数确定洗衣机的动作，以使洗衣机根据当前的运行模式下的状态执行相应的动作，保证了正常洗衣功能，也节约了电能。

综上，本领域技术人员容易理解的是，在不冲突的前提下，上述各有利方式可以自由地组合、叠加。

以上所述仅为本发明的实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种洗衣机的控制方法，其特征在于，包括：

获取待洗衣物的当前材质和当前脏污程度；

根据所述待洗衣物的当前材质和当前脏污程度，确定所述洗衣机对所述待洗衣物进行洗衣处理时所选用的当前洗衣模式，并控制所述洗衣机按确定的所述当前洗衣模式运行；

获取所述洗衣机按确定的所述当前洗衣模式运行的当前环境状态；

根据所述当前环境状态，确定所述洗衣机在按确定的所述当前洗衣模式运行的过程中所需要执行的当前动作，并控制所述洗衣机在按确定的所述当前洗衣模式运行的过程中执行所述当前动作；根据所述当前环境状态，确定所述洗衣机在按确定的所述当前洗衣模式运行的过程中所需要执行的当前动作，包括：根据设定环境状态和设定动作之间的第二对应关系，将所述第二对应关系中与所述当前环境状态相同的设定大环境状态所对应的设定动作，确定为与所述当前环境状态对应的当前动作；设定环境状态和设定动作之间的第二对应关系，包括：经预先训练得到的第二神经网络模型；对所述第二神经网络模型的训练过程，包括：利用Actor网络作为行动决策器，根据输入的当前环境状态，输出需执行的当前动作；根据所述洗衣机执行所述当前动作之后的所述洗衣机的洗衣环境的改变，得到下一环境状态；并确定所述洗衣机执行所述当前动作所耗费的当前电量；利用Critic网络作为评价器，根据所述当前环境状态、所述当前动作、所述当前电量和所述下一环境状态，确定所述行动决策器基于所述当前环境状态给出所述当前动作的决策准确性的实际评估值；基于所述实际评估值和预设的目标评估值，通过梯度损失函数，对所述Actor网络和所述Critic网络进行更新，以优化所述Actor网络和所述Critic网络，依次循环，直至所述实际评估值与所述目标评估值之间的差值达到预设误差。

2.根据权利要求1所述的洗衣机的控制方法，其特征在于，根据所述待洗衣物的当前材质和当前脏污程度，确定所述洗衣机对所述待洗衣物进行洗衣处理时所选用的当前洗衣模式，包括：

根据设定材质、设定脏污程度和设定洗衣模式之间的第一对应关系，将所述第一对应关系中与所述当前材质相同的设定材质、以及与所述当前脏污程度相同的设定脏污程度对应的设定洗衣模式，确定为与所述当前材质和所述当前脏污程度对应的当前洗衣模式。

3.根据权利要求2所述的洗衣机的控制方法，其特征在于，其中，设定材质、设定脏污程度和设定洗衣模式之间的第一对应关系，包括：经预先训练得到的第一神经网络模型；所述第一神经网络模型的第一输入端能够输入所述当前材质，所述第一神经网络模型的第二输入端能够输入所述设定脏污程度，所述第一神经网络模型的输出端能够输出所述当前洗衣模式。

4.根据权利要求1至3中任一项所述的洗衣机的控制方法，其特征在于，

其中，所述当前环境状态、所述设定环境状态中的环境状态，包括：温度、湿度、水位、水浊度中的至少之一；所述当前动作、所述设定动作中的动作，包括：电机转速、加热温度、是否进水、以及进水量中的至少之一。

5.根据权利要求1所述的洗衣机的控制方法，其特征在于，其中，所述第二神经网络模型的输入端能够输入所述当前环境状态，所述第二神经网络模型的输出端能够输出所述当前动作。

6.一种洗衣机的控制装置，其特征在于，包括：

获取单元，被配置为获取待洗衣物的当前材质和当前脏污程度；

控制单元，被配置为根据所述待洗衣物的当前材质和当前脏污程度，确定所述洗衣机对所述待洗衣物进行洗衣处理时所选用的当前洗衣模式，并控制所述洗衣机按确定的所述当前洗衣模式运行；

所述获取单元，还被配置为获取所述洗衣机按确定的所述当前洗衣模式运行的当前环境状态；

所述控制单元，还被配置为根据所述当前环境状态，确定所述洗衣机在按确定的所述当前洗衣模式运行的过程中所需要执行的当前动作，并控制所述洗衣机在按确定的所述当前洗衣模式运行的过程中执行所述当前动作；所述控制单元，根据所述当前环境状态，确定所述洗衣机在按确定的所述当前洗衣模式运行的过程中所需要执行的当前动作，包括：根据设定环境状态和设定动作之间的第二对应关系，将所述第二对应关系中与所述当前环境状态相同的设定大环境状态所对应的设定动作，确定为与所述当前环境状态对应的当前动作；其中，设定环境状态和设定动作之间的第二对应关系，包括：经预先训练得到的第二神经网络模型；所述控制单元，对所述第二神经网络模型的训练过程，包括：利用Actor网络作为行动决策器，根据输入的当前环境状态，输出需执行的当前动作；根据所述洗衣机执行所述当前动作之后的所述洗衣机的洗衣环境的改变，得到下一环境状态；并确定所述洗衣机执行所述当前动作所耗费的当前电量；利用Critic网络作为评价器，根据所述当前环境状态、所述当前动作、所述当前电量和所述下一环境状态，确定所述行动决策器基于所述当前环境状态给出所述当前动作的决策准确性的实际评估值；基于所述实际评估值和预设的目标评估值，通过梯度损失函数，对所述Actor网络和所述Critic网络进行更新，以优化所述Actor网络和所述Critic网络，依次循环，直至所述实际评估值与所述目标评估值之间的差值达到预设误差。

7.根据权利要求6所述的洗衣机的控制装置，其特征在于，所述控制单元，根据所述待洗衣物的当前材质和当前脏污程度，确定所述洗衣机对所述待洗衣物进行洗衣处理时所选用的当前洗衣模式，包括：

8.根据权利要求7所述的洗衣机的控制装置，其特征在于，其中，设定材质、设定脏污程度和设定洗衣模式之间的第一对应关系，包括：经预先训练得到的第一神经网络模型；所述第一神经网络模型的第一输入端能够输入所述当前材质，所述第一神经网络模型的第二输入端能够输入所述设定脏污程度，所述第一神经网络模型的输出端能够输出所述当前洗衣模式。

9.根据权利要求6至8中任一项所述的洗衣机的控制装置，其特征在于，其中，所述当前环境状态、所述设定环境状态中的环境状态，包括：温度、湿度、水位、水浊度中的至少之一；所述当前动作、所述设定动作中的动作，包括：电机转速、加热温度、是否进水、以及进水量中的至少之一。

10.根据权利要求6所述的洗衣机的控制装置，其特征在于，所述第二神经网络模型的输入端能够输入所述当前环境状态，所述第二神经网络模型的输出端能够输出所述当前动作。

11.一种洗衣机，其特征在于，包括：如权利要求6至10中任一项所述的洗衣机的控制装置。

12.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至5中任一项所述的洗衣机的控制方法。

13.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至5中任一项所述的洗衣机的控制方法。