CN109858574A

CN109858574A - 面向人机协同工作的智能体的自主学习方法和系统

Info

Publication number: CN109858574A
Application number: CN201910198409.1A
Authority: CN
Inventors: 孟红; 唐振坤
Original assignee: Qiyuan World (beijing) Information Technology Service Co Ltd
Current assignee: Qiyuan World (beijing) Information Technology Service Co Ltd
Priority date: 2018-12-14
Filing date: 2019-03-15
Publication date: 2019-06-07
Anticipated expiration: 2039-03-15
Also published as: CN109858574B

Abstract

本发明属于人工智能技术领域，公开了一种面向人机协同工作的智能体的自主学习方法和系统，方法包括获取协作数据集，根据协作数据集训练合作智能体和模拟智能体，根据获取的训练后的合作智能体和模拟智能体在环境中协作生成的评估数据评估两者是否达到评估要求，若判断为达到评估要求，则判断训练后的模拟智能体是否需要新的模仿学习，若判断为否，则结束训练后的合作智能体的自主学习。系统包括合作智能体、模拟智能体和服务器。本发明通过上述方案能够适应环境的动态变化，在类似的环境中取得同样的性能效果，能够模拟不同示教者的演示行为，从而使训练的智能体能够适应示教者的动态变化，针对不同操作水平的示教者也能达到同样的协作效果。

Description

面向人机协同工作的智能体的自主学习方法和系统

技术领域

本发明属于人工智能技术领域，特别涉及一种面向人机协同工作的智能体的自主学习方法和系统。

背景技术

人机协作模式下，智能体(实体可以为机器人)与人类共同协作完成相应的任务，因此智能体需具备与人协作的能力。

现有技术中，可以通过专家系统使智能体具有该能力，专家系统是通过大量的领域专家水平的知识与经验，利用人类专家的知识和解决问题的方法来处理该领域问题。专家系统会不断更新和总结专家的知识经验，结合规则编程形成知识库，但无法根据复杂环境的动态变化而相适应，另外通过专家的指导来学习训练模型，专家的演示成本较高，而且只能代表专家的水平，无法根据参与人的动态变化而相适应。还可以通过有监督学习方法使智能体具有该能力。在该方法中通过人类标注好的数据样本，机器学习模型会不断地学习，训练优化得到很好的效果，应用在图像分类、语音识别等领域都有重大的进展。但是当把监督学习应用到复杂环境中，不仅需要人为地拆分各个问题为子问题，还要求能提供大量的数据样本供模型学习训练。

发明内容

为了至少解决或部分解决上述问题，本发明一方面提供了一种面向人机协同工作的智能体的自主学习方法，其包括：S1，获取协作数据集，所述协作数据集包含：在合作智能体与示教者在环境中进行多次协作后分别由所述合作智能体生成的合作数据子集和由所述示教者生成的演示数据子集；S2，基于强化学习方法利用合作数据子集训练所述合作智能体，基于模仿学习方法利用所述演示数据子集训练模拟智能体；S3，获取训练后的合作智能体和模拟智能体在所述环境中协作生成的评估数据，所述评估数据包含：训练后的合作智能体生成的合作评估数据和训练后的模拟智能体生成的模拟评估数据；S4，根据所述合作评估数据评估所述训练后的合作智能体是否达到评估要求，根据所述模拟评估数据评估所述训练后的模拟智能体是否达到评估要求；S5，若所述训练后的合作智能体和所述模拟智能体均已达到评估要求，则判断所述训练后的模拟智能体是否需要新的模仿学习；S6，若判断为是，则执行步骤S1，并且将示教者替换为：不同的示教者或者不同水平的同一示教者；S7，若判断为否，则结束所述训练后的合作智能体的自主学习；S8，若训练后的合作智能体和/或模拟智能体未达到评估要求，则执行步骤S1，并将示教者替换为训练后的模拟智能体。

在如上所述的自主学习方法中，优选地，所述模仿学习方法为强化学习方法。

在如上所述的自主学习方法中，优选地，所述步骤S4中根据所述合作评估数据评估所述训练后的合作智能体是否达到评估要求，具体包括：判断所述合作评估数据表征的行为在与所述训练后的模拟智能体配合所完成任务的水平程度，若符合预设水平程度要求，则达到评估要求，否则未达到评估要求；所述步骤S4中根据所述模拟评估数据评估所述训练后的模拟智能体是否达到评估要求，具体包括：比较所述模拟评估数据所表征的行为和人类演示数据所表征的行为的差异度，若符合预设差异度要求，则达到评估要求，否则未达到评估要求。

在如上所述的自主学习方法中，优选地，所述步骤S5中，判断所述训练后的模拟智能体是否需要新的模仿学习，具体包括：判断与所述合作智能体协作的示教者的数量是否达到了预设的模仿配置数量。

本发明另一方面还提供了一种面向人机协同工作的智能体的自主学习系统，用于执行上述方法，其包括：合作智能体，用于与示教者在环境中多次协作生成协作数据集中的合作数据子集；模拟智能体，用于模拟所述示教者角色的行为；服务器，用于基于强化学习方法利用所述合作数据子集训练所述合作智能体，基于模仿学习方法利用所述协作数据集中由所述示教者生成的演示数据子集训练模拟智能体，根据训练后的合作智能体和模拟智能体在所述环境中协作生成的评估数据判断所述训练后的合作智能体和模拟智能体是否达到评估要求，若达到评估要求，则判断所述训练后的模拟智能体是否需要新的模仿学习，若判断为否，则结束所述训练后的合作智能体的自主学习。

在如上所述的自主学习系统中，优选地，所述服务器基于强化学习方法利用所述协作数据集中由所述示教者生成的演示数据子集训练模拟智能体。

在如上所述的自主学习系统中，优选地，所述服务器根据训练后的合作智能体和模拟智能体在所述环境中协作生成的评估数据判断所述训练后的合作智能体和模拟智能体是否达到评估要求，具体包括：所述服务器获取训练后的合作智能体和模拟智能体在所述环境中协作生成评估数据，所述评估数据包含：训练后的合作智能体生成的合作评估数据和训练后的模拟智能体生成的模拟评估数据；根据所述合作评估数据评估所述训练后的合作智能体是否达到评估要求，根据所述模拟评估数据评估所述训练后的模拟智能体是否达到评估要求。

在如上所述的自主学习系统中，优选地，所述服务器判断所述训练后的模拟智能体是否需要新的模仿学习，具体包括：所述服务器判断与所述合作智能体协作的示教者的数量是否达到了预设的模仿配置数量。

本发明实施例提供的技术方案带来的有益效果是：

基于强化学习技术能够适应环境的动态变化，在类似的环境中取得同样的性能效果。

能够模拟不同示教者的演示行为，从而使训练的智能体能够适应示教者的动态变化，针对不同操作水平的示教者也能达到同样的协作效果。

通过课程学习能够自动评估智能体的学习效果，高效利用人类的演示数据，降低演示成本。

附图说明

图1为本发明实施例提供的一种面向人机协同工作的智能体的自主学习方法的流程示意图。

图2为本发明实施例提供的一种面向人机协同工作的智能体的自主学习系统的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

以下对本发明实施例涉及的一些技术术语进行解释。

环境和动作均为强化学习(Reinforcement Learning，RL)中涉及的技术术语。环境是指智能体执行动作时所处的场景，其与智能体发生交互，将环境的当前状态发送给智能体。动作是指智能体响应于该环境的当前状态执行的动作。强化学习，也叫增强学习，是指一类从与环境交互中不断学习的问题以及解决这类问题的方法。强化学习问题可以描述为一个智能体从与环境的交互中不断学习以完成特定目标(比如取得最大奖励值)。深度强化学习是结合了强化学习与深度学习的产物，基于强化学习的算法框架，将深度学习应用到状态与策略的预测。课程学习方法是指：模拟人类的认知机理，先学习简单的、普适的知识(或称课程)，然后逐渐增加难度，过渡到学习更复杂、更专门的知识，以此完成对复杂对象的认知。人类受教育的“课程”正是按照这样的规律来帮助获取知识与能力的。模拟这一过程，可以将学习对象(数据、特征、概念等)按其对学习目标的难易程度，从易到难开展学习，以这种方式让智能体完成复杂的学习与推理任务。

参见图1，本发明实施例提供了一种面向人机协同工作的智能体的自主学习方法，其具体包括如下步骤：

步骤S1，获取由合作智能体与示教者在环境中进行多次协作而生成的协作数据集，协作数据子集包含：由合作智能体生成的合作数据子集和由示教者生成的演示数据子集。

合作智能体与示教者(或称人类)在环境中进行协作，进而生成协作数据(或称训练样本)，该协作数据分为由合作智能体生成的合作数据和由示教者生成的演示数据。依此进行多次协作，则得到协作数据集(或称训练样本集)，其分为合作数据子集和演示数据子集。合作数据子集包括每次协作生成的合作数据。演示数据子集包括每次协作生成的演示数据。合作智能体为在人机协作(或称协同工作)的任务中，与人类合作的智能体(Agent)。

步骤S2，基于强化学习方法利用合作数据子集训练合作智能体，基于模仿学习方法利用演示数据子集训练模拟智能体。

在训练合作智能体时，采用强化学习方法(或称算法)，将协作数据集中的合作数据子集内的每个合作数据处理成：状态、行动、奖赏三元组，从零开始在环境中尝试与人的协作，当合作智能体在某一状态上行动使得任务成功，则有很高的奖赏回报，而如果任务失败则为很低的奖赏回报，从而可以使得强化学习算法能不断迭代学习，最终尽可能产生高奖赏回报的动作。

模拟智能体是用于模拟示教者角色行为(或称人类角色行为)的智能体，换言之，模拟智能体需要建模人类的决策，预测人类角色将产生的行为。在训练模拟智能体时，模仿学习方法可以采用机器学习方法，比如有监督学习方法(也称行为克隆)，将人类的演示数据处理成：状态、行动二元组，即直接学习在指定状态下需要采取的动作。但为了更好的模拟效果，采用强化学习算法，即将人类的演示数据处理成：状态、行动、奖赏三元组，让模拟智能体从零开始模仿，这时的奖赏是如果模拟智能体产生的行动与人类的演示行为一致，才会给予很高的奖赏回报，这样算法也可以不断迭代学习，模拟智能体最终产生的是与人类演示行为相一致的动作。需要说明的是：合作智能体与模拟智能体优选均采用神经网络来实现，更优选采用深度神经网络实现，此时合作智能体采用深度强化学习模型来控制其自身分行为。达到收敛要求或符合预设条件则结束合作智能体和模拟智能体的训练。

步骤S3，获取训练后的合作智能体和模拟智能体在环境中协作生成的评估数据，评估数据包含：训练后的合作智能体生成的合作评估数据和训练后的模拟智能体生成的模拟评估数据。

经步骤S2训练后的合作智能体和模拟智能体在环境中进行协作，生成协作数据，该协作数据用于评估训练后的模拟智能体与训练后的合作智能体的性能效果，因此将此协作数据称为评估数据。评估数据包含：训练后的合作智能体生成的合作评估数据和训练后的模拟智能体生成的模拟评估数据。前述两者数据均包含：行为数据。

步骤S4，根据合作评估数据评估训练后的合作智能体是否达到评估要求，根据模拟评估数据评估训练后的模拟智能体是否达到评估要求。

其中，根据合作评估数据评估训练后的合作智能体是否达到评估要求，具体包括：判断合作评估数据表征的训练后的合作智能体的行为在与训练后的模拟智能体配合完成任务的水平程度，若符合预设水平程度要求，则达到评估要求，否则未达到评估要求。也就是说，比较训练后的合作智能体配合当前模拟智能体完成任务的水平程度，训练后的合作智能体的评估要求(或称预设水平程度要求)是能够高质量、高水平地完成任务。实际应用中，预设水平程度要求根据不同的应用场景，使用者可以进行适应性地调整。

根据模拟评估数据评估训练后的模拟智能体是否达到评估要求，具体包括：比较模拟评估数据所表征的行为和人类演示数据所表征的行为的差异度，若符合预设差异要求，则达到评估要求，否则未达到评估要求。也就是说，比较训练后的模拟智能体的行为与人类的演示行为的差异，训练后的模拟智能体的评估要求是能够表现出本轮自主学习方法中人类(即前述步骤S1中人类)的演示动作及演示动作达到的结果，实际应用中，可以是结果相同，而为完成结果的模拟智能体与人类的演示行为之间有差异。

S5，若训练后的合作智能体和模拟智能体均已达到评估要求，则判断训练后的模拟智能体是否需要新的模仿学习。

具体地，判断训练后的模拟智能体与训练后的合作智能体的配合程度是否达到任务要求，即根据评估数据判断训练后的模拟智能体是否能够模拟完成任务的不同水平的人类，此时训练后的合作智能体也需高质量地与训练后的模拟智能体配合完成任务。实际应用中，根据不同的应用场景，配合程度的要求会进行适应性地调整。换言之，判断模拟智能体的训练是否完成了训练的多样性，即是否完成了预设的模仿配置数量的训练。示教者的数量和/或同一示教者的水平级数为预设的训练配置数量，可以是仅有多个示教者，每个示教者仅具有一个水平，也可以是仅有一个示教者，该示教者具有多个水平；还可以是既有多个示教者，每个示教者又具有至少一个水平，本实施例对此不进行限定。

S6，若判断为是，即判断为需要新的模仿学习，则执行步骤S1，并且将示教者替换为：不同的示教者或者不同水平的同一示教者。

具体地，获取由合作智能体与人类在环境中进行协作而生成的协作数据，协作数据包含：由合作智能体生成的合作数据和由人类生成的演示数据，该人类与上一轮自主学习方法的人不同或者为同一人但动作水平不同。将示教者替换为不同水平的同一示教者是指同一示教者用区别于已演示的动作水平的动作水平与合作智能体协作。

S7，若判断为否，即判断为不需要新的模仿学习，则结束训练后的合作智能体的自主学习。

S8，若训练后的合作智能体和/或模拟智能体未达到评估要求，则执行步骤S1，并将人类替换为训练后的模拟智能体。

若评估训练后的合作智能体和/或训练后的模拟智能体未评估要求，则执行步骤S1，并将人类替换为训练后的模拟智能体，即：获取由训练后的合作智能体与训练后的模拟智能体在环境中进行多次协作而生成的协作数据集，该协作数据集包含：由训练后的合作智能体生成的合作数据子集和由训练后的模拟智能体生成的演示数据子集(该演示数据并不是由人类演示生成的数据，为了描述方便，将其称为演示数据)。然后对应地执行步骤S2，基于强化学习方法利用合作数据子集训练该训练后的合作智能体(该训练后的合作智能体为上一轮训练的合作智能体，相对于本轮的步骤S1来说，该训练后的合作智能体可以称为合作智能体)，基于模仿学习方法利用演示数据子集训练该训练后的模拟智能体(该训练后的模拟智能体为上一轮训练的模拟智能体，相对于本轮的步骤S1来说，该训练后的合作智能体可以称为模拟智能体)。接着执行步骤S3、S4、S5或S8。需要说明的是：在将人类替换为训练后的模拟智能体后，可以调整合作智能体与模拟智能体协作所完成任务的级别，即基于课程学习方法训练合作智能体和模拟智能体，如此可以不断提升合作智能体的协作水平，高效利用人类的演示数据，降低演示成本。

本发明实施例通过采用强化学习方法训练，使得合作智能体能够适应环境的动态变化，在类似的环境中取得同样的性能效果。通过使模拟智能体模拟不同示教者的演示行为，从而使合作智能体能够适应示教者的动态变化，针对不同操作水平的人也能达到同样的协作效果。

参见图2，本发明实施例提供了一种面向人机协同工作的智能体的自主学习系统，其具体包括：合作智能体1、模拟智能体2和服务器3。

合作智能体1用于与示教者4在环境5中协作生成协作数据集中的合作数据子集。模拟智能体2，用于模拟示教者4角色的行为。服务器3用于基于强化学习方法利用合作数据子集训练合作智能体1，基于模仿学习方法利用协作数据集中由示教者生成的演示数据子集训练模拟智能体2，根据训练后的合作智能体1和模拟智能体2在环境4中协作生成的评估数据判断训练后的合作智能体1和模拟智能体2是否达到评估要求，若达到评估要求，则判断训练后的模拟智能体2是否需要新的模仿学习，若判断为否，则结束训练后的合作智能体1的自主学习。

优选地，服务器3基于强化学习方法利用协作数据中由示教者生成的演示数据子集训练模拟智能体2。

优选地，服务器3根据训练后的合作智能体1和模拟智能体2在环境4中协作生成的评估数据判断训练后的合作智能体1和模拟智能体2是否达到评估要求，具体包括：服务器3获取训练后的合作智能体1和模拟智能体2在环境中协作生成评估数据，评估数据包含：训练后的合作智能体1生成的合作评估数据和训练后的模拟智能体2生成的模拟评估数据；根据合作评估数据评估训练后的合作智能体1是否达到评估要求，根据模拟评估数据评估训练后的模拟智能体2是否达到评估要求。

优选地，服务器3判断训练后的模拟智能体2是否需要新的模仿学习，具体包括：服务器3判断与所述合作智能体协作的示教者的数量是否达到了预设的模仿配置数量。

合作智能体1与模仿智能体2都需要通过大量的数据来学习训练。

需要说明的是，关于合作智能体、模拟智能体和服务器的相关功能的描述参见上述实施例中步骤S1～S8的相关内容，此处不再一一赘述。

本发明适合需要人机智能协作的场景，包括但不限于以下场景：工业机器人控制、智能家居、智能生活助手、自动驾驶、医疗助理及智能教育助理等。

本发明实施例通过采用强化学习方法训练，使得合作智能体能够适应环境的动态变化，在类似的环境中取得同样的性能效果。通过使模拟智能体模拟不同示教者的演示行为，从而使合作智能体能够适应示教者的动态变化，针对不同操作水平的示教者也能达到同样的协作效果。

由技术常识可知，本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此，上述公开的实施方案，就各方面而言，都只是举例说明，并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。

Claims

1.一种面向人机协同工作的智能体的自主学习方法，其特征在于，所述自主学习方法包括：

S1，获取协作数据集，所述协作数据集包含：合作智能体与示教者在环境中进行多次协作后分别由所述合作智能体生成的合作数据子集和由所述示教者生成的演示数据子集；

S2，基于强化学习方法利用合作数据子集训练所述合作智能体，基于模仿学习方法利用所述演示数据子集训练模拟智能体；

S3，获取训练后的合作智能体和模拟智能体在所述环境中协作生成的评估数据，所述评估数据包含：训练后的合作智能体生成的合作评估数据和训练后的模拟智能体生成的模拟评估数据；

S4，根据所述合作评估数据评估所述训练后的合作智能体是否达到评估要求，根据所述模拟评估数据评估所述训练后的模拟智能体是否达到评估要求；

S5，若所述训练后的合作智能体和所述模拟智能体均已达到评估要求，则判断所述训练后的模拟智能体是否需要新的模仿学习；

S6，若判断为是，则执行步骤S1，并且将所述示教者替换为：不同的示教者或者不同水平的同一示教者；

S7，若判断为否，则结束所述训练后的合作智能体的自主学习；

S8，若训练后的合作智能体和/或模拟智能体未达到评估要求，则执行步骤S1，并将示教者替换为训练后的模拟智能体。

2.根据权利要求1所述的自主学习方法，其特征在于，所述模仿学习方法为强化学习方法。

3.根据权利要求1所述的自主学习方法，其特征在于，所述步骤S4中根据所述合作评估数据评估所述训练后的合作智能体是否达到评估要求，具体包括：

判断所述合作评估数据表征的行为在与所述训练后的模拟智能体配合所完成任务的水平程度，若符合预设水平程度要求，则达到评估要求，否则未达到评估要求；

所述步骤S4中根据所述模拟评估数据评估所述训练后的模拟智能体是否达到评估要求，具体包括：

比较所述模拟评估数据所表征的行为和人类演示数据所表征的行为的差异度，若符合预设差异度要求，则达到评估要求，否则未达到评估要求。

4.根据权利要求1所述的自主学习方法，其特征在于，所述步骤S5中，判断所述训练后的模拟智能体是否需要新的模仿学习，具体包括：

判断与所述合作智能体协作的示教者的数量是否达到了预设的模仿配置数量。

5.一种面向人机协同工作的智能体的自主学习系统，用于执行权利要求1～4中任一项所述的方法，其特征在于，所述系统包括：

合作智能体，用于与示教者在环境中多次协作生成协作数据集中的合作数据子集；

模拟智能体，用于模拟所述示教者角色的行为；

服务器，用于基于强化学习方法利用所述合作数据子集训练所述合作智能体，基于模仿学习方法利用所述协作数据集中由所述示教者生成的演示数据子集训练模拟智能体，根据训练后的合作智能体和模拟智能体在所述环境中协作生成的评估数据判断所述训练后的合作智能体和模拟智能体是否达到评估要求，若达到评估要求，则判断所述训练后的模拟智能体是否需要新的模仿学习，若判断为否，则结束所述训练后的合作智能体的自主学习。

6.根据权利要求5所述的自主学习系统，其特征在于，所述服务器基于强化学习方法利用所述协作数据集中由所述示教者生成的演示数据子集训练模拟智能体。

7.根据权利要求5所述的自作学习系统，其特征在于，所述服务器根据训练后的合作智能体和模拟智能体在所述环境中协作生成的评估数据判断所述训练后的合作智能体和模拟智能体是否达到评估要求，具体包括：

所述服务器获取训练后的合作智能体和模拟智能体在所述环境中协作生成评估数据，所述评估数据包含：训练后的合作智能体生成的合作评估数据和训练后的模拟智能体生成的模拟评估数据；

根据所述合作评估数据评估所述训练后的合作智能体是否达到评估要求，根据所述模拟评估数据评估所述训练后的模拟智能体是否达到评估要求。

8.根据权利要求5所述的自作学习系统，其特征在于，所述服务器判断所述训练后的模拟智能体是否需要新的模仿学习，具体包括：

所述服务器判断与所述合作智能体协作的示教者的数量是否达到了预设的模仿配置数量。