CN112527104A

CN112527104A - 确定参数确定方法、装置、设备及存储介质

Info

Publication number: CN112527104A
Application number: CN202011331054.8A
Authority: CN
Inventors: 张万鹏; 罗迪君; 肖喜
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2021-03-19

Abstract

本申请公开了一种确定参数确定方法、装置、设备及存储介质，属于人工智能领域。本申请实施例中，一方面，为真实环境生成了虚拟环境，以虚拟环境来模拟真实环境，并产生模拟环境数据，基于模拟环境数据更新确定参数，避免了与传感器、控制器等硬件设备的数据交互次数和数据量，从而能够大大提高确定参数的确定效率。另一方面，通过至少两个虚拟环境组合来模拟该真实环境，后续通过虚拟环境执行动作控制指令时，通过随机选择一个虚拟环境来得到模拟环境数据，能够捕捉真实环境中的不确定性，提高虚拟环境的表达能力，缩小虚拟环境与真实环境之间的差异，虚拟环境更加贴合真实环境，进而能够提高确定的确定参数的准确性。

Description

确定参数确定方法、装置、设备及存储介质

技术领域

本申请涉及人工智能领域，特别涉及一种确定参数确定方法、装置、设备及存储介质。

背景技术

强化学习是机器学习中的一个领域。强化学习强调如何基于环境而行动，以取得最大化的预期利益。近年来强化学习技术被广泛用于各个领域。

目前，动作控制指令的确定参数确定方法通常是在真实场景下，通过传感器实时采集真实环境数据，然后由控制器根据动作控制指令的确定参数对真实环境数据进行处理，确定下一个动作控制指令，再根据下一个动作控制指令，实时采集真实环境数据，根据采集到的真实环境数据，对动作控制指令的确定参数进行更新，确定下下一个动作控制指令，以此类推，最终确定出目标确定参数。

在该方式中，当前学习确定参数的设备需要大量与传感器、控制器等硬件设备进行数据交互，需要大量操控硬件设备，对其损耗较大，导致成本高昂，且由于这些硬件设备在各种工作场景中效率低下，导致上述强化学习过程会受限于这些硬件设备的工作效率，确定动作控制指令的确定参数时效率低下。

发明内容

本申请实施例提供了一种确定参数确定方法、装置、设备及存储介质，能够提高确定参数的确定效率和准确性。所述技术方案如下：

一方面，提供了一种动作控制指令的确定参数确定方法，所述方法包括：

获取真实环境的真实环境数据；

基于所述真实环境数据中至少两组数据，生成所述真实环境对应的至少两个虚拟环境；

从所述至少两个虚拟环境中，随机选择一个目标虚拟环境执行第一动作控制指令，得到模拟环境数据；

基于所述模拟环境数据，对动作控制指令的确定参数进行更新，确定第二动作控制指令；

继续基于所述第二动作控制指令，随机选择一个目标虚拟环境执行第二动作控制指令和更新所述确定参数，直至符合第一目标条件，得到目标确定参数。

在一些实施例中，所述第一目标条件为所述期望值收敛；或者所述第一目标条件为迭代次数达到目标次数。

一方面，提供了一种动作控制指令的确定参数确定装置，所述装置包括：

获取模块，用于获取真实环境的真实环境数据；

生成模块，用于基于所述真实环境数据中至少两组数据，生成所述真实环境对应的至少两个虚拟环境；

所述获取模块，还用于从所述至少两个虚拟环境中，随机选择一个目标虚拟环境执行第一动作控制指令，得到模拟环境数据；

更新模块，用于基于所述模拟环境数据，对动作控制指令的确定参数进行更新，确定第二动作控制指令；

所述获取模块和所述更新模块，还用于继续基于所述第二动作控制指令，随机选择一个目标虚拟环境执行第二动作控制指令和更新所述确定参数，直至符合第一目标条件，得到目标确定参数。

在一些实施例中，所述生成模块用于：

对所述真实环境数据进行分组，得到至少两组数据；

基于所述至少两组数据，训练至少两个神经网络，得到所述真实环境对应的至少两个虚拟环境，其中，一个虚拟环境基于一组数据对一个神经网络训练得到。

在一些实施例中，所述生成模块用于：

对所述真实环境数据进行至少两次随机采样，得到所述至少两组数据。

在一些实施例中，所述真实环境数据包括目标所处的环境状态以及所述目标所执行的动作控制指令；

在一些实施例中，所述生成模块用于：

分别将所述至少两组数据输入所述至少两个神经网络中；

对于所述至少两个神经网络中一个神经网络，由所述神经网络基于所述目标所处的任一环境状态，以及所述目标在所述环境状态下所执行的动作控制指令，确定所述目标所处的候选环境状态；

基于所述候选环境状态以及所述真实环境数据中的目标环境状态，获取所述候选环境状态的误差；

基于所述误差，对所述神经网络的网络参数进行调整，直至符合第二目标条件时停止。

在一些实施例中，所述获取模块用于：

获取第一动作控制指令；

从所述至少两个虚拟环境中，随机选择一个虚拟环境作为所述目标虚拟环境；

基于所述目标虚拟环境中目标所处的环境状态以及所述第一动作控制指令，获取所述目标所处的下一个环境状态，将所述目标所处的下一个环境状态作为所述候选环境数据。

在一些实施例中，所述目标虚拟环境基于神经网络实现；

所述获取模块用于将所述第一动作控制指令输入目标神经网络中，由所述目标神经网络对目标所处的环境状态和所述第一动作控制指令，确定所述目标所处的环境状态变化信息，基于所述环境状态变化信息，输出所述目标所处的下一个环境状态。

在一些实施例中，所述更新模块用于：

基于目标筛选规则，对所述模拟环境数据进行筛选；

基于筛选后的模拟环境数据，对所述动作控制指令的确定参数进行更新。

在一些实施例中，所述更新模块用于：

将所述目标虚拟环境执行第一动作控制指令的过程中产生的模拟环境数据分批写入缓存；

响应于所述缓存中数据的数据量达到阈值，基于目标筛选规则，对所述缓存中的模拟环境数据进行筛选；

清空所述缓存，继续执行所述分批写入的步骤和筛选步骤，直至达到第三目标条件时停止，得到筛选后的模拟环境数据。

在一些实施例中，所述更新模块用于执行下述任一项：

基于所述缓存中的模拟环境数据，确定目标阈值；将所述模拟环境数据中高于所述目标阈值的数据去除，得到筛选后的模拟环境数据；

对所述缓存中的模拟环境数据进行分析，将与目标事件相关的行为数据去除，得到筛选后的模拟环境数据。

在一些实施例中，所述更新模块用于：

基于所述模拟环境数据和所述第一动作控制指令，获取期望值；

获取所述期望值的梯度；

基于所述梯度，对动作控制指令的确定参数进行更新；

基于更新后的确定参数、所述模拟环境数据以及所述第一动作控制指令，确定第二动作控制指令。

在一些实施例中，所述获取模块用于基于传感器，采集真实环境中目标所处的环境状态，以及所述目标在所述环境状态下所执行的动作控制指令，得到所述真实环境数据。

在一些实施例中，所述装置还包括：

确定模块，用于基于所述真实环境数据和所述第二动作控制指令，确定目标在所述真实环境中执行所述第二动作控制指令后的目标环境状态；

所述更新模块，还用于基于所述目标环境状态，以及目标虚拟环境执行所述第二动作控制指令得到的模拟环境数据，对所述目标虚拟环境进行更新。

一方面，提供了一种电子设备，所述电子设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述一个或多个处理器加载并执行以实现上述动作控制指令的确定参数确定方法的各种可选实现方式。

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现上述动作控制指令的确定参数确定方法的各种可选实现方式。

一个方面，提供了一种计算机程序产品或计算机程序，所述计算机程序产品或所述计算机程序包括一条或多条程序代码，所述一条或多条程序代码存储在计算机可读存储介质中。电子设备的一个或多个处理器能够从计算机可读存储介质中读取所述一条或多条程序代码，所述一个或多个处理器执行所述一条或多条程序代码，使得电子设备能够执行上述任一种可能实施方式的动作控制指令的确定参数确定方法。

本申请实施例中，一方面，为真实环境生成了虚拟环境，以虚拟环境来模拟真实环境，并产生模拟环境数据，基于模拟环境数据更新确定参数，避免了与传感器、控制器等硬件设备的数据交互次数和数据量，从而能够大大提高确定参数的确定效率。另一方面，通过至少两个虚拟环境组合来模拟该真实环境，后续通过虚拟环境执行动作控制指令时，通过随机选择一个虚拟环境来得到模拟环境数据，能够捕捉真实环境中的不确定性，提高虚拟环境的表达能力，缩小虚拟环境与真实环境之间的差异，虚拟环境更加贴合真实环境，进而能够提高确定的确定参数的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还能够根据这些附图获得其他的附图。

图1是本申请实施例提供的一种动作控制指令的确定参数确定方法的实施环境的示意图；

图2是本申请实施例提供的一种动作控制指令的确定参数确定方法的流程图；

图3是本申请实施例提供的一种动作控制指令的确定参数确定方法的流程图；

图4是本申请实施例提供的一种神经元模型的结构示意图；

图5是本申请实施例提供的一种神经网络的基本结构的示意图；

图6是本申请实施例提供的一种模拟环境模块的示意图；

图7是本申请实施例提供的一种数据筛选模块的示意图；

图8是本申请实施例提供的一种策略优化模块的示意图；

图9是本申请实施例提供的一种动作控制指令的确定参数确定方法的整体架构示意图；

图10是本申请实施例提供的一种动作控制指令的确定参数确定装置的结构示意图；

图11是本申请实施例提供的一种电子设备的结构示意图；

图12是本申请实施例提供的一种终端的结构框图；

图13是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。还应理解，尽管以下描述使用术语第一、第二等来描述各种元素，但这些元素不应受术语的限制。这些术语只是用于将一元素与另一元素区别分开。例如，在不脱离各种示例的范围的情况下，第一图像能够被称为第二图像，并且类似地，第二图像能够被称为第一图像。第一图像和第二图像都能够是图像，并且在某些情况下，能够是单独且不同的图像。

本申请中术语“至少一个”的含义是指一个或多个，本申请中术语“多个”的含义是指两个或两个以上，例如，多个数据包是指两个或两个以上的数据包。

应理解，在本文中对各种示例的描述中所使用的术语只是为了描述特定示例，而并非旨在进行限制。如在对各种示例的描述和所附权利要求书中所使用的那样，单数形式“一个(‘a’/‘an’)”和“该”旨在也包括复数形式，除非上下文另外明确地指示。

还应理解，本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。术语“和/或”，是一种描述关联目标的关联关系，表示能够存在三种关系，例如，A和/或B，能够表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本申请中的字符“/”，一般表示前后关联目标是一种“或”的关系。

还应理解，在本申请的各个实施例中，各个过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

还应理解，根据A确定B并不意味着仅仅根据A确定B，还能够根据A和/或其它信息确定B。

还应理解，术语“包括”(也称“includes”、“including”、“comprises”和/或“comprising”)当在本说明书中使用时指定存在所陈述的特征、整数、步骤、操作、元素、和/或部件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元素、部件、和/或其分组。

还应理解，术语“如果”可被解释为意指“当...时”(“when”或“upon”)或“响应于确定”或“响应于检测到”。类似地，根据上下文，短语“如果确定...”或“如果检测到[所陈述的条件或事件]”可被解释为意指“在确定...时”或“响应于确定...”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。

下面对本申请涉及到的名词进行说明。

本申请实施例提供的方法涉及到人工智能，下面对人工智能的相关技术进行介绍。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision，CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition，光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D(3dimensional，三维)技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

自动驾驶技术通常包括高精地图、环境感知、行为决策、路径规划、运动控制等技术，自定驾驶技术有着广泛的应用前景，

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

进一步地，本申请实施例提供的方法涉及强化学习，强化学习：强化学习是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。强化学习和标准的监督式学习之间的区别在于，它并不需要出现正确的输入/输出对，也不需要精确校正次优化的行为。强化学习更加专注于在线规划，需要在探索(在未知的领域)和遵从(现有知识)之间找到平衡。其灵感来源于心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。

强化学习具有普适性，在很多领域中都得到了应用。例如博弈论、控制论、运筹学、信息论、仿真优化、多主体系统学习、群体智能、统计学以及遗传算法等。在运筹学和控制理论研究的语境下，强化学习被称作“近似动态规划(approximate dynamic programming，ADP)”。在最优控制理论中也有研究这个问题，虽然大部分的研究是关于最优解的存在和特性，并非是学习或者近似方面。在经济学和博弈论中，强化学习被用来解释在有限理性的条件下如何出现平衡。

本申请实施例提供的动作控制指令的确定参数确定方法中，其中，动作控制指令可以用于指示目标的行为控制。该确定参数能够用于基于环境确定动作控制指令。该基于环境确定动作控制指令的过程可以理解为智能决策的过程，该确定参数也可以称为智能决策策略。该方法能应用到包括智能机器人自动控制、汽车自动驾驶、物联网资源优化等多个项目和产品应用中，能够让各种类型的设备在可控成本下学习出智能决策策略，可以在面对不同状态时自动判断并执行合理且安全的操作，实现无人自动控制的效果。

本申请实施例提供的方案涉及人工智能的计算机视觉技术、机器学习中的强化学习、自动驾驶等技术，具体通过如下实施例进行说明。

下面对本申请的实施环境进行说明。

图1是本申请实施例提供的一种动作控制指令的确定参数确定方法的实施环境的示意图。该实施环境包括终端101，或者该实施环境包括终端101和动作控制指令的确定参数确定平台102。终端101通过无线网络或有线网络与动作控制指令的确定参数确定平台102相连。

终端101能够是智能手机、游戏主机、台式计算机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器或MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器，膝上型便携计算机，自动化控制设备中的至少一种。该自动化控制设备可以为智能机器人，自助支付设备，自动驾驶汽车等，当然，也可以为其他自动化控制设备，例如，智能家居设备等。

示例性地，该终端101能够独立完成该工作，也能够通过动作控制指令的确定参数确定平台102为其提供数据服务。本申请实施例对此不作限定。示例性地，该动作控制指令的确定参数确定平台102能够独立完成该工作，该动作控制指令的确定参数确定平台102可以通过终端101收集真实环境数据，进而独立完成确定参数确定的过程。

动作控制指令的确定参数确定平台102包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。动作控制指令的确定参数确定平台102用于为支动作控制指令的确定参数确定的应用程序提供后台服务。可选地，动作控制指令的确定参数确定平台102承担主要处理工作，终端101承担次要处理工作；或者，动作控制指令的确定参数确定平台102承担次要处理工作，终端101承担主要处理工作；或者，动作控制指令的确定参数确定平台102或终端101分别能够单独承担处理工作。或者，动作控制指令的确定参数确定平台102和终端101两者之间采用分布式计算架构进行协同计算。

可选地，该动作控制指令的确定参数确定平台102包括至少一台服务器1021以及数据库1022，该数据库1022用于存储数据，在本申请实施例中，该数据库1022中能够存储有样本数据，该样本数据可以为真实环境数据，为至少一台服务器1021提供数据服务。

服务器能够是独立的物理服务器，也能够是多个物理服务器构成的服务器集群或者分布式系统，还能够是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端能够是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。

本领域技术人员能够知晓，上述终端101、服务器1021的数量能够更多或更少。比如上述终端101、服务器1021能够仅为一个，或者上述终端101、服务器1021为几十个或几百个，或者更多数量，本申请实施例对终端或服务器的数量和设备类型不加以限定。

图2是本申请实施例提供的一种动作控制指令的确定参数确定方法的流程图，该方法应用于电子设备中，该电子设备为终端或服务器，参见图2，该方法包括以下步骤。

201、电子设备获取真实环境的真实环境数据。

其中，环境是指目标所在的空间及其中可以直接或间接影响目标行为的各种自然因素。该真实环境是指现实世界中真实存在的环境。

在一些实施例中，该真实环境数据可以包括目标所处的环境状态以及该目标所执行的动作控制指令。该目标是指被控制的设备，该设备可以为自动化控制设备，比如：智能机器人、自动驾驶车辆，例如，该目标可以为该电子设备，也可以为其他被控制的电子设备。

动作控制指令是指对目标的行为进行控制的指令，例如，控制目标按照目标移动速度向前方移动。又例如，控制目标左转向。又例如，控制目标抬起机械手臂等。

在不同的应用场景中，该动作控制指令可以不同。该动作控制指令可以由相关技术人员根据需求进行设置，本申请实施例对此不作限定。

202、电子设备基于该真实环境数据中至少两组数据，生成该真实环境对应的至少两个虚拟环境。

其中，虚拟环境是指应用程序在设备上运行时显示(或提供)的用于模拟真实环境的虚拟环境。该虚拟环境可以是对真实世界的仿真环境，也可以是半仿真半虚构的虚拟环境，还可以是纯虚构的虚拟环境。

电子设备通过将真实环境数据分为多组数据，生成有多个虚拟环境，这样多个虚拟环境组合来模拟该真实环境，由于该多个虚拟环境是基于多组不同的数据生成的，可能会关注到真实环境中不同的部分，且能够捕捉真实环境中的不确定性。

203、电子设备从该至少两个虚拟环境中，随机选择一个目标虚拟环境执行第一动作控制指令，得到模拟环境数据。

其中，该模拟环境数据可以包括虚拟的目标在虚拟环境中所处的环境状态，在一些实施例中，该模拟环境数据也可以包括虚拟的目标在虚拟环境中所执行的动作控制指令。不同的虚拟环境可能会从不同的角度来模拟该真实环境，对于同样的动作控制指令，可能会产生不同的反馈，从而能够体现出真实环境的不确定性，为结果添加了随机性，能够得到更真实的模拟环境数据。

204、电子设备基于该模拟环境数据，对动作控制指令的确定参数进行更新，确定第二动作控制指令。

该确定参数能够用于基于环境确定动作控制指令。电子设备能够基于通过该确定你参数对模拟环境数据进行处理，确定出下一步所要执行的动作控制指令。该基于环境确定动作控制指令的过程可以理解为智能决策的过程，该确定参数也可以称为智能决策策略。例如，电子设备在获取到模拟环境数据时，会通过确定参数对模拟环境数据进行处理，以决策出在当前环境状态下目标所需执行的动作控制指令，该确定参数的作用是决策出下一步动作控制指令，如果将对模拟环境数据进行处理以确定动作控制指令的过程理解为通过决策模型实现，该确定参数也即为决策模型的模型参数。

电子设备通过上述模拟环境数据，能够学习到适应性更强、更真实、更准确的确定参数(智能决策策略)。学习得到的确定参数能够更准确地对真实环境的数据做出正确的决策。

205、电子设备继续基于该第二动作控制指令，随机选择一个目标虚拟环境执行第二动作控制指令和更新该确定参数，直至符合第一目标条件，得到目标确定参数。

基于每个动作控制指令进行确定参数更新的过程可以认为是一次迭代过程，电子设备可以基于当前确定出的下一个动作控制指令，再重复执行迭代步骤，这样通过多次迭代，能够基于虚拟环境对每次动作控制指令的反馈，最终学习到比较准确的决策策略，以便于后续对真实环境中各种状态和情况高效地、准确地作出反应。

图3是本申请实施例提供的一种动作控制指令的确定参数确定方法的流程图，参见图3，该方法包括以下步骤。

301、电子设备获取真实环境的真实环境数据。

在本申请实施例中，电子设备可以为真实环境生成对应的虚拟环境，该虚拟环境用来模拟真实环境，这样在基于真实环境作确定动作控制指令时，能够基于虚拟环境来确定，这样降低了对真实环境的依赖，不需要与传感器进行大量的数据交互，有效提高确定参数的确定效率。

该真实环境数据可以通过多种方式获取得到。在一些实施例中，该真实环境数据可以基于传感器采集得到。具体地，电子设备可以基于传感器，采集真实环境中目标所处的环境状态，以及该目标在该环境状态下所执行的动作控制指令，得到该真实环境数据。

其中，该传感器可以为该电子设备之外的采集设备，也可以为该电子设备上的组件，本申请实施例对此不作限定。

例如，该方法应用于智能机器人/机器人的自动控制，可以通过操控机器人在真实环境中执行动作，然后基于传感器对真实环境进行数据收集，得到真实环境数据。

在另一些实施例中，该真实环境数据为预先采集好并存储于数据库中的数据。相应地，该步骤301中，电子设备可以从数据库中获取真实环境的真实环境数据。

需要说明的是，本申请实施例对此不作限定。

302、电子设备对该真实环境数据进行分组，得到至少两组数据。

电子设备获取到真实环境数据后，可以以此作为真实环境的表征，生成对应的虚拟环境，这样得到的虚拟环境能够与真实环境贴合。

在本申请实施例中，通过至少两个虚拟环境组合模拟真实环境，该至少两个虚拟环境是指该虚拟环境的数量为两个或两个以上，也即是多个。该至少两个虚拟环境可以通过不同的真实环境数据生成，这样生成的虚拟环境彼此不同，能够通过不同的数据模拟出该真实环境。

在一些实施例中，电子设备对该真实环境数据进行至少两次随机采样，得到该至少两组数据。通过随机采样的方式，使得该分组过程随机，并不基于固定的分组规则，进而分组得到的至少两组数据的随机性更强，这样生成的虚拟环境更容易捕捉到真实环境的不确定性，减小虚拟环境与真实环境之间的差异，提高虚拟环境的真实性。

在另一些实施例中，该分组过程可以基于分组规则实现。具体地，电子设备基于目标分组规则，对真实环境数据进行分组，得到至少两组数据。该目标分组规则可以由相关技术人员根据需求进行设置，例如，该目标分组规则可以为根据数据量平均分配为至少两组，或者限定每组的数据量等，本申请实施例对此不作限定。

对于分组得到的至少两组数据，也可以称每组数据为一个数据集，电子设备对真实环境数据分组，得到N组数据，也即是指电子设备对真实环境数据分组，得到N个数据集。

303、电子设备基于该至少两组数据，训练至少两个神经网络，得到该真实环境对应的至少两个虚拟环境，其中，一个虚拟环境基于一组数据对一个神经网络训练得到。

电子设备可以通过神经网络生成虚拟环境，该虚拟环境用于模拟真实环境，也可以称为模拟环境。该虚拟环境可以为该训练后的神经网络，也可以称之为模拟器，用于模拟真实环境。训练后得到的神经网络通过真实环境数据训练，即可具备对相同或者相似的数据进行同理处理的能力，继而可以模拟真实环境。

在一些实施例中，电子设备训练神经网络的过程可以通过以下步骤一至步骤四实现。

步骤一、电子设备可以分别将该至少两组数据输入该至少两个神经网络中。

神经网络的基本组成单元是神经元模型，神经元模型包括多个神经元。如图4所示，每个神经元接收输入信号(或输入数据)，将接收到的信号或数据加权求和，然后经过激活函数处理后输出。对于一个神经元，设神经元的输入向量为x＝(x₁,x₂,…,x_n)，权值向量为w＝(w₁,w₂,…,w_n)，在线性加权求和后经由一个非线性激活函数得到神经元的输出，如下述公式一所示。

其中，i为输入向量中输入数据或权值向量中的权值的标识，y(x)为神经元的输出。在本申请实施例中，该输入向量可以为真实环境数据，输出可以为虚拟环境。b为该层神经元的权值。

神经网络基本结构如图5所示，神经网络由多层神经元组合而成。在基本结构中，神经网络分为三部分，第一部分为输入层501，第二部分为隐藏层502，第三部分为输出层503。该图5中仅以每层包括一层神经元为例进行说明，该每层也可以包括多层神经元，本申请实施例对此不作限定。输入数据经过输入层传给隐藏层，逐层经过神经元计算最后由输出层输出，在层与层之间都会设置激活函数，来增加非线性表达能力。该神经网络对输入数据进行处理后输出的过程被称为前向传播。在本申请实施例中，在对该神经网络进行训练时，能够将真实环境数据作为输入数据，输入该神经网络的输入层501，该输入层501能够对真实环境数据进行处理后传给隐藏层502，每个隐藏层502也可以在接收到输入层输出的数据后，进一步对数据进行处理，并传递给输出层503输出，最终由输出层503输出。

训练过程除了涉及到上述前向传播，还涉及到反向传播，电子设备可以基于神经网络的输出层503输出的数据与真实环境数据再进行对比，确定神经网络确定出的数据是否准确，以对神经网络的网络参数进行更新，经过不断更新，神经网络的网络参数得到了优化，进而能够针对输入的数据进行处理后，得到与真实环境中环境状态变化相同的数据，这样该训练后的神经网络可以被称为该真实环境的虚拟环境，或者被称为模拟器。这样后续再将确定出的第一动作控制指令输入该神经网络时，该神经网络能够基于训练好的网络参数，确定基于当前的虚拟环境执行该第一动作控制指令后环境状态的变化情况，也即得到了模拟环境数据。

如图6所示，在一个具体示例中，该虚拟环境的生成过程可以通过模拟环境模块600实现，在获取到真实环境的真实环境数据601后，能够将真实环境数据601输入模拟环境模块600中。该模拟环境模块600能够将收集到的真实环境数据601进行数据划分，得到N个数据集602，该数据划分的过程也即是上述步骤302的分组过程，该N个数据集602也即是步骤302中的至少两组数据，只是再次以N组来示意至少两组，每个数据集602为分组得到的每组数据。然后使用N个数据集602分别训练N个神经网络603，得到N个模拟器604，该N个模拟器即为N个模拟环境605(虚拟环境)，基于一个数据集602，能够训练一个神经网络603得到一个模拟器604。该训练得到N个模拟器604的过程也即是上述步骤303中基于至少两组数据训练至少两个神经网络的过程，在该过程中，该N个模拟器604为基于不同的数据集训练的，这样后续在每次需要使用模拟器时从该N个模拟器604中随机抽取一个使用，能够为获取模拟环境数据的过程增加不确定性，这也能很好地捕捉到真实环境中的不确定性，通过该N个模拟器604来组合模拟真实环境，能够模拟得更加真实。该N个模拟环境605后续在使用时能够根据输入指令606，随机抽取N个模拟环境605中的一个进行处理，并输出反馈607。以该输入指令606为第一动作控制指令为例，从N个模拟环境605中随机抽取一个模拟环境605，在第一模拟环境605中执行第一动作控制指令能够得到模拟环境数据，然后该模拟环境数据即可指示模拟环境605对输入指令606的反馈。

在该步骤一中，该电子设备将真实环境数据输入神经网络，该真实环境数据作为输入数据，神经网络能够对其进行处理后输出。

步骤二、对于该至少两个神经网络中一个神经网络，电子设备基于该神经网络基于该目标所处的任一环境状态，以及该目标在该环境状态下所执行的动作控制指令，确定该目标所处的候选环境状态。

每个神经网络对每组数据进行处理的过程同理，在此仅以一个神经网络对一组数据为例进行说明。电子设备向一个神经网络输入一组数据后，该神经网络则能够通过上述前向传播过程，对输入的一组数据进行处理，对于神经网络中每层，每层神经元能够对输入的数据进行加权处理，并获取加权处理结果与该层的权值之和，将该加权处理结果与权值之和作为输出的数据，输入下一层神经元中，下一层神经元则可以基于输入的数据进行同理的处理，最后一层的神经元输出的数据即为该神经网络的输出。

在上述处理过程中，输入神经网络的数据可以包括目标所处的任一环境状态以及目标在该环境状态下所执行的动作控制指令，每层神经元在对其进行上述加权处理并与权值求和后，能够由神经网络输出最终结果，该最终结果为候选环境状态，也即是，该目标在环境状态下执行动作控制指令后的环境状态。在一些实施例中，神经网络也可以输出该目标在候选环境状态下将要执行的候选动作控制指令。

神经网络的训练方法是梯度反向传播算法，反向传播算法是一种基于模型拟合误差的训练方法，能有效节省计算资源。其主要步骤是经由前向传播得到输出后，使用自定义的损失函数计算模型输出和真实值的误差，然后使用链式求导从输出层到隐藏层再到输入层，逐层计算该误差对于每个神经元的梯度，使用梯度更新神经元的网络参数，该网络参数可以为神经元的权重。不断迭代重复调整神经元权重直到收敛，使得模型的输出与实际值尽可能接近，达到训练神经网络的目的。该反向传播算法也即对应下述步骤三和步骤四。

步骤三、电子设备可以基于该候选环境状态以及该真实环境数据中的目标环境状态，获取该候选环境状态的误差。

基于神经网络得到的输出后，即可将神经网络输出的结果与真实值进行对比，确定误差。其中，神经网络输出的结果为该神经网络对输入进行处理得到的预测值，也即是候选环境状态，真实值即为上述真实环境数据中的目标环境状态。该候选环境状态的误差能够体现该候选环境状态是否准确。

步骤四、电子设备基于该误差，对该神经网络的网络参数进行调整，直至符合第二目标条件时停止。

电子设备得到误差后，基于该误差训练神经网络的目的则是提高预测值的准确性，使得神经网络的处理能力更强。通过对网络参数进行调整，使得神经网络基于同样的输入数据能够处理得到不同的输出数据，使得输出数据更加逼近真实值，在本申请实施例中也即是使得输出的候选环境状态更加逼近真实环境数据中的目标环境状态。

在一些实施例中，电子设备可以基于该误差，获取梯度，基于梯度对该神经网络的网络参数进行调整，然后基于调整后的网络参数再重复执行上述步骤一至步骤四，直至符合第二目标条件时停止。

其中，该第二目标条件可以为误差收敛，或者迭代次数达到目标次数，均可以由相关技术人员根据需求进行设置，本申请实施例对此不作限定。

例如，以该神经网络包括三层全连接网络为例，神经元参数(也即是神经网络的网络参数)更新过程可以通过下述公式二和公式三实现。通过公式二，可以计算得到梯度，然后通过公式三更新网络参数。该网络参数的更新方法也可以称为链式求导法。

其中，w_ij为神经网络中每个神经元的权重。J(θ)为损失函数，也即是上述误差。Out_j为神经网络输出层的第j个神经元的输出。η为控制学习速度的参数，为一种超参数。

该步骤302至步骤303为基于该真实环境数据中至少两组数据，生成该真实环境对应的至少两个虚拟环境的过程，上述过程中，该虚拟环境通过神经网络实现，且上述以该神经网络为神经元模型，每个神经元模型为全连接网络为例进行了说明，该神经网络为多层感知机的组合结构。该神经网络还可以采用其他类型的神经网络。在一些实施例中，该神经网络可以为卷积神经网络(CNN)，CNN适用于侧重图像处理的问题场景。在另一些实施例中，该神经网络可以为循环神经网络(RNN)，RNN适用于侧重时序处理的问题场景。在另一些实施例中，该神经网络可以为贝叶斯神经网络(BNN)，BNN用于更有效地模拟干扰程度较大的真实环境。本申请实施例对具体采用哪种结构的神经网络不作限定。

304、电子设备获取第一动作控制指令。

电子设备得到虚拟环境后，能够基于虚拟环境训练确定参数，进而能够使得基于确定参数，能够确定在虚拟环境中执行某个动作控制指令时的虚拟环境变化情况，或者目标的状态变化，进而确定该目标在变化后所处的环境状态中执行哪个动作控制指令。

第一动作控制指令可以为真实场景数据中的一个动作控制指令，电子设备基于该动作控制指令在虚拟环境中确定候选环境数据，而非在真实环境中确定，这样能够减小和传感器之间的数据交互，提高效率。

305、电子设备从该至少两个虚拟环境中，随机选择一个虚拟环境作为该目标虚拟环境。

电子设备在确定候选环境数据时，可以从多个虚拟环境中随机抽取一个来执行该第一动作控制指令，这样随机抽取的方式能够为确定出的候选环境数据增加随机性和不确定性，这样能够更好的捕捉真实环境的不确定性，减少虚拟环境和真实环境的差异，提高了神经网络的表达能力，避免神经网络对输入的数据过拟合。

如图6所示，在模拟环境模块600中使用了多神经网络整合的方法，通过抽选数据训练多个不同网络，从而构建出由多个模拟器604共同组成的组合模拟环境605，在组合模拟环境605中，会随机选择其中一个模拟器执行控制器输入的控制指令，也即是输入指令606，并将生成的模拟数据(也即是模拟环境数据)作为输出反馈607。模拟环境模块600生成的复杂模拟环境能够缩小模拟器与真实环境之间的差异，提高了安全性保障，实际部署性能大幅提高。

需要说明的是，这里仅是对一个动作控制指令(第一动作控制指令)的处理过程为例进行说明，每当获取到一个动作控制指令时，均可以进行同理的处理过程，每次均随机选择一个虚拟环境作为目标虚拟环境进行动作控制。

该虚拟环境可以为上述训练的神经网络，相应地，该步骤305中，电子设备从多个训练完成的神经网络中，随机选择一个目标神经网络。

306、电子设备基于该目标虚拟环境中目标所处的环境状态以及该第一动作控制指令，获取该目标所处的下一个环境状态，将该目标所处的下一个环境状态作为候选环境数据。

该步骤306与上述步骤303中的步骤二同理，可以为神经网络对输入数据进行前向传播的过程，在此不多做赘述。

上述步骤304至步骤306为从该至少两个虚拟环境中，随机选择一个目标虚拟环境执行第一动作控制指令，得到模拟环境数据的过程。该虚拟环境可以为上述训练的神经网络，相应地，该步骤306中，电子设备可以将该第一动作控制指令输入目标神经网络中，由该目标神经网络对目标所处的环境状态和该第一动作控制指令，确定该目标所处的环境状态变化信息，基于该环境状态变化信息，输出该目标所处的下一个环境状态。

307、电子设备基于该模拟环境数据，对动作控制指令的确定参数进行更新，确定第二动作控制指令。

电子设备得到模拟环境数据后，可以基于模拟环境数据对动作控制指令的确定参数进行更新，更新后，如果符合第一目标条件，则可以结束训练，如果不符合第一目标条件，则可以确定出第二动作控制指令，重复进行上述步骤304至步骤307，再对确定参数进行更新。其中，该第一目标条件为确定参数更新结束的条件。

需要说明的是，该确定参数用于确定动作控制指令，通俗的讲，该确定参数能够用于基于环境决策下一步动作，因而可以将其称为智能决策策略。该步骤307也即是基于模拟环境数据优化更新智能决策策略的步骤，通过优化更新，能够使得智能决策策略基于环境决策出更准确、更符合真实环境的动作控制指令。

在一些实施例中，电子设备在确定参数更新前，可以先对模拟环境数据进行筛选，再基于筛选后的数据进行确定参数更新步骤。具体地，电子设备可以基于目标筛选规则，对该模拟环境数据进行筛选，基于筛选后的模拟环境数据，对该动作控制指令的确定参数进行更新。通过加入数据筛选步骤，能够有效避免强化学习算法容易收敛到局部最优策略的问题，提高面对复杂数据的适应能力，增强强化学习算法在模拟器上的泛化性能。

在一些实施例中，电子设备可以将该目标虚拟环境执行第一动作控制指令的过程中产生的模拟环境数据分批写入缓存，响应于该缓存中数据的数据量达到阈值，基于目标筛选规则，对该缓存中的模拟环境数据进行筛选，清空该缓存，继续执行该分批写入的步骤和筛选步骤，直至达到第三目标条件时停止，得到筛选后的模拟环境数据。第三目标条件可以为确定参数收敛，也可以为循环次数达到目标次数。上述方式，通过合理缓存并筛选训练数据，主动排除缓存内反馈值过高的数据，从而抑制决策策略(确定参数)收敛到局部最优，能提高决策策略面对复杂场景的适应能力，增强了强化学习算法在模拟器上的泛化性能。

在一种可能的实现方式中，该缓存中数据的数据量达到阈值可以为该缓存中数据的数据量达到缓存最大数据量，也即是该阈值可以为缓存最大数据量，该缓存中数据的数据量达到阈值也即可以为填满缓存。当然，也可以为其他情况，例如，该缓存中数据的数据量达到最大数据量的一半，本申请实施例对此不作限定。

对于该目标筛选规则，不同的应用场景可以对应不同的目标筛选规则，该目标筛选规则可以由相关技术人员根据业务需求进行设置。

在一些实施例中，上述目标筛选规则可以为基于数据阈值的筛选规则，则电子设备可以基于该缓存中的模拟环境数据，确定目标阈值；将该模拟环境数据中高于该目标阈值的数据去除，得到筛选后的模拟环境数据。

其中，该目标阈值也可以称为缓存数据阈值，其确定方式可以由相关技术人员根据业务需求确定，例如，该目标阈值可以为缓存数据中各项数据的平均值或者分位数，或者置信度为目标置信度的阈值等，该目标阈值也可以为相关技术人员预设的阈值，本申请实施例对此不作限定。

如图7所示，对于模拟环境生成的模拟数据(也即是模拟环境数据)，分批填入缓存，检测缓存是否填满，如果否，则继续填入数据缓存，如果是，则可以计算缓存数据阈值，然后通过该阈值，筛选数据，将数据输出。输出的数据作为后续更新智能决策策略的数据。对于填入缓存的步骤中，筛选数据后可以判断是否达到循环次数，如果没有达到循环次数，则清空缓存，继续下一轮循环，填入新的数据，如果达到循环次数，则可以结束填入缓存的步骤。

在另一些实施例中，电子设备可以对该缓存中的模拟环境数据进行分析，将与目标事件相关的行为数据去除，得到筛选后的模拟环境数据。例如，在自动驾驶场景中，将导致事故的行为数据作为目标筛选规则，在机器人控制场景中将导致机器人损坏的行为数据作为目标筛选规则等等。

在一些实施例中，上述数据筛选步骤可以通过数据筛选模块实现，该确定参数更新步骤也即是策略优化步骤可以通过策略优化模块实现。

如图8所示，该策略优化模块能够对数据筛选模块筛选得到的模拟数据进行处理，具体地，可以计算数据价值，然后通过策略优化公式，对决策策略进行优化，确定出新的决策策略，然后判断策略是否收敛，如果收敛，则训练完成，得到最终策略(目标确定参数)。如果没有收敛，则需要基于当前决策策略确定出第二动作控制指令，由控制器将该第二动作控制指令，再发送至模拟环境以执行。

电子设备在对确定参数进行更新时，可以基于该模拟环境数据和该第一动作控制指令，获取期望值，然后获取该期望值的梯度，基于该梯度，对动作控制指令的确定参数进行更新，电子设备可以基于更新后的确定参数、该模拟环境数据以及该第一动作控制指令，确定第二动作控制指令。

例如，上述确定参数优化过程可以通过策略优化公式(也即是图8中的策略优化公式)实现，该公式为下述公式四和公式五。

其中，V表示基于模拟环境数据计算得到的期望值，E用于计算期望值。

表示数据筛选模块中的数据缓存池。γ为强化学习算法中的削减系数，为一个固定的常数值，s_t,a_t表示t时刻的环境状态和传入环境中的动作控制指令，r(s_t,a_t)表示环境关于状态和指令的反馈值，用于指示环境状态或动作控制指令的变化，λ为控制学习速度的参数，

表示V的梯度，π,π′分别为当前时刻的决策策略函数和优化更新之后决策策略函数。

308、电子设备继续基于该第二动作控制指令，随机选择一个目标虚拟环境执行第二动作控制指令和更新该确定参数，直至符合第一目标条件，得到目标确定参数。

电子设备确定出第二动作控制指令后，可以再重复上述步骤305至步骤307，只是动作控制指令从第一动作控制指令变为第二动作控制指令，通过不断地基于环境状态做出动作控制指令的决策，再以此更新确定参数(智能决策策略)，能够不断优化确定参数，得到目标确定参数。

在一些实施例中，电子设备确定出第二动作控制指令后，可以不仅通过虚拟环境执行该第二动作控制指令，也可以将其发送至真实环境中，这样通过真实环境得到的对第二动作控制指令的真实反馈，能够用于修正虚拟环境对第二动作控制指令的虚拟反馈，使得虚拟环境与真实环境之间的差异越来越小，保证最终确定的目标确定参数更准确。

具体地，电子设备可以基于该真实环境数据和该第二动作控制指令，确定目标在该真实环境中执行该第二动作控制指令后的目标环境状态，基于该目标环境状态，以及目标虚拟环境执行该第二动作控制指令得到的模拟环境数据，对该目标虚拟环境进行更新。

在一些实施例中，该第一目标条件为步骤307中的该期望值收敛；或者该第一目标条件为迭代次数达到目标次数。本申请实施例对此不作限定。

下面通过图9，对本申请提供的用于确定动作控制指令的确定参数的整体架构进行解释。如图9所示，本发明由多个核心模块组合而成，首先通过传感器采集真实环境中的数据，利用模拟环境模块构建一个接近真实环境的模拟环境，其产生的模拟数据经过数据筛选模块，筛选出更适合泛化学习的数据提供给策略优化模块，通过强化学习算法对当前迭代下的决策策略进行优化，并通过控制器来实现对真实环境和模拟环境的策略控制。当达到收敛标准后，停止训练并输出最终的智能决策策略。

具体地，该整体架构中，通过传感器对真实环境进行数据收集，得到环境状态和动作反馈值，然后发送至模拟环境模块，该模拟环境模块基于真实环境生成有对应的模拟环境，通过动作控制指令，能够产生模拟数据，通过数据筛选模块对模拟数据进行筛选后，能够由策略优化模块对决策策略进行优化，进而由控制器将下一个动作控制指令下发给真实环境和模拟环境，对于真实环境，该动作控制指令称为动作信号。对于模拟环境，动作控制指令称为模拟信号。策略优化模块能够在每次迭代过程中判断策略是否收敛，如果收敛，即优化得到了最优的智能决策策略。

本申请的技术方案，通过多神经网络组合的方式，构建更复杂的模拟环境，并加入一个数据筛选模块，从而既利用上模拟器的高效率，也提高了面对复杂数据的适应能力，增强了强化学习算法在模拟环境上的训练效果，最终得到一个不受限于传感器、控制器等硬件设备的工作效率，实现低成本、高效率、高泛化性能的强化学习算法。

上述所有可选技术方案，能够采用任意结合形成本申请的可选实施例，在此不再一一赘述。

图10是本申请实施例提供的一种动作控制指令的确定参数确定装置的结构示意图，参见图10，该装置包括：

获取模块1001，用于获取真实环境的真实环境数据；

生成模块1002，用于基于该真实环境数据中至少两组数据，生成该真实环境对应的至少两个虚拟环境；

该获取模块1001，还用于从该至少两个虚拟环境中，随机选择一个目标虚拟环境执行第一动作控制指令，得到模拟环境数据；

更新模块1003，用于基于该模拟环境数据，对动作控制指令的确定参数进行更新，确定第二动作控制指令；

该获取模块1001和该更新模块1003，还用于继续基于该第二动作控制指令，随机选择一个目标虚拟环境执行第二动作控制指令和更新该确定参数，直至符合第一目标条件，得到目标确定参数。

在一些实施例中，该生成模块1002用于：

对该真实环境数据进行分组，得到至少两组数据；

基于该至少两组数据，训练至少两个神经网络，得到该真实环境对应的至少两个虚拟环境，其中，一个虚拟环境基于一组数据对一个神经网络训练得到。

在一些实施例中，该生成模块1002用于：

对该真实环境数据进行至少两次随机采样，得到该至少两组数据。

在一些实施例中，该真实环境数据包括目标所处的环境状态以及该目标所执行的动作控制指令；

在一些实施例中，该生成模块1002用于：

分别将该至少两组数据输入该至少两个神经网络中；

对于该至少两个神经网络中一个神经网络，由该神经网络基于该目标所处的任一环境状态，以及该目标在该环境状态下所执行的动作控制指令，确定该目标所处的候选环境状态；

基于该候选环境状态以及该真实环境数据中的目标环境状态，获取该候选环境状态的误差；

基于该误差，对该神经网络的网络参数进行调整，直至符合第二目标条件时停止。

在一些实施例中，该获取模块1001用于：

获取第一动作控制指令；

从该至少两个虚拟环境中，随机选择一个虚拟环境作为该目标虚拟环境；

基于该目标虚拟环境中目标所处的环境状态以及该第一动作控制指令，获取该目标所处的下一个环境状态，将该目标所处的下一个环境状态作为该候选环境数据。

在一些实施例中，该目标虚拟环境基于神经网络实现；

该获取模块1001用于将该第一动作控制指令输入目标神经网络中，由该目标神经网络对目标所处的环境状态和该第一动作控制指令，确定该目标所处的环境状态变化信息，基于该环境状态变化信息，输出该目标所处的下一个环境状态。

在一些实施例中，该更新模块1003用于：

基于目标筛选规则，对该模拟环境数据进行筛选；

基于筛选后的模拟环境数据，对该动作控制指令的确定参数进行更新。

在一些实施例中，该更新模块1003用于：

将该目标虚拟环境执行第一动作控制指令的过程中产生的模拟环境数据分批写入缓存；

响应于该缓存中数据的数据量达到阈值，基于目标筛选规则，对该缓存中的模拟环境数据进行筛选；

清空该缓存，继续执行该分批写入的步骤和筛选步骤，直至达到第三目标条件时停止，得到筛选后的模拟环境数据。

在一些实施例中，该更新模块1003用于执行下述任一项：

基于该缓存中的模拟环境数据，确定目标阈值；将该模拟环境数据中高于该目标阈值的数据去除，得到筛选后的模拟环境数据；

对该缓存中的模拟环境数据进行分析，将与目标事件相关的行为数据去除，得到筛选后的模拟环境数据。

在一些实施例中，该更新模块1003用于：

基于该模拟环境数据和该第一动作控制指令，获取期望值；

获取该期望值的梯度；

基于该梯度，对动作控制指令的确定参数进行更新；

基于更新后的确定参数、该模拟环境数据以及该第一动作控制指令，确定第二动作控制指令。

在一些实施例中，该获取模块1001用于基于传感器，采集真实环境中目标所处的环境状态，以及该目标在该环境状态下所执行的动作控制指令，得到该真实环境数据。

在一些实施例中，该装置还包括：

确定模块，用于基于该真实环境数据和该第二动作控制指令，确定目标在该真实环境中执行该第二动作控制指令后的目标环境状态；

该更新模块1003，还用于基于该目标环境状态，以及目标虚拟环境执行该第二动作控制指令得到的模拟环境数据，对该目标虚拟环境进行更新。

本申请实施例提供的装置，一方面，为真实环境生成了虚拟环境，以虚拟环境来模拟真实环境，并产生模拟环境数据，基于模拟环境数据更新确定参数，避免了与传感器、控制器等硬件设备的数据交互次数和数据量，从而能够大大提高确定参数的确定效率。另一方面，通过至少两个虚拟环境组合来模拟该真实环境，后续通过虚拟环境执行动作控制指令时，通过随机选择一个虚拟环境来得到模拟环境数据，能够捕捉真实环境中的不确定性，提高虚拟环境的表达能力，缩小虚拟环境与真实环境之间的差异，虚拟环境更加贴合真实环境，进而能够提高确定的确定参数的准确性。

需要说明的是：上述实施例提供的动作控制指令的确定参数确定装置在确定动作控制指令的确定参数时，仅以上述各功能模块的划分进行举例说明，实际应用中，能够根据需要而将上述功能分配由不同的功能模块完成，即将动作控制指令的确定参数确定装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的动作控制指令的确定参数确定装置与动作控制指令的确定参数确定方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图11是本申请实施例提供的一种电子设备的结构示意图，该电子设备1100可因配置或性能不同而产生比较大的差异，能够包括一个或一个以上处理器(CentralProcessing Units，CPU)1101和一个或一个以上的存储器1102，其中，该存储器1102中存储有至少一条计算机程序，该至少一条计算机程序由该处理器1101加载并执行以实现上述各个方法实施例提供的动作控制指令的确定参数确定方法。该电子设备还能够包括其他用于实现设备功能的部件，例如，该电子设备还能够具有有线或无线网络接口以及输入输出接口等部件，以便进行输入输出。本申请实施例在此不做赘述。

上述方法实施例中的电子设备能够实现为终端。例如，图12是本申请实施例提供的一种终端的结构框图。该终端1200可以是便携式移动终端，比如：智能手机、平板电脑、MP3(MovingPictureExpertsGroupAudioLayerIII，动态影像专家压缩标准音频层面3)播放器、MP4(MovingPictureExpertsGroupAudioLayerIV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1200还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1200包括有：处理器1201和存储器1202。

处理器1201可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1201可以采用DSP(DigitalSignalProcessing，数字信号处理)、FPGA(Field－ProgrammableGateArray，现场可编程门阵列)、PLA(ProgrammableLogicArray，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1201也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(CentralProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1201可以集成有GPU(GraphicsProcessingUnit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1201还可以包括AI(ArtificialIntelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1202可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1202还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1202中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1201所执行以实现本申请中方法实施例提供的动作控制指令的确定参数确定方法。

在一些实施例中，终端1200还可选包括有：外围设备接口1203和至少一个外围设备。处理器1201、存储器1202和外围设备接口1203之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1203相连。具体地，外围设备包括：射频电路1204、显示屏1205、摄像头组件1206、音频电路1207、定位组件1208和电源1209中的至少一种。

外围设备接口1203可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1201和存储器1202。在一些实施例中，处理器1201、存储器1202和外围设备接口1203被集成在同一芯片或电路板上；在一些其他实施例中，处理器1201、存储器1202和外围设备接口1203中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1204用于接收和发射RF(RadioFrequency，射频)信号，也称电磁信号。射频电路1204通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1204将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1204包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1204可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(WirelessFidelity，无线保真)网络。在一些实施例中，射频电路1204还可以包括NFC(NearFieldCommunication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1205用于显示UI(UserInterface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1205是触摸显示屏时，显示屏1205还具有采集在显示屏1205的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1201进行处理。此时，显示屏1205还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1205可以为一个，设置在终端1200的前面板；在另一些实施例中，显示屏1205可以为至少两个，分别设置在终端1200的不同表面或呈折叠设计；在另一些实施例中，显示屏1205可以是柔性显示屏，设置在终端1200的弯曲表面上或折叠面上。甚至，显示屏1205还可以设置成非矩形的不规则图形，也即异形屏。显示屏1205可以采用LCD(LiquidCrystalDisplay，液晶显示屏)、OLED(OrganicLight-EmittingDiode，有机发光二极管)等材质制备。

摄像头组件1206用于采集图像或视频。可选地，摄像头组件1206包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(VirtualReality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1206还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1207可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1201进行处理，或者输入至射频电路1204以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1200的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1201或射频电路1204的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1207还可以包括耳机插孔。

定位组件1208用于定位终端1200的当前地理位置，以实现导航或LBS(LocationBasedService，基于位置的服务)。定位组件1208可以是基于美国的GPS(GlobalPositioningSystem，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源1209用于为终端1200中的各个组件进行供电。电源1209可以是交流电、直流电、一次性电池或可充电电池。当电源1209包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1200还包括有一个或多个传感器1210。该一个或多个传感器1210包括但不限于：加速度传感器1211、陀螺仪传感器1212、压力传感器1213、指纹传感器1214、光学传感器1215以及接近传感器1216。

加速度传感器1211可以检测以终端1200建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1211可以用于检测重力加速度在三个坐标轴上的分量。处理器1201可以根据加速度传感器1211采集的重力加速度信号，控制显示屏1205以横向视图或纵向视图进行用户界面的显示。加速度传感器1211还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1212可以检测终端1200的机体方向及转动角度，陀螺仪传感器1212可以与加速度传感器1211协同采集用户对终端1200的3D动作。处理器1201根据陀螺仪传感器1212采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1213可以设置在终端1200的侧边框和/或显示屏1205的下层。当压力传感器1213设置在终端1200的侧边框时，可以检测用户对终端1200的握持信号，由处理器1201根据压力传感器1213采集的握持信号进行左右手识别或快捷操作。当压力传感器1213设置在显示屏1205的下层时，由处理器1201根据用户对显示屏1205的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1214用于采集用户的指纹，由处理器1201根据指纹传感器1214采集到的指纹识别用户的身份，或者，由指纹传感器1214根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1201授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1214可以被设置在终端1200的正面、背面或侧面。当终端1200上设置有物理按键或厂商Logo时，指纹传感器1214可以与物理按键或厂商Logo集成在一起。

光学传感器1215用于采集环境光强度。在一个实施例中，处理器1201可以根据光学传感器1215采集的环境光强度，控制显示屏1205的显示亮度。具体地，当环境光强度较高时，调高显示屏1205的显示亮度；当环境光强度较低时，调低显示屏1205的显示亮度。在另一个实施例中，处理器1201还可以根据光学传感器1215采集的环境光强度，动态调整摄像头组件1206的拍摄参数。

接近传感器1216，也称距离传感器，通常设置在终端1200的前面板。接近传感器1216用于采集用户与终端1200的正面之间的距离。在一个实施例中，当接近传感器1216检测到用户与终端1200的正面之间的距离逐渐变小时，由处理器1201控制显示屏1205从亮屏状态切换为息屏状态；当接近传感器1216检测到用户与终端1200的正面之间的距离逐渐变大时，由处理器1201控制显示屏1205从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图12中示出的结构并不构成对终端1200的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

上述方法实施例中的电子设备能够实现为服务器。例如，图13是本申请实施例提供的一种服务器的结构示意图，该服务器1300可因配置或性能不同而产生比较大的差异，能够包括一个或一个以上处理器(Central Processing Units，CPU)1301和一个或一个以上的存储器1302，其中，该存储器1302中存储有至少一条计算机程序，该至少一条计算机程序由该处理器1301加载并执行以实现上述各个方法实施例提供的动作控制指令的确定参数确定方法。当然，该服务器还能够具有有线或无线网络接口以及输入输出接口等部件，以便进行输入输出，该服务器还能够包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括至少一条计算机程序的存储器，上述至少一条计算机程序由可由处理器执行以完成上述实施例中的动作控制指令的确定参数确定方法。例如，计算机可读存储介质能够是只读存储器(Read-OnlyMemory，简称：ROM)、随机存取存储器(Random Access Memory，简称：RAM)、只读光盘(Compact Disc Read-Only Memory，简称：CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或该计算机程序包括一条或多条程序代码，该一条或多条程序代码存储在计算机可读存储介质中。电子设备的一个或多个处理器能够从计算机可读存储介质中读取该一条或多条程序代码，该一个或多个处理器执行该一条或多条程序代码，使得电子设备能够执行上述动作控制指令的确定参数确定方法。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

应理解，根据A确定B并不意味着仅仅根据A确定B，还能够根据A和/或其它信息确定B。

本领域普通技术人员能够理解实现上述实施例的全部或部分步骤能够通过硬件来完成，也能够通过程序来指令相关的硬件完成，该程序能够存储于一种计算机可读存储介质中，上述提到的存储介质能够是只读存储器，磁盘或光盘等。

以上描述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种动作控制指令的确定参数确定方法，其特征在于，所述方法包括：

获取真实环境的真实环境数据；

2.根据权利要求1所述的方法，其特征在于，所述基于所述真实环境数据中至少两组数据，生成所述真实环境对应的至少两个虚拟环境，包括：

对所述真实环境数据进行分组，得到至少两组数据；

3.根据权利要求2所述的方法，其特征在于，所述对所述真实环境数据进行分组，得到至少两组数据，包括：

4.根据权利要求2所述的方法，其特征在于，所述真实环境数据包括目标所处的环境状态以及所述目标所执行的动作控制指令；

所述基于所述至少两组数据，训练至少两个神经网络，得到所述真实环境对应的至少两个虚拟环境，包括：

分别将所述至少两组数据输入所述至少两个神经网络中；

5.根据权利要求1所述的方法，其特征在于，所述从所述至少两个虚拟环境中，随机选择一个目标虚拟环境执行第一动作控制指令，得到模拟环境数据，包括：

获取第一动作控制指令；

6.根据权利要求5所述的方法，其特征在于，所述目标虚拟环境基于神经网络实现；

所述基于所述目标虚拟环境中目标所处的环境状态以及所述第一动作控制指令，获取所述目标所处的下一个环境状态，包括：

将所述第一动作控制指令输入目标神经网络中，由所述目标神经网络对目标所处的环境状态和所述第一动作控制指令，确定所述目标所处的环境状态变化信息，基于所述环境状态变化信息，输出所述目标所处的下一个环境状态。

7.根据权利要求1所述的方法，其特征在于，所述基于所述模拟环境数据，对动作控制指令的确定参数进行更新，包括：

基于目标筛选规则，对所述模拟环境数据进行筛选；

8.根据权利要求7所述的方法，其特征在于，所述基于目标筛选规则，对所述模拟环境数据进行筛选，包括：

9.根据权利要求8所述的方法，其特征在于，所述基于目标筛选规则，对所述缓存中的模拟环境数据进行筛选，包括下述任一项：

10.根据权利要求1所述的方法，其特征在于，所述基于所述模拟环境数据，对动作控制指令的确定参数进行更新，确定第二动作控制指令，包括：

获取所述期望值的梯度；

基于所述梯度，对动作控制指令的确定参数进行更新；

11.根据权利要求1所述的方法，其特征在于，所述获取真实环境的真实环境数据，包括：

基于传感器，采集真实环境中目标所处的环境状态，以及所述目标在所述环境状态下所执行的动作控制指令，得到所述真实环境数据。

12.根据权利要求1所述的方法，其特征在于，所述确定第二动作控制指令之后，所述方法还包括：

基于所述真实环境数据和所述第二动作控制指令，确定目标在所述真实环境中执行所述第二动作控制指令后的目标环境状态；

基于所述目标环境状态，以及目标虚拟环境执行所述第二动作控制指令得到的模拟环境数据，对所述目标虚拟环境进行更新。

13.一种动作控制指令的确定参数确定装置，其特征在于，所述装置包括：

获取模块，用于获取真实环境的真实环境数据；

14.一种电子设备，其特征在于，所述电子设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求12任一项所述的动作控制指令的确定参数确定方法。

15.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现如权利要求1至权利要求12任一项所述的动作控制指令的确定参数确定方法。