CN115358365A

CN115358365A - 实现通用人工智能的方法、装置、电子设备及存储介质

Info

Publication number: CN115358365A
Application number: CN202210929309.3A
Authority: CN
Inventors: 张振亮
Original assignee: Beijing General Artificial Intelligence Research Institute
Current assignee: Beijing General Artificial Intelligence Research Institute
Priority date: 2022-08-03
Filing date: 2022-08-03
Publication date: 2022-11-18

Abstract

本发明提供一种实现通用人工智能的方法、装置、电子设备及存储介质，其中，所述方法包括：获取当前感知信息；基于当前感知信息，得到与当前感知信息对应的内部目标，其中，内部目标为与智能体的基本生理需求相关的目标；基于当前感知信息、任务决策模型和价值观决策模型，得到与当前感知信息对应的外部目标，其中，外部目标为与智能体的主观意图相关的目标，任务决策模型通过预训练得到，价值观决策模型根据以往感知信息预训练得到；基于外部目标和内部目标，生成与当前感知信息对应的外部动作，用以实现通用人工智能。通过本发明，实现了智能体的任务泛化和知识迁移，进而实现了通用人工智能。

Description

实现通用人工智能的方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种实现通用人工智能的方法、装置、电子设备及存储介质。

背景技术

相关技术可知，以深度模型为主的人工智能技术促进了社会的进步。当前，在很多领域取得了超过人类水平的技术成果，例如，图像识别、机器翻译、棋类游戏对战等。

然而，这些人工智能模型是单一领域内的专家系统，并不能像人类一样举一反三，实现任务泛化和知识迁移。因此，寻找一种能够实现通用人工智能的方法成为当前的研究热点。

发明内容

本发明提供一种实现通用人工智能的方法、装置、电子设备及存储介质，用以解决现有技术中人工智能模型不能实现任务泛化和知识迁移的缺陷，实现了任务泛化和知识迁移。

本发明提供一种实现通用人工智能的方法，所述方法包括：获取当前感知信息；基于所述当前感知信息，得到与所述当前感知信息对应的内部目标，其中，所述内部目标为与智能体的基本生理需求相关的目标；基于所述当前感知信息、任务决策模型和价值观决策模型，得到与所述当前感知信息对应的外部目标，其中，所述外部目标为与所述智能体的主观意图相关的目标，所述任务决策模型通过预训练得到，所述价值观决策模型根据以往感知信息预训练得到；基于所述外部目标和所述内部目标，生成与所述当前感知信息对应的外部动作，用以实现通用人工智能。

根据本发明提供的一种实现通用人工智能的方法，所述基于所述当前感知信息、任务决策模型和价值观决策模型，得到与所述当前感知信息对应的外部目标，具体包括：将所述当前感知信息输入至所述价值观决策模型，得到所述价值观决策模型输出的与所述当前感知信息对应的价值观；基于所述当前感知信息，所述与所述当前感知信息对应的价值观，通过所述任务决策模型，得到与所述当前感知信息对应的外部目标。

根据本发明提供的一种实现通用人工智能的方法，在所述基于所述当前感知信息、任务决策模型和价值观决策模型，得到与所述当前感知信息对应的外部目标之后，所述方法还包括：基于所述当前感知信息，所述与所述当前感知信息对应的价值观，通过所述任务决策模型，得到与所述当前感知信息对应的外部目标权重；基于所述外部目标权重，确定内部目标权重；所述基于所述外部目标和所述内部目标，生成与所述当前感知信息对应的外部动作，具体包括：基于所述外部目标、所述外部目标权重、所述内部目标和所述内部目标权重，确定所述外部目标和所述内部目标的加权和结果；基于所述加权和结果，得到与所述当前感知信息对应的外部动作。

根据本发明提供的一种实现通用人工智能的方法，所述价值观决策模型包括任务层、经验层和价值层；所述价值观决策模型采用以下方式确定：基于多个以往感知信息对所述价值观决策模型进行训练，以使所述价值观决策模型中的所述任务层输出与所述以往感知信息对应的任务知识，再使所述价值观决策模型中的所述经验层输出与所述任务知识对应的经验知识，以及使所述价值观决策模型中的所述价值层输出与所述经验知识的价值观。

根据本发明提供的一种实现通用人工智能的方法，在所述获取当前感知信息之后，所述方法还包括：将所述当前感知信息作为以往感知信息对所述价值观决策模型进行再训练，并将再训练后的价值观决策模型作为下一次基于感知信息得到与所述感知信息对应的外部动作过程中的价值观决策模型。

本发明还提供一种实现通用人工智能的装置，所述装置包括：第一模块，用于获取当前感知信息；第二模块，用于基于所述当前感知信息，得到与所述当前感知信息对应的内部目标，其中，所述内部目标为与智能体的基本生理需求相关的目标；第三模块，用于基于所述当前感知信息、任务决策模型和价值观决策模型，得到与所述当前感知信息对应的外部目标，其中，所述外部目标为与所述智能体的主观意图相关的目标，所述任务决策模型通过预训练得到，所述价值观决策模型根据以往感知信息预训练得到；第四模块，用于基于所述外部目标和所述内部目标，生成与所述当前感知信息对应的外部动作，用以实现通用人工智能。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的实现通用人工智能的方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的实现通用人工智能的方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述的实现通用人工智能的方法。

本发明提供的实现通用人工智能的方法、装置、电子设备及存储介质，基于当前感知信息可以得到与当前感知信息对应的内部目标，以及基于当前感知信息、任务决策模型和价值观决策模型，得到与当前感知信息对应的外部目标，其中，价值观决策模型可以根据以往感知信息预训练得到。再基于外部目标和内部目标生成与当前感知信息对应的外部动作，用以实现通用人工智能。通过本发明实现了任务泛化和知识迁移，进而实现了通用人工智能。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的实现通用人工智能的方法的流程示意图；

图2是本发明提供的价值观决策模型的层次化结构示意图；

图3是本发明提供的基于当前感知信息、任务决策模型和价值观决策模型，得到与当前感知信息对应的外部目标的流程示意图；

图4是本发明提供的基于外部目标和内部目标，生成与当前感知信息对应的外部动作的流程示意图；

图5是本发明提供的实现通用人工智能的方法的应用场景示意图；

图6是本发明提供的实现通用人工智能的装置的结构示意图；

图7是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

通用人工智能是一种具备与人类相似的认知推理能力的高阶智能，具备高级的任务泛化能力，与当前的各类智能模型有着本质的不同。

本发明提供的实现通用人工智能的方法，可以应用于智能体，通过价值观决策模型中的价值驱动实现高级抽象层级的经验泛化，进而具体到任务层级的泛化，并依托“价值-经验-任务”三层耦合的系统设计，可以令智能机器具备像人一样的思考能力，进而可以确保能够基于当前感知信息、任务决策模型和价值观决策模型，得到与当前感知信息对应的外部目标，并基于外部目标和内部目标生成与当前感知信息对应的外部动作，从而可以很好地实现通用人工智能。

图1是本发明提供的实现通用人工智能的方法的流程示意图。

下面将结合图1对实现通用人工智能的方法的过程进行说明。

在本发明一示例性实施例中，结合图1可知，实现通用人工智能的方法可以包括步骤110至步骤140，下面将分别介绍各步骤。

在步骤110中，获取当前感知信息。

在一种实施例中，可以获取当前感知信息。其中，当前感知信息可以是基于视觉、听觉、触觉、味觉或嗅觉得到的感知信息。可以理解的是，对于智能体，可以基于任何感知信息做出对应的外部动作，从而实现通用人工智能。

在步骤120中，基于当前感知信息，得到与当前感知信息对应的内部目标，其中，内部目标为与智能体的基本生理需求相关的目标。

在一种实施例中，可以基于获取的当前感知信息，得到与当前感知信息对应的内部目标。其中，内部目标可以理解为是与智能体的基本生理需求相关的目标，例如饥饿、寒冷等。

需要说明的是，对于一个类人的智能体，其基于感知信息做出的外部动作，除了考虑本能的生理目标(对应内部目标)外，还需要结合其自身的价值观，即考虑外部目标。最后，再基于外部目标和内部目标综合确定形成怎样的外部动作。

在步骤130中，基于当前感知信息、任务决策模型和价值观决策模型，得到与当前感知信息对应的外部目标，其中，外部目标为与智能体的主观意图相关的目标，任务决策模型通过预训练得到，价值观决策模型根据以往感知信息预训练得到。

在一种实施例中，外部目标可以理解为智能体在考虑其自身的价值观的基础上，形成的与当前感知信息对应的主观意图相关的目标。即除智能体本能的生理反应之外，还考虑外界影响的目标。

在一示例中，可以基于当前感知信息、任务决策模型和价值观决策模型，得到与当前感知信息对应的外部目标。其中，任务决策模型可以通过预训练得到。价值观决策模型可以根据以往感知信息预训练得到。

图2是本发明提供的价值观决策模型的层次化结构示意图。

结合图2可知，价值观决策模型包括任务层、经验层和价值层。在任务层中，数据类型可以为不同任务对应的任务数据集合，例如，可以是以往感知信息构成的数据集合。在一示例中，数据类型还可以是现实世界或虚拟合成的数据集，用于任务训练。例如ImageNet数据集、各类AI训练模拟器等。在应用过程中，可以通过对不同的任务数据类型进行任务抽象，可获取单一任务的任务知识。在任务层中，可以形成专用任务模型，即用于专门完成一类任务的模型，例如图像检测分类器等、各类游戏AI等。

需要说明的是，任务抽象可以定义任务是做什么和怎么测试。在任务抽象的过程中，输入的是各类数据，输出学到的任务知识。例如图像识别任务、语音翻译任务等。任务知识是指从数据上训练后，可以用于处理某项任务的模型结构和参数等。例如训练过的图像分类器具备了图像分类知识。

在经验层中，可以对多种任务知识进行经验抽象，用以获得对应任务集合的经验知识。其中，经验抽象可以定义多个任务体现的经验是什么如何测试。在经验抽象的过程中，输入的是任务知识，输出的是经验知识。经验知识是指从各类任务中分析总结出的经验。例如整理书桌任务和收拾房间任务，体现的任务知识分别是物品整齐和物品收纳归类，但反映的经验是更加抽象的整洁易用生活习惯。

在经验层中，可以形成泛化任务模型，即可以在不同类任务之间泛化。例如，图像处理模型和声音处理模型等。经过预训练的模型，当新任务到来后，经过简单的适配即可使用。也有的模型在训练的时候输入多类别任务同时训练，使得模型可以获取任务的共性特征，从而可以更好地迁移到新任务上，例如，meta learning方法。

在价值层，可以对多种经验知识进行价值抽象，用以获得对应经验集合的价值观信息。其中，价值观信息可以理解为是对应数据类型的数据集的价值观。即基于数据类型的数据集形成的价值观。在应用过程中，形成的价值观会反作用于基于未来感知信息生成的外部动作。

需要说明的是，价值抽象可以定义智能体的内在价值。在价值抽象过程中，输入的是经验知识，输出的是价值观描述。其中，价值观是指高维空间的流形，可投影到低纬空间。例如，整洁易用生活习惯、积极合作习惯等可以抽象出追求高效(局部描述)的个人价值观。

在价值层，可以形成通用智能模型。其中，泛化模型学到的是从任务中抽象出的经验，通用智能模型是从经验中再进行抽象，得到智能体的价值观。价值观作为最高层驱动力，实现从价值观到经验，再到任务的逐层传递，进而实现智能体的价值驱动。

在又一种实施例中，价值观决策模型可以包括任务层、经验层和价值层；其中，价值观决策模型可以采用以下方式确定：

基于多个以往感知信息对价值观决策模型进行训练，以使价值观决策模型中的任务层输出与以往感知信息对应的任务知识，再使价值观决策模型中的经验层输出与任务知识对应的经验知识，以及使价值观决策模型中的价值层输出与经验知识的价值观。

在一种实施例中，以往感知信息可以理解为图2中的数据类型。在应用过程中，可以基于多个以往感知信息对价值观决策模型进行训练，以使价值观决策模型依次通过任务层、经验层、价值层后，最终输出与感知信息对应的价值观。

在一示例中，可以基于多个以往感知信息对价值观决策模型进行训练，以使价值观决策模型中的任务层输出与以往感知信息对应的任务知识；再使价值观决策模型中的经验层输出与任务知识对应的经验知识；以及使价值观决策模型中的价值层输出与经验知识的价值观。

由于经验层是以任务知识作为输入的，而任务知识又基于以往感知信息确定，因此，经验层输出的经验知识也与以往感知信息相对应。进一步的，价值层是以经验知识作为输入的，而经验知识又基于以往感知信息确定，因此，价值层输出的价值观也与以往感知信息相对应。

在本实施例中，采用价值驱动的智能机器实现模式，设计了价值-经验-任务三层次的设计模式，为实现通用人工智能的方法打下了基础。

在步骤140中，基于外部目标和内部目标，生成与当前感知信息对应的外部动作，用以实现通用人工智能。

在一种实施例中，可以综合结合外部目标和内部目标，生成与当前感知信息对应的外部动作。可以理解的是，由于外部目标是结合价值观决策模型得到的，因此，会包含关于该智能体的价值观，从而可以指导生成与当前感知信息对应的外部目标。通过本实施例，实现了智能体决策过程的可解释性和可泛化性，提升了通用智能体的知识学习和经验转化能力。

本发明提供的实现通用人工智能的方法，基于当前感知信息可以得到与当前感知信息对应的内部目标，以及基于当前感知信息、任务决策模型和价值观决策模型，得到与当前感知信息对应的外部目标，其中，价值观决策模型根据以往感知信息预训练得到。再基于外部目标和内部目标生成与当前感知信息对应的外部动作，用以实现通用人工智能。通过本发明实现了任务泛化和知识迁移，进而实现了通用人工智能。

为了进一步介绍本发明提供的实现通用人工智能的方法，下面将结合图3进行说明。

图3是本发明提供的基于当前感知信息、任务决策模型和价值观决策模型，得到与当前感知信息对应的外部目标的流程示意图。

在本发明一示例性实施例中，结合图3可知，基于当前感知信息、任务决策模型和价值观决策模型，得到与当前感知信息对应的外部目标可以包括步骤310和步骤320，下面将分别介绍各步骤。

在步骤310中，将当前感知信息输入至价值观决策模型，得到价值观决策模型输出的与当前感知信息对应的价值观。

在步骤320中，基于当前感知信息，与当前感知信息对应的价值观，通过任务决策模型，得到与当前感知信息对应的外部目标。

在一种实施例中，由于价值观决策模型为一种通用的智能模型，可以生成与当前感知信息对应的价值观。可以理解的是，生成的与当前感知信息对应的价值观，会影响智能体关于形成与该当前感知信息对应的外部目标。

在一示例中，可以基于当前感知信息，以及与当前感知信息对应的价值观，通过任务决策模型，可以得到与当前感知信息对应的外部目标。进一步的，再基于外部目标和内部目标，生成与当前感知信息对应的外部动作，用以实现通用人工智能。

图4是本发明提供的基于外部目标和内部目标，生成与当前感知信息对应的外部动作的流程示意图。

为了进一步介绍本发明提供的实现通用人工智能的方法，下面将结合图4进行说明。

在本发明一示例性实施例中，结合图4可知，基于外部目标和内部目标，生成与当前感知信息对应的外部动作可以包括步骤410至步骤440，下面将分别介绍各步骤。

在步骤410中，基于当前感知信息，与当前感知信息对应的价值观，通过任务决策模型，得到与当前感知信息对应的外部目标权重。

在一种实施例中，可以根据当前感知信息，以及与当前感知信息对应的价值观，通过任务决策模型，得到与当前感知信息对应的外部目标权重。在本实施例中，通过价值观影响与当前感知信息对应的外部目标权重，进而可以影响与当前感知信息对应的外部动作。

在步骤420中，基于外部目标权重，确定内部目标权重。

在步骤430中，基于外部目标、外部目标权重、内部目标和内部目标权重，确定外部目标和内部目标的加权和结果。

在步骤440中，基于加权和结果，得到与当前感知信息对应的外部动作。

在一种实施例中，当确定出外部目标权重后，可以将(100％-外部目标权重)作为内部目标权重。进一步的，再基于外部目标、外部目标权重、内部目标和内部目标权重，确定外部目标和内部目标的加权和结果，并根据加权和结果，得到与当前感知信息对应的外部动作。在本实施例中，与当前感知信息对应的外部动作是与智能体的价值观相关的，进而可以实现智能体决策过程的可解释性和可泛化性，提升了智能体的知识学习和经验转化能力。

需要说明的是，当前感知信息与对应的外部动作也会作为再次更新价值观决策模型的数据集，进而可以使得生成的下一次的感知信息的外部动作包含了当前感知信息的经验知识。

在本发明又一示例性实施例中，继续以前述实施例为例进行说明，在获取当前感知信息之后，实现通用人工智能的方法还包括：

将当前感知信息作为以往感知信息对价值观决策模型进行再训练，并将再训练后的价值观决策模型作为下一次基于感知信息得到与感知信息对应的外部动作过程中的价值观决策模型。

在本实施例中，通过将前感知信息作为以往感知信息对价值观决策模型进行再训练，可以使训练后的价值观决策模型中包含本次的感知信息的经验，进而可以使得生成的下一次的感知信息的外部动作包含了当前感知信息的经验知识，从而可以提高智能体的持续学习能力和经验转化能力。

图5是本发明提供的实现通用人工智能的方法的应用场景示意图。

为了进一步介绍本发明提供的实现通用人工智能的方法，下面将结合图5进行说明。

在本发明一示例性实施例中，以与实现通用人工智能的方法对应的虚拟系统模块为例进行说明。结合图5可知，与实现通用人工智能的方法对应的虚拟系统模块的工作流程可以包括如下内容：

系统初始化后，感知单元，例如，视觉、听觉、触觉、味觉、嗅觉可以持续接收外部信号，然后对这些信号，如看到的图像、听到的声音等汇总传输进入感知融合器。感知融合器可以对信号进行多模态综合处理，转化成统一的信息格式，并传入信息提取器。信息提取器对进来的信息进行信息映射、信息合并等操作，并提取出有意义的信息序列，例如一个人坐在椅子上喝水。然后进入任务决策器，其中，任务决策器可以对应任务决策模型。

在一种实施例中，任务决策器可以包括一个调用器，其中，调用器可以认为是一个独立激活模块，其可以对任务执行的结果进行持续分析。当满足一定激活阈值，即认为抽取到了经验后，可以联系经验知识存储器来更新存储的经验知识数据。一旦经验知识存储器更新中激活了某个阈值，则认为经验积累影响到了价值观，则联系价值观编码器进行价值观更新。

其中，价值观的更新、经验知识的更新都会往前一级结构进行反馈，从而影响其工作状态，保证其始终更新至最新状态。可以理解的是，经验知识存储器和价值观编码器可以分别对应价值观决策模型中的经验层和价值层。在本实施例中，本次的感知信息也会作为再次更新价值观决策模型的数据集，进而可以使得生成的下一次的感知信息的外部动作包含了当前感知信息的经验知识。

在又一实施例中，若任务决策器没有触发调用器，则输出信息直接进入行为逻辑器，生成待执行任务，即动作意图。进一步的，基于动作意图触发状态单元形成与感知信息对应的内部目标和外部目标，再基于内部目标和外部目标控制行动单元执行对应的外部动作，例如，肢体驱动、面部表情和语音合成等。

在又一实施例中，感知融合器也可以直接更新内部目标，进而影响肢体、表情、语音等行动单元。例如，人类感受到寒冷会影响身体内部状态。相应的，智能体也可以加入类似的感受反馈机制，从而提升其内驱力作用下的行为机制。如遇到寒冷则感受到不舒适，从而驱动自身直接移动到温暖的区域，而不再参考外部目标的影响。

在又一实施例中，行动单元的任何更新都会使得感知单元的输入获得更新，从而激发新一轮的工作流程。

根据上述描述可知，本发明提供的实现通用人工智能的方法，基于当前感知信息可以得到与当前感知信息对应的内部目标，以及基于当前感知信息、任务决策模型和价值观决策模型，得到与当前感知信息对应的外部目标，其中，价值观决策模型根据以往感知信息预训练得到。再基于外部目标和内部目标生成与当前感知信息对应的外部动作，用以实现通用人工智能。通过本发明实现了任务泛化和知识迁移，进而实现了通用人工智能。

基于相同的构思，本发明还提供一种实现通用人工智能的装置。

下面对本发明提供的实现通用人工智能的装置进行描述，下文描述的实现通用人工智能的装置与上文描述的实现通用人工智能的方法可相互对应参照。

图6是本发明提供的实现通用人工智能的装置的结构示意图。

在本发明一示例性实施例中，结合图6可知，实现通用人工智能的装置可以包括第一模块610、第二模块620、第三模块630和第四模块640，下面将分别介绍各模块。

第一模块610可以被配置为用于获取当前感知信息；

第二模块620可以被配置为用于基于当前感知信息，得到与当前感知信息对应的内部目标，其中，内部目标为与智能体的基本生理需求相关的目标；

第三模块630可以被配置为用于基于当前感知信息、任务决策模型和价值观决策模型，得到与当前感知信息对应的外部目标，其中，外部目标为与智能体的主观意图相关的目标，任务决策模型通过预训练得到，价值观决策模型根据以往感知信息预训练得到；

第四模块640可以被配置为用于基于外部目标和内部目标，生成与当前感知信息对应的外部动作，用以实现通用人工智能。

在本发明一示例性实施例中，第三模块630可以采用以下方式基于当前感知信息、任务决策模型和价值观决策模型，得到与当前感知信息对应的外部目标：

将当前感知信息输入至价值观决策模型，得到价值观决策模型输出的与当前感知信息对应的价值观；

基于当前感知信息，与当前感知信息对应的价值观，通过任务决策模型，得到与当前感知信息对应的外部目标。

在本发明一示例性实施例中，第三模块630还可以被配置为用于：

基于当前感知信息，与当前感知信息对应的价值观，通过任务决策模型，得到与当前感知信息对应的外部目标权重；

基于外部目标权重，确定内部目标权重；

第四模块640可以采用以下方式基于外部目标和内部目标，生成与当前感知信息对应的外部动作：

基于外部目标、外部目标权重、内部目标和内部目标权重，确定外部目标和所述内部目标的加权和结果；

基于加权和结果，得到与当前感知信息对应的外部动作。

在本发明一示例性实施例中，价值观决策模型可以包括任务层、经验层和价值层；第三模块630可以采用以下方式确定价值观决策模型：

在本发明一示例性实施例中，第三模块630还可以被配置为用于将当前感知信息作为以往感知信息对价值观决策模型进行再训练，并将再训练后的价值观决策模型作为下一次基于感知信息得到与感知信息对应的外部动作过程中的价值观决策模型。

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行实现通用人工智能的方法，该方法包括：获取当前感知信息；基于当前感知信息，得到与当前感知信息对应的内部目标，其中，内部目标为与智能体的基本生理需求相关的目标；基于当前感知信息、任务决策模型和价值观决策模型，得到与当前感知信息对应的外部目标，其中，外部目标为与智能体的主观意图相关的目标，任务决策模型通过预训练得到，价值观决策模型根据以往感知信息预训练得到；基于外部目标和内部目标，生成与当前感知信息对应的外部动作，用以实现通用人工智能。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的实现通用人工智能的方法，该方法包括：获取当前感知信息；基于当前感知信息，得到与当前感知信息对应的内部目标，其中，内部目标为与智能体的基本生理需求相关的目标；基于当前感知信息、任务决策模型和价值观决策模型，得到与当前感知信息对应的外部目标，其中，外部目标为与智能体的主观意图相关的目标，任务决策模型通过预训练得到，价值观决策模型根据以往感知信息预训练得到；基于外部目标和内部目标，生成与当前感知信息对应的外部动作，用以实现通用人工智能。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的实现通用人工智能的方法，该方法包括：获取当前感知信息；基于当前感知信息，得到与当前感知信息对应的内部目标，其中，内部目标为与智能体的基本生理需求相关的目标；基于当前感知信息、任务决策模型和价值观决策模型，得到与当前感知信息对应的外部目标，其中，外部目标为与智能体的主观意图相关的目标，任务决策模型通过预训练得到，价值观决策模型根据以往感知信息预训练得到；基于外部目标和内部目标，生成与当前感知信息对应的外部动作，用以实现通用人工智能。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

进一步可以理解的是，本发明实施例中尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种实现通用人工智能的方法，其特征在于，所述方法包括：

获取当前感知信息；

基于所述当前感知信息，得到与所述当前感知信息对应的内部目标，其中，所述内部目标为与智能体的基本生理需求相关的目标；

基于所述当前感知信息、任务决策模型和价值观决策模型，得到与所述当前感知信息对应的外部目标，其中，所述外部目标为与所述智能体的主观意图相关的目标，所述任务决策模型通过预训练得到，所述价值观决策模型根据以往感知信息预训练得到；

基于所述外部目标和所述内部目标，生成与所述当前感知信息对应的外部动作，用以实现通用人工智能。

2.根据权利要求1所述的实现通用人工智能的方法，其特征在于，所述基于所述当前感知信息、任务决策模型和价值观决策模型，得到与所述当前感知信息对应的外部目标，具体包括：

将所述当前感知信息输入至所述价值观决策模型，得到所述价值观决策模型输出的与所述当前感知信息对应的价值观；

基于所述当前感知信息，所述与所述当前感知信息对应的价值观，通过所述任务决策模型，得到与所述当前感知信息对应的外部目标。

3.根据权利要求1所述的实现通用人工智能的方法，其特征在于，在所述基于所述当前感知信息、任务决策模型和价值观决策模型，得到与所述当前感知信息对应的外部目标之后，所述方法还包括：

基于所述当前感知信息，所述与所述当前感知信息对应的价值观，通过所述任务决策模型，得到与所述当前感知信息对应的外部目标权重；

基于所述外部目标权重，确定内部目标权重；

所述基于所述外部目标和所述内部目标，生成与所述当前感知信息对应的外部动作，具体包括：

基于所述外部目标、所述外部目标权重、所述内部目标和所述内部目标权重，确定所述外部目标和所述内部目标的加权和结果；

基于所述加权和结果，得到与所述当前感知信息对应的外部动作。

4.根据权利要求1所述的实现通用人工智能的方法，其特征在于，所述价值观决策模型包括任务层、经验层和价值层；

所述价值观决策模型采用以下方式确定：

基于多个以往感知信息对所述价值观决策模型进行训练，以使所述价值观决策模型中的所述任务层输出与所述以往感知信息对应的任务知识，再使所述价值观决策模型中的所述经验层输出与所述任务知识对应的经验知识，以及使所述价值观决策模型中的所述价值层输出与所述经验知识的价值观。

5.根据权利要求4所述的实现通用人工智能的方法，其特征在于，在所述获取当前感知信息之后，所述方法还包括：

将所述当前感知信息作为以往感知信息对所述价值观决策模型进行再训练，并将再训练后的价值观决策模型作为下一次基于感知信息得到与所述感知信息对应的外部动作过程中的价值观决策模型。

6.一种实现通用人工智能的装置，其特征在于，所述装置包括：

第一模块，用于获取当前感知信息；

第二模块，用于基于所述当前感知信息，得到与所述当前感知信息对应的内部目标，其中，所述内部目标为与智能体的基本生理需求相关的目标；

第三模块，用于基于所述当前感知信息、任务决策模型和价值观决策模型，得到与所述当前感知信息对应的外部目标，其中，所述外部目标为与所述智能体的主观意图相关的目标，所述任务决策模型通过预训练得到，所述价值观决策模型根据以往感知信息预训练得到；

第四模块，用于基于所述外部目标和所述内部目标，生成与所述当前感知信息对应的外部动作，用以实现通用人工智能。

7.根据权利要求6所述的实现通用人工智能的装置，其特征在于，所述第三模块采用以下方式基于所述当前感知信息、任务决策模型和价值观决策模型，得到与所述当前感知信息对应的外部目标：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述的实现通用人工智能的方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的实现通用人工智能的方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的实现通用人工智能的方法。