CN111680126A

CN111680126A - 一种基于人工智能的行为决策控制系统及方法

Info

Publication number: CN111680126A
Application number: CN202010524965.6A
Authority: CN
Inventors: 牛猛
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-06-10
Filing date: 2020-06-10
Publication date: 2020-09-18
Anticipated expiration: 2040-06-10
Also published as: CN111680126B

Abstract

本申请实施例提供了一种基于人工智能的行为决策控制系统及方法，行为决策控制系统包括行为产生模块、行为选择模块和行为输出模块。其中。行为产生模块用于，至少依据获取的信息和预设的第一目标，产生待选行为，第一目标包括：被赞赏、安全和提高能力中的至少一项。行为选择模块用于，通过评估待选行为实现第一目标的程度，从待选行为中选择待执行行为。行为输出模块用于，将待执行行为分解为预设类型的动作，并使用动作的类型对应的设备，执行动作。本申请所述的技术方案，先模拟人的行为产生准则产生待选行为，再模拟人的行为选择模式，选择待执行行为，最后再执行待执行行为，提高了智能化水平。

Description

一种基于人工智能的行为决策控制系统及方法

技术领域

本申请涉及电子信息领域，尤其涉及一种基于人工智能的行为决策控制系统、方法、设备及计算机可读存储介质。

背景技术

机器是由各种具有不同功能的零部件组装成的装置，人工智能是研究开发用来模拟和扩展人的智慧的技术方法，基于人工智能的智能机器技术必将给人类社会带来深刻且广泛的变革。人工智能的应用领域包括智能安防、无人驾驶、智慧家居和服务机器人等。

现有的智能机器产品程序简单，功能单一，只能适用于一些简单重复性的工作领域(如扫地机器人和物流机器人)，或者，根据用户指令执行一些简单的行为(如客服机器人和智能音箱)，这类智能机器的信息处理模型的质量低，所以很难理解和处理人类社会中各种复杂的事情，更不可能像人类服务员一样给人们提供人性化的服务。

因此，如何构建高质量的信息处理模型，从而使得智能机器更加智能化，是现有技术中亟待解决的技术难题。

发明内容

本申请提供了一种基于人工智能的行为决策控制系统、方法、设备及计算机可读存储介质，用于实现智能机器更加智能化的目的。

为了实现上述目的，本申请提供了以下技术方案：

一种基于人工智能的行为决策控制系统，包括：

行为产生模块、行为选择模块和行为输出模块；

所述行为产生模块用于，至少依据获取的信息和预设的第一目标，产生待选行为，所述第一目标包括：被赞赏、安全和提高能力中的至少一项；

所述行为选择模块用于，通过评估所述待选行为实现所述第一目标的程度，从所述待选行为中选择待执行行为；

所述行为输出模块用于，将所述待执行行为分解为预设类型的动作，并使用所述动作的类型对应的设备，执行所述动作。

可选地，第一目标具体包括：

被人类赞赏、保证自身和人类的身体安全、提高自身的做事能力、避免人类指责和避免违法。

可选地，评估包括：

正向评估和反向评估，所述正向评估包括执行所述待选行为满足被人类赞赏的程度、保证自身和人类的身体安全的程度、提高自身的做事能力的程度、避免人类指责和避免违法的程度。

可选地，行为产生模块包括：

理性思考模块和潜意识行为产生模块；

所述理性思考模块用于，依据所述信息和所述第一目标，产生理性思考结果，并将所述理性思考结果发给所述潜意识行为产生模块；

所述潜意识行为产生模块用于，依据所述信息和所述理性思考结果，产生如下满足所述第一目标的潜意识行为：使人类赞赏的潜意识行为、保证自身和人类的身体安全的潜意识行为、提高自身的做事能力的潜意识行为、避免人类指责和避免违法的潜意识行为。

可选地，理性思考模块包括：

思考目标产生模块、中央思考模块和思考目标选择模块；

所述中央思考模块用于，依据所述思考目标选择模块输出的历史思考目标、和所述潜意识行为产生模块输出的历史潜意识行为，处理所述信息，得到处理结果；

所述思考目标产生模块用于，依据所述处理结果，产生如下满足所述第一目标的思考目标：使人类赞赏的思考目标、保证自身和人类的身体安全的思考目标、提高自身的做事能力的思考目标、避免人类指责和避免违法的思考目标；

所述思考目标选择模块用于，从紧迫性和重要性的维度，通过评价所述满足所述第一目标的思考目标，从所述满足所述第一目标的思考目标中，选择评价结果最优的思考目标作为第一思考目标，并将所述第一思考目标发送至所述中央思考模块，作为所述历史思考目标；

所述中央思考模块还用于，依据所述信息和所述历史思考目标，产生所述理性思考结果。

可选地，理性思考模块还包括以下至少一项：

思考功能模块和存储记忆模块；

所述存储记忆模块用于，存储所述中央思考模块的输入和输出；

所述思考功能模块用于，辅助和/或修正所述中央思考模块的处理，包括：

多媒体编辑模块，用于辅助所述中央思考模块对视频、音频和图片的编辑；

思考结果评估模块，用于评价所述中央思考模块输出的理性思考结果方法的效率和正确性，得到第一评价结果；

机器学习程序修正模块，用于调整和修正所述中央思考模块处理所述信息的过程，调整和修正的依据至少包括所述第一评价结果；

思考过程总结模块，用于生成至少一个历史目标均值以及所述历史目标均值的历史结果均值，任一所述历史目标均值为相似思考目标的平均值，所述相似思考目标包括至少一个所述历史思考目标，所述历史目标均值的历史结果均值为所述相似思考目标对应的理性思考结果的平均值；

所述思考过程总结模块还用于，如果所述第一思考目标与所述历史目标均值的相似度大于预设的目标阈值，将所述历史目标均值的历史结果均值作为所述理性思考结果。

可选地，行为选择模块包括：

评价模块和确定模块；

所述评价模块用于从以下维度逐一正向评估所述待选行为：使周围人赞赏的程度、使周围人安全的程度、使人类赞赏的程度、使自身安全的程度、使自身能力提高的程度、和遵守法律法规的程度；并从以下维度逐一反向评估所述待选行为：暂时不做受到周围人指责的程度、暂时不做使周围人不安全的程度、暂时不做受到人类指责的程度、暂时不做使自身不安全的程度、和暂时不做违反遵守法律法规的程度；

所述确定模块用于，依据所述正向评估的结果和所述反向评估结果，确定所述待执行行为。

可选地，行为输出模块包括：

行为分解模块和行为执行模块；

所述行为分解模块用于，将所述待执行行为分解为所述预设类型的行为指令；

所述行为执行模块包括：

传动模块，用于执行指示物理动作的行为指令；

显示设备，用于执行显示指令，以显示所述显示指令指示输出的视频或图像信息；

扬声器设备，用于执行音频输出指令，以发出所述音频输出指令指示输出的音频信息；

网络输出设备，用于执行互联网信息指令，以向互联网中传送所述互联网信息指令指示输出的信息。

可选地，行为分解模块与所述行为产生模块相连，用于向所述行为产生模块发送所述行为指令；

所述行为产生模块用于至少依据获取的信息和预设的第一目标，产生待选行为，包括：

所述行为产生模块具体用于，依据获取的信息、所述预设的第一目标和所述行为指令，产生待选行为。

可选地，基于人工智能的行为决策控制系统还包括：

信息分析综合模块，用于按照输入信息的类型，分类确定所述输入信息的含义表达，并依据各个所述类型的含义表达，确定所述信息，所述信息包括周围人的状态信息、环境信息、自身状态信息和网络状态信息。

可选地，信息分析综合模块包括：

初步分析模块，用于获取各个类型信息的含义表达，所述各个类型信息包括：视觉信息、听觉信息、自身工作状态信息、外界环境信息、方位信息、和网络信息；

信息综合理解模块，用于依据各个所述类型的含义表达确定所述信息。

可选地，基于人工智能的行为决策控制系统还包括：

信息输入模块；

所述信息输入模块包括信息采集模块和信息识别模块；

所述信息识别模块包括简化模块和识别模块；

所述简化模块和所述识别模块用于迭代实现如下流程：所述简化模块简化输入的数据，得到简化块；所述识别模块依据所述简化块，将所述输入的数据划分为子区域；其中，在第一迭代过程中，所述输入的数据为采集的原始信息，在其他迭代过程中，所述输入的数据为所述识别模块在上一迭代过程得到的所述子区域，在最后一次迭代过程中，所述识别模块输出全部迭代过程的子区域的特征向量。

一种基于人工智能的行为决策控制方法，包括：

至少依据获取的信息和预设的第一目标，产生待选行为，所述第一目标包括：被赞赏、安全和提高能力中的至少一项；

通过评估所述待选行为实现所述第一目标的程度，从所述待选行为中选择待执行行为；

将所述待执行行为分解为预设类型的动作，并使用所述动作的类型对应的设备，执行所述动作。

一种基于人工智能的行为决策控制设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上所述的基于人工智能的行为决策控制方法的各个步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上所述的基于人工智能的行为决策控制方法的各个步骤。

由上述技术方案可以看出，本申请所述的技术方案，行为产生模块至少依据获取的信息和预设的第一目标，产生待选行为，行为选择模块通过评估待选行为，从待选行为中选择待执行行为，行为输出模块将待执行行为分解为预设类型的动作，并使用动作的类型对应的设备，执行动作。其中，第一目标包括：被赞赏、安全和提高能力，评估包括正向评估和反向评估，正向评估包括执行所述待选行为满足被赞赏、安全、提高能力、和守法的程度，反向评估包括不执行所述待选行为满足被指责、不安全、和不守法的程度，可见，本申请所述的技术方案，先模拟人的行为产生准则产生待选行为，再模拟人的行为选择模式，选择待执行行为，最后再执行待执行行为，与现有的人为设定几种类型的行为，再从几种类型中选择执行的行为，具有更高的智能化水平。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种基于人工智能的行为决策控制系统；

图2为本申请实施例公开的迭代处理方法的流程示意图；

图3为本申请实施例公开的行为产生模块的结构示意图；

图4为本申请实施例公开的一种基于人工智能的行为决策控制方法的流程示意图；

图5为本申请实施例公开的一种基于人工智能的行为决策控制设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例公开的一种基于人工智能的行为决策控制系统，包括：信息输入模块1、信息分析综合模块2、行为产生模块3、行为选择模块4和行为输出模块5。

下面将详细说明以上各个模块的具体结构和功能。

信息输入模块1包括信息采集模块11和信息识别模块12。其中，信息采集模块11用于采集原始信息。信息识别模块12用于，处理并识别原始信息，得到特征向量。

本实施例中，信息采集模块11包括视觉输入设备111、听觉输入设备112、传感器113、方位输入设备114和网络接入设备115。

具体的，视觉输入设备111用于采集视觉信息，视觉信息包括自然界中的实物的外观(如颜色和形状)形成的信息，例如图片信息或视频信息。

听觉输入设备112用于采集听觉信息，听觉信息为自然界中的声波。

传感器113用于感应并采集自然界和基于人工智能的行为决策控制系统中的信息，信息具体包括外界环境信息和自身工作状态信息。

方位输入设备114用于采集方位信息，方位信息包括但不限于：基于人工智能的行为决策控制系统的朝向以及地理位置信息。

网络接入设备115用于采集基于人工智能的行为决策控制系统连接的网络中的信息，例如，接收行为决策控制系统连接网络中的指令信息。需要说明的是，用户可以通过应用程序对决策控制系统发送指令，如点击预设的“一键回家”按钮，发送回家指令信息，行为决策控制系统中的网络接入设备可以采集该指令信息。

可以理解的是，上述信息采集模块11采集到的各个信息构成原始信息。

本实施例中，信息识别模块12包括简化模块121和识别模块122。

具体的，简化模块和识别模块用于迭代实现如下流程：

S1、简化模块简化输入的数据，得到简化块。

本实施例中，简化模块简化输入的数据是指，删除输入的数据中的部分信息。可以理解的是，因为上述信息采集模块11使用不同的采集设备采集到的是不同类型的信息，例如包括：图像、音频、和文本(例如参数值序列)。因此，简化模块121可以针对输入的不同类型的数据，分别简化输入的数据。

具体的，简化输入的数据的具体实现方式包括但不限于：

1、删除图像中的部分像素。其中，可以随机删除，也可以依据预设规则删除像素。例如，对于一幅有400*400个像素点的图像，随机删除其中的80个像素点，即将随机选中的80个像素点位置的像素值设为0。

2、对于一条文本序列，有20个字符，删除指定的字符，如：的、标点符号、即使等，这些字符对文本含义的理解没有太大作用，因此可做删除处理。

3、删除音频中的某些频段的信号：可以将对于识别无太大作用的频段的信号的幅值设置为0。或者，随机删除某些时刻的声音信号：即将某些时刻的幅值设置为0。

简化模块121简化输入的数据后的结果称为简化块。简化模块121还用于将简化块和输入的数据发送至识别模块122。

S2、识别模块依据简化块，将输入的数据划分为子区域。

具体的，识别模块122针对不同类型的简化块，进行不同的识别处理，得到不同类型的子区域的特征向量。

具体的，识别处理的具体实现方式包括但不限于：

1、使用CNN模型，识别图像简化块或音频简化块的类型。例如，将识别图像简化块输入CNN模型，CNN模型输出简化块的类型为图像。

2、对于RNN模型，识别文本简化块的类型。

识别模块122使用识别结果，将输入的数据划分为子区域。

需要说明的是，为了模拟人眼和人脑对于事物的识别过程：例如眺望远处，首先看到的是天空、大地和房子这些大块的区域，然后为了进一步看清楚，注意力才会放到某个小区域中，识别小区域中的事物即房子前的人。简化模块121与识别模块122之间进行迭代处理，以提高信息识别结果的准确性。

本实施例中，在第一迭代过程中，输入的数据为采集的原始信息，在其他迭代过程中，输入的数据为识别模块在上一迭代过程得到的子区域，在最后一次迭代过程中，识别模块输出全部迭代过程的子区域的特征向量。

需要说明的是，针对不同类型的原始信息，迭代的次数可以不同，例如，图像迭代2-5次，文本迭代1-2次。

以迭代3次为例，迭代处理的流程图如图2所示：

S201、简化模块简化原始信息，得到第一简化块，并将第一简化块发送至识别模块。

S202、识别模块依据第一简化块，将原始信息划分为第一子区域，得到第一子区域的特征向量。并将第一子区域发送至简化模块。

S203、简化模块简化第一子区域，得到第二简化块，并将第二简化块发送至识别模块。

S204、识别模块依据第二简化块，将第一子区域划分为第二子区域，得到第二子区域的特征向量。并将第二子区域发送至简化模块。

S205、简化模块简化第二子区域，得到第三简化块，并将第三简化块发送至识别模块。

S206、识别模块依据第三简化块，将第二子区域划分为第三子区域，得到第三子区域的特征向量。

上述S201～S202为第一次迭代过程，S203～S204为第二次迭代过程，S205～S206为第三次迭代过程，每一次迭代处理的具体实现方式参见上述S1～S2。

需要说明的是，在第三次迭代过程中，识别模块输出全部迭代过程的子区域的特征向量，也即第一子区域的特征向量、第二子区域的特征向量、以及第三子区域的特征向量。

本实施例中，简化模块和识别模块迭代实现上述流程，可以从输入的数据中充分识别出有用信息，避免了信息丢失，简化模块简化输入的数据，使得识别模块在每次识别信息时，更加专注于某一识别范围和信息领域，减少相关性不高或者对识别没有明显作用的信息的干扰，提高信息识别的准确性和完整性。

需要说明的是，识别模块还用于将全部迭代过程的子区域的特征向量发送至信息分析综合模块2。

本实施例中，信息分析综合模块2用于按照输入信息(即为第一电子信息)的类型，分类确定输入信息的含义表达，并依据各个类型的含义表达确定第二电子信息，第二电子信息包括周围人的状态信息、环境信息、自身状态信息和网络状态信息。

具体的，信息分析综合模块2包括：信息初步分析模块21和信息综合理解模块22。

本实施例中，初步分析模块21，用于获取第一电子信息中各个类型信息的含义表达，各个类型信息包括：视觉信息、听觉信息、自身工作状态信息、外界环境信息、方位信息、和网络信息。

具体的，信息初步分析模块21获取第一电子信息中各个类型信息的含义表达的具体实现方式包括：

利用卷积神经网络算法对第一电子信息中视觉输入设备111采集的视觉信息做初步分析，得到视觉信息的含义表达，其中，视觉信息包括图片信息和视频信息。

利用循环神经网络算法对第一电子信息中听觉输入设备112采集的听觉信息做初步分析，得到听觉信息的含义表达。

对第一电子信息中对传感器113采集的自身工作状态信息做初步分析，得到自身工作状态信息的语义表达。

对第一电子信息中对传感器113采集的外界环境信息做初步分析，得到外界环境信息的语义表达。具体的，外界环境信息包括空气环境信息，则，本实施例得到对物理参数信息中的空气环境信息的语义表达，其中，空气环境信息包括空气组分参数信息和空气状况参数信息。

对第一电子信息中的方位输入设备114采集的方位信息做初步分析，得到方位信息的语义表达。

对第一电子信息中的网络接入设备采集的网络信息做初步分析，得到网络信息的语义表达。

本实施例中，以视觉初步分析模块利用卷积神经网络算法对第一电子信息中视觉输入设备采集的视觉信息做初步分析，得到视觉信息的含义表达的过程为例，对信息初步分析模块得到不同类型信息的含义表达的实现方法进行说明。

例如：视觉信息为图片信息，通过简化模块和识别模块迭代处理后，得到第一电子信息：天空，房子，人，天空中有一只鸟，天空下有一个房子，房子是一个楼房，房子旁边有一条路，路上有一个人。

信息初步分析模块通过视觉初步分析模块生成图片信息的含义表达为：傍晚，有一个老人在房子前伫立。

本实施例中，含义表达以预设的格式输出，例如，预设的格式为：时间+物体1+物体1与2之间的关系+物体2。

其中，时间的判断方法：通过一个单独的CNN网络模型获得，CNN网络模型的输入为图片信息，CNN网络模型对输入进行时间判断，得到时间判断结果，时间判断结果包括：上午、下午、傍晚、或晚上。本实施例中，CNN模型使用已标注图片进行训练，训练过程可以参照现有技术。

物体的类别及其位置关系判断方法：使用预设的目标检测技术(如：RCNN网络模型)得到物体在图片中的左上角坐标和宽高，以及物体的类别。如：人-(10，40，20，80)。

本实施例中，信息综合理解模块22用于依据各个类型的含义表达确定第二电子信息。

具体的，信息综合理解模块22依据各个类型的含义表达确定第二电子信息的具体实现方式包括：

理解判断周围自然人的思想内容和情绪状态、理解判断周围自然人做出行为的目的和意图、理解判断周围自然人身体的健康状态、理解判断周围物理环境的具体情况、理解判断各个物理组件的工作状态、理解判断做出行为的目的和含义、理解判断网络信息。

需要说明的是，上述每一项理解判断的过程通过训练好的机器模型实现，实现的具体方式可以参照现有技术。

本实施中，通过上述至少一项理解判断过程，将对各个类型的含义表达进行总结，从各个类型的含义表达中提取出至少一个具体事件信息集，并给每一个具体事件信息集添加解释说明，得到第二电子信息。

例如，第二电子信息为：傍晚，我的主人对这我大喊，让我回家。该第二电子信息至少通过对听觉信息的语义表达、以及视觉信息的语义表达总结提取得到。

本实施例中信息初步分析模块对输入信息中各个类型的信息进行单独分析，有利于信息综合理解模块充分了解输入信息的内容，防止遗漏重要信息。信息综合理解模块在信息初步分析模块分析处理的基础上把杂乱的输入信息总结提取出若干个具体事件信息集，并给每一个具体事件信息集附加解释说明，为深入理解输入信息的内容和重点提供依据。

图3为行为产生模块3的结构示意图，行为产生模块3用于至少依据第二电子信息和预设的第一目标，产生待选行为，本实施例中，第一目标包括：被赞赏、安全和提高能力。

如图3所示，行为产生模块3具体包括：理性思考模块31、潜意识行为产生模块和潜意识行为产生模块32。

本实施例中，理性思考模块31，用于依据第二电子信息和第一目标产生理性思考结果，并将理性思考结果发给潜意识行为产生模块。

如图3所示，理性思考模块31包括中央思考模块311、思考目标产生模块312、和思考目标选择模块313，理性思考模块31还包括思考功能模块314、和/或存储记忆模块315。需要说明的是，理性思考模块31还包括思考功能模块314、和存储记忆模块315中任一模块为可选的模块。

下面将详细说明以上311～315的具体功能。

中央思考模块311可以用于：

A1、处理第二电子信息，得到处理结果。

A2、依据第二电子信息和历史思考目标，产生理性思考结果。

本实施例中，理性思考结果为依据第二电子信息产生，并满足历史思考目标的理性行为结果和/或理性分析结果。例如，对于“我的主人对这我大喊，让我回家”，理性思考结果可以为理性行为结果“回到家里”，也可以为理性分析结果“主人的语气有些生气了”。本实施例对理性思考结果的内容性质不作限定。

其中，历史思考目标的产生过程参见下述思考目标产生模块312和思考目标选择模块313的功能描述。

思考目标产生模块312，用于依据中央思考模块311得到的处理结果，产生如下满足第一目标的思考目标：使周围人赞赏的思考目标、使周围人安全的思考目标、使人类赞赏的思考目标、使自身安全的思考目标、和使自身能力提高的思考目标。

具体的，思考目标产生模块312通过至少一个思考目标产生模型，产生以上满足第一目标的思考目标。具体实现方式包括：将处理结果输入至思考目标产生模型，获取思考目标产生模型输出的思考目标，输出的思考目标即为满足第一目标的思考目标。需要说明的是，每一思考目标产生模型为预先训练好的模型，训练过程包括：使用满足第一目标的训练集训练模型，模型的训练目标为：模型输出的思考目标满足第一目标。

可选的，第一目标中不同类型的目标，可以使用不同的思考目标产生模型实现。下述为具体实现方式：

将处理结果输入至第一思考目标产生模型，获取第一思考目标产生模型输出的使周围人赞赏的思考目标。

将处理结果输入至第二思考目标产生模型，获取第二思考目标产生模型输出的使周围人安全的思考目标。

将处理结果输入至第三思考目标产生模型，获取第三思考目标产生模型输出的使人类赞赏的思考目标。

将处理结果输入至第四思考目标产生模型，获取第四思考目标产生模型输出的使自身安全的思考目标。

将处理结果输入至第五思考目标产生模型，获取第五思考目标产生模型输出的使自身能力提高的思考目标。

思考目标选择模块313，用于从紧迫性和重要性的维度，通过评价满足第一目标的思考目标，从满足第一目标的思考目标中，选择评价结果最优的思考目标作为第一思考目标。

需要说明的是，思考目标选择模块将第一思考目标作为历史思考目标发送至中央思考模块311。

进一步需要说明的是，如图3所示，潜意识行为产生模块32与理性思考模块31中的中央思考模块311相连接，理性思考模块通过中央思考模块将理性思考结果发送至潜意识行为产生模块32。

理性思考模块31还包括：存储记忆模块314以及思考功能模块315。

本实施例中，存储记忆模块314用于存储中央思考模块311的输入和输出。

思考功能模块315，用于辅助和/或修正中央思考模块311的处理。

具体的，思考功能模块315包括：

多媒体编辑模块3151，用于辅助中央思考模块对视频、音频和图片的编辑。例如，第二电子信息中包括复杂的图片，由于中央思考模块的处理能力有限，因此，中央思考模块可以调取多媒体编辑模块，用于处理该复杂的图片。

思考结果评估模块3152，用于评价中央思考模块输出的理性思考结果方法的效率和正确性，得到第一评价结果。

机器学习程序修正模块3153，用于调整和修正中央思考模块处理信息的过程，调整和修正的依据至少包括第一评价结果。

思考过程总结模块3154，用于生成至少一个历史目标均值以及所述历史目标均值的历史结果均值。

由上可知，中央思考模块依据第二电子信息和每一历史思考目标，产生一个理性思考结果，也即每一历史思考目标对应于一个理性思考结果。

本实施例中，思考过程总结模块历史思考目标进行聚类，得到相似思考目标，相似思考目标包括相似程度高的若干个历史思考目标。进一步，计算相似思考目标中的历史思考目标的平均值，历史目标均值。由于聚类可以得到至少一类相似思考目标，由此，可以得到至少一个历史目标均值。又因为，每一历史思考目标对应于一个理性思考结果，所以计算相似思考目标对应的理性思考结果的平均值，得到历史结果均值。

例如，理性思考模块产生10个历史思考目标，记为m1、m2，…，m10，每一历史思考目标对应于一个理性思考结果，记为m1、m2，…，m10。聚类得到三类相似思考目标，第一类相似思考目标包括m1、m2、以及m10，第二类相似思考目标包括m3、m5、以及m9，第三类相似思考目标包括m4、m6、m7以及m8。

则，计算第一类相似思考目标(m1、m2、以及m10)的平均值得到第一历史目标均值，计算第二类相似思考目标(m3、m5、以及m9)的平均值得到第二历史目标均值，计算第三类相似思考目标(m4、m6、m7以及m8)的平均值得到第三历史目标均值。

并且，计算第一类相似思考目标的理性思考结果(s1、s2、以及s10)平均值得到第一历史结果均值，计算第二类相似思考目标的理性思考结果(s3、s5、以及s9)平均值得到第二历史结果均值，计算第三类相似思考目标的理性思考结果(s4、s6、s7以及s8)的平均值得到第三历史结果均值。

思考过程总结模块还用于，如果第一思考目标与历史目标均值的相似度大于目标阈值，将历史目标均值的历史结果均值作为理性思考结果。

接上例，思考目标选择模块产生的第一思考目标M与上述第二历史目标均值的相似度大于预设的目标阈值，则直接将第二历史结果均值作为理性思考结果即可。

需要说明的是，当存在多个历史目标均值与第一思考目标的相似度大于阈值，则取与第一思考目标的相似度最大的历史目标均值的历史结果均值作为理性思考结果。

本实施例中，如果第一思考目标与所有历史目标均值的相似度均不大于目标阈值，则，思考目标选择模块将第一思考目标作为历史思考目标发送至中央思考模块。中央思考模块执行A2。

进一步需要说明的是，存储记忆模块314以及思考功能模块315为可选的模块，当存在多个历史目标均值与第一思考目标的相似度大于阈值的情况下，由思考过程总结模块输出理性思考结果。通过思考过程总结模块，能够提高智能机器系统做事情的能力以及拟人化水平。

本实施例中，潜意识行为产生模块32用于依据第二电子信息和理性思考结果，产生如下满足第一目标的潜意识行为：使周围人赞赏的潜意识行为、使周围人安全的潜意识行为、使人类赞赏的潜意识行为、使自身安全的潜意识行为、和使自身能力提高的潜意识行为。

具体的，潜意识行为产生模块32通过至少一个潜意识行为产生模型，产生以上满足第一目标的潜意识行为。具体实现方式包括：将第二电子信息和理性思考结果输入至潜意识行为产生模型获取潜意识行为产生模型输出的潜意识行为，输出的潜意识行为即为满足第一目标的潜意识行为。需要说明的是，每一潜意识行为产生模型为预先训练好的模型，训练过程包括：使用满足第一目标的训练集训练模型，模型的训练目标为：模型输出的潜意识行为满足第一目标。

可选的，第一目标中不同类型的目标，可以使用不同的潜意识行为产生模型实现。下述为具体实现方式：

将第二电子信息和理性思考结果输入至第一潜意识行为产生模型，获取第一潜意识行为产生模型输出的使周围人赞赏的潜意识行为。

将第二电子信息和理性思考结果输入至第二潜意识行为产生模型，获取第二潜意识行为产生模型输出的使周围人安全的潜意识行为。

将第二电子信息和理性思考结果输入至第三潜意识行为产生模型，获取第三潜意识行为产生模型输出的使人类赞赏的潜意识行为。

将第二电子信息和理性思考结果输入至第四潜意识行为产生模型，获取第四潜意识行为产生模型输出的使自身安全的潜意识行为。

将第二电子信息和理性思考结果输入至第五潜意识行为产生模型，获取第五潜意识行为产生模型输出的使自身能力提高的潜意识行为。

需要说明的是，任一意识行为产生模型可以为训练好的seq2seq网络模型，例如，seq2seq网络模型输入“我的主人对这我大喊，让我回家”，以及“回到家里”，seq2seq网络模型输出的字符序列为“回到家里”和/或“原地不动”和/或“走到主人面前”。其中，“回到家里”、“原地不动”、或“走到主人面前”为潜意识行为产生模型输出的潜意识行为。

本实施例中，理性思考模块依据第二电子信息和第一目标产生满足第一目标的理性思考结果，提高了输出行为的智能化水平；潜意识行为产生模块依据第二电子信息和理性思考结果，产生至少一个满足第一目标的潜意识行为，保证了行为输出的及时性。

进一步，通过至少一个潜意识行为产生模型，产生满足第一目标的至少一个潜意识行为，其中，不同的潜意识行为满足不同类型的目标。不同类型的第一目标的设定，从根本上保证了潜意识行为产生模块产生有利于可持续健康发展的行为，有效帮助了潜意识行为产生模块产生更加具有基础性的潜意识行为，提高了行为产生模块产生行为的效率和质量。

进一步，思考目标选择模块从思考目标产生模块产生的思考目标中，选择第一思考目标，其中，思考目标产生模块产生的思考目标为满足第一目标的至少一个思考目标，第一思考目标为评价最优的思考目标。因此，第一思考目标为中央思考模块提供了信息处理的方向和动力，促进中央思考模块产生更加有针对性的行为方法的输出。

进一步，思考功能模块与中央思考模块相连接，思考功能模块中的多媒体编辑模块、思考结果评估模块、机器学习程序修正模块、做事情基本方法总结模块、以及做人基本方法总结模块，扩展了中央思考模块处理信息的能力，有效提高了中央思考模块处理信息的效率和质量。

进一步，中央思考模块与潜意识行为产生模块相连接，潜意识行为产生模块以一定频率连续从中央思考模块中读取信息，潜意识行为产生模块及时获取中央思考模块中信息处理的最新结果(即理性思考结果)，有利于潜意识行为产生模块更加全面的理解获取的信息(即第二电子信息)并产生更加合理的潜意识行为。

行为产生模块3将潜意识行为产生模块32产生的潜意识行为，作为待选行为发送至行为选择模块4。

行为选择模块4用于，通过评估待选行为，从待选行为中选择待执行行为。

本实施例中，评估包括正向评估和反向评估，正向评估包括执行待选行为满足被赞赏、安全、提高能力、和守法的程度，反向评估包括不执行待选行为满足被指责、不安全、和不守法的程度。

具体的，行为选择模块4包括：评价模块41和确定模块42；

本实施例中，评价模块41用于从以下维度逐一正向评估待选行为：使周围人赞赏的程度、使周围人安全的程度、使人类赞赏的程度、使自身安全的程度、使自身能力提高的程度、和遵守法律法规的程度。

可选的，上述提及的各程度可以为概率，评价模块41从每一维度正向评估待选行为，得到该维度下的概率。

评价模块41用于从以下维度逐一反向评估待选行为：暂时不做受到周围人指责的程度、暂时不做使周围人不安全的程度、暂时不做受到人类指责的程度、暂时不做使自身不安全的程度、和暂时不做违反遵守法律法规的程度。

可选的，上述提及的各程度可以为概率，评价模块41从上述每一维度反向评估待选行为，得到该维度下的概率。

需要说明的是，评价模块41从任一维度逐一评估(正向评估或反向评估)待选行为的具体实施方式为：将第二电子信息以及待选行为输入至评估模型，获取评估模型输出的概率值。可选的，评估模型可以为训练好的BERT网络模型，BERT网络模型的输入为两段文本，输出为概率值，BERT网络模型的训练方法可以参照现有技术。

可选的，本实施例中，不同维度评估待选行为可以使用不同的评估模型。例如，将上例中的潜意识行为：“回到家里”、“原地不动”、以及“走到主人面前”作为待选行为。

将每一待选行为以及第二电子信息输出至第一评估模型，需要说明的是，第一评估模型为从第一正向维度：使周围人赞赏的程度，正向评估待选行为的评估模型。因此，获取的第一评估模型的输出概率值表示使周围人赞赏的程度。

本例中，输入为“我的主人对这我大喊，让我回家”和“回到家里”，输出的概率值0.86，即为从第一正向维度评估“回到家里”的评估结果。输入为“我的主人对这我大喊，让我回家”和“原地不动”，输出的概率值0.42，即为从第一正向维度评估“原地不动”的评估结果，输入为“我的主人对这我大喊，让我回家”和“走到主人面前”，输出的概率值0.33，即为从第一正向维度评估“走到主人面前”的评估结果。

确定模块42用于，依据正向评估的结果和反向评估结果，确定待执行行为。

本实施例中，评价模块41评估待选行为得到正向评估结果以及反向评估结果，可选的，任意一个待选行为的正向评估结果包括从不同维度正向评估待选行为得到的多个概率，任意一个待选行为的反向评估结果包括从不同维度反向评估待选行为得到的多个概率。确定模块42用于将任意一个待选行为的所有概率的均值，作为待选行为的综合评估结果。依据每一待选行为的综合评估结果，从至少一个待选行为中确定出待执行行为。可选的，可以选择综合评估结果最大的待选行为为待执行行为。

本实施例中，行为选择模块从多个维度对至少一个待选行为进行逐一综合评价，并从中选出一个综合评价结果最优的行为方法作为待执行行为，可见，通过行为选择模块对待选行为的进行选择，有效防止了有危害性和无实用性的行为的输出，保证了输出行为的安全性、可控性和有效性。

本实施例中，行为输出模块5包括行为分解模块51和行为执行模块52。

具体的，行为分解模块51，用于将待执行行为分解为预设类型的行为指令，并将预设类型的行为指令发送至行为执行模块52。

本实施例中，行为分解模块51与行为产生模块3中的理性思考模块31相连，用于向理性思考模块31发送行为指令，目的在于为理性思考模块产生理性思考结果提供依据。

具体的，行为分解模块51与中央思考模块311相连，中央思考模块311在接收到行为指令的情况下，用于依据获取的信息和第一思考目标和行为指令，产生理性思考结果。具体的实现方式可以参照上述对于理性思考模块31的功能描述。

行为执行模块用于执行行为指令，包括：

传动模块521，用于执行指示物理动作的行为指令。

显示设备522，用于执行显示指令，以显示显示指令指示输出的视频或图像信息。

扬声器设备523，用于执行音频输出指令，以发出音频输出指令指示输出的音频信息。

网络输出设备524，用于执行互联网信息指令，以向互联网中传送互联网信息指令指示输出的信息。

本实施例中，行为分解模块与中央思考模块相连接，行为分解模块将行为指令发送给中央思考模块，使得中央思考模块及时了解待执行行为，有利于中央思考模块有目的的连续对某件事物进行深入的思考，提高了思考行为的主动性。

应用于图1所示的一种基于人工智能的行为决策控制系统，本实施例公开了一种基于人工智能的行为决策控制方法，如图4所示，本方法至少包括下述步骤：

S401、至少依据获取的信息和预设的第一目标，产生待选行为。

本实施例中，第一目标包括：被赞赏、安全和提高能力中的至少一项。

具体的，产生待选行为的可选的一种具体实现方式包括：

B1、依据获取的信息和第一目标产生理性思考结果。

B2、获取的信息和理性思考结果，产生至少一个满足第一目标的潜意识行为。

B3、将潜意识行为作为待选行为。

需要说明的是，B1～B3的具体实现过程可以参照上述对行为产生模块3的功能描述，并且，B1～B3仅为用于产生待选行为一种可选的方案，本申请实施例还包括其他产生待选行为的实现方式，在此不做赘述。

S402、通过评估待选行为，从待选行为中选择待执行行为。

具体的，评估包括正向评估和反向评估，正向评估包括执行待选行为满足被赞赏、安全、提高能力、和守法的程度，反向评估包括不执行待选行为满足被指责、不安全、和不守法的程度。其中，每一程度可以为概率值，概率值越大则表示程度越高。

具体的，从待选行为中选择待执行行为的可选的一种具体实现方式包括：

C1、从以下维度逐一正向评估待选行为：使周围人赞赏的程度、使周围人安全的程度、使人类赞赏的程度、使自身安全的程度、使自身能力提高的程度、和遵守法律法规的程度，得到正向评估结果，正向评估结果包括多个用于表示上述程度的概率值。

C2、从以下维度逐一反向评估待选行为：暂时不做受到周围人指责的程度、暂时不做使周围人不安全的程度、暂时不做受到人类指责的程度、暂时不做使自身不安全的程度、和暂时不做违反遵守法律法规的程度，得到反向评估结果，反向评估结果包括多个用于表示上述程度的概率值。

C3、将任意一个待选行为的所有概率的均值，作为待选行为的综合评估结果。

C4、选择综合评估结果最大的待选行为为待执行行为。

需要说明的是，C1～C4的具体实现过程可以参照上述对行为选择模块4的功能描述，并且，C1～C4仅为用于确定待执行行为一种可选的方案，本申请实施例还包括其他确定待执行行为的实现方式，在此不做赘述。

S403、将待执行行为分解为预设类型的动作，并使用动作的类型对应的设备，执行动作。

具体的，预设类型的动作包括但不限于：物理动作、显示输出的视频或图像信息、发出输出的音频信息、和/或向互联网中传送输出的信息。

本实施例中，使用动作的类型对应的设备，执行上述动作的具体实现方式包括：

使用传动模块执行物理动作。使用显示设备显示输出的视频或图像信息，使用扬声器设备，发出输出的音频信息。使用网络输出设备向互联网中传送输出的信息。

需要说明的是，本步骤的具体实现过程可以参照上述对行为输出模块5的功能描述在此不做赘述。

图5为本申请实施例提供的一种基于人工智能的行为决策控制设备的结构示意图，该设备可以包括：至少一个处理器501，至少一个通信接口502，至少一个存储器503和至少一个通信总线504；

在本申请实施例中，处理器501、通信接口502、存储器503、通信总线504的数量为至少一个，且处理器501、通信接口502、存储器503通过通信总线504完成相互间的通信；

处理器501可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器503可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于实现上述实施例中的基于人工智能的行为决策控制方法的各个步骤。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质可存储有适于处理器执行的程序，所述程序用于实现上述实施例中的基于人工智能的行为决策控制方法的各个步骤。

本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读取存储介质中。基于这样的理解，本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机，服务器，移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于人工智能的行为决策控制系统，其特征在于，包括：

行为产生模块、行为选择模块和行为输出模块；

2.根据权利要求1所述的基于人工智能的行为决策控制系统，其特征在于，所述第一目标具体包括：

3.根据权利要求1或2所述的基于人工智能的行为决策控制系统，其特征在于，所述评估包括：

4.根据权利要求1所述的基于人工智能的行为决策控制系统，其特征在于，所述行为产生模块包括：

理性思考模块和潜意识行为产生模块；

5.根据权利要求4所述的基于人工智能的行为决策控制系统，其特征在于，所述理性思考模块包括：

思考目标产生模块、中央思考模块和思考目标选择模块；

6.根据权利要求5所述的基于人工智能的行为决策控制系统，其特征在于，所述理性思考模块还包括以下至少一项：

思考功能模块和存储记忆模块；

7.根据权利要求3所述的基于人工智能的行为决策控制系统，其特征在于，所述行为选择模块包括：

评价模块和确定模块；

8.根据权利要求1所述的基于人工智能的行为决策控制系统，其特征在于，所述行为输出模块包括：

行为分解模块和行为执行模块；

所述行为执行模块包括：

传动模块，用于执行指示物理动作的行为指令；

9.根据权利要求8所述的基于人工智能的行为决策控制系统，其特征在于，所述行为分解模块与所述行为产生模块相连，用于向所述行为产生模块发送所述行为指令；

10.根据权利要求1所述的基于人工智能的行为决策控制系统，其特征在于，还包括：

11.根据权利要求10所述的基于人工智能的行为决策控制系统，其特征在于，所述信息分析综合模块包括：

12.根据权利要求1所述的基于人工智能的行为决策控制系统，其特征在于，还包括：

信息输入模块；

所述信息输入模块包括信息采集模块和信息识别模块；

所述信息识别模块包括简化模块和识别模块；

13.一种基于人工智能的行为决策控制方法，其特征在于，包括：

14.一种基于人工智能的行为决策控制设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求13中所述的基于人工智能的行为决策控制方法的各个步骤。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求13中所述的基于人工智能的行为决策控制方法的各个步骤。