CN109313447B

CN109313447B - 人工智能终端及其行为控制方法

Info

Publication number: CN109313447B
Application number: CN201780036231.XA
Authority: CN
Inventors: 孙尚传
Original assignee: Shenzhen Dafu Intelligent Health Technology Co ltd
Current assignee: Shenzhen Dafu Intelligent Health Technology Co ltd
Priority date: 2017-08-25
Filing date: 2017-08-25
Publication date: 2021-07-30
Anticipated expiration: 2037-08-25
Also published as: CN109313447A; WO2019037125A1

Abstract

本发明公开了一种人工智能终端的行为控制方法，该方法包括：人工智能终端制定执行策略；人工智能终端分别计算执行策略涉及的其他终端因执行执行策略而产生的成本开销以及人工智能终端自身因其他终端执行执行策略而产生的成本收益；人工智能终端根据成本收益及成本开销按照整体受益准则判断是否执行执行策略。本发明还公开了一种人工智能终端及计算机存储介质。

Description

人工智能终端及其行为控制方法

技术领域

本申请涉及计算机技术领域，特别是涉及一种人工智能终端及其行为控制方法。

背景技术

人工智能(AI，Artificial Intelligence)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。从1956年正式提出人工智能学科算起，50多年来，取得长足的发展，成为一门广泛的交叉和前沿科学。时至今日，人工智能的发展已经渗透到社会生活中的很多层面，把人类从繁重的体力中解放出来，同时也在逐步解放人类的脑力劳动。

本发明的发明人发现，现有的人工智能终端，目前还处于弱人工智能阶段，多数还是依赖于用户的控制而执行相应的行为，少数的人工智能终端能够针对外界指令结合环境因素自行执行一些行为，但这些行为往往都是对其自身有益的行为，而不去考虑其他终端的情况，属于纯粹的利己，与人类的道德是相悖的，并不能满足用户对人工智能的要求。

发明内容

为了至少部分解决以上问题，本发明提出了一种人工智能终端的行为控制方法，该方法包括：人工智能终端制定执行策略；人工智能终端分别计算执行策略涉及的其他终端因执行执行策略而产生的成本开销以及人工智能终端自身因其他终端执行执行策略而产生的成本收益；人工智能终端根据成本收益及成本开销按照整体受益准则判断是否执行执行策略。

为了至少部分解决以上问题，本发明还提出了一种人工智能终端，该终端包括处理器和通信电路，处理器连接通信电路；处理器用于执行指令以实现：制定执行策略；分别计算执行策略涉及的其他终端因执行执行策略而产生的成本开销以及自身因其他终端执行执行策略而产生的成本收益；根据成本收益及成本开销按照整体受益准则判断是否执行执行策略。

为了至少部分解决以上问题，本发明还提出了一种计算机存储介质，该计算机存储介质中存储有程序，程序能够被执行以实现如前所述的人工智能终端的行为控制方法。

本发明的有益效果是：人工智能终端在制定执行策略之后按照整体受益准则来评判该执行策略的成本收益和成本开销，从而决定是否执行该执行策略，在这一行为控制的过程中，除了自身的情况之外，还考虑了其他终端的情况，实现了基于利他准则的行为控制，使得人工智能终端的行为准则更加符合人类的道德要求，更加合理，满足用户的要求，并且在制定执行策略就进行了行为控制，避免了不恰当的执行策略给自身和/或其他终端带来的不必要的开销。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明人工智能终端的行为控制方法第一实施例的流程示意图；

图2是本发明人工智能终端的行为控制方法第二实施例的流程示意图；

图3是本发明人工智能终端的行为控制方法第三实施例的流程示意图；

图4是本发明人工智能终端的行为控制方法第四实施例的流程示意图；

图5是本发明人工智能终端的行为控制方法第五实施例的流程示意图；

图6是本发明人工智能终端的行为控制方法第六实施例的流程示意图；

图7是本发明人工智能终端的行为控制方法第七实施例的流程示意图；

图8是本发明人工智能终端的行为控制方法第八实施例的流程示意图；

图9是本发明人工智能终端的行为控制方法第九实施例的流程示意图；

图10是本发明人工智能终端的行为控制方法第十实施例的流程示意图；

图11是本发明人工智能终端的行为控制方法第十一实施例的流程示意图；

图12是本发明人工智能终端的行为控制方法第十二实施例的流程示意图；

图13是本发明人工智能终端的行为控制方法第十三实施例的流程示意图；

图14是本发明人工智能终端的行为控制方法第十四实施例的流程示意图；

图15是本发明人工智能终端的行为控制方法第十五实施例的流程示意图；

图16是本发明人工智能终端的行为控制方法第十六实施例的流程示意图；

图17是本发明人工智能终端第一实施例的结构示意图；

图18是本发明计算机存储介质第一实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。以下各实施例中不冲突的可以相互结合。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1所示，本发明人工智能终端的行为控制方法第一实施例包括：

S11：人工智能终端接收来自于其他终端的执行指令。

人工智能终端可以是智能机器人、自动驾驶交通工具(例如自动驾驶汽车)或其他具备数据分析处理能力的终端。其他终端与本终端之间通讯连接。其他终端可以为人工智能终端或者非智能终端。执行指令可以是其他终端自行给出的，也可以是来自于用户的，例如其他终端从其输入装置(触摸屏、键盘、麦克风、摄像头、鼠标等)接收到用户给出的指令。

S12：人工智能终端计算自身执行执行指令所产生的成本开销。

成本开销可以是指人工智能终端因执行该执行指令而增加的计算、运动、能耗等开销和/或人工智能终端的用户因人工智能终端执行该执行指令而增加的额外开销。例如，人工智能终端为自动驾驶汽车A，其他终端为自动驾驶汽车B，两者在同一车道上行驶且A在B的前方，B希望直线超车并向A发送了暂时移动到旁边车道上的执行指令。对于A而言，其成本开销为其从当前车道移动到旁边车道再从旁边车道移动回当前车道所带来的额外开销。

S13：人工智能终端判断成本开销是否小于或等于其他终端的成本收益。

成本收益是其他终端因人工智能终端执行执行指令所产生的，例如其他终端因人工智能终端执行执行指令而减少的计算、运动、能耗等开销和/或其他终端的用户因人工智能终端执行执行指令而带来的收益。仍旧以上面的例子进行说明，对于B而言，如果A不执行该指令，则B需要从当前车道移动到旁边车道超过A之后再从旁边车道移动回当前车道，反之如果A执行该指令，则B只需要直线行驶即可，两者之差即为B的成本收益。

人工智能终端可以自行计算成本收益，也可以接收其他终端发送的成本收益。

S14：若成本开销小于或等于成本收益，则人工智能终端执行执行指令。

若成本开销小于或等于成本收益，意味着即使执行指令的执行会给人工智能终端带来额外的成本开销，是不利于人工智能终端的，但同时能够给其他终端带来同等或者更多的成本收益。将人工智能终端和其他终端视为一个整体的话，执行指令的执行整体上不会带来额外的开销，实现了整体受益，人工智能终端选择执行该执行指令。

通过本实施例的实施，人工智能终端在自身的成本开销小于或者等于其他终端的成本收益时执行来自于其他终端的执行指令，在行为控制的过程中，除了自身的情况之外，还考虑了其他终端的情况，实现了基于利他准则的行为控制，使得人工智能终端的行为准则更加符合人类的道德要求，更加合理，满足用户的要求。

如图2所示，本发明人工智能终端的行为控制方法第二实施例，是在本发明人工智能终端的行为控制方法第一实施例的基础上，在决定执行或者不执行执行指令之后通知其他终端，并且由人工智能终端自行计算成本收益。本实施例为本发明人工智能终端的行为控制方法第一实施例的扩展，相同的部分在此不再赘述。本实施例包括：

S111：人工智能终端接收来自于其他终端的执行指令；

S112：人工智能终端计算自身执行执行指令所产生的成本开销。

S113：人工智能终端计算成本收益。

本步骤与步骤S112的执行顺序仅为示意，实际也可以同时执行或者调换先后顺序。

S114：人工智能终端判断成本开销是否小于或等于其他终端的成本收益。

若成本开销小于或等于成本收益，则跳转到步骤S115；否则跳转到步骤S117。

S115：人工智能终端执行执行指令。

跳转到步骤S116。

S116：人工智能终端向其他终端发送成功执行通知。

成功执行通知用于表示该执行指令已被执行。结束流程。

S117：人工智能终端不执行执行指令。

跳转到步骤S118。

S118：人工智能终端向其他终端发送拒绝执行通知。

拒绝执行通知用于表示该执行指令未被执行。此外，拒绝执行通知中还可以包括拒绝原因。结束流程。

如图3所示，本发明人工智能终端的行为控制方法第三实施例，是在本发明人工智能终端的行为控制方法第一实施例的基础上，在决定执行或者不执行执行指令之后通知其他终端，并且人工智能终端接收来自其他终端的成本收益。本实施例为本发明人工智能终端的行为控制方法第一实施例的扩展，相同的部分在此不再赘述。本实施例包括：

S121：人工智能终端接收来自于其他终端的执行指令；

S122：人工智能终端计算自身执行执行指令所产生的成本开销。

S123：人工智能终端接收来自于其他终端的成本收益。

本步骤与步骤S121、S122的执行顺序仅为示意，实际也可以同时执行或者调换先后顺序。

S124：人工智能终端判断成本开销是否小于或等于其他终端的成本收益。

若成本开销小于或等于成本收益，则跳转到步骤S125；否则跳转到步骤S127。

S125：人工智能终端执行执行指令。

S126：人工智能终端向其他终端发送成功执行通知。

成功执行通知用于表示该执行指令已被执行。结束流程。

S127：人工智能终端不执行执行指令。

S128：人工智能终端向其他终端发送拒绝执行通知。

在上述两个实施例中，人工智能终端都是以显性的方式，即通过发送成功/拒绝执行通知，来通知其他终端执行指令是否被执行，在其他实施例中，人工智能终端也可以选择部分以隐性的方式进行通知。例如，设置一通知时间，如果人工智能终端决定执行执行指令，则在该通知时间内向其他终端发送通知消息，如果人工智能终端决定不执行执行指令，则不发送通知消息。或者反过来，如果人工智能终端决定不执行执行指令，则在该通知时间内向其他终端发送通知消息，如果人工智能终端决定执行执行指令，则不发送通知消息。

如图4所示，本发明人工智能终端的行为控制方法第四实施例包括：

S21：人工智能终端接收来自于其他终端的执行指令；

本实施例与本发明人工智能终端的行为控制方法第一实施例的主要区别在于是根据加权成本开销和加权成本收益之间的大小关系而非成本开销和成本收益之间的大小关系来判断是否执行执行指令，相同/类似的部分在此不再重复。

S22：人工智能终端计算自身执行执行指令所产生的成本开销。

S23：人工智能终端判断加权成本开销是否小于或等于其他终端的加权成本收益。

加权成本开销为人工智能终端的权重与成本开销的乘积，加权成本收益为其他终端的权重与成本收益的乘积，成本收益是其他终端因人工智能终端执行执行指令所产生的，例如其他终端因人工智能终端执行执行指令而减少的计算、运动、能耗等开销和/或其他终端的用户因人工智能终端执行执行指令而带来的收益。

本步骤执行之前，人工智能终端需要获取加权成本开销和加权成本收益。人工智能终端可以将自身的权重乘以成本开销得到加权成本开销。人工智能终端可以自行计算成本收益然后乘以其他终端的权重得到加权成本收益，也可以接收其他终端发送的成本收益然后自行乘以其他终端的权重得到加权成本收益，也可以直接接收其他终端发送的加权成本收益。

一般而言，人工智能终端/其他终端的权重由其优先级而决定。该优先级可以只由人工智能终端/其他终端本身的属性决定，例如，仍旧以自动驾驶汽车为例，可以设置为救护车/救火车/警车的优先级最高，校车/公交的优先级其次，接着是普通的载人汽车，货车的优先级最低。此外，优先级设置时还可以考虑人工智能终端的用户属性，例如，对于普通载人自动驾驶汽车，可以设置为目的地为机场/火车站/汽车站/学校/医院的自动驾驶汽车优先级高于目的地为其他场所的自动驾驶汽车，目的地优先级相同的情况下乘客数量越多的优先级越高。

S24：若加权成本开销小于或等于加权成本收益，则人工智能终端执行执行指令。

若加权成本开销小于或等于加权成本收益，意味着即使执行指令的执行会给人工智能终端带来额外的加权成本开销，是不利于人工智能终端的，但同时能够给其他终端带来同等或者更多的加权成本收益。将人工智能终端和其他终端视为一个整体的话，执行指令的执行整体上不会带来额外的开销，实现了整体受益，人工智能终端选择执行该执行指令。

通过本实施例的实施，人工智能终端在自身的加权成本开销小于或者等于其他终端的加权成本收益时执行来自于其他终端的执行指令，在行为控制的过程中，除了自身的情况之外，还考虑了其他终端的情况，实现了基于利他准则的行为控制，使得人工智能终端的行为准则更加符合人类的道德要求，更加合理，满足用户的要求，并且在行为控制过程中考虑到人工智能终端和其他终端的权重，进一步提高了判断的准确度。

如图5所示，本发明人工智能终端的行为控制方法第五实施例，是在本发明人工智能终端的行为控制方法第四实施例的基础上，在决定执行或者不执行执行指令之后通知其他终端，并且由人工智能终端自行计算成本收益。本实施例为本发明人工智能终端的行为控制方法第四实施例的扩展，相同的部分在此不再赘述。本实施例包括：

S210：人工智能终端接收自身及其他终端的权重。

人工智能终端可以从服务器或者控制中心接收为自身分配的权重，并从服务器、控制中心或其他终端接收其他终端的权重。在其他实施例中，人工智能终端可以在本地保存有自身和/或其他终端的权重，这种情况下本步骤可以部分或者全部被省略。

本步骤只需在步骤S214之前执行即可，与步骤S211、S212、S213之间的执行顺序并无限制。

S211：人工智能终端接收来自于其他终端的执行指令；

S212：人工智能终端计算自身执行执行指令所产生的成本开销。

S213：人工智能终端计算其他终端因人工智能终端执行执行指令所产生的成本收益。

本步骤与步骤S212的执行顺序仅为示意，实际也可以同时执行或者调换先后顺序。

S214：人工智能终端计算加权成本开销及加权成本收益。

S215：人工智能终端判断加权成本开销是否小于或等于加权成本收益。

若加权成本开销小于或等于加权成本收益，则跳转到步骤S216；否则跳转到步骤S218。

S216：人工智能终端执行执行指令。

S217：人工智能终端向其他终端发送成功执行通知。

成功执行通知用于表示该执行指令已被执行。结束流程。

S218：人工智能终端不执行执行指令。

S219：人工智能终端向其他终端发送拒绝执行通知。

如图6所示，本发明人工智能终端的行为控制方法第六实施例，是在本发明人工智能终端的行为控制方法第四实施例的基础上，在决定执行或者不执行执行指令之后通知其他终端，并且由人工智能终端接收成本收益后自行计算加权成本收益。本实施例为本发明人工智能终端的行为控制方法第四实施例的扩展，相同的部分在此不再赘述。本实施例包括：

S220：人工智能终端接收自身及其他终端的权重。

人工智能可以从服务器或者控制中心接收为自身分配的权重，并从服务器、控制中心或其他终端接收其他终端的权重。在其他实施例中，人工智能终端可以在本地保存有自身和/或其他终端的权重，这种情况下本步骤可以部分或者全部被省略。

本步骤只需在步骤S224之前执行即可，与步骤S221、S222、S223之间的执行顺序并无限制。

S221：人工智能终端接收来自于其他终端的执行指令；

S222：人工智能终端计算自身执行执行指令所产生的成本开销。

S223：人工智能终端接收来自其他终端的成本收益。

本步骤与步骤S220、S221、S222的执行顺序仅为示意，实际也可以同时执行或者调换先后顺序。

S224：人工智能终端计算加权成本开销及加权成本收益。

S225：人工智能终端判断加权成本开销是否小于或等于加权成本收益。

若加权成本开销小于或等于加权成本收益，则跳转到步骤S226；否则跳转到步骤S228。

S226：人工智能终端执行执行指令。

S227：人工智能终端向其他终端发送成功执行通知。

成功执行通知用于表示该执行指令已被执行。结束流程。

S228：人工智能终端不执行执行指令。

S229：人工智能终端向其他终端发送拒绝执行通知。

如图7所示，本发明人工智能终端的行为控制方法第七实施例，是在本发明人工智能终端的行为控制方法第四实施例的基础上，在决定执行或者不执行执行指令之后通知其他终端，并且由人工智能终端接收成本收益后自行计算加权成本收益。本实施例为本发明人工智能终端的行为控制方法第四实施例的扩展，相同的部分在此不再赘述。本实施例包括：

S230：人工智能终端接收自身的权重。

人工智能可以从服务器或者控制中心接收为自身分配的权重。在其他实施例中，人工智能终端可以在本地保存有自身的权重，这种情况下本步骤可以被省略。

本步骤只需在步骤S234之前执行即可，与步骤S231、S232、S233之间的执行顺序并无限制。

S231：人工智能终端接收来自于其他终端的执行指令；

S232：人工智能终端计算自身执行执行指令所产生的成本开销。

S233：人工智能终端计算加权成本开销。

S234：人工智能终端接收来自其他终端的加权成本收益。

本步骤与步骤S230至步骤S233的执行顺序仅为示意，实际也可以同时执行或者调换先后顺序。

S235：人工智能终端判断加权成本开销是否小于或等于加权成本收益。

若加权成本开销小于或等于加权成本收益，则跳转到步骤S236；否则跳转到步骤S238。

S236：人工智能终端执行执行指令。

S237：人工智能终端向其他终端发送成功执行通知。

成功执行通知用于表示该执行指令已被执行。结束流程。

S238：人工智能终端不执行执行指令。

S239：人工智能终端向其他终端发送拒绝执行通知。

在上述三个实施例中，人工智能终端都是以显性的方式，即通过发送成功/拒绝执行通知，来通知其他终端执行指令是否被执行，在其他实施例中，人工智能终端也可以选择部分以隐性的方式进行通知。例如，设置一通知时间，如果人工智能终端决定执行执行指令，则在该通知时间内向其他终端发送通知消息，如果人工智能终端决定不执行执行指令，则不发送通知消息。或者反过来，如果人工智能终端决定不执行执行指令，则在该通知时间内向其他终端发送通知消息，如果人工智能终端决定执行执行指令，则不发送通知消息。

如图8所示，本发明人工智能终端的行为控制方法第八实施例包括：

S31：人工智能终端制定执行策略。

执行策略可以包括人工智能终端自身待执行的指令和/或若干个相关的其他终端待执行的指令，且两种指令一般是相互配合的。

人工智能终端可以是智能机器人、自动驾驶交通工具(例如自动驾驶汽车)或其他具备数据分析处理能力的终端。其他终端与本终端之间通讯连接。其他终端可以为人工智能终端或者非智能终端。

仍旧以自动驾驶汽车来举例，人工智能终端为自动驾驶汽车C，其他终端包括自动驾驶汽车D和E，三者在同一车道上行驶且D和E在C的前方，C制定的执行策略包括自身直线超车，D和E暂时移动到旁边车道。

S32：人工智能终端分别计算执行策略涉及的其他终端因执行执行策略而产生的成本开销以及人工智能终端自身因其他终端执行执行策略而产生的成本收益。

成本开销可以是指其他终端和/或其用户因其他终端执行该执行策略而增加的计算、运动、能耗等开销。成本收益可以是人工智能终端和/或其用户因人工智能终端执行执行策略而减少的计算、运动、能耗等开销。

仍旧以上面的例子进行说明，对于D和E而言，其成本开销为其从当前车道移动到旁边车道再从旁边车道移动回当前车道所带来的额外开销；对于C而言，如果D和E不配合执行该执行策略，则C需要从当前车道移动到旁边车道超过D和E之后再从旁边车道移动回当前车道，反之如果D和E配合执行该执行策略，则C只需要直线行驶即可，两者之差即为C的成本收益。

S33：人工智能终端根据成本收益及成本开销按照整体受益原则判断是否执行执行策略。

判断的准则是整体受益，即该执行策略的实施整体上不会带来额外的开销，这个整体包括人工智能终端和所有其他终端。具体的，人工智能终端可以在成本收益大于或等于成本开销之和的情况下才执行该执行策略，或者在加权成本收益大于或等于加权成本开销之和的情况下才执行该执行策略。

在满足整体受益准则的情况下，人工智能终端可以自身执行该执行策略和/或通知涉及的其他终端执行该执行策略。

通过本实施例的实施，人工智能终端在制定执行策略之后按照整体受益准则来评判该执行策略的成本收益和成本开销，从而决定是否执行该执行策略，在这一行为控制的过程中，除了自身的情况之外，还考虑了其他终端的情况，实现了基于利他准则的行为控制，使得人工智能终端的行为准则更加符合人类的道德要求，更加合理，满足用户的要求，并且在制定执行策略就进行了行为控制，避免了不恰当的执行策略给自身和/或其他终端带来的不必要的开销。

如图9所示，本发明人工智能终端的行为控制方法第九实施例，是在本发明人工智能终端的行为控制方法第八实施例的基础上，根据成本收益和成本开销本身来判断是否执行执行策略。本实施例为本发明人工智能终端的行为控制方法第八实施例的扩展，相同的部分在此不再赘述。本实施例包括：

S311：人工智能终端制定执行策略。

S312：人工智能终端分别计算执行策略涉及的其他终端因执行执行策略而产生的成本开销以及人工智能终端自身因其他终端执行执行策略而产生的成本收益。

S313：人工智能终端判断成本收益是否大于或等于成本开销之和。

如果其他终端的总数为1，则成本开销之和等于唯一的其他终端的成本开销。

若成本收益大于或等于成本开销之和，意味着即使该执行策略的执行会给其他终端带来额外的成本开销，是不利于其他终端的，但同时能够给人工智能终端带来同等或者更多的成本收益，满足整体受益原则，跳转到步骤S314；否则跳转到步骤S315。在其他实施例中，若成本收益小于成本开销之和，可以结束流程。

S314：人工智能终端自身执行执行策略和/或通知其他终端执行执行策略。

结束流程。

S315：修改执行策略。

然后跳转至步骤S312。

如图10所示，本发明人工智能终端的行为控制方法第十实施例，是在本发明人工智能终端的行为控制方法第八实施例的基础上，根据加权成本收益和加权成本开销来判断是否执行执行策略。本实施例为本发明人工智能终端的行为控制方法第八实施例的扩展，相同的部分在此不再赘述。本实施例包括：

S321：人工智能终端制定执行策略。

S322：人工智能终端分别计算执行策略涉及的其他终端因执行执行策略而产生的成本开销以及人工智能终端自身因其他终端执行执行策略而产生的成本收益。

S323：人工智能终端分别根据成本开销和成本收益计算加权成本开销和加权成本收益。

加权成本收益为成本收益与人工智能终端的权重的乘积，加权成本开销为所有其他终端的成本开销的加权和，加权和中的权重为每个其他终端的权重。如果其他终端的总数为1，则加权成本开销之和等于唯一的其他终端的加权成本开销。

一般而言，人工智能终端/其他终端的权重由其优先级而决定。该优先级可以只由人工智能终端本身的属性决定，例如，仍旧以自动驾驶汽车为例，可以设置为救护车/救火车/警车的优先级最高，校车/公交的优先级其次，接着是普通的载人汽车，货车的优先级最低。此外，优先级设置时还可以考虑人工智能终端的用户属性，例如，对于普通载人自动驾驶汽车，可以设置为目的地为机场/火车站/汽车站/学校/医院的自动驾驶汽车优先级高于目的地为其他场所的自动驾驶汽车，目的地优先级相同的情况下乘客数量越多的优先级越高。

S324：人工智能终端判断加权成本收益是否大于或等于加权成本开销之和。

若加权成本收益大于或等于加权成本开销之和，意味着即使该执行策略的执行会给其他终端带来额外的加权成本开销，是不利于其他终端的，但同时能够给人工智能终端带来同等或者更多的加权成本收益，满足整体受益原则，跳转到步骤S325；否则跳转到步骤S326。在其他实施例中，若加权成本收益小于加权成本开销之和，可以结束流程。

S325：人工智能终端自身执行执行策略和/或通知其他终端执行执行策略。

结束流程。

S326：修改执行策略。

然后跳转至步骤S322。

本实施例与前一实施例相比，在判断过程中采用加权成本收益/开销而非成本收益/开销，考虑到人工智能终端和其他终端的权重，进一步提高了判断的准确度。

如图11所示，本发明人工智能终端的行为控制方法第十一实施例包括：

S41：人工智能终端对其他终端执行自身指令所产生的自身成本收益进行累计得到自身成本收益累计值，并对其他终端因人工智能终端执行其他终端的指令而产生的他人成本收益进行累计而得到他人成本收益累计值。

人工智能终端可以是智能机器人、自动驾驶交通工具(例如自动驾驶汽车)或其他具备数据分析处理能力的终端。其他终端与本终端之间通讯连接。其他终端可以为人工智能终端或者非智能终端。人工智能终端/其他终端的执行指令可以是人工智能终端/其他终端自行给出的，也可以是来自于用户的，例如人工智能终端/其他终端从其输入装置(触摸屏、键盘、麦克风、摄像头、鼠标等)接收到用户给出的指令。

自身成本收益累计值可以是预设时段内自身成本收益的和或者加权和，他人成本收益累计值可以是预设时段内他人成本收益的和或者加权和。

如果是加权和，本步骤之前人工智能终端需要获取自身和/或其他终端的权重。人工智能终端可以从服务器或者控制中心接收为自身分配的权重，并从服务器、控制中心或其他终端接收其他终端的权重。或者，人工智能终端也可以直接读取本地保存的自身和/或其他终端的权重，再接收本地未保存的权重。

S42：人工智能终端根据自身成本收益累计值和他人成本收益累计值控制自身的决策，以使得自身成本收益累计值和他人成本收益累计值的差值保持在预设范围内。

决策可以是指决定是否执行自身和/或其他终端的执行指令。自身成本收益累计值和他人成本收益累计值的差值可以是指两者之差，也可以是指两者之差的绝对值。

通过本实施例的实施，人工智能终端控制自身的决策，以使得自身成本收益累计值和他人成本收益累计值的差值保持在预设范围内，在行为控制的过程中，保证了自身和他人的收益累计值的平衡，实现了基于利他准则而非完全利己的行为控制，使得人工智能终端的行为准则更加符合人类的道德要求，更加合理，满足用户的要求。

如图12所示，本发明人工智能终端的行为控制方法第十二实施例，是在本发明人工智能终端的行为控制方法第十一实施例的基础上，S42包括：

S421：人工智能终端计算执行指令所产生的自身成本收益和/或他人成本收益。

执行指令可以包括自身的执行指令和/或其他终端的执行指令。

S422：人工智能终端根据计算结果对自身成本收益累计值和/或他人成本收益累计值进行更新。

S423：人工智能终端判断更新后的自身成本收益累计值与他人成本收益累计值之间的差值是否属于预设范围内。

若属于，则跳转到步骤S424；否则跳转到步骤S425。

S424：执行执行指令。

如果执行指令包括自身的执行指令，则人工智能终端可以自身执行该自身的执行指令和/或通知相关的其他终端执行该自身的执行指令。如果执行指令包括其他终端的执行指令，则人工智能终端可以执行该其他终端的执行指令，执行完成之后，人工智能终端还可以选择以显性或者隐性的方式通知对应的其他终端，具体可参考本发明人工智能终端的行为控制方法第二和第三实施例的对应描述。

S425：不执行执行指令。

如果执行指令包括其他终端的执行指令，则人工智能终端可以在本步骤之后选择以显性或者隐性的方式通知其他终端，具体可参考本发明人工智能终端的行为控制方法第二和第三实施例的对应描述。

如图13所示，本发明人工智能终端的行为控制方法第十三实施例包括：

S51：人工智能终端制定至少两个候选执行策略。

人工智能终端可以是智能机器人、自动驾驶交通工具(例如自动驾驶汽车)或其他具备数据分析处理能力的终端。本实施例中人工智能终端作为执行策略的制定方。

每个候选执行策略可以包括人工智能终端自身的候选指令和/或若干个相关的其他终端的候选指令，且两种指令一般是相互配合的。

仍旧以自动驾驶汽车来举例，人工智能终端为自动驾驶汽车F，其他终端包括自动驾驶汽车G和H，三者在同一车道上行驶且G和H在F的前方，F制定的第一个候选执行策略包括自身直线超车，G和H暂时移动到旁边车道，第二个候选执行策略包括自身从旁边车道超车，G和H维持直线行驶。

S52：人工智能终端向其他终端发送至少两个候选执行策略，以使得其他终端分别评判每个候选执行策略的可执行度。

其他终端与本终端之间通讯连接。其他终端在评判可执行度可以遵循完全的利己原则，也可以考虑人工智能终端的情况而遵循利他原则。

可执行度的取值可以仅为a或b，其中a表示可执行，b表示不可执行，且a>b，例如a＝1，b＝0。人工智能终端可以限制每个其他终端最多/最少/只能选择若干个(例如一个)可执行的候选执行策略，也可以任由其他终端自行评判。

可执行度的取值也可以为多个连续或不连续的数字，且可执行度的值越大，其他终端执行其对应的候选执行策略的意愿越强烈。

不同的候选执行策略涉及到的其他终端可能不同，人工智能终端可以仅向每个候选执行策略涉及到的其他终端发送该候选执行策略，也可以统一向所有候选执行策略涉及到的所有其他终端发送所有候选执行策略。

S53：人工智能终端接收来自于其他终端的可执行度。

S54：人工智能终端根据可执行度从至少两个候选执行策略中选出最佳执行策略。

对于每个候选执行策略，人工智能终端可以根据每个其他终端对该候选执行策略的可执行度统计得到该候选执行策略的综合可执行度，然后根据所有候选执行策略的综合可执行度进行选择。每个候选执行策略的综合可执行度的计算过程中可以考虑人工智能终端自身对该候选执行策略评价得到的可执行度，也可以不考虑。

S55：人工智能终端执行最佳执行策略。

具体的，人工智能终端可以自身执行最佳执行策略和/或通知其他终端执行最佳执行策略。

通过本实施例的实施，人工智能终端根据其他终端对至少两个候选执行策略评价得到的可执行度来选择最佳执行策略并执行最佳执行策略，在这一行为控制的过程中，除了自身的情况之外，还考虑了其他终端的情况，实现了基于利他准则的行为控制，使得人工智能终端的行为准则更加符合人类的道德要求，更加合理，满足用户的要求，并且在制定执行策略的过程中综合考虑了其他终端评价得到的可执行度，优化最终执行的执行策略，避免了不恰当的执行策略给自身和/或其他终端带来的不必要的开销。

如图14所示，本发明人工智能终端的行为控制方法第十四实施例，是在本发明人工智能终端的行为控制方法第十三实施例的基础上，S54包括：

S541：人工智能终端统计每个候选执行策略的综合可执行度。

每个候选执行策略的综合可执行度为其可执行度的总和或加权和，如果是加权和，则该加权和的权重为其他终端的权重。

仍旧接着上面的例子进行说明，自动驾驶汽车G的权重为sg，对第一种和第二种候选执行策略评价得到的可执行度分别为g1和g2；自动驾驶汽车H的权重为sh，对第一种和第二种候选执行策略评价得到的可执行度分别为h1和h2。那么第一种候选执行策略的综合可执行度为g1+h1(总和)或sg*g1+sh*h1(加权和)，第二种候选执行策略的综合可执行度为g2+h2(总和)或sg*g2+sh*h2(加权和)。

S542：人工智能终端选择综合可执行度最大的候选执行策略作为最佳执行策略。

如图15所示，本发明人工智能终端的行为控制方法第十五实施例包括：

S61：人工智能终端接收来自其他终端的至少一个候选执行策略。

人工智能终端可以是智能机器人、自动驾驶交通工具(例如自动驾驶汽车)或其他具备数据分析处理能力的终端。本实施例中人工智能终端作为执行策略的评价方。

S62：人工智能终端评判每个候选执行策略的可执行度。

对于每个候选执行策略，人工智能终端可以参考本发明人工智能终端的行为控制方法第一至第七、第十一和十二实施例中的任一个以及不冲突的结合所提供的方法来进行评价，如果判定该候选执行策略可以被执行，则确定其可执行度的值为a，否则确定其可执行度的值为b，a>b。当然也可以采用其他方式进行评判。

S63：人工智能终端向其他终端发送可执行度，以使得其他终端根据可执行度从至少两个候选执行策略中选出最佳执行策略并执行最佳执行策略。

具体可参考本发明人工智能终端的行为控制方法第十三和第十四实施例的描述。

如图16所示，本发明人工智能终端的行为控制方法第十六实施例，是在本发明人工智能终端的行为控制方法第十五实施例的基础上，S62包括：

S621：人工智能终端分别计算自身执行每个候选执行策略所产生的成本开销及其他终端因人工智能终端执行每个候选执行策略所产生的成本收益。

S622：人工智能终端根据成本开销及成本收益计算得到可执行度。

一般而言，可执行度的计算公式应满足利他原则。例如，对于某个候选执行策略，人工智能终端计算得到的成本开销为x，成本收益为y，可执行度可以为(y-x)/(y+x)、(y-x)/y或者(y-x)/x等等。

如图17所示，本发明人工智能终端第一实施例包括处理器110和通信电路120，处理器110连接通信电路120。

通信电路120用于发送和接收数据，是人工智能终端与其他终端进行通信的接口。

处理器110控制人工智能终端的操作，处理器110还可以称为CPU(CentralProcessing Unit，中央处理单元)。处理器110可能是一种集成电路芯片，具有信号的处理能力。处理器110还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

处理器110用于执行指令以实现本发明人工智能终端的行为控制方法任一实施例以及任意不冲突的组合所提供的方法。

如图18所示，本发明计算机存储介质第一实施例包括存储器200，存储器200中存储有程序，程序能够被执行以实现本发明人工智能终端的行为控制方法任一实施例以及任意不冲突的组合所提供的方法。

存储器200可以包括只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、闪存(Flash Memory)、硬盘、光盘等。

在本发明所提供的几个实施例中，应该理解到，所揭露的人工智能终端可以通过其它的方式实现。例如，以上所描述的设备实施方式仅仅是示意性的，例如，所述模块或资源单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个资源单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或资源单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的资源单元可以是或者也可以不是物理上分开的，作为资源单元显示的部件可以是或者也可以不是物理资源单元，即可以位于一个地方，或者也可以分布到多个网络资源单元上。可以根据实际的需要选择其中的部分或者全部资源单元来实现本实施方式方案的目的。

另外，在本发明各个实施例中的各功能资源单元可以集成在一个处理资源单元中，也可以是各个资源单元单独物理存在，也可以两个或两个以上资源单元集成在一个资源单元中。上述集成的资源单元既可以采用硬件的形式实现，也可以采用软件功能资源单元的形式实现。

所述集成的资源单元如果以软件功能资源单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种人工智能终端的行为控制方法，其特征在于，包括：

人工智能终端制定执行策略；其中，所述执行策略包括所述人工智能终端自身执行待执行的指令和/或若干个相关的其他终端待执行的指令，所述自身执行待执行的指令和其他终端待执行的指令相互配合；

所述人工智能终端分别计算所述执行策略涉及的所述其他终端因执行所述执行策略而产生的成本开销以及所述人工智能终端自身因所述其他终端执行所述执行策略而产生的成本收益；

所述人工智能终端根据所述成本收益及所述成本开销按照整体受益准则判断是否执行所述执行策略；

其中，所述执行所述执行策略包括：所述人工智能终端自身执行所述执行策略和/或通知所述其他终端执行所述执行策略。

2.根据权利要求1所述的方法，其特征在于，所述人工智能终端根据所述成本收益及所述成本开销按照整体受益准则判断是否执行所述执行策略包括：

所述人工智能终端判断所述成本收益是否大于或等于所述成本开销之和；

若是，则执行所述执行策略，否则不执行所述执行策略。

3.根据权利要求1所述的方法，其特征在于，所述人工智能终端根据所述成本收益及所述成本开销按照整体受益准则判断是否执行所述执行策略包括：

所述人工智能终端判断加权成本收益是否大于或等于加权成本开销，所述加权成本收益为所述成本收益与所述人工智能终端的权重的乘积，所述加权成本开销为所有所述其他终端的所述成本开销的加权和；

若是，则执行所述执行策略，否则不执行所述执行策略。

4.根据权利要求1所述的方法，其特征在于，

不执行所述执行策略之后进一步包括：

修改所述执行策略并为修改后的所述执行策略执行计算所述成本开销及所述成本收益以及之后的步骤。

5.一种人工智能终端，其特征在于，包括处理器和通信电路，所述处理器连接所述通信电路；

所述处理器用于执行指令以实现：制定执行策略；其中，所述执行策略包括所述人工智能终端自身执行待执行的指令和/或若干个相关的其他终端待执行的指令，所述自身执行待执行的指令和其他终端待执行的指令相互配合；分别计算所述执行策略涉及的所述其他终端因执行所述执行策略而产生的成本开销以及自身因所述其他终端执行所述执行策略而产生的成本收益；根据所述成本收益及所述成本开销按照整体受益准则判断是否执行所述执行策略；

其中，所述执行所述执行策略包括：自身执行所述执行策略和/或通知所述其他终端执行所述执行策略。

6.根据权利要求5所述的终端，其特征在于，所述根据所述成本收益及所述成本开销按照整体受益准则判断是否执行所述执行策略包括：

判断所述成本收益是否大于或等于所述成本开销之和；

若是，则执行所述执行策略，否则不执行所述执行策略。

7.根据权利要求5所述的终端，其特征在于，所述根据所述成本收益及所述成本开销按照整体受益准则判断是否执行所述执行策略包括：

判断加权成本收益是否大于或等于加权成本开销，所述加权成本收益为所述成本收益与所述人工智能终端的权重的乘积，所述加权成本开销为所有所述其他终端的所述成本开销的加权和；

若是，则执行所述执行策略，否则不执行所述执行策略。

8.根据权利要求5所述的终端，其特征在于，

不执行所述执行策略之后进一步包括：

9.根据权利要求5-8中任一项所述的终端，其特征在于，

所述人工智能终端为智能机器人或自动驾驶交通工具。

10.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有程序，所述程序能够被执行以实现如权利要求1-4中任一项所述的人工智能终端的行为控制方法。