CN105119733A - 人工智能系统及其状态跳转方法、服务器、通信系统 - Google Patents
人工智能系统及其状态跳转方法、服务器、通信系统 Download PDFInfo
- Publication number
- CN105119733A CN105119733A CN201510390185.6A CN201510390185A CN105119733A CN 105119733 A CN105119733 A CN 105119733A CN 201510390185 A CN201510390185 A CN 201510390185A CN 105119733 A CN105119733 A CN 105119733A
- Authority
- CN
- China
- Prior art keywords
- artificial intelligence
- intelligence system
- state
- strategy
- expection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0893—Assignment of logical groups to network elements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/131—Protocols for games, networked simulations or virtual reality
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F2300/00—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
- A63F2300/80—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game specially adapted for executing a specific type of game
- A63F2300/807—Role playing or strategy games
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F2300/00—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
- A63F2300/80—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game specially adapted for executing a specific type of game
- A63F2300/8082—Virtual reality
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种人工智能系统及其状态跳转方法、服务器、通信系统,其中,所述状态跳转方法包括:根据评估模型确定人工智能系统的当前状态所对应的策略的执行预期;根据确定的执行预期或根据确定的执行预期以及预设的统计方式从人工智能系统的当前状态所对应的策略中选取策略;通过执行选取的策略实现状态跳转;其中,所述人工智能系统中的单个状态对应至少一个策略;其中,所述评估模型用于表示所述人工智能系统中各状态所对应策略的执行预期。采用本发明,能够提高人工智能系统的智能、容错性和可维护性。当将本发明应用于游戏领域时,能提高游戏的可玩性。
Description
技术领域
本发明涉及人工智能领域,更为具体而言,涉及一种人工智能系统及其状态跳转方法、服务器、通信系统。
背景技术
现有的AI(ArtificialIntelligence,人工智能)系统中定义有多种状态,每种状态一一对应有一种策略,当系统处于某一状态时会自动执行所对应的策略以实现状态跳转。
以RTS(Real-TimeStrategy,即时战略)游戏为为例,游戏中包含三类活动,采集、生产和战斗。其中涉及到多种策略问题,例如,在开始时期,先造哪些建筑、再造哪些建筑、多少资源用于生产经济单位、多少资源用于生产战斗单位、多少资源用于升级科技;在中期,什么样的时间点应该去拓展哪些矿产、什么样的时间和情况选择进攻/防御等等。
游戏AI系统即是这些策略的制定和管控者。在传统游戏中,AI系统中的策略和状态的一一对应关系写死在程序内,其思路和具体方法可能各不相同,比如存在很多复杂的判断条件。但最终可以抽象为如下表所示的形式:
状态S1 | 策略A1 |
状态S2 | 策略A2 |
状态S3 | 策略A3 |
…… | …… |
其它状态 | 兜底策略 |
表一
即,在现有游戏AI系统中定义了一些状态,并指定了各状态所对应的处理策略。一旦判断当前落在某一个状态节点上,就会启动/执行对应的策略。这些状态,以RTS游戏为例,可以包括:当前进行的时间、对对手兵力和经济的了解、当前矿产、兵力、当前科技、当前所处地形等等。而策略可以包括:进攻、防守、积极生产、拓展矿区甚至细化到生产哪些东西等等。其中,状态与策略一一对应,通常由编程人员设计和指定好,并且在游戏中是固定不变的。
现有的AI系统(例如,游戏AI系统)存在如下缺陷:由于状态与策略一一对应,因此,开发人员需要对游戏极其了解和熟悉,并且精通各种策略的执行条件和执行结果,这无疑提高了对开发人员的要求。再者,当策略不满足实际需要时(例如,某策略出现漏洞,或游戏发生单位更换、单位属性更换等),不能避开该策略而必须重新开发,AI系统的容错性和可维护性不强。此外,状态与策略一一对应导致AI系统的行为单一,智能不高。
发明内容
为了解决现有技术所存在的缺陷,本发明提供一种人工智能系统及其状态跳转方法、服务器、通信系统,能够提高AI系统的智能和可维护性。
第一方面,本发明实施例提供了一种应用于人工智能系统的状态跳转方法,包括:
根据评估模型确定人工智能系统的当前状态所对应的策略的执行预期;
根据确定的执行预期或根据确定的执行预期以及预设的统计方式从人工智能系统的当前状态所对应的策略中选取策略;
通过执行选取的策略实现状态跳转;
其中,所述人工智能系统中的单个状态对应至少一个策略;
其中,所述评估模型用于表示所述人工智能系统中各状态所对应策略的执行预期。
可选地,在本发明实施例的一种实现方式中,所述人工智能系统包括:游戏中的人工智能系统;所述人工智能系统中的单个状态对应至少一个策略,包括:所述人工智能系统中的至少部分状态分别对应一个以上的策略。
可选地,在本发明实施例的另一种实现方式中,所述方法还包括:基于表示所述人工智能系统的状态变化过程的历史数据进行增强学习得到所述评估模型;或,从保存有所述评估模型的服务器获取所述评估模型;或,上传表示所述人工智能系统的状态变化过程的历史数据至服务器,并获取由服务器基于服务器自身获取到的历史数据进行增强学习得到的所述评估模型。
进一步可选地,表示所述人工智能系统的状态变化过程的历史数据,包括:所述人工智能系统在多次状态跳转中的跳转前状态、触发状态跳转的动作、跳转后状态和策略执行后的收益;所述人工智能系统中各状态所对应策略的执行预期,包括以下任意一种:根据所述人工智能系统的历史数据确定的所述人工智能系统中各状态所对应策略的第一预期收益、基于第一预期收益确定的所述人工智能系统中各状态所对应策略的执行概率或执行权重、由服务器根据自身获取到的历史数据确定的所述人工智能系统中各状态所对应策略的第二预期收益、基于第二预期收益确定的所述人工智能系统中各状态所对应策略的执行概率或执行权重。
可选地,在本发明实施例的再一种实现方式中,根据确定的执行预期或根据确定的执行预期以及预设的统计方式从人工智能系统的当前状态所对应的策略中选取策略,包括:从当前状态所对应的策略中选取执行预期最高的策略;或,根据确定的执行预期以及预设的统计方式进行统计,根据统计结果从当前状态所对应的策略中选取策略。
第二方面,本发明实施例提供一种应用于人工智能系统的状态跳转装置,包括:
策略选取模块,用于根据评估模型确定人工智能系统的当前状态所对应的策略的执行预期,根据确定的执行预期或根据确定的执行预期以及预设的统计方式从人工智能系统的当前状态所对应的策略中选取策略;
策略执行模块,用于通过执行所述策略选取模块选取的策略实现状态跳转;
其中,所述人工智能系统中的单个状态对应至少一个策略;
其中,所述评估模型用于表示所述人工智能系统中各状态所对应策略的执行预期。
可选地,在本实施例的一种实现方式中,所述人工智能系统包括:游戏中的人工智能系统;所述人工智能系统中的单个状态对应至少一个策略,包括:所述人工智能系统中的至少部分状态分别对应一个以上的策略。
可选地,在本实施例的另一种实现方式中,所述装置还包括:学习模块,用于基于表示所述人工智能系统的状态变化过程的历史数据进行增强学习得到所述评估模型;或,所述装置还包括:第一获取模块,用于从保存有所述评估模型的服务器获取所述评估模型;或,所述装置还包括:上传模块,用于上传表示所述人工智能系统的状态变化过程的历史数据至服务器,第二获取模块,用于获取由服务器基于服务器自身获取到的历史数据进行增强学习得到的所述评估模型。
进一步可选地,表示所述人工智能系统的状态变化过程的历史数据包括:所述人工智能系统在多次状态跳转中的跳转前状态、触发状态跳转的动作、跳转后状态和策略执行后的收益;所述人工智能系统中各状态所对应策略的执行预期包括以下任意一种:根据所述人工智能系统的历史数据确定的所述人工智能系统中各状态所对应策略的第一预期收益、基于第一预期收益确定的所述人工智能系统中各状态所对应策略的执行概率或执行权重、由服务器根据自身获取到的历史数据确定的所述人工智能系统中各状态所对应策略的第二预期收益、基于第二预期收益确定的所述人工智能系统中各状态所对应策略的执行概率或执行权重。
可选地,在本实施例的再一种实现方式中,所述策略选取模块具体用于:从当前状态所对应的策略中选取执行预期最高的策略;或,根据确定的执行预期以及预设的统计方式进行统计,根据统计结果从当前状态所对应的策略中选取策略。
第三方面,本发明实施例提供一种服务器,包括:
学习模块,用于基于至少一个人工智能系统的历史数据进行增强学习得到评估模型;
发送模块,用于将所述评估模型发送至目标人工智能系统;
其中,所述至少一个人工智能系统的历史数据用于表示所述至少一个人工智能系统的状态变化过程;
其中,所述至少一个人工智能系统和所述目标人工智能系统中的单个状态对应至少一个策略;
其中,所述评估模型用于表示所述目标人工智能系统中各状态所对应策略的执行预期。
可选地,在本实施例的一种实现方式中,所述至少一个人工智能系统的历史数据,包括:所述至少一个人工智能系统在多次状态跳转中的跳转前状态、触发状态跳转的动作、跳转后状态和策略执行后的收益;所述目标人工智能系统中各状态所对应策略的执行预期,包括以下任意一种:根据所述至少一个人工智能系统的历史数据确定的所述目标人工智能系统中各状态所对应策略的预期收益、基于所述预期收益确定的所述目标人工智能系统中各状态所对应策略的执行概率或执行权重。
可选地,在本实施例的另一种实现方式中,所述服务器包括:数据获取模块,用于从所述至少一个人工智能系统或从第三方设备获取所述至少一个人工智能系统的历史数据。
第四方面,本发明实施例提供一种人工智能系统,所述人工智能系统中的单个状态设置有至少一个策略,并且采用根据本发明实施例第一方面或其实现方式所提供的方法实现状态跳转。
第五方面,本发明实施例提供一种人工智能系统,所述人工智能系统中的单个状态设置有至少一个策略,并且采用根据本发明实施例第二方面或其实现方式所提供的方法实现状态跳转。
第六方面,本发明实施例提供一种通信系统,包括根据本发明实施例第四方面或第五方面所提供的人工智能系统,以及根据本发明实施例第三方面所提供的服务器。
采用本发明各种实施例,具有以下有益效果:
1:AI系统中的策略与状态不再是一一对应关系,并且AI系统在同一状态下执行的策略可以不同,相对于传统AI系统的固定套路而言,大大提高了AI系统的智能。
2:通过评估模型即可调整或控制各状态执行哪个策略,从而无需在改变策略时对AI系统进行重新开发,提高了AI系统的可维护性。
3:开发人员可以为状态设置多个策略,并通过评估模型确定最优的一个或多个策略,降低开发人员在游戏内容方面的要求。
4:当将本发明应用于游戏AI系统时,能够有效提高游戏的可玩性,自动修复或规避游戏AI的缺陷。
附图说明
图1是根据本发明实施例的一种应用于人工智能系统的状态跳转方法的流程示意图;
图2是根据本发明实施例的一种应用于人工智能系统的状态跳转装置的方块示意图;
图3A~图3C是根据本发明实施例的一种应用于人工智能系统的状态跳转装置的方块示意图;
图4是根据本发明实施例的一种服务器的方块示意图;
图5是根据本发明实施例的一种通信系统的示意图;
图6是根据本发明实施例的一种游戏AI系统的架构框图;
图7A是游戏过程中的状态跳转示意图;
图7B所示是标准的马尔可夫决策过程示意图;
图7C是采用本发明的游戏AI系统所采用的跳转方式示意图。
具体实施方式
以下结合附图和具体实施方式对本发明的各个方面进行详细阐述。其中,众所周知的模块、单元及其相互之间的连接、链接、通信或操作没有示出或未作详细说明。并且,所描述的特征、架构或功能可在一个或一个以上实施方式中以任何方式组合。本领域技术人员应当理解,下述的各种实施方式只用于举例说明,而非用于限制本发明的保护范围。还可以容易理解,本文所述和附图所示的各实施方式中的模块或单元或步骤可以按各种不同配置进行组合和设计。
图1是根据本发明实施例的一种应用于人工智能系统的状态跳转方法的流程示意图,参照图1,所述方法包括:
10:确定执行预期。具体而言,处理10包括,根据评估模型确定人工智能系统(在下文需要重点区分时,以“第一人工智能系统”表示该人工智能系统)的当前状态所对应的策略的执行预期。其中,当前状态是指人工智能系统在选取策略时所处的状态。
在本实施例中提及的人工智能系统是这样的人工智能系统,该人工智能系统包含多个状态,并且单个状态(或各个状态)对应至少一个策略。
在本实施例中,评估模型用于表示人工智能系统中各状态所对应策略的执行预期。一个策略的执行预期可以理解为基于评估模型确定的执行该策略的可能性或预期结果,当然,如果后续根据预期结果确定是否执行该策略,则预期结果也可以理解为执行该策略的可能性(或权重)。
可选地,在本实施例的一种实现方式中,状态、策略、执行预期三者之间的关系如表二所示,表二也可以理解为根据本发明实施例的一种AI系统中的状态—策略示意图。其中,Q(S1,A1)表示在状态S1时策略A1的执行预期,依此类推。
表二
12:选取策略。具体而言,处理12包括,根据确定的执行预期或根据确定的执行预期以及预设的统计方式从人工智能系统的当前状态所对应的策略中选取策略。
可选地,在本实施例的一种实现方式中,处理12可通过以下方式实现:从当前状态所对应的策略中选取执行预期最高的策略,或,根据确定的执行预期以及预设的统计方式进行统计,根据统计结果从当前状态所对应的策略中选取策略。
换言之,在本实现方式中,可以直接根据确定的执行预期选取策略,也可以综合执行预期和预设的统计方式统计确定需要执行的策略。其中,预设的统计方式可以设定各策略的执行条件、执行概率(例如,随机选取、预设固定的概率值、预设与执行预期相关的概率值)等。
例如,在一个策略中可以以概率P(a|S)的方式表示在某种状态下采取策略a的概率。假设在状态S1下,有a1、a2两种策略可以选取。如果设置策略如下(一般策略是带有随机性的):P(a1|S1)=0.4,P(a2|S1)=0.6,则表示有40%概率选择a1、60%概率选择a2。在本实施例的一种具体实现方式中,可以综合预设的选取方式与各策略的执行预期确定选取什么策略,例如,选取概率与执行预期的乘积最大的策略。
14:通过执行选取的策略实现状态跳转。
在本实施例的处理14中,通过执行选取的策略,人工智能系统会根据策略执行的结果由跳转前的状态(当前状态)变为跳转后的状态。
采用本实施例提供的方法,由于AI系统中的单个状态对应至少一个策略,并且基于评估模型选取需要执行的策略,因此,AI系统中的策略与状态不再是一一对应关系,并且AI系统在同一状态下执行的策略可以不同,相对于传统AI系统的固定套路而言,大大提高了AI系统的智能。
可选地,在本实施例的一种实现方式中,AI系统可以是游戏中的AI系统,该AI系统中的至少部分状态分别对应一个以上的策略。当将本实施例提供的状态跳转方法应用于游戏AI系统时,可以大大提高游戏的可玩性。
可选地,在本实施例的一种实现方式中,通过以下三种方式获取评估模型:方式一:基于表示人工智能系统的状态变化过程的历史数据进行增强学习得到评估模型;方式二:从保存有评估模型的服务器获取评估模型;方式三:上传表示人工智能系统的状态变化过程的历史数据至服务器,并获取由服务器基于服务器自身获取到的历史数据(不限制是否包括第一人工智能系统的历史数据)进行增强学习得到的评估模型。
在本实现方式中,表示人工智能系统的状态变化过程的历史数据包括:人工智能系统在多次状态跳转中的跳转前状态、触发状态跳转的动作、跳转后状态和策略执行后的收益。其中,策略执行后的收益可以理解为策略执行后的结果、反馈等。
相应地,人工智能系统中各状态所对应策略的执行预期包括以下任意一种:根据第一人工智能系统的历史数据确定的第一人工智能系统中各状态所对应策略的第一预期收益、基于第一预期收益确定的第一人工智能系统中各状态所对应策略的执行概率或执行权重、由服务器根据自身获取到的历史数据(不限制是否包含第一人工智能系统的历史数据)确定的第一人工智能系统中各状态所对应策略的第二预期收益、基于第二预期收益确定的第一人工智能系统中各状态所对应策略的执行概率或执行权重。当然,也可以直接将预期收益作为执行权重。
关于本实现方式中提及的服务器所执行处理的详细说明将在下文提及,此处不进行详述。
在本实现方式中,由于评估模型是基于历史数据进行增强学习得到的,因此,在根据评估模型选取需执行的策略时,实质是基于历史数据进行选取。而通过积累或改变历史数据,以及通过改变增强学习的方法,可以得到不同效果的评估模型,从而可以改变AI系统的运行进程。
所以,相对于传统的状态与策略一一对应的AI系统而言,采用本实现方式具有如下优点:无须将状态与策略一一对应设置,并且通过评估模型即可调整或控制各状态下需要执行的策略,从而无需在改变策略时对AI系统进行重新开发,提高了AI系统的容错性和可维护性。
图2是根据本发明实施例的一种应用于人工智能系统的状态跳转装置的方块示意图,参照图2,状态跳转装置2包括策略选取模块21和策略执行模块22。下面进行详细说明。
策略选取模块21,用于根据评估模型确定人工智能系统的当前状态所对应的策略的执行预期,根据确定的执行预期或根据确定的执行预期以及预设的统计方式从人工智能系统的当前状态所对应的策略中选取策略。
策略执行模块22,用于通过执行策略选取模块21选取的策略实现状态跳转。
在本实施例中,人工智能系统是这样的人工智能系统,其中的单个状态对应至少一个策略。评估模型则用于表示人工智能系统中各状态所对应策略的执行预期。
可选地,在本实施例的一种实现方式中,人工智能系统可以是游戏中的人工智能系统,该人工智能系统中的至少部分状态分别对应一个以上的策略。
可选地,在本实施例的一种实现方式中,策略选取模块22具体用于执行以下处理:从当前状态所对应的策略中选取执行预期最高的策略;或,根据确定的执行预期以及预设的统计方式进行统计,根据统计结果从当前状态所对应的策略中选取策略。
采用本实施例提供的状态跳转装置2,能大大提高了AI系统的智能,例如,提高游戏AI系统的可玩性。
图3A~图3C是根据本发明实施例的一种应用于人工智能系统的状态跳转装置的方块示意图。
参照图3A,状态跳转装置3除了包括策略选取模块21和策略执行模块22之外,还包括用于执行以下处理的学习模块31:基于表示人工智能系统的状态变化过程的历史数据进行增强学习得到评估模型。也就是说,状态跳转装置3A可以记录人工智能系统运行过程中的历史数据,并基于记录的历史数据进行增强学习得到评估模型。
参照图3B,状态跳转装置3除了包括策略选取模块21和策略执行模块22之外,还包括第一获取模块32,用于从保存有评估模型的服务器获取评估模型。
参照图3C,状态跳转装置3除了包括策略选取模块21和策略执行模块22之外,还包括上传模块33和第二获取模块34。其中,上传模块33用于上传表示人工智能系统的状态变化过程的历史数据至服务器,第二获取模块34用于获取由服务器基于服务器自身获取到的历史数据进行增强学习得到的评估模型。
可选地,在本实施例的一种实现方式中,前文提及的表示人工智能系统的状态变化过程的历史数据包括:人工智能系统在多次状态跳转中的跳转前状态、触发状态跳转的动作、跳转后状态和策略执行后的收益。人工智能系统中各状态所对应策略的执行预期包括以下任意一种:根据第一人工智能系统的历史数据确定的第一人工智能系统中各状态所对应策略的第一预期收益、基于第一预期收益确定的第一人工智能系统中各状态所对应策略的执行概率或执行权重、由服务器根据自身获取到的历史数据(包括或不包括第一人工智能系统的历史数据)确定的第一人工智能系统中各状态所对应策略的第二预期收益、基于第二预期收益确定的第一人工智能系统中各状态所对应策略的执行概率或执行权重。
采用图3A~图3C所示任一实施例,能够提高AI系统的容错性和可维护性。
可选地,在本实施例的一种实现方式中,策略选取模块22具体用于执行以下处理:从当前状态所对应的策略中选取执行预期最高的策略;或,根据确定的执行预期以及预设的统计方式进行统计,根据统计结果从当前状态所对应的策略中选取策略。
在本实施例中,关于各个模块所执行处理的详细说明,以及关于相关名词或术语的解释,请参见方法实施例中的描述,此处不再赘述。
图4是根据本发明实施例的一种服务器的方块示意图,参照图4,服务器4包括学习模块41和发送模块42,下面分别进行说明。
学习模块41,用于基于至少一个人工智能系统的历史数据进行增强学习得到评估模型。其中,“至少一个人工智能系统的历史数据”可以理解为前文提及的“服务器自身获取到的历史数据”。
发送模块42,用于将评估模型发送至目标人工智能系统。
在本实施例中,所述至少一个人工智能系统的历史数据用于表示所述至少一个人工智能系统的状态变化过程,换言之,每个人工智能系统的历史数据用于表示相应人工智能系统的状态变化过程。
在本实施例中,所述至少一个人工智能系统和目标人工智能系统中的单个状态对应至少一个策略。所述至少一个人工智能系统和目标人工智能系统均属于同一类人工智能系统,所谓的“同一类人工智能系统”是指运行于不同环境或终端的同一类人工智能系统,也可以理解为运行在不同环境或终端中的同一类客户端。例如,同一AI系统可分别运行于用户A、用户B、用户C的终端,运行在各终端上的游戏AI系统均可以作为所述至少一个人工智能系统,但运行在各终端上的游戏AI系统实质是同一类AI系统。
在本实施例中,评估模型用于表示目标人工智能系统中各状态所对应策略的执行预期。换个角度来讲,评估模型是表示“同一类人工智能系统”中各状态所对应策略的执行预期。
可选地,在本实施例的一种实现方式中,所述至少一个人工智能系统可以包括也可以不包括所述目标人工智能系统。所述至少一个人工智能系统的历史数据包括:所述至少一个人工智能系统在多次状态跳转中的跳转前状态、触发状态跳转的动作、跳转后状态和策略执行后的收益。相应地,目标人工智能系统中各状态所对应策略的执行预期包括以下任意一种:根据所述至少一个人工智能系统的历史数据确定的所述目标人工智能系统中各状态所对应策略的预期收益、基于所述预期收益确定的所述目标人工智能系统中各状态所对应策略的执行概率或执行权重。
可选地,在本实施例的一种实现方式中,如图4中的虚线框所示,服务器4还可以包括数据获取模块43,用于从所述至少一个人工智能系统或从第三方设备获取所述至少一个人工智能系统的历史数据。其中,第三方设备可以是从所述至少一个人工智能系统采集历史数据的服务器或专用于保存历史数据的数据库等。
以上对根据本发明实施例及其实现方式的状态跳转方法及状态跳转装置进行了说明,本发明同时还保护采用本发明所提及的状态跳转方法和/或状态跳转装置实现状态跳转的人工智能系统,该人工智能系统中的单个状态设置有至少一个策略,例如,至少部分状态设置有一个以上的策略。
图5是根据本发明实施例的一种通信系统的示意图,参照图5,该通信系统包括人工智能系统和服务器。其中,人工智能系统中的单个状态设置有至少一个策略,并且采用本发明所提及的状态跳转方法和/或状态跳转装置实现状态跳转。服务器则可以采用图4所示实施例中的服务器4。人工智能系统和服务器通过现有的通信方式进行通信以获取评估模型,例如,每隔预定周期(根据需要设置,本发明不做限制)或根据用户需要主动从服务器获取评估模型。
为便于本领域技术人员更加清楚地理解本发明,下面以将本发明思想应用于游戏领域为例对本发明的一种具体实施例进行详细说明。
【架构说明】
如图6所示,是根据本发明实施例的一种游戏AI系统的架构框图。参照图6,以RTS或RPG(Role-playinggame,角色扮演)游戏为例,这样的游戏一般都有客户端和服务器端。视用户是否允许客户端进行数据上传和下载,如果用户允许,可以定期将用户的游戏记录(即,历史数据)更新到服务器,以便服务器根据更新的游戏记录更新评估模型。如果用户不允许,则可以在用户更新版本的时候下载评估模型。如果用户完全不与服务器通信,则可以仅在用户的客户端基于该用户的游戏记录进行训练得到评估模型,并且可以在后续与服务器通信时,用从服务器下载的评估模型覆盖在先的评估模型。
【状态-策略说明】
如表二所示,在游戏进行过程中,在某状态下可以对应多种不同的策略。比如,在资源充裕时,可以选择升级科技、加固防御、建造进攻兵力等策略。再例如,在状态S1下,对应可以有策略A1、A2、A3供选择。但此时计算机并不清楚哪个策略为最佳选择,为了便于计算机学习,用一个Q表(评估模型的一种具体形式)来描述在一个状态(如S1)下采取某一个策略(如A1)对应的可能收益(即,执行预期)。
增强学习的特点是能够学习到“长期收益(LongTermReward)”。即AI系统能通过多次和不同用户的对战、AI和AI之间的对战或玩家与玩家之间的对战,来学习一个合理的Q值(即Q(S,A)的值)。通常,在收敛后,选择Q值最大的那个策略,就是机器学习到的最佳策略。即按如下公式选择:
A=argmaxA{Q(S,A)}
这种选取策略的方式我们通常称作Greedy(贪婪策略)。而在选取策略的方式方面,Greedy通常不是最优方式,还可以采用Explore&Exploit(发掘和探索)方式,其特点是,不是每次都选择当前最好的,而是有一定几率去选择次优或者不确定好不好的策略,从而能使得AI体现出丰富多样的对战策略,不容易被玩家摸透。此外,还可以采用或结合本领域技术人员所熟知的ε-greed、softmax、sampling等方式来选取策略,此处不一一说明。
增强学习的学习过程即是学习长期收益的过程。但学习长期收益通常需要事先定义“瞬时收益”(InstantReward),而定义瞬时收益相比定义状态-策略而言更加简单明显。例如,如下列举一些瞬时收益:
AI战胜,游戏结束;收益+100
AI战败,游戏结束;收益-100
AI获得更多兵力,收益+0.1
AI摧毁一部分对方基地,收益+10
AI基地被摧毁,收益-10
等等诸如此类,这些判断条件可以很方便地列举。
【游戏过程中的状态跳转说明】
如图7A所示是游戏过程中的状态跳转示意图,该示意图也可以作为具有时间持续性和状态跳转特征的人工智能系统的运行示意图。参照图7A,通过定义状态(state,例如St)、动作(Action,例如At)、瞬时收益(InstantReward,例如Rt),即可定义整个游戏AI系统的学习进程。
参照图7A,从游戏开始,整个游戏进程在动作(例如,At)的触发下,从一个状态(例如,St)跳转到另一状态(例如,St+1),并获取到收益(例如,Rt)。
当然,状态跳转和AI系统所执行的策略有关,执行不同策略可能跳转到不同状态。例如,如图7B所示是标准的MDP(MarkovDecisionProcess,马尔可夫决策过程),也是传统AI系统所采用的跳转方式。而如图7C所示,则是采用本发明的游戏AI系统所采用的跳转方式示意图,其反映的是根据Q值确定执行哪个策略从而确定状态跳转方向的过程。
此外,状态跳转也可能取决于AI系统的对手,例如在相同状态、相同动作触发下,对应于不同对手可能跳转到不同状态。也就是说,状态的跳转可以认为是具有一定分布(例如,固定分布)的,与对手所采取的策略的分布相关(例如,相同),本发明对此不做详细限制或说明。
【评估模型说明】
为了进行增强学习,在游戏进行过程中,可以积累大量(St,At,St+1,Rt)四元对,这些四元对即表示人工智能系统的状态变化过程的历史数据。在本实施例中,四元对的形式仅为举例,本领域技术人员容易想到采用现有的其它数据形式,只要这种数据形式用于表示“从一个状态、在一定动作后、到达下一状态、且获得了收益”这样的含义,即落在本实施例的保护范围内
在本实施例中,根据四元对学习评估值Q的公式如下:
Qt+1(St,At)=Qt(St,At)+α(γ·MaxA{Qt(St,At)}+Rt-Qt(St,At))
上式为标准的Q-Learning(Q-学习)的学习过程,其中,α表示学习率,其大小视具体情况而定,一般α<1.0;γ表示衰减,即对于较久之前的收益,给一个衰减(用于处理增强学习的无边界问题),一般取值范围0<γ<1.0;MaxA{Qt(St,At)}表示对状态St列举所有可能的策略A,然后获得所有可能的Q(St,At)并取其中的最大值。当然,在本发明中不限于Q-Learning,还可以包括类似的其它增强学习技术,包括TimeDifferenceLearning(时差学习,简称TD)、TD(λ)、PolicyGradient(策略梯度)等。
在本发明的各种实施例中,并不限于在游戏AI系统中使用离散的Q值表(即Q(S,A)这种表格形式),还包括使用模型和回归曲线来描述Q值的方法,包括线性模型、GaussianProcess(高斯过程)、NeuralNetwork(神经网络)等。
【更新说明】
在本实施例的一种实现方式中,可以实时(RealTime)学习和更新评估模型,例如,在AI和AI之间对战或在AI与玩家对战的过程中,将对战数据实时传送给后台(例如,服务器或客户端中用于建立评估模型的模块)。在游戏进行到50分钟(游戏尚未结束)时,根据更新的数据更新评估模型,并基于更新的评估模型影响50分钟之后的策略执行。
在本实施例的另一种实现方式中,可以采用离线更新的方式。例如,在AI和AI之间对战、在AI与玩家对战、在玩家与玩家对战的过程中,收集多轮游戏中的对战数据,之后根据收集到的数据统一进行学习。学习结束后,将得到的评估模型发送至相应的客户端。
本实施例不仅适用于RTS类游戏的AI系统,还适用于RPG游戏中的AI系统,例如,NPC-AI。例如,对于一些大型在线MMORPG中的NPC(Non-PlayerCharacter,非玩家控制的角色),状态可以是玩家的距离、玩家属性、玩家人数等等;策略可以是攻击、对话、无视等等;收益可以是玩家对应的一些反馈,例如对话、按键、攻击等。在相应状态中,针对不同NPC随机化一些性格因子(如NPC的攻击性),能够建立不一样的反应机制,提升RPG游戏的可玩性和意外性。
在本实施例中,由于评估模型可以和实际运行游戏的客户端分开,因此,可以方便地收集大量玩家的数据(历史数据),并以云服务的方式为用户提供评估模型相关的服务。
本发明的各个实施例除了可应用于上文提及的游戏领域外,还可应用于其它领域,例如,对话管理领域、硬件控制领域等,本发明对此不作详述。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件结合硬件平台的方式来实现。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,智能手机或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本发明说明书中使用的术语和措辞仅仅为了举例说明,并不意味构成限定。本领域技术人员应当理解,在不脱离所公开的实施方式的基本原理的前提下,对上述实施方式中的各细节可进行各种变化。因此,本发明的范围只由权利要求确定,在权利要求中,除非另有说明,所有的术语应按最宽泛合理的意思进行理解。
Claims (16)
1.一种应用于人工智能系统的状态跳转方法,其特征在于,所述方法包括:
根据评估模型确定人工智能系统的当前状态所对应的策略的执行预期;
根据确定的执行预期或根据确定的执行预期以及预设的统计方式从人工智能系统的当前状态所对应的策略中选取策略;
通过执行选取的策略实现状态跳转;
其中,所述人工智能系统中的单个状态对应至少一个策略;
其中,所述评估模型用于表示所述人工智能系统中各状态所对应策略的执行预期。
2.如权利要求1所述的方法,其特征在于,
所述人工智能系统包括:游戏中的人工智能系统;
所述人工智能系统中的单个状态对应至少一个策略,包括:
所述人工智能系统中的至少部分状态分别对应一个以上的策略。
3.如权利要求1所述的方法,其特征在于,所述方法还包括:
基于表示所述人工智能系统的状态变化过程的历史数据进行增强学习得到所述评估模型;或,
从保存有所述评估模型的服务器获取所述评估模型;或,
上传表示所述人工智能系统的状态变化过程的历史数据至服务器,并获取由服务器基于服务器自身获取到的历史数据进行增强学习得到的所述评估模型。
4.如权利要求3所述的方法,其特征在于,
表示所述人工智能系统的状态变化过程的历史数据,包括:所述人工智能系统在多次状态跳转中的跳转前状态、触发状态跳转的动作、跳转后状态和策略执行后的收益;
所述人工智能系统中各状态所对应策略的执行预期,包括以下任意一种:
根据所述人工智能系统的历史数据确定的所述人工智能系统中各状态所对应策略的第一预期收益、基于第一预期收益确定的所述人工智能系统中各状态所对应策略的执行概率或执行权重、由服务器根据自身获取到的历史数据确定的所述人工智能系统中各状态所对应策略的第二预期收益、基于第二预期收益确定的所述人工智能系统中各状态所对应策略的执行概率或执行权重。
5.如权利要求1-4中任一项所述的方法,其特征在于,根据确定的执行预期或根据确定的执行预期以及预设的统计方式从人工智能系统的当前状态所对应的策略中选取策略,包括:
从当前状态所对应的策略中选取执行预期最高的策略;或,
根据确定的执行预期以及预设的统计方式进行统计,根据统计结果从当前状态所对应的策略中选取策略。
6.一个应用于人工智能系统的状态跳转装置,其特征在于,所述状态跳转装置包括:
策略选取模块,用于根据评估模型确定人工智能系统的当前状态所对应的策略的执行预期,根据确定的执行预期或根据确定的执行预期以及预设的统计方式从人工智能系统的当前状态所对应的策略中选取策略;
策略执行模块,用于通过执行所述策略选取模块选取的策略实现状态跳转;
其中,所述人工智能系统中的单个状态对应至少一个策略;
其中,所述评估模型用于表示所述人工智能系统中各状态所对应策略的执行预期。
7.如权利要求6所述的装置,其特征在于,
所述人工智能系统包括:游戏中的人工智能系统;
所述人工智能系统中的单个状态对应至少一个策略,包括:
所述人工智能系统中的至少部分状态分别对应一个以上的策略。
8.如权利要求6所述的装置,其特征在于,
所述装置还包括:
学习模块,用于基于表示所述人工智能系统的状态变化过程的历史数据进行增强学习得到所述评估模型;
或,所述装置还包括:
第一获取模块,用于从保存有所述评估模型的服务器获取所述评估模型;
或,所述装置还包括:
上传模块,用于上传表示所述人工智能系统的状态变化过程的历史数据至服务器,
第二获取模块,用于获取由服务器基于服务器自身获取到的历史数据进行增强学习得到的所述评估模型。
9.如权利要求8所述的装置,其特征在于,
表示所述人工智能系统的状态变化过程的历史数据,包括:所述人工智能系统在多次状态跳转中的跳转前状态、触发状态跳转的动作、跳转后状态和策略执行后的收益;
所述人工智能系统中各状态所对应策略的执行预期,包括以下任意一种:根据所述人工智能系统的历史数据确定的所述人工智能系统中各状态所对应策略的第一预期收益、基于第一预期收益确定的所述人工智能系统中各状态所对应策略的执行概率或执行权重、由服务器根据自身获取到的历史数据确定的所述人工智能系统中各状态所对应策略的第二预期收益、基于第二预期收益确定的所述人工智能系统中各状态所对应策略的执行概率或执行权重。
10.如权利要求6-9中任一项所述的装置,其特征在于,所述策略选取模块具体用于:
从当前状态所对应的策略中选取执行预期最高的策略;或,
根据确定的执行预期以及预设的统计方式进行统计,根据统计结果从当前状态所对应的策略中选取策略。
11.一种服务器,其特征在于,所述服务器包括:
学习模块,用于基于至少一个人工智能系统的历史数据进行增强学习得到评估模型;
发送模块,用于将所述评估模型发送至目标人工智能系统;
其中,所述至少一个人工智能系统的历史数据用于表示所述至少一个人工智能系统的状态变化过程;
其中,所述至少一个人工智能系统和所述目标人工智能系统中的单个状态对应至少一个策略;
其中,所述评估模型用于表示所述目标人工智能系统中各状态所对应策略的执行预期。
12.如权利要求11所述的服务器,其特征在于,
所述至少一个人工智能系统的历史数据,包括:所述至少一个人工智能系统在多次状态跳转中的跳转前状态、触发状态跳转的动作、跳转后状态和策略执行后的收益;
所述目标人工智能系统中各状态所对应策略的执行预期,包括以下任意一种:
根据所述至少一个人工智能系统的历史数据确定的所述目标人工智能系统中各状态所对应策略的预期收益、基于所述预期收益确定的所述目标人工智能系统中各状态所对应策略的执行概率或执行权重。
13.如权利要求11或12所述的服务器,其特征在于,所述服务器包括:
数据获取模块,用于从所述至少一个人工智能系统或从第三方设备获取所述至少一个人工智能系统的历史数据。
14.一种人工智能系统,其特征在于,
所述人工智能系统中的单个状态设置有至少一个策略;
所述人工智能系统采用如权利要求1-5中任一项所述的方法实现状态跳转。
15.一种人工智能系统,其特征在于,
所述人工智能系统中的单个状态设置有至少一个策略;
所述人工智能系统采用如权利要求6-10中任一项所述的状态跳转装置实现状态跳转。
16.一种通信系统,其特征在于,
包括:
如权利要求14所述的人工智能系统,和
如权利要求11-13中任一项所述的服务器;
或,包括:
如权利要求15所述的人工智能系统,和
如权利要求11-13中任一项所述的服务器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510390185.6A CN105119733B (zh) | 2015-07-06 | 2015-07-06 | 人工智能系统及其状态跳转方法、服务器、通信系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510390185.6A CN105119733B (zh) | 2015-07-06 | 2015-07-06 | 人工智能系统及其状态跳转方法、服务器、通信系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105119733A true CN105119733A (zh) | 2015-12-02 |
CN105119733B CN105119733B (zh) | 2019-01-15 |
Family
ID=54667631
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510390185.6A Active CN105119733B (zh) | 2015-07-06 | 2015-07-06 | 人工智能系统及其状态跳转方法、服务器、通信系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105119733B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106445710A (zh) * | 2016-10-26 | 2017-02-22 | 腾讯科技(深圳)有限公司 | 一种交互式对象确定的方法及相关设备 |
CN106422332A (zh) * | 2016-09-08 | 2017-02-22 | 腾讯科技(深圳)有限公司 | 应用于游戏的人工智能操作方法和装置 |
CN106503787A (zh) * | 2016-10-26 | 2017-03-15 | 腾讯科技(深圳)有限公司 | 一种获取游戏数据的方法及电子设备 |
CN107096229A (zh) * | 2017-05-10 | 2017-08-29 | 王东 | 信息处理方法及相关方法、系统、设备 |
CN108022199A (zh) * | 2017-12-20 | 2018-05-11 | 南通使爱智能科技有限公司 | 一种人工智能红外图像处理仪 |
CN108108993A (zh) * | 2017-11-08 | 2018-06-01 | 江苏名通信息科技有限公司 | 基于深度神经网络的虚拟货币优化方法 |
CN108345941A (zh) * | 2017-01-23 | 2018-07-31 | 阿里巴巴集团控股有限公司 | 一种参数调整方法和装置 |
CN108434740A (zh) * | 2018-03-23 | 2018-08-24 | 腾讯科技(深圳)有限公司 | 一种策略信息确定的方法及装置 |
CN108874377A (zh) * | 2018-06-21 | 2018-11-23 | 深圳市腾讯网络信息技术有限公司 | 一种数据处理方法、装置和存储介质 |
CN109313450A (zh) * | 2017-08-25 | 2019-02-05 | 深圳市得道健康管理有限公司 | 人工智能终端及其行为控制方法 |
CN109313635A (zh) * | 2017-08-25 | 2019-02-05 | 深圳市得道健康管理有限公司 | 人工智能的行为控制数据库的建立方法及其设备、系统 |
CN109313586A (zh) * | 2016-06-10 | 2019-02-05 | 苹果公司 | 使用基于云端的度量迭代训练人工智能的系统 |
CN109313448A (zh) * | 2017-08-25 | 2019-02-05 | 深圳市得道健康管理有限公司 | 人工智能终端及其行为控制方法 |
CN109313447A (zh) * | 2017-08-25 | 2019-02-05 | 深圳市得道健康管理有限公司 | 人工智能终端及其行为控制方法 |
CN109529352A (zh) * | 2018-11-27 | 2019-03-29 | 腾讯科技(深圳)有限公司 | 虚拟环境中调度策略的评估方法、装置及设备 |
CN111220146A (zh) * | 2019-12-10 | 2020-06-02 | 哈尔滨工程大学 | 一种基于高斯过程回归学习的水下地形匹配定位方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101977662A (zh) * | 2008-03-26 | 2011-02-16 | 英特尔公司 | 将推测物理学建模与基于目标人工智能组合 |
CN102207928A (zh) * | 2011-06-02 | 2011-10-05 | 河海大学常州校区 | 基于强化学习的多Agent污水处理决策支持系统 |
CN102571570A (zh) * | 2011-12-27 | 2012-07-11 | 广东电网公司电力科学研究院 | 一种基于强化学习的网络流量负载均衡控制方法 |
CN102799179A (zh) * | 2012-07-06 | 2012-11-28 | 山东大学 | 基于单链序贯回溯q学习的移动机器人路径规划算法 |
CN102868972A (zh) * | 2012-09-05 | 2013-01-09 | 河海大学常州校区 | 基于改进q学习算法的物联网错误传感器节点定位方法 |
CN103248693A (zh) * | 2013-05-03 | 2013-08-14 | 东南大学 | 基于多智能体强化学习的大规模服务组合优化方法 |
CN104090573A (zh) * | 2014-06-27 | 2014-10-08 | 赵希源 | 一种基于蚁群算法的机器人足球动态决策装置及其方法 |
-
2015
- 2015-07-06 CN CN201510390185.6A patent/CN105119733B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101977662A (zh) * | 2008-03-26 | 2011-02-16 | 英特尔公司 | 将推测物理学建模与基于目标人工智能组合 |
CN102207928A (zh) * | 2011-06-02 | 2011-10-05 | 河海大学常州校区 | 基于强化学习的多Agent污水处理决策支持系统 |
CN102571570A (zh) * | 2011-12-27 | 2012-07-11 | 广东电网公司电力科学研究院 | 一种基于强化学习的网络流量负载均衡控制方法 |
CN102799179A (zh) * | 2012-07-06 | 2012-11-28 | 山东大学 | 基于单链序贯回溯q学习的移动机器人路径规划算法 |
CN102868972A (zh) * | 2012-09-05 | 2013-01-09 | 河海大学常州校区 | 基于改进q学习算法的物联网错误传感器节点定位方法 |
CN103248693A (zh) * | 2013-05-03 | 2013-08-14 | 东南大学 | 基于多智能体强化学习的大规模服务组合优化方法 |
CN104090573A (zh) * | 2014-06-27 | 2014-10-08 | 赵希源 | 一种基于蚁群算法的机器人足球动态决策装置及其方法 |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109313586A (zh) * | 2016-06-10 | 2019-02-05 | 苹果公司 | 使用基于云端的度量迭代训练人工智能的系统 |
CN109313586B (zh) * | 2016-06-10 | 2022-07-01 | 苹果公司 | 使用基于云端的度量迭代训练人工智能的系统 |
CN106422332A (zh) * | 2016-09-08 | 2017-02-22 | 腾讯科技(深圳)有限公司 | 应用于游戏的人工智能操作方法和装置 |
CN106422332B (zh) * | 2016-09-08 | 2019-02-26 | 腾讯科技(深圳)有限公司 | 应用于游戏的人工智能操作方法和装置 |
CN106503787A (zh) * | 2016-10-26 | 2017-03-15 | 腾讯科技(深圳)有限公司 | 一种获取游戏数据的方法及电子设备 |
CN106503787B (zh) * | 2016-10-26 | 2019-02-05 | 腾讯科技(深圳)有限公司 | 一种获取游戏数据的方法及电子设备 |
CN106445710A (zh) * | 2016-10-26 | 2017-02-22 | 腾讯科技(深圳)有限公司 | 一种交互式对象确定的方法及相关设备 |
CN108345941B (zh) * | 2017-01-23 | 2022-01-18 | 阿里巴巴集团控股有限公司 | 一种参数调整方法和装置 |
CN108345941A (zh) * | 2017-01-23 | 2018-07-31 | 阿里巴巴集团控股有限公司 | 一种参数调整方法和装置 |
CN107096229A (zh) * | 2017-05-10 | 2017-08-29 | 王东 | 信息处理方法及相关方法、系统、设备 |
CN107096229B (zh) * | 2017-05-10 | 2021-02-19 | 王东 | 信息处理方法及相关方法、系统、设备 |
CN109313447A (zh) * | 2017-08-25 | 2019-02-05 | 深圳市得道健康管理有限公司 | 人工智能终端及其行为控制方法 |
CN109313450B (zh) * | 2017-08-25 | 2021-07-30 | 深圳市大富智慧健康科技有限公司 | 人工智能终端及其行为控制方法 |
CN109313448A (zh) * | 2017-08-25 | 2019-02-05 | 深圳市得道健康管理有限公司 | 人工智能终端及其行为控制方法 |
CN109313450A (zh) * | 2017-08-25 | 2019-02-05 | 深圳市得道健康管理有限公司 | 人工智能终端及其行为控制方法 |
CN109313448B (zh) * | 2017-08-25 | 2022-02-18 | 深圳市大富智慧健康科技有限公司 | 人工智能终端及其行为控制方法、存储介质 |
WO2019037122A1 (zh) * | 2017-08-25 | 2019-02-28 | 深圳市得道健康管理有限公司 | 人工智能终端及其行为控制方法 |
CN109313635A (zh) * | 2017-08-25 | 2019-02-05 | 深圳市得道健康管理有限公司 | 人工智能的行为控制数据库的建立方法及其设备、系统 |
CN109313447B (zh) * | 2017-08-25 | 2021-07-30 | 深圳市大富智慧健康科技有限公司 | 人工智能终端及其行为控制方法 |
CN109313635B (zh) * | 2017-08-25 | 2020-09-08 | 深圳市大富智慧健康科技有限公司 | 人工智能的行为控制数据库的建立方法及其设备、系统及存储介质 |
CN108108993A (zh) * | 2017-11-08 | 2018-06-01 | 江苏名通信息科技有限公司 | 基于深度神经网络的虚拟货币优化方法 |
CN108022199A (zh) * | 2017-12-20 | 2018-05-11 | 南通使爱智能科技有限公司 | 一种人工智能红外图像处理仪 |
CN108434740A (zh) * | 2018-03-23 | 2018-08-24 | 腾讯科技(深圳)有限公司 | 一种策略信息确定的方法及装置 |
CN108434740B (zh) * | 2018-03-23 | 2021-01-29 | 腾讯科技(深圳)有限公司 | 一种策略信息确定的方法及装置、存储介质 |
CN108874377A (zh) * | 2018-06-21 | 2018-11-23 | 深圳市腾讯网络信息技术有限公司 | 一种数据处理方法、装置和存储介质 |
CN109529352A (zh) * | 2018-11-27 | 2019-03-29 | 腾讯科技(深圳)有限公司 | 虚拟环境中调度策略的评估方法、装置及设备 |
CN111220146A (zh) * | 2019-12-10 | 2020-06-02 | 哈尔滨工程大学 | 一种基于高斯过程回归学习的水下地形匹配定位方法 |
CN111220146B (zh) * | 2019-12-10 | 2022-10-14 | 哈尔滨工程大学 | 一种基于高斯过程回归学习的水下地形匹配定位方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105119733B (zh) | 2019-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105119733A (zh) | 人工智能系统及其状态跳转方法、服务器、通信系统 | |
WO2020259502A1 (zh) | 神经网络模型的生成方法及装置、计算机可读存储介质 | |
CN106390456B (zh) | 游戏中角色行为的生成方法和装置 | |
CN108920221B (zh) | 游戏难度调整的方法及装置、电子设备、存储介质 | |
CN108888958A (zh) | 虚拟场景中的虚拟对象控制方法、装置、设备及存储介质 | |
US20150126286A1 (en) | Method And System For Implementing Artificial Intelligence | |
CN108553903B (zh) | 控制机器人玩家方法及装置 | |
CN104965695A (zh) | 模拟用户实时操作的方法和装置 | |
CN103577704A (zh) | 游戏系统中npc处理事件的方法及装置 | |
Winterrose et al. | Strategic evolution of adversaries against temporal platform diversity active cyber defenses | |
US20230302362A1 (en) | Virtual object control method based on distance from player-controlled virtual object | |
Gemine et al. | Imitative learning for real-time strategy games | |
Iannucci et al. | A performance evaluation of deep reinforcement learning for model-based intrusion response | |
CN109925712B (zh) | 一种虚拟对象控制系统 | |
CN109731338B (zh) | 游戏中的人工智能训练方法及装置、存储介质及电子装置 | |
US11117059B2 (en) | Non-transitory computer readable media, information processing device, and control method | |
CN112860579A (zh) | 业务测试方法、装置、存储介质及设备 | |
CN117180750A (zh) | 基于行为树的非用户角色控制方法、装置、设备及介质 | |
CN112347699B (zh) | 多智能体对抗神经网络训练方法及装置 | |
Agung et al. | Game artificial intelligence based using reinforcement learning | |
Young et al. | Learning micro-management skills in RTS games by imitating experts | |
CN115118532B (zh) | 基于改进d3qn算法的sdn下自适应威胁缓解方法及系统 | |
Wei et al. | Research on combat simulation agent modelling methods combined with reinforcement learning | |
CN115442216B (zh) | 网络切片故障自愈方法、装置、设备及计算机存储介质 | |
Shen et al. | A simulation analysis of large contests with thresholding agents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |