CN110457534A - 一种基于人工智能的数据处理方法、装置、终端及介质 - Google Patents

一种基于人工智能的数据处理方法、装置、终端及介质 Download PDF

Info

Publication number
CN110457534A
CN110457534A CN201910695006.8A CN201910695006A CN110457534A CN 110457534 A CN110457534 A CN 110457534A CN 201910695006 A CN201910695006 A CN 201910695006A CN 110457534 A CN110457534 A CN 110457534A
Authority
CN
China
Prior art keywords
data
data set
node
mentioned
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910695006.8A
Other languages
English (en)
Inventor
张榕
曾子骄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Domain Computer Network Co Ltd
Original Assignee
Shenzhen Tencent Domain Computer Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tencent Domain Computer Network Co Ltd filed Critical Shenzhen Tencent Domain Computer Network Co Ltd
Priority to CN201910695006.8A priority Critical patent/CN110457534A/zh
Publication of CN110457534A publication Critical patent/CN110457534A/zh
Pending legal-status Critical Current

Links

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F1/00Card games
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F3/00Board games; Raffle games
    • A63F3/02Chess; Similar board games
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9027Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于人工智能的数据处理方法、装置、终端及介质。其中方法包括:获取数据集的数据,所述数据集包括至少三个用户数据集;根据所述数据集的数据,依据零总和算法生成目标搜索树模型;根据生成得到的所述目标搜索树模型,确定最大节点价值的搜索路径,并执行所述最大节点价值的搜索路径途径的树节点对应的处理方式,可以快速处理多方数据,节省数据开销。

Description

一种基于人工智能的数据处理方法、装置、终端及介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种基于人工智能的数据处理方法、装置、终端及介质。
背景技术
机器博弈,也称计算机博弈,就是指计算机通过运行人类编写的程序,模拟人类在下棋时复杂的思维,从而让计算机像人类一样具有下棋的能力,下国际象棋,五子棋,西洋跳棋,中国象棋等等。计算机博弈作为人工智能领域一个非常重要而且极具挑战性的课题。
一般解决博弈类问题的自然想法是将局面组织成一棵树,树的每一个节点表示一种局面,而父子关系表示由父局面经过一步可以到达子局面,Minimax算法也不例外。上述Minimax算法又名极小化极大算法(极大极小值算法),是一种找出失败的最大可能性中的最小值的算法。常用于棋类等由两方较量的游戏和程序,这类程序由两方轮流,每次执行一个步骤。我们众所周知的五子棋、象棋等都属于这类程序,所以说Minimax算法是基于搜索的博弈算法的基础,即一方要在可选的选项中选择将其优势最大化的选择,而另一方则选择令对手优势最小化的方法。
但基于传统的Minimax算法的决策方法,不适用于多方参与的博弈决策。对于多方参与的博弈,使用一般的监督学习训练模型进行决策时,存在失误的可能性较大,尤其是对于需要多方配合进行的决策场景,无法准确地判断不同可能的数据处理方式的优劣,数据处理方式不合理、过程较冗长复杂、数据开销大。
发明内容
本申请提供了一种基于人工智能的数据处理方法、装置、终端及介质,可以确定当前场景下的最佳数据处理方式,以快速合理地处理多方数据,节省数据开销。
第一方面,提供了一种基于人工智能的数据处理方法,包括:
获取数据集的数据,所述数据集包括至少三个用户数据集;
根据所述数据集的数据,依据零总和算法生成目标搜索树模型;
根据生成得到的所述目标搜索树模型,确定最大节点价值的搜索路径,并执行所述最大节点价值的搜索路径途径的树节点对应的处理方式。
第二方面,提供了一种数据处理装置,包括:获取模块、生成模块、搜索模块和处理模块,其中:
所述获取模块,用于获取数据集的数据,所述数据集包括至少三个用户数据集;
所述生成模块,用于根据所述数据集的数据,依据零总和算法生成目标搜索树模型;
所述搜索模块,用于根据生成得到的所述目标搜索树模型,确定最大节点价值的搜索路径;所述处理模块,用于执行所述最大节点价值的搜索路径途径的树节点对应的处理方式。
第三方面,本申请实施例提供了一种终端,所述终端包括输入设备和输出设备,所述终端还包括:
处理器,适于实现一条或多条指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行如第一方面所述的部分或全部步骤。
第四方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行如第一方面所述的部分或全部步骤。
第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面及其任一种可能的实现方式的方法。
本申请通过获取数据集的数据,所述数据集包括至少三个用户数据集;根据所述数据集的数据,依据零总和算法生成目标搜索树模型;根据生成得到的所述目标搜索树模型,确定最大节点价值的搜索路径,并执行所述最大节点价值的搜索路径途径的树节点对应的处理方式,可以根据已知的数据和可能的数据处理方式进行分析搜索,确定当前场景下的更优的处理方式,以快速处理多方数据,节省数据开销。
附图说明
为了更清楚地说明本申请实施例或背景技术中的技术方案,下面将对本申请实施例或背景技术中所需要使用的附图进行说明。
图1为本申请实施例提供的一种基于人工智能的数据处理方法的流程示意图;
图2为本申请实施例提供的另一种基于人工智能的数据处理方法的流程示意图;
图3a为本申请实施例提供的一种目标搜索树模型的结构示意图;
图3b为本申请实施例提供的另一种目标搜索树模型的结构示意图;
图4为本申请实施例提供的另一种基于人工智能的数据处理方法的流程示意图;
图5a为本申请实施例提供的一种预测网络模型的处理流程示意图;
图5b为本申请实施例提供的一种模型结构示意图;
图6为本申请实施例提供的又一种基于人工智能的数据处理方法的流程示意图;
图7为本申请实施例提供的一种预测和搜索结合的数据处理流程示意图;
图8为本申请实施例提供的一种各方法验证结果统计示意图;
图9为本申请实施例提供的另一种各方法验证结果统计示意图;
图10为本申请实施例提供的一种数据处理的代码示意图;
图11为本申请实施例提供的一种数据处理装置的结构示意图;
图12为本申请实施例实施例提供的一种终端的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
下面结合本申请实施例中的附图对本申请实施例进行描述。
请参阅图1,图1是本申请实施例提供的一种基于人工智能的数据处理方法的流程示意图。该方法包括:
101、获取数据集的数据,上述数据集包括至少三个用户数据集。
本申请实施例中的执行主体可以为一种数据处理装置,可以为电子设备,上述电子设备包括终端,具体实现中,上述终端也可称为终端设备,包括但不限于诸如具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的移动电话、膝上型计算机或平板计算机之类的其它便携式设备。还应当理解的是,在某些实施例中,上述设备并非便携式通信设备,而是具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的台式计算机。
本申请实施例中对上述至少三个用户数据集的数据进行处理,以全局来看,初始的待处理的全部数据即为上述至少三个用户数据集的数据,随着对其中数据的处理,各个用户数据集中的数据个数逐渐减少,剩余的均为未处理数据。
上述用户数据集中的数据可以以各种形式存储,在数据处理过程中,可以对历史处理数据进行记录。
本申请实施例中的数据处理应用在多用户方的数据处理过程中,在一种可能的实施方式中,上述至少三个用户数据集的用户存在对立关系。比如在四人麻将场景中,四个用户均为对立关系。
可选的,也可以是第一用户数据集和上述第二用户数据集的用户,与第三用户数据集的用户呈对立。以经典斗地主游戏为应用场景举例来讲,经典斗地主是一种扑克游戏,该游戏最少由3个玩家进行,用一副54张的扑克牌,其中一方为地主,其余两方为存在合作的农民角色,与地主进行对战,先出完牌的一方获胜,则地主角色对应上述第三用户数据集的数据,相应的第一用户数据集和上述第二用户数据集分别对应两个农民角色,其中的数据可表示对应角色剩余的牌。
102、根据上述数据集的数据,依据零总和算法生成目标搜索树模型。
一般解决博弈类问题,可以将局面组织成一棵树,树的每一个节点表示一种局面,而父子关系表示由父局面经过一步可以到达子局面。
上述零总和算法是一种可用于零和博弈的算法,上述零和博弈与非零和博弈相对零,是博弈论的一个概念,属非合作博弈,指参与博弈的各方,在严格竞争下,一方的收益必然意味着另一方(或其他几方)的损失,博弈各方的收益和损失相加总和永远为“零”,即对立方不存在合作的可能。
而本申请实施例中可以使用零总合算法生成目标搜索树模型,具体地,可以使用Minimax算法,它是一种找出失败的最大可能性中的最小值的算法常用于棋类等由两方较量的游戏和程序,这类程序由两个游戏者轮流,每次执行一个步骤。我们众所周知的五子棋、象棋等都属于这类程序,所以说Minimax算法是基于搜索的博弈算法的基础。该算法是一种零总和算法,即一方要在可选的选项中选择将其优势最大化的选择,而另一方则选择令对手优势最小化的方法。
类似的,本申请实施例中的目标搜索树模型,其中,上述MAX节点层的节点价值为上述MAX节点层的子节点的最大节点价值,上述MIN节点层的节点价值为上述MIN节点层的子节点的最小节点价值。
基于上述Minimax算法,在存在至少三个用户数据集的情况下,可以将其中两个合作关系的用户对象均看作MAX节点,剩余的用户作为对立方,看作MAX节点,以生成对应的目标搜索树模型。
本申请实施例中的目标搜索树模型的算法本质可以是精确、严格完全树的展开。具体应用于博弈场景的数据处理中,针对决策者和队友节点(如有)都采用Max,对于对手节点采用Min。具体来讲,不同于两人的Minimax博弈,在存在AI队友的多人博弈中,可以将真实玩家的角色确定为Max节点,对于该AI队友自身也为Max节点,其余对手均为Min节点(可以是其他对手AI)。而本申请实施例对应的是站在AI队友与真实玩家一方的博弈。例如:在四人博弈中,真实玩家选择一名AI队友,针对AI队友,搜索树的层次可按照AI队友-对手1-对手2-真实玩家的顺序展开,则采用Max-Min-Min-Max;针对真实玩家,搜索树的层次按照真实玩家-AI队友-对手1-对手2的顺序搜索,则采用Max-Max-Min-Min。
上述搜索树的层次展开根据各用户数据集的处理顺序对应确定,其中,队友节点和对手节点的设置可以有多种,本申请实施例对此不作限制。
103、根据生成得到的上述目标搜索树模型,确定最大节点价值的搜索路径,并执行上述最大节点价值的搜索路径途径的树节点对应的处理方式。
在获得上述目标搜索树模型之后,可确定其中的最大节点价值的搜索路径,由于在决策判断时是基于各个用户数据集作为处理对象的不同处理方式来判断当前局面状况(计算节点价值),上述最大节点价值路径可以理解为各个数据集均尽量争取多处理自身数据时,使具有合作关系的我方队友节点尽量多处理数据的情况。进而,通过执行上述最大节点价值的搜索路径途径的树节点对应的处理方式,可以实现上述情况。
举例来讲,在斗地主游戏中的农民角色视角,即可以获得最差情况下(均完美出牌时)的最好结果:使地主剩余牌数最多的情况。可以参考后续图2、图3的相关具体描述。
又如,对于有一个队友的四人博弈,以真实玩家和队友角色胜利为目的,搜索出对手输的程度最大的情况,具体根据场景设定进行设置搜索,此处不做限制。
本申请实施例通过获取数据集的数据,上述数据集包括至少三个用户数据集,根据上述数据集的数据,依据零总和算法生成目标搜索树模型,再根据生成得到的上述目标搜索树模型,确定最大节点价值的搜索路径,并执行上述最大节点价值的搜索路径途径的树节点对应的处理方式。可以根据已知的数据和可能的数据处理方式进行分析搜索,确定当前场景下的最佳处理方式,实现数据处理的价值最大化。
请参阅图2,图2是本申请实施例提供的一种基于人工智能的数据处理方法的流程示意图。该方法包括:
201、获取数据集的数据,上述数据集包括第一用户数据集、第二用户数据集和第三用户数据集。
本申请实施例中对第一用户数据集、第二用户数据集和第三用户数据集的数据进行处理,以全局来看,初始的待处理的全部数据即为上述三个用户数据集的数据,随着对其中数据的处理,各个用户数据集中的数据个数逐渐减少,剩余的均为未处理数据。
上述用户数据集中的数据可以以各种形式存储,在数据处理过程中,可以对历史处理数据进行记录。
本申请实施例中的数据处理应用在多用户方的数据处理过程中,在一种可能的实施方式中,上述第一用户数据集和上述第二用户数据集的用户,与第三用户数据集的用户呈对立。比如以经典斗地主游戏为应用场景,经典斗地主是一种扑克游戏。游戏最少由3个玩家进行,用一副54张的扑克牌,其中一方为地主,其余两方为存在合作的农民角色,与地主进行对战,先出完牌的一方获胜,则地主角色对应上述第三用户数据集的数据,相应的第一用户数据集和上述第二用户数据集分别对应两个农民角色,其中的数据可表示对应角色剩余的牌。
可以基于上述用户数据集的待处理的数据,进行数据处理的决策。在获取上述数据集的数据之后,可以执行步骤202。
202、根据上述数据集的数据,依据零总和算法生成目标搜索树模型,上述目标搜索树模型由上述第一用户数据集对应的第一MAX节点层、第二用户数据集对应的第二MAX节点层以及上述第三用户数据集对应的MIN节点层交替出现,每个树节点由针对其所在层对应的用户数据集作为处理对象的不同处理方式以及对应的节点价值确定,上述节点价值为对应处理方式下上述第三用户数据集的最终剩余数据个数。
一般解决博弈类问题,可以将局面组织成一棵树,树的每一个节点表示一种局面,而父子关系表示由父局面经过一步可以到达子局面。
本申请实施例中可以利用Minimax算法,是一种找出失败的最大可能性中的最小值的算法。Minimax算法常用于棋类等由两方较量的游戏和程序,这类程序由两个游戏者轮流,每次执行一个步骤。我们众所周知的五子棋、象棋等都属于这类程序,所以说Minimax算法是基于搜索的博弈算法的基础。该算法是一种零总和算法,即一方要在可选的选项中选择将其优势最大化的选择,而另一方则选择令对手优势最小化的方法。
类似的,本申请实施例中的目标搜索树模型,其中,上述MAX节点层的节点价值为上述MAX节点层的子节点的最大节点价值,上述MIN节点层的节点价值为上述MIN节点层的子节点的最小节点价值。
基于上述Minimax算法,在存在三个用户数据集的情况下,可以将其中两个合作关系的用户对象均看作MAX节点,对立用户看作MAX节点。
本申请实施例中的目标搜索树模型的算法本质可以是精确、严格完全树的展开。具体的到斗地主游戏中,针对决策者和队友节点都采用Max,对于对手节点采用Min。具体来讲,不同于两人的Minimax博弈,斗地主是零和的三人博弈,可以理解为其中农民角色为Max节点,对手即地主角色为Min节点。而本申请实施例对应的是站在农民角色的两方的Max-Min-MAX博弈(而对于地主角色来说是一个Max-Min-Min博弈)。例如:针对农民一,搜索树的层次按照农民一-农民二-地主的顺序展开,则采用Max-Max-Min;针对农民二,搜索树的层次按照农民二-地主-农民一的顺序搜索,则采用Max-Min-Max。
神经网络是训练棋牌类游戏智能陪打机器人的有效技术方案。目前主流方法是通过大量真人打牌游戏数据,简单提取牌面特征,将手牌信息表示为平面信息输入CNN,以当前打牌为输出,进行监督学习。但目前的打牌人工智能(Artificial Intelligence,AI)仍会出现失误,尤其在斗地主局末需要两农民配合时AI失误更加明显。在对战关键阶段,一旦失误,将非常明显且决定胜负走向。并且本质上讲,人类玩家水平不一定完美,在局末失误也较多,样本略差。
举例来讲,在斗地主游戏中,农民2为陪打的AI机器人,地主剩一张牌6时,轮到农民2出牌,农民2有对子,却打单张,略有经验的玩家不会有此出牌。可见该种方式训练时玩家日志数据不够完美,人也可能出错限制了模型的上限。且神经网络只学到了不完美数据的平均水平。上述两原因导致模型表现不佳。
对于上述目标搜索树模型,可以参见图3a,图3a为一种目标搜索树模型的结构示意图。
可以理解为,本申请在当前局面下可以依靠目标搜索树模型确定下一步的选择,即前述每个树节点由针对其所在层对应的用户数据集作为处理对象的不同处理方式以及对应的节点价值确定,本申请实施例中的上述节点价值为对应处理方式下第三用户数据集的最终剩余数据个数。如图3a所示,其中节点中的数值代表当前节点价值,在斗地主的数据处理应用场景中上述节点价值可以用输嬴牌张数来表示。如此算法以农民视角来搜索举例,则节点价值为该状态下,最终地主所剩手牌张数。
具体的,在迭代时,终局节点价值采用手牌张数表达,如果负,采用已方手牌张数*(-1);如果胜,采用对方手牌张数*1。搜索的目的是找到最大节点价值路径。
具体来讲,如图3a中搜索树的第一层3代表:此状态下,若后续各玩家都完美出牌时,最差结果可使地主还剩3张;第二层的-2代表,此状态下,若后续各玩家都完美出牌时,最差结果可使地主赢,农民2还剩2张。若第一层的3还未填写,此时农民2将要决策,农民2看下一层结果,3和-2。那么农民2会尽量选择max值的动作,即左边的分支3。轮到地主决策时,地主要尽量取节点价值低的路径走,即取min值,min(3,6)=3。由此可以获得当前局面下的搜索树模型,用于模拟其他玩家出牌,以获得最优决策解。
在一种可选的实施方式中,在上述步骤202之前,该方法还包括:
删除上述目标搜索树模型中的冗余节点,上述冗余节点包括:
上述MAX节点层到上一层MAX节点层的每个搜索路径中,上述节点价值大于上述上一层MAX节点层的节点价值的节点,以及上述MIN节点层到上一层MIN节点层的每个搜索路径中,上述节点价值小于上述上一层MAX节点层的节点价值的节点。
具体的,本申请实施例中可以结合类似于标准Minimax算法的Alpha-Beta剪枝思想,Alpha-Beta剪枝算法是一个搜索算法,旨在减少在搜索树中被极大极小算法评估的节点数。这是一个常用人机游戏对抗的搜索算法,其基本思想是根据上一层已经得到的当前最优结果,决定目前的搜索是否要继续下去。
具体可以参见图3b,如图3b是图3a所示的搜索树进行剪枝的示意图,如图所示,包含一个Alpha剪枝的示意,节点价值为5的节点需要回溯到上一层的Max节点;一个Beta剪枝的示意,节点价值为-2的节点需要回溯到上一层的MIN节点。Alpha-Beta剪枝用于裁剪搜索树中不需要搜索的树枝,以提高运算速度。它基本的原理是:当一个MIN节点的β值≤任何一个父节点的α值时,剪掉该节点的所有子节点;当一个MAX节点的α值≥任何一个父节点的β值时,剪掉该节点的所有子节点。由于该算法为现有技术,本申请实施例不再赘述。
本申请实施例可以结合上述Alpha-Beta剪枝算法,和前述Minimax算法所得结论相同,但剪去了不影响最终决定的搜索树分枝,可以简化搜索树结构,减少搜索时的数据处理量,使搜索效率更高。
通过上述描述可以理解生成得到的目标搜索树模型,在获得上述目标搜索树模型之后,可以执行步骤203。
203、根据生成得到的上述目标搜索树模型,确定最大节点价值的搜索路径,并执行上述最大节点价值的搜索路径途径的树节点对应的处理方式。
在获得上述目标搜索树模型之后,可确定其中的最大节点价值的搜索路径,由于在决策判断时是基于各个用户数据集作为处理对象的不同处理方式来判断当前局面状况(计算节点价值),上述最大节点价值路径可以理解为各个数据集均尽量争取多处理自身数据时,使上述第一用户数据集和第二用户数据集尽量多处理数据的情况。进而,通过执行上述最大节点价值的搜索路径途径的树节点对应的处理方式,可以实现上述情况。
举例来讲,在斗地主游戏中的农民角色视角,即可以获得最差情况下(均完美出牌时)的最好结果:使地主剩余牌数最多的情况。可以参考前述对图2和图3b的具体描述,此处不再赘述。
本申请实施例通过获取数据集的数据,上述数据集包括第一用户数据集、第二用户数据集和第三用户数据集,根据上述数据集的数据,依据零总和算法生成目标搜索树模型,其中,目标搜索树模型由上述第一用户数据集对应的第一MAX节点层、第二用户数据集对应的第二MAX节点层以及上述第三用户数据集对应的MIN节点层交替出现,每个树节点由针对其所在层对应的用户数据集作为处理对象的不同处理方式以及对应的节点价值确定,上述节点价值为对应处理方式下上述第三用户数据集的最终剩余数据个数;再根据生成得到的上述目标搜索树模型,确定最大节点价值的搜索路径,并执行上述最大节点价值的搜索路径途径的树节点对应的处理方式。可以根据已知的数据和可能的数据处理方式进行分析搜索,确定当前场景下的最佳处理方式,实现数据处理的价值最大化。
请参阅图4,图4是本申请实施例提供的另一种基于人工智能的数据处理方法的流程示意图。如图4所示,该方法可包括:
401、使用预测网络模型预测目标数据集的数据,获得预测结果,上述预测结果包括至少一组预测数据和上述至少一组预测数据的概率,上述目标数据集为上述第一用户数据集和上述第三用户数据集中数据个数更少的一个数据集。
在上述用户数据集各自不知道对方具体数据的情况下,可以先进行数据预测。站在第二用户数据集的角度来讲,可以首先使用预测网络模型对其他用户数据集的数据进行预测,再结合上述目标搜索树模型进行决策,提升其数据处理的智能程度。
本申请实施例中提到的非完美信息博弈指,如果没有参与者能够获得其他参与者的行动信息,也就是说当参与者做选择的时候不知道其他参与者的选择的博弈。比如经典斗地主采用暗牌规则,即玩家间互相不知对方手牌。此为典型的非完美信息博弈。而完美信息博弈指,每一参与者都拥有所有其他参与者的特征、策略及得益函数等方面的准确信息的博弈。
本申请实施例中可以首先用上述预测网络模型猜测未知数据,将非完美信息博弈变成完美信息博弈,再使用根据处理规则修改的搜索算法解决完美信息博弈的决策。
具体的,针对棋牌类打牌机器人,在需要进行决策时使用上述预测网络模型(可以理解为猜牌网络)将非完美信息博弈转化为完美信息博弈。
卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络。它由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,相比较其他深度、前馈神经网路,卷积神经网路所需参数更少,使之成为一种颇具吸引力的深度学习结构。
目前解决斗地主的人机对战中已有一些打牌机器人,可称为打牌AI:由监督学习训练的CNN分类模型,用于预测当前玩家出牌。输入为当前所知信息,输出为当前玩家出牌的预测。此AI给出的打牌策略称为policy。
在本申请实施例中提到的打牌AI,可以参考图5a所示的预测网络模型的处理流程示意图,和图5b所示的模型结构示意图。比如将图5a中所示的牌面示意转换为对应的平面表达示意,即将每种牌张数分布表示为4*15的平面,对应的1和0分别代表有此牌和无此牌,其中B和R分别表示小王和大王。再添加其他打牌过程中已知信息,构成CNN网络输入的多个通道。最终CNN模型预测输出为各种出牌动作(比如图中的3,4,34567等等)的概率分布。最有可能出牌的动作具有最高的概率。可以参考图5b所示,在斗地主场景中的一手出牌可能是由主牌和带的牌组合而成,带的牌可以称为“翅膀”,比如出牌的类型为三带二55533,即主牌为3张5,翅膀为2张3。对应于数据处理,由于出牌中翅膀种类太多,一般将出牌模型拆分为对应上述主牌出牌的主模型(major model)和对应上述带的牌的翅膀模型(minormodel)。一手出牌最终由主牌模型和翅膀模型的输出组合而成,如三带二55533,由主模型输出555,翅膀模型输出33,最终组成55533作为出牌决策。对于本申请实施例中提到的已有打牌AI,可以有其他方式预测待处理数据(出牌动作),本申请实施例对此不做限制。
然而训练日志并非完美,总存在不合理出牌数据,且人工难以简易高效剔除,导致训练的打牌机器人会失误。尤其在斗地主局末(所剩牌较少时)需要两农民配合时AI失误更加明显。
本申请实施例可通过训练后的卷积神经网络模型实现数据预测,获取的预测结果包括至少一组预测数据和上述至少一组预测数据的概率,其预测的是第一用户数据集和第三用户数据集中数据个数更少的一个数据集的数据。
本申请实施例中可以利用玩家游戏日志样本,训练猜牌CNN分类模型,可以预测非完美信息博弈中的未知信息。在斗地主AI优化方案中,打牌过程的已知信息作为模型输入,其余玩家剩余手牌张数较少一方手牌为模型输出。即当前玩家已知自己手牌,再猜出其余一玩家手牌(即上述目标数据集的数据),则可推算出相应的另一玩家手牌,游戏转变为完美信息博弈。
即在确定上述目标数据集的数据之后可以执行步骤402。
在一种可能的实施方式中,上述步骤401可包括:
根据上述数据集中的已知数据和历史数据处理信息生成平面特征数据,上述平面特征数据用于表示上述数据集中的数据分布;
将上述平面特征数据输入上述预测网络模型进行预测,获得上述至少一组预测数据以及上述至少一组预测数据对应的概率。
上述数据集中的已知数据即为己方的数据,对另外两个用户数据集的具体数据是未知的,但是已知其数据个数,同时上述历史数据处理信息包含了各个用户数据集的已处理数据,可以基于上述数据集中的已知数据和历史数据处理信息生成平面特征数据作为预测网络模型的输入。
具体的,本申请实施例中的预测网络模型和前述一般的打牌AI模型类似(可参考图5a和图5b),预测网络模型可以采用CNN训练分类器,其输入可以为多个平面特征数据。其中部分特征可以由多个平面表示。
在一种可选的实施方式中,对于斗地主游戏的场景,可以将每种牌张数分布表示为4*15的平面。再添加其他打牌过程中已知信息,构成CNN网络输入的多个通道。最终CNN模型预测输出为上述至少一组预测数据以及上述至少一组预测数据对应的概率。最有可能的一组预测数据具有最高的概率。
具体来讲,可以生成的平面特征数据如下,作为输入。以下所有平面可均为4*15的平面。【】中标记平面编号,0-29共30个。
【0】:表示预测玩家角色:地主全置为1,农民全置为0。
【1~3】:表示玩家角色,如为地主,则第一个平面全部置为1,其余两平面全部置为0;如为农民一,则第二个平面全部置为1,其余两平面为0
【4】:预测玩家打出的手牌,手牌类表示下文不再赘述,与此类似。
【5】:当前玩家所有可见牌;
【6】:当前玩家所有非可见牌;
【7】:预测玩家已出手牌信息;
【8】:预测玩家所剩手牌张数:4*15的平面有15列,当剩余1张,则将第一列置为1,其余为0;以此类推,剩余15张时,将第15列置1;当剩余张数超过15时,仍将第15列置为1。
【9】:另一玩家手牌张数,表示同上。
【10-19】:可按照0,1,2分别表示地主,农民一与农民二的标识id。此10个平面表示另外两个玩家id更小者过去10手出牌,其中去掉所有“不出”动作。历史出牌不足10轮时补空,即该平面全置为0。
【20-29】:此10个平面表示另外两个玩家id更大者过去10手出牌,细节同上。
在输入上述预测网络模型进行预测时,输出的预测结果可以是多维向量的形式,每一维向量表示一种数据类型,其值则表示该数据类型的概率。比如根据前述举例继续描述,上述预测网络模型最终可以输出一个133维的向量,每一维表示一种手牌种类,其值为模型预测的该种手牌的概率。可以选择概率最大的手牌种类作为预测的玩家手牌。
在一种可选的实施方式中,可以是在检测到至少一个数据集的数据个数小于或者等于判断阈值的情况下,使用预测网络模型预测目标数据集的数据。
本申请实施例中可以预先设置上述判断阈值,当用户数据集的数据逐渐减少,到至少一个数据集的数据个数小于或者等于判断阈值时,再进行预测。比如判断阈值为2,在有一个数据集的数据个数小于或者等于2时进行预测。可以在数据处理的末尾阶段启动预测和搜索的决策过程,数据量小,提高预测的精度。即比如斗地主游戏中检测到其余两玩家中有人剩余牌数小于或者等于2时触发预测操作。进一步可选的,当其余两玩家,有且仅有一人,手牌张数小于等于2时,模型输出为该玩家手牌;当其余两玩家,两人手牌张数都小于等于2时,模型输出为玩家id更小者的手牌。
本申请实施例中的局末指的是:在一局斗地主游戏中,当其余两玩家至少有一人手牌张数小于等于2张时,进入局末开始猜牌。由于每个玩家打出的牌已知,可算出另一玩家的手牌。该模型主要应用于农民角色,一方面由于地主策略网络失误低,另一方面由于农民出牌需考虑配合。设置上述判断阈值也可以使预测更准确。而对于一局斗地主游戏,可能不存在局末阶段,即可以不进行预测,减少了不必要的数据处理。
具体的,输出的向量详细分类可以见下表1。
1单 A,2,3,...,Q,K,R,B 15种
1对 AA,22,33,...,QQ,KK 13种
2单 A2,A3,...,23,24,...,QB,KB,...,KR,BR 105种
表1
在本申请实施例中,牌的种类表示为:A、2、3、4、5、6、7、8、9、10、J、Q、K、R(表示大王)和B(表示小王),即对应上述1单类型,表示单张牌种类为前述15种,还包括13种一对(两张相同的牌)的情况,和105种2单(两张不同的牌)的情况,共15+13+105=133种。
比如上述预测网络模型的设置具体可以为:
CNN隐层:5层Conv+BatchNorm+ReLU。
可选的,其中设置的卷积大小可以是逐渐减小的,开始的比较大比较少,后面的比较小比较多,其目的是先粗略提取主要信息,后面再提取精细信息,以达到更好的效果。其中卷积设置也可调整,本申请实施例对此不作限制。
402、根据上述预测结果确定上述第一用户数据集的数据和上述第三用户数据集的数据。
在本申请实施例中,已知初始时待处理的全部数据的集合,这些数据被划分在初始的三个用户数据集中,历史处理数据此时可以理解为空集。而在数据处理过程中各个用户数据集的数据逐渐减少,并存在历史处理数据的记录。
在一种可选的实施方式中,上述步骤402包括:
将上述预测结果中概率最大的一组预测数据作为上述目标数据集的数据;
根据上述数据集的历史处理数据、上述目标数据集的数据和上述第二用户数据集的数据确定上述数据集中剩余的用户数据集的数据。
具体的,由于上述目标数据集为上述第一用户数据集和上述第三用户数据集中的一个,可以在已知第二用户数据集和目标数据集的情况下,推算出剩下的一个用户数据集的数据。具体来讲,假设上述目标数据集为上述第一用户数据集,在上述初始时待处理的全部数据中,除去当前的第二用户数据集的数据、历史处理数据和第一用户数据集的数据后,剩下的即为上述第三用户数据集的数据。
为便于描述,上述第二用户数据集的数据为已知,即本申请实施例中需要进行决策、配合第一用户数据集进行数据处理的角色,比如为农民2的手牌,第一用户数据集的数据是农民1(人类玩家)的手牌,第三用户数据集的数据为地主的手牌,注意此处的地主和农民2是不同的AI逻辑。即目前农民2已知自身手牌和其余两玩家的剩余牌数,由于打出的牌也已知,可以利用上述预测网络模型预测,获得地主和农民1中剩余手牌张数较少一方的手牌,进而推算出每方的手牌。
本申请实施例中该模型主要应用于农民角色,一方面由于地主策略网络失误低,另一方面由于农民出牌需考虑配合。
在确定上述第一用户数据集、第二用户数据集和第三用户数据集的数据之后,可以执行步骤403-步骤405。
403、获取数据集的数据,上述数据集包括上述第一用户数据集、第二用户数据集和上述第三用户数据集。
404、根据上述数据集的数据,依据零总和算法生成目标搜索树模型。
405、根据生成得到的上述目标搜索树模型,确定最大节点价值的搜索路径,并执行上述最大节点价值的搜索路径途径的树节点对应的处理方式。
其中,上述步骤403-步骤405可以参考图1所示实施例中步骤101-步骤103的具体描述,此处不再赘述。
本申请实施例通过获取数据集的数据,上述数据集包括第一用户数据集、第二用户数据集和第三用户数据集,根据上述数据集的数据,依据零总和算法生成目标搜索树模型,上述目标搜索树模型由上述第一使用预测网络模型预测目标数据集的数据,获得预测结果,其中,预测结果包括至少一组预测数据和上述至少一组预测数据的概率,上述目标数据集为上述第一用户数据集和上述第三用户数据集中数据个数更少的一个数据集;再根据上述预测结果确定上述第一用户数据集的数据和上述第三用户数据集的数据,之后可以获取数据集的数据,上述数据集包括上述第一用户数据集、第二用户数据集和上述第三用户数据集,根据上述数据集的数据,依据零总和算法生成目标搜索树模型,然后,根据生成得到的上述目标搜索树模型,确定最大节点价值的搜索路径,并执行上述最大节点价值的搜索路径途径的树节点对应的处理方式,可以先对当前局面进行预测,获得各个用户数据集的数据情况,转换为完美信息博弈,再根据已知的数据和可能的数据处理方式进行分析搜索,确定当前场景下的最佳处理方式,使数据处理更加智能、准确,实现数据处理的价值最大化。
图6为本申请实施例提供的又一种基于人工智能的数据处理方法,该方法可包括:
601、在检测到至少一个数据集的数据个数小于或者等于判断阈值的情况下,使用预测网络模型预测目标数据集的数据,获得预测结果,上述预测结果包括至少两组预测数据和上述至少两组预测数据的概率。
上述目标数据集为上述第一用户数据集和上述第三用户数据集中数据个数更少的一个数据集。
其中,上述步骤可以参考图4所示实施例中的步骤401的相关具体描述,此处不再赘述。
在一种可选的实施方式中,上述预测网络模型的训练方法包括:
1、获取待训练数据,上述待训练数据包括多个数据集,上述数据集包括第一数据集、第二数据集、第三数据集和样本历史数据处理信息;
2、将上述第二数据集和上述样本历史数据处理信息作为训练集、上述第一数据集和上述第三数据集作为验证集,对网络模型进行训练,获得上述预测网络模型。
模型训练时,输入信息为基于上述训练集生成的平面特征数据,输出为当前参数模型给出的预测结果(预测值),与样本标签(真值)对比,计算两者误差,作梯度回传,更新参数,通过错误学习正确参数。则在该模型使用时,输入信息为已知信息升成的平面特征数据,输出为当前参数模型给出的预测结果(预测值),具体见前述相关描述,此处不再赘述。
继续以斗地主游戏为例,预测网络模型的训练数据为经典斗地主玩家游戏日志中符合局末要求的数据,包括农民1、农民2和地主各自的手牌,即分别对应上述第一、第二和第三用户数据集的数据,样本历史数据处理信息即为各方已出牌的信息。本申请实施例中的局末指的是:在一局斗地主游戏中,当其余两玩家至少有一人手牌张数小于等于2张时,进入局末开始猜牌;限制张数也有助于猜牌更准确;一局斗地主游戏中,可能不存在局末阶段。
可选的,本申请实施例中的训练数据可以携带样本标签,上述样本标签可以理解为:实际预测玩家手牌,用One-Hot编码将手牌类别转变为133维向量,当前手牌所在类别为1,其余全为0。
举例来讲,假设需要预测对方剩余的2张手牌,为便于说明,限制手牌只包含A,K,Q三种牌。分类模型可考虑的分类为6种:【AA,AK,AQ,KK,KQ,QQ】,如果实际持牌为AK,则训练数据中样本标签是向量[0,1,0,0,0,0]。此时模型有多个类别可分,但样本标签只有一维是1,其余为0。
本申请实施例中的预测网络模型主要针对局末阶段,即比如只猜手牌张数小于等于2张的情况,使预测的准确率较高。也可以扩展猜测张数(即前述判断阈值),但此时模型准确率可能会下降。
可选的,本申请实施例中也可以用多标签模型而不是前述分类模型,可以一次训练多次使用。
具体的,在一种可选的实施方式中,上述多标签模型可考虑如下情况【A,K,Q,AA,KK,QQ】,如果持牌为AK,则训练数据中样本标签是向量[1,1,0,0,0,0];如果持牌为AA,样本标签是向量[0,0,0,1,0,0];持牌AKQ,样本标签是向量[1,1,1,0,0,0];此时模型样本标签可能有多维是1。由上述举例可知,多标签模型由于不限制样本标签中1的个数,可扩展代表更多种手牌组合。
进一步可选的,上述获取待训练数据之前,上述方法还包括:
获取样本数据,上述样本数据包含不同数据类型的数据;
使用目标数据类型的采样阈值,对上述不同数据类型的数据中上述目标数据类型的数据进行采样,将上述采样后的样本数据作为上述待训练数据。
具体的,实际模型训练中,训练数据存在样本不均衡情况,对于获取的样本数据可以根据数据类型分布的区别进行针对性地采样,使得训练数据中各数据类型的样本数接近。
比如前述1单(单张)、1对、2单的样本在样本数据中的分布分别为:57.67%,17.54%,24.79%。单张比例明显过大,且单张可能有助于2单张这种情况的训练,但是使模型偏向预测单张会误导对对子的识别。本申请实施例可以采用均衡采样的优化方案,对单张的样本数据进行采样,上述采样率可以为预设,比如采样率为7936/18461≈0.45。经过采样后的数据进行训练,模型的准确率有所提升。比如如表2所示,预测网络模型测试集top1准确率为75.99%。其中,上述Top n的准确率可以理解为:模型给出前n个预测结果(按照概率从大到小排列)包含真实结果的比率。
表2
602、依据上述概率由大到小对上述至少两组预测数据排序后,获取上述排序中前M组预测数据,上述M为大于1的整数。
可以预先设置上述M,即可以理解为Top n方法中的n,在本申请实施例中表示选取的预测数据数量,选取预测数据中概率更高的前M组数据用于后续搜索。
603、将上述M组预测数据分别作为上述目标数据集中的数据,生成对应的M个目标搜索树模型。
604、基于上述第二用户数据集的数据,分别在上述M个目标搜索树模型中进行节点搜索,获得M个上述第二用户数据集对应的节点价值分布。
其中,上述步骤603和步骤604可以分别参考图1所示实施例中的步骤102和步骤103的具体描述,此处不再赘述。
需要注意的是,此处不是直接执行每个搜索树的上述最大节点价值的搜索路径,而是根据已知的第二用户数据集的数据和上述M组预测数据中的每组数据进行搜索,可以分别获得第二用户数据集对应的节点价值分布。
在一种可选的实施方式中,上述步骤504具体包括:
依据数据组合规则对上述第二用户数据集的数据进行组合,获得至少一组组合数据;
使用上述至少一组组合数据分别在上述M个目标搜索树模型中进行节点搜索,获得M个上述至少一组组合数据对应的节点价值分布作为上述第二用户数据集对应的节点价值分布。
本申请实施例中对于数据的处理还可以预先设置上述数据组合规则,具体的,上述数据处理规则可以理解为限制哪些数据可以进行组合处理,依据该数据组合规则可以对上述第二用户数据集的数据进行组合,获得至少一组组合数据。比如对于斗地主的出牌组合,具体如对3(两个3)或者三带二(三张相同的牌加两张相同的牌)55533等。
再使用上述至少一组组合数据分别在上述M个目标搜索树模型中进行节点搜索,这M个目标搜索树模型中,分别使用的是上述M组预测数据。根据前述已经介绍过的搜索树规则,可以获得对应的M个节点价值分布,该节点价值分布指的是第二用户数据集对应的节点价值分布,具体为第二用户数据集的组合数据的节点价值分布。
605、以上述M组预测数据对应的概率为权重,对上述M个上述第二用户数据集对应的节点价值分布进行加权平均处理,获得上述第二用户数据集对应的目标节点价值分布。
通过使用上述M组预测数据对应的概率为权重,对上述获得的M个节点价值分布进行加权平均处理,可以获得一个目标节点价值分布,是考虑了不同预测数据情况的结果,在获得上述目标节点价值分布之后,可以执行步骤606。
606、对上述目标节点价值分布中的最大节点价值对应的数据进行处理。
上述目标节点价值分布中包括了上述第二用户数据集的组合数据对应的节点价值,可以选择其中最大节点价值对应的数据进行处理,达到数据处理的价值最大化。
为了更清楚地说明上述图6所示实施例中的方法,可以参见图7,图7为一种预测和搜索结合的数据处理流程示意图,是斗地主局末阶段的处理流程。具体的,当前玩家为农民2,对应第二用户数据集的数据为:A,3,6,6,其出牌动作包括[A,3,6,66],对应上述组合数据。上述判断阈值为2,目前地主手牌张数为2张,等于判断阈值,进入局末阶段。调用预测网络模型,预测地主手牌。由前述可知预测网络模型Top3的预测中有近94%的概率包含真实手牌,将前三个预测结果都拿来做搜索,将搜索结果加权平均获得最终的出牌。
具体的,模型给出的前三预测及其概率为:KK,概率0.4801(即地主有48.01%的概率手牌为KK)QQ,概率0.4290;KQ,概率0.0745。分别以这三种预测数据做斗地主Minimax搜索,获得上述节点价值分布,即每个出牌动作的对应搜索结果值。例如第一种可能下的节点价值分布为[-1,1,-1,-1]。再以对应的上述预测数据的概率为权重,对搜索结果加权,得出处理后的出牌动作[A,3,6,66]的价值分布,其中3对应的节点价值最大,则农民二的出牌选择为3。
图8为一种各方法验证结果统计示意图,对于该类场景下的对战胜率情况见下图8。其中“打牌AI”是地主农民均由一般打牌AI担任,自对战的结果,并以此农民胜率为基准胜率。其中猜牌top1和猜牌top三指的是前述预测网络模型预测的结果,具体可以见前述表3的相关描述,Minimax指的是本申请实施例中优化后的目标搜索树模型的搜索方法。第二、第三组数据是以本申请实施例的上述方法优化后AI充当农民角色,与前述打牌AI当地主进行对战,以最终农民胜率为标准衡量方案能力,可以看到本申请实施例中的方案可使AI提高2.1%的胜率。
最后一组数据明牌+Minimax是指进入局末后,符合猜牌条件时,不使用预测网络模型进行预测,当前玩家的决策直接用三家实际手牌进行搜索,相当于预测网络模型给出真值,此结果为本申请实施例中的预测+搜索方案所能达到的最优效果,即上帝视角下,农民胜率为61.05%。
打牌AI是由神经网络用大量人类玩家日志学习而来的,其拟人性较好。可选的,本申请实施例中也可直接用打牌AI预测的出牌动作进行搜索,而不是所有可能出牌动作。比如打牌AI预测的概率最高的前n个出牌动作,n为正整数,n小于全部出牌动作数。举例来讲,使用如图5中所描述的打牌AI模型预测上述农民二的出牌动作top3为出牌动作[66,A,3]。此改进相当于用policy对minimax第一层动作进行剪枝,减少了数据处理量。
下表3为对战2000局后的胜负细节,图9所示为另一种各方法验证结果统计示意图,其中采用打牌AI预测的出牌动作进行搜索。图9相对图8来说,其中的农民胜率更高,可见对于农民决策场景可以使用该方法进行优化处理。
表3
表3中,地主被逆转局数:指在打牌AI方法下地主胜的对局在新方法下被你转为负的局数。农民被逆转局数:指在打牌AI方法下农民胜的对局在新方法下被逆转为负的局数。逆转:优化后实际提升农民胜利的局数。
可见,通过以上优化方法,本申请实施例最终优化后的方案拟人性极大增强,胜率提升明显,接近上帝视角,提高用户体验。
可选的,针对没有成功路径的问题,可以将最终搜索结果分成两个集合:胜利解和非胜利解。对于所有胜利解,可取打牌AI给出概率最大的预测动作做最终决策。若没有胜利解,同样取概率最大的非胜利解,以达到在没有胜利路径时仍能给出相对拟人的出牌。
在一种可选的实施方式中,如果猜牌时机提前,搜索树将过大过深,在有限的计算资源和时间限定内,限制了使用Minimax算法给出搜索结果。即比如上述判断阈值大于3时,可采用其他搜索算法,比如有时间和空间优势的UCT算法。针对不同棋牌游戏规则,可对算法搜索过程进行相应改进,本申请实施例对此不作限制。
图10为一种数据处理的代码示意图,基于图10给出了一例经典对局场景:其中role表示角色,0,1,2分别表示地主,农民一,农民二。图中框选标注的那一行代表:农民一手牌为24567889JKKTT,打出456789,后续农民二和地主由于手中无可以压制的牌,都不出。此时由于地主手牌张数为2,农民一用猜牌模型猜到地主有对K(图中未标识),经过搜索下一步先出8而非对子。后续农民一手中还有2可以压制地主的K。当地主出一张K后,手中仅剩一个单张K,此时农民一开始主动出对子,如KK,TT,让地主无法接牌。最终取得胜利。
本申请实施例通过在检测到至少一个数据集的数据个数小于或者等于判断阈值的情况下,使用预测网络模型预测目标数据集的数据,获得预测结果,上述预测结果包括至少两组预测数据和上述至少两组预测数据的概率,再依据上述概率由大到小对上述至少两组预测数据排序后,获取上述排序中前M组预测数据,上述M为大于1的整数,然后将上述M组预测数据分别作为上述目标数据集中的数据,生成对应的M个目标搜索树模型,基于上述第二用户数据集的数据,分别在上述M个目标搜索树模型中进行节点搜索,获得M个上述第二用户数据集对应的节点价值分布,以上述M组预测数据对应的概率为权重,对上述M个上述第二用户数据集对应的节点价值分布进行加权平均处理,获得上述第二用户数据集对应的目标节点价值分布,对上述目标节点价值分布中的最大节点价值对应的数据进行处理。可以先通过预测网络模型获得多组预测数据及概率,选择其中概率最大的几组,结合第二用户数据集的数据,基于minimax的目标搜索树模型进行搜索,获得节点价值分布,再以选择的几组预测数据的概率概率作为权重,对获得的节点价值分布对应加权然后平均,可以获得综合考量多种概率情况的目标节点价值分布,以确定其中最大节点价值的数据来处理,提高了数据处理的智能性和合理性,在三方博弈中作为AI角色能够提高胜率,使与用户的配合更加人性化。
基于上述基于人工智能的数据处理方法实施例的描述,本申请实施例还公开了一种数据处理装置,上述数据处理装置可以是运行于终端中的一个计算机程序(包括程序代码)。该数据处理装置可以执行图1、图2、图4和/或图6所示的方法。请参见图11,数据处理装置1000包括:获取模块110、生成模块120、搜索模块130和处理模块140,其中:
上述获取模块110,用于获取数据集的数据,上述数据集包括至少三个用户数据集;
上述生成模块120,用于根据上述数据集的数据,依据零总和算法生成目标搜索树模型;
上述搜索模块130,用于根据生成得到的上述目标搜索树模型,确定最大节点价值的搜索路径;上述处理模块140,用于执行上述最大节点价值的搜索路径途径的树节点对应的处理方式。
可选的,上述数据集包括第一用户数据集、第二用户数据集和第三用户数据集;
上述生成模块120,具体用于:
根据上述数据集的数据,依据上述零总和算法生成目标搜索树模型,上述目标搜索树模型由上述第一用户数据集对应的第一MAX节点层、第二用户数据集对应的第二MAX节点层以及上述第三用户数据集对应的MIN节点层交替出现,每个树节点由针对其所在层对应的用户数据集作为处理对象的不同处理方式以及对应的节点价值确定,上述节点价值为对应处理方式下上述第三用户数据集的最终剩余数据个数。
可选的,上述MAX节点层的节点价值为上述MAX节点层的子节点的最大节点价值,上述MIN节点层的节点价值为上述MIN节点层的子节点的最小节点价值。
可选的,上述生成模块120还用于:删除上述目标搜索树模型中的冗余节点,上述冗余节点包括:
上述MAX节点层到上一层MAX节点层的每个搜索路径中,上述节点价值大于上述上一层MAX节点层的节点价值的节点,以及上述MIN节点层到上一层MIN节点层的每个搜索路径中,上述节点价值小于上述上一层MAX节点层的节点价值的节点。
可选的,上述第一用户数据集的数据和上述第三用户数据集的数据未知;上述数据处理装置1000还包括预测模块150,用于:
在上述获取模块110获取数据集的数据之前,使用预测网络模型预测目标数据集的数据,获得预测结果,上述预测结果包括至少一组预测数据和上述至少一组预测数据的概率,上述目标数据集为上述第一用户数据集和上述第三用户数据集中数据个数更少的一个数据集;
根据上述预测结果确定上述第一用户数据集的数据和上述第三用户数据集的数据。
可选的,上述预测模块150具体用于:
在检测到至少一个数据集的数据个数小于或者等于判断阈值的情况下,使用预测网络模型预测上述目标数据集的数据。
可选的,上述预测模块150还具体用于:
根据上述数据集中的已知数据和历史数据处理信息生成平面特征数据,上述平面特征数据用于表示上述数据集中的数据分布;
将上述平面特征数据输入上述预测网络模型进行预测,获得上述至少一组预测数据以及上述至少一组预测数据对应的概率。
可选的,上述预测模块150包括确定单元151,用于:
在上述预测结果包含至少两组预测数据的情况下,将上述预测结果中概率最大的一组预测数据作为上述目标数据集的数据;
根据上述数据集的历史处理数据、上述目标数据集的数据和上述第二用户数据集的数据确定上述数据集中剩余的用户数据集的数据。
可选的,上述数据处理装置1000还包括加权模块160,用于:
在上述预测结果包含至少两组预测数据的情况下,依据上述概率由大到小对上述至少两组预测数据排序后,获取上述排序中前M组预测数据,上述M为大于1的整数;
上述生成模块120具体用于,将上述M组预测数据分别作为上述目标数据集中的数据,生成对应的M个目标搜索树模型;
上述搜索模块130具体用于,基于上述第二用户数据集的数据,分别在上述M个目标搜索树模型中进行节点搜索,获得M个上述第二用户数据集对应的节点价值分布;
上述加权模块160还用于,以上述M组预测数据对应的概率为权重,对上述M个上述第二用户数据集对应的节点价值分布进行加权平均处理,获得上述第二用户数据集对应的目标节点价值分布;
上述处理模块140还用于,对上述目标节点价值分布中的最大节点价值对应的数据进行处理。
可选的,上述搜索模块130具体用于:
依据数据组合规则对上述第二用户数据集的数据进行组合,获得至少一组组合数据;
使用上述至少一组组合数据分别在上述M个目标搜索树模型中进行节点搜索,获得M个上述至少一组组合数据对应的节点价值分布作为上述第二用户数据集对应的节点价值分布。
可选的,上述数据处理装置1000还包括训练模块170,用于训练上述预测网络模型,其中:
上述获取模块110还用于,获取待训练数据,上述待训练数据包括多个数据集,上述数据集包括第一数据集、第二数据集、第三数据集和样本历史数据处理信息;
上述训练模块170具体用于,将上述第二数据集和上述样本历史数据处理信息作为训练集、上述第一数据集和上述第三数据集作为验证集,对网络模型进行训练,获得上述预测网络模型。
可选的,上述训练模块170包括采样单元171,其中,上述获取模块110还用于,在获取待训练数据之前,获取样本数据,上述样本数据包含不同数据类型的数据;
上述采样单元171,用于使用目标数据类型的采样阈值,对上述不同数据类型的数据中上述目标数据类型的数据进行采样,将上述采样后的样本数据作为上述待训练数据。
本申请实施例中的数据处理装置1000,可以通过获取数据集的数据,上述数据集包括至少三个用户数据集,根据上述数据集的数据,依据零总和算法生成目标搜索树模型,再根据生成得到的上述目标搜索树模型,确定最大节点价值的搜索路径,并执行上述最大节点价值的搜索路径途径的树节点对应的处理方式。可以根据已知的数据和可能的数据处理方式进行分析搜索,确定当前场景下的最佳处理方式,实现数据处理的价值最大化。
根据本申请的一个实施例,图1、图2、图4和/或图6所示的方法所涉及的各个步骤均可以是由图11所示的数据处理装置中的各个单元来执行的。
根据本申请的另一个实施例,图11所示的数据处理装置中的各个模块可以分别或全部合并为一个或若干个另外的模块来构成,或者其中的某个(些)模块还可以再拆分为功能上更小的多个模块来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述模块是基于逻辑功能划分的,在实际应用中,一个模块的功能也可以由多个模块来实现,或者多个模块的功能由一个模块实现。在本申请的其它实施例中,基于数据处理装置也可以包括其它模块,在实际应用中,这些功能也可以由其它模块协助实现,并且可以由多个模块协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图1、图2、图4和/或图6中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图10中所示的数据处理装置,以及来实现本申请实施例的基于人工智能的数据处理方法。上述计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
基于上述方法实施例以及装置实施例的描述,本申请实施例还提供一种终端。请参见图12,该终端至少包括处理器610、输入设备620、输出设备630以及计算机存储介质640。其中,终端内的处理器610、输入设备620、输出设备630以及计算机存储介质640可通过总线或其他方式连接。
计算机存储介质640可以存储在终端的存储器中,上述计算机存储介质640用于存储计算机程序,上述计算机程序包括程序指令,上述处理器610用于执行上述计算机存储介质640存储的程序指令。处理器610(或称CPU(Central Processing Unit,中央处理器))是终端的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能;在一个实施例中,本申请实施例上述的处理器610可以用于进行一系列的基于人工智能的数据处理方法,包括:获取数据集的数据,上述数据集包括至少三个用户数据集,根据上述数据集的数据,依据零总和算法生成目标搜索树模型,再根据生成得到的上述目标搜索树模型,确定最大节点价值的搜索路径,并执行上述最大节点价值的搜索路径途径的树节点对应的处理方式,等等。
本申请实施例还提供了一种计算机存储介质(Memory),上述计算机存储介质是终端中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括终端中的内置存储介质,当然也可以包括终端所支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器610加载并执行的一条或多条的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器的计算机存储介质。
在一个实施例中,可由处理器610加载并执行计算机存储介质中存放的一条或多条指令,以实现上述有关数据处理方法实施例中的方法的相应步骤;具体实现中,计算机存储介质中的一条或多条指令可以由处理器610加载并执行如图1、图2、图4和图6所示方法的部分或全部步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,该模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。所显示或讨论的相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者通过该计算机可读存储介质进行传输。该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是只读存储器(read-onlymemory,ROM),或随机存储存储器(random access memory,RAM),或磁性介质,例如,软盘、硬盘、磁带、磁碟、或光介质,例如,数字通用光盘(digital versatile disc,DVD)、或者半导体介质,例如,固态硬盘(solid state disk,SSD)等。

Claims (15)

1.一种基于人工智能的数据处理方法,其特征在于,包括:
获取数据集的数据,所述数据集包括至少三个用户数据集;
根据所述数据集的数据,依据零总和算法生成目标搜索树模型;
根据生成得到的所述目标搜索树模型,确定最大节点价值的搜索路径,并执行所述最大节点价值的搜索路径途径的树节点对应的处理方式。
2.根据权利要求1所述的方法,其特征在于,所述数据集包括第一用户数据集、第二用户数据集和第三用户数据集;
所述根据所述数据集的数据,依据零总和算法生成目标搜索树模型包括:
根据所述数据集的数据,依据所述零总和算法生成目标搜索树模型,所述目标搜索树模型由所述第一用户数据集对应的第一MAX节点层、第二用户数据集对应的第二MAX节点层以及所述第三用户数据集对应的MIN节点层交替出现,每个树节点由针对其所在层对应的用户数据集作为处理对象的不同处理方式以及对应的节点价值确定,所述节点价值为对应处理方式下所述第三用户数据集的最终剩余数据个数。
3.根据权利要求2所述的方法,其特征在于,所述MAX节点层的节点价值为所述MAX节点层的子节点的最大节点价值,所述MIN节点层的节点价值为所述MIN节点层的子节点的最小节点价值。
4.根据权利要求3所述的方法,其特征在于,所述根据生成得到的所述目标搜索树模型,确定最大节点价值的搜索路径之前,所述方法还包括:
删除所述目标搜索树模型中的冗余节点,所述冗余节点包括:
所述MAX节点层到上一层MAX节点层的每个搜索路径中,所述节点价值大于所述上一层MAX节点层的节点价值的节点,以及所述MIN节点层到上一层MIN节点层的每个搜索路径中,所述节点价值小于所述上一层MAX节点层的节点价值的节点。
5.根据权利要求2-4任一项所述的方法,其特征在于,所述第一用户数据集的数据和所述第三用户数据集的数据未知;所述获取数据集的数据之前,所述方法还包括:
使用预测网络模型预测目标数据集的数据,获得预测结果,所述预测结果包括至少一组预测数据和所述至少一组预测数据的概率,所述目标数据集为所述第一用户数据集和所述第三用户数据集中数据个数更少的一个数据集;
根据所述预测结果确定所述第一用户数据集的数据和所述第三用户数据集的数据。
6.根据权利要求5所述的方法,其特征在于,所述使用预测网络模型预测目标数据集的数据包括:
在检测到至少一个数据集的数据个数小于或者等于判断阈值的情况下,使用预测网络模型预测所述目标数据集的数据。
7.根据权利要求6所述的方法,其特征在于,所述使用预测网络模型预测目标数据集的数据,获得预测结果包括:
根据所述数据集中的已知数据和历史数据处理信息生成平面特征数据,所述平面特征数据用于表示所述数据集中的数据分布;
将所述平面特征数据输入所述预测网络模型进行预测,获得所述至少一组预测数据以及所述至少一组预测数据对应的概率。
8.根据权利要求7所述的方法,其特征在于,在所述预测结果包含至少两组预测数据的情况下,所述根据所述预测结果确定所述第一用户数据集的数据和所述第三用户数据集的数据包括:
将所述预测结果中概率最大的一组预测数据作为所述目标数据集的数据;
根据所述数据集的历史处理数据、所述目标数据集的数据和所述第二用户数据集的数据确定所述数据集中剩余的用户数据集的数据。
9.根据权利要求7所述的方法,其特征在于,在所述预测结果包含至少两组预测数据的情况下,所述使用预测网络模型预测目标数据集的数据,获得预测结果之后,所述方法还包括:
依据所述概率由大到小对所述至少两组预测数据排序后,获取所述排序中前M组预测数据,所述M为大于1的整数;
将所述M组预测数据分别作为所述目标数据集中的数据,生成对应的M个目标搜索树模型;
基于所述第二用户数据集的数据,分别在所述M个目标搜索树模型中进行节点搜索,获得M个所述第二用户数据集对应的节点价值分布;
以所述M组预测数据对应的概率为权重,对所述M个所述第二用户数据集对应的节点价值分布进行加权平均处理,获得所述第二用户数据集对应的目标节点价值分布;
所述执行所述最大节点价值的搜索路径途径的树节点对应的处理方式包括:
对所述目标节点价值分布中的最大节点价值对应的数据进行处理。
10.根据权利要求9所述的方法,其特征在于,所述基于所述第二用户数据集的数据,分别在所述M个目标搜索树模型中进行节点搜索,获得M个所述第二用户数据集对应的节点价值分布,包括:
依据数据组合规则对所述第二用户数据集的数据进行组合,获得至少一组组合数据;
使用所述至少一组组合数据分别在所述M个目标搜索树模型中进行节点搜索,获得M个所述至少一组组合数据对应的节点价值分布作为所述第二用户数据集对应的节点价值分布。
11.根据权利要求5所述的方法,其特征在于,所述预测网络模型的训练方法包括:
获取待训练数据,所述待训练数据包括多个数据集,所述数据集包括第一数据集、第二数据集、第三数据集和样本历史数据处理信息;
将所述第二数据集和所述样本历史数据处理信息作为训练集、所述第一数据集和所述第三数据集作为验证集,对网络模型进行训练,获得所述预测网络模型。
12.根据权利要求11所述的方法,其特征在于,所述获取待训练数据之前,所述方法还包括:
获取样本数据,所述样本数据包含不同数据类型的数据;
使用目标数据类型的采样阈值,对所述不同数据类型的数据中所述目标数据类型的数据进行采样,将所述采样后的样本数据作为所述待训练数据。
13.一种数据处理装置,其特征在于,包括:获取模块、生成模块、搜索模块和处理模块,其中:
所述获取模块,用于获取数据集的数据,所述数据集包括至少三个用户数据集;
所述生成模块,用于根据所述数据集的数据,依据零总和算法生成目标搜索树模型;
所述搜索模块,用于根据生成得到的所述目标搜索树模型,确定最大节点价值的搜索路径;所述处理模块,用于执行所述最大节点价值的搜索路径途径的树节点对应的处理方式。
14.一种终端,包括输入设备和输出设备,其特征在于,还包括:
处理器,适于实现一条或多条指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行如权利要求1-12任一项所述的基于人工智能的数据处理方法。
15.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行如权利要求1-12任一项所述的基于人工智能的数据处理方法。
CN201910695006.8A 2019-07-30 2019-07-30 一种基于人工智能的数据处理方法、装置、终端及介质 Pending CN110457534A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910695006.8A CN110457534A (zh) 2019-07-30 2019-07-30 一种基于人工智能的数据处理方法、装置、终端及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910695006.8A CN110457534A (zh) 2019-07-30 2019-07-30 一种基于人工智能的数据处理方法、装置、终端及介质

Publications (1)

Publication Number Publication Date
CN110457534A true CN110457534A (zh) 2019-11-15

Family

ID=68484021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910695006.8A Pending CN110457534A (zh) 2019-07-30 2019-07-30 一种基于人工智能的数据处理方法、装置、终端及介质

Country Status (1)

Country Link
CN (1) CN110457534A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111185010A (zh) * 2019-12-25 2020-05-22 北京理工大学 一种用脉冲神经网络构建斗地主出牌程序的系统与方法
CN111729316A (zh) * 2020-06-15 2020-10-02 北京智明星通科技股份有限公司 一种卡牌对战类游戏中的出牌推荐方法、系统及游戏终端
CN112000821A (zh) * 2020-08-21 2020-11-27 北京达佳互联信息技术有限公司 多媒体信息推送方法、装置、服务器及存储介质
TWI748780B (zh) * 2020-12-02 2021-12-01 明新學校財團法人明新科技大學 暗棋機器人

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426969A (zh) * 2015-08-11 2016-03-23 浙江大学 一种非完备信息的博弈策略生成方法
CN106469317A (zh) * 2016-09-20 2017-03-01 哈尔滨工业大学深圳研究生院 一种基于非完备信息博弈中进行对手建模的方法
CN108985458A (zh) * 2018-07-23 2018-12-11 东北大学 一种序贯同步博弈的双树蒙特卡洛搜索算法
CN109011580A (zh) * 2018-06-29 2018-12-18 腾讯科技(深圳)有限公司 残局牌面获取方法、装置、计算机设备及存储介质
CN109508789A (zh) * 2018-06-01 2019-03-22 北京信息科技大学 预测手牌的方法、存储介质、处理器以及设备
CN109621422A (zh) * 2018-11-26 2019-04-16 腾讯科技(深圳)有限公司 电子棋牌决策模型训练方法及装置、策略生成方法及装置
CN109718558A (zh) * 2017-10-31 2019-05-07 腾讯科技(成都)有限公司 游戏信息的确定方法和装置、存储介质、电子装置
CN109934349A (zh) * 2019-02-25 2019-06-25 重庆邮电大学 一种基于剪枝搜索的简单吃墩博弈求解方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426969A (zh) * 2015-08-11 2016-03-23 浙江大学 一种非完备信息的博弈策略生成方法
CN106469317A (zh) * 2016-09-20 2017-03-01 哈尔滨工业大学深圳研究生院 一种基于非完备信息博弈中进行对手建模的方法
CN109718558A (zh) * 2017-10-31 2019-05-07 腾讯科技(成都)有限公司 游戏信息的确定方法和装置、存储介质、电子装置
CN109508789A (zh) * 2018-06-01 2019-03-22 北京信息科技大学 预测手牌的方法、存储介质、处理器以及设备
CN109011580A (zh) * 2018-06-29 2018-12-18 腾讯科技(深圳)有限公司 残局牌面获取方法、装置、计算机设备及存储介质
CN108985458A (zh) * 2018-07-23 2018-12-11 东北大学 一种序贯同步博弈的双树蒙特卡洛搜索算法
CN109621422A (zh) * 2018-11-26 2019-04-16 腾讯科技(深圳)有限公司 电子棋牌决策模型训练方法及装置、策略生成方法及装置
CN109934349A (zh) * 2019-02-25 2019-06-25 重庆邮电大学 一种基于剪枝搜索的简单吃墩博弈求解方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
STUART J.RUSSELL等: "人工智能:一种现代的方法", vol. 2013, 30 November 2013, 清华大学出版社, pages: 139 - 143 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111185010A (zh) * 2019-12-25 2020-05-22 北京理工大学 一种用脉冲神经网络构建斗地主出牌程序的系统与方法
CN111729316A (zh) * 2020-06-15 2020-10-02 北京智明星通科技股份有限公司 一种卡牌对战类游戏中的出牌推荐方法、系统及游戏终端
CN111729316B (zh) * 2020-06-15 2024-05-17 北京智明星通科技股份有限公司 一种卡牌对战类游戏中的出牌推荐方法、系统及游戏终端
CN112000821A (zh) * 2020-08-21 2020-11-27 北京达佳互联信息技术有限公司 多媒体信息推送方法、装置、服务器及存储介质
CN112000821B (zh) * 2020-08-21 2024-03-26 北京达佳互联信息技术有限公司 多媒体信息推送方法、装置、服务器及存储介质
TWI748780B (zh) * 2020-12-02 2021-12-01 明新學校財團法人明新科技大學 暗棋機器人

Similar Documents

Publication Publication Date Title
CN110457534A (zh) 一种基于人工智能的数据处理方法、装置、终端及介质
Torrado et al. Deep reinforcement learning for general video game ai
CN109091868B (zh) 对战行为确定的方法、装置、计算机设备及存储介质
CN110443284A (zh) Ai模型的训练方法、调用方法、服务器及可读存储介质
CN106469317A (zh) 一种基于非完备信息博弈中进行对手建模的方法
CN107450957A (zh) 游戏配置的处理方法、装置、存储介质、处理器及终端
CN107648853A (zh) 在游戏界面中显示目标对象方法、装置以及存储介质
CN111701240B (zh) 虚拟物品的提示方法、装置、存储介质和电子装置
CN109453524A (zh) 一种对象匹配的方法、模型训练的方法及服务器
Khan et al. Optimal Skipping Rates: Training Agents with Fine‐Grained Control Using Deep Reinforcement Learning
Matraszek et al. Predicting victories in video games-ieee bigdata 2021 cup report
Ward et al. AI solutions for drafting in Magic: the Gathering
Soemers et al. Biasing MCTS with features for general games
Wardaszko et al. Analysis of matchmaking optimization systems potential in mobile eSports
CN108874377B (zh) 一种数据处理方法、装置和存储介质
Panchal et al. Chess moves prediction using deep learning neural networks
Wakatsuki et al. A decision making method based on society of mind theory in multi-player imperfect information games
CN109999497A (zh) 虚拟对象的控制方法和装置、存储介质和电子装置
Li et al. Research on fight the landlords’ single card guessing based on deep learning
Grutzik et al. Predicting outcomes of professional dota 2 matches
Inan et al. An integrated expert system with a supervised machine learning based probabilistic approach to play tic-tac-toe
Cao et al. Research on the DouDiZhu's playing strategy based on XGBoost
Randrianasolo Predicting euro games using an ensemble technique involving genetic algorithms and machine learning
Li et al. Study on the play strategy of dou dizhu poker based on convolution neural network
Rubin et al. Successful performance via decision generalisation in no limit Texas Hold’em

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination