CN110368690A

CN110368690A - 游戏决策模型训练方法、游戏策略生成方法及装置

Info

Publication number: CN110368690A
Application number: CN201910703748.0A
Authority: CN
Inventors: 钟涛
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2019-10-25
Anticipated expiration: 2039-07-31
Also published as: CN110368690B

Abstract

本公开提供了一种游戏决策模型训练方法、游戏策略生成方法、装置、介质及电子设备，涉及人工智能技术领域，并具体涉及机器学习技术。该游戏决策模型训练方法包括：获取游戏局面信息样本以及与游戏局面信息样本相关联的原始游戏策略样本；获取原始游戏策略样本中的各个游戏组件的属性信息，并根据属性信息确定各个游戏组件的组件类型；当原始游戏策略样本中包括基础类游戏组件和更替类游戏组件时，根据基础类游戏组件的属性信息将更替类游戏组件替换为目标游戏组件以得到基础游戏策略样本；利用游戏局面信息样本和基础游戏策略样本对游戏决策模型进行训练。该方法可以缩小游戏决策模型的输出决策空间，提高游戏决策模型的训练效率和训练效果。

Description

游戏决策模型训练方法、游戏策略生成方法及装置

技术领域

本公开涉及人工智能技术领域，并涉及机器学习技术。具体而言，涉及一种基于人工智能的游戏决策模型训练方法、基于人工智能的游戏决策模型训练装置、基于人工智能的游戏策略生成方法、基于人工智能的游戏策略生成装置、计算机可读介质以及电子设备。

背景技术

电子游戏是以手机、电脑等终端设备作为运行平台的游戏，随着计算机和网络通信技术的发展，电子游戏也成为了一种流行的娱乐和休闲工具。

在一些电子游戏中，配置有能够模仿人类游戏行为的游戏机器人，可以帮助用户理解游戏规则或者在游戏过程中为用户提供策略建议，甚至可以作为虚拟玩家参与到游戏进程中与真实的游戏用户进行互动。以棋牌类游戏为例，游戏机器人可以实时分析游戏局面，并可以随时为用户提供出牌建议；另外，当用户需要暂时离开游戏进程时，可以由游戏机器人代为出牌，使得游戏进程可以继续，以免影响其他用户的游戏体验。

然而，现有的游戏机器人一般仅能理解相对较为简单的游戏局面，并遵循基础的游戏规则提供游戏策略。当面对复杂的游戏局面或者复杂的游戏规则时，游戏机器人则难以做出有效的局面分析，自然也很难给出符合人类行为逻辑的合理的游戏策略。因此，如何提高游戏机器人的决策能力是目前亟待解决的问题。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种基于人工智能的游戏决策模型训练方法、基于人工智能的游戏决策模型训练装置、基于人工智能的游戏策略生成方法、基于人工智能的游戏策略生成装置、计算机可读介质以及电子设备，进而至少在一定程度上克服现有的电子游戏中存在的游戏机器人游戏决策能力差的技术问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开实施例的一个方面，提供一种基于人工智能的游戏决策模型训练方法，该方法包括：获取游戏局面信息样本以及与所述游戏局面信息样本相关联的原始游戏策略样本；获取所述原始游戏策略样本中的各个游戏组件的属性信息，并根据所述属性信息确定各个所述游戏组件的组件类型；当所述原始游戏策略样本中包括基础类游戏组件和更替类游戏组件时，根据所述基础类游戏组件的属性信息将所述更替类游戏组件替换为目标游戏组件以得到基础游戏策略样本；利用所述游戏局面信息样本和所述基础游戏策略样本对游戏决策模型进行训练。

根据本公开实施例的一个方面，提供一种基于人工智能的游戏决策模型训练装置，该装置包括：样本获取模块，被配置为获取游戏局面信息样本以及与所述游戏局面信息样本相关联的原始游戏策略样本；组件类型确定模块，被配置为获取所述原始游戏策略样本中的各个游戏组件的属性信息，并根据所述属性信息确定各个所述游戏组件的组件类型；第一组件替换模块，被配置为当所述原始游戏策略样本中包括基础类游戏组件和更替类游戏组件时，根据所述基础类游戏组件的属性信息将所述更替类游戏组件替换为目标游戏组件以得到基础游戏策略样本；模型训练模块，被配置为利用所述游戏局面信息样本和所述基础游戏策略样本对游戏决策模型进行训练。

在本公开的一些实施例中，基于以上技术方案，所述游戏决策模型用于在电子牌类游戏中生成出牌策略。

在本公开的一些实施例中，基于以上技术方案，所述模型训练模块包括：样本确定单元，被配置为根据所述基础游戏策略样本中的各个游戏组件的属性信息确定与所述基础游戏策略样本相对应的组件组合类型样本；模型训练单元，被配置为利用所述游戏局面信息样本和所述组件组合类型样本对游戏决策模型进行训练。

在本公开的一些实施例中，基于以上技术方案，所述样本确定单元包括：维度确定子单元，被配置为根据所述基础游戏策略样本中的各个游戏组件的属性信息确定对应于多个分类维度的维度属性值；样本确定子单元，被配置为根据所述维度属性值与组件组合类型的关联关系确定与所述基础游戏策略样本相对应的组件组合类型样本。

根据本公开实施例的一个方面，提供一种基于人工智能的游戏策略生成方法，该方法包括：获取当前游戏局面信息，并将所述当前游戏局面信息输入至游戏决策模型以得到基础游戏策略；获取所述基础游戏策略中的各个基础类游戏组件的属性信息；根据所述当前游戏局面信息以及所述各个基础类游戏组件的属性信息将所述基础游戏策略中的一个或者多个基础类游戏组件确定为目标游戏组件；将所述基础游戏策略中的所述目标游戏组件替换为更替类游戏组件以得到原始游戏策略。

根据本公开实施例的一个方面，提供一种基于人工智能的游戏策略生成装置，该装置包括：游戏策略获取模块，被配置为获取当前游戏局面信息，并将所述当前游戏局面信息输入至游戏决策模型以得到基础游戏策略；属性信息获取模块，被配置为获取所述基础游戏策略中的各个基础类游戏组件的属性信息；组件确定模块，被配置为根据所述当前游戏局面信息以及所述各个基础类游戏组件的属性信息将所述基础游戏策略中的一个或者多个基础类游戏组件确定为目标游戏组件；第二组件替换模块，被配置为将所述基础游戏策略中的所述目标游戏组件替换为更替类游戏组件以得到原始游戏策略。

在本公开的一些实施例中，基于以上技术方案，所述游戏策略获取模块包括：组合类型获取单元，被配置为将所述当前游戏局面信息输入至游戏决策模型以得到包括一个或者多个游戏组件的组件组合类型；游戏策略获取单元，被配置为根据所述当前游戏局面信息和所述组件组合类型确定基础游戏策略。

根据本公开实施例的一个方面，提供一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如以上各个技术方案中的基于人工智能的游戏决策模型训练方法或者基于人工智能的游戏策略生成方法。

根据本公开实施例的一个方面，提供一种电子设备，该电子设备包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器被配置为经由执行所述可执行指令来执行如以上技术方案中的基于人工智能的游戏决策模型训练方法或者基于人工智能的游戏策略生成方法。

在本公开实施例提供的技术方案中，通过对原始游戏策略样本中的更替类游戏组件进行替换，可以简化游戏组件的组成类型种类，缩小游戏决策模型的输出决策空间，从而能够提高游戏决策模型的训练效率和训练效果，降低训练游戏决策模型的时间成本和计算成本。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示意性地示出了应用本公开技术方案的示例性系统架构示意图；

图2示意性地示出了在本公开的一些实施例中基于人工智能的游戏决策模型训练方法的步骤流程图；

图3示意性地示出了作为训练样本数据来源的一个游戏对局中的出牌局面示意图；

图4示意性地示出了在本公开的一些实施例中基于类型整合进行模型训练的步骤流程图；

图5示意性地示出了在本公开的一些实施例中确定组件组合类型样本的步骤流程图；

图6示意性地示出了在本公开的一些实施例中基于人工智能的游戏策略生成方法的步骤流程图；

图7示意性地示出了在本公开的一些实施例中确定基础游戏策略的步骤流程图；

图8示意性地示出了在本公开一些实施例中的基于人工智能的游戏决策模型训练装置的组成框图；

图9示意性地示出了在本公开一些实施例中的基于人工智能的游戏策略生成装置的组成框图；

图10示意性地示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

在本领域的相关技术中，基于人工智能技术在电子游戏中配置游戏机器人已经成为电子游戏行业的普遍做法，例如，游戏机器人可以在游戏教学环节为用户提供游戏规则的教学和指引，也可以在游戏过程中为用户提供游戏决策建议，另外还可以作为虚拟用户实现人机对战等等。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

通过机器学习对游戏机器人进行训练可以模拟真实人类的游戏决策行为，以便提高游戏机器人的决策能力，使之能够做出符合人类行为逻辑的有效决策。但是，对于一些规则复杂多样的电子游戏而言，即便付出大量的训练时间和训练成本，也仍然难以获得很好的训练效果。

基于以上方案存在的问题，本公开提供了一种基于人工智能的游戏决策模型训练方法、基于人工智能的游戏决策模型训练装置、基于人工智能的游戏策略生成方法、基于人工智能的游戏策略生成装置、计算机可读介质以及电子设备。图1示意性地示出了应用本公开技术方案的示例性系统架构示意图。

如图1所示，系统架构100可以包括客户端110、网络120和服务端130。客户端110可以包括智能手机、平板电脑、笔记本电脑、台式电脑等各种终端设备。服务端130可以包括网络服务器、应用服务器、数据库服务器等各种服务器设备。网络120可以是能够在客户端110和服务端130之间提供通信链路的各种连接类型的通信介质，例如可以是有线通信链路、无线通信链路或者光纤电缆等等。

根据实现需要，本公开实施例中的系统架构可以具有任意数目的客户端、网络和服务端。例如，服务端130可以是由多个服务器设备组成的服务器群组。另外，本公开实施例中的基于人工智能的游戏决策模型训练方法以及基于人工智能的游戏策略生成方法可以应用于客户端110，也可以应用于服务端130，本公开对此不做特殊限定。

下面结合具体实施方式对本公开提供的基于人工智能的游戏决策模型训练方法、基于人工智能的游戏决策模型训练装置、基于人工智能的游戏策略生成方法、基于人工智能的游戏策略生成装置、计算机可读介质以及电子设备做出详细说明。

图2示意性地示出了在本公开的一些实施例中基于人工智能的游戏决策模型训练方法的步骤流程图。如图2所示，该方法主要可以包括以下步骤：

步骤S210.获取游戏局面信息样本以及与游戏局面信息样本相关联的原始游戏策略样本。

为了对游戏决策模型进行训练，本步骤可以采集真实游戏玩家的游戏日志，从中获取游戏数据并整理得到训练样本，训练样本主要由游戏局面信息样本和原始游戏策略样本两部分组成。游戏局面信息样本与游戏对局中的局面情况相关，以电子纸牌类游戏为例，游戏局面信息可以包括当前玩家的手牌信息、其他玩家的出牌信息、其他玩家的手牌数量等等；原始游戏策略样本主要指的是真实游戏玩家在面对当前游戏局面时做出的应对策略，仍以电子纸牌类游戏为例，原始游戏策略可以包括该游戏玩家打出的一张虚拟纸牌或者多张虚拟纸牌的组合。

步骤S220.获取原始游戏策略样本中的各个游戏组件的属性信息，并根据属性信息确定各个游戏组件的组件类型。

原始游戏策略样本是由一个或者多个游戏组件组成的组合样本，而每一个游戏组件又具有其自身固有的属性信息。本公开实施例可以预先建立游戏组件的属性信息与组件类型之间的映射关系，从而可以根据各个游戏组件的属性信息确定其组件类型。例如在电子纸牌类游戏中，每一张虚拟纸牌便代表一个游戏组件，而每张虚拟纸牌的牌面信息即代表其属性信息，根据牌面信息的不同可以将各个虚拟纸牌划分为不同的纸牌类型。

步骤S230.当原始游戏策略样本中包括基础类游戏组件和更替类游戏组件时，根据基础类游戏组件的属性信息将更替类游戏组件替换为目标游戏组件以得到基础游戏策略样本。

本公开实施例中的游戏组件的组件类型可以分为基础类游戏组件和更替类游戏组件两种，本步骤根据原始游戏策略样本中的基础类游戏组件的属性信息可以确定一个或者多个目标游戏组件，目标游戏组件是一种具有特定属性信息的基础类游戏组件。在将该原始游戏策略样本中的更替类游戏组件替换为目标游戏组件后，可以得到完全由基础类游戏组件组成的基础游戏策略样本。

步骤S240.利用游戏局面信息样本和基础游戏策略样本对游戏决策模型进行训练。

经过以上步骤可以简化原始游戏策略样本中的游戏组件的组成类型，获得仅由基础类游戏组件组成的基础游戏策略样本。根据游戏局面信息样本与基础游戏策略样本之间的关联关系，将游戏局面信息样本作为输入样本并将基础游戏策略样本作为输出目标，以对游戏决策模型进行训练。在训练过程中，将游戏局面信息样本输入至游戏决策模型中可以得到游戏决策模型输出的游戏决策结果，通过计算游戏决策结果与基础游戏策略样本之间的差异度，可以根据该差异度对游戏决策模型进行参数更新，以提高游戏决策模型输出基础游戏策略样本的能力。

在本公开实施例提供的基于人工智能的游戏决策模型训练方法中，通过对原始游戏策略样本中的更替类游戏组件进行替换，可以简化游戏组件的组成类型种类，缩小游戏决策模型的输出决策空间，从而能够提高游戏决策模型的训练效率和训练效果，降低训练游戏决策模型的时间成本和计算成本。

在本公开的一些实施例中，训练得到的游戏决策模型可以用于在电子牌类游戏中生成出牌策略。

以一种纸牌类游戏“火拼双扣”为例，作为游戏组件的虚拟纸牌包括有3、4、5、6、7、8、9、10、J、Q、K、A、2以及Black Joker和Red Joker多种牌面属性。游戏玩家出牌的牌型有单张，对子，连对，三张，连三张，顺子以及各种炸弹。除此以外，当Black Joker或者Red Joker与其他牌型一起打出时，可以被看做是任意一张满足牌型需要的万能牌，即俗称的“癞子牌”。正是由于“癞子牌”的存在，游戏玩家在游戏对局中打出的牌型组合将千变万化。如果以实际打出的牌型组合作为游戏决策模型的输出决策空间包含的分类标准，那么分类的种类数量会非常庞大，这也进一步导致了游戏决策模型拟合能力下降、决策效果不佳等问题。

在本公开实施例中，可以将Black Joker和Red Joker两种虚拟纸牌作为更替类游戏组件，而将除这两种虚拟纸牌以外的具有其他牌面属性的虚拟纸牌作为基础类游戏组件，通过将原始游戏策略样本中的更替类游戏组件替换为属于基础类游戏组件的目标游戏组件，可以极大地减少牌型组合种类数量，缩小游戏决策模型的输出决策空间。举例而言，图3示意性地示出了作为训练样本数据来源的一个游戏对局中的出牌局面示意图。如图3所示，位于图中下方的“玩家二”打出的牌型组合为【Red Joker，3，3，3】，该牌型组合可以作为原始游戏策略样本。将其中的牌面属性为Red Joker的虚拟纸牌替换为牌面属性为3的虚拟纸牌以得到新的牌型组合【3，3，3，3】，该排序组合作为仅包含基础类游戏组件的基础游戏策略样本。以基础游戏策略样本对游戏策略模型进行训练，在游戏策略模型的输出决策空间中，也仅包含由基础类游戏组件构成的牌型组合，其牌型组合的种类数量大大减少，因而能够提高模型拟合能力。

在本公开的一些实施例中，游戏决策模型可以选用CNN(Convolutional NeuralNetworks)模型，也即卷积神经网络模型。卷积神经网络模型的基本组件包括卷积层、线性整流层、池化层以及全连接层；其中卷积层、线性整流层、池化层可组成一个卷积块，而多个卷积块连接多个全连接层则形成卷积神经网络结构。在本公开的其他一些实施例中，游戏决策模型也可以选用如RNN(Recurrent Neural Network，循环神经网络)模型、DNN(DeepNeural Network)模型、随机森林模型、SVM(Support Vector Machine，支持向量机)模型等其他各种类型的机器学习模型框架，且本公开并不以此为限。

在替换游戏组件的基础上，为了进一步缩小游戏决策模型的输出决策空间，可以继续对多种游戏组件的组合形式做类型整合，将特征相似的游戏组件组合形式归类至同一种组件组合类型。图4示意性地示出了在本公开的一些实施例中基于类型整合进行模型训练的步骤流程图。如图4所示，在以上各实施例的基础上，步骤S240.利用游戏局面信息样本和基础游戏策略样本对游戏决策模型进行训练，可以进一步包括以下步骤：

步骤S410.根据基础游戏策略样本中的各个游戏组件的属性信息确定与基础游戏策略样本相对应的组件组合类型样本。

以纸牌类游戏为例，在“千变双扣”游戏中，炸弹的种类十分繁多，例如可以包括X相炸弹、X相Y连环炸弹、Z相Y连环炸弹等。针对这种由具有明确分类特征的牌型组合形成的基础游戏策略样本，可以将其关联至与之相对应的组件组合类型样本。例如牌型组合【3，3，3，3，3，3】以及牌型组合【5，5，5，5，5，5】中的各个虚拟纸牌虽然具有不同的牌面属性，但是二者可以共同被归类至X相炸弹，即多种基础游戏策略样本可以对应于同一个组件组合类型样本，从而能够减少样本种类的数量。

步骤S420.利用游戏局面信息样本和组件组合类型样本对游戏决策模型进行训练。

将游戏局面信息样本作为输入样本并将组件组合类型样本作为输出目标，以对游戏决策模型进行训练。在训练过程中，将游戏局面信息样本输入至游戏决策模型中可以得到游戏决策模型输出的游戏决策结果，通过计算游戏决策结果与组件组合类型样本之间的差异度，可以根据该差异度对游戏决策模型进行参数更新，以提高游戏决策模型输出组件组合类型样本的能力。

为了对基础游戏策略样本进行分类以确定对应的组件组合类型样本，可以预先设定多个分类维度。图5示意性地示出了在本公开的一些实施例中确定组件组合类型样本的步骤流程图。如图5所示，在以上各实施例的基础上，步骤S410.根据基础游戏策略样本中的各个游戏组件的属性信息确定与基础游戏策略样本相对应的组件组合类型样本，可以进一步包括以下步骤：

步骤S510.根据基础游戏策略样本中的各个游戏组件的属性信息确定对应于多个分类维度的维度属性值；

步骤S520.根据维度属性值与组件组合类型的关联关系确定与基础游戏策略样本相对应的组件组合类型样本。

仍以纸牌类游戏为例，针对“千变双扣”游戏中的X相炸弹、X相Y连环炸弹、Z相Y连环炸弹等牌型组合的相关类型，可以确定“相”、“连环”和“星级”等多个分类维度，根据牌型组合中各个虚拟纸牌的牌面属性可以确定各个分类维度的维度属性值。例如，牌型组合【7，7，7，7，7，8，8，8，8，8，9，9，9，9，9】的相数为5、连环数为3、星级为5+3＝8，由此可以确定该牌型组合为5相3连环炸弹。

在游戏组件替换的基础上根据分类维度进行组件组合类型样本的分类，可以进一步压缩游戏决策模型的输出决策空间，进而获得更好的模型预测效果。

利用以上各实施例提供的基于人工智能的游戏决策模型训练方法，可以训练得到用于为游戏用户提供游戏策略的游戏决策模型。然而，该游戏决策模型直接输出的是对更替型游戏组件进行替换后的游戏策略，而非真实可用的游戏策略。因此，在游戏决策模型输出结果的基础上还需要对其进行后处理，以便能够还原得到真实可用的游戏策略。

图6示意性地示出了在本公开的一些实施例中基于人工智能的游戏策略生成方法的步骤流程图。如图6所示，该方法主要可以包括以下步骤：

步骤S610.获取当前游戏局面信息，并将当前游戏局面信息输入至游戏决策模型以得到基础游戏策略。

当使用游戏决策模型进行智能决策时，首先需要获取在当前时刻的游戏对局中的当前游戏局面信息，然后将该当前游戏局面信息输入至游戏决策模型中可以得到由游戏决策模型输出的基础游戏策略。以电子纸牌类游戏为例，游戏局面信息可以包括当前玩家的手牌信息、其他玩家的出牌信息、其他玩家的手牌数量等等。游戏决策模型输出的基础游戏策略是由一个或者多个基础类游戏组件组成的游戏组件组合。

步骤S620.获取基础游戏策略中的各个基础类游戏组件的属性信息。

针对游戏策略模型输出的基础游戏策略，本步骤可以获取该基础游戏策略中各个基础类游戏组件的属性信息。例如，在电子纸牌类游戏中，每一张虚拟纸牌便代表一个游戏组件，而每张虚拟纸牌的牌面信息即代表其属性信息，根据牌面信息的不同可以将各个虚拟纸牌划分为不同的纸牌类型，基础类游戏组件即为其中一种纸牌类型。

步骤S630.根据当前游戏局面信息以及各个基础类游戏组件的属性信息将基础游戏策略中的一个或者多个基础类游戏组件确定为目标游戏组件。

根据当前游戏局面信息可以确定当前游戏玩家在进行游戏决策时可供选择的游戏组件的属性信息以及具有相同或者不同属性信息的游戏组件的数量，这些可供选择的游戏组件可以组成一个待选组件集合。通过将待选组件集合中的游戏组件的属性信息与基础游戏策略中的各个基础类游戏组件的属性信息进行比较，可以判断由待选组件集合中的基础类游戏组件是否能够组合得到该基础游戏策略。如果无法满足组合条件，则需要在基础游戏策略中确定一个或者多个需要进行替换的目标游戏组件。举例而言，基础游戏策略是由五个属性信息相同的游戏组件构成的组件组合，例如其属性信息均为M。而待选组件集合中仅有四个属性信息为M的可选游戏组件，在这种情况下，便需要将基础游戏策略所包含的其中一个游戏组件确定为目标游戏组件。

步骤S640.将基础游戏策略中的目标游戏组件替换为更替类游戏组件以得到原始游戏策略。

由以上步骤可知，目标游戏组件是游戏策略模型预测可选而在真实的当前游戏局面下不可选的游戏组件，即待选组件集合中不存在该目标游戏组件。据此可以判断该目标游戏组件是由待选组件集合中的更替类游戏组件替换而来的，因此本步骤可以对其做还原处理，亦即将该目标游戏组件替换为更替类游戏组件，从而可以得到由基础类游戏组件和更替类游戏组件共同构成的原始游戏策略，该原始游戏策略即为当前游戏局面下真实可用的有效游戏策略。

举例而言，在电子纸牌类游戏中，游戏决策模型给出的一种基础游戏策略是牌型组合【8，8，8，8】，而当前游戏玩家的手牌中仅有三个牌面信息为8的虚拟纸牌，同时当前游戏玩家的手牌中还有一个或者多个牌面信息为Black Joker的虚拟纸牌。在这种情况下，通过执行本公开实施例提供的游戏策略生成方法，可以将牌型组合【8，8，8，8】中的一个牌面信息为8的虚拟纸牌替换为牌面信息为Black Joker的虚拟纸牌，从而得到牌型组合【BlackJoker，8，8，8】，该牌型组合便是游戏玩家可以实际打出的原始游戏策略。

如以上实施例所述，为了缩小游戏决策模型的输出决策空间，游戏决策模型直接输出的结果可能是对用多种组件组合形式的一种组件组合类型。在此基础上，还需要分析该组件组合类型以及当前局面信息才能得到基础游戏策略。图7示意性地示出了在本公开的一些实施例中确定基础游戏策略的步骤流程图。如图7所示，在以上各实施例的基础上，步骤S610中的将当前游戏局面信息输入至游戏决策模型以得到基础游戏策略，可以进一步包括以下步骤：

步骤S710.将当前游戏局面信息输入至游戏决策模型以得到包括一个或者多个游戏组件的组件组合类型；

步骤S720.根据当前游戏局面信息和组件组合类型确定基础游戏策略。

以电子纸牌类游戏“千变双扣”为例，在将当前游戏局面信息输入至游戏决策模型后，得到的组件组合类型可能是5相3连环炸弹，那么此时需要对当前游戏玩家的手牌信息进行分析，判断哪些手牌组合可以形成5相3连环炸弹，然后根据判断结果形成基础游戏决策，最后再将其中的一张或者多张属于基础游戏组件的虚拟纸牌还原为属于更替类游戏组件的虚拟纸牌。

在本公开实施例提供的技术方案中，采用经过替换处理的训练数据对游戏决策模型进行训练，可以缩小游戏决策模型的输出决策空间，降低训练时间和训练成本。与此同时，在使用游戏决策模型时，再对游戏决策模型的输出结果进行还原，从而得到真实可用的有效的游戏决策。

应当注意，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

以下介绍本公开的装置实施例，可以用于执行本公开上述实施例中的页面数据的验证方法。对于本公开装置实施例中未披露的细节，请参照本公开上述的页面数据的验证方法的实施例。

图8示意性地示出了在本公开一些实施例中的基于人工智能的游戏决策模型训练装置的组成框图。如图8所示，游戏决策模型训练装置800主要可以包括：样本获取模块810、组件类型确定模块820、第一组件替换模块830和模型训练模块840。

样本获取模块810被配置为获取游戏局面信息样本以及与游戏局面信息样本相关联的原始游戏策略样本；组件类型确定模块820被配置为获取原始游戏策略样本中的各个游戏组件的属性信息，并根据属性信息确定各个游戏组件的组件类型；第一组件替换模块830被配置为当原始游戏策略样本中包括基础类游戏组件和更替类游戏组件时，根据基础类游戏组件的属性信息将更替类游戏组件替换为目标游戏组件以得到基础游戏策略样本；模型训练模块840被配置为利用游戏局面信息样本和基础游戏策略样本对游戏决策模型进行训练。

在本公开的一些实施例中，基于以上各实施例，游戏决策模型用于在电子牌类游戏中生成出牌策略。

在本公开的一些实施例中，基于以上各实施例，模型训练模块包括：样本确定单元，被配置为根据基础游戏策略样本中的各个游戏组件的属性信息确定与基础游戏策略样本相对应的组件组合类型样本；模型训练单元，被配置为利用游戏局面信息样本和组件组合类型样本对游戏决策模型进行训练。

在本公开的一些实施例中，基于以上各实施例，样本确定单元包括：维度确定子单元，被配置为根据基础游戏策略样本中的各个游戏组件的属性信息确定对应于多个分类维度的维度属性值；样本确定子单元，被配置为根据维度属性值与组件组合类型的关联关系确定与基础游戏策略样本相对应的组件组合类型样本。

图9示意性地示出了在本公开一些实施例中的基于人工智能的游戏策略生成装置的组成框图。如图9所示，游戏策略生成装置900主要可以包括：游戏策略获取模块910、属性信息获取模块920、组件确定模块930和第二组件替换模块940。

游戏策略获取模块910被配置为获取当前游戏局面信息，并将当前游戏局面信息输入至游戏决策模型以得到基础游戏策略；属性信息获取模块920被配置为获取基础游戏策略中的各个基础类游戏组件的属性信息；组件确定模块930被配置为根据当前游戏局面信息以及各个基础类游戏组件的属性信息将基础游戏策略中的一个或者多个基础类游戏组件确定为目标游戏组件；第二组件替换模块940被配置为将基础游戏策略中的目标游戏组件替换为更替类游戏组件以得到原始游戏策略。

在本公开的一些实施例中，基于以上各实施例，游戏策略获取模块包括：组合类型获取单元，被配置为将当前游戏局面信息输入至游戏决策模型以得到包括一个或者多个游戏组件的组件组合类型；游戏策略获取单元，被配置为根据当前游戏局面信息和组件组合类型确定基础游戏策略。

本公开各实施例中提供的基于人工智能的游戏决策模型训练装置和基于人工智能的游戏策略生成装置的具体细节已经在对应的方法实施例中进行了详细的描述，因此此处不再赘述。

需要说明的是，图10示出的电子设备的计算机系统1000仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图10所示，计算机系统1000包括中央处理单元(Central Processing Unit，CPU)1001，其可以根据存储在只读存储器(Read-Only Memory，ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(Random Access Memory，RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中，还存储有系统操作所需的各种程序和数据。CPU1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(Input/Output，I/O)接口1005也连接至总线1004。

以下部件连接至I/O接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN(Local AreaNetwork，局域网)卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

特别地，根据本公开的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本公开实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种基于人工智能的游戏决策模型训练方法，其特征在于，包括：

获取游戏局面信息样本以及与所述游戏局面信息样本相关联的原始游戏策略样本；

获取所述原始游戏策略样本中的各个游戏组件的属性信息，并根据所述属性信息确定各个所述游戏组件的组件类型；

当所述原始游戏策略样本中包括基础类游戏组件和更替类游戏组件时，根据所述基础类游戏组件的属性信息将所述更替类游戏组件替换为目标游戏组件以得到基础游戏策略样本；

利用所述游戏局面信息样本和所述基础游戏策略样本对游戏决策模型进行训练。

2.根据权利要求1所述的基于人工智能的游戏决策模型训练方法，其特征在于，所述游戏决策模型用于在电子牌类游戏中生成出牌策略。

3.根据权利要求1所述的基于人工智能的游戏决策模型训练方法，其特征在于，利用所述游戏局面信息样本和所述基础游戏策略样本对游戏决策模型进行训练，包括：

根据所述基础游戏策略样本中的各个游戏组件的属性信息确定与所述基础游戏策略样本相对应的组件组合类型样本；

利用所述游戏局面信息样本和所述组件组合类型样本对游戏决策模型进行训练。

4.根据权利要求3所述的基于人工智能的游戏决策模型训练方法，其特征在于，所述根据所述基础游戏策略样本中的各个游戏组件的属性信息确定与所述基础游戏策略样本相对应的组件组合类型样本，包括：

根据所述基础游戏策略样本中的各个游戏组件的属性信息确定对应于多个分类维度的维度属性值；

根据所述维度属性值与组件组合类型的关联关系确定与所述基础游戏策略样本相对应的组件组合类型样本。

5.一种基于人工智能的游戏策略生成方法，其特征在于，包括：

获取当前游戏局面信息，并将所述当前游戏局面信息输入至游戏决策模型以得到基础游戏策略；

获取所述基础游戏策略中的各个基础类游戏组件的属性信息；

根据所述当前游戏局面信息以及所述各个基础类游戏组件的属性信息将所述基础游戏策略中的一个或者多个基础类游戏组件确定为目标游戏组件；

将所述基础游戏策略中的所述目标游戏组件替换为更替类游戏组件以得到原始游戏策略。

6.根据权利要求5所述的基于人工智能的游戏策略生成方法，其特征在于，所述将所述当前游戏局面信息输入至游戏决策模型以得到基础游戏策略，包括：

将所述当前游戏局面信息输入至游戏决策模型以得到包括一个或者多个游戏组件的组件组合类型；

根据所述当前游戏局面信息和所述组件组合类型确定基础游戏策略。

7.一种基于人工智能的游戏决策模型训练装置，其特征在于，包括：

样本获取模块，被配置为获取游戏局面信息样本以及与所述游戏局面信息样本相关联的原始游戏策略样本；

组件类型确定模块，被配置为获取所述原始游戏策略样本中的各个游戏组件的属性信息，并根据所述属性信息确定各个所述游戏组件的组件类型；

第一组件替换模块，被配置为当所述原始游戏策略样本中包括基础类游戏组件和更替类游戏组件时，根据所述基础类游戏组件的属性信息将所述更替类游戏组件替换为目标游戏组件以得到基础游戏策略样本；

模型训练模块，被配置为利用所述游戏局面信息样本和所述基础游戏策略样本对游戏决策模型进行训练。

8.一种基于人工智能的游戏策略生成装置，其特征在于，包括：

游戏策略获取模块，被配置为获取当前游戏局面信息，并将所述当前游戏局面信息输入至游戏决策模型以得到基础游戏策略；

属性信息获取模块，被配置为获取所述基础游戏策略中的各个基础类游戏组件的属性信息；

组件确定模块，被配置为根据所述当前游戏局面信息以及所述各个基础类游戏组件的属性信息将所述基础游戏策略中的一个或者多个基础类游戏组件确定为目标游戏组件；

第二组件替换模块，被配置为将所述基础游戏策略中的所述目标游戏组件替换为更替类游戏组件以得到原始游戏策略。

9.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法。

10.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至6中任一项所述的方法。