CN110598182A - 一种信息预测的方法及相关设备 - Google Patents
一种信息预测的方法及相关设备 Download PDFInfo
- Publication number
- CN110598182A CN110598182A CN201910860025.1A CN201910860025A CN110598182A CN 110598182 A CN110598182 A CN 110598182A CN 201910860025 A CN201910860025 A CN 201910860025A CN 110598182 A CN110598182 A CN 110598182A
- Authority
- CN
- China
- Prior art keywords
- card information
- information set
- information
- brand
- card
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F1/00—Card games
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/55—Controlling game characters or game objects based on the game progress
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/80—Special adaptations for executing a specific game genre or game mode
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F1/00—Card games
- A63F2001/008—Card games adapted for being playable on a screen
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F2300/00—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
- A63F2300/60—Methods for processing data by generating or executing the game program
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F2300/00—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
- A63F2300/80—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game specially adapted for executing a specific type of game
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Pure & Applied Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Algebra (AREA)
- Operations Research (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供了一种信息预测的方法及相关设备,可以确定更加准确的牌面信息预测结果,减少预测失误,提升用户体验。该方法包括:获取第一牌面信息集合以及第二牌面信息集合;根据所述第一牌面信息集合以及所述第二牌面信息集合确定第二对象的牌面信息概率分布,其中,所述牌面信息概率分布包括N个第三牌面信息集合所对应的概率值,每个概率值对应一个第三牌面信息集合,所述第三牌面信息集合与所述第二对象具有对应关系,所述N为大于或等于1的整数;根据所述第一牌面信息集合以及所述第二对象的牌面信息概率分布,确定N个搜索结果;根据所述N个搜索结果生成牌面信息预测结果。
Description
技术领域
本申请涉及人工智能领域,尤其涉及一种信息预测的方法及相关设备。
背景技术
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
当前牌类游戏在线人工智能(Artificial Intelligence,AI),大部分还是决策树,智能程度低,少部分应用了监督学习的方法,局限于数据本身,无法达到较高水平;而比赛AI上,在二人德州扑克上有冷扑大师和Deepstack,受制于非完美信息的难点,这两种方法仅仅在二人德州扑克上取得了比较好的效果,根本无法大规模应用,也不能够在多人的牌类游戏中取得较高水平。
但是基于决策树的AI会输出多个相同的预测结果,从而需要从这些相同的预测结果中随机选择一个结果作为出牌结果,导致智能程度低,容易出现决策失误。
发明内容
本申请提供了一种信息预测的方法及相关设备,可以确定更加准确的牌面信息预测结果,减少预测失误,提升用户体验。
本申请实施例第一方面提供一种信息预测的方法,所述方法包括:
获取第一牌面信息集合以及第二牌面信息集合,其中,所述第一牌面信息集合与第一对象具有对应关系,所述第二牌面信息集合与所述第一对象和/或至少一个第二对象具有对应关系,所述第一牌面信息集合以及所述第二牌面信息集合均包括多个牌面信息;
根据所述第一牌面信息集合以及所述第二牌面信息集合确定第二对象的牌面信息概率分布,其中,所述牌面信息概率分布包括N个第三牌面信息集合所对应的概率值,每个概率值对应一个第三牌面信息集合,所述第三牌面信息集合与所述第二对象具有对应关系,所述N为大于或等于1的整数;
根据所述第一牌面信息集合以及所述第二对象的牌面信息概率分布,确定N个搜索结果;
根据所述N个搜索结果生成牌面信息预测结果。
可选地,所述根据所述第一牌面信息集合以及所述第二对象的牌面信息概率分布,确定N个搜索结果包括:
步骤1)确定第一目标牌面信息集合,所述第一目标牌面信息集合为所述N个第三牌面信息集合中的任意一个牌面信息集合;
步骤2)根据第一牌面信息以及所述第一目标牌面信息集合确定一个搜索结果,所述第一牌面信息为所述第一牌面信息集合中的任意一个牌面信息,所述搜索结果包括所述第一牌面信息对应的价值;
重复执行步骤1)和步骤2),直至所述N个第三牌面信息集合中的所有牌面信息集合搜索完毕,得到所述N个搜索结果。
可选地,所述根据所述N个搜索结果生成牌面信息预测结果,包括:
根据所述N个搜索结果以及所述N个第三牌面信息集合确定N个决策参数;
从所述N个决策参数中确定最大决策参数;
将所述最大决策参数所对应的搜索结果确定为所述牌面预测结果;
根据所述N个搜索结果与所述N个第三牌面信息集合确定N个决策参数,包括:
采用如下方式计算所述决策参数:
Q=A*X1+A*X2+…+A*Xn;
其中,所述Q表示所述决策参数,所述A表示所述第一牌面信息对应的搜索结果,所述X1至所述Xn表示所述第三牌面信息集合中各个牌面信息集合的概率值。
可选地,所述根据所述第一牌面信息集合以及所述第二牌面信息集合确定所述第二对象的牌面信息概率分布之后,所述方法还包括:
根据所述N个第三牌面信息集合以及所述第一牌面信息集合确定N个第四牌面信息集合;
所述根据所述第一牌面信息集合以及所述第二对象的牌面信息概率分布,确定N个搜索结果包括:
步骤1)确定第二目标牌面信息集合以及第三目标牌面信息集合,所述第二目标牌面信息集合为所述N个第三牌面信息集合中的任意一个牌面信息集合,所述第三目标牌面信息集合为所述N个第四牌面信息集合中的任意一个牌面信息集合;
步骤2)根据第二牌面信息、所述第二目标牌面信息集合以及所述第三目标牌面信息集合确定一个搜索结果,所述第二牌面信息为所述第一牌面信息集合中的任意一个牌面信息,所述搜索结果包括所述第二牌面信息对应的访问路径以及所述第二牌面信息对应的访问路径的价值,所述访问路径为所述第二牌面信息在所述第二目标牌面信息集合以及所述第三目标牌面信息集合中的搜索路径。
重复执行步骤1)和步骤2),直至达到预设重复次数,得到所述N个搜索结果。
可选地,所述根据所述N个搜索结果生成牌面信息预测结果包括:
确定所述N个搜索结果中访问路径的价值最大的搜索结果;
将所述访问路径的价值最大的搜索结果确定为所述牌面信息预测结果。
可选地,所述根据所述第一牌面信息集合以及所述第二牌面信息集合确定第二对象的牌面信息概率分布包括:
将所述第一牌面信息集合以及所述第二牌面信息集合输入牌面信息预测模型,得到所述第二对象的牌面信息概率分布,所述牌面信息预测模型为通过神经网络对训练语料进行训练得到的,所述训练语料包括多个对象的牌面信息集合以及与所述多个对象的牌面信息集合对应的牌面信息概率分布。
可选地,所述方法应用于信息预测的装置,所述信息预测的装置部署于区块链中的区块节点设备。
本申请实施例第二方面提供了一种牌面信息预测的方法,包括:
获取第一牌面信息集合,其中,所述第一牌面信息集合与第一对象具有对应关系,所述第一牌面信息集合包括多个牌面信息;
根据所述第一牌面信息集合确定第二对象的牌面信息概率分布,其中,所述牌面信息概率分布包括N个第二牌面信息集合所对应的概率值,每个概率值对应一个第二牌面信息集合,所述第二牌面信息集合与所述第二对象具有对应关系,所述N为大于或等于1的整数;
根据所述第一牌面信息集合以及所述第二对象的牌面信息概率分布,确定N个搜索结果;
根据所述N个搜索结果生成牌面信息预测结果。
本申请实施例第三方面提供了一种信息预测的装置,包括:
获取单元,用于获取第一牌面信息集合以及第二牌面信息集合,其中,所述第一牌面信息集合与第一对象具有对应关系,所述第二牌面信息集合与所述第一对象和/或至少一个第二对象具有对应关系,所述第一牌面信息集合以及所述第二牌面信息集合均包括多个牌面信息;
第一确定单元,用于根据所述第一牌面信息集合以及所述第二牌面信息集合确定第二对象的牌面信息概率分布,其中,所述牌面信息概率分布包括N个第三牌面信息集合所对应的概率值,每个概率值对应一个第三牌面信息集合,所述第三牌面信息集合与所述第二对象具有对应关系,所述N为大于或等于1的整数;
第二确定单元,用于根据所述第一牌面信息集合以及所述第二对象的牌面信息概率分布,确定N个搜索结果;
生成单元,用于根据所述N个搜索结果生成牌面信息预测结果。
可选地,所述第二确定单元具体用于:
步骤1)确定第一目标牌面信息集合,所述第一目标牌面信息集合为所述N个第三牌面信息集合中的任意一个牌面信息集合;
步骤2)根据第一牌面信息以及所述第一目标牌面信息集合确定一个搜索结果,所述第一牌面信息为所述第一牌面信息集合中的任意一个牌面信息,所述搜索结果包括所述第一牌面信息对应的价值;
重复执行步骤1)和步骤2),直至所述N个第三牌面信息集合中的所有牌面信息集合搜索完毕,得到所述N个搜索结果。
可选地,所述生成单元具体用于:
根据所述N个搜索结果以及所述N个第三牌面信息集合确定N个决策参数;
从所述N个决策参数中确定最大决策参数;
将所述最大决策参数所对应的搜索结果确定为所述牌面预测结果;
根据所述N个搜索结果与所述N个第三牌面信息集合确定N个决策参数,包括:
采用如下方式计算所述决策参数:
Q=A*X1+A*X2+…+A*Xn;
其中,所述Q表示所述决策参数,所述A表示所述第一牌面信息对应的搜索结果,所述X1至所述Xn表示所述第三牌面信息集合中各个牌面信息集合的概率值。
可选地,所述信息预测的装置还包括:
第三确定单元,用于根据所述N个第三牌面信息集合以及所述第一牌面信息集合确定N个第四牌面信息集合;
所述第二确定单元还具体用于:
步骤1)确定第二目标牌面信息集合以及第三目标牌面信息集合,所述第二目标牌面信息集合为所述N个第三牌面信息集合中的任意一个牌面信息集合,所述第三目标牌面信息集合为所述N个第四牌面信息集合中的任意一个牌面信息集合;
步骤2)根据第二牌面信息、所述第二目标牌面信息集合以及所述第三目标牌面信息集合确定一个搜索结果,所述第二牌面信息为所述第一牌面信息集合中的任意一个牌面信息,所述搜索结果包括所述第二牌面信息对应的访问路径以及所述第二牌面信息对应的访问路径的价值,所述访问路径为所述第二牌面信息在所述第二目标牌面信息集合以及所述第三目标牌面信息集合中的搜索路径。
重复执行步骤1)和步骤2),直至达到预设重复次数,得到所述N个搜索结果。
可选地,所述生成单元还具体用于:
确定所述N个搜索结果中访问路径的价值最大的搜索结果;
将所述访问路径的价值最大的搜索结果确定为所述牌面信息预测结果。
可选地,所述第一确定单元具体用于:
将所述第一牌面信息集合以及所述第二牌面信息集合输入牌面信息预测模型,得到所述第二对象的牌面信息概率分布,所述牌面信息预测模型为通过神经网络对训练语料进行训练得到的,所述训练语料包括多个对象的牌面信息集合以及与所述多个对象的牌面信息集合对应的牌面信息概率分布。
本申请实施例第四方面提供了一种信息预测的装置,包括:
获取单元,用于获取第一牌面信息集合,其中,所述第一牌面信息集合与第一对象具有对应关系,所述第一牌面信息集合包括多个牌面信息;
第一确定单元,用于根据所述第一牌面信息集合确定第二对象的牌面信息概率分布,其中,所述牌面信息概率分布包括N个第二牌面信息集合所对应的概率值,每个概率值对应一个第二牌面信息集合,所述第二牌面信息集合与所述第二对象具有对应关系,所述N为大于或等于1的整数;
第二确定单元,用于根据所述第一牌面信息集合以及所述第二对象的牌面信息概率分布,确定N个搜索结果;
生成单元,用于根据所述N个搜索结果生成牌面信息预测结果。
本申请实施例第五方面提供了一种计算机装置,其包括至少一个连接的处理器、存储器和收发器,其中,所述存储器用于存储程序代码,所述处理器用于调用所述存储器中的程序代码来执行上述各方面所述的信息预测的方法的步骤。
本申请实施例第六方面提供了一种计算机存储介质,其包括指令,当其在计算机上运行时,使得计算机执行上述各方面所述的信息预测的方法的步骤。
综上所述,可以看出,本申请中,可以获取第一牌面信息集合以及第二牌面信息集合,并根据第一牌面信息集合以及第二牌面信息集合预测第二对象的牌面信息概率分布,之后根据第一牌面信息集合以及述第二对象的牌面信息概率分布,确定N个搜索结果,根据所述N个搜索结果生成牌面信息预测结果。由此可以看出,本申请中,将牌面估计融入博弈树搜索中得到多个搜索结果,并从多个搜索结果中确定出牌面信息预测结果,相对于决策树来说,可以确定更加准确的牌面信息预测结果,减少预测失误,提升用户体验。
附图说明
图1A为本申请实施例提供的数据共享系统示意图;
图1B为本申请实施例提供的区块链的组成部分示意图;
图1C为本申请实施例提供的新区块产生的过程示意图;
图2为本申请实施例提供的一种网络架构示意图:
图3为本申请实施例提供的信息预测的方法的一个流程示意图;
图4为本申请实施例提供的信息预测的方法的一个应用场景示意图;
图5A为本申请实施例提供的牌面信息预测模型的模型结构示意图;
图5B为本申请实施例提供的第一牌面信息集合以及第二牌面信息集合的示意图;
图5C为本申请实施例提供的第一牌面信息集合经过牌型二值化处理后的结构示意图;
图6为本申请实施例提供的Determinization的树结构示意图;
图7为本申请实施例提供的ISMCTS的树结构示意图;
图8为本申请实施例提供的信息预测的方法的另一流程示意图;
图9为本申请实施例提供的信息预测的方法的另一应用场景示意图;
图10为本申请实施例提供的信息预测的装置的一个虚拟结构示意图;
图11为本申请实施例提供的信息预测的装置的另一虚拟结构示意图;
图12为本申请实施例提供的服务器的硬件结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式,例如多个模块可以结合成或集成在另一个系统中,或一些特征可以忽略,或不执行,另外,所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,模块之间的间接耦合或通信连接可以是电性或其他类似的形式,本申请中均不作限定。并且,作为分离部件说明的模块或子模块可以是也可以不是物理上的分离,可以是也可以不是物理模块,或者可以分布到多个电路模块中,可以根据实际的需要选择其中的部分或全部模块来实现本申请方案的目的。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
参见图1A所示的数据共享系统,数据共享系统100是指用于进行节点与节点之间数据共享的系统,该数据共享系统中可以包括多个节点101,多个节点101可以是指数据共享系统中各个客户端。每个节点101在进行正常工作可以接收到输入信息,并基于接收到的输入信息维护该数据共享系统内的共享数据。为了保证数据共享系统内的信息互通,数据共享系统中的每个节点之间可以存在信息连接,节点之间可以通过上述信息连接进行信息传输。例如,当数据共享系统中的任意节点接收到输入信息时,数据共享系统中的其他节点便根据共识算法获取该输入信息,将该输入信息作为共享数据中的数据进行存储,使得数据共享系统中全部节点上存储的数据均一致。
对于数据共享系统中的每个节点,均具有与其对应的节点标识,而且数据共享系统中的每个节点均可以存储有数据共享系统中其他节点的节点标识,以便后续根据其他节点的节点标识,将生成的区块广播至数据共享系统中的其他节点。每个节点中可维护一个如下表所示的节点标识列表,将节点名称和节点标识对应存储至该节点标识列表中。其中,节点标识可为IP(Internet Protocol,网络之间互联的协议)地址以及其他任一种能够用于标识该节点的信息,表1中仅以IP地址为例进行说明。
节点名称 | 节点标识 |
节点1 | 117.114.151.174 |
节点2 | 117.116.189.145 |
… | … |
节点N | 119.123.789.258 |
表1
数据共享系统中的每个节点均存储一条相同的区块链。区块链由多个区块组成,参见图1B,区块链由多个区块组成,创始块中包括区块头和区块主体,区块头中存储有输入信息特征值、版本号、时间戳和难度值,区块主体中存储有输入信息;创始块的下一区块以创始块为父区块,下一区块中同样包括区块头和区块主体,区块头中存储有当前区块的输入信息特征值、父区块的区块头特征值、版本号、时间戳和难度值,并以此类推,使得区块链中每个区块中存储的区块数据均与父区块中存储的区块数据存在关联,保证了区块中输入信息的安全性。
在生成区块链中的各个区块时,参见图1C,区块链所在的节点在接收到输入信息时,对输入信息进行校验,完成校验后,将输入信息存储至内存池中,并更新其用于记录输入信息的哈希树;之后,将更新时间戳更新为接收到输入信息的时间,并尝试不同的随机数,多次进行特征值计算,使得计算得到的特征值可以满足下述公式:
SHA256(SHA256(version+prev_hash+merkle_root+ntime+nbits+x))<TARGET
其中,SHA256为计算特征值所用的特征值算法;version(版本号)为区块链中相关区块协议的版本信息;prev_hash为当前区块的父区块的区块头特征值;merkle_root为输入信息的特征值;ntime为更新时间戳的更新时间;nbits为当前难度,在一段时间内为定值,并在超出固定时间段后再次进行确定;x为随机数;TARGET为特征值阈值,该特征值阈值可以根据nbits确定得到。
这样,当计算得到满足上述公式的随机数时,便可将信息对应存储,生成区块头和区块主体,得到当前区块。随后,区块链所在节点根据数据共享系统中其他节点的节点标识,将新生成的区块分别发送给其所在的数据共享系统中的其他节点,由其他节点对新生成的区块进行校验,并在完成校验后将新生成的区块添加至其存储的区块链中。
下面结合图2对本申请实施例提供的信息预测的方法的网络结构图进行说明:
如图2所示,其中,本申请中的服务器203可以是一台服务器,也可以是多台服务器,服务器203通过网络202与终端201建立通信连接,服务器203通过网络获取终端201的数据。具体的,服务器203可以通过网络202获取终端203上的第一牌面信息集合以及第二牌面信息集合,其中,第一牌面信息集合与第一对象具有对应关系,第二牌面信息集合与第一对象和/或至少一个第二对象具有对应关系,第一牌面信息集合以及所述第二牌面信息集合均包括多个牌面信息;并根据第一牌面集合以及第二牌面集合确定第二对象的牌面信息概率分布,其中,牌面信息概率分布包括N个第三牌面信息集合所对应的概率值,每个概率值对应一个第三牌面信息集合,第三牌面信息集合与所述第二对象具有对应关系,N为大于或等于1的整数;之后根据第一牌面信息集合以及第二对象的牌面信息概率分布,确定N个搜索结果,根据N个搜索结果生成牌面信息预测结果。
可以理解的是,牌类AI的主要难度在于非完美信息,目前对于非完美信息的解决方案主要是在德州扑克“一对一人机牌局对战”的场景下取得了较大的成果,而对于多人博弈效果并不明显,有鉴于此,本申请提出了信息预测的方法,能够针对不同牌类隐藏信息特点,取得不错的效果。
下面将从信息预测的装置的角度,对本申请中信息预测的方法进行详细说明,该信息预测的装置可以是服务器,还可以是区块链中的区块节点设备,也可以是服务器中的服务单元,具体不做限定。
请参阅图3,图3为本申请实施例提供的信息预测的方法的一个流程示意图,包括:
301、获取第一牌面信息集合以及第二牌面信息集合。
本实施例中,信息预测的装置可以获取第一牌面信息集合以及第二牌面信息集合,其中,该第一牌面信息集合与第一对象具有对应关系,该第二牌面信息集合与第一对象和/或至少一个第二对象具有关联关系,该第一牌面信息集合以及第二牌面信息集合均包含多个牌面信息。此处具体不限定获取第一牌面信息集合以及第二牌面信息集合的方式,例如可以是终端自行发送,也可以是信息预测的装置发送请求至终端,终端在接收到该请求之后,抓取牌面信息发送至信息预测的装置。
下面结合图4以“斗地主”游戏为例对第一牌面信息集合以及第二牌面信息集合进行说明,该第一对象即为“用户丙”,该至少一个第二对象即为“用户甲”以及“用户乙”,该第一牌面信息集合为“用户丙”手里的牌面信息(如图4中的“A、3、6、6”),该第二牌面信息集合为“用户丙”、“用户甲”和/或“用户乙”已经出过的牌面信息的集合(也就是说,该第二牌面信息集合为当前已经出过的牌面信息的集合,已经出过的牌面可以是用户甲出的、也可以是用户乙出的,也可以是用户丙的,也可以是任意两个人,或者三者都出的,具体不限定)。
需要说明的是,图4中“用户甲”下面的1000为“用户甲”的欢乐豆数量,欢乐豆为“斗地主”游戏所用的虚拟货币。
302、根据第一牌面信息集合以及第二牌面信息集合确定第二对象的牌面信息概率分布。
本实施例中,信息预测的装置可以通过预先训练好的牌面信息预测模型来确定第二对象的牌面信息概率分布,其中,牌面信息概率分布包括N个第三牌面信息集合所对应的概率值,每个概率值对应一个第三牌面信息集合,第三牌面信息集合与第二对象具有对应关系,N为大于或等于1的整数。具体的,可以将第一牌面信息集合以及第二牌面信息集合输入牌面信息预测模型,得到第二对象的牌面信息概率分布,该牌面信息预测模型为通过神经网络对训练语料进行训练得到的,训练语料包括多个对象的牌面信息集合以及与多个对象的牌面信息集合对应的牌面信息概率分布。
下面以“斗地主”游戏为例结合图5A、5B以及5C对牌面信息预测模型进行说明,图5A为本申请实施例提供的牌面信息预测模型的模型结构示意图,图5B为第一牌面信息集合以及第二牌面信息集合的示意图,图5C为第一牌面信息集合经过牌型二值化处理后的结构示意图,该牌面信息预测模型为通过卷积神经网络(可以理解的是,也还可以通过其他的神经网络进行训练,具体不限定)对各个对象当前已有的牌面信息以及当前已有牌面信息对应的未出的牌面信息的概率分布进行训练,得到牌面信息预测模型,最后通过牌面信息预测模型来预测各个对象未出的牌面信息集合的概率分布。
首先结合图5A对该牌面信预测模型进行说明:
请参阅图5A,该牌面信息预测模型的模型结构采用简单的五层卷积神经网络(Convolutional Neural Networks,CNN),每一层都是采用CNN、Batch Normalization(批量归一化)以及线性整流激活函数(Rectified Linear Unit,ReLU))的组合,最后一个是全联接层FC,其中,每一层的CNN的卷积核的大小分别为10x15、10x5、5x5、3x3、3x3,每一层CNN的通道数分别为32、32、64、128、128,每一层CNN的参数个数分别是144K、102K、154K、110K、147K。
可以理解的是,归一化就是将数据的输入值减去其均值然后除以数据的标准差,几乎所有数据预处理都会使用这一步骤。而深度学习也可以认为是逐层特征提取的过程,那每一层的输出其实都可以理解为经过特征提取后的数据,批量归一化中的“归一化”其实就是在模型的每一层都进行数据归一化处理,批量归一化中的“批量”其实是采样一小批数据,然后对该批数据在模型各层的输出进行归一化处理。
其次,结合图5B以及图5C对模型的输入进行说明:
如图5B所示,第一牌面信息集合“3、4、5、6、7、8、8、9、9、10、10、J、J、Q、K、K、K、K、2”,第二牌面信息集合为“2、A、J、10、7、6、6、3”,可以分别对第一牌面信息集合以及第二牌面信息集合提取特征,得到该牌面信息预测模型的输入,具体的:采用将牌型二值化处理对第一牌面信息集合以及第二牌面信息集合进行处理,该第一牌面信息集合以及第二牌面信息结合可以分别转换成一个4x15的二值化矩阵,行代表牌型(牌型是指牌的大小,例如“3”),列代表该牌型的个数,由此可以很好的表达牌面信息特点,使得CNN能够有效的提取局部信息,例如“对”、“三张”、“炸弹”以及“顺子”等等。以第一牌面信息集合为例进行说明,将第一牌面信息集合进行二值化处理,转换为4*15的矩阵,如图5C所示。
最后,将得到的第一牌面信息以及第二牌面信息所对应的4*15的二值化矩阵输入5层CNN,输出第二对象的牌面信息集合分布概率,也即得到第二对象的N个第三牌面信息集合以及N个第三牌面信息集合对应的概率值,例如第二对象的牌面信息集合为“JK”时,对应的概率值为0.0745;第二对象的牌面信息集合为“KK”时,对应的概率值为0.4290;第二对象的牌面信息集合为“JJ”时,对应的概率值为0.4801。
303、根据第一牌面信息集合以及第二对象的牌面信息概率分布,确定N个搜索结果。
本实施例中,在得到第一牌面信息集合以及第二对象的牌面信息概率分布之后,可以根据第一牌面信息集合以及第二对象的牌面信息概率分布确定N个搜索结果。下面分别从两个方面进行说明:
1、基于牌面估计的确定化操作(Determinization)解决方案得到N个搜索结果。
首先对Determinization进行说明,请参阅图6,图6为本申请实施例提供的Determinization的结构示意图,Determinization顾名思义是一种对于非完美信息的确定性解决方案,其过程就是在牌类游戏的某一存在非完美信息状态条件下,在进行搜索之前,会在非完美信息状态集(也即图6中的Random status{x,y,…})下首先随机一个状态(x或y),然后对这个状态x或状态y进行搜索(MCTS(蒙特卡洛树搜索,Monte Carlo TreeSearch)或者Minimax搜索等等,具体不做限定),得到一个搜索结果(-1、+1、+1以及-1);对非完美信息集随机若干次,得到若干个搜索结果,从若干个搜索结果中则选取一个最优的搜索结果作为需要的搜索结果。但是,该方案存在策略融合问题以及非定义域问题,策略融合问题在每一个确定性的搜索都是在当前确定状态下产生的,而并未考虑其他可能的状态融合得到一个相对最优解;非定义域问题是随机出来的很多状态有可能是不可能事件,该情况下获得的解是没有意义的。
因此,本申请中,在Determinization的基础上加入了牌面估计(也即上述步骤302中得到第二对象的牌面信息概率分布),来进行MCTS或Minimax搜索得到N个搜索结果,具体如下:
步骤1)确定第一目标牌面信息集合,第一目标牌面信息集合为N个第三牌面信息集合中的任意一个牌面信息集合;
步骤2)根据第一牌面信息以及第一目标牌面信息集合确定一个搜索结果,第一牌面信息为第一牌面信息集合中的任意一个牌面信息,搜索结果包括第一牌面信息对应的价值;
重复执行步骤1)和步骤2),直至N个第三牌面信息集合中的所有牌面信息集合搜索完毕,得到N个搜索结果。
首先可以从N个第三牌面信息集合中确定第一目标牌面信息集合(可以是随机挑选一个牌面信息集合作为第一目标牌面信息集合,也可以根据牌面信息集合概率分布确定第一目标牌面信息集合,具体不做限定),之后根据第一牌面信息集合中随机挑选一个第一牌面信息,最后通过该第一牌面信息对该第一目标牌面信息集合进行搜索(具体的可以通过第一牌面信息对第一目标牌面信息集合进行MCTS或者是Minimax搜索)得到搜索结果,该搜索结果包括第一牌面信息对应的价值(例如“斗地主”游戏中,该第一牌面信息对应的结果可以为出某一张牌胜的概率,或者输赢“欢乐豆”的数量),之后通过第一牌面信息集合中的每个牌面信息对第一目标牌面信息进行搜索,得到各个牌面信息对应的搜索结果;并重复执行上述步骤,得到第一牌面信息集合中的每个牌面信息对应的N个牌面信息集合中的所有牌面信息集合的搜索结果。下面结合图4以游戏“斗地主”为例进行说明:
参阅图4,该用户丙的第一牌面信息集合为“A、6、6、3”,根据模型得到用户乙的3个第三牌面信息集合分别为“JK”、“KK”以及“JJ”,其中,第三牌面信息集合“JQ”对应的概率值为0.0745,第三牌面信息集合“KK”对应的概率值为0.4290,第三牌面信息集合为“JJ”的概率值为0.4801,之后可以从第三牌面信息集合中任意挑选一个牌面信息集合,例如“JK”,并通过第一牌面信息集合中的4种牌面信息“A,3,6,66”对第三牌面信息集合“JK”进行蒙特卡洛树搜索,得到“A,3,6,66”分别对应的搜索结果(也即先出“A”赢的概率有多少,或者先出“A”输赢的欢乐豆是多少),最后,重复执行上述步骤,直至通过第一牌面信息集合中的每个牌面信息将3个第三牌面信息集合中的每个牌面信息集合搜索完毕,得到第一牌面信集合中的每个第一牌面信息对应的3个第三牌面信息集合的搜索结果,也即第一牌面信息集合中的牌面信息“A”搜索3个第三牌面信息集合中的每个牌面信息集合“JK”、“KK”以及“JJ”得到的3个搜索结果,第一牌面信息集合中的牌面信息“3”搜索3个第三牌面信息集合中的每个牌面信“JK”、“KK”以及“JJ”得到的3个搜索结果,第一牌面信息集合中的牌面信息“66”搜索3个第三牌面信息集合中的每个牌面信“JK”、“KK”以及“JJ”得到的3个搜索结果,第一牌面信息集合中的牌面信息“6”搜索3个第三牌面信息集合中的每个牌面信“JK”、“KK”以及“JJ”得到的3个搜索结果。
2、基于牌面估计的信息集蒙特卡洛树搜索(Information Set Monte Carlo TreeSearch,ISMCTS)解决方案得到N个搜索结果。
相比Determinization,ISMCTS很好的解决了策略融合的问题,ISMCTS中每个结点不再是一个确定的状态,而是一个信息集(如图7中最上面的Information Set),也就是该根节点所有的可能,如图7所示,在每次迭代过程中,都会在Root结点随机一个状态,Root节点是搜索的初始状态,比如“斗地主”游戏中三个对象的牌面信息集合分别为(JQ,AK,5566),那么Root节点就是状态(JQ,AK,5566),第一对象对应的牌面信息集合为“JQ”,第一对象选择一个状态,可以选择“J”或“Q”,这两个动作就是树展开的两个分支,然后遍历整棵树,在若干次遍历之后,则会得到一个融合之后的搜索结果,结合上面的例子对融合之后的搜索结果进行说明,对于第一对象可以选择“J”或者“Q”,选择“J”搜索之后得到了结果11/16,搜索16次,赢了11次,选择“Q”搜索整棵树之后得到了搜索结果4/9,搜索9次,赢了4次,显然,选择“J”为最优,则该“J”即是融合之后的搜索结果。但是ISMCTS仍然会存在非定义域的问题。
本申请中,通过在ISMCTS的基础上增加了牌面估计来解决单独使用ISMCTS带来的非定义域问题,最终得到N个搜索结果,下面进行具体说明:
根据第一牌面信息集合以及第二对象的牌面信息概率分布,确定N个搜索结果包括:
步骤1)确定第二目标牌面信息集合以及第三目标牌面信息集合,第二目标牌面信息集合为N个第三牌面信息集合中的任意一个牌面信息集合,第三目标牌面信息集合为N个第四牌面信息集合中的任意一个牌面信息集合;
步骤2)根据第二牌面信息、第二目标牌面信息集合以及第三目标牌面信息集合确定一个搜索结果,第二牌面信息为第一牌面信息集合中的任意一个牌面信息,搜索结果包括第二牌面信息对应的访问路径以及第二牌面信息对应的访问路径的价值,访问路径为第二牌面信息在第二目标牌面信息集合以及第三目标牌面信息集合中的搜索路径。
重复执行步骤1)和步骤2),直至达到预设重复次数,得到N个搜索结果。
需要说明的是,该N个第四牌面信息集合为根据N个第三牌面信集合以及第一牌面信息集合确定的N个第四牌面信息集合。此处以“麻将”游戏为例进行说明,该N个第三牌面信息集合为通过模型得到的牌面信息的集合(也即该第三牌面信息集合为第二对象的牌面信息集合),该第四牌面信息集合为游戏“麻将”中未出现的牌面信息的集合,由于“麻将”中的牌面信息是固定的,那么通过已知的第一对象的牌面信息集合、第二牌面信息集合以及预测得到的N个第三牌面信息集合可以得到未知的N个第四牌面信息集合。
本实施例中,可以首先确定第二目标牌面信息集合以及第三目标牌面信息集合(例如从N个第三牌面信息集合中随机选取一个牌面信息集合作为第二目标牌面信息集合,或者是根据N个第三牌面信息集合的概率值选取一个第二目标牌面信息集合具体不做限定,在得到第二目标牌面信息集合之后,可以基于该第二目标牌面信息集合确定第三目标牌面信息集合),此时已经知道了第一牌面信息集合、第二目标牌面信息集合以及第三目标牌面信息集合,则从第一牌面信息集合中选择第一牌面信息(例如“八万”)之后,对这个选择的牌面信息按照ISMCTS进行展开搜索,得到一个融合之后的搜索结果,该融合之后的搜索结果包括第一牌面信息对应的访问路径(如图7中的访问路径701),以及该访问路径的价值(如图7中的+1,其中,+1代表胜利,-1代表失败),最后,重复执行上述步骤,直至达到预设重复次数(例如100次),得到N个搜索结果,例如重复执行上述步骤100次之后,选择牌面信息“八万”得到的融合之后的搜索结果为40/50,也就是说选择“八万”进行搜索时,搜索了50次(每搜索一次得到一条访问路径),胜利了40次;选择牌面信息“七条”进行ISMCTS搜索之后,得到的搜索结果为20/30,也就是说选择“七条”进行搜索时,搜索了30次,胜利了20次;选择牌面信息“六筒”进行ISMCTS搜索之后,得到的搜索结果为8/20,也就是说选择“六筒”搜索了20次,胜利了8次。
304、根据N个搜索结果生成牌面信息预测结果。
本实施例中,在得到N个搜索结果之后,可以根据N个搜索结果生成牌面信息预测结果。
需要说明的是,上面通过两种不同的方式来得到搜索结果,与之对应的可以通过两种不同的方式来根据N个搜索结果生成牌面信息预测结果,下面分别进行说明:
1、基于牌面估计的Determinization进行搜索,得到N个搜索结果,根据N个搜索结果生成牌面信息预测结果包括:
根据N个搜索结果以及N个第三牌面信息集合确定N个决策参数;
从N个决策参数中确定最大决策参数;
将最大决策参数所对应的搜索结果确定为牌面预测结果;
根据N个搜索结果与N个第三牌面信息集合确定N个决策参数,包括:
采用如下方式计算决策参数:
Q=A*X1+A*X2+…+A*Xn;
其中,Q表示决策参数,A表示第一牌面信息对应的搜索结果,X1至所述Xn表示第三牌面信息集合中各个牌面信息集合的概率值。
本实施例中,可以首先通过上述公式来计算得到N个决策参数,之后从N个决策参数中确定出最大决策参数,并将最大决策参数对应的搜索结果确定为牌面预测结果。结合图4以第一牌面信息为“A”进行说明,牌面信息集合“JK”的概率值为0.0745,牌面信息集合“KK”的概率值为0.4801,牌面信息集合“JJ”的概率值为0.4290,当牌面信息集合为“JK”时,牌面信息“A”的搜索结果为-300欢乐豆,当牌面信息集合为“KK”时,牌面信息“A”的搜索结果为-200欢乐豆,当牌面信息集合为“JJ”时,牌面信息“A”的搜索结果为-200欢乐豆,则可以通过上述公式计算A的决策参数Q=-300*0.0745+(-200*0.4801)+(-200*0.4290)=-204.17;以此类推,可以计算出用户丙的牌面信息集合中的每个牌面信息对应的决策参数,将最大的决策参数对应的牌面信息作为牌面预测结果。
2、基于牌面估计的ISMCTS进行搜索得到的N个搜索结果,根据所述N个搜索结果生成牌面信息预测结果包括:
确定N个搜索结果中访问路径的价值最大的搜索结果;
将访问路径的价值最大的搜索结果确定为牌面信息预测结果。
本实施例中,通过基于牌面估计的ISMCTS进行搜索得到的N个搜索结果的每个搜索结果中均包括牌面信息对应的访问路径以及访问路径对应的价值,则可以从访问路径的价值中确定出价值最大的访问路径,并将访问路径的价值最大的搜索结果确定为牌面信息预测结果,例如根据牌面信息进行ISMCTS搜索迭代100次之后,选择牌面信息“八万”得到的融合之后的搜索结果为40/50,也就是说选择“八万”进行搜索时,搜索了50次(每搜索一次得到一条访问路径),胜利了40次;选择牌面信息“七条”进行ISMCTS搜索之后,得到的搜索结果为20/30,也就是说选择“七条”进行搜索时,搜索了30次,胜利了20次;选择牌面信息“六筒”进行ISMCTS搜索之后,得到的搜索结果为8/20,也就是说选择“六筒”搜索了20次,胜利了8次,该访问路径的价值最大的搜索结果为40/50,则将该访问路径对应的牌面信息作为牌面信息预测结果。
需要说明的是,上述分别从基于牌面估计的Determinization进行搜索,得到N个搜索结果,以及基于牌面估计的ISMCTS进行搜索得到的N个搜索结果,当然也还可以采取两者的结合进行搜索得到搜索结果,具体不做限定。
综上所述,可以看出,本申请中,可以获取第一牌面信息集合以及第二牌面信息集合,并根据第一牌面信息集合以及第二牌面信息集合预测第二对象的牌面信息概率分布,之后根据第一牌面信息集合以及述第二对象的牌面信息概率分布,确定N个搜索结果,根据所述N个搜索结果生成牌面信息预测结果。由此可以看出,本申请中,将牌面估计融入博弈树搜索中得到多个搜索结果,并从多个搜索结果中确定出牌面信息预测结果,相对于决策树来说,可以确定更加准确的牌面信息预测结果,减少预测失误,提升用户体验。
请参阅图8,图8为本申请实施例提供的信息的预测方法的另一实施例示意图,包括:
801、获取第一牌面信息集合,其中,第一牌面信息集合与第一对象具有对应关系,第一牌面信息集合包括多个牌面信息。
需要说明的是,步骤801与上述图3所示的步骤301中的类似,只是图3中还包括第二牌面信息集合,也就是说图3对应的场景是,在“斗地主”游戏中,已经存在出过的牌,而本步骤中,是最初的状态,也即没有任何对象有出过牌,上述已经对步骤301进行详细描述,具体此处不再赘述。
802、根据第一牌面信息集合确定第二对象的牌面信息概率分布,其中,牌面信息概率分布包括N个第二牌面信息集合所对应的概率值,每个概率值对应一个第二牌面信息集合,第二牌面信息集合与所述第二对象具有对应关系,所述N为大于或等于1的整数。
需要说明的是,步骤802与上述图3所示的步骤302中的类似,只是图3中在预测第二对象的牌面信息概率分布时,还包括第二牌面信息集合,而本步骤中,是最初的状态,也即没有任何对象有出过牌,上述已经对步骤302进行详细描述,具体此处不再赘述。
803、根据第一牌面信息集合以及第二对象的牌面信息概率分布,确定N个搜索结果。
需要说明的是,步骤803与上述图3所示的步骤303中的类似,上述已经对步骤303进行详细描述,具体此处不再赘述。
804、根据N个搜索结果生成牌面信息预测结果。
需要说明的是,步骤804与上述图3所示的步骤304中的类似,上述已经对步骤304进行详细描述,具体此处不再赘述。
综上所述,可以看出,本申请中,可以获取第一牌面信息集合,并根据第一牌面信息集合预测第二对象的牌面信息概率分布,之后根据第一牌面信息集合以及述第二对象的牌面信息概率分布,确定N个搜索结果,根据所述N个搜索结果生成牌面信息预测结果。由此可以看出,本申请中,将牌面估计融入博弈树搜索中得到多个搜索结果,并从多个搜索结果中确定出牌面信息预测结果,相对于决策树来说,可以确定更加准确的牌面信息预测结果,减少预测失误,提升用户体验。
下面结合图4以及图9以“斗地主”游戏中的一个具体的应用场景对本申请实施例提供的信息预测的方法进行说明:
用户丙为第一对象,用户乙以及用户甲为第二对象,其中,该第一对象的第一牌面信息集合中包括4个牌面信息,分别为“A,3,6,6”,首先可以根据牌面信息预测模型得到用户乙的各个牌面信息集合的概率分布,如图8所示的三种牌面信息集合:牌面信息集合N1“JJ”、牌面信息集合N2“JK”以及牌面信息集合N3“KK”,其中,牌面信息集合N1“JJ”对应的概率值为“0.4801”(也即该用户乙的牌面信息为“JJ”的概率值为0.4801),牌面信息集合N2“JK”的概率值为0.4290,牌面信息集合N3“KK”的概率值为0.0745,之后通过第一牌面信息集合中的任意一个牌面信息分别对用户乙的牌面信息集合N1、N2以及N3进行MCTS搜索,得到第一牌面信息集合中每个牌面信息的搜索结果,以牌面信息“A”为例进行说明,如通过牌面信息“A”对牌面信息集合N1进行MCTS搜索,得到的搜索结果为“输300欢乐豆”、通过牌面信息“A”对牌面信息集合N2进行MCTS搜索,得到的搜索结果为“输200欢乐豆”、通过牌面信息“A”对牌面信息集合N3进行MCTS搜索,得到的搜索结果为“输200欢乐豆”,之后,通过公式Q=A*X1+A*X2+…+A*Xn计算每个牌面信息集合的决策参数,得到牌面信息“A”的决策参数Q=-300*0.4801+(-200*0.4290)+(-200*0.0745)=-244.73,以此类推可以得到用户甲的牌面信息集合中的每个牌面信息对应的决策参数,例如“3”的决策参数为300,“6”的决策参数为150,“66”的决策参数为-280,则将最大的决策参数对应的牌面信息确定为牌面信息预测结果,如上述例子,则可以得到牌面信息“3”为牌面信息预测结果。由此,将牌面估计融入博弈树搜索中得到多个搜索结果,并从多个搜索结果中确定出牌面信息预测结果,相对于决策树来说,可以确定更加准确的牌面信息预测结果,减少预测失误,提升用户体验。
上面从一种信息预测的方法的角度对本申请实施例进行描述,下面从信息预测的装置的角度看对本申请实施例进行描述。
请参阅图10,图10为本申请实施例中信息预测的装置的一个虚拟结构示意图,包括:
获取单元1001,用于获取第一牌面信息集合以及第二牌面信息集合,其中,所述第一牌面信息集合与第一对象具有对应关系,所述第二牌面信息集合与所述第一对象和/或至少一个第二对象具有对应关系,所述第一牌面信息集合以及所述第二牌面信息集合均包括多个牌面信息;
第一确定单元1002,用于根据所述第一牌面信息集合以及所述第二牌面信息集合确定第二对象的牌面信息概率分布,其中,所述牌面信息概率分布包括N个第三牌面信息集合所对应的概率值,每个概率值对应一个第三牌面信息集合,所述第三牌面信息集合与所述第二对象具有对应关系,所述N为大于或等于1的整数;
第二确定单元1003,用于根据所述第一牌面信息集合以及所述第二对象的牌面信息概率分布,确定N个搜索结果;
生成单元1004,用于根据所述N个搜索结果生成牌面信息预测结果。
可选地,所述第二确定单元1003具体用于:
步骤1)确定第一目标牌面信息集合,所述第一目标牌面信息集合为所述N个第三牌面信息集合中的任意一个牌面信息集合;
步骤2)根据第一牌面信息以及所述第一目标牌面信息集合确定一个搜索结果,所述第一牌面信息为所述第一牌面信息集合中的任意一个牌面信息,所述搜索结果包括所述第一牌面信息对应的价值;
重复执行步骤1)和步骤2),直至所述N个第三牌面信息集合中的所有牌面信息集合搜索完毕,得到所述N个搜索结果。
可选地,所述生成单元1004具体用于:
根据所述N个搜索结果以及所述N个第三牌面信息集合确定N个决策参数;
从所述N个决策参数中确定最大决策参数;
将所述最大决策参数所对应的搜索结果确定为所述牌面预测结果;
根据所述N个搜索结果与所述N个第三牌面信息集合确定N个决策参数,包括:
采用如下方式计算所述决策参数:
Q=A*X1+A*X2+…+A*Xn;
其中,所述Q表示所述决策参数,所述A表示所述第一牌面信息对应的搜索结果,所述X1至所述Xn表示所述第三牌面信息集合中各个牌面信息集合的概率值。
可选地,所述信息预测的装置还包括:
第三确定单元1005,用于根据所述N个第三牌面信息集合以及所述第一牌面信息集合确定N个第四牌面信息集合;
所述第二确定单元1003还具体用于:
步骤1)确定第二目标牌面信息集合以及第三目标牌面信息集合,所述第二目标牌面信息集合为所述N个第三牌面信息集合中的任意一个牌面信息集合,所述第三目标牌面信息集合为所述N个第四牌面信息集合中的任意一个牌面信息集合;
步骤2)根据第二牌面信息、所述第二目标牌面信息集合以及所述第三目标牌面信息集合确定一个搜索结果,所述第二牌面信息为所述第一牌面信息集合中的任意一个牌面信息,所述搜索结果包括所述第二牌面信息对应的访问路径以及所述第二牌面信息对应的访问路径的价值,所述访问路径为所述第二牌面信息在所述第二目标牌面信息集合以及所述第三目标牌面信息集合中的搜索路径。
重复执行步骤1)和步骤2),直至达到预设重复次数,得到所述N个搜索结果。
可选地,所述生成单元1004还具体用于:
确定所述N个搜索结果中访问路径的价值最大的搜索结果;
将所述访问路径的价值最大的搜索结果确定为所述牌面信息预测结果。
可选地,所述第一确定单元1002具体用于:
将所述第一牌面信息集合以及所述第二牌面信息集合输入牌面信息预测模型,得到所述第二对象的牌面信息概率分布,所述牌面信息预测模型为通过神经网络对训练语料进行训练得到的,所述训练语料包括多个对象的牌面信息集合以及与所述多个对象的牌面信息集合对应的牌面信息概率分布。
需要说明的是,本申请实施例中信息预测的装置各单元之间的交互方式与前述图3所示信息预测的方法实施例中的描述类似,具体此处不再赘述。
综上所述,可以看出,本申请中,可以获取第一牌面信息集合以及第二牌面信息集合,并根据第一牌面信息集合以及第二牌面信息集合预测第二对象的牌面信息概率分布,之后根据第一牌面信息集合以及述第二对象的牌面信息概率分布,确定N个搜索结果,根据所述N个搜索结果生成牌面信息预测结果。由此可以看出,本申请中,将牌面估计融入博弈树搜索中得到多个搜索结果,并从多个搜索结果中确定出牌面信息预测结果,相对于决策树来说,可以确定更加准确的牌面信息预测结果,减少预测失误,提升用户体验。
请参阅图11,图11为本申请实施例中信息预测的装置的另一虚拟结构示意图,包括:
获取单元1101,用于获取第一牌面信息集合,其中,所述第一牌面信息集合与第一对象具有对应关系,所述第一牌面信息集合包括多个牌面信息;
第一确定单元1102,用于根据所述第一牌面信息集合确定第二对象的牌面信息概率分布,其中,所述牌面信息概率分布包括N个第二牌面信息集合所对应的概率值,每个概率值对应一个第二牌面信息集合,所述第二牌面信息集合与所述第二对象具有对应关系,所述N为大于或等于1的整数;
第二确定单元1103,用于根据所述第一牌面信息集合以及所述第二对象的牌面信息概率分布,确定N个搜索结果;
生成单元1104,用于根据所述N个搜索结果生成牌面信息预测结果。
需要说明的是,本申请实施例中信息预测的装置各单元之间的交互方式与前述图8所示信息预测的方法实施例中的描述类似,具体此处不再赘述。
综上所述,可以看出,本申请中,可以获取第一牌面信息集合,并根据第一牌面信息集合预测第二对象的牌面信息概率分布,之后根据第一牌面信息集合以及述第二对象的牌面信息概率分布,确定N个搜索结果,根据所述N个搜索结果生成牌面信息预测结果。由此可以看出,本申请中,将牌面估计融入博弈树搜索中得到多个搜索结果,并从多个搜索结果中确定出牌面信息预测结果,相对于决策树来说,可以确定更加准确的牌面信息预测结果,减少预测失误,提升用户体验。
请参阅图12,图12是本申请实施例提供的一种服务器的硬件结构示意图,该服务器1200可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1222(例如,一个或一个以上处理器)和存储器1232,一个或一个以上存储应用程序1242或数据1244的存储介质1230(例如一个或一个以上海量存储设备)。其中,存储器1232和存储介质1230可以是短暂存储或持久存储。存储在存储介质1230的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1222可以设置为与存储介质1230通信,在服务器1200上执行存储介质1230中的一系列指令操作。
服务器1200还可以包括一个或一个以上电源1226,一个或一个以上有线或无线网络接口1250,一个或一个以上输入输出接口1258,和/或,一个或一个以上操作系统1241,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由信息预测的装置所执行的步骤可以基于该图12所示的服务器结构。
本申请实施例还提供了一种计算机存储介质,其上存储有程序,该程序被处理器执行时实现上述所述信息预测的方法的步骤。
本申请实施例还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述所述信息预测的方法的步骤。
本申请实施例还提供了一种终端设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现上述所述信息预测的方法的步骤。
本申请还提供了一种计算机程序产品,当在信息预测的设备上执行时,适于执行上述所述信息预测的方法的步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程信息预测的设备的处理器以产生一个机器,使得通过计算机或其他可编程信息预测的设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程信息预测的设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程信息预测的设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种信息预测的方法,其特征在于,包括:
获取第一牌面信息集合以及第二牌面信息集合,其中,所述第一牌面信息集合与第一对象具有对应关系,所述第二牌面信息集合与所述第一对象和/或至少一个第二对象具有对应关系,所述第一牌面信息集合以及所述第二牌面信息集合均包括多个牌面信息;
根据所述第一牌面信息集合以及所述第二牌面信息集合确定第二对象的牌面信息概率分布,其中,所述牌面信息概率分布包括N个第三牌面信息集合所对应的概率值,每个概率值对应一个第三牌面信息集合,所述第三牌面信息集合与所述第二对象具有对应关系,所述N为大于或等于1的整数;
根据所述第一牌面信息集合以及所述第二对象的牌面信息概率分布,确定N个搜索结果;
根据所述N个搜索结果生成牌面信息预测结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一牌面信息集合以及所述第二对象的牌面信息概率分布,确定N个搜索结果包括:
步骤1)确定第一目标牌面信息集合,所述第一目标牌面信息集合为所述N个第三牌面信息集合中的任意一个牌面信息集合;
步骤2)根据第一牌面信息以及所述第一目标牌面信息集合确定一个搜索结果,所述第一牌面信息为所述第一牌面信息集合中的任意一个牌面信息,所述搜索结果包括所述第一牌面信息对应的价值;
重复执行步骤1)和步骤2),直至所述N个第三牌面信息集合中的所有牌面信息集合搜索完毕,得到所述N个搜索结果。
3.根据权利要求2所述的方法,其特征在于,所述根据所述N个搜索结果生成牌面信息预测结果,包括:
根据所述N个搜索结果以及所述N个第三牌面信息集合确定N个决策参数;
从所述N个决策参数中确定最大决策参数;
将所述最大决策参数所对应的搜索结果确定为所述牌面预测结果;
根据所述N个搜索结果与所述N个第三牌面信息集合确定N个决策参数,包括:
采用如下方式计算所述决策参数:
Q=A*X1+A*X2+…+A*Xn;
其中,所述Q表示所述决策参数,所述A表示所述第一牌面信息对应的搜索结果,所述X1至所述Xn表示所述第三牌面信息集合中各个牌面信息集合的概率值。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第一牌面信息集合以及所述第二牌面信息集合确定所述第二对象的牌面信息概率分布之后,所述方法还包括:
根据所述N个第三牌面信息集合以及所述第一牌面信息集合确定N个第四牌面信息集合;
所述根据所述第一牌面信息集合以及所述第二对象的牌面信息概率分布,确定N个搜索结果包括:
步骤1)确定第二目标牌面信息集合以及第三目标牌面信息集合,所述第二目标牌面信息集合为所述N个第三牌面信息集合中的任意一个牌面信息集合,所述第三目标牌面信息集合为所述N个第四牌面信息集合中的任意一个牌面信息集合;
步骤2)根据第二牌面信息、所述第二目标牌面信息集合以及所述第三目标牌面信息集合确定一个搜索结果,所述第二牌面信息为所述第一牌面信息集合中的任意一个牌面信息,所述搜索结果包括所述第二牌面信息对应的访问路径以及所述第二牌面信息对应的访问路径的价值,所述访问路径为所述第二牌面信息在所述第二目标牌面信息集合以及所述第三目标牌面信息集合中的搜索路径;
重复执行步骤1)和步骤2),直至达到预设重复次数,得到所述N个搜索结果。
5.根据权利要求4所述的方法,其特征在于,所述根据所述N个搜索结果生成牌面信息预测结果包括:
确定所述N个搜索结果中访问路径的价值最大的搜索结果;
将所述访问路径的价值最大的搜索结果确定为所述牌面信息预测结果。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述根据所述第一牌面信息集合以及所述第二牌面信息集合确定第二对象的牌面信息概率分布包括:
将所述第一牌面信息集合以及所述第二牌面信息集合输入牌面信息预测模型,得到所述第二对象的牌面信息概率分布,所述牌面信息预测模型为通过神经网络对训练语料进行训练得到的,所述训练语料包括多个对象的牌面信息集合以及与所述多个对象的牌面信息集合对应的牌面信息概率分布。
7.根据权利要求1所述的方法,其特征在于,所述方法应用于信息预测的装置,所述信息预测的装置部署于区块链中的区块节点设备。
8.一种信息预测的方法,其特征在于,包括:
获取第一牌面信息集合,其中,所述第一牌面信息集合与第一对象具有对应关系,所述第一牌面信息集合包括多个牌面信息;
根据所述第一牌面信息集合确定第二对象的牌面信息概率分布,其中,所述牌面信息概率分布包括N个第二牌面信息集合所对应的概率值,每个概率值对应一个第二牌面信息集合,所述第二牌面信息集合与所述第二对象具有对应关系,所述N为大于或等于1的整数;
根据所述第一牌面信息集合以及所述第二对象的牌面信息概率分布,确定N个搜索结果;
根据所述N个搜索结果生成牌面信息预测结果。
9.一种信息预测的装置,其特征在于,包括:
获取单元,用于获取第一牌面信息集合以及第二牌面信息集合,其中,所述第一牌面信息集合与第一对象具有对应关系,所述第二牌面信息集合与所述第一对象和/或至少一个第二对象具有对应关系,所述第一牌面信息集合以及所述第二牌面信息集合均包括多个牌面信息;
第一确定单元,用于根据所述第一牌面信息集合以及所述第二牌面信息集合确定第二对象的牌面信息概率分布,其中,所述牌面信息概率分布包括N个第三牌面信息集合所对应的概率值,每个概率值对应一个第三牌面信息集合,所述第三牌面信息集合与所述第二对象具有对应关系,所述N为大于或等于1的整数;
第二确定单元,用于根据所述第一牌面信息集合以及所述第二对象的牌面信息概率分布,确定N个搜索结果;
生成单元,用于根据所述N个搜索结果生成牌面信息预测结果。
10.一种信息预测的装置,其特征在于,包括:
获取单元,用于获取第一牌面信息集合,其中,所述第一牌面信息集合与第一对象具有对应关系,所述第一牌面信息集合包括多个牌面信息;
第一确定单元,用于根据所述第一牌面信息集合确定第二对象的牌面信息概率分布,其中,所述牌面信息概率分布包括N个第二牌面信息集合所对应的概率值,每个概率值对应一个第二牌面信息集合,所述第二牌面信息集合与所述第二对象具有对应关系,所述N为大于或等于1的整数;
第二确定单元,用于根据所述第一牌面信息集合以及所述第二对象的牌面信息概率分布,确定N个搜索结果;
生成单元,用于根据所述N个搜索结果生成牌面信息预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910860025.1A CN110598182A (zh) | 2019-09-11 | 2019-09-11 | 一种信息预测的方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910860025.1A CN110598182A (zh) | 2019-09-11 | 2019-09-11 | 一种信息预测的方法及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110598182A true CN110598182A (zh) | 2019-12-20 |
Family
ID=68858869
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910860025.1A Pending CN110598182A (zh) | 2019-09-11 | 2019-09-11 | 一种信息预测的方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110598182A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021057539A1 (zh) * | 2019-09-26 | 2021-04-01 | 腾讯科技(深圳)有限公司 | 一种虚拟应用对象输出方法、装置以及计算机存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109621422A (zh) * | 2018-11-26 | 2019-04-16 | 腾讯科技(深圳)有限公司 | 电子棋牌决策模型训练方法及装置、策略生成方法及装置 |
-
2019
- 2019-09-11 CN CN201910860025.1A patent/CN110598182A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109621422A (zh) * | 2018-11-26 | 2019-04-16 | 腾讯科技(深圳)有限公司 | 电子棋牌决策模型训练方法及装置、策略生成方法及装置 |
Non-Patent Citations (3)
Title |
---|
GUANGYUN TAN 等: "Winning rate prediction model based on Monte Carlo Tree Search for computer Dou Dizhu", 《IEEE TRANSACTIONS ON GAMES》 * |
NIKOLAI YAKOVENKO 等: "Poker-CNN: A Pattern Learning Strategy for Making Draws and Bets in Poker Games", 《ARXIV:1509.0673》 * |
郭潇逍 等: "深度学习在游戏中的应用", 《自动化学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021057539A1 (zh) * | 2019-09-26 | 2021-04-01 | 腾讯科技(深圳)有限公司 | 一种虚拟应用对象输出方法、装置以及计算机存储介质 |
US11704980B2 (en) | 2019-09-26 | 2023-07-18 | Tencent Technology (Shenzhen) Company Limited | Method, apparatus, and computer storage medium for outputting virtual application object |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11779837B2 (en) | Method, apparatus, and device for scheduling virtual objects in virtual environment | |
US11135514B2 (en) | Data processing method and apparatus, and storage medium for concurrently executing event characters on a game client | |
CN111632379B (zh) | 游戏角色行为控制方法、装置、存储介质及电子设备 | |
CN111111220B (zh) | 多人对战游戏的自对弈模型训练方法、装置和计算机设备 | |
Roohi et al. | Predicting game difficulty and churn without players | |
CN109011580B (zh) | 残局牌面获取方法、装置、计算机设备及存储介质 | |
CN113343089B (zh) | 用户召回方法及装置、设备 | |
CN111870959B (zh) | 一种游戏中的资源推荐方法及装置 | |
CN113318448B (zh) | 游戏资源展示方法及装置、设备、模型训练方法 | |
CN110659023B (zh) | 一种程序化内容生成的方法以及相关装置 | |
CN110772794B (zh) | 智能游戏处理方法、装置、设备及存储介质 | |
CN113230650B (zh) | 一种数据处理方法、装置及计算机可读存储介质 | |
CN111659125A (zh) | 基于游戏的好友推荐方法、装置及计算机可读存储介质 | |
CN110598182A (zh) | 一种信息预测的方法及相关设备 | |
Meisheri et al. | Accelerating training in pommerman with imitation and reinforcement learning | |
CN109999497B (zh) | 虚拟对象的控制方法和装置、存储介质和电子装置 | |
Togelius et al. | Active player modelling | |
CN116943220A (zh) | 一种游戏人工智能控制方法、装置、设备及存储介质 | |
CN113448876B (zh) | 一种业务测试方法、装置、计算机设备及存储介质 | |
CN116850601A (zh) | 一种游戏对象处理方法、装置、计算机设备及存储介质 | |
CN114708962A (zh) | 基于大数据的智慧医疗行为分析方法及智慧医疗ai系统 | |
CN118051782B (zh) | 一种模型训练的方法、业务处理的方法以及相关装置 | |
Alpern et al. | A normal form game model of search and pursuit | |
CN113750540B (zh) | 游戏匹配方法、装置、存储介质及计算机程序产品 | |
Pech et al. | Identifying attributes for characterizing game area types in virtual Terrain |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |