CN113946604B - 分阶段围棋教学方法、装置、电子设备及存储介质 - Google Patents

分阶段围棋教学方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113946604B
CN113946604B CN202111250153.8A CN202111250153A CN113946604B CN 113946604 B CN113946604 B CN 113946604B CN 202111250153 A CN202111250153 A CN 202111250153A CN 113946604 B CN113946604 B CN 113946604B
Authority
CN
China
Prior art keywords
data
game
teaching
chess
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111250153.8A
Other languages
English (en)
Other versions
CN113946604A (zh
Inventor
李蒙
王玉龙
高圣洲
孙艳庆
段亦涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Youdao Information Technology Jiangsu Co ltd
Original Assignee
Netease Youdao Information Technology Jiangsu Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Youdao Information Technology Jiangsu Co ltd filed Critical Netease Youdao Information Technology Jiangsu Co ltd
Priority to CN202111250153.8A priority Critical patent/CN113946604B/zh
Publication of CN113946604A publication Critical patent/CN113946604A/zh
Application granted granted Critical
Publication of CN113946604B publication Critical patent/CN113946604B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06311Scheduling, planning or task assignment for a person or group
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance
    • G06Q50/2057Career enhancement or continuing education service

Abstract

本申请提供一种分阶段围棋教学方法、装置、电子设备及存储介质;该方法包括:在预先建立的包括有一定数量的棋局数据的分阶段棋局数据库中,获取与用户当前的围棋教学阶段相适应的目标棋局数据;根据所述目标棋局数据生成教学对局,并基于所述教学对局与所述用户进行人机交互对弈;记录所述人机交互对弈的过程中产生的过程数据,根据所述过程数据生成教学反馈数据并向所述用户反馈。

Description

分阶段围棋教学方法、装置、电子设备及存储介质
技术领域
本申请涉及交互教学技术领域,尤其涉及一种分阶段围棋教学方法、装置、电子设备及存储介质。
背景技术
围棋,一种策略型两人棋类游戏。流行于东亚国家(中、日、韩、朝),属琴棋书画四艺之一。围棋起源于中国,后经朝鲜传入日本并流传到欧美各国。围棋蕴含着中华文化的丰富内涵,它是中国文化与文明的体现。
随着互联网、人工智能和智能终端技术的高速发展,现如今,借助智能终端实现的人机交互式围棋对弈,已经广泛的应用于围棋教学、比赛等诸多场景中。
无论是从对弈的进程还是对弈的内容来划分,围棋对弈过程均可以被分为不同的阶段。对应于不同的阶段提供针对性的教学是围棋教学中的重要项目。然而,现有的人机交互式围棋教学方案中,还没有能够有效的实现分阶段围棋教学的方案,这也是目前人机交互式围棋教学领域中亟待解决的问题。
发明内容
针对上述技术问题,非常需要一种改进的方案,能够在人机交互式围棋教学中实现分阶段围棋教学,以提升人机交互式围棋教学的教学效果。
本申请示例性实施例提供了一种分阶段围棋教学方法,包括:
在预先建立的包括有一定数量的棋局数据的分阶段棋局数据库中,获取与用户当前的围棋教学阶段相适应的目标棋局数据;
根据所述目标棋局数据生成教学对局,并基于所述教学对局与所述用户进行人机交互对弈;
记录所述人机交互对弈的过程中产生的过程数据,根据所述过程数据生成教学反馈数据并向所述用户反馈。
在一些可选的实施例中,所述目标棋局数据关联有用于表示其对应阶段的阶段标签;所述基于所述教学对局与所述用户进行人机交互对弈,具体包括:根据蒙特卡洛搜索树算法执行所述人机交互对弈;其中,在蒙特卡洛搜索树算法的选择步骤中,根据所述目标棋局数据的所述阶段标签,调整选择的深度或广度;和/或,根据所述用户落子后的对弈局面的第一落子概率矩阵,根据所述第一落子概率矩阵调整选择的深度或广度。
在一些可选的实施例中,所述记录所述人机交互对弈的过程中产生的过程数据,根据所述过程数据生成教学反馈数据并向所述用户反馈,具体包括:在人机交互对弈过程中,于所述用户每次落子后,确定所述用户的第一特征值作为所述过程数据,并根据所述第一特征值生成单步评分;其中,所述第四特征值包括胜率、目差中的至少一项;在人机交互对弈结束后,根据所述单步评分生成整体评分;将所述单步评分和所述整体评分作为所述教学反馈数据。
在一些可选的实施例中,所述根据所述过程数据生成教学反馈数据并向所述用户反馈,具体包括:对于每个所述单步评分,响应于确定该单步评分低于预定的评分阈值,根据所述人机交互对弈过程中该单步评分对应的落子时刻的对局数据,生成推荐落子数据,并将该荐落子数据作为所述教学反馈数据。
在一些可选的实施例中,所述方法还包括:获取一定数量的棋谱数据;对于每个所述棋谱数据,确定该棋谱数据的手数信息,并根据所述手数信息从该棋谱数据中筛选出分别对应于布局阶段、中盘阶段和收官阶段的部分作为所述棋局数据;和/或,对于每个所述棋谱数据,将该棋谱数据输入预先训练的阶段筛选模型,以得到该棋谱数据中对应于治孤阶段、攻击阶段、对杀阶段、破坏模样阶段或经验模样阶段的部分作为所述棋局数据;根据所述棋局数据,建立得到所述分阶段棋局数据库。
在一些可选的实施例中,所述建立得到所述分阶段棋局数据库,之前还包括:对于每个所述棋局数据,确定该棋局数据对应的对弈局面的第二特征值,响应于确定所述第二特征值未落入预定的阈值区间,将该棋局数据去除;其中,所述第二特征值包括胜率、目差中的至少一项;和/或,对于每个所述棋局数据,确定该棋局数据对应的对弈局面的第二落子概率矩阵,并确定所述第二落子概率矩阵的离散度,响应于确定所述离散度低于预定的离散度阈值,将该棋局数据去除;根据剩余的所述棋局数据,建立得到所述分阶段棋局数据库。
在一些可选的实施例中,所述基于所述教学对局与所述用户进行人机交互对弈,具体包括:在所述人机交互对弈开始时,确定所述用户的第三特征值;在所述人机交互对弈过程中,于任一方落子后,确定所述用户的第四特征值;确定所述第三特征值与所述第四特征值的差值;响应于确定所述差值超出预定的阈值,终止所述人机交互对弈;其中,所述第三特征值和所述第四特征值均包括胜率、目差中的至少一项。
基于同一发明构思,本申请示例性实施例还提供了一种分阶段围棋教学装置,包括:
获取模块,被配置为在预先建立的包括有一定数量的棋局数据的分阶段棋局数据库中,获取与用户当前的围棋教学阶段相适应的目标棋局数据;
对弈模块,被配置为根据所述目标棋局数据生成教学对局,并基于所述教学对局与所述用户进行人机交互对弈;
反馈模块,被配置为记录所述人机交互对弈的过程中产生的过程数据,根据所述过程数据生成教学反馈数据并向所述用户反馈。
基于同一发明构思,本申请示例性实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上任意一项所述的方法。
基于同一发明构思,本申请示例性实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行如上任意一项所述的方法。
从上面所述可以看出,本申请示例性实施例提供的分阶段围棋教学方法、装置、电子设备及存储介质,预先建立有分阶段棋局数据库,该分阶段棋局数据库中存储有对应于围棋不同阶段的棋局数据;根据用户当前的围棋教学阶段在分阶段棋局数据库中选择相应的目标棋局数据后,可以基于该目标棋局数据生成相应阶段的教学对局并进行人机交互对弈;于人机交互对弈的过程中还可以记录产生的过程数据,并生成反馈数据向用户反馈,从而实现有效且高效的分阶段围棋教学。
附图说明
为了更清楚地说明本申请或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请示例性实施例的应用场景示意图;
图2为本申请示例性实施例的分阶段围棋教学方法流程示意图;
图3为本申请示例性实施例中建立得到分阶段棋局数据库的步骤流程示意图;
图4为本申请示例性实施例的分阶段围棋教学装置结构示意图;
图5为本申请示例性实施例的电子设备示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本申请的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本申请,而并非以任何方式限制本申请的范围。相反,提供这些实施方式是为了使本申请更加透彻和完整,并且能够将本申请的范围完整地传达给本领域的技术人员。
根据本申请的实施方式,提出了一种分阶段围棋教学方法、装置、电子设备及存储介质。
在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本申请的若干代表性实施方式,详细阐释本申请的原理和精神。
发明概述
现有的人机交互式围棋教学中,用户可以通过智能终端与智能终端本地设置的智能体进行围棋对弈,或者是通过智能终端与云端的智能体进行围棋对弈。其中,智能体可以是预先设置的围棋对弈程序,例如,各种常见的围棋教学软件;或者是经过预先训练的具有围棋对弈功能的机器学习模型,例如,已经成功战胜职业围棋选手的人工智能Alphago(阿尔法围棋)。基于互联网、人工智能和智能终端技术,人机交互式围棋教学有效的克服了传统围棋教学中普遍存在的教学形式单一枯燥、教育资源不足的问题,并且符合现如今在线教学的整体教学趋势,已经逐渐成为围棋教学的主要方式。
分阶段围棋教学,可以根据不同阶段的特点,有针对性的培养用户在相应阶段下的对弈能力,十分有利于用户整体对弈能力的提升,是围棋教育中最为重要的项目之一。目前,对于分阶段围棋教学,往往还依赖于通过教师人工讲解或者用户通过教材学习的方式来实现。上述方式缺乏实战互动,在教学效果上存在明显的欠缺。此外,现有的基于人工智能的交互式对弈中,人工智能的训练和工作过程中均不存在阶段的概念,因此单纯的人工智能对弈系统无法确定与用户适应的围棋阶段,也即无法实现分阶段围棋教学。可见,现有的教学方案均无法为用户提供针对性的分阶段围棋教学,因此需要一种能够为不同用户实现针对性的分阶段围棋教学方案。
为解决上述问题,本申请提供了一种分阶段围棋教学方案,具体包括:在预先建立的包括有一定数量的棋局数据的分阶段棋局数据库中,获取与用户当前的围棋教学阶段相适应的目标棋局数据;根据所述目标棋局数据生成教学对局,并基于所述教学对局与所述用户进行人机交互对弈;记录所述人机交互对弈的过程中产生的过程数据,根据所述过程数据生成教学反馈数据并向所述用户反馈。本申请实施例的方案,预先建立有分阶段棋局数据库,该分阶段棋局数据库中存储有对应于围棋不同阶段的棋局数据;根据用户当前的围棋教学阶段在分阶段棋局数据库中选择相应的目标棋局数据后,可以基于该目标棋局数据生成相应阶段的教学对局并进行人机交互对弈;于人机交互对弈的过程中还可以记录产生的过程数据,并生成反馈数据向用户反馈,从而实现有效且高效的分阶段围棋教学。此外,本申请的一些实施例的方案中,还可以在人机交互对弈过程中,根据用户所练习的阶段或者具体的对局情况来调整对弈策略,以进一步提升分阶段围棋教学的效果。
在介绍了本申请的基本原理之后,下面具体介绍本申请的各种非限制性实施方式。
应用场景总览
参考图1,其为本申请实施例提供的分阶段围棋教学方法的应用场景示意图。该应用场景包括终端设备101、服务器102、和数据存储系统103。其中,终端设备101、服务器102以及数据存储系统103之间均可通过有线或无线的通信网络连接。终端设备101包括但不限于桌面计算机、移动电话、移动电脑、平板电脑、媒体播放器、智能可穿戴设备视、个人数字助理(personal digital assistant,PDA)或其它能够实现上述功能的电子设备等。服务器102和数据存储系统103均可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
服务器102用于向终端设备101的用户提供围棋对弈教学服务,终端设备101中安装有与服务器102通信的客户端,用户可通过该客户端进行人机交互式围棋对弈教学活动。在围棋对弈教学过程中,客户端通过调用终端设备101输入组件(如键盘、麦克风等)来获取用户输入的对弈相关数据(阶段选择、落子等)并将该些数据发送给服务器102。数据存储系统103中设置有分阶段棋局数据库,分阶段棋局数据库包括了海量的对应于不同阶段的棋局数据。服务器102可以根据用户通过客户端发送的请求或主动获取的用户画像数据来在分阶段棋局数据库匹配与用户当前的围棋教学阶段相适应的目标棋局数据,并将目标棋局数据并返回至终端设备101。终端设备101通过客户端基于目标棋局数据生成教学对局,并与所述用户进行人机交互对弈,终端设备101还可以通过客户端记录人机交互对弈的过程中产生的过程数据,并根据该过程数据生成教学反馈数据并向用户反馈,从而实现分阶段的围棋教学过程。
此外,本申请实施例的分阶段围棋教学方法,也可以完全在终端设备101本地实现。终端设备101预先设置有用于实现人机交互对弈的程序或机器学习模型,并预先设置有包括了海量的对应于不同阶段的棋局数据的分阶段棋局数据库。用户通过终端设备101中安装的客户端进行围棋对弈教学,并完成与前述类似的分阶段的围棋教学过程。
下面结合图1的应用场景,来描述根据本申请示例性实施方式的图像的处理方法。需要注意的是,上述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。
示例性方法
参考图2,本申请实施例提供了一种分阶段围棋教学方法,包括以下步骤:
步骤S201、在预先建立的包括有一定数量的棋局数据的分阶段棋局数据库中,获取与用户当前的围棋教学阶段相适应的目标棋局数据。
本申请实施例中,预先构建有存储了海量的棋局数据的分阶段棋局数据库。该分阶段棋局数据库可以设置在智能终端本地,也可以设置在提供围棋对弈教学服务的服务器上。
具体实施时,不同的棋局数据分别对应于围棋对弈中的不同阶段。其中,围棋对弈中的不同阶段,以对局的进程来划分,可以包括布局阶段、中盘阶段和收官阶段;以对局的内容来划分,可以包括治孤阶段、攻击阶段、对杀阶段、破坏模样阶段或经验模样阶段等。棋局数据记载了用于表达上述任意例举的阶段所对应的棋局的具体局面的数据,具体的数据内容可以包括双方的手数、落子顺子、目前棋盘上的全部棋子的位置等。棋局数据可选选择任意的数据格式来存储,例如json。
具体实施时,获取与用户当前的围棋教学阶段相适应的棋局数据的步骤可以通过在分阶段棋局数据库中进行匹配检索的方式;其中,匹配检索得到的棋局数据本申请实施例中称之为目标棋局数据。对于用户当前的围棋教学阶段,可以通过用户主动提交的方式获得,在用户通过客户端进行分阶段围棋教学时,可以主动提交其所需要的围棋教学阶段;例如,用户目前处于布局阶段的学习中,则可以通过客户端相应设定的输入栏来输入或选择布局阶段进行学习。用户当前的围棋教学阶段也可以通过对用户画像的分析获得,例如,可以通过客户端调取用户的使用历史数据,通过历史数据提取用户画像数据,并将用户画像数据与对应于不同围棋教学阶段的特征数数据进行匹配的方式,来确定出用户当前的围棋教学阶段。确定出的用户当前的围棋教学阶段可以以标签的形式存储并使用。相应的,分阶段棋局数据库中的棋局数据也分别设置有表示其所对应的阶段的标签。在进行匹配检索时,将记载用户当前的围棋教学阶段的标签与分阶段棋局数据库中的各棋局数据的标签进行匹配检索,匹配得到的棋局数据即作为所述的目标棋局数据,其表明目标棋局数据对应的阶段与用户当前的围棋教学阶段是相适应的。
步骤S202、根据所述目标棋局数据生成教学对局,并基于所述教学对局与所述用户进行人机交互对弈。
具体实施时,根据前述步骤获得的目标棋局数据,在客户端中生成用于与用户进行对弈的教学对局;由于该目标棋局数据与具体的阶段对应,则生成的该教学对局包括了相应阶段下的棋局内容。例如,用户的当前的围棋教学阶段为布局阶段,相应的通过步骤S101获取到了对应于布局阶段的目标棋局数据,根据该目标棋局数据可以生成一布局阶段的对局,该生成的对局中已经包括了对弈双方的一些落子,该些落子构成布局阶段的棋局。
具体实施时,基于生成的教学对局,客户端通过预先设置的对弈策略(例如可以是围棋对弈程序或人工智能)与用户分别作为对弈双方进行人机交互对弈,也即以教学对局提供的相应阶段的棋局为开始进行续下。
具体实施时,可以在基于教学对局续下的人机交互对弈过程中,根据用户所练习的阶段或者具体的对局情况来调整对弈策略,以进一步提升分阶段围棋教学的效果。具体的,本实施例中所使用的人工智能可以为AlphaGo Zero(阿尔法围棋的一个较新版本,后简称AGZ),AGZ中做出的落子动作基于蒙特卡洛搜索树算法(Monte Carlo Tree Search,MCTS),本实施例中通过对于MCTS的改进来实现对弈策略的调整。
基于MCTS,根据当前的局面,人工智能会计算所有可能的落子,对于每个可能的落子还会计算用户可能的落子,并计算依次落子直至终局,计算时双方均考虑胜率最大化,上述过程即形成MCTS的树形搜索。现有技术中的MCTS的整体上可以概括为选择、扩展、模拟、回溯四个步骤。本实施例中,对于MCTS进行了改进,去掉了模拟步骤,并在经过选择、扩展和回溯后,进行一次落子。其中,具体的对于选择步骤进行改进,从而在计算资源有限的情况下,在树形搜索中进行节点的搜索时,调整搜索的深度或广度。
具体实施时,选择步骤决定树形搜索形成的搜索树的形状。当搜索的深度更大时,节点的最大层数更大;当搜索的广度更大时,同层内的节点数量更多。其中,MCTS选择节点的方式可以通过如下公式表示:
Figure BDA0003322348420000081
其中,(Pθ(s,·),Vθ(s))=fθ(s)
Q(s,a)=1/(N(s,a)∑s`|s,a->s`Vθ(s`))
上式中,s为当前棋盘状态对应的搜索树根节点;a为当前棋盘状态下某一合法的走子行为,对应为搜索树的边;s`为节点s执行动作a后棋盘状态对应的子节点;fθ(·)是一个神经网络,输入是当前棋盘状态,输出是Pθ(s,·)和Vθ,Pθ(s,·)为该神经网络的走子策略(policy)端的输出,为向量形式;Vθ是该神经网络的价值(value)端输出,是一个[-1,1]区间内的标量,用于预测当前棋盘状态的胜者;Pθ(s,a)是s执行动作a的预测概率,为标量形式;N(s,a)是节点s对于边a的访问次数。Cpuct是一个权重量,由公式可见,在计算资源相同的情况下(即根节点访问总次数N固定),Cpuct越大,AGZ会倾向于选择
Figure BDA0003322348420000091
更大的值,这有利于AGZ计算未访问到的节点,即增加了选择的广度;反之,Cpuct越小,AGZ会倾向于计算已访问到的节点,会增加AGZ选择的深度。
在现有技术中,Cpuct设置为一个不变的常量。在本实施例中,则通过根据不同的阶段针对性的设置Cpuct来实现对于选择的深度或广度的调整。
作为一种可选的实施方式,目标棋局数据会关联有用于表示其对应阶段的阶段标签。人机交互对弈过程时,MCTS的选择步骤中,会获取目标棋局数据关联的阶段标签,并根据该阶段标签来调整Cpuct,从而实现对于选择的深度或广度的调整。例如,阶段标签表明,目标棋局数据对应的为布局阶段;根据围棋理论,布局阶段为需要高搜索广度的场景,则响应于该阶段标签的获取,将Cpuct设置为一个较大的值,从而增加选择的广度。
作为另一种可选的实施方式,对于无阶段标签来表明具体的阶段的情况,可以根据当前局面的不确定程度来调整Cpuct。具体的,于用户进行落子后,根据用户的落子位置和落子后的棋盘的布局,通过AGZ来得到第一落子概率矩阵。该第一落子概率矩阵用于表示下一步落子的概率分布,该概率矩阵为19*19大小(对应于围棋棋盘)矩阵,矩阵中的每个值分别为在棋盘上对应的位置处落子的概率值,对于落子的概率值可以以0-1区间内的数值表示,而对于非法的落子位置的概率则可以表示为NAN。在本实施例中则可以通过第一落子概率矩阵来表达当前局面的不确定程度,并相应调整Cpuct,具体的调整方式可以为:
Figure BDA0003322348420000101
其中,
Figure BDA0003322348420000102
为调整后的权重量;
Figure BDA0003322348420000103
为当前的权重量;n为第一落子概率矩阵的容量,具体为n=19*19=361,xk为概率矩阵中第k项的值,k的取值范围为1≤k≤n。可见,当前局面的不确定程度越高,则将Cpuct调整的越大,从而增加选择的广度;反之,当前局面的不确定程度越低,则则将Cpuct调整的越小,从而增加选择的深度。
上述两种调整选择的深度或广度的方式,可以根据具体的实施需要,择一使用或者同时使用。
步骤S203、记录所述人机交互对弈的过程中产生的过程数据,根据所述过程数据生成教学反馈数据并向所述用户反馈。
具体实施例时,还会对人机交互对弈的过程中产生的过程数据进行记录。该过程数据可以包括对弈过程中对弈双方的每一落子位置、每一步落子后的棋盘局面等用于表示对局内容的数据;此外,也可以记录用户落子的用时、整体对局的用时等相关的数据。基于记录的过程数据,可以相应的生成用户该次阶段教学过程对应的教学反馈数据,并将该教学反馈数据通过客户端反馈给用户,以使用户能够了解该次阶段教学过程的结果、评价、建议等教学反馈,从而实现完整的教学过程。其中,反馈的具体方式可以为通过终端设备的显示屏显示、发送消息至用户绑定的其他终端设备、发送邮件至用户的注册邮箱等。
作为一个可选的实施方式,可以根据人机交互对弈的过程中产生的过程数据,来对用户的每一步和对局结束后的整体进行评分,并将该些评分作为教学反馈数据向用户反馈。具体的,在人机交互对弈过程中,于用户每次落子后,确定用户的胜率、目差中的至少一项,并根据该些数据来为用户该次落子生成评分,本实施例中称为单步评分;而用于计算单步评分的胜率、目差数据本实施例中称为第一特征值。其中,第一特征值可以用过将落子后的棋盘数据输入AGZ后获得,或者也可以其他任意可行的方式获得所述的第一特征值。
具体的,单步评分可以通过如下公式计算:
Figure BDA0003322348420000111
其中,Score为单步评分,值域为(0,100);P为当前步落子后的胜率;P’为上一步落子后的胜率;A为当前步落子后的目差;A’为上一步落子后的目差。
例如,当前步落子后的胜率为30%,上一步落子后的胜率为40%,当前步落子后的目差为-2,上一步落子后的目差为-1,则通过上式计算可以得到单步评分为73.1。
具体实施例时,在人机交互对弈结束后,还可以根据用户每一步落子后得到的单步评分来生成本次教学对局的整体评分。具体的,可以将用户每一步落子后得到的单步评分求平均值来得到整体评分。此外,也可以通过将单步评分加权平均的方式得到整体评分;其中,权值的设定可以根据具体的实施需要而设定,例如,可以将教学对局开始后的若干步的单步评分的权值设置的更高,以更加突出的反映用户对于当前的阶段教学的学习程度。
具体实施例时,通过上述任意方式得到单步评分和整体评分后,则可以将单步评分和整体评分作为教学反馈数据向用户反馈。
作为一个可选的实施方式,将用户每一步落子后得到的单步评分作为教学反馈数据的实施例中,还可以进一步包括对于单步评分较低的落子给出建议的步骤。具体的,于用户每一步落子得到单步评分后,还可以将该单步评分于预定的评分阈值进行比对,响应于确定该单步评分低于预定的评分阈值,根据人机交互对弈过程中该单步评分对应的落子时刻的对局数据,生成推荐落子数据,并将该荐落子数据作为教学反馈数据。其中,推荐落子数据可以将对局数据输入AGZ后获得,获得的该荐落子数据可以与单步评分、整体评分一并作为教学反馈数据向用户反馈。本实施例中,通过推荐落子数据的反馈,可以令用户得知教学对局中落子较差的手,并能够根据推荐落子数据进行学习,实现较佳的分阶段围棋教学的效果。
作为可选的实施例,本申请实施例的方法,还可以包括建立得到分阶段棋局数据库的步骤。参考图3,该建立得到分阶段棋局数据库的步骤,具体包括:
步骤S301、获取一定数量的棋谱数据。
具体实施时,可以先获取一定数量的棋谱数据,该棋谱数据的格式可以为sgf(smart game format),sgf是一种使用文本记录棋谱信息的格式,常用于棋谱信息的电子化记载和存储。此外,获得棋谱数据后,还可以对其进行清洗、去重等预处理,清洗、去重的具体方式可以选用任意的现有技术,本实施例中不做限定。
步骤S302、对于每个所述棋谱数据,确定该棋谱数据的手数信息,并根据所述手数信息从该棋谱数据中筛选出分别对应于布局阶段、中盘阶段和收官阶段的部分作为所述棋局数据;和/或,对于每个所述棋谱数据,将该棋谱数据输入预先训练的阶段筛选模型,以得到该棋谱数据中对应于治孤阶段、攻击阶段、对杀阶段、破坏模样阶段或经验模样阶段的部分作为所述棋局数据。
具体实施时,可以将棋谱数据输入AGZ以解析得到该棋谱数据包括的具体信息,如手数信息、落子信息、布局信息等。
作为一个可选的实施方式,手数信息可以表达对弈双方总共进行了多少手落子,基于该手数信息可以确定对局所处的阶段。具体的,对于每个棋谱数据,确定该棋谱数据的手数信息,并根据手数信息从该棋谱数据中筛选出分别对应于布局阶段、中盘阶段和收官阶段的部分作为棋局数据。作为一个示例,可以将棋谱数据中手数信息在[10,60]范围内对应的部分作为布局阶段的棋局数据;可以将棋谱数据中手数信息在[61,150]范围内对应的部分作为中盘阶段的棋局数据;可以将棋谱数据中手数信息在[151,棋谱数据结束]范围内对应的部分作为收官阶段的棋局数据。
作为一个可选的实施方式,可以通过人工智能的方式从棋谱数据中获得不同阶段的棋局数据。可以获取海量的棋谱数据作为样本,并将棋谱数据中对应治孤阶段、攻击阶段、对杀阶段、破坏模样阶段、经验模样阶段等阶段的部分进行标注,以构建样本集。然后,通过机器学习模型提取各样本的特征并学习其数据特点,并通过训练得到阶段筛选模型。其中,阶段筛选模型可以选择深度学习模型(DNN)、序列模型(RNN)、图神经网络模型(GNN)等任意可行的模型结构,本实施例中不做限定。基于该预先训练好的阶段筛选模型,对于每个棋谱数据,将该棋谱数据输入阶段筛选模型,以得到该棋谱数据中对应于治孤阶段、攻击阶段、对杀阶段、破坏模样阶段或经验模样阶段的部分作为棋局数据。
步骤S303、根据所述棋局数据,建立得到所述分阶段棋局数据库。
具体实施时,通过上述任意的方式获得棋局数据后,并可以基于该些棋局数据建立得到分阶段棋局数据库,以供在获取与用户当前的围棋教学阶段相适应的目标棋局数据时使用。
作为一个可选的实施方式,在得到棋局数据后,且在建立得到分阶段棋局数据库之前,还可以进一步包括对于棋局数据进行筛选的步骤,通过筛选去除掉不适合作为教学使用的棋局数据。
具体实施时,为适用于教学使用,需要对弈双方的预期胜率不宜过高或过低。基于此,可以对于每个棋局数据,确定该棋局数据对应的对弈局面下对弈双方的胜率、目差中的至少一项,本实施例中用于筛选棋局数据的胜率、目差数据本实施例中称为第二特征值。对应于教学使用的需求,可以预先设定阈值区间,该阈值区间对应于对弈双方的预期胜率较为适中。对于每个棋局数据的第二特征值,将其与该阈值区间进行比对,响应于确定第二特征值未落入该阈值区间,表明该棋局数据不适用于教学使用,将该棋局数据去除。
具体实施时,为适用于教学使用,还需要使棋局数据对应的对弈局面具有一定得开放性,也即需要对弈局面的不确定程度不宜过低。基于此,可以对于每个棋局数据,确定该棋局数据对应的对弈局面的第二落子概率矩阵,该第二落子概率矩阵的具体形式可以参考前述实施例中关于第一落子概率矩阵的说明。对于每个棋局数据,可以确定该棋局数据对应的第二落子概率矩阵的离散度,离散度为概率矩阵的一个统计量,其能够反映概率矩阵中的各概率值的离散程度。对应到本申请的应用场景中,第二落子概率矩阵的离散度不应过低。相应的,可以预先设定离散度阈值;对于每个棋局数据,将其第二落子概率矩阵的离散度与上述离散度阈值进行比对,响应于确定离散度低于该离散度阈值,表明该棋局数据不适用于教学使用,将该棋局数据去除。
其中,第二落子概率矩阵的离散度可以通过以下方式计算:
Figure BDA0003322348420000131
上式中,D(policy)为概率矩阵的离散度,n为概率矩阵的容量,具体为n=19*19=361,xk为概率矩阵中第k项的值,k的取值范围为1≤k≤n。
具体实施时,经过上述任一或全部的方式对棋局数据进行筛选后,即可以根据剩余的棋局数据,建立得到分阶段棋局数据库。由于进行了筛选,分阶段棋局数据库中的棋局数据均较为适合教学使用,能够进一步提升分阶段围棋教学的效果。
作为可选的实施例,由于本申请实施例的对弈为教学用途,故人机交互对弈的最终目的并非是决出胜负,所以可以基于教学需要而设置判定终止对弈。基于此,本申请实施例的方法中,还可以包括判定人机交互对弈终止的步骤。具体的构思为,若用户的胜率、目差中的至少一项相比于人机交互对弈开始时的相应数据有明显的提高或降低,则对弈的最终结果较为确定,则可以终止对弈。上述构思可以表述为以下步骤:在人机交互对弈开始时,确定用户的第三特征值;在人机交互对弈过程中,于任一方落子后,确定用户的第四特征值;确定第三特征值与第四特征值的差值;响应于确定差值超出预定的阈值,终止人机交互对弈。其中,人机交互对弈开始时的用户的胜率、目差数据本实施例中称为第三特征值;而任一方落子后,用户的胜率、目差数据本实施例中称为第四特征值。
此外,也可以通过其他的方式判定人机交互对弈终止。例如,可以预先设置最低手数阈值或最高手数阈值,当对弈双方基于所述教学对局进行续下对弈的手数达到该最低手数阈值或最高手数阈值后,即可以判定人机交互对弈终止。
由上述实施例可见,本申请实施例的分阶段围棋教学方法,预先建立有分阶段棋局数据库,该分阶段棋局数据库中存储有对应于围棋不同阶段的棋局数据;根据用户当前的围棋教学阶段在分阶段棋局数据库中选择相应的目标棋局数据后,可以基于该目标棋局数据生成相应阶段的教学对局并进行人机交互对弈;于人机交互对弈的过程中还可以记录产生的过程数据,并生成反馈数据向用户反馈,从而实现有效且高效的分阶段围棋教学。此外,本申请的一些实施例的方案中,还可以在人机交互对弈过程中,根据用户所练习的阶段或者具体的对局情况来调整对弈策略,以进一步提升分阶段围棋教学的效果。
需要说明的是,本申请实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
示例性设备
基于同一发明构思,与上述任意示例性实施例方法相对应的,本申请还提供了一种分阶段围棋教学装置。
参考图4,该分阶段围棋教学装置,包括:
获取模块401,被配置为在预先建立的包括有一定数量的棋局数据的分阶段棋局数据库中,获取与用户当前的围棋教学阶段相适应的目标棋局数据;
对弈模块402,被配置为根据所述目标棋局数据生成教学对局,并基于所述教学对局与所述用户进行人机交互对弈;
反馈模块403,被配置为记录所述人机交互对弈的过程中产生的过程数据,根据所述过程数据生成教学反馈数据并向所述用户反馈。
在一些可选的实施例中,所述目标棋局数据关联有用于表示其对应阶段的阶段标签;对弈模块402,具体被配置为根据蒙特卡洛搜索树算法执行所述人机交互对弈;其中,在蒙特卡洛搜索树算法的选择步骤中,根据所述目标棋局数据的所述阶段标签,调整选择的深度或广度;和/或,根据所述用户落子后的对弈局面的第一落子概率矩阵,根据所述第一落子概率矩阵调整选择的深度或广度。
在一些可选的实施例中,反馈模块403,具体被配置为在人机交互对弈过程中,于所述用户每次落子后,确定所述用户的第一特征值作为所述过程数据,并根据所述第一特征值生成单步评分;其中,所述第四特征值包括胜率、目差中的至少一项;在人机交互对弈结束后,根据所述单步评分生成整体评分;将所述单步评分和所述整体评分作为所述教学反馈数据。
在一些可选的实施例中,反馈模块403,具体被配置为对于每个所述单步评分,响应于确定该单步评分低于预定的评分阈值,根据所述人机交互对弈过程中该单步评分对应的落子时刻的对局数据,生成推荐落子数据,并将该荐落子数据作为所述教学反馈数据。
在一些可选的实施例中,所述的分阶段围棋教学装置,还包括:建立模块,被配置为获取一定数量的棋谱数据;对于每个所述棋谱数据,确定该棋谱数据的手数信息,并根据所述手数信息从该棋谱数据中筛选出分别对应于布局阶段、中盘阶段和收官阶段的部分作为所述棋局数据;和/或,对于每个所述棋谱数据,将该棋谱数据输入预先训练的阶段筛选模型,以得到该棋谱数据中对应于治孤阶段、攻击阶段、对杀阶段、破坏模样阶段或经验模样阶段的部分作为所述棋局数据;根据所述棋局数据,建立得到所述分阶段棋局数据库。
在一些可选的实施例中,建立模块,具体被配置为对于每个所述棋局数据,确定该棋局数据对应的对弈局面的第二特征值,响应于确定所述第二特征值未落入预定的阈值区间,将该棋局数据去除;其中,所述第二特征值包括胜率、目差中的至少一项;和/或,对于每个所述棋局数据,确定该棋局数据对应的对弈局面的第二落子概率矩阵,并确定所述第二落子概率矩阵的离散度,响应于确定所述离散度低于预定的离散度阈值,将该棋局数据去除;根据剩余的所述棋局数据,建立得到所述分阶段棋局数据库。
在一些可选的实施例中,对弈模块402,具体被配置为在所述人机交互对弈开始时,确定所述用户的第三特征值;在所述人机交互对弈过程中,于任一方落子后,确定所述用户的第四特征值;确定所述第三特征值与所述第四特征值的差值;响应于确定所述差值超出预定的阈值,终止所述人机交互对弈;其中,所述第三特征值和所述第四特征值均包括胜率、目差中的至少一项。
上述实施例的装置用于实现如上示例性方法部分中任一实施例中相应的分阶段围棋教学方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意示例性实施例方法相对应的,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上示例性方法部分中任一实施例所述的分阶段围棋教学方法。
图5示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现如上示例性方法部分中任一实施例中相应的分阶段围棋教学方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
示例性程序产品
基于同一发明构思,与上述任意示例性实施例方法相对应的,本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上示例性方法部分中任一实施例所述的分阶段围棋教学方法。
上述非暂态计算机可读存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上示例性方法部分中任一实施例所述的分阶段围棋教学方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
本领域技术技术人员知道,本申请的实施方式可以实现为一种系统、方法或计算机程序产品。因此,本申请可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本申请还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是,但不限于,电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举示例)例如可以包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,这些计算机程序指令通过计算机或其它可编程数据处理装置执行,产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。
也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置的产品。
也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
申请文件中提及的动词“包括”、“包含”及其词形变化的使用不排除除了申请文件中记载的那些元素或步骤之外的元素或步骤的存在。元素前的冠词“一”或“一个”不排除多个这种元素的存在。
虽然已经参考若干具体实施方式描述了本申请的精神和原理,但是应该理解,本申请并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本申请旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释,从而包含所有这样的修改及等同结构和功能。

Claims (10)

1.一种分阶段围棋教学方法,其特征在于,包括:
在预先建立的包括有一定数量的棋局数据的分阶段棋局数据库中,获取与用户当前的围棋教学阶段相适应的目标棋局数据;其中,不同的棋局数据分别对应于围棋对弈中的不同阶段;
根据所述目标棋局数据生成教学对局,并基于所述教学对局与所述用户进行人机交互对弈;其中,根据蒙特卡洛搜索树算法执行所述人机交互对弈,在蒙特卡洛搜索树算法的选择步骤中,根据所述用户落子后的对弈局面的第一落子概率矩阵,根据所述第一落子概率矩阵设置选择节点计算中的权重量,以调整选择的深度或广度;
记录所述人机交互对弈的过程中产生的过程数据,根据所述过程数据生成教学反馈数据并向所述用户反馈;其中,所述教学反馈数据包括用户每次落子后的单步评分,所述单步评分是根据第一特征值生成的,所述第一特征值包括胜率、目差中的至少一项。
2.根据权利要求1所述的方法,其特征在于,所述目标棋局数据关联有用于表示其对应阶段的阶段标签;
所述基于所述教学对局与所述用户进行人机交互对弈,具体包括:
在蒙特卡洛搜索树算法的选择步骤中,根据所述目标棋局数据的所述阶段标签,调整选择的深度或广度。
3.根据权利要求1所述的方法,其特征在于,所述记录所述人机交互对弈的过程中产生的过程数据,根据所述过程数据生成教学反馈数据并向所述用户反馈,具体包括:
在人机交互对弈过程中,于所述用户每次落子后,确定所述用户的第一特征值作为所述过程数据,并根据所述第一特征值生成单步评分;
在人机交互对弈结束后,根据所述单步评分生成整体评分;
将所述单步评分和所述整体评分作为所述教学反馈数据。
4.根据权利要求3所述的方法,其特征在于,所述根据所述过程数据生成教学反馈数据并向所述用户反馈,具体包括:
对于每个所述单步评分,响应于确定该单步评分低于预定的评分阈值,根据所述人机交互对弈过程中该单步评分对应的落子时刻的对局数据,生成推荐落子数据,并将该荐落子数据作为所述教学反馈数据。
5.根据权利要求1所述的方法,其特征在于,还包括:
获取一定数量的棋谱数据;
对于每个所述棋谱数据,确定该棋谱数据的手数信息,并根据所述手数信息从该棋谱数据中筛选出分别对应于布局阶段、中盘阶段和收官阶段的部分作为所述棋局数据;和/或,对于每个所述棋谱数据,将该棋谱数据输入预先训练的阶段筛选模型,以得到该棋谱数据中对应于治孤阶段、攻击阶段、对杀阶段、破坏模样阶段或经验模样阶段的部分作为所述棋局数据;
根据所述棋局数据,建立得到所述分阶段棋局数据库。
6.根据权利要求5所述的方法,其特征在于,所述建立得到所述分阶段棋局数据库,之前还包括:
对于每个所述棋局数据,确定该棋局数据对应的对弈局面的第二特征值,响应于确定所述第二特征值未落入预定的阈值区间,将该棋局数据去除;其中,所述第二特征值包括胜率、目差中的至少一项;和/或,对于每个所述棋局数据,确定该棋局数据对应的对弈局面的第二落子概率矩阵,并确定所述第二落子概率矩阵的离散度,响应于确定所述离散度低于预定的离散度阈值,将该棋局数据去除;
根据剩余的所述棋局数据,建立得到所述分阶段棋局数据库。
7.根据权利要求1所述的方法,其特征在于,所述基于所述教学对局与所述用户进行人机交互对弈,具体包括:
在所述人机交互对弈开始时,确定所述用户的第三特征值;
在所述人机交互对弈过程中,于任一方落子后,确定所述用户的第四特征值;
确定所述第三特征值与所述第四特征值的差值;响应于确定所述差值超出预定的阈值,终止所述人机交互对弈;
其中,所述第三特征值和所述第四特征值均包括胜率、目差中的至少一项。
8.一种分阶段围棋教学装置,其特征在于,包括:
获取模块,被配置为在预先建立的包括有一定数量的棋局数据的分阶段棋局数据库中,获取与用户当前的围棋教学阶段相适应的目标棋局数据;其中,不同的棋局数据分别对应于围棋对弈中的不同阶段;
对弈模块,被配置为根据所述目标棋局数据生成教学对局,并基于所述教学对局与所述用户进行人机交互对弈;其中,根据蒙特卡洛搜索树算法执行所述人机交互对弈,在蒙特卡洛搜索树算法的选择步骤中,根据所述用户落子后的对弈局面的第一落子概率矩阵,根据所述第一落子概率矩阵设置选择节点计算中的权重量,以调整选择的深度或广度;
反馈模块,被配置为记录所述人机交互对弈的过程中产生的过程数据,根据所述过程数据生成教学反馈数据并向所述用户反馈;其中,所述教学反馈数据包括用户每次落子后的单步评分,所述单步评分是根据第一特征值生成的,所述第一特征值包括胜率、目差中的至少一项。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任意一项所述的方法。
10.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,其特征在于,所述计算机指令用于使计算机执行权利要求1至7任一所述方法。
CN202111250153.8A 2021-10-26 2021-10-26 分阶段围棋教学方法、装置、电子设备及存储介质 Active CN113946604B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111250153.8A CN113946604B (zh) 2021-10-26 2021-10-26 分阶段围棋教学方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111250153.8A CN113946604B (zh) 2021-10-26 2021-10-26 分阶段围棋教学方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113946604A CN113946604A (zh) 2022-01-18
CN113946604B true CN113946604B (zh) 2023-01-20

Family

ID=79332627

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111250153.8A Active CN113946604B (zh) 2021-10-26 2021-10-26 分阶段围棋教学方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113946604B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114461788A (zh) * 2022-02-21 2022-05-10 北京市商汤科技开发有限公司 对弈讲解方案生成方法、装置、电子设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1517935A (zh) * 2003-01-03 2004-08-04 泰金有限公司 1:n方式的在线围棋对局系统及其方法、以及记录媒体
GB201416294D0 (en) * 2014-09-15 2014-10-29 Mcneight David L Thinking Machines
CN106169188A (zh) * 2016-07-11 2016-11-30 西南交通大学 一种基于蒙特卡洛树搜索的对象跟踪方法
CN106339582A (zh) * 2016-08-19 2017-01-18 北京大学深圳研究生院 一种基于机器博弈技术的棋牌类游戏自动化残局生成方法
CN106537482A (zh) * 2014-07-17 2017-03-22 科瑞莱恩软件有限公司 利用棋谱的围棋学习方法及其装置
CN107433032A (zh) * 2016-05-25 2017-12-05 博雅网络游戏开发(深圳)有限公司 棋局数据处理方法和装置
CN108304929A (zh) * 2018-02-01 2018-07-20 北京理工大学 一种点格棋最佳招法的确定方法及系统
CN108537339A (zh) * 2018-04-11 2018-09-14 中国电子科技集团公司第二十九研究所 一种对局策略获取方法及装置
CN110119804A (zh) * 2019-05-07 2019-08-13 安徽大学 一种基于强化学习的爱恩斯坦棋博弈算法
CN110378819A (zh) * 2019-07-24 2019-10-25 王云飞 一种围棋教学管理系统
CN113377779A (zh) * 2021-07-06 2021-09-10 沈阳雅译网络技术有限公司 一种围棋上的搜索博弈树的策略改进方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
HU226031B1 (hu) * 2005-02-25 2008-03-28 Laszlo Dr Polgar Logikai táblás társasjáték és szerencsejáték jellegû társasjáték
AU2009226083A1 (en) * 2008-03-19 2009-09-24 Existence Genetics Llc Genetic analysis
CN105817029B (zh) * 2016-03-14 2019-09-03 安徽大学 六子棋博弈系统中基于路和棋型的混合搜索方法
CN109214502B (zh) * 2017-07-03 2021-02-26 清华大学 神经网络权重离散化方法和系统
CN110688450B (zh) * 2019-09-24 2023-11-17 创新工场(广州)人工智能研究有限公司 一种基于蒙特卡洛树搜索的关键词生成方法、基于强化学习的关键词生成模型及电子设备
CN111104601B (zh) * 2019-12-26 2022-09-13 河南理工大学 一种对抗式多反馈层级成对个性化排名方法
CN113377099A (zh) * 2021-03-31 2021-09-10 南开大学 一种基于深度强化学习的机器人追逃博弈方法
CN113318451A (zh) * 2021-05-28 2021-08-31 南京邮电大学 一种基于机器学习的棋类自学习方法及装置
CN113426094A (zh) * 2021-06-30 2021-09-24 北京市商汤科技开发有限公司 一种棋力调整方法、装置、设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1517935A (zh) * 2003-01-03 2004-08-04 泰金有限公司 1:n方式的在线围棋对局系统及其方法、以及记录媒体
CN106537482A (zh) * 2014-07-17 2017-03-22 科瑞莱恩软件有限公司 利用棋谱的围棋学习方法及其装置
GB201416294D0 (en) * 2014-09-15 2014-10-29 Mcneight David L Thinking Machines
CN107433032A (zh) * 2016-05-25 2017-12-05 博雅网络游戏开发(深圳)有限公司 棋局数据处理方法和装置
CN106169188A (zh) * 2016-07-11 2016-11-30 西南交通大学 一种基于蒙特卡洛树搜索的对象跟踪方法
CN106339582A (zh) * 2016-08-19 2017-01-18 北京大学深圳研究生院 一种基于机器博弈技术的棋牌类游戏自动化残局生成方法
CN108304929A (zh) * 2018-02-01 2018-07-20 北京理工大学 一种点格棋最佳招法的确定方法及系统
CN108537339A (zh) * 2018-04-11 2018-09-14 中国电子科技集团公司第二十九研究所 一种对局策略获取方法及装置
CN110119804A (zh) * 2019-05-07 2019-08-13 安徽大学 一种基于强化学习的爱恩斯坦棋博弈算法
CN110378819A (zh) * 2019-07-24 2019-10-25 王云飞 一种围棋教学管理系统
CN113377779A (zh) * 2021-07-06 2021-09-10 沈阳雅译网络技术有限公司 一种围棋上的搜索博弈树的策略改进方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Monte Carlo Go Using Previous Simulation Results";T. Toyoda 等;《2010 International Conference on Technologies and Applications of Artificial Intelligence》;20110120;第182-186页 *
"强化学习在机器博弈上的应用综述";杜康豪 等;《控制工程》;20211020;第1998-2004页 *

Also Published As

Publication number Publication date
CN113946604A (zh) 2022-01-18

Similar Documents

Publication Publication Date Title
JP7399277B2 (ja) 情報処理方法、装置、コンピュータプログラム及び電子装置
US20150231502A1 (en) Game adjustments through crowdsourcing
US10880192B1 (en) Interactive agents for user engagement in an interactive environment
KR20200042737A (ko) 비정상 게임 플레이 감지 방법
CN111957047A (zh) 关卡配置数据调整方法、计算机设备及存储介质
JP7031811B2 (ja) 空間二元化を利用してスポーツゲームのプレイヤーキャラクタを育成する方法およびシステム
CN110215710B (zh) 游戏中事件确定方法及装置、电子设备和存储介质
CN113946604B (zh) 分阶段围棋教学方法、装置、电子设备及存储介质
JP2021037060A (ja) 所定のゲームを提供するためのシステム、方法、及びプログラム、並びに、デッキの分類を作成するための方法
CN113893547A (zh) 一种基于适应度函数的数据处理方法、系统及存储介质
US11738271B2 (en) Method and apparatus for predicting game difficulty by using deep-learning based game play server
CA3087629C (en) System for managing user experience and method therefor
US11458397B1 (en) Automated real-time engagement in an interactive environment
CN113934766B (zh) 围棋定式对弈方法、装置、电子设备及存储介质
CN106096653B (zh) 基于跨平台用户社交多媒体行为的人口属性推断方法
CN110263937B (zh) 一种数据处理方法、设备及存储介质
CN110975294A (zh) 游戏对战实现方法及终端
CN111330282A (zh) 一种确定出牌候选项的方法及装置
KR102259786B1 (ko) 게임 데이터 처리 방법
CN110772794B (zh) 智能游戏处理方法、装置、设备及存储介质
CN114797107A (zh) 一种基于npc行为的随机处理方法、系统、电子设备及计算机程序产品
CN111858863B (zh) 一种答复推荐方法、答复推荐装置及电子设备
KR102096935B1 (ko) 리플레이 영상을 제공하는 컴퓨팅 장치
CN109726267B (zh) 用于故事机的故事推荐方法和装置
CN110704602A (zh) 人机对话系统优化方法及人机对话系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant