CN113393063A - 比赛结果预测方法、系统、程序产品及存储介质 - Google Patents

比赛结果预测方法、系统、程序产品及存储介质 Download PDF

Info

Publication number
CN113393063A
CN113393063A CN202110941967.XA CN202110941967A CN113393063A CN 113393063 A CN113393063 A CN 113393063A CN 202110941967 A CN202110941967 A CN 202110941967A CN 113393063 A CN113393063 A CN 113393063A
Authority
CN
China
Prior art keywords
static
feature
dynamic
result
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110941967.XA
Other languages
English (en)
Inventor
冯建设
花霖
陈军
刘桂芬
姚琪
周雷
欧馨
王宗强
赵一波
许琦枫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Xinrun Fulian Digital Technology Co Ltd
Original Assignee
Shenzhen Xinrun Fulian Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Xinrun Fulian Digital Technology Co Ltd filed Critical Shenzhen Xinrun Fulian Digital Technology Co Ltd
Priority to CN202110941967.XA priority Critical patent/CN113393063A/zh
Publication of CN113393063A publication Critical patent/CN113393063A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种比赛结果预测方法、系统、程序产品及存储介质,该方法包括以下步骤:获取当前比赛双方的第一静态特征以及第一动态特征;将所述第一静态特征以及所述第一动态特征输入预先构建的比赛结果预测模型,所述比赛结果预测模型基于集成学习构建;基于所述比赛结果预测模型对当前比赛双方的比赛结果进行预测,输出比赛预测结果。本发明实现了基于网络公开数据对比赛结果进行预测,且不需要借助外部专家团队的分析,更加的高效且节约成本;同时,采用标准化判据进行特征选取,最大程度避免特征选取的人为干扰,提高比赛结果预测的稳定性;另外,本发明利用静态特征与动态特征训练生成的集成模型进行比赛预测,提高比赛结果预测的准确性。

Description

比赛结果预测方法、系统、程序产品及存储介质
技术领域
本发明涉及数据处理及集成学习技术领域,尤其涉及一种比赛结果预测方法、系统、程序产品及存储介质。
背景技术
循环赛式体育类竞技比赛的一种常见赛制,它是指每个队都能和其他队比赛一次或两次,最后按成绩计算参赛队名次。每场比赛的结果对于其中一个参赛队有两种(“胜”或“负”)或有三种(“胜”、“负”或“平”),因此对比赛结果的预测行为可看作解决一个二元或三元分类问题。随机预测是最简单的结果预测方法,即不考虑任何已有信息,对每一场比赛结果进行随机猜测,当比赛场数足够多时,预测结果的准确性趋近于50%(不失一般性地,此处不考虑平局的情况)。为了提高预测的准确性,可通过各个参赛者在历史赛季中的胜率(或败率)对参赛者进行排名,认为胜率排名靠前的参赛者遇到排名靠后的参赛者会胜,反之会负,胜率相等(或相差小于某一设定值)则会平局,由此对本赛季的比赛结果进行预测。更进一步地,预测者可对参赛者双方历史赛季的表现用不同的参数表征出来,并采用机器学习方法进行模型训练和预测。但是现有技术中采用机器学习的比赛结果预测方法的主要缺点有:
第一、由于每个赛季间隔时间较长(一般为一年或数年),参赛者在不同赛季表现的波动性较大,因此参赛者历史赛季的表现数据与其本赛季的表现关联性较弱,仅考虑历史赛季的表现降低了结果预测的准确性;
第二、采用不同的机器学习方法可能存在不同的结果预测,因此仅采用单一的机器学习方法对于比赛结果预测的准确性和稳定性较差。
发明内容
有鉴于此,本申请实施例提供一种比赛结果预测方法、系统、程序产品及存储介质,旨在提高比赛结果预测的准确性以及稳定性。
本申请实施例提供了一种比赛结果预测方法,所述方法包括:
获取当前比赛双方的第一静态特征以及第一动态特征;
将所述第一静态特征以及所述第一动态特征输入预先构建的比赛结果预测模型,所述比赛结果预测模型基于集成学习构建;
基于所述比赛结果预测模型对当前比赛双方的比赛结果进行预测,输出比赛预测结果。
在一实施例中,所述基于集成学习构建比赛结果预测模型,包括:
获取各个参赛者的第二静态特征以及第二动态特征;
将所述第二静态特征以及所述第二动态特征输入集成模型进行训练,生成所述比赛结果预测模型。
在一实施例中,所述将所述第二静态特征以及所述第二动态特征输入集成模型进行训练,生成所述比赛结果预测模型,包括:
将所述第二静态特征以及所述第二动态特征输入多个基于机器学习的预测模型,获得多个预测结果;
获取每个所述预测模型的集成评估权重;
基于所述集成评估权重以及所述预测结果,生成所述比赛结果预测模型。
在一实施例中,所述获取各个参赛者的第二静态特征以及第二动态特征,包括:
利用网络爬虫技术,获取各个参赛者的第二静态数据以及第二动态数据;
对所述第二静态数据以及第二动态数据执行前处理操作,生成前处理结果;
对所述前处理结果执行特征提取操作,生成特征提取结果;
利用费舍尔判据,对所述特征提取结果执行特征选择操作,生成各个参赛者的所述第二静态特征以及所述第二动态特征。
在一实施例中,所述利用费舍尔判据,对所述特征提取结果执行特征选择操作,生成各个参赛者的所述第二静态特征以及所述第二动态特征,包括:
获取所述特征提取结果中每个静态特征的费舍尔得分;
将所述每个静态特征的费舍尔得分从高到低顺序排列,生成静态特征费舍尔序列;
获取所述静态特征费舍尔序列中排序靠前的设定数量个静态特征,生成各个参赛者的第二静态特征;
获取所述特征提取结果中每个动态特征的费舍尔得分;
将所述每个动态特征的费舍尔得分从高到低顺序排列,生成动态特征费舍尔序列;
获取所述动态特征费舍尔序列中排序靠前的设定数量个动态特征,生成各个参赛者的第二动态特征。
在一实施例中,所述前处理操作包括以下至少一种:
剔除异常值操作、剔除无效值操作以及独热编码。
在一实施例中,所述基于机器学习的预测模型包括以下至少一种:
朴素贝叶斯模型、逻辑回归模型、随机森林模型以及神经网络模型。
为实现上述目的,还提供一种比赛结果预测系统,所述系统,包括:
数据获取模块,用于获取当前比赛双方的第一静态特征以及第一动态特征;
预测模型构建模块,用于基于集成学习构建比赛结果预测模型;
输入模块,用于将所述第一静态特征以及所述第一动态特征输入所述比赛结果预测模型;
输出模块,用于基于所述比赛结果预测模型,输出比赛预测结果。
为实现上述目的,还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述任一所述的比赛结果预测方法的步骤。
为实现上述目的,还提供一种计算机存储介质,所述计算机存储介质上存储有比赛结果预测方法程序,所述比赛结果预测方法程序被处理器执行时实现上述任一所述的比赛结果预测方法的步骤。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:获取当前比赛双方的第一静态特征以及第一动态特征;通过结合比赛双方的静态特征与动态特征,获得更加全面的特征表述。
将所述第一静态特征以及所述第一动态特征输入预先构建的比赛结果预测模型,所述比赛结果预测模型基于集成学习构建;基于所述比赛结果预测模型对当前比赛双方的比赛结果进行预测,输出比赛预测结果;通过集成学习的方式构建比赛结果预测模型,提升比赛预测结果的准确性以及稳定性。
本申请利用比赛结果预测模型对比赛结果进行预测,不需要借助外部专家团队的分析,更加的高效且节约成本。
附图说明
图1为本申请比赛结果预测方法的第一实施例的流程示意图;
图2为本申请比赛结果预测方法的第二实施例的流程示意图;
图3为本申请比赛结果预测方法步骤S230的具体实施步骤的流程示意图;
图4为本申请比赛结果预测方法中集成模型的示意图;
图5为本申请比赛结果预测方法步骤S220的具体实施步骤的流程示意图;
图6为本申请比赛结果预测方法步骤S224的具体实施步骤的流程示意图;
图7为本申请比赛结果预测系统的示意图;
图8为本申请比赛结果预测方法中建模与预测的框架示意图;
图9为本申请比赛结果预测方法中预测准确率的柱状图;
图10为本申请比赛结果预测方法中比赛时间与预测准确率的关系示意图。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:获取当前比赛双方的第一静态特征以及第一动态特征;将所述第一静态特征以及所述第一动态特征输入预先构建的比赛结果预测模型,所述比赛结果预测模型基于集成学习构建;基于所述比赛结果预测模型对当前比赛双方的比赛结果进行预测,输出比赛预测结果。本发明实现了基于网络公开数据对比赛结果进行预测,且不需要借助外部专家团队的分析,更加的高效且节约成本;同时,采用标准化判据进行特征选取,最大程度避免特征选取的人为干扰,提高比赛结果预测的稳定性;另外,本申请利用静态特征与动态特征训练生成的集成模型进行比赛预测,提高比赛结果预测的准确性。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
参照图1,图1为本申请比赛结果预测方法的第一实施例,所述方法包括:
步骤S110:获取当前比赛双方的第一静态特征以及第一动态特征。
具体地,静态特征可以是参赛者历史赛季的表现数据提取获得的;其中,静态特征为不随时间发生变化的特征;动态特征可以是参赛者本赛季中的表现数据提取获得;其中,动态特征为随时间发生变化的特征。在本发明中,静态特征可以包含第一静态特征以及第二静态特征;动态特征可以包含第一动态特征以及第二静态特征;其中;第二静态特征以及第二动态特征可以是当前需要预测的比赛双方的历史赛季数据以及本赛季数据;而第一静态特征以及第一动态特征可以是构建比赛结果预测模型中的训练数据,可以是包含各个参赛者的历史比赛数据以及本赛季数量。
步骤S120:将所述第一静态特征以及所述第一动态特征输入预先构建的比赛结果预测模型,所述比赛结果预测模型基于集成学习构建;
具体地,集成学习(Ensemble Learning)是解决有监督机器学习任务的一类方法,它的思路是基于多个学习算法的集成来提升预测结果。采用集成式机器学习方法构建比赛结果预测模型;其中集成式机器学习可以是将多个机器学习模型集成在一个集成模型中;利用多种机器学习模型来提升比赛结果预测的准确性和稳定性。
具体地,将第一静态特征以及第一动态特征分别输入比赛结果预测模型中多个基于机器学习的预测模型中。
步骤S130:基于所述比赛结果预测模型对当前比赛双方的比赛结果进行预测,输出比赛预测结果。
具体地,多个基于机器学习的预测模型根据自身的集成评估权重结合起来,生成集成预测结果,即比赛预测结果。
在上述实施例中,存在的有益效果为:获取当前比赛双方的第一静态特征以及第一动态特征;通过结合比赛双方的静态特征与动态特征,获得更加全面的特征表述。
将所述第一静态特征以及所述第一动态特征输入预先构建的比赛结果预测模型,所述比赛结果预测模型基于集成学习构建;基于所述比赛结果预测模型对当前比赛双方的比赛结果进行预测,输出比赛预测结果;通过集成学习的方式构建比赛结果预测模型,提升比赛预测结果的准确性以及稳定性。
本实施例利用比赛结果预测模型对比赛结果进行预测,不需要借助外部专家团队的分析,更加的高效且节约成本。
参照图2,图2为本申请比赛结果预测方法的第二实施例,所述方法包括:
步骤S210:获取当前比赛双方的第一静态特征以及第一动态特征。
步骤S220:获取各个参赛者的第二静态特征以及第二动态特征。
具体地,将各个参赛者历史赛季以及本赛季公开的数据通过网络爬虫的方法进行数据抓取,并经过数据前处理、特征提取以及特征选择等步骤,获取到各个参赛者的第二静态特征以及第二动态特征。
步骤S230:将所述第二静态特征以及所述第二动态特征输入集成模型进行训练,生成所述比赛结果预测模型。
具体地,集成模型可以包含多个基于机器学习的预测模型,可以是将第二静态特征以及第二动态特征作为训练特征分别输入预测模型一、预测模型二以及预测模型三,获得预测模型一、二以及三的预测结果,同时获取预测模型一、二以及三的集成评估权重,基于预测结果以及对应的集成评估权重,生成比赛结果预测模型,可以生成集成预测结果。在此以基于机器学习的预测模型的个数为3个举例,但并不限定于3个,可以调整基于机器学习的预测模型的个数以及类型。
需要另外说明的是,本实施例中加入动态特征,训练获得的比赛结果预测模型包含更多的有效信息,使预测准确率随着本赛季的比赛进程而逐渐提高。
步骤S240:将所述第一静态特征以及所述第一动态特征输入预先构建的比赛结果预测模型,所述比赛结果预测模型基于集成学习构建。
步骤S250:基于所述比赛结果预测模型对当前比赛双方的比赛结果进行预测,输出比赛预测结果。
第二实施例与第一实施例相比,包括步骤S220、步骤S230,其他步骤在第一实施例中已经进行了阐述,在此不再赘述。
在上述实施例中,存在的有益效果为:利用各个参赛者的第二静态特征以及第二动态特征训练集成模型,使获取到的特征更加的全面,同时利用集成模型的优势提高比赛结果的准确性以及稳定性。
参照图3,图3为本申请比赛结果预测方法步骤S230的具体实施步骤,所述将所述第二静态特征以及所述第二动态特征输入集成模型进行训练,生成所述比赛结果预测模型,包括:
步骤S231:将所述第二静态特征以及所述第二动态特征输入多个基于机器学习的预测模型,获得多个预测结果。
步骤S232:获取每个所述预测模型的集成评估权重。
步骤S233:基于所述集成评估权重以及所述预测结果,生成所述比赛结果预测模型。
具体地,参照图4,图4为本申请比赛结果预测方法中集成模型的示意图;对于输入的第二静态特征以及第二动态特征,采用不同的基于机器学习方法训练出K个基于机器学习的预测模型(K≥2),得到K个不同的输出结果f(1), f(2),…,f(K),建立输出预测结果与比赛真实结果的函数关系,得到不同基于机器学习的预测模型的集成评估权重,由此训练出集成模型。其过程表示如下:
不失一般性的,假设一共有T种不同的比赛结果(例如:如果比赛只存在胜负两种情况,那么T=2。如果比赛只存在胜负平两种情况,那么T=3)。定义模型的判断结果如下:
Figure 127220DEST_PATH_IMAGE001
最终集成预测结果如下:
Figure 871054DEST_PATH_IMAGE002
其中,wk为模型k的集成评估权重。
在一实施例中,所述基于机器学习的预测模型包括以下至少一种:朴素贝叶斯模型、逻辑回归模型、随机森林模型以及神经网络模型。但在此并不限定于上述提及的基于机器学习的预测模型。
参照图5,图5为本申请比赛结果预测方法步骤S220的具体实施步骤,所述获取各个参赛者的第二静态特征以及第二动态特征,包括:
步骤S221:利用网络爬虫技术,获取各个参赛者的第二静态数据以及第二动态数据。
具体地,网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
在本实施例中,可以采用聚焦网络爬虫(Focused Crawler),又称主题网络爬虫(Topical Crawler),可以选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。和通用网络爬虫相比,聚焦爬虫只需要爬行与主题相关的页面,极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快,还可以很好地满足一些特定人群对特定领域信息的需求。本实施例利用聚焦网络爬虫获取比赛相关的各个参赛者历史赛季的表现数据以及本赛季的表现数据;其中将历史赛季的表现数据作为第二静态数据;将本赛季的表现数据作为第二动态数据。
步骤S222:对所述第二静态数据以及第二静态数据执行前处理操作,生成前处理结果。
前处理操作,也可以称为预处理操作,可以是指在主要的处理以前对数据进行的一些处理操作。因基于网络爬虫技术获得的数据大体上都是不完整,不一致的脏数据,无法直接进行数据挖掘,或挖掘结果效果差;为了提高基于网络爬虫技术获得的数据的质量,所以在执行其他操作前,需要对第二静态数据以及第二动态数据执行前处理操作,生成前处理结果。
具体地,在本实施例中,所述前处理操作包括以下至少一种:剔除异常值操作、剔除无效值操作以及独热编码(One-Hot Encoding)。还可以包括数据清洗、数据集成、数据变换以及数据规约等。
步骤S223:对所述前处理结果执行特征提取操作,生成特征提取结果。
具体地,对前处理结果进行特征提取,降低数据信息冗余,获取能够反映数据特性的抽象表征。特征提取结果中包含静态特征及动态特征;静态特征不随时间发生变化,由历史赛季的数据演变而来;动态特征随时间发生变化,由本赛季的数据演变而来。
步骤S224:利用费舍尔判据,对所述特征提取结果执行特征选择操作,生成各个参赛者的所述第二静态特征以及所述第二动态特征。
具体地,采用费舍尔判据(Fisher’s criterion)进行特征选择,排除对结果影响或者相关性较小的特征。在现有技术中预测模型对于参赛者表现的特征参数选取主观性较强,选取不从的参数或对参数尽心各不同的权值赋值都可能导致不同的预测结果,稳定性差;而在本实施例中,利用费舍尔判据这种标准化判据进行特征的选取,最大程度避免特征选取的认为干扰,提高训练生成的比赛结果预测模型的稳定性。
需要另外说明的是,获取当前比赛双方的第一静态特征以及第一动态特征与获取各个参赛者的第二静态特征以及第二动态特征的过程相同,在此就不再赘述。具体可以参照图7。
在上述实施例中,存在的有益效果为:通过结合比赛双方的静态特征与动态特征,获得更加全面的特征表述;同时,采用标准化判据进行特征选取,最大程度避免特征选取的人为干扰,提高比赛结果预测的稳定性。
参照图6,图6为本申请比赛结果预测方法步骤S224的具体实施步骤,所述利用费舍尔判据,对所述特征提取结果执行特征选择操作,生成各个参赛者的所述第二静态特征以及所述第二动态特征,包括:
步骤S2241:获取所述特征提取结果中每个静态特征的费舍尔得分。
具体地,费舍尔判据由类间散布(between-class scatter)与类内散布(within-class scatter)的比率定义,这里被采用来量化不同特征的重要度。
费舍尔判据的表达式为:
Figure 138087DEST_PATH_IMAGE003
Figure 336987DEST_PATH_IMAGE004
为每个特征的费舍尔得分,其中P和Q表示两个类,
Figure 5866DEST_PATH_IMAGE005
Figure 202492DEST_PATH_IMAGE006
Figure 956821DEST_PATH_IMAGE007
Figure 693833DEST_PATH_IMAGE008
是每个类的平均值和方差。
步骤S2242:将所述每个静态特征的费舍尔得分从高到低顺序排列,生成静态特征费舍尔序列。
步骤S2243:获取所述静态特征费舍尔序列中排序靠前的设定数量个静态特征,生成各个参赛者的第二静态特征。
具体地,获得静态特征中费舍尔得分高的设定数量个静态特征,其中,费舍尔得分高,则表示该静态特征对比赛预测结果影响或者相关性较大的特征,则将该静态特征选取出来作为各个参赛者的第二静态特征,而将对比赛预测结果影响或者相关性小的特征剔除。
步骤S2244:获取所述特征提取结果中每个动态特征的费舍尔得分。
步骤S2245:将所述每个动态特征的费舍尔得分从高到低顺序排列,生成动态特征费舍尔序列。
步骤S2246:获取所述动态特征费舍尔序列中排序靠前的设定数量个动态特征,生成各个参赛者的第二动态特征。
需要另外说明的是,步骤S2241至步骤S2243与步骤2244至步骤S2246并无先后顺序,且步骤S2244至步骤S2246参照步骤S2241至步骤S2243,在此并不赘述。
在上述实施例中,存在的有益效果为:通过费舍尔判据进行标准化的特征选取,避免了特征选取的人为干扰,提高比赛结果预测的稳定性。
本申请还保护一种比赛结果预测系统20,所述系统,包括:
数据获取模块21,用于获取当前比赛双方的第一静态特征以及第一动态特征;
预测模型构建模块22,用于基于集成学习构建比赛结果预测模型;
输入模块23,用于将所述第一静态特征以及所述第一动态特征输入所述比赛结果预测模型;
输出模块24,用于基于所述比赛结果预测模型,输出比赛预测结果。
图7所示系统包括数据获取模块21、预测模型构建模块22、输入模块23、输出模块24,该系统可以执行图1、图2、图3、图5、图6所示实施例的方法,本实施例未详细描述的部分,可参考对图1、图2、图3、图5、图6所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1、图2、图3、图5、图6所示实施例中的描述,在此不再赘述。
本申请还保护一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述任一所述的比赛结果预测方法的步骤。
本申请还保护一种计算机存储介质,所述计算机存储介质上存储有比赛结果预测方法程序,所述比赛结果预测方法程序被处理器执行时实现上述任一所述的比赛结果预测方法的步骤。
在具体实施例中,针对美国职业篮球联赛(NBA)常规赛的比赛结果预测,来说明该发明的具体实施方法,具体参照图8。
第一、采用网络爬虫的方法对美国篮球联赛的各个球队的球队数据及球员数据进行抓取,并进行特征提取,作为模型输入的第二静态特征和第二动态特征。其中,第二静态特征包括且不限于:
(1)历史赛季中各个球队比赛表现的统计数据,包括:球队排名、主场比赛胜率、客场比赛胜率、比赛得分、投篮、二分球及三分球的尝试次数、命中次数和命中率、进攻篮板、防守篮板及总篮板数、助攻数、抢断数、盖帽数、失误数和犯规数;
(2)各队球员贡献排名前五的球员表现数据(考虑到赛季之间会有很多球员转会,球员所在球队以当前赛季为准),包括:球员位置、年龄、所在球队、比赛场数、场均得分、投篮、二分球及三分球的尝试次数、命中次数和命中率、进攻篮板、防守篮板及总篮板数、助攻数、抢断数、盖帽数、失误数和犯规数。
第二动态特征包括且不限于:
(3)各个球队在本赛季中已经打过的比赛的数据,包括:比赛时间、是否获胜、比赛时长、比赛得分、投篮、二分球及三分球的尝试次数、命中次数和命中率、进攻篮板、防守篮板及总篮板数、助攻数、抢断数、盖帽数、失误数、犯规数、是否主场比赛、与上场比赛间隔时间(休息时间)。
第二、采用费舍尔判据(Fisher’s criterion)进行特征选择,排除与结果相关性较小的特征。注意,对于每场比赛,均可产生两组样本数据,分别将其中一支球队作为目标球队。
第三、分别采用朴素贝叶斯,逻辑回归,随机森林,神经网络进行模型训练。
第四、按照上文所述采用集成学习的方法将四种模型的预测结果综合起来,得到训练好的集成模型;
第五、重复上述步骤,获取当前比赛双方的第一静态特征以及第一动态特征,采用训练好的集成模型根据第一静态特征以及第一动态特征对比赛结果进行预测。
第六、比赛结果预测的准确率可定义为:
准确率=正确预测的比赛场数/总比赛场数×100%;
采用所述方法,对于2015-2016赛季NBA中各个球队比赛预测的准确率如图9所示,图9中左侧为各个球队的英文名字的缩写。其中,预测准确率低于60%的仅有4支球队,准确率在60%-70%之间的有15支球队,准确率在70%-80%之间的有8支球队,准确率超过80%的有3支球队。
如图10所示为预测准确率随比赛进程的变化规律,除了2016年1月到2月这个时间段以外,随着比赛的进行,由于越来越多的比赛数据加入到动态特征数据中,预测准确率显著升高,这体现了采用动态特征进行预测的优越性。2016年1月到2月的反常表现可能的原因是这期间举办了全明星比赛,大多数球队有一周的休息时间,影响了球队和球员比赛表现的规律。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发
明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种比赛结果预测方法,其特征在于,所述方法包括:
获取当前比赛双方的第一静态特征以及第一动态特征;
将所述第一静态特征以及所述第一动态特征输入预先构建的比赛结果预测模型,所述比赛结果预测模型基于集成学习构建;
基于所述比赛结果预测模型对当前比赛双方的比赛结果进行预测,输出比赛预测结果。
2.如权利要求1所述的比赛结果预测方法,其特征在于,所述将所述第一静态特征以及所述第一动态特征输入预先构建的比赛结果预测模型,所述比赛结果预测模型基于集成学习构建的步骤之前包括:
构建比赛结果预测模型;具体包括:
获取各个参赛者的第二静态特征以及第二动态特征;
将所述第二静态特征以及所述第二动态特征输入集成模型进行训练,生成所述比赛结果预测模型。
3.如权利要求2所述的比赛结果预测方法,其特征在于,所述将所述第二静态特征以及所述第二动态特征输入集成模型进行训练,生成所述比赛结果预测模型,包括:
将所述第二静态特征以及所述第二动态特征输入多个基于机器学习的预测模型,获得多个预测结果;
获取每个所述预测模型的集成评估权重;
基于所述集成评估权重以及所述预测结果,生成所述比赛结果预测模型。
4.如权利要求2所述的比赛结果预测方法,其特征在于,所述获取各个参赛者的第二静态特征以及第二动态特征,包括:
利用网络爬虫技术,获取各个参赛者的第二静态数据以及第二动态数据;
对所述第二静态数据以及第二动态数据执行前处理操作,生成前处理结果;
对所述前处理结果执行特征提取操作,生成特征提取结果;
利用费舍尔判据,对所述特征提取结果执行特征选择操作,生成各个参赛者的所述第二静态特征以及所述第二动态特征。
5.如权利要求4所述的比赛结果预测方法,其特征在于,所述利用费舍尔判据,对所述特征提取结果执行特征选择操作,生成各个参赛者的所述第二静态特征以及所述第二动态特征,包括:
获取所述特征提取结果中每个静态特征的费舍尔得分;
将所述每个静态特征的费舍尔得分从高到低顺序排列,生成静态特征费舍尔序列;
获取所述静态特征费舍尔序列中排序靠前的设定数量个静态特征,生成各个参赛者的第二静态特征;
获取所述特征提取结果中每个动态特征的费舍尔得分;
将所述每个动态特征的费舍尔得分从高到低顺序排列,生成动态特征费舍尔序列;
获取所述动态特征费舍尔序列中排序靠前的设定数量个动态特征,生成各个参赛者的第二动态特征。
6.如权利要求4所述的比赛结果预测方法,其特征在于,所述前处理操作包括以下至少一种:
剔除异常值操作、剔除无效值操作以及独热编码。
7.如权利要求3所述的比赛结果预测方法,其特征在于,所述基于机器学习的预测模型包括以下至少一种:
朴素贝叶斯模型、逻辑回归模型、随机森林模型以及神经网络模型。
8.一种比赛结果预测系统,其特征在于,所述系统包括:
数据获取模块,用于获取当前比赛双方的第一静态特征以及第一动态特征;
预测模型构建模块,用于基于集成学习构建比赛结果预测模型;
输入模块,用于将所述第一静态特征以及所述第一动态特征输入所述比赛结果预测模型;
输出模块,用于基于所述比赛结果预测模型,输出比赛预测结果。
9.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的比赛结果预测方法的步骤。
10.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有比赛结果预测方法程序,所述比赛结果预测方法程序被处理器执行时实现权利要求1-7任一所述的比赛结果预测方法的步骤。
CN202110941967.XA 2021-08-17 2021-08-17 比赛结果预测方法、系统、程序产品及存储介质 Pending CN113393063A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110941967.XA CN113393063A (zh) 2021-08-17 2021-08-17 比赛结果预测方法、系统、程序产品及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110941967.XA CN113393063A (zh) 2021-08-17 2021-08-17 比赛结果预测方法、系统、程序产品及存储介质

Publications (1)

Publication Number Publication Date
CN113393063A true CN113393063A (zh) 2021-09-14

Family

ID=77622623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110941967.XA Pending CN113393063A (zh) 2021-08-17 2021-08-17 比赛结果预测方法、系统、程序产品及存储介质

Country Status (1)

Country Link
CN (1) CN113393063A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114288631A (zh) * 2021-12-30 2022-04-08 上海庆科信息技术有限公司 数据处理方法、装置、存储介质、处理器及电子装置
CN114862062A (zh) * 2022-06-30 2022-08-05 深圳市信润富联数字科技有限公司 环境承载力的预警方法、装置、电子设备和可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107998661A (zh) * 2017-12-26 2018-05-08 苏州大学 一种在线对战游戏的辅助决策方法、装置及存储介质
CN110147524A (zh) * 2019-05-10 2019-08-20 深圳市腾讯计算机系统有限公司 一种基于机器学习的比赛结果预测方法、装置及设备
CN110222723A (zh) * 2019-05-14 2019-09-10 华南理工大学 一种基于混合模型的足球比赛首发预测方法
CN111695117A (zh) * 2020-06-12 2020-09-22 国网浙江省电力有限公司信息通信分公司 一种webshell脚本检测方法及装置
CN112766546A (zh) * 2021-01-05 2021-05-07 上海大学 一种基于机器学习的足球比赛胜负实时预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107998661A (zh) * 2017-12-26 2018-05-08 苏州大学 一种在线对战游戏的辅助决策方法、装置及存储介质
CN110147524A (zh) * 2019-05-10 2019-08-20 深圳市腾讯计算机系统有限公司 一种基于机器学习的比赛结果预测方法、装置及设备
CN110222723A (zh) * 2019-05-14 2019-09-10 华南理工大学 一种基于混合模型的足球比赛首发预测方法
CN111695117A (zh) * 2020-06-12 2020-09-22 国网浙江省电力有限公司信息通信分公司 一种webshell脚本检测方法及装置
CN112766546A (zh) * 2021-01-05 2021-05-07 上海大学 一种基于机器学习的足球比赛胜负实时预测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114288631A (zh) * 2021-12-30 2022-04-08 上海庆科信息技术有限公司 数据处理方法、装置、存储介质、处理器及电子装置
CN114862062A (zh) * 2022-06-30 2022-08-05 深圳市信润富联数字科技有限公司 环境承载力的预警方法、装置、电子设备和可读存储介质

Similar Documents

Publication Publication Date Title
Berrar et al. Incorporating domain knowledge in machine learning for soccer outcome prediction
Shaker et al. The 2010 Mario AI championship: Level generation track
Miljković et al. The use of data mining for basketball matches outcomes prediction
CN113393063A (zh) 比赛结果预测方法、系统、程序产品及存储介质
Bosc et al. Strategic Patterns Discovery in RTS-games for E-Sport with Sequential Pattern Mining.
CN111841018A (zh) 模型训练方法、模型使用方法、计算机设备及存储介质
Decroos Soccer analytics meets artificial intelligence: learning value and style from soccer event stream data
Han et al. A game strategy model in the digital curling system based on NFSP
Eger et al. Deck archetype prediction in hearthstone
Ariyaratne et al. Meta-heuristics meet sports: a systematic review from the viewpoint of nature inspired algorithms
Dockhorn et al. A decision heuristic for Monte Carlo tree search doppelkopf agents
Smith et al. Mining controller inputs to understand gameplay
Viggiato et al. Trouncing in dota 2: An investigation of blowout matches
D’Urso et al. Big data and data science in sport
Bisberg et al. GCN-WP–Semi-supervised graph convolutional networks for win prediction in esports
Ghazali et al. Esports Analytics on PlayerUnknown's Battlegrounds Player Placement Prediction using Machine Learning
Colás The culture of moving dots: toward a history of counting and of what counts in basketball
Ahmed et al. Is the performance of a cricket team really unpredictable? a case study on pakistan team using machine learning
US11413541B2 (en) Generation of context-aware, personalized challenges in computer games
Chazan-Pantzalis Sports Analytics Algorithms for Performance Prediction
Wang Mining and Prediction of Large Sport Tournament Data Based on Bayesian Network Models for Online Data
Tavakol et al. Feature Extraction and Aggregation for Predicting the EURO 2016.
Min et al. A compound framework for sports prediction: The case study of football
Hervert-Escobar et al. Bayesian based approach learning for outcome prediction of soccer matches
Joseph Time series approaches to predict soccer match outcome

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210914