CN110222723A - 一种基于混合模型的足球比赛首发预测方法 - Google Patents

一种基于混合模型的足球比赛首发预测方法 Download PDF

Info

Publication number
CN110222723A
CN110222723A CN201910397057.2A CN201910397057A CN110222723A CN 110222723 A CN110222723 A CN 110222723A CN 201910397057 A CN201910397057 A CN 201910397057A CN 110222723 A CN110222723 A CN 110222723A
Authority
CN
China
Prior art keywords
sportsman
starting
court
competition data
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910397057.2A
Other languages
English (en)
Other versions
CN110222723B (zh
Inventor
蔡毅
黄旸珉
张扬
刘栩维
王谦
梁健恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201910397057.2A priority Critical patent/CN110222723B/zh
Publication of CN110222723A publication Critical patent/CN110222723A/zh
Application granted granted Critical
Publication of CN110222723B publication Critical patent/CN110222723B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Economics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Geometry (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Computer Hardware Design (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于混合模型的足球比赛首发预测方法,包括步骤:收集球员比赛数据,对数据进行预处理;构建球员各项比赛数据的统计特征;分别构建并训练逻辑回归模型、Xgboost模型、朴素贝叶斯模型,输入球队内所有球员的比赛数据,得到每个球员未来一场比赛首发上场的概率;对所述三个模型赋予不同权重,根据三种模型得到的概率,采用加权投票法对球员获得首发上场的情况进行投票,取得票最多的前11个球员,为最终预测未来一场比赛首发上场的球员。本发明采用机器学习中的混合模型,可以全面而有效地通过球员的历史比赛数据对其未来首发上场情况做出预测,能够很好地帮助教练和球队进行分析和备战。

Description

一种基于混合模型的足球比赛首发预测方法
技术领域
本发明涉及数据分析领域中的足球数据预测领域,尤其涉及一种基于混合模型的足球比赛首发预测方法。
背景技术
随着数据行业在体育运动中的发展,足球比赛中收集到的数据已经可以涵盖球场上球员所做的绝大部分动作,包括射门,传球,拼抢,犯规等等数据,并且数据的统计收集方式也完成了从以往偏差较大的人工统计向更为准确的视频分析统计的转变。如今,可收集统计的足球比赛数据已经能够准确、全面地还原球员在比赛中的各方面表现。
但是,由于数据分析在足球行业内的应用还未完全成熟,教练员和分析师普遍依靠自身经历并且采用经验主义进行判断和预测的方法,更多地依赖于在日常训练中对球员状态,以及对于球员近期比赛表现的主观判断来做出未来比赛中比赛首发阵容的选择,无法全面地使用球员的历史比赛数据对未来的比赛选择进行参考。这使得如今收集到的较为全面的比赛数据无法发挥其作用,难以为教练员的选择提供更有价值的参考。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于混合模型的足球比赛首发预测方法。本发明能够更全面地利用现有的所有比赛数据,根据球员近期历史比赛数据对球员未来一场比赛是否适合首发上场做出预测,给予教练员一定程度的数据上的支持。
本发明的目的能够通过以下技术方案实现:
一种基于混合模型的足球比赛首发预测方法,包括步骤:
收集球员比赛数据,对数据进行预处理;
构建球员各项比赛数据的统计特征;
构建并训练逻辑回归模型,输入球队内所有球员的比赛数据,得到每个球员未来一场比赛首发上场的概率;
构建并训练Xgboost模型,输入球队内所有球员的比赛数据,得到每个球员未来一场比赛首发上场的概率;
构建并训练朴素贝叶斯模型,输入球队内所有球员的比赛数据,得到每个球员未来一场比赛首发上场的概率;
对所述三个模型赋予不同权重,根据三种模型得到的概率,采用加权投票法对球员获得首发上场的情况进行投票,取得票最多的前11个球员,为最终预测未来一场比赛首发上场的球员。
优选地,所述收集的球员比赛数据为数值型数据,包括但不限于传球、射门、拼抢、进球和犯规的数量。
具体地,所述收集球员比赛数据,对数据进行预处理的步骤中,预处理为特征离散化和归一化;
在本发明中,所述特征离散化,即对于连续性特征比赛时间进行区间划分,分别为0-10分钟、10-45分钟以及大于45分钟三个区间,并分别将其离散化为0、1、2;所述特征归一化,即对球员的其他连续性特征进行min-max标准化,将原始比赛数据线性变换到[0,1]区间内。
具体地,所述球员各项比赛数据的统计特征构建方法为:
针对根据不同性质统计的子类比赛数据,相应地计算其与对应父类比赛数据的比值,得到比值型数据作为统计特征;如计算根据射门在门框范围之内统计的射正次数和其父类比赛数据射门次数的比值,得到比值型数据“射正率”作为统计特征。
具体地,所述构建并训练逻辑回归模型,得到每个球员未来一场比赛首发上场的概率的步骤中,球员未来一场比赛首发上场的概率表示为:
其中,y为是否首发上场的标签,X为在n个特征上取特定值的样本,W为逻辑回归模型参数。
具体地,所述构建并训练逻辑回归模型,得到每个球员未来一场比赛首发上场的概率的步骤中,包括步骤:
对已有数据集中的所有球员历史比赛数据以向量形式进行表示,并以比赛日期和所属队伍为特征对球员历史比赛数据向量进行编码,按照5:1的比例随机选取有相同编码的球员历史比赛数据划分为训练集和测试集;
利用训练集训练构建的逻辑回归模型;
利用测试集直接检验训练后的逻辑回归模型,得到准确率A1;
对于测试集中有相同编码的球员历史比赛数据向量,利用训练后的逻辑回归模型得到对应的未来一场比赛首发上场的概率,选取概率最高的前11个球员历史比赛数据向量给予首发上场标签,其他球员历史比赛数据向量给予不首发上场标签,检验标签准确率,得到准确率A2;
输入指定球队内所有球员的历史比赛数据向量,利用训练后的逻辑回归模型得到对应的未来一场比赛首发上场的概率,选取概率最高的前11个球员历史比赛数据向量给予首发上场标签,其他球员历史比赛数据向量给予不首发上场标签。
具体地,所述构建并训练逻辑回归模型,得到每个球员未来一场比赛首发上场的概率的步骤中,逻辑回归模型参数W根据最大似然估计取得,使得P1(y|X)正确的概率最大,即通过已知首发上场的标签结果反推最大概率导致该结果的模型参数W,输入给定的训练集样本,使P1(y|X)与(1-P1(y|X))相乘累加并取得最大值的W为最大似然估计求得的模型参数W。
具体地,所述根据预处理的球员历史比赛数据,构建并训练Xgboost模型的步骤中,Xgboost模型的预测函数表示为:
其中,K表示设定的迭代总次数,表示Xgboost预测得到的加权值,fk表示第k轮迭代得出的决策树模型,预测函数是一个叠加的函数模型。
具体地,所述根据预处理的球员历史比赛数据,构建并训练Xgboost模型的步骤中,包括步骤:
对已有数据集中的所有球员历史比赛数据以向量形式进行表示,并以比赛日期和所属队伍为特征对球员历史比赛数据向量进行编码,按照5:1的比例随机选取有相同编码的球员历史比赛数据划分为训练集和测试集;
采用gbtree booster回归树方法作为Boosting的算法框架构建决策树模型,采用贪婪方法对目标函数进行逐步优化和迭代;
利用测试集直接检验训练后的Xgboost模型,得到准确率A3;
对于测试集中有相同编码的球员历史比赛数据向量,利用训练后的Xgboost模型得到对应的未来一场比赛首发上场的概率,选取概率最高的前11个球员历史比赛数据向量给予首发上场标签,其他球员历史比赛数据向量给予不首发上场标签,检验标签准确率,得到准确率A4;
输入指定球队内所有球员的历史比赛数据向量,利用训练后的Xgboost模型得到对应的未来一场比赛首发上场的概率,选取概率最高的前11个球员历史比赛数据向量给予首发上场标签,其他球员历史比赛数据向量给予不首发上场标签。
具体地,所述根据预处理的球员历史比赛数据,构建并训练朴素贝叶斯模型的步骤中,球员未来一场比赛首发上场的后验概率表示为:
其中,σ2是所有特征取值的方差,μy是所有首发上场标签取值的均值,是所有标签取值的方差。
根据球员未来一场比赛首发上场的后验概率,构建朴素贝叶斯分类器模型,表示为:
其中,P(y)为每个特征对应的是否上场标签的先验概率,为未来一场比赛首发上场的概率,n为所用特征的总数。
具体地,所述根据预处理的球员历史比赛数据,构建并训练朴素贝叶斯模型的步骤中,包括步骤:
对已有数据集中的所有球员历史比赛数据以向量形式进行表示,并以比赛日期和所属队伍为特征对球员历史比赛数据向量进行编码,按照5:1的比例随机选取有相同编码的球员历史比赛数据划分为训练集和测试集;
利用训练集训练构建的朴素贝叶斯模型;
利用测试集直接检验训练后的朴素贝叶斯模型,得到准确率A5;
对于测试集中有相同编码的球员历史比赛数据向量,利用训练后的朴素贝叶斯模型得到对应的未来一场比赛首发上场的概率,选取概率最高的前11个球员历史比赛数据向量给予首发上场标签,其他球员历史比赛数据向量给予不首发上场标签,检验标签准确率,得到准确率A6;
输入指定球队内所有球员的历史比赛数据向量,利用训练后的朴素贝叶斯模型得到对应的未来一场比赛首发上场的概率,选取概率最高的前11个球员历史比赛数据向量给予首发上场标签,其他球员历史比赛数据向量给予不首发上场标签。
具体地,所述对所述三个模型赋予不同权重,根据三种模型得到的概率,采用加权投票法对球员获得首发上场的情况进行投票的步骤中,包括步骤:
计算三个模型在测试集上的综合预测准确率;
比较三个模型的综合预测准确率,综合预测准确率第一的获得权重W1,综合预测准确率的获得权重W2,综合预测准确率第三的获得权重W3;
对于所有的球员历史比赛数据向量,获得模型给予的首发上场标签,即获得一份带有其权重的投票,否则没有获得其带有权重的投票,将三个模型下的投票进行叠加,取获得票数最高的前11个球员历史比赛数据向量给予首发上场标签,其他给予不首发上场标签,输出最终结果。
更进一步地,逻辑回归模型的综合预测准确率计算方法为:
A7=A1*0.3+A2*0.7
其中,A7为逻辑回归模型的综合预测准确率;
Xgboost模型的综合预测准确率计算方法为:
A8=A3*0.3+A4*0.7
其中,A8为Xgboost模型的综合预测准确率;
朴素贝叶斯模型的综合预测准确率计算方法为:
A9=A5*0.3+A6*0.7
其中,A9为朴素贝叶斯模型的综合预测准确率。
本发明相较于现有技术,具有以下的有益效果:
1、本发明相较于单个分类模型,能够有效地提高预测球员首发上场的准确率,为教练员在根据经验判断之外提供更为全面和准确的参考。
2、本发明通过构建和训练逻辑回归、Xgboost和朴素贝叶斯模型,再采用加权投票法结合三个模型的预测结果,最终预测球员是否在未来一场比赛首发上场,考虑到了球员所有数据对是否未来一场比赛首发上场的影响,更加充分利用了全面的历史比赛数据,为球队在分析对方阵容和选择本方球员上场的过程中提供更全面的参考。
附图说明
图1是一种基于混合模型的足球比赛首发预测方法的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示为一种基于混合模型的足球比赛首发预测方法的流程图,包括步骤:
S1、收集球员比赛数据,对数据进行预处理;
具体地,所述收集的球员比赛数据为数值型数据,包括但不限于传球、射门、拼抢、进球和犯规的数量。
具体地,所述收集球员近期比赛数据,对数据进行预处理的步骤中,预处理为特征离散化和归一化;
所述特征离散化,即对于连续性特征比赛时间进行区间划分,分别为0-10分钟、10-45分钟以及大于45分钟三个区间,并分别将其离散化为0、1、2;所述特征归一化,即对球员的其他连续性特征进行min-max标准化,将原始比赛数据线性变换到[0,1]区间内。
S2、构建球员各项比赛数据的统计特征;
具体地,所述球员各项比赛数据的统计特征构建方法为:
针对根据不同性质统计的子类比赛数据,相应地计算其与对应父类比赛数据的比值,得到比值型数据作为统计特征;如计算根据射门在门框范围之内统计的射正次数和其父类比赛数据射门次数的比值,得到比值型数据“射正率”作为统计特征。
S3、构建并训练逻辑回归模型,输入球队内所有球员的比赛数据,得到每个球员未来一场比赛首发上场的概率;
所述步骤S3中,球员未来一场比赛首发上场的概率表示为:
其中,y为是否首发上场的标签,X为在n个特征上取特定值的样本,W为逻辑回归模型参数,通过最大似然估计取得;
其中,模型参数W根据最大似然估计取得,使得P1(y|X)正确的概率最大,即通过已知首发上场的标签结果反推最大概率导致该结果的模型参数W,输入给定的训练集样本,使P1(y|X)与(1-P1(y|X))相乘累加并取得最大值的W为最大似然估计求得的模型参数W。
具体地,所述步骤S3包括:
S31、对已有数据集中的所有球员历史比赛数据以向量形式进行表示,并以比赛日期和所属队伍为特征对球员历史比赛数据向量进行编码,按照5:1的比例随机选取有相同编码的球员历史比赛数据划分为训练集和测试集;
S32、利用训练集训练构建的逻辑回归模型;
S33、利用测试集直接检验训练后的逻辑回归模型,得到准确率A1;
S34、对于测试集中有相同编码的球员历史比赛数据向量,利用训练后的逻辑回归模型得到对应的未来一场比赛首发上场的概率,选取概率最高的前11个球员历史比赛数据向量给予首发上场标签,其他球员历史比赛数据向量给予不首发上场标签,检验标签准确率,得到准确率A2;
S35、输入指定球队内所有球员的历史比赛数据向量,利用训练后的逻辑回归模型得到对应的未来一场比赛首发上场的概率,选取概率最高的前11个球员历史比赛数据向量给予首发上场标签,其他球员历史比赛数据向量给予不首发上场标签。
S4、构建并训练Xgboost模型,输入球队内所有球员的比赛数据,得到每个球员未来一场比赛首发上场的概率;
所述步骤S4中,Xgboost模型的预测函数表示为:
其中,K表示设定的迭代总次数,表示Xgboost预测得到的加权值,fk表示第k轮迭代得出的决策树模型,预测函数是一个叠加的函数模型。
具体地,所述步骤S4包括:
S41、对已有数据集中的所有球员历史比赛数据以向量形式进行表示,并以比赛日期和所属队伍为特征对球员历史比赛数据向量进行编码,按照5:1的比例随机选取有相同编码的球员历史比赛数据划分为训练集和测试集;
S42、采用gbtree booster回归树方法作为Boosting的算法框架构建决策树模型,采用贪婪方法对目标函数进行逐步优化和迭代;
S43、利用测试集直接检验训练后的Xgboost模型,得到准确率A3;
S44、对于测试集中有相同编码的球员历史比赛数据向量,利用训练后的Xgboost模型得到对应的未来一场比赛首发上场的概率,选取概率最高的前11个球员历史比赛数据向量给予首发上场标签,其他球员历史比赛数据向量给予不首发上场标签,检验标签准确率,得到准确率A4;
S45、输入指定球队内所有球员的历史比赛数据向量,利用训练后的Xgboost模型得到对应的未来一场比赛首发上场的概率,选取概率最高的前11个球员历史比赛数据向量给予首发上场标签,其他球员历史比赛数据向量给予不首发上场标签。
S5、构建并训练朴素贝叶斯模型,输入球队内所有球员的比赛数据,得到每个球员未来一场比赛首发上场的概率;
所述步骤S5中,球员未来一场比赛首发上场的后验概率表示为:
其中,σ2是所有特征取值的方差,μy是所有首发上场标签取值的均值,是所有标签取值的方差。
根据球员未来一场比赛首发上场的后验概率,构建朴素贝叶斯分类器模型,表示为:
其中,P(y)为每个特征对应的是否上场标签的先验概率,为未来一场比赛首发上场的概率,n为所用特征的总数。
具体地,所述步骤S5包括:
S51、对已有数据集中的所有球员历史比赛数据以向量形式进行表示,并以比赛日期和所属队伍为特征对球员历史比赛数据向量进行编码,按照5:1的比例随机选取有相同编码的球员历史比赛数据划分为训练集和测试集;
S52、利用训练集训练构建的朴素贝叶斯模型;
S53、利用测试集直接检验训练后的朴素贝叶斯模型,得到准确率A5;
S54、对于测试集中有相同编码的球员历史比赛数据向量,利用训练后的朴素贝叶斯模型得到对应的未来一场比赛首发上场的概率,选取概率最高的前11个球员历史比赛数据向量给予首发上场标签,其他球员历史比赛数据向量给予不首发上场标签,检验标签准确率,得到准确率A6;
S55、输入指定球队内所有球员的历史比赛数据向量,利用训练后的朴素贝叶斯模型得到对应的未来一场比赛首发上场的概率,选取概率最高的前11个球员历史比赛数据向量给予首发上场标签,其他球员历史比赛数据向量给予不首发上场标签。
S6、对所述三个模型赋予不同权重,根据三种模型得到的概率,采用加权投票法对球员获得首发上场的情况进行投票,取得票最多的前11个球员,为最终预测未来一场比赛首发上场的球员。
具体地,所述步骤S6包括:
S61、计算三个模型在测试集上的综合预测准确率;
S62、比较三个模型的综合预测准确率,综合预测准确率第一的获得权重W1,综合预测准确率的获得权重W2,综合预测准确率第三的获得权重W3;其中,W1取值为1,W2取值为1.2,W3取值为1.5;
S63、对于所有的球员历史比赛数据向量,获得模型给予的首发上场标签,即获得一份带有其权重的投票,否则没有获得其带有权重的投票,将三个模型下的投票进行叠加,取获得票数最高的前11个球员历史比赛数据向量给予首发上场标签,其他给予不首发上场标签,输出最终结果。
更进一步地,逻辑回归模型的综合预测准确率计算方法为:
A7=A1*0.3+A2*0.7
其中,A7为逻辑回归模型的综合预测准确率;
Xgboost模型的综合预测准确率计算方法为:
A8=A3*0.3+A4*0.7
其中,A8为Xgboost模型的综合预测准确率;
朴素贝叶斯模型的综合预测准确率计算方法为:
A9=A5*0.3+A6*0.7
其中,A9为朴素贝叶斯模型的综合预测准确率。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种基于混合模型的足球比赛首发预测方法,其特征在于,包括步骤:
收集球员比赛数据,对数据进行预处理;
构建球员各项比赛数据的统计特征;
构建并训练逻辑回归模型,输入球队内所有球员的比赛数据,得到每个球员未来一场比赛首发上场的概率;
构建并训练Xgboost模型,输入球队内所有球员的比赛数据,得到每个球员未来一场比赛首发上场的概率;
构建并训练朴素贝叶斯模型,输入球队内所有球员的比赛数据,得到每个球员未来一场比赛首发上场的概率;
对所述三个模型赋予不同权重,根据三种模型得到的概率,采用加权投票法对球员获得首发上场的情况进行投票,取得票最多的前11个球员,为最终预测未来一场比赛首发上场的球员。
2.根据权利要求1所述的一种基于混合模型的足球比赛首发预测方法,其特征在于,所述收集球员比赛数据,对数据进行预处理的步骤中,收集的比赛数据为数值型数据,预处理为特征离散化和归一化;所述特征离散化,即对于连续性特征比赛时间进行区间划分,分别为0-10分钟、10-45分钟以及大于45分钟三个区间,并分别将其离散化为0、1、2。
3.根据权利要求1所述的一种基于混合模型的足球比赛首发预测方法,其特征在于,所述构建并训练逻辑回归模型,得到每个球员未来一场比赛首发上场的概率的步骤中,球员未来一场比赛首发上场的概率表示为:
其中,y为是否首发上场的标签,X为在n个特征上取特定值的样本,W为逻辑回归模型参数。
4.根据权利要求1所述的一种基于混合模型的足球比赛首发预测方法,其特征在于,所述构建并训练逻辑回归模型,得到每个球员未来一场比赛首发上场的概率的步骤中,包括步骤:
对已有数据集中的所有球员历史比赛数据以向量形式进行表示,并以比赛日期和所属队伍为特征对球员历史比赛数据向量进行编码,按照5:1的比例随机选取有相同编码的球员历史比赛数据划分为训练集和测试集;
利用训练集训练构建的逻辑回归模型;
利用测试集直接检验训练后的逻辑回归模型,得到准确率A1;
对于测试集中有相同编码的球员历史比赛数据向量,利用训练后的逻辑回归模型得到对应的未来一场比赛首发上场的概率,选取概率最高的前11个球员历史比赛数据向量给予首发上场标签,其他球员历史比赛数据向量给予不首发上场标签,检验标签准确率,得到准确率A2;
输入指定球队内所有球员的历史比赛数据向量,利用训练后的逻辑回归模型得到对应的未来一场比赛首发上场的概率,选取概率最高的前11个球员历史比赛数据向量给予首发上场标签,其他球员历史比赛数据向量给予不首发上场标签。
5.根据权利要求1所述的一种基于混合模型的足球比赛首发预测方法,其特征在于,所述根据预处理的球员历史比赛数据,构建并训练Xgboost模型的步骤中,Xgboost模型的预测函数表示为:
其中,K表示设定的迭代总次数,表示Xgboost预测得到的加权值,fk表示第k轮迭代得出的决策树模型,预测函数是一个叠加的函数模型。
6.根据权利要求1所述的一种基于混合模型的足球比赛首发预测方法,其特征在于,所述根据预处理的球员历史比赛数据,构建并训练Xgboost模型的步骤中,包括步骤:
对已有数据集中的所有球员历史比赛数据以向量形式进行表示,并以比赛日期和所属队伍为特征对球员历史比赛数据向量进行编码,按照5:1的比例随机选取有相同编码的球员历史比赛数据划分为训练集和测试集;
采用gbtree booster回归树方法作为Boosting的算法框架构建决策树模型,对目标函数采用贪婪方法进行逐步优化和迭代;
利用测试集直接检验训练后的Xgboost模型,得到准确率A3;
对于测试集中有相同编码的球员历史比赛数据向量,利用训练后的Xgboost模型得到对应的未来一场比赛首发上场的概率,选取概率最高的前11个球员历史比赛数据向量给予首发上场标签,其他球员历史比赛数据向量给予不首发上场标签,检验标签准确率,得到准确率A4;
输入指定球队内所有球员的历史比赛数据向量,利用训练后的Xgboost模型得到对应的未来一场比赛首发上场的概率,选取概率最高的前11个球员历史比赛数据向量给予首发上场标签,其他球员历史比赛数据向量给予不首发上场标签。
7.根据权利要求1所述的一种基于混合模型的足球比赛首发预测方法,其特征在于,所述根据预处理的球员历史比赛数据,构建并训练朴素贝叶斯模型的步骤中,球员未来一场比赛首发上场的后验概率表示为:
其中,σ2是所有特征取值的方差,μy是所有首发上场标签取值的均值,是所有标签取值的方差;
根据球员未来一场比赛首发上场的后验概率,构建朴素贝叶斯分类器模型,表示为:
其中,P(y)为每个特征对应的是否上场标签的先验概率,为未来一场比赛首发上场的概率,n为所用特征的总数。
8.根据权利要求1所述的一种基于混合模型的足球比赛首发预测方法,其特征在于,所述根据预处理的球员历史比赛数据,构建并训练朴素贝叶斯模型的步骤中,包括步骤:
对已有数据集中的所有球员历史比赛数据以向量形式进行表示,并以比赛日期和所属队伍为特征对球员历史比赛数据向量进行编码,按照5:1的比例随机选取有相同编码的球员历史比赛数据划分为训练集和测试集;
利用训练集训练构建的朴素贝叶斯模型;
利用测试集直接检验训练后的朴素贝叶斯模型,得到准确率A5;
对于测试集中有相同编码的球员历史比赛数据向量,利用训练后的朴素贝叶斯模型得到对应的未来一场比赛首发上场的概率,选取概率最高的前11个球员历史比赛数据向量给予首发上场标签,其他球员历史比赛数据向量给予不首发上场标签,检验标签准确率,得到准确率A6;
输入指定球队内所有球员的历史比赛数据向量,利用训练后的朴素贝叶斯模型得到对应的未来一场比赛首发上场的概率,选取概率最高的前11个球员历史比赛数据向量给予首发上场标签,其他球员历史比赛数据向量给予不首发上场标签。
9.根据权利要求1所述的一种基于混合模型的足球比赛首发预测方法,其特征在于,所述对所述三个模型赋予不同权重,根据三种模型得到的概率,采用加权投票法对球员获得首发上场的情况进行投票的步骤中,包括步骤:
计算三个模型在测试集上的综合预测准确率;
比较三个模型的综合预测准确率,综合预测准确率第一的获得权重W1,综合预测准确率的获得权重W2,综合预测准确率第三的获得权重W3;
对于所有的球员历史比赛数据向量,获得模型给予的首发上场标签,即获得一份带有其权重的投票,否则没有获得其带有权重的投票,将三个模型下的投票进行叠加,取获得票数最高的前11个球员历史比赛数据向量给予首发上场标签,其他给予不首发上场标签,输出最终结果。
10.根据权利要求9所述的一种基于混合模型的足球比赛首发预测方法,其特征在于,逻辑回归模型的综合预测准确率计算方法为:
A7=A1*0.3+A2*0.7
其中,A7为逻辑回归模型的综合预测准确率;
Xgboost模型的综合预测准确率计算方法为:
A8=A3*0.3+A4*0.7
其中,A8为Xgboost模型的综合预测准确率;
朴素贝叶斯模型的综合预测准确率计算方法为:
A9=A5*0.3+A6*0.7
其中,A9为朴素贝叶斯模型的综合预测准确率。
CN201910397057.2A 2019-05-14 2019-05-14 一种基于混合模型的足球比赛首发预测方法 Active CN110222723B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910397057.2A CN110222723B (zh) 2019-05-14 2019-05-14 一种基于混合模型的足球比赛首发预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910397057.2A CN110222723B (zh) 2019-05-14 2019-05-14 一种基于混合模型的足球比赛首发预测方法

Publications (2)

Publication Number Publication Date
CN110222723A true CN110222723A (zh) 2019-09-10
CN110222723B CN110222723B (zh) 2021-07-20

Family

ID=67821005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910397057.2A Active CN110222723B (zh) 2019-05-14 2019-05-14 一种基于混合模型的足球比赛首发预测方法

Country Status (1)

Country Link
CN (1) CN110222723B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723519A (zh) * 2020-05-29 2020-09-29 国网四川省电力公司电力科学研究院 基于逻辑回归和朴素贝叶斯的变压器故障诊断装置及方法
CN112766546A (zh) * 2021-01-05 2021-05-07 上海大学 一种基于机器学习的足球比赛胜负实时预测方法
CN112801224A (zh) * 2021-03-26 2021-05-14 平安科技(深圳)有限公司 糖尿病的分型概率预测方法、装置、设备及存储介质
CN113393063A (zh) * 2021-08-17 2021-09-14 深圳市信润富联数字科技有限公司 比赛结果预测方法、系统、程序产品及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015035206A1 (en) * 2013-09-05 2015-03-12 Koodbee, Llc Prediction processing system and method of use and method of doing business
CN104866853A (zh) * 2015-04-17 2015-08-26 广西科技大学 一种足球比赛视频中的多运动员的行为特征提取方法
CN106096623A (zh) * 2016-05-25 2016-11-09 中山大学 一种犯罪识别与预测方法
CN108320171A (zh) * 2017-01-17 2018-07-24 北京京东尚科信息技术有限公司 热销商品预测方法、系统及装置
CN108694502A (zh) * 2018-05-10 2018-10-23 清华大学 一种基于XGBoost算法的机器人制造单元自适应调度方法
CN109165253A (zh) * 2018-08-15 2019-01-08 宁夏大学 一种篮球战术辅助的方法与装置
CN109255629A (zh) * 2018-08-22 2019-01-22 阳光财产保险股份有限公司 一种客户分群方法及装置、电子设备、可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015035206A1 (en) * 2013-09-05 2015-03-12 Koodbee, Llc Prediction processing system and method of use and method of doing business
CN104866853A (zh) * 2015-04-17 2015-08-26 广西科技大学 一种足球比赛视频中的多运动员的行为特征提取方法
CN106096623A (zh) * 2016-05-25 2016-11-09 中山大学 一种犯罪识别与预测方法
CN108320171A (zh) * 2017-01-17 2018-07-24 北京京东尚科信息技术有限公司 热销商品预测方法、系统及装置
CN108694502A (zh) * 2018-05-10 2018-10-23 清华大学 一种基于XGBoost算法的机器人制造单元自适应调度方法
CN109165253A (zh) * 2018-08-15 2019-01-08 宁夏大学 一种篮球战术辅助的方法与装置
CN109255629A (zh) * 2018-08-22 2019-01-22 阳光财产保险股份有限公司 一种客户分群方法及装置、电子设备、可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
康琦等: "《大数据解读 支持决策研讨的文本分析方法研究》", 31 October 2017 *
蒙可斌: "CBA职业联赛球队队员贡献率的研究", 《中国优秀硕士学位论文全文数据库 社会科学Ⅱ辑》 *
裔隽: "《Python机器学习实战》", 31 January 2018 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723519A (zh) * 2020-05-29 2020-09-29 国网四川省电力公司电力科学研究院 基于逻辑回归和朴素贝叶斯的变压器故障诊断装置及方法
CN111723519B (zh) * 2020-05-29 2022-11-15 国网四川省电力公司电力科学研究院 基于逻辑回归和朴素贝叶斯的变压器故障诊断装置及方法
CN112766546A (zh) * 2021-01-05 2021-05-07 上海大学 一种基于机器学习的足球比赛胜负实时预测方法
CN112801224A (zh) * 2021-03-26 2021-05-14 平安科技(深圳)有限公司 糖尿病的分型概率预测方法、装置、设备及存储介质
WO2022198794A1 (zh) * 2021-03-26 2022-09-29 平安科技(深圳)有限公司 糖尿病的分型概率预测方法、装置、设备及存储介质
CN112801224B (zh) * 2021-03-26 2024-03-05 平安科技(深圳)有限公司 糖尿病的分型概率预测方法、装置、设备及存储介质
CN113393063A (zh) * 2021-08-17 2021-09-14 深圳市信润富联数字科技有限公司 比赛结果预测方法、系统、程序产品及存储介质

Also Published As

Publication number Publication date
CN110222723B (zh) 2021-07-20

Similar Documents

Publication Publication Date Title
CN110222723A (zh) 一种基于混合模型的足球比赛首发预测方法
Yuan et al. Application of motion sensor based on neural network in basketball technology and physical fitness evaluation system
Reed et al. Development and application of computer-based prediction methods
CN109931678A (zh) 基于深度学习lstm的空调故障诊断方法
Mcdaniel et al. The conceptual basis of function learning and extrapolation: Comparison of rule-based and associative-based models
CN101907681A (zh) 基于gsd_svdd的模拟电路动态在线故障诊断方法
US20110276153A1 (en) Method and system for facilitating golf swing instruction
CN111640483B (zh) 基于akc模型的健身方案推荐方法
CN108211268B (zh) 基于运动训练数据的运动负荷监测与运动疲劳预警方法和系统
Sałabun How the normalization of the decision matrix influences the results in the VIKOR method?
Wenninger et al. Performance of machine learning models in application to beach volleyball data.
US20230149774A1 (en) Handle Motion Counting Method and Terminal
CN109816010A (zh) 一种用于航班延误预测的基于选择性集成的cart增量学习分类方法
CN109670644A (zh) 基于神经网络的预测系统及方法
Palacios et al. Future Performance Modeling in Athletism with Low Quality Data-based Genetic Fuzzy Systems.
Ofoghi et al. A machine learning approach to predicting winning patterns in track cycling omnium
CN109410046A (zh) 目标股票选择方法、装置及存储介质
CN112070411A (zh) 一种评估篮球联赛新球员与球队适应程度的方法
Frassinelli et al. Event-based measurement of power in sport activities by means of distributed wireless sensors
Ghosh et al. Indian premier league player selection model based on Indian domestic league performance
Anwar et al. Neutrosophic MCDM approach for performance evaluation and recommendation of best players in sports league
Li Modeling and analysis of influencing factors of competitive performance of wushu athletes
CN110420016A (zh) 一种运动员疲劳度的预测方法及系统
Su et al. Basketball players' score prediction using artificial intelligence technology via the Internet of Things
Humphreys et al. Learning by Doing, Productivity, and Growth: New Evidence on the Link between Micro and Macro Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant