CN110222723A

CN110222723A - 一种基于混合模型的足球比赛首发预测方法

Info

Publication number: CN110222723A
Application number: CN201910397057.2A
Authority: CN
Inventors: 蔡毅; 黄旸珉; 张扬; 刘栩维; 王谦; 梁健恒
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-05-14
Filing date: 2019-05-14
Publication date: 2019-09-10
Anticipated expiration: 2039-05-14
Also published as: CN110222723B

Abstract

本发明公开了一种基于混合模型的足球比赛首发预测方法，包括步骤：收集球员比赛数据，对数据进行预处理；构建球员各项比赛数据的统计特征；分别构建并训练逻辑回归模型、Xgboost模型、朴素贝叶斯模型，输入球队内所有球员的比赛数据，得到每个球员未来一场比赛首发上场的概率；对所述三个模型赋予不同权重，根据三种模型得到的概率，采用加权投票法对球员获得首发上场的情况进行投票，取得票最多的前11个球员，为最终预测未来一场比赛首发上场的球员。本发明采用机器学习中的混合模型，可以全面而有效地通过球员的历史比赛数据对其未来首发上场情况做出预测，能够很好地帮助教练和球队进行分析和备战。

Description

一种基于混合模型的足球比赛首发预测方法

技术领域

本发明涉及数据分析领域中的足球数据预测领域，尤其涉及一种基于混合模型的足球比赛首发预测方法。

背景技术

随着数据行业在体育运动中的发展，足球比赛中收集到的数据已经可以涵盖球场上球员所做的绝大部分动作，包括射门，传球，拼抢，犯规等等数据，并且数据的统计收集方式也完成了从以往偏差较大的人工统计向更为准确的视频分析统计的转变。如今，可收集统计的足球比赛数据已经能够准确、全面地还原球员在比赛中的各方面表现。

但是，由于数据分析在足球行业内的应用还未完全成熟，教练员和分析师普遍依靠自身经历并且采用经验主义进行判断和预测的方法，更多地依赖于在日常训练中对球员状态，以及对于球员近期比赛表现的主观判断来做出未来比赛中比赛首发阵容的选择，无法全面地使用球员的历史比赛数据对未来的比赛选择进行参考。这使得如今收集到的较为全面的比赛数据无法发挥其作用，难以为教练员的选择提供更有价值的参考。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于混合模型的足球比赛首发预测方法。本发明能够更全面地利用现有的所有比赛数据，根据球员近期历史比赛数据对球员未来一场比赛是否适合首发上场做出预测，给予教练员一定程度的数据上的支持。

本发明的目的能够通过以下技术方案实现：

一种基于混合模型的足球比赛首发预测方法，包括步骤：

收集球员比赛数据，对数据进行预处理；

构建球员各项比赛数据的统计特征；

构建并训练逻辑回归模型，输入球队内所有球员的比赛数据，得到每个球员未来一场比赛首发上场的概率；

构建并训练Xgboost模型，输入球队内所有球员的比赛数据，得到每个球员未来一场比赛首发上场的概率；

构建并训练朴素贝叶斯模型，输入球队内所有球员的比赛数据，得到每个球员未来一场比赛首发上场的概率；

对所述三个模型赋予不同权重，根据三种模型得到的概率，采用加权投票法对球员获得首发上场的情况进行投票，取得票最多的前11个球员，为最终预测未来一场比赛首发上场的球员。

优选地，所述收集的球员比赛数据为数值型数据，包括但不限于传球、射门、拼抢、进球和犯规的数量。

具体地，所述收集球员比赛数据，对数据进行预处理的步骤中，预处理为特征离散化和归一化；

在本发明中，所述特征离散化，即对于连续性特征比赛时间进行区间划分，分别为0-10分钟、10-45分钟以及大于45分钟三个区间，并分别将其离散化为0、1、2；所述特征归一化，即对球员的其他连续性特征进行min-max标准化，将原始比赛数据线性变换到[0,1]区间内。

具体地，所述球员各项比赛数据的统计特征构建方法为：

针对根据不同性质统计的子类比赛数据，相应地计算其与对应父类比赛数据的比值，得到比值型数据作为统计特征；如计算根据射门在门框范围之内统计的射正次数和其父类比赛数据射门次数的比值，得到比值型数据“射正率”作为统计特征。

具体地，所述构建并训练逻辑回归模型，得到每个球员未来一场比赛首发上场的概率的步骤中，球员未来一场比赛首发上场的概率表示为：

其中，y为是否首发上场的标签，X为在n个特征上取特定值的样本，W为逻辑回归模型参数。

具体地，所述构建并训练逻辑回归模型，得到每个球员未来一场比赛首发上场的概率的步骤中，包括步骤：

对已有数据集中的所有球员历史比赛数据以向量形式进行表示，并以比赛日期和所属队伍为特征对球员历史比赛数据向量进行编码，按照5：1的比例随机选取有相同编码的球员历史比赛数据划分为训练集和测试集；

利用训练集训练构建的逻辑回归模型；

利用测试集直接检验训练后的逻辑回归模型，得到准确率A1；

对于测试集中有相同编码的球员历史比赛数据向量，利用训练后的逻辑回归模型得到对应的未来一场比赛首发上场的概率，选取概率最高的前11个球员历史比赛数据向量给予首发上场标签，其他球员历史比赛数据向量给予不首发上场标签，检验标签准确率，得到准确率A2；

输入指定球队内所有球员的历史比赛数据向量，利用训练后的逻辑回归模型得到对应的未来一场比赛首发上场的概率，选取概率最高的前11个球员历史比赛数据向量给予首发上场标签，其他球员历史比赛数据向量给予不首发上场标签。

具体地，所述构建并训练逻辑回归模型，得到每个球员未来一场比赛首发上场的概率的步骤中，逻辑回归模型参数W根据最大似然估计取得，使得P₁(y|X)正确的概率最大，即通过已知首发上场的标签结果反推最大概率导致该结果的模型参数W，输入给定的训练集样本，使P₁(y|X)与(1-P₁(y|X))相乘累加并取得最大值的W为最大似然估计求得的模型参数W。

具体地，所述根据预处理的球员历史比赛数据，构建并训练Xgboost模型的步骤中，Xgboost模型的预测函数表示为：

其中，K表示设定的迭代总次数，表示Xgboost预测得到的加权值，f_k表示第k轮迭代得出的决策树模型，预测函数是一个叠加的函数模型。

具体地，所述根据预处理的球员历史比赛数据，构建并训练Xgboost模型的步骤中，包括步骤：

采用gbtree booster回归树方法作为Boosting的算法框架构建决策树模型，采用贪婪方法对目标函数进行逐步优化和迭代；

利用测试集直接检验训练后的Xgboost模型，得到准确率A3；

对于测试集中有相同编码的球员历史比赛数据向量，利用训练后的Xgboost模型得到对应的未来一场比赛首发上场的概率，选取概率最高的前11个球员历史比赛数据向量给予首发上场标签，其他球员历史比赛数据向量给予不首发上场标签，检验标签准确率，得到准确率A4；

输入指定球队内所有球员的历史比赛数据向量，利用训练后的Xgboost模型得到对应的未来一场比赛首发上场的概率，选取概率最高的前11个球员历史比赛数据向量给予首发上场标签，其他球员历史比赛数据向量给予不首发上场标签。

具体地，所述根据预处理的球员历史比赛数据，构建并训练朴素贝叶斯模型的步骤中，球员未来一场比赛首发上场的后验概率表示为：

其中，σ²是所有特征取值的方差，μ_y是所有首发上场标签取值的均值，是所有标签取值的方差。

根据球员未来一场比赛首发上场的后验概率，构建朴素贝叶斯分类器模型，表示为：

其中，P(y)为每个特征对应的是否上场标签的先验概率，为未来一场比赛首发上场的概率，n为所用特征的总数。

具体地，所述根据预处理的球员历史比赛数据，构建并训练朴素贝叶斯模型的步骤中，包括步骤：

利用训练集训练构建的朴素贝叶斯模型；

利用测试集直接检验训练后的朴素贝叶斯模型，得到准确率A5；

对于测试集中有相同编码的球员历史比赛数据向量，利用训练后的朴素贝叶斯模型得到对应的未来一场比赛首发上场的概率，选取概率最高的前11个球员历史比赛数据向量给予首发上场标签，其他球员历史比赛数据向量给予不首发上场标签，检验标签准确率，得到准确率A6；

输入指定球队内所有球员的历史比赛数据向量，利用训练后的朴素贝叶斯模型得到对应的未来一场比赛首发上场的概率，选取概率最高的前11个球员历史比赛数据向量给予首发上场标签，其他球员历史比赛数据向量给予不首发上场标签。

具体地，所述对所述三个模型赋予不同权重，根据三种模型得到的概率，采用加权投票法对球员获得首发上场的情况进行投票的步骤中，包括步骤：

计算三个模型在测试集上的综合预测准确率；

比较三个模型的综合预测准确率，综合预测准确率第一的获得权重W1，综合预测准确率的获得权重W2，综合预测准确率第三的获得权重W3；

对于所有的球员历史比赛数据向量，获得模型给予的首发上场标签，即获得一份带有其权重的投票，否则没有获得其带有权重的投票，将三个模型下的投票进行叠加，取获得票数最高的前11个球员历史比赛数据向量给予首发上场标签，其他给予不首发上场标签，输出最终结果。

更进一步地，逻辑回归模型的综合预测准确率计算方法为：

A7＝A1*0.3+A2*0.7

其中，A7为逻辑回归模型的综合预测准确率；

Xgboost模型的综合预测准确率计算方法为：

A8＝A3*0.3+A4*0.7

其中，A8为Xgboost模型的综合预测准确率；

朴素贝叶斯模型的综合预测准确率计算方法为：

A9＝A5*0.3+A6*0.7

其中，A9为朴素贝叶斯模型的综合预测准确率。

本发明相较于现有技术，具有以下的有益效果：

1、本发明相较于单个分类模型，能够有效地提高预测球员首发上场的准确率，为教练员在根据经验判断之外提供更为全面和准确的参考。

2、本发明通过构建和训练逻辑回归、Xgboost和朴素贝叶斯模型，再采用加权投票法结合三个模型的预测结果，最终预测球员是否在未来一场比赛首发上场，考虑到了球员所有数据对是否未来一场比赛首发上场的影响，更加充分利用了全面的历史比赛数据，为球队在分析对方阵容和选择本方球员上场的过程中提供更全面的参考。

附图说明

图1是一种基于混合模型的足球比赛首发预测方法的流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1所示为一种基于混合模型的足球比赛首发预测方法的流程图，包括步骤：

S1、收集球员比赛数据，对数据进行预处理；

具体地，所述收集的球员比赛数据为数值型数据，包括但不限于传球、射门、拼抢、进球和犯规的数量。

具体地，所述收集球员近期比赛数据，对数据进行预处理的步骤中，预处理为特征离散化和归一化；

所述特征离散化，即对于连续性特征比赛时间进行区间划分，分别为0-10分钟、10-45分钟以及大于45分钟三个区间，并分别将其离散化为0、1、2；所述特征归一化，即对球员的其他连续性特征进行min-max标准化，将原始比赛数据线性变换到[0,1]区间内。

S2、构建球员各项比赛数据的统计特征；

具体地，所述球员各项比赛数据的统计特征构建方法为：

S3、构建并训练逻辑回归模型，输入球队内所有球员的比赛数据，得到每个球员未来一场比赛首发上场的概率；

所述步骤S3中，球员未来一场比赛首发上场的概率表示为：

其中，y为是否首发上场的标签，X为在n个特征上取特定值的样本，W为逻辑回归模型参数，通过最大似然估计取得；

其中，模型参数W根据最大似然估计取得，使得P₁(y|X)正确的概率最大，即通过已知首发上场的标签结果反推最大概率导致该结果的模型参数W，输入给定的训练集样本，使P₁(y|X)与(1-P₁(y|X))相乘累加并取得最大值的W为最大似然估计求得的模型参数W。

具体地，所述步骤S3包括：

S31、对已有数据集中的所有球员历史比赛数据以向量形式进行表示，并以比赛日期和所属队伍为特征对球员历史比赛数据向量进行编码，按照5：1的比例随机选取有相同编码的球员历史比赛数据划分为训练集和测试集；

S32、利用训练集训练构建的逻辑回归模型；

S33、利用测试集直接检验训练后的逻辑回归模型，得到准确率A1；

S34、对于测试集中有相同编码的球员历史比赛数据向量，利用训练后的逻辑回归模型得到对应的未来一场比赛首发上场的概率，选取概率最高的前11个球员历史比赛数据向量给予首发上场标签，其他球员历史比赛数据向量给予不首发上场标签，检验标签准确率，得到准确率A2；

S35、输入指定球队内所有球员的历史比赛数据向量，利用训练后的逻辑回归模型得到对应的未来一场比赛首发上场的概率，选取概率最高的前11个球员历史比赛数据向量给予首发上场标签，其他球员历史比赛数据向量给予不首发上场标签。

S4、构建并训练Xgboost模型，输入球队内所有球员的比赛数据，得到每个球员未来一场比赛首发上场的概率；

所述步骤S4中，Xgboost模型的预测函数表示为：

具体地，所述步骤S4包括：

S41、对已有数据集中的所有球员历史比赛数据以向量形式进行表示，并以比赛日期和所属队伍为特征对球员历史比赛数据向量进行编码，按照5：1的比例随机选取有相同编码的球员历史比赛数据划分为训练集和测试集；

S42、采用gbtree booster回归树方法作为Boosting的算法框架构建决策树模型，采用贪婪方法对目标函数进行逐步优化和迭代；

S43、利用测试集直接检验训练后的Xgboost模型，得到准确率A3；

S44、对于测试集中有相同编码的球员历史比赛数据向量，利用训练后的Xgboost模型得到对应的未来一场比赛首发上场的概率，选取概率最高的前11个球员历史比赛数据向量给予首发上场标签，其他球员历史比赛数据向量给予不首发上场标签，检验标签准确率，得到准确率A4；

S45、输入指定球队内所有球员的历史比赛数据向量，利用训练后的Xgboost模型得到对应的未来一场比赛首发上场的概率，选取概率最高的前11个球员历史比赛数据向量给予首发上场标签，其他球员历史比赛数据向量给予不首发上场标签。

S5、构建并训练朴素贝叶斯模型，输入球队内所有球员的比赛数据，得到每个球员未来一场比赛首发上场的概率；

所述步骤S5中，球员未来一场比赛首发上场的后验概率表示为：

具体地，所述步骤S5包括：

S51、对已有数据集中的所有球员历史比赛数据以向量形式进行表示，并以比赛日期和所属队伍为特征对球员历史比赛数据向量进行编码，按照5：1的比例随机选取有相同编码的球员历史比赛数据划分为训练集和测试集；

S52、利用训练集训练构建的朴素贝叶斯模型；

S53、利用测试集直接检验训练后的朴素贝叶斯模型，得到准确率A5；

S54、对于测试集中有相同编码的球员历史比赛数据向量，利用训练后的朴素贝叶斯模型得到对应的未来一场比赛首发上场的概率，选取概率最高的前11个球员历史比赛数据向量给予首发上场标签，其他球员历史比赛数据向量给予不首发上场标签，检验标签准确率，得到准确率A6；

S55、输入指定球队内所有球员的历史比赛数据向量，利用训练后的朴素贝叶斯模型得到对应的未来一场比赛首发上场的概率，选取概率最高的前11个球员历史比赛数据向量给予首发上场标签，其他球员历史比赛数据向量给予不首发上场标签。

S6、对所述三个模型赋予不同权重，根据三种模型得到的概率，采用加权投票法对球员获得首发上场的情况进行投票，取得票最多的前11个球员，为最终预测未来一场比赛首发上场的球员。

具体地，所述步骤S6包括：

S61、计算三个模型在测试集上的综合预测准确率；

S62、比较三个模型的综合预测准确率，综合预测准确率第一的获得权重W1，综合预测准确率的获得权重W2，综合预测准确率第三的获得权重W3；其中，W1取值为1，W2取值为1.2，W3取值为1.5；

S63、对于所有的球员历史比赛数据向量，获得模型给予的首发上场标签，即获得一份带有其权重的投票，否则没有获得其带有权重的投票，将三个模型下的投票进行叠加，取获得票数最高的前11个球员历史比赛数据向量给予首发上场标签，其他给予不首发上场标签，输出最终结果。

更进一步地，逻辑回归模型的综合预测准确率计算方法为：

A7＝A1*0.3+A2*0.7

其中，A7为逻辑回归模型的综合预测准确率；

Xgboost模型的综合预测准确率计算方法为：

A8＝A3*0.3+A4*0.7

其中，A8为Xgboost模型的综合预测准确率；

朴素贝叶斯模型的综合预测准确率计算方法为：

A9＝A5*0.3+A6*0.7

其中，A9为朴素贝叶斯模型的综合预测准确率。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于混合模型的足球比赛首发预测方法，其特征在于，包括步骤：

收集球员比赛数据，对数据进行预处理；

构建球员各项比赛数据的统计特征；

2.根据权利要求1所述的一种基于混合模型的足球比赛首发预测方法，其特征在于，所述收集球员比赛数据，对数据进行预处理的步骤中，收集的比赛数据为数值型数据，预处理为特征离散化和归一化；所述特征离散化，即对于连续性特征比赛时间进行区间划分，分别为0-10分钟、10-45分钟以及大于45分钟三个区间，并分别将其离散化为0、1、2。

3.根据权利要求1所述的一种基于混合模型的足球比赛首发预测方法，其特征在于，所述构建并训练逻辑回归模型，得到每个球员未来一场比赛首发上场的概率的步骤中，球员未来一场比赛首发上场的概率表示为：

4.根据权利要求1所述的一种基于混合模型的足球比赛首发预测方法，其特征在于，所述构建并训练逻辑回归模型，得到每个球员未来一场比赛首发上场的概率的步骤中，包括步骤：

利用训练集训练构建的逻辑回归模型；

5.根据权利要求1所述的一种基于混合模型的足球比赛首发预测方法，其特征在于，所述根据预处理的球员历史比赛数据，构建并训练Xgboost模型的步骤中，Xgboost模型的预测函数表示为：

6.根据权利要求1所述的一种基于混合模型的足球比赛首发预测方法，其特征在于，所述根据预处理的球员历史比赛数据，构建并训练Xgboost模型的步骤中，包括步骤：

采用gbtree booster回归树方法作为Boosting的算法框架构建决策树模型，对目标函数采用贪婪方法进行逐步优化和迭代；

利用测试集直接检验训练后的Xgboost模型，得到准确率A3；

7.根据权利要求1所述的一种基于混合模型的足球比赛首发预测方法，其特征在于，所述根据预处理的球员历史比赛数据，构建并训练朴素贝叶斯模型的步骤中，球员未来一场比赛首发上场的后验概率表示为：

其中，σ²是所有特征取值的方差，μ_y是所有首发上场标签取值的均值，是所有标签取值的方差；

8.根据权利要求1所述的一种基于混合模型的足球比赛首发预测方法，其特征在于，所述根据预处理的球员历史比赛数据，构建并训练朴素贝叶斯模型的步骤中，包括步骤：

利用训练集训练构建的朴素贝叶斯模型；

9.根据权利要求1所述的一种基于混合模型的足球比赛首发预测方法，其特征在于，所述对所述三个模型赋予不同权重，根据三种模型得到的概率，采用加权投票法对球员获得首发上场的情况进行投票的步骤中，包括步骤：

计算三个模型在测试集上的综合预测准确率；

10.根据权利要求9所述的一种基于混合模型的足球比赛首发预测方法，其特征在于，逻辑回归模型的综合预测准确率计算方法为：

A7＝A1*0.3+A2*0.7

其中，A7为逻辑回归模型的综合预测准确率；

Xgboost模型的综合预测准确率计算方法为：

A8＝A3*0.3+A4*0.7

其中，A8为Xgboost模型的综合预测准确率；

朴素贝叶斯模型的综合预测准确率计算方法为：

A9＝A5*0.3+A6*0.7

其中，A9为朴素贝叶斯模型的综合预测准确率。