CN104200090B - 基于多源异构数据的预测方法和装置 - Google Patents

基于多源异构数据的预测方法和装置 Download PDF

Info

Publication number
CN104200090B
CN104200090B CN201410427849.7A CN201410427849A CN104200090B CN 104200090 B CN104200090 B CN 104200090B CN 201410427849 A CN201410427849 A CN 201410427849A CN 104200090 B CN104200090 B CN 104200090B
Authority
CN
China
Prior art keywords
team
lambda
parameter
match
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410427849.7A
Other languages
English (en)
Other versions
CN104200090A (zh
Inventor
王擎
胡伟
沈志勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410427849.7A priority Critical patent/CN104200090B/zh
Publication of CN104200090A publication Critical patent/CN104200090A/zh
Priority to JP2014264903A priority patent/JP6251668B2/ja
Priority to US14/585,136 priority patent/US9760832B2/en
Priority to EP14200682.4A priority patent/EP2990957A1/en
Priority to KR1020140195017A priority patent/KR102118754B1/ko
Application granted granted Critical
Publication of CN104200090B publication Critical patent/CN104200090B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/34Betting or bookmaking, e.g. Internet betting
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07FCOIN-FREED OR LIKE APPARATUS
    • G07F17/00Coin-freed apparatus for hiring articles; Coin-freed facilities or services
    • G07F17/32Coin-freed apparatus for hiring articles; Coin-freed facilities or services for games, toys, sports, or amusements
    • G07F17/3286Type of games
    • G07F17/3288Betting, e.g. on live events, bookmaking

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Algebra (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Operations Research (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种基于多源异构数据的预测方法和装置。该方法包括:对于设定类型事件,获取能反映事件结果的至少两类历史数据;建立设定类型事件的属性数据与所述至少两类历史数据的联合似然模型,并根据最大后验原则确定所述属性数据的最优估计;对于属于所述设定类型事件的待预测事件,基于所述联合似然模型中与属性数据关联的概率分布,确定所述概率分布中的参数,作为所述待预测事件的预测结果。本发明实施例,使用层次模型,在不同数据层引入不同来源数据,将异构数据统一在一个联合似然模型里进行分析,通过有效的融合,得到更加精准、即时和稳定的预测结果。

Description

基于多源异构数据的预测方法和装置
技术领域
本发明实施例涉及数据处理技术,尤其涉及一种基于多源异构数据的预测方法和装置。
背景技术
现有技术中,基于历史数据和模型对事件结果进行预测是一种常见的预测方法。典型的应用场景是对各种比赛结果进行预测。
基于历史比赛数据的预测模型,主要通过分析历史比赛数据里各支队伍的表现来估计赛队攻守能力,并以此为依据预测之后比赛的赛果。
该技术方案的缺陷主要在于,由于各支赛队的比赛在时间上分布比较稀疏,还存在赛队球员的变化以及球员自身的状态起伏,以及比赛的偶然性等,所以基于此获得的预测模型很难对所有赛队之间的即时相对强弱做出较好的估计,导致预测准确性差、不够稳定。此外,还不能对于赛程中出现的情况作出及时的反映。并且数据源单一,信息量较少而不能有效地预测未来的比赛赛果。
发明内容
本发明实施例提供一种基于多源异构数据的预测方法和装置,以提高预测的准确性。
本发明实施例提供了一种基于多源异构数据的预测方法,包括:
对于设定类型事件,获取能反映事件结果的至少两类历史数据;
建立设定类型事件的属性数据与所述至少两类历史数据的联合似然模型,并根据最大后验原则确定所述属性数据的最优估计;
对于属于所述设定类型事件的待预测事件,基于所述联合似然模型中与属性数据关联的概率分布,确定所述概率分布中的参数,作为所述待预测事件的预测结果。
本发明实施例还提供了一种基于多源异构数据的预测装置,包括:
数据获取模块,用于对于设定类型事件,获取能反映事件结果的至少两类历史数据;
模型估计模块,用于建立设定类型事件的属性数据与所述至少两类历史数据的联合似然模型,并根据最大后验原则确定所述属性数据的最优估计;
结果预测模块,用于对于属于所述设定类型事件的待预测事件,基于所述联合似然模型中与属性数据关联的概率分布,确定所述概率分布中的参数,作为所述待预测事件的预测结果。
本发明实施例,使用层次模型,在不同数据层引入不同来源数据,将异构数据统一在一个联合似然模型里进行分析,通过有效的融合,得到更加精准、即时和稳定的预测结果。
附图说明
图1为本发明实施例一提供的基于多源异构数据的预测方法的流程图;
图2为本发明实施例二提供的基于多源异构数据的预测方法的流程图;
图3为本发明实施例二所适用的模型和参数之间关系示意图;
图4为本发明实施例三提供的基于多源异构数据的预测装置的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的基于多源异构数据的预测方法的流程图。本发明实施例适用于对事件的结果进行预测,具体包括如下:
S110、对于设定类型事件,获取能反映事件结果的至少两类历史数据;
设定类型事件是指本发明实施例方法能够预测的事件,一般是事件结果符合某种概率分布的事件,典型的如足球比赛、篮球比赛等。历史数据是指此类事件的历史结果数据。事件的结果往往可以从多个角度来表述,每个角度的结果数据可视为一类。例如,对于足球比赛,比分数据可视为一类能反映比赛结果的数据,从主队和客队不同的角度来看比分,可记为主队比分和客队比分;赔率数据则可视为另一类能反映比赛结果的数据,赔率数据一般是从体彩等组织获取的,其往往体现了投注者以及组织者对比赛结果的期望值,赔率数据可包括主赔、平赔和客赔。多类的历史数据实际上构成了多源异构的数据形式,而不像现有技术那样局限于某一种单一的数据源类型。
S120、建立设定类型事件的属性数据与所述至少两类历史数据的联合似然模型,并根据最大后验原则确定所述属性数据的最优估计;
属性数据是指事件的内在属性,随可包含一些偶然因素,但一般是静态稳定的。例如,比赛的赛队攻守能力参数即可视为属性数据,赛队水平的发挥虽然可能受到天气、伤病的影响,但大体应该是稳定的,也是预测比赛结果的重要依据。本操作建立事件的属性数据与至少两类历史数据的联合似然模型,即综合考虑了多源异构的历史数据,从多层次来确定事件的属性数据。
该操作具体可以是:根据所述至少两类历史数据与所述属性数据之间的关系,以及用于修正所述关系满足正态分布的修正函数,建立所述联合似然模型。
联合似然模型将各类历史数据与属性数据之间的关系进行综合考虑,每类历史数据和属性数据之间的关系可采用某种分布概率函数来表示。所述历史数据与所述属性数据之间的关系优选包括泊松分布函数和/或伽马分布函数。例如,赔率与攻守能力参数之间的关系可基于泊松分布函数来表示,比分与攻守能力参数之间的关系可基于伽马分布函数来表示。当然,分布概率函数并不限于此,也可以采用其他满足事件关系的分布概率函数来表示。
在此基础上,优选是联合似然模型中还包括用于修正所述关系满足正态分布的修正函数,即由于属性数据中,以及其与比赛结果之间的关系一般都是满足正态关系的,不太可能会出现极端情况,所以针对由于某些偶然因素或历史数据过少而导致的畸形关系,避免确定的属性数据偏差过大。
S130、对于属于所述设定类型事件的待预测事件,基于所述联合似然模型中与属性数据关联的概率分布,确定所述概率分布中的参数,作为所述待预测事件的预测结果。
在确定了设定类型事件的属性数据之后,对于同类事件,即可采用该属性数据,并基于联合似然模型中与属性数据关联的概率分布确定所述概率分布中的参数。这实际上是基于历史数据确定属性数据的逆向过程。
本发明实施例,使用层次模型(hierarchical model),在不同数据层引入不同来源数据,将异构数据统一在一个联合似然模型里进行分析,通过有效的融合,得到更加精准、即时和稳定的预测结果。
实施例二
图2为本发明实施例二提供的基于多源异构数据的预测方法的流程图,图3为本发明实施例二所适用的模型和参数之间关系示意图,本实施例给出了具体的执行方案,具体以比赛预测为例进行说明。该方法具体包括:
S210、对于比赛,获取能反映比赛结果的历史比分和历史赔率,作为两类历史数据;
本操作取多场比赛的历史结果,多场比赛中每场比赛可记为比赛m,m为比赛的序号,m的取值范围为1至M。每场比赛m的比分记为主队比分sm,1和客队比分sm,2,每场比赛m的赔率记为主赔pm,1、平赔pm,2和客赔pm,3
S220、对所述历史赔率进行归一化处理。
本操作为可选步骤,以使赔率适应于分布概率函数的参数形式。优选可以基于如下公式对赔率进行归一化处理:
p′m,1=pm,1/(pm,1+pm,2+pm,3) (1)
p′m,2=pm,2/(pm,1+pm,2+pm,3) (2)
p′m,3=pm,3/(pm,1+pm,2+pm,3) (3)
p′m,1、p′m,2和p′m,3为归一化处理后的赔率,为下文描述统一,将归一化处理后的赔率仍记为pm,1、pm,2和pm,3
S230、对于比赛m,采用所述比赛m的主赔pm,1、平赔pm,2和客赔pm,3,基于如下关系式确定所述比赛m的泊松分布的主队进球参数λm,1和客队进球参数λm2
其中,P()为分布概率,即满足括号内关系式的概率。
Poisson(λ)表示以λ作为参数的泊松分布,其含义为若随机变量X只取非负整数值0,1,2,...,且其概率分布服从Poisson(λ)。则pm,1=P(Poisson(λm,1)>Poisson(λm,2))的含义为,主队进球参数λm,1和客队进球参数λm2的取值使得出现Poisson(λm,1)>Poisson(λm,2)的概率等于主赔pm,1。另两个公式的含义类似,主队进球参数λm,1和客队进球参数λm2应满足上述三个关系式。
各场比赛的主队进球参数λm,1和客队进球参数λm2均按照如上关系式来确定。由于比赛本身不同,例如天气、日期、比赛的重要性、比分、赔率等不同,所以即使参赛的赛队相同,确定的主队进球参数λm,1和客队进球参数λm2也不完全相同。各个赛队在参与比赛而确定的主队进球参数λm,1和客队进球参数λm2相互独立。
S240、将基于赔率确定的各比赛的主队进球参数λm,1和客队进球参数λm,2,以及各场比赛中的主队比分sm,1和客队比分sm,2,代入下式,构造如下关于赛队攻守能力参数θ的联合似然模型,并使用最大后验方式确定各赛队的攻守能力参数θ:
其中,
θ=({ai}i=1...n,{dj}j=1...n,{bk,bk′}k,k′=1...K)
θ为各赛队的攻守能力参数集合。n为赛队的序号,ai为赛队i的攻击能力参数,dj为赛队j的防守能力参数,bk和bk′为比赛的状态调整参数,分别用于根据比赛的状态修正赛队作为主队和客队时的攻击能力参数和防守能力参数。所谓状态调整参数,即根据比赛状态对赛队的攻守能力参数进行调整的修正系数。因为即使参赛的赛队相同,也会由于比赛自然的状态而使攻守能力发生变化。例如,比赛时的天气情况,比赛的类型是友谊赛还是世界杯、联赛等,所以可设置bk作为对主队攻守能力的修正系数,设置bk′作为对客队攻守能力的修正系数,两者均可从模型中估计得出。
P(θ)的含义为θ的分布概率,即表示θ作为连续分布随机变量的概率密度。
关系式(5)中的第一项如下:
当s取值为sm,1时,
当s取值为sm,2时,
P(s|θ)用于表示攻守能力参数θ与比分s之间的关系。
关系式(5)中的第二项如下:
当λ取值为λm,1时,
当λ取值为λm2时,
P(λ|θ)用于表示攻守能力参数θ与进球参数λ之间的关系。
g为预设权重值,可通过调整权重值调整比分和赔率对攻守能力参数的影响;β为预设的第一预设调整参数值,σ1为预设的第二调整参数值,σ2为预设的第三调整参数值;上述参数值均可根据经验或实验进行预先设定,也可以根据预测情况进行调整。
Γ()为伽马函数;logN()函数是对数正态分布函数;
关系式(5)中的第三项如下:
用于对历史数据低于设定门限值的赛队进行修正,即当赛队的历史数据较少时,未避免因样本数据较少而导致确定的赛队攻守能力偏差大,而设定此调整项,因为赛队的攻守能力一般符合正态分布,不会在各场比赛中出现过大的浮动。
关系式(5)中的第四项如下:
用于对赛队攻守能力的平衡性进行修正。即对于每个赛队而言,其攻击和防守的能力之间不会有过大差距,一般是关联的,所以采用此调整项进行修正。
基于调整项,即通过调节模型超参数,也可以控制模型在使用历史数据及赔率数据之间的平衡性,以及控制时间较久远的数据对即时数据的重要程度比值。
S250、对于待预测比赛c,按照参赛的主队i和客队j的攻守能力参数θ,基于如下关系式确定所述待预测比赛c的主队分布参数λc,1和客队分布参数λc,2
其中,为根据所述待预测比赛c确定的主队修正系数,为主队i的攻击能力参数,为客队j的防守能力参数,为根据所述待预测比赛c确定的客队修正系数,为客队j的攻击能力参数,为主队的防守能力参数;
S260、对于待预测比赛c,按照所述主队分布参数λc,1和客队分布参数λc,2基于如下关系式确定赔率pc,1、pc,2和pc,3
S270、对于待预测比赛c,按照所述主队分布参数λc,1和客队分布参数λc,2基于如下关系式确定比分sc,1和sc,2
sc,1~Poisson(λc,1) (9)
sc,2~Poisson(λc,2) (10)
本发明实施例的技术方案,对赛队的攻守能力参数进行建模分析,并基于此对未来比赛的可能赛果做模拟计算。对于每场比赛的赛果使用两个泊松(Poisson)分布进行建模,并依次建立了从比分到泊松分布参数的模型关系,从赔率到泊松分布参数的模型关系,并进一步使用攻守能力参数对泊松分布参数的分布进行建模,使用有(深度)层次结构的模型将两种数据整合起来,最终根据模型结果给出未来比赛可能结果的概率估计及其他输出。其中,比分的分布用两个泊松分布来刻画,并且同时由赔率数据反向推算比分分布的泊松模型的参数值,采用伽马分布刻画泊松模型参数值的分布,并将伽马分布的参数与主客场赛队的攻守能力参数及其他特征相联系,综合两方面得到的泊松分布参数,建立队伍攻守能力与比赛结果和赔率数据的联合似然。
本发明实施例的技术方案,可以有效地利用不同来源的不同结构的数据,相对于现有技术而言,现有的足球预测模型大部分只考虑用历史比分数据,并没有多源数据融合方面的内容。而本发明实施例通过整合多源异构数据,该方案可以获得更好的准确性,更快的时效性,以及更优的稳定性。
实施例三
图4为本发明实施例三提供的基于多源异构数据的预测装置的结构示意图,该装置包括:数据获取模块410、模型估计模块420和结果预测模块430。其中,数据获取模块410,用于对于设定类型事件,获取能反映事件结果的至少两类历史数据;模型估计模块420,用于建立设定类型事件的属性数据与所述至少两类历史数据的联合似然模型,并根据最大后验原则确定所述属性数据的最优估计;结果预测模块430,用于对于属于所述设定类型事件的待预测事件,基于所述联合似然模型中与属性数据关联的概率分布,确定所述概率分布中的参数,作为所述待预测事件的预测结果。
在上述技术方案中,模型估计模块420具体可用于:根据所述至少两类历史数据与所述属性数据之间的关系,以及用于修正所述关系满足正态分布的修正函数,建立所述联合似然模型。
所述历史数据与所述属性数据之间的关系优选包括泊松分布函数和/或伽马分布函数。
基于上述技术方案提供的优选实例为:
数据获取模块410具体用于对于比赛,获取能反映比赛结果的历史比分和历史赔率,作为两类历史数据;
模型估计模块420具体用于:
对于比赛m,采用所述比赛m的主赔pm,1、平赔pm,2和客赔pm,3,基于如下关系式确定所述比赛m的泊松分布的主队进球参数λm,1和客队进球参数λm2
其中,P()为分布概率;m为比赛的序号,m的取值范围为1至M;
将基于赔率确定的各比赛的主队进球参数λm,1和客队进球参数λm,2,以及各场比赛中的主队比分sm,1和客队比分sm,2,代入下式,构造如下关于赛队攻守能力参数θ的联合似然模型,并使用最大后验方式确定各赛队的攻守能力参数θ:
其中,
θ=({ai}i=1...n,{dj}j=1...n,{bk,bk′}k,k′=1...K)
n为赛队的序号,ai为赛队i的攻击能力参数,dj为赛队j的防守能力参数,bk和bk′为比赛的状态调整参数,分别用于根据比赛的状态修正赛队作为主队和客队时的攻击能力参数和防守能力系数;
P(θ)的含义为θ的分布概率;
当s取值为sm,1时,
当s取值为sm,2时,
当λ取值为λm,1时,
当λ取值为λm2时,
g为预设权重值,β为预设的第一预设调整参数值,σ1为预设的第二调整参数值,σ2为预设的第三调整参数值;
Γ()为伽马函数;
logN()函数是对数正态分布函数;
用于对历史数据低于设定门限值的赛队进行修正;
用于对赛队攻守能力的平衡性进行修正。
结果预测模块430具体用于:
对于待预测比赛c,按照参赛的主队i和客队j的攻守能力参数θ,基于如下关系式确定所述待预测比赛c的主队分布参数λc,1和客队分布参数λc,2
其中,为根据所述待预测比赛c确定的主队修正系数,为主队i的攻击能力,为客队j的防守能力,为根据所述待预测比赛c确定的客队修正系数,为客队j的攻击能力,为主队的防守能力;
对于待预测比赛c,按照所述主队分布参数λc,1和客队分布参数λc,2基于如下关系式确定赔率pc,1、pc,2和pc,3
对于待预测比赛c,按照所述主队分布参数λc,1和客队分布参数λc,2基于如下关系式确定比分sc,1和sc,2
sc,1~Poisson(λc,1)
sc,2~Poisson(λc,2)。
所述模型估计模块430中,在对于比赛,获取能反映比赛结果的历史比分和历史赔率,作为两类历史数据之后,还具体用于对所述历史赔率进行归一化处理。
本发明实施例提供的基于多源异构数据的预测装置,用于执行本发明实施例提供的基于多源异构数据的预测装置,能够执行相应的操作,具备相对应的功能和有益效果。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (12)

1.一种基于多源异构数据的预测方法,其特征在于,包括:
对于设定类型事件,获取能反映事件结果的至少两类历史数据;
建立设定类型事件的属性数据与所述至少两类历史数据的联合似然模型,并根据最大后验原则确定所述属性数据的最优估计;其中,每类历史数据与属性数据之间的关系采用对应的分布概率函数;
对于属于所述设定类型事件的待预测事件,基于所述联合似然模型中与属性数据关联的概率分布,确定所述概率分布中的参数,作为所述待预测事件的预测结果。
2.根据权利要求1所述的方法,其特征在于,建立设定类型事件的属性数据与所述至少两类历史数据的联合似然模型包括:
根据所述至少两类历史数据与所述属性数据之间的关系,以及用于修正所述关系满足正态分布的修正函数,建立所述联合似然模型。
3.根据权利要求2所述的方法,其特征在于,所述历史数据与所述属性数据之间的关系包括泊松分布函数和/或伽马分布函数。
4.根据权利要求1-3任一所述的方法,其特征在于,所述方法具体包括:
对于比赛,获取能反映比赛结果的历史比分和历史赔率,作为两类历史数据;
对于比赛m,采用所述比赛m的主赔pm,1、平赔pm,2和客赔pm,3,基于如下关系式确定所述比赛m的泊松分布的主队进球参数λm,1和客队进球参数λm2
p m , 1 = P ( P o i s s o n ( &lambda; m , 1 ) > P o i s s o n ( &lambda; m , 2 ) ) p m , 2 = P ( P o i s s o n ( &lambda; m , 1 ) = P o i s s o n ( &lambda; m , 2 ) ) p m , 3 = P ( P o i s s o n ( &lambda; m , 1 ) < P o i s s o n ( &lambda; m , 2 ) )
其中,P()为分布概率;m为比赛的序号,m的取值范围为1至M;
将基于赔率确定的各比赛的主队进球参数λm,1和客队进球参数λm,2,以及各场比赛中的主队比分sm,1和客队比分sm,2,代入下式,构造如下关于赛队攻守能力参数θ的联合似然模型,并使用最大后验方式确定各赛队的攻守能力参数θ:
log P ( &theta; ) = g log P ( s | &theta; ) + ( 1 - g ) log P ( &lambda; | &theta; ) + log N ( &theta; ; 0 , &sigma; 1 2 ) + log N ( &alpha; i - d i ; 0 , &sigma; 2 2 )
其中,θ=({ai}i=1…n,{dj}j=1…n,{bk,bk'}k,k'=1…K)
n为赛队的序号,ai为赛队i的攻击能力参数,dj为赛队j的防守能力参数,其中,i=1…n,j=1…n,bk和bk′为比赛的状态调整参数,分别用于根据比赛的状态修正赛队作为主队和客队时的攻击能力参数和防守能力参数;
P(θ)的含义为θ的分布概率;
P ( s | &theta; ) = &Gamma; ( exp ( x ) + s ) &Gamma; ( exp ( x ) ) . &beta; exp ( x ) ( &beta; + 1 ) exp ( x ) + s . 1 s !
当s取值为sm,1时,
当s取值为sm,2时,
P ( &lambda; | &theta; ) = &beta; exp ( x ) &Gamma; ( exp ( x ) ) . &lambda; exp ( x ) - 1 . exp ( - &beta; &lambda; )
当λ取值为λm,1时,
当λ取值为λm2时,
g为预设权重值,β为预设的第一预设调整参数值,σ1为预设的第二调整参数值,σ2为预设的第三调整参数值,为根据比赛m确定的主队修正系数,为比赛m中主队i的攻击能力参数,为比赛m中客队j的防守能力参数,为根据比赛m确定的客队修正系数,为比赛m中客队j的攻击能力参数,为比赛m中主队i的防守能力参数;
Γ()为伽马函数;
log N()函数是对数正态分布函数;
用于对历史数据低于设定门限值的赛队进行修正;
用于对赛队攻守能力的平衡性进行修正。
5.根据权利要求4所述的方法,其特征在于,对于属于所述设定类型事件的待预测事件,基于所述联合似然模型中与属性数据关联的概率分布,确定所述概率分布中的参数,作为所述待预测事件的预测结果包括:
对于待预测比赛c,按照参赛的主队i和客队j的攻守能力参数θ,基于如下关系式确定所述待预测比赛c的主队分布参数λc,1和客队分布参数λc,2
&lambda; c , 1 ~ G a m m a ( exp ( b k c + a i c - d j c ) , &beta; )
&lambda; c , 2 ~ G a m m a ( exp ( b k c &prime; + a j c - d i c ) , &beta; )
其中,为根据所述待预测比赛c确定的主队修正系数,为主队i的攻击能力参数,为客队j的防守能力参数,为根据所述待预测比赛c确定的客队修正系数,为客队j的攻击能力参数,为主队的防守能力参数;
对于待预测比赛c,按照所述主队分布参数λc,1和客队分布参数λc,2基于如下关系式确定赔率pc,1、pc,2和pc,3
p c , 1 = P ( P o i s s o n ( &lambda; c , 1 ) > P o i s s o n ( &lambda; c , 2 ) ) p c , 2 = P ( P o i s s o n ( &lambda; c , 1 ) = P o i s s o n ( &lambda; c , 2 ) ) p c , 3 = P ( P o i s s o n ( &lambda; c , 1 ) < P o i s s o n ( &lambda; c , 2 ) )
对于待预测比赛c,按照所述主队分布参数λc,1和客队分布参数λc,2基于如下关系式确定比分sc,1和sc,2
sc,1~Poisson(λc,1)
sc,2~Poisson(λc,2)。
6.根据权利要求4所述的方法,其特征在于,在对于比赛,获取能反映比赛结果的历史比分和历史赔率,作为两类历史数据之后,还包括:
对所述历史赔率进行归一化处理。
7.一种基于多源异构数据的预测装置,其特征在于,包括:
数据获取模块,用于对于设定类型事件,获取能反映事件结果的至少两类历史数据;
模型估计模块,用于建立设定类型事件的属性数据与所述至少两类历史数据的联合似然模型,并根据最大后验原则确定所述属性数据的最优估计;其中,每类历史数据与属性数据之间的关系采用对应的分布概率函数;
结果预测模块,用于对于属于所述设定类型事件的待预测事件,基于所述联合似然模型中与属性数据关联的概率分布,确定所述概率分布中的参数,作为所述待预测事件的预测结果。
8.根据权利要求7所述的装置,其特征在于,模型估计模块具体用于:
根据所述至少两类历史数据与所述属性数据之间的关系,以及用于修正所述关系满足正态分布的修正函数,建立所述联合似然模型。
9.根据权利要求8所述的装置,其特征在于,所述历史数据与所述属性数据之间的关系包括泊松分布函数和/或伽马分布函数。
10.根据权利要求7-9任一所述的装置,其特征在于:
数据获取模块具体用于对于比赛,获取能反映比赛结果的历史比分和历史赔率,作为两类历史数据;
模型估计模块具体用于:
对于比赛m,采用所述比赛m的主赔pm,1、平赔pm,2和客赔pm,3,基于如下关系式确定所述比赛m的泊松分布的主队进球参数λm,1和客队进球参数λm2
p m , 1 = P ( P o i s s o n ( &lambda; m , 1 ) > P o i s s o n ( &lambda; m , 2 ) ) p m , 2 = P ( P o i s s o n ( &lambda; m , 1 ) = P o i s s o n ( &lambda; m , 2 ) ) p m , 3 = P ( P o i s s o n ( &lambda; m , 1 ) < P o i s s o n ( &lambda; m , 2 ) )
其中,P()为分布概率;m为比赛的序号,m的取值范围为1至M;
将基于赔率确定的各比赛的主队进球参数λm,1和客队进球参数λm,2,以及各场比赛中的主队比分sm,1和客队比分sm,2,代入下式,构造如下关于赛队攻守能力参数θ的联合似然模型,并使用最大后验方式确定各赛队的攻守能力参数θ:
log P ( &theta; ) = g log P ( s | &theta; ) + ( 1 - g ) log P ( &lambda; | &theta; ) + log N ( &theta; ; 0 , &sigma; 1 2 ) + log N ( &alpha; i - d i ; 0 , &sigma; 2 2 )
其中,θ=({ai}i=1…n,{dj}j=1…n,{bk,bk′}k,k′=1…K)
n为赛队的序号,ai为赛队i的攻击能力参数,dj为赛队j的防守能力参数,其中,i=1…n,j=1…n,bk和bk′为比赛的状态调整参数,分别用于根据比赛的状态修正赛队作为主队和客队时的攻击能力参数和防守能力参数;
P(θ)的含义为θ的分布概率;
P ( s | &theta; ) = &Gamma; ( exp ( x ) + s ) &Gamma; ( exp ( x ) ) . &beta; exp ( x ) ( &beta; + 1 ) exp ( x ) + s . 1 s !
当s取值为sm,1时,
当s取值为sm,2时,
P ( &lambda; | &theta; ) = &beta; exp ( x ) &Gamma; ( exp ( x ) ) . &lambda; exp ( x ) - 1 . exp ( - &beta; &lambda; )
当λ取值为λm,1时,
当λ取值为λm2时,
g为预设权重值,β为预设的第一预设调整参数值,σ1为预设的第二调整参数值,σ2为预设的第三调整参数值,为根据比赛m确定的主队修正系数,为比赛m中主队i的攻击能力参数,为比赛m中客队j的防守能力参数,为根据比赛m确定的客队修正系数,为比赛m中客队j的攻击能力参数,为比赛m中主队的防守能力参数;
Γ()为伽马函数;
log N()函数是对数正态分布函数;
用于对历史数据低于设定门限值的赛队进行修正;
用于对赛队攻守能力的平衡性进行修正。
11.根据权利要求10所述的装置,其特征在于,结果预测模块具体用于:
对于待预测比赛c,按照参赛的主队i和客队j的攻守能力参数θ,基于如下关系式确定所述待预测比赛c的主队分布参数λc,1和客队分布参数λc,2
&lambda; c , 1 ~ G a m m a ( exp ( b k c + a i c - d j c ) , &beta; )
&lambda; c , 2 ~ G a m m a ( exp ( b k c &prime; + a j c - d i c ) , &beta; )
其中,为根据所述待预测比赛c确定的主队修正系数,为主队i的攻击能力参数,为客队j的防守能力参数,为根据所述待预测比赛c确定的客队修正系数,为客队j的攻击能力参数,为主队的防守能力参数;
对于待预测比赛c,按照所述主队分布参数λc,1和客队分布参数λc,2基于如下关系式确定赔率pc,1、pc,2和pc,3
p c , 1 = P ( P o i s s o n ( &lambda; c , 1 ) > P o i s s o n ( &lambda; c , 2 ) ) p c , 2 = P ( P o i s s o n ( &lambda; c , 1 ) = P o i s s o n ( &lambda; c , 2 ) ) p c , 3 = P ( P o i s s o n ( &lambda; c , 1 ) < P o i s s o n ( &lambda; c , 2 ) )
对于待预测比赛c,按照所述主队分布参数λc,1和客队分布参数λc,2基于如下关系式确定比分sc,1和sc,2
Sc,1~Poisson(λc,1)
sc,2~Poisson(λc,2)。
12.根据权利要求10所述的装置,其特征在于,所述模型估计模块中,在对于比赛,获取能反映比赛结果的历史比分和历史赔率,作为两类历史数据之后,还具体用于对所述历史赔率进行归一化处理。
CN201410427849.7A 2014-08-27 2014-08-27 基于多源异构数据的预测方法和装置 Active CN104200090B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201410427849.7A CN104200090B (zh) 2014-08-27 2014-08-27 基于多源异构数据的预测方法和装置
JP2014264903A JP6251668B2 (ja) 2014-08-27 2014-12-26 マルチソース異種データに基づいて予測するための方法及び装置
US14/585,136 US9760832B2 (en) 2014-08-27 2014-12-29 Method and apparatus for predicting based on multi-source heterogeneous data
EP14200682.4A EP2990957A1 (en) 2014-08-27 2014-12-30 Method and apparatus for predicting based on multi-source heterogeneous data
KR1020140195017A KR102118754B1 (ko) 2014-08-27 2014-12-31 멀티-소스 이종 데이터에 기초하여 예측하기 위한 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410427849.7A CN104200090B (zh) 2014-08-27 2014-08-27 基于多源异构数据的预测方法和装置

Publications (2)

Publication Number Publication Date
CN104200090A CN104200090A (zh) 2014-12-10
CN104200090B true CN104200090B (zh) 2017-07-14

Family

ID=52085383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410427849.7A Active CN104200090B (zh) 2014-08-27 2014-08-27 基于多源异构数据的预测方法和装置

Country Status (5)

Country Link
US (1) US9760832B2 (zh)
EP (1) EP2990957A1 (zh)
JP (1) JP6251668B2 (zh)
KR (1) KR102118754B1 (zh)
CN (1) CN104200090B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104200090B (zh) 2014-08-27 2017-07-14 百度在线网络技术(北京)有限公司 基于多源异构数据的预测方法和装置
CN106897305A (zh) * 2015-12-18 2017-06-27 北京奇虎科技有限公司 用于提示事件结果的方法和装置
CN106897785A (zh) * 2015-12-18 2017-06-27 北京奇虎科技有限公司 分析项目结果的方法和装置
CN106843461B (zh) * 2016-12-13 2020-06-26 北京光年无限科技有限公司 一种用于机器人的交互输出方法以及机器人
US20200186880A1 (en) * 2017-05-31 2020-06-11 Sharp Kabushiki Kaisha Electronic instrument, recording medium, control device, and control method
CN109117864B (zh) * 2018-07-13 2020-02-28 华南理工大学 基于异构特征融合的冠心病风险预测方法、模型及系统
CN108876062B (zh) * 2018-08-13 2022-04-12 湖北经济学院 一种犯罪事件智能预测的大数据方法及装置
CN109191849B (zh) * 2018-10-22 2020-10-09 北京航空航天大学 一种基于多源数据特征提取的交通拥堵持续时间预测方法
CN109684367B (zh) * 2018-12-20 2020-12-11 四川新网银行股份有限公司 一种动态调整多数据源数据集成处理方法与装置
KR102253373B1 (ko) * 2019-05-13 2021-05-18 숭실대학교산학협력단 승부 예측 방법 및 장치
CN110188141A (zh) * 2019-05-15 2019-08-30 南京邮电大学 电力物联网多源数据融合方法、可读存储介质和终端
CN113837423A (zh) * 2020-06-24 2021-12-24 国家电网有限公司华东分部 基于能源互联网电力大数据的电网运行态势预测方法
KR102433431B1 (ko) * 2020-08-07 2022-08-19 주식회사 에이젠글로벌 이종 데이터를 이용한 향상된 예측 시스템 및 예측 방법
CN112712865B (zh) * 2020-12-24 2022-05-03 重庆至道科技股份有限公司 一种多源异构医患体验异常数据融合工作系统及工作方法
CN114153839B (zh) * 2021-10-29 2024-09-20 杭州未名信科科技有限公司 多源异构数据的集成方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1776739A (zh) * 2004-11-16 2006-05-24 微软公司 使用对概率相关性和环境数据的建模与分析的交通预报
CN102288412A (zh) * 2011-05-04 2011-12-21 哈尔滨工业大学 基于损伤基线的航空发动机硬件损伤分析与寿命预测方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6298315B1 (en) * 1998-12-11 2001-10-02 Wavecrest Corporation Method and apparatus for analyzing measurements
CA2418399A1 (en) * 2002-02-11 2003-08-11 Bayer Healthcare, Llc Non-invasive system for the determination of analytes in body fluids
US7007001B2 (en) 2002-06-26 2006-02-28 Microsoft Corporation Maximizing mutual information between observations and hidden states to minimize classification errors
JP4389046B2 (ja) 2005-08-18 2009-12-24 独立行政法人沖縄科学技術研究基盤整備機構 状態ベクトル推定方法および自律型移動体
US7523094B1 (en) * 2008-03-16 2009-04-21 International Business Machines Corporation Asynchronous task for energy cost aware database query optimization
US9189047B2 (en) * 2008-05-08 2015-11-17 International Business Machines Corporation Organizing databases for energy efficiency
US8015202B2 (en) * 2008-06-19 2011-09-06 International Business Machines Corporation Grouping predicted database queries
US8524109B2 (en) * 2010-12-08 2013-09-03 Iowa State University Research Foundation, Inc. High curie temperature ternary piezoelectric ceramics
CN103221945B (zh) * 2011-03-18 2016-09-14 日本电气株式会社 多变量数据混合模型估计装置、混合模型估计方法
US9111547B2 (en) * 2012-08-22 2015-08-18 Kodak Alaris Inc. Audio signal semantic concept classification method
US8880444B2 (en) * 2012-08-22 2014-11-04 Kodak Alaris Inc. Audio based control of equipment and systems
US9371766B2 (en) * 2012-09-14 2016-06-21 Ford Global Technologies, Llc Engine-on time predictor for aftertreatment scheduling for a vehicle
CN103716835B (zh) * 2012-09-29 2017-06-16 国际商业机器公司 基于多路径传输和接收数据的方法、装置和系统
US9114806B2 (en) * 2014-01-22 2015-08-25 Ford Global Technologies, Llc System and method for controlling battery power based on predicted battery energy usage
CN104200090B (zh) 2014-08-27 2017-07-14 百度在线网络技术(北京)有限公司 基于多源异构数据的预测方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1776739A (zh) * 2004-11-16 2006-05-24 微软公司 使用对概率相关性和环境数据的建模与分析的交通预报
CN102288412A (zh) * 2011-05-04 2011-12-21 哈尔滨工业大学 基于损伤基线的航空发动机硬件损伤分析与寿命预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Modelling Association Football Scores and Inefficiencies in the Football Betting Market;Mark J. Dixon et la.;《Journal of the Royal Statistic Society》;19971231;第46卷(第2期);第265-280页 *
产生式与判别式线性混合分类器;石洪波等;《模式识别与人工智能》;20121015;第25卷(第5期);第865-873页 *
基于判别分析的竞猜型体育彩票初始陪率模型的构建:方法推导与实证检验;张祺;《中国优秀硕士学位论文全文数据库 社会科学Ⅱ辑》;20140415;第H134-15页 *

Also Published As

Publication number Publication date
JP2016048535A (ja) 2016-04-07
JP6251668B2 (ja) 2017-12-20
KR102118754B1 (ko) 2020-06-10
US9760832B2 (en) 2017-09-12
KR20160025433A (ko) 2016-03-08
EP2990957A1 (en) 2016-03-02
US20160063383A1 (en) 2016-03-03
CN104200090A (zh) 2014-12-10

Similar Documents

Publication Publication Date Title
CN104200090B (zh) 基于多源异构数据的预测方法和装置
Leung et al. Sports data mining: predicting results for the college football games
Lopez et al. Building an NCAA men’s basketball predictive model and quantifying its success
Constantinou et al. Profiting from an inefficient Association Football gambling market: Prediction, Risk and Uncertainty using Bayesian networks
Mangan et al. The relationship between technical performance indicators and running performance in elite Gaelic football
CN107158708A (zh) 多玩家视频游戏匹配优化
Tulabandhula et al. Tire changes, fresh air, and yellow flags: challenges in predictive analytics for professional racing
Archer et al. Association between somatic cell count early in the first lactation and the longevity of Irish dairy cows
US20210052986A1 (en) Fantasy player algorithm
Becker et al. An analytical approach for fantasy football draft and lineup management
Vaz de Melo et al. Forecasting in the NBA and other team sports: Network effects in action
Lenten et al. Evaluating an alternative draft pick allocation policy to reduce ‘tanking’in the Australian Football League
Abramitzky et al. On the optimality of line call challenges in professional tennis
CN110090446B (zh) 用于处理游戏中的举报信息的方法和设备
McHale et al. A modified Duckworth–Lewis method for adjusting targets in interrupted limited overs cricket
Bag et al. Match-fixing under competitive odds
Schnier et al. Production efficiency and exit in rights-based fisheries
Robberechts et al. Forecasting the FIFA World Cup–Combining result-and goal-based team ability parameters
Tan et al. Quality ranking of features in software product line engineering
Lu et al. Prediction of future NBA games' point difference: A statistical modeling approach
CN113941157A (zh) 游戏匹配方法及装置、电子设备、存储介质
Zhang et al. Badge system analysis and design
Lemmer et al. A consistency adjusted measure for the success of prediction methods in cricket
Ghosh et al. Strategic budgets in sequential elimination contests
Asif Statistical modelling in limited overs in international cricket

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant