发明内容
本发明提供一种标签预测生成方法及装置,既可以生成当前时间点的标签,也可以预测未来时间点的标签,使得用户画像具有前瞻性,可以更好地支持营销推荐。
第一方面,本发明实施例提供一种标签预测生成方法,包括:
选取目标标签,并确定目标标签的历史标签时间序列的起始时间点,目标标签为待预测的标签,确定出与目标标签存在因果关系的变量,变量包括标签和/或属性,根据预设的时间序列预测出目标标签在目标时间点的值,预设的时间序列包括目标标签的历史标签时间序列和变量的历史时间序列,或者,预设的时间序列包括变量的历史时间序列,变量的历史时间序列的起始时间点与目标标签的历史标签时间序列的起始时间点相同,目标时间点为当前时间点或当前时间点之后的时间点。从而可以生成当前时间点的标签,也可以预测未来时间点的标签,使得用户画像具有前瞻性,可以更好地支持营销推荐。
在一种可能的设计中,确定出与目标标签存在因果关系的变量,包括:根据格兰杰因果检验确定出与目标标签存在因果关系的变量。
在一种可能的设计中,预设的时间序列包括目标标签的历史标签时间序列和变量的历史时间序列时,根据目标标签的历史标签时间序列和变量的历史时间序列预测出目标标签在目标时间点的值,包括:根据目标标签的历史标签时间序列和变量的历史时间序列建立数据模型;将变量在目标时间点的预测值作为输入,根据数据模型生成目标标签在目标时间点的值。
在一种可能的设计中,根据格兰杰因果检验确定出与目标标签存在因果关系的变量之前,还包括:选择与目标标签相关联的属性,和/或,根据语义关系或者根据目标标签所属的维度选择与目标标签相关联的标签;对选择的属性和标签进行去重处理,得到待格兰杰因果检验的变量。
在一种可能的设计中,目标标签的历史标签时间序列或变量的历史时间序列的类型为非数值类型时,根据目标标签的历史标签时间序列和变量的历史时间序列建立数据模型之前,还包括:对目标标签的历史标签时间序列和变量的历史时间序列进行数值化变换。
在一种可能的设计中,确定出与目标标签存在因果关系的变量,包括:确定出目标标签的计算规则,并提取计算规则中所涉及的变量。
在一种可能的设计中,预设的时间序列包括变量的历史时间序列,根据目标标签的历史标签时间序列和变量的历史时间序列预测出目标标签在目标时间点的值,包括:根据变量的历史时间序列对变量进行目标时间点预测,得到变量的预测值;根据计算规则和变量的预测值计算出目标标签在目标时间点的值。
第二方面,本发明实施例提供一种标签预测生成装置,包括:第一选择模块,用于选取目标标签,并确定目标标签的历史标签时间序列的起始时间点,目标标签为待预测的标签,确定模块,用于确定出与目标标签存在因果关系的变量,变量包括标签和/或属性,预测模块,用于根据预设的时间序列预测出目标标签在目标时间点的值,预设的时间序列包括目标标签的历史标签时间序列和变量的历史时间序列,或者,预设的时间序列包括变量的历史时间序列,变量的历史时间序列的起始时间点与目标标签的历史标签时间序列的起始时间点相同,目标时间点为当前时间点或当前时间点之后的时间点。从而可以生成当前时间点的标签,也可以预测未来时间点的标签,使得用户画像具有前瞻性,可以更好地支持营销推荐。
在一种可能的设计中,确定模块具体用于:根据格兰杰因果检验确定出与目标标签存在因果关系的变量。
在一种可能的设计中,预设的时间序列包括目标标签的历史标签时间序列和变量的历史时间序列时,预测模块包括:数据模型建立单元,用于根据目标标签的历史标签时间序列和变量的历史时间序列建立数据模型;生成单元,用于将变量在目标时间点的预测值作为输入,根据数据模型生成目标标签在目标时间点的值。
在一种可能的设计中,还包括:第二选择模块,用于在确定模块根据格兰杰因果检验确定出与目标标签存在因果关系的变量之前,选择与目标标签相关联的属性,和/或,根据语义关系或者根据目标标签所属的维度选择与目标标签相关联的标签;对选择的属性和标签进行去重处理,得到待格兰杰因果检验的变量。
在一种可能的设计中,目标标签的历史标签时间序列或变量的历史时间序列的类型为非数值类型时,预测模块还包括:数值化变换单元,用于在数据模型建立单元根据目标标签的历史标签时间序列和变量的历史时间序列建立数据模型之前,对目标标签的历史标签时间序列和变量的历史时间序列进行数值化变换。
在一种可能的设计中,确定模块具体用于:确定出目标标签的计算规则,并提取计算规则中所涉及的变量。
在一种可能的设计中,预设的时间序列包括变量的历史时间序列,预测模块具体用于:根据变量的历史时间序列对变量进行目标时间点预测,得到变量的预测值;根据计算规则和变量的预测值计算出目标标签在目标时间点的值。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种标签预测生成方法及装置,由于现有的标签生成方法仅根据用户当前属性数据计算标签值,所生成的标签仅反应了当前时间点的特征,不能很好地表征用户标签的历史变化情况,但是实际上标签每次生成的值构成了按照时间顺序排列的、随时间变化且相互关联的数据序列,该数据序列可称为标签时间序列,标签表征某一时刻的用户特征,标签时间序列表征了用户特征随时间变化的特性,同样的,用户的属性数据随时间变化也构成一个时间序列,本发明实施例基于标签时间序列可以计算标签当前值和预测标签未来值,既可以生成当前标签,也可以预测未来时间点的标签,使得用户画像具有前瞻性,可以更好地支持营销推荐,下面结合附图详细说明本发明实施例提供的标签预测生成方法及装置。
图1为本发明标签预测生成方法实施例一的流程图,如图1所示,本实施例的方法可以包括:
S101、选取目标标签,并确定目标标签的历史标签时间序列的起始时间点,目标标签为待预测的标签。
具体地,可以按需选取或者按照预先设置的规则选取,选取的时间可以是在标签生成流程过程中当前时间点的标签值生成之前或之后,由于本发明实施例的标签预测生成方法可以生成当前标签,也可以预测未来时间点的标签,因此在当前时间点的标签值生成之前或之后进行预测,可以使用预测生成的标签修正通过计算规则计算出的当前时间点的标签,例如使用加权平均法进行修正。确定目标标签的历史标签时间序列的起始时间点,历史标签时间序列的结束时间点就是当前时间点,也就可以确定目标标签的历史标签时间序列,目标是根据目标标签的历史标签时间序列预测目标标签在接下来的时间点的值。
S102、确定出与目标标签存在因果关系的变量,变量包括标签和/或属性。
其中,由于标签与属性之间、标签与标签之间可能存在关联关系,标签预测考虑变量影响因素会提高预测精度。
S103、根据预设的时间序列预测出目标标签在目标时间点的值,预设的时间序列包括目标标签的历史标签时间序列和变量的历史时间序列,或者,预设的时间序列包括变量的历史时间序列。
其中,变量的历史时间序列的起始时间点与目标标签的历史标签时间序列的起始时间点相同,目标时间点为当前时间点或当前时间点之后的时间点。
作为第一种可实施的方式,S102可以是根据格兰杰因果检验确定出与目标标签存在因果关系的变量,格兰杰因果检验(Granger Causality Test)是指,对于经济变量X和Y,若X的变化引起了Y的变化,X的变化应当在Y的变化之前。即若认为“X是引起Y变化的原因”,就必须满足两个条件:(1)X应当有助于预测Y,即在关于Y的过去值的回归中,增添X的过去值作为独立变量应当显著地增加模型回归的解释能力;(2)Y不应当有助于预测X,其原因是若X有助于预测Y,Y也有助预测X,则可能存在一个或几个其它的变量,它们是引起X变化的原因,也是引起Y变化的原因。
其中,标签每次生成的值构成了按照时间顺序排列的、随时间变化且相互关联的数据序列,该数据序列称为标签时间序列,变量的历史时间序列包括相关标签的标签时间序列和/或属性历史时间序列。属性是指用户的属性数据,属性随时间变化也构成一个时间序列。变量的历史时间序列的起始时间点与目标标签的历史标签时间序列的起始时间点相同。
具体地,根据目标标签的历史标签时间序列和变量的历史时间序列预测出目标标签在目标时间点的值,可以是根据二者的时间序列推算出目标标签与变量的关系,进而根据变量的未来时间点的值和推算出的二者的关系得到目标标签的未来时间点的值。
相应地,S103包括:
S1031、根据目标标签的历史标签时间序列和变量的历史时间序列建立数据模型。
S1032、将变量在目标时间点的值作为输入,根据数据模型生成目标标签在目标时间点的值。
例如,根据目标标签的历史标签时间序列和变量的历史时间序列建立多元时间序列模型:
其中,{yt}为输出变量序列,即为目标标签的历史标签时间序列,{x1t},{x2t},…,{xkt}为输入变量序列,即为变量的历史时间序列,可以是相关标签的标签时间序列,也可以是属性历史时间序列,其它的参数都为多元时间序列模型参数,根据目标标签的历史标签时间序列和变量的历史时间可以确定出这些参数,然后将变量在目标时间点的值作为输入,根据数据模型生成目标标签在目标时间点的值。
具体的数据模型还可以是别的模型,数据模型可根据标签生成规则设置,目的是体现出目标标签与变量之间的关系,本发明实施例不以上述多元时间序列模型为限。
在第一种实施方式下,进一步地,在S102之前,还包括:
S104、选择与目标标签相关联的属性。和/或,根据语义关系或者根据目标标签所属的维度选择与目标标签相关联的标签。
其中,相关联属性作为标签的相关信息在标签创建阶段由创建者指定。如果预测的标签为分类类型或者标记类型,则需要选择所有跟标签计算相关联的属性。
其中的根据语义关系选择与目标标签相关联的标签,具体可以是根据语义关系,选择相似标签和上下位关系的标签作为变量,例如:
标签语义关系:
相似:<金牌客户,高价值客户>
相反/互斥:<高价值,低价值>,<青年,中年,老年>
上下位:<金牌客户,高消费客户>
其中的根据目标标签所属的维度选择与目标标签相关联的标签,例如可以是根据用户画像维度(基本属性、行为特征、兴趣爱好、社交网络等)选择相关联的标签,即就是同维度的标签。
上述三种方法可以任选其一或组合,具体根据实际应用进行选择。
S105、对选择的属性和标签进行去重处理,得到待格兰杰因果检验的变量。
对选择的属性和标签进行去重处理,对目标标签变化有显著影响的标签或属性可以留下作为变量。对所有的标签或属性经过S104和S105的处理,再进行格兰杰因果检验,可以降低计算的复杂度。
由于标签大体上有两种类型,数值类型和非数值类型,非数值类型包括分类类型和标记类型,而时间序列的预测要求变量都是数值类型的,若目标标签是非数值类型的,在S1031中根据目标标签的历史标签时间序列和变量的历史时间序列建立数据模型之前,还包括:对目标标签的历史标签时间序列和变量的历史时间序列进行数值化变换。例如:
标记类型进行数值化变换后为:[0,1]
分类类型进行数值化变换后为:客户价值=[高价值:10,低价值:20,……]
其中,分类类型的数值化尽量保证数值之间不要太接近也不能差异过大,否则会影响预测的准确性。
标签预测生成可以更加准确的描述用户特征和兴趣的变化情况,对营销和推荐有重大意义。在使用过程中,可以是重点关注标签未来值跟标签当前值有变化的用户标签,针对变化情况选择营销和推荐策略。例如:用户A,当前标签[银牌客户],未来三个时间点的标签[银牌客户,银牌客户,金牌客户],对此用户可以采取针对性的营销策略,加快用户转化为金牌客户的时间。
本实施例提供的标签预测生成方法,通过选取要预测的目标标签,并确定目标标签的标签序列起始时间点后,确定出与目标标签存在因果关系的变量,根据预设的时间序列预测出目标标签在目标时间点的值,预设的时间序列包括目标标签的历史标签时间序列和变量的历史时间序列,或者,预设的时间序列包括变量的历史时间序列,目标时间点为当前时间点或当前时间点之后的时间点。从而可以生成当前时间点的标签,也可以预测未来时间点的标签,使得用户画像具有前瞻性,可以更好地支持营销推荐。
本实施例中的第一种实施方式中,通过选取要预测的目标标签,并确定目标标签的标签序列起始时间点后,根据格兰杰因果检验确定出与目标标签存在因果关系的变量,根据目标标签的历史标签时间序列和变量的历史时间序列建立数据模型,将变量在目标时间点的预测值作为输入,根据数据模型生成目标标签在目标时间点的值,目标时间点为当前时间点或当前时间点之后的时间点。从而可以生成当前时间点的标签,也可以预测未来时间点的标签,使得用户画像具有前瞻性,可以更好地支持营销推荐。
在实际使用中,若需要预测的标签为标记类型和分类类型,虽然可以通过数值化的方式转换为数值型标签来做预测,但实际中这样的预测结果不是很准确。为提高准确性,针对标记类型和分类类型的标签,本发明提出另一种标签预测生成方法,也就是图1所示实施例的另一种可实施的方式,下面结合图2进行说明。
图2为本发明标签预测生成方法实施例二的流程图,如图2所示,本实施例的方法可以包括:
S201、选取要预测的目标标签,并确定目标标签的历史标签时间序列起始时间点。
S202、确定出目标标签的计算规则,并提取计算规则中所涉及的变量。
变量包括标签和/或属性,相应地即就是提取计算规则中的相关属性和/或相关标签。例如:高客户价值标签,计算规则为:连续3年月存款平均余额大于50万,则相关属性为存款时间和月存款平均余额。
S203、根据变量的历史时间序列对变量进行目标时间点预测,得到变量的预测值。
具体地,对每个相关属性和/或相关标签进行目标时间点预测,得到相关属性的预测值和/或相关标签的预测值,目标时间点为当前时间点或当前时间点之后的时间点。根据起始时间点对变量进行目标时间点预测,具体是根据起始时间点到当前时间点的变量的历史时间序列,找出变量的数据变化规律,然后预测出其在目标时间点的值。
S204、根据计算规则和变量的预测值计算出目标标签在目标时间点的值。
具体地,根据计算规则以及相关属性的预测值和/或相关标签的预测值计算出目标标签在目标时间点的值。
本实施方式中,通过选取要预测的目标标签,并确定目标标签的标签序列起始时间点之后,确定出目标标签的计算规则,并提取计算规则中所涉及的变量,根据变量的历史时间序列对变量进行目标时间点预测,得到变量的预测值,最后根据计算规则和变量的预测值计算出目标标签在目标时间点的值,目标时间点为当前时间点或当前时间点之后的时间点。从而可以生成当前时间点的标签,也可以预测未来时间点的标签,使得用户画像具有前瞻性,可以更好地支持营销推荐。
下面采用一个具体的实施例,对图1和图2所示方法实施例的技术方案进行详细说明。
图3为本发明标签预测生成方法实施例三的流程图,如图3所示,本实施例的方法包括:
S301、收集用户当前属性。
当前属性即为当前属性数据,包括静态数据和动态数据。
S302、根据预设规则或者算法和用户当前属性生成相应的标签。
S303、根据用户当前属性数据的地点和时间点,计算标签的权重。
S303为可选的步骤。
S304、进行标签预测,生成目标时间点的标签。
具体地S304包括:
S3041、选取要预测的目标标签,并确定目标标签的历史标签时间序列的起始时间点。
S3042、选择与目标标签相关联的属性。和/或,根据语义关系或者根据目标标签所属的维度选择与目标标签相关联的标签。
S3043、对选择的属性和标签进行去重处理,得到待格兰杰因果检验的变量。
S3044、根据格兰杰因果检验确定出与目标标签存在因果关系的变量,变量包括标签和/或属性。
S3045、根据目标标签的历史标签时间序列和变量的历史时间序列建立数据模型。
S3046、将变量在目标时间点的值作为输入,根据数据模型生成目标标签在目标时间点的值。
或者,S304包括图2所示的S201~S204。
具体应用时根据标签的类型选择相应的标签预测生成方法。
S305、将生成的标签值保存。
图4为本发明标签预测生成装置实施例一的结构示意图,如图4所示,本实施例的装置可以包括:第一选择模块11、确定模块12和预测模块13,其中,第一选择模块11用于选取目标标签,并确定目标标签的历史标签时间序列的起始时间点,目标标签为待预测的标签,确定模块12用于确定出与目标标签存在因果关系的变量,变量包括标签和/或属性,预测模块13用于根据预设的时间序列预测出目标标签在目标时间点的值,预设的时间序列包括目标标签的历史标签时间序列和变量的历史时间序列,或者,预设的时间序列包括变量的历史时间序列,变量的历史时间序列的起始时间点与目标标签的历史标签时间序列的起始时间点相同,目标时间点为当前时间点或当前时间点之后的时间点。
本实施例的装置,可以用于执行图1所示方法实施例的技术方案,其实现原理类似,此处不再赘述。
本实施例提供的标签预测生成装置,通过选择模块选取要预测的目标标签,并确定目标标签的标签序列起始时间点后,确定模块确定出与目标标签存在因果关系的变量,最后预测模块根据预设的时间序列预测出目标标签在目标时间点的值,预设的时间序列包括目标标签的历史标签时间序列和变量的历史时间序列,或者,预设的时间序列包括变量的历史时间序列,目标时间点为当前时间点或当前时间点之后的时间点。从而可以生成当前时间点的标签,也可以预测未来时间点的标签,使得用户画像具有前瞻性,可以更好地支持营销推荐。
图5为本发明标签预测生成装置实施例二的结构示意图,如图5所示,本实施例的装置在图4所示装置的基础上,作为一种具体可实施的方式,确定模块12具体用于:根据格兰杰因果检验确定出与目标标签存在因果关系的变量。预设的时间序列包括目标标签的历史标签时间序列和变量的历史时间序列时,预测模块13包括:数据模型建立单元131,用于根据目标标签的历史标签时间序列和变量的历史时间序列建立数据模型。生成单元132,用于将变量在目标时间点的预测值作为输入,根据数据模型生成目标标签在目标时间点的值。
图6为本发明标签预测生成装置实施例三的结构示意图,如图6所示,本实施例的装置在图5所示装置的基础上,进一步地,还包括:第二选择模块14,用于在确定模块12根据格兰杰因果检验确定出与目标标签存在因果关系的变量之前,选择与目标标签相关联的属性,和/或,根据语义关系或者根据目标标签所属的维度选择与目标标签相关联的标签,对选择的属性和标签进行去重处理,得到待格兰杰因果检验的变量。
进一步地,如图6所示,目标标签的历史标签时间序列或变量的历史时间序列的类型为非数值类型时,预测模块13还包括:数值化变换单元133,用于在数据模型建立单元131根据目标标签的历史标签时间序列和变量的历史时间序列建立数据模型之前,对目标标签的历史标签时间序列和变量的历史时间序列进行数值化变换。
图5或图6所示的装置,可以用于执行图2所示方法实施例的技术方案,其实现原理类似,此处不再赘述。
本实施例提供的标签预测生成装置,通过选择模块选取要预测的目标标签,并确定目标标签的标签序列起始时间点后,确定模块根据格兰杰因果检验确定出与目标标签存在因果关系的变量,数据模型建立单元根据目标标签的历史标签时间序列和变量的历史时间序列建立数据模型,生成单元将变量在目标时间点的预测值作为输入,根据数据模型生成目标标签在目标时间点的值,目标时间点为当前时间点或当前时间点之后的时间点。从而可以生成当前时间点的标签,也可以预测未来时间点的标签,使得用户画像具有前瞻性,可以更好地支持营销推荐。
结合图4所示的装置,作为另一种具体可实施的方式,确定模块12具体用于:确定出目标标签的计算规则,并提取计算规则中所涉及的变量。
预设的时间序列包括变量的历史时间序列,预测模块13具体用于:根据变量的历史时间序列对变量进行目标时间点预测,得到变量的预测值;根据计算规则和变量的预测值计算出目标标签在目标时间点的值。
本实施例的装置,可以用于执行图3所示方法实施例的技术方案,其实现原理类似,此处不再赘述。
本实施例提供的标签预测生成装置,通过选择模块选取要预测的目标标签,并确定目标标签的标签序列起始时间点之后,确定模块确定出目标标签的计算规则,并提取计算规则中所涉及的变量,预测模块根据变量的历史时间序列对变量进行目标时间点预测,得到变量的预测值,最后根据计算规则和变量的预测值计算出目标标签在目标时间点的值,目标时间点为当前时间点或当前时间点之后的时间点。从而可以生成当前时间点的标签,也可以预测未来时间点的标签,使得用户画像具有前瞻性,可以更好地支持营销推荐。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。