CN109815980A - 用户类型的预测方法、装置、电子设备及可读存储介质 - Google Patents
用户类型的预测方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN109815980A CN109815980A CN201811549960.8A CN201811549960A CN109815980A CN 109815980 A CN109815980 A CN 109815980A CN 201811549960 A CN201811549960 A CN 201811549960A CN 109815980 A CN109815980 A CN 109815980A
- Authority
- CN
- China
- Prior art keywords
- user
- type
- user type
- candidate
- feature sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本公开的实施例提供了一种用户类型的预测方法、装置、电子设备及可读存储介质,所述方法包括:依据目标用户在当前时间的行为数据和场景信息,生成所述目标用户的当前特征;依据目标用户在目标历史时间段的行为数据和历史用户类型,生成所述目标用户的历史特征序列;将所述当前特征以及所述历史特征序列输入至预先训练的用户类型预测模型,得到所述目标用户的类型,所述用户类型预测模型使用用户类型样本对基于时序的机器学习模型训练得到,所述用户类型样本包括参考特征、历史特征序列、参考用户类型。可以通过历史特征序列和当前特征共同预测用户类型,有助于提高预测的准确度。
Description
技术领域
本公开的实施例涉及计算机技术领域,尤其涉及一种用户类型的预测方法、装置、电子设备及可读存储介质。
背景技术
个性化推荐根据用户特征、实时场景特征向不同用户推荐不同的对象,例如商品、商家、服务等,以提高商品、服务的访问率、转化率等。其中,用户特征包括用户类型,不同用户类型的偏好对象有一定特征,使得确定用户类型成为个性化推荐的重要部分。
现有技术中,申请号为CN107644047A的专利申请提出了一种标签预测方法及装置,可以采用标签描述用户类型。主要步骤包括:选取目标标签,并确定目标标签的历史标签时间序列的起始时间点,目标标签为待预测的标签,确定与目标标签存在因果关系的变量,变量包括标签和/或属性,根据预设的时间序列预测出目标标签在目标时间点的值,预设的时间序列包括目标标签的历史标签时间序列和变量的历史时间序列,或者,预设的时间序列包括变量的历史时间序列,变量的历史时间序列的起始时间点与目标标签的历史标签时间序列的起始时间点相同,目标时间点为当前时间点或当前时间点之后的时间点。
综上所述,上述方案仅通过历史标签和变量确定当前时间点或当前时间点之后的时间点对应的标签,并未考虑预测时间点的当前特征,导致标签的预测准确度较低。
发明内容
本公开的实施例提供一种用户类型的预测方法、装置、电子设备及可读存储介质,可以通过历史特征序列和当前特征共同预测用户类型,有助于提高预测的准确度。
根据本公开的实施例的第一方面,提供了一种用户类型的预测方法,所述方法包括:
依据目标用户在当前时间的行为数据和场景信息,生成所述目标用户的当前特征;
依据目标用户在目标历史时间段的行为数据和历史用户类型,生成所述目标用户的历史特征序列;
将所述当前特征以及所述历史特征序列输入至预先训练的用户类型预测模型,得到所述目标用户的类型,所述用户类型预测模型使用用户类型样本对基于时序的机器学习模型训练得到,所述用户类型样本包括参考特征、历史特征序列、参考用户类型。
根据本公开的实施例的第二方面,提供了一种用户类型的预测装置,所述装置包括:
当前特征生成模块,用于依据目标用户在当前时间的行为数据和场景信息,生成所述目标用户的当前特征;
历史特征序列生成模块,用于依据目标用户在目标历史时间段的行为数据和历史用户类型,生成所述目标用户的历史特征序列;
用户类型预测模块,用于将所述当前特征以及所述历史特征序列输入至预先训练的用户类型预测模型,得到所述目标用户的类型,所述用户类型预测模型使用用户类型样本对基于时序的机器学习模型训练得到,所述用户类型样本包括参考特征、历史特征序列、参考用户类型。
根据本公开的实施例的第三方面,提供了一种电子设备,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现前述用户类型的预测方法。
根据本公开的实施例的第四方面,提供了一种可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行前述用户类型的预测方法。
本公开的实施例提供了一种用户类型的预测方法及装置,所述方法包括:依据目标用户在当前时间的行为数据和场景信息,生成所述目标用户的当前特征;依据目标用户在目标历史时间段的行为数据和历史用户类型,生成所述目标用户的历史特征序列;将所述当前特征以及所述历史特征序列输入至预先训练的用户类型预测模型,得到所述目标用户的类型,所述用户类型预测模型使用用户类型样本对基于时序的机器学习模型训练得到,所述用户类型样本包括参考特征、历史特征序列、参考用户类型。可以通过历史特征序列和当前特征共同预测用户类型,有助于提高预测的准确度。
附图说明
为了更清楚地说明本公开的实施例的技术方案,下面将对本公开的实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了本公开的一种实施例中的用户类型的预测方法步骤流程图;
图2示出了本公开的另一种实施例中的用户类型的预测方法步骤流程图;
图3示出了本公开的训练网络模型的结构示意图;
图4示出了本公开的一种实施例中的用户类型的预测装置的结构图;
图5示出了本公开的另一种实施例中的用户类型的预测装置的结构图;
图6示出了本公开的一种实施例中的电子设备的结构图。
具体实施方式
下面将结合本公开的实施例中的附图,对本公开的实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开的实施例一部分实施例,而不是全部的实施例。基于本公开的实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开的实施例保护的范围。
实施例一
参照图1,其示出了本公开的一种实施例中的用户类型的预测方法的步骤流程图,具体如下。
步骤101,依据目标用户在当前时间的行为数据和场景信息,生成所述目标用户的当前特征。
其中,当前特征包括但不限于:商品实时信息、蜂窝类型。
蜂窝类型为根据移动通信网络的类型划分,例如,GSM(Global System forMobile Communication,全球移动通信系统)、CDMA(Code Division Multiple Access,码分多址)、FDMA(Frequency Division Multiple Access,频分多址)、TDMA(Time DivisionMultiple Access,时分多址)等。蜂窝类型可以从场景信息中获取。
行为数据包括用户的商品消费行为等其他行为,从而可以消费行为中提取商品实时信息。
步骤102,依据目标用户在目标历史时间段的行为数据和历史用户类型,生成所述目标用户的历史特征序列。
其中,目标历史时间段用于确定历史特征序列,为当前时间之前指定的时间段。目标历史时间段越长,历史特征序列越长,行为数据越多,得到的历史特征序列越长。在实际应用中,可以在合理范围内适当拉长历史时间段,从而保证历史特征序列的长度足够,以及,计算复杂度较低。
历史特征序列可以由多个历史特征和对应的历史用户类型按照时间顺序排列,其中,历史特征包括但不限于:平均消费水平、消费频率、消费品类、评论。
可以理解,平均消费水平可以为单次消费的费用。例如,用户进行了4次消费,每次消费的费用分别为50、80、40、150,则平均消费水平为(50+80+40+150)/4=80。
消费频率可以为单位时间内的消费次数,例如,一个月消费次数为4时,则消费频率为4次每月。
消费品类可以为平台或国家划分的商品品类,例如,蔬菜、肉类。
评论为目标用户对消费的商家、商品的评价和评分。
可以理解,上述平均消费水平、消费频率、消费品类、评论均可以从用户在历史时间段的行为数据中统计得到。
步骤103,将所述当前特征以及所述历史特征序列输入至预先训练的用户类型预测模型,得到所述目标用户的类型,所述用户类型预测模型使用用户类型样本对基于时序的机器学习模型训练得到,所述用户类型样本包括参考特征、历史特征序列、参考用户类型。
其中,用户类型预测模型用于根据用户的当前特征和历史特征序列预测该用户的类型。
用户的类型可以按照职业划分为:学生、白领、工人等,也可以按照年龄划分为儿童、成年人、老年人等。此外,还可以将不同类型组合,例如,将年龄和职业两种组合,得到成年人白领、成年人工人、老年人白领、老年人工人等。
参考特征根据预测用户类型时场景信息生成,代表了预测时场景特征。
历史特征序列根据历史信息生成,代表了预测之前指定历史时间段的特征。
参考用户类型为样本的标签,用于监督训练过程。
综上所述,本公开的实施例提供了一种用户类型的预测方法,所述方法包括:依据目标用户在当前时间的行为数据和场景信息,生成所述目标用户的当前特征;依据目标用户在目标历史时间段的行为数据和历史用户类型,生成所述目标用户的历史特征序列;将所述当前特征以及所述历史特征序列输入至预先训练的用户类型预测模型,得到所述目标用户的类型,所述用户类型预测模型使用用户类型样本对基于时序的机器学习模型训练得到,所述用户类型样本包括参考特征、历史特征序列、参考用户类型。可以通过历史特征序列和当前特征共同预测用户类型,有助于提高预测的准确度。
实施例二
参照图2,其示出了在本公开的另一种实施例中的用户类型的预测方法的具体步骤流程图,具体如下。
步骤201,针对每个候选用户,确定所述候选用户在多个候选时间所处地址的地址类型、以及所述地址类型对应的用户类型。
其中,候选用户可以为访问应用平台的用户,该应用平台具有地址定位的功能。
可以理解,地址类型可以为学校、办公楼、商场、公园、酒店、网吧等。在实际应用中,地址类型往往预示着用户类型。例如经常在学校的用户可以为学生或老师,经常在办公楼的可以为白领,经常在商场的可以为商场工作人员,经常在公园的可以为公园工作人员。
需要说明的是,对于每个候选用户,其可以在不同候选时间处于不同的地址,从而对应不同的地址类型。即:每个候选用户会存在多个地址类型,每个地址类型均可以确定一个用户类型。
步骤202,针对每个候选用户的每个地址类型,根据所述候选时间计算所述地址类型的置信得分。
其中,地址类型的置信得分表示该地址类型的置信度。置信得分越高,置信度越高;置信得分越低,置信度越低。从而可以将置信得分较高的地址类型对应的用户类型作为该候选用户的用户类型。
具体地,置信得分可以随着时间衰减,随着地址类型的出现次数增大而增大。此外,置信得分还与地址类型在所有地址类型的数目中的占比、地址类型的置信度相关。
可选地,在本公开的另一种实施例中,上述步骤202包括子步骤2021至2024:
步骤2021,根据所述候选时间和预设基准时间计算所述地址类型的时间权重参数。
其中,基准时间为预先设定的时间,从而计算候选时间相对于该基准时间的衰减参数。可以理解,基准时间可以根据实际应用场景设定,本公开的实施例对其不加以限制。
具体地,时间权重参数T(t)可以根据如下计算公式得到:
其中,T(t0)为基准时间t0对应的时间权重参数,t为候选时间,λ为衰减速度参数,λ>0。
可以理解,T(t0)、λ均可以根据实际应用场景设定,本公开的实施例对其不加以限制。
从上述公式可知,t越小,时间权重参数越小,对应的置信得分越小;t越大,时间权重参数越大,对应的置信得分越大。例如,候选时间2018年9月25对应的时间权重参数比候选时间2018年4月10号对应的时间权重参数大。
步骤2022,根据所述地址类型的数目和所述候选用户其余地址类型的数目,计算所述地址类型的占比参数。
具体地,若地址类型为第j个地址类型,占比参数可以根据如下公式计算得到:
其中,m为候选时间的数目,即确定地址类型的次数,若每次下单时确定地址类型,则m为订单的数目,可以理解,m为地址类型的数目和候选用户其余地址类型的数目之和。
j为第j个地址类型的标识,zi为第i个订单对应的地址类型的取值,当zi取值为j时,I(zi=j)取值为1;当zi取值不为j时,I(zi=j)取值为0。
在实际应用中,为了避免占比参数出现0的情况,可以采用拉普拉斯进行平滑处理,第j个地址类型的占比参数φj具体可以参照如下公式计算得到:
其中,k为地址类型的取值总数目,即为j的取值范围。例如,若地址类型分为20种,则k为20。
步骤2023,计算所述地址类型的置信参数。
具体地,地址类型的置信参数可以参照如下公式计算得到:
其中,n=u+v,p=u/n,u为目标类型数目,v为非目标类型数目,Zα为正态分布的分位数,通常取值2。
步骤2024,计算所述时间权重参数、所述占比参数、所述置信参数的乘积,得到所述地址类型的置信得分。
具体地,地址类型的置信得分SC可以根据如下公式计算得到:
SC=T(t)·φj·S (5)
可以理解,SC还可以由上述公式进一步变形得到。
从上述公式可知,T(t)越大,φj越大,S越大,置信得分越大;T(t)越小,φj越小,S越小,置信得分越小。
步骤203,根据所述置信得分生成用户类型样本集。
具体地,首先,对于每个候选用户,根据置信得分确定用户类型;然后,将确定了用户类型的候选用户集作为用户类型样本集。
可选地,在本公开的另一种实施例中,上述步骤203包括子步骤2031至2034:
子步骤2031,针对每个候选用户,选取所述置信得分大于预设置信得分阈值,且所述置信得分最大的地址类型对应的用户类型作为所述候选用户的参考用户类型。
其中,置信得分阈值可以根据实际应用场景设定,本发明实施例对其不加以限制。
在本公开的实施例中,当候选用户的所有地址类型的置信得分均小于置信得分阈值时,无法确定该候选用户的用户类型,该候选用户不作为用户类型样本集中的样本;当候选用户的部分地址类型的置信得分大于置信得分阈值时,取置信得分最大的地址类型对应的用户类型参考用户类型,并将该候选用户以及该地址类型作为训练样本。
子步骤2032,针对每个候选用户,依据所述候选用户在参考时间的行为数据和场景信息,生成所述候选用户的参考特征。
其中,参考时间可以为获取用户地址的时间。可以理解,参考时间可以为历史时间。
生成参考特征的步骤可以参照步骤101的详细说明,在此不再赘述。
子步骤2033,针对每个候选用户,依据所述候选用户在参考历史时间段的行为数据和真实用户类型,生成所述候选用户的历史特征序列,所述参考历史时间段为所述参考时间之前的指定时间段。
可以看出,候选用户的历史特征序列是相对于参考时间得到的。
生成候选用户的历史特征序列可以参照步骤102的详细说明,在此不再赘述。
子步骤2034,将所述候选用户的参考特征、历史特征序列、参考用户类型作为用户类型样本集中的样本。
其中,参考特征和历史特征序列用于预测用户类型,参考用户类型用于监督学习。
可以理解,用户类型样本集中的每个样本为一个候选用户的参考特征、历史特征序列以及参考用户类型。
步骤204,根据所述用户类型样本集训练得到用户类型预测模型。
本公开的实施例可以使用FM(Factorization Machines,因子分解器)、RNN(Recurrent Neural Net,循环神经网络)、MLP(Multi-Layer Perceptron,多层感知器)三种网络模型组成的网络训练用户类型预测模型。
可选地,在本公开的另一种实施例中,上述步骤204包括子步骤2041至2046:
子步骤2041,将所述候选用户的历史特征序列输入至级联网络中,得到用户类型的第一预测向量,所述级联网络由多个因子分解器和多个循环神经网络单元组成,所述每个因子分解器的输入为历史特征序列中的每个历史特征,所述第一个循环神经网络单元的输入为第一个因子分解器的输出,所述第一个循环神经网络单元之外的循环神经网络单元的输入为上一级因子分解器的输出和对应的因子分解器的输出,所述类型预测单元的输入为最后一个循环神经网络单元的输出和所述当前特征,输出为所述目标用户的类型。
其中,因子分解网络为因子分解器。
如图3所示,历史特征序列采用三个月的数据生成,每个月的数据作为一个节点,例如,X0、X1、X2分别为第一、二、三个月的数据生成的样本。
可以理解,在实际应用中,还可以采用更长的历史特征序列进行训练,此时,RNN和FM需要增加数量。
子步骤2042,将所述候选用户的参考特征输入至多层感知网络中,得到用户类型的第二预测向量。
如图3所示,将参考特征X输入至MLP中,得到根据参考特征X的预测向量。
子步骤2043,将所述第一预测向量、第二预测向量拼接为第三预测向量,并根据所述第三预测向量确定用户类型的预测值。
如图3所示,类型预测单元可以根据第一预测向量和第二预测向量得到用户类型。首先,将第一预测向量和第二预测向量拼接为第三预测向量;然后,将第三预测向量输入至概率公式中得到概率结果,将概率最大的类型作为预测值。
可以理解,可以将第一预测向量拼接在第二预测向量之后,也可以将第二预测向量拼接在第一预测向量之后。本发明实施例对拼接顺序不加以限制。
子步骤2044,根据所述用户类型的预测值和样本值计算损失值。
其中,损失值可以优选采用对数损失函数,还可以采用平方损失函数、绝对值损失函数、指数损失函数、铰链损失函数等计算。
子步骤2045,在所述损失值小于预设损失阈值的情况下,结束训练,当前状态的级联网络和多层感知网络为用户类型预测模型。
其中,损失阈值可以根据实际应用场景设定。可以理解,损失阈值较大时,训练时间较短,用户类型预测模型准确度较低;损失阈值较小时,训练时间较长,用户类型预测模型准确度较高。
子步骤2046,在所述损失值大于或等于预设损失阈值的情况下,调整所述级联网络和多层感知网络的状态参数,以继续训练。
可以理解,继续训练,直至损失值小于损失值阈值,结束训练,得到用户类型预测模型。
步骤205,依据目标用户在当前时间的行为数据和场景信息,生成所述目标用户的当前特征。
该步骤可以参照步骤101的详细说明,在此不再赘述。
步骤206,依据目标用户在目标历史时间段的行为数据和历史用户类型,生成所述目标用户的历史特征序列。
该步骤可以参照步骤102的详细说明,在此不再赘述。
步骤207,将所述当前特征以及所述历史特征序列输入至预先训练的用户类型预测模型,得到所述目标用户的类型,所述用户类型预测模型使用用户类型样本对基于时序的机器学习模型训练得到,所述用户类型样本包括参考特征、历史特征序列、参考用户类型。
该步骤可以参照步骤103的详细说明,在此不再赘述。
综上所述,本公开的实施例提供了一种用户类型的预测方法,所述方法包括:依据目标用户在当前时间的行为数据和场景信息,生成所述目标用户的当前特征;依据目标用户在目标历史时间段的行为数据和历史用户类型,生成所述目标用户的历史特征序列;将所述当前特征以及所述历史特征序列输入至预先训练的用户类型预测模型,得到所述目标用户的类型,所述用户类型预测模型使用用户类型样本对基于时序的机器学习模型训练得到,所述用户类型样本包括参考特征、历史特征序列、参考用户类型。可以通过历史特征序列和当前特征共同预测用户类型,有助于提高预测的准确度。
实施例三
参照图4,其示出了在本公开的另一种实施例中的用户类型的预测装置的结构图,具体如下。
当前特征生成模块301,用于依据目标用户在当前时间的行为数据和场景信息,生成所述目标用户的当前特征。
历史特征序列生成模块302,用于依据目标用户在目标历史时间段的行为数据和历史用户类型,生成所述目标用户的历史特征序列。
用户类型预测模块303,用于将所述当前特征以及所述历史特征序列输入至预先训练的用户类型预测模型,得到所述目标用户的类型,所述用户类型预测模型使用用户类型样本对基于时序的机器学习模型训练得到,所述用户类型样本包括参考特征、历史特征序列、参考用户类型。
综上所述,本公开的实施例提供了一种用户类型的预测装置,所述装置包括:当前特征生成模块,用于依据目标用户在当前时间的行为数据和场景信息,生成所述目标用户的当前特征;历史特征序列生成模块,用于依据目标用户在目标历史时间段的行为数据和历史用户类型,生成所述目标用户的历史特征序列;用户类型预测模块,用于将所述当前特征以及所述历史特征序列输入至预先训练的用户类型预测模型,得到所述目标用户的类型,所述用户类型预测模型使用用户类型样本对基于时序的机器学习模型训练得到,所述用户类型样本包括参考特征、历史特征序列、参考用户类型。可以通过历史特征序列和当前特征共同预测用户类型,有助于提高预测的准确度。
实施例三为实施例一对应的装置实施例,详细说明可以参照实施例一,在此不再赘述。
实施例四
参照图5,其示出了在本公开的一种实施例中的用户类型的预测装置的结构图,具体如下。
地址类型确定模块401,用于针对每个候选用户,确定所述候选用户在多个候选时间所处地址的地址类型、以及所述地址类型对应的用户类型。
置信得分确定模块402,用于针对每个候选用户的每个地址类型,根据所述候选时间计算所述地址类型的置信得分。
样本集生成模块403,用于根据所述置信得分生成用户类型样本集。
模型训练模块404,用于根据所述用户类型样本集训练得到用户类型预测模型。
当前特征生成模块405,用于依据目标用户在当前时间的行为数据和场景信息,生成所述目标用户的当前特征。
历史特征序列生成模块406,用于依据目标用户在目标历史时间段的行为数据和历史用户类型,生成所述目标用户的历史特征序列。
用户类型预测模块407,用于将所述当前特征以及所述历史特征序列输入至预先训练的用户类型预测模型,得到所述目标用户的类型,所述用户类型预测模型使用用户类型样本对基于时序的机器学习模型训练得到,所述用户类型样本包括参考特征、历史特征序列、参考用户类型。
可选地,在本公开的另一种实施例中,上述置信得分确定模块402包括:
时间权重参数计算子模块,用于根据所述候选时间和预设基准时间计算所述地址类型的时间权重参数。
占比参数计算子模块,用于根据所述地址类型的数目和所述候选用户其余地址类型的数目,计算所述地址类型的占比参数。
置信参数子模块,用于计算所述地址类型的置信参数。
置信得分计算子模块,用于计算所述时间权重参数、所述占比参数、所述置信参数的乘积,得到所述地址类型的置信得分。
可选地,在本公开的另一种实施例中,上述样本集生成模块403包括:
用户类型选取子模块,用于针对每个候选用户,选取所述置信得分大于预设置信得分阈值,且所述置信得分最大的地址类型对应的用户类型作为所述候选用户的参考用户类型。
参考特征生成子模块,用于针对每个候选用户,依据所述候选用户在参考时间的行为数据和场景信息,生成所述候选用户的参考特征。
候选历史特征序列生成子模块,用于针对每个候选用户,依据所述候选用户在参考历史时间段的行为数据和真实用户类型,生成所述候选用户的历史特征序列,所述参考历史时间段为所述参考时间之前的指定时间段。
样本生成子模块,用于将所述候选用户的参考特征、历史特征序列、参考用户类型作为用户类型样本集中的样本。
可选地,在本公开的另一种实施例中,上述模型训练模块404包括:
第一预测子模块,用于将所述候选用户的历史特征序列输入至级联网络中,得到用户类型的第一预测向量,所述级联网络由多个因子分解器和多个循环神经网络单元组成,所述每个因子分解器的输入为历史特征序列中的每个历史特征,所述第一个循环神经网络单元的输入为第一个因子分解器的输出,所述第一个循环神经网络单元之外的循环神经网络单元的输入为上一级因子分解器的输出和对应的因子分解器的输出,所述类型预测单元的输入为最后一个循环神经网络单元的输出和所述当前特征,输出为所述目标用户的类型。
第二预测子模块,用于将所述候选用户的参考特征输入至多层感知网络中,得到用户类型的第二预测向量。
预测值确定子模块,用于将所述第一预测向量、第二预测向量拼接为第三预测向量,并根据所述第三预测向量确定用户类型的预测值。
损失值计算子模块,用于根据所述用户类型的预测值和样本值计算损失值。
训练结束子模块,用于在所述损失值小于预设损失阈值的情况下,结束训练,当前状态的级联网络和多层感知网络为用户类型预测模型。
训练继续子模块,用于在所述损失值大于或等于预设损失阈值的情况下,调整所述级联网络和多层感知网络的状态参数,以继续训练。
综上所述,本公开的实施例提供了一种用户类型的预测装置,所述装置包括:地址类型确定模块,用于针对每个候选用户,确定所述候选用户在多个候选时间所处地址的地址类型、以及所述地址类型对应的用户类型;置信得分确定模块,用于针对每个候选用户的每个地址类型,根据所述候选时间计算所述地址类型的置信得分;样本集生成模块,用于根据所述置信得分生成用户类型样本集;模型训练模块,用于根据所述用户类型样本集训练得到用户类型预测模型;当前特征生成模块,用于依据目标用户在当前时间的行为数据和场景信息,生成所述目标用户的当前特征;历史特征序列生成模块,用于依据目标用户在目标历史时间段的行为数据和历史用户类型,生成所述目标用户的历史特征序列;用户类型预测模块,用于将所述当前特征以及所述历史特征序列输入至预先训练的用户类型预测模型,得到所述目标用户的类型,所述用户类型预测模型使用用户类型样本对基于时序的机器学习模型训练得到,所述用户类型样本包括参考特征、历史特征序列、参考用户类型。可以通过历史特征序列和当前特征共同预测用户类型,有助于提高预测的准确度。
实施例四为实施例二对应的装置实施例,详细说明可以参照实施例二,在此不再赘述。
本公开的实施例还提供了一种电子设备,参照图6,包括:处理器501、存储器502以及存储在所述存储器502上并可在所述处理器上运行的计算机程序5021,所述处理器501执行所述程序时实现前述实施例的用户类型的预测方法。
本公开的实施例还提供了一种可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行前述实施例的用户类型的预测方法。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本公开的实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本公开的实施例的内容,并且上面对特定语言所做的描述是为了披露本公开的实施例的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本公开的实施例的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本公开的实施例的示例性实施例的描述中,本公开的实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本公开的实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本公开的实施例的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
本公开的实施例的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开的实施例的用户类型的预测设备中的一些或者全部部件的一些或者全部功能。本公开的实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序。这样的实现本公开的实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本公开的实施例进行说明而不是对本公开的实施例进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本公开的实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述仅为本公开的实施例的较佳实施例而已,并不用以限制本公开的实施例,凡在本公开的实施例的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本公开的实施例的保护范围之内。
以上所述,仅为本公开的实施例的具体实施方式,但本公开的实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开的实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的实施例的保护范围之内。因此,本公开的实施例的保护范围应以权利要求的保护范围为准。
Claims (12)
1.一种用户类型的预测方法,其特征在于,所述方法包括:
依据目标用户在当前时间的行为数据和场景信息,生成所述目标用户的当前特征;
依据目标用户在目标历史时间段的行为数据和历史用户类型,生成所述目标用户的历史特征序列;
将所述当前特征以及所述历史特征序列输入至用户类型预测模型,得到所述目标用户的类型,所述用户类型预测模型使用用户类型样本对基于时序的机器学习模型训练得到,所述用户类型样本包括参考特征、历史特征序列、参考用户类型。
2.根据权利要求1所述的方法,其特征在于,所述用户类型预测模型通过如下步骤训练得到:
针对每个候选用户,确定所述候选用户在多个候选时间所处地址的地址类型、以及所述地址类型对应的用户类型;
针对每个候选用户的每个地址类型,根据所述候选时间计算所述地址类型的置信得分;
根据所述置信得分生成用户类型样本集;
根据所述用户类型样本集训练得到用户类型预测模型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述候选时间计算所述地址类型的置信得分的步骤,包括:
根据所述候选时间和预设基准时间计算所述地址类型的时间权重参数;
根据所述地址类型的数目和所述候选用户其余地址类型的数目,计算所述地址类型的占比参数;
计算所述地址类型的置信参数;
计算所述时间权重参数、所述占比参数、所述置信参数的乘积,得到所述地址类型的置信得分。
4.根据权利要求2所述的方法,其特征在于,所述根据所述置信得分生成用户类型样本集的步骤,包括:
针对每个候选用户,选取所述置信得分大于预设置信得分阈值,且所述置信得分最大的地址类型对应的用户类型作为所述候选用户的参考用户类型;
针对每个候选用户,依据所述候选用户在参考时间的行为数据和场景信息,生成所述候选用户的参考特征;
针对每个候选用户,依据所述候选用户在参考历史时间段的行为数据和真实用户类型,生成所述候选用户的历史特征序列,所述参考历史时间段为所述参考时间之前的指定时间段;
将所述候选用户的参考特征、历史特征序列、参考用户类型作为用户类型样本集中的样本。
5.根据权利要求4所述的方法,其特征在于,所述根据所述用户类型样本集训练得到用户类型预测模型的步骤,包括:
将所述候选用户的历史特征序列输入至级联网络中,得到用户类型的第一预测向量,所述级联网络由多个因子分解器和多个循环神经网络单元组成,所述每个因子分解器的输入为历史特征序列中的每个历史特征,所述第一个循环神经网络单元的输入为第一个因子分解器的输出,所述第一个循环神经网络单元之外的循环神经网络单元的输入为上一级因子分解器的输出和对应的因子分解器的输出,所述类型预测单元的输入为最后一个循环神经网络单元的输出和所述当前特征,输出为所述目标用户的类型;
将所述候选用户的参考特征输入至多层感知网络中,得到用户类型的第二预测向量;
将所述第一预测向量、第二预测向量拼接为第三预测向量,并根据所述第三预测向量确定用户类型的预测值;
根据所述用户类型的预测值和样本值计算损失值;
在所述损失值小于预设损失阈值的情况下,结束训练,当前状态的级联网络和多层感知网络为用户类型预测模型;
在所述损失值大于或等于预设损失阈值的情况下,调整所述级联网络和多层感知网络的状态参数,以继续训练。
6.一种用户类型的预测装置,其特征在于,所述装置包括:
当前特征生成模块,用于依据目标用户在当前时间的行为数据和场景信息,生成所述目标用户的当前特征;
历史特征序列生成模块,用于依据目标用户在目标历史时间段的行为数据和历史用户类型,生成所述目标用户的历史特征序列;
用户类型预测模块,用于将所述当前特征以及所述历史特征序列输入至预先训练的用户类型预测模型,得到所述目标用户的类型,所述用户类型预测模型使用用户类型样本对基于时序的机器学习模型训练得到,所述用户类型样本包括参考特征、历史特征序列、参考用户类型。
7.根据权利要求6所述的装置,其特征在于,所述用户类型预测模型通过如下模块训练得到:
地址类型确定模块,用于针对每个候选用户,确定所述候选用户在多个候选时间所处地址的地址类型、以及所述地址类型对应的用户类型;
置信得分确定模块,用于针对每个候选用户的每个地址类型,根据所述候选时间计算所述地址类型的置信得分;
样本集生成模块,用于根据所述置信得分生成用户类型样本集;
模型训练模块,用于根据所述用户类型样本集训练得到用户类型预测模型。
8.根据权利要求7所述的装置,其特征在于,所述置信得分确定模块,包括:
时间权重参数计算子模块,用于根据所述候选时间和预设基准时间计算所述地址类型的时间权重参数;
占比参数计算子模块,用于根据所述地址类型的数目和所述候选用户其余地址类型的数目,计算所述地址类型的占比参数;
置信参数子模块,用于计算所述地址类型的置信参数;
置信得分计算子模块,用于计算所述时间权重参数、所述占比参数、所述置信参数的乘积,得到所述地址类型的置信得分。
9.根据权利要求7所述的装置,其特征在于,所述样本集生成模块,包括:
用户类型选取子模块,用于针对每个候选用户,选取所述置信得分大于预设置信得分阈值,且所述置信得分最大的地址类型对应的用户类型作为所述候选用户的参考用户类型;
参考特征生成子模块,用于针对每个候选用户,依据所述候选用户在参考时间的行为数据和场景信息,生成所述候选用户的参考特征;
候选历史特征序列生成子模块,用于针对每个候选用户,依据所述候选用户在参考历史时间段的行为数据和真实用户类型,生成所述候选用户的历史特征序列,所述参考历史时间段为所述参考时间之前的指定时间段;
样本生成子模块,用于将所述候选用户的参考特征、历史特征序列、参考用户类型作为用户类型样本集中的样本。
10.根据权利要求9所述的装置,其特征在于,所述模型训练模块,包括:
第一预测子模块,用于将所述候选用户的历史特征序列输入至级联网络中,得到用户类型的第一预测向量,所述级联网络由多个因子分解器和多个循环神经网络单元组成,所述每个因子分解器的输入为历史特征序列中的每个历史特征,所述第一个循环神经网络单元的输入为第一个因子分解器的输出,所述第一个循环神经网络单元之外的循环神经网络单元的输入为上一级因子分解器的输出和对应的因子分解器的输出,所述类型预测单元的输入为最后一个循环神经网络单元的输出和所述当前特征,输出为所述目标用户的类型;
第二预测子模块,用于将所述候选用户的参考特征输入至多层感知网络中,得到用户类型的第二预测向量;
预测值确定子模块,用于将所述第一预测向量、第二预测向量拼接为第三预测向量,并根据所述第三预测向量确定用户类型的预测值;
损失值计算子模块,用于根据所述用户类型的预测值和样本值计算损失值;
训练结束子模块,用于在所述损失值小于预设损失阈值的情况下,结束训练,当前状态的级联网络和多层感知网络为用户类型预测模型;
训练继续子模块,用于在所述损失值大于或等于预设损失阈值的情况下,调整所述级联网络和多层感知网络的状态参数,以继续训练。
11.一种电子设备,其特征在于,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5中一个或多个所述的用户类型的预测方法。
12.一种可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如方法权利要求1-5中一个或多个所述的用户类型的预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811549960.8A CN109815980A (zh) | 2018-12-18 | 2018-12-18 | 用户类型的预测方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811549960.8A CN109815980A (zh) | 2018-12-18 | 2018-12-18 | 用户类型的预测方法、装置、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109815980A true CN109815980A (zh) | 2019-05-28 |
Family
ID=66602096
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811549960.8A Pending CN109815980A (zh) | 2018-12-18 | 2018-12-18 | 用户类型的预测方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109815980A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110557447A (zh) * | 2019-08-26 | 2019-12-10 | 腾讯科技(武汉)有限公司 | 一种用户行为识别方法、装置及存储介质和服务器 |
CN110825969A (zh) * | 2019-11-07 | 2020-02-21 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、终端和存储介质 |
CN111210056A (zh) * | 2019-12-25 | 2020-05-29 | 深圳供电局有限公司 | 电价方案确定方法、装置、计算机设备和存储介质 |
CN111291125A (zh) * | 2020-02-18 | 2020-06-16 | 广州腾讯科技有限公司 | 一种数据处理方法及相关设备 |
CN111401940A (zh) * | 2020-03-05 | 2020-07-10 | 杭州网易再顾科技有限公司 | 特征预测方法、装置、电子设备及存储介质 |
CN112036951A (zh) * | 2020-09-03 | 2020-12-04 | 猪八戒股份有限公司 | 基于cnn模型的商机推荐方法、系统、电子设备及介质 |
CN112116397A (zh) * | 2020-09-25 | 2020-12-22 | 贝壳技术有限公司 | 用户行为特征实时处理方法、装置、存储介质及电子设备 |
CN112711615A (zh) * | 2019-10-24 | 2021-04-27 | 富士通株式会社 | 信息处理装置、信息处理方法和计算机可读存储介质 |
CN112732983A (zh) * | 2020-12-31 | 2021-04-30 | 平安科技(深圳)有限公司 | 基于人工智能的数据检测方法、装置、服务器及存储介质 |
CN113128597A (zh) * | 2021-04-21 | 2021-07-16 | 浙江大学 | 一种用户行为特征的提取和分类预测的方法及装置 |
CN113256328A (zh) * | 2021-05-18 | 2021-08-13 | 深圳索信达数据技术有限公司 | 预测目标客户的方法、装置、计算机设备及存储介质 |
CN113743991A (zh) * | 2021-09-03 | 2021-12-03 | 上海幻电信息科技有限公司 | 生命周期价值预测方法及装置 |
CN114363193A (zh) * | 2022-01-04 | 2022-04-15 | 北京达佳互联信息技术有限公司 | 资源预测模型的训练方法和装置、资源预测方法和装置 |
CN116048765A (zh) * | 2023-03-17 | 2023-05-02 | 荣耀终端有限公司 | 任务处理方法、样本数据处理方法及电子设备 |
-
2018
- 2018-12-18 CN CN201811549960.8A patent/CN109815980A/zh active Pending
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110557447A (zh) * | 2019-08-26 | 2019-12-10 | 腾讯科技(武汉)有限公司 | 一种用户行为识别方法、装置及存储介质和服务器 |
CN112711615A (zh) * | 2019-10-24 | 2021-04-27 | 富士通株式会社 | 信息处理装置、信息处理方法和计算机可读存储介质 |
CN110825969A (zh) * | 2019-11-07 | 2020-02-21 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、终端和存储介质 |
CN110825969B (zh) * | 2019-11-07 | 2024-05-14 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、终端和存储介质 |
CN111210056A (zh) * | 2019-12-25 | 2020-05-29 | 深圳供电局有限公司 | 电价方案确定方法、装置、计算机设备和存储介质 |
CN111291125A (zh) * | 2020-02-18 | 2020-06-16 | 广州腾讯科技有限公司 | 一种数据处理方法及相关设备 |
CN111291125B (zh) * | 2020-02-18 | 2024-05-14 | 广州腾讯科技有限公司 | 一种数据处理方法及相关设备 |
CN111401940A (zh) * | 2020-03-05 | 2020-07-10 | 杭州网易再顾科技有限公司 | 特征预测方法、装置、电子设备及存储介质 |
CN112036951A (zh) * | 2020-09-03 | 2020-12-04 | 猪八戒股份有限公司 | 基于cnn模型的商机推荐方法、系统、电子设备及介质 |
CN112116397A (zh) * | 2020-09-25 | 2020-12-22 | 贝壳技术有限公司 | 用户行为特征实时处理方法、装置、存储介质及电子设备 |
CN112732983A (zh) * | 2020-12-31 | 2021-04-30 | 平安科技(深圳)有限公司 | 基于人工智能的数据检测方法、装置、服务器及存储介质 |
CN112732983B (zh) * | 2020-12-31 | 2023-09-12 | 平安科技(深圳)有限公司 | 基于人工智能的数据检测方法、装置、服务器及存储介质 |
WO2022142120A1 (zh) * | 2020-12-31 | 2022-07-07 | 平安科技(深圳)有限公司 | 基于人工智能的数据检测方法、装置、服务器及存储介质 |
CN113128597A (zh) * | 2021-04-21 | 2021-07-16 | 浙江大学 | 一种用户行为特征的提取和分类预测的方法及装置 |
CN113256328A (zh) * | 2021-05-18 | 2021-08-13 | 深圳索信达数据技术有限公司 | 预测目标客户的方法、装置、计算机设备及存储介质 |
CN113256328B (zh) * | 2021-05-18 | 2024-02-23 | 深圳索信达数据技术有限公司 | 预测目标客户的方法、装置、计算机设备及存储介质 |
CN113743991A (zh) * | 2021-09-03 | 2021-12-03 | 上海幻电信息科技有限公司 | 生命周期价值预测方法及装置 |
CN114363193B (zh) * | 2022-01-04 | 2024-01-09 | 北京达佳互联信息技术有限公司 | 资源预测模型的训练方法和装置、资源预测方法和装置 |
CN114363193A (zh) * | 2022-01-04 | 2022-04-15 | 北京达佳互联信息技术有限公司 | 资源预测模型的训练方法和装置、资源预测方法和装置 |
CN116048765B (zh) * | 2023-03-17 | 2023-09-01 | 荣耀终端有限公司 | 任务处理方法、样本数据处理方法及电子设备 |
CN116048765A (zh) * | 2023-03-17 | 2023-05-02 | 荣耀终端有限公司 | 任务处理方法、样本数据处理方法及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109815980A (zh) | 用户类型的预测方法、装置、电子设备及可读存储介质 | |
EP3623956A1 (en) | Method and apparatus for obtaining recommendation information, and electronic device | |
CN107808122B (zh) | 目标跟踪方法及装置 | |
US8290945B2 (en) | Web searching | |
CN110366734A (zh) | 优化神经网络架构 | |
CN108022140A (zh) | 一种用车订单推荐方法、装置及服务器 | |
CN106251174A (zh) | 信息推荐方法及装置 | |
CN108052979A (zh) | 对模型预测值进行融合的方法、装置和设备 | |
CN110287477A (zh) | 实体情感分析方法及相关装置 | |
CN108287864A (zh) | 一种兴趣群组划分方法、装置、介质及计算设备 | |
CN109766557A (zh) | 一种情感分析方法、装置、存储介质及终端设备 | |
CN105550746A (zh) | 机器学习模型的训练方法和训练装置 | |
CN104992347A (zh) | 一种视频匹配广告的方法及装置 | |
CN110457420A (zh) | 兴趣点位置识别方法、装置、设备及存储介质 | |
CN104361415B (zh) | 一种展示信息的选取方法及装置 | |
CN109388674A (zh) | 数据处理方法、装置、设备及可读存储介质 | |
CA3062119A1 (en) | Method and device for setting sample weight, and electronic apparatus | |
CN106909931A (zh) | 一种用于机器学习模型的特征生成方法、装置和电子设备 | |
CN108920665A (zh) | 基于网络结构和评论文本的推荐评分方法及装置 | |
CN105447038A (zh) | 用于获取用户特征的方法和系统 | |
CN107633326A (zh) | 一种用户投递意愿模型的构建方法和计算设备 | |
CN109656541A (zh) | 开发资源的推荐方法、装置、存储介质和电子设备 | |
CN107003834B (zh) | 行人检测设备和方法 | |
CN110390110A (zh) | 用于语义匹配的预训练生成句子向量的方法和装置 | |
CN111949306A (zh) | 一种支持开源项目碎片化学习的推送方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |