一种用户标签确定、信息推送方法和设备
技术领域
本申请涉及互联网信息处理技术领域,尤其涉及一种用户标签确定、信息推送方法和设备。
背景技术
随着科学技术和互联网技术的发展,出现了电子商务平台。所谓电子商务平台可以是指基于互联网搭建的能够为不同用户提供网络服务的电子平台。这种电子商务平台的出现给用户的生产生活带来了极大的方便。
为了保证电子商务平台能够为用户提供精准的网络服务,提出了一种用户标签挖掘技术。所谓用户标签是指一种能够反映用户的某种特性或者某种倾向性的描述。例如:宠物标签,一旦某个用户被标记了宠物标签,说明该用户喜欢饲养宠物。
经研究发现,在现有技术中所提出的用户标签挖掘技术,主要采用独立建模的方法,即根据业务需要采集一定数量的样本数据,利用这些样本数据进行模型训练得到所需要的用户标签,最后使用得到的用户标签对不同用户进行预测。这种标签挖掘技术存在以下缺陷:
(1)、建模流程所消耗的时间比较长。采集一定数量的样本数据,训练所需用户标签的标签模型,这一过程消耗时间比较长。这样当通过训练方式得到用户标签时,业务已经发生变化,导致挖掘得到的用户标签与业务发展变化不匹配。
(2)、消耗人力资源。需要耗费大量的算法工程人员参与模型开发。
综上所述,亟需一种用户标签确定方法,用于解决现有技术中用户标签挖掘效率比较低的问题。
发明内容
有鉴于此,本申请实施例提供了一种用户标签确定、信息推送方法和设备,用于解决现有技术中用户标签挖掘效率比较低的问题。
本申请实施例提供了一种用户标签确定方法,包括:
配置待确定的用户标签的标签规则以及标签特征库,所述标签特征库中包含不同类型的标签关键词;
采集至少一个包含隶属于所述用户标签的目标对象的用户行为数据;
根据所述标签规则和所述标签关键词,计算不同的所述用户行为数据中包含的所述目标对象隶属于所述用户标签的概率值;
根据计算得到的所述概率值,判断所述用户标签是否满足待挖掘的用户标签的条件。
本申请实施例提供了一种信息推送方法,包括:
确定目标用户偏好用户标签的概率值,所述概率值通过权利要求1至10任一所述的用户标签确定方法得到;
在所述概率值大于设定阈值时,向所述目标用户推送与所述用户标签匹配的目标对象的业务信息。
本申请实施例还提供了一种用户标签确定设备,包括:
配置单元,配置待确定的用户标签的标签规则以及标签特征库,所述标签特征库中包含不同类型的标签关键词;
采集单元,采集至少一个包含隶属于所述用户标签的目标对象的用户行为数据;
计算单元,根据所述标签规则和所述标签关键词,计算不同的所述用户行为数据中包含的所述目标对象隶属于所述用户标签的概率值;
判断单元,根据计算得到的所述概率值,判断所述用户标签是否满足待挖掘的用户标签的条件。
本申请实施例还提供了一种信息推送设备,包括:
确定单元,确定目标用户偏好用户标签的概率值,所述概率值通过上述所述的用户标签确定方法得到;
推送单元,在所述概率值大于设定阈值时,向所述目标用户推送与所述用户标签匹配的目标对象的业务信息。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
通过配置待确定的用户标签的标签规则以及标签特征库,所述标签特征库中包含不同类型的标签关键词;采集至少一个包含隶属于所述用户标签的目标对象的用户行为数据;根据所述标签规则和所述标签关键词,计算不同的所述用户行为数据中包含的所述目标对象隶属于所述用户标签的概率值;根据计算得到的所述概率值,判断所述用户标签是否满足待挖掘的用户标签的条件。本申请实施例通过配置待挖掘用户标签的标签规则以及标签特征库,采集用户行为数据,并利用用户行为数据对配置的标签规则以及标签特征库进行测试,以确定配置的标签规则以及标签特征库是否满足用户标签的条件,实现用户标签的快速挖掘,有效提升标签的挖掘效率;同时还可以根据用户标签与目标对象的匹配关系,能够为不同用户配置较精准的用户标签,为后续业务推广奠定基础,提升响应业务需求的效率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种用户标签确定方法的流程示意图;
图2为本申请实施例提供的用户标签对应的不同特征集的结构示意图;
图3为本申请实施例提供的一种用户标签确定方法的流程示意图;
图4为本申请实施例提供的一种信息推送方法的流程示意图;
图5为本申请实施例提供的一种用户标签确定设备的结构示意图;
图6为本申请实施例提供的一种信息推送设备的结构示意图。
具体实施方式
为了实现本申请的目的,本申请实施例提供了一种用户标签确定、信息推送方法和设备,通过配置待挖掘用户标签的标签规则以及标签特征库,采集用户行为数据,并利用用户行为数据对配置的标签规则以及标签特征库进行测试,以确定配置的标签规则以及标签特征库是否满足用户标签的条件,实现用户标签的快速挖掘,有效提升标签的挖掘效率;同时还可以根据用户标签与目标对象的匹配关系,能够为不同用户配置较精准的用户标签,为后续业务推广奠定基础,提升响应业务需求的效率。
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1为本申请实施例提供的一种用户标签确定方法的流程示意图。所述方法可以如下所示。
步骤101:配置待确定的用户标签的标签规则以及标签特征库,所述标签特征库中包含不同类型的标签关键词。
在本申请实施例中,首先详细描述用户标签的标签规则的配置方法以及用户标签的标签特征库的配置方式。
第一,配置待确定的用户标签的标签规则。
第一步,确定用于描述所述用户标签的相同类型的标签关键词之间的第一关联关系以及用于描述所述用户标签的不同类型的标签关键词之间的第二关联关系。
第二步,根据所述第一关联关系和所述第二关联关系,配置待确定的用户标签的标签规则。
具体地,在本申请实施例中,对于待挖掘的用户标签,首先通过标签配置模块定义待挖掘的用户标签,以及该用户标签的配置信息。
这里的配置信息中包含标签规则、标签特征库以及用户关注隶属于该用户标签的目标对象的行为类别的权重等。
一般用于描述用户标签的标签关键词可以分为三种类型:一种为正向描述的标签关键词(这里的正向描述的标签关键词能够直接描述用户标签);一种是负向描述的标签关键词(这里的负向描述的标签关键词则与用户标签的关系为反向关系);还有一种是过滤描述的标签关键词(这里的过滤描述特征词可以理解为与正向描述的标签关键词相关且也属于满足其他用户标签的标签关键词)。那么在本申请实施例中,根据标签关键词与用户标签之间的描述关系,确定的标签规则可以为:A&B-C,即A且B非C关系。
其中,A表示用户标签中所包含的第一正向描述的标签关键词,B表示用户标签中包含的第二正向描述的标签关键词,C表示与用户标签具备负向关系的负向描述的标签关键词。
需要说明的是,A、B和C不仅仅表示一种类型的标签关键词,还可以表示一种规则,例如:其所表示规则的格式为:K1|……|Kn/Kn+1|……|Km,其中,K1到Kn表示匹配关系的标签关键词;Kn+1到Km表示过滤关系的标签关键词。
例如:假设用户标签为“日本旅游”,这个用户标签中包含两个标签关键词:一个标签关键词为“日本”;另一个标签关键词为“旅游”,那么根据本申请实施例中所记载的方式,为“日本旅游”这一待挖掘的用户标签配置的标签规则可以定义为:日本|东京/代购|直邮&旅游|旅行-政治。
这里“日本|东京/代购|直邮”表示第一正向描述的标签关键词A;“旅游|旅行”表示第二正向描述的标签关键词B;“政治”表示负向描述的标签关键词C。
其中,因为与“日本|东京”相关的除了“旅游”之外,还可以是“代购|直邮”,那么在配置“日本旅游”这一用户标签时,对于“日本”这一标签关键词,可以定义一种规则,即“日本|东京/代购|直邮”,其中,“日本|东京/代购|直邮”不仅包含正向描述的标签关键词“日本|东京”还包含过滤描述的标签关键词“代购|直邮”,因此,在挖掘“日本旅游”这一用户标签时需要排除在日本代购或直邮这一内容。
对于日本,人们不仅仅关注旅游,还可能关注日本的政治,因此,关注日本政治的用户不一定对日本旅游感兴趣,因此,可以将“政治”作为“日本旅游”的负向描述的标签关键词。
需要说明的是,该标签规则可以是用户自己配置的,也可以是系统生成的,这里不做具体限定。
进一步地说,在配置标签规则时,一定需要配置关于正向描述的标签关键词的规则,但是对于关于负向描述的标签关键词的规则以及关于过滤描述的标签关键词的规则属于可有可无的,这里不做具体限定。
由此可见,“&”表示的用于描述所述用户标签的相同类型的标签关键词之间的第一关联关系;“-”用于描述所述用户标签的不同类型的标签关键词之间的第二关联关系。
第二,配置用户标签的标签特征库。
本申请实施例中所记载的标签特征库可以但不限于以下两种方式得到:一种方式通过采样方式建立标签特征库,另外一种方式通过分析历史用户行为数据,提取历史用户行为数据中包含的用于描述目标对象的文本信息,将所述文本信息作为标签特征库中的标签关键词。此外,这两种方式的结合也可以,这里不做具体限定。
下面说明如何通过分析历史用户行为数据得到与待确定用户标签相关联的标签关键词进而确定用户标签的标签特征库。
首先,获取历史用户行为数据,并提取所述历史用户行为数据中包含的用于描述用户标签的标签关键词。
在确定待挖掘的用户标签时,筛选与该用户标签相关联的历史用户行为数据,并对这些历史用户行为数据进行分析,提取得到与该用户标签相关联的文本信息,这些文本信息中包含正向描述该用户标签的文本信息,也包含负向描述该用户标签的文本信息,还包含可作为过滤描述该用户标签的文本信息。
其次,根据所述标签规则中确定的标签关键词的类型,将所述标签关键词进行分类,得到不同的标签关键词集。
所述标签关键词集中包含用于正向描述所述用户标签的第一标签关键词集、包含用于过滤描述所述用户标签的第二标签关键词集和包含用于负向描述所述用户标签的第三标签关键词集。
具体地,基于标签规则,匹配相关的文本信息,将命中规则的文本信息放置在对应的集合中,得到标签关键词集SA、SB和SC。
仍以上述标签规则和用户标签为“日本旅游”为例,例如:一条用户行为数据为用户A阅读了一篇旅游文章,这篇旅游文章中记载的内容与“东京”有关,或者该文章的标题中包含“东京”,那么提取该用户行为数据的标签关键词为“东京”。那么“东京”这一标签关键词可以分类在“日本旅游”标签的标签关键词集SA中。
图2为本申请实施例提供的用户标签对应的不同标签关键词集的结构示意图。
从图2中可以看出,预先确定用于描述用户标签的标签关键词的全量集(这里可以通过分析历史用户行为数据得到);按照标签规则,得到用于正向描述用户标签的第一正向标签关键词集(对应标签规则中的A),用于正向描述用户标签的第二正向标签关键词集(对应标签规则中的B),用于负向描述所述用户标签的负第三标签关键词集(对应标签规则中的C)。
第三,针对不同的标签关键词集,分别确定不同的所述标签关键词集中包含的标签关键词对应的特征概率。
具体地,针对不同标签关键词集中包含的每一个标签关键词,可以按照但不限于以下方式得到标签关键词对应的特征概率:
确定所述标签关键词在对应的所述标签关键词集中出现的第一文档频率,以及确定所述文标签关键词在所述历史用户行为数据中出现的第二文档频率;
根据所述第一文档频率和所述第二文档频率,确定所述标签关键词对应的特征概率。
需要说明的是,分别统计该标签关键词在对应标签关键词集中的第一文档频率,确定第二文档频率可以是确定该标签关键词在图2中所示的全量集中的文档频率,这里的文档频率的统计方式可以按照现有方式确定,这里不再做详细描述。
针对第一正向标签关键词集中每一个标签关键词,在得到第一文档频率和第二文档频率时,计算第一文档频率与第二文档频率之间的商值,将该商值作为该标签关键词的特征概率。
例如:假设“富士山”属于第一正向标签关键集的一个标签关键词,确定“富士山”在第一正向标签关键词集中的文档频率是10088,确定“富士山”在全量集中的文档频率是10500,那么“富士山”在“日本旅游”这一用户标签中对应的特征概率为10088/10500=0.96。
在本申请的可选实施例中,在计算得到每一个标签关键词集中每一个标签关键词对应的特征概率时,可以选择特征概率大于设定阈值的标签关键词作为该标签关键词集中的标签关键词。
第四,建立确定的所述标签关键词与所述标签关键词对应的特征概率之间的映射关系,并将所述映射关系存储至所述用户标签的标签特征库中。
可选地,将选择的标签关键词以及该标签关键词对应的特征概率存储至所述用户标签的标签特征库中。
可选地,在配置该用户标签的配置规则以及配置该用户标签的标签特征库后,还可以配置一些其他信息,例如:行为类别的权重、消费金额的权重、行为衰减周期等等。
下面详细说明如何确定行为类别的权重。
对于用户标签来说,由于获取到的历史用户行为数据,不同历史用户行为数据的行为类别存在差异,而不同行为类别所刻画的用户对同一个用户标签的偏好程度也不同,例如,对于“摄影”标签,用户购买一个相机的购买行为与用户阅读一篇摄影相关的文章的阅读行为,显然,购买行为更能刻画用户对“摄影”标签的偏好,那么对于“摄影”标签,购买与“摄影”相关的商品的历史用户行为数据的权重高于阅读与“摄影”相关的文章的历史用户行为数据的权重。
即假设标签关键词1出自购买与“摄影”相关的商品的历史用户行为数据,标签关键词2出自阅读与“摄影”相关的文章的历史用户行为数据,那么标签关键词1对应的行为类别的权重值高于标签关键词2对应的行为类别的权重值。
下面说明如何确定消费金额的权重。
对于用户标签来说,在历史用户行为数据中还可能包含用户对某件商品的消费金额,也就意味着,对于相同目标对象的购买行为,不同消费金额也能够刻画用户对同一个用户标签的偏好程度的不同。例如:对于“理财”标签,用户购买10元的基金和购买10w元的基金所刻画的用户对理财产品的偏好程度也不同。那么,在本申请实施例中,对于相同目标对象的购买行为,可以根据消费金额的多少,确定消费金额的权重。例如:消费金额0~100元,那么设置的权重为0.4;消费金额100~1000元,那么设置的权重为0.6;消费金额1000~10000元,那么设置的权重为0.8;消费金额1w~10w元,那么设置的权重为0.9;消费金额10w元以上,那么设置的权重为1.0。显然,对于相同目标对象的购买行为所产生的用户行为数据,可以根据消费金额的多少,确定不同用户行为数据的权重,消费金额越大,对应的该用户行为数据的权重越大,同时意味着,对应于该用户行为数据的标签关键词的权重越大。
下面说明如何确定行为衰减周期。
在实际生活中,用户对目标对象的偏好程度存在衰减周期,即在一定时间周期内,用户特别关注目标对象,但是这一周期之后,用户对该目标对象的关注度下降,通常把这个周期称之为衰减周期。通常,衰减周期可以是指偏好概率衰减为一半的时间。在本申请实施例中,可以将衰减周期设置为300天。
例如:某一个用户在一个300天周期内多次关注与篮球有关的东西,那么在这300天周期将产生大量与篮球有关的用户行为数据,例如:购买篮球、看篮球比赛等等;但是,在另外一个300天周期内没有产生于篮球有关的用户行为数据,说明用户对篮球的偏好程度发生衰减。
需要说明的是,在计算所述目标对象隶属于所述用户标签的概率值时,可以选择上述记载的五种参数进行计算,也可以选择其中几种参数进行计算,下面在计算所述目标对象隶属于所述用户标签的概率值时优先选择第一种参数和第二种参数进行计算。
步骤102:采集至少一个包含隶属于所述用户标签的目标对象的用户行为数据。
在本申请实施例中,用户行为数据可以是指目标用户在电子商务平台中产生的操作行为数据,例如:目标用户在电子商务平台中看到一首好听的歌曲,并收藏了这首好听的歌曲,那么在电子商务平台对应的服务器中生成一条用户行为数据,在该用户行为数据中包含目标用户的标识(可以是系统自动生成的,也可以是用户注册得到的,这里不做限定)、行为发生时间(即收藏行为发生时间)、目标用户所关注的目标对象(即歌曲)、用于描述目标对象的文本信息(即歌曲名称、歌手信息、关键词等)等等;也可以是指目标对象在电子商务平台中产生的业务行为数据,例如:目标用户在电子商务平台中购买了一件商品,那么在电子商务平台对应的服务器中生成一条用户行为数据,在该用户行为数据中包含目标用户的标识、购买行为发生时间、所购买商品(可以包含商品类别、商品的标识等)、用于描述所购买商品的文本信息等;这里对于用户行为数据的产生方式不做具体限定。
在本申请的优选实施例中,服务器在存储用户行为数据时,可以对用户行为数据进行预处理,也可以在从服务器中获取到该用户行为数据时,对该用户行为数据进行预处理。
下面描述如何对用户行为数据进行预处理。
首先,确定该用户行为数据产生的行为类型。本申请实施例中所记载的行为类型可以是指购买行为、收藏行为、点击查看行为等。由此可以理解这里的行为类型是指用户行为数据因用户的何种行为所产生。
其次,根据预设的行为类型与预处理方式之间的映射关系,确定不同行为类型对应的用户行为数据的预处理方式。
由于行为类型不同,那么产生用户行为数据中包含的数据内容也存在差异,那么在对用户行为数据进行预处理时,需要选择匹配该用户行为数据的预处理方式,这样能够提取得到所需要的数据内容,为后续用户标签确定奠定基础,保证后续用户标签确定的效率。
最后,根据确定的预处理方式将得到的用户行为数据进行处理,并将用户行为数据转换成同一种数据格式,方便后续用户标签确定阶段的使用。
在本申请实施例中数据格式可以为:<目标用户标识、行为产生时间、行为类别、目标对象类别、目标对象标识、用于描述目标对象的文本信息、行为产生持续时长、产生金额>,还可以是其他格式,这里不做限定。
通过这种数据格式,可以看出用户行为数据中包含以下信息中的一种或者多种:
目标用户标识、行为产生时间、行为类别、目标对象类别、目标对象标识、用于描述目标对象的文本信息、行为产生持续时长、产生金额。
除此之外,还可以包含目标用户关注该目标对象的次数,即对于同一个目标对象,目标用户不止一次搜索该目标对象,并对描述该目标对象的网页或者文本信息进行浏览,可以将浏览次数作为目标用户关注该目标对象的次数。
步骤103:根据所述标签规则和所述标签关键词,计算不同的所述用户行为数据中包含的所述目标对象隶属于所述用户标签的概率值。
在本申请实施例中计算不同的所述用户行为数据中包含的所述目标对象隶属于所述用户标签的概率值的方式包括但不限于如下方式:
针对采集到的各个所述用户行为数据,分别执行以下操作:
首先,对获取到的所述用户行为数据进行预处理,得到所述用户行为数据中包含的目标对象和用于描述所述目标对象的文本信息。
这里需要说明的是,这里的预处理方式可以与步骤102中所记载的预处理方式相同,也可以不同,主要目的在于提取该用户行为数据中所包含的目标对象和用于描述该目标对象的文本信息。
其次,基于所述用户标签的标签关键词,确定所述用户行为数据中包含的所述文本信息对应的特征概率。
所述特征概率用于表征文本信息用于描述所述用户标签的概率。
具体地,基于所述用户标签的标签特征库中包含的标签关键词,确定所述用户行为数据中包含的所述文本信息对应的标签关键词;
根据所述用户标签的标签特征库中包含的标签关键词与所述标签关键词隶属于所述用户标签的特征概率之间的映射关系,确定所述用户行为数据中包含的所述文本信息对应的标签关键词的特征概率;
将确定的所述特征概率作为所述用户行为数据中包含的所述文本信息对应的特征概率。
例如:假设用户标签为“美食”标签,“美食”标签对应的标签特征库,在标签特征库中包含正向描述的标签关键词以及正向描述的标签关键词对应的特征概率、负向描述的标签关键词以及负向描述的标签关键词对应的特征概率,即正向描述的标签关键词:饼干(0.45)、糕点(0.48)、零食(1.0)、食品(0.64)、即食(0.50)、鸭肉(0.54)、烟熏(0.47)、食材(0.45)、香肠(0.63)、肉制品(0.66)、订餐(0.36)、美食(1.0)、特产(1.0);
负向描述的标签关键词:宠物(1.0)、狗狗(1.0)、磨牙(0.77)、磨牙棒(0.53)、宠物猫(1.0)、宠物狗(1.0)。
那么获取到的用户行为数据为:【糕点】日本和光堂饼干宝宝磨牙棒婴儿零食,基于所述用户标签的标签特征库,确定所述用户行为数据中包含的“糕点”、“饼干”以及“零食”为正向描述的标签关键词,这些正向描述的标签关键词对应的特征概率:糕点0.48;饼干0.45;零食1.0;确定所述用户行为数据中包含的“磨牙棒”为负向描述的标签关键词,这些负向描述的标签关键词对应的特征概率:磨牙棒0.53。
最后,基于所述用户标签的标签规则和确定的所述文本信息对应的特征概率,计算所述用户行为数据中包含的所述目标对象隶属于所述用户标签的概率值。
具体地,确定所述用户行为数据中包含的所述文本信息对应的标签关键词的类型;
基于所述用户标签的标签规则中包含的用于描述所述用户标签的相同类型的标签关键词之间的关联关系,计算得到所述用户行为数据中包含的属于同一个类型的至少一个所述文本信息对应的第一特征概率;
基于所述用户标签的标签规则中包含的用于描述所述用户标签的不同类型的标签关键词之间的关联关系和所述第一特征概率,计算所述用户行为数据中包含的所述目标对象隶属于所述用户标签的概率值。
其中,所述不同类型的标签关键词包含正向描述的标签关键词、负向描述的标签关键词、过滤描述的标签关键词中的至少一种。
例如:获取的目标用户的用户行为数据中存在n1个文本信息属于第一类正向描述用户标签的标签关键词,那么这n1个标签关键词分别对应n1个特征概率;存在n2个文本信息属于第二类正向描述用户标签的标签关键词,那么这n2个标签关键词分别对应n2个特征概率,那么基于所述用户标签的标签规则中包含的用于描述所述用户标签的相同类型的标签关键词之间的关联关系,计算得到所述用户行为数据中包含的属于同一个类型的至少一个所述文本信息对应的第一特征概率,即n1个特征概率与n2个特征概率的积。
再例如:获取的目标用户的用户行为数据中n3个文本信息属于负向描述用户标签的标签关键词,那么这n3个标签关键词分别对应n3个特征词概率,那么基于所述用户标签的标签规则中包含的用于描述所述用户标签的不同类型的标签关键词之间的关联关系和所述第一特征概率,计算所述用户行为数据中包含的所述目标对象隶属于所述用户标签的概率值为n1个特征概率与n2个特征概率的积与n3个特征词概率之差,即可以通过以下公式表示:
其中,p为所述目标对象隶属于所述用户标签的概率值,P1为第一正向描述的标签关键词集对应的概率值,P2为第二正向描述的标签关键词集对应的概率值,P1*P2为第一特征概率值,P3为负向描述的标签关键词集对应的概率值,Pi为所述第一正向描述的标签关键词集中包含的第i个标签关键词对应的特征概率值,i的取值范围为【1,n1】,Pj为所述第二正向描述的标签关键词集中包含的第j个标签关键词对应的特征概率值,j的取值范围为【1,n2】,Ph为所述反向描述的标签关键词集中包含的第h个标签关键词对应的特征概率值,h的取值范围为【1,n3】。
需要说明的是,当第二正向描述的标签关键词集中包含的标签关键词为0个时,那么本申请实施例中第二正向描述的标签关键词集对应的概率值为1.0;当负向描述的标签关键词中包含的标签关键词为0个时,那么本申请实施例中负向描述的标签关键词集对应的概率值为0.0。
仍以获取到的用户行为数据为:【糕点】日本和光堂饼干宝宝磨牙棒婴儿零食为例,基于所述用户标签的标签特征库,确定所述用户行为数据中包含的所述文本信息对应的特征概率:正向描述的标签关键词:糕点0.48;饼干0.45;零食1.0;负向描述的标签关键词:磨牙棒0.53。
那么基于该用户行为数据中包含的目标对象隶属于“美食”标签的概率值为:p=(1-sqrt((1-0.48)(1-0.45)(1-1.0))-(1-sqrt(1-0.53))=0.68。
步骤104:根据计算得到的所述概率值,判断所述用户标签是否满足待挖掘的用户标签的条件。
在本申请实施例中,在计算得到的多个所述概率值中,若大于设定阈值的所述概率值的数量大于等于设定个数,则确定所述用户标签满足待挖掘的用户标签的条件;
若大于设定阈值的所述概率值的数量小于设定个数,则确定所述用户标签不满足待挖掘的用户标签的条件。
此外,在确定所述用户标签不满足待挖掘的用户标签的条件时,所述方法还包括:
调整所述用户标签的标签规则以及更新所述用户标签的标签特征库。
以便于利用调整后的标签规则和标签特征库对待挖掘的用户标签进行挖掘。
在本申请的另一个实施例中,所述方法还包括:
对于目标用户,确定所述目标用户产生的用户行为数据中包含的目标对象隶属于所述用户标签的概率值,以及确定所述目标用户产生所述用户行为数据的行为类别对应的行为权重;
根据所述概率值和所述行为权重,确定所述目标用户偏好所述用户标签的概率值。
由于产生用户行为数据的行为类别不同,而不同行为类别所刻画的用户对同一个用户标签的偏好程度也不同,因此,在确定用户行为数据中包含的目标对象隶属所述用户标签的概率值后,确定产生该用户行为数据的行为类别,进而确定该行为类别相对于用户标签的行为权重。
其中,p为用户偏好所述用户标签的概率值;αm为产生第m个用户行为数据的行为类别对应的行为类别权重;Pm为第m个用户行为数据中包含的目标对象隶属于所述用户标签的概率值。
需要说明的是,在确定用户偏好所述用户标签的概率值时,通常t大于1,为了计算的简洁性,可以选择用户行为数据中包含的目标对象隶属于所述用户标签的概率值最大的t个进行计算,这样t的取值可以为5。
由于用户产生的用户行为数据的数量比较大,那么可以分别确定每一个用户行为数据中包含的目标对象隶属于不同用户标签的概率值,反之,对于同一个用户标签,隶属于该用户标签的用户行为数据也可以是多个。
此外,为了减少数据量并降低用户短期多次突发行为对用户偏好的影响,可以按照衰减周期对用户是否偏好用户标签进行汇总,同时考虑到用户偏好可能会随着时间发生变化,那么在确定用户偏好所述用户标签的概率值时,还可以考虑偏好衰减周期,那么确定用户偏好所述用户标签的概率值:
其中,σ
T为衰减系数,T为衰减周期。
优选地,在用户偏好所述用户标签的概率值大于设定数值时,可以为该用户添加该用户标签。
通过本申请实施例提供的技术方案,配置待确定的用户标签的标签规则以及标签特征库,所述标签特征库中包含不同类型的标签关键词;采集至少一个包含隶属于所述用户标签的目标对象的用户行为数据;根据所述标签规则和所述标签关键词,计算不同的所述用户行为数据中包含的所述目标对象隶属于所述用户标签的概率值;根据计算得到的所述概率值,判断所述用户标签是否满足待挖掘的用户标签的条件。本申请实施例通过配置待挖掘用户标签的标签规则以及标签特征库,采集用户行为数据,并利用用户行为数据对配置的标签规则以及标签特征库进行测试,以确定配置的标签规则以及标签特征库是否满足用户标签的条件,实现用户标签的快速挖掘,有效提升标签的挖掘效率;同时还可以根据用户标签与目标对象的匹配关系,能够为不同用户配置较精准的用户标签,为后续业务推广奠定基础,提升响应业务需求的效率。
图3为本申请实施例提供的一种用户标签确定方法的流程示意图。
从图3中可以看出,以“美食”标签为例,说明如何挖掘一个用户标签以及如何确定用户对该用户标签的偏爱程度。
首先,确定“美食”标签的配置信息,这里的配置信息包含标签规则和行为类别权重。
其次,确定“美食”标签的标签特征库。在该标签特征库中包含正向描述的标签关键集和负向描述的标签关键集,在不同标签关键集中包含标签关键词与标签关键词的特征概率之间的映射关系。
第三,在获取到用户行为数据时,分析用户行为数据中包含的标签关键词,以及标签关键词对应的特征概率,进而根据目标对象隶属于用户标签的概率值计算方式,得到用户行为数据中包含的目标对象隶属于用户标签的概率值。
最后,确定用户偏好“美食”标签的概率值。
图4为本申请实施例提供的一种信息推送方法的流程示意图。所述方法可以如下所示。在需要进行业务推荐时,可以查看为不同用户添加的用户标签,有针对性的向用户推荐信息。
步骤401:确定目标用户偏好用户标签的概率值。
本申请实施例中所记载的目标用户偏好用户标签的概率值可以通过本申请上述实施例中所记载的方案得到,也可以通过其他方案得到,这里不做具体限定。
步骤402:判断该概率值是否大于设定阈值,若大于,则执行步骤403。
本申请实施例中所记载的设定阈值可以根据实际需要确定,也可以根据试验数值确定,这里不做具体限定。
步骤403:在所述概率值大于设定阈值时,向所述用户推送与所述用户标签匹配的目标对象的业务信息。
当确定所述概率值大于设定阈值时,说明用户偏好与该用户标签匹配的目标对象,那么将与该目标对象有关的业务信息推送给该用户,该用户感兴趣的概率将比较高,同时也能够增加业务信息推送的效率。
图5为本申请实施例提供的一种用户标签确定设备的结构示意图。所述用户标签确定设备包括:配置单元51、采集单元52、计算单元53和判断单元54,其中:
配置单元51,配置待确定的用户标签的标签规则以及标签特征库,所述标签特征库中包含不同类型的标签关键词;
采集单元52,采集至少一个包含隶属于所述用户标签的目标对象的用户行为数据;
计算单元53,根据所述标签规则和所述标签关键词,计算不同的所述用户行为数据中包含的所述目标对象隶属于所述用户标签的概率值;
判断单元54,根据计算得到的所述概率值,判断所述用户标签是否满足待挖掘的用户标签的条件。
在本申请的另一个实施例中,所述计算单元53根据所述标签规则和所述标签关键词,计算不同的所述用户行为数据中包含的所述目标对象隶属于所述用户标签的概率值,包括:
针对采集到的各个所述用户行为数据,分别执行以下操作:
对获取到的所述用户行为数据进行预处理,得到所述用户行为数据中包含的目标对象和用于描述所述目标对象的文本信息;
基于所述用户标签的标签关键词,确定所述用户行为数据中包含的所述文本信息对应的特征概率,所述特征概率用于表征文本信息用于描述所述用户标签的概率;
基于所述用户标签的标签规则和确定的所述文本信息对应的特征概率,计算所述用户行为数据中包含的所述目标对象隶属于所述用户标签的概率值。
在本申请的另一个实施例中,所述计算单元53基于所述用户标签的标签关键词,确定所述用户行为数据中包含的所述文本信息对应的特征概率,包括:
基于所述用户标签的标签特征库中包含的标签关键词,确定所述用户行为数据中包含的所述文本信息对应的标签关键词;
根据所述用户标签的标签特征库中包含的标签关键词与所述标签关键词隶属于所述用户标签的特征概率之间的映射关系,确定所述用户行为数据中包含的所述文本信息对应的标签关键词的特征概率;
将确定的所述特征概率作为所述用户行为数据中包含的所述文本信息对应的特征概率。
在本申请的另一个实施例中,所述计算单元53基于所述用户标签的标签规则和确定的所述文本信息对应的特征概率,计算所述用户行为数据中包含的所述目标对象隶属于所述用户标签的概率值,包括:
确定所述用户行为数据中包含的所述文本信息对应的标签关键词的类型;
基于所述用户标签的标签规则中包含的用于描述所述用户标签的相同类型的标签关键词之间的关联关系,计算得到所述用户行为数据中包含的属于同一个类型的至少一个所述文本信息对应的第一特征概率;
基于所述用户标签的标签规则中包含的用于描述所述用户标签的不同类型的标签关键词之间的关联关系和所述第一特征概率,计算所述用户行为数据中包含的所述目标对象隶属于所述用户标签的概率值;
其中,所述不同类型的标签关键词包含正向描述的标签关键词、负向描述的标签关键词、过滤描述的标签关键词中的至少一种。
在本申请的另一个实施例中,所述配置单元51配置待确定的用户标签的标签规则,包括:
确定用于描述所述用户标签的相同类型的标签关键词之间的第一关联关系以及用于描述所述用户标签的不同类型的标签关键词之间的第二关联关系;
根据所述第一关联关系和所述第二关联关系,配置待确定的用户标签的标签规则。
在本申请的另一个实施例中,所述配置单元51配置待确定的用户标签的标签特征库,包括:
获取历史用户行为数据,并提取所述历史用户行为数据中包含的用于描述用户标签的标签关键词;
根据所述标签规则中确定的标签关键词的类型,将所述标签关键词进行分类,得到不同的标签关键词集,所述标签关键词集中包含用于正向描述所述用户标签的第一标签关键词集、包含用于过滤描述所述用户标签的第二标签关键词集和包含用于负向描述所述用户标签的第三标签关键词集;
针对不同的标签关键词集,分别确定不同的所述标签关键词集中包含的标签关键词对应的特征概率;
建立确定的所述标签关键词与所述标签关键词对应的特征概率之间的映射关系,并将所述映射关系存储至所述用户标签的标签特征库中。
在本申请的另一个实施例中,所述配置单元51确定不同的所述标签关键词集中包含的标签关键词对应的特征概率,包括:
确定所述标签关键词在对应的所述标签关键词集中出现的第一文档频率,以及确定所述文标签关键词在所述历史用户行为数据中出现的第二文档频率;
根据所述第一文档频率和所述第二文档频率,确定所述标签关键词对应的特征概率。
在本申请的另一个实施例中,所述判断单元54根据计算得到的所述概率值,判断所述用户标签是否满足待挖掘的用户标签的条件,包括:
在计算得到的多个所述概率值中,若大于设定阈值的所述概率值的数量大于等于设定个数,则确定所述用户标签满足待挖掘的用户标签的条件;
若大于设定阈值的所述概率值的数量小于设定个数,则确定所述用户标签不满足待挖掘的用户标签的条件。
在本申请的另一个实施例中,所述用户标签确定设备还包括:调整单元55,其中:
所述调整单元55,在确定所述用户标签不满足待挖掘的用户标签的条件时,调整所述用户标签的标签规则以及更新所述用户标签的标签特征库。
在本申请的另一个实施例中,所述用户标签确定设备还包括:确定单元56,其中:
所述确定单元56,对于目标用户,确定所述目标用户产生的用户行为数据中包含的目标对象隶属于所述用户标签的概率值,以及确定所述目标用户产生所述用户行为数据的行为类别对应的行为权重;
根据所述概率值和所述行为权重,确定所述目标用户偏好所述用户标签的概率值。
需要说明的是,本申请实施例中所记载的用户标签确定设备可以通过硬件方式实现,也可以通过软件方式实现,这里不做具体限定。用户标签确定设备通过配置待挖掘用户标签的标签规则以及标签特征库,采集用户行为数据,并利用用户行为数据对配置的标签规则以及标签特征库进行测试,以确定配置的标签规则以及标签特征库是否满足用户标签的条件,实现用户标签的快速挖掘,有效提升标签的挖掘效率;同时还可以根据用户标签与目标对象的匹配关系,能够为不同用户配置较精准的用户标签,为后续业务推广奠定基础,提升响应业务需求的效率。
图6为本申请实施例提供的一种信息推送设备的结构示意图。所述信息推送设备包括:确定单元61和信息推送单元62,其中:
确定单元61,确定目标用户偏好用户标签的概率值,所述概率值通过上述实施例中所记载的用户标签确定方法得到;
信息推送单元62,在所述概率值大于设定阈值时,向所述目标用户推送与所述用户标签匹配的目标对象的业务信息。
需要说明的是,本申请实施例中所记载的信息推送设备可以通过硬件方式实现,也可以通过软件方式实现,这里不做具体限定。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。