CN107741986B - 用户行为预测及相应信息推荐方法和装置 - Google Patents

用户行为预测及相应信息推荐方法和装置 Download PDF

Info

Publication number
CN107741986B
CN107741986B CN201711011441.1A CN201711011441A CN107741986B CN 107741986 B CN107741986 B CN 107741986B CN 201711011441 A CN201711011441 A CN 201711011441A CN 107741986 B CN107741986 B CN 107741986B
Authority
CN
China
Prior art keywords
user
label
behavior
pair
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711011441.1A
Other languages
English (en)
Other versions
CN107741986A (zh
Inventor
潘岸腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN201711011441.1A priority Critical patent/CN107741986B/zh
Publication of CN107741986A publication Critical patent/CN107741986A/zh
Application granted granted Critical
Publication of CN107741986B publication Critical patent/CN107741986B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用户行为预测及相应信息推荐方法和装置。其中,基于基准用户群中各个用户的n个原始标签为该用户生成多层标签对,将基准用户群中的各个用户划分到该用户所具有的多层标签对中,以生成多层标签对分组,并基于目标用户所具有的多层标签对所对应的多层标签对分组中的用户行为,预测目标用户的用户行为,根据预测的结果可以向用户推荐相应的信息。由此,相比于现有技术中的预估算法,本发明的预测方案通过简单地引入多层标签对来实现对特征进行层层投递,从而能够在节省大量模型训练和机器资源的同时,提升实际运用的预测和推荐效果。

Description

用户行为预测及相应信息推荐方法和装置
技术领域
本发明涉及信息技术领域,特别是涉及一种用于预测用户行为并进行相应信息推荐的方法、装置、计算设备及存储介质。
背景技术
在信息类应用,例如新闻类、内容聚合类APP中,需要根据用户的行为属性,并基于特定算法进行分析,以便向用户推荐符合其浏览行为的相关信息,即对用户进行个性化推荐,个性化推荐核心技术是文章点击概率预估算法,目前常见的做法是使用协同过滤、矩阵分解、LR排序算法等。这些算法需要依据用户行为数据来训练模型。上述模型训练需要耗费大量的时间和机器资源,并且在数据不足的情况下无法进行。
鉴于现有技术的上述缺点,仍然需要一种更为简单有效的预测及推荐算法。
发明内容
本发明的一个目的在于提出一种简单有效的预测方案,其通过多层标签的设置提升预估准确率。相比于现有技术中的预估算法,本发明的预测方案能够在节省大量模型训练和机器资源的同时,提升实际运用的预测和推荐效果。
根据本发明的一个方面,提供了一种用户行为预测方法,包括:基于基准用户群中各个用户的n个原始标签为该用户生成多层标签对,其中,每个用户的多层标签对是该用户的所述n个原始标签集合的全部或部分非空子集,并且n是不小于2的整数;将所述基准用户群中的各个用户划分到该用户所具有的多层标签对中,以生成多层标签对分组;以及基于目标用户所具有的多层标签对所对应的多层标签对分组中的用户行为,预测所述目标用户的用户行为。
通过多层标签对的设置,将对应特征层层投射至目标用户,由此能够以相对简单且灵活的计算实现有效的用户行为预测。
在具体应用中,可以灵活选取基准用户群,其可以是全体用户群,也可以是实验用户群,并且目标用户也可根据需要包括或者不包括在其中。
优选地,原始标签可以基于用户的注册信息、在前行为和/或其使用的终端信息得出,由此从不同的维度来对用户进行灵活描述。
优选地,针对某一用户的多层标签对可以如下生成:将所述n个原始标签的集合设为T,求取T自身的笛卡尔积T*T,去除标签自身与自身的标签对,已得到经求取的标签对;对所述经求取的标签对集合重复上述求取过程,直到没有新标签对产生为止;将所述原始标签以及所有经求取的标签对作为所述用户的多层标签对。由此能够通过简单的迭代计算实现对多层标签对的方便获取。
所述方法还也可以滤除支持率不足的标签对。优选地,所述预测方法还包括:统计所述多层标签对在所述基准用户群中的出现概率;滤除出现概率小于阈值的多层标签对及其多层标签对分组,并且所述基于目标用户所具有的多层标签对所对应的多层标签对分组中的用户行为,预测所述目标用户的用户行为包括:基于目标用户所具有的经过滤的多层标签对所对应的多层标签对分组中的用户行为,预测所述目标用户的用户行为。由此,确保用于预测的标签对是在数量统计中已达到稳定可靠的值的标签对。
优选地,可以通过求取所对应的多层标签对分组中的每个分组中的所述用户行为出现的行为概率,并且基于所述每个分组的行为概率,来预测目标用户进行所述用户行为的概率。更优选地,可以直接使用该目标用户所具有的每个多层标签对所对应的每个分组的行为概率的均值来作为用户进行相应用户行为的概率。由此,能够以极小的计算量实现对用户行为的准确预测,从而提升系统效率。
根据本发明的另一个发明,还提供了一种信息推荐方法,该方法根据上述预测方法预测目标用户的用户行为,并根据所述预测的结果,向所述目标用户推荐信息。由此,能够经由准确的行为预测来提升信息推荐的点击率,从而提升用户的使用友好度。
根据本发明的另一个方面,还提供了一种用户行为预测装置,包括:
多层标签对生成单元,用于基于基准用户群中各个用户的n个原始标签为该用户生成多层标签对,其中,每个用户的多层标签对是该用户的所述n个原始标签集合的全部或部分非空子集,并且n是不小于2的整数;多层标签对分组生成单元,用于将所述基准用户群中的各个用户划分到该用户所具有的多层标签对中,以生成多层标签对分组;以及预测单元,用于基于目标用户所具有的多层标签对所对应的多层标签对分组中的用户行为,预测所述目标用户的用户行为。
优选地,所述基准用户群是全体用户群或实验用户群,并且所述基准用户群包括所述目标用户或者不包括所述目标用户。
优选地,所述多层标签对生成单元将所述n个原始标签的集合设为T,求取T自身的笛卡尔积T*T,去除标签自身与自身的标签对,以得到经求取的标签对,对所述经求取的标签对集合重复上述求取过程,直到没有新标签对产生为止,所述原始标签以及所有经求取的标签对即为所述用户的多层标签对。
优选地,该预测装置还可以包括:统计单元,用于统计所述多层标签对在所述基准用户群中的出现次数或概率;滤除单元,用于滤除出现次数或概率小于阈值的多层标签对及其多层标签对分组,并且,所述预测单元基于目标用户所具有的经过滤的多层标签对所对应的多层标签对分组中的用户行为,预测所述目标用户的用户行为。
优选地,所述预测单元求取所述每个分组的行为概率的平均概率作为所述目标用户进行所述用户行为的概率
根据本发明的另一个方面,还提供了一种信息推荐装置,包括:上文述及的预测装置,用于预测目标用户的用户行为;以及信息推荐单元,用于根据所述预测的结果,向所述目标用户推荐信息。
根据本发明的另一个方面,还提供了一种计算设备,包括:处理器;以及存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行上文述及的方法。
根据本发明的另一个方面,还提供了一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行上文述及的方法。
本发明的用户行为预测及相应信息推荐方法和装置,通过多层标签对的设置,将对应特征层层投射至目标用户,由此能够以相对简单且灵活的计算实现有效的用户行为预测。并且,通过多层标签对的恰当选取,还可以将推荐信息精准地投射到具有对应特征层的用户中。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1是示出了根据本发明一实施例的用户行为预测方法的示意性流程图。
图2是示出了根据本发明一实施例的用户行为预测装置的结构的示意性方框图。
图3是示出了根据本发明一实施例的信息推荐装置的结构的示意性方框图。
图4是示出了根据本发明一实施例的计算设备的结构的示意性方框图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
如背景技术部分所述,在信息类应用,例如新闻类、内容聚合类APP中,经常需要根据用户的行为属性信息对用户进行个性化推荐,以向用户推荐符合其浏览行为的信息,提高用户的满意度。而目前在利用协同过滤、矩阵分解、LR排序等算法实现个性化推荐时,一是实现过程较为繁琐,需要耗费大量的时间和机器资源,二是实现过程需要使用大量的用户行为数据,在数据不足的情况下无法进行预测,或者预测得到的推荐信息不准确。
有鉴于此,本发明提出,在利用大规模用户的用户行为数据对目标用户进行预测或推荐时,可以挖掘其中各个用户的能够体现其在不同维度下的特征的多个标签,并将各个用户划分到该用户具有的各个标签中,由此可以将各个用户的单条用户行为归类到该用户具有的各个标签下,从而可以在一定程度上实现对用户行为数据的扩充。
进一步地,每个标签可以视为一个特征维度,单个用户的单条用户行为可以视为是该用户具有的这多个特征维度下的共同作用结果,因此将用户划分到其具有的各个标签中时,还可以得到用户行为在用户的各个特征维度下的分布。
对于待预测的目标用户,也可以挖掘用于表征其特征维度的标签。由此,经过上述处理后的大规模用户的用户行为数据为投射到用于表征不同特征维度的标签下的用户行为,待预测的目标用户也可以视为由投射到不同特征维度的标签下的“子用户”构成。
子用户可以视为目标用户在不同特征维度下的分布,目标用户的最终用户行为可以视为其各个子用户的综合作用结果。因此,在利用大规模用户的用户行为数据对目标用户进行行为预测时,可以对不同子用户进行行为预测,根据总的预测结果对目标用户进行最终预测。
由此,本发明可以利用专家打分的概念,将待预测的目标用户划分到其具有的各个标签下,每个标签可以视为一个专家,通过对各个标签下的用户行为进行预测,并根据各个标签的预测结果得到目标用户的最终用户行为。如此可以根据最终的预测结果,向用户推荐相应的信息。
例如,对于目标用户u,在预测目标用户u是否会点击推荐文章A这一用户行为时,可以将目标用户u划分到其具有的各个标签如q1、q2、q3下,将每个标签(q1、q2、q3)视为一个专家,可以通过求取大规模用户数据中与用户u的每个标签对应的用户行为数据中点击推荐文章A这一用户行为的点击概率,得到每个标签下的点击概率得分,根据所有标签的得分情况,可以预测用户u最终点击推荐文章A这一用户行为的概率。
需要说明的是,上文提及的标签可以包括用于表征用户在单个维度特征下的单层标签,也可以包括用于表征用户在多层特征维度下的多层标签(即标签对)。例如,用于表征用户A的单维度特征的单层标签可以是“男性”、“学生”、“二次元爱好者”等标签,用于表征用户A的多层特征维度下的标签对可以是对多个(至少两个)单层标签取交集得到的,例如,可以是对“男性”、“学生”、“二次元爱好者”这三个单层标签取交集得到的“男性&学生”、“男性&二次元爱好者”、“学生&二次元爱好者”、“男性&学生&二次元爱好者”等标签对。
综上,本发明提出了一种更为简单有效的预测及推荐方案。利用本发明对用户行为进行预测或者向用户推荐信息时,一是实现过程简单有效,无需使用复杂的算法即可实现有效预测或推荐,二是实现过程对数据量要求不高,在数据量有限的情况下,利用本发明也可以实现精准的推荐。
至此就本发明的实现机理做了简要说明,下面结合具体实施例就本发明的具体实现过程做进一步详细说明。
图1是示出了根据本发明一实施例的用户行为的预测方法的示意性流程图。其中,图1所示的方法可以应用于多种信息类应用,即图1所示的方法的执行方可以为提供信息类应用服务的一方。
参见图1,在步骤S110,基于基准用户群中各个用户的n个原始标签为该用户生成多层标签对。
此处述及的基准用户群是指对目标用户的用户行为进行预测时使用的用户群,该用户群可以是方法的执行主体所能接触到的全体用户群,也可以全体用户群中选取的部分专门用于进行预测建模用的实验用户群。并且,基准用户群可以包括或者不包括后续用于进行预测的目标用户。
基准用户群中用户的原始标签可以是预先通过多种渠道获取的。本发明述及的用户的原始标签可以是指能够表征用户在某一特征维度下的用户特性的标签。在本发明中,选取的原始标签优选地为能够以更为准确的维度对用户特性进行描述的标签。
作为本发明的一个可选实施例,可以根据用户的注册信息、在前行为、终端信息等信息中的一项或多项获取用户的原始标签。例如,可以根据用户A的注册信息中所填写的性别、职业等信息,获取“男性”、“学生”等标签作为用户A的原始标签。再例如,在用户A浏览了网络游戏相关的资讯时,可以将“网络游戏用户”作为用户A的原始标签,在用户A浏览了二次元相关的资讯时,可以将“二次元用户”作为用户A的原始标签。还例如,也可以根据用户授权的终端(如手机)信息,获取用户的原始标签,如可以根据用户授权的手机地理位置信息给用户打上地域标签,如“广州用户”或是“一线城市用户”,也可以根据用户授权的手机型号,给用户打上手机类型标签,如“千元机”、“高端机”、“安卓机”、“苹果机”等标签。另外,还可以有其它多种挖掘用户的原始标签的方式,此处不再赘述。通过对原始标签的合理选择,能够更准确地确定信息投递所需考虑的维度。
每个用户的多层标签对是该用户的n个原始标签集合的全部或部分非空子集,并且n是不小于2的整数。作为本发明的一个示例,可以通过如下方式求取每个用户的多层标签对。
针对每个用户的n个原始标签,可以通过将所述n个原始标签的集合设为T,求取T自身的笛卡尔积T*T,去除标签自身与自身的标签对,以得到经求取的标签对。并对经求取的标签对集合重复上述求取过程,直到没有新标签对产生为止,然后将原始标签以及所有经求取的标签对作为用户的多层标签对。
例如,假设原始标签为3个,分别是“男性”、“学生”、“军事迷”,则集合T为{男性,学生,军事迷},对T自身做笛卡尔积,并去除标签自身与自身的标签对后,可以得到“男性&学生”、“男性&军事迷”、“学生&军事迷”这三个标签对。求取得到的标签对集合为{男性&学生,男性&军事迷,学生&军事迷},对该标签对集合自身再次做笛卡尔积,并去除标签自身与自身的标签对后,可以得到“男性&学生&军事迷”这一唯一新的标签对,至此没有新的标签对。最终得到多层标签对包括“男性”、“学生”、“军事迷”、“男性&学生”、“男性&军事迷”、“学生&军事迷”、“男性&学生&军事迷”这7个标签和标签对。
可以看出,在本发明中,用户的n个原始标签可以优选地为n个独立特征维度下的标签,即单层标签,而基于用户的n个原始标签求取得到的新的标签对,可以视为这n个原始标签在所有可能的多层特征维度下的投射。多层标签对包括用户的原始标签以及多个(至少两个)原始标签求取交集得到的标签对。其中,多层标签对中的每个标签或标签对可以视为用户的一个特征维度,不同的标签或标签对可以视为用户在不同层次下的特征维度。
在步骤S120,将基准用户群中的各个用户划分到该用户所具有的多层标签对中,以生成多层标签对分组。
在步骤S130,基于目标用户所具有的多层标签对所对应的多层标签对分组中的用户行为,预测目标用户的用户行为。
目标用户为待预测的用户,目标用户所具有的多层标签对也可以是利用本发明上述方式获取的。如上所述,基于具体实现,目标用户可以属于也可以不属于上述基准用户群。
在对目标用户的用户行为进行预测时,可以认为目标用户具有的多层标签对中的每个标签或标签对,都对该用户行为具有一定的影响。而这些标签或标签对的数据表征,则可从步骤S110和S120中基于基准用户群构建的多层标签对分组来获取。
因此,可以利用专家打分的思想,将目标用户具有的多层标签对中至少部分标签或标签对中每个标签或标签对所对应的分组视为一个专家,求取每个专家对用户行为的打分情况(即,该分组内的用户行为情况),根据所有专家的打分情况预测目标用户的用户行为。
作为本发明的一个可选实施例,可以求取所对应的多层标签对分组中的每个分组中的用户行为出现的行为概率,基于每个分组的行为概率,预测目标用户进行用户行为的概率。
例如,可以将目标用户具有的多层标签对中的每个标签或标签对视为一个专家,求取与多层标签对对应的多层标签对分组中每个分组的行为概率,对所有的概率求取一个均值,用该均值作为最终的评判。即可以求取每个分组的行为概率的平均概率作为目标用户进行用户行为的概率。量化表达式为,
Figure BDA0001445538300000081
其中,pctru,A表示预测目标用户u的用户行为A的概率,ctri,A表示目标用户u的多层标签对中的标签i下对用户行为A的行为概率,tagu表示用户u的多层标签对。
ctri,A可以通过求取基准用户群中标签i下执行用户行为A的概率得到。以用户行为A为展示文章A为例,可以通过下式求取ctri,A
Figure BDA0001445538300000091
其中,showi,A表示基准用户群中所有拥有标签i的用户中,曝光文章A的用户数量,clicki,A表示基准用户群中所有拥有标签i的用户中,点击过文章A的用户数量。
上文示出的直接求取均值的实现方法有助于简化海量标签(亿级特征)下的计算,而专家打分法有其他周知的实现形式。因此,在基于每个分组的行为概率,预测目标用户进行用户行为的概率时,还可以对不同的标签分配相应的权重,通过对多个分组的行为概率进行加权求和取平均的方式,得到目标用户进行用户行为的概率,具体量化表达式此处不再赘述。当然,在不脱离本发明的技术构思内,还可以有其它多种计算方式,此处不再赘述。
上例中示出了根据基准用户群中用户点击文章A的行为来预测目标用户点击文章A的概率。在其他实施例中,步骤S130中的用户行为可以是更加笼统的用户行为。例如,根据基准用户群中具有相应标签的用户对某类推送的操作,来预测目标用户对该类推送或是该类推送下特定信息的操作概率等等。
另外,在执行步骤S120,生成多层标签对分组时,还可以滤除多层标签对中出现次数/概率较小的稀疏标签或标签对。即可以将基准用户群中多层标签对中出现次数较少或出现概率较小的标签或标签对滤除。上述滤除可以是在生成所有的多层标签对之后,根据标签对分组的生成情况再加以滤除;也可以是逐层生成标签对,生成对应分组,根据分组情况滤除小概率的标签对,再进行下一次的标签对和分组的生成及滤除。后一种方式因为能够减少不必要的计算(因为子集的出现概率一定会更小)而是优选的。作为本发明的一个示例,可以统计多层标签对在基准用户群中的出现次数或概率,滤除出现次数或概率小于阈值的多层标签对及其多层标签对分组。
例如,可以设置标签对的最小支持度θ,θ可以表示标签对出现的概率,θ的具体值可以根据数据的稀疏程度设置,在实际场景中一般可以设置为1%。假设基准用户群总数为100万,同时拥有“男性”和“学生”两个标签的用户属性为10万人,则“男性&学生”这一标签对的支持度为10/100=0.1>θ,如此“男性&学生”就是一个可选的标签对。而倘若同时拥有“男性”、“学生”和“音乐游戏”三个标签的用户属性为5000人,这一标签的支持度0.005<θ,如此“男性&学生&音乐游戏”就不是一个可选标签对。这时,也可以直接确定其下层标签对“男性&学生&音乐游戏&高端机”不是一个可选标签对了。
在这里,满足最小支持度θ条件的标签对可以视为频繁标签对,不满足条件的标签对可以认为是稀疏标签对,通过对稀疏标签对进行滤除,可以保证得到的多层标签对在数量统计中的稳定性。
最后需要着重说明的是,本发明通过多层标签对的划分,可以将基准用户群中的用户层层划分到其具有的各个层次维度下的标签中,如此在对目标用户进行预测时,可以通过预估的准确率。
例如,假设文章A是针对“男性&学生&网络游戏”这三个交叉维度下的用户群撰写的,同时拥有多层标签对“男性”、“学生”、“网络游戏”、“男性&学生”、“男性&网络游戏”、“学生&网络游戏”和“男性&学生&网络游戏”的目标用户通过相应分组内用户行为的叠加效应就能被预测对文章A的点击概率较高。
在目标用户C的原始标签为“女性”、“学生”、“网络游戏”时,很明显,在利用本发明的预测方式对目标用户C点击文章A这一用户行为进行预测时,得到的行为概率较低,不会向其推荐文章A。换言之,通过多层标签对的划分,可以准确地将这篇文章A定投到“男性&学生&网络游戏”这类用户中。
至此,结合图1详细描述了本发明的用户行为预测方法。在其中,步骤S110和S120可以看做是基于基准用户群的预测模型建立阶段,步骤S130则是针对具体用户的模型使用阶段。
本发明还提出了一种信息推荐方法,本发明信息推荐方法可以利用上文述及的用户行为方法对目标用户的行为进行预测,根据预测的结果,向目标用户推荐信息。其中,此处述及的向目标用户推荐信息可以是向目标用户推荐与预测的用户行为对应的信息,也可以是不向目标用户推荐信息。例如,在要预测的用户行为是点击文章A,预测结果为目标用户点击文章A的概率较低的情况下,可以不向目标用户推荐文章A,即不向用户推荐信息,在预测结果为目标用户点击文章A的概率较高的情况下,可以向目标用户推荐文章A,即向目标用户推荐与预测的用户行为相应的信息。
本发明的用户行为预测方法还可以实现为一种用户行为预测装置。图2是示出了根据本发明一实施例的用户行为预测装置的结构的示意性方框图。其中,装置中的各功能模块可以由实现本发明原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是,图2所描述的功能模块可以组合起来或者划分成子模块,从而实现上述发明的原理。因此,本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。下面仅就装置可以具有的功能模块以及各功能模块可以执行的操作做简要说明,对于其中涉及的细节部分可以参见上文描述,这里不再赘述。
参见图2,用户行为预测装置200包括多层标签对生成单元210、多层标签对分组生成单元220以及预测单元230。
多层标签对生成单元210用于基于基准用户群中各个用户的n个原始标签为该用户生成多层标签对,其中,每个用户的多层标签对是该用户的n个原始标签集合的全部或部分非空子集,并且n是不小于2的整数。
多层标签对分组生成单元220用于将基准用户群中的各个用户划分到该用户所具有的多层标签对中,以生成多层标签对分组。
作为本发明的一个可选实施例,多层标签对生成单元220可以将n个原始标签的集合设为T,求取T自身的笛卡尔积T*T,去除标签自身与自身的标签对,以得到经求取的标签对,对经求取的标签对集合重复上述求取过程,直到没有新标签对产生为止,原始标签以及所有经求取的标签对即为用户的多层标签对。
预测单元230用于基于目标用户所具有的多层标签对所对应的多层标签对分组中的用户行为,预测目标用户的用户行为。
如图2所示,用户行为预测装置还可以可选地包括图中虚线框所示的统计单元240和滤除单元250。
统计单元240用于统计多层标签对在基准用户群中的出现次数或概率。
滤除单元250用于滤除出现次数或概率小于阈值的多层标签对及其多层标签对分组。
预测单元230可以基于目标用户所具有的经过滤的多层标签对所对应的多层标签对分组中的用户行为,预测目标用户的用户行为。
可选地,预测单元240可以求取每个分组的行为概率的平均概率作为目标用户进行用户行为的概率
图3是示出了根据本发明一实施例的信息推荐装置的结构的示意性方框图。
参见图3,信息推荐装置300可以包括用户行为预测装置200和信息推荐单元310。其中,关于用户行为预测装置200的结构及相关工作原理可以参见图2,此处不再赘述。
可以使用用户行为预测装置200预测目标用户的用户行为,并由信息推荐单元310根据预测的结果,向目标用户推荐信息。其中,此处述及的向目标用户推荐信息可以是向目标用户推荐与预测的用户行为对应的信息,也可以是不向目标用户推荐信息。例如,在要预测的用户行为是点击文章A,预测结果为目标用户点击文章A的概率较低的情况下,可以不向目标用户推荐文章A,即不向用户推荐信息,在预测结果为目标用户点击文章A的概率较高的情况下,可以向目标用户推荐文章A,即向目标用户推荐与预测的用户行为相应的信息。
图4是示出了根据本发明一个实施例的计算设备400的结构的示意性方框图。其中,计算设备400可以是可以实施为各种类型的计算装置,例如台式机、便携式计算机、平板电脑、智能手机、个人数据助理(PDA),或者其他类型的计算机装置,但是不限于任何特定形式。
如图4所示,本发明的计算设备400可以包括处理器410以及存储器420。处理器410可以是一个多核的处理器,也可以包含多个处理器。在一些实施例中,处理器410可以包含一个通用的主处理器以及一个或多个特殊的协处理器,例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中,处理器510可以使用定制的电路实现,例如特定用途集成电路(application specific integrated circuit,ASIC)或者现场可编程逻辑门阵列(field programmable gate arrays,FPGA)。
存储器420可以包括各种类型的存储单元,例如系统内存、只读存储器(ROM),和永久存储装置。其中,ROM可以存储处理器310或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器320可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器120可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
在本发明实施例中,存储器420上存储有可执行代码,处理器410可以执行存储在存储器420上的可执行代码。当可执行代码被处理器410执行时,可以使处理器410执行本发明的用户行为预测及推荐方法。其中,存储器420上除了存储可执行代码,还可以存储处理器410在执行本发明的方案过程中所需的部分或所有数据。
上文中已经参考附图详细描述了根据本发明的用户行为预测方法、装置及计算设备。
此外,根据本发明的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。
或者,本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时,使所述处理器执行根据本发明的上述方法的各个步骤。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (16)

1.一种用户行为预测方法,包括:
基于基准用户群中各个用户的n个原始标签为该用户生成多层标签对,其中,每个用户的多层标签对是该用户的所述n个原始标签集合的全部非空子集,并且n是不小于2的整数;
将所述基准用户群中的各个用户划分到该用户所具有的多层标签对中,以生成多层标签对分组;以及
基于目标用户所具有的多层标签对所对应的多层标签对分组中的用户行为,预测所述目标用户的用户行为,并且所述预测包括:
将目标用户具有的经滤除的多层标签对中每个标签对所对应的分组视为一个专家,求取每个专家对组内用户行为的打分情况,根据所有专家的打分情况预测目标用户的用户行为。
2.如权利要求1所述的方法,其中,所述基准用户群是全体用户群或实验用户群,并且所述基准用户群包括所述目标用户或者不包括所述目标用户。
3.如权利要求1所述的方法,其中,所述原始标签的得出基于如下的一项或多项:
用户的注册信息;
用户的在前行为;以及
用户的终端信息。
4.如权利要求1所述的方法,其中,所述基于基准用户群中各个用户的n个原始标签为该用户生成多层标签对包括:
将所述n个原始标签的集合设为T,求取T自身的笛卡尔积T*T,去除标签自身与自身的标签对,以得到经求取的标签对;
对所述经求取的标签对集合重复上述求取过程,直到没有新标签对产生为止;
将所述原始标签以及所有经求取的标签对作为所述用户的多层标签对。
5.如权利要求1所述的方法,还包括:
统计所述多层标签对在所述基准用户群中的出现次数或概率;
滤除出现次数或概率小于阈值的多层标签对及其多层标签对分组,并且
所述基于目标用户所具有的多层标签对所对应的多层标签对分组中的用户行为,预测所述目标用户的用户行为包括:
基于目标用户所具有的经过滤的多层标签对所对应的多层标签对分组中的用户行为,预测所述目标用户的用户行为。
6.如权利要求1所述的方法,其中,所述基于目标用户所具有的多层标签对所对应的多层标签对分组中的用户行为,预测所述目标用户的用户行为包括:
求取所对应的多层标签对分组中的每个分组中的所述用户行为出现的行为概率;
基于所述每个分组的行为概率,预测所述目标用户进行所述用户行为的概率。
7.如权利要求6所述的方法,其中,基于所述每个分组的行为概率,预测所述目标用户进行所述用户行为的行为概率包括:
求取所述每个分组的行为概率的平均概率作为所述目标用户进行所述用户行为的概率。
8.一种信息推荐方法,包括:
根据如权利要求1-7中任一项所述的方法预测目标用户的用户行为;以及
根据所述预测的结果,向所述目标用户推荐信息。
9.一种用户行为预测装置,包括:
多层标签对生成单元,用于基于基准用户群中各个用户的n个原始标签为该用户生成多层标签对,其中,每个用户的多层标签对是该用户的所述n个原始标签集合的全部非空子集,并且n是不小于2的整数;
多层标签对分组生成单元,用于将所述基准用户群中的各个用户划分到该用户所具有的多层标签对中,以生成多层标签对分组;以及
预测单元,用于基于目标用户所具有的多层标签对所对应的多层标签对分组中的用户行为,预测所述目标用户的用户行为,并且所述预测包括:
将目标用户具有的经滤除的多层标签对中每个标签对所对应的分组视为一个专家,求取每个专家对组内用户行为的打分情况,根据所有专家的打分情况预测目标用户的用户行为。
10.根据权利要求9所述的装置,其中,所述基准用户群是全体用户群或实验用户群,并且所述基准用户群包括所述目标用户或者不包括所述目标用户。
11.根据权利要求9所述的装置,其中,所述多层标签对生成单元将所述n个原始标签的集合设为T,求取T自身的笛卡尔积T*T,去除标签自身与自身的标签对,以得到经求取的标签对,对所述经求取的标签对集合重复上述求取过程,直到没有新标签对产生为止,所述原始标签以及所有经求取的标签对即为所述用户的多层标签对。
12.根据权利要求9所述的装置,还包括:
统计单元,用于统计所述多层标签对在所述基准用户群中的出现次数或概率;
滤除单元,用于滤除出现次数或概率小于阈值的多层标签对及其多层标签对分组,并且,
所述预测单元基于目标用户所具有的经过滤的多层标签对所对应的多层标签对分组中的用户行为,预测所述目标用户的用户行为。
13.根据权利要求12所述的装置,其中,
所述预测单元求取所对应的多层标签对分组中的每个分组中的所述用户行为出现的行为概率的平均概率作为所述目标用户进行所述用户行为的概率。
14.一种信息推荐装置,包括:
根据权利要求9-13中任一项所述的用户行为预测装置,用于预测目标用户的用户行为;以及
信息推荐单元,用于根据所述预测的结果,向所述目标用户推荐信息。
15.一种计算设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1-8中任一项所述的方法。
16.一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1-8中任一项所述的方法。
CN201711011441.1A 2017-10-25 2017-10-25 用户行为预测及相应信息推荐方法和装置 Active CN107741986B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711011441.1A CN107741986B (zh) 2017-10-25 2017-10-25 用户行为预测及相应信息推荐方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711011441.1A CN107741986B (zh) 2017-10-25 2017-10-25 用户行为预测及相应信息推荐方法和装置

Publications (2)

Publication Number Publication Date
CN107741986A CN107741986A (zh) 2018-02-27
CN107741986B true CN107741986B (zh) 2021-12-24

Family

ID=61237119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711011441.1A Active CN107741986B (zh) 2017-10-25 2017-10-25 用户行为预测及相应信息推荐方法和装置

Country Status (1)

Country Link
CN (1) CN107741986B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117889A (zh) * 2018-08-23 2019-01-01 北京小米智能科技有限公司 标签预测方法及装置
CN110377521B (zh) * 2019-07-23 2022-11-18 郑州阿帕斯科技有限公司 一种目标对象验证方法及装置
CN110795465B (zh) * 2019-09-16 2023-07-07 腾讯科技(深圳)有限公司 用户规模预估方法、装置、服务器及存储介质
US20210110926A1 (en) * 2019-10-15 2021-04-15 The Chinese University Of Hong Kong Prediction models incorporating stratification of data
CN113177801A (zh) * 2020-03-04 2021-07-27 阿里巴巴集团控股有限公司 一种信息处理方法、装置、电子设备以及存储介质
CN111709766B (zh) * 2020-04-14 2023-08-18 中国农业银行股份有限公司 一种用户行为预测方法、装置、存储介质及电子设备
CN112579910A (zh) * 2020-12-28 2021-03-30 北京嘀嘀无限科技发展有限公司 信息处理方法、信息处理装置、存储介质和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105323601A (zh) * 2014-07-18 2016-02-10 上海星红桉数据科技有限公司 基于多屏用户行为数据的人员属性标识方法
CN106886948A (zh) * 2017-03-09 2017-06-23 深圳市华第时代科技有限公司 社交用户分类方法及客户端
CN107038213A (zh) * 2017-02-28 2017-08-11 华为技术有限公司 一种视频推荐的方法及装置
CN107103057A (zh) * 2017-04-13 2017-08-29 腾讯科技(深圳)有限公司 一种资源推送方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8019766B2 (en) * 2007-03-30 2011-09-13 Amazon Technologies, Inc. Processes for calculating item distances and performing item clustering
CN104462383B (zh) * 2014-12-10 2017-11-21 山东科技大学 一种基于用户多种行为反馈的电影推荐方法
CN106600302A (zh) * 2015-10-19 2017-04-26 玺阅信息科技(上海)有限公司 基于Hadoop的商品推荐系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105323601A (zh) * 2014-07-18 2016-02-10 上海星红桉数据科技有限公司 基于多屏用户行为数据的人员属性标识方法
CN107038213A (zh) * 2017-02-28 2017-08-11 华为技术有限公司 一种视频推荐的方法及装置
CN106886948A (zh) * 2017-03-09 2017-06-23 深圳市华第时代科技有限公司 社交用户分类方法及客户端
CN107103057A (zh) * 2017-04-13 2017-08-29 腾讯科技(深圳)有限公司 一种资源推送方法及装置

Also Published As

Publication number Publication date
CN107741986A (zh) 2018-02-27

Similar Documents

Publication Publication Date Title
CN107741986B (zh) 用户行为预测及相应信息推荐方法和装置
CN109145934B (zh) 基于日志的用户行为数据处理方法、介质、设备及装置
Pei et al. Efficient collective influence maximization in cascading processes with first-order transitions
CN110647512B (zh) 一种数据存储和分析方法、装置、设备和可读介质
CN107276843B (zh) 一种基于Spark平台的多目标进化社区检测方法
CN104199836B (zh) 一种基于子兴趣划分的标注用户模型建构方法
CN111078742B (zh) 用户分类模型训练方法、用户分类方法及装置
WO2019119635A1 (zh) 种子用户拓展方法、电子设备及计算机可读存储介质
CN109214671B (zh) 人员分组方法、装置、电子装置及计算机可读存储介质
CN113837635A (zh) 风险检测处理方法、装置及设备
CN115795000A (zh) 基于联合相似度算法对比的围标识别方法和装置
Hu et al. Predicting key events in the popularity evolution of online information
CN110929172A (zh) 信息选择方法、装置、电子设备及可读存储介质
CN107391533A (zh) 生成图形数据库查询结果的方法及装置
CN111667018B (zh) 一种对象聚类的方法、装置、计算机可读介质及电子设备
CN111882349B (zh) 一种数据处理方法、装置及存储介质
Yu et al. Fair multi-influence maximization in competitive social networks
Díaz‐Pachón et al. Mode hunting through active information
CN116663505A (zh) 一种基于互联网的评论区管理方法及系统
Phuvipadawat et al. Detecting a multi-level content similarity from microblogs based on community structures and named entities
CN107656927A (zh) 一种特征选择方法及设备
US11709798B2 (en) Hash suppression
CN115186188A (zh) 基于行为分析的产品推荐方法、装置、设备及存储介质
JP2021522605A (ja) 高速化された大規模な類似度計算
CN109299112B (zh) 用于处理数据的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200907

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant after: Alibaba (China) Co.,Ltd.

Address before: 510627 Guangdong city of Guangzhou province Whampoa Tianhe District Road No. 163 Xiping Yun Lu Yun Ping square B radio tower 15 layer self unit 02

Applicant before: GUANGZHOU UC NETWORK TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant