CN112749330B - 信息推送方法、装置、计算机设备和存储介质 - Google Patents
信息推送方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN112749330B CN112749330B CN202010506307.4A CN202010506307A CN112749330B CN 112749330 B CN112749330 B CN 112749330B CN 202010506307 A CN202010506307 A CN 202010506307A CN 112749330 B CN112749330 B CN 112749330B
- Authority
- CN
- China
- Prior art keywords
- information
- candidate
- feature
- history
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000000875 corresponding effect Effects 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 14
- 230000001960 triggered effect Effects 0.000 claims description 10
- 230000002596 correlated effect Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 238000013473 artificial intelligence Methods 0.000 abstract description 11
- 238000005516 engineering process Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 13
- 238000000605 extraction Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000007477 logistic regression Methods 0.000 description 3
- 101100261006 Salmonella typhi topB gene Proteins 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 235000012054 meals Nutrition 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 101150032437 top-3 gene Proteins 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000009182 swimming Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Abstract
本申请涉及一种信息推送方法、装置、计算机设备和存储介质。所述方法包括:获取距离当前时刻最近的预设点击数量的历史信息,以及获取各个历史信息的历史特征;获取至少两个候选信息,以及获取各个候选信息的候选特征;针对每一个候选信息,将历史特征和候选特征进行交叉,生成目标特征;针对每一个候选信息,基于目标特征,采用人工智能对候选信息进行点击率预估,得到候选信息的点击率预估值;基于各个候选信息的点击率预估值,从各个候选信息中确定目标信息,将目标信息推送给用户标识所在终端。采用本方法能够提高信息推送的准确度。
Description
技术领域
本申请涉及信息处理技术领域,特别是涉及一种信息推送方法、装置、计算机设备和存储介质。
背景技术
随着信息技术的日益发展,信息推送已经成为目前网络技术应用的一项重要内容。例如,在用户观看视频时推送用户可能感兴趣的视频,在用户浏览新闻时推送可能感兴趣的内容等等。
传统的信息推送技术中,通常是基于新闻特征、用户信息、环境特征这3大类特征,倾向于向用户推送历史上点击比较多的视频、新闻等。
然而,目前的信息推送方法,存在信息推送不准确的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高准确度的信息推送方法、装置、计算机设备和存储介质。
一种信息推送方法,所述方法包括:
获取距离当前时刻最近的预设点击数量的历史信息,以及获取各个所述历史信息的历史特征;
获取至少两个候选信息,以及获取各个所述候选信息的候选特征;
针对每一个所述候选信息,将所述历史特征和所述候选特征进行交叉,生成目标特征;
针对每一个所述候选信息,基于所述目标特征,对所述候选信息进行点击率预估,得到所述候选信息的点击率预估值;
基于各个所述候选信息的点击率预估值,确定目标候选信息,将所述目标候选信息推送给用户标识所在终端。
一种信息推送装置,所述装置包括:
历史特征获取模块,用于获取距离当前时刻最近的预设点击数量的历史信息,以及获取各个所述历史信息的历史特征;
候选特征获取模块,用于获取至少两个候选信息,以及获取各个所述候选信息的候选特征;
交叉模块,用于针对每一个所述候选信息,将所述历史特征和所述候选特征进行交叉,生成目标特征;
点击率预估值获取模块,用于针对每一个所述候选信息,基于所述目标特征,对所述候选信息进行点击率预估,得到所述候选信息的点击率预估值;
推送模块,用于基于各个所述候选信息的点击率预估值,确定目标候选信息,将所述目标候选信息推送给用户标识所在终端。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
上述信息推送方法、装置、计算机设备和存储介质,历史特征表示距离当前时刻最近的被用户点击的历史信息的特征,即用户短期内所点击的历史信息的特征;而将历史特征和候选特征进行交叉,生成目标特征,目标特征中包含了用户短期内的历史信息的特征;基于目标特征,对候选信息进行点击率预估,得到候选信息的点击率预估值,该点击率预估值可以更准确地体现用户短期内所感兴趣的特征,从而基于各个候选信息的点击率预估值,可以将用户短期内所感兴趣的目标信息推送给用户标识所在终端,确定的目标信息更符合用户短期内所感兴趣的特征,提高了信息推送的准确度。
附图说明
图1为一个实施例中信息推送方法的应用环境图;
图2为一个实施例中信息推送方法的流程示意图;
图3为一个实施例中一拖三视频的示意图;
图4为一个实施例中推荐系统的架构图;
图5a为一个实施例中用户操作数据的统计图;
图5b为另一个实施例中用户操作数据的统计图;
图6a为一个实施例中采用本申请的信息推送与传统方法的信息推送的效果对比图;
图6b为另一个实施例中采用本申请的信息推送与传统方法的信息推送的效果对比图;
图6c为另一个实施例中采用本申请的信息推送与传统方法的信息推送的效果对比图;
图7为一个实施例中历史特征与候选特征进行交叉步骤的流程示意图;
图8为一个实施例中目标特征的示意图;
图9为一个实施例中对候选信息进行排序的架构图;
图10为一个实施例中模型训练的架构图;
图11为一个实施例中信息推送装置的结构框图;
图12为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的信息推送方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。用户点击终端102中的信息,该信息即为历史信息,服务器104获取终端102中获取距离当前时刻最近的预设点击数量的历史信息,以及获取各个历史信息的历史特征;获取至少两个候选信息,以及获取各个候选信息的候选特征;针对每一个候选信息,将历史特征和候选特征进行交叉,生成目标特征;针对每一个候选信息,基于目标特征,对候选信息进行点击率预估,得到候选信息的点击率预估值;基于各个候选信息的点击率预估值,从各个候选信息中确定目标信息,将目标信息推送给用户标识所在终端102。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
本申请实施例提供的方案涉及人工智能的机器学习等技术。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
在本申请实施例中,计算机设备获取距离当前时刻最近的预设点击数量的历史信息,以及获取各个历史信息的历史特征;获取至少两个候选信息,以及获取各个候选信息的候选特征;针对每一个候选信息,将历史特征和候选特征进行交叉,生成目标特征;针对每一个候选信息,基于目标特征,采用机器学习对候选信息进行点击率预估,可以得到更准确的候选信息的点击率预估值;从而基于各个候选信息的点击率预估值,可以将更准确的短期内用户感兴趣的目标信息推送给用户标识所在终端。
在一个实施例中,如图2所示,提供了一种信息推送方法,包括以下步骤:
步骤202,获取距离当前时刻最近的预设点击数量的历史信息,以及获取各个历史信息的历史特征。
计算机设备获取用户点击的各个历史信息,以及获取各个历史信息的点击时刻,将各个历史信息按照点击时刻进行排列。
历史信息指的是用户点击过的信息。历史信息可以是图文信息、视频信息、音频信息等。预设点击数量可以根据用户需要进行设置,如预设点击数量为1、5、10、50等。
距离当前时刻最近的预设点击数量的历史信息指的是与当前时刻相比,点击时刻最近的预设点击数量的历史信息。例如,距离当前时刻最近的1次点击的历史信息,距离当前时刻最近的10次点击的历史信息,距离当前时刻最近的50次点击的历史信息。
历史特征指的是历史信息所具有的特征。历史特征可以是历史信息的分类、标签、视频时长、总字数等其中的至少一种。例如,历史特征可以包括一级分类“体育”、二级分类“足球”、三级分类“西甲联赛”、标签“A球星”、视频时长“1分50秒”、总字数“100”等。历史特征还可以包括来源、话题、封面分、质量分、爆款分、时新度、是否组图、是否大图、视频等级、点击数、播放数、点击率、时长、点赞数、评论数、双击数、收藏数、分享等。
进一步地,获取各个不同格式类型的历史信息,对不同格式类型的历史信息进行归一化处理,得到目标格式类型的历史信息。可以理解的是,用户点击的历史信息可能包括了不同应用程序的信息,而不同应用程序的信息的格式类型存在区别,因此,为了便于后续对历史信息以及历史特征进行处理,对不同格式类型的历史信息进行归一化处理,将不同格式类型的历史信息转化成目标格式类型的历史信息。相应地,不同格式类型的历史信息的历史特征也会转换成目标格式类型的历史信息。
在一个实施例中,基于距离当前时刻最近的预设点击数量的各个历史信息的历史特征,构建用户描述数据。可以理解的是,距离当前时刻最近的预设点击数量的各个历史信息表示该历史信息是用户短期内点击的历史信息,则构建的用户描述数据为用户短期的用户描述数据。
在另一个实施例中,获取用户点击的所有历史信息,以及获取所有历史信息中每一个历史信息的历史特征,基于用户点击的所有历史信息的各个历史特征,构建用户描述数据。可以理解的是,用户点击的所有历史信息表示该历史信息是用户长期点击的历史信息,则构建的用户描述数据为用户长期的用户描述数据。
步骤204,获取至少两个候选信息,以及获取各个候选信息的候选特征。
候选信息指的是待推送至用户标识所在终端的信息。候选特征指的是候选信息所具有的特征。候选特征可以是候选信息的分类、标签、视频时长、总字数等其中的至少一种。例如,候选特征可以包括一级分类“美食”、二级分类“中餐”、三级分类“川菜”、标签“宫保鸡丁”、视频时长“3分50秒”、总字数“200”等。候选特征还可以包括来源、话题、封面分、质量分、爆款分、时新度、是否组图、是否大图、视频等级、点击数、播放数、点击率、时长、点赞数、评论数、双击数、收藏数、分享等。
在一个实施例中,获取用户描述数据,基于用户描述数据进行候选召回,获取至少两个候选信息。候选召回指的是,在信息推送系统的信息集合中,根据用户描述数据中所包括的特征而选定的一批待推送的信息。其中,用户描述数据可以是短期的用户描述数据和长期的用户描述数据中的一种。
具体地,计算机设备可以通过正排索引获取到各个候选信息的候选特征。正排索引指的是通过关键词查询内容的过程。
步骤206,针对每一个候选信息,将历史特征和候选特征进行交叉,生成目标特征。
目标特征指的是将历史特征和候选特征进行交叉所生成的新的特征。
交叉指的是通过将单独的特征进行组合(相乘或求笛卡尔积)而生成的合成的特征的过程。计算机设备将历史特征和候选特征进行交叉,即将历史特征和候选特征进行组合(相乘或求笛卡尔积)而生成目标特征的过程。
例如,历史特征是A,候选特征是B,则将历史特征和候选特征进行交叉,可以生成目标特征“AB”。又如,历史特征是性别,候选特征是年龄,则将历史特征和候选特征进行交叉,可以生成目标特征“性别_年龄”。
需要指出的是,针对每一个候选信息,候选特征可以是一个,也可以是至少两个。当候选特征是一个时,则分别将历史特征和候选特征进行交叉,生成目标特征。当候选特征是至少两个时,在一种实施方式中,可以将历史特征和候选特征两两进行交叉,生成至少四个目标特征;在另一中实施方式中,也可以将指定的历史特征和指定的候选特征进行交叉,生成目标特征。
进一步地,计算机设备可以确定目标特征的特征索引,方便后续对目标特征进行查找以及处理。
具体地,获取历史特征的索引,以及获取候选特征的索引,基于历史特征的索引和候选特征的索引,生成目标特征的特征索引。
可以理解的是,历史特征和候选特征均是单特征,单特征输入一般为uint64类型,float类型。例如一级分类、二级分类、标签等,是uint64类型,此时该特征的索引为y=xuint64_t;例如点击率、点赞率等,是float类型,此时该特征的索引为y=xfloat*10000。其中,13131为用户选取的参数,可以根据用户需要进行设置。
目标特征是交叉得到的特征,输入一般有多个参数,以历史信息的二级分类与候选信息的二级分类进行交叉得到的目标特征为例,历史信息的二级分类和候选信息的二级分类均是单特征,可以获取到单特征的索引,分别记为x1、x2,采用质数连乘的方式将历史信息的二级分类和候选信息的二级分类进行连接,得到y=x1*13131+x2。其中,13131为用户选取的参数,可以根据用户需要进行设置。
进一步地,此处可进行拓展,输入值为任意格式的特征都可以根据上述单特征计算索引的方式得到各自的索引值,然后通过上述乘以质数的方式进行连接。同理,可从2个输入特征拓展到多个输入特征。
进一步地,计算机设备可以计算目标特征的特征编码。
具体地,将目标特征映射至64位的哈希空间,使用64位空间的前16位表示特征类别,通过将特征名称字符串哈希,取低16位得到;使用后48位表示特征索引,通过将特征值哈希,取低48位得到,即为:y=hash(feature_name)&0xFFFF<<48+feature_value&0xFFFFFFFFFFFF。与连续特征相比,这种哈希特征的方式可以减少特征之间的冲突,增加了特征的区分性。
步骤208,针对每一个候选信息,基于目标特征,对候选信息进行点击率预估,得到候选信息的点击率预估值。
CTR(Click-through rate,点击率)预估是工业级推荐系统中重要的一个环节,其预估效果会直接影响推荐系统的性能。点击率(Click-Through-Rate,CTR)预估值指的是该候选信息推送至用户标识所在终端之后,用户点击该候选信息的概率。点击率预估值越高,表示该候选信息推送至用户标识所在终端之后,用户点击该候选信息的概率越高,即表示该候选信息更符合用户的兴趣。
在本实施例中,目标特征中包含了用户短期内的历史信息的特征,则基于目标特征对候选信息进行点击率预估,可以更准确地预估该候选信息与用户短期感兴趣的特征之间的关系,得到的点击率预估值可以更准确地体现用户短期内所感兴趣的特征。
可以理解的是,当用户的长期兴趣为A,但是最近对B感兴趣,即短期内对B感兴趣,则基于距离当前时刻最近的预设点击数量的历史信息,即短期内的历史信息和历史特征,该历史信息和历史特征包括B,可以更准确地获取到与B相关的候选信息,从而将与B相关的候选信息推送至用户标识所在终端。
步骤210,基于各个候选信息的点击率预估值,从各个候选信息中确定目标信息,将目标信息推送给用户标识所在终端。
具体地,计算机设备基于各个候选信息的点击率预估值,可以从各个候选信息中选取预设数量的候选信息作为目标信息,将目标信息推送给用户标识所在终端。
例如,将目标信息推送至用户标识所在的终端的应用程序“QQ看点”中。QQ看点是一款构建在手机QQ上、具备QQ年轻化社交属性的内容分发平台,通过深入挖掘用户兴趣,引入优质内容,将优质的内容以个性化的方式推荐给用户,主要包含图文、视频、图集等不同类型的文章。其中,视频推荐是看点推荐的重要组成部分,如图3所示,图中左侧场景为看点主feeds(信息流)场景,主feeds展示图文、视频等不同类型的文章,点击视频文章会进入一拖三场景,即展示与主feeds点击视频302相关的一系列视频304,如图中右侧所示。看点视频推荐占到了每天的分发总量的75%以上。
在一种实施方式中,计算机设备可以将点击率预估值最高的预设数量的候选信息作为目标信息。在其他实施方式中,计算机设备也可以按照其他的策略选取预设数量的候选信息作为目标信息。预设数量可以根据用户需要进行设置,例如,10条,20条等。
在一个实施例中,基于各个候选信息的点击率预估值,将各个候选信息进行排序,再从排序之后的候选信息中确定目标信息。可选地,可以按照点击率预估值从高到低进行排序,也可以按照点击率预估值从低到高进行排序,不限于此。
上述信息推送方法,历史特征表示距离当前时刻最近的被用户点击的历史信息的特征,即用户短期内所点击的历史信息的特征;而将历史特征和候选特征进行交叉,生成目标特征,目标特征中包含了用户短期内的历史信息的特征;基于目标特征,对候选信息进行点击率预估,得到候选信息的点击率预估值,该点击率预估值可以更准确地体现用户短期内所感兴趣的特征,从而基于各个候选信息的点击率预估值,可以将用户短期内所感兴趣的目标信息推送给用户标识所在终端,确定的目标信息更符合用户短期内所感兴趣的特征,提高了信息推送的准确度。
在一个实施例中,如图4为推荐系统的架构图,推送系统包括在线部分和离线部分,推荐系统首先执行离线部分,即402用户操作数据收集,404用户描述数据计算,406CTR(Click-Through-Rate,点击率)模型训练,再执行在线部分,即408候选召回,410排序打分,412多样性展示。其中,用户操作数据主要包括用户的点击数据、展示数据、点赞数据、观看时长数据等;用户描述数据计算则主要根据用户操作数据,计算用户在标签、分类等不同维度下的兴趣;CTR模型训练则主要根据用户的行为和用户描述数据进行特征的抽取和模型训练;候选召回主要根据用户的行为和描述数据进行文章的召回,获取到待推送的候选信息;排序打分则根据离线训练好的模型进行特征的抽取和分数的计算;多样性展示则是在排序打分的基础上结合多样性模型确定目标信息,并将目标信息推送至用户标识所在终端,展示在用户标识所在终端上。在多样性展示时,获取不同分类的目标信息推送至用户标识所在终端,如科技类的目标信息、娱乐类的目标信息、财经类的目标信息、体育类的目标信息、动漫类的目标信息。当用户对展示的目标信息进行点击等触发操作时,可以实时获取用户的行为反馈,实时更新用户的感兴趣特征,也可以对用户的兴趣进行拓展。
在一个实施例中,如图5a所示,“QQ看点”中的看点视频具有存在周期长、时效性弱、行为量大等特点,对看点视频的用户进行分析发现,76%的用户最近三天有视频点击历史,剩下的24%用户最近三天没有视频点击历史,这里76%的占比量级是非常高的。
进一步地,如图5b所述,对这24%的无视频点击用户进分析,发现94%的用户有图文点击历史,5%的用户有TAG描述数据,剩下1%的用户是完全新用户。
基于以上统计分析,98.6%“QQ看点”主feeds用户近期有视频、图文点击历史。从文章召回系统看,基于短期点击历史的协同召回、模型召回在召回中都起到了非常重要的作用。从这个现象出发类推,点击历史在排序过程中也是非常重要的,因此在排序的过程中如何能够更好的将用户的视频、图文点击历史融进特征之中,是个非常重要的问题。
在一个实施例中,如图6a所示,采用上述信息推送方法进行推送视频,则视频播放量提高了1.58%,人均使用时长提高了0.97%,累积使用时长提高了0.94%,Feeds次数转化率-去重(%)提高了0.50%,带来了明显的应用效果。
在一个实施例中,如图6b所示,602是采用上述信息推送方法进行推送视频的点击率,604是采用传统的信息推送方法进行推送视频的点击率,采用上述信息推送方法进行推送视频,相比传统的信息推送方法,点击率平均提高了4.4%。
在一个实施例中,如图6c所示,606是采用上述信息推送方法进行推送视频的一拖三视频观看时长,608是采用传统的信息推送方法进行推送视频的一拖三视频观看时长,采用上述信息推送方法进行推送视频,相比传统的信息推送方法,一拖三视频观看时长平均提高了1.6%。
在一个实施例中,历史特征包括一级历史分类、二级历史分类和历史标签,二级历史分类是一级历史分类的子分类;候选特征包括一级候选分类、二级候选分类和候选标签,二级候选分类是一级候选分类的子分类。将历史特征和候选特征进行交叉,生成目标特征,包括:依次从一级历史分类、二级历史分类和历史标签中选取第一特征,以及依次从一级候选分类、二级候选分类和候选标签中选取第二特征;将第一特征和第二特征进行交叉,生成目标特征。
二级历史分类是一级历史分类的子分类,例如,一级历史分类是“体育”,二级历史分类是“足球”、“篮球”、“羽毛球”、“游泳”等其中的一种。同样地,二级候选分类是一级候选分类的子分类是相同的原理。
需要指出的是,一级分类(一级历史分类或一级候选分类)、二级分类(二级历史分类或二级候选分类)表示一种类别,具有概括性,如“中餐”、“西餐”、“粤菜”、“川菜”等;而标签(历史标签或候选标签)指的是一种具体的项目,如“A球星”、“宫保鸡丁”、“麻辣香锅”等。
第一特征指的是从一级历史分类、二级历史分类和历史标签中选取的一种特征作为第一特征。第二特征指的是从一级候选分类、二级候选分类和候选标签中选取的一种特征作为第二特征。
具体的,计算机设备依次获取第一特征和第二特征,将第一特征和第二特征进行交叉,生成目标特征。也就是说将历史特征中所包括的各个特征与候选特征中所包括的各个特征进行两两交叉,生成目标特征。
在本实施例中,历史特征包括一级历史分类、二级历史分类和历史标签,候选特征包括一级候选分类、二级候选分类和候选标签,一级分类(一级历史分类或一级候选分类)、二级分类(二级历史分类或二级候选分类)分别表示了概括性的类别,而标签(历史标签或候选标签)表示了具体的项目,将历史特征中所包括的各个特征与候选特征中所包括的各个特征进行两两交叉,避免了将所有的分类进行交叉处理,节约了计算机资源,也可以准确获取到目标特征。
在一个实施例中,如图7所示,将第一特征和第二特征进行交叉,生成目标特征,包括:
步骤702,将一级历史分类和一级候选分类进行交叉,生成一级分类目标特征。
步骤704,将二级历史分类和二级候选分类进行交叉,生成二级分类目标特征。
步骤706,将历史标签和候选标签进行交叉,生成标签目标特征。
步骤708,将二级历史分类和候选标签进行交叉,生成混合目标特征;一级分类目标特征、二级分类目标特征、标签目标特征和混合目标特征均属于目标特征。
在本实施例中,一级历史分类是二级历史分类的上一级分类,概括性高,将一级历史分类和候选标签进行交叉得到的特征无法更准确地表示候选信息与历史信息之间的关系;而二级历史分类是一级历史分类的子分类,可以更细致地表示历史信息的特征,将二级历史分类和候选标签进行交叉得到混合目标特征,可以更准确地表示候选信息与历史信息之间的关系;一级分类目标特征、二级分类目标特征、标签目标特征和混合目标特征均属于目标特征,避免了将二级历史分类和候选标签进行交叉,节约了计算机资源。
并且,将二级历史分类和候选标签进行交叉得到混合目标特征,可以进一步提高特征的泛化性,即可以在后续点击率预估模型对候选信息进行点击率预估时,提高对未知数据的预估能力。
在一个实施例中,获取各个历史信息的历史特征之后,还包括:统计各个历史特征的获取次数;基于各个历史特征的获取次数,从各个历史特征中选取中间特征。针对每一个候选信息,将历史特征和候选特征进行交叉,生成目标特征,包括:针对每一个候选信息,将中间特征和候选特征进行交叉,生成目标特征。
可以理解的是,不同的历史信息可以包括不同的历史特征,也可以包括相同的历史特征。当用户点击的历史信息大部分均包括有同一个历史特征,可以认为用户对该历史特征感兴趣。
中间特征指的是从各个历史特征中选取的特征。计算机设备统计各个历史特征的获取次数,获取次数越高,表示用户对该历史特征越感兴趣。
具体地,基于各个历史特征的获取次数,选取获取次数最高的预设数量的历史特征作为中间特征。其中,预设数量可以是一个,也可以是至少两个。例如,选取获取次数最高的1个历史特征作为中间特征,选取获取次数最高的3个历史特征作为中间特征。
在一个实施例中,当各个历史特征的获取次数均相同时,可以随机各个从历史特征中选取中间特征,也可以按照用户指定的策略从各个历史特征中选取中间特征。其中,指定的策略可以是选取点赞率最高的预设数量历史特征作为中间特征,也可以是选取转发率最高的预设数量历史特征作为中间特征,不限于此。
在本实施例中,基于各个历史特征的获取次数选取中间特征,再将中间特征与候选特征进行交叉,可以更准确地生成目标特征,同时也避免了将所有的历史特征进行交叉处理,节约了计算机资源。
在一个实施例中,上述方法还包括:获取距离当前时刻最近的预设点击数量的历史信息的点击时刻;分别确定各个点击时刻与当前时刻之间的时间差;基于各个历史信息对应的时间差,确定各个历史信息的历史特征的权重;历史信息对应的时间差与历史信息的历史特征的权重之间成负相关。基于各个历史特征的获取次数,从各个历史特征中选取中间特征,包括:基于各个历史特征的获取次数,以及各个历史特征的权重,从各个历史特征中选取中间特征。
点击时刻指的是用户点击历史信息的时刻。计算机设备将点击时刻与当前时刻进行差值运算,可以得到点击时刻与当前时刻之间的时间差。
可以理解的是,历史信息对应的时间差越小,表示用户点击该历史信息的点击时刻距离当前时刻越近,则该历史信息的历史特征越可以表示用户短期内感兴趣的特征。因此,基于历史信息对应的时间差,确定历史信息的历史特征的权重,而时间差与该权重成负相关。
例如,历史信息A的点击时刻是5月8日13点50分,历史信息B的点击时刻是5月9日11点22分,当前时刻是5月9日11点25分,则历史信息A对应的时间差大,历史信息B对应的时间差小,历史信息A的历史特征更可以表示用户短期内感兴趣的特征,则历史信息B的历史特征的权重大,历史信息A的历史特征的权重小。
具体地,计算机设备获取到各个历史特征的获取次数,以及各个历史特征的权重,可以将历史特征的获取次数与第一参数进行相乘,并将该历史特征的权重与第二参数进行相乘,再将两个乘积相加得到该历史特征的评分,最后按照各个历史特征的评分从各个历史特征中选取中间特征。
在本实施例中,获取距离当前时刻最近的预设点击数量的历史信息的点击时刻;分别确定各个点击时刻与当前时刻之间的时间差;基于各个历史信息对应的时间差,确定各个历史信息的历史特征的权重;历史信息对应的时间差与历史信息的历史特征的权重之间成负相关;基于各个历史特征的获取次数,以及各个历史特征的权重,从各个历史特征中选取中间特征,可以更准确地选取用户短期内感兴趣的历史特征作为中间特征。
在一个实施例中,获取最近点击的预设数量的历史信息,以及获取各个历史信息的历史特征,包括:获取至少两个预设数量;针对每一个预设数量,获取距离当前时刻最近的预设点击数量的历史信息,以及获取历史信息的历史特征。基于各个历史特征的获取次数,从各个历史特征中选取中间特征,包括:基于各个历史特征的获取次数,从各个历史特征中选取目标数量的中间特征;目标数量的大小与预设数量的大小成正相关。
为了更准确地确定用户短期内的各个时间窗口所感兴趣的历史,可以获取至少两个预设数量,针对每一个预设数量,获取距离当前时刻最近的预设点击数量的历史信息,以及获取历史信息的历史特征。
例如,获取4个预设数量,分别是1、5、10和50,即分别获取距离当前时刻最近的1次点击的历史信息,获取距离当前时刻最近的5次点击的历史信息,获取距离当前时刻最近的10次点击的历史信息,获取距离当前时刻最近的50次点击的历史信息。
可以理解的是,预设数量的大小越大,则获取到历史信息越多,对应的,历史信息的历史特征也越高。为了更准确地获取到用户短期内感兴趣的特征,从各个历史特征中选取目标数量的中间特征,该目标数量的大小与预设数量的大小成正相关。
例如,获取距离当前时刻最近的1次点击的历史信息,则从各个历史特征中选取1个中间特征;获取距离当前时刻最近的5次点击的历史信息,则从各个历史特征中选取2个中间特征;获取距离当前时刻最近的10次点击的历史信息,则从各个历史特征中选取3个中间特征;获取距离当前时刻最近的50次点击的历史信息,则从各个历史特征中选取4个中间特征。
又如,获取距离当前时刻最近的1次点击的历史信息,则从各个历史特征中选取1个中间特征;获取距离当前时刻最近的5次点击的历史信息,则从各个历史特征中选取4个中间特征;获取距离当前时刻最近的10次点击的历史信息,则从各个历史特征中选取8个中间特征;获取距离当前时刻最近的50次点击的历史信息,则从各个历史特征中选取10个中间特征。
进一步地,为了便于后续特征的抽取和处理,计算机设备可以将同一预设数量得到的一级历史分类、二级历史分类和历史标签存储在同一个map数据类中。
在本实施例中,获取至少两个预设数量;针对每一个预设数量,获取距离当前时刻最近的预设点击数量的历史信息,以及获取历史信息的历史特征;基于各个历史特征的获取次数,从各个历史特征中选取目标数量的中间特征;目标数量的大小与预设数量的大小成正相关,可以获取到预设数量的大小相匹配的目标数量的中间特征,从而可以更准确地采用目标数量的中间特征与候选特征进行交叉,更准确地表示用户短期内所感兴趣的候选信息。
在一个实施例中,获取至少两个预设数量;针对每一个预设数量,获取距离当前时刻最近的预设点击数量的历史信息,以及获取历史信息的历史特征。
历史特征包括一级历史分类、二级历史分类和历史标签,二级历史分类是一级历史分类的子分类;候选特征包括一级候选分类、二级候选分类和候选标签,二级候选分类是一级候选分类的子分类;统计各个历史特征的获取次数;基于各个历史特征的获取次数,从各个历史特征中选取目标数量的中间特征;目标数量的大小与预设数量的大小成正相关。
获取至少两个候选信息,以及获取各个候选信息的候选特征。
针对每一个候选信息,将一级历史分类和一级候选分类进行交叉,生成一级分类目标特征;将二级历史分类和二级候选分类进行交叉,生成二级分类目标特征;将历史标签和候选标签进行交叉,生成标签目标特征;将二级历史分类和第二标签进行交叉,生成混合目标特征;一级分类目标特征、二级分类目标特征、标签目标特征和混合目标特征均属于目标特征。
如图8所示,获取4个预设数量,分别为1、5、10和50,分别获取距离当前时刻最近的1次点击的历史信息以及历史特征,获取距离当前时刻最近的5次点击的历史信息以及历史特征,获取距离当前时刻最近的10次点击的历史信息以及历史特征,获取距离当前时刻最近的50次点击的历史信息以及历史特征,并且为了增加特征的区分性,将历史信息区分为视频信息和图文信息,同样地,将候选信息区分为视频信息和图文信息。
以预设数量为50的视频点击进行举例说明:获取最近50次点击的视频信息以及历史特征,历史特征包括一级历史分类、二级历史分类和历史标签,基于各个历史特征的获取次数,从各个历史特征中选取目标数量的中间特征。也就是说,基于一级历史分类这一历史特征的获取次数,选取top3个(即获取次数最高的3个,目标数量为3)一级历史分类作为中间特征,将top3个一级历史分类分别与候选信息的一级候选分类进行交叉,得到一级分类目标特征。
基于二级历史分类这一历史特征的获取次数,选取top8个(即获取次数最高的8个,目标数量为8)二级历史分类作为中间特征,将top8个二级历史分类分别与候选信息的二级候选分类进行交叉,得到二级分类目标特征。
基于历史标签这一历史特征的获取次数,选取top10个(即获取次数最高的10个,目标数量为10)历史标签作为中间特征,将top10个历史标签分别与候选信息的候选标签进行交叉,得到标签目标特征。
基于二级历史分类这一历史特征的获取次数,选取top8个(即获取次数最高的8个,目标数量为8)二级历史分类作为中间特征,将top8个二级历史分类分别与候选信息的候选标签进行交叉,得到混合目标特征。
基于同样的原理,预设数量为50的图文点击、预设数量为10的视频点击、预设数量为10的图文点击、预设数量为5的视频点击、预设数量为5的图文点击、预设数量为1的视频点击、预设数量为1的图文点击可以获取到对应的目标特征。
在一个实施例中,针对每一个候选信息,基于目标特征,对候选信息进行点击率预估,得到候选信息的点击率预估值,包括:获取训练完成的点击率预估模型的点击率预估参数;点击率预估模型是通过正样本和负样本进行训练得到的,正样本指的是被触发的信息的特征,负样本指的是未被触发的信息的特征;针对每一个候选信息,基于点击率预估参数和目标特征,通过训练完成的点击率预估模型计算得到候选信息的点击率预估值。
可以理解的是,计算机设备推送信息至用户标识所在终端时,用户并不一定会触发该推送的信息。其中,触发可以是点击、滑动、长按等操作。当用户触发该信息时,则将该信息的特征作为正样本;当用户未触发该信息时,则将该信息的特征作为负样本。计算机设备采用正样本和负样本对点击率预估模型进行训练,模拟了真实场景中用户触发信息的过程,可以训练出更准确的点击率预估模型,从而获取到更准确的点击率预估参数。
具体地,计算机设备通过点击率预估模型采用前馈计算得到候选信息的点击率预估值:y=wx+b。其中,w和b表示点击率预估参数,x表示目标特征,y表示计算得到的点击率预估值。进一步地,计算机设备还可以从历史信息中抽取其他的特征,如性别、年龄、点赞率、转发率、观看时长等,将该抽取的其他特征与目标特征一起作为x输入点击率预估模型,得到候选信息的点击率预估值。
进一步地,计算机设备可以采用googledense_map结构存储点击率预估参数,以空间换时间,相比C++标准库的unordered_map结构,降低了约2/3的查找耗时。
在一个实施例中,如图9所示为对候选信息进行排序的架构图,主要包括在线和离线两个部分。在线部分包括资源适配、特征抽取和打分排序三个步骤。
其中,资源适配,主要是将资源进行格式归一化处理,将不同格式的资源转换成目标格式的资源,如将不同格式的用户描述数据信息转换成目标格式的用户描述数据信息,将不同格式的用户操作信息转换成目标格式的用户操作信息。
用户描述数据信息主要包含图文标签描述数据、图文一级分类描述数据、图文二级分类描述数据、用户视频标签描述数据、视频一级分类描述数据、视频二级分类描述数据等;用户操作信息包括用户的点击历史和展示历史,点击历史为用户最近3天的点击,包含所有的文章类型,图文、视频等,以一次点击为单位存储,展示历史为用户最近3天的展示,以一刷为单位存储,一刷为一次请求,一刷一般包含10篇图文、视频文章,点击、展示文章分别查询正排,获取其相应的文章信息。
特征抽取,主要包括特征设计、特征索引和特征编码三个方面。其中,特征设计即将历史特征区分成视频信息的历史特征和图文信息的历史特征,再分别将视频信息的历史特征和图文信息的历史特征按照不同的时间窗口进行区分,如将视频信息的历史特征区分成最近1次点击的视频信息的历史特征,最近10次点击的视频信息的历史特征。
打分排序,主要根据抽取特征和CTR模型进行点击率预估值的计算,再基于各个候选信息的点击率预估值将各个候选信息进行排序。
离线部分主要为模型的训练,根据合并好的日志进行特征的抽取,进而进行模型的训练。
接下来对模型训练部分进行说明。图10是模型训练的架构图,参见图10,模型训练主要包含日志合并、特征抽取和模型训练三个部分,接下来分别进行说明。
计算机设备获取点击日志、展示日志和在线特征日志,根据点击日志、展示日志、在线特征日志将一次请求的全部信息聚合在一起。因为点击相对于展示一般延时比较大,所以存在时间窗口问题,在一个实施例中可以采用15min的时间窗口,认为一个展示的点击都是在15min之内发生的。针对每次请求的每一篇展示文章,查找是否被点击及相应的特征数据,合并好的日志数据写在kafka(日志流)上。
特征抽取运行在spark框架上,根据合并好的日志数据,分别抽取对应的特征数据,构建模型训练的正样本和负样本,其中被触发的信息的特征为正样本,未触发的信息的特征为为负样本。正样本和负样本混合在一起,随机取99%作为训练样本,剩余1%为测试样本。本实施例将正样本、负样本分别写到kafka(日志流)的两个topic上,供模型训练侧读取。
计算机设备使用特征抽取的全部训练样本进行模型训练,使用在线学习FTRL(Follow The Regularized Leader)算法进行大规模稀疏逻辑回归模型的训练。本实施例采用了开源框架MXNET进行模型训练。本实施例中离线训练的逻辑回归(LogisticRegression,LR)模型每30分钟导出一次并推送线上环境,
在另一个实施例中,还可以采用深度神经网络(Deep Neural Network,DNN)、深度与广度神经网络(Wide&Deep,WD)等非线性模型建模点击率预估(CTR)模型。
应该理解的是,虽然图2和图7的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2和图7中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图11所示,提供了一种信息推送装置1100,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:历史特征获取模块1102、候选特征获取模块1104、交叉模块1106、点击率预估值获取模块1108和推送模块1110,其中:
历史特征获取模块1102,用于获取距离当前时刻最近的预设点击数量的历史信息,以及获取各个历史信息的历史特征。
候选特征获取模块1104,用于获取至少两个候选信息,以及获取各个候选信息的候选特征。
交叉模块1106,用于针对每一个候选信息,将历史特征和候选特征进行交叉,生成目标特征。
点击率预估值获取模块1108,用于针对每一个候选信息,基于目标特征,对候选信息进行点击率预估,得到候选信息的点击率预估值。
推送模块1110,用于基于各个候选信息的点击率预估值,确定目标候选信息,将目标候选信息推送给用户标识所在终端。
上述信息推送装置,历史特征表示距离当前时刻最近的被用户点击的历史信息的特征,即用户短期内所点击的历史信息的特征;而将历史特征和候选特征进行交叉,生成目标特征,目标特征中包含了用户短期内的历史信息的特征;基于目标特征,对候选信息进行点击率预估,得到候选信息的点击率预估值,该点击率预估值可以更准确地体现用户短期内所感兴趣的特征,从而基于各个候选信息的点击率预估值,可以将用户短期内所感兴趣的目标信息推送给用户标识所在终端,确定的目标信息更符合用户短期内所感兴趣的特征,提高了信息推送的准确度。
在一个实施例中,历史特征包括一级历史分类、二级历史分类和历史标签,二级历史分类是一级历史分类的子分类;候选特征包括一级候选分类、二级候选分类和候选标签,二级候选分类是一级候选分类的子分类;上述交叉模块1106还用于依次从一级历史分类、二级历史分类和历史标签中选取第一特征,以及依次从一级候选分类、二级候选分类和候选标签中选取第二特征;将第一特征和第二特征进行交叉,生成目标特征。
在一个实施例中,上述交叉模块1106还用于将一级历史分类和一级候选分类进行交叉,生成一级分类目标特征;将二级历史分类和二级候选分类进行交叉,生成二级分类目标特征;将历史标签和候选标签进行交叉,生成标签目标特征;将二级历史分类和第二标签进行交叉,生成混合目标特征;一级分类目标特征、二级分类目标特征、标签目标特征和混合目标特征均属于目标特征。
在一个实施例中,上述信息推送装置还包括中间特征选取模块,用于统计各个历史特征的获取次数;基于各个历史特征的获取次数,从各个历史特征中选取中间特征;上述交叉模块1106还用于针对每一个候选信息,将中间特征和候选特征进行交叉,生成目标特征。
在一个实施例中,上述信息推送装置还包括权重确定模块,用于获取距离当前时刻最近的预设点击数量的历史信息的点击时刻;分别确定各个点击时刻与当前时刻之间的时间差;基于各个历史信息对应的时间差,确定各个历史信息的历史特征的权重;历史信息对应的时间差与历史信息的历史特征的权重之间成负相关;上述中间特征选取模块还用于基于各个历史特征的获取次数,以及各个历史特征的权重,从各个历史特征中选取中间特征。
在一个实施例中,上述历史特征获取模块1102还用于获取至少两个预设数量;针对每一个预设数量,获取距离当前时刻最近的预设点击数量的历史信息,以及获取历史信息的历史特征;上述中间特征选取模块还用于基于各个历史特征的获取次数,从各个历史特征中选取目标数量的中间特征;目标数量的大小与预设数量的大小成正相关。
在一个实施例中,上述点击率预估值获取模块1108还用于获取训练完成的点击率预估模型的点击率预估参数;点击率预估模型是通过正样本和负样本进行训练得到的,正样本指的是被触发的信息的特征,负样本指的是未被触发的信息的特征;针对每一个候选信息,基于点击率预估参数和目标特征,通过训练完成的点击率预估模型计算得到候选信息的点击率预估值。
关于信息推送装置的具体限定可以参见上文中对于信息推送方法的限定,在此不再赘述。上述信息推送装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储信息推送的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种信息推送方法。
本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (16)
1.一种信息推送方法,其特征在于,所述方法包括:
获取距离当前时刻最近的预设点击数量的历史信息,以及获取各个所述历史信息的历史特征;
基于所述距离当前时刻最近的预设点击数量的各个历史信息的历史特征,构建用户描述数据;基于所述用户描述数据进行候选召回,获取至少两个候选信息,以及获取各个所述候选信息的候选特征;所述候选召回指的是,在信息推送系统的信息集合中,根据所述用户描述数据中所包括的特征而选定待推送信息的过程;
针对每一个所述候选信息,将所述历史特征和所述候选特征进行交叉,生成目标特征;
针对每一个所述候选信息,基于所述目标特征,对所述候选信息进行点击率预估,得到所述候选信息的点击率预估值;
基于各个所述候选信息的点击率预估值,从各个所述候选信息中确定目标信息,将所述目标信息推送给用户标识所在终端。
2.根据权利要求1所述的方法,其特征在于,所述历史特征包括一级历史分类、二级历史分类和历史标签,所述二级历史分类是所述一级历史分类的子分类;所述候选特征包括一级候选分类、二级候选分类和候选标签,所述二级候选分类是所述一级候选分类的子分类;
所述将所述历史特征和所述候选特征进行交叉,生成目标特征,包括:
依次从所述一级历史分类、所述二级历史分类和所述历史标签中选取第一特征,以及依次从所述一级候选分类、所述二级候选分类和所述候选标签中选取第二特征;
将所述第一特征和所述第二特征进行交叉,生成目标特征。
3.根据权利要求2所述的方法,其特征在于,所述目标特征包括一级分类目标特征、二级分类目标特征和标签目标特征;
所述将所述第一特征和所述第二特征进行交叉,生成目标特征,包括:
将所述一级历史分类和所述一级候选分类进行交叉,生成一级分类目标特征;
将所述二级历史分类和所述二级候选分类进行交叉,生成二级分类目标特征;
将所述历史标签和所述候选标签进行交叉,生成标签目标特征;
将所述二级历史分类和所述候选标签进行交叉,生成混合目标特征。
4.根据权利要求1所述的方法,其特征在于,所述获取各个所述历史信息的历史特征之后,还包括:
统计各个所述历史特征的获取次数;
基于各个所述历史特征的获取次数,从各个所述历史特征中选取中间特征;
所述针对每一个所述候选信息,将所述历史特征和所述候选特征进行交叉,生成目标特征,包括:
针对每一个所述候选信息,将所述中间特征和所述候选特征进行交叉,生成目标特征。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取距离当前时刻最近的预设点击数量的历史信息的点击时刻;
分别确定各个所述点击时刻与当前时刻之间的时间差;
基于各个所述历史信息对应的所述时间差,确定各个所述历史信息的历史特征的权重;所述历史信息对应的时间差与所述历史信息的历史特征的权重之间成负相关;
所述基于各个所述历史特征的获取次数,从各个所述历史特征中选取中间特征,包括:
基于各个所述历史特征的获取次数,以及各个所述历史特征的权重,从各个所述历史特征中选取中间特征。
6.根据权利要求4所述的方法,其特征在于,所述获取距离当前时刻最近的预设点击数量的历史信息,以及获取各个所述历史信息的历史特征,包括:
获取至少两个预设数量;
针对每一个预设数量,获取距离当前时刻最近的预设点击数量的历史信息,以及获取所述历史信息的历史特征;
所述基于各个所述历史特征的获取次数,从各个所述历史特征中选取中间特征,包括:
基于各个所述历史特征的获取次数,从各个所述历史特征中选取目标数量的中间特征;所述目标数量的大小与所述预设数量的大小成正相关。
7.根据权利要求1所述的方法,其特征在于,所述针对每一个所述候选信息,基于所述目标特征,对所述候选信息进行点击率预估,得到所述候选信息的点击率预估值,包括:
获取训练完成的点击率预估模型的点击率预估参数;所述点击率预估模型是通过正样本和负样本进行训练得到的,所述正样本指的是被触发的信息的特征,所述负样本指的是未被触发的信息的特征;
针对每一个所述候选信息,基于所述点击率预估参数和所述目标特征,通过训练完成的所述点击率预估模型计算得到所述候选信息的点击率预估值。
8.一种信息推送装置,其特征在于,所述装置包括:
历史特征获取模块,用于获取距离当前时刻最近的预设点击数量的历史信息,以及获取各个所述历史信息的历史特征;
候选特征获取模块,用于基于所述距离当前时刻最近的预设点击数量的各个历史信息的历史特征,构建用户描述数据;基于所述用户描述数据进行候选召回,获取至少两个候选信息,以及获取各个所述候选信息的候选特征;所述候选召回指的是,在信息推送系统的信息集合中,根据所述用户描述数据中所包括的特征而选定待推送信息的过程;
交叉模块,用于针对每一个所述候选信息,将所述历史特征和所述候选特征进行交叉,生成目标特征;
点击率预估值获取模块,用于针对每一个所述候选信息,基于所述目标特征,对所述候选信息进行点击率预估,得到所述候选信息的点击率预估值;
推送模块,用于基于各个所述候选信息的点击率预估值,确定目标候选信息,将所述目标候选信息推送给用户标识所在终端。
9.根据权利要求8所述的装置,其特征在于,所述历史特征包括一级历史分类、二级历史分类和历史标签,所述二级历史分类是所述一级历史分类的子分类;所述候选特征包括一级候选分类、二级候选分类和候选标签,所述二级候选分类是所述一级候选分类的子分类;所述交叉模块还用于依次从所述一级历史分类、所述二级历史分类和所述历史标签中选取第一特征,以及依次从所述一级候选分类、所述二级候选分类和所述候选标签中选取第二特征;将所述第一特征和所述第二特征进行交叉,生成目标特征。
10.根据权利要求9所述的装置,其特征在于,所述目标特征包括一级分类目标特征、二级分类目标特征和标签目标特征;所述交叉模块还用于将所述一级历史分类和所述一级候选分类进行交叉,生成一级分类目标特征;将所述二级历史分类和所述二级候选分类进行交叉,生成二级分类目标特征;将所述历史标签和所述候选标签进行交叉,生成标签目标特征;将所述二级历史分类和所述候选标签进行交叉,生成混合目标特征。
11.根据权利要求8所述的装置,其特征在于,所述装置还包括中间特征选取模块;所述中间特征选取模块用于统计各个所述历史特征的获取次数;基于各个所述历史特征的获取次数,从各个所述历史特征中选取中间特征;所述交叉模块还用于针对每一个所述候选信息,将所述中间特征和所述候选特征进行交叉,生成目标特征。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括权重确定模块;所述权重确定模块用于获取距离当前时刻最近的预设点击数量的历史信息的点击时刻;分别确定各个所述点击时刻与当前时刻之间的时间差;基于各个所述历史信息对应的所述时间差,确定各个所述历史信息的历史特征的权重;所述历史信息对应的时间差与所述历史信息的历史特征的权重之间成负相关;所述中间特征选取模块还用于基于各个所述历史特征的获取次数,以及各个所述历史特征的权重,从各个所述历史特征中选取中间特征。
13.根据权利要求11所述的装置,其特征在于,所述历史特征获取模块还用于获取至少两个预设数量;针对每一个预设数量,获取距离当前时刻最近的预设点击数量的历史信息,以及获取所述历史信息的历史特征;所述中间特征选取模块还用于基于各个所述历史特征的获取次数,从各个所述历史特征中选取目标数量的中间特征;所述目标数量的大小与所述预设数量的大小成正相关。
14.根据权利要求8所述的装置,其特征在于,所述点击率预估值获取模块还用于获取训练完成的点击率预估模型的点击率预估参数;所述点击率预估模型是通过正样本和负样本进行训练得到的,所述正样本指的是被触发的信息的特征,所述负样本指的是未被触发的信息的特征;针对每一个所述候选信息,基于所述点击率预估参数和所述目标特征,通过训练完成的所述点击率预估模型计算得到所述候选信息的点击率预估值。
15.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
16.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010506307.4A CN112749330B (zh) | 2020-06-05 | 2020-06-05 | 信息推送方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010506307.4A CN112749330B (zh) | 2020-06-05 | 2020-06-05 | 信息推送方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112749330A CN112749330A (zh) | 2021-05-04 |
CN112749330B true CN112749330B (zh) | 2023-12-12 |
Family
ID=75645246
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010506307.4A Active CN112749330B (zh) | 2020-06-05 | 2020-06-05 | 信息推送方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112749330B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113360767B (zh) * | 2021-06-29 | 2023-11-10 | 中国平安财产保险股份有限公司 | 信息推送方法、装置、电子设备及存储介质 |
CN113626683B (zh) * | 2021-06-30 | 2023-05-30 | 北京三快在线科技有限公司 | 一种ctr预估处理方法、装置、电子设备及存储介质 |
CN114071237A (zh) * | 2021-11-23 | 2022-02-18 | 四川长虹电器股份有限公司 | 一种基于用户画像的智能电视个性化专题推荐方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107301565A (zh) * | 2017-06-12 | 2017-10-27 | 北京望远传媒有限公司 | 一种屏幕信息的推送方法及装置 |
CN108255954A (zh) * | 2017-12-20 | 2018-07-06 | 广州优视网络科技有限公司 | 应用检索方法、装置、存储介质以及终端 |
CN109862432A (zh) * | 2019-01-31 | 2019-06-07 | 厦门美图之家科技有限公司 | 点击率预测方法和装置 |
CN109992710A (zh) * | 2019-02-13 | 2019-07-09 | 网易传媒科技(北京)有限公司 | 点击率预估方法、系统、介质和计算设备 |
CN110245293A (zh) * | 2019-05-28 | 2019-09-17 | 腾讯科技(深圳)有限公司 | 一种网络内容召回方法和装置 |
CN110263265A (zh) * | 2019-04-10 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 用户标签生成方法、装置、存储介质和计算机设备 |
CN110489644A (zh) * | 2019-08-13 | 2019-11-22 | 腾讯科技(北京)有限公司 | 信息推送方法、装置、计算机可读存储介质和计算机设备 |
CN110727813A (zh) * | 2019-08-27 | 2020-01-24 | 达而观信息科技(上海)有限公司 | 一种商品图片的自适应热门指数排序方法 |
CN110852793A (zh) * | 2019-10-28 | 2020-02-28 | 北京深演智能科技股份有限公司 | 文案推荐方法及装置、电子设备 |
CN110929206A (zh) * | 2019-11-20 | 2020-03-27 | 腾讯科技(深圳)有限公司 | 点击率预估方法、装置、计算机可读存储介质和设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10671679B2 (en) * | 2014-12-30 | 2020-06-02 | Oath Inc. | Method and system for enhanced content recommendation |
US9805427B2 (en) * | 2015-01-29 | 2017-10-31 | Salesforce.Com, Inc. | Systems and methods of data mining to customize software trial demonstrations |
-
2020
- 2020-06-05 CN CN202010506307.4A patent/CN112749330B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107301565A (zh) * | 2017-06-12 | 2017-10-27 | 北京望远传媒有限公司 | 一种屏幕信息的推送方法及装置 |
CN108255954A (zh) * | 2017-12-20 | 2018-07-06 | 广州优视网络科技有限公司 | 应用检索方法、装置、存储介质以及终端 |
CN109862432A (zh) * | 2019-01-31 | 2019-06-07 | 厦门美图之家科技有限公司 | 点击率预测方法和装置 |
CN109992710A (zh) * | 2019-02-13 | 2019-07-09 | 网易传媒科技(北京)有限公司 | 点击率预估方法、系统、介质和计算设备 |
CN110263265A (zh) * | 2019-04-10 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 用户标签生成方法、装置、存储介质和计算机设备 |
CN110245293A (zh) * | 2019-05-28 | 2019-09-17 | 腾讯科技(深圳)有限公司 | 一种网络内容召回方法和装置 |
CN110489644A (zh) * | 2019-08-13 | 2019-11-22 | 腾讯科技(北京)有限公司 | 信息推送方法、装置、计算机可读存储介质和计算机设备 |
CN110727813A (zh) * | 2019-08-27 | 2020-01-24 | 达而观信息科技(上海)有限公司 | 一种商品图片的自适应热门指数排序方法 |
CN110852793A (zh) * | 2019-10-28 | 2020-02-28 | 北京深演智能科技股份有限公司 | 文案推荐方法及装置、电子设备 |
CN110929206A (zh) * | 2019-11-20 | 2020-03-27 | 腾讯科技(深圳)有限公司 | 点击率预估方法、装置、计算机可读存储介质和设备 |
Non-Patent Citations (1)
Title |
---|
长尾群组推荐的免疫多目标优化实现;韩亚敏等;《西安电子科技大学学报》(第03期);109-116 * |
Also Published As
Publication number | Publication date |
---|---|
CN112749330A (zh) | 2021-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111177575B (zh) | 一种内容推荐方法、装置、电子设备和存储介质 | |
US20210271975A1 (en) | User tag generation method and apparatus, storage medium, and computer device | |
CN111104595B (zh) | 一种基于文本信息的深度强化学习交互式推荐方法及系统 | |
CN110543598B (zh) | 信息推荐方法、装置及终端 | |
TW202007178A (zh) | 用戶特徵的生成方法、裝置、設備及儲存介質 | |
CN112749330B (zh) | 信息推送方法、装置、计算机设备和存储介质 | |
CN111382361B (zh) | 信息推送方法、装置、存储介质和计算机设备 | |
CN110795657B (zh) | 文章推送及模型训练方法、装置、存储介质和计算机设备 | |
CN112052387B (zh) | 一种内容推荐方法、装置和计算机可读存储介质 | |
CN110909182A (zh) | 多媒体资源搜索方法、装置、计算机设备及存储介质 | |
CN112464100B (zh) | 信息推荐模型训练方法、信息推荐方法、装置及设备 | |
CN114282054A (zh) | 一种视频推荐方法、装置、计算机设备和存储介质 | |
CN111597446B (zh) | 基于人工智能的内容推送方法、装置、服务器和存储介质 | |
CN111737558A (zh) | 一种资讯推荐方法、装置及计算机可读存储介质 | |
CN114417058A (zh) | 一种视频素材的筛选方法、装置、计算机设备和存储介质 | |
CN116975615A (zh) | 基于视频多模态信息的任务预测方法和装置 | |
CN116049379A (zh) | 知识推荐方法、装置、电子设备和存储介质 | |
CN115878841A (zh) | 一种基于改进秃鹰搜索算法的短视频推荐方法及系统 | |
CN115712780A (zh) | 一种基于云计算和大数据的信息推送方法及装置 | |
CN110347821B (zh) | 一种文本类别标注的方法、电子设备和可读存储介质 | |
WO2020135054A1 (zh) | 视频推荐方法、装置、设备及存储介质 | |
CN114168790A (zh) | 一种基于特征自动组合的个性化视频推荐方法及系统 | |
CN112749333B (zh) | 资源搜索方法、装置、计算机设备和存储介质 | |
CN114817692A (zh) | 确定推荐对象的方法、装置和设备及计算机存储介质 | |
CN115248855A (zh) | 文本处理方法及装置、电子设备、计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40049183 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |