CN112052387B - 一种内容推荐方法、装置和计算机可读存储介质 - Google Patents
一种内容推荐方法、装置和计算机可读存储介质 Download PDFInfo
- Publication number
- CN112052387B CN112052387B CN202010825424.7A CN202010825424A CN112052387B CN 112052387 B CN112052387 B CN 112052387B CN 202010825424 A CN202010825424 A CN 202010825424A CN 112052387 B CN112052387 B CN 112052387B
- Authority
- CN
- China
- Prior art keywords
- recommended
- content
- browsing
- user
- browsing behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000000605 extraction Methods 0.000 claims abstract description 208
- 238000012216 screening Methods 0.000 claims abstract description 41
- 230000003993 interaction Effects 0.000 claims description 21
- 238000002372 labelling Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 10
- 230000002452 interceptive effect Effects 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 230000006399 behavior Effects 0.000 description 306
- 230000006870 function Effects 0.000 description 28
- 239000013598 vector Substances 0.000 description 17
- 238000011176 pooling Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例公开了一种内容推荐方法、装置和计算机可读存储介质;本发明实施例在获取待推荐用户数据集合和待推荐内容集合后对历史浏览记录和待推荐内容集合中的待推荐内容进行多维度特征提取,得到待推荐用户的浏览行为特征和待推荐内容的内容特征,根据浏览行为特征和历史浏览记录,对待推荐用户进行聚类,以得到多个待推荐用户群、以及待推荐用户群的群浏览行为特征和群历史浏览记录,根据群浏览行为特征与内容特征的相似度,在待推荐内容集合中筛选出待推荐用户群对应的初始待推荐内容,基于群历史浏览记录和初始待推荐内容,确定待推荐用户的目标待推荐内容,并将目标待推荐内容推荐至待推荐用户;该方案可以大大提升内容推荐的准确率。
Description
技术领域
本发明涉及通信技术领域,具体涉及一种内容推荐方法、装置和计算机可读存储介质。
背景技术
近年来,随着互联网技术的飞速发展,互联网上的内容爆炸式的进行了增加,从海量的内容中筛选出用户感兴趣的内容并推荐给用户也变得越来越重要。现有的内容推荐方法主要通过计算用户感兴趣内容的词向量特征和海量内容的词向量特征,对二者进行匹配,将匹配成功的内容推荐至用户。
在对现有技术的研究和实践过程中,本发明的发明人发现对于现有的内容推荐中计算的词向量特征存在语义漂移的缺陷,影响了词向量特征计算的准确率,导致内容推荐的准确率也大大降低。
发明内容
本发明实施例提供一种内容推荐生成方法、装置和计算机可读存储介质,可以提高内容推荐的准确率。
一种内容推荐方法,包括:
获取待推荐用户数据集合和待推荐内容集合,所述待推荐用户数据集合包括多个待推荐用户的历史浏览记录;
对所述历史浏览记录和所述待推荐内容集合中的待推荐内容进行多维度特征提取,得到所述待推荐用户的浏览行为特征和所述待推荐内容的内容特征;
根据所述浏览行为特征和历史浏览记录,对所述待推荐用户进行聚类,以得到多个待推荐用户群、以及所述待推荐用户群的群浏览行为特征和群历史浏览记录;
根据所述群浏览行为特征与所述内容特征的相似度,在所述待推荐内容集合中筛选出所述待推荐用户群对应的初始待推荐内容;
基于所述群历史浏览记录和初始待推荐内容,确定所述待推荐用户的目标待推荐内容,并将所述目标待推荐内容推荐至所述待推荐用户。
相应的,本发明实施例提供一种内容推荐装置,包括:
获取单元,用于获取待推荐用户数据集合和待推荐内容集合,所述待推荐用户数据集合包括多个待推荐用户的历史浏览记录;
提取单元,用于对所述历史浏览记录和所述待推荐内容集合中的待推荐内容进行多维度特征提取,得到所述待推荐用户的浏览行为特征和所述待推荐内容的内容特征;
聚类单元,用于根据所述浏览行为特征和历史浏览记录,对所述待推荐用户进行聚类,以得到多个待推荐用户群、以及所述待推荐用户群的群浏览行为特征和群历史浏览记录;
筛选单元,用于根据所述群浏览行为特征与所述内容特征的相似度,在所述待推荐内容集合中筛选出所述待推荐用户群对应的初始待推荐内容;
推荐单元,用于基于所述群历史浏览记录和初始待推荐内容,确定所述待推荐用户的目标待推荐内容,并将所述目标待推荐内容推荐至所述待推荐用户。
可选的,在一些实施例中,所述提取单元,具体可以用于根据所述历史浏览记录,确定所述待推荐用户的历史浏览内容;对所述历史浏览内容进行统计,得到所述待推荐用户的浏览行为信息;对所述浏览行为信息和待推荐内容集合中的待推荐内容进行多维度特征提取,得到所述待推荐用户的浏览行为特征和待推荐内容的内容特征。
可选的,在一些实施例中,所述提取单元,具体可以用于采用训练后提取模型对所述浏览行为信息进行特征提取,并将提取到的初始浏览行为特征进行融合,得到所述待推荐用户的浏览行为特征;采用所述训练后提取模型对所述待推荐内容集合中的待推荐内容进行特征提取,并将提取到的初始内容特征进行融合,得到所述待推荐内容的内容特征。
可选的,在一些实施例中,所述提取单元,具体可以用于采用所述交互提取子模型对所述浏览行为信息进行特征提取,并将提取到的原始状态特征进行特征交互,得到第一初始浏览行为特征;采用所述深度提取子模型对所述浏览行为信息进行局部特征提取,并将提取到的局部浏览行为特征进行融合,以得到第二初始浏览行为特征;将所述第一初始浏览行为特征和第二初始浏览行为特征进行融合,得到所述待推荐用户的浏览行为特征。
可选的,在一些实施例中,所述提取单元,具体可以用于采用第一层网络层对所述浏览行为信息进行特征提取,得到所述第一网络层的第一原始状态特征;根据所述第一原始状态特征和浏览行为信息,计算所述网络层之间的中间数据;基于所述中间数据,计算其他网络层对所述浏览行为信息进行特征提取后的第二原始状态特征;将所述第一原始状态特征和第二原始状态特征进行融合,得到所述第一初始浏览行为特征。
可选的,在一些实施例中,所述提取单元,具体可以用于采用所述深度提取子模型对所述浏览行为信息进行局部特征提取,得到多个局部浏览行为特征;将所述局部浏览行为特征进行融合,得到全局浏览行为特征;采用所述深度提取子模型对所述全局浏览行为特征进行特征提取,得到所述第二初始浏览行为特征。
可选的,在一些实施例中,所述提取单元,具体可以用于采用所述交叉提取子模型对所述待推荐内容进行特征提取,并将提取到的初始状态特征进行特征交互,得到第一初始内容特征;采用所述深度提取子模型对所述待推荐内容进行局部特征提取,并将提取到的局部内容特征进行融合,以得到第二初始内容特征;将所述第一初始内容特征和第二初始内容特征进行融合,得到所述待推荐内容的内容特征。
可选的,在一些实施例中,所述聚类单元,具体可以用于根据所述浏览行为特征,对所述待推荐用户进行聚类,得到多个待推荐用户群;对所述待推荐用户群中的待推荐用户的历史浏览记录进行统计,得到所述待推荐用户群的群历史浏览记录;基于所述待推荐用户的浏览行为特征和群历史浏览记录,确定所述待推荐用户群的群浏览行为特征。
可选的,在一些实施例中,所述聚类单元,具体可以用于根据所述群历史浏览记录,确定所述待推荐用户群的群历史浏览内容;对所述群历史浏览内容进行特征提取,得到所述待推荐用户群的初始群浏览行为特征;将所述待推荐用户的浏览行为特征和所述初始群浏览行为特征进行融合,得到所述待推荐用户群的群浏览行为特征。
可选的,在一些实施例中,所述推荐单元,具体可以用于根据所述待推荐用户的历史浏览记录,在所述群历史浏览内容在筛选出所述待推荐用户未浏览过的群历史浏览内容,得到目标群历史内容;基于所述目标群历史内容和初始待推荐内容,确定所述待推荐用户的目标待推荐内容;将所述目标待推荐内容推荐至所述待推荐用户。
可选的,在一些实施例中,所述推荐单元,具体可以用于将所述目标群历史浏览内容和初始待推荐内容进行融合,得到候选待推荐内容;在所述候选待推荐内容筛选出预设数量的候选待推荐内容作为目标待推荐内容。
可选的,在一些实施例中,所述推荐单元,具体可以用于计算所述目标待推荐内容的浏览概率;基于所述浏览概率,对所述目标待推荐内容进行排序,得到目标待推荐内容的推荐顺序;按照所述推荐顺序,将所述目标待推荐内容推荐至所述待推荐用户。
可选的,在一些实施例中,所述筛选单元,具体可以用于计算所述群浏览行为特征与所述内容特征的相似度;获取用于筛选所述初始待推荐内容的相似度阈值;将所述相似度与相似度阈值进行对比;在所述待推荐内容集合中筛选出相似度超过所述相似度阈值的待推荐内容作为所述待推荐用户群对应的初始待推荐内容。
此外,本发明实施例还提供一种电子设备,包括处理器和存储器,所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序实现本发明实施例提供的内容推荐方法。
此外,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本发明实施例所提供的任一种内容推荐方法中的步骤。
本发明实施例在获取待推荐用户数据集合和待推荐内容集合后,该待推荐用户数据集合包括多个待推荐用户的历史浏览记录,对历史浏览记录和待推荐内容集合中的待推荐内容进行多维度特征提取,得到待推荐用户的浏览行为特征和待推荐内容的内容特征,根据浏览行为特征和历史浏览记录,对待推荐用户进行聚类,以得到多个待推荐用户群、以及待推荐用户群的群浏览行为特征和群历史浏览记录,根据群浏览行为特征与内容特征的相似度,在待推荐内容集合中筛选出待推荐用户群对应的初始待推荐内容,基于群历史浏览记录和初始待推荐内容,确定待推荐用户的目标待推荐内容,并将目标待推荐内容推荐至待推荐用户;由于该方案通过对待推荐用户的和历史浏览记录和待推荐内容进行多维度的特征提取,而不是单独的提取出词向量特征,而且还通过历史浏览记录对待推荐内容进行补充推荐,因此,可以大大提升内容推荐的准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的内容推荐方法的场景示意图;
图2是本发明实施例提供的内容推荐方法的流程示意图;
图3是本发明实施例提供的交互提取模型提取第一初始浏览行为特征的流程示意图;
图4是本发明实施例提供的全连接层提取第二初始浏览行为特征的流程示意图;
图5是本发明实施例提供的双塔网络对浏览行为信息和待推荐内容特征提取的流程示意图;
图6是本发明实施例提供的辅助推荐的流程示意图;
图7是本发明实施例提供的内容推荐方法的另一流程示意图;
图8是本发明实施例提供的内容推荐装置的结构示意图;
图9是本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种内容推荐方法、装置和计算机可读存储介质。其中,该内容推荐装置可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备。
其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
例如,参见图1,以内容推荐装置集成在电子设备中为例,电子设备获取待推荐用户数据集合和待推荐内容集合,该待推荐用户数据集合包括多个待推荐用户的历史浏览记录,然后,对历史浏览记录和待推荐内容集合中的待推荐内容进行多维度特征提取,得到待推荐用户的浏览行为特征和待推荐内容的内容特征,根据浏览行为特征和历史浏览记录,对待推荐用户进行聚类,以得到多个待推荐用户群、以及待推荐用户群的群浏览行为特征和群历史浏览记录,根据群浏览行为特征与内容特征的相似度,在待推荐内容集合中筛选出待推荐用户群对应的初始待推荐内容,基于群历史浏览记录和初始待推荐内容,确定待推荐用户的目标待推荐内容,并将目标待推荐内容推荐至待推荐用户。
其中,待推荐内容可以对用户进行推荐的一些内容,比如,可以为文本内容,譬如,新闻或文章等文本内容,还可以为视频内容或音频内容等。
以下分别进行详细说明。需要说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本实施例将从内容推荐装置的角度进行描述,该内容推荐装置具体可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备;其中,该终端可以包括平板电脑、笔记本电脑、以及个人计算机(PC,Personal Computer)、可穿戴设备、虚拟现实设备或其他可以推荐内容的智能设备等设备。
一种内容推荐方法,包括:
获取待推荐用户数据集合和待推荐内容集合,该待推荐用户数据集合包括多个待推荐用户的历史浏览记录,对历史浏览记录和待推荐内容集合中的待推荐内容进行多维度特征提取,得到待推荐用户的浏览行为特征和待推荐内容的内容特征,根据浏览行为特征和历史浏览记录,对待推荐用户进行聚类,以得到多个待推荐用户群、以及待推荐用户群的群浏览行为特征和群历史浏览记录,根据群浏览行为特征与内容特征的相似度,在待推荐内容集合中筛选出待推荐用户群对应的初始待推荐内容,基于群历史浏览记录和初始待推荐内容,确定待推荐用户的目标待推荐内容,并将目标待推荐内容推荐至待推荐用户。
如图2所示,该内容推荐方法的具体流程如下:
101、获取待推荐用户数据集合和待推荐内容集合。
其中,待推荐用户数据集合包括多个待推荐用户的历史浏览记录,其中,历史浏览记录可以为一个时间周期内用户浏览的内容的记录,比如,可以为一个月通过终端浏览的网页的记录或者浏览的视频的记录等等,该历史浏览记录记载着用户在这个周期内浏览的全部的历史浏览内容。
例如,可以直接获取用户数据集合和待推荐内容集合,比如,直接接收内容服务商发送的取每个用户的历史浏览记录和还未推荐给用户的待推荐内容集合,将每个用户的历史浏览记录构成用户数据集合。还比如,可以直接从内容服务商的数据库中获取每个用户的历史浏览集合和已推荐内容记录,构成用户数据集合,然后,在互联网上直接爬取除了已推荐内容记录以外的待推荐内容,得到待推荐内容集合。在待推荐内容集合中的数据较多时,还可以间接获取到待推荐内容,比如,内容服务商向内容推荐装置发送内容推荐请求,该内容推荐请求中携带待推荐用户的历史浏览记录和待推荐内容在第三方数据库中的存储地址,内容推荐装置根据存储地址,在第三方数据库中提取出待推荐内容,得到待推荐内容集合。对于获取待推荐用户数据集合和待推荐内容集合的时限可以为周期性的,比如,每隔一个固定的时间段,譬如,1小时、1天或一周等,获取待推荐用户数据集合和待推荐内容集合。还可以根据待推荐内容的数量,来确定获取的周期,比如,当待推荐内容集合中的待推荐内容数量超过一个数量阈值时,就触发内容推荐装置获取待推荐用户数据集合和待推荐内容集合。
102、对历史浏览记录和待推荐内容集合中的待推荐内容进行多维度特征提取,得到待推荐用户的浏览行为特征和待推荐内容的内容特征。
例如,根据历史浏览记录,确定待推荐用户的历史浏览内容,对历史浏览内容进行统计,得到待推荐用户的浏览行为信息,对浏览行为信息和待推荐内容集合中的待推荐内容进行多维度特征提取,得到待推荐用户的浏览行为特征和待推荐内容的内容特征,具体可以如下:
S1、根据历史浏览记录,确定待推荐用户的历史浏览内容。
例如,可以根据历史浏览记录,确定待推荐用户的历史浏览内容,比如,通过对获取周期内的历史浏览记录进行识别,就可以确定待推荐用户在这个获取周期内的历史浏览内容,譬如,以获取周期为1个月为例,在1个月内的历史浏览记录中记载了待推荐用户浏览了内容A、内容B和内容C,就可以确定待推荐用户的历史浏览内容为内容A、内容B和内容C。
S2、对历史浏览内容进行统计,得到待推荐用户的浏览行为信息。
其中,浏览行为信息可以为待推荐用户在获取周期内的浏览内容的类型、浏览频率、内容来源和浏览时间等行为信息,通俗的可以理解为对待推荐用户进行的用户画像。
例如,根据确定的历史浏览内容,获取待推荐用户浏览历史浏览内容时的详细信息,比如,内容标签、浏览时间和内容来源,对这些历史浏览内容的详细信息进行统计,比如,统计待推荐用户对同一类型或同一标签的历史浏览内容的浏览次数,浏览频率,还可以统计这些历史浏览内容的内容来源,对这些内容来源进行分类,从而得到待推荐用户的浏览行为信息,譬如,用户在获取周期内浏览了1000个内容,其中有700个内容的内容标签为娱乐新闻,这些内容的内容来源有3/4来自于“XX微博热搜”,此时,可以基于这些信息对待推荐用户进行用户画像,确定该待推荐用户的用户画像为喜欢浏览“XX微博热搜”的娱乐新闻,当然,还可以对这些娱乐新闻进行进步一细粒度的划分,比如,划分为国外娱乐和国内娱乐等,将得到的用户画像就可以为待推荐用户的用户浏览行为信息。
S3、对浏览行为信息和待推荐内容集合中的待推荐内容进行多维度特征提取,得到待推荐用户的浏览行为特征和待推荐内容的内容特征。
例如,可以采用训练后提取模型对浏览行为信息进行特征提取,并将提取到的初始浏览行为特征进行融合,得到待推荐用户的浏览行为特征,采用训练后提取模型对待推荐内容集合中的待推荐内容进行特征提取,并将提取到的初始内容特征进行融合,得到待推荐内容的内容特征,具体可以如下:
(1)采用训练后提取模型对浏览行为信息进行特征提取,并将提取到的初始浏览行为特征进行融合,得到待推荐用户的浏览行为特征。
其中,训练后提取模型可以包括交互提取子模型和深度提取子模型,交互提交子模型用于浏览行为信息和待推荐内容的高阶和低阶特征,交互子模型可以为压缩交互网络(Compressed Interaction Network,CIN)的神经模型,深度提取子模型可以为深度神经网络模型(Deep Neural Networks,DNN)。其中,DNN模型的特征交叉方式为bit-wise级别的,而CIN模型的特征交叉方式可以为vector-wise(向量级别),而且还可以利用隐向量的方式解决交叉项参数稀疏的问题。而训练后提取模型采用交互子模型和深度提取子模型共同构成的基础提取模型可以同时以显式和隐式的方式学习高阶的特征交互,具有较强的泛化能力,而且两个不同子模型共享同样的输入数据,可以提升训练后提取模型的通用性。
例如,采用交互提取子模型对浏览行为信息进行特征提取,并将提取到的原始状态特征进行特征交互,得到第一初始浏览行为特征,比如,以交互提取子模型为CIN模型为例,该CIN模型包括多个网络层,可以采用第一层网络层对浏览行为信息进行特征提取,得到第一网络层的第一原始状态特征,根据第一原始状态特征和浏览行为信息,计算网络层之间的中间数据,基于中间数据,计算其他网络层对浏览行为信息进行特征提取后的第二原始状态特征,譬如,可以把输入至CIN模型的浏览行为信息和CIN模型内部的网络层都分别组织成一个矩阵,即为x0和xk,CIN中每一层的神经元都是根据前一个网络层的隐层以及原始的浏览行为信息推算出来的,具体计算公式可以如下:
其中,为第K层的原始状态特征,/>为原始输入的浏览行为信息对应的矩阵,o为中间数据,也可以称为中介结果。
针对该公式的具体计算可以为采用第一层网络层直接对浏览行为信息进行特征提取,可以得到第一层网络的第一原始状态特征,根据第一原始状态特征和原始的浏览行为信息,计算出第一层网络层和第二层网络层之间的中间数据,然后,在根据中间数据和第一原始状态特征,计算出第二层网络层的原始状态特征,再根据第二层网络的原始状态特征和浏览行为信息,计算下一个网络层的原始状态特征,就可以得到其他网络层的第二原始状态特征。将第一原始状态特征和第二原始状态特征进行融合,得到第一初始浏览行为特征,比如,可以在每一个网络层后面都可以接入一个或者多个池化层,将网络层输出的第一原始状态特征和第二原始状态特征都通过池化层进行池化操作,得到第一初始浏览行为特征,具体可以如图3所示。
对于浏览行为信息的特征提取,还可以采用深度提取模型对浏览行为信息进行特征提取,比如,可以采用深度提取子模型对浏览行为信息进行局部特征提取,得到多个局部浏览行为特征,将局部浏览行为特征进行融合,得到全部浏览行为特征,比如,可以将多个局部浏览行为特征进行拼接,得到全局浏览行为特征,采用深度提取子模型对全局浏览行为特征进行特征提取,得到第二初始浏览行为特征,比如,可以采用深度提取子模型中的全连接层网络对全局浏览行为特征进行高阶特征提取,就可以得到第二初始浏览行为特征,具体可以如图4所示。将第一初始浏览行为特征和第二初始浏览行为特征进行融合,得到待推荐用户的浏览行为特征,比如,将第一初始浏览行为特征和第二初始浏览行为特征进行特征拼接,然后继续采用一个或多个全连接层网络对拼接好的初始浏览行为特征进行全连接映射,将拼接好的初始浏览行为特征映射到1个N维向量,得到待推荐用户的浏览行为特征。
(2)采用训练后提取模型对待推荐内容集合中的待推荐内容进行特征提取,并将提取到的初始内容特征进行融合,得到待推荐内容的内容特征。
例如,也可以采用交叉提取子模型对待推荐内容进行特征提取,并将提取到的初始状态特征进行特征交互,得到第一初始内容特征,具体的采集方式与对浏览行为信息进行特征提取的步骤相同,具体的特征提取方式见上文。采用深度提取子模型对待推荐内容进行局部特征提取,并将提取到的局部特征进行融合,以得到第二初始内容特征,具体的采集方式与对浏览行为信息进行特征提取的步骤相同,具体的特征提取方式见上文。将第一初始内容特征和第二初始内容特征进行融合,得到待推荐内容的内容特征,比如,将第一初始内容特征与第二初始内容特征进行拼接,然后继续采用一个或多个全连接网络对拼接好的初始内容特征进行全连接映射,将拼接好的初始内容特征映射到1个N维向量,得到待推荐内容的内容特征。
其中,对于待推荐用户的浏览行为信息和待推荐内容集合的待推荐内容采用的是同一套模型组合分别进行特征提取,对浏览行为信息和待推荐内容的特征提取没有先后之后,采用的并行提取的模式,可以看作是一种双塔网络,该双塔网络对浏览行为信息和待推荐内容的特征提取流程如图5所示。
其中,该训练后提取模型可以根据实际应用的需求进行设置,另外,需要说的是,该训练后识别模型可以由维护人员预先进行设置,也可以由该内容推荐装置自行训练,即步骤“采用训练后提取模型对浏览行为信息进行特征提取,并将提取到的初始浏览行为特征进行融合,得到待推荐用户的浏览行为特征,采用训练后提取模型对待推荐内容集合中的待推荐内容进行特征提取,并将提取到的初始内容特征进行融合,得到待推荐内容的内容特征”之前,该内容推荐方法还可以包括:
(1)采集浏览行为信息样本和待推荐内容样本,该浏览行为信息样本已标注浏览行为特征,该待推荐内容样本已标注内容特征。
例如,具体可以采集多个原始浏览行为记录和待推荐内容样本集合,比如,可以从数据库或者网上下载或爬取到用户的原始浏览行为记录和待推荐内容样本集合,根据原始浏览行为记录,确定用户的历史浏览内容,对历史浏览内容进行统计,得到浏览行为信息,对浏览行为信息标注浏览行为特征,得到浏览行为信息样本,对待推荐内容样本集合中的原始待推荐内容样本标注内容特征,得到待推荐内容样本。
(2)采用预设提取模型对浏览行为信息样本和待推荐内容样本的特征进行预测,得到预测结果。
例如,采用预设提取模型的交互提取子模型对浏览行为信息样本和待推荐内容样本进行特征提取,采用预设提取模型的深度提取子模型对浏览行为信息样本和待推荐内容样本进行特征提取,将提取的浏览行为信息样本和待推荐内容样本的特征信息分别进行融合,得到预测结果。
(3)根据预测结果与浏览行为信息样本和待推荐内容样本中的标注结果对预设提取模型进行收敛,得到训练后提取模型。
例如,可以通过损失函数,根据预测结果与标注结果对预设提取模型进行收敛,得到训练后提取模型,譬如,具体可以如下:
采用sigmod函数(一种损失函数),将输出的浏览行为特征和待推荐内容的内容特征映射到0至1的区间内,对于输出的预测和输入的标注的标签(label)通过logloss(对数损失公式)进行损失计算,具体如下:
其中,Llabel_1为预测结果与标注结果的损失值,y1为输入的标注结果,为输出的预测结果。根据计算出的损失值对预设提取模型的网络参数进行调整,就可以得到训练后提取模型。
可选的,还可以采用Dice函数(一种损失函数),根据浏览行为信息和待推荐内容的预测结果与标注结果对于特征提取的参数进行调整,以及通过插值损失函数,根据浏览行为信息和待推荐内容的预测结果与标注结果对于特征提取的参数进行调整,就可以得到训练后提取模型。
可选的,为了提高浏览行为特征和内容特征提取的精确性,除了采用Dice函数之外,还可以采用其他的损失函数如交叉熵损失函数来进行收敛,具体可以如下:
采用交叉熵损失函数根据浏览行为信息和待推荐内容的预测结果与标注结果对于特征提取的参数进行调整,以及通过插值损失函数,根据浏览行为信息和待推荐内容的预测结果与标注结果对于特征提取的参数进行调整,得到训练后识别模型。
其中,训练后提取模型的实现方式可以基于多种编码语言,且该提取模型可以使用多种开发平台来完成提取模型的构建和训练,得到训练后提取模型,比如,可以使用tensorflow开发平台或者其他开发平台。
103、根据浏览行为特征和历史浏览记录,对待推荐用户进行聚类,以得到多个待推荐用户群、以及待推荐用户群的群浏览行为特征和群历史浏览记录。
其中,待推荐用户群可以为通过对浏览行为特征进行类得到的相近或相同的待推荐用户组成的集合。
例如,可以根据浏览行为特征,对待推荐用户进行聚类,得到多个待推荐用户群,比如,可以根据浏览行为特征,将都喜欢娱乐新闻或者体育新闻的待推荐用户聚类成一个待推荐用户群,还可以将浏览行为特征相似或相同的聚类成一个待推荐用户群等,还可以计算每个待推荐用户的浏览行为特征的特征距离,根据特征距离,对待推荐用户进行聚类,得到多个待推荐用户群。对待推荐用户群中的待推荐用户的历史浏览记录进行统计,得到待推荐用户群的群历史浏览记录,比如,读取每个待推荐用户的历史浏览记录,将这些历史浏览记录进行汇总和统计,譬如,待推荐用户群中包含待推荐用户A、待推荐用户B和待推荐用户C,将这三个待推荐用户的历史浏览记录进行汇总和统计,去掉重复的内容,就可以得到这个待推荐用户群全部的群历史浏览记录。基于待推荐用户的浏览行为特征和群历史浏览记录,确定待推荐用户群的群浏览行为特征,比如,根据群历史浏览记录,确定待推荐用户群的群历史浏览内容,对群历史浏览内容进行特征提取,得到待推荐用户群的初始群浏览行为特征,譬如,可以对群历史浏览内容进行统计,得到待推荐用户群的群画像,将该群画像作为待推荐用户群的群浏览行为信息,对群浏览行为信息进行特征提取,可以采用训练后提取模型进行提取,还可以采用其他提取模型进行特征提取,得到待推荐用户群的初始群浏览行为特征。将待推荐用户的浏览行为特征初始群浏览行为特征进行融合,得到待推荐用户群的群浏览行为特征,比如,计算待推荐用户的浏览行为特征和初始群浏览行为特征的平均值作为待推荐用户群的群浏览行为特征,还可以获取待推荐用户的浏览行为特征和初始群浏览行为特征的权重,根据权重,对待推荐用户的浏览行为特征和初始群浏览行为特征进行加权,得到待推荐用户群的群浏览行为特征。
其中,待推荐用户兴趣的多变性,一个待推荐用户可能会同时属于多个待推荐用户群。
104、根据群浏览行为特征与内容特征的相似度,在待推荐内容集合中筛选出待推荐用户群对应的初始待推荐内容。
例如,从待推荐内容集合中筛选出待推荐用户群对应的初始待推荐内容可以理解为从待推荐内容集合中通过待推荐用户群的群画像召回对应的初始待推荐内容,筛选或召回的方式可以通过先计算群浏览行为特征和内容特征的相似度,比如,可以将群浏览行为特征和内容特征发送至计算服务器进行计算,然后,获取计算服务器返回的群浏览行为特征和内容特征的相似度。由于群浏览行为特征和内容特征在同一个向量空间下,还可以通过计算群浏览行为特征和内容特征的余弦相似度,或者计算群浏览行为特征和内容特征的特征距离,根据特征距离来确定群浏览行为特征和内容特征之间的相似度。获取用于筛选初始待推荐内容的相似度阈值,将群浏览行为特征和内容特征的相似度与相似度阈值进行对比,在待推荐内容集合中筛选出相似度超过相似度阈值的待推荐内容作为待推荐用户群对应的初始待推荐内容。
105、基于群历史浏览记录和初始待推荐内容,确定待推荐用户的目标待推荐内容,并将目标待推荐内容推荐至待推荐用户。
例如,可以根据待推荐用户的历史浏览记录,在群历史浏览内容中筛选出待推荐用户未浏览过的群历史浏览内容,得到目标群历史内容,基于目标群历史内容和初始待推荐内容,确定待推荐用户的目标待推荐内容,将目标待推荐内容推荐至待推荐用户,具体可以如下:
(1)根据待推荐用户的历史浏览记录,在群历史浏览内容中筛选出待推荐用户未浏览过的群历史浏览内容,得到目标群历史内容。
例如,根据待推荐用户的历史浏览记录,在群历史浏览内容筛选出待推荐用户未浏览过的群历史浏览内容,比如,以待推荐用户的历史浏览记录中包含内容A和内容B为例,在群历史浏览内容中筛选出除了内容A和内容B以外的内容,这些筛选出的内容就可以为待推荐用户未浏览过的内容,从而就可以得到目标群历史内容。
(2)基于目标群历史内容和初始待推荐内容,确定待推荐用户的目标待推荐内容。
例如,将目标群历史浏览内容和初始待推荐内容进行融合,得到候选待推荐内容,比如,将目标群历史浏览内容和初始待推荐内容进行汇总之后求并集,就可以得到候选待推荐内容,这个可以理解为通过目标群历史浏览内容作为辅助推荐,根据群浏览行为特征从待推荐内容集合中召回或者筛选出待推荐用户群对应的初始待推荐内容可以作为主要推荐方式,将辅助推荐方式推荐的目标历史浏览内容和主要推荐方式召回的初始待推荐内容进行融合就可以得到候选待推荐内容,如图6所示。在候选待推荐内容筛选出预设数量的候选待推荐内容作为目标待推荐内容,比如,在候选待筛选内容中筛选出20个候选待推荐内容,筛选规则可以为随机筛选,也可以根据与群浏览行为特征之间的相似度进行筛选,预设数量可以根据实际应用来设定。
(3)将目标待推荐内容推荐至待推荐用户。
例如,计算目标待推荐内容的浏览概率,基于浏览概率,对目标待推荐内容进行排序,得到目标待推荐内容的推荐顺序,比如,可以将目标待推荐内容传递至rank模块进行点击通过率(Click-Through-Rate,CTR)预估,将预估到的每个目标待推荐内容的CTR作为浏览概率,在根据CTR对目标待推荐内容进行排序,这里的排序是指的推荐至待推荐用户的推荐顺序,得到目标待推荐内容的推荐顺序。按照推荐顺序,将目标待推荐内容推荐至待推荐内容,比如,通过rerank模块根据推荐顺序,将目标待推荐内容推荐至待推荐用户的浏览页面,并对浏览页面中的内容进行重新排版,最终在待推荐用户的浏览页面上显示目标待推荐内容。
由以上可知,本发明实施例在获取待推荐用户数据集合和待推荐内容集合后,该待推荐用户数据集合包括多个待推荐用户的历史浏览记录,对历史浏览记录和待推荐内容集合中的待推荐内容进行多维度特征提取,得到待推荐用户的浏览行为特征和待推荐内容的内容特征,根据浏览行为特征和历史浏览记录,对待推荐用户进行聚类,以得到多个待推荐用户群、以及待推荐用户群的群浏览行为特征和群历史浏览记录,根据群浏览行为特征与内容特征的相似度,在待推荐内容集合中筛选出待推荐用户群对应的初始待推荐内容,基于群历史浏览记录和初始待推荐内容,确定待推荐用户的目标待推荐内容,并将目标待推荐内容推荐至待推荐用户;由于该方案通过对待推荐用户的和历史浏览记录和待推荐内容进行多维度的特征提取,而不是单独的提取出词向量特征,而且还通过历史浏览记录对待推荐内容进行补充推荐,因此,可以大大提升内容推荐的准确率。
根据上面实施例所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以该内容推荐装置具体集成在电子设备,电子设备为服务器,待推荐内容为待推荐文章,交互提取子模型为CIN模型,深度提取子模型为DNN模型为例进行说明。
如图7所示,一种内容推荐方法,具体流程如下:
201、服务器获取待推荐用户数据集合待推荐文章集合。
例如,服务器接收内容服务商发送的取每个用户的历史浏览记录和还未推荐给用户的待推荐文章集合,将每个用户的历史浏览记录构成用户数据集合。还可以直接从内容服务商的数据库中获取每个用户的历史浏览集合和已推荐文章记录,构成用户数据集合,然后,在互联网上直接爬取除了已推荐文章记录以外的待推荐文章,得到待推荐文章集合。在待推荐文章集合中的数据较多时,还可以间接获取到待推荐文章,比如,内容服务商向服务器发送文章推荐请求,该文章推荐请求中携带待推荐用户的历史浏览记录和待推荐文章在第三方数据库中的存储地址,服务器根据存储地址,在第三方数据库中提取出待推荐文章,得到待推荐内文章集合。对于获取待推荐用户数据集合和待推荐文章集合的时限可以为周期性的,还可以根据待推荐文章的数量,来确定获取的周期,比如,当待推荐文章集合中的待推荐文章数量超过一个数量阈值时,就触发服务器获取待推荐用户数据集合和待推荐文章集合。
202、服务器根据历史浏览记录,确定待推荐用户的历史浏览文章。
例如,服务器通过对获取周期内的历史浏览记录进行识别,就可以确定待推荐用户在这个获取周期内的历史浏览文章,比如,以获取周期为1个月为例,在1个月内的历史浏览记录中记载了待推荐用户浏览了文章A、文章B和文章C,就可以确定待推荐用户的历史浏览文章为文章A、文章B和文章C。
203、服务器对历史浏览文章进行统计,得到待推荐用户的浏览行为信息。
例如,服务器根据确定的历史浏览文章,来获取待推荐用户浏览历史浏览文章的文章标签、浏览时间和文章来源,统计待推荐用户对同一类型或同一标签的历史浏览文章的浏览次数,浏览频率,还可以统计这些历史浏览文章的文章来源,对这些文章来源进行分类,从而得到待推荐用户的浏览行为信息,譬如,用户在获取周期内浏览了1000个篇文章,其中有700篇文章的文章标签为娱乐新闻,这些文章的文章来源有3/4来自于“XX微博热搜”,此时,可以基于这些信息对待推荐用户进行用户画像,确定该待推荐用户的用户画像为喜欢浏览“XX微博热搜”的娱乐新闻,当然,还可以对这些娱乐新闻进行进步一细粒度的划分,比如,划分为国外娱乐和国内娱乐等,将得到的用户画像就可以为待推荐用户的用户浏览行为信息。
204、服务器对浏览行为信息和待推荐文章集合中的待推荐文章进行多维度特征提取,得到待推荐用户的浏览行为特征和待推荐文章的内容特征。
例如,服务器可以采用训练后提取模型对浏览行为信息进行特征提取,并将提取到的初始浏览行为特征进行融合,得到待推荐用户的浏览行为特征,采用训练后提取模型对待推荐文章集合中的待推荐文章进行特征提取,并将提取到的初始内容特征进行融合,得到待推荐文章的内容特征,具体可以如下:
(1)服务器采用训练后提取模型对浏览行为信息进行特征提取,并将提取到的初始浏览行为特征进行融合,得到待推荐用户的浏览行为特征。
例如,服务器可以采用第一层网络层对浏览行为信息进行特征提取,得到第一网络层的第一原始状态特征,根据第一原始状态特征和浏览行为信息,计算网络层之间的中间数据,基于中间数据,计算其他网络层对浏览行为信息进行特征提取后的第二原始状态特征,比如,可以把输入至CIN模型的浏览行为信息和CIN模型内部的网络层都分别组织成一个矩阵,即为x0和xk,CIN中每一层的神经元都是根据前一个网络层的隐层以及原始的浏览行为信息推算出来的,具体计算公式可以如下:
其中,为第K层的原始状态特征,/>为原始输入的浏览行为信息对应的矩阵,o为中间数据,也可以称为中介结果。
针对该公式的具体计算可以为采用第一层网络层直接对浏览行为信息进行特征提取,可以得到第一层网络的第一原始状态特征,根据第一原始状态特征和原始的浏览行为信息,计算出第一层网络层和第二层网络层之间的中间数据,然后,在根据中间数据和第一原始状态特征,计算出第二层网络层的原始状态特征,再根据第二层网络的原始状态特征和浏览行为信息,计算下一个网络层的原始状态特征,就可以得到其他网络层的第二原始状态特征。将第一原始状态特征和第二原始状态特征进行融合,得到第一初始浏览行为特征,比如,可以在每一个网络层后面都可以接入一个或者多个池化层,将网络层输出的第一原始状态特征和第二原始状态特征都通过池化层进行池化操作,得到第一初始浏览行为特征。
服务器可以采用DNN模型对浏览行为信息进行局部特征提取,得到多个局部浏览行为特征,可以将多个局部浏览行为特征进行拼接,得到全局浏览行为特征,可以采用深度提取子模型中的全连接层网络多全局浏览行为特征进行高阶特征提取,就可以得到第二初始浏览行为特征,将第一初始浏览行为特征和第二初始浏览行为特征进行特征拼接,然后继续采用一个或多个全连接层网络对拼接好的初始浏览行为特征进行全连接映射,将拼接好的初始浏览行为特征映射到1个N维向量,得到待推荐用户的浏览行为特征。
其中,对于待推荐用户的浏览行为信息和待推荐文章集合的待推荐文章采用的是同一套模型组合分别进行特征提取,对浏览行为信息和待推荐文章的特征提取没有先后之后,采用的并行提取的模式。
(2)服务器采用训练后提取模型对所述待推荐文章集合中的待推荐文章进行特征提取,并将提取到的初始内容特征进行融合,得到待推荐文章的内容特征。
例如,服务器也可以采用CIN模型对待推荐文章进行特征提取,并将提取到的初始状态特征进行特征交互,得到第一初始内容特征,具体的采集方式与对浏览行为信息进行特征提取的步骤相同,具体的特征提取方式见上文。采用DNN模型对待推荐文章进行局部特征提取,并将提取到的局部特征进行融合,以得到第二初始内容特征,具体的采集方式与对浏览行为信息进行特征提取的步骤相同,具体的特征提取方式见上文。将第一初始内容特征与第二初始内容特征进行拼接,然后继续采用一个或多个全连接网络对拼接好的初始内容特征进行全连接映射,将拼接好的初始内容特征映射到1个N维向量,得到待推荐文章的内容特征。
其中,该训练后提取模型可以根据实际应用的需求进行设置,另外,需要说的是,该训练后识别模型可以由维护人员预先进行设置,也可以由该内容推荐装置自行训练,即步骤“采用训练后提取模型对浏览行为信息进行特征提取,并将提取到的初始浏览行为特征进行融合,得到待推荐用户的浏览行为特征,采用训练后提取模型对待推荐文章集合中的待推荐文章进行特征提取,并将提取到的初始内容特征进行融合,得到待推荐文章的内容特征”之前,该内容推荐方法还可以包括:
(1)采集浏览行为信息样本和待推荐文章样本,该浏览行为信息样本已标注浏览行为特征,该待推荐文章样本已标注内容特征。
例如,服务器可以采集多个原始浏览行为记录和待推荐文章样本集合,比如,可以从数据库或者网上下载或爬取到用户的原始浏览行为记录和待推荐文章样本集合,根据原始浏览行为记录,确定用户的历史浏览内文章,对历史浏览文章进行统计,得到浏览行为信息,对浏览行为信息标注浏览行为特征,得到浏览行为信息样本,对待推荐文章样本集合中的原始待推荐文章样本标注内容特征,得到待推荐文章样本。
(2)服务器采用预设提取模型对浏览行为信息样本和待推荐文章样本的特征进行预测,得到预测结果。
例如,服务器采用预设提取模型的CIN模型对浏览行为信息样本和待推荐文章样本进行特征提取,采用预设提取模型的DNN模型对浏览行为信息样本和待推荐文章样本进行特征提取,将提取的浏览行为信息样本和待推荐文章样本的特征信息分别进行融合,得到预测结果。
(3)服务器根据预测结果与浏览行为信息样本和待推荐文章样本中的标注结果对预设提取模型进行收敛,得到训练后提取模型。
例如,可以通过损失函数,根据预测结果与标注结果对预设提取模型进行收敛,得到训练后提取模型,譬如,具体可以如下:
采用sigmod函数,将输出的浏览行为特征和待推荐文章的内容特征映射到0至1的区间内,对于输出的预测和输入的标注的label通过logloss进行损失计算,具体如下:
其中,Llabel_1为预测结果与标注结果的损失值,y1为输入的标注结果,为输出的预测结果。根据计算出的损失值对预设提取模型的网络参数进行调整,就可以得到训练后提取模型。
可选的,还可以采用Dice函数,根据浏览行为信息和待推荐文章的预测结果与标注结果对于特征提取的参数进行调整,以及通过插值损失函数,根据浏览行为信息和待推荐文章的预测结果与标注结果对于特征提取的参数进行调整,就可以得到训练后提取模型。
可选的,为了提高浏览行为特征和内容特征提取的精确性,除了采用Dice函数之外,还可以采用其他的损失函数如交叉熵损失函数来进行收敛,具体可以如下:
采用交叉熵损失函数根据浏览行为信息和待推荐文章的预测结果与标注结果对于特征提取的参数进行调整,以及通过插值损失函数,根据浏览行为信息和待推荐文章的预测结果与标注结果对于特征提取的参数进行调整,得到训练后识别模型。
205、服务器根据浏览行为特征和历史浏览记录,对待推荐用户进行聚类,以得到多个待推荐用户群、以及待推荐用户群的群浏览行为特征和群历史浏览记录。
例如,服务器可以根据浏览行为特征,将都喜欢娱乐新闻或者体育新闻的待推荐用户聚类成一个待推荐用户群,还可以将浏览行为特征相似或相同的聚类成一个待推荐用户群等,还可以计算每个待推荐用户的浏览行为特征的特征距离,根据特征距离,对待推荐用户进行聚类,得到多个待推荐用户群。对待推荐用户群中的待推荐用户的历史浏览记录进行统计,得到待推荐用户群的群历史浏览记录,根据群历史浏览记录,确定待推荐用户群的群历史浏览文章,对群历史浏览文章进行特征提取,得到待推荐用户群的初始群浏览行为特征,比如,可以对群历史浏览文章进行统计,得到待推荐用户群的群画像,将该群画像作为待推荐用户群的群浏览行为信息,对群浏览行为信息进行特征提取,可以采用训练后提取模型进行提取,还可以采用其他提取模型进行特征提取,得到待推荐用户群的初始群浏览行为特征。计算待推荐用户的浏览行为特征和初始群浏览行为特征的平均值作为待推荐用户群的群浏览行为特征,还可以获取待推荐用户的浏览行为特征和初始群浏览行为特征的权重,根据权重,对待推荐用户的浏览行为特征和初始群浏览行为特征进行加权,得到待推荐用户群的群浏览行为特征。
其中,待推荐用户兴趣的多变性,一个待推荐用户可能会同时属于多个待推荐用户群。
206、服务器根据群浏览行为特征与内容特征的相似度,在待推荐文章集合中筛选出待推荐用户群对应的初始待推荐文章。
例如,服务器可以将群浏览行为特征和内容特征发送至计算服务器进行计算,然后,获取计算服务器返回的群浏览行为特征和内容特征的相似度。由于群浏览行为特征和内容特征在同一个向量空间下,还可以通过计算群浏览行为特征和内容特征的余弦相似度,或者计算群浏览行为特征和内容特征的特征距离,根据特征距离来确定群浏览行为特征和内容特征之间的相似度。获取用于筛选初始待推荐文章的相似度阈值,将群浏览行为特征和内容特征的相似度与相似度阈值进行对比,在待推荐文章集合中筛选出相似度超过相似度阈值的待推荐文章作为待推荐用户群对应的初始待推荐文章。
207、服务器根据待推荐用户的历史浏览记录,在群历史浏览文章中筛选出待推荐用户未浏览过的群历史浏览文章,得到目标群历史文章。
例如,以待推荐用户的历史浏览记录中包含文章A和文章B为例,服务器在群历史浏览文章中筛选出除了文章A和文章B以外的内容,这些筛选出的文章就可以为待推荐用户未浏览过的文章,从而就可以得到目标群历史文章。
208、服务器基于目标群历史文章和初始待推荐文章,确定待推荐用户的目标待推荐文章。
例如,服务器将目标群历史浏览文章和初始待推荐文章进行汇总之后求并集,就可以得到候选待推荐文章,在候选待推荐文章筛选出预设数量的候选待推荐文章作为目标待推荐文章,比如,在候选待筛选文章中筛选出20个候选待推荐文章,筛选规则可以为随机筛选,也可以根据与群浏览行为特征之间的相似度进行筛选,预设数量可以根据实际应用来设定。
209、服务器将目标待推荐文章推荐至待推荐用户。
例如,服务器可以将目标待推荐文章传递至rank模块进行CTR预估,将预估到的每个目标待推荐文章的CTR作为浏览概率,在根据CTR对目标待推荐文章进行排序,得到目标待推荐文章的推荐顺序。通过rerank模块根据推荐顺序,将目标待推荐文章推荐至待推荐用户的浏览页面,并对浏览页面中的内容进行重新排版,最终在待推荐用户的浏览页面上显示目标待推荐文章。
由以上可知,本实施例服务器在获取待推荐用户数据集合和待推荐文章集合后,该待推荐用户数据集合包括多个待推荐用户的历史浏览记录,对历史浏览记录和待推荐文章集合中的待推荐文章进行多维度特征提取,得到待推荐用户的浏览行为特征和待推荐文章的内容特征,根据浏览行为特征和历史浏览记录,对待推荐用户进行聚类,以得到多个待推荐用户群、以及待推荐用户群的群浏览行为特征和群历史浏览记录,根据群浏览行为特征与内容特征的相似度,在待推荐文章集合中筛选出待推荐用户群对应的初始待推荐文章,基于群历史浏览记录和初始待推荐文章,确定待推荐用户的目标待推荐文章,并将目标待推荐文章推荐至待推荐用户;由于该方案通过对待推荐用户的和历史浏览记录和待推荐文章进行多维度的特征提取,而不是单独的提取出词向量特征,而且还通过历史浏览记录对待推荐文章进行补充推荐,因此,可以大大提升文章推荐的准确率。
为了更好地实施以上方法,本发明实施例还提供一种内容推荐装置,该内容推荐装置可以集成在电子设备,比如服务器或终端等设备中,该终端可以包括平板电脑、笔记本电脑和/或个人计算机等。
例如,如图8所示,该内容推荐生成装置可以包括获取单元301、提取单元302、聚类单元303、筛选单元304和推荐单元305,如下:
(1)获取单元301;
获取单元301,用于获取待推荐用户数据集合和待推荐内容集合,该待推荐用户数据集合包括多个待推荐用户的历史浏览记录。
例如,获取单元301,具体可以用于接收内容服务商发送的取每个用户的历史浏览记录和还未推荐给用户的待推荐内容集合,将每个用户的历史浏览记录构成用户数据集合,或者直接从内容服务商的数据库中获取每个用户的历史浏览集合和已推荐内容记录,构成用户数据集合,然后,在互联网上直接爬取除了已推荐内容记录以外的待推荐内容,得到待推荐内容集合。
(2)提取单元302;
提取单元302,用于对历史浏览记录和待推荐内容集合中的待推荐内容进行多维度特征提取,得到待推荐用户的浏览行为特征和待推荐内容的内容特征。
例如,提取单元302,具体可以用于根据历史浏览记录,确定待推荐用户的历史浏览内容,对历史浏览内容进行统计,得到待推荐用户的浏览行为信息,对浏览行为信息和待推荐内容集合中的待推荐内容进行多维度特征提取,得到待推荐用户的浏览行为特征和待推荐内容的内容特征。
(3)聚类单元303;
聚类单元303,用于根据浏览行为特征和历史浏览记录,对待推荐用户进行聚类,以得到多个待推荐用户群、以及待推荐用户群的群浏览行为特征和群历史浏览记录。
例如,聚类单元303,具体可以用于根据浏览行为特征,对待推荐用户进行聚类,得到多个待推荐用户群,对待推荐用户群中的待推荐用户的历史浏览记录进行统计,得到待推荐用户群的群历史浏览记录,基于待推荐用户的浏览行为特征和群历史浏览记录,确定待推荐用户群的群浏览行为特征。
(4)筛选单元304;
筛选单元304,用于根据群浏览行为特征与内容特征的相似度,在待推荐内容集合中筛选出待推荐用户群对应的初始待推荐内容。
例如,筛选单元304,具体可以用于计算群浏览行为特征与内容特征的相似度,获取用于筛选初始待推荐内容的相似度阈值,将相似度与相似度阈值进行对比,在待推荐内容集合中筛选出相似度超过相似度阈值的待推荐内容作为待推荐用户群对应的初始待推荐内容。
(5)推荐单元305;
推荐单元305,用于基于群历史浏览记录和初始待推荐内容,确定待推荐用户的目标待推荐内容,并将目标待推荐内容推荐至待推荐用户。
例如,推荐单元305,具体可以用于根据待推荐用户的历史浏览记录,在群历史浏览内容在筛选出待推荐用户未浏览过的群历史浏览内容,得到目标群历史内容,基于目标群历史内容和初始待推荐内容,确定待推荐用户的目标待推荐内容,将目标待推荐内容推荐至待推荐用户。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由以上可知,本实施例在获取单元301获取待推荐用户数据集合和待推荐内容集合后,该待推荐用户数据集合包括多个待推荐用户的历史浏览记录,提取单元302对历史浏览记录和待推荐内容集合中的待推荐内容进行多维度特征提取,得到待推荐用户的浏览行为特征和待推荐内容的内容特征,聚类单元303根据浏览行为特征和历史浏览记录,对待推荐用户进行聚类,以得到多个待推荐用户群、以及待推荐用户群的群浏览行为特征和群历史浏览记录,筛选单元304根据群浏览行为特征与内容特征的相似度,在待推荐内容集合中筛选出待推荐用户群对应的初始待推荐内容,推荐单元305基于群历史浏览记录和初始待推荐内容,确定待推荐用户的目标待推荐内容,并将目标待推荐内容推荐至待推荐用户;由于该方案通过对待推荐用户的和历史浏览记录和待推荐内容进行多维度的特征提取,而不是单独的提取出词向量特征,而且还通过历史浏览记录对待推荐内容进行补充推荐,因此,可以大大提升内容推荐的准确率。
本发明实施例还提供一种电子设备,如图9所示,其示出了本发明实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图9中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体检测。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
电子设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取待推荐用户数据集合和待推荐内容集合,该待推荐用户数据集合包括多个待推荐用户的历史浏览记录,对历史浏览记录和待推荐内容集合中的待推荐内容进行多维度特征提取,得到待推荐用户的浏览行为特征和待推荐内容的内容特征,根据浏览行为特征和历史浏览记录,对待推荐用户进行聚类,以得到多个待推荐用户群、以及待推荐用户群的群浏览行为特征和群历史浏览记录,根据群浏览行为特征与内容特征的相似度,在待推荐内容集合中筛选出待推荐用户群对应的初始待推荐内容,基于群历史浏览记录和初始待推荐内容,确定待推荐用户的目标待推荐内容,并将目标待推荐内容推荐至待推荐用户。
例如,接收内容服务商发送的取每个用户的历史浏览记录和还未推荐给用户的待推荐内容集合,将每个用户的历史浏览记录构成用户数据集合,或者直接从内容服务商的数据库中获取每个用户的历史浏览集合和已推荐内容记录,构成用户数据集合,然后,在互联网上直接爬取除了已推荐内容记录以外的待推荐内容,得到待推荐内容集合。根据历史浏览记录,确定待推荐用户的历史浏览内容,对历史浏览内容进行统计,得到待推荐用户的浏览行为信息,对浏览行为信息和待推荐内容集合中的待推荐内容进行多维度特征提取,得到待推荐用户的浏览行为特征和待推荐内容的内容特征。根据浏览行为特征,对待推荐用户进行聚类,得到多个待推荐用户群,对待推荐用户群中的待推荐用户的历史浏览记录进行统计,得到待推荐用户群的群历史浏览记录,基于待推荐用户的浏览行为特征和群历史浏览记录,确定待推荐用户群的群浏览行为特征。计算群浏览行为特征与内容特征的相似度,获取用于筛选初始待推荐内容的相似度阈值,将相似度与相似度阈值进行对比,在待推荐内容集合中筛选出相似度超过相似度阈值的待推荐内容作为待推荐用户群对应的初始待推荐内容。根据待推荐用户的历史浏览记录,在群历史浏览内容在筛选出待推荐用户未浏览过的群历史浏览内容,得到目标群历史内容,基于目标群历史内容和初始待推荐内容,确定待推荐用户的目标待推荐内容,将目标待推荐内容推荐至待推荐用户。
以上各个操作的具体实施可参见前面的实施例,在此不作赘述。
由以上可知,本发明实施例在获取待推荐用户数据集合和待推荐内容集合后,该待推荐用户数据集合包括多个待推荐用户的历史浏览记录,对历史浏览记录和待推荐内容集合中的待推荐内容进行多维度特征提取,得到待推荐用户的浏览行为特征和待推荐内容的内容特征,根据浏览行为特征和历史浏览记录,对待推荐用户进行聚类,以得到多个待推荐用户群、以及待推荐用户群的群浏览行为特征和群历史浏览记录,根据群浏览行为特征与内容特征的相似度,在待推荐内容集合中筛选出待推荐用户群对应的初始待推荐内容,基于群历史浏览记录和初始待推荐内容,确定待推荐用户的目标待推荐内容,并将目标待推荐内容推荐至待推荐用户;由于该方案通过对待推荐用户的和历史浏览记录和待推荐内容进行多维度的特征提取,而不是单独的提取出词向量特征,而且还通过历史浏览记录对待推荐内容进行补充推荐,因此,可以大大提升内容推荐的准确率。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种内容推荐方法中的步骤。例如,该指令可以执行如下步骤:
获取待推荐用户数据集合和待推荐内容集合,该待推荐用户数据集合包括多个待推荐用户的历史浏览记录,对历史浏览记录和待推荐内容集合中的待推荐内容进行多维度特征提取,得到待推荐用户的浏览行为特征和待推荐内容的内容特征,根据浏览行为特征和历史浏览记录,对待推荐用户进行聚类,以得到多个待推荐用户群、以及待推荐用户群的群浏览行为特征和群历史浏览记录,根据群浏览行为特征与内容特征的相似度,在待推荐内容集合中筛选出待推荐用户群对应的初始待推荐内容,基于群历史浏览记录和初始待推荐内容,确定待推荐用户的目标待推荐内容,并将目标待推荐内容推荐至待推荐用户。
例如,接收内容服务商发送的取每个用户的历史浏览记录和还未推荐给用户的待推荐内容集合,将每个用户的历史浏览记录构成用户数据集合,或者直接从内容服务商的数据库中获取每个用户的历史浏览集合和已推荐内容记录,构成用户数据集合,然后,在互联网上直接爬取除了已推荐内容记录以外的待推荐内容,得到待推荐内容集合。根据历史浏览记录,确定待推荐用户的历史浏览内容,对历史浏览内容进行统计,得到待推荐用户的浏览行为信息,对浏览行为信息和待推荐内容集合中的待推荐内容进行多维度特征提取,得到待推荐用户的浏览行为特征和待推荐内容的内容特征。根据浏览行为特征,对待推荐用户进行聚类,得到多个待推荐用户群,对待推荐用户群中的待推荐用户的历史浏览记录进行统计,得到待推荐用户群的群历史浏览记录,基于待推荐用户的浏览行为特征和群历史浏览记录,确定待推荐用户群的群浏览行为特征。计算群浏览行为特征与内容特征的相似度,获取用于筛选初始待推荐内容的相似度阈值,将相似度与相似度阈值进行对比,在待推荐内容集合中筛选出相似度超过相似度阈值的待推荐内容作为待推荐用户群对应的初始待推荐内容。根据待推荐用户的历史浏览记录,在群历史浏览内容在筛选出待推荐用户未浏览过的群历史浏览内容,得到目标群历史内容,基于目标群历史内容和初始待推荐内容,确定待推荐用户的目标待推荐内容,将目标待推荐内容推荐至待推荐用户。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本发明实施例所提供的任一种内容推荐方法中的步骤,因此,可以实现本发明实施例所提供的任一种内容推荐方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
其中,根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述内容推荐方面的各种可选实现方式中提供的方法。
以上对本发明实施例所提供的一种内容推荐方法、装置和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (15)
1.一种内容推荐方法,其特征在于,包括:
获取待推荐用户数据集合和待推荐内容集合,所述待推荐用户数据集合包括多个待推荐用户的历史浏览记录;
根据所述历史浏览记录,确定所述待推荐用户的历史浏览内容,对所述历史浏览内容进行统计,得到所述待推荐用户的浏览行为信息,采用训练后提取模型对所述浏览行为信息进行特征提取,并将提取到的初始浏览行为特征进行融合,得到所述待推荐用户的浏览行为特征,采用所述训练后提取模型对所述待推荐内容集合中的待推荐内容进行特征提取,并将提取到的初始内容特征进行融合,得到所述待推荐内容的内容特征;
根据所述浏览行为特征,对所述待推荐用户进行聚类,得到多个待推荐用户群,对所述待推荐用户群中的待推荐用户的历史浏览记录进行统计,得到所述待推荐用户群的群历史浏览记录,基于所述待推荐用户的浏览行为特征和群历史浏览记录,确定所述待推荐用户群的群浏览行为特征;
根据所述群浏览行为特征与所述内容特征的相似度,在所述待推荐内容集合中筛选出所述待推荐用户群对应的初始待推荐内容;
基于所述群历史浏览记录和初始待推荐内容,确定所述待推荐用户的目标待推荐内容,并将所述目标待推荐内容推荐至所述待推荐用户;
其中,对于待推荐用户的浏览行为信息和待推荐内容集合的待推荐内容采用的是同一套训练后提取模型组合分别进行特征提取,所述训练后提取模型是一种双塔网络,所述训练后提取模型的训练方式包括:
采集浏览行为信息样本和待推荐内容样本,该浏览行为信息样本已标注浏览行为特征,该待推荐内容样本已标注内容特征;
采用预设提取模型对浏览行为信息样本和待推荐内容样本的特征进行预测,得到预测结果;
根据预测结果与浏览行为信息样本和待推荐内容样本中的标注结果对预设提取模型进行收敛,得到训练后提取模型;
其中,对预设提取模型进行收敛,包括:采用损失函数将输出的浏览行为特征和待推荐内容的内容特征映射到0至1的区间内,对于输出的预测和输入的标注的标签通过对数损失公式进行损失计算,根据计算出的损失值对所述预设提取模型的网络参数进行调整,得到训练后提取模型。
2.根据权利要求1所述的内容推荐方法,其特征在于,所述训练后提取模型包括交互提取子模型和深度提取子模型,所述采用训练后提取模型对所述浏览行为信息进行特征提取,并将提取到的初始浏览行为特征进行融合,得到所述待推荐用户的浏览行为特征,包括:
采用所述交互提取子模型对所述浏览行为信息进行特征提取,并将提取到的原始状态特征进行特征交互,得到第一初始浏览行为特征;
采用所述深度提取子模型对所述浏览行为信息进行局部特征提取,并将提取到的局部浏览行为特征进行融合,以得到第二初始浏览行为特征;
将所述第一初始浏览行为特征和第二初始浏览行为特征进行融合,得到所述待推荐用户的浏览行为特征。
3.根据权利要求2所述的内容推荐方法,其特征在于,所述交互提取子模型包括多个网络层,所述采用所述交互提取子模型对所述浏览行为信息进行特征提取,并将提取到的原始状态特征进行特征交互,得到第一初始浏览行为特征,包括:
采用第一层网络层对所述浏览行为信息进行特征提取,得到所述第一层网络层的第一原始状态特征;
根据所述第一原始状态特征和浏览行为信息,计算所述网络层之间的中间数据;
基于所述中间数据,计算其他网络层对所述浏览行为信息进行特征提取后的第二原始状态特征;
将所述第一原始状态特征和第二原始状态特征进行融合,得到所述第一初始浏览行为特征。
4.根据权利要求2所述的内容推荐方法,其特征在于,所述采用所述深度提取子模型对所述浏览行为信息进行局部特征提取,并将提取到的局部浏览行为特征进行融合,以得到第二初始浏览行为特征,包括:
采用所述深度提取子模型对所述浏览行为信息进行局部特征提取,得到多个局部浏览行为特征;
将所述局部浏览行为特征进行融合,得到全局浏览行为特征;
采用所述深度提取子模型对所述全局浏览行为特征进行特征提取,得到所述第二初始浏览行为特征。
5.根据权利要求2所述的内容推荐方法,其特征在于,所述采用所述训练后提取模型对所述待推荐内容集合中的待推荐内容进行特征提取,并将提取到的初始内容特征进行融合,得到所述待推荐内容的内容特征,包括:
采用所述交互提取子模型对所述待推荐内容进行特征提取,并将提取到的初始状态特征进行特征交互,得到第一初始内容特征;
采用所述深度提取子模型对所述待推荐内容进行局部特征提取,并将提取到的局部内容特征进行融合,以得到第二初始内容特征;
将所述第一初始内容特征和第二初始内容特征进行融合,得到所述待推荐内容的内容特征。
6.根据权利要求1所述的内容推荐方法,其特征在于,所述基于所述待推荐用户的浏览行为特征和群历史浏览记录,确定所述待推荐用户群的群浏览行为特征,包括:
根据所述群历史浏览记录,确定所述待推荐用户群的群历史浏览内容;
对所述群历史浏览内容进行特征提取,得到所述待推荐用户群的初始群浏览行为特征;
将所述待推荐用户的浏览行为特征和所述初始群浏览行为特征进行融合,得到所述待推荐用户群的群浏览行为特征。
7.根据权利要求6所述的内容推荐方法,其特征在于,所述基于所述群历史浏览记录和初始待推荐内容,确定所述待推荐用户的目标待推荐内容,并将所述目标待推荐内容推荐至所述待推荐用户,包括:
根据所述待推荐用户的历史浏览记录,在所述群历史浏览内容在筛选出所述待推荐用户未浏览过的群历史浏览内容,得到目标群历史内容;
基于所述目标群历史内容和初始待推荐内容,确定所述待推荐用户的目标待推荐内容;
将所述目标待推荐内容推荐至所述待推荐用户。
8.根据权利要求7所述的内容推荐方法,其特征在于,所述基于所述目标群历史内容和初始待推荐内容,确定所述待推荐用户的目标待推荐内容,包括:
将所述目标群历史内容和初始待推荐内容进行融合,得到候选待推荐内容;
在所述候选待推荐内容筛选出预设数量的候选待推荐内容作为目标待推荐内容。
9.根据权利要求7所述的内容推荐方法,其特征在于,所述将所述目标待推荐内容推荐至所述待推荐用户,包括:
计算所述目标待推荐内容的浏览概率;
基于所述浏览概率,对所述目标待推荐内容进行排序,得到目标待推荐内容的推荐顺序;
按照所述推荐顺序,将所述目标待推荐内容推荐至所述待推荐用户。
10.根据权利要求1至5任一项所述的内容推荐方法,其特征在于,所述根据所述群浏览行为特征与所述内容特征的相似度,在所述待推荐内容集合中筛选出所述待推荐用户群对应的初始待推荐内容,包括:
计算所述群浏览行为特征与所述内容特征的相似度;
获取用于筛选所述初始待推荐内容的相似度阈值;
将所述相似度与相似度阈值进行对比;
在所述待推荐内容集合中筛选出相似度超过所述相似度阈值的待推荐内容作为所述待推荐用户群对应的初始待推荐内容。
11.一种内容推荐装置,其特征在于,包括:
获取单元,用于获取待推荐用户数据集合和待推荐内容集合,所述待推荐用户数据集合包括多个待推荐用户的历史浏览记录;
提取单元,用于根据所述历史浏览记录,确定所述待推荐用户的历史浏览内容,对所述历史浏览内容进行统计,得到所述待推荐用户的浏览行为信息,采用训练后提取模型对所述浏览行为信息进行特征提取,并将提取到的初始浏览行为特征进行融合,得到所述待推荐用户的浏览行为特征,采用所述训练后提取模型对所述待推荐内容集合中的待推荐内容进行特征提取,并将提取到的初始内容特征进行融合,得到所述待推荐内容的内容特征;
聚类单元,用于根据所述浏览行为特征,对所述待推荐用户进行聚类,得到多个待推荐用户群,对所述待推荐用户群中的待推荐用户的历史浏览记录进行统计,得到所述待推荐用户群的群历史浏览记录,基于所述待推荐用户的浏览行为特征和群历史浏览记录,确定所述待推荐用户群的群浏览行为特征;
筛选单元,用于根据所述群浏览行为特征与所述内容特征的相似度,在所述待推荐内容集合中筛选出所述待推荐用户群对应的初始待推荐内容;
推荐单元,用于基于所述群历史浏览记录和初始待推荐内容,确定所述待推荐用户的目标待推荐内容,并将所述目标待推荐内容推荐至所述待推荐用户;
其中,对于待推荐用户的浏览行为信息和待推荐内容集合的待推荐内容采用的是同一套训练后提取模型组合分别进行特征提取,所述训练后提取模型是一种双塔网络,所述训练后提取模型的训练方式包括:
采集浏览行为信息样本和待推荐内容样本,该浏览行为信息样本已标注浏览行为特征,该待推荐内容样本已标注内容特征;
采用预设提取模型对浏览行为信息样本和待推荐内容样本的特征进行预测,得到预测结果;
根据预测结果与浏览行为信息样本和待推荐内容样本中的标注结果对预设提取模型进行收敛,得到训练后提取模型;
其中,对预设提取模型进行收敛,包括:采用损失函数将输出的浏览行为特征和待推荐内容的内容特征映射到0至1的区间内,对于输出的预测和输入的标注的标签通过对数损失公式进行损失计算,根据计算出的损失值对所述预设提取模型的网络参数进行调整,得到训练后提取模型。
12.根据权利要求11所述的内容推荐装置,其特征在于,所述聚类单元,具体可以用于根据所述群历史浏览记录,确定所述待推荐用户群的群历史浏览内容;对所述群历史浏览内容进行特征提取,得到所述待推荐用户群的初始群浏览行为特征;将所述待推荐用户的浏览行为特征和所述初始群浏览行为特征进行融合,得到所述待推荐用户群的群浏览行为特征。
13.根据权利要求11所述的内容推荐装置,其特征在于,所述推荐单元,具体可以用于根据所述待推荐用户的历史浏览记录,在所述群历史浏览内容在筛选出所述待推荐用户未浏览过的群历史浏览内容,得到目标群历史内容;基于所述目标群历史内容和初始待推荐内容,确定所述待推荐用户的目标待推荐内容;将所述目标待推荐内容推荐至所述待推荐用户。
14.根据权利要求11所述的内容推荐装置,其特征在于,所述筛选单元,具体可以用于计算所述群浏览行为特征与所述内容特征的相似度;获取用于筛选所述初始待推荐内容的相似度阈值;将所述相似度与相似度阈值进行对比;在所述待推荐内容集合中筛选出相似度超过所述相似度阈值的待推荐内容作为所述待推荐用户群对应的初始待推荐内容。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至10任一项所述的内容推荐方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010825424.7A CN112052387B (zh) | 2020-08-17 | 2020-08-17 | 一种内容推荐方法、装置和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010825424.7A CN112052387B (zh) | 2020-08-17 | 2020-08-17 | 一种内容推荐方法、装置和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112052387A CN112052387A (zh) | 2020-12-08 |
CN112052387B true CN112052387B (zh) | 2024-03-26 |
Family
ID=73600363
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010825424.7A Active CN112052387B (zh) | 2020-08-17 | 2020-08-17 | 一种内容推荐方法、装置和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112052387B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113609409B (zh) * | 2021-07-21 | 2024-06-14 | 深圳供电局有限公司 | 一种推荐浏览信息的方法及其系统、电子设备、存储介质 |
CN113342998B (zh) * | 2021-08-05 | 2022-06-10 | 北京达佳互联信息技术有限公司 | 一种多媒体资源推荐方法、装置、电子设备及存储介质 |
CN113821728B (zh) * | 2021-09-29 | 2023-08-25 | 平安银行股份有限公司 | 内容推荐方法和装置 |
CN113987326B (zh) * | 2021-12-28 | 2022-03-25 | 北京达佳互联信息技术有限公司 | 资源推荐方法、装置、计算机设备及介质 |
CN114756758B (zh) * | 2022-04-29 | 2023-04-07 | 杭州核新软件技术有限公司 | 一种混合推荐方法和系统 |
CN115065845A (zh) * | 2022-06-17 | 2022-09-16 | 联通沃音乐文化有限公司 | 一种社群融合推荐的影音视频播放管理方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106022865A (zh) * | 2016-05-10 | 2016-10-12 | 江苏大学 | 一种基于评分和用户行为的商品推荐方法 |
WO2018223772A1 (zh) * | 2017-06-09 | 2018-12-13 | 华为技术有限公司 | 内容推荐方法和系统 |
CN110162706A (zh) * | 2019-05-22 | 2019-08-23 | 南京邮电大学 | 一种基于交互数据聚类的个性化推荐方法及系统 |
CN110598111A (zh) * | 2019-09-17 | 2019-12-20 | 山东爱城市网信息技术有限公司 | 一种基于区块链的个性化推荐系统及方法 |
CN110825957A (zh) * | 2019-09-17 | 2020-02-21 | 中国平安人寿保险股份有限公司 | 基于深度学习的信息推荐方法、装置、设备及存储介质 |
CN111310056A (zh) * | 2020-03-11 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 基于人工智能的信息推荐方法、装置、设备及存储介质 |
-
2020
- 2020-08-17 CN CN202010825424.7A patent/CN112052387B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106022865A (zh) * | 2016-05-10 | 2016-10-12 | 江苏大学 | 一种基于评分和用户行为的商品推荐方法 |
WO2018223772A1 (zh) * | 2017-06-09 | 2018-12-13 | 华为技术有限公司 | 内容推荐方法和系统 |
CN110162706A (zh) * | 2019-05-22 | 2019-08-23 | 南京邮电大学 | 一种基于交互数据聚类的个性化推荐方法及系统 |
CN110598111A (zh) * | 2019-09-17 | 2019-12-20 | 山东爱城市网信息技术有限公司 | 一种基于区块链的个性化推荐系统及方法 |
CN110825957A (zh) * | 2019-09-17 | 2020-02-21 | 中国平安人寿保险股份有限公司 | 基于深度学习的信息推荐方法、装置、设备及存储介质 |
CN111310056A (zh) * | 2020-03-11 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 基于人工智能的信息推荐方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112052387A (zh) | 2020-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112052387B (zh) | 一种内容推荐方法、装置和计算机可读存储介质 | |
CN110263265B (zh) | 用户标签生成方法、装置、存储介质和计算机设备 | |
CN110543598B (zh) | 信息推荐方法、装置及终端 | |
US10152479B1 (en) | Selecting representative media items based on match information | |
CN110909182B (zh) | 多媒体资源搜索方法、装置、计算机设备及存储介质 | |
CN106326391B (zh) | 多媒体资源推荐方法及装置 | |
CN113254711B (zh) | 一种互动图像的显示方法、装置、计算机设备和存储介质 | |
CN111783712A (zh) | 一种视频处理方法、装置、设备及介质 | |
CN112749330B (zh) | 信息推送方法、装置、计算机设备和存储介质 | |
CN111552884A (zh) | 用于内容推荐的方法和设备 | |
CN116975615A (zh) | 基于视频多模态信息的任务预测方法和装置 | |
CN112364184A (zh) | 多媒体数据的排序方法、装置、服务器及存储介质 | |
CN113395584B (zh) | 一种视频数据处理方法、装置、设备以及介质 | |
CN110569447B (zh) | 一种网络资源的推荐方法、装置及存储介质 | |
CN114817692A (zh) | 确定推荐对象的方法、装置和设备及计算机存储介质 | |
CN112115281A (zh) | 数据检索方法、装置及存储介质 | |
CN112163163B (zh) | 多算法融合的信息推荐方法、装置和设备 | |
CN116484085A (zh) | 一种信息投放方法、装置、设备及存储介质、程序产品 | |
CN109756759B (zh) | 一种弹幕信息推荐方法和装置 | |
CN111881352A (zh) | 内容推送方法、装置、计算机设备和存储介质 | |
CN111506754A (zh) | 图片检索方法、装置、存储介质及处理器 | |
CN116578767B (zh) | 语义数据处理、内容推荐方法、装置和计算机设备 | |
CN116521975B (zh) | 内容推荐方法、装置、计算机设备、可读存储介质和产品 | |
CN112000888B (zh) | 信息推送方法、装置、服务器及存储介质 | |
CN117216362A (zh) | 内容推荐方法、装置、设备、介质和程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40034961 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |