CN114647792A - 内容推荐方法、装置、计算机设备和存储介质 - Google Patents

内容推荐方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN114647792A
CN114647792A CN202210405412.8A CN202210405412A CN114647792A CN 114647792 A CN114647792 A CN 114647792A CN 202210405412 A CN202210405412 A CN 202210405412A CN 114647792 A CN114647792 A CN 114647792A
Authority
CN
China
Prior art keywords
content
titles
content titles
candidate
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210405412.8A
Other languages
English (en)
Inventor
丁琪
梁杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202210405412.8A priority Critical patent/CN114647792A/zh
Publication of CN114647792A publication Critical patent/CN114647792A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种内容推荐方法、装置、计算机设备和存储介质。涉及人工智能技术领域。方法包括:获取候选内容标题、各第一内容标题、以及各热点内容标题;通过文本特征提取模型,提取上述各内容标题的文本特征;根据各热点内容标题与候选内容标题的文本特征、以及热点特征筛选模型,确定候选内容标题的热点特征;并根据各第一内容标题与候选内容标题的文本特征、以及用户兴趣筛选模型,确定候选内容标题的用户兴趣特征;根据热点特征、用户兴趣特征、候选内容标题的文本特征,确定候选内容标题的点击概率,并根据点击概率判断候选内容标题对应的内容是否为推荐内容。采用本方法能够提升给用户推荐用户可能感兴趣的内容的可能性。

Description

内容推荐方法、装置、计算机设备和存储介质
技术领域
本申请涉及人工智能技术领域,特别是涉及一种内容推荐方法、装置、计算机设备和存储介质。
背景技术
随着互联网的快速发展,越来越多的人习惯上网获取内容,例如,新闻、即时文章、视频等。然而,每天产生的大量内容使得用户无法通过浏览所有内容来找到真正感兴趣的内容。内容推荐可以帮助用户快速找到感兴趣的内容,成为有效缓解内容信息过载的重要方式。
传统内容推荐方法,通过获取用户在浏览内容时的浏览记录、用户点击的内容页面的点击记录等行为数据,分析用户感兴趣的内容,并基于用户感兴趣的内容给用户推荐与该内容相关的内容。然而,这种完全个性化的推荐方式可能会使得推荐结果与用户所浏览的内容过于相似,甚至重复。从而导致无法给用户推荐用户可能感兴趣的内容。
发明内容
基于此,有必要针对上述技术问题,提供一种内容推荐方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种内容推荐方法。所述方法包括:
获取候选内容标题、历史时段内的目标用户点击的各第一内容标题、以及所述历史时段内的各热点内容标题;
将各所述第一内容标题、各所述热点内容标题、以及所述候选内容标题,分别输入文本特征提取模型,得到各所述第一内容标题的文本特征、各所述热点内容标题的文本特征、以及所述候选内容标题的文本特征;
根据各所述热点内容标题的文本特征、所述候选内容标题的文本特征、以及热点特征筛选模型,确定所述候选内容标题的热点特征;并根据各所述第一内容标题的文本特征、所述候选内容标题的文本特征、以及用户兴趣筛选模型,确定所述候选内容标题的用户兴趣特征;
根据所述候选内容标题的热点特征、所述候选内容标题的用户兴趣特征、所述候选内容标题的文本特征,确定所述候选内容标题的点击概率,并在所述点击概率大于预设点击概率阈值时,将所述候选内容标题对应的内容作为推荐内容。
可选的,所述文本特征提取模型包括降维层、卷积层、以及自注意力网络;所述将各所述第一内容标题、各所述热点内容标题、以及所述候选内容标题,分别输入文本特征提取模型,得到各所述第一内容标题的文本特征、各所述热点内容标题的文本特征、以及所述候选内容标题的文本特征,包括:
针对每个第一内容标题、每个热点内容标题、以及候选内容标题,通过所述降维层对所述内容标题进行降维处理,得到所述内容标题的低维向量;
通过所述卷积层,提取所述内容标题的低维向量的连续文本特征,并通过自注意力网络,提取已提取连续文本特征的内容标题的低维向量的非连续文本特征;
将所述内容标题的低维向量的连续文本特征、以及所述内容标题的低维向量的非连续文本特征,作为所述内容标题的文本特征,得到各所述第一内容标题的文本特征、各所述热点内容标题的文本特征、以及所述候选内容标题的文本特征。
可选的,所述热点特征筛选模型包括热点筛选算法和热点加权算法,所述根据各所述热点内容标题的文本特征、所述候选内容标题的文本特征、以及热点特征筛选模型,确定所述候选内容标题的热点特征,包括:
根据各所述热点内容标题的文本特征、所述候选内容标题的文本特征、以及所述热点筛选算法,确定与所述候选内容标题相关的各热点内容标题;
根据所述与所述候选内容标题相关的热点内容标题的文本特征、以及所述热点加权算法,确定所述候选内容标题的热点特征。
可选的,所述用户兴趣筛选模型包括兴趣筛选算法和兴趣特征权重算法,所述根据各所述第一内容标题的文本特征、所述候选内容标题的文本特征、以及用户兴趣筛选模型,确定所述候选内容标题的用户兴趣特征,包括:
根据各所述第一内容标题的文本特征、所述候选内容标题的文本特征、以及所述兴趣筛选算法,确定与所述候选内容标题相关的各第一内容标题;
根据所述与所述候选内容标题相关的第一内容标题文本特征、以及所述兴趣特征权重算法,确定所述候选内容标题的用户兴趣特征。
可选的,所述根据所述候选内容标题的热点特征、所述候选内容标题的用户兴趣特征、所述候选内容标题的文本特征,确定所述候选内容标题的点击概率,包括:
将所述候选内容标题的热点特征、以及所述候选内容标题的文本特征、输入点击预测模型的拼接算法,得到所述候选内容标题的热点向量;并将所述候选内容标题的用户兴趣特征、以及所述候选内容标题的文本特征,输入所述拼接算法,得到所述候选内容标题的兴趣向量;
通过所述点击预测模型的融合算法,将所述候选内容标题的热点向量、以及所述候选内容标题的兴趣向量进行融合,得到所述候选内容标题的融合向量;
根据所述候选内容标题的融合向量、以及所述点击预测模型的点击预测函数,确定所述候选内容标题的点击概率。
可选的,所述通过所述点击预测模型的融合算法,将所述候选内容标题的热点向量、以及所述候选内容标题的兴趣向量进行融合,得到所述候选内容标题的融合向量,包括:
通过所述融合算法,将候选内容标题的热点向量、以及所述候选内容标题的兴趣向量进行拼接融合,得到所述候选内容标题的融合向量;所述融合算法与所述拼接算法相同。
可选的,所述方法还包括:
获取样本内容标题、各样本时段内的目标用户点击的样本第一内容标题、以及各样本时段内的样本热点内容标题;各所述样本内容标题包括用户在样本时段内点击的第一类型的内容标题、以及用户在样本时段内未点击的第二类型的内容标题;
针对每个样本内容标题,将所述样本内容标题、各所述样本第一内容标题、以及各所述样本热点内容标题,输入初始内容推荐模型,得到所述样本内容标题的样本点击概率;所述初始内容推荐模型包括初始文本特征提取模型、初始热点特征筛选模型、初始兴趣筛选模型、以及初始点击预测模型;所述初始文本特征提取模型中包含有惩罚项;
通过各所述样本内容标题的样本类型、各所述样本点击概率、以及模型训练算法,对所述初始内容推荐模型进行训练,得到内容推荐模型。
第二方面,本申请还提供了一种内容推荐装置。所述装置包括:
第一获取模块,用于获取候选内容标题、历史时段内的目标用户点击的各第一内容标题、以及所述历史时段内的各热点内容标题;
编码模块,用于将各所述第一内容标题、各所述热点内容标题、以及所述候选内容标题,分别输入所述文本特征提取模型,得到各所述第一内容标题的文本特征、各所述热点内容标题的文本特征、以及所述候选内容标题的文本特征;
提取模块,用于根据各所述热点内容标题的文本特征、所述候选内容标题的文本特征、以及所述热点特征筛选模型,确定所述候选内容标题的热点特征;并根据各所述第一内容标题的文本特征、所述候选内容标题的文本特征、以及所述用户兴趣筛选模型,确定所述候选内容标题的用户兴趣特征;
推荐模块,用于根据所述候选内容标题的热点特征、所述候选内容标题的用户兴趣特征、所述候选内容标题的文本特征,确定所述候选内容标题的点击概率,并在所述点击概率大于预设点击概率阈值时,将所述候选内容标题对应的内容作为推荐内容。
可选的,所述文本特征提取模型包括降维层、卷积层、以及自注意力网络;所述编码模块,具体用于:
针对每个第一内容标题、每个热点内容标题、以及候选内容标题,通过所述降维层对所述内容标题进行降维处理,得到所述内容标题的低维向量;
通过所述卷积层,提取所述内容标题的低维向量的连续文本特征,并通过自注意力网络,提取已提取连续文本特征的内容标题的低维向量的非连续文本特征;
将所述内容标题的低维向量的连续文本特征、以及所述内容标题的低维向量的非连续文本特征,作为所述内容标题的文本特征,得到各所述第一内容标题的文本特征、各所述热点内容标题的文本特征、以及所述候选内容标题的文本特征。
可选的,所述热点特征筛选模型包括热点筛选算法和热点加权算法,所述提取模块,具体用于:
根据各所述热点内容标题的文本特征、所述候选内容标题的文本特征、以及所述热点筛选算法,确定与所述候选内容标题相关的各热点内容标题;
根据所述与所述候选内容标题相关的热点内容标题的文本特征、以及所述热点加权算法,确定所述候选内容标题的热点特征。
可选的,所述用户兴趣筛选模型包括兴趣筛选算法和兴趣特征权重算法,所述提取模块,具体用于:
根据各所述第一内容标题的文本特征、所述候选内容标题的文本特征、以及所述兴趣筛选算法,确定与所述候选内容标题相关的各第一内容标题;
根据所述与所述候选内容标题相关的第一内容标题文本特征、以及所述兴趣特征权重算法,确定所述候选内容标题的用户兴趣特征。
可选的,所述推荐模块,具体用于:
将所述候选内容标题的热点特征、以及所述候选内容标题的文本特征、输入点击预测模型的拼接算法,得到所述候选内容标题的热点向量;并将所述候选内容标题的用户兴趣特征、以及所述候选内容标题的文本特征,输入所述拼接算法,得到所述候选内容标题的兴趣向量;
通过所述点击预测模型的融合算法,将所述候选内容标题的热点向量、以及所述候选内容标题的兴趣向量进行融合,得到所述候选内容标题的融合向量;
根据所述候选内容标题的融合向量、以及所述点击预测模型的点击预测函数,确定所述候选内容标题的点击概率。
可选的,所述推荐模块,具体用于:
通过所述融合算法,将候选内容标题的热点向量、以及所述候选内容标题的兴趣向量进行拼接融合,得到所述候选内容标题的融合向量;所述融合算法与所述拼接算法相同。
可选的,所述装置还包括:
第二获取模块,用于获取样本内容标题、各样本时段内的目标用户点击的样本第一内容标题、以及各样本时段内的样本热点内容标题;各所述样本内容标题包括用户在样本时段内点击的第一类型的内容标题、以及用户在样本时段内未点击的第二类型的内容标题;
预测模块,用于针对每个样本内容标题,将所述样本内容标题、各所述样本第一内容标题、以及各所述样本热点内容标题,输入初始内容推荐模型,得到所述样本内容标题的样本点击概率;所述初始内容推荐模型包括初始文本特征提取模型、初始热点特征筛选模型、初始兴趣筛选模型、以及初始点击预测模型;所述初始文本特征提取模型中包含有惩罚项;
训练模块,用于通过各所述样本内容标题的样本类型、各所述样本点击概率、以及模型训练算法,对所述初始内容推荐模型进行训练,得到内容推荐模型。
第三方面,本申请提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现第一方面中任一项所述的方法的步骤。
第四方面,本申请提供了一种计算机可读存储介质。其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面中任一项所述的方法的步骤。
第五方面,本申请提供了一种计算机程序产品。所述计算机程序产品包括计算机程序,该计算机程序被处理器执行时实现第一方面中任一项所述的方法的步骤。
上述内容推荐方法、装置、计算机设备和存储介质,通过获取候选内容标题、历史时段内的目标用户点击的各第一内容标题、以及所述历史时段内的各热点内容标题;将各所述第一内容标题、各所述热点内容标题、以及所述候选内容标题,分别输入文本特征提取模型,得到各所述第一内容标题的文本特征、各所述热点内容标题的文本特征、以及所述候选内容标题的文本特征;根据各所述热点内容标题的文本特征、所述候选内容标题的文本特征、以及热点特征筛选模型,确定所述候选内容标题的热点特征;并根据各所述第一内容标题的文本特征、所述候选内容标题的文本特征、以及用户兴趣筛选模型,确定所述候选内容标题的用户兴趣特征;根据所述候选内容标题的热点特征、所述候选内容标题的用户兴趣特征、所述候选内容标题的文本特征,确定所述候选内容标题的点击概率,并在所述点击概率大于预设点击概率阈值时,将所述候选内容标题对应的内容作为推荐内容。通过结合用户历史点击内容的兴趣特征、以及热点内容的热点特征,综合判断用户点击候选内容的点击概率,并在点击概率高于预设点击概率的情况下,将该候选内容推荐给用户,从而提升了给用户推荐用户可能感兴趣的内容的可能性。
附图说明
图1为一个实施例中内容推荐方法的流程示意图;
图2为一个实施例中提取各内容标题的文本特征步骤的流程示意图;
图3为一个实施例中筛选候选内容标题的热点特征步骤的流程示意图;
图4为一个实施例中确定候选内容标题的点击概率步骤的流程示意图;
图5为一个实施例中训练内容推荐模型方法的流程示意图;
图6为一个实施例中内容推荐示例方法的流程示意图;
图7为一个实施例中内容推荐装置的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的内容推荐方法,可以应用于终端中,也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。其中,终端可以包括但不限于是各种个人计算机、笔记本电脑、平板电脑等。该终端用于结合用户历史点击内容的兴趣特征、以及热点内容的热点特征,综合判断用户点击候选内容的点击概率,并在点击概率高于预设点击概率阈值的情况下,将该候选内容推荐给用户,从而提升了给用户推荐用户可能感兴趣的内容的可能性。
在一个实施例中,如图1所示,提供了一种内容推荐方法,以该方法应用于终端为例进行说明,包括以下步骤:
步骤S101,获取候选内容标题、历史时段的用户点击的各第一内容标题、以及历史时段的各热点内容标题。
本实施例中,终端在用户授权的历史时段的网页浏览记录中,选取预设类型的内容的浏览记录,同时获取各内容记录的标题信息,并将各内容记录的标题信息作为各第一内容标题。其中,预设类型的内容可以是新闻、视频、即时消息、文章等,本申请实施例不做限定。
终端在同时段(即用户授权的历史时段)的互联网中,选取互联网的各热点内容的标题信息,并将各热点内容的标题信息,作为各热点内容标题。终端在互联网中,获取当前时刻新发布/发表的内容,并将该新发布/发表的内容的标题信息,作为候选内容标题。候选内容标题的数目可以是一个,而第一内容标题、以及热点内容标题的数量大于一个。历史时段为当前时刻之前的固定时间长度范围的时段。候选内容标题为用户未浏览、且未点击的内容的内容标题。
在一个实施例中,终端中可以存储有预先训练的内容推荐模型,用于判断候选内容标题是否可以推荐给用户。内容推荐模型包括文本特征提取模型、热点特征筛选模型、兴趣特征筛选模型以及点击预测模型。内容推荐模型可以但不限于为一种基于注意力增强的热点感知新闻推荐模型(Hotspots-Aware Attention Enhanced News RecommendationModel,HAN),HAN模型可以通过其中的注意力网络和自注意力网络等深度神经网络,能够更好地将用户兴趣与内容热点在预测推荐类的算法中平衡与利用,从而提升给用户推荐的用户潜在感兴趣的内容的精确度。
标题信息包括内容标题中的所有文本信息,该文本信息包括但不限于语言文字、数字、阿拉伯字母、符号、表情等文本信息。
文本特征提取模型为可以提取不连续的文本信息特征的模型,用于提取内容标题的各有效特征。该有效特征可以表征该文本信息的所有特征,例如,文本信息中的关键字、标记字体等。
热点特征筛选模型为包含自注意力机制的筛选模型,该模型可以通过比较候选内容标题与热点内容标题的热点特征相似度从而筛选出候选内容标题的热点特征。
兴趣特征筛选模型为包含自注意力机制的筛选模型,该模型可以通过比较候选内容标题与第一内容标题的用户兴趣特征相似度,从而筛选出候选内容标题的用户兴趣特征。
点击预测模型为通过平衡热点特征和用户兴趣特征的标准,从而判断候选内容被用户点击的概率的模型。该点击预测模型可以应用多种不同的融合算法,该融合算法用于平衡热点特征和用户兴趣特征之间的权重,从而预测候选内容被点击的概率。具体的预测处理过程后续将详细说明。
步骤S102,将各第一内容标题、各热点内容标题、以及候选内容标题,分别输入文本特征提取模型,得到各第一内容标题的文本特征、各热点内容标题的文本特征、以及候选内容标题的文本特征。
本实施例中,终端将各第一内容标题输入文本特征提取模型,提取出各第一内容标题的文本特征;将各热点内容标题输入文本特征提取模型,提取出各热点内容标题的文本特征;将候选内容标题输入文本特征提取模型,提取出候选内容标题的文本特征。文本特征可以通过特征向量进行表示。
文本特征提取模型为包含自注意力网络和降维层的卷积神经网络,用于防止在卷积神经网络的局部收敛性,从而提取全局的文本特征,提升提取的文本特征的准确性。
步骤S103,根据各热点内容标题的文本特征、候选内容标题的文本特征、以及热点特征筛选模型,确定候选内容标题的热点特征;并根据各第一内容标题的文本特征、候选内容标题的文本特征、以及用户兴趣筛选模型,确定候选内容标题的用户兴趣特征。
本实施例中,终端通过热点特征筛选模型,根据各热点内容标题的文本特征中的热点特征,确定候选内容标题所包含的热点特征,并通过用户兴趣筛选模型,根据各第一内容标题的文本特征中的热点特征,确定候选内容标题所包含的用户兴趣特征。热点特征和用户兴趣特征可以通过特征向量来表示。
热点特征筛选模型和用户兴趣筛选模型为引入注意力机制的筛选模型,该注意力机制可以用来选择和当前候选内容标题相关的热点内容标题或第一内容标题,并通过计算每个热点内容标题的文本特征或第一内容标题的文本特征与候选内容标题的文本特征的相似度,从而确定候选内容标题所包含的热点特征或用户兴趣特征。具体的处理过程后续将详细说明。
步骤S104,根据候选内容标题的热点特征、候选内容标题的用户兴趣特征、候选内容标题的文本特征,确定候选内容标题的点击概率,并在点击概率大于预设点击概率阈值时,将候选内容标题对应的内容作为推荐内容。
本实施例中,终端通过点击预测模型,将候选内容标题的文本特征与候选内容标题的热点特征、以及候选内容标题的用户兴趣特征进行融合,得到融合向量,并对融合向量进行预测,从而得到用户点击候选内容标题的点击概率。终端中预先存储有预设点击概率阈值,并判断候选内容标题的点击概率与点击概率阈值的大小。在候选内容标题的点击概率大于点击概率阈值时,终端将该候选内容标题对应的内容标记为推荐内容,并发送给用户浏览的显示界面;在候选内容标题的点击概率不大于点击概率阈值时,终端将该候选内容标题对应的内容标记为不推荐内容,存入禁止区,并重新获取新的候选内容标题。
禁止区存放的内容标题为用户未浏览的且新发表/发布的内容,可以使得终端在重新获取候选内容标题时,选取除禁止区以外的新发表/发布的内容。
基于上述方案,通过结合用户历史点击内容的兴趣特征、以及热点内容的热点特征,综合判断用户点击候选内容的点击概率,并在点击概率高于预设点击概率的情况下,将该候选内容推荐给用户,从而提升了给用户推荐用户可能感兴趣的内容的可能性。
可选的,文本特征提取模型包括降维层、卷积层、以及自注意力网络;相应的,如图2所示,上述步骤S102将各第一内容标题、各热点内容标题、以及候选内容标题,分别输入文本特征提取模型,得到各第一内容标题的文本特征、各热点内容标题的文本特征、以及候选内容标题的文本特征,具体包括:
步骤S201,针对每个第一内容标题、每个热点内容标题、以及候选内容标题,通过降维层对内容标题进行降维处理,得到内容标题的低维向量。
步骤S202,通过卷积层,提取内容标题的低维向量的连续文本特征,并通过自注意力网络,提取已提取连续文本特征的低维向量的内容标题的非连续文本特征。
步骤S203,将内容标题的低维向量的连续文本特征、以及内容标题的低维向量的非连续文本特征,作为内容标题的文本特征,得到各第一内容标题的文本特征、各热点内容标题的文本特征、以及候选内容标题的文本特征。
本实施例中,终端针对各第一内容标题、各热点内容标题、以及候选内容标题中的每个内容标题,通过降维层,将该内容标题中包含的各文本信息,按照各文本信息的语言排序序列进行划分,并将划分后的内容标题转换成一个低维的向量序列,得到该内容标题的低维向量。同样的,针对所有内容标题执行上述操作,直到得到所有内容标题的低维向量。例如,A内容标题为文本信息数量为n的内容标题,将文本信息的语言排列序列进行标记得到t=w1:n=[w1,w2,…,wn],降维层对该序列进行降维处理,将该序列转换成为w1:n=[w1,w2,…,wn]∈Rd×n(d是该向量的维度),则A内容标题的低维向量为w1:n=[w1,w2,…,wn]∈Rd ×n
降维层可以但不限于是可以实现上述步骤的任意一种词嵌入网络。
终端通过卷积层,对该内容标题的低维向量进行卷积操作,得到该内容标题的第一文本特征。该第一文本特征为局部连续的可以表征该内容标题的特征向量。例如,在“迎新会精彩瞬间”这一内容标题中,局部连续的特征向量所对应的字可以是“迎新”。同样的,针对所有内容标题执行上述操作,直到得到所有内容标题的文本特征向量。
卷积层为卷积神经网络,局部连续的特征向量为从内容标题的各文本信息的低维向量中,选取相邻的几个文本信息对应的低维向量进行卷积操作,从而得到的特征向量。文本信息的数量不大于该卷积神经网络的卷积核的尺寸。终端通过使用卷积神经网络设置滑动窗口,从而在该内容标题中的提取局部的特征向量。例如,滑动窗口的长度为两个文本信息,则在“迎新会精彩瞬间”这一内容标题中,通过卷积神经网络提取的局部连续的特征向量可以为“迎新”所对应的特征向量。
滑动窗口可通过卷积神经网络的滑动补偿来调节,其计算公式如下:
ci=f(Ww*w(i-k):(i+k)+bw)
其中,i为各文本信息的虚拟编号,ci为第i个文本信息,w(i-k):(i+k)表示从标题位置(i-k)到位置(i+k)的文本信息嵌入向量的拼接,同时,滑动窗口的大小为2k+1。f代表一种非线性变换,*为卷积操作。
Figure BDA0003602007470000121
Figure BDA0003602007470000122
是卷积神经网络的卷积核的可训练参数,其中Nf为卷积神经网络的卷积核的数量,并且采用多种尺寸的卷积核提取位置(i-k)到位置(i+k)中的局部上下文特征。卷积层的输出为字的上下文表示向量序列,记为[c1,c2,…,cm],其中m是滑动窗口数,它取决于滑动步长s。
终端通过自注意力网络,将该内容标题包含的各文本信息中的除第一文本特征以外的各文本信息,划分为多个部分,并通过对各部分的文本信息对应的特征向量进行加权计算,从而提取不连续的特征向量。终端将该不连续的特征向量作为该内容标题的第二文本特征。第二文本特征表征为一个向量。划分多个部分的过程为将该内容标题包含的各文本信息中,除去第一文本特征包含的文本信息,得到按照原语言序列排序的各文本信息,将各相连续的各文本信息作为一个部分,得到该内容标题的各部分。
自注意力网络为双向长短期记忆网络(Bidirectional Long Short-TermMemory,Bi-LSTM),该网络的具体处理过程如下,例如,一个内容标题中包含r个不同部分,C=[c1,c2,…,cm],C代表ci的集合,并为自注意力网络的输入,其中1≤i≤m,自注意力网络通过获取C并通过以下公式进行计算,得到该内容标题的文本特征。
A=softmax(Ws2tanh(Ws1CT))
上式中,A为自注意力网络输出的权值矩阵,
Figure BDA0003602007470000123
Figure BDA0003602007470000124
表示自注意力网络中的参数,da和r是可以被设置的超参数。接下来,将矩阵A和整体词表示C相乘得到r部分的加权和,即为每个内容标题的最终表示向量e,具体计算公式如下:
E=AC
e=flatten(E)
上式中,flatten(·)表示将矩阵
Figure BDA0003602007470000132
转变形状为向量e∈Rδ的拉平操作,δ=rNf。最终的内容表示向量e将作为接下来热点特征筛选模型或用户兴趣提取模型的输入。各内容标题在上述步骤中的执行过程可以将各内容标题一一输入文本特征提取模型,从而执行上述步骤;也可以将各内容标题一起输入文本特征提取模型,从而并行执行上述步骤。
基于上述方案,通过包含自注意力网络的文本特征提取模型,提取各内容标题的文本特征,提高了提取的文本特征的准确度。
可选的,热点特征筛选模型包括热点筛选算法和热点加权算法,相应的,如图3所示,上述步骤S103根据各热点内容标题的文本特征、候选内容标题的文本特征、以及热点特征筛选模型,确定候选内容标题的热点特征,具体包括:
步骤S301,根据各热点内容标题的文本特征、候选内容标题的文本特征、以及热点筛选算法,确定与候选内容标题相关的各热点内容标题。
本实施例中,终端通过注意力机制(即热点筛选算法)在各热点内容标题的文本特征中,选择和候选内容相关的热点内容标题。
具体的,对于一个热点内容标题pj和一个候选内容标题x,将候选内容标题的文本特征e(x),作为热点查询向量(Query Vector),热点内容标题的文本特征表示记为e(pj)。热点特征提取器通过计算热点查询向量和热点内容标题的文本特征e(pj)之间的相似度,从而确定第j个热点内容的注意力权重αj,其计算方法下式:
Figure BDA0003602007470000131
上式中,热点内容表示记为e(pj),候选内容表示e(x),第j个热点内容的注意力权重为αj,j的大小与所有热点内容的数量相同。
步骤S302,根据与候选内容标题相关的热点内容标题的文本特征、以及热点加权算法,确定候选内容标题的热点特征。
本实施例中,终端通过热点加权算法对得到的各热点内容标题的文本特征的权重进行加权求和,得到候选内容标题的热点特征。该热点特征表征为一个特征向量。
具体的,对于候选内容标题x的热点特征h为所有热点内容标题的文本特征的注意力加权和,计算方法如下式所示:
Figure BDA0003602007470000141
上式中,e(pj)为第j个与候选内容相关的热点内容标题的文本特征,第j个热点内容的注意力权重为αj
基于上述方案,终端通过基于注意力机制的热点特征筛选模型,筛选出候选内容标题的热点特征,提升了筛选候选内容标题的热点特征的精确度。
可选的,用户兴趣筛选模型包括兴趣筛选算法和兴趣特征权重算法,根据各第一内容标题的文本特征、候选内容标题的文本特征、以及用户兴趣筛选模型,确定候选内容标题的用户兴趣特征,包括:根据各第一内容标题的文本特征、候选内容标题的文本特征、以及兴趣筛选算法,确定与候选内容标题相关的各相关第一内容标题;根据与候选内容标题相关的第一内容标题的文本特征、以及兴趣特征权重算法,确定候选内容标题的用户兴趣特征。
本实施例中,终端通过注意力机制(即用户兴趣筛选算法)在各第一内容标题的文本特征中,选择和候选内容相关的第一内容标题。并将和候选内容相关的第一内容标题输入兴趣特征权重算法,得到候选内容标题的用户兴趣特征。该用户兴趣特征可以通过特征向量进行表示。
具体的,对于用户u的第一内容标题
Figure BDA0003602007470000142
和当前候选内容标题x,将候选内容标题的文本特征e(x),作为兴趣查询向量,第一内容标题的文本特征记为
Figure BDA0003602007470000143
用户兴趣提取器通过计算兴趣查询向量和第一内容标题的文本特征
Figure BDA0003602007470000144
之间的相似度,从而确定第i个点击内容的注意力权重βi,其计算方法如下所示:
Figure BDA0003602007470000145
对于候选内容标题x的用户兴趣特征iu为所有第一内容标题的文本特征的注意力加权和,计算方法如下所示:
Figure BDA0003602007470000151
基于上述方案,通过基于注意力机制的用户兴趣特征筛选模型,筛选出候选内容标题的用户兴趣特征,提升了筛选候选内容标题的用户兴趣特征的精确度。
可选的,如图4所示,上述步骤S104根据候选内容标题的热点特征、候选内容标题的用户兴趣特征、候选内容标题的文本特征,确定候选内容标题的点击概率,具体包括:
步骤S401,将候选内容标题的热点特征、以及候选内容标题的文本特征、输入点击预测模型的拼接算法,得到候选内容标题的热点向量;并将候选内容标题的用户兴趣、以及候选内容标题的文本特征,输入拼接算法,得到候选内容标题的兴趣向量。
本实施例中,点击预测模型包括拼接算法、融合算法、以及预测函数。终端通过拼接算法,将候选内容标题的热点特征、以及候选内容标题的文本特征进行拼接,得到候选内容标题的热点向量。具体拼接公式如下:
Figure BDA0003602007470000152
上述公式中,热点向量为
Figure BDA0003602007470000153
为拼接算法,b1为该公式的超参数,h为候选内容标题的热点特征,e(x)为候选内容标题的文本特征。
终端通过拼接算法,将候选内容标题的用户兴趣、以及候选内容标题的文本特征进行拼接,得到候选内容标题的兴趣向量。具体拼接公式如下:
Figure BDA0003602007470000154
上述公式中,兴趣向量为
Figure BDA0003602007470000155
为拼接算法,b1为该公式的超参数,h为候选内容标题的用户兴趣特征,e(x)为候选内容标题的文本特征。拼接算法为任意一种可以实现上述步骤的向量拼接算法。
步骤S402,通过点击预测模型的融合算法,将候选内容标题的热点向量、以及候选内容标题的兴趣向量进行融合,得到候选内容标题的融合向量。
本实施例中,终端通过融合算法将候选内容标题的热点向量、以及候选内容标题的兴趣向量进行融合,得到候选内容标题的融合向量。具体的融合公式如下:
Figure BDA0003602007470000161
上式中,fuse(·,·)表示融合算法,该融合算法可以但不限于是逐元素加(element-wise summation)算法、带权重的逐元素加(weightedelement-wise summation)算法、以及拼接(concatenation)算法中的任意一个。
步骤S403,根据候选内容标题的融合向量、以及点击预测模型的点击预测函数,确定候选内容标题的点击概率。
本实施例中,终端通过点击预测模型的点击预测函数,对根据融合后的向量进行点击概率计算,得到候选内容的点击概率。具体的预测函数如下:
Figure BDA0003602007470000162
上式中,sigmoid为非线性变化作为激活函数,可以用来预测用户u对于当前候选内容x的点击概率
Figure BDA0003602007470000163
其中的w和b都是可学习的参数。
基于上述方案,通过将基于融合了热点特征和兴趣特征的候选内容标题的融合向量输入点击预测模型,来确定候选内容标题的点击概率从而判断该候选内容标题是否可以被推荐,从而提升了预测用户点击候选内容表的点击概率的精准度。
可选的,通过点击预测模型的融合算法,将候选内容标题的热点向量、以及候选内容标题的兴趣向量进行融合,得到候选内容标题的融合向量,包括:
通过融合算法,将候选内容标题的热点向量、以及候选内容标题的兴趣向量进行拼接融合,得到候选内容标题的融合向量;融合算法与拼接算法相同。
本实施例中,终端在多个融合算法中选择融合效果最好的融合算法,即拼接算法,并将候选内容标题的热点向量、以及候选内容标题的兴趣向量进行拼接融合,得到候选内容标题的融合向量。
具体的,每个融合算法的融合过程如下:
(1)逐元素加(element-wise summation)。
Figure BDA0003602007470000171
该方法首先将热点-候选向量oh,x(热点向量)和用户-候选向量
Figure BDA0003602007470000172
(兴趣向量)输入进一个线性层,其中w3和W4是可学习的参数,然后将这两个向量做逐元素加法,最后使用tanh非线性变换作为激活函数。
(2)带权重的逐元素加(weightedelement-wise summation)。
Figure BDA0003602007470000173
该方法中,λ是一个用来衡量
Figure BDA0003602007470000174
和oh,x重要程度的参数,它随着训练而自动更新。η代表元素全为1的矩阵,W5和b5是可学习的参数,最后将tanh非线性变换作为激活函数。
(3)拼接(concatenation)。
Figure BDA0003602007470000175
该方法将热点-候选向量oh,x和用户-候选向量
Figure BDA0003602007470000176
做拼接,之后将其结果依次送入线性层与tanh非线性层,其中w6和b6是可学习的参数。
为了更好地融合用户兴趣与热点特征,在实验过程中,终端对点击预测模型中的融合算法fuse(·,·)涉及的3种不同计算方式分别进行融合测试。其中,逐元素加的基本思想是将兴趣-候选向量与热点-候选向量按照元素位置相加;带权重的逐元素加的思想是将兴趣-候选向量(兴趣向量)与热点-候选向量(热点向量)逐元素相加的基础上再引入一个衡量二者重要性程度的权重参数;拼接则是将兴趣-候选向量与热点-候选向量做拼接操作。如表1所示,实验结果表明拼接方法在AUC和F1指标上的表现均超过了前两种方法。
表1点击预测模型中3种不同融合方法的对比
方法 AUC(%) F1(%)
逐元素加 64.68 65.17
带权重的逐元素加 67.01 66.59
拼接 68.08 67.34
可选的,如图5所示,该方法还包括:
步骤S501,获取各样本内容标题、各样本时段内的目标用户点击的样本第一内容标题、以及各样本时段内的样本热点内容标题。
其中,各样本内容标题包括用户在样本时段内点击的第一类型的内容标题、以及用户在样本时段内未点击的第二类型的内容标题。
步骤S502,针对每个样本内容标题,将样本内容标题、各样本第一内容标题、以及各样本热点内容标题,输入初始内容推荐模型,得到样本内容标题的样本点击概率。
其中,初始内容推荐模型包括初始文本特征提取模型、初始热点特征筛选模型、初始兴趣筛选模型、以及初始点击预测模型;初始文本特征提取模型中包含有惩罚项。
步骤S503,通过各样本内容标题的样本类型、各样本点击概率、以及模型训练算法,对初始内容推荐模型进行训练,得到内容推荐模型。
本实施例中,终端获取用户在样本时段浏览并点击的内容,将该内容标记为正样本类型(即第一类型)的内容,并获取用户在样本时段浏览并未点击的内容,将该内容标记为负样本类型(即第二类型)的内容。终端针对每个样本内容标题输入内容推荐模型,得到该样本内容标题对应的点击概率。终端通过各样本内容标题的样本类型、各样本内容标题的样本点击概率、以及模型训练算法对初始内容推荐模型进行训练。在训练过程中终端根据惩罚项对初始内容推荐模型中的初始文本特征提取模型进行优化。在训练过程中终端根据降拟合项对初始内容推荐模型进行降拟合调整,得到内容推荐模型。
模型训练算法可以但不限于是最小化负对数似然函数算法。
降拟合项可以但不限于是L2正则化,用于降低初始内容推荐模型的复杂度,避免训练过程中过拟合情况的发生,并提高内容推荐模型的泛化能力。
惩罚项可以但不限于是给定矩阵的弗罗贝尼乌斯范数(Frobenius Norm),用于避免内容推荐模型中的文本特征提取模型在训练过程中赋予同一内容标题中r个不同部分相同的权重。
具体的,将一条样本内容标题以及各第一内容标题和各热点内容标题作为一条训练样本,每一条训练样本表示为
Figure BDA0003602007470000181
其中
Figure BDA0003602007470000182
为用户u的第一点击内容标题集,{p1,p2,…pM}为同时段的热点内容标题集,x为当前的样本内容。
每一个正样本的样本类型为1,即yu,x=1;而每一个负样本的样本为0,即yu,x=0。终端将每个样本内容标题输入初始内容推荐模型,得到该样本内容标题的点击概率
Figure BDA0003602007470000191
终端采用最小化负对数似然函数的方法来训练内容推荐模型,最小化负对数似然函数的计算公式如下:
Figure BDA0003602007470000192
上式中,S+和S-分别表示正样本集和负样本集。
惩罚项的计算公式如下:
P=(||(AAT-I)||F)2
其中,A是自注意力网络中的权重矩阵,I表示单位矩阵,||·|||F表示给定矩阵的弗罗贝尼乌斯范数(Frobenius Norm)。
例如,一条样本的构成如表2所示。它包含一个用户的n条点击内容(n≥0),与点击内容同时段的总点击量最多的前m条热点内容(m≥0),一条候选内容,一个非1即0的标签。该标签为1代表此样本为正样本,反之,标签为0代表此样本为负样本。其中,n和m的取值经实验后分别设置为15条和3条。
表2一条样本的构成
点击内容 热点内容 候选内容 标签
n条 m条 1条 1/0
为使得正负样本数量平衡,在用户未点击的内容中随机挑选了与正样本数相近的内容来构造负样本。该数据集的详细统计信息如表3所示。其中,训练集和测试集按照5∶3的比例在数据集中划分。
表3数据集统计
Figure BDA0003602007470000193
Figure BDA0003602007470000201
在实验中,根据对内容标题字数分布的统计,确定了最大标题长度为29,该范围可以包含约85%的内容标题的全部信息。避免因输入模型的最大内容标题长度过大而加剧计算时长,或者过小而损失内容标题中的有用信息。另外,本文采用经过预训练的Word2Vec嵌入来初始化嵌入矩阵,并采用Adam算法作为梯度下降的优化器。
HAN模型中涉及众多超参数,每个超参数值的选择都经过了调优过程。其中,词嵌入维度d的值从{20,50,100}中择优选择。在CNN中,应用了多种尺寸的卷积核来提取特征,并将其拼接在一起作为字词的上下文表示。具体来说,卷积核数量Nf从{4,8,16,32,64}中调节,卷积核F的多种尺寸从{[1],[1,2],[1,2,3],[2,3]}中调节。在滑动窗口中,从{3,5,7}中挑选窗口尺寸(2k+1)的值,滑动步长s的值同样从{3,5,7}中调节。在自注意力网络中,隐藏单元数da从{10,20,30,50}中挑选,r则尝试了{1,2,3,4,5}5种取值。另外,对于L2正则项的系数lc,尝试了{0.01,0.1,0.5}3种取值,P惩罚项的系数pc尝试了{0.1,0.3,0.5,0.7,0.9}5种取值,初始学习率l尝试了{0.005,0.01,0.05},超参数B尝试了{32,64,128,256}。
通过采用内容推荐领域同类型工作经常采用的ROC曲线下的面积(Area Underthe Curve of ROC,AUC)和调和平均(F1)作为模型的评价指标,并设置数据集最大训练轮次(epoch)为100,同时采用早停(early stopping)技巧避免出现过拟合。为保证结果的公正性,对于同一组超参数,通过随机初始化参数将模型独立训练10次,然后在测试集上测试它们,计算平均结果。经过多次实验,本模型的最佳超参数配置如下:d=50,Nf=8,F=[1,2,3];2k+1=3,s=3;da=20,r=3;lc=0.01,pc=0.3,l=0.01,B=128。
该实验采用不带有知识图谱的DKN模型作为基线算法。DKN使用了卷积神经网络来学习内容标题表示,并使用注意力网络从用户的点击内容中学习用户兴趣表示,但DKN中并没有使用自注意力网络,也无热点内容。终端将DKN在本数据集上训练,将其视为表3中第4行的Hwo模型(不带自注意力网络和热点内容的HAN模型)。为了测试HAN模型的推荐效果,在数据集上对HAN模型及其变体做了对比实验,主要包含以下三个方面:有无热点内容、有无自注意力网络、有无点击内容。实验结果如表4所示,具体结果分析如下。
表4不同模型的性能表现
Figure BDA0003602007470000211
本申请还提供了一种对抗样本检测示例,如图6所示,具体处理过程包括以下步骤:
步骤S601,获取候选内容标题、历史时段内的目标用户点击的各第一内容标题、以及历史时段内的各热点内容标题。
步骤S602,针对每个第一内容标题、每个热点内容标题、以及候选内容标题,通过降维层对内容标题进行降维处理,得到内容标题的低维向量。
步骤S603,通过卷积层,提取内容标题的低维向量的连续文本特征,并通过自注意力网络,提取已提取连续文本特征的内容标题的低维向量的非连续文本特征。
步骤S604,将内容标题的低维向量的连续文本特征、以及内容标题的低维向量的非连续文本特征,作为内容标题的文本特征,得到各第一内容标题的文本特征、各热点内容标题的文本特征、以及候选内容标题的文本特征。
步骤S605,根据各热点内容标题的文本特征、候选内容标题的文本特征、以及热点筛选算法,确定与候选内容标题相关的各热点内容标题。
步骤S606,根据与候选内容标题相关的热点内容标题的文本特征、以及热点加权算法,确定候选内容标题的热点特征。
步骤S607,根据各第一内容标题的文本特征、候选内容标题的文本特征、以及兴趣筛选算法,确定与候选内容标题相关的各第一内容标题。
步骤S608,根据与候选内容标题相关的第一内容标题文本特征、以及兴趣特征权重算法,确定候选内容标题的用户兴趣特征。
步骤S609,将候选内容标题的热点特征、以及候选内容标题的文本特征、输入点击预测模型的拼接算法,得到候选内容标题的热点向量;并将候选内容标题的用户兴趣特征、以及候选内容标题的文本特征,输入拼接算法,得到候选内容标题的兴趣向量。
步骤S610,通过点击预测模型的融合算法,将候选内容标题的热点向量、以及候选内容标题的兴趣向量进行拼接融合,得到候选内容标题的融合向量;融合算法与拼接算法相同。
步骤S611,根据候选内容标题的融合向量、以及点击预测模型的点击预测函数,确定候选内容标题的点击概率。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的内容推荐方法的内容推荐装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个内容推荐装置实施例中的具体限定可以参见上文中对于内容推荐方法的限定,在此不再赘述。
在一个实施例中,如图7所示,提供了一种内容推荐装置,包括:第一获取模块710、编码模块720、提取模块730和推荐模块740,其中:
第一获取模块710,用于获取候选内容标题、历史时段内的目标用户点击的各第一内容标题、以及历史时段内的各热点内容标题;
编码模块720,用于将各第一内容标题、各热点内容标题、以及候选内容标题,分别输入文本特征提取模型,得到各第一内容标题的文本特征、各热点内容标题的文本特征、以及候选内容标题的文本特征;
提取模块730,用于根据各热点内容标题的文本特征、候选内容标题的文本特征、以及热点特征筛选模型,确定候选内容标题的热点特征;并根据各第一内容标题的文本特征、候选内容标题的文本特征、以及用户兴趣筛选模型,确定候选内容标题的用户兴趣特征;
推荐模块740,用于根据候选内容标题的热点特征、候选内容标题的用户兴趣特征、候选内容标题的文本特征,确定候选内容标题的点击概率,并在点击概率大于预设点击概率阈值时,将候选内容标题对应的内容作为推荐内容。
可选的,文本特征提取模型包括降维层、卷积层、以及自注意力网络;编码模块720,具体用于:
针对每个第一内容标题、每个热点内容标题、以及候选内容标题,通过降维层对内容标题进行降维处理,得到内容标题的低维向量;
通过卷积层,提取内容标题的低维向量的连续文本特征,并通过自注意力网络,提取已提取连续文本特征的内容标题的低维向量的非连续文本特征;
将内容标题的低维向量的连续文本特征、以及内容标题的低维向量的非连续文本特征,作为内容标题的文本特征,得到各第一内容标题的文本特征、各热点内容标题的文本特征、以及候选内容标题的文本特征。
可选的,热点特征筛选模型包括热点筛选算法和热点加权算法,提取模块730,具体用于:
根据各热点内容标题的文本特征、候选内容标题的文本特征、以及热点筛选算法,确定与候选内容标题相关的各热点内容标题;
根据与候选内容标题相关的热点内容标题的文本特征、以及热点加权算法,确定候选内容标题的热点特征。
可选的,用户兴趣筛选模型包括兴趣筛选算法和兴趣特征权重算法,提取模块740,具体用于:
根据各第一内容标题的文本特征、候选内容标题的文本特征、以及兴趣筛选算法,确定与候选内容标题相关的各第一内容标题;
根据与候选内容标题相关的第一内容标题文本特征、以及兴趣特征权重算法,确定候选内容标题的用户兴趣特征。
可选的,推荐模块740,具体用于:
将候选内容标题的热点特征、以及候选内容标题的文本特征、输入点击预测模型的拼接算法,得到候选内容标题的热点向量;并将候选内容标题的用户兴趣特征、以及候选内容标题的文本特征,输入拼接算法,得到候选内容标题的兴趣向量;
通过点击预测模型的融合算法,将候选内容标题的热点向量、以及候选内容标题的兴趣向量进行融合,得到候选内容标题的融合向量;
根据候选内容标题的融合向量、以及点击预测模型的点击预测函数,确定候选内容标题的点击概率。
可选的,装置还包括:
第二获取模块,用于获取样本内容标题、各样本时段内的目标用户点击的样本第一内容标题、以及各样本时段内的样本热点内容标题;各样本内容标题包括用户在样本时段内点击的第一类型的内容标题、以及用户在样本时段内未点击的第二类型的内容标题;
预测模块,用于针对每个样本内容标题,将样本内容标题、各样本第一内容标题、以及各样本热点内容标题,输入初始内容推荐模型,得到样本内容标题的样本点击概率;初始内容推荐模型包括初始文本特征提取模型、初始热点特征筛选模型、初始兴趣筛选模型、以及初始点击预测模型;初始文本特征提取模型中包含有惩罚项;
训练模块,用于通过各样本内容标题的样本类型、各样本点击概率、以及模型训练算法,对初始内容推荐模型进行训练,得到内容推荐模型。
上述内容推荐装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种内容推荐方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (11)

1.一种内容推荐方法,其特征在于,所述方法包括:
获取候选内容标题、历史时段内的目标用户点击的各第一内容标题、以及所述历史时段内的各热点内容标题;
将各所述第一内容标题、各所述热点内容标题、以及所述候选内容标题,分别输入文本特征提取模型,得到各所述第一内容标题的文本特征、各所述热点内容标题的文本特征、以及所述候选内容标题的文本特征;
根据各所述热点内容标题的文本特征、所述候选内容标题的文本特征、以及热点特征筛选模型,确定所述候选内容标题的热点特征;并根据各所述第一内容标题的文本特征、所述候选内容标题的文本特征、以及用户兴趣筛选模型,确定所述候选内容标题的用户兴趣特征;
根据所述候选内容标题的热点特征、所述候选内容标题的用户兴趣特征、所述候选内容标题的文本特征,确定所述候选内容标题的点击概率,并在所述点击概率大于预设点击概率阈值时,将所述候选内容标题对应的内容作为推荐内容。
2.根据权利要求1所述的方法,其特征在于,所述文本特征提取模型包括降维层、卷积层、以及自注意力网络;所述将各所述第一内容标题、各所述热点内容标题、以及所述候选内容标题,分别输入文本特征提取模型,得到各所述第一内容标题的文本特征、各所述热点内容标题的文本特征、以及所述候选内容标题的文本特征,包括:
针对每个第一内容标题、每个热点内容标题、以及候选内容标题,通过所述降维层对所述内容标题进行降维处理,得到所述内容标题的低维向量;
通过所述卷积层,提取所述内容标题的低维向量的连续文本特征,并通过自注意力网络,提取已提取连续文本特征的内容标题的低维向量的非连续文本特征;
将所述内容标题的低维向量的连续文本特征、以及所述内容标题的低维向量的非连续文本特征,作为所述内容标题的文本特征,得到各所述第一内容标题的文本特征、各所述热点内容标题的文本特征、以及所述候选内容标题的文本特征。
3.根据权利要求1所述的方法,其特征在于,所述热点特征筛选模型包括热点筛选算法和热点加权算法,所述根据各所述热点内容标题的文本特征、所述候选内容标题的文本特征、以及热点特征筛选模型,确定所述候选内容标题的热点特征,包括:
根据各所述热点内容标题的文本特征、所述候选内容标题的文本特征、以及所述热点筛选算法,确定与所述候选内容标题相关的各热点内容标题;
根据所述与所述候选内容标题相关的热点内容标题的文本特征、以及所述热点加权算法,确定所述候选内容标题的热点特征。
4.根据权利要求1所述的方法,其特征在于,所述用户兴趣筛选模型包括兴趣筛选算法和兴趣特征权重算法,所述根据各所述第一内容标题的文本特征、所述候选内容标题的文本特征、以及用户兴趣筛选模型,确定所述候选内容标题的用户兴趣特征,包括:
根据各所述第一内容标题的文本特征、所述候选内容标题的文本特征、以及所述兴趣筛选算法,确定与所述候选内容标题相关的各第一内容标题;
根据所述与所述候选内容标题相关的第一内容标题文本特征、以及所述兴趣特征权重算法,确定所述候选内容标题的用户兴趣特征。
5.根据权利要求1所述的方法,其特征在于,所述根据所述候选内容标题的热点特征、所述候选内容标题的用户兴趣特征、所述候选内容标题的文本特征,确定所述候选内容标题的点击概率,包括:
将所述候选内容标题的热点特征、以及所述候选内容标题的文本特征、输入点击预测模型的拼接算法,得到所述候选内容标题的热点向量;并将所述候选内容标题的用户兴趣特征、以及所述候选内容标题的文本特征,输入所述拼接算法,得到所述候选内容标题的兴趣向量;
通过所述点击预测模型的融合算法,将所述候选内容标题的热点向量、以及所述候选内容标题的兴趣向量进行融合,得到所述候选内容标题的融合向量;
根据所述候选内容标题的融合向量、以及所述点击预测模型的点击预测函数,确定所述候选内容标题的点击概率。
6.根据权利要求5所述的方法,其特征在于,所述通过所述点击预测模型的融合算法,将所述候选内容标题的热点向量、以及所述候选内容标题的兴趣向量进行融合,得到所述候选内容标题的融合向量,包括:
通过所述融合算法,将候选内容标题的热点向量、以及所述候选内容标题的兴趣向量进行拼接融合,得到所述候选内容标题的融合向量;所述融合算法与所述拼接算法相同。
7.根据权利要求5或6中任意一项所述的方法,其特征在于,所述方法还包括:
获取样本内容标题、各样本时段内的目标用户点击的样本第一内容标题、以及各所述样本时段内的样本热点内容标题;各所述样本内容标题包括用户在样本时段内点击的第一类型的内容标题、以及用户在样本时段内未点击的第二类型的内容标题;
针对每个样本内容标题,将所述样本内容标题、各所述样本第一内容标题、以及各所述样本热点内容标题,输入初始内容推荐模型,得到所述样本内容标题的样本点击概率;所述初始内容推荐模型包括初始文本特征提取模型、初始热点特征筛选模型、初始兴趣筛选模型、以及初始点击预测模型;所述初始文本特征提取模型中包含有惩罚项;
通过各所述样本内容标题的样本类型、各所述样本点击概率、以及模型训练算法,对所述初始内容推荐模型进行训练,得到内容推荐模型。
8.一种内容推荐装置,其特征在于,所述装置包括:
第一获取模块,用于获取候选内容标题、历史时段内的目标用户点击的各第一内容标题、以及所述历史时段内的各热点内容标题;
编码模块,用于将各所述第一内容标题、各所述热点内容标题、以及所述候选内容标题,分别输入文本特征提取模型,得到各所述第一内容标题的文本特征、各所述热点内容标题的文本特征、以及所述候选内容标题的文本特征;
提取模块,用于根据各所述热点内容标题的文本特征、所述候选内容标题的文本特征、以及热点特征筛选模型,确定所述候选内容标题的热点特征;并根据各所述第一内容标题的文本特征、所述候选内容标题的文本特征、以及用户兴趣筛选模型,确定所述候选内容标题的用户兴趣特征;
推荐模块,用于根据所述候选内容标题的热点特征、所述候选内容标题的用户兴趣特征、所述候选内容标题的文本特征,确定所述候选内容标题的点击概率,并在所述点击概率大于预设点击概率阈值时,将所述候选内容标题对应的内容作为推荐内容。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
11.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202210405412.8A 2022-04-18 2022-04-18 内容推荐方法、装置、计算机设备和存储介质 Pending CN114647792A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210405412.8A CN114647792A (zh) 2022-04-18 2022-04-18 内容推荐方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210405412.8A CN114647792A (zh) 2022-04-18 2022-04-18 内容推荐方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN114647792A true CN114647792A (zh) 2022-06-21

Family

ID=81996714

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210405412.8A Pending CN114647792A (zh) 2022-04-18 2022-04-18 内容推荐方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN114647792A (zh)

Similar Documents

Publication Publication Date Title
Kang et al. Kernel-driven similarity learning
Perozzi et al. Don't walk, skip! online learning of multi-scale network embeddings
Bansal et al. Ask the gru: Multi-task learning for deep text recommendations
Agarwal et al. Localized factor models for multi-context recommendation
CN110717098B (zh) 基于元路径的上下文感知用户建模方法、序列推荐方法
Baesens et al. Neural network survival analysis for personal loan data
EP4180991A1 (en) Neural network distillation method and apparatus
Gan Walking on a user similarity network towards personalized recommendations
CN112800344B (zh) 一种基于深度神经网络的电影推荐方法
CN110633421A (zh) 特征提取、推荐以及预测方法、装置、介质和设备
CN115885297A (zh) 可区分用户-项目协同聚类
Radhakrishnan et al. Simple, fast, and flexible framework for matrix completion with infinite width neural networks
Liu et al. Online recommendations based on dynamic adjustment of recommendation lists
Sun POI recommendation method based on multi-source information fusion using deep learning in location-based social networks
CN116842171A (zh) 文章推荐方法、装置、计算机设备和存储介质
Zhao et al. CapDRL: a deep capsule reinforcement learning for movie recommendation
Zeng et al. User Personalized Recommendation Algorithm Based on GRU Network Model in Social Networks
CN114647792A (zh) 内容推荐方法、装置、计算机设备和存储介质
Chang et al. Robust Multivariate Lasso Regression with Covariance Estimation
Shen A Recommender System Integrating Long Short-Term Memory and Latent Factor
Ma et al. A unified model for recommendation with selective neighborhood modeling
Chen et al. An encoder-decoder model with embedded attention-mechanism for efficient meshfree prediction of slope failure
CN111414535B (zh) 向用户推荐目标对象的方法和装置
Rysbayeva et al. Sequence Recommendation based on Deep Learning
Dallakyan graphiclasso: Graphical lasso for learning sparse inverse-covariance matrices

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination