CN111708950B - 内容推荐方法、装置及电子设备 - Google Patents

内容推荐方法、装置及电子设备 Download PDF

Info

Publication number
CN111708950B
CN111708950B CN202010576885.5A CN202010576885A CN111708950B CN 111708950 B CN111708950 B CN 111708950B CN 202010576885 A CN202010576885 A CN 202010576885A CN 111708950 B CN111708950 B CN 111708950B
Authority
CN
China
Prior art keywords
content
candidate
recommended
contents
recommendation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010576885.5A
Other languages
English (en)
Other versions
CN111708950A (zh
Inventor
叶庆仕
彭秋辰
蒋宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010576885.5A priority Critical patent/CN111708950B/zh
Publication of CN111708950A publication Critical patent/CN111708950A/zh
Application granted granted Critical
Publication of CN111708950B publication Critical patent/CN111708950B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请属于人工智能技术领域,具体涉及一种内容推荐方法、内容推荐装置、计算机可读介质以及电子设备。该方法包括:获取与推荐对象相关的多个待推荐的候选内容,并分别获取各个所述候选内容与所述推荐对象之间的对象相关度;对所述候选内容进行语义特征提取以得到所述候选内容的语义向量,并根据各个所述候选内容的语义向量分别确定任意两个候选内容之间的内容相似度;根据所述对象相关度以及所述内容相似度建立用于表示候选内容的内容多样性的内容矩阵;根据所述内容矩阵从所述多个待推荐的候选内容中选取用于向所述推荐对象推荐的多个目标内容。该方法实现了推荐内容的多样性与相关性之间的平衡,达到推荐内容的多样性打散效果。

Description

内容推荐方法、装置及电子设备
技术领域
本申请涉及人工智能技术领域,并涉及机器学习技术。具体而言,本申请涉及一种内容推荐方法、内容推荐装置、计算机可读介质以及电子设备。
背景技术
随着计算机和网络技术的发展,观看在线视频、在线收听音乐、网络购物等各种基于网络的内容交互行为以逐渐成为人们日常生活的一部分。随着对用户行为数据的收集和积累,视频播放平台、音乐播放平台以及网购平台等各种内容提供方可以对用户的行为习惯进行总结和预测,并通过用户画像主动地向用户推荐其可能感兴趣的网络内容,从而提高用户粘性。
然而,为了提高内容推荐的精准性,向同一用户推荐的内容将逐渐趋于同质化,导致不断重复地向用户推荐相似甚至相同类型的网络内容,难以满足用户多样化的需求。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本申请的目的在于提供一种内容推荐方法、内容推荐装置、计算机可读介质以及电子设备,至少在一定程度上克服内容推荐趋于同质化、内容多样性差等技术问题。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供一种内容推荐方法,该内容推荐方法包括:
获取与推荐对象相关的多个待推荐的候选内容,并分别获取各个所述候选内容与所述推荐对象之间的对象相关度;
对所述候选内容进行语义特征提取以得到所述候选内容的语义向量,并根据各个所述候选内容的语义向量分别确定任意两个候选内容之间的内容相似度;
根据所述对象相关度以及所述内容相似度建立用于表示候选内容的内容多样性的内容矩阵;
根据所述内容矩阵从所述多个待推荐的候选内容中选取用于向所述推荐对象推荐的多个目标内容。
根据本申请实施例的一个方面,提供一种内容推荐装置,该内容推荐装置包括:
相关度获取模块,被配置为获取与推荐对象相关的多个待推荐的候选内容,并分别获取各个所述候选内容与所述推荐对象之间的对象相关度;
相似度获取模块,被配置为对所述候选内容进行语义特征提取以得到所述候选内容的语义向量,并根据各个所述候选内容的语义向量分别确定任意两个候选内容之间的内容相似度;
矩阵建立模块,被配置为根据所述对象相关度以及所述内容相似度建立用于表示候选内容的内容多样性的内容矩阵;
内容选取模块,被配置为根据所述内容矩阵从所述多个待推荐的候选内容中选取用于向所述推荐对象推荐的多个目标内容。
在本申请的一些实施例中,基于以上技术方案,所述矩阵建立模块包括:
参数获取单元,被配置为获取用于调整候选内容的内容多样性的调整参数;
加权处理单元,被配置为根据所述调整参数对所述候选内容的对象相关度进行加权处理;
矩阵建立单元,被配置为根据加权处理后的对象相关度以及所述内容相似度建立用于表示候选内容的内容多样性的内容矩阵。
在本申请的一些实施例中,基于以上技术方案,所述矩阵建立单元包括:
非线性映射子单元,被配置为通过激活函数对加权处理后的对象相关度进行非线性映射以得到具有非线性特征的非线性对象相关度;
参数确定子单元,被配置为根据任意两个候选对象的非线性对象相关度以及所述两个候选对象的内容相似度确定所述两个候选对象的内容多样性参数;
矩阵建立子单元,被配置为以所述内容多样性参数作为矩阵元素,建立用于表示候选内容的内容多样性的内容矩阵。
在本申请的一些实施例中,基于以上技术方案,所述参数获取单元包括:
集合获取子单元,被配置为获取多个候选参数以及用于对所述候选参数进行评估的样本集合;
内容选取子单元,被配置为分别通过各个候选参数从所述样本集合中选取与所述候选参数相对应的样本内容;
状态获取子单元,被配置为向样本对象推荐所述样本内容以得到所述样本对象返回的针对每个所述样本内容的内容触发状态;
评分确定子单元,被配置为根据各个所述样本内容的内容触发状态确定与所述候选参数相对应的推荐结果评分;
参数选取子单元,被配置为根据所述推荐结果评分从所述多个候选参数中选取用于调整候选内容的内容多样性的调整参数。
在本申请的一些实施例中,基于以上技术方案,所述内容选取模块包括:
子矩阵确定单元,被配置为获取用于向所述推荐对象推荐内容的内容推荐数量,并根据所述内容推荐数量确定组成所述内容矩阵的多个子矩阵;
行列式获取单元,被配置为分别获取各个子矩阵的行列式,并根据所述行列式确定至少一个目标子矩阵;
目标内容选取单元,被配置为根据所述目标子矩阵从所述多个待推荐的候选内容中选取用于向所述推荐对象推荐的多个目标内容。
在本申请的一些实施例中,基于以上技术方案,所述相似度获取模块包括:
类型获取单元,被配置为获取所述推荐对象所在对象群体的群体类型信息;
模型确定单元,被配置为根据所述群体类型信息确定与所述对象群体相对应的语义特征提取模型;
语义映射单元,被配置为通过所述语义特征提取模型对所述候选内容进行映射处理以得到所述候选内容的语义向量。
在本申请的一些实施例中,基于以上技术方案,所述模型确定单元包括:
语料库选取子单元,被配置为根据所述群体类型信息选取与所述对象群体相关的语料库;
模型训练子单元,被配置为利用所述语料库训练与所述对象群体相对应的语义特征提取模型。
在本申请的一些实施例中,基于以上技术方案,所述语义映射单元包括:
内容获取子单元,被配置为获取所述候选内容中的文本内容和非文本内容;
文本映射子单元,被配置为通过所述语义特征提取模型对所述文本内容进行映射处理以得到所述文本内容的文本嵌入向量;
非文本映射子单元,被配置为通过所述语义特征提取模型对所述非文本内容进行映射处理以得到所述非文本内容的非文本嵌入向量;
向量融合子单元,被配置为对所述文本嵌入向量和所述非文本嵌入向量进行融合处理以得到所述候选内容的语义向量。
在本申请的一些实施例中,基于以上技术方案,所述相似度获取模块还包括:
向量距离确定单元,被配置为根据各个所述候选内容的语义向量确定任意两个语义向量的向量距离;
向量归一化单元,被配置为对所述向量距离进行归一化处理以得到与所述两个语义向量相对应的两个候选内容之间的内容相似度。
在本申请的一些实施例中,基于以上技术方案,所述向量归一化单元包括:
参数拟合子单元,被配置为对所述向量距离进行正态分布拟合以得到用于表示所述向量距离的分布信息的分布均值和分布方差;
参数获取子单元,被配置为获取用于对所述向量距离进行归一化处理的归一化均值和归一化方差;
归一化映射子单元,被配置为根据所述分布均值、所述分布方差、所述归一化均值以及所述归一化方差对所述向量距离进行映射处理以得到与所述两个语义向量相对应的两个候选内容之间的内容相似度。
在本申请的一些实施例中,基于以上技术方案,所述相关度获取模块包括:
特征提取单元,被配置为分别对各个所述候选内容进行特征提取以得到所述候选内容的内容特征,并对所述推荐对象进行特征提取以得到所述推荐对象的对象特征;
相关性评分单元,被配置为根据所述内容特征和所述对象特征确定所述候选内容与所述推荐对象之间的对象相关性评分;
权重获取单元,被配置为获取所述候选内容的内容类型信息,并获取与所述内容类型信息相关的类型权重;
相关性加权单元,被配置为根据所述类型权重对各个所述对象相关性评分进行加权映射以得到各个所述候选内容与所述推荐对象之间的对象相关度。
在本申请的一些实施例中,基于以上技术方案,所述权重获取单元包括:
目标选取子单元,被配置为从多个候选目标信息中选取当前推荐轮次的推荐目标信息;
权重确定子单元,被配置为根据所述推荐目标信息确定与所述内容类型信息相关的类型权重。
在本申请的一些实施例中,基于以上技术方案,所述内容推荐装置还包括:
规则获取模块,被配置为获取与所述推荐对象相关的静态过滤规则以及与所述目标内容的邻接关系相关的动态过滤规则;
内容过滤模块,被配置为根据所述静态过滤规则以及所述动态过滤规则对所述目标内容组成的内容序列进行过滤处理。
根据本申请实施例的一个方面,提供一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如以上技术方案中的内容推荐方法。
根据本申请实施例的一个方面,提供一种电子设备,该电子设备包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器被配置为经由执行所述可执行指令来执行如以上技术方案中的内容推荐方法。
在本申请实施例提供的技术方案中,通过建立用于表示内容多样性的内容矩阵,可以根据候选内容与推荐对象之间的对象相关度以及不同候选内容之间的内容相似度获取多样性程度高的目标内容,实现了多样性与相关性之间的平衡,达到推荐内容的多样性打散效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示意性地示出了应用本申请技术方案的示例性系统架构框图。
图2示意性地示出了应用本申请技术方案进行内容推荐的推荐原理图。
图3示意性地示出了应用本申请技术方案进行资讯推荐的视图效果。
图4示意性地示出本申请一些实施例中内容推荐方法的步骤流程图。
图5示意性地示出了本申请一些实施例中获取对象相关度的方法步骤流程图。
图6示意性地示出了基于多目标的多内容类型融合推荐的推荐原理图。
图7示意性地示出了不同类型语义向量的余弦相似度的数值分布效果。
图8示意性地示出了对DPP算法基于几何图形的算法原理。
图9示意性地示出了本申请一些实施例中基于调整参数建立内容矩阵的方法步骤流程图。
图10示意性地示出了不同调整参数对于推荐结果的影响效果程度示意图。
图11示意性地示出了本申请一些实施例中对目标内容进行过滤筛选的流程示意图。
图12示意性地示出了本申请实施例提供的内容推荐装置的结构框图。
图13示意性示出了适于用来实现本申请实施例的电子设备的计算机系统结构框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
在对本申请提供的内容推荐方法、内容推荐装置、计算机可读介质以及电子设备等技术方案进行说明之前,首先对本申请技术方案中涉及的人工智能技术做简要说明。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
图1示意性地示出了应用本申请技术方案的示例性系统架构框图。
如图1所示,系统架构100可以包括终端设备110、网络120和服务器130。终端设备110可以包括智能手机、平板电脑、笔记本电脑、台式电脑等各种电子设备。服务器130可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。网络120可以是能够在终端设备110和服务器130之间提供通信链路的各种连接类型的通信介质,例如可以是有线通信链路或者无线通信链路。
根据实现需要,本申请实施例中的系统架构可以具有任意数目的终端设备、网络和服务器。例如,服务器130可以是由多个服务器设备组成的服务器群组。另外,本申请实施例提供的技术方案可以应用于终端设备110,也可以应用于服务器130,或者可以由终端设备110和服务器130共同实施,本申请对此不做特殊限定。
举例而言,用户可以在终端设备110上实施观看视频、播放音乐、查看广告、网络购物等任意的网络交互行为,服务器130可以通过网络120向用户提供网络内容,同时可以收集记录用户的网络交互行为并基于相关行为特征对用户进行画像,获取用户的兴趣特点。在此基础上,服务器130再根据用户的兴趣特点主动地向用户推送符合其兴趣需求的网络内容。为了克服推荐内容同质化、内容多样性差等问题,服务器130可以通过建立用于表示内容多样性的内容矩阵对推送内容与用户之间的相关程度以及不同推送内容之间的相似程度进行调整,从而向用户推送多样性程度高的网络内容,实现了多样性与相关性之间的平衡,达到推送内容的多样性打散效果和推送内容的体验优化效果,可以广泛应用于资讯推荐、电商推荐、广告推荐、视频推荐、音乐推荐等个性化推荐的相关领域中。
图2示意性地示出了应用本申请技术方案进行内容推荐的推荐原理图。
如图2所示,在线候选集201是由若干待推荐的候选内容组成的内容集合,基于在线候选集201可以对每个候选内容与推荐对象进行相关程度的表征得到各个候选内容与推荐对象的对象相关度r。
离线数据库202中保存有大量的与推荐对象相关的样本数据,例如当推荐对象为青少年用户群体时,离线数据库202中保存的样本数据主要可以是具有年轻群体特色的特色内容语料。特色内容语料指的是符合用户群体身份特点和兴趣爱好的网络内容,可以包括图像、文本、视频、音频等各种类型的网络内容。
利用离线数据库202可以训练得到用于将图像、文本、视频、音频等网络内容映射为语义向量的语义特征提取模型203,再通过语义特征提取模型203对在线候选集201中的各个候选内容进行语义特征提取后可以得到每个候选内容的语义向量,从而可以根据语义向量计算任意两个候选内容之间的内容相似度s。
对象相关度r表示一个候选内容与推荐对象之间的相关程度。例如,根据用户的历史行为数据判断某一用户喜欢观看足球、篮球等运动项目的体育比赛,而且该用户观看足球比赛的次数多于篮球比赛,由此可以预测该用户对足球运动的喜好程度大于篮球运动。在此基础上,针对同时作为候选内容的足球视频和篮球视频,可以认为足球视频与该用户的对象相关度大于篮球视频与该用户的对象相关度。
对于用户而言,其兴趣爱好往往会集中在某一个或者某几个领域内,因此根据对象相关度在向用户进行内容推荐时,往往会产生内容同质化的问题,例如某一视频播放平台预测一个用户喜欢观看篮球视频,便不断地向该用户推送领域相同且内容相似的篮球视频,这会极大地影响用户的观看体验。为了提高内容推荐的多样性,可以根据对象相关度r和内容相似度s建立用于表示候选内容的内容多样性的内容矩阵204,然后基于内容矩阵204从在线候选集201内选取多样性程度高的目标内容组成推荐集合205,从而能够准确地向用户推荐符合其兴趣特点且丰富多样的网络内容。
以资讯信息的推荐为例,图3示意性地示出了应用本申请技术方案进行资讯推荐的视图效果。如图3所示,在终端设备的交互界面310上展示有某款应用程序APP的内容页面,在该内容页面上提供有对应于不同二级页面的标签控件320,如“关注”、“推荐”、“视频”、“云课堂”、“搞笑”等等。
在对应于“推荐”的二级页面中,可以根据用户的兴趣特点向其展示各种不同类型的资讯信息,而资讯信息的多样性主要体现在相似内容集中出现的程度上。例如,在页面中同时展示的资讯信息包含了游戏信息、娱乐信息、动漫信息、科技信息等与用户兴趣匹配且类型多样的资讯内容,可以认为该组推荐结果具有较好的多样性效果,达到了向用户推荐多样化资讯信息的目的。
下面结合具体实施方式对本申请提供的内容推荐方法、内容推荐装置、计算机可读介质以及电子设备等技术方案做出详细说明。
图4示意性地示出本申请一些实施例中内容推荐方法的步骤流程图。如图4所示,该内容推荐方法主要可以包括如下的步骤S410~步骤S440。
步骤S410. 获取与推荐对象相关的多个待推荐的候选内容,并分别获取各个候选内容与推荐对象之间的对象相关度。
步骤S420. 对候选内容进行语义特征提取以得到候选内容的语义向量,并根据各个候选内容的语义向量分别确定任意两个候选内容之间的内容相似度。
步骤S430. 根据对象相关度以及内容相似度建立用于表示候选内容的内容多样性的内容矩阵。
步骤S440. 根据内容矩阵从多个待推荐的候选内容中选取用于向推荐对象推荐的多个目标内容。
在本申请实施例提供的内容推荐方法中,通过建立用于表示内容多样性的内容矩阵,可以根据候选内容与推荐对象之间的对象相关度以及不同候选内容之间的内容相似度获取多样性程度高的目标内容,实现了多样性与相关性之间的平衡,达到推荐内容的多样性打散效果。
下面分别对以上内容推荐方法中的各个步骤做详细说明。
在步骤S410中,获取与推荐对象相关的多个待推荐的候选内容,并分别获取各个候选内容与推荐对象之间的对象相关度。
推荐对象可以是接收推荐内容的一个用户,本步骤可以采集该用户的历史行为数据,并根据采集到的历史行为数据分析该用户的兴趣特点,进而从海量的内容数据中召回与其兴趣特点相关的若干数量的待推荐的候选内容。例如,根据用户在资讯平台上的资讯浏览记录可以判断该用户主要对历史和体育感兴趣,那么在进行数据召回时可以筛选出历史和体育两个领域的资讯信息,并将这些筛选得到的资讯信息作为待推荐的候选内容。
推荐对象除了可以是单个用户之外,也可以是由两个及两个以上的用户组成的用户群组。例如,本申请实施例可以预先对大量的用户进行聚类处理,将具有相似兴趣特点的用户组成用户群组。属于同一用户群组的用户可以接收相同的或者相似的推荐内容,从而降低内容推荐方的数据计算成本,提高其内容推荐效率。
对象相关度是用于表示候选内容与推荐对象之间相关程度的参数。例如,某个用户喜欢查看体育相关的资讯,而体育资讯中包含了足球、篮球、田径、极限运动等多种不同种类的资讯信息。通过分析该用户的兴趣特点得出该用户对足球的喜爱程度大于篮球,那么由此可以确定一条足球资讯与该用户的对象相关度大于一条篮球资讯与该用户的对象相关度。在一些可选的实施方式中,本步骤可以利用预先训练的相关度评价模型计算候选内容与推荐对象之间的对象相关度。在此基础上,分别对候选内容与推荐对象进行特征提取后可以输入至训练好的相关度评价模型中,然后由相关度评价模型对二者进行计算处理后输出候选内容与推荐对象的对象相关性评分。在分别获取到每个候选内容与推荐对象的对象相关性评分后,可以对其进行归一化处理以形成具有指定数值范围和数值分布特征的对象相关性评分,提高后续进行多样性调整的可靠性。
另外,为了增加多样性调整的维度以提高多样性调整效果,本申请实施例还可以对候选内容进行分类处理以得到多种不同类型的候选内容,从而对不同类型候选内容的平衡性和目标性做出有效控制,以优化不同内容类型的候选内容在对象相关性方面的分布情况。图5示意性地示出了本申请一些实施例中获取对象相关度的方法步骤流程图。如图5所示,在以上实施例的基础上,步骤S410中的分别获取各个候选内容与推荐对象之间的对象相关度,可以包括如下的步骤S510~步骤S540。
步骤S510. 分别对各个候选内容进行特征提取以得到候选内容的内容特征,并对推荐对象进行特征提取以得到推荐对象的对象特征;
步骤S520. 根据内容特征和对象特征确定候选内容与推荐对象之间的对象相关性评分;
步骤S530. 获取候选内容的内容类型信息,并获取与内容类型信息相关的类型权重;
步骤S540. 根据类型权重对各个对象相关性评分进行加权映射以得到各个候选内容与推荐对象之间的对象相关度。
通过执行步骤S510~步骤S540,可以分别对候选内容和推荐对象进行特征提取以得到相应的内容特征和对象特征,然后可以利用预先训练的相关度评价模型对候选内容和推荐对象的相关程度做出评价,得到对象相关性评分。再根据类型权重对对象相关性评分进行加权映射后可以得到基于内容类型调整后的各个候选对象与推荐对象的对象相关度。另外,本申请实施例还可以提供多种不同的候选目标信息,候选目标信息用于表示推荐内容在不同内容类型之间的目标倾向性。在不同的推荐轮次下,可以根据需要选取不同的候选目标信息用以调整不同内容类型对应的类型权重。即首先可以从多个候选目标信息中选取当前推荐轮次的推荐目标信息,然后根据推荐目标信息确定与内容类型信息相关的类型权重。
以资讯信息的推荐为例,图6示意性地示出了基于多目标的多内容类型融合推荐的推荐原理图。如图6所示,本申请实施例可以从内容类型610和内容目标620两个维度对推荐内容与推荐对象的内容相关度做出适应调整。
内容类型610可以包括“优质”、“时新”、“兴趣”等多个类型。优质类型表示推荐内容的内容质量较高,时新类型表示推荐内容的内容时效性较强,兴趣类型表示推荐内容的兴趣特征明显、个性化较强。
内容目标620可以包括“权威度”、“新闻感”、“帐号生态”、“时长”等多种目标。每个内容目标可以对应于一组内容类型的类型权重,基于内容目标可以利用相应的类型权重调整一个推荐轮次中不同内容类型的推荐内容的占比。在此基础上对推荐内容进行内容多样性调整后提供符合当前推荐轮次的目标需求和类型需求的推荐结果。
举例而言,若当前推荐轮次下的推荐目标是“权威度”,要求推荐内容具有较高的内容质量,因此优质类型的推荐内容可以分配较高的类型权重,以提高优质类型的推荐内容与推荐对象之间的内容相关度;若当前推荐轮次下的推荐目标是“新闻感”,要求推荐内容具有较强的时效性,因此时新类型的推荐内容可以分配较高的类型权重,以提高时新类型的推荐内容与推荐对象之间的内容相关度。在本申请的其他一些实施例中,可以根据需要配置不同的内容类型和内容目标,进而可以在不同的推荐轮次下利用内容相关度的加权处理从多个维度上对推荐内容的多样性占比做出针对性调整。在保证个性化匹配内容分发效率的同时,兼顾权威优质、时新内容的体验保证,确保用户体验的长期受益和内容平衡。
在步骤S420中,对候选内容进行语义特征提取以得到候选内容的语义向量,并根据各个候选内容的语义向量分别确定任意两个候选内容之间的内容相似度。
语义向量是对图像、文本等原始数据进行向量化处理后得到的用于表示语义特征的向量。内容相似度是用于表示两个候选内容之间相似程度的参数,例如可以用两个语义向量之间的向量距离(如余弦距离)来表示两个候选内容之间的内容相似度。
在一些可选的实施方式中,本步骤可以利用预先训练的语义特征提取模型对候选内容进行映射处理以得到相应的语义向量。举例而言,本步骤可以获取推荐对象所在对象群体的群体类型信息,然后根据群体类型信息确定与对象群体相对应的语义特征提取模型,再通过语义特征提取模型对候选内容进行映射处理以得到候选内容的语义向量。
本申请实施例可以预先对推荐对象进行聚类以形成若干对象群体,例如可以根据用户的年龄特征划分为少年、青年、中年、老年等用户群体,不同年龄段的用户群体在语言使用方面会呈现不同特点。针对不同用户群体,可以收集具有群体特色的语料形成语料库,再利用语料库训练与其相对应的语义特征提取模型。即首先根据群体类型信息选取与对象群体相关的语料库,然后利用语料库训练与对象群体相对应的语义特征提取模型。本申请实施例中使用的语义特征提取模型例如可以是基于神经网络构建的word2vec模型,用以通过神经网络对输入的词语进行逐层映射后输出得到表示其语义特征的词向量。
在一些可选的实施方式中,向用户进行推荐的网络内容可以是包含多种载体形式的多媒体信息,例如一项候选内容中可以同时包含图像、文本、视频、音频等多种类型的信息。其中文本类型的信息和其他非文本类型的信息在语义特征提取方式上存在一定差异,因此可以对二者分别进行映射处理再进行融合。在此基础上,通过语义特征提取模型对候选内容进行映射处理以得到候选内容的语义向量的方法,可以包括以下步骤:
获取候选内容中的文本内容和非文本内容;通过语义特征提取模型对文本内容进行映射处理以得到文本内容的第一嵌入向量;通过语义特征提取模型对非文本内容进行映射处理以得到非文本内容的第二嵌入向量;对第一嵌入向量和第二嵌入向量进行融合处理以得到候选内容的语义向量。
基于以上步骤可以对两种或两种以上不同类型的网络内容进行语义特征提取。针对文本内容,可以先通过one-hot编码得到数值型的编码信息,然后再将编码信息输入至语义特征提取模型中,经过映射处理后可以得到该文本内容的第一嵌入向量。针对图像、视频或者音频等非文本内容,可以对其进行识别分类后得到与之对应的文本标签,然后采用与文本内容相似的编码和映射方法得到非文本内容的第二嵌入向量。最后再对第一嵌入向量和第二嵌入向量进行融合处理以得到候选内容的语义向量,融合处理的方法可以是直接将第一嵌入向量和第二嵌入向量进行拼接处理得到的语义向量,或者也可以是通过一个全连接层对第一嵌入向量和第二嵌入向量进行加权映射以得到语义向量。
在获得各个候选内容的语义向量后,每两个候选内容之间均可以通过语义向量计算确定二者之间的内容相似度。在一些可选的实施方式中,可以直接将语义向量的向量距离作为两个候选内容的内容相似度。然而,在使用不同类型的语义特征提取模型计算得到不同的语义向量时,这些语义向量的数值分布特征是存在一定差异的。图7示意性地示出了不同类型语义向量的余弦相似度的数值分布效果。分别使用三种不同的语义特征提取模型对图文数据库中的1000万组图文的相似度进行统计后,可以发现三种不同类型的语义向量计算得到的余弦相似度具有明显不同的数值分布特征。
为了提高计算内容相似度的准确性,本申请实施例可以对语义向量的向量距离进行归一化处理以得到具有相同分布特征的内容相似度。首先根据各个候选内容的语义向量确定任意两个语义向量的向量距离,然后对向量距离进行归一化处理以得到与两个语义向量相对应的两个候选内容之间的内容相似度。
在一些可选的实施方式中,对向量距离进行归一化处理以得到与两个语义向量相对应的两个候选内容之间的内容相似度的方法,可以包括以下步骤:
对向量距离进行正态分布拟合以得到用于表示向量距离的分布信息的分布均值和分布方差;获取用于对向量距离进行归一化处理的归一化均值和归一化方差;根据分布均值、分布方差、归一化均值以及归一化方差对向量距离进行映射处理以得到与两个语义向量相对应的两个候选内容之间的内容相似度。
举例而言,对某一类型语义向量的向量距离,通过正态分布拟合可以得到分布均值μ和分布方差σ。然后可以获取用于进行归一化处理的归一化均值μ 0和归一化方差σ 0,再利用归一化均值μ 0和归一化方差σ 0以及分布均值μ和分布方差σ对向量距离进行映射处理便可以得到具有归一化分布特征的内容相似度。例如,在一应用场景中,可以按照如下公式获得内容相似度
/>
其中,和/>分别为两个不同候选内容的语义向量,/>是以余弦距离表示的两个语义向量之间的向量距离;saturate()为截断函数,用于将内容相似度/>的取值范围截断为[0, 1]。
归一化均值μ 0例如可以取值为0.5,归一化方差σ 0例如可以取值为0.1,利用上述公式对语义向量的向量距离进行映射处理后,可以得到满足均值为0.5、方差为0.1的正态分布的内容相似度。
在步骤S430中,根据对象相关度以及内容相似度建立用于表示候选内容的内容多样性的内容矩阵。
为了表示候选内容的内容多样性,本申请实施例可以使用行列式点过程(Determinantal Point Process,DPP)算法建立内容矩阵。DPP算法本质上是一种同时考虑相关性和多样性的子集选择的算法,其核心在于对相关性和多样性的诠释。从几何的角度看,DPP算法将候选集中的每个元素理解为一个多维特征向量,而一个子集的多样性通过子集中所有向量围成的“体积”大小决定。图8示意性地示出了对DPP算法基于几何图形的算法原理。如图8所示,两个向量围成的第一图形801的“体积”可以用于表示这两个向量对应的候选内容的内容多样性,当引入第三个向量时,这三个向量对应的候选内容的内容多样性也相应地由着三个向量所围成的第二图形802的“体积”来表示。其中,候选内容与推荐对象的对象相关度决定了向量的模长,两个候选内容之间的内容相似度决定了两个向量之间的夹角大小。当选取模长较大(即对象相关度较大)的两个向量时,会增大图形“体积”得到对应于较大内容多样性的第三图形803;但是当选取两个夹角较小(即内容相似度较大)的向量时,会减小图形“体积”得到对应于较小内容多样性的第四图形804。因此,对应于最大的内容多样性的最大“体积”的图形应当是向量模长和向量夹角整体优化的结果。
基于以上原理,本申请实施例可以利用如下公式建立包括n个候选内容的用于表示其内容多样性的内容矩阵
其中,为候选内容与推荐对象之间的对象相关度,/>为归一化函数,用于获取经过归一化处理后的对象相关度/>。/>是经过归一化处理后的两个候选内容之间的内容相似度。/>为激活函数(如sigmoid函数),用于对对象相关度进行非线性映射。/>为用于调整候选内容的内容多样性的调整参数,通过调整参数对对象相关度进行加权处理可以调整对象相关度在内容多样性方面的影响程度。当调整参数/>接近于0时,任意两个候选内容与推荐对象的对象相关度都将在调整参数/>的加权处理下而变得十分接近,相当于降低了对象相关度对于内容多样性的影响程度。随着调整参数/>的增大,对象相关度的差异逐渐增大,对象相关度对于内容多样性的影响程度也逐渐增大。
图9示意性地示出了本申请一些实施例中基于调整参数建立内容矩阵的方法步骤流程图。如图9所示,在以上实施例的基础上,步骤S430. 根据对象相关度以及内容相似度建立用于表示候选内容的内容多样性的内容矩阵,可以包括如下的步骤S910~步骤S930。
步骤S910. 获取用于调整候选内容的内容多样性的调整参数;
步骤S920. 根据调整参数对候选内容的对象相关度进行加权处理;
步骤S930. 根据加权处理后的对象相关度以及内容相似度建立用于表示候选内容的内容多样性的内容矩阵。
通过在内容矩阵中引入调整参数,可以调整对象相关度对于内容多样性的影响程度,从而在对象相关度与内容相似度之间达到平衡。
调整参数可以是通过离线实验和在线AB测试进行选取得到的。AB测试是为了比较两个方案的好坏,给两组完全正交的两组用户分别应用不同的方案,比较两种方案的最终效果,以选择较好的一种。
在步骤S910中,获取用于调整候选内容的内容多样性的调整参数,可以包括如下的步骤S911~步骤S915。
步骤S911. 获取多个候选参数以及用于对候选参数进行评估的样本集合;
步骤S912. 分别通过各个候选参数从样本集合中选取与候选参数相对应的样本内容;
步骤S913. 向样本对象推荐样本内容以得到样本对象返回的针对每个样本内容的内容触发状态;
步骤S914. 根据各个样本内容的内容触发状态确定与候选参数相对应的推荐结果评分;
步骤S915. 根据推荐结果评分从多个候选参数中选取用于调整候选内容的内容多样性的调整参数。
推荐结果评分可以表示为DCG指标,即:
其中,N为样本集合的大小,表示样本集合中包括了N个样本内容。y i表示由样本对象返回的针对第i个样本内容的内容触发状态。例如,在某一应用场景下,样本对象点击触发了某一个样本内容,那么该样本内容的内容触发状态可以记为1;相反地,如果样本对象没有点击触发这一样本内容,那么该样本内容的内容触发状态可以记为0。
图10示意性地示出了不同调整参数对于推荐结果的影响效果程度示意图。如图10中所示,推荐结果评分DCG以及推荐结果中的推荐内容的相似度评分SIM都将在调整参数的影响下而发生改变。相似度评分SIM可以采用推荐结果中各个推荐内容之间的内容相似度的平均值来计算。由图中曲线变化,可以得知当调整参数取值为0.827时,推荐结果评分DCG取得最大值4376.31。
在步骤S930中,根据加权处理后的对象相关度以及内容相似度建立用于表示候选内容的内容多样性的内容矩阵,可以包括如下的步骤S931~步骤S933。
步骤S931. 通过激活函数对加权处理后的对象相关度进行非线性映射以得到具有非线性特征的非线性对象相关度;
步骤S932. 根据任意两个候选对象的非线性对象相关度以及两个候选对象的内容相似度确定两个候选对象的内容多样性参数;
步骤S933. 以内容多样性参数作为矩阵元素,建立用于表示候选内容的内容多样性的内容矩阵。
利用激活函数(如sigmoid函数)对对象相关度进行非线性映射可以在内容多样性参数中引入非线性因素,从而提高其对于内容多样性的表征能力。任意两个候选内容可以确定一个内容多样性参数,再以内容多样性参数作为矩阵元素即可建立用于表示候选内容的内容多样性的内容矩阵。
在步骤S340中,根据内容矩阵从多个待推荐的候选内容中选取用于向推荐对象推荐的多个目标内容。
在根据对象相关度和内容相似度建立用于表示内容多样性的内容矩阵后,可以根据内容矩阵的行列式选取能够提供较大内容多样性的目标内容。由图8中所示的算法原理可知,内容矩阵的行列式大小可以用于表示内容矩阵中各个向量围成图形的体积。即行列式越大时,内容矩阵的内容多样性越大,因此可以基于内容矩阵的行列式大小选取用于向推荐对象推荐的多个目标内容。
在一些可选的实施方式中,可以先获取用于向推荐对象推荐内容的内容推荐数量,并根据内容推荐数量确定组成内容矩阵的多个子矩阵。然后分别获取各个子矩阵的行列式,并根据行列式确定至少一个目标子矩阵。再根据目标子矩阵从多个待推荐的候选内容中选取用于向推荐对象推荐的多个目标内容。
举例而言,候选内容的总数量为N,可以建立大小为N*N的内容矩阵。需要向用户进行推荐的内容推荐数量为K,那么在内容矩阵中可以得到子矩阵的数量为,从中选取一个行列式最大的子矩阵即为目标子矩阵。目标子矩阵中的各个候选内容便是需要选取的用于向推荐对象推荐的K个目标内容。
在本申请的一些实施例中,在根据内容矩阵从多个待推荐的候选内容中选取用于向推荐对象推荐的多个目标内容之后,还可以对目标内容进行筛选过滤以控制推荐内容的内容边界。图11示意性地示出了本申请一些实施例中对目标内容进行过滤筛选的流程示意图。如图11所示,本申请实施例可以获取与推荐对象相关的静态过滤规则1101以及与目标内容的邻接关系相关的动态过滤规则1102,然后根据静态过滤规则1101以及动态过滤规则1102对目标内容组成的内容序列1103进行过滤处理。
静态过滤规则1101是根据推荐对象的信息确定的过滤规则,例如可以滤除目标内容中涉及“低俗”、“负反馈”、 “产品体验”等相关的内容进行滤除。
动态过滤规则1102是根据内容序列1103中各个目标内容的邻接关系来确定的过滤规则,例如相邻两个目标内容具有相似标签、相似分类、相似来源、相似主体、相似图片、相似标题或者相似正文等情况时,可以对其中一个目标内容进行滤除。
对内容推荐相关场景都可以应用本方案的架构思路进行语义向量的多样性打散,实现效率与生态平衡的一种推荐系统解决方案。并且基于语义向量多样性打散,具有更好的泛化性,基于算法与策略融合的分层多样性架构,能很好的保证产品体验的边界可控问题,能比较优雅的解决推荐系统中平衡相关性与多样性的多样性打散解决方案。
应当注意,尽管在附图中以特定顺序描述了本申请中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的内容推荐方法。图12示意性地示出了本申请实施例提供的内容推荐装置的结构框图。如图12所示,内容推荐装置1200包括:
相关度获取模块1210,被配置为获取与推荐对象相关的多个待推荐的候选内容,并分别获取各个候选内容与推荐对象之间的对象相关度;
相似度获取模块1220,被配置为对候选内容进行语义特征提取以得到候选内容的语义向量,并根据各个候选内容的语义向量分别确定任意两个候选内容之间的内容相似度;
矩阵建立模块1230,被配置为根据对象相关度以及内容相似度建立用于表示候选内容的内容多样性的内容矩阵;
内容选取模块1240,被配置为根据内容矩阵从多个待推荐的候选内容中选取用于向推荐对象推荐的多个目标内容。
在本申请的一些实施例中,基于以上各实施例,矩阵建立模块包括:
参数获取单元,被配置为获取用于调整候选内容的内容多样性的调整参数;
加权处理单元,被配置为根据调整参数对候选内容的对象相关度进行加权处理;
矩阵建立单元,被配置为根据加权处理后的对象相关度以及内容相似度建立用于表示候选内容的内容多样性的内容矩阵。
在本申请的一些实施例中,基于以上各实施例,矩阵建立单元包括:
非线性映射子单元,被配置为通过激活函数对加权处理后的对象相关度进行非线性映射以得到具有非线性特征的非线性对象相关度;
参数确定子单元,被配置为根据任意两个候选对象的非线性对象相关度以及两个候选对象的内容相似度确定两个候选对象的内容多样性参数;
矩阵建立子单元,被配置为以内容多样性参数作为矩阵元素,建立用于表示候选内容的内容多样性的内容矩阵。
在本申请的一些实施例中,基于以上各实施例,参数获取单元包括:
集合获取子单元,被配置为获取多个候选参数以及用于对候选参数进行评估的样本集合;
内容选取子单元,被配置为分别通过各个候选参数从样本集合中选取与候选参数相对应的样本内容;
状态获取子单元,被配置为向样本对象推荐样本内容以得到样本对象返回的针对每个样本内容的内容触发状态;
评分确定子单元,被配置为根据各个样本内容的内容触发状态确定与候选参数相对应的推荐结果评分;
参数选取子单元,被配置为根据推荐结果评分从多个候选参数中选取用于调整候选内容的内容多样性的调整参数。
在本申请的一些实施例中,基于以上各实施例,内容选取模块包括:
子矩阵确定单元,被配置为获取用于向推荐对象推荐内容的内容推荐数量,并根据内容推荐数量确定组成内容矩阵的多个子矩阵;
行列式获取单元,被配置为分别获取各个子矩阵的行列式,并根据行列式确定至少一个目标子矩阵;
目标内容选取单元,被配置为根据目标子矩阵从多个待推荐的候选内容中选取用于向推荐对象推荐的多个目标内容。
在本申请的一些实施例中,基于以上各实施例,相似度获取模块包括:
类型获取单元,被配置为获取推荐对象所在对象群体的群体类型信息;
模型确定单元,被配置为根据群体类型信息确定与对象群体相对应的语义特征提取模型;
语义映射单元,被配置为通过语义特征提取模型对候选内容进行映射处理以得到候选内容的语义向量。
在本申请的一些实施例中,基于以上各实施例,模型确定单元包括:
语料库选取子单元,被配置为根据群体类型信息选取与对象群体相关的语料库;
模型训练子单元,被配置为利用语料库训练与对象群体相对应的语义特征提取模型。
在本申请的一些实施例中,基于以上各实施例,语义映射单元包括:
内容获取子单元,被配置为获取候选内容中的文本内容和非文本内容;
文本映射子单元,被配置为通过语义特征提取模型对文本内容进行映射处理以得到文本内容的文本嵌入向量;
非文本映射子单元,被配置为通过语义特征提取模型对非文本内容进行映射处理以得到非文本内容的非文本嵌入向量;
向量融合子单元,被配置为对文本嵌入向量和非文本嵌入向量进行融合处理以得到候选内容的语义向量。
在本申请的一些实施例中,基于以上各实施例,相似度获取模块还包括:
向量距离确定单元,被配置为根据各个候选内容的语义向量确定任意两个语义向量的向量距离;
向量归一化单元,被配置为对向量距离进行归一化处理以得到与两个语义向量相对应的两个候选内容之间的内容相似度。
在本申请的一些实施例中,基于以上各实施例,向量归一化单元包括:
参数拟合子单元,被配置为对向量距离进行正态分布拟合以得到用于表示向量距离的分布信息的分布均值和分布方差;
参数获取子单元,被配置为获取用于对向量距离进行归一化处理的归一化均值和归一化方差;
归一化映射子单元,被配置为根据分布均值、分布方差、归一化均值以及归一化方差对向量距离进行映射处理以得到与两个语义向量相对应的两个候选内容之间的内容相似度。
在本申请的一些实施例中,基于以上各实施例,相关度获取模块包括:
特征提取单元,被配置为分别对各个候选内容进行特征提取以得到候选内容的内容特征,并对推荐对象进行特征提取以得到推荐对象的对象特征;
相关性评分单元,被配置为根据内容特征和对象特征确定候选内容与推荐对象之间的对象相关性评分;
权重获取单元,被配置为获取候选内容的内容类型信息,并获取与内容类型信息相关的类型权重;
相关性加权单元,被配置为根据类型权重对各个对象相关性评分进行加权映射以得到各个候选内容与推荐对象之间的对象相关度。
在本申请的一些实施例中,基于以上各实施例,权重获取单元包括:
目标选取子单元,被配置为从多个候选目标信息中选取当前推荐轮次的推荐目标信息;
权重确定子单元,被配置为根据推荐目标信息确定与内容类型信息相关的类型权重。
在本申请的一些实施例中,基于以上各实施例,内容推荐装置还包括:
规则获取模块,被配置为获取与推荐对象相关的静态过滤规则以及与目标内容的邻接关系相关的动态过滤规则;
内容过滤模块,被配置为根据静态过滤规则以及动态过滤规则对目标内容组成的内容序列进行过滤处理。
本申请各实施例中提供的内容推荐装置的具体细节已经在对应的方法实施例中进行了详细的描述,此处不再赘述。
由以上各实施例的介绍可知,本申请提供了一套基于语义向量的多样性打散的系统方案,通过引入语义向量刻画推荐结果的相似度度量,不依赖NLP的标签、分类等结果进行多样性刻画,能够实现更泛化的对推荐结果进行多样性打散的方案。
本申请利用DPPs算法模型,并充分考虑真实场景下的用户噪声,设计了一套对Embedding向量距离、相关性度量指标等的归一化统一流程,实现对序列化的推荐结果进行多样性打散,实现了多样性与相关性的平衡。
本申请通过依据点击预估模型和语义向量化的多样性度量指标进行融合,可以方便地考虑真实场景下的用户实时行为反馈、内容属性特征等维度的数据刻画,使得个性化的多样性打散结果也能适用于完全没有任何行为信息的全新用户。
本申请充分考虑在信息流推荐场景中不同对象群体的特点和需求,提出一种基于多目标的不同内容类型(如资讯中的优质、时新、兴趣内容)多样性混排的系统方案,灵活地处理不同内容类型的混排,实现多种业务内容类型的曝光占比与列表多样性平衡的多目标混排。满足在信息流推荐这种独特场景下的资讯消费需求的智能化多样性解决方案。
本申请充分考虑信息流推荐中年轻化群体等特色消费人群的特点,提出一种能对算法模型与边界规则融合的混排方案,实现算法模型与产品体验保护的自然融合。实现算法模型多样性调优的同时,能很好的与未成年保护、增强产品感知的人工干预等策略进行融合,更好的解决推荐中混排层的多样化需求。同时该模型与规则边界融合的方案,可方便地扩展到基于神经网络的深度多样性模型的方案,完成模型与边界规则融合的多样性系统方案落地和实践。
图13示意性地示出了用于实现本申请实施例的电子设备的计算机系统结构框图。
需要说明的是,图13示出的电子设备的计算机系统1300仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图13所示,计算机系统1300包括中央处理单元(Central Processing Unit,CPU)1301,其可以根据存储在只读存储器(Read-Only Memory,ROM)1302中的程序或者从存储部分1308加载到随机访问存储器(Random Access Memory,RAM)1303中的程序而执行各种适当的动作和处理。在RAM 1303中,还存储有系统操作所需的各种程序和数据。CPU1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出(Input /Output,I/O)接口1305也连接至总线1304。
以下部件连接至I/O接口1305:包括键盘、鼠标等的输入部分1306;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1307;包括硬盘等的存储部分1308;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1309。通信部分1309经由诸如因特网的网络执行通信处理。驱动器1310也根据需要连接至I/O接口1305。可拆卸介质1311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1310上,以便于从其上读出的计算机程序根据需要被安装入存储部分1308。
特别地,根据本申请的实施例,各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1309从网络上被下载和安装,和/或从可拆卸介质1311被安装。在该计算机程序被中央处理单元(CPU)1301执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (14)

1.一种内容推荐方法,其特征在于,包括:
获取与推荐对象相关的多个待推荐的候选内容,并分别获取各个所述候选内容与所述推荐对象之间的对象相关度;
对所述候选内容进行语义特征提取以得到所述候选内容的语义向量,并根据各个所述候选内容的语义向量分别确定任意两个候选内容之间的内容相似度;
通过激活函数对所述候选内容的对象相关度进行非线性映射以得到具有非线性特征的非线性对象相关度;
根据任意两个候选对象的非线性对象相关度以及所述两个候选对象的内容相似度确定所述两个候选对象的内容多样性参数;
以所述内容多样性参数作为矩阵元素,建立用于表示候选内容的内容多样性的内容矩阵;
根据所述内容矩阵从所述多个待推荐的候选内容中选取用于向所述推荐对象推荐的多个目标内容。
2.根据权利要求1所述的内容推荐方法,其特征在于,在通过激活函数对所述候选内容的对象相关度进行非线性映射以得到具有非线性特征的非线性对象相关度之前,所述方法还包括:
获取用于调整候选内容的内容多样性的调整参数;
根据所述调整参数对所述候选内容的对象相关度进行加权处理。
3.根据权利要求2所述的内容推荐方法,其特征在于,所述获取用于调整候选内容的内容多样性的调整参数,包括:
获取多个候选参数以及用于对所述候选参数进行评估的样本集合;
分别通过各个候选参数从所述样本集合中选取与所述候选参数相对应的样本内容;
向样本对象推荐所述样本内容以得到所述样本对象返回的针对每个所述样本内容的内容触发状态;
根据各个所述样本内容的内容触发状态确定与所述候选参数相对应的推荐结果评分;
根据所述推荐结果评分从所述多个候选参数中选取用于调整候选内容的内容多样性的调整参数。
4.根据权利要求1所述的内容推荐方法,其特征在于,所述根据所述内容矩阵从所述多个待推荐的候选内容中选取用于向所述推荐对象推荐的多个目标内容,包括:
获取用于向所述推荐对象推荐内容的内容推荐数量,并根据所述内容推荐数量确定组成所述内容矩阵的多个子矩阵;
分别获取各个子矩阵的行列式,并根据所述行列式确定至少一个目标子矩阵;
根据所述目标子矩阵从所述多个待推荐的候选内容中选取用于向所述推荐对象推荐的多个目标内容。
5.根据权利要求1所述的内容推荐方法,其特征在于,所述对所述候选内容进行语义特征提取以得到所述候选内容的语义向量,包括:
获取所述推荐对象所在对象群体的群体类型信息;
根据所述群体类型信息确定与所述对象群体相对应的语义特征提取模型;
通过所述语义特征提取模型对所述候选内容进行映射处理以得到所述候选内容的语义向量。
6.根据权利要求5所述的内容推荐方法,其特征在于,所述根据所述群体类型信息确定与所述对象群体相对应的语义特征提取模型,包括:
根据所述群体类型信息选取与所述对象群体相关的语料库;
利用所述语料库训练与所述对象群体相对应的语义特征提取模型。
7.根据权利要求5所述的内容推荐方法,其特征在于,所述通过所述语义特征提取模型对所述候选内容进行映射处理以得到所述候选内容的语义向量,包括:
获取所述候选内容中的文本内容和非文本内容;
通过所述语义特征提取模型对所述文本内容进行映射处理以得到所述文本内容的文本嵌入向量;
通过所述语义特征提取模型对所述非文本内容进行映射处理以得到所述非文本内容的非文本嵌入向量;
对所述文本嵌入向量和所述非文本嵌入向量进行融合处理以得到所述候选内容的语义向量。
8.根据权利要求1所述的内容推荐方法,其特征在于,所述根据各个所述候选内容的语义向量分别确定任意两个候选内容之间的内容相似度,包括:
根据各个所述候选内容的语义向量确定任意两个语义向量的向量距离;
对所述向量距离进行归一化处理以得到与所述两个语义向量相对应的两个候选内容之间的内容相似度。
9.根据权利要求8所述的内容推荐方法,其特征在于,所述对所述向量距离进行归一化处理以得到与所述两个语义向量相对应的两个候选内容之间的内容相似度,包括:
对所述向量距离进行正态分布拟合以得到用于表示所述向量距离的分布信息的分布均值和分布方差;
获取用于对所述向量距离进行归一化处理的归一化均值和归一化方差;
根据所述分布均值、所述分布方差、所述归一化均值以及所述归一化方差对所述向量距离进行映射处理以得到与所述两个语义向量相对应的两个候选内容之间的内容相似度。
10.根据权利要求1所述的内容推荐方法,其特征在于,所述分别获取各个所述候选内容与所述推荐对象之间的对象相关度,包括:
分别对各个所述候选内容进行特征提取以得到所述候选内容的内容特征,并对所述推荐对象进行特征提取以得到所述推荐对象的对象特征;
根据所述内容特征和所述对象特征确定所述候选内容与所述推荐对象之间的对象相关性评分;
获取所述候选内容的内容类型信息,并获取与所述内容类型信息相关的类型权重;
根据所述类型权重对各个所述对象相关性评分进行加权映射以得到各个所述候选内容与所述推荐对象之间的对象相关度。
11.根据权利要求10所述的内容推荐方法,其特征在于,所述获取与所述内容类型信息相关的类型权重,包括:
从多个候选目标信息中选取当前推荐轮次的推荐目标信息;
根据所述推荐目标信息确定与所述内容类型信息相关的类型权重。
12.根据权利要求1所述的内容推荐方法,其特征在于,在根据所述内容矩阵从所述多个待推荐的候选内容中选取用于向所述推荐对象推荐的多个目标内容之后,所述方法还包括:
获取与所述推荐对象相关的静态过滤规则以及与所述目标内容的邻接关系相关的动态过滤规则;所述静态过滤规则是根据所述推荐对象的信息确定的过滤规则,所述动态过滤规则是根据内容序列中各个目标内容的邻接关系来确定的过滤规则;
根据所述静态过滤规则以及所述动态过滤规则对所述目标内容组成的内容序列进行过滤处理。
13.一种内容推荐装置,其特征在于,包括:
相关度获取模块,被配置为获取与推荐对象相关的多个待推荐的候选内容,并分别获取各个所述候选内容与所述推荐对象之间的对象相关度;
相似度获取模块,被配置为对所述候选内容进行语义特征提取以得到所述候选内容的语义向量,并根据各个所述候选内容的语义向量分别确定任意两个候选内容之间的内容相似度;
矩阵建立模块,被配置为通过激活函数对所述候选内容的对象相关度进行非线性映射以得到具有非线性特征的非线性对象相关度;根据任意两个候选对象的非线性对象相关度以及所述两个候选对象的内容相似度确定所述两个候选对象的内容多样性参数;以所述内容多样性参数作为矩阵元素,建立用于表示候选内容的内容多样性的内容矩阵;
内容选取模块,被配置为根据所述内容矩阵从所述多个待推荐的候选内容中选取用于向所述推荐对象推荐的多个目标内容。
14.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至12中任意一项所述的内容推荐方法。
CN202010576885.5A 2020-06-22 2020-06-22 内容推荐方法、装置及电子设备 Active CN111708950B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010576885.5A CN111708950B (zh) 2020-06-22 2020-06-22 内容推荐方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010576885.5A CN111708950B (zh) 2020-06-22 2020-06-22 内容推荐方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN111708950A CN111708950A (zh) 2020-09-25
CN111708950B true CN111708950B (zh) 2023-08-29

Family

ID=72542399

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010576885.5A Active CN111708950B (zh) 2020-06-22 2020-06-22 内容推荐方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN111708950B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395496A (zh) * 2020-10-22 2021-02-23 上海众源网络有限公司 一种信息推荐方法、装置、电子设备及存储介质
CN112528071A (zh) * 2020-10-30 2021-03-19 百果园技术(新加坡)有限公司 一种视频数据的排序方法、装置、计算机设备和存储介质
CN113781143A (zh) * 2020-11-05 2021-12-10 北京沃东天骏信息技术有限公司 对象推荐方法及装置
CN112418402B (zh) * 2020-11-24 2023-08-11 百度在线网络技术(北京)有限公司 推荐对象的方法、神经网络及其训练方法、计算设备
JPWO2022163203A1 (zh) * 2021-01-29 2022-08-04
CN113037822B (zh) * 2021-03-01 2022-05-03 杨皓淳 基于无线网络和云计算的媒体数据平台
CN113111259A (zh) * 2021-04-09 2021-07-13 北京沃东天骏信息技术有限公司 订阅号的内容推送方法、装置、设备及存储介质
CN113515644B (zh) * 2021-05-26 2023-05-26 中国医学科学院医学信息研究所 一种基于知识图谱的医院科技画像方法和系统
CN113343102A (zh) * 2021-06-28 2021-09-03 平安信托有限责任公司 基于特征筛选的数据推荐方法、装置、电子设备及介质
CN116738052A (zh) * 2021-07-09 2023-09-12 小红书科技有限公司 一种基于滑动谱分解确定内容多样性的方法和选定内容的方法
CN113656697B (zh) * 2021-08-24 2023-12-12 北京字跳网络技术有限公司 对象推荐方法、装置、电子设备、存储介质
CN114117212A (zh) * 2021-11-12 2022-03-01 北京达佳互联信息技术有限公司 媒体数据处理方法、装置、电子设备及存储介质
CN114528482B (zh) * 2022-01-25 2022-12-27 北京三快在线科技有限公司 一种推荐对象确定方法、装置、电子设备及存储介质
JP7371844B1 (ja) 2023-03-02 2023-10-31 17Live株式会社 レコメンデーションのためのシステム、方法、及びコンピュータ可読媒体

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017041541A1 (zh) * 2015-09-08 2017-03-16 北京邮电大学 推送推荐信息的方法、服务器及存储介质
US9992523B1 (en) * 2017-01-05 2018-06-05 Hulu, LLC Selecting recommendations in a video delivery system using diversity and relevance
CN110232152A (zh) * 2019-05-27 2019-09-13 腾讯科技(深圳)有限公司 内容推荐方法、装置、服务器以及存储介质
CN110704739A (zh) * 2019-09-30 2020-01-17 汉海信息技术(上海)有限公司 资源推荐方法、装置及计算机存储介质
CN110737783A (zh) * 2019-10-08 2020-01-31 腾讯科技(深圳)有限公司 一种推荐多媒体内容的方法、装置及计算设备
CN110781377A (zh) * 2019-09-03 2020-02-11 腾讯科技(深圳)有限公司 一种文章推荐方法、装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7860862B2 (en) * 2006-10-27 2010-12-28 Yahoo! Inc. Recommendation diversity

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017041541A1 (zh) * 2015-09-08 2017-03-16 北京邮电大学 推送推荐信息的方法、服务器及存储介质
US9992523B1 (en) * 2017-01-05 2018-06-05 Hulu, LLC Selecting recommendations in a video delivery system using diversity and relevance
CN110232152A (zh) * 2019-05-27 2019-09-13 腾讯科技(深圳)有限公司 内容推荐方法、装置、服务器以及存储介质
CN110781377A (zh) * 2019-09-03 2020-02-11 腾讯科技(深圳)有限公司 一种文章推荐方法、装置
CN110704739A (zh) * 2019-09-30 2020-01-17 汉海信息技术(上海)有限公司 资源推荐方法、装置及计算机存储介质
CN110737783A (zh) * 2019-10-08 2020-01-31 腾讯科技(深圳)有限公司 一种推荐多媒体内容的方法、装置及计算设备

Also Published As

Publication number Publication date
CN111708950A (zh) 2020-09-25

Similar Documents

Publication Publication Date Title
CN111708950B (zh) 内容推荐方法、装置及电子设备
CN111177575B (zh) 一种内容推荐方法、装置、电子设备和存储介质
CN111444428B (zh) 基于人工智能的信息推荐方法、装置、电子设备及存储介质
Gabriel De Souza et al. Contextual hybrid session-based news recommendation with recurrent neural networks
CN113626719B (zh) 信息推荐方法、装置、设备、存储介质及计算机程序产品
CN111931062B (zh) 一种信息推荐模型的训练方法和相关装置
Xu et al. Course video recommendation with multimodal information in online learning platforms: A deep learning framework
CN111460221B (zh) 评论信息处理方法、装置及电子设备
CN111737582B (zh) 一种内容推荐方法及装置
CN111625715B (zh) 信息提取方法、装置、电子设备及存储介质
CN113569129A (zh) 点击率预测模型处理方法、内容推荐方法、装置及设备
CN112257841A (zh) 图神经网络中的数据处理方法、装置、设备及存储介质
Campos et al. Providing recommendations for communities of learners in MOOCs ecosystems
Zhou A novel movies recommendation algorithm based on reinforcement learning with DDPG policy
CN114357204B (zh) 媒体信息的处理方法及相关设备
CN113836390B (zh) 资源推荐方法、装置、计算机设备及存储介质
KR20230106579A (ko) 학습 나침반 서비스를 제공하는 방법
CN116956183A (zh) 多媒体资源推荐方法、模型训练方法、装置及存储介质
CN115618024A (zh) 多媒体推荐方法、装置及电子设备
Martina et al. A Virtual Assistant for the Movie Domain Exploiting Natural Language Preference Elicitation Strategies
CN117150053A (zh) 多媒体信息推荐模型训练方法、推荐方法及装置
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
CN115482021A (zh) 多媒体信息推荐方法、装置、电子设备及存储介质
CN116628236B (zh) 多媒体信息的投放方法、装置、电子设备及存储介质
CN114547435A (zh) 内容质量的识别方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40028897

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant