CN114996435A - 基于人工智能的信息推荐方法、装置、设备及存储介质 - Google Patents

基于人工智能的信息推荐方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114996435A
CN114996435A CN202110226085.5A CN202110226085A CN114996435A CN 114996435 A CN114996435 A CN 114996435A CN 202110226085 A CN202110226085 A CN 202110226085A CN 114996435 A CN114996435 A CN 114996435A
Authority
CN
China
Prior art keywords
information
recommended
attribute information
recommendation
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110226085.5A
Other languages
English (en)
Inventor
刘刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110226085.5A priority Critical patent/CN114996435A/zh
Publication of CN114996435A publication Critical patent/CN114996435A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种基于人工智能的信息推荐方法、装置、电子设备及计算机可读存储介质;方法包括:对待推荐信息的多个属性信息中的第一部分属性信息进行特征交叉处理,得到待推荐信息的交叉特征;对待推荐信息的多个属性信息中的第二部分属性信息进行编码处理,得到待推荐信息的编码特征;基于交叉特征以及编码特征进行注意力处理,得到待推荐信息的注意力特征;基于待推荐信息的注意力特征进行倾向性预测处理,得到待推荐信息适配的推荐场景;基于待推荐信息适配的推荐场景执行推荐操作。通过本申请,能够有针对性地推荐信息,提高信息推荐的准确性。

Description

基于人工智能的信息推荐方法、装置、设备及存储介质
技术领域
本申请涉及人工智能技术,尤其涉及一种基于人工智能的信息推荐方法、装置、电子设备及计算机可读存储介质。
背景技术
人工智能(Artificial Intelligence,AI)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习/深度学习等几大方向,随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
在推荐系统中,信息的冷启动和用户的冷启动都是非常重要的研究方向。相关技术中,推荐系统通过大量的冷启动尝试,来补充用户的交互数据以及待推荐信息的交互数据,以实现信息的冷启动和用户的冷启动。
然而,这种冷启动尝试是通过随机试探的方式实现的,严重影响信息推荐准确度。
发明内容
本申请实施例提供一种基于人工智能的信息推荐方法、装置、电子设备及计算机可读存储介质,能够有针对性地推荐信息,提高信息推荐的准确性。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种基于人工智能的信息推荐方法,包括:
对待推荐信息的多个属性信息中的第一部分属性信息进行特征交叉处理,得到所述待推荐信息的交叉特征;
对所述待推荐信息的多个属性信息中的第二部分属性信息进行编码处理,得到所述待推荐信息的编码特征;
基于所述交叉特征以及所述编码特征进行注意力处理,得到所述待推荐信息的注意力特征;
基于所述待推荐信息的注意力特征进行倾向性预测处理,得到所述待推荐信息适配的推荐场景;
基于所述待推荐信息适配的推荐场景执行推荐操作。
上述技术方案中,所述对待推荐信息的多个属性信息中的第一部分属性信息进行特征交叉处理,得到所述待推荐信息的交叉特征,包括:
对所述待推荐信息的多个属性信息中的第一部分属性信息进行编码处理,得到所述第一部分属性信息的编码特征;
对所述第一部分属性信息的编码特征进行二阶特征交叉处理,得到所述第一部分属性信息的二阶交叉特征;
对所述第一部分属性信息的二阶交叉特征进行映射处理,得到所述待推荐信息的交叉特征。
上述技术方案中,所述第一部分属性信息包括固定属性信息、自媒体属性信息;
所述对所述待推荐信息的多个属性信息中的第一部分属性信息进行编码处理,得到所述第一部分属性信息的编码特征,包括:
对所述待推荐信息的固定属性信息进行离散化处理,得到所述固定属性信息的离散特征;
对所述固定属性信息的离散特征进行向量化处理,以获得所述固定属性信息的编码特征;
对所述待推荐信息的自媒体属性信息进行向量化处理,以获得所述自媒体属性信息的编码特征。
上述技术方案中,所述基于所述交叉特征以及所述编码特征进行注意力处理,得到所述待推荐信息的注意力特征,包括:
对所述交叉特征以及所述编码特征进行拼接处理,得到所述待推荐信息的拼接特征;
对所述待推荐信息的拼接特征进行自注意力处理,得到所述待推荐信息的注意力特征。
上述技术方案中,所述基于所述待推荐信息的注意力特征进行倾向性预测处理,得到所述待推荐信息适配的推荐场景,包括:
对所述待推荐信息的注意力特征进行映射处理,得到候选推荐场景的概率分布;
将所述概率分布中最大概率所对应的候选推荐场景,确定为所述待推荐信息适配的推荐场景。
上述技术方案中,所述基于所述待推荐信息适配的推荐场景执行推荐操作,包括:
基于所述待推荐信息适配的推荐场景,将所述待推荐信息存储至所述推荐场景对应的数据库中;
当基于目标用户的画像信息确定所述目标用户适配所述推荐场景时,将所述推荐场景对应的数据库中的至少一个所述待推荐信息推荐给所述目标用户。本申请实施例提供一种基于人工智能的信息推荐方法,包括:
信息推荐任务是通过调用倾向性模型实现的;
所述倾向性模型的训练过程包括以下处理:
从推荐场景样本对应的数据库中获取信息样本;
对信息样本的多个属性信息中的第一部分属性信息进行特征交叉处理,得到所述信息样本的交叉特征;
基于所述信息样本的编码特征以及所述交叉特征,确定所述信息样本的注意力特征;
基于所述信息样本的注意力特征进行倾向性预测处理,得到所述信息样本的预测推荐场景;
基于所述信息样本的预测推荐场景以及所述推荐场景样本,构建所述倾向性模型的损失函数;
更新所述倾向性模型的参数,将所述损失函数收敛时所述倾向性模型的更新的参数,作为训练后的所述倾向性模型的参数。
上述技术方案中,所述方法还包括:
确定与推荐场景样本对应的用户样本的属性信息;
获取具有所述属性信息的用户所形成的用户集合;
获取与所述用户集合中的用户之间具有交互的历史推荐信息所形成的推荐信息集合;
获取所述用户集合中每个所述用户与所述推荐信息集合中每个所述历史推荐信息之间的交互数据;
基于所述交互数据,从所述推荐信息集合中筛选出与所述推荐场景样本适配的历史推荐信息作为信息样本,以构建所述推荐场景样本对应的数据库。
上述技术方案中,所述基于所述交互数据,从所述推荐信息集合中筛选出与所述推荐场景样本适配的推荐信息作为信息样本,包括:
基于任一所述用户与所述推荐信息集合中每个所述历史推荐信息之间的交互数据,对所述推荐信息集合中的所述历史推荐信息进行降序排序,将降序排序结果中在前的部分所述历史推荐信息,作为与所述推荐场景样本适配的信息样本。
上述技术方案中,所述基于所述交互数据,从所述推进信息集合中筛选出与所述推荐场景样本适配的推荐信息作为信息样本,包括:
基于所述用户集合中每个所述用户与任一所述历史推荐信息之间的交互数据进行聚合平均处理,得到所述用户样本针对所述历史推荐信息的平均交互数值;
基于所述用户样本针对所有所述历史推荐信息的平均交互数值进行平均处理,得到所述用户样本的总平均交互数值;
当所述用户样本针对所述历史推荐信息的平均交互数值大于所述总平均交互数值时,将所述历史推荐信息作为与所述推荐场景样本适配的信息样本。
本申请实施例提供一种基于人工智能的信息推荐装置,包括:
特征交叉模块,用于对待推荐信息的多个属性信息中的第一部分属性信息进行特征交叉处理,得到所述待推荐信息的交叉特征;
编码模块,用于对所述待推荐信息的多个属性信息中的第二部分属性信息进行编码处理,得到所述待推荐信息的编码特征;
注意力模块,用于基于所述交叉特征以及所述编码特征进行注意力处理,得到所述待推荐信息的注意力特征;
预测模块,用于基于所述待推荐信息的注意力特征进行倾向性预测处理,得到所述待推荐信息适配的推荐场景;
推荐模块,用于基于所述待推荐信息适配的推荐场景执行推荐操作。
上述技术方案中,所述特征交叉模块还用于对所述待推荐信息的多个属性信息中的第一部分属性信息进行编码处理,得到所述第一部分属性信息的编码特征;
对所述第一部分属性信息的编码特征进行二阶特征交叉处理,得到所述第一部分属性信息的二阶交叉特征;
对所述第一部分属性信息的二阶交叉特征进行映射处理,得到所述待推荐信息的交叉特征。
上述技术方案中,所述第一部分属性信息包括固定属性信息、自媒体属性信息;所述特征交叉模块还用于对所述待推荐信息的固定属性信息进行离散化处理,得到所述固定属性信息的离散特征;
对所述固定属性信息的离散特征进行向量化处理,以获得所述固定属性信息的编码特征;
对所述待推荐信息的自媒体属性信息进行向量化处理,以获得所述自媒体属性信息的编码特征。
上述技术方案中,所述第一部分属性信息包括文本属性信息;所述特征交叉模块还用于对所述待推荐信息的文本属性信息进行分词处理,得到所述文本属性信息的多个词语;
对所述文本属性信息的多个词语进行向量化处理,得到所述多个词语分别对应的词向量;
对所述多个词语分别对应的词向量进行平均处理,得到所述文本属性信息的编码特征。
上述技术方案中,所述特征交叉模块还用于对所述第一部分属性信息中的任意两个属性信息分别对应的编码特征进行二阶特征交叉处理,得到所述任意两个属性信息的二阶交叉特征;
对所述任意两个属性信息的二阶交叉特征以及所述第一部分属性信息的编码特征进行融合处理,得到所述第一部分属性信息的二阶交叉特征。
上述技术方案中,所述特征交叉模块还用于对所述第一部分属性信息的二阶交叉特征进行矩阵分解处理,得到所述第一部分属性信息的分解特征;
对所述第一部分属性信息的分解特征进行非线性映射处理,得到所述待推荐信息的交叉特征。
上述技术方案中,所述第二部分属性信息包括文本属性信息以及图像属性信息;所述编码模块还用于对所述待推荐信息的多个所述文本属性信息进行文本编码处理,得到所述待推荐信息的文本编码特征;
对所述待推荐信息的所述图像属性信息进行图像编码处理,得到所述待推荐信息的图像编码特征。
上述技术方案中,所述编码模块还用于对所述待推荐信息的多个所述文本属性信息分别进行特征提取处理,得到所述文本属性信息的文本特征;
对多个所述文本属性信息的文本特征进行映射处理,得到所述待推荐信息的文本编码特征。
上述技术方案中,所述编码模块还用于对所述待推荐信息的多个所述文本属性信息分别进行卷积处理,得到所述文本属性信息的卷积特征;
对所述文本属性信息的卷积特征进行池化处理,得到所述文本属性信息的文本特征。
上述技术方案中,所述编码模块还用于对所述待推荐信息的图像属性信息进行特征提取处理,得到所述图像属性信息的图像特征;
对所述图像属性信息的图像特征进行映射处理,得到所述待推荐信息的图像编码特征。
上述技术方案中,所述编码模块还用于对所述待推荐信息的图像属性信息进行残差连接处理,得到所述图像属性信息的残差特征;
对所述图像属性信息的残差特征进行非线性映射处理,得到所述图像属性信息的图像特征。
上述技术方案中,所述编码模块还用于对所述待推荐信息的图像属性信息进行降维处理,得到降维后的图像特征;
对所述降维后的图像特征进行卷积处理,得到所述图像属性信息的卷积特征;
对所述图像属性信息的卷积特征进行升维处理,得到升维后的图像特征;
将所述待推荐信息的图像属性信息与所述升维后的图像特征进行加和处理,得到所述图像属性信息的残差特征。
上述技术方案中,所述注意力模块还用于对所述交叉特征以及所述编码特征进行拼接处理,得到所述待推荐信息的拼接特征;
对所述待推荐信息的拼接特征进行自注意力处理,得到所述待推荐信息的注意力特征。
上述技术方案中,所述预测模块还用于对所述待推荐信息的注意力特征进行映射处理,得到候选推荐场景的概率分布;
将所述概率分布中最大概率所对应的候选推荐场景,确定为所述待推荐信息适配的推荐场景。
上述技术方案中,所述推荐模块还用于基于所述待推荐信息适配的推荐场景,将所述待推荐信息存储至所述推荐场景对应的数据库中;
当基于目标用户的画像信息确定所述目标用户适配所述推荐场景时,将所述推荐场景对应的数据库中的至少一个所述待推荐信息推荐给所述目标用户。
本申请实施例提供一种基于人工智能的信息推荐装置,包括:
训练模块,用于从推荐场景样本对应的数据库中获取信息样本;
对信息样本的多个属性信息中的第一部分属性信息进行特征交叉处理,得到所述信息样本的交叉特征;
基于所述信息样本的编码特征以及所述交叉特征,确定所述信息样本的注意力特征;
基于所述信息样本的注意力特征进行倾向性预测处理,得到所述信息样本的预测推荐场景;
基于所述信息样本的预测推荐场景以及所述推荐场景样本,构建所述倾向性模型的损失函数;
更新所述倾向性模型的参数,将所述损失函数收敛时所述倾向性模型的更新的参数,作为训练后的所述倾向性模型的参数。
上述技术方案中,所述装置还包括:
构建模块,用于确定与推荐场景样本对应的用户样本的属性信息;
获取具有所述属性信息的用户所形成的用户集合;
获取与所述用户集合中的用户之间具有交互的历史推荐信息所形成的推荐信息集合;
获取所述用户集合中每个所述用户与所述推荐信息集合中每个所述历史推荐信息之间的交互数据;
基于所述交互数据,从所述推荐信息集合中筛选出与所述推荐场景样本适配的历史推荐信息作为信息样本,以构建所述推荐场景样本对应的数据库。
上述技术方案中,所述构建模块还用于基于任一所述用户与所述推荐信息集合中每个所述历史推荐信息之间的交互数据,对所述推荐信息集合中的所述历史推荐信息进行降序排序,将降序排序结果中在前的部分所述历史推荐信息,作为与所述推荐场景样本适配的信息样本。
上述技术方案中,所述构建模块还用于基于所述用户集合中每个所述用户与任一所述历史推荐信息之间的交互数据进行聚合平均处理,得到所述用户样本针对所述历史推荐信息的平均交互数值;
基于所述用户样本针对所有所述历史推荐信息的平均交互数值进行平均处理,得到所述用户样本的总平均交互数值;
当所述用户样本针对所述历史推荐信息的平均交互数值大于所述总平均交互数值时,将所述历史推荐信息作为与所述推荐场景样本适配的信息样本。
本申请实施例提供一种用于信息推荐的电子设备,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的基于人工智能的信息推荐方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的基于人工智能的信息推荐方法。
本申请实施例具有以下有益效果:
通过对待推荐信息的属性信息进行特征交叉处理,从而使得到的交叉特征能够保留属性信息的边界信息,充分学习待推荐信息的属性信息;通过对待推荐信息的多个特征(包括交叉特征以及对第二部分属性进行编码得到的编码特征)进行注意力处理,以充分学习待推荐信息的上下文依赖关系,并基于待推荐信息的注意力特征进行倾向性预测,以基于待推荐信息适配的推荐场景有针对性推荐信息,从而在冷启动的情况下,提高信息推荐的准确性以及效率。
附图说明
图1是本申请实施例提供的推荐系统的应用场景示意图;
图2是本申请实施例提供的用于信息推荐的电子设备的结构示意图;
图3A-图3C是本申请实施例提供的基于人工智能的信息推荐方法的流程示意图;
图4是本申请实施例提供的基于乘积的神经网络的结构示意图;
图5是本申请实施例提供的文本编码的示意图;
图6是本申请实施例提供的残差网络的结构示意图;
图7是本申请实施例提供的基于人工智能的信息推荐方法的流程示意图;
图8是相关技术提供的元素级别特征交叉的示意图;
图9是本申请实施例提供的向量级别特征交叉的示意图;
图10是本申请实施例提供的倾向性模型的结构示意图;
图11是本申请实施例提供的系统架构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,所涉及的术语“第一\第二”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)深度学习(DL,Deep Learning):源于人工神经网络的研究,含多隐层的多层感知器,通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。它能够学习样本数据的内在规律和表示层次,最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。
2)卷积神经网络(CNN,Convolutional Neural Networks):一类包含卷积计算且具有深度结构的前馈神经网络(FNN,Feedforward Neural Networks),是深度学习(deeplearning)的代表算法之一。卷积神经网络具有表征学习 (representation learning)能力,能够按其阶层结构对输入图像进行平移不变分类(shift-invariantclassification)。
3)内容冷启动:当内容刚发布到内容站点时,此内容还没有足够的曝光以及历史行为数据用于推荐系统,这样的内容定义为新内容,需要为新内容进行冷启动,将这些内容曝光给合适的用户来获得用户行为数据,以辅助后期精准推荐。
4)用户冷启动:当用户刚注册时,该用户还没有足够的历史交互行为以确定用户的偏好(倾向性),从而无法基于用户的偏好用于推荐系统,这样的用户定义为新用户,需要为新用户进行冷启动,向新用户推荐信息来获得用户的交互行为数据,以辅助后期精准推荐。
5)用户画像:又称用户角色,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具。用户画像在各领域得到了广泛的应用,在实际操作的过程中,往往会以最为浅显和贴近生活的话语将用户的属性、行为与期待联结起来,作为实际用户的虚拟代表。
6)内容:推荐客户端推荐给用户阅读的信息,可以是视频、图片、文本、图文等,图文可以是自媒体主动编辑发布的包括竖版的小图文或横版的短图文,视频可以是专业生产内容(PGC,Professional Generated Content)或者用户原创内容(UGC,User GeneratedContent)以信息流(Feeds)的形式提供。
7)信息流(feeds):又称消息来源,持续更新并呈现给用户内容的信息流。 feeds是将用户主动订阅的若干消息源组合在一起形成内容聚合器,帮助用户持续地获取最新的订阅源内容,其中,订阅源一般是新闻网站以及博客。feeds的展现形式有很多种,主要的有时间线(timeline)以及等级(rank),timeline是一种feeds展示方式,按照feeds内容更新的时间先后顺序,将内容展示给用户,例如微博、朋友圈;rank是按照某些因素计算内容的权重,从而决定内容展示的先后顺序。
8)推荐场景:又称目标倾向性,反映某类人群在某个应用场景下对信息的喜欢程度,即信息适配的人群以及应用场景,例如某视频适配的推荐场景为年轻人,若将该视频推荐给年轻人,该视频能够得到有效曝光,从而提高推荐推荐效率。
9)属性信息:对于一个对象的抽象方面的刻画。一个具体事物,总是有许许多多的性质与关系,一个事物的性质与关系都是事物的属性。事物与属性是不可分的,一个事物与另一个事物的相同或相异,也就是一个事物的属性与另一事物的属性的相同或相异。由于事物属性的相同或相异,客观世界中就形成了许多不同的事物类。具有相同属性的事物就形成一类,具有不同属性的事物就分别地形成不同的类。
本申请实施例提供了一种基于人工智能的信息推荐方法、装置、电子设备及计算机可读存储介质,能够有针对性地推荐信息,提高信息推荐的准确性。
本申请实施例所提供的基于人工智能的信息推荐方法,可以由终端/服务器独自实现;也可以由终端和服务器协同实现,例如终端独自承担下文所述的基于人工智能的信息推荐方法,或者,终端向服务器发送针对目标用户的信息推荐请求,服务器根据接收的针对目标用户的信息推荐请求执行基于人工智能的信息推荐方法,基于待推荐信息的注意力特征进行倾向性预测处理,得到待推荐信息适配的推荐场景,基于待推荐信息适配的推荐场景执行针对目标用户的推荐操作,从而实现用户的冷启动以及信息的冷启动。
本申请实施例提供的用于信息推荐的电子设备可以是各种类型的终端设备或服务器,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器;终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
以服务器为例,例如可以是部署在云端的服务器集群,向用户开放人工智能云服务(AI as a Service,AIaaS),AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务,这种服务模式类似于一个AI主题商城,所有的用户都可以通过应用程序编程接口的方式来接入使用AIaaS平台提供的一种或者多种人工智能服务。
例如,其中的一种人工智能云服务可以为信息推荐服务,即云端的服务器封装有本申请实施例提供的信息推荐的程序。用户通过终端(运行有客户端,例如音乐客户端、新闻客户端等)调用云服务中的信息推荐服务,以使部署在云端的服务器调用封装的信息推荐的程序,基于待推荐信息的注意力特征进行倾向性预测处理,得到待推荐信息适配的推荐场景,基于待推荐信息适配的推荐场景执行针对目标用户的推荐操作,例如,对于音乐应用,由于待推荐音乐为新音乐(没有足够的行为数据),无法基于待推荐音乐的行为数据进行相关的推荐处理,从而基于待推荐音乐适配的推荐场景,从多个候选用户中确定与该推荐场景适配的目标用户,以向目标用户推荐该待推荐音乐,从而将待推荐音乐分发给符合兴趣需求的用户,快速获得用户行为数据,加快视频的冷启动效率,提升后期基于用户行为进行音乐推荐的效果。
参见图1,图1是本申请实施例提供的推荐系统10的应用场景示意图,终端(示例性示出终端200-1、终端200-2以及终端200-3)通过网络300连接服务器100,网络300可以是广域网或者局域网,又或者是二者的组合。
终端(运行有客户端,例如音乐客户端、新闻客户端等)可以被用来获取针对候选用户的信息推荐请求,例如,当候选用户(例如,新用户或者老客户) 打开终端上运行的新闻客户端后,终端自动获取针对候选用户的新闻推荐请求。
在一些实施例中,终端获取针对候选用户的信息推荐请求后,调用服务器 100的信息推荐接口(可以提供为云服务的形式,即信息推荐服务),服务器1 00基于针对候选用户的信息推荐请求,基于待推荐信息的注意力特征进行倾向性预测处理,得到待推荐信息适配的推荐场景,基于待推荐信息适配的推荐场景,从多个候选用户中确定与该推荐场景适配的目标用户,以向目标用户推荐该待推荐信息,以响应针对候选用户的信息推荐请求。
作为一个应用示例,对于音乐应用,由于待推荐音乐为新音乐(没有足够的曝光以及历史行为数据用于推荐),无法基于待推荐音乐的行为数据进行相关的推荐处理,终端基于针对候选用户的音乐推荐请求调用服务器的信息推荐接口,服务器基于待推荐音乐适配的推荐场景,从多个候选用户中确定与该推荐场景适配的目标用户,以向目标用户推荐该待推荐音乐,从而将待推荐音乐分发给符合兴趣需求的用户,快速获得用户行为数据,加快音乐冷启动效率,提升后期基于用户行为进行音乐推荐的效果。
在一些实施例中,终端中运行的客户端中可以植入有信息推荐插件,用以在客户端本地实现基于人工智能的信息推荐方法。例如,终端获取针对目标用户进行信息推荐的请求后,调用信息推荐插件,以实现基于人工智能的信息推荐方法,基于待推荐信息的注意力特征进行倾向性预测处理,得到待推荐信息适配的推荐场景,从多个推荐场景中确定与该目标用户适配的推荐场景,并将与该目标用户适配的推荐场景对应的待推荐信息推荐给该目标用户,以响应针对目标用户的信息推荐请求。
作为一个应用示例,对于新闻应用,由于目标用户为新用户(没有足够的交互行为数据),无法基于目标用户的交互行为数据进行相关的推荐处理,终端基于针对目标用户的新闻推荐请求,确定多个待推荐新闻分别对应的推荐场景,从多个推荐场景中确定与该目标用户适配的推荐场景,并将与该目标用户适配的推荐场景对应的待推荐新闻推荐给该目标用户,从而该新用户能够快速获取符合兴趣需求的新闻,以快速获得用户行为数据,加快用户冷启动效率,提升后期基于用户行为进行新闻推荐的效果。
下面说明本申请实施例提供的用于信息推荐的电子设备的结构,参见图2,图2是本申请实施例提供的用于信息推荐的电子设备500的结构示意图,以电子设备500是服务器为例说明,图2所示的用于信息推荐的电子设备500包括:至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线系统540耦合在一起。可理解,总线系统54 0用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统540。
处理器510可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
存储器550包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Onl y Memory),易失性存储器可以是随机存取存储器(RAM,Random Access M emory)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。
在一些实施例中,存储器550能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统551,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块552,用于经由一个或多个(有线或无线)网络接口520到达其他计算设备,示例性的网络接口520包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
在一些实施例中,本申请实施例提供的信息推荐装置可以采用软件方式实现,例如,可以是上文所述的服务器中信息推荐服务,还可以是上文所述的终端中信息推荐插件。当然,不局限于此,本申请实施例提供的基于人工智能的信息推荐装置可以提供为各种软件实施例,包括应用程序、软件、软件模块、脚本或代码在内的各种形式。
图2示出了存储在存储器550中的信息推荐装置555,其可以是程序和插件等形式的软件,例如信息推荐插件,并包括一系列的模块,包括特征交叉模块5551、编码模块5552、注意力模块5553、预测模块5554、推荐模块5555、训练模块5556以及构建模块5557;其中,特征交叉模块5551、编码模块5552、注意力模块5553、预测模块5554、推荐模块5555用于实现本申请实施例提供的信息推荐功能,训练模块5556以及构建模块5557用于训练倾向性模型。其中,训练模块5556以及构建模块5557还可以位于不同于信息推荐装置555的装置中,或者不同于电子设备500的设备中,即训练倾向性模型与信息推荐功能是两个相互独立的过程。
如前所述,本申请实施例提供的基于人工智能的信息推荐方法可以由各种类型的电子设备实施。参见图3A,图3A是本申请实施例提供的基于人工智能的信息推荐方法的流程示意图,结合图3A示出的步骤进行说明。
在下面步骤中,待推荐信息可以是文本、图像、图文、视频等数据。属性信息为待推荐信息的先验数据,是待推荐信息的固有信息,与用户或者待推荐信息的行为数据无关,即与待推荐信息的后验数据以及用户的后验数据无关。
在步骤101中,对待推荐信息的多个属性信息中的第一部分属性信息进行特征交叉处理,得到待推荐信息的交叉特征。
作为获取待推荐信息的示例,发布者通过终端上传待推荐信息,终端获取接收到该待推荐信息后,确定待推荐信息的多个属性信息,例如内容文本、标题、类目、主题、时长、自媒体信息等,并选取多个属性信息中的部分属性信息进行特征交叉,以得到待推荐信息的交叉特征。通过对属性信息进行特征交叉,捕捉不同的交叉信息,增强特征表征的能力,避免遗漏特征边界,以便后续基于准确的交叉特征进行预测处理。
参见图3B,图3B是本申请实施例提供的基于人工智能的信息推荐方法的一个可选的流程示意图,图3B示出图3A中的步骤101可以通过步骤1011-步骤1013实现:在步骤1011中,对待推荐信息的多个属性信息中的第一部分属性信息进行编码处理,得到第一部分属性信息的编码特征;在步骤1012中,对第一部分属性信息的编码特征进行二阶特征交叉处理,得到第一部分属性信息的二阶交叉特征;在步骤1013中,对第一部分属性信息的二阶交叉特征进行映射处理,得到待推荐信息的交叉特征。
如图4所示,第一部分属性信息包括固定属性信息(视频时长、发布时效等)、自媒体属性信息(自媒体标识、自媒体账号等级等)、文本属性(内容标签、自媒体标签等)。先对第一部分属性信息进行编码,得到第一部分属性信息中每个属性信息的编码特征(嵌入向量),然后,基于第一部分属性信息中每个属性信息的编码特征进行二阶特征交叉,得到第一部分属性信息的二阶交叉特征,最后通过激活函数对第一部分属性信息的二阶交叉特征进行映射,以得到待推荐信息的交叉特征,以便后续基于交叉特征进行注意力处理。
在一些实施例中,第一部分属性信息包括固定属性信息、自媒体属性信息;对待推荐信息的多个属性信息中的第一部分属性信息进行编码处理,得到第一部分属性信息的编码特征,包括:对待推荐信息的固定属性信息进行离散化处理,得到固定属性信息的离散特征;对固定属性信息的离散特征进行向量化处理,以获得固定属性信息的编码特征;对待推荐信息的自媒体属性信息进行向量化处理,以获得自媒体属性信息的编码特征。
如图4所示,不同的属性信息,编码过程不同。当第一属性信息为固定属性信息(视频时长、发布时效等)或自媒体属性信息(自媒体标识、自媒体账号等级等)时,需要对属性信息进行针对性的编码处理。例如,对视频时长、发布时效等固定属性信息(数值具有连续性)进行离散化,得到固定属性信息的离散特征(即离散数值),再对固定属性信息的离散特征进行向量化,以获得固定属性信息的编码特征(嵌入向量);对自媒体标识、自媒体账号等级等自媒体属性信息(数值具有离散性)直接进行向量化处理,以获得自媒体属性信息的编码特征(嵌入向量)。从而通过针对性的编码处理,获得准确的编码特征,以便后续进行特征交叉。
在一些实施例中,第一部分属性信息包括文本属性信息;对待推荐信息的多个属性信息中的第一部分属性信息进行编码处理,得到第一部分属性信息的编码特征,包括:对待推荐信息的文本属性信息进行分词处理,得到文本属性信息的多个词语;对文本属性信息的多个词语进行向量化处理,得到多个词语分别对应的词向量;对多个词语分别对应的词向量进行平均处理,得到文本属性信息的编码特征。
如图4所示,不同的属性信息,编码过程不同。当第一属性信息为文本属性信息(内容标签、自媒体标签等)时,需要对文本属性信息进行基于文本的编码处理。例如,对内容标签、自媒体标签等文本属性信息分词处理,得到文本属性信息的多个词语,然后向量化文本属性信息的多个词语,得到多个词语分别对应的词向量,对多个词语分别对应的词向量进行平均,以获得文本属性信息的编码特征。从而通过针对性的编码处理,获得准确的编码特征,以便后续进行特征交叉。
在一些实施例中,对第一部分属性信息的编码特征进行二阶特征交叉处理,得到第一部分属性信息的二阶交叉特征,包括:对第一部分属性信息中的任意两个属性信息分别对应的编码特征进行二阶特征交叉处理,得到任意两个属性信息的二阶交叉特征;对任意两个属性信息的二阶交叉特征以及第一部分属性信息的编码特征进行融合处理,得到第一部分属性信息的二阶交叉特征。
如图4所示,第一部分属性信息包括类目、内容标签、自媒体标签、主题、时长、等级等,第一部分属性信息的编码特征为类目f1、内容标签f2、…、等级fN,则对第一部分属性信息中的任意两个属性信息分别对应的编码特征进行二阶特征交叉处理,得到任意两个属性信息的二阶交叉特征pi,j=<fi,fj>,i= 1,....,N,j=1,...,N,,对所有任意两个属性信息的二阶交叉特征p=(pi,j)以及第一部分属性信息的编码特征z=(f1,f2,...,fN)进行拼接处理,得到第一部分属性信息的二阶交叉特征。
在一些实施例中,对第一部分属性信息的二阶交叉特征进行映射处理,得到待推荐信息的交叉特征,包括:对第一部分属性信息的二阶交叉特征进行矩阵分解处理,得到第一部分属性信息的分解特征;对第一部分属性信息的分解特征进行非线性映射处理,得到待推荐信息的交叉特征。
例如,矩阵分解的过程如下:
Figure BDA0002956246230000181
Figure BDA0002956246230000182
其中,z表示第一部分属性信息的二阶交叉特征中的编码特征,p表示第一部分属性信息的二阶交叉特征中的所有任意两个属性信息的二阶交叉特征,通过矩阵分解可以加速后续处理过程。最后通过激活函数对第一部分属性信息的分解特征进行非线性映射处理,以得到待推荐信息的交叉特征,以便后续基于交叉特征进行注意力处理。
在步骤102中,对待推荐信息的多个属性信息中的第二部分属性信息进行编码处理,得到待推荐信息的编码特征。
其中,不同的属性信息,编码过程不同。对第二部分属性信息进行文本编码处理或者图像编码处理,得到待推荐信息的编码特征,以便后续基于不同的编码特征进行注意力处理,从而学习不同编码特征,提高后续预测的能力。
例如,第二部分属性信息包括文本属性信息(例如标题、OCR技术得到的文本(OCRText))以及图像属性信息(例如封面图);对待推荐信息的多个属性信息中的第二部分属性信息进行编码处理,得到待推荐信息的编码特征,包括:对待推荐信息的多个文本属性信息进行文本编码处理,得到待推荐信息的文本编码特征;对待推荐信息的图像属性信息进行图像编码处理,得到待推荐信息的图像编码特征。
在一些实施例中,对待推荐信息的多个文本属性信息进行文本编码处理,得到待推荐信息的文本编码特征,包括:对待推荐信息的多个文本属性信息分别进行特征提取处理,得到文本属性信息的文本特征;对多个文本属性信息的文本特征进行映射处理,得到待推荐信息的文本编码特征。
例如,如图5所示,对于文本属性信息(例如标题、OCR Text),通过卷积神经网络对文本属性信息进行特征提取处理,得到文本属性信息的文本特征 (文本向量),然后拼接多个文本属性信息的文本特征,并通过激活函数进行映射处理,以得到待推荐信息的文本编码特征。
例如,对待推荐信息的多个文本属性信息分别进行特征提取处理,得到文本属性信息的文本特征,包括:通过卷积神经网络中的卷积层对待推荐信息的多个文本属性信息分别进行卷积处理,得到文本属性信息的卷积特征,通过卷积神经网络中的池化层对文本属性信息的卷积特征进行池化处理,得到文本属性信息的文本特征。
在一些实施例中,对待推荐信息的图像属性信息进行图像编码处理,得到待推荐信息的图像编码特征,包括:对待推荐信息的图像属性信息进行特征提取处理,得到图像属性信息的图像特征;对图像属性信息的图像特征进行映射处理,得到待推荐信息的图像编码特征。
如图6所示,通过残差网络(例如,resnet50)中的级联的残差模块对待推荐信息的图像属性信息进行特征提取处理,得到图像属性信息的图像特征,然后通过激活函数(例如ReLu)对图像属性信息的图像特征进行映射处理,得到待推荐信息的图像编码特征。
其中,特征提取处理的过程,包括:对待推荐信息的图像属性信息进行残差连接处理,得到图像属性信息的残差特征;对图像属性信息的残差特征进行非线性映射处理,得到图像属性信息的图像特征。
在一些实施例中,对待推荐信息的图像属性信息进行残差连接处理,得到图像属性信息的残差特征,包括:对待推荐信息的图像属性信息进行降维处理,得到降维后的图像特征;对降维后的图像特征进行卷积处理,得到图像属性信息的卷积特征;对图像属性信息的卷积特征进行升维处理,得到升维后的图像特征;将待推荐信息的图像属性信息与升维后的图像特征进行加和处理,得到图像属性信息的残差特征。
如图6所示,通过残差模块中的卷积层(卷积核为1*1)对待推荐信息的图像属性信息进行降维处理,得到降维后的图像特征,然后通过残差模块中的卷积层(卷积核为3*3)对降维后的图像特征进行卷积处理,得到图像属性信息的卷积特征,再通过残差模块中的卷积层(卷积核为1*1)对图像属性信息的卷积特征进行升维处理,得到升维后的图像特征,最后将待推荐信息的图像属性信息与升维后的图像特征进行加和处理,得到图像属性信息的残差特征,以实现残差连接。
在步骤103中,基于交叉特征以及编码特征进行注意力处理,得到待推荐信息的注意力特征。
例如,在获得交叉特征以及编码特征后,可以先对交叉特征以及编码特征进行拼接处理,得到待推荐信息的拼接特征,然后通过自注意力机制对待推荐信息的拼接特征进行自注意力处理,得到待推荐信息的注意力特征。通过自注意力机制可以学习到拼接特征中元素之间的依赖关系,从而挖掘出待推荐信息中的重要特征,以用于后续预测处理,实现精准的预测功能。
在步骤104中,基于待推荐信息的注意力特征进行倾向性预测处理,得到待推荐信息适配的推荐场景。
例如,在获得待推荐信息的注意力特征后,通过倾向性模型(一种分类器) 结合待推荐信息的注意力特征进行倾向性预测处理,得到待推荐信息适配的推荐场景,以便后续基于待推荐信息适配的推荐场景向合适的用户进行推荐操作。
在一些实施例中,基于待推荐信息的注意力特征进行倾向性预测处理,得到待推荐信息适配的推荐场景,包括:对待推荐信息的注意力特征进行映射处理,得到候选推荐场景的概率分布;将概率分布中最大概率所对应的候选推荐场景,确定为待推荐信息适配的推荐场景。
例如,通过分类器对待推荐信息的注意力特征进行映射处理,得到候选推荐场景的概率分布,例如年轻人倾向性的场景(0.1)、老年人倾向性的场景(0. 2)、女性倾向性的场景(0.5)、高分享的场景(0.3),则将女性倾向性的场景作为待推荐信息适配的推荐场景,后续将该待推荐信息推荐给女性用户。
在步骤105中,基于待推荐信息适配的推荐场景执行推荐操作。
例如,在确定待推荐信息适配的推荐场景后,确定与该推荐场景适配的目标用户,并将该待推荐信息推荐给该目标用户。当该待推荐信息为新信息时,由于确定该待推荐信息适配的推荐场景的过程中并未引入待推荐信息的任何行为数据,仅依据待推荐信息的属性信息,从而实现新信息的冷启动。当目标用户为新用户时,由于确定该待推荐信息适配的推荐场景的过程中并未引入新用户的任何交互行为数据,仅依据待推荐信息的属性信息,从而实现新用户的冷启动。
例如,对于新用户的冷启动,基于待推荐信息适配的推荐场景,将待推荐信息存储至推荐场景对应的数据库中,当基于目标用户的画像信息确定目标用户适配推荐场景时,将推荐场景对应的数据库中的至少一个待推荐信息推荐给目标用户。
例如,在获得待推荐信息适配的推荐场景为女性倾向性的场景后,将该待推荐信息存储至女性倾向性的数据库中,当目标用户(新用户)的画像信息表征该目标用户为女性用户时,从女性倾向性的数据库中选取至少一个待推荐信息推荐给目标用户,从而实现有针对性的信息推荐。
参见图3C,图3C是本申请实施例提供的基于人工智能的信息推荐方法的一个可选的流程示意图,信息推荐方法是通过调用倾向性模型实现的,在应用该信息推荐方法之前,需要对该倾向性模型进行训练,图3C示出倾向性模型的训练过程:在步骤106中,从推荐场景样本对应的数据库中获取信息样本;在步骤107中,对信息样本的多个属性信息中的第一部分属性信息进行特征交叉处理,得到信息样本的交叉特征;在步骤108中,基于信息样本的编码特征以及交叉特征,确定信息样本的注意力特征;在步骤109中,基于信息样本的注意力特征进行倾向性预测处理,得到信息样本的预测推荐场景;在步骤110 中,基于信息样本的预测推荐场景以及推荐场景样本,构建倾向性模型的损失函数;在步骤111中,更新倾向性模型的参数,将损失函数收敛时倾向性模型的更新的参数,作为训练后的倾向性模型的参数。
其中,基于信息样本的预测推荐场景以及推荐场景样本,确定倾向性模型的损失函数的值后,可以判断倾向性模型的损失函数的值是否超出预设阈值,当倾向性模型的损失函数的值超出预设阈值时,基于倾向性模型的损失函数确定倾向性模型的误差信号,将误差信息在倾向性模型中反向传播,并在传播的过程中更新各个层的模型参数。
这里,对反向传播进行说明,将训练样本数据输入到神经网络模型的输入层,经过隐藏层,最后达到输出层并输出结果,这是神经网络模型的前向传播过程,由于神经网络模型的输出结果与实际结果有误差,则计算输出结果与实际值之间的误差,并将该误差从输出层向隐藏层反向传播,直至传播到输入层,在反向传播的过程中,根据误差调整模型参数的值;不断迭代上述过程,直至收敛。其中,倾向性模型属于神经网络模型。
在一些实施例中,在进行模型训练之前,需要构建信息样本,信息样本的构建方法包括:确定与推荐场景样本对应的用户样本的属性信息;获取具有属性信息的用户所形成的用户集合;获取与用户集合中的用户之间具有交互的历史推荐信息所形成的推荐信息集合;获取用户集合中每个用户与推荐信息集合中每个历史推荐信息之间的交互数据;基于交互数据,从推荐信息集合中筛选出与推荐场景样本适配的历史推荐信息作为信息样本,以构建推荐场景样本对应的数据库。
例如,对于女性倾向性的信息样本的构建,首先确定与推荐场景样本对应的用户样本的属性信息为女性,则获取所有女性用户所形成的女性用户集合,并获取与女性用户集合中的女性用户之间具有交互的历史推荐信息所形成的推荐信息集合,然后获取女性用户集合中每个女性用户与推荐信息集合中每个历史推荐信息之间的交互数据(例如点击率、消费时长等),基于这些交互数据,从推荐信息集合中筛选出与女性倾向性适配的历史推荐信息作为信息样本,以构建女性倾向性的数据库。
在一些实施例中,基于交互数据,从推荐信息集合中筛选出与推荐场景样本适配的推荐信息作为信息样本,包括:基于任一用户与推荐信息集合中每个历史推荐信息之间的交互数据,对推荐信息集合中的历史推荐信息进行降序排序,将降序排序结果中在前的部分历史推荐信息,作为与推荐场景样本适配的信息样本。
承接上述示例,对于女性倾向性的信息样本的构建,确定任一女性用户i 与推荐信息集合中每个历史推荐信息之间的交互数据,对推荐信息集合中的历史推荐信息进行降序排序,将降序排序结果中在前的部分历史推荐信息,作为与女性倾向性适配的信息样本,然后对基于所有女性用户所得到的与女性倾向性适配的信息样本进行去重。
在一些实施例中,基于交互数据,从推进信息集合中筛选出与推荐场景样本适配的推荐信息作为信息样本,包括:基于用户集合中每个用户与任一历史推荐信息之间的交互数据进行聚合平均处理,得到用户样本针对历史推荐信息的平均交互数值;基于用户样本针对所有历史推荐信息的平均交互数值进行平均处理,得到用户样本的总平均交互数值;当用户样本针对历史推荐信息的平均交互数值大于总平均交互数值时,将历史推荐信息作为与推荐场景样本适配的信息样本。
承接上述示例,对于女性倾向性的信息样本的构建,基于用户集合中每个用户与任一历史推荐信息j之间的交互数据进行聚合平均处理,得到用户样本针对历史推荐信息j的平均交互数值(例如平均点击率、平均消费时长等);基于用户样本针对所有历史推荐信息的平均交互数值进行平均处理,得到用户样本的总平均交互数值(例如总平均点击率、总平均消费时长等),当用户样本针对历史推荐信息的平均交互数值大于总平均交互数值时,将历史推荐信息j作为与女性倾向性适配的信息样本。
下面,将本申请实施例提供的基于人工智能的信息推荐方法由终端(生产端以及消费端)和服务器协同实现。参见图7,图7是本申请实施例提供的基于人工智能的信息推荐方法的流程示意图,结合图7示出的步骤进行说明。
在步骤201中,生产端上传待推荐信息至服务器。
例如,生产端通过终端的应用程序接口(API,Application Programming Interface)提供本地或者拍摄的图文、视频或者图集等待推荐信息,这些都是分发信息的主要信息来源。
在步骤202中,服务器调用倾向性模型,对待推荐信息进行倾向性预测,得到待推荐信息适配的推荐场景。
例如,服务器对待推荐信息的多个属性信息中的第一部分属性信息进行特征交叉处理,得到待推荐信息的交叉特征,对待推荐信息的多个属性信息中的第二部分属性信息进行编码处理,得到待推荐信息的编码特征,基于交叉特征以及编码特征进行注意力处理,得到待推荐信息的注意力特征,基于待推荐信息的注意力特征进行倾向性预测处理,得到待推荐信息适配的推荐场景。
在步骤203中,服务器基于待推荐信息适配的推荐场景,向消费端发送待推荐信息。
例如,当服务器基于待推荐信息适配的推荐场景,确定消费端与该推荐场景适配,则将待推荐信息发送至消费端,例如待推荐信息适配的推荐场景为女性倾向性,消费端的用户为女性用户,则将该待推荐信息发送至消费端。
在步骤204中,消费端基于历史推荐信息,上报用户的交互数据。
例如,消费端同时将上传和下载过程当中用户播放的行为数据、卡顿、加载时间、播放点击、https://www.douban.com/group/topic/212064348/评论、点赞、转发、收藏、分享等上报给服务器。
其中,步骤204-步骤206与步骤201-步骤203无明显的先后顺序。
在步骤205中,服务器基于用户的交互数据,构建信息样本。
例如,基于用户与推荐信息集合中每个历史推荐信息之间的交互数据,对历史推荐信息进行降序排序,将降序排序结果中在前的部分历史推荐信息,作为与推荐场景样本适配的信息样本。
在步骤206中,服务器基于信息样本,训练倾向性模型。
例如,对信息样本的多个属性信息中的第一部分属性信息进行特征交叉处理,得到信息样本的交叉特征,基于信息样本的编码特征以及交叉特征,确定信息样本的注意力特征,基于信息样本的注意力特征进行倾向性预测处理,得到信息样本的预测推荐场景,基于信息样本的预测推荐场景以及推荐场景样本,构建倾向性模型的损失函数,更新倾向性模型的参数,将损失函数收敛时倾向性模型的更新的参数,作为训练后的倾向性模型的参数。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。
自媒体有别于由专业媒体机构主导的信息传播,它是由普通大众主导的信息传播活动。同时,它也是指为个体提供信息生产、积累、共享、传播内容兼具私密性和公开性的信息传播方式,非常适合在移动时代的快速阅读和消费,通常以feeds形式展示出来供用户快速刷新。各种不同的自媒体创作各自图文等内容,用户可以订阅这些内容,然后当内容有更新的时候,将对应的内容推送给用户,当然用户也可以主动刷新feeds获取最新的内容。
随着自媒体上传的内容大幅增长,无论是图文还是视频等内容在移动互联网时代获得了飞速的发展。用户在消费内容后,还可以对内容进行评论、点赞、转发、收藏等各种互动行为来表达自己对内容的倾向性。信息流内容分发的推荐系统,主要解决在一定场景之下,将内容依据用户的画像进行推荐。在推荐系统当中,内容和用户的冷启动都是非常重要的问题。推荐系统要分发好内容,涉及到用户的理解和内容的理解。很多外部接入的新内容,在系统中没有后验数据,通过正常的推荐模型流程很难分发出去,通常需要先进行新内容的试探,筛选出目标倾向性。由于没有后验数据,通常需要推荐系统进行大量的冷启动的尝试,来补充用户的兴趣和尝试对新内容进行推荐。相关技术中,主要采用随机试探的方式,收敛速度慢,消耗大量流量,严重影响分发的效率。
申请人在实施本申请实施例的过程中发现以下问题:1)通用的内容理解手段,需要大量的人工标注数据来实现,并且用户针对性较差,内容理解结果不带有用户信息,推荐无法直接利用这些信息来优化;2)新用户冷启动,通过兴趣探索的方式来收敛和收集用户兴趣,收敛速度慢;3)新内容的冷启动,通过试探找到对应用户,效率很低,在内容生命周期当中,尤其是优质内容,很容易导致内容曝光和分发不足。
为了解决上述问题,本申请实施例提供一种基于人工智能的信息推荐方法和系统,结合人群的消费数据和应用场景,通过统计人群的消费数据和应用场景数据(后验数据),获得内容样本,然后基于内容样本构建基于深度学习的模型(倾向性模型)来挖掘内容的目标倾向性(反映某类人群在某个应用场景下对内容的喜欢程度,即内容适配的人群以及应用场景)。通过使用人群消费数据,后验数据(消费数据)结合先验数据(内容的特征),对于特定用户人群能够有提升推荐的效果,增加内容分发的效率和用户消费的时长;能够提升新用户冷启动的效果;能够提升新内容的冷启动效果,让优质的内容更快得到曝光和有效分发,助力推荐系统,尤其目标倾向内容库的构建,针对不同推荐场景,例如PUSH投放(服务器定向将内容实时送达至用户的终端界面),支持不同的细分目标,提升整体推荐效率。
针对目标倾向性,基于乘积的神经网络以及自注意力(Self-Attention)机制,其关键在于在嵌入(embedding)层和全连接层之间加入了乘积层(Produc t Layer)完成了针对性的特征交叉,利用Self-Attention机制来学习序列中元素 (item)之间的依赖关系,最终提升模型挖掘的整体效果。
下面具体说明本申请实施例提供的基于人工智能的信息推荐方法:
本申请实施例结合用户行为后验数据做内容理解,直接利用人群的消费数据(后验数据),通过数据驱动来理解内容倾向性挖掘优质内容的模型。这里所说的内容的目标倾向性,反映某个人群在某个场景下对内容的喜欢程度。挖掘的目标是针对特定用户群提升推荐效果,同时优化新用户或新内容的冷启动效果。
推荐内容的倾向性与目标性识别对于新的优质内容(例如UGC、PGC新发布的内容等)需要系统给予内容一定量的曝光,目的是挖掘其中的优质内容,召回和排序模型学习到优质内容之后会进行正常的分发,这就是内容试探过程。然而,试探流量有限,新内容过多,可以通过以下方法解决上述问题:基于内容投放目标模型对新内容打分,优质分高的内容,曝光优先级越高,并且针对不同的应用场景使用不同的投放目标,例如小程序使用分享率、精选视频流使用视频播放量(VV,Video View)、精选主TL使用点击率,从而提升系统挖掘优质爆款的能力。
以曝光充分的内容的后验数据(点击率、分享率、VV、消费时长等)和内容的目标倾向性(性别倾向、年龄倾向等)构建训练样本数据,预估未充分曝光的内容的投放倾向。这些倾向性的样本数据,主要通过用户行为即分发统计接口,通过统计方法,从后验数据当中进行挖掘得到的,确保内容的点击率和消费时长等在对应的应用场景和人群当中是处于头部位置的,同时统计挖掘出来的内容,需要经过人工复核以后才能作为样本,以确保内容本身的质量,这样最后通过模型得到的结果也能确保质量。这里要解决的问题就是给定内容,预估试探等级(曝光优先级)及对应的目标倾向性,目标就是减少投放目标预估的点击率与实际点击率的差距。
不同应用场景和人群有不同倾向性的目标,比如在倾向性样本构建上,如果要挖掘分享率高的内容,但实际统计发现大部分内容的分享率都很低,导致模型容易过于拟合低分享的内容,对于高分享内容的预估不准确。造成上述问题的主要原因是,对于交叉特征学习的不够充分,例如小品类目的长视频分享率高于小品短视频的长视频分享率。
造成上述交叉特征学习不充分的原因如下:如图8所示,深度神经网络(D NN,DeepNeural Network)是通过元素级别(bit-wise)特征相加实现隐性特征交叉,其特征之间是或(or)的关系,不能很好表达特征交叉,而且丢失特征边界(field),例如,特征c=特征a*w1+特征b*w2+……。DNN是直接通过多层全连接层完成特征的交叉和组合的,但这样的方式缺乏一定的针对性,首先全连接层并没有针对不同特征域之间进行交叉;其次,全连接层的操作也并不是直接针对特征交叉设计的。
为了解决上述交叉特征学习不充分的问题,如图9所示,本申请实施例在模型中引入特征与(and)关系,即通过向量级别(vector-wise)特征相乘,保留特征field信息,例如,特征c=特征a*特征+……。基于上面的问题、样本数据及拟合目标的特点,本申请实施例采用乘积的神经网络(PNN,Product -based Neural Network),其关键在于在embedding层和全连接层之间加入Pro duct Layer。在实际问题中,特征交叉的重要性不言而喻,比如年龄与性别的交叉是非常重要的分组特征,包含了大量高价值的信息,急需有针对性的结构能够表征这些信息。因此,本申请实施例通过引入Product Layer完成针对性的特征交叉,特征向量运算时分使用内积操作(IPNN),其Product操作在不同特征域之间进行特征组合,捕捉不同的交叉信息,增强模型表征不同数据模式的能力。如图10所示,z部分直接平移embedding层,保留先前学习隐式高阶特征的网络结构,p部分是PNN的关键,特征交叉矩阵P是对称矩阵,采用矩阵分解来进行加速。
其中,p部分的计算过程如公式(1)-(2)所示:
Figure BDA0002956246230000291
p=(pi,j),i=1,....,N,j=1,...,N,pi,j=<fi,fj> (2)
其中,f表示各特征,N表示特征的总数量,p表示特征交叉后的特征,
Figure BDA0002956246230000294
表示特征交叉矩阵,lp表示p部分的特征。
其中,z部分的计算过程如公式(3)-(4)所示:
Figure BDA0002956246230000292
Figure BDA0002956246230000293
其中,f表示各特征,N表示特征的总数量,lz表示z部分的特征。
如图10所示,倾向性模型使用到的内容特征包括:1.文本属性(内容标题、类目、主题、内容标签(Tag)等);2.图像属性(内容封面图、通过光学字符识别(OCR,OpticalCharacter Recognition)的图像);3.固定属性(内容发布时效、视频时长(duration));4.发布者自媒体属性:a.自媒体标识(ID)信息(I D、自媒体账号等级(biz lv));b.发布者自媒体文本画像属性(自媒体账号名称、自媒体账号类目)。其中,引入CNN对标题和通过OCR技术识别后的文本(OCR Text)做理解,使用残差网络(resnet50)对视频封面做理解,采用PNN对上述4种属性中的部分属性(例如,类目、视频时长、自媒体等级等) 做理解。最终通过Self-Attention机制将多路通道(channel)进行融合,最终输出目标倾向性。另外由于tag的稀疏性,初始化tag使用word2vec无监督训练出来的向量。
如图10所示,连接(Concat)层采用Self-Attention机制,通过Self-Attent ion机制对序列进行编码,可以得到序列中每个item上下文相关的embedding 表示,然后进行池化(pooling)即可得到整个序列的embedding表示和挖掘序列中item之间的依赖关系。通过Self-Attention机制,最终提升倾向性模型挖掘的整体效果。
如图11所示,下面具体说明本申请实施例提供的基于人工智能的信息推荐方法和系统,系统中各个服务模块的功能如下所述:
一.内容生产端和内容消费端
(1)PGC、UGC、多频道网络(MCN,Multi-Channel Network)、专业用户原创生产内容(PUGC,Professional User Generated Content)等内容生产端,通过移动端或者后端应用程序接口(API,Application Programming Interface),提供本地或者拍摄的图文、视频或者图集等内容,这些都是分发内容的主要内容来源;
(2)内容生产端通过与上下行内容接口服务的通讯,先获取上传服务器接口地址,然后再上传本地文件(待推荐信息),拍摄过程当中本地图文内容可以选择搭配的音乐、滤镜模板和图文的美化功能等等;
(3)内容消费端与上下行内容接口服务通讯,获取访问图文或者视频文件的索引信息(例如访问内容的地址),然后下载对应的流媒体文件(待推荐信息) 并且通过本地播放器来播放观看;
(4)内容消费端同时将上传和下载过程当中用户播放的行为数据、卡顿、加载时间、播放点击等上报给服务器;
(5)内容消费端消费内容的互动信息,例如对内容的评论、点赞、转发、收藏、分享等互动信息通过用户行为及分发统计上报接口上报。
二.上下行内容接口服务
(1)和内容生产端直接通讯,获取前端提交的内容,包括内容的标题、发布者、摘要、封面图、发布时间、拍摄的图文等文件(属性信息),直接通过该服务器把文件存入内容数据库;
(2)将上传的文件提交给调度中心服务,进行后续的内容处理和流转。
三.内容数据库
(1)内容的核心数据库,所有生产者发布内容的元信息都保存在这个数据库当中,即内容本身的元信息,比如文件大小、封面图链接、码率、文件格式、标题、发布时间、作者、视频文件大小、视频格式、是否原创的标记或者首发等,还包括人工审核过程中对内容的分类(包括一、二、三级别分类和标签信息,例如一篇讲解某手机的文章,一级分类是科技,二级分类是智能手机,三级分类是国内手机,标签信息是XX);
(2)上下行内容接口服务在收到视频文件时,对内容进行标准的转码操作,转码完成后异步返回元信息(例如文件大小、码率、规格、截取封面图等),这些信息都会保存在内容数据库当中;
(3)人工审核过程当中会读取内容数据库当中的信息,同时人工审核的结果和状态也会回传进入内容数据库,来更新内容数据库中内容的元信息;
(4)调度中心服务对内容处理主要包括机器处理和人工审核处理,这里机器处理就是调用排重服务,以排除完全重复和相似的内容,排重的结果会写入内容数据库,完全重复一样的内容不会给人工进行重复的二次处理。
四.调度中心服务
(1)负责内容流转的整个调度过程,通过上下行内容接口服务接收入库的内容,然后从内容数据库中获取元信息;
(2)调度人工审核系统和机器处理系统,控制调度的顺序和优先级;
(3)对于内容,先与排重服务服务通讯,对不同码率、不同清晰度、不同尺寸、部分黑屏、有无滤镜、有无logo、在相似图文内容当中插入部分广告内容和片头片尾的裁剪都可以进行处理,有效减少进入人工审核过程当中需要处理的内容;对应图文内容排重采用的是相似度算法(simhash),视频内容采用的是构建视频embedding进行排重。
(4)调度进入人工审核系统需要进行人工审核的内容,过滤掉重复的内容;
(5)最后调度中心服务的内容启用通过内容分发出口服务(例如推荐引擎、搜索引擎、运营等)直接展示页面提供给终端的内容消费者,即基于内容适配的推荐场景执行推荐操作;
(6)与倾向性挖掘服务通讯,调度完成不同人群倾向性内容库的挖掘和构建。
五.人工审核系统
(1)需要读取内容数据库中图文内容本身的原始信息,例如一个业务复杂的基于页面(web)数据库开发的系统,通过人工来对图文内容是否涉及色情、赌博、政治敏感的特性进行初步过滤;
(2)在初步审核的基础之上,对内容进行二次审核,主要是对内容进行分类、标签的标注或者确认,由于图文内容本身完全通过机器学习(比如深度学习)还不完全成熟,所以需要通过在机器处理的基础上进行二次的人工审核处理,通过人机协作,提升图文本身标注的准确性和效率。
六.排重服务
(1)提供图文、视频的排重服务,主要对图文、图集及视频进行向量化,然后建立向量的索引,并通过比较向量之间的距离来确定相似程度;
(2)对于图文内容,将图文通过向量化。所有排重任务之前,先对标题这种短文本进行排重,减少后续处理的计算量。
七.用户行为及分发统计上报接口
(1)与内容消费端通讯,接收上报上来的内容评论、点赞、转发、收藏、分享等互动信息;
(2)收集内容消费端的用户消费行为,例如观看的内容,观看时长等等。
八.倾向性样本数据库
(1)按照上面提到倾向性模型需要的用户后验消费行为数据的和应用场景的特点,基于用户上报的行为日志和统计,构建倾向性样本数据库(推荐场景样本对应的数据库),确保样本数据是当前应用场景和目标人群的头部优质内容,优质内容的点击率、消费时长要超过对应类目内容的平均值,同时内容质量要通过内容投放目标模型的过滤,即基于目标人群与样本数据之间的交互数据进行筛选,以构建倾向性样本数据库。
九.倾向性内容库
(1)包括倾向性挖掘服务挖掘的不同倾向性内容数据库,即调用倾向性模型对内容数据库中的内容执行信息推荐方法,对内容的多个属性信息中的第一部分属性信息进行特征交叉,得到内容的交叉特征,对内容的多个属性信息中的第二部分属性信息进行编码处理,得到内容的编码特征,基于交叉特征以及编码特征进行注意力处理,得到内容的注意力特征,基于注意力特征进行倾向性预测处理,得到内容适配的推荐场景,基于内容适配的推荐场景将内容划分至对应的倾向性内容数据库中,例如不同年龄段女性用户的女性倾向性内容库、老年人内容库,高分享内容库等等;
(2)与内容分发出口服务通讯,将挖掘出来的不同倾向性内容库提供给推荐引擎,做针对性的分发推荐优化和投递,即基于不同倾向性内容库执行推荐操作。
十.倾向性挖掘服务
(1)将上面描述的倾向性模型服务化,挖掘的结果写入倾向性内容库;
(2)接受调度中心服务的调度,完成倾向性内容的挖掘。
十一.倾向性模型
(1)读取倾向性样本数据库中各种不同倾向性样本数据,按照上面描述的倾向性模型训练相关的模型;
(2)作为倾向性挖掘服务的基础模型,提供服务化的基础。
综上,本申请实施例提供的基于人工智能的信息推荐方法和系统具有以下有益效果:
1)使用特定场景的人群消费数据,后验数据结合先验数据,对于特定的用户群在特定场景能够有提升推荐的效果,增加内容分发的效率和用户消费的时长,能够提升新用户冷启动的效果;
2)能够提升新内容的冷启动效果,让优质的新内容更快得到曝光和有效分发,助力推荐系统,尤其倾向型内容库的构建,针对不同推荐场景,比如PUS H投放,支持不同的细分目标,提升整体推荐效率。
至此已经结合本申请实施例提供的服务器的示例性应用和实施,说明本申请实施例提供的基于人工智能的信息推荐方法。本申请实施例还提供信息推荐装置,实际应用中,信息推荐装置中的各功能模块可以由电子设备(如终端设备、服务器或服务器集群)的硬件资源,如处理器等计算资源、通信资源(如用于支持实现光缆、蜂窝等各种方式通信)、存储器协同实现。图2示出了存储在存储器550中的信息推荐装置555,其可以是程序和插件等形式的软件,例如,软件C/C++、Java等编程语言设计的软件模块、C/C++、Java等编程语言设计的应用软件或大型软件系统中的专用软件模块、应用程序接口、插件、云服务等实现方式,下面对不同的实现方式举例说明。
示例一、信息推荐装置是移动端应用程序及模块
本申请实施例中的信息推荐装置555可提供为使用软件C/C++、Java等编程语言设计的软件模块,嵌入到基于Android或iOS等系统的各种移动端应用中(以可执行指令存储在移动端的存储介质中,由移动端的处理器执行),从而直接使用移动端自身的计算资源完成相关的信息推荐任务,并且定期或不定期地通过各种网络通信方式将处理结果传送给远程的服务器,或者在移动端本地保存。
示例二、信息推荐装置是服务器应用程序及平台
本申请实施例中的信息推荐装置555可提供为使用C/C++、Java等编程语言设计的应用软件或大型软件系统中的专用软件模块,运行于服务器端(以可执行指令的方式在服务器端的存储介质中存储,并由服务器端的处理器运行),服务器使用自身的计算资源完成相关的信息推荐任务。
本申请实施例还可以提供为在多台服务器构成的分布式、并行计算平台上,搭载定制的、易于交互的网络(Web)界面或其他各用户界面(UI,User Interface),形成供个人、群体或单位使用的信息推荐平台(用于推荐列表)等。
示例三、信息推荐装置是服务器端应用程序接口(API,Application ProgramInterface)及插件
本申请实施例中的信息推荐装置555可提供为服务器端的API或插件,以供用户调用,以执行本申请实施例的基于人工智能的信息推荐方法,并嵌入到各类应用程序中。
示例四、信息推荐装置是移动设备客户端API及插件
本申请实施例中的信息推荐装置555可提供为移动设备端的API或插件,以供用户调用,以执行本申请实施例的基于人工智能的信息推荐方法。
示例五、信息推荐装置是云端开放服务
本申请实施例中的信息推荐装置555可提供为向用户开发的信息推荐云服务,供个人、群体或单位进行信息推荐。
其中,信息推荐装置555包括一系列的模块,包括特征交叉模块5551、编码模块5552、注意力模块5553、预测模块5554、推荐模块5555、训练模块5556 以及构建模块5557。下面继续说明本申请实施例提供的信息推荐装置555中各个模块配合实现信息推荐的方案。
特征交叉模块5551,用于对待推荐信息的多个属性信息中的第一部分属性信息进行特征交叉处理,得到所述待推荐信息的交叉特征;编码模块5552,用于对所述待推荐信息的多个属性信息中的第二部分属性信息进行编码处理,得到所述待推荐信息的编码特征;注意力模块5553,用于基于所述交叉特征以及所述编码特征进行注意力处理,得到所述待推荐信息的注意力特征;预测模块 5554,用于基于所述待推荐信息的注意力特征进行倾向性预测处理,得到所述待推荐信息适配的推荐场景;推荐模块5555,用于基于所述待推荐信息适配的推荐场景执行推荐操作。
在一些实施例中,所述特征交叉模块5551还用于对所述待推荐信息的多个属性信息中的第一部分属性信息进行编码处理,得到所述第一部分属性信息的编码特征;对所述第一部分属性信息的编码特征进行二阶特征交叉处理,得到所述第一部分属性信息的二阶交叉特征;对所述第一部分属性信息的二阶交叉特征进行映射处理,得到所述待推荐信息的交叉特征。
在一些实施例中,所述第一部分属性信息包括固定属性信息、自媒体属性信息;所述特征交叉模块5551还用于对所述待推荐信息的固定属性信息进行离散化处理,得到所述固定属性信息的离散特征;对所述固定属性信息的离散特征进行向量化处理,以获得所述固定属性信息的编码特征;对所述待推荐信息的自媒体属性信息进行向量化处理,以获得所述自媒体属性信息的编码特征。
在一些实施例中,所述第一部分属性信息包括文本属性信息;所述特征交叉模块5551还用于对所述待推荐信息的文本属性信息进行分词处理,得到所述文本属性信息的多个词语;对所述文本属性信息的多个词语进行向量化处理,得到所述多个词语分别对应的词向量;对所述多个词语分别对应的词向量进行平均处理,得到所述文本属性信息的编码特征。
在一些实施例中,所述特征交叉模块5551还用于对所述第一部分属性信息中的任意两个属性信息分别对应的编码特征进行二阶特征交叉处理,得到所述任意两个属性信息的二阶交叉特征;对所述任意两个属性信息的二阶交叉特征以及所述第一部分属性信息的编码特征进行融合处理,得到所述第一部分属性信息的二阶交叉特征。
在一些实施例中,所述特征交叉模块5551还用于对所述第一部分属性信息的二阶交叉特征进行矩阵分解处理,得到所述第一部分属性信息的分解特征;对所述第一部分属性信息的分解特征进行非线性映射处理,得到所述待推荐信息的交叉特征。
在一些实施例中,所述第二部分属性信息包括文本属性信息以及图像属性信息;所述编码模块5552还用于对所述待推荐信息的多个所述文本属性信息进行文本编码处理,得到所述待推荐信息的文本编码特征;对所述待推荐信息的所述图像属性信息进行图像编码处理,得到所述待推荐信息的图像编码特征。
在一些实施例中,所述编码模块5552还用于对所述待推荐信息的多个所述文本属性信息分别进行特征提取处理,得到所述文本属性信息的文本特征;对多个所述文本属性信息的文本特征进行映射处理,得到所述待推荐信息的文本编码特征。
在一些实施例中,所述编码模块5552还用于对所述待推荐信息的多个所述文本属性信息分别进行卷积处理,得到所述文本属性信息的卷积特征;对所述文本属性信息的卷积特征进行池化处理,得到所述文本属性信息的文本特征。
在一些实施例中,所述编码模块5552还用于对所述待推荐信息的图像属性信息进行特征提取处理,得到所述图像属性信息的图像特征;对所述图像属性信息的图像特征进行映射处理,得到所述待推荐信息的图像编码特征。
在一些实施例中,所述编码模块5552还用于对所述待推荐信息的图像属性信息进行残差连接处理,得到所述图像属性信息的残差特征;对所述图像属性信息的残差特征进行非线性映射处理,得到所述图像属性信息的图像特征。
在一些实施例中,所述编码模块5552还用于对所述待推荐信息的图像属性信息进行降维处理,得到降维后的图像特征;对所述降维后的图像特征进行卷积处理,得到所述图像属性信息的卷积特征;对所述图像属性信息的卷积特征进行升维处理,得到升维后的图像特征;将所述待推荐信息的图像属性信息与所述升维后的图像特征进行加和处理,得到所述图像属性信息的残差特征。
在一些实施例中,所述注意力模块5553还用于对所述交叉特征以及所述编码特征进行拼接处理,得到所述待推荐信息的拼接特征;对所述待推荐信息的拼接特征进行自注意力处理,得到所述待推荐信息的注意力特征。
在一些实施例中,所述预测模块5554还用于对所述待推荐信息的注意力特征进行映射处理,得到候选推荐场景的概率分布;将所述概率分布中最大概率所对应的候选推荐场景,确定为所述待推荐信息适配的推荐场景。
在一些实施例中,所述推荐模块5555还用于基于所述待推荐信息适配的推荐场景,将所述待推荐信息存储至所述推荐场景对应的数据库中;当基于目标用户的画像信息确定所述目标用户适配所述推荐场景时,将所述推荐场景对应的数据库中的至少一个所述待推荐信息推荐给所述目标用户。
在一些实施例中,所述信息推荐方法是通过调用倾向性模型实现的;所述信息推荐装置555还包括:训练模块5556,用于从推荐场景样本对应的数据库中获取信息样本;对信息样本的多个属性信息中的第一部分属性信息进行特征交叉处理,得到所述信息样本的交叉特征;基于所述信息样本的编码特征以及所述交叉特征,确定所述信息样本的注意力特征;基于所述信息样本的注意力特征进行倾向性预测处理,得到所述信息样本的预测推荐场景;基于所述信息样本的预测推荐场景以及所述推荐场景样本,构建所述倾向性模型的损失函数;更新所述倾向性模型的参数,将所述损失函数收敛时所述倾向性模型的更新的参数,作为训练后的所述倾向性模型的参数。
在一些实施例中,所述信息推荐装置555还包括:构建模块5557,用于确定与推荐场景样本对应的用户样本的属性信息;获取具有所述属性信息的用户所形成的用户集合;获取与所述用户集合中的用户之间具有交互的历史推荐信息所形成的推荐信息集合;获取所述用户集合中每个所述用户与所述推荐信息集合中每个所述历史推荐信息之间的交互数据;基于所述交互数据,从所述推荐信息集合中筛选出与所述推荐场景样本适配的历史推荐信息作为信息样本,以构建所述推荐场景样本对应的数据库。
在一些实施例中,所述构建模块5557还用于基于任一所述用户与所述推荐信息集合中每个所述历史推荐信息之间的交互数据,对所述推荐信息集合中的所述历史推荐信息进行降序排序,将降序排序结果中在前的部分所述历史推荐信息,作为与所述推荐场景样本适配的信息样本。
在一些实施例中,所述构建模块5557还用于基于所述用户集合中每个所述用户与任一所述历史推荐信息之间的交互数据进行聚合平均处理,得到所述用户样本针对所述历史推荐信息的平均交互数值;基于所述用户样本针对所有所述历史推荐信息的平均交互数值进行平均处理,得到所述用户样本的总平均交互数值;当所述用户样本针对所述历史推荐信息的平均交互数值大于所述总平均交互数值时,将所述历史推荐信息作为与所述推荐场景样本适配的信息样本。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例上述的基于人工智能的信息推荐方法。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的基于人工智能的信息推荐方法,例如,如图3A-3C示出的基于人工智能的信息推荐方法,如图7示出的基于人工智能的信息推荐方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(H TML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (15)

1.一种基于人工智能的信息推荐方法,其特征在于,所述方法包括:
对待推荐信息的多个属性信息中的第一部分属性信息进行特征交叉处理,得到所述待推荐信息的交叉特征;
对所述待推荐信息的多个属性信息中的第二部分属性信息进行编码处理,得到所述待推荐信息的编码特征;
基于所述交叉特征以及所述编码特征进行注意力处理,得到所述待推荐信息的注意力特征;
基于所述待推荐信息的注意力特征进行倾向性预测处理,得到所述待推荐信息适配的推荐场景;
基于所述待推荐信息适配的推荐场景执行推荐操作。
2.根据权利要求1所述的方法,其特征在于,所述对待推荐信息的多个属性信息中的第一部分属性信息进行特征交叉处理,得到所述待推荐信息的交叉特征,包括:
对所述待推荐信息的多个属性信息中的第一部分属性信息进行编码处理,得到所述第一部分属性信息的编码特征;
对所述第一部分属性信息的编码特征进行二阶特征交叉处理,得到所述第一部分属性信息的二阶交叉特征;
对所述第一部分属性信息的二阶交叉特征进行映射处理,得到所述待推荐信息的交叉特征。
3.根据权利要求2所述的方法,其特征在于,
所述第一部分属性信息包括文本属性信息;
所述对所述待推荐信息的多个属性信息中的第一部分属性信息进行编码处理,得到所述第一部分属性信息的编码特征,包括:
对所述待推荐信息的文本属性信息进行分词处理,得到所述文本属性信息的多个词语;
对所述文本属性信息的多个词语进行向量化处理,得到所述多个词语分别对应的词向量;
对所述多个词语分别对应的词向量进行平均处理,得到所述文本属性信息的编码特征。
4.根据权利要求2所述的方法,其特征在于,所述对所述第一部分属性信息的编码特征进行二阶特征交叉处理,得到所述第一部分属性信息的二阶交叉特征,包括:
对所述第一部分属性信息中的任意两个属性信息分别对应的编码特征进行二阶特征交叉处理,得到所述任意两个属性信息的二阶交叉特征;
对所述任意两个属性信息的二阶交叉特征以及所述第一部分属性信息的编码特征进行融合处理,得到所述第一部分属性信息的二阶交叉特征。
5.根据权利要求2所述的方法,其特征在于,所述对所述第一部分属性信息的二阶交叉特征进行映射处理,得到所述待推荐信息的交叉特征,包括:
对所述第一部分属性信息的二阶交叉特征进行矩阵分解处理,得到所述第一部分属性信息的分解特征;
对所述第一部分属性信息的分解特征进行非线性映射处理,得到所述待推荐信息的交叉特征。
6.根据权利要求1所述的方法,其特征在于,
所述第二部分属性信息包括文本属性信息以及图像属性信息;
所述对所述待推荐信息的多个属性信息中的第二部分属性信息进行编码处理,得到所述待推荐信息的编码特征,包括:
对所述待推荐信息的多个所述文本属性信息进行文本编码处理,得到所述待推荐信息的文本编码特征;
对所述待推荐信息的所述图像属性信息进行图像编码处理,得到所述待推荐信息的图像编码特征。
7.根据权利要求6所述的方法,其特征在于,所述对所述待推荐信息的多个所述文本属性信息进行文本编码处理,得到所述待推荐信息的文本编码特征,包括:
对所述待推荐信息的多个所述文本属性信息分别进行特征提取处理,得到所述文本属性信息的文本特征;
对多个所述文本属性信息的文本特征进行映射处理,得到所述待推荐信息的文本编码特征。
8.根据权利要求7所述的方法,其特征在于,所述对所述待推荐信息的多个所述文本属性信息分别进行特征提取处理,得到所述文本属性信息的文本特征,包括:
对所述待推荐信息的多个所述文本属性信息分别进行卷积处理,得到所述文本属性信息的卷积特征;
对所述文本属性信息的卷积特征进行池化处理,得到所述文本属性信息的文本特征。
9.根据权利要求6所述的方法,其特征在于,所述对所述待推荐信息的所述图像属性信息进行图像编码处理,得到所述待推荐信息的图像编码特征,包括:
对所述待推荐信息的图像属性信息进行特征提取处理,得到所述图像属性信息的图像特征;
对所述图像属性信息的图像特征进行映射处理,得到所述待推荐信息的图像编码特征。
10.根据权利要求9所述的方法,其特征在于,所述对所述待推荐信息的图像属性信息进行特征提取处理,得到所述图像属性信息的图像特征,包括:
对所述待推荐信息的图像属性信息进行残差连接处理,得到所述图像属性信息的残差特征;
对所述图像属性信息的残差特征进行非线性映射处理,得到所述图像属性信息的图像特征。
11.根据权利要求10所述的方法,其特征在于,所述对所述待推荐信息的图像属性信息进行残差连接处理,得到所述图像属性信息的残差特征,包括:
对所述待推荐信息的图像属性信息进行降维处理,得到降维后的图像特征;
对所述降维后的图像特征进行卷积处理,得到所述图像属性信息的卷积特征;
对所述图像属性信息的卷积特征进行升维处理,得到升维后的图像特征;
将所述待推荐信息的图像属性信息与所述升维后的图像特征进行加和处理,得到所述图像属性信息的残差特征。
12.一种基于人工智能的信息推荐方法,其特征在于,所述方法包括:
信息推荐任务是通过调用倾向性模型实现的;
所述倾向性模型的训练过程包括以下处理:
从推荐场景样本对应的数据库中获取信息样本;
对信息样本的多个属性信息中的第一部分属性信息进行特征交叉处理,得到所述信息样本的交叉特征;
基于所述信息样本的编码特征以及所述交叉特征,确定所述信息样本的注意力特征;
基于所述信息样本的注意力特征进行倾向性预测处理,得到所述信息样本的预测推荐场景;
基于所述信息样本的预测推荐场景以及所述推荐场景样本,构建所述倾向性模型的损失函数;
更新所述倾向性模型的参数,将所述损失函数收敛时所述倾向性模型的更新的参数,作为训练后的所述倾向性模型的参数。
13.一种基于人工智能的信息推荐装置,其特征在于,所述装置包括:
特征交叉模块,用于对待推荐信息的多个属性信息中的第一部分属性信息进行特征交叉处理,得到所述待推荐信息的交叉特征;
编码模块,用于对所述待推荐信息的多个属性信息中的第二部分属性信息进行编码处理,得到所述待推荐信息的编码特征;
注意力模块,用于基于所述交叉特征以及所述编码特征进行注意力处理,得到所述待推荐信息的注意力特征;
预测模块,用于基于所述待推荐信息的注意力特征进行倾向性预测处理,得到所述待推荐信息适配的推荐场景;
推荐模块,用于基于所述待推荐信息适配的推荐场景执行推荐操作。
14.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至12任一项所述的基于人工智能的信息推荐方法。
15.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于被处理器执行时,实现权利要求1至12任一项所述的基于人工智能的信息推荐方法。
CN202110226085.5A 2021-03-01 2021-03-01 基于人工智能的信息推荐方法、装置、设备及存储介质 Pending CN114996435A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110226085.5A CN114996435A (zh) 2021-03-01 2021-03-01 基于人工智能的信息推荐方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110226085.5A CN114996435A (zh) 2021-03-01 2021-03-01 基于人工智能的信息推荐方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114996435A true CN114996435A (zh) 2022-09-02

Family

ID=83018435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110226085.5A Pending CN114996435A (zh) 2021-03-01 2021-03-01 基于人工智能的信息推荐方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114996435A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116089726A (zh) * 2023-03-06 2023-05-09 北京网智天元大数据科技有限公司 汉藏语多方言多模态的资源推荐方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116089726A (zh) * 2023-03-06 2023-05-09 北京网智天元大数据科技有限公司 汉藏语多方言多模态的资源推荐方法和装置

Similar Documents

Publication Publication Date Title
CN112131411A (zh) 一种多媒体资源推荐方法、装置、电子设备及存储介质
CN116702737B (zh) 文案生成方法、装置、设备、存储介质及产品
CN111611488B (zh) 基于人工智能的信息推荐方法、装置、电子设备
CN112231563B (zh) 一种内容推荐方法、装置及存储介质
CN113392331A (zh) 文本处理方法及设备
CN111444357A (zh) 内容信息确定方法、装置、计算机设备及存储介质
CN112153426A (zh) 一种内容账号管理方法、装置、计算机设备及存储介质
CN111310041A (zh) 图文发布的方法、模型的训练方法、装置及存储介质
CN111723295A (zh) 一种内容分发方法、装置和存储介质
CN114996486A (zh) 一种数据推荐方法、装置、服务器以及存储介质
CN113011126A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN112202849A (zh) 内容分发方法、装置、电子设备和计算机可读存储介质
CN114491149A (zh) 信息处理方法及装置、电子设备、存储介质、程序产品
CN113822127A (zh) 视频处理方法、装置、视频处理设备及存储介质
CN114996435A (zh) 基于人工智能的信息推荐方法、装置、设备及存储介质
CN117725220A (zh) 文档表征和文档检索的方法、服务器及存储介质
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
CN115618121B (zh) 个性化资讯推荐方法、装置、设备及存储介质
CN113656560B (zh) 情感类别的预测方法和装置、存储介质及电子设备
CN116980665A (zh) 一种视频处理方法、装置、计算机设备、介质及产品
CN113741759B (zh) 评论信息的展示方法、装置、计算机设备和存储介质
CN117132323A (zh) 推荐内容的分析方法、装置、设备、介质及程序产品
CN114579869A (zh) 模型训练方法以及相关产品
CN114090848A (zh) 数据推荐及分类方法、特征融合模型及电子设备
CN115329183A (zh) 数据处理方法、装置、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40072456

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination