CN111538912B - 内容推荐方法、装置、设备及可读存储介质 - Google Patents
内容推荐方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN111538912B CN111538912B CN202010645853.6A CN202010645853A CN111538912B CN 111538912 B CN111538912 B CN 111538912B CN 202010645853 A CN202010645853 A CN 202010645853A CN 111538912 B CN111538912 B CN 111538912B
- Authority
- CN
- China
- Prior art keywords
- content
- account
- target
- data
- click
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0255—Targeted advertisements based on user history
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0277—Online advertisement
Abstract
本申请关于一种内容推荐方法、装置、设备及可读存储介质,涉及计算机领域。该方法包括:获取目标帐号的帐号数据;对帐号信息数据进行特征提取,得到帐号特征,对历史行为数据进行特征提取,得到行为特征;对目标内容的内容数据进行特征提取,得到内容特征;通过点击率预测模型对融合特征进行预测,得到目标帐号对目标内容进行点击的预测概率;在预测概率达到概率阈值的情况下,向目标帐号推荐目标内容。通过对指示目标帐号属性的帐号信息数据、指示内容属性的内容数据,以及指示目标帐号和内容交互过程的历史行为数据进行特征的提取与融合,并基于目标帐号对内容的预测点击率的内容推荐,全面地对点击率进行预估,从而提高了内容推荐的准确率。
Description
技术领域
本申请涉及计算机领域,特别涉及一种内容推荐方法、装置、设备及可读存储介质。
背景技术
随着科技的发展,诸如手机、平板电脑的终端已经被用户越来越广泛的使用,终端中的应用程序可以为用户提供诸多方便。而应用程序的指定界面中通常会提供并更新广告,供用户在感兴趣时进行点击。在投放广告之前,通常会确定用户对于该广告的点击率,以确定是否向用户进行该广告的投放。
相关技术中,通常根据用户所对应的帐号信息,生成用户的兴趣标签,并根据用户的兴趣标签对用户的兴趣进行量化归纳,进行兴趣特征提取。在得到兴趣特征后,根据用户的兴趣预测用户对于向其推送的新的广告的点击率,并根据该广告点击率对用户进行内容推荐。
然而,仅通过用户的兴趣预测用户对于广告的点击率的方法,对于广告点击率的预测较为片面,预测准确率较低,致使内容推荐的准确率较低。
发明内容
本申请实施例提供了一种内容推荐方法、装置、设备及可读存储介质,可以根据交互特征全面地对点击率进行预估,提高对基于预测点击率的内容推荐的准确性。该技术方案如下所示。
一方面,提供了一种内容推荐方法,该方法包括:
获取目标帐号的帐号数据,帐号数据中包括目标帐号的帐号信息数据和目标帐号的历史行为数据;
对帐号信息数据进行特征提取,得到帐号特征,并对历史行为数据进行特征提取,得到行为特征;
对目标内容的内容数据进行特征提取,得到内容特征,目标内容为待预测点击率的内容;
通过点击率预测模型对帐号特征、行为特征和内容特征融合得到的融合特征进行预测,得到目标帐号对目标内容进行点击的预测概率;
在预测概率达到概率阈值的情况下,向目标帐号推荐目标内容。
另一方面,提供了一种内容推荐装置,该装置包括:
获取模块,用于获取目标帐号的帐号数据,帐号数据中包括目标帐号的帐号信息数据和目标帐号的历史行为数据;
提取模块,用于对帐号信息数据进行特征提取,得到帐号特征,并对历史行为数据进行特征提取,得到行为特征;
提取模块,用于对目标内容的内容数据进行特征提取,得到内容特征,目标内容为待预测点击率的内容;
预测模块,用于通过点击率预测模型对帐号特征、行为特征和内容特征融合得到的融合特征进行预测,得到目标帐号对目标内容进行点击的预测概率;
推荐模块,用于在预测概率达到概率阈值的情况下,向目标帐号推荐目标内容。
另一方面,提供了一种计算机设备,该计算机设备包括处理器和存储器,存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的内容推荐方法。
另一方面,提供了一种计算机可读存储介质,存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的内容推荐方法。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如上述本申请实施例中任一所述的内容推荐方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过对指示目标帐号属性的帐号信息数据、指示内容属性的内容数据,以及指示目标帐号和内容交互过程的历史行为数据进行特征的提取与融合,并通过点击率预测模型进行基于目标帐号对内容的预测点击率的内容推荐。不仅以目标帐号曾经浏览过的内容为点击率预测的主要依据,而且根据交互特征全面地对点击率进行预估,从而提高了内容推荐的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请一个示例性实施例提供的实施环境示意图;
图2示出了本申请一个示例性实施例提供的内容推荐方法的流程图;
图3示出了本申请一个示例性实施例提供的将帐号信息数据进行提取,得到帐号特征的过程示意图;
图4示出了本申请一个示例性实施例提供的对目标内容的内容数据进行提取,得到内容特征的过程示意图;
图5示出了本申请一个示例性实施例提供的对历史行为数据进行特征提取,得到行为特征的流程图;
图6示出了本申请一个示例性实施例提供的根据历史行为数据获得点击行为序列的流程示意图;
图7示出了本申请一个示例性实施例提供的通过Skip-Gram模型进行点击序列提取的过程示意图;
图8示出了本申请一个示例性实施例提供的对周期类别序列表进行特征提取的过程示意图;
图9示出了本申请一个示例性实施例提供的内容推荐方法的流程图;
图10示出了本申请一个示例性实施例提供的内容推荐方法的算法流程示意图;
图11示出了本申请一个示例性实施例提供的内容推荐装置的结构框图;
图12示出了本申请一个示例性实施例提供的内容推荐装置的结构框图;
图13示出了本申请一个示例性实施例提供的服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,针对本申请实施例中涉及的名词进行简单介绍:
人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning, ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
内容推荐:是指根据用户信息向用户推荐内容的功能,通常,推荐系统应用在对视频、新闻、电商等内容进行推荐的领域,用于向用户推荐用户可能感兴趣的内容。示意性的,用户观看过导演a导演的电影A,则根据电影A的导演推断用户对导演a的电影感兴趣,则向用户推荐导演a导演的其他电影。相关技术中,在实现内容推荐时,包括如下方式中的至少一种方式:
第一,基于用户(User-based)推荐:也即利用用户之间的相似性,向用户推荐相似用户所喜欢的内容,如:用户A与用户C性别相同,且所处年龄段相同,则将用户C喜欢的内容推荐至用户A;
第二,基于内容(Item-based)推荐:也即,根据已确定的用户感兴趣的内容,预测不确定的用户感兴趣的内容,如:用户A阅读过《天龙八部》,而该小说属于武侠类小说,则向用户A推荐相似的武侠类小说;
第三,基于协同过滤(Collaborative Filtering-based)推荐:是指利用用户相似性,向用户推荐内容,而该方式下,用户相似性通过用户历史阅览内容确定;
第四,基于模型(Model-based)推荐:是指利用机器学习算法进行内容推荐,示意性的,以逻辑回归模型为例,构建影响用户行为的特征属性对应的标签数据,通过标签数据和特征属性拟合得到一个函数,并得到每个特征属性的权重,基于特征属性对未知的用户和内容的内容关系进行打分,分数与用户对内容的感兴趣程度呈正相关。
分类器:在机器学习中,分类器的作用是在被训练完成的基础上判断一个新的观察样本所属的类别。分类的概念为在已有数据的基础上生成一个分类函数或构造出一个分类模型。该函数或模型能够把数据库中的数据记录映射到给定类别中的某一个,从而可以应用于数据预测。可选地,本申请中所涉及的分类器包括支持向量机(Support VectorMachine,SVM分类器),XGBoost分类器,逻辑回归分类器中的至少一种。
独热(One-Hot)编码,又称一位有效编码,主要采用N位状态寄存器来对N个状态进行编码,每个状态均对应有独立的寄存器位,并且在任意时候只有一位有效。其本质为分类变量作为二进制向量的表示,在一个示例中,One-Hot编码为三位二进制向量。则该One-Hot编码包括[0,0,1]、[0,1,0]、[1,0,0]三种形式,并可以表示上述三种向量特征。
结合上述名词简介,对本申请实施例的应用场景进行举例说明:
第一,在视频播放应用程序中,在用户观看视频的过程中,或者用户观看结束一个视频后,向用户进行视频内容推荐,其中,该视频播放应用程序可以实现普通视频播放程序,用于播放用户生成内容(User Generated Content,UGC)、电影、电视剧、综艺等视频内容,也可以实现为小视频应用程序,其中,小视频通常是指视频长度小于预设时长,且通过指定小视频应用程序生成的视频内容。
在视频播放应用程序中,对用户帐号的帐号数据进行特征提取,并对于视频播放应用程序中的视频内容进行特征提取,得到与帐号数据、视频内容以及帐号与视频内容之间的交互行为有关的融合特征,并通过点击率预测模型将融合特征作为输入值进行点击率的预测,得到用户帐号对该视频内容进行点击的预期概率;
第二,在新闻阅读应用程序中,当用户在新闻阅读界面中以瀑布流的形式刷新新闻内容时,对用户帐号的帐号数据进行特征提取,并对于将要向用户进行推送的新闻内容进行特征提取,得到帐号数据、新闻内容以及帐号与新闻内容之间的交互行为有关的融合特征,并通过点击率预测模型将融合特征作为输入值,进行点击率的预测,得到用户帐号对新闻内容进行点击的预期概率。
其中,上述新闻推荐可以实现在如上所述的新闻阅读应用程序中,也可以应用于其他应用程序中的新闻阅读版块,如:即时通讯应用程序、浏览器、游戏、工具类应用程序等,本申请实施例对此不加以限定。
上述两种应用场景仅为本申请示意性的举例,本申请实施例提供的内容推荐方法还可以应用于其他通过预测点击率对目标帐号进行内容推荐的应用场景中,本申请实施例对此不加以限定。
值得注意的是,本申请实施例提供的内容推荐方法,可以由终端实现,也可以由服务器实现,还可以由终端和服务器协同实现。其中,终端包括智能手机、平板电脑、便携式膝上笔记本电脑、台式计算机、智能音箱、智能可穿戴设备等终端中的至少一种,服务器可以是物理服务器,也可以是提供云计算服务的云服务器,且服务器可以实现为一台服务器,也可以是多个服务器构成的服务器集群或分布式系统。其中,当终端和服务器协同实现本申请实施例提供的方案时,终端和服务器可以通过有线或无线通信方式进行直接或间接连接,本申请实施例对此不加以限定。
请参考图1,其示出了本申请一个示例性实施例提供的实施环境示意图,如图1所示,该实施环境中包括终端110、服务器120,终端110和服务器120之间通过通信网络130连接;
其中,终端110中安装有内容阅览程序,且内容阅览程序中登录有目标帐号。该内容阅览程序可以实现为视频播放程序、电子书阅读程序、即时通讯应用程序、浏览器、游戏、工具类应用程序等,本申请实施例对此不加以限定。可选地,终端110将目标帐号的帐号信息(如:帐号标识、兴趣标签、基本信息等)通过通信网络130上传至服务器120中进行存储,以终端110将目标帐号在内容阅览过程中产生的阅览数据上传至服务器120中,存储得到目标帐号的历史内容数据。
可选地,服务器120可以根据终端110发送的点击率预测请求,对点击率进行预测,并将预测后点击率指示的推荐内容反馈至终端110;或,服务器120每隔预设时长对点击率进行预测,并向终端110发送根据预测点击率确定的推荐内容;或,服务器120根据终端中内容的点击数量,在向终端110点击预设数量的内容后,对剩余内容进行点击率预测,并向终端110发送根据预测点击率确定的推荐内容。
可选地,服务器120中包括点击率预测模型121,在生成目标帐号的推荐内容时,根据目标帐号的行为特征对点击率预测模型121中存在的内容进行预测,得到目标帐号对于该内容的预测点击率,点击率预测模型121根据该预测点击率生成推荐内容,向目标帐号推荐。
可选地,在本申请实施例中,点击率预测模型121中的推荐内容为在应用程序中向帐号推送的广告内容。
值得注意的是,上述通信网络130可以实现为有线网络,也可以实现为无线网络,且通信网络130可以实现为局域网、城域网或广域网中的任意一种,本申请实施例对此不加以限定。
结合上述名词简介以及应用场景,对本申请实施例提供的内容推荐方法进行说明,以由服务器执行以完成该方法为例进行说明,如图2所示,该方法包括如下步骤。
步骤201,获取目标帐号的帐号数据,帐号数据中包括目标帐号的帐号信息数据和目标帐号的历史行为数据。
可选地,帐号信息数据包括目标帐号设置得到的静态数据,其中包括目标帐号在注册过程中生成的数据,和在使用过程中通过设置界面设置的数据。如,帐号信息数据为拥有目标帐号的用户在注册该帐号时填写的信息,而在后续使用过程中对于初始填写的信息进行修改后,将修改过的信息代替注册该帐号时填写的信息作为帐号信息数据。在一个示例中,帐号信息数据中包括指示目标帐号的用户性别的性别数据、指示目标帐号的用户所处的年龄段的年龄数据以及指示目标帐号的用户所在地区的地域数据。
历史行为数据为目标帐号在使用过程中,与历史内容进行交互而产生的数据。可选地,历史内容包括在目标帐号的使用过程中向用户推荐过的内容、用户搜索过的内容、目标帐号选择关注的应用程序中的内容中的至少一种。本申请实施例对历史内容的具体来源以及确定方式不作限制。
在一个示例中,目标帐号为视频播放程序中的帐号,历史内容为视频内容,历史行为数据包括指示目标帐号对视频内容是否进行了点击的点击数据,当目标帐号对视频内容进行了点击时,历史行为数据还包括指示目标帐号对该视频内容进行点击的点击时刻、目标帐号对视频内容进行浏览的浏览时长以及该视频内容的类别数据。在本实施例中,点击时刻为对历史内容进行点击的时刻。历史内容根据目标帐号对于视频内容的点击而生成。
在另一个示例中,目标帐号为新闻阅读应用程序中的帐号,历史内容为新闻内容,历史行为数据为指示目标帐号对新闻内容进行浏览的浏览时长以及指示该新闻内容的类别数据。此时,服务器中还可对应点击时刻记录有目标帐号对该历史内容的浏览时长。在一个示例中,目标帐号对历史内容点击的时刻为“2019年10月11日6时16分41秒”,且目标帐号关闭该历史内容的时刻为“2019年10月11日6时17分11秒”,则服务器中即可记录目标帐号对该历史内容的浏览时长为30秒。可选地,当目标帐号在时间阈值内对同一历史内容进行多次点击,并进行浏览时,将首次点击的时刻作为点击时刻。将多次进行浏览的总时长作为浏览时长。在本实施例中,历史内容根据目标帐号对于新闻内容的浏览过程而生成。
步骤202,对帐号信息数据进行特征提取,得到帐号特征,并对历史行为数据进行特征提取,得到行为特征。
可选地,帐号信息数据和历史行为数据的特征提取过程包括:以数字化形式表现帐号信息数据以及历史行为数据,并将帐号信息数据以及历史行为数据中的数字化形式体现的数据进行归一化处理,之后进行排列组合,得到以多维向量形式体现的,与帐号信息数据对应的帐号特征和与历史行为数据对应的行为特征。可选地,在帐号特征和行为特征中,目标帐号以目标帐号标识的形式体现,历史内容以历史内容标识的形式体现。
可选地,当对历史行为数据进行特征提取时,根据历史内容的种类确定提取的特征内容。在一个示例中,历史行为数据为指示目标帐号和新闻内容进行交互的数据,则历史行为数据中包括浏览行为序列,浏览行为序列中包括目标帐号对历史内容进行浏览的浏览时长的组合;在另一个示例中,历史行为数据为指示目标帐号和视频内容进行交互的数据,则历史行为数据中包括点击行为序列,点击行为序列中包括目标帐号对历史内容进行点击的点击行为的组合。
在本申请实施例中,以进行特征提取的数据为帐号信息数据为例,帐号信息数据包括性别数据、年龄数据和地域数据。图3示出了本申请一个示例性实施例提供的将帐号信息数据进行提取,得到帐号特征的过程示意图。请参考图3,帐号信息数据310中对应目标帐号的目标帐号名称311“HHHABCD”有包括性别数据312、年龄数据313以及地域数据314。其中性别数据312为“男性”,年龄数据313为“35岁”,地域数据314为“北京”。
在对目标帐号进行特征提取时,将目标帐号标识321作为目标帐号名称311的特征,目标帐号标识321为“123456”。
在对性别数据312进行特征提取时,性别数据312包括男与女,则将性别数据“男”对应的特征设为“1”,性别数据“女”对应的特征设为“0”,得到的性别特征322即为“1”。
在对年龄数据313进行特征提取时,将年龄进行分段,并且分别用整数1-7进行表示,如:0-18岁表示为1,18~25岁表示为2,25~30岁表示为3,30~40岁表示为4,40~50岁表示为5,50~60岁表示为6,60岁及以上表示为7。则对应年龄数据313的年龄特征323即为“4”。
在对地域数据314进行特征提取时,使用One-Hot编码的方式对地域特征进行标记,得到与地域数据314“北京”对应的地域特征324为“[1,0,0]”。
在对目标帐号的帐号标识321、性别特征322、年龄特征323、地域特征324进行确定后,即可得出与帐号信息数据310对应的帐号特征320为“[123456,1,4,1,0,0]”。
步骤203,对目标内容的内容数据进行提取,得到内容特征,目标特征为待预测点击率的内容。
在一个示例中,目标内容的内容数据包括目标内容的数值型数据和目标内容的非数值型数据。可选地,将目标内容的数值型数据直接提取,作为数值型数据对应的特征,同时,将目标内容的非数值型数据通过One-Hot编码的方式进行特征提取。图4示出了本申请一个示例性实施例提供的对目标内容的内容数据进行提取,得到内容特征的过程示意图。请参考图4,目标内容的内容数据410为广告数据,对应有广告的广告名称411、广告中商品的价格412与广告中商品的类别413。在对内容数据进行特征提取的过程中,将广告名称411“日用品广告”对应的广告标识421“654321”作为广告名称411的特征进行提取,将作为商品的价格412的50元直接提取“50”为商品价格特征422,将广告中商品的类别413“日用品类”通过One-Hot编码的方式,得到与广告中商品的类别413对应的商品类别特征423为“[1,0,0,0,0,0]”,得到与该广告对应的内容特征420为[654321,50,1,0,0,0,0,0]。
步骤204,通过点击率预测模型对帐号特征、行为特征和内容特征融合得到的融合特征进行预测,得到目标帐号对目标内容进行点击的预测概率。
可选地,对帐号特征、行为特征和内容特征进行融合,得到融合特征的方式为将帐号特征、行为特征和内容特征进行特征拼接,以得到融合特征。在一个示例中,将行为特征中的首个特征向量拼接在帐号特征的最后一个向量之后,再将内容特征的首个向量拼接在帐号特征的最后一个向量之后,以将帐号特征、行为特征以及内容特征拼接得到融合特征。
可选地,将帐号特征、行为特征和内容特征输入第一特征融合分类器进行升维处理,得到融合特征;或,将帐号特征、行为特征和内容特征输入第二特征融合分类器进行降维处理,得到融合特征。可选地,最终输出的融合特征至少包括一个维度的特征向量。
可选地,点击率预测模型的输入量为将帐号特征、行为特征和内容特征进行特征融合后得到的融合特征,该融合特征中包括了至少一个指示目标帐号与目标内容之间的交互情况的特征向量。
可选地,点击率预测模型为机器学习模型。该点击率预测模型可以是已通过主动学习的训练方法训练完成的模型,也可以是待训练的模型。当该点击率预测模型是训练完成的模型时,将待预测点击率的融合特征直接输入点击率预测模型,输出得到目标帐号对目标内容进行点击的概率;当该点击率模型是待训练的模型时,通过目标内容标注的参考点击率和预测点击率之间的差异度,对点击率进行训练,以提高准确率预测的准确度,完善点击率预测模型中的参数,其中,预测点击率为将融合特征输入训练未完成的点击率预测模型中得到的。
点击率预测模型输出的为0~1之间的小数,用于指示目标帐号对目标内容进行点击的概率。在实际情况中,目标帐号对于目标内容进行点击的概率只为1或0,即点击或不点击,预测概率越接近1,即指示目标帐号对目标内容的点击概率越大,预测概率越接近0,即指示目标帐号对目标内容的点击概率越小。
步骤205,根据预测概率向目标帐号进行内容推荐。
在一个示例中,服务器内还设置有概率阈值,响应于最终输出的预测概率大于或等于该概率阈值,服务器向目标帐号进行内容推荐;响应于最终输出的预测概率小于该概率阈值,服务器不向目标帐号进行内容推荐。
综上所述,本实施例提供的方法,通过对指示目标帐号属性的帐号信息数据、指示内容属性的内容数据,以及指示目标帐号和内容交互过程的历史行为数据进行特征的提取与融合,并通过点击率预测模型进行基于目标帐号对内容的预测点击率的内容推荐。不仅以目标帐号曾经浏览过的内容为点击率预测的主要依据,而且根据交互特征全面地对点击率进行预估,从而提高了内容推荐的准确率。
可选地,历史行为数据指示了目标帐号与历史内容之间的交互行为。在对历史行为数据进行处理的过程中,即可根据交互行为中包含的特征进行特征提取,图5示出了本申请一个示例性实施例提供的对历史行为数据进行特征提取,得到行为特征的流程图,该步骤可以替换实现为步骤202中的历史行为数据的特征提取过程,以由服务器执行以完成该方法为例进行说明,如图5所示,该方法包括如下步骤。
步骤501,获取与历史内容对应的历史内容标识。
如步骤201中所示,历史行为数据为目标帐号在使用过程中,与历史内容进行交互而产生的数据。可选地,历史行为数据中对应目标帐号有目标帐号点击过的历史内容。
可选地,在服务器中,对应历史内容的名称存储有历史内容的历史内容标识,在确定历史行为数据中包括的目标帐号的历史内容后,确定与目标帐号对应的每一个历史内容的历史内容标识。
可选地,在获取与历史内容对应的历史内容的标识的同时,获取目标帐号对应的帐号标识。
步骤502,根据点击时刻对历史内容标识进行排列,得到点击行为序列。
点击时刻为目标内容对历史内容进行点击的时刻。在一个示例中,目标帐号对内容点击的时刻为“2019年10月11日6时16分41秒”,则将该时刻记录在服务器中,作为历史内容的点击时刻。
图6示出了本申请一个示例性实施例提供的根据历史行为数据获得点击行为序列的流程示意图。请参考图6,历史行为数据600中包括了目标帐号601“HHABC”浏览过的历史内容602“第一广告”、历史内容603“第二广告”和历史内容604“第三广告”,以及对应历史内容602“第一广告”的点击时刻612“2019年3月27日”、对应历史内容603“第二广告”的点击时刻613“2019年2月18日”,对应历史内容604“第三广告”的点击时刻614“2019年7月28日”。其中,点击时刻612指示的时间最早,点击时刻613指示的点击时刻最晚,则按照时刻顺序对目标帐号601所对应的历史内容进行重新排列,得到点击行为序列610,在点击行为序列610中包括了目标帐号601的帐号标识611“1234”,以及按照次序排列的历史内容603、历史内容602以及历史内容604。
步骤503,对点击行为序列进行特征提取,得到点击序列特征。
可选地,通过跳词(Skip-Gram)模型对点击行为序列进行特征提取,以获取点击序列特征。Skip-Gram模型是在自然语言处理中,对语料进行选取,并进行特征提取的单输入多输出模型。Skip-Gram模型包括输入(input)层、隐藏(hidden)层以及输出(output)层。通过Skip-Gram模型,可以训练得到对应历史内容的嵌入(embedding)特征。可选地,输入Skip-Gram模型的值为以One-Hot编码形式表示的历史内容标识,该内容标识的维度数量等于与目标帐号对应的历史内容的数量。图7示出了本申请一个示例性实施例提供的通过Skip-Gram模型进行点击序列提取的过程示意图。在将与目标帐号对应的历史内容701以One-Hot编码形式进行历史内容编码711的表示之后,将历史内容编码711输入Skip-Gram模型的输入层,从输入层到隐藏层的输出结果如下公式1所示:
式中,h为隐藏层的输出结果,W为与历史内容701向对应的权重矩阵721,该权重矩阵的大小为V*N,其中,每行代表对于历史内容701,与目标帐号对应的启示内容对其的嵌入特征,也即,共有N个嵌入特征。V指示每个嵌入特征的特征长度。X表示对W的转置矩阵进行变换的变换矩阵,为经过转置以及变化后隐藏层的实际输出结果。也即,将W的转置矩阵与作为输入量的X进行点乘,得到隐藏层的输出结果。
从隐藏层到输入层的输出如下公式2所示:
式中,u为输出层的输出结果,为与对应该输出层的输出结果的输出转置矩阵。也即,通过输出层对应的输出结果的输出转置矩阵与隐藏层输出结果h进行点乘,得到输出层的输出结果u。该输出层的输出结果即为对应点击序列的点击序列特征731。
可选地,与目标帐号对应的历史内容还包括历史内容702、历史内容703、历史内容704和历史内容705。在通过softmax分类器将输出层的输出结果进行归一化处理后,通过历史内容701分别对历史内容702至历史内容705的出现概率进行预测,得到预测结果732、预测结果733、预测结果734以及预测结果735。这些预测结果也为点击序列特征731中包括的内容。
设历史内容701出现的概率为w(t),其他历史内容出现的概率为w(j),则在历史内容701出现的情况下,其他历史内容出现的概率如下公式3所示:
其中,表示历史内容701出现的情况下其他历史内容出现的概率,也即预测结果732、预测结果733、预测结果734以及预测结果735的值。表示对应其他历史内容的对数值,表示历史内容集合中所有历史内容出现的对数值之和。也即,将其他历史内容的对数值与所有历史内容出现的对数值之和相除,得到历史内容701出现的情况下其他历史内容出现的概率。
可选地,对该Skip-Gram模型进行调整的训练,以调整参数时,调整的公式为如下公式4所示:
该公式4为目标帐号对应的历史内容中任一历史内容的对数值与总对数值的比值得到最大损失函数的公式。可选地,该公式等价于公式5:
将公式5改写成最小化损失函数,可得公式6:
该公式6为根据历史内容中任一历史内容的对数值的和获得最小化损失函数的公式。通过该最小化损失函数,可以对权重矩阵721的参数进行更新,以进行Skip-Gram模型的训练。
步骤504,以目标时刻为基准时刻设置时间周期。
在一个示例中,即距离当前时刻1周、距离当前时刻2周、距离当前时刻1个月、距离当前时刻3个月、距离当前时刻6个月、距离当前时刻12个月作为基准时刻,设置时间周期。
可选地,每个时间周期中至少包括至少一个历史内容。
步骤505,获取目标时间周期内,目标帐号对第i个内容类别进行点击的点击行为数据。
可选地,历史内容对应有内容类别。在一个示例中,历史内容为视频内容,则该视频内容对应的内容类别至少包括影视类别、新闻类别、动画类别、军事类别、数码内容、生活内容中的至少一种;在另一个示例中,历史内容为广告内容,则该广告内容对应的内容类别指示广告中的商品类别。
可选地,服务器中预存有对于历史内容的分类方法,其中包括了n个内容类别。则i≤n。
步骤506,确定点击行为数据的点击次数为目标时间周期的类别统计数据。
可选地,类别统计数据指示一个目标时间周期内,目标帐号对一个内容类别中的历史内容进行点击的点击次数。响应于目标时间周期内对应内容类别的历史内容增加一条,则在类别统计数据的统计结果中增加1。
步骤507,根据时间周期对类别统计数据进行排列,得到周期类别序列。
在一个示例中,历史内容的类别至少包括A类、B类和C类,时间周期包括1周内、2周内、1月内、3月内、6月内、12月内共计6个时间周期,且每个周期对应每个历史内容得到类别统计数据的统计结果。则对应该6个时间周期以及3中内容类别,并以目标时刻距离当前时刻由近到远的顺序排列可以得到如表1所示的周期类别序列。
表1:周期类别序列表
商品类别 | 1周内 | 2周内 | 1月内 | 3月内 | 6月内 | 12月内 |
A类 | 1 | 1 | 3 | 3 | 6 | 20 |
B类 | 0 | 0 | 0 | 2 | 3 | 3 |
C类 | 0 | 1 | 1 | 1 | 1 | 2 |
如上表中所示,以12月内的数据进行举例说明:该表中与“12月内”以及“A类”对应的统计结果为“20”,即20次;与“12月内”以及“B类”对应的统计结果为“3”,即3次;与“12月内”以及C类对应的统计结果为“2”,即2次。也即,对应目标帐号曾在距离当前时刻十二个月的时间周期内点击过20次商品类别为A类的广告,点击过3次商品类别为B类的广告,且点击过2次商品类别为C类的广告。
步骤508,对周期类别序列进行特征提取,得到周期类别特征。
图8示出了本申请一个示例性实施例提供的对周期类别序列表进行特征提取的过程示意图。可选地,在得到周期类别序列表800后,以One-Hot编码对历史内容的内容类别进行标识,得到与A类编码811,也即A类对应的One-Hot编码为[1,0,0];B类编码812,也即与B类对应的One-Hot编码812为[0,1,0];C类编码813,也即与C类对应的One-Hot编码为[0,0,1]。则特征提取中,每列对应一个内容类别,且每列的前三位用于指示历史内容的内容类别,之后6位对应为每个时间周期内的类别统计数据。如图8所示,最终即可得到周期类别特征820。
综上所述,本实施例提供的方法,通过对指示目标帐号属性的帐号信息数据、指示内容属性的内容数据,以及指示目标帐号和内容交互过程的历史行为数据进行特征的提取与融合,并通过点击率预测模型进行基于目标帐号对内容的预测点击率的内容推荐。不仅以目标帐号曾经浏览过的内容为点击率预测的主要依据,而且根据交互特征全面地对点击率进行预估,从而提高了内容推荐的准确率。通过点击序列特征体现目标帐号与历史内容之间的交互情况,并进而通过周期类别特征体现目标帐号与不同种类的内容类别在不同时间段的交互情况,将目标帐号分时段、分类别的对于历史内容的点击情况作为点击率预测的依据,进一步提高了内容推荐的准确率。
可选地,融合后得到的特征维度较多,故在点击率预测模型中设置多个分类器,对融合特征进行多次预测后,综合评价得到预测概率,并进行内容推荐。图9示出了本申请一个示例性实施例提供的内容推荐方法的流程图,以由服务器执行以完成该方法为例进行说明,该方法包括如下步骤。
步骤901,获取目标帐号的帐号数据,帐号数据中包括目标帐号的帐号信息数据和目标帐号的历史行为数据。
帐号信息数据为目标帐号在注册的过程中所生成的数据,历史行为数据为目标帐号在使用过程中,与历史内容进行交互而产生的数据。
可选地,目标帐号的帐号数据存储在其他源数据计算机设备中,服务器向其他源数据计算机设备发送帐号数据的获取请求,并接收其他源数据计算机设备回复的帐号数据。
步骤902,对帐号信息数据进行信息提取,得到帐号特征,并对历史行为数据进行特征提取,得到行为特征。
可选地,根据帐号信息数据的具体类别,选取对应的特征提取方法,且在对历史行为数据进行特征提取的过程中,提取得到点击行为特征与周期类别特征。
步骤903,对目标内容的内容数据进行特征提取,得到内容特征。
可选地,目标内容为标注有参考概率的内容,参考概率指示目标帐号对目标内容进行点击的实际概率。在实际情况中,目标帐号对于目标内容的实际点击概率只包括0和1,也即目标帐号对于目标内容只包括不点击与点击两种情况。此时,目标内容实际为用于根据结果对点击率预测模型进行参数修正的样本内容。
步骤904,对帐号特征、行为特征和内容特征进行特征融合,得到融合特征。
步骤905,将融合特征分别输入m个分类器,输出得到m个预测子概率,每个分类器输出得到一个预测子概率。
在本申请实施例中,点击率预测模型中包括m个分类器,m≥2。可选地,m个分类器中存在至少两个不同种类的分类器,和/或,m个分类器中存在至少两个种类且不同参数的分类器。在一个示例中,点击率预测模型中包括三个分类器,分别为SVM分类器、XGBoost分类器和逻辑回归分类器;在另一个示例中,点击率预测模型中包括三个参数不同的SVM分类器。
可选地,预测子概率为由将融合特征输入一个分类器,输出得到的子概率。预测子概率为0~1之间的小数值。预测子概率即指示该分类器以融合特征为输入值,输出得到的目标帐号对于目标内容进行点击的概率。
步骤906,将m个预测子概率进行加权求和,得到目标帐号对目标内容进行点击的预测概率。
可选地,在点击率预测模型中的m个分类器分别以融合特征为输入量,输出与点击率模型对应的预测子概率后,将预测子概率对应分类器的权值进行加权求和,得到目标帐号对目标内容的点击概率。
在一个示例中,点击率预测模型中包括三个分类器,分别为SVM分类器、XGBoost分类器和逻辑回归分类器。其中,SVM分类器是定义在特征空间上间隔最大的线性分类器,其学习策略即为间隔最大化,可通过解决正则化的合页损失函数的最小化问题,对分类器中的参数进行确定;XGBoost分类器为通过多个基分类器的结果进行融合,并考虑每个子模型的复杂度,将模型复杂度和分类结果同时进行优化的分类器;逻辑回归分类器是在线性回归基础上,套用逻辑函数得到的分类器。对应SVM分类器、XGBoost分类器和逻辑回归分类器分别输出对应目标帐号对目标内容的预测子概率。将SVM分类器、XGBoost分类器和逻辑回归分类器输出的预测子概率进行加权求和,得到目标帐号对目标内容进行点击的预测概率的公式7如下所示:
其中,F为目标帐号对目标内容进行点击的预测概率,为SVM分类器输出的预测子概率,为其对应的权值;为XGBoost分类器输出的预测子概率,为其对应的权值,为逻辑回归分类器输出的预测子概率,为其对应的权值。、、之间满足的关系如公式8所示:
可选地,当目标内容标注有参考概率时,在分类器输出预测子概率之后,还可以根据参考概率与预测子概率之间的第一差异度,对分类器的参数进行调整。
将分类器中需要调整的参数设为w,w指示一个多维向量参数。则针对w为SVM分类器中的参数、w为XGBoost分类器中的参数以及w为逻辑回归分类器中的参数分别进行说明。
(1)、当w为SVM分类器中的参数时,分类器中的关键参数还包括b,对w与b进行求解的方法如下公式9所示:
式中,为参数w中所有特征向量的模值的平方和,和为分类器中的其他变量,s.t.上方公式所被约束的条件,该公式即为在满足条件式的基础上,对通过参数w的模的平方和以及其他特征对参数w 的最小值进行调整的过程。指示参数w的转置矩阵,yi指示预测概率,xi指示输入的融合特征。
(2)、当w为XGBoost分类器中的参数时,对参数的调整还包括了对于模型复杂度的调整,其对应公式如下公式10所示:
式中,为目标函数,为目标内容标注的参考概率,为输出的预测概率,为多组预测概率和参考概率之间的差异度的和,为多组预测概率和参考概率对应的模型复杂度之和。可选地,公式10即为根据多组预测概率和参考概率之间的差异度的和以及多组预测概率和参考概率对应的模型复杂度之和,对目标函数进行调整的过程。
可选地,在对XGBoost分类器中的参数w进行优化时,需要通过多轮损失函数优化的方法,其中,第t次损失函数的表达式如下公式11所示:
公式11即为根据与输出值有关的损失函数以及差异函数得到损失函数的过程。对上式进行二阶泰勒展开,得到的表达式如下公式12所示:
(3)、当w为逻辑回归分类器中的参数时,通过分类判别函数对w进行调整。根据正向评价以及逆向评价的两类问题,分类判别函数如下公式13所示:
可选地,对于其中的参数w,通过极大似然估计的方法获取似然度以及对数似然度,并且通过梯度下降法的方式进行表示。似然度以及对数似然度的获取方法如下公式14所示:
可选地,在通过上述公式最对应的分类器进行参数调整,并确定参数调整完成后,根据参考概率与预测概率之间的第二差异度,对每个分类器所对应的权值进行调整。
步骤907,在预测概率达到概率阈值的情况下,向目标帐号推荐目标内容。
可选地,根据预测概率与概率阈值之间的关系,确定是否向目标帐号推荐目标内容。在一个示例中,设置多个预测概率,多个预测概率用于分批次向目标帐号进行内容推荐。
综上所述,本实施例提供的方法,通过对指示目标帐号属性的帐号信息数据、指示内容属性的内容数据,以及指示目标帐号和内容交互过程的历史行为数据进行特征的提取与融合,并通过点击率预测模型进行基于目标帐号对内容的预测点击率的内容推荐,不仅以目标帐号曾经浏览过的内容为点击率预测的主要依据,而且根据交互特征全面地对点击率进行预估,从而提高了内容推荐的准确率。通过在点击率预测模型中设置不同的分类器,对融合特征进行多维预测后加权求和的方式,使预测的结果更加准确且贴合实际,进一步提高了基于预测点击率的内容推荐的准确性。
图10示出了本申请一个示例性实施例提供的内容推荐过程的算法流程示意图,以该算法流程应用于服务器中进行说明,该算法流程包括如下步骤。
步骤1001,获取广告数据。
可选地,在本申请实施例中,目标内容为广告,广告数据即为目标帐号的历史行为数据,也即,目标帐号在使用过程中,与历史内容进行交互而产生的数据。广告数据可以表示目标帐号对于广告的浏览情况。广告数据中包括向目标帐号推荐过的广告、用户搜索过的广告、用户关注过的广告中的至少一种。
可选地,广告数据中还包括作为样本对点击率预测模型进行训练的历史行为数据。
步骤1002,对广告数据进行数据预处理。
可选地,对广告数据进行数据预处理的过程即为对帐号信息数据排列为点击行为序列的过程。
可选地,对广告数据进行的数据预处理过程包括将目标帐号所浏览的广告类别通过稀疏向量表示,并进行特征表格的排列以及对应的向量化表达。
步骤1003,进行点击序列提取。
可选地,该过程即为对点击序列特征进行提取的过程。在对点击序列特征进行提取的过程中,使用Skip-Gram模型对点击行为序列进行特征提取,并将输出层的内容作为最终的点击序列特征。该点击序列特征为其他广告相对于目标广告的出现概率的特征表示。
步骤1004,对点击序列进行词向量训练。
可选地,将点击序列中的文字内容进行One-Hot编码,并通过词向量训练模型进行对应训练,得到词向量。
步骤1005,对训练后的点击序列进行嵌入特征提取。
可选地,将作为输入量的点击序列通过嵌入特征模型,输出得到点击序列特征,该点击特征序列中包括步骤1003中的其他广告相对于目标广告的出现概率的特征表示,也包括了目标广告相对于其他广告的出现概率的特征表示。
步骤1006,对点击序列进行统计周期划分。
可选地,该过程即为根据时间周期对类别统计数据进行排列,得到周期类别序列的过程。该过程中的周期类别序列是根据时间周期进行划分的。时间周期为以当前时刻为基准时刻进行设置的。
步骤1007,对点击序列进行统计特征提取。
可选地,步骤1006至步骤1007为通过以目标时刻为基准时刻设置时间周期,并对时间周期进行划分与类别统计数据的确定,进而根据确定得到的周期类别序列进行特征提取的过程。对点击序列进行的统计特征提取包括对周期类别序列进行的特征提取以及对目标广告的点击序列进行统计特征的特征提取。
可选地,最终得到的特征即为目标广告对应的行为特征。
步骤1008,获取商品属性。
可选地,商品属性即对应目标内容的内容数据。商品属性为目标广告所指示的属性。商品属性中包括数值属性和非数值属性。示意性地,商品的保质时间和价格为数值属性,商品的名称和商品所述类别为非数值属性。
步骤1009,获取用户属性数据。
可选地,用户属性数据即为目标帐号的帐号信息数据。在一个实例中,目标帐号的帐号信息数据包括目标帐号的年龄数据,目标帐号的地域数据以及目标帐号的性别数据。
步骤1010,对用户属性数据进行数据预处理。
可选地,该过程即为对于数值数据和非数值数据的分类表示过程。通过稀疏向量的形式对非数值数据进行表示,并直接将数值数据进行数值表示。
步骤1011,特征融合。
可选地,该步骤即为将帐号特征、行为特征和内容特征进行特征拼接,得到融合特征的过程。可选地,在特征拼接后,根据特征融合分类器对融合特征进行升维或降维处理,得到融合特征。
步骤1012,将融合特征输入SVM分类器。
点击率预测模型包括m个分类器,m≥2,在本申请实施例中,m=3,可选地,m个分类器中存在至少两个不同种类的分类器,和/或,m个分类器中存在至少两个种类且不同参数的分类器。在本实施例中,3个分类器分别为SVM分类器、XGBoost分类器以及逻辑回归分类器。可选地,输入进分类器的输入量为未知实际点击率的融合特征,或,输入进分类器的输入量为已知对应的广告样本的实际点击率的融合特征。
SVM分类器是定义在特征空间上间隔最大的线性分类器,其学习策略即为间隔最大化,可通过解决正则化的合页损失函数的最小化问题,对分类器中的参数进行确定。
步骤1013,将融合特征输入XGBoost分类器。
XGBoost分类器为通过多个基分类器的结果进行融合,并考虑每个子模型的复杂度,将模型复杂度和分类结果同时进行优化的分类器。
步骤1014,将融合特征输入逻辑回归分类器。
逻辑回归分类器是在线性回归基础上,套用逻辑函数得到的分类器。
可选地,本申请实施例中包括的3个不同种类的分类器将输出得到三个预测子分数,该三个预测子分数为三个不同分类器送三个不同维度进行预测得到的点击率预测值。在得到三个预测子分数后,通过对三个子分数处理的方法,得到点击率预测模型对目标广告被目标帐号点击的概率。
步骤1015,将预测子概率进行加权求和。
可选地,该过程即为对预测子概率对应训练得到的权值进行加权求和的过程。可选地,当目标广告标注有参考概率时,在分类器输出预测子概率后,还可以根据参考概率和预测子概率之间的第一差异度,对分类器的参数进行调整。
步骤1016,得到点击率预测值。
可选地,该过程即为最终获取目标帐号对目标内容进行点击的预测概率的过程。可选地,服务器内设置有点击率阈值。在获取点击率预测值之后,根据预测概率与概率阈值之间的关系,确定是否向目标帐号推荐目标内容。在一个示例中,设置多个预测概率,多个预测概率用于分批次向目标帐号进行内容推荐。
图11示出了本申请一个示例性实施例提供的内容推荐装置的结构框图,如图11所示,该装置包括:
获取模块1101,用于获取目标帐号的帐号数据,帐号数据中包括目标帐号的帐号信息数据和目标帐号的历史行为数据;
提取模块1102,用于对帐号信息数据进行特征提取,得到帐号特征,并对历史行为数据进行特征提取,得到行为特征;
提取模块1102,还用于对目标内容的内容数据进行特征提取,得到内容特征,目标内容为待预测点击率的内容;
预测模块1103,用于通过点击率预测模型对帐号特征、行为特征和内容特征融合得到的融合特征进行预测,得到目标帐号对目标内容进行点击的预测概率;
推荐模块1104,用于在预测概率达到概率阈值的情况下,向目标帐号推荐目标内容。
在一个可选的实施例中,如图12所示,点击率预测模型中包括了m个分类器,m≥2;
m个分类器中存在至少两个不同种类的分类器,和/或,m个分类器中存在至少两个相同种类且不同参数的分类器;
该装置,还包括融合模块1105,用于对帐号特征、行为特征和内容特征进行融合,得到融合特征;
输入模块1106,用于将融合特征分别输入m个分类器,输出得到m个预测子概率,其中,每个分类器输出得到一个预测子概率;
求和模块1107,用于将m个预测子概率进行加权求和,得到目标帐号对目标内容进行点击的预测概率。
在一个可选的实施例中,输入模块1106,用于将帐号特征、行为特征和内容特征进行特征拼接,得到融合特征;
或,
将帐号特征、行为特征和内容特征输入第一特征融合分类器进行升维处理,得到融合特征;
或,
将帐号特征、行为特征和内容特征输入第二特征融合分类器进行降维处理,得到融合特征。
在一个可选的实施例中,历史行为数据中包括目标帐号对历史内容进行点击的点击行为数据,点击行为数据对应有点击时刻,行为特征中包括点击序列特征;
获取模块1101,用于获取历史内容对应的历史内容标识,历史内容标识用于唯一指示历史内容;
该装置,还包括排列模块1108,用于根据点击时刻对历史内容标识进行排列,得到点击行为序列;
提取模块1102,用于对点击行为序列进行特征提取,得到点击序列特征。
在一个可选的实施例中,述历史内容对应有n个内容类别,行为特征中还包括周期类别特征;
该装置,还包括设置模块1109,用于以目标时刻为基准时刻设置时间周期;
获取模块1101,用于获取目标时间周期内,目标帐号对第i个内容类别进行点击的点击行为数据,i≤n;
该装置,还包括确定模块1110,用于确定点击行为数据的点击次数为目标时间周期的类别统计数据;
排列模块1108,用于根据时间周期对类别统计数据进行排列,得到周期类别序列;
提取模块1102,用于对周期类别序列进行特征提取,得到周期类别特征。
在一个可选的实施例中,目标内容标注有参考概率,参考概率指示目标帐号对目标内容进行点击的实际概率;
该装置,还包括调整模块1111,用于根据参考概率与预测子概率的第一差异度,对分类器的参数进行调整。
在一个可选的实施例中,
确定模块1110,用于在分类器的参数满足调整要求的情况下,确定参考概率与预测概率之间的第二差异度;
调整模块1111,用于根据第二差异度对m个分类器中每个分类器对应的权值进行调整。
综上所述,本实施例提供的装置,通过对指示目标帐号属性的帐号信息数据、指示内容属性的内容数据,以及指示目标帐号和内容交互过程的历史行为数据进行特征的提取与融合,并通过点击率预测模型进行基于目标帐号对内容的预测点击率的内容推荐。不仅以目标帐号曾经浏览过的内容为点击率预测的主要依据,而且根据交互特征全面地对点击率进行预估,从而提高了内容推荐的准确率。
需要说明的是:上述实施例提供的内容推荐装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的内容推荐装置与内容推荐方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图13示出了本申请一个示例性实施例提供的服务器的结构示意图。具体来讲:
服务器1300包括中央处理单元(Central Processing Unit ,CPU)1301、包括随机存取存储器(Random Access Memory,RAM)1302和只读存储器(Read Only Memory,ROM)1303的系统存储器1304,以及连接系统存储器1304和中央处理单元1301的系统总线1305。服务器1300还包括用于存储操作系统1313、应用程序1314和其他程序模块1315的大容量存储设备1306。
大容量存储设备1306通过连接到系统总线1305的大容量存储控制器(未示出)连接到中央处理单元1301。大容量存储设备1306及其相关联的计算机可读介质为服务器1300提供非易失性存储。也就是说,大容量存储设备1306可以包括诸如硬盘或者紧凑型光盘只读存储器(Compact Disc Read Only Memory ,CD-ROM)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory ,EPROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable Read Only Memory,EEPROM)、闪存或其他固态存储其技术,CD-ROM、数字通用光盘(Digital Versatile Disc ,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1304和大容量存储设备1306可以统称为存储器。
根据本申请的各种实施例,服务器1300还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1300可以通过连接在系统总线1305上的网络接口单元1311连接到网络1313,或者说,也可以使用网络接口单元1311来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。
本申请的实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的内容推荐方法。可选地,该计算机设备可以是终端,也可以是服务器。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行,以实现上述各方法实施例提供的内容推荐方法。
本申请的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的内容推荐方法。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM, Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种内容推荐方法,其特征在于,所述方法包括:
获取目标帐号的帐号数据,所述帐号数据中包括所述目标帐号的帐号信息数据和所述目标帐号的历史行为数据,所述历史行为数据中包括所述目标帐号对历史内容进行点击的点击行为数据,所述点击行为数据对应有点击时刻;
以数字化形式表现所述帐号信息数据和所述历史行为数据;
对以数字化形式表现的所述帐号信息数据和所述历史行为数据进行归一化处理及排列组合,得到帐号特征与行为特征,其中,所述行为特征包括点击序列特征,所述点击序列特征是对点击行为序列进行提取得到的,所述点击行为序列是根据所述点击时刻对历史内容标识进行排列得到的,所述历史内容标识用于唯一指示所述历史内容;
对目标内容进行特征提取,得到内容特征,所述内容特征包括数值型数据对应的特征和非数值型数据对应的特征,其中,所述数值型数据对应的特征是将所述目标内容中的数值型数据直接提取得到的,所述非数值型数据对应的特征是将所述目标内容中的非数值型数据通过独热One-Hot编码的方式进行特征提取得到的,所述目标内容为待预测点击率的内容;
对所述帐号特征、所述行为特征和所述内容特征进行融合,得到融合特征;
将所述融合特征分别输入点击率预测模型中的m个分类器,得到m个预测子概率,m≥2,m个所述分类器中存在至少两个不同种类的所述分类器,和/或,m个所述分类器中存在至少两个相同种类且不同参数的所述分类器,其中,每个所述分类器输出得到一个预测子概率;
对m个所述预测子概率进行加权求和,得到所述目标帐号对所述目标内容进行点击的预测概率;
在所述预测概率达到概率阈值的情况下,向所述目标帐号推荐所述目标内容。
2.根据权利要求1所述的方法,其特征在于,所述对所述帐号特征、所述行为特征和所述内容特征进行融合,得到融合特征,包括:
将所述帐号特征、所述行为特征和所述内容特征进行特征拼接,得到所述融合特征;
或,
将所述帐号特征、所述行为特征和所述内容特征输入第一特征融合分类器进行升维处理,得到所述融合特征;
或,
将所述帐号特征、所述行为特征和所述内容特征输入第二特征融合分类器进行降维处理,得到所述融合特征。
3.根据权利要求1或2所述的方法,其特征在于,所述历史内容对应有n个内容类别,所述行为特征中还包括周期类别特征;
所述对以数字化形式表现的所述帐号信息数据和所述历史行为数据进行归一化处理及排列组合,得到帐号特征与行为特征,包括:
以目标时刻为基准时刻设置时间周期;
获取目标时间周期内,所述目标帐号对第i个所述内容类别进行点击的所述点击行为数据,i≤n;
确定所述点击行为数据的点击次数为所述目标时间周期的类别统计数据;
根据所述时间周期对所述类别统计数据进行排列,得到周期类别序列;
对所述周期类别序列进行特征提取,得到所述周期类别特征。
4.根据权利要求1所述的方法,其特征在于,所述目标内容标注有参考概率,所述参考概率指示所述目标帐号对所述目标内容进行点击的实际概率;
所述将所述融合特征分别输入点击率预测模型中的m个分类器,得到m个预测子概率之后,还包括:
根据所述参考概率与所述预测子概率的第一差异度,对所述分类器的参数进行调整。
5.根据权利要求4所述的方法,其特征在于,所述根据所述参考概率与所述预测子概率的第一差异度,对所述分类器的参数进行调整之后,还包括:
在所述分类器的参数满足调整要求的情况下,确定所述参考概率与所述预测概率之间的第二差异度;
根据所述第二差异度对m个所述分类器中每个所述分类器对应的权值进行调整。
6.一种内容推荐装置,其特征在于,所述装置包括:
获取模块,用于获取目标帐号的帐号数据,所述帐号数据中包括所述目标帐号的帐号信息数据和所述目标帐号的历史行为数据,所述历史行为数据中包括所述目标帐号对历史内容进行点击的点击行为数据,所述点击行为数据对应有点击时刻;以数字化形式表现所述帐号信息数据和所述历史行为数据;对以数字化形式表现的所述帐号信息数据和所述历史行为数据进行归一化处理及排列组合,得到帐号特征与行为特征,其中,所述行为特征包括点击序列特征,所述点击序列特征是对点击行为序列进行提取得到的,所述点击行为序列是根据所述点击时刻对历史内容标识进行排列得到的,所述历史内容标识用于唯一指示所述历史内容;对目标内容进行特征提取,得到内容特征,所述内容特征包括数值型数据对应的特征和非数值型数据对应的特征,其中,所述数值型数据对应的特征是将所述目标内容中的数值型数据直接提取得到的,所述非数值型数据对应的特征是将所述目标内容中的非数值型数据通过独热One-Hot编码的方式进行特征提取得到的,所述目标内容为待预测点击率的内容;
预测模块,用于对所述帐号特征、所述行为特征和所述内容特征进行融合,得到融合特征;将所述融合特征分别输入点击率预测模型中的m个分类器,得到m个预测子概率,m≥2,m个所述分类器中存在至少两个不同种类的所述分类器,和/或,m个所述分类器中存在至少两个相同种类且不同参数的所述分类器,其中,每个所述分类器输出得到一个预测子概率;对m个所述预测子概率进行加权求和,得到所述目标帐号对所述目标内容进行点击的预测概率;
推荐模块,用于在所述预测概率达到概率阈值的情况下,向所述目标帐号推荐所述目标内容。
7.根据权利要求6所述的装置,其特征在于,
所述装置,还包括输入模块,用于将所述帐号特征、所述行为特征和所述内容特征进行特征拼接,得到所述融合特征;
或,
将所述帐号特征、所述行为特征和所述内容特征输入第一特征融合分类器进行升维处理,得到所述融合特征;
或,
将所述帐号特征、所述行为特征和所述内容特征输入第二特征融合分类器进行降维处理,得到所述融合特征。
8.根据权利要求6或7所述的装置,其特征在于,所述历史内容对应有n个内容类别,所述行为特征中还包括周期类别特征;
所述装置,还包括设置模块,用于以目标时刻为基准时刻设置时间周期;
所述获取模块,用于获取目标时间周期内,所述目标帐号对第i个所述内容类别进行点击的所述点击行为数据,i≤n;
所述装置,还包括确定模块,用于确定所述点击行为数据的点击次数为所述目标时间周期的类别统计数据;
所述装置,还包括排列模块,用于根据所述时间周期对所述类别统计数据进行排列,得到周期类别序列;
所述装置,还包括提取模块,用于对所述周期类别序列进行特征提取,得到所述周期类别特征。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如权利要求1至5任一所述的内容推荐方法。
10.一种计算机可读存储介质,其特征在于,所述可读存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至5任一所述的内容推荐方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010645853.6A CN111538912B (zh) | 2020-07-07 | 2020-07-07 | 内容推荐方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010645853.6A CN111538912B (zh) | 2020-07-07 | 2020-07-07 | 内容推荐方法、装置、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111538912A CN111538912A (zh) | 2020-08-14 |
CN111538912B true CN111538912B (zh) | 2020-12-25 |
Family
ID=71978353
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010645853.6A Active CN111538912B (zh) | 2020-07-07 | 2020-07-07 | 内容推荐方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111538912B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111966921A (zh) * | 2020-08-18 | 2020-11-20 | 中国银行股份有限公司 | 一种基于用户场景的社群识别方法及系统 |
CN111966914B (zh) * | 2020-10-26 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 基于人工智能的内容推荐方法、装置和计算机设备 |
CN112381291A (zh) * | 2020-11-13 | 2021-02-19 | 北京乐学帮网络技术有限公司 | 行为预测、信息推送方法及装置、电子设备及存储介质 |
CN112348587B (zh) * | 2020-11-16 | 2024-04-23 | 脸萌有限公司 | 信息推送方法、装置和电子设备 |
CN112417285A (zh) * | 2020-11-24 | 2021-02-26 | 平安普惠企业管理有限公司 | 基于人工智能的业务推荐方法、装置及计算机设备 |
CN112288554B (zh) * | 2020-11-27 | 2023-09-29 | 腾讯科技(深圳)有限公司 | 商品推荐方法和装置、存储介质及电子装置 |
CN112765450A (zh) * | 2020-12-24 | 2021-05-07 | 神策网络科技(北京)有限公司 | 推荐内容确定方法、装置及存储介质 |
CN112818218B (zh) * | 2021-01-21 | 2023-06-27 | 中国平安人寿保险股份有限公司 | 信息推荐方法、装置、终端设备及计算机可读存储介质 |
CN112733034B (zh) * | 2021-01-21 | 2023-08-01 | 腾讯科技(深圳)有限公司 | 内容推荐方法、装置、设备及存储介质 |
CN113781149A (zh) * | 2021-01-22 | 2021-12-10 | 北京沃东天骏信息技术有限公司 | 信息推荐方法、装置、计算机可读存储介质及电子设备 |
CN112925976B (zh) * | 2021-01-29 | 2023-11-21 | 北京达佳互联信息技术有限公司 | 名额数据分配方法、装置、服务器以及存储介质 |
CN112905839A (zh) * | 2021-02-10 | 2021-06-04 | 北京有竹居网络技术有限公司 | 模型训练方法、模型使用方法、装置、存储介质及设备 |
CN113157951A (zh) * | 2021-03-26 | 2021-07-23 | 北京达佳互联信息技术有限公司 | 一种多媒体资源的处理方法、装置、服务器及存储介质 |
CN113065896A (zh) * | 2021-03-29 | 2021-07-02 | 上海酷量信息技术有限公司 | 一种广告推荐方法及装置 |
CN112801425B (zh) * | 2021-03-31 | 2021-07-02 | 腾讯科技(深圳)有限公司 | 信息点击率的确定方法、装置、计算机设备和存储介质 |
CN112800234B (zh) * | 2021-04-15 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置、电子设备和存储介质 |
CN113205188A (zh) * | 2021-05-07 | 2021-08-03 | 上海明略人工智能(集团)有限公司 | 一种目标帐号的确定方法、装置、存储介质和电子装置 |
CN113076414A (zh) * | 2021-06-07 | 2021-07-06 | 北京明略软件系统有限公司 | 会话推荐方法、装置、计算机设备和存储介质 |
CN113435523B (zh) * | 2021-06-29 | 2023-09-26 | 北京百度网讯科技有限公司 | 预测内容点击率的方法、装置、电子设备以及存储介质 |
CN113742599B (zh) * | 2021-11-05 | 2022-03-18 | 太平金融科技服务(上海)有限公司深圳分公司 | 内容推荐方法、装置、设备及计算机可读存储介质 |
CN113886713A (zh) * | 2021-12-09 | 2022-01-04 | 北京达佳互联信息技术有限公司 | 数据处理方法、装置、服务器及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294794A (zh) * | 2016-08-15 | 2017-01-04 | 乐视控股(北京)有限公司 | 一种内容推荐方法及装置 |
CN110728541A (zh) * | 2019-10-11 | 2020-01-24 | 广州市丰申网络科技有限公司 | 信息流媒体广告创意推荐方法及装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106130756B (zh) * | 2016-06-15 | 2019-06-14 | 晶赞广告(上海)有限公司 | 一种预测访问内容点击率的方法及装置 |
US10825072B2 (en) * | 2016-09-14 | 2020-11-03 | Microsoft Technology Licensing, Llc | System for producing recommendations and predicting purchases of products based on usage patterns |
CN109800325B (zh) * | 2018-12-26 | 2021-10-26 | 北京达佳互联信息技术有限公司 | 视频推荐方法、装置和计算机可读存储介质 |
CN110245293B (zh) * | 2019-05-28 | 2023-07-11 | 深圳市雅阅科技有限公司 | 一种网络内容召回方法和装置 |
CN110704674B (zh) * | 2019-09-05 | 2022-11-25 | 苏宁云计算有限公司 | 一种视频播放完整度预测方法及装置 |
CN110909182B (zh) * | 2019-11-29 | 2023-05-09 | 北京达佳互联信息技术有限公司 | 多媒体资源搜索方法、装置、计算机设备及存储介质 |
CN111046294A (zh) * | 2019-12-27 | 2020-04-21 | 支付宝(杭州)信息技术有限公司 | 点击率预测方法、推荐方法、模型、装置及设备 |
CN111241392B (zh) * | 2020-01-07 | 2024-01-26 | 腾讯科技(深圳)有限公司 | 确定文章的流行度的方法、装置、设备和可读存储介质 |
CN111368075A (zh) * | 2020-02-27 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 文章质量预测方法、装置、电子设备及存储介质 |
-
2020
- 2020-07-07 CN CN202010645853.6A patent/CN111538912B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294794A (zh) * | 2016-08-15 | 2017-01-04 | 乐视控股(北京)有限公司 | 一种内容推荐方法及装置 |
CN110728541A (zh) * | 2019-10-11 | 2020-01-24 | 广州市丰申网络科技有限公司 | 信息流媒体广告创意推荐方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111538912A (zh) | 2020-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111538912B (zh) | 内容推荐方法、装置、设备及可读存储介质 | |
US11893071B2 (en) | Content recommendation method and apparatus, electronic device, and storage medium | |
WO2021159776A1 (zh) | 基于人工智能的推荐方法、装置、电子设备及存储介质 | |
CN110941740B (zh) | 视频推荐方法及计算机可读存储介质 | |
US20210271975A1 (en) | User tag generation method and apparatus, storage medium, and computer device | |
CN110717098B (zh) | 基于元路径的上下文感知用户建模方法、序列推荐方法 | |
CN111444428A (zh) | 基于人工智能的信息推荐方法、装置、电子设备及存储介质 | |
CN111966914B (zh) | 基于人工智能的内容推荐方法、装置和计算机设备 | |
CN111898031B (zh) | 一种获得用户画像的方法及装置 | |
US20190179915A1 (en) | Method and apparatus for recommending item using metadata | |
CN110941764A (zh) | 对象推荐方法、装置、计算机设备和存储介质 | |
CN111209386A (zh) | 一种基于深度学习的个性化文本推荐方法 | |
CN112508609A (zh) | 人群扩量的预测方法、装置、设备及存储介质 | |
CN111831924A (zh) | 内容推荐方法、装置、设备及可读存储介质 | |
CN113515690A (zh) | 内容召回模型的训练方法、内容召回方法、装置及设备 | |
CN113536105A (zh) | 推荐模型训练方法和装置 | |
CN112749330A (zh) | 信息推送方法、装置、计算机设备和存储介质 | |
CN115438787A (zh) | 行为预测系统的训练方法及装置 | |
US20230316106A1 (en) | Method and apparatus for training content recommendation model, device, and storage medium | |
CN114817692A (zh) | 确定推荐对象的方法、装置和设备及计算机存储介质 | |
CN114330519A (zh) | 数据确定方法、装置、电子设备及存储介质 | |
CN115329183A (zh) | 数据处理方法、装置、存储介质及设备 | |
CN111860870A (zh) | 交互行为确定模型的训练方法、装置、设备及介质 | |
CN113538030B (zh) | 一种内容推送方法、装置及计算机存储介质 | |
CN115470397B (zh) | 内容推荐方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40028882 Country of ref document: HK |