CN106294500A - 内容项目的推送方法、装置及系统 - Google Patents
内容项目的推送方法、装置及系统 Download PDFInfo
- Publication number
- CN106294500A CN106294500A CN201510312944.7A CN201510312944A CN106294500A CN 106294500 A CN106294500 A CN 106294500A CN 201510312944 A CN201510312944 A CN 201510312944A CN 106294500 A CN106294500 A CN 106294500A
- Authority
- CN
- China
- Prior art keywords
- ugc
- target user
- target
- push type
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 230000000694 effects Effects 0.000 claims abstract description 73
- 230000000875 corresponding effect Effects 0.000 claims description 83
- 230000011218 segmentation Effects 0.000 claims description 36
- 238000012545 processing Methods 0.000 claims description 34
- 238000013507 mapping Methods 0.000 claims description 31
- 238000012549 training Methods 0.000 claims description 23
- 238000004891 communication Methods 0.000 claims description 18
- 230000002596 correlated effect Effects 0.000 claims description 14
- 230000009471 action Effects 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 13
- 238000005516 engineering process Methods 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 24
- 238000003860 storage Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 14
- 238000012360 testing method Methods 0.000 description 12
- 239000013598 vector Substances 0.000 description 11
- 230000006870 function Effects 0.000 description 7
- 238000009826 distribution Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 240000008067 Cucumis sativus Species 0.000 description 1
- 235000010799 Cucumis sativus var sativus Nutrition 0.000 description 1
- 241000287828 Gallus gallus Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000001994 activation Methods 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 235000014347 soups Nutrition 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 239000004753 textile Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 235000013311 vegetables Nutrition 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种内容项目的推送方法、装置及系统,属于互联网技术。所述方法包括:确定社交平台中与目标用户相关的UGC属于的目标推送类型;确定目标用户与UGC的关联度;确定目标用户对于UGC的活跃度;根据目标用户与UGC的关联度、目标用户对于UGC的活跃度确定目标用户对目标推送类型的兴趣度;根据目标用户对目标推送类型的兴趣度向目标用户的终端推送与目标推送类型对应的内容项目,兴趣度与内容项目的推送优先级正相关。本发明解决了向用户推送推送类型对应的内容项目的针对性较差,可靠性较低的问题,实现了改善向用户推送推送类型对应的内容项目的针对性,提高可靠性的效果,用于向用户推送内容项目。
Description
技术领域
本发明涉及互联网技术领域,特别涉及一种内容项目的推送方法、装置及系统。
背景技术
随着互联网普及率的进一步提高和各种网络应用的快速发展,社交网络已经成为人们生活中必不可少的一部分。随着使用社交网络的用户越来越多,社交平台可以向用户推送更多的内容项目,如微信广告平台可以通过公众号向微信用户推送广告,从而吸引更多的客户资源。
相关技术中,社交平台主要是对用户原创内容(英文:User GeneratedContent;简称:UGC)对应的标签(tag)进行采集,然后计算采集到的标签与预设的至少两个推送类型(通常以列表形式显示该至少两个推送类型)的相似度,将标签与该至少两个推送类型的相似度按照由高到低的顺序对推送类型进行排名,排名顺序与用户的兴趣度正相关,然后按照推送类型的排名顺序向用户推送属于该推送类型的内容项目,推送内容项目时,通常推送属于排名较前的推送类型的内容项目。其中,标签是一种用于指示用户兴趣点的标识,用户可以对其浏览的网页、日志、视频等分配自己喜欢的标签,该标签可以为“旅游”、“宠物”等等。推送类型用于指示内容项目所属的类型,如关于旅游的内容项目的推送类型为旅游。
由于上述方法是通过计算标签与推送类型之间的相似度对推送类型进行排名,以确定用户感兴趣的推送类型,确定用户感兴趣的推送类型时考虑的因素较为单一,因此,向用户推送推送类型对应的内容项目的针对性较差,可靠性较低。
发明内容
为了解决向用户推送推送类型对应的内容项目的针对性较差,可靠性较低的问题,本发明实施例提供了一种内容项目的推送方法、装置及系统。所述技术方案如下:
根据本发明的第一方面,提供了一种内容项目的推送方法,所述方法包括:
确定社交平台中与目标用户相关的用户原创内容UGC属于的目标推送类型;
确定所述目标用户与所述UGC的关联度;
确定所述目标用户对于所述UGC的活跃度,所述活跃度用于表示活跃程度;
根据所述目标用户与所述UGC的关联度、所述目标用户对于所述UGC的活跃度确定所述目标用户对所述目标推送类型的兴趣度,所述兴趣度用于表示感兴趣的程度;
根据所述目标用户对所述目标推送类型的兴趣度向所述目标用户的终端推送与所述目标推送类型对应的内容项目,所述兴趣度与内容项目的推送优先级正相关。
根据本发明的第二方面,提供了一种内容项目的推送装置,所述装置包括:
类型确定模块,用于确定社交平台中与目标用户相关的用户原创内容UGC属于的目标推送类型;
关联度确定模块,用于确定所述目标用户与所述UGC的关联度;
活跃度确定模块,用于确定所述目标用户对于所述UGC的活跃度,所述活跃度用于表示活跃程度;
兴趣度确定模块,用于根据所述目标用户与所述UGC的关联度、所述目标用户对于所述UGC的活跃度确定所述目标用户对所述目标推送类型的兴趣度,所述兴趣度用于表示感兴趣的程度;
推送模块,用于根据所述目标用户对所述目标推送类型的兴趣度向所述目标用户的终端推送与所述目标推送类型对应的内容项目,所述兴趣度与内容项目的推送优先级正相关。
根据本发明的第三方面,提供了一种内容项目的推送系统,所述系统包括:
第二方面任一所述的内容项目的推送装置。
本发明提供的技术方案带来的有益效果是:
本发明提供的一种内容项目的推送方法、装置及系统,能够先确定与目标用户相关的UGC属于的目标推送类型,再根据目标用户与UGC的关联度、目标用户对于UGC的活跃度确定目标用户对目标推送类型的兴趣度,从而根据兴趣度向目标用户的终端推送与目标推送类型对应的内容项目,相较于相关技术,确定用户感兴趣的推送类型的过程更细致,改善了向用户推送推送类型对应的内容项目的针对性,提高了推送的可靠性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种内容项目的推送系统的环境示意图;
图2是本发明实施例提供的一种内容项目的推送方法的流程图;
图3-1是本发明实施例提供的另一种内容项目的推送方法的流程图;
图3-2是本发明实施例提供的确定UGC属于的目标推送类型方法的流程图;
图3-3是本发明实施例提供的一种根据描述信息确定UGC属于的目标推送类型方法的流程图;
图3-4是本发明实施例提供的另一种根据描述信息确定UGC属于的目标推送类型方法的流程图;
图3-5是本发明实施例提供的一种确定UGC属于的目标推送类型的训练阶段和测试阶段的示意图;
图3-6是本发明实施例提供的一种确定目标用户与UGC的关联度的示意图;
图3-7是本发明实施例提供的一种确定目标用户与UGC的关联度方法的流程图;
图3-8是本发明实施例提供的一种确定目标用户对于UGC的活跃度方法的流程图;
图3-9是本发明实施例提供的一种向目标用户的终端推送内容项目方法的流程图;
图3-10是本发明实施例提供的一种向目标用户的终端推送内容项目方法的界面示意图;
图3-11是本发明实施例提供的另一种向目标用户的终端推送内容项目方法的界面示意图;
图3-12是本发明实施例提供的一种使用内容项目的推送方法的效果图;
图3-13是本发明实施例提供的另一种使用内容项目的推送方法的效果图;
图4-1是本发明实施例提供的一种内容项目的推送装置的结构示意图;
图4-2是本发明实施例提供的一种类型确定模块的结构示意图;
图4-3是本发明实施例提供的另一种内容项目的推送装置的结构示意图;
图5是本发明实施例提供的一种服务器的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
请参考图1,其示出了本发明实施例提供的内容项目的推送方法所涉及的一种内容项目的推送系统的环境示意图。该实施环境包括内容项目服务器01、至少一个用户终端02和数据库03。
内容项目服务器01可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。
用户终端02可以是具有网络连接功能的装置,如平板电脑、智能手机、台式计算机等等。
数据库03可以是存储有UGC的推送类型数据的装置。
内容项目服务器01、用户终端02和数据库03之间可以建立无线连接或有线连接。
内容项目服务器01可以在数据库03中确定关于UGC的推送类型之后,确定社交平台中与目标用户相关的UGC属于的目标推送类型、目标用户对目标推送类型的兴趣度,且该兴趣度综合考虑了目标用户对于UGC的活跃度和关联度;然后,内容项目服务器01根据目标用户对目标推送类型的兴趣度,向目标用户的终端02推送与目标推送类型对应的内容项目,针对性地向目标用户推送内容项目。
请参考图2,其示出了本发明实施例提供的一种内容项目的推送方法的流程图。本发明实施例以该方法应用于图1所示的实施环境中的内容项目服务器01来举例说明。该内容项目的推送方法,包括:
步骤201、确定社交平台中与目标用户相关的UGC属于的目标推送类型。
步骤202、确定目标用户与UGC的关联度。
步骤203、确定目标用户对于UGC的活跃度,该活跃度用于表示活跃程度。
步骤204、根据目标用户与UGC的关联度、目标用户对于UGC的活跃度确定目标用户对目标推送类型的兴趣度,该兴趣度用于表示感兴趣的程度。
步骤205、根据目标用户对目标推送类型的兴趣度向目标用户的终端推送与目标推送类型对应的内容项目,该兴趣度与内容项目的推送优先级正相关。
综上所述,本发明实施例提供的内容项目的推送方法,能够先确定与目标用户相关的UGC属于的目标推送类型,再根据目标用户与UGC的关联度、目标用户对于UGC的活跃度确定目标用户对目标推送类型的兴趣度,从而根据兴趣度向目标用户的终端推送与目标推送类型对应的内容项目,相较于相关技术,确定用户感兴趣的推送类型时考虑的因素更多,改善了向用户推送推送类型对应的内容项目的针对性,提高了推送的可靠性。
可选的,步骤202包括:获取预设的至少两个推送类型,至少两个推送类型包括目标推送类型;在属于至少两个推送类型的UGC相关的用户总数中,确定与属于目标推送类型的UGC相关的用户总数x、最大用户总数y和最小用户总数z;根据关系确定公式,确定目标用户与UGC的关联度M,该关系确定公式为:
可选的,步骤203包括:获取目标用户对于UGC在预设时间段t内的活跃次数p;获取目标用户对UGC的遗忘程度q;获取属于目标推送类型的UGC中与目标用户相关的UGC的个数w;根据活跃度确定公式,确定目标用户对于UGC的活跃度f,该活跃度确定公式为:
f=a*p*q+w/c;
其中,cur表示目标用户最近一次触发与UGC关联动作的时间点,ds表示目标用户上一次触发与UGC关联动作的时间点,a、b和c均为常量。
可选的,步骤201包括:获取社交平台中与目标用户相关的UGC的描述信息,该描述信息用于描述UGC的属性;根据描述信息确定UGC属于的目标推送类型。
其中,根据描述信息确定UGC属于的目标推送类型可以包括:将描述信息分别与预设的至少两个推送类型对应的下位词进行语义匹配,每个推送类型包括至少一个类型标识,每个推送类型对应的下位词是将推送类型的类型标识作为关键词在数据库中搜索得到的;将与描述信息相匹配的下位词所属的推送类型作为目标推送类型。
根据描述信息确定UGC属于的目标推送类型也可以包括:
对UGC的描述信息进行分词处理得到至少一个分词词汇;
获取映射关系表,该映射关系表用于记录预设的n个UGC的描述信息经过分词处理和词聚类处理后得到的h个聚类的标识、每个聚类中的词汇及每个词汇在聚类中的概率及每个词汇对应的推送类型,h为大于1的整数;
查询映射关系表,得到至少一个分词词汇中每个分词词汇所属聚类,及每个分词词汇在每个分词词汇所属聚类中的概率;
确定至少一个分词词汇中实际概率最大的分词词汇,其中,
第一分词词汇的实际概率g为:
第一分词词汇为至少一个分词词汇中的任意一个,s表示第一分词词汇在第一分词词汇所属聚类中的概率,d1表示h个聚类中包含第一分词词汇的聚类的个数;
查询映射关系表,得到实际概率最大的分词词汇对应的推送类型;
将实际概率最大的分词词汇对应的推送类型作为UGC属于的目标推送类型。
可选的,在获取映射关系表之前,该方法还包括:获取训练集,该训练集包括n个UGC的描述信息,n为大于0的整数;对n个UGC的描述信息进行分词处理得到m个词汇,m大于或等于所述n;对m个词汇进行词聚类处理得到h个聚类,每个聚类包括:至少两个词汇;根据h个聚类建立映射关系表。
可选的,步骤205包括:若社交平台中与目标用户相关的UGC有至少两种,获取目标用户对每种与目标用户相关的UGC属于的目标推送类型的兴趣度,得到至少两种兴趣度;对至少两种兴趣度进行归一化处理,得到至少两种兴趣度对应的归一化值;根据至少两种兴趣度对应的归一化值之和向目标用户的终端推送目标推送类型对应的内容项目,该至少两种兴趣度对应的归一化值之和与内容项目的推送优先级正相关。
可选的,UGC包括通讯群数据、公众号数据、电商数据、文章数据、论坛数据和微博数据中的至少一种。
可选的,内容项目为广告。
综上所述,本发明实施例提供的内容项目的推送方法,能够先确定与目标用户相关的UGC属于的目标推送类型,再根据目标用户与UGC的关联度、目标用户对于UGC的活跃度确定目标用户对目标推送类型的兴趣度,从而根据兴趣度向目标用户的终端推送与目标推送类型对应的内容项目,相较于相关技术,确定用户感兴趣的推送类型时考虑的因素更多,改善了向用户推送推送类型对应的内容项目的针对性,提高了推送的可靠性。
请参考图3-1,其示出了本发明实施例提供的另一种内容项目的推送方法的流程图。本发明实施例以该方法应用于图1所示的实施环境中的内容项目服务器01来举例说明。该内容项目的推送方法,包括:
步骤301、确定社交平台中与目标用户相关的UGC属于的目标推送类型。
UGC主要是指在社交网络上的用户产生的信息,这类信息所承载的媒体并不完全相同,主要包括了文本媒体、音频媒体、图像媒体及视频媒体等。UGC不是一种具体的业务,而是一种用户使用互联网的新方式,由原来的以下载为主变成下载和上传并重。UGC包括通讯群数据、公众号数据、电商数据、文章数据、论坛数据和微博数据中的至少一种。
其中,通讯群是一种多人通讯交流的公众平台,如用于多人聊天交流的QQ群,那么QQ群数据可以为QQ群名称数据和群空间数据等,而群空间数据可以为相册数据,共享文件数据、群视频数据等。公众号是开发者或商家在微信公众平台上申请的应用帐号,通过公众号,商家可以在微信平台上实现和特定群体的文字、图片、语音、视频的全方位沟通、互动。公众号数据可以是公众号的昵称、功能介绍及微博认证等数据。电商即电子商务,是指以信息网络技术为手段,以商品交换为中心的商务活动,电商数据可以是商品交换时的商务活动数据。论坛是互联网上的一种电子信息服务系统,通过提供一块公共电子白板,使每个用户都可以在其上书写,可以发布信息或提出看法。论坛数据可以是用户发布的信息或看法的数据。微博是一种基于用户关系信息分享、传播以及获取的平台,用户通过微博可以相互分享和交流各自的思想或动态。微博数据可以是关于用户思想或动态的数据。此外,UGC还可以为博客(即网络日志)数据、播客(即视频分享)数据、贴吧数据、公告栏数据等等,本发明实施例对此不作限定。
具体的,步骤301如图3-2所示,包括:
步骤3011、获取社交平台中与目标用户相关的UGC的描述信息。
描述信息用于描述UGC的属性。UGC的属性可以是关于UGC的标题、原创内容、分享内容、关注内容、评论等一系列反映UGC内容的信息。示例的,当UGC为公众号数据时,其描述信息可以为公众号昵称、功能介绍及微博认证信息等;当UGC为微博数据时,其描述信息可以为原创内容、关注的好友信息、分享内容、评论、原创内容或分享内容的标签等。
步骤3012、根据描述信息确定UGC属于的目标推送类型。
第一方面,步骤3012如图3-3所示,包括:
步骤3012a、将描述信息分别与预设的至少两个推送类型对应的下位词进行语义匹配。
每个推送类型包括至少一个类型标识,每个推送类型对应的下位词是将推送类型的类型标识作为关键词在数据库中搜索得到的。下位词指的是概念上内涵更窄的主题词,例如“苹果”是“水果”的下位词,“黄瓜”是“蔬菜”的下位词。
步骤3012b、将与描述信息相匹配的下位词所属的推送类型作为目标推送类型。
当UGC为公众号数据时,先将推送类型的类型标识作为关键词,根据关键词在数据库中搜索得到每个推送类型对应的下位词,再将公众号的昵称或功能介绍等描述信息与搜索得到的下位词进行语义匹配,最后将与描述信息相匹配的下位词所属的推送类型作为目标推送类型。实际执行过程中,可以给每个推送类型和该推送类型的类型标识分配唯一一个身份标识(英文:Identification;简称:ID)。
其中,语义指的是数据的含义。数据本身没有任何意义,只有被赋予含义的数据才能够被使用,这时候数据就转化为了信息,而数据的含义即为语义。语义可以看作是数据所对应的现实世界中的事务所代表的概念的含义,以及这些含义之间的关系,是数据在某个领域上的解释和逻辑表示。语义匹配不单单是从数据进行匹配,而是对数据的含义进行匹配。可以同时借助语义词典进行语义匹配。相关的语义词典如知网和WordNet(词汇网络)。其中,知网是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。而WordNet则是一种基于认知语言学的英语词典。有关借助语义词典进行语义匹配的具体执行过程可以参考相关技术。
假设UGC为公众号数据,且预设的至少两个推送类型如表1所示,以类型标识ID为404,类型标识为豪华车为例,豪华车通常是指D级车,且排量较大,排量一般大于0.3升,价格较奢侈,价格一般为50万以上。首先,将推送类型的类型标识即豪华车作为关键词;然后,在数据库中搜索“豪华车”的下位词,得到:奔驰S、奥迪A8、宝马7系列、劳斯莱斯、法拉利、兰博基尼等等;接着,将描述信息分别与奔驰S、奥迪A8、宝马7系列、劳斯莱斯、法拉利、兰博基尼等等进行语义匹配。一方面,很多公众号是关于“婚车出租”的公众号,这类描述信息中大部分包含较多的豪华车型,通过语义匹配后可以将描述信息中带有“婚”字的公众号进行剔除。同理,可以将描述信息中带有“美妆”、“酒吧”、“KTV”等词语的干扰公众号剔除;另一方面,如宝马、劳斯莱斯等人尽皆知的豪华车会存在很多引申义,示例的,经常出现在鸡汤系公众号中的“我宁愿坐在宝马车里哭,也不愿意坐在自行车上笑”,这类公众号通过语义匹配也可以被剔除;再如一个昵称为“亚洲销售女神”,功能介绍为“亚洲销售女神XXX、教育培训界的劳斯莱斯级教练,著有畅销书《销售女神XXX》...”的公众号中出现的豪华车均为一种引喻,用来表示某人在某一方面遥遥领先,这类公众号通过语义匹配也可以被剔除。此外,如“雷克萨斯”这种无引申含义的豪华车可以通过语义匹配而保留。
通过语义匹配之后,即可提取出昵称或功能介绍等描述信息中包含豪华车这一关键词的公众号,并剔除其他包含描述信息中包含豪华车干扰信息的公众号,得到该公众号对所属的推送类型。
表1
推送类型ID | 推送类型 | 类型标识ID | 类型标识 |
4 | 汽车 | 401 | 低档车 |
4 | 汽车 | 402 | 中档车 |
4 | 汽车 | 403 | 高档车 |
4 | 汽车 | 404 | 豪华车 |
4 | 汽车 | 405 | 二手车 |
4 | 汽车 | 406 | 租车 |
4 | 汽车 | 407 | 改装与保养 |
4 | 汽车 | 408 | 高端汽车品牌 |
第二方面,步骤3012如图3-4所示,包括:
步骤3012A、对UGC的描述信息进行分词处理得到至少一个分词词汇。
若UGC的描述信息以中文形式显示,则分词就是将一个汉字序列切分为一个一个单独的词,也就是将连续的字序列按照一定的规范重新组合成词序列的过程。如一个昵称为“亚洲销售女神”的公众号,进行分词处理之后,即可得到三个分词词汇,这三个分词词汇可以分别是“亚洲”、“销售”、“女神”。分词技术可以参考相关技术,在此不再赘述。
步骤3012B、获取训练集。
训练集包括n个UGC的描述信息,n为大于0的整数。训练集是对目标用户的UGC进行测试的基础。训练集可以是随机选取的多个UGC的描述信息,实际应用中,为了在测试时得到更高的准确率,应该使训练集的规模较大,即n的值较大。
步骤3012C、对n个UGC的描述信息进行分词处理得到m个词汇,m大于或等于n。
将步骤3012B获取的训练集的描述信息进行分词处理,如可以将公众号的昵称和功能介绍等描述信息进行分词处理,得到多个词汇。
步骤3012D、对m个词汇进行词聚类处理得到h个聚类。
每个聚类包括:至少两个词汇。h为大于1的整数。需要说明的是,为了对m个词汇进行词聚类处理,可以先将m个词汇表示为向量的形式,也就是将文本内容数字化。示例的,可以采用word2net软件将每个词汇表示为向量,实现词汇到向量的转换。word2net软件是一种将词汇表示为实数值向量的高效工具,可以把文本内容的处理简化为k维向量空间中的向量运算,这样,可以通过计算向量之间的相似度而得到向量对应的词汇之间的相似度,然后根据词汇之间的相似度,对所有词汇进行词聚类处理,得到h个聚类。
示例的,可以通过计算向量之间的余弦相似度或欧式距离相似度来得到向量之间的相似度。计算向量之间的相似度的方法很多,具体可以参考相关技术,本发明实施例对此不作限定。
步骤3012E、根据h个聚类建立映射关系表。
映射关系表用于记录预设的n个UGC的描述信息经过分词处理和词聚类处理后得到的h个聚类的标识、每个聚类中的词汇及每个词汇在聚类中的概率及每个词汇对应的推送类型。
假设对m个词汇进行词聚类处理得到3个聚类,3个聚类的标识分别为h1,h2和h3,h1的聚类中的词汇分别为a,b和c,那么a在标识为h1的聚类中的概率为1/3,b在标识为h1的聚类中的概率为1/3,c在标识为h1的聚类中的概率为1/3,假设给a标注的推送类型为体育、给b标注的推送类型为旅游,给c标注的推送类型为教育,则关于标识为h1的聚类的关系映射表可以如表2所示。需要说明的是,在实际执行过程中,可以给每个推送类型分配唯一一个ID。同时,由于训练集的规模较大,聚类后的数量也很多,远比3个要多很多,此处只是列举了一个示意性的例子,本发明实施例对此不做限定。
表2
聚类标识 | 词汇 | 概率 | 推送类型 |
h1 | a | 1/3 | 体育 |
h1 | b | 1/3 | 旅游 |
h1 | c | 1/3 | 教育 |
步骤3012F、获取映射关系表。
步骤3012G、查询映射关系表,得到至少一个分词词汇中每个分词词汇所属聚类,及每个分词词汇在每个分词词汇所属聚类中的概率。
在步骤3012A中,已经对UGC的描述信息进行分词处理得到了至少一个分词词汇。查询映射关系表,即可得到每个分词词汇所属聚类,及在所属聚类中的概率。如对目标用户的UGC的描述信息进行分词处理之后得到的其中一个分词词汇为a,则通过查询表2,可以得到分词词汇a所属聚类为聚类标识是h1的第一个聚类,及分词词汇a在该第一个聚类中的概率为1/3。
步骤3012H、确定至少一个分词词汇中实际概率最大的分词词汇。
其中,该第一分词词汇的实际概率g为:
第一分词词汇为该至少一个分词词汇中的任意一个,s表示第一分词词汇在第一分词词汇所属聚类中的概率,d1表示h个聚类中包含第一分词词汇的聚类的个数。
步骤3012I、查询映射关系表,得到实际概率最大的分词词汇对应的推送类型。
假设对目标用户的UGC的描述信息进行分词处理之后得到了3个分词词汇,这3个分词词汇分别为“石家庄”,“蚂蚁”和“户外”,经过步骤3012H,计算得到3个分词词汇的实际概率分别为g1、g2和g3。取g1、g2和g3中的最大值,若g3最大,得到“户外”对应的推送类型“户外探险”。
当目标用户的UGC的描述信息进行分词处理之后得到的分词词汇中,存在至少2个分词词汇属于同一个聚类,则需要将该至少2个分词词汇的实际概率相加,即将该至少2个分词词汇看作一个整体,确定每个推送类型对应的累计实际概率值,与其他分词词汇的实际概率相比较,再将实际概率最大的分词词汇对应的推送类型。
步骤3012J、将实际概率最大的分词词汇对应的推送类型作为UGC属于的目标推送类型。
以步骤3012I为例,若g3最大,则将“户外探险”作为目标用户的UGC属于的目标推送类型。
请参考图3-5,其示出了本发明实施例提供的第二方面对应的方法示意图,包含训练阶段和测试阶段。其中,训练阶段对应步骤3012B至步骤3012E,测试阶段对应步骤3012A、及步骤3012F至步骤3012J。
第三方面,由于第一方面所述的根据描述信息确定UGC属于的目标推送类型的过程是基于关键词的强规则分类过程,准确率较高;而第二方面所述的根据描述信息确定UGC属于的目标推送类型的过程属于模型训练过程,覆盖率较高,准确率指的是正确分类的UGC数量与处理的UCG的总数的比值,覆盖率指的是正确分类的UGC数量与训练集中相关的UGC的总数的比值,而准确率和覆盖率是相互制约的,因此,可以将上述第一方面和第二方面相结合,共同确定UGC属于的目标推送类型。例如,可以在第一方面包括的步骤的基础上执行第二方面包括的步骤,具体过程本发明实施例在此不再赘述。
以公众号数据为例,表3示出了通过第三方面所述的根据描述信息确定多个公众号属于的目标推送类型的结果表。由表3可知,通过将上述第一方面和第二方面所述的方法相结合,可以确定公众号属于的目标推送类型,将多个公众号进行有效分类,便于向目标用户的终端推送与目标推送类型对应的内容项目。同样的,在实际执行过程中,可以给每个推送类型分配唯一一个ID。
表3
步骤302、确定目标用户与UGC的关联度。
根据描述信息确定了UGC属于的目标推送类型之后,需要确定目标用户与UGC之间的关系。
以公众号数据为例,目标用户与公众号数据的关系主要分为两种:订阅关系和活跃关系。其中,订阅关系指的是目标用户收听了自己感兴趣的公众号;活跃关系指的是目标用户对公众号数据的操作,该操作可以为上传消息,可以为对公众号profile(拟交互)页的操作,可以为点击公众号自定义菜单的操作,可以为点击公众号发的图文消息的操作等。目标用户与公众号数据的订阅关系即为目标用户与UGC的关联度。目标用户与公众号数据的活跃关系即为目标用于对于UGC的活跃度。活跃度用于表示活跃的程度。
图3-6示出了目标用户操作公众号profile页和点击公众号自定义菜单的指示示意图,其中,601所指示的区域为profile页的操作路径,602所指示的区域为自定义菜单的操作路径。
具体的,步骤302如图3-7所示,包括:
步骤3021、获取预设的至少两个推送类型。
至少两个推送类型包括目标推送类型。
步骤3022、在属于至少两个推送类型的UGC相关的用户总数中,确定与属于目标推送类型的UGC相关的用户总数x、最大用户总数y和最小用户总数z。
步骤3023、根据关系确定公式,确定目标用户与UGC的关联度M。
该关系确定公式为:
以公众号数据为例,假设预设的至少两个推送类型分别为汽车、金融、教育、生活服务和家居,关于汽车的公众号数据的订阅用户总数为30,关于金融的公众号数据的订阅用户总数为50,关于教育的公众号数据的订阅用户总数为35,关于生活服务的公众号数据的订阅用户总数为45,关于家居的公众号数据的订阅用户总数为40。一个昵称为“母婴育儿活动妈妈宝宝试用”的公众号数据通过步骤301确定该公众号数据属于的目标推送类型为教育,已知与属于教育的公众号数据相关的用户总数x等于35,最大用户总数y等于50,最小用户总数z等于30,则目标用户与该公众号数据的关联度:
步骤303、确定目标用户对于UGC的活跃度。
具体的,步骤303如图3-8所示,包括:
步骤3031、获取目标用户对于UGC在预设时间段t内的活跃次数p。
可选的,预设时间段t等于30天。活跃次数也就是目标用于触发与UGC关联动作的总次数。
步骤3032、获取目标用户对UGC的遗忘程度q。
遗忘程度是衡量目标用户最近一次触发与UGC关联动作的时间点与上一次触发与UGC关联动作的时间点的差值,该差值越大,说明目标用户对UGC的遗忘程度越高。
以图3-6为例,第一种情况,假设目标用户操作公众号profile页或点击公众号自定义菜单的最近一次的时间点为6月5号,操作公众号profile页或点击公众号自定义菜单的上一次的时间点为6月2号,两个时间点的差值为3天;第二种情况,假设目标用户操作公众号profile页或点击公众号自定义菜单的最近一次的时间点为6月3号,操作公众号profile页或点击公众号自定义菜单的上一次的时间点为6月2号,两个时间点的差值为1天,则第一种情况下目标用户对UGC的遗忘程度比第二种情况下目标用户对UGC的遗忘程度要高。在实际执行过程中,认为该遗忘程度可以通过指数的形式表示,目标用户的两个时间点的差值经过b天后目标用户的兴趣度遗忘一半,且遗忘速度是先快后慢。
步骤3033、获取属于目标推送类型的UGC中与目标用户相关的UGC的个数w。
以公众号数据为例,目标推送类型的UGC中与目标用户相关的UGC的个数也就是目标用户订阅该公众号数据属于的目标推送类型的所有相关的公众号数据的个数。如一个昵称为“母婴育儿活动妈妈宝宝试用”的公众号数据属于的目标推送类型为教育,则w为该目标用户订阅教育类的公众号数据的个数。以QQ群数据为例,目标推送类型的UGC中与目标用户相关的UGC的个数也就是目标用户加的QQ群数据属于的目标推送类型的所有相关的QQ群数据的个数。如一个名称为“语义查询交流群”的QQ群数据属于的目标推送类型为技术交流,则w为该目标用户加的技术交流类的QQ群数据的个数。比如,该目标用户除了加有“语义查询交流群”,还加有“搜索技术研究群”、“软件测试群”、“语义网研究”3个QQ群,则w等于4。
步骤3034、根据活跃度确定公式,确定目标用户对于UGC的活跃度f。
该活跃度确定公式为:
f=a*p*q+w/c;
其中,cur表示目标用户最近一次触发与UGC关联动作的时间点,ds表示目标用户上一次触发与UGC关联动作的时间点,b代表半衰期,即经过b天后目标用户的兴趣度遗忘一半,且遗忘速度先快后慢。a、b和c均为常量。示例的,a可以等于2天,b可以等于10天,c可以等于100天。
接着步骤302,继续以昵称为“母婴育儿活动妈妈宝宝试用”的公众号数据为例进行说明,假设该目标用户对于该公众号数据在30天内的活跃次数p等于3,该目标用户对该公众号数据的遗忘程度属于教育的公众号数据中与该目标用户相关的公众号数据的个数w等于5,则该目标用户对于该公众号数据的活跃度:
f=2*3*0.758+5/100=4.598,
步骤304、根据目标用户与UGC的关联度、目标用户对于UGC的活跃度确定目标用户对目标推送类型的兴趣度。
兴趣度用于表示感兴趣的程度。将步骤302确定的目标用户与UGC的关联度与步骤303确定的目标用户对于UGC的活跃度之和作为目标用户对目标推送类型的兴趣度。以昵称为“母婴育儿活动妈妈宝宝试用”的公众号数据为例,根据步骤302确定的该目标用户与该公众号数据的关联度M等于0.8,该目标用户对于该公众号数据的活跃度f=4.598,则目标用户对教育的兴趣度D=M+f=0.8+4.598=5.398。
以公众号数据为例,表4示出了通过本发明实施例提供的确定目标用户对目标推送类型的兴趣度的结果列表。目标用户在某个目标推送类型的兴趣度的值越大,表示该目标用户对该目标推送类型感兴趣的程度越高。
表4
公众号 | 推送类型 | 类型标识 | 兴趣度 |
100065 | 汽车 | 低档车 | 8.51 |
100141 | 金融 | 保险 | 0.30 |
100172 | 教育 | 出国留学 | 3.26 |
100216 | 家居 | 家具家纺 | 4.72 |
100461 | 服饰鞋帽箱包 | 女士配件 | 0.06 |
101251 | 生活服务 | 婚恋交友 | 1.23 |
101595 | 汽车 | 改装与保养 | 0.53 |
步骤305、根据目标用户对目标推送类型的兴趣度向目标用户的终端推送与目标推送类型对应的内容项目。
可选的,内容项目为广告。兴趣度与内容项目的推送优先级正相关。
以公众号数据为例,假设分别得到了目标用户对11个目标推送类型的兴趣度,则可以将这11个兴趣度按照从大到小的顺序排列,确定前6个兴趣度对应的目标推送类型,然后向目标用户的终端推送这6个目标推送类型对应的内容项目。
具体的,步骤305如图3-9所示,包括:
步骤3051、若社交平台中与目标用户相关的UGC有至少两种,获取目标用户对每种与目标用户相关的UGC属于的目标推送类型的兴趣度,得到至少两种兴趣度。
UGC可以包括通讯群数据、公众号数据、电商数据、文章数据、论坛数据和微博数据中的至少一种,因此,当社交平台中与目标用户相关的UGC有至少两种时,比如通讯群数据和公众号数据时,需要获取目标用户对通讯群数据的目标推送类型的兴趣度,及目标用户对公众号数据的目标推送类型的兴趣度。
步骤3052、对至少两种兴趣度进行归一化处理,得到至少两种兴趣度对应的归一化值。
示例的,可以通过z-score(标准分数)对至少两种兴趣度进行归一化处理,z-score是一个分数与平均数的差再除以标准差的过程,用公式表示为:zs=(α-μ)/σ,其中,α表示某一兴趣度,μ表示多个兴趣度的平均值,σ表示多个兴趣度的标准差。zs值的量代表着原始兴趣度和母体平均值(即包含该原始兴趣度的多个兴趣度的平均值)之间的距离,是以标准差为单位进行计算的。当原始兴趣度α低于平均值μ时,zs为负数;当原始兴趣度α高于平均值μ时,zs为正数。
步骤3053、根据至少两种兴趣度对应的归一化值之和向目标用户的终端推送目标推送类型对应的内容项目。
至少两种兴趣度对应的归一化值之和与内容项目的推送优先级正相关。
将至少两种兴趣度对应的归一化值之和作为最终目标用户对目标推送类型的兴趣度,然后按照步骤305,可以选择从大到小排列的兴趣度中的前6名兴趣度对应的目标推送类型,向目标用户的终端推送这6个目标推送类型对应的内容项目。
假设与目标用户相关的UGC为多个公众号数据和多个通讯群数据,通过本发明实施例提供的内容项目的推送方法确定的该目标用户的多个公众号数据属于的目标推送类型分别为教育、家居和汽车。确定的该目标用户的多个通讯群数据属于的目标推送类型分别为教育、家居和生活服务。以多个公众号数据为数据源,确定的该目标用户对教育的兴趣度为6.3,对家居的兴趣度为3.2,对汽车的兴趣度为1.2;以多个通讯群数据为数据源,确定的该目标用户对教育的兴趣度为2.6,对家居的兴趣度为0.8,对生活服务的兴趣度为0.6。根据步骤3052,得到两种兴趣度对应的归一化值如表5所示。由表5可知,目标用户对教育类型的兴趣度的值最大,若规定向目标用户的终端推送与第一名的兴趣度的目标推送类型对应的内容项目,则向该目标用户推送教育类型的内容项目。对于向目标用户推送的内容项目的个数以及推送的间隔时间,本发明实施例对此不作限定。
表5
需要说明的是,确定好与目标用户相关的每一种UGC属于的目标推送类型,及目标用户对目标推送类型的兴趣度之后,可以进行线上A/B Test(测试),A/B测试一种灰度发布方式,灰度发布是指在黑与白之间,能够平滑过渡的一种发布方式。A/B测试是让一部分用户继续用A,一部分用户开始用B,如果用户对B没有什么反对意见,那么逐步扩大范围,把所有用户都迁移到B上面来。灰度发布可以保证整体系统的稳定,在初始灰度的时候就可以发现、调整问题,
以保证其影响度。A/B Test是对比验证可用性的有效方法,能够发幅度提升产品的用户体验。通过A/B Test之后,若测试结果满足设计需求,再进一步做数据源的融合,对应执行步骤3051至步骤3053。融合后的UGC再进行线上投放实验,若实验结果满足设计需求,则将该内容项目的推送方法放入正式的推送平台供商家使用,若实验结果不理想,需要做进一步的改进和完善,比如,调整步骤3034中的常量的值,迭代优化后再次使用。关于迭代优化的过程可以参考相关技术。
图3-10示出了以公众号数据为例,向目标用户的终端推送与目标推送类型(即汽车)对应的广告的界面示意图;图3-11示出了以QQ群数据为例,向目标用户的终端推送与目标推送类型(即育儿)对应的广告的界面示意图。
以公众号数据为例,图3-12和图3-13示出了使用本发明实施例提供的内容项目的推送方法之后的产品侧使用效果的示意图。在微信广告推送时,增加定向的推送类型,供广告主在推送广告时选择自己的目标用户。广告主可以在进入微信公众平台后,选择广告主→广告管理→新建广告,如图3-12所示,广告主进入新建广告界面时,根据提示填写相关的广告名称与相关的广告素材信息,在推送设置时可以选择广告主期望的目标用户,具体如图3-13所示,根据兴趣度向目标用户推送对应的内容项目。
综上所述,本发明实施例提供的内容项目的推送方法,能够先确定与目标用户相关的UGC属于的目标推送类型,再根据目标用户与UGC的关联度、目标用户对于UGC的活跃度确定目标用户对目标推送类型的兴趣度,从而根据兴趣度向目标用户的终端推送与目标推送类型对应的内容项目,相较于相关技术,确定用户感兴趣的推送类型时考虑的因素更多,改善了向用户推送推送类型对应的内容项目的针对性,提高了推送的可靠性。
请参考图4-1,其示出了本发明实施例提供的一种内容项目的推送装置500的结构示意图,该装置500包括:
类型确定模块501,用于确定社交平台中与目标用户相关的用户原创内容UGC属于的目标推送类型。
关联度确定模块502,用于确定目标用户与UGC的关联度。
活跃度确定模块503,用于确定目标用户对于UGC的活跃度,活跃度用于表示活跃程度。
兴趣度确定模块504,用于根据目标用户与UGC的关联度、目标用户对于UGC的活跃度确定目标用户对目标推送类型的兴趣度,兴趣度用于表示感兴趣的程度。
推送模块505,用于根据目标用户对目标推送类型的兴趣度向目标用户的终端推送与目标推送类型对应的内容项目,兴趣度与内容项目的推送优先级正相关。
综上所述,本发明实施例提供的内容项目的推送装置,能够先确定与目标用户相关的UGC属于的目标推送类型,再根据目标用户与UGC的关联度、目标用户对于UGC的活跃度确定目标用户对目标推送类型的兴趣度,从而根据兴趣度向目标用户的终端推送与目标推送类型对应的内容项目,相较于相关技术,确定用户感兴趣的推送类型时考虑的因素更多,改善了向用户推送推送类型对应的内容项目的针对性,提高了推送的可靠性。
可选的,关联度确定模块502,用于:
获取预设的至少两个推送类型,该至少两个推送类型包括目标推送类型;
在属于至少两个推送类型的UGC相关的用户总数中,确定与属于目标推送类型的UGC相关的用户总数x、最大用户总数y和最小用户总数z;
根据关系确定公式,确定目标用户与UGC的关联度M,该关系确定公式为:
可选的,活跃度确定模块503,用于:
获取目标用户对于UGC在预设时间段t内的活跃次数p;
获取目标用户对UGC的遗忘程度q;
获取属于目标推送类型的UGC中与目标用户相关的UGC的个数w;
根据活跃度确定公式,确定目标用户对于UGC的活跃度f,该活跃度确定公式为:
f=a*p*q+w/c;
其中,cur表示目标用户最近一次触发与UGC关联动作的时间点,ds表示目标用户上一次触发与UGC关联动作的时间点,a、b和c均为常量。
可选的,如图4-2所示,类型确定模块501,包括:
获取子模块5011,用于获取社交平台中与目标用户相关的UGC的描述信息,描述信息用于描述UGC的属性;
确定子模块5012,用于根据描述信息确定UGC属于的目标推送类型。
可选的,确定子模块5012,用于:
将描述信息分别与预设的至少两个推送类型对应的下位词进行语义匹配,每个推送类型包括至少一个类型标识,每个推送类型对应的下位词是将推送类型的类型标识作为关键词在数据库中搜索得到的;
将与描述信息相匹配的下位词所属的推送类型作为目标推送类型。
可选的,确定子模块5012,也用于:
对UGC的描述信息进行分词处理得到至少一个分词词汇;
获取映射关系表,该映射关系表用于记录预设的n个UGC的描述信息经过分词处理和词聚类处理后得到的h个聚类的标识、每个聚类中的词汇及每个词汇在聚类中的概率及每个词汇对应的推送类型,h为大于1的整数;
查询映射关系表,得到至少一个分词词汇中每个分词词汇所属聚类,及每个分词词汇在每个分词词汇所属聚类中的概率;
确定至少一个分词词汇中实际概率最大的分词词汇,其中,
第一分词词汇的实际概率g为:
该第一分词词汇为至少一个分词词汇中的任意一个,s表示第一分词词汇在第一分词词汇所属聚类中的概率,d1表示h个聚类中包含第一分词词汇的聚类的个数;
查询映射关系表,得到实际概率最大的分词词汇对应的推送类型;
将实际概率最大的分词词汇对应的推送类型作为UGC属于的目标推送类型。
请参考图4-3,其示出了本发明实施例提供的另一种内容项目的推送装置500的结构示意图,该装置500包括:
类型确定模块501,用于确定社交平台中与目标用户相关的用户原创内容UGC属于的目标推送类型。
关联度确定模块502,用于确定目标用户与UGC的关联度。
活跃度确定模块503,用于确定目标用户对于UGC的活跃度,活跃度用于表示活跃程度。
兴趣度确定模块504,用于根据目标用户与UGC的关联度、目标用户对于UGC的活跃度确定目标用户对目标推送类型的兴趣度,兴趣度用于表示感兴趣的程度。
推送模块505,用于根据目标用户对目标推送类型的兴趣度向目标用户的终端推送与目标推送类型对应的内容项目,兴趣度与内容项目的推送优先级正相关。
获取模块506,用于获取训练集,训练集包括n个UGC的描述信息,n为大于0的整数。
分词处理模块507,用于对n个UGC的描述信息进行分词处理得到m个词汇,m大于或等于n。
聚类模块508,用于对m个词汇进行词聚类处理得到h个聚类,每个聚类包括:至少两个词汇。
建立映射模块509,用于根据h个聚类建立映射关系表。
可选的,推送模块505,用于:
若社交平台中与目标用户相关的UGC有至少两种,获取目标用户对每种与目标用户相关的UGC属于的目标推送类型的兴趣度,得到至少两种兴趣度;
对至少两种兴趣度进行归一化处理,得到至少两种兴趣度对应的归一化值;
根据至少两种兴趣度对应的归一化值之和向目标用户的终端推送目标推送类型对应的内容项目,该至少两种兴趣度对应的归一化值之和与内容项目的推送优先级正相关。
可选的,UGC包括通讯群数据、公众号数据、电商数据、文章数据、论坛数据和微博数据中的至少一种。
可选的,内容项目为广告。
综上所述,本发明实施例提供的内容项目的推送装置,能够先确定与目标用户相关的UGC属于的目标推送类型,再根据目标用户与UGC的关联度、目标用户对于UGC的活跃度确定目标用户对目标推送类型的兴趣度,从而根据兴趣度向目标用户的终端推送与目标推送类型对应的内容项目,相较于相关技术,确定用户感兴趣的推送类型时考虑的因素更多,改善了向用户推送推送类型对应的内容项目的针对性,提高了推送的可靠性。
本发明实施例提供了一种内容项目的推送系统,包括图4-1或图4-3所示的内容项目的推送装置。
所述领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
请参考图5,其示出了本发明一个实施例提供的服务器的结构示意图。该服务器可以是后台服务器集群01中的服务器。具体来讲:
服务器400包括中央处理单元(英文:Central Processing Unit;简称:CPU)401、包括随机存取存储器(英文:random access memory;简称:RAM)402和只读存储器(英文:Read-Only Memory;简称:ROM)403的系统存储器404,以及连接系统存储器404和中央处理单元401的系统总线405。服务器400还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(英文:input/output;简称:I/O)406,和用于存储操作系统413、应用程序414和其他程序模块415的大容量存储设备407。
基本输入/输出系统406包括有用于显示信息的显示器408和用于用户输入信息的诸如鼠标、键盘之类的输入设备409。其中显示器408和输入设备409都通过连接到系统总线405的输入输出控制器410连接到中央处理单元401。基本输入/输出系统406还可以包括输入输出控制器410以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器410还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备407通过连接到系统总线405的大容量存储控制器(未示出)连接到中央处理单元401。大容量存储设备407及其相关联的计算机可读介质为服务器400提供非易失性存储。也就是说,大容量存储设备407可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读寄存器(英文:ErasableProgrammable Read Only Memory;简称:EPROM)、电可擦可编程只读存储器(英文:Electrically Erasable Programmable Read-Only Memory;简称:EEPROM)、闪存或其他固态存储其技术,CD-ROM、数字通用光盘(英文:DigitalVersatile Disc;简称:DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器404和大容量存储设备407可以统称为存储器。
根据本发明的各种实施例,服务器400还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器400可以通过连接在系统总线405上的网络接口单元411连接到网络412,或者说,也可以使用网络接口单元411来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。该一个或者一个以上程序包括本发明任一实施例提供的内容项目的推送方法。
综上所述,本发明实施例提供的服务器,能够先确定与目标用户相关的UGC属于的目标推送类型,再根据目标用户与UGC的关联度、目标用户对于UGC的活跃度确定目标用户对目标推送类型的兴趣度,从而根据兴趣度向目标用户的终端推送与目标推送类型对应的内容项目,相较于相关技术,确定用户感兴趣的推送类型时考虑的因素更多,改善了向用户推送推送类型对应的内容项目的针对性,提高了推送的可靠性。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (21)
1.一种内容项目的推送方法,其特征在于,所述方法包括:
确定社交平台中与目标用户相关的用户原创内容UGC属于的目标推送类型;
确定所述目标用户与所述UGC的关联度;
确定所述目标用户对于所述UGC的活跃度,所述活跃度用于表示活跃程度;
根据所述目标用户与所述UGC的关联度、所述目标用户对于所述UGC的活跃度确定所述目标用户对所述目标推送类型的兴趣度,所述兴趣度用于表示感兴趣的程度;
根据所述目标用户对所述目标推送类型的兴趣度向所述目标用户的终端推送与所述目标推送类型对应的内容项目,所述兴趣度与内容项目的推送优先级正相关。
2.根据权利要求1所述的方法,其特征在于,所述确定所述目标用户与所述UGC的关联度,包括:
获取预设的至少两个推送类型,所述至少两个推送类型包括所述目标推送类型;
在属于所述至少两个推送类型的UGC相关的用户总数中,确定与属于所述目标推送类型的UGC相关的用户总数x、最大用户总数y和最小用户总数z;
根据关系确定公式,确定所述目标用户与所述UGC的关联度M,所述关系确定公式为:
3.根据权利要求1所述的方法,其特征在于,所述确定所述目标用户对于所述UGC的活跃度,包括:
获取所述目标用户对于所述UGC在预设时间段t内的活跃次数p;
获取所述目标用户对所述UGC的遗忘程度q;
获取属于所述目标推送类型的UGC中与所述目标用户相关的UGC的个数w;
根据活跃度确定公式,确定所述目标用户对于所述UGC的活跃度f,所述活跃度确定公式为:
f=a*p*q+w/c;
其中,所述cur表示所述目标用户最近一次触发与所述UGC关联动作的时间点,所述ds表示所述目标用户上一次触发与所述UGC关联动作的时间点,所述a、所述b和所述c均为常量。
4.根据权利要求1所述的方法,其特征在于,所述确定社交平台中与目标用户相关的用户原创内容UGC属于的目标推送类型,包括:
获取社交平台中与所述目标用户相关的UGC的描述信息,所述描述信息用于描述所述UGC的属性;
根据所述描述信息确定所述UGC属于的目标推送类型。
5.根据权利要求4所述的方法,其特征在于,
所述根据所述描述信息确定所述UGC属于的目标推送类型,包括:
将所述描述信息分别与预设的至少两个推送类型对应的下位词进行语义匹配,每个所述推送类型包括至少一个类型标识,每个所述推送类型对应的下位词是将所述推送类型的类型标识作为关键词在数据库中搜索得到的;
将与所述描述信息相匹配的下位词所属的推送类型作为所述目标推送类型。
6.根据权利要求4所述的方法,其特征在于,所述根据所述描述信息确定所述UGC属于的目标推送类型,包括:
对所述UGC的描述信息进行分词处理得到至少一个分词词汇;
获取映射关系表,所述映射关系表用于记录预设的n个UGC的描述信息经过分词处理和词聚类处理后得到的h个聚类的标识、每个所述聚类中的词汇及每个所述词汇在所述聚类中的概率及每个所述词汇对应的推送类型,所述h为大于1的整数;
查询所述映射关系表,得到所述至少一个分词词汇中每个分词词汇所属聚类,及所述每个分词词汇在所述每个分词词汇所属聚类中的概率;
确定所述至少一个分词词汇中实际概率最大的分词词汇,其中,
所述第一分词词汇的实际概率g为:
所述第一分词词汇为所述至少一个分词词汇中的任意一个,所述s表示所述第一分词词汇在所述第一分词词汇所属聚类中的概率,所述d1表示所述h个聚类中包含所述第一分词词汇的聚类的个数;
查询所述映射关系表,得到所述实际概率最大的分词词汇对应的推送类型;
将所述实际概率最大的分词词汇对应的推送类型作为所述UGC属于的目标推送类型。
7.根据权利要求6所述的方法,其特征在于,在所述获取映射关系表之前,所述方法还包括:
获取训练集,所述训练集包括n个UGC的描述信息,所述n为大于0的整数;
对所述n个UGC的描述信息进行分词处理得到m个词汇,所述m大于或等于所述n;
对所述m个词汇进行词聚类处理得到h个聚类,每个所述聚类包括:至少两个所述词汇;
根据所述h个聚类建立所述映射关系表。
8.根据权利要求1所述的方法,其特征在于,所述根据所述目标用户对所述目标推送类型的兴趣度向所述目标用户的终端推送所述目标推送类型对应的内容项目,包括:
若所述社交平台中与所述目标用户相关的UGC有至少两种,获取所述目标用户对每种与所述目标用户相关的UGC属于的目标推送类型的兴趣度,得到至少两种兴趣度;
对所述至少两种兴趣度进行归一化处理,得到至少两种兴趣度对应的归一化值;
根据所述至少两种兴趣度对应的归一化值之和向所述目标用户的终端推送所述目标推送类型对应的内容项目,所述至少两种兴趣度对应的归一化值之和与内容项目的推送优先级正相关。
9.根据权利要求1至8任一权利要求所述的方法,其特征在于,
所述UGC包括通讯群数据、公众号数据、电商数据、文章数据、论坛数据和微博数据中的至少一种。
10.根据权利要求1至8任一权利要求所述的方法,其特征在于,
所述内容项目为广告。
11.一种内容项目的推送装置,其特征在于,所述装置包括:
类型确定模块,用于确定社交平台中与目标用户相关的用户原创内容UGC属于的目标推送类型;
关联度确定模块,用于确定所述目标用户与所述UGC的关联度;
活跃度确定模块,用于确定所述目标用户对于所述UGC的活跃度,所述活跃度用于表示活跃程度;
兴趣度确定模块,用于根据所述目标用户与所述UGC的关联度、所述目标用户对于所述UGC的活跃度确定所述目标用户对所述目标推送类型的兴趣度,所述兴趣度用于表示感兴趣的程度;
推送模块,用于根据所述目标用户对所述目标推送类型的兴趣度向所述目标用户的终端推送与所述目标推送类型对应的内容项目,所述兴趣度与内容项目的推送优先级正相关。
12.根据权利要求11所述的装置,其特征在于,所述关联度确定模块,用于:
获取预设的至少两个推送类型,所述至少两个推送类型包括所述目标推送类型;
在属于所述至少两个推送类型的UGC相关的用户总数中,确定与属于所述目标推送类型的UGC相关的用户总数x、最大用户总数y和最小用户总数z;
根据关系确定公式,确定所述目标用户与所述UGC的关联度M,所述关系确定公式为:
13.根据权利要求11所述的装置,其特征在于,所述活跃度确定模块,用于:
获取所述目标用户对于所述UGC在预设时间段t内的活跃次数p;
获取所述目标用户对所述UGC的遗忘程度q;
获取属于所述目标推送类型的UGC中与所述目标用户相关的UGC的个数W;
根据活跃度确定公式,确定所述目标用户对于所述UGC的活跃度f,所述活跃度确定公式为:
f=a*p*q+w/c;
其中,所述cur表示所述目标用户最近一次触发与所述UGC关联动作的时间点,所述ds表示所述目标用户上一次触发与所述UGC关联动作的时间点,所述a、所述b和所述c均为常量。
14.根据权利要求11所述的装置,其特征在于,所述类型确定模块,包括:
获取子模块,用于获取社交平台中与所述目标用户相关的UGC的描述信息,所述描述信息用于描述所述UGC的属性;
确定子模块,用于根据所述描述信息确定所述UGC属于的目标推送类型。
15.根据权利要求14所述的装置,其特征在于,所述确定子模块,用于:
将所述描述信息分别与预设的至少两个推送类型对应的下位词进行语义匹配,每个所述推送类型包括至少一个类型标识,每个所述推送类型对应的下位词是将所述推送类型的类型标识作为关键词在数据库中搜索得到的;
将与所述描述信息相匹配的下位词所属的推送类型作为所述目标推送类型。
16.根据权利要求15所述的装置,其特征在于,所述确定子模块,用于:
对所述UGC的描述信息进行分词处理得到至少一个分词词汇;
获取映射关系表,所述映射关系表用于记录预设的n个UGC的描述信息经过分词处理和词聚类处理后得到的h个聚类的标识、每个所述聚类中的词汇及每个所述词汇在所述聚类中的概率及每个所述词汇对应的推送类型,所述h为大于1的整数;
查询所述映射关系表,得到所述至少一个分词词汇中每个分词词汇所属聚类,及所述每个分词词汇在所述每个分词词汇所属聚类中的概率;
确定所述至少一个分词词汇中实际概率最大的分词词汇,其中,
所述第一分词词汇的实际概率g为:
所述第一分词词汇为所述至少一个分词词汇中的任意一个,所述s表示所述第一分词词汇在所述第一分词词汇所属聚类中的概率,所述d1表示所述h个聚类中包含所述第一分词词汇的聚类的个数;
查询所述映射关系表,得到所述实际概率最大的分词词汇对应的推送类型;
将所述实际概率最大的分词词汇对应的推送类型作为所述UGC属于的目标推送类型。
17.根据权利要求16所述的装置,其特征在于,所述装置还包括:
获取模块,用于获取训练集,所述训练集包括n个UGC的描述信息,所述n为大于0的整数;
分词处理模块,用于对所述n个UGC的描述信息进行分词处理得到m个词汇,所述m大于或等于所述n;
聚类模块,用于对所述m个词汇进行词聚类处理得到h个聚类,每个所述聚类包括:至少两个所述词汇;
建立映射模块,用于根据所述h个聚类建立所述映射关系表。
18.根据权利要求11所述的装置,其特征在于,所述推送模块,用于:
若所述社交平台中与所述目标用户相关的UGC有至少两种,获取所述目标用户对每种与所述目标用户相关的UGC属于的目标推送类型的兴趣度,得到至少两种兴趣度;
对所述至少两种兴趣度进行归一化处理,得到至少两种兴趣度对应的归一化值;
根据所述至少两种兴趣度对应的归一化值之和向所述目标用户的终端推送所述目标推送类型对应的内容项目,所述至少两种兴趣度对应的归一化值之和与内容项目的推送优先级正相关。
19.根据权利要求11至18任一权利要求所述的装置,其特征在于,
所述UGC包括通讯群数据、公众号数据、电商数据、文章数据、论坛数据和微博数据中的至少一种。
20.根据权利要求11至18任一权利要求所述的装置,其特征在于,
所述内容项目为广告。
21.一种内容项目的推送系统,其特征在于,所述系统包括:
权利要求11至20任一权利要求所述的内容项目的推送装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510312944.7A CN106294500B (zh) | 2015-06-09 | 2015-06-09 | 内容项目的推送方法、装置及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510312944.7A CN106294500B (zh) | 2015-06-09 | 2015-06-09 | 内容项目的推送方法、装置及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106294500A true CN106294500A (zh) | 2017-01-04 |
CN106294500B CN106294500B (zh) | 2020-04-24 |
Family
ID=57660133
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510312944.7A Active CN106294500B (zh) | 2015-06-09 | 2015-06-09 | 内容项目的推送方法、装置及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106294500B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106953935A (zh) * | 2017-05-19 | 2017-07-14 | 腾讯科技(深圳)有限公司 | 一种媒体信息推送方法、装置及存储介质 |
CN108376151A (zh) * | 2018-01-31 | 2018-08-07 | 深圳市阿西莫夫科技有限公司 | 问题分类方法、装置、计算机设备和存储介质 |
CN108521460A (zh) * | 2018-04-04 | 2018-09-11 | Oppo广东移动通信有限公司 | 信息推送方法、装置、移动终端及计算机可读存储介质 |
CN108881353A (zh) * | 2017-05-16 | 2018-11-23 | 腾讯科技(深圳)有限公司 | 一种内容推送方法、装置及计算机可读存储介质 |
CN108932244A (zh) * | 2017-05-24 | 2018-12-04 | 合网络技术(北京)有限公司 | 信息识别方法及装置 |
CN109543092A (zh) * | 2018-09-27 | 2019-03-29 | 深圳壹账通智能科技有限公司 | 金融产品推荐方法、装置、存储介质及计算机设备 |
CN109862057A (zh) * | 2017-11-30 | 2019-06-07 | 北京嘀嘀无限科技发展有限公司 | 运营推送方法、装置、服务器和计算机可读存储介质 |
CN110263318A (zh) * | 2018-04-23 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 实体名称的处理方法、装置、计算机可读介质及电子设备 |
CN112053192A (zh) * | 2020-09-02 | 2020-12-08 | 北京达佳互联信息技术有限公司 | 用户质量的确定方法、装置、服务器、终端、介质及产品 |
WO2021000677A1 (zh) * | 2019-07-04 | 2021-01-07 | 平安科技(深圳)有限公司 | 产品推荐方法、装置、计算机设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102044009A (zh) * | 2009-10-23 | 2011-05-04 | 华为技术有限公司 | 群组推荐方法和系统 |
CN102571630A (zh) * | 2011-12-26 | 2012-07-11 | 腾讯科技(深圳)有限公司 | 一种匿名社交系统中用户活跃度的评估方法及装置 |
CN102637170A (zh) * | 2011-02-10 | 2012-08-15 | 北京百度网讯科技有限公司 | 一种问题推送方法及系统 |
CN102982079A (zh) * | 2012-10-30 | 2013-03-20 | 北京奇虎科技有限公司 | 个性化网址导航方法和装置 |
CN103023971A (zh) * | 2012-11-15 | 2013-04-03 | 广州酷狗计算机科技有限公司 | 音乐共享电台的信息推送方法及其系统 |
CN103108017A (zh) * | 2011-11-10 | 2013-05-15 | 北京千橡网景科技发展有限公司 | 用于传送内容的方法和设备 |
CN103729383A (zh) * | 2012-10-16 | 2014-04-16 | 阿里巴巴集团控股有限公司 | 商品信息的推送方法和装置 |
CN103916436A (zh) * | 2013-01-05 | 2014-07-09 | 腾讯科技(深圳)有限公司 | 信息推送方法、装置、终端及服务器 |
US20150142835A1 (en) * | 2013-11-18 | 2015-05-21 | Samsung Electronics Co., Ltd. | Method and system for providing recommendations and performing actions based on social updates in social networks |
-
2015
- 2015-06-09 CN CN201510312944.7A patent/CN106294500B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102044009A (zh) * | 2009-10-23 | 2011-05-04 | 华为技术有限公司 | 群组推荐方法和系统 |
CN102637170A (zh) * | 2011-02-10 | 2012-08-15 | 北京百度网讯科技有限公司 | 一种问题推送方法及系统 |
CN103108017A (zh) * | 2011-11-10 | 2013-05-15 | 北京千橡网景科技发展有限公司 | 用于传送内容的方法和设备 |
CN102571630A (zh) * | 2011-12-26 | 2012-07-11 | 腾讯科技(深圳)有限公司 | 一种匿名社交系统中用户活跃度的评估方法及装置 |
CN103729383A (zh) * | 2012-10-16 | 2014-04-16 | 阿里巴巴集团控股有限公司 | 商品信息的推送方法和装置 |
CN102982079A (zh) * | 2012-10-30 | 2013-03-20 | 北京奇虎科技有限公司 | 个性化网址导航方法和装置 |
CN103023971A (zh) * | 2012-11-15 | 2013-04-03 | 广州酷狗计算机科技有限公司 | 音乐共享电台的信息推送方法及其系统 |
CN103916436A (zh) * | 2013-01-05 | 2014-07-09 | 腾讯科技(深圳)有限公司 | 信息推送方法、装置、终端及服务器 |
US20150142835A1 (en) * | 2013-11-18 | 2015-05-21 | Samsung Electronics Co., Ltd. | Method and system for providing recommendations and performing actions based on social updates in social networks |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108881353A (zh) * | 2017-05-16 | 2018-11-23 | 腾讯科技(深圳)有限公司 | 一种内容推送方法、装置及计算机可读存储介质 |
CN108881353B (zh) * | 2017-05-16 | 2020-07-31 | 腾讯科技(深圳)有限公司 | 一种内容推送方法、装置及计算机可读存储介质 |
WO2018210122A1 (zh) * | 2017-05-19 | 2018-11-22 | 腾讯科技(深圳)有限公司 | 媒体信息推送方法、装置及存储介质 |
CN106953935B (zh) * | 2017-05-19 | 2022-05-17 | 腾讯科技(深圳)有限公司 | 一种媒体信息推送方法、装置及存储介质 |
CN106953935A (zh) * | 2017-05-19 | 2017-07-14 | 腾讯科技(深圳)有限公司 | 一种媒体信息推送方法、装置及存储介质 |
CN108932244A (zh) * | 2017-05-24 | 2018-12-04 | 合网络技术(北京)有限公司 | 信息识别方法及装置 |
CN109862057A (zh) * | 2017-11-30 | 2019-06-07 | 北京嘀嘀无限科技发展有限公司 | 运营推送方法、装置、服务器和计算机可读存储介质 |
CN108376151A (zh) * | 2018-01-31 | 2018-08-07 | 深圳市阿西莫夫科技有限公司 | 问题分类方法、装置、计算机设备和存储介质 |
CN108376151B (zh) * | 2018-01-31 | 2020-08-04 | 深圳市阿西莫夫科技有限公司 | 问题分类方法、装置、计算机设备和存储介质 |
CN108521460B (zh) * | 2018-04-04 | 2021-04-16 | Oppo广东移动通信有限公司 | 信息推送方法、装置、移动终端及计算机可读存储介质 |
CN108521460A (zh) * | 2018-04-04 | 2018-09-11 | Oppo广东移动通信有限公司 | 信息推送方法、装置、移动终端及计算机可读存储介质 |
CN110263318A (zh) * | 2018-04-23 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 实体名称的处理方法、装置、计算机可读介质及电子设备 |
CN110263318B (zh) * | 2018-04-23 | 2022-10-28 | 腾讯科技(深圳)有限公司 | 实体名称的处理方法、装置、计算机可读介质及电子设备 |
CN109543092A (zh) * | 2018-09-27 | 2019-03-29 | 深圳壹账通智能科技有限公司 | 金融产品推荐方法、装置、存储介质及计算机设备 |
WO2021000677A1 (zh) * | 2019-07-04 | 2021-01-07 | 平安科技(深圳)有限公司 | 产品推荐方法、装置、计算机设备及存储介质 |
CN112053192A (zh) * | 2020-09-02 | 2020-12-08 | 北京达佳互联信息技术有限公司 | 用户质量的确定方法、装置、服务器、终端、介质及产品 |
CN112053192B (zh) * | 2020-09-02 | 2024-05-14 | 北京达佳互联信息技术有限公司 | 用户质量的确定方法、装置、服务器、终端、介质及产品 |
Also Published As
Publication number | Publication date |
---|---|
CN106294500B (zh) | 2020-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106294500B (zh) | 内容项目的推送方法、装置及系统 | |
Tan et al. | Cross domain recommendation based on multi-type media fusion | |
US9830404B2 (en) | Analyzing language dependency structures | |
CN105224699B (zh) | 一种新闻推荐方法及装置 | |
CN111460221B (zh) | 评论信息处理方法、装置及电子设备 | |
CN109299994B (zh) | 推荐方法、装置、设备及可读存储介质 | |
CN110325986B (zh) | 文章处理方法、装置、服务器及存储介质 | |
US9910930B2 (en) | Scalable user intent mining using a multimodal restricted boltzmann machine | |
TWI631474B (zh) | Method and device for product identification label and method for product navigation | |
CN110532479A (zh) | 一种信息推荐方法、装置及设备 | |
US8589429B1 (en) | System and method for providing query recommendations based on search activity of a user base | |
Fang et al. | Word-of-mouth understanding: Entity-centric multimodal aspect-opinion mining in social media | |
Zhang et al. | Multimodal marketing intent analysis for effective targeted advertising | |
CN111784455A (zh) | 一种物品推荐方法及推荐设备 | |
CN109684538A (zh) | 一种基于用户个人特征的推荐方法及推荐系统 | |
US9767417B1 (en) | Category predictions for user behavior | |
Jiang et al. | Cloud service recommendation based on unstructured textual information | |
CN104111941A (zh) | 信息展示的方法及设备 | |
US9767204B1 (en) | Category predictions identifying a search frequency | |
US11574123B2 (en) | Content analysis utilizing general knowledge base | |
US10474670B1 (en) | Category predictions with browse node probabilities | |
CN118250516B (zh) | 一种针对用户的分级处理方法 | |
US10387934B1 (en) | Method medium and system for category prediction for a changed shopping mission | |
CN117609612A (zh) | 资源推荐方法、装置、存储介质及电子设备 | |
Zhang et al. | A generic pseudo relevance feedback framework with heterogeneous social information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |