CN103118111B - 一种基于多个数据交互中心的数据进行信息推送的方法 - Google Patents
一种基于多个数据交互中心的数据进行信息推送的方法 Download PDFInfo
- Publication number
- CN103118111B CN103118111B CN201310039741.6A CN201310039741A CN103118111B CN 103118111 B CN103118111 B CN 103118111B CN 201310039741 A CN201310039741 A CN 201310039741A CN 103118111 B CN103118111 B CN 103118111B
- Authority
- CN
- China
- Prior art keywords
- data
- user
- behavior
- data item
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 172
- 238000000034 method Methods 0.000 title claims abstract description 65
- 230000006399 behavior Effects 0.000 claims description 148
- 238000013507 mapping Methods 0.000 claims description 29
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000008859 change Effects 0.000 claims description 11
- 230000003542 behavioural effect Effects 0.000 claims description 7
- 230000009471 action Effects 0.000 claims description 6
- 238000009792 diffusion process Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 5
- 238000012552 review Methods 0.000 claims description 4
- 238000007477 logistic regression Methods 0.000 claims description 3
- 238000013468 resource allocation Methods 0.000 claims description 3
- 241000282326 Felis catus Species 0.000 claims description 2
- 230000008569 process Effects 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000001960 triggered effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000009193 crawling Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- VYPSYNLAJGMNEJ-UHFFFAOYSA-N Silicium dioxide Chemical compound O=[Si]=O VYPSYNLAJGMNEJ-UHFFFAOYSA-N 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多个数据交互中心的数据进行信息推送的方法,包括:从多个数据交互中心获取用户行为数据和数据项信息数据,通过统一数据平台进行数据整合得到用户的特征数据;根据得到的所述用户特征数据及该用户的当前行为信息判断得到该用户的行为意图数据;根据所述用户的用户行为意图数据生成与该用户当前行为匹配的推荐信息;向该用户发送推荐信息。本发明解决了如何将多个数据交互中心的数据进行数据统一并发送个性化信息给用户的问题。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于多个数据交互中心的数据进行信息推送的方法。
背景技术
随着互联网技术的迅猛发展,当前进入了信息爆炸的时代,海量信息的同时呈现,一方面使用户很难从中发现自己感兴趣的部分,另一方面也使得大量少人问津的信息成为网络中的“暗信息”,无法被一般用户获取。个性化信息推荐技术,被认为是当前解决信息超载问题的最有效工具之一。个性化信息推荐技术从根本上说就是代替用户评估它从未看过的产品,并根据评估的结果引导用户发现自己感兴趣并有价值的信息,是一个从已知到未知的过程。
目前已有的针对数据交互中心的个性化推荐技术,无论是基于文本挖掘规则的方法,还是采用协同过滤的方法,均是在单数据交互中心用户行为数据及数据项信息数据的基础上实现的,并没有综合利用多数据交互中心的数据。不仅导致用户的行为、兴趣得不到全方位的刻画,用户体验较差;而且不能有效的,更大限度的发挥各数据交互中心数据的作用;最后还可能会遇到冷启动问题而无法进行个性化推荐。
因此,如何将多个数据交互中心的数据进行数据统一并发送个性化信息给用户是当前需要解决的问题。
发明内容
本发明所要解决的技术问题是提供一种基于多个数据交互中心的数据进行信息推送的方法,解决了如何将多个数据交互中心的数据进行数据统一并发送个性化信息给用户的问题。
为了解决上述问题,本发明提供了一种基于多个数据交互中心的数据进行信息推送的方法,包括:
从多个数据交互中心获取用户行为数据和数据项信息数据,通过统一数据平台进行数据整合得到用户的特征数据;
根据得到的所述用户特征数据及该用户的当前行为信息判断得到该用户的行为意图数据;
根据所述用户的用户行为意图数据生成与该用户当前行为匹配的推荐信息;
向该用户发送推荐信息。
与现有技术相比,本发明具有以下优点:能够通过统一的数据平台消除不同数据交互中心对数据项分类及描述信息的差异,打通同一用户在不同数据交互中心之间的行为信息,更有效的利用不同数据交互中心的数据;能够综合利用多个数据交互中心的数据针对单数据交互中心和跨数据交互中心的情况分别生成推荐信息,更全方位的刻画用户的行为和兴趣,提升推荐的用户体验;能够利用多个数据交互中心的数据为某一数据交互中心的推荐服务,弥补以往单数据交互中心推荐方法所面临的冷启动问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,不可以根据这些附图获得其他的附图。
图1为本发明实施例的多数据交互中心统一数据平台的个性化推荐方法流程示意图;
图2为本发明实施例的多数据交互中心统一数据平台更新步骤的流程示意图;
图3为本发明实施例的多数据交互中心统一数据平台数据项信息更新的流程示意图;
图4为本发明实施例的多数据交互中心统一数据平台用户行为信息更新的流程示意图;
图5为本发明实施例的预测用户行为意图的流程示意图;
图6为本发明实施例的计算用户浏览意图的流程示意图;
图7为本发明实施例的计算用户行为意图的流程示意图;
图8为数据交互中心数据项映射列表生成的流程示意图;
图9为图8的步骤802中构建数据项映射列表的流程示意图;
图10为多数据交互中心统一数据平台的个性化推荐生成推荐列表的流程示意图;
图11为本发明的基于多个数据交互中心的数据进行信息推送的方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示为本发明实施例的多数据交互中心统一数据平台的个性化推荐方法流程示意图,所述多数据交互中心推荐方法包括以下步骤:
步骤101,从多个数据交互中心获取用户行为数据、数据项信息数据,通过统一的数据平台进行数据整合。
具体地,所述用户行为数据包括:用户选定行为数据,用户浏览行为数据;
所述用户选定行为数据包括:user_id(全局统一的用户唯一标识符),client_id(用户产生选定行为所在的数据交互中心唯一标识符),user_name(登陆用户名),item_id(用户选定的数据项),price(用户选定的数据项的特定数据),quantity(用户选定数据项的数量),order_id(数据表号),buy_time(用户选定数据项的时间),total(数据表中的各个数据项的特定数据的和),address(接收地址),pay(交互方式),mobile(用户手机号码),name(接收人姓名),reviews(用户对所选定数据项的评价);
所述用户浏览行为数据包括:user_id(全局统一的用户唯一标识符),client_id(用户产生选定行为所在的数据交互中心唯一标识符),entry_page(用户访问的当前页URL),item_id(用户浏览的数据项),link(当前页的来源,前链),link_keyword(来源的搜索关键词),page_style(当前页面的类型),browse_time(用户浏览数据项的时间),stay_time(用户浏览数据项的页面停留时长),tag_id(标签ID),tag_name(标签值);
进一步,所述数据项信息数据包括:client_id(数据项所在的数据交互中心),item_id(数据项在所述数据交互中心上的标识信息),item_name(数据项的名称),cat(数据项的分类),key_word(数据项的关键词),price(数据项的特定数据),introduce(数据项的描述),browse_times(数据项被浏览的次数),buy_times(数据项被选定的次数),score(数据项的评分),reviews(数据项的评论);
进一步,所述统一数据平台包括:用户行为数据统一,数据项信息数据统一;
所述用户行为数据统一,是指多数据交互中心统一数据平台给每一位用户分配全局唯一的用户标识,从而通过所述全局唯一的用户标识打通同一用户在不同数据交互中心上的用户行为信息;
所述数据项信息数据统一,是指多数据交互中心统一数据平台定义全局唯一的数据项分类和描述信息,并将多个数据交互中心网站的数据项信息映射到所述全局唯一的数据项分类及描述信息中,采用统一的方式记录不同数据交互中心的数据项信息,打通同一或类似数据项在不同数据交互中心上的数据项信息,消除不同数据交互中心对数据项信息描述的差异性。
步骤102,获取用户推荐请求及用户当前行为信息。
具体地,所述用户推荐请求及用户当前行为信息包括:用户登录某数据交互中心网站、用户浏览某数据交互中心网站;
进一步,所述用户推荐请求及用户当前行为信息,是指正在发生的用户行为信息,并由此次用户行为触发用户在多数据交互中心统一数据平台的信息推荐请求。
步骤103,根据所述用户的浏览特征及所述用户的历史浏览行为信息预测用户行为意图。
具体地,所述用户行为意图包括:用户意图类目,用户意图类目下的意图标签,用户意图值。
步骤104,采用基于统一标识的多数据交互中心推荐算法结合用户行为意图数据生成与用户当前行为匹配的推荐信息。
其基本步骤包括:
通过后台服务器,对多数据交互中心数据项映射列表数据进行离线计算。并通过定期的方式对该映射列表数据进行维护更新,参考图8;
根据用户在数据交互中心中的数据项喜好,通过计算数据项映射列表中数据项的资源分值序列,来获取待推荐的数据项列表,参考图9;
依据用户的当前访问行为意图数据,对待推荐的数据项列表进行数据字段的匹配,过滤待推荐的数据项列表,并形成最终的数据项推荐列表,参考图10。
步骤105,将推荐结果返回给用户。
如图2所示为本发明实施例的多数据交互中心统一数据平台更新示意图,所述更新方法包括以下步骤:
步骤201,从多个数据交互中心处获取用户行为数据及数据项信息数据。
具体地,所述多个数据交互中心,是指有合作关系的数据交互中心,所述获取用户行为数据及数据项信息数据的方式为合作数据交互中心主动提供,以及所述合作数据交互中心允许的信息爬取及内容监听等方式。
步骤202,判断是否有数据更新需求,若有更新需求则执行步骤203,否则执行步骤204。
具体地,当有新合作数据交互中心加入,或有数据项信息变动通知,或用户获取推荐信息的事件时会触发数据更新的需求。
步骤203,判断数据更新需求的类别。
具体地,根据三种不同数据更新需求的特点,判断所述数据更新需求的类别;
进一步,若所述数据更新需求来自已有数据交互中心数据项信息更新的需求,则执行步骤205,若所述数据更新需求来自新加入数据交互中心的数据更新需求,则执行步骤206,若所述数据更新需求来自用户获取推荐信息的事件触发,则执行步骤207。
步骤204,若无数据更新需求,或数据更新需求已完成,则进入下一步处理。
具体地,所述下一步处理是指图1中的步骤103预测用户行为意图,或步骤104采用基于统一标识的多数据交互中心推荐算法结合用户行为意图数据生成与用户当前行为匹配的推荐信息。
步骤205,统一数据平台中已有数据交互中心的数据项信息变动,触发数据更新需求,则执行步骤209。
具体地,接收已有数据交互中心所述数据项信息发生变动时,主动捕获或接收数据交互中心发送的数据项信息变动通知,并从所述变动通知中获取需要更新的数据项信息数据。
进一步,所述数据项信息变动所需要的数据来源包括:所述已有数据交互中心在数据项信息更新的同时提供的数据项信息变动通知及对应数据项信息更新数据,所述已有数据交互中心允许的定期或不定期地对所述数据交互中心网站中数据项信息的爬取和收集。
步骤206,新数据交互中心加入所述统一数据平台时,触发的数据更新需求,则执行步骤208和步骤210。
具体地,多数据交互中心统一数据平台向至少一个新数据交互中心发送获取所述用户行为数据及数据项信息数据的请求消息;
多数据交互中心统一数据平台接收所述至少一个新数据交互中心返回的所述用户行为数据及数据项信息数据。
进一步,所述新数据交互中心加入统一数据平台所需要的数据来源包括:所述新数据交互中心提供的用户行为数据及数据项信息数据。
步骤207,数据交互中心检测到来自用户的获取推荐信息事件,触发的数据更新需求,则执行步骤210。
具体地,接收用户访问所述已有数据交互中心时,主动捕获用户行为信息变动通知,并从所述变动通知中获取需要更新的用户行为数据;
进一步,所述来自用户的获取推荐信息的触发事件包括:用户登录所述某数据交互中心、用户浏览所述某数据交互中心。
步骤208,对不存在于多数据交互中心的统一数据平台中的新数据交互中心,给所述新数据交互中心分配全局统一的唯一数据交互中心标识。
具体地,所述全局唯一是在所述多数据交互中心的统一数据平台中全局唯一,是由所述数据平台分配的,用于区分多个数据交互中心的标识;
进一步,所述全局统一的唯一数据交互中心标识是一个长度固定的字符串。
步骤209,多数据交互中心统一数据平台进行数据项信息的更新。
具体地,所述数据项信息更新包括所述已有数据交互中心的数据项增加,数据项删除,以及数据项名称、分类、描述、评价等统一数据平台中所有相关数据项信息的更改。
进一步,进行所述信息更新的数据项包括:所述已有数据交互中心的有更新需求的数据项,新加入数据交互中心网站上的所有数据项。
进一步,具体的所述数据项信息更新的更新步骤及规则参考图3。
步骤210,多数据交互中心统一数据平台进行用户行为信息的更新。
具体地,所述用户行为信息的更新的数据源包括:所述数据交互中心主动提供的用户行为信息,当用户访问所述已有数据交互中心网站时,多数据交互中心统一数据平台主动捕获的用户行为信息;
进一步,所述用户行为信息的更新包括已有用户信息及用户选定、浏览行为的添加,新用户信息及行为的添加;
进一步,具体的所述用户行为信息更新的更新步骤及规则参考图4。
步骤211,将更新的数据信息存入统一的数据平台。
具体地,所述更新的数据信息包括:用户行为数据,数据项信息数据;
在所述统一的数据平台中,用户行为数据统一保存,不区分所述用户行为是否来自不同的数据交互中心,打通同一个用户在不同数据交互中心之间的用户行为;
在所述统一的数据平台中,数据项信息数据按照不同的数据交互中心分别保存,但对于数据项的分类及描述等信息则按照所述统一数据平台中的统一规定;
进一步,当更新的数据信息存入统一的数据平台之后,此次数据更新结束,继而进入下一次数据更新,执行步骤202。
如图3所示为本发明实施例的多数据交互中心数据平台数据项信息更新流程示意图,所述更新方法包括以下步骤:
步骤301,读取多数据交互中心统一数据平台中某数据交互中心的全局统一的唯一标识。
具体地,所述某数据交互中心的全局统一的唯一标识,包括:对已有数据交互中心从统一数据平台中获取所述数据交互中心的全局统一的唯一标识,对新加入数据交互中心分配全局统一的唯一标识。
步骤302,从更新或新加入的数据交互中心中,读取需要更新的数据项信息。
步骤303,将所述更新或新加入的数据交互中心中的数据项信息映射到多数据交互中心统一数据平台中规定的数据项分类及描述中。
具体地,所述多数据交互中心统一数据平台中,已规定一套全局统一的数据项分类及描述方法;
接收所述更新或新加入的数据交互中心中的数据项信息后,多数据交互中心统一数据平台会将此所述数据交互中心的数据项信息映射到所述全局统一的数据项分类及描述方法上;
将映射后的数据项信息保存到所述多数据交互中心统一数据平台中。
如图4所示为本发明实施例的多数据交互中心数据平台用户行为信息更新流程示意图,所述更新方法包括以下步骤:
步骤401,读取用户标识信息,形成用户“指纹”。
具体地,所述用户标识信息包括:用户登录某数据交互中心的用户名,用户所使用电脑的IP信息,用户的行为模式信息;
进一步,若所述用户在某数据交互中心上使用用户名登陆,则以此作为用户的“指纹”信息,若所述用户只有浏览行为,则根据用户所使用电脑的IP信息,用户的行为模式信息综合为所述用户的“指纹”信息;
所述形成用户“指纹”是指,根据所述用户标识信息,全方位的、尽量精准的确定所述用户的身份。
步骤402,判断此用户是否为多数据交互中心统一数据平台中的已有用户,若是所述已有用户,则执行步骤403,否则执行步骤404。
具体地,根据所述用户“指纹”信息,和所述统一数据平台中已有用户的对应信息进行匹配,若匹配成功则代表所述用户为统一数据平台中已有用户,否则为新用户;
进一步,若所述用户在某数据交互中心上使用用户名登陆,数据库表格中存有已有用户在不同数据交互中心登陆的用户名,则判断所属数据交互中心上的所述登陆用户名是否在统一的数据平台中存在,若存在则代表此为所述已有用户,若不存在则代表此为新用户;
若所述用户只有浏览行为,则根据用户所使用电脑的IP信息,用户的行为模式信息,判断所述用户的电脑IP信息和用户行为模式信息是否和统一数据平台中的用户信息匹配,若匹配则代表此为所述已有用户,若不匹配则代表此为新用户;
进一步,根据所述用户“指纹”信息进行用户身份的识别和匹配,大量用户都能被正确识别,较低的用户不正确识别率也在允许范围之内。
步骤403,对多数据交互中心的统一数据平台中的已有用户,返回所述用户的全局统一的唯一标识。
具体地,当判断所述用户为所述统一数据平台中的已有用户后,读取统一数据平台中所述用户的全局统一的唯一标识;
进一步,将此标识返回给所述用户,所述用户之后产生的一系列行为信息,都将记录在此标识下;
进一步,所述全局统一的唯一用户标识是一个长度固定的字符串。
步骤404,对不存在于多数据交互中心统一数据平台中的新用户,给所述新用户分配全局统一的唯一用户标识。
所述新用户之后产生的一系列行为信息,都将记录在新分配的所述唯一用户标识下。
步骤405,从更新或新加入的用户中,读取用户的行为信息,并保存到所述多数据交互中心的统一数据平台中。
如图5所示为本发明实施例的预测用户行为意图流程示意图,所述预测方法包括以下步骤:
步骤501,获取用户最后一次选定行为后的浏览行为数据。
具体的,根据用户的唯一标识,从多数据交互中心的统一数据平台中获取用户在当前数据交互中心中最近一次会话的行为信息。
进一步,从所述行为信息中按照行为时间获取最后一次选定行为后的所有浏览信息。
步骤502,判断用户的浏览行为是否大于0次,若大于0次则执行步骤503,若等于0次则执行步骤504。
步骤503,根据用户的浏览行为计算用户的浏览特征,并根据所述浏览行为及浏览特征计算用户的浏览意图,并执行步骤505。
步骤504,若用户的浏览行为等于0次则说明用户暂时无浏览记录,此时将用户的行为意图置为空,并执行步骤505。
步骤505,输出用户的行为意图。
所述用户的行为意图包括用户意图类目、用户在意图类目下的意图标签、用户的意图值3部份。
如图6所示为本发明实施例的计算用户浏览意图的流程示意图,所述计算方法包括以下步骤:
步骤601,根据用户的浏览行为从统一数据平台中获取浏览数据项的时间,浏览数据项的特定数据,浏览数据项的类目,浏览数据项的标签。
进一步获取用户浏览数据项的时间间隔,若用户只有一次浏览时间,则时间间隔为0,若有n次浏览行为{t1,t2…tn},其中ti表示用户浏览数据项的时间,则时间间隔为其中,
步骤602,获取用户浏览时间的特征,浏览数据项的类目、行为、标签相似性特征。
用户浏览时间的特征采用步骤601中时间间隔的标准差、均值来刻画,其中时间间隔的均值的计算方式为:
时间间隔的标准差计算方式为:
进一步,获取用户的浏览数据项的序列。若用户只有1次浏览行为,则用户浏览数据项的类目、行为、标签相似性特征均记为0,若有k(k>1)个浏览数据项{I1,I2,…Ik},则
浏览数据项的类目相似性特征的计算方式为:
其中, depth(Ii)∩depth(Ii+1)表示Ii,Ii+1的公共路径深度,depth(Ii)∪depth(Ii+1)表示各自路径深度减去公共路径深度,depth(Ii)表示数据项Ii的类目树深度。
浏览数据项的标签相似性特征的计算方式为:
其中,tag(Ii)∩tag(Ii+1)表示Ii,Ii+1的公共标签数量,tag(Ii)∪tag(Ii+1)表示各自标签数量减去公共标签数量,tag(Ii)表示数据项Ii的标签集合。
浏览数据项的行为相似性特征的计算方式为:
其中,act(Ii)∩act(Ii+1)表示Ii,Ii+1的共有行为数,act(Ii)∪act(Ii+1)表示各自行为数减去共有行为数,act(Ii)表示对数据项Ii有浏览行为的用户集合。
步骤603,根据用户的行为及步骤602计算出来的用户浏览特征来计算用户的行为意图。计算完毕后执行步骤604。
步骤604,输出用户的行为意图。
如图7所示为本发明实施例的计算用户行为意图的流程示意图,所述计算方法包括以下步骤:
步骤701,读取用户行为数据、用户浏览特征数据。
具体而言,从步骤601读取用户的浏览行为数据,浏览数据项的类目、标签数据,从步骤602中读取用户浏览特征数据。
步骤702,根据用户的浏览行为数据,浏览数据项的类目、标签数据计算用户意图类目。
具体而言,计算用户浏览过所有类目的意图,最后取前m(m一般取2或3)个作为意图类目,其中每个类目c的意图计算方式为:
Intention(c)=λ0+λ1·num(c)+λ2·time(c)
其中,num(c)表示用户浏览类目c的次数,time(c)表示用户浏览类目c的停留时间,λ0、λ1、λ2为离线计算的参数。
步骤703,结合用户的意图类目及数据项的标签,计算用户在意图类目下的意图标签。我们采用TF-IDF的方法来计算每个意图类目的标签。
具体地,读取意图类目下所有数据项的标签,并且每个数据项作为一个单独实体,最后采用TF-IDF计算所有标签的权重,并返回前K(K一般为10-30)个权重最高的标签作为该意图类目下的意图标签。
步骤704,从步骤701中获取用户浏览特征,通过逻辑回归方法计算用户的意图值。其计算方式如下:
其中,βT x=a0+a1·F1+a2·F2+a3·F3+a4·F4+a5·F5,
F1,F2,F3,F4,F5表示用户的浏览特征,计算方法见步骤602,a0、a1、a2、a3、a4、a5为离线计算的参数,f(x)表示用户的意图值,该值直接表示用户的行为意图的概率。
步骤705,综合步骤702、703、704的结果数据,输出意图类目、意图类目下的意图标签、意图值。
图8所示的为数据交互中心数据项映射列表的生成流程图。其主要包含如下步骤:
步骤801,构建用户-数据项二部分图:
通过用户行为数据构建二部分图。在由m个用户和n个数据项构成的推荐引擎中,构建一个具有m+n个节点的二部分图。如果用户i选择过数据项j。则在i和j之间建立一条连边,记录aij=1(i=1,2,…,m;j=1,2,…,n),否则aij=0。二部分图数据以矩阵形式存储。
步骤802,构建数据项映射列表:
在本发明中,这个过程一般采用离线计算的方式,每积累一定量新数据再进行更新。对应每一个数据项,数据项映射表的规模为S*N项,其中S为一个数据项映射为其他数据交互中心数据项的最大数目,N为本发明中包含的数据交互中心数。该过程表示为,为当前数据交互中心的数据项筛选出在每一个数据交互中心中,与该数据项具有最强关联的前S个数据项,如此构建的一个映射列表作为待选推荐列表。
根据以上描述的流程,遍历全部数据交互中心,为全局的每一个数据项建立一张数据项映射表。
图9为图8步骤802中描述的构建数据项映射列表的执行流程图,其主要步骤包含如下:
步骤901,初始化用户集合及控制参数,将读入数据项的资源值赋为1:
用户集合为与当前数据项在用户-数据项二部分图中有连边的用户集合。装载用户数据,包含用户节点的度及所述用户与其他数据项的连边关系。
初始化算法控制参数。这里用于对算法进行收敛控制。主要使用2个参数S和M。其中S为一个数据项映射为其他数据交互中心数据项的最大数目,该值一般初始化为20。M为最大资源扩散步数,该值一般初始化为5。
针对当前需要进行映射的数据项,对其资源分值赋值为1。
步骤902计算数据项集合中每个数据项的度,并按照此度的大小将数据项的资源值分给对应的用户节点,最后将用户及其叠加的资源值替换至当前的用户集合,其主要步骤包含如下:
从资源分值不为0的数据项开始,根据数据项的度将其具有的资源分值分配给在用户-数据项二部分图中与该数据项有连边的用户。
资源分配函数为:
其中为用户j从数据项i处获得的资源分值,gi为数据项i当前具有的资源分值,取值范围为[0,1],ki为数据项i的度。
遍历全部资源分值不为0的数据项,进行资源分值分配。最后将每一个用户获得的资源分值叠加,作为其资源分值。
每个用户获得的资源得分为:
步骤903,计算用户集合中每个用户的度,并按照此度的大小将用户的资源值分给对应的数据项节点,最后将数据项及其叠加的资源值替换至当前的数据项集合:
从资源分值不为0的用户开始,根据用户的度将其具有的资源分值平均分配给在用户-数据项二部分图中与该用户有连边的数据项。
资源分配函数为:
其中为数据项i从用户j处获得的资源分值,uj为用户j当前具有的资源分值,取值范围为[0,1],kj为用户j的度。
遍历全部资源分值不为0的用户,进行资源分值分配。最后将每一个数据项获得的资源分值叠加,作为其资源分值。
每个数据项获得的资源得分为:
步骤904,参数判定终止:
数据项列表条目数为S。判断每个数据交互中心的数据项列表中,资源分值不为0的数据项数是否均大于S。当全部数据交互中心列表中的数据均大于S时,算法停止。
扩散步数M。判断当前扩散执行的步数是否大于阈值M。当目前的扩散执行步数大于阈值M时,算法停止。
当以上两个参数判定达成任意一项的时候,算法执行结束。否则算法继续从步骤902执行。
从步骤902至步骤905定义为一步扩散。
步骤905,对数据项列表资源分值进行归一化形成数据项映射表:
算法执行完毕后,对每一个数据交互中心的数据项列表依据数据项资源分值在列表中所占比例进行归一化处理,使得每一个数据交互中心的数据项列表中的数据项资源分值之和为1。
图10为多数据交互中心统一数据平台的个性化推荐方法,生成推荐列表的执行流程图。其方法为根据用户喜好的数据项的映射列表,叠加所述全部数据项映射列表中相同数据项的归一化分值,选其中值最大的前K个数据项,作为待选数据项推荐列表,其主要执行步骤如下:
用户通过对数据交互中心页面的访问,发起推荐请求服务;
通过用户的历史行为数据筛选出用户感兴趣的数据交互中心的数据项;
叠加用户喜好的数据项对应的目标数据交互中心的数据项映射数据列表中的归一化分值,并依据分值对其进行排序,筛选出其中值最大的前K个数据项形成待选数据项推荐列表。所述喜好数据项分为历史选定的数据项及历史浏览的数据项,分别对其生成待选数据项推荐列表;
依据用户的意图数据,通过对待选数据项推荐列表进行数据项信息中字段的匹配,对其进行数据项过滤,形成最终的推荐列表。
步骤1001,生成推荐列表:
根据用户意图数据,预测用户的不同意图倾向,最终推荐列表的生成方式具有以下几种:
根据用户的行为意图不同,生成推荐列表时使用到的数据集合不同。当用户有明确的选定倾向时,选用当前意图类目下含有意图标签的数据项生成待推荐数据项列表;当用户没有明确的选定倾向时,选用历史浏览记录生成的待推荐数据项列表。
根据用户的行为意图数据中用户倾向的数据项属性字段的不同,筛选出对应属性的数据项,形成推荐列表。
根据用户的行为意图数据中用户倾向的数据交互中心字段的不同,选择待选推荐数据项列表,形成推荐列表。
生成推荐列表的过程中一般选用多种不同数据交互中心数据项映射列表,分别筛选资源分值最高的一个,综合形成推荐列表;或者根据不同的方法组合,多次对同一个数据交互中心数据项映射列表过滤后形成推荐列表。
如图11所示,本发明的基于多个数据交互中心的数据进行信息推送的方法,包括以下步骤:
步骤1101、从多个数据交互中心获取用户行为数据和数据项信息数据,通过统一数据平台进行数据整合得到用户特征数据;
步骤1102、根据得到的所述用户特征数据及所述用户的当前行为信息判断得到该用户的行为意图数据;
步骤1103、根据所述用户的用户行为意图数据生成与所述用户当前行为匹配的推荐信息;
步骤1104、向所述用户发送推荐信息。
本说明书中的各个实施例一般采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块或单元。一般地,程序模块或单元可以包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。一般来说,程序模块或单元可以由软件、硬件或两者的结合来实现。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块或单元可以位于包括存储设备在内的本地和远程计算机存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其主要思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (11)
1.一种基于多个数据交互中心的数据进行信息推送的方法,其特征在于,包括:
从多个数据交互中心获取用户行为数据和数据项信息数据,通过统一数据平台进行数据整合得到用户的特征数据;其中,所述用户行为数据包括:用户选定行为数据和用户浏览行为数据;其中,所述用户选定行为数据包括:用户选定的数据项item_id、用户选定的数据项的特定数据价格price和用户选定数据项的数量quantity;所述用户浏览行为数据包括:用户浏览的数据项item_id;所述数据项信息数据包括:数据项所在的数据交互中心client_id、数据项在所述数据交互中心上的标识信息item_id、数据项的名称item_name、数据项的分类cat、数据项的关键词key_word、price数据项的特定数据、数据项的描述introduce、数据项被浏览的次数browse_times、数据项被选定的次数buy_times、数据项的评分score和数据项的评论reviews;
根据得到的所述用户特征数据及该用户的当前行为信息判断得到该用户的行为意图数据;
根据所述用户的用户行为意图数据生成与该用户当前行为匹配的推荐信息;
向该用户发送推荐信息;
所述根据得到的所述用户特征数据及该用户的当前行为信息判断得到该用户的行为意图数据的步骤,包括:
获取所述用户的浏览行为并计算该用户的浏览特征;
根据该用户的浏览特征计算得到该用户的行为意图数据;其中用户的行为意图数据包括:用户意图类目、用户意图类目下的意图标签和用户意图值;
所述获取所述用户的浏览行为并计算该用户的浏览特征的步骤,包括:
分析用户的浏览时间特征,通过该用户浏览时间间隔获取该用户的浏览时间特征,其中所述浏览时间特征包括浏览时间间隔均值和浏览时间间隔标准差;
分析用户浏览数据项的特征,通过该用户浏览数据项的相似性获取用户浏览数据项的特征,其中所述浏览数据项的特征包括用户浏览数据项的类目、行为和标签相似性特征;
所述根据所述用户的浏览特征计算得到所述用户的行为意图数据的步骤,包括:
计算所述用户的用户意图类目,通过所述用户浏览数据项的类目信息计算用户最感兴趣的类目,并将所述类目作为该用户的用户意图类目;
计算所述用户的用户意图类目下的意图标签,通过所述用户意图类目计算用户在所述类目下最感兴趣的标签集,并且所述标签集作为所述用户在所述用户意图类目下的意图标签;
计算所述用户的用户意图值,通过所述用户的浏览特征计算所述用户的意图值,其中采用逻辑回归的方式将所述用户的浏览特征映射为在0至1区间中的一个值,并将所述值作为所述用户的用户意图值;
其中,所述浏览时间间隔的均值的计算方式为:
时间间隔的标准差计算方式为:
获取用户浏览数据项的时间间隔,若用户只有一次浏览时间,则时间间隔为0,若有n次浏览行为{t1,t2,…tn},其中ti表示用户浏览数据项的时间,则时间间隔为其中,
进一步,获取用户的浏览数据项的序列,若用户只有1次浏览行为,则用户浏览数据项的类目、行为、标签相似性特征均记为0,若有k(k>1)个浏览数据项{I1,I2,…Ik},则
浏览数据项的类目相似性特征的计算方式为:
其中,depth(Ii)∩depth(Ii+1)表示Ii,Ii+1的公共路径深度,depth(Ii)∪depth(Ii+1)表示各自路径深度减去公共路径深度,depth(Ii)表示数据项Ii的类目树深度;
浏览数据项的标签相似性特征的计算方式为:
其中,tag(Ii)∩tag(Ii+1)表示Ii,Ii+1的公共标签数量,tag(Ii)∪tag(Ii+1)表示各自标签数量减去公共标签数量,tag(Ii)表示数据项Ii的标签集合;
浏览数据项的行为相似性特征的计算方式为:
其中,act(Ii)∩act(Ii+1)表示Ii,Ii+1的共有行为数,act(Ii)∪act(Ii+1)表示各自行为数减去共有行为数,act(Ii)表示对数据项Ii有浏览行为的用户集合;
其中,所述计算所述用户的用户意图类目包括:
计算用户浏览过所有类目的意图,最后取前m个作为意图类目,m取2或3,其中每个类目c的意图计算方式为:
Intention(c)=λ0+λ1·num(c)+λ2·time(c)
其中,num(c)表示用户浏览类目c的次数,time(c)表示用户浏览类目c的停留时间,λ0、λ1、λ2为离线计算的参数;
其中,计算所述用户的用户意图类目下的意图标签包括:
读取意图类目下所有数据项的标签,并且每个数据项作为一个单独实体,最后采用TF-IDF计算所有标签的权重,并返回前K个权重最高的标签作为该意图类目下的意图标签,K为10-30;
其中,计算所述用户的用户意图值包括:
通过逻辑回归方法计算用户的意图值,其计算方式如下:
其中,βTx=a0+a1·F1+a2·F2+a3·F3+a4·F4+a5·F5,
F1,F2,F3,F4,F5表示用户的浏览特征,a0、a1、a2、a3、a4、a5为离线计算的参数,f(x)表示用户的意图值,该意图值直接表示用户的行为意图的概率。
2.如权利要求1所述的方法,其特征在于,
所述从多个数据交互中心获取用户行为数据和数据项信息数据,通过统一数据平台进行数据整合得到该用户的用户特征数据的步骤,包括:
向至少一个新的数据交互中心发送获取所述用户行为数据及数据项信息数据的请求消息;
接收所述至少一个新的数据交互中心返回的所述用户行为数据及数据项信息数据,给所述新数据交互中心分配全局唯一的数据交互中心标识;
根据所述新的数据交互中心返回的所述用户行为数据及数据项信息数据,更新统一数据平台。
3.如权利要求1所述的方法,其特征在于,
所述从多个数据交互中心获取用户行为数据和数据项信息数据,通过统一数据平台进行数据整合得到该用户的用户特征数据的步骤,还包括:
判断若接收的已有数据交互中心的所述数据项信息数据发生变更时,则捕获或接收该数据交互中心发送的数据项信息变动通知,根据所述数据项信息变动通知更新所述统一数据平台中的数据项信息数据;
判断若所述用户访问所述已有数据交互中心网站时,则捕获用户行为信息变动通知,根据所述用户行为信息变动通知更新所述统一数据平台中的用户行为数据。
4.如权利要求2或3所述的方法,其特征在于,还包括:
判断若某数据交互中心所述数据项信息数据需要更新,则将该数据交互中心的所述数据项信息数据映射到所述统一数据平台中规定的数据项分类及描述中,再将统一后的数据项信息数据保存于该数据交互中心的数据表中。
5.如权利要求2或3所述的方法,其特征在于,还包括:
判断若所述用户行为信息需要更新,则判断该用户是否为所述统一数据平台中已有用户;
判断若为已有用户,则返回所述已有用户的全局统一标识,用于标识所述已有用户的行为;
判断若不为所述已有用户,则给该用户分配新的全局唯一的用户标识。
6.如权利要求1所述的方法,其特征在于,
所述根据所述用户的用户行为意图数据生成与所述用户当前行为匹配的推荐信息的步骤,包括:
根据数据交互中心提供的用户选定行为数据计算各个数据交互中心之间的数据项资源分值;
根据得到的所述数据项资源分值,生成多数据交互中心的数据项映射列表;
根据得到的数据项之间的数据项映射列表及用户行为意图数据,生成所述用户的推荐信息。
7.如权利要求6所述的方法,其特征在于,
所述根据数据交互中心提供的用户选定行为数据计算各个数据交互中心之间的数据项资源分值的步骤,包括:
构建数据交互中心集合S,根据该数据交互中心集合S中全部用户选定行为数据构建用户-数据项无向二部分图;
根据数据交互中心数据项条目,构建数据项集合G,对其中的数据项进行初始资源分值分配,并根据数据项度及用户度对数据项资源进行多步资源扩散。
8.如权利要求6所述的方法,其特征在于,
所述根据得到的所述数据项资源分值,生成多数据交互中心的数据项映射列表的步骤,包括:根据资源分配次数及映射表规模的阈值生成当前数据项的数据项映射列表。
9.如权利要求6所述的方法,其特征在于,
所述根据得到的数据项之间的数据项映射列表及用户行为意图数据,生成所述用户的推荐信息的步骤,包括:
根据多数据交互中心的数据项映射列表,生成待选数据项推荐列表;
根据用户的用户行为意图数据,从所述待选数据项推荐列表中匹配数据项信息并进行过滤,生成该用户的推荐信息。
10.如权利要求9所述的方法,其特征在于,
所述根据多数据交互中心的数据项映射列表,生成待选数据项推荐列表的步骤,包括:
根据用户喜好数据项的数据项映射列表,对其中各个数据项获得的资源分值进行归一化,叠加该用户喜好数据项的全部数据项映射列表中相同数据项的归一化分值,选其中值最大的前K个数据项,作为待选数据项推荐列表,K为预设值,K大于0。
11.如权利要求9所述的方法,其特征在于,
所述根据用户的用户行为意图数据,从所述待选数据项推荐列表中匹配数据项信息并进行过滤,生成所述用户的推荐信息的步骤,包括:
根据用户行为意图数据中的用户倾向的数据项特定数据范围字段,过滤出推荐列表中特定数据适当的数据项,生成推荐列表;
或者根据用户行为意图数据中用户倾向的数据项类目字段的差异,筛选出相应类目的数据项,生成推荐列表;
或者根据用户推荐数据中用户倾向的数据项属性字段的差异,筛选出对应属性的数据项,生成推荐列表;
或者根据用户行为意图数据中用户倾向的数据交互中心字段的差异,选择待选推荐数据项列表,生成推荐列表;
或者根据上述多个字段,综合筛选生成推荐列表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310039741.6A CN103118111B (zh) | 2013-01-31 | 2013-01-31 | 一种基于多个数据交互中心的数据进行信息推送的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310039741.6A CN103118111B (zh) | 2013-01-31 | 2013-01-31 | 一种基于多个数据交互中心的数据进行信息推送的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103118111A CN103118111A (zh) | 2013-05-22 |
CN103118111B true CN103118111B (zh) | 2017-02-08 |
Family
ID=48416381
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310039741.6A Active CN103118111B (zh) | 2013-01-31 | 2013-01-31 | 一种基于多个数据交互中心的数据进行信息推送的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103118111B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104281574A (zh) * | 2013-07-01 | 2015-01-14 | 腾讯科技(深圳)有限公司 | 一种信息推荐方法、装置及系统 |
CN103428076A (zh) * | 2013-08-22 | 2013-12-04 | 北京奇虎科技有限公司 | 向多类型终端或应用发送信息的方法和装置 |
CN103500215A (zh) * | 2013-09-30 | 2014-01-08 | 乐视网信息技术(北京)股份有限公司 | 一种多媒体文件推荐方法及装置 |
CN104252660B (zh) * | 2013-12-04 | 2018-03-20 | 深圳市华傲数据技术有限公司 | 一种属性集推荐方法和装置 |
CN106295832B (zh) * | 2015-05-12 | 2020-05-19 | 阿里巴巴集团控股有限公司 | 产品信息推送方法及装置 |
CN105610929A (zh) * | 2015-12-24 | 2016-05-25 | 北京奇虎科技有限公司 | 一种个性化的数据推送方法和装置 |
CN105959374B (zh) * | 2016-05-12 | 2019-05-03 | 腾讯科技(深圳)有限公司 | 一种数据推荐方法及其设备 |
CN106022800A (zh) * | 2016-05-16 | 2016-10-12 | 北京百分点信息科技有限公司 | 一种用户特征数据的处理方法和装置 |
CN105956161B (zh) * | 2016-05-17 | 2019-07-02 | 北京奇虎科技有限公司 | 一种信息推荐方法和装置 |
CN107783987B (zh) * | 2016-08-25 | 2022-03-04 | 腾讯科技(深圳)有限公司 | 一种数据处理方法及装置 |
CN108270660A (zh) * | 2017-01-04 | 2018-07-10 | 腾讯科技(深圳)有限公司 | 消息的快捷回复方法及装置 |
CN108664375B (zh) * | 2017-03-28 | 2021-05-18 | 瀚思安信(北京)软件技术有限公司 | 用于检测计算机网络系统用户的异常行为的方法 |
CN107766426B (zh) * | 2017-09-14 | 2020-05-22 | 北京百分点信息科技有限公司 | 一种文本分类方法、装置及电子设备 |
CN107885796B (zh) * | 2017-10-27 | 2020-04-17 | 阿里巴巴集团控股有限公司 | 信息推荐方法及装置、设备 |
CN109656903A (zh) * | 2018-10-30 | 2019-04-19 | 成都飞机工业(集团)有限责任公司 | 一种智能推送管控中心模块的方法 |
CN109800354B (zh) * | 2019-01-09 | 2021-06-08 | 考拉征信服务有限公司 | 一种基于区块链存储的简历修改意图识别方法及系统 |
CN113694540B (zh) * | 2021-09-01 | 2024-03-12 | 深圳市乐天堂科技有限公司 | 一种智能发送消息方法、系统、存储介质以及终端 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102364468A (zh) * | 2011-09-29 | 2012-02-29 | 北京亿赞普网络技术有限公司 | 一种用户网络行为分析方法、装置和系统 |
-
2013
- 2013-01-31 CN CN201310039741.6A patent/CN103118111B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102364468A (zh) * | 2011-09-29 | 2012-02-29 | 北京亿赞普网络技术有限公司 | 一种用户网络行为分析方法、装置和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN103118111A (zh) | 2013-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103118111B (zh) | 一种基于多个数据交互中心的数据进行信息推送的方法 | |
CN106156127B (zh) | 选择数据内容向终端推送的方法及装置 | |
KR101793222B1 (ko) | 어플리케이션 검색들을 가능하게 하기 위해 사용되는 검색 인덱스의 업데이트 | |
CN102483745B (zh) | 共同选择图像分类 | |
CN111708949B (zh) | 医疗资源的推荐方法及装置、电子设备、存储介质 | |
US9390142B2 (en) | Guided predictive analysis with the use of templates | |
US20160364736A1 (en) | Method and system for providing business intelligence based on user behavior | |
CN109255586B (zh) | 一种面向电子政务办事的在线个性化推荐方法 | |
US11455660B2 (en) | Extraction device, extraction method, and non-transitory computer readable storage medium | |
US20060184464A1 (en) | System and methods for data analysis and trend prediction | |
CN108334632B (zh) | 实体推荐方法、装置、计算机设备和计算机可读存储介质 | |
CN102855309B (zh) | 一种基于用户行为关联分析的信息推荐方法及装置 | |
CN108596695B (zh) | 实体推送方法及系统 | |
Javari et al. | Recommender systems based on collaborative filtering and resource allocation | |
Manca et al. | Behavioral data mining to produce novel and serendipitous friend recommendations in a social bookmarking system | |
CN113254630B (zh) | 一种面向全球综合观测成果的领域知识图谱推荐方法 | |
CN111859160A (zh) | 一种基于图神经网络会话序列推荐方法及系统 | |
Ortega et al. | Artificial intelligence scientific documentation dataset for recommender systems | |
Kim et al. | Recommendation system for sharing economy based on multidimensional trust model | |
Martín-Bautista et al. | User profiles and fuzzy logic for web retrieval issues | |
CN103699603A (zh) | 一种基于用户行为的信息推荐方法和系统 | |
CN112632405A (zh) | 一种推荐方法、装置、设备及存储介质 | |
WO2015042290A1 (en) | Identifying gaps in search results | |
CN114419501A (zh) | 视频推荐方法、装置、计算机设备及存储介质 | |
Mehtaa et al. | Web personalization using web mining: concept and research issue |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: 100080 No.101, 1st floor, building 14, No.27, Jiancai Chengzhong Road, Haidian District, Beijing Patentee after: Beijing PERCENT Technology Group Co.,Ltd. Address before: 100080 18 / F, block B, China Technology Trading Building, 66 Beisihuan West Road, Haidian District, Beijing Patentee before: BEIJING BAIFENDIAN INFORMATION SCIENCE & TECHNOLOGY Co.,Ltd. |
|
CP03 | Change of name, title or address |