CN107767153B - 一种数据处理方法及装置 - Google Patents

一种数据处理方法及装置 Download PDF

Info

Publication number
CN107767153B
CN107767153B CN201610678105.1A CN201610678105A CN107767153B CN 107767153 B CN107767153 B CN 107767153B CN 201610678105 A CN201610678105 A CN 201610678105A CN 107767153 B CN107767153 B CN 107767153B
Authority
CN
China
Prior art keywords
user
newly added
message
application
equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610678105.1A
Other languages
English (en)
Other versions
CN107767153A (zh
Inventor
周小惠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Beijing Co Ltd
Original Assignee
Tencent Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Beijing Co Ltd filed Critical Tencent Technology Beijing Co Ltd
Priority to CN201610678105.1A priority Critical patent/CN107767153B/zh
Publication of CN107767153A publication Critical patent/CN107767153A/zh
Application granted granted Critical
Publication of CN107767153B publication Critical patent/CN107767153B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例提供一种数据处理方法及装置,其中,所述方法包括:接收阅读类应用的访问请求,所述阅读类应用包括新闻类应用和/或信息分享类应用;判断发送所述访问请求的设备是否为新增设备,所述新增设备为访问所述阅读类应用的累计次数小于N的设备,所述N为大于或等于1的正整数;当发送所述访问请求的设备是新增设备时,获取与所述新增设备的设备标识对应的用户特征;所述用户特征为与使用所述新增设备的用户阅读喜好相关的关联信息;提取所述阅读类应用中待推送消息的消息特征;将所述消息特征与所述用户特征进行匹配;将所述待推送消息中与所述用户特征相匹配的消息推送给所述新增设备。

Description

一种数据处理方法及装置
技术领域
本发明涉及数据处理领域,具体涉及一种数据处理方法及装置。
背景技术
目前,已逐渐有不少应用能够根据用户的兴趣为用户推送有价值的、个性化的信息。对于这些应用而言,每天都可能新增大量用户,因此,如何提高这些新增用户的留存率成为这些应用增加用户量的主要发展方向之一。然而,由于起初无法获取这些新增用户的兴趣模型,只能进行盲人摸象式的推荐,无法保证推荐给这些新增用户的信息与这些新增用户的兴趣相关。若前几次推荐的信息与用户的兴趣不相关,容易造成用户最终的流失。若根据这些用户对前几次推荐的信息的反馈数据进行分析,延迟较大,很容易在获得用户的兴趣模型之前,用户就已经流失。例如,对于阅读类应用每天的新增用户,由于阅读类应用对这些用户的信息毫无所知,无法根据这些用户的兴趣推荐用户喜欢的内容,只能推荐一些实时的热点新闻或热点信息,这样很难保证新增用户的留存。
发明内容
有鉴于此,本发明期望提供一种数据处理方法及装置,至少能解决上述问题之一。
本发明的技术方案是这样实现的:
本发明实施例提供了一种数据处理方法,所述方法包括:
接收阅读类应用的访问请求;所述阅读类应用包括新闻类应用和/或信息分享类应用;
判断发送所述访问请求的设备是否为新增设备;所述新增设备为访问所述阅读类应用的累计次数小于N的设备,所述N为大于或等于1的正整数;
当发送所述访问请求的设备是新增设备时,获取与所述新增设备的设备标识对应的用户特征;所述用户特征为与使用所述新增设备的用户阅读喜好相关的关联信息;
提取所述阅读类应用中待推送消息的消息特征;
将所述消息特征与所述用户特征进行匹配;
将所述待推送消息中与所述用户特征相匹配的消息推送给所述新增设备。
本发明实施例还提供了一种数据处理装置,所述装置包括:
检测单元,用于接收阅读类应用的访问请求;所述阅读类应用包括新闻类应用和/或信息分享类应用;
判断单元,用于判断发送所述访问请求的设备是否为新增设备;所述新增设备为访问所述阅读类应用的累计次数小于N的设备,所述N为大于或等于1的正整数;
获取单元,用于当发送所述访问请求的设备是新增设备时,获取与所述新增设备的设备标识对应的用户特征;
提取单元,用于提取所述阅读类应用中待推送消息的消息特征;
匹配单元,用于将所述消息特征与所述用户特征进行匹配;
推送单元,用于将所述待推送消息与所述用户特征相匹配的消息推送给所述新增设备。
采用本发明实施例所述技术方案,当判断出发送所述访问请求的设备为新增设备,将获取使用新增设备用户的用户特征基于所述用户特征信息向所述新增设备推送所述阅读类应用中与所述用户特征信息相适应的消息。这样,根据新增设备对应的用户特征信息来为新增设备推荐与其相适应的消息;这样,无需等到为这些新增设备推荐过几次消息之后,根据这些新增设备对前几次推荐的信息的反馈数据进行分析才获取与新增设备相关的用户特征信息,而是检测到访问阅读类应用的设备是新增设备时,就及时获取与所述新增设备相关的用户特征而且相对于盲目为新增设备推送消息的推送方式来说,能更有针对性的为新增设备推送与其兴趣相关或更贴近于其兴趣的消息,由于为新增设备推荐的消息与新用户的相关性增强,更容易引起新用户对这些被推荐的消息的兴趣,使新用户更容易查看或关注这些被推荐的消息,不容易造成新用户的流失,提高了新用户的留存率。
附图说明
图1为本发明实施例提供的数据处理方法的实现流程示意图;
图2为本发明实施例提供的通过第一种方式收集用户信息的一种示意图;
图3为本发明实施例提供的通过第二种方式收集用户信息的一种示意图;
图4为本发明实施例提供的通过第三种方式收集用户信息的一种示意图;
图5本发明实施例提供的设备标识与各应用以及用户特征信息的映射关系图;
图6本发明实施例提供的各类基本用户特征对应的用户特征信息的示意图;
图7为本发明实施例提供的数据处理装置的组成结构示意图;
图8为本发明实施例提供的数据处理系统的一种交互示意图;
图9是本发明实施例中用于实现数据处理系统的服务器的一个可选的硬件结构示意图;
图10为本发明实施例提供的数据处理系统的一种可选的结构层次框图。
具体实施方式
下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。
实施例一
本发明实施例提供一种数据处理方法,所述方法可应用于服务器侧,如图1所示,所述方法主要包括:
步骤101、接收阅读类应用的访问请求。
其中,所述阅读类应用包括新闻类应用和/或信息分享类应用。
这里,所述新闻类应用可包括腾讯新闻等新闻资讯阅读应用。
这里,所述信息分享类应用,可包括将用户编辑的文章或撰写评论进行共享的共享应用,通过这些信息分享类应用,用户能够看到他人的评论信息以及上传自己编辑的信息。
这里,所述阅读类应用可以是终端设备上已安装的应用。示例性地,终端上安装有阅读类应用,所述阅读类应用具有推送消息的功能;所述阅读类应用接收到用户输入的访问请求时,如接收到用户点击桌面上所述阅读类应用的快捷键的操作时,服务器判断检测到访问阅读类应用的访问请求。
这里,所述阅读类应用可以是终端设备上未安装的应用,但通过终端设备上已安装的第一应用能够展示所述阅读类应用的部分消息摘要或部分消息。其中,所述第一应用与所述阅读类应用是两个不同的应用。示例性地,终端上安装有第一应用,所述第一应用具有推送阅读类应用的部分消息的摘要的功能;所述第一应用接收到用户输入的访问阅读类应用的部分消息的摘要的访问请求时,如接收到用户点击所述阅读类应用的某条消息的摘要的操作时,服务器判断检测到访问阅读类应用的访问请求。
步骤102:判断发送所述访问请求的设备是否为新增设备。
其中,所述新增设备为访问所述阅读类应用的累计次数小于N的设备,所述N为大于或等于1的正整数。
如此,服务器通过实时检测发送所述访问请求的设备是否为新增设备,能够及时区分访问阅读类应用的用户是新用户还是老用户,从而便于系统更有针对性的为新用户推送与其相适应的消息。
步骤103、当发送所述访问请求的设备是新增设备时,获取与所述新增设备的设备标识对应的用户特征。
其中,所述用户特征为与使用所述新增设备的用户阅读喜好相关的关联信息。
例如,所述用户特征可包括性别、年龄、职业、居住地、工作地等。
上述方案中,在步骤101之前,所述方法还包括:
预先建立并存储设备标识与用户特征的映射关系。
这里,所述设备标识中的设备包括新增设备。
在一实施例中,所述建立设备标识与用户特征的映射关系,包括:
通过至少一种方式收集用户信息;
对通过各种方式获得的用户信息进行校正;
基于校正的结果确定用户特征;
建立设备标识与用户特征的映射关系。
这里,所述用户信息可包括关于用户喜好、用户需求、用户联系方式等一些关于用户的信息。用户信息主要分为描述类信息、行为类信息。
用户的描述类信息主要是用来理解用户的个人固有属性的信息,如个人的联系信息、地理信息、学历信息等,这类信息主要来自于用户的登记信息。所述个人固有属性为不会随着用户的个人意志为转移的信息。
用户的行为类信息一般包括用户购买服务或产品的记录、用户的消费行为,用户使用服务或产品的记录等相关的信息,这类信息主要是用户在消费和服务过程中的动态交易数据,需要实时的记录和采集。
在一可选实施方式中,所述通过至少一种方式收集用户信息,包括:
检测到访问第一应用的访问请求时,获取访问所述第一应用的账号;其中,所述第一应用是与所述阅读类应用不同的应用;所述第一应用可为社交应用和/或购物应用等非阅读类应用。社交应用可包括微信、QQ等即时通信应用。
基于所述账号从所述第一应用的数据库中离线获取与所述账号对应的用户信息;
存储发送第一应用访问请求设备的设备标识与所述账号以及所述账号对应的用户信息之间的映射关系。
这里,服务器有访问第一应用的数据库的权限。
图2示出了通过第一种方式收集用户信息的一种示意图,如图2所示,服务器检测到终端A访问第一应用的访问请求时,获取终端A访问所述第一应用的账号B;从所述第一应用的数据库中离线获取与所述账号对应的用户信息C;存储终端A的设备标识S与所述账号B以及用户信息C之间的映射关系。
如此,预先收集终端设备访问除阅读类应用之外的其他应用的记录,根据其他应用的账号以及该账号对应的用户信息,建立设备标识与所述账号以及所述账号对应的用户信息之间的映射关系。待终端设备当前未访问第一应用的前提下,发送访问阅读类应用的请求时,那么,根据所获取的访问阅读类应用的设备的标识信息也能够快速查找出与该设备标识对应的用户特征。另外,从所述第一应用的数据库中离线获取与所述账号对应的用户信息C,能避免因在线获取用户信息而对第一应用的访问速度造成影响。
在另一可选实施方式中,所述通过至少一种方式收集用户信息,包括:
离线调用数据管理平台提供的接口;其中,所述数据管理平台存储有各类应用的账号以及与所述账号对应的用户信息的对应关系;
从所述数据管理平台收集未曾访问阅读类应用的设备对应的用户信息。
图3示出了通过第二种方式收集用户信息的一种示意图,如图3所示,服务器向数据管理平台发送查询请求,基于查询结果统计访问过其他应用但未曾访问过阅读类应用的设备的标识,并统计这类设备访问过的其他应用,基于所述其他应用获取用户信息。
如此,从所述数据管理平台收集未曾访问阅读类应用的设备对应的用户信息,能够充分利用存储有各类应用的账号以及与所述账号对应的用户信息的对应关系的数据管理平台的优势。通常来说,所述各类应用与所述阅读类应用是同一公司或部门旗下的应用,所述数据管理平台的数据供所述各类应用与所述阅读类应用查询。
在又一可选实施方式中,所述通过至少一种方式收集用户信息,包括:
获取同一设备对各应用的历史访问数据;
基于所述历史访问数据预测用户信息。
这里,所述基于所述历史访问数据预测用户信息,包括:
依据预测模型对所述同一设备对各应用的历史访问数据进行预测,根据预测结果确定用户信息。
这里,可以通过现有的预测方法确定预测模型。
例如,确定预测模型的方法,包括:
对多个采样应用的历史访问数据进行统计与分析;
基于统计与分析结果确定预测模型。
例如,所述对多个采样应用的历史访问数据进行统计与分析,包括:
从已知的采样应用对应的采样历史访问数据中获取待分类的采样信息;其中,所述采样信息至少包括用于表明用户信息的信息;
对所述待分类的采样信息进行分析;
统计属于同一类别的待分类的采样信息。
所述基于统计与分析结果确定预测模型,包括:
基于所述属于同一类别的待分类的采样信息确定明确的明确正例样本和负例样本;
根据正例样本和负例样本生成训练集;如,所述训练集包括正例训练集X和负例训练集Y;正例训练集X包括i个正例样本,负例训练集Y包括j个负例样本;i≥1;j≥1;
依据所述训练集训练预测模型。
这里,可采用各种类型的训练器或分类器将历史访问数据训练预测模型。具体如何将历史访问数据训练预测模型为现有技术,在此不再赘述。
图4示出了通过第三种方式收集用户信息的一种示意图,如图4所示,服务器获取同一设备D对应用1、应用2、…、应用n的历史访问数据;基于所述历史访问数据提取与用户信息相关的信息;对所提取的信息根据各应用的可信度权重进行分析,基于同一类别信息以及各应用的可信度权重信息最终确定设备D的用户信息。例如,根据应用1的历史访问数据提取到一项信息为使用设备D的用户为男性,应用1的可信度权重为0.1;根据应用2的历史访问数据提取到一项信息为使用设备D的用户为女性,应用2的可信度权重为0.6;根据应用3的历史访问数据提取到一项信息为使用设备D的用户为女性,应用3的可信度权重为0.2;因此,将男性用1表示,女性用-1表示,1×0.1+(-1)×0.6+1×0.3=-0.2<0,最终确定使用设备D的用户的性别为女性。
如此,服务器在无法直接获取到用户信息时,也能够基于同一设备对各应用的历史访问数据预测该设备对应的用户信息。
在一实施例中,所述对通过各种方式获得的用户信息进行校正,包括:
确定通过各种方式获得的用户信息的置信度;
按照置信度对各个方式获取的用户信息进行分析;
以置信度最高的用户信息为基准,对各应用对应的每个用户特征进行校正,将置信度低的用户特征替换为置信度最高的用户特征;
建立同一设备标识下各应用的账号与所述用户特征的映射关系。
这里,所述置信度用于表示通过每一种方式所获得的用户信息的可信程度。例如,可以设定第二种方式的置信度大于第一种方式的置信度大于第三种方式的置信度。第一种方式是指通过收集其它应用的资料来获取用户信息的方式,第二种方式是指通过数据管理平台存储的资料来获取用户信息的方式,第三种方式是指通过对同一设备对各应用的历史访问数据进行预测来获取用户信息的方式。
这里,每一种方式可包括多个子方式。例如,第一种方式中,即通过收集其它应用的资料来获取用户信息,这里,所述其它应用是不同的应用,收集每一个区别于阅读类应用的其它应用的资料均可被认定第一种方式中的子方式。
举例来说,对于某一阅读类应用来说,其它应用包括微信、QQ;那么,收集微信资料来获取用户信息的方式可以作为第一种方式中的第一个子方式,收集QQ资料来获取用户信息的方式可以作为第一种方式中的第二个子方式。若微信的置信度大于QQ的置信度,则对于同一类用户信息,若微信的资料与QQ的资料显示不一致时,以微信资料中显示的这一类用户信息为准。例如,对于同一终端设备标识,QQ中注册的资料中性别为女;而微信中注册的资料中性别为男,若预先设定的置信度的优先级为微信的置信度大于QQ的置信度,则确定该终端设备标识对应的用户的性别为男。
在一可选实施方式中,所述按照置信度对各个方式获取的用户信息进行分析,包括:
分别对通过各个方式获取的用户信息进行分析,获得通过各个方式获得的用户特征。
按照置信度对同一类用户特征进行排序。
如此,服务器先可以先对用户信息进行分析,获得该用户信息对应的用户特征,然后再根据用户信息的置信度对获得的用户特征进行排序。
在另一可选实施方式中,所述按照置信度对各个方式获取的用户信息进行分析,包括:
按照置信度对通过各个方式获取的与同一类用户特征相关的用户信息进行排序;
按照排序结果对所述与同一类用户特征相关的用户信息进行分析,确定根据各个方式获得的用户特征。
如此,服务器可以先对用户信息按照置信度进行排序,然后再分析每个用户信息对应的用户特征。
在一可选实施方式中,所述以置信度最高的用户信息为基准,对各应用对应的每个用户特征进行校正,将置信度低的用户特征替换为置信度最高的用户特征其中,置信度低的用户特征是指基于置信度低的用户信息获得的用户特征如此,能够使得最终建立的映射关系中用户特征保持一致。
举例来说,对于某一设备,通过第一方式获得的第一应用如QQ应用对应的用户特征为Aa1、Bb2、Cc1;通过第二方式获得的第三应用如微信应用对应的用户特征为Aa2、Bb2、Cc1;通过第三方式获得的第四应用如腾讯新闻应用对应的用户特征为Aa3、Bb2、Cc2、Dd2;其中,A、B、C、D等表示用户特征的大类,如年龄、性别、职业、居住地;而a1、a2、a3等表示A大类下的小的分类,如A表示年龄,a1表示未成年年龄段,a2表示中年年龄段、a3等表示表示老年年龄段;b1、b2等表示B大类下的小的分类,如B表示性别,b1表示男性,b2表示女性;c1、c2等表示C大类下的小的分类,如C表示职业,c1表示管理人员,c2表示技术人员;d1、d2等表示D大类下的小的分类,如D表示居住地,则d1表示一线城市,d2表示二线城市。若第二方式的置信度大于第一方式的置信度大于第三方式的置信度;那么,通过第一方式、第二方式、第三方式获得的Aa1、Aa2、Aa3按照置信度的大小排序应为:Aa2>Aa1>Aa3,确定出用户特征为Aa2;通过第一方式、第二方式、第三方式获得的Bb2、Bb2、Bb2按照置信度的大小排序应为:Bb2=Bb2=Bb2,按照置信度确定出用户特征为Bb2;通过第一方式、第二方式、第三方式获得的Cc1、Cc1、Cc2按照置信度的大小排序应为:Cc1=Cc1>Cc2,确定出用户特征为Cc1;通过第一方式、第二方式未获得关于D大类的用户特征,因此,将第三方式获得的Dd2确定出用户特征。综上所述,最终确定出的该设备标识对应的用户特征包括:Aa2、Bb2、Cc1、Dd2,即年龄属于中年年龄段、性别为女性、职业属于管理人员、居住地范围为二线城市。
在一可选实施方式中,所述建立同一设备标识下各应用的账号与所述用户特征的映射关系。所述映射关系如图5所示。从图5可以看出,设备标识为S1的设备,从其注册过的第一应用、第二应用、以及第m应用等多个应用中,最终确定出的用户特征为Aa1、Bb2;设备标识为S2的设备,从其注册过的第一应用、第二应用、以及第m应用等多个应用中,最终确定出的用户特征为Aa2、Cc1。如此,当服务器检测到设备标识为S1的设备为访问阅读类应用的新增设备时,且检测到该设备当前访问第一应用;那么,可获取该设备标识S1对应的第一应用所对应的用户特征Aa1、Bb2。当服务器检测到设备标识为S1的设备为访问阅读类应用的新增设备时,且该设备当前未访问其他应用,则服务器也可直接获取与该设备标识S1对应的用户特征Aa2、Cc1。其中,A、B、C等表示用户特征的大类,如年龄、性别、职业、居住地;而a1、a2等表示A大类下的小的分类,如A表示年龄,a1表示未成年年龄段,a2表示已成年年龄段。
在一实施方式中,所述当发送所述访问请求的设备是新增设备时,获取与所述新增设备的设备标识对应的用户特征,包括:
当发送所述访问请求的设备是新增设备时,
查询是否有与所述新增设备的设备标识对应的用户特征;
若有与所述新增设备的设备标识对应的用户特征,获取与所述新增设备的设备标识对应的用户特征;
若没有与所述新增设备的设备标识对应的用户特征,将预设用户特征确定为与所述新增设备的设备标识对应的用户特征。
这里,所述预设用户特征是指预先设定的具有普遍适应性的信息。例如,所述预设用户特征包括表明用户是否关心天气、关心交通等的信息。
举例来说,当发送所述访问请求的设备是新增设备时,若没有与所述新增设备的设备标识对应的用户特征,由于天气与人们的生活息息相关,将关心天气确定为该设备对应的用户特征,基于阅读类应用为该设备推送与天气信息相关的消息。如此,对于预先未获取到用户特征的这类新用户来说,服务器为其推送与天气信息相关的消息,也能在一定程度上满足用户的需求,在新用户访问这类消息的同时,有可能还访问其他应用,这也为服务器获取新用户的用户特征争取了时间。
在一可选实施方式中,所述基于所述预处理结果建立设备标识与用户特征的映射关系之后,所述方法还包括:
将所述映射关系存储到第一缓存区域,所述第一缓存区域用于在接收到在线查询请求时返回用户特征查询结果,所述在线查询请求用于查询与新增设备的设备标识对应的用户特征;
相应地,所述基于所述用户特征向所述新增设备推送所述阅读类应用中与所述用户特征相适应的消息,包括:
从第一缓存区域中查询与所述新增设备的设备标识对应的用户特征。
如此,从第一缓存区域中查询与所述新增设备的设备标识对应的用户特征,能够更为快速地查到与所述新增设备的设备标识对应的用户特征。
在一可选实施方式中,所述基于所述预处理结果建立设备标识与用户特征的映射关系之后,所述方法还包括:
将所述映射关系存储到hadoop(中文名称为海杜普)集群中,存储于所述hadoop集群的映射关系用于离线计算用户兴趣模型。
Hadoop是一个能够对大量数据进行分布式处理的软件框架,Hadoop以一种可靠、高效、可伸缩的方式进行数据处理。在Hadoop集群中存储的设备标识与用户特征的映射关系,可供后续离线计算用户兴趣或推送使用。
这里,具体如何根据用户特征计算用户兴趣模型可采用现有技术中的方法进行计算,在此不再赘述。
步骤104、提取所述阅读类应用中待推送消息的消息特征。
这里,所述消息特征是能够表征带推送消息特点的元素。例如,所述消息特征包括消息标题、消息主旨、关键词、消息来源、消息的篇幅长度等。
步骤105、将所述消息特征与所述用户特征进行匹配。
在一实施例中,所述将所述消息特征与所述用户特征进行匹配,包括:
根据消息推送场景,选择待与所述消息特征匹配的所述用户特征;
将消息特征与选择的所述用户特征匹配。
例如,所述用户特征包括第一优先级用户特征和第二优先级用户特征;其中,所述第一优先用户特征的优先级高于所述第二优先级用户特征的优先级;那么,
所述根据消息推送场景,选择待与所述消息特征匹配的所述用户特征,包括以下至少其中之一:
1、当基于消息请求进行消息推送时,选择第一优先级用户特征与所述消息特征进行匹配;
如此,在接收到新增设备发送的消息请求时,有针对性地为用户推送优先级较高的用户特征对应的消息,相对于将所有用户特征与消息特征进行匹配,这样可以减少消息特征进行匹配的用户特征数,从而减少因匹配所占用的时间,且减少了用户特征数,以减少响应消息请求的时延,提升响应速率。
2、当在未接收到消息请求的情况下向新增设备推送消息时,同时选择所述第一优先级用户特征和所述第二优先级用户特征与所述消息特征进行匹配。
第一优先级用户特征和第二优先级用户特征均为用户特征的组成部分;当所述第一优先级用户特征和第二优先级用户特征的个数都不为零时,显然第一优先级用户特征和第二优先级用户特征的个数之和大于所述第一优先级用户特征的个数,这样的用户特征数目越多,与消息特征的匹配度要求越高,从而能够与用户特征匹配的消息的数目更少,更能满足用户阅读需求,从而提升匹配精确度。
在具体的实现过程中,所述第一优先级用户特征表征所述用户阅读喜好的程度优选为高于所述第二优先级用户特征表征的用户阅读喜好的程度。
在另一实施例中,所述将所述消息特征与所述用户特征进行匹配,包括:
结合消息特征,根据各类基本用户特征对阅读类应用中的待推送消息进行分类;
将所述用户特征与所述各类基本用户特征进行对比,确定所述用户特征所属的至少一类基本用户特征;
提取所述至少一类基本用户特征对应的待推送消息;
将所述至少一类基本用户特征对应的待推送消息确定为与所述用户特征相匹配的消息。
通常来说,步骤103中所获取的用户特征包括至少一类基本用户特征。举例来说,当所获取的用户特征包括M类基本用户特征时,所述M为大于或等于2的正整数,可选地,按照平均分配原则确定出Q个消息,所述Q=M×x,即每一类基本用户特征对应x个消息。可选地,按照优先分配原则确定出Q个消息,在所述Q个消息中,按照每一类基本用户特征的权重大小分配其所占的消息个数,权重越大,确定出的该类基本用户特征对应的消息的个数越多。
这里,所述各类基本用户特征是根据性别、年龄、职业、气质性格、工作地点、居住范围、消费能力等标准进行分类而得出的。例如,如图6所示,根据性别确定出的基本用户特征包括男性、女性;根据职业确定出的基本用户特征包括管理人员、技术人员、服务人员;根据居住范围确定出的基本用户特征包括一线城市、二三线城市、其他地区。
举例来说,当前阅读类应用有8000条新闻,根据性别这一基本用户特征对这8000条消息进行分类,有3000条新闻适合向女性推送,有5000条新闻适合向男性推送。根据年龄这一基本用户特征对这8000条消息进行分类,有1000条新闻适合向18岁以下年龄段推送,有3000条新闻适合向19岁~40岁年龄段推送;有2500条新闻适合向41岁~60岁年龄段推送;有1500条新闻适合向61岁以上年龄段推送。根据职业这一基本用户特征对这8000条消息进行分类,有1000条新闻适合向管理人员推送,有4000条新闻适合向工程技术人员推送;有3000条新闻适合向服务业人员段推送。根据居住范围这一基本用户特征对这8000条消息进行分类,有5000条新闻适合向一线城市推送,有2000条新闻适合向二三线城市推送;有1000条新闻适合向三线城市以下推送。若当前服务器检测到一新增设备,获取到该设备标识对应的用户特征包括:男、30岁、编程人员、居住地为北京;那么,服务器首先获取适合向男性推送的5000条新闻、适合向19岁~40岁年龄段推送的3000条新闻、适合向工程技术人员推送的4000条新闻、适合向一线城市推送的5000条新闻;优先从这些新闻中选出均满足这四个用户特征的新闻,并向该设备优先推送满足这四个用户特征的新闻。如此,能够使得向新用户推送的新闻更能迎合新用户的需求。
步骤106、将所述待推送消息中与基于所述用户特征相匹配的消息推送给所述新增设备。
在一实施例中,所述将所述待推送消息中与所述用户特征相匹配的消息推送给所述新增设备,还包括:
对与所述用户特征相匹配的消息按照可变用户特征及非可变用户特征分成两大类;
按照预设比例分别选取每大类中相应数量的消息;所述预设比例用于表征可变用户特征与非可变用户特征对应的消息的比例;
按照预先设定的推送顺序对所选取的消息进行排序;其中,所述推送顺序为:可变用户特征优先于非可变用户特征;或非可变用户特征优先于可变用户特征;或可变用户特征与非可变用户特征交替出现;或非可变用户特征与可变用户特征交替出现;
将排序后的推送给所述新增设备。
在另一实施例中,所述将所述待推送消息中与所述用户特征相匹配的消息推送给所述新增设备,还包括:
基于各个子可变用户特征对可变用户特征对应的消息进行分组;结合各个子可变用户特征的优先级顺序及种类选取可变用户特征中所占消息数量的消息;
基于各个子非可变用户特征对非可变用户特征对应的消息进行分组;结合各个子非可变用户特征的优先级顺序及种类选取非可变用户特征中所占消息数量的消息。
例如,所述可变用户特征包括所在地理位置;所述非可变用户特征包括性别、籍贯、身份证号。
在一可选实施方式中,在步骤105之后,所述方法还包括:
接收所述新增设备发送的第一类反馈消息;所述第一类反馈消息是由所述新增设备根据用户对所述新增设备接收到的推送消息的操作而形成的消息;
基于所述第一类反馈消息更新所述用户特征。
这里,所述操作包括但不限于收藏、点击查看、转发、评论等。
如此,能够及时根据新增设备的反馈快速更新该新增设备的用特征,为后续向该新增设备推送消息提供参考依据。
在一可选实施方式中,更新用户特征的方法,还包括:
解析所获取的用户特征,将所述用户特征分为可变用户特征和非可变用户特征;其中,所述可变用户特征为在预定时间内会发生变化的用户特征;所述非可变用户特征为不同于所述可变用户特征的特征;
监测所述可变用户特征;
根据所述监测结果,更新所述用户特征。
这里,所述可变用户特征为所在地理位置等预定时间内会发生变化的用户特征;所述非可变用户特征包括性别、籍贯、身份证号等。
如此,服务器通过监测可变用户特征,能够对预先存储的用户特征进行有针对性的监控,便于在监测到可变用户特征发生变化时,进行及时更新,从而在推送消息时能够参考可变用户特征,提高为新增设备推送消息的准确度。
举例来说,接收到一新增设备访问阅读类应用的访问请求;获取与该新增设备的设备标识对应的用户特征;所述用户特征包括当前地理位置信息为北京,为该新增设备推送消息时,考虑这一类可变用户特征信息;若第二天再次接收到该新增设备访问阅读类应用的访问请求时,监测到该新增设备的当前地理位置信息为上海,则考虑这一可变用户特征信息,如为该新增用户设备推送与上海相关的旅游景点、天气、美食、酒店等相关的消息。如此,在推送消息时能够参考可变用户特征,为新增设备推送与可变用户特征相适应的消息。
本实施例所述技术方案中,检测到访问阅读类应用的访问请求时,判断发送所述访问请求的设备是否为新增设备;所述新增设备为访问所述阅读类应用的累计次数小于N的设备;当发送所述访问请求的设备是新增设备时,获取与所述新增设备的设备标识对应的用户特征基于所述用户特征向所述新增设备推送所述阅读类应用中与所述用户特征相适应的消息。这样,通过实时检测发送所述访问请求的设备是否为新增设备,能够及时区分访问阅读类应用的用户是新用户还是老用户,从而便于系统更有针对性的为新用户推送与其相适应的消息。当访问阅读类应用的用户是新用户时,及时获取与所述新用户相关的用户特征相对于盲目为新用户推送消息的推送方式来说,能更有针对性的为新用户推送与其兴趣相关或更贴近于其兴趣的消息,由于为新用户推荐的消息与新用户的相关性增强,不容易造成新用户的流失,提高了新用户的留存率。
实施例二
图7为本发明实施例提供的数据处理装置的组成结构示意图,如图7所示,该装置包括:
检测单元71,用于接收阅读类应用的访问请求;所述阅读类应用包括新闻类应用和/或信息分享类应用;
判断单元72,用于判断发送所述访问请求的设备是否为新增设备;所述新增设备为访问所述阅读类应用的累计次数小于N的设备,所述N为大于或等于1的正整数;
获取单元73,用于当发送所述访问请求的设备是新增设备时,获取与所述新增设备的设备标识对应的用户特征;
提取单元74,用于提取所述阅读类应用中待推送消息的消息特征;
匹配单元75,用于将所述消息特征与所述用户特征进行匹配;
推送单元76,用于将所述待推送消息与所述用户特征相匹配的消息推送给所述新增设备。
在一具体实施方式中,所述获取单元73,还用于:
当发送所述访问请求的设备是新增设备时,
查询是否有与所述新增设备的设备标识对应的用户特征
若有与所述新增设备的设备标识对应的用户特征,获取与所述新增设备的设备标识对应的用户特征;
若没有与所述新增设备的设备标识对应的用户特征,将预设用户特征确定为与所述新增设备的设备标识对应的用户特征。
在一具体实施方式中,所述匹配单元75,还用于:
结合消息特征,根据各类基本用户特征分别对阅读类应用中的待推送消息进行分类;
将所述用户特征与所述各类基本用户特征进行对比,确定所述用户特征所属的至少一类基本用户特征;
提取所述至少一类基本用户特征对应的消息;
将所述至少一类基本用户特征对应的消息确定为与所述用户特征相适应的消息。
这里,所述各类基本用户特征是根据性别、年龄、职业、地理位置等标准进行分类而得出的。
在一实施例中,所述装,还包括:
更新单元77,用于接收所述新增设备发送的第一类反馈消息;所述第一类反馈消息是由所述新增设备根据用户对所述新增设备接收到的推送消息的操作而形成的消息;基于所述第一类反馈消息更新所述用户特征。
在一实施例中,所述更新单元77,还用于:
解析所述用户特征,将所述用户特征分为可变用户特征和非可变用户特征;其中,所述可变用户特征为在预定时间内会发生变化的用户特征;所述非可变用户特征为不同于所述可变用户特征的特征;
监测所述可变用户特征;
根据所述监测结果,更新所述用户特征。
在一实施例中,所述装置还包括:
收集单元78,用于通过至少一种方式收集用户信息;
建立单元79,用于对通过各种方式获得的用户信息进行校正;基于校正的结果确定用户特征建立设备标识与用户特征的映射关系。
在一具体实施方式中,所述收集单元78,还用于:
检测到访问第一应用的访问请求时,获取访问所述第一应用的账号;其中,所述第一应用是与所述阅读类应用不同的应用;
基于所述账号从所述第一应用的数据库中离线获取与所述账号对应的用户信息;
存储发送第一应用访问请求设备的设备标识与所述账号以及所述账号对应的用户信息之间的映射关系。
在另一具体实施方式中,所述收集单元78,还用于:
离线调用数据管理平台提供的接口;其中,所述数据管理平台存储有各类应用的账号以及与所述账号对应的用户信息的对应关系;
从所述数据管理平台收集未曾访问阅读类应用的设备对应的用户信息。
在又一具体实施方式中,所述收集单元78,还用于:获取同一设备对各应用的历史访问数据;
基于所述历史访问数据预测用户信息。
在一具体实施方式中,所述建立单元79,还用于:
确定通过各种方式获得的用户信息的置信度;
按照置信度对各个方式获取的用户信息进行分析;
以置信度最高的用户信息为基准,对各应用对应的每个用户特征进行校正,将置信度低的用户特征替换为置信度最高的用户特征。
建立同一设备标识下各应用的账号与所述用户特征的映射关系。
在一实施例中,所述装置还包括:
存储单元70,用于将所述映射关系存储到第一缓存区域,所述第一缓存区域用于在接收到在线查询请求时返回用户特征查询结果,所述在线查询请求用于查询与新增设备的设备标识对应的用户特征。
所述推送单元76,还用于:
从第一缓存区域中查询与所述新增设备的设备标识对应的用户特征。
本领域技术人员应当理解,本实施例的任务处理系统中各节点的功能,可参照前述任务处理方法的相关描述而理解。
实际应用中,上述检测单元71、判断单元72、获取单元73、提取单元74、匹配单元75、推送单元76、更新单元、77收集单元78、建立单元79的具体结构均可对应于处理器。所述处理器具体的结构可以为中央处理器(CPU,Central Processing Unit)、微处理器(MCU,Micro Controller Unit)、数字信号处理器(DSP,Digital Signal Processing)或可编程逻辑器件(PLC,Programmable Logic Controller)等具有处理功能的电子元器件或电子元器件的集合。其中,所述处理器包括可执行代码,所述可执行代码存储在存储介质中,所述处理器可以通过总线等通信接口与所述存储介质中相连,在执行具体的各单元的对应功能时,从所述存储介质中读取并运行所述可执行代码。所述存储介质用于存储所述可执行代码的部分优选为非瞬间存储介质。所述存储单元70可以是各个种类型的存储器或具有存储功能的服务器,如数据库。
本实施例所述数据处理装置可设置于服务器侧。
本实施例所述数据处理装置,能够及时区分访问阅读类应用的用户是新用户还是老用户,更有针对性的为新用户推送与其相适应的消息。由于为新用户推荐的消息与新用户的相关性增强,不容易造成新用户的流失,提高了新用户的留存率。
实施例三
本实施例提供一种数据处理系统,图8为本发明提供的数据处理系统的一种交互示意图,如图8所示,所述数据处理系统,包括:服务器81、至少一个终端82;所述服务器81与终端82通过网络连接;所述网络可以为有线网、无线网或有线与无线的混合网络。
具体地,所述终端包括但不限于台式机、手机、笔记本电脑、电视。
所述服务器81,用于接收终端82发送的访问阅读类应用的请求,判断发送所述访问请求的设备是否为新增设备;当发送所述访问请求的设备是新增设备时,获取与所述新增设备的设备标识对应的用户特征基于所述用户特征向所述新增设备推送所述阅读类应用中与所述用户特征相适应的消息;其中,所述新增设备为访问所述阅读类应用的累计次数小于N的设备,所述N为大于或等于1的正整数。
所述终端82,用于获取用户输入的访问数据,当检测到用户输入的访问阅读类应用的访问请求时,向所述服务器81发送所述访问请求。
从图8可以看出,终端82接收到用户输入的访问阅读类应用的访问请求时,向服务器81发送所述访问请求,所述服务器81判断发送所述访问请求的设备是否为新增设备;当发送所述访问请求的设备是新增设备时,从存储设备中获取与所述新增设备的设备标识对应的用户特征,然后基于所述用户特征向所述新增设备推送所述阅读类应用中与所述用户特征相适应的消息。
实际应用中,数据处理系统中的各功能模块可以由服务器中的硬件资源协同实现,如处理器等计算资源、通信资源(如用于支持实现各种方式的通信)实现。
图9示例性示出了服务器的一个可选的硬件结构示意图,包括处理器11、输入/输出接口13(例如显示屏、触摸屏、扬声器),存储介质14以及网络接口12,组件可以经系统总线15连接通信。相应地,服务器81的存储介质14中存储有用于执行本发明实施例提供的数据处理方法的可执行指令。
其中,所述存储介质14可以是移动存储装置、随机存取存储器(RAM,RandomAccess Memory)、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。优选地,所述存储介质14可为非易失性存储介质。
其中,处理器11可以是CPU、MCU、DSP、PLC,还可以是处理电路,例如,专用集成电路(ASIC,Application Specific Integrated Circuits)。
具体地,所述处理器11通过所述系统总线15从所述存储介质14中读取并执行数据处理方法的可执行指令,可执行如下步骤:
检测到访问阅读类应用的访问请求时,判断发送所述访问请求的设备是否为新增设备;所述新增设备为访问所述阅读类应用的累计次数小于N的设备,所述N为大于或等于1的正整数;当发送所述访问请求的设备是新增设备时,获取与所述新增设备的设备标识对应的用户特征基于所述用户特征向所述新增设备推送所述阅读类应用中与所述用户特征相适应的消息。
本实施例所述的数据处理系统,能够及时区分访问阅读类应用的用户是新用户还是老用户,更有针对性的为新用户推送与其相适应的消息,不容易造成新用户的流失,提高了新用户的留存率。
实施例四
图10为本发明实施例提供的数据处理系统的一种可选的结构层次框图,如图10所示,该架构主要包括三大部分:
第一部分为用户特征收集层;该层可以通过QQ资料收集接口,微信资料收集接口,公司数据平台部合作接口,预测接口等多种途径收集用户信息,在设备方位QQ应用、微信应用等除与阅读类应用之外的其他应用时,获取该设备的设备标识,记录所述其他应用的应用账号;基于所述应用账号或设备标识通过多个接口进行用户信息的收集。
例如,检测到用户使用某一设备登录QQ时,获取用户的QQ号,然后通过腾讯公司的QQ数据资料库,离线获取该用户登记的QQ的用户信息。再例如,检测到用户使用某一设备打开微信时,获取用户的微信号,并获取微信应用所记录的该微信号所对应的标识号码;根据然后通过腾讯公司的微信数据资料库,离线获取该用户登记的微信的用户信息。又例如,检测到用户使用某一设备登录QQ时,获取用户的QQ号,然后通过公司数据平台部合作接口,离线获取该用户登记的QQ的用户信息。又比如,检测到用户使用某一设备打开腾讯新闻时,获取设备的标识号,并获取该标识号所访问过的腾讯新闻的历史数据,利用预测接口根据预测模型对历史数据进行预测,确定该设备标识号对应的用户信息。
第二部分为用户特征确定以及存储层。该层对第一部分所收集的用户信息进行数据清洗与整合,具体的,对通过各种方式获得的用户信息进行校正;基于校正的结果确定用户特征建立设备标识与用户特征的映射关系。对于整合后的用户特征,分两步进行存储:第一步存储到redis或ssdb等缓存中供在线用户特征查询服务使用,第二步会在hadoop集群中离线存储,供后续离线计算用户兴趣或推送使用。
第三部分为在线用户特征查询服务层。该层负责接收到查询请求时,读取预先存储好的在线缓存,按照数据来源的优先级返回数据。因此从在线缓存中获取用户特征,返回查询结果的用时将缩短,如可以控制在10ms以内,不会影响后续在线推荐服务。
第四部分为在线推荐服务层。该层在检测到访问阅读类应用的访问请求时,判断发送所述访问请求的设备是否为新增设备;当发送所述访问请求的设备是新增设备时,通过在线用户特征查询服务层获取与所述新增设备的设备标识对应的用户特征然后基于所述用户特征向所述新增设备推送所述阅读类应用中与所述用户特征相适应的消息。
例如,阅读类应用的文章进入推荐备选池后,会通过朴素贝叶斯分类器和支持向量机(SVM,Support Vector Machine)分类器计算出每一篇文章所属的分类。文章推荐出去之后,会将文章的曝光以及点击流水,通过spark集群进行实时计算,根据点击数据,计算出各类基本用户特征感兴趣的文章,如男女用户或不同年龄段分别感兴趣的文章。在新用户刷新文章列表时,首先通过在线推荐服务层获取到用户特征,然后将所述用户特征与所述各类基本用户特征进行对比,从而针对性的推荐实时计算好的分类下的文章。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (13)

1.一种数据处理方法,其特征在于,所述方法包括:
预先建立并存储设备标识与用户特征的映射关系;
其中,所述设备标识中的设备包括新增设备,所述新增设备为访问阅读类应用的累计次数小于N的设备,所述N为大于或等于1的正整数;
接收所述阅读类应用的访问请求;所述阅读类应用包括新闻类应用和/或信息分享类应用;
当发送所述访问请求的设备是所述新增设备时,基于所述映射关系获取与所述新增设备的设备标识对应的用户特征;所述用户特征为与使用所述新增设备的用户阅读喜好相关的关联信息;
提取所述阅读类应用中待推送消息的消息特征;
将所述消息特征与所述用户特征进行匹配;
将所述待推送消息中与所述用户特征相匹配的消息推送给所述新增设备;
解析所述用户特征,将所述用户特征分为可变用户特征和非可变用户特征;其中,所述可变用户特征为在预定时间内会发生变化的用户特征;所述非可变用户特征为不同于所述可变用户特征的特征;
监测所述可变用户特征;
根据监测结果,更新所述用户特征。
2.根据权利要求1所述的方法,其特征在于,所述当发送所述访问请求的设备是所述新增设备时,基于所述映射关系获取与所述新增设备的设备标识对应的用户特征,包括:
当发送所述访问请求的设备是所述新增设备时,
基于所述映射关系查询是否有与所述新增设备的设备标识对应的用户特征;
若有与所述新增设备的设备标识对应的用户特征,获取与所述新增设备的设备标识对应的用户特征;
若没有与所述新增设备的设备标识对应的用户特征,将预设用户特征信息确定为与所述新增设备的设备标识对应的用户特征。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收所述新增设备发送的第一类反馈消息;所述第一类反馈消息是由所述新增设备根据用户对所述新增设备接收到的推送消息的操作而形成的消息;
基于所述第一类反馈消息更新所述用户特征。
4.根据权利要求1所述的方法,其特征在于,所述预先建立并存储设备标识与用户特征的映射关系,包括:
通过至少一种方式收集用户信息;
对通过各种方式获得的用户信息进行校正;
基于校正的结果确定用户特征;
建立并存储设备标识与用户特征的映射关系。
5.根据权利要求4所述的方法,其特征在于,所述通过至少一种方式收集用户信息,包括:
检测到访问第一应用的访问请求时,获取访问所述第一应用的账号;其中,所述第一应用是与所述阅读类应用不同的应用;
基于所述账号从所述第一应用的数据库中离线获取与所述账号对应的用户信息;
存储发送第一应用访问请求设备的设备标识与所述账号以及所述账号对应的用户信息之间的映射关系。
6.根据权利要求4所述的方法,其特征在于,所述通过至少一种方式收集用户信息,包括:
离线调用数据管理平台提供的接口;其中,所述数据管理平台存储有各类应用的账号以及与所述账号对应的用户信息的对应关系;
从所述数据管理平台收集未曾访问阅读类应用的设备对应的用户信息。
7.根据权利要求4所述的方法,其特征在于,所述对通过各种方式获得的用户信息进行校正,包括:
确定通过各种方式获得的用户信息的置信度;
按照置信度对各个方式获取的用户信息进行分析;
以置信度最高的用户信息为基准,对各应用对应的每个用户特征进行校正,将置信度低的用户特征替换为置信度最高的用户特征;
建立同一设备标识下各应用的账号与所述用户特征的映射关系。
8.根据权利要求4所述的方法,其特征在于,所述建立设备标识与用户特征的映射关系之后,所述方法还包括:
将所述映射关系存储到第一缓存区域,所述第一缓存区域用于在接收到在线查询请求时返回用户特征查询结果,所述在线查询请求用于查询与新增设备的设备标识对应的用户特征;
所述获取与所述新增设备的设备标识对应的用户特征,包括:
从第一缓存区域中查询与所述新增设备的设备标识对应的用户特征。
9.根据权利要求1所述的方法,其特征在于,所述将所述消息特征与所述用户特征进行匹配,包括:
根据消息推送场景,选择待与所述消息特征匹配的所述用户特征;
将消息特征与选择的所述用户特征匹配。
10.根据权利要求9所述的方法,其特征在于,
所述用户特征包括第一优先级用户特征和第二优先级用户特征;其中,所述第一优先用户特征的优先级高于所述第二优先级用户特征的优先级;
所述根据消息推送场景,选择待与所述消息特征匹配的所述用户特征,包括:
当基于消息请求进行消息推送时,选择第一优先级用户特征与所述消息特征进行匹配;
当在未接收到消息请求的情况下向新增设备推送消息时,同时选择所述第一优先级用户特征和所述第二优先级用户特征与所述消息特征进行匹配。
11.一种数据处理装置,其特征在于,所述装置包括:
建立单元,用于预先建立并存储设备标识与用户特征的映射关系;其中,其中,所述设备标识中的设备包括新增设备,所述新增设备为访问阅读类应用的累计次数小于N的设备,所述N为大于或等于1的正整数;
检测单元,用于接收所述阅读类应用的访问请求;所述阅读类应用包括新闻类应用和/或信息分享类应用;
判断单元,用于判断发送所述访问请求的设备是否为所述新增设备;
获取单元,用于当所述判断单元判定发送所述访问请求的设备是所述新增设备时,基于所述映射关系获取与所述新增设备的设备标识对应的用户特征;
提取单元,用于提取所述阅读类应用中待推送消息的消息特征;
匹配单元,用于将所述消息特征与所述用户特征进行匹配;
推送单元,用于将所述待推送消息与所述用户特征相匹配的消息推送给所述新增设备;
更新单元,用于解析所述用户特征,将所述用户特征分为可变用户特征和非可变用户特征;其中,所述可变用户特征为在预定时间内会发生变化的用户特征;所述非可变用户特征为不同于所述可变用户特征的特征;监测所述可变用户特征;根据监测结果,更新所述用户特征。
12.一种服务器,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1-10任一项所述的数据处理方法。
13.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于被处理器执行时,实现权利要求1-10任一项所述的数据处理方法。
CN201610678105.1A 2016-08-16 2016-08-16 一种数据处理方法及装置 Active CN107767153B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610678105.1A CN107767153B (zh) 2016-08-16 2016-08-16 一种数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610678105.1A CN107767153B (zh) 2016-08-16 2016-08-16 一种数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN107767153A CN107767153A (zh) 2018-03-06
CN107767153B true CN107767153B (zh) 2022-02-11

Family

ID=61259598

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610678105.1A Active CN107767153B (zh) 2016-08-16 2016-08-16 一种数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN107767153B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647532A (zh) * 2018-05-15 2018-10-12 广东因特利信息科技股份有限公司 敏感用户标识保密的方法、装置、电子设备及存储介质
CN108694648B (zh) * 2018-05-15 2021-07-20 腾讯科技(深圳)有限公司 物品交互方法、物品标识注册方法、系统、装置和存储介质
CN109145206A (zh) * 2018-07-31 2019-01-04 优视科技新加坡有限公司 一种新闻分享的方法、装置和设备/终端/服务器
CN109376297A (zh) * 2018-08-31 2019-02-22 中国联合网络通信集团有限公司 用户特征数据处理方法和装置
CN110619101B (zh) * 2018-12-29 2022-09-13 北京时光荏苒科技有限公司 用于处理信息的方法和装置
CN109857762B (zh) * 2019-01-29 2021-08-17 腾讯科技(深圳)有限公司 用户资料处理方法、分享消息处理方法和计算机设备
CN110602224B (zh) * 2019-09-18 2022-11-11 上海掌门科技有限公司 用于推送信息的方法、电子设备和计算机可读介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103916436A (zh) * 2013-01-05 2014-07-09 腾讯科技(深圳)有限公司 信息推送方法、装置、终端及服务器
CN104298679A (zh) * 2013-07-18 2015-01-21 腾讯科技(深圳)有限公司 应用业务推荐方法及装置
CN104967647A (zh) * 2014-11-05 2015-10-07 腾讯科技(深圳)有限公司 消息推送方法和装置
CN105120004A (zh) * 2015-09-11 2015-12-02 北京金山安全软件有限公司 信息的推送方法及装置
WO2015196991A1 (en) * 2014-06-25 2015-12-30 Tencent Technology (Shenzhen) Company Limited Information pushing method and apparatus
CN105208113A (zh) * 2015-08-31 2015-12-30 北京百度网讯科技有限公司 信息推送的方法和装置
CN105430627A (zh) * 2015-11-12 2016-03-23 温州任和文化创意有限责任公司 消息推送方法及系统及移动终端

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104038517A (zh) * 2013-03-05 2014-09-10 腾讯科技(深圳)有限公司 基于群组关系的信息推送方法以及服务器

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103916436A (zh) * 2013-01-05 2014-07-09 腾讯科技(深圳)有限公司 信息推送方法、装置、终端及服务器
CN104298679A (zh) * 2013-07-18 2015-01-21 腾讯科技(深圳)有限公司 应用业务推荐方法及装置
WO2015196991A1 (en) * 2014-06-25 2015-12-30 Tencent Technology (Shenzhen) Company Limited Information pushing method and apparatus
CN104967647A (zh) * 2014-11-05 2015-10-07 腾讯科技(深圳)有限公司 消息推送方法和装置
CN105208113A (zh) * 2015-08-31 2015-12-30 北京百度网讯科技有限公司 信息推送的方法和装置
CN105120004A (zh) * 2015-09-11 2015-12-02 北京金山安全软件有限公司 信息的推送方法及装置
CN105430627A (zh) * 2015-11-12 2016-03-23 温州任和文化创意有限责任公司 消息推送方法及系统及移动终端

Also Published As

Publication number Publication date
CN107767153A (zh) 2018-03-06

Similar Documents

Publication Publication Date Title
CN107767153B (zh) 一种数据处理方法及装置
CN108021929B (zh) 基于大数据的移动端电商用户画像建立与分析方法及系统
CN102937951B (zh) 建立ip地址分类模型的方法、对用户分类的方法及装置
US9785888B2 (en) Information processing apparatus, information processing method, and program for prediction model generated based on evaluation information
US20130304818A1 (en) Systems and methods for discovery of related terms for social media content collection over social networks
US20130297694A1 (en) Systems and methods for interactive presentation and analysis of social media content collection over social networks
Bendler et al. Taming uncertainty in big data: Evidence from social media in urban areas
US11620283B2 (en) Method and system for analytic based connections among user types in an online platform
CN107918618B (zh) 数据处理方法及装置
CN104067567A (zh) 用于使用字符直方图进行垃圾邮件检测的系统和方法
CN107798552B (zh) 活动信息推送方法、系统、服务器和介质
US20130246463A1 (en) Prediction and isolation of patterns across datasets
CN111191133B (zh) 业务搜索处理方法、装置及设备
WO2016197857A1 (zh) 位置信息提供方法及装置
WO2018033052A1 (zh) 一种评估用户画像数据的方法及系统
CN111339409A (zh) 地图展示方法与系统
JP7291100B2 (ja) 複数の投稿時系列データを用いた異常・変化推定方法、プログラム及び装置
JP7239124B1 (ja) 地域関心度測定システム、地域関心度測定方法及びプログラム
Mytilinis et al. Modissense: A distributed spatio-temporal and textual processing platform for social networking services
US11050834B1 (en) Method for automatically assigning visits to partially observable location data streams
CN114648010A (zh) 数据表标准化方法、装置、设备及计算机存储介质
CN110263082B (zh) 数据库的数据分布分析方法、装置、电子设备及存储介质
CN114547440A (zh) 基于互联网大数据的用户画像挖掘方法及人工智能云系统
CN111382343B (zh) 一种标签体系生成方法及装置
JP5841108B2 (ja) 情報処理装置、記事情報生成方法およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant