CN116468265A - 批量用户数据处理方法和装置 - Google Patents
批量用户数据处理方法和装置 Download PDFInfo
- Publication number
- CN116468265A CN116468265A CN202310318861.3A CN202310318861A CN116468265A CN 116468265 A CN116468265 A CN 116468265A CN 202310318861 A CN202310318861 A CN 202310318861A CN 116468265 A CN116468265 A CN 116468265A
- Authority
- CN
- China
- Prior art keywords
- user
- data
- subsets
- characteristic data
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 16
- 238000000034 method Methods 0.000 claims abstract description 243
- 238000004364 calculation method Methods 0.000 claims abstract description 136
- 238000012545 processing Methods 0.000 claims abstract description 133
- 230000006399 behavior Effects 0.000 claims abstract description 55
- 238000012216 screening Methods 0.000 claims description 106
- 238000010276 construction Methods 0.000 claims description 69
- 238000012549 training Methods 0.000 claims description 67
- 238000011156 evaluation Methods 0.000 claims description 49
- 239000000758 substrate Substances 0.000 claims 1
- 238000010801 machine learning Methods 0.000 abstract description 13
- 230000005540 biological transmission Effects 0.000 description 31
- 230000008569 process Effects 0.000 description 15
- 238000001914 filtration Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 10
- 230000003993 interaction Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012954 risk control Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
Abstract
本申请公开了批量用户数据处理方法、装置及设备。其中,所述方法通过数据服务平台接收客户端的批量用户数据计算请求,通过客户端或者数据服务平台将计算请求关联的用户数量较多的用户集划分为多个用户数量较小的用户子集,通过数据服务平台在基于海量用户互联网行为形成的互联网用户在多个时间的高达百亿级数据规模的用户特征数据库内,对多个用户子集并行检索用户特征数据,在获取到用户的多维特征数据后,通过基于机器学习得到的打分方式复杂的用户评分模型,基于多维用户特征数据计算用户得分。采用这种处理方式,可以实现基于海量用户特征数据的批量用户并行复杂打分,因此可以有效提升用户评分性能和准确度。
Description
技术领域
本申请涉及数据处理领域,具体涉及批量用户数据处理方法和装置,模型构建方法和装置,模型准确度评估方法和装置,信息推送方法和装置,推送方法和装置,以及电子设备。
背景技术
企业可通过自有系统获取用户信用评分,基于用户信用评分进行风险控制。当企业自有的数据丰富度不够时,可使用三方数据进行联合风控,通过多维数据刻画用户,优化风控策略。
一种典型的企业从数据服务商获取用户信用评分的方式是,企业一次要从数据服务商获取一批用户在历史某个时间的信用评分,使用这批用户在历史某个时刻的信用评分进行风险控制相关处理,通常将对用户在历史某个时刻的信用进行评分称为历史回溯打分。目前,对一批用户进行历史回溯打分主要采用文件批处理模式。一种典型的采用文件批处理模式对一批用户进行历史回溯打分的方式是,由企业通过线下方式(如邮件、通讯软件、安全文件传送等)向数据服务商的工作人员提供用户集,数据服务商的工作人员手动将用户集导入到数据抽取、转换和加载(ETL)系统,通过串行检索方式产出一批用户在历史某个时刻的特征数据,采用串行打分方式对一批用户逐个执行历史回溯评分计算,最后再通过邮件等方式将一批用户的历史回溯打分结果提供给企业。
然而,在实现本发明过程中,发明人发现上述技术方案至少存在如下问题:1)串行打分导致批量用户历史回溯评分时效无法得到保证,难以及时向用户反馈评分结果,从而影响用户体验;2)通过线下方式交互用户数据,既耗费人力,又容易出错,且存在数据泄露风险;3)数据传输方式支持的文件大小有限,无法直接对大批量用户进行评分处理。
发明内容
本申请提供批量用户数据处理方法,以解决现有技术存在的批量用户评分时效较低等问题。本申请另外提供批量用户数据处理装置,模型构建方法和装置,模型准确度评估方法和装置,信息推送方法和装置,推送方法和装置,以及电子设备。
本申请提供一种批量用户数据处理方法,包括:向服务端发送批量用户数据计算请求,所述计算请求对应用户集,所述用户集包括多个用户子集;获得返回的用户得分相关数据,其中,所述用户得分通过用户评分模型对在目标时间的用户特征数据进行计算得到;所述用户特征数据包括基于用户在多个时间的互联网行为形成的特征数据,所述用户特征数据存储于用户特征数据库中,所述目标时间的用户特征数据是从用户特征数据库中并行检索得到。
本申请提供一种批量用户数据处理方法,包括:接收客户端发送的批量用户数据计算请求,所述计算请求对应的用户集包括多个用户子集;对所述多个用户子集并行从用户特征数据库中获取用户在目标时间的用户特征数据,所述数据库包括基于用户互联网行为数据形成的互联网用户在多个时间的用户特征数据;根据所述用户特征数据,对所述多个用户子集通过用户评分模型计算用户得分;向所述客户端提供用户得分相关数据。
本申请提供一种模型构建方法,包括:向数据服务平台发送用户评分模型构建请求,所述模型构建请求对应第一用户集,所述第一用户集包括多个第一用户子集,所述第一用户子集包括用户标识、至少一个第一用户得分、与第一用户得分对应的目标时间;至少一个用户评分模型从训练数据集学习得到;所述训练数据包括用户在所述目标时间的用户特征数据和所述第一用户得分,所述目标时间的用户特征数据是从用户特征数据库中并行检索得到。
本申请提供一种模型构建方法,包括:接收客户端发送的用户评分模型构建请求,所述模型构建请求对应第一用户子集,所述第一用户子集包括多个第一用户子集,所述第一用户子集包括用户标识、至少一个第一用户得分、与第一用户得分对应的目标时间;对所述多个第一用户子集,并行从用户特征数据库中获取用户在所述目标时间的用户特征数据,所述数据库包括基于用户在多个时间的互联网行为形成的特征数据;根据用户在所述目标时间的用户特征数据和所述至少一个第一用户得分,生成多个训练数据集;根据所述多个训练数据集,训练与至少一个用户得分分别对应的用户评分模型。
本申请提供一种模型准确度评估方法,包括:向数据服务平台发送用户评分模型评估请求,所述模型构建请求对应第二用户集,所述第二用户集包括多个第二用户子集,所述第二用户子集包括用户标识、与第一用户得分对应的目标时间;获得返回的第二用户得分,其中,所述第二用户得分通过用户评分模型对在所述目标时间的用户特征数据进行计算得到,所述用户特征数据包括基于用户在多个时间的互联网行为形成的特征数据,所述用户特征数据存储于用户特征数据库中,所述目标时间的用户特征数据是从用户特征数据库中并行检索得到;根据所述第一用户得分和第二用户得分,确定所述用户评分模型的准确度。
本申请提供一种模型准确度评估方法,包括:接收客户端发送的用户评分模型评估请求,所述模型构建请求对应第二用户集,所述第二用户集包括多个第二用户子集,所述第二用户子集包括用户标识、与第一用户得分对应的目标时间;对所述多个第二用户子集,并行从用户特征数据库中获取用户在所述目标时间的用户特征数据,所述数据库包括基于用户在多个时间的互联网行为形成的特征数据;根据所述用户特征数据,对所述多个第二用户子集通过用户评分模型计算第二用户得分;向所述客户端提供所述第二用户得分,所述用户评分模型的准确度根据所述第一用户得分和第二用户得分确定。
本申请提供一种信息推送方法,包括:向数据服务平台发送针对应用系统的沉睡用户筛选请求,所述筛选请求对应所述应用系统的沉睡用户集,所述沉睡用户集包括多个沉睡用户子集;获得返回的目标沉睡用户集,其中,所述目标沉睡用户集根据所述沉睡用户的营销需求度确定,所述营销需求度通过营销需求度计算模型对在目标时间的用户特征数据进行计算得到,所述用户特征数据包括基于用户在多个时间的互联网行为形成的特征数据,所述用户特征数据存储于用户特征数据库中,所述目标时间的用户特征数据是从用户特征数据库中并行检索得到;向所述目标沉睡用户发送营销信息,以唤醒用户使用所述应用系统。
本申请提供一种信息推送方法,包括:接收客户端发送的针对应用系统的沉睡用户筛选请求,所述筛选请求对应所述应用系统的沉睡用户集,所述沉睡用户集包括多个沉睡用户子集;对所述多个沉睡用户子集并行从用户特征数据库中获取用户在目标时间的用户特征数据,所述数据库包括基于用户互联网行为数据形成的互联网用户在多个时间的用户特征数据;根据所述用户特征数据,对所述多个沉睡用户子集通过营销需求度计算模型计算用户的营销需求度;根据所述营销需求度,确定目标沉睡用户集;向所述客户端提供所述目标沉睡用户集。
本申请提供一种推送方法,包括:向数据服务平台发送针对应用系统的拉新用户获取请求,所述请求对应用户集,所述用户集包括多个用户子集;获得返回的目标用户集,其中,所述目标用户集根据所述用户的系统需求度确定,所述系统需求度通过系统需求度计算模型对在目标时间的用户特征数据进行计算得到,所述用户特征数据包括基于用户在多个时间的互联网行为形成的特征数据,所述用户特征数据存储于用户特征数据库中,所述目标时间的用户特征数据是从用户特征数据库中并行检索得到;向所述目标用户推荐所述应用系统。
本申请提供一种推送方法,包括:接收客户端发送的针对应用系统的拉新用户获取请求,所述请求对应用户集,所述用户集包括多个用户子集;对所述多个用户子集并行从用户特征数据库中获取用户在目标时间的用户特征数据,所述数据库包括基于用户互联网行为数据形成的互联网用户在多个时间的用户特征数据;对所述多个用户子集通过应用系统需求度计算模型计算所述用户对应用系统的系统需求度;根据所述系统需求度,确定目标用户集;向所述客户端提供所述目标用户集,所述目标用户获得针对所述应用系统的推荐信息。
本申请提供一种电子设备,包括:处理器;以及存储器,用于存储实现根据上述任一项所述的方法的程序,该设备通电并通过所述处理器运行所述方法的程序。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各种方法。
本申请还提供一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各种方法。
与现有技术相比,本申请具有以下优点:
本申请实施例提供的批量用户数据处理方法,通过数据服务平台接收客户端的批量用户数据计算请求,通过客户端或者数据服务平台将计算请求关联的用户数量较多的用户集划分为多个用户数量较小的用户子集,通过数据服务平台在基于海量用户互联网行为形成的互联网用户在多个时间的高达百亿级数据规模的用户特征数据库内,对多个用户子集并行检索用户特征数据,在获取到用户的多维特征数据后,通过基于机器学习得到的打分方式复杂的用户评分模型,根据多维用户特征数据计算用户得分。采用这种处理方式,可以实现基于海量用户特征数据的批量用户并行复杂打分,因此可以有效提升用户评分性能和准确度。
本申请实施例提供的模型构建方法,通过数据服务平台接收客户端的模型构建请求,通过客户端或者数据服务平台将模型构建请求关联的用户数量较多的用户集划分为多个用户数量较小的用户子集,通过数据服务平台在基于海量用户互联网行为形成的互联网用户在多个时间的高达百亿级数据规模的用户特征数据库内,对多个用户子集并行检索用户特征数据,在获取到用户的多维特征数据后,基于用户特征数据和得分标注数据训练用户评分模型。采用这种处理方式,可以实现基于海量用户特征数据的用户评分模型并行构建,因此可以有效提升模型构建性能和准确度。
本申请实施例提供的模型准确度评估方法,通过数据服务平台接收客户端的模型评估请求,通过客户端或者数据服务平台将计算请求关联的用户数量较多的用户集划分为多个用户数量较小的用户子集,通过数据服务平台在基于海量用户互联网行为形成的互联网用户在多个时间的高达百亿级数据规模的用户特征数据库内,对多个用户子集并行检索用户特征数据,在获取到用户的多维特征数据后,通过基于机器学习得到的打分方式复杂的用户评分模型,根据多维用户特征数据计算第二用户得分;客户端将自有的第一用户得分与数据服务平台提供的第二用户得分进行对比,根据对比结果及时获取数据服务平台提供的评分模型的准确度。采用这种处理方式,可以实现基于海量用户特征数据的模型准确度并行评估处理,因此可以有效提升模型准确度评估性能和准确度。
本申请实施例提供的信息推送方法,通过数据服务平台接收客户端的沉睡用户筛选请求,通过客户端或者数据服务平台将沉睡用户筛选请求关联的用户数量较多的用户集划分为多个用户数量较小的用户子集,通过数据服务平台在基于海量用户互联网行为形成的互联网用户在多个时间的高达百亿级数据规模的用户特征数据库内,对多个用户子集并行检索用户特征数据,在获取到用户的多维特征数据后,通过基于机器学习得到的打分方式复杂的营销需求度计算模型,根据多维用户特征数据计算用户的营销需求度;根据所述营销需求度,确定目标沉睡用户集;客户端向所述目标沉睡用户发送营销信息,以唤醒用户使用所述应用系统。采用这种处理方式,可以实现基于海量用户特征数据的营销需求度并行计算,因此可以有效提升营销需求度的计算性能和准确度,从而提升用户唤醒效率和准确度。
本申请实施例提供的推送方法,通过数据服务平台接收客户端的拉新用户获取请求,通过客户端或者数据服务平台将拉新用户获取请求关联的用户数量较多的用户集划分为多个用户数量较小的用户子集,通过数据服务平台在基于海量用户互联网行为形成的互联网用户在多个时间的高达百亿级数据规模的用户特征数据库内,对多个用户子集并行检索用户特征数据,在获取到用户的多维特征数据后,通过基于机器学习得到的打分方式复杂的系统需求度计算模型,根据多维用户特征数据计算用户的系统需求度;根据所述系统需求度,确定目标用户集;客户端向所述目标用户推荐应用系统。采用这种处理方式,可以实现基于海量用户特征数据的系统需求度并行计算,因此可以有效提升系统需求度的计算性能和准确度,从而提升应用系统拉新效率和准确度。
附图说明
图1本申请提供的批量用户数据处理方法的实施例的流程示意图;
图2本申请提供的批量用户数据处理方法的实施例的场景示意图;
图3本申请提供的批量用户数据处理方法的实施例的流程示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请中,提供了批量用户数据处理方法和装置,模型构建方法和装置,模型准确度评估方法和装置,信息推送方法和装置,推送方法和装置,以及电子设备。下面在各实施例中逐一对各种方案进行详细说明。
第一实施例
请参考图1,其为本申请的批量用户数据处理方法的流程示意图。在本实施例中,批量用户数据处理方法可包括如下步骤:
步骤S101:向服务端发送批量用户数据计算请求。
本申请实施例提供的方法,其执行主体可以是客户端,其使用数据服务平台提供的批量用户评分服务。客户端或称为用户端,是指与数据服务平台的服务端相对应,为客户提供本地服务的程序。数据服务平台可根据用户标识从用户特征数据库中检索出用户的特征数据,并根据用户特征数据,通过至少一个用户评分模型计算用户在至少一个方面进行评分,并向客户端提供用户的至少一个方面的得分,或者向客户端提供基于用户得分筛选的用户。数据服务平台可以只包括服务端,也可包括服务端、计算服务器和存储服务器。
通过数据服务平台获取的用户在至少一个方面的得分,包括但不限于:用户信用得分,用户对应用系统的需求度,用户的营销需求度,等等。具体实施时,数据服务平台可向不同应用系统提供用户在不同方面的评分服务。例如,向银行系统提供用户信用评分服务,向打车软件系统提供用户打车需求度的评分服务、用户营销需求度的评分服务,向车企系统提供用户复购车辆需求度的评分服务、用户首购车辆需求度的评分服务。
在一个示例中,客户端可以是网页浏览器,用户可通过浏览器打开批量用户数据处理网页,在网页中向服务端发送批量用户数据处理请求。具体实施时,用户可以在网页中设置批量用户数据处理任务相关的信息,如指定用户集、打分时间、设置用户筛选规则等。
在另一个示例中,客户端可以是应用系统(应用程序)。由于数据服务平台可以为多个应用系统提供批量用户评分服务,因此应用系统也可以称为客户端,应用系统可向服务端发送批量用户数据处理请求。应用系统包括但不限于银行系统、车企系统、电商系统等。
以银行系统为例,银行系统在处理用户贷款请求时,可根据用户信用得分判断是否向用户提供贷款,还可以确定向用户提供贷款的额度。具体实施时,银行系统可根据用户还贷记录等数据计算用户信用得分。银行系统在缺少用户还贷记录等数据的情况下,可向服务端发送批量用户数据处理请求,通过数据服务平台获取基于用户的互联网行为数据计算的用户信用得分。
在银行系统利用数据服务平台提供的用户信用得分为用户提供贷款服务前,银行系统可评估数据服务平台的用户评分模型的准确度。具体实施时,银行系统向服务端发送批量用户数据处理请求,数据服务平台通过用户信用评分模型获取一批用户的信用得分,将信用得分返回给银行系统;银行系统将数据服务平台提供的一批用户的信用得分与银行自有系统评估的该批用户的信用得分进行对比,根据对比结果获取数据服务平台的用户评分模型的准确度,根据该准确度来决策是否使用数据服务平台提供的信用得分。
所述请求可包括目标时间,也可以不包括目标时间。目标时间是指用户特征数据的时间,本实施例提供的方法是根据用户在目标时间的特征数据对用户进行评分。如果对一批用户在相同目标时间进行评分,则所述请求可包括目标时间。如果对至少部分用户在不同目标时间进行评分,则所述请求可不包括目标时间,而是在用户集中对应用户标识设置各个用户的目标时间。目标时间可以是当前时间,也可以是历史时间。根据用户在历史时间的特征数据进行用户评分,称为回溯打分,相应的目标时间称为回溯打分时间。
所述请求还可包括请求方信息,如请求方为银行A或者银行B等。
数据服务平台通过采集互联网用户的各种互联网行为数据,对采集的数据进行清洗、特征分析等处理,生成互联网用户在多个时间的多维用户特征数据,并将这些用户特征数据存储在用户特征数据库中。随着互联网在各个领域的普遍应用,存储在数据库中的互联网用户在多个时间的多维特征数据已达到百亿级的数据规模,如数据库中存储了几十亿互联网用户在最近几年内每天的几千维用户特征数据。用户评分模型可以是计算结构复杂的机器学习模型,采用机器学习技术从用户特征数据和用户得分的标注数据中学习得到用户评分模型。
在这种情况下,一方面,由于历史回溯打分涉及的用户量大,导致用户特征数据检索量巨大,因此,通过串行检索方式从数据库中产出一批用户在历史某个时刻的特征数据耗时巨大,一般长达几天;另一方面,由于通过用户评分模型进行用户评分的计算过程较为复杂,因此,采用串行评分方式通过用户评分模型对一批用户顺序评分的耗时巨大,一般长达至少一天。综上,要从百亿级的用户特征数据中检索一批用户在不同时间的特征数据,再根据用户的多维特征数据,通过至少一个计算结构复杂的用户评分模型计算用户在至少一个方面的得分,无论是数据检索量还是模型计算量均是巨大的,如果服务端对一批用户串行检索用户特征数据及串行评分,势必会导致评分时效无法得到保证,难以及时向用户反馈评分结果,从而影响用户体验。
对此,本实施例的数据服务平台获取与所述计算请求对应的用户集包括的多个用户子集,对所述多个用户子集并行从用户特征数据库中获取用户在目标时间的用户特征数据;根据所述用户特征数据,对所述多个用户子集通过用户评分模型计算用户得分。
在一个示例中,数据服务平台根据用户的多维特征数据,对所述多个用户子集的用户通过至少一个用户评分模型并行计算用户在至少一个方面的得分。采用这种处理方式,使得不仅在数据库检索阶段采用并行处理方式,在模型预测阶段也采用并行处理方式;因此,可以进一步提升评分性能。
具体实施时,数据服务平台可为每个用户子集启动各自对应的进程,通过多个进程对多个用户子集并行执行用户特征数据检索和评分处理,以此达到并发处理的效果。在多个进程从数据库中并行获取对应用户子集的用户特征数据的过程中,每个进程对已获得用户特征数据的用户,可根据所述用户特征数据,通过用户评分模型计算用户得分,无需等待获得所有用户的特征数据后,再统一通过用户评分模型计算用户得分。
在一个示例中,数据服务平台不仅包括服务端,还包括计算服务器和存储服务器,存储服务器与计算服务器连通。存储服务器是基于对象的存储服务端,可存储任意数量和形式的非结构化数据,如以文件形式存储数据。本实施例通过将与所述请求对应的用户集以多个用户子集文件的形式存储在存储服务器上,使得服务端可通过计算服务器从存储服务器获取所述多个用户子集;通过计算服务器对所述多个用户子集并行从用户特征数据库中获取用户在目标时间的用户特征数据;根据所述用户特征数据,对所述多个用户子集通过用户评分模型计算用户得分。
具体实施时,所述客户端可将所述多个用户子集并行存储至所述存储服务器;所述计算服务器从所述存储服务器并行获取所述多个用户子集。采用这种处理方式,使得在用户集上传阶段及计算服务器获取用户子集阶段也采用并行处理方式;因此,可以进一步提升评分性能。
具体实施时,所述存储服务器可以为云存储服务器,所述计算服务器可以为大数据计算服务器,云存储服务器具有为客户端提供海量数据高性能并行传输的能力,大数据计算服务器具有大规模数据并行计算能力。采用这种处理方式,可将所述多个用户子集并行存储至所述云存储服务器,大数据计算服务器从云存储服务器获取所述多个用户子集。这样,既实现了数据并发上传,提升传输效率,又为下一阶段通过计算服务器进行用户评分计算时提供并发执行的能力,计算服务器在读取用户子集文件时可为每个用户子集文件启动一个进程,以此达到并发处理的效果,更大化发挥计算服务器的海量计算能力;因此,可以有效降低数据传输时间,从而提升评分性能。
在一个示例中,所述用户子集包括用户标识(如用户设备号)和所述目标时间,至少存在部分用户对应的所述目标时间不相同。采用这种处理方式,客户端可通过数据服务平台获取多个用户在不同时刻的用户特征数据,根据用户特征数据对用户评分,满足客户端的各种评分需求;因此,可以有效提升用户体验。
在一个示例中,所述方法还可包括如下步骤:获取用户集;将所述用户集划分为所述多个用户子集。客户端可执行对用户集进行文件切分的处理,如可按照单文件50MB为阈值,对用户集(大文件)做切分。在数据上传时,将对大文件做切分后的多个用户子集(小文件)上传数据服务平台。具体实施时,可将多个用户子集上传到存储服务器。采用这种处理方式,使得无需用户手动对用户集进行划分;因此,可以有效提升数据上传效率。
在一个示例中,所述方法还可包括如下步骤:接收所述服务端回送的与所述请求对应的存储目录信息;根据所述存储目录信息,将包括多个用户子集的用户集存储至存储服务器。具体实施时,与所述请求对应的存储目录信息可以是与批量用户数据计算任务对应的存储目录信息。采用这种处理方式,使得客户端可将本次请求的用户集上传至存储服务器;因此,可以有效提升用户评分处理的灵活度。
具体实施时,客户端还可在用户集上传前,自动触发对用户集执行数据格式校验,尽早发现有问题的数据,如错误的用户标识、目标时间等,避免异常数据在服务端识别后才报错,因此,可以有效缩短任务交互周期,从而提升任务处理效率。
在一个示例中,服务端可对已上传至存储服务器的包括多个用户子集的用户集进行管理,用户集信息可包括用户集I D和存储位置信息。为了便于客户使用已有用户集,用户集信息还可包括用户集名称,便于客户直观了解用户集内容。在服务端为多个客户提供评分服务的情况下,用户集信息还可包括用户集所属的客户信息,如客户名称或者客户标识。采用这种处理方式,可以为多次计算请求复用存储服务器中的已有用户集提供数据基础。下表1示出了本实施例中的用户集信息表。
表1、用户集信息
在一个示例中,所述方法还可包括如下步骤:向服务端发送用户集创建请求;接收所述服务端回送的与所述创建请求对应的存储目录信息;根据所述存储目录信息,将包括多个用户子集的用户集存储至存储服务器。所述创建请求可包括客户信息、用户集名称等信息。采用这种处理方式,使得客户端可创建用户集,并将用户集的多个用户子集存储至存储服务器。
在一个示例中,所述方法还可包括:从所述服务端获取多个用户集信息;根据所述多个用户集信息,确定用户集组合方式信息;向所述服务端发送所述组合方式信息,用于所述服务端根据所述组合方式信息、与所述用户集对应的存储目录信息,将所述存储服务器存储的相关用户子集存储至与所述请求对应的存储目录。采用这种处理方式,使得将已有用户集进行合并,创建新用户集,新的用户集可对应新的存储位置,并将已有用户集的多个用户子集从原有存储位置集中存储在与本次请求对应的存储目录中。这样,既可以利用已有用户集,避免重复上传用户集,从而减少数据传输量和数据传输时间,节约网络流量;又使得计算服务器可从与本次请求对应的存储目录中直接读取新用户集的多个用户子集,可以提升计算服务器读取新用户集的多个用户子集的速度,进而提升评分性能。
在一个示例中,所述方法还可包括:接收所述服务端回送的与所述请求对应的存储目录信息;从所述服务端获取多个用户集信息;根据所述多个用户集信息,确定用户集组合方式信息;向所述服务端发送所述组合方式信息,用于所述服务端根据所述组合方式信息、与所述用户集对应的存储目录信息,将所述存储服务器存储的相关用户子集存储至与所述请求对应的存储目录;根据与所述请求对应的存储目录信息,将包括多个新增用户子集的新增用户集存储至存储服务器。例如,用户组合方式为:合并已有的用户集1和2,以及合并新增用户集。采用这种处理方式,使得将已有用户集和新增用户集进行合并,集中存储在与本次请求对应的存储目录中。这样,既可以利用已有用户集,避免重复上传用户集,从而减少数据传输量和数据传输时间,节约网络流量,进而提升评分性能;又可以提交增量用户集,满足客户的灵活打分需求,从而提升用户体验;还可以使得计算服务器可从与本次请求对应的存储目录中直接读取新用户集的多个用户子集,可以提升计算服务器读取新用户集的多个用户子集的速度,进而提升评分性能。
如上述表1可见,具体实施时,用户集信息还可包括用户集类型和用户集组合方式。用户集类型可以是原始上传或者组合创建,用户集组合方式可以是用户集的组合表达式。在一个示例中,所述方法还可包括:从所述服务端获取多个用户集信息;根据所述多个用户集信息,确定用户集组合方式信息;向所述服务端发送所述组合方式信息,用于所述计算服务器根据所述组合方式信息和与用户集对应的存储目录信息,从所述存储服务器获取相关用户子集。采用这种处理方式,使得可对存储服务器中的已有用户集进行组合,创建新用户集,且新用户集也可以不对应新的存储位置,相关用户子集仍存储在原有存储位置,这样可以有效节约存储服务器的存储空间。
步骤S103:获得返回的用户得分相关数据。
所述用户得分通过用户评分模型对在目标时间的用户特征数据进行计算得到,所述用户特征数据包括基于用户在多个时间的互联网行为形成的特征数据,所述用户特征数据存储于用户特征数据库中,所述目标时间的用户特征数据是从用户特征数据库中并行检索得到。
在一个示例中,客户端通过服务端获得用户得分相关数据。用户得分相关数据,可以是用户得分,或者是基于用户得分筛选的用户,还可以是同时包括基于用户得分筛选的用户及其得分。根据客户端需求,用户得分相关数据还可包括用户特征数据。
具体实施时,计算服务器也可将用户得分相关数据写入服务端的数据库中,或者是写入服务端的用户得分相关数据文件中。
在一个示例中,步骤S103可采用如下方式实现:向所述服务端发送用户得分相关数据的文件下载请求;获取所述服务端回送的多个文件在所述存储服务器上的地址信息;根据所述地址信息,从所述存储服务器并行下载所述多个文件。具体实施时,计算服务器可将对多个用户子集的并行评分结果写入存储服务器的多个结果文件中。采用这种处理方式,使得当客户端获取结果文件时,服务端直接利用存储服务器的下载能力生成外链,客户端完成数据下载,输出最终数据供用户使用。具体实施时,客户端可从存储服务器并行下载多个结果文件,可以有效提升下载速度。
具体实施时,所述文件可以是压缩文件,还可以是加密文件,或者是加密压缩文件,客户端可对所述文件进行解密、解压缩等处理。
在一个示例中,所述方法还可包括如下步骤:向所述数据服务平台发送用户筛选规则,所述用户筛选规则包括对所述用户特征数据库专有的用户特征数据的选择。数据服务平台可对所述多个用户子集并行从用户特征数据库中获取符合所述规则的用户在目标时间的用户特征数据。采用这种处理方式,使得数据服务平台不仅能够实现用户评分处理,还可基于用户筛选规则对用户进行筛选,向客户提供更符合客户需求的数据,为批量用户数据处理提供具有解释性的过滤能力。同时,通过在数据库检索前,先对用户进行过滤来缩小检索范围,后续还会缩小用户评分范围,因此,可以进一步提升用户评分性能。
用户筛选规则中指定的用户特征数据,可以是用户特征数据库中的用户特征数据。例如,用户特征数据包括用户每日上网时长,用户筛选规则为选取每日上网时长大于3小时的用户。
具体实施时,在用户筛选规则中指定的用户特征数据,也可以是用户特征数据库以外的特征数据。例如,在用户筛选规则中指定的用户特征数据为在目标时间看电影的用户,但在用户特征数据库中并不包括用户每日是否看电影的特征数据,此时可在采集的用户互联网行为数据中检索在目标时间看电影的用户。采用这种处理方式,使得在数据库检索前,先对用户进行过滤来缩小检索范围,后续还会缩小用户评分范围,因此,可以进一步提升用户评分性能。
在一个示例中,所述方法还可包括如下步骤:向所述服务端发送用户筛选规则,用于计算服务器根据所述用户筛选规则和所述用户得分,并行从所述多个用户子集中选取目标用户集,所述用户得分相关数据为所述目标用户集。采用这种处理方式,使得数据服务平台不仅能够实现用户评分处理,还可基于用户筛选规则和用户得分对用户进行筛选,向客户提供更符合客户需求的数据,为批量用户数据处理提供具有解释性的过滤能力。此外,无需向客户端传输全量用户得分,可以有效减少传输数据量,从而提升传输速度及节约网络资源。再者,还可避免客户端的计算能力及不支持根据全量用户打分结果进行用户筛选,因此,可以有效提升数据处理效率。
所述用户筛选规则,可以是与所述用户特征数据和所述用户得分相关的用户筛选规则,例如,用户筛选规则为用户得分在前20%的女性用户。所述用户筛选规则,还可以是与用户得分排名相关的用户筛选规则,例如,用户筛选规则为用户得分在前20%用户。所述用户筛选规则,也可以是与所述用户特征数据相关的用户筛选规则,例如,用户筛选规则为每天平均上网时间在3小时以上的用户。所述用户筛选规则,又可以是与所述用户得分相关的用户筛选规则,例如,用户筛选规则为用户得分大于75分的用户。
具体实施时,通过将用户筛选规则设置为与用户特征数据相关的规则,无需向客户端传输用户特征数据,可以有效节约网络资源,同时可避免客户端的计算能力及不支持根据全量用户打分结果进行用户筛选,因此,可以有效提升数据处理效率。
在一个示例中,所述服务端根据所述请求,生成批量用户数据计算任务,确定与所述任务对应的存储目录信息。服务端可维护任务信息,任务信息可包括任务标识、任务状态(如待处理、处理中、已完成等),还可包括打分时间等信息。服务端还为任务确定存储目录,服务端可在任务信息中记录存储目录信息,以便计算服务器根据存储目录信息,从存储服务器获取与计算任务对应的多个用户子集。采用这种处理方式,使得对批量用户数据计算请求启动任务流程,避免对一批用户实时打分导致付出巨大的存储、索引成本;因此,可以有效节约系统资源。下表2示出了本实施例中的任务信息表。
表2、任务信息表
具体实施时,任务信息可存储在关系型数据库(如MySQL)中,以提升任务信息处理速度。在任务创建后,实际任务执行可依赖定时调度机制,服务端可每分钟轮询任务表查询待执行任务。当发现待执行任务后,则触发计算服务器执行用户评分任务。
在一个示例中,计算服务器针对待处理的任务,可从任务信息表中获取对应的存储目录信息,对存储目录中的多个用户子集并行执行用户特征数据检索处理,用户评分处理。计算服务器可为每个用户子集启动对应的进程,对多个用户子集并行执行后续处理,以此达到并发处理的效果。
具体实施时,如果服务端存储了用户集信息,批量用户数据计算请求可复用已有用户集,则任务信息可包括用户集ID,而无需包括存储位置信息。计算服务器根据任务表存储的与任务对应的用户集后,可以从用户集信息表中查询该用户集对应的存储目录信息,根据存储目录信息从存储服务器读取相关的多个用户子集。
图2展示了本实施例中的客户端、服务端、计算服务器和存储服务器之间的数据流转方式。在本实施例中,服务端接收客户端发送的批量用户数据计算请求,生成批量用户数据计算任务,为该任务分配存储目录,向客户端回送存储目录信息;客户端获取用户集,将用户集划分为多个用户子集,多个用户子集可以是多个文件;根据存储位置信息,采用数据并行传输方式将多个用户子集并行存储至存储服务器,多个用户子集存储至对应任务的存储目录中;计算服务器根据该任务的存储目录信息,从存储服务器并行获取多个用户子集;采用并行方式对多个用户子集并行获取用户特征数据,再通过用户评分模型,根据用户特征数据计算用户得分;客户端从服务端获取用户得分相关数据的文件下载链接,通过文件下载方式从存储服务器并行下载多个用户得分相关数据的文件。
在一个示例中,客户端还可执行任务管理,如修改已提交任务的打分时间、对已上传的用户集进行修改等,以提升任务处理的灵活性,从而提升用户体验。具体实施时,任务管理可包括取消任务及查询任务等。
在一个示例中,所述方法还可包括如下步骤:向服务端发送用户评分模型构建请求;所述模型构建请求对应第一用户集,所述第一用户集包括多个第一用户子集,所述第一用户子集包括用户标识、至少一个第一用户得分、与第一用户得分对应的时间;至少一个用户评分模型从训练数据集并行学习得到;所述训练数据包括用户在所述第一用户得分对应的时间的用户特征数据和所述第一用户得分,所述在所述第一用户得分对应的时间的用户特征数据是从用户特征数据库中并行检索得到。采用这种处理方式,使得客户端可根据自有的第一用户得分,并结合数据服务平台提供的基于用户互联网行为形成的多维用户特征数据,利用数据服务平台的系统资源,构建客户端的用户评分模型;因此,可以有效提升用户特征数据的利用率,以及提升用户体验。
第一用户得分可以是客户端自有的用户得分,相对于第一用户得分,可将数据服务平台通过用户评分模型获得的用户得分称为第二用户得分。至少一个第一用户得分可以包括客户自有系统评估的用户在至少一个方面的得分。通过不同的用户评分模型,可根据不同的用户特征数据预测得到不同方面的用户得分。
客户端在使用数据服务平台提供的第二用户得分前,可以先配合数据服务平台构建用户评分模型。用户评分模型可以是采用有监督的机器学习方式从大量训练数据中学习得到的。训练数据包括多维用户特征数据,还包括用户得分标注数据,即第一用户得分。客户端上传到数据服务平台上的用户集不仅包括用户标识,还包括第一用户得分。如果第一用户得分对应不同的评分时间,则用户集还可包括第一用户得分的评分时间。
计算服务器对用户在任意一个方面的第一用户得分,可构建多个用户评分模型,用于预测用户在同一方面的第一用户得分的不同评分模型的输入数据和网络结构可以不同。例如,要构建用户信用评分模型,可先设计10个不同网络结构的用户信用评分模型。计算服务器对多个第一用户子集,并行从数据库检索相应的用户特征数据,根据每个评分模型的网络结构,构建每个模型的训练数据集。然后,并行对每个模型从相应的训练数据中学习模型参数。
具体实施时,所述方法还可包括如下步骤:接收所述服务端回送的与所述模型构建请求对应的存储目录信息;根据与所述模型构建请求对应的存储目录信息,将包括多个第一用户子集的第一用户集存储至存储服务器,用于计算服务器根据与所述模型构建请求对应的存储目录信息,从所述存储服务器获取多个第一用户子集;对所述多个第一用户子集,并行从所述数据库中获取用户在所述第一用户得分对应的时间的用户特征数据;根据用户在所述第一用户得分对应的时间的用户特征数据和所述至少一个用户得分,生成多个训练数据集;根据所述多个训练数据集,并行训练与至少一个用户得分分别对应的多个用户评分模型。
本申请实施例提供的方法,在模型构建阶段,借助存储服务器的海量数据高性能并行传输能力、计算服务器的大规模数据并行计算能力、存储服务器与计算服务器的连通,将从第一用户集的获取、在海量互联网用户特征数据中获取第一用户集包括的多个用户分别在历史某个时间的用户特征数据、基于用户特征数据和得分标注数据训练用户评分模型,全链路数据均实现了并行处理,避免单机任务流程对一批用户串行检索用户特征数据,避免单机任务流程逐个训练各个用户评分模型,因此可以有效提升模型构建性能。同时,由于实现了批量用户数据交互与模型训练处理全链路自动化,因此可以有效提升模型构建的准确率和易用性,以及降低人工成本。再者,采用这种处理方式,使得可根据客户端提供的第一用户集构建客户专用的用户评分模型。
在一个示例中,所述方法还可包括如下步骤:向数据服务平台发送用户评分模型评估请求,所述模型构建请求对应第二用户集,所述第二用户集包括多个第二用户子集,所述第二用户子集包括用户标识、与第一用户得分对应的时间;获得返回的第二用户得分,其中,所述第二用户得分通过用户评分模型对在所述与第一用户得分对应的时间的用户特征数据进行计算得到,所述用户特征数据包括基于用户在多个时间的互联网行为形成的特征数据,所述用户特征数据存储于用户特征数据库中,所述与第一用户得分对应的时间的用户特征数据是从用户特征数据库中并行检索得到;根据所述第一用户得分和第二用户得分,确定所述用户评分模型的准确度。
具体实施时,所述方法还可包括如下步骤:接收所述服务端回送的与所述模型评估请求对应的存储目录信息;根据与所述模型评估请求对应的存储目录信息,将包括多个第二用户子集的第二用户集存储至存储服务器,用于计算服务器根据与所述模型评估请求对应的存储目录信息,从所述存储服务器获取所述多个第二用户子集;对所述多个第二用户子集,并行从所述数据库中获取用户在所述第一用户得分对应的时间的用户特征数据;根据所述用户特征数据,对所述多个第二用户子集并行通过所述用户评分模型计算用户得分,作为第二用户得分;通过所述服务端获得所述第二用户得分;根据所述第一用户得分和第二用户得分,确定所述用户评分模型的准确度;若准确度符合条件,则将所述用户评分模型作为有效的用户评分模型。
客户端在使用数据服务平台提供的第二用户得分前,还可以先评估数据服务平台的用户评分模型的准确度,在模型准确度达到要求时,才会使用数据服务平台提供的第二用户得分。在模型准确度评估阶段,要根据第一用户得分的评分时间获取用户特征数据,因此第二用户集包括与第一用户得分对应的时间。数据服务平台向客户端提供与第一用户得分对应的第二用户得分,客户端比较这两个得分来确定所述用户评分模型的准确度;若准确度符合条件,则将所述用户评分模型作为有效的用户评分模型。
在模型评估阶段,可通过数据服务平台对第二用户集包括的用户进行至少一个方面的评分,用以评估多个用户评分模型。
本申请实施例提供的方法,在模型评估阶段,借助存储服务器的海量数据高性能并行传输能力、计算服务器的大规模数据并行计算能力、存储服务器与计算服务器的连通,将从用户集的获取、在海量互联网用户特征数据中获取用户集包括的多个用户分别在历史某个时间的用户特征数据、基于用户特征数据计算用户得分和用户得分数据下载,全链路数据均实现了并行处理,避免单机任务流程对一批用户串行计算得分,因此可以有效提升海量用户的信用评分性能。同时,由于实现了批量用户数据交互与用户信用评分处理全链路自动化,因此可以有效提升用户信用评分的准确率和易用性,以及降低人工成本。在此基础上,应用系统可及时将自有的第一用户得分与数据服务平台提供的第二用户得分进行对比,根据对比结果及时获取数据服务平台提供的评分模型的准确度,这样可以有效提升用户评分模型的利用率。如果准确度达到应用系统的需求,则应用系统在处理单个用户的服务需求、且自身无该用户的第一用户得分时,可通过数据服务平台获取该用户的准确度较高的第二用户得分,根据第二用户得分对该用户的服务需求进行处理。
从上述实施例可见,本申请实施例提供的批量用户数据处理方法,通过数据服务平台接收客户端的批量用户数据计算请求,通过客户端或者数据服务平台将计算请求关联的用户数量较多的用户集划分为多个用户数量较小的用户子集,通过数据服务平台在基于海量用户互联网行为形成的互联网用户在多个时间的高达百亿级数据规模的用户特征数据库内,对多个用户子集并行检索用户特征数据,在获取到用户的多维特征数据后,通过基于机器学习得到的打分方式复杂的用户评分模型,基于多维用户特征数据计算用户得分。采用这种处理方式,可以实现基于海量用户特征数据的批量用户并行复杂打分,因此可以有效提升用户评分性能和准确度。
在一种优选的实施方式中,本申请实施例提供的批量用户数据处理方法,通过引入存储服务器和计算服务器,将二者连通,借助存储服务器的海量数据高性能并行传输能力、计算服务器的大规模数据并行计算能力,将从用户集的获取、在海量互联网用户特征数据中获取用户集包括的多个用户分别在历史某个时间的用户特征数据、基于用户特征数据计算用户得分,均实现了并行处理,因此可以有效提升海量用户的评分性能。同时,由于实现了批量用户数据交互与用户评分处理全链路自动化,因此可以有效提升用户评分的准确率和易用性,以及降低人工成本。
第二实施例
在上述的实施例中,提供了一种批量用户数据处理方法,与之相对应的,本申请还提供一种批量用户数据处理装置。该装置是与上述方法的实施例相对应。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
本申请另外提供一种批量用户数据处理装置,包括:计算请求发送单元,用户得分获取单元。
计算请求发送单元,用于向服务端发送批量用户数据计算请求,所述计算请求对应用户集,所述用户集包括多个用户子集;用户得分获取单元,用于获得返回的用户得分相关数据,其中,所述用户得分通过用户评分模型对在目标时间的用户特征数据进行计算得到;所述用户特征数据包括基于用户在多个时间的互联网行为形成的特征数据,所述用户特征数据存储于用户特征数据库中,所述目标时间的用户特征数据是从用户特征数据库中并行检索得到。
在一个示例中,所述装置还包括:用户集处理单元,具体用于获取用户集;将所述用户集划分为所述多个用户子集。
在一个示例中,所述用户得分获取单元,具体用于向所述服务端发送用户得分相关数据的文件下载请求;获取所述服务端回送的多个文件在所述存储服务器上的地址信息;根据所述地址信息,从所述存储服务器并行下载所述多个文件。
在一个示例中,所述装置还包括:第一规则发送单元,用于向所述服务端发送用户筛选规则,所述用户筛选规则包括对所述用户特征数据库专有的用户特征数据的选择。
在一个示例中,所述装置还包括:第二规则发送单元,用于向所述服务端发送用户筛选规则,所述用户筛选规则包括:与所述用户特征数据和所述用户得分相关的用户筛选规则,与用户得分排名相关的用户筛选规则。
在一个示例中,所述装置还包括:用户集存储控制单元,用于将所述请求对应的多个用户子集存储在数据服务平台。
在一个示例中,所述用户集存储控制单元,具体用于接收所述服务端回送的与所述请求对应的存储目录信息;根据所述存储目录信息,将包括多个用户子集的用户集存储至存储服务器。
在一个示例中,所述装置还包括:用户集创建单元,用于向服务端发送用户集创建请求;接收所述服务端回送的与所述创建请求对应的存储目录信息;根据所述存储目录信息,将包括多个用户子集的用户集存储至存储服务器。
在一个示例中,所述用户集存储控制单元,具体用于接收所述服务端回送的与所述请求对应的存储目录信息;从所述服务端获取多个用户集信息;根据所述多个用户集信息,确定用户集组合方式信息;向所述服务端发送所述组合方式信息,用于所述服务端根据所述组合方式信息、与所述用户集对应的存储目录信息,将所述存储服务器存储的相关用户子集存储至与所述请求对应的存储目录。
在一个示例中,所述用户集存储控制单元,具体用于接收所述服务端回送的与所述请求对应的存储目录信息;从所述服务端获取多个用户集信息;根据所述多个用户集信息,确定用户集组合方式信息;向所述服务端发送所述组合方式信息,与所述组合方式相关的用户子集存储在与所述请求对应的存储目录中;根据与所述请求对应的存储目录信息,将包括多个新增用户子集的新增用户集存储至存储服务器。
在一个示例中,所述用户集存储控制单元,具体用于从所述服务端获取多个用户集信息;根据所述多个用户集信息,确定用户集组合方式信息;向所述服务端发送所述组合方式信息,用于所述计算服务器根据所述组合方式信息和与用户集对应的存储目录信息,从所述存储服务器获取相关用户子集。
在一个示例中,所述装置还包括:模型构建单元,用于向所述数据服务平台发送用户评分模型构建请求,所述模型构建请求对应第一用户集,所述第一用户集包括多个第一用户子集,所述第一用户子集包括用户标识、至少一个第一用户得分、与第一用户得分对应的时间;至少一个用户评分模型从训练数据集学习得到;所述训练数据包括用户在所述第一用户得分对应的时间的用户特征数据和所述第一用户得分,所述在所述第一用户得分对应的时间的用户特征数据是从用户特征数据库中并行检索得到。
在一个示例中,所述装置还包括:接收所述服务端回送的与所述模型构建请求对应的存储目录信息;根据与所述模型构建请求对应的存储目录信息,将包括多个第一用户子集的第一用户集存储至存储服务器,用于计算服务器根据与所述模型构建请求对应的存储目录信息,从所述存储服务器获取多个第一用户子集;对所述多个第一用户子集,并行从所述数据库中获取用户在所述第一用户得分对应的时间的用户特征数据;根据用户在所述第一用户得分对应的时间的用户特征数据和所述至少一个用户得分,生成多个训练数据集;根据所述多个训练数据集,并行训练与至少一个用户得分分别对应的多个用户评分模型。
在一个示例中,所述装置还包括:模型评估单元,用于向数据服务平台发送用户评分模型评估请求,所述模型构建请求对应第二用户集,所述第二用户集包括多个第二用户子集,所述第二用户子集包括用户标识、与第一用户得分对应的时间;获得返回的第二用户得分,其中,所述第二用户得分通过用户评分模型对在所述与第一用户得分对应的时间的用户特征数据进行计算得到,所述用户特征数据包括基于用户在多个时间的互联网行为形成的特征数据,所述用户特征数据存储于用户特征数据库中,所述与第一用户得分对应的时间的用户特征数据是从用户特征数据库中并行检索得到;根据所述第一用户得分和第二用户得分,确定所述用户评分模型的准确度。
在一个示例中,所述装置还包括:接收所述服务端回送的与所述模型评估请求对应的存储目录信息;根据与所述模型评估请求对应的存储目录信息,将包括多个第二用户子集的第二用户集存储至存储服务器,用于计算服务器根据与所述模型评估请求对应的存储目录信息,从所述存储服务器获取所述多个第二用户子集;对所述多个第二用户子集,并行从所述数据库中获取用户在所述第一用户得分对应的时间的用户特征数据;根据所述用户特征数据,对所述多个第二用户子集并行通过所述用户评分模型计算用户得分,作为第二用户得分;通过所述服务端获得所述第二用户得分;根据所述第一用户得分和第二用户得分,确定所述用户评分模型的准确度;若准确度符合条件,则将所述用户评分模型作为有效的用户评分模型。a第三实施例
在上述的实施例中,提供了一种批量用户数据处理方法,与之相对应的,本申请还提供一种批量用户数据处理方法,用于数据服务平台。该方法是与上述方法实施例中数据服务平台部分相对应。由于本方法实施例基本相似于方法实施例一,所以描述得比较简单,相关之处参见方法实施例一的部分说明即可。下述描述的方法实施例仅仅是示意性的。
请参考图3,其为本申请的批量用户数据处理方法的流程图。在本实施例中,所述方法可包括如下步骤:
步骤S301:接收客户端发送的批量用户数据计算请求,所述计算请求对应的用户集包括多个用户子集。
本申请实施例提供的方法,其执行主体可以是数据服务平台的服务端,其向客户端提供批量用户评分服务。数据服务平台可以只包括服务端,也可包括服务端、计算服务器和存储服务器。
在一个示例中,所述用户子集包括用户标识(如用户设备号)和所述目标时间,至少存在部分用户对应的所述目标时间不相同。采用这种处理方式,数据服务平台可获取多个用户在不同时刻的用户特征数据,根据用户特征数据对用户评分,满足客户端的各种评分需求;因此,可以有效提升用户体验。
在一个示例中,所述方法还可包括如下步骤:向所述客户端回送与所述请求对应的存储目录信息,用于所述客户端根据所述存储目录信息,将包括多个用户子集的用户集存储至存储服务器。采用这种处理方式,使得客户端可将本次请求的用户集上传至存储服务器;因此,可以有效提升用户评分处理的灵活度。
在一个示例中,服务端可对已上传至存储服务器的包括多个用户子集的用户集进行管理,用户集信息可包括用户集I D和存储位置信息。为了便于客户使用已有用户集,用户集信息还可包括用户集名称,便于客户直观了解用户集内容。在服务端为多个客户提供评分服务的情况下,用户集信息还可包括用户集所属的客户信息,如客户名称或者客户标识。采用这种处理方式,可以为多次计算请求复用存储服务器中的已有用户集提供数据基础。
在一个示例中,所述方法还可包括如下步骤:接收客户端发送的用户集创建请求,向所述客户端回送与所述创建请求对应的存储目录信息,用于所述客户端根据所述存储目录信息,将包括多个用户子集的用户集存储至存储服务器。所述创建请求可包括客户信息、用户集名称等信息。采用这种处理方式,使得客户端可创建用户集,并将用户集的多个用户子集存储至存储服务器。
在一个示例中,所述方法还可包括:向所述客户端提供多个用户集信息;接收所述客户端发送的用户集组合方式信息;根据所述组合方式信息、与所述用户集对应的存储目录信息,将所述存储服务器存储的相关用户子集存储至与所述请求对应的存储目录。采用这种处理方式,使得将已有用户集进行合并,创建新用户集,新的用户集可对应新的存储位置,并将已有用户集的多个用户子集从原有存储位置集中存储在与本次请求对应的存储目录中。这样,既可以利用已有用户集,避免重复上传用户集,从而减少数据传输量和数据传输时间,节约网络流量;又使得计算服务器可从与本次请求对应的存储目录中直接读取新用户集的多个用户子集,可以提升计算服务器读取新用户集的多个用户子集的速度,进而提升评分性能。
在一个示例中,所述方法还可包括:向所述客户端回送与所述请求对应的存储目录信息,用于所述客户端根据与所述请求对应的存储目录信息,将包括多个新增用户子集的新增用户集存储至存储服务器;向所述客户端提供多个用户集信息;接收所述客户端发送的用户集组合方式信息;根据所述组合方式信息、与所述用户集对应的存储目录信息,将所述存储服务器存储的相关用户子集存储至与所述请求对应的存储目录。例如,用户组合方式为:合并已有的用户集1和2,以及合并新增用户集。采用这种处理方式,使得将已有用户集和新增用户集进行合并,集中存储在与本次请求对应的存储目录中。这样,既可以利用已有用户集,避免重复上传用户集,从而减少数据传输量和数据传输时间,节约网络流量,进而提升评分性能;又可以提交增量用户集,满足客户的灵活打分需求,从而提升用户体验;还可以使得计算服务器可从与本次请求对应的存储目录中直接读取新用户集的多个用户子集,可以提升计算服务器读取新用户集的多个用户子集的速度,进而提升评分性能。
在一个示例中,所述服务端根据所述组合方式信息、与所述用户集对应的存储目录信息,将所述存储服务器存储的相关用户子集存储至与所述请求对应的存储目录。
在一个示例中,所述方法还可包括:向所述客户端提供多个用户集信息;接收所述客户端发送的用户集组合方式信息;所述计算服务器根据所述组合方式信息和与用户集对应的存储目录信息,从所述存储服务器获取相关用户子集。采用这种处理方式,使得可对存储服务器中的已有用户集进行组合,创建新用户集,且新用户集也可以不对应新的存储位置,相关用户子集仍存储在原有存储位置,这样可以有效节约存储服务器的存储空间。
在一个示例中,所述方法还可包括如下步骤:根据所述请求,生成批量用户数据计算任务;确定与所述任务对应的存储目录信息,作为与所述请求对应的存储目录信息。服务端可维护任务信息,任务信息可包括任务标识、任务状态(如待处理、处理中、已完成等),还可包括打分时间等信息。服务端还为任务确定存储目录,服务端可在任务信息中记录存储目录信息,以便计算服务器根据存储目录信息,从存储服务器获取与计算任务对应的多个用户子集。采用这种处理方式,使得对批量用户数据计算请求启动任务流程,避免对一批用户实时打分导致付出巨大的存储、索引成本;因此,可以有效节约系统资源。
在一个示例中,计算服务器针对待处理的任务,可从任务信息表中获取对应的存储目录信息,对存储目录中的多个用户子集并行执行用户特征数据检索处理,用户评分处理。计算服务器可为每个用户子集启动对应的进程,对多个用户子集并行执行后续处理,以此达到并发处理的效果。
具体实施时,如果服务端存储了用户集信息,批量用户数据计算请求可复用已有用户集,则任务信息可包括用户集I D,而无需包括存储位置信息。计算服务器根据任务表存储的与任务对应的用户集后,可以从用户集信息表中查询该用户集对应的存储目录信息,根据存储目录信息从存储服务器读取相关的多个用户子集。
在一个示例中,服务端还向客户端提供任务管理服务,如修改已提交任务的打分时间、对已上传的用户集进行修改等,以提升任务处理的灵活性,从而提升用户体验。具体实施时,任务管理可包括取消任务及查询任务等。
步骤S303:对所述多个用户子集并行从用户特征数据库中获取用户在目标时间的用户特征数据。
所述数据库包括基于用户互联网行为数据形成的互联网用户在多个时间的用户特征数据。
在一个示例中,数据服务平台不仅包括服务端,还包括计算服务器和存储服务器,存储服务器与计算服务器连通。存储服务器是基于对象的存储服务端,可存储任意数量和形式的非结构化数据,如以文件形式存储数据。本实施例将与所述请求对应的用户集以多个用户子集文件的形式存储在存储服务器上,服务端可通过计算服务器从存储服务器获取所述多个用户子集;对所述多个用户子集并行从用户特征数据库中获取用户在目标时间的用户特征数据;根据所述用户特征数据,对所述多个用户子集通过用户评分模型计算用户得分。
具体实施时,所述客户端可将所述多个用户子集并行存储至所述存储服务器;所述计算服务器从所述存储服务器并行获取所述多个用户子集。采用这种处理方式,使得在用户集上传阶段及计算服务器获取用户子集阶段也采用并行处理方式;因此,可以进一步提升评分性能。
客户端上传的多个用户子集以文件形式存储在存储服务器的相应目录内,计算服务器要对多个用户子集并行执行用户评分处理,就需要将多个用户子集的数据导入到计算服务器。本实施例中借助计算服务器的外部表能力,将存储服务器的数据同步至计算服务器。具体实施时,根据与所述请求对应的存储目录创建外表,通过数据查询语句即可直接在计算服务器读取到存储在存储服务器的多个用户子集。
具体实施时,所述存储服务器可以为云存储服务器,所述计算服务器可以为大数据计算服务器,云存储服务器具有为客户端提供海量数据高性能并行传输的能力,大数据计算服务器具有大规模数据并行计算能力。采用这种处理方式,可将所述多个用户子集并行存储至所述云存储服务器,大数据计算服务器从云存储服务器获取所述多个用户子集。这样,既实现了数据并发上传,提升传输效率,又为下一阶段通过计算服务器进行用户评分计算时提供并发执行的能力,计算服务器在读取用户子集文件时可为每个用户子集文件启动一个进程,以此达到并发处理的效果,更大化发挥计算服务器的海量计算能力;因此,可以有效降低数据传输时间,从而提升评分性能。
步骤S305:根据所述用户特征数据,对所述多个用户子集通过用户评分模型计算用户得分。
在一个示例中,数据服务平台根据用户的多维特征数据,对所述多个用户子集的用户通过至少一个用户评分模型并行计算用户在至少一个方面的得分。采用这种处理方式,使得不仅在数据库检索阶段采用并行处理方式,在模型预测阶段也采用并行处理方式;因此,可以进一步提升评分性能。
具体实施时,数据服务平台在从数据库中并行获取用户特征数据的过程中,对已获得用户特征数据的用户,可根据所述用户特征数据,并行通过用户评分模型计算用户得分,无需等待获得所有用户的特征数据后,再统一通过用户评分模型并行计算用户得分。
步骤S307:向所述客户端提供用户得分相关数据。
具体实施时,计算服务器也可将用户得分相关数据写入服务端的数据库中,或者是写入服务端的用户得分相关数据文件中。
在一个示例中,所述方法还可包括如下步骤:计算服务器通过与所述存储服务器的文件关联的数据表的存储控制器,将写入所述数据表的所述用户得分相关数据并行存储至所述存储服务器上的多个文件;相应的,步骤S307可包括如下步骤:接收所述客户端发送的用户得分相关数据下载请求;获取所述多个文件在所述存储服务器上的地址信息;向所述客户端回送所述地址信息,用于所述客户端根据所述地址信息,从所述存储服务器并行下载所述多个文件。采用这种处理方式,使得当客户端获取结果文件时,服务端直接利用存储服务器的下载能力生成外链,客户端完成数据下载,输出最终数据供用户使用。具体实施时,客户端可从存储服务器并行下载多个结果文件,可以有效提升下载速度。
计算服务器中的与存储服务器的文件关联的数据表,可称为外表。计算服务器通过外表的存储控制器,将写入外表的用户得分相关数据以文件方式并行存储至存储服务器,可将用户得分文件在存储服务器的地址信息写入任务信息表。具体实施时,可借助计算服务器数据写入表时会启动多个进程的原理,每个进程开启一个存储服务器输出流,每个输出流形成一个存储服务器的文件,以此提升数据导出并发能力。
具体实施时,计算服务器可通过所述存储控制器,将写入所述数据表的所述用户得分相关数据以加密文件方式并行存储至所述多个文件。计算服务器可通过外表的存储控制器,将写入外表的用户得分相关数据以加密文件方式并行存储至存储服务器;服务端在提供下载地址时,还可提供文件解压密码;相应的,客户端还用于对所述文件进行解密。采用这种处理方式,使得客户端完成文件下载后还需进行解密操作,以提升用户得分相关数据的安全性。
具体实施时,可基于计算服务器的外表扩展能力,创建用于导出用户得分相关数据的存储控制器。在计算服务器创建以此存储控制器为插件的外表后,当用户得分相关数据写入此表时,存储控制器会打开一个存储服务器加密压缩文件输出流,所有写入表的数据都会通过存储控制器重新写入到此加密流,最终使得文件加密存储到存储服务器。
在一个示例中,所述方法还可包括如下步骤:接收所述客户端发送的用户筛选规则,所述用户筛选规则包括对所述用户特征数据的选择;所述对所述多个用户子集并行从用户特征数据库中获取用户在目标时间的用户特征数据,包括:对所述多个用户子集并行从用户特征数据库中获取符合所述规则的用户在目标时间的用户特征数据。采用这种处理方式,使得数据服务平台不仅能够实现用户评分处理,还可基于用户筛选规则对用户进行筛选,向客户提供更符合客户需求的数据,为批量用户数据处理提供具有解释性的过滤能力。同时,通过在数据库检索前,先对用户进行过滤来缩小检索范围,后续还会缩小用户评分范围,因此,可以进一步提升用户评分性能。
在一个示例中,所述方法还可包括如下步骤:接收所述客户端发送的用户筛选规则;根据所述用户筛选规则和所述用户得分,从所述多个用户子集中选取目标用户集,所述用户得分相关数据为所述目标用户集。采用这种处理方式,使得数据服务平台不仅能够实现用户评分处理,还可基于用户筛选规则和用户得分对用户进行筛选,向客户提供更符合客户需求的数据,为批量用户数据处理提供具有解释性的过滤能力。此外,无需向客户端传输全量用户得分,可以有效减少传输数据量,从而提升传输速度及节约网络资源。再者,还可避免客户端的计算能力及不支持根据全量用户打分结果进行用户筛选,因此,可以有效提升数据处理效率。
在一个示例中,所述方法还可包括如下步骤:接收客户端发送的用户评分模型构建请求,,所述模型构建请求对应第一用户集,所述第一用户集包括多个第一用户子集,所述第一用户子集包括用户标识、至少一个第一用户得分、与第一用户得分对应的时间;对所述多个第一用户子集,并行从所述数据库中获取用户在所述与第一用户得分对应的时间的用户特征数据;根据用户在所述与第一用户得分对应的时间的用户特征数据和所述至少一个第一用户得分,生成多个训练数据集;根据所述多个训练数据集,训练与至少一个用户得分分别对应的多个用户评分模型。采用这种处理方式,使得数据服务平台可根据客户端提供的第一用户得分,以及基于用户互联网行为形成的多维用户特征数据,构建客户端的用户评分模型;因此,可以有效提升用户特征数据的利用率,以及提升用户体验。
具体实施时,所述方法还可包括如下步骤:向所述客户端回送的与所述模型构建请求对应的存储目录信息,所述客户端根据与所述模型构建请求对应的存储目录信息,将包括多个第一用户子集的第一用户集存储至存储服务器;计算服务器根据与所述模型构建请求对应的存储目录信息,从所述存储服务器获取多个第一用户子集;对所述多个第一用户子集,并行从所述数据库中获取用户在所述与第一用户得分对应的时间的用户特征数据;根据用户在所述与第一用户得分对应的时间的用户特征数据和所述至少一个用户得分,生成多个训练数据集;根据所述多个训练数据集,并行训练与至少一个用户得分分别对应的多个用户评分模型。
本申请实施例提供的方法,在模型构建阶段,借助存储服务器的海量数据高性能并行传输能力、计算服务器的大规模数据并行计算能力、存储服务器与计算服务器的连通,将从第一用户集的获取、在海量互联网用户特征数据中获取第一用户集包括的多个用户分别在历史某个时间的用户特征数据、基于用户特征数据和得分标注数据训练用户评分模型,全链路数据均实现了并行处理,避免单机任务流程对一批用户串行检索用户特征数据,避免单机任务流程逐个训练各个用户评分模型,因此可以有效提升模型构建性能。同时,由于实现了批量用户数据交互与模型训练处理全链路自动化,因此可以有效提升模型构建的准确率和易用性,以及降低人工成本。再者,采用这种处理方式,使得可根据客户端提供的第一用户集构建客户专用的用户评分模型。
在一个示例中,所述方法还可包括如下步骤:接收客户端发送的用户评分模型评估请求,所述模型评估请求对应第二用户集,所述第二用户集包括多个第二用户子集,所述第二用户子集包括用户标识、与第一用户得分对应的时间;对所述多个第二用户子集,并行从所述数据库中获取用户在所述第一用户得分对应的时间的用户特征数据;根据所述用户特征数据,对所述多个第二用户子集通过所述用户评分模型计算用户得分,作为第二用户得分;向所述客户端提供所述第二用户得分,用于所述客户端根据所述第一用户得分和第二用户得分,确定所述用户评分模型的准确度;若准确度符合条件,则将所述用户评分模型作为有效的用户评分模型。
具体实施时,所述方法还可包括如下步骤:向所述客户端回送的与所述模型评估请求对应的存储目录信息,用于所述客户端根据与所述模型评估请求对应的存储目录信息,将包括多个第二用户子集的第二用户集存储至存储服务器;计算服务器根据与所述模型评估请求对应的存储目录信息,从所述存储服务器获取所述多个第二用户子集;对所述多个第二用户子集,并行从所述数据库中获取用户在所述第一用户得分对应的时间的用户特征数据;根据所述用户特征数据,对所述多个第二用户子集并行通过所述用户评分模型计算用户得分,作为第二用户得分。
本申请实施例提供的方法,在模型评估阶段,借助存储服务器的海量数据高性能并行传输能力、计算服务器的大规模数据并行计算能力、存储服务器与计算服务器的连通,将从用户集的获取、在海量互联网用户特征数据中获取用户集包括的多个用户分别在历史某个时间的用户特征数据、基于用户特征数据计算用户得分和用户得分数据下载,全链路数据均实现了并行处理,避免单机任务流程对一批用户串行计算得分,因此可以有效提升海量用户的信用评分性能。同时,由于实现了批量用户数据交互与用户信用评分处理全链路自动化,因此可以有效提升用户信用评分的准确率和易用性,以及降低人工成本。在此基础上,应用系统可及时将自有的第一用户得分与数据服务平台提供的第二用户得分进行对比,根据对比结果及时获取数据服务平台提供的评分模型的准确度,这样可以有效提升用户评分模型的利用率。如果准确度达到应用系统的需求,则应用系统在处理单个用户的服务需求、且自身无该用户的第一用户得分时,可通过数据服务平台获取该用户的准确度较高的第二用户得分,根据第二用户得分对该用户的服务需求进行处理。
从上述实施例可见,通过数据服务平台接收客户端的批量用户数据计算请求,通过客户端或者数据服务平台将计算请求关联的用户数量较多的用户集划分为多个用户数量较小的用户子集,通过数据服务平台在基于海量用户互联网行为形成的互联网用户在多个时间的高达百亿级数据规模的用户特征数据库内,对多个用户子集并行检索用户特征数据,在获取到用户的多维特征数据后,通过基于机器学习得到的打分方式复杂的用户评分模型,基于多维用户特征数据计算用户得分。采用这种处理方式,可以实现基于海量用户特征数据的批量用户并行复杂打分,因此可以有效提升用户评分性能和准确度。
第四实施例
在上述的实施例中,提供了一种批量用户数据处理方法,与之相对应的,本申请还提供一种批量用户数据处理装置。该装置是与上述方法的实施例相对应。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
本申请另外提供一种批量用户数据处理装置,包括:计算请求接收单元,并行检索单元,计算单元,用户得分提供单元。
计算请求接收单元,用于接接收客户端发送的批量用户数据计算请求,所述计算请求对应的用户集包括多个用户子集;并行检索单元,用于对所述多个用户子集并行从用户特征数据库中获取用户在目标时间的用户特征数据,所述数据库包括基于用户互联网行为数据形成的互联网用户在多个时间的用户特征数据;计算单元,用于根据所述用户特征数据,对所述多个用户子集通过用户评分模型计算用户得分;用户得分提供单元,用于向所述客户端提供用户得分相关数据。
在一个示例中,所述数据服务平台包括:服务端,存储服务器,计算服务器;所述多个用户子集存储在存储服务器上,通过计算服务器从存储服务器获取所述多个用户子集;对所述多个用户子集并行从数据库中获取用户在目标时间的用户特征数据;根据所述用户特征数据,对所述多个用户子集通过用户评分模型计算用户得分;通过所述服务端提供用户得分相关数据。
在一个示例中,将所述多个用户子集并行存储至所述存储服务器;所述计算服务器从所述存储服务器并行获取所述多个用户子集。
在一个示例中,对所述多个用户子集并行通过用户评分模型计算用户得分。
在一个示例中,所述存储服务器为云存储服务器,所述计算服务器为大数据计算服务器。
在一个示例中,所述用户子集包括用户标识和所述目标时间,至少存在部分用户对应的所述目标时间不相同。
在一个示例中,所述装置还包括:任务生成单元,用于根据所述请求,生成批量用户数据计算任务;存储目录确定单元,用于确定与所述任务对应的存储目录信息,作为与所述请求对应的存储目录信息。
在一个示例中,所述装置还包括:用户得分存储单元,用于计算服务器通过与所述存储服务器的文件关联的数据表的存储控制器,将写入所述数据表的所述用户得分相关数据并行存储至所述存储服务器上的多个文件;所述用户得分提供单元,具体用于接收所述客户端发送的用户得分相关数据下载请求;获取所述多个文件在所述存储服务器上的地址信息;向所述客户端回送所述地址信息,所述客户端根据所述地址信息,从所述存储服务器并行下载所述多个文件。
在一个示例中,计算服务器通过所述存储控制器,将写入所述数据表的所述用户得分相关数据以加密文件方式并行存储至所述多个文件。
在一个示例中,所述装置还包括:第一规则接收单元,用于接收所述客户端发送的用户筛选规则,所述用户筛选规则包括对所述用户特征数据的选择;所述对所述多个用户子集并行从用户特征数据库中获取用户在目标时间的用户特征数据,包括:对所述多个用户子集并行从用户特征数据库中获取符合所述规则的用户在目标时间的用户特征数据。
在一个示例中,所述装置还包括:第二规则接收单元,用于接收所述客户端发送的用户筛选规则;用户筛选单元,用于根据所述用户筛选规则和所述用户得分,从所述多个用户子集中选取目标用户集,所述用户得分相关数据为所述目标用户集。
在一个示例中,所述用户筛选规则包括:与所述用户特征数据和所述用户得分相关的用户筛选规则,与用户得分排名相关的用户筛选规则。
在一个示例中,计算服务器根据所述用户筛选规则和所述用户得分,并行从所述多个用户子集中选取目标用户集,所述用户得分相关数据为所述目标用户集。
在一个示例中,所述数据服务平台包括:服务端和存储服务器;通过所述服务端接收批量用户数据计算请求;所述装置还包括:存储目录发送单元,用于向所述客户端回送与所述请求对应的存储目录信息,所述客户端根据所述存储目录信息,将包括多个用户子集的用户集存储至存储服务器。
在一个示例中,所述数据服务平台包括:服务端和存储服务器;通过所述服务端接收批量用户数据计算请求;所述装置还包括:存储目录发送单元,用于向所述客户端回送与所述请求对应的存储目录信息,用于所述客户端根据与所述请求对应的存储目录信息,将包括多个新增用户子集的新增用户集存储至存储服务器;用户集信息提供单元,用于向所述客户端提供多个用户集信息;用户集组合方式信息获取单元,用于接收所述客户端发送的用户集组合方式信息;用户子集存储单元,用于根据所述组合方式信息、与所述用户集对应的存储目录信息,将所述存储服务器存储的相关用户子集存储至与所述请求对应的存储目录。
在一个示例中,所述服务端根据所述组合方式信息、与所述用户集对应的存储目录信息,将所述存储服务器存储的相关用户子集存储至与所述请求对应的存储目录。
在一个示例中,所述装置还包括:第一存储控制单元,用于向所述客户端提供多个用户集信息;接收所述客户端发送的用户集组合方式信息;所述计算服务器根据所述组合方式信息和与用户集对应的存储目录信息,从所述存储服务器获取相关用户子集。
在一个示例中,所述装置还包括:创建请求处理单元,用于接收客户端发送的用户集创建请求,向所述客户端回送与所述创建请求对应的存储目录信息,用于所述客户端根据所述存储目录信息,将包括多个用户子集的用户集存储至存储服务器。
在一个示例中,所述装置还包括:第二存储控制单元,用于向所述客户端提供多个用户集信息;接收所述客户端发送的用户集组合方式信息;根据所述组合方式信息、与所述用户集对应的存储目录信息,将所述存储服务器存储的相关用户子集存储至与所述请求对应的存储目录。
在一个示例中,所述装置还包括:模型构建单元,用于接收客户端发送的用户评分模型构建请求,所述模型构建请求对应第一用户集,所述第一用户集包括多个第一用户子集,所述第一用户子集包括用户标识、至少一个第一用户得分、与第一用户得分对应的时间;对所述多个第一用户子集,并行从所述数据库中获取用户在所述与第一用户得分对应的时间的用户特征数据;根据用户在所述与第一用户得分对应的时间的用户特征数据和所述至少一个第一用户得分,生成多个训练数据集;根据所述多个训练数据集,训练与至少一个用户得分分别对应的多个用户评分模型。
在一个示例中,所述装置还包括:第三存储控制单元,用于向所述客户端回送的与所述模型构建请求对应的存储目录信息,所述客户端根据与所述模型构建请求对应的存储目录信息,将包括多个第一用户子集的第一用户集存储至存储服务器;模型构建单元,具体用于计算服务器根据与所述模型构建请求对应的存储目录信息,从所述存储服务器获取多个第一用户子集;对所述多个第一用户子集,并行从所述数据库中获取用户在所述与第一用户得分对应的时间的用户特征数据;根据用户在所述与第一用户得分对应的时间的用户特征数据和所述至少一个用户得分,生成多个训练数据集;根据所述多个训练数据集,并行训练与至少一个用户得分分别对应的多个用户评分模型。
在一个示例中,所述装置还包括:接收客户端发送的用户评分模型评估请求,所述模型评估请求对应第二用户集,所述第二用户集包括多个第二用户子集,所述第二用户子集包括用户标识、与第一用户得分对应的时间;对所述多个第二用户子集,并行从所述数据库中获取用户在所述第一用户得分对应的时间的用户特征数据;根据所述用户特征数据,对所述多个第二用户子集通过所述用户评分模型计算用户得分,作为第二用户得分;向所述客户端提供所述第二用户得分,用于所述客户端根据所述第一用户得分和第二用户得分,确定所述用户评分模型的准确度;若准确度符合条件,则将所述用户评分模型作为有效的用户评分模型。
在一个示例中,所述装置还包括:第四存储控制单元,用于向所述客户端回送的与所述模型评估请求对应的存储目录信息,用于所述客户端根据与所述模型评估请求对应的存储目录信息,将包括多个第二用户子集的第二用户集存储至存储服务器;计算服务器根据与所述模型评估请求对应的存储目录信息,从所述存储服务器获取所述多个第二用户子集;对所述多个第二用户子集,并行从所述数据库中获取用户在所述第一用户得分对应的时间的用户特征数据;根据所述用户特征数据,对所述多个第二用户子集并行通过所述用户评分模型计算用户得分,作为第二用户得分。
第五实施例
在上述的实施例中,提供了一种批量用户数据处理方法,与之相对应的,本申请还提供一种模型构建方法,用于客户端。该方法是与上述方法实施例中客户端部分相对应。由于本方法实施例基本相似于方法实施例一,所以描述得比较简单,相关之处参见方法实施例一的部分说明即可。下述描述的方法实施例仅仅是示意性的。
在本实施例中,所述模型构建方法可包括如下步骤:向数据服务平台发送用户评分模型构建请求。所述模型构建请求对应第一用户集,所述第一用户集包括多个第一用户子集,所述第一用户子集包括用户标识、至少一个第一用户得分、与第一用户得分对应的目标时间;至少一个用户评分模型从训练数据集学习得到;所述训练数据包括用户在所述目标时间的用户特征数据和所述第一用户得分,所述目标时间的用户特征数据是从用户特征数据库中并行检索得到
具体实施时,所述方法还可包括如下步骤:将包括多个第一用户子集的第一用户集存储至存储服务器。
服务端通过计算服务器从存储服务器获取多个第一用户子集;对所述多个第一用户子集,并行从数据库中获取用户在所述第一用户得分对应的时间的用户特征数据;根据用户在所述目标时间的用户特征数据和所述至少一个用户得分,生成多个训练数据集;根据所述多个训练数据集,并行训练与至少一个用户得分分别对应的多个用户评分模型。。
本申请实施例提供的模型构建方法,通过数据服务平台接收客户端的模型构建请求,通过客户端或者数据服务平台将模型构建请求关联的用户数量较多的用户集划分为多个用户数量较小的用户子集,通过数据服务平台在基于海量用户互联网行为形成的互联网用户在多个时间的高达百亿级数据规模的用户特征数据库内,对多个用户子集并行检索用户特征数据,在获取到用户的多维特征数据后,基于用户特征数据和得分标注数据训练用户评分模型。采用这种处理方式,可以实现基于海量用户特征数据的用户评分模型并行构建,因此可以有效提升模型构建性能。
在一种优选的实施方式中,本申请实施例提供的模型构建方法,借助存储服务器的海量数据高性能并行传输能力、计算服务器的大规模数据并行计算能力、存储服务器与计算服务器的连通,将从用户集的获取、在海量互联网用户特征数据中获取用户集包括的多个用户分别在历史某个时间的用户特征数据、基于用户特征数据和得分标注数据训练用户评分模型,全链路数据均实现了并行处理,因此可以有效提升模型构建性能和准确度。
第六实施例
在上述的实施例中,提供了一种模型构建方法,与之相对应的,本申请还提供一种模型构建装置。该装置是与上述方法的实施例相对应。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
本申请另外提供一种模型构建装置,包括:请求发送单元,用于向数据服务平台发送用户评分模型构建请求,所述模型构建请求对应第一用户集,所述第一用户集包括多个第一用户子集,所述第一用户子集包括用户标识、至少一个第一用户得分、与第一用户得分对应的目标时间;至少一个用户评分模型从训练数据集学习得到;所述训练数据包括用户在所述目标时间的用户特征数据和所述第一用户得分,所述目标时间的用户特征数据是从用户特征数据库中并行检索得到。
在一个示例中,所述装置还可包括:用户集存储单元,用于将包括多个第一用户子集的第一用户集存储至存储服务器。其中,服务端通过计算服务器从存储服务器获取多个第一用户子集;对所述多个第一用户子集,并行从数据库中获取用户在所述第一用户得分对应的时间的用户特征数据;根据用户在所述目标时间的用户特征数据和所述至少一个用户得分,生成多个训练数据集;根据所述多个训练数据集,并行训练与至少一个用户得分分别对应的多个用户评分模型。
第七实施例
在上述的实施例中,提供了一种批量用户数据处理方法,与之相对应的,本申请还提供一种模型构建方法,用于数据服务平台。该方法是与上述方法实施例中数据服务平台部分相对应。由于本方法实施例基本相似于方法实施例一,所以描述得比较简单,相关之处参见方法实施例一的部分说明即可。下述描述的方法实施例仅仅是示意性的。
在本实施例中,所述模型构建方法可包括如下步骤:
步骤1:接收客户端发送的用户评分模型构建请求。
所述模型构建请求对应第一用户子集,所述第一用户子集包括多个第一用户子集,所述第一用户子集包括用户标识、至少一个第一用户得分、与第一用户得分对应的目标时间。
步骤2:对所述多个第一用户子集,并行从用户特征数据库中获取用户在所述目标时间的用户特征数据,所述数据库包括基于用户在多个时间的互联网行为形成的特征数据。
步骤3:根据用户在所述目标时间的用户特征数据和所述至少一个第一用户得分,生成多个训练数据集。
步骤4:根据所述多个训练数据集,训练与至少一个用户得分分别对应的用户评分模型。
在一个示例中,通过计算服务器从存储服务器获取第一用户集的多个第一用户子集;对所述多个第一用户子集,并行从所述数据库中获取用户在所述第一用户得分对应的时间的用户特征数据;根据用户在所述第一用户得分对应的时间的用户特征数据和所述至少一个用户得分,生成多个训练数据集;根据所述多个训练数据集,并行训练与至少一个用户得分分别对应的多个用户评分模型。
第八实施例
在上述的实施例中,提供了一种模型构建方法,与之相对应的,本申请还提供一种模型构建装置。该装置是与上述方法的实施例相对应。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
本申请另外提供一种模型构建装置,包括:请求接收单元,并行检索单元,训练数据生成单元,模型训练单元。
请求接收单元,用于接收客户端发送的用户评分模型构建请求,所述模型构建请求对应第一用户子集,所述第一用户子集包括多个第一用户子集,所述第一用户子集包括用户标识、至少一个第一用户得分、与第一用户得分对应的目标时间;并行检索单元,用于对所述多个第一用户子集,并行从用户特征数据库中获取用户在所述目标时间的用户特征数据,所述数据库包括基于用户在多个时间的互联网行为形成的特征数据;训练数据生成单元,用于根据用户在所述目标时间的用户特征数据和所述至少一个第一用户得分,生成多个训练数据集;模型训练单元,用于根据所述多个训练数据集,训练与至少一个用户得分分别对应的用户评分模型。
在一个示例中,通过计算服务器从存储服务器获取第一用户集的多个第一用户子集;对所述多个第一用户子集,并行从所述数据库中获取用户在所述第一用户得分对应的时间的用户特征数据;根据用户在所述第一用户得分对应的时间的用户特征数据和所述至少一个用户得分,生成多个训练数据集;根据所述多个训练数据集,并行训练与至少一个用户得分分别对应的多个用户评分模型。
第九实施例
在上述的实施例中,提供了一种批量用户数据处理方法,与之相对应的,本申请还提供一种模型准确度评估方法,用于客户端。该方法是与上述方法实施例中客户端部分相对应。由于本方法实施例基本相似于方法实施例一,所以描述得比较简单,相关之处参见方法实施例一的部分说明即可。下述描述的方法实施例仅仅是示意性的。
在本实施例中,所述模型准确度评估方法可包括如下步骤:
步骤1:向服务端发送用户评分模型评估请求。
所述模型构建请求对应第二用户集,所述第二用户集包括多个第二用户子集,所述第二用户子集包括用户标识、与第一用户得分对应的目标时间。
步骤2:获得返回的第二用户得分。
所述第二用户得分通过用户评分模型对在所述目标时间的用户特征数据进行计算得到,所述用户特征数据包括基于用户在多个时间的互联网行为形成的特征数据,所述用户特征数据存储于用户特征数据库中,所述目标时间的用户特征数据是从用户特征数据库中并行检索得到。
步骤3:根据所述第一用户得分和第二用户得分,确定所述用户评分模型的准确度。
在一个示例中,所述方法还可包括如下步骤:将包括多个第二用户子集的第二用户集存储至存储服务器。其中,服务端通过计算服务器从所述存储服务器获取所述多个第二用户子集;对所述多个第二用户子集,并行从所述数据库中获取用户在所述第一用户得分对应的时间的用户特征数据;根据所述用户特征数据,对所述多个第二用户子集并行通过所述用户评分模型计算用户得分,作为第二用户得分;通过所述服务端获得所述第二用户得分。
本申请实施例提供的模型准确度评估方法,通过数据服务平台接收客户端的模型评估请求,通过客户端或者数据服务平台将计算请求关联的用户数量较多的用户集划分为多个用户数量较小的用户子集,通过数据服务平台在基于海量用户互联网行为形成的互联网用户在多个时间的高达百亿级数据规模的用户特征数据库内,对多个用户子集并行检索用户特征数据,在获取到用户的多维特征数据后,通过基于机器学习得到的打分方式复杂的用户评分模型,根据多维用户特征数据计算第二用户得分;客户端将自有的第一用户得分与数据服务平台提供的第二用户得分进行对比,根据对比结果及时获取数据服务平台提供的评分模型的准确度。采用这种处理方式,可以实现基于海量用户特征数据的模型准确度并行评估处理,因此可以有效提升模型准确度评估性能和准确度。
在一种优选的实施方式中,本申请实施例提供的模型准确度评估方法,借助存储服务器的海量数据高性能并行传输能力、计算服务器的大规模数据并行计算能力、存储服务器与计算服务器的连通,将从用户集的获取、在海量互联网用户特征数据中获取用户集包括的多个用户分别在历史某个时间的用户特征数据、基于用户特征数据计算用户得分和用户得分数据下载,全链路数据均实现了并行处理,因此可以有效提升模型准确度评估性能和准确度。
第十实施例
在上述的实施例中,提供了一种模型准确度评估方法,与之相对应的,本申请还提供一种模型准确度评估装置。该装置是与上述方法的实施例相对应。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
本申请另外提供一种模型准确度评估装置,包括:请求发送单元,用户得分获取单元,准确度确定单元。
请求发送单元,用于向数据服务平台发送用户评分模型评估请求,所述模型构建请求对应第二用户集,所述第二用户集包括多个第二用户子集,所述第二用户子集包括用户标识、与第一用户得分对应的目标时间;用户得分获取单元,用于获得返回的第二用户得分,其中,所述第二用户得分通过用户评分模型对在所述目标时间的用户特征数据进行计算得到,所述用户特征数据包括基于用户在多个时间的互联网行为形成的特征数据,所述用户特征数据存储于用户特征数据库中,所述目标时间的用户特征数据是从用户特征数据库中并行检索得到;准确度确定单元,用于根据所述第一用户得分和第二用户得分,确定所述用户评分模型的准确度。
在一个示例中,所述装置还可包括:用户集存储单元,将包括多个第二用户子集的第二用户集存储至存储服务器。其中,服务端通过计算服务器从所述存储服务器获取所述多个第二用户子集;对所述多个第二用户子集,并行从所述数据库中获取用户在所述第一用户得分对应的时间的用户特征数据;根据所述用户特征数据,对所述多个第二用户子集并行通过所述用户评分模型计算用户得分,作为第二用户得分;通过所述服务端获得所述第二用户得分。
第十一实施例
在上述的实施例中,提供了一种批量用户数据处理方法,与之相对应的,本申请还提供一种模型准确度评估方法,用于数据服务平台。该方法是与上述方法实施例中数据服务平台部分相对应。由于本方法实施例基本相似于方法实施例一,所以描述得比较简单,相关之处参见方法实施例一的部分说明即可。下述描述的方法实施例仅仅是示意性的。
在本实施例中,所述模型准确度评估方法可包括如下步骤:
步骤1:接收客户端发送的用户评分模型评估请求。
所述模型构建请求对应第二用户集,所述第二用户集包括多个第二用户子集,所述第二用户子集包括用户标识、与第一用户得分对应的目标时间。
步骤2:对所述多个第二用户子集,并行从用户特征数据库中获取用户在所述目标时间的用户特征数据,所述数据库包括基于用户在多个时间的互联网行为形成的特征数据。
步骤3:根据所述用户特征数据,对所述多个第二用户子集通过用户评分模型计算第二用户得分。
步骤4:向所述客户端提供所述第二用户得分,所述用户评分模型的准确度根据所述第一用户得分和第二用户得分确定。
在一个示例中,通过计算服务器从存储服务器获取第二用户集的多个第二用户子集;对所述多个第二用户子集,并行从所述数据库中获取用户在所述目标时间的用户特征数据;根据所述用户特征数据,对所述多个第二用户子集并行通过所述用户评分模型计算用户得分,作为第二用户得分。
第十二实施例
在上述的实施例中,提供了一种模型准确度评估方法,与之相对应的,本申请还提供一种模型准确度评估装置。该装置是与上述方法的实施例相对应。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
本申请另外提供一种模型准确度评估装置,包括:请求接收单元,并行检索单元,计算单元,用户得分提供单元。
请求接收单元,用于接收客户端发送的用户评分模型评估请求,所述模型构建请求对应第二用户集,所述第二用户集包括多个第二用户子集,所述第二用户子集包括用户标识、与第一用户得分对应的目标时间;并行检索单元,用于对所述多个第二用户子集,并行从用户特征数据库中获取用户在所述目标时间的用户特征数据,所述数据库包括基于用户在多个时间的互联网行为形成的特征数据;计算单元,用于根据所述用户特征数据,对所述多个第二用户子集通过用户评分模型计算第二用户得分;用户得分提供单元,用于向所述客户端提供所述第二用户得分,所述用户评分模型的准确度根据所述第一用户得分和第二用户得分确定。
在一个示例中,通过计算服务器从存储服务器获取第二用户集的多个第二用户子集;对所述多个第二用户子集,并行从所述数据库中获取用户在所述目标时间的用户特征数据;根据所述用户特征数据,对所述多个第二用户子集并行通过所述用户评分模型计算用户得分,作为第二用户得分。
第十三实施例
在上述的实施例中,提供了一种批量用户数据处理方法,与之相对应的,本申请还提供一种信息推送方法,用于客户端。该方法是与上述方法实施例中客户端部分相对应。由于本方法实施例基本相似于方法实施例一,所以描述得比较简单,相关之处参见方法实施例一的部分说明即可。下述描述的方法实施例仅仅是示意性的。
在本实施例中,所述信息推送方法可包括如下步骤:
步骤1:向数据服务平台发送针对应用系统的沉睡用户筛选请求。
应用系统包括但不限于银行系统、打车系统、电商系统等。所述筛选请求对应所述应用系统的沉睡用户集,所述沉睡用户集包括多个沉睡用户子集。沉睡用户是根据用户使用应用系统的情况确定的用户,如将最近1个月未登录应用系统的用户作为沉睡用户。
步骤2:获得返回的目标沉睡用户集。
所述目标沉睡用户集根据所述沉睡用户的营销需求度确定,所述营销需求度通过营销需求度计算模型对在目标时间的用户特征数据进行计算得到,所述用户特征数据包括基于用户在多个时间的互联网行为形成的特征数据,所述用户特征数据存储于用户特征数据库中,所述目标时间的用户特征数据是从用户特征数据库中并行检索得到。
步骤3:向所述目标沉睡用户发送营销信息,以唤醒用户使用所述应用系统。
营销信息,包括但不限于:优惠券,商品打折优惠等,如打车软件向用户发送给的营销信息为打车优惠券。例如,应用系统为线上打车应用,采用本申请实施例提供的方法,可有效提升唤醒用户的准确度和唤醒效率,有效促进沉睡用户重新使用打车应用。再例如,应用系统为银行系统,采用本申请实施例提供的方法,可有效促进信用卡沉睡用户重新使用信用卡消费。又例如,应用系统为车企系统,采用本申请实施例提供的方法,可有效促进购车老客户再次购买车辆。
在一个示例中,所述方法还包括:根据所述请求,获取应用系统的拉新用户筛选规则;对所述多个用户子集并行从用户特征数据库中获取符合所述规则的用户在目标时间的用户特征数据;对符合所述规则的用户通过营销需求度计算模型计算用户的营销需求度。
在一个示例中,数据服务平台的服务端根据所述请求,获取应用系统的沉睡用户筛选规则;通过计算服务器从存储服务器获取应用系统的多个沉睡用户子集;对所述多个沉睡用户子集并行从数据库中获取用户在目标时间的用户特征数据;根据所述用户特征数据,对所述多个沉睡用户子集通过营销需求度计算模型计算营销需求度;根据所述用户筛选规则和所述营销需求度,选取满足所述用户筛选规则的目标沉睡用户集;通过所述服务端获取所述目标沉睡用户集。
本申请实施例提供的方法,通过数据服务平台计算沉睡用户对营销信息的需求度(简称营销需求度),根据用户的营销需求度和用户筛选规则,选取更有可能被唤醒的用户,构成目标用户集。用户筛选规则可以和用户的营销需求度有关,还可以和用户特征数据有关,如打车系统的用户筛选规则可以是:优惠券需求度>0.5、且手机号归属地>2,过滤之后取优惠券需求度排在前20%的用户。
具体实施时,可根据所述用户特征数据,对所述多个沉睡用户子集并行通过营销需求度计算模型计算营销需求度。
在一个示例中,所述方法还可包括如下步骤:接收所述服务端回送的与所述请求对应的存储目录信息;根据所述存储目录信息,将包括多个沉睡用户子集的沉睡用户集存储至存储服务器。
本申请实施例提供的信息推送方法,通过数据服务平台接收客户端的沉睡用户筛选请求,通过客户端或者数据服务平台将沉睡用户筛选请求关联的用户数量较多的用户集划分为多个用户数量较小的用户子集,通过数据服务平台在基于海量用户互联网行为形成的互联网用户在多个时间的高达百亿级数据规模的用户特征数据库内,对多个用户子集并行检索用户特征数据,在获取到用户的多维特征数据后,通过基于机器学习得到的打分方式复杂的营销需求度计算模型,根据多维用户特征数据计算用户的营销需求度;根据所述营销需求度,确定目标沉睡用户集;客户端向所述目标沉睡用户发送营销信息,以唤醒用户使用所述应用系统。采用这种处理方式,可以实现基于海量用户特征数据的营销需求度并行计算,因此可以有效提升营销需求度的计算性能和准确度,从而提升用户唤醒效率和准确度。
在一种优选的实施方式中,本申请实施例提供的信息推送方法,借助存储服务器的海量数据高性能并行传输能力、计算服务器的大规模数据并行计算能力、存储服务器与计算服务器的连通,将从批量沉睡用户集的获取、在海量互联网用户特征数据中获取用户集包括的多个用户分别在历史某个时间的用户特征数据、基于用户特征数据计算沉睡用户的营销需求度、基于营销需求度筛选目标用户、目标用户数据下载,全链路数据均实现了并行处理,因此可以有效提升海量用户的营销需求度计算性能,从而提升从海量用户中筛选目标用户的计算性能和准确度。
第十四实施例
在上述的实施例中,提供了一种信息推送方法,与之相对应的,本申请还提供一种信息推送装置。该装置是与上述方法的实施例相对应。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
本申请另外提供一种信息推送装置,包括:请求发送单元,目标用户获取单元,营销信息发送单元。
请求发送单元,用于向数据服务平台发送针对应用系统的沉睡用户筛选请求,所述筛选请求对应所述应用系统的沉睡用户集,所述沉睡用户集包括多个沉睡用户子集;目标用户获取单元,用于获得返回的目标沉睡用户集,其中,所述目标沉睡用户集根据所述沉睡用户的营销需求度确定,所述营销需求度通过营销需求度计算模型对在目标时间的用户特征数据进行计算得到,所述用户特征数据包括基于用户在多个时间的互联网行为形成的特征数据,所述用户特征数据存储于用户特征数据库中,所述目标时间的用户特征数据是从用户特征数据库中并行检索得到;营销信息发送单元,用于向所述目标沉睡用户发送营销信息,以唤醒用户使用所述应用系统。
在一个示例中,所述装置还可包括:用户集存储单元,用于接收所述服务端回送的与所述请求对应的存储目录信息;根据所述存储目录信息,将包括多个沉睡用户子集的沉睡用户集存储至存储服务器。
在一个示例中,向服务端发送针对应用系统的沉睡用户筛选请求。其中,所述服务端根据所述请求,获取应用系统的沉睡用户筛选规则;通过计算服务器从存储服务器获取应用系统的多个沉睡用户子集;对所述多个沉睡用户子集并行从数据库中获取用户在目标时间的用户特征数据;根据所述用户特征数据,对所述多个沉睡用户子集通过营销需求度计算模型计算营销需求度;根据所述用户筛选规则和所述营销需求度,选取满足所述用户筛选规则的目标沉睡用户集;通过所述服务端获取所述目标沉睡用户集。
第十五实施例
在上述的实施例中,提供了一种批量用户数据处理方法,与之相对应的,本申请还提供一种信息推送方法,用于数据服务平台。该方法是与上述方法实施例中数据服务平台部分相对应。由于本方法实施例基本相似于方法实施例一,所以描述得比较简单,相关之处参见方法实施例一的部分说明即可。下述描述的方法实施例仅仅是示意性的。
在本实施例中,所述信息推送方法可包括如下步骤:
步骤1:接收客户端发送的针对应用系统的沉睡用户筛选请求。
所述筛选请求对应所述应用系统的沉睡用户集,所述沉睡用户集包括多个沉睡用户子集。
步骤2:对所述多个沉睡用户子集并行从用户特征数据库中获取用户在目标时间的用户特征数据,所述数据库包括基于用户互联网行为数据形成的互联网用户在多个时间的用户特征数据。
步骤3:根据所述用户特征数据,对所述多个沉睡用户子集通过营销需求度计算模型计算用户的营销需求度。
步骤4:根据所述营销需求度,确定目标沉睡用户集。
步骤5:向所述客户端提供所述目标沉睡用户集。
在一个示例中,所述方法还可包括如下步骤:向所述客户端回送与所述请求对应的存储目录信息,用于所述客户端根据所述存储目录信息,将所述多个用户子集存储至存储服务器。
在一个示例中,所述方法还可包括如下步骤:通过调用所述应用系统,获取所述沉睡用户集;将所述沉睡用户集的多个用户子集存储至存储服务器。
在一个示例中,所述方法还包括:根据所述请求,获取应用系统的拉新用户筛选规则;对所述多个用户子集并行从用户特征数据库中获取符合所述规则的用户在目标时间的用户特征数据;对符合所述规则的用户通过营销需求度计算模型计算用户的营销需求度。
在一个示例中,所述方法还可包括如下步骤:获取应用系统的沉睡用户筛选规则;通过计算服务器从存储服务器获取应用系统的多个沉睡用户子集;对所述多个沉睡用户子集并行从数据库中获取用户在目标时间的用户特征数据;根据所述用户特征数据,对所述多个沉睡用户子集并行通过营销需求度计算模型计算用户的营销需求度;根据所述用户筛选规则和所述营销需求度,选取满足所述用户筛选规则的目标沉睡用户集。
第十六实施例
在上述的实施例中,提供了一种信息推送方法,与之相对应的,本申请还提供一种信息推送装置。该装置是与上述方法的实施例相对应。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
本申请另外提供一种信息推送装置,包括:请求接收单元,并行检索单元,计算单元,筛选单元,目标用户提供单元。
请求接收单元,用于接收客户端发送的针对应用系统的沉睡用户筛选请求,所述筛选请求对应所述应用系统的沉睡用户集,所述沉睡用户集包括多个沉睡用户子集;并行检索单元,用于对所述多个沉睡用户子集并行从用户特征数据库中获取用户在目标时间的用户特征数据,所述数据库包括基于用户互联网行为数据形成的互联网用户在多个时间的用户特征数据;计算单元,用于根据所述用户特征数据,对所述多个沉睡用户子集通过营销需求度计算模型计算用户的营销需求度;筛选单元,用于根据所述营销需求度,确定目标沉睡用户集;目标用户提供单元,用于向所述客户端提供所述目标沉睡用户集,用于所述客户端向所述目标沉睡用户发送营销信息,以唤醒用户使用所述应用系统。
在一个示例中,所述装置还包括:存储目录信息发送单元,用于向所述客户端回送与所述请求对应的存储目录信息,用于所述客户端根据所述存储目录信息,将所述多个用户子集存储至存储服务器。
在一个示例中,所述装置还包括:应用系统调用单元,用于通过调用所述应用系统,获取所述沉睡用户集;将所述沉睡用户集的多个用户子集存储至存储服务器。
在一个示例中,所述装置还包括:规则获取单元,用于获取应用系统的沉睡用户筛选规则;通过计算服务器从存储服务器获取应用系统的多个沉睡用户子集;对所述多个沉睡用户子集并行从数据库中获取用户在目标时间的用户特征数据;根据所述用户特征数据,对所述多个沉睡用户子集并行通过营销需求度计算模型计算用户的营销需求度;根据所述用户筛选规则和所述营销需求度,选取满足所述用户筛选规则的目标沉睡用户集。
第十七实施例
在上述的实施例中,提供了一种批量用户数据处理方法,与之相对应的,本申请还提供一种推送方法,用于客户端。该方法是与上述方法实施例中客户端部分相对应。由于本方法实施例基本相似于方法实施例一,所以描述得比较简单,相关之处参见方法实施例一的部分说明即可。下述描述的方法实施例仅仅是示意性的。
在本实施例中,所述推送方法可包括如下步骤:
步骤1:向数据服务平台发送针对应用系统的拉新用户获取请求。
应用系统包括但不限于银行系统、打车系统、电商系统等。所述请求对应用户集,所述用户集包括多个用户子集。
步骤2:获得返回的目标用户集。
所述目标用户集根据所述用户的系统需求度确定,所述系统需求度通过系统需求度计算模型对在目标时间的用户特征数据进行计算得到,所述用户特征数据包括基于用户在多个时间的互联网行为形成的特征数据,所述用户特征数据存储于用户特征数据库中,所述目标时间的用户特征数据是从用户特征数据库中并行检索得到。
步骤3:向所述目标用户推荐所述应用系统。
例如,应用系统为线上打车应用,采用本申请实施例提供的方法,可有效提升打车应用的注册用户。
在一个示例中,所述方法还包括:根据所述请求,获取应用系统的拉新用户筛选规则;对所述多个用户子集并行从用户特征数据库中获取符合所述规则的用户在目标时间的用户特征数据;对符合所述规则的用户通过应用系统需求度计算模型计算所述用户对应用系统的系统需求度。
在一个示例中,所述服务端根据所述请求,获取应用系统的拉新用户筛选规则;通过计算服务器从存储服务器获取包括多个用户子集的用户集;对所述多个用户子集并行从数据库中获取用户在目标时间的用户特征数据;根据所述用户特征数据,对所述多个用户子集通过应用系统需求度计算模型计算所述用户对应用系统的系统需求度;根据所述用户筛选规则和所述系统需求度,选取满足所述用户筛选规则的目标用户集;通过所述服务端获取所述目标用户集;向所述目标用户推荐所述应用系统。
本申请实施例提供的方法,通过数据服务平台计算用户对应用系统的需求度(简称系统需求度),根据用户的系统需求度和用户筛选规则,选取更有可能注册应用系统的用户,构成目标用户集。用户筛选规则可以和用户的系统需求度有关,还可以和用户特征数据有关,如打车系统的用户筛选规则可以是:打车需求度>0.5、且手机号归属地>2,过滤之后取打车需求度排在前20%的用户。
本申请实施例提供的推送方法,通过数据服务平台接收客户端的拉新用户获取请求,通过客户端或者数据服务平台将拉新用户获取请求关联的用户数量较多的用户集划分为多个用户数量较小的用户子集,通过数据服务平台在基于海量用户互联网行为形成的互联网用户在多个时间的高达百亿级数据规模的用户特征数据库内,对多个用户子集并行检索用户特征数据,在获取到用户的多维特征数据后,通过基于机器学习得到的打分方式复杂的系统需求度计算模型,根据多维用户特征数据计算用户的系统需求度;根据所述系统需求度,确定目标用户集;客户端向所述目标用户推荐应用系统。采用这种处理方式,可以实现基于海量用户特征数据的系统需求度并行计算,因此可以有效提升系统需求度的计算性能和准确度,从而提升应用系统拉新效率和准确度。
在一种优选的实施方式中,本申请实施例提供的推送方法,借助存储服务器的海量数据高性能并行传输能力、计算服务器的大规模数据并行计算能力、存储服务器与计算服务器的连通,将从用户集的获取、在海量互联网用户特征数据中获取用户集包括的多个用户分别在历史某个时间的用户特征数据、基于用户特征数据计算用户对应用系统的需求度、基于系统需求度筛选目标用户、目标用户数据下载,全链路数据均实现了并行处理,因此可以有效提升海量用户的系统需求度计算性能,从而提升从海量用户中筛选目标用户的计算性能和准确度。
第十八实施例
在上述的实施例中,提供了一种推送方法,与之相对应的,本申请还提供一种推送装置。该装置是与上述方法的实施例相对应。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
本申请另外提供一种推送装置,包括:请求发送单元,目标用户获取单元,推荐单元。
请求发送单元,用于向数据服务平台发送针对应用系统的拉新用户获取请求,所述请求对应用户集,所述用户集包括多个用户子集;目标用户获取单元,用于获得返回的目标用户集,其中,所述目标用户集根据所述用户的系统需求度确定,所述系统需求度通过系统需求度计算模型对在目标时间的用户特征数据进行计算得到,所述用户特征数据包括基于用户在多个时间的互联网行为形成的特征数据,所述用户特征数据存储于用户特征数据库中,所述目标时间的用户特征数据是从用户特征数据库中并行检索得到;推荐单元,用于向所述目标用户推荐所述应用系统。
在一个示例中,所述服务端根据所述请求,获取应用系统的拉新用户筛选规则;通过计算服务器从存储服务器获取包括多个用户子集的用户集;对所述多个用户子集并行从数据库中获取用户在目标时间的用户特征数据;根据所述用户特征数据,对所述多个用户子集通过应用系统需求度计算模型计算所述用户对应用系统的系统需求度;根据所述用户筛选规则和所述系统需求度,选取满足所述用户筛选规则的目标用户集;通过所述服务端获取所述目标用户集;向所述目标用户推荐所述应用系统。
第十九实施例
在上述的实施例中,提供了一种批量用户数据处理方法,与之相对应的,本申请还提供一种推送方法,用于数据服务平台。该方法是与上述方法实施例中数据服务平台部分相对应。由于本方法实施例基本相似于方法实施例一,所以描述得比较简单,相关之处参见方法实施例一的部分说明即可。下述描述的方法实施例仅仅是示意性的。
在本实施例中,所述推送方法可包括如下步骤:
步骤1:接收客户端发送的针对应用系统的拉新用户获取请求。
所述请求对应用户集,所述用户集包括多个用户子集。
步骤2:对所述多个用户子集并行从用户特征数据库中获取用户在目标时间的用户特征数据,所述数据库包括基于用户互联网行为数据形成的互联网用户在多个时间的用户特征数据。
步骤3:对所述多个用户子集通过应用系统需求度计算模型计算所述用户对应用系统的系统需求度。
步骤4:根据所述系统需求度,确定目标用户集。
步骤5:向所述客户端提供所述目标用户集,用于所述客户端向所述目标用户推荐所述应用系统。
在一个示例中,所述方法还包括:根据所述请求,获取应用系统的拉新用户筛选规则;对所述多个用户子集并行从用户特征数据库中获取符合所述规则的用户在目标时间的用户特征数据;对符合所述规则的用户通过应用系统需求度计算模型计算所述用户对应用系统的系统需求度。
在一个示例中,所述方法还包括:根据所述请求,获取应用系统的拉新用户筛选规则;通过计算服务器从存储服务器获取用户集包括的多个用户子集;对所述多个用户子集并行从数据库中获取用户在目标时间的用户特征数据;对所述多个用户子集并行通过应用系统需求度计算模型计算所述用户对应用系统的系统需求度;根据所述用户筛选规则和所述系统需求度,选取满足所述用户筛选规则的目标用户集。
第二十实施例
在上述的实施例中,提供了一种推送方法,与之相对应的,本申请还提供一种推送装置。该装置是与上述方法的实施例相对应。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
本申请另外提供一种推送装置,包括:请求接收单元,并行检索单元,计算单元,用户筛选单元,目标用户提供单元。
请求接收单元,用于接收客户端发送的针对应用系统的拉新用户获取请求,所述请求对应用户集,所述用户集包括多个用户子集;并行检索单元,用于对所述多个用户子集并行从用户特征数据库中获取用户在目标时间的用户特征数据,所述数据库包括基于用户互联网行为数据形成的互联网用户在多个时间的用户特征数据;计算单元,用于对所述多个用户子集通过应用系统需求度计算模型计算所述用户对应用系统的系统需求度;用户筛选单元,用于根据所述系统需求度,确定目标用户集;目标用户提供单元,用于向所述客户端提供所述目标用户集,所述目标用户获得针对所述应用系统的推荐信息。
在一个示例中,所述方法还包括:规则获取单元,用于根据所述请求,获取应用系统的拉新用户筛选规则;通过计算服务器从存储服务器获取用户集包括的多个用户子集;对所述多个用户子集并行从数据库中获取用户在目标时间的用户特征数据;对所述多个用户子集并行通过应用系统需求度计算模型计算所述用户对应用系统的系统需求度;根据所述用户筛选规则和所述系统需求度,选取满足所述用户筛选规则的目标用户集。
第二十一实施例
在上述的实施例中,提供了多种方法,与之相对应的,本申请还提供一种电子设备。该设备是与上述方法的实施例相对应。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。
本实施例的电子设备,包括:处理器;以及存储器,用于存储实现上述任一项所述的方法的程序,该设备通电并通过所述处理器运行所述方法的程序。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
Claims (14)
1.一种批量用户数据处理方法,其特征在于,包括:
接收客户端发送的批量用户数据计算请求,所述计算请求对应的用户集包括多个用户子集;
对所述多个用户子集并行从用户特征数据库中获取用户在目标时间的用户特征数据,所述数据库包括基于用户互联网行为数据形成的互联网用户在多个时间的用户特征数据;
根据所述用户特征数据,对所述多个用户子集通过用户评分模型计算用户得分;
向所述客户端提供用户得分相关数据。
2.根据权利要求1所述的方法,其特征在于,
所述数据服务平台包括:服务端,存储服务器,计算服务器;
所述方法还包括:
所述计算服务器通过与所述存储服务器的文件关联的数据表的存储控制器,将写入所述数据表的所述用户得分相关数据并行存储至所述存储服务器上的多个文件;
所述向所述客户端提供用户得分相关数据,包括:
接收所述客户端发送的用户得分相关数据下载请求;
获取所述多个文件在所述存储服务器上的地址信息;
向所述客户端回送所述地址信息,所述多个文件根据所述地址信息并行下载。
3.根据权利要求1所述的方法,其特征在于,还包括:
接收所述客户端发送的用户筛选规则,所述用户筛选规则包括对所述用户特征数据的选择;
所述对所述多个用户子集并行从用户特征数据库中获取用户在目标时间的用户特征数据,包括:
对所述多个用户子集并行从用户特征数据库中获取符合所述规则的用户在目标时间的用户特征数据。
4.根据权利要求1至3任一项所述的方法,其特征在于,还包括:
接收客户端发送的用户评分模型构建请求,所述模型构建请求对应第一用户集,所述第一用户集包括多个第一用户子集,所述第一用户子集包括用户标识、至少一个第一用户得分、与第一用户得分对应的时间;
对所述多个第一用户子集,并行从所述数据库中获取用户在所述与第一用户得分对应的的用户特征数据;
根据用户在所述与第一用户得分对应的的用户特征数据和所述至少一个第一用户得分,生成多个训练数据集;
根据所述多个训练数据集,训练与至少一个用户得分分别对应的多个用户评分模型。
5.一种批量用户数据处理方法,其特征在于,包括:
向数据服务平台发送批量用户数据计算请求;
获得返回的用户得分相关数据,其中,所述用户得分通过用户评分模型对在目标时间的用户特征数据进行计算得到;
其中,所述计算请求对应用户集,所述用户集包括多个用户子集,所述用户特征数据包括基于用户在多个时间的互联网行为形成的特征数据,所述用户特征数据存储于用户特征数据库中,所述目标时间的用户特征数据是从用户特征数据库中并行检索得到。
6.一种模型构建方法,其特征在于,包括:
向数据服务平台发送用户评分模型构建请求,所述模型构建请求对应第一用户集,所述第一用户集包括多个第一用户子集,所述第一用户子集包括用户标识、至少一个第一用户得分、与第一用户得分对应的目标时间;至少一个用户评分模型从训练数据集学习得到;所述训练数据包括用户在所述目标时间的用户特征数据和所述第一用户得分,所述目标时间的用户特征数据是从用户特征数据库中并行检索得到,所述数据库包括基于用户互联网行为数据形成的互联网用户在多个时间的用户特征数据。
7.一种模型构建方法,其特征在于,包括:
接收客户端发送的用户评分模型构建请求,所述模型构建请求对应第一用户子集,所述第一用户子集包括多个第一用户子集,所述第一用户子集包括用户标识、至少一个第一用户得分、与第一用户得分对应的目标时间;
对所述多个第一用户子集,并行从用户特征数据库中获取用户在所述目标时间的用户特征数据,所述数据库包括基于用户互联网行为数据形成的互联网用户在多个时间的用户特征数据;
根据用户在所述目标时间的用户特征数据和所述至少一个第一用户得分,生成多个训练数据集;
根据所述多个训练数据集,训练与至少一个用户得分分别对应的用户评分模型。
8.一种模型准确度评估方法,其特征在于,包括:
向数据服务平台发送用户评分模型评估请求,所述模型构建请求对应第二用户集,所述第二用户集包括多个第二用户子集,所述第二用户子集包括用户标识、与第一用户得分对应的目标时间;
获得返回的第二用户得分,其中,所述第二用户得分通过用户评分模型对在所述目标时间的用户特征数据进行计算得到,所述用户特征数据包括基于用户在多个时间的互联网行为形成的特征数据,所述用户特征数据存储于用户特征数据库中,所述目标时间的用户特征数据是从用户特征数据库中并行检索得到;
根据所述第一用户得分和第二用户得分,确定所述用户评分模型的准确度。
9.一种模型准确度评估方法,其特征在于,包括:
接收客户端发送的用户评分模型评估请求,所述模型构建请求对应第二用户集,所述第二用户集包括多个第二用户子集,所述第二用户子集包括用户标识、与第一用户得分对应的目标时间;
对所述多个第二用户子集,并行从用户特征数据库中获取用户在所述目标时间的用户特征数据,所述数据库包括基于用户互联网行为数据形成的互联网用户在多个时间的用户特征数据;
根据所述用户特征数据,对所述多个第二用户子集通过用户评分模型计算第二用户得分;
向所述客户端提供所述第二用户得分,所述用户评分模型的准确度根据所述第一用户得分和第二用户得分确定。
10.一种信息推送方法,其特征在于,包括:
向数据服务平台发送针对应用系统的沉睡用户筛选请求,所述筛选请求对应所述应用系统的沉睡用户集,所述沉睡用户集包括多个沉睡用户子集;
获得返回的目标沉睡用户集,其中,所述目标沉睡用户集根据所述沉睡用户的营销需求度确定,所述营销需求度通过营销需求度计算模型对在目标时间的用户特征数据进行计算得到,所述用户特征数据包括基于用户在多个时间的互联网行为形成的特征数据,所述用户特征数据存储于用户特征数据库中,所述目标时间的用户特征数据是从用户特征数据库中并行检索得到;
向所述目标沉睡用户发送营销信息,以唤醒用户使用所述应用系统。
11.一种信息推送方法,其特征在于,包括:
接收客户端发送的针对应用系统的沉睡用户筛选请求,所述筛选请求对应所述应用系统的沉睡用户集,所述沉睡用户集包括多个沉睡用户子集;
对所述多个沉睡用户子集并行从用户特征数据库中获取用户在目标时间的用户特征数据,所述数据库包括基于用户互联网行为数据形成的互联网用户在多个时间的用户特征数据;
根据所述用户特征数据,对所述多个沉睡用户子集通过营销需求度计算模型计算用户的营销需求度;
根据所述营销需求度,确定目标沉睡用户集;
向所述客户端提供所述目标沉睡用户集。
12.一种推送方法,其特征在于,包括:
向服务端发送针对应用系统的拉新用户获取请求,所述请求对应用户集,所述用户集包括多个用户子集;
获得返回的目标用户集,其中,所述目标用户集根据所述用户的系统需求度确定,所述系统需求度通过系统需求度计算模型对在目标时间的用户特征数据进行计算得到,所述用户特征数据包括基于用户在多个时间的互联网行为形成的特征数据,所述用户特征数据存储于用户特征数据库中,所述目标时间的用户特征数据是从用户特征数据库中并行检索得到;
向所述目标用户推荐所述应用系统。
13.一种推送方法,其特征在于,包括:
接收客户端发送的针对应用系统的拉新用户获取请求,所述请求对应用户集,所述用户集包括多个用户子集;
对所述多个用户子集并行从用户特征数据库中获取用户在目标时间的用户特征数据,所述数据库包括基于用户互联网行为数据形成的互联网用户在多个时间的用户特征数据;
对所述多个用户子集通过应用系统需求度计算模型计算所述用户对应用系统的系统需求度;
根据所述系统需求度,确定目标用户集;
向所述客户端提供所述目标用户集,所述目标用户获得针对所述应用系统的推荐信息。
14.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储实现根据权利要求1-13任一项所述的方法的程序,该设备通电并通过所述处理器运行所述方法的程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310318861.3A CN116468265A (zh) | 2023-03-23 | 2023-03-23 | 批量用户数据处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310318861.3A CN116468265A (zh) | 2023-03-23 | 2023-03-23 | 批量用户数据处理方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116468265A true CN116468265A (zh) | 2023-07-21 |
Family
ID=87174348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310318861.3A Pending CN116468265A (zh) | 2023-03-23 | 2023-03-23 | 批量用户数据处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116468265A (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013025920A2 (en) * | 2011-08-16 | 2013-02-21 | Business Researchers, Inc. | System and method for analyzing marketing treatment data |
CN105488216A (zh) * | 2015-12-17 | 2016-04-13 | 上海中彦信息科技有限公司 | 基于隐式反馈协同过滤算法的推荐系统及方法 |
CN106202331A (zh) * | 2016-07-01 | 2016-12-07 | 中国传媒大学 | 分层次隐私保护的推荐系统及基于该推荐系统的作业方法 |
CN107330785A (zh) * | 2017-07-10 | 2017-11-07 | 广州市触通软件科技股份有限公司 | 一种基于大数据智能风控的小额贷款系统及方法 |
CN108648074A (zh) * | 2018-05-18 | 2018-10-12 | 深圳壹账通智能科技有限公司 | 基于支持向量机的贷款评估方法、装置及设备 |
CN110858377A (zh) * | 2018-08-22 | 2020-03-03 | 阿里巴巴集团控股有限公司 | 信息处理方法、页面显示方法、系统及设备 |
CN111582508A (zh) * | 2020-04-09 | 2020-08-25 | 上海淇毓信息科技有限公司 | 一种基于联邦学习框架的策略制定方法、装置和电子设备 |
CN112529319A (zh) * | 2020-12-18 | 2021-03-19 | 平安银行股份有限公司 | 基于多维特征的评分方法、装置、计算机设备及存储介质 |
CN112541817A (zh) * | 2020-12-22 | 2021-03-23 | 建信金融科技有限责任公司 | 一种个人消费贷款潜在客户的营销响应处理方法及系统 |
CN112950359A (zh) * | 2021-03-30 | 2021-06-11 | 建信金融科技有限责任公司 | 一种用户识别方法和装置 |
CN113743678A (zh) * | 2021-09-18 | 2021-12-03 | 中国银行股份有限公司 | 一种用户信用评分预测方法及相关设备 |
-
2023
- 2023-03-23 CN CN202310318861.3A patent/CN116468265A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013025920A2 (en) * | 2011-08-16 | 2013-02-21 | Business Researchers, Inc. | System and method for analyzing marketing treatment data |
CN105488216A (zh) * | 2015-12-17 | 2016-04-13 | 上海中彦信息科技有限公司 | 基于隐式反馈协同过滤算法的推荐系统及方法 |
CN106202331A (zh) * | 2016-07-01 | 2016-12-07 | 中国传媒大学 | 分层次隐私保护的推荐系统及基于该推荐系统的作业方法 |
CN107330785A (zh) * | 2017-07-10 | 2017-11-07 | 广州市触通软件科技股份有限公司 | 一种基于大数据智能风控的小额贷款系统及方法 |
CN108648074A (zh) * | 2018-05-18 | 2018-10-12 | 深圳壹账通智能科技有限公司 | 基于支持向量机的贷款评估方法、装置及设备 |
CN110858377A (zh) * | 2018-08-22 | 2020-03-03 | 阿里巴巴集团控股有限公司 | 信息处理方法、页面显示方法、系统及设备 |
CN111582508A (zh) * | 2020-04-09 | 2020-08-25 | 上海淇毓信息科技有限公司 | 一种基于联邦学习框架的策略制定方法、装置和电子设备 |
CN112529319A (zh) * | 2020-12-18 | 2021-03-19 | 平安银行股份有限公司 | 基于多维特征的评分方法、装置、计算机设备及存储介质 |
CN112541817A (zh) * | 2020-12-22 | 2021-03-23 | 建信金融科技有限责任公司 | 一种个人消费贷款潜在客户的营销响应处理方法及系统 |
CN112950359A (zh) * | 2021-03-30 | 2021-06-11 | 建信金融科技有限责任公司 | 一种用户识别方法和装置 |
CN113743678A (zh) * | 2021-09-18 | 2021-12-03 | 中国银行股份有限公司 | 一种用户信用评分预测方法及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11379755B2 (en) | Feature processing tradeoff management | |
US8555018B1 (en) | Techniques for storing data | |
US20170293865A1 (en) | Real-time updates to item recommendation models based on matrix factorization | |
US8990241B2 (en) | System and method for recommending queries related to trending topics based on a received query | |
US20140032264A1 (en) | Data refining engine for high performance analysis system and method | |
CN108073710B (zh) | 基于动态网络图挖掘的Github开源代码库推荐系统 | |
CN111159341B (zh) | 基于用户投资理财偏好的资讯推荐方法及装置 | |
CN113220657B (zh) | 数据处理方法、装置及计算机设备 | |
CN105488366A (zh) | 一种数据权限的控制方法和系统 | |
CN113609374A (zh) | 基于内容推送的数据处理方法、装置、设备及存储介质 | |
US20190205963A1 (en) | Data refining engine for high performance analysis system and method | |
CN103309869A (zh) | 数据对象的展示关键词推荐方法及系统 | |
US20170098180A1 (en) | Method and system for automatically generating and completing a task | |
CN113836131A (zh) | 一种大数据清洗方法、装置、计算机设备及存储介质 | |
US10936675B2 (en) | Developing an item data model for an item | |
CN110928917A (zh) | 一种目标用户的确定方法、装置、计算设备及介质 | |
JP2022096632A (ja) | コンピュータ実装方法、コンピュータシステムおよびコンピュータプログラム(データ属性に基づくデータセットのランク付け) | |
CN112100491A (zh) | 基于用户数据的信息推荐方法、装置、设备及存储介质 | |
Castagnos et al. | A client/server user-based collaborative filtering algorithm: Model and implementation | |
Wu et al. | Digital content recommendation system using implicit feedback data | |
CN116468265A (zh) | 批量用户数据处理方法和装置 | |
US11630817B2 (en) | Method and system for data indexing and reporting | |
CN106909665A (zh) | 一种基于本体的专利检索方法 | |
KR20210080977A (ko) | 블록체인을 이용한 비지니스 문서 편집 방법 | |
CN114969486B (zh) | 语料推荐方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 311100 Room 467, 4th Floor, Building 3, No. 969, Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province Applicant after: Lingyang Intelligent Technology Co.,Ltd. Address before: 311100 Room 467, 4th Floor, Building 3, No. 969, Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province Applicant before: Hangzhou Lingyang Intelligent Service Co.,Ltd. |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |