CN107977262A - 一种用于大数据量的用户行为计算方法 - Google Patents

一种用于大数据量的用户行为计算方法 Download PDF

Info

Publication number
CN107977262A
CN107977262A CN201711392578.6A CN201711392578A CN107977262A CN 107977262 A CN107977262 A CN 107977262A CN 201711392578 A CN201711392578 A CN 201711392578A CN 107977262 A CN107977262 A CN 107977262A
Authority
CN
China
Prior art keywords
user behavior
data
computational methods
user
message queue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711392578.6A
Other languages
English (en)
Inventor
庞东泳
黄凌鹏
官建辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiao Hua Internet Financial Services (shenzhen) Co Ltd
Original Assignee
Xiao Hua Internet Financial Services (shenzhen) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiao Hua Internet Financial Services (shenzhen) Co Ltd filed Critical Xiao Hua Internet Financial Services (shenzhen) Co Ltd
Priority to CN201711392578.6A priority Critical patent/CN107977262A/zh
Publication of CN107977262A publication Critical patent/CN107977262A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Abstract

本发明涉及一种用于大数据量的用户行为计算方法,包括持续的收集用户行为信息数据;将收集的用户行为信息数据存储在消息队列;实时获取消息队列的数据,多维度地增强用户无法收集的信息数据,并将增强后的信息数据同时写入到分布式的搜索服务器和消息队列;通过分布式计算引擎获取经过增强处理的消息队列数据,动态地配置用户行为指标并采用流式计算用户行为指标,并将用户行为指标的计算结果写入到分布式搜索服务器。本发明的用户行为计算方法能够满足大数据量的用户行为计算的实时性、并发性、扩展性的要求。

Description

一种用于大数据量的用户行为计算方法
技术领域
本发明涉及一种用户行为计算方法,特别是涉及一种用于大数据量的用户行为计算方法。
背景技术
在互联网金融小额贷款中,风险控制是至关重要的一个环节,风险控制的好坏,直接影响着一个公司的盈利与亏损。为了评估风险,需要对用户行为的特征进行实时统计,实时计算出来的用户行为指标,通过设置阈值,用来控制风险。
例如:在用户申请的动作事件,过去一天里,某个渠道来的人数,用来全网异常行为分析。在先的对用户动作行为的特征信息计算方案大致包括下面几种:
第一种:把数据存入关系型的数据库,并在需要统计的字段加上索引,每次计算时根据查询条件在数据库中统计用户行为特征指标;
第二种:把数据按不同的维度聚合后,存储在NoSQL,在每次计算时根据查询条件快速定位到对应的特征信息,然后统计用户的行为的特征指标;
由于第一种和第二种经常同时存在着,当数据量较大时,实时性能无法满足计算,有可能会超时或者是导致计算指标错误。
发明内容
本发明的目的是针对大数据量的用户行为计算产生的上述问题,提出一种用于大数据量的用户行为计算方法,以满足大数据量的用户行为计算的实时性、并发性、扩展性的要求。
为实现上述目的,本发明提供了一种用于大数据量的用户行为计算方法,所述用户行为计算方法包括:
步骤S101,持续的收集用户行为信息数据;
步骤S102,将收集的用户行为信息数据存储在消息队列;
步骤S103,实时获取消息队列的数据,采用流式计算多维度地增强用户无法收集的信息数据,并将增强后的信息数据同时写入到分布式的搜索服务器和消息队列;
步骤S104,通过分布式计算引擎获取经过增强处理的消息队列数据,动态地配置用户行为指标并采用流式计算用户行为指标,并将用户行为指标的计算结果写入到分布式搜索服务器。
优选地,所述用户行为信息数据包括ip归属地、手机号归属地、户籍地址、银行卡信息、渠道来源、设备指纹。
优选地,当前端收集的用户行为信息数据不完整时,后端将所述用户行为信息数据进行补充。
优选地,多维度地增强用户无法收集的信息数据过程采用流式计算并发增强数据。
优选地,所述分布式计算引擎为集群形式、高并发、高可用的大规模流式处理数据的引擎。
基于上述技术方案,本发明的优点是:
本发明的用于大数据量的用户行为计算方法能够满足大数据量的用户行为计算的实时性、并发性、扩展性的要求,具体如下:
其一,本发明实时性强,毫秒级别计算指标,能够实时处理大规模的用户行为数据;其二,采用分布式计算指标,流式计算并发能力强;其三,可以实时动态地配置指标文件,扩展性强;其四,采用分布式计算与存储,稳定性高。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为用于大数据量的用户行为计算方法流程图;
图2为数据增强的流式计算示意图;
图3为流式计算之动态指标计算。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
本发明提供了一种用于大数据量的用户行为计算方法,如图1~图3所示,其中示出了本发明的一种优选实施方式。如图1所示,所述用户行为计算方法包括:
步骤S101,持续的收集用户行为信息数据;
步骤S102,将收集的用户行为信息数据存储在消息队列;
步骤S103,实时获取消息队列的数据,采用流式计算多维度地增强用户无法收集的信息数据,并将增强后的信息数据同时写入到分布式的搜索服务器和消息队列;
步骤S104,通过分布式计算引擎获取经过增强处理的消息队列数据,动态地配置用户行为指标并采用流式计算用户行为指标,并将用户行为指标的计算结果写入到分布式搜索服务器。
优选地,所述用户行为信息数据包括ip归属地、手机号归属地、户籍地址、银行卡信息、渠道来源、设备指纹。优选地,当前端收集的用户行为信息数据不完整时,后端将所述用户行为信息数据进行补充,以获得用户多维度行为信息数据。
如图2所示,多维度地增强用户无法收集的信息数据过程采用流式计算并发增强数据,能够实现多节点、高并发、多维度地增强用户信息。所述分布式搜索服务器是指集群形式的服务器,其数据采用分布式存储并且有复本,具有高可用性。分布式搜索服务器采用分布式实时文件存储,可将每一个字段存入索引,使其可以被检索到。实时分析的分布式搜索引擎将索引分拆成多个分片,每个分片可有零个或多个副本,使得集群中的每个数据节点都可承载一个或多个分片,并且协调和处理各种操作,负载再平衡和路由在大多数情况下自动完成。其具有很强的拓展能力,可以扩展到上百台服务器,处理PB级别的结构化或非结构化数据,当然也可以运行在单台PC上,同时还支持插件机制,如分词插件、同步插件、Hadoop插件、可视化插件等。
为进一步说明本发明的用户行为计算方法,以为例对用户行为计算方法进行说明:
用户申请获额时,会收集用户的一系列信息,例如所在城市、电话号码、ip地址、身份证等等,然后这条数据发到消息队列里,通过不断的监控所述消息队列,发现有数据后会读取这条数据,在这条数据的基础上增加一些字段,例如这个用户的手机号归属地、身份证的归属地、ip归属地等等,完成了对用户行为数据进行增强。增强完成后,继续把该数据一方面写到分布式服务器(ElastricSearch),另一方面发送另一个消息队列里,同时也监控该消息队列,读取后,然后解析这条数据。例如一个指标是,这个ip城市在一天内出现过多少次,解析到ip城市,到分布式服务器(ElastricSearch)里面查,算出来值后加到该数据里,然后把该数据写到分布式服务器(ElastricSearch)里,完成用户行为计算。
优选地,所述分布式计算引擎为集群形式、高并发、高可用的大规模流式处理数据的引擎。如图3所示,采用流式计算用户行为指标能够实现多节点、高并发地计算指标。本发明采用动态配置指标,能够保证指标配置一直运行,通过在配置表中新增一个指标即可实现自动运算新增指标。采用流式计算用户行为指标,并发能力强,能够获得更低的延时,尤其在大数据量时相比更能获得高处理效率。
本发明的用于大数据量的用户行为计算方法能够满足大数据量的用户行为计算的实时性、并发性、扩展性的要求,具体如下:
其一,本发明实时性强,毫秒级别计算指标,能够实时处理大规模的用户行为数据;其二,采用分布式计算指标,流式计算并发能力强;其三,可以实时动态地配置指标文件,扩展性强;其四,采用分布式计算与存储,稳定性高。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制;尽管参照较佳实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换;而不脱离本发明技术方案的精神,其均应涵盖在本发明请求保护的技术方案范围当中。

Claims (5)

1.一种用于大数据量的用户行为计算方法,其特征在于:所述用户行为计算方法包括:
步骤S101,持续的收集用户行为信息数据;
步骤S102,将收集的用户行为信息数据存储在消息队列;
步骤S103,实时获取消息队列的数据,采用流式计算多维度地增强用户无法收集的信息数据,并将增强后的信息数据同时写入到分布式的搜索服务器和消息队列;
步骤S104,通过分布式计算引擎获取经过增强处理的消息队列数据,动态地配置用户行为指标并采用流式计算用户行为指标,并将用户行为指标的计算结果写入到分布式搜索服务器。
2.根据权利要求1所述的用户行为计算方法,其特征在于:所述用户行为信息数据包括ip归属地、手机号归属地、户籍地址、银行卡信息、渠道来源、设备指纹。
3.根据权利要求2所述的用户行为计算方法,其特征在于:当前端收集的用户行为信息数据不完整时,后端将所述用户行为信息数据进行补充。
4.根据权利要求1所述的用户行为计算方法,其特征在于:多维度地增强用户无法收集的信息数据过程采用流式计算并发增强数据。
5.根据权利要求1所述的用户行为计算方法,其特征在于:所述分布式计算引擎为集群形式、高并发、高可用的大规模流式处理数据的引擎。
CN201711392578.6A 2017-12-21 2017-12-21 一种用于大数据量的用户行为计算方法 Pending CN107977262A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711392578.6A CN107977262A (zh) 2017-12-21 2017-12-21 一种用于大数据量的用户行为计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711392578.6A CN107977262A (zh) 2017-12-21 2017-12-21 一种用于大数据量的用户行为计算方法

Publications (1)

Publication Number Publication Date
CN107977262A true CN107977262A (zh) 2018-05-01

Family

ID=62007186

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711392578.6A Pending CN107977262A (zh) 2017-12-21 2017-12-21 一种用于大数据量的用户行为计算方法

Country Status (1)

Country Link
CN (1) CN107977262A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111784353A (zh) * 2020-07-02 2020-10-16 北京白龙马云行科技有限公司 实时特征计算方法、订单风险预测方法、装置及订单系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105931116A (zh) * 2016-04-20 2016-09-07 帮帮智信(北京)教育投资有限公司 基于深度学习机制的自动化信用评分系统及方法
CN106021619A (zh) * 2016-07-14 2016-10-12 微额速达(上海)金融信息服务有限公司 全网搜索系统
US20170185976A1 (en) * 2015-12-28 2017-06-29 Mastercard International Incorporated Methods, systems, and computer readable media for an electronic infrastructure for a rotating savings and credit association
CN106919685A (zh) * 2017-03-02 2017-07-04 浪潮软件集团有限公司 一种海量数据文件处理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170185976A1 (en) * 2015-12-28 2017-06-29 Mastercard International Incorporated Methods, systems, and computer readable media for an electronic infrastructure for a rotating savings and credit association
CN105931116A (zh) * 2016-04-20 2016-09-07 帮帮智信(北京)教育投资有限公司 基于深度学习机制的自动化信用评分系统及方法
CN106021619A (zh) * 2016-07-14 2016-10-12 微额速达(上海)金融信息服务有限公司 全网搜索系统
CN106919685A (zh) * 2017-03-02 2017-07-04 浪潮软件集团有限公司 一种海量数据文件处理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GUANG TAN等: ""A Payment-Based Incentive and Service Differentiation Scheme for Peer-to-Peer Streaming Broadcast"", 《IEEE TRANSACTIONS ON PARALLEL AND DISTRIBUTED SYSTEMS》 *
易卫峰: ""基于RESTful的P2P借贷交易系统设计"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111784353A (zh) * 2020-07-02 2020-10-16 北京白龙马云行科技有限公司 实时特征计算方法、订单风险预测方法、装置及订单系统
CN111784353B (zh) * 2020-07-02 2024-01-30 北京白龙马云行科技有限公司 实时特征计算方法、订单风险预测方法、装置及订单系统

Similar Documents

Publication Publication Date Title
CN109471863B (zh) 基于分布式数据库的信息查询方法及装置、电子设备
CN106528717B (zh) 数据处理方法和系统
US20200356563A1 (en) Query performance model generation and use in a hybrid multi-cloud database environment
CN103177055B (zh) 存储为行存储和列存储二者的混合数据库表
US8762309B2 (en) Storage policy evaluation in a computing environment
US8055649B2 (en) Scaled management system
US10242061B2 (en) Distributed execution of expressions in a query
CN107679931A (zh) 订单异步处理的方法、装置、存储介质及终端
CN111064808B (zh) 一种基于分布式存储系统的负载均衡方法及装置
CN108446305A (zh) 多维度统计业务数据的系统和方法
CN106649670A (zh) 基于流式计算的数据监控方法及装置
TWI643076B (zh) 金融非結構化文本分析系統及其方法
CN102156933A (zh) 统计电子商务交易数据的方法和统计系统
CN108415964A (zh) 数据表查询方法、装置、终端设备及存储介质
US20160342658A1 (en) Streaming Optimized Data Processing
CN108509437A (zh) 一种ElasticSearch查询加速方法
CN113360554A (zh) 一种数据抽取、转换和加载etl的方法和设备
WO2020093714A1 (zh) 一种数据处理方法、装置、设备及可读存储介质
CN110675238A (zh) 客户标签配置方法、系统、可读存储介质及电子设备
CN107145574A (zh) 数据库数据处理方法、装置及存储介质和电子设备
CN110737432A (zh) 一种基于词根表的脚本辅助设计方法及装置
CN108182204A (zh) 基于房产交易多维度数据的数据查询的处理方法及装置
CN107977262A (zh) 一种用于大数据量的用户行为计算方法
CN107480189A (zh) 一种多维度实时分析系统及方法
CN116843390A (zh) 信息展示方法及其装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180501

RJ01 Rejection of invention patent application after publication