CN111967521A - 跨境活跃用户识别方法及装置 - Google Patents
跨境活跃用户识别方法及装置 Download PDFInfo
- Publication number
- CN111967521A CN111967521A CN202010833960.1A CN202010833960A CN111967521A CN 111967521 A CN111967521 A CN 111967521A CN 202010833960 A CN202010833960 A CN 202010833960A CN 111967521 A CN111967521 A CN 111967521A
- Authority
- CN
- China
- Prior art keywords
- cross
- border
- data set
- activity
- training data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Evolutionary Biology (AREA)
- Entrepreneurship & Innovation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Quality & Reliability (AREA)
- Medical Informatics (AREA)
- Game Theory and Decision Science (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种跨境活跃用户识别方法及装置,该方法包括:获取跨境APP上历史用户的行为数据;基于行为和分数映射关系,确定行为数据对应的分数,基于分数确定历史用户的跨境活跃度;从所有历史用户中随机选取种子用户;获得种子用户多个维度的特征数据,将多个维度的特征数据作为训练数据集,种子用户的跨境活跃度作为训练数据集的标签;对训练数据集进行清洗和向量化处理,获得处理后的训练数据集;基于lightGBM和处理后的训练数据集进行回归建模,获得活跃度回归预测模型;获得其他渠道用户的多个维度的特征数据,基于活跃度回归预测模型,预测其他渠道用户使用跨境APP的活跃度。本发明可以提升活跃客户挖掘工作效率。
Description
技术领域
本发明涉及客户识别技术领域,尤其涉及跨境活跃用户识别方法及装置。
背景技术
本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
对于跨境场景,如果在跨境APP上线之初就能从数以亿计的客户中挖掘出跨境APP潜在客户群体,那么就能获得更多效益以及市场竞争优势。但是,当前跨境APP主要通过业务人员向客户“广撒网”的方式进行推广,使得推广成本高,效率低,没有针对性,资源利用率低,极易造成有跨境APP使用迫切需求的用户没有被推广到,却将大量的人力物力投入到低价值低活跃度的客户上,造成资源浪费;此外,跨境场景中把跨境APP活跃客户挖掘看做一个二分类问题,存在one class问题,即:样本分布极不平衡且处于少数类的正样本一定是正样本,但负样本未必一定是负样本(业务人员可以根据经验设置规则,筛选出跨境APP活跃用户作为正样本;但无法设置合适的规则确定某些用户一定是非跨境APP用户),这就导致一些基于分类算法的活跃客户挖掘模型不适用本场景。
发明内容
本发明实施例提供一种跨境活跃用户识别方法,用以解决现有技术中的跨境APP广撒网推广方法成本高效率低和跨境APP活跃客户挖掘存在one class问题的技术问题,该方法包括:
获取跨境APP上历史用户的行为数据;
基于行为和分数映射关系,确定历史用户的行为数据对应的分数,基于所述分数确定历史用户的跨境活跃度;
从所有历史用户中随机选取预设数量用户作为种子用户;
获得种子用户多个维度的特征数据,将所述多个维度的特征数据作为训练数据集,种子用户的跨境活跃度作为训练数据集的标签;
对所述训练数据集进行清洗和向量化处理,获得处理后的训练数据集;
基于lightGBM和所述处理后的训练数据集进行回归建模,获得活跃度回归预测模型;
获得其他渠道用户的多个维度的特征数据,基于所述活跃度回归预测模型,预测其他渠道用户使用跨境APP的活跃度。
本发明实施例还提供一种跨境活跃用户识别装置,用以解决现有技术中的跨境APP广撒网推广方法成本高效率低和跨境APP活跃客户挖掘存在one class问题的技术问题,该装置包括:
行为数据获得模块,用于获取跨境APP上历史用户的行为数据;
跨境活跃度确定模块,用于基于行为和分数映射关系,确定历史用户的行为数据对应的分数,基于所述分数确定历史用户的跨境活跃度;
种子用户确定模块,用于从所有历史用户中随机选取预设数量用户作为种子用户;
特征数据获得模块,用于获得种子用户多个维度的特征数据,将所述多个维度的特征数据作为训练数据集,种子用户的跨境活跃度作为训练数据集的标签;
特征数据处理模块,用于对所述训练数据集进行清洗和向量化处理,获得处理后的训练数据集;
lightGBM回归建模模块,用于基于lightGBM和所述处理后的训练数据集进行回归建模,获得活跃度回归预测模型;
活跃度预测模块,用于获得其他渠道用户的多个维度的特征数据,基于所述活跃度回归预测模型,预测其他渠道用户使用跨境APP的活跃度。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述跨境活跃用户识别方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述跨境活跃用户识别方法的计算机程序。
本发明实施例中,与现有技术中跨境APP广撒网推广方法成本高效率低和跨境APP活跃客户挖掘存在one class问题的技术方案相比,本发明通过基于行为和分数映射关系,确定历史用户的行为数据对应的分数,基于分数确定历史用户的跨境活跃度;从所有历史用户中随机选取预设数量用户作为种子用户;获得种子用户多个维度的特征数据,将多个维度的特征数据作为训练数据集,种子用户的跨境活跃度作为训练数据集的标签;对训练数据集进行清洗和向量化处理,获得处理后的训练数据集;基于lightGBM和处理后的训练数据集进行回归建模,获得活跃度回归预测模型;获得其他渠道用户的多个维度的特征数据,基于所述活跃度回归预测模型,预测其他渠道用户使用跨境APP的活跃度,从而提升活跃客户挖掘工作效率,合理利用数据资源避免one-class问题,提高活跃度预测的准确性,开销小,减少推广人员工作量,降低成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中跨境活跃用户识别方法流程图;
图2为本发明实施例中训练数据集进行清洗和向量化处理流程图一;
图3为t%分布法原理示意图;
图4为本发明实施例中训练数据集进行清洗和向量化处理流程图二;
图5为本发明实施例中跨境活跃用户识别装置结构框图一;
图6为本发明实施例中特征数据处理模块结构框图一;
图7为本发明实施例中特征数据处理模块结构框图二;
图8为本发明实施例中跨境活跃用户识别装置结构框图二。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
技术术语解释
lightGBM:一个梯度提升框架,使用基于树的学习算法。它是对于XGB提升性能的版本,相对于其他GBM来说具有相近的准确率而且是其训练速度20倍。
回归:指研究一组随机变量(Y1,Y2,…,Yi)和另一组(X1,X2,…,Xk)变量之间关系的统计分析方法,又称多重回归分析。通常Y1,Y2,…,Yi是因变量,X1、X2,…,Xk是自变量。
One-class问题:在某些场景下只能获取一个类别的数据集与标签,或者样本分布极不平衡且处于少数类的正样本一定是正样本,但负样本未必一定是负样本。相对来说容易得到正常场景下的训练数据,但非正常场景状态的收集示例数据可能相当昂贵,或者根本不可能。
基于现有技术中存在的跨境APP广撒网推广方法成本高效率低和跨境APP活跃客户挖掘存在one class问题,本发明提出一种跨境活跃用户识别方法,如图1所示,该方法包括:
步骤102:获取跨境APP上历史用户的行为数据;
步骤104:基于行为和分数映射关系,确定历史用户的行为数据对应的分数,基于所述分数确定历史用户的跨境活跃度;
步骤106:从所有历史用户中随机选取预设数量用户作为种子用户;
步骤108:获得种子用户多个维度的特征数据,将所述多个维度的特征数据作为训练数据集,种子用户的跨境活跃度作为训练数据集的标签;
步骤110:对所述训练数据集进行清洗和向量化处理,获得处理后的训练数据集;
步骤112:基于lightGBM和所述处理后的训练数据集进行回归建模,获得活跃度回归预测模型;
步骤114:获得其他渠道用户的多个维度的特征数据,基于所述活跃度回归预测模型,预测其他渠道用户使用跨境APP的活跃度。
在本发明实施例中,历史用户(即跨境APP上线后到当前时间点的存量用户)的行为数据按照行为和分数映射关系中的行为来获取,行为和分数映射关系见下表1所示:
表1
行为 | 分数 |
登录次数 | 2分/次 |
浏览时长 | 5分/小时 |
分享 | 3分/次 |
点赞 | 2分/次 |
上传作品次数 | 5分/次 |
当年结售汇交易 | 5分/次 |
当年留学贷款交易 | 3分/次 |
当年外币理财交易 | 3分/次 |
当年国际汇出交易 | 4分/次 |
当年境外信用卡交易 | 4分/次 |
交易金额小于1w | 1分 |
交易金额大于1w,小于10w | 2分 |
交易金额大于10w,小于100w | 3分 |
交易金额大于100w,小于1000w | 4分 |
交易金额大于1000w | 5分 |
上传作品浏览量小于1000 | 0.5 |
上传作品浏览量大于1000,小于1w | 1 |
上传作品浏览量大于1w,小于10w | 2 |
上传作品浏览量大于10w,小于100w | 3 |
上传作品浏览量大于10w,小于100w | 4 |
上传作品浏览量大于100w | 5 |
在本发明实施例中,步骤104利用spark-streaming基于行为和分数映射关系,确定历史用户的行为数据对应的分数,基于所述分数综合统计出历史用户的跨境活跃度。权衡数据量与计算效率之间关系,随机选取部分用户作为“种子用户”,存入hive中。
其中,Spark Streaming用于流式数据的处理,有高吞吐量和容错能力强这两个特点。
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能。
在本发明实施例中,步骤108:获得种子用户多个维度的特征数据,该多个维度的特征数据可以是客户基本信息、客户资产、客户子女基本信息、客户结售汇、客户跨境汇款、客户信用卡外币等特征分析维度。将种子用户根据主键(比如种子用户的标识)进行关联,将所述多个维度的特征数据作为训练数据集,种子用户的跨境活跃度作为训练数据集的标签,存入hive中。
在本发明实施例中,如图2所示,步骤110具体包括:
步骤1101:利用spark-mllib使用均值和最大频数对所述训练数据集中的空置进行填充;
步骤1102:使用t%分布法对所述训练数据集中的异常值清洗;
步骤1103:使用onehot对所述训练数据集中的离散特征进行向量化。
其中,步骤1101和步骤1102可以调换先后顺序。执行完步骤1103后,将清洗和向量化处理后的训练数据集存入hive中。步骤110的作用是提高数据质量。
MLlib是spark的可以扩展的机器学习库,由以下部分组成:通用的学习算法和工具类,包括分类,回归,聚类,协同过滤,降维,当然也包括调优的部分。
t%分布法是一种现有的异常数据清洗方法。t%分布法主要是:将属性取值从小到大排列,统计其分布规律,按照样本分布规律找到t%上分位点和下分位点,两个分位点之间的样本为正常样本,占整个样本的比例为1-2*t%,两个分位点之外的样本为异常样本,分别占整个样本的t%。两个分位点的对应的t%的取值也可以根据实际情况设定不一样的取值,即上分位点为t1%,下分位点为t2%。例如,某一维度的属性取值分布为正态分布,即如下图3所示,此时,图3中阴影部分的取值为异常值,分布在该区间的样本被认为是异常样本,将被清洗掉。
onehot是比较常用的文本特征特征提取的方法。one-hot向量将类别变量转换为机器学习算法易于利用的一种形式的过程,这个向量的表示为一项属性的特征向量,也就是同一时间只有一个激活点(不为0),这个向量只有一个特征是不为0的,其他都是0,特别稀疏。
在本发明实施例中,如图4所示,步骤110还包括:
步骤1104:对使用onehot处理后的离散特征两两之间进行特征交叉组合衍生新特征,将新特征同样作为训练数据集(即和步骤1103中得到的向量关联),存入hive中。其作用是丰富数据。
在本发明实施例中,步骤112中,基于lightGBM进行回归建模,是让机器去学习高活跃度/低活跃度客户对应多个维度上的特点。然后得到一个好的活跃度回归预测模型,然后使用这个活跃度回归预测模型进行活跃度预测。
本发明实施例中还提供了一种跨境活跃用户识别装置,如下面的实施例所述。由于该装置解决问题的原理与跨境活跃用户识别方法相似,因此该装置的实施可以参见跨境活跃用户识别方法的实施,重复之处不再赘述。
图5为本发明实施例中跨境活跃用户识别装置结构框图,如图5所示,该装置包括:
行为数据获得模块02,用于获取跨境APP上历史用户的行为数据;
跨境活跃度确定模块04,用于基于行为和分数映射关系,确定历史用户的行为数据对应的分数,基于所述分数确定历史用户的跨境活跃度;
种子用户确定模块06,用于从所有历史用户中随机选取预设数量用户作为种子用户;
特征数据获得模块08,用于获得种子用户多个维度的特征数据,将所述多个维度的特征数据作为训练数据集,种子用户的跨境活跃度作为训练数据集的标签;
特征数据处理模块10,用于对所述训练数据集进行清洗和向量化处理,获得处理后的训练数据集;
lightGBM回归建模模块12,用于基于lightGBM和所述处理后的训练数据集进行回归建模,获得活跃度回归预测模型;
活跃度预测模块14,用于获得其他渠道用户的多个维度的特征数据,基于所述活跃度回归预测模型,预测其他渠道用户使用跨境APP的活跃度。
在本发明实施例中,跨境活跃度确定模块04具体用于:
利用spark-streaming基于行为和分数映射关系,确定历史用户的行为数据对应的分数,基于所述分数确定历史用户的跨境活跃度。
图6为本发明实施例中特征数据处理模块结构框图一,如图6所示,特征数据处理模块10包括:
spark-mllib空置填充单元101,用于利用spark-mllib使用均值和最大频数对所述训练数据集中的空置进行填充;
t%异常值清洗单元102,用于使用t%分布法对所述训练数据集中的异常值清洗;
onehot向量化单元103,用于使用onehot对所述训练数据集中的离散特征进行向量化。
图7为本发明实施例中特征数据处理模块结构框图二,如图7所示,特征数据处理模块还包括:
onehot特征交叉组合衍生单元104,用于使用onehot处理后的离散特征两两之间进行特征交叉组合衍生新特征,将新特征同样作为训练数据集。
在本发明实施例中,如图8所示,还包括:存储模块16,用于将所述种子用户的训练数据集、清洗和向量化处理后的训练数据集、加入了新特征的训练数据集存入hive中。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述跨境活跃用户识别方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述跨境活跃用户识别方法的计算机程序。
本发明实施例中,与现有技术中跨境APP广撒网推广方法成本高效率低和跨境APP活跃客户挖掘存在one class问题的技术方案相比,本发明通过基于行为和分数映射关系,确定历史用户的行为数据对应的分数,基于分数确定历史用户的跨境活跃度;从所有历史用户中随机选取预设数量用户作为种子用户;获得种子用户多个维度的特征数据,将多个维度的特征数据作为训练数据集,种子用户的跨境活跃度作为训练数据集的标签;对训练数据集进行清洗和向量化处理,获得处理后的训练数据集;基于lightGBM和处理后的训练数据集进行回归建模,获得活跃度回归预测模型;获得其他渠道用户的多个维度的特征数据,基于所述活跃度回归预测模型,预测其他渠道用户使用跨境APP的活跃度,从而提升活跃客户挖掘工作效率,减少对用户的打扰,提高用户体验,合理利用数据资源避免one-class问题,提高活跃度预测的准确性,开销小,减少推广人员工作量,降低成本。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种跨境活跃用户识别方法,其特征在于,包括:
获取跨境APP上历史用户的行为数据;
基于行为和分数映射关系,确定历史用户的行为数据对应的分数,基于所述分数确定历史用户的跨境活跃度;
从所有历史用户中随机选取预设数量用户作为种子用户;
获得种子用户多个维度的特征数据,将所述多个维度的特征数据作为训练数据集,种子用户的跨境活跃度作为训练数据集的标签;
对所述训练数据集进行清洗和向量化处理,获得处理后的训练数据集;
基于lightGBM和所述处理后的训练数据集进行回归建模,获得活跃度回归预测模型;
获得其他渠道用户的多个维度的特征数据,基于所述活跃度回归预测模型,预测其他渠道用户使用跨境APP的活跃度。
2.如权利要求1所述的跨境活跃用户识别方法,其特征在于,基于行为和分数映射关系,确定历史用户的行为数据对应的分数,基于所述分数确定历史用户的跨境活跃度,包括:
利用spark-streaming基于行为和分数映射关系,确定历史用户的行为数据对应的分数,基于所述分数确定历史用户的跨境活跃度。
3.如权利要求1所述的跨境活跃用户识别方法,其特征在于,对所述训练数据集进行清洗和向量化处理,获得处理后的训练数据集,包括:
利用spark-mllib使用均值和最大频数对所述训练数据集中的空置进行填充;
使用t%分布法对所述训练数据集中的异常值清洗;
使用onehot对所述训练数据集中的离散特征进行向量化。
4.如权利要求3所述的跨境活跃用户识别方法,其特征在于,还包括:
对使用onehot处理后的离散特征两两之间进行特征交叉组合衍生新特征,将新特征同样作为训练数据集。
5.如权利要求4所述的跨境活跃用户识别方法,其特征在于,还包括:将所述种子用户的训练数据集、清洗和向量化处理后的训练数据集、加入了新特征的训练数据集存入hive中。
6.一种跨境活跃用户识别装置,其特征在于,包括:
行为数据获得模块,用于获取跨境APP上历史用户的行为数据;
跨境活跃度确定模块,用于基于行为和分数映射关系,确定历史用户的行为数据对应的分数,基于所述分数确定历史用户的跨境活跃度;
种子用户确定模块,用于从所有历史用户中随机选取预设数量用户作为种子用户;
特征数据获得模块,用于获得种子用户多个维度的特征数据,将所述多个维度的特征数据作为训练数据集,种子用户的跨境活跃度作为训练数据集的标签;
特征数据处理模块,用于对所述训练数据集进行清洗和向量化处理,获得处理后的训练数据集;
lightGBM回归建模模块,用于基于lightGBM和所述处理后的训练数据集进行回归建模,获得活跃度回归预测模型;
活跃度预测模块,用于获得其他渠道用户的多个维度的特征数据,基于所述活跃度回归预测模型,预测其他渠道用户使用跨境APP的活跃度。
7.如权利要求6所述的跨境活跃用户识别装置,其特征在于,跨境活跃度确定模块具体用于:
利用spark-streaming基于行为和分数映射关系,确定历史用户的行为数据对应的分数,基于所述分数确定历史用户的跨境活跃度。
8.如权利要求6所述的跨境活跃用户识别装置,其特征在于,特征数据处理模块具体用于:
利用spark-mllib使用均值和最大频数对所述训练数据集中的空置进行填充;
使用t%分布法对所述训练数据集中的异常值清洗;
使用onehot对所述训练数据集中的离散特征进行向量化。
9.如权利要求8所述的跨境活跃用户识别装置,其特征在于,特征数据处理模块还用于:
对使用onehot处理后的离散特征两两之间进行特征交叉组合衍生新特征,将新特征同样作为训练数据集。
10.如权利要求9所述的跨境活跃用户识别装置,其特征在于,还包括:存储模块,用于将所述种子用户的训练数据集、清洗和向量化处理后的训练数据集、加入了新特征的训练数据集存入hive中。
11.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5任一所述跨境活跃用户识别方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至5任一所述跨境活跃用户识别方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010833960.1A CN111967521B (zh) | 2020-08-18 | 2020-08-18 | 跨境活跃用户识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010833960.1A CN111967521B (zh) | 2020-08-18 | 2020-08-18 | 跨境活跃用户识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111967521A true CN111967521A (zh) | 2020-11-20 |
CN111967521B CN111967521B (zh) | 2023-09-19 |
Family
ID=73388740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010833960.1A Active CN111967521B (zh) | 2020-08-18 | 2020-08-18 | 跨境活跃用户识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111967521B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113239945A (zh) * | 2021-07-12 | 2021-08-10 | 中国人民解放军国防科技大学 | 利用轨迹约束的红外弱小目标检测方法 |
CN114880709A (zh) * | 2022-05-23 | 2022-08-09 | 铜仁英丹网络科技有限公司 | 一种应用人工智能的电商数据防护方法及服务器 |
CN117786478A (zh) * | 2023-11-30 | 2024-03-29 | 北京蓝色创想网络科技有限责任公司 | 基于多模型的用户活跃度预测方法、系统、设备及介质 |
CN117786478B (zh) * | 2023-11-30 | 2024-05-14 | 北京蓝色创想网络科技有限责任公司 | 基于多模型的用户活跃度预测方法、系统、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105631538A (zh) * | 2015-12-23 | 2016-06-01 | 北京奇虎科技有限公司 | 一种用户活跃度的预测方法、装置及其应用方法和系统 |
CN109508807A (zh) * | 2018-07-26 | 2019-03-22 | 云数信息科技(深圳)有限公司 | 彩票用户活跃度预测方法、系统及终端设备、存储介质 |
CN109636047A (zh) * | 2018-12-17 | 2019-04-16 | 江苏满运软件科技有限公司 | 用户活跃度预测模型训练方法、系统、设备及存储介质 |
CN110956273A (zh) * | 2019-11-07 | 2020-04-03 | 中信银行股份有限公司 | 融合多种机器学习模型的征信评分方法及系统 |
CN111401433A (zh) * | 2020-03-12 | 2020-07-10 | 腾讯科技(深圳)有限公司 | 用户信息获取方法、装置、电子设备及存储介质 |
-
2020
- 2020-08-18 CN CN202010833960.1A patent/CN111967521B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105631538A (zh) * | 2015-12-23 | 2016-06-01 | 北京奇虎科技有限公司 | 一种用户活跃度的预测方法、装置及其应用方法和系统 |
CN109508807A (zh) * | 2018-07-26 | 2019-03-22 | 云数信息科技(深圳)有限公司 | 彩票用户活跃度预测方法、系统及终端设备、存储介质 |
CN109636047A (zh) * | 2018-12-17 | 2019-04-16 | 江苏满运软件科技有限公司 | 用户活跃度预测模型训练方法、系统、设备及存储介质 |
CN110956273A (zh) * | 2019-11-07 | 2020-04-03 | 中信银行股份有限公司 | 融合多种机器学习模型的征信评分方法及系统 |
CN111401433A (zh) * | 2020-03-12 | 2020-07-10 | 腾讯科技(深圳)有限公司 | 用户信息获取方法、装置、电子设备及存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113239945A (zh) * | 2021-07-12 | 2021-08-10 | 中国人民解放军国防科技大学 | 利用轨迹约束的红外弱小目标检测方法 |
CN114880709A (zh) * | 2022-05-23 | 2022-08-09 | 铜仁英丹网络科技有限公司 | 一种应用人工智能的电商数据防护方法及服务器 |
CN117786478A (zh) * | 2023-11-30 | 2024-03-29 | 北京蓝色创想网络科技有限责任公司 | 基于多模型的用户活跃度预测方法、系统、设备及介质 |
CN117786478B (zh) * | 2023-11-30 | 2024-05-14 | 北京蓝色创想网络科技有限责任公司 | 基于多模型的用户活跃度预测方法、系统、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111967521B (zh) | 2023-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3121738A1 (en) | Data storage extract, transform and load operations for entity and time-based record generation | |
WO2019037202A1 (zh) | 目标客户的识别方法、装置、电子设备及介质 | |
CN106844407B (zh) | 基于数据集相关性的标签网络产生方法和系统 | |
CN110347888B (zh) | 订单数据的处理方法、装置及存储介质 | |
CN111967971A (zh) | 银行客户数据处理方法及装置 | |
CN111340121A (zh) | 目标特征的确定方法及装置 | |
CN111966886A (zh) | 对象推荐方法、对象推荐装置、电子设备及存储介质 | |
CN111967521A (zh) | 跨境活跃用户识别方法及装置 | |
WO2016113747A1 (en) | A query processing engine recommendation method and system | |
CN113836310A (zh) | 知识图谱驱动的工业品供应链管理方法和系统 | |
CN115062087A (zh) | 一种用户画像构建方法、装置、设备和介质 | |
US9384238B2 (en) | Block partitioning for efficient record processing in parallel computing environment | |
CN113424207B (zh) | 高效地训练可理解模型的系统和方法 | |
CN110597796B (zh) | 基于全生命周期的大数据实时建模方法及系统 | |
CN111324594A (zh) | 用于粮食加工业的数据融合方法、装置、设备及存储介质 | |
CN111967671B (zh) | 基于支持向量数据域描述的跨境活跃用户识别方法及装置 | |
CN111723122A (zh) | 数据间关联规则的确定方法、装置、设备及可读存储介质 | |
CN115495587A (zh) | 一种基于知识图谱的告警分析方法及装置 | |
US9239867B2 (en) | System and method for fast identification of variable roles during initial data exploration | |
CN112507098B (zh) | 问题处理方法、装置、电子设备、存储介质及程序产品 | |
CN114756685A (zh) | 一种投诉单的投诉风险识别方法及装置 | |
CN109783464B (zh) | 一种基于Spark平台的频繁项集挖掘方法 | |
CN112529319A (zh) | 基于多维特征的评分方法、装置、计算机设备及存储介质 | |
CN113869423A (zh) | 一种营销响应模型构建方法、设备及介质 | |
CN112308419A (zh) | 数据处理方法、装置、设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |