CN113034193A - 一种app2vec在风控系统中建模的工作方法 - Google Patents

一种app2vec在风控系统中建模的工作方法 Download PDF

Info

Publication number
CN113034193A
CN113034193A CN202110360358.5A CN202110360358A CN113034193A CN 113034193 A CN113034193 A CN 113034193A CN 202110360358 A CN202110360358 A CN 202110360358A CN 113034193 A CN113034193 A CN 113034193A
Authority
CN
China
Prior art keywords
vector
wind control
user
apps
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110360358.5A
Other languages
English (en)
Inventor
徐宇杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mozhi Technology Shanghai Co ltd
Original Assignee
Mozhi Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mozhi Technology Shanghai Co ltd filed Critical Mozhi Technology Shanghai Co ltd
Priority to CN202110360358.5A priority Critical patent/CN113034193A/zh
Publication of CN113034193A publication Critical patent/CN113034193A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Biology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种APP2VEC在风控系统中建模的工作方法,通过将整理多个用户一个月之内使用app的行为的数据进行训练集,配合工具fasttext训练生成skip‑gram模型得到n维向量模型,并且通过softmax的算法将需要聚合的向量矩阵压缩成一个一维多列的向量特征;选取风控样本用户一个月之内使用app的行为数据进行聚合,再将数组数据累加起来,得到1×100的向量;把1×100的向量作为特征,进行训练并建立风控模型;该方法将训练向量模型时训练集的准备,以及在向量使用过程中向量之间的累加方法,通过使用本发明生成的特征,在模型训练的过程中,挑选出带来增益的特征变量;使上万维和app使用相关的特征压缩成一个200至300维的向量,通过这些向量,可以很好的概括形容用户一段时间内使用app的行为。

Description

一种APP2VEC在风控系统中建模的工作方法
技术领域
本发明涉及系统建模方法领域,具体是一种APP2VEC在风控系统中建模的工作方法。
背景技术
科技信息化时代的今天,移动互联网带给人们的方方面面方便和快捷,智能手机作为移动互联网的载体每天会产生数以百亿量级的行为。我们可以通过这些用户手机使用行为分析,更准确的进行用户定位,生成用户画像,从而判断用户在金融领域的风险;
一般来说可以从两个方面进行分析,一个是用户的手机app使用行为,比如一天之内具体打开使用app的时间,每天打开各个app的时长、次数。通过这些数据生成向量特征并且建立模型,可以预测用户的兴趣,职业,性别,金融风险等,同时也可以概括用户一段时间内的app使用情况。
目前现有的技术方案比较适合于广告投放场景,在金融风控领域缺少实际的方案。本次申请的专利主要是把app2vec的技术运用于金融场景,结合风控知识,生成出给风控模型带来增益的特征变量。一般来说,同一个特征在不同场景下的不同模型里,带来的信息熵不同。比如在广告营销模型中,一个用户A同一天使用多个贷款类app这种行为,对于一个广告平台来说,可以预测其对贷款的兴趣大于没有使用过任何贷款类app的用户B,那对用户A展示广告被点击的几率就会大于用户B。 而在金融风控领域,我们会觉得用户A的风险比用户B高,用户A有多头借贷的风险。 所以同一个特征变量(一天内使用贷款app的个数)在不同领域起到的作用不同,这很大程度上取决于建模人员对业务的理解。所以如果对业务了解不深刻,很难在海量的特征变量中挑选出对实际业务带来增益的特征。类似对于用户的兴趣或者风险的评估,并不仅限于贷款类app的使用,可以应用在很多其他的领域。
发明内容
本发明所要解决的技术问题是提供一种APP2VEC在风控系统中建模的工作方法,可以有效解决上述背景技术中提出的问题。
为解决上述问题,本发明所采取的技术方案是:一种APP2VEC在风控系统中建模的工作方法,其方法在于:
步骤一:选取多个用户一段时间内使用app的行为数据;
步骤二:把用户ID、app名称、使用时间的数据进行扁平化整理成统一格式;
步骤三:把用户ID按天聚合,并且根据使用时间排序,得到用户一天的使用app的序列;
步骤四:把训练集中所有app名称映射成base 60编码,得到一个编码完整的训练集;
步骤五:使用快速文本分类算法fasttext skipgram 在已有的训练集上进行训练,调参并生成向量模型;
步骤六:把编码还原成app名称;
步骤七:选取风控样本用户一段时间内使用app的行为数据,每个app名映射成一个100维度向量;
步骤八:把步骤七选取的数据按人聚合,得到一个用户该时间内使用app 的100维向量数组,以及该时间段内每个app使用的次数数组;
步骤九:把步骤八产出的数据累加起来,得到1×100的向量;
步骤十:把1×100的向量作为特征,进行训练并建立风控模型。
作为本发明的进一步优选方案,所述步骤三中用户一天内使用2个app之间的间隔大于2小时,在这2个app之间的序列数据中每过2小时补1个z。
作为本发明的进一步优选方案,所述步骤五中模型结果为一个base 60编码对应一个100维向量。
作为本发明的进一步优选方案,所述步骤六中得到app名称对应向量的模型文件。
作为本发明的进一步优选方案,所述步骤七与步骤一中的时间段相同。
作为本发明的进一步优选方案,所述步骤九中使用的累加逻辑是向量数组为一个N×100 的矩阵,每一行向量值乘以使用次数的log函数与2的log函数的比值,再把矩阵中所有行按每列相加。
与现有技术相比,本发明提供了一种APP2VEC在风控系统中建模的工作方法,具备以下有益效果:
该方法将训练向量模型时训练集的准备,以及在向量使用过程中向量之间的累加方法。通过使用本发明生成的特征,在模型训练的过程中,可以更有效的挑选出带来增益的特征变量;使得上万维和app使用相关的特征压缩成一个200至300维的向量,通过这些向量,可以很好的概括形容用户一段时间内使用app的行为,从而对用户的兴趣偏好和风险作出较好的预判,可以较好的应用于各类推荐算法、广告类变现以及金融风险管理。
对于用户浏览器使用行为同样也是通过word2vec的方法进行降维,把用户一段时间内浏览过的网页,搜索的关键字压缩成一个200至300维度的向量。
本次专利是通过机器学习的方法,让模型无监督根据提供的样本,在海量特征中自动学习出最有效果的特征变量,减缓建模人员对业务理解的压力,极大提升建模效率、模型预测的精确度与时效性,从而提升业务的效率。
附图说明
图1为本发明流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参照图1,本发明提供一种APP2VEC在风控系统中建模的工作方法:
步骤一:选取多个用户一段时间内使用app的行为数据;
步骤二:把用户ID、app名称、使用时间的数据进行扁平化整理成统一格式;
步骤三:把用户ID按天聚合,并且根据使用时间排序,得到用户一天的使用app的序列;
步骤四:把训练集中所有app名称映射成base 60编码,得到一个编码完整的训练集;
步骤五:使用快速文本分类算法fasttext skipgram 在已有的训练集上进行训练,调参并生成向量模型;
步骤六:把编码还原成app名称;
步骤七:选取风控样本用户一段时间内使用app的行为数据,每个app名映射成一个100维度向量;
步骤八:把步骤七选取的数据按人聚合,得到一个用户该时间内使用app 的100维向量数组,以及该时间段内每个app使用的次数数组;
步骤九:把步骤八产出的数据累加起来,得到1×100的向量;
步骤十:把1×100的向量作为特征,进行训练并建立风控模型。
作为本发明的进一步优选方案,所述步骤三中用户一天内使用2个app之间的间隔大于2小时,在这2个app之间的序列数据中每过2小时补1个z。
作为本发明的进一步优选方案,所述步骤五中模型结果为一个base 60编码对应一个100维向量。
作为本发明的进一步优选方案,所述步骤六中得到app名称对应向量的模型文件。
作为本发明的进一步优选方案,所述步骤七与步骤一中的时间段相同。
作为本发明的进一步优选方案,所述步骤九中使用的累加逻辑是向量数组为一个N×100 的矩阵,每一行向量值乘以log(使用次数) / log(2),再把矩阵中所有行按每列相加。
作为本发明的一个具体实施例:
word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练;通过建立word2vec其中的skipgram 模型,把app映射为空间中一个向量,通过向量之间的聚合,生成有效的模型特征变量,因此,Skip-gram模型的本质是计算输入word的input vector与目标word的output vector之间的余弦相似度,并进行softmax归一化;对了计算相似度并归一化变得更加简单,Mikolov引入了两种优化算法:层次Hierarchical Softmax和负采样Negative Sampling。
本发明通过选取多个用户一个月之内使用app的行为数据整理成训练集,而且把训练集中的app名称映射成base 60编码,得到一个编码完整的训练集,配合工具fasttext训练生成skip-gram模型得到每个app的base 60编码对应的一个100维向量,并且通过softmax的算法将需要聚合的向量矩阵压缩成一个一维多列的向量特征;把编码还原成app名称,得到app名称对应向量的模型文件;选取风控样本用户一个月之内使用app的行为数据进行聚合,每个app名映射成一个100维度向量,得到一个用户该月使用app 的100维向量数组,以及该月每个app使用的次数数组;再将数组数据累加起来,得到1×100的向量;把1×100的向量作为特征,进行训练并建立风控模型。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims (6)

1.一种APP2VEC在风控系统中建模的工作方法,步骤如下:
步骤一:选取多个用户一段时间内使用app的行为数据;
步骤二:把用户ID、app名称、使用时间的数据进行扁平化整理成统一格式;
步骤三:把用户ID按天聚合,并且根据使用时间排序,得到用户一天的使用app的序列;
步骤四:把训练集中所有app名称映射成base 60编码,得到一个编码完整的训练集;
步骤五:使用快速文本分类算法fasttext skipgram 在已有的训练集上进行训练,调参并生成向量模型;
步骤六:把编码还原成app名称;
步骤七:选取风控样本用户一段时间内使用app的行为数据,每个app名映射成一个100维度向量;
步骤八:把步骤七选取的数据按人聚合,得到一个用户该时间内使用app 的100维向量数组,以及该时间段内每个app使用的次数数组;
步骤九:把步骤八产出的数据累加起来,得到1×100的向量;
步骤十:把1×100的向量作为特征,进行训练并建立风控模型。
2.根据权利要求1所述的一种APP2VEC在风控系统中建模的工作方法,其方法在于,所述步骤三中用户一天内使用2个app之间的间隔大于2小时,在这2个app之间的序列数据中每过2小时补1个z。
3.根据权利要求1所述的一种APP2VEC在风控系统中建模的工作方法,其方法在于,所述步骤五中模型结果为一个base 60编码对应一个100维向量。
4.根据权利要求1所述的一种APP2VEC在风控系统中建模的工作方法,其方法在于,所述步骤六中得到app名称对应向量的模型文件。
5.根据权利要求1所述的一种APP2VEC在风控系统中建模的工作方法,其方法在于,所述步骤七与步骤一中的时间段相同。
6.根据权利要求1所述的一种APP2VEC在风控系统中建模的工作方法,其方法在于,所述步骤九中使用的累加逻辑是向量数组为一个N×100 的矩阵,每一行向量值乘以log(使用次数) / log(2),再把矩阵中所有行按每列相加。
CN202110360358.5A 2021-04-02 2021-04-02 一种app2vec在风控系统中建模的工作方法 Pending CN113034193A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110360358.5A CN113034193A (zh) 2021-04-02 2021-04-02 一种app2vec在风控系统中建模的工作方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110360358.5A CN113034193A (zh) 2021-04-02 2021-04-02 一种app2vec在风控系统中建模的工作方法

Publications (1)

Publication Number Publication Date
CN113034193A true CN113034193A (zh) 2021-06-25

Family

ID=76453827

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110360358.5A Pending CN113034193A (zh) 2021-04-02 2021-04-02 一种app2vec在风控系统中建模的工作方法

Country Status (1)

Country Link
CN (1) CN113034193A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113689288A (zh) * 2021-08-25 2021-11-23 深圳前海微众银行股份有限公司 基于实体列表的风险识别方法、装置、设备及存储介质
CN113706040A (zh) * 2021-09-01 2021-11-26 深圳前海微众银行股份有限公司 风险识别方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150269669A1 (en) * 2014-03-21 2015-09-24 Xerox Corporation Loan risk assessment using cluster-based classification for diagnostics
CN110796542A (zh) * 2019-09-26 2020-02-14 北京淇瑀信息科技有限公司 金融风险控制方法、金融风险控制装置和电子设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150269669A1 (en) * 2014-03-21 2015-09-24 Xerox Corporation Loan risk assessment using cluster-based classification for diagnostics
CN110796542A (zh) * 2019-09-26 2020-02-14 北京淇瑀信息科技有限公司 金融风险控制方法、金融风险控制装置和电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
QIANG MA 等: "App2Vec: Vector modeling of mobile apps and applications", 2016 IEEE/ACM INTERNATIONAL CONFERENCE ON ADVANCES IN SOCIAL NETWORKS ANALYSIS AND MINING *
张艺璇;郭斌;刘佳琪;欧阳逸;於志文;: "基于多级注意力机制网络的app流行度预测", 计算机研究与发展, no. 05 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113689288A (zh) * 2021-08-25 2021-11-23 深圳前海微众银行股份有限公司 基于实体列表的风险识别方法、装置、设备及存储介质
CN113689288B (zh) * 2021-08-25 2024-05-14 深圳前海微众银行股份有限公司 基于实体列表的风险识别方法、装置、设备及存储介质
CN113706040A (zh) * 2021-09-01 2021-11-26 深圳前海微众银行股份有限公司 风险识别方法、装置、设备及存储介质
CN113706040B (zh) * 2021-09-01 2024-05-28 深圳前海微众银行股份有限公司 风险识别方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN111538912B (zh) 内容推荐方法、装置、设备及可读存储介质
CN110929164A (zh) 一种基于用户动态偏好与注意力机制的兴趣点推荐方法
CN108363821A (zh) 一种信息推送方法、装置、终端设备及存储介质
CN110705592A (zh) 分类模型训练方法、装置、设备及计算机可读存储介质
CN110674636B (zh) 一种用电行为分析方法
CN112561598A (zh) 基于客户画像的客户流失预测及挽回方法和系统
CN112085565A (zh) 基于深度学习的信息推荐方法、装置、设备及存储介质
CN110727864B (zh) 一种基于手机App安装列表的用户画像方法
CN113034193A (zh) 一种app2vec在风控系统中建模的工作方法
CN112801712B (zh) 一种广告投放策略的优化方法及装置
CN112612948B (zh) 一种基于深度强化学习的推荐系统构建方法
CN113379457A (zh) 面向金融领域的智能营销方法
CN116887201B (zh) 一种基于用户分析的短信智能推送方法及系统
CN112749238A (zh) 搜索排序方法、装置、电子设备以及计算机可读存储介质
Fernandes Andry et al. Big data implementation in Tesla using classification with rapid miner
CN114429384B (zh) 基于电商平台的产品智能推荐方法及系统
CN115829683A (zh) 一种基于逆奖赏学习优化的电力积分商品推荐方法及系统
CN110674020B (zh) App智能推荐方法、装置及计算机可读存储介质
CN112633937A (zh) 基于深度自动编码器降维结合梯度提升决策树的营销预测方法
CN111309766B (zh) 业务特征构造方法以及装置
CN113537297B (zh) 一种行为数据预测方法及装置
CN111581382B (zh) 问答社区中的热门问题的预测方法及系统
CN114547285B (zh) 表格数据含义推断方法、装置、计算机设备和存储介质
CN116992157B (zh) 一种基于生物神经网络的广告推荐方法
CN110019905B (zh) 信息输出方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination