CN116523293A - 基于融合行为流程图特征的用户风险评估方法 - Google Patents
基于融合行为流程图特征的用户风险评估方法 Download PDFInfo
- Publication number
- CN116523293A CN116523293A CN202310089941.6A CN202310089941A CN116523293A CN 116523293 A CN116523293 A CN 116523293A CN 202310089941 A CN202310089941 A CN 202310089941A CN 116523293 A CN116523293 A CN 116523293A
- Authority
- CN
- China
- Prior art keywords
- user
- flow chart
- users
- risk
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000012502 risk assessment Methods 0.000 title claims abstract description 16
- 230000004927 fusion Effects 0.000 title claims abstract description 13
- 230000000694 effects Effects 0.000 claims abstract description 85
- 230000006399 behavior Effects 0.000 claims abstract description 62
- 238000007637 random forest analysis Methods 0.000 claims abstract description 17
- 238000013528 artificial neural network Methods 0.000 claims abstract description 15
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 12
- 238000005065 mining Methods 0.000 claims description 11
- 230000009471 action Effects 0.000 claims description 6
- 230000003542 behavioural effect Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 abstract description 6
- 238000007418 data mining Methods 0.000 abstract description 4
- 238000000605 extraction Methods 0.000 abstract description 3
- 238000012512 characterization method Methods 0.000 description 10
- 238000003066 decision tree Methods 0.000 description 9
- 238000012549 training Methods 0.000 description 9
- 238000010276 construction Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000027455 binding Effects 0.000 description 2
- 238000009739 binding Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000013065 commercial product Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0207—Discounts or incentives, e.g. coupons or rebates
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- Marketing (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Operations Research (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Tourism & Hospitality (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于融合行为流程图特征的用户风险评估方法,本发明的主要设计构思在于,进行用户统计特征提取,利用空间聚类方法评估用户收货地址风险等级,基于用户参与活动的时序行为挖掘同时段强关联用户集合和行为流程图,并利用图神经网络将行为流程图嵌入到低维向量空间中,充分挖掘不同风险类型的用户的行为特征,最终构建全面、丰富的用户画像,最后表征用户画像的若干种特征因子结合随机森林算法进行用户风险评估。本发明提取收货地址风险等级因子,有效去除了不良用户自身的模糊信息,高效挖掘用户地址信息,以及提取强关联用户因子和行为流程图因子,实现高效时序数据挖掘,增强原有数据集的特征,便于构建全面的用户画像。
Description
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种基于融合行为流程图特征的用户风险评估方法。
背景技术
近年来,越来越多的本行业产品售卖商户选择在社交媒体上开展营销活动,通过奖励的方式吸引流量和客户。但与此同时,这也催生出了许多不良用户。他们通过技术手段批量、频繁地参与营销活动,大规模获取营销奖励,破坏了商家正常的营销活动。因此,许多商家希望构建用户风险评估模型,用于检测不良用户,并能够在营销过程中禁止具有潜在风险的用户参与活动,避免奖品非正常流失。
传统方法多为逻辑回归、判别分析、神经网络、随机森林等,但此类方法在运用时主要是在用户参与次数、工作职务、电话等少数维度来衡量一个用户的风险等级,难以全面、客观地反映每个用户的信用情况,并且对用户参与活动时间、地址信息缺乏深入挖掘,这就导致存在两类问题:1、不良用户自身模糊信息难以去除,为了躲避商家的审查,其用户信息本身拥有大量的模糊信息,例如多个收货地址,多次间隔不一的参与活动时间,不同收货人名字等,而这些模糊信息对于现有方法的特征提取这一步骤进行严重扰乱;2、隐式行为挖掘存在困难,用户的行为时序数据包含了大量的隐式信息可以帮助提高不良用户的识别准确率,例如具有相同参与模式的多个用户可能是由一个设备池批量操作的虚假用户,如何挖掘这类用户并表示出来存在一定的困难,最终无法建立起全面、丰富的用户画像。
发明内容
鉴于上述,本发明旨在提供一种基于融合行为流程图特征的用户风险评估方法,以有效去除不良用户模糊信息,以及挖掘不同风险类型的用户的隐式行为特征。
本发明采用的技术方案如下:
本发明提供了一种基于融合行为流程图特征的用户风险评估方法,其中包括:
根据用户参与活动数据,提取用户的若干个统计特征;
利用频繁项集挖掘策略提取与不良用户相关的目标用户特征;
基于获奖用户的收货地址以及空间聚类策略,提取收货地址风险等级特征;
基于用户参与活动的行为数据以及图神经网络,构建用户参与活动的行为流程图特征;
结合所述统计特征、所述目标用户特征、所述收货地址风险等级特征以及所述行为流程图特征,利用随机森林策略对用户风险进行评估。
在其中至少一种可能的实现方式中,所述提取收货地址风险等级特征包括:
确定所有已获取的收货地址的经纬度;
对所有经纬度进行空间聚类;
结合空间聚类结果,划分出多个簇;
为所有簇赋予收货地址风险等级,收货地址风险等级由获奖用户所在簇的用户总数确定:用户总数越多,则风险等级越高。
在其中至少一种可能的实现方式中,所述利用频繁项集挖掘策略提取与不良用户相关的目标用户特征包括:
将原始的用户参与活动数据按照预设的时间粒度处理成项集,其中每一个项集包含对应时间段内参与活动的用户;
对所有项集进行频繁项集挖掘;
基于挖掘出的频繁项集设置支持度以及置信度;
根据支持度、置信度得到与不良用户强关联的目标用户。
在其中至少一种可能的实现方式中,所述行为流程图的构建方式如下:
将用户参与活动的时序行为按照活动进行划分;
针对划分结果分别进行创建一个开始节点、一个结束节点以及按照时间顺序在开始节点与结束节点之间依次创建多个活动节点,其中,活动节点包含用户参与此次活动的年、月、日、时、分的时间特征,日期为同一天的活动节点为并行节点;
将由开始节点、活动节点、结束节点表示的若干张不同活动对应的流程图,按照活动时间顺序串联,得到用户参与活动的行为流程图。
在其中至少一种可能的实现方式中,所述统计特征包括:
用户参与所有活动的总次数、用户参与活动的数量、用户收货地址的数量、用户绑定的收货人个数以及用户绑定的手机号数量。
在其中至少一种可能的实现方式中,所述空间聚类策略包括:DBSCAN聚类算法。
在其中至少一种可能的实现方式中,所述图神经网络包括:图同构神经网络。
与现有技术相比,本发明的主要设计构思在于,进行用户统计特征提取,利用空间聚类方法评估用户收货地址风险等级,基于用户参与活动的时序行为挖掘同时段强关联用户集合和行为流程图,并利用图神经网络将行为流程图嵌入到低维向量空间中,充分挖掘不同风险类型的用户的行为特征,最终构建全面、丰富的用户画像,最后表征用户画像的若干种特征因子结合随机森林算法进行用户风险评估。本发明提取收货地址风险等级因子,有效去除了不良用户自身的模糊信息,高效挖掘用户地址信息,以及提取强关联用户因子和行为流程图因子,实现高效时序数据挖掘,增强原有数据集的特征,便于构建全面的用户画像。
附图说明
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步描述,其中:
图1为本发明实施例提供的基于融合行为流程图特征的用户风险评估方法的流程示意图;
图2为本发明实施例提供的用户参与活动时间示意图;
图3为本发明实施例提供的用户A参与活动的行为流程图;
图4为本发明实施例提供的用户B参与活动的行为流程图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本发明提出了一种基于融合行为流程图特征的用户风险评估方法的实施例,具体来说,如图1所示,其中包括:
步骤S1、根据用户参与活动数据,提取用户的若干个统计特征;
首先,用户信息可通过预先构建的互联网营销不良用户数据库进行采集,每个活动都有用户ID、参与活动名称、参与活动时间、是否获奖等信息。如果用户获奖,数据库中还会包含获奖用户的获奖地址、收件人、手机号等隐私信息。在实际操作中,可以根据用户数据提取如下六个用户统计特征:(1)参与次数:用户参与所有活动的总次数;(2)获奖次数:用户中奖的次数,若用户未中奖则为0;(3)参与活动数量:用户参与活动的个数;(4)收货地址数量:用户收货地址的数量,若用户未中奖则为0;(5)绑定收货人个数:用户绑定的收货人个数,若用户未中奖则为0;(6)手机号个数:用户绑定的手机号个数,若用户未中奖则为0。
步骤S2、利用频繁项集挖掘策略提取与不良用户相关的目标用户特征;
本环节的目的是为了找出与不良用户相关的目标用户,因为不良用户会使用脚本技术同时登录多个账号进行批量操作,所以会出现同一时间段内多个用户绑定进行大量相似操作。基于这种现象,利用频繁项集挖掘的方法发现潜在的关联账号,可作为风险评估的特征之一。
具体地,如图2示出的用户参与活动时间图示例,可以对用户参与活动数据进行预处理,将数据按照一定的时间粒度(例如采用5分钟),将每个时间段内参与活动的用户归为一个项集,如下表1所示。之后,利用频繁项集挖掘算法(例如采用Re lim算法)对所有项集进行挖掘。当然,可以理解地,挖掘出的频繁项集会相对较多,通过设置支持度和置信度可进行筛选,从而选出更优的关联规则。如下表2所示,为频繁项集对应规则(其中a、b、c、d、e表示用户id),筛选出其中支持度为3,置信度为1的强关联规则可以得到下表3,并据此确定用户b和用户e是强关联用户。
表1
序号 | 时间段 | 用户项集 |
1 | 2021-5-6 15:50-2021-5-6 15:55 | {a,c,d} |
2 | 2021-5-6 15:56-2021-5-6 16:00 | {b,c,e} |
3 | 2021-5-6 16:01-2021-5-6 16:05 | {a,b,c,e} |
4 | 2021-5-6 16:06-2021-5-6 16:10 | {b,e} |
表2
规则 | 支持度 | 置信度 |
b,c→e | 2 | 1 |
b→c,e | 2 | 0.67 |
c→b,e | 2 | 0.67 |
b,e→c | 2 | 0.67 |
e→b,c | 2 | 0.67 |
c,e→b | 2 | 1 |
a→c | 2 | 1 |
c→a | 2 | 0.67 |
b-c | 2 | 0.67 |
c→b | 2 | 0.67 |
b→e | 3 | 1 |
e→b | 3 | 1 |
c→e | 2 | 0.67 |
e→c | 2 | 0.67 |
表3
规则 | 支持度 | 置信度 |
b→e | 3 | 1 |
e→b | 3 | 1 |
步骤S3、基于获奖用户的收货地址以及空间聚类策略,提取收货地址风险等级特征;
利用获奖用户填写的收货地址来提取收货地址风险等级因子加入到特征工程当中,由于一个用户在获奖后必须填写奖品收货地址,而一较小范围区域内多人获奖的概率极低,也即是,若在预设的较小区域内出现多个获奖用户,则可以认为这些获奖用户大概率与不良用户相关。以此为由,本发明提出优选采用空间聚类的机制获取获奖用户较为密集的区域,以此作为潜在风险用户聚集地,从而可对每个用户的收货地址进行风险等级评估,本发明称之为收货地址风险等级因子。提取收货地址风险等级因子方法如下:
首先,利用已有的地址来获取其经纬度,然后再对这些经纬度进行DBSCAN聚类(DBSCAN是本发明优选的一种基于密度的空间聚类算法,该算法将具有足够密度的区域划分为簇,可以很好地适用于空间对象聚类)。最终为所有簇赋予风险等级,可得经过DBSCAN聚类后得到的一个簇中获奖用户越多,这个区域存在不良用户的风险就越高。
结合示例展开来说:
第一步,该方法需要利用已有的地址来获取其经纬度,假设已知如表4中的地址。其中,基于地址获取相应经纬度的方法可参考采用如下两种,一种是通过爬虫爬取地图坐标拾取系统上指定地址的信息,另一种是通过诸如第三方地图平台开放给开发者的API来获取指定地址坐标。二者中优选通过第三方的专业地图开放平台来获取地址经纬度坐标,可得如表4所示经纬度。
第二步,需要对所有经纬度进行DBSCAN聚类。DBSCAN的输入:数据集,邻域半径R,邻域中数据对象数目阈值minpoints。输出:密度联通簇。其中当邻域半径R内的点的个数大于邻域中数据对象数目阈值minpoints时,该区域被定义为Eps邻域,即密度联通簇。
DBSCAN算法的步骤如下:
1)从数据集中任意选取一个数据对象点p;
2)如果对于参数R和minpoints,所选取的数据对象点p为核心点,则找出所有从p密度可达的数据对象点,形成一个簇,并打上标签;
3)如果选取的数据对象点p是边缘点,选取另一个数据对象点;
4)重复(2)、(3)步,直到所有点被处理,结果如表4簇ID所示。
第三步,基于上述DBSCAN算法聚类经纬度坐标得到的划分簇ID的标签,赋予所有收货地址相应的风险等级。
收货地址风险等级由该用户所在簇的用户总数决定,用户所在簇中的用户总数越多,簇密度越大,则该簇的风险等级越高,收货地址风险等级具体数值为区间[0,1]之间的浮点数。所有用户中大部分用户是没有获奖的,即没有对应的收货地址,则他们的收货地址风险等级为0;还有一部分用户有收货地址但未被聚类到某一个簇中,在DBSCAN算法中被认为是噪声,因此在聚类后并没有打上标签,但该部分用户又属于获奖用户,则可将它们赋值为1;其他值以表4内容为例,为2-3(最终在输入时会再除以最大簇包含的用户数,即3,以此缩小scale为区间[0,1],目的是防止破坏数据集的平衡),对应用户所在簇密度,比如3表示密度最大的簇,里面有3个用户。
表4
ID | 地址 | 经纬度 | 簇ID | 风险等级 |
1 | 浙江省杭州市西湖区浙江工业大学xx校区 | 120.047668,30.234097 | 1 | 1 |
2 | 浙江省杭州市西湖区古荡街道文三路XXX | 120.110254,30.284669 | 2 | 0.667 |
3 | 浙江省杭州市西湖区古荡街道XX街 | 120.122491,30.290904 | 2 | 0.667 |
4 | 浙江省杭州市西湖区留下街道XXX学院 | 120.031689,30.226120 | 1 | 1 |
5 | 浙江省杭州市西湖区留下街道XXX区 | 120.039026,30.221591 | 1 | 1 |
6 | 浙江省杭州市西湖区蒋村街道xxx花园 | 120.089369,30.290631 | NULL | 0.333 |
7 | NULL | NULL | NULL | 0 |
步骤S4、基于用户参与活动的行为数据以及图神经网络,构建用户参与活动的行为流程图特征;
本发明分析认为,不良用户采用的方式是使用大量用户账号同时参与活动,且每个用户账号都会尽可能多的参与活动,这就导致这些虚拟用户在时序行为方面具有相似性,因此,本发明提出可以将每个用户所有参与行为抽取成一张行为流程图,从中挖掘参与行为与不良用户之间的深层联系。
在将用户参与活动数据抽取成行为流程图的过程中,可以考虑了串行和并行两种流程结构,其中,串行结构主要用于建模用户在不同“天”发生的参与行为;并行结构用于建模用户在同一天发生的参与行为。这里需指出的是,即便用户在同一天内的参与行为也是顺序发生的,而若采用串行结构建模则可能丢失重要的当日内参与次数的特征,而不利于不良用户的识别。因此,优选利用并行结构建模用户在同一天内发生的多次参与行为。此外,如果一个用户参与了多场活动,则可以将其参与的每场活动的行为流程图按照活动发生时序进行拼接得到完整的行为流程图。
在实际操作中,一张行为流程图最多可包含六种节点,分别是开始节点、四种活动节点和结束节点。其中一个活动节点包含用户参与此次活动的年、月、日、时、分的时间特征,具体地,用户参与活动时行为流程图的构建步骤如下:
(1)将用户参与活动的时序按照活动进行划分;
(2)针对划分结果分别进行创建一个开始节点、一个结束节点以及按照时间顺序在开始节点与结束节点之间依次创建多个活动节点,其中,活动节点包含用户参与此次活动的年、月、日、时、分的时间特征,日期为同一天的活动节点为并行节点;
(3)将由开始节点、活动节点、结束节点表示的若干张不同活动对应的流程图,按照活动时间顺序串联,得到用户参与活动的行为流程图。
由上述步骤得到的行为流程图,能够表现出用户参与活动的行为特征,但在实际应用中,一般的行为流程图本身并无法作为特征输入特征工程当中。因此,为了获取所需的嵌入表示,并能够充分挖掘行为流程图中的潜在特征,本发明提出采用图神经网络GNN来学习这些行为流程图的嵌入向量表示,然后将向量表示输入到本发明的特征工程当中。这里可以说明的是,由于本发明最终需求的用户风险等级评估任务其本质上可以视为分类任务,因此致力于图分类任务的图神经网络所学习到的图嵌入向量表示,更为适合本发明任务。而目前,图同构神经网络GIN,在解决使用GNN进行图分类问题方面有着更为优秀的效果,由此本发明在一些较佳的实施例中,提出通过GIN模型学习得到时序流程图的图嵌入表示。
由此,本发明进一步考虑,原始GIN模型在节点嵌入时仅是考虑了节点的类别特征,而节点特征简单则可能会导致模型学习出现偏差,基于此,本发明提出在GIN模型的基础上进行了适应性扩展,即,加入了用户的参与活动时间行为,以此来强化节点特征,从而使得GIN模型能够学习到更多信息的同时,其输出结果相对更不易出现偏差。
结合示例展开来说:
首先需要将用户参与活动的时序按照活动进行划分,如下表5将用户A和B的时序行为划分成了活动1、2、3、4。然后对每个活动进行处理,如表5中的用户A的活动1的流程图的构建,先创建一个开始节点(本例用S表示),然后按照参与活动的时间顺序依次创建活动节点(活动1、2、3、4分别用1、2、3、4表示),其中日期同一天的节点为并行节点,如表5中用户A的活动中的2021-5-9 13:51和2021-5-9 13:52这两个就是并行节点,之后创建一个结束节点(本例用E表示)。最后依次按照处理活动1的方式,处理其他的该用户参与的活动,会得到最少一张,最多4张活动行为流程图,将得到的活动行为流程图按照活动时间顺序串联起来就可以得到最终的用户参与活动行为流程图,用户A和用户B的参与活动行为流程图如图3和图4所示。
表5
在上述行为流程图的基础上,优选图同构神经网络GIN来学习这些时序流程图的嵌入向量表示,然后将表示输入到特征工程当中。
第一步,首先计算得到节点表征:节点表征是通过基于图同构网络的节点嵌入模块得到的,该模块是一个多层嵌入结构,它有一个称为MLP的多层感知器,可以近似拟合任何函数。输入到此节点嵌入模块的节点属性为类别+时间序列向量。首先对其做嵌入得到第0层节点表征,{e0,e1,...,ei},0≤i≤n,其中n大小为节点数,每一个ei表示对应节点的节点特征,{one-hot,yyyy,MM,dd,HH,mm},其中one-hot表示节点标签对应的独热编码,yyyy表示时间序列年份,MM表示月份,dd表示日期,HH表示小时,mm表示分钟。然后逐层计算节点表征,公式为:
从第1层开始到第num层,每一层节点表征的计算都以上一层的节点表征、边为输入,可参考已有的GIN模型架构中的MLPs模块。
第二步,其次对图上各个节点的表征做图池化,得到图的表征。
图的表征是对节点表征做图池化得到的,而GIN基于结点表征计算得到图表征的方法有多种,GIN默认选用的是”CONCAT+SUM”方法,公式为:
即每轮迭代的节点表征求和(SUM)作为该轮的图表征,得到所有轮次的图表征,(E0,E1,...,Ej),0≤j≤k,其中Ei表示节点表征{e0,e1,...,ei}求和得到的图表征,k表示总迭代轮次数,再拼接(CONCAT)起每轮迭代的图表征作为最终图表征,{E0,E1,...,Ej}。
该方法以图3为例子来计算图嵌入表示,网络中每个节点打上一个label,如S、E、1、2、3、4(S和E都看作0类节点),同时1、2、3、4这四种节点都有对应的时间特征,为了让S、E节点的特征维度和其他节点相同,本发明将它们的时间特征设置为[0,0,0,0,0];然后第二步做一阶广度优先搜索,得到图的边信息,同时获取每个节点标签的one-hot表示,比如第一个S节点的one-hot表示为[1,0,0,0,0]。
第三步,将节点标签的one-hot表示和节点时间特征进行拼接,比如{2,2021-7-10-20-22}节点转化为[0,0,1,0,0,2021,7,10,20,22],这样就得到了节点特征。
第四步,将图信息输入到MLP当中,迭代运算节点表征,得到所有轮次的节点表征。
第五步,将每轮迭代的节点表征求和作为该轮的图表征,再拼接起每轮迭代的图表征作为最终图表征。
最后,选择最后一层池化后的隐藏层作为输出,即每个用户的时序流程图会得到一个64维的向量表示,以此作为一个特征。
步骤S5、结合所述统计特征、所述目标用户特征、所述收货地址风险等级特征以及所述行为流程图特征,利用随机森林策略对用户风险进行评估。
如前文所述,由于用户风险等级评估任务本质上就是分类任务,而随机森林又恰好适用于对特征工程的结果进行分类任务,因此本发明提出选用随机森林对用户风险进行评估。其中,随机森林是一种常用于分类、回归等问题的集成学习方法,通过再训练时间内构建多个决策树,并输出类的标签或者个体树预测的平均值,能够很好地完成本发明涉及的分类任务,具体实现过程可参考如下:
(1)预处理
在一些实施例中,可以使用最小最大归一化方法将模型输入的多维特征进行归一化,以训练集的各特征数值的上下限为标准,将验证集与测试集相对应的数值进行归一化操作。这样操作可使的预处理的数据被限定在一定范围内,从而消除奇异样本数据导致的不良影响。
由于本发明构思中提出了通过用户统计特征、强相关目标用户特征、收货地址风险等级特征来帮助用户风险等级的分类,并在此基础上加入参与活动行为流程图向量表示对于分类效果的提升,因此在实际操作中,可将样本的特征归为两大部分:用户数据特征以及用户参与活动时序特征。
其中,用户数据特征包括了前述统计特征(前文示例中的六种)、目标用户特征、收货地址风险等级特征,得到9维特征;用户参与活动时序特征即为行为流程图特征,即前述示例中提及的64维向量表示。
经实测,在引入上述特征后,同一类别用户特征映射在决策空间中更加靠近,而不同类别用户特征映射在决策空间中更加远离,从而使得模型能更好地学习出分类决策边界,提升模型分类效果。
(2)随机森林实验
超参数设置:当最大迭代次数为10时,评价指标较为平稳,深度则可采取默认最大深度,决策树叶节点最小样本数可采取默认为1。
随机森林的思想:
1)每次有放回地从训练集中取出n个训练样本,组成新的训练集;
2)利用新的训练集,训练得到M个子模型;
3)对于分类问题,采用投票的方法,得票最多子模型的分类类别为最终的类别;而对于回归问题,采用简单的平均方法得到预测值。
随机森林以决策树为基本单元,通过集成大量的决策树,就构成了随机森林。随机森林具体构造过程如下:
随机森林的构建包括两个部分:样本和特征。
样本:对于一个总体训练集T,T中共有N个样本,每次有放回地随机选择N个样本。
特征:假设训练集的特征个数为d,每次仅选择k(k<d)个构建决策树。
构建随机森林具体步骤:
第一步:T中共有N个样本,有放回的随机选择N个样本。如此选择好N个样本用来训练一个决策树,作为决策树根节点处的样本。
第二步:当每个样本有M个属性时,在决策树的每个节点需要分裂时,随机从这M个属性中选取出m个属性,满足条件m<<M。然后从这m个属性中采用某种策略来选择1个属性作为该节点的分裂属性。
第三步:决策树形成过程中每个节点都要按照第二步来分裂,一直到不能够再分裂为止。
第四步:按照前述三个步骤建立大量的决策树,就构成了随机森林。
(3)F1-Score计算
本发明实验为用户风险等级分类实验,采用F1-score作为实验评价指标。F1-Score定义如下:
Precision代表在所有预测标签为正的样本中,实际真实标签也为正的比例,Recall代所有真实标签为正的样本中,预测标签为正的比例。
上述可采用已有的成熟技术予以实现,对此本发明不做赘述和限定。
综上所述,本发明的主要设计构思在于,进行用户统计特征提取,并提取普通因子,然后利用空间聚类方法评估用户收货地址风险等级,基于用户参与活动的时序行为挖掘同时段强关联用户集合和行为流程图,并利用图神经网络将行为流程图嵌入到低维向量空间中,充分挖掘不同风险类型的用户的行为特征,最终构建全面、丰富的用户画像,并进一步结合随机森林算法进行用户风险评估。本发明提取收货地址风险等级因子,有效去除不良用户自身的模糊信息,高效挖掘用户地址信息,以及提取强关联用户因子与行为流程图因子,实现高效时序数据挖掘,增强原有数据集的特征,便于构建全面的用户画像。
本发明实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达,是指的这些项中的任意组合,包括单项或复数项的任意组合。例如,a,b和c中的至少一项可以表示:a,b,c,a和b,a和c,b和c或a和b和c,其中a,b,c可以是单个,也可以是多个。
以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果,但以上仅为本发明的较佳实施例,需要言明的是,上述实施例及其优选方式所涉及的技术特征,本领域技术人员可以在不脱离、不改变本发明的设计思路以及技术效果的前提下,合理地组合搭配成多种等效方案;因此,本发明不以图面所示限定实施范围,凡是依照本发明的构想所作的改变,或修改为等同变化的等效实施例,仍未超出说明书与图示所涵盖的精神时,均应在本发明的保护范围内。
Claims (7)
1.一种基于融合行为流程图特征的用户风险评估方法,其特征在于,包括:
根据用户参与活动数据,提取用户的若干个统计特征;
利用频繁项集挖掘策略提取与不良用户相关的目标用户特征;
基于获奖用户的收货地址以及空间聚类策略,提取收货地址风险等级特征;
基于用户参与活动的行为数据以及图神经网络,构建用户参与活动的行为流程图特征;
结合所述统计特征、所述目标用户特征、所述收货地址风险等级特征以及所述行为流程图特征,利用随机森林策略对用户风险进行评估。
2.根据权利要求1所述的基于融合行为流程图特征的用户风险评估方法,其特征在于,所述提取收货地址风险等级特征包括:
确定所有已获取的收货地址的经纬度;
对所有经纬度进行空间聚类;
结合空间聚类结果,划分出多个簇;
为所有簇赋予收货地址风险等级,收货地址风险等级由获奖用户所在簇的用户总数确定:用户总数越多,则风险等级越高。
3.根据权利要求1所述的基于融合行为流程图特征的用户风险评估方法,其特征在于,所述利用频繁项集挖掘策略提取与不良用户相关的目标用户特征包括:
将原始的用户参与活动数据按照预设的时间粒度处理成项集,其中每一个项集包含对应时间段内参与活动的用户;
对所有项集进行频繁项集挖掘;
基于挖掘出的频繁项集设置支持度以及置信度;
根据支持度、置信度得到与不良用户强关联的目标用户。
4.根据权利要求1所述的基于融合行为流程图特征的用户风险评估方法,其特征在于,所述行为流程图的构建方式如下:
将用户参与活动的时序行为按照活动进行划分;
针对划分结果分别进行创建一个开始节点、一个结束节点以及按照时间顺序在开始节点与结束节点之间依次创建多个活动节点,其中,活动节点包含用户参与本次活动的年、月、日、时、分的时间特征,日期为同一天的活动节点为并行节点;
将由开始节点、活动节点、结束节点表示的若干张不同活动对应的流程图,按照活动时间顺序串联,得到用户参与活动的行为流程图。
5.根据权利要求1所述的基于融合行为流程图特征的用户风险评估方法,其特征在于,所述统计特征包括:
用户参与所有活动的总次数、用户参与活动的数量、用户收货地址的数量、用户绑定的收货人个数以及用户绑定的手机号数量。
6.根据权利要求1~5任一项所述的基于融合行为流程图特征的用户风险评估方法,其特征在于,所述空间聚类策略包括:DBSCAN聚类算法。
7.根据权利要求1~5任一项所述的基于融合行为流程图特征的用户风险评估方法,其特征在于,所述图神经网络包括:图同构神经网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310089941.6A CN116523293A (zh) | 2023-01-17 | 2023-01-17 | 基于融合行为流程图特征的用户风险评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310089941.6A CN116523293A (zh) | 2023-01-17 | 2023-01-17 | 基于融合行为流程图特征的用户风险评估方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116523293A true CN116523293A (zh) | 2023-08-01 |
Family
ID=87407031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310089941.6A Pending CN116523293A (zh) | 2023-01-17 | 2023-01-17 | 基于融合行为流程图特征的用户风险评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116523293A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117349512A (zh) * | 2023-09-04 | 2024-01-05 | 广州兴趣岛信息科技有限公司 | 一种基于大数据的用户标签分类方法及系统 |
-
2023
- 2023-01-17 CN CN202310089941.6A patent/CN116523293A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117349512A (zh) * | 2023-09-04 | 2024-01-05 | 广州兴趣岛信息科技有限公司 | 一种基于大数据的用户标签分类方法及系统 |
CN117349512B (zh) * | 2023-09-04 | 2024-03-12 | 广州兴趣岛信息科技有限公司 | 一种基于大数据的用户标签分类方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ackland et al. | Online collective identity: The case of the environmental movement | |
Kerr et al. | Indicator taxa, rapid biodiversity assessment, and nestedness in an endangered ecosystem | |
CN109389494B (zh) | 借贷欺诈检测模型训练方法、借贷欺诈检测方法及装置 | |
CN112199608B (zh) | 基于网络信息传播图建模的社交媒体谣言检测方法 | |
Hui et al. | Defining optimal sampling effort for large‐scale monitoring of invasive alien plants: a Bayesian method for estimating abundance and distribution | |
CN111177473B (zh) | 人员关系分析方法、装置和可读存储介质 | |
CN112700325A (zh) | 一种基于Stacking集成学习的网贷回头客预测的方法 | |
CN108829839A (zh) | 样本可信度的验证方法、装置、存储介质及处理器 | |
CN108647800A (zh) | 一种基于节点嵌入的在线社交网络用户缺失属性预测方法 | |
CN116523293A (zh) | 基于融合行为流程图特征的用户风险评估方法 | |
Ruiz Barlett et al. | Climatic constraints and the distribution of Patagonian mice | |
CN114519508A (zh) | 基于时序深度学习和法律文书信息的信用风险评估方法 | |
CN110990716A (zh) | 基于影响力最大化的抑制虚假消息传播方法 | |
Spiers et al. | Estimating species misclassification with occupancy dynamics and encounter rates: A semi‐supervised, individual‐level approach | |
CN113268589B (zh) | 关键用户识别方法、装置、可读存储介质和计算机设备 | |
Parra‐Quijano et al. | Strategies for the development of core collections based on ecogeographical data | |
Araya et al. | What governs the presence of residual vegetation in boreal wildfires? | |
Keighley et al. | Modelling dispersal in a large parrot: a comparison of landscape resistance models with population genetics and vocal dialect patterns | |
CN116821759A (zh) | 类别标签的识别预测方法、装置和处理器及电子设备 | |
Williams et al. | Pattern analysis based on type, orientation, size, and shape | |
Lehtilä et al. | Plant response to habitat amount and configuration in Swedish forests | |
Maloney et al. | Using fish community and population indicators to assess the biological condition of streams and rivers of the Chesapeake Bay watershed, USA | |
CN112632219B (zh) | 一种垃圾短信的拦截方法和拦截装置 | |
CN114092216A (zh) | 企业信贷评级方法、装置、计算机设备和存储介质 | |
Naas et al. | What explains inconsistencies in field‐based ecosystem mapping? |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |