CN111091408A - 用户识别模型创建方法、装置与识别方法、装置 - Google Patents
用户识别模型创建方法、装置与识别方法、装置 Download PDFInfo
- Publication number
- CN111091408A CN111091408A CN201911045080.1A CN201911045080A CN111091408A CN 111091408 A CN111091408 A CN 111091408A CN 201911045080 A CN201911045080 A CN 201911045080A CN 111091408 A CN111091408 A CN 111091408A
- Authority
- CN
- China
- Prior art keywords
- sample data
- user identification
- wool party
- user
- identification model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 84
- 210000002268 wool Anatomy 0.000 claims abstract description 111
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 230000003993 interaction Effects 0.000 claims abstract description 14
- 238000001514 detection method Methods 0.000 claims description 37
- 238000011156 evaluation Methods 0.000 claims description 15
- 230000006399 behavior Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 6
- 238000007637 random forest analysis Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 abstract description 7
- 238000012549 training Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000000546 chi-square test Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000000540 analysis of variance Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000007261 regionalization Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000009333 weeding Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Abstract
本发明实施例提供一种用户识别模型创建方法、装置与识别方法、装置;方法包括:生成样本数据;所述样本数据包括已知羊毛党用户的能够表征羊毛党特征的指标特征,所述指标特征包括以下特征中的一种或多种:交往圈特征、消费特征、身份特征、行为特征、设备图谱;对所述样本数据进行预处理;根据所述样本数据创建羊毛党用户识别模型。本发明实施例提供的用户识别模型创建方法、装置与识别方法、装置提取了多种类型的羊毛党特征数据,利用这些特征数据来创建羊毛党用户识别模型;利用这一识别模型可实现羊毛党用户的自动识别,较传统的人工识别方法不仅识别效率高,而且有更高的准确率。
Description
技术领域
本发明涉及人工智能领域,尤其涉及一种用户识别模型创建方法、装置与识别方法、装置。
背景技术
在移动互联网飞速发展的今天,用户已经成为互联网公司最为核心的资产之一。诸如电商平台、网贷平台的互联网公司不遗余力地采用收益丰厚的网络营销活动进行用户获取。
这些网络营销活动多为注册奖励、充值返现、免费福利、优惠券等形式,操作简单却能获得不菲的收益。这就催生了一些专门选择互联网公司的营销活动,以低成本甚至零成本换取高额奖励的人,这一群体也被形象地称为“羊毛党”。“羊毛党”近年来越来越明显地呈现出专业化、团伙化、地域化的特点。
这一群体一方面将平台、商家给予消费者的让利薅走,损害了正常消费者的利益,另一方面只给平台、商家带来短期的繁荣却不能提供有价值用户,给正常的市场活动带来了负面影响。若能实现对“羊毛党”用户的识别将有助于有效规避“羊毛党”群体的活动参与,保障营销活动的开展价值。
发明内容
本发明实施例提供一种用户识别模型创建方法、装置与识别方法、装置,用以解决现有技术中羊毛党用户自动识别困难的缺陷,实现羊毛党用户的自动识别。
第一方面,本发明实施例提供了一种用户识别模型创建方法,包括:
生成样本数据;所述样本数据包括已知羊毛党用户的能够表征羊毛党特征的指标特征,所述指标特征包括以下特征中的一种或多种:交往圈特征、消费特征、身份特征、行为特征、设备图谱;
对所述样本数据进行预处理;
根据所述样本数据创建羊毛党用户识别模型。
上述技术方案中,还包括:
将所述样本数据的一部分作为评估样本数据,使用所述评估样本数据对所创建的羊毛党用户识别模型进行优化,得到优化后的羊毛党用户识别模型。
上述技术方案中,在生成样本数据之后,方法还包括:
对所述样本数据中的指标特征进行分析,去除冗余指标特征。
上述技术方案中,根据所述样本数据,采用随机森林方法创建羊毛党用户识别模型。
第二方面,本发明实施例提供了一种用户识别方法,包括:
生成检测数据,所述检测数据中包括待识别用户的指标特征,所述指标特征包括以下特征中的一种或多种:交往圈特征、消费特征、身份特征、行为特征、设备图谱;
对所述检测数据进行预处理;
将所述检测数据输入第一方面所述的用户识别模型创建方法所创建的羊毛党用户识别模型,输出识别结果。
上述技术方案中,还包括:
识别出所述待识别用户为羊毛党用户后,对该羊毛党用户的严重程度进行评估;包括:
找出所述羊毛党用户的所有邀请用户,然后为其所有邀请用户是否为羊毛党用户进行识别,最后对所述羊毛党用户的邀请用户中属于羊毛党用户的个数占其所有邀请用户数目的比例进行计算,根据计算结果确定羊毛党用户的严重程度。
第三方面,本发明实施例提供了一种用户识别模型创建装置,包括:
样本数据生成模块,用于生成样本数据;所述样本数据包括已知羊毛党用户的能够表征羊毛党特征的指标特征,所述指标特征包括以下特征中的一种或多种:交往圈特征、消费特征、身份特征、行为特征、设备图谱;
预处理模块,用于对所述样本数据进行预处理;
模型创建模块,用于根据所述样本数据创建羊毛党用户识别模型。
第四方面,本发明实施例提供了一种用户识别装置,包括:
检测数据生成模块,用于生成检测数据,所述检测数据中包括待识别用户的指标特征,所述指标特征包括以下特征中的一种或多种:交往圈特征、消费特征、身份特征、行为特征、设备图谱;
预处理模块,用于对所述检测数据进行预处理;
识别模块,用于将所述检测数据输入所述的用户识别模型创建装置所创建的用户识别模型,输出识别结果。
第五方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述用户识别模型创建方法的步骤,或实现如第二方面所述用户识别方法的步骤。
第六方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述用户识别模型创建方法的步骤,或实现如第二方面所述用户识别方法的步骤。
本发明实施例提供的用户识别模型创建方法、装置与识别方法、装置,提取了多种类型的羊毛党特征数据,利用这些特征数据来创建羊毛党用户识别模型;利用这一识别模型可实现羊毛党用户的自动识别,较传统的人工识别方法不仅识别效率高,而且有更高的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的用户识别模型创建方法的示意图;
图2为本发明另一实施例提供的用户识别模型创建方法的示意图;
图3为本发明又一实施例提供的用户识别模型创建方法的示意图;
图4为本发明实施例提供的用户识别方法的示意图;
图5为本发明另一实施例提供的用户识别方法的示意图;
图6为本发明实施例提供的用户识别模型创建装置的示意图;
图7为本发明实施例提供的用户识别装置的示意图;
图8示例了一种电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在结合本发明实施例对本发明的技术方案做详细说明前,首先对本发明实施例中所涉及的几个基本概念进行说明。
羊毛党用户:是指已经被确认为羊毛党的用户;
待识别用户:是指尚未被确认为羊毛党的用户,需要采用本发明实施例提供的方法及装置对该用户是否为羊毛党进行识别;
待识别用户邀请用户:由所述待识别用户所邀请的用户。确定一个用户是否为待识别用户邀请用户的一种方法是:获取待识别用户的活动识别码,将所述活动识别码与注册用户注册信息中的邀请人识别码进行比对,比对一致的注册用户则判定为待识别用户的邀请用户。
图1为本发明实施例提供的用户识别模型创建方法的示意图,如图1所示,本发明实施例提供的用户识别模型创建方法包括:
步骤101、生成羊毛党用户识别模型的样本数据,所述样本数据包括训练样本数据;
已知一些羊毛党用户的基本信息,如电话号码、社交账号等,基于这些基本信息从第三方获取能够表征羊毛党特征的指标数据,从而生成羊毛党用户识别模型的样本数据。
能够表征羊毛党特征的指标特征包括但不限于:交往圈特征(如本地本运营商交往用户、通话时长、对端用户集团网、家庭网、校园网数量等)、消费特征(中高端用户、消费金额、套餐类型等)、身份特征(实名信息、在网时长、是否养卡用户等)、行为特征(APP使用忠诚度、月均有效通话时长交往圈用户占比、接收银行短信频次)、设备图谱(具有相同位置特征的手机号数量、位置与通话数据关联分析、白天夜间常驻位置一致性等)。
根据上述指标特征,可获取用于描述这些指标特征的指标数据。本发明实施例中虽然列举了上述多种指标数据,但在实际应用中,由于客观条件的限制,这些指标收据并非都能获得,可选取其中若干个指标的指标数据来形成样本数据。但一般而言,指标数据的类型越全面,最终生成的羊毛党用户识别模型的识别能力就越强。
在本发明实施例中,所得到的样本数据均作为模型训练之用,因此这些样本数据也被称为训练样本数据。
步骤102、对样本数据进行预处理。
样本数据中包括有多个指标数据,这些指标数据类型多样,具有不同的量纲,给后续的模型训练与优化过程带来不便。因此需要对样本数据做归一化处理。
此外,样本数据来源复杂,数据中不可避免地会有空值、异常值等“噪声”,需要对这些空值、异常值做填充或删除处理。
步骤103、根据所述训练样本数据创建羊毛党用户识别模型。
在创建羊毛党用户识别模型时,可采用随机森林方法,即:将训练样本数据输入到各个决策树中,每颗决策树生成一个分类结果,随机森林集成所有的分类投票结果,将投票次数最多的类别指定为最终的输出。
本发明实施例提供的用户识别模型创建方法提取了多种类型的羊毛党特征数据,利用这些特征数据来创建羊毛党用户识别模型。利用这一识别模型可实现羊毛党用户的自动识别,较传统的人工识别方法不仅识别效率高,而且有更高的准确率。
基于上述任一实施例,图2为本发明另一实施例提供的用户识别模型创建方法的示意图,如图2所示,本发明另一实施例提供的用户识别模型创建方法包括:
步骤201、生成羊毛党用户识别模型的样本数据,所述样本数据包括训练样本数据与评估样本数据;
在本发明实施例中,样本数据除了作为模型训练之用外,还可用于对创建后的模型做优化之用。因此样本数据按照用途可做进一步分为训练样本数据、评估样本数据。训练样本数据的集合也被称为训练集,评估样本数据的集合也被称为评估集。
样本数据在划分训练样本数据和评估样本数据时,一般为训练样本数据分配更多的数据量,在本发明实施例中,将80%的样本数据归为训练样本数据,将剩余20%的样本数据归为评估样本数据。在本发明其他实施例中,也可根据需要对训练样本数据与评估样本数据的占比进行调整。
步骤202、对样本数据进行预处理。
步骤203、根据所述训练样本数据创建羊毛党用户识别模型。
步骤204、根据所述评估样本数据对所创建的羊毛党用户识别模型进行优化,生成优化后的羊毛党用户识别模型。
在优化羊毛党用户识别模型时,将评估样本数据输入到羊毛党用户识别模型,然后对模型识别结果进行验证,基于验证结果进行模型调优,最终得到优化后的羊毛党用户识别模型。
本发明实施例提供的用户识别模型创建方法提取了多种类型的羊毛党特征数据,利用这些特征数据来创建羊毛党用户识别模型,并且对所创建的羊毛党用户识别模型做了优化,不仅实现了羊毛党用户的自动识别,且识别准确率更高。
基于上述任一实施例,图3为本发明又一实施例提供的用户识别模型创建方法的示意图,如图3所示,本发明又一实施例提供的用户识别模型创建方法包括:
步骤301、生成羊毛党用户识别模型的样本数据,所述样本数据包括训练样本数据与评估样本数据;
步骤302、对样本数据中的指标特征进行分析,去除冗余指标特征,精简样本数据。
在选取样本数据时,从提高识别准确性的角度出发,希望指标特征的选取是多多益善。但更多的指标特征也就意味着样本数据的维度也越多,这会增加建模的复杂度,也会对计算资源、存储资源提出更高的要求。
在本发明实施例中,通过对指标特征的分析来去除冗余指标,达到降低样本数据维度的目的。在具体实现时,针对指标的取值特征选取不同方法去除冗余指标。常用的去除冗余的方法包括相关性分析、ANOVA检验、卡方检验。
以采用卡方校验方法去除冗余指标为例,一个样本数据中的指标特征至少包括身份特征(如是否养卡用户)、交往圈特征(如通话时长),现在采用卡方校验方法对这些指标特征所形成的特征指标集做降维操作,包括:
首先,将指标特征(如是否养卡用户)与目标(是否羊毛党用户)分离;
接着,计算指标特征重要性,剔除重要性低的指标特征。指标特征的重要性X的计算公式为:
X=∑(errOOB2-errOOB1)/Ntree;
其中,errOOB1为随机森林袋外数据计算所得误差,errOOB2为对袋外数据加入噪声干扰所得误差,Ntree为随机森林算法中树的棵数;
最后,卡方分析指标特征选择:采用卡方检验分析某个指标特征是否和目标有显著关系,剔除无显著关系的指标特征。卡方检验公式如下:
其中,observed是观察值,expected是理论值。
基于选定的置信度和计算所得的卡方值、自由度选择与目标有显著关系的指标。
步骤303、对样本数据进行预处理。
步骤304、根据所述训练样本数据创建羊毛党用户识别模型。
步骤305、根据所述评估样本数据对所创建的羊毛党用户识别模型进行优化,生成优化后的羊毛党用户识别模型。
本发明实施例提供的用户识别模型创建方法通过对指标特征的分析精简了样本数据,降低了羊毛党用户识别模型创建过程对资源的占用要求,有助于提高模型创建的效率。
基于上述任一实施例,图4为本发明实施例提供的用户识别方法的示意图,如图4所示,本发明实施例提供的用户识别方法包括:
步骤401、生成待识别用户的检测数据。
待识别用户的基本信息,如电话号码、社交账号等,是已知的,基于这些基本信息可从第三方获取能够表征羊毛党特征的指标数据,形成待识别用户的检测数据。
能够表征羊毛党特征的指标特征以及根据这些指标特征所形成的指标数据在之前的本发明实施例中已经有详细描述,此处不再重复。
步骤402、对检测数据中的指标特征进行分析,去除冗余指标,精简预测数据。
在本发明的其他实施例中,若检测数据的指标特征类别并不繁杂,则本步骤也可省去。
步骤403、对检测数据进行处理。
与样本数据一样,对检测数据的处理包括归一化处理、去除噪声处理等。
步骤404、将检测数据输入本发明实施例所提供的羊毛党用户识别模型创建方法所创建的羊毛党用户识别模型,羊毛党用户识别模型输出待识别用户是否为羊毛党的检测结果。
本发明实施例提供的用户识别方法提取待识别用户的羊毛党特征数据,将这些特征数据输入羊毛党用户识别模型,实现了对羊毛党用户的自动识别。与传统的人工识别方法相比不仅识别效率高,而且有更高的准确率。
基于上述任一实施例,图5为本发明另一实施例提供的用户识别方法的示意图,如图5所示,本发明另一实施例提供的用户识别方法包括:
步骤501、生成待识别用户的检测数据。
步骤502、对检测数据中的指标特征进行分析,去除冗余指标,精简预测数据。
在本发明的其他实施例中,若检测数据的指标特征类别并不繁杂,则本步骤也可省去。
步骤503、对检测数据进行处理。
步骤504、将检测数据输入本发明实施例所提供的羊毛党用户识别模型创建方法所创建的羊毛党用户识别模型,羊毛党用户识别模型输出待识别用户是否为羊毛党的检测结果。
步骤505、对被检测出的羊毛党用户,为其做羊毛党严重程度的评级。
在本发明实施例中,在为羊毛党用户做羊毛党严重程度评级时,首先找出该用户的所有邀请用户,然后通过本发明实施例所提供的羊毛党用户识别方法为其所有邀请用户是否为羊毛党用户进行识别,最后对该用户的邀请用户中属于羊毛党用户的个数占其所有邀请用户数目的比例进行计算,根据计算结果确定其严重程度。例如,一位羊毛党用户的邀请用户中80%以上为羊毛党用户,那么该羊毛党用户的羊毛党等级为最高级别1级;20%-80%的等级为2级,小于20%的为3级。以上仅为示例之用,具体等级的划分方法可根据需要进行调整。
本发明实施例提供的用户识别方法不仅能识别待识别用户是否为羊毛党用户,而且能对羊毛党用户的等级进行划分,有助于更精准地识别羊毛党用户。
基于上述任一实施例,图6为本发明实施例提供的用户识别模型创建装置的示意图,如图6所示,本发明实施例提供的用户识别模型创建装置包括:
样本数据生成模块601,用于生成样本数据;所述样本数据包括已知羊毛党用户的能够表征羊毛党特征的指标特征,所述指标特征包括以下特征中的一种或多种:交往圈特征、消费特征、身份特征、行为特征、设备图谱;
预处理模块602,用于对所述样本数据进行预处理;
模型创建模块603,用于根据所述样本数据创建羊毛党用户识别模型。
本发明实施例提供的用户识别模型创建装置提取了多种类型的羊毛党特征数据,利用这些特征数据来创建羊毛党用户识别模型。利用这一识别模型可实现羊毛党用户的自动识别,较传统的人工识别方法不仅识别效率高,而且有更高的准确率。
基于上述任一实施例,图7为本发明实施例提供的用户识别装置的示意图,如图7所示,本发明实施例提供的用户识别装置包括:
检测数据生成模块701,用于生成检测数据,所述检测数据中包括待识别用户的指标特征,所述指标特征包括以下特征中的一种或多种:交往圈特征、消费特征、身份特征、行为特征、设备图谱;
预处理模块702,用于对所述检测数据进行预处理;
识别模块703,用于将所述检测数据输入所述羊毛党用户识别模型创建装置所创建的羊毛党用户识别模型,输出识别结果。
本发明实施例提供的用户识别装置提取待识别用户的羊毛党特征数据,将这些特征数据输入羊毛党用户识别模型,实现了对羊毛党用户的自动识别。与传统的人工识别方法相比不仅识别效率高,而且有更高的准确率。
图8示例了一种电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器 830中的逻辑指令,以执行如下方法:生成样本数据;所述样本数据包括已知羊毛党用户的能够表征羊毛党特征的指标特征,所述指标特征包括以下特征中的一种或多种:交往圈特征、消费特征、身份特征、行为特征、设备图谱;对所述样本数据进行预处理;根据所述样本数据创建羊毛党用户识别模型。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:生成样本数据;所述样本数据包括已知羊毛党用户的能够表征羊毛党特征的指标特征,所述指标特征包括以下特征中的一种或多种:交往圈特征、消费特征、身份特征、行为特征、设备图谱;对所述样本数据进行预处理;根据所述样本数据创建羊毛党用户识别模型。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种用户识别模型创建方法,其特征在于,包括:
生成样本数据;所述样本数据包括已知羊毛党用户的能够表征羊毛党特征的指标特征,所述指标特征包括以下特征中的一种或多种:交往圈特征、消费特征、身份特征、行为特征、设备图谱;
对所述样本数据进行预处理;
根据所述样本数据创建羊毛党用户识别模型。
2.根据权利要求1所述的用户识别模型创建方法,其特征在于,还包括:
将所述样本数据的一部分作为评估样本数据,使用所述评估样本数据对所创建的羊毛党用户识别模型进行优化,得到优化后的羊毛党用户识别模型。
3.根据权利要求1或2所述的用户识别模型创建方法,其特征在于,在生成样本数据之后,方法还包括:
对所述样本数据中的指标特征进行分析,去除冗余指标特征。
4.根据权利要求1或2所述的用户识别模型创建方法,其特征在于,根据所述样本数据,采用随机森林方法创建羊毛党用户识别模型。
5.一种用户识别方法,其特征在于,包括:
生成检测数据,所述检测数据中包括待识别用户的指标特征,所述指标特征包括以下特征中的一种或多种:交往圈特征、消费特征、身份特征、行为特征、设备图谱;
对所述检测数据进行预处理;
将所述检测数据输入权利要求1-4任一项所述的用户识别模型创建方法所创建的羊毛党用户识别模型,输出识别结果。
6.根据权利要求5所述的用户识别方法,其特征在于,还包括:
识别出所述待识别用户为羊毛党用户后,对该羊毛党用户的严重程度进行评估;包括:
找出所述羊毛党用户的所有邀请用户,然后为其所有邀请用户是否为羊毛党用户进行识别,最后对所述羊毛党用户的邀请用户中属于羊毛党用户的个数占其所有邀请用户数目的比例进行计算,根据计算结果确定羊毛党用户的严重程度。
7.一种用户识别模型创建装置,其特征在于,包括:
样本数据生成模块,用于生成样本数据;所述样本数据包括已知羊毛党用户的能够表征羊毛党特征的指标特征,所述指标特征包括以下特征中的一种或多种:交往圈特征、消费特征、身份特征、行为特征、设备图谱;
预处理模块,用于对所述样本数据进行预处理;
模型创建模块,用于根据所述样本数据创建羊毛党用户识别模型。
8.一种用户识别装置,其特征在于,包括:
检测数据生成模块,用于生成检测数据,所述检测数据中包括待识别用户的指标特征,所述指标特征包括以下特征中的一种或多种:交往圈特征、消费特征、身份特征、行为特征、设备图谱;
预处理模块,用于对所述检测数据进行预处理;
识别模块,用于将所述检测数据输入权利要求7所述的用户识别模型创建装置所创建的用户识别模型,输出识别结果。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述用户识别模型创建方法的步骤,或实现如权利要求5或6所述用户识别方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至4任一项所述用户识别模型创建方法的步骤,或实现如权利要求5或6所述用户识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911045080.1A CN111091408A (zh) | 2019-10-30 | 2019-10-30 | 用户识别模型创建方法、装置与识别方法、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911045080.1A CN111091408A (zh) | 2019-10-30 | 2019-10-30 | 用户识别模型创建方法、装置与识别方法、装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111091408A true CN111091408A (zh) | 2020-05-01 |
Family
ID=70393584
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911045080.1A Pending CN111091408A (zh) | 2019-10-30 | 2019-10-30 | 用户识别模型创建方法、装置与识别方法、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111091408A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111782735A (zh) * | 2020-07-01 | 2020-10-16 | 北京深演智能科技股份有限公司 | 羊毛党流量识别方法及装置 |
CN112686702A (zh) * | 2020-12-31 | 2021-04-20 | 平安消费金融有限公司 | 羊毛党识别方法、装置、计算机设备及存储介质 |
CN113837303A (zh) * | 2021-09-29 | 2021-12-24 | 中国联合网络通信集团有限公司 | 一种黑产用户识别方法、tee节点及计算机可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106022826A (zh) * | 2016-05-18 | 2016-10-12 | 武汉斗鱼网络科技有限公司 | 一种网络直播平台中的作弊用户识别方法与系统 |
CN108154311A (zh) * | 2018-01-11 | 2018-06-12 | 国网山东省电力公司 | 基于随机森林和决策树的优质客户识别方法及装置 |
WO2018166113A1 (zh) * | 2017-03-13 | 2018-09-20 | 平安科技(深圳)有限公司 | 随机森林模型训练的方法、电子装置及存储介质 |
CN109242522A (zh) * | 2017-07-11 | 2019-01-18 | 深圳乐信软件技术有限公司 | 目标用户识别模型建立、目标用户识别方法及装置 |
CN110232473A (zh) * | 2019-05-22 | 2019-09-13 | 重庆邮电大学 | 一种基于大数据金融的黑产用户预测方法 |
CN110363540A (zh) * | 2019-06-27 | 2019-10-22 | 上海淇馥信息技术有限公司 | 一种基于用户行为检测的羊毛党识别方法、装置和电子设备 |
-
2019
- 2019-10-30 CN CN201911045080.1A patent/CN111091408A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106022826A (zh) * | 2016-05-18 | 2016-10-12 | 武汉斗鱼网络科技有限公司 | 一种网络直播平台中的作弊用户识别方法与系统 |
WO2018166113A1 (zh) * | 2017-03-13 | 2018-09-20 | 平安科技(深圳)有限公司 | 随机森林模型训练的方法、电子装置及存储介质 |
CN109242522A (zh) * | 2017-07-11 | 2019-01-18 | 深圳乐信软件技术有限公司 | 目标用户识别模型建立、目标用户识别方法及装置 |
CN108154311A (zh) * | 2018-01-11 | 2018-06-12 | 国网山东省电力公司 | 基于随机森林和决策树的优质客户识别方法及装置 |
CN110232473A (zh) * | 2019-05-22 | 2019-09-13 | 重庆邮电大学 | 一种基于大数据金融的黑产用户预测方法 |
CN110363540A (zh) * | 2019-06-27 | 2019-10-22 | 上海淇馥信息技术有限公司 | 一种基于用户行为检测的羊毛党识别方法、装置和电子设备 |
Non-Patent Citations (1)
Title |
---|
黄孝平: "《当代机器深度学习方法与应用研究》" * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111782735A (zh) * | 2020-07-01 | 2020-10-16 | 北京深演智能科技股份有限公司 | 羊毛党流量识别方法及装置 |
CN112686702A (zh) * | 2020-12-31 | 2021-04-20 | 平安消费金融有限公司 | 羊毛党识别方法、装置、计算机设备及存储介质 |
CN113837303A (zh) * | 2021-09-29 | 2021-12-24 | 中国联合网络通信集团有限公司 | 一种黑产用户识别方法、tee节点及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111291816B (zh) | 针对用户分类模型进行特征处理的方法及装置 | |
CN106803168B (zh) | 一种异常转账侦测方法和装置 | |
CN108665159A (zh) | 一种风险评估方法、装置、终端设备及存储介质 | |
CN113011889B (zh) | 账号异常识别方法、系统、装置、设备及介质 | |
CN111091408A (zh) | 用户识别模型创建方法、装置与识别方法、装置 | |
CN110609908A (zh) | 案件串并方法及装置 | |
CN114782161A (zh) | 识别风险用户的方法、装置、存储介质及电子装置 | |
CN113205403A (zh) | 一种企业信用等级的计算方法、装置、存储介质及终端 | |
CN111428217A (zh) | 欺诈团伙识别方法、装置、电子设备及计算机可读存储介质 | |
CN111245815B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN109711984B (zh) | 一种基于催收的贷前风险监控方法及装置 | |
CN117252429A (zh) | 风险用户的识别方法、装置、存储介质及电子设备 | |
CN113554438A (zh) | 账号的识别方法、装置、电子设备及计算机可读介质 | |
CN116821759A (zh) | 类别标签的识别预测方法、装置和处理器及电子设备 | |
CN112330328A (zh) | 一种基于特征提取的信用卡欺诈检测方法 | |
CN115577172A (zh) | 物品推荐方法、装置、设备及介质 | |
CN110570301B (zh) | 风险识别方法、装置、设备及介质 | |
CN114119107A (zh) | 一种钢贸企业交易测评方法、装置、设备及存储介质 | |
CN113449506A (zh) | 一种数据检测方法、装置、设备及可读存储介质 | |
CN116204567B (zh) | 用户挖掘及模型的训练方法、装置、电子设备和存储介质 | |
CN117272201B (zh) | 一种基于4w1h语言模型的金融行为异常检测方法及系统 | |
CN115730946A (zh) | 信用卡欺诈行为检测方法、规则生成方法、装置及设备 | |
CN116955608A (zh) | 账户状态信息获取方法、装置、电子设备和可读介质 | |
CN115393050A (zh) | 基于大数据的银行潜在客户识别方法及装置 | |
CN113469428A (zh) | 用水性质异常识别方法及装置、计算机装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |