CN112035775B - 基于随机森林模型的用户识别方法、装置和计算机设备 - Google Patents

基于随机森林模型的用户识别方法、装置和计算机设备 Download PDF

Info

Publication number
CN112035775B
CN112035775B CN202010906397.6A CN202010906397A CN112035775B CN 112035775 B CN112035775 B CN 112035775B CN 202010906397 A CN202010906397 A CN 202010906397A CN 112035775 B CN112035775 B CN 112035775B
Authority
CN
China
Prior art keywords
user
classification
combined
random forest
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010906397.6A
Other languages
English (en)
Other versions
CN112035775A (zh
Inventor
罗振珊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Property and Casualty Insurance Company of China Ltd
Original Assignee
Ping An Property and Casualty Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Property and Casualty Insurance Company of China Ltd filed Critical Ping An Property and Casualty Insurance Company of China Ltd
Priority to CN202010906397.6A priority Critical patent/CN112035775B/zh
Publication of CN112035775A publication Critical patent/CN112035775A/zh
Application granted granted Critical
Publication of CN112035775B publication Critical patent/CN112035775B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及人工智能领域,提供了一种基于随机森林模型的用户识别方法、装置、计算机设备和存储介质,获取WEB访问日志;从WEB访问日志中提取出用户的账号特征、用户的历史行为特征以及用户的访问行为特征;将用户的账号特征、历史行为特征以及访问行为特征进行组合得到一组组合行为特征;将组合行为特征输入至随机森林模型中,通过随机森林模型中六组不同的决策树分类器,分别得到对应的一组分类子结果;获取六组所述分类子结果中数量最多的分类标签,作为对用户的分类结果。基于多个维度的用户特征,并通过随机森林模型中六组不同的决策树分类器进行分类之后,综合多个分类子结果得出最终对用户的分类结果,便于准确识别出非法用户。

Description

基于随机森林模型的用户识别方法、装置和计算机设备
技术领域
本申请涉及人工智能技术领域,特别涉及一种基于随机森林模型的用户识别方法、装置、计算机设备和存储介质。
背景技术
目前,针对使用外挂、爬虫等非法用户的检测,通常是基于对单个IP、User Agent等进行频率统计,再与对应设置的阈值进行对比,从而检测出该用户采用外挂、爬虫等工具,进而进行封堵等,这些方式不仅误伤率高,而且也无法准确检测出非法用户采用访问频率低,但是持续性却很高的外挂、爬虫行为,即对非法用户的检测不够准确。
发明内容
本申请的主要目的为提供一种基于随机森林模型的用户识别方法、装置、计算机设备和存储介质,旨在克服目前无法准确检测出非法用户的缺陷。
为实现上述目的,本申请提供了一种基于随机森林模型的用户识别方法,包括以下步骤:
获取WEB访问日志;
从所述WEB访问日志中提取出用户的账号特征、用户的历史行为特征以及用户的访问行为特征;
将所述用户的账号特征、历史行为特征以及访问行为特征进行组合得到一组组合行为特征;
将所述组合行为特征输入至随机森林模型中,通过所述随机森林模型中六组不同的决策树分类器,分别得到对应的一组分类子结果;其中,六组所述决策树分类器的特征筛选顺序互不相同;各所述分类子结果中包括预测所述组合行为特征对应的分类标签,所述分类标签包括两种;
获取六组所述分类子结果中数量最多的分类标签,作为对所述用户的分类结果。
进一步地,所述分类子结果中还包括预测所述组合行为特征为对应的分类标签的预测概率;
所述将所述组合行为特征输入至随机森林模型中,通过所述随机森林模型中六组不同的决策树分类器,分别得到对应的一组分类子结果的步骤之后,还包括:
若六组所述分类子结果中的两种分类标签数量相同,则计算每一种所述分类标签对应预测概率的平均值;
获取平均值最大的预测概率所对应的分类标签,作为对所述用户的分类结果。
进一步地,所述从所述WEB访问日志中提取出用户的账号特征、用户的历史行为特征以及用户的访问行为特征的步骤,包括:
从所述WEB访问日志中预提取出多个初始特征,组合多个所述初始特征得到第一组合特征,并计算所述第一组合特征的第一评估值;
将每个所述初始特征输入至预设概率模型中,预测出所述初始特征为预设标签的第一概率;其中,所述概率模型为基于卷积神经网络训练得到;
将所述第一概率与预设的概率阈值进行对比,确定出第一概率大于所述概率阈值的所述初始特征作为预选特征;
将每个所述预选特征与所述第一组合特征进行组合,得到第二组合特征,并计算所述第二组合特征的第二评估值;
判断所述第二评估值是否大于第一评估值,若大于,则将对应的预选特征作为目标特征;
按照所述目标特征的类别,对所述目标特征进行分类,得到所述用户的账号特征、用户的历史行为特征以及用户的访问行为特征。
进一步地,所述将所述组合行为特征输入至随机森林模型中,通过所述随机森林模型中六组不同的决策树分类器,分别得到对应的一组分类子结果的步骤,包括:
将所述组合行为特征分别输入随机森林模型中六组不同的决策树分类器中;
通过每组所述决策树分类器按照其对应的筛选顺序,分别基于所述组合行为特征中的第一种特征进行第一次筛选,得出第一结果;
分别在所述第一结果的基础上,基于所述组合行为特征中的第二种特征进行第二次筛选,得出第二结果;
分别在所述第二结果的基础上,基于所述组合行为特征中的第二种特征进行第三次筛选,得出第三结果,作为对应的所述分类子结果。
进一步地,所述获取六组所述分类子结果中数量最多的分类标签,作为对所述用户的分类结果的步骤之后,包括:
获取所述WEB访问日志中用户的IP地址;
获取所述用户通过所述IP地址所访问网站的访问时间段以及连续访问所述网站的天数;
根据所述访问时间段以及连续访问所述网站的天数,确定所述用户是否为非法用户,作为所述用户的参考结果;
判断所述参考结果与所述用户的分类结果是否相同,若不同,将所述参考结果与所述组合行为特征组成训练对,并将所述训练对输入至随机森林模型中进行训练,以更新所述随机森林模型。
本申请还提供了一种基于随机森林模型的用户识别装置,包括:
第一获取单元,用于获取WEB访问日志;
提取单元,用于从所述WEB访问日志中提取出用户的账号特征、用户的历史行为特征以及用户的访问行为特征;
组合单元,用于将所述用户的账号特征、历史行为特征以及访问行为特征进行组合得到一组组合行为特征;
预测单元,用于将所述组合行为特征输入至随机森林模型中,通过所述随机森林模型中六组不同的决策树分类器,分别得到对应的一组分类子结果;其中,六组所述决策树分类器的特征筛选顺序互不相同;各所述分类子结果中包括预测所述组合行为特征对应的分类标签,所述分类标签包括两种;
第一分类单元,用于获取六组所述分类子结果中数量最多的分类标签,作为对所述用户的分类结果。
进一步地,所述分类子结果中还包括预测所述组合行为特征为对应的分类标签的预测概率;
所述装置还包括:
计算单元,用于若六组所述分类子结果中的两种分类标签数量相同,则计算每一种所述分类标签对应预测概率的平均值;
第二分类单元,用于获取平均值最大的预测概率所对应的分类标签,作为对所述用户的分类结果。
进一步地,所述提取单元,包括:
提取子单元,用于从所述WEB访问日志中预提取出多个初始特征,组合多个所述初始特征得到第一组合特征,并计算所述第一组合特征的第一评估值;
预测子单元,用于将每个所述初始特征输入至预设概率模型中,预测出所述初始特征为预设标签的第一概率;其中,所述概率模型为基于卷积神经网络训练得到;
确定子单元,用于将所述第一概率与预设的概率阈值进行对比,确定出第一概率大于所述概率阈值的所述初始特征作为预选特征;
组合子单元,用于将每个所述预选特征与所述第一组合特征进行组合,得到第二组合特征,并计算所述第二组合特征的第二评估值;
判断子单元,用于判断所述第二评估值是否大于第一评估值,若大于,则将对应的预选特征作为目标特征;
分类子单元,用于按照所述目标特征的类别,对所述目标特征进行分类,得到所述用户的账号特征、用户的历史行为特征以及用户的访问行为特征。
进一步地,所述预测单元,包括:
输入子单元,用于将所述组合行为特征分别输入随机森林模型中六组不同的决策树分类器中;
第一筛选子单元,用于通过每组所述决策树分类器按照其对应的筛选顺序,分别基于所述组合行为特征中的第一种特征进行第一次筛选,得出第一结果;
第二筛选子单元,用于分别在所述第一结果的基础上,基于所述组合行为特征中的第二种特征进行第二次筛选,得出第二结果;
第三筛选子单元,用于分别在所述第二结果的基础上,基于所述组合行为特征中的第二种特征进行第三次筛选,得出第三结果,作为对应的所述分类子结果。
进一步地,还包括:
第二获取单元,用于获取所述WEB访问日志中用户的IP地址;
第三获取单元,用于获取所述用户通过所述IP地址所访问网站的访问时间段以及连续访问所述网站的天数;
参考结果确定单元,用于根据所述访问时间段以及连续访问所述网站的天数,确定所述用户是否为非法用户,作为所述用户的参考结果;
训练单元,用于判断所述参考结果与所述用户的分类结果是否相同,若不同,将所述参考结果与所述组合行为特征组成训练对,并将所述训练对输入至随机森林模型中进行训练,以更新所述随机森林模型。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请提供的基于随机森林模型的用户识别方法、装置、计算机设备和存储介质,获取WEB访问日志;从所述WEB访问日志中提取出用户的账号特征、用户的历史行为特征以及用户的访问行为特征;将所述用户的账号特征、历史行为特征以及访问行为特征进行组合得到一组组合行为特征;将所述组合行为特征输入至随机森林模型中,通过所述随机森林模型中六组不同的决策树分类器,分别得到对应的一组分类子结果;获取六组所述分类子结果中数量最多的分类标签,作为对所述用户的分类结果。基于多个维度的用户特征,并通过随机森林模型中六组不同的决策树分类器进行分类之后,综合多个分类子结果得出最终对用户的分类结果,便于准确识别出非法用户。
附图说明
图1是本申请一实施例中基于随机森林模型的用户识别方法步骤示意图;
图2是本申请一实施例中基于随机森林模型的用户识别装置结构框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例中提供了一种基于随机森林模型的用户识别方法,包括以下步骤:
步骤S1,获取WEB访问日志;
步骤S2,从所述WEB访问日志中提取出用户的账号特征、用户的历史行为特征以及用户的访问行为特征;
步骤S3,将所述用户的账号特征、历史行为特征以及访问行为特征进行组合得到一组组合行为特征;
步骤S4,将所述组合行为特征输入至随机森林模型中,通过所述随机森林模型中六组不同的决策树分类器,分别得到对应的一组分类子结果;其中,六组所述决策树分类器的特征筛选顺序互不相同;各所述分类子结果中包括预测所述组合行为特征对应的分类标签,所述分类标签包括两种;
步骤S5,获取六组所述分类子结果中数量最多的分类标签,作为对所述用户的分类结果。
在本实施例中,上述方法应用于保险业务系统中自动检测出外挂、爬虫等非法用户。本申请中方案可应用于智慧城市的智慧安防领域中,从而推动智慧城市的建设。
如上述步骤S1所述的,在本实施例中,以保险业务系统的WEB访问日志为基础,上述WEB访问日志从客户端系统配置文件中获取。
如上述步骤S2所述的,通过对WEB访问日志进行数据分析,从中提炼出三大类行为特征,分别为用户的账号特征、用户的历史行为特征以及用户的访问行为特征。提取上述三大类行为特征时考虑了保险业务系统性质和正常交易作业习惯,通过特征统计并泛化处理,以便用于后续模型训练。
具体地,保险交易业务系统中的保险作业人员通常分内勤、外勤、车行代理人,内勤分普通作业人员和核保人。因此,可以将把帐号分成四类,这四类账号因工作性质和分工不同,操作系统行为有较大差别。根据该四类账号的操作系统行为不同,便可以将用户划分得到不同的账号特征。
通过大量历史日志数据统计分析,不同用户的历史行为特征不同,历史行为特征包括工作日活跃度、节假日活跃度、勤奋指数、询价操作占比、检索操作占比、投保跟踪操作占比;通过上述六个历史行为特征可以较好的刻画出每类用户的操作行为。
具体地,上述工作日活跃度为历史预设期限内(如90天)访问保险业务系统的天数/总工作天数;上述节假日活跃度为历史预设节假日(包括周末,法定节假日)访问保险业务系统的天数/总节假日天数;上述勤奋指数为总加班时长/总天数;上述询价操作占比为询价操作次数/总操作次数;上述检索操作占比为检索操作次数/总操作次数;上述投保跟踪操作占比为投保跟踪次数/总操作次数。
上述访问行为特征指的是与保险业务特征和个人工作时段的工作习惯相关性强的特征。例如,保险一般不是客户上门办理,是业务员拜访客户后,第二天早上提交资料给内勤办理,正常作业内勤时间在9:00-10:00时,操作系统最繁忙,核保人需要及时核保操作。但非法用户不理解业务特征,访问系统的操作频率与正常内勤操作存在较大变异。
在本实施例中,上述访问行为特征包括:每小时访问数的均值、每小时访问数的标准差、每小时访问数的变异系数、TOP10 URL的访问数;具体地,上述每小时访问数的均值为一天中平均每小时的访问量,上述每小时访问数的标准差为一天中每小时访问量的标准差,上述每小时访问数的变异系数为一天中每小时访问数的变异系数,上述TOP10 URL的访问数是从过去预设期限内(如90天)的WEB访问日志找出访问量最靠前的10个URL,然后统计这10个URL中每个URL的访问量(按账号/天统计)。
如上述步骤S3-S5所述的,在提取出上述三大类特征之后,将其进行组合得到组合行为特征,将组合行为特征输入至随机森林模型中进行预测,得到对所述用户的分类结果,基于该分类结果便可以得出用户是否为非法用户的判断结果。
上述随机森林模型具有多组决策树分类器,每一组决策树分类器的特征筛选顺序互不相同;当其特征筛选顺序不同时,多得到的分类结果也可能不相同。上述决策树分类器的特征筛选顺序不同指的是,每个决策树分类器都会对上述组合行为特征进行三次筛选,每一次筛选都会判定一次是否为正常用户,但是每个决策树分类器每一次所要筛选的特征不同;例如,一个决策树分类器的筛选顺序为第一次筛选基于用户的账号特征,第二次筛选基于的是历史行为特征,最后才是访问行为特征;而另一个决策树分类器的筛选顺序为第一次筛选基于访问行为特征,第二次筛选基于用户的账号特征,最后筛选基于的是历史行为特征。基于筛选顺序不同,最终得到的分类结果也不相同。对上述三大类特征的筛选顺序不同,共有六种顺序,因此需要设置有六组不同的决策树分类器。
具体地,在一个实施例中,通过六组不同的决策树分类器对上述组合行为特征进行分类,得到六组分类子结果,上述分类子结果具体可包括非法用户以及正常用户两个分类标签;
最后从上述六个分类子结果中确定出最多的分类结果,作为对所述用户的分类结果。例如,上述六个分类子结果中包括四个非法用户的分类结果以及两个正常用户的分类结果,则判定上述用户为非法用户。
上述随机森林模型采用简单的投票方法进行最终的决策,即选择所有决策树中得票数最多的类别作为最终的分类结果,与单模型相比,具有更强的泛化能力,能够克服单个模型过拟合的问题。
在本实施例中,随机森林模型由一组决策树组成的组合分类器(h(x,θk),k=1,2,3…K),其中θk表示独立随机变量,K表示决策树的数目,在给定X的条件下,随机森林由K棵决策树投票决定最优的分类类别。本方案中的随机森林模型在选择分裂特征时采用Gini值测度方法,Gini值计算公式为:
其中,pi表示该类别i在该节点处的频率,Gini值越小,表示该节点的类别越纯,当该节点只有一个类别时,Gini值为0。
在一实施例中,所述分类子结果中还包括预测所述组合行为特征为对应的分类标签的预测概率;
所述将所述组合行为特征输入至随机森林模型中,通过所述随机森林模型中六组不同的决策树分类器,分别得到对应的一组分类子结果的步骤S4之后,还包括:
步骤S5a,若六组所述分类子结果中的两种分类标签数量相同,则计算每一种所述分类标签对应预测概率的平均值;
步骤S6a,获取平均值最大的预测概率所对应的分类标签,作为对所述用户的分类结果。
在本实施例中,分类标签包括正常用户以及非法用户两个标签,若六组所述分类子结果中的分类标签数量相同,则其中三组的分类标签为正常用户,另外三组的分类标签为非法用户。上述分类子结果中还包括对应的分类标签的预测概率,例如三组所述分类子结果中的分类标签为正常用户所对应的预测概率分别为0.65、0.89、0.74,另外三组所述分类子结果中的分类标签为非法用户所对应的预测概率分别为0.73、0.76、0.78。因此,所述分类标签为正常用户所对应预测概率的平均值为(0.65+0.92+0.74)/3=0.77,所述分类标签为非法用户所对应预测概率的平均值为(0.73+0.76+0.78)/3=0.76;最终将平均值最大的预测概率所对应分类标签作为用户的分类结果,在上述实例中,上述用户的分类结果为正常用户。
在一实施例中,所述从所述WEB访问日志中提取出用户的账号特征、用户的历史行为特征以及用户的访问行为特征的步骤S2,包括:
步骤S201,从所述WEB访问日志中预提取出多个初始特征,组合多个所述初始特征得到第一组合特征,并计算所述第一组合特征的第一评估值;
步骤S202,将每个所述初始特征输入至预设概率模型中,预测出所述初始特征为预设标签的第一概率;其中,所述概率模型为基于卷积神经网络训练得到;
步骤S203,将所述第一概率与预设的概率阈值进行对比,确定出第一概率大于所述概率阈值的所述初始特征作为预选特征;
步骤S204,将每个所述预选特征与所述第一组合特征进行组合,得到第二组合特征,并计算所述第二组合特征的第二评估值;
步骤S205,判断所述第二评估值是否大于第一评估值,若大于,则将对应的预选特征作为目标特征;
步骤S206,按照所述目标特征的类别,对所述目标特征进行分类,得到所述用户的账号特征、用户的历史行为特征以及用户的访问行为特征。
在本实施例中,对WEB访问日志进行分析时,可以得到大量的初始特征,例如账号类型特征、工作日活跃度、节假日活跃度、勤奋指数、询价操作占比、检索操作占比、投保跟踪操作占比、每小时访问数的均值、每小时访问数的标准差、每小时访问数的变异系数、TOP10 URL的访问数。上述特征数量繁多,而且有效程度参差不齐,因此,需要对上述特征进行筛选。具体地,组合多个所述初始特征得到第一组合特征,并计算所述第一组合特征的第一评估值,该第一评估值可以是第一组合特征的AUC值(Area Under the Curve),其用于作为评估上述特征的一个基准值。将上述每个所述初始特征输入至预设概率模型(该模型的预测结果为好或者不好,以及对应的概率)中,预测出所述初始特征为预设标签的第一概率;将所述第一概率与预设的概率阈值进行对比,确定出第一概率大于所述概率阈值的所述初始特征作为预选特征;该过程中用于初步筛选出上述初始特征中的一部分特征。
进一步地,再将每个所述预选特征与所述第一组合特征进行组合,得到第二组合特征,并计算所述第二组合特征的第二评估值;进而判断所述第二评估值是否大于第一评估值,若大于,则表明上述预先特征的加入,提升了上述第一组合特征的整体质量水平,即上述预先特征的质量高于基准值,因此,将该对应的预先特征作为目标特征。若将预先特征加入第一组合特征之后,计算得到的第二评估值相比于第一评估值降低了,则表明上述预先特征的加入,降低了上述第一组合特征的整体质量水平,即上述预先特征的质量低于基准值,因此,不能将该对应的预先特征作为目标特征,应当将其筛除掉。
最后,将筛选得到的目标特征进行分类统计,得到对应用户的账号特征、用户的历史行为特征以及用户的访问行为特征。
在一实施例中,所述将所述组合行为特征输入至随机森林模型中,通过所述随机森林模型中六组不同的决策树分类器,分别得到对应的一组分类子结果的步骤S4,包括:
步骤S401,将所述组合行为特征分别输入随机森林模型中六组不同的决策树分类器中;
步骤S402,通过每组所述决策树分类器按照其对应的筛选顺序,分别基于所述组合行为特征中的第一种特征进行第一次筛选,得出第一结果;
步骤S403,分别在所述第一结果的基础上,基于所述组合行为特征中的第二种特征进行第二次筛选,得出第二结果;
步骤S404,分别在所述第二结果的基础上,基于所述组合行为特征中的第二种特征进行第三次筛选,得出第三结果,作为对应的所述分类子结果。
具体地,某个决策树分类器的特征筛选顺序为账号特征、历史行为特征、访问行为特征,则该决策树分类器在对上述组合行为特征进行分类时,首先基于账号特征进行第一次筛选,判断是否为正常用户,得出第一结果;然后在该第一结果的基础上,继续基于历史行为特征进行第二次筛选,得出第二结果;最后,基于访问行为特征进行第三次筛选,得出第三结果,作为最终的分类子结果。
在一实施例中,所述获取六组所述分类子结果中数量最多的分类标签,作为对所述用户的分类结果的步骤S5之后,包括:
步骤S6,获取所述WEB访问日志中用户的IP地址;
步骤S7,获取所述用户通过所述IP地址所访问网站的访问时间段以及连续访问所述网站的天数;
步骤S8,根据所述访问时间段以及连续访问所述网站的天数,确定所述用户是否为非法用户,作为所述用户的参考结果;
步骤S9,判断所述参考结果与所述用户的分类结果是否相同,若不同,将所述参考结果与所述组合行为特征组成训练对,并将所述训练对输入至随机森林模型中进行训练,以更新所述随机森林模型。
在本实施例中,上述方案用于验证上述随机森林模型输出的分类结果是否准确,从而验证随机森林模型的预测能力。在本实施例中,通过提取WEB访问日志用户的IP地址,进而获取到该用户通过该IP地址访问网络的访问时间段以及连续访问所述网站的天数,若连续天数大于阈值,且访问时间段位于预设时间段,则表明该用户为爬虫用户,若连续天数小于阈值,或者访问时间段不位于预设时间段,则该用户为正常用户;将该过程中得出的结果作为一个参考结果,若该参考结果与上述分类结果一致,则可以表明上述随机森林模型预测的结果准确率较高,若参考结果与上述分类结果不一致,则可以表明上述随机森林模型预测的结果准确率还不太高,因此,需要继续进行优化;因此,可以使用上述参考结果与上述组合行为特征组成训练对,重新对上述随机森林模型进行训练,以更新随机森林模型中的模型参数。
在一实施例中,上述WEB访问日志、用户的账号特征、用户的历史行为特征以及用户的访问行为特征以及随机森林模型存储于区块链节点中。其中,区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
参照图2,在一实施例中,本申请还提供了一种基于随机森林模型的用户识别装置,包括:
第一获取单元10,用于获取WEB访问日志;
提取单元20,用于从所述WEB访问日志中提取出用户的账号特征、用户的历史行为特征以及用户的访问行为特征;
组合单元30,用于将所述用户的账号特征、历史行为特征以及访问行为特征进行组合得到一组组合行为特征;
预测单元40,用于将所述组合行为特征输入至随机森林模型中,通过所述随机森林模型中六组不同的决策树分类器,分别得到对应的一组分类子结果;其中,六组所述决策树分类器的特征筛选顺序互不相同;各所述分类子结果中包括预测所述组合行为特征对应的分类标签,所述分类标签包括两种;
第一分类单元50,用于获取六组所述分类子结果中数量最多的分类标签,作为对所述用户的分类结果。
在一实施例中,所述分类子结果中还包括预测所述组合行为特征为对应的分类标签的预测概率;
所述装置还包括:
计算单元,用于若六组所述分类子结果中的两种分类标签数量相同,则计算每一种所述分类标签对应预测概率的平均值;
第二分类单元,用于获取平均值最大的预测概率所对应的分类标签,作为对所述用户的分类结果。
在一实施例中,所述提取单元20,包括:
提取子单元,用于从所述WEB访问日志中预提取出多个初始特征,组合多个所述初始特征得到第一组合特征,并计算所述第一组合特征的第一评估值;
预测子单元,用于将每个所述初始特征输入至预设概率模型中,预测出所述初始特征为预设标签的第一概率;其中,所述概率模型为基于卷积神经网络训练得到;
确定子单元,用于将所述第一概率与预设的概率阈值进行对比,确定出第一概率大于所述概率阈值的所述初始特征作为预选特征;
组合子单元,用于将每个所述预选特征与所述第一组合特征进行组合,得到第二组合特征,并计算所述第二组合特征的第二评估值;
判断子单元,用于判断所述第二评估值是否大于第一评估值,若大于,则将对应的预选特征作为目标特征;
分类子单元,用于按照所述目标特征的类别,对所述目标特征进行分类,得到所述用户的账号特征、用户的历史行为特征以及用户的访问行为特征。
在一实施例中,所述预测单元40,包括:
输入子单元,用于将所述组合行为特征分别输入随机森林模型中六组不同的决策树分类器中;
第一筛选子单元,用于通过每组所述决策树分类器按照其对应的筛选顺序,分别基于所述组合行为特征中的第一种特征进行第一次筛选,得出第一结果;
第二筛选子单元,用于分别在所述第一结果的基础上,基于所述组合行为特征中的第二种特征进行第二次筛选,得出第二结果;
第三筛选子单元,用于分别在所述第二结果的基础上,基于所述组合行为特征中的第二种特征进行第三次筛选,得出第三结果,作为对应的所述分类子结果。
在一实施例中,还包括:
第二获取单元,用于获取所述WEB访问日志中用户的IP地址;
第三获取单元,用于获取所述用户通过所述IP地址所访问网站的访问时间段以及连续访问所述网站的天数;
参考结果确定单元,用于根据所述访问时间段以及连续访问所述网站的天数,确定所述用户是否为非法用户,作为所述用户的参考结果;
训练单元,用于判断所述参考结果与所述用户的分类结果是否相同,若不同,将所述参考结果与所述组合行为特征组成训练对,并将所述训练对输入至随机森林模型中进行训练,以更新所述随机森林模型。
在本实施例中,上述装置实施例中的各个单元、子单元的具体实现,请参照上述方法实施例中所述,在此不再进行赘述。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储WEB访问日志、分类结果等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于随机森林模型的用户识别方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种基于随机森林模型的用户识别方法。可以理解的是,本实施例中的计算机可读存储介质可以是易失性可读存储介质,也可以为非易失性可读存储介质。
综上所述,为本申请实施例中提供的基于随机森林模型的用户识别方法、装置、计算机设备和存储介质,获取WEB访问日志;从所述WEB访问日志中提取出用户的账号特征、用户的历史行为特征以及用户的访问行为特征;将所述用户的账号特征、历史行为特征以及访问行为特征进行组合得到一组组合行为特征;将所述组合行为特征输入至随机森林模型中,通过所述随机森林模型中六组不同的决策树分类器,分别得到对应的一组分类子结果;其中,六组所述决策树分类器的特征筛选顺序互不相同;各所述分类子结果中包括预测所述组合行为特征对应的分类标签,所述分类标签包括两种;获取六组所述分类子结果中数量最多的分类标签,作为对所述用户的分类结果。本申请中基于多个维度的用户特征,并通过随机森林模型中六组不同的决策树分类器进行分类之后,综合多个分类子结果得出最终对用户的分类结果,便于准确识别出非法用户。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (8)

1.一种基于随机森林模型的用户识别方法,其特征在于,包括以下步骤:
获取WEB访问日志;
从所述WEB访问日志中提取出用户的账号特征、用户的历史行为特征以及用户的访问行为特征;
将所述用户的账号特征、历史行为特征以及访问行为特征进行组合得到一组组合行为特征;
将所述组合行为特征输入至随机森林模型中,通过所述随机森林模型中六组不同的决策树分类器,分别得到对应的一组分类子结果;其中,六组所述决策树分类器的特征筛选顺序互不相同;各所述分类子结果中包括预测所述组合行为特征对应的分类标签,所述分类标签包括两种;
获取六组所述分类子结果中数量最多的分类标签,作为对所述用户的分类结果;
所述从所述WEB访问日志中提取出用户的账号特征、用户的历史行为特征以及用户的访问行为特征的步骤,包括:
从所述WEB访问日志中预提取出多个初始特征,组合多个所述初始特征得到第一组合特征,并计算所述第一组合特征的第一评估值;
将每个所述初始特征输入至预设概率模型中,预测出所述初始特征为预设标签的第一概率;其中,所述概率模型为基于卷积神经网络训练得到;
将所述第一概率与预设的概率阈值进行对比,确定出第一概率大于所述概率阈值的所述初始特征作为预选特征;
将每个所述预选特征与所述第一组合特征进行组合,得到第二组合特征,并计算所述第二组合特征的第二评估值;
判断所述第二评估值是否大于第一评估值,若大于,则将对应的预选特征作为目标特征;
按照所述目标特征的类别,对所述目标特征进行分类,得到所述用户的账号特征、用户的历史行为特征以及用户的访问行为特征;
所述将所述组合行为特征输入至随机森林模型中,通过所述随机森林模型中六组不同的决策树分类器,分别得到对应的一组分类子结果的步骤,包括:
将所述组合行为特征分别输入随机森林模型中六组不同的决策树分类器中;
通过每组所述决策树分类器按照其对应的筛选顺序,分别基于所述组合行为特征中的第一种特征进行第一次筛选,得出第一结果;
分别在所述第一结果的基础上,基于所述组合行为特征中的第二种特征进行第二次筛选,得出第二结果;
分别在所述第二结果的基础上,基于所述组合行为特征中的第二种特征进行第三次筛选,得出第三结果,作为对应的所述分类子结果。
2.根据权利要求1所述的基于随机森林模型的用户识别方法,其特征在于,所述分类子结果中还包括预测所述组合行为特征为对应的分类标签的预测概率;
所述将所述组合行为特征输入至随机森林模型中,通过所述随机森林模型中六组不同的决策树分类器,分别得到对应的一组分类子结果的步骤之后,还包括:
若六组所述分类子结果中的两种分类标签数量相同,则计算每一种所述分类标签对应预测概率的平均值;
获取平均值最大的预测概率所对应的分类标签,作为对所述用户的分类结果。
3.根据权利要求1所述的基于随机森林模型的用户识别方法,其特征在于,所述获取六组所述分类子结果中数量最多的分类标签,作为对所述用户的分类结果的步骤之后,包括:
获取所述WEB访问日志中用户的IP地址;
获取所述用户通过所述IP地址所访问网站的访问时间段以及连续访问所述网站的天数;
根据所述访问时间段以及连续访问所述网站的天数,确定所述用户是否为非法用户,作为所述用户的参考结果;
判断所述参考结果与所述用户的分类结果是否相同,若不同,将所述参考结果与所述组合行为特征组成训练对,并将所述训练对输入至随机森林模型中进行训练,以更新所述随机森林模型。
4.一种基于随机森林模型的用户识别装置,所述装置用于实现权利要求1-3任意一项所述的方法,所述装置其特征在于,包括:
第一获取单元,用于获取WEB访问日志;
提取单元,用于从所述WEB访问日志中提取出用户的账号特征、用户的历史行为特征以及用户的访问行为特征;
组合单元,用于将所述用户的账号特征、历史行为特征以及访问行为特征进行组合得到一组组合行为特征;
预测单元,用于将所述组合行为特征输入至随机森林模型中,通过所述随机森林模型中六组不同的决策树分类器,分别得到对应的一组分类子结果;其中,六组所述决策树分类器的特征筛选顺序互不相同;各所述分类子结果中包括预测所述组合行为特征对应的分类标签,所述分类标签包括两种;
第一分类单元,用于获取六组所述分类子结果中数量最多的分类标签,作为对所述用户的分类结果;
输入子单元,用于将所述组合行为特征分别输入随机森林模型中六组不同的决策树分类器中;
第一筛选子单元,用于通过每组所述决策树分类器按照其对应的筛选顺序,分别基于所述组合行为特征中的第一种特征进行第一次筛选,得出第一结果;
第二筛选子单元,用于分别在所述第一结果的基础上,基于所述组合行为特征中的第二种特征进行第二次筛选,得出第二结果;
第三筛选子单元,用于分别在所述第二结果的基础上,基于所述组合行为特征中的第二种特征进行第三次筛选,得出第三结果,作为对应的所述分类子结果。
5.根据权利要求4所述的基于随机森林模型的用户识别装置,其特征在于,所述分类子结果中还包括预测所述组合行为特征为对应的分类标签的预测概率;
所述装置还包括:
计算单元,用于若六组所述分类子结果中的两种分类标签数量相同,则计算每一种所述分类标签对应预测概率的平均值;
第二分类单元,用于获取平均值最大的预测概率所对应的分类标签,作为对所述用户的分类结果。
6.根据权利要求4所述的基于随机森林模型的用户识别装置,其特征在于,所述提取单元,包括:
提取子单元,用于从所述WEB访问日志中预提取出多个初始特征,组合多个所述初始特征得到第一组合特征,并计算所述第一组合特征的第一评估值;
预测子单元,用于将每个所述初始特征输入至预设概率模型中,预测出所述初始特征为预设标签的第一概率;其中,所述概率模型为基于卷积神经网络训练得到;
确定子单元,用于将所述第一概率与预设的概率阈值进行对比,确定出第一概率大于所述概率阈值的所述初始特征作为预选特征;
组合子单元,用于将每个所述预选特征与所述第一组合特征进行组合,得到第二组合特征,并计算所述第二组合特征的第二评估值;
判断子单元,用于判断所述第二评估值是否大于第一评估值,若大于,则将对应的预选特征作为目标特征;
分类子单元,用于按照所述目标特征的类别,对所述目标特征进行分类,得到所述用户的账号特征、用户的历史行为特征以及用户的访问行为特征。
7.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至3中任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至3中任一项所述的方法的步骤。
CN202010906397.6A 2020-09-01 2020-09-01 基于随机森林模型的用户识别方法、装置和计算机设备 Active CN112035775B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010906397.6A CN112035775B (zh) 2020-09-01 2020-09-01 基于随机森林模型的用户识别方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010906397.6A CN112035775B (zh) 2020-09-01 2020-09-01 基于随机森林模型的用户识别方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN112035775A CN112035775A (zh) 2020-12-04
CN112035775B true CN112035775B (zh) 2023-11-14

Family

ID=73592233

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010906397.6A Active CN112035775B (zh) 2020-09-01 2020-09-01 基于随机森林模型的用户识别方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN112035775B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114244611B (zh) * 2021-12-17 2023-10-13 中国平安财产保险股份有限公司 异常攻击检测方法、装置、设备及存储介质
CN114529857A (zh) * 2022-02-25 2022-05-24 平安科技(深圳)有限公司 用户在线状态的识别方法、装置、服务器及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105260628A (zh) * 2014-06-03 2016-01-20 腾讯科技(深圳)有限公司 分类器训练方法和装置、身份验证方法和系统
CN106777024A (zh) * 2016-12-08 2017-05-31 北京小米移动软件有限公司 识别恶意用户的方法及装置
CN107194216A (zh) * 2017-05-05 2017-09-22 中南大学 一种基于用户划屏习惯的移动身份认证方法及系统
CN109299265A (zh) * 2018-10-15 2019-02-01 广州虎牙信息科技有限公司 潜在回流用户筛选方法、装置以及电子设备
CN111459922A (zh) * 2020-02-17 2020-07-28 平安科技(深圳)有限公司 用户识别方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105260628A (zh) * 2014-06-03 2016-01-20 腾讯科技(深圳)有限公司 分类器训练方法和装置、身份验证方法和系统
CN106777024A (zh) * 2016-12-08 2017-05-31 北京小米移动软件有限公司 识别恶意用户的方法及装置
CN107194216A (zh) * 2017-05-05 2017-09-22 中南大学 一种基于用户划屏习惯的移动身份认证方法及系统
CN109299265A (zh) * 2018-10-15 2019-02-01 广州虎牙信息科技有限公司 潜在回流用户筛选方法、装置以及电子设备
CN111459922A (zh) * 2020-02-17 2020-07-28 平安科技(深圳)有限公司 用户识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112035775A (zh) 2020-12-04

Similar Documents

Publication Publication Date Title
CN109767322B (zh) 基于大数据的可疑交易分析方法、装置和计算机设备
CN109165840B (zh) 风险预测处理方法、装置、计算机设备和介质
CN108876133B (zh) 基于业务信息的风险评估处理方法、装置、服务器和介质
WO2020000688A1 (zh) 财务风险验证处理方法、装置、计算机设备及存储介质
CN110458324B (zh) 风险概率的计算方法、装置和计算机设备
CN112132233A (zh) 一种基于有效影响因子的服刑人员危险行为预测方法及系统
CN112990386B (zh) 用户价值聚类方法、装置、计算机设备和存储介质
CN112035775B (zh) 基于随机森林模型的用户识别方法、装置和计算机设备
CN109214904B (zh) 财务造假线索的获取方法、装置、计算机设备和存储介质
CN110728301A (zh) 一种个人用户的信用评分方法、装置、终端及存储介质
CN113139876B (zh) 风险模型训练方法、装置、计算机设备及可读存储介质
CN111192153A (zh) 人群关系网络构建方法、装置、计算机设备和存储介质
CN112990989B (zh) 价值预测模型输入数据生成方法、装置、设备和介质
CN112487284A (zh) 银行客户画像生成方法、设备、存储介质及装置
CN113095890A (zh) 电子优惠券发放方法、装置、计算机设备和存储介质
CN112632409A (zh) 同一用户识别方法、装置、计算机设备和存储介质
CN110389963B (zh) 基于大数据的渠道效果识别方法、装置、设备和存储介质
CN112801784A (zh) 一种数字货币交易所的比特币地址挖掘方法及装置
CN110598772A (zh) 运营数据检测方法、装置、计算机设备和存储介质
CN112866295A (zh) 一种区块链大数据防爬虫处理方法及云平台系统
CN114298563A (zh) 一种告警信息的分析方法、装置及计算机设备
CN114462510A (zh) 一种用于物联网精准防护的设备分类方法及系统
CN114154556A (zh) 样本预测模型的训练方法、装置、电子设备及存储介质
CN113706258A (zh) 基于组合模型的产品推荐方法、装置、设备及存储介质
CN112927092A (zh) 理赔趋势预测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant