CN111598159B - 机器学习模型的训练方法、装置、设备及存储介质 - Google Patents

机器学习模型的训练方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111598159B
CN111598159B CN202010406635.7A CN202010406635A CN111598159B CN 111598159 B CN111598159 B CN 111598159B CN 202010406635 A CN202010406635 A CN 202010406635A CN 111598159 B CN111598159 B CN 111598159B
Authority
CN
China
Prior art keywords
behavior
user account
behavior pattern
pattern set
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010406635.7A
Other languages
English (en)
Other versions
CN111598159A (zh
Inventor
李琦
李浩然
徐恪
杨征
胡少锋
梁肖
苗圆莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tsinghua University
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Tencent Technology Shenzhen Co Ltd filed Critical Tsinghua University
Priority to CN202010406635.7A priority Critical patent/CN111598159B/zh
Publication of CN111598159A publication Critical patent/CN111598159A/zh
Application granted granted Critical
Publication of CN111598159B publication Critical patent/CN111598159B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种机器学习模型的训练方法、装置、设备及存储介质,属于机器学习领域。该方法包括:获取样本用户帐号对应的行为序列集,行为序列集包括样本用户帐号执行的按照时间排序的多个行为事件,样本用户帐号对应有标签;根据自定义的行为模式筛选条件从行为序列集中,提取样本用户帐号的行为模式集,行为模式集采用行为子序列集表示,行为子序列集是行为序列集的子集;从行为模式集中筛选出行为特征表示集,行为特征表示集包括样本用户帐号对应的普遍行为模式集和罕见行为模式集中的至少一种集合;将行为特征表示集和标签作为样本,对机器学习模型进行训练,得到训练后的机器学习模型。本申请提升了机器学习模型的训练效果。

Description

机器学习模型的训练方法、装置、设备及存储介质
技术领域
本申请涉及机器学习领域,特别涉及一种机器学习模型的训练方法、装置、设备及存储介质。
背景技术
用户通过登录用户帐号在客户端执行各类行为事件,如聊天通讯、转账购物、了解时政要闻、在线投票等。执行行为事件的用户帐号包括正常帐号或恶意用户帐号,通过机器学习模型能够对恶意用户帐号进行识别。
以基于特征工程的机器学习模型进行异常检测为例,通过特征工程技术提取用户的行为序列的数值特征和序列特征,如提取行为数量均值方差、提取行为种类集合的大小等,将每个用户的行为序列处理成数值矩阵输入至机器学习模型中,以此来训练该机器学习模型,从而使得该机器学习模型能够对正常用户和恶意用户进行分类。
在上述技术方案中,一旦特征工程提取的特征被公开,易于使得恶意用户帐号规避该特征,导致利用该技术方案训练得到的机器学习模型无法准确检测出恶意用户帐号。
发明内容
本申请实施例提供了一种机器学习模型的训练方法、装置、设备及存储介质,使得训练后的机器学习模型能够准确地预测出恶意用户帐号。所述技术方案如下:
根据本申请的一个方面,提供了一种机器学习模型的训练方法,所述方法包括:
获取样本用户帐号对应的行为序列集,所述行为序列集包括所述样本用户帐号执行的按照时间排序的多个行为事件,所述样本用户帐号对应有标签;
根据自定义的行为模式筛选条件从所述行为序列集中,提取所述样本用户帐号的行为模式集,所述行为模式集采用行为子序列集表示,所述行为子序列集是所述行为序列集的子集;
从所述行为模式集中筛选出行为特征表示集,所述行为特征表示集包括所述样本用户帐号对应的普遍行为模式集和罕见行为模式集中的至少一种集合;
将所述行为特征表示集和所述标签作为所述样本用户帐号对应的样本对,对所述机器学习模型进行训练,得到训练后的机器学习模型。
根据本申请的另一方面,提供了一种用户帐号的检测方法,所述方法包括:
获取所述用户帐号对应的检测行为序列集,所述检测行为序列集包括所述用户帐号执行的按照时间排序多个行为事件;
从所述检测行为序列集中提取所述用户帐号的检测行为模式集,所述检测行为模式集采用检测行为子序列集表示,所述检测行为子序列集是所述检测行为序列集的子集;
根据所述检测行为模式集得到检测特征表示集,所述检测特征表示集包括所述用户帐号对应的普遍行为模式集和罕见行为模式集中的至少一种集合;
将所述检测特征表示集输入至训练后的机器学习模型中,得到所述用户帐号属于恶意用户帐号的概率。
根据本申请的另一方面,提供了一种机器学习模型的训练装置,所述装置包括:
第一获取模块,用于获取样本用户帐号对应的行为序列集,所述行为序列集包括所述样本用户帐号执行的按照时间排序的多个行为事件,所述样本用户帐号对应有标签;
第一提取模块,用于根据自定义的行为模式筛选条件从所述行为序列集中,提取所述样本用户帐号的行为模式集,所述行为模式集采用行为子序列集表示,所述行为子序列集是所述行为序列集的子集;
第一筛选模块,用于从所述行为模式集中筛选出行为特征表示集,所述行为特征表示集包括所述样本用户帐号对应的普遍行为模式集和罕见行为模式集中的至少一种集合;
训练模块,用于将所述行为特征表示集和所述标签作为所述样本用户帐号对应的样本对,对所述机器学习模型进行训练,得到训练后的机器学习模型。
根据本申请的另一方面,提供了一种用户帐号的检测装置,所述装置包括:
第二获取模块,用于所述获取用户帐号对应的检测行为序列集,所述检测行为序列集包括所述用户帐号执行的行为事件;
第二提取模块,用于从所述检测行为序列集中提取所述用户帐号的检测行为模式集,所述检测行为模式集采用检测行为子序列集表示,所述检测行为子序列集是所述检测行为序列集的子集;
第二筛选模块,用于根据所述检测行为模式集得到检测特征表示集,所述检测特征表示集包括所述用户帐号对应的普遍行为模式集和罕见行为模式集中的至少一种集合;
判定模块,用于将所述检测特征表示集输入至所述训练后的机器学习模型中,得到所述用户帐号属于恶意用户帐号的概率。
根据本申请的另一方面,提供了一种计算机设备,所述计算机设备包括:处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述的机器学习模型的训练方法和用户帐号的检测方法。
根据本申请的另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上方面所述的机器学习模型的训练方法和用户帐号的检测方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过从行为模式集中筛选出行为特征表示集,将行为特征表示集作为机器学习模型的输入,机器学习模型基于用户帐号在各个行为模式上的分布情况进行训练。使得恶意用户难以预测罕见行为模式,即使恶意用户预测到了罕见行为模式,也难以规避基于本申请提供的方法所训练的机器学习模型对恶意用户帐号的识别,从而提升了机器学习模型的训练效果,使得训练后的机器学习模型能够准确地对恶意用户帐号进行检测。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的计算机系统的框图;
图2是本申请一个示例性实施例提供的恶意帐号检测系统的结构图;
图3是本申请一个示例性实施例提供的机器学习模型的训练方法的流程图;
图4是本申请另一个示例性实施例提供的机器学习模型的训练方法的流程图;
图5是本申请一个示例性实施例提供的行为序列集和行为模式集的关系示意图;
图6是本申请一个示例性实施例提供的用户帐号的检测方法的流程图;
图7是本申请另一个示例性实施例提供的恶意帐号检测系统的结构图;
图8是本申请一个示例性实施例提供的机器学习模型的训练装置的框图;
图9是本申请一个示例性实施例提供的用户帐号的检测装置的框图;
图10是本申请一个示例性实施例提供的服务器的装置结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,对本申请实施例中涉及的名词进行介绍:
行为序列:是指时间维度上按照一定顺序发生的若干行为事件组成的序列。在本申请实施例中是行为事件由用户帐号执行。比如,用户进入一个网站,在一段时间内依次进行了搜索操作、输入操作和返回操作,将这三个操作记录为该用户(用户帐号)的行为序列。行为序列集是由多个行为序列组成的集合,比如,同一用户帐号的多个行为序列组成的集合,或多个用帐号的行为序列组成的集合。
行为模式:是指满足行为筛选条件的行为子序列,即行为模式是行为序列的子集。行为模式集是指多个行为模式组成的集合,比如,“连续执行登录事件”为一种行为模式。
表征行为模式:是指从行为模式中筛选出的具有代表性的行为序列,即表征行为模式是行为模式的子集,表征行为模式包括普遍行为模式和罕见行为模式,普遍行为模式是大部分用户(用户帐号)执行的行为事件,罕见行为模式为少部分甚至极少部分用户(用户帐号)执行的行为事件。表征行为模式集是指多个表征行为模式组成的集合。
表征投影矩阵:是指由表征行为模式集合用户帐号的对应关系所形成的矩阵,表征投影矩阵是0-1矩阵。示意性的,表征投影矩阵是N行M列的矩阵,每一行代表每个用户帐号对应的表征行为序列,每一列代表所有用户帐号的对应的表征行为。如在该矩阵第i行第j列的数值为0,说明第i个用户帐号的行为序列中没有第j个表征行为序列;在该矩阵第i行第j列的数值为1,则第i个用户帐号的行为序列中有第j个表征行为序列。
云技术(Cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。本申请实施例中将各个类型的标签用户帐号的行为序列集上传至云服务器中,保证机器学习模型具有大量且丰富的训练样本。
云安全(Cloud Security)是指基于云计算商业模式应用的安全软件、硬件、用户、机构、安全云平台的总称。云安全融合了并行处理、网格计算、未知病毒行为判断等新兴技术和概念,通过网状的大量客户端对网络中软件行为的异常监测,获取互联网中木马、恶意程序的最新信息,并发送到服务端进行自动分析和处理,再把病毒和木马的解决方案分发到每一个客户端。本申请实施例中将机器学习模型与云安全技术结合,通过对恶意用户帐号的预测,保证网络环境中其他用户的帐号安全。
云安全主要包括:1.云计算安全,如何保障云自身及云上各种应用的安全,包括云计算机系统安全、用户数据的安全存储与隔离、用户接入认证、信息传输安全、网络攻击防护、合规审计等;2.安全基础设施的云化,如何采用云计算新建与整合安全基础设施资源,优化安全防护机制,包括通过云计算技术构建超大规模安全事件、信息采集与处理平台,实现对海量信息的采集与关联分析,提升全网安全事件把控能力及风险控制能力;3.云安全服务,各种基于云计算平台为用户提供的安全服务,如防病毒服务等。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。本申请实施例通过对机器学习模型进行训练,使得训练后的机器学习模型能够对恶意用户帐号进行预测。
本申请实施例提供的方案涉及机器学习模型的训练方法,通过如下实施例进行说明。
图1示出了本申请一个示例性实施例提供的计算机系统的结构框图。该计算机系统100包括:第一终端110、服务器120、第二终端130。
第一终端110安装和运行有第一客户端111,该第一客户端111包括社交客户端、购物客户端、直播客户端、二手交易客户端、音视频客户端、教育客户端等。第一终端110是第一用户使用的终端,当第一终端110运行第一客户端111时,第一用户通过第一客户端111进行各类活动,如转账交易、在线购物、浏览信息、聊天通讯等。在一些实施例中,第一用户在进行活动之前需要在第一客户端111上登录该客户端对应的用户帐号。该用户帐号是用户以个人信息在该客户端上注册的帐号,比如,以第一用户的手机号,或身份证号码,或邮箱地址等信息进行注册的帐号。用户帐号管理该用户在第一客户端111上一切行为事件。示意性的,第一客户端111是购物客户端,第一用户在该购物客户端上购买了一件商品,则第一用户的用户帐号记录下购买订单、交易时间、物流信息等。
第二终端130安装和运行有第二客户端131,该第二客户端131包括社交客户端、购物客户端、直播客户端、二手交易客户端、音视频客户端、教育客户端等。第二终端130是第二用户使用的终端,当第二终端130运行第二客户端131时,第二用户通过第二客户端131进行各类活动,如转账交易、在线购物、浏览信息、聊天通讯等。第一客户端111和第三客户端131是同一类型的客户端,或不同操作系统(安卓或IOS)上的客户端,或不同的客户端。
第一终端110泛指多个终端中的一个,第二终端130泛指多个终端中的另一个,本实施例仅以第一终端110和第二终端130来举例说明。第一终端110和第二终端130的设备类型相同或不同,该设备类型包括:智能手机、平板电脑、电子书阅读器、MP3播放器、MP4播放器、智能手表、膝上型便携计算机和台式计算机中的至少一种。
图1中仅示出了两个终端,但在不同实施例中存在多个其它终端140接入服务器120。在一些实施例中,还存在一个或多个终端140是开发者对应的终端,在终端140上安装和运行有客户端的开发和编辑平台,开发者可在终端140上对客户端进行编辑和更新,并将更新后的客户端的安装包通过有线或无线网络传输至服务器120,第一终端110和第二终端130可从服务器120下载客户端安装包实现对客户端的更新。示意性的,开发者通过终端140定义行为模式语法,行为模式语法是指用于定义满足一定条件的行为序列的机器语言,比如表示函数的代码。
第一终端110、第二终端130以及其它终端140通过无线网络或有线网络与服务器120相连。
服务器120包括独立的物理服务器,或多个物理服务器构成的服务器集群或分布式系统。在一些实施例中,服务器120是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器120用于为客户端提供后台服务。字啊一些实施例中,服务器120承担主要计算工作,终端承担次要计算工作;或者,服务器120承担次要计算工作,终端承担主要计算工作;或者,服务器120和终端之间采用分布式计算架构进行协同计算。
在一个示例中,服务器120包括处理器122、用户帐号数据库123、恶意帐号检测系统124、面向用户的输入/输出接口(Input/Output Interface,I/O接口)125。其中,处理器122用于加载服务器121中存储的指令,处理用户帐号数据库123和恶意帐号检测系统124中的数据;用户帐号数据库123用于存储第一终端110、第二终端130以及其它终端140所使用的用户帐号的数据,比如用户帐号的头像、用户帐号的昵称、用户帐号执行的行为事件等;恶意帐号检测系统124用于根据用户帐号对应的行为事件,检测该用户帐号是否为恶意用户帐号,并对恶意用户帐号进行封号处理或警告处理等操作,比如,检测到的用户帐号1为恶意用户帐号,对该用户帐号进行永久封号处理,则用户帐号1不能在对应的客户端中继续使用;面向用户的I/O接口125用于通过无线网络或有线网络和第一终端110和/或第二终端130建立通信交换数据。
图2示出了本申请一个示例性实施例提供的恶意帐号检测系统的示意图。恶意帐号检测系统200包括预处理模块201和机器学习模型202。
终端21是用户使用的终端,终端21记录该用户的用户帐号对应的行为事件,生成用户帐号的行为序列或行为序列集。
恶意帐号检测系统200预先设置有自定义的行为模式语法,行为模式语法是指用于定义满足一定条件的行为模式的机器语言,比如,表示“执行过A行为事件”的机器语言、“连续n次执行A行为事件”的机器语言、“在T1时刻和T2时刻连续n次执行A行为事件”的机器语言,行为模式是指用户帐号的行为序列的子序列,行为模式包括与行为事件的属性有关的变量。示意性的,变量A表示行为事件的类型、变量n表示行为事件的执行次数、变量T表示行为事件的执行时间。预处理模块201根据自定义的行为模式语法生成行为模式。
在一些实施例中,终端21是管理人员或开发者对应的终端,管理人员或开发者通过终端21为恶意帐号检测系统200预先设置自定义的行为模式语法。在另一些实施例中,管理人员或开发者通过终端21为恶意检测帐号系统200预先设置自定义的行为模式语法(在该语法下的行为模式中的变量是未定义取值的变量),管理人员或开发者还通过终端21将变量的取值集合输入至恶意帐号检测系统200中,预处理模块201结合自定义的行为模式语法和每个变量的取值集合,生成更多的行为模式。
预处理模块201根据行为模式对用户帐号的行为序列进行筛选,筛选出普遍行为模式和罕见行为模式。普遍行为模式是指满足第一比例的用户帐号共享的行为模式,即针对大部分用户帐号共享的行为模式。罕见行为模式是指满足第二比例的用户帐号共享的行为模式,即针对于少部分或极少部分用户帐号共享的行为模式。其中,第一比例大于第二比例。筛选出的普遍行为模式和罕见行为模式组成表征行为模式,表征行为模式是指用户帐号的行为模式集中具有代表性的行为模式。
预处理模块201将表征行为模式转换为机器学习模型202能够处理的数据形式,示意性的,将表征行为模式转换为表征投影矩阵。比如,存在N个用户帐号和M个表征行为模式,对N个用户帐号进行排序(1,…,N),对M个表征行为模式进行排序(1,…,M),形成N行M列的0-1矩阵。该0-1矩阵为表征投影矩阵。
将表征投影矩阵输入至机器学习模型202中,以此来训练机器学习模型202,得到训练后的机器学习模型202。
在一些实施例中,终端21是用户使用的终端,在终端21上运行有客户端,该客户端登录有用户帐号a,终端21将用户帐号a对应的行为序列发送至恶意帐号检测系统200,通过预处理模块201根据用户帐号a的行为序列得到用户帐号a对应的表征行为模式,并将表征行为模式转换为表征投影矩阵,将表征投影矩阵输入至训练后的机器学习模型202,得到关于该用户帐号a属于恶意用户帐号的预测概率,从而根据预测概率可判断该用户帐号a是否属于恶意用户帐号。
在一些实施例中,恶意帐号检测系统200还包括分类依据模块203,分类依据模块203用于当用户帐号属于恶意用户帐号时,为恶意用户帐号的判定提供判定理由。示意性的,管理人员在定义行为模式语法时,可对每种行为模式语法进行注释,将注释作为恶意判定的理由。
图3示出了本申请一个示例性实施例提供的机器学习模型的训练方法的流程图,该方法可应用于如图1所示的计算机系统100中的服务器120中。该方法包括如下步骤:
步骤301,获取样本用户帐号对应的行为序列集,行为序列集包括样本用户帐号执行的按照时间排序的多个行为事件,样本用户帐号对应有标签。
行为序列集是指由多个行为序列组成的集合。示意性的,行为序列集是多个用户帐号对应的行为序列所组成的集合,或行为序列集是一个用户帐号对应的多个行为序列所组成的集合。行为序列是指用户帐号执行的行为事件在时间维度的按照顺序排列成的序列。比如,用户登录客户端后,依次进行了评论操作、转发操作和收藏操作,则行为序列为登录事件、评论事件、转发事件和收藏事件所组成的序列。
示意性的,行为序列集是由用户使用的终端记录的,终端是如图1所示的计算进系统100中的终端21。终端在记录用户执行的行为事件时,还记录该行为事件的执行时间。用户的行为序列与用户帐号一一对应。
标签是指用于对用户帐号进行分类的标注,本申请实施例中的标签用于标注用户帐号的属性,即标注用户帐号属于正常帐号或属于恶意用户帐号。示意性的,当标签在数值上为0时,用户帐号属于正常帐号;当标签在数值上为1时,用户帐号属于恶意用户帐号。
步骤302,根据自定义的行为模式筛选条件从行为序列集中,提取样本用户帐号的行为模式集,行为模式集采用行为子序列集表示,行为子序列集是行为序列集的子集。
该自定义的行为模式筛选条件是构建如图2所示的恶意帐号检测系统200时预先设置的。示意性的,该行为模式的筛选条件由行为模式语法确定,行为模式语法是用于定义满足一定条件的行为序列的机器语言,比如,表示函数的代码。
示意性的,行为模式筛选条件是满足“连续执行n次A行为事件”,即服务器从样本用户帐号的行为序列集中提取出满足该行为模式筛选条件的行为模式集。行为模式集是指行为模式组成的集合。本申请实施例中以行为子序列表示行为模式,即行为模式集为行为序列的子集。
行为模式包括与行为事件的属性有关的变量,比如,行为模式是“连续执行n次A行为事件”,n和A均为变量,n表示行为事件的执行次数,A表示行为事件的类型。
可以理解的是,步骤302可以由如图2所示的预处理模块201执行。
步骤303,从行为模式集中筛选出行为特征表示集,行为特征表示集包括样本用户帐号对应的普遍行为模式集和罕见行为模式集中的至少一种集合。
服务器从行为模式集中筛选出具有代表性的行为模式作为行为特征表示集。普遍行为模式集是指在所有样本用户帐号中占据第一比例的用户帐号共享的行为模式的集合;罕见行为模式集是指在所有样本用户帐号中占据第二比例的用户帐号共享的行为模式的集合,其中,第一比例大于第二比例。
在一些实施例中,行为特征表示集以向量的形式表示,或行为特征表示集以矩阵的形式表示。本申请实施例中,行为特征表示集以矩阵的形式表示。
可以理解的是,步骤303可以由如图2所示的预处理模块201执行。
步骤304,将行为特征表示集和标签作为所述样本用户帐号对应的样本对,对机器学习模型进行训练,得到训练后的机器学习模型。
将行为特征表示集和用户帐号对应的标签输入至机器学习模型中,机器学习模型输出与用户帐号属于恶意性帐号的预测概率。利用用户帐号对应的标签和预测概率之间的误差对机器学习模型进行训练,得到训练后的机器学习模型。
综上所述,本实施例提供的方法,通过从行为模式集中筛选出行为特征表示集,将行为特征表示集作为机器学习模型的输入,机器学习模型基于用户帐号在各个行为模式上的分布情况进行训练。使得恶意用户难以预测罕见行为模式,即使恶意用户预测到了罕见行为模式,也难以规避基于本实施例提供的方法所训练的机器学习模型对恶意用户帐号的识别,从而提升了机器学习模型的训练效果,使得训练后的机器学习模型能够准确地对恶意用户帐号进行检测。
图4示出了本申请另一个示例性实施例提供的机器学习模型的训练方法的流程图。该方法可应用于如图1所示的计算机系统100中的服务器120中,该方法包括如下步骤:
步骤401,获取样本用户帐号对应的行为序列集,行为序列集包括样本用户帐号执行的按照时间排序的多个行为事件,样本用户帐号对应有标签。
在一个示例中,获取10个样本用户帐号的行为序列集,10个样本用户帐号中包括5个正常用户帐号(标签为1)和5个恶意用户帐号(标签为0)。分别获取10个用户帐号的行为序列,形成样本用户帐号的行为序列集。示意性的,样本用户帐号执行的行为事件包括:登录客户端事件、转发信息事件、评论事件、点赞事件、发表信息事件、退出登录事件中的至少一种。
对于通过自定义的行为模式筛选条件提取行为模式集包括如下两种方式:1、直接利用行为模式语法定义出第一行为模式,利用第一行为模式提取行为模式集;2、结合行为模式语法和变量的取值集合生成第二行为模式,利用第二行为模式提取行为模式集。
对第一种方式进行说明:
步骤402a,获取第一行为模式,第一行为模式是由第一行为模式筛选条件确定的,第一行为模式包括已定义取值的第一变量,第一变量包括行为事件的类型、行为事件的执行次数和行为事件的执行时间中的至少一种。
第一行为模式筛选条件是由第一行为模式语法确定的。示意性的,该第一行为模式语法定义的第一行为模式是“在T1时刻与T2时刻之间,连续执行n次A行为事件”。其中,T表示行为事件的执行时间,n表示行为事件的执行次数,A表示行为事件的类型。该第一行为模式语法对行为模式中的变量的取值已进行定义。
在一个示例中,恶意检测系统200根据第一行为模式筛选条件获取第一行为模式为“在一分钟内连续进行100次的执行转发事件”。在第一行为模式筛选条件下得到的第一行为模式中包括与行为事件的属性有关的变量,如行为事件的执行时间是一分钟,行为事件的执行次数是100次,行为事件的类型是转发事件。在第一行为模式中的变量的取值已定义。
步骤403a,从行为序列集中提取出与第一行为模式一致的行为序列,得到第一行为模式集。
示意性的,从行为序列集中提取出与行为模式“在T1时刻与T2时刻之间,连续执行n次A行为事件”一致的行为序列,该序列是第一行为模式集。
如图5所示,行为模式为行为序列集的子集,行为模式集为行为序列集的子集。
上述实施例中的第一行为模式泛指一个多个行为模式。从行为序列集中提取出的第一行为模式集泛指一个或多个行为模式集。
下面对第二种方式进行说明:
步骤402b,获取第二变量的取值集合,第二变量包括行为事件的类型、行为事件的执行次数和行为事件的执行时间中的至少一种。
第二变量是行为模式中的变量。在一些实施例中,第二变量的取值集合是由开发者或管理员在构建如图2所示的恶意帐号检测系统200时预先设置的。在另一些实施例中,第二变量的取值集合是在进行机器学习模型训练之前,需要用户(管理员或开发者)手动输入的,比如,在用户使用的终端上显示有输入控件,该输入控件用于用户输入第二变量的取值集合或取值范围。
步骤403b,根据第二行为模式筛选条件和第二变量的取值集合,生成第二行为模式。
示意性的,第二行为模式筛选条件是由第二行为模式语法确定的。示意性的,该第二行为模式语法定义的行为模式a是“连续执行行为事件”。该行为模式a相当于第二行为模式的框架。在一些实施例中,该行为模式a不包括第二变量,或该行为模式a包括未定义取值的第二变量。第一行为模式语法与第二行为模式语法是不同类型的语法,或相同类型下的不同语法。
恶意帐号检测系统200根据第二行为模式筛选条件(相当于给定第二行为模式的框架)和第二变量的取值集合生成第二行为模式。示意性的,第二行为模式是“连续执行m次B行为事件”。其中,m表示行为事件的执行次数,B表示行为事件的类型。
在一些实施例中,第二行为模式筛选条件是预先设定的,用户只需通过终端输入第二变量的取值集合,恶意帐号检测系统即可自动生成第二行为模式。
在一个示例中,恶意检测系统200根据第二行为模式筛选条件生成第二行为模式的框架,该第二行为模式的框架为“在T时间段内执行发布信息事件N次”,其中N表示与行为事件相关的属性对应的变量,即表示行为事件的执行次数,T表示与行为事件相关的属性对应的变量,即表示行为事件的执行时间,该变量N和变量T均未定义取值。当恶意检测系统200获取到第二变量取值的集合时,结合第二行为模式的框架生成第二行为模式。比如,N的取值范围为100(次)至300(次)之间,T的取值范围为60(秒)至90(秒)则恶意检测系统根据两个变量的取值范围排列组合生成多个行为模式:“连续60秒内执行发布信息事件100次”、“连续80秒内执行发布信息事件150次”、“连续75秒内执行发布信息事件260次”等。
在另一个示例中,恶意检测系统200根据第二行为模式筛选条件生成第二行为模式的框架,该第二行为模式的框架为“执行发布信息事件”,管理人员可对框架中可能存在的变量进行定义,比如定义执行时间对应的变量、定义执行次数对应的变量等。
步骤404b,从行为序列集中提取出与第二行为模式一致的行为序列,得到第二行为模式集。
与步骤403a的执行方式一致。从行为序列集中提取出与第二行为模式“连续执行m次B行为事件”一致的行为序列,该序列是第二行为模式集。
上述实施例中的第二行为模式泛指一个多个行为模式。从行为序列集中提取出的第二行为模式集泛指一个或多个行为模式集。
可以理解的是,上述步骤402a至步骤404b由如图2所示的恶意帐号检测系统中的预处理模块201执行。
上述两种确定行为模式集的方式可分别单独实施,或组合实施。
行为特征表示集是行为模式集的子集。
步骤405,根据第一范围从行为模式集中筛选出普遍行为模式集,普遍行为模式集是响应于第一用户帐号与样本用户帐号满足第一比例时,第一用户帐号共享的行为模式集。
第一范围是指筛选普遍行为模式集时使用的范围,该范围是指共享某种行为模式的用户帐号所占总体用户帐号的比例对应的范围。
响应于第一用户帐号与样本用户帐号的第一比例满足第一范围,将第一用户帐号共享的行为模式集作为普遍行为模式集。
普遍行为模式针对的是正常用户帐号,普遍行为模式被大部分用户帐号共享。第一范围的下限取值一般高于50%,为了避免行为模式被几乎所有的用户共享(如行为模式为“执行登录事件”),需要对第一范围的上限进行限定,一般将上限限定为80%至90%。
示意性的,第一范围是c1至c2,第一用户帐号与样本用户帐号的比例在c1至c2之间,第一用户帐号共享的行为模式是“每天执行打卡行为事件”。将该共享该行为模式作为普遍行为模式集。
步骤406,根据第二范围从行为模式集中筛选出罕见行为模式集,罕见行为模式集是响应于第二用户帐号与样本用户帐号满足第二比例时,第二用户帐号共享的行为模式集,第一比例大于第二比例。
响应于第二用户帐号与样本用户帐号的第二比例满足第二范围,将第二用户帐号共享的行为模式集作为罕见行为模式集。
罕见行为模式针对的是异常用户帐号,异常行为模式被少部分甚至极少部分用户帐号共享。第二范围的上限值一般远低于50%,为了排除某些限制过强的行为模式(该行为模式仅对应少数几个用户帐号),需要对第二范围的下限进行限定,一般将下限限定为0.1%至1%。
示意性的,第二范围是r1至r2,第二用户帐号与样本用户帐号的比例在r1至r2之间,第二用户帐号共享的行为模式是“1分钟内连续执行100次转发事件”。将该共享行为模式作为罕见行为模式。
步骤407,将普遍行为模式集和罕见行为模式集中的至少一种,作为行为特征表示集。
行为特征表示集是如图5所示的表征行为模式集,表征行为模式是行为模式的子集,表征行为模式集是行为模式集的子集。表征行为模式集包括普遍行为模式集和罕见行为模式集,即普遍行为模式集是表征行为模式集的子集,罕见行为模式集是表征行为模式集的子集。行为特征表示集表示用户帐号具有代表性的行为模式。
在一些实施例中,行为特征表示集以向量的形式表示,或行为特征表示集以矩阵的形式表示。本申请实施例以矩阵的形式表示行为特征表示集为例进行说明。
可以理解的是,上述步骤405也可由如图2所示的恶意帐号检测系统中的预处理模块201执行。
步骤408,将行为特征表示集和标签作为样本用户帐号对应的样本对,对机器学习模型进行训练,得到训练后的机器学习模型。
示意性的,根据表征行为模式和对应的用户帐号(含有标签)建立表征投影矩阵。存在N个用户帐号和M个表征行为模式,对N个用户帐号进行排序(1,…,N),对M个表征行为模式进行排序(1,…,M),形成N行M列的表征投影矩阵。该表征投影矩阵为0-1矩阵,当表征投影矩阵的第i行第j列为0时,说明第i个用户的行为模式集中没有第j个表征行为模式;反之当表征投影矩阵的第i行第j列为1时,说明第i个用户的行为模式集中有第j个表征行为模式。
将表征投影矩阵(行为特征表示集和标签)作为样本输入至机器学习模型中,得到样本用户帐号属于恶意用户帐号的预测概率,计算标签与预测概率之间的误差,根据误差训练机器学习模型,得到训练后的机器学习模型。其中,利用误差损失函数计算标签与预测概率之间的误差。本申请实施例对误差损失函数不加以限定。
示意性的,机器学习模型是分类器模型,比如,决策树模型、随机森林模型、XGBoost模型(极值梯度提升算法,eXtreme Gradient Boosting)等。
综上所述,本实施例提供的方法,通过第一范围和第二范围分别从行为序列集中筛选出普遍行为模式集和罕见行为模式列集,将普遍行为模式集和罕见行为模式集中的至少一种作为行为特征表示集输入至机器学习模型中,机器学习模型基于用户帐号在至少一种行为模式上的分布情况进行训练。使得恶意用户难以预测罕见行为模式,即使恶意用户预测到了罕见行为模式,也难以规避基于本申请提供的方法所训练的机器学习模型对恶意用户帐号的识别,从而提升了机器学习模型的训练效果,使得训练后的机器学习模型能够准确地对恶意用户帐号进行检测。
通过自定义的行为模式的筛选条件对样本用户帐号的行为序列集进行行为模式的提取,在样本的选择上,从更具体的行为模式上进行行为特征表示集的筛选,使得机器学习模型能够从多种维度更加细致地刻画用户的行为,提升了机器学习模型的训练效果,使得训练后的机器学习模型能够准确地对恶意用户帐号进行检测。
通过直接或间接的方式确定行为模式,进一步从行为序列集中提取行为模式集,为提取行为模式集提供了更多的选择,从而保证机器学习模型在训练时的准确性和多样性。
通过上述实施例提供的机器学习模型的训练方法得到训练后的机器学习模型,下面对训练后的机器学习模型的进行用户帐号的检测方法进行说明。
图6示出了本申请一个示例性实施例提供的用户帐号的检测方法的流程图,该方法应用于如上述实施例中涉及的训练后的机器学习模型中,该方法包括如下步骤:
步骤601,获取用户帐号对应的检测行为序列集,检测行为序列集包括用户帐号执行的按照时间排序的多个行为事件。
与训练机器学习模型的方式一致,同样需要获取待检测的用户帐号的行为序列集,将该行为序列集作为检测行为序列集,检测行为序列集中包括待检测的用户帐号执行的,在时间维度上按照排序的行为事件所组成的序列。
步骤602,从检测行为序列集中提取用户帐号的检测行为模式集,检测行为模式集采用检测行为子序列集表示,检测行为子序列集是检测行为序列集的子集。
与训练机器学习模型的方式一致,利用自定义的行为模式筛选条件提取检测行为序列集中的检测行为模式集,检测行为模式集是检测行为序列集的子集。检测行为模式集是如图7所示的测试用户的行为模式集。
步骤603,从检测行为模式集中筛选出检测特征表示集,检测特征表示集包括用户帐号对应的普遍行为模式集和罕见行为模式集中的至少一种集合。
步骤602和步骤603由如图2所示的恶意帐号检测系统200中的预处理模块执行。
在一些实施例中,检测特征表示集是通过如下方式得到的:从用户帐号的检测行为模式集中提取出与表征行为模式集(即行为特征表示集,是机器学习模型进行训练时使用的集合)一致的行为模式,将提取出的行为模式组成用户帐号的表征行为模式集输入至训练后的机器学习模型中。示意性的,机器学习模型是分类器模型。
步骤604,将检测特征表示集输入至训练后的机器学习模型中,得到用户帐号属于恶意用户帐号的概率。
示意性的,将检测特征表示集采用表征投影矩阵表示,该表征投影矩阵用于表示用户帐号与检测特征表示集之间的对应关系,该表征投影矩阵是0-1矩阵。
将表征投影矩阵输入至训练后的机器学习模型中,得到用户帐号属于恶意用户帐号的概率。在一些实施例中,对概率设置有概率阈值,如概率阈值为0.85,训练后的机器学习模型输出用户帐号属于恶意用户帐号的概率是0.88,大于概率阈值,则该用户帐号属于恶意用户帐号。
综上所述,本实施例提供的方法,在机器学习模型的实际使用过程中,通过将检测特征表示集阵输入至训练后的机器学习模型中,对用户帐号进行检测,根据概率判定该用户帐号是否属于恶意用户帐号,训练后的机器学习模型能够准确对恶意用户帐号进行识别。
基于图6所示的可选实施例中,还包括判定恶意用户帐号时输出判定理由的过程:
步骤605,获取检测特征表示集对应的注释,以及训练后的机器学习模型对应的特征相关性,注释用于表示表征行为模式的含义,特征相关性用于表示行为事件的特征对概率的影响程度。
在一些实施例中,管理员在定义行为模式语法时,对每个行为模式进行注释。示意性的,对于行为模式为“连续n次执行行为事件A”,其注释为:执行行为事件A过于频繁。
训练后的机器学习模型会生成表征行为模式中每个行为模式对输出的概率的影响程度,该影响程度以特征相关性表示。
步骤606,根据注释和特征相关性,输出用户帐号属于恶意用户帐号时的判定理由。
步骤606还可替换为如下步骤:
步骤6061,根据特征相关性对检测特征表示集中的表征行为模式进行排序,得到表征行为模式的排序结果,表征行为模式对应有注释。
机器学习模型根据特征相关性进行排序,比如,具有“连续执行”的特征的特征相关性为0.8,具有“执行A行为事件”的特征的特征相关性为0.6,则具有“连续执行”的特征排在具有“执行A行为事件”的特征之前。
步骤6062,根据排序结果,将特征相关性最大的表征行为模式对应的注释作为判定理由。
示意性的,将具有“连续执行”的特征对应的注释作为判定理由。
综上所述,本实施例提供的方法,通过特征相关性对表征行为模式进行排序,根据表征行为模式的排序结果,确定出用户帐号属于恶意用户帐号的判定理由,使得管理人员能够根据特征相关性综合最适合的判定理由,保证判定结果的公正性。
该流程应用于如图2所示的计算机系统100中的服务器102中。在服务器102中包括如图7所示的恶意帐号检测系统,其中,方框701与如图2所示的终端21执行的步骤对应,用于记录用户帐号的行为序列集。在一些实施例中,方框701还用于管理员或开发者自定义行为模式语法。方框702与如图2所示的预处理模块201执行的步骤对应,用于从用户帐号的行为序列集中提取出行为模式集,从行为模式集中筛选出表征行为模式(行为特征表示集),以及表征投影矩阵的转换。方框703与如图2所示的机器学习模型202执行的步骤对应,用于将表征行为模式和标签(如表征投影矩阵)输入至机器学习模型中进行训练,训练后的机器学习模型用于输出户帐号属于恶意帐号的概率704。在一些实施例中,恶意帐号检测系统在输出用户属于恶意帐号的概率的同时,还输出恶意判定的理由。
在一个示例中,机器学习模型的训练方法包括如下流程:
1、定义行为模式语法。
行为序列由时间维度上顺序发生的若干行为事件组成。每个行为事件包含若干信息,最基础的两个信息即行为事件发生的时间以及行为事件的类型,比如一个用户在2020年05月11日15时01分23秒登录一次客户端的行为就对应该时间点上的一个登录事件。通过分析用户帐号的行为序列中子序列的特征,能够推断用户帐号执行行为事件的意图。比如一个用户在某一日对应的行为序列中包含了数以千计的转发分享操作,则初步推断该用户有很大概率是恶意用户帐号,通过频繁的转发分享来推广其他帐号发送的或特定消息。
通过系统的管理员或开发者定义若干行为模式语法,该行为模式语法是指管理员预先设置定义满足一定条件的行为子序列的机器语言,如定义行为模式的函数对应的代码,比如,行为模式为“执行过A行为事件”的机器语言、行为模式为“在多于X个会话中执行过A行为事件”的机器语言、行为模式为“连续X次执行A行为事件”的机器语言、行为模式为“在T1时到T2时之间执行过X次行为事件”的机器语言等。其中,行为模式包括与行为事件的属性有关的变量。变量A表示行为事件的类型、变量X表示行为事件的数量以及变量T表示执行行为事件的时间。将样本用户帐号的行为序列集输入至恶意帐号检测系统的预处理模块201中,得到样本用户帐号对应的行为模式。
在一些实施例中,管理员在自定义行为模式语法时,该行为模式语法包括各个变量的取值集合,恶意帐号检测系统根据行为模式语法和各个变量的取值集合,自动生成更多的行为模式。根据行为模式从样本用户帐号的行为序列集中得到样本用户帐号的行为模式集。
2、选择表征行为模式。
在一些实施例中,恶意帐号检测系统根据不同的变量取值搭配,将生成大量的行为模式,若将大量的行为模式输入至机器学习模型中,将会增加机器学习模型的训练时间,因此,需要从大量的行为模式中筛选出一部分具有代表性的表征行为,形成表征行为模式集(行为特征表示集)。
本申请实施例通过从行为模式中筛选出普遍行为模式和罕见行为模式,以普遍行为模式和罕见行为模式形成表征行为模式集。筛选的过程如下:
普遍行为模式是正常用户或大部分用户共享的行为事件所形成的行为模式,恶意帐号检测系统设置有第一范围c1%~c2%,即行为模式被超过c1%并且少于c2%的用户帐号共享时,则该行为模式属于普遍行为模式。示意性的,c1%的取值一般高于50%。由于恶意帐号检测系统尝试所有可能的变量取值,某些行为模式对应的情况太普遍,几乎被所有用户帐号共享,比如,行为模式是“执行过登录行为”,因此需要对第一预设范围的上界进行限定。示意性的,c1%的取值一般为80%至90%。
同理,罕见行为模式对应的是被少部分甚至极少部分的用户帐号共享的行为模式,恶意帐号检测系统设置有第二范围r1%~r2%,即行为模式被超过r1%并且少于r2%的用户帐号共享时,则该行为模式属于罕见行为模式。示意性的,r2%的取值一般应远低于50%,如r2%的取值为20%。实际取值可以由管理员或开发者根据实际情况设定。由于恶意帐号检测系统为了排除某些限制过强的行为模式,该行为模式只对应少数用户,不具有一般性,因此需要对第二范围的下界进行限定。示意性的,c1%的取值一般为0.1%至1%。
3、训练机器学习模型。
将步骤2中的表征行为模式集转换为机器学习模型能够处理的形式,如将表征行为模式集转换为表征投影矩阵。示意性的,存在N个用户帐号,以及N个用户帐号对应的M个表征行为模式,对N个用户帐号进行编号(1,…,N),对M个表征行为模式进行编号(1,…,M),则将N个用户帐号和M个表征行为模式形成N行M列的0-1矩阵,该0-1矩阵为表征投影矩阵。示意性的,表征投影矩阵中的第i行第j列为0,则第i个用户的行为模式集中没有第j个表征行为模式;反之,表征投影矩阵中的第i行第j列为1,则第i个用户的行为模式集中有第j个表征行为模式。
将投影矩阵模型输入至机器学习模型中,以训练该机器学习模型。在一些实施例中,该机器学习模型是分类器模型,比如,决策树模型、随机森林模型或者XGBoost模型(极值梯度提升算法,eXtreme Gradient Boosting)。
在一个示例中,训练后的机器学习模型的应用流程如下:
训练后的机器学习模型用于对用户帐号进行预测。示意性的,将测试的用户帐号的行为序列集按照上述步骤1提取出该用户帐号的行为模式集,利用机器学习模型训练过程中使用的表征行为模式集1,从该用户帐号的行为模式集中筛选出与表征行为模式集1一致的行为模式,将筛选出的行为模式作为该用户帐号的表征行为模式集2,并将该表征行为模式集2转换为表征投影矩阵。将该表征投影矩阵输入至训练后的机器学习模型,训练后的机器学习模型输出测试的用户帐号属于恶意用户帐号的概率。
在一些实施例中,当训练后的机器学习模型检测到用户帐号属于恶意用户帐号时,恶意帐号检测系统自动生成分类依据,该分类依据是恶意帐号检测系统为管理员提供恶意判定的判定理由。示意性的,判定理由可由如下方式确定:
根据恶意帐号检测系统预先定义的行为模式语法和机器学习模型对应的特征相关性来生成判定理由。管理员在定义行为模式语法时,可为定义的每一条行为模式附加一个注释,将该注释作为判定理由。
根据特征相关性对表征行为模式集中的表征行为进行排序,当用户帐号的行为模式属于表征行为模式集,且该用户帐号属于恶意用户帐号时,将该表征行为对应的注释作为判定理由,反馈给管理员。
此外,由于用户的行为模式集规模太大,作为理由过于冗长,因此,也可通过一个预测结果为恶意用户帐号的用户帐号不具有哪些普遍行为模式或者具有哪些罕见行为模式来确定恶意判定的判定理由。
以下为本申请的装置实施例,对于装置实施例中未详细描述的细节,可以结合参考上述方法实施例中相应的记载,本文不再赘述。
图8示出了本申请的一个示例性实施例提供的机器学习模型的训练装置的结构示意图。该装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分,该装置包括:
第一获取模块810,用于获取样本用户帐号对应的行为序列集,行为序列集包括样本用户帐号执行的按照时间排序的多个行为事件,样本用户帐号对应有标签;
第一提取模块820,用于根据自定义的行为模式筛选条件从行为序列集中,提取样本用户帐号的行为模式集,行为模式集采用行为子序列集表示,行为子序列集是行为序列集的子集;
第一筛选模块830,用于从行为模式集中筛选出行为特征表示集,行为特征表示集包括样本用户帐号对应的普遍行为模式集和罕见行为模式集中的至少一种集合;
训练模块840,用于将行为特征表示集和标签作为样本用户帐号的样本对,对机器学习模型进行训练,得到训练后的机器学习模型。
在一个可选的实施例中,所述第一筛选模块830,用于根据第一范围从行为模式集中筛选出普遍行为模式集,普遍行为模式集是响应于第一用户帐号与样本用户帐号满足第一比例时,第一用户帐号共享的行为模式集;根据第二范围从行为模式集中筛选出罕见行为模式集,罕见行为模式集是响应于第二用户帐号与样本用户帐号满足第二比例时,第二用户帐号共享的行为模式集,第一比例大于第二比例;将普遍行为模式集和罕见行为模式集作为行为特征表示集。
在一个可选的实施例中,所述第一筛选模块830,用于响应于第一比例满足第一范围,将第一用户帐号共享的行为模式集作为普遍行为模式集;所述第一筛选模块830,用于响应于第二比例满足第二范围,将第二用户帐号共享的行为模式集作为罕见行为模式集。
在一个可选的实施例中,所述第一获取模块810,用于获取第一行为模式,第一行为模式是由第一行为模式筛选条件确定的,第一行为模式包括已定义取值的第一变量,第一变量包括行为事件的类型、行为事件的执行次数和行为事件的执行时间中的至少一种;所述第一提取模块820,用于从行为序列集中提取出与第一行为模式一致的行为序列,得到第一行为模式集。
在一个可选的实施例中,所述第一获取模块810,用于获取第二变量的取值集合,第二变量包括行为事件的类型、行为事件的执行次数和行为事件的执行时间中的至少一种;根据第二行为模式筛选条件和第二变量的取值集合,生成第二行为模式;所述第一提取模块820,用于从行为序列集中提取出与第二行为模式一致的行为序列,得到第二行为模式集。
在一个可选的实施例中,所述训练模块840,用于将行为特征表示集和标签输入至机器学习模型中,得到样本用户帐号属于恶意用户帐号的预测概率;计算标签与预测概率之间的误差;根据误差训练机器学习模型,得到训练后的机器学习模型。
图9出了本申请的一个示例性实施例提供的用户帐号的检测装置的结构示意图。该装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分,该装置包括:
第二获取模块910,用于获取用户帐号对应的检测行为序列集,检测行为序列集包括用户帐号执行的按照时间排序的多个行为事件;
第二提取模块920,用于从检测行为序列集中提取用户帐号的检测行为模式集,检测行为模式集采用检测行为子序列集表示,检测行为子序列集是检测行为序列集的子集;
第二筛选模块930,用于从检测行为模式集筛选出检测特征表示集,检测特征表示集包括用户帐号对应的普遍行为模式集和罕见行为模式集中的至少一种集合;
判定模块940,用于将检测特征表示集输入至训练后的机器学习模型中,得到用户帐号属于恶意用户帐号的概率。
在一个可选的实施例中,所述第二获取模块920,用于获取检测特征表示集对应的注释,以及训练后的机器学习模型对应的特征相关性,注释用于表示表征行为模式的含义,特征相关性用于表示行为事件的特征对概率的影响程度;所述判定模块940,用于根据注释和特征相关性,输出用户帐号属于恶意用户帐号时的判定理由。
在一个可选的实施例中,所述判定模块940,用于根据特征相关性对检测特征表示集中的表征行为模式进行排序,得到表征行为模式的排序结果,表征行为模式对应有注释;根据排序结果,将特征相关性最大的表征行为模式对应的注释作为判定理由。
图10示出了本申请一个示例性实施例提供的服务器的结构示意图。该服务器可以如图1所示的计算机系统100中的服务器120。具体来讲:
服务器1000包括中央处理单元(CPU,Central Processing Unit)1001、包括随机存取存储器(RAM,Random Access Memory)1002和只读存储器(ROM,Read Only Memory)1003的系统存储器1004,以及连接系统存储器1004和中央处理单元1001的系统总线1005。服务器1000还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统,Input Output System)1006,和用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1007。
基本输入/输出系统1006包括有用于显示信息的显示器1008和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中显示器1008和输入设备1009都通过连接到系统总线1005的输入输出控制器1010连接到中央处理单元1001。基本输入/输出系统1006还可以包括输入输出控制器1010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1010还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备1007通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。大容量存储设备1007及其相关联的计算机可读介质为服务器1000提供非易失性存储。也就是说,大容量存储设备1007可以包括诸如硬盘或者紧凑型光盘只读存储器(CD-ROM,Compact Disc Read Only Memory)驱动器之类的计算机可读介质(未示出)。
计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(EPROM,Erasable Programmable Read Only Memory)、带电可擦可编程只读存储器(EEPROM,Electrically Erasable Programmable Read Only Memory)、闪存或其他固态存储其技术,CD-ROM、数字通用光盘(DVD,Digital Versatile Disc)或固态硬盘(SSD,Solid State Drives)、其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1007可以统称为存储器。
根据本申请的各种实施例,服务器1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1000可以通过连接在系统总线1005上的网络接口单元1011连接到网络1012,或者说,也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。
在一个可选的实施例中,提供了一种计算机设备,该计算机设备包括处理器和存储器,存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上所述的机器学习模型的训练方法和用户帐号的检测方法。
在一个可选的实施例中,提供了一种计算机可读存储介质,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上所述的机器学习模型的训练方法和用户帐号的检测方法。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本申请实施例序号仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (12)

1.一种机器学习模型的训练方法,其特征在于,所述方法包括:
获取样本用户帐号对应的行为序列集,所述行为序列集包括所述样本用户帐号执行的按照时间排序的多个行为事件,所述样本用户帐号对应有标签;
根据自定义的行为模式筛选条件从所述行为序列集中,提取所述样本用户帐号的行为模式集,所述行为模式集采用行为子序列集表示,所述行为子序列集是所述行为序列集的子集;
根据第一范围从所述行为模式集中筛选出普遍行为模式集,所述普遍行为模式集是响应于第一用户帐号与所述样本用户帐号满足第一比例时,所述第一用户帐号共享的行为模式集,所述第一范围是指共享普遍行为模式的用户账号所占总体用户账号的范围;
根据第二范围从所述行为模式集中筛选出罕见行为模式集,所述罕见行为模式集是响应于第二用户帐号与所述样本用户帐号满足第二比例时,所述第二用户帐号共享的行为模式集,所述第一比例大于所述第二比例,所述第二范围是指共享罕见行为模式的用户账号所占所述总体用户账号的范围;
将提取出的所述普遍行为模式集和所述罕见行为模式集中的至少一种,作为行为特征表示集,所述行为特征表示集包括所述样本用户帐号对应的所述普遍行为模式集和所述罕见行为模式集中的至少一种集合;
将所述行为特征表示集和所述标签作为所述样本用户帐号对应的样本对,对所述机器学习模型进行训练,得到训练后的机器学习模型。
2.根据权利要求1所述的方法,其特征在于,
所述根据第一范围从所述行为模式集中筛选出所述普遍行为模式集,包括:
响应于所述第一比例满足所述第一范围,将所述第一用户帐号共享的行为模式集作为所述普遍行为模式集;
所述根据第二范围从所述行为模式集中筛选出所述罕见行为模式集,包括:
响应于所述第二比例满足所述第二范围,将所述第二用户帐号共享的行为模式集作为所述罕见行为模式集。
3.根据权利要求1或2所述的方法,其特征在于,所述根据自定义的行为模式筛选条件从所述行为序列集中,提取所述样本用户帐号的行为模式集,包括:
获取第一行为模式,所述第一行为模式是由第一行为模式筛选条件确定的,所述第一行为模式包括已定义取值的第一变量,所述第一变量包括所述行为事件的类型、所述行为事件的执行次数和所述行为事件的执行时间中的至少一种;
从所述行为序列集中提取出与所述第一行为模式一致的行为序列,得到所述第一行为模式集。
4.根据权利要求1或2所述的方法,其特征在于,所述根据自定义的行为模式筛选条件从所述行为序列集中,提取所述样本用户帐号的行为模式集,包括:
获取第二变量的取值集合,所述第二变量包括所述行为事件的类型、所述行为事件的执行次数和所述行为事件的执行时间中的至少一种;
根据第二行为模式筛选条件和所述第二变量的取值集合,生成第二行为模式;
从所述行为序列集中提取出与所述第二行为模式一致的行为序列,得到所述第二行为模式集。
5.根据权利要求1或2所述的方法,其特征在于,所述将所述行为特征表示集和所述标签作为所述样本用户帐号对应的样本对,对所述机器学习模型进行训练,得到训练后的机器学习模型,包括:
将所述行为特征表示集和所述标签输入至所述机器学习模型中,得到所述样本用户帐号属于恶意用户帐号的预测概率;
计算所述标签与所述预测概率之间的误差;
根据所述误差训练所述机器学习模型,得到所述训练后的机器学习模型。
6.一种用户帐号的检测方法,其特征在于,所述方法包括:
获取所述用户帐号对应的检测行为序列集,所述检测行为序列集包括所述用户帐号执行的按照时间排序的多个行为事件;
从所述检测行为序列集中提取所述用户帐号的检测行为模式集,所述检测行为模式集采用检测行为子序列集表示,所述检测行为子序列集是所述检测行为序列集的子集;
根据第一范围从所述检测行为模式集中筛选出普遍行为模式集,所述普遍行为模式集是响应于第一用户帐号与所述用户帐号满足第一比例时,所述第一用户帐号共享的行为模式集,所述第一范围是指共享普遍行为模式的用户账号所占总体用户账号的范围;
根据第二范围从所述检测行为模式集中筛选出罕见行为模式集,所述罕见行为模式集是响应于第二用户帐号与所述用户帐号满足第二比例时,所述第二用户帐号共享的行为模式集,所述第一比例大于所述第二比例,所述第二范围是指共享罕见行为模式的用户账号所占所述总体用户账号的范围;
将提取出的所述普遍行为模式集和所述罕见行为模式集中的至少一种,作为检测特征表示集,所述检测特征表示集包括所述用户帐号对应的所述普遍行为模式集和所述罕见行为模式集中的至少一种集合;
将所述检测特征表示集输入至训练后的机器学习模型中,得到所述用户帐号属于恶意用户帐号的概率。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
获取所述检测特征表示集对应的注释,以及所述训练后的机器学习模型对应的特征相关性,所述注释用于表示表征行为模式的含义,所述特征相关性用于表示所述行为事件的特征对所述概率的影响程度;
根据所述注释和所述特征相关性,输出所述用户帐号属于所述恶意用户帐号时的判定理由。
8.根据权利要求7所述的方法,其特征在于,所述根据所述注释和所述特征相关性,输出所述用户帐号属于所述恶意用户帐号时的判定理由,包括:
根据所述特征相关性对所述检测特征表示集中的表征行为模式进行排序,得到所述表征行为模式的排序结果,所述表征行为模式对应有所述注释;
根据所述排序结果,将所述特征相关性最大的所述表征行为模式对应的注释作为所述判定理由。
9.一种机器学习模型的训练装置,其特征在于,所述装置包括:
第一获取模块,用于获取样本用户帐号对应的行为序列集,所述行为序列集包括所述样本用户帐号执行的按照时间排序的多个行为事件,所述样本用户帐号对应有标签;
第一提取模块,用于根据自定义的行为模式筛选条件从所述行为序列集中,提取所述样本用户帐号的行为模式集,所述行为模式集采用行为子序列集表示,所述行为子序列集是所述行为序列集的子集;
第一筛选模块,用于根据第一范围从所述行为模式集中筛选出普遍行为模式集,所述普遍行为模式集是响应于第一用户帐号与所述样本用户帐号满足第一比例时,所述第一用户帐号共享的行为模式集,所述第一范围是指共享普遍行为模式的用户账号所占总体用户账号的范围;
所述第一筛选模块,还用于根据第二范围从所述行为模式集中筛选出罕见行为模式集,所述罕见行为模式集是响应于第二用户帐号与所述样本用户帐号满足第二比例时,所述第二用户帐号共享的行为模式集,所述第一比例大于所述第二比例,所述第二范围是指共享罕见行为模式的用户账号所占所述总体用户账号的范围;
所述第一筛选模块,还用于将提取出的所述普遍行为模式集和所述罕见行为模式集中的至少一种,作为行为特征表示集,所述行为特征表示集包括所述样本用户帐号对应的所述普遍行为模式集和所述罕见行为模式集中的至少一种集合;
训练模块,用于将所述行为特征表示集和所述标签作为所述样本用户帐号对应的样本对,对所述机器学习模型进行训练,得到训练后的机器学习模型。
10.一种用户帐号的检测装置,其特征在于,所述装置包括:
第二获取模块,用于获取所述用户帐号对应的检测行为序列集,所述检测行为序列集包括所述用户帐号执行的按照时间排序的多个行为事件;
第二提取模块,用于从所述检测行为序列集中提取所述用户帐号的检测行为模式集,所述检测行为模式集采用检测行为子序列集表示,所述检测行为子序列集是所述检测行为序列集的子集;
第二筛选模块,用于根据第一范围从所述检测行为模式集中筛选出普遍行为模式集,所述普遍行为模式集是响应于第一用户帐号与所述用户帐号满足第一比例时,所述第一用户帐号共享的行为模式集,所述第一范围是指共享普遍行为模式的用户账号所占总体用户账号的范围;
所述第二筛选模块,还用于根据第二范围从所述检测行为模式集中筛选出罕见行为模式集,所述罕见行为模式集是响应于第二用户帐号与所述用户帐号满足第二比例时,所述第二用户帐号共享的行为模式集,所述第一比例大于所述第二比例,所述第二范围是指共享罕见行为模式的用户账号所占所述总体用户账号的范围;
所述第二筛选模块,还用于将提取出的所述普遍行为模式集和所述罕见行为模式集中的至少一种,作为检测特征表示集,所述检测特征表示集包括所述用户帐号对应的所述普遍行为模式集和所述罕见行为模式集中的至少一种集合;
判定模块,用于将所述检测特征表示集输入至训练后的机器学习模型中,得到所述用户帐号属于恶意用户帐号的概率。
11.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一段程序,所述程序由所述处理器加载并执行以实现如权利要求1至5任一项所述的机器学习模型的训练方法以及如权利要求6至8任一项所述的用户帐号的检测方法。
12.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一段程序,所述至少一段程序由处理器加载并执行,以实现如权利要求1至5任一项所述的机器学习模型的训练方法以及如权利要求6至8任一项所述的用户帐号的检测方法。
CN202010406635.7A 2020-05-14 2020-05-14 机器学习模型的训练方法、装置、设备及存储介质 Active CN111598159B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010406635.7A CN111598159B (zh) 2020-05-14 2020-05-14 机器学习模型的训练方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010406635.7A CN111598159B (zh) 2020-05-14 2020-05-14 机器学习模型的训练方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111598159A CN111598159A (zh) 2020-08-28
CN111598159B true CN111598159B (zh) 2024-04-26

Family

ID=72182768

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010406635.7A Active CN111598159B (zh) 2020-05-14 2020-05-14 机器学习模型的训练方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111598159B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017202006A1 (zh) * 2016-05-25 2017-11-30 腾讯科技(深圳)有限公司 数据处理方法和装置、计算机存储介质
CN107517251A (zh) * 2017-08-16 2017-12-26 北京小度信息科技有限公司 信息推送方法和装置
CN109345260A (zh) * 2018-10-09 2019-02-15 北京芯盾时代科技有限公司 一种欺诈检测模型训练方法和装置及欺诈检测方法和装置
CN109840793A (zh) * 2017-11-28 2019-06-04 广州腾讯科技有限公司 推广信息的推送方法和装置、存储介质、电子装置
CN110602248A (zh) * 2019-09-27 2019-12-20 腾讯科技(深圳)有限公司 异常行为信息的识别方法、系统、装置、设备及介质
CN111107096A (zh) * 2019-12-27 2020-05-05 杭州迪普科技股份有限公司 一种Web站点安全防护方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017202006A1 (zh) * 2016-05-25 2017-11-30 腾讯科技(深圳)有限公司 数据处理方法和装置、计算机存储介质
CN107517251A (zh) * 2017-08-16 2017-12-26 北京小度信息科技有限公司 信息推送方法和装置
CN109840793A (zh) * 2017-11-28 2019-06-04 广州腾讯科技有限公司 推广信息的推送方法和装置、存储介质、电子装置
CN109345260A (zh) * 2018-10-09 2019-02-15 北京芯盾时代科技有限公司 一种欺诈检测模型训练方法和装置及欺诈检测方法和装置
CN110602248A (zh) * 2019-09-27 2019-12-20 腾讯科技(深圳)有限公司 异常行为信息的识别方法、系统、装置、设备及介质
CN111107096A (zh) * 2019-12-27 2020-05-05 杭州迪普科技股份有限公司 一种Web站点安全防护方法及装置

Also Published As

Publication number Publication date
CN111598159A (zh) 2020-08-28

Similar Documents

Publication Publication Date Title
CN110399925B (zh) 账号的风险识别方法、装置及存储介质
CN112863683B (zh) 基于人工智能的病历质控方法、装置、计算机设备及存储介质
CN110442712B (zh) 风险的确定方法、装置、服务器和文本审理系统
WO2018235252A1 (ja) 分析装置、ログの分析方法及び記録媒体
US20160162794A1 (en) Decision tree data structures generated to determine metrics for child nodes
US20230388413A1 (en) Tool for annotating and reviewing audio conversations
CN113011889B (zh) 账号异常识别方法、系统、装置、设备及介质
US11568344B2 (en) Systems and methods for automated pattern detection in service tickets
CN112819024B (zh) 模型处理方法、用户数据处理方法及装置、计算机设备
CN114840869A (zh) 基于敏感度识别模型的数据敏感度识别方法及装置
CN115310510A (zh) 基于优化规则决策树的目标安全识别方法、装置及电子设备
CN110457603B (zh) 用户关系抽取方法、装置、电子设备及可读存储介质
CN110276183B (zh) 反向图灵验证方法及装置、存储介质、电子设备
CN111127057B (zh) 一种多维用户画像恢复方法
CN116662987A (zh) 业务系统监控方法、装置、计算机设备及存储介质
CN116934283A (zh) 一种员工权限配置方法、装置、设备及其存储介质
CN116629423A (zh) 用户行为预测方法、装置、设备及存储介质
CN111598159B (zh) 机器学习模型的训练方法、装置、设备及存储介质
CN111786991B (zh) 基于区块链的平台认证登录方法及相关装置
CN117172632B (zh) 一种企业异常行为检测方法、装置、设备及存储介质
CN117112415A (zh) 基于eda模型的业务流程监测方法及其相关设备
CN117520141A (zh) 基于人工智能的脚本推荐方法、装置、设备及存储介质
CN117194779A (zh) 基于人工智能的营销系统优化方法、装置及设备
CN116805270A (zh) 基于人工智能的检测方法、装置、计算机设备及存储介质
CN116976342A (zh) 文本事件抽取方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant