CN111177802A - 行为标记模型训练系统及方法 - Google Patents

行为标记模型训练系统及方法 Download PDF

Info

Publication number
CN111177802A
CN111177802A CN201811329151.6A CN201811329151A CN111177802A CN 111177802 A CN111177802 A CN 111177802A CN 201811329151 A CN201811329151 A CN 201811329151A CN 111177802 A CN111177802 A CN 111177802A
Authority
CN
China
Prior art keywords
data set
behavior
abnormal
mark
marking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811329151.6A
Other languages
English (en)
Other versions
CN111177802B (zh
Inventor
李俊贤
许银雄
利建宏
蔡宗宪
黄琼莹
孙明功
张宗铨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anjie Information Co Ltd
Original Assignee
Anjie Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anjie Information Co Ltd filed Critical Anjie Information Co Ltd
Priority to CN201811329151.6A priority Critical patent/CN111177802B/zh
Publication of CN111177802A publication Critical patent/CN111177802A/zh
Application granted granted Critical
Publication of CN111177802B publication Critical patent/CN111177802B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/70Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer
    • G06F21/71Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer to assure secure computing or processing of information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

本揭示提供一种行为标记模型训练系统及方法。特别是,处理单元输入训练数据组的每一笔至多个学习模块,以建立多个标记模型。处理单元还依据标记模型分别获取相应验证数据组数据的每一笔的多个第二标记信息,并产生相应验证数据组的每一笔的行为标记结果。处理单元由验证数据组的每一笔相应的行为标记结果以及第一标记信息获取标记变动幅度值,并判断当标记变动幅度值大于变动门槛值,依据行为标记结果更新验证数据组的每一笔对应的第一标记信息,交换训练数据组及验证数据组,并依据交换后的训练数据组重新建立标记模型。

Description

行为标记模型训练系统及方法
技术领域
本发明涉及一种信息处理技术,且尤其涉及一种行为标记模型训练方法及系统。
背景技术
在现今数字化、网络发达的时代,信息安全变成相当重要的议题。特别是,对于企业而言,由于公司内部文件涉及重要的营业秘密,数据的外流会导致公司无法恢复的损害,因此各公司无不积极采用严格的数据控管与防护措施。举例来说,设置存取人员的权限、在公司的内部网络与外部网络间设置防火墙等,以避免数据外流。
虽然如此,在员工执行各项业务的时候,必然需要存取机密数据。纵使采取了严谨的安全措施,设定了严格的存取标准,还是难保具有合法存取权限的有心员工窃取数据。因此,如何监控内部员工的异常登入行为为本领域技术人员所致力的课题。
发明内容
本发明提供一种行为标记模型训练系统及方法,通过训练可靠的标记模型,进而通过标记模型监控内部员工的异常登入。
在本发明一实施例中,行为标记模型训练系统具有输入单元、储存单元以及处理单元。输入单元接收已标记数据组。已标记数据组具有训练数据组以及验证数据组,且训练数据组的每一笔以及验证数据组的每一笔具有第一标记信息。储存单元储存多个学习模块。处理单元连接于输入单元与储存单元,分别输入训练数据组的每一笔至多个学习模块,以建立多个标记模型。处理单元还依据标记模型分别获取相应验证数据组数据的每一笔的多个第二标记信息,依据相应验证数据组的每一笔对应的第二标记信息,分别产生相应验证数据组的每一笔的行为标记结果。处理单元还由该验证数据组的每一笔相应的行为标记结果以及第一标记信息获取标记变动幅度值,并判断标记变动幅度值是否大于变动门槛值,且当标记变动幅度值大于该变动门槛值,依据行为标记结果更新验证数据组的每一笔对应的第一标记信息,交换训练数据组及验证数据组,并依据交换后的训练数据组重新建立标记模型。
在本发明一实施例中,行为标记模型训练方法具有下列步骤:接收已标记数据组,其中已标记数据组包括训练数据组以及验证数据组,且训练数据组的每一笔以及验证数据组的每一笔分别具有第一标记信息;分别输入训练数据组的每一笔至多个学习模块,以建立多个标记模型;依据标记模型分别获取相应验证数据组数据的每一笔的多个第二标记信息;依据相应验证数据组的每一笔对应的第二标记信息,分别产生相应验证数据组的每一笔的行为标记结果;由验证数据组的每一笔相应的行为标记结果以及第一标记信息获取标记变动幅度值,并判断标记变动幅度值是否大于变动门槛值;以及当标记变动幅度值大于变动门槛值,依据行为标记结果更新验证数据组的每一笔对应的第一标记信息,交换训练数据组及验证数据组,并依据交换后的训练数据组重新建立该些标记模型。
基于上述,本发明的行为标记模型训练方法及其系统通过建立标记模型,以自动地对使用者的登入记录进行标记。不仅如此,考量到标记模型的可靠度,本发明的行为标记模型训练方法及其系统会同时训练多个不同的标记模型,并在标记内容冲突时,通过多数决的方式进而标记使用者的登入记录,以重新调整训练标记模型。藉此,行为标记模型训练方法及其系统能够提升标记模型的可靠度。而通过标记模型,使用者的登入记录可以被自动地观察分析,并进一步找出可能的异常登入行为。
为让本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合所附附图作详细说明如下。
附图说明
图1示出本发明一实施例的行为标记模型训练系统的示意图。
图2示出本发明一实施例行为模型训练方法的流程图。
图3示出本发明一实施例行为模型训练方法的细部流程图。
图4示出本发明一实施例行为模型训练方法的流程图。
图5示出本发明一实施例行为模型训练方法的流程图。
【符号说明】
100:行为标记模型训练系统
110:输入单元
120:储存单元
122:初始学习模块
124:初始标记模型
126:学习模块
128:标记模型
130:处理单元
S210~S280、S310~S380、S410~S430、S510~S540:步骤
具体实施方式
为了监控内部员工恶意存取数据的行为,在管理系统中多半会记录使用者的登入记录,例如但不限于,记录使用者的身份、登入时间以及其对应的网际网络地址。然而,管理系统记载着每个使用者的每一笔登入记录,数据量相当庞大。倘若采用人工判断使用者的异常行为,不仅难以判读正常与异常的情形,且也耗费相当多的人力。基于此,本发明提供了一种行为标记模型训练系统及其方法,以采用机械学习的方式,并依据使用者在一段期间内的登入记录进行学习与训练。藉此,以自动地标记使用者的异常行为。
图1示出本发明一实施例的行为标记模型训练系统的示意图。在本实施例中,适用的情境例如为,信息管理人员会在微软公司所开发的Windows环境中建立多个子帐号,并将每一个子帐号的登入行为都记录在系统日志中,以作为使用者的登入记录。行为标记模型训练系统100会先依据使用者在一段时间的登入记录进行标记、建立行为模型并据此行为模型对使用者的登入行为进行长期的分析与观察。在其他实施例中,也可以采用Linux、macOS或其他不同作业系统的系统日志中的使用者登入记录,或者通过信息管理人员自行建立的程序记录使用者的登入记录,本发明不限于此。
请参照图1,在本实施例中,行为标记模型训练系统100具有输入单元110、储存单元120以及处理单元130。
输入单元110用以接收各种信息,特别是,输入单元110会接收多笔使用者的登入记录。
在本发明的实施例中,输入单元110可以采用实体的输入元件,例如键盘、鼠标、触控荧幕等。或者是,输入单元110可以采用通用串行总线(Universal Serial Bus,USB)、串行端口(Serial Port)等直接接收其他系统所汇入的数据。又或者是,在联网环境中,输入单元110为各类型的通讯芯片,例如蓝牙芯片、WiFi芯片或有线的网络连接端口。本发明并不限制输入单元110的形式与其接收信息的方式。
储存单元120用以储存运行行为标记模型训练系统100的必要程序码与信息。在本实施例中,储存单元120储存初始学习模块122、初始标记模型124、学习模块126以及标记模型128。初始学习模块122和学习模块126是采用机械学习的方式,进而依据登入记录进行训练分别产生对应使用者行为的初始标记模型124以及标记模型128。如何产生初始标记模型124与标记模型128的细节将于后方再进行说明。然须说明的是,图1所示出的学习模块126和标记模型128的数量各为2个,但在其他实施例中,学习模块126和标记模型128的数量可以更多,图1仅为示例。
在本实施例中,储存单元120可以是任何型态的固定或可移动随机存取存储器(Random Access Memory,RAM)、只读存储器(Read-Only Memory,ROM)、快闪存储器(flashmemory)、硬盘(Hard Disk Drive,HDD)、固态硬盘(Solid State Drive,SSD)或类似元件或上述元件的组合,且本发明不限于此。
处理单元130连接于输入单元110及储存单元120,并用以执行行为标记模型训练系统100的必要功能。特别是,处理单元130会读取并执行初始学习模块122及学习模块126,细节将于后方再进行说明。处理单元130可以是中央处理单元(Central Processing Unit,CPU),或是其他可程序化的一般用途或特殊用途的微处理器(Microprocessor)、数字信号处理器(Digital Signal Processor,DSP)、可程序化控制器、特殊应用集成电路(Application Specific Integrated Circuit,ASIC)或其他类似元件或上述元件的组合,本揭示不限于此。
图2示出本发明一实施例行为模型训练方法的流程图。在此实施例中,例如适用于图1示出的行为标记模型训练系统100,但不限于此。以下将同时搭配图1与图2来说明行为模型训练方法的流程。
在步骤S210,处理单元130通过输入单元110接收已标记数据组。在本实施例中,已标记数据组为在一段时间中多个使用者的登入记录,且这些登入记录已经具有第一标记信息。第一标记信息为相应于使用者行为的标记,例如:正常、异常。此外,处理单元130会采取随机抽样的方式,以将已标记数据组分成训练数据组以及验证数据组。
在步骤S220,处理单元130会分别输入训练数据组的每一笔至多个学习模块126,以建立多个标记模型128。在本发明的实施例中,每一个学习模块126所采用的算法是监督式学习算法,即通过已经标记的已标记数据组建立标记模型128,因此学习模块126的数量与标记模型128的数量相互对应,然本发明不限制其数量。监督式学习算法例如为,支持向量机算法(Support vector machine,SVM)、逻辑回归算法(Logistic regression)、随机森林算法(Random forest)、人工神经网络算法(Artificial neural network,ANN)、单纯贝式分类器、决策树(Decision tree)、最近邻居法(k-nearest neighbors)、线性回归(Linear regression)、相关向量机(Relevance vector machine,RVM)、感知器(Perceptron)或其他目的相似的学习算法。值得一提的是,为了增加学习模块126标记的可靠性,在本实施例所采用的多个学习模块126皆采用不同的监督式学习算法。因此,虽然处理单元130会将相同的数据分别丢到不同的学习模块126中,但经过不同的运算后产生的标记模型128会有所不同。
在步骤S230,处理单元130会依据标记模型128分别获取相应验证数据组数据的每一笔的多个第二标记信息。在本实施例中,处理单元130会依据通过训练数据组训练出来的标记模型128,分别对验证数据组的每一笔数据重新进行标记,重新标记的结果即为第二标记信息。值得一提的是,在本实施例中,由于第二标记信息是经由训练数据组中的第一标记信息训练出来的标记模型128,进而对验证数据组重新标记。也就是说,第二标记信息的态样也为相应于使用者行为的标记,且会与第一标记信息相互对应。举例来说,在第二标记信息的态样是采用类别型进行表示,例如为“正常”、“异常”。又或者是,在一实施例中,第二标记信息的态样也可以通过机率的方式表现,例如“正常的机率”或者“异常的机率”,本发明不限于此。此外,由于本实施例提供了多个学习模块126,且验证数据组中的每一笔都会依据标记模型128进而产生第二标记信息,也就是说,验证数据组中的每一笔都具有相应标记模型128数量的第二标记信息。
在步骤S240,处理单元130依据相应验证数据组的每一笔对应的第二标记信息,分别产生相应验证数据组的每一笔的行为标记结果。在本发明的一实施例中,处理单元130会采用多数决的方式,即判断验证数据组的每一笔对应的第二标记信息中,相应于正常标记的数量以及相应于异常标记的数量,并依据正常标记的数量与异常标记的数量中较多的产生行为标记结果。在本发明另一实施例中,处理单元130会给予不同标记模型128相应的第二标记信息不同的权重,并将正常标记及异常标记化成二元化的数值,并基于权重及相应的数值产生行为标记结果。在本发明的另一实施例中,倘若第二标记信息的态样是通过“正常的机率”或者“异常的机率”来表现,处理单元130可以通过机率的加总、机率的平均或者是加权加总、加权平均等方式获取行为标记结果。在本发明的又一实施例中,倘若部分第二标记信息的态样是通过类型值来表现,部分第二标记信息是通过机率值来表现,处理单元130会进一步依据机率值的数值,进而转换机率值为类型值。藉此,处理单元130可以进一步通过正常标记的数量以及相应于异常标记的数量进而获取行为标记结果。本发明不以上述方法为限。
在步骤S250,处理单元130由验证数据组的每一笔相应的行为标记结果以及第一标记信息获取标记变动幅度值。具体而言,处理单元130会获取行为标记结果为正常,且第一标记信息为正常的第一数量。倘若处理单元130在接收到已标记数据组的标记为正常,经由训练标记模型128并根据标记模型128所产生的第二标记信息也为正常时,代表标记模型128所判断的内容符合原始的标记结果,这一笔数据的判断结果相较于第一标记信息是正确的。相似地,处理单元130也会获取行为标记结果为异常,且第一标记信息为异常的第二数量。藉此,处理单元130可以进一步依据第一数量与第二数量的总和与验证数据组的数据数量的比值,以获取准确率衡量值,即,在所有的验证数据组中,相较于第一标记信息的准确程度有多少。除此之外,处理单元130也会依据第一数量与第一标记信息为正常的数量的比值,以获取特异性衡量值,即,在验证数据组中的所有数据,正常使用者不会被误判的程度到底有多少。并且,处理单元130还会依据第二数量与第一标记信息为异常的数量的比值,以获取敏感度衡量值,即在验证数据组中,对行为异常的使用者的敏感程度。
除此之外,处理单元130还会分别判断准确率衡量值、特异性衡量值以及敏感度衡量值与前一次所测量的历史准确率衡量值、历史特异性衡量值以及历史敏感度衡量值的差异值,以获取标记变动幅度值。值得一提的是,倘若已标记数据组第一次被输入并首次建立标记模型128时,历史准确率衡量值、历史特异性衡量值以及历史敏感度衡量值会被预设为0,然本发明不限于此。在本发明一实施例中,处理单元130还会以准确率衡量值、特异性衡量值以及敏感度衡量值与前一次所测量的历史准确率衡量值、历史特异性衡量值以及历史敏感度衡量值的差异值的绝对值分别视为不同类别的标记变动幅度值,又或者是以差异值的平均值或者中位数作为总体的标记变动幅度值,本发明也不限于此。
在步骤S260,处理单元130判断标记变动幅度值是否大于变动门槛值。倘若变动幅度值大于变动门槛值,表示通过标记模型128所标记的结果仍不稳定,还有调整的空间,因而跳转至步骤S270。
在步骤S270,处理单元130依据行为标记结果更新验证数据组的每一笔对应的第一标记信息。并且,处理单元130还会交换训练数据组及验证数据组,并依据交换后的训练数据组重新建立标记模型。也就是说,处理单元130会将更新过第一标记信息的验证数据组作为交换后的训练数据组,并依据交换后的训练数据组重新建立标记模型128(即,回到步骤S220),并采用交换后的验证数据组对标记模型128进行验证(即,执行步骤S230至步骤S260)。
然而,若在步骤S260,处理单元130判断标记变动幅度值不大于变动门槛值。也就是说,通过标记模型128所标记的结果已经呈现稳定的状态,处理单元130会依据行为标记结果更新验证数据组的每一笔对应的第一标记信息,并跳转至步骤S280。
在步骤S280,处理单元130会将标记模型128储存至储存单元120中,并结束流程。
图3示出本发明一实施例行为模型训练方法的细部流程图。在此实施例中,例如适用于图1示出的行为标记模型训练系统100,此外图2与图3的实施过程可以相容,本发明不限于此。以下将采用图3以及一案例共同说明行为模型训练方法的细节。
此案例所采用的是使用者1与使用者2在2018-05-04至2018-05-27之间的登入记录。并请参考表一,表一仅记载已标记数据组中被选取作为验证数据组的数据。
Figure BDA0001859507060000091
表一:已标记数据组中被选取作为验证数据组的数据
在步骤S310,处理单元130所接收的已标记数据组,以表一记载的验证数据组的数据为例,每一笔数据至少记载使用者的身份(例如,通过使用者身份识别码、工号、网际网络位置、装置识别码等)、其登入的日期以及第一标记信息。
在步骤S320,处理单元130分别输入训练数据组的每一笔至多个学习模块,以建立多个标记模型中,处理单元130会分别依据三个学习模块建立三个标记模型。第一学习模块是采用结合多种分类器的随机森林(Random Forest)算法建立第一标记模型。第二学习模块是采用传统统计的逻辑回归法建立第二标记模型。第三学习模块则是采用支持向量学习机建立第三标记模型。
相对应地,在步骤S330,处理单元130会分别将验证数据组的每一笔数据分别输入第一标记模型、第二标记模型以及第三标记模型。请参考表一,在验证数据组中的每一笔数据都存在相对应第一标记模型、第二标记模型以及第三标记模型的第二标记信息。以第一笔,使用者1在2018-05-14登入的为例,通过第一标记模型、第二标记模型以及第三标记模型所产生的第二标记信息分别为异常、异常、异常。
在步骤S340,处理单元130判断验证数据组的每一笔对应的第二标记信息中,属于正常标记的数量与异常标记的数量,以依据正常标记的数量与异常标记的数量中较多的产生行为标记结果。续以前述第一笔为例,在第一笔数据的第二标记信息中,属于正常标记的数量为0,属于异常标记的数量为3。也就是说,异常标记的数量多于正常标记数量,处理单元130会据而产生第一笔数据的行为标记结果为异常。再以表一验证数据组中的第二笔为例,第二标记信息中属于正常标记的数量为1,属于异常标记的数量为2,处理单元130会据此判断异常标记的数量多于正常标记数量,第二笔数据的行为标记结果为异常。以此类推,其余行为标记结果请参照表一,于此不再赘述。
在步骤S350,由验证数据组的每一笔相应的行为标记结果以及第一标记信息获取标记变动幅度值。具体来说,在表一中的第一数量,即第一标记信息与行为标记结果皆为正常的总数量为4个。第二数量,即第一标记信息与行为标记结果为异常的总数量为1个。处理单元130并进一步依据第一数量与第二数量的总和(5)与验证数据组的数据数量(8)的比值,获取准确率衡量值为0.625。处理单元130也会依据第一数量(4)与第一标记信息为正常的数量(5)的比值,以获取特异性衡量值为0.8。处理单元130还会依据第二数量(1)与第一标记信息为异常的数量(3)的比值,以获取敏感度衡量值为0.333。
除此之外,处理单元130还会分别判断准确率衡量值、特异性衡量值以及敏感度衡量值与前一次所测量的历史准确率衡量值、历史特异性衡量值以及历史敏感度衡量值的差异值,以获取标记变动幅度值。举例来说,倘若历史准确率衡量值、历史特异性衡量值以及历史敏感度衡量值分别为0.52、0.705以及0.465,处理单元130可以据此获取差异值为-0.105、0.132、-0.095。在本实施例中,处理单元130会进一步取差异值绝对值的平均以作为标记变动幅度值,即标记变动幅度值约为0.111。
在步骤S360,处理单元130判断标记变动幅度值是否大于变动门槛值。在本实施例中,变动门槛值例如为0.001。因此,处理单元130会判断变动幅度值0.111高于变动门槛值0.001,因而跳至步骤S370。
在步骤S370,处理单元130会依据行为标记结果更新验证数据组的每一笔对应的第一标记信息。也就是说,在表一的案例中,此八笔数据更新完后的第一标记信息分别为异常、异常、正常、正常、正常、正常、正常、正常。除此之外,此八笔数据会和训练数据组交换,即此八笔数据会从验证数据组变成训练数据组,以采用此八笔数据重新训练标记模型。
处理单元130会重复执行步骤S320至步骤S360,直至处理单元130判断标记变动幅度值不大于变动门槛值后,储存标记模型128,并结束流程(步骤S380)。
图4示出本发明一实施例行为模型训练方法的流程图。请参照图4,图4至少适用于图1实施例行为标记模型训练系统,然不限于此。以下将通过图4与图1说明如何产生已标记数据组的细节。
在步骤S410,处理单元130通过输入单元110接收历史数据组。历史数据组具有使用者在一段时间内的登入记录,举例来说,其具有使用者1与使用者2在2018-05-04至2018-05-27之间的登入记录。
在本实施例中,历史数据组中具有第一数据组及第二数据组。第一数据组中的每一笔数据都分别具有第三标记信息,且第三标记信息是由人工对使用者的行为进行标记,标记的态样例如为正常、异常。
在步骤S420,处理单元130输入第一数据组至初始学习模块122,以获取初始标记模型124。在本实施例中,初始学习模块122是采用一类支持向量学习机(one class SVR)对第一数据组进行训练,然本发明不限于此。举例来说,在其他实施例中也可以采用自训练算法(self-training)、多视角算法等类型的半监督式机械学习算法进行训练。
在步骤S430,处理单元130依据初始标记模型124标记第二数据组,以产生包括第一标记信息的已标记数据组。也就是说,实际上已标记数据组的标记来源是通过初始标记模型124进行标记的,无须耗费人工进行标记。
值得一提的是,在本发明的一实施例,历史数据组中的每一笔还具有使用者的登入时间,且处理单元130在通过第一数据组建立初始标记模型124时,还会依据登入模型分别训练在不同时间区间中的使用者行为特征。举例来说,在本实施例中,处理单元130会以每一个小时作为时间区间,并将属于不同时间的数据分别进行运算。因此,处理单元130会分别依据第二数据组的每一笔数据的登入时间,找出初始标记模型124中相应登入时间的时间区间以及对应的行为特征,以分别对第二数据组的每一笔进行标记,以产生已标记数据组。相似地,处理单元130会判断验证数据组的每一笔数据的登入时间,找出标记模型128相应登入时间的行为特征,以分别对验证数据组的每一笔进行标记,以产生第二标记信息。
图5示出本发明一实施例行为模型训练方法的流程图。请参照图5,在标记模型128建立后,处理单元130还会进一步依据标记模型128而对使用者的登入数据进行分析,以找出潜在异常的使用者。
具体来说,在步骤S510,处理单元130通过输入单元110接收历史数据组。历史数据组是在一段时间内使用者的登入数据,由于每个使用者在一段时间内的登入数据可能有多笔,为了容易理解,在下述将采用使用者数据组进行说明。也就是说,每一个使用者在此段时间内的登入数据称为使用者数据组。
在步骤S520,处理单元130分别依据使用者数据组的每一个,判断使用者的每一个在多个时间区间中分别的使用量异常程度,并依据第一历史数据组的每一个及标记模型判断使用者在时间区间中分别的异常比率。
举例来说,以2018-06-04当天使用者1、使用者2、使用者3的登入情形进行说明。使用者1相应的使用者数据组具有50笔记录,即表示使用者1登入了50次。使用者2相应的使用者数据组具有1笔记录,即表示使用者2登入了1次。使用者3相应的使用者数据组具有15笔记录,即表示使用者3登入了15次。基于此,处理单元130会分别针对使用者1、使用者2、使用者3进行异常程度分析。在本发明的一实施例中,处理单元130是采用下述方程式(1)的原理进行分析,然本发明不限制处理单元130其运行的顺序与方式。
Figure BDA0001859507060000131
在此案例中,所有使用者数据代表量即为所有使用者登入次数的平均,即22。所有使用者数据变化程度为所有使用者登入次数的标准差,即25.2389。单一使用者数据使用量则是使用者的登入次数,且会依据不同使用者而获得不同的数值。在本实施例中,使用者1、使用者2及使用者3的异常程度分别为1.1094、0.8320以及0.2773。使用者的异常程度越高,代表着他在此段期间的使用行为与大部分使用者越不相同。
除此之外,处理单元130还会进一步采用标记模型128对使用者数据组的每一笔数据进行分析,以获取使用者的异常比率。举例来说,倘若在一天内时间被分割为p个使用时间,处理单元130经由标记模型128而预测使用者在q个使用时间内是异常的。此时,处理单元130会进一步依据方程式(2)的原理获取使用者的异常比率,即判断使用者在一天中有多少时间比例是异常的。然本发明不限制处理单元130其运行的顺序与方式。
Figure BDA0001859507060000132
在步骤S530,处理单元130依据使用者的每一个的使用量异常程度及异常比率,分别判断使用者在时间区段中的使用量异常程度及异常比率,并获取使用者的每一个相应的综合异常指标。具体来说,在本实施例中,时间区段例如为一周、一个月,但不限于此。也就是说,处理单元130会针对一段较长时间中使用者的行为表现进行异常分析。以一周为例,倘若处理单元130根据使用量异常程度与异常比例判断使用者在一周间的异常程度以S1,i表示,且S1,i,i=1,2,...,7。使用者在一周间使用不同网际网络地址个数的异常程度以S2,i表示,且S2,i,i=1,2,...,7。藉此,处理单元130会将使用量异常程度以及使用者使用不同网际网络地址个数的异常程度转换为S′1=average1≤i≤7(S1,i)与S′2=max1≤i≤7(S2,i)。并且,处理单元130例如会进一步配置S′1与S′2不同的权重,并给予使用者综合异常指标,如方程式(3)。
综合异常指标=w1×S′1+w2×S′2 (3)
除此之外,承上述案例,处理单元130还可以采用时间区段例如为一天分析使用者的综合异常指标,即以微观的方式观察使用者的行为是否异常,并产生相应于此时间区段的综合异常指标。详细来说,处理单元130还可以进一步观察其他的异常指标,例如,使用不同连接端口个数的异常程度、使用时段异常指标(例如,异常比率)等。倘若使用者在一天之中使用不同连接端口个数的异常程度为S3,使用时段异常指标为ab1(即,采用标记模型128预测使用者在此使用时间内是否为异常的)。此时,处理单元130例如会进一步计算相应于一天的综合异常指标,如方程式(4)。
综合异常指标=average(S2,1,S3,ab1) (4)
倘若综合异常指标越大,即表示此使用者的行为于当日与别人越不相同。
在步骤S540,处理单元130依据使用者的每一个相应的综合异常指标获取使用者异常排序。在对每一个使用者计算综合异常指标后,处理单元130会进一步依据使用者异常程度的高低产生使用者异常排序,以供管理人员参考。
综上所述,本发明的行为标记模型训练方法及其系统通过建立标记模型,以自动地对使用者的登入记录进行标记。不仅如此,考量到标记模型的可靠度,本发明的行为标记模型训练方法及其系统会同时训练多个不同的标记模型,并在标记内容冲突时,通过多数决的方式进而标记使用者的登入记录,以重新调整训练标记模型。藉此,行为标记模型训练方法及其系统能够提升标记模型的可靠度。而通过标记模型,使用者的登入记录可以被自动地观察分析,并进一步找出可能的异常登入行为。基于此,本发明的行为标记模型训练方法及其系统不仅能够降低判断异常登入行为所耗费的人力,同时也可以采用更科学化的分析,降低人工误判的行为,因而有效监控内部员工的异常登入行为。
虽然本发明已以实施例揭示如上,然其并非用以限定本发明,任何所属技术领域中的技术人员,在不脱离本发明的精神和范围内,当可作些许的更改与润饰,故本发明的保护范围当视权利要求所界定的为准。

Claims (14)

1.一种行为标记模型训练系统,包括:
输入单元,接收已标记数据组,其中所述已标记数据组包括训练数据组以及验证数据组,且所述训练数据组的每一笔以及所述验证数据组的每一笔分别包括第一标记信息;
储存单元,储存多个学习模块;
处理单元,连接于所述输入单元与所述储存单元,分别输入所述训练数据组的每一笔至多个学习模块,以建立多个标记模型,
其中所述处理单元还依据所述多个标记模型分别获取相应所述验证数据组数据的每一笔的多个第二标记信息,依据相应所述验证数据组的每一笔对应的所述多个第二标记信息,分别产生相应所述验证数据组的每一笔的行为标记结果,
其中所述处理单元还由所述验证数据组的每一笔相应的所述行为标记结果以及所述第一标记信息获取标记变动幅度值,并判断所述标记变动幅度值是否大于变动门槛值,且当所述标记变动幅度值大于所述变动门槛值,依据所述多个行为标记结果更新所述验证数据组的每一笔对应的所述第一标记信息,交换所述训练数据组及所述验证数据组,并依据交换后的所述训练数据组重新建立所述多个标记模型。
2.根据权利要求1所述的行为标记模型训练系统,所述处理单元还于所述标记变动幅度值不大于所述变动门槛值时,储存所述多个标记模型于所述储存单元中。
3.根据权利要求1所述的行为标记模型训练系统,其中所述第二标记信息相应于正常标记与异常标记,且所述处理单元还用以判断所述验证数据组的每一笔对应的所述多个第二标记信息中,属于所述正常标记的数量与所述异常标记的数量,并依据所述正常标记的数量与所述异常标记的数量中较多的产生所述行为标记结果。
4.根据权利要求1所述的行为标记模型训练系统,其中所述处理单元还执行:
获取所述行为标记结果为正常,且所述第一标记信息为正常的第一数量,
获取所述行为标记结果为异常,且所述第一标记信息为异常的第二数量,
依据所述第一数量与所述第二数量的总和与所述验证数据组的数据数量的比值,以获取准确率衡量值,
依据所述第一数量与所述第一标记信息为正常的数量的比值,以获取特异性衡量值,
依据所述第二数量与所述第一标记信息为异常的数量的比值,以获取敏感度衡量值,以及
分别判断所述准确率衡量值、所述特异性衡量值以及所述敏感度衡量值与历史准确率衡量值、历史特异性衡量值以及历史敏感度衡量值的差异值,以获取所述标记变动幅度值。
5.根据权利要求1所述的行为标记模型训练系统,其中所述输入单元还接收历史数据组,其中所述历史数据组包括第一数据组及第二数据组,且所述第一数据组中的每一笔分别包括第三标记信息,
其中所述处理单元还输入所述第一数据组至初始学习模块,以获取初始标记模型,并依据所述初始标记模型标记所述第二数据组,以产生包括所述第一标记信息的所述已标记数据组。
6.根据权利要求5所述的行为标记模型训练系统,其中所述初始标记模型以及所述多个标记模型的每一个分别包括相应多个时间区间的行为特征,
其中所述处理单元还分别依据所述第二数据组的每一笔相应的登入时间以及所述初始标记模型中的所述多个时间区间找出相应的所述行为特征,并依据所述相应的所述行为特征标记所述第二数据组的每一笔,以产生所述已标记数据组,
其中所述处理单元还分别依据所述验证数据组的每一笔相应的登入时间以及标记模型中的所述多个时间区间找出相应的所述行为特征,并依据所述行为特征标记所述验证数据组的每一笔,以获取相应所述验证数据组数据的每一笔的所述多个第二标记信息。
7.根据权利要求1所述的行为标记模型训练系统,其中所述输入单元还接收历史数据组,其中所述历史数据组包括相应于多个使用者的每一个的使用者数据组,
其中所述处理单元还执行:
分别依据所述多个使用者数据组的每一个,判断所述多个使用者的每一个在多个时间区间中分别的使用量异常程度,并依据所述多个第一历史数据组的每一个及所述多个标记模型判断所述多个使用者在所述多个时间区间中分别的异常比率,
依据所述多个使用者的每一个的所述使用量异常程度及所述异常比率,分别判断所述多个使用者在时间区段中的使用量异常程度及异常比率,并获取所述多个使用者的每一个相应的综合异常指标,
依据所述多个使用者的每一个相应的综合异常指标获取使用者异常排序。
8.一种行为标记模型训练方法,包括:
接收已标记数据组,其中所述已标记数据组包括训练数据组以及验证数据组,且所述训练数据组的每一笔以及所述验证数据组的每一笔分别包括第一标记信息;
分别输入所述训练数据组的每一笔至多个学习模块,以建立多个标记模型;
依据所述多个标记模型分别获取相应所述验证数据组数据的每一笔的多个第二标记信息;
依据相应所述验证数据组的每一笔对应的所述多个第二标记信息,分别产生相应所述验证数据组的每一笔的行为标记结果;
由所述验证数据组的每一笔相应的所述行为标记结果以及所述第一标记信息获取标记变动幅度值,并判断所述标记变动幅度值是否大于变动门槛值;以及
当所述标记变动幅度值大于所述变动门槛值,依据所述多个行为标记结果更新所述验证数据组的每一笔对应的所述第一标记信息,交换所述训练数据组及所述验证数据组,并依据交换后的所述训练数据组重新建立所述多个标记模型。
9.根据权利要求8所述的行为标记模型训练方法,还包括:
当所述标记变动幅度值不大于所述变动门槛值,储存所述多个标记模型。
10.根据权利要求8所述的行为标记模型训练方法,其中所述第二标记信息相应于正常标记与异常标记,且所述标记模型训练方法还包括:
判断所述验证数据组的每一笔对应的所述多个第二标记信息中,属于所述正常标记的数量与所述异常标记的数量;以及
依据所述正常标记的数量与所述异常标记的数量中较多的产生所述行为标记结果。
11.根据权利要求8所述的行为标记模型训练方法,其中由所述验证数据组的每一笔对应的所述行为标记结果以及所述第一标记信息获取标记变动幅度值中,还包括:
获取所述行为标记结果为正常,且所述第一标记信息为正常的第一数量;
获取所述行为标记结果为异常,且所述第一标记信息为异常的第二数量;
依据所述第一数量与所述第二数量的总和与所述验证数据组的数据数量的比值,以获取准确率衡量值;
依据所述第一数量与所述第一标记信息为正常的数量的比值,以获取特异性衡量值;
依据所述第二数量与所述第一标记信息为异常的数量的比值,以获取敏感度衡量值;以及
分别判断所述准确率衡量值、所述特异性衡量值以及所述敏感度衡量值与历史准确率衡量值、历史特异性衡量值以及历史敏感度衡量值的差异值,以获取所述标记变动幅度值。
12.根据权利要求8所述的行为标记模型训练方法,还包括:
接收历史数据组,其中所述历史数据组包括第一数据组及第二数据组,且所述第一数据组中的每一笔分别包括第三标记信息;
输入所述第一数据组至初始学习模块,以获取初始标记模型;以及
依据所述初始标记模型标记所述第二数据组,以产生包括所述第一标记信息的所述已标记数据组。
13.根据权利要求12所述的行为标记模型训练方法,其中所述初始标记模型以及所述多个标记模型的每一个分别包括相应多个时间区间的行为特征,所述方法还包括:
分别依据所述第二数据组的每一笔相应的登入时间以及所述初始标记模型中的所述多个时间区间找出相应的所述行为特征,并依据所述相应的所述行为特征标记所述第二数据组的每一笔,以产生所述已标记数据组;
分别依据所述验证数据组的每一笔相应的登入时间以及标记模型中的所述多个时间区间找出相应的所述行为特征,并依据所述行为特征标记所述验证数据组的每一笔,以获取相应所述验证数据组数据的每一笔的所述多个第二标记信息。
14.根据权利要求8所述的行为标记模型训练方法,还包括:
接收历史数据组,其中所述历史数据组包括相应于多个使用者的每一个的使用者数据组;
分别依据所述多个使用者数据组的每一个,判断所述多个使用者的每一个在多个时间区间中分别的使用量异常程度,并依据所述多个第一历史数据组的每一个及所述多个标记模型判断所述多个使用者在所述多个时间区间中分别的异常比率;
依据所述多个使用者的每一个的所述使用量异常程度及所述异常比率,分别判断所述多个使用者在时间区段中的使用量异常程度及异常比率,并获取所述多个使用者的每一个相应的综合异常指标;以及
依据所述多个使用者的每一个相应的综合异常指标获取使用者异常排序。
CN201811329151.6A 2018-11-09 2018-11-09 行为标记模型训练系统及方法 Active CN111177802B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811329151.6A CN111177802B (zh) 2018-11-09 2018-11-09 行为标记模型训练系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811329151.6A CN111177802B (zh) 2018-11-09 2018-11-09 行为标记模型训练系统及方法

Publications (2)

Publication Number Publication Date
CN111177802A true CN111177802A (zh) 2020-05-19
CN111177802B CN111177802B (zh) 2022-09-13

Family

ID=70653512

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811329151.6A Active CN111177802B (zh) 2018-11-09 2018-11-09 行为标记模型训练系统及方法

Country Status (1)

Country Link
CN (1) CN111177802B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101782976A (zh) * 2010-01-15 2010-07-21 南京邮电大学 一种云计算环境下机器学习自动选择方法
CN102054016A (zh) * 2009-10-28 2011-05-11 财团法人工业技术研究院 用于撷取及管理社群智能信息的系统及方法
US20110307422A1 (en) * 2010-06-09 2011-12-15 Microsoft Corporation Exploring data using multiple machine-learning models
CN106250986A (zh) * 2015-06-04 2016-12-21 波音公司 用于机器学习的高级分析基础构架
TW201735669A (zh) * 2016-03-25 2017-10-01 高通公司 用於使用從多個感測器收集之資訊來保護車輛免受惡意軟體及攻擊之方法及系統
CN107291911A (zh) * 2017-06-26 2017-10-24 北京奇艺世纪科技有限公司 一种异常检测方法和装置
US20180198812A1 (en) * 2017-01-11 2018-07-12 Qualcomm Incorporated Context-Based Detection of Anomalous Behavior in Network Traffic Patterns
CN108512827A (zh) * 2018-02-09 2018-09-07 世纪龙信息网络有限责任公司 异常登录的识别和监督学习模型的建立方法、装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102054016A (zh) * 2009-10-28 2011-05-11 财团法人工业技术研究院 用于撷取及管理社群智能信息的系统及方法
CN101782976A (zh) * 2010-01-15 2010-07-21 南京邮电大学 一种云计算环境下机器学习自动选择方法
US20110307422A1 (en) * 2010-06-09 2011-12-15 Microsoft Corporation Exploring data using multiple machine-learning models
CN106250986A (zh) * 2015-06-04 2016-12-21 波音公司 用于机器学习的高级分析基础构架
TW201735669A (zh) * 2016-03-25 2017-10-01 高通公司 用於使用從多個感測器收集之資訊來保護車輛免受惡意軟體及攻擊之方法及系統
CN108780480A (zh) * 2016-03-25 2018-11-09 高通股份有限公司 用于使用从多个传感器收集的信息来保护车辆免受恶意软件及攻击的方法及系统
US20180198812A1 (en) * 2017-01-11 2018-07-12 Qualcomm Incorporated Context-Based Detection of Anomalous Behavior in Network Traffic Patterns
TW201830929A (zh) * 2017-01-11 2018-08-16 美商高通公司 在網路流量型樣中以上下文為基礎之異常行為之偵測
CN107291911A (zh) * 2017-06-26 2017-10-24 北京奇艺世纪科技有限公司 一种异常检测方法和装置
CN108512827A (zh) * 2018-02-09 2018-09-07 世纪龙信息网络有限责任公司 异常登录的识别和监督学习模型的建立方法、装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
G换一种活法: ""机器学习(半监督学习)"", 《HTTPS://BLOG.CSDN.NET/WEIXIN_40355324/ARTICLE/DETAILS/79650725》 *
刘康: ""基于主动学习的高光谱图像分类技术研究"", 《中国博士学位论文全文数据库(电子期刊) 信息科技辑》 *

Also Published As

Publication number Publication date
CN111177802B (zh) 2022-09-13

Similar Documents

Publication Publication Date Title
TWI710922B (zh) 行為標記模型訓練系統及方法
US11012458B2 (en) Statistical analysis of network behavior using event vectors to identify behavioral anomalies using a composite score
CN109558951B (zh) 一种欺诈账号检测方法、装置及其存储介质
CN110443274B (zh) 异常检测方法、装置、计算机设备及存储介质
CN108229963B (zh) 用户操作行为的风险识别方法及装置
WO2019218475A1 (zh) 异常行为对象的识别方法、装置、终端设备及介质
KR20190109427A (ko) 침입 탐지를 위한 지속적인 학습
US10795738B1 (en) Cloud security using security alert feedback
WO2021051530A1 (zh) 检测异常邮件的方法、装置、设备和存储介质
CN107622326A (zh) 用户分类、可用资源预测方法、装置及设备
CN111400126A (zh) 网络服务异常数据检测方法、装置、设备和介质
US11687598B2 (en) Determining associations between services and computing assets based on alias term identification
CN114186760A (zh) 一种企业稳健运营的分析方法、系统及可读存储介质
CN115545103A (zh) 异常数据识别、标签识别方法和异常数据识别装置
JP7033262B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN111177802B (zh) 行为标记模型训练系统及方法
CN112348041B (zh) 日志分类、日志分类训练方法及装置、设备、存储介质
EP3783543A1 (en) Learning system, learning method, and program
JP2015184818A (ja) サーバ、モデル適用可否判定方法およびコンピュータプログラム
CN111489207A (zh) 基于区块链系统的评价信息写入方法、装置及硬件设备
US20210329033A1 (en) Cybersecurity maturity determination
CN112346938B (zh) 操作审计方法、装置及服务器和计算机可读存储介质
GS et al. Detecting insider malicious activities in cloud collaboration systems
US10904185B1 (en) Email address validation
US20230121058A1 (en) Systems and method for responsively augmenting a risk engine to address novel risk patterns

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant