CN110348471B - 异常对象识别方法、装置、介质及电子设备 - Google Patents
异常对象识别方法、装置、介质及电子设备 Download PDFInfo
- Publication number
- CN110348471B CN110348471B CN201910435976.4A CN201910435976A CN110348471B CN 110348471 B CN110348471 B CN 110348471B CN 201910435976 A CN201910435976 A CN 201910435976A CN 110348471 B CN110348471 B CN 110348471B
- Authority
- CN
- China
- Prior art keywords
- object data
- identified
- score
- correction value
- satisfied
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Abstract
本公开涉及网络监控领域,揭示了一种异常对象识别方法、装置、介质及电子设备。该方法包括:获取包括多个对象数据的样本集;利用样本集训练机器学习模型,得到对象分数修正值预测模型;获取待识别对象数据;将待识别对象数据输入对象分数修正值预测模型,得到修正值;在多个预设规则中获取每一待识别对象数据满足的预定规则;针对每一待识别对象数据,根据该待识别对象数据满足的预定规则、满足的预定规则对应的分数和修正值,确定该待识别对象数据的评分;根据待识别对象数据的评分,在各待识别对象数据对应的对象中识别出异常对象。此方法下,实现了对对象异常程度的量化,提高了识别异常对象的精度,提高了识别结果的可解释性。
Description
技术领域
本公开涉及网络监控技术领域,特别涉及一种异常对象识别方法、装置、介质及电子设备。
背景技术
随着移动互联网的发展,网络已经进入了绝大多数人的生活,网络安全愈发重要。网络平台一般为众多用户提供服务,一旦出现异常可能会造成巨大损失。比如,非法用户访问、异常流量入侵等行为具有危害大、发展迅速等特点,识别这些异常行为的产生对象具有很大的困难。在现有技术中,主要是利用一系列规则对产生行为的对象进行识别,仅仅利用这些规则把这些产生行为的对象分为异常和非异常两种类型。
现有技术的缺陷在于,对于被识别为的异常对象,无法很好地界定其异常的程度,导致了识别异常对象的精度较低,识别结果的可解释性较低。
发明内容
在网络监控技术领域,为了解决上述技术问题,本公开的目的在于提供一种异常对象识别方法、装置、介质及电子设备。
根据本申请的一方面,提供了一种异常对象识别方法,所述方法包括:
获取包括多个对象数据的样本集,其中,每一所述对象数据与对象对应,每一所述对象数据包括多个特征以及与每一特征对应的特征值,所述样本集还包括预先为每一对象数据标注的修正值;
利用所述样本集中的对象数据的多个特征、与每一特征对应的特征值以及与每一对象数据对应的修正值,训练机器学习模型,得到对象分数修正值预测模型;
获取至少一个待识别对象数据;
将所述待识别对象数据输入至对象分数修正值预测模型,得到所述对象分数修正值预测模型输出的与每一所述待识别对象数据对应的修正值;
针对每一所述待识别对象数据,根据该待识别对象数据中的特征和特征值,在多个预设规则中获取该待识别对象数据满足的预定规则,其中,每一预定规则与特征以及分数对应;
针对每一所述待识别对象数据,根据该待识别对象数据满足的预定规则、该待识别对象数据满足的每一预定规则对应的分数以及所述修正值,确定该待识别对象数据的评分;
根据所述待识别对象数据的评分,在各待识别对象数据对应的对象中识别出异常对象。
根据本申请的另一方面,提供了一种异常对象识别装置,所述装置包括:
第一获取模块,被配置为获取包括多个对象数据的样本集,其中,每一所述对象数据与对象对应,每一所述对象数据包括多个特征以及与每一特征对应的特征值,所述样本集还包括预先为每一对象数据标注的修正值;
训练模块,被配置为利用所述样本集中的对象数据的多个特征、与每一特征对应的特征值以及对象数据的修正值,训练机器学习模型,得到对象分数修正值预测模型;
第二获取模块,被配置为获取至少一个待识别对象数据;
输入模块,被配置为将所述待识别对象数据输入至对象分数修正值预测模型,得到所述对象分数修正值预测模型输出的与每一所述待识别对象数据对应的修正值;
第三获取模块,被配置为针对每一所述待识别对象数据,根据该待识别对象数据中的特征和特征值,在多个预设规则中获取该待识别对象数据满足的预定规则,其中,每一预定规则与特征以及分数对应;
确定模块,被配置为针对每一所述待识别对象数据,根据该待识别对象数据满足的预定规则、该待识别对象数据满足的每一预定规则对应的分数以及所述修正值,确定该待识别对象数据的评分;
识别模块,被配置为根据所述待识别对象数据的评分,在各待识别对象数据对应的对象中识别出异常对象。
根据本申请的另一方面,提供了一种计算机可读程序介质,其存储有计算机程序指令,当所述计算机程序指令被计算机执行时,使计算机执行如前所述的方法。
根据本申请的另一方面,提供了一种电子设备,所述电子设备包括:
处理器;
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如前所述的方法。
本发明的实施例提供的技术方案可以包括以下有益效果:
本发明所提供的异常对象识别方法包括如下步骤:获取包括多个对象数据的样本集,其中,每一所述对象数据与对象对应,每一所述对象数据包括多个特征以及与每一特征对应的特征值,所述样本集还包括预先为每一对象数据标注的修正值;利用所述样本集中的对象数据的多个特征、与每一特征对应的特征值以及与每一对象数据对应的修正值,训练机器学习模型,得到对象分数修正值预测模型;获取至少一个待识别对象数据;将所述待识别对象数据输入至对象分数修正值预测模型,得到所述对象分数修正值预测模型输出的与每一所述待识别对象数据对应的修正值;针对每一所述待识别对象数据,根据该待识别对象数据中的特征和特征值,在多个预设规则中获取该待识别对象数据满足的预定规则,其中,每一预定规则与特征以及分数对应;针对每一所述待识别对象数据,根据该待识别对象数据满足的预定规则、该待识别对象数据满足的每一预定规则对应的分数以及所述修正值,确定该待识别对象数据的评分;根据所述待识别对象数据的评分,在各待识别对象数据对应的对象中识别出异常对象。
此方法下,通过首先利用样本集训练得到对象分数修正值预测模型,然后使用该模型获得待识别对象数据的修正值,最后基于待识别对象数据中的特征和特征值对预定规则的满足情况获得待识别对象数据的评分并根据评分来识别异常对象,使得识别结果能很好地对对象的异常程度进行量化,提高了识别异常对象的精度,提高了识别结果的可解释性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种异常对象识别方法在异常流量识别应用场景下的示意图;
图2是根据一示例性实施例示出的一种异常对象识别方法在群内团伙薅羊毛行为识别应用场景下的示意图;
图3是根据一示例性实施例示出的一种异常对象识别方法的流程图;
图4是根据图3对应实施例示出的一实施例的步骤370的细节的流程图;
图5是根据图3对应实施例示出的一实施例的预定规则对应分数的确定方法流程图;
图6是根据一示例性实施例示出的一种异常对象识别装置的框图;
图7是根据一示例性实施例示出的一种实现上述异常对象识别方法的电子设备示例框图;
图8是根据一示例性实施例示出的一种实现上述异常对象识别方法的计算机可读存储介质。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。
本公开首先提供了一种异常对象识别方法。对象是指具有一定关联数据的计算机相关设备本身或者任何在计算机设备或者网络平台上存在或者运行的可以作为目标的事物。比如可以是数据对象、终端对象、账号对象等。异常对象是指满足一定条件并被视为异常的对象。对异常对象的识别是指,找出可能的异常对象的过程。本公开提供的异常对象识别方法可以应用于网络安全领域的多种场景下,比如可以用于对异常流量进行识别,还可以用于监控薅羊毛行为。本公开的实施终端可以是任何具有对数据进行计算和处理功能的设备,该设备可与外部设备相连,用于接收或者发出信息,可以是便携移动设备,例如智能手机、平板电脑、笔记本电脑、PDA(Personal Digital Assistant)等,也可以是固定式设备,例如,计算机设备、现场终端、台式电脑、服务器、工作站等,还可以是多个设备的集合,比如云计算的物理基础设施。
图1是根据一示例性实施例示出的一种异常对象识别方法在异常流量识别应用场景下的示意图。如图1所示,包括服务器110和用户终端120,两者之间通过通信链路连接。图1示出的应用场景下,服务器110和用户终端120之间的架构可以是C/S架构,即Client/Server(客户机/服务器)架构,还可以是B/S架构,即Browser/Server(浏览器/服务器)架构。无论采用的是哪种架构,如果大量用户终端120非法访问服务器110,会给服务器110带来巨大流量,可能会使服务器110宕机,造成损失,所以有必要对造成这些异常流量的来源进行识别,即,将识别出的产生异常流量的来源作为异常对象。在图1示出的实施例中,本公开提供的异常对象识别方法可以运行于服务器110,还可以运行于服务器110之外的终端。
图2是根据一示例性实施例示出的一种异常对象识别方法在群内团伙薅羊毛行为识别应用场景下的示意图。如图2所示,包括服务器210、基站220以及智能手机230。在图2中,智能手机230可以通过蜂窝网络与基站220连接,然后经由基站与服务器210进行通信。智能手机230安装有服务器210的运营方提供的App(Application,应用程序),智能手机230的用户在第一次使用该App时,需要在服务器210进行注册,服务器210会为该用户分配一个账号,账号可以绑定账户,通过使用该账号,智能手机230的用户可以进一步使用App,与服务器210进行更多的交互行为,这是目前典型的App的运行方式。这些App一般都可以建立聊天群,群内可以进行转账。当App运营方开展活动,比如开展例如注册领红包、参加活动返利等涉及金钱的发放的活动时,不法分子可能就会利用大量注册账号等能获取运营方的活动奖励的方式薅App运营方的羊毛,然后不法分子可以利用群内发红包的方式转移薅羊毛所得资金,给App运营方造成经济损失,所以有必要对薅羊毛行为进行识别,从而实现有针对性地打击。
图3是根据一示例性实施例示出的一种异常对象识别方法的流程图。如图3所示,包括以下步骤:
步骤310,获取包括多个对象数据的样本集。
其中,每一所述对象数据与对象对应,每一所述对象数据包括多个特征以及与每一特征对应的特征值,所述样本集还包括预先为每一对象数据标注的修正值。
修正值是对利用评分规则获得的对象数据的评分进行变换以得到专家评分的过程所使用的值,其中,专家评分是事先根据专家经验对对象数据进行判断从而得出的对象数据的评分。对象数据是与对象有关的数据,可以是涉及对象的自身属性或者对象运行产生的数据。比如,对于异常流量识别的应用场景,对象数据可以是与流量产生方的IP地址有关的数据,对应的对象可以是流量产生方的IP地址,而对象数据包括的特征可以是同一IP地址访问次数,使用同一IP地址访问的账号的数目,使用同一IP地址访问的终端使用的WI-FI名称的数目等,每一特征对应的特征值,则是对应特征的实际取值。
在一个实施例中,本公开所提供的异常对象识别方法可以应用于群内团伙薅羊毛行为识别的应用场景,对象数据可以是与发红包银行卡有关的数据,每一所述对象数据包括的多个特征可以有下列特征:群内发红包银行卡注册手机号个数与群内发红包银行卡个数的比值,发红包银行卡活动红包收入频数占比与发红包银行卡个数比值,其中,发红包银行卡活动红包收入频数占比为发红包银行卡活动红包收入频数与发红包银行卡绑定账户进出频数的比值,群内收红包银行卡注册手机号的个数等。每一手机号都可以作为一个账号进行注册,而每一注册账号都可以绑定一张或多张银行卡,而每一银行卡也可以用来绑定不同的注册账号,所以发红包银行卡注册手机号的个数可以为多个。相应地,每一特征对应的特征值,则是对应特征的实际取值,此处不再赘述。
在一个实施例中,同一对象数据包括的多个特征以及与每一特征对应的特征值通过映射表的方式进行存储,每一特征为映射表中的键(key),而与特征对应的特征值为值(value)。
步骤320,利用所述样本集中的对象数据的多个特征、与每一特征对应的特征值以及与每一对象数据对应的修正值,训练机器学习模型,得到对象分数修正值预测模型。
训练的机器学习模型可以是多种模型,比如可以是逻辑回归模型、神经网络模型等。具体地,机器学习模型的训练过程可以是这样的:将一个对象数据的多个特征以及与每一特征对应的特征值作为输入,输入至机器学习模型,得到机器学习模型输出的修正值,将该修正值与该对象数据对应的修正值进行比较,若两者不一致,则调整机器学习模型的系数或者权重,直至对于所述样本集中的多个对象数据,使得该机器学习模型根据所述多个对象数据中大多数对象数据输出的修正值和与对象数据对应的修正值相同或者类似。
步骤330,获取至少一个待识别对象数据。
待识别对象数据是待识别的对象产生的数据,与前述的对象数据类似,也可以包括相应的特征以及与每一特征对应的特征值。
比如,对于异常流量识别的应用场景,待识别对象数据可以是与流量产生方的IP地址有关的数据,而对于群内团伙薅羊毛行为识别的应用场景,待识别对象数据可以是与收发红包的银行卡有关的数据。
在一个实施例中,每隔预定时间段,获取在该预定时间段内数据发生变化的待识别对象数据。
在一个实施例中,每当数据发生一次变化,就获取该数据发生变化的待识别对象数据。
步骤340,将所述待识别对象数据输入至对象分数修正值预测模型,得到所述对象分数修正值预测模型输出的与每一所述待识别对象数据对应的修正值。
如前所述,待识别对象数据,也可以包括相应的特征以及与每一特征对应的特征值,则所述对象分数修正值预测模型就可以根据所述待识别对象数据的输入,输出相应的修正值,此外,由于所述对象分数修正值预测模型经过了训练,这样就可以认为所述对象分数修正值预测模型输出的与每一所述待识别对象数据对应的修正值在一定程度上是可靠而准确的。
步骤350,针对每一所述待识别对象数据,根据该待识别对象数据中的特征和特征值,在多个预设规则中获取该待识别对象数据满足的预定规则。
其中,每一预定规则与特征以及分数对应。
预定规则是用于在待识别对象数据中筛选可能的异常对象产生的数据。
在一个实施例中,待识别对象数据中的特征用于确定对应的预定规则,而特征值用于确定该待识别对象数据是否满足预定规则,即通过判断特征对应的特征值是否符合与该特征对应的预定规则,来获取待识别对象数据满足的预定规则。
比如,对于异常流量识别的应用场景,如果对象数据包括的特征是同一IP地址访问次数,使用同一IP地址访问的账号的数目以及使用同一IP地址访问的终端使用的WI-FI名称的数目,各特征对应的预定规则可以是同一IP地址访问次数大于8,使用同一IP地址访问的账号的数目大于6,使用同一IP地址访问的终端使用的WI-FI名称的数目大于7。
对于群内团伙薅羊毛行为识别的应用场景,如果对象数据包括的特征有:群内发红包银行卡注册手机号个数与群内发红包银行卡个数的比值,发红包银行卡活动红包收入频数占比与发红包银行卡个数比值,群内收红包银行卡注册手机号的个数,那么各特征对应的预定规则可以是:群内发红包银行卡注册手机号个数与群内发红包银行卡个数的比值大于或等于7,发红包银行卡活动红包收入频数占比与发红包银行卡个数比值大于或等于0.99,群内收红包银行卡注册手机号的个数大于或等于7。
在一个实施例中,每一预定规则对应的分数保存在事先根据经验建立的预定规则与分数对应关系表中,通过查找该预定规则与分数对应关系表,获取预定规则对应的分数。
步骤360,针对每一所述待识别对象数据,根据该待识别对象数据满足的预定规则、该待识别对象数据满足的每一预定规则对应的分数以及所述修正值,确定该待识别对象数据的评分。
在一个实施例中,所述对象分数修正值预测模型输出的与每一所述待识别对象数据对应的修正值为偏差修正值,步骤360具体包括以下步骤:
针对每一所述待识别对象数据,根据该待识别对象数据满足的预定规则、该待识别对象数据满足的每一预定规则对应的分数以及所述修正值,利用如下公式获取该待识别对象数据的评分:
其中,n为待识别对象数据满足的预定规则的数目,i为待识别对象数据满足的预定规则的序号,xi为待识别对象数据满足的第i个预定规则对应的分数,y为待识别对象数据的评分,μ为待识别对象数据的偏差修正值。
上述的偏差修正值是指利用增加偏差的方式修正利用预定规则获得的分数与待识别对象数据的评分的过程所需要的值,上述公式的特点在于,通过累加,将每一待识别对象数据满足的预定规则对应的分数都反映在最终获得的该待识别对象数据的评分之中。所以本实施例的好处是,通过累加所满足的预定规则对应分数的方式全面客观地反映了待识别对象数据对预定规则的满足情况,实现了对对象的异常程度的量化,提高了识别异常对象的精度。
在一个实施例中,所述对象分数修正值预测模型输出的与每一所述待识别对象数据对应的修正值为增长系数,所述针对每一所述待识别对象数据,根据该待识别对象数据满足的预定规则、该待识别对象数据满足的每一预定规则对应的分数以及所述修正值,确定该待识别对象数据的评分,包括:
针对每一所述待识别对象数据,根据该待识别对象数据满足的预定规则、该待识别对象数据满足的每一预定规则对应的分数以及所述修正值,利用如下公式获取该待识别对象数据的评分:
其中,n为待识别对象数据满足的预定规则的数目,i为待识别对象数据满足的预定规则的序号,xi为待识别对象数据满足的第i个预定规则对应的分数,y为待识别对象数据的评分,k为所述增长系数。
增长系数是指将利用预定规则获得的待识别对象数据的评分转变成要获取的待识别对象数据的实际评分需要增加的比例。
本实施例的好处在于,通过各预定规则实现了对待识别对象数据对应对象的异常程度的量化,同时,通过使用增长系数来对利用预定规则获得的分数进行进一步修正,使得获得的待识别对象数据的评分更为客观,提高了识别异常对象的精度。
在一个实施例中,每一预定规则包括基准值,步骤360具体包括以下步骤:
针对每一所述待识别对象数据,根据该待识别对象数据满足的预定规则、该待识别对象数据满足的每一预定规则对应的分数以及所述修正值,利用如下公式确定该待识别对象数据的评分:
其中,n为待识别对象数据满足的预定规则的数目,i为待识别对象数据满足的预定规则的序号,xi为待识别对象数据满足的第i个预定规则对应的分数,ρ为预定规则对应的特征的特征值与该预定规则的基准值的差值和该预定规则的基准值的比值,y为待识别对象数据的评分,μ为待识别对象数据的修正值。
在上述公式中,最终获得的待识别对象数据的评分不仅与该待识别对象数据满足的预定规则以及修正值有关,还与预定规则对应的特征的特征值相对于预定规则的基准值的变化量有关,变化量越大,相应的预定规则对应分数在获得的待识别对象数据的评分中的作用越大,即,使最终获得的待识别对象数据的评分更多。
在本实施例中,不仅使待识别对象满足的预定规则的评分反映在获得的待识别对象数据的评分之中,还让待识别对象对其所满足的预定规则的实际满足程度体现在最终获得的待识别对象数据的评分之中,在一定程度上实现了对待识别对象数据的评分进一步精细的量化,使得获得的待识别对象数据的评分更为可信,提高了识别异常对象的精度。
在一个实施例中,预定规则包括的基准值是预定规则中用于对特征对应特征值进行判断的限值。比如,对于异常流量识别的应用场景,如果一个特征对应的预定规则是使用同一IP地址访问的账号的数目大于6,则该预定规则包括的特征值是6。
步骤370,根据所述待识别对象数据的评分,在各待识别对象数据对应的对象中识别出异常对象。
在一个实施例中,所述根据所述待识别对象数据的评分,在各待识别对象数据对应的对象中识别出异常对象,包括:
获取评分大于预定评分阈值的待识别对象数据对应的对象作为异常对象。
综上所述,根据图3实施例提供的异常对象识别方法,通过首先训练机器学习模型,然后利用训练好的机器学习模型获得修正值,然后根据待识别对象数据满足的预定规则以及修正值来获得待识别对象数据的评分,最后根据待识别对象数据的评分来识别异常对象,使得识别结果能很好地对异常对象的异常程度进行量化,提高了识别异常对象的精度,提高了识别结果的可解释性。
图4是根据图3对应实施例示出的一实施例的步骤370的细节的流程图。在图4实施例中,所述待识别对象数据还包括至少一个豁免属性以及与每一豁免属性对应的豁免属性值,如图4所示,包括以下步骤:
步骤371,获取评分大于预定评分阈值的待识别对象数据作为候选异常对象数据。
比如,预定评分阈值为0.8,而如果一个待识别对象数据的评分为0.83,则由于该待识别对象数据的评分0.83大于预定评分阈值0.8,就会将该待识别对象数据作为候选异常对象数据。
步骤372,在候选异常对象数据中将豁免属性对应的豁免属性值小于与该豁免属性对应的预设豁免属性值阈值的候选异常对象数据过滤掉,并将过滤后的候选异常对象数据对应的对象作为异常对象。
豁免属性是能大大降低一个对象数据对应的对象为异常对象的可能性的属性,对应的豁免属性值则是豁免属性的实际取值。比如,对于群内团伙薅羊毛行为识别的应用场景,豁免属性可以为银行卡历史红包中奖金额,如果银行卡历史红包中奖金额小于银行卡历史红包中奖金额阈值,即银行卡历史红包的中奖金额足够小,则说明该候选异常对象数据对应的对象涉嫌参与薅羊毛行为的可能性较低,就可以将该候选异常对象数据过滤掉。
本实施例的好处在于,为对应的对象数据满足预定规则但不太可能为异常对象的对象提供了避免被识别为异常对象的途径,进一步提高了识别异常对象的准确率。
图5是根据图3对应实施例示出的一实施例的预定规则对应分数的确定方法流程图。如图5所示,包括以下步骤:
步骤510,获取包含多个对象数据的正样本。
在一个实施例中,正样本是满足预定条件的多个对象数据的集合,该预定条件用于在对象数据中筛选出对应的对象更可能是异常对象的对象数据。
比如,对于群内团伙薅羊毛行为识别的应用场景,对象数据还包括以下特征:历史上在群内有红包收发记录、银行卡历史中奖红包金额以及银行卡绑定的账户进出账频数,获取的正样本可以是历史上在群内有红包收发行为、银行卡历史中奖红包金额从大到小排名在前20%并且银行卡绑定的账户进出账频数从大到小排名在前20%的银行卡数据。
步骤520,确定所述正样本中对象数据的数目,作为第一数目。
在一个实施例中,本公开的实施终端中内嵌有计数器,通过利用该计数器,可以获得所述正样本中对象数据的数目。
步骤530,针对多个预定规则中的每一预定规则,确定所述正样本中满足该预定规则的对象数据的数目,作为第二数目。
在一个实施例中,本公开的实施终端中内设有计数器,针对多个预定规则中的每一预定规则,每当判断所述正样本中有一个对象数据满足该预定规则,计数器就加1,直至针对该预定规则,对所述正样本中的所有对象数据进行了判断,此时计数器计得的数值即为针对该预定规则获得的第二数目。
步骤540,针对多个预定规则中的每一预定规则,确定与该预定规则对应的所述第二数目和第一数目的比值。
步骤550,针对多个预定规则中的每一预定规则,将针对该预定规则确定的所述比值作为该预定规则对应的分数。
本实施例的好处在于,通过使用对应的对象是异常对象的可能性较高的对象数据作为正样本,然后完全根据满足预定规则的各对象数据在获取的正样本中的占比来确定每一预定规则对应的分数,提高了获取的与每一预定规则对应分数的可信度以及准确率。
本公开还提供了一种异常对象识别装置,以下是本公开的装置实施例。
图6是根据一示例性实施例示出的一种异常对象识别装置的框图。如图6所示,装置600包括:
第一获取模块610,被配置为获取包括多个对象数据的样本集,其中,每一所述对象数据与对象对应,每一所述对象数据包括多个特征以及与每一特征对应的特征值,所述样本集还包括预先为每一对象数据标注的修正值;
训练模块620,被配置为利用所述样本集中的对象数据的多个特征、与每一特征对应的特征值以及对象数据的修正值,训练机器学习模型,得到对象分数修正值预测模型;
第二获取模块630,被配置为获取至少一个待识别对象数据;
输入模块640,被配置为将所述待识别对象数据输入至对象分数修正值预测模型,得到所述对象分数修正值预测模型输出的与每一所述待识别对象数据对应的修正值;
第三获取模块650,被配置为针对每一所述待识别对象数据,根据该待识别对象数据中的特征和特征值,在多个预设规则中获取该待识别对象数据满足的预定规则,其中,每一预定规则与特征以及分数对应;
确定模块660,被配置为针对每一所述待识别对象数据,根据该待识别对象数据满足的预定规则、该待识别对象数据满足的每一预定规则对应的分数以及所述修正值,确定该待识别对象数据的评分;
识别模块670,被配置为根据所述待识别对象数据的评分,在各待识别对象数据对应的对象中识别出异常对象。
据本公开的第三方面,还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图7来描述根据本发明的这种实施方式的电子设备700。图7显示的电子设备700仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于:上述至少一个处理单元710、上述至少一个存储单元720、连接不同系统组件(包括存储单元720和处理单元710)的总线730。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元710执行,使得所述处理单元710执行本说明书上述“实施例方法”部分中描述的根据本发明各种示例性实施方式的步骤。
存储单元720可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)721和/或高速缓存存储单元722,还可以进一步包括只读存储单元(ROM)723。
存储单元720还可以包括具有一组(至少一个)程序模块725的程序/实用工具724,这样的程序模块725包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线730可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备700也可以与一个或多个外部设备900(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备700交互的设备通信,和/或与使得该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口750进行。并且,电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器760通过总线730与电子设备700的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备700使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
根据本公开的第四方面,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。
参考图8所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (10)
1.一种异常对象识别方法,其特征在于,所述方法包括:
获取包括多个对象数据的样本集,其中,每一所述对象数据与对象对应,每一所述对象数据包括多个特征以及与每一特征对应的特征值,所述样本集还包括预先为每一对象数据标注的修正值;
利用所述样本集中的对象数据的多个特征、与每一特征对应的特征值以及与每一对象数据对应的修正值,训练机器学习模型,得到对象分数修正值预测模型;
获取至少一个待识别对象数据;
将所述待识别对象数据输入至对象分数修正值预测模型,得到所述对象分数修正值预测模型输出的与每一所述待识别对象数据对应的修正值;
针对每一所述待识别对象数据,根据该待识别对象数据中的特征和特征值,在多个预设规则中获取该待识别对象数据满足的预定规则,其中,每一预定规则与特征以及分数对应;
针对每一所述待识别对象数据,根据该待识别对象数据满足的预定规则、该待识别对象数据满足的每一预定规则对应的分数以及所述修正值,确定该待识别对象数据的评分;
根据所述待识别对象数据的评分,在各待识别对象数据对应的对象中识别出异常对象。
2.根据权利要求1所述的方法,其特征在于,所述对象分数修正值预测模型输出的与每一所述待识别对象数据对应的修正值为增长系数,所述针对每一所述待识别对象数据,根据该待识别对象数据满足的预定规则、该待识别对象数据满足的每一预定规则对应的分数以及所述修正值,确定该待识别对象数据的评分,包括:
针对每一所述待识别对象数据,根据该待识别对象数据满足的预定规则、该待识别对象数据满足的每一预定规则对应的分数以及所述修正值,利用如下公式获取该待识别对象数据的评分:
其中,n为待识别对象数据满足的预定规则的数目,i为待识别对象数据满足的预定规则的序号,xi为待识别对象数据满足的第i个预定规则对应的分数,y为待识别对象数据的评分,k为所述增长系数。
3.根据权利要求1所述的方法,其特征在于,所述对象分数修正值预测模型输出的与每一所述待识别对象数据对应的修正值为偏差修正值,所述针对每一所述待识别对象数据,根据该待识别对象数据满足的预定规则、该待识别对象数据满足的每一预定规则对应的分数以及所述修正值,确定该待识别对象数据的评分,包括:
针对每一所述待识别对象数据,根据该待识别对象数据满足的预定规则、该待识别对象数据满足的每一预定规则对应的分数以及所述修正值,利用如下公式获取该待识别对象数据的评分:
其中,n为待识别对象数据满足的预定规则的数目,i为待识别对象数据满足的预定规则的序号,xi为待识别对象数据满足的第i个预定规则对应的分数,y为待识别对象数据的评分,μ为待识别对象数据的偏差修正值。
4.根据权利要求1所述的方法,其特征在于,所述根据所述待识别对象数据的评分,在各待识别对象数据对应的对象中识别出异常对象,包括:
获取评分大于预定评分阈值的待识别对象数据对应的对象作为异常对象。
5.根据权利要求1所述的方法,其特征在于,所述待识别对象数据还包括至少一个豁免属性以及与每一豁免属性对应的豁免属性值,所述根据所述待识别对象数据的评分,在各待识别对象数据对应的对象中识别出异常对象,包括:
获取评分大于预定评分阈值的待识别对象数据作为候选异常对象数据;
在候选异常对象数据中将豁免属性对应的豁免属性值小于与该豁免属性对应的预设豁免属性值阈值的候选异常对象数据过滤掉,并将过滤后的候选异常对象数据对应的对象作为异常对象。
6.根据权利要求1所述的方法,其特征在于,每一预定规则对应的分数是通过如下方式确定的:
获取包含多个对象数据的正样本;
确定所述正样本中对象数据的数目,作为第一数目;
针对多个预定规则中的每一预定规则,确定所述正样本中满足该预定规则的对象数据的数目,作为第二数目;
针对多个预定规则中的每一预定规则,确定与该预定规则对应的所述第二数目和第一数目的比值;
针对多个预定规则中的每一预定规则,将针对该预定规则确定的所述比值作为该预定规则对应的分数。
7.根据权利要求1所述的方法,其特征在于,每一预定规则包括基准值,所述针对每一所述待识别对象数据,根据该待识别对象数据满足的预定规则、该待识别对象数据满足的每一预定规则对应的分数以及所述修正值,确定该待识别对象数据的评分,包括:
针对每一所述待识别对象数据,根据该待识别对象数据满足的预定规则、该待识别对象数据满足的每一预定规则对应的分数以及所述修正值,利用如下公式确定该待识别对象数据的评分:
其中,n为待识别对象数据满足的预定规则的数目,i为待识别对象数据满足的预定规则的序号,xi为待识别对象数据满足的第i个预定规则对应的分数,ρ为预定规则对应的特征的特征值与该预定规则的基准值的差值和该预定规则的基准值的比值,y为待识别对象数据的评分,μ为待识别对象数据的修正值。
8.一种异常对象识别装置,其特征在于,所述装置包括:
第一获取模块,被配置为获取包括多个对象数据的样本集,其中,每一所述对象数据与对象对应,每一所述对象数据包括多个特征以及与每一特征对应的特征值,所述样本集还包括预先为每一对象数据标注的修正值;
训练模块,被配置为利用所述样本集中的对象数据的多个特征、与每一特征对应的特征值以及对象数据的修正值,训练机器学习模型,得到对象分数修正值预测模型;
第二获取模块,被配置为获取至少一个待识别对象数据;
输入模块,被配置为将所述待识别对象数据输入至对象分数修正值预测模型,得到所述对象分数修正值预测模型输出的与每一所述待识别对象数据对应的修正值;
第三获取模块,被配置为针对每一所述待识别对象数据,根据该待识别对象数据中的特征和特征值,在多个预设规则中获取该待识别对象数据满足的预定规则,其中,每一预定规则与特征以及分数对应;
确定模块,被配置为针对每一所述待识别对象数据,根据该待识别对象数据满足的预定规则、该待识别对象数据满足的每一预定规则对应的分数以及所述修正值,确定该待识别对象数据的评分;
识别模块,被配置为根据所述待识别对象数据的评分,在各待识别对象数据对应的对象中识别出异常对象。
9.一种计算机可读程序介质,其特征在于,其存储有计算机程序指令,当所述计算机程序指令被计算机执行时,使计算机执行根据权利要求1至7中任一项所述的方法。
10.一种电子设备,其特征在于,所述电子设备包括:
处理器;
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如权利要求1至7任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910435976.4A CN110348471B (zh) | 2019-05-23 | 2019-05-23 | 异常对象识别方法、装置、介质及电子设备 |
PCT/CN2019/103604 WO2020232902A1 (zh) | 2019-05-23 | 2019-08-30 | 异常对象识别方法、装置、计算设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910435976.4A CN110348471B (zh) | 2019-05-23 | 2019-05-23 | 异常对象识别方法、装置、介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110348471A CN110348471A (zh) | 2019-10-18 |
CN110348471B true CN110348471B (zh) | 2023-09-01 |
Family
ID=68173956
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910435976.4A Active CN110348471B (zh) | 2019-05-23 | 2019-05-23 | 异常对象识别方法、装置、介质及电子设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110348471B (zh) |
WO (1) | WO2020232902A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111985703B (zh) * | 2020-08-12 | 2022-07-29 | 支付宝(杭州)信息技术有限公司 | 一种用户身份状态预测方法、装置及设备 |
CN114666123A (zh) * | 2022-03-21 | 2022-06-24 | 阿里云计算有限公司 | 异常对象识别方法及装置 |
CN114419528B (zh) * | 2022-04-01 | 2022-07-08 | 浙江口碑网络技术有限公司 | 异常识别方法、装置、计算机设备及计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522304A (zh) * | 2018-11-23 | 2019-03-26 | 中国联合网络通信集团有限公司 | 异常对象识别方法及装置、存储介质 |
CN109639633A (zh) * | 2018-11-02 | 2019-04-16 | 平安科技(深圳)有限公司 | 异常流量数据识别方法、装置、介质及电子设备 |
WO2019072128A1 (zh) * | 2017-10-09 | 2019-04-18 | 北京京东尚科信息技术有限公司 | 对象识别方法及其系统 |
CN109787960A (zh) * | 2018-12-19 | 2019-05-21 | 中国平安人寿保险股份有限公司 | 异常流量数据识别方法、装置、介质及电子设备 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2972822A1 (fr) * | 2011-03-18 | 2012-09-21 | Semiocast | Procede et dispositif permettant de reperer et d'etiqueter des pics, des augmentations ou des variations anormales ou execptionnelles du debit d'un flux de documents numeriques |
CN103530562A (zh) * | 2013-10-23 | 2014-01-22 | 腾讯科技(深圳)有限公司 | 一种恶意网站的识别方法和装置 |
CN107153971B (zh) * | 2017-05-05 | 2021-02-26 | 北京京东尚科信息技术有限公司 | 用于识别app推广中设备作弊的方法及装置 |
CN109509048B (zh) * | 2017-09-15 | 2020-09-29 | 北京京东尚科信息技术有限公司 | 恶意订单识别方法、装置、电子设备及存储介质 |
CN109685536B (zh) * | 2017-10-18 | 2021-01-26 | 北京京东尚科信息技术有限公司 | 用于输出信息的方法和装置 |
US20190044967A1 (en) * | 2018-09-12 | 2019-02-07 | Intel Corporation | Identification of a malicious string |
CN109740352A (zh) * | 2018-12-28 | 2019-05-10 | 微梦创科网络科技(中国)有限公司 | 一种账号处理方法、装置及电子设备 |
-
2019
- 2019-05-23 CN CN201910435976.4A patent/CN110348471B/zh active Active
- 2019-08-30 WO PCT/CN2019/103604 patent/WO2020232902A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019072128A1 (zh) * | 2017-10-09 | 2019-04-18 | 北京京东尚科信息技术有限公司 | 对象识别方法及其系统 |
CN109639633A (zh) * | 2018-11-02 | 2019-04-16 | 平安科技(深圳)有限公司 | 异常流量数据识别方法、装置、介质及电子设备 |
CN109522304A (zh) * | 2018-11-23 | 2019-03-26 | 中国联合网络通信集团有限公司 | 异常对象识别方法及装置、存储介质 |
CN109787960A (zh) * | 2018-12-19 | 2019-05-21 | 中国平安人寿保险股份有限公司 | 异常流量数据识别方法、装置、介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110348471A (zh) | 2019-10-18 |
WO2020232902A1 (zh) | 2020-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108090567B (zh) | 电力通信系统故障诊断方法及装置 | |
CN110442712B (zh) | 风险的确定方法、装置、服务器和文本审理系统 | |
CN110992169A (zh) | 一种风险评估方法、装置、服务器及存储介质 | |
CN109345417B (zh) | 基于身份认证的业务人员的在线考核方法及终端设备 | |
US10452725B2 (en) | Web page recognizing method and apparatus | |
CN110348471B (zh) | 异常对象识别方法、装置、介质及电子设备 | |
CN111210335B (zh) | 用户风险识别方法、装置及电子设备 | |
CN109885597B (zh) | 基于机器学习的用户分群处理方法、装置及电子终端 | |
CN111181757B (zh) | 信息安全风险预测方法、装置以及计算设备、存储介质 | |
CN111582645B (zh) | 基于因子分解机的app风险评估方法、装置和电子设备 | |
CN111061948B (zh) | 一种用户标签推荐方法、装置、计算机设备及存储介质 | |
CN110162518B (zh) | 数据分组方法、装置、电子设备及存储介质 | |
CN109684198B (zh) | 待测试数据获取方法、装置、介质、电子设备 | |
CN109614780B (zh) | 生物信息认证方法及装置、存储介质、电子设备 | |
CN108804501B (zh) | 一种检测有效信息的方法及装置 | |
WO2021196935A1 (zh) | 数据校验方法、装置、电子设备和存储介质 | |
CN110704614B (zh) | 对应用中的用户群类型进行预测的信息处理方法及装置 | |
CN113360895A (zh) | 站群检测方法、装置及电子设备 | |
CN113032834A (zh) | 一种数据库表格处理方法、装置、设备及存储介质 | |
CN110348581B (zh) | 用户特征群中用户特征寻优方法、装置、介质及电子设备 | |
CN116628163A (zh) | 客服服务处理方法、装置、设备及存储介质 | |
CN110189141A (zh) | 发票的验证方法、装置和计算机设备 | |
CN110674839B (zh) | 异常用户识别方法、装置、存储介质及电子设备 | |
CN114282940A (zh) | 用于意图识别的方法及装置、存储介质及电子设备 | |
CN110083807B (zh) | 合同的修改影响自动预测方法、装置、介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |