CN114511022A - 特征筛选、行为识别模型训练、异常行为识别方法及装置 - Google Patents
特征筛选、行为识别模型训练、异常行为识别方法及装置 Download PDFInfo
- Publication number
- CN114511022A CN114511022A CN202210098887.7A CN202210098887A CN114511022A CN 114511022 A CN114511022 A CN 114511022A CN 202210098887 A CN202210098887 A CN 202210098887A CN 114511022 A CN114511022 A CN 114511022A
- Authority
- CN
- China
- Prior art keywords
- behavior
- feature
- screened
- combined
- importance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 132
- 206010000117 Abnormal behaviour Diseases 0.000 title claims abstract description 100
- 238000012216 screening Methods 0.000 title claims abstract description 81
- 238000012549 training Methods 0.000 title claims abstract description 64
- 230000006399 behavior Effects 0.000 claims abstract description 306
- 230000002452 interceptive effect Effects 0.000 claims abstract description 25
- 238000004364 calculation method Methods 0.000 claims abstract description 18
- 238000004590 computer program Methods 0.000 claims abstract description 14
- 238000010801 machine learning Methods 0.000 claims description 10
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 230000002159 abnormal effect Effects 0.000 abstract description 6
- 238000013135 deep learning Methods 0.000 abstract description 4
- 238000007405 data analysis Methods 0.000 abstract description 3
- 238000012545 processing Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 238000013136 deep learning model Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 239000002699 waste material Substances 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000003989 repetitive behavior Effects 0.000 description 2
- 208000013406 repetitive behavior Diseases 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Mathematical Physics (AREA)
- Human Resources & Organizations (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Economics (AREA)
- Biomedical Technology (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了特征筛选方法、行为识别模型训练方法、异常行为识别方法,以及与各方法对应的装置、电子设备、计算机可读存储介质及计算机程序产品,涉及深度学习、行为数据分析技术领域。该方法包括:基于获取到的多人交互社区下账号的基础行为特征,生成组合行为特征;基于目标群体指数计算待筛选行为特征的特征重要度,待筛选行为特征基于基础行为特征和组合行为特征确定;将特征重要度满足第一预设要求的待筛选行为特征,筛选为目标行为特征。应用该方法可以筛选出对多人交互社区下的账号行为是否存在异常的关键基础行为特征和组合行为特征,避免了在无区分能力的基础行为特征和组合行为特征上浪费运算资源,提升了资源利用率。
Description
技术领域
本公开涉及数据处理技术领域,具体涉及深度学习、行为数据分析技术领域,尤其涉及一种特征筛选方法、行为识别模型训练方法、异常行为识别方法,以及与各方法对应的装置、电子设备、计算机可读存储介质及计算机程序产品。
背景技术
诸如贴吧、论坛等形式的多人交互社区,为用户提供了信息交流平台,有益于信息的广泛传播。
但随着多人交互社区的发展、与各种活动的结合,逐渐产生了使用脚本来生成机器账号,并通过机器账号来作弊的现象,降低了统计结果的准确性。
发明内容
本公开实施例提出了一种特征筛选方法、行为识别模型训练方法、异常行为识别方法,以及与各方法对应的装置、电子设备、计算机可读存储介质及计算机程序产品。
第一方面,本公开实施例提出了一种特征筛选方法,包括:基于获取到的多人交互社区下账号的基础行为特征,生成组合行为特征;基于目标群体指数计算待筛选行为特征的特征重要度;其中,待筛选行为特征基于基础行为特征和组合行为特征确定;将特征重要度满足第一预设要求的待筛选行为特征,筛选为目标行为特征。
第二方面,本公开实施例提出了一种特征筛选装置,包括:组合行为特征生成单元,被配置成基于获取到的多人交互社区下账号的基础行为特征,生成组合行为特征;特征重要度计算单元,被配置成基于目标群体指数计算待筛选行为特征的特征重要度;其中,待筛选行为特征基于基础行为特征和组合行为特征确定;目标行为特征筛选单元,被配置成将特征重要度满足第一预设要求的待筛选行为特征,筛选为目标行为特征。
第三方面,本公开实施例提出了一种行为识别模型训练方法,包括:获取特征种类为目标行为特征的样本数据;其中,样本数据被预先进行了是否属于异常行为的判定结果标注,目标行为特征根据如第一方面中任一实现方式描述的特征筛选方法确定得到;通过样本数据训练初始的机器学习模型,得到训练完成的异常行为识别模型。
第四方面,本公开实施例提出了一种行为识别模型训练装置,包括:样本数据获取单元,被配置成获取特征种类为目标行为特征的样本数据;其中,样本数据被预先进行了是否属于异常行为的判定结果标注,目标行为特征根据如二方面中任一项的特征筛选装置确定得到;模型训练单元,被配置成通过样本数据训练初始的机器学习模型,得到训练完成的异常行为识别模型。
第五方面,本公开实施例提出了一种异常行为识别方法,包括:从目标多人交互社区下,获取各账号的操作指令数据;将操作指令数据输入异常行为识别模型,得到异常行为识别模型输出的异常行为判别结果;其中,异常行为识别模型根据如第三方面中任一实现方式描述的行为识别模型训练方法训练得到;根据异常行为判别结果确定存在异常行为的目标账号。
第六方面,本公开实施例提出了一种异常行为识别装置,包括:操作指令数据获取单元,被配置成从目标多人交互社区下,获取各账号的操作指令数据;数据输入及输出单元,被配置成将操作指令数据输入异常行为识别模型,得到异常行为识别模型输出的异常行为判别结果;其中,异常行为识别模型根据如第四方面中任一项的行为识别模型训练装置训练得到;目标账号确定单元,被配置成根据异常行为判别结果确定存在异常行为的目标账号。
第七方面,本公开实施例提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器执行时能够实现如第一方面中任一实现方式描述的特征筛选方法、如第三方面中任一实现方式描述的行为识别模型训练方法、如第五方面中任一实现方式描述的异常行为识别方法中的至少一种。
第八方面,本公开实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行时能够实现如第一方面中任一实现方式描述的特征筛选方法、如第三方面中任一实现方式描述的行为识别模型训练方法、如第五方面中任一实现方式描述的异常行为识别方法中的至少一种。
第九方面,本公开实施例提供了一种包括计算机程序的计算机程序产品,该计算机程序在被处理器执行时能够实现如第一方面中任一实现方式描述的特征筛选方法、如第三方面中任一实现方式描述的行为识别模型训练方法、如第五方面中任一实现方式描述的异常行为识别方法中的至少一种。
本公开实施例提供的特征筛选方法,将原应用于计算目标群体相对于整体在持有相同特征上的强弱势程度的目标群体指数(Target Group Index,TGI指数),转应用于计算基础行为特征和组合行为特征的特征重要度,进而基于该特征重要度筛选出对多人交互社区下的账号行为是否存在异常的关键特征,避免了在无区分能力的基础行为特征和组合行为特征上浪费运算资源,提升了资源利用率。
而在上述特征筛选方法的基础上,本公开又通过将筛选出的目标行为特征作用训练深度学习模型,有针对性的使用少量有效的目标行为特征,不仅可以减少模型网络的复杂度、减少模型大小,也借助深度学习模型的特性具有对更广泛特征进行结果识别的泛化能力。借助训练出的行为识别模型也提升了对存在异常行为的机器账号的识别准确率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
图1是本公开可以应用于其中的示例性系统架构;
图2为本公开实施例提供的一种特征筛选方法的流程图;
图3为本公开实施例提供的另一种特征筛选方法的流程图;
图4为本公开实施例提供的一种组合行为特征生成方法的流程图;
图5为本公开实施例提供的一种特征重要度计算方法的流程图;
图6为本公开实施例提供的一种行为识别模型训练方法的流程图;
图7为本公开实施例提供的一种异常行为识别方法的流程图;
图8为本公开实施例提供的一种特征筛选装置的结构框图;
图9为本公开实施例提供的一种行为识别模型训练装置的结构框图;
图10为本公开实施例提供的一种异常行为识别装置的结构框图;
图11为本公开实施例提供的一种适用于执行特征筛选方法、行为识别模型训练方法、异常行为识别方法中至少一项的电子设备的结构示意图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
图1示出了可以应用本申请的特征筛选方法、行为识别模型训练方法以及异常行为识别方法,以及相应的装置、电子设备及计算机可读存储介质的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103和服务器105上可以安装有各种用于实现两者之间进行信息通讯的应用,例如数据分析类应用、特征筛选类应用、模型训练类应用、模型使用类应用等。
终端设备101、102、103和服务器105可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等;当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中,其可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块,在此不做具体限定。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器;服务器为软件时,可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块,在此不做具体限定。
服务器105通过内置的各种应用可以提供各种服务,以可以提供特征筛选服务的特征筛选类应用为例,服务器105在运行该特征筛选类应用时可实现如下效果:首先,通过网络104获取存储于终端设备101、102、103中的多人交互社区下账号的基础行为特征;然后,基于基础行为特征生成组合行为特征;接下来,基于目标群体指数计算待筛选行为特征的特征重要度,该待筛选行为特征基于基础行为特征和组合行为特征确定;下一步,将特征重要度满足第一预设要求的待筛选行为特征,筛选为目标行为特征。
进一步的,服务器105在得到筛选出的目标行为特征后,可以通过内置的或外置的(可以理解为本地的或非本地的,或理解为仍由服务器105执行或由其它服务器来执行)的模型训练类应用,来对基于目标行为特征的样本进行模型训练,例如:获取特征种类为目标行为特征的样本数据;其中,样本数据被预先进行了是否属于异常行为的判定结果标注;通过样本数据训练初始的机器学习模型,得到训练完成的异常行为识别模型。
最终,针对训练好的异常行为识别模型,则可以通过模型使用类应用完成对实际数据的分析、得到模型输出的结果。
由于为训练得到行为识别模型需要占用较多的运算资源和较强的运算能力,因此本申请后续各实施例所提供的行为识别模型训练方法一般由拥有较强运算能力、较多运算资源的服务器(例如服务器105或其它服务器)来执行,相应地,行为识别模型训练装置一般也设置于服务器中。但同时也需要指出的是,在终端设备(例如终端设备101、102、103或其它未示出的终端设备)也具有满足要求的运算能力和运算资源时,终端设备也可以通过其上安装的模型训练类应用完成上述本交由服务器做的各项运算,进而输出与服务器同样的结果。相应的,装置也可以设置于终端设备中。
当然,用于训练得到行为识别模型的服务器可以不同于调用训练好的异常行为识别模型来使用的服务器。特殊的,经由服务器训练得到的异常行为识别模型也可以通过模型蒸馏的方式得到适合置入终端设备的轻量级的异常行为识别模型,进而可以根据实际需求的识别准确度灵活选择使用终端设备中的轻量级的异常行为识别模型,还是选择使用服务器中的较复杂的异常行为识别模型。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
请参考图2,图2为本公开实施例提供的一种特征筛选方法的流程图,其中流程200包括以下步骤:
步骤201:基于获取到的多人交互社区下账号的基础行为特征,生成组合行为特征;
本步骤旨在由特征筛选方法的执行主体(例如图1所示的服务器105)基于基础行为特征来生成所有可能的组合行为特征,即在本步骤生成组合行为特征的过程中,可以尝试所有可能的组合方式。
其中,该基础行为特征是指从多人交互社区下获取的每个用户账号的操作指令集中直接提取到的(例如从记录账号行为的账号行为日志中提取、或服务器的埋点日志,从埋点日志系统里提取可以全面反应用户行为的记录),例如发帖、浏览、点击等行为,以及这些行为的附属属性:IP地址、论坛主题ID等,而通过设定观察时间窗口,还可以简单统计得到包括但不限于以下统计特征:时间窗口内的发帖量、浏览量、点击量、去重后的不重复行为数量(或者重复行为数量)、IP切换次数等。即上述均可以作为该基础行为特征。
在获取到简单、直接、意义较明确的基础行为特征后,可基于任意数学运算将其组合为组合行为特征,例如组合特征F1=浏览量/发帖量、组合特征F2=发帖量/IP切换次数所示的两基础行为特征做除法的组合方式,也可以包括做乘法、做加减法、或者基于更复杂的数学运算确定出的复杂组合方式,涉及到的基础行为特征点的数量也可以不局限于2,甚至单个基础行为特征可以通过求和、求N次幂的方式形成组合行为特征。
需要说明的是,相较于意义较明确的基础行为特征,组合行为特征的意义将随着组合方式的复杂度增加更加难以理解,以组合特征F1为例,由于其做除法,可看出其表面含义是平均发一个贴,用户会浏览多少帖子,本质则反应了用户的浏览行为相对发帖行为的密度;组合特征F2则用于表示单个IP的发帖量。除了这些较为容易理解业务含义的组合方式,其它大多数组合特征的业务含义并不明确,而在业务含义并不明确的情况下,也就难以直接从业务含义的角度来确定其是否是一个有价值、能否用来区分异常行为的组合行为特征。
步骤202:基于目标群体指数计算待筛选行为特征的特征重要度;
在步骤201的基础上,本步骤旨在基于目标群体指数计算待筛选行为特征的特征重要度,其中,该待筛选行为特征基于基础行为特征和组合行为特征确定得到,即待筛选行为特征至少包含部分有价值、有区分度的基础行为特征和组合行为特征,将根据在本步骤之前可能存在的其它筛选方式来准确确定。
其中,该特征重要度实际上是指每个待筛选行为特征用于区分其在区分所属账户是否存在异常行为、是否属于存在作弊行为的机器账户方面的区分能力,并由该区分能力经量化处理后产生。也可以将其理解为特征区分度和该特征对于解决分类问题的贡献度的综合。
目标群体指数(Target Group Index,TGI指数)=[目标群体中具有某一特征的群体所占比例/总体中具有相同特征的群体所占比例]。例如,将某地区15-24岁的人作为目标群体,将去[电影网站A]看电影作为相同特征;若该地区15-24岁的人中,有8.9%的人去过[电影网站A]看电影,而在该地区总体人群中,有6.6%的人去过[电影网站A]看电影,则[电影网站A]在15-24岁人群中的TGI指数是1.349(8.9%/6.6%),其数额越大,就表明目标群体吻合度就越强势。
即TGI指数原表明不同特征用户关注问题的差异情况,其中TGI指数等于1表示平均水平,高于1则代表该类用户对某类问题的关注程度高于整体水平。而本申请则通过将组合行为特征作为TGI指数中的目标群体,来利用其特定所确定出的强弱势程度确定某个组合行为特征是否具有足够的特征区分度和对解决某个分类问题的足够贡献度。
步骤203:将特征重要度满足第一预设要求的待筛选行为特征,筛选为目标行为特征。
在步骤202的基础上,本步骤旨在由上述执行主体根据为每个待筛选行为特征确定出的特征重要度,来筛选出满足重要度要求(即该第一预设要求)的目标行为特征。简单来说,就是根据特征重要度的大小去除重要程度不足的基础行为特征和组合行为特征。
在该特征重要度表现为一个量化数值时,该第一预设要求也应当表现为一个具有区分意义的临界量化数值或基于临界量化数值指定的一个筛选标准,例如最小值、将所有大于最小值的行为特征筛选为目标行为特征,或者基于筛选数量所选定的一个排名前几的数值作为临界值。若该特征重要度表现为其它形式,该第一预设要求也应表现为与其表现形式对应的筛选条件,此处不做具体限定。
本公开实施例提供的特征筛选方法,将原应用于计算目标群体相对于整体在持有相同特征上的强弱势程度的目标群体指数(Target Group Index,TGI指数),转应用于计算基础行为特征和组合行为特征的特征重要度,进而基于该特征重要度筛选出对多人交互社区下的账号行为是否存在异常的关键特征,避免了在无区分能力的基础行为特征和组合行为特征上浪费运算资源,提升了资源利用率。
为了更好的对意义不明的组合行为特征进行有效性筛选,本公开实施例还通过图3提供了另一种特征筛选方法,其中流程300包括以下步骤:
步骤301:基于获取到的多人交互社区下账号的基础行为特征,生成组合行为特征;
步骤302:分别计算每个组合行为特征的变异系数;
当需要比较两组数据离散程度大小的时候,如果两组数据的测量尺度相差太大,或者数据量纲的不同,直接使用标准差来进行比较不合适,此时就应当消除测量尺度和量纲的影响。而变异系数(Coefficient of Variation)可以做到这一点,它是原始数据标准差与原始数据平均数的比Cv没有量纲,这样就可以进行客观比较了。事实上,可以认为变异系数和极差、标准差和方差一样,都是反映数据离散程度的绝对值。其数据大小不仅受变量值离散程度的影响,而且还受变量值平均水平大小的影响。
步骤303:将变异系数满足第二预设要求的组合行为特征,筛选为目标组合行为特征;
在步骤302的基础上,本步骤旨在由上述执行主体首先通过变异系数对所有组合行为特征进行第一次筛选,以筛选出具有较大变异系数的目标组合行为特征,舍去一些对后续用于异常行为识别意义或作用不大的组合行为特征。
步骤304:基于目标群体指数计算经变异系数筛选后的待筛选行为特征的特征重要度;
在步骤303的基础上,本步骤旨在由上述执行主体基于目标群体指数(即TGI指数)计算经变异系数筛选后的待筛选行为特征的特征重要度。其中,由于变异系数的筛选对象为组合行为特征,即在本实施例中的TGI指数计算对象为:基础行为特征和满足变异系数的第二预设要求筛选出的目标组合行为特征。相当于通过步骤302-步骤303的第一次筛选,减少了需要进行TGI指数计算的对象数量,以减少无用功。
步骤305:将特征重要度满足第一预设要求的待筛选行为特征,筛选为目标行为特征。
在流程200所示实施例的基础上,本实施例通过在计算TGI指数之前,先通过变异系数对所有组合出的组合行为特征进行有效性筛选,从而减少需要进行TGI指数计算的对象数量,以减少运算资源的浪费、提升最终结果的准确性。
请参考图4,图4为本公开实施例提供的一种获取组合行为特征的方法的流程图,即针对流程200中的步骤201和流程300中的步骤301提供了一种具体的实现方式,其它步骤并不做调整。即可通过将本实施例所提供的具体实现方式以替换步骤201或步骤301的方式得到新的完整实施例。其中流程400包括以下步骤:
步骤401:将获取到的基础行为特征通过随机数学运算,生成第一组合行为特征;
步骤402:将获取到的基础行为特征通过输入的指定运算方式,生成第二组合行为特征;
步骤403:将第一组合行为特征和第二组合行为特征均作为组合行为特征。
步骤401旨在通过随机生成的数学运算,来生成尽可能多的第一组合行为特征,而步骤402则通过接收输入的指定运算方式,来生成与指定运算方式对应的第二组合行为特征,来提升组合行为特征的针对性。最终通过汇总第一组合行为特征和第二组合行为特征,得到该组合行为特征,使得其兼具全面性和针对性。
请参考图5,图5为本公开实施例提供的一种计算特征重要度的方法的流程图,即针对流程200中的步骤202和流程300中的步骤304提供了一种具体的实现方式,其它步骤并不做调整。即可通过将本实施例所提供的具体实现方式以替换步骤202或步骤304的方式得到新的完整实施例。其中流程500包括以下步骤:
步骤501:针对有限类别的待筛选行为特征,基于目标群体指数分别计算每个类别的重要度参数;
步骤502:根据各类别的重要度参数确定出相应待筛选行为特征的特征重要度;
本实例所描述的有限类别的待筛选行为特征,是指该待筛选行为特征下所能够划分出的类别数量是已知的、可数的,例如若一个待筛选行为特征是与年龄相关,那么根据对象的年龄上下限来看,类别数是有限的。因此就可以基于目标群体指数分别计算每个类别的重要度参数,并进一步的结合各类别的重要度参数确定出相应待筛选行为特征的特征重要度。
具体的,在结合各类别的重要度参数确定出相应待筛选行为特征的特征重要度时,可以通过包括求取均值、求取中位数、求取众数在内的多种方式确定相应待筛选行为特征的特征重要度。
步骤503:针对无限类别的待筛选行为特征,按预设分桶方式进行分桶,并基于目标群体指数分别计算每个桶下的重要度参数;
步骤504:根据各桶下的重要度参数确定出相应待筛选行为特征的特征重要度。
区别于类别数有限的待筛选行为特征,无限类别的待筛选行为特征则是指类别划分不明确、不可数、上下限不明确的行为特征,因此在无法参照步骤501下明确的各类别进行计算时,本实施例提供了按预设分桶方式进行分桶,并基于目标群体指数分别计算每个桶下的重要度参数的计算方式,最终得以结合各桶下的重要度参数确定出相应待筛选行为特征的特征重要度。
数据分桶是一种数据预处理技术,用于减少次要观察误差的影响,是一种将多个连续值分组为较少数量的“桶”的方法。分桶的数据不一定必须是数字,它们可以是任意类型的值,如“猫”、“狗”等。分桶也可用于图像处理,通过将相邻像素组合成单个像素,可用于减少数据量。一般在建立分类模型时,需要对连续变量离散化,特征离散化后,模型会更稳定,降低了模型过拟合的风险。比如在建立申请评分卡模型时用logistic作为基模型就需要对连续变量进行离散化,离散化通常采用分桶法。
具体的,分桶方式可以包括:等值分桶、等频分桶、卡方分桶等。在本申请所针对的实际情况下,可以采用包括:仅使用等频分桶、仅使用卡方分桶、先使用等频分桶的方式进行分桶,再对经等频分桶后得到的桶按照卡方分桶的方式进行相似桶合并的分桶方式。
等频分桶顾名思义,使划分的区间中,样本数量尽量保持一致,等频分桶后的特征对于异常数据会有更强的鲁棒性,模型会更加的稳定。通过等频分桶,构造一定数量的分桶,但是相邻桶间有可能具有相似性,于是采用卡方分桶这种自底向上的分桶方式来合并相似的桶。即上述组合方式是首先通过等频分桶构造基础分桶结构,再依靠卡方分桶合并相临相似的桶,通过这种方式可以提高分桶效率,增加桶间差异,降低分桶数量,从而带来更好的效果。
上述各步骤所提供的计算特征重要度的思想,可以具体表现为下述计算公式:某个待筛选行为特征的特征重要度(ST)等于该特征各个类别(或分桶)下TGI和1的差值的绝对值求和后的平均。n为有限类的类别数或无限类的分桶数。
本实施例针对计算待筛选行为特征的特征重要度的步骤,通过划分待筛选行为特征所属的类别种类,将其划分为两种不同的处理方式,且充分结合其下各类型或各分桶的情况,使得最终确定出的特征重要度更加全面、准确。
图2-图5所示的各实施例,分别从不同角度对如何更好的实现特征筛选进行了阐述,下述将结合深度学习思想,提供一种对特征筛选的结果的使用方式,图6所示的流程600包括如下步骤:
步骤601:获取特征种类为目标行为特征的样本数据;
步骤602:通过样本数据训练初始的机器学习模型,得到训练完成的异常行为识别模型。
其中,该样本数据被预先进行了是否属于异常行为的判定结果标注,目标行为特征是根据上述各实施例提供的特征筛选方法确定得到。
少量特征可以通过业务专家根据经验制定阈值来制定规则,但随着机器作弊手段进化,简单依靠经验制定阈值的召回量和及时性大大下降。因而需要引入更多特征,来制定决策,但随着特征的增多,对于决策中特征优先级和阈值层次的设置带来了巨大的挑战。
随着机器学习和人工智能的发展,可以把寻找最优阈值和超平面的任务交给模型来完成。因此,先选择一个合适的机器学习模型,提取样本所对应标注结果;而为了使训练好的模型能在新的、未见过的数据上表现良好,还需要模拟新的、未见过的数据。普遍可采用两种数据分割方式:将所有可用样本划分为训练集(占比较大)和测试集(占比较小),然后用训练集进行模型训练、用测试集对初步训练好的模型进行学习效果测试(例如验证初步训练好模型的鲁棒性、是否存在过拟合问题等);另一种则是将所有可用数据分割成3部分:训练集、验证集和测试集,训练集用于建立预测模型,同时对验证集进行评估,据此进行预测,可以进行模型调优(如超参数优化),并根据验证集的结果选择性能最好的模型。类似于上面对测试集进行的操作,这里在验证集上做同样的操作。
在训练过程和调整过程中,可通过审查模型的损失值收敛效果和评价指标是否达到期望,如果没有达到逾期,通过模型调参方法(如gridsearchcv网格搜索和kfoldvalidation K折验证),迭代训练模型,直到模型的loss收敛且评价指标达到预期效果。
一种可能的模型是xgboost,损失函数logloss,评价指标auc,或者是使用深度学习构造一个包含1个输入层,一个输出层,多个隐含层的神经网络模型。
上述各实施例阐述了如何训练得到异常行为识别模型,为了尽可能的从实际使用场景突出训练出的异常行为识别模型所起到的效果,本公开还具体提供了一种使用训练好的异常行为识别模型来解决实际问题的方案,一种异常行为识别方法包括如下步骤:
步骤701:从目标多人交互社区下,获取各账号的操作指令数据;
步骤702:将操作指令数据输入异常行为识别模型,得到异常行为识别模型输出的异常行为判别结果;
步骤703:根据异常行为判别结果确定存在异常行为的目标账号。
即通过从目标多人交互社区中,获取实际的操作指令数据,然后将包含实际用户行为数据的操作指令数据输入异常行为识别模型,得到经异常行为识别模型分析后输出的异常行为判别结果,最终根据异常行为判别结果确定存在异常行为的目标账号。
需要说明的是,本公开上述内容都是针对从多人交互社区这一场景下,为挑选出能够用于识别存在作弊行为的机器账号的目标行为特征进行的描述,而上述各实施例所提供的特征筛选思想,实际上并不局限于上述场景,也同样可以适用于存在类似问题、类似需求的其它场景,例如针对服务器运维场景下挑选用于识别异常运行状态的组合特征,例如针对安全等级评价问题挑选用于能够准确评价安全等级的组合特征等等。
进一步参考图8、图9和图10,作为分别对图2、图6和图7所示方法的实现,本公开还分别提供了特征筛选装置的实施例、行为识别模型训练装置的实施例和异常行为识别装置的实施例,特征筛选装置实施例与图2所示的特征筛选方法实施例相对应,行为识别模型训练装置实施例与行为识别模型训练方法实施例相对应,异常行为识别装置实施例与异常行为识别方法实施例相对应。上述装置具体可以应用于各种电子设备中。
如图8所示,本实施例的特征筛选装置800可以包括:组合行为特征生成单元801、特征重要度计算单元802、目标行为特征筛选单元803。其中,组合行为特征生成单元801,被配置成基于获取到的多人交互社区下账号的基础行为特征,生成组合行为特征;特征重要度计算单元802,被配置成基于目标群体指数计算待筛选行为特征的特征重要度;其中,待筛选行为特征基于基础行为特征和组合行为特征确定;目标行为特征筛选单元803,被配置成将特征重要度满足第一预设要求的待筛选行为特征,筛选为目标行为特征。
在本实施例中,特征筛选装置800中:组合行为特征生成单元801、特征重要度计算单元802、目标行为特征筛选单元803的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-203的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,组合行为特征生成单元801可以被进一步配置成:
将获取到的基础行为特征通过随机数学运算,生成第一组合行为特征;
将获取到的基础行为特征通过输入的指定运算方式,生成第二组合行为特征;
将第一组合行为特征和第二组合行为特征均作为组合行为特征。
在本实施例的一些可选的实现方式中,特征筛选装置800还可以包括:
变异系数计算单元,被配置成在基于目标群体指数计算待筛选行为特征的特征重要度之前,分别计算每个组合行为特征的变异系数;
目标行为特征筛选单元,被配置成将变异系数满足第二预设要求的组合行为特征,筛选为目标组合行为特征;
对应的,特征重要度计算单元802可以被进一步配置成:
基于目标群体指数计算经变异系数筛选后的待筛选行为特征的特征重要度。
在本实施例的一些可选的实现方式中,特征重要度计算单元802可以包括:
第一计算子单元,被配置成针对有限类别的待筛选行为特征,基于目标群体指数分别计算每个类别的重要度参数;
第一筛选子单元,被配置成根据各类别的重要度参数确定出相应待筛选行为特征的特征重要度。
在本实施例的一些可选的实现方式中,特征重要度计算单元802可以包括:
第二计算子单元,被配置成针对无限类别的待筛选行为特征,按预设分桶方式进行分桶,并基于目标群体指数分别计算每个桶下的重要度参数;
第二筛选子单元,被配置成根据各桶下的重要度参数确定出相应待筛选行为特征的特征重要度。
在本实施例的一些可选的实现方式中,第二计算子单元可以包括被配置成按预设分桶方式进行分桶的分桶模块,分桶模块可以包括:
等频分桶子模块,被配置成按照等频分桶的方式进行分桶;或
卡方分桶子模块,被配置成按照卡方分桶的方式进行分桶;或
组合分桶子模块,被配置成先按照等频分桶的方式进行分桶,再对经等频分桶后得到的桶按照卡方分桶的方式进行相似桶合并。
如图9所示,本实施例的行为识别模型训练装置900可以包括:样本数据获取单元901、模型训练单元902。其中,样本数据获取单元901,被配置成获取特征种类为目标行为特征的样本数据;其中,样本数据被预先进行了是否属于异常行为的判定结果标注,目标行为特征根据特征筛选装置800确定得到;模型训练单元902,被配置成通过样本数据训练初始的机器学习模型,得到训练完成的异常行为识别模型。
在本实施例中,行为识别模型训练装置900中:样本数据获取单元901、模型训练单元902的具体处理及其所带来的技术效果可分别对应方法实施例中的相关说明,在此不再赘述。
如图10所示,本实施例的异常行为识别装置1000可以包括:操作指令数据获取单元1001、数据输入及输出单元1002、目标账号确定单元1003。其中,操作指令数据获取单元1001,被配置成从目标多人交互社区下,获取各账号的操作指令数据;数据输入及输出单元1002,被配置成将操作指令数据输入异常行为识别模型,得到异常行为识别模型输出的异常行为判别结果;其中,异常行为识别模型根据行为识别模型训练装置900训练得到;目标账号确定单元1003,被配置成根据异常行为判别结果确定存在异常行为的目标账号。
在本实施例中,异常行为识别装置1000中:操作指令数据获取单元1001、数据输入及输出单元1002、目标账号确定单元1003的具体处理及其所带来的技术效果可分别对应方法实施例中的相关说明,在此不再赘述。
本实施例作为对应于上述方法实施例的装置实施例存在。
本公开实施例提供的特征筛选装置,将原应用于计算目标群体相对于整体在持有相同特征上的强弱势程度的目标群体指数(Target Group Index,TGI指数),转应用于计算基础行为特征和组合行为特征的特征重要度,进而基于该特征重要度筛选出对多人交互社区下的账号行为是否存在异常的关键特征,避免了在无区分能力的基础行为特征和组合行为特征上浪费运算资源,提升了资源利用率。
而在上述特征筛选方案的基础上,本公开实施例提供的行为识别模型训练装置又通过将筛选出的目标行为特征作用训练深度学习模型,有针对性的使用少量有效的目标行为特征,不仅可以减少模型网络的复杂度、减少模型大小,也借助深度学习模型的特性具有对更广泛特征进行结果识别的泛化能力。借助训练出的行为识别模型也提升了对存在异常行为的机器账号的识别准确率。
根据本公开的实施例,本公开还提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器执行时能够实现上述任一实施例描述的特征筛选方法、行为识别模型训练方法、异常行为识别方法中的至少一种。
根据本公开的实施例,本公开还提供了一种可读存储介质,该可读存储介质存储有计算机指令,该计算机指令用于使计算机执行时能够实现上述任一实施例描述的特征筛选方法、行为识别模型训练方法、异常行为识别方法中的至少一种。
本公开实施例提供了一种计算机程序产品,该计算机程序在被处理器执行时能够实现上述任一实施例描述的特征筛选方法、行为识别模型训练方法、异常行为识别方法中的至少一种。
图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图11所示,设备1100包括计算单元1101,其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序,来执行各种适当的动作和处理。在RAM 1103中,还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。
设备1100中的多个部件连接至I/O接口1105,包括:输入单元1106,例如键盘、鼠标等;输出单元1107,例如各种类型的显示器、扬声器等;存储单元1108,例如磁盘、光盘等;以及通信单元1109,例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理,例如特征筛选方法、行为识别模型训练方法或异常行为识别方法。例如,在一些实施例中,特征筛选方法、行为识别模型训练方法或异常行为识别方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1108。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM1103并由计算单元1101执行时,可以执行上文描述的特征筛选方法、行为识别模型训练方法或异常行为识别方法的一个或多个步骤。备选地,在其他实施例中,计算单元1101可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行特征筛选方法、行为识别模型训练方法或异常行为识别方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决传统物理主机与虚拟专用服务器(VPS,Virtual Private Server)服务中存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (19)
1.一种特征筛选方法,包括:
基于获取到的多人交互社区下账号的基础行为特征,生成组合行为特征;
基于目标群体指数计算待筛选行为特征的特征重要度;其中,所述待筛选行为特征基于所述基础行为特征和所述组合行为特征确定;
将所述特征重要度满足第一预设要求的待筛选行为特征,筛选为目标行为特征。
2.根据权利要求1所述的方法,其中,基于获取到的多人交互社区下账号的基础行为特征,生成组合行为特征,包括:
将获取到的基础行为特征通过随机数学运算,生成第一组合行为特征;
将获取到的基础行为特征通过输入的指定运算方式,生成第二组合行为特征;
将所述第一组合行为特征和所述第二组合行为特征均作为所述组合行为特征。
3.根据权利要求1或2所述的方法,其中,在基于目标群体指数计算待筛选行为特征的特征重要度之前,还包括:
分别计算每个所述组合行为特征的变异系数;
将所述变异系数满足第二预设要求的组合行为特征,筛选为目标组合行为特征;
对应的,基于目标群体指数计算待筛选行为特征的特征重要度,包括:
基于所述目标群体指数计算经变异系数筛选后的待筛选行为特征的特征重要度。
4.根据权利要求1所述的方法,其中,所述基于目标群体指数计算待筛选行为特征的特征重要度,包括:
针对有限类别的待筛选行为特征,基于所述目标群体指数分别计算每个类别的重要度参数;
根据各类别的重要度参数确定出相应待筛选行为特征的特征重要度。
5.根据权利要求1所述的方法,其中,所述基于目标群体指数计算待筛选行为特征的特征重要度,包括:
针对无限类别的待筛选行为特征,按预设分桶方式进行分桶,并基于所述目标群体指数分别计算每个桶下的重要度参数;
根据各桶下的重要度参数确定出相应待筛选行为特征的特征重要度。
6.根据权利要求5所述的方法,其中,所述按预设分桶方式进行分桶,包括:
按照等频分桶的方式进行分桶;或
按照卡方分桶的方式进行分桶;或
先按照等频分桶的方式进行分桶,再对经等频分桶后得到的桶按照卡方分桶的方式进行相似桶合并。
7.一种行为识别模型训练方法,包括:
获取特征种类为目标行为特征的样本数据;其中,所述样本数据被预先进行了是否属于异常行为的判定结果标注,所述目标行为特征根据权利要求1-6中任一项的特征筛选方法确定得到;
通过所述样本数据训练初始的机器学习模型,得到训练完成的异常行为识别模型。
8.一种异常行为识别方法,包括:
从目标多人交互社区下,获取各账号的操作指令数据;
将所述操作指令数据输入异常行为识别模型,得到所述异常行为识别模型输出的异常行为判别结果;其中,所述异常行为识别模型根据权利要求7所述的行为识别模型训练方法训练得到;
根据所述异常行为判别结果确定存在异常行为的目标账号。
9.一种特征筛选装置,包括:
组合行为特征生成单元,被配置成基于获取到的多人交互社区下账号的基础行为特征,生成组合行为特征;
特征重要度计算单元,被配置成基于目标群体指数计算待筛选行为特征的特征重要度;其中,所述待筛选行为特征基于所述基础行为特征和所述组合行为特征确定;
目标行为特征筛选单元,被配置成将所述特征重要度满足第一预设要求的待筛选行为特征,筛选为目标行为特征。
10.根据权利要求9所述的装置,其中,所述组合行为特征生成单元被进一步配置成:
将获取到的基础行为特征通过随机数学运算,生成第一组合行为特征;
将获取到的基础行为特征通过输入的指定运算方式,生成第二组合行为特征;
将所述第一组合行为特征和所述第二组合行为特征均作为所述组合行为特征。
11.根据权利要求9或10所述的装置,还包括:
变异系数计算单元,被配置成在基于目标群体指数计算待筛选行为特征的特征重要度之前,分别计算每个所述组合行为特征的变异系数;
目标行为特征筛选单元,被配置成将所述变异系数满足第二预设要求的组合行为特征,筛选为目标组合行为特征;
对应的,所述特征重要度计算单元被进一步配置成:
基于所述目标群体指数计算经变异系数筛选后的待筛选行为特征的特征重要度。
12.根据权利要求9所述的装置,其中,所述特征重要度计算单元包括:
第一计算子单元,被配置成针对有限类别的待筛选行为特征,基于所述目标群体指数分别计算每个类别的重要度参数;
第一筛选子单元,被配置成根据各类别的重要度参数确定出相应待筛选行为特征的特征重要度。
13.根据权利要求9所述的装置,其中,所述特征重要度计算单元包括:
第二计算子单元,被配置成针对无限类别的待筛选行为特征,按预设分桶方式进行分桶,并基于所述目标群体指数分别计算每个桶下的重要度参数;
第二筛选子单元,被配置成根据各桶下的重要度参数确定出相应待筛选行为特征的特征重要度。
14.根据权利要求13所述的装置,其中,所述第二计算子单元包括被配置成按预设分桶方式进行分桶的分桶模块,所述分桶模块包括:
等频分桶子模块,被配置成按照等频分桶的方式进行分桶;或
卡方分桶子模块,被配置成按照卡方分桶的方式进行分桶;或
组合分桶子模块,被配置成先按照等频分桶的方式进行分桶,再对经等频分桶后得到的桶按照卡方分桶的方式进行相似桶合并。
15.一种行为识别模型训练装置,包括:
样本数据获取单元,被配置成获取特征种类为目标行为特征的样本数据;其中,所述样本数据被预先进行了是否属于异常行为的判定结果标注,所述目标行为特征根据权利要求9-14中任一项的特征筛选装置确定得到;
模型训练单元,被配置成通过所述样本数据训练初始的机器学习模型,得到训练完成的异常行为识别模型。
16.一种异常行为识别装置,包括:
操作指令数据获取单元,被配置成从目标多人交互社区下,获取各账号的操作指令数据;
数据输入及输出单元,被配置成将所述操作指令数据输入异常行为识别模型,得到所述异常行为识别模型输出的异常行为判别结果;其中,所述异常行为识别模型根据权利要求15所述的行为识别模型训练装置训练得到;
目标账号确定单元,被配置成根据所述异常行为判别结果确定存在异常行为的目标账号。
17.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的特征筛选方法、权利要求7所述的行为识别模型训练方法、权利要求8所述的异常行为识别方法中的至少一项。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的特征筛选方法、权利要求7所述的行为识别模型训练方法、权利要求8所述的异常行为识别方法中的至少一项。
19.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据权利要求1-6中任一项所述的特征筛选方法、权利要求7所述的行为识别模型训练方法、权利要求8所述的异常行为识别方法中的至少一项。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210098887.7A CN114511022B (zh) | 2022-01-24 | 2022-01-24 | 特征筛选、行为识别模型训练、异常行为识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210098887.7A CN114511022B (zh) | 2022-01-24 | 2022-01-24 | 特征筛选、行为识别模型训练、异常行为识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114511022A true CN114511022A (zh) | 2022-05-17 |
CN114511022B CN114511022B (zh) | 2022-12-27 |
Family
ID=81549690
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210098887.7A Active CN114511022B (zh) | 2022-01-24 | 2022-01-24 | 特征筛选、行为识别模型训练、异常行为识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114511022B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116226527A (zh) * | 2023-03-03 | 2023-06-06 | 中浙信科技咨询有限公司 | 通过居民大数据实现行为预测的数字化社区治理方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102117331A (zh) * | 2011-03-07 | 2011-07-06 | 北京百度网讯科技有限公司 | 视频搜索方法及系统 |
CN107528832A (zh) * | 2017-08-04 | 2017-12-29 | 北京中晟信达科技有限公司 | 一种面向系统日志的基线构建与未知异常行为检测方法 |
CN108073604A (zh) * | 2016-11-10 | 2018-05-25 | 北京国双科技有限公司 | 文本处理方法及装置 |
US20190019064A1 (en) * | 2017-07-14 | 2019-01-17 | Alibaba Group Holding Limited | Sample Screening Method and Apparatus, and Service Object Data Searching Method and Apparatus |
CN110544131A (zh) * | 2019-09-06 | 2019-12-06 | 创新奇智(重庆)科技有限公司 | 一种数据驱动的电商用户购买行为预测方法 |
CN110633304A (zh) * | 2019-08-15 | 2019-12-31 | 中国平安人寿保险股份有限公司 | 组合特征筛选方法、装置、计算机设备及存储介质 |
US20200320436A1 (en) * | 2019-04-08 | 2020-10-08 | Google Llc | Transformation for machine learning pre-processing |
CN112508118A (zh) * | 2020-12-16 | 2021-03-16 | 平安科技(深圳)有限公司 | 针对数据偏移的目标对象行为预测方法及其相关设备 |
CN112561082A (zh) * | 2020-12-22 | 2021-03-26 | 北京百度网讯科技有限公司 | 生成模型的方法、装置、设备以及存储介质 |
CN113011889A (zh) * | 2021-03-10 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 账号异常识别方法、系统、装置、设备及介质 |
CN113570222A (zh) * | 2021-07-15 | 2021-10-29 | 北京淇瑀信息科技有限公司 | 一种用户设备鉴别方法、装置和计算机设备 |
CN113704613A (zh) * | 2021-08-27 | 2021-11-26 | 北京达佳互联信息技术有限公司 | 资源推荐模型的训练方法、资源推荐方法、装置及服务器 |
-
2022
- 2022-01-24 CN CN202210098887.7A patent/CN114511022B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102117331A (zh) * | 2011-03-07 | 2011-07-06 | 北京百度网讯科技有限公司 | 视频搜索方法及系统 |
CN108073604A (zh) * | 2016-11-10 | 2018-05-25 | 北京国双科技有限公司 | 文本处理方法及装置 |
US20190019064A1 (en) * | 2017-07-14 | 2019-01-17 | Alibaba Group Holding Limited | Sample Screening Method and Apparatus, and Service Object Data Searching Method and Apparatus |
CN107528832A (zh) * | 2017-08-04 | 2017-12-29 | 北京中晟信达科技有限公司 | 一种面向系统日志的基线构建与未知异常行为检测方法 |
US20200320436A1 (en) * | 2019-04-08 | 2020-10-08 | Google Llc | Transformation for machine learning pre-processing |
CN110633304A (zh) * | 2019-08-15 | 2019-12-31 | 中国平安人寿保险股份有限公司 | 组合特征筛选方法、装置、计算机设备及存储介质 |
CN110544131A (zh) * | 2019-09-06 | 2019-12-06 | 创新奇智(重庆)科技有限公司 | 一种数据驱动的电商用户购买行为预测方法 |
CN112508118A (zh) * | 2020-12-16 | 2021-03-16 | 平安科技(深圳)有限公司 | 针对数据偏移的目标对象行为预测方法及其相关设备 |
CN112561082A (zh) * | 2020-12-22 | 2021-03-26 | 北京百度网讯科技有限公司 | 生成模型的方法、装置、设备以及存储介质 |
CN113011889A (zh) * | 2021-03-10 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 账号异常识别方法、系统、装置、设备及介质 |
CN113570222A (zh) * | 2021-07-15 | 2021-10-29 | 北京淇瑀信息科技有限公司 | 一种用户设备鉴别方法、装置和计算机设备 |
CN113704613A (zh) * | 2021-08-27 | 2021-11-26 | 北京达佳互联信息技术有限公司 | 资源推荐模型的训练方法、资源推荐方法、装置及服务器 |
Non-Patent Citations (4)
Title |
---|
BURK-RAFEL J等: "Development and validation of a machine learning-based decision support tool for residency applicant screening and review", 《ACADEMIC MEDICINE》 * |
夏崇欢: "基于行为特征分析的微博恶意用户检测方法", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 * |
耿秀丽等: "基于特征选择技术的顾客需求重要度确定方法", 《计算机集成制造系统》 * |
赵祺雯等: "基于注意力机制的众包任务推荐算法", 《现代计算机》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116226527A (zh) * | 2023-03-03 | 2023-06-06 | 中浙信科技咨询有限公司 | 通过居民大数据实现行为预测的数字化社区治理方法 |
CN116226527B (zh) * | 2023-03-03 | 2024-06-07 | 中浙信科技咨询有限公司 | 通过居民大数据实现行为预测的数字化社区治理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114511022B (zh) | 2022-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113657465B (zh) | 预训练模型的生成方法、装置、电子设备和存储介质 | |
CN111178380A (zh) | 数据分类方法、装置及电子设备 | |
CN110310114A (zh) | 对象分类方法、装置、服务器及存储介质 | |
CN111738331A (zh) | 用户分类方法及装置、计算机可读存储介质、电子设备 | |
CN110348516B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN111210332A (zh) | 贷后管理策略生成方法、装置及电子设备 | |
CN111179051A (zh) | 金融目标客户确定方法、装置及电子设备 | |
CN111191825A (zh) | 用户违约预测方法、装置及电子设备 | |
CN112819024B (zh) | 模型处理方法、用户数据处理方法及装置、计算机设备 | |
CN115619245A (zh) | 一种基于数据降维方法的画像构建和分类方法及系统 | |
CN114638695A (zh) | 信用评估方法、装置、设备及介质 | |
CN114494776A (zh) | 一种模型训练方法、装置、设备以及存储介质 | |
CN115545886A (zh) | 逾期风险识别方法、装置、设备及存储介质 | |
CN114511022B (zh) | 特征筛选、行为识别模型训练、异常行为识别方法及装置 | |
CN114896291A (zh) | 多智能体模型的训练方法和排序方法 | |
CN114092230A (zh) | 一种数据处理方法、装置、电子设备及计算机可读介质 | |
CN106649743A (zh) | 一种创意分类脑库资源存储与分享方法及系统 | |
CN110855474A (zh) | Kqi数据的网络特征提取方法、装置、设备及存储介质 | |
CN112734352A (zh) | 一种基于数据维度的单据审核方法和装置 | |
WO2023040220A1 (zh) | 一种视频推送方法、装置、电子设备及存储介质 | |
CN114548307A (zh) | 分类模型训练方法和装置、分类方法和装置 | |
CN116842936A (zh) | 关键词识别方法、装置、电子设备和计算机可读存储介质 | |
CN114266643A (zh) | 基于融合算法的企业挖掘方法、装置、设备及存储介质 | |
CN114090869A (zh) | 目标对象处理方法、装置、电子设备及存储介质 | |
CN113807391A (zh) | 任务模型的训练方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |