CN111163072A - 机器学习模型中特征值的确定方法、装置及电子设备 - Google Patents
机器学习模型中特征值的确定方法、装置及电子设备 Download PDFInfo
- Publication number
- CN111163072A CN111163072A CN201911349227.6A CN201911349227A CN111163072A CN 111163072 A CN111163072 A CN 111163072A CN 201911349227 A CN201911349227 A CN 201911349227A CN 111163072 A CN111163072 A CN 111163072A
- Authority
- CN
- China
- Prior art keywords
- sample data
- data set
- target
- determining
- machine learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/552—Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/145—Countermeasures against malicious traffic the attack involving the propagation of malware through the network, e.g. viruses, trojans or worms
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Virology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种机器学习模型中特征值的确定方法、装置、电子设备及存储介质。所述方法包括:先从离线行为数据集合中选取包含目标特征字段的样本数据集合,然后根据当前时间戳信息和每条样本数据对应的时间戳信息,从样本数据集合中确定符合预设取值时间段的目标样本数据集合,再根据用户当前时刻访问服务器产生的在线行为数据,以及目标样本数据集合,确定机器学习模型的特征值。相比于现有技术中采用笛卡尔积方法计算特征值的方式而言,本申请选取的目标样本数据集合的数据量远远小于笛卡尔积方法对应的数据量。进而,一方面能够降低特征值计算的难度,另一方面能够缩短特征及计算所耗费的时间,提高特征值的计算效率。
Description
技术领域
本申请涉及服务器安全技术领域,特别涉及一种机器学习模型中特征值的确定方法、装置、电子设备及存储介质。
背景技术
随着互联网的飞速发展,针对互联网应用的攻击行为也愈加泛滥,服务器提供的应用程序被恶意用户恶意访问,已经成为影响服务器运行安全的重要问题。
目前,通常基于机器学习模型来进行恶意用户的识别,而该机器学习模型是根据用户的历史访问行为的特征值以及用户恶意与否来训练得到的。其中,历史访问行为可以包括IP地址、登录设备、是否查阅帖子和是否回复帖子等行为,相应地,历史访问行为的特征值可以包括“IP地址更换频率”、“登录设备更换频率”、“查阅帖子的数量”和“回复帖子的数量”等。而模型训练的前提是特征值的确定,即如何根据样本数据确定特征值。
现有技术通常采用笛卡尔积的方法计算特征值,即,把样本数据看作是一个集合,包括N条数据记录,那么,采用笛卡尔积的方法就是将每条数据记录自关联后,得到N*N个组合,再分别对每个组合进行计算。但是实际运用过程中,样本数据中包括的数据记录的数量可以达到千万级,采用笛卡尔积的方法计算特征值将直接导致数据量以平方级增长,大大增加了特征值计算的难度,延长了特征值计算所耗费的时间。
基于此,目前亟需一种机器学习模型中特征值的确定方法,用于解决现有技术中采用笛卡尔积方法计算特征值难度高、花费时间长的问题。
发明内容
本申请提供了一种机器学习模型中特征值的确定方法、装置、电子设备及存储介质,可用于解决现有技术中采用笛卡尔积方法计算特征值难度高、花费时间长的技术问题。
第一方面,本申请实施例提供一种机器学习模型中特征值的确定方法,所述方法包括:
获取用户当前时刻访问服务器产生的在线行为数据,所述在线行为数据包括当前时间戳信息和目标特征字段;
从离线行为数据集合中选取包含所述目标特征字段的样本数据集合,所述样本数据集合包括多条样本数据;
根据所述当前时间戳信息和每条样本数据对应的时间戳信息,从所述样本数据集合中确定符合预设取值时间段的目标样本数据集合;
根据所述在线行为数据以及所述目标样本数据集合,确定机器学习模型的特征值。
结合第一方面,在第一方面的一种可实现方式中,从离线行为数据集合中选取包含所述目标特征字段的样本数据集合,包括:
根据所述离线行为数据集合中每条离线行为数据对应的用户信息,确定与当前时刻进行访问的用户相匹配的初始样本数据集合;
从所述初始样本数据集合中选取包含所述目标特征字段的样本数据集合。
结合第一方面,在第一方面的一种可实现方式中,根据所述当前时间戳信息和每条样本数据对应的时间戳信息,从所述样本数据集合中确定符合预设取值时间段的目标样本数据集合,包括:
根据每条样本数据对应的时间戳信息,将所述样本数据按照时间先后顺序进行排序;
根据所述当前时间戳信息以及排序后的样本数据,确定符合所述预设取值时间段的目标样本数据集合。
结合第一方面,在第一方面的一种可实现方式中,所述目标样本数据集合包括多条目标样本数据;
根据所述在线行为数据以及所述目标样本数据集合,确定机器学习模型的特征值,包括:
根据每条目标样本数据中所述目标特征字段的属性值以及所述在线行为数据中目标特征字段的属性值,确定机器学习模型的特征值。
结合第一方面,在第一方面的一种可实现方式中,确定机器学习模型的特征值之后,所述方法还包括:
根据所述特征值,训练机器学习模型。
第二方面,本申请实施例提供一种机器学习模型中特征值的确定装置,所述装置包括:
获取单元,用于获取用户当前时刻访问服务器产生的在线行为数据,所述在线行为数据包括当前时间戳信息和目标特征字段;以及,从离线行为数据集合中选取包含所述目标特征字段的样本数据集合,所述样本数据集合包括多条样本数据;
处理单元,用于根据所述当前时间戳信息和每条样本数据对应的时间戳信息,从所述样本数据集合中确定符合预设取值时间段的目标样本数据集合;以及,根据所述在线行为数据以及所述目标样本数据集合,确定机器学习模型的特征值。
结合第二方面,在第二方面的一种可实现方式中,所述获取单元具体用于:
根据所述离线行为数据集合中每条离线行为数据对应的用户信息,确定与当前时刻进行访问的用户相匹配的初始样本数据集合;以及,从所述初始样本数据集合中选取包含所述目标特征字段的样本数据集合。
结合第二方面,在第二方面的一种可实现方式中,所述处理单元具体用于:
根据每条样本数据对应的时间戳信息,将所述样本数据按照时间先后顺序进行排序;以及,根据所述当前时间戳信息以及排序后的样本数据,确定符合所述预设取值时间段的目标样本数据集合。
结合第二方面,在第二方面的一种可实现方式中,所述目标样本数据集合包括多条目标样本数据;
所述处理单元具体用于:
根据每条目标样本数据中所述目标特征字段的属性值以及所述在线行为数据中目标特征字段的属性值,确定机器学习模型的特征值。
结合第二方面,在第二方面的一种可实现方式中,所述处理单元还用于:
根据所述特征值,训练机器学习模型。
第三方面,本发明实施例提供了一种电子设备,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行所述存储器中的程序指令,以实现第一方面所述的特征值的确定方法。
第四方面,本发明实施例提供了一种存储介质,所述存储介质中存储有计算机程序,当特征值的确定装置的至少一个处理器执行所述计算机程序时,特征值的确定装置执行第一方面所述的特征值的确定方法。
本申请实施例中,可以先从离线行为数据集合中选取包含目标特征字段的样本数据集合,然后根据当前时间戳信息和每条样本数据对应的时间戳信息,从样本数据集合中确定符合预设取值时间段的目标样本数据集合,再根据用户当前时刻访问服务器产生的在线行为数据,以及目标样本数据集合,确定机器学习模型的特征值。可见,本申请实施例将样本数据按照时间顺序进行排序,可以快速地从排序后的样本数据中选取符合预设取值时间段的目标样本数据集合,相比于现有技术中采用笛卡尔积方法计算特征值的方式而言,本申请选取的目标样本数据集合的数据量远远小于笛卡尔积方法对应的数据量。进而,一方面能够降低特征值计算的难度,另一方面能够缩短特征及计算所耗费的时间,提高特征值的计算效率。
附图说明
图1为本申请实施例适用的一种场景的结构示意图;
图2为本申请实施例提供的一种机器学习模型中特征值的确定方法对应的流程示意图;
图3为本申请实施例涉及的整体架构的结构示意图;
图4为本申请实施例提供的一种机器学习模型中特征值的确定装置的结构示意图;
图5为本发明实施例提供的电子设备硬件结构示意图。
具体实施方式
随着互联网技术的不断发展,越来越多的用户通过网络获取资讯信息,在这一过程中,也会出现恶意用户恶意访问的情况,比如黑客频繁访问服务器导致服务器崩溃的情况。目前,通常采用风控系统根据机器学习模型来识别恶意用户。
机器学习模型是需要周期性更新的,具体的更新情况可以分为以下两种:
一种情况为,风控系统的检测要求越来越严格,这就要求机器学习模型的识别准确率也要提高,那么,就需要更新用于训练模型的特征类型。原来的模型可能是根据三种特征训练的,那么,新的模型可能是根据五种特征训练的,新增的两种特征对应的特征值就需要根据用户访问服务器的在线行为数据,以及该用户在过去一段时间内访问服务器产生的离线行为数据确定,从而能够提高模型的识别准确率。
另一种情况为,用户访问互联网是一个实时的过程,这就要求用于识别恶意用户的机器学习模型保持最新的状态,那么,就需要更新用于训练模型的特征值。即,针对同一种特征,机器学习模型需要及时根据用户访问服务器的在线行为数据,以及该用户在过去一段时间内访问服务器产生的离线行为数据确定最新的特征值,从而能够保证训练好的模型是最新的。
为了更加清楚地描述上述过程,下面结合图1对本申请实施例适用的可能的场景进行介绍。
请参考图1,其示例性示出了本申请实施例适用的一种场景的结构示意图。该场景可以包括终端设备101、服务器102、调度平台103、离线数据库104和风控系统105。
其中,用户可以通过终端设备101访问服务器102,从而产生在线行为数据。
调度平台103获取用户访问服务器102产生的在线行为数据,以及从离线数据库104中获取离线行为数据集合,根据在线行为数据和离线行为数据集合,可以确定特征值,该特征值可以用于训练机器学习模型。
风控系统105可以采用训练好的机器学习模型对新增用户进行预测。
现有技术中,调度平台103通常采用笛卡尔积的方法计算特征值,即,把样本数据看作是一个集合,包括N条数据记录,那么,采用笛卡尔积的方法就是将每条数据记录自关联后,得到N*N个组合,再分别对每个组合进行计算。但是实际运用过程中,样本数据中包括的数据记录的数量可以达到千万级,采用笛卡尔积的方法计算特征值将直接导致数据量以平方级增长,大大增加了特征值计算的难度,延长了特征值计算所耗费的时间。
基于此,本申请实施例提供一种机器学习模型中特征值的确定方法。如图2所示,为本申请实施例提供的一种机器学习模型中特征值的确定方法对应的流程示意图,具体包括如下步骤:
步骤201,获取用户当前时刻访问服务器产生的在线行为数据。
在线行为数据可以包括当前时间戳信息和目标特征字段。其中,时间戳信息是该行为数据产生的时间信息;目标特征字段可以是从特征字段中指定的任一字段。
特征字段可以有多种类型,比如用户IP地址、用户登录位置、用户登录设备、用户浏览数据、用户回复数据等。
其中,用户IP地址IP协议提供的一种统一的地址格式,它为互联网上的每一个网络和每一台主机分配一个逻辑地址。
用户登录位置是用户实际的地理位置,可以具体到街道位置、小区位置甚至楼栋位置。
用户登录设备是用户用于访问服务器的设备,比如,用户登录设备可以是台式计算机、笔记本电脑、平板电脑、手机、智能电视或可穿戴设备等。进一步地,如果用户登录设备是手机,还可以确定该手机的唯一性标识(如国际移动设备识别码(InternationalMobile Equipment Identity,IMEI))。需要说明的是,当用户设备是其它设备(如台式计算机、笔记本电脑、平板电脑、智能电视或可穿戴设备中的任一项),同样需要确定该设备的唯一性标识。
用户浏览数据是用户浏览互联网时获取到的数据,比如,用户浏览数据可以包括浏览的数据类型,比如是文本数据、图片数据或视频数据。进一步地,如果用户浏览数据是文本数据,还可以确定文本数据的标识(如统一资源定位系统(uniform resourcelocator,URL)或文本标题)。需要说明的是,当用户浏览数据是其它数据(如图片数据或视频数据),同样需要确定该数据的标识。
用户回复数据可以是用户向互联网发送的数据,比如,用户回复数据可以包括回复数据的类型,比如是文本数据、图片数据或视频数据。进一步地,如果用户回复数据是文本数据,还可以确定文本数据的标识(如URL或文本标题)。需要说明的是,当用户浏览数据是其它数据(如图片数据或视频数据),同样需要确定该数据的标识。
如表1所示,为在线行为数据的一种示例。其中,用户A的时间戳信息为2019-12-112:00:00,IP地址为211.152.65.111,地理位置为北京市,登录设备为设备a1;用户B的时间戳信息为2019-12-1 12:00:00,IP地址为211.152.65.121,地理位置为上海市,登录设备为设备b1;用户C的时间戳信息为2019-12-1 12:00:00,IP地址为211.152.65.131,地理位置为广州市,登录设备为设备c1。
表1:在线行为数据的一种示例
需要说明的是,表1仅为一种示例性表述,在其它可能的示例中,在线行为数据还可以包括用户浏览内容(比如用户浏览的网页、浏览的帖子主题)或用户回复内容(比如用户回复的网页、用户回复的帖子主题),具体不做限定。
进一步地,目标特征字段可以是根据机器学习模型的训练需求确定的。举个例子,原来的机器学习模型是根据用户IP地址和用户地理位置确定的,如果需要新增用户登录设备这一特征,则可以将用户登录设备作为目标特征字段。
步骤202,从离线行为数据集合中选取包含目标特征字段的样本数据集合。其中,样本数据集合可以包括多条样本数据。
在选取样本数据集合时,可以采用多种方式来选取。
一种可能的实现方式为,根据离线行为数据集合中每条离线行为数据对应的用户信息,确定与当前时刻进行访问的用户相匹配的初始样本数据集合;然后,可以从初始样本数据集合中选取包含目标特征字段的样本数据集合。
如表2所示,为离线行为数据集合的一种示例。其中,用户A在2019-12-1 11:00:00时,IP地址为211.152.65.112,地理位置为北京市,登录设备为设备a1;用户A在2019-12-111:15:00时,IP地址为211.152.65.113,地理位置为北京市,登录设备为设备a2;用户A在2019-12-1 11:30:00时,IP地址为211.152.65.111,地理位置为北京市,登录设备为设备a3;用户A在2019-12-1 11:45:00时,IP地址为211.152.65.112,地理位置为北京市,登录设备为设备a4。用户B在2019-12-1 11:00:00时,IP地址为211.152.65.121,地理位置为上海市,登录设备为设备b1;用户B在2019-12-1 11:15:00时,IP地址为211.152.65.121,地理位置为上海市,登录设备为设备b1;用户B在2019-12-1 11:30:00时,IP地址为211.152.65.121,地理位置为上海市,登录设备为设备b1;用户B在2019-12-1 11:45:00时,IP地址为211.152.65.121,地理位置为上海市,登录设备为设备b1。用户C在2019-12-1 11:00:00时,IP地址为211.152.65.131,地理位置为广州市,登录设备为设备c1;用户C在2019-12-1 11:15:00时,IP地址为211.152.65.131,地理位置为深圳市,登录设备为设备c2;用户C在2019-12-1 11:30:00时,IP地址为211.152.65.132,地理位置为广州市,登录设备为设备c3;用户C在2019-12-1 11:45:00时,IP地址为211.152.65.131,地理位置为深圳市,登录设备为设备c4。
表2:离线行为数据集合的一种示例。
以表2示出的离线行为数据集合为例,假设获取到的用户的在线行为数据为表1中示出的,用户A的时间戳信息为2019-12-1 12:00:00,IP地址为211.152.65.111,地理位置为北京市,登录设备为设备a1,那么,可以先确定初始样本数据集合(如表3所示)。
表3:初始样本数据集合的一种示例。
进一步地,可以从初始样本数据集合中选取包含目标特征字段的样本数据集合。假设目标特征字段为“用户登录设备”,则,结合表3示出的内容,可以确定出样本数据集合(如表4所示)。
表4:样本数据集合的一种示例。
表4中共包括4条样本数据,样本数据1为用户A在2019-12-1 11:00:00时,登录设备为设备a1;用户A在2019-12-1 11:15:00时,登录设备为设备a2;用户A在2019-12-1 11:30:00时,登录设备为设备a3;用户A在2019-12-1 11:45:00时,登录设备为设备a4。
另一种可能的实现方式为,从离线行为数据集合中选取包含目标特征字段的初始样本数据集合;然后,根据离线行为数据集合中每条离线行为数据对应的用户信息,确定与当前时刻进行访问的用户相匹配的样本数据集合。
仍然以表2示出的离线行为数据集合为例,假设获取到的用户的在线行为数据为表1中示出的,用户A的时间戳信息为2019-12-1 12:00:00,IP地址为211.152.65.111,地理位置为北京市,登录设备为设备a1,其中,目标特征字段为“用户登录设备”,那么,可以先确定初始样本数据集合(如表5所示)。
表5:初始样本数据集合的另一种示例。
进一步地,可以根据离线行为数据集合中每条离线行为数据对应的用户信息,从初始样本数据集合中确定与当前时刻进行访问的用户相匹配的样本数据集合。假设获取到的用户的在线行为数据为表1中示出的,用户A的时间戳信息为2019-12-1 12:00:00,IP地址为211.152.65.111,地理位置为北京市,登录设备为设备a1,那么,可以确定出样本数据集合(与表4示出的样本数据集合一致)。
步骤203,根据当前时间戳信息和每条样本数据对应的时间戳信息,从样本数据集合中确定符合预设取值时间段的目标样本数据集合。
具体来说,目标样本数据集合的确定方式可以有多种,一个示例中,可以根据每条样本数据对应的时间戳信息,将样本数据按照时间先后顺序进行排序;然后可以根据当前时间戳信息以及排序后的样本数据,确定符合预设取值时间段的目标样本数据集合。
举个例子,以表4示出的样本数据集合为例,按照时间戳信息,排序后的样本数据如下:样本数据1、样本数据2、样本数据3、样本数据4。假设预设取值时间段为半小时,由于当前时间戳信息为2019-12-1 12:00:00,可知,目标样本数据集合中包括样本数据3和样本数据4,具体可参见表6。
表6:目标样本数据集合的一种示例。
上述过程在实际应用过程中,也可以采用迭代的方式来确定,具体的逻辑代码如下:
采用排序的方式确定目标数据集合,在判断是否符合预设取值时间段时,无需将样本数据一一与当前时刻获取到的在线行为数据进行比较,从而能够降低特征值计算的难度,缩短特征及计算所耗费的时间,提高特征值的计算效率。
另一个示例中,可以根据当前时间戳信息和预设取值时间段,确定临界时间点,然后根据每条样本数据对应的时间戳信息,将在临界时间点之前的数据弃之,将在临界时间点之后的数据作为目标样本数据集合中的数据,从而确定出目标样本数据集合。
举个例子,仍然以表4示出的样本数据集合为例,假设预设取值时间段为半小时,当前时间戳信息为2019-12-1 12:00:00,可知,临界时间点为2019-12-1 11:30:00。样本时间1对应的时间戳信息为2019-12-1 11:00:00,在临界时间点之前,弃之;样本时间2对应的时间戳信息为2019-12-1 11:15:00,在临界时间点之前,弃之;样本时间3对应的时间戳信息为2019-12-1 11:30:00,在临界时间点之后,保留;样本时间4对应的时间戳信息为2019-12-1 11:45:00,在临界时间点之后,保留。可见,目标样本数据集合中包括样本数据3和样本数据4(与表6示出的目标样本数据集合一致)。
步骤204,根据所述在线行为数据以及所述目标样本数据集合,确定机器学习模型的特征值。
根据上述内容可知,目标样本数据集合中可以包括多条目标样本数据。以表6示出的目标样本数据集合为例,可以包括2条目标样本数据。其中,目标样本数据1为用户A在2019-12-1 11:30:00时,登录设备为设备a3;目标样本数据2为用户A在2019-12-1 11:45:00时,登录设备为设备a4。
在确定机器学习模型的特征值时,可以根据每条目标样本数据中目标特征字段的属性值以及在线行为数据中目标特征字段的属性值,确定机器学习模型的特征值。
需要说明的是,目标特征字段的不同,相应地,机器学习模型的特征值也是不同的。
如果目标特征字段为“用户登录设备”,那么,特征值可以是“预设取值时间段内用户登录设备的更换次数”;如果目标特征字段为“用户IP地址”,那么,特征值可以是“预设取值时间段内用户IP地址的更换次数”;如果目标特征字段为“用户地理位置”,那么,特征值可以是“预设取值时间段内用户地理位置的更换次数”。
以目标特征字段为“用户登录设备”为例,根据上文所举的例子可知,目标样本数据集合为例,可以包括2条目标样本数据。其中,目标样本数据1为用户A在2019-12-1 11:30:00时,登录设备为设备a3;目标样本数据2为用户A在2019-12-1 11:45:00时,登录设备为设备a4;且,根据表1示出的内容可知,用户A的时间戳信息为2019-12-1 12:00:00,I登录设备为设备a1;那么,特征值“预设取值时间段内用户登录设备的更换次数”可以根据每条目标样本数据中目标特征字段的属性值以及在线行为数据中目标特征字段的属性值进行计算,可以确定预设取值时间段内用户登录设备的更换次数为3。
为了更加清楚地描述本申请实施例提供的机器学习模型中特征值的确定方法,下面具体描述实际应用的情形。
在实际应用过程中,在获取用户当前时刻访问服务器产生的在线行为数据后,可以采用MapReduce读取Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)上的离线行为数据集合;然后,利用Shuffle机制(及数据从Map阶段传递给Reduce阶段的过程)对离线行为数据集合中指定的字段(如用户名)进行分类,相同字段的数据可以分配到同一台机器上运算;分类后的数据可以读取到reduce中,并对分类后的数据时间进行排序,然后选取迭代数组。
在执行步骤204之后,可以根据该特征值,训练机器学习模型。比如,如果用户A为恶意用户,且在预设取值时间段内用户登录设备的更换次数为3次,则可以将“3恶意”作为机器学习模型的训练参数。当选取的用户越多,得到的训练参数也越多,训练后的机器学习模型的预测准确率也就越高。
本申请实施例中,可以先从离线行为数据集合中选取包含目标特征字段的样本数据集合,然后根据当前时间戳信息和每条样本数据对应的时间戳信息,从样本数据集合中确定符合预设取值时间段的目标样本数据集合,再根据用户当前时刻访问服务器产生的在线行为数据,以及目标样本数据集合,确定机器学习模型的特征值。可见,本申请实施例将样本数据按照时间顺序进行排序,可以快速地从排序后的样本数据中选取符合预设取值时间段的目标样本数据集合,相比于现有技术中采用笛卡尔积方法计算特征值的方式而言,本申请选取的目标样本数据集合的数据量远远小于笛卡尔积方法对应的数据量。进而,一方面能够降低特征值计算的难度,另一方面能够缩短特征及计算所耗费的时间,提高特征值的计算效率。
下面基于图3,对本申请实施例涉及的整体架构进行描述。
从图3中可以看出,用户通过终端设备访问服务器产生的在线行为数据,可以存储在图3示出的线上特征库中,调度平台103分别从线上特征库和离线数据库中获取行为数据,并基于这些行为数据,生成特征值,用于模型训练。训练好的模型可以提供给风控系统105,用于预测用户是否为恶意用户。抽检平台可以随机从风控系统105中抽取预测结果,并在样本库中对预测结果进行人工审核,而人工审核的结构可以反过来为调度平台103生成特征值的过程提供参考依据。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图4示例性示出了本申请实施例提供的一种机器学习模型中特征值的确定装置的结构示意图。如图4所示,该装置具有实现上述特征值的确定方法的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以包括:获取单元401和处理单元402。
获取单元401,用于获取用户当前时刻访问服务器产生的在线行为数据,所述在线行为数据包括当前时间戳信息和目标特征字段;以及,从离线行为数据集合中选取包含所述目标特征字段的样本数据集合,所述样本数据集合包括多条样本数据;
处理单元402,用于根据所述当前时间戳信息和每条样本数据对应的时间戳信息,从所述样本数据集合中确定符合预设取值时间段的目标样本数据集合;以及,根据所述在线行为数据以及所述目标样本数据集合,确定机器学习模型的特征值。
可选地,所述获取单元401具体用于:
根据所述离线行为数据集合中每条离线行为数据对应的用户信息,确定与当前时刻进行访问的用户相匹配的初始样本数据集合;以及,从所述初始样本数据集合中选取包含所述目标特征字段的样本数据集合。
可选地,所述处理单元402具体用于:
根据每条样本数据对应的时间戳信息,将所述样本数据按照时间先后顺序进行排序;以及,根据所述当前时间戳信息以及排序后的样本数据,确定符合所述预设取值时间段的目标样本数据集合。
可选地,所述目标样本数据集合包括多条目标样本数据;
所述处理单元402具体用于:
根据每条目标样本数据中所述目标特征字段的属性值以及所述在线行为数据中目标特征字段的属性值,确定机器学习模型的特征值。
可选地,所述处理单元302还用于:
根据所述特征值,训练机器学习模型。
图5为本发明实施例提供的电子设备硬件结构示意图。如图5所示,本发明实施例提供的电子设备包括:存储器501,用于存储程序指令;处理器502,用于调用并执行所述存储器中的程序指令,以实现上述实施例所述的特征值的确定方法。
本实施例中,处理器502和存储器501可通过总线或其他方式连接。处理器可以是通用处理器,例如中央处理器、数字信号处理器、专用集成电路,或者被配置成实施本发明实施例的一个或多个集成电路。存储器可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘。
本发明实施例还提供了一种存储介质,所述存储介质中存储有计算机程序,当特征值的确定装置的至少一个处理器执行所述计算机程序时,特征值的确定装置执行上述实施例所述的特征值的确定方法。
本申请实施例中,可以先从离线行为数据集合中选取包含目标特征字段的样本数据集合,然后根据当前时间戳信息和每条样本数据对应的时间戳信息,从样本数据集合中确定符合预设取值时间段的目标样本数据集合,再根据用户当前时刻访问服务器产生的在线行为数据,以及目标样本数据集合,确定机器学习模型的特征值。可见,本申请实施例将样本数据按照时间顺序进行排序,可以快速地从排序后的样本数据中选取符合预设取值时间段的目标样本数据集合,相比于现有技术中采用笛卡尔积方法计算特征值的方式而言,本申请选取的目标样本数据集合的数据量远远小于笛卡尔积方法对应的数据量。进而,一方面能够降低特征值计算的难度,另一方面能够缩短特征及计算所耗费的时间,提高特征值的计算效率。
所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-only memory,简称:ROM)或随机存储记忆体(英文:random access memory,简称:RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于服务构建装置和服务加载装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。
以上所述的本发明实施方式并不构成对本发明保护范围的限定。
Claims (12)
1.一种机器学习模型中特征值的确定方法,其特征在于,所述方法包括:
获取用户当前时刻访问服务器产生的在线行为数据,所述在线行为数据包括当前时间戳信息和目标特征字段;
从离线行为数据集合中选取包含所述目标特征字段的样本数据集合,所述样本数据集合包括多条样本数据;
根据所述当前时间戳信息和每条样本数据对应的时间戳信息,从所述样本数据集合中确定符合预设取值时间段的目标样本数据集合;
根据所述在线行为数据以及所述目标样本数据集合,确定机器学习模型的特征值。
2.根据权利要求1所述的方法,其特征在于,从离线行为数据集合中选取包含所述目标特征字段的样本数据集合,包括:
根据所述离线行为数据集合中每条离线行为数据对应的用户信息,确定与当前时刻进行访问的用户相匹配的初始样本数据集合;
从所述初始样本数据集合中选取包含所述目标特征字段的样本数据集合。
3.根据权利要求1所述的方法,其特征在于,根据所述当前时间戳信息和每条样本数据对应的时间戳信息,从所述样本数据集合中确定符合预设取值时间段的目标样本数据集合,包括:
根据每条样本数据对应的时间戳信息,将所述样本数据按照时间先后顺序进行排序;
根据所述当前时间戳信息以及排序后的样本数据,确定符合所述预设取值时间段的目标样本数据集合。
4.根据权利要求3所述的方法,其特征在于,所述目标样本数据集合包括多条目标样本数据;
根据所述在线行为数据以及所述目标样本数据集合,确定机器学习模型的特征值,包括:
根据每条目标样本数据中所述目标特征字段的属性值以及所述在线行为数据中目标特征字段的属性值,确定机器学习模型的特征值。
5.根据权利要求1所述的方法,其特征在于,确定机器学习模型的特征值之后,所述方法还包括:
根据所述特征值,训练机器学习模型。
6.一种机器学习模型中特征值的确定装置,其特征在于,所述装置包括:
获取单元,用于获取用户当前时刻访问服务器产生的在线行为数据,所述在线行为数据包括当前时间戳信息和目标特征字段;以及,从离线行为数据集合中选取包含所述目标特征字段的样本数据集合,所述样本数据集合包括多条样本数据;
处理单元,用于根据所述当前时间戳信息和每条样本数据对应的时间戳信息,从所述样本数据集合中确定符合预设取值时间段的目标样本数据集合;以及,根据所述在线行为数据以及所述目标样本数据集合,确定机器学习模型的特征值。
7.根据权利要求6所述的装置,其特征在于,所述获取单元具体用于:
根据所述离线行为数据集合中每条离线行为数据对应的用户信息,确定与当前时刻进行访问的用户相匹配的初始样本数据集合;以及,从所述初始样本数据集合中选取包含所述目标特征字段的样本数据集合。
8.根据权利要求6所述的装置,其特征在于,所述处理单元具体用于:
根据每条样本数据对应的时间戳信息,将所述样本数据按照时间先后顺序进行排序;以及,根据所述当前时间戳信息以及排序后的样本数据,确定符合所述预设取值时间段的目标样本数据集合。
9.根据权利要求8所述的装置,其特征在于,所述目标样本数据集合包括多条目标样本数据;
所述处理单元具体用于:
根据每条目标样本数据中所述目标特征字段的属性值以及所述在线行为数据中目标特征字段的属性值,确定机器学习模型的特征值。
10.根据权利要求6所述的装置,其特征在于,所述处理单元还用于:
根据所述特征值,训练机器学习模型。
11.一种电子设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行所述存储器中的程序指令,以实现权利要求1至5中任一项所述的特征值的确定方法。
12.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,当特征值的确定装置的至少一个处理器执行所述计算机程序时,特征值的确定装置执行权利要求1至5中任一项所述的特征值的确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911349227.6A CN111163072B (zh) | 2019-12-24 | 2019-12-24 | 机器学习模型中特征值的确定方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911349227.6A CN111163072B (zh) | 2019-12-24 | 2019-12-24 | 机器学习模型中特征值的确定方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111163072A true CN111163072A (zh) | 2020-05-15 |
CN111163072B CN111163072B (zh) | 2022-06-10 |
Family
ID=70557872
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911349227.6A Active CN111163072B (zh) | 2019-12-24 | 2019-12-24 | 机器学习模型中特征值的确定方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111163072B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111784513A (zh) * | 2020-07-27 | 2020-10-16 | 湖南华威金安企业管理有限公司 | 催收案件分案方法、装置和电子设备 |
CN112560938A (zh) * | 2020-12-11 | 2021-03-26 | 上海哔哩哔哩科技有限公司 | 模型训练方法、装置及计算机设备 |
CN112612768A (zh) * | 2020-12-11 | 2021-04-06 | 上海哔哩哔哩科技有限公司 | 模型训练方法和装置 |
WO2021244639A1 (zh) * | 2020-06-05 | 2021-12-09 | 第四范式(北京)技术有限公司 | 利用机器学习模型进行线上预测的辅助实现方法及装置 |
WO2021248707A1 (zh) * | 2020-06-12 | 2021-12-16 | 完美世界(北京)软件科技发展有限公司 | 一种操作的验证方法和装置 |
WO2022068600A1 (zh) * | 2020-09-30 | 2022-04-07 | 百果园技术(新加坡)有限公司 | 异常用户检测模型训练方法、异常用户审核方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102227121A (zh) * | 2011-06-21 | 2011-10-26 | 中国科学院软件研究所 | 基于机器学习的分布式缓存策略自适应切换方法及系统 |
US20130197890A1 (en) * | 2010-11-18 | 2013-08-01 | Sony Corporation | Data processing device, data processing method, and program |
CN104424294A (zh) * | 2013-09-02 | 2015-03-18 | 阿里巴巴集团控股有限公司 | 一种信息处理方法及装置 |
CN110520874A (zh) * | 2017-03-31 | 2019-11-29 | H2O人工智能公司 | 基于时间的全体机器学习模型 |
-
2019
- 2019-12-24 CN CN201911349227.6A patent/CN111163072B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130197890A1 (en) * | 2010-11-18 | 2013-08-01 | Sony Corporation | Data processing device, data processing method, and program |
CN102227121A (zh) * | 2011-06-21 | 2011-10-26 | 中国科学院软件研究所 | 基于机器学习的分布式缓存策略自适应切换方法及系统 |
CN104424294A (zh) * | 2013-09-02 | 2015-03-18 | 阿里巴巴集团控股有限公司 | 一种信息处理方法及装置 |
CN110520874A (zh) * | 2017-03-31 | 2019-11-29 | H2O人工智能公司 | 基于时间的全体机器学习模型 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021244639A1 (zh) * | 2020-06-05 | 2021-12-09 | 第四范式(北京)技术有限公司 | 利用机器学习模型进行线上预测的辅助实现方法及装置 |
WO2021248707A1 (zh) * | 2020-06-12 | 2021-12-16 | 完美世界(北京)软件科技发展有限公司 | 一种操作的验证方法和装置 |
CN111784513A (zh) * | 2020-07-27 | 2020-10-16 | 湖南华威金安企业管理有限公司 | 催收案件分案方法、装置和电子设备 |
WO2022068600A1 (zh) * | 2020-09-30 | 2022-04-07 | 百果园技术(新加坡)有限公司 | 异常用户检测模型训练方法、异常用户审核方法及装置 |
CN112560938A (zh) * | 2020-12-11 | 2021-03-26 | 上海哔哩哔哩科技有限公司 | 模型训练方法、装置及计算机设备 |
CN112612768A (zh) * | 2020-12-11 | 2021-04-06 | 上海哔哩哔哩科技有限公司 | 模型训练方法和装置 |
CN112560938B (zh) * | 2020-12-11 | 2023-08-25 | 上海哔哩哔哩科技有限公司 | 模型训练方法、装置及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111163072B (zh) | 2022-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111163072B (zh) | 机器学习模型中特征值的确定方法、装置及电子设备 | |
US9836346B2 (en) | Error troubleshooting using a correlated knowledge base | |
CN112868004B (zh) | 资源推荐方法、装置、电子设备及存储介质 | |
CN107784010B (zh) | 一种用于确定新闻主题的热度信息的方法与设备 | |
CN107305611B (zh) | 恶意账号对应的模型建立方法和装置、恶意账号识别的方法和装置 | |
CN109086377B (zh) | 设备画像的生成方法、装置及计算设备 | |
CN110674144A (zh) | 用户画像生成方法、装置、计算机设备和存储介质 | |
CN111639092B (zh) | 一种人员流动分析方法、装置、电子设备及存储介质 | |
CN103631787A (zh) | 网页类型识别方法以及网页类型识别装置 | |
CN111737443B (zh) | 答案文本的处理方法和装置、关键文本的确定方法 | |
CN110928917A (zh) | 一种目标用户的确定方法、装置、计算设备及介质 | |
CN111694639A (zh) | 进程容器地址的更新方法、装置和电子设备 | |
CN109711656B (zh) | 多系统关联预警方法、装置、设备及计算机可读存储介质 | |
CN112650946B (zh) | 产品信息的推荐方法、装置、系统及存储介质 | |
CN107633080B (zh) | 一种用户任务处理方法及装置 | |
CN112231481A (zh) | 网址的分类方法、装置、计算机设备和存储介质 | |
CN108804917B (zh) | 一种文件检测方法、装置、电子设备及存储介质 | |
CN111338958A (zh) | 一种测试用例的参数生成方法、装置及终端设备 | |
CN113505272B (zh) | 基于行为习惯的控制方法和装置、电子设备和存储介质 | |
CN112491939B (zh) | 多媒体资源调度方法及系统 | |
CN114491093A (zh) | 多媒体资源推荐、对象表征网络的生成方法及装置 | |
CN110503504B (zh) | 网络产品的信息识别方法、装置及设备 | |
CN113849125A (zh) | 一种cdn服务器磁盘读取的方法、装置及系统 | |
CN110070371B (zh) | 一种数据预测模型建立方法及其设备、存储介质、服务器 | |
CN111985979A (zh) | 用于广告业务中的无效流量信息处理的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |