CN113762313A - 请求识别的方法、装置、电子设备和存储介质 - Google Patents

请求识别的方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113762313A
CN113762313A CN202110137332.4A CN202110137332A CN113762313A CN 113762313 A CN113762313 A CN 113762313A CN 202110137332 A CN202110137332 A CN 202110137332A CN 113762313 A CN113762313 A CN 113762313A
Authority
CN
China
Prior art keywords
request
feature
identification
target
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110137332.4A
Other languages
English (en)
Inventor
李川
杨立军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202110137332.4A priority Critical patent/CN113762313A/zh
Publication of CN113762313A publication Critical patent/CN113762313A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了请求识别的方法、装置、电子设备和存储介质,涉及计算机技术领域。该方法的一具体实施方式包括:接收目标请求,并根据目标请求所属类型,查询用于请求识别的多个识别特征;根据目标请求包括的请求参数和预设时间窗口内的历史请求,计算各识别特征的特征向量;根据各特征向量计算各识别特征对应的低阶关联特征向量和高阶关联特征向量,并输入分类模型计算目标请求属于恶意请求的概率;根据目标请求属于恶意请求的概率,识别目标请求是否属于恶意请求。该实施方式能够解决现有的拦截规则无法的识别恶意请求,无法有效的拦截恶意请求,降低恶意请求拦截效率的问题。

Description

请求识别的方法、装置、电子设备和存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种请求识别的方法、装置、电子设备和存储介质。
背景技术
电商平台为追求用户的活跃度与用户黏性,通常会为各新老用户设置对应的优惠方式,如领取优惠券等等,这种方式导致一些不法分子通过非法方式发起大批量恶意请求来套取优惠,影响电商平台的正常运营。现有技术中,电商平台通常会设置请求拦截规则,例如一个手机号只能对应一个有效账号等来拦截恶意请求,但是不反分子利用科技形成了发送恶意请求的产业链,逃避电商拼台设置的拦截规则,导致现有的拦截方式无法的识别恶意请求,从而无法有效的拦截恶意请求,降低恶意请求拦截效率。
发明内容
有鉴于此,本发明实施例提供一种请求识别的方法、装置、电子设备和存储介质,能够解决现有的拦截规则无法的识别恶意请求,无法有效的拦截恶意请求,降低恶意请求拦截效率的问题。
为实现上述目的,根据本发明实施例的一个方面,提供了一种请求识别的方法。
本发明实施例的一种请求识别的方法包括:接收目标请求,并根据所述目标请求所属类型,查询用于请求识别的多个识别特征;根据所述目标请求包括的请求参数和预设时间窗口内的历史请求,计算各所述识别特征的特征向量;根据各所述特征向量计算各所述识别特征对应的低阶关联特征向量和高阶关联特征向量,并输入分类模型计算所述目标请求属于恶意请求的概率;根据所述目标请求属于恶意请求的概率,识别所述目标请求是否属于恶意请求。
在一个实施例中,所述识别特征包括基础参数特征和统计参数特征;
所述根据所述目标请求包括的请求参数和预设时间窗口内的历史请求,计算所述识别特征的特征向量,包括:
解析所述请求参数得出所述目标请求对应基础参数特征的特征值,并根据第一预设编码算法计算所述目标请求对应基础参数特征的特征向量;
根据所述预设时间窗口内的历史请求,统计所述目标请求对应统计参数特征的特征值,并根据第二预设编码算法计算所述目标请求对应统计参数特征的特征向量。
在又一个实施例中,所述根据第一预设编码算法计算所述目标请求对应基础参数特征的特征向量,包括:
对每个基础参数特征,查询所述基础参数特征对应值的序列,将所述序列中与所述基础参数特征的特征值相同的位取第一值、所述序列中与所述基础参数特征的特征值不相同的位取第二值,得出所述目标请求对应基础参数特征的特征向量。
在又一个实施例中,所述请求类型包括注册请求,基础参数特征可以包括地址归属地、手机号的归属地、手机号类型、请求设备类型中的一项或多项;统计参数特征可以包括预设时间窗口内地址出现次数、所述手机号的归属地出现次数、所述手机号类型出现次数、所述请求设备出现次数中的一项或多项。
在又一个实施例中,所述分类模型包括注意力机制函数和分类函数;
所述根据各所述特征向量计算各所述识别特征对应的低阶关联特征向量和高阶关联特征向量,并输入分类模型计算所述目标请求属于恶意请求的概率,包括:
将各所述特征向量分别输入预设低阶计算模型和预设高阶计算模型,计算所述识别特征对应的低阶关联特征向量和高阶关联特征向量;
将所述低阶关联特征向量和高阶关联特征向量输入注意力机制函数,计算各所述识别特征对应的聚合关联特征向量;
将所述聚合关联特征向量输入分类函数,计算所述目标请求属于恶意请求的概率。
在又一个实施例中,所述预设低阶计算模型包括FM算法模型,所述预设高阶计算模型包括DNN算法模型。
为实现上述目的,根据本发明实施例的另一方面,提供了一种请求识别的装置。
本发明实施例的一种请求识别的装置包括:接收单元,用于接收目标请求,并根据所述目标请求所属类型,查询用于请求识别的多个识别特征;确定单元,用于根据所述目标请求包括的请求参数和预设时间窗口内的历史请求,计算各所述识别特征的特征向量;所述计算单元,还用于根据各所述特征向量计算各所述识别特征对应的低阶关联特征向量和高阶关联特征向量,并输入分类模型计算所述目标请求属于恶意请求的概率;识别单元,用于根据所述目标请求属于恶意请求的概率,识别所述目标请求是否属于恶意请求。
在一个实施例中,所述识别特征包括基础参数特征和统计参数特征;
所述计算单元具体用于:
解析所述请求参数得出所述目标请求对应基础参数特征的特征值,并根据第一预设编码算法计算所述目标请求对应基础参数特征的特征向量;
根据所述预设时间窗口内的历史请求,统计所述目标请求对应统计参数特征的特征值,并根据第二预设编码算法计算所述目标请求对应统计参数特征的特征向量。
在又一个实施例中,所述计算单元具体用于:
对每个基础参数特征,查询所述基础参数特征对应值的序列,将所述序列中与所述基础参数特征的特征值相同的位取第一值、所述序列中与所述基础参数特征的特征值不相同的位取第二值,得出所述目标请求对应基础参数特征的特征向量。
在又一个实施例中,所述请求类型包括注册请求,基础参数特征可以包括地址归属地、手机号的归属地、手机号类型、请求设备类型中的一项或多项;统计参数特征可以包括预设时间窗口内地址出现次数、所述手机号的归属地出现次数、所述手机号类型出现次数、所述请求设备出现次数中的一项或多项。
在又一个实施例中,所述分类模型包括注意力机制函数和分类函数;
所述计算单元具体用于:
将各所述特征向量分别输入预设低阶计算模型和预设高阶计算模型,计算所述识别特征对应的低阶关联特征向量和高阶关联特征向量;
将所述低阶关联特征向量和高阶关联特征向量输入注意力机制函数,计算各所述识别特征对应的聚合关联特征向量;
将所述聚合关联特征向量输入分类函数,计算所述目标请求属于恶意请求的概率。
在又一个实施例中,所述预设低阶计算模型包括FM算法模型,所述预设高阶计算模型包括DNN算法模型。
为实现上述目的,根据本发明实施例的再一个方面,提供了一种电子设备。
本发明实施例的一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例提供的请求识别的方法。
为实现上述目的,根据本发明实施例的又一个方面,提供了一种计算机可读介质。
本发明实施例的一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例提供的请求识别的方法。
上述发明中的一个实施例具有如下优点或有益效果:本发明实施例中,预先设置对各类型的请求,用于识别请求的识别特征,所以在接收目标请求后可以根据目标请求所属类型查询出用于请求识别的多个识别特征,并根据目标请求包括的请求参数和预设时间窗口内的历史请求,计算各所述识别特征的特征向量,然后计算出各识别特征之间的低阶关联特征向量和高阶关联特征向量,将其输入分类模型可以计算出目标请求属于恶意请求的概率,即可识别出目标请求是否属于恶意请求。如此本发明实施例中,可以基于每个请求对应识别特征的特征向量,计算出各识别特征之间低阶和高阶的关联特征,从而可以体现各请求多维特征之间的关联,进而通过预设分类模型计算目请求属于恶意请求的概率,从而可以提高恶意请求识别的准确性和有效性。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的请求识别的方法的一种主要流程的示意图;
图2是根据本发明实施例的请求识别的方法的又一种主要流程的示意图;
图3是根据本发明实施例的请求识别的装置的主要单元的示意图;
图4是本发明实施例可以应用于其中的又一种示例性系统架构图;
图5是适于用来实现本发明实施例的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要指出的是,在不冲突的情况下,本发明中的实施例以及实施例中的特征可以互相组合。
本发明实施例提供了一种请求识别的系统,可以用于对电商平台接收的请求进行识别的场景。具体的,可以用于对接收请求是否为恶意请求进行识别的场景。
本发明实施例提供了一种请求识别的方法,该方法可由终端设备执行,如图1所示,该方法包括以下步骤。
S101:接收目标请求,并根据目标请求所属类型查询用于请求识别的多个识别特征。
其中,由于不同请求会对应不同的识别特征,所以本发明实施例中可以将请求分类,并对每个类型的请求设置对应的识别特征。本步骤中在接收目标请求后,可以确定出目标请求所属的类型,进而查询出用于对该类型请求识别的识别特征。对目标请求所属类型的确定方式不进行限定,例如可根据目标请求包括的参数来确定。
需要说明的是,通常各设备中相同类型的请求可以通过相同的接口来接收,所以本发明实施例中还可以基于接口设置对应的识别特征,以作为基于类型设置的识别特征,进而将属于相同接口的请求对应相同的识别特征。
识别特征表示用于识别请求的特征,具体可以为用户识别恶意请求的特征。具体的,特征包括的具体内容可以根据需求和应用场景设置。识别特征可以包括基础参数特征和统计参数特征。基础参数特征通常表示请求的基础信息,如请求对应设备、标识、账号等的归属信息、类型信息等等,所以基础参数特征也可以称为类目特征,类目特征通常为不具备数值意义的文本类特征,如使用的手机号段、请求的时间段等。例如,基础参数特征可以请求对应设备的类型、请求对应地址的归属信息等等,其通常可以根据请求中所携带的请求参数解析得出。统计参数特征通常表示要基于预设时间窗口内的历史请求统计得出的特征,统计参数特征的取值范围通常为一个连续的取值范围,所以还可以称为连续特征,通常为具备数值意义的统计指标,如某地址的请求在预设时间窗口内出现的次数、同一地址的请求在预设时间窗口内出现次数等等。
本发明实施例中,以请求类型为注册请求为例。用于请求识别的识别参数可以包括基础参数特征和统计参数特征。其中,基础参数特征包括地址归属地、手机号的归属地、手机号类型、请求设备类型中的一项或多项;统计参数特征包括预设时间窗口内地址出现次数、手机号的归属地出现次数、手机号类型出现次数、请求设备出现次数中的一项或多项。注册请求通常包括请求参数,例如请求标识、IP地址、手机号、设备相关信息、请求时间等。具体可以如表1所示。
表1
字段名 类型 字段说明
请求标识 String 基础信息
IP地址 String 基础信息
请求的手机号 String 基础信息
请求时间 String 基础信息
需要说明的是,预设时间窗口的大小可以根据需求和场景设置,例如可以设置为一小时。预设时间窗口内历史请求可以为预设时间窗口内接收的、与目标请求属于相同类型的请求。
S102:根据目标请求包括的请求参数和预设时间窗口内的历史请求,计算各识别特征的特征向量。
其中,目标请求中包括请求参数,终端设备中可以预先存储预设时间串口内接受的历史请求,所以本步骤中可以根据目标请求包括的请求参数和预设时间窗口内的历史请求,计算各识别特征的特征向量。
识别特征包括基础参数特征和统计参数特征,所以本步骤具体可以执行为:解析请求参数得出目标请求对应基础参数特征的特征值,并根据第一预设编码算法计算目标请求对应基础参数特征的特征向量;根据预设时间窗口内的历史请求,统计目标请求对应统计参数特征的特征值,并根据第二预设编码算法计算目标请求对应统计参数特征的特征向量。
基础参数特征通常可以直接或间接分析目标请求包括的请求参数即可得出,所以解析目标请求中请求参数可以得出目标请求对应基础参数特征的特征值。例如对注册请求中包括的手机号,可以解析其归属地和类型,进而得出基础参数特征中手机号的归属地、手机号类型。
本发明实施例中在得出基础参数特征的特征值后,可以通过第一预设编码算法对其进行编码计算,进而得出目标请求对应基础参数特征的特征向量。具体的第一预设编码算法包括onehot编码,所以本步骤中计算特征向量的过程可以为:对每个基础参数特征,查询基础参数特征对应值的序列,将序列中与基础参数特征的特征值相同的位取第一值、序列中与基础参数特征的特征值不相同的位取第二值,得出目标请求对应基础参数特征的特征向量。
对每个基础参数特征,根据历史请求均可以确定出其对应的取值,将这些排列顺序可以得出查询基础参数特征对应值的序列,基于此序列和该基础参数的特征值可以确定出该基础参数的特征向量,其中此特征向量包括元素数量为序列中包括参数的数量,并且与序列中与基础参数特征的特征值相同的位取第一值、序列中与基础参数特征的特征值不相同的位取第二值。例如,设第一值为1、第二值为0,请求对应浏览器的取值通常包括IE、Chrome、Firefox、Safari,则可以将IE、Chrome、Firefox、Safari确定为该基础参数特征对应值的序列,此时如果该基础参数特征的特征值为IE,则可以确定出该基础参数特征的特征向量为[1,0,0,0]。
需要说明的是,对各基础参数特征的取值,通常会由于恶意请求等原因出现一些低频的取值,这些取值通产属于异常噪声,会给特征分析带来误差,所以可以对这些取值进行过滤。具体的,可以从历史数据中统计各取值的出现次数,如果出现次数咸鱼预设值,则可以将该取值过滤掉,从而达到特征向量降维的目标,或者还可以在计算特征向量时将该取值设置为默认值,如第二值。
统计参数特征为通过预设时间窗口内的历史请求得出的,所以可以根据预设时间窗口内的历史请求得统计出目标请求对应统计参数特征的特征值,在根据第二预设编码算法计算所述目标请求对应统计参数特征的特征向量。第二预设编码算法可以具体为分桶算法,即将连续特征的值进行二值化的过程。统计参数特征的取值通常为一段连续的范围,本发明实施例中可以将取值范围分段,即分桶,确定出统计的参数特征的特征值所属的取值范围段,进而计算出参数特征的特征向量,该特征向量包括的元素个数为取值方位分段的个数,与参数特征的特征值所属的取值范围段对应元素的值为第一值,不与参数特征的特征值所属的取值范围段对应元素的值为第二值。设第一值为1,第二值为0,例如一个统计参数特征的取值范围为[0,+∞],将其分为4段:[0,10]、[11,50]、[50,100]、[101,+∞],假设该统计参数特征的特征值属于[0,10],则可以得出特征向量为。将落在段落内的数字分别编码为[1,0,0,0]。
S103:根据各特征向量计算各识别特征对应的低阶关联特征向量和高阶关联特征向量,并输入分类模型计算目标请求属于恶意请求的概率。
其中,在确定出各识别特征的特征向量后,可以计算各特征向量之间的关联关系,包括高阶关联关系和低阶关联关系,既可以计算出各识别特征对应的低阶关联特征向量和高阶关联特征向量,然后将其输入预设的分类模型可以计算出分类模型计算目标请求属于恶意请求的概率。
本发明实施例中可以根据预设低阶计算模型计算低阶关联特征向量,根据预设高阶计算模型计算高阶关联特征向量。具体的,预设低阶计算模型和预设高阶计算模型不做具体限定,例如,预设低阶计算模型包括FM算法模型,预设高阶计算模型包括DNN算法模型。
分类模型可以包括注意力机制函数和分类函数。本步骤中在得出低阶关联特征向量和高阶关联特征向量后,可以根据注意力机制函数将各识别特征的特征值聚合,计算出识别特征对应的聚合关联特征向量,进而输入分类函数计算目标请求属于恶意请求的概率。
S104:根据目标请求属于恶意请求的概率,识别目标请求是否属于恶意请求。
其中,本发明实施例中可以设置恶意请求对应的概率范围,然后基于概率范围和目标请求属于恶意请求的概率,识别目标请求是否属于恶意请求。具体可以为,若目标请求属于恶意请求的概率处于概率范围内,则识别目标请求属于恶意请求;若目标请求属于恶意请求的概率不处于概率范围内,则识别目标请求不属于恶意请求。
本发明实施例中,预先设置对各类型的请求,用于识别请求的识别特征,所以在接收目标请求后可以根据目标请求所属类型查询出用于请求识别的多个识别特征,并根据目标请求包括的请求参数和预设时间窗口内的历史请求,计算各所述识别特征的特征向量,然后计算出各识别特征之间的低阶关联特征向量和高阶关联特征向量,将其输入分类模型可以计算出目标请求属于恶意请求的概率,即可识别出目标请求是否属于恶意请求。如此本发明实施例中,可以基于每个请求对应识别特征的特征向量,计算出各识别特征之间低阶和高阶的关联特征,从而可以体现各请求多维特征之间的关联,进而通过预设分类模型计算目请求属于恶意请求的概率,从而可以提高恶意请求识别的准确性和有效性。
本发明实施例中,可以将预设低阶计算模型、预设高阶计算模型、分类模型集成构建一个用于识别请求的整体模型,并在计算出各特征向量后输入用于识别请求的整体模型后得出目标请求属于恶意请求的概率。
下面结合图1所示的实施例,本发明实施例中,以预设低阶计算模型FM算法模型、预设高阶计算模型包括DNN算法模型、分类模型包括注意力机制函数和分类函数为例,对步骤S103进行具体说明,如图2所示,该方法包括以下步骤。
S201:将各特征向量输入预设低阶计算模型,计算识别特征对应的低阶关联特征向量。
其中,预设低阶计算模型为FM模型。本步骤中可以将各识别特征的特征向量输入FM模型中进行计算。例如,各识别特征的特征向量的元素值包括0和1,本步骤可以将各识别特征的特征向量拼接后输入FM模型,设识别特征的个数为n个,则各识别特征的特征向量拼接后可以表示为X∈{0,1}n
具体的以低阶包括一阶和二阶为例,FM模型为对识别特征进行一阶和二阶组合映射的过程,其本质是一个多项式模型,如公式1所示。
Figure BDA0002927468730000101
在公式1中,n代表特征向量的数量,xi表示i个特征向量的值,xj表示j个特征向量的值,w0、wi、wij表示FM模型参数,分别代表模型偏置、一阶特征系数、二阶特征组合系数。其中一阶特征反映了单维度特征本身的风险属性,二阶特征反映了组合维度特征的风险属性。例如,用户使用了windows操作系统发送请求,但使用的浏览器为Safari,两者可以为确定的基础参数特征,但是通常此两个独立维度的特征不能反映出请求的异常,但通过两者的二阶组合可以体现出请求的异常性。
对二阶组合特征而言,组合特征的参数一共有
Figure BDA0002927468730000111
个,任意两个特征都是独立的。本发明实施例中在计算特征向量阶段使用了onehot编码算法,特征向量的稀疏性是可观存在,在模型训练时,由于每个二阶特征组合系数wij的训练需要大量xixj非零的特征向量,而特征向量本来就比较稀疏,满足xixj都非零的会非常少,所以训练样本的不足,很容易导致wij不准确,最终将严重影响模型的性能,所以二阶参数的训练是很困难的。
因此求解二阶特征组合系数时,引入FM机制,wij与xixj存在相关性,因此设wij与以由xixj得出的隐向量存在线性关系,表示如公式2所示。
Figure BDA0002927468730000112
其中,vi表示第i个特征向量的隐向量,vj表示第j个特征向量的隐向量,<,>代表向量点积,k表示隐向量的维度。
基于公式2,则可以将公式1转换为如公式3所示,其中,二阶特征组合系数的推导过程如公式4所示。
Figure BDA0002927468730000113
Figure BDA0002927468730000121
经过公式4的推导,原二阶特征组合系数复杂度由
Figure BDA0002927468730000122
下降为kn个,从而可以降低FM模型复杂度。本步骤中通过训练好的FM模型即可计算识别特征对应的低阶关联特征向量。
S202:将各特征向量输入预设高阶计算模型,计算识别特征对应的高阶关联特征向量。
其中,预设稿阶计算模型为BNN模型。本步骤中可以将各识别特征的特征向量输入DNN模型中进行计算。例如,各识别特征的特征向量的元素值包括0和1,本步骤可以将各识别特征的特征向量拼接后输入DNN模型,设识别特征的个数为n个,则各识别特征的特征向量拼接后可以表示为X∈{0,1}n
具体的,DNN模型对特征向量X∈{0,1}n进行多层全连接层非线性变换的过程,通过多层变化获得关联特征向量。DNN模型第m层非线性变换的基本单元可以如公式5所示。
hm+1=Re lu 1(Wmhm) (5)
在公式5中,其中hm为第m层计算得出的向量,其中h0=X,为初始特征向量,Wm为线性变换矩阵,Re lu 1为神经网络中常见的激活函数。通过多层非线性变化最终得到高阶关联特征向量,m为大于0小于等于DNN模型中包括非线性变换的基本单元层数的整数。
本步骤中通过训练好的DNN模型即可计算识别特征对应的高阶关联特征向量。
S203:将低阶关联特征向量和高阶关联特征向量输入注意力机制函数,计算各识别特征对应的聚合关联特征向量。
其中,注意力机制(Attention)对FM模型计算的低阶关联特征向量和DNN模型计算的高阶关联特征向量进行聚合。以H0表示低阶关联特征向量,H1表示高阶关联特征向量,则输入注意力层对二者进行加权聚合,计算公式可以如公式6、7、8、9所示。
zs=Wths (6)
es=Re lu 2(zs) (7)
Figure BDA0002927468730000131
Figure BDA0002927468730000132
其中,式6位对特征进行线性变换,式7对特征进行非线性激活,式8求解低阶和高阶特征的权重系数,式9输出最终特征,为二者的加权求和,得出聚合关联特征向量g。通过引入注意力机制,可以根据数据分布求出低阶和高阶特征对模型的影响因子,提升模型的泛化能力。
S204:将聚合关联特征向量输入分类函数,计算目标请求属于恶意请求的概率。
本步骤中,设聚合关联特征向量表示为g∈Rd,分类函数的意义是将特征向量映射为恶意概率o,如公式10所示。
o=sigmoid(Wog) (10)
其中Wo∈Rd,sigmoid(x)=1/1+e-x为非线性激活函数,取值范围为(0,1),一般用来做二分类激活函数,在本发明中正好对应恶意请求概率。
本发明实施例中,通过引入FM模型,完成对全部低阶二维特征的隐向量映射,相较传统的特征工程,通过专家设计组合维度,本发明在低阶特征方面具备更完备的特征表征能力。并且结合DNN和FM模型,通过注意力机制结合低阶和高阶特征,通过数据计算二者对模型判别的影响力,可以提升模型的泛化能力。另,将DeepFM方法引入恶意请求识别领域,提升风控模型对恶意识别的覆盖能力。
需要说明的是,本发明实施例中,可以对用于识别请求的整体模型进行训练,训练输入为标注真实标签的数据,模型训练的损失函数可以采用二分类交叉熵,具体形式为loss=binary-cross_entroy(Y,O),其中,Y代表输入数据,O代表预测结果,因此模型的整体损失函数loss可以表示如公式11所示。模型训练可以采用误差反向传播机制,求解模型参数。
loss=∑r-(yr log or+(1-yr)log(1-or)) (11)
为了解决现有技术存在的问题,本发明实施例提供了一种请求识别的装置300,如图3所示,该装置300包括:
接收单元301,用于接收目标请求,并根据所述目标请求所属类型,查询用于请求识别的多个识别特征;
确定单元302,用于根据所述目标请求包括的请求参数和预设时间窗口内的历史请求,计算各所述识别特征的特征向量;
所述计算单元302,还用于根据各所述特征向量计算各所述识别特征对应的低阶关联特征向量和高阶关联特征向量,并输入分类模型计算所述目标请求属于恶意请求的概率;
识别单元303,用于根据所述目标请求属于恶意请求的概率,识别所述目标请求是否属于恶意请求。
应理解的是,实施本发明实施例的方式与实施图1所示实施例的方式相同,在此不再赘述。
本发明实施例的一种实现方式中,所述识别特征包括基础参数特征和统计参数特征;
所述计算单元302具体用于:
解析所述请求参数得出所述目标请求对应基础参数特征的特征值,并根据第一预设编码算法计算所述目标请求对应基础参数特征的特征向量;
根据所述预设时间窗口内的历史请求,统计所述目标请求对应统计参数特征的特征值,并根据第二预设编码算法计算所述目标请求对应统计参数特征的特征向量。
本发明实施例的又一种实现方式中,所述计算单元302具体用于:
对每个基础参数特征,查询所述基础参数特征对应值的序列,将所述序列中与所述基础参数特征的特征值相同的位取第一值、所述序列中与所述基础参数特征的特征值不相同的位取第二值,得出所述目标请求对应基础参数特征的特征向量。
本发明实施例的又一种实现方式中,所述请求类型包括注册请求,基础参数特征可以包括地址归属地、手机号的归属地、手机号类型、请求设备类型中的一项或多项;统计参数特征可以包括预设时间窗口内地址出现次数、所述手机号的归属地出现次数、所述手机号类型出现次数、所述请求设备出现次数中的一项或多项。
本发明实施例的又一种实现方式中,所述分类模型包括注意力机制函数和分类函数;
所述计算单元具体302用于:
将各所述特征向量分别输入预设低阶计算模型和预设高阶计算模型,计算所述识别特征对应的低阶关联特征向量和高阶关联特征向量;
将所述低阶关联特征向量和高阶关联特征向量输入注意力机制函数,计算各所述识别特征对应的聚合关联特征向量;
将所述聚合关联特征向量输入分类函数,计算所述目标请求属于恶意请求的概率。
在又一个实施例中,所述预设低阶计算模型包括FM算法模型,所述预设高阶计算模型包括DNN算法模型。
应理解的是,实施本发明实施例的方式与实施图1或图2所示实施例的方式相同,在此不再赘述。
本发明实施例中,预先设置对各类型的请求,用于识别请求的识别特征,所以在接收目标请求后可以根据目标请求所属类型查询出用于请求识别的多个识别特征,并根据目标请求包括的请求参数和预设时间窗口内的历史请求,计算各所述识别特征的特征向量,然后计算出各识别特征之间的低阶关联特征向量和高阶关联特征向量,将其输入分类模型可以计算出目标请求属于恶意请求的概率,即可识别出目标请求是否属于恶意请求。如此本发明实施例中,可以基于每个请求对应识别特征的特征向量,计算出各识别特征之间低阶和高阶的关联特征,从而可以体现各请求多维特征之间的关联,进而通过预设分类模型计算目请求属于恶意请求的概率,从而可以提高恶意请求识别的准确性和有效性。
根据本发明的实施例,本发明实施例还提供了一种电子设备和一种可读存储介质。
本发明实施例的电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行本发明实施例所提供的请求识别的方法。
图4示出了可以应用本发明实施例的请求识别的方法或请求识别的装置的示例性系统架构400。
如图4所示,系统架构400可以包括终端设备401、402、403,网络404和服务器405。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备401、402、403通过网络404与服务器405交互,以接收或发送消息等。终端设备401、402、403上可以安装有各种客户端应用。
终端设备401、402、403可以是但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器405可以是提供各种服务的服务器,服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如产品信息--仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的请求识别的方法一般由服务器405执行,相应地,请求识别的装置一般设置于服务器405中。
应该理解,图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图5,其示出了适于用来实现本发明实施例的计算机系统500的结构示意图。图5示出的计算机系统仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个单元、程序段、或代码的一部分,上述单元、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括接收单元、计算单元和识别单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,接收单元还可以被描述为“接收单元的功能的单元”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备执行本发明所提供的请求识别的方法。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种请求识别的方法,其特征在于,包括:
接收目标请求,并根据所述目标请求所属类型,查询用于请求识别的多个识别特征;
根据所述目标请求包括的请求参数和预设时间窗口内的历史请求,计算各所述识别特征的特征向量;
根据各所述特征向量计算各所述识别特征对应的低阶关联特征向量和高阶关联特征向量,并输入分类模型计算所述目标请求属于恶意请求的概率;
根据所述目标请求属于恶意请求的概率,识别所述目标请求是否属于恶意请求。
2.根据权利要求1所述的方法,其特征在于,所述识别特征包括基础参数特征和统计参数特征;
所述根据所述目标请求包括的请求参数和预设时间窗口内的历史请求,计算所述识别特征的特征向量,包括:
解析所述请求参数得出所述目标请求对应基础参数特征的特征值,并根据第一预设编码算法计算所述目标请求对应基础参数特征的特征向量;
根据所述预设时间窗口内的历史请求,统计所述目标请求对应统计参数特征的特征值,并根据第二预设编码算法计算所述目标请求对应统计参数特征的特征向量。
3.根据权利要求2所述的方法,其特征在于,所述根据第一预设编码算法计算所述目标请求对应基础参数特征的特征向量,包括:
对每个基础参数特征,查询所述基础参数特征对应值的序列,将所述序列中与所述基础参数特征的特征值相同的位取第一值、所述序列中与所述基础参数特征的特征值不相同的位取第二值,得出所述目标请求对应基础参数特征的特征向量。
4.根据权利要求2所述的方法,其特征在于,所述请求类型包括注册请求,基础参数特征可以包括地址归属地、手机号的归属地、手机号类型、请求设备类型中的一项或多项;统计参数特征可以包括预设时间窗口内地址出现次数、所述手机号的归属地出现次数、所述手机号类型出现次数、所述请求设备出现次数中的一项或多项。
5.根据权利要求1所述的方法,其特征在于,所述分类模型包括注意力机制函数和分类函数;
所述根据各所述特征向量计算各所述识别特征对应的低阶关联特征向量和高阶关联特征向量,并输入分类模型计算所述目标请求属于恶意请求的概率,包括:
将各所述特征向量分别输入预设低阶计算模型和预设高阶计算模型,计算所述识别特征对应的低阶关联特征向量和高阶关联特征向量;
将所述低阶关联特征向量和高阶关联特征向量输入注意力机制函数,计算各所述识别特征对应的聚合关联特征向量;
将所述聚合关联特征向量输入分类函数,计算所述目标请求属于恶意请求的概率。
6.根据权利要求5所述的方法,其特征在于,所述预设低阶计算模型包括FM算法模型,所述预设高阶计算模型包括DNN算法模型。
7.一种请求识别的装置,其特征在于,包括:
接收单元,用于接收目标请求,并根据所述目标请求所属类型,查询用于请求识别的多个识别特征;
确定单元,用于根据所述目标请求包括的请求参数和预设时间窗口内的历史请求,计算各所述识别特征的特征向量;
所述计算单元,还用于根据各所述特征向量计算各所述识别特征对应的低阶关联特征向量和高阶关联特征向量,并输入分类模型计算所述目标请求属于恶意请求的概率;
识别单元,用于根据所述目标请求属于恶意请求的概率,识别所述目标请求是否属于恶意请求。
8.根据权利要求7所述的装置,其特征在于,所述识别特征包括基础参数特征和统计参数特征;
所述计算单元具体用于:
解析所述请求参数得出所述目标请求对应基础参数特征的特征值,并根据第一预设编码算法计算所述目标请求对应基础参数特征的特征向量;
根据所述预设时间窗口内的历史请求,统计所述目标请求对应统计参数特征的特征值,并根据第二预设编码算法计算所述目标请求对应统计参数特征的特征向量。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。
CN202110137332.4A 2021-02-01 2021-02-01 请求识别的方法、装置、电子设备和存储介质 Pending CN113762313A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110137332.4A CN113762313A (zh) 2021-02-01 2021-02-01 请求识别的方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110137332.4A CN113762313A (zh) 2021-02-01 2021-02-01 请求识别的方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN113762313A true CN113762313A (zh) 2021-12-07

Family

ID=78786567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110137332.4A Pending CN113762313A (zh) 2021-02-01 2021-02-01 请求识别的方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113762313A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115278556A (zh) * 2022-07-22 2022-11-01 展讯通信(天津)有限公司 紧急信息发送方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2326057A1 (en) * 2009-11-20 2011-05-25 British Telecommunications public limited company Detecting malicious behaviour on a network
CN109635563A (zh) * 2018-11-30 2019-04-16 北京奇虎科技有限公司 用于识别恶意应用程序的方法、装置、设备及存储介质
US20200175314A1 (en) * 2018-12-04 2020-06-04 Optum Services (Ireland) Limited Predictive data analytics with automatic feature extraction
CN111786937A (zh) * 2020-01-16 2020-10-16 北京沃东天骏信息技术有限公司 用于识别恶意请求的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2326057A1 (en) * 2009-11-20 2011-05-25 British Telecommunications public limited company Detecting malicious behaviour on a network
CN109635563A (zh) * 2018-11-30 2019-04-16 北京奇虎科技有限公司 用于识别恶意应用程序的方法、装置、设备及存储介质
US20200175314A1 (en) * 2018-12-04 2020-06-04 Optum Services (Ireland) Limited Predictive data analytics with automatic feature extraction
CN111786937A (zh) * 2020-01-16 2020-10-16 北京沃东天骏信息技术有限公司 用于识别恶意请求的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐迪;: "一种基于XGBoost的恶意HTTP请求识别方法", 电信工程技术与标准化, no. 12, 15 December 2018 (2018-12-15) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115278556A (zh) * 2022-07-22 2022-11-01 展讯通信(天津)有限公司 紧急信息发送方法和装置

Similar Documents

Publication Publication Date Title
CN109241418B (zh) 基于随机森林的异常用户识别方法及装置、设备、介质
CN111695674B (zh) 联邦学习方法、装置、计算机设备及可读存储介质
CN109492772B (zh) 生成信息的方法和装置
CN108520470B (zh) 用于生成用户属性信息的方法和装置
CN111209347A (zh) 一种混合属性数据聚类的方法和装置
WO2022188534A1 (zh) 信息推送的方法和装置
WO2023025331A1 (zh) 企业活跃度确定方法、装置、电子设备及存储介质
CN115982664A (zh) 一种异常账户识别方法、装置、设备及存储介质
CN115330540A (zh) 一种处理交易数据的方法和装置
CN113762313A (zh) 请求识别的方法、装置、电子设备和存储介质
CN115700548A (zh) 用户行为预测的方法、设备和计算机程序产品
CN111209403B (zh) 数据处理方法、装置、介质及电子设备
CN116342164A (zh) 目标用户群体的定位方法、装置、电子设备及存储介质
CN118101749A (zh) 信息推送方法、装置、设备、介质
CN111046892A (zh) 异常识别方法和装置
CN114707638A (zh) 模型训练、对象识别方法及装置、设备、介质和产品
CN110610392B (zh) 数据处理方法及系统、计算机系统和计算机可读存储介质
CN110362603B (zh) 一种特征冗余性分析方法、特征选择方法和相关装置
CN113239259A (zh) 确定相似店铺的方法和装置
CN111582456A (zh) 用于生成网络模型信息的方法、装置、设备和介质
CN115550259B (zh) 基于白名单的流量分配方法及相关设备
CN109726882A (zh) 一种对对象进行评价的方法和装置
CN112819018B (zh) 生成样本的方法、装置、电子设备和存储介质
CN115018009B (zh) 对象描述方法、网络模型的训练方法及装置
CN113590721B (zh) 一种区块链地址分类方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination