CN109960753A - 上网设备用户的检测方法、装置、存储介质及服务器 - Google Patents

上网设备用户的检测方法、装置、存储介质及服务器 Download PDF

Info

Publication number
CN109960753A
CN109960753A CN201910112932.8A CN201910112932A CN109960753A CN 109960753 A CN109960753 A CN 109960753A CN 201910112932 A CN201910112932 A CN 201910112932A CN 109960753 A CN109960753 A CN 109960753A
Authority
CN
China
Prior art keywords
surfing
equipment
user
net
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910112932.8A
Other languages
English (en)
Other versions
CN109960753B (zh
Inventor
李敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910112932.8A priority Critical patent/CN109960753B/zh
Publication of CN109960753A publication Critical patent/CN109960753A/zh
Application granted granted Critical
Publication of CN109960753B publication Critical patent/CN109960753B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer And Data Communications (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明涉及数据处理领域,具体涉及一种上网设备用户的检测方法、装置、存储介质及服务器,所述方法包括:通过预置的埋点信息,收集上网设备用户注册时的特征数据;根据所述特征数据,确定所述特征数据的取值分布,根据所述取值分布基于业务场景生成场景特征;根据所述场景特征构建场景特征模型,所述场景特征模型包括异常检测模型和真伪判断模型;获取上网设备用户的当前特征数据,将所述当前特征数据应用于所述异常检测模型和真伪判断模型,获取异常检测结果及真伪判断结果;根据所述异常检测结果及真伪判断结果,确定所述上网设备用户的分类类型。本发明提高了人机识别的准确率,有效的解决反爬虫策略覆盖不全的问题。

Description

上网设备用户的检测方法、装置、存储介质及服务器
技术领域
本发明涉及数据处理领域,具体涉及一种上网设备用户的检测方法、装置、存储介质及服务器。
背景技术
随着互联网技术的发展,应用程序的功能也越来越丰富,网页网站的信息繁多,并且在互联网上举行的活动越来越丰富,如应用程序上举办的活动,而目前存在通过机器注册参与互联网举办活动的行为,导致网站或应用的安全得不到保障,活动无法正常进行,包括通过网络爬虫大量访问某个活动页面,导致页面无法正常访问,例如通过按键精灵等自动化工具模仿真实用户行为,从而制造与真实用户的不平衡体验,而由于爬虫策略及自动化工具的技术手段不断提升,目前的反爬虫策略及自动化机器的检测策略无法及时应对,造成在活动举办后网站或应用无法及时针对该些爬虫或自动化工具进行侦查,导致网站安全受到威胁,应用活动无法正常举办的现象。
发明内容
为克服以上技术问题,特别是现有技术无法实时、准确地进行人机检测的问题,特提出以下技术方案:
第一方面,本发明提供了一种上网设备用户的检测方法,包括:
通过预置的埋点信息,收集上网设备用户注册时的特征数据;
根据所述特征数据,确定所述特征数据的取值分布,根据所述取值分布基于业务场景生成场景特征;
根据所述场景特征构建场景特征模型,所述场景特征模型包括异常检测模型和真伪判断模型;
获取上网设备用户的当前特征数据,将所述当前特征数据应用于所述异常检测模型和真伪判断模型,获取异常检测结果及真伪判断结果;
根据所述异常检测结果及真伪判断结果,确定所述上网设备用户的分类类型。
进一步的,所述获取上网设备用户的当前特征数据之后,还包括:
获取所述当前特征数据中的关联数据,所述关联数据包括第一特征数据及第二特征数据;
根据所述第一特征数据,确定所述第一特征数据的取值分布,根据所述第一特征数据的取值分布基于业务场景生成第一场景特征;根据所述第二特征数据,确定所述第二特征数据的取值分布,根据所述第二特征数据的取值分布基于业务场景生成第二场景特征;
比较所述第一场景特征与所述第二场景特征的差异度,根据所述差异度确定所述关联数据的准确度。
进一步的,所述根据所述异常检测结果及真伪判断结果,确定所述上网设备用户的分类类型,包括:
获取异常检测模型和真伪判断模型的权重,根据所述异常检测结果及真伪判断结果及权重,生成最终检测结果;
将所述最终检测结果与设定阈值相比较,若所述最终检测结果低于或等于第一设定阈值,确定所述上网设备用户为正常用户;若所述最终检测结果高于或等于第二设定阈值,确定所述上网设备用户为异常用户;若所述最终检测结果高于第一设定阈值且低于第二设定阈值,确定所述上网设备用户为灰度用户。
进一步的,所述确定所述上网设备用户为灰度用户之后,还包括:
将所述正常用户添加进白名单,将所述异常用户及所述灰度用户添加进灰名单;
根据预置的白名单及灰名单的作业频率,获取所述白名单中的正常用户或灰名单中的异常用户及灰度用户的特征数据。
进一步的,所述确定所述上网设备用户为正常用户之后,还包括:
通过所述正常用户的上网设备的验证;
所述确定所述上网设备用户为异常用户之后,还包括:
限制所述异常用户的上网设备的验证;
所述确定所述上网设备用户为灰度用户之后,还包括:
通过所述灰度用户的上网设备的验证,并降低为所述灰度用户的上网设备分配的资源。
进一步的,所述根据所述场景特征构建场景特征模型,包括:
根据所述场景特征并采用贝叶斯算法和one_class支持向量机算法构建场景特征模型。
第二方面,本发明提供一种上网设备用户的检测装置,包括:
埋点模块:用于通过预置的埋点信息,收集上网设备用户注册时的特征数据;
场景特征模块:用于根据所述特征数据,确定所述特征数据的取值分布,根据所述取值分布基于业务场景生成场景特征;
模型构建模块:用于根据所述场景特征构建场景特征模型,所述场景特征模型包括异常检测模型和真伪判断模型;
检测模块:用于获取上网设备用户的当前特征数据,将所述当前特征数据应用于所述异常检测模型和真伪判断模型,获取异常检测结果及真伪判断结果;
分类模块:用于根据所述异常检测结果及真伪判断结果,确定所述上网设备用户的分类类型。
进一步的,所述分类模块包括执行:
获取异常检测模型和真伪判断模型的权重,根据所述所述异常检测结果及真伪判断结果及权重,生成最终检测结果;
将所述最终检测结果与设定阈值相比较,若所述最终检测结果低于第一设定阈值,确定所述上网设备用户为正常用户;若所述最终检测结果高于第二设定阈值,确定所述上网设备用户为异常用户;若所述最终检测结果高于第一设定阈值且低于第二设定阈值,确定所述上网设备用户为灰度用户。
第三方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述的上网设备用户的检测方法。
第四方面,本发明还提供了一种服务器,所述服务器包括一个或多个处理器、存储器、一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述的上网设备用户的检测方法。
本发明与现有技术相比,具有以下有益效果:
本发明提供了一种从用户终端设备信息数据是否异常的角度,检测该终端设备用户是否为真实用户的方法,在用户在进行注册、验证时,通过预置的埋点信息,收集上网设备用户注册时的特征数据,此时的特征数据为上网设备用户的静态特征数据,然后基于所述静态特征数据构建场景特征模型包括异常检测模型和真伪判断模型,当再次获取上网设备用户的当前特征数据时,该当前特征数据为动态特征数据,将该动态特征数据应用于所述异常检测模型和真伪判断模型,获取异常检测结果及真伪判断结果,再通过比较异常检测结果及真伪判断结果,确定所述上网设备用户的分类类型,通过上网设备用户的静态特征数据及动态特征数据的比较,能够动态、准确、快速地确定上网设备用户的分类类型,动态地识别出上网设备用户是否为爬虫机器,避免反爬虫策略无法及时更新而无法识别出爬虫机器的干扰,同时避免将真实用户判别为异常用户,影响用户的后续作业,从而提高真实用户作业的效率。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明上网设备用户的检测方法的一实施例流程示意图;
图2为本发明上网设备用户的检测方法的另一实施例流程示意图;
图3为本发明上网设备用户的检测装置的一实施例示意图;
图4为本发明服务器的一实施例结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本领域技术人员应当理解,本发明所称的“应用”、“应用程序”、“计算机程序”以及类似表述的概念,是业内技术人员所公知的相同概念,是指由一系列计算机指令及相关数据资源有机构造的适于电子运行的计算机软件。除非特别指定,这种命名本身不受编程语言种类、级别,也不受其赖以运行的操作系统或平台所限制。理所当然地,此类概念也不受任何形式的终端所限制。
本发明实施例提供一种上网设备用户的检测方法,如图1所示,所述方法包括以下步骤:
S10:通过预置的埋点信息,收集上网设备用户注册时的特征数据。
本实施例主要从用户终端设备信息数据是否异常的角度,检测该终端设备用户是否为真实用户。用户在进行注册、验证时,通过预置的埋点信息,如在终端应用前端埋点获取该用户当前使用的终端设备信息,即用户注册时的特征数据,所述特征数据包括用户注册时的浏览器类型,终端硬件设备类型、浏览器插件及浏览器分辨率,所述特征数据可以部分修改,但是无法完全修改,例如用户通过更换终端设备连接的网络,此时便可修改所述特征数据,用户通过更换浏览器,亦可以修改所述特征数据,用户亦可以更换上网设备,但是用户不可能每1小时或者每半个小时更换一次上网设备。
S20:根据所述特征数据,确定所述特征数据的取值分布,根据所述取值分布基于业务场景生成场景特征。
当收集到大量用户的特征数据时,根据所述特征数据便可确定所述特征数据的取值分布,即将大量用户的特征数据放在同一个坐标系下考量,例如放在二维坐标系下,然后将每一个特征数据在二维坐标系下描点,确定所述特征数据的正负样本,通过正负样本的取值分布构造出构造出具有区分性的布尔类型特征,进一步的,所述特征数据的取值分布应满足正太分布,即大量的特征数据的取值集中在一个区域,只有少量的或者异常的数据偏离该区域,得到特征数据的取值分布后,根据所述取值分布基于业务场景生成场景特征,即根据不同的业务场景将所述特征数据进行归类,例如第一次收集的特征数据A,收集的业务场景S,生成的场景特征为T1,第二次收集的特征数据仍为A,收集的业务场景Y,生成的场景特征为T1,不同特征数据在不同业务场景下所生成的场景特征不同,确保不同业务场景下的特征数据不互相干扰。
S30:根据所述场景特征构建场景特征模型,所述场景特征模型包括异常检测模型和真伪判断模型;
S40:获取上网设备用户的当前特征数据,将所述当前特征数据应用于所述异常检测模型和真伪判断模型,获取异常检测结果及真伪判断结果。
在将特征数据转化为场景特征后,根据所述场景特征确定场景特征模型,即根据所述场景特征训练场景特征模型,所述场景特征模型包括异常检测模型和真伪判断模型,其中,所述异常检测模型能够验证原特征数据是否异常,所述真伪判断模型能够验证原特征数据的真伪,上述步骤中,通过收集上网设备用户注册时的特征数据构建了两个场景特征模型,构建的场景特征模型可以定义为上网设备静态特征下构建的模型。当再次收集到上网设备新的特征数据时,即获取上网设备用户的当前特征数据,该新的特征数据为动态的特征数据,确定所述当前特征数据的取值分布,然后根据所述当前特征数据的取值分布转化为相应的场景特征,将当前特征数据转化的场景特征应用于异常检测模型和真伪判断模型中,得到两个场景特征模型的结果,即获取异常检测结果及真伪判断结果。
S50:根据所述异常检测结果及真伪判断结果,确定所述上网设备用户的分类类型。
在得到两个场景特征模型的检测结果,结合两个场景特征模型的检测结果,确定所述上网设备用户的分类类型,在一种实施方式中,运用投票算法对所述异常检测结果及真伪判断结果进行计算,例如所述异常检测结果及真伪判断结果均为概率值,配置所述异常检测结果及真伪判断结果的权重,对所述异常检测结果及真伪判断结果增加权重计算加权平均值,当所述加权平均值满足不同设定阈值时,确定所述上网设备用户的分类类型为对应的分类类型。
本实施例提供了一种从用户终端设备信息数据是否异常的角度,检测该终端设备用户是否为真实用户的方法,在用户在进行注册、验证时,通过预置的埋点信息,收集上网设备用户注册时的特征数据,此时的特征数据为上网设备用户的静态特征数据,然后基于所述静态特征数据构建场景特征模型包括异常检测模型和真伪判断模型,当再次获取上网设备用户的当前特征数据时,该当前特征数据为动态特征数据,将该动态特征数据应用于所述异常检测模型和真伪判断模型,获取异常检测结果及真伪判断结果,再通过比较异常检测结果及真伪判断结果,确定所述上网设备用户的分类类型,通过上网设备用户的静态特征数据及动态特征数据的比较,能够动态、准确、快速地确定上网设备用户的分类类型,动态地识别出上网设备用户是否为爬虫机器,避免反爬虫策略无法及时更新而无法识别出爬虫机器的干扰,同时避免将真实用户判别为异常用户,影响用户的后续作业,从而提高真实用户作业的效率。
本发明的一种实施例,所述获取上网设备用户的当前特征数据之后,还包括:
获取所述当前特征数据中的关联数据,所述关联数据包括第一特征数据及第二特征数据;
根据所述第一特征数据,确定所述第一特征数据的取值分布,根据所述第一特征数据的取值分布基于业务场景生成第一场景特征;根据所述第二特征数据,确定所述第二特征数据的取值分布,根据所述第二特征数据的取值分布基于业务场景生成第二场景特征;
比较所述第一场景特征与所述第二场景特征的差异度,根据所述差异度确定所述关联数据的准确度。
在上网设备的所有特征数据中,包括具有相互关联的特征数据,本实施例在获取上网设备用户的当前特征数据时,获取所述当前特征数据中的关联数据,为了方便表述,将关联数据中的一种定义为第一特征数据,与所述第一特征数据相关联的定义为第二特征数据,例如触摸屏的型号与触摸屏的能力支持、分辨率为具有关联性的特征数据,根据所述第一特征数据,确定所述第一特征数据的取值分布,根据所述第一特征数据的取值分布基于业务场景生成第一场景特征;根据所述第二特征数据,确定所述第二特征数据的取值分布,根据所述第二特征数据的取值分布基于业务场景生成第二场景特征,然后比较所述第一场景特征与所述第二场景特征的差异度,具有关联性的特征数据,所得到的场景特征应该趋近相同,然后根据所述差异度确定所述关联数据的准确度,若差异度大于设定值,则确定该关联数据的准确度较低,若准确度较低,则可以将该终端设备用户列为可疑用户,例如篡改了操作系统导致关联数据的差异度过大,亦可作为后续对终端设备用户分类类型的参考。
本发明的一种实施例,所述根据所述异常检测结果及真伪判断结果,确定所述上网设备用户的分类类型,包括:
S51:获取异常检测模型和真伪判断模型的权重,根据所述所述异常检测结果及真伪判断结果及权重,生成最终检测结果;
S52:将所述最终检测结果与设定阈值相比较,若最终检测结果低于或等于第一设定阈值,确定所述上网设备用户为正常用户;若所述最终检测结果高于或等于第二设定阈值,确定所述上网设备用户为异常用户。
本实施例中,在根据所述异常检测结果及真伪判断结果确定上网设备用户的分类类型时,获取异常检测模型和真伪判断模型的权重,然后运用投票算法对所述异常检测结果及真伪判断结果进行计算,在一种实施方式中,所述异常检测结果及真伪判断结果均为概率值,根据所述所述异常检测结果及真伪判断结果及权重,生成最终检测结果,例如对所述异常检测结果及真伪判断结果计算加权平均值,然后将所述最终检测结果与设定阈值相比较,所述最终检测结果低于或等于第一设定阈值,确定所述上网设备用户为正常用户;若所述最终检测结果高于或等于第二设定阈值,确定所述上网设备用户为异常用户;若所述最终检测结果高于第一设定阈值且低于第二设定阈值,确定所述上网设备用户为灰度用户。
本发明的一种实施例,所述确定所述上网设备用户为灰度用户之后,还包括:
将所述正常用户添加进白名单,将所述异常用户及所述灰度用户添加进灰名单;
根据预置的白名单及灰名单的作业频率,获取所述白名单中的正常用户或灰名单中的异常用户及灰度用户的特征数据。
在确定用户的分类类型后,将不同分类类型的用户添加进不同的名单中,以方便后续对不同分类类型用户的管理,本实施例中,将所述正常用户添加进白名单,将所述异常用户及所述灰度用户添加进灰名单。进一步的,本实施例的一种实施方式,在后续的作业中降低获取白名单用户中的上网设备用户特征数据的频率,以降低资源的消耗。本实施例的一种实施方式,再一次获取异常用户的特征数据,根据所述特征数据确定该异常用户是否仍为异常用户,若是,将该些异常用户添加进黑名单中,后续的作业中降低获取黑名单用户中的上网设备用户特征数据的频率,以降低资源的消耗。
本发明的一种实施例,所述确定所述上网设备用户为正常用户之后,还包括:
通过所述正常用户的上网设备的验证;
所述确定所述上网设备用户为异常用户之后,还包括:
限制所述异常用户的上网设备的验证;
所述确定所述上网设备用户为灰度用户之后,还包括:
通过所述灰度用户的上网设备的验证,并降低为所述灰度用户的上网设备分配的资源。
动态的特征数据能够实时确认上网设备用户是否为正常用户,在进行相关活动时,若判定所述上网设备用户为正常用户时,则通过所述上网设备用户的验证,保证所述上网设备用户能够正常进行作业,如浏览网站、登录应用程序。进一步的,在一种实施方式中,若确定所述上网设备用户为异常用户时,则限制所述异常用户的上网设备的验证,例如只通过预设比例的异常用户的上网设备的验证,如从异常用户中获取5%的异常用户,通过该些异常用户的上网设备的验证,从而降低网络资源消耗,若确定所述上网设备用户为灰度用户时,则通过所述灰度用户的上网设备的验证,并降低为所述灰度用户的上网设备分配的资源,例如降低灰度用户的上网设备的网络资源,从而限制所述灰度用户的网页浏览速度,让更多的资源分配至正常用户,保证正常用户能够更好地完成相应的作业。
本发明的一种实施例,所述根据所述场景特征构建场景特征模型,包括:
根据所述场景特征并采用贝叶斯算法和one_class支持向量机算法构建场景特征模型。
本实施例中,得到所述场景特征后,采用贝叶斯算法和one_class支持向量机算法构建场景特征模型,基于贝叶斯算法和one_class算法分别检测场景特征中正例和负例的优势,负例的样本是爬虫算法,自动化设备等设备的特征数据而生成的场景特征,正例的样本是正常验证的设备的特征数据而生成的场景特征,通过对正负例样本的筛选、比较能够提高数据的精确度,从而提高了人机识别的准确率,准确识别出终端设备用户的分类类型。
如图3所示,在另一种实施例中,本发明提供了一种上网设备用户的检测装置,包括:
埋点模块10:用于通过预置的埋点信息,收集上网设备用户注册时的特征数据;
场景特征模块20:用于根据所述特征数据,确定所述特征数据的取值分布,根据所述取值分布基于业务场景生成场景特征;
模型构建模块30:用于根据所述场景特征构建场景特征模型,所述场景特征模型包括异常检测模型和真伪判断模型;
检测模块40:用于获取上网设备用户的当前特征数据,将所述当前特征数据应用于所述异常检测模型和真伪判断模型,获取异常检测结果及真伪判断结果;
分类模块50:用于根据所述异常检测结果及真伪判断结果,确定所述上网设备用户的分类类型。
本发明的一种实施例,所述检测模块40还包括执行;
获取所述当前特征数据中的关联数据,所述关联数据包括第一特征数据及第二特征数据;
根据所述第一特征数据,确定所述第一特征数据的取值分布,根据所述第一特征数据的取值分布基于业务场景生成第一场景特征;根据所述第二特征数据,确定所述第二特征数据的取值分布,根据所述第二特征数据的取值分布基于业务场景生成第二场景特征;
比较所述第一场景特征与所述第二场景特征的差异度,根据所述差异度确定所述关联数据的准确度。
本发明的一种实施例,所述分类模块50还包括执行:
获取异常检测模型和真伪判断模型的权重,根据所述所述异常检测结果及真伪判断结果及权重,生成最终检测结果;将所述最终检测结果与设定阈值相比较,若所述最终检测结果低于第一设定阈值,确定所述上网设备用户为正常用户;若所述最终检测结果高于第二设定阈值,确定所述上网设备用户为异常用户;若所述最终检测结果高于第一设定阈值且低于第二设定阈值,确定所述上网设备用户为灰度用户。
本发明的一种实施例,所述装置还包括:
黑白名单模块:用于将所述正常用户添加进白名单,将所述异常用户及所述灰度用户添加进灰名单;根据预置的白名单及灰名单的作业频率,获取所述白名单中的正常用户或灰名单中的异常用户及灰度用户的特征数据。
本发明的一种实施例,所述装置还包括:
认证模块:用于确定所述上网设备用户为正常用户之后,通过所述上网设备用户的验证;确定所述上网设备用户为异常用户之后,限制所述异常用户的上网设备的验证;确定所述上网设备用户为灰度用户之后,通过所述灰度用户的上网设备的验证,并降低为所述灰度用户的上网设备分配的资源。
本发明的一种实施例,所述模型构建模块30还包括执行:
根据所述场景特征并采用贝叶斯算法和one_class支持向量机算法构建场景特征模型。
在另一种实施例中,本发明提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例所述的上网设备用户的检测方法。其中,所述计算机可读存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random AcceSSMemory,随即存储器)、EPROM(EraSable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically EraSable Programmable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,存储设备包括由设备(例如,计算机、手机)以能够读的形式存储或传输信息的任何介质,可以是只读存储器,磁盘或光盘等。
本发明实施例提供的一种计算机可读存储介质,可实现通过预置的埋点信息,收集上网设备用户注册时的特征数据;根据所述特征数据,确定所述特征数据的取值分布,根据所述取值分布基于业务场景生成场景特征;根据所述场景特征构建场景特征模型,所述场景特征模型包括异常检测模型和真伪判断模型;获取上网设备用户的当前特征数据,将所述当前特征数据应用于所述异常检测模型和真伪判断模型,获取异常检测结果及真伪判断结果;根据所述异常检测结果及真伪判断结果,确定所述上网设备用户的分类类型。通过提供一种从用户终端设备信息数据是否异常的角度,检测该终端设备用户是否为真实用户的方法,在用户在进行注册、验证时,通过预置的埋点信息,收集上网设备用户注册时的特征数据,此时的特征数据为上网设备用户的静态特征数据,然后基于所述静态特征数据构建场景特征模型包括异常检测模型和真伪判断模型,当再次获取上网设备用户的当前特征数据时,该当前特征数据为动态特征数据,将该动态特征数据应用于所述异常检测模型和真伪判断模型,获取异常检测结果及真伪判断结果,再通过比较异常检测结果及真伪判断结果,确定所述上网设备用户的分类类型,通过上网设备用户的静态特征数据及动态特征数据的比较,能够动态、准确、快速地确定上网设备用户的分类类型,动态地识别出上网设备用户是否为爬虫机器,避免反爬虫策略无法及时更新而无法识别出爬虫机器的干扰,同时避免将真实用户判别为异常用户,影响用户的后续作业,从而提高真实用户作业的效率。
本发明实施例提供的计算机可读存储介质可以实现上述上网设备用户的检测方法的实施例,具体功能实现请参见方法实施例中的说明,在此不再赘述。
此外,在又一种实施例中,本发明还提供一种服务器,如图4所示,所述服务器包括处理器403、存储器405、输入单元407以及显示单元409等器件。本领域技术人员可以理解,图4示出的结构器件并不构成对所有服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件。所述存储器405可用于存储计算机程序401以及各功能模块,所述处理器403运行存储在存储器405的计算机程序401,从而执行设备的各种功能应用以及数据处理。所述存储器405可以是内存储器或外存储器,或者包括内存储器和外存储器两者。内存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)、快闪存储器、或者随机存储器。外存储器可以包括硬盘、软盘、ZIP盘、U盘、磁带等。本发明所公开的存储器包括但不限于这些类型的存储器。本发明所公开的存储器405只作为例子而非作为限定。
输入单元407用于接收信号的输入及接收用户的输入,输入单元407可包括触控面板以及其它输入设备,触控面板可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作),并根据预先设定的程序驱动相应的连接装置;其它输入设备可以包括但不限于物理键盘、功能键(比如播放控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。显示单元409可用于显示用户输入的信息或提供给用户的信息以及计算机设备的各种菜单。显示单元409可采用液晶显示器、有机发光二极管等形式。处理器403是计算机设备的控制中心,利用各种接口和线路连接整个电脑的各个部分,通过运行或执行存储在存储器403内的软件程序和/或模块,以及调用存储在存储器内的数据,执行各种功能和处理数据。
在一种实施方式中,所述服务器包括一个或多个处理器403,以及一个或多个存储器405,一个或多个计算机程序401,其中所述一个或多个计算机程序401被存储在存储器405中并被配置为由所述一个或多个处理器403执行,所述一个或多个计算机程序401配置用于执行以上实施例所述的上网设备用户的检测方法。图4中所示的一个或多个处理器403能够执行、实现图3中所示的埋点模块10、场景特征模块20、模型构建模块30、检测模块40、分类模块50的功能。
本发明实施例提供的一种服务器,可实现通过预置的埋点信息,收集上网设备用户注册时的特征数据;根据所述特征数据,确定所述特征数据的取值分布,根据所述取值分布基于业务场景生成场景特征;根据所述场景特征构建场景特征模型,所述场景特征模型包括异常检测模型和真伪判断模型;获取上网设备用户的当前特征数据,将所述当前特征数据应用于所述异常检测模型和真伪判断模型,获取异常检测结果及真伪判断结果;根据所述异常检测结果及真伪判断结果,确定所述上网设备用户的分类类型。通过提供一种从用户终端设备信息数据是否异常的角度,检测该终端设备用户是否为真实用户的方法,在用户在进行注册、验证时,通过预置的埋点信息,收集上网设备用户注册时的特征数据,此时的特征数据为上网设备用户的静态特征数据,然后基于所述静态特征数据构建场景特征模型包括异常检测模型和真伪判断模型,当再次获取上网设备用户的当前特征数据时,该当前特征数据为动态特征数据,将该动态特征数据应用于所述异常检测模型和真伪判断模型,获取异常检测结果及真伪判断结果,再通过比较异常检测结果及真伪判断结果,确定所述上网设备用户的分类类型,通过上网设备用户的静态特征数据及动态特征数据的比较,能够动态、准确、快速地确定上网设备用户的分类类型,动态地识别出上网设备用户是否为爬虫机器,避免反爬虫策略无法及时更新而无法识别出爬虫机器的干扰,同时避免将真实用户判别为异常用户,影响用户的后续作业,从而提高真实用户作业的效率。
本发明实施例提供的终端设备可以实现上述提供的上网设备用户的检测方法的实施例,具体功能实现请参见方法实施例中的说明,在此不再赘述。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种上网设备用户的检测方法,其特征在于,包括:
通过预置的埋点信息,收集上网设备用户注册时的特征数据;
根据所述特征数据,确定所述特征数据的取值分布,根据所述取值分布基于业务场景生成场景特征;
根据所述场景特征构建场景特征模型,所述场景特征模型包括异常检测模型和真伪判断模型;
获取上网设备用户的当前特征数据,将所述当前特征数据应用于所述异常检测模型和真伪判断模型,获取异常检测结果及真伪判断结果;
根据所述异常检测结果及真伪判断结果,确定所述上网设备用户的分类类型。
2.根据权利要求1所述的方法,其特征在于,所述获取上网设备用户的当前特征数据之后,还包括:
获取所述当前特征数据中的关联数据,所述关联数据包括第一特征数据及第二特征数据;
根据所述第一特征数据,确定所述第一特征数据的取值分布,根据所述第一特征数据的取值分布基于业务场景生成第一场景特征;根据所述第二特征数据,确定所述第二特征数据的取值分布,根据所述第二特征数据的取值分布基于业务场景生成第二场景特征;
比较所述第一场景特征与所述第二场景特征的差异度,根据所述差异度确定所述关联数据的准确度。
3.根据权利要求1所述的方法,其特征在于,所述根据所述异常检测结果及真伪判断结果,确定所述上网设备用户的分类类型,包括:
获取异常检测模型和真伪判断模型的权重,根据所述异常检测结果及真伪判断结果及权重,生成最终检测结果;
将所述最终检测结果与设定阈值相比较,若所述最终检测结果低于或等价于第一设定阈值,确定所述上网设备用户为正常用户;若所述最终检测结果高于或等于第二设定阈值,确定所述上网设备用户为异常用户;若所述最终检测结果高于第一设定阈值且低于第二设定阈值,确定所述上网设备用户为灰度用户。
4.根据权利要求3所述的方法,其特征在于,所述确定所述上网设备用户为灰度用户之后,还包括:
将所述正常用户添加进白名单,将所述异常用户及所述灰度用户添加进灰名单;
根据预置的白名单及灰名单的作业频率,获取所述白名单中的正常用户或灰名单中的异常用户及灰度用户的特征数据。
5.根据权利要求3所述的方法,其特征在于,所述确定所述上网设备用户为正常用户之后,还包括:
通过所述正常用户的上网设备的验证;
所述确定所述上网设备用户为异常用户之后,还包括:
限制所述异常用户的上网设备的验证;
所述确定所述上网设备用户为灰度用户之后,还包括:
通过所述灰度用户的上网设备的验证,并降低为所述灰度用户的上网设备分配的资源。
6.根据权利要求1所述的方法,其特征在于,所述根据所述场景特征构建场景特征模型,包括:
根据所述场景特征并采用贝叶斯算法和one_class支持向量机算法构建场景特征模型。
7.一种上网设备用户的检测装置,其特征在于,包括:
埋点模块:用于通过预置的埋点信息,收集上网设备用户注册时的特征数据;
场景特征模块:用于根据所述特征数据,确定所述特征数据的取值分布,根据所述取值分布基于业务场景生成场景特征;
模型构建模块:用于根据所述场景特征构建场景特征模型,所述场景特征模型包括异常检测模型和真伪判断模型;
检测模块:用于获取上网设备用户的当前特征数据,将所述当前特征数据应用于所述异常检测模型和真伪判断模型,获取异常检测结果及真伪判断结果;
分类模块:用于根据所述异常检测结果及真伪判断结果,确定所述上网设备用户的分类类型。
8.根据权利要求7所述的装置,其特征在于,所述分类模块还包括执行:
获取异常检测模型和真伪判断模型的权重,根据所述所述异常检测结果及真伪判断结果及权重,生成最终检测结果;
将所述最终检测结果与设定阈值相比较,若所述最终检测结果低于或等于第一设定阈值,确定所述上网设备用户为正常用户;若所述最终检测结果高于或等于第二设定阈值,确定所述上网设备用户为异常用户;若所述最终检测结果高于第一设定阈值且低于第二设定阈值,确定所述上网设备用户为灰度用户。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现权利要求1至6任一项所述的上网设备用户的检测方法。
10.一种服务器,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个计算机程序配置用于执行根据权利要求1至6任一项所述的上网设备用户的检测方法。
CN201910112932.8A 2019-02-13 2019-02-13 上网设备用户的检测方法、装置、存储介质及服务器 Active CN109960753B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910112932.8A CN109960753B (zh) 2019-02-13 2019-02-13 上网设备用户的检测方法、装置、存储介质及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910112932.8A CN109960753B (zh) 2019-02-13 2019-02-13 上网设备用户的检测方法、装置、存储介质及服务器

Publications (2)

Publication Number Publication Date
CN109960753A true CN109960753A (zh) 2019-07-02
CN109960753B CN109960753B (zh) 2023-07-25

Family

ID=67023656

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910112932.8A Active CN109960753B (zh) 2019-02-13 2019-02-13 上网设备用户的检测方法、装置、存储介质及服务器

Country Status (1)

Country Link
CN (1) CN109960753B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826006A (zh) * 2019-11-22 2020-02-21 支付宝(杭州)信息技术有限公司 基于隐私数据保护的异常采集行为识别方法和装置
CN111125692A (zh) * 2019-12-05 2020-05-08 任子行网络技术股份有限公司 反爬虫方法及装置
CN112906727A (zh) * 2019-12-04 2021-06-04 中国电信股份有限公司 用于实时在线检测虚拟机状态的方法和系统
CN113091809A (zh) * 2021-03-26 2021-07-09 中国船舶重工集团公司第七一三研究所 一种自动识别设备状态的检测系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001031421A1 (en) * 1999-10-25 2001-05-03 Visa International Service Association Method and apparatus for training a neural network model for use in computer network intrusion detection
US20120283991A1 (en) * 2011-05-06 2012-11-08 The Board of Trustees of the Leland Stanford, Junior, University Method and System for Online Detection of Multi-Component Interactions in Computing Systems
CN107153971A (zh) * 2017-05-05 2017-09-12 北京京东尚科信息技术有限公司 用于识别app推广中设备作弊的方法及装置
CN107426199A (zh) * 2017-07-05 2017-12-01 浙江鹏信信息科技股份有限公司 一种网络异常行为检测与分析的方法及系统
CN108322347A (zh) * 2018-02-09 2018-07-24 腾讯科技(深圳)有限公司 数据检测方法、装置、检测服务器及存储介质
CN108809745A (zh) * 2017-05-02 2018-11-13 中国移动通信集团重庆有限公司 一种用户异常行为检测方法、装置及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001031421A1 (en) * 1999-10-25 2001-05-03 Visa International Service Association Method and apparatus for training a neural network model for use in computer network intrusion detection
US20120283991A1 (en) * 2011-05-06 2012-11-08 The Board of Trustees of the Leland Stanford, Junior, University Method and System for Online Detection of Multi-Component Interactions in Computing Systems
CN108809745A (zh) * 2017-05-02 2018-11-13 中国移动通信集团重庆有限公司 一种用户异常行为检测方法、装置及系统
CN107153971A (zh) * 2017-05-05 2017-09-12 北京京东尚科信息技术有限公司 用于识别app推广中设备作弊的方法及装置
CN107426199A (zh) * 2017-07-05 2017-12-01 浙江鹏信信息科技股份有限公司 一种网络异常行为检测与分析的方法及系统
CN108322347A (zh) * 2018-02-09 2018-07-24 腾讯科技(深圳)有限公司 数据检测方法、装置、检测服务器及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826006A (zh) * 2019-11-22 2020-02-21 支付宝(杭州)信息技术有限公司 基于隐私数据保护的异常采集行为识别方法和装置
CN110826006B (zh) * 2019-11-22 2021-03-19 支付宝(杭州)信息技术有限公司 基于隐私数据保护的异常采集行为识别方法和装置
CN112906727A (zh) * 2019-12-04 2021-06-04 中国电信股份有限公司 用于实时在线检测虚拟机状态的方法和系统
CN111125692A (zh) * 2019-12-05 2020-05-08 任子行网络技术股份有限公司 反爬虫方法及装置
CN111125692B (zh) * 2019-12-05 2022-07-12 任子行网络技术股份有限公司 反爬虫方法及装置
CN113091809A (zh) * 2021-03-26 2021-07-09 中国船舶重工集团公司第七一三研究所 一种自动识别设备状态的检测系统

Also Published As

Publication number Publication date
CN109960753B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
CN109960753A (zh) 上网设备用户的检测方法、装置、存储介质及服务器
Liu et al. {DECAF}: Detecting and characterizing ad fraud in mobile apps
Wu et al. Droidmat: Android malware detection through manifest and api calls tracing
Shang et al. Android malware detection method based on naive Bayes and permission correlation algorithm
CN109241709B (zh) 基于滑块验证码验证的用户行为识别方法及装置
US20200183811A1 (en) Automatically Performing and Evaluating Pilot Testing of Software
CN107145782B (zh) 一种异常应用程序的识别方法、移动终端及服务器
US9906542B2 (en) Testing frequency control using a volatility score
CN107807841B (zh) 服务器模拟方法、装置、设备及可读存储介质
Merlo et al. Riskindroid: Machine learning-based risk analysis on android
CN107180190A (zh) 一种基于混合特征的Android恶意软件检测方法及系统
CN109271762A (zh) 基于滑块验证码的用户认证方法及装置
WO2023055426A1 (en) Techniques for input classification and responses using generative neural networks
US20220253307A1 (en) Miniprogram classification method, apparatus, and device, and computer-readable storage medium
CN113378067B (zh) 基于用户挖掘的消息推荐方法、设备、介质
CN105184161B (zh) 一种针对混合模式移动应用的检测方法及装置
CN112288231B (zh) 人工智能产品的配置生成方法、装置、电子设备及存储介质
CN105373715A (zh) 一种基于可穿戴设备的数据访问方法及装置
CN117115596A (zh) 对象动作分类模型的训练方法、装置、设备及介质
CN112633414A (zh) 特征选择优化方法、设备和可读存储介质
Castro et al. Exploring Logic Scoring of Preference for DoS Attack Detection in Microservice Applications
CN114697079B (zh) 一种应用客户端非法用户检测方法和系统
US10809887B2 (en) Evaluating user interface efficiency
CN113874860A (zh) 用于检测恶意软件的装置和方法
KR102465307B1 (ko) 화이트 리스트 생성 방법 및 이를 수행하는 사용자 단말, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant