CN111476610B - 一种信息检测方法、装置及计算机可读存储介质 - Google Patents
一种信息检测方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN111476610B CN111476610B CN202010300786.4A CN202010300786A CN111476610B CN 111476610 B CN111476610 B CN 111476610B CN 202010300786 A CN202010300786 A CN 202010300786A CN 111476610 B CN111476610 B CN 111476610B
- Authority
- CN
- China
- Prior art keywords
- information
- sequence
- positive sample
- network
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0248—Avoiding fraud
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0277—Online advertisement
Abstract
本申请实施例公开了一种信息检测方法、装置及计算机可读存储介质,本申请实施例通过采集网络样本信息,并按照时间维度将网络样本信息进行排序,生成正样本序列;基于正样本序列得到正样本对信息,并根据正样本对信息构建转移概率矩阵;获取待检测序列,并结合转移概率矩阵计算待检测序列的目标概率;当检测到目标概率小于预设阈值时,将待检测序列相应的客户端确定为异常客户端。以此,通过采集网络样本信息生成正样本序列,对正样本序列进行拆分,得到正样本对信息构建转移概率矩阵,结合转移概率矩阵计算待检测序列的目标概率,在目标概率不符合条件时,将该待检测序列相应的客户端确定为异常客户端并进行防护,极大的提升了信息检测的准确率。
Description
技术领域
本申请涉及信息检测技术领域,具体涉及一种信息检测方法、装置及计算机可读存储介质。
背景技术
随着网络的发展和计算机的广泛应用,线上信息推广市场迅速扩展,出钱投放广告的广告主可以向推送平台付费,通过网页、搜索引擎、应用程序或者其他平台来投放自己的广告,从而很好的推广自己的产品。但是,在巨大的利益驱使下,广告爬虫问题越来越严重,广告爬虫可以爬取广告的信息,达到挖掘客户、盗取素材和破坏流量等目的,会导致广告主流失,商业数据泄露,造成巨大的经济损失。
现有技术中,可以获取客户端的使用信息生成相应的用户画像,从而根据用户画像检测客户端是否为异常客户端,在检测到客户端为异常客户端的状态下,会对该异常客户端形成固定标签并推送特定的广告,使异常客户端爬取信息受限,从而保护广告主。
在对现有技术的研究和实践过程中,本申请的发明人发现,现有技术中,广告爬虫可以对自身的用户画像进行篡改,将客户端伪装成正常客户端,从而继续进行恶意爬取,因此信息检测的准确率较低。
发明内容
本申请实施例提供一种信息检测方法、装置及计算机可读存储介质,可以提升信息检测的准确率。
为解决上述技术问题,本申请实施例提供以下技术方案:
一种信息检测方法,包括:
采集网络样本信息,并按照时间维度将所述网络样本信息进行排序,生成正样本序列;
基于所述正样本序列得到正样本对信息,并根据所述正样本对信息构建转移概率矩阵;
获取待检测序列,并结合所述转移概率矩阵计算所述待检测序列的目标概率;
当检测到所述目标概率小于预设阈值时,将所述待检测序列相应的客户端确定为异常客户端。
一种信息检测装置,包括:
采集单元,用于采集网络样本信息,并按照时间维度将所述网络样本信息进行排序,生成正样本序列;
构建单元,用于基于所述正样本序列得到正样本对信息,并根据所述正样本对信息构建转移概率矩阵;
计算单元,用于获取待检测序列,并结合所述转移概率矩阵计算所述待检测序列的目标概率;
异常确定单元,用于当检测到所述目标概率小于预设阈值时,将所述待检测序列相应的客户端确定为异常客户端。
在一些实施例中,所述计算单元,用于:
依次获取所述待检测序列中相邻的待检测网络信息,并将所述相邻的待检测网络信息组合,生成待检测对信息;
基于所述转移概率矩阵获取每一待检测对信息的概率;
将所述每一待检测对信息的概率进行乘积运算,得到所述目标概率。
在一些实施例中,所述装置还包括预设阈值确定单元,用于:
获取所述待检测序列的目标序列长度;
获取与所述目标序列长度相同的目标正样本序列;
根据所述目标正样本序列确定相应的预设阈值。
在一些实施例中,预设阈值确定单元,还用于:
获取所述待检测序列的目标序列长度;
获取与所述目标序列长度相同的目标正样本序列;
获取所述目标正样本序列中的目标正样本对信息;
基于所述转移概率矩阵获取每一目标正样本对信息的概率;
将所述每一目标正样本对信息的概率进行乘积运算,得到每一目标正样本序列的参考概率;
计算所述参考概率的算术平均值,得到所述相应的预设阈值。
在一些实施例中,所述装置还包括信任确定单元,用于:
当检测到所述目标概率不小于所述预设阈值时,将所述待检测序列相应的客户端确定为信任客户端。
一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行上述信息检测方法中的步骤。
本申请实施例通过采集网络样本信息,并按照时间维度将网络样本信息进行排序,生成正样本序列;基于正样本序列得到正样本对信息,并根据正样本对信息构建转移概率矩阵;获取待检测序列,并结合转移概率矩阵计算待检测序列的目标概率;当检测到目标概率小于预设阈值时,将待检测序列相应的客户端确定为异常客户端。以此,通过采集网络样本信息生成正样本序列,对正样本序列进行拆分,得到正样本对信息构建转移概率矩阵,结合转移概率矩阵计算待检测序列的目标概率,在目标概率不符合条件时,将该待检测序列相应的客户端确定为异常客户端,极大的提升了信息检测的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的信息检测系统的场景示意图;
图2是本申请实施例提供的信息检测方法的流程示意图;
图3是本申请实施例提供的信息检测方法的另一流程示意图;
图4是本申请实施例提供的信息检测方法的场景示意图;
图5是本申请实施例提供的信息检测装置的结构示意图;
图6是本申请实施例提供的服务器的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种信息检测方法、装置、及计算机可读存储介质。
请参阅图1,图1为本申请实施例所提供的信息检测系统的场景示意图,包括:终端A、和服务器(该信息检测系统还可以包括除终端A之外的其他终端,终端具体个数在此处不作限定),终端A与服务器之间可以通过通信网络连接,该通信网络,可以包括无线网络以及有线网络,其中无线网络包括无线广域网、无线局域网、无线城域网、以及无线个人网中的一种或多种的组合。网络中包括路由器、网关等等网络实体,图中并未示意出。终端A可以通过通信网络与服务器进行信息交互,比如终端A在运行包含各类广告的应用,例如视频、短视频、微博和购物各类应用时,终端A可以检测应用操作时涉及的网络样本信息,并将该网络样本信息发送至服务器进行验证。
该信息检测系统可以包括信息检测装置,该信息检测装置具体可以集成在服务器中,在图1中,该服务器主要用于接收终端A上传的网络样本信息,连续采集该网络样本信息,并按照时间维度将该网络样本信息进行排序,生成正样本序列,该正样本序列代表了应用在正常操作应用时一系列的操作,基于该正样本序列得到正样本对信息,并根据该正样本对信息构建转移概率矩阵,该转移概率矩阵描述的是某个状态在一次转移发生后发生事件的变化规律,获取待检测序列,并结合该转移概率矩阵计算该待检测序列的目标概率,当检测到该目标概率小于预设阈值时,将该待检测序列相应的客户端确定为异常客户端,即将该客户端确定为爬虫客户端。
该信息检测系统还可以包括终端A,该终端A可以安装各种用户需要的应用,例如视频、短视频、微博和购物等各类应用,例如,终端A在运行视频应用时,终端A可以连续选取应用正常操作时涉及的网络样本信息,并将该网络样本信息发送至服务器中进行异常检测。
需要说明的是,图1所示的信息检测系统的场景示意图仅仅是一个示例,本申请实施例描述的信息检测系统以及场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着信息检测系统的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
以下分别进行详细说明。需说明的是,以下实施例的序号不作为对实施例优选顺序的限定。
实施例一、
在本实施例中,将从信息检测装置的角度进行描述,该信息检测装置具体可以集成在具备储存单元并安装有微处理器而具有运算能力的服务器中,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
请参阅图2,图2是本申请实施例提供的信息检测方法的流程示意图。该信息检测方法包括:
在步骤101中,采集网络样本信息,并按照时间维度将网络样本信息进行排序,生成正样本序列。
需要说明的是,相关技术中,服务器对判定为广告爬虫的客户端会形成固定标签,以推送特定的广告,使得广告爬虫相应的客户端的爬取受限,因此,异常客户端为了继续实现爬取,会通过各种方法,如伪装成新用户客户端或者通过非法渠道购买用户泄露的数据,上报正确终端品牌、型号、版本、浏览器甚至常驻地等,给服务器对于爬虫客户端检测带来很多的挑战。
其中,本申请实施例的网络样本信息可以为代表客户端上应用操作访问特定网络地址的流量信息,该网络地址可以为应用使用时链接的网址地址,如域名(Domain Name)或者统一资源定位符(Uniform Resource Locator,URL),该域名通常指一个网址的顶级域名,该统一资源定位符为每一信息资源都有统一的且在网上唯一的地址,通常为网页或网站的网址,该统一资源定位符中包含了网站的域名,比如一个网址:login.wc.com网址,该wc.com为域名,login是网址的名字,com是域名后缀,当用户访问该login.wc.com时采集的网络样本信息为登入流量信息。以此,可以预先采集大量正常客户端在应用使用时的网络样本信息,并按照时间维度将该网络样本信息进行排序,生成相应的正样本序列,例如正样本序列1,登入-菜单-播放列表-缩略图-拉取-视频-曝光-点击等等,该正样本序列1中每一步的顺序即为采集的时间顺序,并且可以采集大量的正样本序列,使得后续可以通过该大量的正样本序列进行正常网络流量分析,建立正常客户端在广告投放过程中的转移概率矩阵。
在一实施方式中,可以通过最大限制长度来限制该正样本序列的序列长度,且该序列中前后两个对象之间的间隔时间需要小于一定的时间。
在一些实施方式中,该采集网络样本信息,并按照时间维度将网络样本信息进行排序,生成正样本序列的步骤,可以包括:
(1)采集应用操作访问的网络访问信息作为网络样本信息,并记录相应的访问时间;
(2)将该网络样本信息按照访问标识进行聚合;
(3)将聚合后的网络样本信息按照访问时间的顺序进行排序,生成正样本序列。
其中,本申请实施例采集应用操作访问的网络访问信息,该网络访问信息为正常客户端在应用操作访问特定网络地址时,根据该网络地址的属性信息得到的信息,例如,客户端上应用操作访问的网络地址为menu.wc.com时,该网络地址的属性信息为菜单(menu)信息,采集该菜单信息作为网络样本信息,并记录相应的访问时间,如17点09分10秒。
进一步的,每一个网络样本信息都包含相应的访问标识,该访问标识可以包括会话标识、令牌(token)标识、用户设备标识或者用户标识,用于区分网络样本信息相应的客户端,本申请实施例可以实现将网络样本信息按照访问标识进行聚合,即将每一客户端的网络样本信息进行聚合,并将聚合后的网络样本信息按照访问时间的顺序进行排序,得到多个访问标识对应的正样本序列。
在步骤102中,基于正样本序列得到正样本对信息,并根据正样本对信息构建转移概率矩阵。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例提供的方案涉及人工智能的深度学习等技术,具体通过如下实施例进行说明:
隐马尔可夫模型:该隐马尔可夫模型是关于时序的概念模型,描述了由一个隐藏的马尔可夫链随机产生不可观测的状态随机序列,再由各个状态生成一个观测而产生观测随机序列的过程。隐藏的马尔科夫链随机生成的状态序列称为状态序列,每个状态生成一个预测,而由此产生的观测的随机序列,称为观测序列,序列的每一个位置又可以看作一个时刻。
而该转移概率矩阵代表应用操作从此刻所处的网络样本信息i,在下一刻会跳转到网络样本信息j的概率,所以可以说正是该转移概率矩阵支配着隐马尔可夫过程的跳变。
其中,本申请实施例通过获取代表正常客户端在应用操作时一系列的操作的正样本信息,将该正样本序列按照时间顺序进行两两遍历拆分,得到多个正样本对信息,例如,对于正样本序列1,登入-菜单-播放列表-缩略图-拉取-视频-曝光-点击进行拆分,得到正样本对信息(登入-菜单)、(菜单-播放列表)、(播放列表-缩率图)、(缩率图-拉取)、(拉取-视频)、(视频-曝光)、(曝光-点击),该正样本对信息由两个正样本信息组合形成,处于正样本对信息前序的正样本信息为正样本对头,处于正样本对信息后序的正样本信息为正样本对尾,以此类推,对每一正样本序列进行拆分,得到大量的正样本对信息。
进一步的,可以统计每个正样本对信息出现的频数,例如(登入-菜单,100次)、(登入-拉取,10次)等等,统计以相同的网络样本信息为正样本对头时,出现的每一正样本对信息的数量和总数量,根据该数量和总数量计算该网络样本信息为正样本对头时,每一正样本对信息的概率值,以此类推,对网络样本信息进行依次计算,构建相应的转移概率矩阵,该转移概率矩阵可以代表正常客户端的应用操作从某一时刻的网络样本信息i跳转到下一网络样本信息j的概率,即反映了正常客户端在使用过程中的网络流量规律,后续可以根据该网络流量规律对客户端进行爬虫验证。
在一些实施方式中,根据该基于该正样本序列得到正样本对信息,并根据该正样本对信息构建转移概率矩阵的步骤,包括:
(1)依次获取该正样本序列中相邻的网络样本信息,并将该相邻的网络样本信息组合,生成正样本对信息;
(2)统计该网络样本信息为正样本对头时,出现的每一正样本对信息的数量以及总数量;
(3)根据该数量以及总数量计算该网络样本信息为正样本对头时,出现的每一正样本对信息的概率值,构建转移概率矩阵。
其中,可以按照时间顺序依次获取正样本序列中相邻的网络样本信息,例如,对于正样本序列1,登入-菜单-播放列表-缩略图-拉取-视频-曝光-点击,依次获取该正样本序列中相邻的网络样本信息组合,生成正样本对信息(登入-菜单)、(菜单-播放列表)、(播放列表-缩率图)、(缩率图-拉取)、(拉取-视频)、(视频-曝光)和(曝光-点击),以此类推,对每一正样本序列进行拆分,得到大量的正样本对信息。
进一步的,统计每一网络样本信息为正样本对头时,出现的每一正样本对信息的数量以及总数量,例如,统计登入信息的网络样本信息为正样本对头时,出现的每一正样本对信息(登入-菜单,100次)和(登入-拉取,10次)等等,假设总数量为1000次,根据该数量和总数量计算该登入信息的网络样本信息,出现的每一正样本对信息的概率值,如(登入-菜单,概率值0.1)等等,以此类推,计算每一网络样本信息为正样本对头时,出现的每一正样本对信息的概率值,构建转移概率矩阵,该转移概率矩阵的行为前一网络样本信息i,该转移概率矩阵的列为后一网络样本信息j,以此得到反映了正常客户端在使用过程中的网络流量运行规律。
在步骤103中,获取待检测序列,并结合转移概率矩阵计算待检测序列的目标概率。
其中,随着广告爬虫相应的客户端逃避检测的手段的升级,进行爬虫检测的手段越来越困难,本申请实施例从更底层的网络流量行为特征入手,构建可以反映正常客户端在使用过程中网络流量行为规律的转移概率矩阵。以此,获取待检测序列,该待检测序列为待检测客户端在应用使用时访问的待检测网络样本信息以时间维度进行组合得到的序列。例如,待检测序列可以为菜单-拉取-点击。
进一步的,将该待检测序列以采集时间为顺序进行两两遍历拆分,得到多个待检测对信息,例如(菜单-拉取)和(拉取-点击),结合转移概率矩阵计算该待检测对信息的目标概率,该目标概率越高,说明该待检测序列相应的客户端为正常客户端的概率越高,该目标概率越低,说明该待检测序列相应的客户端为异常客户端的概率越高。
在一实施方式中,该结合转移概率矩阵计算待检测序列的目标概率的步骤,可以包括:
(1)依次获取该待检测序列中相邻的待检测网络信息,并将该相邻的待检测网络信息组合,生成待检测对信息;
(2)基于该转移概率矩阵获取每一待检测网络信息的概率;
(3)将该每一待检测对信息的概率进行乘积运算,得到第一概率;
(4)获取该待检测对信息的第一目标数量,将该总概率开第一目标数量次根号,得到目标概率。
其中,例如,该检测序列可以为菜单-拉取-点击,依次获取该待检测序列菜单-拉取-点击中相邻的待检测网络信息菜单-拉取和拉取-点击,并将该相邻的待检测网络信息菜单-拉取和拉取-点击组合,生成待检测对信息(菜单-拉取)和(拉取-点击)。
进一步的,基于转移概率矩阵获取该(菜单-拉取)和(拉取-点击)的概率为0.2和0.2,将该每一待检测对信息的概率0.2和0.2进行乘积运算,得到第一概率0.04,获取该待检测对信息的第一目标数量为2,因此,将该总概率开2次根号,得到目标概率0.2。
在步骤104中,当检测到目标概率小于预设阈值时,将待检测序列相应的客户端确定为异常客户端。
云安全(Cloud Security)是指基于云计算商业模式应用的安全软件、硬件、用户、机构、安全云平台的总称。云安全融合了并行处理、网格计算、未知病毒行为判断等新兴技术和概念,通过网状的大量客户端对网络中软件行为的异常监测,获取互联网中木马、恶意程序的最新信息,并发送到服务端进行自动分析和处理,再把病毒和木马的解决方案分发到每一个客户端。
云安全主要研究方向包括:1.云计算安全,主要研究如何保障云自身及云上各种应用的安全,包括云计算机系统安全、用户数据的安全存储与隔离、用户接入认证、信息传输安全、网络攻击防护、合规审计等;2.安全基础设施的云化,主要研究如何采用云计算新建与整合安全基础设施资源,优化安全防护机制,包括通过云计算技术构建超大规模安全事件、信息采集与处理平台,实现对海量信息的采集与关联分析,提升全网安全事件把控能力及风险控制能力;3.云安全服务,主要研究各种基于云计算平台为用户提供的安全服务,如防病毒服务等。
本申请实施例提供的方案涉及云安全服务,具体通过如下实施例进行说明:
其中,该待检测序列的网络流量反映出待检测序列相应的客户端的操作规律,广告爬虫不可能为躲避打击而去请求流量极大但又必然会访问的网络样本信息(如视频流量信息和图片流量信息),所以,本申请实施例的策略难以被绕过。
进一步,该预设阈值为界定该待检测序列为正常客户端或者异常客户端的参考值,可以为专家设定的数组,该预设阈值的值会随着待检测序列的序列长度不同而发生改变,待检测序列的序列长度越长,该预设阈值的值越小,该待检测序列的序列长度越短,该预设阈值的值越大。当检测到该目标概率小于预设阈值时,说明该待检测序列的网络流量为异常网络流量,不符合正常客户端的网络流量规则,所以将待检测序列相应的客户端确定为异常客户端,实现对异常客户端的爬虫行为进行防护,实现云安全服务。
在一实施方式中,该预设阈值的取值步骤,可以包括:
(1)获取该待检测序列的目标序列长度;
(2)获取与该目标序列长度相同的目标正样本序列;
(3)根据该目标正样本序列确定相应的预设阈值。
其中,假设该待检测序列可以为菜单-拉取-点击,可以获取该待检测序列的目标序列长度为3个序列长度,获取与该3个序列长度相同的目标正样本序列,进而相同序列长度的目标正样本序列公共确定相应的预设阈值。
在一些实施方式中,该根据该目标正样本序列确定相应的预设阈值的步骤,可以包括:
(1.1)获取目标正样本序列中的目标正样本对信息;
(1.2)基于该转移概率矩阵获取每一目标正样本对信息的概率;
(1.3)将该每一目标正样本对信息的概率进行乘积运算,得到每一目标正样本序列的参考概率;
(1.4)获取该目标正样本对信息的第二目标数量,将每一目标正样本序列的参考概率开第二目标数量次根号,得到目标参考概率,计算该目标参考概率的算术平均值,得到相应的预设阈值。
其中,该预设阈值取决于目标正样本序列,首先获取目标正样本序列中的目标正样本对信息,基于该转移概率矩阵获取每一目标正样本对信息的概率,将每一目标正样本对信息的概率进行乘积运算,得到每一目标正样本序列的参考概率。
进一步的,获取该目标正样本对信息的第二目标数量,将每一目标正样本序列的参考概率开第二目标数量次根号,得到目标参考概率,并将所有的目标参考概率进行求和算平均值,得到相应的预设阈值。
由上述可知,本申请实施例通过采集网络样本信息,并按照时间维度将网络样本信息进行排序,生成正样本序列;基于正样本序列得到正样本对信息,并根据正样本对信息构建转移概率矩阵;获取待检测序列,并结合转移概率矩阵计算待检测序列的目标概率;当检测到目标概率小于预设阈值时,将待检测序列相应的客户端确定为异常客户端。以此,通过采集网络样本信息生成正样本序列,对正样本序列进行拆分,得到正样本对信息构建转移概率矩阵,结合转移概率矩阵计算待检测序列的目标概率,在目标概率不符合条件时,将该待检测序列相应的客户端确定为异常客户端,极大的提升了信息检测的准确率。
实施例二、
根据实施例一所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以该信息检测装置具体集成在服务器中为例进行说明。
请参阅图3,图3为本申请实施例提供的信息检测方法的另一流程示意图。该方法流程可以包括:
在步骤201中,服务器记录应用操作访问的网络地址信息。
其中,请一并参阅图4,服务器记录应用操作访问的网络地址信息,如该网络地址信息可以包括“login.wc.com”、“logout.wc.com”、“video.wc.com”、“image.wc.com”、“menu.wc.com”、“trace.wc.com”、“xxx.wc.com”、“pull.wc.com”、“expo.wc.com”和“click.wc.com”。服务器会记录正常客户端在应用操作时,访问的特定网络地址,例如用户连续访问“login.wc.com”、“menu.wc.com”、“trace.wc.com”、“pull.wc.com”、和“video.wc.com”。
在步骤202中,服务器根据网络地址信息的属性信息得到相应的网络访问信息作为网络样本信息,记录应用操作相应的访问时间。
其中,请一并参阅图4,每一网络地址信息的属性信息都相应对应于一个网络访问信息,例如“login.wc.com”、“logout.wc.com”、“video.wc.com”、“image.wc.com”、“menu.wc.com”、“trace.wc.com”、“xxx.wc.com”、“pull.wc.com”、“expo.wc.com”和“click.wc.com”分别对应于“登入流量信息”、“登出流量信息”、“视频流量信息”、“图片流量信息”、“菜单流量信息”、“心跳流量信息”、“xxx(即其他)流量信息”、“拉取流量信息”、“曝光流量信息”和“点击流量信息”。将用户连续访问的“login.wc.com”、“menu.wc.com”、“trace.wc.com”、“pull.wc.com”、和“video.wc.com”按照属性信息转化为网络样本信息“登入流量信息”、“菜单流量信息”、“心跳流量信息”、“拉取流量信息”、和“视频流量信息”,并记录每一网络样本信息的发生时间和相应的访问标识,形成网络流量日志,例如访问标识session1代表为第一访问标识,session2代表为第二访问标识等等。
在步骤203中,服务器将网络样本信息按照访问标识进行聚合,将聚合后的网络样本信息按照访问时间的顺序进行排序,得到排序后的初始序列,将初始序列按照预设长度限制、预设间隔时间限制和预设总时长限制进行拆分,得到正样本序列。
其中,请一并参阅图4,服务器将相同的访问标识对应的网络样本信息进行聚合,并将聚合后的网络样本信息按照访问时间的顺序进行排序,得到排序后的初始序列,该初始序列为根据同一访问标识按照时间进行排序的长段序列,该预设长度限制为正样本序列的长度限制,例如该预设长度限制为15个序列长度,那么该正样本序列的长度不会超过15个序列长度。该预设间隔时间限制为正样本序列中前后两个网络样本信息对象的间隔时间在一定范围内,例如该预设间隔时间限制为10秒,那么该正样本序列中前后两个网络样本信息对象的间隔时间不会超过10秒。该预设总时长限制为正样本序列中所有网络样本信息对象的间隔时间之和,例如该预设总时长限制为145秒,那么该正样本序列中所有网络样本信息对象的间隔时间之和不会超过145秒。基于此,根据该按照预设长度限制、预设间隔时间限制和预设总时长限制对该初始序列进行拆分,得到正样本序列,该正样本序列符合上述限制条件,例如正样本序列:session1:登入-菜单-心跳-拉取-视频-视频-视频-图片-点击等等,session1:登入-心跳-拉取-视频,session2:心跳-拉取-菜单-菜单-菜单-菜单-图片-视频-视频-图片等等,以此类推,得到多个正样本序列。
在一实施方式中,服务器会设定每一正样本序列的长度,如15序列长度,将按照该15的截断算法限制正样本序列的长度均不超过15序列长度。
在步骤204中,服务器依次获取正样本序列中相邻的网络样本信息,并将相邻的网络样本信息组合,生成正样本对信息。
其中,服务器依次获取每一正样本序列中相邻的网络样本信息,并将相邻的网络样本信息组合,生成正样本对信息,例如(登入-菜单)、(菜单-心跳)、(心跳-拉取)等等,得到大量的正样本对信息,该大量的正样本对信息反映正常客户端在使用时的网络流量变化的规律。
在步骤205中,服务器统计网络样本信息为正样本对头时,出现的每一正样本对信息的数量以及总数量。
其中,请一并参阅图4,该正样本对头由两部分组成,别分为正样本对头和正样本队尾,服务器统计每一网络样本信息为正样本对头时,出现的每一正样本对信息的数量以及总数量,例如,统计登入为正样本对头时,出现的正样本对信息(登入-登入:100次),(登入-登出:10次),(登入-视频:1000次)等以及总数量1000次,依次类推,服务器继续统计登出为正样本对头时,出现的正样本对信息的数量以及总数量,直至遍历每一网络样本信息。
在步骤206中,服务器根据数量以及总数量计算网络样本信息为正样本对头时,出现的每一正样本对信息的概率值,构建转移概率矩阵。
其中,请一并参阅图4,该转移概率矩阵11的每行为当前刻所处的网络样本信息i,该转移概率矩阵11的列为下一刻会跳转到网络样本信息j的概率,服务器根据数量以及总数量计算每一网络样本信息为正样本对头时,出现的每一正样本对信息的概率值,以此构建转移概率矩阵,该转移概率矩阵可以表示正常客户端在当前所处的网络样本信息i到下一网络样本信息j的概率分布规律信息,而由于该转移概率矩阵为基于正常客户端的操作概率构建,因而可以反映出正常客户端的使用规律,该转移概率矩阵11每一行的概率和均为1。
在步骤207中,服务器依次获取待检测序列中相邻的待检测网络信息,并将相邻的待检测网络信息组合,生成待检测对信息。
其中,请一并参阅图4,该待检测序列为待检测客户端在应用操作时访问的待检测网络样本信息以时间维度进行组合得到的序列,例如待检测序列可以为曝光-点击-视频-登入,服务器依次获取待检测序列曝光-点击-视频-登入中相邻的待检测网络信息曝光-点击、点击-视频、和视频-登入进行组合,生成待检测对信息(曝光-点击)、(点击-视频)、和(视频-登入)。
在步骤208中,服务器基于转移概率矩阵获取每一待检测对信息的概率,将每一待检测对信息的概率进行乘积运算,得到目标概率。
其中,请一并参阅图4,服务器基于转移概率矩阵11获取每一待检测对信息(曝光-点击)、(点击-视频)、和(视频-登入)的概率,将每一待检测对信息的概率进行乘积运算,得到目标概率,该目标概率越高,说明该待检测序列越符合正常客户端的操作规律,该目标概率越低,说明该待检测序列相应的客户端越不符合正常客户端的操作规律。
在步骤209中,服务器获取待检测序列的目标序列长度,获取与目标序列长度相同的目标正样本序列。
其中,服务器还需要获取一个与该目标概率进行对比的预设阈值,具体过程为获取待检测序列的目标序列长度,如上述待检测序列曝光-点击-视频-登入所示,该待检测序列曝光-点击-视频-登入的目标序列长度为4序列长度,为了使得预设阈值的选值准确,获取同为4序列长度的多个目标正样本序列。
在步骤210中,服务器获取目标正样本序列中的目标正样本对信息,基于转移概率矩阵获取每一目标正样本对信息的概率,将每一目标正样本对信息的概率进行乘积运算,得到每一目标正样本序列的参考概率,计算参考概率的算术平均值,得到相应的预设阈值。
其中,请一并参阅图4,服务器获取目标正样本序列中的目标正样本对信息,该目标正样本对信息的数量与待检测对信息的数量相同,基于转移概率矩阵11获取每一目标正样本对信息的概率,将该每一目标正样本对信息的概率进行乘积运算,得到每一目标正样本序列的参考概率,将所有的参考概率进行求和并计算平均值,得到该同为4序列长度的目标正样本序列为正常客户端时的平均概率,将该平均概率确定为预设阈值,可以看出的是,该预设阈值不是固定不变的,会随着待检测序列的序列长度的变化而改变,为灵活的阈值。该预设阈值为界定待检测序列相应的客户端为正常客户端或者异常客户端的参考值。
在步骤211中,服务器检测到目标概率是否小于预设阈值。
其中,当服务器检测到目标概率小于预设阈值时,执行步骤212。当服务器检测到目标概率不小于预设阈值时,执行步骤213。
在步骤212中,服务器将待检测序列相应的客户端确定为异常客户端。
其中,当服务器检测到目标概率小于预设阈值时,说明该待检测序列为异常网络流量序列,不符合正常客户端的应用操作的网络流量规律,服务器可以直接将该待检测序列相应的客户端确定为异常客户端,即判定为待检测序列相应的异常客户端为广告爬虫,可以对该异常客户端形成固定标签,后续每次推送特定的广告,使其爬取受限。
在步骤213中,服务器将待检测序列相应的客户端确定为信任客户端。
其中,当服务器检测到目标概率不小于预设阈值时,说明该待检测序列为正常网络流量序列,符合正常客户端的应用操作的网络流量规律,服务器可以将该客户端确定为信任客户端,不进行广告限制。
由上述可知,本申请实施例通过采集网络样本信息,并按照时间维度将网络样本信息进行排序,生成正样本序列;基于正样本序列得到正样本对信息,并根据正样本对信息构建转移概率矩阵;获取待检测序列,并结合转移概率矩阵计算待检测序列的目标概率;当检测到目标概率小于预设阈值时,将待检测序列相应的客户端确定为异常客户端。以此,通过采集网络样本信息生成正样本序列,对正样本序列进行拆分,得到正样本对信息构建转移概率矩阵,结合转移概率矩阵计算待检测序列的目标概率,在目标概率不符合条件时,将该待检测序列相应的客户端确定为异常客户端,极大的提升了信息检测的准确率。
实施例三、
为便于更好的实施本申请实施例提供的信息检测方法,本申请实施例还提供一种基于上述信息检测方法的装置。其中名词的含义与上述信息检测方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图5,图5为本申请实施例提供的信息检测装置的结构示意图,其中该信息检测装置可以包括采集单元301、构建单元302、计算单元303、及异常确定单元304等。
采集单元301,用于采集网络样本信息,并按照时间维度将该网络样本信息进行排序,生成正样本序列。
其中,本申请实施例的网络样本信息可以为代表客户端上应用操作访问特定网络地址的流量信息,该网络地址可以为应用使用时链接的网址地址,如域名或者统一资源定位符,该域名通常指一个网址的顶级域名,该统一资源定位符为每一信息资源都有统一的且在网上唯一的地址,通常为网页或网站的网址,该统一资源定位符中包含了网站的域名。以此,采集单元301可以预先采集大量正常客户端在应用使用时的网络样本信息,并按照时间维度将该网络样本信息进行排序,生成相应的正样本序列,例如正样本序列1,登入-菜单-播放列表-缩略图-拉取-视频-曝光-点击等等,该正样本序列1中每一步的顺序即为采集的时间顺序,并且可以采集大量的正样本序列,使得后续可以通过该大量的正样本序列进行正常网络流量分析,建立正常客户端在广告投放过程中的转移概率矩阵。
在一些实施方式中,采集单元301可以包括采集子单元、聚合子单元以及生成子单元,如下:
采集子单元,用于采集应用操作访问的网络访问信息作为网络样本信息,并记录相应的访问时间;
聚合子单元,用于将该网络样本信息按照访问标识进行聚合;
生成子单元,用于将聚合后的网络样本信息按照访问时间的顺序进行排序,生成正样本序列。
在一些实施方式中,采集子单元,用于:记录应用操作访问的网络地址信息;根据该网络地址信息的属性信息得到相应的网络访问信息作为网络样本信息;记录该应用操作相应的访问时间。
在一些实施方式中,生成子单元,用于:将聚合后的网络样本信息按照该访问时间的顺序进行排序,得到排序后的初始序列;将该初始序列按照预设长度限制、预设间隔时间限制和预设总时长限制进行拆分,得到正样本序列。
构建单元302,用于基于该正样本序列得到正样本对信息,并根据该正样本对信息构建转移概率矩阵。
其中,本申请实施例通过采集单元301获取代表正常客户端在应用操作时一系列的操作的正样本信息,构建单元302将该正样本序列按照时间顺序进行两两遍历拆分,得到多个正样本对信息,该正样本对信息由两个正样本信息组合形成,处于正样本对信息前序的正样本信息为正样本对头,处于正样本对信息后序的正样本信息为正样本对尾,以此类推,对每一正样本序列进行拆分,得到大量的正样本对信息。
进一步的,构建单元302可以统计每个正样本对信息出现的频数,统计以相同的网络样本信息为正样本对头时,出现的每一正样本对信息的数量和总数量,根据该数量和总数量计算该网络样本信息为正样本对头时,每一正样本对信息的概率值,依次类推,对网络样本信息进行依次计算,构建相应的转移概率矩阵,该转移概率矩阵可以代表正常客户端的应用操作从某一时刻的网络样本信息i跳转到下一网络样本信息j的概率,即反映了正常客户端在使用过程中的网络流量规律,后续可以根据该网络流量规律对客户端进行爬虫验证。
在一些实施方式中,构建单元302,用于:依次获取该正样本序列中相邻的网络样本信息,并将该相邻的网络样本信息组合,生成正样本对信息;统计该网络样本信息为正样本对头时,出现的每一正样本对信息的数量以及总数量;根据该数量以及总数量计算该网络样本信息为正样本对头时,出现的每一正样本对信息的概率值,构建转移概率矩阵。
计算单元303,用于获取待检测序列,并结合该转移概率矩阵计算该待检测序列的目标概率。
其中,随着广告爬虫相应的客户端逃避检测的手段的升级,进行爬虫检测的手段越来越困难,本申请实施例从更底层的网络流量行为特征入手,构建可以反映正常客户端在使用过程中网络流量行为规律的转移概率矩阵。以此,计算单元303获取待检测序列,该待检测序列为待检测客户端在应用使用时访问的待检测网络样本信息以时间维度进行组合得到的序列。
进一步的,计算单元303将该待检测序列以采集时间为顺序进行两两遍历拆分,得到多个待检测对信息,该目标概率越高,说明该待检测序列相应的客户端为正常客户端的概率越高,该目标概率越低,说明该待检测序列相应的客户端为异常客户端的概率越高。
在一些实施例中,该计算单元303,用于:依次获取该待检测序列中相邻的待检测网络信息,并将该相邻的待检测网络信息组合,生成待检测对信息;基于该转移概率矩阵获取每一待检测对信息的概率;将该每一待检测对信息的概率进行乘积运算,得到目标概率。
在一些实施例中,该计算单元303,还用于:依次获取该待检测序列中相邻的待检测网络信息,并将该相邻的待检测网络信息组合,生成待检测对信息;基于该转移概率矩阵获取每一待检测网络信息的概率;将该每一待检测对信息的概率进行乘积运算,得到第一概率;获取该待检测对信息的第一目标数量,将该总概率开第一目标数量次根号,得到目标概率。
异常确定单元304,用于当检测到该目标概率小于预设阈值时,将该待检测序列相应的客户端确定为异常客户端。
其中,该待检测序列的网络流量反映出待检测序列相应的客户端的操作规律,广告爬虫不可能为躲避打击而去请求流量极大但又必然会访问的网络样本信息,所以,本申请实施例的策略难以被绕过。
进一步,该预设阈值为界定该待检测序列为正常客户端或者异常客户端的参考值,可以为专家设定的数组,该预设阈值的值会随着待检测序列的序列长度不同而发生改变,待检测序列的序列长度越长,该预设阈值的值越小,该待检测序列的序列长度越短,该预设阈值的值越大。当异常确定单元304检测到该目标概率小于预设阈值时,说明该待检测序列的网络流量为异常网络流量,不符合正常客户端的网络流量规则,所以将待检测序列相应的客户端确定为异常客户端。
在一些实施例中,该装置还包括预设阈值确定单元,用于:获取该待检测序列的目标序列长度;获取与该目标序列长度相同的目标正样本序列;根据该目标正样本序列确定相应的预设阈值。
在一些实施例中,该预设阈值确定单元,还用于:获取该待检测序列的目标序列长度;获取与该目标序列长度相同的目标正样本序列;获取目标正样本序列中的目标正样本对信息;基于该转移概率矩阵获取每一目标正样本对信息的概率;将该每一目标正样本对信息的概率进行乘积运算,得到每一目标正样本序列的参考概率;计算该参考概率的算术平均值,得到相应的预设阈值。
在一些实施例中,该预设阈值确定单元,还用于:获取目标正样本序列中的目标正样本对信息;基于该转移概率矩阵获取每一目标正样本对信息的概率;将该每一目标正样本对信息的概率进行乘积运算,得到每一目标正样本序列的参考概率;获取该目标正样本对信息的第二目标数量,将每一目标正样本序列的参考概率开第二目标数量次根号,得到目标参考概率,计算该目标参考概率的算术平均值,得到相应的预设阈值。
在一些实施例中,该装置还包括信任确定单元,用于:当检测到该目标概率不小于预设阈值时,将该待检测序列相应的客户端确定为信任客户端。
以上各个单元的具体实施可参见前面的实施例,在此不再赘述。
由上述可知,本申请实施例通过采集单元301采集网络样本信息,并按照时间维度将网络样本信息进行排序,生成正样本序列;构建单元302基于正样本序列得到正样本对信息,并根据正样本对信息构建转移概率矩阵;计算单元303获取待检测序列,并结合转移概率矩阵计算待检测序列的目标概率;当异常确定单元304检测到目标概率小于预设阈值时,将待检测序列相应的客户端确定为异常客户端。以此,通过采集网络样本信息生成正样本序列,对正样本序列进行拆分,得到正样本对信息构建转移概率矩阵,结合转移概率矩阵计算待检测序列的目标概率,在目标概率不符合条件时,将该待检测序列相应的客户端确定为异常客户端,极大的提升了信息检测的准确率。
实施例四、
本申请实施例还提供一种服务器,如图6所示,其示出了本申请实施例所涉及的服务器的结构示意图,具体来讲:
该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图6中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
其中:
处理器401是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
服务器还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该服务器还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,服务器还可以包括显示单元等,在此不再赘述。具体在本实施例中,服务器中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
采集网络样本信息,并按照时间维度将该网络样本信息进行排序,生成正样本序列;基于该正样本序列得到正样本对信息,并根据该正样本对信息构建转移概率矩阵;获取待检测序列,并结合该转移概率矩阵计算该待检测序列的目标概率;当检测到该目标概率小于预设阈值时,将该待检测序列相应的客户端确定为异常客户端。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对信息检测方法的详细描述,此处不再赘述。
由上述可知,本申请实施例的服务器可以通过采集网络样本信息,并按照时间维度将网络样本信息进行排序,生成正样本序列;基于正样本序列得到正样本对信息,并根据正样本对信息构建转移概率矩阵;获取待检测序列,并结合转移概率矩阵计算待检测序列的目标概率;当检测到目标概率小于预设阈值时,将待检测序列相应的客户端确定为异常客户端。以此,通过采集网络样本信息生成正样本序列,对正样本序列进行拆分,得到正样本对信息构建转移概率矩阵,结合转移概率矩阵计算待检测序列的目标概率,在目标概率不符合条件时,将该待检测序列相应的客户端确定为异常客户端,极大的提升了信息检测的准确率。
实施例五、
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种信息检测方法中的步骤。例如,该指令可以执行如下步骤:
采集网络样本信息,并按照时间维度将该网络样本信息进行排序,生成正样本序列;基于该正样本序列得到正样本对信息,并根据该正样本对信息构建转移概率矩阵;获取待检测序列,并结合该转移概率矩阵计算该待检测序列的目标概率;当检测到该目标概率小于预设阈值时,将该待检测序列相应的客户端确定为异常客户端。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本申请实施例所提供的任一种信息检测方法中的步骤,因此,可以实现本申请实施例所提供的任一种信息检测方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种信息检测方法、装置、计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (12)
1.一种信息检测方法,其特征在于,包括:
采集网络样本信息,并按照时间维度将所述网络样本信息进行排序,生成正样本序列;
依次获取所述正样本序列中相邻的网络样本信息,并将所述相邻的网络样本信息组合,生成正样本对信息,所述正样本对信息由两个网络样本信息组合形成;
统计所述网络样本信息为正样本对头时,出现的每一正样本对信息的数量以及总数量,所述正样本对头为处于所述正样本对信息前序的网络样本信息;
根据所述数量以及总数量计算所述网络样本信息为所述正样本对头时,出现的每一正样本对信息的概率值,构建转移概率矩阵;
依次获取待检测序列中相邻的待检测网络信息,并将所述相邻的待检测网络信息组合,生成待检测对信息;
基于所述转移概率矩阵获取每一待检测对信息的概率;
将所述每一待检测对信息的概率进行乘积运算,得到目标概率;
当检测到所述目标概率小于预设阈值时,将所述待检测序列相应的客户端确定为异常客户端。
2.根据权利要求1所述的信息检测方法,其特征在于,所述采集网络样本信息,并按照时间维度将所述网络样本信息进行排序,生成正样本序列的步骤,包括:
采集应用操作访问的网络访问信息作为网络样本信息,并记录相应的访问时间;
将所述网络样本信息按照访问标识进行聚合;
将聚合后的网络样本信息按照所述访问时间的顺序进行排序,生成所述正样本序列。
3.根据权利要求2所述的信息检测方法,其特征在于,所述采集应用操作访问的网络访问信息作为网络样本信息,并记录相应的访问时间的步骤,包括:
记录所述应用操作访问的网络地址信息;
根据所述网络地址信息的属性信息得到相应的网络访问信息作为网络样本信息;
记录所述应用操作相应的所述访问时间。
4.根据权利要求2所述的信息检测方法,其特征在于,所述将聚合后的网络样本信息按照所述访问时间的顺序进行排序,生成所述正样本序列的步骤,包括:
将所述聚合后的网络样本信息按照所述访问时间的顺序进行排序,得到排序后的初始序列;
将所述初始序列按照预设长度限制、预设间隔时间限制和预设总时长限制进行拆分,得到所述正样本序列。
5.根据权利要求1所述的信息检测方法,其特征在于,所述将所述待检测序列相应的客户端确定为异常客户端的步骤之前,还包括:
获取所述待检测序列的目标序列长度;
获取与所述目标序列长度相同的目标正样本序列;
根据所述目标正样本序列确定相应的预设阈值。
6.根据权利要求5所述的信息检测方法,其特征在于,所述根据所述目标正样本序列确定相应的预设阈值的步骤,包括:
获取所述目标正样本序列中的目标正样本对信息;
基于所述转移概率矩阵获取每一目标正样本对信息的概率;
将所述每一目标正样本对信息的概率进行乘积运算,得到每一目标正样本序列的参考概率;
计算所述参考概率的算术平均值,得到所述相应的预设阈值。
7.根据权利要求5或6所述的信息检测方法,其特征在于,所述将所述每一待检测对信息的概率进行乘积运算,得到目标概率的步骤之后,还包括:
当检测到所述目标概率不小于所述预设阈值时,将所述待检测序列相应的客户端确定为信任客户端。
8.一种信息检测装置,其特征在于,包括:
采集单元,用于采集网络样本信息,并按照时间维度将所述网络样本信息进行排序,生成正样本序列;
构建单元,用于依次获取所述正样本序列中相邻的网络样本信息,并将所述相邻的网络样本信息组合,生成正样本对信息,所述正样本对信息由两个网络样本信息组合形成;统计所述网络样本信息为正样本对头时,出现的每一正样本对信息的数量以及总数量,所述正样本对头为处于所述正样本对信息前序的网络样本信息;根据所述数量以及总数量计算所述网络样本信息为所述正样本对头时,出现的每一正样本对信息的概率值,构建转移概率矩阵;
计算单元,用于依次获取待检测序列中相邻的待检测网络信息,并将所述相邻的待检测网络信息组合,生成待检测对信息;基于所述转移概率矩阵获取每一待检测对信息的概率;将所述每一待检测对信息的概率进行乘积运算,得到目标概率;
异常确定单元,用于当检测到所述目标概率小于预设阈值时,将所述待检测序列相应的客户端确定为异常客户端。
9.根据权利要求8所述的信息检测装置,其特征在于,所述采集单元,包括:
采集子单元,用于采集应用操作访问的网络访问信息作为网络样本信息,并记录相应的访问时间;
聚合子单元,用于将所述网络样本信息按照访问标识进行聚合;
生成子单元,用于将聚合后的网络样本信息按照所述访问时间的顺序进行排序,生成所述正样本序列。
10.根据权利要求9所述的信息检测装置,其特征在于,所述采集子单元,用于:
记录所述应用操作访问的网络地址信息;
根据所述网络地址信息的属性信息得到相应的网络访问信息作为网络样本信息;
记录所述应用操作相应的所述访问时间。
11.根据权利要求9所述的信息检测装置,其特征在于,所述生成子单元,用于:
将所述聚合后的网络样本信息按照所述访问时间的顺序进行排序,得到排序后的初始序列;
将所述初始序列按照预设长度限制、预设间隔时间限制和预设总时长限制进行拆分,得到所述正样本序列。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至7任一项所述的信息检测方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010300786.4A CN111476610B (zh) | 2020-04-16 | 2020-04-16 | 一种信息检测方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010300786.4A CN111476610B (zh) | 2020-04-16 | 2020-04-16 | 一种信息检测方法、装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111476610A CN111476610A (zh) | 2020-07-31 |
CN111476610B true CN111476610B (zh) | 2023-06-09 |
Family
ID=71753678
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010300786.4A Active CN111476610B (zh) | 2020-04-16 | 2020-04-16 | 一种信息检测方法、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111476610B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113271322B (zh) * | 2021-07-20 | 2021-11-23 | 北京明略软件系统有限公司 | 异常流量的检测方法和装置、电子设备和存储介质 |
CN113709159B (zh) * | 2021-08-27 | 2023-05-05 | 北京天融信网络安全技术有限公司 | 访问数据检测方法、装置、设备及存储介质 |
CN116599861A (zh) * | 2023-07-18 | 2023-08-15 | 海马云(天津)信息技术有限公司 | 检测云服务异常的方法、服务器设备和存储介质 |
CN116761298B (zh) * | 2023-08-23 | 2023-10-27 | 深圳光都照明有限公司 | 一种具有智能控制功能的led驱动器及控制方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103095711A (zh) * | 2013-01-18 | 2013-05-08 | 重庆邮电大学 | 一种针对网站的应用层DDoS攻击检测方法和防御系统 |
CN103678346A (zh) * | 2012-09-07 | 2014-03-26 | 阿里巴巴集团控股有限公司 | 一种人机识别的方法和系统 |
CN106027577A (zh) * | 2016-08-04 | 2016-10-12 | 四川无声信息技术有限公司 | 一种异常访问行为检测方法及装置 |
CN106685996A (zh) * | 2017-02-23 | 2017-05-17 | 上海万雍科技股份有限公司 | 基于hmm模型的账号异常登录检测方法 |
WO2017124942A1 (zh) * | 2016-01-19 | 2017-07-27 | 阿里巴巴集团控股有限公司 | 一种异常访问检测方法及设备 |
CN107483488A (zh) * | 2017-09-18 | 2017-12-15 | 济南互信软件有限公司 | 一种恶意Http检测方法及系统 |
CN108259482A (zh) * | 2018-01-04 | 2018-07-06 | 平安科技(深圳)有限公司 | 网络异常数据检测方法、装置、计算机设备及存储介质 |
CN108322428A (zh) * | 2017-01-18 | 2018-07-24 | 阿里巴巴集团控股有限公司 | 一种异常访问检测方法及设备 |
CN109033845A (zh) * | 2018-05-29 | 2018-12-18 | 中国科学院信息工程研究所 | 基于文件访问记录时空分析的伪装者检测方法及系统 |
CN110175278A (zh) * | 2019-05-24 | 2019-08-27 | 新华三信息安全技术有限公司 | 网络爬虫的检测方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106506556B (zh) * | 2016-12-29 | 2019-11-19 | 北京神州绿盟信息安全科技股份有限公司 | 一种网络流量异常检测方法及装置 |
-
2020
- 2020-04-16 CN CN202010300786.4A patent/CN111476610B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678346A (zh) * | 2012-09-07 | 2014-03-26 | 阿里巴巴集团控股有限公司 | 一种人机识别的方法和系统 |
CN103095711A (zh) * | 2013-01-18 | 2013-05-08 | 重庆邮电大学 | 一种针对网站的应用层DDoS攻击检测方法和防御系统 |
WO2017124942A1 (zh) * | 2016-01-19 | 2017-07-27 | 阿里巴巴集团控股有限公司 | 一种异常访问检测方法及设备 |
CN106027577A (zh) * | 2016-08-04 | 2016-10-12 | 四川无声信息技术有限公司 | 一种异常访问行为检测方法及装置 |
CN108322428A (zh) * | 2017-01-18 | 2018-07-24 | 阿里巴巴集团控股有限公司 | 一种异常访问检测方法及设备 |
CN106685996A (zh) * | 2017-02-23 | 2017-05-17 | 上海万雍科技股份有限公司 | 基于hmm模型的账号异常登录检测方法 |
CN107483488A (zh) * | 2017-09-18 | 2017-12-15 | 济南互信软件有限公司 | 一种恶意Http检测方法及系统 |
CN108259482A (zh) * | 2018-01-04 | 2018-07-06 | 平安科技(深圳)有限公司 | 网络异常数据检测方法、装置、计算机设备及存储介质 |
CN109033845A (zh) * | 2018-05-29 | 2018-12-18 | 中国科学院信息工程研究所 | 基于文件访问记录时空分析的伪装者检测方法及系统 |
CN110175278A (zh) * | 2019-05-24 | 2019-08-27 | 新华三信息安全技术有限公司 | 网络爬虫的检测方法及装置 |
Non-Patent Citations (3)
Title |
---|
Xiaoyun Wang等.Multiple Accounts Detection on Facebook Using Semi-Supervised Learning on Graphs.《IEEE》.2019,全文. * |
刘玉宽 ; 苏金树 ; .分布式拒绝服务攻击高速率单点局部异常检测.计算机应用与软件.2015,(09),全文. * |
王毅 ; 冯小年 ; 钱铁云 ; 朱辉 ; 周静 ; .基于CNN和LSTM深度网络的伪装用户入侵检测.计算机科学与探索.2017,(04),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111476610A (zh) | 2020-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111476610B (zh) | 一种信息检测方法、装置及计算机可读存储介质 | |
EP2691848B1 (en) | Determining machine behavior | |
EP2689371B1 (en) | Fast device classification | |
Cresci et al. | Fame for sale: Efficient detection of fake Twitter followers | |
US20190122258A1 (en) | Detection system for identifying abuse and fraud using artificial intelligence across a peer-to-peer distributed content or payment networks | |
US10491697B2 (en) | System and method for bot detection | |
Tan et al. | A graph-theoretic approach for the detection of phishing webpages | |
CN109271780A (zh) | 机器学习恶意软件检测模型的方法、系统和计算机可读介质 | |
CN111435507A (zh) | 广告反作弊方法、装置、电子设备及可读存储介质 | |
Taylor et al. | Detecting malicious exploit kits using tree-based similarity searches | |
CN104836781A (zh) | 区分访问用户身份的方法及装置 | |
Yang et al. | Reptrap: a novel attack on feedback-based reputation systems | |
Hu et al. | Attack scenario reconstruction approach using attack graph and alert data mining | |
CN107517200B (zh) | 一种Web服务器的恶意爬虫防御策略选择方法 | |
Gao et al. | Fifl: A fair incentive mechanism for federated learning | |
Wu et al. | Detecting marionette microblog users for improved information credibility | |
CN110572302B (zh) | 无盘局域网场景识别方法、装置及终端 | |
Feng et al. | BotFlowMon: Learning-based, content-agnostic identification of social bot traffic flows | |
CN110119602B (zh) | 人机识别方法、装置、服务器、客户端及存储介质 | |
Jagat et al. | Semi-supervised self-training approach for web robots activity detection in weblog | |
Li et al. | Fighting against piracy: An approach to detect pirated video websites enhanced by third-party services | |
CN114915434A (zh) | 一种网络代理检测方法、装置、存储介质及计算机设备 | |
Zhang et al. | Gaussian process learning for cyber‐attack early warning | |
US20230342811A1 (en) | Advertising Fraud Detection Apparatus And Method | |
Suchacka et al. | Modeling a non-stationary bots’ arrival process at an e-commerce web site |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40025860 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |