CN113591088A - 一种标识识别方法、装置及电子设备 - Google Patents

一种标识识别方法、装置及电子设备 Download PDF

Info

Publication number
CN113591088A
CN113591088A CN202110870682.1A CN202110870682A CN113591088A CN 113591088 A CN113591088 A CN 113591088A CN 202110870682 A CN202110870682 A CN 202110870682A CN 113591088 A CN113591088 A CN 113591088A
Authority
CN
China
Prior art keywords
identifier
target
association
subgraph
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110870682.1A
Other languages
English (en)
Other versions
CN113591088B (zh
Inventor
董奕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Priority to CN202110870682.1A priority Critical patent/CN113591088B/zh
Publication of CN113591088A publication Critical patent/CN113591088A/zh
Application granted granted Critical
Publication of CN113591088B publication Critical patent/CN113591088B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9562Bookmark management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种标识识别方法、装置及电子设备,涉及大数据领域,尤其涉及数据安全领域。具体方案为:获取多个关联数据,每个关联数据包括一个第一标识以及对应的一个第二标识;基于多个关联数据以及多个关联数据中每个关联数据的网页访问量,建立目标关联图;计算目标关联图的连通分量,得到目标关联图的至少一个关联子图;通过至少一个关联子图,确定第一目标标识集和第二目标标识集。不再是利用标识的访问量直接与阈值比较来识别标识,而是通过多个关联数据以及所述多个关联数据中每个关联数据的网页访问量建立目标关联图,利用目标关联图的至少一个关联子图确定第一目标标识集和第二目标标识集,实现标识的识别,可提高对标识识别的准确性。

Description

一种标识识别方法、装置及电子设备
技术领域
本公开涉及大数据领域,尤其涉及数据安全领域,具体涉及一种标识识别方法、装置及电子设备。
背景技术
内容保护平台的建设,目标在于检出并封禁恶意爬虫流量,从而减少网站核心内容资产被爬取以及服务器资源被浪费等,平台检出恶意爬虫流量的核心是通过不断丰富反爬虫策略对恶意爬虫的标识信息进行识别。
目前,常用标识信息识别方法是针对单一标识的访问量异常来进行识别,比如一个第一标识在一小时内访问量异常多,网页访问量大于一个阈值,则会被反爬虫策略识别为恶意爬虫的标识。
发明内容
本公开提供一种标识识别方法、装置及电子设备。
第一方面,本公开一个实施例提供一种标识识别方法,方法包括:
获取多个关联数据,每个关联数据包括一个第一标识以及对应的一个第二标识;
基于多个关联数据以及多个关联数据中每个关联数据的网页访问量,建立目标关联图,其中,任一关联数据的网页访问量为其包括的第一标识和第二标识共同访问的网页访问量;
计算目标关联图的连通分量,得到目标关联图的至少一个关联子图;
通过至少一个关联子图,确定第一目标标识集和第二目标标识集。
在本实施例的标识识别方法中,不再是利用标识的访问量直接与阈值比较来识别标识,而是通过多个关联数据以及多个关联数据中每个关联数据的网页访问量,建立目标关联图,任一关联数据的网页访问量为其包括的第一标识和第二标识共同访问的网页访问量,然后对目标关联图进行连通分量的计算,以得到至少一个关联子图,再利用至少一个关联子图来确定第一目标标识集和第二目标标识集,实现标识的识别,可提高对标识识别的准确性。
第二方面,本公开一个实施例提供一种标识识别装置,装置包括:
获取模块,用于获取多个关联数据,每个关联数据包括一个第一标识以及对应的一个第二标识;
建立模块,用于基于多个关联数据以及多个关联数据中每个关联数据的网页访问量,建立目标关联图,其中,任一关联数据的网页访问量为其包括的第一标识和第二标识共同访问的网页访问量;
计算模块,用于计算目标关联图的连通分量,得到目标关联图的至少一个关联子图;
确定模块,用于通过至少一个关联子图,确定第一目标标识集和第二目标标识集。
第三方面,本公开一个实施例还提供一种电子设备,包括:
至少一个处理器;以及
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开如第一方面提供的标识识别方法。
第四方面,本公开一个实施例还提供一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行本公开如第一方面提供的标识识别方法。
第五方面,本公开一个实施例提供一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现本公开如第一方面提供的标识识别方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开提供的一个实施例的标识识别方法的流程示意图之一;
图2是本公开提供的一个实施例的标识识别方法的流程示意图之二;
图3是本公开提供的一个实施例的标识识别方法的流程示意图之三;
图4是本公开提供的一个实施例的标识识别方法的原理图;
图5是本公开提供的另一个实施例的标识识别装置的结构图;
图6是用来实现本公开实施例的标识识别方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
如图1所示,根据本公开的实施例,本公开提供一种标识识别方法,方法包括:
步骤S101:获取多个关联数据,每个关联数据包括一个第一标识以及对应的一个第二标识。
多个关联数据可以理解为待识别的数据,每个关联数据是一个信息对,其中包括一个第一标识以及与其对应的一个第二标识,表示该第一标识和第二标识共同进行网页访问,可以理解一个关联数据的第一标识和对应的第二标识一起成对进行网页访问,两者相关联。例如,关联数据G1的第一标识A1和第二标识B1共同访问了m次网页,则关联数据G1的网页访问量为m,又例如,关联数据G2的第一标识A1和第二标识B2共同访问了n次网页,则关联数据G2的网页访问量为n。
作为一个示例,第一标识可包括但不限于IP(Internet Protocol,网际互连协议)地址,第二标识可以包括但不限于UID(User Identification,用户身份标识)等,一个关联数据的IP地址和对应的UID共同进行网页访问,可以理解该关联数据中的UID通过该关联数据中对应的IP地址进行网页访问。
步骤S102:基于多个关联数据以及多个关联数据中每个关联数据的网页访问量,建立目标关联图。
其中,任一关联数据的网页访问量为其包括的第一标识和第二标识共同访问的网页访问量,可以理解为任一关联数据的第二标识通过该关联数据的第一标识进行网页访问的网页访问量,即网页访问是与该第二标识以及对应的第一标识关联的。在本实施例中,建立目标关联图的过程中,不但考虑了多个关联数据,建立目标关联图还依赖多个关联数据的网页访问量,可以理解,目标关联图中包括多个关联数据中的至少部分关联数据。
步骤S103:计算目标关联图的连通分量,得到目标关联图的至少一个关联子图。
可以理解,每个关联子图即是目标关联图的一个连通分量,任一关联子图中的任意两个节点之间存在路径。目标关联图是无向图,对于连通图的连通分量只有一个,即连通图自身,对于非连通的无向图可以有多个连通分量,也即是,对于任意无向图,至少有一个连通分量,即上述建立的目标关联图可以包括至少一个连通分量,即包括至少一个关联子图。任一关联子图中包括上述多个关联数据中的至少一个关联数据。
步骤S104:通过至少一个关联子图,确定第一目标标识集和第二目标标识集。
从至少一个关联子图中确定第一目标标识集和第二目标标识集,实现标识信息的识别。上述第一目标标识集和第二目标标识集可以理解为是第一标识黑名单和第二标识黑名单。例如,以第一标识为IP地址以及第二标识为UID为例,上述第一目标标识集为目标IP地址集,即IP地址黑名单,上述第二目标标识集为目标UID集,即UID黑名单。
在本实施例的标识识别方法中,不再是利用标识的访问量直接与阈值比较来识别标识,而是通过多个关联数据以及多个关联数据中每个关联数据的网页访问量,建立目标关联图,任一关联数据的网页访问量为其包括的第一标识和第二标识共同访问的网页访问量,然后对目标关联图进行连通分量的计算,以得到至少一个关联子图,再利用至少一个关联子图来确定第一目标标识集和第二目标标识集,实现标识的识别,可提高对标识识别的准确性。
在一个实施例中,目标关联图中包括节点集合和边集合;
其中,边集合中任一条边关联的两个节点为一个关联数据,边集合中任一条边的关联数据的网页访问量大于预设数量,节点集合包括边集合中每一条边关联的节点的集合。
可以理解,若目标关联数据的网页访问量大于预设数量的情况下,在该目标关联数据的第一标识和第二标识之间建立边,否则不建立边,目标关联数据为多个关联数据中的任一关联数据,如此,对多个关联数据中的每个关联数据进行上述过程建立边或不建立边,并将关联数据中没有边的第一标识以及没有边的第二标识过滤,可实现目标关联图的建立,也即是目标关联图中只保留具有边的第一标识和具有边的第二标识,即目标关联图中的节点集合包括具有边的第一标识和具有边的第二标识,也即是边集合中每一条边关联的节点的并集。
在本实施例中,目标关联图中的边的关联数据的网页访问量大于预设数量,如此,在建立目标关联图中,可过滤掉多个关联数据中网页访问量小于或等于预设数量的关联数据,以提高目标关联图的准确性,根据目标关联图的至少一个关联子图确定第一目标标识集和第二目标标识集,实现标识识别,可提高标识识别的准确性。
在一个实施例中,通过至少一个关联子图,确定第一目标标识集和第二目标标识集,包括:
在至少一个关联子图中包括第一关联子图的情况下,将至少一个关联子图中第一关联子图的过滤,得到第二关联子图,其中,第一关联子图对应的关联数据的网页访问量之和小于预设阈值;
对第二关联子图中的第一标识和第二关联子图中的第二标识分别进行汇总,得到第一目标标识集和第二目标标识集。
在得到至少一个关联子图之后,还需根据预设子图过滤条件对至少一个关联子图进行筛选,将满足预设子图过滤条件的关联子图进行过滤,在本实施例中,预设子图过滤条件可以包括子图的关联数据的网页访问量之和小于预设阈值,也即是可将至少一个关联子图中关联数据的网页访问量之和小于预设阈值的第一关联子图过滤,筛选得到第二关联子图。需要说明的是,是在至少一个关联子图中包括第一关联子图,且至少一个关联子图中除第一关联子图之外还包括关联子图的情况下,将至少一个关联子图中第一关联子图的过滤,得到第二关联子图,第二关联子图即是至少一个关联子图中除第一关联子图之外还包括关联子图,第二关联子图的子图数量可以是至少一个。然后对第二关联子图中的第一标识和第二关联子图中的第二标识分别进行汇总,得到第一目标标识集和第二目标标识集,实现标识识别。
由于在本实施例中,预先过滤了至少一个关联子图中关联数据的网页访问量之和小于预设阈值的第一关联子图,利用过滤后得到的第二关联子图确定标识识别结果即第一目标标识集和第二目标标识集,可提高标识识别的准确性。
在一个实施例中,通过至少一个关联子图,确定第一目标标识集和第二目标标识集,还包括:
在至少一个关联子图中不包括第一关联子图的情况下,对至少一个关联子图中的第一标识和至少一个关联子图中的第二标识分别进行汇总,得到第一目标标识集和第二目标标识集。
可以理解,在本实施例中,至少一个关联子图中每个关联子图对应的关联数据的网页访问量均大于预设阈值,无需对至少一个关联子图进行过滤,将至少一个关联子图中的第一标识和至少一个关联子图中的第二标识分别进行汇总,得到第一目标标识集和第二目标标识集,即可实现标识识别,如此,可减少计算量,提高标识识别效率等。
在一个实施例中,多个关联数据包括以下至少一项:
在第一预设时间周期内的N个关联数据集,其中,N为正整数,N个关联数据集包括N种应用类型的关联数据,目标关联图包括N个关联图,N个关联图与N个关联数据集对应;
在第二预设时间周期内的M个关联数据,M为大于1的整数;
其中,第二预设时间周期大于第一预设时间周期。
可以理解,对于多个关联数据包括在第一预设时间周期内的N个关联数据集,任一关联数据集为一种类型的应用的关联数据集,且每个关联数据集对应的应用类型均不同,N个关联数据集与N种应用类型的关联数据一一对应,N个关联图中任一关联图通过一个关联数据集以及该关联数据集中每个关联数据的网页访问量建立的,N个关联图与N个关联数据集一一对应。对于N个关联图中的任一关联图,例如,第一关联图,可通过计算第一关联图的连通分量,得到该第一关联图的至少一个关联子图,通过该第一关联图的至少一个关联子图,确定第一标识子集和第二标识子集,对于第一关联子图,实现标识识别确定第一标识子集和第二标识子集的过程与上述对于目标关联子图,实现标识确定第一目标标识集和第二目标标识集的过程类似,不同之处在于关联图不同,前者是第一关联子图,后者是目标关联子图。对于N个关联图中每个关联图均分别进行上述过程,即可得到每个关联图对应的第一标识子集和第二标识子集,如此,可得到N个第一标识子集和N个第二标识子集,在本实施例中,第一目标标识集可以包括N个第一标识子集,第二目标标识集可以包括N个第二标识子集;
对于多个关联数据包括在第二预设时间周期内的M个关联数据,通过M个关联数据以及M个关联数据中每个关联数据的网页访问量,可建立目标关联图,根据目标关联图的至少一个关联子图,通过至少一个关联子图,确定第三标识子集和第四标识子集,第一目标标识集可以包括第三标识子集,第二目标标识集可以包括第四标识子集。
对于多个关联数据包括在第一预设时间周期内的N个关联数据集和在第二预设时间周期内的M个关联数据,第一目标标识集可以包括N个第一标识子集和第三标识子集,第二目标标识集可以包括N个第二标识子集和第四标识子集。需要说明的是,第二预设时间周期大于第一预设时间周期,流入,第一预设时间周期可以是一小时,第二预设时间周期可以是一天。
在本实施例中,可通过获取在第一预设时间周期内的N个关联数据集和/或在第二预设时间周期内的M个关联数据,建立目标关联图,以确定第一目标标识集和第二目标标识集,实现标识识别,可提高关联图建立的灵活性,从而可提高对标识识别的灵活性等。
下面以一个具体实施例对上述标识识别方法的过程加以详细说明。以第一标识为IP地址以及第二标识为UID为例进行说明。
内容保护平台的建设,目标在于检出并封禁恶意爬虫流量,从而减少网站核心内容资产被爬取以及服务器资源被浪费等,平台检出恶意爬虫流量的核心是通过不断丰富反爬虫策略对恶意爬虫的标识信息进行识别,对恶意的标识识别后,可对识别的恶意的标识进行相关策略,例如,可进行封禁等,以减少该标识对网页的访问等,提高网站或服务器等安全性。
本公开通过自有的访问数据中挖掘潜在的代理池信息,不再依赖第三方的代理信息识别,提升检出的时效性和准确性。实现本公开实施的标识识别方法的标识识别系统可包括小时级别分渠道识别模块和天级别全渠道识别模块,分渠道可以理解为分应用,即不同应用种类对应的关联数据分别进行识别,可以理解,第一预设时间周期为一小时,小时级别分渠道识别模块,可以针对每个渠道每小时的关联数据,单独建立IP地址与UID之间的关联图,计算潜在的代理IP池,并计算出潜在的UID,即得到第一IP地址黑名单和第二UID黑名单。第二预设时间周期为一天,天级别全渠道识别模块每天针对在一天内的全渠道数据建立IP地址与UID之间的关联图,计算代理IP池,并计算出潜在的UID,即得到第二IP地址黑名单和第二UID黑名单。两个模块在时效性和准确性上能互相补充,可以得到两个识别结果,一个识别结果包括一种IP地址黑名单和对应的一种UID黑名单,也可将两个模块得到的同类型黑名单分别进行合并,得到最终的IP地址黑名单和UID黑名单。
如图2所示,对于小时级别分渠道识别模块:数据量较小,对时效要求较高,因此可选择从数据库(例如,clickhouse数据库)读取每小时的关联数据,且是分渠道的关联数据,并采用单机计算,可使用python networkX编写的图算法(即建立关联图、计算连通分量以及确定第一目标标识集和第二目标标识集的算法),计算得到代理IP黑名单(即IP地址黑名单)和UID黑名单,并将黑名单数据上传到AFS(分布式文件系统)供线上拉取。
如图3所示,对于天级别全渠道识别模块:数据量较大,对时效要求不高,因此可选择使用spark graphx实现分布式图算法,直接读取AFS的全天的关联数据,检出的黑名单数据上传到AFS供线上拉取。
如图4所示,本实施例提供的标识识别方法的实现原理如下:
根据预设数据过滤条件,基于多个关联数据建立IP地址与UID的边,构建目标关联图,任一条边关联的IP地址和UID共同访问的网页访问量大于预设数量,多个关联数据中网页访问量小于或等于预设数量的关联数据的IP地址和UID之间不建立边,也即是预设数据过滤条件为网页访问量小于或等于预设数量,满足预设过滤条件的IP地址和UID之间不建立边,将没有边的IP地址和没有边的UID过滤,如此,可建立目标关联图;
计算目标关联图的连通分量,将目标关联图划分为多个关联子图;
并根据预设子图过滤条件进行子图过滤,将多个关联子图中满足预设子图过滤条件的第一关联子图过滤,得到第二关联子图。
将筛选出的第二关联子图中的IP地址和UID分别进行汇总输出目标IP地址集和目标UID集,即输出IP地址黑名单和UID黑名单。
如图5所示,根据本公开的实施例,本公开还提供一种标识识别装置500,装置包括:
获取模块501,用于获取多个关联数据,每个关联数据包括一个第一标识以及对应的一个第二标识;
建立模块502,用于基于多个关联数据以及多个关联数据中每个关联数据的网页访问量,建立目标关联图,其中,任一关联数据的网页访问量为其包括的第一标识和第二标识共同访问的网页访问量;
计算模块503,用于计算目标关联图的连通分量,得到目标关联图的至少一个关联子图;
确定模块504,用于通过至少一个关联子图,确定第一目标标识集和第二目标标识集。
在一个实施例中,目标关联图中包括节点集合和边集合;
其中,边集合中任一条边关联的两个节点为一个关联数据,边集合中任一条边的关联数据的网页访问量大于预设数量,节点集合包括边集合中每一条边关联的节点的集合。
在一个实施例中,确定模块,包括:
过滤模块,用于在至少一个关联子图中包括第一关联子图的情况下,将至少一个关联子图中第一关联子图的过滤,得到第二关联子图,其中,第一关联子图对应的关联数据的网页访问量之和小于预设阈值;
第一汇总模块,用于对第二关联子图中的第一标识和第二关联子图中的第二标识分别进行汇总,得到第一目标标识集和第二目标标识集。
在一个实施例中,确定模块,还包括:
第二汇总模块,用于在至少一个关联子图中不包括第一关联子图的情况下,对至少一个关联子图中的第一标识和至少一个关联子图中的第二标识分别进行汇总,得到第一目标标识集和第二目标标识集。
在一个实施例中,多个关联数据包括以下至少一项:
在第一预设时间周期内的N个关联数据集,其中,N为正整数,N个关联数据集包括N种应用类型的关联数据,目标关联图包括N个关联图,N个关联图与N个关联数据集对应;
在第二预设时间周期内的M个关联数据,M为大于1的整数;
其中,第二预设时间周期大于第一预设时间周期。
本公开的技术方案中,所涉及的个人信息(例如,IP地址、UID等标识)的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
上述各实施例的标识识别装置为实现上述应用于第一车辆中的各实施例的标识识别方法的装置,技术特征对应,技术效果对应,在此不再赘述。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质以及一种计算机程序产品。
本公开实施例的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本公开所提供的标识识别方法。
本公开实施例的计算机程序产品,包括计算机程序,计算机程序用于使计算机执行本公开各实施例提供的标识识别方法。
图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,电子设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
电子设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许电子设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(I)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如标识识别方法。例如,在一些实施例中,标识识别方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM603并由计算单元601执行时,可以执行上文描述的标识识别方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行标识识别方法。本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (13)

1.一种标识识别方法,所述方法包括:
获取多个关联数据,每个关联数据包括一个第一标识以及对应的一个第二标识;
基于所述多个关联数据以及所述多个关联数据中每个关联数据的网页访问量,建立目标关联图,其中,任一关联数据的网页访问量为其包括的第一标识和第二标识共同访问的网页访问量;
计算所述目标关联图的连通分量,得到所述目标关联图的至少一个关联子图;
通过所述至少一个关联子图,确定第一目标标识集和第二目标标识集。
2.根据权利要求1所述的方法,其中,所述目标关联图中包括节点集合和边集合;
其中,所述边集合中任一条边关联的两个节点为一个关联数据,所述边集合中任一条边的关联数据的网页访问量大于预设数量,所述节点集合包括所述边集合中每一条边关联的节点的集合。
3.根据权利要求1所述的方法,其中,所述通过所述至少一个关联子图,确定第一目标标识集和第二目标标识集,包括:
在所述至少一个关联子图中包括第一关联子图的情况下,将所述至少一个关联子图中所述第一关联子图的过滤,得到第二关联子图,其中,所述第一关联子图对应的关联数据的网页访问量之和小于预设阈值;
对所述第二关联子图中的第一标识和所述第二关联子图中的第二标识分别进行汇总,得到所述第一目标标识集和所述第二目标标识集。
4.根据权利要求3所述的方法,其中,所述通过所述至少一个关联子图,确定第一目标标识集和第二目标标识集,还包括:
在所述至少一个关联子图中不包括第一关联子图的情况下,对所述至少一个关联子图中的第一标识和所述至少一个关联子图中的第二标识分别进行汇总,得到所述第一目标标识集和所述第二目标标识集。
5.根据权利要求1所述的方法,其中,所述多个关联数据包括以下至少一项:
在第一预设时间周期内的N个关联数据集,其中,N为正整数,所述N个关联数据集包括N种应用类型的关联数据,所述目标关联图包括N个关联图,所述N个关联图与所述N个关联数据集对应;
在第二预设时间周期内的M个关联数据,M为大于1的整数;其中,所述第二预设时间周期大于所述第一预设时间周期。
6.一种标识识别装置,所述装置包括:
获取模块,用于获取多个关联数据,每个关联数据包括一个第一标识以及对应的一个第二标识;
建立模块,用于基于所述多个关联数据以及所述多个关联数据中每个关联数据的网页访问量,建立目标关联图,其中,任一关联数据的网页访问量为其包括的第一标识和第二标识共同访问的网页访问量;
计算模块,用于计算所述目标关联图的连通分量,得到所述目标关联图的至少一个关联子图;
确定模块,用于通过所述至少一个关联子图,确定第一目标标识集和第二目标标识集。
7.根据权利要求6所述的装置,其中,所述目标关联图中包括节点集合和边集合;
其中,所述边集合中任一条边关联的两个节点为一个关联数据,所述边集合中任一条边的关联数据的网页访问量大于预设数量,所述节点集合包括所述边集合中每一条边关联的节点的集合。
8.根据权利要求6所述的装置,其中,所述确定模块,包括:
过滤模块,用于在所述至少一个关联子图中包括第一关联子图的情况下,将所述至少一个关联子图中所述第一关联子图的过滤,得到第二关联子图,其中,所述第一关联子图对应的关联数据的网页访问量之和小于预设阈值;
第一汇总模块,用于对所述第二关联子图中的第一标识和所述第二关联子图中的第二标识分别进行汇总,得到所述第一目标标识集和所述第二目标标识集。
9.根据权利要求8所述的装置,其中,所述确定模块,还包括:
第二汇总模块,用于在所述至少一个关联子图中不包括第一关联子图的情况下,对所述至少一个关联子图中的第一标识和所述至少一个关联子图中的第二标识分别进行汇总,得到所述第一目标标识集和所述第二目标标识集。
10.根据权利要求6所述的装置,其中,所述多个关联数据包括以下至少一项:
在第一预设时间周期内的N个关联数据集,其中,N为正整数,所述N个关联数据集包括N种应用类型的关联数据,所述目标关联图包括N个关联图,所述N个关联图与所述N个关联数据集对应;
在第二预设时间周期内的M个关联数据,M为大于1的整数;
其中,所述第二预设时间周期大于所述第一预设时间周期。
11.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5任一所述的标识识别方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-5任一所述的标识识别方法。
13.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-5中任一所述的标识识别方法。
CN202110870682.1A 2021-07-30 2021-07-30 一种标识识别方法、装置及电子设备 Active CN113591088B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110870682.1A CN113591088B (zh) 2021-07-30 2021-07-30 一种标识识别方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110870682.1A CN113591088B (zh) 2021-07-30 2021-07-30 一种标识识别方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN113591088A true CN113591088A (zh) 2021-11-02
CN113591088B CN113591088B (zh) 2023-08-29

Family

ID=78252438

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110870682.1A Active CN113591088B (zh) 2021-07-30 2021-07-30 一种标识识别方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN113591088B (zh)

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120054129A1 (en) * 2010-08-30 2012-03-01 International Business Machines Corporation Method for classification of objects in a graph data stream
CN103927307A (zh) * 2013-01-11 2014-07-16 阿里巴巴集团控股有限公司 一种识别网站用户的方法和装置
US20150052175A1 (en) * 2013-08-14 2015-02-19 International Business Machines Corporation Method and Apparatus for Identifying the Optimal Schema to Store Graph Data in a Relational Store
CN105224606A (zh) * 2015-09-02 2016-01-06 新浪网技术(中国)有限公司 一种用户标识的处理方法及装置
CN107193894A (zh) * 2017-05-05 2017-09-22 北京小度信息科技有限公司 数据处理方法、个体识别方法及相关装置
US20180097828A1 (en) * 2016-09-30 2018-04-05 Yahoo! Inc. Computerized system and method for automatically determining malicious ip clusters using network activity data
US20190066054A1 (en) * 2017-08-24 2019-02-28 Linkedln Corporation Accuracy of member profile retrieval using a universal concept graph
CN110209820A (zh) * 2019-06-05 2019-09-06 腾讯科技(深圳)有限公司 用户标识检测方法、装置及存储介质
US20200143052A1 (en) * 2018-11-02 2020-05-07 Microsoft Technology Licensing, Llc Intelligent system for detecting multistage attacks
CN111523012A (zh) * 2019-02-01 2020-08-11 慧安金科(北京)科技有限公司 用于检测异常数据的方法、设备和计算机可读存储介质
CN111754338A (zh) * 2020-06-30 2020-10-09 上海观安信息技术股份有限公司 一种套路贷网站团伙识别方法及系统
CN111782820A (zh) * 2020-06-30 2020-10-16 京东数字科技控股有限公司 知识图谱创建方法及装置、可读存储介质及电子设备
US10817545B2 (en) * 2017-12-04 2020-10-27 Accenture Global Solutions Limited Cognitive decision system for security and log analysis using associative memory mapping in graph database
US20200358815A1 (en) * 2019-03-28 2020-11-12 NTT Security Corporation Graph stream mining pipeline for efficient subgraph detection
CN112422574A (zh) * 2020-11-20 2021-02-26 同盾控股有限公司 风险账号的识别方法、装置、介质及电子设备
CN112541022A (zh) * 2020-12-18 2021-03-23 网易(杭州)网络有限公司 异常对象检测方法、装置、存储介质及电子设备
CN112650910A (zh) * 2020-12-30 2021-04-13 北京百度网讯科技有限公司 确定网站更新信息的方法、装置、设备和存储介质
CN112818235A (zh) * 2021-02-03 2021-05-18 招联消费金融有限公司 基于关联特征的违规用户识别方法、装置和计算机设备
CN113033966A (zh) * 2021-03-03 2021-06-25 携程旅游信息技术(上海)有限公司 风险目标识别方法、装置、电子设备和存储介质

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120054129A1 (en) * 2010-08-30 2012-03-01 International Business Machines Corporation Method for classification of objects in a graph data stream
CN103927307A (zh) * 2013-01-11 2014-07-16 阿里巴巴集团控股有限公司 一种识别网站用户的方法和装置
US20150052175A1 (en) * 2013-08-14 2015-02-19 International Business Machines Corporation Method and Apparatus for Identifying the Optimal Schema to Store Graph Data in a Relational Store
CN105224606A (zh) * 2015-09-02 2016-01-06 新浪网技术(中国)有限公司 一种用户标识的处理方法及装置
US20180097828A1 (en) * 2016-09-30 2018-04-05 Yahoo! Inc. Computerized system and method for automatically determining malicious ip clusters using network activity data
CN107193894A (zh) * 2017-05-05 2017-09-22 北京小度信息科技有限公司 数据处理方法、个体识别方法及相关装置
US20190066054A1 (en) * 2017-08-24 2019-02-28 Linkedln Corporation Accuracy of member profile retrieval using a universal concept graph
US10817545B2 (en) * 2017-12-04 2020-10-27 Accenture Global Solutions Limited Cognitive decision system for security and log analysis using associative memory mapping in graph database
US20200143052A1 (en) * 2018-11-02 2020-05-07 Microsoft Technology Licensing, Llc Intelligent system for detecting multistage attacks
CN111523012A (zh) * 2019-02-01 2020-08-11 慧安金科(北京)科技有限公司 用于检测异常数据的方法、设备和计算机可读存储介质
US20200358815A1 (en) * 2019-03-28 2020-11-12 NTT Security Corporation Graph stream mining pipeline for efficient subgraph detection
CN110209820A (zh) * 2019-06-05 2019-09-06 腾讯科技(深圳)有限公司 用户标识检测方法、装置及存储介质
CN111754338A (zh) * 2020-06-30 2020-10-09 上海观安信息技术股份有限公司 一种套路贷网站团伙识别方法及系统
CN111782820A (zh) * 2020-06-30 2020-10-16 京东数字科技控股有限公司 知识图谱创建方法及装置、可读存储介质及电子设备
CN112422574A (zh) * 2020-11-20 2021-02-26 同盾控股有限公司 风险账号的识别方法、装置、介质及电子设备
CN112541022A (zh) * 2020-12-18 2021-03-23 网易(杭州)网络有限公司 异常对象检测方法、装置、存储介质及电子设备
CN112650910A (zh) * 2020-12-30 2021-04-13 北京百度网讯科技有限公司 确定网站更新信息的方法、装置、设备和存储介质
CN112818235A (zh) * 2021-02-03 2021-05-18 招联消费金融有限公司 基于关联特征的违规用户识别方法、装置和计算机设备
CN113033966A (zh) * 2021-03-03 2021-06-25 携程旅游信息技术(上海)有限公司 风险目标识别方法、装置、电子设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
古辉;张炜星;金鹏;顾杰杰;: "基于关联度和特征约束的软件设计模式识别方法", 计算机科学, no. 02, pages 173 - 176 *
田华;何翼;: "基于二分关联图的大数据隐私保护方法", 重庆邮电大学学报(自然科学版), no. 04, pages 175 - 182 *

Also Published As

Publication number Publication date
CN113591088B (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
CN107809331B (zh) 识别异常流量的方法和装置
CN112953938B (zh) 网络攻击防御方法、装置、电子设备及可读存储介质
CN114095567A (zh) 数据访问请求的处理方法、装置、计算机设备及介质
CN113360918A (zh) 漏洞快速扫描方法、装置、设备以及存储介质
CN115883187A (zh) 网络流量数据中的异常信息识别方法、装置、设备和介质
CN110599278B (zh) 聚合设备标识符的方法、装置和计算机存储介质
CN113904943B (zh) 账号检测方法、装置、电子设备和存储介质
CN113312560B (zh) 群组检测方法、装置及电子设备
CN114157480A (zh) 网络攻击方案的确定方法、装置、设备和存储介质
CN113312611A (zh) 密码检测方法、装置、设备和计算机可读存储介质
CN117474091A (zh) 一种知识图谱构建方法、装置、设备及存储介质
CN113591088B (zh) 一种标识识别方法、装置及电子设备
CN113395297B (zh) 漏洞处理方法、装置、设备和计算机可读存储介质
CN114389969A (zh) 客户端的测试方法、装置、电子设备和存储介质
CN113553370A (zh) 异常检测方法、装置、电子设备及可读存储介质
CN113704256A (zh) 数据识别方法、装置、电子设备及存储介质
CN113051313B (zh) 信息聚合方法、装置、电子设备、存储介质和程序产品
CN115378746B (zh) 网络入侵检测规则生成方法、装置、设备以及存储介质
CN110719260B (zh) 智能网络安全分析方法、装置及计算机可读存储介质
CN114172725B (zh) 非法网站的处理方法、装置、电子设备和存储介质
CN116112245A (zh) 攻击检测方法、装置、电子设备及存储介质
CN117932671A (zh) 报文处理方法、装置、电子设备及存储介质
CN116383498A (zh) 数据匹配方法、装置、电子设备及存储介质
CN115499231A (zh) 流量检测方法、装置、电子设备和存储介质
CN116015811A (zh) 评估网络安全的方法、装置、存储介质以及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant