CN107317892B - 一种网络地址的处理方法、计算设备及可读存储介质 - Google Patents
一种网络地址的处理方法、计算设备及可读存储介质 Download PDFInfo
- Publication number
- CN107317892B CN107317892B CN201710522789.0A CN201710522789A CN107317892B CN 107317892 B CN107317892 B CN 107317892B CN 201710522789 A CN201710522789 A CN 201710522789A CN 107317892 B CN107317892 B CN 107317892B
- Authority
- CN
- China
- Prior art keywords
- network
- paths
- child nodes
- address
- tree structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L61/00—Network arrangements, protocols or services for addressing or naming
- H04L61/30—Managing network names, e.g. use of aliases or nicknames
- H04L61/3015—Name registration, generation or assignment
- H04L61/3025—Domain name generation or assignment
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer And Data Communications (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种网络地址的处理方法,包括步骤:获取网络日志所包含的多个网络地址;分别获取每个网络地址所包含的网络路径,以得到多个网络路径;分别获取每个网络路径的目录结构;按照目录结构所包含的子目录的个数,将多个网络路径划分为至少一个集合;对于所划分的每个集合,根据该集合中的网络路径的目录结构生成一个树结构;自上而下地对该树结构中每一个非叶节点下的子节点进行合并;根据合并后的树结构获取至少一个新的网络路径;以及根据所获取的新的网络路径得到新的网络地址。本发明还公开了一种计算设备和计算机可读存储介质。
Description
技术领域
本发明涉及日志分析技术领域,尤其涉及一种网络地址的处理方法、计算设备及可读存储介质。
背景技术
随着网络通信技术的迅速发展、所承载信息的日益丰富,互联网已成为人类社会重要的基础设施,越来越多的企业或者个人通过网络服务器以及服务器中驻留的应用向用户提供网络内容和服务。对运营这些网络服务器的企业或者个人来说,需要对网络服务器产生的日志进行分析,从而了解网络服务器的运行和访问情况。
其中,某些场景下,对网络服务器的海量日志进行分析时,需要从中提取出该网络服务器的网络地址,对这些网络地址指向的网络内容进行分析。但由于提取出的网络地址数量庞大,为了降低数量级,减少工作量,通常只能从中采样进行分析。
然而,这些网络地址中可能包含大量的低价值地址和少量的高价值地址,采样的方法极有可能遗漏其中的高价值地址,影响最后的分析结果。
因此,迫切需要一种在减少网络地址数量的同时保证其分析质量的网络地址处理方案。
发明内容
为此,本发明提供一种网络地址的处理方案,以力图解决或者至少缓解上面存在的至少一个问题。
根据本发明的一个方面,提供了一种网络地址的处理方法,包括步骤:获取网络日志所包含的多个网络地址;分别获取每个网络地址所包含的网络路径,以得到多个网络路径;分别获取每个网络路径的目录结构;按照目录结构所包含的子目录的个数,将多个网络路径划分为至少一个集合;对于所划分的每个集合,根据该集合中的网络路径的目录结构生成一个树结构;自上而下地对该树结构中每一个非叶节点下的子节点进行合并;根据合并后的树结构获取至少一个新的网络路径;以及根据所获取的新的网络路径得到新的网络地址。
可选地,在根据本发明的方法中,网络路径的目录结构包括该网络路径所包含的子目录以及子目录的层级关系。
可选地,在根据本发明的方法中,同一个集合中的网络路径的目录结构包括相同数目个子目录。
可选地,在根据本发明的方法中,树结构以集合中网络路径的目录结构中的子目录为子节点,其层级关系对应于集合中网络路径的目录结构的层级关系。
可选地,在根据本发明的方法中,对该树结构中每一个非叶节点下的子节点进行合并的步骤包括:对该非叶节点下的子节点,将其中具有相同值的部分子节点合并为一个子节点;将其中超过预定数目的、具有不同值的部分子节点合并为一个可变子节点;其中部分子节点含有的子树为合并后的子节点的子树。
可选地,在根据本发明的方法中,预定数目为1000。
可选地,在根据本发明的方法中,获取每个网络地址所包含的网络路径的步骤包括:至少去除网络地址中网络服务器的缺省地址,以得到网络路径;以及根据网络路径得到网络地址的步骤包括:在网络路径前添加网络服务器的缺省地址,以得到网络地址。
可选地,在根据本发明的方法中,在分别获取每个网络地址所包含的网络路径之后,还包括步骤:去除多个网络路径中重复的部分。
根据本发明的另一方面,提供了一种计算设备,包括:一个或多个处理器;存储器;以及一个或多个程序,其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序包括用于执行根据本发明的网络地址的处理方法中的任一方法的指令。
根据本发明的还有一个方面,提供了一种存储一个或多个程序的计算机可读存储介质,一个或多个程序包括指令,该指令当由计算设备执行时,使得计算设备执行根据本发明的网络地址的处理方法中的任一方法。
根据本发明的网络地址的处理方案,通过将网络日志所包含的多个网络地址中的网络路径以树结构的形式表示,并对其中相同和不同地子节点分别进行合并,实现了最终得到的网络地址数量上的极大减少,并同时保证了分析质量。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明的一个示例性实施方式的计算设备100的结构框图;
图2示出了根据本发明的一个示例性实施方式的网络地址的处理方法200的流程图;
图3示出了根据本发明一个示例性实施方式的树结构的示意图;
图4示出了根据图3所示的树结构合并子节点后的示意图;以及
图5示出了根据本发明另一个示例性实施方式的2个树结构的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个示例性实施方式的计算设备100的结构框图。该计算设备100可以实现为服务器,例如文件服务器、数据库服务器、应用程序服务器和网络服务器等,也可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。此外,该计算设备100还可以实现为小尺寸便携(或者移动)电子设备的一部分,这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。
在基本的配置102中,计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。
取决于期望的配置,处理器104可以是任何类型的处理,包括但不限于:微处理器((μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器218可以是处理器104的一个内部部分。
取决于期望的配置,系统存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个程序122以及程序数据124。在一些实施方式中,程序122可以被配置为在操作系统上由一个或者多个处理器104利用程序数据124执行指令。
计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
其中,计算设备100的一个或多个程序122包括用于执行根据本发明的网络地址的处理方法中任一方法的指令。
图2示出了根据本发明一个示例性实施方式的网络地址的处理方法200的流程图。如图2所示,网络地址的处理方法200始于步骤S210。在步骤S210中,获取网络日志所包含的多个网络地址。具体地,对每一条网络日志,可以对该条网络日志的每一行进行网络地址的提取,这里网络日志为需要进行日志分析的网络服务器生成的网络日志,由计算设备100从网络服务器处获得。
而后在步骤S220中,分别获取每个网络地址所包含的网络路径,以得到多个网络路径。网络地址通常由协议、网络服务器的缺省地址(通常为域名,有时为IP地址)、端口(以数字方式表示,若为HTTP的默认值“:80”可省略)、网络路径(以分隔字符“/”区别网络路径中的每一个子目录名称)、查询(HTTP协议GET模式的窗体参数,以“?”字符为起点,每个参数以“&”隔开,再以“=”分开参数名称与数据)以及片段(以“#”字符为起点)组成。一个典型的网络地址示例为http://www.knownsec.com:80/w/index.php?title=Special:%E9%9A%E9%9D%A2&printable=yes,其中:http是协议,www.knownsec.com是网络服务器的缺省地址,80是网络服务器上的网络端口号,/w/index.php是网络路径,?title=Special:%E9%9A%E9%9D%A2&printable=yes,是查询。
具体地,去除该网络地址中协议、网络服务器的缺省地址、端口、查询和片段的部分,以得到其中的网络路径。由于端口和协议通常是默认,且大多数网络地址没有查询和片段部分,因此有时去除该网络地址中网络服务器的缺省地址即可。
在获取多个网络地址之后,根据本发明的一个实施方式,还可以去除这多个网络路径中重复的部分,从而减少其数量。
而后在步骤S230中,分别获取每个网络路径的目录结构。网络路径以分隔字符“/”区别网络路径中的每一个子目录名称,可以按照分隔字符“/”对网络路径进行分割得到目录结构,该目录结构指示着网络路径包含的每个子目录以及每个子目录的层级关系。
获取目录结构之后,在步骤S240中,按照目录结构所包含的子目录的个数,将多个网络路径划分为至少一个集合,其中,同一个集合中的网络路径的目录结构包括相同数目个子目录。也就是说,将包含有相同数目个子目录的网络路径划分至同一个集合中。例如,获取到网络路径如下:/abc/def/123/index.html、/abc/def/456/index.html、/abc/def/789/index.html、/abc/def/gh/789/index.html、/abc/def/jk/789/index.html,那么可以将这些网络路径划分为两个集合,其中一个集合中的网络路径均包含有4个子目录,该集合包括:/abc/def/123/index.html、/abc/def/456/index.html、/abc/def/789/index.html,另一个集合中的网络路径均包含有5个子目录,该集合包括:/abc/def/gh/789/index.html、/abc/def/jk/789/index.html。
划分出集合之后,对于所划分的每个集合,先在步骤S250中,根据该集合中的网络路径的目录结构生成一个树结构,该树结构以网络路径的目录结构中的子目录为子节点,其层级关系对应于该集合中网络路径的目录结构的层级关系。也就是说,树结构的根节点可以为编号,用以标识该树结构。其下的第一层子节点为集合所包含的那些网络路径的目录结构的第一层子目录(从左至右,网络路径最左侧的子目录为第一层子目录),第二层子节点为第二层子目录,依此类推。
例如,某个集合包括如下网络路径:/abc/def/123/index.html、/abc/def/456/index.html、/abc/def/789/index.html,这些网络路径的目录结构的第一层包括子目录:abc,第二层包括子目录:def,第三层包括子目录:123、456和789,第四层包括子目录:index.html。
根据这些网络路径生成的树结构如图3所示,其中,该树结构的根节点为该树结构的编号1,其下第一层包括与根节点连接的子节点:abc,第二层包括与上层子节点连接的子节点:def,第三层包括与上层子节点连接的3个子节点:123、456和789,第四层包括分别与上层3个子节点连接的3个子节点:index.html、index.html、index.html。
可以理解地,对于网络服务器的大部分网络地址,可能只有某个子目录不同,其他子目录均相同。典型地,例如/abc/def/123/index.html、/abc/def/456/index.html、/abc/def/789/index.html等等类似的网络路径,其中第三个子目录为用户ID。此种情况下,只需对其中一个进行分析即可。
基于这样的考虑,本发明在生成树结构之后,再在步骤S260中,自上而下地对该树结构中每一个非叶节点下的子节点进行合并。具体地,每一个非叶结点,对该非叶节点下的子节点,可以将其中具有相同值的部分子节点合并为一个子节点,将其中超过预定数目(例如超过1000)的、具有不同值的部分子节点合并为一个可变子节点。若具有不同值的部分子节点的数量不超过预定数目,则不对这些子节点进行合并。
其中,部分子节点含有的子树为合并后的子节点的子树。另外,若非叶节点下仅有一个子节点,也不对该子节点进行合并。
例如,假设预定数目为1,如图3所示的树结构合并子节点后变为如图4所示的树结构。其中,首先,不对子节点abc和def进行合并,其次,def下有3个具有不同值的子节点,因此可以合并为一个可变子节点,以“*”字符表示。该可变子节点下具有3个相同值的子节点,因此可以合并为一个同样具有该值的子节点index.html。
合并子节点后,在步骤S270中,根据合并后的树结构获取至少一个新的网络路径。例如,根据如图4所示的树结构可以获取到新的网络路径:/abc/def/*/index.html,其中*表示可变子节点。
又例如,图5示出了分别根据2个集合生成的2个树结构的示意图,其中,根据编号为1的树结构可以获取网络路径:/abc/def/*/index.html、/abc/ghi/xyz/index.html,根据编号为2的树结构可以获取网络路径:/oqp/def、/opq/ghi。
通过这种合并,可以对网络路径的数量实现极大的减少,但并不影响最后的分析质量,避免了网络地址繁复造成的无意义以及冗余分析,也避免了随机采样造成的有效数据丢失。
最后在对于所划分的每个集合,获取新的网络路径之后,在步骤S280中,根据所获取的新的网络路径得到新的网络地址。具体地,可以在网络路径前添加网络服务器的缺省地址,以得到网络地址,从而实现了对网络日志中有效网络地址的提取,并在减少了地址数量的同时保证了分析质量。
应当理解,这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被该机器执行时,该机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的该程序代码中的指令,执行本发明的各种方法。
以示例而非限制的方式,计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。
应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。
Claims (8)
1.一种网络地址的处理方法,在计算设备中执行,并包括如下步骤:
获取网络日志所包含的多个网络地址,所述网络日志为需要进行日志分析的网络服务器生成的网络日志,由所述计算设备从所述网络服务器处获得,且所述网络地址至少包括网络服务器的缺省地址和网络路径;
分别获取每个网络地址所包含的网络路径,并去除所述网络路径中重复的部分以得到多个网络路径;
分别获取每个网络路径的目录结构;
按照目录结构所包含的子目录的个数,将所述多个网络路径划分为至少一个集合;
对于所划分的每个集合,
根据该集合中的网络路径的目录结构生成一个树结构;
自上而下地对该树结构中每一个非叶节点下的子节点进行合并;
根据合并后的树结构获取至少一个新的网络路径;以及
根据所获取的新的网络路径得到新的网络地址,以便对所述网络服务器的网络日志进行分析;
其中,所述对该树结构中每一个非叶节点下的子节点进行合并的步骤包括:
对该非叶节点下的子节点,
将其中具有相同值的部分子节点合并为一个子节点;
将其中超过预定数目的、具有不同值的部分子节点合并为一个可变子节点;
其中部分子节点含有的子树为合并后的子节点的子树。
2.如权利要求1所述的方法,其中,所述网络路径的目录结构包括该网络路径所包含的子目录以及子目录的层级关系。
3.如权利要求1或2所述的方法,其中,同一个集合中的网络路径的目录结构包括相同数目个子目录。
4.如权利要求3所述的方法,其中,所述树结构以所述集合中网络路径的目录结构中的子目录为子节点,其层级关系对应于所述集合中网络路径的目录结构的层级关系。
5.如权利要求1所述的方法,其中,所述预定数目为1000。
6.如权利要求1或2所述的方法,其中,获取每个网络地址所包含的网络路径的步骤包括:至少去除网络地址中网络服务器的缺省地址,以得到网络路径;以及
根据网络路径得到网络地址的步骤包括:在网络路径前添加网络服务器的缺省地址,以得到网络地址。
7.一种计算设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1-6所述的方法中的任一方法的指令。
8.一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1-6所述的方法中的任一方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710522789.0A CN107317892B (zh) | 2017-06-30 | 2017-06-30 | 一种网络地址的处理方法、计算设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710522789.0A CN107317892B (zh) | 2017-06-30 | 2017-06-30 | 一种网络地址的处理方法、计算设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107317892A CN107317892A (zh) | 2017-11-03 |
CN107317892B true CN107317892B (zh) | 2020-08-07 |
Family
ID=60179908
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710522789.0A Active CN107317892B (zh) | 2017-06-30 | 2017-06-30 | 一种网络地址的处理方法、计算设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107317892B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959359B (zh) * | 2018-05-16 | 2022-10-11 | 顺丰科技有限公司 | 一种统一资源定位符语义去重方法、装置、设备和介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105005600A (zh) * | 2015-07-02 | 2015-10-28 | 焦点科技股份有限公司 | 一种访问日志中url的预处理方法 |
CN106095979A (zh) * | 2016-06-20 | 2016-11-09 | 百度在线网络技术(北京)有限公司 | Url合并处理方法和装置 |
CN106708952A (zh) * | 2016-11-25 | 2017-05-24 | 北京神州绿盟信息安全科技股份有限公司 | 一种网页聚类方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10073918B2 (en) * | 2014-08-12 | 2018-09-11 | Entit Software Llc | Classifying URLs |
-
2017
- 2017-06-30 CN CN201710522789.0A patent/CN107317892B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105005600A (zh) * | 2015-07-02 | 2015-10-28 | 焦点科技股份有限公司 | 一种访问日志中url的预处理方法 |
CN106095979A (zh) * | 2016-06-20 | 2016-11-09 | 百度在线网络技术(北京)有限公司 | Url合并处理方法和装置 |
CN106708952A (zh) * | 2016-11-25 | 2017-05-24 | 北京神州绿盟信息安全科技股份有限公司 | 一种网页聚类方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107317892A (zh) | 2017-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5744892B2 (ja) | テキストフィルタリングの方法およびシステム | |
EP2166462B1 (en) | Caching query results with binary decision diagrams (bdds) | |
CN110147433B (zh) | 一种基于字典树的文本模板提取方法 | |
US10810176B2 (en) | Unsolicited bulk email detection using URL tree hashes | |
JP6720626B2 (ja) | キュレートされたコンテンツ内の古くなったアイテムの除去 | |
CN106992981B (zh) | 一种网站后门检测方法、装置和计算设备 | |
US8521785B2 (en) | System and method for efficient representation of dynamic ranges of numeric values | |
US10671686B2 (en) | Processing webpage data | |
US20200204688A1 (en) | Picture book sharing method and apparatus and system using the same | |
CN114489839B (zh) | 针对页面加载配置数据的方法及装置、服务器 | |
US20140129490A1 (en) | Image url-based junk detection | |
CN107317892B (zh) | 一种网络地址的处理方法、计算设备及可读存储介质 | |
CN103914479B (zh) | 资源请求的匹配方法和装置 | |
CN111741010B (zh) | 一种基于代理的Docker操作请求处理方法、装置及计算设备 | |
WO2018208412A1 (en) | Detection of caption elements in documents | |
CN110532389B (zh) | 一种文本聚类方法、装置和计算设备 | |
EP2312473A1 (en) | System, apparatus and method for processing content on a computing device | |
CN114070844B (zh) | 一种文件下载方法、装置、计算设备及存储介质 | |
CN108173716B (zh) | 一种识别网络设备厂商的方法和计算设备 | |
US20130067317A1 (en) | System and method for implementing intelligent java server faces (jsf) composite component generation | |
CN110784553A (zh) | 报文封装方法、设备及域名解析系统 | |
CN114186958A (zh) | 将列表数据导出为电子表格的方法、计算设备及存储介质 | |
CN112532414B (zh) | 确定isp归属的方法、装置、设备及计算机存储介质 | |
CN109145220B (zh) | 数据处理方法、装置及电子设备 | |
CN114448842B (zh) | 一种资源访问方法、装置及计算设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Room 311501, Unit 1, Building 5, Courtyard 1, Futong East Street, Chaoyang District, Beijing 100102 Applicant after: Beijing Zhichuangyu Information Technology Co., Ltd. Address before: 100097 Jinwei Building 803, 55 Lanindichang South Road, Haidian District, Beijing Applicant before: Beijing Knows Chuangyu Information Technology Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |