CN117828382B

CN117828382B - 基于url的网络接口聚类方法及装置

Info

Publication number: CN117828382B
Application number: CN202410205392.9A
Authority: CN
Inventors: 张黎; 应超奇
Original assignee: Flash It Co ltd
Current assignee: Flash It Co ltd
Priority date: 2024-02-26
Filing date: 2024-02-26
Publication date: 2024-05-10
Anticipated expiration: 2044-02-26
Also published as: CN117828382A

Abstract

本发明提供一种基于URL的网络接口聚类方法及装置，通过构建待聚类URL地址对应的字典树及其中各个完整路径的特征向量，提高了后续基于该特征向量的聚类算法的准确性；随后根据任一类簇中各个完整路径组的变化区域，确定该类簇对应的精细匹配区域作为字符串匹配的依据，可以筛选出代表功能或模块划分的字符串所在的稳定区域，能够更准确地聚合属于同一网络接口的待聚类URL地址；因此，基于该类簇对应的精细匹配区域，确定该类簇中的多个完整路径的待匹配字符串，对该类簇中的多个完整路径的待匹配字符串进行匹配，从而基于该类簇中多个完整路径之间的匹配结果进行聚合，可以得到更准确的网络接口聚类结果，提升了网络接口聚类的准确性。

Description

基于URL的网络接口聚类方法及装置

技术领域

本发明涉及网络数据处理技术领域，尤其涉及一种基于URL的网络接口聚类方法及装置。

背景技术

在进行网络资产信息整理时，经常会遇到URL地址不同但实际上属于同一网络接口的情况，从而导致整理出的网络资产信息存在大量重复，不利于网络资产管理者全面了解实际网络资产状态。为了解决这一问题，需要对属于同一网络接口的不同URL地址进行合并，以获取更准确的网络资产信息。

然而，目前的合并方法涉及人工识别和筛选可合并的应用，随后才能调用程序进行合并。这个过程费时费力，效率低下，容易产生遗漏，导致合并后的网络资产信息仍然包含大量重复的网络接口信息。除此之外，通过正则表达式进行网络接口聚合同样存在缺陷，因为正则表达式可能无法完全捕捉复杂的网络接口结构，导致错误的合并或遗漏关键信息，进一步降低了整个合并过程的准确性和可靠性。

发明内容

本发明提供一种基于URL的网络接口聚类方法及装置，用以解决现有技术中网络接口聚合方式准确性欠佳的缺陷。

本发明提供一种基于URL的网络接口聚类方法，包括：

基于多个待聚类URL地址，构建一个字典树；

基于所述字典树的每条完整路径，构建各个完整路径对应的特征向量，并基于各个完整路径对应的特征向量进行聚类，得到各个类簇；任一完整路径对应的特征向量包括所述任一完整路径的长度以及各个非叶节点的前缀信息、子树信息和深度信息；

基于任一类簇中的多个完整路径，确定所述任一类簇中各个完整路径组的变化区域，并基于各个完整路径组的变化区域，确定所述任一类簇对应的精细匹配区域；

基于所述任一类簇对应的精细匹配区域，确定所述任一类簇中的多个完整路径的待匹配字符串，对所述任一类簇中的多个完整路径的待匹配字符串进行匹配，得到所述任一类簇中多个完整路径之间的匹配结果，并基于所述任一类簇中多个完整路径之间的匹配结果进行聚合，得到所述任一类簇中多个完整路径对应的待聚类URL地址的网络接口聚类结果。

根据本发明提供的一种基于URL的网络接口聚类方法，所述基于各个完整路径组的变化区域，确定所述任一类簇对应的精细匹配区域，具体包括：

基于所述任一类簇中各个完整路径组的变化区域，确定最大变化区域内各位置的重合程度；其中，最大变化区域是所述任一类簇中各个完整路径组的变化区域中的最大区域，所述最大变化区域内任一位置的重合程度是所述任一类簇的各个完整路径中所述任一位置最频繁出现的字符串的出现次数与所述任一类簇中完整路径的总数之间的比值；

基于所述最大变化区域内各位置的重合程度以及各位置的语义强度，确定最大变化区域内各位置属于所述任一类簇对应的精细匹配区域的概率；

基于所述最大变化区域内各位置属于所述任一类簇对应的精细匹配区域的概率，确定所述任一类簇对应的精细匹配区域。

根据本发明提供的一种基于URL的网络接口聚类方法，所述最大变化区域内任一位置属于所述任一类簇对应的精细匹配区域的概率P是基于如下公式确定的：

P = α × C+ β × S

其中，α和β为预设的权重系数，且α<β，C为所述任一位置的重合程度，S为所述任一位置的语义强度。

根据本发明提供的一种基于URL的网络接口聚类方法，任一位置的语义强度是基于所述任一类簇的各个完整路径中所述任一位置出现的字符串在样本URL集合里出现的频率以及所述任一位置与所述最大变化区域的终点的距离确定的；基于所述任一类簇的各个完整路径中所述任一位置出现的字符串在样本URL集合里出现的频率越高或者所述任一位置与所述最大变化区域的终点的距离越近，则所述任一位置的语义强度越高。

根据本发明提供的一种基于URL的网络接口聚类方法，所述对所述任一类簇中的多个完整路径的待匹配字符串进行匹配，得到所述任一类簇中多个完整路径之间的匹配结果，具体包括：

若所述任一类簇对应的精细匹配区域包括多个位置，则针对所述任一类簇中的任意两个完整路径，将所述任意两个完整路径中对应所述精细匹配区域的同一位置的待匹配字符串进行匹配，得到所述任意两个完整路径中各个待匹配字符串的字符串匹配结果；

基于所述任意两个完整路径中各个待匹配字符串的字符串匹配结果，确定所述任意两个完整路径之间的匹配结果。

根据本发明提供的一种基于URL的网络接口聚类方法，任一完整路径对应的特征向量是基于如下步骤构建的：

获取所述字典树中最长的完整路径的节点数量；

确定所述任一完整路径的长度以及各个非叶节点的前缀信息、子树信息和深度信息；

针对所述任一完整路径的任一非叶节点，利用预训练的语言模型获取所述任一非叶节点的前缀信息的前缀向量以及子树信息的子树向量，并将所述任一非叶节点的前缀向量、子树向量和深度信息拼接为所述任一非叶节点的非叶节点向量；

当所述任一完整路径的长度小于所述字典树中最长的完整路径的节点数量时，将所述任一完整路径的长度和各个非叶节点的非叶节点向量拼接后，拼接若干个填充非叶节点向量，得到所述任一完整路径对应的特征向量；其中，所述填充非叶节点向量的维度与任一非叶节点的非叶节点向量的维度相同；

当所述任一完整路径的长度等于所述字典树中最长的完整路径的节点数量时，将所述任一完整路径的长度和各个非叶节点的非叶节点向量拼接，得到所述任一完整路径对应的特征向量。

根据本发明提供的一种基于URL的网络接口聚类方法，所述将所述任一完整路径的长度和各个非叶节点的非叶节点向量拼接，具体包括：

基于所述任一完整路径中各个非叶节点的权重，将所述任一完整路径的长度和各个非叶节点的非叶节点向量拼接；

其中，所述任一完整路径中任一非叶节点的权重是基于如下步骤确定的：

确定所述任一非叶节点在所述字典树中的深度；

确定所述字典树中以所述任一非叶节点为根节点的子树，并计算所述以所述任一非叶节点为根节点的子树中所有路径的数量；

基于所述任一非叶节点在所述字典树中的深度以及所述以所述任一非叶节点为根节点的子树中所有路径的数量，确定所述任一非叶节点的权重。

本发明还提供一种基于URL的网络接口聚类装置，包括：

字典树构建单元，用于基于多个待聚类URL地址，构建一个字典树；

初次聚类单元，用于基于所述字典树的每条完整路径，构建各个完整路径对应的特征向量，并基于各个完整路径对应的特征向量进行聚类，得到各个类簇；任一完整路径对应的特征向量包括所述任一完整路径的长度以及各个非叶节点的前缀信息、子树信息和深度信息；

精细匹配区域确定单元，用于基于任一类簇中的多个完整路径，确定所述任一类簇中各个完整路径组的变化区域，并基于各个完整路径组的变化区域，确定所述任一类簇对应的精细匹配区域；

二次聚类单元，用于基于所述任一类簇对应的精细匹配区域，确定所述任一类簇中的多个完整路径的待匹配字符串，对所述任一类簇中的多个完整路径的待匹配字符串进行匹配，得到所述任一类簇中多个完整路径之间的匹配结果，并基于所述任一类簇中多个完整路径之间的匹配结果进行聚合，得到所述任一类簇中多个完整路径对应的待聚类URL地址的网络接口聚类结果。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于URL的网络接口聚类方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于URL的网络接口聚类方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述基于URL的网络接口聚类方法。

本发明提供的基于URL的网络接口聚类方法及装置，通过构建待聚类URL地址对应的字典树以及字典树中各个完整路径的特征向量，包括路径长度、非叶节点的前缀信息、子树信息和深度信息等多个维度的特征，能够更全面地描述URL的结构和特征，提高了后续基于该特征向量的聚类算法的准确性；随后根据任一类簇中各个完整路径组的变化区域，确定该类簇对应的精细匹配区域作为字符串匹配的依据，可以筛选出代表功能或模块划分的字符串所在的稳定区域，提升了字符串匹配的针对性，能够更准确地聚合属于同一网络接口的待聚类URL地址；因此，在基于该类簇对应的精细匹配区域，确定该类簇中的多个完整路径的待匹配字符串，对该类簇中的多个完整路径的待匹配字符串进行匹配，从而基于该类簇中多个完整路径之间的匹配结果进行聚合，可以得到更准确的网络接口聚类结果，有效提升了网络接口聚类的准确性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于URL的网络接口聚类方法的流程示意图；

图2是本发明提供的特征向量构建方法的流程示意图；

图3是本发明提供的精细匹配区域确定方法的流程示意图；

图4是本发明提供的基于URL的网络接口聚类装置的结构示意图；

图5是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明提供的基于URL的网络接口聚类方法的流程示意图，如图1所示，该方法包括：

步骤110，基于多个待聚类URL地址，构建一个字典树；

步骤120，基于所述字典树的每条完整路径，构建各个完整路径对应的特征向量，并基于各个完整路径对应的特征向量进行聚类，得到各个类簇；任一完整路径对应的特征向量包括所述任一完整路径的长度以及各个非叶节点的前缀信息、子树信息和深度信息；

步骤130，基于任一类簇中的多个完整路径，确定所述任一类簇中各个完整路径组的变化区域，并基于各个完整路径组的变化区域，确定所述任一类簇对应的精细匹配区域；

步骤140，基于所述任一类簇对应的精细匹配区域，确定所述任一类簇中的多个完整路径的待匹配字符串，对所述任一类簇中的多个完整路径的待匹配字符串进行匹配，得到所述任一类簇中多个完整路径之间的匹配结果，并基于所述任一类簇中多个完整路径之间的匹配结果进行聚合，得到所述任一类簇中多个完整路径对应的待聚类URL地址的网络接口聚类结果。

具体地，针对当前收集的多个待聚类URL地址，构建这些待聚类URL地址共同对应的字典树。其中，可以将各个待聚类URL地址按照分隔符“/”进行切分得到多个字符串后，依次将各个待聚类URL地址的字符串填入字典树中。构建得到的字典树中每个节点代表某个待聚类URL地址中的一个字符串，从根节点到任一叶子节点的路径表示一个完整的待聚类URL地址。可见，若多个待聚类URL地址的前缀相同，则该前缀包含的最后一个字段在字典树中将以非叶节点的形式存在。

针对字典树的每条完整路径，创建各个完整路径对应的特征向量，并基于各个完整路径对应的特征向量，利用聚类算法（如KMeans算法或层次聚类算法等）进行聚类，得到各个类簇。其中，任一完整路径对应的特征向量包括该完整路径的路径长度以及该完整路径中各个非叶节点的前缀信息、子树信息和深度信息。此处，完整路径的路径长度为该完整路径所经过的节点数量，非叶节点的前缀信息包括该非叶节点至字典树根节点的路径所经过的节点信息（例如节点对应的字符串），非叶节点的子树信息包括该非叶节点的子孙节点信息（例如该非叶节点至任一可达的叶节点的路径所经过的节点信息），而非叶节点的深度信息是该非叶节点至根节点的最短路径所经过的节点数量。可见，任一完整路径对应某一个待聚类URL地址，而该完整路径的特征向量包括路径长度、非叶节点的前缀信息、子树信息和深度信息等多个维度的特征，使得该多维度的特征向量能够更全面地描述URL的结构和特征，例如，路径长度反映了URL的复杂程度，非叶节点的前缀信息和子树信息可以捕捉URL的共享结构和差异结构，而深度信息有助于理解URL的层级关系，有助于提高后续基于完整路径特征向量的聚类算法的准确性。

在一些实施例中，如图2所示，可以通过如下方式构建任一完整路径对应的特征向量：

步骤210，获取所述字典树中最长的完整路径的节点数量；

步骤220，确定所述任一完整路径的长度以及各个非叶节点的前缀信息、子树信息和深度信息；

步骤230，针对所述任一完整路径的任一非叶节点，利用预训练的语言模型获取所述任一非叶节点的前缀信息的前缀向量以及子树信息的子树向量，并将所述任一非叶节点的前缀向量、子树向量和深度信息拼接为所述任一非叶节点的非叶节点向量；

步骤240，当所述任一完整路径的长度小于所述字典树中最长的完整路径的节点数量时，将所述任一完整路径的长度和各个非叶节点的非叶节点向量拼接后，拼接若干个填充非叶节点向量，得到所述任一完整路径对应的特征向量；其中，所述填充非叶节点向量的维度与任一非叶节点的非叶节点向量的维度相同；

步骤250，当所述任一完整路径的长度等于所述字典树中最长的完整路径的节点数量时，将所述任一完整路径的长度和各个非叶节点的非叶节点向量拼接，得到所述任一完整路径对应的特征向量。

具体而言，获取字典树中最长的完整路径所经过的节点数量。与此同时，可以确定任一完整路径的长度以及各个非叶节点的前缀信息、子树信息和深度信息，并针对该完整路径的任一非叶节点，利用预训练的语言模型（例如Bert）获取该非叶节点的前缀信息的前缀向量以及子树信息的子树向量，并将该非叶节点的前缀向量、子树向量和深度信息拼接为该非叶节点的非叶节点向量。其中，可以将该非叶节点的前缀信息和子树信息分别输入至预训练的语言模型中，得到该语言模型分别输出的前缀向量和子树向量。当该完整路径的长度小于字典树中最长的完整路径的长度时，将该完整路径的长度和各个非叶节点的非叶节点向量拼接后，拼接若干个填充非叶节点向量，得到该完整路径对应的特征向量；其中，填充非叶节点向量的维度与任一非叶节点的非叶节点向量的维度相同，填充非叶节点向量中的向量值可以为0。当该完整路径的长度等于字典树中最长的完整路径的长度时，则可以将该完整路径的长度和各个非叶节点的非叶节点向量拼接，得到该完整路径对应的特征向量。

在另一些实施例中，在将该完整路径的长度和各个非叶节点的非叶节点向量进行拼接时，可以基于该完整路径中各个非叶节点的权重，将该完整路径的长度和各个非叶节点的非叶节点向量拼接。例如，可以将各个非叶节点的非叶节点向量乘以相应非叶节点的权重，得到各个非叶节点的加权非叶节点向量后，将该完整路径的长度和各个非叶节点的加权非叶节点向量拼接。通过对各个非叶节点的非叶节点向量进行加权，可以强化对URL聚类任务更重要的非叶节点（例如更能体现各个待聚类URL地址之间相似性的非叶节点），从而提升后续聚类的准确性。

其中，该完整路径中任一非叶节点的权重是基于如下步骤确定的：确定该非叶节点在字典树中的深度；确定字典树中以该非叶节点为根节点的子树，并计算以该非叶节点为根节点的子树中所有路径（即该非叶节点至该子树叶节点的路径）的数量；基于该非叶节点在字典树中的深度以及以该非叶节点为根节点的子树中所有路径的数量，确定该非叶节点的权重。此处，可以将该非叶节点在字典树中的深度以及以该非叶节点为根节点的子树中所有路径的数量相乘，得到该非叶节点的权重，从而使得当该非叶节点在字典树中的深度越大（表明该非叶节点所在的完整路径之间的重叠程度越高）或者以该非叶节点为根节点的子树中所有路径的数量越多（表明越多的完整路径共用该非叶节点）时，表明该非叶节点越能体现各个待聚类URL地址之间的相似性，故而该非叶节点的权重越高、其重要性越大。

通过各个完整路径对应的特征向量进行聚类得到的类簇中，属于同一类簇的待聚类URL地址之间存在较大的相似性，尤其是结构上的相似性，因此同一类簇中可能存在属于同一网络接口的待聚类URL地址。考虑到URL地址本身存在一定的复杂性，其中会包含一些代表功能或模块划分的字符串以及一些表征用户或客户端等个人信息的字符串，而代表功能或模块划分的字符串更可以体现相应URL地址代表的页面的功能，对于同一网络接口对应的不同URL地址而言，该部分字符串具备较大的稳定性，因此可将该部分字符串在URL地址中对应的位置视为稳定区域；而表征用户或客户端等个人信息的字符串则变化程度较大，对于同一网络接口对应的不同URL地址而言，该部分字符串可被视为URL地址中的不稳定区域。可见，将代表功能或模块划分的字符串对应的稳定区域作为URL的聚类标准，将能够更准确地聚合属于同一网络接口的待聚类URL地址。

因此，可以基于任一类簇中的多个完整路径，确定该类簇中各个完整路径组的变化区域，并基于各个完整路径组的变化区域，确定该类簇对应的精细匹配区域。其中，一个完整路径组由对应类簇中任意两个完整路径构成，完整路径组的变化区域代表其中两个完整路径之间的差异部分。在一些实施例中，可以将/作为分隔符，将各个完整路径切分为字符串序列，根据最长的字符串序列设置一个长度与该最长的字符串序列的字符串数量相同的标记数组，然后利用标记数组的下标去表示完整路径组的变化区域。根据各个完整路径组的变化区域，可以确定出该类簇中各个完整路径对应的待聚类URL地址中的上述稳定区域（即代表功能或模块划分的字符串所在的位置），并据此作为精细匹配区域，以进行后续精确的字符串匹配。

在一些实施例中，如图3所示，可以通过如下方式确定任一类簇对应的精细匹配区域：

步骤310，基于所述任一类簇中各个完整路径组的变化区域，确定最大变化区域内各位置的重合程度；其中，最大变化区域是所述任一类簇中各个完整路径组的变化区域中的最大区域，所述最大变化区域内任一位置的重合程度是所述任一类簇的各个完整路径中所述任一位置最频繁出现的字符串的出现次数与所述任一类簇中完整路径的总数之间的比值；

步骤320，基于所述最大变化区域内各位置的重合程度以及各位置的语义强度，确定最大变化区域内各位置属于所述任一类簇对应的精细匹配区域的概率；其中，任一位置的重合程度越低或所述任一位置的语义强度越低，则所述任一位置属于所述任一类簇对应的精细匹配区域的概率越低；

步骤330，基于所述最大变化区域内各位置属于所述任一类簇对应的精细匹配区域的概率，确定所述任一类簇对应的精细匹配区域。

具体而言，针对类簇中各个完整路径组的变化区域，确定最大变化区域内各位置的重合程度。其中，最大变化区域是该类簇中各个完整路径组的变化区域中范围最大的最大区域；该最大变化区域内任一位置的重合程度是该类簇的各个完整路径中该位置最频繁出现的字符串的出现次数与该类簇中完整路径的总数之间的比值，因此任一位置的重合程度表征了该位置出现的字符串的稳定程度，其重合程度越高，代表该位置出现的字符串越稳定。此处，以最大变化区域为S[i-j]为例，其中S为标记数组，[i-j]代表下标i至下标j对应的区域，针对任一位置S[p]（i≤p≤j）可以通过统计该类簇中每个完整路径在S[p]这个位置出现的所有字符串以及各个字符串的出现次数，然后挑选出出现次数最多的字符串，并计算该出现次数最多的字符串的出现次数与该类簇中完整路径的总数之间的比值，作为最大变化区域内S[p]这个位置的重合程度。

为了更精确地找到该类簇的待聚类URL地址中的稳定区域，可以基于最大变化区域内各位置的重合程度以及各位置的语义强度，确定最大变化区域内各位置属于该类簇对应的精细匹配区域的概率。其中，任一位置的重合程度越低或该位置的语义强度越低，则该位置属于该类簇对应的精细匹配区域的概率越低。此处，任一位置的语义强度表征了该位置出现的字符串具备语义信息的概率，通过结合任一位置的重合程度和语义强度，有助于分辨出代表功能或模块划分的字符串所在的区域。在一些实施例中，任一位置的语义强度是基于该类簇的各个完整路径中该位置出现的字符串在样本URL集合里出现的频率（例如该类簇的各个完整路径中该位置最频繁出现的字符串在样本URL集合里出现的频率）以及该位置与最大变化区域的终点的距离确定的。其中，该类簇的各个完整路径中该位置出现的字符串在样本URL集合（样本URL集合中的样本URL去除了http、www等URL地址的固定组成部分）里出现的频率越高或者该位置与最大变化区域的终点的距离越近，则该位置的语义强度越高。

在另一些实施例中，最大变化区域内任一位置属于该类簇对应的精细匹配区域的概率P是基于如下公式确定的：

P = α × C+ β × S

其中，α和β为预设的权重系数，且α<β，C为该位置的重合程度，S为该位置的语义强度。

随后，可以基于最大变化区域内各位置属于该类簇对应的精细匹配区域的概率，确定该类簇对应的精细匹配区域。例如，可以选择最大变化区域内属于该类簇对应的精细匹配区域的概率大于预设概率值的位置构成该类簇对应的精细匹配区域。

基于该类簇对应的精细匹配区域，可以确定该类簇中的多个完整路径的待匹配字符串。其中，任一完整路径的待匹配字符串与上述精细匹配区域是对应的，若精细匹配区域包括多个位置，则该完整路径的待匹配字符串也有多个。对该类簇中的多个完整路径的待匹配字符串进行字符串匹配（匹配时采用的相似度计算方式可以采用余弦相似度、编辑距离等，本发明实施例对此不作具体限定），可以得到该类簇中多个完整路径之间的匹配结果。在一些实施例中，若该类簇对应的精细匹配区域包括多个位置，则针对该类簇中的任意两个完整路径，将该任意两个完整路径中对应精细匹配区域的同一位置的待匹配字符串进行匹配，得到任意两个完整路径中各个待匹配字符串的字符串匹配结果，然后基于该任意两个完整路径中各个待匹配字符串的字符串匹配结果，确定该任意两个完整路径之间的匹配结果。例如，该任意两个完整路径中各个待匹配字符串的匹配结果均显示匹配成功，则可以确定该任意两个完整路径之间的匹配结果为匹配成功。

随后，基于该类簇中多个完整路径之间的匹配结果进行聚合，将匹配成功的完整路径聚合到一起，可以得到该类簇中多个完整路径对应的待聚类URL地址的网络接口聚类结果。其中，该类簇中多个完整路径对应的待聚类URL地址的网络接口聚类结果包括多个聚合组，同一聚合组中的待聚类URL地址属于同一网络接口。

综上所述，本发明实施例提供的方法，通过构建待聚类URL地址对应的字典树以及字典树中各个完整路径的特征向量，包括路径长度、非叶节点的前缀信息、子树信息和深度信息等多个维度的特征，能够更全面地描述URL的结构和特征，提高了后续基于该特征向量的聚类算法的准确性；随后根据任一类簇中各个完整路径组的变化区域，确定该类簇对应的精细匹配区域作为字符串匹配的依据，可以筛选出代表功能或模块划分的字符串所在的稳定区域，提升了字符串匹配的针对性，能够更准确地聚合属于同一网络接口的待聚类URL地址；因此，在基于该类簇对应的精细匹配区域，确定该类簇中的多个完整路径的待匹配字符串，对该类簇中的多个完整路径的待匹配字符串进行匹配，从而基于该类簇中多个完整路径之间的匹配结果进行聚合，可以得到更准确的网络接口聚类结果，有效提升了网络接口聚类的准确性。

下面对本发明提供的基于URL的网络接口聚类装置进行描述，下文描述的基于URL的网络接口聚类装置与上文描述的基于URL的网络接口聚类方法可相互对应参照。

基于上述任一实施例，图4是本发明提供的基于URL的网络接口聚类装置的结构示意图，如图4所示，该装置包括：

字典树构建单元410，用于基于多个待聚类URL地址，构建一个字典树；

初次聚类单元420，用于基于所述字典树的每条完整路径，构建各个完整路径对应的特征向量，并基于各个完整路径对应的特征向量进行聚类，得到各个类簇；任一完整路径对应的特征向量包括所述任一完整路径的长度以及各个非叶节点的前缀信息、子树信息和深度信息；

精细匹配区域确定单元430，用于基于任一类簇中的多个完整路径，确定所述任一类簇中各个完整路径组的变化区域，并基于各个完整路径组的变化区域，确定所述任一类簇对应的精细匹配区域；

二次聚类单元440，用于基于所述任一类簇对应的精细匹配区域，确定所述任一类簇中的多个完整路径的待匹配字符串，对所述任一类簇中的多个完整路径的待匹配字符串进行匹配，得到所述任一类簇中多个完整路径之间的匹配结果，并基于所述任一类簇中多个完整路径之间的匹配结果进行聚合，得到所述任一类簇中多个完整路径对应的待聚类URL地址的网络接口聚类结果。

本发明实施例提供的装置，通过构建待聚类URL地址对应的字典树以及字典树中各个完整路径的特征向量，包括路径长度、非叶节点的前缀信息、子树信息和深度信息等多个维度的特征，能够更全面地描述URL的结构和特征，提高了后续基于该特征向量的聚类算法的准确性；随后根据任一类簇中各个完整路径组的变化区域，确定该类簇对应的精细匹配区域作为字符串匹配的依据，可以筛选出代表功能或模块划分的字符串所在的稳定区域，提升了字符串匹配的针对性，能够更准确地聚合属于同一网络接口的待聚类URL地址；因此，在基于该类簇对应的精细匹配区域，确定该类簇中的多个完整路径的待匹配字符串，对该类簇中的多个完整路径的待匹配字符串进行匹配，从而基于该类簇中多个完整路径之间的匹配结果进行聚合，可以得到更准确的网络接口聚类结果，有效提升了网络接口聚类的准确性。

基于上述任一实施例，所述基于各个完整路径组的变化区域，确定所述任一类簇对应的精细匹配区域，具体包括：

基于上述任一实施例，所述最大变化区域内任一位置属于所述任一类簇对应的精细匹配区域的概率P是基于如下公式确定的：

P = α × C+ β × S

基于上述任一实施例，任一位置的语义强度是基于所述任一类簇的各个完整路径中所述任一位置出现的字符串在样本URL集合里出现的频率以及所述任一位置与所述最大变化区域的终点的距离确定的；基于所述任一类簇的各个完整路径中所述任一位置出现的字符串在样本URL集合里出现的频率越高或者所述任一位置与所述最大变化区域的终点的距离越近，则所述任一位置的语义强度越高。

基于上述任一实施例，所述对所述任一类簇中的多个完整路径的待匹配字符串进行匹配，得到所述任一类簇中多个完整路径之间的匹配结果，具体包括：

基于上述任一实施例，任一完整路径对应的特征向量是基于如下步骤构建的：

获取所述字典树中最长的完整路径的节点数量；

基于上述任一实施例，所述将所述任一完整路径的长度和各个非叶节点的非叶节点向量拼接，具体包括：

确定所述任一非叶节点在所述字典树中的深度；

图5是本发明提供的电子设备的结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、存储器(memory)520、通信接口(Communications Interface)530和通信总线540，其中，处理器510，存储器520，通信接口530通过通信总线540完成相互间的通信。处理器510可以调用存储器520中的逻辑指令，以执行基于URL的网络接口聚类方法，该方法包括：基于多个待聚类URL地址，构建一个字典树；基于所述字典树的每条完整路径，构建各个完整路径对应的特征向量，并基于各个完整路径对应的特征向量进行聚类，得到各个类簇；任一完整路径对应的特征向量包括所述任一完整路径的长度以及各个非叶节点的前缀信息、子树信息和深度信息；基于任一类簇中的多个完整路径，确定所述任一类簇中各个完整路径组的变化区域，并基于各个完整路径组的变化区域，确定所述任一类簇对应的精细匹配区域；基于所述任一类簇对应的精细匹配区域，确定所述任一类簇中的多个完整路径的待匹配字符串，对所述任一类簇中的多个完整路径的待匹配字符串进行匹配，得到所述任一类簇中多个完整路径之间的匹配结果，并基于所述任一类簇中多个完整路径之间的匹配结果进行聚合，得到所述任一类簇中多个完整路径对应的待聚类URL地址的网络接口聚类结果。

此外，上述的存储器520中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的基于URL的网络接口聚类方法，该方法包括：基于多个待聚类URL地址，构建一个字典树；基于所述字典树的每条完整路径，构建各个完整路径对应的特征向量，并基于各个完整路径对应的特征向量进行聚类，得到各个类簇；任一完整路径对应的特征向量包括所述任一完整路径的长度以及各个非叶节点的前缀信息、子树信息和深度信息；基于任一类簇中的多个完整路径，确定所述任一类簇中各个完整路径组的变化区域，并基于各个完整路径组的变化区域，确定所述任一类簇对应的精细匹配区域；基于所述任一类簇对应的精细匹配区域，确定所述任一类簇中的多个完整路径的待匹配字符串，对所述任一类簇中的多个完整路径的待匹配字符串进行匹配，得到所述任一类簇中多个完整路径之间的匹配结果，并基于所述任一类簇中多个完整路径之间的匹配结果进行聚合，得到所述任一类簇中多个完整路径对应的待聚类URL地址的网络接口聚类结果。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的基于URL的网络接口聚类方法，该方法包括：基于多个待聚类URL地址，构建一个字典树；基于所述字典树的每条完整路径，构建各个完整路径对应的特征向量，并基于各个完整路径对应的特征向量进行聚类，得到各个类簇；任一完整路径对应的特征向量包括所述任一完整路径的长度以及各个非叶节点的前缀信息、子树信息和深度信息；基于任一类簇中的多个完整路径，确定所述任一类簇中各个完整路径组的变化区域，并基于各个完整路径组的变化区域，确定所述任一类簇对应的精细匹配区域；基于所述任一类簇对应的精细匹配区域，确定所述任一类簇中的多个完整路径的待匹配字符串，对所述任一类簇中的多个完整路径的待匹配字符串进行匹配，得到所述任一类簇中多个完整路径之间的匹配结果，并基于所述任一类簇中多个完整路径之间的匹配结果进行聚合，得到所述任一类簇中多个完整路径对应的待聚类URL地址的网络接口聚类结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于URL的网络接口聚类方法，其特征在于，包括：

基于多个待聚类URL地址，构建一个字典树；

基于所述任一类簇对应的精细匹配区域，确定所述任一类簇中的多个完整路径的待匹配字符串，对所述任一类簇中的多个完整路径的待匹配字符串进行匹配，得到所述任一类簇中多个完整路径之间的匹配结果，并基于所述任一类簇中多个完整路径之间的匹配结果进行聚合，得到所述任一类簇中多个完整路径对应的待聚类URL地址的网络接口聚类结果；

所述基于各个完整路径组的变化区域，确定所述任一类簇对应的精细匹配区域，具体包括：

2.根据权利要求1所述的基于URL的网络接口聚类方法，其特征在于，所述最大变化区域内任一位置属于所述任一类簇对应的精细匹配区域的概率P是基于如下公式确定的：

P = α × C+ β × S

3.根据权利要求2所述的基于URL的网络接口聚类方法，其特征在于，任一位置的语义强度是基于所述任一类簇的各个完整路径中所述任一位置出现的字符串在样本URL集合里出现的频率以及所述任一位置与所述最大变化区域的终点的距离确定的；基于所述任一类簇的各个完整路径中所述任一位置出现的字符串在样本URL集合里出现的频率越高或者所述任一位置与所述最大变化区域的终点的距离越近，则所述任一位置的语义强度越高。

4.根据权利要求1所述的基于URL的网络接口聚类方法，其特征在于，所述对所述任一类簇中的多个完整路径的待匹配字符串进行匹配，得到所述任一类簇中多个完整路径之间的匹配结果，具体包括：

5.根据权利要求1所述的基于URL的网络接口聚类方法，其特征在于，任一完整路径对应的特征向量是基于如下步骤构建的：

获取所述字典树中最长的完整路径的节点数量；

6.根据权利要求5所述的基于URL的网络接口聚类方法，其特征在于，所述将所述任一完整路径的长度和各个非叶节点的非叶节点向量拼接，具体包括：

确定所述任一非叶节点在所述字典树中的深度；

7.一种基于URL的网络接口聚类装置，其特征在于，包括：

二次聚类单元，用于基于所述任一类簇对应的精细匹配区域，确定所述任一类簇中的多个完整路径的待匹配字符串，对所述任一类簇中的多个完整路径的待匹配字符串进行匹配，得到所述任一类簇中多个完整路径之间的匹配结果，并基于所述任一类簇中多个完整路径之间的匹配结果进行聚合，得到所述任一类簇中多个完整路径对应的待聚类URL地址的网络接口聚类结果；

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述基于URL的网络接口聚类方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于URL的网络接口聚类方法。