CN117828382B - 基于url的网络接口聚类方法及装置 - Google Patents
基于url的网络接口聚类方法及装置 Download PDFInfo
- Publication number
- CN117828382B CN117828382B CN202410205392.9A CN202410205392A CN117828382B CN 117828382 B CN117828382 B CN 117828382B CN 202410205392 A CN202410205392 A CN 202410205392A CN 117828382 B CN117828382 B CN 117828382B
- Authority
- CN
- China
- Prior art keywords
- complete
- cluster
- leaf node
- paths
- complete path
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 239000013598 vector Substances 0.000 claims abstract description 123
- 230000008859 change Effects 0.000 claims abstract description 84
- 230000004931 aggregating effect Effects 0.000 claims abstract description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 abstract description 8
- 238000012216 screening Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 5
- 230000002776 aggregation Effects 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于URL的网络接口聚类方法及装置,通过构建待聚类URL地址对应的字典树及其中各个完整路径的特征向量,提高了后续基于该特征向量的聚类算法的准确性;随后根据任一类簇中各个完整路径组的变化区域,确定该类簇对应的精细匹配区域作为字符串匹配的依据,可以筛选出代表功能或模块划分的字符串所在的稳定区域,能够更准确地聚合属于同一网络接口的待聚类URL地址;因此,基于该类簇对应的精细匹配区域,确定该类簇中的多个完整路径的待匹配字符串,对该类簇中的多个完整路径的待匹配字符串进行匹配,从而基于该类簇中多个完整路径之间的匹配结果进行聚合,可以得到更准确的网络接口聚类结果,提升了网络接口聚类的准确性。
Description
技术领域
本发明涉及网络数据处理技术领域,尤其涉及一种基于URL的网络接口聚类方法及装置。
背景技术
在进行网络资产信息整理时,经常会遇到URL地址不同但实际上属于同一网络接口的情况,从而导致整理出的网络资产信息存在大量重复,不利于网络资产管理者全面了解实际网络资产状态。为了解决这一问题,需要对属于同一网络接口的不同URL地址进行合并,以获取更准确的网络资产信息。
然而,目前的合并方法涉及人工识别和筛选可合并的应用,随后才能调用程序进行合并。这个过程费时费力,效率低下,容易产生遗漏,导致合并后的网络资产信息仍然包含大量重复的网络接口信息。除此之外,通过正则表达式进行网络接口聚合同样存在缺陷,因为正则表达式可能无法完全捕捉复杂的网络接口结构,导致错误的合并或遗漏关键信息,进一步降低了整个合并过程的准确性和可靠性。
发明内容
本发明提供一种基于URL的网络接口聚类方法及装置,用以解决现有技术中网络接口聚合方式准确性欠佳的缺陷。
本发明提供一种基于URL的网络接口聚类方法,包括:
基于多个待聚类URL地址,构建一个字典树;
基于所述字典树的每条完整路径,构建各个完整路径对应的特征向量,并基于各个完整路径对应的特征向量进行聚类,得到各个类簇;任一完整路径对应的特征向量包括所述任一完整路径的长度以及各个非叶节点的前缀信息、子树信息和深度信息;
基于任一类簇中的多个完整路径,确定所述任一类簇中各个完整路径组的变化区域,并基于各个完整路径组的变化区域,确定所述任一类簇对应的精细匹配区域;
基于所述任一类簇对应的精细匹配区域,确定所述任一类簇中的多个完整路径的待匹配字符串,对所述任一类簇中的多个完整路径的待匹配字符串进行匹配,得到所述任一类簇中多个完整路径之间的匹配结果,并基于所述任一类簇中多个完整路径之间的匹配结果进行聚合,得到所述任一类簇中多个完整路径对应的待聚类URL地址的网络接口聚类结果。
根据本发明提供的一种基于URL的网络接口聚类方法,所述基于各个完整路径组的变化区域,确定所述任一类簇对应的精细匹配区域,具体包括:
基于所述任一类簇中各个完整路径组的变化区域,确定最大变化区域内各位置的重合程度;其中,最大变化区域是所述任一类簇中各个完整路径组的变化区域中的最大区域,所述最大变化区域内任一位置的重合程度是所述任一类簇的各个完整路径中所述任一位置最频繁出现的字符串的出现次数与所述任一类簇中完整路径的总数之间的比值;
基于所述最大变化区域内各位置的重合程度以及各位置的语义强度,确定最大变化区域内各位置属于所述任一类簇对应的精细匹配区域的概率;
基于所述最大变化区域内各位置属于所述任一类簇对应的精细匹配区域的概率,确定所述任一类簇对应的精细匹配区域。
根据本发明提供的一种基于URL的网络接口聚类方法,所述最大变化区域内任一位置属于所述任一类簇对应的精细匹配区域的概率P是基于如下公式确定的:
P = α × C+ β × S
其中,α和β为预设的权重系数,且α<β,C为所述任一位置的重合程度,S为所述任一位置的语义强度。
根据本发明提供的一种基于URL的网络接口聚类方法,任一位置的语义强度是基于所述任一类簇的各个完整路径中所述任一位置出现的字符串在样本URL集合里出现的频率以及所述任一位置与所述最大变化区域的终点的距离确定的;基于所述任一类簇的各个完整路径中所述任一位置出现的字符串在样本URL集合里出现的频率越高或者所述任一位置与所述最大变化区域的终点的距离越近,则所述任一位置的语义强度越高。
根据本发明提供的一种基于URL的网络接口聚类方法,所述对所述任一类簇中的多个完整路径的待匹配字符串进行匹配,得到所述任一类簇中多个完整路径之间的匹配结果,具体包括:
若所述任一类簇对应的精细匹配区域包括多个位置,则针对所述任一类簇中的任意两个完整路径,将所述任意两个完整路径中对应所述精细匹配区域的同一位置的待匹配字符串进行匹配,得到所述任意两个完整路径中各个待匹配字符串的字符串匹配结果;
基于所述任意两个完整路径中各个待匹配字符串的字符串匹配结果,确定所述任意两个完整路径之间的匹配结果。
根据本发明提供的一种基于URL的网络接口聚类方法,任一完整路径对应的特征向量是基于如下步骤构建的:
获取所述字典树中最长的完整路径的节点数量;
确定所述任一完整路径的长度以及各个非叶节点的前缀信息、子树信息和深度信息;
针对所述任一完整路径的任一非叶节点,利用预训练的语言模型获取所述任一非叶节点的前缀信息的前缀向量以及子树信息的子树向量,并将所述任一非叶节点的前缀向量、子树向量和深度信息拼接为所述任一非叶节点的非叶节点向量;
当所述任一完整路径的长度小于所述字典树中最长的完整路径的节点数量时,将所述任一完整路径的长度和各个非叶节点的非叶节点向量拼接后,拼接若干个填充非叶节点向量,得到所述任一完整路径对应的特征向量;其中,所述填充非叶节点向量的维度与任一非叶节点的非叶节点向量的维度相同;
当所述任一完整路径的长度等于所述字典树中最长的完整路径的节点数量时,将所述任一完整路径的长度和各个非叶节点的非叶节点向量拼接,得到所述任一完整路径对应的特征向量。
根据本发明提供的一种基于URL的网络接口聚类方法,所述将所述任一完整路径的长度和各个非叶节点的非叶节点向量拼接,具体包括:
基于所述任一完整路径中各个非叶节点的权重,将所述任一完整路径的长度和各个非叶节点的非叶节点向量拼接;
其中,所述任一完整路径中任一非叶节点的权重是基于如下步骤确定的:
确定所述任一非叶节点在所述字典树中的深度;
确定所述字典树中以所述任一非叶节点为根节点的子树,并计算所述以所述任一非叶节点为根节点的子树中所有路径的数量;
基于所述任一非叶节点在所述字典树中的深度以及所述以所述任一非叶节点为根节点的子树中所有路径的数量,确定所述任一非叶节点的权重。
本发明还提供一种基于URL的网络接口聚类装置,包括:
字典树构建单元,用于基于多个待聚类URL地址,构建一个字典树;
初次聚类单元,用于基于所述字典树的每条完整路径,构建各个完整路径对应的特征向量,并基于各个完整路径对应的特征向量进行聚类,得到各个类簇;任一完整路径对应的特征向量包括所述任一完整路径的长度以及各个非叶节点的前缀信息、子树信息和深度信息;
精细匹配区域确定单元,用于基于任一类簇中的多个完整路径,确定所述任一类簇中各个完整路径组的变化区域,并基于各个完整路径组的变化区域,确定所述任一类簇对应的精细匹配区域;
二次聚类单元,用于基于所述任一类簇对应的精细匹配区域,确定所述任一类簇中的多个完整路径的待匹配字符串,对所述任一类簇中的多个完整路径的待匹配字符串进行匹配,得到所述任一类簇中多个完整路径之间的匹配结果,并基于所述任一类簇中多个完整路径之间的匹配结果进行聚合,得到所述任一类簇中多个完整路径对应的待聚类URL地址的网络接口聚类结果。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于URL的网络接口聚类方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于URL的网络接口聚类方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于URL的网络接口聚类方法。
本发明提供的基于URL的网络接口聚类方法及装置,通过构建待聚类URL地址对应的字典树以及字典树中各个完整路径的特征向量,包括路径长度、非叶节点的前缀信息、子树信息和深度信息等多个维度的特征,能够更全面地描述URL的结构和特征,提高了后续基于该特征向量的聚类算法的准确性;随后根据任一类簇中各个完整路径组的变化区域,确定该类簇对应的精细匹配区域作为字符串匹配的依据,可以筛选出代表功能或模块划分的字符串所在的稳定区域,提升了字符串匹配的针对性,能够更准确地聚合属于同一网络接口的待聚类URL地址;因此,在基于该类簇对应的精细匹配区域,确定该类簇中的多个完整路径的待匹配字符串,对该类簇中的多个完整路径的待匹配字符串进行匹配,从而基于该类簇中多个完整路径之间的匹配结果进行聚合,可以得到更准确的网络接口聚类结果,有效提升了网络接口聚类的准确性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于URL的网络接口聚类方法的流程示意图;
图2是本发明提供的特征向量构建方法的流程示意图;
图3是本发明提供的精细匹配区域确定方法的流程示意图;
图4是本发明提供的基于URL的网络接口聚类装置的结构示意图;
图5是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明提供的基于URL的网络接口聚类方法的流程示意图,如图1所示,该方法包括:
步骤110,基于多个待聚类URL地址,构建一个字典树;
步骤120,基于所述字典树的每条完整路径,构建各个完整路径对应的特征向量,并基于各个完整路径对应的特征向量进行聚类,得到各个类簇;任一完整路径对应的特征向量包括所述任一完整路径的长度以及各个非叶节点的前缀信息、子树信息和深度信息;
步骤130,基于任一类簇中的多个完整路径,确定所述任一类簇中各个完整路径组的变化区域,并基于各个完整路径组的变化区域,确定所述任一类簇对应的精细匹配区域;
步骤140,基于所述任一类簇对应的精细匹配区域,确定所述任一类簇中的多个完整路径的待匹配字符串,对所述任一类簇中的多个完整路径的待匹配字符串进行匹配,得到所述任一类簇中多个完整路径之间的匹配结果,并基于所述任一类簇中多个完整路径之间的匹配结果进行聚合,得到所述任一类簇中多个完整路径对应的待聚类URL地址的网络接口聚类结果。
具体地,针对当前收集的多个待聚类URL地址,构建这些待聚类URL地址共同对应的字典树。其中,可以将各个待聚类URL地址按照分隔符“/”进行切分得到多个字符串后,依次将各个待聚类URL地址的字符串填入字典树中。构建得到的字典树中每个节点代表某个待聚类URL地址中的一个字符串,从根节点到任一叶子节点的路径表示一个完整的待聚类URL地址。可见,若多个待聚类URL地址的前缀相同,则该前缀包含的最后一个字段在字典树中将以非叶节点的形式存在。
针对字典树的每条完整路径,创建各个完整路径对应的特征向量,并基于各个完整路径对应的特征向量,利用聚类算法(如KMeans算法或层次聚类算法等)进行聚类,得到各个类簇。其中,任一完整路径对应的特征向量包括该完整路径的路径长度以及该完整路径中各个非叶节点的前缀信息、子树信息和深度信息。此处,完整路径的路径长度为该完整路径所经过的节点数量,非叶节点的前缀信息包括该非叶节点至字典树根节点的路径所经过的节点信息(例如节点对应的字符串),非叶节点的子树信息包括该非叶节点的子孙节点信息(例如该非叶节点至任一可达的叶节点的路径所经过的节点信息),而非叶节点的深度信息是该非叶节点至根节点的最短路径所经过的节点数量。可见,任一完整路径对应某一个待聚类URL地址,而该完整路径的特征向量包括路径长度、非叶节点的前缀信息、子树信息和深度信息等多个维度的特征,使得该多维度的特征向量能够更全面地描述URL的结构和特征,例如,路径长度反映了URL的复杂程度,非叶节点的前缀信息和子树信息可以捕捉URL的共享结构和差异结构,而深度信息有助于理解URL的层级关系,有助于提高后续基于完整路径特征向量的聚类算法的准确性。
在一些实施例中,如图2所示,可以通过如下方式构建任一完整路径对应的特征向量:
步骤210,获取所述字典树中最长的完整路径的节点数量;
步骤220,确定所述任一完整路径的长度以及各个非叶节点的前缀信息、子树信息和深度信息;
步骤230,针对所述任一完整路径的任一非叶节点,利用预训练的语言模型获取所述任一非叶节点的前缀信息的前缀向量以及子树信息的子树向量,并将所述任一非叶节点的前缀向量、子树向量和深度信息拼接为所述任一非叶节点的非叶节点向量;
步骤240,当所述任一完整路径的长度小于所述字典树中最长的完整路径的节点数量时,将所述任一完整路径的长度和各个非叶节点的非叶节点向量拼接后,拼接若干个填充非叶节点向量,得到所述任一完整路径对应的特征向量;其中,所述填充非叶节点向量的维度与任一非叶节点的非叶节点向量的维度相同;
步骤250,当所述任一完整路径的长度等于所述字典树中最长的完整路径的节点数量时,将所述任一完整路径的长度和各个非叶节点的非叶节点向量拼接,得到所述任一完整路径对应的特征向量。
具体而言,获取字典树中最长的完整路径所经过的节点数量。与此同时,可以确定任一完整路径的长度以及各个非叶节点的前缀信息、子树信息和深度信息,并针对该完整路径的任一非叶节点,利用预训练的语言模型(例如Bert)获取该非叶节点的前缀信息的前缀向量以及子树信息的子树向量,并将该非叶节点的前缀向量、子树向量和深度信息拼接为该非叶节点的非叶节点向量。其中,可以将该非叶节点的前缀信息和子树信息分别输入至预训练的语言模型中,得到该语言模型分别输出的前缀向量和子树向量。当该完整路径的长度小于字典树中最长的完整路径的长度时,将该完整路径的长度和各个非叶节点的非叶节点向量拼接后,拼接若干个填充非叶节点向量,得到该完整路径对应的特征向量;其中,填充非叶节点向量的维度与任一非叶节点的非叶节点向量的维度相同,填充非叶节点向量中的向量值可以为0。当该完整路径的长度等于字典树中最长的完整路径的长度时,则可以将该完整路径的长度和各个非叶节点的非叶节点向量拼接,得到该完整路径对应的特征向量。
在另一些实施例中,在将该完整路径的长度和各个非叶节点的非叶节点向量进行拼接时,可以基于该完整路径中各个非叶节点的权重,将该完整路径的长度和各个非叶节点的非叶节点向量拼接。例如,可以将各个非叶节点的非叶节点向量乘以相应非叶节点的权重,得到各个非叶节点的加权非叶节点向量后,将该完整路径的长度和各个非叶节点的加权非叶节点向量拼接。通过对各个非叶节点的非叶节点向量进行加权,可以强化对URL聚类任务更重要的非叶节点(例如更能体现各个待聚类URL地址之间相似性的非叶节点),从而提升后续聚类的准确性。
其中,该完整路径中任一非叶节点的权重是基于如下步骤确定的:确定该非叶节点在字典树中的深度;确定字典树中以该非叶节点为根节点的子树,并计算以该非叶节点为根节点的子树中所有路径(即该非叶节点至该子树叶节点的路径)的数量;基于该非叶节点在字典树中的深度以及以该非叶节点为根节点的子树中所有路径的数量,确定该非叶节点的权重。此处,可以将该非叶节点在字典树中的深度以及以该非叶节点为根节点的子树中所有路径的数量相乘,得到该非叶节点的权重,从而使得当该非叶节点在字典树中的深度越大(表明该非叶节点所在的完整路径之间的重叠程度越高)或者以该非叶节点为根节点的子树中所有路径的数量越多(表明越多的完整路径共用该非叶节点)时,表明该非叶节点越能体现各个待聚类URL地址之间的相似性,故而该非叶节点的权重越高、其重要性越大。
通过各个完整路径对应的特征向量进行聚类得到的类簇中,属于同一类簇的待聚类URL地址之间存在较大的相似性,尤其是结构上的相似性,因此同一类簇中可能存在属于同一网络接口的待聚类URL地址。考虑到URL地址本身存在一定的复杂性,其中会包含一些代表功能或模块划分的字符串以及一些表征用户或客户端等个人信息的字符串,而代表功能或模块划分的字符串更可以体现相应URL地址代表的页面的功能,对于同一网络接口对应的不同URL地址而言,该部分字符串具备较大的稳定性,因此可将该部分字符串在URL地址中对应的位置视为稳定区域;而表征用户或客户端等个人信息的字符串则变化程度较大,对于同一网络接口对应的不同URL地址而言,该部分字符串可被视为URL地址中的不稳定区域。可见,将代表功能或模块划分的字符串对应的稳定区域作为URL的聚类标准,将能够更准确地聚合属于同一网络接口的待聚类URL地址。
因此,可以基于任一类簇中的多个完整路径,确定该类簇中各个完整路径组的变化区域,并基于各个完整路径组的变化区域,确定该类簇对应的精细匹配区域。其中,一个完整路径组由对应类簇中任意两个完整路径构成,完整路径组的变化区域代表其中两个完整路径之间的差异部分。在一些实施例中,可以将/作为分隔符,将各个完整路径切分为字符串序列,根据最长的字符串序列设置一个长度与该最长的字符串序列的字符串数量相同的标记数组,然后利用标记数组的下标去表示完整路径组的变化区域。根据各个完整路径组的变化区域,可以确定出该类簇中各个完整路径对应的待聚类URL地址中的上述稳定区域(即代表功能或模块划分的字符串所在的位置),并据此作为精细匹配区域,以进行后续精确的字符串匹配。
在一些实施例中,如图3所示,可以通过如下方式确定任一类簇对应的精细匹配区域:
步骤310,基于所述任一类簇中各个完整路径组的变化区域,确定最大变化区域内各位置的重合程度;其中,最大变化区域是所述任一类簇中各个完整路径组的变化区域中的最大区域,所述最大变化区域内任一位置的重合程度是所述任一类簇的各个完整路径中所述任一位置最频繁出现的字符串的出现次数与所述任一类簇中完整路径的总数之间的比值;
步骤320,基于所述最大变化区域内各位置的重合程度以及各位置的语义强度,确定最大变化区域内各位置属于所述任一类簇对应的精细匹配区域的概率;其中,任一位置的重合程度越低或所述任一位置的语义强度越低,则所述任一位置属于所述任一类簇对应的精细匹配区域的概率越低;
步骤330,基于所述最大变化区域内各位置属于所述任一类簇对应的精细匹配区域的概率,确定所述任一类簇对应的精细匹配区域。
具体而言,针对类簇中各个完整路径组的变化区域,确定最大变化区域内各位置的重合程度。其中,最大变化区域是该类簇中各个完整路径组的变化区域中范围最大的最大区域;该最大变化区域内任一位置的重合程度是该类簇的各个完整路径中该位置最频繁出现的字符串的出现次数与该类簇中完整路径的总数之间的比值,因此任一位置的重合程度表征了该位置出现的字符串的稳定程度,其重合程度越高,代表该位置出现的字符串越稳定。此处,以最大变化区域为S[i-j]为例,其中S为标记数组,[i-j]代表下标i至下标j对应的区域,针对任一位置S[p](i≤p≤j)可以通过统计该类簇中每个完整路径在S[p]这个位置出现的所有字符串以及各个字符串的出现次数,然后挑选出出现次数最多的字符串,并计算该出现次数最多的字符串的出现次数与该类簇中完整路径的总数之间的比值,作为最大变化区域内S[p]这个位置的重合程度。
为了更精确地找到该类簇的待聚类URL地址中的稳定区域,可以基于最大变化区域内各位置的重合程度以及各位置的语义强度,确定最大变化区域内各位置属于该类簇对应的精细匹配区域的概率。其中,任一位置的重合程度越低或该位置的语义强度越低,则该位置属于该类簇对应的精细匹配区域的概率越低。此处,任一位置的语义强度表征了该位置出现的字符串具备语义信息的概率,通过结合任一位置的重合程度和语义强度,有助于分辨出代表功能或模块划分的字符串所在的区域。在一些实施例中,任一位置的语义强度是基于该类簇的各个完整路径中该位置出现的字符串在样本URL集合里出现的频率(例如该类簇的各个完整路径中该位置最频繁出现的字符串在样本URL集合里出现的频率)以及该位置与最大变化区域的终点的距离确定的。其中,该类簇的各个完整路径中该位置出现的字符串在样本URL集合(样本URL集合中的样本URL去除了http、www等URL地址的固定组成部分)里出现的频率越高或者该位置与最大变化区域的终点的距离越近,则该位置的语义强度越高。
在另一些实施例中,最大变化区域内任一位置属于该类簇对应的精细匹配区域的概率P是基于如下公式确定的:
P = α × C+ β × S
其中,α和β为预设的权重系数,且α<β,C为该位置的重合程度,S为该位置的语义强度。
随后,可以基于最大变化区域内各位置属于该类簇对应的精细匹配区域的概率,确定该类簇对应的精细匹配区域。例如,可以选择最大变化区域内属于该类簇对应的精细匹配区域的概率大于预设概率值的位置构成该类簇对应的精细匹配区域。
基于该类簇对应的精细匹配区域,可以确定该类簇中的多个完整路径的待匹配字符串。其中,任一完整路径的待匹配字符串与上述精细匹配区域是对应的,若精细匹配区域包括多个位置,则该完整路径的待匹配字符串也有多个。对该类簇中的多个完整路径的待匹配字符串进行字符串匹配(匹配时采用的相似度计算方式可以采用余弦相似度、编辑距离等,本发明实施例对此不作具体限定),可以得到该类簇中多个完整路径之间的匹配结果。在一些实施例中,若该类簇对应的精细匹配区域包括多个位置,则针对该类簇中的任意两个完整路径,将该任意两个完整路径中对应精细匹配区域的同一位置的待匹配字符串进行匹配,得到任意两个完整路径中各个待匹配字符串的字符串匹配结果,然后基于该任意两个完整路径中各个待匹配字符串的字符串匹配结果,确定该任意两个完整路径之间的匹配结果。例如,该任意两个完整路径中各个待匹配字符串的匹配结果均显示匹配成功,则可以确定该任意两个完整路径之间的匹配结果为匹配成功。
随后,基于该类簇中多个完整路径之间的匹配结果进行聚合,将匹配成功的完整路径聚合到一起,可以得到该类簇中多个完整路径对应的待聚类URL地址的网络接口聚类结果。其中,该类簇中多个完整路径对应的待聚类URL地址的网络接口聚类结果包括多个聚合组,同一聚合组中的待聚类URL地址属于同一网络接口。
综上所述,本发明实施例提供的方法,通过构建待聚类URL地址对应的字典树以及字典树中各个完整路径的特征向量,包括路径长度、非叶节点的前缀信息、子树信息和深度信息等多个维度的特征,能够更全面地描述URL的结构和特征,提高了后续基于该特征向量的聚类算法的准确性;随后根据任一类簇中各个完整路径组的变化区域,确定该类簇对应的精细匹配区域作为字符串匹配的依据,可以筛选出代表功能或模块划分的字符串所在的稳定区域,提升了字符串匹配的针对性,能够更准确地聚合属于同一网络接口的待聚类URL地址;因此,在基于该类簇对应的精细匹配区域,确定该类簇中的多个完整路径的待匹配字符串,对该类簇中的多个完整路径的待匹配字符串进行匹配,从而基于该类簇中多个完整路径之间的匹配结果进行聚合,可以得到更准确的网络接口聚类结果,有效提升了网络接口聚类的准确性。
下面对本发明提供的基于URL的网络接口聚类装置进行描述,下文描述的基于URL的网络接口聚类装置与上文描述的基于URL的网络接口聚类方法可相互对应参照。
基于上述任一实施例,图4是本发明提供的基于URL的网络接口聚类装置的结构示意图,如图4所示,该装置包括:
字典树构建单元410,用于基于多个待聚类URL地址,构建一个字典树;
初次聚类单元420,用于基于所述字典树的每条完整路径,构建各个完整路径对应的特征向量,并基于各个完整路径对应的特征向量进行聚类,得到各个类簇;任一完整路径对应的特征向量包括所述任一完整路径的长度以及各个非叶节点的前缀信息、子树信息和深度信息;
精细匹配区域确定单元430,用于基于任一类簇中的多个完整路径,确定所述任一类簇中各个完整路径组的变化区域,并基于各个完整路径组的变化区域,确定所述任一类簇对应的精细匹配区域;
二次聚类单元440,用于基于所述任一类簇对应的精细匹配区域,确定所述任一类簇中的多个完整路径的待匹配字符串,对所述任一类簇中的多个完整路径的待匹配字符串进行匹配,得到所述任一类簇中多个完整路径之间的匹配结果,并基于所述任一类簇中多个完整路径之间的匹配结果进行聚合,得到所述任一类簇中多个完整路径对应的待聚类URL地址的网络接口聚类结果。
本发明实施例提供的装置,通过构建待聚类URL地址对应的字典树以及字典树中各个完整路径的特征向量,包括路径长度、非叶节点的前缀信息、子树信息和深度信息等多个维度的特征,能够更全面地描述URL的结构和特征,提高了后续基于该特征向量的聚类算法的准确性;随后根据任一类簇中各个完整路径组的变化区域,确定该类簇对应的精细匹配区域作为字符串匹配的依据,可以筛选出代表功能或模块划分的字符串所在的稳定区域,提升了字符串匹配的针对性,能够更准确地聚合属于同一网络接口的待聚类URL地址;因此,在基于该类簇对应的精细匹配区域,确定该类簇中的多个完整路径的待匹配字符串,对该类簇中的多个完整路径的待匹配字符串进行匹配,从而基于该类簇中多个完整路径之间的匹配结果进行聚合,可以得到更准确的网络接口聚类结果,有效提升了网络接口聚类的准确性。
基于上述任一实施例,所述基于各个完整路径组的变化区域,确定所述任一类簇对应的精细匹配区域,具体包括:
基于所述任一类簇中各个完整路径组的变化区域,确定最大变化区域内各位置的重合程度;其中,最大变化区域是所述任一类簇中各个完整路径组的变化区域中的最大区域,所述最大变化区域内任一位置的重合程度是所述任一类簇的各个完整路径中所述任一位置最频繁出现的字符串的出现次数与所述任一类簇中完整路径的总数之间的比值;
基于所述最大变化区域内各位置的重合程度以及各位置的语义强度,确定最大变化区域内各位置属于所述任一类簇对应的精细匹配区域的概率;
基于所述最大变化区域内各位置属于所述任一类簇对应的精细匹配区域的概率,确定所述任一类簇对应的精细匹配区域。
基于上述任一实施例,所述最大变化区域内任一位置属于所述任一类簇对应的精细匹配区域的概率P是基于如下公式确定的:
P = α × C+ β × S
其中,α和β为预设的权重系数,且α<β,C为所述任一位置的重合程度,S为所述任一位置的语义强度。
基于上述任一实施例,任一位置的语义强度是基于所述任一类簇的各个完整路径中所述任一位置出现的字符串在样本URL集合里出现的频率以及所述任一位置与所述最大变化区域的终点的距离确定的;基于所述任一类簇的各个完整路径中所述任一位置出现的字符串在样本URL集合里出现的频率越高或者所述任一位置与所述最大变化区域的终点的距离越近,则所述任一位置的语义强度越高。
基于上述任一实施例,所述对所述任一类簇中的多个完整路径的待匹配字符串进行匹配,得到所述任一类簇中多个完整路径之间的匹配结果,具体包括:
若所述任一类簇对应的精细匹配区域包括多个位置,则针对所述任一类簇中的任意两个完整路径,将所述任意两个完整路径中对应所述精细匹配区域的同一位置的待匹配字符串进行匹配,得到所述任意两个完整路径中各个待匹配字符串的字符串匹配结果;
基于所述任意两个完整路径中各个待匹配字符串的字符串匹配结果,确定所述任意两个完整路径之间的匹配结果。
基于上述任一实施例,任一完整路径对应的特征向量是基于如下步骤构建的:
获取所述字典树中最长的完整路径的节点数量;
确定所述任一完整路径的长度以及各个非叶节点的前缀信息、子树信息和深度信息;
针对所述任一完整路径的任一非叶节点,利用预训练的语言模型获取所述任一非叶节点的前缀信息的前缀向量以及子树信息的子树向量,并将所述任一非叶节点的前缀向量、子树向量和深度信息拼接为所述任一非叶节点的非叶节点向量;
当所述任一完整路径的长度小于所述字典树中最长的完整路径的节点数量时,将所述任一完整路径的长度和各个非叶节点的非叶节点向量拼接后,拼接若干个填充非叶节点向量,得到所述任一完整路径对应的特征向量;其中,所述填充非叶节点向量的维度与任一非叶节点的非叶节点向量的维度相同;
当所述任一完整路径的长度等于所述字典树中最长的完整路径的节点数量时,将所述任一完整路径的长度和各个非叶节点的非叶节点向量拼接,得到所述任一完整路径对应的特征向量。
基于上述任一实施例,所述将所述任一完整路径的长度和各个非叶节点的非叶节点向量拼接,具体包括:
基于所述任一完整路径中各个非叶节点的权重,将所述任一完整路径的长度和各个非叶节点的非叶节点向量拼接;
其中,所述任一完整路径中任一非叶节点的权重是基于如下步骤确定的:
确定所述任一非叶节点在所述字典树中的深度;
确定所述字典树中以所述任一非叶节点为根节点的子树,并计算所述以所述任一非叶节点为根节点的子树中所有路径的数量;
基于所述任一非叶节点在所述字典树中的深度以及所述以所述任一非叶节点为根节点的子树中所有路径的数量,确定所述任一非叶节点的权重。
图5是本发明提供的电子设备的结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、存储器(memory)520、通信接口(Communications Interface)530和通信总线540,其中,处理器510,存储器520,通信接口530通过通信总线540完成相互间的通信。处理器510可以调用存储器520中的逻辑指令,以执行基于URL的网络接口聚类方法,该方法包括:基于多个待聚类URL地址,构建一个字典树;基于所述字典树的每条完整路径,构建各个完整路径对应的特征向量,并基于各个完整路径对应的特征向量进行聚类,得到各个类簇;任一完整路径对应的特征向量包括所述任一完整路径的长度以及各个非叶节点的前缀信息、子树信息和深度信息;基于任一类簇中的多个完整路径,确定所述任一类簇中各个完整路径组的变化区域,并基于各个完整路径组的变化区域,确定所述任一类簇对应的精细匹配区域;基于所述任一类簇对应的精细匹配区域,确定所述任一类簇中的多个完整路径的待匹配字符串,对所述任一类簇中的多个完整路径的待匹配字符串进行匹配,得到所述任一类簇中多个完整路径之间的匹配结果,并基于所述任一类簇中多个完整路径之间的匹配结果进行聚合,得到所述任一类簇中多个完整路径对应的待聚类URL地址的网络接口聚类结果。
此外,上述的存储器520中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的基于URL的网络接口聚类方法,该方法包括:基于多个待聚类URL地址,构建一个字典树;基于所述字典树的每条完整路径,构建各个完整路径对应的特征向量,并基于各个完整路径对应的特征向量进行聚类,得到各个类簇;任一完整路径对应的特征向量包括所述任一完整路径的长度以及各个非叶节点的前缀信息、子树信息和深度信息;基于任一类簇中的多个完整路径,确定所述任一类簇中各个完整路径组的变化区域,并基于各个完整路径组的变化区域,确定所述任一类簇对应的精细匹配区域;基于所述任一类簇对应的精细匹配区域,确定所述任一类簇中的多个完整路径的待匹配字符串,对所述任一类簇中的多个完整路径的待匹配字符串进行匹配,得到所述任一类簇中多个完整路径之间的匹配结果,并基于所述任一类簇中多个完整路径之间的匹配结果进行聚合,得到所述任一类簇中多个完整路径对应的待聚类URL地址的网络接口聚类结果。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的基于URL的网络接口聚类方法,该方法包括:基于多个待聚类URL地址,构建一个字典树;基于所述字典树的每条完整路径,构建各个完整路径对应的特征向量,并基于各个完整路径对应的特征向量进行聚类,得到各个类簇;任一完整路径对应的特征向量包括所述任一完整路径的长度以及各个非叶节点的前缀信息、子树信息和深度信息;基于任一类簇中的多个完整路径,确定所述任一类簇中各个完整路径组的变化区域,并基于各个完整路径组的变化区域,确定所述任一类簇对应的精细匹配区域;基于所述任一类簇对应的精细匹配区域,确定所述任一类簇中的多个完整路径的待匹配字符串,对所述任一类簇中的多个完整路径的待匹配字符串进行匹配,得到所述任一类簇中多个完整路径之间的匹配结果,并基于所述任一类簇中多个完整路径之间的匹配结果进行聚合,得到所述任一类簇中多个完整路径对应的待聚类URL地址的网络接口聚类结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种基于URL的网络接口聚类方法,其特征在于,包括:
基于多个待聚类URL地址,构建一个字典树;
基于所述字典树的每条完整路径,构建各个完整路径对应的特征向量,并基于各个完整路径对应的特征向量进行聚类,得到各个类簇;任一完整路径对应的特征向量包括所述任一完整路径的长度以及各个非叶节点的前缀信息、子树信息和深度信息;
基于任一类簇中的多个完整路径,确定所述任一类簇中各个完整路径组的变化区域,并基于各个完整路径组的变化区域,确定所述任一类簇对应的精细匹配区域;
基于所述任一类簇对应的精细匹配区域,确定所述任一类簇中的多个完整路径的待匹配字符串,对所述任一类簇中的多个完整路径的待匹配字符串进行匹配,得到所述任一类簇中多个完整路径之间的匹配结果,并基于所述任一类簇中多个完整路径之间的匹配结果进行聚合,得到所述任一类簇中多个完整路径对应的待聚类URL地址的网络接口聚类结果;
所述基于各个完整路径组的变化区域,确定所述任一类簇对应的精细匹配区域,具体包括:
基于所述任一类簇中各个完整路径组的变化区域,确定最大变化区域内各位置的重合程度;其中,最大变化区域是所述任一类簇中各个完整路径组的变化区域中的最大区域,所述最大变化区域内任一位置的重合程度是所述任一类簇的各个完整路径中所述任一位置最频繁出现的字符串的出现次数与所述任一类簇中完整路径的总数之间的比值;
基于所述最大变化区域内各位置的重合程度以及各位置的语义强度,确定最大变化区域内各位置属于所述任一类簇对应的精细匹配区域的概率;
基于所述最大变化区域内各位置属于所述任一类簇对应的精细匹配区域的概率,确定所述任一类簇对应的精细匹配区域。
2.根据权利要求1所述的基于URL的网络接口聚类方法,其特征在于,所述最大变化区域内任一位置属于所述任一类簇对应的精细匹配区域的概率P是基于如下公式确定的:
P = α × C+ β × S
其中,α和β为预设的权重系数,且α<β,C为所述任一位置的重合程度,S为所述任一位置的语义强度。
3.根据权利要求2所述的基于URL的网络接口聚类方法,其特征在于,任一位置的语义强度是基于所述任一类簇的各个完整路径中所述任一位置出现的字符串在样本URL集合里出现的频率以及所述任一位置与所述最大变化区域的终点的距离确定的;基于所述任一类簇的各个完整路径中所述任一位置出现的字符串在样本URL集合里出现的频率越高或者所述任一位置与所述最大变化区域的终点的距离越近,则所述任一位置的语义强度越高。
4.根据权利要求1所述的基于URL的网络接口聚类方法,其特征在于,所述对所述任一类簇中的多个完整路径的待匹配字符串进行匹配,得到所述任一类簇中多个完整路径之间的匹配结果,具体包括:
若所述任一类簇对应的精细匹配区域包括多个位置,则针对所述任一类簇中的任意两个完整路径,将所述任意两个完整路径中对应所述精细匹配区域的同一位置的待匹配字符串进行匹配,得到所述任意两个完整路径中各个待匹配字符串的字符串匹配结果;
基于所述任意两个完整路径中各个待匹配字符串的字符串匹配结果,确定所述任意两个完整路径之间的匹配结果。
5.根据权利要求1所述的基于URL的网络接口聚类方法,其特征在于,任一完整路径对应的特征向量是基于如下步骤构建的:
获取所述字典树中最长的完整路径的节点数量;
确定所述任一完整路径的长度以及各个非叶节点的前缀信息、子树信息和深度信息;
针对所述任一完整路径的任一非叶节点,利用预训练的语言模型获取所述任一非叶节点的前缀信息的前缀向量以及子树信息的子树向量,并将所述任一非叶节点的前缀向量、子树向量和深度信息拼接为所述任一非叶节点的非叶节点向量;
当所述任一完整路径的长度小于所述字典树中最长的完整路径的节点数量时,将所述任一完整路径的长度和各个非叶节点的非叶节点向量拼接后,拼接若干个填充非叶节点向量,得到所述任一完整路径对应的特征向量;其中,所述填充非叶节点向量的维度与任一非叶节点的非叶节点向量的维度相同;
当所述任一完整路径的长度等于所述字典树中最长的完整路径的节点数量时,将所述任一完整路径的长度和各个非叶节点的非叶节点向量拼接,得到所述任一完整路径对应的特征向量。
6.根据权利要求5所述的基于URL的网络接口聚类方法,其特征在于,所述将所述任一完整路径的长度和各个非叶节点的非叶节点向量拼接,具体包括:
基于所述任一完整路径中各个非叶节点的权重,将所述任一完整路径的长度和各个非叶节点的非叶节点向量拼接;
其中,所述任一完整路径中任一非叶节点的权重是基于如下步骤确定的:
确定所述任一非叶节点在所述字典树中的深度;
确定所述字典树中以所述任一非叶节点为根节点的子树,并计算所述以所述任一非叶节点为根节点的子树中所有路径的数量;
基于所述任一非叶节点在所述字典树中的深度以及所述以所述任一非叶节点为根节点的子树中所有路径的数量,确定所述任一非叶节点的权重。
7.一种基于URL的网络接口聚类装置,其特征在于,包括:
字典树构建单元,用于基于多个待聚类URL地址,构建一个字典树;
初次聚类单元,用于基于所述字典树的每条完整路径,构建各个完整路径对应的特征向量,并基于各个完整路径对应的特征向量进行聚类,得到各个类簇;任一完整路径对应的特征向量包括所述任一完整路径的长度以及各个非叶节点的前缀信息、子树信息和深度信息;
精细匹配区域确定单元,用于基于任一类簇中的多个完整路径,确定所述任一类簇中各个完整路径组的变化区域,并基于各个完整路径组的变化区域,确定所述任一类簇对应的精细匹配区域;
二次聚类单元,用于基于所述任一类簇对应的精细匹配区域,确定所述任一类簇中的多个完整路径的待匹配字符串,对所述任一类簇中的多个完整路径的待匹配字符串进行匹配,得到所述任一类簇中多个完整路径之间的匹配结果,并基于所述任一类簇中多个完整路径之间的匹配结果进行聚合,得到所述任一类簇中多个完整路径对应的待聚类URL地址的网络接口聚类结果;
所述基于各个完整路径组的变化区域,确定所述任一类簇对应的精细匹配区域,具体包括:
基于所述任一类簇中各个完整路径组的变化区域,确定最大变化区域内各位置的重合程度;其中,最大变化区域是所述任一类簇中各个完整路径组的变化区域中的最大区域,所述最大变化区域内任一位置的重合程度是所述任一类簇的各个完整路径中所述任一位置最频繁出现的字符串的出现次数与所述任一类簇中完整路径的总数之间的比值;
基于所述最大变化区域内各位置的重合程度以及各位置的语义强度,确定最大变化区域内各位置属于所述任一类簇对应的精细匹配区域的概率;
基于所述最大变化区域内各位置属于所述任一类簇对应的精细匹配区域的概率,确定所述任一类簇对应的精细匹配区域。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述基于URL的网络接口聚类方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于URL的网络接口聚类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410205392.9A CN117828382B (zh) | 2024-02-26 | 2024-02-26 | 基于url的网络接口聚类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410205392.9A CN117828382B (zh) | 2024-02-26 | 2024-02-26 | 基于url的网络接口聚类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117828382A CN117828382A (zh) | 2024-04-05 |
CN117828382B true CN117828382B (zh) | 2024-05-10 |
Family
ID=90513825
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410205392.9A Active CN117828382B (zh) | 2024-02-26 | 2024-02-26 | 基于url的网络接口聚类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117828382B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016201819A1 (zh) * | 2015-06-19 | 2016-12-22 | 安一恒通(北京)科技有限公司 | 检测恶意文件的方法和装置 |
CN109271462A (zh) * | 2018-11-23 | 2019-01-25 | 河北航天信息技术有限公司 | 一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法 |
CN109299747A (zh) * | 2018-10-24 | 2019-02-01 | 北京字节跳动网络技术有限公司 | 一种类簇中心的确定方法、装置、计算机设备及存储介质 |
CN112231481A (zh) * | 2020-10-26 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 网址的分类方法、装置、计算机设备和存储介质 |
CN115934852A (zh) * | 2022-11-17 | 2023-04-07 | 河北航天信息技术有限公司 | 税务注册地址时空聚类方法、装置、服务器及存储介质 |
CN116561389A (zh) * | 2023-05-15 | 2023-08-08 | 中国银联股份有限公司 | 一种文本匹配方法、装置、设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10671936B2 (en) * | 2017-04-06 | 2020-06-02 | Universite Paris Descartes | Method for clustering nodes of a textual network taking into account textual content, computer-readable storage device and system implementing said method |
CN111125495A (zh) * | 2019-12-19 | 2020-05-08 | 京东方科技集团股份有限公司 | 一种信息推荐方法、设备及存储介质 |
-
2024
- 2024-02-26 CN CN202410205392.9A patent/CN117828382B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016201819A1 (zh) * | 2015-06-19 | 2016-12-22 | 安一恒通(北京)科技有限公司 | 检测恶意文件的方法和装置 |
CN109299747A (zh) * | 2018-10-24 | 2019-02-01 | 北京字节跳动网络技术有限公司 | 一种类簇中心的确定方法、装置、计算机设备及存储介质 |
CN109271462A (zh) * | 2018-11-23 | 2019-01-25 | 河北航天信息技术有限公司 | 一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法 |
CN112231481A (zh) * | 2020-10-26 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 网址的分类方法、装置、计算机设备和存储介质 |
CN115934852A (zh) * | 2022-11-17 | 2023-04-07 | 河北航天信息技术有限公司 | 税务注册地址时空聚类方法、装置、服务器及存储介质 |
CN116561389A (zh) * | 2023-05-15 | 2023-08-08 | 中国银联股份有限公司 | 一种文本匹配方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
XML结构聚类;郝晓丽, 冯志勇;计算机应用;20050628(第06期);全文 * |
一种改进的树路径模型在网页聚类中的研究;王亚普;王志坚;叶枫;;计算机科学;20150515(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117828382A (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113259972B (zh) | 基于无线通信网络数据仓库构建方法、系统、设备及介质 | |
CN108959370B (zh) | 一种基于知识图谱中实体相似度的社区发现方法及装置 | |
CN111581092B (zh) | 仿真测试数据的生成方法、计算机设备及存储介质 | |
CN112650833A (zh) | Api匹配模型建立方法及跨城市政务api匹配方法 | |
CN113408660B (zh) | 图书聚类方法、装置、设备和存储介质 | |
CN112822121A (zh) | 流量识别方法、流量确定方法、知识图谱建立方法 | |
CN111930949B (zh) | 搜索串处理方法、装置、计算机可读介质及电子设备 | |
CN117828382B (zh) | 基于url的网络接口聚类方法及装置 | |
CN113821630A (zh) | 一种数据聚类的方法和装置 | |
CN113806647A (zh) | 识别开发框架的方法及相关设备 | |
CN114925286B (zh) | 舆情数据处理方法及装置 | |
CN109101595B (zh) | 一种信息查询方法、装置、设备及计算机可读存储介质 | |
CN112711678A (zh) | 数据解析方法、装置、设备及存储介质 | |
CN115859932A (zh) | 一种日志模板提取方法、装置、电子设备及存储介质 | |
CN113468866B (zh) | 非标准json串的解析方法及装置 | |
CN115131058A (zh) | 账号识别方法、装置、设备及存储介质 | |
CN115392238A (zh) | 一种设备识别方法、装置、设备及可读存储介质 | |
CN116362955A (zh) | 图数据存储、访问、处理方法、训练方法、设备及介质 | |
CN114726570A (zh) | 一种基于图模型的主机流量异常检测方法及装置 | |
CN112632229A (zh) | 文本聚类方法及装置 | |
CN112750047A (zh) | 行为关系信息提取方法及装置、存储介质、电子设备 | |
CN117725555B (zh) | 多源知识树的关联融合方法、装置、电子设备及存储介质 | |
CN114281830B (zh) | 多属性条件的规则映射表构建方法、规则匹配方法和装置 | |
CN117729176B (zh) | 基于网络地址和响应体的应用程序接口聚合方法及装置 | |
CN110674390B (zh) | 基于置信度的群体发现方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |