CN104281703A - 统一资源定位符url间相似度计算的方法及装置 - Google Patents
统一资源定位符url间相似度计算的方法及装置 Download PDFInfo
- Publication number
- CN104281703A CN104281703A CN201410568402.1A CN201410568402A CN104281703A CN 104281703 A CN104281703 A CN 104281703A CN 201410568402 A CN201410568402 A CN 201410568402A CN 104281703 A CN104281703 A CN 104281703A
- Authority
- CN
- China
- Prior art keywords
- url
- characteristic parameter
- similarity
- default characteristic
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
Abstract
本公开是关于统一资源定位符URL间相似度计算的方法及装置,用于提高URL间相似度计算的准确性。所述方法包括:对应于URL的各个预设特征参量,根据URL中对应于所述预设特征参量的特征参量值,计算URL间对应于所述预设特征参量的相似度分量;根据各个预设特征参量对应的预设权重值,将所述URL间对应于各个预设特征参量的相似度分量,进行加权求和,得到所述URL间相似度。本公开能够利用多个维度计算URL间相似度,提高了URL间相似度的准确性。
Description
技术领域
本公开涉及计算机网络技术领域,尤其涉及统一资源定位符URL间相似度计算的方法及装置。
背景技术
相关技术中,计算统一资源定位符URL间相似度的方法为:将URL当成字符串,按字符串间相似度的计算方法计算URL间相似度。例如,按编辑距离算法或最长公共子串算法计算两个字符串间相似度,以该计算所得相似度作为URL间相似度。其中,编辑距离算法是根据两个字符串之间,由一个转成另一个所需的最少编辑操作次数,计算字符串间相似度;最长公共子串算法是根据两个字符串间最长的相同子串,计算字符串间相似度。相关技术中计算URL间相似度的方法的缺陷在于:所计算的相似度不够准确。例如,URL1为www.miui.com/music/123.html,URL 2为www.miui.com/music/456.html,URL 3为www.miui.com/music/abc.html,按相关技术,该3个URL相互间的相似度相同,但是,事实上,URL1和URL2间的相似度大于,URL 3与URL1间的相似度。
发明内容
为克服相关技术中存在的问题,本公开实施例提供统一资源定位符URL间相似度计算的方法,用于提高URL间相似度计算的准确性。
根据本公开实施例的第一方面,提供一种统一资源定位符URL间相似度计算的方法,其特征在于,包括:
对应于URL的各个预设特征参量,根据URL中对应于所述预设特征参量的特征参量值,计算URL间对应于所述预设特征参量的相似度分量;
根据各个预设特征参量对应的预设权重值,将所述URL间对应于各个预设特征参量的相似度分量,进行加权求和,得到所述URL间相似度。
在一实施例中,方法还可包括:
判断所述URL间相似度是否大于预设阈值;
当所述URL间相似度大于预设阈值时,判定所述URL相似。
在一实施例中,所述根据URL中对应于所述预设特征参量的特征参量值,计算URL间对应于所述预设特征参量的相似度分量,可包括:
判断URL中对应于所述预设特征参量的特征参量值是否相同;
当URL中所述特征参量值相同时,确定URL间对应于所述预设特征参量的相似度分量为第一预设值;
当URL中所述特征参量值不相同时,确定URL间对应于所述预设特征参量的相似度分量为第二预设值;
所述第一预设值大于所述第二预设值。
在一实施例中,当所述预设特征参量的类型为字符串时,所述根据URL中对应于所述预设特征参量的特征参量值,计算URL间对应于所述预设特征参量的相似度分量,可包括:
利用编辑距离算法或最长公共子串算法,根据URL中对应于所述预设特征参量的字符串,计算URL间对应于所述预设特征参量的相似度分量;或者
根据URL中对应于所述预设特征参量的字符串中字符的类型,计算URL间对应于所述预设特征参量的相似度分量。
在一实施例中,所述预设特征参量包括:站点名称参量、目录深度参量、一级目录参量、二级目录参量和/或尾部页面参量。
根据本公开实施例的第二方面,提供一种统一资源定位符URL间相似度计算的装置,包括:
计算模块,用于对应于URL的各个预设特征参量,根据URL中对应于所述预设特征参量的特征参量值,计算URL间对应于所述预设特征参量的相似度分量;
加权求和模块,用于根据各个预设特征参量对应的预设权重值,将所述URL间对应于各个预设特征参量的相似度分量,进行加权求和,得到所述URL间相似度。
在一实施例中,所述装置还可包括:
判断模块,用于判断所述URL间相似度是否大于预设阈值;
判定模块,用于当所述URL间相似度大于预设阈值时,判定所述URL相似。
在一实施例中,所述计算模块,可包括:
判断子模块,用于判断URL中对应于所述预设特征参量的特征参量值是否相同;
第一确定子模块,用于当URL中所述特征参量值相同时,确定URL间对应于所述预设特征参量的相似度分量为第一预设值;
第二确定子模块,用于当URL中所述特征参量值不相同时,确定URL间对应于所述预设特征参量的相似度分量为第二预设值;
所述第一预设值大于所述第二预设值。
在一实施例中,所述计算模块,可包括
第一计算子模块,用于当所述预设特征参量的类型为字符串时,利用编辑距离算法或最长公共子串算法,根据URL中对应于所述预设特征参量的字符串,计算URL间对应于所述预设特征参量的相似度分量;或者
第二计算子模块,用于当所述预设特征参量的类型为字符串时,根据URL中对应于所述预设特征参量的字符串中字符的类型,计算URL间对应于所述预设特征参量的相似度分量。
在一实施例中,所述预设特征参量可包括:站点名称参量、目录深度参量、一级目录参量、二级目录参量和/或尾部页面参量。
根据本公开实施例的第三方面,提供一种统一资源定位符URL间相似度计算的装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
对应于URL的各个预设特征参量,根据URL中对应于所述预设特征参量的特征参量值,计算URL间对应于所述预设特征参量的相似度分量;
根据各个预设特征参量对应的预设权重值,将所述URL间对应于各个预设特征参量的相似度分量,进行加权求和,得到所述URL间相似度。
本公开的实施例提供的技术方案可以包括以下有益效果:根据URL的多个预设特征参量,计算URL间相似度,能够利用多个维度计算URL间相似度,提高了URL间相似度的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的URL间相似度计算的方法的流程图。
图2是根据一示例性实施例示出的URL间相似度计算的方法的流程图。
图3是根据一示例性实施例一示出的URL间相似度计算的方法的流程图。
图4是根据一示例性实施例示出的一种URL间相似度计算的装置的框图。
图5是根据一示例性实施例示出的另一种URL间相似度计算的装置的框图。
图6是根据一示例性实施例示出的另一种URL间相似度计算的装置的框图。
图7是根据一示例性实施例示出的一种适用于URL间相似度计算的装置的框图(终端设备的一般结构)。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种URL间相似度计算的方法的流程图;如图1所示,该URL间相似度计算的方法用于多种设备如手机、个人电脑、服务器、路由器中,包括以下步骤S101-S102:
在步骤S101中、对应于URL的各个预设特征参量,根据URL中对应于预设特征参量的特征参量值,计算URL间对应于预设特征参量的相似度分量。
举例而言,预设特征参量可包括:站点名称参量、目录深度参量、一级目录参量、二级目录参量、以及尾部页面参量。
在一实施例中,上述步骤S101可包括如下步骤A1-A3:
在步骤A1中、判断URL中对应于预设特征参量的特征参量值是否相同。
在步骤A2中、当URL中特征参量值相同时,确定URL间对应于预设特征参量的相似度分量为第一预设值。
在步骤A3中、当URL中特征参量值不相同时,确定URL间对应于预设特征参量的相似度分量为第二预设值。
其中,第一预设值大于第二预设值。
上述的预设特征参量可以是字符串类型,也可以是整数类型。
举例而言,预设特征参量包括尾部页面参量和目录深度参量,尾部页面参量为字符串类型,目录深度参量为整数类型。针对尾部页面参量,判断URL中对应于尾部页面参量的字符串是否相同,如果相同,则URL间对应于尾部页面参量的相似度分量为1,如果不相同,则URL间对应于尾部页面参量的相似度分量为0。针对目录深度参量,判断URL中对应于目录深度参量的数值是否相同,如果相同,则URL间对应于目录深度参量的相似度分量为1,如果不相同,则URL间对应于目录深度参量的相似度分量为0。例如,
URL1为www.miui.com/music/artist/1234.html,
URL2为www.miui.com/photo/picture/abcd.html
针对尾部页面参量,URL1和URL2中对应于尾部页面参量的字符串分别为“1234.html”和“abcd.html”,两者不相同,URL1和URL2间对应于尾部页面参量的相似度分量为0;URL1和URL2中对应于目录深度参量的数值都为3,两者相同,URL1和URL2间对应于目录深度参量的相似度分量为1。
在一实施例中,当预设特征参量的类型为字符串时,上述步骤S101可包括:利用编辑距离算法或最长公共子串算法,根据URL中对应于预设特征参量的字符串,计算URL间对应于预设特征参量的相似度分量。
例如,针对尾部页面参量,URL1和URL2中对应于尾部页面参量的字符串分别为“1234.html”和“abcd.html”,利用编辑距离算法或最长公共子串算法,计算字符串“1234.html”和“abcd.html”间相似度,将计算所得的字符串间相似度作为URL1和URL2间对应于尾部页面参量的相似度分量。
在一实施例中,当预设特征参量的类型为字符串时,上述步骤S101可包括:根据URL中对应于预设特征参量的字符串中字符的类型,计算URL间对应于预设特征参量的相似度分量。
举例而言,上述步骤S101可实现为:判断URL中对应于预设特征参量的字符串中字符的类型是否相同;当URL中对应于预设特征参量的字符串中字符的类型相同时,URL间对应于预设特征参量的相似度分量为第三预设值;当URL中对应于预设特征参量的字符串中字符的类型不相同时,URL间对应于预设特征参量的相似度分量为第四预设值。其中,第三预设值大于第四预设值。
例如,URL1和URL2中对应于尾部页面参量的字符串分别为“1234.html”和“abcd.html”,URL1和URL2中对应于尾部页面参量的字符串中字符的类型分别为数字和字母,两者不相同,URL1和URL2间对应于尾部页面参量的相似度分量为0。
在步骤S102中、根据各个预设特征参量对应的预设权重值,将URL间对应于各个预设特征参量的相似度分量,进行加权求和,得到URL间相似度。
举例而言,预设特征参量包括:站点名称特征参量、目录深度特征参量、一级目录特征参量、以及尾部页面特征参量;对应的URL间相似度分量分别为F1、F2、F3和F4;设置预设特征参量对应的预设权重值,分别为W1、W2、W3和W4。URL间相似度=F1×W1+F2×W2+F3×W3+F4×W4。其中,可根据预设特征参量是否需要被考量,将预设权重值设置为1或0;也可根据预设特征参量的重要性,将预设权重值设置为百分比,例如,W1、W2、W3和W4分别为10%、10%、20%、和60%。
本公开的实施例提供的技术方案可以包括以下有益效果:根据URL的多个预设特征参量,计算URL间相似度,能够利用多个维度计算URL间相似度,提高了URL间相似度的准确性。
图2是根据一示例性实施例示出的一种URL间相似度计算的方法的流程图;如图2所示,该URL间相似度计算的方法用于多种设备如手机、个人电脑、服务器、路由器中,包括以下步骤S201-S204:
在步骤S201中、对应于URL的各个预设特征参量,根据URL中对应于预设特征参量的特征参量值,计算URL间对应于预设特征参量的相似度分量。
在步骤S202中、根据各个预设特征参量对应的预设权重值,将URL间对应于各个预设特征参量的相似度分量,进行加权求和,得到URL间相似度。
在步骤S203中、判断URL间相似度是否大于预设阈值。
在步骤S204中、当URL间相似度大于预设阈值时,判定URL相似。
举例而言,URL1与URL2间相似度大于预设阈值,则判定URL1与URL2相似。
本公开的实施例提供的技术方案可以包括以下有益效果:根据计算所得的URL间相似度,判断两个URL是否相似,进而能够查找出给定URL的相似URL。
实施例一
图3是根据一示例性实施例一示出的一种URL间相似度计算的方法的流程图;实施例一应用在如下场景:预设特征参量包括:站点名称参量、目录深度参量、一级目录参量、以及尾部页面参量,计算URL1和URL2间相似度;其中,URL1为www.miui.com/music/artist/1234.html,URL2为www.miui.com/photo/picture/abcd.html。如图3所示,该URL间相似度计算的方法用于服务器中,包括以下步骤:
在步骤S301中、对应于URL的站点名称参量,判断URL1和URL2中对应于站点名称参量的字符串是否相同。
其中,URL1和URL2中对应于站点名称参量的字符串都为www.miui.com,两者相同。
在步骤S302中、判定URL1和URL2中对应于站点名称参量的字符串相同,得出URL1和URL2间对应于站点名称参量的相似度分量为1。
在步骤S303中、对应于URL的目录深度参量,判断URL1和URL2中对应于目录深度参量的数值是否相同。
其中,URL1和URL2中对应于目录深度参量的数值都为3,两者相同。
在步骤S304中、判定URL1和URL2中对应于目录深度参量的数值相同,得出URL1和URL2间对应于目录深度参量的相似度分量为1。
在步骤S305中、对应于URL的一级目录参量,利用最长公共子串算法得出URL1和URL2中对应于一级目录参量的相似度分量为0。
其中,URL1和URL2中对应于一级目录参量的字符串分别为“music”和“photo”,两者没有公共子串。
在步骤S306中、对应于URL的尾部页面参量,判断URL1和URL2中对应于尾部页面参量的字符串中字符类型是否相同。
其中,URL1和URL2中对应于尾部页面参量的字符串分别为“1234.html”和“abcd.html”,两者的字符类型分别为数字和字母,两者的字符类型不相同。
在步骤S307中、判定URL1和URL2中对应于尾部页面参量的字符串中字符类型不相同,得出URL1和URL2间对应于尾部页面参量的相似度分量为0。
在步骤S308中、根据各个预设特征参量对应的预设权重值,将URL间对应于各个预设特征参量的相似度分量,进行加权求和,得到URL间相似度。
站点名称参量、目录深度参量、一级目录参量、以及尾部页面参量对应的预设权重值,分别为10%、10%、20%、和60%。根据该些预设权重值,将URL间对应于各个预设特征参量的相似度分量,加权求和,得到URL1与URL2间相似度为1×10%+1×10%+0×20%+0×60%=0.2。
在步骤S309中、判断URL1和URL2间相似度是否大于预设阈值0.5。
在步骤S310中、判定URL1和URL2间相似度小于预设阈值0.5,确定URL1和URL2不相似。
实施例一提供的技术方案可以包括以下有益效果:根据URL的多个预设特征参量,计算URL间相似度,能够利用多个维度计算URL间相似度,提高了URL间相似度的准确性;根据计算所得的URL间相似度,能够判断两个URL是否相似。
图4是根据一示例性实施例示出的URL间相似度计算的装置的框图。如图4所示,该URL间相似度计算的装置用于多种设备如手机、个人电脑、服务器、路由器中,包括:
计算模块41被配置为对应于URL的各个预设特征参量,根据URL中对应于预设特征参量的特征参量值,计算URL间对应于预设特征参量的相似度分量;
加权求和模块42被配置为根据各个预设特征参量对应的预设权重值,将URL间对应于各个预设特征参量的相似度分量,进行加权求和,得到URL间相似度。
在一实施例中,如图5所示,装置还可包括:
判断模块51被配置为判断URL间相似度是否大于预设阈值;
判定模块52被配置为当URL间相似度大于预设阈值时,判定URL相似。
在一实施例中,如图6所示,计算模块42,可包括:
判断子模块61被配置为判断URL中对应于预设特征参量的特征参量值是否相同;
第一确定子模块62被配置为当URL中特征参量值相同时,确定URL间对应于预设特征参量的相似度分量为第一预设值;
第二确定子模块63被配置为当URL中特征参量值不相同时,确定URL间对应于预设特征参量的相似度分量为第二预设值;
第一预设值大于第二预设值。
在一实施例中,计算模块,可包括:
第一计算子模块被配置为当预设特征参量的类型为字符串时,利用编辑距离算法或最长公共子串算法,根据URL中对应于预设特征参量的字符串,计算URL间对应于预设特征参量的相似度分量;或者
第二计算子模块被配置为当预设特征参量的类型为字符串时,根据URL中对应于预设特征参量的字符串中字符的类型,计算URL间对应于预设特征参量的相似度分量。
在一实施例中,预设特征参量包括:站点名称参量、目录深度参量、一级目录参量、二级目录参量和/或尾部页面参量。
本公开的实施例提供的技术方案可以包括以下有益效果:根据URL的多个预设特征参量,计算URL间相似度,能够利用多个维度计算URL间相似度,提高了URL间相似度的准确性。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图7是根据一示例性实施例示出的一种用于URL间相似度计算的装置1200的框图,该装置适用于终端设备。例如,装置1200可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图7,装置1200可以包括以下一个或多个组件:处理组件1202,存储器1204,电源组件1206,多媒体组件1208,音频组件1210,输入/输出(I/O)的接口1212,传感器组件1214,以及通信组件1216。
处理组件1202通常控制装置1200的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件1202可以包括一个或多个处理器1220来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件1202可以包括一个或多个模块,便于处理组件1202和其他组件之间的交互。例如,处理部件1202可以包括多媒体模块,以方便多媒体组件1208和处理组件1202之间的交互。
存储器1204被配置为存储各种类型的数据以支持在设备1200的操作。这些数据的示例包括用于在装置1200上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件1206为装置1200的各种组件提供电力。电力组件1206可以包括电源管理系统,一个或多个电源,及其他与为装置1200生成、管理和分配电力相关联的组件。
多媒体组件1208包括在所述装置1200和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1208包括一个前置摄像头和/或后置摄像头。当设备1200处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件1210被配置为输出和/或输入音频信号。例如,音频组件1210包括一个麦克风(MIC),当装置1200处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1204或经由通信组件1216发送。在一些实施例中,音频组件1210还包括一个扬声器,用于输出音频信号。
I/O接口1212为处理组件1202和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件1214包括一个或多个传感器,用于为装置1200提供各个方面的状态评估。例如,传感器组件1214可以检测到设备1200的打开/关闭状态,组件的相对定位,例如所述组件为装置1200的显示器和小键盘,传感器组件1214还可以检测装置1200或装置1200一个组件的位置改变,用户与装置1200接触的存在或不存在,装置1200方位或加速/减速和装置1200的温度变化。传感器组件1214可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1214还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1214还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件1216被配置为便于装置1200和其他设备之间有线或无线方式的通信。装置1200可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件1216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件1216还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置1200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1204,上述指令可由装置1200的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种URL间相似度计算的装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,处理器被配置为:
对应于URL的各个预设特征参量,根据URL中对应于所述预设特征参量的特征参量值,计算URL间对应于所述预设特征参量的相似度分量;
根据各个预设特征参量对应的预设权重值,将所述URL间对应于各个预设特征参量的相似度分量,进行加权求和,得到所述URL间相似度。
该处理器还被配置为:判断所述URL间相似度是否大于预设阈值;
当所述URL间相似度大于预设阈值时,判定所述URL相似。
该处理器被配置为:判断URL中对应于所述预设特征参量的特征参量值是否相同;当URL中所述特征参量值相同时,确定URL间对应于所述预设特征参量的相似度分量为第一预设值;当URL中所述特征参量值不相同时,确定URL间对应于所述预设特征参量的相似度分量为第二预设值;所述第一预设值大于所述第二预设值。
该处理器被配置为:当所述预设特征参量的类型为字符串时,利用编辑距离算法或最长公共子串算法,根据URL中对应于所述预设特征参量的字符串,计算URL间对应于所述预设特征参量的相似度分量;或者
根据URL中对应于所述预设特征参量的字符串中字符的类型,计算URL间对应于所述预设特征参量的相似度分量。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种URL间相似度计算的方法,所述方法包括:
对应于URL的各个预设特征参量,根据URL中对应于所述预设特征参量的特征参量值,计算URL间对应于所述预设特征参量的相似度分量;
根据各个预设特征参量对应的预设权重值,将所述URL间对应于各个预设特征参量的相似度分量,进行加权求和,得到所述URL间相似度。
所述方法还可包括:
判断所述URL间相似度是否大于预设阈值;
当所述URL间相似度大于预设阈值时,判定所述URL相似。
所述根据URL中对应于所述预设特征参量的特征参量值,计算URL间对应于所述预设特征参量的相似度分量,可包括:
判断URL中对应于所述预设特征参量的特征参量值是否相同;
当URL中所述特征参量值相同时,确定URL间对应于所述预设特征参量的相似度分量为第一预设值;
当URL中所述特征参量值不相同时,确定URL间对应于所述预设特征参量的相似度分量为第二预设值;
所述第一预设值大于所述第二预设值。
当所述预设特征参量的类型为字符串时,所述根据URL中对应于所述预设特征参量的特征参量值,计算URL间对应于所述预设特征参量的相似度分量,可包括:
利用编辑距离算法或最长公共子串算法,根据URL中对应于所述预设特征参量的字符串,计算URL间对应于所述预设特征参量的相似度分量;或者
根据URL中对应于所述预设特征参量的字符串中字符的类型,计算URL间对应于所述预设特征参量的相似度分量。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (11)
1.一种统一资源定位符URL间相似度计算的方法,其特征在于,包括:
对应于URL的各个预设特征参量,根据URL中对应于所述预设特征参量的特征参量值,计算URL间对应于所述预设特征参量的相似度分量;
根据各个预设特征参量对应的预设权重值,将所述URL间对应于各个预设特征参量的相似度分量,进行加权求和,得到所述URL间相似度。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
判断所述URL间相似度是否大于预设阈值;
当所述URL间相似度大于预设阈值时,判定所述URL相似。
3.如权利要求1所述的方法,其特征在于,
所述根据URL中对应于所述预设特征参量的特征参量值,计算URL间对应于所述预设特征参量的相似度分量,包括:
判断URL中对应于所述预设特征参量的特征参量值是否相同;
当URL中所述特征参量值相同时,确定URL间对应于所述预设特征参量的相似度分量为第一预设值;
当URL中所述特征参量值不相同时,确定URL间对应于所述预设特征参量的相似度分量为第二预设值;
所述第一预设值大于所述第二预设值。
4.如权利要求1所述的方法,其特征在于,
当所述预设特征参量的类型为字符串时,所述根据URL中对应于所述预设特征参量的特征参量值,计算URL间对应于所述预设特征参量的相似度分量,包括:
利用编辑距离算法或最长公共子串算法,根据URL中对应于所述预设特征参量的字符串,计算URL间对应于所述预设特征参量的相似度分量;或者
根据URL中对应于所述预设特征参量的字符串中字符的类型,计算URL间对应于所述预设特征参量的相似度分量。
5.如权利要求1所述的方法,其特征在于,
所述预设特征参量包括:站点名称参量、目录深度参量、一级目录参量、二级目录参量和/或尾部页面参量。
6.一种统一资源定位符URL间相似度计算的装置,其特征在于,包括:
计算模块,用于对应于URL的各个预设特征参量,根据URL中对应于所述预设特征参量的特征参量值,计算URL间对应于所述预设特征参量的相似度分量;
加权求和模块,用于根据各个预设特征参量对应的预设权重值,将所述URL间对应于各个预设特征参量的相似度分量,进行加权求和,得到所述URL间相似度。
7.如权利要求6所述的装置,其特征在于,所述装置还包括:
判断模块,用于判断所述URL间相似度是否大于预设阈值;
判定模块,用于当所述URL间相似度大于预设阈值时,判定所述URL相似。
8.如权利要求6所述的装置,其特征在于,
所述计算模块,包括:
判断子模块,用于判断URL中对应于所述预设特征参量的特征参量值是否相同;
第一确定子模块,用于当URL中所述特征参量值相同时,确定URL间对应于所述预设特征参量的相似度分量为第一预设值;
第二确定子模块,用于当URL中所述特征参量值不相同时,确定URL间对应于所述预设特征参量的相似度分量为第二预设值;
所述第一预设值大于所述第二预设值。
9.如权利要求6所述的装置,其特征在于,
所述计算模块,包括
第一计算子模块,用于当所述预设特征参量的类型为字符串时,利用编辑距离算法或最长公共子串算法,根据URL中对应于所述预设特征参量的字符串,计算URL间对应于所述预设特征参量的相似度分量;或者
第二计算子模块,用于当所述预设特征参量的类型为字符串时,根据URL中对应于所述预设特征参量的字符串中字符的类型,计算URL间对应于所述预设特征参量的相似度分量。
10.如权利要求6所述的装置,其特征在于,
所述预设特征参量包括:站点名称参量、目录深度参量、一级目录参量、二级目录参量和/或尾部页面参量。
11.一种统一资源定位符URL间相似度计算的装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
对应于URL的各个预设特征参量,根据URL中对应于所述预设特征参量的特征参量值,计算URL间对应于所述预设特征参量的相似度分量;
根据各个预设特征参量对应的预设权重值,将所述URL间对应于各个预设特征参量的相似度分量,进行加权求和,得到所述URL间相似度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410568402.1A CN104281703B (zh) | 2014-10-22 | 2014-10-22 | 统一资源定位符url间相似度计算的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410568402.1A CN104281703B (zh) | 2014-10-22 | 2014-10-22 | 统一资源定位符url间相似度计算的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104281703A true CN104281703A (zh) | 2015-01-14 |
CN104281703B CN104281703B (zh) | 2018-10-23 |
Family
ID=52256576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410568402.1A Active CN104281703B (zh) | 2014-10-22 | 2014-10-22 | 统一资源定位符url间相似度计算的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104281703B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104778206A (zh) * | 2015-03-10 | 2015-07-15 | 小米科技有限责任公司 | 服务资源的url获取方法及装置 |
CN105426759A (zh) * | 2015-10-30 | 2016-03-23 | 百度在线网络技术(北京)有限公司 | Url的合法性识别方法及装置 |
CN105760538A (zh) * | 2016-03-14 | 2016-07-13 | 广州神马移动信息科技有限公司 | 一种基于浏览器地址栏的url输入方法和一种浏览器 |
CN106055574A (zh) * | 2016-05-19 | 2016-10-26 | 微梦创科网络科技(中国)有限公司 | 一种识别非法统一资源标识符url的方法与装置 |
CN106503244A (zh) * | 2016-11-08 | 2017-03-15 | 天津海量信息技术股份有限公司 | 一种统一资源定位符相似度的处理方法 |
CN106777294A (zh) * | 2016-12-29 | 2017-05-31 | 维沃移动通信有限公司 | 一种浏览器书签的更新方法及移动终端 |
CN107291939A (zh) * | 2017-07-06 | 2017-10-24 | 携程计算机技术(上海)有限公司 | 酒店信息的聚类匹配方法及系统 |
CN107480134A (zh) * | 2017-07-28 | 2017-12-15 | 国信优易数据有限公司 | 一种数据处理方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1728655A (zh) * | 2004-11-25 | 2006-02-01 | 刘文印 | 一种检测鉴别假冒网页的方法及系统 |
CN101594261A (zh) * | 2008-05-28 | 2009-12-02 | 北京百问百答网络技术有限公司 | 一种假冒网站监测方法及其系统 |
CN102957664A (zh) * | 2011-08-17 | 2013-03-06 | 阿里巴巴集团控股有限公司 | 一种识别钓鱼网站的方法及装置 |
CN103207871A (zh) * | 2012-01-17 | 2013-07-17 | 深圳市腾讯计算机系统有限公司 | 对搜索系统的查询串改写效果进行评测的方法和装置 |
-
2014
- 2014-10-22 CN CN201410568402.1A patent/CN104281703B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1728655A (zh) * | 2004-11-25 | 2006-02-01 | 刘文印 | 一种检测鉴别假冒网页的方法及系统 |
CN101594261A (zh) * | 2008-05-28 | 2009-12-02 | 北京百问百答网络技术有限公司 | 一种假冒网站监测方法及其系统 |
CN102957664A (zh) * | 2011-08-17 | 2013-03-06 | 阿里巴巴集团控股有限公司 | 一种识别钓鱼网站的方法及装置 |
CN103207871A (zh) * | 2012-01-17 | 2013-07-17 | 深圳市腾讯计算机系统有限公司 | 对搜索系统的查询串改写效果进行评测的方法和装置 |
Non-Patent Citations (1)
Title |
---|
陈荟慧 等: "Web语料抓取中基于相似度的URL过滤规则生成算法", 《模式识别与人工智能》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104778206A (zh) * | 2015-03-10 | 2015-07-15 | 小米科技有限责任公司 | 服务资源的url获取方法及装置 |
CN105426759A (zh) * | 2015-10-30 | 2016-03-23 | 百度在线网络技术(北京)有限公司 | Url的合法性识别方法及装置 |
CN105760538A (zh) * | 2016-03-14 | 2016-07-13 | 广州神马移动信息科技有限公司 | 一种基于浏览器地址栏的url输入方法和一种浏览器 |
CN106055574A (zh) * | 2016-05-19 | 2016-10-26 | 微梦创科网络科技(中国)有限公司 | 一种识别非法统一资源标识符url的方法与装置 |
CN106055574B (zh) * | 2016-05-19 | 2019-12-24 | 微梦创科网络科技(中国)有限公司 | 一种识别非法统一资源标识符url的方法与装置 |
CN106503244A (zh) * | 2016-11-08 | 2017-03-15 | 天津海量信息技术股份有限公司 | 一种统一资源定位符相似度的处理方法 |
CN106777294A (zh) * | 2016-12-29 | 2017-05-31 | 维沃移动通信有限公司 | 一种浏览器书签的更新方法及移动终端 |
CN107291939A (zh) * | 2017-07-06 | 2017-10-24 | 携程计算机技术(上海)有限公司 | 酒店信息的聚类匹配方法及系统 |
CN107291939B (zh) * | 2017-07-06 | 2020-08-21 | 携程计算机技术(上海)有限公司 | 酒店信息的聚类匹配方法及系统 |
CN107480134A (zh) * | 2017-07-28 | 2017-12-15 | 国信优易数据有限公司 | 一种数据处理方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104281703B (zh) | 2018-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104281703A (zh) | 统一资源定位符url间相似度计算的方法及装置 | |
CN105389296A (zh) | 信息分割方法及装置 | |
CN105338409A (zh) | 一种网络视频预加载方法及装置 | |
CN104933170A (zh) | 信息展示方法及装置 | |
CN105491048A (zh) | 账户管理方法及装置 | |
CN104820678A (zh) | 音频信息识别方法及装置 | |
CN104899610A (zh) | 图片分类方法及装置 | |
CN105068976A (zh) | 票务信息展示方法及装置 | |
CN105183835A (zh) | 社交软件中信息标记的方法及装置 | |
CN104636453A (zh) | 非法用户资料识别方法及装置 | |
CN106126632A (zh) | 推荐方法及装置 | |
CN105242942A (zh) | 应用控制方法和装置 | |
CN104484438A (zh) | 图片处理方法及装置 | |
CN105095081A (zh) | 应用程序的功能测试方法及装置 | |
CN105550235A (zh) | 信息获取方法及装置 | |
CN104615663A (zh) | 文件排序方法、装置及终端 | |
CN105354017A (zh) | 信息处理方法及装置 | |
CN105323152A (zh) | 消息的处理方法、装置及设备 | |
CN104978113A (zh) | 停靠栏处理方法及装置 | |
CN105139848A (zh) | 数据转换方法和装置 | |
CN104572875A (zh) | 推广信息投放有效性确定方法及装置 | |
CN104536787A (zh) | 资源预加载方法及装置 | |
CN105320768A (zh) | 搜索方法及装置 | |
CN105511777A (zh) | 触控显示屏上的会话显示方法及装置 | |
CN104636064A (zh) | 手势生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |