CN106294815A - 一种url的聚类方法及装置 - Google Patents
一种url的聚类方法及装置 Download PDFInfo
- Publication number
- CN106294815A CN106294815A CN201610675697.1A CN201610675697A CN106294815A CN 106294815 A CN106294815 A CN 106294815A CN 201610675697 A CN201610675697 A CN 201610675697A CN 106294815 A CN106294815 A CN 106294815A
- Authority
- CN
- China
- Prior art keywords
- url
- character string
- domain name
- cluster
- under
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种URL的聚类方法及装置,所述方法包括:获取URL数据集,所述URL数据集包括多条URL,所述多条URL隶属于至少一个域名;分别对每个域名下的URL进行分割处理,并根据分割处理得到的字段的统计结果确定每个域名对应的多个热门字段;针对每个域名下的URL,对包括该域名对应的热门字段的URL,根据该域名对应的热门字段进行聚类,得到每个域名对应的第一聚类结果;针对每个域名下的URL,对不包括该域名对应的热门字段的URL进行聚类,得到每个域名对应的第二聚类结果。上述方案可提升网络系统资源的利用率。
Description
技术领域
本发明涉及互联网技术领域,特别是涉及一种URL的聚类方法及装置。
背景技术
互联网技术飞速发展,每天都会产生海量的访问请求,相应地,所访问的统一资源定位符(Uniform Resource Locator,URL)数量也较多。海量URL是数据挖掘、大数据分析的重要数据来源,基于对海量URL数据的分析结果,可以预测用户对不用类型的URL的点击率,从而可以选择性的对用户进行内容推荐。
现有技术中,由于URL数量过大,常常对URL进行聚类以进行大数据分析、内容推荐等。理想情况下,同一类URL的相似性较高,对其统计分析得到的用户点击率接近,因而可以对不用类别的URL所针对的页面做出不同的推送选择。
然而,现有技术的聚类得到的多个类别的划分准确度较差,对推荐内容(例如新闻、广告等)的推送指导作用有待提升。具体表现为聚类后得到的多个类别之间,在点击率等推荐内容推送的预测指标上区分度不高,从而较难有效地指导推荐内容的推送,进而引起推荐内容与用户偏好不符可能性较大,导致用户需要再次对网络资源进行访问搜索,从而占用了更多的网络系统资源比如带宽资源。
发明内容
本发明解决的技术问题是提供一种URL数据的聚类方法及装置,以提高聚类的准确度,有利于提升网络系统资源的利用率。
为解决上述技术问题,本发明实施例提供一种URL数据的聚类方法,所述方法包括:
获取URL数据集,所述URL数据集包括多条URL,所述多条URL隶属于至少一个域名;分别对每个域名下的URL进行分割处理,并根据分割处理得到的字段的统计结果确定每个域名对应的多个热门字段;针对每个域名下的URL,对包括该域名对应的热门字段的URL,根据该域名对应的热门字段进行聚类,得到每个域名对应的第一聚类结果;针对每个域名下的URL,对不包括该域名对应的热门字段的URL进行聚类,得到每个域名对应的第二聚类结果。
可选地,所述分别对每个域名下的URL进行分割处理之前,还包括:
对所述URL数据集中的多条URL进行降维,以去除符合预设格式的冗余信息。
可选地,所述冗余信息包括数字和搜索词。
可选地,所述URL聚类方法,还包括:
对于所述第一聚类结果和所述第二聚类结果,将其中URL数量超过第一预设阈值的聚类类别进行拆分,并将其中URL数量小于第二预设阈值的聚类类别进行合并,所述第一预设阈值大于所述第二预设阈值。
可选地,所述分别对每个域名下的URL进行分割处理,并根据分割处理得到的字段的统计结果确定每个域名对应的多个热门字段,包括:
对每个域名下的每条URL,按照字符“/”进行分割,并去除其中表示主机名的字符串;统计每个域名下的URL被分割后得到的字符串的出现次数,并将出现次数大于次数阈值的字符串或按照出现次数排序的前M个字符串作为所述热门字段,其中,M为大于或等于0的整数。
可选地,所述针对每个域名下的URL,对不包括该域名对应的热门字段的URL进行聚类,得到每个域名对应的第二聚类结果,包括:
对所述多条URL进行分割处理后得到的字符串去重,以得到总字符串序列,所述总字符串序列包含K个依序排列的字符串;分别将每个域名下的每条URL映射成长度为K的一维向量,以得到每个域名对应的矩阵,所述矩阵的大小为S*K,其中,S为每个域名下的URL的数量;将每个域名下的URL的数量的均方根值作为聚类数,并根据所述聚类数和所述矩阵采用Kmeans算法进行聚类,以得到每个域名对应的第二聚类结果。
可选地,所述将每个域名下的每条URL映射成长度为K的一维向量,包括:
针对当前URL,生成长度为K的全零一维向量,所述当前URL为所述多条URL中的任一个;根据对所述当前URL进行分割处理得到的字符串确定当前字符串序列和每个字符串在所述当前字符串序列中的出现位置,所述当前字符串序列包含N个字符串;对于所述当前URL被分割处理后得到的每个字符串,统计其在所述URL数据集中所有URL被分割处理后得到的字符串中的出现频次;在所述全零一维向量的基础上,根据所述当前URL被分割处理后得到的每个字符串的所述出现频次和所述出现位置,将所述当前URL映射成长度为K的一维向量。
可选地,所述在所述全零一维向量的基础上,根据所述当前URL被分割处理后得到的每个字符串的所述出现频次和所述出现位置,将所述当前URL映射成长度为K的一维向量,包括:
对于所述当前URL被分割处理后得到的每个字符串,确定其在总字符串序列中的位置计数i,i大于等于1且小于等于K;
采用公式vec[i]=(N-P)/log X计算所述一维向量中的第i列的向量值;
其中,vec[i]为第i列的向量值,X为所述字符串的出现频次,P为所述字符串在所述当前字符串序列中的位置计数。
本发明实施例还提供一种URL的聚类装置,所述装置包括:
获取单元,适于获取URL数据集,所述URL数据集包括多条URL,所述多条URL隶属于至少一个域名;
热门字段获取单元,适于分别对每个域名下的URL进行分割处理,并根据分割处理得到的字段的统计结果确定每个域名对应的多个热门字段;
第一聚类单元,适于针对每个域名下的URL,对包括该域名对应的热门字段的URL,根据该域名对应的热门字段进行聚类,得到每个域名对应的第一聚类结果;
第二聚类单元,适于针对每个域名下的URL,对不包括该域名对应的热门字段的URL进行聚类,得到每个域名对应的第二聚类结果。
可选地,所述URL的聚类装置,还包括:
降维单元,适于对所述URL数据集中的多条URL进行降维,以去除符合预设格式的冗余信息。
可选地,所述冗余信息包括数字和搜索词。
可选地,所述URL的聚类装置,还包括:
聚类结果调整单元,适于对于所述第一聚类结果和所述第二聚类结果,将其中URL数量超过第一预设阈值的聚类类别进行拆分,并将其中URL数量小于第二预设阈值的聚类类别进行合并,所述第一预设阈值大于所述第二预设阈值。
可选地,所述热门字段获取单元包括:
分割子单元,适于对每个域名下的每条URL,按照字符“/”进行分割,并去除其中表示主机名的字符串;
统计子单元,适于统计每个域名下的URL被分割后得到的字符串的出现次数,并将出现次数大于次数阈值的字符串或按照出现次数排序的前M个字符串作为所述热门字段,其中,M为大于或等于0的整数。
可选地,所述第二聚类单元包括:
总字符串序列获取子单元,适于对所述多条URL进行分割处理后得到的字符串去重,以得到总字符串序列,所述总字符串序列包含K个依序排列的字符串;
矩阵获取子单元,适于分别将每个域名下的每条URL映射成长度为K的一维向量,以得到每个域名对应的矩阵,所述矩阵的大小为S*K,其中,S为每个域名下的URL的数量;
第二聚类结果获取子单元,适于将每个域名下的URL的数量的均方根值作为聚类数,并根据所述聚类数和所述矩阵采用Kmeans算法进行聚类,以得到每个域名对应的第二聚类结果。
可选地,所述矩阵获取子单元包括:
全零向量获取模块,适于针对当前URL,生成长度为K的全零一维向量,所述当前URL为所述多条URL中的任一个;
当前字符串序列获取模块,适于根据对所述当前URL进行分割处理得到的字符串确定当前字符串序列和每个字符串在所述当前字符串序列中的出现位置,所述当前字符串序列包含N个字符串;
出现频次统计模块,适于对于所述当前URL被分割处理后得到的每个字符串,统计其在所述URL数据集中所有URL被分割处理后得到的字符串中的出现频次;
映射模块,适于在所述全零一维向量的基础上,根据所述当前URL被分割处理后得到的每个字符串的所述出现频次和所述出现位置,将所述当前URL映射成长度为K的一维向量。
可选地,所述映射模块包括:
位置计数子模块,适于对于所述当前URL被分割处理后得到的每个字符串,确定其在总字符串序列中的位置计数i,i大于等于1且小于等于K;
向量值计算子模块,适于采用公式vec[i]=(N-P)/log X计算所述一维向量中的第i列的向量值;
其中,vec[i]为第i列的向量值,X为所述字符串的出现频次,P为所述字符串在所述当前字符串序列中的位置计数。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
本发明实施例中,对每个域名下的URL进行分割处理,并根据分割处理得到的字段的统计结果确定每个域名对应的多个热门字段,针对每个域名下的URL,对包括该域名对应的热门字段的URL,根据该域名对应的热门字段进行聚类,得到每个域名对应的第一聚类结果,针对每个域名下的URL,对不包括该域名对应的热门字段的URL进行聚类,得到每个域名对应的第二聚类结果。由于热门字段与包含该热门字段的URL的所指向的页面结构具有较强的相关性,具体而言,热门字段相同的URL所指向的页面结构和内容具有相似性,另一方面,点击访问同一热门字段下的URL用户往往也有基本相同的访问意向,因此,根据热门字段进行URL聚类可以明显提高聚类得到的多个类别的准确性,聚类所得的结果可以用于内容推荐等,从而可有效地提高推荐内容的点击率,不需要用户通过反复搜索和访问其他网页,从而提升网络资源的利用率。
附图说明
图1是本发明实施例中的一种URL的聚类方法的流程图;
图2是本发明实施例中的一种得到第二聚类结果的方法的流程图;
图3是本发明实施例中的一种URL的聚类装置的结构示意图;
图4是图3中的一种第二聚类单元的结构示意图。
具体实施方式
如背景技术所言,由于URL数量过大,常常对URL进行聚类以进行大数据分析、内容推荐等。理想情况下,同一类URL的相似性较高,对其统计分析得到的用户点击率接近,因而可以对不用类别的URL所针对的页面做出不同的推送选择。
然而,现有技术的聚类得到的多个类别的划分准确度较差,对推荐内容(例如新闻、广告等)的推送指导作用有待提升。具体表现为聚类后得到的多个类别之间,在点击率等推荐内容推送的预测指标上区分度不高,从而较难有效地指导推荐内容的推送,进而引起推荐内容与用户偏好不符可能性较大,导致用户需要再次对网络资源进行访问搜索,从而占用了更多的网络系统资源比如带宽资源。
本发明实施例中,对每个域名下的URL进行分割处理,并根据分割处理得到的字段的统计结果确定每个域名对应的多个热门字段,针对每个域名下的URL,对包括该域名对应的热门字段的URL,根据该域名对应的热门字段进行聚类,得到每个域名对应的第一聚类结果,针对每个域名下的URL,对不包括该域名对应的热门字段的URL进行聚类,得到每个域名对应的第二聚类结果。由于热门字段与包含该热门字段的URL的所指向的页面结构具有较强的相关性,具体而言,热门字段相同的URL所指向的页面结构基本相同,另一方面,点击访问同一热门字段下的URL用户也有基本相同的访问意向,因此,在根据热门字段进行URL聚类的基础上,针对不同的类别进行内容推荐可有效地提高点击率,进而不需要用户通过反复搜索和访问其他网页,从而提升网络资源的利用率。
为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1是本发明实施例中的一种URL数据的聚类方法的流程图。下面结合图1所示步骤进行说明。
步骤S101:获取URL数据集,所述URL数据集包括多条URL,所述多条URL隶属于至少一个域名。
在具体实施中,每条URL中包括域名和主机名,例如,一条URL为“http://zhidao.baidu.com/search?ct=17”,该条URL中,域名为“baidu.com”,主机名为“zhidao”。
一个域名下至少有一条URL,例如,域名“baidu.com”下有10条URL。换言之,这10条URL的域名均为“baidu.com”。又如,URL数据集中存在域名A、B、C、D和E,每个域名下均有多条URL。
步骤S102:分别对每个域名下的URL进行分割处理,并根据分割处理得到的字段的统计结果确定每个域名对应的多个热门字段。
在本步骤中,分别对每个域名下的URL进行分割处理。仍然假设URL数据集中的域名有A、B、C、D和E,分别对这5个域名下的URL进行分割处理,分割处理后可以得到多个字段,根据对分割后的字段的统计确定每个域名对应的多个热门字段。
在本发明一实施例中,分别对每个域名下的URL进行分割处理,并根据分割处理得到的字段的统计结果确定每个域名对应的多个热门字段可以采用如下方式:
对每个域名下的每条URL,按照字符“/”进行分割,并去除其中表示主机名的字符串;
统计每个域名下的URL被分割后得到的字符串的出现次数,并将出现次数大于次数阈值的字符串或按照出现次数排序的前M个字符串作为所述热门字段,其中,M为大于或等于0的整数。
例如,对于URL“zhidao.baidu.com/search?ct=17”,可以按照字符“/”进行分割并去除主机名“zhidao”,可以得到字符串“baidu.com”,和字符串“search?ct=17”。同样地,对域名为“baidu.com”的其他URL进行类似处理。接着统计域名“baidu.com”下的URL被分割后得到的字符串出现的次数。并将出现次数大于次数阈值的字符串作为热门字段,或者也可以将分割后的字符串按照出现次数从高至低进行排序,而后将出现次数较高的前M个字符串作为所述热门字段。
又如,对URL数据集中域名为“baixing.com”的每条URL实施步骤S102,可以得到域名为“baixing.com”的URL被分割后得到的字符串中,下列字符串的出现次数大于次数阈值:“ershouqiche”、“zhengzu”、“ershoufang”、“shouji”、“gongzuo”、“siji”、“tuolaji”、“chongwujiaoyi”,那么将上述字符串作为域名“baixing.com”下的热门字段。
需要说明的是,所述次数阈值和M的取值可以进行预设。
步骤S103:针对每个域名下的URL,对包括该域名对应的热门字段的URL,根据该域名对应的热门字段进行聚类,得到每个域名对应的第一聚类结果。
经过实施步骤S102可以得到每个域名对应的热门字段,对包括该域名对应的热门字段的URL,根据对应的热门字段进行聚类。
在上例中,域名“baixing.com”的热门字段有“ershouqiche”、“zhengzu”、“ershoufang”、“shouji”、“gongzuo”、“siji”、“tuolaji”、“chongwujiaoyi”,在域名“baixing.com”下的URL中,将包含热门字段“ershouqiche”的URL作为一类,包含热门字段“zhengzu”的URL作为一类,以此类推。从而得到每个热门字段对应的一个类别。一方面,由于每个热门字段对应类别的URL所指向的页面结构基本相同,因此在针对该类别的URL所指向的网页进行内容推荐时,可以在相同的页面显示位置上进行推荐;另一方面,由于每个热门字段对应的URL具有基本相同的页面内容,其可以反映一类用户的访问内容需求,因此可以进行相同页面内容的推送。例如,包含热门字段“ershouqiche”的URL所指向的页面内容为有关二手车的信息,可以基于此推断访问这一类URL的用户具有基本相同的访问内容需求,因而可以进行针对二手车的推荐内容推送,从而可以提高用户打开这一类URL时出现的推荐内容的点击率,避免用户进行较多次数的搜索和访问,从而提高网络系统资源的利用率。
步骤S104:针对每个域名下的URL,对不包括该域名对应的热门字段的URL进行聚类,得到每个域名对应的第二聚类结果。
在本发明一非限定性的例子中,可以按照图2所示的步骤进行聚类得到第二聚类结果。
步骤S201:对所述多条URL进行分割处理后得到的字符串去重,以得到总字符串序列,所述总字符串序列包含K个依序排列的字符串。
为方便说明本实施例的方案,下面以一简单的例子进行示例。
例如,URL数据集L的多条URL隶属于5个域名,分别为A、B、C、D和E,并假设域名A下有2条URL,其他域名下各有一条URL。
对URL数据集L的所有URL进行分割处理,域名A的第一条URL经过分割处理后得到A1A2,第二条URL经过分割处理得到A3A2,域名B的URL经过分割处理后得到A3B1B2,域名C的URL经过分割处理后得到C1C2。进一步去除重复的字符串“A2”和“A3”得到字符串序列“A1A2A3B1B2C1C2”,也即URL数据集L对应的总字符串序列,该字符串序列包括7个字符串。
步骤S202:分别将每个域名下的每条URL映射成长度为K的一维向量,以得到每个域名对应的矩阵,所述矩阵的大小为S*K,其中,S为每个域名下的URL的数量。
仍以上例进行说明,分别将每个域名下的每条URL映射成长度为K的一维向量。域名A下有2条URL,那么对域名A下的每条URL映射成长度为K的一维向量,从而得到域名A对应的2*7的矩阵,其中K在本例中取值为7。同理,可以对其他域名下的每条URL进行映射,得到各自域名对应的矩阵。
在本发明的一具体实现中,将每个域名下的每条URL映射成长度为K的一维向量可以采用如下方式:
针对当前URL,生成长度为K的全零一维向量,所述当前URL为所述多条URL中的任一个;
根据对所述当前URL进行分割处理得到的字符串确定当前字符串序列和每个字符串在所述当前字符串序列中的出现位置,所述当前字符串序列包含N个字符串;
对于所述当前URL被分割处理后得到的每个字符串,统计其在所述URL数据集中所有URL被分割处理后得到的字符串中的出现频次;
在所述全零一维向量的基础上,根据所述当前URL被分割处理后得到的每个字符串的所述出现频次和所述出现位置,将所述当前URL映射成长度为K的一维向量。
在具体实施中,在所述全零一维向量的基础上,根据所述当前URL被分割处理后得到的每个字符串的所述出现频次和所述出现位置,将所述当前URL映射成长度为K的一维向量,可以采用如下方式:
对于所述当前URL被分割处理后得到的每个字符串,确定其在总字符串序列中的位置计数i,i大于等于1且小于等于K;
采用公式vec[i]=(N-P)/log X计算所述一维向量中的第i列的向量值;
其中,vec[i]为第i列的向量值,X为所述字符串的出现频次P为所述字符串在所述当前字符串序列中的位置计数。更具体而言,上述vec[i]用于替换全零一维向量中第i列的向量值,而未被替换的部分向量值将保持为0。
具体仍以上例进行说明,即域名A的第一条URL经过分割处理后得到A1A2,第二条URL经过分割处理得到A3A2,域名B的一条URL经过分割处理后得到A3B1B2,域名C的一条URL经过分割处理后得到C1C2。进一步去除重复的字符串“A2”和“A3”得到总字符串序列“A1A2A3B1B2C1C2”,该字符串序列包括7个字符串。
假设当前URL为域名A的第一条URL,则当前字符串序列为A1A2。需要将该条URL映射成为长度为7的字符串序列。
首先,将该条URL映射成为长度为7的全零一维向量,即7列的向量值均为0。在此基础上,确定当前字符串序列中A1A2的字符串“A1”,“A2”在总字符串序列中的位置计数。在此假设总字符串序列“A1A2A3B1B2C1C2”中的字符串位置计数从左至右依次记为1至7位。那么,对于当前URL,以字符串A1为例,字符串A1在总字符串序列中的位置为1,则在该条URL对应的一维向量中,A1对应的值V[1]采用公式vec[i]=(N-P)/log X进行计算,此时i为1,N为当前字符串序列A1A2的字符串个数2,P为所述字符串A1在所述当前字符串序列A1A2中的位置计数1,(假设对于每个当前字符串的位置计数也按照从左至右,并从1计数的方式),X为所述字符串A1在URL数据集中所有URL被分割后的字符串中出现的频次,而URL数据集中所有URL被分割为8个字符串,因此字符串A1的所述出现频次为1/8。
采用同样的方法,可以对域名A的第二条URL映射得到长度为7的一维向量。其他域名下的URL也可以采用该种实现方式。
需要说明的是,上述示例仅仅为了方便说明实施方式,其中的域名、具体字符串、每个域名下URL数量等以实际实施时为准。
步骤S203:将每个域名下的URL的数量的均方根值作为聚类数,并根据所述聚类数和所述矩阵采用Kmeans算法进行聚类,以得到每个域名对应的第二聚类结果。
由此,针对每个域名下的不包含热门字段的URL,可以根据聚类数和所述矩阵采用Kmeans算法进行聚类,得到第二聚类结果。
由于上述实现方式中,在确定当前URL的字符串对应的向量值时,考虑到了该字符串在当前URL的位置,以及该字符串在所有字符串中的出现频次,而这两者因素均相同的URL,其对应的页面结构和访问用户具有一定程度一致性,因而URL相似性较高,进而可以实现合理有效的分类,换言之,这样的分类可有效地指导推荐内容的推送。
需要说明的是,本发明的其他实施例中,也可以采用其他方式对不包含热门字段的URL进行聚类,在此不做限制。
在具体实施中,分别对每个域名下的URL进行分割处理之前,还可以进行降维处理,即:对所述URL数据集中的多条URL进行降维,以去除符合预设格式的冗余信息。
在具体实施中,所述冗余信息为可以包括数字和搜索词。
通过去除冗余信息,可将除冗余信息以外其他部分均相同的URL视为同一条URL,从而可以减少步骤S101至步骤S104的计算量。
在本发明一非限制性的实施中,可以找到URL的如下5个特殊字符,“?”,“%”,“#”,“&”,“=”,去除URL中这些字符后面的字符串,并且保留这些特殊字符,然后对URL中的连续数字编码成一个*表示。
在具体实施中,在实施步骤S104后,还可以对于所述第一聚类结果和所述第二聚类结果,将其中URL数量超过第一预设阈值的聚类类别进行拆分,并将其中URL数量小于第二预设阈值的聚类类别进行合并,所述第一预设阈值大于所述第二预设阈值。
通过上述合并和拆分,避免某些类的URL数量过小,使得基于该类得到的统计预测指标(如点击率)不稳定,从而无法有效指导推荐内容的推送。另外,也避免了某些类的URL数量过大,造成相似性不高的URL也划分为一类的情况,而无法进行区分性的指导推荐内容的推送。
图3是本发明实施例中的一种URL的聚类装置的结构示意图。所述URL的聚类装置可以包括:获取单元301、热门字段获取单元302、第一聚类单元303和第二聚类单元304。下面结合图3进行说明。
所述获取单元301,适于获取URL数据集,所述URL数据集包括多条URL,所述多条URL隶属于至少一个域名。
所述热门字段获取单元302,适于分别对每个域名下的URL进行分割处理,并根据分割处理得到的字段的统计结果确定每个域名对应的多个热门字段。
在具体实施中,所述热门字段获取单元302可以包括:
分割子单元,适于对每个域名下的每条URL,按照字符“/”进行分割,并去除其中表示主机名的字符串;
统计子单元,适于统计每个域名下的URL被分割后得到的字符串的出现次数,并将出现次数大于次数阈值的字符串或按照出现次数排序的前M个字符串作为所述热门字段,其中,M为大于或等于0的整数。
所述第一聚类单元303,适于针对每个域名下的URL,对包括该域名对应的热门字段的URL,根据该域名对应的热门字段进行聚类,得到每个域名对应的第一聚类结果;
所述第二聚类单元304,适于针对每个域名下的URL,对不包括该域名对应的热门字段的URL进行聚类,得到每个域名对应的第二聚类结果。
在具体实施中,请参照图4,所述第二聚类单元304可以包括:
总字符串序列获取子单元41,适于对所述多条URL进行分割处理后得到的字符串去重,以得到总字符串序列,所述总字符串序列包含K个依序排列的字符串;
矩阵获取子单元42,适于分别将每个域名下的每条URL映射成长度为K的一维向量,以得到每个域名对应的矩阵,所述矩阵的大小为S*K,其中,S为每个域名下的URL的数量;
第二聚类结果获取子单元43,适于将每个域名下的URL的数量的均方根值作为聚类数,并根据所述聚类数和所述矩阵采用Kmeans算法进行聚类,以得到每个域名对应的第二聚类结果。
在具体实施中,所述矩阵获取子单元可以包括:
全零向量获取模块,适于针对当前URL,生成长度为K的全零一维向量,所述当前URL为所述多条URL中的任一个;
当前字符串序列获取模块,适于根据对所述当前URL进行分割处理得到的字符串确定当前字符串序列和每个字符串在所述当前字符串序列中的出现位置,所述当前字符串序列包含N个字符串;
出现频次统计模块,适于对于所述当前URL被分割处理后得到的每个字符串,统计其在所述URL数据集中所有URL被分割处理后得到的字符串中的出现频次;
映射模块,适于在所述全零一维向量的基础上,根据所述当前URL被分割处理后得到的每个字符串的所述出现频次和所述出现位置,将所述当前URL映射成长度为K的一维向量。
在具体实施中,所述映射模块包括:
位置计数确定子模块,对于所述当前URL被分割处理后得到的每个字符串,确定其在总字符串序列中的位置计数i,i大于等于1且小于等于K;
向量值计算子模块采用公式vec[i]=(N-P)/log X计算所述一维向量中的第i列的向量值;
其中,vec[i]为第i列的向量值,X为所述字符串的出现频次,P为所述字符串在所述当前字符串序列中的位置计数。
在具体实施中,所述URL的聚类装置还可以包括:
降维单元,适于对所述URL数据集中的多条URL进行降维,以去除符合预设格式的冗余信息。
在具体实施中,所述冗余信息包括数字和搜索词。
在具体实施中,所述URL的聚类装置,还可以包括:
聚类结果调整单元,适于对于所述第一聚类结果和所述第二聚类结果,将其中URL数量超过第一预设阈值的聚类类别进行拆分,并将其中URL数量小于第二预设阈值的聚类类别进行合并,所述第一预设阈值大于所述第二预设阈值。
有关上述URL的聚类装置的结构说明和有益效果可对应参照所述URL的聚类方法的描述,不再赘述。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
Claims (16)
1.一种URL的聚类方法,其特征在于,包括:
获取URL数据集,所述URL数据集包括多条URL,所述多条URL隶属于至少一个域名;
分别对每个域名下的URL进行分割处理,并根据分割处理得到的字段的统计结果确定每个域名对应的多个热门字段;
针对每个域名下的URL,对包括该域名对应的热门字段的URL,根据该域名对应的热门字段进行聚类,得到每个域名对应的第一聚类结果;
针对每个域名下的URL,对不包括该域名对应的热门字段的URL进行聚类,得到每个域名对应的第二聚类结果。
2.根据权利要求1所述的URL的聚类方法,其特征在于,分别对每个域名下的URL进行分割处理之前,还包括:
对所述URL数据集中的多条URL进行降维,以去除符合预设格式的冗余信息。
3.根据权利要求2所述的URL的聚类方法,其特征在于,所述冗余信息包括数字和搜索词。
4.根据权利要求1所述的URL的聚类方法,其特征在于,还包括:
对于所述第一聚类结果和所述第二聚类结果,将其中URL数量超过第一预设阈值的聚类类别进行拆分,并将其中URL数量小于第二预设阈值的聚类类别进行合并,所述第一预设阈值大于所述第二预设阈值。
5.根据权利要求1所述的URL的聚类方法,其特征在于,所述分别对每个域名下的URL进行分割处理,并根据分割处理得到的字段的统计结果确定每个域名对应的多个热门字段,包括:
对每个域名下的每条URL,按照字符“/”进行分割,并去除其中表示主机名的字符串;
统计每个域名下的URL被分割后得到的字符串的出现次数,并将出现次数大于次数阈值的字符串或按照出现次数排序的前M个字符串作为所述热门字段,其中,M为大于或等于0的整数。
6.根据权利要求1所述的URL的聚类方法,其特征在于,所述针对每个域名下的URL,对不包括该域名对应的热门字段的URL进行聚类,得到每个域名对应的第二聚类结果,包括:
对所述多条URL进行分割处理后得到的字符串去重,以得到总字符串序列,所述总字符串序列包含K个依序排列的字符串;
分别将每个域名下的每条URL映射成长度为K的一维向量,以得到每个域名对应的矩阵,所述矩阵的大小为S*K,其中,S为每个域名下的URL的数量;
将每个域名下的URL的数量的均方根值作为聚类数,并根据所述聚类数和所述矩阵采用Kmeans算法进行聚类,以得到每个域名对应的第二聚类结果。
7.根据权利要求6所述的URL的聚类方法,其特征在于,所述将每个域名下的每条URL映射成长度为K的一维向量,包括:
针对当前URL,生成长度为K的全零一维向量,所述当前URL为所述多条URL中的任一个;
根据对所述当前URL进行分割处理得到的字符串确定当前字符串序列和每个字符串在所述当前字符串序列中的出现位置,所述当前字符串序列包含N个字符串;
对于所述当前URL被分割处理后得到的每个字符串,统计其在所述URL数据集中所有URL被分割处理后得到的字符串中的出现频次;
在所述全零一维向量的基础上,根据所述当前URL被分割处理后得到的每个字符串的所述出现频次和所述出现位置,将所述当前URL映射成长度为K的一维向量。
8.根据权利要求7所述的URL的聚类方法,其特征在于,所述在所述全零一维向量的基础上,根据所述当前URL被分割处理后得到的每个字符串的所述出现频次和所述出现位置,将所述当前URL映射成长度为K的一维向量,包括:
对于所述当前URL被分割处理后得到的每个字符串,确定其在总字符串序列中的位置计数i,i大于等于1且小于等于K;
采用公式vec[i]=(N-P)/log X计算所述一维向量中的第i列的向量值;
其中,vec[i]为第i列的向量值,X为所述字符串的出现频次,P为所述字符串在所述当前字符串序列中的位置计数。
9.一种URL的聚类装置,其特征在于,包括:
获取单元,适于获取URL数据集,所述URL数据集包括多条URL,所述多条URL隶属于至少一个域名;
热门字段获取单元,适于分别对每个域名下的URL进行分割处理,并根据分割处理得到的字段的统计结果确定每个域名对应的多个热门字段;
第一聚类单元,适于针对每个域名下的URL,对包括该域名对应的热门字段的URL,根据该域名对应的热门字段进行聚类,得到每个域名对应的第一聚类结果;
第二聚类单元,适于针对每个域名下的URL,对不包括该域名对应的热门字段的URL进行聚类,得到每个域名对应的第二聚类结果。
10.根据权利要求9所述的URL的聚类装置,其特征在于,还包括:
降维单元,适于对所述URL数据集中的多条URL进行降维,以去除符合预设格式的冗余信息。
11.根据权利要求10所述的URL的聚类装置,其特征在于,所述冗余信息包括数字和搜索词。
12.根据权利要求9所述的URL的聚类装置,其特征在于,还包括:
聚类结果调整单元,适于对于所述第一聚类结果和所述第二聚类结果,将其中URL数量超过第一预设阈值的聚类类别进行拆分,并将其中URL数量小于第二预设阈值的聚类类别进行合并,所述第一预设阈值大于所述第二预设阈值。
13.根据权利要求9所述的URL的聚类装置,其特征在于,所述热门字段获取单元包括:
分割子单元,适于对每个域名下的每条URL,按照字符“/”进行分割,并去除其中表示主机名的字符串;
统计子单元,适于统计每个域名下的URL被分割后得到的字符串的出现次数,并将出现次数大于次数阈值的字符串或按照出现次数排序的前M个字符串作为所述热门字段,其中,M为大于或等于0的整数。
14.根据权利要求9所述的URL的聚类装置,其特征在于,所述第二聚类单元包括:
总字符串序列获取子单元,适于对所述多条URL进行分割处理后得到的字符串去重,以得到总字符串序列,所述总字符串序列包含K个依序排列的字符串;
矩阵获取子单元,适于分别将每个域名下的每条URL映射成长度为K的一维向量,以得到每个域名对应的矩阵,所述矩阵的大小为S*K,其中,S为每个域名下的URL的数量;
第二聚类结果获取子单元,适于将每个域名下的URL的数量的均方根值作为聚类数,并根据所述聚类数和所述矩阵采用Kmeans算法进行聚类,以得到每个域名对应的第二聚类结果。
15.根据权利要求14所述的URL的聚类装置,其特征在于,所述矩阵获取子单元包括:
全零向量获取模块,适于针对当前URL,生成长度为K的全零一维向量,所述当前URL为所述多条URL中的任一个;
当前字符串序列获取模块,适于根据对所述当前URL进行分割处理得到的字符串确定当前字符串序列和每个字符串在所述当前字符串序列中的出现位置,所述当前字符串序列包含N个字符串;
出现频次统计模块,适于对于所述当前URL被分割处理后得到的每个字符串,统计其在所述URL数据集中所有URL被分割处理后得到的字符串中的出现频次;
映射模块,适于在所述全零一维向量的基础上,根据所述当前URL被分割处理后得到的每个字符串的所述出现频次和所述出现位置,将所述当前URL映射成长度为K的一维向量。
16.根据权利要求15所述的URL的聚类装置,其特征在于,所述映射模块包括:
位置计数子模块,适于对于所述当前URL被分割处理后得到的每个字符串,确定其在总字符串序列中的位置计数i,i大于等于1且小于等于K;
向量值计算子模块,适于采用公式vec[i]=(N-P)/log X计算所述一维向量中的第i列的向量值;
其中,vec[i]为第i列的向量值,X为所述字符串的出现频次,P为所述字符串在所述当前字符串序列中的位置计数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610675697.1A CN106294815B (zh) | 2016-08-16 | 2016-08-16 | 一种url的聚类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610675697.1A CN106294815B (zh) | 2016-08-16 | 2016-08-16 | 一种url的聚类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106294815A true CN106294815A (zh) | 2017-01-04 |
CN106294815B CN106294815B (zh) | 2019-08-16 |
Family
ID=57679416
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610675697.1A Active CN106294815B (zh) | 2016-08-16 | 2016-08-16 | 一种url的聚类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106294815B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107169121A (zh) * | 2017-05-27 | 2017-09-15 | 北京知道未来信息技术有限公司 | 一种提取网站url的方法 |
CN108595453A (zh) * | 2017-12-20 | 2018-09-28 | 中国联合网络通信集团有限公司 | Url标识映射获取方法及装置 |
CN109284465A (zh) * | 2018-09-04 | 2019-01-29 | 暨南大学 | 一种基于url的网页分类器构建方法及其分类方法 |
CN109391602A (zh) * | 2017-08-11 | 2019-02-26 | 北京金睛云华科技有限公司 | 一种僵尸主机检测方法 |
CN110298005A (zh) * | 2019-06-26 | 2019-10-01 | 上海观安信息技术股份有限公司 | 一种对url进行归一化的方法 |
CN110874443A (zh) * | 2018-08-31 | 2020-03-10 | 北京搜狗科技发展有限公司 | 一种url模式获取方法、装置、电子设备及可读存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080101082A (ko) * | 2007-05-15 | 2008-11-21 | 엘지전자 주식회사 | 이동통신 단말기 및 그 제어방법 |
CN101383713A (zh) * | 2007-09-06 | 2009-03-11 | 上海艾瑞市场咨询有限公司 | 一种互联网广告信息处理方法 |
CN101702179A (zh) * | 2009-12-01 | 2010-05-05 | 百度在线网络技术(北京)有限公司 | 在数据挖掘中去除重复的方法和设备 |
CN102110132A (zh) * | 2010-12-08 | 2011-06-29 | 北京星网锐捷网络技术有限公司 | 统一资源定位符匹配查找方法、装置和网络侧设备 |
CN102254004A (zh) * | 2011-07-14 | 2011-11-23 | 北京邮电大学 | 一种网络日志挖掘中的Web建模方法及系统 |
CN103823892A (zh) * | 2014-03-10 | 2014-05-28 | 北京奇虎科技有限公司 | 确定网页聚类模式的方法及装置 |
CN105069102A (zh) * | 2015-08-03 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | 信息推送方法和装置 |
-
2016
- 2016-08-16 CN CN201610675697.1A patent/CN106294815B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080101082A (ko) * | 2007-05-15 | 2008-11-21 | 엘지전자 주식회사 | 이동통신 단말기 및 그 제어방법 |
CN101383713A (zh) * | 2007-09-06 | 2009-03-11 | 上海艾瑞市场咨询有限公司 | 一种互联网广告信息处理方法 |
CN101702179A (zh) * | 2009-12-01 | 2010-05-05 | 百度在线网络技术(北京)有限公司 | 在数据挖掘中去除重复的方法和设备 |
CN102110132A (zh) * | 2010-12-08 | 2011-06-29 | 北京星网锐捷网络技术有限公司 | 统一资源定位符匹配查找方法、装置和网络侧设备 |
CN102254004A (zh) * | 2011-07-14 | 2011-11-23 | 北京邮电大学 | 一种网络日志挖掘中的Web建模方法及系统 |
CN103823892A (zh) * | 2014-03-10 | 2014-05-28 | 北京奇虎科技有限公司 | 确定网页聚类模式的方法及装置 |
CN105069102A (zh) * | 2015-08-03 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | 信息推送方法和装置 |
Non-Patent Citations (1)
Title |
---|
MIKE THELWALL等: "A generic lexical URL segment framework for counting links, colinks or URLs", 《LIBRARY & INFORMATION SCIENCE RESEARCH》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107169121A (zh) * | 2017-05-27 | 2017-09-15 | 北京知道未来信息技术有限公司 | 一种提取网站url的方法 |
CN107169121B (zh) * | 2017-05-27 | 2020-08-11 | 北京知道未来信息技术有限公司 | 一种提取网站url的方法 |
CN109391602A (zh) * | 2017-08-11 | 2019-02-26 | 北京金睛云华科技有限公司 | 一种僵尸主机检测方法 |
CN109391602B (zh) * | 2017-08-11 | 2021-04-09 | 北京金睛云华科技有限公司 | 一种僵尸主机检测方法 |
CN108595453A (zh) * | 2017-12-20 | 2018-09-28 | 中国联合网络通信集团有限公司 | Url标识映射获取方法及装置 |
CN108595453B (zh) * | 2017-12-20 | 2020-09-01 | 中国联合网络通信集团有限公司 | Url标识映射获取方法及装置 |
CN110874443A (zh) * | 2018-08-31 | 2020-03-10 | 北京搜狗科技发展有限公司 | 一种url模式获取方法、装置、电子设备及可读存储介质 |
CN109284465A (zh) * | 2018-09-04 | 2019-01-29 | 暨南大学 | 一种基于url的网页分类器构建方法及其分类方法 |
CN110298005A (zh) * | 2019-06-26 | 2019-10-01 | 上海观安信息技术股份有限公司 | 一种对url进行归一化的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106294815B (zh) | 2019-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106294815B (zh) | 一种url的聚类方法及装置 | |
CN108304444B (zh) | 信息查询方法及装置 | |
US8332775B2 (en) | Adaptive user feedback window | |
Christoforaki et al. | Text vs. space: efficient geo-search query processing | |
US9317613B2 (en) | Large scale entity-specific resource classification | |
WO2014197227A1 (en) | Natural language search results for intent queries | |
US9773064B1 (en) | Contextual search term evaluation | |
CN104376406A (zh) | 一种基于大数据的企业创新资源管理与分析系统和方法 | |
CN102955810B (zh) | 一种网页分类方法和设备 | |
CN103699619A (zh) | 一种用于提供搜索结果的方法及装置 | |
CN101261629A (zh) | 基于自动分类技术的特定信息搜索方法 | |
CN104462336A (zh) | 信息推送方法和装置 | |
CN104281701A (zh) | 分布式多尺度空间数据查询方法及系统 | |
EP2395441A1 (en) | Systems and methods for online search recirculation and query categorization | |
JP2016540332A (ja) | 視覚・意味複合ネットワーク、および当該ネットワークを形成するための方法 | |
CN104050235A (zh) | 基于集合选择的分布式信息检索方法 | |
US20100121844A1 (en) | Image relevance by identifying experts | |
CN103678293A (zh) | 一种数据存储方法及装置 | |
CN102855245A (zh) | 一种用于确定图片相似度的方法与设备 | |
CN106777143A (zh) | 一种新闻聚合方法及新闻聚合服务器 | |
CN103761286B (zh) | 一种基于用户兴趣的服务资源检索方法 | |
Gao et al. | Real-time social media retrieval with spatial, temporal and social constraints | |
CN103902549A (zh) | 搜索数据排序的方法和装置,数据搜索的方法和装置 | |
Lian | The construction of personalized Web page recommendation system in e-commerce | |
Kumar et al. | Learnable focused meta crawling through Web |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |