CN108228602A - 网站的分类方法及装置 - Google Patents
网站的分类方法及装置 Download PDFInfo
- Publication number
- CN108228602A CN108228602A CN201611152977.0A CN201611152977A CN108228602A CN 108228602 A CN108228602 A CN 108228602A CN 201611152977 A CN201611152977 A CN 201611152977A CN 108228602 A CN108228602 A CN 108228602A
- Authority
- CN
- China
- Prior art keywords
- user
- website
- similarity
- web sites
- different web
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9562—Bookmark management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种网站的分类方法及装置,涉及互联网技术领域,主要目的在于解决人工打标签方式操作成本大,且无法根据用户的具体需求对访问网站进行分类的问题。本发明的主要技术方案为:获取不同网站符合预设时间间隔条件的用户访问数据;按照时间属性统计所述用户访问数据的平均值;根据所述平均值及预设相似度算法计算所述不同网站之间的相似度;通过所述相似度及预置聚类算法对所述不同网站进行分类。主要用于网站的分类。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种网站的分类方法及装置。
背景技术
随着互联网技术的不断发展,越来越多的用户通过访问网站来获取信息。其中,不同人群会根据不同的需求会访问不同类型的网站,对网站的分类成为分析用户访问网站情况的必要手段。
目前,现有的网站分类方法是通过人工对不同属性的网站进行人工打标签,如,音乐类、电商类、新闻类、门户类等等,再根据标注的标签进行分类,但是人工打标签方式是按照网站的属性类型进行分类,操作成本大,且无法根据用户的具体需求对访问网站进行分类,导致网站分类的效率较低。
发明内容
鉴于上述问题,提出了本发明以便提供一种网站的分类方法及装置,主要目的是解决人工打标签方式操作成本大,且无法根据用户的具体需求对访问网站进行分类的问题。
借由上述技术方案,本发明提供的一种网站的分类方法,包括:
获取不同网站符合预设时间间隔条件的用户访问数据,所述用户访问数据为用户浏览网站所产生的流量数据;
按照时间属性统计所述用户访问数据的平均值;
根据所述平均值及预设相似度算法计算所述不同网站之间的相似度;
通过所述相似度及预置聚类算法对所述不同网站进行分类。
借由上述技术方案,本发明提供的一种网站的分类装置,包括:
获取单元,用于获取不同网站符合预设时间间隔条件的用户访问数据,所述用户访问数据为用户浏览网站所产生的流量数据;
统计单元,用于按照时间属性统计所述用户访问数据的平均值;
计算单元,用于根据所述平均值及预设相似度算法计算所述不同网站之间的相似度;
分类单元,用于通过所述相似度及预置聚类算法对所述不同网站进行分类。
借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
本发明实施例提供的一种网站的分类方法及装置,首先获取不同网站符合预设时间间隔条件的用户访问数据,所述用户访问数据为用户浏览网站所产生的流量数据,然后按照时间属性统计所述用户访问数据的平均值,再根据所述平均值及预设相似度算法计算所述不同网站之间的相似度,最后通过所述相似度及预置聚类算法对所述不同网站进行分类。与现有的人工打标签方式且无法根据用户的具体需求对访问网站进行分类相比,本发明实施例将不同时间点的网站中用户访问数据按照时间属性计算平均值,然后将平均值作为预设相似度算法的参数计算网站之间的相似度,再根据相似度及预置的聚类算法对网站进行分类,避免手动打标签进行分类,实现根据时间序列对用户在不同时间点访问的网站进行分类,进一步实现根据用户的需求对用户访问的网站进行分类,增加了网站分类的多样性,从而提高网站分类的效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了发明实施例提供的一种网站的分类方法的流程图;
图2示出了发明实施例提供的另一种网站的分类方法的流程图;
图3示出了发明实施例提供的一种分层聚类树示意图;
图4示出了发明实施例提供的一种网站的分类装置的方框图;
图5示出了发明实施例提供的另一种网站的分类装置的方框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供一种网站的分类方法,如图1所示,所述方法包括:
101、获取不同网站符合预设时间间隔条件的用户访问数据。
其中,所述用户访问数据为用户浏览网站所产生的流量数据,所述预设时间间隔可以为1小时,或者半小时,本发明实施例不做具体限定。
需要说明的是,获取的用户访问数据可以为一段时间内,用户浏览不同网站产生的历史数据,获取数据的时间可以为1个月或2个月,具体时间本发明实施例不做具有限定。
102、按照时间属性统计所述用户访问数据的平均值。
其中,所述时间属性包括工作日、周末、节假日,统计所述用户访问数据的平均值为统计工作日中每个小时的用户访问数据的平均值、统计周末中每个小时的用户访问数据的平均值、统计节假日中每个小时的用户访问数据的平均值,本发明实施例不做具体限定。
需要说的是,若统计每个小时的平均值,一天有24小时,则统计的用户访问数据的平均值可以为一个24维的向量。
例如,周末为周六和周日,周六每个小时的用户访问数据为[a,b,c,d,e,f,g,h,i,j,k,l,m,n,o,p,q,r,s,t,u,v,w,x,y,z],周日每个小时的用户访问数据为[a`,b`,c`,d`,e`,f`,g`,h`,i`,j`,k`,l`,m`,n`,o`,p`,q`,r`,s`,t`,u`,v`,w`,x`,y`,z`],按照周末统计的平均值为[(a+a`)/2,(b+b`)/2,(c+c`)/2,(d+d`)/2,(e+e`)/2,(f+f`)/2,(g+g`)/2,(h+h`)/2,(i+i`)/2,(j+j`)/2,(k+k`)/2,(l+l`)/2,(m+m`)/2,(n+n`)/2,(o+o`)/2,(p+p`)/2,(q+q`)/2,(r+r`)/2,(s+s`)/2,(t+t`)/2,(u+u`)/2,(v+v`)/2,(w+w`)/2,(x+x`)/2,(y+y`)/2,(z+z`)/2]。
103、根据所述平均值及预设相似度算法计算所述不同网站之间的相似度。
其中,所述预设相似度算法为计算向量之间的相似度的算法,例如,余弦相似度算法,即通过计算两个向量的夹角余弦值来评估向量之间的相似度。
需要说明的是,计算的相似度为不同网站之间工作日对应的向量之间的相似度、不同网站之间周末对应的向量之间的相似度、不同网站之间节假日对应的向量之间的相似度。在计算相似度时,计算网站中的任意两个网站的相似度。
例如,网站1的工作日对应的平均值向量为A,网站1的周末对应的平均值向量为B,网站2的节假日对应的平均值向量为C,网站2的工作日对应的平均值向量为A`,网站2的周末对应的平均值向量为B`,网站2的节假日对应的平均值向量为C`,根据余弦相似度算法计算网站1的工作日对应的平均值向量A与网站2的工作日对应的平均值向量A`的相似度,根据余弦相似度算法计算网站1的周末对应的平均值向量B与网站2的周末对应的平均值向量B`的相似度,根据余弦相似度算法计算网站1的节假日对应的平均值向量C与网站2的节假日对应的平均值向量C`的相似度。
104、通过所述相似度及预置聚类算法对所述不同网站进行分类。
其中,所述预置聚类算法用于将数据进行分层聚类,例如,分层聚类算法,即对给定数据对象的集合进行层次分解,根据分层分解采用的分解策略,得到带有分层的类别数据,所述相似度为通过计算不同网站中相同时间属性的平均值得到的。
需要说明的是,通过分层聚类算法可以得到多个层级的聚类树,根据每个层级中网站的类别实现对网站进行分类。
本发明实施例提供的一种网站的分类方法,与现有的人工打标签方式且无法根据用户的具体需求对访问网站进行分类相比,本发明实施例将不同时间点的网站中用户访问数据按照时间属性计算平均值,然后将平均值作为预设相似度算法的参数计算网站之间的相似度,再根据相似度及预置的聚类算法对网站进行分类,避免手动打标签进行分类,实现根据时间序列对用户在不同时间点访问的网站进行分类,进一步实现根据用户的需求对用户访问的网站进行分类,增加了网站分类的多样性,从而提高网站分类的效率。
本发明实施例提供另一种网站的分类方法,如图2所示,所述方法包括:
201、获取不同网站符合预设时间间隔条件的用户访问数据。
本步骤与图1所述步骤101所述的方法相同,这里不在赘述。
另外,网站获取用户访问数据的时间间隔可以为一个月或2个月,本发明实施例不做具体限定,然后按照预设时间间隔1小时或半小时对得到的用户访问数据进行提取,本发明实施例不做具体限定,以便精确记录用户访问数据。通过将网站的历史数据按照不同时间进行划分,更好的根据划分后的数据进行网站划分,提高网站划分的精确度。
202、按照工作日、周末、节假日分别统计不同网站的用户工作日访问数据的平均值、用户周末访问数据的平均值、用户节假日访问数据的平均值。
其中,所述统计的方法为相加求和,然后除以数据的个数,即按照工作日、周末、节假日中每个小时的用户访问数据,计算每个工作日、周末、节假日中的每个小时的平均值,可以得到24维的向量。通过按照工作日、周末、节假日中用户访问数据的平均值,减少处理数据的个数,简化网站分类的数据处理步骤。
203、根据所述不同网站的用户工作日访问数据平均值、用户周末访问数据平均值、用户节假日访问数据平均值,以及预设相似度算法分别计算所述不同网站之间的用户工作日访问数据相似度、用户周末访问数据相似度、用户节假日访问数据相似度。
其中,所述预设相似度算法为计算向量之间的相似度的算法,例如,余弦相似度算法,即通过计算两个向量的夹角余弦值来评估向量之间的相似度。所述计算的相似度为不同网站之间任意两个网站之间相同时间属性的平均值对应的相似度。
需要说明的是,通过平均值计算的相似度为根据网站用户工作日访问数据平均值的24维向量、网站用户周末访问数据平均值的24维向量、网站用户节假日访问数据平均值的24维向量计算的余弦相似度,其中,每个网站都会得到3个24为网站。另外,这个24维向量是根据一天中的24小时中得到的,若预设时间间隔为2小时,则为12维向量,具体的,本发明实施例不做具体限定。通过统计不同时间属性的网站之间的相似度,得到网站用户访问数据对应向量之间的相似度,以便于通过相似度对网站进行分类。
204、根据所述不同网站之间的用户工作日访问数据相似度、用户周末访问数据相似度、用户节假日访问数据相似度,以及预置聚类算法建立所述不同网站的多层级网站聚类树。
其中,所述网站的多层级网站聚类树中包括一个父节点及多个子节点,父节点可以为所有待分类的网站,每一层的子节点为按照不同划分条件进行划分的类别的子节点,每一层级中包含了所有网站,按照不同划分条件可以将不同的网站形成一个子节点,如图3所示。
需要说明的是,多层级聚类树的层级数量可以通过配置预置聚类算法中的参数,还可以将所有网站按照每个网站划分为一个子节点为止。通过建立多层级网站聚类树,便于根据层级进行网站类型的分类。
205、对多层级网站聚类树选取符合预设切分条件的多层级网站切分点。
其中,所示预设切分条件为预先根据用户需求进行设定,可以为层级的第3层或第四层,具体设定方法可以根据层级的具体层数设定,还可以为利用优化算法计算得到层级中最优分类层级等,本发明实施例不做具体限定。
例如,建立的多层级网站聚类树一共为多少层,预设切分点为第三层,则选取第三层中网站子节点。通过选取符合预设切分条件的多层级网站切分点,实现根据切分点进行网站的划分,从而提高根据用户访问网站的时间进行划分的效率。
206、根据所述多层级网站切分点对同层级的不同网站划分类别。
其中,所述不同网站划分类别为将多层级网站切分点对应的层级中的各个子节点的网站分别划分为一类。
需要说明的是,除了父节点与最末的子节点,在每个层级中的子节点中的网站为一类。
例如,多层级网站切分点的层级为第三层,此层中第一个子节点中包含了网站1和网站3,第二个子节点中包含了网站2、网站4和网站5,则将网站划分类别为2类,一类为网站1和网站3,另一类为网站2、网站4和网站5。通过对多层级网站切分点对应的网站进行划分,实现根据用户访问数据进行网站分类。
207、接收用户输入的多层级网站切分条件,对所述预设切分条件进行更新。
其中,所述用户输入的多层级网站切分条件可以在分层聚类算法中进行设置,所述更新包括了删除、增加、更改为最新的用户输入的多层级网站切分条件,本发明实施例不做具体限定。通过对切分条件进行更新,实现可以根据不同的用户需求进行划分网站。
对于本发明实施例,具体的应用场景可以如下所述,但不局限于此,包括:获取1个月内的网站1、网站2、网站3、网站4、网站5、网站6中用户访问数据,按照1个小时的时间间隔提取用户访问数据,并按照工作日、周末、节假日统计6个网站的工作日、周末、节假日平均值的24维向量为,网站1-A-A`-A``、网站2-B-B`-B``、网站3-C-C`-C``、网站4-D-D`-D``、网站5-E-E`-E``、网站6-F-F`-F``,然后根据不同网站中工作日、周末、节假日平均值利用余弦相似度算法计算6个网站之间每两个网站之间的相似度,根据预置聚类算法建立多层级网站聚类树,如图3所示,根据用户设置的预设切分条件,将第三层作为切分点,第三层中的四个子节点分别为网站1,网站2,网站3和网站4,网站5和网站6,则划分网站的类别为网站1为一类,网站2为一类,网站3和网站4为一类,网站5和网站6为一类。
本发明实施例提供的另一种网站的分类方法,通过将不同时间点的网站中用户访问数据按照工作日、周末、节假日计算平均值,然后将相同时间属性的平均值作为预设相似度算法的参数计算网站之间的相似度,再根据预置聚类算法建立多层级网站聚类树,根据预设切分点对多层级网站聚类树进行切分,得到不同分类的网站,避免手动打标签进行分类,实现根据用户访问数据对网站进行分类,增加了网站分类的多样性,提高根据用户的需求对用户访问的网站进行分类的效率。
进一步地,作为图1所示方法的具体实现,本发明实施例提供一种网站的分类装置,如图4所示,所述装置可以包括:获取单元31、统计单元32、计算单元33、分类单元34。
获取单元31,用于获取不同网站符合预设时间间隔条件的用户访问数据,所述用户访问数据为用户浏览网站所产生的流量数据;所述获取单元31为网站的分类装置执行获取不同网站符合预设时间间隔条件的用户访问数据的功能模块。
统计单元32,用于按照时间属性统计所述用户访问数据的平均值;所述统计单元32为网站的分类装置执行按照时间属性统计所述用户访问数据的平均值的功能模块。
计算单元33,用于根据所述平均值及预设相似度算法计算所述不同网站之间的相似度;所述计算单元33为网站的分类装置执行根据所述平均值及预设相似度算法计算所述不同网站之间的相似度的功能模块。
分类单元34,用于通过所述相似度及预置聚类算法对所述不同网站进行分类;所述分类单元34为网站的分类装置执行通过所述相似度及预置聚类算法对所述不同网站进行分类的功能模块。
该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。
本发明实施例提供的一种网站的分类装置,包括:获取单元、统计单元、计算单元、分类单元。获取单元,用于获取不同网站符合预设时间间隔条件的用户访问数据;统计单元,用于按照时间属性统计所述用户访问数据的平均值;计算单元,用于根据所述平均值及预设相似度算法计算所述不同网站之间的相似度;分类单元,用于通过所述相似度及预置聚类算法对所述不同网站进行分类。与现有的人工打标签方式且无法根据用户的具体需求对访问网站进行分类相比,本发明实施例将不同时间点的网站中用户访问数据按照时间属性计算平均值,然后将平均值作为预设相似度算法的参数计算网站之间的相似度,再根据相似度及预置的聚类算法对网站进行分类,避免手动打标签进行分类,实现根据时间序列对用户在不同时间点访问的网站进行分类,进一步实现根据用户的需求对用户访问的网站进行分类,增加了网站分类的多样性,从而提高网站分类的效率。
进一步地,作为图1所示方法的具体实现,本发明实施例提供另一种网站的分类装置,如图5所示,所述装置可以包括:获取单元41、统计单元42、计算单元43、分类单元44、更新单元45。
获取单元41,用于获取不同网站符合预设时间间隔条件的用户访问数据,所述用户访问数据为用户浏览网站所产生的流量数据;
统计单元42,用于按照时间属性统计所述用户访问数据的平均值;
计算单元43,用于根据所述平均值及预设相似度算法计算所述不同网站之间的相似度;
分类单元44,用于通过所述相似度及预置聚类算法对所述不同网站进行分类。
进一步地,所述分类单元44:
建立模块4401,用于根据所述相似度与预置聚类算法建立所述不同网站的多层级网站聚类树;所述建立模块4401为另一种网站的分类装置执行根据所述相似度与预置聚类算法建立所述不同网站的多层级网站聚类树的功能模块。
选取模块4402,用于对多层级网站聚类树选取符合预设切分条件的多层级网站切分点;所述选取模块4402为另一种网站的分类装置执行对多层级网站聚类树选取符合预设切分条件的多层级网站切分点的功能模块。
划分模块4403,用于根据所述多层级网站切分点对同层级的不同网站划分类别。
所述统计单元42,具体用于按照工作日、周末、节假日分别统计不同网站的用户工作日访问数据的平均值、用户周末访问数据的平均值、用户节假日访问数据的平均值;
所述计算单元43,具体用于根据所述不同网站的用户工作日访问数据平均值、用户周末访问数据平均值、用户节假日访问数据平均值,以及预设相似度算法分别计算所述不同网站之间的用户工作日访问数据相似度、用户周末访问数据相似度、用户节假日访问数据相似度。
所述建立模块4401,具体用于根据所述不同网站之间的用户工作日访问数据相似度、用户周末访问数据相似度、用户节假日访问数据相似度,以及预置聚类算法建立所述不同网站的多层级网站聚类树。
进一步地,所述装置还包括:
更新单元45,用于接收用户输入的多层级网站切分条件,对所述预设切分条件进行更新;所述更新单元45为另一种网站的分类装置执行接收用户输入的多层级网站切分条件,对所述预设切分条件进行更新的功能模块。
该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。
本发明实施例提供的另一种网站的分类装置,通过将不同时间点的网站中用户访问数据按照工作日、周末、节假日计算平均值,然后将相同时间属性的平均值作为预设相似度算法的参数计算网站之间的相似度,再根据预置聚类算法建立多层级网站聚类树,根据预设切分点对多层级网站聚类树进行切分,得到不同分类的网站,避免手动打标签进行分类,实现根据用户访问数据对网站进行分类,增加了网站分类的多样性,提高根据用户的需求对用户访问的网站进行分类的效率。
所述网站的分类装置包括处理器和存储器,上述获取单元、统计单元、计算单元和分类单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来解决人工打标签方式操作成本大,且无法根据用户的具体需求对访问网站进行分类的问题。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取不同网站符合预设时间间隔条件的用户访问数据,所述用户访问数据为用户浏览网站所产生的流量数据;按照时间属性统计所述用户访问数据的平均值;根据所述平均值及预设相似度算法计算所述不同网站之间的相似度;通过所述相似度及预置聚类算法对所述不同网站进行分类。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种网站的分类方法,其特征在于,包括:
获取不同网站符合预设时间间隔条件的用户访问数据,所述用户访问数据为用户浏览网站所产生的流量数据;
按照时间属性统计所述用户访问数据的平均值;
根据所述平均值及预设相似度算法计算所述不同网站之间的相似度;
通过所述相似度及预置聚类算法对所述不同网站进行分类。
2.根据权利要求1所述的方法,其特征在于,所述通过所述相似度及预置聚类算法对所述不同网站进行分类包括:
根据所述相似度与预置聚类算法建立所述不同网站的多层级网站聚类树;
对多层级网站聚类树选取符合预设切分条件的多层级网站切分点;
根据所述多层级网站切分点对同层级的不同网站划分类别。
3.根据权利要求2所述的方法,其特征在于,所述时间属性包括工作日、周末、节假日,所述按照时间属性统计所述用户访问数据的平均值包括:
按照工作日、周末、节假日分别统计不同网站的用户工作日访问数据的平均值、用户周末访问数据的平均值、用户节假日访问数据的平均值。
4.根据权利要求3所述的方法,其特征在于,所述根据所述平均值及预设相似度算法计算所述不同网站之间的相似度包括:
根据所述不同网站的用户工作日访问数据平均值、用户周末访问数据平均值、用户节假日访问数据平均值,以及预设相似度算法分别计算所述不同网站之间的用户工作日访问数据相似度、用户周末访问数据相似度、用户节假日访问数据相似度;
所述根据所述相似度与预置聚类算法建立所述不同网站的多层级网站聚类树包括:
根据所述不同网站之间的用户工作日访问数据相似度、用户周末访问数据相似度、用户节假日访问数据相似度,以及预置聚类算法建立所述不同网站的多层级网站聚类树。
5.根据权利要求2-4任一项所述的方法,其特征在于,所述对所述多层级网站切分点对应的网站划分类别之后,所述方法还包括:
接收用户输入的多层级网站切分条件,对所述预设切分条件进行更新。
6.一种网站的分类装置,其特征在于,包括:
获取单元,用于获取不同网站符合预设时间间隔条件的用户访问数据,所述用户访问数据为用户浏览网站所产生的流量数据;
统计单元,用于按照时间属性统计所述用户访问数据的平均值;
计算单元,用于根据所述平均值及预设相似度算法计算所述不同网站之间的相似度;
分类单元,用于通过所述相似度及预置聚类算法对所述不同网站进行分类。
7.根据权利要求6所述的装置,其特征在于,所述分类单元包括:
建立模块,用于根据所述相似度与预置聚类算法建立所述不同网站的多层级网站聚类树;
选取模块,用于对多层级网站聚类树选取符合预设切分条件的多层级网站切分点;
划分模块,用于根据所述多层级网站切分点对同层级的不同网站划分类别。
8.根据权利要求7所述的装置,其特征在于,
所述统计单元,具体用于按照工作日、周末、节假日分别统计不同网站的用户工作日访问数据的平均值、用户周末访问数据的平均值、用户节假日访问数据的平均值。
9.根据权利要求8所述的装置,其特征在于,
所述计算单元,具体用于根据所述不同网站的用户工作日访问数据平均值、用户周末访问数据平均值、用户节假日访问数据平均值,以及预设相似度算法分别计算所述不同网站之间的用户工作日访问数据相似度、用户周末访问数据相似度、用户节假日访问数据相似度;
所述建立模块,具体用于根据所述不同网站之间的用户工作日访问数据相似度、用户周末访问数据相似度、用户节假日访问数据相似度,以及预置聚类算法建立所述不同网站的多层级网站聚类树。
10.根据权利要求7-9任一项所述的装置,其特征在于,所述装置还包括:
更新单元,用于接收用户输入的多层级网站切分条件,对所述预设切分条件进行更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611152977.0A CN108228602A (zh) | 2016-12-14 | 2016-12-14 | 网站的分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611152977.0A CN108228602A (zh) | 2016-12-14 | 2016-12-14 | 网站的分类方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108228602A true CN108228602A (zh) | 2018-06-29 |
Family
ID=62638955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611152977.0A Pending CN108228602A (zh) | 2016-12-14 | 2016-12-14 | 网站的分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108228602A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110689964A (zh) * | 2019-09-12 | 2020-01-14 | 银江股份有限公司 | 一种健康数据样例搜索方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103177090A (zh) * | 2013-03-08 | 2013-06-26 | 亿赞普(北京)科技有限公司 | 一种基于大数据的话题检测方法及装置 |
CN104376066A (zh) * | 2014-11-05 | 2015-02-25 | 北京奇虎科技有限公司 | 一种网络特定内容挖掘方法和装置、及一种电子设备 |
-
2016
- 2016-12-14 CN CN201611152977.0A patent/CN108228602A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103177090A (zh) * | 2013-03-08 | 2013-06-26 | 亿赞普(北京)科技有限公司 | 一种基于大数据的话题检测方法及装置 |
CN104376066A (zh) * | 2014-11-05 | 2015-02-25 | 北京奇虎科技有限公司 | 一种网络特定内容挖掘方法和装置、及一种电子设备 |
Non-Patent Citations (2)
Title |
---|
周大镯: "《多变量时间序列研究》", 31 December 2012, 河北人民出版社 * |
韩忠明等: "《数据分析与R》", 31 August 2014 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110689964A (zh) * | 2019-09-12 | 2020-01-14 | 银江股份有限公司 | 一种健康数据样例搜索方法及系统 |
CN110689964B (zh) * | 2019-09-12 | 2022-08-26 | 银江技术股份有限公司 | 一种健康数据样例搜索方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102915347B (zh) | 一种分布式数据流聚类方法及系统 | |
CN102682059B (zh) | 用于将用户分配到集群的方法和系统 | |
US11921750B2 (en) | Database systems and applications for assigning records to chunks of a partition in a non-relational database system with auto-balancing | |
CN107292186A (zh) | 一种基于随机森林的模型训练方法和装置 | |
US20190102445A1 (en) | System and method for enabling multiple parents with weights in a multidimensional database environment | |
CN103699541B (zh) | 用于提高分类精度的交互式可视数据挖掘 | |
US20150302433A1 (en) | Automatic Generation of Custom Intervals | |
WO2019067079A1 (en) | SYSTEM AND METHOD FOR LOAD, AGGREGATE AND BATCH CALCULATION IN SINGLE SCAN IN A MULTIDIMENSIONAL DATABASE ENVIRONMENT | |
CN110135890A (zh) | 基于知识关系挖掘的产品数据推送方法及相关设备 | |
Zhang et al. | Discovering strong communities with user engagement and tie strength | |
CN106919370A (zh) | 一种对象属性值的获取方法及装置 | |
US10902023B2 (en) | Database-management system comprising virtual dynamic representations of taxonomic groups | |
CN106598999A (zh) | 一种计算文本主题归属度的方法及装置 | |
CN108153776A (zh) | 数据查询方法及装置 | |
CN106202092A (zh) | 数据处理的方法及系统 | |
CN109471718A (zh) | 基于人脸识别的计算资源配置方法、装置、设备及介质 | |
CN112100219A (zh) | 基于数据库查询处理的报表生成方法、装置、设备和介质 | |
CN110457182A (zh) | 一种负载均衡集群实例运行指标监控系统 | |
CN111143685A (zh) | 一种推荐系统的构建方法及装置 | |
EP3437060A1 (en) | Rule based hierarchical configuration | |
CN108959359A (zh) | 一种统一资源定位符语义去重方法、装置、设备和介质 | |
CN106648839A (zh) | 数据处理的方法和装置 | |
CN114676961A (zh) | 企业外迁风险预测方法、装置及计算机可读存储介质 | |
CN114119068A (zh) | 一种药店企业微信客户群的智能分析方法及管理平台 | |
CN106294788A (zh) | 安卓应用的推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing Applicant after: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd. Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing Applicant before: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd. |
|
CB02 | Change of applicant information | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180629 |
|
RJ01 | Rejection of invention patent application after publication |