CN105677772B

CN105677772B - 一种isp间互联口url活跃度的统计方法及装置

Info

Publication number: CN105677772B
Application number: CN201511025131.6A
Authority: CN
Inventors: 黄友俊; 李星; 吴建平; 段晓磊; 邓斌
Original assignee: CERNET Corp
Current assignee: CERNET Corp
Priority date: 2015-12-30
Filing date: 2015-12-30
Publication date: 2019-07-09
Anticipated expiration: 2035-12-30
Also published as: CN105677772A

Abstract

本发明公开了一种ISP间互联口URL活跃度统计方法及装置，所述方法包括：步骤1、收集预定时间周期内被访问的URL网页数据，对预定时间周期内点击访问的URL网页的被访问次数进行统计，获得访问次数排名靠前的预定数量的高活跃度URL及访问时间长度；步骤2、对所述预定数量的URL中新出现的URL网页的内容进行内容特征词的查找，与预先建立的特征词数据库中的特征词进行比对，划分该URL网页的内容特征方向以及内容权重并存储；步骤3、对所述高活跃度URL，依据其访问次数、内容特征方向和访问时间长度进行加权平均分析，得到每个URL的活跃度指数UAI；步骤4、利用所述活跃度指数UAI对所述URL的活跃度进行排名。

Description

一种ISP间互联口URL活跃度的统计方法及装置

技术领域

本发明涉及互联网技术领域。更具体的，本发明涉及一种利用互联互通口URL日志来统计ISP间URL域名活跃度的方法。

背景技术

近年来，随着光纤普及以及互联网带宽的迅猛发展，国内互联网各个ISP厂商之间的市场竞争愈发激烈，各个运营商的竞争已经逐步转移到服务的竞争，都在力争打造自己的生态圈争取更多的用户使用自己的入口，国内各个运营商逐步向以客户为中心的思维运营模式做转变，新的商业模式和日趋激烈的竞争对各个运营商的管理提出了新的要求和挑战。

发明内容

本发明主要目的是通过对互联互通口的URL进行分析，深入分析URL活跃情况，进一步了解用户的上网行为，以便于及时把握上网用户的情况。

根据本发明一方面，提供了一种ISP间互联口URL活跃度统计方法，包括

步骤1、收集预定时间周期内被访问的URL网页数据，对预定时间周期内点击访问的URL网页的被访问次数进行统计，获得访问次数排名靠前的预定数量的高活跃度URL及访问时间长度；

步骤2、对所述预定数量的URL中新出现的URL网页的内容进行内容特征词的查找，与预先建立的特征词数据库中的特征词进行比对，划分该URL网页的内容特征方向以及内容权重并存储；

步骤3、对所述高活跃度URL，依据其访问次数、内容特征方向和访问时间长度进行加权平均分析，得到每个URL的活跃度指数UAI；

步骤4、利用所述活跃度指数UAI对所述URL的活跃度进行排名。

根据本发明另一方面，提供了一种ISP间互联口URL活跃度统计装置，包括

收集模块，用于收集预定时间周期内被访问的URL网页数据，对预定时间周期内点击访问的URL网页的被访问次数进行统计，获得访问次数排名靠前的预定数量的高活跃度URL及访问时间长度；

归类模块，用于对所述预定数量的URL中新出现的URL网页的内容进行内容特征词的查找，与预先建立的特征词数据库中的特征词进行比对，划分该URL网页的内容特征方向以及内容权重并存储；

分析模块，用于对所述高活跃度URL，依据其访问次数、内容特征方向和访问时间长度进行加权平均分析，得到每个URL的活跃度指数UAI；

排名模块，用于利用所述活跃度指数UAI对所述URL的活跃度进行排名。

附图说明

图1是本发明中一种ISP间互联口URL活跃度的统计方法流程图；

图2是本发明中新出现的URL的特征词分析及网页内容分类以及计算URL内容特征指数的整体流程图；

图3是本发明中基于字典分词方法流程图；

图4是传统的实现网页文本分类的无环图标准算法流程图；

图5是本发明中实现网页文本分类的无环图优化算法流程图；

图6是本发明中URL内容特征指数算法流程图；

图7是本发明中URL活跃度整个算法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

为此，本发明提出了一种基于ISP互联互通口采集到的URL来分析URL分类活跃情况，以便于了解用户的流量趋势和热点趋势。

图1示出了本发明提出的一种ISP间互联口URL活跃度的统计方法流程图。本发明涉及2部分，一部分是URL网页的文本分词，提取特征词，针对特征词进行分类，按照特征词对比热证词库来对URL进行标识，按照标识维度及权重来确定URL的活跃度。

另外一部分是URL根据其各种指标，包括URL每天出现的次数，URL网页内容特征词，用户的访问时长等，利用加权平均指定出URL活跃度指数，进一步确定URL活跃度排名。

通过以上对URL活跃度的统计分析，能看到用户的访问热点区域和热点趋势。

如图1所示，本发明提出的ISP间URL活跃度的统计方法包括：

收集预定时间周期内被访问的URL网页数据，对预定时间周期内点击访问的URL网页的被访问次数进行统计，获得访问次数排名靠前的预定数量的URL，将所述排名靠前的URL网页存储为新的高活跃度URL网页，同时对已经存储的高活跃度URL网页也进行当天点击访问次数的统计；

对新的高活跃度URL网页的内容进行内容特征词的查找，与预先建立的特征词数据库中的特征词进行比对，划分该URL网页的内容特征方向以及内容权重；

对所述高活跃度URL网页，依据访问次数、内容特征方向和用于对该URL网页访问的时长进行加权平均分析，得到每个URL网页的活跃度指数UAI。

本发明提出的上述方法还可以根据业务研究URL内容的方向，调整特征词数据库中特征词的权重，来获得倾向于研究方向的URL网页活跃度排名。

下面通过示意性的实施例来对本发明的上述方法进行详细说明。本发明第一实施例基于CERNET教育网IPv4基于北京武汉广州等5个互联口采集的URL数据进行分析。

本发明第一实施例中的ISP间URL活跃度的统计方法包括：

步骤1：URL新旧识别和出现次数汇总

步骤101：收集预定时间周期内被点击访问的URL网页数据；

步骤102：提取出目前已有的URL活跃度数据库中活跃度指数UAI大于90的已有高活跃度URL，利用所述已有高活跃度URL对所述提取的URL网页数据进行排查。该步骤中，针对每个已有高活跃度URL，按照URL地址字符串在当天的URL记录中做全文件按顺序搜索，当出现URL整字符串一致时，从所述URL网页数据中提取该条数据并记录下该记录的时间长度。最后累计出各个已有高活跃度URL在所述预定时间周期内被点击访问的次数以及用户访问其的总的时间长度。

步骤103：从所提取的URL网页数据中提取不在所述已有URL活跃度数据库中的新URL，利用所述URL网页数据，对所述新URL在所述预定时间周期内被点击访问的次数进行统计，最后提取访问次数排名靠前的预定数量TOP100个新URL，同时提取所述预定数量TOP100个新URL的被访问次数和被访问的总体时间长度。

步骤2：新URL的特征词分析及网页内容分类；

该步骤是针对上述步骤103中新出现的TOP100 URL，分析其网页中的特征词，为步骤3中的【UAI(C)URL内容特征指数】作为URL活跃度统计中很重要的一项统计指标做数据准备。

通过对上述步骤103中排名靠前的预定数量TOP100的新URL的网页内容进行文本分词，提取网页内容中的关键字进行特征选择，根据特征向量对提取的关键词与已有的关键词分类维度表进行匹配，将所述新URL的网页内容和URL地址归并到指定的分类中。

本发明中内容分类遵循统一的分类模式，具体可以按业务大类和业务小类方式进行划分，业务大类如应用，新闻，教育等，将应用可进一步划分为小类，如手机app，音乐，视频等。从而将内容分到对应的业务大类和业务小类中。每个分类都对应相应的数值和权重，URL特征词匹配所有能对应上的分类，按分类汇总得到URL内容特征指数。

该步骤整体流程见图2。

所述步骤2进一步包括：

步骤201：文本分词

文本分词依据分词算法将提取后的网页内容汉字序列分成一个个单独的词，最终实现识别语句含义的目的。

本方法是基于字符串匹配(字典)的分词，即按照一定策略将待切分的汉字序列与数据库字典中的词条进行匹配，按照匹配方向不同采用正向匹配，逆向匹配以及双向匹配，按照不同长度优先匹配的情况分为最长匹配和最短匹配。单纯正常最长匹配错误率1/169，单纯逆向最长匹配错误率为1/245；

如图3所示，本发明中基于字典分词方法，具体包括：

从网页内容的文本语句中剔除英文、特殊符号等，提取出中文汉字；

基于字典分词方法，对所述中文汉字进行分词得到多个词条。

对于每个词条进行下一步的分词特征向量分析。

步骤202：分词的特征向量分析

分词经过特征向量计算，能区分出独立词的独立性，同时TFIDF算出的特征向量体现出分词后的独立词出现的频率，对高频率的独立词进行步骤203的文本分类。

分词处理输出的结果，通过构建正则表达式方式，去掉常用感叹词，副词等，余下的则用来表征网页文本特征向量，如下公式所示

doc_j＝{<t_j1，w_j1><t_j2，w_j2>，...，<t_jn，w_jn>}

其中t_ji是网页j中出现的第i个词，w_ji是词t_ji在网页中的权值，一般定义为t_ji在网页中出现的频率函数。由于高维文本向量应用文本自动分类几乎难实现，所以必须先进行降维处理，也就是特征选择。

经特征选择降维后的文本特征集中包含2个特点，完全性和区分性，完全性就是体现文本内容和主题，区分性是能有效区分文本之间。

本发明使用TFIDF算法，TF即词频，就是词在文本中出现的次数，IDF即反文档频率，表示词在整体词数据库文本集中普遍重要性的度量。反文档频率为IDF(t)＝lg(N/n)，N为网页文本词库全部文本数量，n为包含词t的文本数量。TFIDF＝TF*IDF。

步骤203：文本分类

文本分类环节主要是基于网页文本的特征向量将每个网页文本归入到预先定义好的URL类别中。本发明采用有向无环图算法，来实现网页文本分类。如图4所示，以5个类别的左向无环算法为例，第一个分类首先区分1类对5类的归属判断，如果属于5类，分类器向左继续进入2类对5类的分类，如果还是归属5类，则继续向左，依次向下，直到分出最终结果。

此方式的缺点是如果上一个节点分类出现错误，则后面的分类无法纠正，存在错误累计情况，所以在本发明中把差别大的排在前面，分类器按照两类分类的正确性从高到低排列。如图5所示，先区分差异较大的两类，依次类推。

步骤204：URL内容特征指数算法

如图6所示，针对词典的词进行分类，按照业务需要分为：先将所述词典库中的词进行词分类，再对词分类进行大分类。

分类部分举例表：

通过与词库字典的词分类进行交叉比对，该URL网页根据分词结果匹配到不同的特征词上，根据特征词可归属到其所属的分类，然后根据每个分类的权重数值之和得到该URL的内容特征指数UAI(C)。

另外，可以根据该发明，针对自己行业调整数据库中各个分类的不同权重，可以让最终URL活跃度统计指数向自己所需的统计方向倾斜。

步骤3：URL活跃度指数UAI

如图7所示，UAI相关指标和权重由以下几块组成：

UAI由三块指标来组成，每个指标还细分为几个小指标，每个小指标都有3个数据项：一个就是该项分数，一个就是该项在统计中占的权重，还一个就是由于分数数量级不一样的原因，每个指标还有平衡数据为一个数量级的平衡因子。

URL活跃度由URL出现次数/网页内容特征和URL停留时间来综合判定。URL活跃度指数＝URL出现次数指数(权重40％)+URL内容特征指数(权重50％)+URL停留时间指数(权重10％)。

URL出现次数由当天出现次数/最近一星期出现次数合计/最近一个月出现次数合计，以及最近一周内的URL出现最高值和平均值来综合计算得出。URL出现次数指数＝URL当天出现次数(权重55％)+URL前7天出现次数合计(权重15％)+URL前30天出现次数合计(权重10％)+7天内最高次数(权重10％)+7天内平均次数(权重10％)

URL内容特征指数就是该URL页面涉及的内容特征词指数，就是上面步骤2统计出的内容特征词分数合计(权重100％，由于该分数在ln指数与URL出现次数相差2个数量级，所以该数量级的平衡因子为100)

URL停留时间指数就是用户停留此URL的访问时间指数。URL停留时间指数＝停留时间合计(权重60％)+平均停留时间(权重40％)

对每个最小指标的定义和计算描述如下：

URL当天出现次数(TN)：利用上述方法，对已有的以及新出现的URL进行次数累计统计.

URL前7天出现次数合计(WN)：统计出过去7天(当天不含)的URL合计次数

URL前30天出现次数合计(MN)：统计出过去30天的URL合计次数

7天内最高次数(Nmax)：统计出已出现的URL的7天内的最大按天合计次数

7天内平均次数(Navg)：统计出7天内的每个URL次数的的平均值

内容特征词分数合计(CFT)：上述步骤2统计出的特征词，能匹配上的各个特征词的分数之和。

停留时间合计(TT)：当天的URL的用户访问该URL的停留页面时长的合计(秒长)，对于当天无访问记录的原URL，该停留时长设为0；

平均停留时间(AVT)：AVT＝停留总时长(秒)/访问次数合计；

Ln指数算法的数量级的平衡因子表

UAI指标权重列表

UAI活跃度指标最终公式：

UAI＝[40％*ln(55％*(TN+1)+15％*(WN+1)+10％*(MN+1)+10％*(Nmax+1)+10％*(Navg+1))+50％*ln(CFT*100)+10％*ln(60％*TT+40％*AVT)]*10；

指标对数化后的数值范围

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种ISP间互联口URL活跃度统计方法，包括

步骤4、利用所述活跃度指数UAI对所述URL的活跃度进行排名；

其中，步骤2还包括：

步骤201、对所述新出现的URL网页的内容进行文本分词；

步骤202、对所得到的文本分词进行特征向量计算，所述特征向量用于体现分词后独立词出现的频率；

其中，分词处理输出的结果，通过构建正则表达式方式，去掉常用感叹词，副词，余下的则用来表征网页文本特征向量，特征向量如下公式所示：

doc_j＝{<t_j1,w_j1><t_j2,w_j2>,...,<t_jn,w_jn>}

其中t_ji是网页j中出现的第i个词，w_ji是词t_ji在网页中的权值，定义为t_ji在网页中出现的频率函数；

高维文本向量先进行特征选择；经特征选择降维后的文本特征集中包含完全性和区分性，完全性体现文本内容和主题，区分性能实现文本之间的区分；

步骤203、根据所述特征向量确定独立词的频率高于预定阈值的分词，利用其特征向量将所述新出现的URL网页划分至预先定义好的URL类别中；

该方法还包括，根据业务研究URL内容的方向，调整特征词数据库中特征词的权重，获得倾向于研究方向的URL网页活跃度排名。

2.如权利要求1所述的方法，其中，所述步骤1收集一天内被访问的URL网页数据，并对当天内点击访问的URL网页的被访问次数进行统计，获得访问次数排名前200名的URL进行统计。

3.如权利要求1所述的方法，其中，步骤2还包括：

步骤201、对所述新出现的URL网页的内容进行文本分词；

步骤203、根据所述特征向量确定独立词的频率高于预定阈值的分词，利用其特征向量将所述新出现的URL网页划分至预先定义好的URL类别中。

4.如权利要求1所述的方法，其中，步骤3中所述URL的活跃度指数UAI为URL出现次数指数、URL内容特征指数和URL停留时间指数的加权和；所述URL出现次数指数为URL当天出现次数、URL前7天出现次数、URL前30天出现次数、7天内最高次数和7天内平均次数的加权和；所述URL内容特征指数为该URL对应网页内容中的内容特征词分数合计；URL停留时间指数为停留时间合计和平均停留时间的加权和。

5.如权利要求4所述的方法，其中，步骤1还包括：

步骤101：收集预定时间周期内被点击访问的URL网页数据；

步骤102：提取出目前已有的URL活跃度数据库中活跃度指数UAI大于90的已有高活跃度URL，利用所述已有高活跃度URL对所述URL网页数据进行排查，统计其被访问次数和访问时间长度；

步骤103：从所述URL网页数据中提取不在所述已有URL活跃度数据库中的新出现的URL，利用所述URL网页数据，对所述新出现的URL在所述预定时间周期内被点击访问的次数进行统计，最后提取访问次数排名靠前的预定数量的URL，同时提取所述新出现的URL的被访问次数和访问时间长度。

6.如权利要求2所述的方法，其中步骤201包括：

从网页内容的文本语句中剔除英文、特殊符号，提取出中文汉字；

基于字典分词方法，对所述中文汉字进行分词得到多个。

7.一种ISP间互联口URL活跃度统计装置，采用如权利要求1-6任一项所述的方法，包括

排名模块，用于利用所述活跃度指数UAI对所述URL的活跃度进行排名；

分词模块，用于对所述新出现的URL网页的内容进行文本分词；

特征向量分析模块，用于对所得到的文本分词进行特征向量计算，所述特征向量用于体现分词后独立词出现的频率。

8.如权利要求7所述的装置，其中，所述收集模块用于收集一天内被访问的URL网页数据，并对当天内点击访问的URL网页的被访问次数进行统计，获得访问次数排名前200名的URL进行统计。

9.如权利要求7所述的装置，其中，所述归类模块还包括：

划分类别模块，用于根据所述特征向量确定独立词的频率高于预定阈值的分词，利用其特征向量将所述新出现的URL网页划分至预先定义好的URL类别中。

10.如权利要求7所述的装置，其中，所述URL的活跃度指数UAI为URL出现次数指数、URL内容特征指数和URL停留时间指数的加权和；所述URL出现次数指数为URL当天出现次数、URL前7天出现次数、URL前30天出现次数、7天内最高次数和7天内平均次数的加权和；所述URL内容特征指数为该URL对应网页内容中的内容特征词分数合计；URL停留时间指数为停留时间合计和平均停留时间的加权和。