CN104536972B - 基于cdn的网页内容感知系统及方法 - Google Patents

基于cdn的网页内容感知系统及方法 Download PDF

Info

Publication number
CN104536972B
CN104536972B CN201410727791.8A CN201410727791A CN104536972B CN 104536972 B CN104536972 B CN 104536972B CN 201410727791 A CN201410727791 A CN 201410727791A CN 104536972 B CN104536972 B CN 104536972B
Authority
CN
China
Prior art keywords
url
module
daily record
webpage
predetermined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410727791.8A
Other languages
English (en)
Other versions
CN104536972A (zh
Inventor
鄂海红
宋美娜
郑聪
王赟
李川
潘昊
宋俊德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bo Motomori Wo Information Technology (beijing) Co Ltd
Beijing University of Posts and Telecommunications
Original Assignee
Bo Motomori Wo Information Technology (beijing) Co Ltd
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bo Motomori Wo Information Technology (beijing) Co Ltd, Beijing University of Posts and Telecommunications filed Critical Bo Motomori Wo Information Technology (beijing) Co Ltd
Priority to CN201410727791.8A priority Critical patent/CN104536972B/zh
Publication of CN104536972A publication Critical patent/CN104536972A/zh
Application granted granted Critical
Publication of CN104536972B publication Critical patent/CN104536972B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于CDN的网页内容感知系统包括数据获取模块、数据管理模块、处理模块和控制器。数据获取模块用于采集日志数据。数据管理模块包括第一存储模块,第一存储模块存储有索引表,索引表包括特定互联网内容提供商的预定URL及其对应的预定页面结构。控制器用于控制数据获取模块采集日志数据,并控制处理模块从日志数据中提取出URL及相关参数;控制器还用于控制处理模块根据预定URL从URL中筛选出目的URL,以及控制处理模块根据预定页面结构对目的URL的页面结构进行分析以感知网页的特征词。本发明的基于CDN的网页内容感知系统具有全面的、实时性高、通用性强的特点。本发明还提出一种基于CDN的网页内容感知方法。

Description

基于CDN的网页内容感知系统及方法
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于CDN的网页内容感知系统及方法。
背景技术
内容分发网络(content distribution network,CDN)是指一种通过互联网互相连接的计算机网络系统,CDN节点服务器设置在多个地点、多个不同的网络上。这些节点之间会动态的互相传输内容,优化用户的下载行为,并借此减少内容供应者所需要的带宽成本,改善用户的下载速度,提升用户上网体验,提高系统稳定性。CDN网络虽然具有丰富的大数据样本空间,但其对“网页”这一内容节点感知的信息维度较少,尚不能充分挖掘出隐藏在大数据内容背后更多的价值。
不同于CDN服务提供商,单一互联网公司掌握着自身网页节点的全局信息。若能综合多个数据源,挖掘全网网页节点的深层信息,深度感知网页内容,便能构建起以“网页内容节点”为视角的网络世界评估体系。
对于网页内容感知已有很多相关研究,目前比较常用的方法是首先对网页进行基于HTML或XML或DOM的结构化分析,然后再根据信息在网页上的具体位置将信息从网页中抽取出来。还有基于视觉的分块方法,该方法采用视觉信息对网页进行分块,进而提取网页内容。但是由于不同公司或机构的开发要求以及开发人员的习惯不同,不同公司间的页面结构往往存在很大的差异,即使在网页内容展示效果差距不大、开发语言相同的前提下,在编码方式等方面也存在巨大差异,所以对于需要先进行页面结构分析再进行网页内容提取的方案,通用性较差并且对于海量网页数据缺乏高时效性。基于视觉进行分块的方法通常对于网页的分块太过硬性,灵活度较差。对于面向搜索引擎的网页内容提取方案,多为仅提取正文及标题内容,并没有进一步的深度分析及处理,缺乏对于网页内容深度、全面的感知。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的第一方面的目的在于提出一种具有全面的、实时性高、通用性强的基于CDN的网页内容感知系统。
本发明第二方面的目的在于提出一种基于CDN的网页内容感知方法。
为了实现上述目的,本发明第一方面实施例的基于CDN的网页内容感知系统包括数据获取模块、数据管理模块、处理模块和控制器。数据获取模块用于采集日志数据。。所述数据管理模块包括第一存储模块,所述第一存储模块存储有索引表,所述索引表包括特定互联网内容提供商的预定URL(uniform resource locator)及预定URL对应的预定页面结构。所述处理模块从所述日志数据中提取出URL及相关参数,根据所述预定URL从所述URL中筛选出目的URL,并根据所述预定页面结构对所述目的URL的页面结构进行分析以感知所述网页的特征词。控制器用于控制所述数据获取模块采集日志数据,并控制所述处理模块从所述日志数据中提取出URL及相关参数;所述控制器,还用于控制所述处理模块根据所述预定URL从所述URL中筛选出目的URL,以及控制所述处理模块根据所述预定页面结构对所述目的URL的页面结构进行分析以感知所述网页的特征词。
根据本发明实施例的基于CDN的网页内容感知系统,通过数据获取单元实时地获取日志数据,处理模块从日志数据中提取出URL及相关参数,根据预定URL从URL中筛选出目的URL,并根据预定页面结构对目的URL的页面结构进行分析以感知网页的特征词,解决了不同互联网提供商间的页面结构的差异化问题,通用性强,从而提高了本发明实施例的基于CDN的网页内容感知系统的可靠性、可用性和扩展性。
在一些示例中,所述处理模块包括预处理模块、结构分析模块和内容感知模块。预处理模块用于从所述日志数据中提取出URL及相关参数,并根据所述预定URL从所述URL中筛选出目的URL。结构分析模块用于根据所述预定页面结构对所述目的URL的页面结构进行分析以获取需要感知的内容块。内容感知模块用于从所述内容块中感知出用于描述所述网页的特征词。
在一些示例中,所述数据管理模块还包括:第二存储模块和挖掘模块。第二存储模块用于存储所述目的URL的网页,所述处理模块还用于控制所述第二控制器存储所述目的URL的网页。挖掘模块用于从所述目的URL的网页中挖掘出所述预定的页面结构。
在一些示例中,所述处理模块还包括预测模块。预测模块用于通过对所述特征词进行统计处理以获取热点内容。
在一些示例中,所述数据获取模块利用分布式消息队列方式采集日志数据。
在一些示例中,所述预处理模块基于正则表达式的方法从所述日志数据中提取出URL及相关参数。
本发明第二方面实施例的基于CDN的网页内容感知方法,包括以下步骤:采集日志数据;从所述日志数据中提取出URL及相关参数;根据预定URL从所述URL中筛选出目的URL,并根据预定页面结构对所述目的URL的页面结构进行分析以感知所述网页的特征词。
根据本发明实施例的基于CDN的网页内容感知方法,从获取的日志数据中提取出URL及相关参数,根据预定URL从URL中筛选出目的URL,并根据预定页面结构对目的URL的页面结构进行分析以感知网页的特征词,解决了不同互联网提供商间的页面结构的差异化问题,通用性强,从而提高了本发明实施例的基于CDN的网页内容感知系统的可靠性、可用性和扩展性。
在一些示例中,还包括:通过对所述特征词进行统计处理以获取热点内容。
在一些示例中,利用分布式消息队列方式采集日志数据。
在一些示例中,基于正则表达式的方法从所述日志数据中提取出URL及相关参数。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1是根据本发明一个实施例的基于CDN的网页内容感知系统的结构框图;
图2是本发明一个实施例的采集日志消息队列的逻辑结构图;
图3是本发明一个实施例的处理模块工作过程示意图;和
图4是根据本发明一个实施例的基于CDN的网页内容感知方法的流程图。
具体实施方式
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
参见图1,本发明实施例的基于CDN的网页内容感知系统100包括:数据获取模块10、数据管理模块20、处理模块30和控制器40。
数据获取模块10用于采集日志数据。数据管理模块20包括第一存储模块22。第一存储模块22存储有索引表,索引表包括特定互联网内容提供商的预定URL(uniformresource locator)及预定URL对应的预定页面结构。处理模块30从日志数据中提取出URL及相关参数,根据预定URL从URL中筛选出目的URL,并根据预定页面结构对目的URL的页面结构进行分析以感知网页的特征词。控制器40用于控制数据获取模块10采集日志数据,并控制处理模块30从日志数据中提取出URL及相关参数,还用于控制处理模块30根据预定URL从URL中筛选出目的URL,以及控制处理模块30根据预定页面结构对目的URL的页面结构进行分析以感知网页的特征词。
具体地,在本发明的一个实施例中,数据获取模块10利用分布式消息队列方式采集日志数据。例如图2的LinkedIn的基于kafka的日志采集及处理逻辑结构图所示,Kafka中主要有三种角色,分别为producer,broker和consumer。
(1)Producer
Producer即为采集日志部分,这些分布式日志采集节点将采集到的海量日志数据推送到Broker中。
(2)Broker
Broker采取了多种策略提高数据处理效率,包括sendfile和zero copy等技术。为了降低I/O压力,Broker也是分布式部署的,
(3)Consumer
Consumer为不同的功能处理节点,他们将从Broker中抽取需要的日志进行下一步处理
在本发明的实施例中,通过这种分布式加载机制来统一线上和离线的消息处理过程,这样既满足了系统100的分布式架构,又保证了CDN服务的高效性。
在本发明的一个实施例中,处理模块30包括:预处理模块32、结构分析模块34和内容感知模块36。结合图3,具体介绍处理模块30完成的功能。
(1)预处理模块32用于从数据获取模块10获取的日志数据中提取出URL及相关参数。在本发明的一个实施例中,结合图2,采用基于正则表达式的方法对从Broker中抽取出的日志数据进行预处理,即Spout部分不断提供日志数据源,Log-To-RawData部分从Spout中获取日志数据源,并提取日志数据中的访问IP,访问时间和URL等信息,完成对原始的日志数据的预处理。
进一步地,由于日志数据中可能包含一些无用网页或者仅仅是设备间的通信信息,为了提高有效性,Log-To-RawData部分需对获取的URL进行过滤。各个网站的目录结构不同,但对于同一网站,URL的层级结构是相似的。以新华网为例,其格式为http://news.xinhuanet.com/频道/年-月/日/c_ID.htm,预处理模块32根据第一存储模块22存储的预定URL进行过滤,即根据互联网内容提供商的URL的具体结构,便可基于正则表达式对原始日志数据源进行有效过滤,把无用的网页过滤掉,从上述URL中筛选出目的URL。
进一步地,在本发明的一个实施例中,数据管理模块20还包括:第二存储模块24和挖掘模块26。
第二存储模块24用于存储预处理模块32获取的目的URL的网页,控制器40还用于控制第二存储模块24存储目的URL的网页。例如,第二存储模块24采用Hadoop、Mysql等数据库存储目的URL的网页。挖掘模块26用于从目的URL对应的网页中挖掘出预定URL对应的预定页面结构。第一存储模块22将预定URL及预定URL对应的网页的预定页面结构存储在索引表中。
(2)结构分析模块34用于根据预定页面结构对目的URL的页面结构进行分析以获取需要感知的内容块。
在对日志数据进行预处理以后,便可获取目的URL指向的网页页面。此时,通过预处理模块32得到的Web content即被用于网页内容感知,Raw-To-SematicData完成了从页面内容到特征词提取的工作,如下所述。
目前的大多数网页一般都分为正文区、相关链接区和噪音区,如广告、装饰及导航信息等。由于CDN服务提供商掌握着其代理的互联网内容服务提供商的预定URL及其结构,这样CDN服务提供商便可在感知网页内容之前首先根据预定URL(目的URL)确定该网页的来源。选取曾经感知过的特定内容提供商网页集为训练集,挖掘出某一互联网内容提供商的预定页面结构。基于这样的方法,CDN服务提供商便可掌握其代理的各互联网内容提供商的预定页面结构。这样就克服了前面所描述的互联网内容提供商间页面结构多样无法统一感知的问题。对于特定内容提供商进行特定的页面结构挖掘,提高了页面结构感知准确率。
在对以往感知过的页面结构进行充分的学习后,便可得到面向不同互联网内容服务提供商特定的页面结构分类器。这样,当获得一个新的页面结构分析请求时,首先便可根据其URL确定具体的互联网内容提供商,然后使用对该内容提供商的训练得到的分类器对该页面进行页面结构分析。从而清洗掉其中的如导航信息、广告信息、版权信息和其他与主题内容无关的信息,保留主要需要感知的内容块,以供下面内容感知模块36使用。针对不同的互联网内容提供商有针对性的挖掘其网页结构,过滤其中与主题无关的噪音部分,仅对过滤后的主要内容进行感知,这样就提高了网页内容感知的准确率和效率。
(3)内容感知模块36用于从上述内容块中感知出用于描述网页的特征词。
在进行网页内容感知时,采用经典的TF-IDF算法获取描述该网页的特征词。在一份给定的文件里,词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化,以防止它偏向长文件(同一个词语在长文件里可能会比短文件有更高的词频,而不管词语重要与否)。逆向文件频率(inverse document frequency,IDF)是一个词语普遍重要性的度量。某一词语的IDF,可以由语料库中的总文件数除以包含该词语之文件的数目,再将得到的商取对数得到。一个词语在某一文件内的高频率,以及该词语在整个语料库文件集中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于保留文档中较为特别的词语,而过滤常用词。另外,TF-IDF并没有考虑到词语的位置信息,对于Web文档而言,权重的计算应该体现出HTML的结构特征。词语在不同的标记符中对文章内容的反应程度不同,其权重贡献的大小也是不同的。
基于以上描述,对经网页结构过滤后的部分以及各标签进行网页内容感知,同时在TF-IDF的基础上,对于不同的标签赋予不同的权重,综合计算出该网页中特征词的贡献权重,作为感知的结果。
具体的,对经过网页结构过滤后的主要部分以及各标签首先进行分词处理,得出文档的分词结构,去掉介词、连词、感叹词和虚词等对表达文档主题没有帮助的词语,以TF-IDF为基础,并结合针对标签的不同权重,综合计算出剩下词语的权重,将超过预设阀值的词作为代表了网页的内容的特征词。
进一步地,在本发明的一个实施例中,处理模块30还包括:预测模块38。预测模块38用于通过对上述特征词进行统计处理以获取热点内容。即内容挖掘部分(Mining Bolt)还可对内容感知模块36的内容进行进一步深度利用。在实时感知网页内容的同时,CDN服务提供商对与所述特征词相关的全网数据进行统计处理,提供实时结果(Real TimeResult),如提供包括实时频道排行,实时新闻排行、实时话题排行、最热访问页面、受访升降榜及访客分布地区等内容。根据实时统计结果,CDN服务提供商可根据实时统计的结果,在传统的用户就近性和服务负载机制的基础上,将感知到的热点内容提前部署到相关节点上,这样就进一步降低了用户访问热点资源时的时延。上述过程中得到的一些有用数据,还可存储到数据库(DataBase)中供后续分析使用。
根据本发明实施例的基于CDN的网页内容感知系统,通过数据获取单元实时地获取日志数据,处理模块从日志数据中提取出URL及相关参数,根据预定URL从URL中筛选出目的URL,并根据预定页面结构对目的URL的页面结构进行分析以感知网页的特征词,解决了不同互联网提供商间的页面结构的差异化问题,通用性强,从而提高了本发明实施例的基于CDN的网页内容感知系统的可靠性、可用性和扩展性。
本发明第二方面的实施例中提出一种基于CDN的网页内容感知方法,如图4所示,包括以下步骤:采集日志数据;从日志数据中提取出URL及相关参数;根据预定URL从URL中筛选出目的URL,并根据预定页面结构对目的URL对应的网页的页面结构进行分析以感知网页的特征词。具体实现过程如下:
步骤S1,采集日志数据。
具体地,在本发明的一个实施例中,利用分布式消息队列方式采集日志数据。例如图2的LinkedIn的基于kafka的日志采集及处理逻辑结构图所示,Kafka中主要有三种角色,分别为producer,broker和consumer。
(1)Producer
Producer即为采集日志部分,这些分布式日志采集节点将采集到的海量日志数据推送到Broker中。
(2)Broker
Broker采取了多种策略提高数据处理效率,包括sendfile和zero copy等技术。为了降低I/O压力,Broker也是分布式部署的,
(3)Consumer
Consumer为不同的功能处理节点,他们将从Broker中抽取需要的日志进行下一步处理
在本发明的实施例中,通过这种分布式加载机制来统一线上和离线的消息处理过程,这样既满足了系统100的分布式架构,又保证了CDN服务的高效性。
步骤S2,从日志数据中提取出URL及相关参数。
在本发明的一个实施例中,结合图2和图3,采用基于正则表达式的方法对从Broker中抽取出的日志数据进行预处理,即Spout部分不断提供日志数据源,Log-To-RawData部分从Spout中获取日志数据源,并提取日志数据中的访问IP,访问时间和URL等信息,完成对原始的日志数据的预处理。
进一步地,由于日志数据中可能包含一些无用网页或者仅仅是设备间的通信信息,为了提高有效性,Log-To-RawData部分需对获取的URL进行过滤。各个网站的目录结构不同,但对于同一网站,URL的层级结构是相似的。以新华网为例,其格式为http://news.xinhuanet.com/频道/年-月/日/c_ID.htm,根据存储的预定URL进行过滤,即根据互联网内容提供商的URL的具体结构,便可基于正则表达式对原始日志数据源进行有效过滤,把无用的网页过滤掉,从上述URL中筛选出目的URL。
步骤S3,根据预定URL从URL中筛选出目的URL,并根据预定页面结构对目的URL对应的网页的页面结构进行分析以感知网页的特征词。
进一步地,在本发明的一个实施例中根据步骤S2获取的目的URL对应的网页中挖掘出预定URL对应的预定页面结构。根据预定页面结构对目的URL的页面结构进行分析以获取需要感知的内容块。
在对日志数据进行预处理以后,便可获取目的URL指向的网页页面。此时,通过步骤S2处理得到的Web content即被用于网页内容感知,Raw-To-SematicData完成了从页面内容到特征词提取的工作,如下所述。
目前的大多数网页一般都分为正文区、相关链接区和噪音区,如广告、装饰及导航信息等。由于CDN服务提供商掌握着其代理的互联网内容服务提供商的预定URL及其结构,这样CDN服务提供商便可在感知网页内容之前首先根据预定URL(目的URL)确定该网页的来源。选取曾经感知过的特定内容提供商网页集为训练集,挖掘出某一互联网内容提供商的预定页面结构。基于这样的方法,CDN服务提供商便可掌握其代理的各互联网内容提供商的预定页面结构。这样就克服了前面所描述的互联网内容提供商间页面结构多样无法统一感知的问题。对于特定内容提供商进行特定的页面结构挖掘,提高了页面结构感知准确率。
在对以往感知过的页面结构进行充分的学习后,便可得到面向不同互联网内容服务提供商特定的页面结构分类器。这样,当获得一个新的页面结构分析请求时,首先便可根据其URL确定具体的互联网内容提供商,然后使用对该内容提供商的训练得到的分类器对该页面进行页面结构分析。从而清洗掉其中的如导航信息、广告信息、版权信息和其他与主题内容无关的信息,保留主要需要感知的内容块。针对不同的互联网内容提供商有针对性的挖掘其网页结构,过滤其中与主题无关的噪音部分,仅对过滤后的主要内容进行感知,这样就提高了网页内容感知的准确率和效率。
进一步地,从上述内容块中感知出用于描述网页的特征词。在进行网页内容感知时,采用经典的TF-IDF算法获取描述该网页的特征词。在一份给定的文件里,词频(termfrequency,TF)指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化,以防止它偏向长文件(同一个词语在长文件里可能会比短文件有更高的词频,而不管词语重要与否)。逆向文件频率(inverse document frequency,IDF)是一个词语普遍重要性的度量。某一词语的IDF,可以由语料库中的总文件数除以包含该词语之文件的数目,再将得到的商取对数得到。一个词语在某一文件内的高频率,以及该词语在整个语料库文件集中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于保留文档中较为特别的词语,而过滤常用词。另外,TF-IDF并没有考虑到词语的位置信息,对于Web文档而言,权重的计算应该体现出HTML的结构特征。词语在不同的标记符中对文章内容的反应程度不同,其权重贡献的大小也是不同的。
基于以上描述,对经网页结构过滤后的部分以及各标签进行网页内容感知,同时在TF-IDF的基础上,对于不同的标签赋予不同的权重,综合计算出该网页中特征词的贡献权重,作为感知的结果。
具体的,对经过网页结构过滤后的主要部分以及各标签首先进行分词处理,得出文档的分词结构,去掉介词、连词、感叹词和虚词等对表达文档主题没有帮助的词语,以TF-IDF为基础,并结合针对标签的不同权重,综合计算出剩下词语的权重,将超过预设阀值的词作为代表了网页的内容的特征词。
进一步地,内容挖掘部分(Mining Bolt)还可对网页内容感知部分的内容进行进一步深度利用。通过对上述特征词进行统计处理以获取热点内容。在实时感知网页内容的同时,CDN服务提供商对与特征词相关的全网数据进行统计处理,提供实时结果(Real TimeResult),如提供包括实时频道排行,实时新闻排行、实时话题排行、最热访问页面、受访升降榜及访客分布地区等内容。根据实时统计结果,CDN服务提供商可根据实时统计的结果,在传统的用户就近性和服务负载机制的基础上,将感知到的热点内容提前部署到相关节点上,这样就进一步降低了用户访问热点资源时的时延。上述过程中得到的一些有用数据,还可存储到数据库(DataBase)中供后续分析使用。
根据本发明实施例的基于CDN的网页内容感知方法,从获取的日志数据中提取出URL及相关参数,根据预定URL从URL中筛选出目的URL,并根据预定页面结构对目的URL的页面结构进行分析以感知网页的特征词,解决了不同互联网提供商间的页面结构的差异化问题,通用性强,从而提高了本发明实施例的基于CDN的网页内容感知系统的可靠性、可用性和扩展性。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于CDN的网页内容感知系统,其特征在于,包括:
数据获取模块,所述数据获取模块用于采集日志数据;
数据管理模块,所述数据管理模块包括第一存储模块,所述第一存储模块存储有索引表,所述索引表包括特征互联网内容提供商的预定URL(uniform resource locator)及预定URL对应的网页的预定页面结构;
处理模块,所述处理模块从所述日志数据中提取出URL及相关参数,根据所述预定URL从所述URL中筛选出目的URL,并根据所述预定页面结构对所述目的URL的页面结构进行分析以感知所述网页的特征词,并根据所述特征词在网页中的不同权重,综合计算出所述特征词的贡献权重,作为感知结果;以及
控制器,用于控制所述数据获取模块采集日志数据,并控制所述处理模块从所述日志数据中提取出所述URL及相关参数;
所述控制器,还用于控制所述处理模块根据所述预定URL从所述URL中筛选出目的URL,以及控制所述处理模块根据所述预定页面结构对所述目的URL的页面结构进行分析以感知所述网页的特征词。
2.如权利要求1所述的系统,其特征在于,所述处理模块包括:
预处理模块,用于从所述日志数据中提取出URL及相关参数,并根据所述预定URL从所述URL中筛选出目的URL;
结构分析模块,用于根据所述预定页面结构对所述目的URL的页面结构进行分析以获取需要感知的内容块;及
内容感知模块,用于从所述内容块中感知出用于描述所述网页的特征词。
3.如权利要求1或2所述的系统,其特征在于,所述数据管理模块还包括:
第二存储模块,用于存储所述目的URL的网页,所述控制器还用于控制第二控制器存储所述目的URL的网页;及
挖掘模块,用于从所述目的URL对应的网页中挖掘出所述目的URL的网页对应的所述预定页面结构。
4.如权利要求2所述的系统,其特征在于,所述处理模块还包括:
预测模块,用于通过对所述特征词进行统计处理以获取热点内容。
5.如权利要求1所述的系统,其特征在于,所述数据获取模块利用分布式消息队列方式采集日志数据。
6.如权利要求2所述的系统,其特征在于,所述预处理模块基于正则表达式的方法从所述日志数据中提取出URL及相关参数。
7.一种基于CDN的网页内容感知方法,其特征在于,包括以下步骤:
采集日志数据;
从所述日志数据中提取出URL及相关参数;
根据预定URL从所述URL中筛选出目的URL,并根据预定页面结构对所述目的URL对应的网页的页面结构进行分析以感知所述网页的特征词,并根据所述特征词在网页中的不同权重,综合计算出所述特征词的贡献权重,作为感知结果。
8.如权利要求7所述的方法,其特征在于,还包括:
通过对所述特征词进行统计处理以获取热点内容。
9.如权利要求7或8所述的方法,其特征在于,利用分布式消息队列方式采集日志数据。
10.如权利要求7所述的方法,其特征在于,基于正则表达式的方法从所述日志数据中提取出URL及相关参数。
CN201410727791.8A 2014-12-03 2014-12-03 基于cdn的网页内容感知系统及方法 Active CN104536972B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410727791.8A CN104536972B (zh) 2014-12-03 2014-12-03 基于cdn的网页内容感知系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410727791.8A CN104536972B (zh) 2014-12-03 2014-12-03 基于cdn的网页内容感知系统及方法

Publications (2)

Publication Number Publication Date
CN104536972A CN104536972A (zh) 2015-04-22
CN104536972B true CN104536972B (zh) 2018-08-14

Family

ID=52852500

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410727791.8A Active CN104536972B (zh) 2014-12-03 2014-12-03 基于cdn的网页内容感知系统及方法

Country Status (1)

Country Link
CN (1) CN104536972B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407071A (zh) * 2016-09-06 2017-02-15 珠海迈科智能科技股份有限公司 一种基于linux的内容服务后台日志自动分析工具
CN106371366A (zh) * 2016-09-22 2017-02-01 南京中新赛克科技有限责任公司 基于arm架构的大数据采集与分析平台
CN107332719A (zh) * 2017-08-16 2017-11-07 北京云端智度科技有限公司 一种cdn系统内日志实时分析的方法
CN113190753B (zh) * 2021-05-10 2024-04-23 北京百度网讯科技有限公司 数据采集方法和装置、电子设备、计算机可读介质
CN113377519B (zh) * 2021-07-07 2022-03-22 江苏云工场信息技术有限公司 一种基于cdn的内容调度方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894102A (zh) * 2010-07-16 2010-11-24 浙江工商大学 一种主观性文本情感倾向性分析方法和装置
CN102184227A (zh) * 2011-05-10 2011-09-14 北京邮电大学 一种面向web服务的通用爬虫引擎系统及其工作方法
CN102184262A (zh) * 2011-06-15 2011-09-14 悠易互通(北京)广告有限公司 基于web的文本分类挖掘系统及方法
CN103235824A (zh) * 2013-05-06 2013-08-07 上海河广信息科技有限公司 根据浏览网页确定用户感兴趣的网页文本的方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894102A (zh) * 2010-07-16 2010-11-24 浙江工商大学 一种主观性文本情感倾向性分析方法和装置
CN102184227A (zh) * 2011-05-10 2011-09-14 北京邮电大学 一种面向web服务的通用爬虫引擎系统及其工作方法
CN102184262A (zh) * 2011-06-15 2011-09-14 悠易互通(北京)广告有限公司 基于web的文本分类挖掘系统及方法
CN103235824A (zh) * 2013-05-06 2013-08-07 上海河广信息科技有限公司 根据浏览网页确定用户感兴趣的网页文本的方法和系统

Also Published As

Publication number Publication date
CN104536972A (zh) 2015-04-22

Similar Documents

Publication Publication Date Title
Robertson et al. Mobile transitions: A conceptual framework for researching a generation on the move
Haberly et al. Regional blocks and imperial legacies: Mapping the global offshore FDI network
CN104536972B (zh) 基于cdn的网页内容感知系统及方法
CN102663023B (zh) 一种提取网页内容的实现方法
Azadi et al. Multi-stakeholder involvement and urban green space performance
Tang Does “birds of a feather flock together” matter—Evidence from a longitudinal study on US–China scientific collaboration
Mocnik et al. The OpenStreetMap folksonomy and its evolution
Jensen et al. The elephant in the room: mapping the latent communication pattern in European Union studies
Alzua-Sorzabal et al. Obtaining the efficiency of tourism destination website based on data envelopment analysis
Meadow et al. Search query quality and web-scale discovery: A qualitative and quantitative analysis
CN107704621A (zh) 一种互联网舆情地图可视化展示方法
CN103023714A (zh) 基于网络话题的活跃度与集群结构分析系统及方法
CN104077417A (zh) 社交网络中的人物标签推荐方法和系统
CN108648068A (zh) 一种信用风险评估方法及系统
Dimmelmeier Sustainable finance as a contested concept: tracing the evolution of five frames between 1998 and 2018
JP5848199B2 (ja) 影響力予測装置、影響力予測方法、及びプログラム
CN103761246B (zh) 一种基于链接网络的用户领域识别方法及其装置
Brunarska et al. Intra-vs. extra-regional migration in the post-Soviet space
CN102982088A (zh) 一种用于提供用户在目标页面上的反馈信息的方法
CN104376066B (zh) 一种网络特定内容挖掘方法和装置、及一种电子设备
Mangold et al. How do filtering choices impact the structures of audience networks? A simulation study using data from 26 countries
CN105550279A (zh) 基于视觉的列表页识别方法
Kedir et al. Formative scenario analysis of the factors influencing the adoption of industrialised construction in countries with high housing demand–the cases of Ethiopia, Kenya, and South Africa
Panteladis et al. Fragmented integration and business cycle synchronization in the Greek regions
CN109213929A (zh) 网络舆情信息处理方法、装置及服务器

Legal Events

Date Code Title Description
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant