CN104199893B

CN104199893B - 一种快速将全媒体内容发布的系统和方法

Info

Publication number: CN104199893B
Application number: CN201410422609.8A
Authority: CN
Inventors: 王威; 周旭辉; 李湧; 王炜; 余军; 刘云; 陈利涛; 柴焱
Original assignee: Chengdu Hua Seiun Technology Co Ltd
Current assignee: Chengdu Hua seiun Technology Co. Ltd.
Priority date: 2014-08-25
Filing date: 2014-08-25
Publication date: 2018-01-30
Anticipated expiration: 2034-08-25
Also published as: CN104199893A

Abstract

本发明公开了一种快速将全媒体内容发布的系统和方法，它包括中心节点服务器、分布式子节点服务器、页面库、管理门户系统，所述的中心节点服务器包括主题控制模块、提取器处理模块和URL控制器模块，所述的分布式子节点服务器包括URL控制器、数据提取器、搜索控制器、网页提取器和状态日志，管理门户系统通过web接口与中心节点服务器连接，中心节点服务器与分布式子节点服务器连接，分布式子节点服务器与页面库连接，分布式子节点服务器和中心节点服务器均与外部WEB连接。本发明通过抽取各个系统数据关键字段形成索引，定位全媒体内容物理地址，同时抽取媒体内容的元数据描述、文稿内容，作为快速发布的主要标签字段。

Description

一种快速将全媒体内容发布的系统和方法

技术领域

本发明涉及一种快速将全媒体内容发布的系统和方法。

背景技术

现有的全媒体内容发布的系统均基于台网联动环境下，依托专业媒体中心平台，在集合增强现实、动态交互、多点触控、以及3D立体视觉等先进技术的基础上，融合台内资源、新闻线索、台网互动信息、新媒体内容以及综合数据等资源通过生动全景呈现、全向互动方式，达到演播室多屏互动应用的使用。然而现有的全媒体内容发布的系统的搜索引擎不能满足日益增长的需求。

发明内容

本发明的目的在于克服现有技术的不足，提供一种快速将全媒体内容发布的系统和方法。

本发明的目的是通过以下技术方案来实现的：一种快速将全媒体内容发布的系统，它包括中心节点服务器、分布式子节点服务器、页面库和管理门户系统，所述的中心节点服务器是整个系统的控制中枢；所述的分布式子节点服务器是提取数据的具体实施者；所述的页面库用于存储页面；所述的管理门户系统对系统提供web接口，可以查看中心和子服务器的日志、设置添加主题、更新某个主题的URL种子、配置主题提取频率参数和控制爬虫状态，所述的中心节点服务器包括主题控制模块、提取器处理模块和URL控制器模块，所述的分布式子节点服务器包括URL控制器、数据提取器、搜索控制器、网页提取器和状态日志，管理门户系统通过web接口与中心节点服务器连接，中心节点服务器与分布式子节点服务器连接，分布式子节点服务器与页面库连接，分布式子节点服务器和中心节点服务器均与外部WEB连接。

所述的主题控制模块完成关于主题的操作，包括对主题的描述、提取频率和提取深度；所述的抽取器处理模块采用基于内容的网页分析算法，从URL种子入手形成针对种子的数据抽取器；所述的URL控制器模块负责中心节点内的URL队列排序，并且根据各个子节点负载反馈进行任务分割，所述的任务分割采取加权最小连接调度方法。

所述的URL控制器接收来自中心节点分发的种子URL和网页提前的URL，存储到URL数据库，并且对新加入的URL进行重复检测和快速插入；所述的数据提取器用于将子节点的URL队列和中心节点的URL控制器结合，并通过查询探测算法进行模式匹配输入形成新的URL传递给网页提取器；所述的搜索控制器结合搜索策略针对不同爬取目标设置提取深度，并将符合提取的网页内容页面存入页面库，等待索引模块的结构化；所述的网页提取器是一个多线程并行模块，负责按照http协议采集页面；所述的状态日志按照时间戳以纯文本的方式记录子节点爬取的状态信息，所述的状态信息包括对象、时刻、当前系统并发连接数、系统CPU，状态日志还可以用于分析研究服务器性能瓶颈。

一种快速将全媒体内容发布的方法，包括以下步骤：

S1：中心节点服务器初始化运行参数，所述的运行参数包括爬虫使用的最大线程数量、初始种子网站、网络爬虫在一个网站内部链接爬下的最大深度大小、主题描述、主题提取频率、种子队列、系统所使用的词库路径以及爬下网页内容分析时所使用的参数；

S2：分布式子节点服务器接收来自中心节点分发的种子URL和网页提前的URL，存储到URL数据库，并对新加入的URL进行重复检测和快速插入，根据种子队列选取对应的主题网页作为一系列目标信息的初始位置页面；如检索微博爆料的主题爬虫，就选择新浪或者腾讯微博包含新闻等分类的网页，作为检索的初始页面。

S3：分布式子节点服务器根据种子队列提取出目标站点地址和端口号，并且与该地址和端口建立网络连接，以爆料主题检索为例，根据种子队列选取新浪微博URL抽取出目标站点地址和端口号，并且与该地址和端口建立网络连接，包括以下子步骤：

S31：由分布式子节点服务器的URL引擎组装HTTP请求头，并发送到目标站点；

S32：分布式子节点服务器设定的时间接收应答消息：

S321：若超过分布式子节点服务器设定的时间未收到应答消息，则终止提取该页面并且将其丢弃；

S322：若返回的状态码为200，则表示正确返回页面；

S323：若返回的状态码为301或者302则表示页面被重定向，从应答头提取新的目的URL继续分析；

S324：若返回其他状态比如500或者404等则说明页面链接失败或者页面不存在，则终止该提取页面并且将该种子标记失效且丢弃；

S4：分布式子节点服务器从正常返回的页面应答头中提取出日期、长度、页面类型、页面内容信息，对长度较大的页面采取分块读取再拼接的方式以保证页面内容的完整性；

S5：分布式子节点服务器启动数据分析器解析已经保存的网页内容信息，包括检索内容相关度分析步骤和链接相关度分析步骤，所述的检索内容相关度分析步骤包括以下子步骤：

S511：对经过内容特征提取后的网页数据进行分析，判定网页内容与指定主题相关度如何；

S512：过滤无关页面，保留相关度达到阈值的网页；

所述的链接相关度分析是系统对从网页中提取的超链信息进行测算，得出每个URL所指页面与指定主题的相关度，将符合主题度要求的URL加入到爬行队列中并对其进行爬行优先度排序，以保证相关度高的页面优先被检索到，包括以下子步骤：

S521：采用基于动态链接分析法分析Web页面内的链接，将页面链接分类：http协议的URL地址的标准格式是固定的：

http://hostname[:port]/path/[:prameters][？query]#fragment，

式中，其中带方括号[]的部分是可选的；hostname是站点的域名；prot是端口地址；path部分是完整的URL路径，是由零个或者多个“/”符号隔开的字符串，一般表示主机上的一个目录或者文件地址，具体定义为从URL的起始到最后一个“/”之间的部分；query是用来给动态网页传递参数的；

系统根据URL地址格式以及页面内的链接结构，将页面链接分为四类：(1)向上链接：所链接页面和当前页面hostname相同而path不相同，但所链接页面的hostname包含在所链接页面的hostname中，即所链接的页面处于当前页面的上一层；(2)向下链接：所链接页面和当前页面的hostname相同而path不相同，但当前页面的hostname包含在所链接页面的hostname中，即所链接的页面属于当前页面下一层；(3)站外链接：所链接页面和当前页面的hostname不同，即所链接的页面和当前页面不属于同一站点；(4)交叉链接：除了(1)(2)(3)中的情况都属于交叉链接，即所链接的页面和当前页面不属于同一路径；

S522:对步骤S521中的分类的页面链接进行赋权操作：对于向下链接，通常是对该主题细化，赋予较高的权重；对于站外链接，通过文本判断与主题的相关性，如果较为相关赋予较高的权重否则赋予较低的权重；对于交叉链接，赋予一个中等权重；对于向上链接通常赋予较低权重；

S523：对步骤S521中的分类的页面链接进行标记深度操作：对当前页面时主题相关的，对其深度值-1；如果判断当前页面时主题不相干的则深度值+1；当页面深度属性超过预先设定好的阀值时候，将此URL丢弃；本实施例的深度阀值为3级；

S524：将保留的网页加入到爬行队列中并对其进行爬行优先度排序，并返回步骤S2；

S6：将步骤S5提取的网页存入页面库，页面库对提取的网页进行分析，提取关键字段形成索引，通过生成的索引地址快速定位全媒体内容物的理地址，并且提取媒体内容的元数据描述、文稿内容作为快速发布的主要标签字段。

本发明的有益效果是：本发明通过自动爬虫技术抽取各个系统数据关键字段形成索引，通过生成的索引地址快速地定位全媒体内容物理地址，在生成索引的同时抽取媒体内容的元数据描述、文稿内容，作为快速发布的主要标签字段。这样高效的生成索引定位全媒体内容，而内容并不做搬迁。

附图说明

图1为本发明系统结构图；

图2为本发明方法流程图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案：如图1所示，一种快速将全媒体内容发布的系统，它包括中心节点服务器、分布式子节点服务器、页面库和管理门户系统，所述的中心节点服务器是整个系统的控制中枢；所述的分布式子节点服务器是提取数据的具体实施者；所述的页面库用于存储页面；所述的管理门户系统对系统提供web接口，可以查看中心和子服务器的日志、设置添加主题、更新某个主题的URL种子、配置主题提取频率参数和控制爬虫状态，其特征在于：所述的中心节点服务器包括主题控制模块、提取器处理模块和URL控制器模块，所述的分布式子节点服务器包括URL控制器、数据提取器、搜索控制器、网页提取器和状态日志，管理门户系统通过web接口与中心节点服务器连接，中心节点服务器与分布式子节点服务器连接，分布式子节点服务器与页面库连接，分布式子节点服务器和中心节点服务器均与外部WEB连接。

如图2所示，一种快速将全媒体内容发布的方法，包括以下步骤：

S32：分布式子节点服务器设定的时间接收应答消息：

S322：若返回的状态码为200，则表示正确返回页面；

S512：过滤无关页面，保留相关度达到阈值的网页；

http://hostname[:port]/path/[:prameters][？query]#fragment，

Claims

1.一种快速将全媒体内容发布的系统，它包括中心节点服务器、分布式子节点服务器、页面库和管理门户系统，所述的中心节点服务器是整个系统的控制中枢；所述的分布式子节点服务器是提取数据的具体实施者；所述的页面库用于存储页面；所述的管理门户系统对系统提供web接口，可以查看中心和子服务器的日志、设置添加主题、更新某个主题的URL种子、配置主题提取频率参数和控制爬虫状态，管理门户系统通过web接口与中心节点服务器连接，中心节点服务器与分布式子节点服务器连接，分布式子节点服务器与页面库连接，分布式子节点服务器和中心节点服务器均与外部WEB连接；

其特征在于：

通过自动爬虫抽取系统数据关键字段形成索引，通过生成的索引地址快速地定位全媒体内容物理地址，在生成索引的同时抽取媒体内容的元数据描述、文稿内容，作为快速发布的主要标签字段，这样高效的生成索引定位全媒体内容，而内容并不做搬迁；

进一步包括：

所述的中心节点服务器包括主题控制模块、提取器处理模块和URL控制器模块，所述的分布式子节点服务器包括URL控制器、数据提取器、搜索控制器、网页提取器和状态日志；

所述的主题控制模块完成关于主题的操作，包括对主题的描述、提取频率和提取深度；

所述的抽取器处理模块采用基于内容的网页分析算法，从URL种子入手形成针对种子的数据抽取器；

所述的URL控制器模块负责中心节点内的URL队列排序，并且根据各个子节点负载反馈进行任务分割，所述的任务分割采取加权最小连接调度方法；

所述的URL控制器接收来自中心节点分发的种子URL和网页提前的URL，存储到URL数据库，并且对新加入的URL进行重复检测和快速插入；

所述的数据提取器用于将子节点的URL队列和中心节点的URL控制器结合，并通过查询探测算法进行模式匹配输入形成新的URL传递给网页提取器；

所述的搜索控制器结合搜索策略针对不同爬取目标设置提取深度，并将符合提取的网页内容页面存入页面库，等待索引模块的结构化；所述的网页提取器是一个多线程并行模块，负责按照http协议采集页面；

所述的状态日志按照时间戳以纯文本的方式记录子节点爬取的状态信息，所述的状态信息包括对象、时刻、当前系统并发连接数、系统CPU，状态日志还可以用于分析研究服务器性能瓶颈。

2.一种如权利要求1所述的快速将全媒体内容发布的系统对应的快速将全媒体内容发布的方法，其特征在于：所述方法包括以下步骤：

S2：分布式子节点服务器接收来自中心节点分发的种子URL和网页提前的URL，存储到URL数据库，并对新加入的URL进行重复检测和快速插入，根据种子队列选取对应的主题网页作为一系列目标信息的初始位置页面；

S3：分布式子节点服务器根据种子队列提取出目标站点地址和端口号，并且与该地址和端口建立网络连接，包括以下子步骤：

S32：分布式子节点服务器设定的时间接收应答消息：

S322：若返回的状态码为200，则表示正确返回页面；

S323：若返回的状态码为301 或者302 则表示页面被重定向，从应答头提取新的目的URL继续分析；

S512：过滤无关页面，保留相关度达到阈值的网页；

http://hostname[:port]/path/[:prameters][query]#fragment，

式中，其中带方括号[]的部分是可选的；hostname是站点的域名;prot是端口地址；path部分是完整的URL路径，是由零个或者多个“/”符号隔开的字符串，一般表示主机上的一个目录或者文件地址，具体定义为从URL的起始到最后一个“/”之间的部分；query是用来给动态网页传递参数的；

系统根据URL地址格式以及页面内的链接结构，将页面链接分为四类：（1）向上链接：所链接页面和当前页面hostname相同而path不相同，但所链接页面的hostname包含在所链接页面的hostname中，即所链接的页面处于当前页面的上一层；（2）向下链接：所链接页面和当前页面的hostname相同而path不相同，但当前页面的hostname包含在所链接页面的hostname中，即所链接的页面属于当前页面下一层；（3）站外链接：所链接页面和当前页面的hostname不同，即所链接的页面和当前页面不属于同一站点；（4）交叉链接：除了（1）（2）（3）中的情况都属于交叉链接，即所链接的页面和当前页面不属于同一路径；

S523：对步骤S521中的分类的页面链接进行标记深度操作：对当前页面时主题相关的，对其深度值-1；如果判断当前页面时主题不相干的则深度值+1；当页面深度属性超过预先设定好的阀值时候，将此URL丢弃；