CN104199893B - 一种快速将全媒体内容发布的系统和方法 - Google Patents
一种快速将全媒体内容发布的系统和方法 Download PDFInfo
- Publication number
- CN104199893B CN104199893B CN201410422609.8A CN201410422609A CN104199893B CN 104199893 B CN104199893 B CN 104199893B CN 201410422609 A CN201410422609 A CN 201410422609A CN 104199893 B CN104199893 B CN 104199893B
- Authority
- CN
- China
- Prior art keywords
- page
- url
- child node
- server
- link
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/41—Indexing; Data structures therefor; Storage structures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种快速将全媒体内容发布的系统和方法,它包括中心节点服务器、分布式子节点服务器、页面库、管理门户系统,所述的中心节点服务器包括主题控制模块、提取器处理模块和URL控制器模块,所述的分布式子节点服务器包括URL控制器、数据提取器、搜索控制器、网页提取器和状态日志,管理门户系统通过web接口与中心节点服务器连接,中心节点服务器与分布式子节点服务器连接,分布式子节点服务器与页面库连接,分布式子节点服务器和中心节点服务器均与外部WEB连接。本发明通过抽取各个系统数据关键字段形成索引,定位全媒体内容物理地址,同时抽取媒体内容的元数据描述、文稿内容,作为快速发布的主要标签字段。
Description
技术领域
本发明涉及一种快速将全媒体内容发布的系统和方法。
背景技术
现有的全媒体内容发布的系统均基于台网联动环境下,依托专业媒体中心平台,在集合增强现实、动态交互、多点触控、以及3D立体视觉等先进技术的基础上,融合台内资源、新闻线索、台网互动信息、新媒体内容以及综合数据等资源通过生动全景呈现、全向互动方式,达到演播室多屏互动应用的使用。然而现有的全媒体内容发布的系统的搜索引擎不能满足日益增长的需求。
发明内容
本发明的目的在于克服现有技术的不足,提供一种快速将全媒体内容发布的系统和方法。
本发明的目的是通过以下技术方案来实现的:一种快速将全媒体内容发布的系统,它包括中心节点服务器、分布式子节点服务器、页面库和管理门户系统,所述的中心节点服务器是整个系统的控制中枢;所述的分布式子节点服务器是提取数据的具体实施者;所述的页面库用于存储页面;所述的管理门户系统对系统提供web接口,可以查看中心和子服务器的日志、设置添加主题、更新某个主题的URL种子、配置主题提取频率参数和控制爬虫状态,所述的中心节点服务器包括主题控制模块、提取器处理模块和URL控制器模块,所述的分布式子节点服务器包括URL控制器、数据提取器、搜索控制器、网页提取器和状态日志,管理门户系统通过web接口与中心节点服务器连接,中心节点服务器与分布式子节点服务器连接,分布式子节点服务器与页面库连接,分布式子节点服务器和中心节点服务器均与外部WEB连接。
所述的主题控制模块完成关于主题的操作,包括对主题的描述、提取频率和提取深度;所述的抽取器处理模块采用基于内容的网页分析算法,从URL种子入手形成针对种子的数据抽取器;所述的URL控制器模块负责中心节点内的URL队列排序,并且根据各个子节点负载反馈进行任务分割,所述的任务分割采取加权最小连接调度方法。
所述的URL控制器接收来自中心节点分发的种子URL和网页提前的URL,存储到URL数据库,并且对新加入的URL进行重复检测和快速插入;所述的数据提取器用于将子节点的URL队列和中心节点的URL控制器结合,并通过查询探测算法进行模式匹配输入形成新的URL传递给网页提取器;所述的搜索控制器结合搜索策略针对不同爬取目标设置提取深度,并将符合提取的网页内容页面存入页面库,等待索引模块的结构化;所述的网页提取器是一个多线程并行模块,负责按照http协议采集页面;所述的状态日志按照时间戳以纯文本的方式记录子节点爬取的状态信息,所述的状态信息包括对象、时刻、当前系统并发连接数、系统CPU,状态日志还可以用于分析研究服务器性能瓶颈。
一种快速将全媒体内容发布的方法,包括以下步骤:
S1:中心节点服务器初始化运行参数,所述的运行参数包括爬虫使用的最大线程数量、初始种子网站、网络爬虫在一个网站内部链接爬下的最大深度大小、主题描述、主题提取频率、种子队列、系统所使用的词库路径以及爬下网页内容分析时所使用的参数;
S2:分布式子节点服务器接收来自中心节点分发的种子URL和网页提前的URL,存储到URL数据库,并对新加入的URL进行重复检测和快速插入,根据种子队列选取对应的主题网页作为一系列目标信息的初始位置页面;如检索微博爆料的主题爬虫,就选择新浪或者腾讯微博包含新闻等分类的网页,作为检索的初始页面。
S3:分布式子节点服务器根据种子队列提取出目标站点地址和端口号,并且与该地址和端口建立网络连接,以爆料主题检索为例,根据种子队列选取新浪微博URL抽取出目标站点地址和端口号,并且与该地址和端口建立网络连接,包括以下子步骤:
S31:由分布式子节点服务器的URL引擎组装HTTP请求头,并发送到目标站点;
S32:分布式子节点服务器设定的时间接收应答消息:
S321:若超过分布式子节点服务器设定的时间未收到应答消息,则终止提取该页面并且将其丢弃;
S322:若返回的状态码为200,则表示正确返回页面;
S323:若返回的状态码为301或者302则表示页面被重定向,从应答头提取新的目的URL继续分析;
S324:若返回其他状态比如500或者404等则说明页面链接失败或者页面不存在,则终止该提取页面并且将该种子标记失效且丢弃;
S4:分布式子节点服务器从正常返回的页面应答头中提取出日期、长度、页面类型、页面内容信息,对长度较大的页面采取分块读取再拼接的方式以保证页面内容的完整性;
S5:分布式子节点服务器启动数据分析器解析已经保存的网页内容信息,包括检索内容相关度分析步骤和链接相关度分析步骤,所述的检索内容相关度分析步骤包括以下子步骤:
S511:对经过内容特征提取后的网页数据进行分析,判定网页内容与指定主题相关度如何;
S512:过滤无关页面,保留相关度达到阈值的网页;
所述的链接相关度分析是系统对从网页中提取的超链信息进行测算,得出每个URL所指页面与指定主题的相关度,将符合主题度要求的URL加入到爬行队列中并对其进行爬行优先度排序,以保证相关度高的页面优先被检索到,包括以下子步骤:
S521:采用基于动态链接分析法分析Web页面内的链接,将页面链接分类:http协议的URL地址的标准格式是固定的:
http://hostname[:port]/path/[:prameters][?query]#fragment,
式中,其中带方括号[]的部分是可选的;hostname是站点的域名;prot是端口地址;path部分是完整的URL路径,是由零个或者多个“/”符号隔开的字符串,一般表示主机上的一个目录或者文件地址,具体定义为从URL的起始到最后一个“/”之间的部分;query是用来给动态网页传递参数的;
系统根据URL地址格式以及页面内的链接结构,将页面链接分为四类:(1)向上链接:所链接页面和当前页面hostname相同而path不相同,但所链接页面的hostname包含在所链接页面的hostname中,即所链接的页面处于当前页面的上一层;(2)向下链接:所链接页面和当前页面的hostname相同而path不相同,但当前页面的hostname包含在所链接页面的hostname中,即所链接的页面属于当前页面下一层;(3)站外链接:所链接页面和当前页面的hostname不同,即所链接的页面和当前页面不属于同一站点;(4)交叉链接:除了(1)(2)(3)中的情况都属于交叉链接,即所链接的页面和当前页面不属于同一路径;
S522:对步骤S521中的分类的页面链接进行赋权操作:对于向下链接,通常是对该主题细化,赋予较高的权重;对于站外链接,通过文本判断与主题的相关性,如果较为相关赋予较高的权重否则赋予较低的权重;对于交叉链接,赋予一个中等权重;对于向上链接通常赋予较低权重;
S523:对步骤S521中的分类的页面链接进行标记深度操作:对当前页面时主题相关的,对其深度值-1;如果判断当前页面时主题不相干的则深度值+1;当页面深度属性超过预先设定好的阀值时候,将此URL丢弃;本实施例的深度阀值为3级;
S524:将保留的网页加入到爬行队列中并对其进行爬行优先度排序,并返回步骤S2;
S6:将步骤S5提取的网页存入页面库,页面库对提取的网页进行分析,提取关键字段形成索引,通过生成的索引地址快速定位全媒体内容物的理地址,并且提取媒体内容的元数据描述、文稿内容作为快速发布的主要标签字段。
本发明的有益效果是:本发明通过自动爬虫技术抽取各个系统数据关键字段形成索引,通过生成的索引地址快速地定位全媒体内容物理地址,在生成索引的同时抽取媒体内容的元数据描述、文稿内容,作为快速发布的主要标签字段。这样高效的生成索引定位全媒体内容,而内容并不做搬迁。
附图说明
图1为本发明系统结构图;
图2为本发明方法流程图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案:如图1所示,一种快速将全媒体内容发布的系统,它包括中心节点服务器、分布式子节点服务器、页面库和管理门户系统,所述的中心节点服务器是整个系统的控制中枢;所述的分布式子节点服务器是提取数据的具体实施者;所述的页面库用于存储页面;所述的管理门户系统对系统提供web接口,可以查看中心和子服务器的日志、设置添加主题、更新某个主题的URL种子、配置主题提取频率参数和控制爬虫状态,其特征在于:所述的中心节点服务器包括主题控制模块、提取器处理模块和URL控制器模块,所述的分布式子节点服务器包括URL控制器、数据提取器、搜索控制器、网页提取器和状态日志,管理门户系统通过web接口与中心节点服务器连接,中心节点服务器与分布式子节点服务器连接,分布式子节点服务器与页面库连接,分布式子节点服务器和中心节点服务器均与外部WEB连接。
所述的主题控制模块完成关于主题的操作,包括对主题的描述、提取频率和提取深度;所述的抽取器处理模块采用基于内容的网页分析算法,从URL种子入手形成针对种子的数据抽取器;所述的URL控制器模块负责中心节点内的URL队列排序,并且根据各个子节点负载反馈进行任务分割,所述的任务分割采取加权最小连接调度方法。
所述的URL控制器接收来自中心节点分发的种子URL和网页提前的URL,存储到URL数据库,并且对新加入的URL进行重复检测和快速插入;所述的数据提取器用于将子节点的URL队列和中心节点的URL控制器结合,并通过查询探测算法进行模式匹配输入形成新的URL传递给网页提取器;所述的搜索控制器结合搜索策略针对不同爬取目标设置提取深度,并将符合提取的网页内容页面存入页面库,等待索引模块的结构化;所述的网页提取器是一个多线程并行模块,负责按照http协议采集页面;所述的状态日志按照时间戳以纯文本的方式记录子节点爬取的状态信息,所述的状态信息包括对象、时刻、当前系统并发连接数、系统CPU,状态日志还可以用于分析研究服务器性能瓶颈。
如图2所示,一种快速将全媒体内容发布的方法,包括以下步骤:
S1:中心节点服务器初始化运行参数,所述的运行参数包括爬虫使用的最大线程数量、初始种子网站、网络爬虫在一个网站内部链接爬下的最大深度大小、主题描述、主题提取频率、种子队列、系统所使用的词库路径以及爬下网页内容分析时所使用的参数;
S2:分布式子节点服务器接收来自中心节点分发的种子URL和网页提前的URL,存储到URL数据库,并对新加入的URL进行重复检测和快速插入,根据种子队列选取对应的主题网页作为一系列目标信息的初始位置页面;如检索微博爆料的主题爬虫,就选择新浪或者腾讯微博包含新闻等分类的网页,作为检索的初始页面。
S3:分布式子节点服务器根据种子队列提取出目标站点地址和端口号,并且与该地址和端口建立网络连接,以爆料主题检索为例,根据种子队列选取新浪微博URL抽取出目标站点地址和端口号,并且与该地址和端口建立网络连接,包括以下子步骤:
S31:由分布式子节点服务器的URL引擎组装HTTP请求头,并发送到目标站点;
S32:分布式子节点服务器设定的时间接收应答消息:
S321:若超过分布式子节点服务器设定的时间未收到应答消息,则终止提取该页面并且将其丢弃;
S322:若返回的状态码为200,则表示正确返回页面;
S323:若返回的状态码为301或者302则表示页面被重定向,从应答头提取新的目的URL继续分析;
S324:若返回其他状态比如500或者404等则说明页面链接失败或者页面不存在,则终止该提取页面并且将该种子标记失效且丢弃;
S4:分布式子节点服务器从正常返回的页面应答头中提取出日期、长度、页面类型、页面内容信息,对长度较大的页面采取分块读取再拼接的方式以保证页面内容的完整性;
S5:分布式子节点服务器启动数据分析器解析已经保存的网页内容信息,包括检索内容相关度分析步骤和链接相关度分析步骤,所述的检索内容相关度分析步骤包括以下子步骤:
S511:对经过内容特征提取后的网页数据进行分析,判定网页内容与指定主题相关度如何;
S512:过滤无关页面,保留相关度达到阈值的网页;
所述的链接相关度分析是系统对从网页中提取的超链信息进行测算,得出每个URL所指页面与指定主题的相关度,将符合主题度要求的URL加入到爬行队列中并对其进行爬行优先度排序,以保证相关度高的页面优先被检索到,包括以下子步骤:
S521:采用基于动态链接分析法分析Web页面内的链接,将页面链接分类:http协议的URL地址的标准格式是固定的:
http://hostname[:port]/path/[:prameters][?query]#fragment,
式中,其中带方括号[]的部分是可选的;hostname是站点的域名;prot是端口地址;path部分是完整的URL路径,是由零个或者多个“/”符号隔开的字符串,一般表示主机上的一个目录或者文件地址,具体定义为从URL的起始到最后一个“/”之间的部分;query是用来给动态网页传递参数的;
系统根据URL地址格式以及页面内的链接结构,将页面链接分为四类:(1)向上链接:所链接页面和当前页面hostname相同而path不相同,但所链接页面的hostname包含在所链接页面的hostname中,即所链接的页面处于当前页面的上一层;(2)向下链接:所链接页面和当前页面的hostname相同而path不相同,但当前页面的hostname包含在所链接页面的hostname中,即所链接的页面属于当前页面下一层;(3)站外链接:所链接页面和当前页面的hostname不同,即所链接的页面和当前页面不属于同一站点;(4)交叉链接:除了(1)(2)(3)中的情况都属于交叉链接,即所链接的页面和当前页面不属于同一路径;
S522:对步骤S521中的分类的页面链接进行赋权操作:对于向下链接,通常是对该主题细化,赋予较高的权重;对于站外链接,通过文本判断与主题的相关性,如果较为相关赋予较高的权重否则赋予较低的权重;对于交叉链接,赋予一个中等权重;对于向上链接通常赋予较低权重;
S523:对步骤S521中的分类的页面链接进行标记深度操作:对当前页面时主题相关的,对其深度值-1;如果判断当前页面时主题不相干的则深度值+1;当页面深度属性超过预先设定好的阀值时候,将此URL丢弃;本实施例的深度阀值为3级;
S524:将保留的网页加入到爬行队列中并对其进行爬行优先度排序,并返回步骤S2;
S6:将步骤S5提取的网页存入页面库,页面库对提取的网页进行分析,提取关键字段形成索引,通过生成的索引地址快速定位全媒体内容物的理地址,并且提取媒体内容的元数据描述、文稿内容作为快速发布的主要标签字段。
Claims (2)
1.一种快速将全媒体内容发布的系统,它包括中心节点服务器、分布式子节点服务器、页面库和管理门户系统,所述的中心节点服务器是整个系统的控制中枢;所述的分布式子节点服务器是提取数据的具体实施者;所述的页面库用于存储页面;所述的管理门户系统对系统提供web接口,可以查看中心和子服务器的日志、设置添加主题、更新某个主题的URL种子、配置主题提取频率参数和控制爬虫状态,管理门户系统通过web接口与中心节点服务器连接,中心节点服务器与分布式子节点服务器连接,分布式子节点服务器与页面库连接,分布式子节点服务器和中心节点服务器均与外部WEB连接;
其特征在于:
通过自动爬虫抽取系统数据关键字段形成索引,通过生成的索引地址快速地定位全媒体内容物理地址,在生成索引的同时抽取媒体内容的元数据描述、文稿内容,作为快速发布的主要标签字段,这样高效的生成索引定位全媒体内容,而内容并不做搬迁;
进一步包括:
所述的中心节点服务器包括主题控制模块、提取器处理模块和URL控制器模块,所述的分布式子节点服务器包括URL控制器、数据提取器、搜索控制器、网页提取器和状态日志;
所述的主题控制模块完成关于主题的操作,包括对主题的描述、提取频率和提取深度;
所述的抽取器处理模块采用基于内容的网页分析算法,从URL种子入手形成针对种子的数据抽取器;
所述的URL控制器模块负责中心节点内的URL队列排序,并且根据各个子节点负载反馈进行任务分割,所述的任务分割采取加权最小连接调度方法;
所述的URL控制器接收来自中心节点分发的种子URL和网页提前的URL,存储到URL数据库,并且对新加入的URL进行重复检测和快速插入;
所述的数据提取器用于将子节点的URL队列和中心节点的URL控制器结合,并通过查询探测算法进行模式匹配输入形成新的URL传递给网页提取器;
所述的搜索控制器结合搜索策略针对不同爬取目标设置提取深度,并将符合提取的网页内容页面存入页面库,等待索引模块的结构化;所述的网页提取器是一个多线程并行模块,负责按照http协议采集页面;
所述的状态日志按照时间戳以纯文本的方式记录子节点爬取的状态信息,所述的状态信息包括对象、时刻、当前系统并发连接数、系统CPU,状态日志还可以用于分析研究服务器性能瓶颈。
2.一种如权利要求1所述的快速将全媒体内容发布的系统对应的快速将全媒体内容发布的方法,其特征在于:所述方法包括以下步骤:
S1:中心节点服务器初始化运行参数,所述的运行参数包括爬虫使用的最大线程数量、初始种子网站、网络爬虫在一个网站内部链接爬下的最大深度大小、主题描述、主题提取频率、种子队列、系统所使用的词库路径以及爬下网页内容分析时所使用的参数;
S2:分布式子节点服务器接收来自中心节点分发的种子URL和网页提前的URL,存储到URL数据库,并对新加入的URL进行重复检测和快速插入,根据种子队列选取对应的主题网页作为一系列目标信息的初始位置页面;
S3:分布式子节点服务器根据种子队列提取出目标站点地址和端口号,并且与该地址和端口建立网络连接,包括以下子步骤:
S31:由分布式子节点服务器的URL引擎组装HTTP请求头,并发送到目标站点;
S32:分布式子节点服务器设定的时间接收应答消息:
S321:若超过分布式子节点服务器设定的时间未收到应答消息,则终止提取该页面并且将其丢弃;
S322:若返回的状态码为200,则表示正确返回页面;
S323:若返回的状态码为301 或者302 则表示页面被重定向,从应答头提取新的目的URL继续分析;
S324:若返回其他状态比如500或者404等则说明页面链接失败或者页面不存在,则终止该提取页面并且将该种子标记失效且丢弃;
S4:分布式子节点服务器从正常返回的页面应答头中提取出日期、长度、页面类型、页面内容信息,对长度较大的页面采取分块读取再拼接的方式以保证页面内容的完整性;
S5:分布式子节点服务器启动数据分析器解析已经保存的网页内容信息,包括检索内容相关度分析步骤和链接相关度分析步骤,所述的检索内容相关度分析步骤包括以下子步骤:
S511:对经过内容特征提取后的网页数据进行分析,判定网页内容与指定主题相关度如何;
S512:过滤无关页面,保留相关度达到阈值的网页;
所述的链接相关度分析是系统对从网页中提取的超链信息进行测算,得出每个URL所指页面与指定主题的相关度,将符合主题度要求的URL加入到爬行队列中并对其进行爬行优先度排序,以保证相关度高的页面优先被检索到,包括以下子步骤:
S521:采用基于动态链接分析法分析Web页面内的链接,将页面链接分类:http协议的URL地址的标准格式是固定的:
http://hostname[:port]/path/[:prameters][query]#fragment,
式中,其中带方括号[]的部分是可选的;hostname是站点的域名;prot是端口地址;path部分是完整的URL路径,是由零个或者多个“/”符号隔开的字符串,一般表示主机上的一个目录或者文件地址,具体定义为从URL的起始到最后一个“/”之间的部分;query是用来给动态网页传递参数的;
系统根据URL地址格式以及页面内的链接结构,将页面链接分为四类:(1)向上链接:所链接页面和当前页面hostname相同而path不相同,但所链接页面的hostname包含在所链接页面的hostname中,即所链接的页面处于当前页面的上一层;(2)向下链接:所链接页面和当前页面的hostname相同而path不相同,但当前页面的hostname包含在所链接页面的hostname中,即所链接的页面属于当前页面下一层;(3)站外链接:所链接页面和当前页面的hostname不同,即所链接的页面和当前页面不属于同一站点;(4)交叉链接:除了(1)(2)(3)中的情况都属于交叉链接,即所链接的页面和当前页面不属于同一路径;
S522:对步骤S521中的分类的页面链接进行赋权操作:对于向下链接,通常是对该主题细化,赋予较高的权重;对于站外链接,通过文本判断与主题的相关性,如果较为相关赋予较高的权重否则赋予较低的权重;对于交叉链接,赋予一个中等权重;对于向上链接通常赋予较低权重;
S523:对步骤S521中的分类的页面链接进行标记深度操作:对当前页面时主题相关的,对其深度值-1;如果判断当前页面时主题不相干的则深度值+1;当页面深度属性超过预先设定好的阀值时候,将此URL丢弃;
S524:将保留的网页加入到爬行队列中并对其进行爬行优先度排序,并返回步骤S2;
S6:将步骤S5提取的网页存入页面库,页面库对提取的网页进行分析,提取关键字段形成索引,通过生成的索引地址快速定位全媒体内容物的理地址,并且提取媒体内容的元数据描述、文稿内容作为快速发布的主要标签字段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410422609.8A CN104199893B (zh) | 2014-08-25 | 2014-08-25 | 一种快速将全媒体内容发布的系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410422609.8A CN104199893B (zh) | 2014-08-25 | 2014-08-25 | 一种快速将全媒体内容发布的系统和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104199893A CN104199893A (zh) | 2014-12-10 |
CN104199893B true CN104199893B (zh) | 2018-01-30 |
Family
ID=52085186
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410422609.8A Active CN104199893B (zh) | 2014-08-25 | 2014-08-25 | 一种快速将全媒体内容发布的系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104199893B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105912547A (zh) * | 2015-12-15 | 2016-08-31 | 乐视网信息技术(北京)股份有限公司 | 一种基于网络爬虫实现数据快速处理的方法和装置 |
CN105653732A (zh) * | 2016-02-02 | 2016-06-08 | 优品财富管理有限公司 | 一种基于元数据自动建立表方法及系统 |
CN106776537A (zh) * | 2016-11-18 | 2017-05-31 | 畅捷通信息技术股份有限公司 | 文本中的时间信息及主题信息的抽取方法和系统 |
CN107066530A (zh) * | 2017-03-01 | 2017-08-18 | 苏州朗动网络科技有限公司 | 一种数据刷新系统及数据刷新方法 |
CN109788051A (zh) * | 2019-01-02 | 2019-05-21 | 深圳市网心科技有限公司 | 基于分布式文件系统的网络资源传输方法及系统 |
CN110297850B (zh) * | 2019-05-28 | 2021-10-15 | 北京奇艺世纪科技有限公司 | 特征作业集发布方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1549532A (zh) * | 2003-04-30 | 2004-11-24 | 北京盈美高科数字媒体网络科技有限公 | 一种媒体内容分布的方法及其系统 |
CN103310012A (zh) * | 2013-07-02 | 2013-09-18 | 北京航空航天大学 | 一种分布式网络爬虫系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4161998B2 (ja) * | 2005-03-28 | 2008-10-08 | 日本電気株式会社 | 負荷分散振り分けシステム、イベント処理分散制御装置並びにイベント処理分散制御プログラム |
-
2014
- 2014-08-25 CN CN201410422609.8A patent/CN104199893B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1549532A (zh) * | 2003-04-30 | 2004-11-24 | 北京盈美高科数字媒体网络科技有限公 | 一种媒体内容分布的方法及其系统 |
CN103310012A (zh) * | 2013-07-02 | 2013-09-18 | 北京航空航天大学 | 一种分布式网络爬虫系统 |
Non-Patent Citations (1)
Title |
---|
基于动态评价URL链接结构的主题爬行策略;郑凯;《福建电脑》;20100228;83-84 * |
Also Published As
Publication number | Publication date |
---|---|
CN104199893A (zh) | 2014-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104199893B (zh) | 一种快速将全媒体内容发布的系统和方法 | |
CN101599089B (zh) | 视频服务网站内容更新信息的自动搜索与抽取系统及方法 | |
CN103475687B (zh) | 用于下载网站数据的分布式方法和系统 | |
CN102054028B (zh) | 一种网络爬虫系统实现页面渲染功能的方法 | |
CN102164186B (zh) | 一种实现云搜索服务的方法及系统 | |
CN102646129B (zh) | 一种主题相关的分布式网络爬虫系统 | |
CN104077402B (zh) | 数据处理方法和数据处理系统 | |
CN1692354B (zh) | 信息管理系统、信息处理设备以及信息处理方法 | |
CN102156737B (zh) | 一种中文网页主题内容的提取方法 | |
CN103678511B (zh) | 根据可视化模板进行网页内容抽取的方法及装置 | |
CN106407371A (zh) | 用户的评论数据展现方法、系统、服务器和客户端 | |
US7577671B2 (en) | Using attribute inheritance to identify crawl paths | |
WO2008141295A1 (en) | Keyword generation system and method for online activity | |
TW201142628A (en) | Method and system for compiling a unique sample code for specific web content | |
CN104516982A (zh) | 一种基于Nutch的Web信息提取方法和系统 | |
CN101408877A (zh) | 树节点加载系统及其方法 | |
CN102193996B (zh) | 基于移动设备的可视Web对象搜索引擎方法 | |
CN102117331B (zh) | 视频搜索方法及系统 | |
CN103514189A (zh) | 一种基于搜索引擎的网络爬虫的实现方法 | |
CN102567521B (zh) | 网页数据抓取过滤方法 | |
CN104391978A (zh) | 用于浏览器的网页收藏处理方法及装置 | |
CN104392037A (zh) | 一种城市场景参数化建模系统 | |
CN105007314A (zh) | 面向海量读者阅读数据的大数据处理系统 | |
CN107784113A (zh) | Html网页数据采集方法、装置和计算机可读存储介质 | |
CN103914488A (zh) | 文档的采集、标识、关联、搜索及展现的系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C41 | Transfer of patent application or patent right or utility model | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20161122 Address after: Chengdu high tech Zone Park south two road 610041 Sichuan province No. 2 1 4 floor No. 2 Applicant after: Chengdu Hua seiun Technology Co. Ltd. Address before: 610041 Sichuan province high tech Zone in Chengdu Singapore Industrial Park, Singapore two Avenue South Road No. 2 Applicant before: Chengdu Sobey Digital Technology Co., Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |