CN107273409A - 一种网络数据采集、存储及处理方法及系统 - Google Patents

一种网络数据采集、存储及处理方法及系统 Download PDF

Info

Publication number
CN107273409A
CN107273409A CN201710302930.6A CN201710302930A CN107273409A CN 107273409 A CN107273409 A CN 107273409A CN 201710302930 A CN201710302930 A CN 201710302930A CN 107273409 A CN107273409 A CN 107273409A
Authority
CN
China
Prior art keywords
url
data
task
storage
data acquisition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710302930.6A
Other languages
English (en)
Other versions
CN107273409B (zh
Inventor
刘冶
张允聪
莫伟铸
曾广健
林志远
李宏浩
郑燕璇
印鉴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou He Da Da Data Technology Co Ltd
Sun Yat Sen University
Original Assignee
Guangzhou He Da Da Data Technology Co Ltd
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou He Da Da Data Technology Co Ltd, Sun Yat Sen University filed Critical Guangzhou He Da Da Data Technology Co Ltd
Priority to CN201710302930.6A priority Critical patent/CN107273409B/zh
Publication of CN107273409A publication Critical patent/CN107273409A/zh
Application granted granted Critical
Publication of CN107273409B publication Critical patent/CN107273409B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种网络数据采集、存储及处理方法,包括以下步骤:S1:对网络数据进行采集;S2:对采集到的数据进行存储;S3:将存储的数据进行处理。其中,所述步骤S1中具体包括:S11:对URL进行存储管理分析;S12:进行自动化任务调度;S13:生成并行化爬取任务,将抓取的HTML文件进行保存;S14:解析HTML文档树,提取需要的字段信息。本发明还提供了一种用于实现上述方法的网络数据采集、存储及处理系统。相比于现有技术,本发明可以实现了对网络信息中有价值数据的采集,并通过离线解析文档提取结构化信息,比现有的网络数据采集装置有更好的采集效率和稳定性。

Description

一种网络数据采集、存储及处理方法及系统
技术领域
本发明涉及网络数据领域,特别是一种一种网络数据采集、存储及处理方法及系统。
背景技术
信息网络技术的快速发展,带来了网络信息量的指数性增长。在网络信息资源充足的条 件下,为了快速、针对性获取相关网络信息,促使了搜索引擎的诞生。搜索引擎是指运用特 定的计算机程序按照一定的策略自动从因特网上搜集信息,在对信息进行组织和处理以后, 提供给用户检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎从因特网上搜集 信息的过程,依赖于网络蜘蛛对相关网站信息的爬取。网络蜘蛛是一种自动浏览网络,分析 网页内容的程序,是搜索引擎的重要组成部分。
在现有技术中,对于普通的搜索引擎,网络爬虫从一个或若干初始网页的URL开始,在 抓取网页的过程中,不断从当前页面上匹配新的URL放入待抓取URL队列中,直到满足系 统特定的停止条件。另外,网络爬虫通过普通请求进行机械式操作不断爬取网站信息,消耗 大量网站资源,造成网站负载过大甚至导致网站奔溃。有些网络爬虫并没有使用用户代理 (User Agent)伪装,容易被目标站点列为黑名单。如今网页的结构越来越复杂,有些基于 AJAX异步加载的页面数据难以采集。
目前的网络爬虫通常不针对特定字段,而是按照整体网页内容进行分门别类;有的爬虫 只采集相关的特定字段,但是采集到的信息局限于简化展示,没能很好的融合到自身的业务 平台上,对数据信息潜在的价值也没能进行更深一步的挖掘。在大数据信息时代,挖掘数据 的潜在价值尤为重要。
因此,如何解决现有技术中网络爬虫爬取网站效率低下以及利用采集信息挖掘数据价值, 便成为亟待解决的技术问题,如何盘活数据价值,使得数据驱动业务,成了需要研究的行业 难题。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供了一种网络数据采集、存储及处理 方法及系统。
本发明通过以下的方案实现:一种网络数据采集、存储及处理方法,包括以下步骤:
S1:对网络数据进行采集;
S2:对采集到的数据进行存储;
S3:将存储的数据进行处理;
其中,所述步骤S1中具体包括:
S11:对URL进行存储管理分析;
S12:进行自动化任务调度;
S13:生成并行化爬取任务,将抓取的HTML文件进行保存;
S14:解析HTML文档树,提取需要的字段信息;
其中,所述步骤S11具体包括以下步骤:
S111:通过URL数据库存储每个URL的访问量、有效访问量、正确解析入库次数、是否需要User Agent参数、URL类型、URL平台;
S112:通过白名单URL表格和黑名单URL表格将URL进行划分;所述白名单URL表 示可正常爬取,所述黑名单URL表示不可正常爬取;
S113:分析爬取黑名单中的URL的错误输出日志,并进行优化处理,优化处理后的URL 转化为白名单。
作为本发明的进一步改进,所述步骤S112中,在对URL进行划分时,通过分析每个URL 有效访问量的比例和正确解析入库次数,对并URL进行判断,若不符合设定的爬取条件则将 该URL归类到黑名单,否则归类到白名单。
作为本发明的进一步改进,所述步骤S12中具体包括:
S121:获取白名单表格,根据数据平台业务的爬取需求,进行任务配置;所述任务配置 为:设置主线任务配置的调度器和临时任务配置的调度器,其中所述主线任务调度器用于服 务例行化的爬取任务需求,临时任务调度器用于服务临时的爬取任务需求;
S122:对主线任务进行配置时,根据数据平台业务的爬取需求以及服务器负载情况,制 定定时爬取策略;对临时任务进行配置时,通过在临时任务调度的配置入口接收需要爬取的 URL参数。
作为本发明的进一步改进,所述步骤S13中具体通过Scrapy应用框架进行网站数据爬取, 且该Scrapy应用框架中嵌入了程序快速校验测试、数据库存储配置,用于根据配置输出的内 容对爬取任务进行监控。
作为本发明的进一步改进,所述步骤S14中还将HTML内容中的新连接URL传递至URL 数据库中。
作为本发明的进一步改进,所述步骤S2中具体包括:
S21:对采集到的信息,进行数据清洗;
S22:将清洗完的数据再通过对目标字段进行Hash处理,建立映射后写入原始数据库;
S23:取出原始数据库的Hash集合A和业务数据库的Hash集合B;计算需要新添加的数据集合S1,即为A和B的差集计算需要更新的数据集合S2,即为A 和B的交集S2={x|x∈A∧x∈B};
S24:将集合S1映射的数据插入到业务数据库,将集合S2映射的数据更新到业务数据 库;
S25:将业务数据库与线上平台数据库进行对比,更新业务数据库中的扩展信息。
作为本发明的进一步改进,所述步骤S3中包括:
S31:进行数据分析,包括对数据可视化展示和进行统计分析;
S32:进行数据挖掘,包括根据业务主题进行数据挖掘;
S33:进行数据同步处理,以更新本地业务数据库。
本发明还提供了一种网络数据采集、存储及处理系统,其包括:
数据采集装置,用于对网络数据进行采集;
数据存储装置,用于对采集到的数据进行存储;
数据处理装置,用于将存储的数据进行处理;
所述数据采集装置包括:
URL存储管理模块,用于对URL进行存储管理分析;
任务调度模块,用于进行自动化任务调度;
爬取模块,用于生成并行化爬取任务,将抓取的HTML文件进行保存;
解析模块,用于解析HTML文档树,提取需要的字段信息;
其中,所述URL存储管理模块包括:
URL数据库,用于存储每个URL的访问量、有效访问量、正确解析入库次数、是否需要User Agent参数、URL类型、URL平台;
划分模块,用于通过白名单URL表格和黑名单URL表格将URL进行划分;所述白名单URL表示可正常爬取,所述黑名单URL表示不可正常爬取;
分析模块,用于分析爬取黑名单中的URL的错误输出日志,并进行优化处理,优化处理 后的URL转化为白名单。
作为本发明的进一步改进,所述划分模块在对URL进行划分时,通过分析每个URL有 效访问量的比例和正确解析入库次数,对并URL进行判断,若不符合设定的爬取条件则将该 URL归类到黑名单,否则归类到白名单。
作为本发明的进一步改进,所述任务调度模块中包括:
获取模块,用于获取白名单表格,根据数据平台业务的爬取需求,进行任务配置;所述 任务配置为:设置主线任务配置的调度器和临时任务配置的调度器,其中所述主线任务调度 器用于服务例行化的爬取任务需求,临时任务调度器用于服务临时的爬取任务需求;
任务配置模块,用于对主线任务进行配置时,根据数据平台业务的爬取需求以及服务器 负载情况,制定定时爬取策略;对临时任务进行配置时,通过在临时任务调度的配置入口接 收需要爬取的URL参数。
作为本发明的进一步改进,所述爬取模块通过Scrapy应用框架进行网站数据爬取,且该 Scrapy应用框架中嵌入了程序快速校验测试、数据库存储配置,用于根据配置输出的内容对 爬取任务进行监控。
作为本发明的进一步改进,所述解析模块还用于将HTML内容中的新连接URL传递至 URL数据库中。
作为本发明的进一步改进,所述数据存储装置包括:
数据清洗模块,用于对采集到的信息,进行数据清洗;
Hash处理模块,用于将将清洗完的数据再通过对目标字段进行Hash处理,建立映射后 写入原始数据库;
提取模块,用于取出原始数据库的Hash集合A和业务数据库的Hash集合B,计算需要 新添加的数据集合S1,即为A和B的差集计算需要更新的数据集合S2, 即为A和B的交集S2={x|x∈A∧x∈B};
更新模块,用于将集合S1映射的数据插入到业务数据库,将集合S2映射的数据更新到 业务数据库;
比对模块,用于将业务数据库与线上平台数据库进行对比,更新业务数据库中的扩展信 息。
作为本发明的进一步改进,所述数据处理装置包括:
数据分析模块,用于进行数据分析,包括对数据可视化展示和进行统计分析;
数据挖掘模块,用于进行数据挖掘,包括根据业务主题进行数据挖掘;
数据同步处理模块,用于进行数据同步处理,以更新本地业务数据库。
本发明还提供了一种网络数据采集方法,包括以下步骤:
S11:对URL进行存储管理分析;
S12:进行自动化任务调度;
S13:生成并行化爬取任务,将抓取的HTML文件进行保存;
S14:解析HTML文档树,提取需要的字段信息;
其中,所述步骤S11具体包括以下步骤:
S111:通过URL数据库存储每个URL的访问量、有效访问量、正确解析入库次数、是否需要User Agent参数、URL类型、URL平台;
S112:通过白名单URL表格和黑名单URL表格将URL进行划分;所述白名单URL表 示可正常爬取,所述黑名单URL表示不可正常爬取;
S113:分析爬取黑名单中的URL的错误输出日志,并进行优化处理,优化处理后的URL 转化为白名单。
作为本发明的进一步改进,所述步骤S112中,在对URL进行划分时,通过分析每个URL 有效访问量的比例和正确解析入库次数,对并URL进行判断,若不符合设定的爬取条件则将 该URL归类到黑名单,否则归类到白名单。
作为本发明的进一步改进,所述步骤S12中具体包括:
S121:获取白名单表格,根据数据平台业务的爬取需求,进行任务配置;所述任务配置 为:设置主线任务配置的调度器和临时任务配置的调度器,其中所述主线任务调度器用于服 务例行化的爬取任务需求,临时任务调度器用于服务临时的爬取任务需求;
S122:对主线任务进行配置时,根据数据平台业务的爬取需求以及服务器负载情况,制 定定时爬取策略;
对临时任务进行配置时,通过在临时任务调度的配置入口接收需要爬取的URL参数。
作为本发明的进一步改进,所述步骤S13中具体通过Scrapy应用框架进行网站数据爬取, 且该Scrapy应用框架中嵌入了程序快速校验测试、数据库存储配置,用于根据配置输出的内 容对爬取任务进行监控。
作为本发明的进一步改进,所述步骤S14中还将HTML内容中的新连接URL传递至URL 数据库中。
本发明还提供了一种网络数据采集装置,其包括
URL存储管理模块,用于对URL进行存储管理分析;
任务调度模块,用于进行自动化任务调度;
爬取模块,用于生成并行化爬取任务,将抓取的HTML文件进行保存;
解析模块,用于解析HTML文档树,提取需要的字段信息;
其中,所述URL存储管理模块包括:
URL数据库,用于存储每个URL的访问量、有效访问量、正确解析入库次数、是否需要User Agent参数、URL类型、URL平台;
划分模块,用于通过白名单URL表格和黑名单URL表格将URL进行划分;所述白名单URL表示可正常爬取,所述黑名单URL表示不可正常爬取;
分析模块,用于分析爬取黑名单中的URL的错误输出日志,并进行优化处理,优化处理 后的URL转化为白名单。
作为本发明的进一步改进,所述划分模块在对URL进行划分时,通过分析每个URL有 效访问量的比例和正确解析入库次数,对并URL进行判断,若不符合设定的爬取条件则将该 URL归类到黑名单,否则归类到白名单。
作为本发明的进一步改进,所述任务调度模块中包括:
获取模块,用于获取白名单表格,根据数据平台业务的爬取需求,进行任务配置;所述 任务配置为:设置主线任务配置的调度器和临时任务配置的调度器,其中所述主线任务调度 器用于服务例行化的爬取任务需求,临时任务调度器用于服务临时的爬取任务需求;
任务配置模块,用于对主线任务进行配置时,根据数据平台业务的爬取需求以及服务器 负载情况,制定定时爬取策略;对临时任务进行配置时,通过在临时任务调度的配置入口接 收需要爬取的URL参数。
作为本发明的进一步改进,所述爬取模块通过Scrapy应用框架进行网站数据爬取,且该 Scrapy应用框架中嵌入了程序快速校验测试、数据库存储配置,用于根据配置输出的内容对 爬取任务进行监控。
作为本发明的进一步改进,所述解析模块还用于将HTML内容中的新连接URL传递至 URL数据库中。
相比于现有技术,本发明提供了一种智能自动化的网络数据采集、存储及处理方法及系 统,从而实现了对网络信息中有价值数据的采集,并通过离线解析文档提取结构化信息,比 现有的网络数据采集装置有更好的采集效率和稳定性。
进一步,将数据采集装置与数据处理装置分离,通过Hash进行唯一关系标识,可以快速 更新业务数据库。采集的数据信息可通过自动化同步机制更新到业务平台上,对采集的信息 进行深度的数据分析和挖掘,为运营人员决策提供数据支撑。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1是本发明的网络数据采集、存储及处理方法的步骤流程图。
图2是步骤的S1的具体步骤流程图。
图3是步骤S11的具体步骤流程图。
图4是步骤S12的具体步骤流程图。
图5是本发明的S2的具体流程图。
图6是本发明的步骤S3的步骤流程图。
图7是本发明的网络数据采集、存储及处理系统连接框图。
图8是本发明的数据采集装置的连接框图。
图9是本发明的URL存储管理模块的连接框图。
图10是本发明的任务调度模块的具体连接框图。
图11是本发明的数据存储装置的连接框图。
图12是本发明的数据处理装置的连接框图。
图13是本发明的数据采集存储及处理系统的架构图。
图14是本实施例的数据采集装置的处理流程图。
图15是本实施例的数据存储装置的处理步骤流程图。
图16是本实施例的数据处理装置的流程图。
图17是本实施例游戏、资讯同步上架流程示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
为了解决现有技术网络爬虫爬取网站效率低下的缺陷,本发明提供了一种网络数据采集、 存储及处理方法及系统。具体通过以下的实施例进行说明:
本发明的网络数据采集、存储及处理方法及系统,可以应用于各种采用信息数据采集的 业务。以下先整体介绍本发明的整体方法流程及逻辑架构。
首先请参阅图1,其为本发明的网络数据采集、存储及处理方法的步骤流程图。本发明 提供了一种网络数据采集、存储及处理方法,其包括以下步骤:
S1:对网络数据进行采集。为了实施网络数据采集,具体的请参阅图2,其为本步骤的 S1的具体步骤流程图。该步骤S1中具体包括:
S11:对URL进行存储管理分析。请同时参阅图3,其为本发明的步骤S11的具体步骤流程图。对于URL存储管理,在本步骤S11具体包括以下步骤:
S111:通过URL数据库存储每个URL的访问量、有效访问量、正确解析入库次数、是否需要User Agent参数、URL类型、URL平台;
S112:通过白名单URL表格和黑名单URL表格将URL进行划分;所述白名单URL表 示可正常爬取,所述黑名单URL表示不可正常爬取。具体的,所述步骤S112中,在对URL 进行划分时,通过分析每个URL有效访问量的比例和正确解析入库次数,对并URL进行判 断,若不符合设定的爬取条件则将该URL归类到黑名单,否则归类到白名单。
S113:分析爬取黑名单中的URL的错误输出日志,并进行优化处理,优化处理后的URL 转化为白名单。
S12:进行自动化任务调度。具体的,请同时参阅图4,其为本步骤S12的具体步骤流程 图。所述步骤S12中具体包括:
S121:获取白名单表格,根据数据平台业务的爬取需求,进行任务配置。所述任务配置 为:设置主线任务配置的调度器和临时任务配置的调度器,其中所述主线任务调度器用于服 务例行化的爬取任务需求,临时任务调度器用于服务临时的爬取任务需求。
S122:对主线任务进行配置时,根据数据平台业务的爬取需求以及服务器负载情况,制 定定时爬取策略;对临时任务进行配置时,通过在临时任务调度的配置入口接收需要爬取的 URL参数。
S13:生成并行化爬取任务,将抓取的HTML文件进行保存。具体的,所述步骤S13中具体通过Scrapy应用框架进行网站数据爬取,且该Scrapy应用框架中嵌入了程序快速校验测 试、数据库存储配置,用于根据配置输出的内容对爬取任务进行监控。
S14:解析HTML文档树,提取需要的字段信息。具体的,所述步骤S14中还将HTML 内容中的新连接URL传递至URL数据库中。
S2:对采集到的数据进行存储。具体的请同时参阅图5,其为本发明的S2的具体流程图。 所述步骤S2中具体包括:
S21:对采集到的信息,进行数据清洗。
S22:将清洗完的数据再通过对目标字段进行Hash处理,建立映射后写入原始数据库。
S23:取出原始数据库的Hash集合A和业务数据库的Hash集合B;计算需要新添加的数据集合S1,即为A和B的差集计算需要更新的数据集合S2,即为A 和B的交集S2={x|x∈A∧x∈B}。
S24:将集合S1映射的数据插入到业务数据库,将集合S2映射的数据更新到业务数据 库。
S25:将业务数据库与线上平台数据库进行对比,更新业务数据库中的扩展信息。
S3:将存储的数据进行处理。具体的请同时参阅图6,其为本发明的步骤S3的步骤流程 图。所述步骤S3中具体包括:
S31:进行数据分析,包括对数据可视化展示和进行统计分析。
S32:进行数据挖掘,包括根据业务主题进行数据挖掘。
S33:进行数据同步处理,以更新本地业务数据库。
请参阅图7,其为本发明的网络数据采集、存储及处理系统连接框图。对应的,为了实 现本发明的网络数据采集、存储及处理方法,本发明还提供了一种网络数据采集、存储及处 理系统,其包括:数据采集装置1、数据存储装置2和数据处理装置3。
所述数据采集装置1,用于对网络数据进行采集。
所述数据存储装置2,用于对采集到的数据进行存储。
所述数据处理装置3,用于将存储的数据进行处理。
请同时参阅图8,其为本发明的数据采集装置的连接框图。所述数据采集装置1包括: URL存储管理模块11、任务调度模块12、爬取模块13和解析模块14。
所述URL存储管理模块11,用于对URL进行存储管理分析。
所述任务调度模块12,用于进行自动化任务调度。
所述爬取模块13,用于生成并行化爬取任务,将抓取的HTML文件进行保存。
所述解析模块14,用于解析HTML文档树,提取需要的字段信息。
请同时参阅图9,其为本发明的URL存储管理模块的连接框图。其中,所述URL存储管理模块包括:URL数据库111、划分模块112和分析模块113。
所述URL数据库,用于存储每个URL的访问量、有效访问量、正确解析入库次数、是否需要User Agent参数、URL类型、URL平台;
所述划分模块,用于通过白名单URL表格和黑名单URL表格将URL进行划分;所述白名单URL表示可正常爬取,所述黑名单URL表示不可正常爬取;
所述分析模块,用于分析爬取黑名单中的URL的错误输出日志,并进行优化处理,优化 处理后的URL转化为白名单。具体的,所述划分模块在对URL进行划分时,通过分析每个 URL有效访问量的比例和正确解析入库次数,对并URL进行判断,若不符合设定的爬取条件则将该URL归类到黑名单,否则归类到白名单。
请同时参阅图10,其为本发明的任务调度模块的具体连接框图。进一步,所述任务调度 模块中包括:获取模块121和任务配置模块122。
所述获取模块,用于获取白名单表格,根据数据平台业务的爬取需求,进行任务配置; 所述任务配置为:设置主线任务配置的调度器和临时任务配置的调度器,其中所述主线任务 调度器用于服务例行化的爬取任务需求,临时任务调度器用于服务临时的爬取任务需求。
所述任务配置模块,用于对主线任务进行配置时,根据数据平台业务的爬取需求以及服 务器负载情况,制定定时爬取策略;对临时任务进行配置时,通过在临时任务调度的配置入 口接收需要爬取的URL参数。
进一步,在本发明中所述爬取模块13通过Scrapy应用框架进行网站数据爬取,且该 Scrapy应用框架中嵌入了程序快速校验测试、数据库存储配置,用于根据配置输出的内容对 爬取任务进行监控。
进一步,在本发明中所述解析模块还用于将HTML内容中的新连接URL传递至URL数据库中。
请同时参阅图11,其为本发明的数据存储装置的连接框图。所述数据存储装置2包括: 数据清洗模块21、Hash处理模块22、提取模块23、更新模块24和比对模块25。
所述数据清洗模块21,用于对采集到的信息,进行数据清洗。
所述Hash处理模块22,用于将将清洗完的数据再通过对目标字段进行Hash处理,建立 映射后写入原始数据库。
所述提取模块23,用于取出原始数据库的Hash集合A和业务数据库的Hash集合B,计 算需要新添加的数据集合S1,即为A和B的差集计算需要更新的数据集合S2,即为A和B的交集S2={x|x∈A∧x∈B}。
所述更新模块24,用于将集合S1映射的数据插入到业务数据库,将集合S2映射的数据 更新到业务数据库。
所述比对模块25,用于将业务数据库与线上平台数据库进行对比,更新业务数据库中的 扩展信息。
请同时参阅图12,其为本发明的数据处理装置的连接框图。所述数据处理装置3包括: 数据分析模块31、数据挖掘模块32和数据同步处理模块33。
所述数据分析模块31,用于进行数据分析,包括对数据可视化展示和进行统计分析。
所述数据挖掘模块32,用于进行数据挖掘,包括根据业务主题进行数据挖掘。
所述数据同步处理模块33,用于进行数据同步处理,以更新本地业务数据库。
以下结合游戏数据采集业务,具体介绍本发明的网络数据采集、存储及处理方法及系统 的应用方式,具体如下:
在游戏数据采集工作中,需要解决的问题主要有三方面,一是实现网络数据的高效采集, 及流程科学优化,从而减轻后台设备负荷,提供稳定的目标数据;二是优化设计源数据的存 储逻辑,通过游戏信息的唯一化处理,避免游戏唯一性冲突,为后续业务的开发及扩展提供 技术保障;三是基于前两个部分的工作基础,进行数据业务的开发,实现数据分析、数据挖 掘、业务运营等系统服务,智能自动化地协助产品相关人员开展业务工作。
为了解决该问题,具体可以结合本发明的网络数据采集、存储及处理方法及系统。具体 请参阅图13,其为本发明的数据采集存储及处理系统的架构图。本发明中具体包括有三个装 置:数据采集装置、数据存储装置和数据处理装置。这里的数据处理装置也即是业务营运装 置,且其含数据分析、数据挖掘、业务运营三个功能。
其中,数据采集装置负责定时从网络游戏平台或APP上爬取游戏数据,并将网页内容持 久化保存在采集服务器中,然后解析网页内容提取游戏信息,如游戏名称、游戏包名、游戏 截图、游戏包链接、游戏版本、游戏介绍等信息。为了保证游戏数据的时效性,数据存储模 块需要保证信息及时同步更新。通过建立Hash来标记唯一的信息源,根据原始数据库中的数 据与业务数据库中已有的数据对比结果,将采集到的游戏信息,如游戏名称、游戏包名、游 戏截图、游戏包链接、游戏版本、游戏介绍等信息更新并存入业务数据库中。数据业务模块 将收集到的游戏相关信息结合运营业务的统计需求进行加工处理、可视化数据报表。为了深 入了解用户,提供满足用户需求的内容及产品,本发明针对用户论坛数据及游戏资讯数据进 行主题挖掘,并加以可视化,协助运营人员进行用户分析和运营用户。为了实现数据驱动业 务,提升数据效益,本发明提供运营业务操作服务,可完成游戏、资讯等数据的一键同步及 上架工作,极大的方便运营人员进行业务操作,提高效益。
以下具体分别对这三部分进行介绍:
本实施例的数据采集装置设有采集服务器。所述采集服务器负责爬虫任务的调度,进行 数据采集和信息提取。所述数据存储装置设有数据存储服务器,责保存结构化的游戏信息, 例如游戏名称、游戏包名、游戏平台、游戏截图、游戏包链接、游戏版本、游戏介绍等。总 体的工作方法流程如下:
步骤S1:采集服务器具体通过定时任务唤醒爬虫对互联网数据进行定向采集。
步骤S2:爬虫网页爬取完成后,将HTML网页信息以文本内容的格式保存在采集服务器 磁盘,并以URL进行命名。
步骤S3:采集服务器调用解析程序对HTML文本进行解析,提取游戏名称、游戏包名、 游戏平台、游戏截图、游戏包链接、游戏版本、游戏介绍等信息,通过Hash处理后将结构化 的信息写入储存服务器的原始数据库中。
步骤S4:储存服务器通过对比原始数据库和业务数据库中的Hash,获取需要更新或新增 的Hash集合,从而决定原始数据库的信息是新增或更新到业务数据库。
步骤S5:业务数据库开放给业务逻辑使用,可将采集到的游戏数据同步到业务平台,进 行统计分析和数据挖掘。
请同时参阅图14,其为本实施例的数据采集装置的处理流程图,本实施例的数据采集装 置共包括4个步骤。
步骤1:URL存储管理分析,并实施快速抓取策略。在该步骤中,对待爬取的URL进行了抓取策略分析。具体地,设计一个数据库用户存储了每个URL访问量、有效URL访问量 等数据。对于有效访问量比例较低的URL,进行了User Agent调参校验,以及URL路由分 析。为防止待爬取的URL网站崩溃,对访问量较大的URL以及一些特殊敏感的URL进行抓 取调控,进入休眠模式。
步骤2:智能自动化的任务调度。在该步骤中,根据数据业务平台的爬虫任务需求,制 定定时、定向等爬取策略。具体的,本实施例配置了一个任务调度器,分为主线任务调度以 及临时任务调度。主线任务调度服务例行化的爬虫任务需求,主要由系统管理员根据业务需 求进行配置。临时任务调度可随时服务临时的爬虫任务需求,运营工作人员可根据使用说明 书填写参数配置。
步骤3:生成并行化爬取任务。根据步骤2配置好的任务进行并行化爬取,将抓取的HTML 内容保存到爬虫服务器。本实施例充分考虑了框架的拓展性以及实用性,嵌入了程序快速校 验测试、数据库存储、以及网站爬取结果校验等有用配置。根据配置输出的日志内容,可及 时监控爬取任务,以处理爬取任务的各种突发情况。
步骤4:使用Beautiful Soup解析HTML文档树,提取需要的字段信息,并将结构化数据 存储进原始数据库。此步骤还会解析文档中新链接,并把新的链接添加到待抓取URL队列中。
在完成数据采集解析后,需要对数据进行存储管理。具体请参阅图15,其为本实施例的 数据存储装置的处理步骤流程图,其步骤具体如下:
步骤1:对于采集到的信息,先通过数据清洗,如日期格式统一格式化、补全残缺字段。
步骤2:清洗完的数据再通过对目标字段进行Hash处理,建立映射后写入原始数据库, 每个Hash值映射到一个采集对象的一款游戏中。
步骤3:原始数据库中的信息与游戏数据库信息进行对比,根据Hash求得差集和交集。 将差集映射的数据新增到最终数据库,将交集映射的数据更新到最终数据库。
步骤4:将游戏数据库与业务平台数据库对比,及时更新必要的扩展信息,如游戏在业 务平台是否存在。
请同时参阅图16,其为本实施例的数据处理装置的流程图。本实施例中采集到的数据信 息分为三类:游戏排行榜、新闻资讯、游戏数据。为了更好的结合平台业务,及时关注市场 动态,保证平台信息的有效性和及时性,需要采集到的数据进行统计、分类等处理,以更直 观的可视化方式为运营提供决策指导。
第一、游戏分析:
通过对比各个网站、客户端的热门游戏排行情况,得出今天相比昨天排名上升或者下降 的游戏,并以数字的形式表示出来,运营人员根据排名变化及时获取市场热门游戏,然后及 时调整自身平台的推荐游戏顺序,使推荐信息更具时效性,更贴合大众用户。
具体包括:
(1)数据报表分析。通过每天采集的游戏数据,依照日期、域名进行聚合,统计出该域名每天新增信息量。通过数据可视化,以图表的方式展示,运营人员可以及时了解市场信息动态走势,从而调整发布策略。
(2)游戏排行榜分析。保存各个游戏榜单的当天排名,然后按照榜单归类,通过比较同 一榜单与昨天的排名变化,可以清晰获取热门游戏、飙升游戏等。通过统计分析,查看各款 上榜游戏的排名变动情况,各大游戏排行榜单是调整自身平台游戏榜单的参考依据。
第二、主题挖掘:
由于采集到的网络资讯内容繁多,如果让运营人员逐查看会浪费大量的人力物力,效果 也不见好。所以本实施例将资讯数据通过jieba分词工具和在线LDA主题生成模型生成10个 主题,并对每个主题的关键字赋予权重,权重排前的着重显示。运营通过前端便可以整理出 资讯热点,为自身平台的资讯提供参考,具体包括:
(1)竞品资讯数据主题挖掘。本模块主要是对用户的反馈信息进行聚类分析。通过jieba 分词工具对用户反馈日志进行切割分词,并提取出热门关键词。再利用在线LDA主题生成模 型,对提取出来的热门关键词划分为10个主题,每个主题保留100个热门关键词。
(2)游戏自动标签数据分析。本模块主要实现了对新上架游戏自动打标签功能。对于一 个新游戏,先用jieba分词工具对提取的游戏标题和游戏描述进行切割分词,然后运用TF-IDF 算法自动提取关键词。TF-IDF算法简单介绍如下:
首先引入两个概念:
标准化词频TF和逆文档频率IDF;
最后两者相乘即能得到TF-IDF:TF-IDF=TFxDF。某个词对文章的重要性越高,它的 TF-IDF值就越大。所以,排在最前面的几个词,可以认为是这篇文章的关键词。
(3)用TF-IDF构成的词向量来表示一个游戏,然后采用kNN算法,对于每一个需要打 标签的无标签游戏计算和有标签的训练样本计算距离,将训练样本中和无标签游戏距离最近 的k个游戏选出,k个游戏中占比最大的标签类别确定为无标签游戏的类别。另外,筛选出 来的k个游戏还可用于相似游戏推荐。
第三、同步上架:
采集到游戏数据可以通过处理后成为自身平台的数据。具体为:运营通过关键字查找需 要上架的游戏,修改游戏名、版本、游戏说明等信息后,通过接口下载游戏截图,同步游戏 信息,最终在自身平台展示。整个过程方便快捷,减少了运营编辑图片、游戏说明的工作量, 提升了运行效率。
具体请参阅图17,其为本实施例游戏、资讯同步上架流程示意图。本实施例同步上架技 术包括两个大方面:数据本地化和数据同步。
其中数据本地化主要是将文本保存在原始数据库、下载图片和游戏包到采集服务器。数 据同步通过调用API接口,把相关参数传递给平台业务接口处理,处理结果通过异步接口返 回给本地,然后更新本地数据库。根据数据属性分为文本、图片、游戏数据包,三种属性的 字段处理如下:
文本:自定义增删改相应字段后可入库,例如游戏名称、发布时间、游戏说明等。
图片:本地系统将采集的图片下载到本地,并按平台规定大小剪裁,然后获取本地图片 地址。通过调用接口将本地图片地址发送给业务平台,平台接口收到请求后开始将图片下载 到平台服务器,并把图片地址保存到平台数据库中,返回储存后的ID。
游戏包:本地调用接口,将游戏包的下载地址发送到平台服务器。服务器接口到请求后 开始处理并下载游戏包。由于下载的时间会因为下载速度、数据包大小而产生较大差距,所 以本地服务器提供异步回调接口,当游戏下载完毕后,调用回调接口通知本地服务器。
相比于现有技术,本发明提供了一种智能自动化的网络数据采集、存储及处理方法及系 统,从而实现了对网络信息中有价值数据的采集,并通过离线解析文档提取结构化信息,比 现有的网络数据采集装置有更好的采集效率和稳定性。
进一步,将数据采集装置与数据处理装置分离,通过Hash进行唯一关系标识,可以快速 更新业务数据库。采集的数据信息可通过自动化同步机制更新到业务平台上,对采集的信息 进行深度的数据分析和挖掘,为运营人员决策提供数据支撑。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制, 其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应 为等效的置换方式,都包含在本发明的保护范围之内。

Claims (24)

1.一种网络数据采集、存储及处理方法,其特征在于:包括以下步骤:
S1:对网络数据进行采集;
S2:对采集到的数据进行存储;
S3:将存储的数据进行处理;
其中,所述步骤S1中具体包括:
S11:对URL进行存储管理分析;
S12:进行自动化任务调度;
S13:生成并行化爬取任务,将抓取的HTML文件进行保存;
S14:解析HTML文档树,提取需要的字段信息;
其中,所述步骤S11具体包括以下步骤:
S111:通过URL数据库存储每个URL的访问量、有效访问量、正确解析入库次数、是否需要User Agent参数、URL类型、URL平台;
S112:通过白名单URL表格和黑名单URL表格将URL进行划分;所述白名单URL表示可正常爬取,所述黑名单URL表示不可正常爬取;
S113:分析爬取黑名单中的URL的错误输出日志,并进行优化处理,优化处理后的URL转化为白名单。
2.根据权利要求1所述网络数据采集、存储及处理方法,其特征在于:所述步骤S112中,在对URL进行划分时,通过分析每个URL有效访问量的比例和正确解析入库次数,对并URL进行判断,若不符合设定的爬取条件则将该URL归类到黑名单,否则归类到白名单。
3.根据权利要求1所述网络数据采集、存储及处理方法,其特征在于:所述步骤S12中具体包括:
S121:获取白名单表格,根据数据平台业务的爬取需求,进行任务配置;所述任务配置为:设置主线任务配置的调度器和临时任务配置的调度器,其中所述主线任务调度器用于服务例行化的爬取任务需求,临时任务调度器用于服务临时的爬取任务需求;
S122:对主线任务进行配置时,根据数据平台业务的爬取需求以及服务器负载情况,制定定时爬取策略;对临时任务进行配置时,通过在临时任务调度的配置入口接收需要爬取的URL参数。
4.根据权利要求1所述网络数据采集、存储及处理方法,其特征在于:所述步骤S13中具体通过Scrapy应用框架进行网站数据爬取,且该Scrapy应用框架中嵌入了程序快速校验测试、数据库存储配置,用于根据配置输出的内容对爬取任务进行监控。
5.根据权利要求1所述网络数据采集、存储及处理方法,其特征在于:所述步骤S14中还将HTML内容中的新连接URL传递至URL数据库中。
6.根据权利要求1所述网络数据采集、存储及处理方法,其特征在于:所述步骤S2中具体包括:
S21:对采集到的信息,进行数据清洗;
S22:将清洗完的数据再通过对目标字段进行Hash处理,建立映射后写入原始数据库;
S23:取出原始数据库的Hash集合A和业务数据库的Hash集合B;计算需要新添加的数据集合S1,即为A和B的差集计算需要更新的数据集合S2,即为A和B的交集S2={x|x∈A∧x∈B};
S24:将集合S1映射的数据插入到业务数据库,将集合S2映射的数据更新到业务数据库;
S25:将业务数据库与线上平台数据库进行对比,更新业务数据库中的扩展信息。
7.根据权利要求1所述网络数据采集、存储及处理方法,其特征在于:所述步骤S3中包括:
S31:进行数据分析,包括对数据可视化展示和进行统计分析;
S32:进行数据挖掘,包括根据业务主题进行数据挖掘;
S33:进行数据同步处理,以更新本地业务数据库。
8.一种网络数据采集、存储及处理系统,其特征在于:包括:
数据采集装置,用于对网络数据进行采集;
数据存储装置,用于对采集到的数据进行存储;
数据处理装置,用于将存储的数据进行处理;
所述数据采集装置包括:
URL存储管理模块,用于对URL进行存储管理分析;
任务调度模块,用于进行自动化任务调度;
爬取模块,用于生成并行化爬取任务,将抓取的HTML文件进行保存;
解析模块,用于解析HTML文档树,提取需要的字段信息;
其中,所述URL存储管理模块包括:
URL数据库,用于存储每个URL的访问量、有效访问量、正确解析入库次数、是否需要User Agent参数、URL类型、URL平台;
划分模块,用于通过白名单URL表格和黑名单URL表格将URL进行划分;所述白名单URL表示可正常爬取,所述黑名单URL表示不可正常爬取;
分析模块,用于分析爬取黑名单中的URL的错误输出日志,并进行优化处理,优化处理后的URL转化为白名单。
9.根据权利要求8所述网络数据采集、存储及处理系统,其特征在于:所述划分模块在对URL进行划分时,通过分析每个URL有效访问量的比例和正确解析入库次数,对并URL进行判断,若不符合设定的爬取条件则将该URL归类到黑名单,否则归类到白名单。
10.根据权利要求8所述网络数据采集、存储及处理系统,其特征在于:所述任务调度模块中包括:
获取模块,用于获取白名单表格,根据数据平台业务的爬取需求,进行任务配置;所述任务配置为:设置主线任务配置的调度器和临时任务配置的调度器,其中所述主线任务调度器用于服务例行化的爬取任务需求,临时任务调度器用于服务临时的爬取任务需求;
任务配置模块,用于对主线任务进行配置时,根据数据平台业务的爬取需求以及服务器负载情况,制定定时爬取策略;对临时任务进行配置时,通过在临时任务调度的配置入口接收需要爬取的URL参数。
11.根据权利要求8所述网络数据采集、存储及处理系统,其特征在于:所述爬取模块通过Scrapy应用框架进行网站数据爬取,且该Scrapy应用框架中嵌入了程序快速校验测试、数据库存储配置,用于根据配置输出的内容对爬取任务进行监控。
12.根据权利要求8所述网络数据采集、存储及处理系统,其特征在于:所述解析模块还用于将HTML内容中的新连接URL传递至URL数据库中。
13.根据权利要求8所述网络数据采集、存储及处理系统,其特征在于:所述数据存储装置包括:
数据清洗模块,用于对采集到的信息,进行数据清洗;
Hash处理模块,用于将将清洗完的数据再通过对目标字段进行Hash处理,建立映射后写入原始数据库;
提取模块,用于取出原始数据库的Hash集合A和业务数据库的Hash集合B,计算需要新添加的数据集合S1,即为A和B的差集计算需要更新的数据集合S2,即为A和B的交集S2={x|x∈A∧x∈B};
更新模块,用于将集合S1映射的数据插入到业务数据库,将集合S2映射的数据更新到业务数据库;
比对模块,用于将业务数据库与线上平台数据库进行对比,更新业务数据库中的扩展信息。
14.根据权利要求8所述网络数据采集、存储及处理系统,其特征在于:所述数据处理装置包括:
数据分析模块,用于进行数据分析,包括对数据可视化展示和进行统计分析;
数据挖掘模块,用于进行数据挖掘,包括根据业务主题进行数据挖掘;
数据同步处理模块,用于进行数据同步处理,以更新本地业务数据库。
15.一种网络数据采集方法,包括以下步骤:
S11:对URL进行存储管理分析;
S12:进行自动化任务调度;
S13:生成并行化爬取任务,将抓取的HTML文件进行保存;
S14:解析HTML文档树,提取需要的字段信息;
其中,所述步骤S11具体包括以下步骤:
S111:通过URL数据库存储每个URL的访问量、有效访问量、正确解析入库次数、是否需要User Agent参数、URL类型、URL平台;
S112:通过白名单URL表格和黑名单URL表格将URL进行划分;所述白名单URL表示可正常爬取,所述黑名单URL表示不可正常爬取;
S113:分析爬取黑名单中的URL的错误输出日志,并进行优化处理,优化处理后的URL转化为白名单。
16.根据权利要求15所述网络数据采集方法,其特征在于:所述步骤S112中,在对URL进行划分时,通过分析每个URL有效访问量的比例和正确解析入库次数,对并URL进行判断,若不符合设定的爬取条件则将该URL归类到黑名单,否则归类到白名单。
17.根据权利要求15所述网络数据采集方法,其特征在于:所述步骤S12中具体包括:
S121:获取白名单表格,根据数据平台业务的爬取需求,进行任务配置;所述任务配置为:设置主线任务配置的调度器和临时任务配置的调度器,其中所述主线任务调度器用于服务例行化的爬取任务需求,临时任务调度器用于服务临时的爬取任务需求;
S122:对主线任务进行配置时,根据数据平台业务的爬取需求以及服务器负载情况,制定定时爬取策略;
对临时任务进行配置时,通过在临时任务调度的配置入口接收需要爬取的URL参数。
18.根据权利要求15所述网络数据采集方法,其特征在于:所述步骤S13中具体通过Scrapy应用框架进行网站数据爬取,且该Scrapy应用框架中嵌入了程序快速校验测试、数据库存储配置,用于根据配置输出的内容对爬取任务进行监控。
19.根据权利要求15所述网络数据采集方法,其特征在于:所述步骤S14中还将HTML内容中的新连接URL传递至URL数据库中。
20.一种网络数据采集装置,其特征在于:包括
URL存储管理模块,用于对URL进行存储管理分析;
任务调度模块,用于进行自动化任务调度;
爬取模块,用于生成并行化爬取任务,将抓取的HTML文件进行保存;
解析模块,用于解析HTML文档树,提取需要的字段信息;
其中,所述URL存储管理模块包括:
URL数据库,用于存储每个URL的访问量、有效访问量、正确解析入库次数、是否需要User Agent参数、URL类型、URL平台;
划分模块,用于通过白名单URL表格和黑名单URL表格将URL进行划分;所述白名单URL表示可正常爬取,所述黑名单URL表示不可正常爬取;
分析模块,用于分析爬取黑名单中的URL的错误输出日志,并进行优化处理,优化处理后的URL转化为白名单。
21.根据权利要求20所述网络数据采集装置,其特征在于:所述划分模块在对URL进行划分时,通过分析每个URL有效访问量的比例和正确解析入库次数,对并URL进行判断,若不符合设定的爬取条件则将该URL归类到黑名单,否则归类到白名单。
22.根据权利要求20所述网络数据采集装置,其特征在于:所述任务调度模块中包括:
获取模块,用于获取白名单表格,根据数据平台业务的爬取需求,进行任务配置;所述任务配置为:设置主线任务配置的调度器和临时任务配置的调度器,其中所述主线任务调度器用于服务例行化的爬取任务需求,临时任务调度器用于服务临时的爬取任务需求;
任务配置模块,用于对主线任务进行配置时,根据数据平台业务的爬取需求以及服务器负载情况,制定定时爬取策略;对临时任务进行配置时,通过在临时任务调度的配置入口接收需要爬取的URL参数。
23.根据权利要求20所述网络数据采集装置,其特征在于:所述爬取模块通过Scrapy应用框架进行网站数据爬取,且该Scrapy应用框架中嵌入了程序快速校验测试、数据库存储配置,用于根据配置输出的内容对爬取任务进行监控。
24.根据权利要求20所述网络数据采集装置,其特征在于:所述解析模块还用于将HTML内容中的新连接URL传递至URL数据库中。
CN201710302930.6A 2017-05-03 2017-05-03 一种网络数据采集、存储及处理方法及系统 Active CN107273409B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710302930.6A CN107273409B (zh) 2017-05-03 2017-05-03 一种网络数据采集、存储及处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710302930.6A CN107273409B (zh) 2017-05-03 2017-05-03 一种网络数据采集、存储及处理方法及系统

Publications (2)

Publication Number Publication Date
CN107273409A true CN107273409A (zh) 2017-10-20
CN107273409B CN107273409B (zh) 2020-12-15

Family

ID=60073699

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710302930.6A Active CN107273409B (zh) 2017-05-03 2017-05-03 一种网络数据采集、存储及处理方法及系统

Country Status (1)

Country Link
CN (1) CN107273409B (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766581A (zh) * 2017-11-23 2018-03-06 安徽科创智慧知识产权服务有限公司 对url进行数据重复记录清洗的方法
CN107885602A (zh) * 2017-10-31 2018-04-06 新华三技术有限公司 数据采集系统及方法
CN108089967A (zh) * 2017-12-12 2018-05-29 成都睿码科技有限责任公司 一种爬取安卓手机App数据的方法
CN108133041A (zh) * 2018-01-11 2018-06-08 四川九洲电器集团有限责任公司 基于网络爬虫和数据转移技术的数据采集系统及方法
CN108268631A (zh) * 2018-01-16 2018-07-10 威创集团股份有限公司 一种从web网站中获取数据的方法、装置及设备
CN108345686A (zh) * 2018-03-08 2018-07-31 广州赫炎大数据科技有限公司 一种基于搜索引擎技术的数据分析方法及系统
CN108549678A (zh) * 2018-04-02 2018-09-18 北京今朝在线科技有限公司 信息采集系统
CN108920660A (zh) * 2018-07-04 2018-11-30 中国银行股份有限公司 关键词权重获取方法、装置、电子设备及可读存储介质
CN109062926A (zh) * 2018-06-06 2018-12-21 成都中通信通科技有限公司 一种车辆保险数据采集系统
CN109460393A (zh) * 2018-11-08 2019-03-12 浙江工业大学 一种基于大数据的预检预修可视化系统
CN109614535A (zh) * 2018-11-29 2019-04-12 甘肃万维信息技术有限责任公司 一种基于Scrapy框架的网络数据的采集方法及装置
CN109766488A (zh) * 2019-01-16 2019-05-17 南京工业职业技术学院 一种基于Scrapy的数据采集方法
CN109918428A (zh) * 2019-01-17 2019-06-21 重庆金融资产交易所有限责任公司 网页数据解析方法、装置及计算机可读存储介质
CN109918558A (zh) * 2019-03-14 2019-06-21 云南电网有限责任公司信息中心 一种基于爬取技术的大数据采集接口及采集方法
CN110134674A (zh) * 2019-05-22 2019-08-16 中国人民银行成都分行 一种货币信贷大数据监测分析系统
CN111061940A (zh) * 2018-09-28 2020-04-24 北京国双科技有限公司 数据处理的方法及装置
CN111090884A (zh) * 2019-12-20 2020-05-01 宜宾宝包网络技术有限公司 一种网络数据的结构化处理方法
CN111158892A (zh) * 2020-04-02 2020-05-15 支付宝(杭州)信息技术有限公司 一种任务队列生成方法、装置及设备
CN111460255A (zh) * 2020-03-26 2020-07-28 第一曲库(北京)科技有限公司 一种音乐作品信息数据采集及存储方法
CN111598470A (zh) * 2020-05-20 2020-08-28 贵州电网有限责任公司 一种配网物资市场价格采集及监测预警方法及系统
CN112182212A (zh) * 2020-09-27 2021-01-05 广州汽车集团股份有限公司 一种网络车辆碰撞数据的处理方法及系统
CN112559809A (zh) * 2020-12-21 2021-03-26 恩亿科(北京)数据科技有限公司 消费者多渠道数据整合方法、系统、设备及存储介质
CN112764908A (zh) * 2021-01-26 2021-05-07 北京鼎普科技股份有限公司 网络数据采集处理方法、装置和电子设备
CN113553490A (zh) * 2021-08-11 2021-10-26 长沙学院 一种数据管理平台及数据管理方法
CN114817425A (zh) * 2022-06-28 2022-07-29 成都交大大数据科技有限公司 一种冷热数据分类的方法、装置、设备及可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102014025A (zh) * 2010-12-06 2011-04-13 北京航空航天大学 基于网络流聚类检测p2p僵尸网络结构的方法
CN102118400A (zh) * 2009-12-31 2011-07-06 北京四维图新科技股份有限公司 数据采集方法和数据采集系统
CN102355488A (zh) * 2011-08-15 2012-02-15 北京星网锐捷网络技术有限公司 爬虫种子获取方法与设备及爬虫爬取方法与设备
US8402133B1 (en) * 2007-03-07 2013-03-19 conScore, Inc. Detecting content and user response to content
CN103399872A (zh) * 2013-07-10 2013-11-20 北京奇虎科技有限公司 对网页抓取进行优化的方法和装置
CN103428196A (zh) * 2012-12-27 2013-12-04 北京安天电子设备有限公司 一种基于url白名单的web应用入侵检测方法和装置
CN106411578A (zh) * 2016-09-12 2017-02-15 国网山东省电力公司电力科学研究院 一种适应于电力行业的网站监控系统及方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8402133B1 (en) * 2007-03-07 2013-03-19 conScore, Inc. Detecting content and user response to content
CN102118400A (zh) * 2009-12-31 2011-07-06 北京四维图新科技股份有限公司 数据采集方法和数据采集系统
CN102014025A (zh) * 2010-12-06 2011-04-13 北京航空航天大学 基于网络流聚类检测p2p僵尸网络结构的方法
CN102355488A (zh) * 2011-08-15 2012-02-15 北京星网锐捷网络技术有限公司 爬虫种子获取方法与设备及爬虫爬取方法与设备
CN103428196A (zh) * 2012-12-27 2013-12-04 北京安天电子设备有限公司 一种基于url白名单的web应用入侵检测方法和装置
CN103399872A (zh) * 2013-07-10 2013-11-20 北京奇虎科技有限公司 对网页抓取进行优化的方法和装置
CN106411578A (zh) * 2016-09-12 2017-02-15 国网山东省电力公司电力科学研究院 一种适应于电力行业的网站监控系统及方法

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107885602A (zh) * 2017-10-31 2018-04-06 新华三技术有限公司 数据采集系统及方法
CN107766581A (zh) * 2017-11-23 2018-03-06 安徽科创智慧知识产权服务有限公司 对url进行数据重复记录清洗的方法
CN108089967A (zh) * 2017-12-12 2018-05-29 成都睿码科技有限责任公司 一种爬取安卓手机App数据的方法
CN108133041A (zh) * 2018-01-11 2018-06-08 四川九洲电器集团有限责任公司 基于网络爬虫和数据转移技术的数据采集系统及方法
CN108268631A (zh) * 2018-01-16 2018-07-10 威创集团股份有限公司 一种从web网站中获取数据的方法、装置及设备
CN108345686A (zh) * 2018-03-08 2018-07-31 广州赫炎大数据科技有限公司 一种基于搜索引擎技术的数据分析方法及系统
CN108345686B (zh) * 2018-03-08 2021-12-28 广州赫炎大数据科技有限公司 一种基于搜索引擎技术的数据分析方法及系统
CN108549678A (zh) * 2018-04-02 2018-09-18 北京今朝在线科技有限公司 信息采集系统
CN108549678B (zh) * 2018-04-02 2020-06-19 北京今朝在线科技有限公司 信息采集系统
CN109062926A (zh) * 2018-06-06 2018-12-21 成都中通信通科技有限公司 一种车辆保险数据采集系统
CN108920660A (zh) * 2018-07-04 2018-11-30 中国银行股份有限公司 关键词权重获取方法、装置、电子设备及可读存储介质
CN111061940A (zh) * 2018-09-28 2020-04-24 北京国双科技有限公司 数据处理的方法及装置
CN111061940B (zh) * 2018-09-28 2023-10-27 北京国双科技有限公司 数据处理的方法及装置
CN109460393A (zh) * 2018-11-08 2019-03-12 浙江工业大学 一种基于大数据的预检预修可视化系统
CN109614535B (zh) * 2018-11-29 2021-10-08 中电万维信息技术有限责任公司 一种基于Scrapy框架的网络数据的采集方法及装置
CN109614535A (zh) * 2018-11-29 2019-04-12 甘肃万维信息技术有限责任公司 一种基于Scrapy框架的网络数据的采集方法及装置
CN109766488A (zh) * 2019-01-16 2019-05-17 南京工业职业技术学院 一种基于Scrapy的数据采集方法
CN109766488B (zh) * 2019-01-16 2022-09-16 南京工业职业技术学院 一种基于Scrapy的数据采集方法
CN109918428A (zh) * 2019-01-17 2019-06-21 重庆金融资产交易所有限责任公司 网页数据解析方法、装置及计算机可读存储介质
CN109918558A (zh) * 2019-03-14 2019-06-21 云南电网有限责任公司信息中心 一种基于爬取技术的大数据采集接口及采集方法
CN110134674A (zh) * 2019-05-22 2019-08-16 中国人民银行成都分行 一种货币信贷大数据监测分析系统
CN110134674B (zh) * 2019-05-22 2022-09-13 中国人民银行成都分行 一种货币信贷大数据监测分析系统
CN111090884A (zh) * 2019-12-20 2020-05-01 宜宾宝包网络技术有限公司 一种网络数据的结构化处理方法
CN111460255A (zh) * 2020-03-26 2020-07-28 第一曲库(北京)科技有限公司 一种音乐作品信息数据采集及存储方法
WO2021197392A1 (zh) * 2020-04-02 2021-10-07 支付宝(杭州)信息技术有限公司 任务队列生成
CN111158892A (zh) * 2020-04-02 2020-05-15 支付宝(杭州)信息技术有限公司 一种任务队列生成方法、装置及设备
CN111598470A (zh) * 2020-05-20 2020-08-28 贵州电网有限责任公司 一种配网物资市场价格采集及监测预警方法及系统
CN112182212A (zh) * 2020-09-27 2021-01-05 广州汽车集团股份有限公司 一种网络车辆碰撞数据的处理方法及系统
CN112182212B (zh) * 2020-09-27 2024-06-07 广州汽车集团股份有限公司 一种网络车辆碰撞数据的处理方法及系统
CN112559809A (zh) * 2020-12-21 2021-03-26 恩亿科(北京)数据科技有限公司 消费者多渠道数据整合方法、系统、设备及存储介质
CN112764908A (zh) * 2021-01-26 2021-05-07 北京鼎普科技股份有限公司 网络数据采集处理方法、装置和电子设备
CN112764908B (zh) * 2021-01-26 2024-01-26 北京鼎普科技股份有限公司 网络数据采集处理方法、装置和电子设备
CN113553490A (zh) * 2021-08-11 2021-10-26 长沙学院 一种数据管理平台及数据管理方法
CN114817425A (zh) * 2022-06-28 2022-07-29 成都交大大数据科技有限公司 一种冷热数据分类的方法、装置、设备及可读存储介质
CN114817425B (zh) * 2022-06-28 2022-09-02 成都交大大数据科技有限公司 一种冷热数据分类的方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN107273409B (zh) 2020-12-15

Similar Documents

Publication Publication Date Title
CN107273409A (zh) 一种网络数据采集、存储及处理方法及系统
Mika Flink: Semantic web technology for the extraction and analysis of social networks
CN100476830C (zh) 一种网络资源检索方法及系统
US9311421B2 (en) User readability improvement for dynamic updating of search results
CN104412265B (zh) 更新用于促进应用搜索的搜索索引
CN102667761B (zh) 可扩展的集群数据库
CN102164186B (zh) 一种实现云搜索服务的方法及系统
CN105339933B (zh) 通过查询扩展的新闻结果
US20090077065A1 (en) Method and system for information searching based on user interest awareness
CN106126646B (zh) 建立物联网智能设备的倒排索引的方法及装置
CN103955463B (zh) 一种政府的政策解构方法及系统
CN102930054A (zh) 数据搜索方法及系统
CN102037464A (zh) 具有最多点击的下一个对象的搜索结果
CN102446225A (zh) 一种实时搜索的方法、装置和系统
CN110633406B (zh) 事件专题的生成方法、装置、存储介质和终端设备
CN106682145A (zh) 一种企业信息的处理方法、服务器及客户端
US20140229487A1 (en) System and method for user preference augmentation through social network inner-circle knowledge discovery
CN103744987B (zh) 基于dom树匹配的视频网站媒资聚合方法和系统
CN103942268A (zh) 搜索与应用相结合的方法、设备以及应用接口
CN103399877A (zh) 一种多Android客户端服务共享方法及系统
CN105518644A (zh) 在地图上实时处理并显示社交数据的方法
CN104281648B (zh) 基于维度标签的搜索结果多维度导航方法
CN109213908A (zh) 一种基于数据挖掘的学术会议论文推送系统
JP2007256992A (ja) コンテンツ特定方法及び装置
CN112989824A (zh) 信息推送方法及装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant