CN104915415A - 一种分布式互联网数据采集解析系统 - Google Patents

一种分布式互联网数据采集解析系统 Download PDF

Info

Publication number
CN104915415A
CN104915415A CN201510307708.6A CN201510307708A CN104915415A CN 104915415 A CN104915415 A CN 104915415A CN 201510307708 A CN201510307708 A CN 201510307708A CN 104915415 A CN104915415 A CN 104915415A
Authority
CN
China
Prior art keywords
data
data acquisition
distributed
module
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510307708.6A
Other languages
English (en)
Inventor
范莹
于治楼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Group Co Ltd
Original Assignee
Inspur Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Group Co Ltd filed Critical Inspur Group Co Ltd
Priority to CN201510307708.6A priority Critical patent/CN104915415A/zh
Publication of CN104915415A publication Critical patent/CN104915415A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及大数据的数据采集解析领域,特别涉及一种分布式互联网数据采集解析系统。其系统包括物理层、业务逻辑处理层和用户界面及服务层,业务逻辑处理层包括分布式数据采集模块、解析模型训练模块和结构化信息抽取模块,用户界面及服务层用于用户通过图形界面的形式对网页解析子系统进行任务配置和参数设定,并通过图形化界面查看提取结果。本发明采用模块化、可配置的可扩展通用平台,能够解决非结构化数据解析的三个问题:数据量大的问题,数据源多的问题和基于语义的智能结构化问题,能够进行海量数据采集和处理;同时,本发明最大的优势在于它是模块化的、可配置的,集数据采集、结构化、文档分类为一体的可横向扩展的通用系统。

Description

一种分布式互联网数据采集解析系统
技术领域
本发明涉及大数据的数据采集解析领域,特别涉及一种分布式互联网数据采集解析系统。
背景技术
全球企业都对于大数据充满了积极的热情,以后的大数据将变得无处不在。但是从大数据的应用现状来看,无论是是技术、产品还是应用还有待提升。大数据处理流程包括数据采集、数据存储整合、数据预处理、数据挖掘分析、数据展现应用。传统行业企业在开展大数据时,首先面对的就是如何打通内部数据与外部数据,也就是如何获得基于企业内部数据之外的互联网数据。然而互联网采集的数据一般都是无结构或半结构化的文本、图片、音频以及视频等等。将这些数据解析并结构化,将是与组织内数据整合以进行数据挖掘的必不可少的工作。
对于数据采集、实体识别、结构化以及文本分类技术,以及有较为成熟的算法、专利和软件。如何将这些技术融合,形成一个通用平台,可以为各种实际业务提供结构化数据,是需要突破的一个难题。
发明内容
为了解决现有技术的问题,本发明提供了一种分布式互联网数据采集解析系统,其能够解决非结构化数据解析的三个问题:一是数据量大的问题;一是数据源多的问题;还有一个是基于语义的智能结构化问题。同时,该系统最大的优势在于它是模块化的、可配置的,集数据采集、结构化、文档分类为一体的可横向扩展的通用系统。
本发明所采用的技术方案如下:
一种分布式互联网数据采集解析系统,包括物理层、业务逻辑处理层和用户界面及服务层,所述的物理层用于保存系统输入输出数据;所述的业务逻辑处理层包括分布式数据采集模块、解析模型训练模块和结构化信息抽取模块,其中的分布式数据采集模块用于进行采集爬虫管理和采集方式配置管理,所述的解析模型训练模块用于进行网页正文提取、正则抽取设置、隐马尔科夫模型训练以及信息分类模型训练,所述的结构化信息抽取模块用于以具体应用为目标的采集、解析、分类的任务设置和执行;所述的用户界面及服务层用于用户通过图形界面的形式对网页解析子系统进行任务配置和参数设定,并通过图形化界面查看提取结果。
物理层是基于开源云计算平台的分布式文件系统和分布式数据库。
分布式数据采集模块是按照主题,通过网络爬虫采集互联网数据到物理层,或将已有数据上传至物理层。
分布式数据采集模块根据需求定制爬虫,采集内容通过配置项进行定制。
解析模型训练模块先从已有数据集中选择训练数据;再根据业务需求定义需结构化抽取项、对需要正则提取的结构化项编写正则表达式并进行抽取、对需要使用隐马尔科夫识别的项进行定义,将上一步定义的识别项与需结构化的项进行匹配;最后执行隐马尔科夫识别任务;对识别结果进行优化;最终提交解析器。
本发明提供的技术方案带来的有益效果是:
本发明采用模块化、可配置的可扩展通用平台,能够解决非结构化数据解析的三个问题:数据量大的问题,数据源多的问题和基于语义的智能结构化问题,能够进行海量数据采集和处理;同时,本发明最大的优势在于它是模块化的、可配置的,集数据采集、结构化、文档分类为一体的可横向扩展的通用系统。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种分布式互联网数据采集解析系统的系统架构图。
图2为本发明的一种分布式互联网数据采集解析系统的功能框架图。
图3为本发明的一种分布式互联网数据采集解析系统的业务逻辑流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一
本实施例从整体上可以分为三大层次结构。
1、系统底层为物理层,主要是数据存储平台,系统输入输出数据都存储在该平台中。本子系统的数据存储平台为基于开源云计算平台Hadoop的分布式文件系统HDFS和分布式数据库HBase。
2、存储平台上层是系统的业务逻辑处理平台,实现了系统的核心模块——互联网数据采集、解析模型训练和结构化信息抽取模块。其中,互联网数据采集主要包括采集爬虫管理和采集方式配置管理;解析模型训练包括网页正文提取、正则抽取设置、隐马尔科夫模型训练以及信息分类模型训练等核心算法的实现;结构化信息抽取包括了以具体应用为目标的采集、解析、分类的任务设置和执行。
3、业务逻辑处理平台上层是UI(用户界面)与服务层,对用户开放。用户通过图形界面的形式对网页解析子系统进行任务配置和参数设定,并通过图形化界面查看提取结果等。
图1展示了网页解析子系统的系统架构图。
系统功能模块划分见图2。简要介绍如下:
(1)数据管理
数据管理功能包括数据主题管理、主题词库管理、数据集管理、数据采集、数据上传和数据ETL六部分。本模块主要工作是按照主题,通过网络爬虫采集互联网数据到数据存储平台,或将已有数据上传至数据存储平台;对存储平台的原始数据和处理后数据进行管理,包括查询、删除、合并、过滤、清洗等工作。数据采集可以根据需求定制爬虫,采集内容通过配置项进行定制,满足各种数据获取的需求。
(2)解析器管理
解析器管理功能包括训练解析器的整个过程:从已有数据集中选择训练数据;根据业务需求定义需结构化抽取项、对需要正则提取的结构化项编写正则表达式并进行抽取、对需要使用隐马尔科夫(HMM)识别的项进行定义(如:地名、机构名、时间等)、将上一步定义的识别项与需结构化的项进行匹配;执行HMM识别任务;对识别结果进行优化;最终提交解析器。
(3)分类器管理
分类器管理功能包括训练分类器的整个过程:对类别进行管理和选择;从已有数据集中选择训练数据;选择合适的分类算法;为算法配置参数;执行分类器训练;根据分类结果进行反馈并优化分类器;最终提交分类器。
(4)数据采集解析应用管理
根据实际业务应用需求,定义要解析的数据源和结构化项,为结构化项选择待分析数据集、解析器、分类器,将结果保存在数据存储平台,供数据ETL和展示。
(5)日志管理
对所有任务的日志进行查询和管理。
业务逻辑流程图见图3。
选择数据集—定义数据项—选择解析器—选择分类器—执行解析任务—结果显示。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种分布式互联网数据采集解析系统,包括物理层、业务逻辑处理层和用户界面及服务层,其特征在于:
所述的物理层用于保存系统输入输出数据;
所述的业务逻辑处理层包括分布式数据采集模块、解析模型训练模块和结构化信息抽取模块,其中的分布式数据采集模块用于进行采集爬虫管理和采集方式配置管理,所述的解析模型训练模块用于进行网页正文提取、正则抽取设置、隐马尔科夫模型训练以及信息分类模型训练,所述的结构化信息抽取模块用于以具体应用为目标的采集、解析、分类的任务设置和执行;
所述的用户界面及服务层用于用户通过图形界面的形式对网页解析子系统进行任务配置和参数设定,并通过图形化界面查看提取结果。
2.根据权利要求1所述的一种分布式互联网数据采集解析系统,其特征在于,所述的物理层是基于开源云计算平台的分布式文件系统和分布式数据库。
3.根据权利要求1所述的一种分布式互联网数据采集解析系统,其特征在于,所述的分布式数据采集模块是按照主题,通过网络爬虫采集互联网数据到物理层,或将已有数据上传至物理层。
4.根据权利要求3所述的一种分布式互联网数据采集解析系统,其特征在于,所述的分布式数据采集模块根据需求定制爬虫,采集内容通过配置项进行定制。
5.根据权利要求1所述的一种分布式互联网数据采集解析系统,其特征在于,所述的解析模型训练模块先从已有数据集中选择训练数据;再根据业务需求定义需结构化抽取项、对需要正则提取的结构化项编写正则表达式并进行抽取、对需要使用隐马尔科夫识别的项进行定义,将上一步定义的识别项与需结构化的项进行匹配;最后执行隐马尔科夫识别任务;对识别结果进行优化;最终提交解析器。
CN201510307708.6A 2015-06-08 2015-06-08 一种分布式互联网数据采集解析系统 Pending CN104915415A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510307708.6A CN104915415A (zh) 2015-06-08 2015-06-08 一种分布式互联网数据采集解析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510307708.6A CN104915415A (zh) 2015-06-08 2015-06-08 一种分布式互联网数据采集解析系统

Publications (1)

Publication Number Publication Date
CN104915415A true CN104915415A (zh) 2015-09-16

Family

ID=54084478

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510307708.6A Pending CN104915415A (zh) 2015-06-08 2015-06-08 一种分布式互联网数据采集解析系统

Country Status (1)

Country Link
CN (1) CN104915415A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701202A (zh) * 2016-01-12 2016-06-22 浪潮软件集团有限公司 一种数据管理方法及系统、业务平台
CN107679086A (zh) * 2017-09-04 2018-02-09 北京天平检验行有限公司 一种大数据处理系统
CN107682382A (zh) * 2016-08-01 2018-02-09 汇仕电子商务(上海)有限公司 一种互联网大数据采集系统及其使用方法
CN107832440A (zh) * 2017-11-17 2018-03-23 北京锐安科技有限公司 一种数据挖掘方法、装置、服务器及计算机可读存储介质
CN108228749A (zh) * 2017-12-21 2018-06-29 江苏瑞中数据股份有限公司 一种通用的时序数据的快速迁移方法
CN111797297A (zh) * 2020-09-09 2020-10-20 平安国际智慧城市科技股份有限公司 页面数据处理方法、装置、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101094135A (zh) * 2006-06-23 2007-12-26 腾讯科技(深圳)有限公司 一种互联网内容信息的提取方法和提取系统
CN101719124A (zh) * 2008-10-09 2010-06-02 李晶心 基于正则匹配的无限层次多路径采集系统
CN103870567A (zh) * 2014-03-11 2014-06-18 浪潮集团有限公司 一种云计算中垂直搜索引擎网页采集模板自动识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101094135A (zh) * 2006-06-23 2007-12-26 腾讯科技(深圳)有限公司 一种互联网内容信息的提取方法和提取系统
CN101719124A (zh) * 2008-10-09 2010-06-02 李晶心 基于正则匹配的无限层次多路径采集系统
CN103870567A (zh) * 2014-03-11 2014-06-18 浪潮集团有限公司 一种云计算中垂直搜索引擎网页采集模板自动识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
计华: "基于Internet的质量数据采集处理系统", 《信息技术与信息化》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701202A (zh) * 2016-01-12 2016-06-22 浪潮软件集团有限公司 一种数据管理方法及系统、业务平台
CN105701202B (zh) * 2016-01-12 2019-04-09 山东浪潮云信息技术有限公司 一种数据管理方法及系统、业务平台
CN107682382A (zh) * 2016-08-01 2018-02-09 汇仕电子商务(上海)有限公司 一种互联网大数据采集系统及其使用方法
CN107679086A (zh) * 2017-09-04 2018-02-09 北京天平检验行有限公司 一种大数据处理系统
CN107832440A (zh) * 2017-11-17 2018-03-23 北京锐安科技有限公司 一种数据挖掘方法、装置、服务器及计算机可读存储介质
CN107832440B (zh) * 2017-11-17 2020-10-13 北京锐安科技有限公司 一种数据挖掘方法、装置、服务器及计算机可读存储介质
CN108228749A (zh) * 2017-12-21 2018-06-29 江苏瑞中数据股份有限公司 一种通用的时序数据的快速迁移方法
CN111797297A (zh) * 2020-09-09 2020-10-20 平安国际智慧城市科技股份有限公司 页面数据处理方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN104915415A (zh) 一种分布式互联网数据采集解析系统
EP3812926A1 (en) Multimodal content processing method, apparatus, device and storage medium
Jiang et al. Speech emotion recognition with heterogeneous feature unification of deep neural network
DE102017111438A1 (de) Api-lernen
US10503799B2 (en) Hyperdata generation in the cloud
Raj et al. High-performance big-data analytics
US12093253B2 (en) Summarized logical forms based on abstract meaning representation and discourse trees
US20220139063A1 (en) Filtering detected objects from an object recognition index according to extracted features
US11972625B2 (en) Character-based representation learning for table data extraction using artificial intelligence techniques
CN106649718B (zh) 一种用于pdm系统的大数据采集与处理方法
US20130198117A1 (en) Systems and methods for semantic data integration
Mao et al. Geoai 2017 workshop report: the 1st acm sigspatial international workshop on geoai:@ ai and deep learning for geographic knowledge discovery: Redondo beach, ca, usa-november 7, 2016
CN107885719B (zh) 基于人工智能的词汇类别挖掘方法、装置及存储介质
Bartolini et al. Real-time stream processing in social networks with RAM3S
CN117591546A (zh) 查询语句生成方法和装置、电子设备、存储介质
Mao et al. Methodology for the efficient progressive distribution and visualization of 3D building objects
KR20220079026A (ko) 일반 문서 기반의 멀티미디어 영상 콘텐츠 제작 서비스 제공 장치
US20240005640A1 (en) Synthetic document generation pipeline for training artificial intelligence models
CN111581299A (zh) 基于大数据的多源数据仓库的库间数据转换系统及方法
CN111046934B (zh) 一种swift报文软条款识别方法及装置
CN115329076A (zh) 一种银行数据筛选处理方法、装置、系统和介质
US8566814B2 (en) Transporting object packets in a nested system landscape
Tazeen et al. A Survey on Some Big Data Applications Tools and Technologies
Aliprandi et al. Introducing CAPER, a collaborative platform for open and closed information acquisition, processing and linking
CN117891531B (zh) 用于saas软件的系统参数配置方法、系统、介质及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150916

WD01 Invention patent application deemed withdrawn after publication