CN107577724A

CN107577724A - 一种大数据处理方法

Info

Publication number: CN107577724A
Application number: CN201710724162.3A
Authority: CN
Inventors: 郑英
Original assignee: Foshan Hi Tech Information Technology Co Ltd
Current assignee: Foshan Hi Tech Information Technology Co Ltd
Priority date: 2017-08-22
Filing date: 2017-08-22
Publication date: 2018-01-12

Abstract

本发明提供了一种大数据处理方法，所述方法包括步骤：根据预设的数据采集规则，收集网页数据；对所收集到的网页数据进行过滤以及归一化处理，获得筛选数据；采用预设分类模型，对所获得的筛选数据进行分类，获得分类后的K类数据；对所述K类数据采用预设聚类模型进行聚类，根据分类以及聚类结果，将数据统一存储并建立索引，形成大数据库。本发明提供的一种大数据处理方法，可有效抽取网页数据，并对重复信息进行归一化，方便用户对网页数据的有效利用。

Description

一种大数据处理方法

技术领域

本发明属于大数据处理技术领域，特别是涉及一种大数据处理方法。

背景技术

随着云时代的来临，大数据（Bigdata）也吸引了越来越多的关注。大数据（Bigdata）通常用来形容一个公司创造的大量非结构化和半结构化数据，这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起，因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。

2016年，我国大数据产业保持高速发展态势，各级政府和企业大力推进，技术创新取得明显突破，大数据应用推进势头良好，产业体系初具雏形，支撑能力日益增强。

展望2017年，大数据产业发展将迎来“黄金期”，产业集聚将进一步特色化发展，创新驱动仍将是产业发展主基调，大数据融合应用进程加速，为做大做强数字经济、带动传统产业转型升级提供新动力。

大数据应用及未来展望，紧跟互联网+，便捷未来人们的生活，方便用户。畅想未来人与人之间的联系，从社交网络、社区文化，到“六度空间”；展望教育对于国家的希望，大数据和教育整合、合理的早教，对个人的帮助，对社会和国家的贡献；帮助病人的控制病情，并发病等，结合医疗平台，预测依照现有的生活方式，对个人的影响度，精确医疗救助，帮助老人送诊就医；减少自然灾害对人类，对生态环境的影响，“蝴蝶效应”预测自然灾害的发生；从开发者角度，整合用户数据，适应市场变化，用户需求，猜“你”喜欢，开发出满足用户需求的应用；大数据和人脸识别的结合应用，人脸分析，动态推送广告，全“自动”，非“手动”应用，强调人和人之间的猜“你”喜欢的全新的社交方式。大数据在未来的应用必将更加广泛，如何获取大数据，掌握大数据，提取大数据，整合大数据，关系到人们未来生活的方方面面，谁掌握了大数据，就掌握了未来。

信息抽取领域是一项新兴的研究领域，一般是指从一个给定的文档集合中自动识别出预先设定的实体、关系和事件等类型信息，并对这些信息进行结构化存储和管理的过程。信息抽取在许多领域均有重要的应用。

信息抽取（Information Extraction: IE）是把文本里包含的信息进行结构化处理，变成表格一样的组织形式。输入信息抽取系统的是原始文本，输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来，然后以统一的形式集成在一起。这就是信息抽取的主要任务。

信息以统一的形式集成在一起的好处是方便检查和比较。例如比较不同的招聘和商品信息。还有一个好处是能对数据作自动化处理。例如用数据挖掘方法发现和解释数据模型。

信息抽取技术并不试图全面理解整篇文档，只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的，那将由系统设计时定下的领域范围而定。信息抽取技术对于从大量的文档中抽取需要的特定事实来说是非常有用的。互联网上就存在着这么一个文档库。在网上，同一主题的信息通常分散存放在不同网站上，表现的形式也各不相同。若能将这些信息收集在一起，用结构化形式储存，那将是有益的。由于网上的信息载体主要是文本，所以，信息抽取技术对于那些把因特网当成是知识来源的人来说是至关重要的。信息抽取系统可以看作是把信息从不同文档中转换成数据库记录的系统。因此，成功的信息抽取系统将把互联网变成巨大的数据库。

在日益信息化和网络化的当代社会中，如何找到所需要的信息并把有用的信息归类、过滤或提取出来一直是一个比较紧迫的实际问题。相应地，各种帮助人们查找、分类和存储信息的理论、技术、应用工具和系统始终在不断地发展和更新，并保持着旺盛的活力。近年来，一种叫做信息提取的技术逐渐受到了人们的关注。它有望成为一种广受欢迎的实用信息技术，在人们的日常工作和生活中发挥极大的效用。

近年来，随着网络的发展，互联网上的信息越来越多。几乎所有的网上信息都是以结构化或者半结构化文本的形式呈现给用户的。网页信息抽取就是把网页中包含的有关信息抽取出来并进行结构化处理，使之变成表格一样的组织形式。网页信息的主要任务就是把预定的信息点从各种各样的网页中抽取出来，然后以统一的形式集成在一起，方便检查和比较。

在互联网上，同一主题的信息通常分散存放在不同的网站上，表现的形式也各不相同，现有技术中，很难将预期的网页数据挖掘完全。另外，互联网上，信息转载频繁，如何实现重复信息的归一化，也是一项关键。

发明内容

本发明的目的在于提供一种大数据处理方法，可有效抽取网页数据，并对重复信息进行归一化，方便用户对网页数据的有效利用。

为了达到上述目的，本发明提供了一种大数据处理方法，所述方法包括步骤：

根据预设的数据采集规则，收集网页数据；

对所收集到的网页数据进行过滤以及归一化处理，获得筛选数据；

采用预设分类模型，对所获得的筛选数据进行分类，获得分类后的K类数据；

对所述K类数据采用预设聚类模型进行聚类，根据分类以及聚类结果，将数据统一存储并建立索引，形成大数据库。

优选的，所述根据预设的数据采集规则，收集网页数据，包括：

根据预期目标定制数据采集网页；

根据网页结构，确定网页主体数据区块，自动生成网页数据抽取模板抽取网页数据。

根据预设数据特征信息可以与动态网页数据的特征信息发生比对，获得需要的网页数据。

优选的，所述对所收集到的网页数据进行过滤以及归一化处理，获得筛选数据，包括：

采用预设过滤条件过滤采集到的网页数据，将过滤后的网页数据分发至多个处理节点进行筛选。

所述筛选方法是采用标准量化参数动态筛选数据的方法，这种方法充分考虑和应用了数据数量化、动态化以及符合统计学概率分布的特点，能够从海量量化数据中筛选出符合标准量化参数筛选条件的数据。

优选的，所述对所收集到的网页数据进行过滤以及归一化处理，获得筛选数据步骤之后，所述方法还包括：

对所述筛选数据的每一段文本进行编码，根据编码进行分段对比，判断数据重复程度；将重复数据归一化，筛选数据。

优选的，所述根据分类以及聚类结果，将数据统一存储并建立索引，形成大数据库，包括：

根据分类以及聚类结果，对K类数据进行分类，对每一个数据类内所包含的数据进行聚类，将数据统一存储并建立索引，形成大数据库。

优选的，所述对所收集到的网页数据进行过滤，包括：

采用布隆过滤器，对所收集到的网页数据进行过滤。

与现有技术相比，本发明的有益效果在于：

本发明提供一种大数据的处理方法，该方法抽取网页数据的方式，效率高，查全率好，避免信息遗漏；能够有效消除重复信息，大大减少了数据所占空间，消除冗余，减小了后续处理的负荷量，提高数据处理效率；预制分类模型和聚类算法，对数据进行分类和聚类分析，数据统一存储建立数据库并建立数据库索引，方便用户对抽取数据的管理、检索和利用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是大数据处理方法的第一种流程示意图。

图2是大数据处理方法的第二种流程示意图。

图3是大数据处理方法的第三种流程示意图。

具体实施方式

下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面通过具体实施例，对本发明进行详细的说明。

参见图1，为本发明提供的大数据处理方法的流程示意图，包括入步骤如下：

S101，根据预设的数据采集规则，收集网页数据；

S102，对所收集到的网页数据进行过滤以及归一化处理，获得筛选数据；

S103，采用预设分类模型，对所获得的筛选数据进行分类，获得分类后的K类数据；

S104，对所述K类数据采用预设聚类模型进行聚类，根据分类以及聚类结果，将数据统一存储并建立索引，形成大数据库。

本实施方式中，根据预期目标定制数据采集网页，采集网页的来源有两种方式，参见图2，分别为：

S201，预制行业内网页作为数据源；

S202，设置内置领域本体的网络探针，自动发现与本体相关网页作为采集点。

数据源的预制可重点关注用户预期的网页，使得网页数据的抽取方向更加具有针对性，有利于提高数据采集效率。采集点可算是对数据源的补充，提高数据采集的查全率。数据源与采集点的互补，可使得数据采集效率和查全率达到一个比较理想的平衡。

本实施方式中，对网页数据进行统一编码，将重复数据归一化，筛选数据，参见图3，具体包括：

S301，对每一段文本进行编码；

S302，根据编码进行分段对比，判断数据重复程度；

S303，将重复数据归一化，筛选数据。

本文本进行分段编码，并进行分段对比，可有效发现文本重复程度，避免遗漏。

本实施方式中，根据分类以及聚类结果，将数据统一存储并建立索引，形成大数据库，具体分为：

对N个数据类进行聚类；

对每一个数据类内所包含的数据进行聚类。

进一步的，所述对所收集到的网页数据进行过滤，包括：

采用布隆过滤器，对所收集到的网页数据进行过滤。

根据分类结果，数据库分为话题、数据类两个级别，在此基础上进行的两种聚类分析，可将数据库细分为话题、话题簇、数据类、数据类簇四个级别，进一步建立索引机制，使得用户对数据库的管理、检索、利用更加方便。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种大数据处理方法，其特征在于，所述方法包括以下步骤：

根据预设的数据采集规则，收集网页数据；

2.根据权利要求1所述的一种大数据处理方法，其特征在于，所述根据预设的数据采集规则，收集网页数据，包括：

根据预期目标定制数据采集网页；

3.根据权利要求1所述的一种大数据处理方法，其特征在于，所述根据预设的数据采集规则，收集网页数据，包括：

4.根据权利要求1所述的一种大数据处理方法，其特征在于，所述对所收集到的网页数据进行过滤以及归一化处理，获得筛选数据，包括：

5.根据权利要求1所述的一种大数据处理方法，其特征在于，所述对所收集到的网页数据进行过滤以及归一化处理，获得筛选数据，包括：

6.根据权利要求1所述的一种大数据处理方法，其特征在于，所述对所收集到的网页数据进行过滤以及归一化处理，获得筛选数据步骤之后，所述方法还包括：

7.根据权利要求1所述的一种大数据处理方法，其特征在于，所述根据分类以及聚类结果，将数据统一存储并建立索引，形成大数据库，包括：

8.根据权利要求1所述的一种大数据处理方法，其特征在于，所述对所收集到的网页数据进行过滤，包括：

采用布隆过滤器，对所收集到的网页数据进行过滤。