CN107679097B

CN107679097B - 一种分布式数据处理方法、系统和存储介质

Info

Publication number: CN107679097B
Application number: CN201710807042.XA
Authority: CN
Inventors: 李雪青
Original assignee: Guangzhou Haiyou Communication Co ltd
Current assignee: Guangzhou Haiyou Communication Co ltd
Priority date: 2017-09-08
Filing date: 2017-09-08
Publication date: 2021-06-18
Anticipated expiration: 2037-09-08
Also published as: CN107679097A

Abstract

本发明公开了一种分布式数据处理方法、系统和存储介质，该方法包括有以下步骤：获取数据、预处理数据以及存储数据；对存储的数据进行个体、群体、事件以及整体分析；采用flume采集数据并通过sqoop将数据导入到hadoop的hdfs中，并利用mapReduce完成计算任务的并行化处理；展示数据分析结果。本发明通过相应的数据处理、数据存储以及采集数据、数据导入、并行化处理的过程，克服了关系型数据库不适合解决大规模数据的分布式计算的缺点，并且利用了MapReduce最适合于批处理任务的优势，从而实现高效地完成关系型数据库的分布式数据处理。本发明作为一种分布式数据处理方法、系统和存储介质可广泛应用于大数据处理领域。

Description

一种分布式数据处理方法、系统和存储介质

技术领域

本发明涉及大数据处理领域，尤其是一种分布式数据处理方法、系统和存储介质。

背景技术

随着现代社会的发展，人才流动，特别是优秀人才的快速流动成为一个普遍现象。如何在这样一个人才快速流动的环境中发现人才，并积极主动迎合人才的需求，保持自己的人才竞争优势已经成为各大公司人力资源管理所面临的一个非常重要的问题。

目前市场上常用的人才信息分析管理系统包括Beishen(北森)、Mordern HR inCloud等系统。上述所述信息分析系统大多数采用数据表格的结果化数据处理方式，在数据处理过程中面临复杂的ETL(extract、transform、load，萃取、转置、加载)的处理过程。一方面，所述系统进行数据信息分析的处理过程过于复杂，执行效率低，另一方面所述系统获取的信息数据通常仅包括例如学历、年龄、职业、工作年限、期望薪资等基于属性信息，对人才的分析受到获取的有限数据和固定分析方法的限制，没有涉及到其他影响人才流向的数据的分析，系统数据分析的灵活性较差、输出结果准确性较低。

现有技术中提供了多种大数据处理框架，例如一种基于网络流量元数据的安全分析框架(CN104753946A)。但是现有技术中Flume是一个分布式的海量日志采集和传输框架，Flume可以实时的从网络协议、消息系统、文件系统采集日志，并传输到HDFS上；但关系型数据库不适合解决大规模数据的分布式计算问题，Flume并没有改变MapReduce最适合于批处理任务的本质，Flume并不适合关系型数据库的数据采集和传输。并且，由于现阶段数据存储和项目服务器部署是分离得，每次请求数据的时候都需要进行网络请求，受制于网络连接速度的限制，数据访问极其不稳定，当大量用户进行数据访问的时候造成的问题更加突出。

术语解释：

关系数据：社会网络中的每个用户都具有基本属性信息，这些属性包括用户名称、性别、所属位置、描述、创建时间、好友数量等，用户与用户的好友关系构成的数据就叫关系数据。

团体数据：用户基于已经存在的关系或者共同兴趣构成了多种团体，这种数据就叫团体数据。

非结构化的信息数据：用户每时每刻发表的观点、评论、转发等信息形成的数据为非结构化的信息数据。

多类别的非结构化数据：用户上传的图片、音频、视频形成的数据为多类别的非结构化数据。

Hdfs：是一个高度容错性的分布式文件系统。

Flume：是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据。

Sqoop：是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

MapReduce：是一个基于集群的高性能并行计算平台(Cluster Infrastructure)。

Hive：是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。

发明内容

为了解决上述技术问题，本发明的目的是：提供一种适用于关系型数据库的分布式数据处理方法。

为了解决上述技术问题，本发明的另一目的是：提供一种适用于关系型数据库的分布式数据处理系统。

为了解决上述技术问题，本发明的另一目的是：提供一种用于关系型数据库的分布式数据处理的存储介质。

本发明所采用的技术方案是：一种分布式数据处理方法，包括有以下步骤：

获取数据、预处理数据以及存储数据至数据库；

对存储的数据进行个体分析、群体分析、事件分析以及整体分析；

采用flume采集数据并通过sqoop将数据库中的数据导入到hadoop的hdfs中，并利用mapReduce完成计算任务的并行化处理；

展示数据分析结果。

进一步，所述获取数据的具体过程为：对目标社会网络流量数据进行读取，提取目标社会网络流量数据的强特征，再从目标社会网络流量数据中识别出目标流量数据；然后对目标社会网络流量数据进行解析，提取用户关系数据、团体数据、非结构化的信息数据及多类别的非结构化数据。

进一步，所述预处理数据的具体过程为：对获取的数据进行清洗、打标和关联。

进一步，所述存储数据的具体过程为：将获取的数据以及预处理之后的数据分为目标社会网络流量数据存储、特征数据存储、日志数据存储和历史数据存储。

进一步，所述个体分析的具体过程为：通过对获取的数据进行分析，得到个体社会属性的量化分析结果。

进一步，所述群体分析的具体过程为：通过对获取的数据进行分析，得到群体社会属性的量化分析结果。

进一步，所述事件分析的具体过程为：通过对获取的数据进行分析，得到事件传播过程中的传播特征量化分析结果。

进一步，所述整体分析的具体过程为：通过对获取的数据进行分析，得到整体的数据分析结果。

本发明所采用的另一技术方案是：一种分布式数据处理系统，包括有

数据模块，用于获取数据、预处理数据以及存储数据至数据库；

分析模块，用于对数据进行个体分析、群体分析、事件分析以及整体分析；

支撑模块，用于采用flume采集数据并通过sqoop将数据库中的数据导入到hadoop的hdfs中，并利用mapReduce完成计算任务的并行化处理；

展示模块，用于展示数据分析结果。

本发明所采用的另一技术方案是：一种存储介质，该存储介质包括有计算机可执行指令，所述计算机可执行指令在由计算机处理器执行时用于执行上述的一种分布式数据处理方法。

本发明方法、系统和存储介质的有益效果是：本发明通过相应的数据处理、数据存储以及采用flume采集数据并通过sqoop将关系型数据库中的数据导入到hadoop的hdfs中，并利用mapReduce完成计算任务的并行化处理，克服了关系型数据库不适合解决大规模数据的分布式计算的缺点，并且利用了MapReduce最适合于批处理任务的优势，从而实现高效地完成关系型数据库的分布式数据处理。

附图说明

图1为本发明方法的步骤流程图；

图2为本发明系统的模块框图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明：

参照图1，一种分布式数据处理方法，包括有以下步骤：

获取数据、预处理数据以及存储数据至数据库；

展示数据分析结果。

进一步作为优选的实施方式，所述获取数据的具体过程为：对目标社会网络流量数据进行读取，提取目标社会网络流量数据的强特征，再从背景流量数据(即目标社会网络流量数据)中识别出目标流量数据；然后对目标社会网络流量数据进行解析，提取用户关系数据、团体数据、非结构化的信息数据及多类别的非结构化数据。

进一步作为优选的实施方式，所述预处理数据的具体过程为：对获取的数据进行清洗、打标和关联。

数据清洗主要从数据的准确性、完整性、一致性、唯一性、适时性、有效性等几个方面来处理数据。对于遗漏数据需要对默认值填充；对于异常数据需要对其消除，以防止干扰后续分析工作；对于噪声数据需要进行平滑处理；对于所有数据都需要进行归一化处理。由于社会网络有很多重复数据，可以采用布隆过滤方法对目标社会的网络流量其去重。由于大部分数据是文本数据，为了节约存储空间，在数据预处理中还可使用压缩技术对其进行压缩。

社会网络数据往往十分繁杂，面对实时分析处理的苛刻需求，数据打标的工作必不可少。根据社会网络大数据分析的经验，我们将社会网络数据打标细分为：人物打标、群体打标、事件打标、关系权重打标、推文/微博打标。其中，人物打标是对兴趣、圈子、规律、影响力等进行打标；群体打标主要是对群体数量、活跃程度、群体兴趣等进行打标；事件打标主要是指对事件传播的广度、深度、参与数、受众数等进行打标；关系权重打标是计算并存储用户间的权重值；推文/微博打标主要是对信息类型、抽取后的关键词进行打标。

由于目前存在很多类型的社会网络，当对它们进行多源数据获取后，如何对数据进行关联也十分重要。首先，是多源帐号关联技术。现实社会中的用户往往会存在于多个社会网络中，例如Facebook、Twitter、新浪微博、人人网等，多个社会网络的账号会关联到同一实体用户上，而且这些账号往往具有相同或相似的特征，利用多源帐号关联技术可以将多个虚拟账号关联到某一实体用户上，从而为跨平台社会网络的分析奠定基础；其次，是多源数据整合技术。多平台数据的特征会存在趋同现象，例如同一个事件会同时在新浪微博和腾讯微博上进行传播。多源数据整合技术可以将多个平台的数据进行拟合或合并，既可以减少存储空间，又可以以全局角度统筹分析多平台数据。

进一步作为优选的实施方式，所述存储数据的具体过程为：将获取的数据以及预处理之后的数据分为目标社会网络流量数据存储、特征数据存储、日志数据存储和历史数据存储。

其中数据存储是关系型数据库。为了存储当前需要分析的元数据；特征存储是为了将数据预处理的打标结果与其他数据分离，达到更优的分析速度；日志存储是为了存储系统运行所产生的大量日志；历史库存储是将历史数据分离存储，以减少实时分析的压力。

进一步作为优选的实施方式，所述个体分析的具体过程为：通过对获取的数据进行分析，得到个体社会属性的量化分析结果。

个体分析的目标是了解和洞察人物的身份、关系、社交圈、资本、位置、地位、行为、情感等社会属性，这些属性往往比较抽象，需要对其进行量化及测算。个体圈子分析主要是对人物所在的实体关系(具有直接联系的节点)和虚拟关系(人物节点的兴趣团体)进行分析，总结出圈子对人物各项属性的影响与关联；还可以对个体圈子演化过程和趋势进行分析。行为特征分析是对人物的基本属性和行为进行刻画，利用人物的时间序列、行为规律等信息来描述人物个体的行为状况；紧密度分析是指通过用户相似度计算用户紧密度好友；情感分析是指分析用户情感倾向性，主要分为正面情感、负面情感和中性情感；兴趣分析通过对人物的背景标签和用户发表的推文进行分析，抽取人物所关注用户的兴趣点，由于用户关注代表了用户的真实兴趣，因此可以根据关系属性推导人物个体兴趣。

进一步作为优选的实施方式，所述群体分析的具体过程为：通过对获取的数据进行分析，得到群体社会属性的量化分析结果。

群体分析的目标是分析群体边界、身份、群内关系、群际关系、群体凝聚力、群体兴趣、群体行为、群体心理、社会地位、群体变化等，从而更深层次洞察群体特性。特定群体发现主要是通过特征匹配技术对特定群体进行发现，主要匹配的目标有发布信息、关注主题、圈子兴趣等数据；由于群内个体与个体之间存在强关系，群与群之间存在弱关系，因此可以通过群内人物个体的链路分析其关联状态，群体关系分析可以将用户群作为一个整体，将视角放大，通过群之间的微量用户关联性分析群与群之间的弱关系；潜在群体成员推荐是指分析个体与目标群体的相似度情况，将相似度高的个体进行推荐；群体意见领袖分析是指通过群体的关系网络以及网络中心密度进行测算，度量每个节点在群内的影响力；因为每个群体都是由于共同的兴趣而存在，因此如何测算群体兴趣至关重要，群体兴趣发现是指通过群内关系相关迭代分析算法对其进行界定，通过群内的话题流传播对群体兴趣进行分析。

进一步作为优选的实施方式，所述事件分析的具体过程为：通过对获取的数据进行分析，得到事件传播过程中的传播特征量化分析结果。

事件分析的目标是分析事件在传播过程中的结构、内容、演化、意图、涌现性、行为、心理、受众、广度、深度、态势等。事件发现是以发布内容为中心，对事件的主题进行文本聚类，从而发现热门事件及参与的用户与群体；路径还原是通过事件传播方向进行刻画，通过获取到的传播信息，以正向的方式对传播路径进行还原；源头追溯是路径还原的逆过程，是通过传播的反向方式对节点进行回溯，最终寻找事件发生的源头节点；事件传播规律分析是指分析事件的热度、趋势、传播层数等，以掌握事件的发展状况；事件意见领袖分析是指通过事件传播过程中的爆发点特征计算节点的影响力，从而分析挖掘传播过程中的意见领袖。

进一步作为优选的实施方式，所述整体分析的具体过程为：通过对获取的数据进行分析，得到整体的数据分析结果。

整体分析主要分为热门人物和事件排序、整体统计分析、全局拓扑结构分析和按区域热点事件分析，其技术手段多用于基础统计分析和数据挖掘技术，主要目的是了解和掌握社会网络当前的全局情况，同时预测全局网络的未来状况。

作为本发明的另一具体实施例：参照图2，一种分布式数据处理系统，包括有

支撑模块，用于采用flume采集数据并通过sqoop将数据库中的数据导入到hadoop的hdfs中，从而进行数据预处理，并利用mapReduce完成计算任务的并行化处理，自动化分计算数据和计算任务，在集群节点上自动分配和执行任务以及收集计算结果，并将数据分布存储、数据通信、容错处理等并行计算涉及到的很多系统底层的复杂细节交由系统负责处理，并进行相应多层次数据挖掘分析。

展示模块，用于展示数据分析结果；其作为技术与应用之间的桥梁，具有交互性、多维性和可视性等特点。通展示模块可以根据用人需求方的需求和人才简历的关键词、工作经验、工作地等数据减缩以实现个性化的信息推荐、简历搜索可以对简历人员的关系数据、团体数据、非结构化的信息数据及多类型的非结构数据进行深层次挖掘分析，以确定简历人员的社会行为从而进行条件筛选、精准匹配。

作为本发明的另一具体实施例：一种存储介质，该存储介质包括有计算机可执行指令，所述计算机可执行指令在由计算机处理器执行时用于执行上述的一种分布式数据处理方法。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可以作出种种的等同变换或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种分布式数据处理方法，其特征在于，包括有以下步骤：

获取数据、预处理数据以及存储数据至数据库；其中，预处理数据的具体过程为：对获取的数据进行清洗、打标和关联，清洗包括对于遗漏数据需要对默认值填充，对于异常数据需要对其消除，以防止干扰后续分析工作，对于噪声数据需要进行平滑处理，对于所有数据都需要进行归一化处理；打标包括人物打标、群体打标、事件打标、关系权重打标、推文/微博打标；关联包括利用多源帐号关联技术可以将多个虚拟账号关联到某一实体用户上，以及将多个平台的数据进行拟合或合并；

对存储的数据进行个体分析、群体分析、事件分析以及整体分析；其中，个体分析通过对获取的数据进行包括个体圈子、行为特征、紧密度、情感或兴趣中的任一种或多种组合分析，得到个体社会属性的量化分析结果；群体分析通过对获取的数据进行包括特定群体、群与群之间的弱关系、潜在群体成员推荐、群体意见领袖、群体兴趣中的任一种或多种组合分析，得到群体社会属性的量化分析结果；事件分析通过对获取的数据进行包括事件发现、路径还原、源头追溯、事件传播规律及事件意见领袖中的任一种或多种组合分析，得到事件传播过程中的传播特征量化分析结果；整体分析通过对获取的数据进行包括热门人物、事件排序、整体统计、全局拓扑结构和按区域热点事件中的任一种或多种组合分析，得到整体的数据分析结果；

展示数据分析结果。

2.根据权利要求1所述的一种分布式数据处理方法，其特征在于，所述获取数据的具体过程为：对目标社会网络流量数据进行读取，提取目标社会网络流量数据的强特征，再从目标社会网络流量数据中识别出目标流量数据；然后对目标社会网络流量数据进行解析，提取用户关系数据、团体数据、非结构化的信息数据及多类别的非结构化数据。

3.根据权利要求1所述的一种分布式数据处理方法，其特征在于，所述存储数据的具体过程为：将获取的数据以及预处理之后的数据分为目标社会网络流量数据存储、特征数据存储、日志数据存储和历史数据存储。

4.一种分布式数据处理系统，其特征在于：包括有

数据模块，用于获取数据、预处理数据以及存储数据至数据库；其中，预处理数据的具体过程为：对获取的数据进行清洗、打标和关联，清洗包括对于遗漏数据需要对默认值填充，对于异常数据需要对其消除，以防止干扰后续分析工作，对于噪声数据需要进行平滑处理，对于所有数据都需要进行归一化处理；打标包括人物打标、群体打标、事件打标、关系权重打标、推文/微博打标；关联包括利用多源帐号关联技术可以将多个虚拟账号关联到某一实体用户上，以及将多个平台的数据进行拟合或合并，

分析模块，用于对数据进行个体分析、群体分析、事件分析以及整体分析；其中，个体分析通过对获取的数据进行包括个体圈子、行为特征、紧密度、情感或兴趣中的任一种或多种组合分析，得到个体社会属性的量化分析结果；群体分析通过对获取的数据进行包括特定群体、群与群之间的弱关系、潜在群体成员推荐、群体意见领袖、群体兴趣中的任一种或多种组合分析，得到群体社会属性的量化分析结果；事件分析通过对获取的数据进行包括事件发现、路径还原、源头追溯、事件传播规律及事件意见领袖中的任一种或多种组合分析，得到事件传播过程中的传播特征量化分析结果；整体分析通过对获取的数据进行包括热门人物、事件排序、整体统计、全局拓扑结构和按区域热点事件中的任一种或多种组合分析，得到整体的数据分析结果；

展示模块，用于展示数据分析结果。

5.一种存储介质，该存储介质包括有计算机可执行指令，其特征在于：所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-3中任一权利要求所述的一种分布式数据处理方法。