CN104615734A

CN104615734A - 一种社区管理服务大数据处理系统及其处理方法

Info

Publication number: CN104615734A
Application number: CN201510070156.1A
Authority: CN
Inventors: 丁帅; 杨善林; 蔡琼; 徐健; 潘禹辰; 牛锋
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2015-02-10
Filing date: 2015-02-10
Publication date: 2015-05-13
Anticipated expiration: 2035-02-10
Also published as: CN104615734B

Abstract

本发明公开了一种社区管理服务大数据处理系统及其处理方法，包括社区管理服务数据库、数据收集系统和数据集成系统；数据收集系统用于实现对社区管理服务大数据的采集；数据集成系统用于实现对社区管理服务大数据的转换与融合。本发明能形成面向社区管理服务的半结构化数据和结构化数据的采集机制，针对具有不同时效性的社区管理服务大数据形成高效的存储机制，为解决社区管理服务大数据冗余性高的问题形成完整的集成机制，从而提升社区管理服务大数据的处理效率。

Description

一种社区管理服务大数据处理系统及其处理方法

技术领域

本发明涉及大数据处理分析，特别是涉及针对社区管理服务的大数据处理系统及方法。

背景技术

社区管理是社会治理的细胞，是国家治理体系和治理能力现代化建设的重要基础。互联网尤其是移动互联网在社区管理服务中的广泛应用，以及社交网络、智慧城市等新型信息源的不断涌现，催生了多源、动态、海量、异构的社区管理服务大数据。

目前主流的大数据计算方法为开源分布式计算平台Hadoop，其核心为分布式文件系统HDFS与编程模型MapReduce。虽然Mapreduce擅长处理半结构化数据与结构化数据，然而针对特定需求的数据处理任务效率低下，面对社区管理服务大数据对时效性要求高的问题尚未形成良好的解决办法，也没有形成完整的冗余数据集成机制，为开发社区管理服务大数据的潜在价值带来了不便。

发明内容

本发明是为了克服现有技术存在的不足之处，提供一种社区管理服务大数据处理系统及其处理方法，以期能形成面向社区管理服务的半结构化数据和结构化数据的采集机制，针对具有不同时效性的社区管理服务大数据形成高效的存储机制，为解决社区管理服务大数据冗余性高的问题形成完整的集成机制，从而提升社区管理服务大数据的处理效率。

本发明为达到上述目的所采用的技术方案是：

本发明一种社区管理服务大数据处理系统的特点包括：社区管理服务数据库、数据收集系统和数据集成系统；

所述数据收集系统包括半结构化数据采集模块和结构化数据采集模块；所述半结构化数据采集模块用于对社区管理服务的HTML格式数据进行定向采集，获得半结构化数据；所述结构化数据采集模块对社区管理服务数据库的数据进行定向采集，获得结构化数据；

所述数据集成系统包括数据转换模块和数据融合模块；所述数据转换模块将所述半结构化数据转换为新结构化数据，所述数据融合模块对结构化数据和新结构化数据进行基于关键字的整合处理，获得社区管理服务的结构化数据。

本发明一种社区管理服务大数据处理系统的处理方法的特点是按如下步骤进行：

步骤1、获得半结构化数据并进行存储；

步骤1.1、构建用于临时存储半结构化数据的XML模板文档；

步骤1.2、利用筛选器对社区管理服务的HTML格式数据进行解析并定向抓取；获得半结构化数据；将所述半结构化数据存入所述XML模板文档中；

步骤2、获得长期存储数据并进行存储；

步骤2.1、对社区管理服务数据库中的任意长期存储数据进行定向采集，获得第v个长期结构化数据，记为表示所述第v个长期结构化数据A_v中第i个的元素；1≤i≤n；1≤v≤V；V表示所述长期存储数据的总数；

步骤2.2、创建用于存储所述第v个长期结构化数据A_v的第一数据链栈与第二数据链栈

步骤2.3、根据所述第v个长期结构化数据A_v的生成时间将所述第v个长期结构化数据A_v依次存入所述第一数据链栈并用元素属性Date来表示所述第v个长期结构化数据A_v的生成时间，记为

{Date}_{v} = {{Date}_{1}^{(v)}, {Date}_{2}^{(v)}, . . ., {Date}_{i}^{(v)}, . . ., {Date}_{n}^{(v)}};

表示所述第v个长期结构化数据A_v中第i个的元素的生成时间；

步骤2.4、初始化i＝1；则所述第一数据链栈中第i个元素表示栈顶元素；

步骤2.5、令指针指向所述第i个元素

步骤2.6、将所述第i个元素的生成时间与时间阈值A进行比较；在所述第i个元素生成时间大于所述时间阈值A时，取出所述第i个元素并压入到所述第二数据链栈中；并将i+1赋给i后，返回步骤2.5顺序执行；从而利用所述第二数据链栈完成长期存储数据的存储；并形成第v个长期存储数据表，进而获得V个长期存储数据表；

步骤3、获得临时存储数据并进行存储；

步骤3.1、根据设定周期对所述社区管理服务数据库中的临时存储数据进行定向采集，获得临时结构化数据；

步骤3.2、创建容量为S的队列Queue1；

步骤3.3、将所述临时存储数据压入所述队列Queue1；

步骤3.4、用元素数据Data来表示存放在所述社区管理服务数据库中的其他临时存储数据；

步骤3.5、判断所述队列Queue1是否空余，若空余，则将所述元素数据Data顺序存放在所述队列Queue1的队尾；若所述队列Queue1已满，则删除所述队列Queue1的队头元素，并将所述元素数据Data插入到所述队列Queue1的队尾；从而形成临时存储数据表；

步骤4、将所述XML模板文档采用关键字映射机制生成结构化数据表；将所述半结构化数据存入所述结构化数据表；

步骤5、对所述长期存储数据表、临时存储数据表与结构化数据表进行基于主键关联的去冗整合操作，包括：

步骤5.1、对所述V个长期存储数据表、临时存储数据表与结构化数据表依次标记形成数据表label＝{label₁,label₂,...,label_j,...,label_v+2}；label_j表示第j个数据表；1≤j≤V+2；

步骤5.2、对所述数据表label依次设立整合标志位flag；记为flag＝{flag₁,flag₂,...,flag_j,...,flag_v+2}；flag_j表示第j个数据表label_j的整合标志位；

步骤5.3、初始化j＝1，flag_j＝1；则将第j个数据表label_j作为参照表；

步骤5.4、将所述第j个数据表label_j与第j+1个数据表label_j+1按照相似度规则进行关键字相似度比较；所述相似度规则为：若则设置flag_j+1＝1，并进行表整合操作，即label_j∪label_j+1＝label_j∪j+1；并执行步骤5.5；若则设置flag_j+1＝0，并执行步骤5.6；

步骤5.5、将label_j∪j+1赋值给label_j+1；判断j+1＝V+2是否成立，若成立，表示完成表整合操作，形成社区管理服务数据表label′；并执行步骤5.7；否则，则将j+1赋值给j后返回步骤5.4；

步骤5.6、将label_j+2赋值给label_j+1并返回步骤5.4；

步骤5.7、在所述数据表label中任意挑选整合标志位flag为0的数据表作为参照表，并与其他整合标志位flag为0的数据表按照相似度规则进行关键字相似度比较，直到整合标志位flag为0的数据表都完成关键字相似度比较为止，从而形成最终更新的社区管理服务数据表；由此获得社区管理服务的结构化数据。

与现有技术相比，本发明的有益技术效果体现在：

1、本发明由社区管理服务数据库、数据收集系统和数据集成系统组成社区管理服务大数据处理系统，其社区管理服务数据库为数据收集系统提供数据，数据收集系统包括半结构化数据采集模块和结构化数据采集模块，分别采集半结构化数据与结构化数据，数据集成系统包括数据转换模块和数据融合模块，数据转换模块将半结构化数据转换为新结构化数据，数据融合模块对结构化数据和新结构化数据进行基于关键字的整合处理，从而获得社区管理服务的结构化数据。

2、本发明通过创建数据链栈的方法，对需要进行长期存储的社区管理服务大数据进行采集与存储，实现了对该类型数据的批量式存储，大幅提高了社区管理服务大数据的采集与存储性能，为社区管理服务的数据分析任务提供了数据来源。

3、本发明通过创建数据队列的方法，对需要进行临时存储的社区管理服务大数据进行采集与存储，实现了对该类型数据的临时性存储，解决了现有大数据处理技术中时效性问题，提升了社区管理服务大数据存储选择的多样性，同时也为社区管理服务的数据分析任务提供了数据来源。

4、本发明通过基于主键的数据表整合方法，解决了现有大数据处理技术中数据冗余性高的问题，提升了社区管理服务大数据的数据价值密度，为社区管理服务大数据的数据分析任务带来了便利，为政府、企业等多类型用户的数据分析需求提供了基础。

附图说明

图1为本发明系统结构示意图；

图2为本发明方法流程图。

具体实施方式

本实施例中，社区管理服务大数据延伸至社区管理的公安、人社、计生、民政等人口基础信息相关的政务系统，工商、税务、质监、编办等法人基础信息相关的政务系统，以及宏观经济基础信息和地理空间基础信息相关的政务系统；如图1所示，一种社区管理服务大数据处理系统，包括：社区管理服务数据库、数据收集系统和数据集成系统；

数据收集系统包括半结构化数据采集模块和结构化数据采集模块；半结构化数据采集模块用于对社区管理服务的HTML格式数据进行定向采集，获得半结构化数据；结构化数据采集模块对社区管理服务数据库的数据进行定向采集，获得结构化数据；

数据集成系统包括数据转换模块和数据融合模块；数据转换模块将半结构化数据转换为新结构化数据，数据融合模块对结构化数据和新结构化数据进行基于关键字的整合处理，获得社区管理服务的结构化数据。

具体的，数据收集系统和数据集成系统对社区管理服务大数据的收集与处理过程是以平台云数据中心为支撑；社区管理服务数据库建立于平台云数据中心，并采用如下的任务调度机制：

1、当用户发起社区管理服务的大数据分析任务时，数据收集系统将采集与过滤后的社区管理服务数据自动上传至平台云数据中心，并触发数据处理系统启动相应进程；

2、数据集成系统在对社区管理服务数据进行转换与融合后将处理得到的规范化数据存储至平台云数据中心，并触发数据应用系统的分析与解释功能；

3、用户可通过对平台云数据中心的规范化社区管理服务数据进行抽取、分析和解释过程，获得分析处理结果。

如图2所示，一种社区管理服务大数据处理系统的处理方法是按如下步骤进行：

步骤1、获得半结构化数据并进行存储；

步骤1.1、构建用于临时存储半结构化数据的XML模板文档；

步骤1.2、利用筛选器对社区管理服务的HTML格式数据进行解析并定向抓取；获得半结构化数据；将半结构化数据存入XML模板文档中；

现给出算例：为了满足用户的本地就餐需求，假设系统需要处理社区管理服务的数据分析任务，用户需要查找合肥市包河区内所有餐厅相关信息，半结构化数据采集模块根据以下步骤实现其需求：

步骤a、根据目标包含的信息构造地址

“http://hf.meituan.com/category/meishi/baohequ？”

步骤b、对步骤a中URL对应的网页文档进行结构化分析，确定需要抓取的目标数据：餐厅名称、地址、联系方式和介绍信息，最后构造XML模板文档。

步骤c、根据步骤b确定的目标数据的类型，实现网页数据的自动抓取。

步骤d、将步骤c抓取的数据序列化至已构建的XML模板文档中,并批量导入数据库中。

步骤2、获得长期存储数据并进行存储；

步骤2.1、对社区管理服务数据库中的任意长期存储数据进行定向采集，获得第v个长期结构化数据，记为表示第v个长期结构化数据A_v中第i个的元素；1≤i≤n；1≤v≤V；V表示长期存储数据的总数；

步骤2.2、创建用于存储第v个长期结构化数据A_v的第一数据链栈与第二数据链栈

步骤2.3、根据第v个长期结构化数据A_v的生成时间将第v个长期结构化数据A_v依次存入第一数据链栈并用元素属性Date来表示第v个长期结构化数据A_v的生成时间，记为

{Date}_{v} = {{Date}_{1}^{(v)}, {Date}_{2}^{(v)}, . . ., {Date}_{i}^{(v)}, . . ., {Date}_{n}^{(v)}};

表示第v个长期结构化数据A_v中第i个的元素的生成时间；

步骤2.4、初始化i＝1；则第一数据链栈中第i个元素表示栈顶元素；

步骤2.5、令指针指向第i个元素

步骤2.6、将第i个元素的生成时间与时间阈值A进行比较；在第i个元素生成时间大于时间阈值A时，取出第i个元素并压入到第二数据链栈中；并将i+1赋给i后，返回步骤2.5顺序执行；从而利用第二数据链栈完成长期存储数据的存储；并形成第v个长期存储数据表，进而获得V个长期存储数据表；

步骤3、获得临时存储数据并进行存储；

步骤3.1、根据设定周期对社区管理服务数据库中的临时存储数据进行定向采集，获得临时结构化数据；

步骤3.2、创建容量为S的队列Queue1；

步骤3.3、将临时存储数据压入队列Queue1；

步骤3.4、用元素数据Data来表示存放在社区管理服务数据库中的其他临时存储数据；

步骤3.5、判断队列Queue1是否空余，若空余，则将元素数据Data顺序存放在队列Queue1的队尾；若队列Queue1已满，则删除队列Queue1的队头元素，并将元素数据Data插入到Queue1的队尾；从而形成临时存储数据表；

步骤4、将XML模板文档采用关键字映射机制生成结构化数据表；将半结构化数据存入结构化数据表；

步骤5、对长期存储数据表、临时存储数据表与结构化数据表进行基于主键关联的去冗整合操作，包括：

步骤5.1、对V个长期存储数据表、临时存储数据表与结构化数据表依次标记形成数据表label＝{label₁,label₂,...,label_j,...,label_v+2}；label_j表示第j个数据表；1≤j≤V+2；

步骤5.2、对数据表label依次设立整合标志位flag；记为flag＝{flag₁,flag₂,...,flag_j,...,flag_v+2}；flag_j表示第j个数据表label_j的整合标志位；

步骤5.4、将第j个数据表label_j与第j+1个数据表label_j+1按照相似度规则进行关键字相似度比较；相似度规则为：若则设置flag_j+1＝1，并进行表整合操作，即label_j∪label_j+1＝label_j∪j+1；并执行步骤5.5；若则设置flag_j+1＝0，并执行步骤5.6；

步骤5.6、将label_j+2赋值给label_j+1并返回步骤5.4；

步骤5.7、在数据表label中任意挑选整合标志位flag为0的数据表作为参照表，并与其他整合标志位flag为0的数据表按照相似度规则进行关键字相似度比较，直到整合标志位flag为0的数据表都完成关键字相似度比较为止，从而形成最终更新的社区管理服务数据表；由此获得社区管理服务的结构化数据。

具体的，基于主键关联的去冗整合操作需要提前进行数据过滤，以实现对噪音、异常、冗余以及不可信数据的集中过滤与约简，采用如下步骤：

(1)根据用户实际需求，设计可操作性强的有用性度量指标。例如：用户需要分析规定时间段内的社区管理服务大数据即可设立该时间段的起止阈值为有用性度量指标；

(2)依托有用性度量指标对所采集的社区管理服务数据进行辨识，筛选出满足指标要求的有用数据；

(3)对有用数据中可能存在的噪音数据、异常数据、冗余数据进行自动化处理，其中：噪音数据主要针对属性空值和错误值，错误值通过采用聚类方法来查找和修正，空值通过采用决策树归纳推导出可能值并填入,聚类方法则采用K-means方法；

异常数据针对数据集中的孤立点，通过采用基于距离的方法检测出孤立点，即计算词语相似度，并通过同义词林进行计算；

冗余数据针对字段和记录的重复现象，字段冗余通过采用编辑距离算法进行检测，记录冗余通过采用排序邻居算法进行检测；

通过对数据进行属性子集选择，对不相关或冗余的属性进行删除，达到约简目标。

(4)完成社区管理服务大数据的多级过滤，并将过滤后的结果存储在平台云数据中心。

具体的，社区管理服务大数据处理系统支持查询检索、统计分析与知识挖掘方法，其特征在于：包括基于关键字、满足用户兴趣和考虑上下文关联的查询检索方法，指标对比、分组、时间数列、综合评价和预测的统计分析方法，关联规则、分类、聚类、数据流的知识挖掘方法。

Claims

1.一种社区管理服务大数据处理系统，其特征包括：社区管理服务数据库、数据收集系统和数据集成系统；

2.一种利用权利要求1所述的社区管理服务大数据处理系统的处理方法，其特征是按如下步骤进行：

步骤1、获得半结构化数据并进行存储；

步骤1.1、构建用于临时存储半结构化数据的XML模板文档；

步骤2、获得长期存储数据并进行存储；

{Date}_{v} = {{Date}_{1}^{(v)}, {Date}_{2}^{(v)}, . . ., {Date}_{i}^{(v)}, . . ., {Date}_{n}^{(v)}};

步骤2.5、令指针指向所述第i个元素

步骤3、获得临时存储数据并进行存储；

步骤3.2、创建容量为S的队列Queue1；

步骤3.3、将所述临时存储数据压入所述队列Queue1；

步骤5.1、对所述V个长期存储数据表、临时存储数据表与结构化数据表依次标记形成数据表label＝{label₁,label₂,…,label_j,…,label_v+2}；label_j表示第j个数据表；1≤j≤V+2；

步骤5.2、对所述数据表label依次设立整合标志位flag；记为flag＝{flag₁,flag₂,…,flag_j,…,flag_v+2}；flag_j表示第j个数据表label_j的整合标志位；

步骤5.6、将label_j+2赋值给label_j+1并返回步骤5.4；