CN111124679A

CN111124679A - 一种面向多源异构海量数据限时自动处理方法

Info

Publication number: CN111124679A
Application number: CN201911315349.3A
Authority: CN
Inventors: 高翔; 李琬琰; 陈明
Original assignee: Nanjing LES Information Technology Co. Ltd
Current assignee: Nanjing LES Information Technology Co. Ltd
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2020-05-08
Anticipated expiration: 2039-12-19
Also published as: CN111124679B

Abstract

本发明公开了一种面向多源异构海量数据限时自动处理方法，包括步骤如下：基于容器技术搭建数据处理运行环境；建立数据采集任务调度管理；设计数据文件解析优化；数据加工分布式并行处理；组件化设计处理流程编排可控；数据处理监控自动优化；事件与消息设计；优化存储和数据访问设计；优化数据采集管理。本发明通过数据处理流程的自动化优化设计以及过程可灵活控制的优化设计，对半结构化数据文件的解析、处理、加工效率大幅度提升，对海量历史数据与实时数据的关联、融合效率大幅提升。

Description

一种面向多源异构海量数据限时自动处理方法

技术领域

本发明属于数据处理技术领域，具体指代一种面向多源异构海量数据限时自动处理的方法。

背景技术

社会公共信用信息基础库平台不同于一般政务系统，其需要同时面向各级政府和社会公众服务，具有高复杂性、高管理标准、覆盖面广、高性能要求、数据量巨大等特征。其中，最典型的特征便是高性能要求和数据量巨大。以某国家级平台对外公布的招标指标为例，在正常合理资源投入的情况下，平台需要对接全国范围内120个中央部门、32个省、43个试点城市、相关金融机构、相关互联网机构、相关第三方机构等近250个异构系统平台，进行数据采集和数据交换。业务指标要求每分钟平台处理数据量需达到千万条级别，管理数据量达到百亿级或PB级，并且需要在规定的时限内(通常是24小时，即“T+0”)完成数据处理，形成标准化的公共信用档案。

此外，公共信用信息区别于一般政务数据，具有数据分散且割裂通常成片段状(来源于各级具有公共职能的部门)、主体类型众多(如政府、事业单位、企业组织、个人等)、时效性要求高(“T+0”)等特点，造成信用信息数据处理与一般数据处理过程不同，具有多个“特色”处理环节，如信用主体信息识别、主体信息关联匹配、历史数据融合、数据质量校核、数据追溯(涉及修复业务)等。因此，信用信息的数据处理，除了对性能要求高外(时效性)，对过程控制能力要求也颇高。

对于海量异构场景数据处理，目前的工作量和技术点主要在通过使用主流的大数据处理架构，如Hadoop、Strom、Spark，实现对海量数据的批处理、流处理，以加快数据处理速度。但这些主流方式因缺乏对过程的有效控制、难以合理设计资源分配策略等问题，对解决海量异构公共信用信息限时处理问题难以达到预期成效。

发明内容

针对于上述现有技术的不足，本发明的目的在于提供一种面向多源异构海量数据限时处理方法，以解决现有技术在提高平台性能方面的不足。

为达到上述目的，本发明采用的技术方案如下：

本发明的一种面向多源异构海量数据限时处理方法，包括步骤如下：

1)基于Docker搭建数据处理运行环境；

2)建立数据采集任务调度管理；

3)设计数据文件解析优化；

4)数据加工多线程并行处理；

5)组件化设计处理流程编排可控；

6)数据处理监控自动优化；

7)事件与消息设计；

8)优化存储和数据访问设计；

9)优化数据采集管理。

优选地，所述步骤1)具体包括：将数据处理管理程序运行在虚拟化容器中，使用沙箱机制虚拟出完整的程序运行环境。

优选地，所述步骤2)具体包括：建立数据采集任务调度机制，对数据采集任务按报送类型自动匹配采集方式，可预先设置采集部门、或数据类型的采集优先级(如采集工商和公安数据，法人数据以工商为主，工商优先级大于公安；自然人数据以公安为主，公安优先级大于工商)，进行自动调度分配，并全程监控数据处理服务器运行负载情况，建立任务全程控制监控管理调度，按优先级、数据信息类别、总数据量大小、分配数据处理计算资源，提高数据处理能力；

在采集任务源头对文件校验，拦截去除格式损坏文件或内容重复文件，避免不必要的数据计算资源浪费。

优选地，所述步骤3)具体包括：

31)采用内存加载处理小文件；

32)采用内存文件映射处理大文件；

33)采用文件切块处理超大文本文件；

34)采用StAX流式解析XML文件；

35)采用流式API方式提升解析JSON大文件。

优选地，所述步骤4)具体包括：

41)将解析后的采集数据导入内存数据库，生成数据记录待加工消息放入消息队列；

42)实时监听并获取处理消息，采用多线程运行模式，根据处理资源配置能力，动态生成对应的信息类数据加工处理线程数；

43)信息类处理加工子线程根据消息中定义的数据记录标识ID，从内存数据库获取消息中的待处理信息记录数据内容(元数据与原始数据)，按照对应编排的处理流程对数据记录各字段进行清洗、校验、脱敏、加密、去重、关联、反馈的加工处理；

44)信息类处理加工线程根据处理工序算法，将处理结果快速写入内存数据库对应的有效数据表中，并将处理过程日志按照统一服务调用接口，发送到数据处理日志管理服务中。

优选地，所述步骤5)具体包括：

51)对标准处理过程构建通用的加工组件；

52)加工组件构建粒度；

53)组件内部调用统一的处理日志服务接口，通过异步事件处理，发送处理日志到数据处理日志管理服务；

54)构建组件库服务，对组件统一管理，并对处理需求的不同建立版本控制，结合组件的自描述能力，实现组件的注册和发现；

55)建立实例化组件池，减少组件的生成系统开销；

56)对加密、脱敏、权限访问控制的功能实现组件化配置；

57)根据信用信息类的业务数据处理特征和处理过程依赖关系，将处理加工组件通过串行、分支、并行的处理过程进行逻辑编排缩减数据加工处理时间，提高处理加工效率。

优选地，所述步骤6)具体包括：

61)根据CPU内核数，设定数据处理服务进程和线程最大警戒数；

62)根据处理系统内存容量与内存数据库服务器的系统内存容量，设定内存使用量上限阀值；

63)实时监视系统计算资源负载状况，当系统接近超负荷运行时，自动控制或减少数据处理线程数，并通知数据采集任务调度管理服务，调整数据采集任务，缓冲后续数据加工并发处理压力，防止系统过载。

优选地，所述步骤7)具体包括：

71)建立数据采集任务队列，根据后续处理负载情况，调节队列任务，保持数据采集与数据加工的效率均衡；

72)数据采集解析入库时，通过发送待加工处理消息，进入数据记录处理加工消息队列，数据加工处理服务监听消息队列，消费对应订阅的信用信息类待处理记录消息，根据消息中定义数据记录ID获取内存数据库中的数据记录内容，多线程并发处理。

优选地，所述步骤8)具体包括：

81)采用内存数据库建立中间数据共享；

811)将数据采集的原始数据、处理加工结果数据，按照信用信息分类结构建立数据库表；

812)在内存数据库集群建立多个分布式数据库节点，并采用主从数据库设置模式，对处理数据进行垂直和水平切分，将信用信息数据根据业务特性分散存储，提升并发访问读写效率；

813)在内存数据库中编写算法，以提高数据记录通用处理效率；

814)将关联比对核心数据从集中式关系型数据库中获取常驻内存，利用内存库的高效读取，提高数据关联比对效率；

82)处理结果数据增量分类存储；

821)对数据内容信息字段相对较小的核心数据，采用集中式关系型数据库存储；

822)对文字内容较多或相对非核心数据的结构化或半结构化信用数据信息类，采用分布式数据库集群存储；

823)将内存数据库中的原始数据和处理过程数据，用异步方式同步到分布式数据库集群存储，并结合分布式日志搜索引擎，实现处理过程追溯的快速提取；

824)对各种非结构化数据采用集中式文件存储管理或集中式数据库存储管理。

优选地，所述步骤9)具体包括：

91)设定数据库访问或服务接口访问方式的信息类采集时间段，避开网络访问高峰；

92)对部门报送信用信息类进行分类，根据业务逻辑关联性将大数据量文件与小数据量文件报分批分期进行采集报送；

93)提供格式化文件规范标准模板和校验程序，提高信息来源部门的数据文件生成质量。

本发明的有益效果：

1、通过数据文件解析优化，对半结构数据文件的解析效率大幅度提升。

2、通过优化手段，有效提升数据处理加工效率。

3、通过监控任务进程、队列情况、事件或消息驱动，实现对任务顺序、串行/并向情况、资源使用情况进行灵活调整，使处理过程的性能动态可调。

4、可根据上报数据的格式、信息类型、时序(历史、实时数据)不同，灵活调整解析和处理的策略。

5、以业务特征定义处理规则和处理组建，通过对规则和组件进行灵活编排，大幅度提高历史、实时异构数据的关联融合成功；并且面向各类差异化数据处理需求时，无需重新构建方法，无需停止当前任务，即可编辑处理过程参数，实现灵活调整。

附图说明

图1为本发明方法的原理图。

具体实施方式

为了便于本领域技术人员的理解，下面结合实施例与附图对本发明作进一步的说明，实施方式提及的内容并非对本发明的限定。

参照图1所示，本发明的一种面向多源异构海量数据限时处理方法，包括步骤如下：

1)基于Docker搭建数据处理运行环境；

将数据处理管理程序运行在虚拟化容器中，使用沙箱机制完全虚拟出完整的程序运行环境，容器之间不会有任何接口，从而让容器与宿主机之间、容器与容器之间隔离的更加彻底。每个容器均有各自的权限管理，独立的网络与存储栈，及资源管理，使同一宿主服务集群上可以友好的共存多个容器。

2)建立数据采集任务调度管理；

建立数据采集任务调度机制，对数据采集任务根据部门优先级、数据类型等进行自动调度分配，全程监控数据处理服务器运行负载情况，建立任务全程控制监控管理调度，按优先级、数据信息类别、总数据量大小，自动分配数据处理计算资源，提高数据处理能力；

3)设计数据文件解析优化；具体包括：

31)采用内存加载处理小文件；内存加载方式是最快速的解析处理文件运算方法，但不适应大容量数据文件的加载处理；

32)采用内存文件映射处理大文件；内存文件映射可以通过内存指针对磁盘上的文件进行访问，其过程就如同对加载了文件的内存的访问；通过文件映射使磁盘文件的全部或部分内容与进程虚拟地址空间的某个区域建立映射关联的能力，直接对被映射的文件进行访问，而不必执行文件I/O操作也无需对文件内容进行缓冲处理。内存文件映射适合于管理大尺寸文件。因此这种优化有能力以足够快的速度来处理文件操作。

33)采用文件切块处理超大文本文件；CSV是逗号分隔的文本文件，TSV是用制表符(Tab,’\t’)作为字段值的分隔符；对此类文本格式的文件采用文件切块方式，在不影响文件内数据记录的完整性的前提下(通常识别换行结束符)将超大文件切割成大小适当的多个文件，运用多线程并发解析处理。

34)采用StAX流式解析XML文件；XML是最适合存储半结构化的数据的文件格式类型，可以将不同类别的信息保存在XML的不同的节点中，实现够灵活的信息进行扩展，通常超大文件的XML文件不适应与文件切分方式进行多线程解析处理。

传统的基于DOM(文档对象模型)方式下的文件解析方式，允许编辑和更新XML文档，可以随机访问文档中的数据，但需要一次性加载整个文档到内存中，对于大型文档，会造成性能问题。

StAX(Streaming API for XML)是一种面向流的新方法，是Java 6.0针对XML的流式拉分析API。处理连续的字节序列，可以理解为不停地从源头向目标搬运着字节的特殊对象，StAX包括基于指针的API和基于迭代器的API两套处理XML的API，分别提供了不同程度的抽象。

35)采用流式API方式提升解析JSON大文件；

JSON已经成为系统应用之间数据传输的公认标准，微服务及分布式架构经常会使用JSON来传输文件，已经是WEB API的事实标准。数据采集将会面对大量使用JSON格式的数据大文件。

示例中，三种可选的JSON处理方法有：

a.树模型

提供一个JSON文档可变内存树的表示形式；树模型类似于XML DOM；是相对灵活的方式。

b.数据绑定

JSON和POJO相互转换，基于属性访问器规约或注解，是使用最方便的方式。

c.流式API

称为"增量分析/生成"，读取和写入JSON内容作为离散事件。类似StAX API的处理方式，是内存使用量性能最佳的方式，相对其他两种是最低开销、速度最快的读/写方式。

4)数据加工多线程并行处理；

42)实时监听并获取待处理消息，采用多线程运行模式，根据处理资源配置能力，动态生成对应的信息类数据加工处理线程数；

5)组件化设计处理流程编排可控；

数据加工的流程管理，采用组件化加工功能的方式，将清洗、校验、脱敏、加密、去重、关联等处理工序，构建成接口统一规范的运行组件，按照信用信息类的业务处理需求，根据数据处理规则配置，对服务组件处理逻辑和流程进行编排，提高系统的灵活性，实现数据处理加工的流程可控性、功能可扩展性。

6)数据处理监控自动优化；

实时跟踪监控数据处理过程的任务处理效率和资源使用情况，通过服务进程和计算线程数量的自动控制，实现数据处理吞吐能力的最优化。

7)事件与消息设计；

在多个数据处理过程中引入队列机制、事件驱动和消息驱动模式，程序间降低耦合，程序内部实现并发处理，改善数据处理全流程各环节程序阻抗匹配，大幅提升系统吞吐量，提高系统稳定性。

8)优化存储和数据访问设计；

81)采用内存数据库建立中间数据共享

813)在内存数据库中编写算法，以提高数据记录通用处理效率，如计算原始数据记录和加工结果记录的哈希值(去重使用)；

82)处理结果数据增量分类存储

821)对数据内容信息字段相对较小的核心数据，如：企业法人基础数据、个人基础数据，关联比对核心数据等，采用集中式关系型数据库存储，易于数据关联分析查询和交叉统计分析，并方便大数据处理平台进行后续处理分析；

822)对文字内容较多或相对非核心数据的结构化或半结构化信用数据信息类，如文书报告类、资质许可、处罚决定等采用分布式数据库集群存储；

824)对图片、音频、视频、备份文件等各种非结构化数据采用集中式文件存储管理或集中式数据库存储管理，合理使用磁盘有效空间。

9)优化数据采集管理；

91)设定数据库访问或服务接口访问方式的信息类采集时间段(晚间定时、间隔分配)，避开网络访问高峰，充分利用网络带宽，提高数据采集获取的吞吐量和稳定性；

本发明通过数据文件解析优化，对半结构数据文件的解析效率大幅度提升。在与设备条件相近的测试环境中进行效率验证，结果满足基础性能需求，参见表1所示：

表1

如上表所示，数据文件解析能力，大于性能要求对于csv、tsv、xml、json等半结构化数据的解析能力每秒应不低于60MB的指标。

数据处性能要求平均每百万条记录加工计算时间在5分钟之内，计算下来达到3333条/秒的处理能力。

通过优化手段，有效提升数据处理加工效率，运用并发处理原则，以效率最低的处理步骤核算处理能力：5716.3条>3333条，满足性能要求。

本发明具体应用途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进，这些改进也应视为本发明的保护范围。

Claims

1.一种面向多源异构海量数据限时处理方法，其特征在于，包括步骤如下：

1）基于Docker搭建数据处理运行环境；

2）建立数据采集任务调度管理；

3）设计数据文件解析优化；

4）数据加工多线程并行处理；

5）组件化设计处理流程编排可控；

6）数据处理监控自动优化；

7）事件与消息设计；

8）优化存储和数据访问设计；

9）优化数据采集管理。

2.根据权利要求1所述的面向多源异构海量数据限时处理方法，其特征在于，所述步骤1）具体包括：将数据处理管理程序运行在虚拟化容器中，使用沙箱机制虚拟出完整的程序运行环境。

3.根据权利要求1所述的面向多源异构海量数据限时处理方法，其特征在于，所述步骤2）具体包括：建立数据采集任务调度机制，对数据采集任务按报送类型自动匹配采集方式，预先设置采集部门或数据类型的采集优先级，进行自动调度分配，并全程监控数据处理服务器运行负载情况，建立任务全程控制监控管理调度，按优先级、数据信息类别、总数据量大小、分配数据处理计算资源，提高数据处理能力；

在采集任务源头对文件校验，拦截去除格式损坏文件或内容重复文件。

4.根据权利要求1所述的面向多源异构海量数据限时处理方法，其特征在于，所述步骤3）具体包括：

31）采用内存加载处理小文件；

32）采用内存文件映射处理大文件；

33）采用文件切块处理超大文本文件；

34）采用StAX流式解析XML文件；

35）采用流式API方式提升解析JSON大文件。

5.根据权利要求1所述的面向多源异构海量数据限时处理方法，其特征在于，所述步骤4）具体包括：

41）将解析后的采集数据导入内存数据库，生成数据记录待加工消息放入消息队列；

42）实时监听并获取处理消息，采用多线程运行模式，根据处理资源配置能力，动态生成对应的信息类数据加工处理线程数；

43）信息类处理加工子线程根据消息中定义的数据记录标识ID，从内存数据库获取消息中的待处理信息记录数据内容，按照对应编排的处理流程对数据记录各字段进行清洗、校验、脱敏、加密、去重、关联、反馈的加工处理；

44）信息类处理加工线程根据处理工序算法，将处理结果快速写入内存数据库对应的有效数据表中，并将处理过程日志按照统一服务调用接口，发送到数据处理日志管理服务中。

6.根据权利要求1所述的面向多源异构海量数据限时处理方法，其特征在于，所述步骤5）具体包括：

51）对标准处理过程构建通用的加工组件；

52）加工组件构建粒度；

53）组件内部调用统一的处理日志服务接口，通过异步事件处理，发送处理日志到数据处理日志管理服务；

54）构建组件库服务，对组件统一管理，并对处理需求的不同建立版本控制，结合组件的自描述能力，实现组件的注册和发现；

55）建立实例化组件池，减少组件的生成系统开销；

56）对加密、脱敏、权限访问控制的功能实现组件化配置；

57）根据信用信息类的业务数据处理特征和处理过程依赖关系，将处理加工组件通过串行、分支、并行的处理过程进行逻辑编排缩减数据加工处理时间，提高处理加工效率。

7.根据权利要求1所述的面向多源异构海量数据限时处理方法，其特征在于，所述步骤6）具体包括：

61）根据CPU内核数，设定数据处理服务进程和线程最大警戒数；

62）根据处理系统内存容量与内存数据库服务器的系统内存容量，设定内存使用量上限阀值；

63）实时监视系统计算资源负载状况，当系统接近超负荷运行时，自动控制或减少数据处理线程数，并通知数据采集任务调度管理服务，调整数据采集任务，缓冲后续数据加工并发处理压力，防止系统过载。

8.根据权利要求1所述的面向多源异构海量数据限时处理方法，其特征在于，所述步骤7）具体包括：

71）建立数据采集任务队列，根据后续处理负载情况，调节队列任务，保持数据采集与数据加工的效率均衡；

72）数据采集解析入库时，通过发送待加工处理消息，进入数据记录处理加工消息队列，数据加工处理服务监听消息队列，消费对应订阅的信用信息类待处理记录消息，根据消息中定义数据记录ID获取内存数据库中的数据记录内容，多线程并发处理。

9.根据权利要求1所述的面向多源异构海量数据限时处理方法，其特征在于，所述步骤8）具体包括：

81）采用内存数据库建立中间数据共享；

811）将数据采集的原始数据、处理加工结果数据，按照信用信息分类结构建立数据库表；

812）在内存数据库集群建立多个分布式数据库节点，并采用主从数据库设置模式，对处理数据进行垂直和水平切分，将信用信息数据根据业务特性分散存储，提升并发访问读写效率；

813）在内存数据库中编写算法，以提高数据记录通用处理效率；

814）将关联比对核心数据从集中式关系型数据库中获取常驻内存，利用内存库的高效读取，提高数据关联比对效率；

82）处理结果数据增量分类存储；

821）对数据内容信息字段相对较小的核心数据，采用集中式关系型数据库存储；

822）对文字内容较多或相对非核心数据的结构化或半结构化信用数据信息类，采用分布式数据库集群存储；

823）将内存数据库中的原始数据和处理过程数据，用异步方式同步到分布式数据库集群存储，并结合分布式日志搜索引擎，实现处理过程追溯的快速提取；

824）对各种非结构化数据采用集中式文件存储管理或集中式数据库存储管理。

10.根据权利要求1所述的面向多源异构海量数据限时处理方法，其特征在于，所述步骤9）具体包括：

91）设定数据库访问或服务接口访问方式的信息类采集时间段，避开网络访问高峰；

92）对部门报送信用信息类进行分类，根据业务逻辑关联性将大数据量文件与小数据量文件报分批分期进行采集报送；

93）提供格式化文件规范标准模板和校验程序，提高信息来源部门的数据文件生成质量。