CN102469127A

CN102469127A - 一种密集型数据通用处理方法

Info

Publication number: CN102469127A
Application number: CN2010105408201A
Authority: CN
Inventors: 于建军; 南凯; 董科军; 谢建军
Original assignee: Computer Network Information Center of CAS
Current assignee: Computer Network Information Center of CAS
Priority date: 2010-11-12
Filing date: 2010-11-12
Publication date: 2012-05-23

Abstract

本发明属于信息处理技术领域，公开了一种密集型数据处理通用方法，通过用数据处理管道和面向不同类型数据处理的可配置框架，提供异构多源密集型数据的采集、处理和可视化的统一实现方法。方法包括：S1，数据采集和接收管道，提供原始数据的采集和接收监听；S2，数据处理/存储管道，提供原始数据的解析、预处理、加工和统一存储；S3，数据可视化管道，提供数据共享和展示方法；S4，面向不同类型数据处理的可配置框架，实现面向不同任务的密集型数据处理流程的定制。本发明适用于建立通用的密集型数据处理系统，以解决不同任务目标下的密集型数据的采集、处理和可视化。

Description

一种密集型数据通用处理方法

技术领域

本发明属于信息处理(Information Processing)技术领域，是一种符合以文档形式表示的密集型数据的持续性、短间隔和小规模的数据采集、处理和可视化方法。

背景技术

信息处理的推出是为了满足日益增长的数据处理和加工市场。随着互联网技术的发展，越来越多的应用通过网络进行远程数据传输、存储和处理。互联网积累了海量的原始数据，这些数据只有经过加工处理后才能进行信息共享和数据下载。

一般信息处理系统采用BS(Browser/Server，浏览器/服务器)或CS结构(Client/Server，客户机/服务器)，将不同来源的数据，通过网络传输手段汇总到服务器端。服务器通过不同信息处理算法提取原始数据，进行加工，形成可供信息共享和集成下载的数据(如图1所示)。

本专利面向密集型数据进行信息加工处理，即实现密集型数据的采集、处理和可视化。一般信息系统在处理密集型数据时，将按照普通数据形式进行加工处理。密集型数据除了普通数据所具备的特点，还具备以下几个特点：1，原始数据格式表示(有TXT文本，Excel格式，Word文档)异构；2，一次性传输量小，一般一个文件小于1MB字节；3，传输周期短，一般以分钟间隔；4，传输持久性，即长时间持久性数据采集。5，数据的统一存储，不同来源的数据可以通过某个共同目标，实现数据的转换和统一存储。

面向密集型数据处理，现有信息处理技术主要针对不同类型的数据格式，使用不同的数据处理方法，提供不兼容的数据采集、处理和可视化方法。如针对原始数据格式表示异构特点，则根据不同的文档格式编写不同的格式解析程序，如TXT文档解析程序，Excel解析程序，Word解析程序等。同样，也需要单独开发不同的预处理程序，数据处理程序和数据可视化程序。

如针对某一种野外台站数据的采集，首先将采集终端获取的原始数据上传到服务器。原始数据用TXT文本来表示，第一行为元数据，表示各列数据的含义，第二行开始表示数据。服务器解析接收文件，利用定制开发的解析算法，提取原始数据，进行数据的预处理、验证、重复检验、转换、存储和可视化。

现有的信息处理系统，需要针对密集型数据定制开发处理算法，并将随着数据来源、数据格式、数据内容、数据存储形式等变化而变化，即针对每类数据源开发定制的数据解析方法，不能很好的实现代码重用和流程重用。即缺乏一种可实现不同格式，不同数据类型的密集型数据采集、处理和可视化的通用处理方法。

另一方面，现有信息系统没有面向密集型数据特点，分析可能存在的通用处理流程和数据处理方法。

有鉴于此，本发明的目的就是给出一种密集型数据处理的通用方法，提供密集型数据数据处理的数据采集、处理和可视化通用机制，实现信息处理的代码重用和流程重用，减少开发成本。

发明内容

(一)本申请提案要解决的技术问题

密集型数据处理可以抽象为一个流程管道，原始数据从数据采集/接收模块进入数据处理/存储模块再到数据可视化模块，最终实现数据应用(如图2所示)。通用的密集型数据处理方法须根据数据处理的流程管道特性，形成一个通用数据处理管道，以及一个可装载不同类型数据处理的可配置框架。

本发明的目的是解决上述现有技术的面向密集型数据处理方法的重复开发和代码利用率低问题，提出了一种通用的密集型数据处理方法，通过一个通用数据处理管道(包括数据采集/接收管道、数据处理/存储管道和数据可视化管道)和一个面向不同类型数据处理的可配置框架，实现不同类数据，面向同一任务的统一密集型数据采集、处理和可视化。

(二)简要说明欲保护的关键点及对应的技术效果

关键点1，数据采集和接收管道。该功能点定期监视固定场所的文件更新情况(包括增加和更新)，将更新文件提取，并传送到后续功能点进行数据处理。该功能点主要包括基于FTP的数据更新监听器和基于Email的数据更新监听器。基于FTP的数据更新监听器部署在FTP服务器上，通过监控指定的FTP多个目录，获取多个目录下(包括子目录)的所有更新，并将更新文件以及相关的文件信息(包括上传方式为FTP，上传管道，上传文件名，上传日期等)传送给数据预处理系统。Email监听器通过指定邮件地址和邮件密码，定期登录该邮件地址，获取符合要求的新邮件，如果该邮件包含有效数据，则提取数据文件，并将文件及文件相关信息(包括上传方式为email，上传管道，上传文件名，上传日期等)传送给数据预处理系统。

技术效果：获取指定FTP目录或email地址下的有效文件，并实时传送文件和文件信息到数据处理/存储管道，实现有效原始数据的采集和接收。

关键点2，数据处理/存储管道。主要包括数据预处理、数据处理和数据存储。针对原始数据的数据预处理，主要包括数据去重、数据验证、数据格式转换和数据审核。提取数据采集和接收管道接收文档的有效数据，形成结构化内存数据，与数据库数据进行时间判断，过滤重复数据。未重复数据，按照对该类数据的有效信息模式进行格式和内容验证，判断数据是否合法。对于表述不一致的数据，进行数据格式转换(主要有数据类型转换，数据单位换算，数据过长截断)。提供数据审核机制，以可视化方式提供给用户，满足复杂数据内容的审核和验证。数据处理主要包括数据融合处理算法和数据映射。数据融合处理算法将未加工的数据利用某类处理算法，将数据转换形成目标结构的数据。数据映射将处理后数据映射为数据库数据结构，包括字段的选取、字段的组合等，其目的是将数据转换为可存储的数据。数据存储主要是将处理后的内存数据存储到统一结构表示的数据库或文件中。

技术效果：提取数据内容和元数据信息，通过数据处理算法，形成统一结构数据，实现永久性数据存储。

关键点3，数据可视化管道。主要包括数据共享、数据集成下载、数据展示等。数据共享指的是提供原始更新数据的下载，按照上传时间、上传文件名、上传方式、数据源等多种属性进行排序展示，并提供链接下载原始数据文件。数据集成下载指的是提供加工处理后融合多种数据源的数据统一化下载。可以根据时间段、数据列、数据源等参数下载合适的集成数据。数据展示指的是针对加工后的存储入库数据，提供多种数据展示方式。如针对具备位置信息的数据，利用地图展示该位置的新数据或历史数据；针对多种数据源提供历史数据的时间序列对比图；针对某种参数下的实时数据预警图等。这些可视化机制可以利用配置框架进行动态加载，满足不同任务下的可视化机制。

技术效果：根据原始数据或处理后的加工数据，提供数据共享下载以及面向不同任务的数据可视化机制。

关键点4，面向不同类型数据处理的可配置框架。主要包括配置文件编辑器、配置文件装载和执行器、定制数据处理方法执行器等。配置文件编辑器指的是根据任务需要，编写不同数据源的数据处理方法，有文件格式解析方法定义、文件接收方法定义、去重方法定义、主键定义、字段定义、字段映射方法定义、可视化方案定义。配置文件装载和执行器指的是用户定义一个新的处理流程之后，系统读取当前数据源处理的配置文件，获取当前数据源处理的方法。定制数据处理方法执行器指的是数据进入系统后，自动加载针对该数据源的定制处理方法，实现该数据源的自动采集、处理和可视化。

技术效果：面向不同数据格式、不同处理要求、不同可视化机制提供可配置框架，实现定制的采集、处理和可视化机制的可配置，可自动装载。

(三)总的技术效果

本发明具有以下的优点和特点：

1)本发明解决了密集型数据处理的通用方法，本发明提供的通用数据处理管道和面向不同类型数据处理的可配置框架，将实现异构密集型数据在面向同一任务需求下的数据采集/接收、数据处理/存储和数据可视化机制的统一表示，为多数据源数据处理提供了通用型方法，满足类似系统的快速搭建。

2)本发明提供的通用密集型数据处理方法，不再针对每类数据源或每个任务提供形成大量重复的处理程序，而是统一化、管道化和定制化异构数据源的采集、处理和可视化机制，形成一个通用密集型数据处理管道和处理方法的可配置框架，从而提高软件部署效率，减少更多人力开发成本。

附图说明

附图1是数据处理流程示意

附图2是方案提出的密集型数据通用处理流程

附图3是密集型数据通用处理的配置流程

附图4是密集型数据通用处理的执行流程

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述。

本发明提供的通用密集型数据处理方法包括两个步骤：处理流程定义阶段和处理流程执行阶段，分别如图3，图4所示。

密集型数据处理流程定义阶段主要包括以下几个步骤：

步骤S3.1：定义流程的名称和描述信息，用于区分不同数据处理流程。其中流程的名称具有唯一性，且流程中所有定制方法都须引用该名称，以示区分。

步骤S3.2：定义数据接收方法，选择是基于FTP的数据更新监听器或者基于Email的数据更新监听器，并且设置监听器所需的参数，如数据更新监听器的FTP地址，用户名/密码、目录；Email数据更新监听器的邮件账号和密码。

步骤S3.3：定义数据预处理方法，指定数据解析算法，指定需处理的数据列，选择主键，指定数据去重策略，选择数据审核方法。数据解析算法指的是用于提取原始数据文档的数据内容，一般根据任务要求，该类算法需要定制开发。指定需处理的数据列指的是选择需要处理的数据列，并丢弃无需处理的数据内容。选择主键根据数据解析算法获取数据列，并提供这些数据列供主键选择。指定数据去重策略指的是如何定义数据内容的重复采集。选择数据审核方法指的是预处理之后的数据是否需要供人工审核处理。

步骤S3.4：定义数据处理和数据存储方法。数据处理方法包括数据列的映射转换，数据列的格式转化，数据列的加工处理，与数据存储方法中数据列的映射。数据存储方法指定数据库存储和文件存储。数据库存储指定数据库类型、驱动、用户名/密码、数据库名、数据库表等。文件存储指定文件存储的位置，文件名等。

步骤S3.5：定义数据可视化方法。可视化包括数据共享方式定义、数据集成下载定义、数据展示定义等。

步骤S3.6：完成流程定义，形成XML形式的流程配置文件。该文件使用最初定义的流程名称作为文件名。

密集型数据处理流程执行阶段主要包括以下几个步骤：

步骤S4.1：文件接收触发。通过FTP或Email数据更新监听器接收到某数据处理流程的文件更新。启动文件处理程序，将文件和相关信息上传到服务器。

步骤S4.2：文件解析和预处理。加载该流程指定的数据预处理方法，自动调用数据解析算法、需处理的数据列，选择主键，指定数据去重策略，选择数据审核方法。

步骤S4.3：数据处理和存储。加载该流程指定的数据处理方法，自动调用数据列的映射转换，数据列的格式转化，数据列的加工处理，与数据存储方法中数据列的映射，形成加工后的内存数据。并根据存储策略，存储到数据库或文件系统中。

步骤S4.4：密集型数据处理流程执行结束，通过可视化方法可以查看新数据结果。

下面以实施具体说明本发明方法的实现。

某一个野外台站进行大气数据监测，每隔1分钟生成一个数据文件，如奥运村大气监测数据文件200807231200.txt。这个文件的表达格式如下：

TIME PM10 SO2 NO2

2008-7-23 12:00 96.5 82.9 15.9

该文件每隔1分钟传输到FTP服务器目录下，FTP数据更新监听器每隔1分钟接收新数据文件，将该数据文件和文件信息(FTP上传、文件名称、文件所属流程)上传到服务器。服务器接收到该文件之后，装载该流程定义的配置信息。首先调用解析程序，提取该文件的数据列信息和数据内容信息。如提取到4个数据列：时间(TIME)、可吸入颗粒物(PM10)、二氧化硫(SO2)和二氧化氮(NO2)，并获取该4个数据列的4个数据。如得到2008年7月23日12点的监测数据分别是96.5、82.9和15.9。该流程中指定TIME为主键，数据预处理方法根据当前时间，检测是否已有当前时间点的数据，如果有，则直接丢弃，否则将当前数据转交给数据处理方法。由于该任务较为简单，数据处理方法直接将获取得到的4个数据存储到数据库中。对于其它任务需要进行数据转换、加工和映射的，可在流程定义阶段指定定制开发的数据处理算法。最后，通过定制开发可视化方法，在界面上，用户可以选择输入时间点，如果该时间点存在原始文件，则提供下载链接地址；用户可以查看一段时间内，三个大气监测参数的折线图；用户可以查看当前大气数据的质量等级；用户可以下载一段时间段内的不同监测参数的数据。

同样，另外一个野外台站进行大气数据监测，每隔1分钟生成一个数据文件，如中关村大气监测数据文件200807231200.txt。该文件格式如下：

TIME PM10 SO2 NO2

2008-7-23 12:00:00 96.5 82.9 15.9

……

2008-7-23 12:00:59 97.2 83.1 15.6

该站点获取秒级数据，并与前面任务的数据存储到同一数据库中。该流程与上一个流程具备同样的功能，唯一的区别是定制开发一个新的数据解析程序，将2008年7月23日12点的60个数据进行统计平均，形成分级的统计值。

如上述实例，利用通用数据处理管道和面向不同类型数据处理的可配置框架，可以实现密集型数据处理的通用方法。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种密集型数据通用处理方法，方法包括通用数据处理管道和面向不同类型数据处理的可配置框架，其特征在于，不同任务下的密集型数据采集、处理和可视化可以通过创建流程方法统一在同一系统中完成。

2.根据权利要求1所述的方法，其特征在于，该方法进一步包括：数据采集和接收管道，数据处理/存储管道，数据可视化管道和面向不同类型数据处理的可配置框架。

3.根据权利要求1和权利要求2所述的方法，其特征在于，提供处理流程定义和处理流程执行方法，实现密集型数据实例的数据采集、处理和可视化流程。