CN101916296B

CN101916296B - 基于文件的海量数据处理方法

Info

Publication number: CN101916296B
Application number: CN 201010265079
Authority: CN
Inventors: 袁洁
Original assignee: Wuhan Tianyu Information Industry Co Ltd
Current assignee: Wuhan Tianyu Information Industry Co Ltd
Priority date: 2010-08-29
Filing date: 2010-08-29
Publication date: 2012-12-19
Anticipated expiration: 2030-08-29
Also published as: CN101916296A

Abstract

本发明提供一种基于文件海量数据处理模型，所述具体处理过程包括：(1)对多台数据处理服务器间进行互斥控制，保持所述数据处理系统只有一台在处理数据，其他数据处理服务器作为备份；(2)对海量数据文件进行分组，将海量数据文件根据并发线程的总数量进行分组，再将分组后的文件对应到不同的线程进行处理。本发明所提供的海量数据处理过程是为了在计算机系统发生各种意外的情况下，都可以保证数据的正确性和完整性，并且在保证数据正确性和完整性的同时，确保海量数据的处理性能。

Description

基于文件的海量数据处理方法

【技术领域】

本发明涉及一种海量数据处理方法，尤其涉及一种基于文件的海量数据处理方法。

【背景技术】

海量数据数据量过大，数据格式复杂，数据中的随机情况多，不便于分类处理，对其处理是一项艰巨而复杂的任务。主要有以下几个方面的原因

1.数据量过大，数据量上千万甚至上亿，在这些数据中，还有可以随机出现数据格式错误情况，导致系统在设计时面临很大的困难；

2.软硬件要求高，对于海量数据的处理，占用的系统资源高，如果合理分配软硬件的系统资源，也是海量数据处理的一大难题；

3.要求很高的系统容错性，在某项数据出现错误时，不能影响系统的正常运行，甚至在硬件出现故障时，也能保证数据不丢失，并且可以进行容错处理。

4.海量数据的事务管理，在数据处理时，如果涉及到的数据处理一个事务当中，需要保证数据库的事务控制，随着数据量的增加，要保证大量数据在同一个数据库事务中处理，是一个相当困难的问题。

5.海量数据的处理程序，一次设计后，不能重复利用，往往只能应用于一个行业或某个项目，浪费大量的人力物力。

传统的海量数据处理，在使用高配置的服务器，加强CPU的处理性能和内存容量后，仍然有一些问题没有办法解决，容错性不高、资源分配不合理、事务管理不一致等等问题。

随着信息化的不断发展，数据处理量的不断增加，海量数据的处理在各领域大规模的应用，交通、银行、石油、移动支付等。基于文件海量数据处理过程，在确何系统处理性能的同时，充分的考虑了系统容错性、资源合理分配、事务处理等各种海量数据处理难点，并且采用了模块拨插的思想，海量数据处理模型可以重复的应用于多个行业。

【发明内容】

本发明的目的在于提供一种基于文件海量数据处理方法，所述文件是将软件平台接收到的下级或其它软件平台(系统)发送的数据，以计算机数据文件保存的，所述海量数据处理，是指大型的软件清分清算、实时交易平台将接收到的交易数据经过一系列的逻辑运算和校验后，存入到数据库的过程。本发明所提供的海量数据处理过程是为了在计算机系统发生各种意外的情况下，都可以保证数据的正确性和完整性，并且在保证数据正确性和完整性的同时，确保海量数据的处理性能。

为实现本发明的目的所采用的技术方案为：

一种基于文件海量数据处理方法，通过将数据处理系统接收到的海量数据进行文件分组，再通过多线程(进程)并发处理，该数据处理系统包括多台数据处理服务器和一个共享磁盘柜，所述共享磁盘柜存放待处理的数据文件，提供数据处理服务器共享，多台数据处理服务器均可访问所述共享磁盘柜；另外，数据处理服务器均与数据库服务器相连接，用于将处理后的数据存入数据库。具体处理过程如下：

(1)对多台数据处理服务器间进行互斥控制，具体步骤如下：

由数据处理服务器的主控进程查询并锁定数据库中的时间控制表，当到达文件处理时间时，主控进程启动处理线程(进程)以进行文件处理，同时根据处理周期更新下一次的处理时间；

同时，主控进程根据文件处理的进度，在达到下一个处理时间之前，如果文件没有处理完成，主控进程根据运算量的需要，将下一个处理时间往后延长一定的时间。

多台数据处理服务器不同时对文件进行处理，在同一时间范围内，只有一台数据处理服务器工作，其它数据处理服务器进行工作备份，多台数据处理服务器采用数据库操作进行互斥，避免同时对文件进行操作。当处理的数据处理服务器发生故障时，在下一个文件处理周期到来时，备份计算机可以继续处理文件。

(2)对海量数据的文件分组

所述的文件，是指将需要处理入库的数据在共享磁盘柜上暂存的形式，所述的文件分组，是指将文件按照并发线程(进程)的总数量取模分组，将文件对应到不同的线程(进程)处理，所述线程(进程)是指数据处理服务器分配处理器时间资源的基本单元，所述并发处理是指多台数据处理服务器中的多个线程(进程)联合处理文件入库。

文件以二进制、XML文本等结构化的文件形式存在，文件根据数据的不同来源存入于不同的目录，文件名具有唯一编码，编码按照文件产生时间加上顺序号，以分组的形式交由系统线程(进程)处理。

文件分组是指将文件进行有序的排列并从1开始顺序编号后，将文件编号对线程(进程)的数量取模，取模后的余数与线程(进程)的编号进行对应，如果余数等于其中某个线程(进程)的编号，则将编号后的文件交由该线程(进程)处理。由多个线程(进程)同时处理分组后文件，由多个线程(进程)处理的文件各不相同，不会出现线程(进程)间的资源竞争问题。

本发明所提供的基于文件的海量数据处理方法，参用了多线程(进程)处理、文件分组和多台服务器协工作，在确保数据处理的效率的同时，保证了系统的稳定性与数据的安全性。该发明可广泛应用于清算系统和各种基于文件入库的系统。

本发明所提供的海量数据处理过程是为了在计算机系统发生各种意外的情况下，都可以保证数据的正确性和完整性，并且在保证数据正确性和完整性的同时，确保海量数据的处理性能。

【附图说明】

图1为本发明的选用硬件平台结构。

图2为本发明的基本处理流程。

【具体实施方式】

为了更好的理解本发明，以下结合附图和具体实施例对发明进行详细的说明。

本发明的一种基于文件海量数据处理方法，通过将数据处理系统接收到的海量数据先进行文件分组，再通过多线程(进程)并发处理。如图1所示，本实施例的数据处理系统包括硬件环境由两台数据处理计算机和一个磁盘柜组成，磁盘提供数据处理计算机共享，两台计算机均可访问磁盘柜；另外，数据处理计算机均与数据库服务器相连接。

如图2所示，本实施的具体处理过程如下：

(1)对多台数据处理服务器间进行互斥控制，具体步骤如下：

多台数据处理服务器不同时对文件进行处理，在同一时间范围内，只有一台数据处理服务器工作，其它数据处理服务器进行工作备份，多台数据处理服务器采用数据库操作进行互斥，避免同时对文件进行操作。

多台数据处理服务器协同工作，始终只有一台计算机在处理文件，其他计算机作为备份，当处理的数据处理服务器发生故障时，在下一个文件处理周期到来时，备份计算机可以继续处理文件。

(2)对海量数据的文件分组

通过逻辑处理模块完成数据的校验、逻辑运算处理等后的数据文件，两台数据处理计算机上部署数据入库处理程序，并将两台计算机的数据处理程序启动，启动后的数据处理程序，处于等待状态，只有当到达数据处理周期时，数据处理程序才会进行数据处理，并且先检测到处理周期的程序，才会进入数据处理。数据处理时，主要由基于文件的海量数据处理模调用逻辑处理模块进行处理，由模型只负任资源分配、线程(进程)调度、事务控制等。

在任何一台数据入库处理计算机发生故障时，数据处理过程会自动由另一台计算机接管，不需要任何的人工干预。但系统维护人员应立即对出现故障的计算机进行修复。

Claims

1.一种基于文件的海量数据的处理方法，用于数据处理系统中，其中，所述数据处理系统包括多台数据处理服务器和一个共享磁盘柜，所述共享磁盘柜用于存放待处理的数据文件，并提供给所述多台数据处理服务器共享，所述方法包括：

（1）对多台数据处理服务器间进行互斥控制

由数据处理服务器的主控进程查询并锁定数据库中的时间控制表，当到达文件处理时间时，主控进程启动处理线程进行文件处理，同时根据处理周期更新下一次的处理时间；同时，主控进程根据文件处理的进度，在达到下一个处理时间之前，如果文件没有处理完成，主控进程根据运算量的需要，将下一个处理时间往后延长一定的时间；保持所述数据处理系统只有一台数据处理服务器在处理数据，其他数据处理服务器作为备份；

（2）对共享磁盘柜存放的数据文件进行分组

将文件进行有序的排列并从1开始顺序编号，再将各文件编号对并发线程的总数量取模，取模后的余数与线程的编号进行对比，如果余数等于其中线程的编号，则将对应的文件交由该线程处理，由多个线程同时处理分组后的各文件，且各线程处理的文件各不相同，将处理后的数据存入数据库。

2.根据权利要求1所述的一种基于文件的海量数据的处理方法，其特征在于，所述的多台数据处理服务器均与数据库服务器相连接，用于将处理后的数据存入数据库。