CN103020227A

CN103020227A - 计算机设备中的数据处理方法和系统

Info

Publication number: CN103020227A
Application number: CN2012105402134A
Authority: CN
Inventors: 彭丰华; 韩玉忠; 夏理; 刘永钢; 周凌; 卢超; 尹杰; 刘静华; 杨涛; 刘芳; 蔡震; 黄鸿滨
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2012-12-13
Filing date: 2012-12-13
Publication date: 2013-04-03
Anticipated expiration: 2032-12-13
Also published as: CN103020227B

Abstract

本发明提供了一种计算机设备中的数据处理方法和系统，计算机设备中存储了多条数据，该数据包括第一类和第二类数据，第一类数据为待处理的原始采集数据，所述第一类数据包括第一数据项，所述第二类数据为用于对所述第一类数据进行处理的数据，所述第二类数据中包括所述第一数据项，该数据处理方法包括：由第一类数据生成多个原始文件，由第二类数据生成多个中间文件，将中间文件合并到原始文件中，以每个合并后的文件中单条数据为单位，将合并后的文件拆分成多个子文件，以及将子文件整合成结果文件。通过本发明，可以借助于文件操作对具有相同数据项的数据进行关联并且对数据进行分类，解决了数据冗余和数据处理效率低下的问题。

Description

计算机设备中的数据处理方法和系统

技术领域

本发明涉及计算机应用技术，尤其涉及一种计算机设备中的数据处理方法和系统。

背景技术

银行在进行业务处理的过程中，可能产生大量的数据，这些数据一般为存储在计算机设备的数据库中的数据，比如用户信息、账户信息、账户交易信息等等，每条数据均具有多个数据项。例如，账户信息可以包括多条账户数据，每条账户数据均具有：账号、账户所在地、账户类型等数据项。用于处理银行业务的系统对这些数据进行处理，在实际操作中，需要这样的系统能够处理多种业务需求，这些业务需求包括：生成数据的报表、在与外围设备（比如银行工作人员的计算机设备、用户自助服务设备等等）进行数据同步期间进行数据采集和数据加工等等。通常这些数据分成多类，不同类别的数据之间通过一个数据项相关联，即：相关联的两类数据具有某个相同的数据项。术语“数据库”是一种形象化的描述，数据实际上是存储在存储介质中的。

典型地，为了使用于处理银行核心业务的系统能够应对上述业务需求，利用结构化查询语言（SQL,Structured Query Language）对数据库进行查询。然而，这种典型的数据处理方法存在一定的局限性：

首先，多类数据通过数据项相关联，当对某一类数据进行查询时，通常先将与这类数据相关联的所有其他类数据都查找出来，然后，在所有查询出来的各类数据的基础上查找出需要的数据，这样，对于本次业务处理不需要用到的其他类数据也进行了操作，因此，造成了大量的数据冗余；

其次，在实际操作中经常对包含大量（特别是上亿条）数据进行上述关联，因此，造成数据处理效率非常低下，数据处理时间随着数据量的增长呈现出几何级的增长。

在实际的银行业务操作中，为了保证与外围设备的数据同步等目的，必须要解决上述数据冗余和数据处理效率低下的问题。

发明内容

为了解决上述技术问题，本发明提供了一种计算机设备中的数据处理方法和系统。下面将对本发明的技术方案进行详细描述。

本发明提供了一种计算机设备中的数据处理方法，所述计算机设备包括存储介质，在所述存储介质中存储了多条数据，每条数据均由多个数据项组成，其中，所述数据包括第一类和第二类数据，所述第一类数据为待处理的原始采集数据，所述第一类数据包括第一数据项，所述第二类数据为用于对所述第一类数据进行处理的数据，所述第二类数据中包括所述第一数据项，其中，所述数据处理方法包括：

由所述第一类数据生成多个原始文件，所述原始文件中记载有多条所述第一类数据；

由所述第二类数据生成多个中间文件，所述中间文件中记载有多条所述第二类数据；

将各所述中间文件合并到各所述原始文件中，每个合并后的文件中记载有多条数据，每条数据由具有相同的所述第一数据项的所述第一类数据和所述第二类数据组合而成；

以每个合并后的文件中单条数据为单位，将所述合并后的文件中的数据的一个或多个数据项作为拆分项，并且根据所述拆分项将所述合并后的文件拆分成多个子文件，每个子文件中记载至少一条所述单条数据；以及

将具有相同的所述拆分项的所述子文件分别整合成结果文件。

本发明同时提供了一种计算机设备中的数据处理系统，所述计算机设备包括存储介质，在所述存储介质中存储了多条数据，每条数据均由多个数据项组成，其中，所述数据包括第一类和第二类数据，所述第一类数据为待处理的原始采集数据，所述第一类数据包括第一数据项，所述第二类数据为用于对所述第一类数据进行处理的数据，所述第二类数据中包括所述第一数据项，其中，所述数据处理系统包括：卸载模块、预处理模块、拼接模块、拆分模块和整合模块，其中，

所述卸载模块用于：由所述第一类数据生成多个原始文件，所述原始文件中记载有多条所述第一类数据；

所述预处理模块用于：由所述第二类数据生成多个中间文件，所述中间文件中记载有多条所述第二类数据；

所述拼接模块用于：将各所述中间文件合并到各所述原始文件中，每个合并后的文件中记载有多条数据，每条数据由具有相同的所述第一数据项的所述第一类数据和所述第二类数据组合而成；

所述拆分模块用于：以每个合并后的文件中单条数据为单位，将所述合并后的文件中的数据的一个或多个数据项作为拆分项，并且根据所述拆分项将所述合并后的文件拆分成多个子文件，每个子文件中记载至少一条所述单条数据；以及

所述整合模块用于：将具有相同的所述拆分项的所述子文件分别整合成结果文件。

使用本发明的方法和系统，可以借助于文件操作对具有同数据项的数据进行关联并且对数据进行分类。因此，解决了数据冗余和数据处理效率低下的问题。

附图说明

图1是示出了本发明数据处理方法的流程图；

图2是示出了本发明数据处理方法的实施例的示意图；

图3是示出了本发明数据处理方法另一实施例的示意图；以及

图4是示出了本发明数据处理系统的结构的示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细描述，但不作为对本发明的限定。

计算机设备包括数据库，可以将银行业务的操作中用到的数据存储在数据库中，每条数据均由多个数据项组成，其中，所述数据包括第一类和第二类数据，第一类数据为待处理的原始采集数据，第一类数据包括第一数据项，第二类数据为用于对第一类数据进行处理的数据，第二类数据中包括第一数据项。例如，数据库中包括账户数据和客户数据两类数据，账户数据中每条数据均包括账号、账户所在地和账号类型三种数据项，客户数据中每条数据均包括客户姓名、账号、客户类型三种数据项；账户数据和客户数据都具有账号数据项，也就是说这两类数据通过账号数据项相关联。上述对数据分类存放是为了避免将所有数据都存储在一起从而导致处理效率低下。图1是示出了本发明数据处理方法的流程图，如图1所示，所述数据处理方法包括如下步骤：

步骤101，由所述第一类数据生成多个原始文件；

待处理的原始采集数据为第一类数据，第一类数据包括第一数据项，第二类数据为用于对第一类数据进行处理的数据，第二类数据中包括第一数据项。将部分存储介质划分成占用不同物理地址的多个数据区，将第一类数据按照不同的子类别分别存储到各个数据区中，为每个数据区中存储的第一类数据均生成一个原始文件；

以数据的一个或多个数据项或者某些时间点为基准来将数据分成子类。此外，在步骤101之前，可以清除计算机设备中存储的历史信息，例如，删除上次生成的数据区、数据文件或其他相关文件；

可以根据分区参数动态生成转存语句，然后计算机设备调用转存语句以便生成原始文件。特别地，所生成的原始文件的个数可能会达到上百个，这里，原始文件的个数可以由用于将数据分成子类的数据项或时间点来确定；

步骤102，由所述第二类数据生成多个中间文件；

该步骤可通过两种方式来实现。在一种方式中，将部分存储介质划分成占用不同物理地址的多个数据区；将第二类数据按照不同的子类别分别存储到各个数据区中；为每个数据区中存储的第二类数据均生成一个中间文件；

或者，在除了第一类数据和第二类数据以外的数据中还包括第三类数据，第二类数据包括第二数据项，第三类数据为用于对第二类数据进行处理的数据，第三类数据中包括第二数据项，则可采用第二种方式来由第二类数据生成中间文件：

将部分存储介质划分成占用不同物理地址的多个数据区；将第二类数据按照不同的子类别分别存储到各个数据区中；为每个数据区均生成一个第一临时文件；

将部分存储介质划分成占用不同物理地址的多个数据区；将第三类数据按照不同的子类别分别存储到各个数据区中；为每个数据区均生成一个第二临时文件；以及

对于第一临时文件中的每条数据，均从第二临时文件中查找出一条数据，使得这两条数据具有相同的第二数据项，并且将查找出的这条数据中的除了第二数据项以外的全部数据项合并到第一临时文件中对应的那条数据中以得到一个所述中间文件；

步骤103，将各中间文件合并到各原始文件中；

其中，将各中间文件合并到各原始文件中具体包括：对于原始文件中的每条数据，均从中间文件中查找出一条数据，使得这两条数据具有相同的第一数据项，并且将查找出的这条数据中的除了第一数据项以外的全部数据项合并到原始文件中对应的那条数据中以得到一个合并后的文件；

步骤104，以每个合并后的文件中单条数据为单位，将合并后的文件中的数据的一个或多个数据项作为拆分项，并且根据拆分项将合并后的文件拆分成多个子文件，每个子文件中记载至少一条单条数据；

步骤105，将具有相同的拆分项的子文件分别整合成结果文件。

图2是示出了本发明数据处理方法的一个实施例的示意图，如图2所示，该数据处理方法包括如下步骤：

步骤201，划分数据区并且将待处理的原始采集数据转存在通过划分得到的数据区中；

其中，待处理的原始采集数据是从银行网络中计算机节点处获得的业务数据（比如储蓄数据、转账数据、借记数据等等），银行网络中用于处理账户交易的计算机设备按照业务数据的业务类型（比如储蓄、转账、借记等等）将业务数据分成N（N为自然数）类，同时将部分存储介质划分成N个数据区，即：数据区1、数据区2、……数据区N，然后，将每类业务数据转存在一个相应的数据区中；

步骤202，为每个数据区均生成一个原始文件，这些原始文件为：原始文件1、原始文件2、……原始文件N，可以利用计算机设备的数据流功能实现本步骤的操作；

步骤203，由账户数据生成中间文件；

其中，账户数据包括账号、账户所属省份和账户类型三个数据项，此处限定账户类型有三种，例如，账户类型包括个人账户、企业单位账户、金融单位账户，按照步骤102中描述的方法由账户数据生成账户数据文件1、账户数据文件2和账户数据文件3，在这些账户数据文件中保存了数据的账号、账户所属省份和账户类型，这三个账户数据文件为中间文件；

步骤204，将各中间文件合并到各原始文件中；

其中，业务数据和账户数据均具有账号数据项，首先，从原始文件1中取出一条数据；然后，从上述三个账户数据文件中依次进行查找，查找出账号数据项与从原始文件1中取出的那条数据的账号数据项相同的一条数据，这里，在划分业务数据和账户数据时进行了限定，使得在账户数据中只能查找出一条这样的数据；最后，将查找出的数据的账户所属省份和账户类型数据项合并到从原始文件1中取出的那条数据中作为其数据项，从而得到一条新的数据，以此类推；通过这种方式，生成N个新的数据文件，即：合并文件1、合并文件2、……合并文件N；

这样，通过文件实现了业务数据和账户数据的关联；

步骤205，以每个合并后的文件中单条数据为单位，将合并后的文件中的数据的一个或多个数据项作为拆分项，并且根据拆分项将合并后的文件拆分成多个子文件，每个子文件中记载至少一条单条数据；

其中，根据合并文件中的账户所属省份数据项，以单条数据为单位将这些合并文件拆分成多个子文件，这里，账户所属省份包括：省份1和省份2，这样，将每个合并文件均拆分成两个子文件，从而得到子文件11、子文件12、子文件21、子文件22、……子文件N1、子文件N2，总计2N个子文件；

步骤206、将具有相同的拆分项的子文件分别整合成结果文件；

其中，子文件包含的数据中具有省份数据项，将省份数据项相同的数据整合到一个结果文件中，即：子文件11、……子文件N1整合成结果文件1，子文件12、……子文件N2整合成结果文件2；这里，每个结果文件均包含了整合前子文件中的各条数据；通过这种方式，将最终生成2个结果文件；

这样，以文件的方式实现了数据的分类。

图3是示出了本发明数据处理方法另一实施例的示意图，如图3所示，该数据处理方法包括如下步骤：

步骤301，划分数据区并且将待处理的原始采集数据转存在通过划分得到的数据区中；

其中，业务数据为待处理的原始采集数据，业务数据包括业务发起地数据项，按照业务发起地对业务数据进行划分，例如，按照境内交易和境外交易两种类型进行划分，将业务数据分成两类，同时将部分存储介质分成数据区1和数据区2，然后，将业务数据按照不同的类别通过计算机设备的输出流分别存储到各个数据区中；

步骤302，为每个数据区均生成一个原始文件；

其中，可以以某一时间点（例如，2012年11月1日0点整）为基准，在各个数据区中,均将该时间点之前的业务数据转存到一个原始文件中，在该时间点之后的业务数据转存到另一个原始文件中；通过这种方式，总计生成四个原始文件，即：原始文件1、……原始文件4；

步骤303，由账户数据和客户数据分别生成临时文件，其中，由账户数据按照不同的账户类型生成多个账户数据文件，并且由客户数据按照不同的客户类型生成多个客户数据文件；

这里，账户数据和客户数据均具有账号数据项，可以将账户数据分成储蓄卡账户数据和信用卡账户数据，将客户数据分成个人客户数据和企业客户数据，从而按照步骤102中描述的方式生成多个数据文件，则总计生成4个数据文件，即账户数据文件1、账户数据文件2、客户数据文件1、客户数据文件2；

步骤304，将客户数据文件合并到账户数据文件中形成中间文件；

这里，以账户数据文件中一条账户数据为例进行说明，该条账户数据中包括账号数据项，从各个客户数据文件中查找出一条匹配数据，该匹配数据的账号数据项与这条账户数据的账号数据项相同，将匹配数据中除了账号数据项以外的数据项合并到该条账户数据中，账户数据文件中其他数据进行同样处理，这样，修改后的账户数据文件就是中间文件，即：中间文件1和中间文件2；

步骤305，将各中间文件合并到各原始文件中；

这里，以原始文件中一条数据为例进行说明，该条数据包含账号数据项，从中间文件中查找出一条匹配数据，该匹配数据的账号与原始文件中这条数据的账号相同，然后，将匹配数据中除了账号数据项以外的数据项合并到原始文件中这条数据中，通过这种方式修改原始文件，修改后的原始文件就是合并后的文件；

步骤306，以每个合并后的文件中单条数据为单位，将合并后的文件中的数据的一个或多个数据项作为拆分项，并且根据拆分项将合并后的文件拆分成多个子文件，每个子文件中记载至少一条单条数据；

其中，既按照账户类型进行拆分又按照客户类型进行拆分，也就是说，对上述每个合并后的文件中的数据均按照账户类型和客户类型进行分类，每一类数据均转存到一个子文件中，例如，合并后的文件中账户类型为储蓄账户并且客户类型为个人用户的数据归为一类，最终，子文件的个数=合并后的文件的个数×账户类型数×客户类型数；

步骤307，将具有相同的拆分项的子文件分别整合成结果文件；

其中，将上述子文件中账户类型相同的那些条数据整合成一个结果文件；这样，结果文件的个数与账户类型的个数相同。

图4是示出了本发明数据处理系统的结构的示意图，所述计算机设备包括存储介质，在所述存储介质中存储了多条数据，每条数据均由多个数据项组成，其中，所述数据包括第一类和第二类数据，所述第一类数据为待处理的原始采集数据，所述第一类数据包括第一数据项，所述第二类数据为用于对所述第一类数据进行处理的数据，所述第二类数据中包括所述第一数据项，如图4所示，该数据处理系统包括：卸载模块401、预处理模块402、拼接模块403、拆分模块404和整合模块405。

所述卸载模块401用于：由所述第一类数据生成多个原始文件，所述原始文件中记载有多条所述第一类数据；

所述预处理模块402用于：由所述第二类数据生成多个中间文件，所述中间文件中记载有多条所述第二类数据；

所述拼接模块403用于：将各所述中间文件合并到各所述原始文件中，每个合并后的文件中记载有多条数据，每条数据由具有相同的所述第一数据项的所述第一类数据和所述第二类数据组合而成；

所述拆分模块404用于：以每个合并后的文件中单条数据为单位，将所述合并后的文件中的数据的一个或多个数据项作为拆分项，并且根据所述拆分项将所述合并后的文件拆分成多个子文件，每个子文件中记载至少一条所述单条数据；以及

所述整合模块405用于：将具有相同的所述拆分项的所述子文件分别整合成结果文件。

其中，所述卸载模块还包括第一文件处理模块，所述第一文件处理模块用于：将部分所述存储介质划分成占用不同物理地址的多个数据区；将所述第一类数据按照不同的子类别分别存储到各个所述数据区中；为每个数据区中存储的所述第一类数据均生成一个原始文件。

其中，所述预处理模块包括第二文件处理模块，所述第二文件处理模块用于：将部分所述存储介质划分成占用不同物理地址的多个数据区；将所述第二类数据按照不同的子类别分别存储到各个所述数据区中；为每个数据区中存储的所述第二类数据均生成一个中间文件。

其中，在除了所述第一类数据和所述第二类数据以外的数据中还包括第三类数据，所述第二类数据包括第二数据项，所述第三类数据为用于对所述第二类数据进行处理的数据，所述第三类数据中包括所述第二数据项，所述第二文件处理模块用于：

将部分所述存储介质划分成占用不同物理地址的多个数据区；将所述第二类数据按照不同的子类别分别存储到各个所述数据区中；为每个数据区均生成一个第一临时文件；

将部分所述存储介质划分成占用不同物理地址的多个数据区；将所述第三类数据按照不同的子类别分别存储到各个所述数据区中；为每个数据区均生成一个第二临时文件；以及

对于所述第一临时文件中的每条数据，均从所述第二临时文件中查找出一条数据，使得这两条数据具有相同的所述第二数据项，并且将查找出的这条数据中的除了所述第二数据项以外的全部数据项合并到所述第一临时文件中对应的那条数据中以得到一个所述中间文件。

其中，所述拼接模块包括第三文件处理模块，所述第三文件处理模块用于：

对所述原始文件进行修改，对于所述原始文件中的每条数据，均从所述中间文件中查找出一条数据，使得这两条数据具有相同的所述第一数据项，并且将查找出的这条数据中的除了所述第一数据项以外的全部数据合并到所述原始文件中对应的那条数据中以得到一个合并后的文件。

在本发明中，可以由第一类数据生成多个原始文件，由第二类数据生成多个中间文件，将各所述中间文件合并到各原始文件中，然后，以每个合并后的文件中单条数据为单位，将合并后的文件中的数据的一个或多个数据项作为拆分项，并且根据拆分项将合并后的文件拆分成多个子文件，以及将具有相同的拆分项的子文件分别整合成结果文件。

通过本发明的数据处理方法和系统，将数据转存到文件中并且将数据的关联和分类操作通过对文件的操作来实现，从而可以解决数据冗余和数据处理效率低下的问题。

以上实施例仅为本发明的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

Claims

1.一种计算机设备中的数据处理方法，所述计算机设备包括存储介质，在所述存储介质中存储了多条数据，每条数据均由多个数据项组成，其中，所述数据包括第一类和第二类数据，所述第一类数据为待处理的原始采集数据，所述第一类数据包括第一数据项，所述第二类数据为用于对所述第一类数据进行处理的数据，所述第二类数据中包括所述第一数据项，其特征在于，所述数据处理方法包括：

2.根据权利要求1所述的计算机设备中的数据处理方法，其特征在于，由所述第一类数据生成多个原始文件具体包括：

将部分所述存储介质划分成占用不同物理地址的多个数据区；将所述第一类数据按照不同的子类别分别存储到各个所述数据区中；为每个数据区中存储的所述第一类数据均生成一个原始文件。

3.根据权利要求1所述的计算机设备中的数据处理方法，其特征在于，由所述第二类数据生成多个中间文件包括：

将部分所述存储介质划分成占用不同物理地址的多个数据区；将所述第二类数据按照不同的子类别分别存储到各个所述数据区中；为每个数据区中存储的所述第二类数据均生成一个中间文件。

4.根据权利要求1所述的计算机设备中的数据处理方法，其特征在于，在除了所述第一类数据和所述第二类数据以外的数据中还包括第三类数据，所述第二类数据包括第二数据项，所述第三类数据为用于对所述第二类数据进行处理的数据，所述第三类数据中包括所述第二数据项，由所述第二类数据生成多个中间文件包括：

5.根据权利要求1所述的数据处理方法，其特征在于，将所述中间文件合并到所述原始文件中包括：对于所述原始文件中的每条数据，均从所述中间文件中查找出一条数据，使得这两条数据具有相同的所述第一数据项，并且将查找出的这条数据中的除了所述第一数据项以外的全部数据项合并到所述原始文件中对应的那条数据中以得到一个合并后的文件。

6.一种计算机设备中的数据处理系统，所述计算机设备包括存储介质，在所述存储介质中存储了多条数据，每条数据均由多个数据项组成，其中，所述数据包括第一类和第二类数据，所述第一类数据为待处理的原始采集数据，所述第一类数据包括第一数据项，所述第二类数据为用于对所述第一类数据进行处理的数据，所述第二类数据中包括所述第一数据项，其特征在于，所述数据处理系统包括：卸载模块、预处理模块、拼接模块、拆分模块和整合模块，其中，

所述卸载模块用于：根据所述第一类数据生成多个原始文件，所述原始文件中记载有多条所述第一类数据；

所述预处理模块用于：根据所述第二类数据生成多个中间文件，所述中间文件中记载有多条所述第二类数据；

7.根据权利要求6所述的计算机设备中的数据处理系统，其特征在于，所述卸载模块还包括第一文件处理模块，

所述第一文件处理模块用于：将部分所述存储介质划分成占用不同物理地址的多个数据区；将所述第一类数据按照不同的子类别分别存储到各个所述数据区中；为每个数据区中存储的所述第一类数据均生成一个原始文件。

8.根据权利要求6所述的计算机设备中的数据处理系统，其特征在于，所述预处理模块包括第二文件处理模块，

所述第二文件处理模块用于：将部分所述存储介质划分成占用不同物理地址的多个数据区；将所述第二类数据按照不同的子类别分别存储到各个所述数据区中；为每个数据区中存储的所述第二类数据均生成一个中间文件。

9.根据权利要求6所述的计算机设备中的数据处理系统，其特征在于，在除了所述第一类数据和所述第二类数据以外的数据中还包括第三类数据，所述第二类数据包括第二数据项，所述第三类数据为用于对所述第二类数据进行处理的数据，所述第三类数据中包括所述第二数据项，所述预处理模块包括第二文件处理模块，所述第二文件处理模块用于：

10.根据权利要求6所述的计算机设备中的数据处理系统，其特征在于，所述拼接模块包括第三文件处理模块，所述第三文件处理模块用于：