CN112463737A

CN112463737A - 针对多格式数据智能匹配模板快速采集数据的系统及方法

Info

Publication number: CN112463737A
Application number: CN202011287345.1A
Authority: CN
Inventors: 邓昌智; 魏友平; 张少辉
Original assignee: Zhongke Jinsheng Beijing Technology Co ltd
Current assignee: Zhongke Jinsheng Beijing Technology Co ltd
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2021-03-09

Abstract

本发明具体涉及针对多格式数据智能匹配模板快速采集数据的系统及方法，通过平台采集，将数据进行加工和清洗，再经过数据补全和去重，最终数据入库，这一系列的数据清洗流程，是保障数据健康的必经操作，为后期的数据挖掘及数据分析研判提供数据保障；本发明的系统应用构架，面向服务思想构建的可拓展、可扩充的应急业务支撑技术平台，充分考虑系统功能的主次定位和依赖关系，具有高度灵活的定制性和配置性，能够应对多变的需求、繁多的数据类型、多样的服务方式。

Description

针对多格式数据智能匹配模板快速采集数据的系统及方法

技术领域

本发明涉及数据处理技术领域，具体是针对多格式数据智能匹配模板快速采集数据的系统及方法。

背景技术

目前计算机软件产业的不断发展，越来越多的行业单位都实现了信息化，但由于一些行业单位业务烦琐，又没有一个软件提供商能为其提供所有的技术支持，许多行业单位存在好几套软件同时应用的现象，比如证券公司在经营过程重同时应用0A系统、薪酬系统、清算系统、财务管理系统等等，而这些系统间还存在着某些关联，比如A系统可能会需要B系统的数据，但又不能让用户在AB系统都分别录一遍数据，如果那样不仅为用户带了巨大的工作量，而且重复录入还可能存在录入错误，给数据核对造成一定的困难。于是各应用软件就常常会涉及到数据采集、数据汇总、财务核算等工作，数据采集的重要性十分显著。这种从其他数据库或外部文件而来的数据称为接口数据，然而各种接口系统所产生的数据格式均有所不同，所以必须在开发的过程中，经过采集、整理，才能将异构数据形式转换为应用系统所需要的格式。

中国专利“CN101320394A一种支持多种文件类型的数据采集方法”所述的技术方案提到数据采集的方法，在实现的过程中，并没有涉及到数据采集之后的整理，采集之后的数据质量如何，是否存在大量重复数据，以及是否能够对缺失数据进行补全，并没有提及，如果只是采集数据而不做数据质量的整理，这可能在数据后期应用过程中造成数据不准确的情况出现。

发明内容

有鉴于此，本发明的目的是提供针对多格式数据智能匹配模板快速采集数据的系统及方法，包括对多种数据类型的识别、数据采集校对、数据质量评估、数据补全和数据去重。

本发明的针对多格式数据智能匹配模板快速采集数据的方法，包括步骤：

S101，数据采集，通过数据接口对账户交易时产生的数据文件进行采集，采集时，先将数据文件上传，同时对文件进行文件类型识别、数据类型识别以及超大文件拆分，并生成模板将数据文件内的数据进行结构化处理；

S102，对采集的数据进行数据校对，系统根据上传的数据自动判断格式，并进行数据格式的自动匹配，在匹配过程中，若存在上传的数据与系统中匹配的数据不一致的情况，系统采用自动推荐+人工参与的方式进行修改。

S103对采集入库的数据按照系统内置的采集规则进行校验和清洗，对与非数值型、非日期型、字符长度异常、收付标志判断有误、关键字段为空以及存在特殊字符的数据，系统根据校验规则，包括非数值型校验、非日期型校验、字符长度异常校验、收付标志判断有误校验、关键字段为空校验以及特殊字符校验，校验出异常数据，并对异常数据进行修改和替换操作，对数据进行清洗，修改和去除无效数据。

S104，对采集入库的数据，系统根据判断规则，若存在缺失数据和重复数据，系统可根据当前的数据类型格式，在数据库后台的历史数据库中对其补全，并进行去除重复数据；

S105，数据入库记录，根据入库的数据文件生成用于查看和回溯数据文件的日志文件；

S106，根据多次的步骤S101-S104的处理后，生成数据库。

进一步，所述步骤S101中，对数据采集的规则为，对交易明细中的交易双方的交易账号提取到交易账号表中，并与已导入的交易账号数据进行对比和合并；对比时，对已经被记录在交易账号表中的交易账号则不需要再次提取其账号信息，只提取其对应的交易数据。

进一步，所述步骤S103中对采集入库的数据补全其完整的具体步骤包括：

S10301，获取开户信息表；

S10302，从开户信息表中获取账号的开户信息和交易对方的账号的开户信息，从中提取出交易双方的人员信息；

S10303，根据开户信息表中提取出的人员信息检测出一证多人、一卡多人和一卡多行的情况，并对其进行指定唯一，并对开户信息表中处理之后的数据补全至用于记录交易信息的交易信息表中，并更新至数据库中。

进一步，所述步骤S103中对采集入库的数据进行去重的具体步骤包括：

S10304，根据资金交易明细、开户信息和用户信息识别出数据文件内的数据类型，根据数据类型对数据文件进行筛选，并检测出重复数据；

S10305，直接去除重复数据或者根据自定义规则去除重复数据。

本发明还提供用于进行上述步骤的多格式数据智能匹配模板快速采集数据的系统，包括顺序连接的数据采集接口、数据识别单元、数据结构化单元、数据清洗单元、数据校对单元和数据库；

采集接口用于与外部系统对接，并下载对应的数据文件；

数据识别单元用于识别数据文件的文件类型、数据类型和数据文件的大小，数据文件过大时，数据识别单元对其进行拆分；

数据结构化单元用于生成模板，并将数据文件中的数据转移至模板中，生成结构化的数据文件；

数据清洗单元用于设置清洗条件，对结构化的数据文件进行清洗；

数据校对单元用于对清洗后的数据文件进行补全和去重；

数据库用于存储结构化的数据文件。

本发明的有益效果是：本发明的针对多格式数据智能匹配模板快速采集数据的系统及方法，通过平台采集，将数据进行加工和清洗，再经过数据补全和去重，最终数据入库，这一系列的数据清洗流程，是保障数据健康的必经操作，为后期的数据挖掘及数据分析研判提供数据保障；本发明的系统应用构架，面向服务思想构建的可拓展、可扩充的应急业务支撑技术平台，充分考虑系统功能的主次定位和依赖关系，具有高度灵活的定制性和配置性，能够应对多变的需求、繁多的数据类型、多样的服务方式。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它相关的附图。

图1为本发明的方法流程图；

图2为本发明的补全和去重的结方法流程图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明主要用于对原始数据的采集，主要包括资金交易数据、账户交易数据、JASS数据、物流数据、海关数据、电商数据、反洗钱数据、税务数据、公司企业数据、通讯数据、标书数据、涉众数据、证券交易数据、云搜数据等数据类型，采集的数据来源渠道主要分为离线采集渠道、查控渠道、科信渠道、工商渠道、银行渠道5个主要数据渠道，采集的数据格式有结构化、半结构化、非结构三种数据格式，通过平台采集，将数据进行加工和清洗，再经过数据补全和去重，最终数据入库，这一系列的数据清洗流程，是保障数据健康的必经操作，为后期的数据挖掘及数据分析研判提供数据保障。

本发明的系统应用构架，是按照面向服务思想构建的可拓展、可扩充的应急业务支撑技术平台，充分考虑系统功能的主次定位和依赖关系，具有高度灵活的定制性和配置性，能够应对多变的需求、繁多的数据类型、多样的服务方式。

如图1所示：本实施例的针对多格式数据智能匹配模板快速采集数据的方法，包括步骤：

S101，数据采集，使用数据库服务器接入至需要采集数据的系统，数据库服务器通过数据接口对账户交易时产生的数据文件进行采集，采集之前时，数据库服务器需要对可能会遇到的数据进行预先定义，从而对数据文件的类型、数据类型进行识别；完成定义后，将数据文件上传至数据服务器中，数据服务器对文件进行文件类型识别、数据类型识别以及超大文件拆分，并生成模板将数据文件内的数据进行结构化处理，采集的数据为结构化、半结构化、非结构三种数据格式，数据服务器需要对其中的字符、标识等信息进行提取并根据预先的定义进行识别，将识别出的字符、标识等信息自动填写至空白的模板中，生成格式统一的结构化数据文件；

S102，数据服务器对采集入库的数据进行清洗，包括非数值判断、非日期格式判断、字符长度异常判断、收付标志判断、关键字段判断和特殊字符判断，并根据非数值判断、非日期格式判断、字符长度异常判断、收付标志判断、关键字段判断和特殊字符判断的判断结果和设定规则对数据进行清洗，去除无效字符和标志，上述对非数字字符、非日期字符、异常字符长度、是否属于收付标志和是否属于特殊字符的判断都需要基于步骤S101中，在数据服务器内进行的预定义，数据服务器根据预定义对数据文件中的字符进行对比判断，如果不符合预定义的直接进行删除清洗，或者根据定义有目的地删除其中的一些不符合预定义的字符或者标识，使得剩余的字符均为符合数据服务器的预定义，进而使得模板上的数据均为数据服务器可识别的；

如图2所示，S103，对采集的数据进行数据校对，对采集入库的数据补全其完整性，并去除重复数据；

具体过程为：

S10301，从外部的系统中获取开户信息表，开户信息表中含有所有的账号的开户信息，一般来说，设计上资金交易的账户需要填写姓名、性别和身份证号码信息，以及其他的非必要的信息；

S10302，从开户信息表中获取账号的开户信息和交易对方的账号的开户信息，获取方法为对比查找，将交易信息中的零碎信息带入至开户信息表，并从中提取出交易双方的人员信息，必要的信息为人员姓名和身份证号码；

S10303，根据开户信息表中提取出的人员信息检测出一证多人、一卡多人和一卡多行的情况，并对其进行指定唯一，从而对开户信息表的数据进行核实，并对开户信息表中处理之后的数据补全至用于记录交易信息的交易信息表中，并更新至数据库的相应的数据文件中。

S10304，根据资金交易明细、开户信息和用户信息识别出数据文件内的数据类型，并根据资金交易明细、开户信息和用户信息作为选线对数据进行筛选，根据数据类型对数据文件进行筛选，并检测出重复数据；

S104，数据入库记录，根据入库的数据文件生成用于查看和回溯数据文件的日志文件，查询时根据日志文件对数据库中的数据文件进行回溯；

S105，根据多次的步骤S101-S104的处理后，生成数据库。

本实施例中，所述步骤S101中，对数据采集的规则为，对交易明细中的交易双方的交易账号提取到交易账号表中，并与已导入的交易账号数据进行对比和合并；对比时，对已经被记录在交易账号表中的交易账号则不需要再次提取其账号信息，只提取其对应的交易数据。

采集接口用于与外部系统对接，并下载对应的数据文件；

数据校对单元用于对清洗后的数据文件进行补全和去重；

数据库用于存储结构化的数据文件。

本发明中的多格式数据智能匹配模板快速采集数据的系统为基于多格式数据智能匹配模板快速采集数据的方法生成的功能系统，具体由一台或者多台计算机或者服务器实现其功能。

本发明的针对多格式数据智能匹配模板快速采集数据的系统及方法，通过平台采集，将数据进行加工和清洗，再经过数据补全和去重，最终数据入库，这一系列的数据清洗流程，是保障数据健康的必经操作，为后期的数据挖掘及数据分析研判提供数据保障；本发明的系统应用构架，面向服务思想构建的可拓展、可扩充的应急业务支撑技术平台，充分考虑系统功能的主次定位和依赖关系，具有高度灵活的定制性和配置性，能够应对多变的需求、繁多的数据类型、多样的服务方式。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.针对多格式数据智能匹配模板快速采集数据的方法，其特征在于：包括步骤：

S106，根据多次的步骤S101-S104的处理后，生成数据库。

2.根据权利要求1所述的针对多格式数据智能匹配模板快速采集数据的方法，其特征在于：所述步骤S101中，对数据采集的规则为，对交易明细中的交易双方的交易账号提取到交易账号表中，并与已导入的交易账号数据进行对比和合并；对比时，对已经被记录在交易账号表中的交易账号则不需要再次提取其账号信息，只提取其对应的交易数据。

3.根据权利要求1所述的针对多格式数据智能匹配模板快速采集数据的系统及方法，其特征在于：所述步骤S103中对采集入库的数据补全其完整的具体步骤包括：

S10301，获取开户信息表；

4.根据权利要求1所述的针对多格式数据智能匹配模板快速采集数据的系统及方法，其特征在于：所述步骤S103中对采集入库的数据进行去重的具体步骤包括：

5.多格式数据智能匹配模板快速采集数据的系统，其特征在于：包括顺序连接的数据采集接口、数据识别单元、数据结构化单元、数据清洗单元、数据校对单元和数据库；

采集接口用于与外部系统对接，并下载对应的数据文件；

数据校对单元用于对清洗后的数据文件进行补全和去重；

数据库用于存储结构化的数据文件。