CN112559823B

CN112559823B - 一种数据标准化的数据采集方法

Info

Publication number: CN112559823B
Application number: CN202011540093.9A
Authority: CN
Inventors: 王玉晓; 邓飞; 苏志斌; 刘继勇; 田江; 王鹏; 朱海刚; 刘存玉
Original assignee: Everbright Technology Co ltd; Everbright Xinglong Trust Co ltd
Current assignee: Everbright Technology Co ltd; Everbright Xinglong Trust Co ltd
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2022-06-10
Anticipated expiration: 2040-12-23
Also published as: CN112559823A

Abstract

本发明提供了一种数据标准化的数据采集方法，包括，获取不同部门的业务数据以及对应的业务数据的数据采集口，建立业务数据与对应数据采集口的对应关系并调取数据采集业务，根据数据采集业务校验不同部门的业务数据的数据标准化，当所述数据标准化符合预设采集标准时，采集并存储所述业务数据，否则，根据校验结果，对业务数据或数据采集口进行预调整，来实现对所述业务数据的采集及存储，提高对业务数据的采集效率，且使得到的业务数据具有有效的数据价值。

Description

一种数据标准化的数据采集方法

技术领域

本发明涉及数据采集技术领域，特别涉及一种数据标准化的数据采集方法。

背景技术

大数据及人工智能时代，外部数据在服务信托金融业务数字化转型中的重要性愈加凸显，然而，在外部数据实际落地运用时会遇到各种各样的问题。比如，多部门各自引入，管理标准的不统一带来了数据安全得不到保障、使用成本高、数据难于整合共享等问题。

随着外部数据的增多和变化，对金融统计工作效率、统计数据的准确性、时效性要求更高，统计数据的运用范围也更广，使对外统计数据的采集在实际操作中面临着更大的困难。

目前对外采集统计数据困难，数据质量不高，数据的真实性和完整性难以保障，采集统计样本数量较少,代表性不强,增扩或调整调查样本困难，且在采集过程中，一般也是分批采集外部数据，各类数据存在重复采购现象，导致成本较高，同时，各个部门的业务口径又不相同，分析统计粒度也不一致，从而导致采集效率大打折扣，使得无法实现有效的数据价值，因此，本发明提出一种数据标准化的数据采集方法。

发明内容

本发明提供一种数据标准化的数据采集方法，用以通过获取不同部门的业务数据，并校验不同部门的业务数据的数据标准化，并通过校验结果对业务数据或数据采集口进行预调整，实现对业务数据的采集和存储，提高对业务数据的采集效率，且使得到的业务数据具有有效的数据价值。

本发明提供一种数据标准化的数据采集方法，包括：

获取不同部门的业务数据以及对应的业务数据的数据采集口；

建立所述业务数据与对应数据采集口的对应关系，并从关系数据库中，调取与所述对应关系相关的数据采集业务；

根据所述数据采集业务，校验不同部门的业务数据的数据标准化，当所述数据标准化符合预设采集标准时，采集并存储所述业务数据，所述数据标准化与数据类型、数据重叠与否有关；

否则，根据校验结果，确定所述数据标准化与预设采集标准的差异信息，并基于所述差异信息，对所述业务数据的传输属性的权重值和数据采集口的采集属性的权重值进行优先级排序；

对优先级排序高的权重值所对应的目标进行预调整，来实现对所述业务数据的采集及存储，所述目标为业务数据或数据采集口。

在一种可能实现的方式中，获取不同部门的业务数据，包括：

接收来自用户终端发送的各部门业务数据查询请求，所述各部门业务数据查询请求包括请求查询的业务数据的部门标识；

根据所述部门标识选择与所述部门标识相匹配的多个所述数据提供平台，选择所述数据提供平台的当前运行状态为可运行状态的多个数据提供平台，并选择所述数据提供平台服务质量高的平台作为目标提供平台；

从所述目标提供平台中获取与所述业务数据查询请求相对应的业务数据；

将业务数据发送至数据处理端，并通过所述数据处理端将处理后的业务数据发送至所述用户终端；

其中，所述数据处理端接收到所述业务数据后，并检测所述业务数据是否为出现异常，若是，标记所述业务数据为异常数据，并对所述异常数据进行剔除；否则，标记所述业务数据为正常数据，并缓存所述业务数据。

在一种可能实现的方式中，所述数据处理端将处理后的业务数据发送至所述用户终端，包括：

所述数据处理端将缓存得到的业务数据进行数据压缩，并对所述压缩的业务数据按照数据处理复杂程度进行等级划分，获得多个优先级不同的业务数据列表，按照优先级顺序依次对所述业务数据传输到所述用户终端；

其中，对所述业务数据进行数据压缩包括：

所述数据处理端接收数据压缩请求后，从数据压缩库中调出多个数据压缩方案，所述数据压缩方案提供不同的压缩配置、压缩模式；

获取所述业务数据的数据格式和预设压缩效果，与所述压缩方案进行匹配，选择匹配度高的数据压缩方案作为目标压缩方案，并按照所述目标压缩方案中的压缩配置、压缩模式对所述业务数据进行数据压缩。

在一种可能实现的方式中，

建立所述业务数据与对应数据采集口的对应关系，并从关系数据库中，调取与所述对应关系相关的数据采集业务，包括：

将所述业务数据输入数据识别模型中，对所述业务数据的业务类型进行识别，其中，所述业务数据的类型包括文本数据和图像数据；

所述数据采集口包含有文本数据采集口和图像数据采集口；

对所述文本数据与所述文本数据采集口建立联系，并基于所述联系获得第一对应关系；对所述图像数据与所述图像数据采集口建立联系，并基于所述联系获得第二对应关系；

分别调取与所述第一对应关系和第二对应关系相关的数据采集业务，并按照所述相关的数据采集业务对所述业务数据进行采集。

在一种可能实现的方式中，

根据所述数据采集业务，校验不同部门的业务数据的数据标准化之前，还包括：

检测所述不同部门业务数据的数据类型，过程如下：

从所述不同部门业务数据的读取所有可能显示字符的字符串，将所述字符串拆分为可显示字符组合，并计算所述可显示字符组合的概率差异表，基于所述概率差异表，利用差异进化算法将所述可显示字符组合划分为待提取字符串和非待提取字符串，且通过熵值法剔除所述待提取字符串中不准确的字符串，获得目标字符串；

对所述非待提取字符串，利用通配符进行过滤，得到所述非待提取字符串的第一正则表达式，对所述目标字符串进行遍历，将所述目标字符串的字符与表达式进行一一对应，并将所述目标字符串中每个字符对应的表达式进行整合，得到所述目标字符串的第二正则表达式；

将所述第一正则表达式和第二正则表达式按照所述非待提取字符串和目标字符串在所述业务数据中的排列顺序进行合并，得到所述业务数据的正则表达式，并获取与所述正则表达式相关联的所述业务数据的特征值；

将所述业务数据的正则表达式与特征值与数据类型库中不同的正则表达式和特征值进行匹配，并获得匹配结果，基于所述匹配结果获得所述业务数据的数据类型；

其中，所述数据类型库中不同的数据类型对应不同的正则表达式及特征值；

统计所述业务数据的数据类型的种类及数量并记录。

在一种可能实现的方式中，根据所述数据采集业务，校验不同部门的业务数据的数据标准化之前，还包括：

检测所述不同部门业务数据中的重复数据及重复率，过程如下：

获取所述不同部门的业务数据的特征序列，并对所述特征序列进行检测获得特征向量信息，基于所述特征向量信息进行训练，获得序列切分模型，基于所述序列切分模型对所述特征序列进行切分，获得第一序列和第二序列；

将所述第一序列和第二序列进行差分处理并获得差分结果，根据所述差分结果获得所述业务数据的业务特征，由所述业务特征分别组合成与所述业务数据对应的组合；

运用散列函数提取所述组合中业务特征中的多个指纹，并获取所述多个指纹的指纹值，选取指纹值最小的指纹作为检测指纹，重复进行多次提取后获得由多个所述检测指纹组成的数列；

基于所述检测指纹的格式获取第一映射关系，基于所述检测指纹的长度获取第二映射关系，基于所述检测指纹的内容获取第三映射关系，并基于所述第一映射关系、第二映射关系、第三映射关系进行融合处理，得到目标映射关系；

将所述数列中的每一个检测指纹按照所述目标映射关系映射至不同的检测集合中，基于hash算法计算同一个检测集合中任意两个检测指纹所对应的业务特征的相似度；

所述两个业务特征的相似度大于预设阈值时，判定所述两个业务特征相对应的业务数据为重复数据，并对所述重复数据的数量进行统计并记录；

基于所述重复数据的数量在所述不同部门的业务数据的数量占比，获得所述业务数据的数据重复率。

在一种可能实现的方式中，

根据所述数据采集业务，校验不同部门的业务数据的数据标准化，当所述数据标准化符合预设采集标准时，采集并存储所述业务数据，包括：

设置所述预设采集标准如下：设置所述不同部门的业务数据的数据重复率小于预设重复率，并设置所述不同部门的业务数据的数据类型种类大于预设数目、所述每个数据类型的数量大于预设数量；

基于获取的所述不同部门的业务数据的数据重复率、数据类型及各数据类型的数量与所述预设采集标准进行比较，当全部满足所述预设采集标准的要求时，采集并存储所述业务数据。

在一种可能实现的方式中，还包括：当所述不同部门的业务数据不满足所述预设采集标准的要求时，重新计算所述业务数据的传输属性的权重值和数据采集口的采集属性的权重值，过程如下：

根据如下公式计算所述业务数据的传输属性的权重值：

其中，

表示所述业务数据的传输属性的权重值，

表示所述业务数据的传输属性的初始权重值，m表示所述业务数据的总数量，a_i表示第i个业务数据对应的特征值，且i＝1，2，,...,m，α表示所述业务数据的重复率；

根据如下公式计算所述数据采集口的采集属性的权重值：

其中，η₁表示所述数据采集口的采集属性的权重值，η_c表示所述文本数据采集口的初始权重值，η_d表示所述图像数据采集口的初始权重值，s表示所述业务数据的数据类型种类数，h_j表示第j种数据类型包含的业务数据的数量，且j＝1,2,...,s；

基于计算获得的所述业务数据的传输属性的权重值和数据采集口的采集属性的权重值，按照所述权重值从大到小进行优先级排序；

对优先级排序高的权重值所对应的目标进行预调整后，使得所述业务数据满足所述预设采集标准，实现对所述业务数据进行采集及存储。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种数据标准化的数据采集方法的流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供一种数据标准化的数据采集方法，如图1所示，包括：

上述设计方案的有益效果是：通过获取不同部门的业务数据，并校验不同部门的业务数据的数据标准化，并通过校验结果对业务数据或数据采集口进行预调整，实现对业务数据的采集和存储，提高对业务数据的采集效率，且使得到的业务数据具有有效的数据价值。

本发明实施例提供一种数据标准化的数据采集方法，获取不同部门的业务数据，包括：

上述设计方案的有益效果是：基于业务数据的部门标识匹配数据提供平台，并选择服务质量高十五平台来获取业务数据，并对数据进行检测，提高了获取业务数据的效率，及业务数据的质量。

本发明实施例提供一种数据标准化的数据采集方法，所述数据处理端将处理后的业务数据发送至所述用户终端，包括：

其中，对所述业务数据进行数据压缩包括：

上述设计方案的有益效果是：通过对数据进行压缩和处理复杂程度进行划分，使数据按照优先级顺序依次发送，提高数据传输的效率。

本发明实施例提供一种数据标准化的数据采集方法，建立所述业务数据与对应数据采集口的对应关系，并从关系数据库中，调取与所述对应关系相关的数据采集业务，包括：

所述数据采集口包含有文本数据采集口和图像数据采集口；

在该实施例中，所述第一对应关系是用来调取与文本数据相关的数据采集业务。

在该实施例中，所述第二对应关系是用来调取与图像数据相关的数据采集业务。

上述设计方案的有益效果是：通过对业务数据的业务类型进行识别，并通过对应关系调取对应的数据采集业务，针对不同的数据类型采用不同的数据采集业务，便于为数据标准化的校验，从而提高数据采集效率。

本发明实施例提供一种数据标准化的数据采集方法，根据所述数据采集业务，校验不同部门的业务数据的数据标准化之前，还包括：

检测所述不同部门业务数据的数据类型，过程如下：

统计所述业务数据的数据类型的种类及数量并记录。

在该实施例中，所述差异进化算法是一种基于实数编码的具有保优思想的贪婪遗传算法差异进化算法，在一定程度上反应了字符串间的相关性。

在该实施例中，所述通配符是指用来匹配值的一部分的特殊字符，利用通配符，可以创建比较特定目标的搜索模式，搜索与所述第一正则表达式相关的参数。

上述设计方案的有益效果是：通过获取所述业务数据的正则表达式和特征值，并基于数据类型库进行匹配，得到所述业务数据的数据类型，实现了对所述业务数据的数据类型的获取，为校验数据标准化提供数据支持，便于得到有效的数据价值。

在该实施例中，所述指纹是指依据所述业务数据的业务特征创建的最小的数字，也叫做摘要，比如，输入任何长度、任何内容的数据，散列函数输出固定长度、固定格式的结果，这个结果类似于你输入数据的指纹。

在该实施例中，所述散列函数，又叫哈希函数，用来提取各业务特征中的指纹，且所述指纹的长度相同。

在该实施例中，所述hsah算法经常应用于海量数据的情况下，在海量数据重复性判断方面具有很高的准确度。

在该实施例中，所述第一序列为包含有所述业务特征有关时间的序列。

在该实施例中，所述第二序列是指包含有所述业务特征平稳性的序列。

在该实施例中，所述指纹的格式可以是数字、字母或数字和字母的组合。

在该实施例中，所述指纹的长度是指数字、字母或数字和字母的组合的个数。

上述设计方案的有益效果是：通过提取所述业务数据中的指纹，并检测指纹对应的业务特征的相似度，来判断业务数据是否重复，且计算所述业务数据的重复率，为校验数据标准化提供数据支持，便于得到有效的数据价值。

本发明实施例提供一种数据标准化的数据采集方法，根据所述数据采集业务，校验不同部门的业务数据的数据标准化，当所述数据标准化符合预设采集标准时，采集并存储所述业务数据，包括：

上述设计方案的有益效果是：通过设置预设采集标准，实现对不同部门的业务数据的数据标准化的校验，实现对业务数据的采集及储存，提高对业务数据的采集效率。

本发明实施例提供一种数据标准化的数据采集方法，还包括：当所述不同部门的业务数据不满足所述预设采集标准的要求时，重新计算所述业务数据的传输属性的权重值和数据采集口的采集属性的权重值，过程如下：

根据如下公式计算所述业务数据的传输属性的权重值：

其中，

表示所述业务数据的传输属性的权重值，

根据如下公式计算所述数据采集口的采集属性的权重值：

上述设计方案的有益效果是：基于对所述业务数据的数据重复率、数据类型种类及每种类型的数据数量，重新设置所述业务数据的传输属性的权重值和数据采集口的采集属性的权重值，对业务数据或数据采集口进行预调整，实现对所述业务数据进行采集及存储，得到的业务数据具有有效的数据价值。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种数据标准化的数据采集方法，其特征在于，包括：

对优先级排序高的权重值所对应的目标进行预调整，来实现对所述业务数据的采集及存储，所述目标为业务数据或数据采集口；

其中，根据所述数据采集业务，校验不同部门的业务数据的数据标准化之前，还包括：

检测所述不同部门业务数据的数据类型，过程如下：

统计所述业务数据的数据类型的种类及数量并记录;

基于所述重复数据的数量在所述不同部门的业务数据的数量占比，获得所述业务数据的数据重复率；

其中，根据所述数据采集业务，校验不同部门的业务数据的数据标准化，当所述数据标准化符合预设采集标准时，采集并存储所述业务数据，包括：

设置所述预设采集标准如下：设置所述不同部门的业务数据的数据重复率小于预设重复率，并设置所述不同部门的业务数据的数据类型种类大于预设数目、每个数据类型的数量大于预设数量；

基于获取的所述不同部门的业务数据的数据重复率、数据类型及各数据类型的数量与所述预设采集标准进行比较，当全部满足所述预设采集标准的要求时，采集并存储所述业务数据；

其中，还包括：当所述不同部门的业务数据不满足所述预设采集标准的要求时，重新计算所述业务数据的传输属性的权重值和数据采集口的采集属性的权重值，过程如下：

根据如下公式计算所述业务数据的传输属性的权重值：

其中，

表示所述业务数据的传输属性的权重值，

表示所述业务数据的传输属性的初始权重值，m表示所述业务数据的总数量，a_i表示第i个业务数据对应的特征值，且i=1,2,...,m，α表示所述业务数据的重复率；

根据如下公式计算所述数据采集口的采集属性的权重值：

其中，η ₁表示所述数据采集口的采集属性的权重值，η _c表示文本数据采集口的初始权重值，η _d表示图像数据采集口的初始权重值，s表示所述业务数据的数据类型种类数，h_j表示第j种数据类型包含的业务数据的数量，且j=1,2,...,s；

对优先级排序高的权重值所对应的目标进行预调整后，重新对所述业务数据进行采集及存储，完成对所述业务数据的标准化采集。

2.根据权利要求1所述的一种数据标准化的数据采集方法，其特征在于，

获取不同部门的业务数据，包括：

根据所述部门标识选择与所述部门标识相匹配的多个数据提供平台，选择所述数据提供平台的当前运行状态为可运行状态的多个数据提供平台，并选择所述数据提供平台服务质量高的平台作为目标提供平台；

3.根据权利要求2所述的一种数据标准化的数据采集方法，其特征在于，

所述数据处理端将处理后的业务数据发送至所述用户终端，包括：

其中，对所述业务数据进行数据压缩包括：

4.根据权利要求1所述的一种数据标准化的数据采集方法，其特征在于，

所述数据采集口包含有文本数据采集口和图像数据采集口；