CN117114843B

CN117114843B - 一种银行数据质量管控的方法

Info

Publication number: CN117114843B
Application number: CN202311384954.2A
Authority: CN
Inventors: 杨明; 周伟武; 吴剑峰; 傅万金; 饶韵怡
Original assignee: Zhejiang Rural Commercial Union Bank Co ltd; Zhejiang Rural Commercial Digital Technology Co ltd
Current assignee: Zhejiang Rural Commercial Union Bank Co ltd; Zhejiang Rural Commercial Digital Technology Co ltd
Priority date: 2023-10-25
Filing date: 2023-10-25
Publication date: 2024-02-23
Anticipated expiration: 2043-10-25
Also published as: CN117114843A

Abstract

本发明公开了一种银行数据质量管控的方法，属于数据治理系统领域。一种银行数据质量管控的方法，至少包括以下步骤：根据权威属主和业务属主对应关系，分批次梳理形成数据质量监测计划清单；填写对应的SQL取数脚本并确认其是否为码值字段；从各系统中抽样提取数据，以形成抽样池；在准生产环境利用schema映射表将开发部门提供的主数据取数脚本转化为数仓的监测程序；在大数据生产环境按目标客户样本表，对每一条组装程序进行取数；针对普通字段，比对同一客户内码同一信息要素在业务属主与权威属主中的一致性；针对码值字段，比对码值信息的一致性、准确性、完整性、有效性；它可以实现解决银行跨系统同源一致校验的难点问题。

Description

一种银行数据质量管控的方法

技术领域

本发明属于数据治理系统领域，更具体地说，涉及一种银行数据质量管控的方法。

背景技术

银行不同系统均拥有数量庞大的客户数据，这些数据有的是在未对客户信息进行及时纠错的年代遗留下来的存量数据，同时还有增量数据不停地输入。现今一直存在的问题有以下几方面：

（1）唯一性方面：同一个客户有两个或以上客户内码，唯一判定识别存在困难。原因如下：1）历史数据迁移，存在证件号码为空、不详、无、简单数字、或9999...等数据；2）前期客户信息建立时未控制唯一性，造成差错数据；3）系统允许同一客户用不同证件类型、同一证件号码建立不同的客户内码，然后通过客户证件维护交易在不同内码下增加相同的证件信息；4）操作不谨慎或涉嫌故意操作，多重原因造成客户唯一识别方面出现脏数据。

（2）准确性方面：存在客户信息乱码、空值等非标准数据现象。由于历史数据迁移、前期系统未做控制，录入错误等原因，客户名称、证件有效期、证件类型、手机号码等信息有误。信息不准确，除影响以明细数据汇总的指标计算外，或将带来监管处罚。

（3）一致性、黄金版本方面：客户信息多头维护，动态更新不一致。源系统存在数据冲突、数据不全又重复储存的问题，数据仓库贴源层与源系统数据不一致，导致资源浪费且管理低效，后续分析引用存在偏差。

由于以上问题的存在，最终导致全行各系统数据质量参差不齐。

此外，现行不同系统的数据库所使用的SQL取数脚本的逻辑一般是不同的，比如，信贷系统将客户性别分类为“0”和“1”，其中“0”指代女性，“1”指代男性；而理财系统将客户性别分类为“F”和“M”，其中“F”指代女性，“M”指代男性；且同一系统在不同时间段采用的SQL取数脚本的逻辑也有可能是不同的。所以要对不同系统之间的数据直接进行比对，是非常困难的。现行做法下，是将系统与系统之间的整体数据进行比对，判断相比较的系统之间数据是否有出入，以此来判定多个系统之间同一客户下属的数据是否有错误。但是这样的做法结果的准确度不高，比对速度也很慢。

发明内容

本发明要解决的技术问题在于提供一种银行数据质量管控的方法，它以业务需求、业务交易、监管要求为三项数据驱动，以数据标准、数据关联关系、权威属主与业务属主为三项管控纽带，以业务、科技、治理三类部门为责任主体，形成跨部门、跨业务、跨系统的质量管控机制，形成“关联数据分项监测-结果比对-落实责任部门”的监督数据链路，解决银行跨系统同源一致校验的难点问题。

本发明的一种银行数据质量管控的方法，至少包括以下步骤：

根据监测需求确定各系统中各主数据对应的权威属主和业务属主，根据权威属主和业务属主对应关系，分批次梳理形成数据质量监测计划清单并提供给各系统的开发科室；

开发科室根据权威属主和业务属主填写对应的SQL取数脚本并确认其是否为码值字段，以形成监测规则基础；

从各系统中抽样提取数据构成抽样池，并形成分层抽样组合清单；

在准生产环境利用schema映射表将开发部门提供的主数据取数脚本转化为数仓的监测程序；

在大数据生产环境按目标客户样本表，对每一条组装程序进行取数；

针对普通字段，比对同一客户内码同一信息要素在业务属主与权威属主中的一致性；

针对码值字段，比对码值信息的一致性、准确性、完整性、有效性。

作为本发明的进一步改进，在对比字段后，根据对比结果，生成数据质量问题监测单，并将问题监测单发给对应的业务部门；业务部门对问题监测单中记载的问题开展整改活动，排查系统是否存在漏洞。

作为本发明的进一步改进，权威属主是业务系统在实践过程中形成的一个公认的黄金版本主系统，以作为和业务属主的数据进行比对时的验证标准，其他用于对比的系统则为业务属主；权威属主中要对比的要素作为对比标准，与业务属主中的相同要素进行对比。

作为本发明的进一步改进，在数据质量问题监测单中，针对比对结果不一致占比较高或者数量较高的字段，开展重点检查，确认数据问题真实性。

作为本发明的进一步改进，对于字段一致性的监测步骤包括：普通字段比对要素字段的取值状态、取值长度、取值内容；码值字段比对要素字段的取值状态、码值含义。

作为本发明的进一步改进，抽样步骤至少包括：同一组合内对同一客户内码取唯一的流水记录，实际数量未达到抽样要求，按实际记录数取得；前一组合已纳入监测的样本不再纳入其他组合监测样本范围内。

作为本发明的进一步改进，码值字段的完整性监测步骤包括：检查是否存在长期未发生、超出值域的码值，并通过“完整度=发生数据的码值个数/总码值个数”的方式来计算完整度；设定完整度阈值，当结果小于设定阈值或大于100%后，表示存在完整性问题。

作为本发明的进一步改进，码值字段的准确性监测步骤包括：检查是否存在码值为空、特殊字符的异常情况，并通过“准确度=码值信息正常的发生客户数/总参与比对客户数”的方式来计算准确度；设定准确度阈值，当结果小于设定阈值时，表示存在准确性问题。

作为本发明的进一步改进，码值字段的有效性监测步骤包括：统计码值含义分布，空值样本不纳入统计范围，通过码值分布占比前n的比例合计，来计算集中度；设定第一集中度阈值和第二集中度阈值，当结果中前三集中度大于第一集中度阈值，或前一集中度大于第二集中度阈值，表示可能存在有效性问题。

作为本发明的进一步改进，在分层抽样组合清单中，选择一系统，调取源自该系统的数据，计算其日/月/季/年/历年抽样覆盖率、日/月/季/年/历年抽样达标率；若覆盖率偏低，提高期望抽样客户数；若达标率偏低，降低期望抽样客户数。

相比于现有技术，本发明的有益效果在于：

1.以主数据权威属主和业务属主作为校验关系，比对同一要素信息的一致性，实现了跨系统同源一致的管控，解决数据质量中跨系统同源一致校验的难点问题；按客户、信贷等主题逐步扩展建立数据质量监测体系，设计了取数模板并编写取数逻辑规范说明，形成监测规则基础清单，实现了跨系统同源一致的透明，避免输入错误造成的系统漏洞、结果误差。

2.事件驱动监测程序执行，业务理解性高。从业务、行社、日期、客户类型等维度定义抽样事件，在事件范围开展数据质量监测，使得监测到的数据质量问题聚焦到特定类型的交易中，具有较高的业务理解性，也便于科技人员排查问题。

3.有助于数据标准落地执行。针对数据标准落地难的问题，通过监测跨系统一致性来树标准，倒推各业务属主向权威属主看齐，最终实现跨系统数据要素的全局一致性。

4.复杂问题简单化。将复杂的数据质量监测规则线性分解为各个独立的字段单元，实现质量问题检核的流水线作业。

5.低代码方式自动生成大批量监测程序，提高工作效率。只需在取数清单中完成监测条件和主键信息的定义，便可以采用监测引擎的自动组装模块实现大批量监测程序的自动生成，摆脱了以往逐个人工编写监测脚本的束缚，大大提高工作效率。

6.知识显性化，一次配置，高效复用。通过取数模板向各系统的开发人员一次性收集SQL取数逻辑，整理形成数据质量监测规则基础清单，使得员工知识和经验以文档的形式保留下来，实现知识复用。

7.监测规则可配置，一键重新生成监测程序。针对源系统发生迭代升级的情况，只需要重新配置该系统下的取数脚本，便可以实现监测程序批量刷新，减少原系统变更造成的影响。

8.对技术环境依赖性低，具有高适配性。监测引擎本质上是对字段取数脚本的拼接组装，亮点在于逻辑设计上实现了同一数据要素跨系统的输出结构一致，对监测引擎开发语言和开发环境没有太大要求，只需要能够拼接字符串即可实现，也不需要源系统改造适配。

9.模板标准化，具有高扩展性。为了自动组装监测程序，在取数逻辑规范说明中严格规定取数脚本SQL、监测条件等信息的填写要求，使得监测引擎的输入信息标准化。新的监测数据只需要依据取数逻辑规范说明填写相关信息，便可以快速纳入到监测引擎中。

10.本方案通过字段与字段之间进行比对，针对性强、准确度高，尤其是在码值字段的比对中，每个系统的主要素都有其对应的权威属主，即该系统的主要素具有公认的比对标准，并不一定是两个系统之间比对时，以这两个系统的要素为标准，这样一来标准的错误概率低，优化了比对流程，也提高了比对结果的精准度。

11.本方案中在对数据进行抽样、比对等操作时，会对数据本身进行监测，判断用来比对的数据是否合理，优化整体架构，保证比对结果的有效性。

附图说明

图1为本发明的方法流程图。

具体实施方式

具体实施例一：一种银行数据质量管控的方法，至少包括以下步骤：

S1.数据治理部门和业务部门根据监测需求，制订质量监测计划；根据监测需求确定各系统中各主数据对应的权威属主和业务属主，即每个要素对应的权威属主都是不一样的，本方案中通过字段与字段之间来进行比对，结果的精准度、准确度都更高；权威属主是业务系统在实践过程中形成的一个公认的黄金版本主系统，以作为和业务属主的数据进行比对时的验证标准；根据权威属主和业务属主对应关系，分批次梳理形成数据质量监测计划清单并提供给各系统的开发科室。

S2.开发科室根据权威属主和业务属主填写对应的SQL取数脚本并确认其是否为码值字段，以形成监测规则基础；码值与否，是根据监测需求来定的；码值字段包括代码类和标志类；代码是一套预先定义的，用来描述一个有限集合的事物或事物的属性，代码数据能够相对稳定的在一段时期内，比如：国家和地区代码、押品类型代码；标志是指表示“是/否”意义的标志，比如：组合产品标志、雇员标志。其他字段为普通字段；

在SQL的取数脚本上，各个字段的别名具有唯一的取名规则，以便于保证取名的规则化；比如，客户主题的主数据，监测条件为：客户内码，别名统一设置为cust_no；贷款主题的主数据，监测条件为：借据号，别名统一设置为due_bill_no。；存款主题的主数据，监测条件为：核心交易流水号（原交易流水号+子交易流水号），别名统一设置为serialno。取数脚本的内容应当写明schema，并按要求设置好别名；取数脚本应当给出筛选条件，过滤掉无效、重复的信息，确保查询结果准确有效。

取数脚本的输出应当由“取数脚本主键”、“字段英文名称”两个字段构成。脚本输出结果中用于监测核对的字符类型、字符格式应当与权威属主保持一致。

本方案监测分析数仓脚本检核状态、权威属主和业务属主分布。这样的设置可以发现：（1）数仓入仓是否正常；（2）开发部门填报的取数脚本存在错误；（3）哪些系统的信息填报错误较为频繁。

S3.从各系统中抽样提取数据，以形成抽样池。抽样池中的内容是根据存款、贷款、理财等交易流水信息中提取发生动账交易的客户的信息。如贷款类是从不含结息日自动扣息的贷款交易流水中，按担保方式赋值来形成的客户群体。

通过配置业务类型、收付标志、频度、种类、客户类型、分支机构等级、抽样数量等信息，形成分层抽样组合清单。表1为本实施例举例的分层抽样组合清单，按照以下规则来定义清单：

1、业务类型：贷款业务、存款业务、理财业务、基金业务、信用卡业务；

2、收付标志：收（贷款还款）、付（贷款放款）；

3、频度：按日历；

4、种类：信用/抵押/保证；

5、客户类型：对私客户、对公客户；

6、分支机构：全部、一级机构、二级机构、三级机构、四级机构、五级机构；

7、抽样数量：依行社等级设定单个组合下抽取客户内码数量；其中，一级机构，抽样数量为1000，二级机构，抽样数量为800，三级机构，抽样数量为600，四级机构，抽样数量为400，五级机构，抽样数量为300。

表1

抽样流程依照以下规则：同一组合内对同一客户内码取唯一的流水记录，实际数量未达到抽样要求，按实际记录数取得；前一组合已纳入监测的样本不再纳入其他组合监测样本范围内。

抽样结果分别按日、月、季、年、历年统计，计算日/月/季/年/历年实际业务记录数、日/月/季/年/历年实际业务客户数、日/月/季/年/历年抽样客户数、日/月/季/年/历年期望抽样客户数、日/月/季/年/历年抽样覆盖率、日/月/季/年/历年抽样达标率。

另外，在分层抽样组合清单中，选择一系统，调取源自该系统的数据；若抽样覆盖率偏低，提高期望抽样客户数；若抽样达标率偏低，降低期望抽样客户数。同时，还应观察抽样客户数的日月季年数据趋势，判断是否程序是否执行异常，及时调节抽样框架。

本方案监测分析抽样客户数的时间趋势、客户数在不同排列组合的分布情况、抽样客户数与实际客户数和预设抽样数量的比例。这样的设置可以发现：（1）抽样是否真实覆盖全部业务范围；（2）依据原始流水信息和排列组合分布深入分析异常波动原因，判断是否由业务误操作或者系统漏洞导致。

S4.在准生产环境利用schema映射表将开发部门提供的主数据取数脚本转化为数仓的监测程序；各个系统的数据库中相同的要素虽然起的代号不同，但这样设置就均能够根据映射表的记载，在数仓中得到对应的含义。

S5.在大数据生产环境按目标客户样本表，对每一条组装程序进行取数。信息提取后需要对结果进行监测，按日、月、季、年、历年统计每一个规则的信息提取结果，其中抽样客户数为A，未办理业务客户数为B，提取成功且值非空的客户数为C，提取成功且值为空的客户数为D；而A=B+C+D；根据以上数据计算日/月/季/年/历年信息提取成功率，数据治理人员监测“提取成功率”，检查提取是否正常，若不正常则修改提取信息直至成功率符合标准。

本方案监测分析信息提取执行状态、信息提取的取数完成状态。这样的设置可以发现：（1）及时发现信息提取报错信息，快速处理；（2）及时分析取数完成状态异常原因，判断是否由业务误操作或者系统漏洞导致。

S6.针对普通字段，比对同一客户内码在业务属主与权威属主中的一致性。

普通字段比对要素字段的取值状态、取值长度、取值内容。

比如，权威属主可以是零售客户信息系统，业务属主可以是理财系统、信贷系统、信用卡系统、催收系统；要比对的要素是客户名称；提取各个系统中相同客户内码的数据，将客户名称这一要素提取，比对其记载形式是否相同。如：权威属主中记载的是：李*伟，业务属主记载的是林*伟，以权威属主中记载的“李*伟”作为标准，判定记载“林*伟”的业务属主对应的系统要素不一致，即同一客户在不同系统中录入的客户名称数据不一致。

需要说明的是，针对比对结果不一致占比较高或者数量较高的字段，开展重点检查，确认真实性，确保无代码错误的问题。

本方案监测分析普通字段不一致数量及其占总比对客户数比例、各排列组合下的普通字段不一致比例、日月季年历年的总比对数量以及不一致数量、各种比对状态下信息不一致分布、各系统的不一致发生情况。这样的设置可以发现：不一致情况的发生规律，如是否集中于特定场景、是否为近期上线导致、是否为后台修改数据但未同步至权威系统。

S7.针对码值字段，比对码值信息的一致性、准确性、完整性、有效性。

码值字段比对要素字段的取值状态、码值含义。由于会存在部分字段虽然记载的形式不同，但记载的内容却实质相同的情况，因此需要进行该步骤；比如，信贷系统将客户性别分类为“0”和“1”，其中“0”指代女性，“1”指代男性；而理财系统将客户性别分类为“F”和“M”，其中“F”指代女性，“M”指代男性；由于之前已经将所有抽样池中的数据均转换为统一的标准，所以可以将不同系统中相同要素的字段统一，此时可以将同一客户在不同系统中的性别要素进行比对，如果出现业务属主的系统中性别要素的字段与权威属主的系统中性别要素的字段不相同的情况，则认为在业务属主的系统中客户数据出错。

码值字段的完整性监测步骤包括：检查是否存在长期未发生、超出值域的码值，并通过“完整度=发生数据的码值个数/总码值个数”的方式来计算完整度；设定完整度阈值，本方案中设定为70%，当结果小于70%或大于100%后，表示存在完整性问题。

码值字段的准确性监测步骤包括：检查是否存在码值为空、特殊字符的异常情况，并通过“准确度=码值信息正常的发生客户数/总参与比对客户数”的方式来计算准确度；设定准确度阈值，本方案中设定为100%，当结果小于100%时，表示存在准确性问题。

码值字段的有效性监测步骤包括：统计码值含义分布，空值样本不纳入统计范围，通过码值分布占比前n的比例合计，来计算集中度；设定第一集中度阈值和第二集中度阈值，本方案中设定第一集中度阈值为60%，第二集中度阈值为55%，当结果中前三集中度大于60%，或前一集中度大于55%，表示可能存在有效性问题。

本方案监测分析码值字段不一致数量及其占总比对客户数比例、各排列组合下的码值字段不一致比例、日月季年历年的总比对数量以及不一致数量、各种比对状态下信息不一致分布、各系统的不一致、准确性、完整性、有效性发生情况、可能存在准确性、有效性、完整性的码值。这样的设置可以发现：（1）不一致情况的发生规律，如是否集中于特定场景、是否为近期上线导致、是否为后台修改数据但未同步至权威系统；（2）各系统的码值设定是否存在偏差，无法建立映射；（3）脚本取值超出值域范围，是否为系统原因和业务误操作导致的，是否设计不合理；（4）分布集中于特定码值，是否存在前端控制不严的问题；（5）部分码值长期未发生，是否存在设计问题。

S8.在对比字段后，数据治理室根据监测结果、系统重要程度、问题严重程度，梳理形成数据质量监测单；并将数据质量问题监测单发给对应的业务部门。业务部门对问题监测单中记载的问题进行修改，并排查系统是否存在漏洞。要求业务部门会同科技部门开展如下措施：①“控增量”，排查系统是否存在漏洞；②“提存量”，分析存量数据的问题，提出整改措施。

数据治理室将监测单中的规则设置为停用状态。跟进数据质量监测单整改。待整改完成后，将数据质量问题对应的规则设置为启用状态。

具体实施例二：在具体实施例一的基础上，对脚本组装程序进行监测，遵循以下规则：

1、将新批次的监测程序加载到增量表中，对增量表执行检核操作。

2、将检核结果输出到存量表中，并标记批次。

3、分析检核失败原因。

常见的检核失败原因有以下几种：

1、表未入仓。处理方案：数据治理人员向原系统开发确认表未入仓原因，判断是否需要入仓。

2、字段未入仓。处理方案：数据治理人员与数仓人员确认字段是否正确入仓。

3、取数脚本异常。处理方案：数据治理人员将脚本退回给原系统开发，要求重新填写。

4、废弃字段。处理方案：数据治理人员向原系统开发、业务人员确认该字段是否真实废弃。

具体实施例三：与具体实施例一或二不同的是，当一要素确定为码值字段后，在比对某一客户内码在不同系统中对应的该要素时，判断在业务属主中在权威属主中是否一致，若一致率低于设定阈值，则判定该权威属主与该要素的匹配度过低，不应认定该系统中要素的字段为该要素的比对标准。

为该要素设定第二权威属主，第二权威属主也是业务系统在实践过程中形成的一个公认的主系统，用于作为备选的比对标准。

将原来的权威属主中该要素的字段定义为错误字段，并将该系统更新认定为该要素的业务属主。优选的，不再将该要素与该系统达成权威关系。

如码值字段的要素为“客户性别”，该要素的初定的权威属主是信贷系统，客户张三在信贷系统（初定的权威属主）中记录的“客户性别”为“女”，但是客户张三在其他业务属主的系统中，记录的“客户性别”均为“男”，则判定“客户性别”这一要素与信贷系统这一初定的权威属主的匹配度不高，将第二权威属主——理财系统中“客户性别”这一要素的字段，作为各个系统的客户信息中“客户性别”这一要素的比对标准。

具体实施例四：在具体实施例三的基础上，对每个码值字段均进行与初定的权威属主的匹配度检测，将匹配度低于设定阈值的，码值字段及初定的权威属主的组合，记录至后台数据库中；当同一码值字段与其初定的权威属主的条数在数据库中超过设定阈值后，才解除两者之间的绑定关系，将该码值字段与第二权威属主进行绑定。

如码值字段的要素为“客户性别”，该要素的初定的权威属主是信贷系统，客户张三在信贷系统（初定的权威属主）中记录的“客户性别”为“女”，但是客户张三在其他业务属主的系统中，记录的“客户性别”均为“男”，则判定“客户性别”这一要素与信贷系统这一初定的权威属主的匹配度不高，将第二权威属主——理财系统中“客户性别”这一要素的字段，作为各个系统的客户信息中“客户性别”这一要素的比对标准。将张三在信贷系统中“客户性别”的字段记录在后台的数据库中（用于存放错误数据信息）。

若客户李四在理财系统（初定的权威属主）的“客户性别”这一要素的情况与上述张三相同，则也将其记录在后台的数据库中。

当“客户性别”这一要素在数据库中记录的条数超过设定阈值时，解除“客户性别”与“信贷系统”两者的要素-权威属主的绑定关系。需要说明的是，在某一要素变更其对应的权威属主的系统时，数据库中关于该要素的数据全都清空。

具体实施例五：在具体实施例一至四任一的基础上，记录业务属主中对应要素的错误字段，以“客户内码-所属系统-要素-字段（错误字段）”的形式记录入后台的错数池中。

在业务部门根据数据质量监测单中的数据，将各系统中错误的数据修正。

再将修正后的系统数据，进行抽查。调取在错数池中记录的数据，形成反馈抽查清单，来监测业务部门对数据的修正是否落实到位。

调取错数池中记录的错误字段对应的客户内码、所属系统、要素、错误字段，独立地从各个所属系统中以被监测的上述要素为筛选条件，并以上述的错误字段为筛选要求，进行数据的筛选，再输入上述客户内码进行查找，判断是否存在可被查找到的数据，若有，则判定业务部门对数据的修正未落实到位，对未修正数据的系统对应的业务部门发送审查通知，要求其尽快修正。

优选的，将错数池中错误的数据先进行集中挑选，将要素相同、错误字段相同的数据整合在一起，再在修正后的数据库中，独立地从各个所属系统中以被监测的上述要素为筛选条件，并以上述的错误字段为筛选要求，进行数据的筛选，再输入上述客户内码进行查找，需要注意的是，在同一系统中，可以输入上述集中挑选后的同组的不同客户内码，在一数据系统中一并查找，这样查询出来的速度更加迅速。

具体实施例六：在具体实施例一至五任一的基础上，在对一客户的数据从各个系统间进行比对时，先将该客户内码下属的各个要素，从要素各自对应的权威属主系统中，调取对应的字段，组成以标准数据条，该标准数据条是用于该客户在各个系统中的数据进行比对的标准，标准数据条下的要素的字段是从各个权威属主中调取来的，所以作为比对标准的准确度比较高。

如客户张三（客户内码为0123456）的数据，下属包括“性别”、“国籍”等需要码值的要素，将“性别”、“国籍”等要素对应的权威属主中对应的字段调取出来，组成一个用来比对的标准数据条。

在比对时，独立地从各个系统中调取该客户内码的所有数据，形成一比对表（纵向以客户内码顺序排列，横向以客户内码的数据包含的要素排列，每条数据下属的要素均相同），将上述标准数据条加入该比对表中，作为比对标准，将每个客户内码的各个要素与标准数据条进行比对，快速地找到与标准数据条中字段不一致的要素，以及其对应的客户内码所在的系统。并记录各个错误（与标准数据条不一样的）的字段，梳理形成数据质量监测单。并将问题监测单发给对应的业务部门，以修正数据。

判断一系统中该客户的数据错误数量是否超过设定阈值，若超过则判定该系统无法作为任何要素的权威属主，立即接触其与所有要素的权威绑定关系，这样的设置保证权威属主的权威性，最终确保数据比对结果的准确性，还能提高比对速度，原来是通过要素和要素之间的一一比对来确定数据准确性，现在通过数据条与数据条之间的一一比对来确定数据准确性，还能同时比对多个系统之间的多个要素，所以比对速度非常快。

此外若一系统中该客户的数据错误数量是否超过设定阈值，还需要重点排查该系统对应的业务部门的数据输入流程，是否有错误，以排除程序问题带来的结果准确性差的风险。

Claims

1.一种银行数据质量管控的方法，其特征在于：至少包括以下步骤：

根据监测需求确定各系统中各主数据对应的权威属主和业务属主，根据权威属主和业务属主对应关系，分批次梳理形成数据质量监测计划清单并提供给各系统的开发科室；权威属主是业务系统在实践过程中形成的一个公认的黄金版本主系统，以作为和业务属主的数据进行比对时的验证标准，其他用于对比的系统则为业务属主；权威属主中要对比的要素作为对比标准，与业务属主中的相同要素进行对比

针对码值字段，比对码值信息的一致性、准确性、完整性、有效性；对于字段一致性的监测步骤包括：普通字段比对要素字段的取值状态、取值长度、取值内容；码值字段比对要素字段的取值状态、码值含义；

在对比字段后，根据对比结果，生成数据质量问题监测单，并将问题监测单发给对应的业务部门；业务部门对问题监测单中记载的问题开展整改活动，排查系统是否存在漏洞。

2.根据权利要求1所述的一种银行数据质量管控的方法，其特征在于：在数据质量问题监测单中，针对比对结果不一致占比较高或者数量较高的字段，开展重点检查，确认数据问题真实性。

3.根据权利要求1所述的一种银行数据质量管控的方法，其特征在于：抽样步骤至少包括：同一组合内对同一客户内码取唯一的流水记录，实际数量未达到抽样要求，按实际记录数取得；前一组合已纳入监测的样本不再纳入其他组合监测样本范围内。

4.根据权利要求1所述的一种银行数据质量管控的方法，其特征在于：码值字段的完整性监测步骤包括：检查是否存在长期未发生、超出值域的码值，并通过“完整度=发生数据的码值个数/总码值个数”的方式来计算完整度；设定完整度阈值，当结果小于设定阈值或大于100%后，表示存在完整性问题。

5.根据权利要求1所述的一种银行数据质量管控的方法，其特征在于：码值字段的准确性监测步骤包括：检查是否存在码值为空、特殊字符的异常情况，并通过“准确度=码值信息正常的发生客户数/总参与比对客户数”的方式来计算准确度；设定准确度阈值，当结果小于设定阈值时，表示存在准确性问题。

6.根据权利要求1所述的一种银行数据质量管控的方法，其特征在于：码值字段的有效性监测步骤包括：统计码值含义分布，空值样本不纳入统计范围，通过码值分布占比前n的比例合计，来计算集中度；设定第一集中度阈值和第二集中度阈值，当结果中前三集中度大于第一集中度阈值，或前一集中度大于第二集中度阈值，表示可能存在有效性问题。

7.根据权利要求1所述的一种银行数据质量管控的方法，其特征在于：在分层抽样组合清单中，选择一系统，调取源自该系统的数据，计算其日/月/季/年/历年抽样覆盖率、日/月/季/年/历年抽样达标率；若覆盖率偏低，提高期望抽样客户数；若达标率偏低，降低期望抽样客户数。