CN113051257A - 一种业务数据清洗方法及装置 - Google Patents

一种业务数据清洗方法及装置 Download PDF

Info

Publication number
CN113051257A
CN113051257A CN202110304367.2A CN202110304367A CN113051257A CN 113051257 A CN113051257 A CN 113051257A CN 202110304367 A CN202110304367 A CN 202110304367A CN 113051257 A CN113051257 A CN 113051257A
Authority
CN
China
Prior art keywords
data
level
quality
determining
grade
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110304367.2A
Other languages
English (en)
Other versions
CN113051257B (zh
Inventor
高翔
吴万港
陈磊
曾繁景
陆景家
杨智霖
赵彦晖
耿心伟
曾源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Weizhong Credit Technology Co ltd
Original Assignee
Shenzhen Weizhong Credit Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Weizhong Credit Technology Co ltd filed Critical Shenzhen Weizhong Credit Technology Co ltd
Priority to CN202110304367.2A priority Critical patent/CN113051257B/zh
Publication of CN113051257A publication Critical patent/CN113051257A/zh
Application granted granted Critical
Publication of CN113051257B publication Critical patent/CN113051257B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/10Tax strategies

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Development Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • Finance (AREA)
  • Educational Administration (AREA)
  • Accounting & Taxation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • Technology Law (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例公开了一种业务数据清洗方法及装置,其中方法的实现包括:获取第一数据,对第一数据进行初步清洗获得第二数据,根据数据字典对第二数据进行归一化处理,获得与数据字典统一格式的第三数据,根据数据与质量等级的映射关系确定第三数据的质量等级,确定第三数据的质量等级等于或高于预设等级。采用本申请实施例的方法,对业务数据进行清洗,获得与数据字典统一格式的第三数据,再根据数据与质量等级的映射关系确定第三数据的质量等级,最后确定第三数据的质量等级等于或高于预设等级,消除由于数据误读造成的数据错用现象,从而在“银税互动”业务中为不同的银行产品提供扎实的数据质量基础。

Description

一种业务数据清洗方法及装置
技术领域
本申请涉及通信技术领域,特别是涉及一种业务数据清洗方法及装置。
背景技术
随着我国经济水平的不断提高,用于解决企业融资问题的“银税互动”业务也得到了显著的发展,目前,对于全国性银行想要在各地开展“银税互动”业务,需要按照各地税局开放的数据要求,形成可供银行内部风险模型使用的业务数据和质量指标,但是,各地税局的“银税互动”业务的数据类型存在差异性,导致“银税互动”业务的数据对于不同的银行产品来说存在着可信度和可用性的问题。
发明内容
本申请实施例提供了一种业务数据清洗方法及装置,通过对税务相关数据进行数据清洗,得到格式统一且达到质量等级要求的税务相关数据,满足“银税互动”业务中的税务相关数据对于不同银行机构不同银行产品的可用性问题。
第一方面,本申请实施例提供了一种业务数据清洗方法,上述方法包括:
获取第一数据,对第一数据进行初步清洗获得第二数据,第二数据为结构化、且类型清晰的税务相关数据;
根据数据字典对第二数据进行归一化处理,获得与数据字典统一格式的第三数据;
根据数据与质量等级的映射关系确定第三数据的质量等级,质量等级用于表征第三数据的完善程度;
确定第三数据的质量等级等于或高于预设等级。
在一个可能的示例中,若第三数据的质量等级低于预设等级,上述方法还包括:
在预设时间内检测第三数据的质量等级低于预设等级的发生次数;
若发生次数大于或等于预设次数,则对发生次数进行分析,得到第一危险评价参数,且获取造成第三数据的质量等级低于预设等级的数据异常原因;
对数据异常原因进行分析,得到第二危险评价参数;
对下一个第三数据的字节大小进行分析,确定下一个第三数据的敏感程度,并根据敏感程度得到敏感权值对,敏感权值对包括第一敏感权值和第二敏感权值,且第一敏感权值+第二敏感权值=1;
将第一危险评价参数、第二危险评价参数、第一敏感权值、第二敏感权值进行加权运算,得到目标危险等级;
若目标危险等级大于或等于第一危险等级且小于第二危险等级,则生成密钥,使用密钥将下一个第三数据加密为密文;
若目标危险等级大于或等于第二危险等级,则生成密钥,使用密钥将下一个第三数据加密为密文且进行报警处理。
第二方面,本申请实施例提供了一种业务数据清洗装置,上述装置包括:
获取单元,用于获取第一数据,对第一数据进行初步清洗获得第二数据,第二数据为结构化、且类型清晰的税务相关数据;
归一单元,用于根据数据字典对第二数据进行归一化处理,获得与数据字典统一格式的第三数据;
质量单元,用于根据数据与质量等级的映射关系确定第三数据的质量等级,质量等级用于表征第三数据的完善程度;
确定单元,用于确定第三数据的质量等级等于或高于预设等级。
第三方面,本申请实施例提供了一种业务数据清洗装置,上述装置包括:
处理器、存储器、通信接口,处理器、存储器、通信接口相互连接,并且完成相互间的通信工作;
存储器上存储有可执行程序代码,通信接口用于进行无线通信;
处理器用于调取存储器上存储的可执行程序代码,使可执行程序代码执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质中存储有用于电子数据交换的计算机程序,计算机程序包括执行指令,执行指令用于执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。
第五方面,本申请实施例提供了一种计算机程序产品,其中,计算机程序产品包括计算机程序,计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
可以看出,本申请实施例中,通过对业务数据进行清洗,得到结构化、且类型清晰的税务相关数据,再对税务相关数据进行归一化处理,获得与数据字典统一格式的第三数据,再根据数据与质量等级的映射关系确定第三数据的质量等级,最后确定第三数据的质量等级等于或高于预设等级,从而消除由于数据误读造成的数据错用现象,为不同的银行产品提供扎实的数据质量基础。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1A是本申请实施例应用的业务数据清洗系统的结构部署图;
图1B是本申请实施例提供的一种业务数据清洗方法的流程示意图;
图2是本申请实施例提供的一种业务数据清洗方法的举例示意图;
图3A是本申请实施例提供的一种业务数据清洗装置的结构示意图;
图3B是本申请实施例提供的一种质量单元的具体细化结构图;
图4是本申请实施例提供的另一种业务数据清洗装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤的过程、方法、系统、产品或设备没有限定于已列出的步骤,而是可选地还包括没有列出的步骤,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
下面结合附图对本申请实施例中所涉及的设备进行介绍。
图1A是本申请实施例应用的业务数据清洗系统的结构部署图。如图1A所示,该业务数据清洗系统包括清洗方法动态加载模块、数据质量模块、数据补偿模块、数据指标模块、数据查询模块。每个模块的功能可以由单独的服务器来实现,也可以是多个模块的功能由一个服务器实现。实现不同模块功能的多个服务器互相通信连接。
其中,清洗方法动态加载模块用于对来自不同区域数据源的业务数据采用不同的业务数据清洗方法,业务数据清洗方法所采用的脚本为动态脚本,对来自不同区域数据源的业务数据进行加工和清洗,对于初步清洗完的数据,按照数据字典形成统一数据格式的业务数据。
其中,数据质量模块,用于对完成初步清洗的数据进行数据质量等级,从数据的完整性角度和一致性角度进行数据的可信性分析,同时对数据质量进行质量评级,对于质量评级达不到要求的数据需要使用数据补偿模块对其继续进行处理。
其中,数据补偿模块,用于对数据质量模块中达不到质量评级要求的数据发起数据补偿,根据缺失的数据类型,可以对不同区域数据源或外部数据源发起数据补偿的动作。
其中,数据指标模块,用于对达到质量要求的数据,计算出数据的相关衍生指标,相关衍生指标可供银行机构的业务风险模型直接使用。
其中,数据查询模块,用于对清洗完的数据进行数据查询,可查询数据的质量等级以及查询数据所依据的数据字典。
本申请实施例提供了一种业务数据清洗方法,具体为获取第一数据并对第一数据进行初步清洗获得第二数据,根据数据字典对第二数据字典进行归一化处理得到第三数据,根据数据与质量等级的映射关系确定第三数据的质量,确定第三数据的质量等级等于或高于预设等级。下面结合附图对本申请实施例进行详细说明。
请参阅图1B,图1B是本申请实施例提供的一种业务数据清洗方法的流程示意图,如图1B所示,本申请实施例中所描述的业务数据清洗方法,包括以下步骤:
101:获取第一数据,对第一数据进行初步清洗获得第二数据,第二数据为结构化、且类型清晰的税务相关数据;
其中,初步清洗的方式包括动态加载清洗脚本对第一数据进行清洗,动态加载清洗脚本指根据业务实际需求把对应的清洗脚本从外部网络加载到本地内存中的过程,统一支持不同地方税务机构的“银税互动”业务中不同的数据类型,可以集中性地完成数据清洗的任务。
其中,对第一数据进行初步清洗,包括对第一数据进行数据格式处理、数据转换、数据迁移等。数据格式处理指对第一数据中某项信息的格式进行修正处理,数据格式指需要显示的数据是按照什么格式显示出来,数据格式可以包括字符、数值或二进制数等;数据转换指在如数据库升级的情况下将第一数据的数据格式从第一格式转换为第二格式;数据迁移指在数据库更换的情况下将数据当前数据库迁移到新数据库。
示例性地,第一数据中包含了增值税发票的开票日期,开票日期显示开票时对应的年月日,该第一数据的开票日期显示格式为DD-MM-YYYY,YYYY指年份,MM指月份,DD指日份,而目标开票日期显示格式为YYYY-MM-DD,则此时需要对开票日期显示格式为DD-MM-YYYY的第一数据进行清洗从而获得开票日期显示格式为YYYY-MM-DD的第二数据。
其中,结构化是指第二数据具有高度组织和整齐格式化且能够用统一的结构加以表示,通过对第一数据进行初步清洗获得的第二数据相较于非结构化数据更易于被人们和计算机进行搜索和使用;第二数据的类型包括与税务相关的利润表数据、资产负债表等。
示例性地,资产负债表由于其数据的整合来源于增值税申报表、企业所得申报税申报表、个人所得税申报表、印花税申报表、教育费附加申报表共五张国税表因而较为复杂,其中还包含了中文字符。对资产负债表进行初步清洗,首先提取出资产负债表中的中文,大写数字以及标点符号,然后将科目名称进行标准化处理,消除同一内容的科目在不同国税表中出现时产生的名称差异,如将资产总计科目进行标准化处理为资产合计科目,最后将经过初步清洗处理后的资产负债表数据进行分组排序等操作,获得结构化、且类型清晰的税务相关数据。
102:根据数据字典对第二数据进行归一化处理,获得与数据字典统一格式的第三数据;
其中,数据字典指对数据的数据类型、长度、外部实体等进行定义,帮助数据使用者了解使用该数据。
示例性地,数据字典包括某个数据在数据字典中的编号、XML标签、字段内容、字段类型、填写规则等,其中XML标签为该数据的定义字符,字段内容为该数据的含义说明,字段类型包括字符型和对应位数。
其中,归一化处理,指消除不同数据之间的取值范围差别,让具有不同维度的数据之间具备可比较性,使数据取值范围落入到一个特定的区域从而便于对数据进行综合分析,从而保证数据分析的结果不受影响。归一化处理的方式包括最小-最大规范化、零-均值规范化、小数定标规范化等。其中,最小-最大规范化是对原始数据的线性变换,将数据值映射到0~1之间。
示例性地,使用最小-最大规范化方法对第二数据进行归一化处理,令x为第二数据,令x'为第三数据,令max为第二数据样本的最大值,令min为第二数据样本的最小值,则最小-最大规范化的计算公式为:x'=(x-min)/(max-min),通过上述计算公式计算出来的x'的值落在0~1之间,完成归一化处理。
103:根据数据与质量等级的映射关系确定第三数据的质量等级,质量等级用于表征第三数据的完善程度;
其中,第三数据的质量等级,指在“银税互动”业务中的第三数据满足“银税互动”业务场景具体需求的完善程度。影响质量等级的因素包括网络通讯异常、操作不当、外部攻击等。质量等级的评估维度包括完整性、一致性等。
104:确定第三数据的质量等级等于或高于预设等级。
其中,确定第三数据的质量等级等于或高于设计等级,是为了确认第三数据达到预期设定的质量要求,保证第三数据在“银税互动”业务中的可用性。
示例性地,银行机构拥有至少一个的银行产品,至少一个的银行产品中的每个银行产品中各自包含有待评估数据,如果待评估数据中具有大量质量等级不达标的数据,将不利于银行机构的业务开展进程以及对银行产品的管理。
可以看出,本申请实施例中,通过对业务数据进行清洗,得到结构化、且类型清晰的税务相关数据,再对税务相关数据进行归一化处理,获得与数据字典统一格式的第三数据,再根据数据与质量等级的映射关系确定第三数据的质量等级,最后确定第三数据的质量等级等于或高于预设等级,从而消除由于数据误读造成的数据错用现象,为不同的银行产品提供扎实的数据质量基础。
在一个可能的示例中,上述根据数据与质量等级的映射关系确定第三数据的质量等级之前,上述方法还包括:
对第三数据进行完整性分析,根据第三数据的完整程度确定第三数据的第一权值;
对第三数据进行一致性分析,根据第三数据的一致性程度确定第三数据的第二权值;
根据第一权值和第二权值确定第三数据与质量等级的映射关系。
其中,完整性指数据是否存在数据缺失,数据缺失包括数据中某个字段信息记录缺失而导致数据不可用的情况。对第三数据进行完整性分析,指对第三数据中包含的第三数据信息进行完整性分析,上述第三数据信息包括企业基本信息、投资方信息、联系人信息、税务申报信息、税务征收信息、资产负债表信息、利润表信息、违法违章信息等。
示例性地,在采集企业基本信息的时候,要求填写企业名称、企业地址、纳税号,而采集到的企业基本信息只具有企业名称、企业地址,缺失了纳税号,则该企业基本信息的完整程度低。
其中,一致性指数据信息是否符合逻辑,包括对至少一个的数据的值在数据信息含义上是否有冲突进行评估。对第三数据进行一致性分析,包括比较申报税额及其计税依据和征收税额及其计税依据的一致性、申报收入及其利润和财报收入及其利润的一致性等。
示例性地,对第三数据进行一致性分析是比较申报税额及其计税依据和征收税额及其计税依据的一致性时,若申报税额及其计税依据和征收税额及其计税依据存在差异,则上述第三数据的一致性程度低。
示例性地,根据第一权值和第二权值确定第三数据与质量等级的映射关系,映射关系为加权运算,加权运算的计算公式具体为:质量等级=第一权值*第三数据的完整程度+第二权值*第三数据的一致性程度。
可以看出,本申请实施例中,在根据数据与质量等级的映射关系确定第三数据的质量等级之前,通过对第三数据进行完整性分析并根据第三数据的完整程度确定第三数据的第一权值、对第三数据进行一致性分析并根据第三数据的一致性程度确定第三数据的第二权值,再根据第一权值和第二权值确定第三数据与质量等级的映射关系,从而提高第三数据在“银税互动”业务中的可信度。
在一个可能的示例中,若第三数据的质量等级低于预设等级,上述方法还包括:
向第一数据的数据来源发起数据补偿请求,用于请求重新获取第一数据;和/或从其他数据来源获取补全数据,用于补全第一数据,其他数据来源为第一数据的数据来源的单项信息汇总机构;
对重新获取的第一数据进行初步清洗,归一化处理和质量等级评定,确定重新获取的第三数据的质量等级低于预设等级。
其中,重新获取第一数据,指在税务机构的数据接口由于稳定性受影响时产生了错误数据,从而需要向税务机构发起重新获取第一数据的动作。
示例性地,银行机构需要向税务机构调取某企业在连续24个月内的税务相关数据,税务机构在提供连续24个月内的税务相关数据时,税务机构数据接口的网络通讯发生波动,从而提供的税务相关数据中只包含了其中22个月的税务数据情况而缺少了其中2个月的税务数据情况,则此时为产生了错误数据的情况,因此需要重新向税务机构获取上述企业在连续24个月内的税务相关数据。
又一示例性地,请参阅图2,图2是本申请实施例提供的一种业务数据清洗方法的举例示意图,如图2所示,银行机构需要向税务机构调取某企业的2月份纳税申报表,税务机构在数据处理的过程中出现状态异常问题,导致提供的该企业2月份纳税申报表中印花税这一税种的税款所属期限为“2021-02-01-2021-02-30”,2月份是不存在2月30日这一日期的,因此此时的纳税申报表中出现了“2021-02-30”这一错误数据,因此需要重新向税务机构获取上述企业的2月份纳税申报表。
其中,从其他数据来源获取补全数据的方式可以是使用SpringMVC框架来实现。
其中,其他数据来源包括企业工商信息公示系统。
示例性地,若第一数据中缺失了投资方信息,则此时其他数据来源是企业工商信息公示系统,从企业工商信息公示系统中获取补全数据即投资方信息对第一数据进行补全,使得经过补全后的第一数据没有信息缺失而具有完整性。
可以看出,本申请实施例中,在第三数据的质量等级低于预设等级的时候会向第一数据的数据来源发起数据补偿请求以重新获取第一数据,和/或从其他数据来源获取补全数据用于补全第一数据,对满足不了要求的第三数据进行数据补偿从而保障第三数据的质量等级能够达到要求,增加了数据清洗过程的智能性。
在一个可能的示例中,在确定第三数据的质量等级等于或高于预设等级之后,上述方法还包括:
根据第三数据的质量等级计算第三数据的衍生指标,衍生指标用于指示第三数据对应客户的风险等级。
其中,衍生指标用于指示第三数据对应客户的风险等级,指银行机构根据计算出的衍生指标所指示第三数据对应客户的风险等级来评估客户对于银行机构的请求是应当给予接受还是给予拒绝。
可以看出,本申请实施例中,通过根据第三数据的质量等级计算第三数据的衍生指标以用于指示第三数据对应客户的风险等级,从而使得达到质量等级要求的第三数据可以直接提供给银行机构中不同的银行产品所对应的风险模型直接使用,增加了银行机构使用第三数据时的便利程度,提高了“银税互动”业务的处理效率。
在一个可能的示例中,上述质量等级包括以下一项或多项:
第一等级,为只包括基础信息、联系人信息或投资方信息;
第二等级,为包含第一等级中的数据的情况下,还包含申报数据;
第三等级,为包含第二等级中的数据的情况下,还包含征收数据;
第四等级,为包含第三等级中的数据的情况下,还包含资产负债表和利润表数据;
第五等级,为包含第四等级中的数据的情况下,还包含上下游数据。
可以看出,本申请实施例中,根据第三数据所包含的数据信息将第三数据对应的质量等级划分为不同等级,对于不满足银行机构银行产品所要求的质量等级的第三数据即质量等级低于预设等级的第三数据,进行上述向第一数据的数据来源发起数据补偿请求和/或上述从其他数据来源获取补全数据,通过划分质量等级,保证形成质量等级达到银行机构要求的第三数据。
在一个可能的示例中,上述根据第三数据的质量等级计算第三数据的衍生指标,包括:
当第三数据的质量等级等于或高于第四等级时,计算第三数据对应客户的资产负债率或流动比率;
当第三数据的质量等级等于或高于第五等级时,计算第三数据对应客户的稳定性。
其中,资产负债率指负债总额占资产总额的百分比,这个指标反映了在客户的全部资产中由银行机构提供的资产所占比重的大小,反映了银行机构向该客户提供信贷资金的风险程度;流动比率指流动资产与流动负债的比率,该指标反映了客户在短期内的偿债能力;稳定性指客户是否易于流失,反映了客户对于银行选择上的资产转移可能性。
其中,若第三数据中不包含有任何信息,即第三数据存在错误,则此时不会计算出任何衍生指标。
可以看出,本申请实施例中,通过根据第三数据的质量等级计算第三数据的衍生指标,从而使得达到质量等级要求的第三数据可以直接提供给银行机构中不同的银行产品所对应的风险模型直接使用,增加了银行机构使用第三数据时的便利程度,提高了“银税互动”业务的处理效率。
在一个可能的示例中,根据数据与质量等级的映射关系确定第三数据的质量等级之后,上述方法还包括对第三数据进行数据逻辑校验,具体包括以下至少一项:
确定第三数据是否包含投资方信息;
确定第三数据中的申报数据与征收数据之间的勾稽关系;
确定第三数据中的资产负债表与利润表数据之间的勾稽关系;
确定第三数据中的资产负债表内部勾稽关系;
确定第三数据中的申报表内部勾稽关系。
其中,对第三数据进行数据逻辑校验,指核验第三数据是否缺失部分数据信息或是否满足勾稽关系,如是否缺失征收数据、是否缺失利润表数据、申报数据与征收数据之间是否满足勾稽关系等。
其中,若对第三数据进行数据逻辑校验的结果为第三数据无法通过数据逻辑校验,则向第一数据的数据来源发起数据补偿请求,经过初步清洗、归一化处理后重新获得符合质量等级要求的第三数据。若经过数据补偿请求后重新获得的第三数据成功通过数据逻辑校验,则将该第三数据直接发送给银行机构;若经过数据补偿请求后重新获得的第三数据依然无法通过数据逻辑校验,则对该第三数据打上存疑标记后再发送给银行机构,存疑标记表明此时第三数据无法通过数据逻辑校验、数据内容存在疑问,对第三数据打上存疑标记的目的是对银行机构起到告知作用,由银行机构根据自身实际情况决定接收或拒绝该第三数据。
其中,投资方信息,由于企业客户会有投资方,个体户客户不会有投资方,因此若对应客户类型为企业时第三数据中不存在投资方信息,则对该第三数据进行数据逻辑校验的结果为不通过。
其中,申报数据与征收数据之间的勾稽关系,即核实申报数据中的申报税额及其计税依据、征收数据中的征收税额及其计税依据是否一致,若两者不一致,则对该第三数据进行数据逻辑校验的结果为不通过;
其中,资产负债表与利润表数据之间的勾稽关系,即核实资产负债表与利润表数据之间是否满足以下关系:资产负债表中的期末未分配利润=利润表数据中的净利润+资产负债表中的未分配利润的年初数,若不满足上述关系,则对该第三数据进行数据逻辑校验的结果为不通过。
其中,资产负债表内部勾稽关系,即核实资产负债表内部是否满足以下关系:资产额=负债额+所有者权益方的总计金额,即审核资产负债表中的负债额及所有者权益方的总计金额是否与资产额一致,若不一致,则对该第三数据进行数据逻辑校验的结果为不通过。
其中,申报表内部包括实际缴纳增值税、城建税等,申报表内部逻辑关系,包括核实增值税与城建税之间是否满足以下关系:城建税=实际缴纳的增值税*税率,客户所在地为市区的税率为7%,客户所在地为县城、镇的税率为5%,客户所在地非市、县、镇的税率为1%,若不满足上述关系,则对该第三数据进行数据逻辑校验的结果为不通过。
可以看出,本申请实施例中,通过对第三数据进行数据逻辑校验,能够避免发生第三数据已达到质量等级却存在数据逻辑错误的情况,确保给到银行机构的数据的质量等级既能达标又能通过数据逻辑校验,从而保证“银税互动”业务中的数据具有可用性和能用性。
在一个可能的示例中,数据字典为根据多种数据格式进行最大公约处理获得,多种数据格式对应多个第一数据的数据来源的数据格式。
其中,数据字典为根据多种数据格式进行最大公约处理获得,指数据字典为按照来自不同地方税务机构的多种数据格式进行最大公约而形成。
可以看出,本申请实施例中,通过使用根据多种数据格式进行最大公约处理获得的数据字典,解决了对于不同地方税务机构在“银税互动”业务中使用的数据类型存在差异性的问题,从而可以集中性地完成“银税互动”业务中的数据清洗任务。
在一个可能的示例中,若第三数据的质量等级低于预设等级,上述方法还包括:
在预设时间内检测第三数据的质量等级低于预设等级的发生次数;
若发生次数大于或等于预设次数,则对发生次数进行分析,得到第一危险评价参数,且获取造成第三数据的质量等级低于预设等级的数据异常原因;
对数据异常原因进行分析,得到第二危险评价参数;
对下一个第三数据的字节大小进行分析,确定下一个第三数据的敏感程度,并根据敏感程度得到敏感权值对,敏感权值对包括第一敏感权值和第二敏感权值且第一敏感权值+第二敏感权值=1;
将第一危险评价参数、第二危险评价参数、第一敏感权值、第二敏感权值进行加权运算,得到目标危险等级;
若目标危险等级大于或等于第一危险等级且小于第二危险等级,则生成密钥,使用密钥将下一个第三数据加密为密文;
若目标危险等级大于或等于第二危险等级,则生成密钥,使用密钥将下一个第三数据加密为密文且进行报警处理。
其中,第一危险评价参数,反映了第三数据的质量等级低于预设等级的发生次数的频率高低,若发生次数越多则第一危险评价参数越大。
其中,数据异常原因包括网络延迟、外部攻击等,由于外部攻击的危险性高于网络延迟的危险性,因此数据异常原因为网络延迟时对应的第二危险评价参数小于数据异常原因为外部攻击时对应的第二危险评价参数。
其中,下一个第三数据,指在预设时间内检测到第三数据的质量等级低于预设等级的发生次数大于或等于预设次数之后的第一个第三数据。
其中,字节大小,反映了第三数据中包含的数据信息的多少。若第三数据的字节越大则第三数据中包含的数据信息越多,包含数据信息多的第三数据如果由于泄露而遭到恶意利用将会有更严重的后果,因此字节越大的第三数据的敏感程度越高。
其中,加权运算的计算公式为:目标危险等级=第一危险评价参数*第一敏感权值+第二危险评价参数*第二敏感权值。
其中,若目标危险等级大于或等于第一危险等级且小于第二危险等级,则生成密钥,使用密钥将下一个第三数据加密为密文,是为了防止第三数据遭到窃取泄露。
其中,若目标危险等级大于或等于第二危险等级,则生成密钥,使用密钥将下一个第三数据加密为密文且进行报警处理,在防止第三数据遭到窃取泄露的同时对此时存在的危险情况进行通知,保护“银税互动”业务中客户的隐私,避免客户的隐私遭到恶意利用而发生更严重的后果。
其中,使用密钥将下一个第三数据加密为密文之后,将密钥和密文一起发送给银行机构,银行机构收到密钥和密文时使用密钥对密文进行解密,得到上述下一个第三数据。
其中,使用密钥将下一个第三数据加密为密文的方式包括数据加密标准(DataEncryption Standard,DES)加密算法,DES加密算法是一种对称加密算法,即在对下一个第三数据进行加密以及解密的过程中所使用的是同一把密钥。
可以看出,本申请实施例中,通过对第三数据的质量等级低于预设等级的发生次数、造成第三数据的质量等级低于预设等级的数据异常原因、第三数据的字节大小分别进行分析,获得第一危险评价参数、第二危险评价参数、第一敏感权值和第二敏感权值,并将第一危险评价参数、第二危险评价参数、第一敏感权值和第二敏感权值进行加权运算,得到目标危险等级,根据目标危险等级的大小采取不同的防御措施,在目标危险等级较低时对下一个第三数据进行加密,在目标危险等级较高时对下一个第三数据进行加密并进行报警处理,使得业务数据清洗的过程更具智能性,进一步保证了“银税互动”业务中客户数据的安全性和保密性。
与上述图1B所示的实施例一致的,请参阅图3A,图3A是本申请实施例提供的一种业务数据清洗装置的结构示意图,如图3A所示:
一种业务数据清洗装置,上述装置包括:
301:获取单元,用于获取第一数据,对第一数据进行初步清洗获得第二数据,第二数据为结构化、且类型清晰的税务相关数据;
302:归一单元,用于根据数据字典对第二数据进行归一化处理,获得与数据字典统一格式的第三数据;
303:质量单元,用于根据数据与质量等级的映射关系确定第三数据的质量等级,质量等级用于表征第三数据的完善程度;
304:确定单元,用于确定第三数据的质量等级等于或高于预设等级。
可以看出,本申请实施例中,通过获取单元对业务数据进行清洗,得到结构化、且类型清晰的税务相关数据,再通过归一单元对税务相关数据进行归一化处理,获得与数据字典统一格式的第三数据,再通过质量单元根据数据与质量等级的映射关系确定第三数据的质量等级,最后由确定单元确定第三数据的质量等级等于或高于预设等级,从而消除由于数据误读造成的数据错用现象,为不同的银行产品提供扎实的数据质量基础。
具体地,本申请实施例可以根据上述方法示例对业务数据清洗装置进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
请参阅图3B,图3B是本申请实施例提供的一种质量单元的具体细化结构图,如图3B所示,在一个可能的示例中,上述装置的质量单元,在用于根据数据与质量等级的映射关系确定第三数据的质量等级之前,还包括:
3031:完整性模块,用于对第三数据进行完整性分析,根据第三数据的完整程度确定第三数据的第一权值;
3032:一致性模块,对第三数据进行一致性分析,根据第三数据的一致性程度确定第三数据的第二权值;
3033:映射模块,根据第一权值和第二权值确定第三数据与质量等级的映射关系。
与上述图1B所示的实施例一致的,请参阅图4,图4是本申请实施例提供的另一种业务数据清洗装置的结构示意图,如图4所示:
一种业务数据清洗装置,包括:
处理器、存储器、通信接口,处理器、存储器和通信接口相互连接,并且完成相互间的通信工作;
存储器上存储有可执行程序代码,通信接口用于进行无线通信;
处理器用于调取存储器上存储的可执行程序代码,执行如上述方法实施例中记载的任何一种业务数据清洗方法的部分或全部步骤,上述计算机包括电子终端设备。
其中,存储器可以是易失性存储器如动态随机存储器DRAM,也可以是非易失性存储器如机械硬盘。上述存储器用于存储一组可执行程序代码,上述处理器用于调用存储器中存储的可执行程序代码,可以执行如上述业务数据清洗方法实施例中记载的任何一种业务数据清洗方法的部分或全部步骤。
上述无线通信可以使用任一通信标准或协议,包括但不限于GSM(Global Systemof Mobile communication,全球移动通讯系统)、GPRS(General Packet Radio Service,通用分组无线服务)、CDMA2000(CodeDivision Multiple Access 2000,码分多址2000)、WCDMA(Wideband Code DivisionMultiple Access,宽带码分多址)、TD-SCDMA(TimeDivision-Synchronous CodeDivision Multiple Access,时分同步码分多址)、FDD-LTE(Frequency DivisionDuplexing-Long Term Evolution,频分双工长期演进)和TDD-LTE(Time DivisionDuplexing-Long Term Evolution,分时双工长期演进)等。
本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质中存储有用于电子数据交换的计算机程序,计算机程序包括执行指令,执行指令用于执行如上述业务数据清洗方法实施例中记载的任何一种业务数据清洗方法的部分或全部步骤,上述计算机包括电子终端设备。
本申请实施例提供了一种计算机程序产品,其中,计算机程序产品包括计算机程序,计算机程序可操作来使计算机如上述方法实施例中记载的任何一种业务数据清洗方法的部分或全部步骤,该计算机程序产品可以是一个软件安装包。
需要说明的是,对于前述的任一种业务数据清洗方法的实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请所必须的。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请一种业务数据清洗方法及装置的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请一种业务数据清洗方法及装置的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
本申请是参照本申请实施例的方法、硬件产品和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
尽管在此结合各实施例对本申请进行了描述,然而,在实施所要求保护的本申请过程中,本领域技术人员通过查看附图、公开内容、以及所附权利要求书,可理解并实现所公开实施例的其他变化。在权利要求中,“包括”(comprising)一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。相互不同的从属权利要求中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。
本领域普通技术人员可以理解上述任一种业务数据清洗方法的方法实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
可以理解的是,凡是被控制或者被配置以用于执行本申请一种业务数据清洗方法实施例所描述的流程图的处理方法的产品,如上述流程图的装置以及计算机程序产品,均属于本申请所描述的相关产品的范畴。
显然,本领域的技术人员可以对本申请提供的一种业务数据清洗方法及装置进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种业务数据清洗方法,其特征在于,所述方法包括:
获取第一数据,对所述第一数据进行初步清洗获得第二数据,所述第二数据为结构化、且类型清晰的税务相关数据;
根据数据字典对所述第二数据进行归一化处理,获得与所述数据字典统一格式的第三数据;
根据数据与质量等级的映射关系确定所述第三数据的质量等级,所述质量等级用于表征所述第三数据的完善程度;
确定所述第三数据的质量等级等于或高于预设等级。
2.根据权利要求1所述的方法,其特征在于,所述根据数据与质量等级的映射关系确定所述第三数据的质量等级之前,所述方法还包括:
对所述第三数据进行完整性分析,根据所述第三数据的完整程度确定所述第三数据的第一权值;
对所述第三数据进行一致性分析,根据所述第三数据的一致性程度确定所述第三数据的第二权值;
根据所述第一权值和所述第二权值确定所述第三数据与所述质量等级的映射关系。
3.根据权利要求1或2所述的方法,其特征在于,若所述第三数据的质量等级低于所述预设等级,所述方法还包括:
向所述第一数据的数据来源发起数据补偿请求,用于请求重新获取所述第一数据;和/或从其他数据来源获取补全数据,用于补全所述第一数据,所述其他数据来源为所述第一数据的数据来源的单项信息汇总机构;
对重新获取的所述第一数据进行初步清洗,归一化处理和质量等级评定,确定重新获取的第三数据的质量等级低于所述预设等级。
4.根据权利要求1-3任一项所述的方法,其特征在于,在确定所述第三数据的质量等级等于或高于预设等级之后,所述方法还包括:
根据所述第三数据的质量等级计算所述第三数据的衍生指标,所述衍生指标用于指示所述第三数据对应客户的风险等级。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述质量等级包括以下一项或多项:
第一等级,为只包括基础信息、联系人信息或投资方信息;
第二等级,为包含第一等级中的数据的情况下,还包含申报数据;
第三等级,为包含第二等级中的数据的情况下,还包含征收数据;
第四等级,为包含第三等级中的数据的情况下,还包含资产负债表和利润表数据;
第五等级,为包含第四等级中的数据的情况下,还包含上下游数据。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第三数据的质量等级计算所述第三数据的衍生指标,包括:
当所述第三数据的质量等级等于或高于所述第四等级时,计算所述第三数据对应客户的资产负债率或流动比率;
当所述第三数据的质量等级等于或高于第五等级时,计算所述第三数据对应客户的稳定性。
7.根据权利要求6所述的方法,其特征在于,根据数据与质量等级的映射关系确定所述第三数据的质量等级之后,所述方法还包括对所述第三数据进行数据逻辑校验,具体包括以下至少一项:
确定所述第三数据是否包含投资方信息;
确定所述第三数据中的申报数据与征收数据之间的勾稽关系;
确定所述第三数据中的资产负债表与利润表数据之间的勾稽关系;
确定所述第三数据中的资产负债表内部勾稽关系;
确定所述第三数据中的申报表内部勾稽关系。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述数据字典为根据多种数据格式进行最大公约处理获得,所述多种数据格式对应多个数据来源的第一数据的数据格式。
9.一种业务数据清洗装置,其特征在于,所述装置包括:
获取单元,用于获取第一数据,对所述第一数据进行初步清洗获得第二数据,所述第二数据为结构化、且类型清晰的税务相关数据;
归一单元,用于根据数据字典对所述第二数据进行归一化处理,获得与所述数据字典统一格式的第三数据;
质量单元,用于根据数据与质量等级的映射关系确定所述第三数据的质量等级,所述质量等级用于表征所述第三数据的完善程度;
确定单元,用于确定所述第三数据的质量等级等于或高于预设等级。
10.一种业务数据清洗装置,其特征在于,所述装置包括:
处理器、存储器、通信接口,所述处理器、所述存储器和所述通信接口相互连接,并且完成相互间的通信工作;
所述存储器上存储有可执行程序代码,所述通信接口用于进行无线通信;
所述处理器用于调取所述存储器上存储的所述可执行程序代码,执行如权利要求1-8任一项所述的方法。
CN202110304367.2A 2021-03-22 2021-03-22 一种业务数据清洗方法及装置 Active CN113051257B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110304367.2A CN113051257B (zh) 2021-03-22 2021-03-22 一种业务数据清洗方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110304367.2A CN113051257B (zh) 2021-03-22 2021-03-22 一种业务数据清洗方法及装置

Publications (2)

Publication Number Publication Date
CN113051257A true CN113051257A (zh) 2021-06-29
CN113051257B CN113051257B (zh) 2024-04-02

Family

ID=76514176

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110304367.2A Active CN113051257B (zh) 2021-03-22 2021-03-22 一种业务数据清洗方法及装置

Country Status (1)

Country Link
CN (1) CN113051257B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115543977A (zh) * 2022-09-29 2022-12-30 河北雄安睿天科技有限公司 一种供水行业数据清洗方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111190881A (zh) * 2019-11-13 2020-05-22 深圳市华傲数据技术有限公司 一种数据治理方法和系统
CN111949647A (zh) * 2020-09-03 2020-11-17 深圳市安亿通科技发展有限公司 应急管理业务数据清洗方法、系统、终端和可读存储介质
CN111966675A (zh) * 2020-08-28 2020-11-20 恒瑞通(福建)信息技术有限公司 一种固定资产投资项目数据清洗方法及终端

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111190881A (zh) * 2019-11-13 2020-05-22 深圳市华傲数据技术有限公司 一种数据治理方法和系统
CN111966675A (zh) * 2020-08-28 2020-11-20 恒瑞通(福建)信息技术有限公司 一种固定资产投资项目数据清洗方法及终端
CN111949647A (zh) * 2020-09-03 2020-11-17 深圳市安亿通科技发展有限公司 应急管理业务数据清洗方法、系统、终端和可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115543977A (zh) * 2022-09-29 2022-12-30 河北雄安睿天科技有限公司 一种供水行业数据清洗方法

Also Published As

Publication number Publication date
CN113051257B (zh) 2024-04-02

Similar Documents

Publication Publication Date Title
CN110263024B (zh) 数据处理方法、终端设备及计算机存储介质
US7693767B2 (en) Method for generating predictive models for a business problem via supervised learning
US20130036038A1 (en) Financial activity monitoring system
US20030177087A1 (en) Transaction surveillance
CN110852878B (zh) 一种可信度确定方法、装置、设备和存储介质
KR20180060044A (ko) 클라우드 환경에서 개인정보 보호를 지원하는 p2p 중개 보안 시스템
CN111144697A (zh) 数据处理方法、装置、存储介质及电子设备
CN110472895B (zh) 财务系统风控方法、装置、计算机设备和存储介质
CN111639179B (zh) 一种银行前端查询系统批量客户信息隐私控制方法和装置
CN112862338A (zh) 一种企业信用报告获取方法及相关设备
CN110991650A (zh) 训练养卡识别模型、识别养卡行为的方法及装置
CN113034275B (zh) 一种基于区块链网络的管理系统、方法及终端设备
CN113051257B (zh) 一种业务数据清洗方法及装置
CN102496126A (zh) 一种托管资产交易数据监控设备
CN111861733B (zh) 基于地址模糊匹配的欺诈防控系统及方法
CN111242779B (zh) 金融数据特征选择和预测方法、装置、设备及存储介质
CN111367776A (zh) 资源转移业务的记录方法、装置、设备及存储介质
CN116071152A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN114119195A (zh) 跨境电商数据资产管理方法、装置、计算机设备及介质
CN113343685A (zh) 一种消息异常检测方法及装置
CN114880369A (zh) 一种基于弱数据技术的风险授信方法和系统
KR100796056B1 (ko) 신용정보의 집중관리 시스템과 방법
CN115423595B (zh) 文件信息处理方法、装置、计算机设备和存储介质
US11270230B1 (en) Self learning machine learning transaction scores adjustment via normalization thereof
CN118171213A (zh) 异常检测方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant