CN114880315A - 业务信息清洗方法、装置、计算机设备和存储介质 - Google Patents

业务信息清洗方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN114880315A
CN114880315A CN202210584527.8A CN202210584527A CN114880315A CN 114880315 A CN114880315 A CN 114880315A CN 202210584527 A CN202210584527 A CN 202210584527A CN 114880315 A CN114880315 A CN 114880315A
Authority
CN
China
Prior art keywords
cleaning
information
target
rule
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210584527.8A
Other languages
English (en)
Inventor
秦家祥
伍如意
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202210584527.8A priority Critical patent/CN114880315A/zh
Publication of CN114880315A publication Critical patent/CN114880315A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种业务信息清洗方法、装置、计算机设备和存储介质。所述方法包括:获取待清洗业务信息对应的清洗目标;从预设的清洗规则模板集合中确定与所述清洗目标相匹配的清洗规则模板,并根据所述清洗目标调整所述清洗规则模板中的信息清洗参数,得到目标信息清洗规则;将所述目标信息清洗规则输入至信息清洗规则引擎;所述信息清洗规则引擎用于按照所述目标信息清洗规则对所述待清洗业务信息进行信息清洗,得到所述待清洗业务信息中各业务数据记录对应的信息清洗结果;在所述待清洗业务信息中,将通过所述清洗条件的业务数据记录作为清洗后业务信息。采用本方法能够提高信息清洗的效率。

Description

业务信息清洗方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种业务信息清洗方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,出现了信息清洗技术,这个技术采用硬编码的形式执行检查,如需新增或修改清洗规则,需重新开发清洗规则后上线。
传统的方法中,一般采用硬编码形式进行信息清洗,清洗规则在上线后无法再调整,然而受金融信息变化影响,清洗规则可能有需调整阈值的需求。而且由于金融信息存在临时风险,可能存在紧急上线新的信息清洗规则的需求,因此,现有的采用硬编码清洗规则执行金融信息的数据清洗方案无法应对需实时调整在线运行系统的清洗规则的需求。
发明内容
基于此,有必要针对上述技术问题,提供一种能够条件实时自适应信息清洗的业务信息清洗方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种业务信息清洗方法。所述方法包括:获取待清洗业务信息对应的清洗目标;所述清洗目标是根据所述待清洗业务信息对应的业务清洗需求而确定的;从预设的清洗规则模板集合中确定与所述清洗目标相匹配的清洗规则模板,并根据所述清洗目标调整所述清洗规则模板中的信息清洗参数,得到目标信息清洗规则;将所述目标信息清洗规则输入至信息清洗规则引擎;所述信息清洗规则引擎用于按照所述目标信息清洗规则对所述待清洗业务信息进行信息清洗,得到所述待清洗业务信息中各业务数据记录对应的信息清洗结果;所述信息清洗结果用于表征对应的所述业务数据记录是否通过所述目标清洗规则构成的清洗条件;在所述待清洗业务信息中,将通过所述清洗条件的业务数据记录作为清洗后业务信息。
在其中一个实施例中,所述从预设的清洗规则模板集合中确定与所述清洗目标相匹配的清洗规则模板,包括:对预设的所述清洗规则模板集合中的各所述清洗规则模板对应的规则名称进行提取,并作为各所述清洗规则模板对应的名称标识,所述名称标识用于表征各所述清洗规则模板所能够清洗的信息清洗参数类型;获取所述清洗目标对应的清洗类型标识,所述清洗类型标识用于表征所述清洗目标所需要清洗的信息清洗数据类型;将所述清洗类型标识对应的信息清洗数据类型遍历所述清洗规则模板集合中的各所述清洗规则模板对应信息清洗参数类型,确定与所述清洗目标相匹配的清洗规则模板。
在其中一个实施例中,所述将所述清洗类型标识对应的信息清洗数据类型遍历所述清洗规则模板对应信息清洗参数类型,确定与所述清洗目标相匹配的清洗规则模板之后,还包括:若所述清洗目标与所述清洗规则模板匹配失败,则提示装载与所述清洗类型标识对应的信息清洗数据类型相匹配的所述清洗规则模板;基于装载后的所述清洗规则模板,使用所述清洗类型标识对应的信息清洗数据类型对装载后所述清洗规则模板对应信息清洗参数类型进行检验;若对所述信息清洗参数类型的检验为通过,则将装载后的所述清洗规则模板作为所述清洗目标相匹配的清洗规则模板。
在其中一个实施例中,所述根据所述清洗目标调整所述清洗规则模板中的信息清洗参数,得到目标信息清洗规则,包括:根据所述清洗目标确定所述清洗规则模板中需要调整的所述信息清洗参数;基于所述待清洗业务信息,根据所述清洗规则模板中信息清洗参数的限制条件对需要调整的所述信息清洗参数进行联合调整,得到已调整信息清洗参数;若所述已调整信息清洗参数超出所述信息清洗参数对应的调整范围,则修改所述限制条件后再进行所述信息清洗参数的调整,得到所述目标信息清洗规则。
在其中一个实施例中,所述根据所述待清洗业务信息对所述信息清洗参数的限制条件对所述清洗规则模板中需要调整的所述信息清洗参数按照进行调整,得到已调整信息清洗参数之后,还包括:获取所述清洗规则模板中的信息清洗关键值,所述信息清洗关键值表征所述预设的清洗规则模板集合中对应的清洗规则模板;基于所述已调整信息清洗参数以及所述清洗规则模板中的信息清洗关键值建立对应关系。
在其中一个实施例中,所述将所述目标信息清洗规则输入至信息清洗规则引擎,得到所述待清洗业务信息中各业务数据记录对应的信息清洗结果,包括:将所述待清洗业务信息中各业务数据记录中的业务数据与所述目标信息清洗规则对应的信息清洗参数进行对比;若所述业务数据记录中任意业务数据与所述信息清洗参数的对比结果均为通过,则输出该业务数据记录对应的信息清洗结果;若所述业务数据记录中任意业务数据与所述信息清洗参数的对比结果出现任意一项为未通过,则删除该所述业务数据对应的业务数据记录。
第二方面,本申请还提供了一种业务信息清洗装置。所述装置包括:清洗目标获取模块,用于获取待清洗业务信息对应的清洗目标;所述清洗目标是根据所述待清洗业务信息对应的业务清洗需求而确定的;目标信息清洗规则得到模块,用于从预设的清洗规则模板集合中确定与所述清洗目标相匹配的清洗规则模板,并根据所述清洗目标调整所述清洗规则模板中的信息清洗参数,得到目标信息清洗规则;信息清洗结果得到模块,用于将所述目标信息清洗规则输入至信息清洗规则引擎;所述信息清洗规则引擎用于按照所述目标信息清洗规则对所述待清洗业务信息进行信息清洗,得到所述待清洗业务信息中各业务数据记录对应的信息清洗结果;所述信息清洗结果用于表征对应的所述业务数据记录是否通过所述目标清洗规则构成的清洗条件;清洗后业务信息得到模块,用于在所述待清洗业务信息中,将通过所述清洗条件的业务数据记录作为清洗后业务信息。
在其中一个实施例中,目标信息清洗规则得到模块,用于对预设的所述清洗规则模板集合中的各所述清洗规则模板对应的规则名称进行提取,并作为各所述清洗规则模板对应的名称标识,所述名称标识用于表征各所述清洗规则模板所能够清洗的信息清洗参数类型;获取所述清洗目标对应的清洗类型标识,所述清洗类型标识用于表征所述清洗目标所需要清洗的信息清洗数据类型;将所述清洗类型标识对应的信息清洗数据类型遍历所述清洗规则模板集合中的各所述清洗规则模板对应信息清洗参数类型,确定与所述清洗目标相匹配的清洗规则模板。
在其中一个实施例中,目标信息清洗规则得到模块,还用于若所述清洗目标与所述清洗规则模板匹配失败,则提示装载与所述清洗类型标识对应的信息清洗数据类型相匹配的所述清洗规则模板;基于装载后的所述清洗规则模板,使用所述清洗类型标识对应的信息清洗数据类型对装载后所述清洗规则模板对应信息清洗参数类型进行检验;若对所述信息清洗参数类型的检验为通过,则将装载后的所述清洗规则模板作为所述清洗目标相匹配的清洗规则模板。
在其中一个实施例中,目标信息清洗规则得到模块,用于根据所述清洗目标确定所述清洗规则模板中需要调整的所述信息清洗参数;基于所述待清洗业务信息,根据所述清洗规则模板中信息清洗参数的限制条件对需要调整的所述信息清洗参数进行联合调整,得到已调整信息清洗参数;若所述已调整信息清洗参数超出所述信息清洗参数对应的调整范围,则修改所述限制条件后再进行所述信息清洗参数的调整,得到所述目标信息清洗规则。
在其中一个实施例中,目标信息清洗规则得到模块,还用于获取所述清洗规则模板中的信息清洗关键值,所述信息清洗关键值表征所述预设的清洗规则模板集合中对应的清洗规则模板;基于所述已调整信息清洗参数以及所述清洗规则模板中的信息清洗关键值建立对应关系。
在其中一个实施例中,信息清洗结果得到模块,用于将所述待清洗业务信息中各业务数据记录中的业务数据与所述目标信息清洗规则对应的信息清洗参数进行对比;若所述业务数据记录中任意业务数据与所述信息清洗参数的对比结果均为通过,则输出该业务数据记录对应的信息清洗结果;若所述业务数据记录中任意业务数据与所述信息清洗参数的对比结果出现任意一项为未通过,则删除该所述业务数据对应的业务数据记录。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取待清洗业务信息对应的清洗目标;所述清洗目标是根据所述待清洗业务信息对应的业务清洗需求而确定的;从预设的清洗规则模板集合中确定与所述清洗目标相匹配的清洗规则模板,并根据所述清洗目标调整所述清洗规则模板中的信息清洗参数,得到目标信息清洗规则;将所述目标信息清洗规则输入至信息清洗规则引擎;所述信息清洗规则引擎用于按照所述目标信息清洗规则对所述待清洗业务信息进行信息清洗,得到所述待清洗业务信息中各业务数据记录对应的信息清洗结果;所述信息清洗结果用于表征对应的所述业务数据记录是否通过所述目标清洗规则构成的清洗条件;在所述待清洗业务信息中,将通过所述清洗条件的业务数据记录作为清洗后业务信息。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取待清洗业务信息对应的清洗目标;所述清洗目标是根据所述待清洗业务信息对应的业务清洗需求而确定的;从预设的清洗规则模板集合中确定与所述清洗目标相匹配的清洗规则模板,并根据所述清洗目标调整所述清洗规则模板中的信息清洗参数,得到目标信息清洗规则;将所述目标信息清洗规则输入至信息清洗规则引擎;所述信息清洗规则引擎用于按照所述目标信息清洗规则对所述待清洗业务信息进行信息清洗,得到所述待清洗业务信息中各业务数据记录对应的信息清洗结果;所述信息清洗结果用于表征对应的所述业务数据记录是否通过所述目标清洗规则构成的清洗条件;在所述待清洗业务信息中,将通过所述清洗条件的业务数据记录作为清洗后业务信息。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:获取待清洗业务信息对应的清洗目标;所述清洗目标是根据所述待清洗业务信息对应的业务清洗需求而确定的;从预设的清洗规则模板集合中确定与所述清洗目标相匹配的清洗规则模板,并根据所述清洗目标调整所述清洗规则模板中的信息清洗参数,得到目标信息清洗规则;将所述目标信息清洗规则输入至信息清洗规则引擎;所述信息清洗规则引擎用于按照所述目标信息清洗规则对所述待清洗业务信息进行信息清洗,得到所述待清洗业务信息中各业务数据记录对应的信息清洗结果;所述信息清洗结果用于表征对应的所述业务数据记录是否通过所述目标清洗规则构成的清洗条件;在所述待清洗业务信息中,将通过所述清洗条件的业务数据记录作为清洗后业务信息。
上述业务信息清洗方法、装置、计算机设备、存储介质和计算机程序产品,通过获取待清洗业务信息对应的清洗目标;清洗目标是根据待清洗业务信息对应的业务清洗需求而确定的;从预设的清洗规则模板集合中确定与清洗目标相匹配的清洗规则模板,并根据清洗目标调整清洗规则模板中的信息清洗参数,得到目标信息清洗规则;将目标信息清洗规则输入至信息清洗规则引擎;信息清洗规则引擎用于按照目标信息清洗规则对待清洗业务信息进行信息清洗,得到待清洗业务信息中各业务数据记录对应的信息清洗结果;信息清洗结果用于表征对应的业务数据记录是否通过目标清洗规则构成的清洗条件;在待清洗业务信息中,将通过清洗条件的业务数据记录作为清洗后业务信息。
通过基于规则引擎的业务信息清洗方法,针对业务信息的清洗需求对应的清洗目标,通过抽取清洗规则,并引入配置中心以及信息清洗规则引擎,将清洗规则配置于配置中心,从而提供了一种可以调整清洗规则的信息清洗方法。该方法既可以快速响应业务有新的清洗需求的场景,又可以在无需停机的情况下响应业务根据实时情况调整清洗规则或清洗阈值从而达到发布的需求。同时具备了实时性和灵活性,可较好的满足不同领域业务信息数据清洗的要求,提高业务信息清洗的效率。
附图说明
图1为一个实施例中业务信息清洗方法的应用环境图;
图2为一个实施例中业务信息清洗方法的流程示意图;
图3为一个实施例中确定相匹配的清洗规则模板方法的流程示意图;
图4为另一个实施例中确定相匹配的清洗规则模板方法的流程示意图;
图5为一个实施例中确定目标信息清洗规则方法的流程示意图;
图6为另一个实施例中确定目标信息清洗规则方法的流程示意图;
图7为另一个实施例中业务信息清洗方法的流程示意图;
图8为一个实施例中清洗规则包含信息示意图;
图9为一个实施例中引入Apollo配置中心后的整个流程的示意图;
图10为一个实施例中业务信息清洗装置的结构框图;
图11为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的业务信息清洗方法,可以应用于如图1所示的应用环境中。终端102获取数据,服务器104响应终端102的指令接收终端102的数据,并且对获取得到的数据进行计算,服务器104将数据的计算结果传输回终端102,并且由终端102进行显示。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。服务器104从终端102处获取待清洗业务信息对应的清洗目标;清洗目标是根据待清洗业务信息对应的业务清洗需求而确定的;从预设的清洗规则模板集合中确定与清洗目标相匹配的清洗规则模板,并根据清洗目标调整清洗规则模板中的信息清洗参数,得到目标信息清洗规则;将目标信息清洗规则输入至信息清洗规则引擎;信息清洗规则引擎用于按照目标信息清洗规则对待清洗业务信息进行信息清洗,得到待清洗业务信息中各业务数据记录对应的信息清洗结果;信息清洗结果用于表征对应的业务数据记录是否通过目标清洗规则构成的清洗条件;在待清洗业务信息中,将通过清洗条件的业务数据记录作为清洗后业务信息。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种业务信息清洗方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,获取待清洗业务信息对应的清洗目标。
其中,待清洗业务信息可以是包含多条业务数据记录的一个集合,其中待清洗业务信息里面的各条业务数据记录都需要经过信息清洗,如果任意一条业务数据记录能通过组合条件中所有条件的清洗,则用于信息发布,如果任意一条业务数据记录不能通过组合条件中任意一条条件的清洗,则该信息被删除。
其中,清洗目标可以是对待清洗业务信息中每一个业务记录数据清洗后所指向的方向,例如A业务记录数据中的振幅不能大于300,则清洗目标为保留振幅小于300的A的业务记录数据。每一个业务记录数据对应的清洗目标是根据待清洗业务信息对应的业务清洗需求而确定的,因此清洗目标是动态变化的,对于具有同一个清洗目标的业务数据记录,该清洗目标也同时为待清洗业务信息对应的清洗目标。
具体地,服务器响应终端的指令,从终端处获取待清洗业务信息对应的清洗目标,并且将获取到的待清洗业务信息以及对应的清洗目标存储到存储单元中,当服务器需要对待清洗业务信息中的任意一条业务数据记录进行清洗时,则从存储单元中调取至易失性存储资源以供中央处理器进行计算。其中,待清洗业务信息可以是单个信息,也可以为多个信息同时输入,对于每一个待清洗业务信息,可以包含至少一条业务数据记录,而每一条业务数据记录有其对应的清洗目标。
举例来说,服务器104响应终端102的指令,从终端102处获取待清洗业务信息对应的清洗目标,并存储到服务器104中的存储单元中,其中服务器104获取到的待清洗业务信息有10条,对应每一条的待清洗业务信息有20条业务数据记录,而每一个业务数据记录有各自对应的清洗目标。
步骤204,从预设的清洗规则模板集合中确定与清洗目标相匹配的清洗规则模板,并根据清洗目标调整清洗规则模板中的信息清洗参数,得到目标信息清洗规则。
其中,清洗规则模板是预先设置在计算机中,用于对待清洗业务信息中的业务数据记录进行清洗的原始规则模板,清洗规则模板中有多个参数,可以根据实际的需求对里面的参数进行调整,以达到对不符合需求的业务数据记录进行清洗。
其中,清洗规则模板集合可以是多个不同类型的清洗规则模板所组成的集合,而每一个类型的清洗规则模板里面又可以分为不同清洗目标的清洗规则模板。
其中,信息清洗参数可以是清洗规则模板中用以对业务数据记录中的各个数据进行对比的参数,并得到对比结果,信息清洗参数包括规则编号、档位、字段1~字段n、比较方式、阈值等中的一个或者多个。
其中,目标信息清洗规则可以是清洗规则模板中被选定的清洗规则模板经过清洗目标的要求进行信息清洗参数调整后,符合业务需求的信息清洗规则。对于信息清洗参数的调整,如果超出了清洗规则模板中的可调节范围,则需要重置清洗目标或者修改清洗规则模板的调整范围对应的阈值。对于清洗规则模板中的参数的操作,不仅够对参数进行调整,也对清洗规则模板中的参数进行增加或者删除。
具体地,将业务信息的清洗规则进行模板化,且清洗规则可以进行拓展,实现了以配置化的形式执行清洗,对应业务调整有调整清洗规则的需求时,可通过调整配置项的形式调整清洗规则。此外,通过配置化的形式也可以实现快便捷的调整清洗阈值的目标。在此基础上,在对得到目标信息清洗规则的过程中引入配置中心,将所要执行的清洗规则配置到配置中心,可以实现通过调整配置中心内行情清洗项的配置实现实时修改清洗规则的目标。配置中心根据业务需求,确定具体地清洗目标的方向后,从预设的清洗规则模板中调取符合清洗目标的方向对应的清洗规则模板,由于对于每一条业务数据记录的具体需要清洗的阈值不同,因此根据每一条业务数据记录对应的清洗目标调整清洗规则模板中的信息清洗参数,对于具有同一个清洗目标的业务数据记录,该清洗目标也同时为待清洗业务信息对应的清洗目标。调整后的信息清洗参数应符合客观规律,且能够对业务数据记录的清洗起到作用,高效地清洗待清洗业务信息,通过信息清洗参数调整后的信息清洗规则为目标信息清洗规则。
其中,清洗规则模板集合中包括了时间类清洗规则和价格类清洗规则,而时间类清洗规则包括行情时间窗清洗规则和技术时间窗清洗规则。应该理解的是,上述所提到的两种清洗规则适用于各种业务数据记录的清洗,以下使用银行对外汇行情实时清洗这个场景进行举例。行情时间窗清洗规则:即比较当前系统时间与行情生成时间,若大于阈值则清洗不通过,反之则通过清洗;技术时间窗清洗规则:比较当前系统时间与行情进入消息队列时间,若大于阈值则清洗不通过,反之则清洗通过。同样地,价格类清洗规则包括价格倒挂清洗规则、数据源之间的价格倒挂清洗规则、纵向比较清洗规则、金字塔型价格比较清洗规则。价格倒挂清洗规则:即针对外汇行情中第一档位的买卖价格做比较,卖的值必须大于某个阈值,否则清洗不通过;数据源之间的价格倒挂清洗规则:即针对外汇行情中第一档位的买卖价格与基准行情的买卖价格分别做倒挂检查,若卖的价格与买的价格的差值大于阈值则清洗不通过,反之亦然;纵向比较清洗规则:即对外汇行情第一档位的买卖价格分别与该行情的上一报价价格做比较,若价格差超过阈值则清洗不通过,反之则清洗通过;金字塔型价格比较清洗规则:针对即期询价市场(QDM)外汇行情,针对买的价格,随着多层档位递增,其数量不断递增,且其价格不断递减;针对卖的价格,随着多层档位递增,其数量不断递增,且其价格也不断递增;不满足该规则的则清洗不通过。
举例来说,对得到目标信息清洗规则的过程中引入Apollo配置中心,将所要执行的清洗规则配置到Apollo配置中心,可以实现通过调整配置中心内行情清洗项的配置实现实时修改清洗规则的目标,具体过程为将预设的清洗规则模板集合输入至Apollo配置中心,Apollo配置中心根据清洗目标从预设的清洗规则模板集合中选取相匹配的清洗规则模板,进一步地,Apollo配置中心根据清洗目标对清洗规则模板中的信息清洗参数进行调整,调整包括新增、修改和删除,通过Apollo配置中心对信息清洗参数的调整后得到用于清洗的目标信息清洗规则。
步骤206,将目标信息清洗规则输入至信息清洗规则引擎,得到待清洗业务信息中各业务数据记录对应的信息清洗结果。
其中,信息清洗规则引擎可以是按照目标信息清洗规则对待清洗业务信息进行信息清洗计算机算法,该算法主要是对未能通过目标信息清洗规则的业务数据记录进行过滤。
其中,信息清洗结果可以是表征对应的业务数据记录是否通过目标清洗规则构成的清洗条件,对于信息清洗结果,一般情况下会给出通过或者不通过的结论,对于通过或者不通过,可以进一步输出信息清洗子结果,以得到业务数据记录中具体的数据与目标信息清洗规则中的各参数的对比结果。
具体地,配置中心将已经配置好的目标信息清洗规则输入至信息清洗规则引擎中,对待清洗业务信息中心的各条业务数据记录进行清洗,由于对于待清洗业务中心的每一条业务数据记录的清洗根据业务需求可以使用一个目标信息清洗规则,也可以同时使用多个目标信息清洗规则,因此对于待清洗业务信息中心的各条业务数据记录会输出一个或者多个信息清洗结果,每个信息清洗结果均表示通过或者未通过。对于每一个信息清洗结果,可以获取其对应的信息清洗子结果,以得到目标信息清洗规则中的每一个参数与待清洗业务信息中心的各条业务数据记录的数据的对比子结果。
举例来说,Apollo配置中心将已经配置好的目标信息清洗规则1-5输入至信息清洗规则引擎中,对待清洗业务信息中心的业务数据记录1-10进行清洗,因此对于待清洗业务信息中心的业务数据记录1-10会输出一个或者多个信息清洗结果,每个信息清洗结果均表示通过或者未通过。
步骤208,在待清洗业务信息中,将通过清洗条件的业务数据记录作为清洗后业务信息。
其中,清洗后业务信息可以是通过目标信息清洗规则的清洗后,信息清洗结果均为通过的业务数据记录。
具体地,对于信息清洗规则引擎根据目标信息清洗规则而得到的信息清洗结果,若对于任意一条业务数据记录的清洗结果均为通过,则将该业务数据记录作为清洗后业务信息进行发布,若对于任意一条业务数据记录的数据与目标信息清洗规则中任意一个参数对比结果为不通过,则对该业务数据记录进行删除,并生成删除日志记录在案。
举例来说,对于待清洗业务信息中的业务数据记录1-10,使用信息清洗规则引擎中对应目标信息清洗规则1-5进行信息清洗,得到多条清洗结果,如果任意一条业务数据记录对应的清洗结果均为通过,则将通过清洗条件的业务数据记录作为清洗后业务信息并且发布。
上述业务信息清洗方法中,通过获取待清洗业务信息对应的清洗目标;清洗目标是根据待清洗业务信息对应的业务清洗需求而确定的;从预设的清洗规则模板集合中确定与清洗目标相匹配的清洗规则模板,并根据清洗目标调整清洗规则模板中的信息清洗参数,得到目标信息清洗规则;将目标信息清洗规则输入至信息清洗规则引擎;信息清洗规则引擎用于按照目标信息清洗规则对待清洗业务信息进行信息清洗,得到待清洗业务信息中各业务数据记录对应的信息清洗结果;信息清洗结果用于表征对应的业务数据记录是否通过目标清洗规则构成的清洗条件;在待清洗业务信息中,将通过清洗条件的业务数据记录作为清洗后业务信息。
通过基于规则引擎的业务信息清洗方法,针对业务信息的清洗需求对应的清洗目标,通过抽取清洗规则,并引入配置中心以及信息清洗规则引擎,将清洗规则配置于配置中心,从而提供了一种可以调整清洗规则的信息清洗方法。该方法既可以快速响应业务有新的清洗需求的场景,又可以在无需停机的情况下响应业务根据实时情况调整清洗规则或清洗阈值从而达到发布的需求。同时具备了实时性和灵活性,可较好的满足不同领域业务信息数据清洗的要求,提高业务信息清洗的效率。
在一个实施例中,如图3所示,从预设的清洗规则模板集合中确定与清洗目标相匹配的清洗规则模板,包括:
步骤302,对预设的清洗规则模板集合中的各清洗规则模板对应的规则名称进行提取,并作为各清洗规则模板对应的名称标识。
其中,规则名称可以是清洗规则模板对应的名称,该名称能体现出清洗规则模板的清洗类型和清洗目标,例如:时间单值比较模板、价格双值互相比较模板、金字塔型量价递增模板等。
其中,名称标识可以是表示清洗规则模板的固有特性且具有名称的一个标识,使用规则名称作为名称标识,有助于表达清洗规则模板的清洗类型以及清洗目标,可直观读取清洗规则模板的主要信息。
具体地,服务器对预设的清洗规则模板集合中的每一个清洗规则模板的信息进行遍历了,对于任意一个清洗规则模板被遍历信息的时候,将会提取清洗规则模板对应的规则名称,若规则名称符合名称标识的命名方式,则将改规则名称作为该清洗规则模板对应的名称标识,若规则名称不符合名称标识的命名方式,则从该清洗规则模板中遍历到的信息对规则名称进行修改,对于修改后的规则名称作为该清洗规则模板对应的名称标识,其中名称标识用于表征各清洗规则模板所能够清洗的信息清洗参数类型。
举例来说,对预设的清洗规则模板集合中的2个清洗规则模板对应的规则名称进行提取,分别为时间单值比较模板、价格双值互相比较模板,将提取得到的规则名称分别作为这两个清洗规则模板所对应的名称标识。
步骤304,获取清洗目标对应的清洗类型标识。
其中,清洗类型标识可以是表征清洗目标中所包含的信息相对应的一个标识,清洗类型标识里面所包含的数据类型可以与名称标识里面所包含的数据类型进行比较,以确保准确选取清洗规则模板。
具体地,服务器响应终端的指令,从终端处获取清洗目标对应的清洗类型标识,并且对清洗类型标识的数据进行遍历,提取出清洗目标对应的数据类型,然后将提取的到的结果存储到存储单元中。
举例来说,服务器获取到清洗目标对应的清洗类型标识,并且对清洗类型标识中的数据进行遍历,得到数据类型1-10,并存储到服务器的存储单元中。
步骤306,将清洗类型标识对应的信息清洗数据类型遍历清洗规则模板集合中的各清洗规则模板对应信息清洗参数类型,确定与清洗目标相匹配的清洗规则模板。
信息清洗数据类型或信息清洗参数类型可以是清洗目标或及清洗规则模板中所包含的数据类型,若要使用清洗规则模板对待清洗业务信息中的业务数据记录进行清洗,则清洗目标和清洗规则模板中的数据类型需要相匹配,也就是说两者的数据类型必须一样。
具体地,将清洗类型标识的数据进行遍历,得到清洗类型标识对应的信息清洗数据类型,基于上述的信息清洗数据类型对清洗规则模板集合中的所有清洗规则模板所对应的信息清洗参数类型进行遍历,并一一对比,直至找到了与清洗类型标识对应的信息清洗数据类型完全一致的信息清洗参数类型所对应的清洗规则模板,作为与清洗目标相匹配的清洗规则模板。
举例来说,清洗类型标识对应的信息清洗数据类型为A、B、C,服务器需要从各个清洗规则模板中寻找信息清洗参数类型也为A、B、C对应的清洗规则模板,然后作为清洗目标相匹配的清洗规则模板。
本实施例中,通过对清洗目标以及各清洗规则模板种的数据类型进行比对,寻找出相匹配的清洗规则模板,能够使用最为合适的清洗规则模板对清洗目标对应的业务数据记录进行清洗,减少服务器因为清洗中数据类型不一样而导致的额外计算,提高清洗效率。
在一个实施例中,如图4所示,将清洗类型标识对应的信息清洗数据类型遍历清洗规则模板对应信息清洗参数类型,确定与清洗目标相匹配的清洗规则模板之后,还包括:
步骤402,若清洗目标与清洗规则模板匹配失败,则提示装载与清洗类型标识对应的信息清洗数据类型相匹配的清洗规则模板。
具体地,将清洗目标对应的信息清洗数据类型与清洗规则模板对应的信息清洗参数类型进行匹配后出现两者的数据类型并不匹配,则暂停清洗的进程,并且提示装载与清洗目标对应的信息清洗数据类型相匹配的清洗规则模板至清洗规则模板集合中,以丰富清洗规则模板集合的清洗规则模板。
举例来说,清洗目标对应的信息清洗数据类型为A、B、C,而清洗规则模板对应的信息清洗参数类型A、B、D,则暂停清洗的进程,提示装载信息清洗参数类型为A、B、C所对应的清洗规则模板。
步骤404,基于装载后的清洗规则模板,使用清洗类型标识对应的信息清洗数据类型对装载后清洗规则模板对应信息清洗参数类型进行检验。
具体地,将清洗规则模板装载至服务器后,服务器会自动对装载后的清洗规则模板所对应的信息清洗参数类型与所需要的清洗目标对应的信息清洗数据类型再次进行检验,判断两者的数据类型是否匹配,若发现不匹配,则重复暂停清洗进程,提示装载匹配的清洗规则模板。
举例来说,将清洗规则模板装载到服务器后,服务器会自动对装载后的清洗规则模板所对应的信息清洗参数类型A、B、C与清洗目标对应的信息清洗数据类型A、B、C进行再一次检验,判断两者的数据类型是否一致。
步骤406,若对信息清洗参数类型的检验为通过,则将装载后的清洗规则模板作为清洗目标相匹配的清洗规则模板。
具体地,如果对装载后的清洗规则模板所对应的信息清洗参数类型与所需要的清洗目标对应的信息清洗数据类型进行匹配后发现两者的数据类型都一样,则通过比对,然后将装载后的清洗规则模板作为清洗目标所需要的清洗规则模板,并对此模板针对该次清洗目标进行锁定。
举例来说,如果装载后的清洗规则模板所对应的信息清洗参数类型与所需要的清洗目标对应的信息清洗数据类型进行匹配后发现两者的数据类型都为A、B、C,则通过对比,将装载后的清洗规则模板作为清洗目标所需要的清洗规则模板。
本实施例中,通过对匹配失败后提示装载合适的清洗规则模板,并且对清洗规则模板中的数据类型进行二次验证,能够保证清洗目标与清洗规则模板的数据类型相匹配,避免清洗过程中出现报错,提高清洗效率。
在一个实施例中,如图5所示,根据清洗目标调整清洗规则模板中的信息清洗参数,得到目标信息清洗规则,包括:
步骤502,根据清洗目标确定清洗规则模板中需要调整的信息清洗参数。
具体地,对于不同的清洗目标,具有不同的清洗指向,得到不同的清洗效果,因此对于清洗规则模板中各个信息清洗参数的范围以及具体需要调整的信息清洗参数进行确定。对于任意一个清洗目标,服务器将会对实现该目标所需要调整的信息清洗参数进行确认,对于不需要调整的信息清洗参数,服务器将进一步锁定,以防止进行调整个别参数的同时引起不需要调整的参数发生变化,也可以避免错误的调整。
举例来说,服务器根据需要的清洗目标确定清洗规则模板的参数1-20中的参数6-13为需要调整的信息清洗参数,对于确定需要调整的信息清洗参数的标准,是根据清洗目标的指向以及最后结果而定。
步骤504,基于待清洗业务信息,根据清洗规则模板中信息清洗参数的限制条件对需要调整的信息清洗参数进行联合调整,得到已调整信息清洗参数。
其中,限制条件可以是对信息清洗参数的调整进行限定的范围、阈值等,限制条件一般是清洗规则模板中预先设定的,调整的时候如果信息清洗参数的调整需要超出限制条件,则需要重新设置清洗规则模板中的参数。
其中,已调整信息清洗参数可以是基于清洗业务信息,根据清洗规则模板中的信息清洗参数的限定条件对需要调整的信息清洗参数进行了合理的调整,进一步得到的信息清洗参数,则为已调整信息清洗参数。
具体地,基于待清洗业务信息中的业务需求,进一步确定需要调整的信息清洗参数的范围以及阈值,但由于清洗规则模板中也对信息清洗参数的调整范围以及阈值预先设置了限制条件,因此结合业务需求以及限制条件对需要调整的信息清洗参数在规定的范围内进行调整,得到已调整信息清洗参数,其中规定的范围由业务需求以及限制条件进行决定。
举例来说,服务器获取到的清洗业务信息为M,同时清洗规则模板中对于信息清洗参数的限制为N,如果对需要调整的信息清洗参数进行调整,则需要根据清洗业务信息M以及限制条件N共同设定的范围内进行调整,得到已调整信息清洗参数。
步骤506,若已调整信息清洗参数超出信息清洗参数对应的调整范围,则修改限制条件后再进行信息清洗参数的调整,得到目标信息清洗规则。
具体地,对于特殊的待清洗业务信息,需要对确定要调整的信息清洗参数的调整超出了清洗规则模板中信息清洗参数的限制条件,则服务器则停止相关进程,并且提示对限制条件进行修改。经过限制条件修改后的清洗规则模板需要进行零负载运行,已检查修改后的限制条件是否符合清洗规则模板所固有的客观规律。如果修改限制条件的清洗规则模板通过检查,则重新根据特殊的待清洗业务信息对需要调整的信息清洗参数进行调整,最终得到目标信息清洗规则。如果待清洗业务信息所需要调整的范围没有超出限制条件,则直接将已调整信息清洗参放入清洗规则模板中数作为目标信息清洗规则。
本实施例中,通过对清洗规则模板需要调整的信息清洗参数按照限制进行调整,能够使得清洗规则模板对应的调整后参数符合客观规律,减少不必要的运行错误,提高系统的运行效率。
在一个实施例中,如图6所示,根据待清洗业务信息对信息清洗参数的限制条件对清洗规则模板中需要调整的信息清洗参数按照进行调整,得到已调整信息清洗参数之后,还包括:
步骤602,获取清洗规则模板中的信息清洗关键值。
其中,信息清洗关键值可以是表征预设的清洗规则模板集合中对应的清洗规则模板,也就是说对于任意一个清洗规则模板,会有一个信息清洗关键值与之一一对应,信息清洗关键值相当于清洗规则模板的固有信息编号。
具体地,服务器对预设的清洗规则模板集合中的所有清洗规则模板对应的数据进行遍历,提取出各个清洗规则模板对应的信息清洗关键值,用以表述对应的清洗规则模板的信息,并且将各个信息清洗关键值以表格的形式存储起来。
举例来说,预设的清洗规则模板集合中有20个清洗规则模板,服务器对这20个清洗规则模板对应的数据进行遍历,提取出20个清洗规则模板对应的信息清洗关键值,并采用表格的形式存储起来。
步骤604,基于已调整信息清洗参数以及清洗规则模板中的信息清洗关键值建立对应关系。
具体地,对于已调整信息清洗参数,需要有对应的信息清洗关键值才方便服务器遍历的时候高效地寻找出已调整信息清洗参数对应的清洗规则模板,因此基于已调整信息清洗参数以及清洗规则模板中的信息清洗关键值建立对应关系,例如:Fx=FxR1,QuoteTime,g,5000;FxR1,KafkaTime,l,5000。其中,key表示信息清洗关键值,value可以是以分号分隔的列表,该条配置共包含两项清洗,均为FxR1清洗规则,分别对外汇行情中的QuoteTime和KafkaTime进行时间窗类清洗,l表示小于,5000表示阈值,单位为毫秒,即系统时间与QuoteTime和KafkaTime时间差均不能超过5秒。
本实施例中,通过建立信息清洗关键值与已调整信息清洗参数之间的对应关系,能够快速地通过已调整信息清洗参数定位到对应的清洗规则模板,同时也可以通过信息清洗关键值定位至已调整信息清洗参数,提高系统中信息的交换效率。
在一个实施例中,如图7所示,将目标信息清洗规则输入至信息清洗规则引擎,得到待清洗业务信息中各业务数据记录对应的信息清洗结果,包括:
步骤702,将待清洗业务信息中各业务数据记录中的业务数据与目标信息清洗规则对应的信息清洗参数进行对比。
其中,业务数据可以是业务数据记录中表示具体情况的数据,各业务数据能够反映该条业务数据记录中可用作清洗的数据。
具体地,将待清洗业务信息中各个业务数据记录中的业务数据进行遍历,提取出每一条业务数据记录对应的一个或者多个的业务数据,并将这些业务数据与目标信息清洗规则对应的信息清洗参数进行相应的对比,其中相应的对比可以是业务数据中的A类型数据要与信息清洗参数中A类型数据进行对比。
举例来说,待清洗业务信息中有5个业务数据记录,而且每个业务数据记录中有3个业务数据,数据类型分别为A、B、C,则将这些业务数据记录中的业务数据按照类型与目标信息清洗规则对应的信息清洗参数A、B、C进行响应的对比。
步骤704,若业务数据记录中任意业务数据与信息清洗参数的对比结果均为通过,则输出该业务数据记录对应的信息清洗结果。
具体地,若待清洗业务信息中的业务数据记录对应的任意业务数据和信息清洗参数经过对比之后得到的对比结果全部都为通过,也就是说任意的业务数据都符合对应的信息清洗参数的范围或者阈值,则输出该业务数据记录对应的信息清洗结果。
举例来说,如果业务数据记录对应的业务数据A、B、C和信息清洗参数对应的A、B、C进行对比后,业务数据A、B、C阈值以及范围都符合信息清洗参数A、B、C的阈值以及范围,则输出该业务数据记录对应的信息清洗结果为通过。
步骤706,若业务数据记录中任意业务数据与信息清洗参数的对比结果出现任意一项为未通过,则删除该业务数据对应的业务数据记录。
具体地,若待清洗业务信息中的业务数据记录对应的任意业务数据和信息清洗参数经过对比之后得到的对比结果出现任意一项为未通过,也就是说任意的业务数据未能都符合对应的信息清洗参数的范围或者阈值,则删除该业务数据对应的业务数据记录。
举例来说,如果业务数据记录对应的业务数据A、B、C和信息清洗参数对应的A、B、C进行对比后,业务数据A、B、C阈值以及范围未能都符合信息清洗参数A、B、C的阈值以及范围,则删除该业务数据对应的业务数据记录。
本实施例中,通过对业务数据记录中任意业务数据与目标信息清洗规则对应的信息清洗参数进行对比,能够清洗不符合目标信息清洗规则的业务数据记录,保留符合目标信息清洗规则的业务数据记录,使得清洗目标更为明确。
在一个是实施例中,针对时间类清洗规则和价格类清洗规则,可抽象出如图8所示的清洗规则。其中,规则编号为规则的唯一索引,根据该规则编号加载对应的清洗规则,不同的清洗规则对应不同的参数,其中,字段需均为名称标识中的字段,否则清洗规则无效,此外,比较方式包括大于(g)、小于(l)、等于(e)、大于等于(ge)、小于等于(le)和不等于(ne)。
在一个是实施例中,应该理解的是,上述所提到的业务信息清洗方法适用于各种业务数据记录的清洗,以下使用银行对外汇行情实时清洗这个场景进行举例:将外汇报价行情的清洗规则进行模板化,且清洗规则可以进行拓展,实现了以配置化的形式执行清洗。业务有调整清洗规则的需求时,可通过调整配置项的形式调整清洗规则。此外,通过配置化的形式也可以实现快便捷的调整清洗阈值的目标。在此基础上,在规则引擎中引入Apollo配置中心,将所要执行的清洗规则配置到Apollo配置中心,可以实现通过调整配置中心内行情清洗项的配置实现实时修改清洗规则的目标。其处理流程如图9所示:1、在配置中心调整清洗规则配置,并发布该调整;2、规则引擎读取到清洗规则变化,并将新的清洗规则加载到内存中,并替换原有清洗规则;3、规则引擎从内存中读取更新后的清洗规则并执行清洗。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的业务信息清洗方法的业务信息清洗装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个业务信息清洗装置实施例中的具体限定可以参见上文中对于业务信息清洗方法的限定,在此不再赘述。
在一个实施例中,如图10所示,提供了一种业务信息清洗装置,包括:清洗目标获取模块、目标信息清洗规则得到模块、信息清洗结果得到模块和清洗后业务信息得到模块,其中:
清洗目标获取模块1002,用于获取待清洗业务信息对应的清洗目标;清洗目标是根据待清洗业务信息对应的业务清洗需求而确定的;
目标信息清洗规则得到模块1004,用于从预设的清洗规则模板集合中确定与清洗目标相匹配的清洗规则模板,并根据清洗目标调整清洗规则模板中的信息清洗参数,得到目标信息清洗规则;
信息清洗结果得到模块1006,用于将目标信息清洗规则输入至信息清洗规则引擎;信息清洗规则引擎用于按照目标信息清洗规则对待清洗业务信息进行信息清洗,得到待清洗业务信息中各业务数据记录对应的信息清洗结果;信息清洗结果用于表征对应的业务数据记录是否通过目标清洗规则构成的清洗条件;
清洗后业务信息得到模块1008,用于在待清洗业务信息中,将通过清洗条件的业务数据记录作为清洗后业务信息。
在其中一个实施例中,目标信息清洗规则得到模块,用于对预设的清洗规则模板集合中的各清洗规则模板对应的规则名称进行提取,并作为各清洗规则模板对应的名称标识,名称标识用于表征各清洗规则模板所能够清洗的信息清洗参数类型;获取清洗目标对应的清洗类型标识,清洗类型标识用于表征清洗目标所需要清洗的信息清洗数据类型;将清洗类型标识对应的信息清洗数据类型遍历清洗规则模板集合中的各清洗规则模板对应信息清洗参数类型,确定与清洗目标相匹配的清洗规则模板。
在其中一个实施例中,目标信息清洗规则得到模块,还用于若清洗目标与清洗规则模板匹配失败,则提示装载与清洗类型标识对应的信息清洗数据类型相匹配的清洗规则模板;基于装载后的清洗规则模板,使用清洗类型标识对应的信息清洗数据类型对装载后清洗规则模板对应信息清洗参数类型进行检验;若对信息清洗参数类型的检验为通过,则将装载后的清洗规则模板作为清洗目标相匹配的清洗规则模板。
在其中一个实施例中,目标信息清洗规则得到模块,用于根据清洗目标确定清洗规则模板中需要调整的信息清洗参数;基于待清洗业务信息,根据清洗规则模板中信息清洗参数的限制条件对需要调整的信息清洗参数进行联合调整,得到已调整信息清洗参数;若已调整信息清洗参数超出信息清洗参数对应的调整范围,则修改限制条件后再进行信息清洗参数的调整,得到目标信息清洗规则。
在其中一个实施例中,目标信息清洗规则得到模块,还用于获取清洗规则模板中的信息清洗关键值,信息清洗关键值表征预设的清洗规则模板集合中对应的清洗规则模板;基于已调整信息清洗参数以及清洗规则模板中的信息清洗关键值建立对应关系。
在其中一个实施例中,信息清洗结果得到模块,用于将待清洗业务信息中各业务数据记录中的业务数据与目标信息清洗规则对应的信息清洗参数进行对比;若业务数据记录中任意业务数据与信息清洗参数的对比结果均为通过,则输出该业务数据记录对应的信息清洗结果;若业务数据记录中任意业务数据与信息清洗参数的对比结果出现任意一项为未通过,则删除该业务数据对应的业务数据记录。
上述业务信息清洗装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储服务器数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种业务信息清洗方法。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种业务信息清洗方法,其特征在于,所述方法包括:
获取待清洗业务信息对应的清洗目标;所述清洗目标是根据所述待清洗业务信息对应的业务清洗需求而确定的;
从预设的清洗规则模板集合中确定与所述清洗目标相匹配的清洗规则模板,并根据所述清洗目标调整所述清洗规则模板中的信息清洗参数,得到目标信息清洗规则;
将所述目标信息清洗规则输入至信息清洗规则引擎;所述信息清洗规则引擎用于按照所述目标信息清洗规则对所述待清洗业务信息进行信息清洗,得到所述待清洗业务信息中各业务数据记录对应的信息清洗结果;所述信息清洗结果用于表征对应的所述业务数据记录是否通过所述目标清洗规则构成的清洗条件;
在所述待清洗业务信息中,将通过所述清洗条件的业务数据记录作为清洗后业务信息。
2.根据权利要求1所述的方法,其特征在于,所述从预设的清洗规则模板集合中确定与所述清洗目标相匹配的清洗规则模板,包括:
对预设的所述清洗规则模板集合中的各所述清洗规则模板对应的规则名称进行提取,并作为各所述清洗规则模板对应的名称标识,所述名称标识用于表征各所述清洗规则模板所能够清洗的信息清洗参数类型;
获取所述清洗目标对应的清洗类型标识,所述清洗类型标识用于表征所述清洗目标所需要清洗的信息清洗数据类型;
将所述清洗类型标识对应的信息清洗数据类型遍历所述清洗规则模板集合中的各所述清洗规则模板对应信息清洗参数类型,确定与所述清洗目标相匹配的清洗规则模板。
3.根据权利要求2所述的方法,其特征在于,所述将所述清洗类型标识对应的信息清洗数据类型遍历所述清洗规则模板对应信息清洗参数类型,确定与所述清洗目标相匹配的清洗规则模板之后,还包括:
若所述清洗目标与所述清洗规则模板匹配失败,则提示装载与所述清洗类型标识对应的信息清洗数据类型相匹配的所述清洗规则模板;
基于装载后的所述清洗规则模板,使用所述清洗类型标识对应的信息清洗数据类型对装载后所述清洗规则模板对应信息清洗参数类型进行检验;
若对所述信息清洗参数类型的检验为通过,则将装载后的所述清洗规则模板作为所述清洗目标相匹配的清洗规则模板。
4.根据权利要求1所述的方法,其特征在于,所述根据所述清洗目标调整所述清洗规则模板中的信息清洗参数,得到目标信息清洗规则,包括:
根据所述清洗目标确定所述清洗规则模板中需要调整的所述信息清洗参数;
基于所述待清洗业务信息,根据所述清洗规则模板中信息清洗参数的限制条件对需要调整的所述信息清洗参数进行联合调整,得到已调整信息清洗参数;
若所述已调整信息清洗参数超出所述信息清洗参数对应的调整范围,则修改所述限制条件后再进行所述信息清洗参数的调整,得到所述目标信息清洗规则。
5.根据权利要求4所述的方法,其特征在于,所述根据所述待清洗业务信息对所述信息清洗参数的限制条件对所述清洗规则模板中需要调整的所述信息清洗参数按照进行调整,得到已调整信息清洗参数之后,还包括:
获取所述清洗规则模板中的信息清洗关键值,所述信息清洗关键值表征所述预设的清洗规则模板集合中对应的清洗规则模板;
基于所述已调整信息清洗参数以及所述清洗规则模板中的信息清洗关键值建立对应关系。
6.根据权利要求1所述的方法,其特征在于,所述将所述目标信息清洗规则输入至信息清洗规则引擎,得到所述待清洗业务信息中各业务数据记录对应的信息清洗结果,包括:
将所述待清洗业务信息中各业务数据记录中的业务数据与所述目标信息清洗规则对应的信息清洗参数进行对比;
若所述业务数据记录中任意业务数据与所述信息清洗参数的对比结果均为通过,则输出该业务数据记录对应的信息清洗结果;
若所述业务数据记录中任意业务数据与所述信息清洗参数的对比结果出现任意一项为未通过,则删除该所述业务数据对应的业务数据记录。
7.一种业务信息清洗装置,其特征在于,所述装置包括:
清洗目标获取模块,用于获取待清洗业务信息对应的清洗目标;所述清洗目标是根据所述待清洗业务信息对应的业务清洗需求而确定的;
目标信息清洗规则得到模块,用于从预设的清洗规则模板集合中确定与所述清洗目标相匹配的清洗规则模板,并根据所述清洗目标调整所述清洗规则模板中的信息清洗参数,得到目标信息清洗规则;
信息清洗结果得到模块,用于将所述目标信息清洗规则输入至信息清洗规则引擎;所述信息清洗规则引擎用于按照所述目标信息清洗规则对所述待清洗业务信息进行信息清洗,得到所述待清洗业务信息中各业务数据记录对应的信息清洗结果;所述信息清洗结果用于表征对应的所述业务数据记录是否通过所述目标清洗规则构成的清洗条件;
清洗后业务信息得到模块,用于在所述待清洗业务信息中,将通过所述清洗条件的业务数据记录作为清洗后业务信息。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202210584527.8A 2022-05-27 2022-05-27 业务信息清洗方法、装置、计算机设备和存储介质 Pending CN114880315A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210584527.8A CN114880315A (zh) 2022-05-27 2022-05-27 业务信息清洗方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210584527.8A CN114880315A (zh) 2022-05-27 2022-05-27 业务信息清洗方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN114880315A true CN114880315A (zh) 2022-08-09

Family

ID=82677164

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210584527.8A Pending CN114880315A (zh) 2022-05-27 2022-05-27 业务信息清洗方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN114880315A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116894032A (zh) * 2023-09-05 2023-10-17 江苏数兑科技有限公司 一种基于数据探查分析结果自动生成数据清洗规则的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116894032A (zh) * 2023-09-05 2023-10-17 江苏数兑科技有限公司 一种基于数据探查分析结果自动生成数据清洗规则的方法
CN116894032B (zh) * 2023-09-05 2023-11-21 江苏数兑科技有限公司 一种基于数据探查分析结果自动生成数据清洗规则的方法

Similar Documents

Publication Publication Date Title
US12003393B2 (en) Parallel computational framework and application server for determining path connectivity
KR20150042872A (ko) 관련 데이터세트의 처리
MX2012003721A (es) Sistemas y metodos para analitica de datos graficos sociales para determinar conectividad dentro de una comunidad.
CN114443639A (zh) 处理数据表及自动训练机器学习模型的方法和系统
CN114723014A (zh) 张量切分模式的确定方法、装置、计算机设备及介质
CN114880315A (zh) 业务信息清洗方法、装置、计算机设备和存储介质
US11675766B1 (en) Scalable hierarchical clustering
CN114513498B (zh) 文件传输校验方法、装置、计算机设备和存储介质
Luo et al. Autosmart: An efficient and automatic machine learning framework for temporal relational data
CN114186961A (zh) 业务审批流程配置方法、装置、计算机设备和存储介质
JP7283583B2 (ja) 制御方法、制御プログラム、及び情報処理装置
CN107894942A (zh) 数据表访问量的监控方法和装置
CN114238044A (zh) 开源项目活跃度的计算方法、装置和计算机设备
CN116757388B (zh) 一种基于冗余约束筛选的电力市场出清方法及装置
CN117891811B (zh) 一种客户数据采集分析方法、装置及云服务器
CN115205022A (zh) 一种对公客户的贷款风险控制方法及装置
CN118396362A (zh) 会签流程处理方法、装置、计算机设备、可读存储介质和程序产品
CN114461659A (zh) 查杀方法、装置、计算机设备和存储介质
CN116401165A (zh) 一种测试方法、装置、设备、存储介质及产品
CN117495518A (zh) 银行积分系统的物品管理方法、装置、设备和存储介质
CN117319488A (zh) 消息推送方法、装置、计算机设备和存储介质
CN117726484A (zh) 电力系统仿真模型的生成方法、装置、计算机设备
CN115018372A (zh) 采购流程管理方法、装置、计算机设备和存储介质
CN116166879A (zh) 分享业务处理方法、装置、计算机设备和存储介质
CN114860757A (zh) 数据库查询语句处理方法、装置、计算机设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination