CN116541351A - 数据处理方法、装置、设备及存储介质 - Google Patents

数据处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116541351A
CN116541351A CN202310484825.4A CN202310484825A CN116541351A CN 116541351 A CN116541351 A CN 116541351A CN 202310484825 A CN202310484825 A CN 202310484825A CN 116541351 A CN116541351 A CN 116541351A
Authority
CN
China
Prior art keywords
service data
determining
data
main key
theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310484825.4A
Other languages
English (en)
Inventor
罗京
何鹏
刘长浩
潘广进
宋阳
田玉成
郑伟伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Minsheng Banking Corp Ltd
Original Assignee
China Minsheng Banking Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Minsheng Banking Corp Ltd filed Critical China Minsheng Banking Corp Ltd
Priority to CN202310484825.4A priority Critical patent/CN116541351A/zh
Publication of CN116541351A publication Critical patent/CN116541351A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种数据处理方法、装置、设备及存储介质。该方法包括:获取待处理数据,待处理数据包括多个主键子字段和每个主键子字段对应的业务数据;根据多个主键子字段,确定每个业务数据对应的主键字段;针对每个业务数据,根据业务数据对应的主键字段,确定业务数据对应的整合宽表格,并根据业务数据更新整合宽表格;针对每个业务数据,根据业务数据对应的主键子字段和主键字段,确定业务数据对应的标准表格,并根据业务数据更新标准表格,标准表格包括三范式表格和流水表格。本申请的方法,解决了现有技术方案数据处理的速度降低,占用的资源会越来越大,不利于快速的响应业务需求的问题。

Description

数据处理方法、装置、设备及存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据处理方法、装置、设备及存储介质。
背景技术
随着大数据技术的不断发展,越来越多的企业将其应用在生产过程中。
金融数据模型是按照一定的方法和逻辑,对现有的金融数据实体进行区分、整合、汇总等操作后,得到的数据实体之间关系的定义与描述。Hadoop大数据平台善于处理超大文件,它的分布式文件系统(HDFS)是针对大规模数据的高容错和高吞吐的分布式文件系统,可以构建几台到几千台的服务器组成的集群,并提供高聚合输入输出的文件读写访问,可以高并发处理任务。
使用Hadoop大数据平台处理金融数据时,如果在平台收到数据之后全部存储到三范式表格中,会导致数据处理的速度降低,占用的资源会越来越大,不利于快速的响应业务需求。
发明内容
本申请提供一种数据处理方法、装置、设备及存储介质,用以解决现有技术方案数据处理的速度降低,占用的资源会越来越大,不利于快速的响应业务需求的问题。
一方面,本申请提供一种数据处理方法,包括:
获取待处理数据,所述待处理数据包括多个主键子字段和每个主键子字段对应的业务数据;
根据所述多个主键子字段,确定每个业务数据对应的主键字段,所述主键字段对应至少一个主键子字段;
针对每个业务数据,根据所述业务数据对应的主键字段,确定所述业务数据对应的整合宽表格,并根据所述业务数据更新所述整合宽表格,所述整合宽表格用于存储业务数据的摘要数据信息;
针对每个业务数据,根据所述业务数据对应的主键子字段和主键字段,确定业务数据对应的标准表格,并根据所述业务数据更新所述标准表格,所述标准表格包括三范式表格和流水表格。
可选地,根据所述业务数据对应的主键字段,确定所述业务数据对应的整合宽表格,包括:
根据所述业务数据对应的主键字段,确定第一主题;
获取所述业务数据对应的主键字段的第一变化频率;
根据所述第一主题和所述第一变化频率,确定所述业务数据对应的整合宽表格。
可选地,所述整合宽表格包括整合主表和整合扩展表,根据所述第一主题和所述第一变化频率,确定所述业务数据对应的整合宽表格,包括:
判断所述第一变化频率是否位于第一范围内;
若是,则确定所述第一主题对应的整合扩展表,并将所述整合扩展表确定为所述整合宽表格;
若否,则确定所述第一主题对应的整合主表,并将所述整合主表确定为所述整合宽表格。
可选地,根据所述业务数据对应的主键子字段和主键字段,确定业务数据对应的标准表格,包括:
根据所述业务数据对应的主键字段,确定第一主题;
根据所述第一主题和所述业务数据对应的主键子字段,确定所述业务数据对应的标准表格。
可选地,根据所述第一主题和所述业务数据对应的主键子字段,确定所述业务数据对应的标准表格,包括:
获取所述第一主题的主题类型;
获取所述业务数据对应的主键子字段的第二变化频率或第一使用频率;
根据所述主题类型、所述第二变化频率和所述第一使用频率,确定所述业务数据对应的标准表格。
可选地,所述主题为资产、负债、渠道和营销中的一种;根据所述主题类型、所述第二变化频率和所述第一使用频率,确定所述业务数据对应的标准表格,包括:
若所述主键子字段的所述第二变化频率和所述第一使用频率属于第二范围,则确定所述业务数据对应的标准表格为所述第一主题对应的第一三范式表格;
若所述主键子字段的所述第二变化频率和所述第一使用频率属于第三范围,则确定所述业务数据对应的标准表格为所述第一主题对应的第二三范式表格;
若所述主键子字段的所述第二变化频率和所述第一使用频率属于第四范围,则确定所述业务数据对应的标准表格为所述第一主题对应的流水表格。
可选地,所述主题为客户、产品和表外中的一种;根据所述主题类型、所述第二变化频率和所述第一使用频率,确定所述业务数据对应的标准表格,包括:
若所述主键子字段的所述第二变化频率和所述第一使用频率属于第二范围,则确定所述业务数据对应的标准表格为所述第一主题对应的第一三范式表格;
若所述主键子字段的所述第二变化频率和所述第一使用频率属于第三范围,则确定所述业务数据对应的标准表格为所述第一主题对应的第二三范式表格。
另一方面,本申请提供一种数据处理装置,包括:
获取模块,用于获取待处理数据,所述待处理数据包括多个主键子字段和每个主键子字段对应的业务数据;
确定模块,用于根据所述多个主键子字段,确定每个业务数据对应的主键字段,所述主键字段对应至少一个主键子字段;
更新模块,用于针对每个业务数据,根据所述业务数据对应的主键字段,确定所述业务数据对应的整合宽表格,并根据所述业务数据更新所述整合宽表格,所述整合宽表格用于存储业务数据的摘要数据信息;
更新模块,还用于针对每个业务数据,根据所述业务数据对应的主键子字段和主键字段,确定业务数据对应的标准表格,并根据所述业务数据更新所述标准表格,所述标准表格包括三范式表格和流水表格。
一种可能的实现方式中,更新模块具体用于:
根据所述业务数据对应的主键字段,确定第一主题;
获取所述业务数据对应的主键字段的第一变化频率;
根据所述第一主题和所述第一变化频率,确定所述业务数据对应的整合宽表格。
一种可能的实现方式中,更新模块具体用于:
判断所述第一变化频率是否位于第一范围内;
若是,则确定所述第一主题对应的整合扩展表,并将所述整合扩展表确定为所述整合宽表格;
若否,则确定所述第一主题对应的整合主表,并将所述整合主表确定为所述整合宽表格。
一种可能的实现方式中,更新模块具体用于:
根据所述第一主题和所述业务数据对应的主键子字段,确定所述业务数据对应的标准表格。
一种可能的实现方式中,更新模块具体用于:
获取所述业务数据对应的主键子字段的第二变化频率或第一使用频率;
根据所述主题类型、所述第二变化频率和所述第一使用频率,确定所述业务数据对应的标准表格。
一种可能的实现方式中,更新模块具体用于:
若所述主键子字段的所述第二变化频率和所述第一使用频率属于第二范围,则确定所述业务数据对应的标准表格为所述第一主题对应的第一三范式表格;
若所述主键子字段的所述第二变化频率和所述第一使用频率属于第三范围,则确定所述业务数据对应的标准表格为所述第一主题对应的第二三范式表格;
若所述主键子字段的所述第二变化频率和所述第一使用频率属于第四范围,则确定所述业务数据对应的标准表格为所述第一主题对应的流水表格。
一种可能的实现方式中,更新模块具体用于:
若所述主键子字段的所述第二变化频率和所述第一使用频率属于第二范围,则确定所述业务数据对应的标准表格为所述第一主题对应的第一三范式表格;
若所述主键子字段的所述第二变化频率和所述第一使用频率属于第三范围,则确定所述业务数据对应的标准表格为所述第一主题对应的第二三范式表格。
本申请的第三方面,提供了一种电子设备,包括:
处理器和存储器;
存储器存储计算机执行指令;
处理器执行存储器存储的计算机执行指令,使得电子设备执行第一方面中任一项的方法。
本申请的第四方面,提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现如第一方面任一项的硬件外设的驱动程序的确定方法。
本实施例提供了一种数据处理方法、装置、设备及存储介质,该方法通过获取待处理数据,所述待处理数据包括多个主键子字段和每个主键子字段对应的业务数据;根据所述多个主键子字段,确定每个业务数据对应的主键字段;针对每个业务数据,根据所述业务数据对应的主键字段,确定所述业务数据对应的整合宽表格,并根据所述业务数据更新所述整合宽表格;针对每个业务数据,根据所述业务数据对应的主键子字段和主键字段,确定业务数据对应的标准表格,并根据所述业务数据更新所述标准表格,所述标准表格包括三范式表格和流水表格。该方法通过整合宽表格和标准表格结合的方案,降低数据冗余的同时,加强了数据整合力度,简化了数据加工流程,降低了实施难度并且缩短了批量任务的运行时间。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是本申请提供的数据处理方法的数据表格分类图;
图2a为本申请实施例提供的数据处理方法流程图一;
图2b为本申请实施例提供的客户主题结构图;
图2c为本申请实施例提供的产品主题结构图;
图2d为本申请实施例提供的资产主题结构图;
图2e为本申请实施例提供的负债主题结构图;
图2f为本申请实施例提供的事件主题结构图;
图2g为本申请实施例提供的机构主题结构图;
图2h为本申请实施例提供的营销主题结构图;
图2i为本申请实施例提供的渠道主题结构图;
图2j为本申请实施例提供的表外主题结构图;
图3为本申请实施例提供的数据处理方法流程图二;
图4为本申请实施例提供的数据处理方法流程图三;
图5为本申请实施例提供的一种数据处理装置的结构示意图;
图6为本申请实施例提供一种电子设备的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
图1是本申请提供的数据处理方法的数据表格分类图。如图1所示,该数据表格类型包括:整合宽表、第三范式表和流水表格。其中,整合宽表中包括整合主表和整合扩展表,三范式表包括第一三范式表和第二三范式表。
其中,三范式表是指表中的所有数据元素不但要能唯一地被主关键字段所标识,而且它们之间还必须相互独立,不存在其他的函数关系。宽表则是指表中包含一个对象的多个属性,字段较多,对于少量重要字段可以存在数据冗余。流水表格是指表中的数据相对于上述表中的数据变化频率较快的表格。
本申请使用整合宽表、三范式表和流水表格三种表格结合的方式来进行数据的处理。在现有技术方案中,通常使用三范式和关系型数据库搭配的技术方案来进行数据处理。在使用Hadoop大数据平台处理数据时,由于Hadoop技术架构的特点,在使用三范式表格储存数据时,没有索引,所以加载一个指定主键字段的数据需要读取多个大文件。这样做会使得数据处理的速度降低,资源存在浪费的问题。
本申请提供了一种数据处理方法,通过获取待处理数据,根据多个主键子字段,确定每个业务数据对应的主键字段,进而确定业务数据对应的整合宽表格和标准表格,并更新上述表格。此方案降低数据冗余的同时,加强了数据整合力度,简化了数据加工流程,降低实施难度并且缩短了批量任务的运行时间。
本申请提供的数据处理方法,旨在解决现有技术的如上技术问题。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图2a为本申请实施例提供的数据处理方法流程图一。如图2a所示,本实施例的方法,包括:
S201、获取待处理数据,待处理数据包括多个主键子字段和每个主键子字段对应的业务数据;
本申请实施例的执行主体可以为处理设备,也可以为设置在处理设备中的数据处理装置。数据处理装置可以通过软件实现,也可以通过软件和硬件的结合实现。
本实施例中,待处理数据是指金融系统中没有经过区分,整合,汇总等操作的数据。待处理数据包括多个主键子字段和每个主键子字段对应的业务数据。例如,处理数据可以是如下形式:客户姓名:AA,联系信息:xxx-xxxx-xxxx,账号标识xxxx,定期存款新增2000元,购入A产品10000元,购入B产品2000元。则该待处理数据的主键子字段包括客户的姓名,联系信息,账号标识,定期存款,购入A产品,购入B产品。该待处理数据的业务数据则为AA,xxx-xxxx-xxxx,2000元等数据。可以看到,主键子字段涉及到不同的主题,而业务数据则具有多种形式。如果将待处理数据不经处理的存入表格中,则查询和分析处理这些待处理数据将会变得十分困难。因此,获取到待处理数据之后,需要进行区分,整合,汇总等处理。
本申请的技术人员可以理解,本申请的数据方法可以应用于金融系统中,也可以应用于其他行业的系统中。
S202、根据多个主键子字段,确定每个业务数据对应的主键字段,主键字段对应至少一个主键子字段;
本实施例中,主键字段是指其字段所代表的含义较主键子字段更为概括。例如,主键子字段为购入A产品,购入B产品,这两个主键子字段对应的主键字段为购入产品。一般主键字段都对应着多个主键子字段。主键字段和主键子字段的对应关系可以预先设定。
本实施例中,在确定了主键子字段对应的主键字段之后,就可以据此进行整合宽表格的更新。
S203、针对每个业务数据,根据业务数据对应的主键字段,确定业务数据对应的整合宽表格,并根据业务数据更新整合宽表格,整合宽表格用于存储业务数据的摘要数据信息;
本实施例中,整合宽表格是用来存储业务数据的摘要数据信息的表格。由于使用Hadoop大数据技术,所以需要一个表格提供类似摘要和索引的功能。整合宽表格中存储的数据与三范式表格存储的数据相比,存在一定程度的冗余。例如三范式表格中存储着客户的新增不同种类的产品的数据,而整合宽表格则只存储该客户新增产品的汇总数据。当需要查询一个客户摘要信息,例如该客户拥有多少产品时,不需要获取处于Hadoop大数据平台中储存在不同大文件中的多个三范式表格,而是获取整合宽表格中该客户的一条数据记录即可。整合宽表格利用了Hadoop大数据平台善于处理大文件的优势,加强数据整合力度,简化数据加工流程,降低实施难度并且缩短了批量任务的运行时间,可以大大提升Hadoop大数据平台的数据处理速度。
可以理解,一个整合宽表格因为包含了过多的信息可能需要多个大文件才能完成存储,但其中的一条数据记录是一定在一个大文件中的。因此此时获取指定大文件即可。此处的大文件是指Hadoop大数据平台存储的单位,可以为64M或者128M。
本实施例中,在针对每个业务数据进行区分时,需要考虑主键字段,再确定业务数据对应的整合宽表格,考虑到两方面:主键字段的变化频率和主键字段的主题。在金融系统中,一个待处理数据涉及的方面实际上非常多,因此将其按照主题进行分类可以方便后期的查询分析等操作。同时,不同主题的主键字段和主键字段变化频率不同,因此设置不同种类的表格。
本申请中将金融系统中的待处理数据分为9个主题:机构,客户,资产,负债,事件,产品,表外,渠道以及营销。
其中客户主题中的客户是指一个金融机构所服务的任意对象和感兴趣进行分析的各种对象。如个人或企业客户、潜在客户、代理机构、合作伙伴、内部员工等。一个客户可以同时扮演多种角色。借助客户主题的建立可以实现基于客户基本信息的分析,是实现以客户为中心的各种分析应用的重要基础。图2b为本申请实施例提供的客户主题结构图,如图2b所示,客户主题可以包括对公客户,对私客户等多种客户。每个客户涉及的主题字段和主题子字段根据需求设置,例如对私客户中,主题字段包括如图2b所示的字段。
产品主题的产品是指为拓展市场占有率,满足客户更广泛需求而制定的可营销的交易品种的集合,也可以是金融机构向客户销售的或提供给客户所使用的服务。如果有必要,也可以包括竞争对手所提供的产品。图2c为本申请实施例提供的产品主题结构图,如图2c所示,产品主题涉及的主键字段为产品特征信息,产品内部分类信息,产品和产品的关系以及产品其他参数。
资产主题用于描述金融机构所拥有的资产,此处主要涉及贷款。图2d为本申请实施例提供的资产主题结构图,如图2d所示,资产主题涉及多种对私贷款、对公贷款、小微贷款、银团贷款、再贷款、委托贷款、贸易融资以及信用卡贷款等贷款信息和资产证券化等主键字段。
负债主题是指金融机构的负债相关信息。图2e为本申请实施例提供的负债主题结构图,如图2e所示,负债涉及主动负债、被动负债、存款、存单、电子账户、保证金以及理财等主键字段。
事件主题是指记录各种与金融机构相关的活动的详细信息,包括交易数据,比如存款、提款、收取信用卡年费、投诉、查询产品、查询地址、查询余额、网上交易等。图2f为本申请实施例提供的事件主题结构图,如图2f所示,事件主题涉及授权事件、交易流水事件、核算事件、监控事件、接触事件以及催收事件等主键字段。
机构主题是指金融机构的内部分支机构和业务单元如分行、支行、储蓄所、部门以及销售团队等的相关信息。图2g为本申请实施例提供的机构主题结构图,如图2g所示,机构主题涉及机构信息、机构特性以及机构职能历史等主键字段。
营销主题中的营销是指为了获取、维护、增强金融机构与客户的关系而开展的一些促销的活动。图2h为本申请实施例提供的营销主题结构图,如图2h所示,营销主题涉及营销活动和营销方案信息等主键字段。
渠道主题中的渠道是指客户通过渠道向金融机构获取关金融机构或金融机构产品信息以及使用金融产品。同时金融机构通过渠道向客户销售产品或提供服务。图2i为本申请实施例提供的渠道主题结构图,如图2i所示,渠道主题涉及若干类型,例如ATM、手机银行、柜台等主键字段。
表外主题是指商业金融机构所从事的,按照通行的准则不列入资产负债表内,不影响其资产负债总额,但能影响银行当期损益,改变银行资产报酬率的经营活动的相关信息。图2j为本申请实施例提供的表外主题结构图,如图2j所示,表外主题涉及如保函和代收代付等主键字段。
S204、针对每个业务数据,根据业务数据对应的主键子字段和主键字段,确定业务数据对应的标准表格,并根据业务数据更新标准表格,标准表格包括三范式表格和流水表格。
本实施例中,标准表格是相对于整合宽表格的包括三范式表格和流水表格的表格,用于储存详情信息。三范式表格相对于整合宽表格除了拥有包括的字段较少的特点,其中的字段一般是变化频率或者使用频率较高的。例如客户的联系信息,客户直接的亲属关系,卡标识与账户标识的关系等。流水表格中的数据相对于三范式表格,其中的字段变化频率更高,例如客户对智能终端程序的操作事件等。三范式表的使用可以有效节省了数据存储空间,减少了数据冗余。
因此,本申请在针对每个业务数据进行区分时,根据业务数据对应的主键子字段和主键字段的变化频率、使用频率以及所属主题,确定业务数据对应的标准表格。同时,不同主题的主键子字段和主键字段不同,因此包括的标准表格的种类和数量不同。
本实施例提供了一种数据处理方法,该方法通过获取待处理数据,待处理数据包括多个主键子字段和每个主键子字段对应的业务数据;根据多个主键子字段,确定每个业务数据对应的主键字段;针对每个业务数据,根据业务数据对应的主键字段,确定业务数据对应的整合宽表格,并根据业务数据更新整合宽表格;针对每个业务数据,根据业务数据对应的主键子字段和主键字段,确定业务数据对应的标准表格,并根据业务数据更新标准表格,标准表格包括三范式表格和流水表格。该方法通过整合宽表格和标准表格结合的方案,降低数据冗余的同时,加强了数据整合力度,简化了数据加工流程,降低了实施难度并且缩短了批量任务的运行时间。
图3为本申请实施例提供的数据处理方法流程图二。如图3所示,本实施例的方法,在图2a所示的实施例的基础上,对根据业务数据对应的主键字段,确定业务数据对应的整合宽表格的过程进行详细的表述。
S301、根据业务数据对应的主键字段,确定第一主题;
本实施例中,将金融系统中的待处理数据分为9个主题:机构,客户,资产,负债,事件,产品,表外,渠道以及营销。为了方便数据的检索和分析,不同的主题拥有各自的整合宽表格。在确定待处理数据所属的整合宽表格时,首先考虑的因素是业务数据所属的主题。因此根据业务数据对应的主题字段,确定数据所属的第一主题。
S302、获取业务数据对应的主键字段的第一变化频率;
本实施例中,因为不同主键字段的变化频率不同,因此将整合宽表格根据其中的主键字段变化频率进行分类设置。获取业务数据对应的的主键字段的第一变化频率的目的,是确定业务数据所属的整合宽表格。
本领域的技术人员可以理解,对整合宽表格的分类依据并不限定于主键字段的变化频率,也可以为主键字段的重要性、使用频率、相关程度等属性。
S303、判断第一变化频率是否位于第一范围内,若是则执行S304;若否则执行S305;
本实施例中,将整合宽表格设置为两个种类:整合扩展表和整合主表,其中整合主表中的主键字段变化频率大于整合拓展表。以主题为客户为例,客户的基本信息,国家,姓名这些重要性高、使用率高或相关程度高的属性的主键字段即可放在整合主表内,而房产属性等主键字段可以放到整合扩展表。
当整合宽表格的分类依据为第一变化频率,并且整合宽表格设置为两个种类时,需要判断第一变化频率是否位于第一范围内。第一范围即为整合扩展表中主键字段所属频率范围。
本领域的技术人员可以理解,当根据主键字段变化频率设置整合宽表格的种类时,可以设置包括但不限于两个或者两个以上的整合宽表格。
S304、若是,则确定第一主题对应的整合扩展表,并将整合扩展表确定为整合宽表格;
S305、若否,则确定第一主题对应的整合主表,并将整合主表确定为整合宽表格。
本实施例中,在确定了业务数据所属的整合宽表格之后,根据业务数据更新对应的整合宽表格。
本实施例提供了一种数据处理方法,该方法通过根据业务数据对应的主键字段,确定第一主题;获取业务数据对应的主键字段的第一变化频率;判断第一变化频率是否位于第一范围内;若是,则确定第一主题对应的整合扩展表,并将整合扩展表确定为整合宽表格;若否,则确定第一主题对应的整合主表,并将整合主表确定为整合宽表格。该方法通过业务数据对应的主题字段,确定第一主题和变化频率,进而确定业务数据所属的整合宽表格,大大提升了本申请方法的实用性。
图4为本申请实施例提供的数据处理方法流程图三。如图4所示,本实施例的方法,在图2a所示的实施例的基础上,对根据业务数据对应的主键子字段和主键字段,确定业务数据对应的标准表格的过程进行详细的表述。
S401、根据业务数据对应的主键字段,确定第一主题;
本实施例中,将金融系统中的待处理数据分为9个主题,为了方便数据的检索和分析,不同的主题拥有各自的标准表格。在确定待处理数据所属的标准表格时,首先考虑的因素是业务数据所属的主题。因此根据业务数据对应的主题字段,确定数据所属的第一主题。
S402、获取第一主题的主题类型;
本实施例中,因为标准表格包括两种表格:三范式表格和流水表格,其中的有些主题因为其主键子字段的变化频率或者使用频率,不需要设置流水表格。例如产品主题涉及的主键字段,因为变化频率教低,不需要设置流水表格。后续确定业务数据所属的表格主要的依据是业务数据的使用频率或者变化频率。因此为了简化数据处理的流程,首选确定主题类型,即确定主键字段对应的标准表格是否设置有流水表格。
S403、获取业务数据对应的主键子字段的第二变化频率或第一使用频率;
本实施例中,作为确定业务数据所属的表格主要的依据,需要首先获取业务数据对应的主键子字段的第二变化频率或第一使用频率。需要注意的是,与整合宽表格不同,此时需要的是主键子字段的特性。原因是标准表格中存储的是详情信息,例如客户新增的不同类型的产品的金额,或者客户使用手机软件时的点击事件等。
S404、根据主题类型、第二变化频率和第一使用频率,确定业务数据对应的标准表格。
本实施例中,根据三范式表格和流水表格的属性,标准表格中的三范式表格中,主键字段的第二变化频率或第一使用频率一般小于流水表格中的主键字段的第二变化频率或第一使用频率。一个主题可以设置一个流水表格,而三范式表格可以根据需求设置两个或者两个以上。因此在确定主题类型之后,通过判断第二变化频率和第一使用频率所属的预设范围,确定业务数据对应的标准表格。在确定了业务数据所属的标准表格之后,根据业务数据更新对应的标准表格。
可选地,当主题为资产、负债、渠道和营销中的一种时,根据主题类型、第二变化频率和第一使用频率,确定业务数据对应的标准表格,包括:
若主键子字段的第二变化频率和第一使用频率属于第二范围,则确定业务数据对应的标准表格为第一主题对应的第一三范式表格;
若主键子字段的第二变化频率和第一使用频率属于第三范围,则确定业务数据对应的标准表格为第一主题对应的第二三范式表格;
若主键子字段的第二变化频率和第一使用频率属于第四范围,则确定业务数据对应的标准表格为第一主题对应的流水表格。
本实施例中,当主题为资产、负债、渠道和营销中的一种时,通常设置有流水表格。以包括各种贷款的资产为例,存在办理,还贷,利息等各种快速变化且需要全部记录的主键子字段,因此有必要设置流水表格。
本实施例中,将三范式表格设置为两个种类:第一三范式表格和第二三范式表格,其区别为所存储的主键子字段的第二变化频率或者第一使用频率不同。通过判断第二变化频率和第一使用频率来确定业务数据对应的标准表格。若属于第二范围,则确定业务数据对应的标准表格为第一主题对应的第一三范式表格;若属于第四范围,则确定业务数据对应的标准表格为第一主题对应的流水表格;若属于第四范围,则确定业务数据对应的标准表格为第一主题对应的流水表格。此时第四范围的数值大于第三范围和第二范围。第三范围的数值大于或者小于第二范围的数值。
本领域的技术人员可以理解,当根据主键字段变化频率或者使用频率设置三范式表格的种类时,可以设置包括但不限于两个或者两个以上的三范式表格。
可选地,主题为客户、产品和表外中的一种;根据主题类型、第二变化频率和第一使用频率,确定业务数据对应的标准表格,包括:
若主键子字段的第二变化频率和第一使用频率属于第二范围,则确定业务数据对应的标准表格为第一主题对应的第一三范式表格;
若主键子字段的第二变化频率和第一使用频率属于第三范围,则确定业务数据对应的标准表格为第一主题对应的第二三范式表格。
本实施例中,当主题为客户、产品和表外中的一种时,通常不设置流水表格。以客户为例,包括国籍和姓名等信息,一般变化频率或者使用频率较低。因此没有必要设置流水表格。
本实施例中,根据主题类型、第二变化频率和第一使用频率,确定业务数据对应的标准表格的过程与上述过程相似,此处不再赘述。
本实施例提供了一种数据处理方法,该方法通过根据业务数据对应的主键字段,确定第一主题;获取第一主题的主题类型;获取业务数据对应的主键子字段的第二变化频率或第一使用频率;根据主题类型、第二变化频率和第一使用频率,确定业务数据对应的标准表格。该方法考虑到业务数据对应的主键字段的主题类型、第二变化频率和第一使用频率,确定业务数据对应的标准表格,大大提升了本申请方法的实用性。
图5为本申请实施例提供的一种数据处理装置的结构示意图。本实施例的装置可以为软件和/或硬件的形式。如图5所示,本申请实施例提供的一种数据处理装置500,包括获取模块501、确定模块502以及更新模块503,
获取模块501,用于获取待处理数据,待处理数据包括多个主键子字段和每个主键子字段对应的业务数据;
确定模块502,用于根据多个主键子字段,确定每个业务数据对应的主键字段,主键字段对应至少一个主键子字段;
更新模块503,用于针对每个业务数据,根据业务数据对应的主键字段,确定业务数据对应的整合宽表格,并根据业务数据更新整合宽表格,整合宽表格用于存储业务数据的摘要数据信息;
更新模块503,还用于针对每个业务数据,根据业务数据对应的主键子字段和主键字段,确定业务数据对应的标准表格,并根据业务数据更新标准表格,标准表格包括三范式表格和流水表格。
一种可能的实现方式中,更新模块具体用于:
根据业务数据对应的主键字段,确定第一主题;
获取业务数据对应的主键字段的第一变化频率;
根据第一主题和第一变化频率,确定业务数据对应的整合宽表格。
一种可能的实现方式中,更新模块具体用于:
判断第一变化频率是否位于第一范围内;
若是,则确定第一主题对应的整合扩展表,并将整合扩展表确定为整合宽表格;
若否,则确定第一主题对应的整合主表,并将整合主表确定为整合宽表格。
一种可能的实现方式中,更新模块具体用于:
根据第一主题和业务数据对应的主键子字段,确定业务数据对应的标准表格。
一种可能的实现方式中,更新模块具体用于:
获取业务数据对应的主键子字段的第二变化频率或第一使用频率;
根据主题类型、第二变化频率和第一使用频率,确定业务数据对应的标准表格。
一种可能的实现方式中,更新模块具体用于:
若主键子字段的第二变化频率和第一使用频率属于第二范围,则确定业务数据对应的标准表格为第一主题对应的第一三范式表格;
若主键子字段的第二变化频率和第一使用频率属于第三范围,则确定业务数据对应的标准表格为第一主题对应的第二三范式表格;
若主键子字段的第二变化频率和第一使用频率属于第四范围,则确定业务数据对应的标准表格为第一主题对应的流水表格。
一种可能的实现方式中,更新模块具体用于:
若主键子字段的第二变化频率和第一使用频率属于第二范围,则确定业务数据对应的标准表格为第一主题对应的第一三范式表格;
若主键子字段的第二变化频率和第一使用频率属于第三范围,则确定业务数据对应的标准表格为第一主题对应的第二三范式表格。
本实施例提供的数据处理的装置,可用于执行上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
本申请实施例提供一种电子设备的结构示意图,请参见图6,该电子设备20可以包括处理器21和存储器22。示例性地,处理器21、存储器22,各部分之间通过总线23相互连接。
存储器22存储计算机执行指令;
处理器21执行存储器22存储的计算机执行指令,使得电子设备执行如上述的数据处理方法。
应理解,上述处理器21可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。存储器22可能包含高速随机存取存储器(英文:Random AccessMemory,简称:RAM),也可能还包括非易失性存储器(英文:Non-volatile memory,简称:NVM),例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
本申请实施例相应还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现的数据处理方法。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
获取待处理数据,所述待处理数据包括多个主键子字段和每个主键子字段对应的业务数据;
根据所述多个主键子字段,确定每个业务数据对应的主键字段,所述主键字段对应至少一个主键子字段;
针对每个业务数据,根据所述业务数据对应的主键字段,确定所述业务数据对应的整合宽表格,并根据所述业务数据更新所述整合宽表格,所述整合宽表格用于存储业务数据的摘要数据信息;
针对每个业务数据,根据所述业务数据对应的主键子字段和主键字段,确定业务数据对应的标准表格,并根据所述业务数据更新所述标准表格,所述标准表格包括三范式表格和流水表格。
2.根据权利要求1所述的方法,其特征在于,根据所述业务数据对应的主键字段,确定所述业务数据对应的整合宽表格,包括:
根据所述业务数据对应的主键字段,确定第一主题;
获取所述业务数据对应的主键字段的第一变化频率;
根据所述第一主题和所述第一变化频率,确定所述业务数据对应的整合宽表格。
3.根据权利要求2所述的方法,其特征在于,所述整合宽表格包括整合主表和整合扩展表,根据所述第一主题和所述第一变化频率,确定所述业务数据对应的整合宽表格,包括:
判断所述第一变化频率是否位于第一范围内;
若是,则确定所述第一主题对应的整合扩展表,并将所述整合扩展表确定为所述整合宽表格;
若否,则确定所述第一主题对应的整合主表,并将所述整合主表确定为所述整合宽表格。
4.根据权利要求1-3任一项所述的方法,其特征在于,根据所述业务数据对应的主键子字段和主键字段,确定业务数据对应的标准表格,包括:
根据所述业务数据对应的主键字段,确定第一主题;
根据所述第一主题和所述业务数据对应的主键子字段,确定所述业务数据对应的标准表格。
5.根据权利要求4所述的方法,其特征在于,根据所述第一主题和所述业务数据对应的主键子字段,确定所述业务数据对应的标准表格,包括:
获取所述第一主题的主题类型;
获取所述业务数据对应的主键子字段的第二变化频率或第一使用频率;
根据所述主题类型、所述第二变化频率和所述第一使用频率,确定所述业务数据对应的标准表格。
6.根据权利要求5所述的方法,其特征在于,所述主题为资产、负债、渠道和营销中的一种;根据所述主题类型、所述第二变化频率和所述第一使用频率,确定所述业务数据对应的标准表格,包括:
若所述主键子字段的所述第二变化频率和所述第一使用频率属于第二范围,则确定所述业务数据对应的标准表格为所述第一主题对应的第一三范式表格;
若所述主键子字段的所述第二变化频率和所述第一使用频率属于第三范围,则确定所述业务数据对应的标准表格为所述第一主题对应的第二三范式表格;
若所述主键子字段的所述第二变化频率和所述第一使用频率属于第四范围,则确定所述业务数据对应的标准表格为所述第一主题对应的流水表格。
7.根据权利要求5所述的方法,其特征在于,所述主题为客户、产品和表外中的一种;根据所述主题类型、所述第二变化频率和所述第一使用频率,确定所述业务数据对应的标准表格,包括:
若所述主键子字段的所述第二变化频率和所述第一使用频率属于第二范围,则确定所述业务数据对应的标准表格为所述第一主题对应的第一三范式表格;
若所述主键子字段的所述第二变化频率和所述第一使用频率属于第三范围,则确定所述业务数据对应的标准表格为所述第一主题对应的第二三范式表格。
8.一种数据处理装置,其特征在于,包括:
获取模块,用于获取待处理数据,所述待处理数据包括多个主键子字段和每个主键子字段对应的业务数据;
确定模块,用于根据所述多个主键子字段,确定每个业务数据对应的主键字段,所述主键字段对应至少一个主键子字段;
更新模块,用于针对每个业务数据,根据所述业务数据对应的主键字段,确定所述业务数据对应的整合宽表格,并根据所述业务数据更新所述整合宽表格,所述整合宽表格用于存储业务数据的摘要数据信息;
更新模块,还用于针对每个业务数据,根据所述业务数据对应的主键子字段和主键字段,确定业务数据对应的标准表格,并根据所述业务数据更新所述标准表格,所述标准表格包括三范式表格和流水表格。
9.一种电子设备,包括:处理器和存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,使得所述电子设备执行权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至7任一项所述的一种数据处理方法。
CN202310484825.4A 2023-04-28 2023-04-28 数据处理方法、装置、设备及存储介质 Pending CN116541351A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310484825.4A CN116541351A (zh) 2023-04-28 2023-04-28 数据处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310484825.4A CN116541351A (zh) 2023-04-28 2023-04-28 数据处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116541351A true CN116541351A (zh) 2023-08-04

Family

ID=87449932

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310484825.4A Pending CN116541351A (zh) 2023-04-28 2023-04-28 数据处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116541351A (zh)

Similar Documents

Publication Publication Date Title
US20230031926A1 (en) Method, medium, and system for surfacing recommendations
US10489372B2 (en) Data storage methods, query methods, and apparatuses thereof
CN109034988B (zh) 一种会计分录生成方法和装置
US8065227B1 (en) Method and system for producing custom behavior scores for use in credit decisioning
CN111382150A (zh) 一种基于Flink的实时计算方法及系统
US20150199767A1 (en) System for Consolidating Customer Transaction Data
CN111833182B (zh) 识别风险对象的方法和装置
WO2023165271A1 (zh) 知识图谱的构建、和图计算
CN114510735A (zh) 基于角色管理的智慧共享财务管理方法及平台
CN110197426A (zh) 一种信用评分模型的建立方法、装置及可读存储介质
KR101927578B1 (ko) 기업정보 제공 시스템 및 방법
CN110874786A (zh) 虚假交易团伙识别方法、设备及计算机可读介质
CN114140221A (zh) 一种欺诈风险预警方法、装置及设备
CN116483822B (zh) 业务数据预警方法、装置、计算机设备、存储介质
CN113312259A (zh) 一种接口测试方法及装置
CN111708808A (zh) 分布式业务系统及其业务汇总查询方法、装置和设备
CN116842106A (zh) 资源线索的生成方法和装置
CN107844874A (zh) 企业营运问题分析系统及其方法
CN116541351A (zh) 数据处理方法、装置、设备及存储介质
CN114463113A (zh) 一种用于在征信风控建模中补充正样本的方法和装置
CN113450197A (zh) 挂账自平衡结果核对方法及装置
CN112598499A (zh) 确定授信额度的方法和装置
CA3074520A1 (en) System and method for regular expression generation for improved data transfer
US11107027B1 (en) Externally augmented propensity model for determining a future financial requirement
US10592980B1 (en) Systems methods and computer program products for identifying financial accounts utilized for business purposes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination