CN115237925A - 数据处理方法、装置、设备、存储介质及产品 - Google Patents

数据处理方法、装置、设备、存储介质及产品 Download PDF

Info

Publication number
CN115237925A
CN115237925A CN202210968021.7A CN202210968021A CN115237925A CN 115237925 A CN115237925 A CN 115237925A CN 202210968021 A CN202210968021 A CN 202210968021A CN 115237925 A CN115237925 A CN 115237925A
Authority
CN
China
Prior art keywords
data
data table
identified
attribution
basic information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210968021.7A
Other languages
English (en)
Inventor
闫宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202210968021.7A priority Critical patent/CN115237925A/zh
Publication of CN115237925A publication Critical patent/CN115237925A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2477Temporal data queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种数据处理方法、装置、设备、存储介质及产品。该方法包括:获取数据湖系统中与数据表基础信息对应的待识别数据表,所述数据表基础信息从元数据管理系统获取,所述待识别数据表包括多个归属区域的数据,所述数据湖系统包括多个数据源系统对应的待识别数据表;对待识别数据表进行识别,获得包含各归属区域的数据总量的数据识别结果;将所述数据识别结果发送至所述数据湖系统,以供所述数据湖系统将所述数据识别结果发送至对应的终端。本申请的方法,能够对数据进行自动识别并汇总,无需用户人工处理数据,有效地提高效率,而且用户更加直观地通过数据识别结果了解不同归属区域的业务开展情况。

Description

数据处理方法、装置、设备、存储介质及产品
技术领域
本申请涉及大数据技术领域,尤其涉及一种数据处理方法、装置、设备、存储介质及产品。
背景技术
随着各类银行产品及服务不断的发展,银行的各类业务系统所产生的数据也呈现爆发式增长的态势。
不同地区的各业务系统所产生的数据分散在不同的业务系统中,针对不同地区的某一特定业务系统产生的数据进行数据分析时,需要银行相关工作人员进行数据收集,并对海量数据进行整合。
但现有的方式需要用户收集数据并整合,无法直接将各业务系统的数据统一收集和管理,使得用户工作量较大,而且效率较低。
发明内容
本申请提供一种数据处理方法、装置、设备、存储介质及产品,用以解决基于人工收集数据并整合的方式效率较低,工作量较大问题。
第一方面,本申请提供一种数据处理方法,包括:
获取数据湖系统中与数据表基础信息对应的待识别数据表,所述数据表基础信息从元数据管理系统获取,所述待识别数据表包括多个归属区域的数据,所述数据湖系统包括多个数据源系统对应的待识别数据表;
对待识别数据表进行识别,获得包含各归属区域的数据总量的数据识别结果;
将所述数据识别结果发送至所述数据湖系统,以供所述数据湖系统将所述数据识别结果发送至对应的终端。
第二方面,本申请提供一种数据处理装置,包括:
获取单元,用于获取数据湖系统中与数据表基础信息对应的待识别数据表,所述数据表基础信息从元数据管理系统获取,所述待识别数据表包括多个归属区域的数据,所述数据湖系统包括多个数据源系统对应的待识别数据表;
识别单元,用于对待识别数据表进行识别,获得包含各归属区域的数据总量的数据识别结果;
发送单元,用于将所述数据识别结果发送至所述数据湖系统,以供所述数据湖系统将所述数据识别结果发送至对应的终端。
第三方面,本发明提供电子设备,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,使得处理器执行如第一方面所述的方法。
第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面所述的方法。
第五方面,本发明提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面所述的方法。
本申请提供的数据处理方法、装置、设备、存储介质及产品,获取数据湖系统中与数据表基础信息对应的待识别数据表,所述数据表基础信息从元数据管理系统获取,所述待识别数据表包括多个归属区域的数据,所述数据湖系统包括多个数据源系统对应的待识别数据表;对待识别数据表进行识别,获得包含各归属区域的数据总量的数据识别结果;将所述数据识别结果发送至所述数据湖系统,以供所述数据湖系统将所述数据识别结果发送至对应的终端,能够对数据进行自动识别并汇总,无需用户人工处理数据,有效地提高效率,而且用户更加直观地通过数据识别结果了解不同归属区域的业务开展情况。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是本发明提供的数据处理方法的网络架构示意图;
图2是本发明实施例一提供的数据处理方法的流程示意图;
图3是本发明实施例二提供的数据处理方法的流程示意图;
图4是本发明实施例三提供的数据处理方法的流程示意图;
图5是本发明一实施例提供的数据处理装置的结构示意图;
图6是用来实现本发明实施例的数据处理方法的电子设备的第一框图;
图7是用来实现本发明实施例的数据处理方法的电子设备的第二框图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
为了清楚理解本申请的技术方案,首先对现有技术的方案进行详细介绍。
现有技术中,随着各类银行产品及服务不断的发展,银行的各类业务系统所产生的数据也呈现爆发式增长的态势,如信用卡办理、存款业务办理。
不同地区的各业务系统所产生的数据分散在不同的业务系统中,针对不同地区的某一特定业务系统产生的数据进行数据分析时,如银行需要查看某地区信用卡业务办理情况以及存款业务办理情况,需要银行相关工作人员从信用卡业务系统中收集相关数据,还需要从存款业务系统中收集相关数据,银行相关工作人员分别对海量数据进行整合,从而得到该地区信用卡业务办理明细以及存款业务办理明细。
现有的方式需要用户收集相关业务数据并进行整合,无法直接将各业务系统的数据统一收集和管理,使得用户工作量较大,而且效率较低。
所以针对现有技术中基于人工收集数据并整合的方式效率较低,工作量较大问题,发明人在研究中发现,将多个数据源系统分别与元数据管理系统及数据湖系统通信连接,各数据源系统将数据表发送至数据湖系统,各数据源系统将数据表基础信息发送至元数据管理系统。获取数据湖系统中与数据表基础信息对应的待识别数据表,数据表基础信息从元数据管理系统获取,待识别数据表包括多个归属区域的数据,数据湖系统包括多个数据源系统对应的待识别数据表;对待识别数据表进行识别,获得包含各归属区域的数据总量的数据识别结果;进一步将数据识别结果发送至数据湖系统,以供数据湖系统将数据识别结果发送至对应的终端,能够对数据进行自动识别并汇总,无需用户人工处理数据,有效地提高效率,而且用户更加直观地通过数据识别结果了解不同归属区域的业务开展情况。数据源系统将数据发送至数据湖系统,便于统一管理。
所以发明人基于上述的创造性发现,提出了本发明实施例的技术方案。下面对本发明实施例提供的数据处理方法的网络架构及应用场景进行介绍。
如图1所示,本发明实施例提供的数据处理方法对应的网络架构中包括:数据源系统对应的服务器1、元数据系统对应的服务器2、数据湖系统对应的服务器3、服务器4及终端5。数据源系统对应的服务器1分别与元数据系统对应的服务器2及数据湖系统对应的服务器3进行通信连接。服务器4分别与元数据系统对应的服务器2及数据湖系统对应的服务器3进行通信连接。数据湖系统对应的服务器3与终端5进行通信连接。数据源系统对应的服务器1将数据表基础信息发送至元数据系统对应的服务器2,数据源系统对应的服务器1将数据表发送至数据湖系统对应的服务器3。服务器4获取数据湖系统中与数据表基础信息对应的待识别数据表,数据表基础信息从元数据管理系统获取,待识别数据表包括多个归属区域的数据;对待识别数据表进行识别,获得包含各归属区域的数据总量的数据识别结果;将数据识别结果发送至数据湖系统对应的服务器3,数据湖系统对应的服务器3将数据识别结果发送至对应的终端5,终端5显示数据识别结果。能够对数据进行自动识别并汇总,无需用户人工处理数据,有效地提高效率,而且用户更加直观地通过数据识别结果了解不同归属区域的业务开展情况。
以下将参照附图来具体描述本发明的实施例。
实施例一
图2是本发明实施例一提供的数据处理方法的流程示意图,如图2所示,本实施例提供的数据处理方法的执行主体为数据处理装置,该数据处理装置位于电子设备中,则本实施例提供的数据处理方法包括以下步骤:
步骤101,获取数据湖系统中与数据表基础信息对应的待识别数据表,数据表基础信息从元数据管理系统获取,待识别数据表包括多个归属区域的数据,数据湖系统包括多个数据源系统对应的待识别数据表。
本实施例中,多个数据源系统与数据湖系统通信连接,数据源系统用于处理交易和管理交易,数据源系统包括存款系统、信用卡办理系统等,数据源系统每天都会产生大量的数据,如,多个不同区域的银行都使用存款系统办理存款业务,相应的会产生大量的数据。各数据源系统将产生的数据生成数据表,将数据表发送至数据湖系统,发送数据湖系统的数据表可被称之为入湖数据。数据湖系统用于存储各数据源系统发送的数据表,由数据湖系统进行统一管理,数据湖系统将各数据源系统发送的数据表作为待识别数据表。
可选地,数据源系统与元数据管理系统通信连接,各数据源系统将入湖数据的基础信息发送至元数据管理系统。元数据管理系统与数据处理装置通信连接,数据处理装置获取数据表基础信息,其中数据表基础信息包括表名、字段名、字段类型、字段长度、字段精度、字典值、预设归属字段等信息。
本实施例中,获取数据湖系统中与数据表基础信息对应的待识别数据表,其中,数据湖系统包括多个数据源系统对应的待识别数据表,待识别数据表中包括多个归属区域的多条数据,如包括A地区的数据及B地区的数据等多个不同地区的数据,待识别数据表可以是存款明细表、信用卡办理明细表等。
步骤102,对待识别数据表进行识别,获得包含各归属区域的数据总量的数据识别结果。
本实施例中,不同区域在办理相同业务时所使用的数据源系统相同,数据源系统将办理业务产生数据发送至数据湖系统,用户想要了解某项业务在各区域的开展情况,可以由数据处理装置对获取的待识别数据表进行识别,从而获得包含各归属区域的数据总量的数据识别结果。
步骤103,将数据识别结果发送至数据湖系统,以供数据湖系统将数据识别结果发送至对应的终端。
本实施例中,将包含各归属区域的数据总量的数据识别结果发送至数据湖系统,数据湖系统将包含各归属区域的数据总量的数据识别结果发送至对应的终端,终端显示数据识别结果,用户可以通过终端查看数据识别结果,了解不同归属区域的开展业务情况。
本实施例中,获取数据湖系统中与数据表基础信息对应的待识别数据表,对待识别数据表进行识别,获得包含各归属区域的数据总量的数据识别结果,将数据识别结果发送至数据湖系统,数据湖系统将数据识别结果发送至终端,能够对数据进行自动识别并汇总,无需用户人工处理数据,有效地提高效率,而且用户更加直观地通过数据识别结果了解不同归属区域的业务开展情况。
实施例二
图3是本发明实施例二提供的数据处理方法的流程示意图,如图3所示,在本发明实施例一提供的数据处理方法的基础上,对步骤102进行了进一步细化,具体包括以下步骤:
步骤1021,识别待识别数据表中与预设归属字段匹配的归属字段。
本实施例中,数据表基础信息包括预设归属字段,预设归属字段是指数据表中是以何种归属字段记录数据的,如,有些数据表是以地区号为字段记录的数据,有些数据表是以客户号为字段记录的数据。识别待识别数据表中与预设归属字段匹配的归属字段,如某数据表是以地区号为字段字段的,与地区号匹配的归属字段就为0001、0002等,0001代表A地区,0002代表B地区。
步骤1022,对匹配的归属字段中同一归属字段的数据进行汇总,得到同一归属字段的全部数据。
本实施例中,对匹配的归属字段中同一归属字段的数据进行汇总,从而得到同一归属字段的全部数据。如某数据表是以地区号为字段记录的,与地区号匹配的归属字段为0001、0002等,每个归属字段代表一个归属区域,0001代表A地区,0002代表B地区,对匹配的字段中0001的数据进行汇总,得到0001的全部数据,同样对匹配的字段中0002的数据进行汇总,得到0002的全部数据。
步骤1023,计算同一归属字段的全部数据的数据总量,获得各归属字段的数据总量,生成包含各归属字段的数据总量的数据识别结果。
本实施例中,计算同一归属字段的全部数据的数据总量,得到各归属字段的数据总量,如计算归属字段为0001的数据总量,得到总数,生成包含各归属字段的数据总量的数据识别结果,具体地,生成包含各归属字段的数据总量的数据表。数据识别结果中还可以包括数据产生的日期、表名。
本实施例中,通过对待识别数据表进行识别、汇总能够得到数据总量,无需用户人工处理数据,有效地提高效率。
实施例三
图4是本发明实施例三提供的数据处理方法的流程示意图,如图4所示,在本发明实施例二提供的数据处理方法的基础上,对步骤1023进行了进一步细化,具体包括以下步骤:
步骤1023a,获取预设的归属区域及归属字段的映射关系。
本实施例中,为了便于用户更直观地了解不同地区的业务开展情况,获取预设的归属区域及归属字段的映射关系,不同归属字段对应不同归属区域。
步骤1023b,分别将各归属字段与映射关系中的归属字段进行匹配。
本实施例中,分别将各归属字段与映射关系中的归属字段进行匹配,从而确定匹配的归属字段对应的归属区域。
步骤1023c,获取匹配的归属字段对应的归属区域,生成包含各归属字段及归属区域的数据总量的数据识别结果。
本实施例中,获取匹配的归属字段对应的归属区域,生成包含各归属字段及归属区域的数据总量的数据识别结果,具体地,生成包含各归属字段及归属区域的数据总量的数据表。进一步将生成包含各归属字段及归属区域的数据总量的数据表发送至数据湖系统,数据湖系统将包含各归属字段及归属区域的数据总量的数据识别结果发送至终端,终端显示包含各归属字段及归属区域的数据总量的数据识别结果,用户可以查看数据识别结果。
本实施例中,识别结果中不仅包括归属字段还包括归属区域,便于用户更直观的了解不同地区的业务开展情况。
实施例四
在本发明实施例一提供的数据处理方法的基础上,步骤101进行了进一步细化,具体包括以下步骤:
步骤1011,确定是否满足数据表对应的预设处理条件。
本实施例中,本地预先存储了多个数据表对应的预设处理条件,确定是否满足数据表对应的预设处理条件,每个数据表可以预先设置处理条件,如处理条件包括时间条件,满足条件的情况下对数据表进行识别。
步骤1012,若是,则获取满足预设处理条件的数据表的数据表基础信息,从数据湖系统中获取与数据表基础信息对应的待识别数据表。
本实施例中,若满足数据表对应的预设处理条件,获取满足预设处理条件的数据表的数据表基础信息,数据表基础信息是预先从元数据管理系统获取的,进一步从数据湖中获取与该数据表基础信息对应的待识别的数据表,对待识别数据表进行识别,获得包含各归属区域的数据总量的数据识别结果,将数据识别结果反馈至数据湖,数据湖将数据识别结果发送至对应的终端,以便用户查看。
本实施例中,预设条件可以由用户预先定制,在满足预设条件的情况下获取待识别的数据表从而识别,满足了用户多样化需求。
实施例五
在本发明实施例四提供的数据处理方法的基础上,对步骤1011进行了进一步细化,具体包括以下步骤:
步骤1011a,获取数据库中各数据表对应的预设处理时间。
本实施例中,获取数据库中各数据表对应的预设处理时间,其中,预设处理时间可以设置为24h,也可以设置为1个月,如,用户需要了解每天存款这项业务在不同地区的开展情况,可以预先将存款明细表对应的预设时间设置为24h。
步骤1011b,若当前时间为任一数据表对应的预设处理时间,则确定满足数据表对应的预设处理条件。
本实施例中,若当前时间为本地记载的任一数据表对应的预设处理时间,确定满足数据表对应的预设处理条件,获取满足预设处理条件的数据表的数据表基础信息,进一步从数据湖中获取与该数据表基础信息对应的待识别的数据表。如,预设处理时间为24,每间隔24h,从数据湖中获取存款明细表。
步骤1011b,若当前时间不为任一数据表对应的预设处理时间,则确定不满足数据表对应的预设处理条件。
本实施例中,若当前时间不为任一数据表对应的预设处理时间,确定不满足数据表对应的预设处理条件,不需要对数据表进行识别。
本实施例中,预设条件可以由用户预先定制,在满足预设条件的情况下获取待识别的数据表从而识别,满足了用户多样化需求,方便用户使用。
实施例六
在本发明实施例一提供的数据处理方法的基础上,对步骤101进行了进一步细化,具体包括以下步骤:
步骤1013,根据数据表基础信息确定数据表基础信息对应的数据表是否为待识别数据表。
本实施例中,获取元数据管理系统的数据表基础信息,元数据管理系统的数据表基础信息是由数据源系统发送的,并不是所有与数据表基础信息对应的数据表都需要进行识别、汇总处理的,因此根据数据表基础信息确定数据表基础信息对应的数据表是否为待识别数据表,如果表基础信息对应的数据表为待识别数据表,说明需要对数据表进行识别、汇总处理。
步骤1014,若是,则从数据湖系统中获取与数据表基础信息对应的待识别数据表。
本实施例中,若数据表基础信息对应的数据表为待识别数据表,进一步从数据表中获取与数据表基础信息对应的待识别数据表,待识别数据表进行识别,从而获得包含各归属区域的数据总量的数据识别结果,将数据识别结果发送至数据湖系统,数据湖系统将数据识别结果发送至对应的终端,终端显示数据识别结果,用户可以通过终端查看数据识别结果,了解不同归属区域的开展业务情况。
本实施例中,若数据表是待识别数据表才进行数据识别处理,减少了不必要的数据处理操作。
实施例七
在本发明实施例六提供的数据处理方法的基础上,对步骤1013进行了进一步细化,具体包括以下步骤:
步骤1013a,从元数据管理系统中获取数据表基础信息对应的登记信息,并根据登记信息确定数据表基础信息对应的数据是否为入湖数据。
本实施例中,从元数据管理系统中获取数据表基础信息对应的登记信息,登记信息中记录了数据是否入湖,数据表的归属区域是否为预设归属区域,其中,预设归属区域可以预先进行设置,将某些地区设置为预设归属区域。
步骤1014b,若是,则根据登记信息确定数据表的归属区域是否为预设归属区域。
本实施例中,若数据表基础信息对应的数据为入湖数据,其中入湖数据是指数据源系统产生的数据最终进入数据湖系统的数据,根据登记信息确定数据表的归属区域是否为预设归属区域。
步骤1014c,若是,则确定数据表基础信息对应的数据表为待识别数据表。
本实施例中,若数据表基础信息对应的数据为入湖数据且数据表的归属区域为预设归属区域,确定数据表基础信息对应的数据表为待识别数据表,进一步从数据表中获取与数据表基础信息对应的待识别数据表,待识别数据表进行识别,从而获得包含各归属区域的数据总量的数据识别结果。
步骤1014d,若否,则确定数据表基础信息对应的数据表不为待识别数据表。
本实施例中,若数据表基础信息对应的数据为入湖数据且数据表的归属区域不为预设归属区域,确定数据表基础信息对应的数据表不为待识别数据表,此时不需要对数据进行识别处理。
本实施例中,若数据为入湖数据且数据表的归属区域为预设归属区域才进行数据识别处理,减少了不必要的数据处理操作。
实施例八
在本发明实施例一提供的数据处理方法的基础上,步骤102之前,还包括以下步骤:
步骤102a,确定待识别数据表中的数据是否加载完成;若是,则执行步骤102。
本实施例中,确定待识别数据表的数据是否加载完成,若待识别数据表加载完成,将待识别数据表从待处理区放入待执行区,对待识别数据表进行识别,若待执行区有多个待识别数据表,则启用多个线程,采用多个线程分别对多个待识别数据表进行识别。若待识别数据表加载失败,则重新获取数据湖系统中与数据表基础信息对应的待识别数据表。在确定数据加载完成,对数据进行识别处理,能够确保数据的完整性。
图5是本发明一实施例提供的数据处理装置的结构示意图,如图5所示,本实施例提供的数据处理装置200包括获取单元201,识别单元202,发送单元203。
获取单元,用于获取数据湖系统中与数据表基础信息对应的待识别数据表,数据表基础信息从元数据管理系统获取,待识别数据表包括多个归属区域的数据,数据湖系统包括多个数据源系统对应的待识别数据表。识别单元,用于对待识别数据表进行识别,获得包含各归属区域的数据总量的数据识别结果。发送单元,用于将数据识别结果发送至数据湖系统,以供数据湖系统将数据识别结果发送至对应的终端。
可选地,识别单元,还用于识别待识别数据表中与预设归属字段匹配的归属字段;对匹配的归属字段中同一归属字段的数据进行汇总,得到同一归属字段的全部数据;计算同一归属字段的全部数据的数据总量,获得各归属字段的数据总量,生成包含各归属字段的数据总量的数据识别结果。
可选地,识别单元,还用于获取预设的归属区域及归属字段的映射关系;分别将各归属字段与映射关系中的归属字段进行匹配;获取匹配的归属字段对应的归属区域,生成包含各归属字段及归属区域的数据总量的数据识别结果。
可选地,获取单元,还用于确定是否满足数据表对应的预设处理条件;若是,则获取满足预设处理条件的数据表的数据表基础信息,从数据湖系统中获取与数据表基础信息对应的待识别数据表。
可选地,获取单元,还用于获取数据库中各数据表对应的预设处理时间;若当前时间为任一数据表对应的预设处理时间,则确定满足数据表对应的预设处理条件;若当前时间不为任一数据表对应的预设处理时间,则确定不满足数据表对应的预设处理条件。
可选地,获取单元,还用于根据数据表基础信息确定数据表基础信息对应的数据表是否为待识别数据表;若是,则从数据湖系统中获取与数据表基础信息对应的待识别数据表。
可选地,获取单元,还用于从元数据管理系统中获取数据表基础信息对应的登记信息,并根据登记信息确定数据表基础信息对应的数据是否为入湖数据;若是,则根据登记信息确定数据表的归属区域是否为预设归属区域;若是,则确定数据表基础信息对应的数据表为待识别数据表;若否,则确定数据表基础信息对应的数据表不为待识别数据表。
可选地,数据处理装置还包括:确定单元。
其中,确定待识别数据表中的数据是否加载完成。识别单元,还用于若是,则对待识别数据表进行识别。
图6是用来实现本发明实施例的数据处理方法的电子设备的第一框图,如图6所示,该电子设备300包括:存储器301,处理器302。
存储器301存储计算机执行指令;
处理器302执行存储器301存储的计算机执行指令,使得处理器302执行上述任意一个实施例提供的方法。
图7是用来实现本发明实施例的数据处理方法的电子设备的第二框图,如图7所示,该电子设备可以是计算机,数字广播终端,消息收发设备,平板设备,个人数字助理,服务器,服务器集群等。
电子设备800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)接口812,传感器组件814,以及通信组件816。
处理组件802通常控制电子设备800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在电子设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为电子设备800生成、管理和分配电力相关联的组件。
多媒体组件808包括在电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当电子设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当电子设备800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为电子设备800提供各个方面的状态评估。例如,传感器组件814可以检测到电子设备800的打开/关闭状态,组件的相对定位,例如组件为电子设备800的显示器和小键盘,传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变,用户与电子设备800接触的存在或不存在,电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行上述任意一个实施例中的方法。
在示例性实施例中,还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行上述任意一个实施例中的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本发明旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求书指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims (12)

1.一种数据处理方法,其特征在于,所述方法包括:
获取数据湖系统中与数据表基础信息对应的待识别数据表,所述数据表基础信息从元数据管理系统获取,所述待识别数据表包括多个归属区域的数据,所述数据湖系统包括多个数据源系统对应的待识别数据表;
对待识别数据表进行识别,获得包含各归属区域的数据总量的数据识别结果;
将所述数据识别结果发送至所述数据湖系统,以供所述数据湖系统将所述数据识别结果发送至对应的终端。
2.根据权利要求1所述的方法,其特征在于,所述数据表基础信息包括:预设归属字段;
所述对待识别数据表进行识别,获得包含各归属区域的数据总量的数据识别结果,包括:
识别所述待识别数据表中与预设归属字段匹配的归属字段;
对匹配的归属字段中同一归属字段的数据进行汇总,得到同一归属字段的全部数据;
计算同一归属字段的全部数据的数据总量,获得各归属字段的数据总量,生成包含各归属字段的数据总量的数据识别结果。
3.根据权利要求2所述的方法,其特征在于,所述生成包含各归属字段的数据总量的数据识别结果,包括:
获取预设的归属区域及归属字段的映射关系;
分别将各归属字段与所述映射关系中的归属字段进行匹配;
获取匹配的归属字段对应的归属区域,生成包含各归属字段及归属区域的数据总量的数据识别结果。
4.根据权利要求1所述的方法,其特征在于,所述获取数据湖系统中与数据表基础信息对应的待识别数据表,包括:
确定是否满足数据表对应的预设处理条件;
若是,则获取满足预设处理条件的数据表的数据表基础信息,从数据湖系统中获取与数据表基础信息对应的待识别数据表。
5.根据权利要求4所述的方法,其特征在于,所述确定是否满足数据表对应的预设处理条件,包括:
获取数据库中各数据表对应的预设处理时间;
若当前时间为任一数据表对应的预设处理时间,则确定满足数据表对应的预设处理条件;
若当前时间不为任一数据表对应的预设处理时间,则确定不满足数据表对应的预设处理条件。
6.根据权利要求1所述的方法,其特征在于,所述获取数据湖系统中与数据表基础信息对应的待识别数据表,包括:
根据数据表基础信息确定所述数据表基础信息对应的数据表是否为待识别数据表;
若是,则从数据湖系统中获取与数据表基础信息对应的待识别数据表。
7.根据权利要求6所述的方法,其特征在于,所述根据数据表基础信息确定所述数据表基础信息对应的数据表是否为待识别数据表,包括:
从所述元数据管理系统中获取数据表基础信息对应的登记信息,并根据所述登记信息确定数据表基础信息对应的数据是否为入湖数据;
若是,则根据所述登记信息确定所述数据表的归属区域是否为预设归属区域;
若是,则确定数据表基础信息对应的数据表为待识别数据表;
若否,则确定数据表基础信息对应的数据表不为待识别数据表。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述对待识别数据表进行识别之前,还包括:
确定待识别数据表中的数据是否加载完成;
若是,则执行所述对待识别数据表进行识别的步骤。
9.一种数据处理装置,其特征在于,所述装置包括:
获取单元,用于获取数据湖系统中与数据表基础信息对应的待识别数据表,所述数据表基础信息从元数据管理系统获取,所述待识别数据表包括多个归属区域的数据,所述数据湖系统包括多个数据源系统对应的待识别数据表;
识别单元,用于对待识别数据表进行识别,获得包含各归属区域的数据总量的数据识别结果;
发送单元,用于将所述数据识别结果发送至所述数据湖系统,以供所述数据湖系统将所述数据识别结果发送至对应的终端。
10.一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,使得处理器执行如权利要求1至8任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至8任一项所述的方法。
12.一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法。
CN202210968021.7A 2022-08-12 2022-08-12 数据处理方法、装置、设备、存储介质及产品 Pending CN115237925A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210968021.7A CN115237925A (zh) 2022-08-12 2022-08-12 数据处理方法、装置、设备、存储介质及产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210968021.7A CN115237925A (zh) 2022-08-12 2022-08-12 数据处理方法、装置、设备、存储介质及产品

Publications (1)

Publication Number Publication Date
CN115237925A true CN115237925A (zh) 2022-10-25

Family

ID=83679843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210968021.7A Pending CN115237925A (zh) 2022-08-12 2022-08-12 数据处理方法、装置、设备、存储介质及产品

Country Status (1)

Country Link
CN (1) CN115237925A (zh)

Similar Documents

Publication Publication Date Title
CN106919629B (zh) 在群聊中实现信息筛选的方法及装置
CN114237784A (zh) 用户界面的生成方法、装置、电子设备及存储介质
CN108012258B (zh) 虚拟sim卡的数据流量管理方法、装置、终端及服务器
CN110908814A (zh) 消息处理方法、装置、电子设备及存储介质
CN116028568A (zh) 财政业务数据导出方法、装置及电子设备
CN115237925A (zh) 数据处理方法、装置、设备、存储介质及产品
CN112988822B (zh) 数据查询方法、装置、设备、可读存储介质以及产品
CN114880342A (zh) 信息关联方法、装置、设备、存储介质及产品
CN110489155B (zh) 数据文件管理方法、装置、电子设备及介质
CN114238728B (zh) 车辆数据的处理方法、装置和设备
CN114422811B (zh) 任务分配和任务模板生成方法、装置、设备及存储介质
CN113407754B (zh) 影集生成方法、装置、电子设备及存储介质
CN115225716B (zh) 数据处理方法、装置和电子设备
CN114710401B (zh) 异常定位方法和装置
CN113468167B (zh) 一种数据库高水位回收方法、装置及电子设备
CN114936048B (zh) 配置管理方法、装置、电子设备及存储介质
CN116645052A (zh) 业务信息的审核方法、装置、设备及存储介质
CN107025282B (zh) 在终端中显示银行卡号信息的处理方法和装置
CN117194738A (zh) 交易的回单查询方法、装置以及设备
CN116737682A (zh) 基于交易数据的日志处理方法、装置、设备及存储介质
CN116781974A (zh) 数据处理方法、装置、电子设备及存储介质
CN118132543A (zh) 数据处理方法、装置、终端设备及介质
CN114443730A (zh) 业务数据处理方法、装置及设备
CN116009946A (zh) 基于Git的代码统计方法和装置
CN117075857A (zh) 网上银行系统的处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination