CN116303780A - 数据查询方法、装置、介质和计算设备 - Google Patents
数据查询方法、装置、介质和计算设备 Download PDFInfo
- Publication number
- CN116303780A CN116303780A CN202310251050.6A CN202310251050A CN116303780A CN 116303780 A CN116303780 A CN 116303780A CN 202310251050 A CN202310251050 A CN 202310251050A CN 116303780 A CN116303780 A CN 116303780A
- Authority
- CN
- China
- Prior art keywords
- data
- identifier
- task
- query
- same
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000001360 synchronised effect Effects 0.000 claims description 19
- 230000004044 response Effects 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 6
- 238000011161 development Methods 0.000 abstract description 9
- 230000008859 change Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 9
- 238000013507 mapping Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开的实施方式提供了一种数据查询方法、装置、介质和计算设备,该方法包括:获取查询任务对应的查询语句,并根据所述查询语句获取待查询的数据所对应的第一族名标识;在所述第一族名标识关联的多个第一数据标识中确定目标数据标识,各个所述第一数据标识对应的第一数据是位于不同的存储系统的相同数据;获取所述目标数据标识对应的第一数据。本公开中,族名标识关联的各个数据标识所对应的数据是不同存储系统的相同数据,通过族名标识关联的各个数据标识即可获取当前查询所需的数据标识,适用于所有业务场景,因而不需要为所有业务场景开发对应的代码,提高了数据查询装置的开发效率。
Description
技术领域
本公开的实施方式涉及数据查询技术领域,更具体地,本公开的实施方式涉及数据查询方法、装置、介质和计算设备。
背景技术
本部分旨在为本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
在数据查询领域中,先查找到待查询的数据的表名等数据标识,再通过数据标识的映射关系,确定待查询的数据是所在的地址,从而获取待查询数据。
同一份数据通过复制的方式,存储在不同的存储系统。在进行数据查询时,由于应用的业务场景不同,所选择的查询引擎不同,使得在不同存储系统的相同数据所命名的数据标识不同,因此,需要为不同的业务场景开发对应的代码以实现不同业务场景下的数据标识的获取。
由上可知,数据查询装置需要开发多套代码实现数据的查询,导致数据查询装置的开发效率较低。
发明内容
本公开提供一种数据查询方法、装置、介质和计算设备,用于解决数据查询装置的开发效率较低的问题。
在本公开实施方式的第一方面中,提供了一种数据查询方法,包括:获取查询任务对应的查询语句,并根据所述查询语句获取待查询的数据所对应的第一族名标识;在所述第一族名标识关联的多个第一数据标识中确定目标数据标识,各个所述第一数据标识对应的第一数据是位于不同的存储系统的相同数据;获取所述目标数据标识对应的第一数据。
在本公开一实施例中,还包括:获取相同的各个第二数据对应的第二数据标识,各个所述第二数据是分发至不同存储系统的相同数据;为各个所述第二数据设置第二族名标识;将所述第二族名标识与各个所述第二数据标识进行关联存储。
在本公开另一实施例中,所述获取相同的各个第二数据对应的第二数据标识之前,还包括:获取第一待处理任务;响应于第一待处理任务是预设任务,获取所述第一待处理任务对应的各个待分发数据,以作为各个第二数据,所述待分发数据是存储系统待存储的数据。
在本公开另一实施例中,所述获取相同的各个第二数据对应的第二数据标识之前,还包括:获取各个第二待处理任务;从各个所述第二待处理任务中确定各个数据同步任务;响应于各个所述数据同步任务是相同的数据同步任务,且相同的所述数据同步任务对应的待同步数据相同,将相同的各个所述待同步数据确定为各个第二数据。
在本公开另一实施例中,还包括:获取所述数据同步任务的目标参数,所述目标参数包括所述数据同步任务的输入表结构、输出表结构、过滤条件以及所述数据同步任务对应的语句中的句式;根据各个所述目标参数,在各个所述数据同步任务中,确定是否有相同的数据同步任务;响应于至少部分的数据同步任务是相同的数据同步任务,确定相同的数据同步任务对应的待同步数据是否相同。
在本公开另一实施例中,所述在所述第一族名标识关联的多个第一数据标识中确定目标数据标识,包括:获取所述查询任务的任务类型;基于处理所述任务类型的存储系统,从所述第一族名标识关联的多个第一数据标识中,确定目标数据标识,其中,所述第一数据对应的第一数据标识根据所述第一数据所在的存储系统设置。
在本公开另一实施例中,所述根据所述查询语句获取待查询的数据所对应的第一族名标识,包括:确定所述查询任务对应的业务场景;根据与所述业务场景匹配的存储系统,从所述第一族名标识关联的多个第一数据标识中,确定目标数据标识,其中,所述第一数据对应的第一数据标识根据所述第一数据所在的存储系统设置。
在本公开另一实施例中,所述在所述第一族名标识关联的多个第一数据标识中确定目标数据标识,包括:在第一元数据中,获取所述待查询的数据对应的第一族名标识。
在本公开另一实施例中,还包括:获取数据库发送的元数据变更信息;根据所述元数据变更信息,更新所述元数据变更信息对应的第二元数据。
在本公开实施方式的第二方面,还提供一种数据查询装置,包括:第一获取模块,用于获取查询任务对应的查询语句,并根据所述查询语句获取待查询的数据所对应的第一族名标识;第一确定模块,用于在所述第一族名标识关联的多个第一数据标识中确定目标数据标识,各个所述第一数据标识对应的第一数据是位于不同的存储系统的相同数据;第二获取模块,用于获取所述目标数据标识对应的第一数据。
在本公开一实施例中,所述数据查询装置还包括:第三获取模块,用于获取相同的各个第二数据对应的第二数据标识,各个所述第二数据是分发至不同存储系统的相同数据;设置模块,用于为各个所述第二数据设置第二族名标识;存储模块,用于将所述第二族名标识与各个所述第二数据标识进行关联存储。
在本公开一实施例中,所述数据查询装置还包括:第四获取模块,用于获取第一待处理任务;所述第四获取模块,还用于响应于第一待处理任务是预设任务,获取所述第一待处理任务对应的各个待分发数据,以作为各个第二数据,所述待分发数据是存储系统待存储的数据。
在本公开另一实施例中,所述数据查询装置还包括:第五获取模块,用于获取各个第二待处理任务;第二确定模块,用于从各个所述第二待处理任务中确定各个数据同步任务;所述第二确定模块,还用于响应于各个所述数据同步任务是相同的数据同步任务,且相同的所述数据同步任务对应的待同步数据相同,将相同的各个所述待同步数据确定为各个第二数据。
在本公开另一实施例中,所述数据查询装置还包括:第六获取模块,用于获取所述数据同步任务的目标参数,所述目标参数包括所述数据同步任务的输入表结构、输出表结构、过滤条件以及所述数据同步任务对应的语句中的句式;第三确定模块,用于根据各个所述目标参数,在各个所述数据同步任务中,确定是否有相同的数据同步任务;所述第三确定模块,还用于响应于至少部分的数据同步任务是相同的数据同步任务,确定相同的数据同步任务对应的待同步数据是否相同。
在本公开另一实施例中,所述第一确定模块,包括:第一获取单元,用于获取所述查询任务的任务类型;第一确定单元,还用于基于处理所述任务类型的存储系统,从所述第一族名标识关联的多个第一数据标识中,确定目标数据标识,其中,所述第一数据对应的第一数据标识根据所述第一数据所在的存储系统设置。
在本公开另一实施例中,所述第一确定模块,包括:第二确定单元,用于确定所述查询任务对应的业务场景;所述第二确定单元,用于根据与所述业务场景匹配的存储系统,从所述第一族名标识关联的多个第一数据标识中,确定目标数据标识,其中,所述第一数据对应的第一数据标识根据所述第一数据所在的存储系统设置。
在本公开另一实施例中,所述第一获取模块,包括:第二获取单元,用于在第一元数据中,获取所述待查询的数据对应的第一族名标识。
在本公开另一实施例中,所述第一获取模块,还包括:第三获取单元,用于获取数据库发送的元数据变更信息;更新单元,用于根据所述元数据变更信息,更新所述元数据变更信息对应的第二元数据。
在本公开实施方式的第三方面,还提供一种介质,包括:计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上所述的数据查询方法。
在本公开实施方式的第三方面,还提供一种计算设备,包括:存储器以及处理器;所述存储器存储计算机执行指令;所述处理器执行所述存储器存储的计算机执行指令,使得所述处理器执行如上所述的数据查询方法。
本公开实施方式中,族名标识关联的各个数据标识所对应的数据是不同存储系统的相同数据,通过族名标识关联的各个数据标识即可获取当前查询所需的数据标识,适用于所有业务场景,因而不需要为所有业务场景开发对应的代码,提高了数据查询装置的开发效率。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
图1示意性地示出了根据本公开实施方式的数据查询方法应用场景示意图;
图2示意性地示出了根据本公开一实施例的流程示意图;
图3示意性地示出了根据本公开另一实施例的流程示意图;
图4示意性地示出了根据本公开又一实施例的流程示意图;
图5示意性地示出了根据本公开再一实施例的流程示意图;
图6示意性地示出了根据本公开还一实施例的流程示意图;
图7示意性地示出了根据本公开实施例提供的程序产品的示意图;
图8示意性地示出了根据本公开实施例提供的数据查询装置的结构示意图;
图9示意性地示出了根据本公开实施例提供的计算设备的结构示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开,而并非以任何方式限制本公开的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本公开的实施方式,提出了一种数据查询方法、装置、介质和计算设备。
此外,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
另外,本公开所涉及的数据可以为经用户授权或者经过各方充分授权的数据,对数据的采集、传播、使用等,均符合国家相关法律法规要求,本公开实施方式/实施例可以互相组合。
下面参考本公开的若干代表性实施方式,详细阐释本公开的原理和精神。
发明概述
在数据查询领域中,先查找到待查询的数据的表名等数据标识,再通过数据标识的映射关系,确定待查询的数据是所在的地址,从而获取待查询数据。
本公开发明人发现,同一份数据通过复制的方式,存储在不同的存储系统。在进行数据查询时,由于应用的业务场景不同,所选择的查询引擎不同,使得在不同存储系统的相同数据所命名的数据标识不同,因此,需要为不同的业务场景开发对应的代码以实现不同业务场景下的数据标识的获取。由上可知,数据查询装置需要开发多套代码实现数据的查询,导致数据查询装置的开发效率较低。
本公开发明人因此想到,族名标识关联的各个数据标识所对应的数据是不同存储系统的相同数据,通过族名标识关联的各个数据标识即可获取当前查询所需的数据标识,适用于所有业务场景,因而不需要为所有业务场景开发对应的代码,提高了数据查询装置的开发效率。
应用场景总览
首先参考图1,图1为本公开实施方式的数据查询方法的应用场景示意图。数据查询装置100与终端设备200通信连接。终端设备200向终端设备发送查询请求,查询请求中携带有查询任务。数据查询装置100基于查询任务中的查询语句确定待查询的数据所对应的族名标识。族名标识关联有多个数据标识,且各个数据标识对应的数据是位于不同存储系统的相同数据,数据查询装置100在族名标识所关联的多个数据标识中确定目标数据标识,目标数据标识所对应的数据即为终端设备200所需查询的数据,数据查询装置100再将数据返回至终端设备200。
示例性方法
下面结合图1的应用场景,参考图2-图6来描述根据本公开示例性实施方式的数据查询方法。需要注意的是,上述应用场景仅是为了便于理解本公开的精神和原理而示出,本公开的实施方式在此方面不受任何限制。相反,本公开的实施方式可以应用于适用的任何场景。
示例性的,本公开的实施例涉及的数据查询装置可以是元数据中心的实体设备,也可以是与元数据中心通信连接的设备。为了便于理解本公开的方案,对元数据中心进行详细的说明。
元数据中心的作用是:1)、对所有数据信息统一命名,共享数据存储信息;2)、描述哪些数据在哪些位置中,以及访问数据的路径,用户名密码等;3)、透出数据的目录已经属性,如数据库中的库列表,库中的表列表,以及表的数据结构;4)、记录数据使用情况、以及权限控制;5)、衡量数据质量以及数据之间的血缘。元数据一经建立,便可共享。元数据的结构和完整性依赖于信息资源的价值和使用环境,且元数据的开发与利用环境往往是一个变化的分布式环境。元数据常见的使用场景有:直接通过SQL(Structured Query Language,结构化查询语言)使用元数据中心命名的数据。示例性的,在执行一条SQL语句,SQL语句中往往会使用查询表的形式来获取数据;例如SQL语句包括SELECT*FROM T1,T1是表名,在解析T1时候,通过元数据中心获取到T1代表的真实含义,如T1代表类型为MYSQL(关系型数据库管理),IP是127.0.0.1,用户名是ADMIN,密码是ADMIN,对应库是a,表是b,由此完成了T1到实际数据存储的映射。这种映射可以有效的屏蔽底层存储,不同的数据库,无论是mysql数据库还是hbase数据库,所代表的数据均可以通过元数据中心的元数据映射到一个唯一的表名,实现了基于映射的表名从对应的数据库中获取数据的数据查询。
元数据中心,会由用户、或数据库管理员,记录所有的数据库或数据源地址,数据库的访问权限会授予元数据中心。在元数据中心的内部,根据数据源的类型不同,调用不同的插件,去访问对应数据源,扫描数据源的所有信息,包括所含的库、所含的表、表的字段结构信息以及授权信息,形成元数据。当用户请求这个数据源信息时,将形成的元数据返回,使调用方通过注册别名获取到元数据,也即通过注册的方式获取到真实的数据源信息。
参照图2,图2示例性的示出了根据本公开实施例提供的数据查询方法一实施例的流程示意图,数据查询方法包括:
步骤S201,获取查询任务对应的查询语句,并根据查询语句获取待查询的数据所对应的第一族名标识。
在本实施例中,执行主体为数据查询装置,数据查询装置可以是元数据中心的实体设备,也可以是任何具备数据处理能力的终端设备。为了便于描述,以下采用装置指代数据查询装置。
装置获取查询任务,查询任务可由外部设备传输。装置解析查询任务得到查询语句。查询语句可以是SQL语句。查询语句中携带有需要获取数据所在的数据源,而数据源可由族名标识表征,也即查询语句中携带有族名标识。数据源的同一份数据可以存储在不同的存储系统,例如,日志类数据作为流表以及离线表存储在两个不同的存储系统中。装置中查询语句获取待查询的数据的数据源,也即获取表征数据源的族名标识,该族名标识定义为第一族名标识。
步骤S202,在第一族名标识关联的多个第一数据标识中确定目标数据标识,各个第一数据标识对应的第一数据是位于不同的存储系统的相同数据。
存储在不同存储系统的相同的第一数据具有对应的数据标识,该数据标识定义为第一数据标识,第一数据标识可以表征存储第一数据的存储系统。示例性的,第一数据标识为T1,表征第一数据标识所对应的第一数据是用于存储流表的存储系统。第一数据标识可以是第一数据的名称、编号或者所在的表的表名。第一族名标识表征数据源,数据源的同一份数据可存储在不同的存储系统,而第一数据标识可以表征存储系统,因而可将第一族名标识与存在不同存储系统的数据的数据标识进行关联,也即第一族名标识关联有多个第一数据标识。
查询语句中携带有需要获取的数据的类型,例如,查询语句指示需要获取流表,装置在第一族名标识关联的多个第一数据标识中,确定流表所对应的第一数据标识,作为目标数据标识。
在一示例中,装置获取查询任务的任务类型,查询语句中可携带任务类型。装置确定能够处理该任务类型的存储系统,由于第一数据对应的第一数据标识是基于第一数据所在的存储系统设置的,装置则可在第一族名标识关联的多个第一族名标识中确定存储系统所对应的第一数据标识,作为目标数据标识。
在另一示例中,不同的存储系统处理不同的业务场景,业务场景例如为实时任务、离线任务以及分析任务。查询语句中可携带业务场景,装置确定与业务场景所匹配的存储系统,存储业务场景所关联的数据即为业务场景所匹配的存储系统。据与业务场景匹配的存储系统,从第一族名标识关联的多个第一数据标识中,确定目标数据标识,也即将业务场景所匹配的存储系统所对应的第一数据标识作为目标数据标识。
步骤S203,获取目标数据标识对应的第一数据。
装置在获取的目标数据标识后,确定存储目标数据标识的数据的存储系统,再从该存储系统中提取目标数据标识对应的第一数据。
在本实施例中,族名标识关联的各个数据标识所对应的数据是不同存储系统的相同数据,通过族名标识关联的各个数据标识即可获取当前查询所需的数据标识,适用于所有业务场景,因而不需要为所有业务场景开发对应的代码,提高了数据查询装置的开发效率。
参照图3,图3示例性的示出了根据本公开实施例提供的数据查询方法另一实施例的流程示意图,基于图2所示的实施例,步骤S201之前,还包括:
步骤S301,获取相同的各个第二数据对应的第二数据标识,各个第二数据是分发至不同存储系统的相同数据。
在本实施例中,装置先获取相同的各个第二数据,各个第二数据是分发至不同存储系统的相同数据。装置基于第二数据待存储的存储系统为第二数据设置数据标识,该数据标识定义为第二数据标识。另外,第二数据的数据标识也可通过存储系统设置,装置从存储系统中获取第二数据所对应的第二数据标识。
步骤S302,为各个第二数据设置第二族名标识。
步骤S303,将第二族名标识与各个第二数据标识进行关联存储。
各个第二数据是相同的数据,因而可以为各个第二数据设置相同的族名标识,该族名标识定义为第二族名标识。装置将第二族名标识以及各个第二数据标识关联存储,以便于后续的数据查询。
在本实施例中,装置获取相同的各个第二数据对应的第二数据标识,从而为各个相同的第二数据设置第二族名标识,再将第二族名标识与各个第二数据标识进行关联存储,以便于后续的数据查询。
参照图4,图4示例性的示出了根据本公开实施例提供的数据查询方法又一实施例的流程示意图,基于图3所示的实施例,步骤S301之前,还包括:
步骤S401,获取第一待处理任务。
步骤S402,响应于第一待处理任务是预设任务,获取第一待处理任务对应的各个待分发数据,以作为各个第二数据,待分发数据是存储系统待存储的数据。
在本实施例中,装置需要进行任务的血缘分析,以确定出属于相同的数据。示例性的,特定的任务所得到的数据会分发至不同存储系统继续存储,例如,任务是日志实时处理任务,处理完的实时日志会被同时送入至流表以及离线表中,流表以及离线表各代表一个存储系统,因而可以确定日志会分发至不同的存储系统进行存储。可以上述特定的任务定义为预设任务。
装置先获取待处理任务,该待处理任务定义为第一待处理任务。装置判断第一待处理任务是否为预设任务。若是第一待处理任务是预设任务,则获取第一待处理任务对应的各个待分发数据作为相同的各个第二数据,待分发数据即为存储系统待存储的数据。
在本实施例中,装置获取第一待处理任务,若是第一待处理任务是预设任务,即可确定第一待处理任务所对应的各个待分发数据是相同的各个第二数据,也即准确的确定了存储至不同存储系统的相同数据。
参照图5,图5示例性的示出了根据本公开实施例提供的数据查询方法再一实施例的流程示意图,基于图3所示的一实施例,步骤S301之前,还包括:
步骤S501,获取各个第二待处理任务。
步骤S502,从各个第二待处理任务中确定各个数据同步任务。
步骤S503,响应于各个数据同步任务是相同的数据同步任务,且相同的数据同步任务对应的待同步数据相同,将相同的各个待同步数据确定为各个第二数据。
在本实施例中,数据同步任务是将数据同步到存储系统,若是存在多个相同的数据同步任务,则可能存在将相同的数据存储至不同存储系统的情况,因而,装置需要先筛选出数据同步任务。
装置先获取各个第二待处理任务,并在各个第二待处理任务中确定各个数据同步任务,再在各个数据同步任务中确定相同的数据同步任务,若是存在相同的数据同步任务,且相同的数据同步任务对应的待同步数据相同,则将相同的各个待同步数据确定为各个第二数据。
示例性的,装置获取数据同步任务的目标参数,目标参数包括数据同步任务的输入表结构、输出表结构、过滤条件以及数据同步任务对应的语句中的句式。装置根据各个目标参数在各个数据同步任务中,确定是否有相同的数据同步任务。例如,相同的目标参数的各个数据同步任务,则可确定为相同的数据同步任务,也即输入表结构、输出表结构、过滤条件、以及句式完全相同的数据同步任务,是相同的数据同步任务。若存在至少部分的数据同步任务是相同的数据同步任务,再确定相同的数据同步任务对应的待同步数据是否相同。
在本实施例中,装置获取各个第二待处理任务,并从各个第二待处理任务中确定各个数据同步任务,若是各个数据同步任务是相同的数据同步任务,且相同的数据同步任务所对应的待同步数据相同,则可将相同的各个待同步数据确定为各个第二数据。
参照图6,图6示例性的示出了根据本公开实施例提供的数据查询方法还一实施例的流程示意图,基于图2至图5所示的任一实施例,步骤S201包括:
步骤S601,获取查询任务对应的查询语句,并在第一元数据中,获取待查询的数据对应的第一族名标识。
在本实施例中,族名标识与数据标识之间的关联关系作为元数据进行存储。
查询语句中携带有查询任务所需查询的数据的数据源,装置遍历各个元数据,从而查找到含有数据源的族名标识的元数据,该元数据定义为第一元数据,装置从第一元数据中即可获取第一族名标识,且可从第一元数据中获取第一族名标识关联的各个第一数据标识。
示例性技术中,用户或者管理员通过登记数据源的基本信息,基于基本信息得到元数据,也即元数据包含了数据源的信息。此外,数据源的信息包括表的结构以及库的信息等。元数据的获取方式有两种方式,一种是用户请求后,元数据返回设备进行缓存,而设备通备定时扫描对应库的方式获取元数据进行缓存,元数据是定时获取的方式;另一种是用户请求返回数据结构后,基于数据结构去链接对应目标库,获取数据结构和信息,也即此种方式是即时获取元数据。这两种方案,前者会有一定概率的延迟,导致请求数据信息和实体库的数据信息不一致;第二种方式,由于目标库中数据的种类繁多,且网络情况复杂,请求的响应时间不稳定,延迟较高,导致元数据获取的效率较低。
在本实施例中,由装置主动拉取元数据,变为数据库主动向装置提供变更的元数据。此外,为了保证数据正确性,以及部分无法订阅的数据源信息,装置依然会保留定时轮询扫描的功能。以MYSQL数据库的变更为例,MYSQL中会有一个自带的表information_schema,每当数据结构变更时候,数据库会记录最后变更时间,通过数据库中的BinLog监听information_schema;当information_schema提示a库b表存在变更时,再去更新a库b表的数据到装置进行缓存,且不影响非a库b表的元数据读取。此外,装置获取数据库发送的元数据变更信息,通过元数据变更信息更新元数据变更信息对应的第二元数据,使得获取到的元数据与实际的数据信息不一致的情况的概率也大大降低。
在本实施例中,通过数据库主动的将变更的元数据上传至元数据中心(装置)的方式,可以极大的降低用户请求元数据中心响应元数据的获取请求的响应时间,也即提高的元数据的获取效率。据测试,从响应时间从以往的10秒以上的时间降低到毫秒级别的时间。
示例性介质
在介绍了本公开示例性实施方式的方法之后,接下来,参考图7对本公开示例性实施方式的存储介质进行说明。
参考图7所示,存储介质70中存储着根据本公开的实施方式的用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括计算机执行指令,该计算机执行指令用于使计算设备执行本公开所提供的数据查询方法。然而,本公开的程序产品不限于此。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机执行指令。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开公开操作的计算机执行指令,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。计算机执行指令可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备。
示例性装置
在介绍了本公开示例性实施方式的介质之后,接下来,参考图8对本公开示例性实施方式的终端设备进行说明,终端设备用于实现上述任一数据查询方法实施例中的方法,其实现原理和技术效果类似。
参考图8,图8示意性地示出了根据本公开实施例提供的数据查询装置的结构示意图。
如图8所示,数据查询装置包括:
第一获取模块810,用于获取查询任务对应的查询语句,并根据查询语句获取待查询的数据所对应的第一族名标识;
第一确定模块820,用于在第一族名标识关联的多个第一数据标识中确定目标数据标识,各个第一数据标识对应的第一数据是位于不同的存储系统的相同数据;
第二获取模块830,用于获取目标数据标识对应的第一数据。
在一实施例中,数据查询装置还包括:
第三获取模块,用于获取相同的各个第二数据对应的第二数据标识,各个第二数据是分发至不同存储系统的相同数据;
设置模块,用于为各个第二数据设置第二族名标识;
存储模块,用于将第二族名标识与各个第二数据标识进行关联存储。
在一实施例中,数据查询装置还包括:
第四获取模块,用于获取第一待处理任务;
第四获取模块,还用于响应于第一待处理任务是预设任务,获取第一待处理任务对应的各个待分发数据,以作为各个第二数据,待分发数据是存储系统待存储的数据。
在一实施例中,数据查询装置还包括:
第五获取模块,用于获取各个第二待处理任务;
第二确定模块,用于从各个第二待处理任务中确定各个数据同步任务;
第二确定模块,还用于响应于各个数据同步任务是相同的数据同步任务,且相同的数据同步任务对应的待同步数据相同,将相同的各个待同步数据确定为各个第二数据。
在一实施例中,数据查询装置还包括:
第六获取模块,用于获取数据同步任务的目标参数,目标参数包括数据同步任务的输入表结构、输出表结构、过滤条件以及数据同步任务对应的语句中的句式;
第三确定模块,用于根据各个目标参数,在各个数据同步任务中,确定是否有相同的数据同步任务;
第三确定模块,还用于响应于至少部分的数据同步任务是相同的数据同步任务,确定相同的数据同步任务对应的待同步数据是否相同。
在一实施例中,第一确定模块820,包括:
第一获取单元,用于获取查询任务的任务类型;
第一确定单元,还用于基于处理任务类型的存储系统,从第一族名标识关联的多个第一数据标识中,确定目标数据标识,其中,第一数据对应的第一数据标识根据第一数据所在的存储系统设置。
在一实施例中,第一确定模块820,包括:
第二确定单元,用于确定查询任务对应的业务场景;
第二确定单元,用于根据与业务场景匹配的存储系统,从第一族名标识关联的多个第一数据标识中,确定目标数据标识,其中,第一数据对应的第一数据标识根据第一数据所在的存储系统设置。
在一实施例中,第一获取模块810,包括:
第二获取单元,用于在第一元数据中,获取待查询的数据对应的第一族名标识。
在一实施例中,第一获取模块810,还包括:
第三获取单元,用于获取数据库发送的元数据变更信息;
更新单元,用于根据元数据变更信息,更新元数据变更信息对应的第二元数据。
示例性计算设备
在介绍了本公开示例性实施方式的方法、介质和装置之后,接下来,参考图9对本公开示例性实施方式的计算设备进行说明。
图9显示的计算设备90仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。如图9所示,计算设备90以通用计算设备的形式表现。计算设备90的组件可以包括但不限于:至少一个处理单元901、至少一个存储单元902,连接不同系统组件(包括处理单元901和存储单元902)的总线903。其中,至少一个存储单元902中存储有计算机执行指令;至少一个处理单元901包括处理器,处理器执行该计算机执行指令,以实现上文描述的方法。
总线903包括数据总线、控制总线和地址总线。
存储单元902可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)9021和/或高速缓存存储器9022,可以进一步包括非易失性存储器形式的可读介质,例如只读存储器(ROM)9023。
存储单元902还可以包括具有一组(至少一个)程序模块9024的程序/实用工具9025,这样的程序模块9024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算设备90也可以与一个或多个外部设备904(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口905进行。并且,计算设备90还可以通过网络适配器906与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图9所示,网络适配器906通过总线903与计算设备90的其它模块通信。应当理解,尽管图中未示出,可以结合计算设备90使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了终端设备/服务端的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本公开方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本公开的精神和原理,但是应该理解,本公开并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
Claims (10)
1.一种数据查询方法,其特征在于,包括:
获取查询任务对应的查询语句,并根据所述查询语句获取待查询的数据所对应的第一族名标识;
在所述第一族名标识关联的多个第一数据标识中确定目标数据标识,各个所述第一数据标识对应的第一数据是位于不同的存储系统的相同数据;
获取所述目标数据标识对应的第一数据。
2.根据权利要求1所述的数据查询方法,其特征在于,还包括:
获取相同的各个第二数据对应的第二数据标识,各个所述第二数据是分发至不同存储系统的相同数据;
为各个所述第二数据设置第二族名标识;
将所述第二族名标识与各个所述第二数据标识进行关联存储。
3.根据权利要求2所述的数据查询方法,其特征在于,所述获取相同的各个第二数据对应的第二数据标识之前,还包括:
获取第一待处理任务;
响应于第一待处理任务是预设任务,获取所述第一待处理任务对应的各个待分发数据,以作为各个第二数据,所述待分发数据是存储系统待存储的数据。
4.根据权利要求2所述的数据查询方法,其特征在于,所述获取相同的各个第二数据对应的第二数据标识之前,还包括:
获取各个第二待处理任务;
从各个所述第二待处理任务中确定各个数据同步任务;
响应于各个所述数据同步任务是相同的数据同步任务,且相同的所述数据同步任务对应的待同步数据相同,将相同的各个所述待同步数据确定为各个第二数据。
5.根据权利要求4所述的数据查询方法,其特征在于,还包括:
获取所述数据同步任务的目标参数,所述目标参数包括所述数据同步任务的输入表结构、输出表结构、过滤条件以及所述数据同步任务对应的语句中的句式;
根据各个所述目标参数,在各个所述数据同步任务中,确定是否有相同的数据同步任务;
响应于至少部分的数据同步任务是相同的数据同步任务,确定相同的数据同步任务对应的待同步数据是否相同。
6.根据权利要求1所述的数据查询方法,其特征在于,所述在所述第一族名标识关联的多个第一数据标识中确定目标数据标识,包括:
获取所述查询任务的任务类型;
基于处理所述任务类型的存储系统,从所述第一族名标识关联的多个第一数据标识中,确定目标数据标识,其中,所述第一数据对应的第一数据标识根据所述第一数据所在的存储系统设置。
7.根据权利要求1所述的数据查询方法,其特征在于,所述在所述第一族名标识关联的多个第一数据标识中确定目标数据标识,包括:
确定所述查询任务对应的业务场景;
根据与所述业务场景匹配的存储系统,从所述第一族名标识关联的多个第一数据标识中,确定目标数据标识,其中,所述第一数据对应的第一数据标识根据所述第一数据所在的存储系统设置。
8.一种数据查询装置,其特征在于,包括:
第一获取模块,用于获取查询任务对应的查询语句,并根据所述查询语句获取待查询的数据所对应的第一族名标识;
第一确定模块,用于在所述第一族名标识关联的多个第一数据标识中确定目标数据标识,各个所述第一数据标识对应的第一数据是位于不同的存储系统的相同数据;
第二获取模块,用于获取所述目标数据标识对应的第一数据。
9.一种介质,其特征在于,包括:计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至7任一项所述的数据查询方法。
10.一种计算设备,其特征在于,包括:
存储器以及处理器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,使得所述处理器执行如权利要求1至7任一项所述的数据查询方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310251050.6A CN116303780A (zh) | 2023-03-08 | 2023-03-08 | 数据查询方法、装置、介质和计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310251050.6A CN116303780A (zh) | 2023-03-08 | 2023-03-08 | 数据查询方法、装置、介质和计算设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116303780A true CN116303780A (zh) | 2023-06-23 |
Family
ID=86800950
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310251050.6A Pending CN116303780A (zh) | 2023-03-08 | 2023-03-08 | 数据查询方法、装置、介质和计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116303780A (zh) |
-
2023
- 2023-03-08 CN CN202310251050.6A patent/CN116303780A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110413595B (zh) | 一种应用于分布式数据库的数据迁移方法和相关装置 | |
CN110555015B (zh) | 数据库实体管理方法、装置、电子设备及存储介质 | |
CN110990420B (zh) | 数据查询方法、装置 | |
CN111813804B (zh) | 一种数据查询方法、装置、电子设备及存储介质 | |
CN112395264B (zh) | 分布式存储系统中逻辑目标与卷之间映射的处理方法 | |
CN113360519B (zh) | 数据处理方法、装置、设备和存储介质 | |
US10585678B2 (en) | Insertion of custom activities in an orchestrated application suite | |
CN111680313A (zh) | 一种数据处理方法、装置、设备及存储介质 | |
CN113886485A (zh) | 数据处理方法、装置、电子设备、系统和存储介质 | |
US11704114B2 (en) | Data structures for managing configuration versions of cloud-based applications | |
US20210382711A1 (en) | Data structures for managing configuration versions of cloud-based applications | |
CN111274004B (zh) | 进程实例管理方法、装置及计算机存储介质 | |
US20210058652A1 (en) | System and method of building a distributed network for essence management and access | |
CN112073212B (zh) | 参数配置方法、装置、终端设备和存储介质 | |
CN111104450B (zh) | 目标数据导入方法、介质、装置和计算设备 | |
CN116303780A (zh) | 数据查询方法、装置、介质和计算设备 | |
CN114489772A (zh) | 工作流执行方法及装置、存储介质、设备 | |
CN113111138A (zh) | 数据处理方法、装置、计算设备以及介质 | |
CN113849458A (zh) | MongoDB中间件及数据存储方法和数据迁移方法 | |
CN116305288B (zh) | 一种隔离数据库资源的方法、装置、设备和存储介质 | |
CN111782886A (zh) | 元数据管理的方法和装置 | |
CN115934670B (zh) | Hdfs多机房的副本放置策略验证方法与装置 | |
CN115906178B (zh) | 一种数据库管理方法、数据订阅端及数据发布端 | |
CN117312331B (zh) | 一种元数据血缘分析方法、装置、设备及存储介质 | |
CN111090804B (zh) | 数据过滤方法、装置及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |