CN117312318A - 数据处理方法、装置 - Google Patents

数据处理方法、装置 Download PDF

Info

Publication number
CN117312318A
CN117312318A CN202311286862.0A CN202311286862A CN117312318A CN 117312318 A CN117312318 A CN 117312318A CN 202311286862 A CN202311286862 A CN 202311286862A CN 117312318 A CN117312318 A CN 117312318A
Authority
CN
China
Prior art keywords
data
target data
target
metadata
metadata table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311286862.0A
Other languages
English (en)
Inventor
请求不公布姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Real AI Technology Co Ltd
Original Assignee
Beijing Real AI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Real AI Technology Co Ltd filed Critical Beijing Real AI Technology Co Ltd
Priority to CN202311286862.0A priority Critical patent/CN117312318A/zh
Publication of CN117312318A publication Critical patent/CN117312318A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2272Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2393Updating materialised views
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及计算机领域,提供一种数据处理方法、装置。该方法包括:接收至少一个用户设备的第一消息,第一消息用于指示获取目标数据,目标数据包括人工智能模型的任务数据,并且,不同的用户设备指示获取的目标数据不同;基于第一消息,获取目标数据;确定目标数据对应的元数据表;为元数据表创建索引,生成目标物化视图;将目标数据、目标数据对应的元数据表和目标物化视图,存储于联机分析处理数据库。本申请实施例能够在大数据存储场景下,降低数据的管理难度,提高数据读取的作业效率,满足用户大量的数据查询请求,此外,本申请实施例能够提高目标数据(尤其是数据量较大的目标数据)的数据计算操作和联机分析处理操作的及时性。

Description

数据处理方法、装置
技术领域
本申请实施例涉及计算机技术领域,更具体地,涉及一种数据处理方法、装置。
背景技术
现有技术往往将一些待存储的数据存入MYSQL,ORACLE等常规数据库。但是,若数据量较大,或者需要基于待存储的数据进行复杂的分析处理,以多维度地体现目标数据的处理结果时,MYSQL,ORACLE等常规数据库便无法满足上述场景需求。
发明内容
本申请实施例提供一种数据处理方法、装置,能够在大数据存储场景下,降低数据的管理难度,提高目标数据(尤其是数据量较大的目标数据)的数据计算操作和联机分析处理操作的及时性。
第一方面,本申请实施例提供一种数据处理方法,用于数据库服务器。该数据处理方法包括:接收至少一个用户设备的第一消息,第一消息用于指示获取目标数据,目标数据包括人工智能模型的任务数据,并且,不同的用户设备指示获取的目标数据不同;基于第一消息,获取目标数据;确定目标数据对应的元数据表;为元数据表创建索引,生成目标物化视图;将目标数据、目标数据对应的元数据表和目标物化视图,存储于联机分析处理数据库。
在一个实施方式中,确定目标数据对应的元数据表,包括:确定目标数据对应的数据处理引擎,数据处理引擎包括全量元数据引擎和增量元数据引擎,全量元数据引擎用于对目标数据进行要素拆分,生成目标数据对应的全量元数据;增量元数据引擎用于对目标数据对应的全量元数据进行增量处理,得到目标数据对应的增量元数据;利用数据处理引擎处理目标数据,得到目标数据对应的元数据表。
在一个实施方式中,数据处理方法还包括:确定元数据表对应的要素融合引擎;利用要素融合引擎中配置的、元数据表中的选定要素对应的数据的处理方案,对选定要素进行计算,并将计算结果存储至临时数据表中;基于临时数据表中的计算结果,生成融合视图;基于设定的时间,将融合视图中的计算结果定时存储至融合结果表。
在一个实施方式中,数据的处理方案包括将选定要素对应的至少一个人工智能模型输出的任务数据进行融合操作。
在一个实施方式中,基于临时数据表中的计算结果,生成融合视图,包括:对临时数据表中的计算结果进行置信度累加,将多个计算结果聚合为单个计算结果,生成融合视图。
在一个实施方式中,为元数据表创建索引,生成目标物化视图,包括:根据预设条件,从元数据表中筛选出目标要素,并为目标要素创建索引,生成目标物化视图;或者,根据元数据表中的元数据的生成时间,为元数据表创建索引,生成目标物化视图;或者,根据元数据表中的元数据的置信度,为元数据表创建索引,生成目标物化视图。
在一个实施方式中,将目标数据、目标数据对应的元数据表和目标物化视图,存储于联机分析处理数据库,包括:确定部署联机分析处理数据库的多台物理机;将目标数据、目标数据对应的元数据表和目标物化视图在时间维度上进行分片,并将分片结果存储于所述多台物理机;和/或,将目标数据、目标数据对应的元数据表和目标物化视图以多副本的方式分别存储于多台物理机中的读取物理机和写入物理机。
在一个实施方式中,数据处理方法还包括:若检测到目标数据更新,则在元数据表中增加更新的目标数据对应的元数据;利用目标物化视图,执行更新的目标数据对应的元数据的计算逻辑,得到更新的目标数据对应的元数据的计算结果;将计算结果存储于目标物化视图。
在一个实施方式中,基于第一消息,获取目标数据,包括:向中继设备发送第一消息,中继设备中存储有至少一种任务类型的多个人工智能模型的不同模态的任务数据,中继设备用于基于第一消息从多个人工智能模型的不同模态的任务数据确定目标数据;从中继设备中获取目标数据。
第二方面,本申请实施例提供一种数据处理装置,具有实现对应于上述第一方面提供的数据处理方法的功能。功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,模块可以是软件和/或硬件。
在一个实施方式中,数据处理装置包括:接收模块,被配置为接收至少一个用户设备的第一消息,第一消息用于指示获取目标数据,目标数据包括人工智能模型的任务数据,并且,不同的用户设备指示获取的目标数据不同;获取模块,被配置为基于第一消息,获取目标数据;确定模块,被配置为确定目标数据对应的元数据表;生成模块,被配置为元数据表创建索引,生成目标物化视图;存储模块,被配置为将目标数据、目标数据对应的元数据表和目标物化视图,存储于联机分析处理数据库。
第三方面,本申请实施例提供一种计算机可读存储介质,其包括指令,当其在计算机上运行时,使得计算机执行如第一方面所提及的数据处理方法。
第四方面,本申请实施例提供一种计算设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现第一方面所提及的数据处理方法。
第五方面,本申请实施例提供一种芯片,该芯片中包括与终端设备的收发器耦合的处理器,用于执行本申请实施例第一方面提供的技术方案。
第六方面,本申请实施例提供一种芯片系统,该芯片系统包括处理器,用于支持终端设备实现上述第一方面中所涉及的功能,例如,生成或者处理上述第一方面提供的数据处理方法中所涉及的信息。
在一种可能的设计中,上述芯片系统还包括存储器,该存储器用于保存终端必需的程序指令和数据。该芯片系统可以由芯片构成,也可以包含芯片和其他分立器件。
第七方面,本申请实施例提供一种包含指令的计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述第一方面提供的数据处理方法。
相较于现有技术,本申请实施例在获取到目标数据之后,首先确定目标数据对应的元数据表,由于元数据表中的元数据能够准确描述目标数据的属性信息,用来支持如存储位置、资源查找、文件记录等功能,因此,本申请实施例能够在大数据存储场景下,降低数据的管理难度,提高数据读取的作业效率,满足用户大量的数据查询请求。此外,在生成元数据表之后,为元数据表创建索引,生成目标物化视图,目标物化视图是一个带有预计算结果的查询结果集,类似于一张缓存表,目标物化视图在数据库中存储计算结果,便于用户在有数据查询需求时,直接查询目标物化视图,而不用执行复杂的查询语句,进而提高数据查询性能。同时,本申请将目标数据以及目标数据对应的元数据表、目标物化视图存储于联机分析处理数据库,而非MYSQL,ORACLE等常规数据库,提高了目标数据(尤其是数据量较大的目标数据)的数据计算操作和联机分析处理操作的及时性。
附图说明
通过参考附图阅读本申请实施例的详细描述,本申请实施例的目的、特征和优点将变得易于理解。
图1为本申请实施例中数据处理方法的一种数据处理系统的结构示意图。
图2为本申请实施例的数据处理方法的流程示意图。
图3为本申请实施例的确定元数据表的流程示意图。
图4为本申请另一实施例的数据处理方法的流程示意图。
图5为本申请实施例的生成目标物化视图的流程示意图。
图6为本申请实施例的将目标数据、元数据表和目标物化视图进行存储的流程示意图。
图7为本申请又一实施例的数据处理方法的流程示意图。
图8为本申请一实施例的获取目标数据的流程示意图。
图9为本申请实施例的数据处理系统对应的可视化平台的框架图。
图10为本申请实施例的数据处理装置的结构示意图。
图11为本申请实施例的计算设备的一种结构示意图。
图12为本申请实施例的手机的一种结构示意图。
图13为本申请实施例中服务器的一种结构示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
本申请实施例的说明书和权利要求书及上述附图中的术语“第一”“第二”等是用于区别类似的对象(例如第一xx和第二xx分别表示为不同的xx,其他类似),而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请实施例中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式,例如多个模块可以结合成或集成在另一个系统中,或一些特征可以忽略,或不执行。另外,所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,模块之间的间接耦合,通信连接可以是电性或其他类似的形式,本申请实施例中均不作限定。并且,作为分离部件说明的模块或子模块可以是也可以不是物理上的分离,可以是也可以不是物理模块,或者可以分布到多个电路模块中,可以根据实际的需要选择其中的部分或全部模块来实现本申请实施例方案的目的。
首先,对本申请中涉及的主要技术名词进行解释。
数据库:可视为电子化的文件柜,即存储电子文件的处所,用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。
大数据:指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据需要特殊的技术,以有效地处理预设时间内的数据。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
举例来说,人工智能模型在执行算法任务时,不同领域的算法所封装的模型大小不同,这会影响人工智能模型执行任务的效率,并且,人工智能模型的输出数据一般是过亿量级的数据,因此,在一些特殊场景下,请求-响应式处理不能直接应用于人工智能模型。为了适应人工智能模型的响应时间较长以及大数据的存储,一般采用异步方式对数据进行存储,以便进行后续的数据分析。
现有技术中,往往将一些待存储的数据存入MYSQL、ORACLE等常规数据库,然而,该方法存在如下缺陷。
第一,数据的存储数量有限。MYSQL、ORACLE等常规数据库在单表数据存储时,数据量不适合过亿。若对过亿量级的数据量进行存储,数据的查询响应会极慢。
第二,数据过期清理手段有限。一些数据存储往往存在一定的有效周期,在有效周期内可对数据进行分析和查询,随着时间推移,数据存储的价值逐渐降低,通常需要对其进行过期清理,然而,MYSQL、ORACLE等常规数据库在数据存储的周期管理方面,功能有限。
相较于现有技术,本申请实施例在获取到目标数据之后,首先确定目标数据对应的元数据表,由于元数据表中的元数据能够准确描述目标数据的属性信息,用来支持如存储位置、资源查找、文件记录等功能,因此,本申请实施例能够在大数据存储场景下,降低数据的管理难度,提高数据读取的作业效率,满足用户大量的数据查询请求。此外,在生成元数据表之后,为元数据表创建索引,生成目标物化视图,目标物化视图是一个带有预计算结果的查询结果集,类似于一张缓存表,目标物化视图在数据库中存储计算结果,便于用户在有数据查询需求时,直接查询目标物化视图,而不用执行复杂的查询语句,进而提高数据查询性能。同时,本申请将目标数据以及目标数据对应的元数据表、目标物化视图存储于联机分析处理数据库,而非MYSQL,ORACLE等常规数据库,提高了目标数据的数据计算操作以及联机分析处理操作的及时性,尤其是目标数据的数据量较大时,本申请实施例能够多维度地体现目标数据的处理结果。
图1为本申请实施例中数据处理方法的一种数据处理系统的结构示意图。该系统包括客户端01、服务器端02、服务器端03和联机分析处理数据库04。客户端01以及服务器端03可以通过有线或无线通信方式进行直接或间接的连接,本申请在此不做限制。
当客户端01有数据存储需求时,向服务器端03发送第一消息。第一消息中包含数据对象信息,数据对象信息包括数据对象标识和数据对象内容等。
在服务器端03提供batch接口,能够允许接收客户端01发送的第一消息。服务器端03在接收到第一消息后,对第一消息进行解析,得到第一消息包含的至少一个对象标识。服务器端03根据数据标识,获取第一消息对应的目标数据。此外,服务器端03生成元数据表获取请求,并将元数据表获取请求发送至服务器端02。
服务器端02根据接收的元数据请求,获取目标数据,并对目标数据进行处理,得到目标数据对应的元数据表,并将目标数据的元数据表发送至服务器端03。服务器端03在接收到元数据表之后,为元数据表建立索引,生成目标物化视图,并将目标数据以及目标数据的元数据表、目标物化视图存储至联机分析处理数据库04。
需要说明的是,本申请实施例涉及的服务器端03可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
本申请实施例涉及的客户端01,可以是指向用户提供语音和/或数据连通性的设备,具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。例如移动电话(或称为“蜂窝”电话)和具有移动终端的计算机,例如,可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置,它们与无线接入网交换语音和/或数据。例如,个人通信业务(Personal Communication Service,PCS)电话、无绳电话、会话发起协议(Sessioninitialization Protocol,SIP)话机、无线本地环路(Wireless Local Loop,WLL)站、个人数字助理(Personal Digital Assistant,PDA)等设备。
参照图2,图2为本申请实施例的数据处理方法的流程示意图。该方法可有数据处理装置执行,可应用于需要对人工智能模型的输出数据进行存储的场景。具体地,数据处理装置获取第一消息对应的目标数据,并确定目标数据对应的元数据表,继而将目标数据以及目标数据对应的元数据表存储于联机分析处理数据库。所述方法包括步骤S210至步骤S230。
步骤S210,接收至少一个用户设备的第一消息。
步骤S220,基于第一消息,获取目标数据。
第一消息用于指示获取目标数据,目标数据包括人工智能模型的任务数据,并且,不同的用户设备指示获取的目标数据不同。示例性地,人工智能模型包括人脸识别算法、内容识别算法和图像识别算法等等。在另一些实施例中,目标数据是对元数据进行预处理之后的结构化数据。
步骤S230,确定目标数据对应的元数据表。
元数据表中存储有基于目标数据生成的元数据。元数据指的是,用来描述一个文件,块设备或者对象的特征的系统数据,诸如访问权限、拥有者以及数据块的分布信息等等。元数据通常被称作“关于数据的数据”,即用于描述其他数据的数据。在本申请实施例中,目标数据的元数据一般用于指示目标数据的名称、大小、生成时间、所属用户、存储位置等。
元数据的基本特点主要有:
a:元数据一经建立,便可共享。元数据的结构和完整性依赖于信息资源的价值和使用环境;元数据的开发与利用环境往往是一个变化的分布式环境;任何一种格式都不可能完全满足不同环境的不同需要;
b:元数据是一种编码体系。元数据是用来描述数字化信息资源,特别是网络信息资源的编码体系,这导致了元数据和传统数据编码体系的根本区别;元数据的最为重要的特征和功能是为数字化信息资源建立一种机器可理解框架。
步骤S240,为元数据表创建索引,生成目标物化视图。
索引是一种数据结构,用于快速查找数据库中的数据。在本实施例中,通过为元数据表创建索引,可以提高数据查询的速度和效率,减少联机分析处理数据库的查询时间和资源消耗。在本实施例中,目标物化视图是将目标数据转换为一个表,实际存储着目标数据。
步骤S250,将目标数据、目标数据对应的元数据表和目标物化视图,存储于联机分析处理数据库。
联机分析处理数据库是传统关系型数据库的主要应用,从数据角度主要以“增删改”为主,同时关注的是事务的吞吐量,解决了数据的存储、分析和统计需求。同时,联机分析处理数据库可有效进行横向拓展,避免传统数据库带来的限制。
本申请实施例在获取到目标数据之后,首先确定目标数据对应的元数据表,由于元数据表中的元数据能够准确描述目标数据的属性信息,用来支持如存储位置、资源查找、文件记录等功能,因此,本申请实施例能够在大数据存储场景下,降低数据的管理难度,提高数据读取的作业效率,满足用户大量的数据查询请求。此外,在生成元数据表之后,为元数据表创建索引,生成目标物化视图,目标物化视图是一个带有预计算结果的查询结果集,类似于一张缓存表,目标物化视图在数据库中存储计算结果,便于用户在有数据查询需求时,直接查询目标物化视图,而不用执行复杂的查询语句,进而提高数据查询性能。同时,本申请将目标数据以及目标数据对应的元数据表、目标物化视图存储于联机分析处理数据库,而非MYSQL,ORACLE等常规数据库,提高了目标数据的数据计算操作和联机分析处理操作的及时性,尤其是目标数据的数据量较大时,本申请实施例能够多维度地体现目标数据的处理结果。
图3为本申请实施例的确定元数据表的流程示意图。在图2所示实施例的基础上延伸出图3所示实施例,下面着重叙述图3所示实施例与图2所示实施例的不同之处,相同之处不再赘述。
如图3所示,在本申请实施例中,确定目标数据对应的元数据表,包括步骤S310至步骤S330。
步骤S310,确定目标数据对应的数据处理引擎。
示例性地,第一消息中包含至少一个对象标识,以及针对该对象标识的具体处理操作。根据第一消息中包含的对象标识以及针对该对象标识的处理操作,确定与该处理操作匹配的数据处理引擎。
在本实施例中,数据处理引擎包括全量元数据引擎和增量元数据引擎。全量元数据引擎用于对目标数据进行要素拆分,生成目标数据对应的全量元数据;增量元数据引擎用于对目标数据对应的全量元数据进行增量处理,得到目标数据对应的增量元数据。目标数据是不断接入进来的,针对同一业务对象的目标数据是陆续到达的,此时,需要对现有的全量元数据进行增量处理。通过全量元数据引擎和增量元数据引擎的协同工作,可以减少要存储的目标数据的元数据,规范元数据的存储。
步骤S320,利用数据处理引擎处理目标数据,得到目标数据对应的元数据表。
其中,元数据表中存储有基于目标数据生成的元数据。
数据处理引擎可以持久化应用业务插件在数据库中捞取目标数据,并且数据处理引擎可以根据需要在元数据中记录数据历史,扩展元数据的存储形式。示例性地,数据处理引擎可部署在元数据服务器,数据处理引擎生成的元数据包括目标数据与目录的组织关系、每个目标数据的数据文件所对应的OSD等。元数据表可以理解为存储每个对象标识对应的元数据的存储表,该存储表为键值存储表,包括对象标识以及元数据。
在本申请实施例中,通过数据处理引擎对目标数据进行预处理,得到目标数据对应的元数据,便于数据的查询和分析,提高了数据查询的响应速度。此外,全量元数据引擎和增量元数据引擎协同作用,能够对冗余的元数据进行过滤,保证所存储的元数据的效用,以及减少元数据所占的存储空间。
图4为本申请另一实施例的数据处理方法的流程示意图。在图3所示实施例的基础上延伸出图4所示实施例,下面着重叙述图4所示实施例与图3所示实施例的不同之处,相同之处不再赘述。
如图4所示,在本申请实施例中,数据处理方法还包括如下步骤S410至步骤S440。
步骤S410,确定元数据表对应的要素融合引擎。
具体地,要素融合引擎是针对某个具有唯一标识的对象,例如,具有唯一标识的某个文件。
步骤S420,利用要素融合引擎中配置的、元数据表中的选定要素对应的数据的处理方案,对选定要素进行计算,并将计算结果存储至临时数据表中。
在一些实现方式中,数据的处理方案包括将选定要素对应的至少一个人工智能模型输出的任务数据进行融合操作,例如,对至少一个人工智能模型输出的任务数据按照权重配置进行融合操作。
在本实施例中,临时数据表为联机分析处理数据库中的临时数据表。
步骤S430,基于临时数据表中的计算结果,生成融合视图。
在一些实现方式中,对临时数据表中的计算结果进行置信度累加,将多个计算结果聚合为单个计算结果,生成融合视图。
步骤S440,基于设定的时间,将融合视图中的计算结果定时存储至融合结果表。
本实施例对元数据表的处理依据是根据要素融合引擎的配置,例如,置信度是否达到阈值。
上游的目标数据是不断接入的,针对上述场景(例如,同一文件同一要素的融合结果)可能会随后续目标数据的接入,产生新的融合结果。因此,利用要素融合引擎周期性触发联机分析处理数据库中的融合操作,将计算结果进行更新。
图5为本申请实施例的生成目标物化视图的流程示意图。在图2所示实施例的基础上延伸出图5所示实施例,下面着重叙述图5所示实施例与图2所示实施例的不同之处,相同之处不再赘述。
如图5所示,为元数据表创建索引,生成目标物化视图,包括步骤S510、或者步骤S520、或者步骤S530。
步骤S510,根据预设条件,从元数据表中筛选出目标要素,并为目标要素创建索引,生成目标物化视图。
预设条件可根据实际应用情况进行设置。在元数表中筛选出目标要素后,为目标要素相关的数据创建索引,生成目标物化视图。基于此,查询方只需关注目标要素相关的数据进行处理和展示即可。
步骤S520,根据元数据表中的元数据的生成时间,为元数据表创建索引,生成目标物化视图。
在步骤S520中,查询方只需着重关注其感兴趣的时间段的数据进行处理和展示即可。例如,查询方希望查询最新的数据。
步骤S530,根据元数据表中的元数据的置信度,为元数据表创建索引,生成目标物化视图。
在步骤S530中,查询方只需关注置信度较高的数据即可。
因此,在本申请实施例中,基于不同的条件构建不同的目标物化视图,可以方便查询方基于自身的需求进行查询,提高数据读取的作业效率,满足用户的数据查询请求。
图6为本申请实施例的将目标数据、元数据表和目标物化视图进行存储的流程示意图。在图2所示实施例的基础上延伸出图6所示实施例,下面着重叙述图6所示实施例与图2所示实施例的不同之处,相同之处不再赘述。
如图6所示,在本申请实施例中,将目标数据、目标数据对应的元数据表和目标物化视图,存储于联机分析处理数据库,包括步骤S610、步骤S620、步骤S630。
步骤S610,确定部署联机分析处理数据库的多台物理机。
示例性地,联机分析处理数据库为ClickHouse数据库,其部署在三台物理机上。需要说明的是,物理机的数量可根据实际应用情况设定,本申请实施例不限制物理机的具体数量。
步骤S620,将目标数据、目标数据对应的元数据表和目标物化视图在时间维度上进行分片,并将分片结果存储于多台物理机。
多分片:是指按照某个维度将存储在单一数据库中的数据分散存放在多个数据库或表中心。数据分片可以有效避免由于数据量超过可承受阈值而产生的性能瓶颈,除此之外,还可有效分散对数据库单点的访问量。示例性地,根据目标数据的获取事件,或者人工智能模型输出的任务数据的时间进行分片。
步骤S630,将目标数据、目标数据对应的元数据表和目标物化视图以多副本的方式分别存储于多台物理机中的读取物理机和写入物理机。
多副本:是指将目标数据保存成多个副本,可用于保障目标数据的连续性。若目标数据所存储的数据库出现问题,则有多个目标数据的副本可以使用。
以上步骤在具体实施时,包括以下三种方式:
A、步骤S610、步骤S620。
B、步骤S610、步骤S630。
C、步骤S610、步骤S620和步骤S630。
在本申请实施例中,将目标数据按照时间维度分成多个数据分片,再将这些数据分片分别存储于多个物理机中,可以减少每个物理机的数据访问压力,进而提高整个数据库系统的性能和可用性。通过将目标数据以多副本的形式存储到读取物理机和写入物理机,一方面可以防止目标数据丢失,另一方面将数据读取功能和数据写入功能进行解耦,提高数据处理性能。
在一些实施例中,可在联机分析处理数据库中设置数据存储周期。示例性地,针对某一目标数据,其对应的数据存储周期为3天。记录目标数据的存储时间戳,3天之后,自动对目标数据进行数据失效处理,而不用手动维护数据存储周期,提高了数据存储的便利性,并且,数据的存储时长越长,数据价值也越低,根据预先设定的数据存储周期,对其进行失效处理,也能减少对数据库中存储空间的占用。
图7为本申请又一实施例的数据处理方法的流程示意图。在图2所示实施例的基础上延伸出图7所示实施例,下面着重叙述图7所示实施例与图2所示实施例的不同之处,相同之处不再赘述。
如图7所示,在本申请实施例中,数据处理方法还包括步骤S710至步骤S740。
步骤S710,检测目标数据是否更新。
在实际应用中,若步骤S710的判断结果为是,则执行步骤S720至步骤S740,否则结束,不执行其他操作。
步骤S720,在元数据表中增加更新的目标数据对应的元数据。
步骤S720中提及的更新的目标数据指的是,相对于原有的目标数据新增的数据。
步骤S730,利用目标物化视图,执行更新的目标数据对应的元数据的计算逻辑,得到更新的目标数据对应的元数据的计算结果。
在本实施例中,物化视图在数据库中存储计算结果,便于用户在有数据查询需求时,直接查询物化视图,而不用执行复杂的查询语句,进而提高数据查询性能。
新的元数据对应的计算逻辑是事先定义的,当元数据表中有新的元数据进入后,物化视图中针对新的元数据的计算逻辑或可及时触发。其中,新的元数据是基于目标数据来定义的,首次确定目标数据的元数据表后,若后续又生成针对其他数据的元数据,则称为新的元数据。
步骤S740,将计算结果存储于物化视图。
在接收到用户的数据查询请求时,通过可视化界面出示物化视图,可以大幅降低响应请求的延迟时间。并且,物化视图可加速数据分析,并能简化数据的抽取、转换和加载,适应多数场景下的数据分析需求。
图8为本申请一实施例的获取目标数据的流程示意图。在图2所示实施例的基础上延伸出图8所示实施例,下面着重叙述图8所示实施例与图2所示实施例的不同之处,相同之处不再赘述。
如图8所示,在本申请实施例中,基于第一消息,获取目标数据,包括步骤S810和步骤S820。
步骤S810,向中继设备发送第一消息。
中继设备中存储有至少一种任务类型的多个人工智能模型的不同模态的任务数据,中继设备用于基于第一消息从多个人工智能模型的不同模态的任务数据确定目标数据。中继设备在网络环境中为应用系统提供可靠的消息传输的支撑性软件系统,关注于数据的发送与接收,并利用高效可靠的消息传递机制,对分布式系统中的各个子系统进行集成。
针对目标数据的生成时长不固定,或者目标数据的数据量较大的问题,中继设备可以异步存储目标数据,人工智能模型将任务数据推送至中继设备,以便服务器端从中继设备中获取目标数据,并做最终的数据分析和统计。
步骤S820,从中继设备中获取目标数据。
示例性地,人工智能模型针对特定任务的处理时长不固定,可异步存储人工智能模型海量的任务数据。异步存储数据的情况下,需要一个载体来临时存储与分发消息,中继设备即可利用高效可靠的消息传递机制进行异步的数据传输。因此,可将人工智能模型的输出数据统一推送至中继设备,并由服务器端从中继设备中获取目标数据。
在本申请实施例中,中继设备作为一个蓄水池,将任务数据缓存,其他的系统可以从中继设备中读取目标数据,并执行相应的任务。本申请实施例中的方法做到了各服务间的解耦,且没有大量的接口调用,便于对海量数据的异步存储。
图9为本申请实施例的数据处理系统对应的可视化平台的框架图。如图9所示,全量元数据引擎为前置数据处理引擎,增量元数据引擎的功能由要素融合周期处理引擎实现,联机分析处理数据库为ClickHouse数据库,全量元数据引擎和增量元数据引擎可协同工作,也可独立工作。
在元数据存储场景下,前置数据处理引擎分析针对目标数据的元数据存储请求,示例性地,分析结果为:目标数据的存储周期为2天,目标数据的存储估量为5千万-8千万/天,数据总量为2亿,目标数据的操作分析是写入较多。进一步地,前置数据处理引擎对目标数据拆分要素,产生多条目数据,并对多条目数据进行置信度阈值过滤,得到目标数据的元数据。要素融合周期处理引擎对目标数据的元数据进行增量处理,得到目标数据的增量元数据,并将目标数据以及目标数据的增量元数据存储至ClickHouse数据库。在ClickHouse数据库中对目标数据进行融合阈值展示计算以及统计面板展示计算,并在接收到用户的数据查询请求的情况下,通过可视化前台向用户展示与数据查询请求对应的数据。
参阅图10,图10为本申请实施例的数据处理装置的结构示意图。可应用于需要对人工智能模型的输出数据进行存储的场景。具体地,数据处理装置获取第一消息对应的目标数据,确定目标数据对应的元数据表,并为元数据表建立索引,生成目标物化视图,继而将目标数据、目标数据对应的元数据表和目标物化视图存储于联机分析处理数据库。在本申请实施例中的数据处理装置100能够实现对应于上述图2中所对应的实施例中所执行的数据处理方法的步骤。数据处理装置100实现的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。数据处理装置100可包括:接收模块1001、获取模块1002、确定模块1003、生成模块1004和存储模块1005,接收模块1001、获取模块1002、确定模块1003、生成模块1004和存储模块1005的功能实现可参考图2所对应的实施例中所执行的操作,此处不作赘述。
具体而言,接收模块1001,被配置为接收至少一个用户设备的第一消息,第一消息用于指示获取目标数据,目标数据包括人工智能模型的任务数据,并且,不同的用户设备指示获取的目标数据不同;
获取模块1002,被配置为基于第一消息,获取目标数据;
确定模块1003,被配置为确定目标数据对应的元数据表;
生成模块1004,被配置为元数据表创建索引,生成目标物化视图;
存储模块1005,被配置为将目标数据、目标数据对应的元数据表和目标物化视图,存储于联机分析处理数据库。
在一些实施方式中,确定模块1003还被配置为,确定目标数据对应的数据处理引擎;数据处理引擎包括全量元数据引擎和增量元数据引擎,全量元数据引擎用于对目标数据进行要素拆分,生成目标数据对应的全量元数据;增量元数据引擎用于对目标数据对应的全量元数据进行增量处理,得到目标数据对应的增量元数据;利用数据处理引擎处理目标数据,得到目标数据对应的元数据表。
在一些实施方式中,确定模块1003还被配置为,确定元数据表对应的要素融合引擎;利用要素融合引擎中配置的、元数据表中的选定要素对应的数据的处理方案,对选定要素进行计算,并将计算结果存储至临时数据表中;基于临时数据表中的计算结果,生成融合视图;基于设定的时间,将融合视图中的计算结果定时存储至融合结果表。
在一些实施方式中,数据的处理方案包括将选定要素对应的至少一个人工智能模型输出的任务数据进行融合操作。
在一些实施方式中,确定模块1003还被配置为,对临时数据表中的计算结果进行置信度累加,将多个计算结果聚合为单个计算结果,生成融合视图。
在一些实施方式中,生成模块1004还被配置为,根据预设条件,从元数据表中筛选出目标要素,并为目标要素创建索引,生成目标物化视图;或者,根据元数据表中的元数据的生成时间,为元数据表创建索引,生成目标物化视图;或者,根据元数据表中的元数据的置信度,为元数据表创建索引,生成目标物化视图。
在一些实施方式中,存储模块1005还被配置为,确定部署联机分析处理数据库的多台物理机;将目标数据以及目标数据对应的元数据表在时间维度上进行分片,并将分片结果存储于所述多台物理机;和/或,将目标数据以及目标数据对应的元数据表以多副本的方式分别存储于多台物理机中的读取物理机和写入物理机。
在一些实施方式中,存储模块1005还被配置为,若检测到目标数据更新,则在元数据表中增加更新的目标数据对应的元数据;利用目标物化视图,执行更新的目标数据对应的元数据的计算逻辑,得到更新的目标数据对应的元数据的计算结果;将计算结果存储于目标物化视图。
在一些实施方式中,获取模块1002还被配置为,向中继设备发送第一消息,中继设备中存储有至少一种任务类型的多个人工智能模型的不同模态的任务数据,中继设备用于基于第一消息从多个人工智能模型的不同模态的任务数据确定目标数据;从中继设备中获取目标数据。
本申请实施例中,获取模块1002可以基于第一消息,获取目标数据;确定模块1003可以确定目标数据对应的元数据表;生成模块1004可以生成元数据表对应的目标物化视图,存储模块1005可以将目标数据、目标数据对应的元数据表和目标物化视图,存储于联机分析处理数据库。本申请实施例在获取到目标数据之后,首先确定目标数据对应的元数据表,由于元数据表中的元数据能够准确描述目标数据的属性信息,用来支持如存储位置、资源查找、文件记录等功能,因此,本申请实施例能够在大数据存储场景下,降低数据的管理难度,提高数据读取的作业效率,满足用户大量的数据查询请求。此外,在生成元数据表之后,为元数据表创建索引,生成目标物化视图,目标物化视图是一个带有预计算结果的查询结果集,类似于一张缓存表,目标物化视图在数据库中存储计算结果,便于用户在有数据查询需求时,直接查询目标物化视图,而不用执行复杂的查询语句,进而提高数据查询性能。同时,本申请将目标数据以及目标数据对应的元数据表、目标物化视图存储于联机分析处理数据库,而非MYSQL,ORACLE等常规数据库,提高了目标数据的数据计算操作和联机分析处理操作的及时性,尤其是目标数据的数据量较大时,本申请实施例能够多维度地体现目标数据的处理结果。
上面从模块化功能实体的角度对本申请实施例中的数据处理装置100进行了描述,下面从硬件处理的角度分别对本申请实施例中的数据处理装置100进行描述。
需要说明的是,图10所示的接收模块1001、获取模块1002对应的实体设备可以为收发器、射频电路、通信模块和输入/输出(I/O)接口等,确定模块1003、生成模块1004和存储模块1005对应的实体设备可以为处理器。
图10所示的装置均可以具有如图11所示的结构,当图10所示的数据处理装置100具有如图11所示的结构时,图11中的处理器和收发器能够实现前述对应该装置的装置实施例提供的接收模块1001、获取模块1002、确定模块1003、生成模块1004和存储模块1005相同或相似的功能,图11中的存储器存储处理器执行上述数据处理方法时需要调用的计算机程序。
本申请实施例还提供了一种终端设备,如图12所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例的方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、销售终端设备(Point ofSales,POS)、车载电脑等任意终端设备,以终端设备为手机为例:
图12示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图12,手机包括:射频(Radio Frequency,RF)电路1210、存储器1220、输入单元1230、显示单元1240、传感器1250、音频电路1260、无线保真(wireless fidelity,WiFi)模块1270、处理器1280、以及电源1290等部件。本领域技术人员可以理解,图12中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图12对手机的各个构成部件进行具体的介绍:
RF电路1210可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1280处理;另外,将设计上行的数据发送给基站。通常,RF电路1210包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(LowNoiseAmplifier,LNA)、双工器等。此外,RF电路1210还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GlobalSystem ofMobile communication,GSM)、通用分组无线服务(General PacketRadioService,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
存储器1220可用于存储软件程序以及模块,处理器1280通过运行存储在存储器1220的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1220可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如数据展示功能、数据处理功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如元数据表、目标数据等)等。此外,存储器1220可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1230可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1230可包括触控面板1231以及其他输入设备1232。触控面板1231,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1231上或在触控面板1231附近的操作),并根据预先设定的程序驱动相应的连接装置。可选的,触控面板1231可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1280,并能接收处理器1280发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1231。除了触控面板1231,输入单元1230还可以包括其他输入设备1232。具体地,其他输入设备1232可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1240可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1240可包括显示面板1241,可选的,可以采用液晶显示器(LiquidCrystalDisplay,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1241。进一步的,触控面板1231可覆盖显示面板1241,当触控面板1231检测到在其上或附近的触摸操作后,传送给处理器1280以确定触摸事件的类型,随后处理器1280根据触摸事件的类型在显示面板1241上提供相应的视觉输出。虽然在图12中,触控面板1231与显示面板1241是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1231与显示面板1241集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1250,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1241的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1241和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1260、扬声器1261,传声器1262可提供用户与手机之间的音频接口。音频电路1260可将接收到的音频数据转换后的电信号,传输到扬声器1261,由扬声器1261转换为声音信号输出;另一方面,传声器1262将收集的声音信号转换为电信号,由音频电路1260接收后转换为音频数据,再将音频数据输出处理器1280处理后,经RF电路1210以发送给比如另一手机,或者将音频数据输出至存储器1220以便进一步处理。
Wi-Fi属于短距离无线传输技术,手机通过Wi-Fi模块1270可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图12示出了Wi-Fi模块1270,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1280是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1220内的软件程序和/或模块,以及调用存储在存储器1220内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1280可包括一个或多个处理单元;可选的,处理器1280可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1280中。
手机还包括给各个部件供电的电源1290(比如电池),可选的,电源可以通过电源管理系统与处理器1280逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该手机所包括的处理器1280还具有控制执行以上由数据处理装置执行的数据处理方法流程。
本申请实施例还提供了一种服务器,请参阅图13,图13是本申请实施例提供的一种服务器结构示意图,该服务器130可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1322(例如,一个或一个以上处理器)和存储器1332,一个或一个以上存储应用程序1342或数据1344的存储介质1330(例如一个或一个以上海量存储设备)。其中,存储器1332和存储介质1330可以是短暂存储或持久存储。存储在存储介质1330的程序可以包括一个或一个以上模块(图中未示出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1322可以设置为与存储介质1330通信,在服务器130上执行存储介质1330中的一系列指令操作。
服务器130还可以包括一个或一个以上电源1326,一个或一个以上有线或无线网络接口1350,一个或一个以上输入输出接口1358,和/或,一个或一个以上操作系统1341,例如Windows Server,Mac OS X,Unix,Linux,FreeBSD等等。
上述实施例中由服务器所执行的步骤可以基于该图13所示的服务器130的结构。例如,例如上述实施例中由图10所示的数据处理装置100所执行的步骤可以基于该图13所示的服务器结构。例如,所述中央处理器1322通过调用存储器1332中的指令,执行以下操作:
通过输入输出接口1358,接收至少一个用户设备的第一消息,第一消息用于指示获取目标数据,目标数据包括人工智能模型的任务数据,并且,不同的用户设备指示获取的目标数据不同;基于第一消息,获取目标数据;确定目标数据对应的元数据表;为元数据表创建索引,生成目标物化视图;将目标数据、目标数据对应的元数据表和目标物化视图,存储于联机分析处理数据库。
还可以通过输入输出接口1358,接收新的元数据,并添加至目标数据对应的元数据表。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请实施例所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其他的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,既可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请实施例各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital Subscriber Line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质、或者半导体介质(例如,固态硬盘(Solid State Disk,SSD))等。
以上对本申请实施例所提供的技术方案进行了详细介绍,本申请实施例中应用了具体个例对本申请实施例的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请实施例的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请实施例的限制。

Claims (10)

1.一种数据处理方法,其特征在于,用于数据库服务器,所述方法包括:
接收至少一个用户设备的第一消息,所述第一消息用于指示获取目标数据,所述目标数据包括人工智能模型的任务数据,并且,不同的用户设备指示获取的目标数据不同;
基于所述第一消息,获取所述目标数据;
确定所述目标数据对应的元数据表;
为所述元数据表创建索引,生成目标物化视图;
将所述目标数据、所述目标数据对应的元数据表和所述目标物化视图,存储于联机分析处理数据库。
2.根据权利要求1所述的方法,其特征在于,所述确定所述目标数据对应的元数据表,包括:
确定所述目标数据对应的数据处理引擎;所述数据处理引擎包括全量元数据引擎和增量元数据引擎,所述全量元数据引擎用于对所述目标数据进行要素拆分,生成所述目标数据对应的全量元数据;所述增量元数据引擎用于对所述目标数据对应的全量元数据进行增量处理,得到所述目标数据对应的增量元数据;
利用所述数据处理引擎处理所述目标数据,得到所述目标数据对应的元数据表。
3.根据权利要求2所述的方法,其特征在于,还包括:
确定所述元数据表对应的要素融合引擎;
利用所述要素融合引擎中配置的、所述元数据表中的选定要素对应的数据的处理方案,对所述选定要素进行计算,并将计算结果存储至临时数据表中;
基于所述临时数据表中的计算结果,生成融合视图;
基于设定的时间,将所述融合视图中的计算结果定时存储至融合结果表。
4.根据权利要求3所述的方法,其特征在于,所述数据的处理方案包括将所述选定要素对应的至少一个人工智能模型输出的任务数据进行融合操作。
5.根据权利要求3所述的方法,其特征在于,所述基于所述临时数据表中的计算结果,生成融合视图,包括:
对所述临时数据表中的计算结果进行置信度累加,将多个所述计算结果聚合为单个计算结果,生成所述融合视图。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述为所述元数据表创建索引,生成目标物化视图,包括:
根据预设条件,从所述元数据表中筛选出目标要素,并为所述目标要素创建索引,生成所述目标物化视图;
或者,根据所述元数据表中的元数据的生成时间,为所述元数据表创建索引,生成所述目标物化视图;
或者,根据所述元数据表中的元数据的置信度,为所述元数据表创建索引,生成所述目标物化视图。
7.根据权利要求1至5任一项所述的方法,其特征在于,所述将所述目标数据、所述目标数据对应的元数据表和所述目标物化视图,存储于联机分析处理数据库,包括:
确定部署所述联机分析处理数据库的多台物理机;
将所述目标数据、所述目标数据对应的元数据表和所述目标物化视图在时间维度上进行分片,并将分片结果存储于所述多台物理机;
和/或,将所述目标数据、所述目标数据对应的元数据表和所述目标物化视图以多副本的方式分别存储于所述多台物理机中的读取物理机和写入物理机。
8.根据权利要求7所述的方法,其特征在于,还包括:
若检测到所述目标数据更新,则在所述元数据表中增加更新的目标数据对应的元数据;
利用所述目标物化视图,执行所述更新的目标数据对应的元数据的计算逻辑,得到所述更新的目标数据对应的元数据的计算结果;
将所述计算结果存储于所述目标物化视图。
9.根据权利要求1至5任一项所述的方法,其特征在于,所述基于所述第一消息,获取所述目标数据,包括:
向中继设备发送所述第一消息,所述中继设备中存储有至少一种任务类型的多个人工智能模型的不同模态的任务数据,所述中继设备用于基于所述第一消息从所述多个人工智能模型的不同模态的任务数据确定所述目标数据;
从所述中继设备中获取所述目标数据。
10.一种数据处理装置,其特征在于,用于数据库服务器,所述装置包括:
接收模块,被配置为接收至少一个用户设备的第一消息,所述第一消息用于指示获取目标数据,所述目标数据包括人工智能模型的任务数据,并且,不同的用户设备指示获取的目标数据不同;
获取模块,被配置为基于所述第一消息,获取所述目标数据;
确定模块,被配置为确定所述目标数据对应的元数据表;
生成模块,被配置为所述元数据表创建索引,生成目标物化视图;
存储模块,被配置为将所述目标数据、所述目标数据对应的元数据表和所述目标物化视图,存储于联机分析处理数据库。
CN202311286862.0A 2023-10-07 2023-10-07 数据处理方法、装置 Pending CN117312318A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311286862.0A CN117312318A (zh) 2023-10-07 2023-10-07 数据处理方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311286862.0A CN117312318A (zh) 2023-10-07 2023-10-07 数据处理方法、装置

Publications (1)

Publication Number Publication Date
CN117312318A true CN117312318A (zh) 2023-12-29

Family

ID=89286211

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311286862.0A Pending CN117312318A (zh) 2023-10-07 2023-10-07 数据处理方法、装置

Country Status (1)

Country Link
CN (1) CN117312318A (zh)

Similar Documents

Publication Publication Date Title
CN108667884B (zh) 镜像分发方法、镜像获取方法及装置
CN110147237B (zh) 一种冗余资源去除方法和装置
CN111629075B (zh) 一种数据下载方法和相关装置
CN113420051B (zh) 一种数据查询方法、装置、电子设备和存储介质
CN103177217B (zh) 一种文件扫描方法、系统及客户端和服务器
CN112363871A (zh) 一种数据回档方法、装置及存储介质
CN104281610A (zh) 过滤微博的方法和装置
CN110018886B (zh) 应用状态切换方法和装置、电子设备、可读存储介质
CN104780234A (zh) Ip归属地查询方法、装置及系统
CN116596202A (zh) 工单处理方法、相关装置及存储介质
CN106657281B (zh) 文件共享方法及装置
CN108804434B (zh) 一种消息查询方法、服务器及终端设备
CN117312318A (zh) 数据处理方法、装置
CN116563041A (zh) 一种数据对账方法以及相关装置
CN113852450A (zh) 一种消息推送反馈方法、装置、电子设备和存储介质
CN107526668B (zh) Cpu监控方法和装置、计算机设备、计算机可读存储介质
CN109992365B (zh) 应用处理方法和装置、电子设备、计算机可读存储介质
CN109992361B (zh) 应用冻结方法、装置、终端及计算机可读存储介质
CN115048463B (zh) 数据迁移方法、系统及存储介质
CN114722970B (zh) 一种多媒体检测方法、装置及存储介质
CN111382335B (zh) 一种数据拉取方法、装置及存储介质
CN111666485A (zh) 一种信息推荐方法、装置及终端
CN115883352B (zh) 服务节点创建方法、相关设备及存储介质
CN117118939B (zh) 一种数据处理方法,装置、设备以及存储介质
CN115565215B (zh) 一种人脸识别算法切换方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination