CN114880346B - 一种数据处理方法及相关组件、加速处理器 - Google Patents

一种数据处理方法及相关组件、加速处理器 Download PDF

Info

Publication number
CN114880346B
CN114880346B CN202210428508.6A CN202210428508A CN114880346B CN 114880346 B CN114880346 B CN 114880346B CN 202210428508 A CN202210428508 A CN 202210428508A CN 114880346 B CN114880346 B CN 114880346B
Authority
CN
China
Prior art keywords
data
processed
processing
acceleration
column
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210428508.6A
Other languages
English (en)
Other versions
CN114880346A (zh
Inventor
张闯
李仁刚
任智新
黄广奎
刘科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202210428508.6A priority Critical patent/CN114880346B/zh
Publication of CN114880346A publication Critical patent/CN114880346A/zh
Application granted granted Critical
Publication of CN114880346B publication Critical patent/CN114880346B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/24569Query processing with adaptation to specific hardware, e.g. adapted for using GPUs or SSDs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及数据库技术领域,公开了一种数据处理方法及相关组件、加速处理器,包括:获取加速指令,并根据所述加速指令利用加速处理器的预设传输组件从关系型数据库中获取待处理数据;利用所述加速处理器的预设处理组件对所述待处理数据进行处理;其中,所述预设处理组件的处理逻辑为硬件逻辑;利用所述加速处理器的所述预设传输组件通过异构缓存一致性接口将处理后的所述待处理数据传输至运行所述关系型数据库的主机处理器。本申请在将主机处理器处理数据库的任务卸载至加速处理器时,能够平衡数据传输与数据处理能力,同时保证加速处理器与主机处理器内部缓存的一致性,使得数据传输延时较低且具有较好的通用性和扩展性。

Description

一种数据处理方法及相关组件、加速处理器
技术领域
本发明涉及数据库技术领域,特别涉及一种数据处理方法及相关组件、加速处理器。
背景技术
数据库是人工智能、云计算、大数据处理等关键工作负载,如今数据海量爆发,使得数据库的性能需求不断提升。特别在智算中心中,各种创新业务场景层出不穷,极大促进了数据库技术和架构的革新,数据库产业正进入重大发展机遇期。
现有技术中,主机处理器卸载计算密集型任务卸载时,一般通过PCIE接口与主机处理器进行连接,往往需要借助于复杂的PCIE驱动程序来建立数据传输通路,地址映射转换过程使得传输延时较高,严重制约数据卸载性能。另外当前通过软件加速逻辑来执行密集型任务使得加速性能不足且通用性较差。
因此,如何提高面向关系型数据库的数据处理能力是本领域技术人员亟待解决的技术问题。
发明内容
有鉴于此,本发明的目的在于提供一种数据处理方法及相关组件、加速处理器。其具体方案如下:
本申请的第一方面提供了一种数据处理方法,包括:
获取加速指令,并根据所述加速指令利用加速处理器的预设传输组件通过异构缓存一致性接口从关系型数据库中获取待处理数据;
利用所述加速处理器的预设处理组件对所述待处理数据进行处理;其中,所述预设处理组件的处理逻辑为硬件逻辑;
利用所述加速处理器的所述预设传输组件通过所述异构缓存一致性接口将处理后的所述待处理数据传输至运行所述关系型数据库的主机处理器。
可选的,所述根据所述加速指令利用加速处理器的预设传输组件通过异构缓存一致性接口从关系型数据库中获取待处理数据,包括:
根据所述加速指令通过所述异构缓存一致性接口从所述关系型数据库中以数据页的形式读取所述待处理数据;
通过采用多通道设计的内存通道分别将读取的所述待处理数据派发至所述加速处理器的片内存储中。
可选的,每个所述内存通道对应两个数据页RAM;
相应的,将读取的所述待处理数据派发至所述加速处理器的片内存储中,包括:
通过所述内存通道将读取的所述待处理数据派发至对应的任一数据页RAM,以在处理完成后派发至对应的另一数据页RAM。
可选的,所述预设处理组件包括行列数据解析子组件,用于对所述待处理数据中各行数据的列数据进行解析;
其中,所述对所述待处理数据中各行数据的列数据进行解析,包括:
从配置存储器的行控制信息中获取行指针以生成行数据访问地址,并根据所述行数据访问地址通过滑动窗口的方式对采用双独立RAM存储的所述待处理数据的各行数据进行访问;
当前访问行数据的当前属性列解析完成后生成下一属性列的指针以对下一属性列进行解析,直至当前访问行数据的所有属性列均解析完成。
可选的,所述数据处理方法,还包括:
判断当前属性列是否为空值列,如果否,则解析当前属性列,如果是,则解析下一属性列;
从配置存储器中获取静态属性列数量和动态属性列数量,如果解析完成的属性列数量不小于所述静态属性列数量和所述动态属性列数量中的小值,则判定当前访问行数据的所有属性列均解析完成。
可选的,所述预设处理组件包括多表连接子组件,用于根据连接条件按照通过硬件逻辑定义的预设连接模式对所述待处理数据所属的不同数据表进行连接。
可选的,所述预设处理组件包括表达式处理子组件,用于利用按照通过硬件逻辑定义的表达式翻译器将查询语句翻译为指令码并流配置至对应类型的RAM执行,以对所述待处理数据的进行过滤操作。
可选的,所述预设处理组件还包括统计子组件,用于按照通过硬件逻辑定义的统计算法对过滤操作后的所述待处理数据中满足预设条件的列数据进行排序操作或分组-聚合操作。
可选的,所述预设处理组件包括多表连接子组件、表达式处理子组件和统计子组件中的任意一个或多个;其中,当所述预设处理组件由多个子组件组成,则各子组件之间按照流水线并行的方式对所述待处理数据进行处理。
本申请的第二方面提供了一种加速处理器,包括预设传输组件和预设处理组件,其中:
所述预设传输组件,用于根据所述加速指令利用加速处理器的预设传输组件通过异构缓存一致性接口从关系型数据库中获取待处理数据,并通过所述异构缓存一致性接口将处理后的所述待处理数据传输至运行所述关系型数据库的主机处理器;
所述预设处理组件,用于对所述待处理数据进行处理;其中,所述预设处理组件的处理逻辑为硬件逻辑。
本申请的第三方面提供了一种数据处理装置,包括:
获取模块,用于获取加速指令,并根据所述加速指令利用加速处理器的预设传输组件通过异构缓存一致性接口从关系型数据库中获取待处理数据;
处理模块,用于利用所述加速处理器的预设处理组件对所述待处理数据进行处理;其中,所述预设处理组件的处理逻辑为硬件逻辑;
传输模块,用于利用所述加速处理器的所述预设传输组件通过所述异构缓存一致性接口将处理后的所述待处理数据传输至运行所述关系型数据库的主机处理器。
本申请的第四方面提供了一种电子设备,所述电子设备包括处理器和存储器;其中所述存储器用于存储计算机程序,所述计算机程序由所述处理器加载并执行以实现前述数据处理方法。
本申请的第五方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现前述数据处理方法。
本申请中,先获取加速指令,并根据所述加速指令利用加速处理器的预设传输组件从关系型数据库中获取待处理数据;然后利用所述加速处理器的预设处理组件对所述待处理数据进行处理;其中,所述预设处理组件的处理逻辑为硬件逻辑;最后利用所述加速处理器的所述预设传输组件通过异构缓存一致性接口将处理后的所述待处理数据传输至运行所述关系型数据库的主机处理器。可见,本申请在将主机处理器处理数据库的任务卸载至加速处理器时,利用加速处理器实现硬件加速,数据处理性能较高。具体通过加速处理器的预设传输组件和预设处理组件来平衡数据传输与数据处理能力,同时异构缓存一致性接口能够保证加速处理器与主机处理器内部缓存的一致性,使得数据传输延时较低且具有较好的通用性和扩展性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的一种数据处理方法流程图;
图2为本申请提供的一种具体的预设传输组件的微体系结构图;
图3为本申请提供的一种具体的行列数据解析子组件的微体系结构图;
图4为本申请提供的一种具体的表达式处理子组件的微体系结构图;
图5为本申请提供的一种具体的指令码结构示例图;
图6为本申请提供的一种具体的分组-聚合单元的微体系结构图;
图7为本申请提供的一种具体的加速处理器的微体系结构图;
图8为本申请提供的一种具体的主机处理器与加速处理器之间的连接架构图;
图9为本申请提供的一种数据处理装置结构示意图;
图10为本申请提供的一种数据处理电子设备结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有技术中,主机处理器卸载计算密集型任务卸载时,一般通过PCIE接口与主机处理器进行连接,往往需要借助于复杂的PCIE驱动程序来建立数据传输通路,地址映射转换过程使得传输延时较高,严重制约数据卸载性能。另外当前通过软件加速逻辑来执行密集型任务使得加速性能不足且通用性较差。针对上述技术缺陷,本申请提供一种数据处理方案,在将主机处理器处理数据库的任务卸载至加速处理器时,能够平衡数据传输与数据处理能力,同时保证加速处理器与主机处理器内部缓存的一致性,使得数据传输延时较低且具有较好的通用性和扩展性。
图1为本申请实施例提供的一种数据处理方法流程图。参见图1所示,该数据处理方法包括:
S11:获取加速指令,并根据所述加速指令利用加速处理器的预设传输组件通过异构缓存一致性接口从关系型数据库中获取待处理数据。
本实施例中,获取加速指令,并根据所述加速指令利用加速处理器的预设传输组件从关系型数据库中获取待处理数据。所述加速指令触发所述加速处理器开始对所述关系型数据库进行加速。所述加速处理器为数据库加速处理器,基于FPGA(Field ProgrammableGate Array,现场可编程与门阵列)、各种专用加速芯片(ASIC芯片)等构建,核心可以为数据处理器(DPU,Data Processing Unit)。DPU主要指加速处理各种时序化、结构化、非结构化的数据,比如大型的结构化表格、网络流中的数据、海量的文本、图数据等等的专用引擎。DPU不完全是一颗固化的ASIC芯片,在CXL、CCIX、OpenCAPI等标准组织所倡导CPU、GPU与DPU等数据一致性访问协议的铺垫下,将更进一步简化接口规范,结合FPGA等可编程器件,可定制硬件将有更大的发挥空间,“软件硬件化”将成为常态,异构计算的潜能将因各种数据处理器而彻底发挥出来。
所述关系型数据库为运行在主机处理器上的数据库,所述加速处理器中设置有所述预设传输组件,所述预设传输组件的逻辑为硬件逻辑。所述关系型数据库中的数据利用所述预设传输组件通过所述异构缓存一致性接口传入所述加速处理器。所述异构缓存一致性接口为满足异构缓存一致性协议的高速串行接口,异构缓存一致性协议通信需具有内存零拷贝、简化软件栈、直接从处理器端内存读取、访问延时低等特性,具体可以是CXL、CCIX、OpenCAPI协议等。上述关于获取所述待处理数据的具体过程为:首先所述预设传输组件根据所述加速指令通过所述异构缓存一致性接口从所述关系型数据库中以数据页的形式读取所述待处理数据,接着通过采用多通道设计的内存通道分别将读取的所述待处理数据派发至所述加速处理器的片内存储中。
图2为所述预设传输组件的微体系结构图,如图2所示,所述预设传输组件除了传输关系型数据库数据之外还将参数配置数据传输至所述加速处理器,所述加速处理器接收带宽基本与所述异构缓存一致性接口带宽一致,达到16GB/S及以上的带宽。同时采用多通道设计,支持2-16个DDR内存或者HBM片内存储通道,写数据和读数据可以同时进行。即“数据库-加速处理器内存”和“加速处理器内存-数据派发逻辑”可以同时运行,数据派发逻辑采用512bits的数据宽度传输,工作频率在250MHz以上,通过地址划分将数据派发到片内存储中。数据库-加速处理器侧内存采用16MB、32MB、64MB或128MB的大小DMA传输,完成DMA操作后产生中断信号发给所述关系型数据库和数据派发逻辑,并切换到其他通道读写数据,所述加速处理器内部数据以数据页的形式保存,具体以4KB、8KB、16KB、32KB或64KB的数据页形式保存。
进一步的,本实施例中,每个所述内存通道对应两个数据页RAM,通过所述内存通道将读取的所述待处理数据派发至对应的任一数据页RAM,以在处理完成后派发至对应的另一数据页RAM。也即后续每个处理通道对应两个数据页RAM,完成一个页的处理后,切换到另一个页处理,完成处理的页进行数据读取,保证数据的不间断输入。地址线使用24bits表示,0-15位表示片内存储地址,16位表示组内两个RAM,17-21位表示通道内哪一组RAM,22-26位表示哪个通道,27-31位作为保留位。
S12:利用所述加速处理器的预设处理组件对所述待处理数据进行处理;其中,所述预设处理组件的处理逻辑为硬件逻辑。
本实施例中,在获取到所述待处理数据之后,利用所述加速处理器的预设处理组件对所述待处理数据进行处理。所述预设处理组件的处理逻辑为硬件逻辑。如果所述预设处理组件为行列数据解析子组件,则所述行列数据解析子组件用于对所述待处理数据中各行数据的列数据进行解析。也即将数据页中的数据映射到行存储中,进而根据关系型数据库存储结构和SQL语句的解析信息,将表中的行数据通过硬件逻辑将列信息解析出来,解析输出包括页号、行号、列号、列起始地址、列长度和列数据等。具体的,首先从配置存储器的行控制信息中获取行指针以生成行数据访问地址,并根据所述行数据访问地址通过滑动窗口的方式对采用双独立RAM存储的所述待处理数据的各行数据进行访问。当前访问行数据的当前属性列解析完成后生成下一属性列的指针以对下一属性列进行解析,直至当前访问行数据的所有属性列均解析完成。
本实施例的所述行列数据解析子组件对应的微体系结构如图3所示,采用双独立存储介质,控制地址的方式实现数据窗口的移动,兼容所述关系型数据库的存储结构。从页头获取行指针,作为初始值传递给所述行列数据解析组件,生成所述行数据访存地址。行数据采用两个独立的RAM存储,分为高地址UP部分和低地址DOWN部分,处理数据的宽度是RAM_UP的数据宽度加上RAM_DOWN的数据宽度,滑动窗口的长度根据配置信息可以按照字节、字、双字、变长length等长度滑动。当窗口指针在低字节时,两个行数据RAM的访存地址相同,当窗口指针在高字节时,RAM_DOWN的访存地址加1,使整体的数据宽度向前滑动了一个RAM的数据宽度。取到行数据后,根据行的对齐模式,第二次形成访问行数据RAM的地址;数据访问完成后生成列数据Result和下一列的指针Tp_next,传递给模块起始位置,循环处理,直到这一行中的所有列解析完成,开始第二行的解析。
进一步的,在解析时还需要判断当前属性列是否为空值列,如果否,则解析当前属性列,如果是,则解析下一属性列。同时为了确定是否解析完成,还需从配置存储器中获取静态属性列数量和动态属性列数量,如果解析完成的属性列数量不小于所述静态属性列数量和所述动态属性列数量中的小值,则判定当前访问行数据的所有属性列均解析完成。
本实施例中,如果所述预设处理组件为多表连接子组件,则所述多表连接子组件用于根据连接条件按照通过硬件逻辑定义的预设连接模式对所述待处理数据所属的不同数据表进行连接。主要通过硬件逻辑完成所述关系型数据库中的Join连接操作,通过连接条件将两个或更多的数据表连接起来。所述关系型数据库中的表通过键值将彼此联系起来,形成完整的数据信息。该子组件支持多种连接模式,包括左连接、右连接和全连接模式等。并且支持多种连接算法,包括全连接算法、排序后连接算法、哈希连接算法等,不同连接算法选择可定制化配置。
本实施例中,如果所述预设处理组件为表达式处理子组件,则所述表达式处理子组件用于利用按照通过硬件逻辑定义的表达式翻译器将查询语句翻译为指令码并流配置至对应类型的RAM执行,以对所述待处理数据的进行过滤操作。所述多表连接子组件对应的微体系结构如图4所示,主要功能是完成将SQL语句中的WHERE条件过滤操作,通过软硬件协同设计,设计所述表达式编译器,将表达式翻译成独立的指令码,指令码结构如图5所示,将指令码流配置到该模块的指令码RAM和立即数RAM中。所述表达式编译器广泛支持所述关系型数据库内部的数据结构,无缝连接所述关系型数据库和所述加速处理器,同时也优化指令派发顺序。硬件逻辑设计方面针对不同的数据类型,分别实现独立计算单元,根据应用需求配置不同类型的数据计算单元。
在此基础上,还可以包括统计子组件,用于按照通过硬件逻辑定义的统计算法对过滤操作后的所述待处理数据中满足预设条件的列数据进行排序操作或分组-聚合操作。主要是通过硬件逻辑完成关系型数据库中WHERE语句的过滤操作,根据具体列的实际信息判断是否满足条件,若满足则进入后续排序、分组-聚合单元,若不满足则舍弃。本实施例通过软硬件协同设计,在资源消耗较小的情况下,针对不同的数据类型,独立实现计算功能。用户可根据实际需求定制化选择需要的数据类型,具备较好的通用性。
可以理解,所述统计子组件分为数据排序单元和分组-聚合单元。所述数据排序单元通过硬件逻辑完成所述关系型数据库中的Order By语句的排序操作,根据指定的列对结果集进行排序,实现多种排序算法的GB及以上大规模数据排序,包括但不限于冒泡算、并行比较算法、双调排序算法,同时可以定制化选择排序算法,通过定制化能力,获得最优的性能和最佳的性价比。所述分组-聚合单元对应的微体系结构如图6所示,主要是通过硬件逻辑完成所述待处理数据中的Group By分组操作和聚合函数操作,按键值进行分类。采用数据分组方法,并行实现分组条件计算,将满足条件的数据传给聚合操作单元,组内完成聚合操作,聚合操作包括累加、求平均、取最大/最小值、计数等,最后经过全局聚合操作输出,输出包括聚合结果和有效信号。
特别的,本实施例中的所述预设处理组件包括多表连接子组件、表达式处理子组件和统计子组件中的任意一个或多个。其中,当所述预设处理组件由多个子组件组成,则各子组件之间按照流水线并行的方式对所述待处理数据进行处理。具体可以按照所述行列数据解析子组件、所述多表连接子组件、所述统计子组件的流水线,各子组件间流水线化设计,满足条件即可运行启动,也即所述行列数据解析子组件完成后启动所述多表连接子组件,所述多表连接子组件完成后启动所述统计子组件。此种情况下所述加速处理器的微体系结构如图7所示。
S13:利用所述加速处理器的所述预设传输组件通过异构缓存一致性接口将处理后的所述待处理数据传输至运行所述关系型数据库的主机处理器。
本实施例中,在所述预设处理组件处理完成后,利用所述加速处理器的所述预设传输组件通过异构缓存一致性接口将处理后的所述待处理数据传输至运行所述关系型数据库的所述主机处理器。所述主机处理器与所述加速处理器之间的连接架构如图8所示。所述加速处理器与所述主机处理器之间建立的快速通道满足所述异构缓存一致性协议,能够两者之间的Cache缓存一致性,具体协议可以采用CXL、CCIX、OpenCAPI、Gen-Z等。相较PCIE等协议省去了地址映射转换过程延时低,同时通过标准化接口连接使所述加速处理器具有良好通用性。
可见,本申请实施例先获取加速指令,并根据所述加速指令利用加速处理器的预设传输组件从关系型数据库中获取待处理数据;然后利用所述加速处理器的预设处理组件对所述待处理数据进行处理;其中,所述预设处理组件的处理逻辑为硬件逻辑;最后利用所述加速处理器的所述预设传输组件通过异构缓存一致性接口将处理后的所述待处理数据传输至运行所述关系型数据库的主机处理器。本申请实施例在将主机处理器处理数据库的任务卸载至加速处理器时,利用加速处理器实现硬件加速,数据处理性能较高。具体通过加速处理器的预设传输组件和预设处理组件来平衡数据传输与数据处理能力,同时异构缓存一致性接口能够保证加速处理器与主机处理器内部缓存的一致性,使得数据传输延时较低且具有较好的通用性和扩展性。
本申请实施例还提供一种加速处理器,该加速处理器包括预设传输组件和预设处理组件,其中:
所述预设传输组件,用于根据所述加速指令利用加速处理器的预设传输组件通过异构缓存一致性接口从关系型数据库中获取待处理数据,并通过所述异构缓存一致性接口将处理后的所述待处理数据传输至运行所述关系型数据库的主机处理器;所述预设处理组件,用于对所述待处理数据进行处理;其中,所述预设处理组件的处理逻辑为硬件逻辑。
本实施例中,根据前文所述,所述加速处理器中的所述预设处理组件具体可以包括速处理器数据传输模块、行列数据解析子组件、多表连接子组件、表达式(计算和条件过滤)处理子组件、统计子组件(数据排序单元、分组-聚合单元),支撑了系统的功能实现,各子组件通过流水线化和资源复制等技术手段,极大提高了数据处理能力,卸载所述主机处理器的控制负载,提高数据处理整体性能。
参见图9所示,本申请实施例还相应公开了一种数据处理装置,包括:
获取模块11,用于获取加速指令,并根据所述加速指令利用加速处理器的预设传输组件通过异构缓存一致性接口从关系型数据库中获取待处理数据;
处理模块12,用于利用所述加速处理器的预设处理组件对所述待处理数据进行处理;其中,所述预设处理组件的处理逻辑为硬件逻辑;
传输模块13,用于利用所述加速处理器的所述预设传输组件通过所述异构缓存一致性接口将处理后的所述待处理数据传输至运行所述关系型数据库的主机处理器。
可见,本申请实施例先获取加速指令,并根据所述加速指令利用加速处理器的预设传输组件从关系型数据库中获取待处理数据;然后利用所述加速处理器的预设处理组件对所述待处理数据进行处理;其中,所述预设处理组件的处理逻辑为硬件逻辑;最后利用所述加速处理器的所述预设传输组件通过异构缓存一致性接口将处理后的所述待处理数据传输至运行所述关系型数据库的主机处理器。本申请实施例在将主机处理器处理数据库的任务卸载至加速处理器时,利用加速处理器实现硬件加速,数据处理性能较高。具体通过加速处理器的预设传输组件和预设处理组件来平衡数据传输与数据处理能力,同时异构缓存一致性接口能够保证加速处理器与主机处理器内部缓存的一致性,使得数据传输延时较低且具有较好的通用性和扩展性。
在一些具体实施例中,所述获取模块11,具体包括:
读取单元,用于根据所述加速指令通过所述异构缓存一致性接口从所述关系型数据库中以数据页的形式读取所述待处理数据;
派发单元,用于通过采用多通道设计的内存通道分别将读取的所述待处理数据派发至所述加速处理器的片内存储中。
在一些具体实施例中,当预设处理组件包括行列数据解析子组件,所述处理模块12,具体包括:
地址生成单元,用于从配置存储器的行控制信息中获取行指针以生成行数据访问地址;
访问单元,用于根据所述行数据访问地址通过滑动窗口的方式对采用双独立RAM存储的所述待处理数据的各行数据进行访问;
解析单元,用于当前访问行数据的当前属性列解析完成后生成下一属性列的指针以对下一属性列进行解析,直至当前访问行数据的所有属性列均解析完成;
相应的,所述数据处理装置,具体还包括:
判断模块,用于判断当前属性列是否为空值列,如果否,则解析当前属性列,如果是,则解析下一属性列;
比较单元,用于从配置存储器中获取静态属性列数量和动态属性列数量,如果解析完成的属性列数量不小于所述静态属性列数量和所述动态属性列数量中的小值,则判定当前访问行数据的所有属性列均解析完成。
在一些具体实施例中,当预设处理组件包括多表连接子组件,所述处理模块12,具体用于根据连接条件按照通过硬件逻辑定义的预设连接模式对所述待处理数据所属的不同数据表进行连接。
在一些具体实施例中,当预设处理组件包括表达式处理子组件,所述处理模块12,具体用于利用按照通过硬件逻辑定义的表达式翻译器将查询语句翻译为指令码并流配置至对应类型的RAM执行,以对所述待处理数据的进行过滤操作。
在一些具体实施例中,当预设处理组件包括统计子组件,所述处理模块12,具体用于按照通过硬件逻辑定义的统计算法对过滤操作后的所述待处理数据中满足预设条件的列数据进行排序操作或分组-聚合操作。
进一步的,本申请实施例还提供了一种电子设备。图10是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本申请的使用范围的任何限制。
图10为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的数据处理方法中的相关步骤。
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222及数据223等,存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,以实现处理器21对存储器22中海量数据223的运算与处理,其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的数据处理方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223可以包括电子设备20收集到的指令信息。
进一步的,本申请实施例还公开了一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被处理器加载并执行时,实现前述任一实施例公开的数据处理方法步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个…”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的数据处理方法及相关组件、加速处理器进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (5)

1.一种数据处理方法,其特征在于,包括:
获取加速指令,并根据所述加速指令利用加速处理器的预设传输组件通过异构缓存一致性接口从关系型数据库中获取待处理数据;
利用所述加速处理器的预设处理组件对所述待处理数据进行处理;其中,所述预设处理组件的处理逻辑为硬件逻辑;
利用所述加速处理器的所述预设传输组件通过所述异构缓存一致性接口将处理后的所述待处理数据传输至运行所述关系型数据库的主机处理器;
其中,所述根据所述加速指令利用加速处理器的预设传输组件通过异构缓存一致性接口从关系型数据库中获取待处理数据,包括:
根据所述加速指令通过所述异构缓存一致性接口从所述关系型数据库中以数据页的形式读取所述待处理数据;通过采用多通道设计的内存通道分别将读取的所述待处理数据派发至所述加速处理器的片内存储中;
每个所述内存通道对应两个数据页RAM;
相应的,将读取的所述待处理数据派发至所述加速处理器的片内存储中,包括:
通过所述内存通道将读取的所述待处理数据派发至对应的任一数据页RAM,以在处理完成后派发至对应的另一数据页RAM;
所述预设处理组件包括行列数据解析子组件,用于对所述待处理数据中各行数据的列数据进行解析;
其中,所述对所述待处理数据中各行数据的列数据进行解析,包括:
从配置存储器的行控制信息中获取行指针以生成行数据访问地址,并根据所述行数据访问地址通过滑动窗口的方式对采用双独立RAM存储的所述待处理数据的各行数据进行访问;当前访问行数据的当前属性列解析完成后生成下一属性列的指针以对下一属性列进行解析,直至当前访问行数据的所有属性列均解析完成;
所述数据处理方法还包括:
判断当前属性列是否为空值列,如果否,则解析当前属性列,如果是,则解析下一属性列;从配置存储器中获取静态属性列数量和动态属性列数量,如果解析完成的属性列数量不小于所述静态属性列数量和所述动态属性列数量中的小值,则判定当前访问行数据的所有属性列均解析完成。
2.一种加速处理器,其特征在于,包括预设传输组件和预设处理组件,其中:
所述预设传输组件,用于根据加速指令利用加速处理器的预设传输组件通过异构缓存一致性接口从关系型数据库中获取待处理数据,并通过所述异构缓存一致性接口将处理后的所述待处理数据传输至运行所述关系型数据库的主机处理器;
所述预设处理组件,用于对所述待处理数据进行处理;其中,所述预设处理组件的处理逻辑为硬件逻辑;
其中,所述预设传输组件,具体用于:
根据所述加速指令通过所述异构缓存一致性接口从所述关系型数据库中以数据页的形式读取所述待处理数据;通过采用多通道设计的内存通道分别将读取的所述待处理数据派发至所述加速处理器的片内存储中;
每个所述内存通道对应两个数据页RAM;
相应的,将读取的所述待处理数据派发至所述加速处理器的片内存储中,包括:
通过所述内存通道将读取的所述待处理数据派发至对应的任一数据页RAM,以在处理完成后派发至对应的另一数据页RAM;
所述预设处理组件包括行列数据解析子组件,用于对所述待处理数据中各行数据的列数据进行解析;
其中,所述对所述待处理数据中各行数据的列数据进行解析,包括:
从配置存储器的行控制信息中获取行指针以生成行数据访问地址,并根据所述行数据访问地址通过滑动窗口的方式对采用双独立RAM存储的所述待处理数据的各行数据进行访问;当前访问行数据的当前属性列解析完成后生成下一属性列的指针以对下一属性列进行解析,直至当前访问行数据的所有属性列均解析完成;
判断当前属性列是否为空值列,如果否,则解析当前属性列,如果是,则解析下一属性列;从配置存储器中获取静态属性列数量和动态属性列数量,如果解析完成的属性列数量不小于所述静态属性列数量和所述动态属性列数量中的小值,则判定当前访问行数据的所有属性列均解析完成。
3.一种数据处理装置,其特征在于,包括:
获取模块,用于获取加速指令,并根据所述加速指令利用加速处理器的预设传输组件通过异构缓存一致性接口从关系型数据库中获取待处理数据;
处理模块,用于利用所述加速处理器的预设处理组件对所述待处理数据进行处理;其中,所述预设处理组件的处理逻辑为硬件逻辑;
传输模块,用于利用所述加速处理器的所述预设传输组件通过所述异构缓存一致性接口将处理后的所述待处理数据传输至运行所述关系型数据库的主机处理器;
其中,所述获取模块,具体用于:
根据所述加速指令通过所述异构缓存一致性接口从所述关系型数据库中以数据页的形式读取所述待处理数据;通过采用多通道设计的内存通道分别将读取的所述待处理数据派发至所述加速处理器的片内存储中;
每个所述内存通道对应两个数据页RAM;
所述获取模块,具体用于:
通过所述内存通道将读取的所述待处理数据派发至对应的任一数据页RAM,以在处理完成后派发至对应的另一数据页RAM;
所述预设处理组件包括行列数据解析子组件,用于对所述待处理数据中各行数据的列数据进行解析;
所述数据处理装置,具体用于:
从配置存储器的行控制信息中获取行指针以生成行数据访问地址,并根据所述行数据访问地址通过滑动窗口的方式对采用双独立RAM存储的所述待处理数据的各行数据进行访问;当前访问行数据的当前属性列解析完成后生成下一属性列的指针以对下一属性列进行解析,直至当前访问行数据的所有属性列均解析完成;
所述数据处理装置,具体还用于:
判断当前属性列是否为空值列,如果否,则解析当前属性列,如果是,则解析下一属性列;从配置存储器中获取静态属性列数量和动态属性列数量,如果解析完成的属性列数量不小于所述静态属性列数量和所述动态属性列数量中的小值,则判定当前访问行数据的所有属性列均解析完成。
4.一种电子设备,其特征在于,所述电子设备包括处理器和存储器;其中所述存储器用于存储计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1所述的数据处理方法。
5.一种计算机可读存储介质,其特征在于,用于存储计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如权利要求1所述的数据处理方法。
CN202210428508.6A 2022-04-22 2022-04-22 一种数据处理方法及相关组件、加速处理器 Active CN114880346B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210428508.6A CN114880346B (zh) 2022-04-22 2022-04-22 一种数据处理方法及相关组件、加速处理器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210428508.6A CN114880346B (zh) 2022-04-22 2022-04-22 一种数据处理方法及相关组件、加速处理器

Publications (2)

Publication Number Publication Date
CN114880346A CN114880346A (zh) 2022-08-09
CN114880346B true CN114880346B (zh) 2024-01-23

Family

ID=82670682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210428508.6A Active CN114880346B (zh) 2022-04-22 2022-04-22 一种数据处理方法及相关组件、加速处理器

Country Status (1)

Country Link
CN (1) CN114880346B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116149856A (zh) * 2023-01-09 2023-05-23 中科驭数(北京)科技有限公司 算子计算方法、装置、设备及介质
CN116450692B (zh) * 2023-06-06 2023-08-29 山东浪潮科学研究院有限公司 一种数据库故障排查方法,装置、设备及存储介质
CN117112596A (zh) * 2023-07-28 2023-11-24 中科驭数(北京)科技有限公司 数据处理方法、装置、设备及计算机可读存储介质
CN117234707A (zh) * 2023-08-30 2023-12-15 中科驭数(北京)科技有限公司 一种基于异构架构的Char类型条件判断方法及系统
CN117234706A (zh) * 2023-08-30 2023-12-15 中科驭数(北京)科技有限公司 Numeric数据类型转换方法、装置和加速卡
CN117389625B (zh) * 2023-12-11 2024-03-12 沐曦集成电路(南京)有限公司 基于主动中断指令的进程同步方法、系统、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046072A (zh) * 2019-11-29 2020-04-21 浪潮(北京)电子信息产业有限公司 一种数据查询方法、系统、异构计算加速平台及存储介质
CN111625558A (zh) * 2020-05-07 2020-09-04 苏州浪潮智能科技有限公司 一种服务器架构及其数据库查询方法和存储介质
CN113704301A (zh) * 2021-07-15 2021-11-26 苏州浪潮智能科技有限公司 异构计算平台的数据处理方法、装置、系统、设备及介质
CN113792094A (zh) * 2021-08-26 2021-12-14 广东电网有限责任公司 一种数据同步系统、方法、设备及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046072A (zh) * 2019-11-29 2020-04-21 浪潮(北京)电子信息产业有限公司 一种数据查询方法、系统、异构计算加速平台及存储介质
CN111625558A (zh) * 2020-05-07 2020-09-04 苏州浪潮智能科技有限公司 一种服务器架构及其数据库查询方法和存储介质
CN113704301A (zh) * 2021-07-15 2021-11-26 苏州浪潮智能科技有限公司 异构计算平台的数据处理方法、装置、系统、设备及介质
CN113792094A (zh) * 2021-08-26 2021-12-14 广东电网有限责任公司 一种数据同步系统、方法、设备及介质

Also Published As

Publication number Publication date
CN114880346A (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
CN114880346B (zh) 一种数据处理方法及相关组件、加速处理器
WO2021254135A1 (zh) 任务执行方法及存储设备
US10990598B2 (en) Aggregating quantile metrics in multidimensional data sets
CN108694221B (zh) 数据实时分析方法、模块、设备和装置
US20210373799A1 (en) Method for storing data and method for reading data
CN111562885A (zh) 数据处理方法、装置、计算机设备及存储介质
CN114356971A (zh) 数据处理方法、装置以及系统
CN108363741B (zh) 大数据统一接口方法、装置、设备及存储介质
CN112949269A (zh) 可视化数据分析报表的生成方法、系统、设备及存储介质
Abbani et al. A distributed reconfigurable active SSD platform for data intensive applications
CN111666344A (zh) 异构数据同步方法及装置
CN111352951A (zh) 一种数据导出方法、装置及系统
CN105426119A (zh) 一种存储设备及数据处理方法
US11030177B1 (en) Selectively scanning portions of a multidimensional index for processing queries
CN113220710A (zh) 数据查询方法、装置、电子设备以及存储介质
Sinthong et al. AFrame: Extending DataFrames for large-scale modern data analysis (Extended Version)
CN112970011A (zh) 记录查询优化中的谱系
CN115809294A (zh) 一种基于Spark SQL临时视图的快速ETL方法
CN114547199A (zh) 数据库增量同步响应方法、装置及计算机可读存储介质
CN113742385A (zh) 数据查询方法及装置
EP2990960A1 (en) Data retrieval via a telecommunication network
Istvan Building Distributed Storage with Specialized Hardware
US11636111B1 (en) Extraction of relationship graphs from relational databases
CN111125147B (zh) 基于扩展预计算模型和sql函数的超大集合分析方法及装置
CN113468249A (zh) 一种数据排序的方法及相应装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant