CN113918356A

CN113918356A - 基于cuda数据快速同步方法、装置、计算机设备及存储介质

Info

Publication number: CN113918356A
Application number: CN202111516643.8A
Authority: CN
Inventors: 杨伟鹏; 霍键聪
Original assignee: Guangdong Eflycloud Computing Co Ltd
Current assignee: Guangdong Eflycloud Computing Co Ltd
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2022-01-11
Anticipated expiration: 2041-12-13
Also published as: CN113918356B

Abstract

本申请属于数据处理领域，应用于数据同步领域中，涉及一种基于CUDA数据快速同步方法、装置、计算机设备及存储介质，所述方法包括获取GPU流处理器数量，根据GPU流处理器数量，计算GPU流处理器在一次执行周期内，需要同时进行读取并且计算md5校验码的窗口数量，在GPU上创建CUDA进程；调用CUDA应用程序编程接口，从多个窗口批量读取nvme磁盘中的文件；在CUDA进程上创建多线程，所述多线程执行对各个不同窗口md5计算任务；在显存GDDR6中按照原文件内容序列，重新组装窗口数据内容。可改善传输速度，可同时拷贝多份窗口数据，可提升rsync同步备份性能。

Description

基于CUDA数据快速同步方法、装置、计算机设备及存储介质

技术领域

本申请涉及数据同步技术领域，尤其涉及基于CUDA数据快速同步方法、装置、计算机设备及存储介质。

背景技术

目前服务器之间常用的数据同步工具是rsync。由于rsync 开发年代久远，使用单核处理器验证数据完整性的方法，数据交换效率低下，已不适用当前异构海量数据处理的环境。

发明内容

本申请的目的在于提出一种基于CUDA数据快速同步方法、装置、计算机设备及存储介质，以解决现有技术中数据同步使用单核处理器验证数据完整性的方法，数据交换效率低下的问题。

为了解决上述技术问题，本申请提供一种基于CUDA数据快速同步方法，采用了如下所述的技术方案，包括下述步骤：

获取GPU流处理器数量，根据GPU流处理器数量，计算GPU流处理器在一次执行周期内，需要同时进行读取并且计算md5校验码的窗口数量，在GPU上创建CUDA进程；

调用CUDA应用程序编程接口，从多个窗口批量读取nvme磁盘中的文件；

在CUDA进程上创建多线程，所述多线程执行对各个不同窗口md5计算任务；在显存GDDR6中按照原文件内容序列，重新组装窗口数据内容。

进一步的，在所述在显存中GDDR6按照原文件内容序列重新组装窗口数据内容的步骤之后还包括：

调用DMA刷将重新组装后的窗口数据内容写进socket缓冲区。

进一步的，所述获取GPU流处理器数量，根据GPU流处理器数量，计算GPU流处理器在一次执行周期内，需要同时进行读取并且计算md5校验码的窗口数量，在GPU上创建CUDA进程的步骤具体包括：

设置一个线程绑定的GPU流处理器数量；

设置一个文件分割成多个窗口，所述窗口指的是文件块，一个文件块的字节数对应线程与线程之间所对应的间隔字节数，每个线程处理一个文件块的字节数的数据；

判断文件大小是否超过所有窗口加起来最大处理容量，当文件块数量小于窗口数量时，按照文件块数量来创建窗口数量，当文件块数量超过能创建窗口最大数量时，则按照能创建窗口最大数量来创建窗口数量。

设置一个文件分割成多个窗口。

进一步的，所述调用CUDA应用程序编程接口，以多个窗口批量读取nvme磁盘中的文件的步骤具体包括：

调用gpudirect storage应用程序编程接口，以多个窗口批量把nvme磁盘中的文件拷贝到GDDR6上。

进一步的，所述在CUDA进程上创建多线程，所述多线程执行对各个不同窗口md5计算任务的步骤还包括：

调用CUDA Malloc 创建char数组farray，farray大小与文件大小一致；

创建名为md5array的 int32类型数组，保存文件每个文件块的数据所生产的md5值，md5array大小与窗口数量一致；

声明线程函数，传入参数当中包括文件偏移量，处理数据长度，以及指向GDDR6分配空间farray,md5array的指针，线程函数指的是GPU线程入口，在线程内部执行逻辑计算，farray数组用于储存文件本身数据，farray数组与md5array不同，数组类型由GPU窗口大小而定， farray数组自身大小与窗口数量保持一致。

进一步的，所述在显存GDDR6中按照原文件内容序列，重新组装窗口数据内容的步骤还包括：

每个窗口记录自己处理的文件偏移量；

CUDA在显存DDR6上预分配文件大小的空间，预分配文件大小的空间包括farray数组与 md5array数组；

窗口根据文件偏移量，以及指向分配空间的指针，在对应位置写入窗口数据。

为了解决上述技术问题，本申请还提供一种基于CUDA数据快速同步装置，采用了如下所述的技术方案，包括：

获取模块，用于获取GPU流处理器数量，根据GPU流处理器数量，计算GPU流处理器在一次执行周期内，需要同时进行读取并且计算md5校验码的窗口数量，在GPU上创建CUDA进程；

调用模块，用于调用CUDA应用程序编程接口，从多个窗口批量读取nvme磁盘中的文件；

执行模块，用于在CUDA进程上创建多线程，所述多线程执行对各个不同窗口md5计算任务；重组模块，在显存GDDR6中按照原文件内容序列，重新组装窗口数据内容。

进一步的，所述获取模块包括：

获取子模块，用于获取GPU流处理器数量；

计算子模块，用于计算GPU流处理器在一次执行周期内，需要同时进行读取并且计算md5校验码的窗口数量；

创建模块，用于在GPU上创建CUDA进程。

为了解决上述技术问题，本申请还提供一种计算机设备，采用了如下所述的技术方案：

包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现上述的基于CUDA数据快速同步方法的步骤。

为了解决上述技术问题，本申请还提供一种计算机可读存储介质，采用了如下所述的技术方案：

所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现上述的基于CUDA数据快速同步方法的步骤。

与现有技术相比，本申请主要有以下有益效果：

利用 CUDA 并行运算方式，结合GPU与nvme 储存设备同一PCIE总线的特点，改善传输速度；

借助GPU 使用 gpudirect storage接口，从同一PCIE总线的nvme储存设备，而不经过CPU，可同时拷贝多份窗口数据；

借助GPU创建多线程，分配多个流处理器，同时计算md5窗口数据；

借助GPU使用 gpudirect rdma接口，不经过 CPU，直接拷贝到网络的 socket缓冲区发送至备份端，提升rsync同步备份性能。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2是现有技术中rsync同步数据的示意图；

图3是现有技术中rsync备份数据所经过的硬件设备到达对端的示意图；

图4 是本申请的基于CUDA数据快速同步方法的一个实施例的流程图；

图5是本申请采用的rsync同步数据流程图；

图6是本申请采用的备份数据所经过的硬件设备到达对端的示意图；

图7（a）是现有技术中对16KB文件采用rsync同步的流程图；

图7（b）是对16KB文件采用本申请的基于CUDA数据快速同步方法的流程图；

图8是本申请的基于CUDA数据快速同步装置的一个实施例的结构示意图；

图9是本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括第一终端设备101、第二终端设备102、第三终端设备103，网络104和服务器105。网络104用以在第一终端设备101、第二终端设备102、第三终端设备103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用第一终端设备101、第二终端设备102、第三终端设备103通过网络104与服务器105交互，以接收或发送消息等。第一终端设备101、第二终端设备102、第三终端设备103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

第一终端设备101、第二终端设备102、第三终端设备103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3 )、MP4( Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4 )播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对第一终端设备101、第二终端设备102、第三终端设备103上显示的页面提供支持的后台服务器。

需要说明的是，本申请所提供的基于CUDA数据快速同步方法一般由服务器/终端设备执行，相应地，基于CUDA数据快速同步装置一般设置于服务器/终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图2是现有技术中rsync同步数据的示意图。如图2所示，rsync要同步A文件，首先以滚动窗口形式读取文件，之后在内存上计算生成这个窗口数据的md5校验码，然后把窗口数据与md5一并发送到对端。

图3是现有技术中rsync备份数据所经过的硬件设备到达对端的示意图。如图3所示，rsync一个周期只能计算一个窗口的校验码，并且单次数据搬运触发多次IO，传输效率大大受限。

内核态：操作系统内核负责应用程序的线程切换操作，以及对CPU对外设（硬盘、网卡等）的读写。

用户态：应用程序在用户态执行逻辑运算，一旦应用程序执行了系统调用（文件、tcp、udp等），系统将由用户态切换成内核态，执行底层对外设操作，这个时候应用程序当前线程表现为阻塞，执行完毕后切换回用户态，继续执行应用程序逻辑。

应用程序的线程切换以及系统调用操作，都会发生上下文切换（用户态切换内核态、内核态切换用户态两者统称），这个过程会产生时间消耗，过多的上下文切换会影响应用程序执行速度。

继续参考图4，示出了本申请的基于CUDA数据快速同步的方法的一个实施例的流程图。所述的基于CUDA数据快速同步方法，包括以下步骤：

步骤S201，获取GPU流处理器数量，根据GPU流处理器数量，计算GPU流处理器在一次执行周期内，需要同时进行读取并且计算md5校验码的窗口数量，在GPU上创建CUDA进程。

本发明较佳实施例中,所述窗口包括但不限于已开启的网页页面，如用户A在浏览器中同时开启两个网页页面，其中一个网页页面称为第一滑动窗口、另一个网页页面则称为第二滑动窗口。

本发明较佳实施例中,获取GPU流处理器数量，根据GPU流处理器数量，计算GPU流处理器在一次执行周期内，需要同时进行读取并且计算md5校验码的窗口数量，在GPU上创建CUDA进程的步骤具体包括：

设置一个线程绑定的GPU流处理器数量，如设为32；

文件按照单个窗口大小来划分成小块，即一个小块的大小与窗口大小相等。单个窗口的大小和其他最大数量，由GPU自身硬件决定。例如，一个窗口即一个文件块大小为4MB，那么一个线程则会处理4MB的数据。线程与线程之间的间隔字节数即为4MB，一个窗口接着下一个窗口，多个4MB的窗口刚好覆盖整个文件。

判断文件大小是否超过所有窗口加起来最大处理容量，如果是，则创建文件大小除以间隔字节数得到的商（文件大小 / 4K）个线程，如果否，则按照一个线程绑定的GPU流处理器数量为一线程，创建最大数量窗口。

流处理器数量与设置线程数量相关，每个线程绑定32个流处理器，GPU资源分配最优。一个文件以4K字节进行分割成一个窗口对应一个线程，若文件大小不超过所有窗口加起最大处理容量，则只调用并创建（文件大小/ 4K + 1）个线程。需要说明的是，为了处理完整个文件，计算机整数除法会省去小数部分，所以多加一个窗口，来完整地处理整个文件。反之，则按照32个流处理器为一线程，创建最大数量窗口。

在本实施例中，基于CUDA数据快速同步方法运行于其上的电子设备(例如图1所示的服务器/终端设备)可以通过有线连接方式或者无线连接方式接收基于CUDA数据快速同步请求。需要指出的是，上述无线连接方式可以包括但不限于3G/4G/5G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB( ultra wideband )连接、以及其他现在已知或将来开发的无线连接方式。

步骤S202，调用CUDA应用程序编程接口，以多个窗口批量读取nvme磁盘中的文件。

一般读取文件的方法是使用系统调用fopen再fread把数据读取到程序分配的堆空间中。从涉及硬件角度来看，参与工作的设备有CPU（分配空间、发送指令给DMA等操作）、DMA（数据搬运到）、内存和磁盘，磁盘上数据需要不同总线和CPU的参与才能到达磁盘，总线的切换和CPU的调度需要消耗时间。

gpudirect storage 是CUDA 提供的操作接口，nvme 与gpu及其gddr6一样使用高速。

步骤S203，在CUDA进程上创建多线程，所述多线程执行对各个不同窗口md5计算任务。

发送方即执行备份数据那一端，接收方即是接收备份数据那一方。调用CUDAMalloc 创建char数组farray，大小与文件大小一致，创建md5array 元素大小为32字节数组，保存各个4K数据块md5值, 声明线程函数，传入参数当中包括文件偏移量，处理数据长度，以及指向GDDR6分配空间farray,md5array的指针。

步骤S204，在显存GDDR6中，按照原文件内容序列，重新组装窗口数据内容。

发送方即执行备份数据那一端，接收方即是接收备份数据那一方。发送端和接收端有所不同。在发送端，每个CUDA线程使用同一文件描述符，并行调用CUDA FileRead 读取nvme磁盘中同一文件不同偏移量的4K数据，各个线程对各自的4K数据进行md5值生成，然后以偏移量为索引，找到在farray偏移量位置，使用cummecpy进行拷贝。当窗口滚动结束后，farray就是文件存放在gddr6上的内容。接收端已经完全接收发送端所发送过来的数据，并把数据存放在farry数组中，每个CUDA线程使用同一文件描述符，并发执行对farray数组对应4K数据，进行md5值生成，与发送端的md5进行比较，若md5值一样则调用CUDA FileWrite写入到nvme磁盘中。

本申请通过GPU两大特性，1.与储存设备处于同一高速PCIE总线 2. 多核并行处理，实现nvme数据在不需要CPU参与场景中，快速拷贝到 GDDR6内存减少CPU调度过程中时间消耗，并且CUDA调用GPU多核进行md5校验，与rsync调用CPU串行单路md5相比，拥有数倍性能上的提升。整体减少了备份文件消耗时间。

在本实施例的一些可选的实现方式中，在步骤204在显存中GDDR6按照原文件内容序列，重新组装窗口数据内容之后，上述电子设备还可以执行以下步骤：

调用DMA刷将重新组装后的窗口数据内容写进socket缓冲区。若使用常规系统调用read、write把文件发送到接收端，数据每次在用户空间-内核空间移动时，它都需要被拷贝，而这样就消耗了cpu的周期和内存的带宽。数据直接从GDDR6复制到套接字，而无需经由应用系统，极大地提供了应用性能，并减少了在内核空间和用户空间的切换次数。

图5是本申请采用的rsync同步数据流程图。如图5所示，采用GPU并行处理器，进行并行md5校验，将文件从开头到结束发送到对端。采用滑动窗口1、滑动窗口2、滑动窗口3和滑动窗口4等多个滑动窗口进行多通道读取文件数据。GPU 使用 gpudirect storage接口从同一PCIE总线的nvme储存设备，不经过CPU 同时拷贝多份窗口数据。GPU 创建多道线程，分配多个流处理器同时计算md5窗口数据。GPU 使用 gpudirect rdma接口，不经过 CPU 直接拷贝到网络的 socket缓冲区发送至备份端。

图6是本申请采用的备份数据所经过的硬件设备到达对端的示意图。如图6所示，与图3 rsync原有模式相比，不需要CPU的介入，突出两大优点，其一，GPU并行到GPU显存，进行并行处理/拷贝，能够减少CPU在内核的调度需要消耗时间；其二，GDDR6与nvme磁盘使用PCIE高速总线互通，在没有总线转换的情况下，充分提高文件拷贝速度，这样的方法比rsync搬运数据到内存堆空间更快。

图7（a）是现有技术中对16KB文件采用rsync同步的流程图。如图7（a）所示，16KB文件，采用rsync同步方式，4KB字节数一个窗口进行md5值生成，窗口需要滚动4次（16KB/4KB=4），才能扫描整个文件，生成整个文件的md5值。加上数据拷贝过程CPU调度与IO读取时间上的消耗，花费时间大于4个单位。

图7（b）是对16KB文件采用本申请的基于CUDA数据快速同步方法的流程图。如图7（b）所示，与图7（a）相比，同样是16KB文件，4个4KB一个窗口进行md5值生成，窗口只需要滚动1次，就能扫描整个文件，生成整个文件的md5。gpudirect使数据直接从磁盘拷贝到GDDR6显存，花费时间约等于1个单位。可见，采用本发明基于CUDA数据快速同步方法后，同步时间至少缩小到之前的四分之一。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）等非易失性存储介质，或随机存储记忆体（Random Access Memory，RAM）等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图8，作为对上述图4所示方法的实现，本申请提供了一种基于CUDA数据快速同步装置的一个实施例，该装置实施例与图4所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图8所示，本实施例所述的基于CUDA数据快速同步装置400包括：获取模块401、调用模块402、执行模块403以及重组模块404。其中：

获取模块401，用于获取GPU流处理器数量，根据GPU流处理器数量，计算GPU流处理器在一次执行周期内，需要同时进行读取并且计算md5校验码的窗口数量，在GPU上创建CUDA进程；

调用模块402，用于调用CUDA应用程序编程接口，从多个窗口批量读取nvme磁盘中的文件；

执行模块403，用于在CUDA进程上创建多线程，所述多线程执行对各个不同窗口md5计算任务；及

重组模块404，在显存GDDR6中按照原文件内容序列，重新组装窗口数据内容。

在本实施例的一些可选的实现方式中，获取模块401进一步包括：

获取子模块4011，用于获取GPU流处理器数量；

计算子模块4012，用于计算GPU流处理器在一次执行周期内，需要同时进行读取并且计算md5校验码的窗口数量；

创建模块4013，用于在GPU上创建CUDA进程。

采用本实施例，其有益效果是：利用 CUDA 并行运算方式，结合GPU与nvme 储存设备同一PCIE总线的特点，改善传输速度；

为解决上述技术问题，本申请还提供计算机设备。具体请参阅图9，图9为本实施例计算机设备基本结构框图。

所述计算机设备6包括通过系统总线相互通信连接存储器61、处理器62、网络接口63。需要指出的是，图中仅示出了具有存储器61、处理器62和网络接口63的计算机设备6，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器 (Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器61至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、随机访问存储器（RAM）、静态随机访问存储器（SRAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、可编程只读存储器（PROM）、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器61可以是所述计算机设备6的内部存储单元，例如该计算机设备6的硬盘或内存。在另一些实施例中，所述存储器61也可以是所述计算机设备6的外部存储设备，例如该计算机设备6上配备的插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（FlashCard）等。当然，所述存储器61还可以既包括所述计算机设备6的内部存储单元也包括其外部存储设备。本实施例中，所述存储器61通常用于存储安装于所述计算机设备6的操作系统和各类应用软件，例如基于CUDA数据快速同步方法的计算机可读指令等。此外，所述存储器61还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器62在一些实施例中可以是中央处理器（Central Processing Unit，CPU）、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器62通常用于控制所述计算机设备6的总体操作。本实施例中，所述处理器62用于运行所述存储器61中存储的计算机可读指令或者处理数据，例如运行所述基于CUDA数据快速同步方法的计算机可读指令。

所述网络接口63可包括无线网络接口或有线网络接口，该网络接口63通常用于在所述计算机设备6与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的基于CUDA数据快速同步方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，空调器，或者网络设备等）执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种基于CUDA数据快速同步方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的基于CUDA数据快速同步方法，其特征在于，在所述在显存GDDR6中按照原文件内容序列重新组装窗口数据内容的步骤之后还包括：

调用DMA刷将重新组装后的窗口数据内容写进socket缓冲区。

3.根据权利要求1所述的基于CUDA数据快速同步方法，其特征在于，所述获取GPU流处理器数量，根据GPU流处理器数量，计算GPU流处理器在一次执行周期内，需要同时进行读取并且计算md5校验码的窗口数量，在GPU上创建CUDA进程的步骤具体包括：

设置一个线程绑定的GPU流处理器数量；

4.根据权利要求1所述的基于CUDA数据快速同步方法，其特征在于，所述调用CUDA应用程序编程接口，以多个窗口批量读取nvme磁盘中的文件的步骤具体包括：

5.根据权利要求1所述的基于CUDA数据快速同步方法，其特征在于，所述在CUDA进程上创建多线程，所述多线程执行对各个不同窗口md5计算任务的步骤还包括：

调用CUDA Malloc 创建char数组farray，farray大小与文件大小一致；

6.根据权利要求1至5任意一项所述的基于CUDA数据快速同步方法，其特征在于，所述在显存GDDR6中按照原文件内容序列，重新组装窗口数据内容的步骤包括：

每个窗口记录自己处理的文件偏移量；

7.一种基于CUDA数据快速同步装置，其特征在于，包括：

8.根据权利要求7所述的基于CUDA数据快速同步装置，其特征在于，所述获取模块包括：

获取子模块，用于获取GPU流处理器数量；

计算子模块，用于根据GPU流处理器数量，计算GPU流处理器在一次执行周期内，需要同时进行读取并且计算md5校验码的窗口数量；

创建模块，用于在GPU上创建CUDA进程。

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至6中任一项所述的基于CUDA数据快速同步方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至6中任一项所述的基于CUDA数据快速同步方法的步骤。