CN111443949B

CN111443949B - 一种飞腾服务器平台下的内核内存页拷贝加速方法

Info

Publication number: CN111443949B
Application number: CN202010216435.5A
Authority: CN
Inventors: 濮约刚; 吴磊; 韩琼; 鲁欣妍
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2020-03-25
Filing date: 2020-03-25
Publication date: 2024-02-02
Anticipated expiration: 2040-03-25
Also published as: CN111443949A

Abstract

本发明涉及一种飞腾服务器平台下的内核内存页拷贝加速方法，包括：在飞腾操作系统内核中增加基于SIMD向量指令的内存页拷贝函数；内存页拷贝函数接收两个输入参数；开始循环拷贝操作后，通过飞腾处理器prfm指令的数据预读取功能从源内存地址依据cache line大小预读取128字节数据到处理器缓存中；将内核的copy_page函数重新命名，并接收两个输入参数，第一个参数为目的内存页地址，标记为dest，第二个参数为源内存页地址，标记为src，以对内核中现有调用接口的透明替换；如copy_page函数执行完毕，内核内存页拷贝结束。本发明利用NEON指令提升FT2000+平台上内存页拷贝的速度，降低处理器资源消耗，提升系统综合性能。

Description

一种飞腾服务器平台下的内核内存页拷贝加速方法

技术领域

本发明涉及飞腾服务器平台技术，特别涉及一种飞腾服务器平台下的内核内存页拷贝加速方法。

背景技术

内核内存页拷贝是操作系统运行时将某一个物理内存页上的所有数据复制到另外一个物理内存页上，其在操作系统运行时被广泛调用。比如在创建新进程时，父子进程之间会存在共享内存，如果父进程或子进程对共享内存进行写操作，操作系统则会调用内存页拷贝算法将要写的共享内存复制一份以免影响其他进程的正常运行，是操作系统中运行时重要的算法。在基于FT2000+国产处理器的服务器平台上的通用内存页拷贝算法是首先使用处理器的数据加载指令将16个字节的源内存页数据加载到寄存器中，然后再使用数据保存指令将寄存器中的数据保存到目的内存页中，通过不断循环直至完成整个内存页的数据拷贝。

由于FT2000+处理器上的一对数据加载和数据保存指令一次最多只能拷贝16个字节的数据，因此需要多轮循环才能完成内存页的数据拷贝，而且数据的拷贝操作需要消耗处理器资源，在进行内存页拷贝时会占用大量的处理器资源，极大影响内存页拷贝速度。

发明内容

本发明的目的在于提供一种飞腾服务器平台下的内核内存页拷贝加速方法，用于解决上述现有技术的问题。

本发明一种飞腾服务器平台下的内核内存页拷贝加速方法，其中，包括：在飞腾操作系统内核中增加基于SIMD向量指令的内存页拷贝函数；内存页拷贝函数接收两个输入参数，第一个参数为目的内存页地址，标记为dest，第二个参数为原内存页地址，标记为src；内存页拷贝函数在函数入口处首先将源内存页地址加上物理内存页大小计算出内存页拷贝结束地址，记为end；开始循环拷贝操作后，通过飞腾处理器prfm指令的数据预读取功能从源内存地址依据cache line大小预读取128字节数据到处理器缓存中；将内核的copy_page函数重新命名，并接收两个输入参数，第一个参数为目的内存页地址，标记为dest，第二个参数为源内存页地址，标记为src，以对内核中现有调用接口的透明替换；如copy_page函数执行完毕，内核内存页拷贝结束。

根据本发明的飞腾服务器平台下的内核内存页拷贝加速方法的一实施例，其中，在每次循环中拷贝128字节，使用neon ld4指令将src源内存页的128字节数据加载到neon的向量寄存器中，通过neon st4指令将neon向量寄存器中的数据保存到dest目的内存页中，再将dest和src地址增加128，如果src地址与end地址相等则结束拷贝操作，否则继续下一轮拷贝。

根据本发明的飞腾服务器平台下的内核内存页拷贝加速方法的一实施例，其中，进一步包括：将内核原有copy_page函数重命名为copy_page_slow(dest,src)；并重新定义一新copy_page函数，新copy_page函数入口处利用in_interrupt函数检查新copy_page函数是否处于中断执行环境；如果in_interrupt函数返回值为真，则表示新copy_page函数处于中断执行环境中，此时执行基于处理器单指令单数据流的copy_page_slow(dest,src)函数；如果in_interrupt函数返回值为假，则表示新copy_page函数不在中断执行环境中，执行基于NEON协处理器单指令多数据流的copy_page_fast(dest,src)函数。

根据本发明的飞腾服务器平台下的内核内存页拷贝加速方法的一实施例，其中，在飞腾平台上对非中断执行环境进行内存页拷贝优化。

本发明主要是利用NEON指令提升FT2000+平台上内存页拷贝的速度，降低处理器资源消耗，提升系统综合性能。

附图说明

图1所示为本发明的内存页拷贝处理流程图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

图1所示为本发明的内存页拷贝处理流程图，参考图1所示，本发明的内存页拷贝处理流程包括以下步骤：

步骤1：在飞腾操作系统内核中增加基于SIMD向量指令的内存页拷贝函数copy_page_fast函数。该copy_page_fast函数利用飞腾NEON协处理单元的单指令多数据流处理能力进行并行化的数据拷贝操作，使用一条指令完成64个字节数据的同时拷贝，相对于基于处理器单指令单数据流的copy_page函数一条指令只能完成16个字节数据的同时拷贝，从而提升拷贝速度。copy_page_fast函数与内核原有copy_page保持一致，函数接收两个输入参数，第一个参数为目的内存页地址，标记为dest，第二个参数为原内存页地址，标记为src。copy_page_fast函数在函数入口处首先将源内存页地址加上物理内存页大小计算出内存页拷贝结束地址，记为end。开始循环拷贝操作，首先利用飞腾处理器prfm指令的数据预读取功能从源内存地址依据cache line大小预读取128字节数据到处理器缓存中，既能加速数据读取，又可以防止cache line溢出。然后在每次循环中拷贝128字节，最大化利用处理器的数据缓存能力。具体使用neon ld4指令将src源内存页的128字节数据加载到neon的向量寄存器中，再通过neon st4指令将neon向量寄存器中的数据保存到dest目的内存页中，然后再将dest和src地址增加128，如果src地址与end地址相等则结束拷贝操作，否则继续下一轮拷贝。

步骤2：将内核原有copy_page函数重命名为copy_page_slow，保留参数格式不变。函数接收两个输入参数，第一个参数为目的内存页地址，标记为dest，第二个参数为源内存页地址，标记为src；

步骤3：在飞腾操作系统内核中定义新的copy_page函数，函数参数与copy_page_slow保持一致，从而实现对内核中现有调用接口的透明替换；

步骤4：在copy_page函数入口处利用in_interrupt检查copy_page函数是否处于中断执行环境；飞腾处理器在中断环境下使用NEON协处理单元时，由于协处单元进行向量寄存器保存及恢复操作会导致内存页拷贝性能下降，因此在飞腾平台上只针对非中断执行环境进行内存页拷贝优化；

步骤5：如果in_interrupt函数返回值为真，则表示copy_page函数处于中断执行环境中，此时执行基于处理器单指令单数据流的copy_page_slow(dest,src)函数；

步骤6：如果in_interrupt函数返回值为假，则表示copy_page函数不在中断执行环境中，此时执行基于NEON协处理器单指令多数据流的copy_page_fast(dest,src)函数；

步骤7：copy_page函数执行完毕，内核内存页拷贝结束。

本发明使用协处理单元的单指令多数据流实现并行化的内存页拷贝操作，并将内核是否处于中断执行环境作为内核内存页拷贝加速的条件，从而避免了在中断环境下由于NEON向量寄存器切换导致的内存页拷贝性能下降；其次，加速算法利用处理器数据预取功能，每一轮内存页拷贝128字节数据，在减少内存页拷贝加速算法循环次数的同时充分发挥数据缓存命中率，将内存页拷贝加速算法的效率最大化。

与现有技术相比，本发明提出的技术方法通过使用FT2000+处理器的NEON指令显著提升内存页拷贝速度，使得飞腾平台系统综合性能大幅增加，而且本加速方法对应用透明，不影响现有应用程序的运行。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种飞腾服务器平台下的内核内存页拷贝加速方法，其特征在于，包括：

在飞腾操作系统内核中增加基于SIMD向量指令的内存页拷贝函数；内存页拷贝函数接收两个输入参数，第一个参数为目的内存页地址，标记为dest，第二个参数为原内存页地址，标记为src；内存页拷贝函数在函数入口处首先将源内存页地址加上物理内存页大小计算出内存页拷贝结束地址，记为end；开始循环拷贝操作后，通过飞腾处理器prfm指令的数据预读取功能从源内存地址依据cache line大小预读取128字节数据到处理器缓存中；

将内核的copy_page函数重新命名，并接收两个输入参数，第一个参数为目的内存页地址，标记为dest，第二个参数为源内存页地址，标记为src，以对内核中现有调用接口的透明替换；如copy_page函数执行完毕，内核内存页拷贝结束；

进一步包括：

将内核原有copy_page函数重命名为copy_page_slow(dest,src)；

并重新定义一新copy_page函数，新copy_page函数入口处利用in_interrupt函数检查新copy_page函数是否处于中断执行环境；

如果in_interrupt函数返回值为真，则表示新copy_page函数处于中断执行环境中，此时执行基于处理器单指令单数据流的copy_page_slow(dest,src)函数；

如果in_interrupt函数返回值为假，则表示新copy_page函数不在中断执行环境中，执行基于NEON协处理器单指令多数据流的copy_page_fast(dest,src)函数。

2.如权利要求1所述的飞腾服务器平台下的内核内存页拷贝加速方法，其特征在于，在每次循环中拷贝128字节，使用neon ld4指令将src源内存页的128字节数据加载到neon的向量寄存器中，通过neon st4指令将neon向量寄存器中的数据保存到dest目的内存页中，再将dest和src地址增加128，如果src地址与end地址相等则结束拷贝操作，否则继续下一轮拷贝。

3.如权利要求1所述的飞腾服务器平台下的内核内存页拷贝加速方法，其特征在于，在飞腾平台上对非中断执行环境进行内存页拷贝优化。