CN104133736A

CN104133736A - 一种矢量crc校验指令的设计方法

Info

Publication number: CN104133736A
Application number: CN201410366239.0A
Authority: CN
Inventors: 刘勇; 陶建平; 王和国; 孙振玮; 张永攀
Original assignee: Jiangsu Grand Cloud Co Ltd
Current assignee: Jiangsu Grand Cloud Co Ltd
Priority date: 2014-07-29
Filing date: 2014-07-29
Publication date: 2014-11-05

Abstract

本发明公开了一种DSP中矢量CRC校验指令的设计方法，在DSP中设计了全新的矢量CRC执行单元，在此基础上实现了矢量CRC5校验指令、矢量CRC8校验指令、矢量CRC16校验指令、矢量CRC24校验指令、矢量CRC32校验指令以及利用这些专用指令设计的CRC校验装置。CRC指令运行效率高，使用简单灵活，通用性强，大大简化了对数据进行CRC校验的程序设计。使用较少的硬件资源实现了多条矢量CRC校验指令，节省了硬件资源，降低了成本。本发明充分利用了处理器设计中的流水线技术、多指令并发技术和单指令多数据技术，极大地提高了CRC校验的效率，本发明的CRC指令具有吞吐率高、功耗低、成本低等特点。

Description

一种矢量CRC校验指令的设计方法

技术领域

一种DSP中矢量CRC校验指令的设计方法，涉及通信芯片中的数字信号处理，属于通信、存储领域，特别涉及数字信号处理芯片中CRC校验模块的设计。

背景技术

CRC编码是一种循环冗余校验码(Cyclic Redundancy Check)，是数据通信领域中最常用的一种差错校验码，其特征是信息字段和检验字段的长度可以任意选定。

CRC校验的基本思想是利用线性编码理论，在发送端根据要传送的k位二进制码序列，以一定的规则产生一个检验码r位，附在信息后，构成一个新的二进制码序列共(k+r)位，最后发送出去。接收端根据同样的规则校验，以确定传送中是否出错。

传统的CRC校验实现方法有软件方法和硬件方法，软件方法主要有直接计算法和查表法，直接计算法适用于所有长度的数据校验，最为灵活，但由于是按位计算，是一种串行计算方法，效率差，速度慢。查表法按字节计算CRC校验，是一种并行计算方法，但是需要提前存储一个256字节的表格，会占用较多的硬件资源。硬件实现方法的优点是计算速度快、效率高，但灵活性较差、不具有通用性，成本高。

随着通讯技术的发展，对数据的处理效率要求越来越高，越来越多的设计方法选择了CRC的硬件实现方式，为了克服硬件实现方式灵活性和通用性差的缺点，在处理器中设计CRC校验指令逐渐成为一种趋势，Intel公司提出了一套灵活CRC指令集(CN 102096609 A)，任给一个CRC多项式和数据，都可以对数据进行多项式规定的CRC校验，其实现过程是首先通过多项式求模运算对CRC多项式进行扩展，得到预计算扩展多项式，然后对数据进行混洗，混洗后利用扩展多项式反复对数据在Galois域上做多项式除法，最后得到CRC校验结果，此种CRC指令集虽然使用灵活，但是实现流程复杂，运行效率较低。

本DSP主要面向通信领域，使用的CRC校验种类比较固定，所以直接在DSP中设计了CRC的专用指令，指令设计简单，运行效率高，设计方法与Intel的灵活CRC指令集有本质的区别。通过软件编程调用这些CRC指令即可快速完成CRC校验，实现简单、快速且节省资源。本发明利用SIMD(Single Instruction Multiple Data)技术、流水线技术和指令并发技术大幅提高了CRC校验的速率。同时，本CRC校验的专用指令共享了处理器的部分硬件资源，节省了硬件开销。

发明内容

本发明要解决的技术问题是：本发明设计了一种全新的矢量CRC执行单元，在此基础上完实现了矢量CRC5校验指令、矢量CRC8校验指令、矢量CRC16校验指令、矢量CRC24校验指令、矢量CRC32校验指令的设计以及使用这些指令设计的CRC校验装置。

本发明解决其技术问题所采用的技术方案是：全新的矢量CRC执行单元由硬件复用管理单元和状态寄存器并行转移单元组成，硬件复用管理单元控制各条矢量CRC指令充分复用硬件资源，可以保证使用较少的硬件资源即可完成多条矢量CRC指令的设计，减少了硬件开销；状态寄存器并行转移单元在输入8bit数据后只需要一个周期即可完成状态寄存器值的转移，运行效率高。

矢量CRC5校验指令是8路并行CRC校验指令，每次调用该指令可计算8bit数据，输入8bit数据后通过推导出的CRC5并行计算公式一个周期即可完成CRC计算，将所有数据计算完成后，结果寄存器中剩余的5bit数据即是CRC校验结果。

矢量CRC8校验指令是8路并行CRC校验指令，每次调用该指令可计算8bit数据，输入8bit数据后通过推导出的CRC8并行计算公式一个周期即可完成CRC计算，将所有数据计算完成后，结果寄存器中剩余的8bit数据即是CRC校验结果。

矢量CRC16校验指令，每次调用该指令可计算8bit数据，输入8bit数据后通过推导出的CRC16并行计算公式一个周期即可完成CRC计算，将所有数据计算完成后，结果寄存器中剩余的16bit数据即是CRC校验结果。

矢量CRC24校验指令，每次调用该指令可计算8bit数据，输入8bit数据后通过推导出的CRC24并行计算公式一个周期即可完成CRC计算，将所有数据计算完成后，结果寄存器中剩余的24bit数据即是CRC校验结果。

矢量CRC32校验指令，每次调用该指令可计算8bit数据，输入8bit数据后通过推导出的CRC32并行计算公式一个周期即可完成CRC计算，将所有数据计算完成后，结果寄存器中剩余的32bit数据即是CRC校验结果。

本方法不仅适用于以上CRC指令的设计，也适用了任意多项式CRC指令的设计，变换CRC的多项式，同样可以利用本方法设计出矢量CRC指令。

利用本方法不仅可以设计8路并行的CRC指令，也可以设计16路、32路并行的CRC指令，甚至可以设计任意路并行的CRC指令。

本方法的发明内容还包括利用这些CRC指令设计的CRC校验装置，利用本方法设计的CRC指令和处理器的读取、存储数据指令完成CRC校验，在此CRC校验装置中充分利用了处理器的流水线技术和多指令并发技术，可以极大的提高CRC校验的效率。

本发明的有益效果是：一种DSP中矢量CRC校验指令的设计方法，在DSP中设计了全新的矢量CRC执行单元，在此基础上实现了矢量CRC5校验指令、矢量CRC8校验指令、矢量CRC16校验指令、矢量CRC24校验指令、矢量CRC32校验指令以及利用这些专用指令设计的CRC校验装置。此设计方法设计的CRC专用指令，运行效率高，使用简单灵活，通用性强，大大简化了对数据进行CRC校验的程序设计。同时，CRC执行单元包含硬件复用管理单元，可以保证各条CRC指令充分复用DSP的硬件资源，使用较少的硬件资源实现了多条矢量CRC校验指令，节省了硬件资源，降低了成本。另外，本设计方法充分利用了处理器设计中的流水线技术、多指令并发技术和单指令多数据(Single Instruction Multiple Data，SIMD)技术，极大地提高了CRC校验的效率。此方法设计的CRC指令具有吞吐率高、功耗低、成本低等特点。

附图说明

图1CRC指令实施例的系统框图；

图2图1所示的处理器实施例的框图；

图3CRC指令执行单元实施例的框图；

图4CRC5实现原理框图；

图5CRC8实现原理框图；

图6多项式为0x1021的CRC16实现原理框图；

图7多项式为0x8005的CRC16实现原理框图；

图8多项式为0x04c11db7的CRC32实现原理框图；

图9利用本发明设计的CRC指令实现的CRC校验实现流程图；

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更佳清楚、明白，以下结合附图和实施例，对本发明进行进一步的详细说明，应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。

本实施例使用的DSP是矢量数字信号处理器，数据总线位宽是16bit，最多支持8个16bit数据的并行乘加运算，拥有矢量viterbi指令，具有超高的数字信号处理性能。本发明使用的DSP并不局限于本实施例所使用的DSP，在任意的DSP中均可按照本设计提供的方法完成CRC指令的设计。

图1是本发明所设计的CRC指令实施例的系统100框图，系统100包括处理器101、程序存储器106和数据存储器108，处理器通过16bit位宽的总线对程序存储器进行访问，通过16bit位宽的数据总线对数据存储器进行访问。

处理器101包括程序访问控制器102、数据访问控制器104和CRC执行单元103，程序访问控制器102控制CRC指令的读取，数据访问控制器104控制计算数据的读取和CRC结果的存储，CRC执行单元103是CRC指令的执行单元。

图2是图1所示的处理器101的实施例框图，框图展示了CRC指令的执行过程，执行时需要3级流水线，在第一周期，在程序访问控制器的控制下，通过程序数据总线105将程序存储器106中的CRC指令读取到寄存器堆201中，此过程称为流水线的取指阶段。在第二周期，处理器将取出的CRC指令送入指令译码单元202进行译码，将译码结果存储到寄存器堆201的寄存器中，此过程称为流水线的译码阶段。在第三周期，根据译码结果在CRC执行单元103中执行CRC指令，此过程称为流水线的执行阶段，此过程需要一个周期，所以CRC指令为单周期指令。

本发明使用的DSP支持指令并发执行，在执行CRC的同时可以执行数据的访问指令，在数据访问控制器104的控制下，通过数据总线107将数据从数据存储器108中读取到寄存器堆201中，在CRC的执行阶段将数据载入到CRC执行单元103中，指令执行后将数据缓存到寄存器中，CRC计算完成后将结果通过数据访问指令存储到存储器108中。

以矢量CRC32指令的实施例为例说明指令的执行过程，在CRC执行单元103中执行的矢量CRC32指令(宏指令)用符号表示为：

crc32_0x04c11db7L(r1，r2，r3)

其中，r1、r2、r3是三个16bit的寄存器。矢量CRC32指令具有三个操作数，r1、r2和r3都是源操作数，同时r2和r3也是目的操作数据，CRC校验结果存储在r2和r3中。第一源操作数(“op1”)存储在寄存器堆201中的r1中，第一源操作数是将要进行CRC校验的数据；第二源操作数(“op2”)和第三源操作数(“op3”)存储在寄存器堆201中的r2和r3中，r2存储的是初始CRC余数的低16bit，r3存储的是初始CRC余数的高16bit。同时，r2和r3也是指令的目的操作数，CRC指令运算后的新余数再存回到r2和r3中，r2存储新CRC余数的低16bit，r3存储新CRC余数的高16bit。

r1是16bit寄存器，而指令crc32_0x04c11db7L是8bit并行指令，只对r1中的低8bit数据进行CRC计算，使用如下的指令对r1中的高8bit数据进行CRC计算：crc32_0x04c11db7H(r1，r2，r3)。

图3显示了CRC指令的执行过程，在流水线的执行阶段，硬件复用管理单元根据译码结果控制状态寄存器并行转移单元的运行，寄存器并行转移单元将3个源操作数据载入，一个周期完成状态寄存器的转移，状态寄存器中的值即是新的CRC余数，最后将状态寄存器中的值存储到目的寄存器r2和r3中。

以下以矢量CRC5指令、矢量CRC8指令、矢量CRC16指令和矢量CRC32指令的实施例来说明硬件复用管理单元和状态寄存器并行转移单元的设计。

CRC5的生成多项式为：g(x)＝x⁵+x²+1.其实现原理框图如图4所示。设m_i为输入信息序列，i＝1，2，...，n，R_ji表示输入m_i后移位寄存器R_j(j＝0，1，2，3，4)的状态值，由实现原理框图可得：

R_0i＝R_4(i-1)⊕m_i

R_1i＝R_0(i-1)

R_2i＝R_1(i-1)⊕R_4(i-1)⊕m_i

R_3i＝R_2(i-1)

R_4i＝R_3(i-1)

由此可推导出八路并行CRC校验公式为：

R₀₈＝R₀₀⊕R₂₀⊕R₃₀⊕m₂⊕m₃⊕m₅⊕m₈

R₁₈＝R₁₀⊕R₃₀⊕R₄₀⊕m₁⊕m₂⊕m₄⊕m₇

R₂₈＝R₀₀⊕R₃₀⊕R₄₀⊕m₁⊕m₂⊕m₅⊕m₆⊕m₈ ①

R₃₈＝R₀₀⊕R₁₀⊕R₄₀⊕m₁⊕m₄⊕m₅⊕m₇

R₄₈＝R₁₀⊕R₂₀⊕m₃⊕m₄⊕m₆

写成矩阵形式为：

R₈＝S_crc5R₀ ②

其中，R₈＝[R₀₈，R₁₈，R₂₈，R₃₈，R₄₈]^H，表示输入8bit数据后新的CRC5状态寄存器的值，R₀＝[R₀₀，R₁₀，R₂₀，R₃₀，R₄₀，m₁，m₂，m₃，m₄，m₅，m₆，m₇，m₈，]^H，是由CRC初始余数和CRC校验数据组合成的向量，

S_{crc 5} = (\begin{matrix} 1,0,1,1,0,0,1,1,0,1,0,0,1 \\ 0,1,0,1,1,1,1,0,1,0,0,1,0 \\ 0,0,0,1,1,1,1,0,0,1,1,0,1 \\ 1,1,0,0,1,1,0,0,1,1,0,1,0 \\ 0,1,1,0,0,0,0, 1, 1,0,1,0,0 \end{matrix}),

S_crc5是一个5行13列的矩阵，是公式①各异或项的系数，可以看作是向量R₀到R₈的转移矩阵，公式②与普通矩阵的区别是在展开时将加法运算替换为异或运算。

CRC8的生成多项式为：g(x)＝x⁸+x²+x+1.其实现原理框图如图5所示。设m_i为输入信息序列，i＝，1，2，...，n，R_ji表示输入m_i后移位寄存器R_j的状态值，j＝0，1，2，3，...，7，由实现原理框图可得：

R_0i＝R_7(i-1)⊕m_i

R_1i＝R_0(i-1)⊕R_7(i-1)⊕m_i

R_2i＝R_1(i-1)⊕R_7(i-1)⊕m_i

R_ni＝R_(n-1)(i-1)，n＝3，4，5，6，7

由此可推导出八路并行CRC校验公式为：

R₀₈＝R₀₀⊕R₆₀⊕R₇₀⊕m₁⊕m₂⊕m₈

R₁₈＝R₀₀⊕R₁₀⊕R₆₀⊕m₂⊕m₇⊕m₈

R₂₈＝R₀₀⊕R₁₀⊕R₂₀⊕R₆₀⊕m₂⊕m₆⊕m₇⊕m₈

R₃₈＝R₁₀⊕R₂₀⊕R₃₀⊕R₇₀⊕m₁⊕m₅⊕m₆⊕m₇

R₄₈＝R₂₀⊕R₃₀⊕R₄₀⊕m₄⊕m₅⊕m₆ ③

R₅₈＝R₃₀⊕R₄₀⊕R₅₀⊕m₃⊕m₄⊕m₅

R₆₈＝R₄₀⊕R₅₀⊕⊕₆₀⊕m₂⊕m₃⊕m₄

R₇₈＝R₅₀⊕R₆₀⊕R₇₀⊕m₁⊕m₂⊕m₃

写成矩阵形式为：

R₈＝S_crc8R₀ ④

其中，R₈＝[R₀₈，R₁₈，...，R₇₈]^H，表示输入8bit数据后新的CRC8状态寄存器的值，R₀＝[R₀₀，R₁₀，...，R₇₀，m₁，m₂，m₃，m₄，m₅，m₆，m₇，m₈，]^H，是由CRC8初始余数和CRC校验数据组合成的向量，

S_{crc 8} = (\begin{matrix} 1,0,0,0,0,0,1,1,1,1,0,0,0,0,0,1 \\ 1,1,0,0,0,0,1,0,0,1,0,0,0,0,1,1 \\ 1,1,1,0,0,0,1,0,0,1,0,0,0,1,1,1 \\ 0,1,1,1,0,0,0,1,1,0,0,0,1,1,1,0 \\ 0,0,1,1,1,0,0,0,0,0,0,1,1,1,0,0 \\ 0,0,0,1,1,1,0,0,0,0,1,1,1,0,0,0 \\ 0,0,0,0,1,1,1,0,0,1,1,1,0,0,0,0 \\ 0,0,0,0,0,1,1,1,1,1,1,0,0,0,0,0 \end{matrix}),

S_crc8是一个8行16列的矩阵，是公式③各个异或项的系数，可以看作是向量R₀到R₈的转移矩阵.

多项式为0x1021的CRC16的生成多项式为：g(x)＝x¹⁶+x¹²+x⁵+1.其实现原理框图如图6所示。设m_i为输入信息序列，i＝，1，2，...，n，R_ji表示输入m_i后移位寄存器R_j的状态值，j＝0，1，2，3，...，15，由实现原理框图可得：

R_0i＝R_(15)(i-1)⊕m_i

R_5i＝R_4(i-1)⊕R_(15)(i-1)⊕m_i

R_(12)i＝R_(11)(i-1)⊕R_(15)(i-1)⊕m_i

R_ki＝R_(k-1)(i-1)，k＝1，2，3，4，6，7，8，9，10，11，13，14，15

由此可推导出八路并行CRC16校验公式为：

R₀₈＝R₈₀⊕R₍₁₂₎₀⊕m₄⊕m₈

R₁₈＝R₉₀⊕R₍₁₃₎₀⊕m₃⊕m₇

R₂₈＝R₍₁₀₎₀⊕R₍₁₄₎₀⊕m₂⊕m₆

R₃₈＝R₍₁₁₎₀⊕R₍₁₅₎₀⊕m₁⊕m₅

R₄₈＝R₍₁₂₎₀⊕m₄

R₅₈＝R₈₀⊕R₍₁₂₎₀⊕R₍₁₃₎₀⊕m₃⊕m₄⊕m₈

R₆₈＝R₉₀⊕R₍₁₃₎₀⊕R₍₁₄₎₀⊕m₂⊕m₃⊕m₇

R₇₈＝R₍₁₀₎₀⊕R₍₁₄₎₀⊕R₍₁₅₎₀⊕m₁⊕m₂⊕m₆ ⑤

R₈₈＝R₀₀⊕R₍₁₁₎₀⊕R₍₁₅₎₀⊕m₁⊕m₅

R₉₈＝R₁₀⊕R₍₁₂₎₀⊕m₄

R₍₁₀₎₈＝R₂₀⊕R₍₁₃₎₀⊕m₃

R₍₁₁₎₈＝R₃₀⊕R₍₁₄₎₀⊕m₂

R₍₁₂₎₈＝R₄₀⊕R₈₀⊕R₍₁₂₎₀⊕R₍₁₅₎₀⊕m₁⊕m₄⊕m₈

R₍₁₃₎₈＝R₅₀⊕R₉₀⊕R₍₁₃₎₀⊕m₃⊕m₇

R₍₁₄₎₈＝R₆₀⊕R₍₁₀₎₀⊕R₍₁₄₎₀⊕m₂⊕m₆

R₍₁₅₎₈＝R₇₀⊕R₍₁₁₎₀⊕R₍₁₅₎₀⊕m₁⊕m₅

写成矩阵形式为：

R₈＝S_crc16R₀ ⑥

其中，R₈＝[R₀₈，R₁₈，...，R₍₁₅₎₈]^H，表示输入8bit数据后新的CRC16状态寄存器的值，R₀＝[R₀₀，R₁₀，...，R₍₁₅₎₀，m₁，m₂，m₃，m₄，m₅，m₆，m₇，m₈，]^H，是由CRC16初始余数和CRC校验数据组合成的向量，S_crc16是一个16行24列的矩阵，是公式⑤各个异或项的系数，可以看作是向量R₀到R₈的转移矩阵.

多项式为0x8005的CRC16的生成多项式为：g(x)＝x¹⁶+x¹⁵+x^⑥2+1.其实现原理框图如图7所示。设m_i为输入信息序列，i＝，1，2，...，n，R_ji表示输入m_i后移位寄存器R_j的状态值，j＝0，1，2，3，...，15，由实现原理框图可得：

R_0i＝R_(15)(i-1)⊕m_i

R_2i＝R_1(i-1)⊕R_(15)(i-1)⊕m_i

R_(14)i＝R_(13)(i-1)⊕R_(15)(i-1)⊕m_i

R_(15)i＝R_(14)(i-1)⊕R_(15)(i-1)⊕m_i

R_ki＝R_(k-1)(i-1)，k＝1，3，4，5，6，7，8，9，10，11，12，13

由此可推导出八路并行CRC16校验公式为：

R₀₈＝R₈₀⊕R₉₀⊕R₍₁₀₎₀⊕R₍₁₁₎₀⊕R₍₁₂₎₀⊕R₍₁₃₎₀⊕R₍₁₄₎₀⊕R₍₁₅₎₀⊕m₁⊕m₂⊕m₃⊕m₄⊕m₅⊕m₆⊕m₇⊕m₈

R₁₈＝R₉₀⊕R₍₁₀₎₀⊕R₍₁₁₎₀⊕R₍₁₂₎₀⊕R₍₁₃₎₀⊕R₍₁₄₎₀⊕R₍₁₅₎₀⊕m₁⊕m₂⊕m₃⊕m₄⊕m₅⊕m₆⊕m₇

R₂₈＝R₈₀⊕R₉₀⊕m₇⊕m₈

R₃₈＝R₉₀⊕R₍₁₀₎₀⊕m₆⊕m₇

R₄₈＝R₍₁₀₎₀⊕R₍₁₁₎₀⊕m₅⊕m₆

R₅₈＝R₍₁₁₎₀⊕R₍₁₂₎₀⊕m₄⊕m₅

R₆₈＝R₍₁₂₎₀⊕R₍₁₃₎₀⊕m₃⊕m₄

R₇₈＝R₍₁₃₎₀⊕R₍₁₄₎₀⊕m₂⊕m₃

R₈₈＝R₀₀⊕R₍₁₄₎₀⊕R₍₁₅₎₀⊕m₁⊕m₂ ⑦

R₉₈＝R₁₀⊕R₍₁₅₎₀⊕m₁

R₍₁₀₎₈＝R₂₀

R₍₁₁₎₈＝R₃₀

R₍₁₂₎₈＝R₄₀

R₍₁₃₎₈＝R₅₀

R₍₁₄₎₈＝R₆₀

R₍₁₅₎₈＝R₇₀⊕R₈₀⊕R₉₀⊕R₍₁₀₎₀⊕R₍₁₁₎₀⊕R₍₁₂₎₀⊕R₍₁₃₎₀⊕R₍₁₄₎₀⊕R₍₁₅₎₀⊕m₁⊕m₂⊕m₃⊕m₄⊕m₅⊕m₆⊕m₇⊕m₈

写成矩阵形式为：

R₈＝S′_crc16R₀ ⑧

其中，R₈＝[R₀₈，R₁₈，...，R₍₁₅₎₈]^H，表示输入8bit数据后新的CRC16状态寄存器的值，R₀＝[R₀₀，R10，...，R₍₁₅₎₀，m₁，m₂，m₃，m₄，m₅，m₆，m₇，m₈，]^H，是由CRC16初始余数和CRC校验数据组合成的向量，S′_crc16是一个16行24列的矩阵，是公式⑦各个异或项的系数，可以看作是向量R₀到R₈的转移矩阵.

CRC32的生成多项式为：g(x)＝x³²+x²⁶+x²³+x²²+x¹⁶+x¹²+x¹¹+x¹⁰+x⁸+x⁷+x⁵+x⁴+x²+x+1.其实现原理框图如图8所示。设m_i为输入信息序列，i＝，1，2，...，n，R_ji表示输入m_i后移位寄存器R_j的状态值，j＝0，1，2，3，...，31，由实现原理框图可得：

R_0i＝R_(31)(i-1)⊕m_i

R_1i＝R_0(i-1)⊕R_(31)(i-1)⊕m_i

R_2i＝R_1(i-1)⊕R_(31)(i-1)⊕m_i

R_4i＝R_3(i-1)⊕R_(31)(i-1)⊕m_i

R_5i＝R_4(i-1)⊕R_(31)(i-1)⊕m_i

R_7i＝R_6(i-1)⊕R_(31)(i-1)⊕m_i

R_8i＝R_7(i-1)⊕R_(31)(i-1)⊕m_i

R_(10)i＝R_9(i-1)⊕R_(31)(i-1)⊕m_i

R_(11)i＝R_(10)(i-1)⊕R_(31)(i-1)⊕m_i

R_(12)i＝R_(11)(i-1)⊕R_(31)(i-1)⊕m_i

R_(16)i＝R_(15)(i-1)⊕R_(31)(i-1)⊕m_i

R_(22)i＝R_(21)(i-1)⊕R_(31)(i-1)⊕m_i

R_(23)i＝R_(22)(i-1)⊕R_(31)(i-1)⊕m_i

R_(26)i＝R_(25)(i-1)⊕R_(31)(i-1)⊕m_i

R_ki＝R_(k-1)(i-1)，k＝3，6，9，13，14，15，17，18，19，20，21，24，25，27，28，29，30，31

由此可推导出八路并行CRC32校验公式为：

R₀₈＝R₍₂₄₎₀⊕R₍₃₀₎₀⊕m₂⊕m₈

R₁₈＝R₍₂₄₎₀⊕R₍₂₅₎₀⊕R₍₃₀₎₀⊕R₍₃₁₎₀⊕m₁⊕m₂⊕m₇⊕m₈

R₂₈＝R₍₂₄₎₀⊕R₍₂₅₎₀⊕R₍₂₆₎₀⊕R₍₃₀₎₀⊕R₍₃₁₎₀⊕m₁⊕m₂⊕m₆⊕m₇⊕m₈

R₃₈＝R₍₂₅₎₀⊕R₍₂₆₎₀⊕R₍₂₇₎₀⊕R₍₃₁₎₀⊕m₁⊕m₅⊕m₆⊕m₇

R₄₈＝R₍₂₄₎₀⊕R₍₂₆₎₀⊕R₍₂₇₎₀⊕R₍₂₈₎₀⊕R₍₃₀₎₀⊕m₂⊕m₄⊕m₅⊕m₆⊕m₈

R₅₈＝R₍₂₄₎₀⊕R₍₂₅₎₀⊕R₍₂₇₎₀⊕R₍₂₈₎₀⊕R₍₂₉₎₀⊕R₍₃₀₎₀⊕R₍₃₁₎₀⊕m₁⊕m₂⊕m₃⊕m₄⊕m₅⊕m₇⊕m₈

R₆₈＝R₍₂₅₎₀⊕R₍₂₆₎₀⊕R₍₂₈₎₀⊕R₍₂₉₎₀⊕R₍₃₀₎₀⊕R₍₃₁₎₀⊕m₁⊕m₂⊕m₃⊕m₄⊕m₆⊕m₇

R₇₈＝R₍₂₄₎₀⊕R₍₂₆₎₀⊕R₍₂₇₎x⊕R₍₂₉₎₀⊕R₍₃₁₎₀⊕m₁⊕m₃⊕m₅⊕m₆⊕m₈

R₈₈＝R₀₀⊕R₍₂₄₎₀⊕R₍₂₅₎₀⊕R₍₂₇₎₀⊕R₍₂₈₎₀⊕m₄⊕m₅⊕m₇⊕m₈

R₉₈＝R₁₀⊕R₍₂₅₎₀⊕R₍₂₆₎₀⊕R₍₂₈₎₀⊕R₍₂₉₎₀⊕m₃⊕m₄⊕m₆⊕m₇

R₍₁₀₎₈＝R₂₀⊕R₍₂₄₎₀⊕R₍₂₆₎₀⊕R₍₂₇₎₀⊕R₍₂₉₎₀⊕m₃⊕m₅⊕m₆⊕m₈

R₍₁₁₎₈＝R₃₀⊕R₍₂₄₎₀⊕R₍₂₅₎₀⊕R₍₂₇₎₀⊕R₍₂₈₎₀⊕m₄⊕m₅⊕m₇⊕m₈

R₍₁₂₎₈＝R₄₀⊕R₍₂₄₎₀⊕R₍₂₅₎₀⊕R₍₂₆₎₀⊕R₍₂₈₎₀⊕R₍₂₉₎₀⊕R₍₃₀₎₀⊕m₂⊕m₃⊕m₄⊕m₆⊕m₇⊕m₈

R₍₁₃₎₈＝R₅₀⊕R₍₂₄₎₀⊕R₍₂₅₎₀⊕R₍₂₆₎₀⊕R₍₂₈₎₀⊕R₍₂₉₎₀⊕R₍₃₀₎₀⊕m₂⊕m₃⊕m₄⊕m₆⊕m₇⊕m₈

R₍₁₄₎₈＝R₆₀⊕R₍₂₆₎₀⊕R₍₂₇₎₀⊕R₍₂₈₎₀⊕R₍₃₀₎₀⊕R₍₃₁₎₀⊕m₁⊕m₂⊕m₄⊕m₅⊕m₆

R₍₁₅₎₈＝R₇₀⊕R₍₂₇₎₀⊕R₍₂₈₎₀⊕R₍₂₉₎₀⊕R₍₃₁₎₀⊕m₁⊕m₃⊕m₄⊕m₅ ⑨

R₍₁₆₎₈＝R₈₀⊕R₍₂₄₎₀⊕R₍₂₈₎₀⊕R₍₂₉₎₀⊕m₃⊕m₄⊕m₈

R₍₁₇₎₈＝R₉₀⊕R₍₂₅₎₀⊕R₍₂₉₎₀⊕R₍₃₀₎₀⊕m₂⊕m₃⊕m₇

R₍₁₈₎₈＝R₍₁₀₎₀⊕R₍₂₆₎₀⊕R₍₃₀₎₀⊕R₍₃₁₎₀⊕m₁⊕m₂⊕m₆

R₍₁₉₎₈＝R₍₁₁₎₀⊕R₍₂₇₎₀⊕R₍₃₁₎₀⊕m₁⊕m₅

R₍₂₀₎₈＝R₍₁₂₎₀⊕R₍₂₈₎₀⊕m₄

R₍₂₁₎₈＝R₍₁₃₎₀⊕R₍₂₉₎₀⊕m₃

R₍₂₂₎₈＝R₍₁₄₎₀⊕R₍₂₄₎₀⊕m₈

R₍₂₃₎₈＝R₍₁₅₎₀⊕R₍₂₄₎₀⊕R₍₂₅₎₀⊕R₍₃₀₎₀⊕m₂⊕m₇⊕m₈

R₍₂₄₎₈＝R₍₁₆₎₀⊕R₍₂₅₎₀⊕R₍₂₆₎₀⊕R₍₃₁₎₀⊕m₁⊕m₆⊕m₇

R₍₂₅₎₈＝R₍₁₇₎₀⊕R₍₂₆₎₀⊕R₍₂₇₎₀⊕m₅⊕m₆

R₍₂₆₎₈＝R₍₁₈₎₀⊕R₍₂₄₎₀⊕R₍₂₇₎₀⊕R₍₂₈₎₀⊕R₍₃₀₎₀⊕m₂⊕m₄⊕m₅⊕m₈

R₍₂₇₎₈＝R₍₁₉₎₀⊕R₍₂₈₎₀⊕R₍₂₉₎₀⊕R₍₃₁₎₀⊕R₍₂₅₎₀⊕m₁⊕m₃⊕m₄⊕m₇

R₍₂₈₎₈＝R₍₂₀₎₀⊕R₍₂₆₎₀⊕R₍₂₉₎₀⊕R₍₃₀₎₀⊕m₂⊕m₃⊕m₆

R₍₂₉₎₈＝R₍₂₁₎₀⊕R₍₂₇₎₀⊕R₍₃₀₎₀⊕R₍₃₁₎₀⊕m₁⊕m₂⊕m₅

R₍₃₀₎₈＝R₍₂₂₎₀⊕R₍₂₈₎₀⊕R₍₃₁₎₀⊕m₁⊕m₄

R₍₃₁₎₈＝R₍₂₃₎₀⊕R₍₂₉₎₀⊕m₃

写成矩阵形式为：

R₈＝S_crc32R₀ ⑩

其中，R₈＝[R₀₈，R₁₈，...，R₍₃₁₎₈]^H，表示输入8bit数据后新的CRC32状态寄存器的值，R₀＝[R₀₀，R₁₀，...，R₍₃₁₎₀，m₁，m₂，m₃，m₄，m₅，m₆，m₇，m₈，]^H，是由CRC32初始余数和CRC校验数据组合成的向量，S_crc32是一个32行40列的矩阵，是公式⑨各个异或项的系数，可以看作是向量R₀到R₈的转移矩阵.

由公式①至公式⑩可以看出，各条CRC指令的状态转移矩阵S_crc是由各自的CRC多项式决定的，一旦CRC多项式确定了，状态转移矩阵S_crc也就确定了，各条CRC指令的本质区别就是其各自的转移矩阵S_crc不同，因此硬件复用管理单元的作用就是根据不同的CRC指令选择不同的转移矩阵S_crc。在指令的执行阶段，首先硬件复用管理单元根据不同的CRC指令选出该CRC指令对应的转移矩阵S_crc，然后从寄存器中将源操作数载入组成向量R₀，然后根据各条CRC指令的状态转移公式在状态寄存器并行转移单元中完成状态转移，得到新的CRC余数R₈，最后将R₈存储到寄存器中。这样在硬件复用控制单元的控制下，仅利用一套硬件电路即可完成不同CRC指令的矢量运算，大幅减少了硬件资源开销。

在设计状态寄存器并行转移单元时对电路做了进一步优化，对各条CRC指令的状态转移矩阵S_crc做了进一步分析，找出每个S_crc都为0的异或项，然后将其从状态寄存器并行转移电路中去掉，这样可以进一步减少硬件开销。

本方法设计的CRC校验装置非常容易实现，只需调用本方法设计的CRC指令即可，降低了CRC设计的难度，首先将要校验的数据从存储器中读出，然后调用这些专用指令每次对8bit数据进行处理，当所有的数据做完CRC计算后，最后结果寄存器中剩余的数据即是CRC校验结果。在CRC校验装置实现时可以利用处理器的流水线技术和指令并发技术大幅提高运算速率。调用本方法设计的CRC指令完成CRC校验的实现流程如图9所示。

上述说明示出并描述了本发明的优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应当看作是对其他实施例的排出，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种矢量CRC检验指令的设计方法，设计了一种全新的矢量CRC执行单元，在此基础上实现了矢量CRC5校验指令、矢量CRC8校验指令、矢量CRC16校验指令、矢量CRC24校验指令、矢量CRC32校验指令的设计以及使用这些指令设计的CRC校验装置。

2.如权利要求1所述的一种矢量CRC检验指令的设计方法，其特征在于，所述矢量CRC执行单元包括硬件复用管理单元和状态寄存器并行转移单元，硬件复用管理单元控制各条矢量CRC指令充分复用硬件资源，可以保证使用较少的硬件资源即可完成多条矢量CRC指令的设计，减少了硬件开销；状态寄存器并行转移单元在输入8bit数据后只需要一个周期即可完成状态寄存器值的转移，执行时间短，运行效率高。

3.如权利要求1所述的一种矢量CRC检验指令的设计方法，其特征在于，所述的矢量CRC5校验指令：是一条8路并行CRC校验指令，每次将初始CRC余数和8bit数据送入CRC执行单元，一个周期后即可得出新的CRC余数，将所有数据计算完成后，状态寄存器中剩余的5bit数据即是CRC校验结果。

4.如权利要求1所述的一种矢量CRC检验指令的设计方法，其特征在于，所述的矢量CRC8校验指令：是一条8路并行CRC校验指令，每次将初始CRC余数和8bit数据送入CRC执行单元，一个周期后即可得出新的CRC余数，将所有数据计算完成后，状态寄存器中剩余的8bit数据即是CRC校验结果。

5.如权利要求1所述的一种矢量CRC检验指令的设计方法，其特征在于，所述矢量CRC16校验指令：是一条8路并行CRC校验指令，每次将初始CRC余数和8bit数据送入CRC执行单元，一个周期后即可得出新的CRC余数，将所有数据计算完成后，状态寄存器中剩余的16bit数据即是CRC校验结果。

6.如权利要求1所述的一种矢量CRC检验指令的设计方法，其特征在于，所述的矢量CRC24校验指令：是一条8路并行CRC校验指令，每次将初始CRC余数和8bit数据送入CRC执行单元，一个周期后即可得出新的CRC余数，将所有数据计算完成后，状态寄存器中剩余的24bit数据即是CRC校验结果。

7.如权利要求1所述的一种矢量CRC检验指令的设计方法，其特征在于，所述的矢量CRC32校验指令：是一条8路并行CRC校验指令，每次将初始CRC余数和8bit数据送入CRC执行单元，一个周期后即可得出新的CRC余数，将所有数据计算完成后，状态寄存器中剩余的32bit数据即是CRC校验结果。

8.如权利要求1所述的一种矢量CRC检验指令的设计方法，其特征在于，本设计方法不仅适用于设计如权利要求1所述的各条CRC指令，也适用于设计任意多项式的CRC指令，按本文提供的设计方法可以设计出任意多项式的CRC校验指令。

9.如权利要求1所述的一种矢量CRC检验指令的设计方法，其特征在于，本设计方法可以设计如权利要求2至权利要求6所述的8路并行的CRC指令，还可以设计任意路并行的CRC指令。

10.如权利要求1所述的一种矢量CRC检验指令的设计方法，其特征在于，所述的CRC校验装置：利用本方法设计的CRC指令和处理器的读取、存储数据指令完成CRC校验，在此CRC校验装置中充分利用了流水线技术和多指令并发技术，可以极大的提高CRC校验的效率。