CN111597886B

CN111597886B - 一种用于指纹图像处理的硬件加速器、系统及加速方法

Info

Publication number: CN111597886B
Application number: CN202010268499.XA
Authority: CN
Inventors: 许伟明; 胡胜发
Original assignee: Guangzhou Ankai Microelectronics Co ltd
Current assignee: Guangzhou Ankai Microelectronics Co ltd
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2023-11-07
Anticipated expiration: 2040-04-07
Also published as: CN111597886A

Abstract

本发明公开了一种用于指纹图像处理的硬件加速器，包括寄存器模块、乘法模块；所述寄存器模块，用于保存硬件加速器的参数配置和寄存配置，以及保存运算结果；所述乘法模块，用于在配置完成后根据已选择的运算方式开启硬件加速器进行运算；以及将运算完成后产生的中断信号传输至中心处理器以中断运算。本发明提供了一种用于指纹图像处理的硬件加速器、系统及加速方法，采用硬件形式实现图像算法，能够提高运算速度。

Description

一种用于指纹图像处理的硬件加速器、系统及加速方法

技术领域

本发明涉及图像处理技术领域，尤其是涉及一种用于指纹图像处理的硬件加速器、系统及加速方法。

背景技术

现有的指纹识别算法，通过对指纹图像进行图像处理帮助识别指纹。卷积是指纹识别算法中一种最基本的图像识别运算。若利用软件方式实现图像识别运算，则需要SOC系统具有较高的运算频率，同时运算的存储空间和时间消耗较为严重。现有的技术方案，更多是使用特定规格的卷积神经网络的卷积算法方案，缺少卷积硬件加速器方案。

发明内容

针对上述技术问题，本发明提供了一种用于指纹图像处理的硬件加速器、系统及加速方法，采用硬件形式实现图像算法，能够提高运算速度。所述技术方案如下：

一种用于指纹图像处理的硬件加速器，包括寄存器模块、乘法模块；所述寄存器模块，用于保存硬件加速器的参数配置和寄存配置，以及保存运算结果；所述乘法模块，用于在配置完成后根据已选择的运算方式开启硬件加速器进行运算，以及将运算完成后产生的中断信号传输至中心处理器以中断运算。

作为优选方案，所述乘法模块还用于执行卷积运算，具体实现如下：

设置图像的尺寸、模板的尺寸和中心点位置、归一化处理的函数、输出数据的位宽和最低位，以及卷积计算的步长、卷积模板的各系数、卷积数据输入的起始地址、卷积计算数据输出的存储基地址；

清除硬件加速器的error&interrupt状态以执行卷积计算。

作为优选方案，所述乘法模块还用于执行欧氏距离运算，具体实现如下：

配置欧氏距离计算数据的深度和欧氏距离数据存储的起始地址；

清除硬件加速器的error&interrupt状态以执行欧氏距离计算；当欧氏距离运算完成后，欧氏距离的开根结果存储于寄存器模块。

作为优选方案，所述乘法模块还用于执行特定乘法运算，具体实现如下：

设置乘法数据的位宽、乘法运算的模式和数据深度、乘法运算输入数据的起始地址、乘法运算输出数据的存储基地址；

清除硬件加速器的error&interrupt状态以执行特定乘法运算。

作为优选方案，所述的用于指纹图像处理的硬件加速器，还包括归一化处理模块；

所述归一化处理模块用于：

先对运算结果进行饱和处理；

再记录本次卷积运算中的最大结果和最小结果；

最后根据输出数据类型配置和输出数据格式配置输出相应的数据。

为了解决相同的技术问题，本发明实施例提供了一种用于指纹图像处理的硬件加速器的系统，包括中心处理器、存储装置以及如上所述的用于指纹图像处理的硬件加速器；

所述用于指纹图像处理的硬件加速器通过寄存器总线与所述中心处理器相连，并且通过AHB总线与所述存储装置相连。

此外，本发明实施例提供了一种用于指纹图像处理的硬件加速方法，步骤包括：

选择一种运算方式对硬件加速器进行参数配置和寄存配置；

配置完成后，根据已选择的运算方式开启硬件加速器进行运算；

将运算完成后产生的中断信号传输至中心处理器以中断运算，并将运算结果保存至寄存器模块或存储装置。

作为优选方案，所述的用于指纹图像处理的硬件加速方法，若选择卷积运算方式对硬件加速器进行参数配置和寄存配置，则：

清除硬件加速器的error&interrupt状态以执行卷积计算。

作为优选方案，所述的用于指纹图像处理的硬件加速方法，若选择欧氏距离运算方式对硬件加速器进行参数配置和寄存配置，则：

作为优选方案，所述的用于指纹图像处理的硬件加速方法，若选择特定乘法运算方式对硬件加速器进行参数配置和寄存配置，则：

清除硬件加速器的error&interrupt状态以执行特定乘法运算。

相比于现有技术，本发明实施例具有如下有益效果：

本发明提供一种用于指纹图像处理的硬件加速器、系统及加速方法，根据运算算法对硬件加速器进行参数配置和寄存配置，让硬件加速器执行运算，从而实现根据图像算法执行图像识别运算，同时将运算完成后产生的中断信号传输至中心处理器以中断运算并将运算结果保存至寄存器，完成中断处理使中心处理器和硬件加速器释放性能，降低图像算法所需的存储空间和运算时间。

另外，本发明的用于指纹图像处理的硬件加速器、系统及加速方法，不但针对于指纹图像的处理，还可以广泛用于小图像的处理。能加快指纹图像的算法处理，采用硬件形式实现算法，相比起软件运算大大提高运算速度，同时在精度方面与软件运算相媲美。

附图说明

图1是本发明实施例中的一种用于指纹图像处理的硬件加速器的模块架构图；

图2是本发明实施例中的一种用于指纹图像处理的硬件加速器的系统的连接关系示意图；

图3是本发明实施例中的一种用于指纹图像处理的硬件加速方法的步骤流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，本发明提供一种示例性实施例，一种用于指纹图像处理的硬件加速器，包括寄存器模块、乘法模块；

所述寄存器模块，用于保存硬件加速器的参数配置和寄存配置，以及保存运算结果；

所述乘法模块，用于在配置完成后根据已选择的运算方式开启硬件加速器进行运算；以及将运算完成后产生的中断信号传输至中心处理器以中断运算。

在本实施例中，所述寄存器储存的配置信息包括图像尺寸配置、模板尺寸配置、模板中心点选择、归一化处理类型、模板步长选择、输入数据类型配置、输出数据类型配置、输出数据格式配置、模板系数配置、卷积运算结果存储地址的配置、卷积计算最大值、卷积计算最小值、硬件加速器中断与异常使能配置、硬件加速器中断与异常状态查询、欧式距离数据深度的配置、欧式距离开根结果的查询、第一种乘法运算数据深度的配置、第二种乘法运算数据深度的配置、乘法运算原始数据存储地址的配置、乘法运算结果存储地址的配置和硬件加速器运行功能配置。

在本实施例中，所述乘法模块具有多个乘法器单元，每个乘法单位为组合逻辑，兼容卷积运算、欧式距离运算和两种乘法运算，但卷积运算、欧式距离运算和两种特定乘法运算在同一时刻只会进行其中一种操作，不会有两种或多种操作同时进行的情况。

所述乘法模块还用于执行卷积运算：

清除硬件加速器的error&interrupt状态以执行卷积计算。

可以理解的是，对硬件加速器进行配置并且清除硬件加速器的状态，使硬件加速器能完成卷积计算并产生中断信号的动作和配置硬件加速器为卷积计算。

在本实施例中，所述卷积运算，兼容256x256以下的图像运算，每个像素点为8-bit的数据，支持有符号数据输入或无符号数据输入。卷积运算的模板中心点可自由配置，且卷积模板的规格支持7x7、6x6、5x5、4x4、3x3、2x2和1x1的模板，选定中心点后边界自行补0。此外还支持步长为1和步长为2的两种选择。卷积运算结束后的归一化处理包括二值化处理和数据截取处理，输出数据有8-bit和16-bit两种格式，而且支持有符号数据输出或无符号数据输出的选择。

采用硬件方式实现卷积运算，则在存储空间和运算时间上有较大的缩减，能加快指纹识别算法的性能。

所述乘法模块还用于执行欧氏距离运算：

可以理解的是，当欧氏距离运算完成后，硬件加速器会自动产生中断信号到CPU中，此时软件可以通过寄存器模块总线查询欧式距离的开根结果，欧氏距离的开根结果存储于寄存器模块中。

在本实施例中，可配置的欧式距离运算，支持8-bit有符号数据或8-bit无符号数据的输入，最大计算深度为256个数据，输出数据为16-bit无符号数据，且存在于寄存器模块中，运算数据采用拼接形式存储，即32-bit数据中，bit0到bit7为数据A0，bit8到bit15为数据B0，A0平方和B0平方相减得到C0平方，然后bit16到bit23为数据A1，bit24到bit31为数据B1，A1平方和B1平方相减得到C1平方，以此类推，完成深度为N(1≤N≤256)的N次运算，最后将C0、C1……CN-1相加，然后再开根得出最终结果，32-bit的数据中存放了4个数据，能运算2次。其公式如下：

所述乘法模块还用于执行特定乘法运算：

清除硬件加速器的error&interrupt状态以执行特定乘法运算。

具体实施时，所述特定乘法运算分为第一种特定乘法运算和第二种特定乘法运算；

所述第一种特定乘法运算，乘数A0和乘数B0相乘后得到结果C0，以此类推，完成深度为N(1≤N≤256)的N次运算，结果C0，C1……CN-1均为独立的运算结果，没有前后关联。该运算支持8-bit、16-bit和32-bit的数据输入，只支持无符号数据输入，输出数据分别为16-bit、32-bit和64-bit的无符号数据，最大计算深度为256个数据，且两个运算数据采用分开存储的形式，即乘数A和乘数B的存放地址是分开的，如数据为8-bit格式，则32-bit中bit7-bit0为A0/B0，bit15-bit8为A1/B1，bit23-bit16为A2/B2，bit31-bit24为A2/B2，下一个存储地址则按顺序存下去，如数据为16-bit格式，则32-bit中bit15-bit0为A0/B0，bit31-bit16为A1/B1，下一个存储地址则按顺序存下去，如数据为32-bit格式，则32-bit中bit31-bit0为A0/B0，下一个存储地址则按顺序存下去。其公式如下：

C_n＝A_n×B_n(n∈[1,256])

所述第二种特定乘法运算，乘数A0和乘数B0相乘后得到结果C00，乘数A0和乘数B1相乘等到C01，乘数A0和乘数B2相乘等到C02，以此类推，完成深度为N(1≤N≤128)的N次运算，得到的结果是C00，C01，C02……C0N-1，以此类推，需要完成M轮(1≤M≤128)的N次运算，结果依次是C10，C11，C12……C1N-1……CM-1N-1，总共有M乘以N个结果，每个结果均为独立的运算结果，没有前后关联。该运算支持8-bit、16-bit和32-bit的数据输入，只支持无符号数据输入，输出数据分别为16-bit、32-bit和64-bit的无符号数据，最大计算深度均为128个数据，且两个运算数据采用分开存储的形式，即乘数A和乘数B的存放地址是分开的，如数据为8-bit格式，则32-bit中bit7-bit0为A0/B0，bit15-bit8为A1/B1，bit23-bit16为A2/B2，bit31-bit24为A2/B2，下一个存储地址则按顺序存下去，如数据为16-bit格式，则32-bit中bit15-bit0为A0/B0，bit31-bit16为A1/B1，下一个存储地址则按顺序存下去，如数据为32-bit格式，则32-bit中bit31-bit0为A0/B0，下一个存储地址则按顺序存下去。器公式如下：

C_nm＝A_n*B_m(n∈[1,128]；m∈[1,128])

执行第一种特定乘法运算时，先设置乘法数据的位宽，同时配置乘法的数据深度N，然后再配置硬件加速器的功能寄存器，清除硬件加速器的error&interrupt状态；

当特定距离运算完成后，硬件加速器会自动产生中断信号到CPU中，此时软件需要处理硬件加速器的中断情况，处理完中断后，CPU和硬件加速器释放，可以再进行下一次的操作。

执行第二种特定乘法运算时，先设置乘法数据的位宽，同时配置乘法的数据深度M和N，然后再配置硬件加速器的功能寄存器，清除硬件加速器的error&interrupt状态；

此外，利用硬件形式实现欧氏距离运算和特定乘法的运算，能大大提高SOC系统的性能，解放大部分CPU的运算能力，让CPU能运行更多其他的程序。

所述用于指纹图像处理的硬件加速器，还包括数据预处理模块；

所述数据预处理模块，用于执行遵从AHB协议的数据读取操作、32-bit数据拆分、边界补0和传输数据至数据移位模块的操作。

所述用于指纹图像处理的硬件加速器，还包括数据移位模块；

所述数据移位模块，用于执行一个时钟周期移位多个8-bit数据至乘法模块的操作，且支持模块内部数据缓存的自动移位操作。

所述用于指纹图像处理的硬件加速器，还包括归一化处理模块；

所述归一化处理模块，用于执行卷积运算结果二值化或数据截取的操作；

所述归一化处理模块，在执行归一化处理前，

先对运算结果进行饱和处理；

再记录本次卷积运算中的最大结果和最小结果；

所述用于指纹图像处理的硬件加速器，还包括数据存储模块；

所述数据存储模块，用于执行遵从AHB协议的数据写入操作、运算数据合并与拆解的操作和产生中断信号的操作。

所述用于指纹图像处理的硬件加速器，还包括时钟控制模块；

所述时钟控制模块，用于控制硬件加速器各模块的时钟使能，起到降低功耗的作用。

请参见图2，本发明提供一种示例性实施例，一种用于指纹图像处理的硬件加速器的系统，包括中心处理器、存储装置以及如上所述的用于指纹图像处理的硬件加速器；

在本实施例中，如图所示，所述中心处理器即CPU，所述存储装置提供存储空间。

在所述用于指纹图像处理的硬件加速器的系统中，接口上包括一组寄存器的读写信号，一组AHB协议的通讯信号和模块的中断信号。

请参见图3，本发明提供一种示例性实施例，一种用于指纹图像处理的硬件加速方法，步骤包括：

选择一种运算方式对硬件加速器进行参数配置和寄存配置；所述运算方式包括通用卷积运算、欧氏距离运算、特定乘法运算；

所述用于指纹图像处理的硬件加速方法，若选择卷积运算方式对硬件加速器进行参数配置和寄存配置，则：

清除硬件加速器的error&interrupt状态以执行卷积计算。

所述用于指纹图像处理的硬件加速方法，若选择欧氏距离运算方式对硬件加速器进行参数配置和寄存配置，则：

所述用于指纹图像处理的硬件加速方法，若选择特定乘法运算方式对硬件加速器进行参数配置和寄存配置，则：

清除硬件加速器的error&interrupt状态以执行特定乘法运算。

C_n＝A_n×B_n(n∈[1,256])

C_nm＝A_n*B_m(n∈[1,128]；m∈[1,128])

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种用于指纹图像处理的硬件加速器，其特征在于，包括寄存器模块和乘法模块；

所述乘法模块，用于在配置完成后根据已选择的运算方式开启硬件加速器进行运算，以及将运算完成后产生的中断信号传输至中心处理器以中断运算；

所述乘法模块还用于执行卷积运算，具体实现如下：设置图像的尺寸、模板的尺寸和中心点位置、归一化处理的函数、输出数据的位宽和最低位，以及卷积计算的步长、卷积模板的各系数、卷积数据输入的起始地址、卷积计算数据输出的存储基地址；清除硬件加速器的error interrupt状态以执行卷积计算；

所述乘法模块还用于执行欧氏距离运算，具体实现如下：配置欧氏距离计算数据的深度和欧氏距离数据存储的起始地址；清除硬件加速器的error interrupt状态以执行欧氏距离计算；当欧氏距离运算完成后，欧氏距离的开根号结果存储于寄存器模块；

所述乘法模块还用于执行乘法运算，具体实现如下：设置乘法数据的位宽、乘法运算的模式和数据深度、乘法运算输入数据的起始地址、乘法运算输出数据的存储基地址；清除硬件加速器的error interrupt状态以执行乘法运算。

2.如权利要求1所述的用于指纹图像处理的硬件加速器，其特征在于，还包括归一化处理模块；

所述归一化处理模块用于：

先对运算结果进行饱和处理；

再记录本次卷积运算中的最大结果和最小结果；

3.一种用于指纹图像处理的硬件加速器的系统，其特征在于，包括中心处理器、存储装置以及如权利要求1至2任一所述的用于指纹图像处理的硬件加速器；

4.一种用于指纹图像处理的硬件加速方法，其特征在于，步骤包括：

选择一种运算方式对硬件加速器进行参数配置和寄存配置；

将运算完成后产生的中断信号传输至中心处理器以中断运算，并将运算结果保存至寄存器模块或存储装置；

若选择卷积运算方式对硬件加速器进行参数配置和寄存配置，则：设置图像的尺寸、模板的尺寸和中心点位置、归一化处理的函数、输出数据的位宽和最低位，以及卷积计算的步长、卷积模板的各系数、卷积数据输入的起始地址、卷积计算数据输出的存储基地址；清除硬件加速器的error interrupt状态以执行卷积计算；

若选择欧氏距离运算方式对硬件加速器进行参数配置和寄存配置，则：配置欧氏距离计算数据的深度和欧氏距离数据存储的起始地址；清除硬件加速器的error interrupt状态以执行欧氏距离计算；当欧氏距离运算完成后，欧氏距离的开根号结果存储于寄存器模块；

若选择乘法运算方式对硬件加速器进行参数配置和寄存配置，则：设置乘法数据的位宽、乘法运算的模式和数据深度、乘法运算输入数据的起始地址、乘法运算输出数据的存储基地址；清除硬件加速器的error interrupt状态以执行乘法运算。