CN107657312B

CN107657312B - 面向语音常用词识别的二值网络实现系统

Info

Publication number: CN107657312B
Application number: CN201710843023.2A
Authority: CN
Inventors: 刘波; 秦海; 孙锰阳; 郑梦瑶; 龚宇; 杨军
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2017-09-18
Filing date: 2017-09-18
Publication date: 2021-06-11
Anticipated expiration: 2037-09-18
Also published as: CN107657312A

Abstract

本发明公开了一种面向语音常用词识别的二值网络实现系统，用二值化的卷积网络识别语音常用词。其电路结构包括异或乘法器，数模混合矢量矩阵求和模块和基于混合时钟频率的计数量化模块。应用于关键词语音识别、卷积神经网络二值化、以及近似加法器设计。本发明不仅可以减少计算产生的功耗和时间，同时还保证了一定的计算精度，并且简化了计算的复杂度。

Description

面向语音常用词识别的二值网络实现系统

技术领域

本发明涉及一种面向语音常用词识别的二值网络实现系统，属于人工神经网络技术领域。

背景技术

随着网络的日益庞大，在软件模型方面和硬件体系结构方面对网络压缩与适当处理精度的研究也越来越深入。尽管一般用于语音识别的递归神经网络具有比较高的准确度，但在减少面积和能量消耗方面存在问题。因此，引入了具有高能源效率的二值卷积网络，用很少的精确度损失换取了更低的能耗。

基于延时的近似加法器在处理二值网络时在性能和灵活性方面表现出优越性。随着神经网络的影响越来越大，对低功耗常用词语音识别的研究迫在眉睫。

我们进一步优化了二值网络的实现方式，提出了一种基于精度要求的时钟分配方式。

发明内容

发明目的：为了解决现有应用于语音识别的神经网络存在网络规模大、功耗过大的问题，本发明提供一种面向语音常用词识别的二值网络实现系统，应用于关键词语音识别、卷积神经网络二值化、以及近似加法器设计。不仅可以减少计算产生的功耗和时间，同时还保证了一定的计算精度，并且简化了计算的复杂度。

技术方案：一种面向语音常用词识别的二值网络实现系统，用二值化的卷积网络识别语音常用词。其电路结构包括异或乘法器，数模混合矢量矩阵求和模块和基于混合时钟频率的计数量化模块。

所述异或乘法器通过对二值化的权重和每层数据的符号位进行异或操作实现-1或1与输入数据的乘法。异或后的结果按批次送入反相器链延时的数模混合矢量矩阵求和模块进行相加。

所述基于反相器链延时的数模混合矢量矩阵求和模块用于实现将加法操作转换为反相器延时的叠加，输入数据的每一bit分别用一条反相器链来表示，对应的比特作为同一条延时链的控制信号，将1的个数转换为延时的长短。其中反相器链由两种针对不同时钟边沿触发的可控延时块构成：del1为时钟上升沿触发可控延时块，当控制信号(数据对应的bit)为0时，延时为Δt，控制信号为1时，延时为2At；del2为时钟下降沿触发可控延时块，当控制信号(数据对应的bit)为0时，延时为Δt，控制信号为1时，延时为2Δt。具体实现方式包括以下方面：

(1)近似加法器树规模为一次处理256个16bit的数据加法，对应的比特作为同一条延时链的控制信号，将1的个数转换为延时的长短。

(2)通过RS锁存器检测两个上升沿，得到使能信号en，与高频时钟CK相与，控制计数器工作，在下一个en之前将计数器置0。高频时钟由y级控制信号均为0的del1级联，周期为2yΔt。

(3)由于存在本征延时，需要增加校准模式，将本征延时消除。

其中x为延时链中1的个数，Δt为单个延时块控制信号为0的延时，t1为延时链的延时，t_1min为延时链的输入控制信号全为0时的延时，y为控制信号均为0的del1延时块级联的个数，T_osc为输入边沿信号的周期，dump_i与cali_i分别表示第i条延时链和第i条校正链，dunp_cali_i为第i条延时链量化后输出的部分和。(4)在数字域进行校准，并将16个反相器链的输出转化为最终和。

所述基于混合时钟频率的计数量化模块，通过高频时钟采样计数反相器链的输出进而得出延时的大小。其中根据输入数据不同的bit位，分配的计数器clk时钟也不同。最高两位数据的精度的要求最高，所以它们的反相器链的采样时钟不进行分频，充当基准时钟；对于中间4位数据，其采样时钟进行二分频，为基准时钟的一半；对于的最后10位数据，其采样时钟进行四分频，为基准时钟的四分之一。

附图说明

图1为本发明的BCNN的拓扑结构示意图；

图2为本发明的BCNN硬件实现示意图；

图3为本发明的时钟上升沿触发可控延时块；

图4为本发明的时钟下降沿触发可控延时块。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

面向语音常用词识别的二值网络实现系统，是将二值网络中输入数据与二值化的权重的乘加转换成异或和反相器链延时的操作。其中异或乘法器将乘法操作转换成数据的标志位与二值权重的异或，基于反相器链延时的数模混合矢量矩阵求和模块将加法操作转换成反相器链的延时叠加，再通过基于混合时钟频率的计数量化模块将延时量化成每bit位上的数据和，最后再转换成最终和。

异或乘法器通过对二值化的权重和每层数据的符号位进行异或操作实现-1或1与输入数据的乘法。异或后的结果按批次送入反相器链延时的数模混合矢量矩阵求和模块进行相加。

网络二值化主要是将网络的权重二值化成-1和1，减少网络的大小和存储需求，简化神经元的计算。相对一般用于语音识别的递归神经网络，设计一种新的二值化卷积神经网络结构，如图1所示，具体结构如下：网络一共分九层，输入是32乘32的规模，前六层是卷积层，后三层是全连接层。第一、二层均是128个卷积核，第三、四层是256个卷积核，第五、六层是512个卷积核。其中卷积核都是3乘3的规模，每两层卷积后有一层2乘2的最大池化。第七、八层均是1024个点的全连接层，第九层为10个点的全连接。如图2所示，二值网络的电路结构包括异或乘法部分，数模混合矢量矩阵求和模块和基于混合时钟频率的计数量化模块。基于二值网络拓扑结构中每层的数据规模多为256的倍数，所述的二值网络电路一次处理256个数据的乘加操作。网络中每层的数据按256个一批次输入到电路单元，与对应的二值化权重经过亦或乘法单元，得到的数据送入数模混合矢量矩阵求和模块进行按位累加操作，将对应数据位上的1的个数转化成延时的大小进行累加。再经过基于混合时钟频率的计数量化模块进行对延时的量化，进而将延时的大小量化成1的个数，即每个数据位上的和。最后再将得到的16个数据位上的和经过移位相加处理，得到最终和。

如图2所示，基于反相器链延时的数模混合矢量矩阵求和模块用于实现将加法操作转换为反相器延时的叠加，数模混合矢量矩阵求和模块一次同时处理256个16bit的输入数据的乘加。数据的每一位分别用一条延时链来表示，对应的比特作为同一条延时链的控制信号。每个输入的16bit数的最高位即符号位先与对应的已经二值化的权重进行异或，得到的新的256个16bit数的对应的bit作为同一条反相器链的控制信号。由两种针对不同边沿触发的可控延时块组成的反相器链，当其控制信号为‘0’时，延时为Δt，控制信号为‘1’时，延时为2Δt，所以边沿信号经过反相器延时的自然累加，就可以将每条反相器链上的1的个数转换为延时的长短。延时用高频计数器模块采样得出，得到的延时通过基于混合时钟频率的计数量化模块转换成每条反相器链的输出和。

延时链分别由时钟上升沿触发可控延时块del1和时钟下升沿触发可控延时块del2组成。

如图3所示，时钟上升沿触发可控延时块del1由4个P型MOS管和4个N型MOS管组成，第一级为反相器电路，第二级为传输控制部分控制信号的传输通路。当输入端口A为上升沿，且输入端口D＝‘0’时，N型MOS管M2开启，信号通过N型MOS管M4、N型MOS管M6、N型MOS管M2从输入端口A传输到输出端口Y，延时为Δt；当输入端口D＝‘1’时，N型MOS管M2截止，信号通过N型MOS管M4从输入端口A传输到输出端口Y，延时为2Δt。而当A为下降沿，信号通过M3、M5、M1从A传输到Y，延时为Δt。

如图4所示，时钟下降沿触发可控延时块del2由3个P型MOS管和3个N型MOS管组成，第一级为反相器电路，第二级为传输控制部分控制信号的传输通路。A为下降沿时，D＝‘0’，M1开启，信号通过M3、M5、M1从A传输到Y，延时为Δt；D＝‘1’，M1截止，信号通过M3从A传输到Y，延时为2Δt。而当A为上升沿，信号通过M4、M6、M2从A传输到Y，延时为Δt。

通过RS锁存器检测两个上升沿，得到使能信号en，与高频时钟CK相与，控制计数器工作，在下一个en之前将计数器置0。高频时钟由y级控制信号均为0的时钟上升沿触发可控延时块级联，周期为2yΔt。针对16bit数据的不同bit位的精度要求不同，将高频时钟进行对应的分频操作。

所有部件之间相互配合，共同完成面向语音常用词识别的二值网络的电路实现，包括如下步骤：

(1)输入256个16比特二进制数D₁-D₂₅₆到异或乘法器；

(2)将输入的256个数据的符号位分别与其对应的二值权重进行异或后将16bit数按位送入数模混合矢量矩阵求和模块；

(3)256个16bit待加数的每一bit分别用数模混合矢量矩阵求和模块中的一条延时链来表示，对应的比特作为同一条延时链的控制信号，将1的个数转换为延时的长短；

(4)数模混合矢量矩阵求和模块中延时链输出的延时再经过基于混合时钟频率的计数量化模块，将信号的延时的大小通过采样得出：delay＝m*Δt+n*2Δt，其中m为每条反相器链上0的个数，n为1的个数；

(5)对于计数量化模块中每条延时链的计数器根据所对应的bit位采取不同的时钟频率：对于最高两位数据，其采样时钟不进行分频，充当基准时钟；对于中间4位数据，其采样时钟进行二分频，为基准时钟的一半；对于的最后10位数据，其采样时钟进行四分频，为基准时钟的四分之一；

(6)对数模混合矢量矩阵求和模块中延时链输出的延时进行校准以消除本征延时；

(7)计数量化模块采样出的延时再经过量化，输出每条反相器链上的1的个数；

(8)将16条延时链输出的结果进行下一步的移位相加操作，得出最终和，其公式为：Y_all＝∑D_i＝∑(-2¹⁵D_i[15]+2¹⁴D_i[14]+…+D_i[0])。

Claims

1.一种面向语音常用词识别的二值网络实现系统，其特征在于：用二值化的卷积网络识别语音常用词，包括异或乘法器，数模混合矢量矩阵求和模块和基于混合时钟频率的计数量化模块；

所述异或乘法器通过对二值化的权重和每层数据的符号位进行异或操作实现-1或1与输入数据的乘法；异或后的结果按批次送入反相器链延时的数模混合矢量矩阵求和模块进行相加；

反相器链延时的数模混合矢量矩阵求和模块用于实现将加法操作转换为反相器延时的叠加，输入数据的每一bit分别用一条反相器链来表示，对应的比特作为同一条延时链的控制信号，将1的个数转换为延时的长短；

所述反相器链由两种针对不同时钟边沿触发的可控延时块构成：del1为时钟上升沿触发可控延时块，当控制信号为0时，延时为Δt，控制信号为1时，延时为2Δt；del2为时钟下降沿触发可控延时块，当控制信号为0时，延时为Δt，控制信号为1时，延时为2Δt；

其中，基于混合时钟频率的计数量化模块，通过RS锁存器检测两个上升沿，得到使能信号en，与高频时钟CK相与，控制计数器工作，在下一个en之前将计数器置0；高频时钟由y级控制信号均为0的del1级联，周期为2yΔt，针对16bit数据的不同bit位的精度要求不同，将高频时钟进行对应的分频操作；

(1)最高两位数据的精度的要求最高，所以它们的延时链的采样时钟不进行分频，充当基准时钟；

(2)对于中间4位数据，其采样时钟进行二分频，频率为基准时钟的一半；

(3)对于最后10位数据，其采样时钟进行四分频，频率为基准时钟的四分之一。

2.如权利要求1所述的面向语音常用词识别的二值网络实现系统，其特征在于：二值化的卷积网络一共分为九层，输入是32乘32的规模，前六层是卷积层，后三层是全连接层；第一、二层均是128个卷积核，第三、四层是256个卷积核，第五、六层是512个卷积核；其中卷积核都是3乘3的规模，每两层卷积后有一层2乘2的最大池化；第七、八层均是1024个点的全连接层，第九层为10个点的全连接；二值网络的电路结构包括异或乘法器，数模混合矢量矩阵求和模块和基于混合时钟频率的计数量化模块；

二值网络的电路一次处理256个数据的乘加操作；网络中每层的数据按256个一批次输入到电路单元，与对应的二值化权重经过异或乘法器，得到的数据送入数模混合矢量矩阵求和模块进行按位累加操作，将对应数据位上的1的个数转化成延时的大小进行累加；再经过基于混合时钟频率的计数量化模块进行对延时的量化，进而将延时的大小量化成1的个数，即每个数据位上的和；最后再将得到的16个数据位上的和经过移位相加处理，得到最终和。

3.如权利要求1所述的面向语音常用词识别的二值网络实现系统，其特征在于：由于存在本征延时，需要增加校准模式，将本征延时消除，

其中x为延时链中1的个数，Δt为单个延时块控制信号为0的延时，t1为延时链的延时，t_1min为延时链的输入控制信号全为0时的延时，y为控制信号均为0的del1延时块级联的个数，T_osc为输入边沿信号的周期，dump_i与cali_i分别表示第i条延时链和第i条校正链，dunp_cali_i为第i条延时链量化后输出的部分和。

4.如权利要求1所述的面向语音常用词识别的二值网络实现系统，其特征在于：所有部件之间相互配合，共同完成面向语音常用词识别的二值网络的电路实现，包括如下步骤：

(1)输入256个16比特二进制数D₁-D₂₅₆到异或乘法器；

(5)对于计数量化模块中每条延时链的计数器根据所对应的bit位采取不同的时钟频率：对于最高两位数据，其采样时钟不进行分频，充当基准时钟；对于中间4位数据，其采样时钟进行二分频，为基准时钟的一半；对于最后10位数据，其采样时钟进行四分频，为基准时钟的四分之一；