CN112992123A

CN112992123A - 一种语音特征提取电路及方法

Info

Publication number: CN112992123A
Application number: CN202110249673.0A
Authority: CN
Inventors: 李超男; 李致铭; 张鸿
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-03-05
Filing date: 2021-03-05
Publication date: 2021-06-18
Anticipated expiration: 2041-03-05

Abstract

本公开揭示了一种语音特征提取电路，包括：放大电路，用于对语音接收设备输出的语音信号进行放大，输出语音放大信号；带通滤波电路，用于对语音放大信号进行带通滤波，输出2N路不同频带的语音放大信号；平方电路，用于在某一时刻对2N路不同频带的语音放大信号中的某一路进行平方操作，输出平方后的语音放大信号；低通滤波电路，用于对平方后的语音放大信号进行低通滤波，输出低通滤波后的语音放大信号；模数转换电路，用于对低通滤波后的语音放大信号进行采样并转换为输出的数字信号；数字信号处理电路，用于提取输出的数字信号中的语音特征。

Description

一种语音特征提取电路及方法

技术领域

本公开属于自动语音识别领域，具体涉及一种语音特征提取电路及方法。

背景技术

在典型的自动语音识别系统中，信号处理前端将语音信号从输入设备(如麦克风)转换为参数表示，再用其驱动语音识别解码器，进而实现自动语音识别。这个参数表示，通常被称为语音特征。语音特征提取作为自动语音识别不可或缺的一环，其架构也随着人们对节能设备需求的不断提高而发生着重大变革。

MFCC(Mel-scale Frequency Cepstral Coefficients)与Fbank(Filter bank)是现代语音识别中最常用的两种语音特征。传统数字域的语音特征提取架构中，语音信号经过预放大、模数转换、分帧加窗、快速傅里叶变换(FFT，Fast Fourier Transform)、梅尔对数运算以及离散余弦变换(DCT，Discrete Cosine Transform)，最终得MFCC或Fbank参数。该架构进行着高度数据并行的操作，FFT及模数转换都耗费了大量计算时间和硬件资源。随后的混合信号语音特征提取架构中采用模拟域对预放大后的语音信号进行带通滤波，再进行平方、低通滤波、模数转换等操作来提取信号能量值，然而该架构仍处于并行处理的状态，存在很大的硬件消耗，过多的并行输出引脚使得该方案在硬件实现上也面临很大困难。

在背景技术部分中公开的上述信息仅仅用于增强对本公开背景的理解，因此可能包含不构成本领域普通技术人员公知的现有技术的信息。

发明内容

针对现有技术中的不足，本公开的目的在于提供一种语音特征提取电路及方法，通过硬件复用减少硬件开销，并且能够保持语音信号的识别率，更能适应低功耗设备的需求。

为实现上述目的，本公开提供以下技术方案：

一种语音特征提取电路，包括：

放大电路，用于对语音接收设备输出的语音信号进行放大，输出语音放大信号；

带通滤波电路，用于对语音放大信号进行带通滤波，输出2N路不同频带的语音放大信号；

平方电路，用于在某一时刻对2N路不同频带的语音放大信号中的某一路进行平方操作，输出平方后的语音放大信号；

低通滤波电路，用于对平方后的语音放大信号进行低通滤波，输出低通滤波后的语音放大信号；

模数转换电路，用于对低通滤波后的语音放大信号进行采样并转换为输出的数字信号；

数字信号处理电路，用于提取输出的数字信号中的语音特征。

优选的，所述带通滤波电路与所述平方电路之间设置有连通机构，所述连通机构在某一时刻将带通滤波电路输出的2N路不同频带的语音放大信号中的某一路与平方电路连通。

优选的，所述连通机构包括数据选择器或由多个开关构成的开关组。

优选的，所述电路还包括控制电路，用于控制连通机构在某一时刻将平方电路与带通滤波电路输出的2N路不同频带的语音放大信号中的某一路连通以及用于切换调整带通滤波电路的中心频率。

优选的，所述带通滤波电路包括N路可编程带通滤波器，每一路可编程带通滤波器中含有切换开关，该切换开关由控制电路控制对该路可编程带通滤波器的中心频率进行切换。

优选的，所述数字信号处理电路包括处理器和存储器，所述存储器用于存储多条指令，所述指令适于由处理器加载并执行对模数转换电路输出的数字信号进行串并转换、取对数和离散余弦变换操作。

本公开还提供一种数模混合语音特征提取方法，包括如下步骤：

S100：对语音接收设备输出的语音信号进行放大，输出语音放大信号；

S200：对语音放大信号进行带通滤波，输出2N路不同频带的语音放大信号；

S300：在某一时刻对2N路不同频带的语音放大信号中的某一路进行平方操作，输出平方后的语音放大信号；

S400：对平方后的语音放大信号进行低通滤波，输出低通滤波后的语音放大信号；

S500：对低通滤波后的语音放大信号进行采样并转换为输出的数字信号；

S600：提取输出的数字信号中的语音特征。

与现有技术相比，本公开带来的有益效果为：

1、大幅度减少原有带通滤波器的使用数量，减小了电路面积与功耗；

2、将多路并行的平方电路、低通滤波电路和模数转换电路简化为一路，实现硬件复用，减小了电路的硬件开销，提高了电路的实用性。

附图说明

图1是本公开一个实施例提供的一种语音特征提取电路的架构示意图；

图2是传统数字域语音特征提取架构示意图；

图3是现有的混合域语音特征提取架构示意图；

图4是本公开一个实施例提供的一种数模混合语音特征提取电路的架构示意图；

图5是本公开一个实施例提供的一种数模混合语音特征提取电路的架构示意图；

图6是本公开另一个实施例提供的控制电路的时序图。

具体实施方式

下面将参照附图1至图6详细地描述本公开的具体实施例。虽然附图中显示了本公开的具体实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

需要说明的是，在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可以理解，技术人员可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名词的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”或“包括”为一开放式用语，故应解释成“包含但不限定于”。说明书后续描述为实施本发明的较佳实施方式，然所述描述乃以说明书的一般原则为目的，并非用以限定本发明的范围。本公开的保护范围当视所附权利要求所界定者为准。

为便于对本公开实施例的理解，下面将结合附图以具体实施例为例做进一步的解释说明，且各个附图并不构成对本公开实施例的限定。

一个实施例中，如图1所示，本公开提供一种语音特征提取电路，包括：

上述实施例构成了本公开的完整技术方案，相比如图2所示的数字域语音特征提取架构示意图，本实施例不需要进行分帧加窗、快速傅里叶变换等操作，节省了了大量计算时间和硬件资源；相比如图3所示的混合域语音特征提取架构示意图，本实施例减少了模拟带通滤波器的并联数量，减小了电路面积和功耗，将并行的平方电路、低通滤波电路和模数转换电路简化为一路，在不降低语音识别效率的前提下实现硬件复用，能够减小电路的硬件开销，提高了电路的实用性。

另一个实施例中，所述带通滤波电路与所述平方电路之间设置有连通机构，所述连通机构在某一时刻将带通滤波电路输出的2N路不同频带的语音放大信号中的某一路与平方电路连通。

本实施例中，连通机构的输入端与带通滤波电路的输出端相连，连通机构的输出端与平方电路的输入端连接，能够在不同时刻将带通滤波电路输出的2N路不同频带的语音放大信号中的某一路连通至平方电路进行平方处理以及后续的低通和模数转换处理，实现时分复用。本公开通过加入连通结构，能够将多个平方电路、低通滤波电路以及模数转换电路简化为一路，从而能够大大降低电路的功耗。

另一个实施例中，所述连通机构包括数据选择器或由多个开关构成的开关组。

本实施例中，图4和图5是连通机构的2种实施方式，图4中，连通机构采用数据选择器的方式，在2N路带通滤波后的语音放大信号传送的过程中，能够根将其中任意一路信号选出来。图5中，连通机构采用由多个开关构成的开关组的方式，当一个开关闭合时，平方电路与带通滤波电路中的一路连通，其余开关则断开。

另一个实施例中，所述电路还包括控制电路，用于控制连通机构在某一时刻将平方电路与带通滤波电路输出的2N路不同频带的语音放大信号中的某一路连通以及用于切换调整带通滤波电路的中心频率。

本实施例中，带通滤波电路包括N个中心频率按Mel频率分布的可编程模拟带通滤波器，每一路可编程带通滤波器包括压控电容器和跨导放大器，压控电容器通过控制电压VC来调整接入电路中电容器的容值，使每个可编程模拟带通滤波器的中心频率能够在两个值之间进行切换，最终实现与2N个中心频率按Mel频率分布的模拟带通滤波器相同的功能。

另一个实施例中，所述带通滤波电路包括N路可编程带通滤波器，每一路可编程带通滤波器中含有切换开关，该切换开关由控制电路控制对该路可编程带通滤波器的中心频率进行切换。

本实施例中，图6是控制电路的时序图，其中，CLK1～CLKN为连通机构的控制信号，VC1～VCN为N个可编程模拟带通滤波器中心频率切换的控制信号。由于模拟存储器技术尚未成熟，本实施例将不在模拟域进行分帧操作，而是在时域直接提取声音信号半帧时长内的能量值，在半帧内完成一次2N个通道的平均能量值的采样与量化。具体操作如下：

将语音信号的半帧时长一分为二，在前一个1/4帧时长内完成一次第0～N通道的滤波、平方、取平均能量值以及模数转换器采样量化的过程；在下一个1/4帧，由VC1～VCN控制可编程模拟带通滤波器切换中心频率，进行第N+1～2N通道的滤波、平方、取平均能量值以及模数转换器采样量化的过程。假设半帧时长为T，控制电路将1/4帧时长均分为N*T/2N，在第1个T/2N周期内，第1通道模拟带通滤波器在CLK1为高时接入电路，进行带通滤波、平方、取平均能量值以及模数转换器采样操作，在CLK1为低时将能量值进行量化输出；在下一个T/2N周期，第2通道模拟带通滤波器在CLK2为高时接入电路，进行带通滤波、平方、取平均能量值以及模数转换器采样操作，在CLK2为低时将能量值进行量化输出，第3～N通道操作同理。在第N个T/2N周期结束后，进入后1/4帧，第N+1～2N通道操作与第0～N通道相同。

当CLK1由高电平跳变至低电平时触发VC1跳变为高电平，此时第1通道模拟带通滤波器完成滤波操作，VC1跳变为高电平会改变压控电容器的容值，第1通道模拟带通滤波器中心频率切换到第N+1通道的中心频率值，并为后1/4帧里第N+1通道的滤波做好准备，当CLK1由高电平再次跳变至低电平时，触发VC1由高电平跳变至低电平，第N+1通道模拟带通滤波器切换回第1通道。当CLK2由高电平跳变至低电平时触发VC2跳变为高电平，此时第2通道模拟带通滤波器完成滤波操作，VC2跳变为高改变压控电容器容值，第2通道模拟带通滤波器切换为第N+2通道，并为后1/4帧里第N+2通道的滤波做好准备，当CLK2由高电平再次跳变至低电平时，触发VC2由高电平跳变至低电平，第N+2通道模拟带通滤波器切换回第2通道。VC3～VCN操作同理，以此实现了半帧内以N路模拟带通滤波器实现了2N个通道的滤波操作。

以通道数N＝10，一帧时长25ms，帧交叠50％为例对本公开进行更具体的说明，但不限于本公开的范围。在半帧时间即12.5ms内，需要模数转换器完成对20个通道的输出依次进行采样与量化，以提取半帧语音信号的平均能量值，每个通道数据传输与处理所占用的时长为0.625ms，若模数转换器在0.1ms内完成采样，则会在剩余的0.525ms内完成量化。

在本公开中，可将20个通道的模拟带通滤波器缩减为10路可编程模拟带通滤波器。假设给20路按频带划分的模拟带通滤波器依次编号为1～20，则可用第1～10路可编程模拟带通滤波器同时对应实现第1～20路模拟带通滤波器的功能，即当连通机构接通第1路可编程模拟带通滤波器完成第1路模拟带通滤波器的滤波操作时，控制该可编程模拟带通滤波器中心频率的切换开关通过VC1控制接通，第1路可编程模拟带通滤波器的中心频率被切换至原有的第11路模拟带通滤波器的频率，从而使得该第1路可编程带通滤波继续以第11路模拟带通滤波器的频率进行信号输出，其余9路可编程模拟带通滤波器的工作原理同理。由此，该N路可编程模拟带通滤波器在硬件数量减少一半的基础上仍然可以输出2N路信号，实现如图3所示电路结构的功能。

另一个实施例中，所述数字信号处理电路包括处理器和存储器，所述存储器用于存储多条指令，所述指令适于由处理器加载并执行对模数转换电路输出的数字信号进行串并转换、取对数和离散余弦变换操作。

本实施例中，对于数字信号的处理可以通过两种方式进行，第一种方式是先将2N路数字信号依次接收至存储器中进行存储，带所有信号接受完毕后，由处理器对2N路信号统一进行处理。另一种作为第一种方式的改进，当存储器存储一路信号的同时，处理器即对该路信号进行处理，边存储边处理，从而提高信号的处理效率。

另一个实施例中，本公开还提供一种语音特征提取方法，包括如下步骤：

S600：提取输出的数字信号中的语音特征。

本公开在cadence平台采用0.18μm标准、CMOS工艺对模拟信号域的处理电路进行了仿真，并借助MATLAB与Simulink平台对该数模混合语音特征提取电路进行了建模与验证，基于TI-DIGITS语音数据集与动态时间弯折(DTW)算法进行了语音识别率的测试，测试结果如表1所示：

表1

由表1可以看出，本公开提出的混合信号语音特征提取电路相较于传统数字域电路在能量消耗与提取速度上都有明显的性能提升，且本公开所述电路相较于现阶段存在的并行混合信号结构，在保证自动语音识别精度不受损的前提下，降低了硬件消耗，能效比提高了1.3倍。

由以上实施例可知，本公开所述的硬件复用的数模混合语音特征提取电路及方法将现有技术所需的模拟滤波器数量减小了一半，将平方、滤波以及模数转换模块由2N路减小为一路，大大减小了硬件开销及整体系统的能量消耗，提高的硬件的可实现性。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种语音特征提取电路，包括：

2.根据权利要求1所述的电路，其中，优选的，所述带通滤波电路与所述平方电路之间设置有连通机构，所述连通机构在某一时刻将带通滤波电路输出的2N路不同频带的语音放大信号中的某一路与平方电路连通。

3.根据权利要求2所述的电路，其中，所述连通机构包括数据选择器或由多个开关构成的开关组。

4.根据权利要求1所述的电路，其中，所述电路还包括控制电路，用于控制连通机构在某一时刻将平方电路与带通滤波电路输出的2N路不同频带的语音放大信号中的某一路连通以及用于切换调整带通滤波电路的中心频率。

5.根据权利要求1-4任意一项所述的电路，其中，所述带通滤波电路包括N路可编程带通滤波器，每一路可编程带通滤波器中含有切换开关，该切换开关由控制电路控制对该路可编程带通滤波器的中心频率进行切换。

6.根据权利要求1所述的电路，其中，所述数字信号处理电路包括处理器和存储器，所述存储器用于存储多条指令，所述指令适于由处理器加载并执行对模数转换电路输出的数字信号进行串并转换、取对数和离散余弦变换操作。

7.一种数模混合语音特征提取方法，包括如下步骤：

S600：提取输出的数字信号中的语音特征。