CN110047475A

CN110047475A - 一种计算机语音识别系统及其方法

Info

Publication number: CN110047475A
Application number: CN201910439727.2A
Authority: CN
Inventors: 赵慧; 郭琼琼; 付宗见; 郭丽娜; 李海胜
Original assignee: Zhengzhou Railway Vocational and Technical College
Current assignee: Zhengzhou Railway Vocational and Technical College
Priority date: 2019-05-24
Filing date: 2019-05-24
Publication date: 2019-07-23

Abstract

本发明公开了一种计算机语音识别系统及其方法，包括麦克风、音频编解码芯片、嵌入式处理器和PC机，麦克风实现语音信号的录入采集，输出PDM格式的数字音频信号；音频编解码芯片用以接收麦克风输出的数字音频信号，并将信号编码处理后输出至嵌入式处理器；一种计算机语音识别方法，包括DS‑CNN神经网络、声学模型训练和声学模型移植，还包括离线语音识别，离线语音识别包括开发环境配置及工程建立、音频预处理、MFCC特征提取和分类识别，本发明设计合理，使用方便，在节省语音识别芯片带来的硬件成本和离线库带来的软件成本的同时，解决了传统算法存在的只能适用于特定人、识别延迟高、识别率偏低等不足。

Description

一种计算机语音识别系统及其方法

技术领域

本发明具体涉及一种计算机语音识别系统及其方法。

背景技术

语音识别技术在过去的数十年中得到了长足的发展。现今大多数语音识别都是基于在线云平台和计算机，而应用在嵌入式终端上的离线语音识别技术尚不完善，无法满足移动机器人、声控机械等各类嵌入式终端在离线情况下对语音识别功能的需求。

目前在嵌入式移动平台上实现离线语音识别的方法大致分为三大类：一是利用专用语音识别芯片，一是使用传统的语音识别算法，一是移植讯飞、百度等大公司的语音库。采用语音识别芯片内集成语音识别算法，虽然使用时方便快捷，但是具有硬件成本高、识别词简单固定等不足。传统的语音识别算法包括采用的基于动态时间规整( DynamicTimeWarping，DTW) 的算法和采用的基于隐马尔科夫模型( Hidden Markov Model，HMM) 的算法等。DTW 算法虽然在特定人、少量孤立词识别方面具有较好的效果，但是无法适用非特定人、大量词的识别；基于HMM 的算法，则存在识别时间长、识别率偏低的不足。若要移植大公司的离线语音库，则需要大量的存储空间，不适用于存储量有限的嵌入式平台，同时，还需要支付不菲的库使用费，大大增加了软件成本。

发明内容

本发明的目的是为解决上述不足，提供一种计算机语音识别系统及其方法。

本发明的目的是通过以下技术方案实现的：

一种计算机语音识别系统及其方法，包括麦克风、音频编解码芯片、嵌入式处理器和PC机，麦克风实现语音信号的录入采集，输出PDM格式的数字音频信号；音频编解码芯片用以接收麦克风输出的数字音频信号，并将信号编码处理后输出至嵌入式处理器；嵌入式处理器采用的是型号为STM32F746NGH6的嵌入式MCU，通过芯片的SAI 接口与音频解码芯片连接，对输入的音频数据进行处理识别，并将识别结果输出至串口，利用PC实现声学模型的训练。

麦克风采用的是型号为MP34DT01TR的MEMS数字麦克风，音频编解码芯片采用的是型号为WM8994ECS 的超低功耗保真编解码芯片。

一种计算机语音识别方法，具体步骤如下：（1）DS-CNN 神经网络：第一步用M个维度为DK×DK×1的卷积核去卷积对应输入的M个feature map，然后得到M个结果，而且这M个结果相互之间不累加，因此计算量是DF×DF×DK×DK×M，生成的结果是DF×DF×M；然后用N个维度为1×1×M的卷积核卷积第一步的结果，即输入是DF×DF×M，最终得到DF×DF×N的feature map，计算量是DF×DF×1×1×M×N，即DS-CNN计算量为DF×DF×DK×DK×M+DF×DF×M×N，计算量与标准卷积计算量之比为：

；

（2）声学模型训练：声学模型训练采用Google speech commands dataset作为训练集，在Tensorflow框架中使用标准的交叉熵损失和adam优化器进行训练，批量大小为100，模型以20000次迭代，初始学习率为5×10^-4，并在第一个10000次迭代后减少到10^-4，训练数据增加了背景噪音和高达100ms的随机时移，以模拟复杂的背景环境，提高系统的鲁棒性；

（3）声学模型移植：利用ARM开发的深度学习库arm_nn建立DS-CNN神经网络框架，将声学模型训练得到的各项模型参数输入至该框架中相应的位置，在后续新建嵌入式工程时移植已输入声学模型参数的DS-CNN神经网络，即可完成声学模型的移植。

还包括离线语音识别，离线语音识别包括（1）开发环境配置及工程建立，在Linux系统下利用ARM开发的Mbed平台开发本系统的嵌入式程序，首先安装Mbed，然后在Mbed平台下编译代码，在Keil 中新建工程μVision Project，在“Options forTarget→Device”中选择芯片型号STM32F746NGHx；

“Options for Target→C /C ++”中的“Define”选项卡添加“STM32F7xx，USE_HAL_DＲIVEＲ，AＲM_MATH_CM7，_CC_AＲM，__FPU_PＲESENT，_FPU_USED = 1”，以使之支持stm327xx_hal 库和浮点运算；然后再移植工程组件stm32fxx_hal 库和cmsis 库，Arm开发的适用于深度学习的arm_nn库，以及用于硬件浮点运算的DSP库，经测试，该方法可以顺利新建工程，并实现程序的正常编译和在线调试；（2）音频预处理，对输入的音频信号进行分帧、加窗等预处理操作，采样点数设置为16000，分帧时设置帧长为40ms，帧移为20ms，为了消除分帧造成的每帧音频数据首尾的重叠现象，选用Hamming窗来对每帧音频数据进行加窗操作；（3）MFCC特征提取，对每帧音频数据，通过快速傅里叶变换( FastFourierTransform，FFT) 得到对应的频谱；创建Mel三角滤波器组，对每帧音频数据进行Mel 频率转换；在Mel频谱上进行倒谱分析；（4）将提取的MFCC特征输入到声学模型中，利用arm_nn库中的run_nn函数和arm_softmax_q7函数完成音频特征的分类过程，利用滑动窗口对分类结果进行平均运算，以得到平滑的分类结果，根据分类结果即可得到最终的识别结果。

本发明具有如下有益的效果：

本发明设计合理，使用方便，在节省语音识别芯片带来的硬件成本和离线库带来的软件成本的同时，解决了传统算法存在的只能适用于特定人、识别延迟高、识别率偏低等不足。

附图说明

图1为本发明的整体结构示意图。

具体实施方式

下面结合附图对本发明作进一步的说明：

如图1所示，一种计算机语音识别系统及其方法，包括麦克风、音频编解码芯片、嵌入式处理器和PC机，麦克风实现语音信号的录入采集，输出PDM格式的数字音频信号；音频编解码芯片用以接收麦克风输出的数字音频信号，并将信号编码处理后输出至嵌入式处理器；嵌入式处理器采用的是型号为STM32F746NGH6的嵌入式MCU，通过芯片的SAI 接口与音频解码芯片连接，对输入的音频数据进行处理识别，并将识别结果输出至串口，利用PC实现声学模型的训练。

；

以上所述，实施方式仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明技术的精神的前提下，本领域工程技术人员对本发明的技术方案作出的各种变形和改进，均应落入本发明的权利要求书确定的保护范围内。

Claims

1.一种计算机语音识别系统及其方法，其特征在于：包括麦克风、音频编解码芯片、嵌入式处理器和PC机，麦克风实现语音信号的录入采集，输出PDM格式的数字音频信号；音频编解码芯片用以接收麦克风输出的数字音频信号，并将信号编码处理后输出至嵌入式处理器；嵌入式处理器采用的是型号为STM32F746NGH6的嵌入式MCU，通过芯片的SAI 接口与音频解码芯片连接，对输入的音频数据进行处理识别，并将识别结果输出至串口，利用PC实现声学模型的训练。

2.根据权利要求1所述的一种计算机语音识别系统及其方法，其特征在于：所述的麦克风采用的是型号为MP34DT01TR的MEMS数字麦克风，音频编解码芯片采用的是型号为WM8994ECS 的超低功耗保真编解码芯片。

3.一种计算机语音识别方法，其特征在于：具体步骤如下：（1）DS-CNN 神经网络：第一步用M个维度为DK×DK×1的卷积核去卷积对应输入的M个feature map，然后得到M个结果，而且这M个结果相互之间不累加，因此计算量是DF×DF×DK×DK×M，生成的结果是DF×DF×M；然后用N个维度为1×1×M的卷积核卷积第一步的结果，即输入是DF×DF×M，最终得到DF×DF×N的feature map，计算量是DF×DF×1×1×M×N，即DS-CNN计算量为DF×DF×DK×DK×M+DF×DF×M×N，计算量与标准卷积计算量之比为：

；

4.一种计算机语音识别方法，其特征在于：还包括离线语音识别，离线语音识别包括（1）开发环境配置及工程建立，在Linux系统下利用ARM开发的Mbed平台开发本系统的嵌入式程序，首先安装Mbed，然后在Mbed平台下编译代码，在Keil 中新建工程μVisionProject，在“Options forTarget→Device”中选择芯片型号STM32F746NGHx；