CN110047475A - 一种计算机语音识别系统及其方法 - Google Patents

一种计算机语音识别系统及其方法 Download PDF

Info

Publication number
CN110047475A
CN110047475A CN201910439727.2A CN201910439727A CN110047475A CN 110047475 A CN110047475 A CN 110047475A CN 201910439727 A CN201910439727 A CN 201910439727A CN 110047475 A CN110047475 A CN 110047475A
Authority
CN
China
Prior art keywords
model
audio
arm
library
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910439727.2A
Other languages
English (en)
Inventor
赵慧
郭琼琼
付宗见
郭丽娜
李海胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Railway Vocational and Technical College
Original Assignee
Zhengzhou Railway Vocational and Technical College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Railway Vocational and Technical College filed Critical Zhengzhou Railway Vocational and Technical College
Priority to CN201910439727.2A priority Critical patent/CN110047475A/zh
Publication of CN110047475A publication Critical patent/CN110047475A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种计算机语音识别系统及其方法,包括麦克风、音频编解码芯片、嵌入式处理器和PC机,麦克风实现语音信号的录入采集,输出PDM格式的数字音频信号;音频编解码芯片用以接收麦克风输出的数字音频信号,并将信号编码处理后输出至嵌入式处理器;一种计算机语音识别方法,包括DS‑CNN神经网络、声学模型训练和声学模型移植,还包括离线语音识别,离线语音识别包括开发环境配置及工程建立、音频预处理、MFCC特征提取和分类识别,本发明设计合理,使用方便,在节省语音识别芯片带来的硬件成本和离线库带来的软件成本的同时,解决了传统算法存在的只能适用于特定人、识别延迟高、识别率偏低等不足。

Description

一种计算机语音识别系统及其方法
技术领域
本发明具体涉及一种计算机语音识别系统及其方法。
背景技术
语音识别技术在过去的数十年中得到了长足的发展。现今大多数语音识别都是基于在线云平台和计算机,而应用在嵌入式终端上的离线语音识别技术尚不完善,无法满足移动机器人、声控机械等各类嵌入式终端在离线情况下对语音识别功能的需求。
目前在嵌入式移动平台上实现离线语音识别的方法大致分为三大类:一是利用专用语音识别芯片,一是使用传统的语音识别算法,一是移植讯飞、百度等大公司的语音库。采用语音识别芯片内集成语音识别算法,虽然使用时方便快捷,但是具有硬件成本高、识别词简单固定等不足。传统的语音识别算法包括采用的基于动态时间规整( DynamicTimeWarping,DTW) 的算法和采用的基于隐马尔科夫模型( Hidden Markov Model,HMM) 的算法等。DTW 算法虽然在特定人、少量孤立词识别方面具有较好的效果,但是无法适用非特定人、大量词的识别;基于HMM 的算法,则存在识别时间长、识别率偏低的不足。若要移植大公司的离线语音库,则需要大量的存储空间,不适用于存储量有限的嵌入式平台,同时,还需要支付不菲的库使用费,大大增加了软件成本。
发明内容
本发明的目的是为解决上述不足,提供一种计算机语音识别系统及其方法。
本发明的目的是通过以下技术方案实现的:
一种计算机语音识别系统及其方法,包括麦克风、音频编解码芯片、嵌入式处理器和PC机,麦克风实现语音信号的录入采集,输出PDM格式的数字音频信号;音频编解码芯片用以接收麦克风输出的数字音频信号,并将信号编码处理后输出至嵌入式处理器;嵌入式处理器采用的是型号为STM32F746NGH6的嵌入式MCU,通过芯片的SAI 接口与音频解码芯片连接,对输入的音频数据进行处理识别,并将识别结果输出至串口,利用PC实现声学模型的训练。
麦克风采用的是型号为MP34DT01TR的MEMS数字麦克风,音频编解码芯片采用的是型号为WM8994ECS 的超低功耗保真编解码芯片。
一种计算机语音识别方法,具体步骤如下:(1)DS-CNN 神经网络:第一步用M个维度为DK×DK×1的卷积核去卷积对应输入的M个feature map,然后得到M个结果,而且这M个结果相互之间不累加,因此计算量是DF×DF×DK×DK×M,生成的结果是DF×DF×M;然后用N个维度为1×1×M的卷积核卷积第一步的结果,即输入是DF×DF×M,最终得到DF×DF×N的feature map,计算量是DF×DF×1×1×M×N,即DS-CNN计算量为DF×DF×DK×DK×M+DF×DF×M×N,计算量与标准卷积计算量之比为:
(2)声学模型训练:声学模型训练采用Google speech commands dataset作为训练集,在Tensorflow框架中使用标准的交叉熵损失和adam优化器进行训练,批量大小为100,模型以20000次迭代,初始学习率为5×10-4,并在第一个10000次迭代后减少到10-4,训练数据增加了背景噪音和高达100ms的随机时移,以模拟复杂的背景环境,提高系统的鲁棒性;
(3)声学模型移植:利用ARM开发的深度学习库arm_nn建立DS-CNN神经网络框架,将声学模型训练得到的各项模型参数输入至该框架中相应的位置,在后续新建嵌入式工程时移植已输入声学模型参数的DS-CNN神经网络,即可完成声学模型的移植。
还包括离线语音识别,离线语音识别包括(1)开发环境配置及工程建立,在Linux系统下利用ARM开发的Mbed平台开发本系统的嵌入式程序,首先安装Mbed,然后在Mbed平台下编译代码,在Keil 中新建工程μVision Project,在“Options forTarget→Device”中选择芯片型号STM32F746NGHx;
“Options for Target→C /C ++”中的“Define”选项卡添加“STM32F7xx,USE_HAL_DRIVER,ARM_MATH_CM7,_CC_ARM,__FPU_PRESENT,_FPU_USED = 1”,以使之支持stm327xx_hal 库和浮点运算;然后再移植工程组件stm32fxx_hal 库和cmsis 库,Arm开发的适用于深度学习的arm_nn库,以及用于硬件浮点运算的DSP库,经测试,该方法可以顺利新建工程,并实现程序的正常编译和在线调试;(2)音频预处理,对输入的音频信号进行分帧、加窗等预处理操作,采样点数设置为16000,分帧时设置帧长为40ms,帧移为20ms,为了消除分帧造成的每帧音频数据首尾的重叠现象,选用Hamming窗来对每帧音频数据进行加窗操作;(3)MFCC特征提取,对每帧音频数据,通过快速傅里叶变换( FastFourierTransform,FFT) 得到对应的频谱;创建Mel三角滤波器组,对每帧音频数据进行Mel 频率转换;在Mel频谱上进行倒谱分析;(4)将提取的MFCC特征输入到声学模型中,利用arm_nn库中的run_nn函数和arm_softmax_q7函数完成音频特征的分类过程,利用滑动窗口对分类结果进行平均运算,以得到平滑的分类结果,根据分类结果即可得到最终的识别结果。
本发明具有如下有益的效果:
本发明设计合理,使用方便,在节省语音识别芯片带来的硬件成本和离线库带来的软件成本的同时,解决了传统算法存在的只能适用于特定人、识别延迟高、识别率偏低等不足。
附图说明
图1为本发明的整体结构示意图。
具体实施方式
下面结合附图对本发明作进一步的说明:
如图1所示,一种计算机语音识别系统及其方法,包括麦克风、音频编解码芯片、嵌入式处理器和PC机,麦克风实现语音信号的录入采集,输出PDM格式的数字音频信号;音频编解码芯片用以接收麦克风输出的数字音频信号,并将信号编码处理后输出至嵌入式处理器;嵌入式处理器采用的是型号为STM32F746NGH6的嵌入式MCU,通过芯片的SAI 接口与音频解码芯片连接,对输入的音频数据进行处理识别,并将识别结果输出至串口,利用PC实现声学模型的训练。
麦克风采用的是型号为MP34DT01TR的MEMS数字麦克风,音频编解码芯片采用的是型号为WM8994ECS 的超低功耗保真编解码芯片。
一种计算机语音识别方法,具体步骤如下:(1)DS-CNN 神经网络:第一步用M个维度为DK×DK×1的卷积核去卷积对应输入的M个feature map,然后得到M个结果,而且这M个结果相互之间不累加,因此计算量是DF×DF×DK×DK×M,生成的结果是DF×DF×M;然后用N个维度为1×1×M的卷积核卷积第一步的结果,即输入是DF×DF×M,最终得到DF×DF×N的feature map,计算量是DF×DF×1×1×M×N,即DS-CNN计算量为DF×DF×DK×DK×M+DF×DF×M×N,计算量与标准卷积计算量之比为:
(2)声学模型训练:声学模型训练采用Google speech commands dataset作为训练集,在Tensorflow框架中使用标准的交叉熵损失和adam优化器进行训练,批量大小为100,模型以20000次迭代,初始学习率为5×10-4,并在第一个10000次迭代后减少到10-4,训练数据增加了背景噪音和高达100ms的随机时移,以模拟复杂的背景环境,提高系统的鲁棒性;
(3)声学模型移植:利用ARM开发的深度学习库arm_nn建立DS-CNN神经网络框架,将声学模型训练得到的各项模型参数输入至该框架中相应的位置,在后续新建嵌入式工程时移植已输入声学模型参数的DS-CNN神经网络,即可完成声学模型的移植。
还包括离线语音识别,离线语音识别包括(1)开发环境配置及工程建立,在Linux系统下利用ARM开发的Mbed平台开发本系统的嵌入式程序,首先安装Mbed,然后在Mbed平台下编译代码,在Keil 中新建工程μVision Project,在“Options forTarget→Device”中选择芯片型号STM32F746NGHx;
“Options for Target→C /C ++”中的“Define”选项卡添加“STM32F7xx,USE_HAL_DRIVER,ARM_MATH_CM7,_CC_ARM,__FPU_PRESENT,_FPU_USED = 1”,以使之支持stm327xx_hal 库和浮点运算;然后再移植工程组件stm32fxx_hal 库和cmsis 库,Arm开发的适用于深度学习的arm_nn库,以及用于硬件浮点运算的DSP库,经测试,该方法可以顺利新建工程,并实现程序的正常编译和在线调试;(2)音频预处理,对输入的音频信号进行分帧、加窗等预处理操作,采样点数设置为16000,分帧时设置帧长为40ms,帧移为20ms,为了消除分帧造成的每帧音频数据首尾的重叠现象,选用Hamming窗来对每帧音频数据进行加窗操作;(3)MFCC特征提取,对每帧音频数据,通过快速傅里叶变换( FastFourierTransform,FFT) 得到对应的频谱;创建Mel三角滤波器组,对每帧音频数据进行Mel 频率转换;在Mel频谱上进行倒谱分析;(4)将提取的MFCC特征输入到声学模型中,利用arm_nn库中的run_nn函数和arm_softmax_q7函数完成音频特征的分类过程,利用滑动窗口对分类结果进行平均运算,以得到平滑的分类结果,根据分类结果即可得到最终的识别结果。
以上所述,实施方式仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明技术的精神的前提下,本领域工程技术人员对本发明的技术方案作出的各种变形和改进,均应落入本发明的权利要求书确定的保护范围内。

Claims (4)

1.一种计算机语音识别系统及其方法,其特征在于:包括麦克风、音频编解码芯片、嵌入式处理器和PC机,麦克风实现语音信号的录入采集,输出PDM格式的数字音频信号;音频编解码芯片用以接收麦克风输出的数字音频信号,并将信号编码处理后输出至嵌入式处理器;嵌入式处理器采用的是型号为STM32F746NGH6的嵌入式MCU,通过芯片的SAI 接口与音频解码芯片连接,对输入的音频数据进行处理识别,并将识别结果输出至串口,利用PC实现声学模型的训练。
2.根据权利要求1所述的一种计算机语音识别系统及其方法,其特征在于:所述的麦克风采用的是型号为MP34DT01TR的MEMS数字麦克风,音频编解码芯片采用的是型号为WM8994ECS 的超低功耗保真编解码芯片。
3.一种计算机语音识别方法,其特征在于:具体步骤如下:(1)DS-CNN 神经网络:第一步用M个维度为DK×DK×1的卷积核去卷积对应输入的M个feature map,然后得到M个结果,而且这M个结果相互之间不累加,因此计算量是DF×DF×DK×DK×M,生成的结果是DF×DF×M;然后用N个维度为1×1×M的卷积核卷积第一步的结果,即输入是DF×DF×M,最终得到DF×DF×N的feature map,计算量是DF×DF×1×1×M×N,即DS-CNN计算量为DF×DF×DK×DK×M+DF×DF×M×N,计算量与标准卷积计算量之比为:
(2)声学模型训练:声学模型训练采用Google speech commands dataset作为训练集,在Tensorflow框架中使用标准的交叉熵损失和adam优化器进行训练,批量大小为100,模型以20000次迭代,初始学习率为5×10-4,并在第一个10000次迭代后减少到10-4,训练数据增加了背景噪音和高达100ms的随机时移,以模拟复杂的背景环境,提高系统的鲁棒性;
(3)声学模型移植:利用ARM开发的深度学习库arm_nn建立DS-CNN神经网络框架,将声学模型训练得到的各项模型参数输入至该框架中相应的位置,在后续新建嵌入式工程时移植已输入声学模型参数的DS-CNN神经网络,即可完成声学模型的移植。
4.一种计算机语音识别方法,其特征在于:还包括离线语音识别,离线语音识别包括(1)开发环境配置及工程建立,在Linux系统下利用ARM开发的Mbed平台开发本系统的嵌入式程序,首先安装Mbed,然后在Mbed平台下编译代码,在Keil 中新建工程μVisionProject,在“Options forTarget→Device”中选择芯片型号STM32F746NGHx;
“Options for Target→C /C ++”中的“Define”选项卡添加“STM32F7xx,USE_HAL_DRIVER,ARM_MATH_CM7,_CC_ARM,__FPU_PRESENT,_FPU_USED = 1”,以使之支持stm327xx_hal 库和浮点运算;然后再移植工程组件stm32fxx_hal 库和cmsis 库,Arm开发的适用于深度学习的arm_nn库,以及用于硬件浮点运算的DSP库,经测试,该方法可以顺利新建工程,并实现程序的正常编译和在线调试;(2)音频预处理,对输入的音频信号进行分帧、加窗等预处理操作,采样点数设置为16000,分帧时设置帧长为40ms,帧移为20ms,为了消除分帧造成的每帧音频数据首尾的重叠现象,选用Hamming窗来对每帧音频数据进行加窗操作;(3)MFCC特征提取,对每帧音频数据,通过快速傅里叶变换( FastFourierTransform,FFT) 得到对应的频谱;创建Mel三角滤波器组,对每帧音频数据进行Mel 频率转换;在Mel频谱上进行倒谱分析;(4)将提取的MFCC特征输入到声学模型中,利用arm_nn库中的run_nn函数和arm_softmax_q7函数完成音频特征的分类过程,利用滑动窗口对分类结果进行平均运算,以得到平滑的分类结果,根据分类结果即可得到最终的识别结果。
CN201910439727.2A 2019-05-24 2019-05-24 一种计算机语音识别系统及其方法 Pending CN110047475A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910439727.2A CN110047475A (zh) 2019-05-24 2019-05-24 一种计算机语音识别系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910439727.2A CN110047475A (zh) 2019-05-24 2019-05-24 一种计算机语音识别系统及其方法

Publications (1)

Publication Number Publication Date
CN110047475A true CN110047475A (zh) 2019-07-23

Family

ID=67283649

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910439727.2A Pending CN110047475A (zh) 2019-05-24 2019-05-24 一种计算机语音识别系统及其方法

Country Status (1)

Country Link
CN (1) CN110047475A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111415682A (zh) * 2020-04-03 2020-07-14 北京乐界乐科技有限公司 一种用于乐器的智能评测方法
CN111477249A (zh) * 2020-04-03 2020-07-31 北京乐界乐科技有限公司 一种用于乐器的智能评分方法
CN113921015A (zh) * 2021-09-29 2022-01-11 江苏省农业科学院 一种水禽声音识别监测系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593520A (zh) * 2008-05-27 2009-12-02 北京凌声芯语音科技有限公司 高性能语音识别协处理器及其协处理的实现方法
CN106067924A (zh) * 2016-08-05 2016-11-02 泉州市壹灯照明科技有限公司 一种固话语音ip封装传输设备
CN109448719A (zh) * 2018-12-11 2019-03-08 网易(杭州)网络有限公司 神经网络模型建立方法及语音唤醒方法、装置、介质和设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593520A (zh) * 2008-05-27 2009-12-02 北京凌声芯语音科技有限公司 高性能语音识别协处理器及其协处理的实现方法
CN106067924A (zh) * 2016-08-05 2016-11-02 泉州市壹灯照明科技有限公司 一种固话语音ip封装传输设备
CN109448719A (zh) * 2018-12-11 2019-03-08 网易(杭州)网络有限公司 神经网络模型建立方法及语音唤醒方法、装置、介质和设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
许业宽等: "基于深度学习的嵌入式离线语音识别系统设计", 《信息技术与网络安全》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111415682A (zh) * 2020-04-03 2020-07-14 北京乐界乐科技有限公司 一种用于乐器的智能评测方法
CN111477249A (zh) * 2020-04-03 2020-07-31 北京乐界乐科技有限公司 一种用于乐器的智能评分方法
CN113921015A (zh) * 2021-09-29 2022-01-11 江苏省农业科学院 一种水禽声音识别监测系统

Similar Documents

Publication Publication Date Title
CN110706690B (zh) 语音识别方法及其装置
CN111933129B (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
WO2017076222A1 (zh) 语音识别方法及装置
CN109741732B (zh) 命名实体识别方法、命名实体识别装置、设备及介质
CN110992974A (zh) 语音识别方法、装置、设备以及计算机可读存储介质
US20160171984A1 (en) System and method for adapting automatic speech recognition pronunciation by acoustic model restructuring
CN110047475A (zh) 一种计算机语音识别系统及其方法
CN101923857A (zh) 一种人机交互的可扩展语音识别方法
CN103377651B (zh) 语音自动合成装置及方法
CN111429912B (zh) 关键词检测方法、系统、移动终端及存储介质
CN102945673A (zh) 一种语音指令范围动态变化的连续语音识别方法
TWI420510B (zh) 可調整記憶體使用空間之語音辨識系統與方法
CN113393828A (zh) 一种语音合成模型的训练方法、语音合成的方法及装置
WO2023029615A1 (zh) 语音唤醒的方法、装置、设备、存储介质及程序产品
CN110268471A (zh) 具有嵌入式降噪的asr的方法和设备
CN111833878A (zh) 基于树莓派边缘计算的中文语音交互无感控制系统和方法
CN115249479A (zh) 基于brnn的电网调度复杂语音识别方法、系统及终端
KR102409873B1 (ko) 증강된 일관성 정규화를 이용한 음성 인식 모델 학습 방법 및 시스템
CN103474062A (zh) 一种语音识别方法
CN115331658B (zh) 一种语音识别方法
Bertoldi et al. From broadcast news to spontaneous dialogue transcription: Portability issues
TWI731921B (zh) 語音識別方法及裝置
Herbig et al. Fast adaptation of speech and speaker characteristics for enhanced speech recognition in adverse intelligent environments
CN112259077B (zh) 语音识别方法、装置、终端和存储介质
Wang et al. Embedded speech recognition system on 8-bit MCU core

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190723