CN108597505B - 语音识别方法、装置及终端设备 - Google Patents

语音识别方法、装置及终端设备 Download PDF

Info

Publication number
CN108597505B
CN108597505B CN201810359956.9A CN201810359956A CN108597505B CN 108597505 B CN108597505 B CN 108597505B CN 201810359956 A CN201810359956 A CN 201810359956A CN 108597505 B CN108597505 B CN 108597505B
Authority
CN
China
Prior art keywords
dimensional
mfcc
voice
signal
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810359956.9A
Other languages
English (en)
Other versions
CN108597505A (zh
Inventor
沙斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yuanxin Junsheng Technology Co.,Ltd.
Original Assignee
Beijing Yuanxin Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yuanxin Science and Technology Co Ltd filed Critical Beijing Yuanxin Science and Technology Co Ltd
Priority to CN201810359956.9A priority Critical patent/CN108597505B/zh
Publication of CN108597505A publication Critical patent/CN108597505A/zh
Application granted granted Critical
Publication of CN108597505B publication Critical patent/CN108597505B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明实施例提供了一种语音识别方法、装置及终端设备,其中,语音识别方法包括:对待识别的语音信号进行第一预处理,得到M维梅尔频率倒谱系数MFCC;对待识别的语音信号进行第二预处理,得到N维梅尔频率谱系数MFSC;基于M维MFCC与N维MFSC识别待识别的语音信号;M、N为正整数。本发明实施例提供的方法,不仅依据提取的M维特征参数MFCC来进行语音识别,而且还依据提取的N维特征参数MFSC,从而扩展了用于语音识别的特征参数的维度,增加语音识别的鲁棒性,进而有效提高嘈杂环境下的语音信号的识别率。

Description

语音识别方法、装置及终端设备
技术领域
本发明涉及语音识别技术领域,具体而言,本发明涉及一种语音识别方法、装置及终端设备。
背景技术
在语音识别的处理过程中,语音特征提取是非常关键的步骤,目前广泛采用的语音特征提取方法是MFCC(Mel-Frequency CepstralCoefficients,梅尔倒谱系数),由于MFCC模拟了人耳的口吐听觉特性,能够反映人对语音的感知特性,从说话人的语音信号中提取出说话人的个性特征,即MFCC特征参数是语音信号中最具有辨识度的特征,换言之,在语音识别时,只要提取到语音信号中的MFCC特征参数,就基本完成了语音识别功能,因此,MFCC特征参数被广泛应用于自动语音和说话人识别等的语音设别领域。
然而,基于MFCC的语音识别在嘈杂环境下的识别率仍然较低,不能满足某些应用场景下(例如警务电话监听系统)语音识别的需求,于是如何能准确有效地提取出反映语音特征的特征参数是本领域技术人员亟待解决的技术问题。
发明内容
本发明的目的旨在至少能解决上述的技术缺陷之一,特别是无法在嘈杂环境下准确进行语音识别的技术缺陷。
本发明的实施例根据一个方面,提供了一种语音识别方法,包括:
对待识别的语音信号进行第一预处理,得到M维梅尔频率倒谱系数MFCC;
对待识别的语音信号进行第二预处理,得到N维梅尔频率谱系数MFSC;
基于所述M维MFCC与所述N维MFSC识别所述待识别的语音信号;
所述M、N为正整数。
优选地,所述对待识别的语音信号进行第一预处理,得到M维MFCC,包括:
对所述待识别的语音信号进行抖动处理、能量均值化、预加重、分帧及加窗处理中的至少一种,得到第一语音信号;
将所述第一语音信号进行快速傅里叶FFT变换,得到相应的频域信号;
对所述频域信号进行第一变换处理及第二变换处理,得到所述M维MFCC。
优选地,所述第一变换处理包括梅尔频率转化、能量值取log、离散余弦变换及差分;
所述第二变换处理包括语音活动检测VAD与噪声动态聚类处理。
优选地,所述VAD根据所述频域信号确定相匹配的噪声阈值,依据确定的噪声阈值滤除所述频域信号中的噪声;
其中,所述VAD预存储有预设个数的噪声阈值,该预设个数的噪声阈值根据噪声语音训练数据通过噪声动态聚类处理得到。
优选地,所述基于所述M维MFCC与所述N维MFSC识别所述待识别的语音信号,包括:
通过预训练的深度神经网络DNN融合所述M维MFCC与所述N维MFSC,得到M+N维语音特征;
基于所述M+N维语音特征,识别所述待识别的语音信号。
优选地,所述通过预训练的DNN融合所述M维MFCC与所述N维MFSC,得到M+N维语音特征,包括:
通过所述DNN分别确定M维MFCC与N维MFSC的语音特征强度;
根据所述语音特征强度,配置M维MFCC的加权系数θ1及N维MFSC的加权系数θ2
基于θ1倍的M维MFCC与θ2倍的N维MFSC,得到M+N维语音特征。
本发明的实施例根据另一个方面,还提供了一种语音识别装置,包括:
第一预处理模块,用于对待识别的语音信号进行第一预处理,得到M维梅尔频率倒谱系数MFCC;
第二预处理模块,用于对待识别的语音信号进行第二预处理,得到N维梅尔频率谱系数MFSC;
识别模块,用于基于所述M维MFCC与所述N维MFSC识别所述待识别的语音信号;
所述M、N为正整数。
优选地,所述第一预处理模块包括时域处理子模块、傅里叶变换子模块与变换处理子模块;
所述时域处理子模块,用于对所述待识别的语音信号进行抖动处理、能量均值化、预加重、分帧及加窗处理中的至少一种,得到第一语音信号;
所述傅里叶变换子模块,用于将所述第一语音信号进行快速傅里叶FFT变换,得到相应的频域信号;
所述变换处理子模块,用于对所述频域信号进行第一变换处理及第二变换处理,得到所述M维MFCC。
优选地,所述第一变换处理包括梅尔频率转化、能量值取log、离散余弦变换及差分;
所述第二变换处理包括语音活动检测VAD与噪声动态聚类处理。
优选地,所述VAD根据所述频域信号确定相匹配的噪声阈值,依据确定的噪声阈值滤除所述频域信号中的噪声;
其中,所述VAD预存储有预设个数的噪声阈值,该预设个数的噪声阈值根据噪声语音训练数据通过噪声动态聚类处理得到。
优选地,所述识别模块包括:融合子模块与语音识别子模块;
所述融合子模块,用于通过预训练的深度神经网络DNN融合所述M维MFCC与所述N维MFSC,得到M+N维语音特征;
所述语音识别子模块,用于基于所述M+N维语音特征,识别所述待识别的语音信号。
优选地,所述融合子模块包括确定子单元、配置子单元与获取子单元;
所述确定子单元,用于通过所述DNN分别确定M维MFCC与N维MFSC的语音特征强度;
所述配置子单元,用于根据所述语音特征强度,配置M维MFCC的加权系数θ1及N维MFSC的加权系数θ2
所述获取子单元,用于基于θ1倍的M维MFCC与θ2倍的N维MFSC,得到M+N维语音特征。
本发明的实施例根据另一个方面,还提供了一种终端设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行所述程序时实现上述的语音识别方法。
本发明的实施例根据另一个方面,还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述的语音识别方法。
本发明实施提供的语音识别方法,通过对待识别的语音信号进行第一预处理,得到M维梅尔频率倒谱系数MFCC,以及对待识别的语音信号进行第二预处理,得到N维梅尔频率谱系数MFSC,为后续准确识别语音信号,尤其是识别嘈杂环境下的语音信号,提供了前提保障;基于M维MFCC与N维MFSC识别待识别的语音信号,使得在识别语音信号的过程中,不仅依据提取的M维特征参数MFCC来进行语音识别,而且还依据提取的N维特征参数MFSC,从而扩展了用于语音识别的特征参数的维度,增加语音识别的鲁棒性,进而有效提高嘈杂环境下的语音信号的识别率。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明第一实施例的语音识别方法的流程示意图;
图2为本发明第一实施例的M维MFCC与N维MFSC的融合过程示意图;
图3为本发明第一实施例的噪声动态聚类处理的基本过程示意图;
图4为本发明第二实施例的语音识别装置的基本结构示意图;
图5为本发明第二实施例的语音识别装置的详细结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal Communications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
当前的电话监听系统,例如警务电话监听系统,一般通过声纹特征识别技术区分通话过程中说话人的身份。声纹特征识别技术一般包括声纹特征提取、大量语音数据构建的高斯混合模型、少量注册人的语音自适应高斯分布、以及通过最大似然比判别电话模块采集到的说话人身份,4部分组成。其中,在声纹特征提取阶段,广泛采用的是基于梅尔频率倒谱系数MFCC以及MFSC(mel-frequency spectral Coefficients,梅尔频率谱系数)的特征参数。其中,基于MFCC的特征参数提取过程大体为:1)对输入的语音信号进行时域预加重、分帧、加窗的方式加强语音信号,提升信噪比;2)通过快速傅立叶变换将时域信号转换为频域信号;3)在频域计算绝对值原始能量或者平方能量;4)构建mel滤波器模拟人耳提取有效频域范围能量特征;5)通过离散余弦变换提取语音特征参数。
然而,本申请的发明人发现,在通过上述过程进行语音特征参数提取时,由于说话人语音中会含有较多的背景噪声,仅通过时域的预加重、分帧、加窗处理并不能达到去噪、提升信噪比的目的,且语音特征参数很难确定。特别是在警务电话监听系统中,从电话模块中采集到的语音信号的背景噪声受环境因素影响,不仅种类繁多,而且噪声波动性很强,导致采用MFCC进行语音识别的过程,语音识别率较低,或者需要较长时间的语音数据才能进行语音识别等问题。
本发明的第一实施例提供了一种语音识别方法,如图1所示,包括:步骤110、对待识别的语音信号进行第一预处理,得到M维梅尔频率倒谱系数MFCC;步骤120、对待识别的语音信号进行第二预处理,得到N维梅尔频率谱系数MFSC;步骤130、基于M维MFCC与N维MFSC识别待识别的语音信号;M、N为正整数。
本发明实施例提供的语音识别方法,通过对待识别的语音信号进行第一预处理,得到M维梅尔频率倒谱系数MFCC,以及对待识别的语音信号进行第二预处理,得到N维梅尔频率谱系数MFSC,为后续准确识别语音信号,尤其是识别嘈杂环境下的语音信号,提供了前提保障;基于M维MFCC与N维MFSC识别待识别的语音信号,使得在识别语音信号的过程中,不仅依据提取的M维特征参数MFCC来进行语音识别,而且还依据提取的N维特征参数MFSC,从而扩展了用于语音识别的特征参数的维度,增加语音识别的鲁棒性,进而有效提高嘈杂环境下的语音信号的识别率。
下面对本发明上述实施例的语音识别方法进行详细介绍,具体如下:
在步骤110中,对待识别的语音信号进行第一预处理,得到M维梅尔频率倒谱系数MFCC。
优选地,对待识别的语音信号进行第一预处理,得到M维MFCC,包括:对待识别的语音信号进行抖动处理、能量均值化、预加重、分帧及加窗处理中的至少一种,得到第一语音信号;将第一语音信号进行快速傅里叶FFT变换,得到相应的频域信号;对频域信号进行第一变换处理及第二变换处理,得到M维MFCC。
优选地,第一变换处理包括梅尔频率转化、能量值取log、离散余弦变换及差分;第二变换处理包括语音活动检测VAD与噪声动态聚类处理。
优选地,VAD根据频域信号确定相匹配的噪声阈值,依据确定的噪声阈值滤除频域信号中的噪声;其中,VAD预存储有预设个数的噪声阈值,该预设个数的噪声阈值根据噪声语音训练数据通过噪声动态聚类处理得到。
具体地,从待识别的语音信号中提取M维梅尔频率倒谱系数MFCC的过程中,首先对待识别的语音信号在时域上进行有效变换处理,得到第一语音信号,以提升语音数据特征,在时域上进行的有效变换处理包括抖动处理、能量均值化、预加重、分帧及加窗处理中的至少一种,其中,包括的处理操作可以依据待识别的语音信号中的背景噪声而定,例如,当待识别的语音信号为一帧且包括较少的背景噪声时,可以只包括预加重或加窗处理,当待识别的语音信号为多帧且包括较少的背景噪声时,可以只包括预加重、分帧及加窗处理,当待识别的语音信号为多帧且包括较多的背景噪声时(如嘈杂环境下的语音信号),则需要包括抖动处理、能量均值化、预加重、分帧及加窗处理。需要说明的是,在加窗处理过程中,由于汉明窗相较于矩形窗具有更好的平滑效果,因此,建议使用汉明窗进行加窗处理。
进一步地,由于基于MFCC的声纹特征提取包括梅尔频率转换和倒谱分析两个关键步骤,且梅尔频率与频率(单位为赫兹)之间满足预定关系,所以,在完成时域的有效变换处理,得到第一语音信号后,需要先将第一语音信号转换到频域,再进行后续的频率(单位为赫兹)与梅尔频率之间的转换,也即将第一语音信号进行快速傅里叶FFT变换,得到相应的频域信号后,进行后续的梅尔频率转化和倒谱分析,其中,倒谱分析包括能量值取log、离散余弦变换及差分等处理操作,换言之,将第一语音信号进行快速傅里叶FFT变换,得到相应的频域信号后,进行梅尔频率转化、能量值取log、离散余弦变换及差分特征提取等的第一变换处理。
进一步地,梅尔频率是一种基于人耳对等距音高变化的感官判断而定的非线性频率刻度,与频率赫兹的关系为:
Figure BDA0001635707590000091
该式中f表示频率赫兹,m表示梅尔频率。倒谱的含义是对频域信号的能量值取log,然后再进行反傅里叶变换,由于人耳对声音的感知并不是线性的,而用log这种非线性关系更利于描述,故在进行能量值取log后才可进行倒谱分析,另外,虽然根据倒谱的含义,该步需要进行反傅里叶变换,但是由于离散余弦变换和傅里叶变换类似,且使用离散余弦变换能够直接获取频率谱的低频信号,故采用离散余弦变换。同时,由于语音信号是时域连续的,分帧提取的语音特征信息只反应了本帧语音的特性,为使语音特征更能体现时域连续性,可以通过差分的方式在语音特征维度上增加前后帧信息的维度,其中,常用的是一阶差分和二阶差分。
更进一步地,完成上述的梅尔频率转换和倒谱分析后,进行包括语音活动检测VAD与噪声动态聚类处理的第二变换处理,其中,VAD根据频域信号确定相匹配的噪声阈值,依据该确定的噪声阈值滤除频域信号中的噪声,VAD预存储有预设个数的噪声阈值,该预设个数的噪声阈值根据噪声语音训练数据通过噪声动态聚类处理得到,具体的说,噪声动态聚类处理通过对不同应用场景下的不同噪声分贝的背景语音数据中提取出能量特征,并按照矢量距离计算的方式对其中包括的噪声能量特征进行动态聚类,确立若干组不同的噪声阈值及其对应的噪声等级,其中,图3给出了噪声动态聚类处理的基本过程。VAD根据实时获得的语音数据确定其中包括的噪声数据的噪声等级,从而得到VAD所需的与该噪声等级对应的噪声阈值,通过动态确定相匹配的噪声阈值,滤除该频域信号中的噪声,解决不同背景噪声下的噪声阈值的设立问题。另外,通过构建噪声语音动态聚类的方式,可以进一步滤除噪声,有效提升语音特征的信噪比,降低噪声波动性。
在步骤120中,对待识别的语音信号进行第二预处理,得到N维梅尔频率谱系数MFSC。
具体的说,MFSC的处理过程与MFCC类似,包括:加窗、分帧、时频变换、梅尔频率转换、幅度非线性变换、离散余弦变换等,与MFCC略有不同的是,在MFCC中进行的是能量值取log,在MFSC中进行的是幅度非线性变换。需要说明的是,MFSC的具体处理过程与现有技术中的MFSC处理过程相同,在此不再赘述。
在步骤130中,基于M维MFCC与N维MFSC识别待识别的语音信号。
优选地,基于M维MFCC与N维MFSC识别待识别的语音信号,包括:通过预训练的深度神经网络DNN融合M维MFCC与N维MFSC,得到M+N维语音特征;基于M+N维语音特征,识别待识别的语音信号。
优选地,通过预训练的DNN融合M维MFCC与N维MFSC,得到M+N维语音特征,包括:通过DNN分别确定M维MFCC与N维MFSC的语音特征强度;根据语音特征强度,配置M维MFCC的加权系数θ1及N维MFSC的加权系数θ2;基于θ1倍的M维MFCC与θ2倍的N维MFSC,得到M+N维语音特征。
具体地,通过根据语音训练数据预训练的DNN融合M维MFCC与N维MFSC,得到M+N维语音特征,也即M维MFCC与N维MFSC均作为上述预训练的DNN的输入,M+N维语音特征作为上述预训练的DNN的输出。该预训练的DNN先分别确定M维MFCC的语音特征强度a及N维MFSC的语音特征强度b,再根据语音特征强度a与语音特征强度b,确定M维MFCC的加权系数θ1与N维MFSC的加权系数θ2,其中,语音特征强度越大加权系数越大,即加权系数θ1与θ2是根据其对应的语音特征强度来动态确定的。在具体的应用中,可以将θ1与θ2的和设定为1,此时,θ1的取值范围为0~1,θ2的取值也为0~1,且θ12=1;例如,当θ1的取值为1时,θ2的取值为0,说明此时只有M维的MFCC,而没有有效的MFSC,DNN的输出为M维语音特征;当θ1的取值为0时,θ2的取值为1,说明此时只有N维的MFSC,而没有有效的MFCC,DNN的输出为N维语音特征;当θ1的取值为0.8时,θ2的取值为0.2,此时DNN的输出为M+N维语音特征,且该M+N维语音特征的强度为θ1倍的MFSC加上θ2倍的MFCC。
进一步地,当通过DNN得到M+N维语音特征后,再将该M+N维语音特征输入至的分类器进行具体的语音识别,具体确定说话人的身份。
进一步地,图2给出了通过预训练的DNN融合M维MFCC与N维MFSC的示例性过程,在图2中语音信号在时域上进行的有效变换处理包括抖动处理、能量均值化、预加重、分帧及加窗处理,第一变换处理包括梅尔频率转化、能量值取log、离散余弦变换及差分,同时简单给出了MFSC的处理过程,包括加窗、分帧、时频变换、梅尔频率转换、幅度非线性变换、离散余弦变换等,在图2中,M维MFCC与N维MFSC为DNN的输入,M+N维语音特征为DNN的输出。
需要说明的是,在实际应用中,上述预训练的DNN可以单独分为池化层、激活层、卷积层与全连接层等。
本发明第二实施例提供了一种语音识别装置,如图4所示,包括:第一预处理模块41、第二预处理模块42与识别模块43。其中,第一预处理模块41用于对待识别的语音信号进行第一预处理,得到M维梅尔频率倒谱系数MFCC;第二预处理模块42用于对待识别的语音信号进行第二预处理,得到N维梅尔频率谱系数MFSC;识别模块43用于基于M维MFCC与N维MFSC识别待识别的语音信号;M、N为正整数。
进一步地,第一预处理模块包括时域处理子模块411、傅里叶变换子模块412与变换处理子模块413,如图5所示。其中,时域处理子模块411用于对待识别的语音信号进行抖动处理、能量均值化、预加重、分帧及加窗处理中的至少一种,得到第一语音信号;傅里叶变换子模块412用于将第一语音信号进行快速傅里叶FFT变换,得到相应的频域信号;变换处理子模块413用于对频域信号进行第一变换处理及第二变换处理,得到M维MFCC。
进一步地,第一变换处理包括梅尔频率转化、能量值取log、离散余弦变换及差分;第二变换处理包括语音活动检测VAD与噪声动态聚类处理。
进一步地,VAD根据频域信号确定相匹配的噪声阈值,依据确定的噪声阈值滤除频域信号中的噪声;其中,VAD预存储有预设个数的噪声阈值,该预设个数的噪声阈值根据噪声语音训练数据通过噪声动态聚类处理得到。
具体地,从待识别的语音信号中提取M维梅尔频率倒谱系数MFCC的过程中,首先对待识别的语音信号在时域上进行有效变换处理,得到第一语音信号,以提升语音数据特征,在时域上进行的有效变换处理包括抖动处理、能量均值化、预加重、分帧及加窗处理中的至少一种,其中,包括的处理操作可以依据待识别的语音信号中的背景噪声而定,例如,当待识别的语音信号为一帧且包括较少的背景噪声时,可以只包括预加重或加窗处理,当待识别的语音信号为多帧且包括较少的背景噪声时,可以只包括预加重、分帧及加窗处理,当待识别的语音信号为多帧且包括较多的背景噪声时(如嘈杂环境下的语音信号),则需要包括抖动处理、能量均值化、预加重、分帧及加窗处理。需要说明的是,在加窗处理过程中,由于汉明窗相较于矩形窗具有更好的平滑效果,因此,建议使用汉明窗进行加窗处理。
进一步地,由于基于MFCC的声纹特征提取包括梅尔频率转换和倒谱分析两个关键步骤,且梅尔频率与频率(单位为赫兹)之间满足预定关系,所以,在完成时域的有效变换处理,得到第一语音信号后,需要先将第一语音信号转换到频域,再进行后续的频率(单位为赫兹)与梅尔频率之间的转换,也即将第一语音信号进行快速傅里叶FFT变换,得到相应的频域信号后,进行后续的梅尔频率转化和倒谱分析,其中,倒谱分析包括能量值取log、离散余弦变换及差分等处理操作,换言之,将第一语音信号进行快速傅里叶FFT变换,得到相应的频域信号后,进行梅尔频率转化、能量值取log、离散余弦变换及差分特征提取等的第一变换处理。
具体的说,梅尔频率是一种基于人耳对等距音高变化的感官判断而定的非线性频率刻度,与频率赫兹的关系为:
Figure BDA0001635707590000121
该式中f表示频率赫兹,m表示梅尔频率。倒谱的含义是对频域信号的能量值取log,然后再进行反傅里叶变换,由于人耳对声音的感知并不是线性的,而用log这种非线性关系更利于描述,故在进行能量值取log后才可进行倒谱分析,另外,虽然根据倒谱的含义,该步需要进行反傅里叶变换,但是由于离散余弦变换和傅里叶变换类似,且使用离散余弦变换能够直接获取频率谱的低频信号,故采用离散余弦变换。同时,由于语音信号是时域连续的,分帧提取的语音特征信息只反应了本帧语音的特性,为使语音特征更能体现时域连续性,可以通过差分的方式在语音特征维度上增加前后帧信息的维度,其中,常用的是一阶差分和二阶差分。
更进一步地,完成上述的梅尔频率转换和倒谱分析后,进行包括语音活动检测VAD与噪声动态聚类处理的第二变换处理,其中,VAD根据频域信号确定相匹配的噪声阈值,依据该确定的噪声阈值滤除频域信号中的噪声,VAD预存储有预设个数的噪声阈值,该预设个数的噪声阈值根据语音训练数据预先训练得到,具体的说,具体的说,噪声动态聚类处理通过对不同应用场景下的不同噪声分贝的背景噪声数据中提取出能量特征,并按照矢量距离计算的方式对其中包括的噪声能量特征进行动态聚类,确立若干组不同的噪声阈值及其对应的噪声等级。VAD根据实时获得的语音数据确定其中包括的噪声的噪声等级,从而得到VAD所需的与该噪声等级对应的噪声阈值,通过动态确定相匹配的噪声阈值,滤除该频域信号中的噪声,解决不同背景噪声下的噪声阈值的设立问题。另外,通过在频域构建噪声动态聚类处理的方式,可以进一步滤除噪声,有效提升语音特征的信噪比,降低噪声波动性。
进一步地,识别模块43包括融合子模块431与语音识别子模块432,如图5所示。其中,融合子模块431用于通过预训练的深度神经网络DNN融合M维MFCC与N维MFSC,得到M+N维语音特征;语音识别子模块432用于基于M+N维语音特征,识别待识别的语音信号。
进一步地,融合子模块431包括确定子单元4311、配置子单元4312与获取子单元4313,如图5所示。其中,确定子单元4311用于通过DNN分别确定M维MFCC与N维MFSC的语音特征强度;配置子单元4312用于根据语音特征强度,配置M维MFCC的加权系数θ1及N维MFSC的加权系数θ2;获取子单元4313用于基于θ1倍的M维MFCC与θ2倍的N维MFSC,得到M+N维语音特征。
具体地,通过根据语音训练数据预训练的DNN融合M维MFCC与N维MFSC,得到M+N维语音特征,也即M维MFCC与N维MFSC均作为上述预训练的DNN的输入,M+N维语音特征作为上述预训练的DNN的输出。该预训练的DNN先分别确定M维MFCC的语音特征强度a及N维MFSC的语音特征强度b,再根据语音特征强度a与语音特征强度b,确定M维MFCC的加权系数θ1与N维MFSC的加权系数θ2,其中,语音特征强度越大加权系数越大,即加权系数θ1与θ2是根据其对应的语音特征强度来动态确定的。在具体的应用中,可以将θ1与θ2的和设定为1,此时,θ1的取值范围为0~1,θ2的取值也为0~1,且θ12=1;例如,当θ1的取值为1时,θ2的取值为0,说明此时只有M维的MFCC,而没有有效的MFSC,DNN的输出为M维语音特征;当θ1的取值为0时,θ2的取值为1,说明此时只有N维的MFSC,而没有有效的MFCC,DNN的输出为N维语音特征;当θ1的取值为0.8时,θ2的取值为0.2,此时DNN的输出为M+N维语音特征,且该M+N维语音特征的强度为θ1倍的MFSC加上θ2倍的MFCC。
本发明实施例提供的语音识别装置,通过对待识别的语音信号进行第一预处理,得到M维梅尔频率倒谱系数MFCC,以及对待识别的语音信号进行第二预处理,得到N维梅尔频率谱系数MFSC,为后续准确识别语音信号,尤其是识别嘈杂环境下的语音信号,提供了前提保障;基于M维MFCC与N维MFSC识别待识别的语音信号,使得在识别语音信号的过程中,不仅依据提取的M维特征参数MFCC来进行语音识别,而且还依据提取的N维特征参数MFSC,从而扩展了用于语音识别的特征参数的维度,增加语音识别的鲁棒性,进而有效提高嘈杂环境下的语音信号的识别率。
本发明的实施例根据另一个方面,还提供了一种终端设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行所述程序时实现上述的语音识别方法。
本发明的实施例根据另一个方面,还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述的语音识别方法。
本技术领域技术人员可以理解,本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随即存储器)、EPROM(Erasable ProgrammableRead-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically ErasableProgrammable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。
本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种语音识别方法,其特征在于,包括:
对待识别的语音信号进行第一预处理,得到M维梅尔频率倒谱系数MFCC;
对待识别的语音信号进行第二预处理,得到N维梅尔频率谱系数MFSC;
基于所述M维MFCC与所述N维MFSC识别所述待识别的语音信号;
所述M、N为正整数;
所述对待识别的语音信号进行第一预处理,得到M维MFCC,包括:
依据所述待识别的语音信号中的背景噪声,对所述待识别的语音信号进行抖动处理、能量均值化、预加重、分帧及加窗处理中的至少一种,得到第一语音信号;
将所述第一语音信号进行快速傅里叶FFT变换,得到相应的频域信号;
对所述频域信号进行第一变换处理及第二变换处理,得到所述M维MFCC;其中,所述第一变换处理包括梅尔频率转化、能量值取log、离散余弦变换及差分;所述第二变换处理包括语音活动检测VAD与噪声动态聚类处理。
2.根据权利要求1所述的方法,其特征在于,所述VAD根据所述频域信号确定相匹配的噪声阈值,依据确定的噪声阈值滤除所述频域信号中的噪声;
其中,所述VAD预存储有预设个数的噪声阈值,该预设个数的噪声阈值根据噪声语音训练数据通过噪声动态聚类处理得到。
3.根据权利要求1所述的方法,其特征在于,所述基于所述M维MFCC与所述N维MFSC识别所述待识别的语音信号,包括:
通过预训练的深度神经网络DNN融合所述M维MFCC与所述N维MFSC,得到M+N维语音特征;
基于所述M+N维语音特征,识别所述待识别的语音信号。
4.根据权利要求3所述的方法,其特征在于,所述通过预训练的DNN融合所述M维MFCC与所述N维MFSC,得到M+N维语音特征,包括:
通过所述DNN分别确定M维MFCC与N维MFSC的语音特征强度;
根据所述语音特征强度,配置M维MFCC的加权系数θ1及N维MFSC的加权系数θ2
基于θ1倍的M维MFCC与θ2倍的N维MFSC,得到M+N维语音特征。
5.一种语音识别装置,其特征在于,包括:
第一预处理模块,用于对待识别的语音信号进行第一预处理,得到M维梅尔频率倒谱系数MFCC;
第二预处理模块,用于对待识别的语音信号进行第二预处理,得到N维梅尔频率谱系数MFSC;
识别模块,用于基于所述M维MFCC与所述N维MFSC识别所述待识别的语音信号;
所述M、N为正整数;
所述第一预处理模块包括时域处理子模块、傅里叶变换子模块与变换处理子模块;
所述时域处理子模块,用于依据所述待识别的语音信号中的背景噪声,对所述待识别的语音信号进行抖动处理、能量均值化、预加重、分帧及加窗处理中的至少一种,得到第一语音信号;
所述傅里叶变换子模块,用于将所述第一语音信号进行快速傅里叶FFT变换,得到相应的频域信号;
所述变换处理子模块,用于对所述频域信号进行第一变换处理及第二变换处理,得到所述M维MFCC;其中,所述第一变换处理包括梅尔频率转化、能量值取log、离散余弦变换及差分;所述第二变换处理包括语音活动检测VAD与噪声动态聚类处理。
6.一种终端设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-4任一项所述的语音识别方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现权利要求1-4中任一项所述的语音识别方法。
CN201810359956.9A 2018-04-20 2018-04-20 语音识别方法、装置及终端设备 Active CN108597505B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810359956.9A CN108597505B (zh) 2018-04-20 2018-04-20 语音识别方法、装置及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810359956.9A CN108597505B (zh) 2018-04-20 2018-04-20 语音识别方法、装置及终端设备

Publications (2)

Publication Number Publication Date
CN108597505A CN108597505A (zh) 2018-09-28
CN108597505B true CN108597505B (zh) 2021-02-09

Family

ID=63614312

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810359956.9A Active CN108597505B (zh) 2018-04-20 2018-04-20 语音识别方法、装置及终端设备

Country Status (1)

Country Link
CN (1) CN108597505B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109471953A (zh) * 2018-10-11 2019-03-15 平安科技(深圳)有限公司 一种语音数据检索方法及终端设备
CN109599126B (zh) * 2018-12-29 2022-04-19 广州丰石科技有限公司 一种基于mel能量谱和卷积神经网络的声音故障识别方法
CN109584888A (zh) * 2019-01-16 2019-04-05 上海大学 基于机器学习的鸣笛识别方法
CN110246490B (zh) * 2019-06-26 2022-04-19 合肥讯飞数码科技有限公司 语音关键词检测方法及相关装置
CN110600017B (zh) * 2019-09-12 2022-03-04 腾讯科技(深圳)有限公司 语音处理模型的训练方法、语音识别方法、系统及装置
CN111508498B (zh) * 2020-04-09 2024-01-30 携程计算机技术(上海)有限公司 对话式语音识别方法、系统、电子设备和存储介质
CN113516992A (zh) * 2020-08-21 2021-10-19 腾讯科技(深圳)有限公司 一种音频处理方法、装置、智能设备及存储介质
CN112201227B (zh) * 2020-09-28 2024-06-28 海尔优家智能科技(北京)有限公司 语音样本生成方法及装置、存储介质、电子装置
CN112863487A (zh) * 2021-01-15 2021-05-28 广东优碧胜科技有限公司 语音识别方法、装置以及电子设备
CN114499702B (zh) * 2022-03-28 2022-07-12 成都锢德科技有限公司 一种便携式实时信号采集分析识别系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5822729A (en) * 1996-06-05 1998-10-13 Massachusetts Institute Of Technology Feature-based speech recognizer having probabilistic linguistic processor providing word matching based on the entire space of feature vectors

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5822729A (en) * 1996-06-05 1998-10-13 Massachusetts Institute Of Technology Feature-based speech recognizer having probabilistic linguistic processor providing word matching based on the entire space of feature vectors

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Deep Neural Network Acoustic Model for ASR;Abdel-rahman MoHamed;《A thesis submitted in conformity with the requirements for the degree of Doctor of Philosophy Graduate Department of Computer Science University of Toronto》;20140401;第1-110页 *
综合短时特征和长时特征的发音质量评价方法;苏静;《中国优秀硕士学位论文全文数据库 信息科技辑》;20110315(第3期);第45-62页 *
语音通信中音质客观评价研究;陈华伟;《中国博士学位论文全文数据库 信息科技辑》;20071015(第4期);第1-120页 *

Also Published As

Publication number Publication date
CN108597505A (zh) 2018-09-28

Similar Documents

Publication Publication Date Title
CN108597505B (zh) 语音识别方法、装置及终端设备
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
US10854205B2 (en) Channel-compensated low-level features for speaker recognition
CN108899044B (zh) 语音信号处理方法及装置
US10373609B2 (en) Voice recognition method and apparatus
CN106486131B (zh) 一种语音去噪的方法及装置
CN108711436B (zh) 基于高频和瓶颈特征的说话人验证系统重放攻击检测方法
Wang et al. ia-PNCC: Noise Processing Method for Underwater Target Recognition Convolutional Neural Network.
CN109036460A (zh) 基于多模型神经网络的语音处理方法和装置
CN103021405A (zh) 基于music和调制谱滤波的语音信号动态特征提取方法
CN105448302A (zh) 一种环境自适应的语音混响消除方法和系统
CN108257606A (zh) 一种基于自适应并行模型组合的鲁棒语音身份识别方法
CN111489763B (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
CN112466276A (zh) 一种语音合成系统训练方法、装置以及可读存储介质
EP3516652A1 (en) Channel-compensated low-level features for speaker recognition
Beritelli et al. A pattern recognition system for environmental sound classification based on MFCCs and neural networks
CN112185405B (zh) 一种基于差分运算和联合字典学习的骨导语音增强方法
CN111524520A (zh) 一种基于误差逆向传播神经网络的声纹识别方法
CN110797008B (zh) 一种远场语音识别方法、语音识别模型训练方法和服务器
TWI749547B (zh) 應用深度學習的語音增強系統
CN111968627B (zh) 一种基于联合字典学习和稀疏表示的骨导语音增强方法
Rabaoui et al. Using HMM-based classifier adapted to background noises with improved sounds features for audio surveillance application
CN112820318A (zh) 一种基于gmm-ubm的冲击声模型建立、冲击声检测方法及系统
CN114512133A (zh) 发声对象识别方法、装置、服务器及存储介质
CN114003885B (zh) 一种智能语音认证方法、系统及可存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210721

Address after: 100080 room 401-3, 4th floor, building 1, yard 1, Danling street, Haidian District, Beijing

Patentee after: Beijing Yuanxin Junsheng Technology Co.,Ltd.

Address before: 100176 room 2222, building D, building 33, 99 Kechuang 14th Street, Beijing Economic and Technological Development Zone, Daxing District, Beijing

Patentee before: BEIJING YUANXIN SCIENCE & TECHNOLOGY Co.,Ltd.

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20180928

Assignee: Yuanxin Information Technology Group Co.,Ltd.

Assignor: Beijing Yuanxin Junsheng Technology Co.,Ltd.

Contract record no.: X2021110000024

Denomination of invention: Speech recognition method, device and terminal equipment

Granted publication date: 20210209

License type: Common License

Record date: 20210804