CN108053822B

CN108053822B - 一种语音信号处理方法、装置、终端设备及介质

Info

Publication number: CN108053822B
Application number: CN201711072798.0A
Authority: CN
Inventors: 冯澍婷; 刘洪涛; 孟亚彬
Original assignee: Shenzhen H&T Intelligent Control Co Ltd
Current assignee: Shenzhen H&T Intelligent Control Co Ltd
Priority date: 2017-11-03
Filing date: 2017-11-03
Publication date: 2021-01-15
Anticipated expiration: 2037-11-03
Also published as: CN108053822A

Abstract

本发明公开了一种语音信号处理方法、装置、终端设备及介质，该方法包括：存储目标语音信号，其中，所述目标语音信号为预设时长的有效语音信号中的部分语音信号；获取所述目标语音信号的目标语音特征，并将所述目标语音特征进行存储，所述目标语音特征为所述有效语音信号的语音特征中的部分语音特征；释放所述目标语音信号占据的存储空间。实施本发明实施例，能够在语音流识别中有效节约大量系统资源。

Description

一种语音信号处理方法、装置、终端设备及介质

技术领域

本发明涉及终端设备技术领域，尤其涉及一种语音信号处理方法、装置、终端设备及介质。

背景技术

语音识别是以语音为研究对象，通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。

不同的语音识别系统，虽然具体实现细节有所不同，但所采用的基本技术相似，都是将整段语音信号采集然后进行存储处理。本发明的发明人在研究和实践过程中发现，现有技术一方面需要较大的存储空间，另一方面不利于信号采集，一段时间内存储的语音信号中有可能不存在有效语音段，不仅占用了CPU资源，同时还浪费系统存储空间。

发明内容

本发明实施例提供了一种语音信号处理方法、装置、终端设备及介质，能够有效节约大量系统资源并实现实时连续的语音流识别。

第一方面，本发明提供了一种语音信号处理方法，包括：

存储目标语音信号，其中，所述目标语音信号为预设时长的有效语音信号中的部分语音信号；

获取所述目标语音信号的目标语音特征，并将所述目标语音特征进行存储，所述目标语音特征为所述有效语音信号的语音特征中的部分语音特征；

释放所述目标语音信号占据的存储空间。

第二方面，本发明提供了一种语音信号处理的装置，包括存储单元、获取单元以及释放单元，

所述存储单元，用于存储目标语音信号，其中，所述目标语音信号为预设时长的有效语音信号中的部分语音信号；

所述获取单元，用于获取所述目标语音信号的目标语音特征，并将所述目标语音特征进行存储，所述目标语音特征为所述有效语音信号的语音特征中的部分语音特征；

所述释放单元，用于释放所述目标语音信号占据的存储空间。

第三方面，本发明提供了一种语音信号处理的终端设备，其特征在于，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述第一方面的方法。

第四方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上述第一方面的方法。

本发明实施例通过将目标语音信号存储，获取目标语音信号的目标语音特征，释放目标语音信号的存储空间，然后不断重复上述步骤，以至于获得全部目标语音信号对应的目标语音特征。在此过程中，将语音信号分段存储，提取其语音特征后释放，占用的仅有语音信号的部分大小的存储空间，而不是整段语音信号的存储空间，实现了语音识别中实时连续的语音存储，能在较少的系统资源的情况下实现语音识别中的存储步骤，解决目前存储空间不足而无法有效进行语音识别或进行其他应用操作的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种语音信号处理方法的流程示意图；

图2是本发明实施例提供的另一种语音信号处理方法的流程示意图；

图3是本发明实施例提供的一种装置的结构示意图；

图4是本发明实施例提供的另一种装置的结构示意图；

图5是本发明实施例提供的另一种装置的结构示意图；

图6是本发明实施例提供的一种终端设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

参见图1，是本发明实施例提供一种语音信号处理的方法的示意流程图，如图1所示方法可包括：

101、存储目标语音信号。

需要说明的是，这里执行本发明实施例方法的主体，可以是手机、台式电脑、平板电脑、智能手表等配置麦克风的独立设备，也可以是多个设备的组合，例如麦克风和智能电视的组合，还可以为专用的语音识别设备，在此不作限定。

其中，目标语音信号是预设时长的有效语音信号中的部分语音信号。

语音信号包括有效语音信号和无效语音信号，其中，有效语音信号是用户说话的时候采集到的语音信号，无效语音信号为用户没有说话的时候采集到的语音信号。即，有效语音信号主要采集到的是用户的语音，而无效语音信号采集到的主要是环境噪音。例如，在一段时长为3秒的语音信号中，如果开始头1秒用户没有说话，之后的2秒用户都有说话，则此时第1秒对应的语音信号为无效语音信号，第2、3秒对应的语音信号为有效语音信号。进一步地，有效语音信号的语音特征是指能够被识别的语音特征，具体地，就是有效语音信号的语音特征为语音起始点和语音结束点之间的语音特征，这是通过端点检测得来的。其中，端点检测是根据短时平均幅度、短时平均过零率等语音特征参数，检测有效语音的起始点和结束点。

目标语音信号的时长可以根据实际需要进行设置，例如，目标语音信号的时长可以是根据处理器的处理速度，存储器的存储容量等等中的一个或者多个因素进行设置的。如果处理器的处理速度越快，则目标语音信号的时长可以越长；存储器的存储容量越大，则目标语音信号的时长可以越长。可以理解，上述目标语音信号的时长的影响因素仅仅是用作举例，不应构成具体限定。目标语音信号可以是一段较短时间的语音信号，其时长可以是在设备出厂前预先设定的，也可以是在设备使用的过程中自适应进行调整的，可以选在0.5-2s范围间。

进一步地，目标语音信号是经过采样和预处理之后的数字信号。由于人耳能听到的声音信号频率范围是200Hz-20KHz，且在当今的主流声音采集卡采样频率一般为22.05KHz、44.1KHz、48KHz三个等级，本发明实施例提供的音频采样率范围可以是8kHz～48kHz；AD采样精度可以选择8bit或16bit，在此不作限定。而预处理主要是用于去除语音信号中混入的噪声，这里的噪声包括音频混叠噪声，系统噪声，设备、环境引起的噪声等。此处降噪需要实时处理，根据实际应用场合，可选择各种FIR(Finite Impulse Response)，IIR(Infinite Impulse Response)滤波器，LMS(Least Mean Square)，RLS(Recursive LeastSquares)等自适应滤波器，以及一些可实时运算的信号降噪方法，在此不作限定。

目标语音信号可以是实时采集存储的，所以至少要保证有实时存储且处理的空间，本发明实施例建议至少有两倍于目标语音信号时长的空间。举例来说，假设用户使用语音识别功能，对着麦克风说“我把工作做完就立马去你家吃饭”，目标语音信号的时长设置为0.5s，而用户匀速说话时每两个字约占用0.5s，所以目标语音信号的内容是“我把”。由于实时识别的限制要保证至少两倍的目标语音信号的时长，这里该时长设置为1s。进一步地，在存储完“我把”之后，将其设置为目标语音信号进行处理，而在处理“我把”的同时，由于实时地缘故终端设备还在存储“工作”。

进一步地，相对于上述实时采集存储而言，目标语音信号也可以是实时接收存储的，举例来说，甲方给乙方发送即时语音，该即时语音在乙方接收时便开始实时地进行语音识别功能。应理解，上述例子都是作为一种举例，不是作为具体的限定。

102、获取所述目标语音信号的目标语音特征，并将所述目标语音特征进行存储。

其中，目标语音特征为所述有效语音信号的语音特征中的部分语音特征。

获取语音特征是求出每一帧信号的语音特征参数。其中，首先对目标语音信号分帧(分帧前可以对信号进行预加重)，帧长可以选择在10ms-30ms范围内，因为工程上通常认为10ms-30ms这样长度的时间段中，语音信号是平稳信号。分帧完成后，可求出每一帧信号的语音特征参数，语音特征部分用于端点检测，部分用于后端语音识别。根据系统选择的端点检测方法，可选的端点检测参数包括但不限于：短时平均幅度、短时平均过零率、每帧信号最大值、每帧信号能量和等；用于语音识别的参数包括但不限于：线性预测系数(LinearPrediction Cepstrum Coefficient，LPCC)、Mel倒谱系数(Mel Frequency CepstralCoefficients，MFCC)、基音频率、共振峰等。

103、释放所述目标语音信号占据的存储空间。

这里释放的存储空间是步骤101存储目标语音信号时所用的存储空间，对于语音信号，在后面的步骤中只会用到它的语音特征参数，所以在此步骤中进行释放。

本发明实施例中，由于语音信号存储时间较短且随着语音特征获取完毕，可以快速释放存储空间，不会占用过多系统资源。

举例来说，把步骤101存储的两倍于目标语音信号时长的语音信号，即“我把工作”中的目标语音信号“我把”从存储空间中删去，注意这里不对语音信号“工作”进行删除，因为语音信号“工作”此时并不是目标语音信号。进一步地，“我把”的语音特征获取完成之后，就将“我把”的语音信号删除，由于在实时操作中处理目标语音信号的时长不超过采集存储目标语音信号的时长，此时终端设备可能还在存储“工作”当中，这时“工作”作为新的目标语音信号进行存储以及处理。而在后续的操作中，语音信号“工作”存储并处理完后，将其删除，这时同样终端设备可能在存储语音信号“做完”当中，依此继续进行从而完成接下来的操作。

进一步地，现有技术的做法在于，它将整段语音进行存储，即把“我把工作做完就立马去你家吃饭”都存入存储空间中，然后再进行处理识别等后续操作。这样太占用存储空间，所以本发明实施例的做法在于，将一段部分的短时语音信号存入并获取其语音特征，获取完后立即释放其存储空间。如此，本将占用“我把工作做完就立马去你家吃饭”的存储空间，变成了“我把工作”这样一小份，并重复存储释放0.5s的语音信号，减少了大部分存储空间的使用。在上述例子中只是对一句话的语音识别，但可以理解的是，当识别内容是一段话的时候，将节约更多的存储空间。且随着设备的更新换代，语音采样率开始逐步提高，存储一段话将会占用更多的存储空间，而采用本发明实施例的方法，由于每次存储的语音信号时长是一定的，所以采样率的提高增加的是时长一定的语音信号的比特数，从而只会对其存储空间有小幅度的增长。应理解，上述例子都是作为一种举例，不是作为具体的限定。

进一步地，还可以包括步骤104，重复上述步骤101-103，直到完成对所述预设时长中所有的有效语音信号进行语音特征获取。

具体地，若未完成对预设时长的有效语音信号的语音特征进行获取，则返回到步骤101继续顺序执行步骤；若完成对预设时长的有效语音信号进行语音特征获取，从而获得预设时长中所有的有效语音信号的语音特征。其中，所述预设时长中所有的有效语音信号的语音特征可包括每个目标语音信号的语音特征，如第i个目标语音信号的语音特征、第i+1个目标语音信号的语音特征等。

需要说明的是，这里进行循环操作的主要目的在于减少对语音信号的大量存储，只是对其语音特征进行获取存储，并在达到可识别条件时跳出循环，可以更加减少对存储空间的占用。其中，预设时长的设置用于防止由于处理的语音特征累计时长不足而导致不能进行语音识别。此处预设时长的设置与系统识别的目标语音特性有关，例如：识别持续时间较短的爆破音，咳嗽音等声音时，可设置较短的预设时长；当识别哭声，说话声等可能持续时间较长的声音时，应设置较长的预设时长，确保语音信号可以被检测识别。

进一步地，在步骤104之后还可以包括：对预设时长中所有的有效语音信号的语音特征进行识别，从而获得语音识别结果。具体地可以是，在步骤104得到有效语音信号的语音特征后，截取出用于识别的有效语音起始点到结束点所对应的语音特征参数，利用这些语音特征参数生成测试模板，将其与语音特征模板进行匹配，输出语音识别结果。目前，最常用于语音识别的特征参数是MFCC以及其一阶、二阶导数(导数可由MFCC系数求得)，其识别准确率已在多篇文献和多种设备中得到验证，本实施例可使用但不限于使用所述最常用语音识别特征参数。

作为一种可选的实施方式，若这时实时采集还未结束，则继续执行以上步骤。需要说明的是，上一段有效语音信号结束点之后语音特征与再次采集获取的语音特征拼接，一起进行端点检测等步骤。当实时采集结束之后，对每次产生的语音识别结果进行拼接，并输出整个拼接后的语音识别结果。

作为一种可选的实施方式，当对预设时长的有效语音信号的语音特征进行识别并获得语音识别结果之后，删除存储在存储空间中的语音特征，删除部分具体为该有效语音信号语音结束点之前的语音特征，需要说明的是语音结束点之后的语音特征中可能包括下一段有效语音信号的起始点，即包括下一段有效语音信号的部分语音特征，所以将需要将其进行保留。

可见，通过本实施例方法，存储目标语音信号，其中，所述目标语音信号为预设时长的有效语音信号中的部分语音信号；获取所述目标语音信号的目标语音特征，并将所述目标语音特征进行存储，所述目标语音特征为所述有效语音信号的语音特征中的部分语音特征；释放所述目标语音信号占据的存储空间。与现有技术存储全部的语音信号相比，采取循环处理减少了大量的存储空间的占用，且实现了实时连续的语音识别，能在较少的系统资源内实现语音识别，解决目前存储空间不足而无法有效进行语音识别或进行其他应用操作的问题。

参见图2，是本发明实施例提供另一种语音信号处理的详细方法的示意流程图，如图2所示方法可包括：

201、采集目标语音信号。

在本发明实施例中，可选地，采集可以是通过声音采集设备获得声音模拟信号，再经过采样将模拟信号转换为数字信号。可供选择的声音采集设备包括但不限于：麦克风、麦克风阵列、话筒。由于人耳能听到的声音信号频率范围是200Hz-20KHz，且在当今的主流声音采集卡采样频率一般为22.05KHz、44.1KHz、48KHz三个等级，本发明实施例提供的音频采样率范围可以是8kHz～48kHz；AD采样精度可以选择8bit或16bit，在此不作限定。

202、预处理目标语音信号。

在本发明实施例中，可选的，预处理可以是去除音频中混入的噪声，包括音频混叠噪声，系统噪声，设备、环境引起的噪声等；此处降噪需要实时处理，根据实际应用场合，可选择各种FIR(Finite Impulse Response)，IIR(Infinite Impulse Response)滤波器，LMS(Least Mean Square)，RLS(Recursive Least Squares)等自适应滤波器，以及一些可实时运算的信号降噪方法，在此不作限定。

203、存储目标语音信号。

204、获取目标语音信号的目标语音特征。

在本发明实施例中，获取语音特征是求出每一帧信号的语音特征参数。其中，首先对目标语音信号分帧(分帧前可以对信号进行预加重)，帧长可以选择在10ms-30ms范围内，因为工程上通常认为10ms-30ms这样长度的时间段中，语音信号是平稳信号。分帧完成后，可求出每一帧信号的语音特征参数，语音特征部分用于端点检测，部分用于后端语音识别。根据系统选择的端点检测方法，可选的端点检测参数包括但不限于：短时平均幅度、短时平均过零率、每帧信号最大值、每帧信号能量和等；用于语音识别的参数包括但不限于：线性预测系数(Linear Prediction Cepstrum Coefficient，LPCC)、Mel倒谱系数(MelFrequency Cepstral Coefficients，MFCC)、基音频率、共振峰等。

205、存储目标语音特征。

206、释放目标语音信号占据的存储空间。

207、若未完成对预设时长中所有的语音信号进行语音特征获取，则返回到步骤201继续顺序执行步骤；若完成对预设时长中所有的语音信号进行语音特征获取，则进入下一步骤。

需要说明的是，这里是对已存储的语音特征进行判断，若其累计时长达到预设时长，则进入下一步骤，进一步地，该累计时长是已存储的语音特征对应的采集的语音信号的时长；否则返回继续获取下一语音特征，直到满足预设时长条件。

举例来说，假设用户使用语音识别功能，对着麦克风说“我把工作做完就立马去你家吃饭”，存储的目标语音信号的语音时长设置为0.5s，而用户匀速说话时每两个字约占用0.5s，所以第一次目标语音信号的内容是“我把”。由于实时识别的限制要保证至少两倍的目标语音信号的时长，这里该时长设置为1s，所以存储的内容是“我把工作”。获取完目标语音信号“我把”的语音特征之后，将其删除。假如预设时长设置为3s，这里“我把”的语音特征不满足相应条件，所以使语音信号“工作”成为第二次的目标语音信号，继续获取存储语音特征并删除该目标语音特征，由于是实时识别操作，在处理语音信号“工作”的同时，也在存储语音信号“做完”。具体地，由于处理语音信号的时间不超过采集语音信号的语音时长，即0.5s，所以能够在采集存储语音信号的同时获取其语音特征。应理解，上述例子都是作为一种举例，不是作为具体的限定。

208、对预设时长的语音信号的语音特征进行端点检测。

在本发明实施例中，端点检测是根据步骤204中计算出的短时平均幅度、短时平均过零率等语音特征参数，检测有效语音的起始点和结束点，这里的有效语音是指用于识别的语音段，而非对识别无用的语音，例如在语音识别用于产生文字信息时，说话之前就开始采集存储，那说话之前的音频就属于无效语音，而说话的内容属于有效语音。

209、若预设时长的语音信号的语音特征不是有效语音信号的语音特征，则进入步骤210；否则，进入步骤211。

具体地，判断已存储的语音特征是否检测出语音起始点及语音结束点，当上述两者都被检测出来，则认定已存储的语音特征为有效语音信号的语音特征，进入步骤211；当只有语音起始点和语音结束点的其中之一或者两者都没有被检测出来，进入步骤211。

对于步骤207的例子，作为补充，当将“我把工作做完就立马去你家”依照上述方法处理完后，满足预设时长条件3s。然后将这些部分语音特征进行拼接，并对其进行语音端点检测，由于这句话对于有效语音来说缺少“吃饭”，只能识别出含有语音起始点不含有语音结束点，所以不将其交付下一步骤。当目标语音信号“吃饭”的语音特征获取完后，再次拼接经端点检测后认定为有效语音信号的语音特征，于是将“我把工作做完就立马去你家吃饭”的语音特征交付下一步骤。应理解，上述例子都是作为一种举例，不是作为具体的限定。

210、依据预设规则释放语音特征存储空间，并返回201继续顺序执行步骤。

具体地，预设规则可以是，若未检测到语音起始点则语音特征存储空间全部释放，若检测到起始点未检测到语音结束点则保留语音起始点之后的语音特征释放其余语音特征存储空间。

211、对预设时长的有效语音信号的语音特征进行识别，从而获得语音识别结果。

212、释放语音结束点之前的语音特征占据的存储空间。

进一步地，若完成了上述步骤后，语音采集还在继续，则回到步骤201继续执行步骤，直到语音采集结束。

需要说明的是，图2所示的方法的各个步骤的具体实现过程可参见上述方法所述的具体实现过程，在此不再叙述。

参见图3，是本发明实施例提供一种装置的结构示意图，可以用于执行本发明实施例提供的语音信号处理方法。如图4所示，该装置包括：

实现方法与图1和图2所示的语音信号处理方法相同，这里不做详述。

请一并参阅图4，图4是本发明实施例公开的另一种装置的结构示意图。其中，图4所示的装置是在图3所示的装置的基础上进一步优化得到的。与图3所示的装置相比，图4所示的装置还可以包括：

识别单元304，用于对所述有效语音信号的语音特征进行识别，从而获得所述有效语音信号的语音识别结果。

采集单元305，用于实时采集语音信号；

预处理单元306，用于对语音信号进行预处理；

端点检测单元307，用于对已存储的语音特征进行端点检测，具体地，根据获取单元中计算出的短时平均幅度、短时平均过零率等语音特征参数，检测有效语音的起始点和结束点，这里的有效语音是指用于识别的语音段，而非对识别无用的语音，例如在语音识别用于产生文字信息时，说话之前就开始采集存储，那说话之前的音频就属于无效语音，而说话的内容属于有效语音。

作为一种可选的实施方式，识别单元304，具体可以用于截取出用于识别的有效语音起始点到结束点所对应的语音特征参数，利用这些语音特征参数生成测试模板，将其与语音特征模板进行匹配，输出语音识别结果。或者，具体可以用于将已存储的语音信号的语音特征按顺序进行拼接，从而获得有效语音信号的语音特征；将有效语音信号的语音特征与语音特征模板进行匹配，从而获得语音识别结果。或者，具体可以用于将有效语音信号中所有目标语音信号对应的目标语音特征分段与语音特征模板进行匹配，从而获得多个有效语音识别结果；将多个有效语音识别结果按顺序进行拼接，从而获得语音识别结果。

参见图5，是本发明实施例提供一种装置的结构示意图，可以用于执行本发明实施例提供的语音信号处理方法。如图5所示，该装置包括：

采集预处理模块501，用于采集和预处理实时语音信号；

部分语音信号存储模块502，用于存储目标语音信号；

语音特征提取存储模块503，用于提取并存储目标信号的语音特征；

释放语音信号存储空间模块504，用于释放目标语音信号的存储空间；

语音端点检测模块505，用于检测语音特征的语音端点；

模板匹配模块506，用于将有效语音信号的语音特征与语音特征模板进行匹配；

输出结果模块507，用于输出模板匹配结果；

释放语音特征存储空间模块508，用于根据本发明的方法实施例中的预置规则，释放语音特征存储空间。

本发明实施例中，实现方法与图1和图2所示的语音信号处理方法相同，这里不再详述。

可见，实施图3、图4以及图5所示的装置，可以对语音信号进行实时处理并获得识别结果，而且在识别过程中占用的系统资源较少，提高资源利用率，使用户可以在使用中还能使用更多系统资源。

参见图6，是本发明实施例提供的一种终端设备的结构示意框图。如图所示的本实施例中的终端可以包括：一个或多个处理器601；一个或多个输入设备602，一个或多个输出设备603和存储器604。上述处理器601、输入设备602、输出设备603和存储器604通过总线605连接。存储器602用于存储计算机程序，所述计算机程序包括程序指令，处理器601用于执行存储器602存储的程序指令。

处理器601为终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分，通过运行或执行存储在存储器604内的程序和/或模块，以及调用存储在存储器604内的数据，以执行终端设备的各种功能和处理数据。处理器601可以由集成电路(Integrated Circuit，简称IC)组成，例如可以由单颗封装的IC所组成，也可以由连接多颗相同功能或不同功能的封装IC而组成。举例来说，处理器601可以仅包括中央处理器(Central Processing Unit，简称CPU)，也可以是CPU、数字信号处理器(Digital SignalProcessor，简称DSP)、图形处理器(Graphic Processing Unit，简称GPU)及各种控制芯片的组合。在本发明实施方式中，CPU可以是单运算核心，也可以包括多运算核心。

输入装置602可以包括标准的触摸屏、键盘、麦克风等，也可以包括有线接口、无线接口等。

输出装置603可以包括显示屏、扬声器等，也可以包括有线接口、无线接口等。

存储器604可用于存储软件程序以及模块，处理器601、输入装置602以及输出装置603通过调用存储在存储器604中的软件程序以及模块，从而执行终端设备的各项功能应用以及实现数据处理。存储器604主要包括程序存储区和数据存储区，其中，程序存储区可存储操作系统、至少一个功能所需的应用程序等；数据存储区可存储根据终端设备的使用所创建的数据等。在本发明实施例中，操作系统可以是Android系统、iOS系统或Windows操作系统等等。

其中，处理器601被配置用于调用所述程序指令执行：

释放所述目标语音信号占据的存储空间。

应当理解，在本发明实施例中，所称处理器601可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备602可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等，输出设备603可以包括显示器(LCD等)、扬声器等。

该存储器604可以包括只读存储器和随机存取存储器，并向处理器601提供指令和数据。存储器604的一部分还可以包括非易失性随机存取存储器。例如，存储器604还可以存储设备类型的信息。

具体实现中，本发明实施例中所描述的处理器601、输入设备602、输出设备603可执行本发明实施例提供的语音信号处理的方法的第一实施例和第二实施例中所描述的实现方式，也可执行本发明实施例所描述的终端的实现方式，在此不再赘述。

以一个现实应用场景为例对本发明实施例阐述如下：

假设现在需要设计一个系统，实现婴儿哭声识别，婴儿哭声是一种周期性的，持续时间较长的声音，如果采用传统端点检测方法，需要至少保存6s的音频信号，设置系统采样率为16kHz，AD采样精度为16bit，每个采样数据需占用2Byte存储，由此可求得6s音频信号占用存储空间192K字节；考虑音频信号实时采集至少要预留2倍存储空间，系统保存音频数据至少就需要384K字节的空间。

将图3或6的实施例应用到嵌入式系统中实现哭声检测，本实施例选取能量与过零率双阈值法进行端点检测，选用MFCC特征参数用于语音识别。

目标语音存储占用空间：本实施例语音信号存储时长选为0.5s，则语音存储模块至少要预留1s信号存储空间，及32K字节。

特征存储占用空间：本实施例特征存储模块，需要保存6s语音信号特征；信号分帧设置帧长为16ms，即256个采样点(后续FFT变换时无需插值，简化运算过程)，帧移为8ms；对于每一帧语音信号，分别计算短时平均幅度，短时过零率用于端点检测，计算每帧信号最大幅度用于后续参数归一化；计算MFCC系数用于语音识别，设置DCT系数维度为15，则每帧信号的MFCC系数包含15个DCT系数和一个能量系数。最终，从每帧语音信号中可提取出19个特征参数，其中每个MFCC系数占用4Byte存储，其余参数占用2Byte存储，可求得每帧语音信号特征参数占用内存70Byte。6s语音信号可分为750帧，总计需占用存储空间52.5K字节。由于语音特征每0.5s更新一次，无需实时处理，且在一般嵌入式系统中，0.5s时间足够完成后端语音识别，释放特征存储空间，因此，语音特征存储无需开辟额外缓存。

最终，本实施例音频信号及特征占用存储空间为32K+52.5K＝84.5K字节，与传统方法所需的384K字节相比，减少了4倍以上。下表1对比了不同采样率下，两种方法所需的存储空间，注意本实施例其他设置不变(信号帧长固定16ms)，随着采样率的提高，传统方法占用存储空间大量增加，而本实施例占用的存储空间仅有小幅增长，主要是因为本实施例仅需存储少量原始语音信号，且语音特征存储空间固定，不受采样率影响。

虽然，语音特征同原始信号相比，占用存储已经大大减小，但保存长时间的特征参数也会给系统带来压力，所以具体实现时需根据应用场景谨慎选取有效语音特征。

表1两种处理方法占用存储对比

综上所述，本发明实施例显著减小了音频存储占用的空间，尤其对于音频采样率较高，或有效语音持续时间较长的系统，优化效果更加明显。此外，为采集质量较高的音频信号，提高语音识别准确率，目前好多语音识别设备选择了双麦克或麦克风阵列，同时采集多路语音信号降噪，此时，系统需要同时处理多路音频信号，选择合适的音频处理方式，节约存储空间就显得更加重要了。

在本发明的另一实施例中提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时可根据方法实施例中的方法具体实现。

所述计算机可读存储介质可以是前述任一实施例所述的终端的内部存储单元，例如终端的硬盘或内存。所述计算机可读存储介质也可以是所述终端的外部存储设备，例如所述终端上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述终端的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的单元、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，或依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种语音信号处理方法，其特征在于，包括:

存储目标语音信号，其中，所述目标语音信号为预设时长的有效语音信号中的部分语音信号，所述有效语音信号为语音起始点以及语音结束点之间的语音信号，所述语音起始点以及所述语音结束点是通过端点检测得到的；

释放所述目标语音信号占据的存储空间；

对所述有效语音信号的语音特征进行识别，从而获得所述有效语音信号的语音识别结果，包括：将所述有效语音信号中所有目标语音信号对应的目标语音特征分段与语音特征模板进行匹配，从而获得多个部分识别结果；将所述多个部分识别结果进行拼接，从而获得所述语音识别结果。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述有效语音信号的所述语音特征，所述语音特征包括所述有效语音信号中所有目标语音信号对应的目标语音特征。

3.一种语音信号处理装置，其特征在于，包括存储单元、获取单元以及释放单元，

所述存储单元，用于存储目标语音信号，其中，所述目标语音信号为预设时长的有效语音信号中的部分语音信号，所述有效语音信号为语音起始点以及语音结束点之间的语音信号，所述语音起始点以及所述语音结束点是通过端点检测得到的；

所述释放单元，用于释放所述目标语音信号占据的存储空间；

识别单元，用于对所述有效语音信号的语音特征进行识别，从而获得所述有效语音信号的语音识别结果；

所述识别单元具体用于：

将所述有效语音信号中所有目标语音信号对应的目标语音特征分段与语音特征模板进行匹配，从而获得多个部分识别结果；

将所述多个部分识别结果进行拼接，从而获得所述语音识别结果。

4.根据权利要求3所述装置，其特征在于，所述获取单元还用于：获取所述有效语音信号的所述语音特征，所述语音特征包括所述有效语音信号中所有目标语音信号对应的目标语音特征。

5.一种语音信号处理的终端设备，其特征在于，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-2任一项所述的方法。

6.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至2任一项所述方法。