CN105529038A

CN105529038A - 对用户语音信号进行处理的方法及其系统

Info

Publication number: CN105529038A
Application number: CN201410563622.5A
Authority: CN
Inventors: 李晓辉; 许敏强
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2014-10-21
Filing date: 2014-10-21
Publication date: 2016-04-27

Abstract

本发明涉及语音技术领域，公开了一种对用户语音信号进行处理的方法及其系统。本发明包括步骤：服务器接收用户语音信号，该用户语音信号混合了该语音终端通过话筒接收到的外部语音和该语音终端自身的双音多频按键音；服务器对收到的用户语音信号进行频谱分析；根据频谱中预先设定的按键对应的双音多频目标频率分量的大小，判断在通话过程中预先设定的按键是否被按下；如果被按下，则判定用户当前的语音输入已经结束。本发明可以高效而准确地判断语音是否结束。

Description

对用户语音信号进行处理的方法及其系统

技术领域

本发明涉及智能客服语音领域，特别涉及语音信号处理的技术。

背景技术

随着智能客服系统的不断发展，让客户用一句话描述需要咨询的问题并据此进行机器人自动派单成为系统的重要组成部分，也是提高用户感受的重要途径。因此自动检测客户语音的结束点成为系统的组成部分。

传统客服系统采用按键操作输入信息和客户和人工客服语言交互相结合的方式，目前常用的是RFC2833信令方式。

在该方法中，按键操作阶段#号键做为按键操作结束标志，客户端发送2833信令，通过event字段对客户语音和双音多频信号先进行编码，而编码方式是不一样的，此外需要根据RFC2833协议对数据进行封装，服务器通过解析数据包，监听双音多频(“DualToneMultiFrequency”,简称DTMF)信号并对语音和DTMF信号加以区分。对数据的封装一定程度上增加了网络传输的数据量。

此外有些系统不能够支持2833信令这种方式。

因此，随着智能客服系统的不断发展，2833信令方法在某些应用条件下已经无法满足实际需求，我们需要探究其它处理方法。

发明内容

本发明的目的在于提供一种对用户语音信号进行处理的方法及其系统，可以直接对混合了外部语音和双音多频按键音的用户语音信号进行处理，以提升用户语音输入的结束点确定的便利性。

为解决上述技术问题，本发明的实施方式公开了一种对用户语音信号进行处理的方法，用户可通过输入特定按键表示语音结束，包括以下步骤：

服务器接收用户语音信号，，该用户语音信号混合了该语音终端通过话筒接收到的外部语音和该语音终端自身的双音多频按键音；

服务器对收到的用户语音信号进行频谱分析，得到用户语音信号的频谱；

根据频谱中预先设定的按键对应的双音多频目标频率分量的大小，判断在通话过程中预先设定的按键是否被按下；

如果预先设定的按键被按下，则判定用户当前的语音输入已经结束。

本发明的实施方式还公开了一种对用户语音信号进行处理的系统，包括以下模块：

接收模块，用于接收用户语音信号，，该用户语音信号混合了该语音终端通过话筒接收到的外部语音和该语音终端自身的双音多频按键音；

频谱分析模块，用于对收到的用户语音信号进行频谱分析，得到用户语音信号的频谱；

预设按键状态检测模块，用于根据频谱中预先设定的按键对应的双音多频目标频率分量的大小，判断在通话过程中预先设定的按键是否被按下；

语音结束判定模块，用于如果预先设定的按键被按下，则判定用户当前的语音输入已经结束。

本发明实施方式与现有技术相比，主要区别及其效果在于：

本文提出的方法可以直接对用户语音信号进行处理，可以同时兼容语音终端通过话筒接收到的外部语音和该语音终端自身的双音多频按键音，而不用监听2833信令，对于不支持通过2833信令以检测语音结束的系统也能够适用，适用范围更广。

进一步地，判定语音结束后，语音识别服务器对语音信号进行识别，并根据识别结果查询到应答结果反馈给语音终端，用户仅通过描述需要咨询的问题即可得到应答服务，明显提高了用户感受。

进一步地，不仅仅根据各帧信号中预先设定的按键对应的双音多频目标频率分量的能量占比判断是否含有预先设定的按键音，还根据连续多帧的频谱结构组合判断连续多帧的前后帧不是按键对应的双音多频信号，避免了在语音终端通过话筒接收到的外部语音中含有预先设定的按键音的双音多频信号时，误导为检测到预先设定的按键音而判断语音结束的情况。

进一步地，本发明中结合预先设定的按键音的检测和语音活动检测，双重检测的方案降低了语音结束的漏检率。

附图说明

图1是本发明第一实施方式中一种对用户语音信号进行处理的方法的流程示意图；

图2是本发明第二实施方式中一种对用户语音信号进行处理的方法的流程示意图；

图3是本发明第二实施方式中一种智能客服系统IVR中对电话语音输入数据的操作流程示意图；

图4是本发明第三实施方式中智能客服机器人语音处理流程示意图；

图5本发明第三实施方式中#号键检测流程示意图；

图6本发明第三实施方式中VAD检测流程示意图；

图7是本发明第四实施方式中一种对用户语音信号进行处理的系统的结构示意图；

图8是本发明第五实施方式中一种对用户语音信号进行处理的系统的结构示意图。

具体实施方式

在以下的叙述中，为了使读者更好地理解本申请而提出了许多技术细节。但是，本领域的普通技术人员可以理解，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请各权利要求所要求保护的技术方案。

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的实施方式作进一步地详细描述。

本发明第一实施方式涉及一种对用户语音信号进行处理的方法，图1是该对用户语音信号进行处理的方法的流程示意图。

具体地说，如图1所示，该对用户语音信号进行处理的方法包括以下步骤：

步骤101，服务器接收用户语音信号，该用户语音信号混合了该语音终端通过话筒接收到的外部语音和该语音终端自身的双音多频按键音。

可以理解，用户语音信号中所混合的表示语音结束的语音终端自身的双音多频(“DualToneMultiFrequency”，简称DTMF)按键音可以为#号键，也可以为其它约定好的双音多频按键。

此外，支持双音多频的语音终端包括固定电话，移动电话等等。

本发明各实施方式所称的服务器可以是一台服务器，也可以是一个服务器集群，或者是云。服务器所涉及的接收、分析、判断等操作可以在同一台服务器上完成，也可以在多台服务器上以协作方式完成。

此后进入步骤102，服务器对收到的用户语音信号进行频谱分析，得到用户语音信号的频谱。

此后进入步骤103，根据频谱中预先设定的按键对应的双音多频目标频率分量的大小，判断在通话过程中预先设定的按键是否被按下。

此后进入步骤104，如果预先设定的按键被按下，则判定用户当前的语音输入已经结束。

本实施方式可以直接对用户语音信号进行处理，可以同时兼容语音终端通过话筒接收到的外部语音和该语音终端自身的双音多频按键音，而不用监听2833信令，对于不支持通过2833信令以检测语音结束的系统也能够适用，适用范围更广。

此外，在一个优选例中，步骤103包括以下子步骤：

根据用户语音信号的频谱，检测各帧信号中预先设定的按键对应的双音多频目标频率分量的能量占全频带能量的比例是否超过第一阈值，如果超过，则判定该帧信号为按键对应的双音多频信号；

将用户语音信号中为按键对应的双音多频信号的连续多帧的帧数与第二阈值进行比较；

如果帧数超过第二阈值，再检测连续多帧的前后帧是否不是按键对应的双音多频信号；

如果连续多帧的前后帧不是按键对应的双音多频信号，则判定在通话过程中预先设定的按键被按下。

也就是说DTMF信号时长有一个范围，根据这个范围检测连续多帧语音的频率结构，通过连续多帧的频谱结构，组合判断。比如对frame1到frame5分析，frame2，3，4符合DTMF目标频率的要求，同时frame1，frame5不符合DTMF目标频率的要求，从而来判定检测到DTMF信号，即检测到预先设定的按键音。

在该优选例中，判定检测到预先设定的按键音，不仅需要各帧信号中预先设定的按键对应的双音多频目标频率分量的能量占比符合要求，同时连续多帧的前后帧还必须不是按键音对应的双音多频信号。这样即使外部语音中含有预先设定的按键音对应的双音多频信号时，也不会误检为预先设定的按键音。

此外，在检测各帧信号中预先设定的按键对应的双音多频目标频率分量的能量占全频带能量的比例是否超过第一阈值时，可以根据傅里叶变换提取频谱信息，计算预先设定的按键对应的双音多频目标频率的幅度平方值，并将其与第一阈值进行比较，若果高于第一阈值，则判断为按键对应的双音多频目标频率分量的能量占全频带能量的比例超过第一阈值。在本发明的其它实施方式中，也可以通过其他方式计算预先设定的按键对应的双音多频目标频率的能量占全频带能量的比例，而不局限于此。

当然，对于步骤103中在通话过程中预先设定的按键是否被按下的方法并不限于上述优选例。例如，可以判断是否最近的N帧中有M帧满足预先设定的按键对应的双音多频目标频率分量的能量占全频带能量的比例是否超过第一阈值的条件，其中N和M是预先定义的正整数，N>M。

本发明第二实施方式涉及一种对用户语音信号进行处理的方法，图2是该对用户语音信号进行处理的方法的流程示意图。

第二实施方式在第一实施方式的基础上进行了改进，主要改进之处在于：判定语音结束后，语音识别服务器对语音信号进行识别，并根据识别结果查询到应答结果反馈给语音终端，用户仅通过描述需要咨询的问题即可得到应答服务，明显提高了用户感受。

具体地说，在步骤104之后，还包括步骤105：

停止语音信号的录制并将录制的语音信号发送给语音识别服务器进行识别，根据识别结果查询应答内容服务器得到应答结果，将应答结果转换为语音信号发送给语音终端。

在一个优选例中，用户通过电话接通服务器，并在选择了相应的服务选项后开始语音信号的录制。

在另一个优选例中，用户通过电话接通服务器后，服务器播放一段提示语音，然后自动进入语音信号的录制状态。

在本发明的各实施方式中，服务器指提供服务的设备，包括传统意义上计算机型的服务器，也包括电话交换机。

在本实施方式中，语音识别服务器对语音信号进行识别，并根据识别结果查询到应答结果反馈给语音终端，用户仅通过电话描述需要咨询的问题即可得到应答服务，明显提高了用户感受。

此外，可以理解，根据识别结果查询应答内容服务器得到应答结果后，除了将应答结果转换为语音信号发送给语音终端外，还可以对应答结果进行文本分析并转接到相应的客服人员，根据用户的需求提供形式多样的服务。

作为本实施方式的一个优选例，智能客服系统IVR中对电话语音输入数据的操作流程示意图如图3所示，对电话语音输入进行语音结束自动检测；根据语音结束自动检测的结果，将语音发送至自动语音识别服务器(“AutomaticSpeechRecognition”,简称ASR)进行识别，ASR识别结果返回给自动派单机器人；自动派单机器人通过对ASR识别返回的结果文本分析转并接到相应的客服人员。

本发明第三实施方式涉及一种对用户语音信号进行处理的方法。第三实施方式在第一或第二实施方式的基础上进行了改进，主要改进之处在于：结合预先设定的按键音的检测和语音活动检测，双重检测的方案降低了语音结束的漏检率。

具体地说，在步骤103之后，还包括步骤：

对用户语音信号进行语音活动检测(VoiceActivityDetection，简称VAD)，判断用户语音信号中静音时间是否达到设定的连续静音长度阈值，如果达到该连续静音长度阈值则判定为用户当前的语音输入已经结束。

所谓语音活动检测，是指通过处理连续语音，检测其中的语音部分和静音部分；通过语音活动检测，我们可以分析连续语音中静音的长度，从而根据静音长度来判断语音是否结束，在本实施方式中，将预先设定的按键音的检测与VAD相结合，共同实现语音结束自动检测。

此外，可以理解，在本发明中，既可以先进行预先设定的按键音的检测，也可以先进行语音活动检测，而不局限于固定的模式。

本实施方式结合预先设定的按键音的检测和语音活动检测，如果预先设定的按键被按下或者连续静音长度达到预设阈值，则判定用户当前的语音输入已经结束，双重检测的方案降低了语音结束的漏检率。

作为本实施方式的一个优选例，智能客服机器人语音处理流程示意图如图4所示。其中，对于客户发送到服务器的电话语音，先进行#号键检测，再进行VAD检测，若检测到语音结束，则将语音发送至ASR服务器。

用户打电话时，其语音内容(通过话筒接收到的外部语音)及相应的按键音(语音终端自身的双音多频按键音)通过同一通道发送。系统先检测#号键，然后根据#号键检测的结果再进行VAD检测；假设#号键检测和VAD检测的漏检率分别为a％和b％,则通过#号键检测和VAD检测双重检测的漏检率为a％*b％，降低语音结束的漏检率；同时VAD检测可以根据实际应用，考虑语音中静音段的长度来检测语音是否结束。

其中，根据国际电信联盟(ITU)的规定，#号键是两个固定频率正弦信号的叠加，称为双音多频(DTMF)信号；#号键对应的两个频率分别为941Hz和1477Hz，因此#号键检测就是检测这两个频率分量，#号键检测流程示意图如图5所示，对接收的电话语音进行傅里叶变换，根据功率谱检测目标频率能量占全频带能量比例，若比例符合要求，则判定为检测到#号键，并发送语音数据到VAD检测。

在另一个优选例中，在上述“对用户语音信号进行语音活动检测，判断用户语音信号中静音时间是否达到设定的连续静音长度阈值，如果达到该连续静音长度阈值则判定为用户当前的语音输入已经结束”的步骤中，包括以下子步骤：

对用户语音信号进行特征提取；

将从用户语音信号中提取的特征输入到训练过的神经网络中，神经网络将输入的特征判别为静音和语音的概率；

根据静音和语音的概率判决为静音或者语音；

根据静音或者语音的判决结果，计算连续静音的长度，如果达到设定的连续静音长度阈值，则判定为用户当前的语音输入已经结束。

在一个优选例中，神经网络为深度神经网络，深度神经网络判别静音和语音的概率时具有更高的准确率。

在一个优选例中，在对用户语音信号进行特征提取的子步骤中，特征包括PLP特征和基音信息，PLP特征和基音信息的一阶差分和二阶差分形成的42维的PLP特征。

在一个优选例中，在“对用户语音信号进行语音活动检测，判断用户语音信号中静音时间是否达到设定的连续静音长度阈值，如果达到该连续静音长度阈值则判定为用户当前的语音输入已经结束”的步骤之前，还包括步骤：

经过一个语音识别系统，获取语音数据和静音数据，并以获取到的语音数据和静音数据作为训练集合来训练深度神经网络。

在一个优选例中，语音识别系统为基于隐马尔科夫模型和深度神经网络的语音识别系统，训练深度神经网络的步骤包括基于受限玻尔兹曼机的预训练和基于反向传播算法的训练。

传统的VAD检测使用的是时域指标，比如短时过零率、短时能量；在本发明的处理方法中，使用的是基于深度神经网络的算法，相比于传统时域算法，该算法对语音起始和结束点的检测准确率更高，作为本实施方式的一个优选例，VAD检测流程示意图如图6所示，其中特征提取模块提取线性感知预测(PerceptualLinearPrediction，PLP)特征和基音信息，共14维；同时添加其一阶差分和二阶差分，形成42维的PLP特征。

深度神经网络模块是一个7层的多层感知网络；输入是从语音信号提取的PLP特征；输出是将输入特征判别为静音和语音的概率。语音/静音判决模块根据神经网络输出的语音概率、静音概率进行判断，如果静音概率较大，则判断为静音，反之判断为语音。

检测语音结束终点模块根据语音/静音判决结果，计算连续静音的长度，如果达到设定的连续静音长度阈值，则检测到语音结束终点；然后根据此语音结束终点把相应的语音内容发送至ASR服务器。

本发明的各方法实施方式均可以以软件、硬件、固件等方式实现。不管本发明是以软件、硬件、还是固件方式实现，指令代码都可以存储在任何类型的计算机可访问的存储器中(例如永久的或者可修改的，易失性的或者非易失性的，固态的或者非固态的，固定的或者可更换的介质等等)。同样，存储器可以例如是可编程阵列逻辑(ProgrammableArrayLogic，简称“PAL”)、随机存取存储器(RandomAccessMemory，简称“RAM”)、可编程只读存储器(ProgrammableReadOnlyMemory，简称“PROM”)、只读存储器(Read-OnlyMemory，简称“ROM”)、电可擦除可编程只读存储器(ElectricallyErasableProgrammableROM，简称“EEPROM”)、磁盘、光盘、数字通用光盘(DigitalVersatileDisc，简称“DVD”)等等。

本发明第四实施方式涉及一种对用户语音信号进行处理的系统，图7是该对用户语音信号进行处理的系统的结构示意图。

具体地说，该对用户语音信号进行处理的系统包括以下模块：

接收模块，用于接收用户语音信号，该用户语音信号混合了该语音终端通过话筒接收到的外部语音和该语音终端自身的双音多频按键音；

本实施方式提出的处理系统可以直接对用户语音信号进行处理，可以同时兼容语音终端通过话筒接收到的外部语音和该语音终端自身的双音多频按键音，而不用监听2833信令，对于不支持通过2833信令以检测语音结束的系统也能够适用，适用范围更广。

此外，可以理解，客户所输入的表示语音结束的预先设定的按键可以为#号键，也可以为其它约定好的按键。

支持DTMF的语音终端包括固定电话，移动电话等等。

在目前常用的RFC2833信令方式中，通过event字段对客户语音和DTMF信号进行编码且编码方式是不一样的，并根据RFC2833协议对数据进行封装，服务器通过解析数据包，监听DTMF信号并对语音和DTMF信号加以区分。

在一个优选例中，在预设按键状态检测模块中，包括以下子模块：

第一检测子模块，用于根据用户语音信号的频谱，检测各帧信号中预先设定的按键对应的双音多频目标频率分量的能量占全频带能量的比例是否超过第一阈值，如果超过，则判定该帧信号为按键对应的双音多频信号；

帧数比较子模块，用于将用户语音信号中为按键对应的双音多频信号的连续多帧的帧数与第二阈值进行比较；

第二检测子模块，用于如果帧数超过第二阈值，再检测连续多帧的前后帧是否不是按键对应的双音多频信号；

预设按键状态判定子模块，用于如果连续多帧的前后帧不是按键对应的双音多频信号，则判定在通话过程中预先设定的按键被按下。

第一实施方式是与本实施方式相对应的方法实施方式，本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第一实施方式中。

本发明第五实施方式涉及一种对用户语音信号进行处理的系统，图8是该对用户语音信号进行处理的系统的结构示意图。

第五实施方式在第四实施方式的基础上进行了改进，主要改进之处在于：

还包括语音识别应答模块，用于如果判定用户当前的语音输入已经结束，则停止语音信号的录制，并将录制的语音信号发送给语音识别服务器进行识别，再根据识别结果查询应答内容服务器得到应答结果并将应答结果转换为语音信号发送给语音终端。

判定语音结束后，语音识别服务器对语音信号进行识别，并根据识别结果查询到应答结果反馈给语音终端，用户仅通过描述需要咨询的问题即可得到应答服务，明显提高了用户感受。

预先设定的按键音为#号键。

此外，可以理解，#号键对应的第一频率和第二频率分别为941Hz和1477Hz。在本发明的其它实施方式中，预先设定的按键也可以为其它按键，如*号键，或两个或更多个键的组合，如12、997等。

第二实施方式是与本实施方式相对应的方法实施方式，本实施方式可与第二实施方式互相配合实施。第二实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第二实施方式中。

本发明第六实施方式涉及一种对用户语音信号进行处理的系统，第六实施方式在第五实施方式的基础上进行了改进，主要改进之处在于：本发明中结合预先设定的按键音的检测和语音活动检测，双重检测的方案降低了语音结束的漏检率。

具体地说，还包括语音活动检测模块，用于对用户语音信号进行语音活动检测，判断用户语音信号中静音时间是否达到设定的连续静音长度阈值，如果达到该连续静音长度阈值则判定为用户当前的语音输入已经结束。

此外，可以理解，在本发明中，既可以先进行预先设定的按键音的检测，也可以先进行语音活动检测，或者两者并行，而不局限于固定的模式。

本实施方式结合预先设定的按键音的检测和语音活动检测，如果预设按键状态检测模块检测到预先设定的按键被按下或者语音活动检测模块判断连续静音长度达到预设阈值，则判定用户当前的语音输入已经结束，双重检测的方案降低了语音结束的漏检率。

在一个优选例中，在语音活动检测模块中，包括以下子模块：

特征提取子模块，用于对用户语音信号进行特征提取；

神经网络子模块，用于将从用户语音信号中提取的特征输入到训练过的神经网络中，神经网络将输入的特征判别为静音和语音的概率；

语音和静音判决子模块，用于根据静音和语音的概率判决为静音或者语音；

连续静音长度计算子模块，根据静音或者语音的判决结果，计算连续静音的长度，如果达到设定的连续静音长度阈值，则判定为用户当前的语音输入已经结束。

优选地，神经网络子模块将提取的特征输入到训练过的深度神经网络中，该深度神经网络判别静音和语音的概率时具有更高的准确率。

在另一个优选例中，还包括深度神经网络训练模块，用于经过一个语音识别系统，获取语音数据和静音数据，并以获取到的语音数据和静音数据作为训练集合来训练深度神经网络。

在另一个优选例中，语音识别系统为基于隐马尔科夫模型和深度神经网络的语音识别系统，训练深度神经网络的步骤包括基于受限玻尔兹曼机的预训练和基于反向传播算法的训练。

第三实施方式是与本实施方式相对应的方法实施方式，本实施方式可与第三实施方式互相配合实施。第三实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第三实施方式中。

需要说明的是，本发明各设备实施方式中提到的各模块都是逻辑模块，在物理上，一个逻辑模块可以是一个物理模块，也可以是一个物理模块的一部分，还可以以多个物理模块的组合实现，这些逻辑模块本身的物理实现方式并不是最重要的，这些逻辑模块所实现的功能的组合才是解决本发明所提出的技术问题的关键。此外，为了突出本发明的创新部分，本发明上述各设备实施方式并没有将与解决本发明所提出的技术问题关系不太密切的模块引入，这并不表明上述设备实施方式并不存在其它的模块。

需要说明的是，在本专利的权利要求和说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

虽然通过参照本发明的某些优选实施方式，已经对本发明进行了图示和描述，但本领域的普通技术人员应该明白，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种对用户语音信号进行处理的方法，用户可通过输入特定按键表示语音结束，其特征在于，包括以下步骤：

服务器接收用户语音信号，该用户语音信号混合了该语音终端通过话筒接收到的外部语音和该语音终端自身的双音多频按键音；

根据所述频谱中预先设定的按键对应的双音多频目标频率分量的大小，判断在通话过程中预先设定的按键是否被按下；

2.根据权利要求1所述的对用户语音信号进行处理的方法，其特征在于，在所述判定用户当前的语音输入已经结束的步骤之后，还包括步骤：

3.根据权利要求1所述的对用户语音信号进行处理的方法，其特征在于，在所述"根据所述频谱中预先设定的按键对应的双音多频目标频率分量的大小，判断在通话过程中预先设定的按键是否被按下"的步骤中，包括以下子步骤：

根据所述用户语音信号的频谱，检测各帧信号中所述预先设定的按键对应的双音多频目标频率分量的能量占全频带能量的比例是否超过第一阈值，如果超过，则判定该帧信号为所述按键对应的双音多频信号；

将所述用户语音信号中为所述按键对应的双音多频信号的连续多帧的帧数与第二阈值进行比较；

如果所述帧数超过所述第二阈值，再检测所述连续多帧的前后帧是否不是所述按键对应的双音多频信号；

如果所述连续多帧的前后帧不是所述按键对应的双音多频信号，则判定在通话过程中预先设定的按键被按下。

4.根据权利要求1所述的对用户语音信号进行处理的方法，其特征在于，在所述“根据所述频谱中预先设定的按键对应的双音多频目标频率分量的大小，判断在通话过程中预先设定的按键是否被按下”的步骤之后，还包括步骤：

对所述用户语音信号进行语音活动检测，判断所述用户语音信号中静音时间是否达到设定的连续静音长度阈值，如果达到该连续静音长度阈值则判定为用户当前的语音输入已经结束。

5.根据权利要求4所述的对用户语音信号进行处理的方法，其特征在于，在所述“对所述用户语音信号进行语音活动检测，判断所述用户语音信号中静音时间是否达到设定的连续静音长度阈值，如果达到该连续静音长度阈值则判定为用户当前的语音输入已经结束”的步骤中，包括以下子步骤：

对所述用户语音信号进行特征提取；

将所述从用户语音信号中提取的特征输入到训练过的神经网络中，所述神经网络将所述输入的特征判别为静音和语音的概率；

根据所述静音和语音的概率判决为静音或者语音；

根据所述静音或者语音的判决结果，计算连续静音的长度，如果达到设定的连续静音长度阈值，则判定为用户当前的语音输入已经结束。

6.根据权利要求5所述的对用户语音信号进行处理的方法，其特征在于，在所述对用户语音信号进行特征提取的步骤中，所述特征包括PLP特征和基音信息，所述PLP特征和基音信息的一阶差分和二阶差分形成的42维的PLP特征。

7.根据权利要求4所述的对用户语音信号进行处理的方法，其特征在于，在所述“对所述用户语音信号进行语音活动检测，判断所述用户语音信号中静音时间是否达到设定的连续静音长度阈值，如果达到该连续静音长度阈值则判定为用户当前的语音输入已经结束”的步骤之前，还包括步骤：

经过一个语音识别系统，获取语音数据和静音数据，并以获取到的语音数据和静音数据作为训练集合来训练神经网络。

8.根据权利要求7所述的对用户语音信号进行处理的方法，其特征在于，所述语音识别系统为基于隐马尔科夫模型和深度神经网络的语音识别系统，所述训练神经网络的步骤包括基于受限玻尔兹曼机的预训练和基于反向传播算法的训练。

9.一种对用户语音信号进行处理的系统，其特征在于，包括以下模块：

预设按键状态检测模块，用于根据所述频谱中预先设定的按键对应的双音多频目标频率分量的大小，判断在通话过程中预先设定的按键是否被按下；

10.根据权利要求9所述的对用户语音信号进行处理的系统，其特征在于，还包括：

语音识别应答模块，用于如果判定用户当前的语音输入已经结束，则停止语音信号的录制，并将录制的语音信号发送给语音识别服务器进行识别，再根据识别结果查询应答内容服务器得到应答结果并将应答结果转换为语音信号发送给语音终端。

11.根据权利要求9所述的对用户语音信号进行处理的系统，其特征在于，在所述预设按键状态检测模块中，包括以下子模块：

第一检测子模块，用于根据所述用户语音信号的频谱，检测各帧信号中所述预先设定的按键对应的双音多频目标频率分量的能量占全频带能量的比例是否超过第一阈值，如果超过，则判定该帧信号为所述按键对应的双音多频信号；

帧数比较子模块，用于将所述用户语音信号中为所述按键对应的双音多频信号的连续多帧的帧数与第二阈值进行比较；

第二检测子模块，用于如果所述帧数超过所述第二阈值，再检测所述连续多帧的前后帧是否不是所述按键对应的双音多频信号；

预设按键状态判定子模块，用于如果所述连续多帧的前后帧不是所述按键对应的双音多频信号，则判定在通话过程中预先设定的按键被按下。

12.根据权利要求9所述的对用户语音信号进行处理的系统，其特征在于，还包括：

语音活动检测模块，用于对所述用户语音信号进行语音活动检测，判断所述用户语音信号中静音时间是否达到设定的连续静音长度阈值，如果达到该连续静音长度阈值则判定为用户当前的语音输入已经结束。

13.根据权利要求12所述的对用户语音信号进行处理的系统，其特征在于，在所述语音活动检测模块中，包括以下子模块：

特征提取子模块，用于对所述用户语音信号进行特征提取；

神经网络子模块，用于将所述从用户语音信号中提取的特征输入到训练过的神经网络中，所述神经网络将所述输入的特征判别为静音和语音的概率；

语音和静音判决子模块，用于根据所述静音和语音的概率判决为静音或者语音；

连续静音长度计算子模块，根据所述静音或者语音的判决结果，计算连续静音的长度，如果达到设定的连续静音长度阈值，则判定为用户当前的语音输入已经结束。

14.根据权利要求12所述的对用户语音信号进行处理的系统，其特征在于，还包括：

神经网络训练模块，用于经过一个语音识别系统，获取语音数据和静音数据，并以获取到的语音数据和静音数据作为训练集合来训练神经网络。

15.根据权利要求14所述的对用户语音信号进行处理的系统，其特征在于，所述语音识别系统为基于隐马尔科夫模型和深度神经网络的语音识别系统，所述训练神经网络的步骤包括基于受限玻尔兹曼机的预训练和基于反向传播算法的训练。