CN111508527B

CN111508527B - 一种电话应答状态检测方法、装置及服务器

Info

Publication number: CN111508527B
Application number: CN202010303826.0A
Authority: CN
Inventors: 易中华
Original assignee: Beijing Dipai Intelligent Technology Co ltd
Current assignee: Beijing Dipai Intelligent Technology Co ltd
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2021-03-12
Anticipated expiration: 2040-04-17
Also published as: CN111508527A

Abstract

本申请提供了一种电话应答状态检测方法、装置及服务器，能够实时生成与被呼叫用户的语音应答波形信号的预设时长片段相对应的特征帧；以及将特征帧输入到预先训练好的神经网络模型中，以得到特征帧的检测结果数据；以及将检测结果数据进行归一化处理，以得到被呼叫用户的应答状态结果数据；以及当应答状态结果数据指示一种应答状态的置信度大于预设阈值时，输出置信度大于预设阈值的应答状态。本申请的技术方案实现了在呼叫过程中对被呼叫用户的应答状态的实时检测，并且通过神经网络模型对语音应答波形信号的特征帧进行分析，以及对应答状态结果数据分析置信度的方式，保证了应答状态检测的准确性。

Description

一种电话应答状态检测方法、装置及服务器

技术领域

本申请涉及人工智能领域，尤其涉及一种电话应答状态检测方法、装置及服务器。

背景技术

在拨打电话的过程中，判断被叫方的应答状态可以称作应答状态检测，被叫方的应答状态例如可以包括空号、欠费、不再服务区、占线，挂断等。应答状态检测对于高频电话的人员和呼叫中心系统具有很高的实用价值。

目前，应答状态检测主要通过两种方式实现。一种是将各种应答状态的语音应答信息的声纹与声纹数据库中的声纹进行比较，以判断被叫方的应答状态，这种方法实际上是进行音色比较，对于相同音色的不同应答状态的语音应答信息则没有识别能力，因此在实际应用中，准确率难以保证。另一种是将不同应答状态的语音应答信息转化成文本，然后根据文本的内容判断应答状态，这种方法由于涉及到文本转化的过程，做不到实时检测，并且文本转化的准确率受到电话信道中语音的采样率、线路噪音和信号质量的影响很大，也难以保证准确性。

发明内容

本申请实施例提供了一种电话应答状态检测方法、装置及服务器，能够提高电话应答状态检测的准确性。

第一方面，本申请实施例提供了一种电话应答状态检测方法，该方法包括：实时生成与被呼叫用户的语音应答波形信号的预设时长片段相对应的特征帧；将特征帧输入到预先训练好的神经网络模型中，以得到特征帧的检测结果数据；将检测结果数据进行归一化处理，以得到被呼叫用户的应答状态结果数据；当应答状态结果数据指示一种应答状态的置信度大于预设阈值时，输出置信度大于预设阈值的应答状态。

在一种实现方式中，将特征帧输入到预先训练好的循环神经网络中，以得到特征帧的检测结果数据，包括：使用预先训练好的深度神经网络生成特征帧的预设维度的特征向量；将特征帧的特征向量输入到循环神经网络，以得到特征帧的检测结果数据。

在一种实现方式中，将特征帧输入到预先训练好的循环神经网络中，以得到特征帧的检测结果数据，包括：使用预先训练好的深度神经网络生成特征帧的预设维度的特征向量；将特征帧的特征向量与深度神经网络对历史特征帧生成的历史检测结果数据的记忆信号结合，并输入到循环神经网络，以得到特征帧的检测结果数据；其中，历史特征帧是根据在先获取的被呼叫用户的语音应答波形信号生成的。

在一种实现方式中，将特征帧输入到预先训练好的循环神经网络中，以得到特征帧的检测结果数据，包括：使用预先训练好的深度神经网络生成特征帧的预设维度的特征向量；将特征帧的特征向量、深度神经网络对历史特征帧生成的历史检测结果数据的记忆信号、以及前一个特征帧的应答状态结果数据相结合，并输入到循环神经网络，以得到特征帧的检测结果数据；其中，历史特征帧是根据在先获取的被呼叫用户的语音应答波形信号生成的。

在一种实现方式中，当应答状态结果数据指示的所有应答状态的置信度均不大于预设阈值时，继续根据后续生成的特征帧得到新的应答状态结果数据，直到新的应答状态结果数据指示一种应答状态的置信度大于预设阈值为止。

在一种实现方式中，特征帧包括与语音应答波形信号的预设时长片段相对应的线性谱信号，或者梅尔频谱信号，或者梅尔频率倒谱信号。

在一种实现方式中，深度神经网络的输出耦合至循环神经网络的输入，循环神经网络的输出耦合至用于对检测结果数据进行归一化处理的归一化指数函数层；神经网络模型通过以下方式训练：从样本波形信号中获取多个样本特征帧，每个样本特征帧对应样本波形信号的一个预设时长片段；对每个样本特征帧进行数据标注，以得到多个包含样本特征帧及其应答状态标注结果的数据对；将数据中的样本特征帧作为神经网络模型的输入，将数据对中的应答状态作为神经网络模型的输出，训练神经网络模型。

在一种实现方式中，对于任意一个当前输入的样本特征帧，以其在深度神经网络的输出数据和循环神经网络对历史样本特征帧的输出数据共同作为循环神经网络的输入数据。

在一种实现方式中，对于任意一个当前输入的样本特征帧，以其对应的应答状态结果数据、其在深度神经网络的输出数据和循环神经网络对历史样本特征帧的输出数据共同作为循环神经网络的输入数据。

第二方面，本申请实施例提供了一种电话应答状态检测装置，该装置包括：特征帧生成模块，用于实时生成与被呼叫用户的语音应答波形信号的预设时长片段相对应的特征帧；第一处理模块，用于将特征帧输入到预先训练好的神经网络模型中，以得到特征帧的检测结果数据；第二处理模块，用于将检测结果数据进行归一化处理，以得到被呼叫用户的应答状态结果数据；判决模块，用于当应答状态结果数据指示一种预设的应答状态，并且置信度大于预设阈值时，输出应答状态结果数据指示的应答状态。

第三方面，本申请实施例提供了一种服务器，该服务器包括存储器和处理器；存储器和处理器耦合；存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，当处理器执行计算机指令时，使服务器执行上述任意方面及其各个实现方式的方法。

由此，本申请实施例的技术方案实现了在呼叫过程中对被呼叫用户的应答状态的实时检测，并且，本申请实施的方法使用了神经网络模型对语音应答波形信号的特征帧进行分析，并且使用了阈值来保证分析结果的置信度，因此，既克服了声纹分析方法和语音转文字方法存在的不足，又保证了应答状态检测的准确性。

附图说明

图1是本申请实施例提供的一种电话应答状态检测方法的流程图；

图2是从语音应答波形信号生成特征帧的示意图；

图3是本申请实施例提供的一种神经网络模型的结构示意图；

图4是本申请实施例提供的另一种神经网络模型的结构示意图；

图5是本申请实施例提供的一种训练神经网络模型的方法的流程图；

图6是从样本波形信号生成样本特征帧的示意图；

图7是本申请实施例提供的训练神经网络模型的示意图；

图8是本申请实施例提供的训练神经网络模型的示意图；

图9是本申请实施例提供的一种电话应答状态检测装置的示意图。

具体实施方式

在拨打电话的过程中，判断被叫方的应答状态可以称作应答状态检测，被叫方的应答状态例如可以包括空号、欠费、不再服务区、占线，挂断等。应答状态检测对于高频电话的人员和呼叫中心系统具有很高的实用价值。例如，当呼叫中心系统向外拨打电话时，如果能够识别到被叫方的应答状态，则可以在用户应答状态为空号、欠费、不再服务区、占线，挂断时，立刻挂断电话，以继续其他的呼叫任务；如果不能识别到被叫方的应答状态，则会持续对该被叫方保持呼叫状态，直到经过预设的等待延时之后(例如60秒)，才会挂断电话，进行其他的呼叫任务。由此可见，如果能够如果在拨打电话的过程中，准确地识别被叫方的应答状态，就能够在适当应答状态下及时挂断电话，节省了等待的时间，提高呼叫效率。

目前一种应答状态检测方法将各种应答状态的语音应答信息的声纹与声纹数据库中的声纹进行比较，以判断被叫方的应答状态。上述语音应答信息例如：您所拨打的电话已关机、您所拨打的电话是空号、表示呼叫中的“嘟--嘟--嘟”音、以及表示占线的“嘟-嘟-嘟”音等。然而，由于声纹通常对应的是上述提示语音应答信息的音色，因此使用相同音色播报的不同应答状态的语音应答信息的声纹也可能是一样的，因此目前这种基于声纹的应答状态检测方法无法检测出使用相同音色播报的不同应答状态的语音应答信息，在实际应用中，准确率难以保证。

目前另一种应答状态检测方法将不同应答状态的语音应答信息转化成文本，然后根据文本的内容判断应答状态。然而，电话信道中的语音由于受到采样率、线路噪音和信号质量的影响，其质量不稳定，导致转化成的文本的准确性和完整性难以保证，进而影响应答状态检测的准确性。

由此可见，目前的应答状态检测方法通常无法准确地识别被叫方的应答状态，导致这些方法无法在呼叫中心系统等实际场景带来有益的效果。例如，当被叫方的应答状态从“拨号中”被错误地检测为“空号”时，呼叫中心系统就会挂断电话，从而导致可能拨通的电话被错过，降低了呼叫中心系统的业务性能；而当被叫方的应答状态从“占线”被错误地检测为“拨号中”时，呼叫中心系统就会保持呼叫状态，从而不能起到节省等待时间的目的。

为了解决现有技术的各种应答状态检测方法准确率较低的问题，本申请实施例提供了一种电话应答状态检测方法。该方法可以应用到电话设备、网络电话、呼叫中心系统等各类具备拨打电话功能的硬件和软件系统(以下简称系统)中。该方法如图1所示，包括以下步骤S101-步骤S104：

步骤S101，实时生成与被呼叫用户的语音应答波形信号的预设时长片段相对应的特征帧。

具体实现中，如图2所示，系统可以在拨出电话之后，持续记录接收到的语音应答波形信号，并且按照波形应答信号的时间顺序，将语音应答波形信号截取成连续的多个预设时长片段V0～Vn。其中，预设时长例如可以是10毫秒、20毫秒、30毫秒等，本申请实施例中不做具体限定。

这里需要说明的是，在系统向被叫方拨出电话之后，根据被叫方应答状态的不同，系统会接收到不同的语音应答信息，例如：您所拨打的电话已关机、您所拨打的电话是空号等，因此，系统这个时候记录到的语音应答波形信号实际上可能是上述语音应答信息的波形信号。

本申请实施例中，语音应答波形信号的每个预设时长片段对应生成一个特征帧，因此一个特征帧的长度可以与一个预设时长片段的长度相同。特征帧可以是与预设时长片段相对应的线性谱信号，或者梅尔频谱(mel bank features)信号，或者梅尔频率倒谱(melfrequency cepstrum)信号等。

示例地，如图2所示，如果一段样本波形信号被分割成n个预设时长片段V0～Vn，那么在步骤S101中可以生成n个相对应的特征帧A0～An。

本申请实施例中，特征帧是一个表征频率的信号，因此，由预设时长片段生成特征帧的过程可以通过一些时域-频域的转换得到，例如：傅立叶变换或者其他从时域-频域的变换等，本申请实施例对此不作限定。

步骤S102，将特征帧输入到预先训练好的神经网络模型中，以得到特征帧的检测结果数据。

在一种实现方式中，循环神经网络的结构如图3所示。该循环神经网络包括深度神经网络(Deep Neural Networks，DNN)、循环神经网络(Recurrent neural network，RNN)和归一化指数函数层softmax。其中，深度神经网络以特征帧作为输入，深度神经网络的输出耦合至循环神经网络的输入，循环神经网络的输出耦合至用于对检测结果数据进行归一化处理的归一化指数函数层。在循环神经网络用于生产环境之前，可以预先对其进行训练。

本申请实施例中，深度神经网络的作用是对特征帧进行数据维度的变换，例如对特征帧变换生成预设维度的特征向量，使得特征帧输入到循环神经网络的数据维度与循环神经网络能够接受的数据维度相一致。循环神经网络的作用是对来自深度神经网络的输入数据(例如特征向量)以及循环神经网络自身对历史特征帧的历史检测结果数据进行整合、变换得到特征帧的检测结果数据。其中，历史特征帧是指位于当前输入的特征帧之前的特征帧，历史特征帧的历史检测结果数据可以是循环神经网络对至少一个历史特征帧的历史检测结果不断传递产生的记忆信号。

步骤S103，将检测结果数据进行归一化处理，以得到被呼叫用户的应答状态结果数据。

具体实现中，归一化指数函数层以循环神经网络输出的检测结果数据作为输入，对检测结果数据进行概率归一化处理，得到被呼叫用户的应答状态结果数据。其中，应答状态结果数据可以包括被呼叫用户可能出现的每一种应答状态的概率。

在一种实现方式中，本申请实施例可以预先对每一种应答状态进行编号，例如表1所示：

应答状态	状态编号
		拨号中(无状态)	L0
不在服务区	L1
		停机	L2
空号	L3
		占线	L4
暂时无法接通	L5

表1

当以状态标号指代应答状态时，应答状态结果数据可以包括多个以状态编号为下标的概率值，例如：P_L1、P_L2、P_L3、P_L4、P_L5……。

步骤S104，当应答状态结果数据指示一种应答状态的置信度大于预设阈值时，输出置信度大于预设阈值的应答状态。

具体来说，当应答状态结果数据Zx＝{P_L1，P_L2，P_L3，P_L4，P_L5}中的任意一个概率值均小于或者等于预设阈值Pw时，循环神经网络不会输出结果；当应答状态结果数据Zx＝{P_L1，P_L2，P_L3，P_L4，P_L5}中存在至少一个概率值大于预设阈值Pw时，循环神经网络可以从输出数值最大的概率值，该数值最大的概率值的下标即指示了本次电话应答状态检测得到的被呼叫用户的应答状态。

示例地，当预设阈值Pw＝0.85时，如果应答状态结果数据Zx＝{P_L1＝0.3，P_L2＝0.1，P_L3＝0.75，P_L4＝0.15，P_L5＝0.1}，那么循环神经网络不会输出结果，如果应答状态结果数据Zx＝{P_L1＝0.3，P_L2＝0.1，P_L3＝0.9，P_L4＝0.15，P_L5＝0.1}，则循环神经网络可以输出P_L3＝0.9，表示本次电话应答状态检测得到的被呼叫用户的应答状态为空号。

需要补充说明的是，在实际应用场景中，对于实时进行的电话应答状态检测，特征帧是随着实时记录的语音应答波形信号而一帧一帧实时产生的。因此，因此特征帧也是一帧一帧的被输入到循环神经网络中的，每当输入一个新的特征帧Ax，循环神经网络就会得到其相应的应答状态结果数据Zx，并判断中是否包含置信度大于预设阈值的应答状态，如果包含，则输出该应答状态并结束检测任务，如果Zx包含的应答状态的置信度小于或者等于预设阈值，则循环神经网络会等待下一个特征帧Ax+1输入之后(当特征帧Ax生成时，特征帧Ax+1还没有生成)，得到相应的应答状态结果数据Zx+1，然后继续判断Zx+1中是否包含置信度大于预设阈值的应答状态，如此循环，直至出现置信度大于预设阈值的应答状态为止。

在另一种实现方式中，步骤S104还可以通过其他的方式输出应答状态，例如：判断是否有连续的几个特征帧(例如三个特征帧)的检测结果数据相同，并且不是L0状态，如果是，则输出这一应答状态，并且停止检测，如果不是，则继续检测。

在实际应用场景中，对于实时进行的电话应答状态检测，循环神经网络可以是如图3所示的单向循环结构。对于单向循环结构中的第x层循环，其深度神经网络用于对第x个特征帧Ax进行数据维度的变换，生成相应的特征向量Cx；其循环神经网络的输入可以是特征向量Cx与前一层循环中的深度神经网络对历史特征帧生成的历史检测结果数据的记忆信号Sx-1的结合，可以理解的是，历史特征帧是根据在先获取的被呼叫用户的语音应答波形信号生成的，例如Ax-1。需要补充说明的是，对于第一个特征帧Ax，其前一层循环中的深度神经网络对历史特征帧生成的历史检测结果数据的记忆信号S0可以是一个初始化值。

在实际应用场景中，对于实时进行的电话应答状态检测，循环神经网络可以是如图4所示的单向循环结构。该单向循环结构与图3所示的区别在于：其循环神经网络的输入是特征向量Cx、前一层循环中的深度神经网络对历史特征帧生成的历史检测结果数据的记忆信号Sx-1和前一个特征帧Ax-1的应答状态结果数据Zx-1的结合。由此，图4所示的单向循环结构通过将Zx-1引入到循环神经网络，增加了循环神经网络的信息流的维度，从而提升检测效果。

可以理解的是，在一些其他的设计中，前一个特征帧Ax-1的应答状态结果数据Zx-1还可以被引入到深度循环神经网络或者归一化指数函数层等，同样可以达到丰富信息流的维度，提升检测效果的作用，本申请实施例此处不再赘述。

需要补充说明的是，本申请实施例中的深度神经网络可以包括一层深度神经网络也可以包括多层深度神经网络的堆叠；本申请实施例中的循环神经网络可以包括一层深度神经网络也可以包括多层循环神经网络的堆叠；其中，循环神经网络例如可以是长短期记忆网络LSTM，门控递归单元网络GRU，以及LSTM和/或GRU的各类衍生网络等。

本申请实施例提供的电话应答状态检测方法，实时生成与被呼叫用户的语音应答波形信号的预设时长片段相对应的特征帧；将特征帧输入到预先训练好的神经网络模型中，以得到特征帧的检测结果数据；将检测结果数据进行归一化处理，以得到被呼叫用户的应答状态结果数据；当应答状态结果数据指示一种应答状态的置信度大于预设阈值时，输出置信度大于预设阈值的应答状态。由此，本申请实施例的方法实现了在呼叫过程中对被呼叫用户的应答状态的实时检测，并且，本申请实施的方法使用了神经网络模型对语音应答波形信号的特征帧进行分析，并且使用了阈值来保证分析结果的置信度，因此，既克服了声纹分析方法和语音转文字方法存在的不足，又保证了应答状态检测的准确性。

本申请实施例还提供了一种训练神经网络模型的方法，该方法如图5所示包括：

步骤S201，从样本波形信号中获取多个样本特征帧，每个样本特征帧对应样本波形信号的一个预设时长片段。

其中，样本波形信号时训练神经网络模型使用的素材。样本波形信号时已知应答状态的波形信号，可以通过搜集各个运营商的各种应答状态的语音应答信息得到。

具体实现中，对于任意一个样本波形信号，可以将其分割成多个预设时长的片段。其中，预设时长例如可以是10毫秒、20毫秒、30毫秒等，本申请实施例中不做具体限定，但是优选与步骤S101分割语音应答波形信号时使用的预设时长相同。

本申请实施例中，样本波形信号的每个预设时长片段对应生成一个样本特征帧，因此一个样本特征帧的长度可以与一个预设时长片段的长度相同。样本特征帧可以是与预设时长片段相对应的线性谱信号，或者梅尔频谱(mel bank features)信号，或者梅尔频率倒谱(mel frequency cepstrum)信号等。

示例地，如图6所示，如果一段样本波形信号被分割成n个预设时长片段Y0～Yn，本申请实施例可以生成n个相对应的样本特征帧B0～Bn。

本申请实施例中，样本特征帧是一个表征频率的信号，因此，由样本波形信号的预设时长片段生成样本特征帧的过程可以通过一些时域-频域的转换得到，例如：傅立叶变换或者其他从时域-频域的变换等，本申请实施例对此不作限定。

可以理解的是，由于一段样本波形信号可以分割出多个预设时长片段，因此一段样本波形信号最终会对应一个样本特征帧序列。例如：样本波形信号1可以对应样本特征帧B0～Bn，样本波形信号2可以对应样本特征帧Bn+1～Bm，样本波形信号3可以对应样本特征帧Bm+1～Bp。

步骤S202，对每个样本特征帧进行数据标注，以得到多个包含样本特征帧及其应答状态标注结果的数据对。

具体实现中，根据样本波形信号对应的应答状态，可以使用如表1所示的状态编号对各个样本特征帧进行标注。例如，如果样本波形信号1对应的应答状态是“拨号中”，那么样本特征帧B0～Bn均可以被标注为L0；如果样本波形信号2对应的应答状态是“不在服务区”，那么样本特征帧Bn+1～Bm均可以被标注为L1；如果样本波形信号3对应的应答状态是“停机”，那么样本特征帧Bm+1～Bp均可以被标注为L2。通过上述标注，可以得到样本的数据集，该数据集包含样本特征帧的序列B0～Bp及其应答状态标注结果的序列Z0～Zp。数据集中的序列形成多对样本特征帧及其应答状态标注结果(B，Z)。

需要补充说明的是，在实际应用中，不同应答状态的语音应答信息的开头可能包含相同的内容。例如“对不起，您所拨打的电话已关机”和“对不起，您所拨打的电话是空号”的开头均包含“对不起，您所拨打的电话”。又例如，不同应答状态的语音应答信息的开头还可以包括一些相同的静音或噪音片段。由此可见，上述“相同的内容”以及如静音或噪音等无效的语音片段无法被用于分辨应答状态。

可以理解的是，对于不同语音应答信息中的“相同的内容”来说，它们对应的样本特征帧也可能是相同或者相近的，这使得上述“相同的内容”对应的样本特征帧一般也无法被用于分辨应答状态。因此，本申请实施例在步骤S202中，可以对上述“相同的内容”以及其他无效的语音片段对应的样本特征帧标注为一种特殊的状态，可以称为无效状态，该无效状态与前述应答状态(例如：L0-L5)共同组成Lx状态标注集合，在训练后的神经网络模型用于电话应答状态检测时，如果判决结果为无效状态，将继续进行后续检测，而不是结束检测过程。

步骤S203，将数据中的样本特征帧作为神经网络模型的输入，将数据对中的应答状态作为神经网络模型的输出，训练神经网络模型。

具体实现中，如图7所示，样本特征帧及其应答状态标注结果的输入输出具有对应关系，例如B0对应Z0，B1对应Z1，B2对应Z2，Bp对应Zp等。

可选的，如图7所示，在训练神经网络模型时，对于任意一个当前输入的样本特征帧，以其在深度神经网络的输出数据和循环神经网络对历史样本特征帧的输出数据共同作为循环神经网络的输入数据。

示例地，如果当前输入的样本特征帧为B0，那么循环神经网络对历史样本特征帧的输出数据为S0，则循环神经网络以B0在深度神经网络的输出数据和S0作为输入数据，并且循环神经网络此次的输出数据为S1。

示例地，如果当前输入的样本特征帧为B1，那么循环神经网络对历史样本特征帧的输出数据为S1，则循环神经网络以B1在深度神经网络的输出数据和S1作为输入数据，并且循环神经网络此次的输出数据为S2。

示例地，如果当前输入的样本特征帧为Bt(t∈[0，p])，那么循环神经网络对历史样本特征帧的输出数据为St，则循环神经网络以Bt在深度神经网络的输出数据和St作为输入数据，并且循环神经网络此次的输出数据为St+1。

可选的，如图8所示，在训练神经网络模型时，对于任意一个当前输入的样本特征帧，以其前一个样本特征帧对应的应答状态标注结果、其在深度神经网络的输出数据和循环神经网络对历史样本特征帧的输出数据共同作为循环神经网络的输入数据。

示例地，如果当前输入的是第一个样本特征帧B0，那么“前一个样本特征帧对应的应答状态标注结果”可以是一个初始化值，循环神经网络对历史样本特征帧的输出数据为S0，则循环神经网络以B0在深度神经网络的输出数据、以及上述初始化值和S0作为输入数据，并且循环神经网络此次的输出数据为S1。

示例地，如果当前输入的样本特征帧为B1，那么其前一个样本特征帧B0对应的应答状态标注结果为Z0，那么循环神经网络对历史样本特征帧的输出数据为S1，则循环神经网络以B1在深度神经网络的输出数据、以及Z0和S1作为输入数据，并且循环神经网络此次的输出数据为S2。

示例地，如果当前输入的样本特征帧为Bt(t∈[0，p])，那么其前一个样本特征帧Bt-1对应的应答状态标注结果Zt-1，那么循环神经网络对历史样本特征帧的输出数据为St，则循环神经网络以Bt在深度神经网络的输出数据、以及Zt-1和St作为输入数据，并且循环神经网络此次的输出数据为St+1。

本申请实施例提供的训练神经网络模型的方法，对样本特征帧进行标注，得到多个包含样本特征帧及其应答状态标注结果的数据对，然后使用数据对训练神经网络模型，使得神经网络模型具备对未知的特征帧对应的额应答状态进行预测的能力，并且在使用过程中还可以向神经网络模型不断投喂新的数据对，使得神经网络模型的预测结果越来越准确，从而保证了应答状态检测的准确性。

本申请实施例还提供了一种电话应答状态检测装置，该装置如图9所示包括：

特征帧生成模块301，用于实时生成与被呼叫用户的语音应答波形信号的预设时长片段相对应的特征帧；

第一处理模块302，用于将特征帧输入到预先训练好的循环神经网络中，以得到特征帧的检测结果数据；

第二处理模块303，用于将检测结果数据进行归一化处理，以得到被呼叫用户的应答状态结果数据；

判决模块304，用于当应答状态结果数据指示一种预设的应答状态，并且置信度大于预设阈值时，输出应答状态结果数据指示的应答状态。

本领域技术人员应该很容易意识到，上述装置及其各个模块的功能本申请可以以计算机软件、硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例提供的电话应答状态检测装置，能够实时生成与被呼叫用户的语音应答波形信号的预设时长片段相对应的特征帧；将特征帧输入到预先训练好的神经网络模型中，以得到特征帧的检测结果数据；将检测结果数据进行归一化处理，以得到被呼叫用户的应答状态结果数据；当应答状态结果数据指示一种应答状态的置信度大于预设阈值时，输出置信度大于预设阈值的应答状态。由此，本申请实施例的装置实现了在呼叫过程中对被呼叫用户的应答状态的实时检测，并且，本申请实施的方法使用了神经网络模型对语音应答波形信号的特征帧进行分析，并且使用了阈值来保证分析结果的置信度，因此，既克服了声纹分析方法和语音转文字方法存在的不足，又保证了应答状态检测的准确性。

本申请实施例还提供了一种服务器，该服务器包括存储器和处理器；存储器和处理器耦合；存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，当处理器执行计算机指令时，使服务器执行上述实施例中的各个功能或者步骤。

本申请实施例还提供一种计算机存储介质，该计算机存储介质包括计算机指令，当计算机指令在上述电子设备上运行时，使得该计算机执行上述实施例中的各个功能或者步骤。

本申请实施例还提供一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述实施例中的各个功能或者步骤。

Claims

1.一种电话应答状态检测方法，其特征在于，包括：

在持续记录接收到的被呼叫用户的语音应答波形信号的过程中，实时生成与所述语音应答波形信号的预设时长片段相对应的特征帧；

使用预先训练好的深度神经网络逐帧生成所述特征帧的预设维度的特征向量；

实时将生成的所述特征帧的特征向量与预先训练好的循环神经网络对历史特征帧生成的历史检测结果数据的记忆信号结合，并逐帧输入到所述循环神经网络，以逐帧得到所述特征帧的检测结果数据；或者，实时将生成的所述特征帧的特征向量、所述循环神经网络对历史特征帧生成的历史检测结果数据的记忆信号、以及前一个特征帧的应答状态结果数据相结合，并逐帧输入到所述循环神经网络，以逐帧得到所述特征帧的检测结果数据；其中，所述历史特征帧是根据在先获取的被呼叫用户的语音应答波形信号生成的；

实时将所述检测结果数据进行归一化处理，以逐帧得到所述特征帧对应的应答状态结果数据；

当所述应答状态结果数据指示一种应答状态的置信度大于预设阈值时，输出所述置信度大于预设阈值的应答状态。

2.根据权利要求1所述的方法，其特征在于，

当所述应答状态结果数据指示的所有应答状态的置信度均不大于预设阈值时，继续根据后续生成的特征帧得到新的应答状态结果数据，直到新的应答状态结果数据指示一种应答状态的置信度大于预设阈值为止。

3.根据权利要求2所述的方法，其特征在于，所述深度神经网络的输出耦合至所述循环神经网络的输入，所述循环神经网络的输出耦合至用于对所述检测结果数据进行归一化处理的归一化指数函数层；所述神经网络模型通过以下方式训练：

从样本波形信号中获取多个样本特征帧，每个样本特征帧对应所述样本波形信号的一个预设时长片段；

对每个所述样本特征帧进行数据标注，以得到多个包含样本特征帧及其应答状态标注结果的数据对；

将所述数据中的样本特征帧作为所述神经网络模型的输入，将所述数据对中的应答状态作为所述神经网络模型的输出，训练所述神经网络模型。

4.根据权利要求3所述的方法，其特征在于，

对于任意一个当前输入的样本特征帧，以其在所述深度神经网络的输出数据和所述循环神经网络对历史样本特征帧的输出数据共同作为所述循环神经网络的输入数据。

5.根据权利要求3所述的方法，其特征在于，

对于任意一个当前输入的样本特征帧，以其前一个样本特征帧对应的应答状态标注结果、其在所述深度神经网络的输出数据和所述循环神经网络对历史样本特征帧的输出数据共同作为所述循环神经网络的输入数据。

6.一种电话应答状态检测装置，其特征在于，包括：

特征帧生成模块，用于在持续记录接收到的被呼叫用户的语音应答波形信号的过程中，实时生成与所述语音应答波形信号的预设时长片段相对应的特征帧；

第一处理模块，用于使用预先训练好的深度神经网络逐帧生成所述特征帧的预设维度的特征向量；

所述第一处理模块，还用于实时将生成的所述特征帧的特征向量与预先训练好的循环神经网络对历史特征帧生成的历史检测结果数据的记忆信号结合，并逐帧输入到所述循环神经网络，以逐帧得到所述特征帧的检测结果数据；或者，实时将生成的所述特征帧的特征向量、所述循环神经网络对历史特征帧生成的历史检测结果数据的记忆信号、以及前一个特征帧的应答状态结果数据相结合，并逐帧输入到所述循环神经网络，以逐帧得到所述特征帧的检测结果数据；其中，所述历史特征帧是根据在先获取的被呼叫用户的语音应答波形信号生成的；

第二处理模块，用于实时将所述检测结果数据进行归一化处理，以逐帧得到所述特征帧对应的应答状态结果数据；

判决模块，用于当所述应答状态结果数据指示一种预设的应答状态，并且置信度大于预设阈值时，输出所述应答状态结果数据指示的应答状态。

7.一种服务器，其特征在于，包括存储器和处理器；所述存储器和所述处理器耦合；所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述处理器执行所述计算机指令时，使所述服务器执行如权利要求1-5中任一项所述的方法。