CN110636176A

CN110636176A - 一种通话故障检测方法、装置、设备及存储介质

Info

Publication number: CN110636176A
Application number: CN201910954174.4A
Authority: CN
Inventors: 郑春; 王光华; 程甦; 黄达志; 赵艳琼; 吴晓燕; 王成政; 王君诚; 王国荣; 武苑; 张滢; 桂国富
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2019-10-09
Filing date: 2019-10-09
Publication date: 2019-12-31
Anticipated expiration: 2039-10-09
Also published as: CN110636176B

Abstract

本申请提出一种通话故障检测方法、装置、设备及存储介质，其中，该方法包括：分别确定终端通话记录中的各个下行音频数据帧的语音能量值，以及分别确定所述各个下行音频数据帧的噪声能量值；根据所述各个下行音频数据帧的语音能量值和噪声能量值，从所述终端通话记录中筛选出静音音频数据段；从所述终端通话记录中的、位于目标时间段内的通话记录中检测预设的至少一个通话故障关键词；如果检测到所述预设的至少一个通话故障关键词中的设定数量的通话故障关键词，则确定在所述目标时间段内发生了通话故障。通过执行本申请技术方案，可以实现对终端通话故障的检测、识别。

Description

一种通话故障检测方法、装置、设备及存储介质

技术领域

本申请涉及移动通信技术领域，尤其涉及一种通话故障检测方法、装置、设备及存储介质。

背景技术

随着移动通信技术的快速发展，使用移动终端进行语音通话已经成为人们生活中必不可少的通信方式。

移动通信用户数量的不断增长，使得通信网络压力越来越大，通信过程中发生通话故障的概率也越来越大。此时，检测移动通信过程中的通话故障，成为了移动通信网络运营商解决用户通话故障、提升服务质量的关键，也是移动通信网络运营商的迫切需求。

发明内容

基于上述需求，本申请提出一种通话故障检测方法、装置、设备及存储介质，能够对移动通信过程中的通话故障进行检测。

一种通话故障检测方法，包括：

分别确定终端通话记录中的各个下行音频数据帧的语音能量值，以及分别确定所述各个下行音频数据帧的噪声能量值；其中，所述各个下行音频数据帧的语音能量值包括通过所述各个下行音频数据帧传输至终端的语音能量值；

根据所述各个下行音频数据帧的语音能量值和噪声能量值，从所述终端通话记录中筛选出静音音频数据段；其中，所述静音音频数据段的语音能量值小于噪声能量值，并且所述静音音频数据段的信息熵小于设定的信息熵阈值；

从所述终端通话记录中的、位于目标时间段内的通话记录中检测预设的至少一个通话故障关键词；其中，所述目标时间段包括所述静音音频数据段所对应的时间段；

如果检测到所述预设的至少一个通话故障关键词中的设定数量的通话故障关键词，则确定在所述目标时间段内发生了通话故障。

可选的，所述分别确定终端通话记录中的各个下行音频数据帧的语音能量值，包括：

从终端侧网关采集得到终端通话记录，并将所述终端通话记录中的下行通话记录划分成下行音频数据帧；

分别确定各个下行音频数据帧中的下行语音能量值，以及分别确定所述终端侧网关与所述终端之间的数据通道在所述各个下行音频数据帧的能量损耗系数；其中，所述下行语音能量值包括所述终端侧网关下行发送的语音数据的能量值；

根据所述各个下行音频数据帧中的下行语音能量值，以及所述数据通道在所述各个下行音频数据帧的能量损耗系数，计算得到所述终端通话记录中的所述各个下行音频数据帧的语音能量值。

可选的，所述分别确定所述终端侧网关与所述终端之间的数据通道在所述各个下行音频数据帧的能量损耗系数，包括：

将所述终端通话记录中的上行通话记录划分成各个上行音频数据帧，其中，所述上行音频数据帧的时间间隔与所述下行音频数据帧的时间间隔相同；

分别提取得到每个所述上行音频数据帧的预设传输网络参数；

分别对每个所述上行音频数据帧的预设传输网络参数进行组合计算，得到每个所述上行音频数据帧的传输特征信息；

对每个所述上行音频数据帧的传输特征信息分别进行逻辑回归拟合计算，并将各个计算结果分别设定为所述终端侧网关与所述终端之间的数据通道在所述各个下行音频数据帧的能量损耗系数。

可选的，所述从终端侧网关采集得到终端通话记录，包括：

从终端侧网关抓取实时传输协议数据包和实时传输控制协议数据包；

对抓取得到的实时传输协议数据包和实时传输控制协议数据包进行编解码处理，得到终端通话记录。

可选的，所述根据所述各个下行音频数据帧的语音能量值和噪声能量值，从所述终端通话记录中筛选出静音音频数据段，包括：

通过将所述各个下行音频数据帧的语音能量值和噪声能量值进行对比，从所述终端通话记录中筛选出目标音频数据段；其中，所述目标音频数据段所包含的每个下行音频数据帧的语音能量值均小于噪声能量值；

分别计算得到每个所述目标音频数据段所包含的每个数据帧的信息熵；

根据各个所述目标音频数据段所包含的各个数据帧的信息熵，从所述终端通话记录中筛选出静音音频数据段；其中，所述静音音频数据段所包含的每个数据帧的信息熵均小于设定的信息熵阈值。

可选的，所述通过将所述各个下行音频数据帧的语音能量值和噪声能量值进行对比，从所述终端通话记录中筛选出目标音频数据段，包括：

通过将所述各个下行音频数据帧的语音能量值和噪声能量值进行对比，从所述各个下行音频数据帧中筛选出目标音频数据帧；其中，所述目标音频数据帧的语音能量值小于噪声能量值；

从筛选出的各个所述目标音频数据帧中，筛选出由连续的所述目标音频数据帧组成、并且其时长满足设定的时长要求的音频数据段，作为目标音频数据段。

可选的，所述分别计算得到每个所述目标音频数据段所包含的每个数据帧的信息熵，包括：

对应每个所述目标音频数据段，分别执行以下处理：

将所述目标音频数据段划分为数据帧；

对应每个所述目标音频数据段所包含的每个所述数据帧，分别执行以下处理：

将所述数据帧划分为数据子帧；

分别对每个所述数据子帧进行小波变换处理；

分别计算得到每个所述数据子帧的信息熵；

对各个所述数据子帧的信息熵进行累加处理，得到所述数据帧的信息熵。

一种通话故障检测装置，包括：

计算单元，用于分别确定终端通话记录中的各个下行音频数据帧的语音能量值，以及分别确定所述各个下行音频数据帧的噪声能量值；其中，所述各个下行音频数据帧的语音能量值包括通过所述各个下行音频数据帧传输至终端的语音能量值；

筛选单元，用于根据所述各个下行音频数据帧的语音能量值和噪声能量值，从所述终端通话记录中筛选出静音音频数据段；其中，所述静音音频数据段的语音能量值小于噪声能量值，并且所述静音音频数据段的信息熵小于设定的信息熵阈值；

检测单元，用于从所述终端通话记录中的、位于目标时间段内的通话记录中检测预设的至少一个通话故障关键词；其中，所述目标时间段包括所述静音音频数据段所对应的时间段；如果检测到所述预设的至少一个通话故障关键词中的设定数量的通话故障关键词，则确定在所述目标时间段内发生了通话故障。

可选的，所述计算单元分别确定终端通话记录中的各个下行音频数据帧的语音能量值时，具体用于：

可选的，所述计算单元分别确定所述终端侧网关与所述终端之间的数据通道在所述各个下行音频数据帧的能量损耗系数时，具体用于：

可选的，所述计算单元从终端侧网关采集得到终端通话记录时，具体用于：

可选的，所述筛选单元根据所述各个下行音频数据帧的语音能量值和噪声能量值，从所述终端通话记录中筛选出静音音频数据段时，具体用于：

可选的，所述筛选单元通过将所述各个下行音频数据帧的语音能量值和噪声能量值进行对比，从所述终端通话记录中筛选出目标音频数据段时，具体用于：

可选的，所述筛选单元分别计算得到每个所述目标音频数据段所包含的每个数据帧的信息熵时，具体用于：

对应每个所述目标音频数据段，分别执行以下处理：

将所述目标音频数据段划分为数据帧；

将所述数据帧划分为数据子帧；

分别对每个所述数据子帧进行小波变换处理；

分别计算得到每个所述数据子帧的信息熵；

一种通话故障检测设备，包括：

存储器和处理器；

其中，所述存储器与所述处理器连接，用于存储程序；

所述处理器，用于通过运行所述存储器中存储的程序，实现上述的通话故障检测方法。

一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现上述的通话故障检测方法。

本申请提出的通话故障检测方法通过从终端通话记录中检测静音音频数据段，初步检测出终端接收到的语音能量小于噪声能量的音频数据段。然后，本申请进一步从检测出的静音音频数据段对应的终端通话记录中检测通话故障关键词，如果检测到设定数量的通话故障关键词，则可以确定该终端在上述静音音频数据段对应的时间段内发生了通话故障。通过执行本申请技术方案，可以实现对终端通话故障的检测、识别。

进一步的，本申请技术方案对终端通话故障的检测，是基于终端通话记录中的语音能量值、噪声能量值、音频数据段的信息熵和通话记录中的关键词的检测、计算、比对而实现的，其检测过程都是基于客观的参数和对比、计算方法实现的，因此对于通话故障的检测更加客观、更加准确。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本申请实施例提供的VOLTE语音数据包流向示意图；

图2是本申请实施例提供的一种通话故障检测方法的流程示意图；

图3是本申请实施例提供的确定下行音频数据帧的语音能量值的处理流程示意图；

图4是本申请实施例提供的另一种通话故障检测方法的流程示意图；

图5是本申请实施例提供的一种通话故障检测装置的结构示意图；

图6是本申请实施例提供的一种通话故障检测设备的结构示意图。

具体实施方式

本申请实施例技术方案适用于在用户移动通信过程中检测、识别通话故障的应用场景。采用本申请实施例技术方案，能够检测用户终端通话过程中是否发生通话故障。

示例性的，任意两个用户终端之间进行移动通信的数据交互过程可参见图1所示的VOLTE(Voice Over Long-Term Evolution，长期演进语音承载)语音数据包流向示意图。其中，UE1和UE2分别表示通信双方的移动终端，假设UE1为主叫，其可以主动向被叫UE2发起通话请求，即UE1向UE2拨打电话，当UE2接听该通话请求时，双方建立如图1所示的通信链路。

由UE1发送的主叫语音流通过空口上传至主叫侧基站EnodeB，然后主叫侧基站EnodeB将该主叫语音流通过系统网关SAEGW上传至IMS(IP Multimedia Subsystem，IP多媒体子系统)域，使该主叫语音流进入系统网络传输。

当该主叫语音流通过系统网络传输至目的IMS域出口时，该主叫语音流由目的IMS域通过系统网关SAEGW下行传输至被叫侧基站EnodeB，然后被叫侧基站EnodeB将该主叫语音流通过空口发送给目的终端UE2，即实现了UE1向UE2发送语音数据。

相应的，UE2向UE1发送的被叫语音流的传输过程与上述的主叫语音流的传输过程类似，只是数据传输方向相反。则可以理解，通信双方的数据传输过程具有高度的对称性，通信双方其中一方的数据上行和数据下行过程，分别与对方的数据上行和数据下行过程相同，即，对于处于同一通信网络中的终端来说，其数据上行和数据下行过程都是相同的。

当通信双方UE1和UE2在通话过程中发生数据包丢失、数据链路中断或信号干扰时，会造成通话故障。对于用户来说，对通话故障的感知非常直接，例如用户在通话过程中能够直接感受到无法听清对方语音、对方语音断续等故障情况。但是对于通信网络运营商来说，由于无法直接参与通话过程，无法确定通信双方是否成功接收到对方发送的语音，对于呼叫建立后的通话故障的检测比较困难。

基于上述难题，本申请实施例提出一种通话故障检测方法，能够有效检测用户通话过程中是否发生通话故障，从而可以为排查通信网络故障提供预警。

作为示例性的实现方式，本申请实施例技术方案可应用于通信网络监控设备、处理器等硬件装置，或者也可以编写成软件程序被运行。

本申请实施例技术方案可以应用于任意形式的移动通信场景，而并不限于如图1所示的双方通信场景，例如还可以应用于群组呼叫、群组广播等通信场景中。

示例性的，本申请实施例以检测图1所示的通信场景中的UE2是否发生通话故障为例，介绍本申请实施例提出的通话故障检测方法的处理过程。而对于本申请实施例技术方案的执行方式、执行主体、应用场景等，均不做限定。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图2所示，本申请实施例提出的通话故障检测方法，包括：

S201、分别确定终端通话记录中的各个下行音频数据帧的语音能量值，以及分别确定所述各个下行音频数据帧的噪声能量值。

其中，所述各个下行音频数据帧的语音能量值包括通过所述各个下行音频数据帧传输至终端的语音能量值。

具体的，上述的终端通话记录，是指用户终端在与对端建立通话后，在通话过程中所发送和接收的语音数据的记录。可以理解，在上述终端通话记录中，包括用户终端接收的下行音频数据和用户终端发送的上行音频数据。

示例性的，参见图1所示，在数据链路的系统网关SAEGW处可以采集到UE1和UE2收发的音频数据包，即采集得到UE1和UE2的通话记录。本申请实施例从UE2一侧的系统网关SAEGW处采集得到从IMS域发送至UE2的下行音频数据包，以及从UE2发送至IMS域的上行音频数据包。然后，将从IMS域发送至UE2的下行音频数据包中的下行音频数据，按照设定的时间间隔划分为下行音频数据帧。

对应每个下行音频数据帧分别计算数据帧中的语音数据的能量值，得到各个下行音频数据帧的语音能量值E₁、E₂、…E_n。

当发送给UE2的下行音频数据从UE2一侧的IMS域传输至UE2时，IMS域与UE2之间的数据通道会对下行音频数据带来损耗。因此，本申请实施例在确定上述的从IMS域发送至UE2的下行音频数据包中的各个下行音频数据帧的语音能量值E₁、E₂、…E_n后，用各个下行音频数据帧的语音能量值E₁、E₂、…E_n分别减去语音能量在IMS域与UE2之间的数据通道中的损耗，即可得到通过各个下行音频数据帧真正传输至终端的语音能量值EV₁、EV₂、…EV_n，也就是得到上述的终端通话记录中的各个下行音频数据帧的语音能量值。

另一方面，本申请实施例分别提取上述的各个下行音频数据帧中的噪声数据，也就是提取UE2在接收上述各个下行音频数据帧中的同时，接收到的噪声数据，并对提取到的噪声数据计算能量值，得到每个下行音频数据帧的噪声能量值S₁、S₂、…S_n。

示例性的，本申请实施例采用语音活动检测(Voice Activity Detection，VAD)方法，分别计算上述的各个下行音频数据帧中的语音数据的语音能量值和噪声数据的噪声能量值。

S202、根据所述各个下行音频数据帧的语音能量值和噪声能量值，从所述终端通话记录中筛选出静音音频数据段。

其中，所述静音音频数据段的语音能量值小于噪声能量值，并且所述静音音频数据段的信息熵小于设定的信息熵阈值；

具体的，本申请实施例将满足设定的时长要求，并且所包含的每个下行音频数据帧的语音能量值均小于噪声能量值，以及整个音频数据段的信息熵小于设定的信息熵阈值的音频数据段，设定为静音音频数据段。

其中，上述满足设定的时长要求，包括但不限于音频数据段的时长为设定时长，例如为4秒；或者是音频数据段的时长大于设定时长，例如大于4秒等。

示例性的，本申请实施例将上述的各个下行音频数据帧的语音能量值和噪声能量值进行对比，从中选出语音能量值小于噪声能量值的下行音频数据帧。然后，从选出的下行音频数据帧中进一步筛选出连续的、满足设定的时长要求的下行音频数据帧，组成音频数据段。进一步的，从各个音频数据段中选出信息熵小于设定的信息熵阈值的音频数据段，作为静音音频数据段。

对于语音信号来说，语音信号的信息熵能够表示语音信号所包含的信息的信息量和确定性。如果语音信号包含的信息内容越确定、信息内容越少，则其信息熵就越小，反之，如果语音信号包含的信息内容越不确定，信号内容越多，则其信息熵就越大。因此，上述音频数据段的信息熵，能够反映音频数据段所包含的信息量，音频数据段的信息熵越小，则说明该音频数据段所包含的信息量越少。

可以理解，如果从UE1发送至UE2的音频数据段是上述的静音音频数据段，则根据静音音频数据段的特征可以确定，UE2在该静音音频数据段接收到的语音能量值小于噪声能量值，并且接收到的信息量较少，此时UE2是无法听清楚UE1的语音的，甚至完全听不到UE1的语音。即，在上述处理检测到的静音音频数据段内，很可能发生了通话故障。

但是，由于UE1和UE2之间通话内容的不确定性，单单从UE2的通话记录中检测出静音音频数据段还不能完全确定在该静音音频数据段中发生了通话故障，因为可能UE1在上述静音音频数据段内并没有说话，则此时在该静音音频数据段内原本就不存在语音数据，在这种情况下，上述静音音频数据段的检出是正常的。

为了准确识别上述的静音音频数据段内是否发生了通话故障，本申请实施例针对检测到的静音音频数据段，继续进行如下处理：

S203、从所述终端通话记录中的、位于目标时间段内的通话记录中检测预设的至少一个通话故障关键词。

其中，所述目标时间段包括所述静音音频数据段所对应的时间段；

具体的，本申请实施例将包括上述步骤S202中确定出的静音音频数据段的时间段，设定为目标时间段。作为一种简单的设置方式，本申请实施例直接将上述静音音频数据段对应的时间段，设定为目标时间段。

然后，从上述的终端通话记录中的、位于上述目标时间段内的通话记录中，也就是从UE2发送的位于上述目标时间段内的通话记录中，检测预设的至少一个通话故障关键词。

示例性的，上述的通话故障关键词，是指由UE2语音发送的，可以反映通话故障的关键词，例如“喂”、“听不见”、“说话啊”、“能听到吗”等。

在常规的通话场景中，当发生听不清对方语音，或者双方通话断续、中断等情况时，用户会说出上述的通话故障关键词，用于与对方确认是否通话顺畅。则可以理解，当用户说出上述的关键词时，可以一定程度上反映出此时用户通话不顺畅。因此，本申请实施例在从终端通话记录中检测出UE1发送至UE2的静音音频数据段后，进一步从与该静音音频数据段相同时间段的UE2通话记录中检测上述的通话故障关键词，用以验证此时UE2是否因为通话故障发出包含上述的通话故障关键词的语音。

示例性的，本申请实施例采用常规的语音识别技术，从位于上述目标时间段内的通话记录中检测上述的至少一个通话故障关键词。

S204、判断是否检测到所述预设的至少一个通话故障关键词中的设定数量的通话故障关键词。

如果检测到所述预设的至少一个通话故障关键词中的设定数量的通话故障关键词，则执行步骤S205、确定在所述目标时间段内发生了通话故障。

如果没有检测到所述预设的至少一个通话故障关键词中的设定数量的通话故障关键词，则执行步骤S206、确定在所述目标时间段内没有发生通话故障。

具体的，如果从UE2的通话记录中检测到上述预设的至少一个通话故障关键词中的设定数量的通话故障关键词，则可以说明UE2在上述目标时间段内接收上述静音音频数据段的同时，正在通过发送包含上述通话故障关键词的语音，与UE1确认通话情况。UE2发送包含上述通话故障关键词的语音，说明UE2因为在上述目标时间段内没有收到UE1发送的语音数据而发出了询问，此时，可以确认UE2在上述目标时间段内发生了通话故障。

相反，如果没有从UE2的通话记录中检测到上述预设的至少一个通话故障关键词中的设定数量的通话故障关键词，例如没有检测到通话故障关键词，或者检测到的通话故障关键词的数量不足上述的设定数量，则可以认为UE2并没有因为在上述的目标时间段内没有接收到UE1发送的语音数据而发出询问、确认的语音内容，此时可以认为UE2通话正常。

需要说明的是，上述的设定数量，可以根据实际情况而灵活设定，例如可以根据对通话故障检测的敏感程度，设定上述设定数量的实际取值。

通过上述介绍可见，本申请实施例通过从终端通话记录中检测静音音频数据段，初步检测出终端接收到的语音能量小于噪声能量的音频数据段。然后，本申请实施例进一步从检测出的静音音频数据段对应的终端通话记录中检测通话故障关键词，如果检测到设定数量的通话故障关键词，则可以确定该终端在上述静音音频数据段对应的时间段内发生了通话故障。通过执行本申请实施例技术方案，可以实现对终端通话故障的检测、识别。

进一步的，本申请实施例技术方案对终端通话故障的检测，是基于终端通话记录中的语音能量值、噪声能量值、音频数据段的信息熵和通话记录中的关键词的检测、计算、比对而实现的，其检测过程都是基于客观的参数和对比、计算方法实现的，因此对于通话故障的检测更加客观、更加准确。

可以理解，如图1所示，本申请实施例公开的通话故障检测方法以UE2的通话记录为基础，实现了对UE2通话故障的检测。需要说明的是，本申请实施例技术方案可以应用于对移动通信中任意的通信终端进行通话故障检测。例如，对于图1所示的移动通信场景中的UE1，也可以采用本申请实施例技术方案，以UE1的通话记录为基础，检测其是否发生通话故障。对于其他通信场景中的终端通话故障的检测，可以参照本申请实施例介绍而实现。

基于本申请实施例上述通话故障检测方法，还可以实现对移动通信单通、双向链路不通等问题的检测。例如，参见图1所示，假设利用本申请实施例技术方案检测确定UE2发生了通话故障，同时经过本申请实施例技术方案检测确定UE1并没有发生通话故障，则可以确定在UE1和UE2的通话中发生了单通故障，即只有UE1能听到UE2的语音，而UE2听不到UE1的语音；假设利用本申请实施例技术方案检测确定UE2发生了通话故障，同时检测确定UE1也发生了通话故障，则可以确定UE1和UE2之间双向链路不通，双方均无法听到对方语音。

即，基于本申请实施例提出的以终端通话记录为基础检测终端通话故障的技术方案，通过将本申请实施例技术方案多端应用，可以实现对移动通信网络的故障检测。

作为一种示例性的实现方式，本申请实施例还公开了上述的分别确定终端通话记录中的各个下行音频数据帧的语音能量值的具体实现过程。

参见图3所示，所述分别确定终端通话记录中的各个下行音频数据帧的语音能量值，包括：

S301、从终端侧网关采集得到终端通话记录，并将所述终端通话记录中的下行通话记录划分成下行音频数据帧；

具体的，上述的终端通话记录，是指由终端侧网关发送给终端的语音音频数据，以及由终端发送至终端侧网关的语音音频数据组成的终端通话记录。也就是说，上述的终端通话记录，包括终端侧网关的上行通话记录和下行通话记录。

示例性的，如图1所示，本申请实施例从UE2终端侧网关SAEGW的SGI接口抓取实时传输协议(Real-time Transport Protocol，RTP)数据包和实时传输控制协议(Real-timeTransport Control Protocol，RTCP)数据包。然后，根据网络通信使用的标准编解码方法，分别对抓取得到的RTP数据包和RTCP数据包进行编解码处理，得到UE2的通话记录。

可选的，可以分别从图1中的B点采集下行RTP数据包和RTCP数据包，以及从C点采集上行RTP数据包和RTCP数据包，进而对数据包进行编解码处理得到UE2的上行通话记录和下行通话记录。

然后，本申请实施例按照设定的时间间隔，将采集到的终端通话记录中的下行通话记录划分成下行音频数据帧。例如，以20毫秒为单位，将UE2的通话记录中的下行通话记录划分为时间间隔为20毫秒的下行音频数据帧。

S302、分别确定各个下行音频数据帧中的下行语音能量值，以及分别确定所述终端侧网关与所述终端之间的数据通道在所述各个下行音频数据帧的能量损耗系数；

其中，所述下行语音能量值包括所述终端侧网关下行发送的语音数据的能量值；

具体的，上述的下行音频数据帧，是指从UE2一侧的系统网关SAEGW发送给UE2的下行音频数据帧。本申请实施例分别计算上述划分得到的各个下行音频数据帧中的语音数据的能量值，得到各个下行音频数据帧中的下行语音能量值。

示例性的，本申请实施例采用语音活动检测(Voice Activity Detection,VAD)方法，分别计算得到上述各个下行音频数据帧的语音能量值E₁、E₂、…E_n。

需要说明的是，上述计算得到的下行语音能量值，是UE2侧网关SAEGW下行发送的音频数据帧中的语音能量值，并不是实际传输到UE2的下行音频数据帧中的语音能量值。

UE1发送给UE2的语音数据通过UE2侧网关SAEGW与UE2之间的数据通道传输至UE2的过程中，会由于下行数据通道的能量损耗造成语音能量值减弱。因此，上述计算得到的下行语音能量值，只能表示UE1发送至UE2侧网关SAEGW的语音能量值，并不是UE2实际接收到的语音能量值。

为了准确地确定UE2实际接收到的由UE1发送的语音的语音能量值，本申请实施例首先分别确定终端UE2侧网关SAEGW与终端UE2之间的数据通道在上述的各个下行音频数据帧的能量损耗系数。然后根据该能量损耗系数，计算确定UE1发送至UE2侧网关SAEGW的语音能量，在经过终端UE2侧网关SAEGW与终端UE2之间的下行数据通道的损耗后，实际到达UE2的语音能量，也就是确定UE2实际接收到的来自于UE1的语音能量值。

由于本申请实施例只在如图1所示的B点采集了UE2的下行通话记录，即在UE2侧网关(B点)采集了UE1发送给UE2的通话记录，而并没有直接采集UE2接收到的通话记录，对于从UE2侧网关(B点)到UE2之间的下行数据通道的具体特性，则无法评估。

考虑到UE2发放语音包和接收语音包的无线环境基本吻合，因此可以用UE2的上行传输通道的特性来表示下行传输通道的特性，也就是可以用UE2与UE2侧网关(B点)之间的数据通道的上行音频数据帧的能量损耗系数，来表示UE2侧网关(B点)与UE2之间的数据通道的下行音频数据帧的能量损耗系数。

基于上述理论，示例性的，本申请实施例在分别确定UE2终端侧网关SAEGW与终端UE2之间的数据通道在上述各个下行音频数据帧的能量损耗系数时，具体按照如下处理方法实现：

首先，将终端通话记录中的上行通话记录划分成各个上行音频数据帧，其中，划分的上行音频数据帧的时间间隔与上述的下行音频数据帧的时间间隔相同。

具体的，按照与上述的下行音频数据帧相同的时间间隔，将从图1所示的UE2侧系统网关的C点采集的UE2上行通话记录划分为上行音频数据帧，则划分得到的各个上行音频数据帧的时间间隔与上述的下行音频数据帧的时间间隔相同。

然后，分别提取得到每个上行音频数据帧的预设传输网络参数。

具体的，上述预设传输网络参数，包括RTP数据包类型、RTP丢包信息、RTP抖动信息、RTCP报文信息、时序信息以及RTP控制协议等。

其次，分别对每个上行音频数据帧的预设传输网络参数进行组合计算，得到每个上行音频数据帧的传输特征信息。

具体的，上述传输特征信息，包括时延特征信息、滑窗特征信息、丢包特征信息、抖动特征信息等，这些信息可以基于上述的预设传输网络参数，通过抓包及组合计算或其他可行的计算方法得到。

最后，对每个上行音频数据帧的传输特征信息分别进行逻辑回归拟合计算，得到的各个计算结果即为各个上行音频数据帧的能量损耗系数K，将各个计算结果分别设定为UE2终端侧网关与UE2终端之间的数据通道在各个下行音频数据帧的能量损耗系数。

具体的，本申请实施例使用逻辑回归拟合计算的方法，例如使用Sigmoid函数计算得到每个上行音频数据帧的能量损耗系数K：

其中，X₁,X₂,X₃,…X_n为不同自变量，即上述的传输特征信息，该传输特征信息为53维的传输特征信息；θ₁,θ₂,θ₃,…θ_n为线性回归方程的参数，该参数通过语音样本的深度神经网络DNN进行学习、训练后运算得到。

按照上述处理方法，可以计算得到各个上行音频数据帧的能量损耗系数K₁,K₂,K₃,…K_n。

另外需要说明的是，上述的分别确定UE2各个上行音频数据帧的能量损耗系数的具体实现方法，也可以参照现有技术中常用的信道损耗计算方法实现，本申请实施例不做严格限定。

S303、根据所述各个下行音频数据帧中的下行语音能量值，以及所述数据通道在所述各个下行音频数据帧的能量损耗系数，计算得到所述终端通话记录中的所述各个下行音频数据帧的语音能量值。

示例性的，上述各个下行音频数据帧中的下行语音能量值与上述各个下行音频数据帧的能量损耗系数的乘积，即为下行语音能量值在各个下行音频数据帧中的能量损耗。然后，用各个下行音频数据帧中的下行语音能量值，减去各个线性音频数据帧中的能量损耗，即为实际传输到UE2的语音能量值，即各个下行音频数据帧的语音能量值。

具体的，假设各个下行音频数据帧中的下行语音能量值分别为E₁、E₂、…E_n，则各个下行音频数据帧的语音能量值分别为EV₁＝E₁-E₁*K₁，EV₂＝E₂-E₂*K₂，…EV_n＝E_n-E_n*K_n。

作为一种示例性的实现方式，本申请实施例还公开了从终端通话记录中筛选静音音频数据段的具体处理过程。

参见图4所示，本申请实施例公开了根据所述各个下行音频数据帧的语音能量值和噪声能量值，从所述终端通话记录中筛选出静音音频数据段，包括：

S402、通过将所述各个下行音频数据帧的语音能量值和噪声能量值进行对比，从所述终端通话记录中筛选出目标音频数据段；

其中，所述目标音频数据段所包含的每个下行音频数据帧的语音能量值均小于噪声能量值。

具体的，将每个下行音频数据帧的语音能量值和噪声能量值进行对比，从终端通话记录中筛选出满足如下条件的音频数据段，作为目标音频数据段：

该目标音频数据段由时间上连续的下行音频数据帧构成，并且，该目标音频数据段所包含的每个下行音频数据帧的语音能量值均小于其噪声能量值。另外，该目标音频数据段的时长应满足设定的时长要求，例如目标音频数据段的时长为设定时长，或者不小于设定时长等。

可以理解，由于上述的目标音频数据段所包含的每个下行音频数据帧的语音能量值均小于噪声能量值，则该目标音频数据段整体上的语音能量值也小于噪声能量值。

示例性的，当从上述的终端通话记录中筛选上述的目标音频数据段时，本申请实施例首先通过将上述各个下行音频数据帧的语音能量值和噪声能量值进行对比，从各个下行音频数据帧中筛选出目标音频数据帧；其中，该目标音频数据帧的语音能量值小于噪声能量值。

也就是说，如果下行音频数据帧的语音能量值EV_n小于其噪声能量值S_n，则该下行音频数据帧被标记为目标音频数据帧。按照上述筛选方法，从上述的各个下行音频数据帧中分别筛选出目标音频数据帧。

然后，从筛选出的各个目标音频数据帧中，筛选出由连续的目标音频数据帧组成、并且其时长满足设定的时长要求的音频数据段，作为目标音频数据段。

示例性的，上述满足设定的时长要求，包括但不限于为设定时长，或者不小于设定时长等。

如果某几个时间上连续的目标音频数据帧相互连接组成满足设定时长要求的音频数据段，则该音频数据段被标记为目标音频数据段。按照上述规则，从上述各个目标音频数据帧中，筛选出上述的目标音频数据段。

S403、分别计算得到每个所述目标音频数据段所包含的每个数据帧的信息熵；

具体的，本申请实施例先将每个目标音频数据段按照预设的时间间隔，划分为数据帧，例如，将上述目标音频数据段划分为时间间隔为20毫秒的数据帧。

然后，分别计算各个数据帧的信息熵。例如，可以按照如下的信息熵计算公式计算各个数据帧的信息熵：

其中，x_i表示随机变量，也就是待计算信息熵数据元素，p(x_i)表示变量x_i的输出概率函数。

作为另一种示例性的实现方式，本申请实施例在计算上述目标音频数据段所包含的每个数据帧的信息熵时，先将目标音频数据段划分为数据帧。

具体的，划分的数据帧的时间间隔可以是设定的时间间隔，例如本申请按照20毫秒的时间间隔将上述目标音频数据段划分为数据帧。在实际应用本申请实施例技术方案时，也可以根据实际情况设定划分的数据帧的时长。

对于划分得到的每个数据帧，按照如下方式计算信息熵：

首先，将数据帧划分为数据子帧，其中，划分的数据子帧的时长可以根据实际情况灵活设定。

然后，分别对划分得到的每个数据子帧进行小波变换处理。

具体的，小波变换能够对语音信号进行任意指定点处的任意精细结构的分析，经过小波变换处理可以使信号更稳定，为了保证后续信息熵计算的准确性，本申请实施例在计算信息熵之前先对数据子帧进行小波变换处理。

其次，分别计算得到每个数据子帧的信息熵。

具体的，本申请实施例通过上述的信息熵计算公式，分别计算得到每个数据子帧的信息熵。

最后，对各个数据子帧的信息熵进行累加处理，得到数据帧的信息熵。

具体的，将数据帧所包含的各个数据子帧的信息熵进行累加求和，即得到数据帧的信息熵。

S404、根据各个所述目标音频数据段所包含的各个数据帧的信息熵，从所述终端通话记录中筛选出静音音频数据段；其中，所述静音音频数据段所包含的每个数据帧的信息熵均小于设定的信息熵阈值。

具体的，基于上述各个目标音频数据段所包含的各个数据帧的信息熵，本申请实施例从上述的终端通话记录中筛选出静音音频数据段，其中，筛选出的静音音频数据段满足以下特征要求：

该静音音频数据段由上述各个目标音频数据段所包含的各个数据帧中的、时间上连续的数据帧构成，并且该静音音频数据段所包含的每个数据帧的信息熵均小于设定的信息熵阈值，而且该静音音频数据段的时长满足设定的时长要求，例如该静音音频数据段的时长为设定时长，或者其时长不小于设定时长等。

可以理解，由于上述的静音音频数据段所包含的每个数据帧的信息熵均小于设定的信息熵阈值，则该静音音频数据段整体上的信息熵也小于整体上的信息熵阈值，即该静音音频数据段小于信息熵阈值，该整体上的信息熵阈值可以是多个上述的信息熵阈值的和。

作为一种示例性的实现方式，本申请实施例将上述的目标音频数据段划分为时间间隔与上述的下行音频数据帧的时长相同的数据帧，然后分别计算每个数据帧的信息熵。

当从终端通话记录中筛选静音音频数据段时，本申请实施例从中筛选时长与上述的目标音频数据段的时长相同的静音音频数据段，也就是，本申请实施例直接判断上述的目标音频数据段是否符合上述的静音音频数据段的特征要求，如果符合，则将目标音频数据段标记为静音音频数据段，如果不符合，则该目标音频数据段不是静音音频数据段。

上述处理方法使得对终端通话记录划分的数据帧的时间间隔相同，并且使得筛选的音频数据段的时长相同，从而使其设置参数更少、处理过程更简洁。

本实施例中的步骤S401、S405～S408分别对应图2所示的方法实施例中的步骤S201、S203～S206，其具体内容请参见图2所示的方法实施例的内容，此处不再赘述。

与上述的通话故障检测方法相对应的，本申请另一实施例还公开了一种通话故障检测装置，参见图5所示，该装置包括：

计算单元100，用于分别确定终端通话记录中的各个下行音频数据帧的语音能量值，以及分别确定所述各个下行音频数据帧的噪声能量值；其中，所述各个下行音频数据帧的语音能量值包括通过所述各个下行音频数据帧传输至终端的语音能量值；

筛选单元110，用于根据所述各个下行音频数据帧的语音能量值和噪声能量值，从所述终端通话记录中筛选出静音音频数据段；其中，所述静音音频数据段的语音能量值小于噪声能量值，并且所述静音音频数据段的信息熵小于设定的信息熵阈值；

检测单元120，用于从所述终端通话记录中的、位于目标时间段内的通话记录中检测预设的至少一个通话故障关键词；其中，所述目标时间段包括所述静音音频数据段所对应的时间段；如果检测到所述预设的至少一个通话故障关键词中的设定数量的通话故障关键词，则确定在所述目标时间段内发生了通话故障。

本申请实施例提出的通话故障检测装置通过计算单元100的计算以及筛选单元110的筛选，从终端通话记录中检测静音音频数据段，初步检测出终端接收到的语音能量小于噪声能量的音频数据段。然后，由检测单元120进一步从检测出的静音音频数据段对应的终端通话记录中检测通话故障关键词，如果检测到设定数量的通话故障关键词，则可以确定该终端在上述静音音频数据段对应的时间段内发生了通话故障。本申请实施例提出的通话故障检测装置，可以实现对终端通话故障的检测、识别。

进一步的，本申请实施例提出的通话故障检测装置对终端通话故障的检测，是基于终端通话记录中的语音能量值、噪声能量值、音频数据段的信息熵和通话记录中的关键词的检测、计算、比对而实现的，其检测过程都是基于客观的参数和对比、计算方法实现的，因此对于通话故障的检测更加客观、更加准确。

作为一种示例性的实现方式，所述计算单元100分别确定终端通话记录中的各个下行音频数据帧的语音能量值时，具体用于：

作为一种示例性的实现方式，所述计算单元100分别确定所述终端侧网关与所述终端之间的数据通道在所述各个下行音频数据帧的能量损耗系数时，具体用于：

作为一种示例性的实现方式，所述计算单元100从终端侧网关采集得到终端通话记录时，具体用于：

作为一种示例性的实现方式，所述筛选单元110根据所述各个下行音频数据帧的语音能量值和噪声能量值，从所述终端通话记录中筛选出静音音频数据段时，具体用于：

作为一种示例性的实现方式，所述筛选单元110通过将所述各个下行音频数据帧的语音能量值和噪声能量值进行对比，从所述终端通话记录中筛选出目标音频数据段时，具体用于：

作为一种示例性的实现方式，所述筛选单元110分别计算得到每个所述目标音频数据段所包含的每个数据帧的信息熵时，具体用于：

对应每个所述目标音频数据段，分别执行以下处理：

将所述目标音频数据段划分为数据帧；

将所述数据帧划分为数据子帧；

分别对每个所述数据子帧进行小波变换处理；

分别计算得到每个所述数据子帧的信息熵；

具体的，上述通话故障检测装置的各个实施例中的各个单元的具体工作内容，请参见相对应的上述方法实施例的内容，此处不再详述。

本申请另一实施例还公开了一种通话故障检测设备，参见图6所示，该设备包括：

存储器200和处理器210；

其中，所述存储器200与所述处理器210连接，用于存储程序；

所述处理器210，用于通过运行所述存储器200中存储的程序，实现上述任一实施例公开的通话故障检测方法。

具体的，上述通话故障检测设备还可以包括：总线、通信接口220、输入设备230和输出设备240。

处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中：

总线可包括一通路，在计算机系统各个部件之间传送信息。

处理器210可以是通用处理器，例如通用中央处理器(CPU)、微处理器等，也可以是特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

处理器210可包括主处理器，还可包括基带芯片、调制解调器等。

存储器200中保存有执行本发明技术方案的程序，还可以保存有操作系统和其他关键业务。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。更具体的，存储器200可以包括只读存储器(read-only memory，ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory，RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。

输入设备230可包括接收用户输入的数据和信息的装置，例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。

输出设备240可包括允许输出信息给用户的装置，例如显示屏、打印机、扬声器等。

通信接口220可包括使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(WLAN)等。

处理器2102执行存储器200中所存放的程序，以及调用其他设备，可用于实现本申请实施例所提供的通话故障检测方法的各个步骤。

本申请另一实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器执行时，实现上述任一实施例提供的通话故障检测方法的各个步骤。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。

本申请所提供的几个实施例中，应该理解到，所揭露的终端，装置和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，模块或子模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个子模块或模块可以结合或者可以集成到另一个模块，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的，作为模块或子模块的部件可以是或者也可以不是物理模块或子模块，即可以位于一个地方，或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中，也可以是各个模块或子模块单独物理存在，也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现，也可以采用软件功能模块或子模块的形式实现。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元，或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种通话故障检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述分别确定终端通话记录中的各个下行音频数据帧的语音能量值，包括：

3.根据权利要求2所述的方法，其特征在于，所述分别确定所述终端侧网关与所述终端之间的数据通道在所述各个下行音频数据帧的能量损耗系数，包括：

4.根据权利要求2所述的方法，其特征在于，所述从终端侧网关采集得到终端通话记录，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述各个下行音频数据帧的语音能量值和噪声能量值，从所述终端通话记录中筛选出静音音频数据段，包括：

6.根据权利要求5所述的方法，其特征在于，所述通过将所述各个下行音频数据帧的语音能量值和噪声能量值进行对比，从所述终端通话记录中筛选出目标音频数据段，包括：

7.根据权利要求5所述的方法，其特征在于，所述分别计算得到每个所述目标音频数据段所包含的每个数据帧的信息熵，包括：

对应每个所述目标音频数据段，分别执行以下处理：

将所述目标音频数据段划分为数据帧；

将所述数据帧划分为数据子帧；

分别对每个所述数据子帧进行小波变换处理；

分别计算得到每个所述数据子帧的信息熵；

8.一种通话故障检测装置，其特征在于，包括：

9.一种通话故障检测设备，其特征在于，包括：

存储器和处理器；

其中，所述存储器与所述处理器连接，用于存储程序；

所述处理器，用于通过运行所述存储器中存储的程序，实现如权利要求1至7中任意一项所述的通话故障检测方法。

10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现如权利要求1至7中任意一项所述的通话故障检测方法。