CN111081269A

CN111081269A - 通话过程中的噪声检测方法及系统

Info

Publication number: CN111081269A
Application number: CN201811222307.0A
Authority: CN
Inventors: 张士聪; 彭陈发; 胡镇; 吴剑平; 吴剑浪; 张军营; 张颖恺
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Zhejiang Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Zhejiang Co Ltd
Priority date: 2018-10-19
Filing date: 2018-10-19
Publication date: 2020-04-28
Anticipated expiration: 2038-10-19
Also published as: CN111081269B

Abstract

本发明实施例提供一种通话过程中的噪声检测方法及系统。其中，方法包括：将通话过程中的语音数据进行分帧，形成语音帧序列，其中，所述语音帧序列包括多个语音帧；根据每一语音帧的频域特征，检测所述通话过程中是否存在系统加性噪声。本发明实施例提供的通话过程中的噪声检测方法及系统，通过将通话过程中的语音数据进行分帧，以根据每一语音帧的频域特征，检测通话过程中是否存在系统加性噪声，提高了检测效率和检测结果的准确性，节约了检测成本，由于可以获取任意地域、环境、场景下的通话过程中的语音数据，因此能够保证检测的全面性，由于通话过程中的语音数据可以实时获取，因此能够保证检测的实时性和时效性。

Description

通话过程中的噪声检测方法及系统

技术领域

本发明实施例涉及移动通信技术领域，尤其涉及一种通话过程中的噪声检测方法及系统。

背景技术

通话过程中通常存在两种噪声，一种为声源噪声，即环境噪声，另一种为系统加性噪声，即端到端传输过程中由于语音数据编解码或传输异常等引入的噪声。由于声音的掩蔽效应，声源噪声和系统加性噪声都可能造成通话过程中语音感知质差的问题，即通话过程中语音质量差，通话双方存在交流障碍的问题。声源噪声可以通过通话人自行调整而提升通话过程中的语音质量；而系统加性噪声是端到端传输过程中由于语音数据编解码或传输异常等所致，因此，通话人较难自行进行调整以提升通话过程中的语音质量，而需要通过通信运营商等移动网络的管理维护者去提升移动网络的整体质量，从而提升通话过程中的语音质量。

产生系统加性噪声的原因很多：有网络侧原因，比如信号相互干扰，网络无线弱覆盖，基站参数配置问题等；有终端侧的原因，比如用户手机语音编解码问题导致发包异常，天线受损，听筒受损等；有传输侧原因，比如实时传输协议(Real-time TransportProtocol，简称RTP)码流中的语音包在传输过程中出现较小比例的丢包或者出现了延时过大等。上述的任意一种或多种原因会使得通话过程引入系统加性噪声，从而可能造成通话过程中语音感知质差的问题。

目前对于通话过程中系统加性噪声的检测通常采用呼叫质量拨打测试(CallQuality Test，简称CQT)方法，即，指派两名测试人员到指定场所，在排除了声源噪声后，两名测试人员通过手机进行通话，通话双方根据自身实际的听觉感受判定通话过程中是否存在系统加性噪声。但该方法存在的弊端为：(1)指派检测人员进行现场验证性检测，效率低下、遍历场景有限、检测结果受检测人员的主观感知影响大；(2)通常是在用户发生感知问题投诉后才指派检测人员进行现场验证性检测，无法在用户通话过程中就进行检测，无法保证检测的实时性，由于移动网络环境等诸多因素的变化，并不一定能得及时有效地发现问题，时效性得不到保障。

发明内容

针对现有技术中存在的技术问题，本发明实施例提供一种通话过程中的噪声检测方法及系统。

第一方面，本发明实施例提供一种通话过程中的噪声检测方法，包括：

将通话过程中的语音数据进行分帧，形成语音帧序列，其中，所述语音帧序列包括多个语音帧；

根据每一语音帧的频域特征，检测所述通话过程中是否存在系统加性噪声。

第二方面，本发明实施例提供一种通话过程中的噪声检测系统，包括：

分帧模块，用于将通话过程中的语音数据进行分帧，形成语音帧序列，其中，所述语音帧序列包括多个语音帧；

噪声检测模块，用于根据每一语音帧的频域特征，检测所述通话过程中是否存在系统加性噪声。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的通话过程中的噪声检测方法及系统，通过将通话过程中的语音数据进行分帧，以根据每一语音帧的频域特征，检测通话过程中是否存在系统加性噪声，相比于CQT方法，无需指派测试人员到达通话现场进行人工检测，而只需获取该通话现场的用户通话过程中的语音数据，对其进行分帧和频域分析就能进行检测，提高了检测效率和检测结果的准确性，节约了检测成本，由于可以获取任意地域、环境、场景下的通话过程中的语音数据，因此能够保证检测的全面性，由于通话过程中的语音数据可以实时获取，因此能够保证检测的实时性和时效性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种通话过程中的噪声检测方法流程图；

图2为本发明实施例提供的一种通话过程中的噪声检测系统的结构示意图；

图3为本发明实施例提供的一种电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种通话过程中的噪声检测方法流程图，如图1所示，该方法包括：

步骤101：将通话过程中的语音数据进行分帧，形成语音帧序列，其中，所述语音帧序列包括多个语音帧。

步骤102：根据每一语音帧的频域特征，检测所述通话过程中是否存在系统加性噪声。

需要说明的是，若通话过程中存在系统加性噪声，则可能影响通话质量，造成语音感知质差的问题，使得通话双方沟通不畅，甚至引起交流障碍。由于系统加性噪声带来的语音感知质差的问题不能通过通话人自行避免，而只能通过通信运营商等移动网络的管理维护者去解决，所以通信运营商等移动网络的管理维护者为了更好地去提升移动网络的整体质量，从而提升通话过程中的语音质量，需要经常检测不同地域、不同环境、不同场景下的通话过程中是否存在系统加性噪声，以根据系统加性噪声，判定通话过程的通话质量，进而判定是否对移动网络进行调整，以及如何调整。因此，检测通话过程中是否存在系统加性噪声尤为重要。

具体地，由于通话过程中的语音数据具有短时平稳特性，因此，需要对其进行分帧处理，以便根据每一个语音帧的平稳特性获取对应的频域特征，进而根据每一个语音帧的频域特征，检测该通话过程中是否存在系统加性噪声，以便根据系统加性噪声，判定该通话过程的通话质量。通常，对语音数据进行分帧的帧长取为20～50ms。其中，语音帧的频域特征可以为：语音帧的短时能量、语音帧与相邻的语音帧间的相关系数。

举个例子，将语音数据进行分帧处理后，会得到多个语音帧，将这多个语音帧组成的集合称为语音帧序列X，则语音帧序列X可表述为：X＝{X₁,X₂,...,X_n}，其中，n为正整数，代表语音帧序列X中语音帧的个数，X₁,X₂,...,X_n中的每一个元素均代表一个语音帧。根据每一个语音帧的频域特征，检测该通话过程中是否存在系统加性噪声的意思为：根据X₁的频域特征、X₂的频域特征、…、以及X_n的频域特征，检测该通话过程中是否存在系统加性噪声。

需要说明的是，系统加性噪声通常为以下两种：呈现20ms周期语音特征相关性很高的周期性噪声(简称为周期性噪声)，以及突发出现的幅度高而持续时间短的离散脉冲噪声(简称为离散脉冲噪声)。只要通话过程中至少存在周期性噪声和离散脉冲噪声中的任一种噪声，则可判定该通话过程中存在系统加性噪声。

本发明实施例提供的方法，通过将通话过程中的语音数据进行分帧，以根据每一语音帧的频域特征，检测通话过程中是否存在系统加性噪声，相比于CQT方法，无需指派测试人员到达通话现场进行人工检测，而只需获取该通话现场的用户通话过程中的语音数据，对其进行分帧和频域分析就能进行检测，提高了检测效率和检测结果的准确性，节约了检测成本，由于可以获取任意地域、环境、场景下的通话过程中的语音数据，因此能够保证检测的全面性，由于通话过程中的语音数据可以实时获取，因此能够保证检测的实时性和时效性。

在上述各实施例的基础上，本发明实施例对通话过程中的语音数据的获取过程进行说明。即，将通话过程中的语音数据进行分帧，形成语音帧序列，之前还包括：

采集通话过程中的RTP码流，并抽取所述RTP码流中的语音包。

将所述语音包解码为语音数据。

在本发明实施例中，可在网络侧采集通话过程中用户面的RTP码流，具体地，可在移动网络的核心网接口处采集通话过程中用户面的RTP码流。对于采集得到的RTP码流，抽取其中的语音包，并对语音包进行解码以还原为语音数据。需要说明的是，采集可以是在用户通话时进行实时采集，也可以是在用户通话完成之后再采集。

本发明实施例提供的方法，通过在网络侧实时采集通话过程中用户面的RTP码流以获取语音数据，保证了检测的实时性和时效性，对全网质量形成监控，保证了检测的全面性，提高了检测效率，节约了检测成本。

在上述各实施例的基础上，本发明实施例对语音帧序列中每一语音帧的频域特征的获取过程进行说明。根据每一语音帧的频域特征，检测所述通话过程中是否存在系统加性噪声，包括：

对于每一语音帧，将所述语音帧进行fft变换，以获取所述语音帧的幅值数组和短时能量。

根据所述语音帧的幅值数组和相邻的语音帧的幅值数组，获取所述语音帧和相邻的语音帧间的相关系数。

根据每一语音帧的短时能量和每一语音帧与相邻的语音帧间的相关系数，检测所述通话过程中是否存在系统加性噪声。

具体地，本发明实施例以获取语音帧序列X中的X₁的频域特征进行举例说明，可将X₁表述为：X₁＝{A₁,A₂,...A_m}，其中，m为正整数，代表X₁中采样点的个数，A₁,A₂,...A_m中每一个元素均代表一个采样点的幅值。将X₁进行快速傅里叶(Fast Fourier Transformation，fft)变换，以获取X₁的幅值数组α₁和短时能量β₁：

α₁＝abs(fft(X₁)) (1)

其中，abs为求取绝对值的函数，∑为求和函数。

需要说明的是，对于语音帧序列X中每一个语音帧的幅值数组和短时能量的求取方式均如公式(1)和公式(2)所示，此处不再赘述。

对于语音帧序列X，从第二个语音帧开始，依次计算每一个语音帧X_i与前一个语音帧X_i-1间的相关系数CORR(X_i-1,X_i)为：

其中，i＝2,3，...n，cov为求取协方差的函数，Var为求取方差的函数。

需要说明的是，X_i与X_i-1间相关系数也可称为X_i-1与X_i间相关系数。

根据语音帧序列中每一个语音帧的短时能量和每一语音帧与相邻的语音帧间的相关系数，可检测出该通话过程中是否存在系统加性噪声。即，根据X₁的短时能量、X₂的短时能量、…、X_n的短时能量、X₁与X₂间的相关系数、X₂与X₃间的相关系数、…、X_n-1与X_n间的相关系数，检测该通话过程中是否存在系统加性噪声。

在上述实施例中已经提到系统加性噪声通常为以下两种：周期性噪声和离散脉冲噪声，若通话过程中至少存在周期性噪声和离散脉冲噪声中的任一种噪声，则可判定该通话过程中存在系统加性噪声。而周期性噪声的检测方法和离散脉冲噪声的检测方法有所不同，以下分别对这两种噪声的检测方法进行说明。

在上述各实施例的基础上，本发明实施例对周期性噪声的检测方法进行说明。根据每一语音帧的短时能量和每一语音帧与相邻的语音帧间的相关系数，检测所述通话过程中是否存在系统加性噪声，包括：

根据每一语音帧的短时能量和每一语音帧与相邻的语音帧间的相关系数，判定所述语音帧序列中是否存在同时满足第一预设条件、第二预设条件、第三预设条件和第四预设条件的语音帧组。

若所述语音帧组存在，则判定所述通话过程中存在系统加性噪声。

其中，第一预设条件为：语音帧组中每相邻的两个语音帧间的相关系数大于第一预设阈值；第二预设条件为：语音帧组中两端的语音帧与各自相邻的且位于语音帧组外的语音帧间的相关系数均不大于第一预设阈值；第三预设条件为：语音帧组中语音帧的个数大于第三预设阈值；第四预设条件为：语音帧组的平均短时能量大于第四预设阈值。

具体地，在本发明实施例中，通过在语音帧序列中找到同时满足第一预设条件、第二预设条件、第三预设条件和第四预设条件的语音帧组，即可判定该语音帧组为周期性噪声，也即，该通话过程中存在系统加性噪声。

需要说明的是，语音帧组为语音帧序列中的一段由连续的语音帧组成的集合。以语音帧序列X＝{X₁,X₂,X₃,X₄,X₅,X₆,X₇,X₈,X₉,X₁₀}，且满足上述四个预设条件的语音帧组G＝{X₂,X₃,X₄,X₅}为例，对上述四个预设条件进行说明：

G满足第一预设条件，即：X₂,X₃间的相关系数大于第一预设阈值，X₃,X₄间的相关系数大于第一预设阈值，X₄,X₅间的相关系数大于第一预设阈值。

G满足第二预设条件，即：G中左端的X₂与其相邻的且位于G外的X₁间的相关系数不大于第一预设阈值，并且，G中右端的X₅与其相邻的且位于G外的X₆间的相关系数不大于第一预设阈值。

G满足第三预设条件，即：X₂,X₃,X₄,X₅的个数4大于第三预设阈值。

G满足第四预设条件，即：X₂,X₃,X₄,X₅中每一语音帧的短时能量之和与个数4的商大于第四预设阈值。

以下对语音帧序列X＝{X₁,X₂,X₃,X₄,X₅,X₆,X₇,X₈,X₉,X₁₀}中是否存在满足上述四个预设条件的语音帧组的判定过程进行举例说明。在此，假定语音帧序列X＝{X₁,X₂,X₃,X₄,X₅,X₆,X₇,X₈,X₉,X₁₀}中：X₁的短时能量为1，X₂的短时能量为2，X₃的短时能量为3，X₄的短时能量为4，X₅的短时能量为5，X₆的短时能量为6，X₇的短时能量为7，X₈的短时能量为8，X₉的短时能量为6，X₁₀的短时能量为5，X₁,X₂间的相关系数为0.1，X₂,X₃间的相关系数为0.6，X₃,X₄间的相关系数为0.6，X₄,X₅间的相关系数为0.6，X₅,X₆间的相关系数为0.1，X₆,X₇间的相关系数为0.1，X₇,X₈间的相关系数为0.8，X₈,X₉间的相关系数为0.1，X₉,X₁₀间的相关系数为0.1。第一预设阈值为0.5，第三预设阈值为3，第四预设阈值为3。

首先，确定满足第一预设条件和第二预设条件的候选语音帧组。具体地，由于X₂,X₃间的相关系数为0.6，X₃,X₄间的相关系数为0.6，X₄,X₅间的相关系数为0.6，且，X₁,X₂间的相关系数为0.1，X₅,X₆间的相关系数为0.1，因此，可将{X₂,X₃,X₄,X₅}组成的语音帧组作为满足第一预设条件和第二预设条件的候选语音帧组，在此将其称为第一候选语音帧组。并且，由于X₇,X₈间的相关系数为0.8，X₆,X₇间的相关系数为0.1，X₈,X₉间的相关系数为0.1，因此，可将{X₇,X₈}组成的语音帧组作为满足第一预设条件和第二预设条件的候选语音帧组，在此将其称为第二候选语音帧组。

其中，第一候选语音帧组{X₂,X₃,X₄,X₅}中每相邻的两个语音帧间的相关系数均为0.6，均大于第一预设阈值0.5，该第一候选语音帧组{X₂,X₃,X₄,X₅}满足第一预设条件，该第一候选语音帧组{X₂,X₃,X₄,X₅}左端X₂与X₁的相关系数为0.1，该第一候选语音帧组{X₂,X₃,X₄,X₅}右端X₅与X₆的相关系数为0.1，均不大于第一预设阈值为0.5，该第一候选语音帧组{X₃,X₄,X₅,X₆,X₇}满足第二预设条件。第二候选语音帧组{X₇,X₈}中相邻的两个语音帧间的相关系数为0.8，大于第一预设阈值0.5，该第二候选语音帧组{X₇,X₈}满足第一预设条件，该第二候选语音帧组{X₇,X₈}左端X₇与X₆的相关系数为0.1，该第二候选语音帧组{X₇,X₈}右端X₈与X₉的相关系数为0.1，均不大于第一预设阈值为0.5，该第二候选语音帧组{X₇,X₈}满足第二预设条件。

其次，确定第一候选语音帧组{X₂,X₃,X₄,X₅}和第二候选语音帧组{X₇,X₈}是否满足第三预设条件和第四预设条件，若第一候选语音帧组和第二候选语音帧组中至少有一个候选语音帧组满足第三预设条件和第四预设条件，则可判定满足第三预设条件和第四预设条件的候选语音帧组为周期性噪声，也即该通话过程中存在系统加性噪声。

具体地，由于第一候选语音帧组{X₂,X₃,X₄,X₅}中语音帧的个数为4，大于第三预设阈值3，因此，该第一候选语音帧组{X₂,X₃,X₄,X₅}满足第三预设条件，该第一候选语音帧组{X₂,X₃,X₄,X₅}的平均短时能量E＝(2+3+4+5)/4＝3.5,大于第四预设阈值为3，因此，该第一候选语音帧组{X₂,X₃,X₄,X₅}满足第四预设条件。由于第二候选语音帧组{X₇,X₈}中语音帧的个数为2，不大于第三预设阈值3，因此，该第二候选语音帧组{X₇,X₈}不满足第三预设条件，无需再判定其是否满足第四预设条件即可确定其不能同时满足上述四个预设条件。

综上，第一候选语音帧组{X₂,X₃,X₄,X₅}为同时满足第一预设条件、第二预设条件、第三预设条件和第四预设条件的语音帧组，因此，第一候选语音帧组{X₂,X₃,X₄,X₅}为周期性噪声，该通话过程中存在系统加性噪声。

需要说明的是，第一预设阈值、第三预设阈值和第四预设阈值可以根据实际情况进行调整，本发明实施例对此不作具体限定。

在上述各实施例的基础上，本发明实施例对离散脉冲噪声的检测方法进行说明。根据每一语音帧的短时能量和每一语音帧与相邻的语音帧间的相关系数，检测所述通话过程中是否存在系统加性噪声，包括：

通过滑动窗口，将所述语音帧序列分为多段窗口序列，其中，每段窗口序列包括多个语音帧。

对于每段窗口序列，确定所述窗口序列中短时能量最高的语音帧，并作为目标语音帧。

判定所述窗口序列中是否存在包含所述目标语音帧且同时满足第五预设条件、第六预设条件、第七预设条件和第八预设条件的语音帧组。

其中，第五预设条件为：语音帧组中每相邻的两个语音帧间的相关系数大于第五预设阈值；第六预设条件为：语音帧组中两端的语音帧与各自相邻的且位于语音帧组外的语音帧间的相关系数均小于第六预设阈值；第七预设条件为：语音帧组中语音帧的个数小于第七预设阈值；第八预设条件为：语音帧组中两端的语音帧与各自相邻的且位于语音帧组外的语音帧的短时能量差值均大于第八预设阈值。

具体地，本发明实施例需要对语音帧序列进行滑窗操作，以将语音帧序列分为多段窗口序列，需要说明的是，不同窗口序列可以重叠或不重叠。对于一段窗口序列来说，若该窗口序列中存在满足五个条件的语音帧组，即可判定该语音帧组为离散脉冲噪声，也即，该通话过程中存在系统加性噪声。其中，五个条件分别为：该语音帧组中包含该窗口序列中短时能量最高的目标语音帧，且该语音帧组同时满足第五预设条件、第六预设条件、第七预设条件和第八预设条件。

需要说明的是，语音帧组为语音帧序列中的一段由连续的语音帧组成的集合。以语音帧序列X＝{X₁,X₂,X₃,X₄,X₅,X₆,X₇,X₈,X₉,X₁₀}中的一段窗口序列{X₆,X₇,X₈,X₉,X₁₀}，以及窗口序列{X₆,X₇,X₈,X₉,X₁₀}中存在满足上述五个条件的语音帧组P＝{X₇,X₈}为例，对上述五个条件进行说明：

P中包含该窗口序列{X₆,X₇,X₈,X₉,X₁₀}中短时能量最高的目标语音帧，即：X₇,X₈中的某一语音帧的短时能量为{X₆,X₇,X₈,X₉,X₁₀}中短时能量最高的目标语音帧。

P满足第五预设条件，即：X₇,X₈间的相关系数大于第五预设阈值。

P满足第六预设条件，即：P中左端的X₇与其相邻的且位于P外的X₆间的相关系数小于第六预设阈值，并且，P中右端的X₈与其相邻的且位于P外的X₉间的相关系数小于第六预设阈值。

P满足第七预设条件，即：X₇,X₈的个数2小于第七预设阈值。

P满足第八预设条件，即：X₇,X₈中左端的X₇的短时能量与其相邻的且位于P外的X₆的短时能量的差值大于第八预设阈值，并且，P中右端的X₈的短时能量与其相邻的且位于P外的X₉的短时能量的差值大于第八预设阈值。

以下对语音帧序列X＝{X₁,X₂,X₃,X₄,X₅,X₆,X₇,X₈,X₉,X₁₀}中的一段窗口序列{X₆,X₇,X₈,X₉,X₁₀}是否存在满足上述五个条件的语音帧组的判定过程进行举例说明。需要说明的是，该语音帧序列X＝{X₁,X₂,X₃,X₄,X₅,X₆,X₇,X₈,X₉,X₁₀}中每一语音帧的短时能量以及每一语音帧与相邻的语音帧间的相关系数均在上述实施例中进行说明，此处不再赘述。第五预设阈值为0.7，第六预设阈值为0.3，第七预设阈值为3，第八预设阈值为1。

首先，在该窗口序列{X₆,X₇,X₈,X₉,X₁₀}中确定短时能量最高的目标语音帧为X₈。

然后，确定包含X₈且满足第五预设条件和第六预设条件的候选语音帧组。具体地，由于X₇,X₈间的相关系数为0.8，且，X₆,X₇间的相关系数为0.1，X₈,X₉间的相关系数为0.1，因此，可将{X₇,X₈}组成的语音帧组作为满足第五预设条件和第六预设条件的候选语音帧组，在此将其称为第三候选语音帧组。

其中，该第三候选语音帧组{X₇,X₈}中相邻的两个语音帧间的相关系数为0.8，大于第五预设阈值0.7，该第三候选语音帧组{X₇,X₈}满足第五预设条件；该第三候选语音帧组{X₇,X₈}左端X₇与X₆的相关系数为0.1，该第三候选语音帧组{X₇,X₈}右端X₈与X₉的相关系数为0.1，均小于第六预设阈值0.3，该第三候选语音帧组{X₇,X₈}满足第六预设条件。

其次，确定该第三候选语音帧组{X₇,X₈}是否满足第七预设条件和第八预设条件，若满足，则可判定该第三候选语音帧组{X₇,X₈}为离散脉冲噪声，也即通话过程中存在系统加性噪声。

具体地，由于该第三候选语音帧组{X₇,X₈}中语音帧的个数为2，小于第七预设阈值3，该第三候选语音帧组{X₇,X₈}满足第七预设条件，该第三候选语音帧组{X₇,X₈}的平均短时能量E＝(7+8)/2＝7.5，该平均短时能量7.5与X₆的短时能量6的差值为1.5，该平均短时能量7.5与X₉的短时能量6的差值为1.5，均大于第八预设阈值为1，因此，该第三候选语音帧组{X₇,X₈}满足第八预设条件。

综上，该第三候选语音帧组{X₇,X₈}为包含该窗口序列{X₆,X₇,X₈,X₉,X₁₀}中短时能量最高的目标语音帧，且同时满足第五预设条件、第六预设条件、第七预设条件和第八预设条件的语音帧组，因此，第三候选语音帧组为离散脉冲噪声，该通话过程中存在系统加性噪声。

需要说明的是，第五预设阈值、第六预设阈值、第七预设阈值和第八预设阈值可以根据实际情况进行调整，本发明实施例对此不作具体限定。

需要说明的是，若通话过程中存在系统加性噪声，但非常微弱时，不一定会对通话双方的通话过程产生影响，从而无法判定通话过程的通话质量。以下实施例将说明如何根据系统加性噪声，判定通话过程的通话质量。

在上述各实施例的基础上，该方法还包括：

若所述通话过程中存在系统加性噪声，则基于所述系统加性噪声所在的语音帧组中两端的语音帧的短时能量，判定所述通话过程的通话质量。

具体地，对于语音帧序列X＝{X₁,X₂,X₃,X₄,X₅,X₆,X₇,X₈,X₉,X₁₀}，可知该语音帧序列X＝{X₁,X₂,X₃,X₄,X₅,X₆,X₇,X₈,X₉,X₁₀}对应的通话过程中存在系统加性噪声，其中：第一候选语音帧组{X₂,X₃,X₄,X₅}为周期性噪声，第三候选语音帧组{X₇,X₈}为离散脉冲噪声。在本发明实施例中，可根据第一候选语音帧组{X₂,X₃,X₄,X₅}两端的语音帧的短时能量和第三候选语音帧组{X₇,X₈}两端的语音帧的短时能量，判定通话过程的通话质量。其中，对于第一候选语音帧组{X₂,X₃,X₄,X₅}，两端的语音帧指的是左端X₂和右端X₅，对于第三候选语音帧组{X₇,X₈}，两端的语音帧指的是左端X₇和右端X₈。

在上述各实施例的基础上，基于所述系统加性噪声所在的语音帧组中两端的语音帧的短时能量，判定所述通话过程的通话质量，包括：

对于所述语音帧组中两端的语音帧中任一语音帧，获取与所述语音帧相邻的且位于所述语音帧组外的参考语音帧组的平均短时能量。

若所述语音帧的短时能量与所述平均短时能量的差值大于第九预设阈值，则判定所述通话过程的通话质量差。

具体地，首先举例说明参考语音帧组的定义：对于语音帧序列X＝{X₁,X₂,X₃,X₄,X₅,X₆,X₇,X₈,X₉,X₁₀}和周期性噪声所在的第一候选语音帧组{X₂,X₃,X₄,X₅}，只有周期性噪声所在的第一候选语音帧组{X₂,X₃,X₄,X₅}两端的语音帧才存在参考语音帧组。即，只有左端的X₂和右端的X₅才存在参考语音帧组。对于X₅，其参考语音帧组为与其相邻的且位于该第一候选语音帧组{X₂,X₃,X₄,X₅}外的一段由连续的语音帧组成的集合，可以为{X₆,X₇,X₈,X₉,X₁₀}、{X₆,X₇,X₈,X₉}、{X₆,X₇,X₈}、{X₆,X₇}、{X₆}中的任意一个。需要说明的是，参考语音帧组中语音帧的个数可以根据实际情况进行调整，本发明实施例对此不作具体限定。

需要说明的是，语音帧序列中可以包含一个或多个为系统加性噪声的语音帧组，而不管语音帧组有多少个，只要至少有一个语音帧组中的某一端的语音帧的短时能量与该端语音帧的参考语音帧组的平均短时能量的差值大于第九预设阈值，那么，就可判定该语音帧序列对应的通话过程的通话质量差。需要说明的是，第九预设阈值可以根据实际情况进行调整，本发明实施例对此不作具体限定。

图2为本发明实施例提供的一种通话过程中的噪声检测系统的结构示意图，如图2所示，该系统包括：

分帧模块201，用于将通话过程中的语音数据进行分帧，形成语音帧序列，其中，所述语音帧序列包括多个语音帧。噪声检测模块202，用于根据每一语音帧的频域特征，检测所述通话过程中是否存在系统加性噪声。

具体地，由于通话过程中的语音数据具有短时平稳特性，因此，需要通过分帧模块201对获取到的通话过程中的语音数据进行分帧处理，得到包含多个语音帧的语音帧序列，以便使得噪声检测模块202根据语音帧序列中的每一个语音帧的平稳特性获取对应的频域特征，进而根据每一个语音帧的频域特征，检测该通话过程中是否存在系统加性噪声，以便根据系统加性噪声，判定该通话过程的通话质量。通常，对语音数据进行分帧的帧长取为20～50ms。其中，语音帧的频域特征可以为：语音帧的短时能量、语音帧与相邻的语音帧间的相关系数。

本发明实施例提供的系统，具体执行上述各方法实施例流程，具体请详见上述各方法实施例的内容，此处不再赘述。本发明实施例提供的系统，通过将通话过程中的语音数据进行分帧，以根据每一语音帧的频域特征，检测通话过程中是否存在系统加性噪声，无需指派测试人员到达通话现场进行人工检测，而只需获取该通话现场的用户通话过程中的语音数据，对其进行分帧和频域分析就能进行检测，提高了检测效率和检测结果的准确性，节约了检测成本，由于可以获取任意地域、环境、场景下的通话过程中的语音数据，因此能够保证检测的全面性，由于通话过程中的语音数据可以实时获取，因此能够保证检测的实时性和时效性。

图3为本发明实施例提供的一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303和通信总线304，其中，处理器301，通信接口302，存储器303通过通信总线304完成相互间的通信。处理器301可以调用存储在存储器303上并可在处理器301上运行的计算机程序，以执行上述各实施例提供的方法，例如包括：将通话过程中的语音数据进行分帧，形成语音帧序列，其中，所述语音帧序列包括多个语音帧；根据每一语音帧的频域特征，检测所述通话过程中是否存在系统加性噪声。

此外，上述的存储器303中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法，例如包括：将通话过程中的语音数据进行分帧，形成语音帧序列，其中，所述语音帧序列包括多个语音帧；根据每一语音帧的频域特征，检测所述通话过程中是否存在系统加性噪声。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种通话过程中的噪声检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，将通话过程中的语音数据进行分帧，形成语音帧序列，之前还包括：

采集通话过程中的RTP码流，并抽取所述RTP码流中的语音包；

将所述语音包解码为语音数据。

3.根据权利要求1所述的方法，其特征在于，根据每一语音帧的频域特征，检测所述通话过程中是否存在系统加性噪声，包括：

对于每一语音帧，将所述语音帧进行fft变换，以获取所述语音帧的幅值数组和短时能量；

根据所述语音帧的幅值数组和相邻的语音帧的幅值数组，获取所述语音帧和相邻的语音帧间的相关系数；

4.根据权利要求3所述的方法，其特征在于，根据每一语音帧的短时能量和每一语音帧与相邻的语音帧间的相关系数，检测所述通话过程中是否存在系统加性噪声，包括：

根据每一语音帧的短时能量和每一语音帧与相邻的语音帧间的相关系数，判定所述语音帧序列中是否存在同时满足第一预设条件、第二预设条件、第三预设条件和第四预设条件的语音帧组；

若所述语音帧组存在，则判定所述通话过程中存在系统加性噪声；

5.根据权利要求3所述的方法，其特征在于，根据每一语音帧的短时能量和每一语音帧与相邻的语音帧间的相关系数，检测所述通话过程中是否存在系统加性噪声，包括：

通过滑动窗口，将所述语音帧序列分为多段窗口序列，其中，每段窗口序列包括多个语音帧；

对于每段窗口序列，确定所述窗口序列中短时能量最高的语音帧，并作为目标语音帧；

判定所述窗口序列中是否存在包含所述目标语音帧且同时满足第五预设条件、第六预设条件、第七预设条件和第八预设条件的语音帧组；

6.根据权利要求4或5所述的方法，其特征在于，还包括：

7.根据权利要求6所述的方法，其特征在于，基于所述系统加性噪声所在的语音帧组中两端的语音帧的短时能量，判定所述通话过程的通话质量，包括：

对于所述语音帧组中两端的语音帧中任一语音帧，获取与所述语音帧相邻的且位于所述语音帧组外的参考语音帧组的平均短时能量；

8.一种通话过程中的噪声检测系统，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。