CN111081269A - 通话过程中的噪声检测方法及系统 - Google Patents
通话过程中的噪声检测方法及系统 Download PDFInfo
- Publication number
- CN111081269A CN111081269A CN201811222307.0A CN201811222307A CN111081269A CN 111081269 A CN111081269 A CN 111081269A CN 201811222307 A CN201811222307 A CN 201811222307A CN 111081269 A CN111081269 A CN 111081269A
- Authority
- CN
- China
- Prior art keywords
- voice
- voice frame
- frame
- speech
- frames
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 152
- 230000008569 process Effects 0.000 title claims abstract description 119
- 238000001514 detection method Methods 0.000 title claims abstract description 58
- 239000000654 additive Substances 0.000 claims abstract description 65
- 230000000996 additive effect Effects 0.000 claims abstract description 65
- 238000009432 framing Methods 0.000 claims abstract description 22
- 230000009897 systematic effect Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 2
- 230000006854 communication Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 12
- 230000000737 periodic effect Effects 0.000 description 12
- 230000005540 biological transmission Effects 0.000 description 6
- 230000008447 perception Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/65—Network streaming protocols, e.g. real-time transport protocol [RTP] or real-time control protocol [RTCP]
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computer Networks & Wireless Communication (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明实施例提供一种通话过程中的噪声检测方法及系统。其中,方法包括:将通话过程中的语音数据进行分帧,形成语音帧序列,其中,所述语音帧序列包括多个语音帧;根据每一语音帧的频域特征,检测所述通话过程中是否存在系统加性噪声。本发明实施例提供的通话过程中的噪声检测方法及系统,通过将通话过程中的语音数据进行分帧,以根据每一语音帧的频域特征,检测通话过程中是否存在系统加性噪声,提高了检测效率和检测结果的准确性,节约了检测成本,由于可以获取任意地域、环境、场景下的通话过程中的语音数据,因此能够保证检测的全面性,由于通话过程中的语音数据可以实时获取,因此能够保证检测的实时性和时效性。
Description
技术领域
本发明实施例涉及移动通信技术领域,尤其涉及一种通话过程中的噪声检测方法及系统。
背景技术
通话过程中通常存在两种噪声,一种为声源噪声,即环境噪声,另一种为系统加性噪声,即端到端传输过程中由于语音数据编解码或传输异常等引入的噪声。由于声音的掩蔽效应,声源噪声和系统加性噪声都可能造成通话过程中语音感知质差的问题,即通话过程中语音质量差,通话双方存在交流障碍的问题。声源噪声可以通过通话人自行调整而提升通话过程中的语音质量;而系统加性噪声是端到端传输过程中由于语音数据编解码或传输异常等所致,因此,通话人较难自行进行调整以提升通话过程中的语音质量,而需要通过通信运营商等移动网络的管理维护者去提升移动网络的整体质量,从而提升通话过程中的语音质量。
产生系统加性噪声的原因很多:有网络侧原因,比如信号相互干扰,网络无线弱覆盖,基站参数配置问题等;有终端侧的原因,比如用户手机语音编解码问题导致发包异常,天线受损,听筒受损等;有传输侧原因,比如实时传输协议(Real-time TransportProtocol,简称RTP)码流中的语音包在传输过程中出现较小比例的丢包或者出现了延时过大等。上述的任意一种或多种原因会使得通话过程引入系统加性噪声,从而可能造成通话过程中语音感知质差的问题。
目前对于通话过程中系统加性噪声的检测通常采用呼叫质量拨打测试(CallQuality Test,简称CQT)方法,即,指派两名测试人员到指定场所,在排除了声源噪声后,两名测试人员通过手机进行通话,通话双方根据自身实际的听觉感受判定通话过程中是否存在系统加性噪声。但该方法存在的弊端为:(1)指派检测人员进行现场验证性检测,效率低下、遍历场景有限、检测结果受检测人员的主观感知影响大;(2)通常是在用户发生感知问题投诉后才指派检测人员进行现场验证性检测,无法在用户通话过程中就进行检测,无法保证检测的实时性,由于移动网络环境等诸多因素的变化,并不一定能得及时有效地发现问题,时效性得不到保障。
发明内容
针对现有技术中存在的技术问题,本发明实施例提供一种通话过程中的噪声检测方法及系统。
第一方面,本发明实施例提供一种通话过程中的噪声检测方法,包括:
将通话过程中的语音数据进行分帧,形成语音帧序列,其中,所述语音帧序列包括多个语音帧;
根据每一语音帧的频域特征,检测所述通话过程中是否存在系统加性噪声。
第二方面,本发明实施例提供一种通话过程中的噪声检测系统,包括:
分帧模块,用于将通话过程中的语音数据进行分帧,形成语音帧序列,其中,所述语音帧序列包括多个语音帧;
噪声检测模块,用于根据每一语音帧的频域特征,检测所述通话过程中是否存在系统加性噪声。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。
本发明实施例提供的通话过程中的噪声检测方法及系统,通过将通话过程中的语音数据进行分帧,以根据每一语音帧的频域特征,检测通话过程中是否存在系统加性噪声,相比于CQT方法,无需指派测试人员到达通话现场进行人工检测,而只需获取该通话现场的用户通话过程中的语音数据,对其进行分帧和频域分析就能进行检测,提高了检测效率和检测结果的准确性,节约了检测成本,由于可以获取任意地域、环境、场景下的通话过程中的语音数据,因此能够保证检测的全面性,由于通话过程中的语音数据可以实时获取,因此能够保证检测的实时性和时效性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种通话过程中的噪声检测方法流程图;
图2为本发明实施例提供的一种通话过程中的噪声检测系统的结构示意图;
图3为本发明实施例提供的一种电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种通话过程中的噪声检测方法流程图,如图1所示,该方法包括:
步骤101:将通话过程中的语音数据进行分帧,形成语音帧序列,其中,所述语音帧序列包括多个语音帧。
步骤102:根据每一语音帧的频域特征,检测所述通话过程中是否存在系统加性噪声。
需要说明的是,若通话过程中存在系统加性噪声,则可能影响通话质量,造成语音感知质差的问题,使得通话双方沟通不畅,甚至引起交流障碍。由于系统加性噪声带来的语音感知质差的问题不能通过通话人自行避免,而只能通过通信运营商等移动网络的管理维护者去解决,所以通信运营商等移动网络的管理维护者为了更好地去提升移动网络的整体质量,从而提升通话过程中的语音质量,需要经常检测不同地域、不同环境、不同场景下的通话过程中是否存在系统加性噪声,以根据系统加性噪声,判定通话过程的通话质量,进而判定是否对移动网络进行调整,以及如何调整。因此,检测通话过程中是否存在系统加性噪声尤为重要。
具体地,由于通话过程中的语音数据具有短时平稳特性,因此,需要对其进行分帧处理,以便根据每一个语音帧的平稳特性获取对应的频域特征,进而根据每一个语音帧的频域特征,检测该通话过程中是否存在系统加性噪声,以便根据系统加性噪声,判定该通话过程的通话质量。通常,对语音数据进行分帧的帧长取为20~50ms。其中,语音帧的频域特征可以为:语音帧的短时能量、语音帧与相邻的语音帧间的相关系数。
举个例子,将语音数据进行分帧处理后,会得到多个语音帧,将这多个语音帧组成的集合称为语音帧序列X,则语音帧序列X可表述为:X={X1,X2,...,Xn},其中,n为正整数,代表语音帧序列X中语音帧的个数,X1,X2,...,Xn中的每一个元素均代表一个语音帧。根据每一个语音帧的频域特征,检测该通话过程中是否存在系统加性噪声的意思为:根据X1的频域特征、X2的频域特征、…、以及Xn的频域特征,检测该通话过程中是否存在系统加性噪声。
需要说明的是,系统加性噪声通常为以下两种:呈现20ms周期语音特征相关性很高的周期性噪声(简称为周期性噪声),以及突发出现的幅度高而持续时间短的离散脉冲噪声(简称为离散脉冲噪声)。只要通话过程中至少存在周期性噪声和离散脉冲噪声中的任一种噪声,则可判定该通话过程中存在系统加性噪声。
本发明实施例提供的方法,通过将通话过程中的语音数据进行分帧,以根据每一语音帧的频域特征,检测通话过程中是否存在系统加性噪声,相比于CQT方法,无需指派测试人员到达通话现场进行人工检测,而只需获取该通话现场的用户通话过程中的语音数据,对其进行分帧和频域分析就能进行检测,提高了检测效率和检测结果的准确性,节约了检测成本,由于可以获取任意地域、环境、场景下的通话过程中的语音数据,因此能够保证检测的全面性,由于通话过程中的语音数据可以实时获取,因此能够保证检测的实时性和时效性。
在上述各实施例的基础上,本发明实施例对通话过程中的语音数据的获取过程进行说明。即,将通话过程中的语音数据进行分帧,形成语音帧序列,之前还包括:
采集通话过程中的RTP码流,并抽取所述RTP码流中的语音包。
将所述语音包解码为语音数据。
在本发明实施例中,可在网络侧采集通话过程中用户面的RTP码流,具体地,可在移动网络的核心网接口处采集通话过程中用户面的RTP码流。对于采集得到的RTP码流,抽取其中的语音包,并对语音包进行解码以还原为语音数据。需要说明的是,采集可以是在用户通话时进行实时采集,也可以是在用户通话完成之后再采集。
本发明实施例提供的方法,通过在网络侧实时采集通话过程中用户面的RTP码流以获取语音数据,保证了检测的实时性和时效性,对全网质量形成监控,保证了检测的全面性,提高了检测效率,节约了检测成本。
在上述各实施例的基础上,本发明实施例对语音帧序列中每一语音帧的频域特征的获取过程进行说明。根据每一语音帧的频域特征,检测所述通话过程中是否存在系统加性噪声,包括:
对于每一语音帧,将所述语音帧进行fft变换,以获取所述语音帧的幅值数组和短时能量。
根据所述语音帧的幅值数组和相邻的语音帧的幅值数组,获取所述语音帧和相邻的语音帧间的相关系数。
根据每一语音帧的短时能量和每一语音帧与相邻的语音帧间的相关系数,检测所述通话过程中是否存在系统加性噪声。
具体地,本发明实施例以获取语音帧序列X中的X1的频域特征进行举例说明,可将X1表述为:X1={A1,A2,...Am},其中,m为正整数,代表X1中采样点的个数,A1,A2,...Am中每一个元素均代表一个采样点的幅值。将X1进行快速傅里叶(Fast Fourier Transformation,fft)变换,以获取X1的幅值数组α1和短时能量β1:
α1=abs(fft(X1)) (1)
其中,abs为求取绝对值的函数,∑为求和函数。
需要说明的是,对于语音帧序列X中每一个语音帧的幅值数组和短时能量的求取方式均如公式(1)和公式(2)所示,此处不再赘述。
对于语音帧序列X,从第二个语音帧开始,依次计算每一个语音帧Xi与前一个语音帧Xi-1间的相关系数CORR(Xi-1,Xi)为:
其中,i=2,3,...n,cov为求取协方差的函数,Var为求取方差的函数。
需要说明的是,Xi与Xi-1间相关系数也可称为Xi-1与Xi间相关系数。
根据语音帧序列中每一个语音帧的短时能量和每一语音帧与相邻的语音帧间的相关系数,可检测出该通话过程中是否存在系统加性噪声。即,根据X1的短时能量、X2的短时能量、…、Xn的短时能量、X1与X2间的相关系数、X2与X3间的相关系数、…、Xn-1与Xn间的相关系数,检测该通话过程中是否存在系统加性噪声。
在上述实施例中已经提到系统加性噪声通常为以下两种:周期性噪声和离散脉冲噪声,若通话过程中至少存在周期性噪声和离散脉冲噪声中的任一种噪声,则可判定该通话过程中存在系统加性噪声。而周期性噪声的检测方法和离散脉冲噪声的检测方法有所不同,以下分别对这两种噪声的检测方法进行说明。
在上述各实施例的基础上,本发明实施例对周期性噪声的检测方法进行说明。根据每一语音帧的短时能量和每一语音帧与相邻的语音帧间的相关系数,检测所述通话过程中是否存在系统加性噪声,包括:
根据每一语音帧的短时能量和每一语音帧与相邻的语音帧间的相关系数,判定所述语音帧序列中是否存在同时满足第一预设条件、第二预设条件、第三预设条件和第四预设条件的语音帧组。
若所述语音帧组存在,则判定所述通话过程中存在系统加性噪声。
其中,第一预设条件为:语音帧组中每相邻的两个语音帧间的相关系数大于第一预设阈值;第二预设条件为:语音帧组中两端的语音帧与各自相邻的且位于语音帧组外的语音帧间的相关系数均不大于第一预设阈值;第三预设条件为:语音帧组中语音帧的个数大于第三预设阈值;第四预设条件为:语音帧组的平均短时能量大于第四预设阈值。
具体地,在本发明实施例中,通过在语音帧序列中找到同时满足第一预设条件、第二预设条件、第三预设条件和第四预设条件的语音帧组,即可判定该语音帧组为周期性噪声,也即,该通话过程中存在系统加性噪声。
需要说明的是,语音帧组为语音帧序列中的一段由连续的语音帧组成的集合。以语音帧序列X={X1,X2,X3,X4,X5,X6,X7,X8,X9,X10},且满足上述四个预设条件的语音帧组G={X2,X3,X4,X5}为例,对上述四个预设条件进行说明:
G满足第一预设条件,即:X2,X3间的相关系数大于第一预设阈值,X3,X4间的相关系数大于第一预设阈值,X4,X5间的相关系数大于第一预设阈值。
G满足第二预设条件,即:G中左端的X2与其相邻的且位于G外的X1间的相关系数不大于第一预设阈值,并且,G中右端的X5与其相邻的且位于G外的X6间的相关系数不大于第一预设阈值。
G满足第三预设条件,即:X2,X3,X4,X5的个数4大于第三预设阈值。
G满足第四预设条件,即:X2,X3,X4,X5中每一语音帧的短时能量之和与个数4的商大于第四预设阈值。
以下对语音帧序列X={X1,X2,X3,X4,X5,X6,X7,X8,X9,X10}中是否存在满足上述四个预设条件的语音帧组的判定过程进行举例说明。在此,假定语音帧序列X={X1,X2,X3,X4,X5,X6,X7,X8,X9,X10}中:X1的短时能量为1,X2的短时能量为2,X3的短时能量为3,X4的短时能量为4,X5的短时能量为5,X6的短时能量为6,X7的短时能量为7,X8的短时能量为8,X9的短时能量为6,X10的短时能量为5,X1,X2间的相关系数为0.1,X2,X3间的相关系数为0.6,X3,X4间的相关系数为0.6,X4,X5间的相关系数为0.6,X5,X6间的相关系数为0.1,X6,X7间的相关系数为0.1,X7,X8间的相关系数为0.8,X8,X9间的相关系数为0.1,X9,X10间的相关系数为0.1。第一预设阈值为0.5,第三预设阈值为3,第四预设阈值为3。
首先,确定满足第一预设条件和第二预设条件的候选语音帧组。具体地,由于X2,X3间的相关系数为0.6,X3,X4间的相关系数为0.6,X4,X5间的相关系数为0.6,且,X1,X2间的相关系数为0.1,X5,X6间的相关系数为0.1,因此,可将{X2,X3,X4,X5}组成的语音帧组作为满足第一预设条件和第二预设条件的候选语音帧组,在此将其称为第一候选语音帧组。并且,由于X7,X8间的相关系数为0.8,X6,X7间的相关系数为0.1,X8,X9间的相关系数为0.1,因此,可将{X7,X8}组成的语音帧组作为满足第一预设条件和第二预设条件的候选语音帧组,在此将其称为第二候选语音帧组。
其中,第一候选语音帧组{X2,X3,X4,X5}中每相邻的两个语音帧间的相关系数均为0.6,均大于第一预设阈值0.5,该第一候选语音帧组{X2,X3,X4,X5}满足第一预设条件,该第一候选语音帧组{X2,X3,X4,X5}左端X2与X1的相关系数为0.1,该第一候选语音帧组{X2,X3,X4,X5}右端X5与X6的相关系数为0.1,均不大于第一预设阈值为0.5,该第一候选语音帧组{X3,X4,X5,X6,X7}满足第二预设条件。第二候选语音帧组{X7,X8}中相邻的两个语音帧间的相关系数为0.8,大于第一预设阈值0.5,该第二候选语音帧组{X7,X8}满足第一预设条件,该第二候选语音帧组{X7,X8}左端X7与X6的相关系数为0.1,该第二候选语音帧组{X7,X8}右端X8与X9的相关系数为0.1,均不大于第一预设阈值为0.5,该第二候选语音帧组{X7,X8}满足第二预设条件。
其次,确定第一候选语音帧组{X2,X3,X4,X5}和第二候选语音帧组{X7,X8}是否满足第三预设条件和第四预设条件,若第一候选语音帧组和第二候选语音帧组中至少有一个候选语音帧组满足第三预设条件和第四预设条件,则可判定满足第三预设条件和第四预设条件的候选语音帧组为周期性噪声,也即该通话过程中存在系统加性噪声。
具体地,由于第一候选语音帧组{X2,X3,X4,X5}中语音帧的个数为4,大于第三预设阈值3,因此,该第一候选语音帧组{X2,X3,X4,X5}满足第三预设条件,该第一候选语音帧组{X2,X3,X4,X5}的平均短时能量E=(2+3+4+5)/4=3.5,大于第四预设阈值为3,因此,该第一候选语音帧组{X2,X3,X4,X5}满足第四预设条件。由于第二候选语音帧组{X7,X8}中语音帧的个数为2,不大于第三预设阈值3,因此,该第二候选语音帧组{X7,X8}不满足第三预设条件,无需再判定其是否满足第四预设条件即可确定其不能同时满足上述四个预设条件。
综上,第一候选语音帧组{X2,X3,X4,X5}为同时满足第一预设条件、第二预设条件、第三预设条件和第四预设条件的语音帧组,因此,第一候选语音帧组{X2,X3,X4,X5}为周期性噪声,该通话过程中存在系统加性噪声。
需要说明的是,第一预设阈值、第三预设阈值和第四预设阈值可以根据实际情况进行调整,本发明实施例对此不作具体限定。
在上述各实施例的基础上,本发明实施例对离散脉冲噪声的检测方法进行说明。根据每一语音帧的短时能量和每一语音帧与相邻的语音帧间的相关系数,检测所述通话过程中是否存在系统加性噪声,包括:
通过滑动窗口,将所述语音帧序列分为多段窗口序列,其中,每段窗口序列包括多个语音帧。
对于每段窗口序列,确定所述窗口序列中短时能量最高的语音帧,并作为目标语音帧。
判定所述窗口序列中是否存在包含所述目标语音帧且同时满足第五预设条件、第六预设条件、第七预设条件和第八预设条件的语音帧组。
若所述语音帧组存在,则判定所述通话过程中存在系统加性噪声。
其中,第五预设条件为:语音帧组中每相邻的两个语音帧间的相关系数大于第五预设阈值;第六预设条件为:语音帧组中两端的语音帧与各自相邻的且位于语音帧组外的语音帧间的相关系数均小于第六预设阈值;第七预设条件为:语音帧组中语音帧的个数小于第七预设阈值;第八预设条件为:语音帧组中两端的语音帧与各自相邻的且位于语音帧组外的语音帧的短时能量差值均大于第八预设阈值。
具体地,本发明实施例需要对语音帧序列进行滑窗操作,以将语音帧序列分为多段窗口序列,需要说明的是,不同窗口序列可以重叠或不重叠。对于一段窗口序列来说,若该窗口序列中存在满足五个条件的语音帧组,即可判定该语音帧组为离散脉冲噪声,也即,该通话过程中存在系统加性噪声。其中,五个条件分别为:该语音帧组中包含该窗口序列中短时能量最高的目标语音帧,且该语音帧组同时满足第五预设条件、第六预设条件、第七预设条件和第八预设条件。
需要说明的是,语音帧组为语音帧序列中的一段由连续的语音帧组成的集合。以语音帧序列X={X1,X2,X3,X4,X5,X6,X7,X8,X9,X10}中的一段窗口序列{X6,X7,X8,X9,X10},以及窗口序列{X6,X7,X8,X9,X10}中存在满足上述五个条件的语音帧组P={X7,X8}为例,对上述五个条件进行说明:
P中包含该窗口序列{X6,X7,X8,X9,X10}中短时能量最高的目标语音帧,即:X7,X8中的某一语音帧的短时能量为{X6,X7,X8,X9,X10}中短时能量最高的目标语音帧。
P满足第五预设条件,即:X7,X8间的相关系数大于第五预设阈值。
P满足第六预设条件,即:P中左端的X7与其相邻的且位于P外的X6间的相关系数小于第六预设阈值,并且,P中右端的X8与其相邻的且位于P外的X9间的相关系数小于第六预设阈值。
P满足第七预设条件,即:X7,X8的个数2小于第七预设阈值。
P满足第八预设条件,即:X7,X8中左端的X7的短时能量与其相邻的且位于P外的X6的短时能量的差值大于第八预设阈值,并且,P中右端的X8的短时能量与其相邻的且位于P外的X9的短时能量的差值大于第八预设阈值。
以下对语音帧序列X={X1,X2,X3,X4,X5,X6,X7,X8,X9,X10}中的一段窗口序列{X6,X7,X8,X9,X10}是否存在满足上述五个条件的语音帧组的判定过程进行举例说明。需要说明的是,该语音帧序列X={X1,X2,X3,X4,X5,X6,X7,X8,X9,X10}中每一语音帧的短时能量以及每一语音帧与相邻的语音帧间的相关系数均在上述实施例中进行说明,此处不再赘述。第五预设阈值为0.7,第六预设阈值为0.3,第七预设阈值为3,第八预设阈值为1。
首先,在该窗口序列{X6,X7,X8,X9,X10}中确定短时能量最高的目标语音帧为X8。
然后,确定包含X8且满足第五预设条件和第六预设条件的候选语音帧组。具体地,由于X7,X8间的相关系数为0.8,且,X6,X7间的相关系数为0.1,X8,X9间的相关系数为0.1,因此,可将{X7,X8}组成的语音帧组作为满足第五预设条件和第六预设条件的候选语音帧组,在此将其称为第三候选语音帧组。
其中,该第三候选语音帧组{X7,X8}中相邻的两个语音帧间的相关系数为0.8,大于第五预设阈值0.7,该第三候选语音帧组{X7,X8}满足第五预设条件;该第三候选语音帧组{X7,X8}左端X7与X6的相关系数为0.1,该第三候选语音帧组{X7,X8}右端X8与X9的相关系数为0.1,均小于第六预设阈值0.3,该第三候选语音帧组{X7,X8}满足第六预设条件。
其次,确定该第三候选语音帧组{X7,X8}是否满足第七预设条件和第八预设条件,若满足,则可判定该第三候选语音帧组{X7,X8}为离散脉冲噪声,也即通话过程中存在系统加性噪声。
具体地,由于该第三候选语音帧组{X7,X8}中语音帧的个数为2,小于第七预设阈值3,该第三候选语音帧组{X7,X8}满足第七预设条件,该第三候选语音帧组{X7,X8}的平均短时能量E=(7+8)/2=7.5,该平均短时能量7.5与X6的短时能量6的差值为1.5,该平均短时能量7.5与X9的短时能量6的差值为1.5,均大于第八预设阈值为1,因此,该第三候选语音帧组{X7,X8}满足第八预设条件。
综上,该第三候选语音帧组{X7,X8}为包含该窗口序列{X6,X7,X8,X9,X10}中短时能量最高的目标语音帧,且同时满足第五预设条件、第六预设条件、第七预设条件和第八预设条件的语音帧组,因此,第三候选语音帧组为离散脉冲噪声,该通话过程中存在系统加性噪声。
需要说明的是,第五预设阈值、第六预设阈值、第七预设阈值和第八预设阈值可以根据实际情况进行调整,本发明实施例对此不作具体限定。
需要说明的是,若通话过程中存在系统加性噪声,但非常微弱时,不一定会对通话双方的通话过程产生影响,从而无法判定通话过程的通话质量。以下实施例将说明如何根据系统加性噪声,判定通话过程的通话质量。
在上述各实施例的基础上,该方法还包括:
若所述通话过程中存在系统加性噪声,则基于所述系统加性噪声所在的语音帧组中两端的语音帧的短时能量,判定所述通话过程的通话质量。
具体地,对于语音帧序列X={X1,X2,X3,X4,X5,X6,X7,X8,X9,X10},可知该语音帧序列X={X1,X2,X3,X4,X5,X6,X7,X8,X9,X10}对应的通话过程中存在系统加性噪声,其中:第一候选语音帧组{X2,X3,X4,X5}为周期性噪声,第三候选语音帧组{X7,X8}为离散脉冲噪声。在本发明实施例中,可根据第一候选语音帧组{X2,X3,X4,X5}两端的语音帧的短时能量和第三候选语音帧组{X7,X8}两端的语音帧的短时能量,判定通话过程的通话质量。其中,对于第一候选语音帧组{X2,X3,X4,X5},两端的语音帧指的是左端X2和右端X5,对于第三候选语音帧组{X7,X8},两端的语音帧指的是左端X7和右端X8。
在上述各实施例的基础上,基于所述系统加性噪声所在的语音帧组中两端的语音帧的短时能量,判定所述通话过程的通话质量,包括:
对于所述语音帧组中两端的语音帧中任一语音帧,获取与所述语音帧相邻的且位于所述语音帧组外的参考语音帧组的平均短时能量。
若所述语音帧的短时能量与所述平均短时能量的差值大于第九预设阈值,则判定所述通话过程的通话质量差。
具体地,首先举例说明参考语音帧组的定义:对于语音帧序列X={X1,X2,X3,X4,X5,X6,X7,X8,X9,X10}和周期性噪声所在的第一候选语音帧组{X2,X3,X4,X5},只有周期性噪声所在的第一候选语音帧组{X2,X3,X4,X5}两端的语音帧才存在参考语音帧组。即,只有左端的X2和右端的X5才存在参考语音帧组。对于X5,其参考语音帧组为与其相邻的且位于该第一候选语音帧组{X2,X3,X4,X5}外的一段由连续的语音帧组成的集合,可以为{X6,X7,X8,X9,X10}、{X6,X7,X8,X9}、{X6,X7,X8}、{X6,X7}、{X6}中的任意一个。需要说明的是,参考语音帧组中语音帧的个数可以根据实际情况进行调整,本发明实施例对此不作具体限定。
需要说明的是,语音帧序列中可以包含一个或多个为系统加性噪声的语音帧组,而不管语音帧组有多少个,只要至少有一个语音帧组中的某一端的语音帧的短时能量与该端语音帧的参考语音帧组的平均短时能量的差值大于第九预设阈值,那么,就可判定该语音帧序列对应的通话过程的通话质量差。需要说明的是,第九预设阈值可以根据实际情况进行调整,本发明实施例对此不作具体限定。
图2为本发明实施例提供的一种通话过程中的噪声检测系统的结构示意图,如图2所示,该系统包括:
分帧模块201,用于将通话过程中的语音数据进行分帧,形成语音帧序列,其中,所述语音帧序列包括多个语音帧。噪声检测模块202,用于根据每一语音帧的频域特征,检测所述通话过程中是否存在系统加性噪声。
具体地,由于通话过程中的语音数据具有短时平稳特性,因此,需要通过分帧模块201对获取到的通话过程中的语音数据进行分帧处理,得到包含多个语音帧的语音帧序列,以便使得噪声检测模块202根据语音帧序列中的每一个语音帧的平稳特性获取对应的频域特征,进而根据每一个语音帧的频域特征,检测该通话过程中是否存在系统加性噪声,以便根据系统加性噪声,判定该通话过程的通话质量。通常,对语音数据进行分帧的帧长取为20~50ms。其中,语音帧的频域特征可以为:语音帧的短时能量、语音帧与相邻的语音帧间的相关系数。
本发明实施例提供的系统,具体执行上述各方法实施例流程,具体请详见上述各方法实施例的内容,此处不再赘述。本发明实施例提供的系统,通过将通话过程中的语音数据进行分帧,以根据每一语音帧的频域特征,检测通话过程中是否存在系统加性噪声,无需指派测试人员到达通话现场进行人工检测,而只需获取该通话现场的用户通话过程中的语音数据,对其进行分帧和频域分析就能进行检测,提高了检测效率和检测结果的准确性,节约了检测成本,由于可以获取任意地域、环境、场景下的通话过程中的语音数据,因此能够保证检测的全面性,由于通话过程中的语音数据可以实时获取,因此能够保证检测的实时性和时效性。
图3为本发明实施例提供的一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信。处理器301可以调用存储在存储器303上并可在处理器301上运行的计算机程序,以执行上述各实施例提供的方法,例如包括:将通话过程中的语音数据进行分帧,形成语音帧序列,其中,所述语音帧序列包括多个语音帧;根据每一语音帧的频域特征,检测所述通话过程中是否存在系统加性噪声。
此外,上述的存储器303中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法,例如包括:将通话过程中的语音数据进行分帧,形成语音帧序列,其中,所述语音帧序列包括多个语音帧;根据每一语音帧的频域特征,检测所述通话过程中是否存在系统加性噪声。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种通话过程中的噪声检测方法,其特征在于,包括:
将通话过程中的语音数据进行分帧,形成语音帧序列,其中,所述语音帧序列包括多个语音帧;
根据每一语音帧的频域特征,检测所述通话过程中是否存在系统加性噪声。
2.根据权利要求1所述的方法,其特征在于,将通话过程中的语音数据进行分帧,形成语音帧序列,之前还包括:
采集通话过程中的RTP码流,并抽取所述RTP码流中的语音包;
将所述语音包解码为语音数据。
3.根据权利要求1所述的方法,其特征在于,根据每一语音帧的频域特征,检测所述通话过程中是否存在系统加性噪声,包括:
对于每一语音帧,将所述语音帧进行fft变换,以获取所述语音帧的幅值数组和短时能量;
根据所述语音帧的幅值数组和相邻的语音帧的幅值数组,获取所述语音帧和相邻的语音帧间的相关系数;
根据每一语音帧的短时能量和每一语音帧与相邻的语音帧间的相关系数,检测所述通话过程中是否存在系统加性噪声。
4.根据权利要求3所述的方法,其特征在于,根据每一语音帧的短时能量和每一语音帧与相邻的语音帧间的相关系数,检测所述通话过程中是否存在系统加性噪声,包括:
根据每一语音帧的短时能量和每一语音帧与相邻的语音帧间的相关系数,判定所述语音帧序列中是否存在同时满足第一预设条件、第二预设条件、第三预设条件和第四预设条件的语音帧组;
若所述语音帧组存在,则判定所述通话过程中存在系统加性噪声;
其中,第一预设条件为:语音帧组中每相邻的两个语音帧间的相关系数大于第一预设阈值;第二预设条件为:语音帧组中两端的语音帧与各自相邻的且位于语音帧组外的语音帧间的相关系数均不大于第一预设阈值;第三预设条件为:语音帧组中语音帧的个数大于第三预设阈值;第四预设条件为:语音帧组的平均短时能量大于第四预设阈值。
5.根据权利要求3所述的方法,其特征在于,根据每一语音帧的短时能量和每一语音帧与相邻的语音帧间的相关系数,检测所述通话过程中是否存在系统加性噪声,包括:
通过滑动窗口,将所述语音帧序列分为多段窗口序列,其中,每段窗口序列包括多个语音帧;
对于每段窗口序列,确定所述窗口序列中短时能量最高的语音帧,并作为目标语音帧;
判定所述窗口序列中是否存在包含所述目标语音帧且同时满足第五预设条件、第六预设条件、第七预设条件和第八预设条件的语音帧组;
若所述语音帧组存在,则判定所述通话过程中存在系统加性噪声;
其中,第五预设条件为:语音帧组中每相邻的两个语音帧间的相关系数大于第五预设阈值;第六预设条件为:语音帧组中两端的语音帧与各自相邻的且位于语音帧组外的语音帧间的相关系数均小于第六预设阈值;第七预设条件为:语音帧组中语音帧的个数小于第七预设阈值;第八预设条件为:语音帧组中两端的语音帧与各自相邻的且位于语音帧组外的语音帧的短时能量差值均大于第八预设阈值。
6.根据权利要求4或5所述的方法,其特征在于,还包括:
若所述通话过程中存在系统加性噪声,则基于所述系统加性噪声所在的语音帧组中两端的语音帧的短时能量,判定所述通话过程的通话质量。
7.根据权利要求6所述的方法,其特征在于,基于所述系统加性噪声所在的语音帧组中两端的语音帧的短时能量,判定所述通话过程的通话质量,包括:
对于所述语音帧组中两端的语音帧中任一语音帧,获取与所述语音帧相邻的且位于所述语音帧组外的参考语音帧组的平均短时能量;
若所述语音帧的短时能量与所述平均短时能量的差值大于第九预设阈值,则判定所述通话过程的通话质量差。
8.一种通话过程中的噪声检测系统,其特征在于,包括:
分帧模块,用于将通话过程中的语音数据进行分帧,形成语音帧序列,其中,所述语音帧序列包括多个语音帧;
噪声检测模块,用于根据每一语音帧的频域特征,检测所述通话过程中是否存在系统加性噪声。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811222307.0A CN111081269B (zh) | 2018-10-19 | 2018-10-19 | 通话过程中的噪声检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811222307.0A CN111081269B (zh) | 2018-10-19 | 2018-10-19 | 通话过程中的噪声检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111081269A true CN111081269A (zh) | 2020-04-28 |
CN111081269B CN111081269B (zh) | 2022-06-14 |
Family
ID=70309650
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811222307.0A Active CN111081269B (zh) | 2018-10-19 | 2018-10-19 | 通话过程中的噪声检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111081269B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112259114A (zh) * | 2020-10-20 | 2021-01-22 | 网易(杭州)网络有限公司 | 语音处理方法及装置、计算机存储介质、电子设备 |
CN116095254A (zh) * | 2022-05-30 | 2023-05-09 | 荣耀终端有限公司 | 音频处理方法和装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101882442A (zh) * | 2009-05-04 | 2010-11-10 | 上海音乐学院 | 历史音频噪声检测与消除方法 |
CN102969000A (zh) * | 2012-12-04 | 2013-03-13 | 中国科学院自动化研究所 | 一种多通道语音增强方法 |
CN103440872A (zh) * | 2013-08-15 | 2013-12-11 | 大连理工大学 | 瞬态噪声的去噪方法 |
CN103440871A (zh) * | 2013-08-21 | 2013-12-11 | 大连理工大学 | 一种语音中瞬态噪声抑制的方法 |
CN104157295A (zh) * | 2014-08-22 | 2014-11-19 | 中国科学院上海高等研究院 | 用于检测及抑制瞬态噪声的方法 |
CN105118522A (zh) * | 2015-08-27 | 2015-12-02 | 广州市百果园网络科技有限公司 | 噪声检测方法及装置 |
US20160275964A1 (en) * | 2015-03-20 | 2016-09-22 | Electronics And Telecommunications Research Institute | Feature compensation apparatus and method for speech recogntion in noisy environment |
US20180102135A1 (en) * | 2016-10-11 | 2018-04-12 | Cirrus Logic International Semiconductor Ltd. | Detection of acoustic impulse events in voice applications |
-
2018
- 2018-10-19 CN CN201811222307.0A patent/CN111081269B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101882442A (zh) * | 2009-05-04 | 2010-11-10 | 上海音乐学院 | 历史音频噪声检测与消除方法 |
CN102969000A (zh) * | 2012-12-04 | 2013-03-13 | 中国科学院自动化研究所 | 一种多通道语音增强方法 |
CN103440872A (zh) * | 2013-08-15 | 2013-12-11 | 大连理工大学 | 瞬态噪声的去噪方法 |
CN103440871A (zh) * | 2013-08-21 | 2013-12-11 | 大连理工大学 | 一种语音中瞬态噪声抑制的方法 |
CN104157295A (zh) * | 2014-08-22 | 2014-11-19 | 中国科学院上海高等研究院 | 用于检测及抑制瞬态噪声的方法 |
US20160275964A1 (en) * | 2015-03-20 | 2016-09-22 | Electronics And Telecommunications Research Institute | Feature compensation apparatus and method for speech recogntion in noisy environment |
CN105118522A (zh) * | 2015-08-27 | 2015-12-02 | 广州市百果园网络科技有限公司 | 噪声检测方法及装置 |
US20180102135A1 (en) * | 2016-10-11 | 2018-04-12 | Cirrus Logic International Semiconductor Ltd. | Detection of acoustic impulse events in voice applications |
Non-Patent Citations (5)
Title |
---|
ROBERT A. MACLACHLAN ET AL.: "《Multirate Kalman filter rejects impulse noise in frequency-domain-multiplexed tracker measurements》", 《2017 IEEE SENSORS》 * |
叶学义等: "《一种基于加性噪声的通用隐写分析算法》", 《电子测量与仪器学报》 * |
洪奕鑫等: "语音端点检测在实时语音截取中的应用", 《无线互联科技》 * |
王双双等: "《基于加权检测的脉冲噪声新滤波器》", 《计算机应用》 * |
郭逾等: "一种基于频域特征和过渡段判决的端点检测算法", 《山东大学学报(工学版)》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112259114A (zh) * | 2020-10-20 | 2021-01-22 | 网易(杭州)网络有限公司 | 语音处理方法及装置、计算机存储介质、电子设备 |
CN116095254A (zh) * | 2022-05-30 | 2023-05-09 | 荣耀终端有限公司 | 音频处理方法和装置 |
CN116095254B (zh) * | 2022-05-30 | 2023-10-20 | 荣耀终端有限公司 | 音频处理方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111081269B (zh) | 2022-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102114766B1 (ko) | 에코 지연을 추적하는 방법 및 장치 | |
CN107305774B (zh) | 语音检测方法和装置 | |
US10832696B2 (en) | Speech signal cascade processing method, terminal, and computer-readable storage medium | |
US8305913B2 (en) | Method and apparatus for non-intrusive single-ended voice quality assessment in VoIP | |
US20170133040A1 (en) | Abnormal Frame Detection Method and Apparatus | |
KR20190045278A (ko) | 음성 품질 평가 방법 및 음성 품질 평가 장치 | |
CN108346434B (zh) | 一种语音质量评估的方法和装置 | |
CN109461455B (zh) | 一种消除啸叫的系统及方法 | |
CN103077727A (zh) | 一种用于语音质量监测和提示的方法和装置 | |
CN106558314B (zh) | 一种混音处理方法和装置及设备 | |
CN111081269B (zh) | 通话过程中的噪声检测方法及系统 | |
CN101202040A (zh) | 有效的用来检测固定功率信号的语音活动检测器 | |
EP3364413A1 (en) | Method of determining noise signal, and method and device for audio noise removal | |
CN109256148B (zh) | 一种语音质量评估方法和装置 | |
CN113539285A (zh) | 音频信号降噪方法、电子装置和存储介质 | |
CN113612808A (zh) | 音频处理方法、相关设备、存储介质及程序产品 | |
CN108269589B (zh) | 用于通话的语音质量评估方法及其装置 | |
CN111885633A (zh) | 一种nr系统的同频邻区检测方法及装置 | |
Ding et al. | Non-intrusive single-ended speech quality assessment in VoIP | |
CN114067822A (zh) | 通话音频处理方法、装置、计算机设备和存储介质 | |
CN109994128B (zh) | 语音质量问题定位方法、装置、设备及介质 | |
CN111402914B (zh) | 噪声消除方法、装置、电子设备和存储介质 | |
CN110797046A (zh) | 语音质量mos值的预测模型建立方法及装置 | |
Mittag et al. | Detecting Packet-Loss Concealment Using Formant Features and Decision Tree Learning. | |
CN109474940B (zh) | 业务质量检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |