CN105721656B - 背景噪声生成方法及装置 - Google Patents

背景噪声生成方法及装置 Download PDF

Info

Publication number
CN105721656B
CN105721656B CN201610154324.XA CN201610154324A CN105721656B CN 105721656 B CN105721656 B CN 105721656B CN 201610154324 A CN201610154324 A CN 201610154324A CN 105721656 B CN105721656 B CN 105721656B
Authority
CN
China
Prior art keywords
noise
speech frame
frame
energy
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610154324.XA
Other languages
English (en)
Other versions
CN105721656A (zh
Inventor
李敬
吴子敬
王林章
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Mobile Software Co Ltd
Original Assignee
Beijing Xiaomi Mobile Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Mobile Software Co Ltd filed Critical Beijing Xiaomi Mobile Software Co Ltd
Priority to CN201610154324.XA priority Critical patent/CN105721656B/zh
Publication of CN105721656A publication Critical patent/CN105721656A/zh
Application granted granted Critical
Publication of CN105721656B publication Critical patent/CN105721656B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/58Anti-side-tone circuits
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M19/00Current supply arrangements for telephone systems

Abstract

本公开关于一种背景噪声生成方法及装置,属于信号处理技术领域。所述方法包括:检测是否接收到语音帧的编码数据,若未接收到编码数据,则通过舒适噪声生成CNG算法根据预设噪声生成背景噪声,该预设噪声的频谱分布为噪声信号的频率与噪声信号的能量呈负相关关系,解决了用户听到的根据白噪声生成的背景噪声不舒适的问题,达到了提高背景噪声的舒适度的效果。

Description

背景噪声生成方法及装置
技术领域
本公开涉及信号处理技术领域,特别涉及一种背景噪声生成方法及装置。
背景技术
在通话过程中,大部分时间是通话一端的用户在讲话,另一端的用户不讲话。此时,不讲话的用户使用的通话设备中的编码器不编码,也不发送编码数据,以降低平均码流速率。
为了让讲话的用户感知到通话过程仍在进行,该用户使用的通话设备中的解码器需要生成一段背景噪声。
发明内容
为解决相关技术中的问题,本公开提供了一种背景噪声生成方法及装置。
根据本公开实施例的第一方面,提供一种背景噪声生成方法,该方法包括:
检测是否接收到语音帧的编码数据,该语音帧是在通话过程中,接收到语音输入的电子设备向另一电子设备发送的数据帧;
若未接收到编码数据,则通过舒适噪声生成CNG算法根据预设噪声生成背景噪声,该预设噪声的频谱分布为噪声信号的频率与噪声信号的能量呈负相关关系。
可选的,通过CNG算法根据预设噪声生成背景噪声,包括:
将预设噪声的频域信号进行时域变换,得到长度为K的数组N[K],K为正整数;
根据数组N[K]计算预设噪声的信号能量E0
对于每个语音帧,获取语音帧对应的平稳噪声的信号能量E,并计算噪声增益E/E0,该平稳噪声是在语音输入的过程中持续存在的噪声;
若语音帧的采样点个数为m,则随机生成m个正整数Ri,m和i为正整数,且i≤m,Ri≤K;
将每个N[Ri]乘以E/E0,得到静音帧中每个采样点的背景噪声值,N[Ri]为数组N[K]中的索引值Ri对应的数据,该静音帧为未接收到语音输入的电子设备,在未接收到语音帧时生成的数据帧;
根据m个背景噪声数据生成静音帧的背景噪声。
可选的,获取语音帧对应的平稳噪声的信号能量E,包括:
获取语音帧和在语音帧之前的各个语音帧在每个频率点的最小能量值;
计算所有频率点的最小能量值的平方和,得到信号能量E。
可选的,该方法还包括:
采集当前时刻的输入内容;
将输入内容分为n个子带,分别计算每个子带中的语音能量以及噪声估计;
根据语音能量和噪声估计计算输入内容的信噪比的均方根;
根据VAD算法中预设的平滑因子系数对均方根进行平滑,并比较平滑后的均方根与预设的门限值;
当平滑后的均方根大于门限值时,根据输入内容生成语音帧进行发送;
当平滑后的均方根小于门限值时,生成静音帧。
根据本公开实施例的第二方面,提供一种背景噪声生成装置,该装置包括:
数据检测模块,被配置为检测是否接收到语音帧的编码数据,该语音帧是在通话过程中,接收到语音输入的电子设备向另一电子设备发送的数据帧;
噪声生成模块,被配置为若数据检测模块检测的结果为未接收到编码数据,则通过CNG算法根据预设噪声生成背景噪声,该预设噪声的频谱分布为噪声信号的频率与噪声信号的能量呈负相关关系。
可选的,该噪声生成模块,包括:
第一生成子模块,被配置为将预设噪声的频域信号进行时域变换,得到长度为K的数组N[K],K为正整数;
第一计算子模块,被配置为根据第一生成子模块得到的数组N[K]计算预设噪声的信号能量E0
第二计算子模块,被配置为对于每个语音帧,获取语音帧对应的平稳噪声的信号能量E,并计算噪声增益E/E0,该平稳噪声是在语音输入的过程中持续存在的噪声;
第二生成子模块,被配置为若语音帧的采样点个数为m,则随机生成m个正整数Ri,m和i为正整数,且i≤m,Ri≤K;
第三生成子模块,被配置为将每个N[Ri]乘以E/E0,得到静音帧中每个采样点的背景噪声值,N[Ri]为数组N[K]中的索引值Ri对应的数据,该静音帧为未接收到语音输入的电子设备,在未接收到语音帧时生成的数据帧;
第四生成子模块,被配置为根据m个第三生成子模块得到的背景噪声数据生成静音帧的背景噪声。
可选的,该第二计算子模块,包括:
获取子模块,被配置为获取语音帧和在语音帧之前的各个语音帧在每个频率点的最小能量值;
第三计算子模块,被配置为计算获取子模块得到的所有频率点的最小能量值的平方和,得到信号能量E。
可选的,该装置还包括:
内容采集模块,被配置为采集当前时刻的输入内容;
第一计算模块,被配置为将内容采集模块采集到的输入内容分为n个子带,分别计算每个子带中的语音能量以及噪声估计;
第二计算模块,被配置为根据第一计算模块计算出的语音能量和噪声估计计算输入内容的信噪比的均方根;
比较模块,被配置为根据VAD算法中预设的平滑因子系数对第二计算模块计算出的均方根进行平滑,并比较平滑后的均方根与预设的门限值;
第一生成模块,被配置为当比较模块比较的结果为平滑后的均方根大于门限值时,根据输入内容生成语音帧进行发送;
第二生成模块,被配置为当比较模块比较的结果为平滑后的均方根小于门限值时,生成静音帧。
根据本公开实施例的第三方面,提供一种背景噪声生成装置,该装置包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,处理器被配置为:
检测是否接收到语音帧的编码数据,该语音帧是在通话过程中,接收到语音输入的电子设备向另一电子设备发送的数据帧;
若未接收到编码数据,则通过CNG算法根据预设噪声生成背景噪声,该预设噪声的频谱分布为噪声信号的频率与噪声信号的能量呈负相关关系。
本公开的实施例提供的技术方案可以包括以下有益效果:
通过检测是否接收到语音帧的编码数据;若未接收到编码数据,则通过CNG算法根据预设噪声生成背景噪声,该预设噪声的频谱分布为噪声信号的频率与噪声信号的能量呈负相关关系,与相关技术中通过CNG算法根据白噪声生成背景噪声相比,预设噪声与白噪声的信号能量相同,且预设噪声中低频信号的能量高于白噪声中低频信号的能量,预设噪声中高频信号的能量低于白噪声中高频信号的能量,由于人耳对于低频信号的敏感度低于高频信号的敏感度,因此,用户听到的根据预设噪声生成的背景噪声更加舒适,解决了用户听到的根据白噪声生成的背景噪声不舒适的问题,达到了提高背景噪声的舒适度的效果。
另外,通过在平滑后的均方根大于门限值时,根据输入内容生成语音帧进行发送;在平滑后的均方根小于门限值时,生成静音帧,使得DTX模块可以根据输入内容确定是生成语音帧还是静音帧,无需在长时间连续生成静音帧时,强制生成语音帧进行发送,解决了由于DTX模块长时间连续生成静音帧,强制生成语音帧进行发送,导致接收端的电子设备需要由生成背景噪声切换为解码语音帧,产生周期性噪声的问题,达到了提高背景噪声的平稳性的效果。
另外,通过调整VAD算法中预设的门限值,解决了由于预设的门限值不准确,导致应当根据输入内容生成静音帧,却错误地生成语音帧的问题,达到了提高电子设备判断根据输入内容生成语音帧还是静音帧的准确性的效果。
另外,通过将每个N[Ri]乘以E/E0,得到静音帧中每个采样点的背景噪声值,N[Ri]为数组N[K]中的索引值Ri对应的数据,可以保证生成的背景噪声与语音帧中的平稳噪声的能量一致,不会产生噪声的起伏,提高了用户在通话过程中的听觉效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本公开说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种背景噪声生成方法的流程图。
图2是根据另一示例性实施例示出的一种背景噪声生成方法的流程图。
图3是根据一示例性实施例示出的一种背景噪声生成装置的框图。
图4是根据一示例性实施例示出的一种背景噪声生成装置的框图。
图5是根据一示例性实施例示出的一种用于背景噪声生成的装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
根据对传统电话业务的统计,在通话过程中,一方用户实际讲话的时间不会超过整个通话时间的40%,在用户没有讲话时,若作为发送端的电子设备继续编码,并发送编码数据会造成通话资源的浪费,因此,电子设备需要对用户是否讲话进行检测,在检测出用户没有讲话时,电子设备不再编码,也不发送编码数据,从而达到节省通话资源,降低通话过程中的平均码流速率的效果。
相关技术中,通过有损声音编码Opus编码器对语音业务中的输入内容进行处理。该Opus编码器至少包含三个模块:VAD(Voice Activity Detection,活动语音检测)模块、DTX(Discontinuous Transmission,不连续发送)模块以及CNG(Comfort NoiseGeneration,舒适噪声生成)模块。
VAD模块,用于检测电子设备是否接收到语音输入,其中,检测是否接收到语音输入的方法为:采集当前时刻的输入内容,将该输入内容分为n个子带,分别计算每个子带中的语音能量以及噪声估计,根据该语音能量和噪声估计计算当前时刻的输入内容的信噪比的均方根;将该均方根用预设的平滑因子进行平滑,并比较平滑后的均方根与预设的门限值的大小,若该平滑后的均方根大于该门限值,则根据当前时刻的输入内容生成语音帧;若该平滑后的均方根小于该门限值,则生成静音帧。其中,语音帧是在通话过程中,接收到语音输入的电子设备向另一电子设备发送的数据帧,静音帧是未接收到语音输入的电子设备,在未接收到语音帧时生成的数据帧。
DTX模块,用于接收VAD模块的判断结果,在VAD模块的判断结果为语音帧时,对该语音帧进行语音编码,并向作为接收端的电子设备发送编码数据;在VAD模块的判断结果为静音帧时,不对该输入内容进行语音编码,且不向作为接收端的电子设备发送编码数据。当DTX模块连续400ms接收到VAD模块的判断结果为静音帧时,无论下一时刻接收到的判断结果是静音帧还是语音帧,都会连续生成40ms的语音帧,对该语音帧进行编码,向作为接收端的电子设备发送编码数据。
CNG模块,用于在未接收到DTX模块发送的编码数据时,生成背景噪声。CNG模块中使用的CNG算法,通过一个电平可控的白噪声激励一个经内插得到的LPC(LinearPredictive Coding,线性预测编码)合成滤波器得到背景噪声。其中,激励电平和LPC滤波器系数都是从上一个语音帧中得到的。白噪声激励是语音激励和高斯白噪声激励的混合,由于语音激励的增益较小,因此,通过使用高斯白噪声生成白噪声,使得语音帧和静音帧之间的过渡更为自然。
相关技术中,VAD模块、DTX模块和CNG模块存在以下问题:
对于VAD模块来说,VAD模块提供的检测算法对于背景噪声过于敏感。在背景噪声很小的情况下,能够比较准确的确定是否根据输入内容生成语音帧。但是,在实际实现时,背景噪声有时会很大,该检测算法会在应当根据输入内容生成静音帧时,错误地生成语音帧,从而导致作为发送端的电子设备需要频繁地在生成语音帧和生成静音帧之间切换,作为接收端的电子设备需要频繁地在正常解码语音帧模式和生成背景噪声模式之间切换,影响了生成的背景噪声的平稳性。
对于DTX模块来说,当一方用户在一段时间内持续不讲话时,由于DTX模块会连续400ms不发送编码数据,连续40ms发送编码数据,因此,作为接收端的电子设备会连续产生400ms背景噪声,连续接收40ms语音,也即频率为2Hz的周期性噪声,影响用户体验。
对于CNG模块来说,虽然利用白噪声生成背景噪声可以使得语音帧和静音帧之间的过渡更为自然,但是,由于白噪声中高频信号的能量较大,且人耳对于低频信号的敏感度低于高频信号的敏感度,因此,根据白噪声生成的背景噪声对用户来说是不舒适的。
本公开提供了一种背景噪声的生成方法,对原有的Opus编码器中CNG模块进行了改进。图1是根据一示例性实施例示出的一种背景噪声生成方法的流程图,该背景噪声生成方法应用于电子设备中,如图1所示,该背景噪声生成方法包括以下步骤。
在步骤101中,检测是否接收到语音帧的编码数据,该语音帧是在通话过程中,接收到语音输入的电子设备向另一电子设备发送的数据帧。
在步骤102中,若未接收到编码数据,则通过CNG算法根据预设噪声生成背景噪声,该预设噪声的频谱分布为噪声信号的频率与噪声信号的能量呈负相关关系。
综上所述,本公开提供的背景噪声生成方法,通过检测是否接收到语音帧的编码数据;若未接收到编码数据,则通过CNG算法根据预设噪声生成背景噪声,与相关技术中通过CNG算法根据白噪声生成背景噪声相比,预设噪声与白噪声的信号能量相同,且预设噪声中低频信号的能量高于白噪声中低频信号的能量,预设噪声中高频信号的能量低于白噪声中高频信号的能量,由于人耳对于低频信号的敏感度低于高频信号的敏感度,因此,用户听到的根据预设噪声生成的背景噪声更加舒适,解决了用户听到的根据白噪声生成的背景噪声不舒适的问题,达到了提高背景噪声的舒适度的效果。
本公开提供了一种背景噪声的生成方法,对原有的Opus编码器中VAD模块、DTX模块、CNG模块进行了改进。请参考图2是根据一示例性实施例示出的一种背景噪声生成方法的流程图,本实施例中,将通话中的一个电子设备称为第一电子设备,将另一电子设备称为第二电子设备,且第一电子设备作为发送端时,执行步骤201-206;第一电子设备作为接收端时,执行步骤207和208。如图2所示,该背景噪声生成方法包括如下步骤。
在步骤201中,采集当前时刻的输入内容。
第一电子设备中的VAD模块采集当前时刻的输入内容,该输入内容可以是语音和噪声,也可以是噪声,本实施例不作限定。
在步骤202中,将输入内容分为n个子带,分别计算每个子带中的语音能量以及噪声估计。
在实际实现时,VAD模块往往将0~8kHz的输入内容划分为4个子带,分别计算每个子带的语音能量及噪声估计。
在步骤203中,根据语音能量和噪声估计计算输入内容的信噪比的均方根。
其中,步骤201至步骤203中相关的算法已经非常成熟,本实施例在此不作赘述。
在步骤204中,根据VAD算法中预设的平滑因子系数对均方根进行平滑,并比较平滑后的均方根与预设的门限值。
相关技术中,预设的门限值SPEECH_ACTIVITY_DTX_THRES为0.05,在该门限值下,第一电子设备可能会在噪声较大时,将部分背景噪声误判为语音输入,会在应当根据输入内容生成静音帧时,错误地生成语音帧,影响了第一电子设备根据输入内容生成语音帧还是静音帧的准确性。
本公开通过对大量的实际信号进行统计,对该门限值进行调整,以提高第一电子设备根据输入内容生成语音帧还是静音帧的准确性。在一种可能的实现方式中,将该门限值由0.05调整为0.15。
在步骤205中,当平滑后的均方根大于门限值时,根据输入内容生成语音帧进行发送,流程结束。
当平滑后的均方根大于门限值时,VAD模块确定需要根据输入内容生成语音帧,DTX模块接收该判断结果,对该语音帧进行语音编码,并将编码数据发送给第二电子设备,流程结束。
在步骤206中,当平滑后的均方根小于门限值时,生成静音帧。
当平滑后的均方根大于门限值时,VAD模块确定需要生成静音帧,DTX模块接收该判断结果,不对该静音帧编码,也不向第二电子设备发送编码数据。
本实施例中,DTX模块只根据平滑后的均方根与门限值的比较结果来确定是生成语音帧还是静音帧,而不会在在长时间连续生成静音帧时,强制生成语音帧进行发送,解决了由于DTX模块长时间连续生成静音帧,强制生成语音帧进行发送,导致接收端的电子设备需要由生成背景噪声切换为解码语音帧,产生周期性噪声的问题,达到了提高背景噪声的平稳性的效果。
在步骤207中,检测是否接收到语音帧的编码数据,该语音帧是在通话过程中,接收到语音输入的电子设备向另一电子设备发送的数据帧。
在步骤208中,若未接收到编码数据,则通过CNG算法根据预设噪声生成背景噪声,该预设噪声的频谱分布为噪声信号的频率与噪声信号的能量呈负相关关系。
其中,预设噪声的频谱分布为噪声信号的频率与噪声信号的能量呈负相关关系,如:布朗噪声。其中,布朗噪声功率密度随频率的增加每倍频下降6dB。
由于人耳对于低频信号的敏感度低于高频信号的敏感度,因此,用户听到的根据预设噪声生成的背景噪声更加舒适,解决了用户听到的根据白噪声生成的背景噪声不舒适的问题,达到了提高背景噪声的舒适度的效果。
其中,通过CNG算法根据预设噪声生成背景噪声,包括:
1)将预设噪声的频域信号进行时域变换,得到长度为K的数组N[K],K为正整数。
预设噪声可以由白噪声信号通过一个预设噪声频谱形状的滤波器进行过滤得到,该白噪声信号可以通过matlab生成,本实施例不对白噪声的生成方式作限定。
2)根据数组N[K]计算预设噪声的信号能量E0
预设噪声的信号能量E0通过以下信号能量计算公式得到:
其中,k为数组N[K]中各个数据的位置,K为数组N[K]的长度。
3)对于每个语音帧,获取语音帧对应的平稳噪声的信号能量E,并计算噪声增益E/E0,该平稳噪声是在语音输入的过程中持续存在的噪声。
对每个语音帧做频域变换,得到该语音帧的频谱分布,从该频谱分布中获取该语音帧和在该语音帧之前的各个语音帧在每个频率点的最小能量值fmin;计算所有频率点的最小能量值的平方和,得到信号能量E。
也即,信号能量E通过以下信号能量计算公式得到:
其中,j为频谱分布中各个频点的位置,M为频谱分布中频点的总数。
假设对每个语音帧做FFT(Fast Fourier Transformation,快速傅氏变换),得到其频谱分布为fwj(w=0,1,2,...,L;j=0,1,2,...,M),其中,w表示语音帧的帧号,w=0表示当前帧,w越大表示距离当前帧越远,j表示频点,L表示语音帧的总数,M表示频点的总数。从该频谱分布中得到频点j对应的最小能量值,即,fminj=min(f0j,f1j,f2j,...,fLj),将fminj作为平稳噪声信号在频点j处的能量值,根据上述信号能量E的计算公式得到平稳噪声信号能量E。
本实施例中,以先执行步骤2)中获取预设噪声的信号能量E0,再执行步骤3)中获取平稳噪声的信号能量E为例进行说明,在实际实现时,也可以先获取平稳噪声的信号能量E,再计算预设噪声的信号能量E0,本实施例不作限定。
4)若语音帧的采样点个数为m,则随机生成m个正整数Ri,m和i为正整数,且i≤m,Ri≤K。
随机生成m个正整数Ri可以通过matlab中的随机生成函数实现,本实施例不作限定。
5)将每个N[Ri]乘以E/E0,得到静音帧中每个采样点的背景噪声值,N[Ri]为数组N[K]中的索引值Ri对应的数据。
其中,E/E0表示实际噪声相对预设噪声信号能量的增益。
将N[Ri]乘以E/E0作为每个采样点的背景噪声值,可以保证生成的背景噪声与语音帧中的平稳噪声的能量一致,不会产生噪声的起伏,提高了用户在通话过程中的听觉效果。
6)根据m个背景噪声数据生成静音帧的背景噪声。
综上所述,本公开提供的背景噪声生成方法,通过检测是否接收到语音帧的编码数据;若未接收到编码数据,则通过CNG算法根据预设噪声生成背景噪声,该预设噪声的频谱分布为噪声信号的频率与噪声信号的能量呈负相关关系,与相关技术中通过CNG算法根据白噪声生成背景噪声相比,预设噪声与白噪声的信号能量相同,且预设噪声中低频信号的能量高于白噪声中低频信号的能量,预设噪声中高频信号的能量低于白噪声中高频信号的能量,由于人耳对于低频信号的敏感度低于高频信号的敏感度,因此,用户听到的根据预设噪声生成的背景噪声更加舒适,解决了用户听到的根据白噪声生成的背景噪声不舒适的问题,达到了提高背景噪声的舒适度的效果。
另外,通过在平滑后的均方根大于门限值时,根据输入内容生成语音帧进行发送;在平滑后的均方根小于门限值时,生成静音帧,使得DTX模块可以根据输入内容确定是生成语音帧还是静音帧,无需在长时间连续生成静音帧时,强制生成语音帧进行发送,解决了由于DTX模块长时间连续生成静音帧,强制生成语音帧进行发送,导致接收端的电子设备需要由生成背景噪声切换为解码语音帧,产生周期性噪声的问题,达到了提高背景噪声的平稳性的效果。
另外,通过调整VAD算法中预设的门限值,解决了由于预设的门限值不准确,导致应当根据输入内容生成静音帧,却错误地生成语音帧的问题,达到了提高电子设备判断根据输入内容生成语音帧还是静音帧的准确性的效果。
另外,通过将每个N[Ri]乘以E/E0,得到静音帧中每个采样点的背景噪声值,N[Ri]为数组N[K]中的索引值Ri对应的数据,可以保证生成的背景噪声与语音帧中的平稳噪声的能量一致,不会产生噪声的起伏,提高了用户在通话过程中的听觉效果。
图3是根据一示例性实施例示出的一种背景噪声生成装置的框图,该背景噪声生成装置应用于电子设备中,如图3所示,该背景噪声生成装置包括:数据模块310和噪声生成模块320。
该数据检测模块310,被配置为检测是否接收到语音帧的编码数据,该语音帧是在通话过程中,接收到语音输入的电子设备向另一电子设备发送的数据帧;
该噪声生成模块320,被配置为若数据检测模块310检测的结果为未接收到编码数据,则CNG算法根据预设噪声生成背景噪声,该预设噪声的频谱分布为噪声信号的频率与噪声信号的能量呈负相关关系。
综上所述,本公开提供的背景噪声生成装置,通过检测是否接收到语音帧的编码数据;若未接收到编码数据,则通过CNG算法根据预设噪声生成背景噪声,该预设噪声的频谱分布为噪声信号的频率与噪声信号的能量呈负相关关系,与相关技术中通过CNG算法根据白噪声生成背景噪声相比,预设噪声与白噪声的信号能量相同,且预设噪声中低频信号的能量高于白噪声中低频信号的能量,预设噪声中高频信号的能量低于白噪声中高频信号的能量,由于人耳对于低频信号的敏感度低于高频信号的敏感度,因此,用户听到的根据预设噪声生成的背景噪声更加舒适,解决了用户听到的根据白噪声生成的背景噪声不舒适的问题,达到了提高背景噪声的舒适度的效果。
图4是根据一示例性实施例示出的一种背景噪声生成装置的框图,该背景噪声生成装置应用于电子设备中,如图4所示,该背景噪声生成装置包括:数据模块410和噪声生成模块420。
该数据检测模块410,被配置为检测是否接收到语音帧的编码数据,该语音帧是在通话过程中,接收到语音输入的电子设备向另一电子设备发送的数据帧;
该噪声生成模块420,被配置为若数据检测模块410检测的结果为未接收到编码数据,则通过CNG算法根据预设噪声生成背景噪声,该预设噪声的频谱分布为噪声信号的频率与噪声信号的能量呈负相关关系。
可选的,该噪声生成模块420,包括:第一生成子模块421、第一计算子模块422、第二计算子模块423、第二生成子模块424、第三生成子模块425和第四生成子模块426。
该第一生成子模块421,被配置为将预设噪声的频域信号进行时域变换,得到长度为K的数组N[K],K为正整数;
该第一计算子模块422,被配置为根据第一生成子模块421得到的数组N[K]计算预设噪声的信号能量E0
该第二计算子模块423,被配置为对于每个语音帧,获取语音帧对应的平稳噪声的信号能量E,并计算噪声增益E/E0,该平稳噪声是在语音输入的过程中持续存在的噪声;
该第二生成子模块424,被配置为若语音帧的采样点个数为m,则随机生成m个正整数Ri,m和i为正整数,且i≤m,Ri≤K;
该第三生成子模块425,被配置为将每个N[Ri]乘以E/E0,得到静音帧中每个采样点的背景噪声值,N[Ri]为数组N[K]中的索引值Ri对应的数据,该静音帧为未接收到语音输入的电子设备,在未接收到语音帧时生成的数据帧;
该第四生成子模块426,被配置为根据m个第三生成子模块425得到的背景噪声数据生成静音帧的背景噪声。
可选的,该第二计算子模块423,包括:获取子模块4231和第三计算子模块4232。
该获取子模块4231,被配置为获取语音帧和在语音帧之前的各个语音帧在每个频率点的最小能量值;
该第三计算子模块4232,被配置为计算获取子模块4231得到的所有频率点的最小能量值的平方和,得到信号能量E。
可选的,该装置还包括:内容采集模块430、第一计算模块440、第二计算模块450、比较模块460、第一生成模块470和第二生成模块480。
该内容采集模块430,被配置为采集当前时刻的输入内容;
该第一计算模块440,被配置为将内容采集模块430采集到的输入内容分为n个子带,分别计算每个子带中的语音能量以及噪声估计;
该第二计算模块450,被配置为根据第一计算模块440计算出的语音能量和噪声估计计算输入内容的信噪比的均方根;
该比较模块460,被配置为根据VAD算法中预设的平滑因子系数对第二计算模块450计算出的均方根进行平滑,并比较平滑后的均方根与预设的门限值;
该第一生成模块470,被配置为当比较模块460比较的结果为平滑后的均方根大于门限值时,根据输入内容生成语音帧进行发送;
该第二生成模块480,被配置为当比较模块460比较的结果为平滑后的均方根小于门限值时,生成静音帧。
综上所述,本公开提供的背景噪声生成装置,通过检测是否接收到语音帧的编码数据;若未接收到编码数据,则通过CNG算法根据预设噪声生成背景噪声,该预设噪声的频谱分布为噪声信号的频率与噪声信号的能量呈负相关关系,与相关技术中通过CNG算法根据白噪声生成背景噪声相比,预设噪声与白噪声的信号能量相同,且预设噪声中低频信号的能量高于白噪声中低频信号的能量,预设噪声中高频信号的能量低于白噪声中高频信号的能量,由于人耳对于低频信号的敏感度低于高频信号的敏感度,因此,用户听到的根据预设噪声生成的背景噪声更加舒适,解决了用户听到的根据白噪声生成的背景噪声不舒适的问题,达到了提高背景噪声的舒适度的效果。
另外,通过在平滑后的均方根大于门限值时,根据输入内容生成语音帧进行发送;在平滑后的均方根小于门限值时,生成静音帧,使得DTX模块可以根据输入内容确定是生成语音帧还是静音帧,无需在长时间连续生成静音帧时,强制生成语音帧进行发送,解决了由于DTX模块长时间连续生成静音帧,强制生成语音帧进行发送,导致接收端的电子设备需要由生成背景噪声切换为解码语音帧,产生周期性噪声的问题,达到了提高背景噪声的平稳性的效果。
另外,通过调整VAD算法中预设的门限值,解决了由于预设的门限值不准确,导致应当根据输入内容生成静音帧,却错误地生成语音帧的问题,达到了提高电子设备判断根据输入内容生成语音帧还是静音帧的准确性的效果。
另外,通过将每个N[Ri]乘以E/E0,得到静音帧中每个采样点的背景噪声值,N[Ri]为数组N[K]中的索引值Ri对应的数据,可以保证生成的背景噪声与语音帧中的平稳噪声的能量一致,不会产生噪声的起伏,提高了用户在通话过程中的听觉效果。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开一示例性实施例提供了一种背景噪声生成装置,能够实现本公开提供的背景噪声生成方法,该背景噪声生成装置包括:处理器、用于存储处理器可执行指令的存储器;
其中,处理器被配置为:
检测是否接收到语音帧的编码数据,该语音帧是在通话过程中,接收到语音输入的电子设备向另一电子设备发送的数据帧;
若未接收到编码数据,则通过CNG算法根据预设噪声生成背景噪声,该预设噪声的频谱分布为噪声信号的频率与噪声信号的能量呈负相关关系。
图5是根据一示例性实施例示出的一种用于背景噪声生成的装置500的框图。例如,装置500可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图5,装置500可以包括以下一个或多个组件:处理组件502,存储器504,电源组件506,多媒体组件508,音频组件510,输入/输出(I/O)的接口512,传感器组件514,以及通信组件516。
处理组件502通常控制装置500的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器518来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件502可以包括一个或多个模块,便于处理组件502和其他组件之间的交互。例如,处理组件502可以包括多媒体模块,以方便多媒体组件508和处理组件502之间的交互。
存储器504被配置为存储各种类型的数据以支持在装置500的操作。这些数据的示例包括用于在装置500上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件506为装置500的各种组件提供电力。电源组件506可以包括电源管理系统,一个或多个电源,及其他与为装置500生成、管理和分配电力相关联的组件。
多媒体组件508包括在所述装置500和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件508包括一个前置摄像头和/或后置摄像头。当装置500处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件510被配置为输出和/或输入音频信号。例如,音频组件510包括一个麦克风(MIC),当装置500处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中,音频组件510还包括一个扬声器,用于输出音频信号。
I/O接口512为处理组件502和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件514包括一个或多个传感器,用于为装置500提供各个方面的状态评估。例如,传感器组件514可以检测到装置500的打开/关闭状态,组件的相对定位,例如所述组件为装置500的显示器和小键盘,传感器组件514还可以检测装置500或装置500一个组件的位置改变,用户与装置500接触的存在或不存在,装置500方位或加速/减速和装置500的温度变化。传感器组件514可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件514还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件516被配置为便于装置500和其他设备之间有线或无线方式的通信。装置500可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件516还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器504,上述指令可由装置500的处理器518执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (9)

1.一种背景噪声生成方法,其特征在于,应用于第一电子设备,所述方法包括:
当所述第一电子设备作为接收端时,检测是否接收到语音帧的编码数据,所述语音帧是在通话过程中,接收到语音输入的电子设备向另一电子设备发送的数据帧;
若未接收到所述编码数据,则通过舒适噪声生成CNG算法根据预设噪声生成背景噪声,所述预设噪声的频谱分布为噪声信号的频率与所述噪声信号的能量呈负相关关系,所述CNG算法为与每个语音帧对应的平稳噪声的信号能量E有关的算法。
2.根据权利要求1所述的方法,其特征在于,所述通过舒适噪声生成CNG算法根据预设噪声生成背景噪声,包括:
将所述预设噪声的频域信号进行时域变换,得到长度为K的数组N[K],所述K为正整数;
根据所述数组N[K]计算所述预设噪声的信号能量E0
对于所述每个语音帧,获取所述每个语音帧对应的所述平稳噪声的所述信号能量E,并计算噪声增益E/E0,所述平稳噪声是在语音输入的过程中持续存在的噪声;
若所述每个语音帧的采样点个数为m,则随机生成m个正整数Ri,所述m和所述i为正整数,且i≤m,Ri≤K;
将每个N[Ri]乘以E/E0,得到静音帧中每个采样点的背景噪声值,所述N[Ri]为所述数组N[K]中的索引值Ri对应的数据,所述静音帧为未接收到语音输入的电子设备,在未接收到所述语音帧时生成的数据帧;
根据m个所述背景噪声数据生成所述静音帧的背景噪声。
3.根据权利要求2所述的方法,其特征在于,所述获取所述每个语音帧对应的平稳噪声的信号能量E,包括:
获取所述每个语音帧和在所述每个语音帧之前的各个语音帧在每个频率点的最小能量值;
计算所有频率点的最小能量值的平方和,得到所述信号能量E。
4.根据权利要求1至3任一所述的方法,其特征在于,所述方法还包括:
当所述第一电子设备作为发送端时,采集当前时刻的输入内容;
将所述输入内容分为n个子带,分别计算每个子带中的语音能量以及噪声估计;
根据所述语音能量和所述噪声估计计算所述输入内容的信噪比的均方根;
根据活动语音检测VAD算法中预设的平滑因子系数对所述均方根进行平滑,并比较平滑后的均方根与预设的门限值,所述预设的门限值为0.15;
当所述平滑后的均方根大于所述门限值时,根据所述输入内容生成语音帧进行发送;
当所述平滑后的均方根小于所述门限值时,生成静音帧。
5.一种背景噪声生成装置,其特征在于,应用于第一电子设备,所述装置包括:
数据检测模块,被配置为当所述第一电子设备作为接收端时,检测是否接收到语音帧的编码数据,所述语音帧是在通话过程中,接收到语音输入的电子设备向另一电子设备发送的数据帧;
噪声生成模块,被配置为若所述数据检测模块检测的结果为未接收到所述编码数据,则通过舒适噪声生成CNG算法根据预设噪声生成背景噪声,所述预设噪声的频谱分布为噪声信号的频率与所述噪声信号的能量呈负相关关系,所述CNG算法为与每个语音帧对应的平稳噪声的信号能量E有关的算法。
6.根据权利要求5所述的装置,其特征在于,所述噪声生成模块,包括:
第一生成子模块,被配置为将所述预设噪声的频域信号进行时域变换,得到长度为K的数组N[K],所述K为正整数;
第一计算子模块,被配置为根据所述第一生成子模块得到的所述数组N[K]计算所述预设噪声的信号能量E0
第二计算子模块,被配置为对于所述每个语音帧,获取所述每个语音帧对应的所述平稳噪声的所述信号能量E,并计算噪声增益E/E0,所述平稳噪声是在语音输入的过程中持续存在的噪声;
第二生成子模块,被配置为若所述每个语音帧的采样点个数为m,则随机生成m个正整数Ri,所述m和所述i为正整数,且i≤m,Ri≤K;
第三生成子模块,被配置为将每个N[Ri]乘以E/E0,得到静音帧中每个采样点的背景噪声值,所述N[Ri]为所述数组N[K]中的索引值Ri对应的数据,所述静音帧为未接收到语音输入的电子设备,在未接收到所述语音帧时生成的数据帧;
第四生成子模块,被配置为根据m个所述第三生成子模块得到的所述背景噪声数据生成所述静音帧的背景噪声。
7.根据权利要求6所述的装置,其特征在于,所述第二计算子模块,包括:
获取子模块,被配置为获取所述每个语音帧和在所述每个语音帧之前的各个语音帧在每个频率点的最小能量值;
第三计算子模块,被配置为计算所述获取子模块得到的所有频率点的最小能量值的平方和,得到所述信号能量E。
8.根据权利要求5至7任一所述的装置,其特征在于,所述装置还包括:
内容采集模块,被配置为当所述第一电子设备作为发送端时,采集当前时刻的输入内容;
第一计算模块,被配置为将所述内容采集模块采集到的所述输入内容分为n个子带,分别计算每个子带中的语音能量以及噪声估计;
第二计算模块,被配置为根据所述第一计算模块计算出的所述语音能量和所述噪声估计计算所述输入内容的信噪比的均方根;
比较模块,被配置为根据活动语音检测VAD算法中预设的平滑因子系数对所述第二计算模块计算出的所述均方根进行平滑,并比较平滑后的均方根与预设的门限值,所述预设的门限值为0.15;
第一生成模块,被配置为当所述比较模块比较的结果为所述平滑后的均方根大于所述门限值时,根据所述输入内容生成语音帧进行发送;
第二生成模块,被配置为当所述比较模块比较的结果为所述平滑后的均方根小于所述门限值时,生成静音帧。
9.一种背景噪声生成装置,其特征在于,应用于第一电子设备,所述装置包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
当所述第一电子设备作为接收端时,检测是否接收到语音帧的编码数据,所述语音帧是在通话过程中,接收到语音输入的电子设备向另一电子设备发送的数据帧;
若未接收到所述编码数据,则通过舒适噪声生成CNG算法根据预设噪声生成背景噪声,所述预设噪声的频谱分布为噪声信号的频率与所述噪声信号的能量呈负相关关系,所述CNG算法为与每个语音帧对应的平稳噪声的信号能量E有关的算法。
CN201610154324.XA 2016-03-17 2016-03-17 背景噪声生成方法及装置 Active CN105721656B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610154324.XA CN105721656B (zh) 2016-03-17 2016-03-17 背景噪声生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610154324.XA CN105721656B (zh) 2016-03-17 2016-03-17 背景噪声生成方法及装置

Publications (2)

Publication Number Publication Date
CN105721656A CN105721656A (zh) 2016-06-29
CN105721656B true CN105721656B (zh) 2018-10-12

Family

ID=56157955

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610154324.XA Active CN105721656B (zh) 2016-03-17 2016-03-17 背景噪声生成方法及装置

Country Status (1)

Country Link
CN (1) CN105721656B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109841222B (zh) * 2017-11-29 2022-07-01 腾讯科技(深圳)有限公司 音频通信方法、通信设备及存储介质
CN109168024B (zh) * 2018-09-26 2022-05-27 平安科技(深圳)有限公司 一种目标信息的识别方法及设备
CN111147983A (zh) * 2018-11-06 2020-05-12 展讯通信(上海)有限公司 扬声器控制方法及装置、可读存储介质
CN110556128B (zh) * 2019-10-15 2021-02-09 出门问问信息科技有限公司 一种语音活动性检测方法、设备及计算机可读存储介质
CN114448957B (zh) * 2022-01-28 2024-03-29 上海小度技术有限公司 音频数据传输方法和装置
CN116631456A (zh) * 2023-07-21 2023-08-22 江西红声技术有限公司 一种声控通讯处理方法、耳机、存储介质及计算机

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7574353B2 (en) * 2004-11-18 2009-08-11 Lsi Logic Corporation Transmit/receive data paths for voice-over-internet (VoIP) communication systems
CN101087319B (zh) * 2006-06-05 2012-01-04 华为技术有限公司 一种发送和接收背景噪声的方法和装置及静音压缩系统
CN101483495B (zh) * 2008-03-20 2012-02-15 华为技术有限公司 一种背景噪声生成方法以及噪声处理装置
CN101483042B (zh) * 2008-03-20 2011-03-30 华为技术有限公司 一种噪声生成方法以及噪声生成装置
CN103187065B (zh) * 2011-12-30 2015-12-16 华为技术有限公司 音频数据的处理方法、装置和系统

Also Published As

Publication number Publication date
CN105721656A (zh) 2016-06-29

Similar Documents

Publication Publication Date Title
CN105721656B (zh) 背景噪声生成方法及装置
CN101510905B (zh) 移动设备上多传感语音增强的方法和装置
EP2396958B1 (en) Controlling an adaptation of a behavior of an audio device to a current acoustic environmental condition
JP4713111B2 (ja) 発話区間検出装置、音声認識処理装置、送信システム、信号レベル制御装置、発話区間検出方法
CN113766073B (zh) 会议系统中的啸叫检测
CN110853664B (zh) 评估语音增强算法性能的方法及装置、电子设备
JP2007501444A (ja) 信号対雑音比による音声認識方法
CN102907077A (zh) 用于移动装置的智能音频记录的系统和方法
CN108346425A (zh) 一种语音活动检测的方法和装置、语音识别的方法和装置
CN101917656A (zh) 音量自动调节装置及自动调节音量的方法
CN102118665A (zh) 自动调音装置、方法及多媒体播放器
CN109361995B (zh) 一种电器设备的音量调节方法、装置、电器设备和介质
CN109416914A (zh) 适于噪声环境的信号处理方法和装置及使用其的终端装置
CN110390953A (zh) 啸叫语音信号的检测方法、装置、终端及存储介质
US8423357B2 (en) System and method for biometric acoustic noise reduction
CN108364635A (zh) 一种语音识别的方法和装置
JP7240445B2 (ja) オーディオ処理方法、装置、端末、及び記憶媒体
JP6197367B2 (ja) 通話装置及びマスキング音生成プログラム
CN106790963B (zh) 音频信号的控制方法及装置
CN101699837A (zh) 一种电话语音输出增益调节的方法、装置和通信终端
CN112866480B (zh) 信息处理方法、装置、电子设备及存储介质
CN103680510A (zh) 降噪处理方法及装置
CN111736798A (zh) 音量调节方法、音量调节装置及计算机可读存储介质
CN114727194A (zh) 麦克风音量控制方法、装置、设备及存储介质
CN111667842A (zh) 音频信号处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant