CN105791530B - 输出音量调节方法和装置 - Google Patents

输出音量调节方法和装置 Download PDF

Info

Publication number
CN105791530B
CN105791530B CN201410848268.0A CN201410848268A CN105791530B CN 105791530 B CN105791530 B CN 105791530B CN 201410848268 A CN201410848268 A CN 201410848268A CN 105791530 B CN105791530 B CN 105791530B
Authority
CN
China
Prior art keywords
signal
frequency
output
output volume
gain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410848268.0A
Other languages
English (en)
Other versions
CN105791530A (zh
Inventor
宋颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Leadcore Technology Co Ltd
Original Assignee
Leadcore Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Leadcore Technology Co Ltd filed Critical Leadcore Technology Co Ltd
Priority to CN201410848268.0A priority Critical patent/CN105791530B/zh
Publication of CN105791530A publication Critical patent/CN105791530A/zh
Application granted granted Critical
Publication of CN105791530B publication Critical patent/CN105791530B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Telephone Function (AREA)

Abstract

本发明实施例提供一种输出音量调节方法和装置。该方法包括:获取语音通信设备的语音采集装置的输入信号以及语音通信设备的输出音量信号,输入信号包括环境噪声信号和语音信号;获取输入信号对应的频域信号,以及输出音量信号对应的频域信号;基于最小统计的噪声功率谱估计算法,得到与输入信号对应的频域信号中环境噪声信号的噪声功率谱数据;根据噪声功率谱数据与输出谱增益的对应关系,确定与环境噪声信号的噪声功率谱数据对应的输出谱增益;利用输出谱增益对所述输出音量信号对应的频域信号进行调节;并对调节后的频域信号进行反傅里叶变换,得到调节后的输出音量信号,能够准确跟踪稳态或非平稳的嗓声的变化,可以有效地调节输出音量。

Description

输出音量调节方法和装置
技术领域
本发明实施例涉及语音处理技术领域,尤其涉及一种输出音量调节方法和装置。
背景技术
4G(第四代移动通信技术)的出现,为我们带来了高速、便捷的移动互联网,人们在各种场合都会使用语音通信设备,例如,智能手机,不仅仅用来打电话,更多的时间是在上网、听音乐、看视频和玩游戏。日常生活中,嘈杂环境下,例如地铁、公交车上,需要手动调高语音通信设备的输出音量,隔绝嘈杂的环境噪声,才能听清楚对方在讲什么,或是享受美妙的音乐;而在离开嘈杂的环境后,由于周围环境变得安静了,又需要手动调低手机输出音量,保护听力,并获得舒适感。
现有的输出音量调节技术,一般是对环境噪声进行估计,然后根据环境噪声自动调节输出音量。其中,对环境噪声进行估计,一般包括:判断语音通信设备中语音采集装置的输入信号是否存在语音信号,也即进行语音激活检测(Voice-active-detection,VAD);检测无语音信号段对应的输入信号的环境噪声,作为语音信号段对应的输入信号的环境噪声。
上述输出音量调节技术的缺陷在于:随着环境噪声的增加,估计的环境噪声的误差逐渐增大,由于无法准确跟踪环境噪声的变化,导致无法有效地调节输出音量。
发明内容
本发明实施例提供一种输出音量调节方法和装置,以提高跟踪语音通信设备中语音采集装置的输入信号中的环境噪声信号的变化的准确度,并有效地调节输出音量。
第一方面,本发明实施例提供了一种输出音量调节方法,包括:
获取语音通信设备的语音采集装置的输入信号以及语音通信设备的输出音量信号,其中,所述输入信号包括环境噪声信号和语音信号;
获取输入信号对应的频域信号,以及输出音量信号对应的频域信号;
基于最小统计的噪声功率谱估计算法,对输入信号对应的频域信号进行噪声功率谱估计,得到与输入信号对应的频域信号中环境噪声信号的噪声功率谱数据;
根据预先存储的噪声功率谱数据与输出谱增益的对应关系,确定与所述环境噪声信号的噪声功率谱数据对应的输出谱增益;
利用所述输出谱增益对所述输出音量信号对应的频域信号进行调节;并对所述调节后的频域信号进行反傅里叶变换,得到调节后的输出音量信号。
第二方面,本发明实施例提供了一种输出音量调节装置,包括:
时域信号获取模块,用于获取语音通信设备的语音采集装置的输入信号以及语音通信设备的输出音量信号,其中,所述输入信号包括环境噪声信号和语音信号;
频域信号获取模块,用于获取输入信号对应的频域信号,以及输出音量信号对应的频域信号;
噪声估计模块,用于基于最小统计的噪声功率谱估计算法,对输入信号对应的频域信号进行噪声功率谱估计,得到与输入信号对应的频域信号中环境噪声信号的噪声功率谱数据;
输出谱增益确定模块,用于根据预先存储的噪声功率谱数据与输出谱增益的对应关系,确定与所述环境噪声信号的噪声功率谱数据对应的输出谱增益;
音量调节模块,用于利用所述输出谱增益对所述输出音量信号对应的频域信号进行调节;并对所述调节后的频域信号进行反傅里叶变换,得到调节后的输出音量信号。
本发明实施例提供的输出音量调节方法和装置,在获取到语音通信设备的语音采集装置的输入信号以及语音通信设备的输出音量信号,并得到输入信号对应的频域信号,以及输出音量信号对应的频域信号之后,基于最小统计的噪声功率谱估计算法,在语音激活,也即有语音信号,和停顿,也即无语音信号处,通过时变光滑系数持续跟踪带噪语音功率谱,在有限窗内,进行基于最小统计的无偏噪声功率谱估计,由于噪声估计是通过在有限窗内搜索带噪语音功率谱密度的最小值,所以对噪声的平稳性没有太高要求,能够对稳态或非平稳的嗓声的进行准确估计,从而可以有效地调节输出音量。
附图说明
为了更清楚地说明本发明,下面将对本发明中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1a为本发明实施例一提供的一种输出音量调节方法的流程图;
图1b为本发明实施例提供的输出音量调节方法中一种获取输入信号对应的频域信号的流程图;
图1c为本发明实施例提供的输出音量调节方法中一种获取输出音量信号对应的频域信号的流程图;
图1d为本发明实施例提供的输出音量调节方法中一种基于最小统计的噪声功率谱估计算法,对输入信号对应的频域信号进行噪声功率谱估计,得到与输入信号对应的频域信号中环境噪声信号的噪声功率谱数据的流程图;
图2为本发明实施例二提供的一种输出音量调节方法的流程图;
图3为本发明实施例三提供的一种调节输出音量方法的流程图;
图4为本发明实施例四提供的一种输出音量调节装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案作进一步详细描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
实施例一
请参阅图1a,为本发明实施例一提供的一种输出音量调节方法的流程图。本发明实施例的方法可以由配置以硬件和/或软件实现的输出音量调节装置来执行,该实现装置典型的是配置于能够提供语音通信服务的终端中,需要说明的是,所述终端除了提供语音通信服务外,还可以提供音乐、视频和游戏等服务,相应的,该实现装置也可以配置于能够提供语音通信服务、音乐、视频和游戏等服务的终端中,用于调节语音通信过程中的输出音量,或者用于调节听音乐或看视频过程中的输出音量,或者在玩游戏过程中,调节游戏对应的输出音量,本实施例对此不进行限制。
本实施例以语音通信设备为例进行说明。
该方法包括:步骤110~步骤150。
步骤110、获取语音通信设备的语音采集装置的输入信号以及语音通信设备的输出音量信号,其中,所述输入信号包括环境噪声信号和语音信号。
所述语音信号区别于环境噪声信号,所述语音信号通常为有效信号,可以是语音通信过程中,所述语音通信设备所属的用户输入的语音,也可以是所述语音通信设备播放的音乐中的音频信号,或播放的视频中的音频信号,或者是所述语音通信设备当前显示的游戏中的音频信号。
相应的,所述输出音量信号可以是语音通信过程中,所述语音通信设备输出的音量,也可以是所述语音通信设备播放的音乐中的音频信号的音量,或播放的视频中的音频信号的音量,或者是所述语音通信设备当前显示的游戏中的音频信号的音量。
步骤120、获取输入信号对应的频域信号,以及输出音量信号对应的频域信号。
可以通过短时语音分析处理,从所述输入信号中获取输入信号对应的频域信号,以及通过短时语音分析处理,从所述输出音量信号中获取输出音量信号对应的频域信号。
请参阅图1b,为本实施例提供的一种获取输入信号对应的频域信号的流程图。具体包括:步骤121~步骤124。
步骤121、对所述输入信号进行预处理,以滤除所述输入信号中的工频干扰信号以及低频干扰信号。
其中,工频一般指市电频率,在我国是50Hz。
步骤122、根据所述输入信号的短时相关性,对经预处理后的输入信号进行分帧处理。
本步骤中,具体可以将经预处理后的输入信号分帧为16~20ms的数据段。
步骤123、对经所述分帧处理后的输入信号的各帧信号分别进行加窗处理,并进行重叠存储,得到输入信号的各帧加窗信号。
其中,进行所述加窗处理,有利于减小各帧信号的截断效应。通常可以加hanning(汉宁)窗。
进行重叠存储,可以保证帧与帧之间的平滑过渡,其中重叠存储的重叠度可以为30%~50%。
示例性地,可以采用下述公式对经所述分帧处理后的输入信号的各帧信号分别进行加窗处理,并进行50%的重叠存储:
其中,M为帧长度,h(t)为2M点hanning窗函数,x(n,t)为输入信号的第t帧、且帧长度为M的分帧信号,n为时间参数,t为每帧信号的序号,x'(n,t)为输入信号的第t帧加窗信号。
步骤124、对各帧加窗信号进行快速傅里叶变换处理,得到输入信号对应的频域信号。
具体是,对各帧加窗信号x'(n,t)进行快速傅里叶变换处理,得到输入信号对应的频域信号X(λ,k):X(λ,k)=FFT[x'(n,t)],其中λ用于频域,与时域的时间参数n对应,k为频值。
请参阅图1c,为本实施例提供的一种获取输出音量信号对应的频域信号的流程图。具体包括:步骤125~步骤128。
步骤125、对所述输出音量信号进行预处理,以滤除所述输出音量信号中的工频干扰信号以及低频干扰信号。
步骤126、根据所述输出音量信号的短时相关性,对经预处理后的输出音量信号进行分帧处理。
本步骤中,具体可以将经预处理后的输出音量信号分帧为16~20ms的数据段。
步骤127、对经所述分帧处理后的输出音量信号的各帧信号分别进行加窗处理,并进行重叠存储,得到输出音量信号的各帧加窗信号。
该步骤与步骤123类似,不再赘述。
步骤128、对经所述加窗处理后的与输出音量信号对应的各帧加窗信号进行快速傅里叶变换处理,得到输出音量信号对应的频域信号。
具体是,各帧加窗信号y'(n,t)进行快速傅里叶变换处理,得到输出音量信号对应的频域信号Y(λ,k);Y(λ,k)=FFT[y'(n,t)],其中λ用于频域,与时域的时间参数n对应,k为频值。
步骤130、基于最小统计的噪声功率谱估计算法,对输入信号对应的频域信号进行噪声功率谱估计,得到与输入信号对应的频域信号中环境噪声信号的噪声功率谱数据。
该算法不同于原有算法,对有语音信号和无语音信号时使用同一标准来估计噪声,所以不需要语音激活检测(VAD)。该算法在语音激活(也即有语音信号)和停顿(也即无语音信号)处,通过时变光滑系数持续跟踪带噪语音功率谱,在有限窗内,进行基于最小统计的无偏噪声功率谱估计。由于噪声估计是通过在有限窗内搜索带噪语音功率谱密度的最小值,所以对噪声的平稳性没有太高要求,在非平稳的嗓声的环境下也能做出准确的估计。
请参阅图1d,为本实施例提供的一种基于最小统计的噪声功率谱估计算法,对输入信号对应的频域信号进行噪声功率谱估计,得到与输入信号对应的频域信号中环境噪声信号的噪声功率谱数据的流程图。具体包括:步骤131~步骤133。
步骤131、对输入信号对应的频域信号进行实时递归处理,得到D个带噪语音功率谱密度,其中D为有限窗总长。
优选是,采用下述公式对输入信号对应的频域信号进行实时递归处理,得到D个带噪语音功率谱密度:
P(λ,k)=α(λ,k)P(λ-1,k)+[1-α(λ,k)]|X(λ,k)|2
其中,X(λ,k)为输入信号对应的频域信号,λ用于频域,与时域的时间参数对应,k为频值;α(λ,k)为实时递归平滑因子,通过最小均方误差算法计算得到;P(λ,k)为经所述实时递归处理后的带噪语音功率谱密度。
步骤132、将有限窗总长D分成U个子窗,在U个子窗内分别查找获得每个子窗的带噪语音功率谱密度最小值。
步骤133、对于各子窗,对该子窗的带噪语音功率谱密度最小值进行偏差修正,得到无偏噪声功率估计值,作为与输入信号对应的频域信号中位于该子窗内的环境噪声信号的噪声功率谱数据。
步骤140、根据预先存储的噪声功率谱数据与输出谱增益的对应关系,确定与所述环境噪声信号的噪声功率谱数据对应的输出谱增益。
具体地,可以查找所述环境噪声信号的功率谱数据的近似样本,然后根据所述对应关系,将近似样本对应的输出谱增益作为与所述环境噪声信号的噪声功率谱数据对应的输出谱增益。
步骤150、利用所述输出谱增益对所述输出音量信号对应的频域信号进行调节;并对所述调节后的频域信号进行反傅里叶变换,得到调节后的输出音量信号。
优选是,利用所述输出谱增益,采用下述公式对所述输出音量信号对应的频域信号进行调节:
其中,G(λ,k)为所述输出谱增益;Y(λ,k)为所述输出音量信号对应的频域信号,λ用于频域,与时域的时间参数对应,k为频值;Yadj(λ,k)为所述输出音量信号经调节后对应的频域信号。
对所述调节后的频域信号进行反傅里叶变换,具体为:y'n(t)=IFFT[Yadj(λ,k)],由于在获取输出音量信号对应的频域信号的过程中,进行了分帧处理,因此得到的调节后的输出音量信号可以为yn(t)=y'n-1(t+M)+y'n(t),1≤t≤M,其中,M为帧长度,y'n(t)为经所述反傅里叶变换得到的信号,n为时间参数,t为每帧信号的序号,yn(t)为调节后的输出音量信号。
本实施例的技术方案,在获取到语音通信设备的语音采集装置的输入信号以及语音通信设备的输出音量信号,并得到输入信号对应的频域信号,以及输出音量信号对应的频域信号之后,基于最小统计的噪声功率谱估计算法,在语音激活,也即有语音信号,和停顿,也即无语音信号处,通过时变光滑系数持续跟踪带噪语音功率谱,在有限窗内,进行基于最小统计的无偏噪声功率谱估计,由于噪声估计是通过在有限窗内搜索带噪语音功率谱密度的最小值,所以对噪声的平稳性没有太高要求,能够对稳态或非平稳的嗓声的进行准确估计,从而可以有效地调节输出音量。
实施例二
请参阅图2,为本发明实施例二提供的一种输出音量调节方法的流程图。该方法包括:步骤210~步骤260。
步骤210、获取语音通信设备的语音采集装置的输入信号以及语音通信设备的输出音量信号,其中,所述输入信号包括环境噪声信号和语音信号。
步骤220、获取输入信号对应的频域信号,以及输出音量信号对应的频域信号。
本步骤同样适用于上述实施例中获取输入信号对应的频域信号的操作流程,以及获取输出音量信号对应的频域信号的操作流程,不再赘述。
步骤230、基于最小统计的噪声功率谱估计算法,对输入信号对应的频域信号进行噪声功率谱估计,得到与输入信号对应的频域信号中环境噪声信号的噪声功率谱数据。
本步骤同样适用于上述实施例中的步骤131~步骤133,不再赘述。
步骤240、根据预先存储的噪声功率谱数据与输出谱增益的对应关系,确定与所述环境噪声信号的噪声功率谱数据对应的输出谱增益。
步骤250、根据预先得到的用户听力曲线,对与所述噪声功率谱数据对应的输出谱增益进行调整,所述用户听力曲线根据在安静环境下,用户可分辨的设定数量的不同频率的声音对应的最小幅值得到,所述设定数量的不同频率选取自输入信号对应的频域信号的不同频点。
其中,用户为所述语音通信设备的使用者,所述用户听力曲线可以判断用户对不同频率声音的敏感度。
例如,对于窄带语音系统,可以选择100~4000Hz内的10个频点进行测试,10个频点分别为100、300、500、750、1000、1250、1500、2000、3000和4000。利用10个频点的测试结果,通过差值算法求得与输入信号对应的频域信号在对应频点的幅值,经归一化处理后,得到128点用户听力曲线。其中,帧长度为128,重叠度为50%,输入信号对应的频域信号的长度为256。
步骤260、利用调整后的输出谱增益对输出音量信号对应的频域信号进行调节;并对所述调节后的频域信号进行反傅里叶变换,得到调节后的输出音量信号。
优选是,根据预先得到的用户听力曲线,采用下述公式对与所述噪声功率谱数据对应的输出谱增益进行调整:
其中,θG为门限值;ξ(k)为所述用户听力曲线;Gmod为调整系数,取值>1;G(λ,k)为所述输出谱增益;Gadj(λ,k)为调整后的输出谱增益。
本方式,依据用户听力曲线调整输出谱增益,对用户不敏感的频带,即ξ(k)>θG,对输出音量进一步放大,有利于使用户听得更加清晰。
相应地,优选是,利用调整后的输出谱增益,采用下述公式对输出音量信号对应的频域信号进行调节:
其中,Gadj(λ,k)为所述调整后的输出谱增益;Y(λ,k)为所述输出音量信号对应的频域信号,λ用于频域,与时域的时间参数对应,k为频值;Yadj(λ,k)为所述输出音量信号经调节后对应的频域信号。
本实施例的技术方案,在获取到语音通信设备的语音采集装置的输入信号以及语音通信设备的输出音量信号,并得到输入信号对应的频域信号,以及输出音量信号对应的频域信号之后,基于最小统计的噪声功率谱估计算法,在语音激活,也即有语音信号,和停顿,也即无语音信号处,通过时变光滑系数持续跟踪带噪语音功率谱,在有限窗内,进行基于最小统计的无偏噪声功率谱估计,由于噪声估计是通过在有限窗内搜索带噪语音功率谱密度的最小值,所以对噪声的平稳性没有太高要求,能够对稳态或非平稳的嗓声的进行准确估计,并结合语音通信设备所属用户的用户听力曲线,依据用户听力曲线调整输出谱增益,从而通过调整后的输出谱增益实现有效地调节输出音量,使用户获得舒适和清晰的声音。
实施例三
请参阅图3,为本发明实施例三提供的一种调节输出音量方法的流程图。该方法包括:步骤310~步骤360。
步骤310、获取语音通信设备的语音采集装置的输入信号以及语音通信设备的输出音量信号,其中,所述输入信号包括环境噪声信号和语音信号,并对所述输入信号和所述输出音量信号分别进行短时语音分析处理,得到输入信号对应的频域信号,以及输出音量信号对应的频域信号。
本步骤同样适用于实施例一中的步骤121~步骤124,以及步骤125~步骤128,不再赘述。
步骤320、基于最小统计的噪声功率谱估计算法,对输入信号对应的频域信号进行噪声功率谱估计,得到与输入信号对应的频域信号中环境噪声信号的噪声功率谱数据。
本步骤同样适用于上述实施例中的步骤131~步骤133,不再赘述。
步骤330、计算与所述环境噪声信号的噪声功率谱数据对应的输出谱增益,具体地,可以根据预先存储的噪声功率谱数据与输出谱增益的对应关系,确定与所述环境噪声信号的噪声功率谱数据对应的输出谱增益。
步骤340、判断是否获取到所述语音通信设备所属用户的用户听力曲线,若是,则执行步骤350,若否,则执行步骤360。
其中,所述用户听力曲线根据在安静环境下,用户可分辨的设定数量的不同频率的声音对应的最小幅值得到,所述设定数量的不同频率选取自输入信号对应的频域信号的不同频点。
步骤350、根据所述用户听力曲线,对与所述噪声功率谱数据对应的输出谱增益进行调整。
本步骤同样适用于步骤260中的具体调整操作,对用户不敏感的频带,对输出音量进一步放大,有利于使用户听得更加清晰,不再赘述。
步骤360、利用通过步骤330或步骤350确定的输出谱增益对输出音量信号对应的频域信号进行短时语音合成处理,具体地,利用确定的输出谱增益对输出音量信号对应的频域信号进行调节;并对所述调节后的频域信号进行反傅里叶变换,得到调节后的输出音量信号。
实施例四
请参阅图4,为本发明实施例四提供的一种输出音量调节装置的结构示意图。该装置包括:时域信号获取模块410、频域信号获取模块420、噪声估计模块430、输出谱增益确定模块440和音量调节模块450。
其中,时域信号获取模块410用于获取语音通信设备的语音采集装置的输入信号以及语音通信设备的输出音量信号,其中,所述输入信号包括环境噪声信号和语音信号;频域信号获取模块420用于获取输入信号对应的频域信号,以及输出音量信号对应的频域信号;噪声估计模块430用于基于最小统计的噪声功率谱估计算法,对输入信号对应的频域信号进行噪声功率谱估计,得到与输入信号对应的频域信号中环境噪声信号的噪声功率谱数据;输出谱增益确定模块440用于根据预先存储的噪声功率谱数据与输出谱增益的对应关系,确定与所述环境噪声信号的噪声功率谱数据对应的输出谱增益;音量调节模块450用于利用所述输出谱增益对所述输出音量信号对应的频域信号进行调节;并对所述调节后的频域信号进行反傅里叶变换,得到调节后的输出音量信号。
本实施例的技术方案,在获取到语音通信设备的语音采集装置的输入信号以及语音通信设备的输出音量信号,并得到输入信号对应的频域信号,以及输出音量信号对应的频域信号之后,基于最小统计的噪声功率谱估计算法,在语音激活,也即有语音信号,和停顿,也即无语音信号处,通过时变光滑系数持续跟踪带噪语音功率谱,在有限窗内,进行基于最小统计的无偏噪声功率谱估计,由于噪声估计是通过在有限窗内搜索带噪语音功率谱密度的最小值,所以对噪声的平稳性没有太高要求,能够对稳态或非平稳的嗓声的进行准确估计,从而可以有效地调节输出音量。
在上述方案中,频域信号获取模块420具体可以用于:对所述输入信号进行预处理,以滤除所述输入信号中的工频干扰信号以及低频干扰信号;根据所述输入信号的短时相关性,对经预处理后的输入信号进行分帧处理;对经所述分帧处理后的输入信号的各帧信号分别进行加窗处理,并进行重叠存储,得到输入信号的各帧加窗信号;对各帧加窗信号进行快速傅里叶变换处理,得到输入信号对应的频域信号。
在上述方案中,频域信号获取模块420具体还可以用于:对所述输出音量信号进行预处理,以滤除所述输出音量信号中的工频干扰信号以及低频干扰信号;根据所述输出音量信号的短时相关性,对经预处理后的输出音量信号进行分帧处理;对经所述分帧处理后的输出音量信号的各帧信号分别进行加窗处理,并进行重叠存储,得到输出音量信号的各帧加窗信号;对经所述加窗处理后的与输出音量信号对应的各帧加窗信号进行快速傅里叶变换处理,得到输出音量信号对应的频域信号。
在上述方案中,噪声估计模块430优选包括:实时递归处理子模块、最小值确定子模块和偏差修正子模块。
其中,实时递归处理子模块用于对输入信号对应的频域信号进行实时递归处理,得到D个带噪语音功率谱密度,其中D为有限窗总长;最小值确定子模块用于将有限窗总长D分成U个子窗,在U个子窗内分别查找获得每个子窗的带噪语音功率谱密度最小值;偏差修正子模块用于对于各子窗,对该子窗的带噪语音功率谱密度最小值进行偏差修正,得到无偏噪声功率估计值,作为与输入信号对应的频域信号中位于该子窗内的环境噪声信号的噪声功率谱数据。
进一步地,实时递归处理子模块具体可以用于:
采用下述公式对输入信号对应的频域信号进行实时递归处理,得到D个带噪语音功率谱密度:
P(λ,k)=α(λ,k)P(λ-1,k)+[1-α(λ,k)]|X(λ,k)|2
其中,X(λ,k)为输入信号对应的频域信号,λ用于频域,与时域的时间参数对应,k为频值;α(λ,k)为实时递归平滑因子,通过最小均方误差算法计算得到;P(λ,k)为经所述实时递归处理后的带噪语音功率谱密度。
在上述方案中,音量调节模块450具体可以用于:利用所述输出谱增益,采用下述公式对所述输出音量信号对应的频域信号进行调节:
其中,G(λ,k)为所述输出谱增益;Y(λ,k)为所述输出音量信号对应的频域信号,λ用于频域,与时域的时间参数对应,k为频值;Yadj(λ,k)为所述输出音量信号经调节后对应的频域信号。
在上述方案中,所述装置还可以包括:输出谱增益调节模块,用于在根据预先存储的噪声功率谱数据与输出谱增益的对应关系,确定与所述环境噪声信号的噪声功率谱数据对应的输出谱增益之后,根据预先得到的用户听力曲线,对与所述噪声功率谱数据对应的输出谱增益进行调整,所述用户听力曲线根据在安静环境下,用户可分辨的设定数量的不同频率的声音对应的最小幅值得到,所述设定数量的不同频率选取自输入信号对应的频域信号的不同频点;
相应地,音量调节模块450具体可以用于:利用调整后的输出谱增益对输出音量信号对应的频域信号进行调节。
其中,输出谱增益调节模块具体可以用于:根据预先得到的用户听力曲线,采用下述公式对与所述噪声功率谱数据对应的输出谱增益进行调整:
其中,θG为门限值;ξ(k)为所述用户听力曲线;Gmod为调整系数,取值>1;G(λ,k)为所述输出谱增益;Gadj(λ,k)为调整后的输出谱增益。
相应地,音量调节模块450具体可以用于:利用调整后的输出谱增益,采用下述公式对输出音量信号对应的频域信号进行调节:
其中,Gadj(λ,k)为所述调整后的输出谱增益;Y(λ,k)为所述输出音量信号对应的频域信号,λ用于频域,与时域的时间参数对应,k为频值;Yadj(λ,k)为所述输出音量信号经调节后对应的频域信号。
本发明实施例提供的输出音量调节装置可执行本发明任意实施例所提供的输出音量调节方法,具备执行方法相应的功能模块和有益效果。
最后应说明的是:以上各实施例仅用于说明本发明的技术方案,而非对其进行限制;实施例中优选的实施方式,并非对其进行限制,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种输出音量调节方法,其特征在于,包括:
获取语音通信设备的语音采集装置的输入信号以及语音通信设备的输出音量信号,其中,所述输入信号包括环境噪声信号和语音信号;
获取输入信号对应的频域信号,以及输出音量信号对应的频域信号;
采用下述公式对所述输入信号对应的频域信号进行实时递归处理,得到D个带噪语音功率谱密度:
P(λ,k)=α(λ,k)P(λ-1,k)+[1-α(λ,k)]|X(λ,k)|2
其中,X(λ,k)为输入信号对应的频域信号,λ用于频域,与时域的时间参数对应,k为频值;α(λ,k)为实时递归平滑因子,通过最小均方误差算法计算得到;P(λ,k)为经所述实时递归处理后的带噪语音功率谱密度;D为有限窗总长;
将有限窗总长D分成U个子窗,在U个子窗内分别查找获得每个子窗的带噪语音功率谱密度最小值;
对于各子窗,对该子窗的带噪语音功率谱密度最小值进行偏差修正,得到无偏噪声功率估计值,作为与输入信号对应的频域信号中位于该子窗内的环境噪声信号的噪声功率谱数据;
根据预先存储的噪声功率谱数据与输出谱增益的对应关系,确定与所述环境噪声信号的噪声功率谱数据对应的输出谱增益;
利用所述输出谱增益对所述输出音量信号对应的频域信号进行调节;并对所述调节后的频域信号进行反傅里叶变换,得到调节后的输出音量信号。
2.根据权利要求1所述的方法,其特征在于,获取输入信号对应的频域信号,包括:
对所述输入信号进行预处理,以滤除所述输入信号中的工频干扰信号以及低频干扰信号;
根据所述输入信号的短时相关性,对经预处理后的输入信号进行分帧处理;
对经所述分帧处理后的输入信号的各帧信号分别进行加窗处理,并进行重叠存储,得到输入信号的各帧加窗信号;
对各帧加窗信号进行快速傅里叶变换处理,得到输入信号对应的频域信号。
3.根据权利要求1所述的方法,其特征在于,获取输出音量信号对应的频域信号,包括:
对所述输出音量信号进行预处理,以滤除所述输出音量信号中的工频干扰信号以及低频干扰信号;
根据所述输出音量信号的短时相关性,对经预处理后的输出音量信号进行分帧处理;
对经所述分帧处理后的输出音量信号的各帧信号分别进行加窗处理,并进行重叠存储,得到输出音量信号的各帧加窗信号;
对经所述加窗处理后的与输出音量信号对应的各帧加窗信号进行快速傅里叶变换处理,得到输出音量信号对应的频域信号。
4.根据权利要求1-3任一所述的方法,其特征在于,利用所述输出谱增益对所述输出音量信号对应的频域信号进行调节,包括:
利用所述输出谱增益,采用下述公式对所述输出音量信号对应的频域信号进行调节:
其中,G(λ,k)为所述输出谱增益;Y(λ,k)为所述输出音量信号对应的频域信号,λ用于频域,与时域的时间参数对应,k为频值;Yadj(λ,k)为所述输出音量信号经调节后对应的频域信号。
5.根据权利要求1-3任一所述的方法,其特征在于,在根据预先存储的噪声功率谱数据与输出谱增益的对应关系,确定与所述环境噪声信号的噪声功率谱数据对应的输出谱增益之后,所述方法还包括:
根据预先得到的用户听力曲线,对与所述噪声功率谱数据对应的输出谱增益进行调整,所述用户听力曲线根据在安静环境下,用户可分辨的设定数量的不同频率的声音对应的最小幅值得到,所述设定数量的不同频率选取自输入信号对应的频域信号的不同频点;
利用所述输出谱增益对所述输出音量信号对应的频域信号进行调节,具体包括:
利用调整后的输出谱增益对输出音量信号对应的频域信号进行调节。
6.根据权利要求5所述的方法,其特征在于,根据预先得到的用户听力曲线,对与所述噪声功率谱数据对应的输出谱增益进行调整,包括:
根据预先得到的用户听力曲线,采用下述公式对与所述噪声功率谱数据对应的输出谱增益进行调整:
其中,θG为门限值;ξ(k)为所述用户听力曲线;Gmod为调整系数,取值>1;G(λ,k)为所述输出谱增益;Gadj(λ,k)为调整后的输出谱增益。
7.根据权利要求5所述的方法,其特征在于,利用调整后的输出谱增益对输出音量信号对应的频域信号进行调节,包括:
利用调整后的输出谱增益,采用下述公式对输出音量信号对应的频域信号进行调节:
其中,Gadj(λ,k)为所述调整后的输出谱增益;Y(λ,k)为所述输出音量信号对应的频域信号,λ用于频域,与时域的时间参数对应,k为频值;Yadj(λ,k)为所述输出音量信号经调节后对应的频域信号。
8.一种输出音量调节装置,其特征在于,包括:
时域信号获取模块,用于获取语音通信设备的语音采集装置的输入信号以及语音通信设备的输出音量信号,其中,所述输入信号包括环境噪声信号和语音信号;
频域信号获取模块,用于获取输入信号对应的频域信号,以及输出音量信号对应的频域信号;
噪声估计模块,所述噪声估计模块包括:
实时递归处理子模块,用于采用下述公式对输入信号对应的频域信号进行实时递归处理,得到D个带噪语音功率谱密度:
P(λ,k)=α(λ,k)P(λ-1,k)+[1-α(λ,k)]|X(λ,k)|2
其中,X(λ,k)为输入信号对应的频域信号,λ用于频域,与时域的时间参数对应,k为频值;α(λ,k)为实时递归平滑因子,通过最小均方误差算法计算得到;P(λ,k)为经所述实时递归处理后的带噪语音功率谱密度;D为有限窗总长;
最小值确定子模块,用于将有限窗总长D分成U个子窗,在U个子窗内分别查找获得每个子窗的带噪语音功率谱密度最小值;
偏差修正子模块,用于对于各子窗,对该子窗的带噪语音功率谱密度最小值进行偏差修正,得到无偏噪声功率估计值,作为与输入信号对应的频域信号中位于该子窗内的环境噪声信号的噪声功率谱数据;
输出谱增益确定模块,用于根据预先存储的噪声功率谱数据与输出谱增益的对应关系,确定与所述环境噪声信号的噪声功率谱数据对应的输出谱增益;
音量调节模块,用于利用所述输出谱增益对所述输出音量信号对应的频域信号进行调节;并对所述调节后的频域信号进行反傅里叶变换,得到调节后的输出音量信号。
9.根据权利要求8所述的装置,其特征在于,频域信号获取模块具体用于:
对所述输入信号进行预处理,以滤除所述输入信号中的工频干扰信号以及低频干扰信号;
根据所述输入信号的短时相关性,对经预处理后的输入信号进行分帧处理;
对经所述分帧处理后的输入信号的各帧信号分别进行加窗处理,并进行重叠存储,得到输入信号的各帧加窗信号;
对各帧加窗信号进行快速傅里叶变换处理,得到输入信号对应的频域信号。
10.根据权利要求8所述的装置,其特征在于,频域信号获取模块具体用于:
对所述输出音量信号进行预处理,以滤除所述输出音量信号中的工频干扰信号以及低频干扰信号;
根据所述输出音量信号的短时相关性,对经预处理后的输出音量信号进行分帧处理;
对经所述分帧处理后的输出音量信号的各帧信号分别进行加窗处理,并进行重叠存储,得到输出音量信号的各帧加窗信号;
对经所述加窗处理后的与输出音量信号对应的各帧加窗信号进行快速傅里叶变换处理,得到输出音量信号对应的频域信号。
11.根据权利要求8-10任一所述的装置,其特征在于,音量调节模块具体用于:
利用所述输出谱增益,采用下述公式对所述输出音量信号对应的频域信号进行调节:
其中,G(λ,k)为所述输出谱增益;Y(λ,k)为所述输出音量信号对应的频域信号,λ用于频域,与时域的时间参数对应,k为频值;Yadj(λ,k)为所述输出音量信号经调节后对应的频域信号。
12.根据权利要求8-10任一所述的装置,其特征在于,所述装置还包括:
输出谱增益调节模块,用于在根据预先存储的噪声功率谱数据与输出谱增益的对应关系,确定与所述环境噪声信号的噪声功率谱数据对应的输出谱增益之后,根据预先得到的用户听力曲线,对与所述噪声功率谱数据对应的输出谱增益进行调整,所述用户听力曲线根据在安静环境下,用户可分辨的设定数量的不同频率的声音对应的最小幅值得到,所述设定数量的不同频率选取自输入信号对应的频域信号的不同频点;
音量调节模块具体用于:利用调整后的输出谱增益对输出音量信号对应的频域信号进行调节。
13.根据权利要求12所述的装置,其特征在于,输出谱增益调节模块具体用于:
根据预先得到的用户听力曲线,采用下述公式对与所述噪声功率谱数据对应的输出谱增益进行调整:
其中,θG为门限值;ξ(k)为所述用户听力曲线;Gmod为调整系数,取值>1;G(λ,k)为所述输出谱增益;Gadj(λ,k)为调整后的输出谱增益。
14.根据权利要求12所述的装置,其特征在于,音量调节模块具体用于:
利用调整后的输出谱增益,采用下述公式对输出音量信号对应的频域信号进行调节:
其中,Gadj(λ,k)为所述调整后的输出谱增益;Y(λ,k)为所述输出音量信号对应的频域信号,λ用于频域,与时域的时间参数对应,k为频值;Yadj(λ,k)为所述输出音量信号经调节后对应的频域信号。
CN201410848268.0A 2014-12-26 2014-12-26 输出音量调节方法和装置 Active CN105791530B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410848268.0A CN105791530B (zh) 2014-12-26 2014-12-26 输出音量调节方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410848268.0A CN105791530B (zh) 2014-12-26 2014-12-26 输出音量调节方法和装置

Publications (2)

Publication Number Publication Date
CN105791530A CN105791530A (zh) 2016-07-20
CN105791530B true CN105791530B (zh) 2019-04-16

Family

ID=56389768

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410848268.0A Active CN105791530B (zh) 2014-12-26 2014-12-26 输出音量调节方法和装置

Country Status (1)

Country Link
CN (1) CN105791530B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109874088A (zh) * 2019-01-07 2019-06-11 广东思派康电子科技有限公司 一种调整声压值的方法及设备
CN112151053B (zh) * 2019-06-11 2024-04-16 北京汇钧科技有限公司 语音增强方法、系统、电子设备和存储介质
CN113497852A (zh) * 2020-04-07 2021-10-12 北京字节跳动网络技术有限公司 自动音量调整方法、装置、介质和设备
CN111510559B (zh) * 2020-04-30 2021-07-13 宋彦震 根据环境噪声幅度和来电者声音频率自适应调整来电者声音大小的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008058480A (ja) * 2006-08-30 2008-03-13 Fujitsu Ltd 信号処理方法及び装置
CN101976566A (zh) * 2010-07-09 2011-02-16 瑞声声学科技(深圳)有限公司 语音增强方法及应用该方法的装置
CN103440870A (zh) * 2013-08-16 2013-12-11 北京奇艺世纪科技有限公司 一种音频降噪方法及装置
CN103578477A (zh) * 2012-07-30 2014-02-12 中兴通讯股份有限公司 基于噪声估计的去噪方法和装置
CN106328151A (zh) * 2015-06-30 2017-01-11 芋头科技(杭州)有限公司 一种环噪消除系统及其应用方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1845520A4 (en) * 2005-02-02 2011-08-10 Fujitsu Ltd SIGNAL PROCESSING METHOD AND SIGNAL PROCESSING DEVICE

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008058480A (ja) * 2006-08-30 2008-03-13 Fujitsu Ltd 信号処理方法及び装置
CN101976566A (zh) * 2010-07-09 2011-02-16 瑞声声学科技(深圳)有限公司 语音增强方法及应用该方法的装置
CN103578477A (zh) * 2012-07-30 2014-02-12 中兴通讯股份有限公司 基于噪声估计的去噪方法和装置
CN103440870A (zh) * 2013-08-16 2013-12-11 北京奇艺世纪科技有限公司 一种音频降噪方法及装置
CN106328151A (zh) * 2015-06-30 2017-01-11 芋头科技(杭州)有限公司 一种环噪消除系统及其应用方法

Also Published As

Publication number Publication date
CN105791530A (zh) 2016-07-20

Similar Documents

Publication Publication Date Title
EP3703052B1 (en) Echo cancellation method and apparatus based on time delay estimation
CN105513605B (zh) 手机麦克风的语音增强系统和语音增强方法
CN109845288B (zh) 用于麦克风之间的输出信号均衡的方法和装置
US20200265857A1 (en) Speech enhancement method and apparatus, device and storage mediem
CN105791530B (zh) 输出音量调节方法和装置
CN109313909B (zh) 评估麦克风阵列一致性的方法、设备、装置和系统
CN105405448B (zh) 一种音效处理方法及装置
CN103544961B (zh) 语音信号处理方法及装置
CN105261359B (zh) 手机麦克风的消噪系统和消噪方法
US20200372925A1 (en) Method and device of denoising voice signal
CN103413547B (zh) 一种室内混响消除的方法
US9183846B2 (en) Method and device for adaptively adjusting sound effect
CN108538310A (zh) 一种基于长时信号功率谱变化的语音端点检测方法
US11069366B2 (en) Method and device for evaluating performance of speech enhancement algorithm, and computer-readable storage medium
US20060100866A1 (en) Influencing automatic speech recognition signal-to-noise levels
CN103247298B (zh) 一种灵敏度校准方法和音频设备
CN103903634B (zh) 激活音检测及用于激活音检测的方法和装置
CN110390947B (zh) 声源位置的确定方法、系统、设备和存储介质
CN109256139A (zh) 一种基于Triplet-Loss的说话人识别方法
CN111640411B (zh) 音频合成方法、装置及计算机可读存储介质
CN104658543A (zh) 一种室内混响消除的方法
US8423357B2 (en) System and method for biometric acoustic noise reduction
CN103280225B (zh) 一种低复杂度的静音检测方法
CN111223492A (zh) 一种回声路径延迟估计方法及装置
CN108962285A (zh) 一种基于人耳掩蔽效应划分子带的语音端点检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20160720

Assignee: Shanghai Li Ke Semiconductor Technology Co., Ltd.

Assignor: Leadcore Technology Co., Ltd.

Contract record no.: 2018990000159

Denomination of invention: Output volume adjusting method and device

License type: Common License

Record date: 20180615

EE01 Entry into force of recordation of patent licensing contract
GR01 Patent grant
GR01 Patent grant