CN115440236A - 一种回声抑制方法、装置、电子设备及存储介质 - Google Patents
一种回声抑制方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115440236A CN115440236A CN202211061153.8A CN202211061153A CN115440236A CN 115440236 A CN115440236 A CN 115440236A CN 202211061153 A CN202211061153 A CN 202211061153A CN 115440236 A CN115440236 A CN 115440236A
- Authority
- CN
- China
- Prior art keywords
- state information
- audio
- determining
- audio signal
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001629 suppression Effects 0.000 title claims abstract description 148
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000005236 sound signal Effects 0.000 claims abstract description 220
- 230000000694 effects Effects 0.000 claims abstract description 115
- 238000001514 detection method Methods 0.000 claims abstract description 84
- 238000012545 processing Methods 0.000 claims abstract description 23
- 238000001914 filtration Methods 0.000 claims abstract description 12
- 238000001228 spectrum Methods 0.000 claims description 107
- 238000004891 communication Methods 0.000 claims description 19
- 230000005284 excitation Effects 0.000 claims description 12
- 238000012937 correction Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 7
- 230000009977 dual effect Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 description 8
- 238000012805 post-processing Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本申请公开了一种回声抑制方法、装置、电子设备及存储介质,获取音频采集设备采集的第一音频信号和音频输出设备输出的第二音频信号,通过线性滤波处理,确定第二音频信号对应的估计回声信号,根据第一音频信号和估计回声信号确定残差信号。分别对第一音频信号和第二音频信号进行语音活动检测,并且确定第一音频信号和估计回声信号的相似度。结合对第一音频信号和第二音频信号进行语音活动检测的检测结果和相似度共同确定音频状态信息,使得确定音频状态信息更准确,进而使得确定回声抑制激进度因子更准确,回声抑制效果较好。
Description
技术领域
本申请涉及音频信号处理技术领域,尤其涉及一种回声抑制方法、装置、电子设备及存储介质。
背景技术
在视频会议中,必不可少的需要进行回声抑制,声学回声抑制的性能,作为语音交互系统中一个重要的指标,极大地影响了用户与设备或是用户间的沟通体验。声学回声消除通常包含线性回声消除与回声后处理两部分,线性回声消除通常可以采用滤波算法得到残差信号,并确定回声抑制激进度因子,然后根据回声抑制激进度因子对残差信号进行回声后处理得到最终的信号。
视频会议一般包括单讲状态和双讲状态,单讲状态和双讲状态下确定的回声抑制激进度因子是不同的,相关技术存在的问题是,无法准确地确定音频帧是单讲状态还是双讲状态,进而使得确定的回声抑制激进度因子准确性较差,回声抑制效果较差。
发明内容
本申请实施例提供了一种回声抑制方法、装置、电子设备及存储介质,用以解决相关技术无法准确地确定音频状态信息,进而使得确定的回声抑制激进度因子准确性较差,回声抑制效果较差的问题。
本申请提供了一种回声抑制方法,所述方法包括:
获取音频采集设备采集的第一音频信号和音频输出设备输出的第二音频信号;通过线性滤波处理,确定所述第二音频信号对应的估计回声信号,根据所述第一音频信号和所述估计回声信号确定残差信号;
分别对所述第一音频信号和第二音频信号进行语音活动检测,并确定所述第一音频信号和所述估计回声信号的相似度;根据语音活动检测结果和所述相似度确定音频状态信息,根据所述音频状态信息确定回声抑制激进度因子,并根据所述回声抑制激进度因子对所述残差信号进行回声抑制处理。
进一步地,所述确定所述第一音频信号和所述估计回声信号的相似度包括:
分别确定所述第一音频信号的第一自功率谱、所述估计回声信号的第二自功率谱和所述第一音频信号与所述估计回声信号的互功率谱,根据所述第一自功率谱、所述第二自功率谱和所述互功率谱确定所述第一音频信号和所述估计回声信号的相似度。
进一步地,所述根据所述第一自功率谱、所述第二自功率谱和所述互功率谱确定所述第一音频信号和所述估计回声信号的相似度包括:
分别获取并根据预设的频段中每个频点各自对应的第一自功率谱、第二自功率谱和互功率谱,确定所述每个频点各自对应的子相似度;
根据所述每个频点各自对应的子相似度,确定所述第一音频信号和所述估计回声信号的相似度。
进一步地,所述音频状态信息包括单讲状态信息、双讲状态信息和全通状态信息中的至少一种。
进一步地,所述根据语音活动检测结果和所述相似度确定音频状态信息包括:
若确定所述第一音频信号的语音活动检测结果为未检测到语音活动,所述第二音频信号的语音活动检测结果为检测到语音活动,所述相似度小于预设的第一相似度阈值,确定所述音频状态信息为单讲状态信息;
若确定所述第一音频信号和第二音频信号的语音活动检测结果均为检测到语音活动,所述相似度大于所述预设的第一相似度阈值,确定所述音频状态信息为双讲状态信息;
若确定所述第二音频信号的语音活动检测结果为未检测到语音活动,确定所述音频状态信息为全通状态信息。
进一步地,所述预设的第一相似度阈值的确定过程包括:
确定所述估计回声信号的第二自功率谱与所述第一音频信号的第一自功率谱的第一比值;
根据所述第一比值和预设的修正系数,确定所述预设的第一相似度阈值。
进一步地,所述音频状态信息至少包括单讲状态信息和双讲状态信息,所述根据语音活动检测结果和所述相似度确定音频状态信息之后,根据所述音频状态信息确定回声抑制激进度因子之前,所述方法还包括:
确定所述残差信号的第三自功率谱,以及所述第三自功率谱与所述第一自功率谱的第二比值;
若根据语音活动检测结果和所述相似度确定音频状态信息为单讲状态信息,所述第二比值大于预设的第二相似度阈值,将所述单讲状态信息修正为双讲状态信息;
若根据语音活动检测结果和所述相似度确定音频状态信息为双讲状态信息,所述第三自功率谱小于预设的第三相似度阈值,将所述双讲状态信息修正为单讲状态信息。
进一步地,所述音频状态信息至少包括所述单讲状态信息,所述根据所述音频状态信息确定回声抑制激进度因子包括:
响应于所述音频状态信息为所述单讲状态信息,获取上一音频帧的第一回声抑制激进度因子;
根据所述第一回声抑制激进度因子与预设的第一步长因子的和值,确定所述回声抑制激进度因子。
进一步地,所述音频状态信息至少包括所述双讲状态信息或全通状态信息,所述根据所述音频状态信息确定回声抑制激进度因子包括:
响应于所述音频状态信息为所述双讲状态信息或所述全通状态信息,获取上一音频帧的第一回声抑制激进度因子;
根据所述第一回声抑制激进度因子与预设的第二步长因子的差值,确定所述回声抑制激进度因子。
另一方面,本申请提供了一种回声抑制装置,所述装置包括:
确定模块,用于获取音频采集设备采集的第一音频信号和音频输出设备输出的第二音频信号;通过线性滤波处理,确定所述第二音频信号对应的估计回声信号,根据所述第一音频信号和所述估计回声信号确定残差信号;
回声抑制模块,用于分别对所述第一音频信号和第二音频信号进行语音活动检测,并确定所述第一音频信号和所述估计回声信号的相似度;根据语音活动检测结果和所述相似度确定音频状态信息,根据所述音频状态信息确定回声抑制激进度因子,并根据所述回声抑制激进度因子对所述残差信号进行回声抑制处理。
进一步地,所述回声抑制模块,具体用于分别确定所述第一音频信号的第一自功率谱、所述估计回声信号的第二自功率谱和所述第一音频信号与所述估计回声信号的互功率谱,根据所述第一自功率谱、所述第二自功率谱和所述互功率谱确定所述第一音频信号和所述估计回声信号的相似度。
进一步地,所述回声抑制模块,具体用于分别获取并根据预设的频段中每个频点各自对应的第一自功率谱、第二自功率谱和互功率谱,确定所述每个频点各自对应的子相似度;根据所述每个频点各自对应的子相似度,确定所述第一音频信号和所述估计回声信号的相似度。
进一步地,所述回声抑制模块,具体用于若确定所述第一音频信号的语音活动检测结果为未检测到语音活动,所述第二音频信号的语音活动检测结果为检测到语音活动,所述相似度小于预设的第一相似度阈值,确定所述音频状态信息为单讲状态信息;若确定所述第一音频信号和第二音频信号的语音活动检测结果均为检测到语音活动,所述相似度大于所述预设的第一相似度阈值,确定所述音频状态信息为双讲状态信息;若确定所述第二音频信号的语音活动检测结果为未检测到语音活动,确定所述音频状态信息为全通状态信息。
进一步地,所述回声抑制模块,还用于确定所述估计回声信号的第二自功率谱与所述第一音频信号的第一自功率谱的第一比值;根据所述第一比值和预设的修正系数,确定所述预设的第一相似度阈值。
进一步地,所述装置还包括:
修正模块,用于确定所述残差信号的第三自功率谱,以及所述第三自功率谱与所述第一自功率谱的第二比值;若根据语音活动检测结果和所述相似度确定音频状态信息为单讲状态信息,所述第二比值大于预设的第二相似度阈值,将所述单讲状态信息修正为双讲状态信息;若根据语音活动检测结果和所述相似度确定音频状态信息为双讲状态信息,所述第三自功率谱小于预设的第三相似度阈值,将所述双讲状态信息修正为单讲状态信息。
进一步地,所述回声抑制模块,具体用于响应于所述音频状态信息为所述单讲状态信息,获取上一音频帧的第一回声抑制激进度因子;根据所述第一回声抑制激进度因子与预设的第一步长因子的和值,确定所述回声抑制激进度因子。
进一步地,所述回声抑制模块,具体用于响应于所述音频状态信息为所述双讲状态信息或所述全通状态信息,获取上一音频帧的第一回声抑制激进度因子;根据所述第一回声抑制激进度因子与预设的第二步长因子的差值,确定所述回声抑制激进度因子。
另一方面,本申请提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一项所述的方法步骤。
另一方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法步骤。
本申请提供了一种回声抑制方法、装置、电子设备及存储介质,所述方法包括:获取音频采集设备采集的第一音频信号和音频输出设备输出的第二音频信号;通过线性滤波处理,确定第二音频信号对应的估计回声信号,根据所述第一音频信号和所述估计回声信号确定残差信号;分别对所述第一音频信号和第二音频信号进行语音活动检测,并确定所述第一音频信号和所述估计回声信号的相似度;根据语音活动检测结果和所述相似度确定音频状态信息,根据所述音频状态信息确定回声抑制激进度因子,并根据所述回声抑制激进度因子对所述残差信号进行回声抑制处理。
上述的技术方案具有如下优点或有益效果:
本申请中,获取音频采集设备采集的第一音频信号和音频输出设备输出的第二音频信号,并确定第二音频信号对应的估计回声信号,根据第一音频信号和估计回声信号确定残差信号。分别对第一音频信号和第二音频信号进行语音活动检测,并且确定第一音频信号和估计回声信号的相似度。结合对第一音频信号和第二音频信号进行语音活动检测的检测结果和相似度共同确定音频状态信息,使得确定音频状态信息更准确,进而使得确定回声抑制激进度因子更准确,回声抑制效果较好。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的回声抑制过程示意图;
图2为本申请提供的回声抑制详细流程图;
图3为本申请提供的回声抑制装置结构示意图;
图4为本申请提供的电子设备结构示意图。
具体实施方式
下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
图1为本申请提供的回声抑制过程示意图,该过程包括以下步骤:
S101:获取音频采集设备采集的第一音频信号和音频输出设备输出的第二音频信号;通过线性滤波处理,确定所述第二音频信号对应的估计回声信号,根据所述第一音频信号和所述估计回声信号确定残差信号。
S102:分别对第一音频信号和第二音频信号进行语音活动检测,并确定第一音频信号和估计回声信号的相似度。
S103:根据语音活动检测结果和相似度确定音频状态信息,根据音频状态信息确定回声抑制激进度因子,并根据回声抑制激进度因子对残差信号进行回声抑制处理。
本申请提供的回声抑制方法应用于电子设备,该电子设备可以是PC、平板电脑等设备,也可以是服务器。
电子设备获取音频采集设备采集的第一音频信号和音频输出设备输出的第二音频信号。音频采集设备包括麦克风,音频输出设备包括扬声器。本申请将音频采集设备采集的音频信号称为第一音频信号,将音频输出设备输出的音频信号称为第二音频信号。第一音频信号包括用户向音频采集设备输入的音频信号和第二音频信号经过反射后传输至音频采集设备的音频信号。
将第一音频信号和第二音频信号由时域转换为频域。具体的,采用的分帧交叠分段法,帧与帧之间的交叠为帧移,帧移的取值为帧长的一半。将当前帧的第一音频信号和第二音频信号,与上一帧保留的音频采集设备采集的音频信号和上一帧保留的音频输出设备输出的第二音频信号,采用短时傅里叶变换的方法,从时域信号转换为频域信号。
对频域下的第二音频信号进行线性滤波处理,得到第二音频信号对应的估计回声信号。线性滤波处理算法包括自适应滤波器LMS、NLMS、RLS和kalman等。滤波器中的滤波系数可称为回声路径,将滤波系数与频域下的第二音频信号的乘积,作为第二音频信号对应的估计回声信号。将第一音频信号与估计回声信号的差作为残差信号。
例如,获取音频采集设备采集的第一音频信号为d(n),音频输出设备输出的第二音频信号为x(n)。采用短时傅里叶变换的方法,从时域信号转换为频域信号,d(n)对应的频域音频信号为D(k),x(n)对应的频域音频信号为X(k)。滤波器系数频域形式记为W(k),确定第二音频信号对应的回声信号记为Y(k)。其中,Y(k)=W(k)X(k)。Y(k)对应的时域估计回声信号记为y(n),残差信号记为e(n)。其中,e(n)=d(n)-y(n)。
需要说明的是,本申请中,单双讲状态信息应用于指导滤波器系数是否更新,具体如下:
以回声消除NLMS算法为例,更新方法如下:
W(k+1)=W(k)+μ(k)XH(k)E(k);
α,Δ为预设的固定值。
电子设备获取第一音频信号和第二音频信号,并确定第二音频信号对应的估计回声信号,根据第一音频信号和估计回声信号的差确定残差信号之后,分别对第一音频信号和第二音频信号进行语音活动检测,得到第一音频信号的语音活动检测结果和第二音频信号的语音活动检测结果。语音活动检测结果包括检测到语音活动和未检测到语音活动。
电子设备确定第一音频信号和估计回声信号的相似度,其中,可以采用余弦相似度、倒谱距离、KL散度等计算方法确定第一音频信号和估计回声信号的相似度。
根据语音活动检测结果和相似度确定音频状态信息,音频状态信息包括单讲状态信息、双讲状态信息和全通状态信息中的至少一种。然后根据音频状态信息确定回声抑制激进度因子,其中,单讲状态信息对应的回声抑制激进度因子高于双讲状态信息对应的回声抑制激进度因子,单讲状态信息对应的回声抑制激进度因子高于全通状态信息对应的回声抑制激进度因子,双讲状态信息对应的回声抑制激进度因子和全通状态信息对应的回声抑制激进度因子可以相同或不同。
根据回声抑制激进度因子对残差信号进行回声抑制处理。具体的,结合回声抑制激进度因子和回声后处理模块,确定增益G值,采用增益G值对残差信号进行回声抑制处理,得到回声消除后的音频信号。
本申请中,获取音频采集设备采集的第一音频信号和音频输出设备输出的第二音频信号,并确定第二音频信号对应的估计回声信号,根据第一音频信号和估计回声信号确定残差信号。分别对第一音频信号和第二音频信号进行语音活动检测,并且确定第一音频信号和估计回声信号的相似度。结合对第一音频信号和第二音频信号进行语音活动检测的检测结果和相似度共同确定音频状态信息是单讲状态信息还是双讲状态信息,使得确定音频状态信息更准确,进而使得确定回声抑制激进度因子准确性较好,回声抑制效果较好。
单讲状态下,此时残差信号包含残留的回声和麦克风端的噪声,需要尽可能抑制回声,因为麦克风端没有说话人,所以可以采用较强等级抑制回声,麦克风端噪声同时也会被压制,麦克风端噪声本身也是不期望保留的成分。
双讲状态或全通状态下,此时残差信号包含残留的回声、麦克风端的噪声和麦克风端说话声,需要尽可能保留麦克风端说话声,使其清晰连贯。
本申请中,为了使确定第一音频信号和回声信号的相似度更准确,确定第一音频信号和估计回声信号的相似度包括:
分别确定第一音频信号的第一自功率谱、估计回声信号的第二自功率谱和第一音频信号与估计回声信号的互功率谱,根据第一自功率谱、第二自功率谱和互功率谱确定第一音频信号和估计回声信号的相似度。
本申请中,确定第一音频信号的第一自功率谱Sdd,估计回声信号的第二自功率谱Syy和第一音频信号与估计回声信号的互功率谱Syd。具体确定过程如下:
Sdd=αSdd+(1-α)D(k)D*(k);
Syy=αSyy+(1-α)Y(k)Y*(k);
Syd=αSyd+(1-α)Y(k)D*(k)。
式中,α为预设的平滑系数,例如0.75、0.8、0.85等。*表示转置。
根据第一自功率谱Sdd、第二自功率谱Syy和互功率谱Syd确定第一音频信号和估计回声信号的相似度。具体确定过程如下:
式中,*表示转置,k表示第k个频点,similarity(k)表示第k个频点第一音频信号和估计回声信号的相似度。
考虑到音频信号能量通常集中在一定的频段内,为进一步得到更为可靠的音频状态信息,本申请中,所述根据所述第一自功率谱、所述第二自功率谱和所述互功率谱确定所述第一音频信号和所述估计回声信号的相似度包括:
分别获取并根据预设的频段中每个频点各自对应的第一自功率谱、第二自功率谱和互功率谱,确定所述每个频点各自对应的子相似度;
根据所述每个频点各自对应的子相似度,确定所述第一音频信号和所述估计回声信号的相似度。
例如预设的频段中每个频点包括频点K1至频点K2,分别获取频点K1至频点K2中,每个频点各自对应的第一自功率谱、第二自功率谱和互功率谱,进而根据公式确定每个频点各自对应的子相似度。然后根据每个频点各自对应的子相似度,确定第一音频信号和所述估计回声信号的相似度。例如将每个频点各自对应的子相似度的和作为第一音频信号和所估计述回声信号的相似度。即
需要说明的是,本申请还可以采用以下方法确定第一音频信号和估计回声信号的相似度。具体的,确定第一音频信号和估计回声信号的相似度similarityyd,并且根据上述方法确定第一音频信号和第二音频信号的相似度similarityxd,然后结合相似度similarityyd和相似度similarityxd确定最终的第一音频信号和估计回声信号的相似度similaritysum。具体表示如下:
α表示为第一音频信号和估计回声信号的相似度权重值,β为第一音频信号和第二音频信号的相似度权重值。
本申请中,为了使确定音频状态信息更准确,所述根据语音活动检测结果和所述相似度确定音频状态信息包括:
若确定所述第一音频信号的语音活动检测结果为未检测到语音活动,所述第二音频信号的语音活动检测结果为检测到语音活动,所述相似度小于预设的第一相似度阈值,确定所述音频状态信息为单讲状态信息;
若确定所述第一音频信号和第二音频信号的语音活动检测结果均为检测到语音活动,所述相似度大于所述预设的第一相似度阈值,确定所述音频状态信息为双讲状态信息;
若确定所述第二音频信号的语音活动检测结果为未检测到语音活动,确定所述音频状态信息为全通状态信息。
本申请中,若确定第一音频信号的语音活动检测结果为未检测到语音活动,第二音频信号的语音活动检测结果为检测到语音活动,相似度小于预设的第一相似度阈值,确定音频状态信息为单讲状态信息。其中,预设的第一相似度阈值可以是经验值,例如0.8、0.9等。若确定第一音频信号和第二音频信号的语音活动检测结果均为检测到语音活动,相似度大于所述预设的第一相似度阈值,确定音频状态信息为双讲状态信息。另外,若确定第二音频信号的语音活动检测结果为未检测到语音活动,则不需要进行相似度与第一相似度阈值之间的大小判断,直接确定音频状态信息为全通状态信息。具体如下:
式中,status表示音频状态信息,far vad表示第二音频信号的语音活动检测结果,near vad表示第一音频信号的语音活动检测结果,T1表示预设的第一相似度阈值,similarityyd表示第一音频信号和回声信号的相似度,pass表示全通状态信息,far vad=1表示第二音频信号的语音活动检测结果检测到语音活动,far vad=0表示第二音频信号的语音活动检测结果未检测到语音活动,near vad=1表示第一音频信号的语音活动检测结果检测到语音活动,near vad=0表示第一音频信号的语音活动检测结果未检测到语音活动。
为了使预设的第一相似度阈值更准确,本申请中,所述预设的第一相似度阈值的确定过程包括:
确定所述估计回声信号的第二自功率谱与所述第一音频信号的第一自功率谱的第一比值;
根据所述第一比值和预设的修正系数,确定所述预设的第一相似度阈值。
本申请中,考虑到在实际的使用场景中,对于较小的第一音频信号,为了保证回声信号抑制更完全,更加倾向于判定为单讲状态信息;对于较大的第一音频信号,为保证音频信号连续性更加倾向于判定为双讲状态信息。为了更准确地进行回声抑制,所述音频状态信息至少包括单讲状态信息和双讲状态信息,所述根据语音活动检测结果和所述相似度确定音频状态信息之后,根据所述音频状态信息确定回声抑制激进度因子之前,所述方法还包括:
确定所述残差信号的第三自功率谱,以及所述第三自功率谱与所述第一自功率谱的第二比值;
若根据语音活动检测结果和所述相似度确定音频状态信息为单讲状态信息,所述第二比值大于预设的第二相似度阈值,将所述单讲状态信息修正为双讲状态信息;
若根据语音活动检测结果和所述相似度确定音频状态信息为双讲状态信息,所述第三自功率谱小于预设的第三相似度阈值,将所述双讲状态信息修正为单讲状态信息。
本申请中,音频状态信息至少包括单讲状态信息和双讲状态信息,其包含对单讲状态信息和双讲状态信息的确定,以及除单讲状态信息和双讲状态信息之外的其它状态信息的确定。本申请实施例中,为了更准确地进行回声抑制,主要涉及对确定出的单讲状态信息和双讲状态信息的修正过程。具体如下:
本申请确定残差信号的第三自功率谱,表示为:See=αSee+(1-α)E(k)E*(k);式中,See为第三自功率谱,α为平滑系数,E(k)为残差信号能量值,*表示转置。
确定第三自功率谱与第一自功率谱的第二比值为See/Sdd。
若根据语音活动检测结果和相似度确定音频状态信息为单讲状态信息,第二比值大于预设的第二相似度阈值T2,将单讲状态信息修正为双讲状态信息;若根据语音活动检测结果和相似度确定音频状态信息为双讲状态信息,第三自功率谱小于预设的第三相似度阈值T3,将双讲状态信息修正为单讲状态信息。具体表示为:
当status=双讲,如果See<T3时,修正为:status=单讲。
其中,预设的第一相似度阈值、预设的第二相似度阈值和预设的第三相似度阈值可以根据实际场景和需求进行设置,不对三者之间的大小关系进行限定。较佳的,可以设置式中γ表示预设的系数,一般选取0至1之间的数值,△表示预设的T3的下限值,一般选取接近于0的较小值。
回声消除中后处理模块回声抑制激进度因子定义为gamma,gamma值取值范围定义为[0,1]。当单讲状态信息时,期望尽可能压制回声,此时采用较高的gamma值;当双讲状态信息或者全通pass状态信息时,期望尽可能保留第一音频信号,此时采用较低的gamma值。
在正常会议场景中,单双讲状态信息并没与严格意义上的区分界限,为保证回声后处理后的音频信号尽可能压低回声的同时,保证第一音频信号连贯性。当前帧的gamma值可以结合当前帧的单双讲状态信息,和前一帧的gamma值进行确定。基于上述考虑,本申请中,所述音频状态信息至少包括所述单讲状态信息,所述根据所述音频状态信息确定回声抑制激进度因子包括:
响应于所述音频状态信息为所述单讲状态信息,获取上一音频帧的第一回声抑制激进度因子;
根据所述第一回声抑制激进度因子与预设的第一步长因子的和值,确定所述回声抑制激进度因子。
本申请中,音频状态信息至少包括单讲状态信息,其包含对单讲状态信息的确定,以及除单讲状态信息之外的其它状态信息的确定。例如对单讲状态信息和双讲状态信息的确定;或者对单讲状态信息和全通状态信息的确定;或者对单讲状态信息、双讲状态信息和全通状态信息的确定。需要说明的是,对于一个音频帧,其音频状态信息为单讲状态信息、双讲状态信息和全通状态信息中的一种。
本申请中,首先获取上一音频帧的第一回声抑制激进度因子gamma(n-1)。若音频状态信息为单讲状态信息,确定第一回声抑制激进度因子与预设的第一步长因子的和值,可以直接将和值确定为回声抑制激进度因子。或者,将第一回声抑制激进度因子gamma(n-1)增加预设的第一步长因子△1,得到第二回声抑制激进度因子,根据第二回声抑制激进度因子确定回声抑制激进度因子,其中,可以将第二回声抑制激进度因子带入预设的函数关系式F1,得到回声抑制激进度因子。
本申请中,所述音频状态信息至少包括所述双讲状态信息或全通状态信息,所述根据所述音频状态信息确定回声抑制激进度因子包括:
响应于所述音频状态信息为所述双讲状态信息或所述全通状态信息,获取上一音频帧的第一回声抑制激进度因子;
根据所述第一回声抑制激进度因子与预设的第二步长因子的差值,确定所述回声抑制激进度因子。
本申请中,音频状态信息至少包括双讲状态信息或全通状态信息,其包含以下几种情况:对双讲状态信息的确定、对全通状态信息的确定、对单讲状态信息和双讲状态信息的确定,对全通状态信息和单讲状态信息的确定,对双讲状态信息和全通状态信息的确定以及对单讲状态信息、双讲状态信息和全通状态信息的确定。同样的,对于一个音频帧,其音频状态信息为单讲状态信息、双讲状态信息和全通状态信息中的一种。
若音频状态信息为双讲状态信息或全通状态信息,确定第一回声抑制激进度因子与预设的第二步长因子的差值,可以直接将差值确定为回声抑制激进度因子。或者,将第一回声抑制激进度因子gamma(n-1)减少预设的第二步长因子△2,得到第三回声抑制激进度因子,根据第三回声抑制激进度因子确定回声抑制激进度因子,其中,可以将第三回声抑制激进度因子带入预设的函数关系式F2,得到回声抑制激进度因子。
预设的函数关系式F1和F2例如是y=ax的线性函数,a为x的系数。a可以是1、1.5、2等。
回声抑制激进度因子gamma结合回声后处理模块得到的增益G值,该增益G值计算可以采用基于维纳或者相关类的方法进行计算获得。基于增益G值对残差信号e(n)进行后处理,得到最终回声消除后的音频信号。
图2为本申请提供的回声抑制详细流程图,如图2所示,包括:
S201:获取音频采集设备采集的第一音频信号和音频输出设备输出的第二音频信号;通过线性滤波处理,确定所述第二音频信号对应的估计回声信号,根据所述第一音频信号和所述估计回声信号确定残差信号。
S202:分别对第一音频信号和第二音频信号进行语音活动检测。
S203:分别获取并根据预设的频段中每个频点各自对应的第一自功率谱、第二自功率谱和互功率谱,确定每个频点各自对应的子相似度;根据每个频点各自对应的子相似度,确定第一音频信号和所述估计回声信号的相似度。
S204:若确定第一音频信号的语音活动检测结果为未检测到语音活动,第二音频信号的语音活动检测结果为检测到语音活动,相似度小于预设的第一相似度阈值,确定音频状态信息为单讲状态信息;若确定第一音频信号和第二音频信号的语音活动检测结果均为检测到语音活动,相似度大于预设的第一相似度阈值,确定音频状态信息为双讲状态信息;若确定第二音频信号的语音活动检测结果为未检测到语音活动,确定音频状态信息为全通状态信息。
S205:确定残差信号的第三自功率谱,以及第三自功率谱与第一自功率谱的第二比值;若根据语音活动检测结果和相似度确定音频状态信息为单讲状态信息,第二比值大于预设的第二相似度阈值,将单讲状态信息修正为双讲状态信息;若根据语音活动检测结果和相似度确定音频状态信息为双讲状态信息,第三自功率谱小于预设的第三相似度阈值,将双讲状态信息修正为单讲状态信息。
S206:获取上一音频帧的第一回声抑制激进度因子;响应于音频状态信息为单讲状态信息,根据第一回声抑制激进度因子与预设的第一步长因子的和值,确定回声抑制激进度因子,响应于音频状态信息为双讲状态信息或全通状态信息,根据第一回声抑制激进度因子与预设的第二步长因子的差值,确定回声抑制激进度因子。
S207:根据回声抑制激进度因子对残差信号进行回声抑制处理。
图3为本申请提供的回声抑制装置结构示意图,该装置包括:
确定模块31,用于获取音频采集设备采集的第一音频信号和音频输出设备输出的第二音频信号;通过线性滤波处理,确定所述第二音频信号对应的估计回声信号,根据所述第一音频信号和所述估计回声信号确定残差信号;
回声抑制模块32,用于分别对所述第一音频信号和第二音频信号进行语音活动检测,并确定所述第一音频信号和所述估计回声信号的相似度;根据语音活动检测结果和所述相似度确定音频状态信息,根据所述音频状态信息确定回声抑制激进度因子,并根据所述回声抑制激进度因子对所述残差信号进行回声抑制处理。
回声抑制模块32,具体用于分别确定所述第一音频信号的第一自功率谱、所述估计回声信号的第二自功率谱和所述第一音频信号与所述估计回声信号的互功率谱,根据所述第一自功率谱、所述第二自功率谱和所述互功率谱确定所述第一音频信号和所述估计回声信号的相似度。
回声抑制模块32,具体用于分别获取并根据预设的频段中每个频点各自对应的第一自功率谱、第二自功率谱和互功率谱,确定所述每个频点各自对应的子相似度;根据所述每个频点各自对应的子相似度,确定所述第一音频信号和所述估计回声信号的相似度。
回声抑制模块32,具体用于若确定所述第一音频信号的语音活动检测结果为未检测到语音活动,所述第二音频信号的语音活动检测结果为检测到语音活动,所述相似度小于预设的第一相似度阈值,确定所述音频状态信息为单讲状态信息;若确定所述第一音频信号和第二音频信号的语音活动检测结果均为检测到语音活动,所述相似度大于所述预设的第一相似度阈值,确定所述音频状态信息为双讲状态信息;若确定所述第二音频信号的语音活动检测结果为未检测到语音活动,确定所述音频状态信息为全通状态信息。
回声抑制模块32,还用于确定所述估计回声信号的第二自功率谱与所述第一音频信号的第一自功率谱的第一比值;根据所述第一比值和预设的修正系数,确定所述预设的第一相似度阈值。
所述装置还包括:
修正模块33,用于确定所述残差信号的第三自功率谱,以及所述第三自功率谱与所述第一自功率谱的第二比值;若根据语音活动检测结果和所述相似度确定音频状态信息为单讲状态信息,所述第二比值大于预设的第二相似度阈值,将所述单讲状态信息修正为双讲状态信息;若根据语音活动检测结果和所述相似度确定音频状态信息为双讲状态信息,所述第三自功率谱小于预设的第三相似度阈值,将所述双讲状态信息修正为单讲状态信息。
回声抑制模块32,具体用于响应于所述音频状态信息为所述单讲状态信息,获取上一音频帧的第一回声抑制激进度因子;根据所述第一回声抑制激进度因子与预设的第一步长因子的和值,确定所述回声抑制激进度因子。
回声抑制模块32,具体用于响应于所述音频状态信息为所述双讲状态信息或所述全通状态信息,获取上一音频帧的第一回声抑制激进度因子;根据所述第一回声抑制激进度因子与预设的第二步长因子的差值,确定所述回声抑制激进度因子。
本申请还提供了一种电子设备,如图4所示,包括:处理器301、通信接口302、存储器303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信;
所述存储器303中存储有计算机程序,当所述程序被所述处理器301执行时,使得所述处理器301执行以上任一方法步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口302用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述处理器可以是通用处理器,包括中央处理器、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
本申请还提供了一种计算机存储可读存储介质,所述计算机可读存储介质内存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行时实现以上任一方法步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (12)
1.一种回声抑制方法,其特征在于,所述方法包括:
获取音频采集设备采集的第一音频信号和音频输出设备输出的第二音频信号;通过线性滤波处理,确定所述第二音频信号对应的估计回声信号,根据所述第一音频信号和所述估计回声信号确定残差信号;
分别对所述第一音频信号和第二音频信号进行语音活动检测,并确定所述第一音频信号和所述估计回声信号的相似度;根据语音活动检测结果和所述相似度确定音频状态信息,根据所述音频状态信息确定回声抑制激进度因子,并根据所述回声抑制激进度因子对所述残差信号进行回声抑制处理。
2.如权利要求1所述的方法,其特征在于,所述确定所述第一音频信号和所述估计回声信号的相似度包括:
分别确定所述第一音频信号的第一自功率谱、所述估计回声信号的第二自功率谱和所述第一音频信号与所述估计回声信号的互功率谱,根据所述第一自功率谱、所述第二自功率谱和所述互功率谱确定所述第一音频信号和所述估计回声信号的相似度。
3.如权利要求2所述的方法,其特征在于,所述根据所述第一自功率谱、所述第二自功率谱和所述互功率谱确定所述第一音频信号和所述估计回声信号的相似度包括:
分别获取并根据预设的频段中每个频点各自对应的第一自功率谱、第二自功率谱和互功率谱,确定所述每个频点各自对应的子相似度;
根据所述每个频点各自对应的子相似度,确定所述第一音频信号和所述估计回声信号的相似度。
4.如权利要求2所述的方法,其特征在于,所述音频状态信息包括单讲状态信息、双讲状态信息和全通状态信息中的至少一种。
5.如权利要求4所述的方法,其特征在于,所述根据语音活动检测结果和所述相似度确定音频状态信息包括:
若确定所述第一音频信号的语音活动检测结果为未检测到语音活动,所述第二音频信号的语音活动检测结果为检测到语音活动,所述相似度小于预设的第一相似度阈值,确定所述音频状态信息为单讲状态信息;
若确定所述第一音频信号和第二音频信号的语音活动检测结果均为检测到语音活动,所述相似度大于所述预设的第一相似度阈值,确定所述音频状态信息为双讲状态信息;
若确定所述第二音频信号的语音活动检测结果为未检测到语音活动,确定所述音频状态信息为全通状态信息。
6.如权利要求5所述的方法,其特征在于,所述预设的第一相似度阈值的确定过程包括:
确定所述估计回声信号的第二自功率谱与所述第一音频信号的第一自功率谱的第一比值;
根据所述第一比值和预设的修正系数,确定所述预设的第一相似度阈值。
7.如权利要求5所述的方法,其特征在于,所述音频状态信息至少包括单讲状态信息和双讲状态信息,所述根据语音活动检测结果和所述相似度确定音频状态信息之后,根据所述音频状态信息确定回声抑制激进度因子之前,所述方法还包括:
确定所述残差信号的第三自功率谱,以及所述第三自功率谱与所述第一自功率谱的第二比值;
若根据语音活动检测结果和所述相似度确定音频状态信息为单讲状态信息,所述第二比值大于预设的第二相似度阈值,将所述单讲状态信息修正为双讲状态信息;
若根据语音活动检测结果和所述相似度确定音频状态信息为双讲状态信息,所述第三自功率谱小于预设的第三相似度阈值,将所述双讲状态信息修正为单讲状态信息。
8.如权利要求4所述的方法,其特征在于,所述音频状态信息至少包括所述单讲状态信息,所述根据所述音频状态信息确定回声抑制激进度因子包括:
响应于所述音频状态信息为所述单讲状态信息,获取上一音频帧的第一回声抑制激进度因子;
根据所述第一回声抑制激进度因子与预设的第一步长因子的和值,确定所述回声抑制激进度因子。
9.如权利要求4所述的方法,其特征在于,所述音频状态信息至少包括所述双讲状态信息或所述全通状态信息,所述根据所述音频状态信息确定回声抑制激进度因子包括:
响应于所述音频状态信息为所述双讲状态信息或所述全通状态信息,获取上一音频帧的第一回声抑制激进度因子;
根据所述第一回声抑制激进度因子与预设的第二步长因子的差值,确定所述回声抑制激进度因子。
10.一种回声抑制装置,其特征在于,所述装置包括:
确定模块,用于获取音频采集设备采集的第一音频信号和音频输出设备输出的第二音频信号;通过线性滤波处理,确定所述第二音频信号对应的估计回声信号,根据所述第一音频信号和所述估计回声信号确定残差信号;
回声抑制模块,用于分别对所述第一音频信号和第二音频信号进行语音活动检测,并确定所述第一音频信号和所述估计回声信号的相似度;根据语音活动检测结果和所述相似度确定音频状态信息,根据所述音频状态信息确定回声抑制激进度因子,并根据所述回声抑制激进度因子对所述残差信号进行回声抑制处理。
11.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-9任一项所述的方法步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-9任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211061153.8A CN115440236A (zh) | 2022-08-31 | 2022-08-31 | 一种回声抑制方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211061153.8A CN115440236A (zh) | 2022-08-31 | 2022-08-31 | 一种回声抑制方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115440236A true CN115440236A (zh) | 2022-12-06 |
Family
ID=84244378
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211061153.8A Pending CN115440236A (zh) | 2022-08-31 | 2022-08-31 | 一种回声抑制方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115440236A (zh) |
-
2022
- 2022-08-31 CN CN202211061153.8A patent/CN115440236A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9558755B1 (en) | Noise suppression assisted automatic speech recognition | |
CN109767783B (zh) | 语音增强方法、装置、设备及存储介质 | |
CN109686381B (zh) | 用于信号增强的信号处理器和相关方法 | |
TWI466107B (zh) | 多麥克風之穩固雜訊抑制 | |
US9343056B1 (en) | Wind noise detection and suppression | |
JP5671147B2 (ja) | 後期残響成分のモデリングを含むエコー抑制 | |
CN111418010A (zh) | 一种多麦克风降噪方法、装置及终端设备 | |
CN108696648B (zh) | 一种短时语音信号处理的方法、装置、设备及存储介质 | |
CN110782914B (zh) | 信号处理方法、装置、终端设备及存储介质 | |
US8761410B1 (en) | Systems and methods for multi-channel dereverberation | |
CN104050971A (zh) | 声学回声减轻装置和方法、音频处理装置和语音通信终端 | |
CN113539285B (zh) | 音频信号降噪方法、电子装置和存储介质 | |
CN110556125B (zh) | 基于语音信号的特征提取方法、设备及计算机存储介质 | |
CN108922517A (zh) | 训练盲源分离模型的方法、装置及存储介质 | |
WO2020252629A1 (zh) | 残余回声检测方法、残余回声检测装置、语音处理芯片及电子设备 | |
CN112602150A (zh) | 噪声估计方法、噪声估计装置、语音处理芯片以及电子设备 | |
CN112309417A (zh) | 风噪抑制的音频信号处理方法、装置、系统和可读介质 | |
CN109215672B (zh) | 一种声音信息的处理方法、装置及设备 | |
CN112997249B (zh) | 语音处理方法、装置、存储介质及电子设备 | |
CN111028855A (zh) | 回声抑制方法、装置、设备及存储介质 | |
CN108053834B (zh) | 音频数据处理方法、装置、终端及系统 | |
CN112151060A (zh) | 单通道语音增强方法及装置、存储介质、终端 | |
CN112929506A (zh) | 音频信号的处理方法及装置,计算机存储介质及电子设备 | |
CN115440236A (zh) | 一种回声抑制方法、装置、电子设备及存储介质 | |
CN113763975B (zh) | 一种语音信号处理方法、装置及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |