CN112133299B - 一种声音信号的处理方法、装置及设备 - Google Patents

一种声音信号的处理方法、装置及设备 Download PDF

Info

Publication number
CN112133299B
CN112133299B CN201910554013.6A CN201910554013A CN112133299B CN 112133299 B CN112133299 B CN 112133299B CN 201910554013 A CN201910554013 A CN 201910554013A CN 112133299 B CN112133299 B CN 112133299B
Authority
CN
China
Prior art keywords
sound signal
current frame
signal
ratio
value corresponding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910554013.6A
Other languages
English (en)
Other versions
CN112133299A (zh
Inventor
杨晓霞
刘溪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Volkswagen Mobvoi Beijing Information Technology Co Ltd
Original Assignee
Volkswagen Mobvoi Beijing Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Volkswagen Mobvoi Beijing Information Technology Co Ltd filed Critical Volkswagen Mobvoi Beijing Information Technology Co Ltd
Priority to CN201910554013.6A priority Critical patent/CN112133299B/zh
Publication of CN112133299A publication Critical patent/CN112133299A/zh
Application granted granted Critical
Publication of CN112133299B publication Critical patent/CN112133299B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Abstract

本发明实施例公开了一种声音信号的处理方法、装置及设备,方法包括:统计预设时间段内来自于声源方向的声音信号的帧数量;根据该帧数量,确定当前帧声音信号对应的增益值;利用增益值对当前帧声音信号进行增益处理;声源方向可以理解为与设备进行交互的用户所在的方向,非声源方向产生的声音信号可以理解为干扰信号,本方案中,如果统计得到的帧数量较小,表示当前帧之前的一段时间内存在干扰信号,干扰信号是有连续性的,可以认为当前帧也存在干扰信号,这种情况下,当前帧声音信号对应的增益值较小,利用该增益值对当前帧声音信号进行增益处理,也就是对当前帧声音信号进行抑制,这样,减少了干扰信号的影响。

Description

一种声音信号的处理方法、装置及设备
技术领域
本发明涉及声音处理技术领域,特别是指一种声音信号的处理方法、装置及设备。
背景技术
一些场景中,用户可以与电子设备进行语音交互,比如,用户可以向车载设备、智能家居设备等发送语音指令,这些设备可以解析并执行该语音指令。
但是环境中通常存在干扰信号,降低设备解析语音指令的准确性。比如,车载环境中,主驾驶员向车载设备发送语音指令,另外副驾驶员还在与主驾驶员进行交谈,这种情况下,副驾驶员方向的声音信号会对车载设备产生干扰。
发明内容
有鉴于此,本发明的目的在于提出一种声音信号的处理方法、装置及设备,以降低干扰信号的影响。
基于上述目的,本发明提供了一种声音信号的处理方法,包括:
统计预设时间段内来自于声源方向的声音信号的帧数量;
根据统计得到的帧数量,确定当前帧声音信号对应的增益值;
利用所述增益值,对所述当前帧声音信号进行增益处理。
可选的,所述方法还包括:
计算当前帧声音信号在波束形成后指向每个预设方向的信号频谱;
根据所述信号频谱以及确定的声源方向,确定所述当前帧声音信号对应的抑制值;
利用所述抑制值对所述当前帧声音信号进行抑制处理,得到抑制后的当前帧声音信号;
所述利用所述增益值,对所述当前帧声音信号进行增益处理,包括:
利用所述增益值,对所述抑制后的当前帧声音信号进行增益处理。
可选的,所述根据所述信号频谱以及确定的声源方向,确定所述当前帧声音信号对应的抑制值,包括:
针对所述当前帧声音信号的每个频点,计算该频点指向所述声源方向的信号频谱与该频点指向各预设方向的信号频谱之和的比值,作为第一比值;
计算所述当前帧声音信号的各频点指向所述声源方向的信号频谱之和与所述各频点指向各预设方向的信号频谱之和的比值,作为第二比值;
计算所述第一比值和所述第二比值的乘积,作为所述当前帧声音信号的该频点对应的抑制值;
所述利用所述抑制值对所述当前帧声音信号进行抑制处理,得到抑制后的当前帧声音信号,包括:
分别计算所述当前帧声音信号的每个频点对应的抑制值与该频点指向声源方向的信号频谱的乘积,作为抑制后的当前帧声音信号的频谱。
可选的,所述根据所述信号频谱以及确定的声源方向,确定所述当前帧声音信号对应的抑制值,包括:
利用如下算式,计算所述当前帧声音信号对应的抑制值:
Figure GDA0003135772220000021
其中,i表示帧序号,j表示频点的序号,第i帧为当前帧,
Figure GDA0003135772220000022
表示第i帧第j个频点指向声源方向的信号频谱,
Figure GDA0003135772220000023
分别表示第i帧第j个频点指向n个预设方向的信号频谱,n为大于1的正整数。声源方向可以为n个预设方向中的一个方向,也就是说,
Figure GDA0003135772220000024
可以为
Figure GDA0003135772220000025
中的一个。
所述利用所述抑制值对所述当前帧声音信号进行抑制处理,得到抑制后的当前帧声音信号,包括:
利用如下算式,计算抑制后的当前帧声音信号:
Figure GDA0003135772220000026
可选的,所述根据统计得到的帧数量,确定当前帧声音信号对应的增益值,包括:
计算所述帧数量与所述预设时间段内声音信号帧的总数量的比值,作为第三比值;
根据预先设定的比值与增益值的对应关系,确定所述第三比值对应的增益值,作为当前帧声音信号对应的增益值。
可选的,所述根据预先设定的比值与增益值的对应关系,确定所述第三比值对应的增益值,作为当前帧声音信号对应的增益值,包括:
若第三比值不小于80%,则当前帧声音信号对应的增益值为1;
若第三比值小于80%且不小于30%,则当前帧声音信号对应的增益值为所述当前帧声音信号的上一帧声音信号对应的增益值;
若第三比值小于30%,则当前帧声音信号对应的增益值为所述当前帧声音信号的上一帧声音信号对应的增益值与确定的平滑因子的乘积。
可选的,所述平滑因子的确定方式包括:
计算所述当前帧声音信号的上一帧声音信号对应的增益值与预设值的比值,作为第四比值,所述预设值为小于1;
确定所述第四比值对应的平滑因子。
基于上述目的,本发明提供了一种声音信号的处理装置,包括:
统计模块,用于统计预设时间段内来自于声源方向的声音信号的帧数量;
第一确定模块,用于根据统计得到的帧数量,确定当前帧声音信号对应的增益值;
增益模块,用于利用所述增益值,对所述当前帧声音信号进行增益处理。
可选的,所述装置还包括:
计算模块,用于计算当前帧声音信号在波束形成后指向每个预设方向的信号频谱;
第二确定模块,用于根据所述信号频谱以及确定的声源方向,确定所述当前帧声音信号对应的抑制值;
抑制模块,用于利用所述抑制值对所述当前帧声音信号进行抑制处理,得到抑制后的当前帧声音信号;
所述增益模块,具体用于:
利用所述增益值,对所述抑制后的当前帧声音信号进行增益处理。
可选的,所述第二确定模块,具体用于:
针对所述当前帧声音信号的每个频点,计算该频点指向所述声源方向的信号频谱与该频点指向各预设方向的信号频谱之和的比值,作为第一比值;
计算所述当前帧声音信号的各频点指向所述声源方向的信号频谱之和与所述各频点指向各预设方向的信号频谱之和的比值,作为第二比值;
计算所述第一比值和所述第二比值的乘积,作为所述当前帧声音信号的该频点对应的抑制值;
所述抑制模块,具体用于:
分别计算所述当前帧声音信号的每个频点对应的抑制值与该频点指向声源方向的信号频谱的乘积,作为抑制后的当前帧声音信号的频谱。
可选的,所述第二确定模块,具体用于:
利用如下算式,计算所述当前帧声音信号对应的抑制值:
Figure GDA0003135772220000041
其中,i表示帧序号,j表示频点的序号,第i帧为当前帧,
Figure GDA0003135772220000042
表示第i帧第j个频点指向声源方向的信号频谱,
Figure GDA0003135772220000043
分别表示第i帧第j个频点指向n个预设方向的信号频谱,n为大于1的正整数;
所述抑制模块,具体用于:
利用如下算式,计算抑制后的当前帧声音信号:
Figure GDA0003135772220000044
可选的,所述第一确定模块,包括:
计算子模块,用于计算所述帧数量与所述预设时间段内声音信号帧的总数量的比值,作为第三比值;
确定子模块,用于根据预先设定的比值与增益值的对应关系,确定所述第三比值对应的增益值,作为当前帧声音信号对应的增益值。
可选的,所述确定子模块,具体用于:
若第三比值不小于80%,则当前帧声音信号对应的增益值为1;
若第三比值小于80%且不小于30%,则当前帧声音信号对应的增益值为所述当前帧声音信号的上一帧声音信号对应的增益值;
若第三比值小于30%,则当前帧声音信号对应的增益值为所述当前帧声音信号的上一帧声音信号对应的增益值与确定的平滑因子的乘积。
可选的,所述装置还包括:
第三确定模块,用于利用如下方式确定所述平滑因子:
计算所述当前帧声音信号的上一帧声音信号对应的增益值与预设值的比值,作为第四比值,所述预设值为小于1;确定所述第四比值对应的平滑因子。
基于上述目的,本发明提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任意一种声音信号的处理方法。
本发明所示实施例中,声源方向可以理解为与设备进行交互的用户所在的方向,非声源方向产生的声音信号可以理解为干扰信号,本方案中根据一段时间内来自于声源方向的声音信号的帧数量,确定当前帧声音信号对应的增益值,如果统计得到的数量较小,表示当前帧之前的一段时间内存在干扰信号,干扰信号是有连续性的,可以认为当前帧也存在干扰信号,这种情况下,当前帧声音信号对应的增益值较小,利用该增益值对当前帧声音信号进行增益处理,也就是对当前帧声音信号进行抑制,这样,减少了干扰信号的影响。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的声音信号的处理方法的第一种流程示意图;
图2为本发明实施例提供的一种抑制处理流程示意图;
图3为本发明实施例提供的声音信号的处理方法的第二种流程示意图;
图4为本发明实施例提供的一种具体实施方式的示意图;
图5为本发明实施例提供的一种声音信号的处理装置的结构示意图;
图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
为了解决上述技术问题,本发明实施例提供了一种声音信号的处理方法、装置及设备,该方法及装置可以应用于各种电子设备,比如车载设备,或者智能家居设备,或者声音采集设备等,具体不做限定。下面首先对发明实施例提供的声音信号的处理方法进行介绍。
图1为本发明实施例提供的声音信号的处理方法的第一种流程示意图,包括:
S101:统计预设时间段内来自于声源方向的声音信号的帧数量。
举例来说,执行本方案的电子设备(执行主体,以下简称为本电子设备)可以与用户进行语音交互,或者说进行对话,在对话过程中,声源方向即为用户所在的方向。一种情况下,一次对话过程中可以确定一次声源方向,并认为对话过程中的声源方向不变。
一种实施方式中,本电子设备可以针对获取到的每帧声音信号,判断该帧声音信号是否来自于声源方向,并将判断结果保存至预设缓存中;这样,对当前帧声音信号进行处理时,可以根据预设缓存中保存的判断结果,统计预设时间段内来自于声源方向的声音信号的帧数量。
该预设时间段可以包括当前帧及其之前的一段时间;或者,该预设时间段可以为当前帧之前的一段时间;换句话说,该预设时间段可以包括当前帧所属时刻,或者该预设时间段与当前帧所属时刻间隔较小,这样,该预设时间段内采集的声音信号与当前帧声音信号之间存在连续性。
举例来说,本电子设备中可以内置声音采集模块,通过该声音采集模块采集多路声音信号;或者,本电子设备可以与其他声音采集设备通信连接,获取该声音采集设备采集的多路声音信号。该声音采集模块或者声音采集设备可以为麦克风阵列,麦克风阵列可以采集得到多路声音信号(一个麦克风可以采集得到一路声音信号),该麦克风阵列可以为圆形的阵列、或者线性的阵列等等,麦克风阵列的具体阵列形状不做限定。
以对当前帧声音信号的处理过程为例进行说明,当前帧声音信号为多路声音信号,可以通过DOA(Direction of Arrival,声源方向到达)估计的方式,来对当前帧声音信号进行声源定位。判断定位结果与上述内容中确定的声源方向(用户所在的方向)是否相同,也就是判断当前帧声音信号是否来自于声源方向。如果判断结果为是,则可以设置flag=1,如果判断结果为否,则可以设置flag=0,flag表示标记位,将flag保存至预设缓存中。预设缓存可以为一个长度为L的Buffer(缓存区),其中,L表示Buffer对应的声音信号的帧数量,换句话说,Buffer中存储L帧声音信号的flag。举例来说,Buffer中可以保存帧序号为[i,i-1,i-2……i-L+1]的声音信号的flag值,i可以认为是当前帧声音信号的帧序号。
这个例子中,可以统计Buffer中flag=1的帧数量,也就是统计包括当前帧在内的L帧声音信号(当前帧信号及其之前的L-1帧声音信号)中,来自于声源方向的声音信号的帧数量。
S102:根据统计得到的帧数量,确定当前帧声音信号对应的增益值。
举例来说,S101中统计得到的帧数量越大,则S102中确定的增益值越大,S101中统计得到的帧数量越小,则S102中确定的增益值越小。可以预先设定帧数量与增益值之间的对应关系,根据该对应关系确定S101中统计得到的帧数量对应的增益值,作为当前帧声音信号对应的增益值。
一种实施方式中,S102可以包括:计算所述帧数量与所述预设时间段内声音信号帧的总数量的比值,作为第三比值;根据预先设定的比值与增益值的对应关系,确定所述第三比值对应的增益值,作为当前帧声音信号对应的增益值。
本实施方式中,第三比值越大,则当前帧声音信号对应的增益值越大,第三比值越小,则当前帧声音信号对应的增益值越小。延续上述例子,统计Buffer中flag=1的帧数量,第三比值=帧数量/L。
上述“比值与增益值的对应关系”可以根据实际情况进行设定,一种实施方式中,该对应关系可以包括:若第三比值不小于80%,则当前帧声音信号对应的增益值为1;若第三比值小于80%且不小于30%,则当前帧声音信号对应的增益值为所述当前帧声音信号的上一帧声音信号对应的增益值;若第三比值小于30%,则当前帧声音信号对应的增益值为所述当前帧声音信号的上一帧声音信号对应的增益值与确定的平滑因子的乘积。
本实施方式中,该对应关系还可以表示为:
Figure GDA0003135772220000071
其中,
Figure GDA0003135772220000072
表示当前帧声音信号对应的增益值,
Figure GDA0003135772220000073
表示当前帧的上一帧声音信号对应的增益值,ρ表示第三比值,α表示平滑因子。
举例来说,一种实施方式中,α可以为预设值,或者,另一种实施方式中,可以采用如下方式确定平滑因子α:计算所述当前帧声音信号的上一帧声音信号对应的增益值与预设值的比值,作为第四比值,所述预设值为小于1;确定所述第四比值对应的平滑因子。
本实施方式中,可以预先设定比值与平滑因子α的对应关系,举例来说,该对应关系可以表示为:
Figure GDA0003135772220000081
gmin表示上述预设值,gmin根据实际情况进行设定,比如可以为0.3,或者也可以为其他小于0.5的数值,或者也可以为小于1的数值,
Figure GDA0003135772220000082
表示上述第四比值。
Figure GDA0003135772220000083
gmin可以理解为最小的增益值。
本实施方式中,确定增益值的过程中引入平滑因子,也就是在增益过程中进行平滑处理,这样使得各帧声音信号之间保持连续性,减少了失真的情况。
S103:利用该增益值,对当前帧声音信号进行增益处理。
一种实施方式中,可以直接对当前帧声音信号进行增益处理。
另一种实施方式中,可以先对当前帧声音信号进行语音增强处理,然后再利用该增益值,对语音增强处理后的当前帧声音信号进行增益处理。比如,可以对当前帧声音信号进行回声抑制、噪声抑制等处理,或者,也可以利用波束成形算法,对当前帧声音信号进行语音增强处理。
作为一种实施方式,可以计算当前帧声音信号在波束形成后指向每个预设方向的信号频谱;根据所述信号频谱以及确定的声源方向,确定所述当前帧声音信号对应的抑制值;利用所述抑制值对所述当前帧声音信号进行抑制处理,得到抑制后的当前帧声音信号;这种实施方式中,S103可以包括:利用所述增益值,对所述抑制后的当前帧声音信号进行增益处理。
如上所述,声源方向可以理解为用户所在的方向,本实施方式中的“预设方向”可以理解为预先设定的用户可能在的方向。比如,车载场景中,声源方向可能为主驾方向(主驾驶员所在方向),也可能为副驾方向(副驾驶员所在方向),这种情况下,预设方向可以包括主驾方向和副驾方向。
举例来说,可以利用固定波束成形算法,计算当前帧声音信号在波束形成后指向每个预设方向的信号频谱;计算指向声源方向的信号频谱与指向各预设方向的信号频谱之和的比值,将该比值作为抑制值。
应用本实施方式对当前帧声音信号进行抑制处理,抑制声音信号中的干扰信号,也可以理解为一种语音增强处理方式。
一种实施方式中,根据所述信号频谱以及确定的声源方向,确定所述当前帧声音信号对应的抑制值,可以包括:
针对所述当前帧声音信号的每个频点,计算该频点指向所述声源方向的信号频谱与该频点指向各预设方向的信号频谱之和的比值,作为第一比值;
计算所述当前帧声音信号的各频点指向所述声源方向的信号频谱之和与所述各频点指向各预设方向的信号频谱之和的比值,作为第二比值;
计算所述第一比值和所述第二比值的乘积,作为所述当前帧声音信号的该频点对应的抑制值。
本实施方式中,可以利用如下算式,计算当前帧声音信号对应的抑制值:
Figure GDA0003135772220000091
其中,i表示帧序号,j表示频点的序号,第i帧为当前帧,
Figure GDA0003135772220000092
表示第i帧第j个频点指向声源方向的信号频谱,
Figure GDA0003135772220000093
分别表示第i帧第j个频点指向n个预设方向的信号频谱,n为大于1的正整数。声源方向可以为n个预设方向中的一个方向,也就是说,
Figure GDA0003135772220000094
可以为
Figure GDA0003135772220000095
中的一个。
本实施方式中,利用所述抑制值对所述当前帧声音信号进行抑制处理,得到抑制后的当前帧声音信号,可以包括:分别计算所述当前帧声音信号的每个频点对应的抑制值与该频点指向声源方向的信号频谱的乘积,作为抑制后的当前帧声音信号的频谱。
可以利用如下算式,计算抑制后的当前帧声音信号:
Figure GDA0003135772220000096
上述算式中存在n个预设方向,以车载场景为例来说,可以存在两个预设方向,一个方向为主驾驶员所在方向,以下简称为主驾方向,另一个方向可以为副驾驶员所在方向,以下简称为副驾方向。假设通过两路麦克风采集到两路声音信号,这两路声音信号的第i帧第j个频点处的信号频谱分别为r1 ij和r2 i,j,将r1 i,j和r2 i,j分别做指向主驾方向的固定波束形成和指向副驾方向的固定波束形成,得到指向主驾方向的信号频谱si,j driver和指向副驾方向的信号频谱si,j co-driver,可以利用如下算式计算当前帧声音信号对应的抑制值:
Figure GDA0003135772220000101
上式中,“desired direction”表示期望方向,也就是上述内容中所说的声源方向,“driver direction”表示主驾方向,“co-driver direction”表示副驾方向,“if thedesired direction is driver direction”表示“如果声源方向为主驾方向”,“if thedesired direction is co-driver direction”表示“如果声源方向为副驾方向”。
然后,可以利用如下算式,计算抑制后的当前帧声音信号:
Figure GDA0003135772220000102
上式中,“if the desired direction is driver direction”表示“如果声源方向为主驾方向”,“if the desired direction is co-driver direction”表示“如果声源方向为副驾方向”。
参考图2,以两路麦克风为例来说,对这两路麦克风采集的两路声音信号分别做指向主驾方向的fixed BF(固定波束成形)和指向副驾方向的fixed BF,假设指向主驾方向的fixed BF后输出的信号频谱为si,j driver,指向副驾方向的fixed BF后输出的信号频谱为si,j co-driver。利用计算得到的抑制值
Figure GDA0003135772220000111
对输出的这两种信号频谱进行抑制处理,得到抑制后的当前帧声音信号
Figure GDA0003135772220000112
该抑制值能够抑制频谱中非声源方向的声音信号,非声源方向产生的声音信号可以理解为干扰信号,因此,应用本实施方式可以起到对干扰信号的抑制作用。
利用上述得到的增益值
Figure GDA0003135772220000113
对抑制后的当前帧声音信号
Figure GDA0003135772220000114
进行增益处理,得到处理结果:
Figure GDA0003135772220000115
应用本发明所示实施例,第一方面,声源方向可以理解为与设备进行交互的用户所在的方向,非声源方向产生的声音信号可以理解为干扰信号,本方案中,根据一段时间内来自于声源方向的声音信号的帧数量,确定当前帧声音信号对应的增益值,如果统计得到的数量较小,表示当前帧之前的一段时间内存在干扰信号,干扰信号是有连续性的,可以认为当前帧也存在干扰信号,这种情况下,当前帧声音信号对应的增益值较小,利用该增益值对当前帧声音信号进行增益处理,也就是对当前帧声音信号进行抑制,这样,减少了干扰信号的影响。第二方面,根据当前帧声音信号在波束形成后指向每个预设方向的信号频谱以及确定的声源方向,确定当前帧声音信号对应的抑制值,利用该抑制值对当前帧声音信号进行抑制处理,这样可以起到对干扰信号的抑制作用,进一步减少了干扰信号的影响。第三方面,确定增益值的过程中引入平滑因子,也就是在增益过程中进行平滑处理,这样使得各帧声音信号之间保持连续性,减少了失真的情况。
图3为本发明实施例提供的声音信号的处理方法的第二种流程示意图,包括:
S301:统计预设时间段内来自于声源方向的声音信号的帧数量;计算该帧数量与该预设时间段内声音信号帧的总数量的比值,作为第三比值;根据预先设定的比值与增益值的对应关系,确定第三比值对应的增益值,作为当前帧声音信号对应的增益值。
举例来说,执行本方案的电子设备(执行主体,以下简称为本电子设备)可以与用户进行语音交互,或者说进行对话,在对话过程中,声源方向即为用户所在的方向。一种情况下,一次对话过程中可以确定一次声源方向,并认为对话过程中的声源方向不变。
一种实施方式中,本电子设备可以针对获取到的每帧声音信号,判断该帧声音信号是否来自于声源方向,并将判断结果保存至预设缓存中;这样,对当前帧声音信号进行处理时,可以根据预设缓存中保存的判断结果,统计预设时间段内来自于声源方向的声音信号的帧数量。
该预设时间段可以包括当前帧及其之前的一段时间;或者,该预设时间段可以为当前帧之前的一段时间;换句话说,该预设时间段可以包括当前帧所属时刻,或者该预设时间段与当前帧所属时刻间隔较小,这样,该预设时间段内采集的声音信号与当前帧声音信号之间存在连续性。
举例来说,本电子设备中可以内置声音采集模块,通过该声音采集模块采集多路声音信号;或者,本电子设备可以与其他声音采集设备通信连接,获取该声音采集设备采集的多路声音信号。该声音采集模块或者声音采集设备可以为麦克风阵列,麦克风阵列可以采集得到多路声音信号(一个麦克风可以采集得到一路声音信号),该麦克风阵列可以为圆形的阵列、或者线性的阵列等等,麦克风阵列的具体阵列形状不做限定。
以对当前帧声音信号的处理过程为例进行说明,当前帧声音信号为多路声音信号,可以通过DOA(Direction of Arrival,声源方向到达)估计的方式,来对当前帧声音信号进行声源定位。判断定位结果与上述内容中确定的声源方向(用户所在的方向)是否相同,也就是判断当前帧声音信号是否来自于声源方向。如果判断结果为是,则可以设置flag=1,如果判断结果为否,则可以设置flag=0,flag表示标记位,将flag保存至预设缓存中。预设缓存可以为一个长度为L的Buffer(缓存区),其中,L表示Buffer对应的声音信号的帧数量,换句话说,Buffer中存储L帧声音信号的flag。举例来说,Buffer中可以保存帧序号为[i,i-1,i-2……i-L+1]的声音信号的flag值,i可以认为是当前帧声音信号的帧序号。
这个例子中,可以统计Buffer中flag=1的帧数量,也就是统计包括当前帧在内的L帧声音信号(当前帧信号及其之前的L-1帧声音信号)中,来自于声源方向的声音信号的帧数量。然后计算第三比值=帧数量/L。
上述“比值与增益值的对应关系”可以根据实际情况进行设定,一种实施方式中,该对应关系可以包括:若第三比值不小于80%,则当前帧声音信号对应的增益值为1;若第三比值小于80%且不小于30%,则当前帧声音信号对应的增益值为所述当前帧声音信号的上一帧声音信号对应的增益值;若第三比值小于30%,则当前帧声音信号对应的增益值为所述当前帧声音信号的上一帧声音信号对应的增益值与确定的平滑因子的乘积。
本实施方式中,该对应关系还可以表示为:
Figure GDA0003135772220000131
其中,
Figure GDA0003135772220000132
表示当前帧声音信号对应的增益值,
Figure GDA0003135772220000133
表示当前帧的上一帧声音信号对应的增益值,ρ表示第三比值,α表示平滑因子。
举例来说,一种实施方式中,α可以为预设值,或者,另一种实施方式中,可以采用如下方式确定平滑因子α:计算所述当前帧声音信号的上一帧声音信号对应的增益值与预设值的比值,作为第四比值,所述预设值为小于1;确定所述第四比值对应的平滑因子。
本实施方式中,可以预先设定比值与平滑因子α的对应关系,举例来说,该对应关系可以表示为:
Figure GDA0003135772220000134
gmin表示上述预设值,gmin根据实际情况进行设定,比如可以为0.3,或者也可以为其他小于0.5的数值,或者也可以为小于1的数值,
Figure GDA0003135772220000135
表示上述第四比值。
Figure GDA0003135772220000136
gmin可以理解为最小的增益值。
本实施方式中,确定增益值的过程中引入平滑因子,也就是在增益过程中进行平滑处理,这样使得各帧声音信号之间保持连续性,减少了失真的情况。
S302:计算当前帧声音信号在波束形成后指向每个预设方向的信号频谱;根据该信号频谱以及确定的声源方向,确定当前帧声音信号对应的抑制值;利用该抑制值对当前帧声音信号进行抑制处理,得到抑制后的当前帧声音信号。
S301可以理解为对当前帧声音信号进行MBF(multi-beamforming,多波束固定成形)处理。举例来说,可以利用固定波束成形算法,计算当前帧声音信号在波束形成后指向每个预设方向的信号频谱。
如上所述,声源方向可以理解为用户所在的方向,本实施方式中的“预设方向”可以理解为预先设定的用户可能在的方向。比如,车载场景中,声源方向可能为主驾方向(主驾驶员所在方向),也可能为副驾方向(副驾驶员所在方向),这种情况下,预设方向可以包括主驾方向和副驾方向。
一种实施方式中,可以针对所述当前帧声音信号的每个频点,计算该频点指向所述声源方向的信号频谱与该频点指向各预设方向的信号频谱之和的比值,作为第一比值;计算所述当前帧声音信号的各频点指向所述声源方向的信号频谱之和与所述各频点指向各预设方向的信号频谱之和的比值,作为第二比值;计算所述第一比值和所述第二比值的乘积,作为所述当前帧声音信号的该频点对应的抑制值。
本实施方式中,可以利用如下算式,计算当前帧声音信号对应的抑制值:
Figure GDA0003135772220000141
其中,i表示帧序号,j表示频点的序号,第i帧为当前帧,
Figure GDA0003135772220000142
表示第i帧第j个频点指向声源方向的信号频谱,
Figure GDA0003135772220000143
分别表示第i帧第j个频点指向n个预设方向的信号频谱,n为大于1的正整数。声源方向可以为n个预设方向中的一个方向,也就是说,
Figure GDA0003135772220000144
可以为
Figure GDA0003135772220000145
中的一个。
本实施方式中,可以分别计算所述当前帧声音信号的每个频点对应的抑制值与该频点指向声源方向的信号频谱的乘积,作为抑制后的当前帧声音信号的频谱。
可以利用如下算式,计算抑制后的当前帧声音信号:
Figure GDA0003135772220000146
上述算式中存在n个预设方向,以车载场景为例来说,可以存在两个预设方向,一个方向为主驾驶员所在方向,以下简称为主驾方向,另一个方向可以为副驾驶员所在方向,以下简称为副驾方向。假设通过两路麦克风采集到两路声音信号,这两路声音信号的第i帧第j个频点处的信号频谱分别为r1 ij和r2 i,j,将r1 i,j和r2 i,j分别做指向主驾方向的固定波束形成和指向副驾方向的固定波束形成,得到指向主驾方向的信号频谱si,j driver和指向副驾方向的信号频谱si,j co-driver,可以利用如下算式计算当前帧声音信号对应的抑制值:
Figure GDA0003135772220000151
上式中,“desired direction”表示期望方向,也就是上述内容中所说的声源方向,“driver direction”表示主驾方向,“co-driver direction”表示副驾方向,“if thedesired direction is driver direction”表示“如果声源方向为主驾方向”,“if thedesired direction is co-driver direction”表示“如果声源方向为副驾方向”。
然后,可以利用如下算式,计算抑制后的当前帧声音信号:
Figure GDA0003135772220000152
上式中,“if the desired direction is driver direction”表示“如果声源方向为主驾方向”,“if the desired direction is co-driver direction”表示“如果声源方向为副驾方向”。
参考图2,以两路麦克风为例来说,对这两路麦克风采集的两路声音信号分别做指向主驾方向的fixed BF(固定波束成形)和指向副驾方向的fixed BF,假设指向主驾方向的fixed BF后输出的信号频谱为si,j driver,指向副驾方向的fixed BF后输出的信号频谱为si,j co-driver。利用计算得到的抑制值
Figure GDA0003135772220000161
对输出的这两种信号频谱进行抑制处理,得到抑制后的当前帧声音信号
Figure GDA0003135772220000162
该抑制值能够抑制频谱中非声源方向的声音信号,非声源方向产生的声音信号可以理解为干扰信号,因此,应用本实施方式可以起到对干扰信号的抑制作用。
S301与S302的执行顺序不做限定。
S303:利用该增益值,对抑制后的当前帧声音信号进行增益处理。
利用上述得到的增益值
Figure GDA0003135772220000163
对抑制后的当前帧声音信号
Figure GDA0003135772220000164
进行增益处理,得到处理结果:
Figure GDA0003135772220000165
应用本发明所示实施例,第一方面,声源方向可以理解为与设备进行交互的用户所在的方向,非声源方向产生的声音信号可以理解为干扰信号,本方案中,根据一段时间内来自于声源方向的声音信号的帧数量,确定当前帧声音信号对应的增益值,如果统计得到的数量较小,表示当前帧之前的一段时间内存在干扰信号,干扰信号是有连续性的,可以认为当前帧也存在干扰信号,这种情况下,当前帧声音信号对应的增益值较小,利用该增益值对当前帧声音信号进行增益处理,也就是对当前帧声音信号进行抑制,这样,减少了干扰信号的影响。第二方面,根据当前帧声音信号在波束形成后指向每个预设方向的信号频谱以及确定的声源方向,确定当前帧声音信号对应的抑制值,利用该抑制值对当前帧声音信号进行抑制处理,这样可以起到对干扰信号的抑制作用,进一步减少了干扰信号的影响。第三方面,确定增益值的过程中引入平滑因子,也就是在增益过程中进行平滑处理,这样使得各帧声音信号之间保持连续性,减少了失真的情况。
下面参考图4介绍一种具体的实施方式:
车载设备可以包括声源定位模块、多波束成形模块和增益模块,其中:
声源定位模块,用于基于麦克风阵列采集的多路声音信号确定声源方向。
举例来说,车载设备可以与用户进行语音交互,或者说进行对话,在对话过程中,声源方向即为用户所在的方向,声源方向可以为主驾方向或者副驾方向。一种情况下,一次对话过程中可以确定一次声源方向,并认为对话过程中的声源方向不变。
举例来说,声源定位模块可以采用DOA估计的方式,对麦克风阵列采集的多路声音信号进行解析,从而确定声源方向;或者声源定位模块可以先对多路声音信号进行语音增强处理,再采用DOA估计的方式,对语音增强处理后的多路声音信号进行解析,从而确定声源方向。声源定位模块确定声源方向的具体方式不做限定。
声源定位模块可以针对获取到的每帧声音信号,判断该帧声音信号是否来自于声源方向,并将判断结果保存至预设缓存中。
以对当前帧声音信号的处理过程为例进行说明,当前帧声音信号为多路声音信号,声源定位模块可以通过DOA估计的方式,来对当前帧声音信号进行声源定位。判断定位结果与上述内容中确定的声源方向(用户所在的方向)是否相同,也就是判断当前帧声音信号是否来自于声源方向。如果判断结果为是,则可以设置flag=1,如果判断结果为否,则可以设置flag=0,将flag保存至预设缓存中。预设缓存可以为一个长度为L的Buffer,举例来说,Buffer中可以保存帧序号为[i,i-1,i-2……i-L+1]的声音信号的flag值,i可以认为是当前帧声音信号的帧序号。
多波束成形模块,用于对每帧声音信号进行抑制处理。
比如,参考图2,以两路麦克风为例来说,多波束成形模块对这两路麦克风采集的两路声音信号分别做指向主驾方向的fixed BF(固定波束成形)和指向副驾方向的fixedBF,假设指向主驾方向的fixed BF后输出的信号频谱为si,j driver,指向副驾方向的fixed BF后输出的信号频谱为si,j co-driver
多波束成形模块可以利用如下算式,计算每帧声音信号对应的抑制值gi,j MFB
Figure GDA0003135772220000181
上式中,“desired direction”表示期望方向,也就是声源定位模块确定出的声源方向,“driver direction”表示主驾方向,“co-driver direction”表示副驾方向,“if thedesired direction is driver direction”表示“如果声源方向为主驾方向”,“if thedesired direction is co-driver direction”表示“如果声源方向为副驾方向”。
多波束成形模块可以利用如下算式,计算抑制后的声音信号:
Figure GDA0003135772220000182
上式中,“if the desired direction is driver direction”表示“如果声源方向为主驾方向”,“if the desired direction is co-driver direction”表示“如果声源方向为副驾方向”。
该抑制值能够抑制频谱中非声源方向的声音信号,非声源方向产生的声音信号可以理解为干扰信号,因此,应用本实施方式可以起到对干扰信号的抑制作用。
增益模块,用于统计预设时间段内来自于声源方向的声音信号的帧数量;根据统计得到的帧数量,确定当前帧声音信号对应的增益值;利用所述增益值,对所述当前帧声音信号进行增益处理。
举例来说,增益模块可以统计Buffer中flag=1的帧数量,也就是统计包括当前帧在内的L帧声音信号(当前帧信号及其之前的L-1帧声音信号)中,来自于声源方向的声音信号的帧数量,然后,计算ρ=帧数量/L。
然后利用如下算式,确定当前帧声音信号对应的增益值
Figure GDA0003135772220000191
Figure GDA0003135772220000192
其中,
Figure GDA0003135772220000193
表示当前帧的上一帧声音信号对应的增益值α表示平滑因子。
可以预先设定比值与平滑因子α的对应关系,举例来说,该对应关系可以表示为:
Figure GDA0003135772220000194
gmin为小于1的数值,或者也可以为小于0.5的数值,gmin根据实际情况进行设定,比如可以为0.3,
Figure GDA0003135772220000195
gmin可以理解为最小的增益值。
利用上述得到的增益值
Figure GDA0003135772220000196
对抑制后的当前帧声音信号
Figure GDA0003135772220000197
进行增益处理,得到处理结果:
Figure GDA0003135772220000198
一些车载场景中存在两个麦克风,这种车载场景可以称为双麦车载场景,在这种场景中如果采用现有的波束形成算法对声音信号进行语音增强处理,干扰信号的影响较强。
应用本实施方式可以减少干扰信号的影响,比如,如果主驾驶员在与车载设备的对话过程中,声源定位模块确定声源方向为主驾方向,则应用本实施方式可以对来自副驾方向的声音信号进行抑制,减少了干扰信号的影响。而且对声音信号进行平滑处理,这样使得各帧声音信号之间保持连续性,减少了失真的情况。
与上述方法实施例相对应,本发明例还提供了一种声音信号的处理装置,如图5所示,包括:
统计模块501,用于统计预设时间段内来自于声源方向的声音信号的帧数量;
第一确定模块502,用于根据统计得到的帧数量,确定当前帧声音信号对应的增益值;
增益模块503,用于利用所述增益值,对所述当前帧声音信号进行增益处理。
作为一种实施方式,所述装置还包括:计算模块、第二确定模块和抑制模块(图中未示出),其中,
计算模块,用于计算当前帧声音信号在波束形成后指向每个预设方向的信号频谱;
第二确定模块,用于根据所述信号频谱以及确定的声源方向,确定所述当前帧声音信号对应的抑制值;
抑制模块,用于利用所述抑制值对所述当前帧声音信号进行抑制处理,得到抑制后的当前帧声音信号;
增益模块503具体用于:
利用所述增益值,对所述抑制后的当前帧声音信号进行增益处理。
作为一种实施方式,第二确定模块,具体用于:
针对所述当前帧声音信号的每个频点,计算该频点指向所述声源方向的信号频谱与该频点指向各预设方向的信号频谱之和的比值,作为第一比值;
计算所述当前帧声音信号的各频点指向所述声源方向的信号频谱之和与所述各频点指向各预设方向的信号频谱之和的比值,作为第二比值;
计算所述第一比值和所述第二比值的乘积,作为所述当前帧声音信号的该频点对应的抑制值;
所述抑制模块,具体用于:
分别计算所述当前帧声音信号的每个频点对应的抑制值与该频点指向声源方向的信号频谱的乘积,作为抑制后的当前帧声音信号的频谱。
作为一种实施方式,所述第二确定模块,具体用于:
利用如下算式,计算所述当前帧声音信号对应的抑制值:
Figure GDA0003135772220000211
其中,i表示帧序号,j表示频点的序号,第i帧为当前帧,
Figure GDA0003135772220000212
表示第i帧第j个频点指向声源方向的信号频谱,
Figure GDA0003135772220000213
分别表示第i帧第j个频点指向n个预设方向的信号频谱,n为大于1的正整数;
所述抑制模块,具体用于:
利用如下算式,计算抑制后的当前帧声音信号:
Figure GDA0003135772220000214
作为一种实施方式,第一确定模块502可以包括:计算子模块和确定子模块(图中未示出),其中,
计算子模块,用于计算所述帧数量与所述预设时间段内声音信号帧的总数量的比值,作为第三比值;
确定子模块,用于根据预先设定的比值与增益值的对应关系,确定所述第三比值对应的增益值,作为当前帧声音信号对应的增益值。
作为一种实施方式,所述确定子模块,具体用于:
若第三比值不小于80%,则当前帧声音信号对应的增益值为1;
若第三比值小于80%且不小于30%,则当前帧声音信号对应的增益值为所述当前帧声音信号的上一帧声音信号对应的增益值;
若第三比值小于30%,则当前帧声音信号对应的增益值为所述当前帧声音信号的上一帧声音信号对应的增益值与确定的平滑因子的乘积。
作为一种实施方式,所述装置还包括:
第三确定模块(图中未示出),用于利用如下方式确定所述平滑因子:
计算所述当前帧声音信号的上一帧声音信号对应的增益值与预设值的比值,作为第四比值,所述预设值为小于1;确定所述第四比值对应的平滑因子。
上述实施例的装置用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
本发明实施例还提供一种电子设备,如图6所示,包括存储器602、处理器601及存储在存储器602上并可在处理器601上运行的计算机程序,处理器601执行所述程序时实现上述任一种声音信号的处理方法。
本发明实施例还提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行上述任一种声音信号的处理方法。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本发明难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本发明难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本发明的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (13)

1.一种声音信号的处理方法,其特征在于,包括:
统计预设时间段内来自于声源方向的声音信号的帧数量;
根据统计得到的帧数量,确定当前帧声音信号对应的增益值;
利用所述增益值,对所述当前帧声音信号进行增益处理;
所述根据统计得到的帧数量,确定当前帧声音信号对应的增益值,包括:计算所述帧数量与所述预设时间段内声音信号帧的总数量的比值,作为第三比值,根据预先设定的比值与增益值的对应关系,确定所述第三比值对应的增益值,作为当前帧声音信号对应的增益值。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
计算当前帧声音信号在波束形成后指向每个预设方向的信号频谱;
根据所述信号频谱以及确定的声源方向,确定所述当前帧声音信号对应的抑制值;
利用所述抑制值对所述当前帧声音信号进行抑制处理,得到抑制后的当前帧声音信号;
所述利用所述增益值,对所述当前帧声音信号进行增益处理,包括:
利用所述增益值,对所述抑制后的当前帧声音信号进行增益处理。
3.根据权利要求2所述的方法,其特征在于,所述根据所述信号频谱以及确定的声源方向,确定所述当前帧声音信号对应的抑制值,包括:
针对所述当前帧声音信号的每个频点,计算该频点指向所述声源方向的信号频谱与该频点指向各预设方向的信号频谱之和的比值,作为第一比值;
计算所述当前帧声音信号的各频点指向所述声源方向的信号频谱之和与所述各频点指向各预设方向的信号频谱之和的比值,作为第二比值;
计算所述第一比值和所述第二比值的乘积,作为所述当前帧声音信号的该频点对应的抑制值;
所述利用所述抑制值对所述当前帧声音信号进行抑制处理,得到抑制后的当前帧声音信号,包括:
分别计算所述当前帧声音信号的每个频点对应的抑制值与该频点指向声源方向的信号频谱的乘积,作为抑制后的当前帧声音信号的频谱。
4.根据权利要求2所述的方法,其特征在于,所述根据所述信号频谱以及确定的声源方向,确定所述当前帧声音信号对应的抑制值,包括:
利用如下算式,计算所述当前帧声音信号对应的抑制值:
Figure FDA0003135772210000021
其中,i表示帧序号,j表示频点的序号,第i帧为当前帧,
Figure FDA0003135772210000022
表示第i帧第j个频点指向声源方向的信号频谱,
Figure FDA0003135772210000023
分别表示第i帧第j个频点指向n个预设方向的信号频谱,n为大于1的正整数;
所述利用所述抑制值对所述当前帧声音信号进行抑制处理,得到抑制后的当前帧声音信号,包括:
利用如下算式,计算抑制后的当前帧声音信号:
Figure FDA0003135772210000024
5.根据权利要求1所述的方法,其特征在于,所述根据预先设定的比值与增益值的对应关系,确定所述第三比值对应的增益值,作为当前帧声音信号对应的增益值,包括:
若第三比值不小于80%,则当前帧声音信号对应的增益值为1;
若第三比值小于80%且不小于30%,则当前帧声音信号对应的增益值为所述当前帧声音信号的上一帧声音信号对应的增益值;
若第三比值小于30%,则当前帧声音信号对应的增益值为所述当前帧声音信号的上一帧声音信号对应的增益值与确定的平滑因子的乘积。
6.根据权利要求5所述的方法,其特征在于,所述平滑因子的确定
方式包括:
计算所述当前帧声音信号的上一帧声音信号对应的增益值与预设值的比值,作为第四比值,所述预设值为小于1;
确定所述第四比值对应的平滑因子。
7.一种声音信号的处理装置,其特征在于,包括:
统计模块,用于统计预设时间段内来自于声源方向的声音信号的帧数量;
第一确定模块,用于根据统计得到的帧数量,确定当前帧声音信号对应的增益值;所述第一确定模块包括计算子模块和确定子模块,所述计算子模块用于计算所述帧数量与所述预设时间段内声音信号帧的总数量的比值,作为第三比值,所述确定子模块用于根据预先设定的比值与增益值的对应关系,确定所述第三比值对应的增益值,作为当前帧声音信号对应的增益值;
增益模块,用于利用所述增益值,对所述当前帧声音信号进行增益处理。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
计算模块,用于计算当前帧声音信号在波束形成后指向每个预设方向的信号频谱;
第二确定模块,用于根据所述信号频谱以及确定的声源方向,确定所述当前帧声音信号对应的抑制值;
抑制模块,用于利用所述抑制值对所述当前帧声音信号进行抑制处理,得到抑制后的当前帧声音信号;
所述增益模块,具体用于:
利用所述增益值,对所述抑制后的当前帧声音信号进行增益处理。
9.根据权利要求8所述的装置,其特征在于,所述第二确定模块,具体用于:
针对所述当前帧声音信号的每个频点,计算该频点指向所述声源方向的信号频谱与该频点指向各预设方向的信号频谱之和的比值,作为第一比值;
计算所述当前帧声音信号的各频点指向所述声源方向的信号频谱之和与所述各频点指向各预设方向的信号频谱之和的比值,作为第二比值;
计算所述第一比值和所述第二比值的乘积,作为所述当前帧声音信号的该频点对应的抑制值;
所述抑制模块,具体用于:
分别计算所述当前帧声音信号的每个频点对应的抑制值与该频点指向声源方向的信号频谱的乘积,作为抑制后的当前帧声音信号的频谱。
10.根据权利要求8所述的装置,其特征在于,所述第二确定模块,具体用于:
利用如下算式,计算所述当前帧声音信号对应的抑制值:
Figure FDA0003135772210000031
其中,i表示帧序号,j表示频点的序号,第i帧为当前帧,
Figure FDA0003135772210000032
表示第i帧第j个频点指向声源方向的信号频谱,
Figure FDA0003135772210000033
分别表示第i帧第j个频点指向n个预设方向的信号频谱,n为大于1的正整数;
所述抑制模块,具体用于:
利用如下算式,计算抑制后的当前帧声音信号:
Figure FDA0003135772210000041
11.根据权利要求7所述的装置,其特征在于,所述确定子模块,具体用于:
若第三比值不小于80%,则当前帧声音信号对应的增益值为1;
若第三比值小于80%且不小于30%,则当前帧声音信号对应的增益值为所述当前帧声音信号的上一帧声音信号对应的增益值;
若第三比值小于30%,则当前帧声音信号对应的增益值为所述当前帧声音信号的上一帧声音信号对应的增益值与确定的平滑因子的乘积。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
第三确定模块,用于利用如下方式确定所述平滑因子:
计算所述当前帧声音信号的上一帧声音信号对应的增益值与预设值的比值,作为第四比值,所述预设值为小于1;确定所述第四比值对应的平滑因子。
13.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任意一项所述的方法。
CN201910554013.6A 2019-06-25 2019-06-25 一种声音信号的处理方法、装置及设备 Active CN112133299B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910554013.6A CN112133299B (zh) 2019-06-25 2019-06-25 一种声音信号的处理方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910554013.6A CN112133299B (zh) 2019-06-25 2019-06-25 一种声音信号的处理方法、装置及设备

Publications (2)

Publication Number Publication Date
CN112133299A CN112133299A (zh) 2020-12-25
CN112133299B true CN112133299B (zh) 2021-08-27

Family

ID=73849149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910554013.6A Active CN112133299B (zh) 2019-06-25 2019-06-25 一种声音信号的处理方法、装置及设备

Country Status (1)

Country Link
CN (1) CN112133299B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101567672B (zh) * 2009-05-15 2013-04-17 杭州华三通信技术有限公司 获取增益的方法及系统
CN105321528B (zh) * 2014-06-27 2019-11-05 中兴通讯股份有限公司 一种麦克风阵列语音检测方法及装置
CN104966517B (zh) * 2015-06-02 2019-02-01 华为技术有限公司 一种音频信号增强方法和装置
CN106297818B (zh) * 2016-09-12 2019-09-13 广州酷狗计算机科技有限公司 一种获取去噪语音信号的方法和装置
CN106653047A (zh) * 2016-12-16 2017-05-10 广州视源电子科技股份有限公司 一种音频数据的自动增益控制方法与装置

Also Published As

Publication number Publication date
CN112133299A (zh) 2020-12-25

Similar Documents

Publication Publication Date Title
JP7011075B2 (ja) マイク・アレイに基づく対象音声取得方法及び装置
CN111418010B (zh) 一种多麦克风降噪方法、装置及终端设备
US8891785B2 (en) Processing signals
KR102470962B1 (ko) 사운드 소스들을 향상시키기 위한 방법 및 장치
JP5183828B2 (ja) 雑音抑圧装置
CN111081267B (zh) 一种多通道远场语音增强方法
US20140098968A1 (en) Noise suppression device
EP3796629B1 (en) Double talk detection method, double talk detection device and echo cancellation system
CN110310651B (zh) 波束形成的自适应语音处理方法、移动终端及存储介质
CN110556125A (zh) 基于语音信号的特征提取方法、设备及计算机存储介质
CN112151058B (zh) 一种声音信号的处理方法、装置及设备
CN112133299B (zh) 一种声音信号的处理方法、装置及设备
CN113160846A (zh) 噪声抑制方法和电子设备
US10951978B2 (en) Output control of sounds from sources respectively positioned in priority and nonpriority directions
US20220208206A1 (en) Noise suppression device, noise suppression method, and storage medium storing noise suppression program
CN112564655A (zh) 一种音频信号增益控制方法、装置、设备及存储介质
CN113223552B (zh) 语音增强方法、装置、设备、存储介质及程序
US11721353B2 (en) Spatial audio wind noise detection
CN112216295B (zh) 一种声源定位方法、装置及设备
CN110931038B (zh) 一种语音增强方法、装置、设备及存储介质
CN110211601B (zh) 一种空域滤波器参数矩阵的获取方法、装置及系统
EP4270392A1 (en) Audio noise reduction method and system
CN112216295A (zh) 一种声源定位方法、装置及设备
EP4273860A1 (en) Audio generation method and system
CN117528305A (zh) 拾音控制方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant