CN112735461B - 拾音方法以及相关装置、设备 - Google Patents
拾音方法以及相关装置、设备 Download PDFInfo
- Publication number
- CN112735461B CN112735461B CN202011593113.9A CN202011593113A CN112735461B CN 112735461 B CN112735461 B CN 112735461B CN 202011593113 A CN202011593113 A CN 202011593113A CN 112735461 B CN112735461 B CN 112735461B
- Authority
- CN
- China
- Prior art keywords
- sound
- microphone
- noise reduction
- signals
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000009467 reduction Effects 0.000 claims abstract description 191
- 230000005236 sound signal Effects 0.000 claims abstract description 88
- 238000012545 processing Methods 0.000 claims description 17
- 238000003860 storage Methods 0.000 claims description 8
- 238000003491 array Methods 0.000 claims description 7
- 238000005259 measurement Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 7
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000004584 weight gain Effects 0.000 description 2
- 235000019786 weight gain Nutrition 0.000 description 2
- 244000261422 Lysimachia clethroides Species 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
本申请公开了拾音方法以及相关装置、设备,其中,拾音方法包括:获取到通过各麦克风子阵列采集的声音信号;通过各子区域的波束对对应麦克风子阵列的声音信号进行初次降噪,得到麦克风子阵列的第一降噪信号;分别对各麦克风子阵列的第一降噪信号进行二次降噪,得到各麦克风子阵列的第二降噪信号;从各麦克风子阵列的第二降噪信号中实时选取最大的第二降噪信号,并将最大的第二降噪信号作为待拾音区域的声音输出。上述方案,能够实时选择最大的声音信号进行输出,且能够提高语音降噪效果。
Description
技术领域
本申请涉及语音信号处理的技术领域,特别是涉及拾音方法以及相关装置、设备。
背景技术
随着互联网技术的高速发展和实际场地的限制,越来越多的人际交流都选择远程视频的方式进行,例如会议、聚会等。在会议室或其他场地上摆放麦克风来对发言人的发言进行拾音。
在常规的会议或其他交流场景中,往往给每个发言人面前都摆放一个鹅颈麦克风来对各发言人的发言进行拾音,但该种方式往往因交流场地的尺寸存在差异,使得人工需要针对每次会议或其他交流场景进行手动摆放麦克风。
而手动摆放麦克风的方式可能存在交流人数过多,麦克风数量不足。而若预备大量麦克风则容易造成性能过剩且布置成本高等问题。
发明内容
本申请提供了拾音方法以及相关装置、设备,以解决现有技术中存在的拾音困难的问题。
本申请提供了一种拾音方法,待拾音区域中设置有多个麦克风子阵列,将各麦克风子阵列的拾音范围等比划分为多个子区域,拾音方法包括:获取到通过各麦克风子阵列采集的声音信号;通过各子区域的波束对对应麦克风子阵列的声音信号进行初次降噪,得到麦克风子阵列的第一降噪信号;分别对各麦克风子阵列的第一降噪信号进行二次降噪,得到各麦克风子阵列的第二降噪信号;从各麦克风子阵列的第二降噪信号中实时选取最大的第二降噪信号,并将最大的第二降噪信号作为待拾音区域的声音输出。
其中,获取到通过各麦克风子阵列采集的声音信号的步骤,包括:通过各麦克风子阵列的麦克风获取到多个声音子信号;对各声音子信号进行预处理,得到各声音子信号的频点和声音帧;对同一麦克风子阵列内同一频点下的各声音子信号进行组合得到声音信号,并获取同一麦克风子阵列内所有声音帧中所有频点对应的声音信号。
其中,通过各子区域的波束对对应麦克风子阵列的声音信号进行初次降噪,得到麦克风子阵列的第一降噪信号的步骤,包括:将各声音信号分别与对应的麦克风子阵列的子区域的波束进行固定波束形成处理,得到初次降噪后的各麦克风子阵列的子区域的波束声音信号;从初次降噪后的各麦克风子阵列的子区域的波束声音信号中确定各麦克风子阵列的第一降噪信号。
其中,将各声音信号分别与对应的麦克风子阵列的子区域的波束进行固定波束形成处理,得到初次降噪后的各麦克风子阵列的子区域的波束声音信号的步骤包括:将声音信号与对应的麦克风子阵列的子区域的波束进行点乘,得到同一声音帧下各频点的点乘值;将同一声音帧下各频点的点乘值相加,得到每个声音帧下麦克风子阵列的各子区域的波束声音信号;在每个声音帧下,从各子区域的波束声音信号中选取最大的波束声音信号作为对应的麦克风子阵列的第一降噪信号。
其中,在每个声音帧下,从各子区域的第一降噪信号中选取最大的第一降噪信号作为对应的麦克风子阵列的第一降噪信号的步骤包括:通过第一降噪信号的频点总数、平滑因子以及频率权重分别计算出各子区域的第一降噪信号在所有频点的第一能量和;将最大的第一能量和对应的子区域的第一降噪信号作为子区域对应的麦克风子阵列的第一降噪信号。
其中,分别对各麦克风子阵列的第一降噪信号进行二次降噪,得到各麦克风子阵列的第二降噪信号的步骤包括:基于各麦克风子阵列的第一降噪信号确定各麦克风子阵列与其他麦克风子阵列之间的信号比;基于信号比确定各麦克风子阵列的降噪增益;利用降噪增益对各麦克风子阵列的第一降噪信号进行二次降噪,得到麦克风子阵列的第二降噪信号。
其中,从各麦克风子阵列的第二降噪信号中实时选取最大的第二降噪信号,并将最大的第二降噪信号作为待拾音区域的声音输出的步骤包括:获取到麦克风子阵列中的各子区域的波束声音信号与其他子区域的波束声音信号之间的能量比;利用能量比确定麦克风子阵列的方向度量值;基于各麦克风子阵列的方向度量值以及第二降噪信号选取各麦克风子阵列中最大的第二降噪信号作为待拾音区域的每帧声音输出。
其中,基于各麦克风子阵列的方向度量值以及第二降噪信号选取各麦克风子阵列中最大的第二降噪信号作为待拾音区域的每帧声音输出的步骤包括:获取同一声音帧下每个麦克风子阵列的第二降噪信号在各频点的第二能量和;将各个第二能量和与对应的麦克风子阵列的方向度量值进行相乘,得到乘积,并选取数值最大的乘积所对应的麦克风子阵列的第二降噪信号作为待拾音区域的当前声音输出。
其中,对各声音子信号进行预处理,得到各声音子信号的频点和声音帧的步骤包括:依次对各声音子信号进行分帧处理、加窗处理以及傅里叶变换,得到频域形式的各声音子信号、各声音子信号的频点和声音帧。
其中,将最大的第二降噪信号作为待拾音区域的声音输出的步骤还包括:通过傅里叶逆变换将频域形式的最大的第二降噪信号转化为时域形式,将每个声音帧下时域形式的最大的第二降噪信号进行输出。
其中,获取到通过各麦克风子阵列采集的声音信号之前的步骤包括:基于各麦克风子阵列的子区域的区域范围利用约束算法或实地检测确定各子区域的波束。
本申请还提供了一种电子设备,包括相互耦接的存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述任一项的拾音方法。
本申请还提供了一种计算机可读存储介质,其上存储有程序指令,程序指令被处理器执行时实现上述任一项的拾音方法。
上述方案,本申请先获取通过到各麦克风子阵列采集的声音信号,再各子区域的波束对对应麦克风子阵列的声音信号进行初次降噪,得到麦克风子阵列的第一降噪信号,进而分别对各麦克风子阵列的第一降噪信号进行二次降噪,得到各麦克风子阵列的第二降噪信号,最后从各麦克风子阵列的第二降噪信号中实时选取最大的第二降噪信号,并将最大的第二降噪信号作为待拾音区域的声音输出,从而能够实时从各麦克风子阵列的第二降噪信号中选择最大的第二降噪信号进行输出,且能够通过双重降噪,对第二降噪信号进行增强,提高语音降噪效果。
附图说明
图1是本申请拾音方法一实施例的流程示意图;
图2是图1实施例麦克风子阵列拾音区域一实施例的示意图;
图3是本申请拾音方法另一实施例的流程示意图;
图4是本申请电子设备一实施例的框架示意图;
图5为本申请计算机可读存储介质一实施例的框架示意图。
具体实施方式
下面结合说明书附图,对本申请实施例的方案进行详细说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,可以存在三种关系,例如,A和/或B,可以:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般前后关联对象是一种“或”的关系。此外,本文中的“多”两个或者多于两个。
请参阅图1,图1是本申请拾音方法一实施例的流程示意图。具体而言,可以包括如下步骤:
本实施例的拾音方法应用于分布式麦克风阵列的拾音过程。其中,待拾音区域中设置有多个麦克风子阵列。待拾音区域可以为会议室、聊天室等需要通过麦克风进行拾音并将语音进行传输或播放的场景,具体场景在此不做限定。而麦克风子阵列为多个麦克风的组合排列。在本实施例中,可以基于待拾音区域的大小灵活安装不同数量的麦克风子阵列。麦克风子阵列可以为任何拓扑结构的阵列,包括线阵、环形阵、平面阵、球面阵列等,在此不做限定。麦克风子阵列内麦克风的数量也可以基于实际情况进行设置,在此也不做限定。
麦克风子阵列的安装位置可以选择吊装到天花板,也可以放置于桌面。也可以混合安装,即部分子阵列吊于天花板,部分子阵列放置于桌面。
在一个具体的应用场景中,当待拾音区域为10平方米的会议室时,可以在会议室的桌面和天花板上各安装一组包含5支麦克风的麦克风子阵列,共2组麦克风子阵列。在另一个具体的应用场景中,当待拾音区域为30平方米的会议室时,可以在会议室的桌面的四角和天花板中心分别安装一组包含6支麦克风的麦克风子阵列,共5组麦克风子阵列。
当待拾音区域的麦克风子阵列的安装完成后,将各麦克风子阵列的拾音范围等比划分为N个子区域,其中,每麦克风子阵列覆盖不同的拾音区域,但各个拾音区域基于麦克风的收音范围会互相交叠。其中,子区域的划分数量可以基于实际应用中的麦克风数量进行等比划分,例如:当某个麦克风子阵列的麦克风数量为8时,子区域的数量可以为4个或8个等,具体数量在此不做限定。
请参阅图2,图2是图1实施例麦克风子阵列拾音区域一实施例的示意图。
本实施例的麦克风子阵列20包括m1、m2、m3、m4、m5、m6、m7以及m8共8支麦克风,其中8只麦克风以m8为圆心,其外七支麦克风为圆环构成麦克风子阵列20。将麦克风子阵列20所在的360度空间等分为q1、q2、q3、q4、q5、q6、q7以及q8共个8个子区域。其中,在本实施例中,子区域的数量与麦克风的数量相同,但在其他实施例中,子区域的数量可以与麦克风的数量不相同。
其中,本实施例的麦克风子阵列的摆放与子阵列的划分在进行拾音前完成。当摆放且划分完成后,麦克风子阵列可长期用于待拾音区域内的多次拾音过程。
步骤S11:获取到通过各麦克风子阵列采集的声音信号。
当需要对待拾音区域进行拾音时,获取到通过各麦克风子阵列采集到的声音信号。在一个具体的应用场景中,当待拾音区域中包括4组麦克风子阵列时,本步骤中获取到4组麦克风子阵列采集到的声音信号。
步骤S12:通过各子区域的波束对对应麦克风子阵列的声音信号进行初次降噪,得到麦克风子阵列的第一降噪信号。
针对待拾音区域中每个麦克风子阵列,都通过其各子区域的波束对对应麦克风子阵列的声音信号进行初次降噪,得到麦克风子阵列的第一降噪信号。
其中麦克风具有全向拾音响应的特性,也就是能够均等地响应来自四面八方的声音。通过各子区域的波束对对应麦克风子阵列的声音信号进行初次降噪能够使麦克风子阵列对来自一个或多个特定方向的声音更敏感。
请参阅图2,每个子区域中都设置有波束。具体地,子区域q1中设置有波束d1,子区域q2中设置有波束d2,子区域q3中设置有波束d3,子区域q4中设置有波束d4,子区域q5中设置有波束d5,子区域q6中设置有波束d6,子区域q7中设置有波束d7,子区域q8中设置有波束d8。
其中,子区域的波束由子区域自身的形状与麦克风的位置而定,一旦子区域的几何形状、声音传播的目标方向确定,其波束特性也将确定。
步骤S13:分别对各麦克风子阵列的第一降噪信号进行二次降噪,得到各麦克风子阵列的第二降噪信号。
获得各麦克风子阵列的第一降噪信号后,分别对各麦克风子阵列的第一降噪信号进行二次降噪,得到各麦克风子阵列的第二降噪信号,以实现对各麦克风子阵列的声音信号的双重降噪,对声音信号进行语音增强。
在一个具体的应用场景中,可以通过添加增益的方式对各麦克风子阵列的第一降噪信号进行二次降噪。在另一个具体的应用场景中,也可以通过滤波器滤波的方式对各麦克风子阵列的第一降噪信号进行二次降噪,具体的二次降噪方式在此不做限定。
步骤S14:从各麦克风子阵列的第二降噪信号中实时选取最大的第二降噪信号,并将最大的第二降噪信号作为待拾音区域的声音输出。
在一个具体的应用场景中,如果待拾音区域的麦克风子阵列较少时,获取各麦克风子阵列的第二降噪信号后,可以从各麦克风子阵列的第二降噪信号中选取最大的第二降噪信号,并将最大的第二降噪信号作为当前时刻整个待拾音区域的声音输出。
在一个具体的应用场景中,如果待拾音区域的麦克风子阵列较多时,可以将最大的数个第二降噪信号进行相加,并将相加后的数个第二降噪信号作为当前时刻整个待拾音区域的声音输出。其中,本步骤的选取第二降噪信号的数量基于待拾音区域中麦克风子阵列的数量而定,具体可以为1个、2个、3个等,在此不做限定。
通过上述步骤,本实施例的拾音方法先获取通过到各麦克风子阵列采集的声音信号,再各子区域的波束对对应麦克风子阵列的声音信号进行初次降噪,得到麦克风子阵列的第一降噪信号,进而分别对各麦克风子阵列的第一降噪信号进行二次降噪,得到各麦克风子阵列的第二降噪信号,最后从各麦克风子阵列的第二降噪信号中实时选取最大的第二降噪信号,并将最大的第二降噪信号作为待拾音区域的声音输出,从而能够实时从各麦克风子阵列的第二降噪信号中选择最大的第二降噪信号进行输出,且能够通过双重降噪,对第二降噪信号进行增强,提高语音降噪效果。
请参阅图3,图3是本申请拾音方法另一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S21:基于各麦克风子阵列的子区域的区域范围利用约束算法或实地检测确定各子区域的波束。
本实施例的麦克风子阵列的摆放、数量以及子区域的划分均与前述实施例相同,请参阅前文,在此不再赘述。
当麦克风子阵列的摆放与子阵列的划分完成后,基于各麦克风子阵列的子区域的区域范围利用约束算法或实地检测确定麦克风子阵列中各子区域的波束。其中,约束算法可以为线性约束最小方差算法等具有一定约束条件的算法。而子区域的波束是由子区域自身的形状与麦克风的位置而定的,一旦子区域的几何形状、声音传播的目标方向确定,其波束特性也将确定。因此,也可以通过相应的测量手段获取各子区域的波束。也就是说,子区域的波束由对应子区域的形状范围、声音传播的目标方向确定。
在一个具体的应用场景中,当待拾音区域中设置有4组麦克风子阵列,而每组麦克风子阵列中划分有5个子区域时,本步骤一共确定20各子区域的波束。
在一个具体的应用场景中,当针对如图2所示的子区域的波束获取时,获取子区域q1两边界范围之间的夹角θ,则对于波束d1,约束条件则为中心方向d1响应为1,边界方向di-θ/2和di+θ/2的响应大于1-ε,其中ε为小于1的正实数。通过上述约束算法的条件即可确定子区域q1的波束d1。其中,其他子区域或其他实施例中的子区域的波束通过约束条件进行确定的方法与上述约束算法类似,在此不再赘述。
本实施例中,假设某个获得麦克风子阵列中有N个子区域,则确定N个子区域的波束后,通过Wi(k)表示麦克风子阵列中第i个波束在频点f的系数向量:
Wi(f)=[Wi 1(f),Wi 2(f),...Wi m(f)] (1)
其中,1,2,...,m为麦克风在麦克风子阵列中的序号。i=1,2,…,N为麦克风子阵列中波束的序号。
步骤S22:通过各麦克风子阵列的麦克风获取到多个声音子信号,对各声音子信号进行预处理,得到各声音子信号的频点和声音帧。
当对待拾音区域进行拾音时,通过各麦克风子阵列的麦克风获取到多个声音子信号,并对各声音子信号进行预处理,得到各声音子信号的频点和声音帧。
其中,预处理的具体步骤为:分别对各个声音子信号依次进行分帧处理、加窗处理,再做傅里叶变换将各个处理后的声音子信号转为频域形式,从而得到各个声音子信号的全部频点和全部声音帧以及频域形式的声音子信号。
预处理完成后,将频域形式的声音子信号记为Xm(f,t),m表示麦克风序号,t表示声音子信号的声音帧序号。
步骤S23:对同一麦克风子阵列内同一频点下的各声音子信号进行组合得到声音信号,并获取同一麦克风子阵列内所有声音帧中所有频点对应的声音信号。
对同一麦克风子阵列内同一频点下的各声音子信号进行组合得到声音信号,也就是将各声音帧下,频点f在麦克风子阵列中的所有声音子信号进行组合,得到声音信号。由于后续的固定波束形成处理中的Wi(k)为向量,则通过对频点f在麦克风子阵列中的所有声音子信号进行组合,以得到向量形式的声音信号,以利于后续的固定波束形成处理。
由于上述步骤获取了声音子信号的所有声音帧,则对所有声音帧内的各频点f在麦克风子阵列中的所有声音子信号都进行组合,得到每个声音帧对应的声音信号。具体如下:
X(f,t)=[X1(f,t),X2(f,t),...Xm(f,t)] (2)
其中,声音信号的组合方法可以基于实际应用中的需求进行设置,在此不做限定。
每个声音帧下的麦克风子阵列内的声音子信号都具有多个频点,则本步骤将某个频点下的麦克风子阵列的所有声音子信号进行组合,得到该频点下的声音信号。进而获取所有频点下的声音信号。
步骤S24:将各声音信号分别与对应的麦克风子阵列的子区域的波束进行固定波束形成处理,得到初次降噪后的各麦克风子阵列的子区域的波束声音信号。
将各声音信号分别与对应的麦克风子阵列的子区域的波束进行固定波束形成处理,得到初次降噪后的各麦克风子阵列的子区域的波束声音信号。第i个波束声音信号,即第i个波束的输出为:
Yi(f,t)=sum(Wi(f)*X(f,t)) (3)
具体地,将声音信号与对应的麦克风子阵列的子区域的波束进行点乘,得到同一声音帧下各频点的点乘值,将同一声音帧下各频点的点乘值相加,得到每个声音帧下麦克风子阵列的各子区域的波束声音信号Yi(f,t)。
其中,本实施例针对某一个时刻,每个子阵列所覆盖区域内,仅有一个目标说话人的应用场景进行拾音。如果有其他的说话人的话,将由附近的子阵列拾取。
通过麦克风子阵列的子区域的波束系数向量Wi(k)对各声音信号Xm(f,t)进行固定波束形成处理,得到初次降噪后的麦克风子阵列的各子区域的波束声音信号Yi(f,t)。
本步骤对麦克风子阵列的各子区域的声音信号进行降噪,以对各子区域的声音信号进行语音增强。
步骤S25:从初次降噪后的各麦克风子阵列的子区域的波束声音信号中确定各麦克风子阵列的第一降噪信号。
得到初次降噪后的各麦克风子阵列的子区域的波束声音信号Yi(f,t)后,从初次降噪后的各麦克风子阵列的子区域的波束声音信号中确定各麦克风子阵列的第一降噪信号。
具体过程包括:通过第一降噪信号的频点总数、平滑因子以及频率权重分别计算出各子区域的第一降噪信号在所有频点的第一能量和;将最大的第一能量和对应的子区域的第一降噪信号作为子区域对应的麦克风子阵列的第一降噪信号。
则计算每个波束在第t帧的所有频点的第一能量和为:
其中,F为频点总数,α为0到1之间的平滑因子,δ(f)为频率f的权重,由于低频往往包含的噪声较多,可以给低频较低权重,高频较高权重。
在一个具体的应用场景中,假设某个麦克风子阵列中第k个波束声音信号的第一能量和最大,则将Yk(f,t)作为该麦克风子阵列的输出,即将第k个波束声音信号作为整个麦克风子阵列的第一降噪信号,进行输出。
k=miax(Zi(t)) (5)
步骤S26:基于各麦克风子阵列的第一降噪信号确定各麦克风子阵列与其他麦克风子阵列之间的信号比,基于信号比确定各麦克风子阵列的权重增益,利用权重增益对各麦克风子阵列的第一降噪信号进行二次降噪,得到麦克风子阵列的第二降噪信号。
获得每个麦克风子阵列的第一降噪信号后,将每个麦克风子阵列的第一降噪信号传到总处理系统,总处理系统将综合各个子阵列第一降噪信号,再进一步降噪。
基于各麦克风子阵列的第一降噪信号确定各麦克风子阵列与其他麦克风子阵列之间的信号比,再基于信号比确定各麦克风子阵列的降噪增益,利用降噪增益对各麦克风子阵列的第一降噪信号进行二次降噪,得到麦克风子阵列的第二降噪信号。
当针对某一声音帧的第一降噪信号进行降噪时,先计算出,该声音帧下,每个频点中,麦克风子阵列s与其他麦克风子阵列的第一降噪信号的信号比为:
由于语音具有时频能量分布稀疏性,即多个说话人的语音同时占据同一时频点的概率很低,则Rs(f,t)值较大时,说明了麦克风子阵列s下的发言人主要占据了时频点(f,t),该给与麦克风子阵列s的第一降噪信号一个较大的降噪增益,反之则给与麦克风子阵列s的第一降噪信号一个较小的降噪增益。即二次降噪增益Gs(f,t)与Rs(f,t)成正比,二次降噪增益Gs(f,t)的具体计算方式如下:
其中,参数β与γ是经验参数,其具体数值可以基于实际应用进行设置,在此不做限定。
通过二次降噪增益Gs(f,t)对各麦克风子阵列的第一降噪信号Ys(f,t)进行二次降噪,则二次降噪后各麦克风子阵列的第二降噪信号为:
步骤S27:获取到麦克风子阵列中的各子区域的波束声音信号与其他子区域的波束声音信号之间的能量比,利用能量比确定麦克风子阵列的方向度量值。
通过上述步骤完成对各麦克风子阵列的声音信号的二次降噪后,通过对各麦克风子阵列进行选取,以选取出有发言人正在发言的麦克风子阵列的声音信号进行输出。
具体地,先获取到麦克风子阵列中的各子区域的波束声音信号与其他子区域的波束声音信号之间的能量比,并利用能量比确定麦克风子阵列的方向度量值,具体如下:
其中,通过确定各麦克风子阵列的方向度量值来判断各麦克风子阵列所获取的声音信号中是否具有方向性。当麦克风子阵列的拾音范围内有发言人正在进行发言时,由于发言人的发言具备一定的方向性,则该麦克风子阵列的各麦克风所获取的声音信号同样具有方向性,而在待拾音区域中并非只有发言人会产生声音信号,例如电风扇、空调等同样也会发出一定的声音,因此,通过方向度量值来减少对非发言人的其他声音信号进行输出的情况发生。
步骤S28:基于各麦克风子阵列的方向度量值以及第二降噪信号选取各麦克风子阵列中最大的第二降噪信号作为待拾音区域的每帧声音输出。
获取同一声音帧下每个麦克风子阵列的第二降噪信号在各频点的第二能量和,也就是先基于各麦克风子阵列中的第二降噪信号计算各麦克风子阵列在t帧下所有频点的第二能量和:
其中,参数α与δ(f)与公式(4)中的物理意义相同,值可以复用。
将各个第二能量和与对应的麦克风子阵列的方向度量值进行相乘,得到乘积,并选取数值最大的乘积所对应的麦克风子阵列的第二降噪信号作为待拾音区域的当前声音输出,假设第o个麦克风子阵列的第二降噪信号最大,则选取方式如下:
选取出最大第二降噪信号对应的第o个麦克风子阵列后,将频域形式的通过傅里叶逆变换转化为时域形式,进行输出,从而完成整个拾音的过程。
在其他实施例中,如果待拾音区域的麦克风子阵列较多时,可以将每一声音帧下最大的数个第二降噪信号进行相加,并将相加后的数个第二降噪信号作为当前声音帧下整个待拾音区域的声音输出,从而完成待拾音区域的实时拾音。其中,本步骤的选取第二降噪信号的数量基于待拾音区域中麦克风子阵列的数量而定,具体可以为1个、2个、3个等,在此不做限定。
本实施例获取到每一声音帧下下最大的数个或一个第二降噪信号,并进行输出,从而完成实时并自动选择某一个或几个有发言人正在发言的麦克风子阵列的第二降噪信号进行输出。
通过上述步骤,本实施例的拾音方法中的各麦克风子阵列能够覆盖不同且交叠的拾音区域,并可并行拾取不同的说话人语音,使得总体的拾音区域覆盖面更大。且通过对各子阵列的波束声音信号进行初次降噪和对各麦克风子阵列的第一降噪信号进行二次降噪,从而在一定程度获得更好的语音增强性能,提高拾音效果。最后,通过基于每个声音帧为单位实时选取最大的一个或数个第二降噪信号作为待拾音区域的输出,以在一定程度上保证输出的第二降噪信号对应的麦克风子阵列的拾音范围内有发言人正在讲话,以进一步提高拾音效果。
请参阅图4,图4是本申请电子设备一实施例的框架示意图。电子设备40包括相互耦接的存储器41和处理器42,处理器42用于执行存储器41中存储的程序指令,以实现上述任一拾音方法实施例的步骤。在一个具体的实施场景中,电子设备40可以包括但不限于:微型计算机、服务器,此外,电子设备40还可以包括笔记本电脑、平板电脑等移动设备,在此不做限定。
具体而言,处理器42用于控制其自身以及存储器41以实现上述任一拾音方法实施例的步骤。处理器42还可以称为CPU(Central Processing Unit,中央处理单元)。处理器42可能是一种集成电路芯片,具有信号的处理能力。处理器42还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器42可以由集成电路芯片共同实现。
上述方案,能够实时选择最大的声音信号进行输出,且能够提高语音降噪效果。
请参阅图5,图5为本申请计算机可读存储介质一实施例的框架示意图。计算机可读存储介质50存储有能够被处理器运行的程序指令501,程序指令501用于实现上述任一拾音方法实施例的步骤。
上述方案,能够实时选择最大的声音信号进行输出,且能够提高语音降噪效果。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (12)
1.一种拾音方法,其特征在于,待拾音区域中设置有多个麦克风子阵列,将各所述麦克风子阵列的拾音范围等比划分为多个子区域,所述拾音方法包括:
获取到通过各所述麦克风子阵列采集的声音信号;
通过各所述子区域的波束对对应麦克风子阵列的声音信号进行初次降噪,得到所述麦克风子阵列的第一降噪信号;
分别对各所述麦克风子阵列的第一降噪信号进行二次降噪,得到各所述麦克风子阵列的第二降噪信号;
从各所述麦克风子阵列的第二降噪信号中实时选取最大的第二降噪信号,并将所述最大的第二降噪信号作为所述待拾音区域的声音输出;
所述分别对各所述麦克风子阵列的第一降噪信号进行二次降噪,得到各所述麦克风子阵列的第二降噪信号的步骤包括:
基于各所述麦克风子阵列的第一降噪信号确定各麦克风子阵列与其他麦克风子阵列之间的信号比;
基于所述信号比确定各所述麦克风子阵列的降噪增益;所述降噪增益与所述信号比成正比;参数/>与/>是经验参数;
利用所述降噪增益对各所述麦克风子阵列的第一降噪信号进行二次降噪,得到所述麦克风子阵列的第二降噪信号。
2.根据权利要求1所述的拾音方法,其特征在于,所述获取到通过各所述麦克风子阵列采集的声音信号的步骤,包括:
通过各所述麦克风子阵列的麦克风获取到多个声音子信号;
对各所述声音子信号进行预处理,得到各所述声音子信号的频点和声音帧;
对同一麦克风子阵列内同一频点下的各声音子信号进行组合得到所述声音信号,并获取同一麦克风子阵列内所有声音帧中所有频点对应的声音信号。
3.根据权利要求2所述的拾音方法,其特征在于,所述通过各所述子区域的波束对对应麦克风子阵列的声音信号进行初次降噪,得到所述麦克风子阵列的第一降噪信号的步骤,包括:
将各所述声音信号分别与对应的麦克风子阵列的子区域的波束进行固定波束形成处理,得到初次降噪后的各所述麦克风子阵列的子区域的波束声音信号;
从初次降噪后的各所述麦克风子阵列的子区域的波束声音信号中确定各所述麦克风子阵列的第一降噪信号。
4.根据权利要求3所述的拾音方法,其特征在于,所述将各所述声音信号分别与对应的麦克风子阵列的子区域的波束进行固定波束形成处理,得到初次降噪后的各所述麦克风子阵列的子区域的波束声音信号的步骤包括:
将所述声音信号与对应的麦克风子阵列的子区域的波束进行点乘,得到同一声音帧下各所述频点的点乘值;
将同一声音帧下所述各频点的点乘值相加,得到每个声音帧下麦克风子阵列的各所述子区域的波束声音信号;
在每个声音帧下,从各所述子区域的波束声音信号中选取最大的波束声音信号作为对应的所述麦克风子阵列的第一降噪信号。
5.根据权利要求4所述的拾音方法,其特征在于,所述在每个声音帧下,从各所述子区域的第一降噪信号中选取最大的第一降噪信号作为对应的所述麦克风子阵列的第一降噪信号的步骤包括:
通过所述第一降噪信号的频点总数、平滑因子以及频率权重分别计算出各所述子区域的第一降噪信号在所有频点的第一能量和;
将最大的第一能量和对应的子区域的第一降噪信号作为所述子区域对应的所述麦克风子阵列的第一降噪信号。
6.根据权利要求1所述的拾音方法,其特征在于,所述从各所述麦克风子阵列的第二降噪信号中实时选取最大的第二降噪信号,并将所述最大的第二降噪信号作为所述待拾音区域的声音输出的步骤包括:
获取到麦克风子阵列中的各子区域的波束声音信号与其他子区域的波束声音信号之间的能量比;
利用所述能量比确定麦克风子阵列的方向度量值;
基于各所述麦克风子阵列的方向度量值以及所述第二降噪信号选取各所述麦克风子阵列中最大的第二降噪信号作为所述待拾音区域的每帧声音输出。
7.根据权利要求6所述的拾音方法,其特征在于,所述基于各所述麦克风子阵列的方向度量值以及所述第二降噪信号选取各所述麦克风子阵列中最大的第二降噪信号作为所述待拾音区域的每帧声音输出的步骤包括:
获取同一声音帧下每个所述麦克风子阵列的第二降噪信号在各频点的第二能量和;
将各个第二能量和与对应的麦克风子阵列的方向度量值进行相乘,得到乘积,并选取数值最大的乘积所对应的麦克风子阵列的第二降噪信号作为所述待拾音区域的当前声音输出。
8.根据权利要求2所述的拾音方法,其特征在于,所述对各所述声音子信号进行预处理,得到各所述声音子信号的频点和声音帧的步骤包括:
依次对各声音子信号进行分帧处理、加窗处理以及傅里叶变换,得到频域形式的各所述声音子信号、各所述声音子信号的频点和声音帧。
9.根据权利要求1所述的拾音方法,其特征在于,所述将所述最大的第二降噪信号作为所述待拾音区域的声音输出的步骤还包括:
通过傅里叶逆变换将频域形式的最大的第二降噪信号转化为时域形式,将每个声音帧下时域形式的最大的第二降噪信号进行输出。
10.根据权利要求1所述的拾音方法,其特征在于,所述获取到通过各所述麦克风子阵列采集的声音信号之前的步骤包括:
基于各所述麦克风子阵列的子区域的区域范围利用约束算法或实地检测确定各所述子区域的波束。
11.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现如权利要求1至10任一项所述的拾音方法。
12.一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时实现如权利要求1至10任一项所述的拾音方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011593113.9A CN112735461B (zh) | 2020-12-29 | 2020-12-29 | 拾音方法以及相关装置、设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011593113.9A CN112735461B (zh) | 2020-12-29 | 2020-12-29 | 拾音方法以及相关装置、设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112735461A CN112735461A (zh) | 2021-04-30 |
CN112735461B true CN112735461B (zh) | 2024-06-07 |
Family
ID=75607475
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011593113.9A Active CN112735461B (zh) | 2020-12-29 | 2020-12-29 | 拾音方法以及相关装置、设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112735461B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113539291B (zh) * | 2021-07-09 | 2024-06-25 | 北京声智科技有限公司 | 音频信号的降噪方法、装置、电子设备及存储介质 |
CN113838472A (zh) * | 2021-08-24 | 2021-12-24 | 盛景智能科技(嘉兴)有限公司 | 一种语音降噪方法及装置 |
CN114245266B (zh) * | 2021-12-15 | 2022-12-23 | 苏州蛙声科技有限公司 | 小型麦克风阵列设备的区域拾音方法及系统 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06169292A (ja) * | 1992-11-30 | 1994-06-14 | Matsushita Electric Ind Co Ltd | 雑音低減装置 |
JP2007235358A (ja) * | 2006-02-28 | 2007-09-13 | Nippon Telegr & Teleph Corp <Ntt> | 収音装置、プログラム及びこれを記録した記録媒体 |
CN101510426A (zh) * | 2009-03-23 | 2009-08-19 | 北京中星微电子有限公司 | 一种噪声消除方法及系统 |
CN101911723A (zh) * | 2008-01-29 | 2010-12-08 | 高通股份有限公司 | 通过在来自多个麦克风的信号之间智能地进行选择而改善声音质量 |
CN102347028A (zh) * | 2011-07-14 | 2012-02-08 | 瑞声声学科技(深圳)有限公司 | 双麦克风语音增强装置及方法 |
CN102938254A (zh) * | 2012-10-24 | 2013-02-20 | 中国科学技术大学 | 一种语音信号增强系统和方法 |
CN103325380A (zh) * | 2012-03-23 | 2013-09-25 | 杜比实验室特许公司 | 用于信号增强的增益后处理 |
JP2016131343A (ja) * | 2015-01-15 | 2016-07-21 | 日本電信電話株式会社 | 収音装置、その方法及びプログラム |
CN107301869A (zh) * | 2017-08-17 | 2017-10-27 | 珠海全志科技股份有限公司 | 麦克风阵列拾音方法、处理器及其存储介质 |
CN107742522A (zh) * | 2017-10-23 | 2018-02-27 | 科大讯飞股份有限公司 | 基于麦克风阵列的目标语音获取方法及装置 |
CN109523999A (zh) * | 2018-12-26 | 2019-03-26 | 中国科学院声学研究所 | 一种提升远场语音识别的前端处理方法和系统 |
CN110706719A (zh) * | 2019-11-14 | 2020-01-17 | 北京远鉴信息技术有限公司 | 一种语音提取方法、装置、电子设备及存储介质 |
CN111105811A (zh) * | 2019-12-31 | 2020-05-05 | 西安讯飞超脑信息科技有限公司 | 声音信号的处理方法、相关设备及可读存储介质 |
-
2020
- 2020-12-29 CN CN202011593113.9A patent/CN112735461B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06169292A (ja) * | 1992-11-30 | 1994-06-14 | Matsushita Electric Ind Co Ltd | 雑音低減装置 |
JP2007235358A (ja) * | 2006-02-28 | 2007-09-13 | Nippon Telegr & Teleph Corp <Ntt> | 収音装置、プログラム及びこれを記録した記録媒体 |
CN101911723A (zh) * | 2008-01-29 | 2010-12-08 | 高通股份有限公司 | 通过在来自多个麦克风的信号之间智能地进行选择而改善声音质量 |
CN101510426A (zh) * | 2009-03-23 | 2009-08-19 | 北京中星微电子有限公司 | 一种噪声消除方法及系统 |
CN102347028A (zh) * | 2011-07-14 | 2012-02-08 | 瑞声声学科技(深圳)有限公司 | 双麦克风语音增强装置及方法 |
CN103325380A (zh) * | 2012-03-23 | 2013-09-25 | 杜比实验室特许公司 | 用于信号增强的增益后处理 |
CN102938254A (zh) * | 2012-10-24 | 2013-02-20 | 中国科学技术大学 | 一种语音信号增强系统和方法 |
JP2016131343A (ja) * | 2015-01-15 | 2016-07-21 | 日本電信電話株式会社 | 収音装置、その方法及びプログラム |
CN107301869A (zh) * | 2017-08-17 | 2017-10-27 | 珠海全志科技股份有限公司 | 麦克风阵列拾音方法、处理器及其存储介质 |
CN107742522A (zh) * | 2017-10-23 | 2018-02-27 | 科大讯飞股份有限公司 | 基于麦克风阵列的目标语音获取方法及装置 |
CN109523999A (zh) * | 2018-12-26 | 2019-03-26 | 中国科学院声学研究所 | 一种提升远场语音识别的前端处理方法和系统 |
CN110706719A (zh) * | 2019-11-14 | 2020-01-17 | 北京远鉴信息技术有限公司 | 一种语音提取方法、装置、电子设备及存储介质 |
CN111105811A (zh) * | 2019-12-31 | 2020-05-05 | 西安讯飞超脑信息科技有限公司 | 声音信号的处理方法、相关设备及可读存储介质 |
Non-Patent Citations (1)
Title |
---|
基于麦克风阵列声信号定向拾取的研究;张政;中国优秀硕士学位论文全文数据库;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112735461A (zh) | 2021-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112735461B (zh) | 拾音方法以及相关装置、设备 | |
JP7011075B2 (ja) | マイク・アレイに基づく対象音声取得方法及び装置 | |
CN109102822B (zh) | 一种基于固定波束形成的滤波方法及装置 | |
US9641929B2 (en) | Audio signal processing method and apparatus and differential beamforming method and apparatus | |
US11558693B2 (en) | Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality | |
US9591404B1 (en) | Beamformer design using constrained convex optimization in three-dimensional space | |
US9191738B2 (en) | Sound enhancement method, device, program and recording medium | |
US9654894B2 (en) | Selective audio source enhancement | |
CN107018470B (zh) | 一种基于环形麦克风阵列的语音记录方法及系统 | |
CN109712626A (zh) | 一种语音数据处理方法及装置 | |
CN112017681B (zh) | 定向语音的增强方法及系统 | |
KR102063307B1 (ko) | 음장 기술을 생성하기 위한 장치, 방법, 또는 컴퓨터 프로그램 | |
US20130083942A1 (en) | Processing Signals | |
CN110223708B (zh) | 基于语音处理的语音增强方法及相关设备 | |
CN111445920A (zh) | 一种多声源的语音信号实时分离方法、装置和拾音器 | |
CN104898086B (zh) | 适用于微型麦克风阵列的声强估计声源定向方法 | |
CN110660404B (zh) | 基于零陷滤波预处理的语音通信和交互应用系统、方法 | |
CN112712818A (zh) | 语音增强方法、装置、设备 | |
CN111681665A (zh) | 一种全向降噪方法、设备及存储介质 | |
CN108877828B (zh) | 语音增强方法/系统、计算机可读存储介质及电子设备 | |
CN111627456A (zh) | 噪音排除方法、装置、设备及可读存储介质 | |
CN112997249B (zh) | 语音处理方法、装置、存储介质及电子设备 | |
AU2020316738B2 (en) | Speech-tracking listening device | |
Wang et al. | Speech separation and extraction by combining superdirective beamforming and blind source separation | |
Delikaris-Manias et al. | Cross spectral density based spatial filter employing maximum directivity beam patterns |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |