CN118411999B

CN118411999B - 基于麦克风的定向音频拾取方法和系统

Info

Publication number: CN118411999B
Application number: CN202410875989.4A
Authority: CN
Inventors: 李安平; 叶国辉; 周海波; 隆海波; 刘灿萍
Original assignee: Guangdong Guangwo Intelligent Technology Co ltd
Current assignee: Guangdong Guangwo Intelligent Technology Co ltd
Priority date: 2024-07-02
Filing date: 2024-07-02
Publication date: 2024-08-27
Anticipated expiration: 2044-07-02
Also published as: CN118411999A

Abstract

本发明涉及数据处理技术领域，尤其涉及基于麦克风的定向音频拾取方法和系统。方法包括步骤：获取语音信号序列以及振动数据序列，将语音信号序列划分为若干个短时帧信号序列，将每个短时帧序列划分为若干个子时帧信号序列，获取各短时帧信号序列的各子时帧信号序列的频率集中性，基于各短时帧信号序列的各子时帧信号序列的频率集中性，获取每个短时帧信号序列的目标声源信号谱，根据每个短时帧信号序列的目标声源信号谱，完成麦克风定向音频的拾取，本发明提高了对语音信号序列的去噪效果。

Description

基于麦克风的定向音频拾取方法和系统

技术领域

本发明涉及数据处理技术领域，尤其涉及基于麦克风的定向音频拾取方法和系统。

背景技术

麦克风的定向音频是指麦克风系统能够优先拾取来自特定方向的声音信号，同时减弱或排除来自其他方向的噪声，即麦克风能够更有效地捕捉目标声源，提高录音质量，而在麦克风的使用环境中，往往伴随着非常复杂的环境条件导致其语音信号中伴有非常多的噪声，因此如何识别出目标声源则尤为重要。

目前公开号为CN115359804A的专利申请文件公开了一种基于麦克风阵列的定向音频拾取方法和系统，该方法采用由麦克风阵列组成的拾音器采集空间音频信号，降噪，按照音频信号投影方法获得N个波束的指向性音频信号，通过分帧加窗和声强指数衰减法获得N个波束的指向性音频频谱的掩蔽值mask；采用频谱分段统计和神经网络分类方法，获得修正后的掩蔽值mask；通过快速傅里叶逆变换变换到时域，得到N个波束的指向性音频的最终波形。

上述方法中降噪时可以使用频谱减法算法，而频谱减法算法通过将语音序列进行分帧处理，通过将前几帧的平均噪声谱作为噪声谱对语音信号序列进行去噪，因此可知频谱减法算法默认语音信号序列中的噪声是均匀连续的，但是在麦克风的使用场景中并非如此，即语音信号序列中的噪声不是均匀连续的，那么直接使用传统的频谱减法算法对语音信号序列进行去噪时，其去噪效果差，使得定向音频拾取效果差。

发明内容

为了解决协同滤波算法只考虑静态的历史交互数据，因此无法准确地反应用户当前的偏好，导致书籍推荐结果不准确的问题，本发明提供基于麦克风的定向音频拾取方法和系统。

第一方面，本发明提供基于麦克风的定向音频拾取方法，采用如下的技术方案：

基于麦克风的定向音频拾取方法，包括步骤：

采集语音信号序列；

将语音信号序列均匀划分为若干个短时帧信号序列；将各短时帧信号序列划分为若干个子时帧信号序列，其中每个子时帧信号序列均需要进行若干次分段迭代得到若干个初始信号序列，每个子时帧信号序列在所有分段迭代过程中的任意两个初始信号序列之间的频率一致性的差值绝对值均小于或等于预设阈值，并且子时帧信号序列之间首尾相连；

获取各短时帧信号序列的各子时帧信号序列的频率集中性，所述频率集中性代表子时帧信号序列中噪声的发散情况；根据各短时帧信号序列的各子时帧信号序列的频率集中性，获取各短时帧信号序列的目标子帧；基于各短时帧信号序列的目标子帧，获取各短时帧信号序列的目标声源信号谱；根据各短时帧信号序列的目标声源信号谱，完成麦克风定向音频的拾取。

本发明的创新性在于将频谱减法算法中每个短时帧信号序列划分为若干个更小的子时帧信号序列，能够更精确地捕捉到噪声变化，使得子时帧信号序列中噪声连续均匀，避免了短时帧信号序列中不确定地随机噪声，可以提高去噪，使得定向音频拾取效果较好。

优选的，所述将语音信号序列均匀划分为若干个短时帧信号序列，包括步骤：

预设短时帧信号序列长度D，根据短时帧信号序列长度D，从左到右将语音信号序列划分为若干个短时帧信号序列。

便于后续对将各短时帧信号序列划分为各子时帧信号序列。

优选的，所述频率一致性的获取，包括：

获取初始信号拟合曲线以及初始信号拟合曲线的所有子分段曲线；

获取目标振动数据序列以及目标振动数据序列进行曲线拟合时的拟合误差；

；

式中，表示初始信号序列的频率一致性；表示初始信号拟合曲线的所有子分段曲线的过零点个数的标准差；表示目标振动数据序列进行曲线拟合时的拟合误差；c为预设分段曲线参数；表示预设的超参数；norm()代表归一化函数；tanh()表示双曲正切函数。

便于后续根据频率一致性获取子时帧信号序列，使得到的子时帧新信号序列中的噪声均匀连续。

优选的，所述获取初始信号拟合曲线以及初始信号拟合曲线的所有子分段曲线，包括：

预设分段曲线参数c，对于任意一个初始信号序列，利用最小二乘法对所述初始信号序列进行曲线拟合，获得初始信号拟合曲线；将初始信号拟合曲线均匀划分为若干个大小为c的子分段曲线。

优选的，所述获取目标振动数据序列以及目标振动数据序列进行曲线拟合时的拟合误差，包括：

对于任意一个初始信号序列，在麦克风的振动数据序列中，将与所述初始信号序列时序对应的所有振动数据构成的数据序列，记为目标振动数据序列；利用最小二乘法将目标振动数据序列进行曲线拟合，获得目标振动数据序列进行曲线拟合时的拟合误差。

优选的，所述获取各短时帧信号序列的各子时帧信号序列的频率集中性，包括：

获取第q个短时帧信号序列的第k个子时帧信号序列的频谱图中频率的最大值以及最小值；

；

式中，代表第q个短时帧信号序列的第k个子时帧信号序列的频率集中性；代表第q个短时帧信号序列的第k个子时帧信号序列的频谱图中频率的最大值；代表第q个短时帧信号序列的第k个子时帧信号序列的频谱图中频率的最小值；代表第q个短时帧信号序列的第k个子时帧信号序列的时间长度；exp()代表以自然常数为底数的指数函数。

便于后续根据频率集中性获取各短时帧信号序列的目标声源信号谱。

优选的，所述获取各短时帧信号序列的目标子帧，包括：

获取第q个短时帧信号序列的所有子时帧信号序列的频率集中性中的最大值，将最大值对应的子时帧信号序列，记为第q个短时帧信号序列的目标子帧。

优选的，所述获取各短时帧信号序列的目标声源信号谱，包括

将第q个短时帧信号序列的目标子帧的频谱信息作为参考谱，提取其语音特征，利用神经网络模型将提取的语音特征与第q个短时帧信号序列中除目标子帧之外的其他子帧的频谱信息进行对比分析，得到第q个短时帧信号序列的目标声源信号谱。

得到的各短时帧信号序列的目标声源信号谱更加准确。

第二方面，本发明提供基于麦克风的定向音频拾取系统，采用如下的技术方案：

基于麦克风的定向音频拾取系统，包括：处理器和存储器，所述存储器存储有计算机程序指令，当所述计算机程序指令被所述处理器执行时实现上述基于麦克风的定向音频拾取方法。

通过采用上述技术方案，将上述的基于麦克风的定向音频拾取方法生成计算机程序，并存储于存储器中，以被处理器加载并执行，从而根据存储器及处理器制作终端设备，方便使用。

本发明具有以下技术效果：本发明将频谱减法算法中每个短时帧信号序列划分为若干个更小的子时帧信号序列，能够更精确地捕捉到噪声变化，使得子时帧信号序列中噪声连续均匀，避免了短时帧信号序列中不确定地随机噪声，可以提高去噪，使得定向音频拾取效果较好。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，并且相同或对应的标号表示相同或对应的部分。

图1是本发明实施例基于麦克风的定向音频拾取方法中方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当本发明的权利要求、说明书及附图使用术语“第一”、“第二”等时，其仅是用于区别不同对象，而不是用于描述特定顺序。本发明的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

本发明实施例公开基于麦克风的定向音频拾取方法，参照图1，包括步骤S1-步骤S3：

S1：获取语音信号序列以及振动数据序列。

步骤S1包括步骤S10，具体如下：

S10：采集语音信号序列以及振动数据序列。

在本发明实施例中，将振动传感器安装在麦克风振膜处，每隔1秒钟为一个采样时刻，每次采集麦克风的语音信号值和振动传感器的振动数据，共采集3小时；将所有采样时刻的语音信号值作为麦克风的语音信号序列；将所有采样时刻的振动数据作为麦克风的振动数据序列；所述语音信号序列包括若干个采样时刻的语音信号值；所述振动数据序列包括若干个采样时刻的振动数据，语音信号序列与振动数据序列在时序上一一对应。

S2：将语音信号序列划分为若干个短时帧信号序列，将每个短时帧序列划分为若干个子时帧信号序列。

步骤S2包括步骤S20-S21，具体如下：

S20：将语音信号序列划分为若干个短时帧信号序列，将每个短时帧序列划分为若干个子时帧信号序列。

需要说明的是，频谱减法算法通过将语音序列进行分帧处理，通过将前几帧的平均噪声谱作为噪声谱对语音信号序列进行去噪，因此可知频谱减法算法默认语音信号序列中的噪声是均匀连续的，但是在麦克风的使用场景中并非如此，即语音信号序列中的噪声不是均匀连续的，那么直接使用传统的频谱减法算法对语音信号序列进行去噪时，其去噪效果差，使得定向音频拾取效果差，因此需要先将语音信号序列划分为多个短时帧信号序列，再对每个短时帧信号序列进行划分，得到若干个子时帧信号序列，其中每个子时帧信号序列中的噪声均匀连续，以便后续去噪时能达到良好的效果。

需要进一步说明的是，声带是产生语音信号的主要器官之一，声带的振动频率直接影响到语音信号的频率特征。因此不同的人在说话时，声带振动频率会有所差异，那么在语音信号中可以利用语音信号中过零点个数出现的频率表示某一语音源的特征，因此当噪声是均匀连续的，其语音信号中过零点出现的频率亦会呈现出较为稳定的变化，综上所述可利用语音信号中过零点出现的频率来将短时帧信号系列进行划分为子时帧信号序列，将子时帧信号序列划分为若干个更小的子分段曲线，其中，所有子分段曲线的过零点个数的标准差越小，说明子时帧信号序列中噪声越均匀连续，并且由于麦克风的工作原理是当声音引起振膜（麦克风中的一个部件）振动时，振膜上的线圈在磁场中切割磁感线，从而产生电流，将声音信号转换为电信号，因此子时帧信号序列对应时间下的振动数据序列的越平稳，说明子时帧信号序列中噪声越均匀连续，本方案将振动数据序列进行曲线拟合过程中的平均拟合误差用以表示振动数据序列变化的平稳性，其中拟合误差小，振动数据序列越平稳。

在本发明实施例中，预设短时帧信号序列长度D，根据短时帧信号序列长度，从左到右将语音信号序列划分为若干个短时帧信号序列，需要说明的是，若语音信号序列的末尾帧的长度小于D并且大于等于时，则将其单独作为一个短时帧信号序列，反之，则将其加入到前一个短时帧信号序列中，在本发明实施例中，预设短时帧信号序列长度D=30秒，在其他实施例中，实施人员可根据具体实施情况预设D的值。

在本发明实施例中，预设一个初始参数a和分段参数b，其中本实施例以a=2，b=0.5ms为例进行叙述，本实施例不进行具体限定，其中a，b根据具体实施情况而定。

对于任意一个短时帧信号序列，将所述短时帧信号序列均匀划分为若干个大小为b的分段信号序列,将所述短时帧信号序列中前a个分段信号序列构成的信号序列，记为第一个初始信号序列；将所述短时帧信号序列中前a+1个分段信号序列构成的信号序列，记为第二个初始信号序列；若第一个初始信号序列与第二个初始信号序列之间频率一致性的差值绝对值小于或等于预设阈值T，将所述短时帧信号序列中前a+2个分段信号序列构成的信号序列，记为第三个初始信号序列；若第二个初始信号序列与第三个初始信号序列之间频率一致性的差值绝对值小于或等于预设阈值T，将所述短时帧信号序列中前a+3个分段信号序列构成的信号序列，记为第四个初始信号序列；以此类推，直至最新的初始信号序列与其前一个初始信号序列之间频率一致性的差值绝对值大于预设阈值T，将所述前一个初始信号序列记为第一个子时帧信号序列；

以第一个子时帧信号序列右相邻的分段信号序列为起点，根据第一个子时帧信号序列的获取方法，获取第二个子时帧信号序列；以此类推，直至遍历完所述短时帧信号序列的所有分段信号序列；获得若干个子时帧信号序列。在本发明实施例中，预设阈值T=0.2，在其他实施例中，实施人员可根据具体实施情况预设阈值T的值。

预设分段曲线参数c=0.1ms，对于任意一个初始信号序列，在麦克风的振动数据序列中，将与所述初始信号序列对应的所有振动数据构成的数据序列，记为目标振动数据序列；利用最小二乘法将目标振动数据序列和所述初始信号序列进行曲线拟合，获得目标振动数据序列进行曲线拟合时的拟合误差和初始信号拟合曲线；将初始信号拟合曲线划分为若干个大小为c的子分段曲线。

具体公式为：

；

式中，表示初始信号序列的频率一致性；表示初始信号拟合曲线的所有子分段曲线的过零点个数的标准差；表示目标振动数据序列进行曲线拟合时的拟合误差；c为预设分段曲线参数；表示预设的超参数，本实施预设，用于防止分母为0；表示线性归一化函数；表示双曲正切函数。

S3：获取各短时帧信号序列的各子时帧信号序列的频率集中性，基于各短时帧信号序列的各子时帧信号序列的频率集中性，获取每个短时帧信号序列的目标声源信号谱，根据每个短时帧信号序列的目标声源信号谱，完成麦克风定向音频的拾取。

步骤S3包括步骤S30-步骤S31，具体如下：

S30：获取各短时帧信号序列的各子时帧信号序列的频率集中性，基于各短时帧信号序列的各子时帧信号序列的频率集中性，获取每个短时帧信号序列的目标声源信号谱。

需要说明的是，获取的各短时帧信号序列的各子时帧信号序列代表的是没有噪声或者噪声连续均匀的信号序列，而由于目标声源信号有一个固定范围的频率信息（在频谱图中），而噪声较为发散，因此可利用各短时帧信号序列的各子时帧信号序列的频谱图中其频率的集中性确定各短时帧信号序列的目标子帧，用目标子帧中的信号信息识别出目标声源信号，子时帧信号序列的频谱图中其频率的集中性，即可用对应子时帧信号序列频谱图中频率的宽度（即频率最大值和频率最小值的差）与子时帧信号序列的时间长度的比值表示，频率的宽度说明该子时帧信号序列的频率范围，用子时帧信号序列的长度做比值是也因为子时帧信号序列之间的时间长度可能不一致，该比值越小，则说明子时帧信号序列的频率集中性越好。

在本发明实施例中，使用傅里叶变换算法获取第q个短时帧信号序列的第k个子时帧信号序列的频谱图，获取第q个短时帧信号序列的第k个子时帧信号序列的频谱图中频率的最大值以及最小值。

获取各短时帧信号序列的各子时帧信号序列的频率集中性：

式中，代表第q个短时帧信号序列的第k个子时帧信号序列的频率集中性；代表第q个短时帧信号序列的第k个子时帧信号序列的频谱图中频率的最大值；代表第q个短时帧信号序列的第k个子时帧信号序列的频谱图中频率的最小值；代表第q个短时帧信号序列的第k个子时帧信号序列的时间长度；exp()代表以自然常数为底数的指数函数；代表第q个短时帧信号序列的第k个子时帧信号序列的频谱图中频率的宽度与第k个子时帧信号序列的时间长度的比值，其值越小，说明第k个子时帧信号序列的频率集中性越好。

获取第q个短时帧信号序列的所有子时帧信号序列的频率集中性中的最大值，将最大值对应的子时帧信号序列，记为第q个短时帧信号序列的目标子帧，将第q个短时帧信号序列的目标子帧的频谱信息作为参考谱，提取其语音特征，利用神经网络模型将提取的语音特征与混合语音频谱（第q个短时帧信号序列中除目标子帧之外的其他子帧的频谱信息）进行对比分析，从而输出去噪频谱，即第q个短时帧信号序列的目标声源信号谱，同理，获取每个短时帧信号序列的目标声源信号谱。需要说明的是，神经网络模型为现有技术，在本发明实施例中，不在对其进行过多赘述。

S31：根据每个短时帧信号序列的目标声源信号谱，完成麦克风定向音频的拾取。

在本发明实施例中，对每个短时帧信号序列的目标声源信号谱，进行相位处理、逆傅里叶变换、帧重叠和合并，从而获得连续的语音信号，至此便完成了麦克风定向音频的拾取。

上述系统还包括通信总线和通信接口等本领域技术人员熟知的其他组件，其设置和功能为本领域中已知，因此在此不再赘述。

在本发明中，前述的存储器可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，计算机可读存储介质可以是任何适当的磁存储介质或者磁光存储介质，比如，阻变式存储器、动态随机存取存储器、静态随机存取存储器、增强动态随机存取存储器、高带宽内存、混合存储立方等等，或者可以用于存储所需信息并且可以由应用程序、模块或两者访问的任何其他介质。任何这样的计算机存储介质可以是设备的一部分或可访问或可连接到设备。

虽然本说明书已经示出和描述了本发明的多个实施例，但对于本领域技术人员显而易见的是，这样的实施例只是以示例的方式提供的。本领域技术人员会在不偏离本发明思想和精神的情况下想到许多更改、改变和替代的方式。应当理解的是在实践本发明的过程中，可以采用对本文所描述的本发明实施例的各种替代方案。

以上均为本发明的较佳实施例，并非依此限制本发明的保护范围，故：凡依本发明的结构、形状、原理所做的等效变化，均应涵盖于本发明的保护范围之内。

Claims

1.基于麦克风的定向音频拾取方法，其特征在于，包括步骤：

采集语音信号序列；

2.根据权利要求1所述的基于麦克风的定向音频拾取方法，其特征在于，所述将语音信号序列均匀划分为若干个短时帧信号序列，包括步骤：

3.根据权利要求1所述的基于麦克风的定向音频拾取方法，其特征在于，所述频率一致性的获取，包括：

；

4.根据权利要求3所述的基于麦克风的定向音频拾取方法，其特征在于，所述获取初始信号拟合曲线以及初始信号拟合曲线的所有子分段曲线，包括：

5.根据权利要求3所述的基于麦克风的定向音频拾取方法，其特征在于，所述获取目标振动数据序列以及目标振动数据序列进行曲线拟合时的拟合误差，包括：

6.根据权利要求1所述的基于麦克风的定向音频拾取方法，其特征在于，所述获取各短时帧信号序列的各子时帧信号序列的频率集中性，包括：

；

7.根据权利要求1所述的基于麦克风的定向音频拾取方法，其特征在于，所述获取各短时帧信号序列的目标子帧，包括：

8.根据权利要求1所述的基于麦克风的定向音频拾取方法，其特征在于，所述获取各短时帧信号序列的目标声源信号谱，包括

9.基于麦克风的定向音频拾取系统，其特征在于，包括：处理器和存储器，所述存储器存储有计算机程序指令，当所述计算机程序指令被所述处理器执行时实现根据权利要求1-8任一项所述的基于麦克风的定向音频拾取方法。