CN118411999B - 基于麦克风的定向音频拾取方法和系统 - Google Patents
基于麦克风的定向音频拾取方法和系统 Download PDFInfo
- Publication number
- CN118411999B CN118411999B CN202410875989.4A CN202410875989A CN118411999B CN 118411999 B CN118411999 B CN 118411999B CN 202410875989 A CN202410875989 A CN 202410875989A CN 118411999 B CN118411999 B CN 118411999B
- Authority
- CN
- China
- Prior art keywords
- signal sequence
- frame signal
- short
- time frame
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 108010076504 Protein Sorting Signals Proteins 0.000 claims abstract description 251
- 238000001228 spectrum Methods 0.000 claims abstract description 46
- 230000006870 function Effects 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 210000001260 vocal cord Anatomy 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明涉及数据处理技术领域,尤其涉及基于麦克风的定向音频拾取方法和系统。方法包括步骤:获取语音信号序列以及振动数据序列,将语音信号序列划分为若干个短时帧信号序列,将每个短时帧序列划分为若干个子时帧信号序列,获取各短时帧信号序列的各子时帧信号序列的频率集中性,基于各短时帧信号序列的各子时帧信号序列的频率集中性,获取每个短时帧信号序列的目标声源信号谱,根据每个短时帧信号序列的目标声源信号谱,完成麦克风定向音频的拾取,本发明提高了对语音信号序列的去噪效果。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及基于麦克风的定向音频拾取方法和系统。
背景技术
麦克风的定向音频是指麦克风系统能够优先拾取来自特定方向的声音信号,同时减弱或排除来自其他方向的噪声,即麦克风能够更有效地捕捉目标声源,提高录音质量,而在麦克风的使用环境中,往往伴随着非常复杂的环境条件导致其语音信号中伴有非常多的噪声,因此如何识别出目标声源则尤为重要。
目前公开号为CN115359804A的专利申请文件公开了一种基于麦克风阵列的定向音频拾取方法和系统,该方法采用由麦克风阵列组成的拾音器采集空间音频信号,降噪,按照音频信号投影方法获得N个波束的指向性音频信号,通过分帧加窗和声强指数衰减法获得N个波束的指向性音频频谱的掩蔽值mask;采用频谱分段统计和神经网络分类方法,获得修正后的掩蔽值mask;通过快速傅里叶逆变换变换到时域,得到N个波束的指向性音频的最终波形。
上述方法中降噪时可以使用频谱减法算法,而频谱减法算法通过将语音序列进行分帧处理,通过将前几帧的平均噪声谱作为噪声谱对语音信号序列进行去噪,因此可知频谱减法算法默认语音信号序列中的噪声是均匀连续的,但是在麦克风的使用场景中并非如此,即语音信号序列中的噪声不是均匀连续的,那么直接使用传统的频谱减法算法对语音信号序列进行去噪时,其去噪效果差,使得定向音频拾取效果差。
发明内容
为了解决协同滤波算法只考虑静态的历史交互数据,因此无法准确地反应用户当前的偏好,导致书籍推荐结果不准确的问题,本发明提供基于麦克风的定向音频拾取方法和系统。
第一方面,本发明提供基于麦克风的定向音频拾取方法,采用如下的技术方案:
基于麦克风的定向音频拾取方法,包括步骤:
采集语音信号序列;
将语音信号序列均匀划分为若干个短时帧信号序列;将各短时帧信号序列划分为若干个子时帧信号序列,其中每个子时帧信号序列均需要进行若干次分段迭代得到若干个初始信号序列,每个子时帧信号序列在所有分段迭代过程中的任意两个初始信号序列之间的频率一致性的差值绝对值均小于或等于预设阈值,并且子时帧信号序列之间首尾相连;
获取各短时帧信号序列的各子时帧信号序列的频率集中性,所述频率集中性代表子时帧信号序列中噪声的发散情况;根据各短时帧信号序列的各子时帧信号序列的频率集中性,获取各短时帧信号序列的目标子帧;基于各短时帧信号序列的目标子帧,获取各短时帧信号序列的目标声源信号谱;根据各短时帧信号序列的目标声源信号谱,完成麦克风定向音频的拾取。
本发明的创新性在于将频谱减法算法中每个短时帧信号序列划分为若干个更小的子时帧信号序列,能够更精确地捕捉到噪声变化,使得子时帧信号序列中噪声连续均匀,避免了短时帧信号序列中不确定地随机噪声,可以提高去噪,使得定向音频拾取效果较好。
优选的,所述将语音信号序列均匀划分为若干个短时帧信号序列,包括步骤:
预设短时帧信号序列长度D,根据短时帧信号序列长度D,从左到右将语音信号序列划分为若干个短时帧信号序列。
便于后续对将各短时帧信号序列划分为各子时帧信号序列。
优选的,所述频率一致性的获取,包括:
获取初始信号拟合曲线以及初始信号拟合曲线的所有子分段曲线;
获取目标振动数据序列以及目标振动数据序列进行曲线拟合时的拟合误差;
;
式中,表示初始信号序列的频率一致性;表示初始信号拟合曲线的所有子分段曲线的过零点个数的标准差;表示目标振动数据序列进行曲线拟合时的拟合误差;c为预设分段曲线参数;表示预设的超参数;norm()代表归一化函数;tanh()表示双曲正切函数。
便于后续根据频率一致性获取子时帧信号序列,使得到的子时帧新信号序列中的噪声均匀连续。
优选的,所述获取初始信号拟合曲线以及初始信号拟合曲线的所有子分段曲线,包括:
预设分段曲线参数c,对于任意一个初始信号序列,利用最小二乘法对所述初始信号序列进行曲线拟合,获得初始信号拟合曲线;将初始信号拟合曲线均匀划分为若干个大小为c的子分段曲线。
优选的,所述获取目标振动数据序列以及目标振动数据序列进行曲线拟合时的拟合误差,包括:
对于任意一个初始信号序列,在麦克风的振动数据序列中,将与所述初始信号序列时序对应的所有振动数据构成的数据序列,记为目标振动数据序列;利用最小二乘法将目标振动数据序列进行曲线拟合,获得目标振动数据序列进行曲线拟合时的拟合误差。
优选的,所述获取各短时帧信号序列的各子时帧信号序列的频率集中性,包括:
获取第q个短时帧信号序列的第k个子时帧信号序列的频谱图中频率的最大值以及最小值;
;
式中,代表第q个短时帧信号序列的第k个子时帧信号序列的频率集中性;代表第q个短时帧信号序列的第k个子时帧信号序列的频谱图中频率的最大值;代表第q个短时帧信号序列的第k个子时帧信号序列的频谱图中频率的最小值;代表第q个短时帧信号序列的第k个子时帧信号序列的时间长度;exp()代表以自然常数为底数的指数函数。
便于后续根据频率集中性获取各短时帧信号序列的目标声源信号谱。
优选的,所述获取各短时帧信号序列的目标子帧,包括:
获取第q个短时帧信号序列的所有子时帧信号序列的频率集中性中的最大值,将最大值对应的子时帧信号序列,记为第q个短时帧信号序列的目标子帧。
优选的,所述获取各短时帧信号序列的目标声源信号谱,包括
将第q个短时帧信号序列的目标子帧的频谱信息作为参考谱,提取其语音特征,利用神经网络模型将提取的语音特征与第q个短时帧信号序列中除目标子帧之外的其他子帧的频谱信息进行对比分析,得到第q个短时帧信号序列的目标声源信号谱。
得到的各短时帧信号序列的目标声源信号谱更加准确。
第二方面,本发明提供基于麦克风的定向音频拾取系统,采用如下的技术方案:
基于麦克风的定向音频拾取系统,包括:处理器和存储器,所述存储器存储有计算机程序指令,当所述计算机程序指令被所述处理器执行时实现上述基于麦克风的定向音频拾取方法。
通过采用上述技术方案,将上述的基于麦克风的定向音频拾取方法生成计算机程序,并存储于存储器中,以被处理器加载并执行,从而根据存储器及处理器制作终端设备,方便使用。
本发明具有以下技术效果:本发明将频谱减法算法中每个短时帧信号序列划分为若干个更小的子时帧信号序列,能够更精确地捕捉到噪声变化,使得子时帧信号序列中噪声连续均匀,避免了短时帧信号序列中不确定地随机噪声,可以提高去噪,使得定向音频拾取效果较好。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,并且相同或对应的标号表示相同或对应的部分。
图1是本发明实施例基于麦克风的定向音频拾取方法中方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当本发明的权利要求、说明书及附图使用术语“第一”、“第二”等时,其仅是用于区别不同对象,而不是用于描述特定顺序。本发明的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
本发明实施例公开基于麦克风的定向音频拾取方法,参照图1,包括步骤S1-步骤S3:
S1:获取语音信号序列以及振动数据序列。
步骤S1包括步骤S10,具体如下:
S10:采集语音信号序列以及振动数据序列。
在本发明实施例中,将振动传感器安装在麦克风振膜处,每隔1秒钟为一个采样时刻,每次采集麦克风的语音信号值和振动传感器的振动数据,共采集3小时;将所有采样时刻的语音信号值作为麦克风的语音信号序列;将所有采样时刻的振动数据作为麦克风的振动数据序列;所述语音信号序列包括若干个采样时刻的语音信号值;所述振动数据序列包括若干个采样时刻的振动数据,语音信号序列与振动数据序列在时序上一一对应。
S2:将语音信号序列划分为若干个短时帧信号序列,将每个短时帧序列划分为若干个子时帧信号序列。
步骤S2包括步骤S20-S21,具体如下:
S20:将语音信号序列划分为若干个短时帧信号序列,将每个短时帧序列划分为若干个子时帧信号序列。
需要说明的是,频谱减法算法通过将语音序列进行分帧处理,通过将前几帧的平均噪声谱作为噪声谱对语音信号序列进行去噪,因此可知频谱减法算法默认语音信号序列中的噪声是均匀连续的,但是在麦克风的使用场景中并非如此,即语音信号序列中的噪声不是均匀连续的,那么直接使用传统的频谱减法算法对语音信号序列进行去噪时,其去噪效果差,使得定向音频拾取效果差,因此需要先将语音信号序列划分为多个短时帧信号序列,再对每个短时帧信号序列进行划分,得到若干个子时帧信号序列,其中每个子时帧信号序列中的噪声均匀连续,以便后续去噪时能达到良好的效果。
需要进一步说明的是,声带是产生语音信号的主要器官之一,声带的振动频率直接影响到语音信号的频率特征。因此不同的人在说话时,声带振动频率会有所差异,那么在语音信号中可以利用语音信号中过零点个数出现的频率表示某一语音源的特征,因此当噪声是均匀连续的,其语音信号中过零点出现的频率亦会呈现出较为稳定的变化,综上所述可利用语音信号中过零点出现的频率来将短时帧信号系列进行划分为子时帧信号序列,将子时帧信号序列划分为若干个更小的子分段曲线,其中,所有子分段曲线的过零点个数的标准差越小,说明子时帧信号序列中噪声越均匀连续,并且由于麦克风的工作原理是当声音引起振膜(麦克风中的一个部件)振动时,振膜上的线圈在磁场中切割磁感线,从而产生电流,将声音信号转换为电信号,因此子时帧信号序列对应时间下的振动数据序列的越平稳,说明子时帧信号序列中噪声越均匀连续,本方案将振动数据序列进行曲线拟合过程中的平均拟合误差用以表示振动数据序列变化的平稳性,其中拟合误差小,振动数据序列越平稳。
在本发明实施例中,预设短时帧信号序列长度D,根据短时帧信号序列长度,从左到右将语音信号序列划分为若干个短时帧信号序列,需要说明的是,若语音信号序列的末尾帧的长度小于D并且大于等于时,则将其单独作为一个短时帧信号序列,反之,则将其加入到前一个短时帧信号序列中,在本发明实施例中,预设短时帧信号序列长度D=30秒,在其他实施例中,实施人员可根据具体实施情况预设D的值。
在本发明实施例中,预设一个初始参数a和分段参数b,其中本实施例以a=2,b=0.5ms为例进行叙述,本实施例不进行具体限定,其中a,b根据具体实施情况而定。
对于任意一个短时帧信号序列,将所述短时帧信号序列均匀划分为若干个大小为b的分段信号序列,将所述短时帧信号序列中前a个分段信号序列构成的信号序列,记为第一个初始信号序列;将所述短时帧信号序列中前a+1个分段信号序列构成的信号序列,记为第二个初始信号序列;若第一个初始信号序列与第二个初始信号序列之间频率一致性的差值绝对值小于或等于预设阈值T,将所述短时帧信号序列中前a+2个分段信号序列构成的信号序列,记为第三个初始信号序列;若第二个初始信号序列与第三个初始信号序列之间频率一致性的差值绝对值小于或等于预设阈值T,将所述短时帧信号序列中前a+3个分段信号序列构成的信号序列,记为第四个初始信号序列;以此类推,直至最新的初始信号序列与其前一个初始信号序列之间频率一致性的差值绝对值大于预设阈值T,将所述前一个初始信号序列记为第一个子时帧信号序列;
以第一个子时帧信号序列右相邻的分段信号序列为起点,根据第一个子时帧信号序列的获取方法,获取第二个子时帧信号序列;以此类推,直至遍历完所述短时帧信号序列的所有分段信号序列;获得若干个子时帧信号序列。在本发明实施例中,预设阈值T=0.2,在其他实施例中,实施人员可根据具体实施情况预设阈值T的值。
预设分段曲线参数c=0.1ms,对于任意一个初始信号序列,在麦克风的振动数据序列中,将与所述初始信号序列对应的所有振动数据构成的数据序列,记为目标振动数据序列;利用最小二乘法将目标振动数据序列和所述初始信号序列进行曲线拟合,获得目标振动数据序列进行曲线拟合时的拟合误差和初始信号拟合曲线;将初始信号拟合曲线划分为若干个大小为c的子分段曲线。
具体公式为:
;
式中,表示初始信号序列的频率一致性;表示初始信号拟合曲线的所有子分段曲线的过零点个数的标准差;表示目标振动数据序列进行曲线拟合时的拟合误差;c为预设分段曲线参数;表示预设的超参数,本实施预设,用于防止分母为0;表示线性归一化函数;表示双曲正切函数。
S3:获取各短时帧信号序列的各子时帧信号序列的频率集中性,基于各短时帧信号序列的各子时帧信号序列的频率集中性,获取每个短时帧信号序列的目标声源信号谱,根据每个短时帧信号序列的目标声源信号谱,完成麦克风定向音频的拾取。
步骤S3包括步骤S30-步骤S31,具体如下:
S30:获取各短时帧信号序列的各子时帧信号序列的频率集中性,基于各短时帧信号序列的各子时帧信号序列的频率集中性,获取每个短时帧信号序列的目标声源信号谱。
需要说明的是,获取的各短时帧信号序列的各子时帧信号序列代表的是没有噪声或者噪声连续均匀的信号序列,而由于目标声源信号有一个固定范围的频率信息(在频谱图中),而噪声较为发散,因此可利用各短时帧信号序列的各子时帧信号序列的频谱图中其频率的集中性确定各短时帧信号序列的目标子帧,用目标子帧中的信号信息识别出目标声源信号,子时帧信号序列的频谱图中其频率的集中性,即可用对应子时帧信号序列频谱图中频率的宽度(即频率最大值和频率最小值的差)与子时帧信号序列的时间长度的比值表示,频率的宽度说明该子时帧信号序列的频率范围,用子时帧信号序列的长度做比值是也因为子时帧信号序列之间的时间长度可能不一致,该比值越小,则说明子时帧信号序列的频率集中性越好。
在本发明实施例中,使用傅里叶变换算法获取第q个短时帧信号序列的第k个子时帧信号序列的频谱图,获取第q个短时帧信号序列的第k个子时帧信号序列的频谱图中频率的最大值以及最小值。
获取各短时帧信号序列的各子时帧信号序列的频率集中性:
式中,代表第q个短时帧信号序列的第k个子时帧信号序列的频率集中性;代表第q个短时帧信号序列的第k个子时帧信号序列的频谱图中频率的最大值;代表第q个短时帧信号序列的第k个子时帧信号序列的频谱图中频率的最小值;代表第q个短时帧信号序列的第k个子时帧信号序列的时间长度;exp()代表以自然常数为底数的指数函数;代表第q个短时帧信号序列的第k个子时帧信号序列的频谱图中频率的宽度与第k个子时帧信号序列的时间长度的比值,其值越小,说明第k个子时帧信号序列的频率集中性越好。
获取第q个短时帧信号序列的所有子时帧信号序列的频率集中性中的最大值,将最大值对应的子时帧信号序列,记为第q个短时帧信号序列的目标子帧,将第q个短时帧信号序列的目标子帧的频谱信息作为参考谱,提取其语音特征,利用神经网络模型将提取的语音特征与混合语音频谱(第q个短时帧信号序列中除目标子帧之外的其他子帧的频谱信息)进行对比分析,从而输出去噪频谱,即第q个短时帧信号序列的目标声源信号谱,同理,获取每个短时帧信号序列的目标声源信号谱。需要说明的是,神经网络模型为现有技术,在本发明实施例中,不在对其进行过多赘述。
S31:根据每个短时帧信号序列的目标声源信号谱,完成麦克风定向音频的拾取。
在本发明实施例中,对每个短时帧信号序列的目标声源信号谱,进行相位处理、逆傅里叶变换、帧重叠和合并,从而获得连续的语音信号,至此便完成了麦克风定向音频的拾取。
本发明的创新性在于将频谱减法算法中每个短时帧信号序列划分为若干个更小的子时帧信号序列,能够更精确地捕捉到噪声变化,使得子时帧信号序列中噪声连续均匀,避免了短时帧信号序列中不确定地随机噪声,可以提高去噪,使得定向音频拾取效果较好。
上述系统还包括通信总线和通信接口等本领域技术人员熟知的其他组件,其设置和功能为本领域中已知,因此在此不再赘述。
在本发明中,前述的存储器可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,计算机可读存储介质可以是任何适当的磁存储介质或者磁光存储介质,比如,阻变式存储器、动态随机存取存储器、静态随机存取存储器、增强动态随机存取存储器、高带宽内存、混合存储立方等等,或者可以用于存储所需信息并且可以由应用程序、模块或两者访问的任何其他介质。任何这样的计算机存储介质可以是设备的一部分或可访问或可连接到设备。
虽然本说明书已经示出和描述了本发明的多个实施例,但对于本领域技术人员显而易见的是,这样的实施例只是以示例的方式提供的。本领域技术人员会在不偏离本发明思想和精神的情况下想到许多更改、改变和替代的方式。应当理解的是在实践本发明的过程中,可以采用对本文所描述的本发明实施例的各种替代方案。
以上均为本发明的较佳实施例,并非依此限制本发明的保护范围,故:凡依本发明的结构、形状、原理所做的等效变化,均应涵盖于本发明的保护范围之内。
Claims (9)
1.基于麦克风的定向音频拾取方法,其特征在于,包括步骤:
采集语音信号序列;
将语音信号序列均匀划分为若干个短时帧信号序列;将各短时帧信号序列划分为若干个子时帧信号序列,其中每个子时帧信号序列均需要进行若干次分段迭代得到若干个初始信号序列,每个子时帧信号序列在所有分段迭代过程中的任意两个初始信号序列之间的频率一致性的差值绝对值均小于或等于预设阈值,并且子时帧信号序列之间首尾相连;
获取各短时帧信号序列的各子时帧信号序列的频率集中性,所述频率集中性代表子时帧信号序列中噪声的发散情况;根据各短时帧信号序列的各子时帧信号序列的频率集中性,获取各短时帧信号序列的目标子帧;基于各短时帧信号序列的目标子帧,获取各短时帧信号序列的目标声源信号谱;根据各短时帧信号序列的目标声源信号谱,完成麦克风定向音频的拾取。
2.根据权利要求1所述的基于麦克风的定向音频拾取方法,其特征在于,所述将语音信号序列均匀划分为若干个短时帧信号序列,包括步骤:
预设短时帧信号序列长度D,根据短时帧信号序列长度D,从左到右将语音信号序列划分为若干个短时帧信号序列。
3.根据权利要求1所述的基于麦克风的定向音频拾取方法,其特征在于,所述频率一致性的获取,包括:
获取初始信号拟合曲线以及初始信号拟合曲线的所有子分段曲线;
获取目标振动数据序列以及目标振动数据序列进行曲线拟合时的拟合误差;
;
式中,表示初始信号序列的频率一致性;表示初始信号拟合曲线的所有子分段曲线的过零点个数的标准差;表示目标振动数据序列进行曲线拟合时的拟合误差;c为预设分段曲线参数;表示预设的超参数;norm()代表归一化函数;tanh()表示双曲正切函数。
4.根据权利要求3所述的基于麦克风的定向音频拾取方法,其特征在于,所述获取初始信号拟合曲线以及初始信号拟合曲线的所有子分段曲线,包括:
预设分段曲线参数c,对于任意一个初始信号序列,利用最小二乘法对所述初始信号序列进行曲线拟合,获得初始信号拟合曲线;将初始信号拟合曲线均匀划分为若干个大小为c的子分段曲线。
5.根据权利要求3所述的基于麦克风的定向音频拾取方法,其特征在于,所述获取目标振动数据序列以及目标振动数据序列进行曲线拟合时的拟合误差,包括:
对于任意一个初始信号序列,在麦克风的振动数据序列中,将与所述初始信号序列时序对应的所有振动数据构成的数据序列,记为目标振动数据序列;利用最小二乘法将目标振动数据序列进行曲线拟合,获得目标振动数据序列进行曲线拟合时的拟合误差。
6.根据权利要求1所述的基于麦克风的定向音频拾取方法,其特征在于,所述获取各短时帧信号序列的各子时帧信号序列的频率集中性,包括:
获取第q个短时帧信号序列的第k个子时帧信号序列的频谱图中频率的最大值以及最小值;
;
式中,代表第q个短时帧信号序列的第k个子时帧信号序列的频率集中性;代表第q个短时帧信号序列的第k个子时帧信号序列的频谱图中频率的最大值;代表第q个短时帧信号序列的第k个子时帧信号序列的频谱图中频率的最小值;代表第q个短时帧信号序列的第k个子时帧信号序列的时间长度;exp()代表以自然常数为底数的指数函数。
7.根据权利要求1所述的基于麦克风的定向音频拾取方法,其特征在于,所述获取各短时帧信号序列的目标子帧,包括:
获取第q个短时帧信号序列的所有子时帧信号序列的频率集中性中的最大值,将最大值对应的子时帧信号序列,记为第q个短时帧信号序列的目标子帧。
8.根据权利要求1所述的基于麦克风的定向音频拾取方法,其特征在于,所述获取各短时帧信号序列的目标声源信号谱,包括
将第q个短时帧信号序列的目标子帧的频谱信息作为参考谱,提取其语音特征,利用神经网络模型将提取的语音特征与第q个短时帧信号序列中除目标子帧之外的其他子帧的频谱信息进行对比分析,得到第q个短时帧信号序列的目标声源信号谱。
9.基于麦克风的定向音频拾取系统,其特征在于,包括:处理器和存储器,所述存储器存储有计算机程序指令,当所述计算机程序指令被所述处理器执行时实现根据权利要求1-8任一项所述的基于麦克风的定向音频拾取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410875989.4A CN118411999B (zh) | 2024-07-02 | 2024-07-02 | 基于麦克风的定向音频拾取方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410875989.4A CN118411999B (zh) | 2024-07-02 | 2024-07-02 | 基于麦克风的定向音频拾取方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118411999A CN118411999A (zh) | 2024-07-30 |
CN118411999B true CN118411999B (zh) | 2024-08-27 |
Family
ID=92003333
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410875989.4A Active CN118411999B (zh) | 2024-07-02 | 2024-07-02 | 基于麦克风的定向音频拾取方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118411999B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108269582A (zh) * | 2018-01-24 | 2018-07-10 | 厦门美图之家科技有限公司 | 一种基于双麦克风阵列的定向拾音方法及计算设备 |
CN112823531A (zh) * | 2018-10-11 | 2021-05-18 | 思科技术公司 | 协作端点中的定向音频拾取 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6794887B2 (ja) * | 2017-03-21 | 2020-12-02 | 富士通株式会社 | 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法 |
US10979805B2 (en) * | 2018-01-04 | 2021-04-13 | Stmicroelectronics, Inc. | Microphone array auto-directive adaptive wideband beamforming using orientation information from MEMS sensors |
CN115359804B (zh) * | 2022-10-24 | 2023-01-06 | 北京快鱼电子股份公司 | 一种基于麦克风阵列的定向音频拾取方法和系统 |
-
2024
- 2024-07-02 CN CN202410875989.4A patent/CN118411999B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108269582A (zh) * | 2018-01-24 | 2018-07-10 | 厦门美图之家科技有限公司 | 一种基于双麦克风阵列的定向拾音方法及计算设备 |
CN112823531A (zh) * | 2018-10-11 | 2021-05-18 | 思科技术公司 | 协作端点中的定向音频拾取 |
Also Published As
Publication number | Publication date |
---|---|
CN118411999A (zh) | 2024-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109767783B (zh) | 语音增强方法、装置、设备及存储介质 | |
Chi et al. | Multiresolution spectrotemporal analysis of complex sounds | |
US20210193149A1 (en) | Method, apparatus and device for voiceprint recognition, and medium | |
US20080288258A1 (en) | Method and apparatus for speech analysis and synthesis | |
CN110111769B (zh) | 一种电子耳蜗控制方法、装置、可读存储介质及电子耳蜗 | |
CN111031463B (zh) | 麦克风阵列性能评测方法、装置、设备和介质 | |
CN110503967B (zh) | 一种语音增强方法、装置、介质和设备 | |
CN108847253B (zh) | 车辆型号识别方法、装置、计算机设备及存储介质 | |
CN112820315A (zh) | 音频信号处理方法、装置、计算机设备及存储介质 | |
CN112259120A (zh) | 基于卷积循环神经网络的单通道人声与背景声分离方法 | |
CN109473091A (zh) | 一种语音样本生成方法及装置 | |
CN112599148A (zh) | 一种语音识别方法及装置 | |
CN111968651A (zh) | 一种基于wt的声纹识别方法及系统 | |
CN118121192A (zh) | 一种基于时频域融合的听觉注意检测方法及其系统 | |
CN117542373A (zh) | 一种非空气传导语音的恢复系统及方法 | |
CN117912491A (zh) | 基于Unet深度卷积的混合声音滤除无人机噪声方法及系统 | |
CN118411999B (zh) | 基于麦克风的定向音频拾取方法和系统 | |
CN112863517A (zh) | 基于感知谱收敛率的语音识别方法 | |
CN111341327A (zh) | 一种基于粒子群算法的说话人语音识别方法、装置和设备 | |
CN116913307A (zh) | 语音处理方法、装置、通信设备及可读存储介质 | |
CN112233693B (zh) | 一种音质评估方法、装置和设备 | |
CN107993666A (zh) | 语音识别方法、装置、计算机设备及可读存储介质 | |
CN114302301A (zh) | 频响校正方法及相关产品 | |
CN113113033A (zh) | 一种音频处理方法、设备及可读存储介质 | |
CN113948088A (zh) | 基于波形模拟的语音识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |