CN115295011A - 一种声音信号处理方法、装置、设备及存储介质 - Google Patents

一种声音信号处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115295011A
CN115295011A CN202210866984.6A CN202210866984A CN115295011A CN 115295011 A CN115295011 A CN 115295011A CN 202210866984 A CN202210866984 A CN 202210866984A CN 115295011 A CN115295011 A CN 115295011A
Authority
CN
China
Prior art keywords
sound signal
short
classification
sound
classification result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210866984.6A
Other languages
English (en)
Inventor
邵子聪
梁伟强
刘俊峰
张莹
冉光伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinghe Zhilian Automobile Technology Co Ltd
Original Assignee
Xinghe Zhilian Automobile Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinghe Zhilian Automobile Technology Co Ltd filed Critical Xinghe Zhilian Automobile Technology Co Ltd
Priority to CN202210866984.6A priority Critical patent/CN115295011A/zh
Publication of CN115295011A publication Critical patent/CN115295011A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明公开了一种声音信号处理方法、装置、设备及存储介质,通过配置的声音传感器获取声音信号;将所述声音信号经过短时傅里叶变换生成短时幅度谱;将所述短时幅度谱经过滤波器滤波处理,生成声谱图;将所述声谱图输入到预先根据卷积神经网络和随机森林模型训练得到的分类模型,输出声音的分类结果;根据分类结果控制对所述声音信号进行增强/减弱处理。根据卷积神经网络和随机森林模型搭建分类模型;将声音信号得到地声谱图输入到预先训练得到的分类模型,输出声音的分类结果;根据输出的分类结果,控制所述声音信号,将声音信号进行增强输出或减弱输出,以保证当前车辆静谧性的同时,能增强驾驶员声音识别能力,提高行驶安全性。

Description

一种声音信号处理方法、装置、设备及存储介质
技术领域
本发明涉及语音识别技术领域,具体地说,涉及一种声音信号处理方法、装置、设备及存储介质。
背景技术
现有车辆都在追求车内静谧性,会采取一些主动噪声控制(active noisecontrol,ANC)或称有源噪声控制。相对于被动噪声控制,有源噪声控制能够有效地控制低频噪声的干扰,其利用声波相消性干涉的原理,系统跟踪被控制噪声源信号,经过自适应滤波算法,产生并发出一个与被控制噪声幅值相同、相位相反的声波信号,两者叠加,抵消为零。
但现有技术中通过ANC降噪后的车辆,会把部分车辆外部的重要声音信息当作“噪声”过滤掉,会导致本身能靠听声辨认出的危险无法被辨认,会降低行驶的安全性。
发明内容
为了解决上述问题,本发明提出一种声音信号处理方法、装置、设备及存储介质,保证当前车辆静谧性的同时,能增强驾驶员声音识别能力,提高行驶安全性。
本发明实施例提供一种声音信号处理方法,所述方法包括:
通过配置的声音传感器获取声音信号;
将所述声音信号经过短时傅里叶变换生成短时幅度谱;
将所述短时幅度谱经过滤波器滤波处理,生成声谱图;
将所述声谱图输入到预先根据卷积神经网络和随机森林模型训练得到的分类模型,输出声音的分类结果;
根据分类结果控制对所述声音信号进行增强/减弱处理。
优选地,所述分类模型的训练过程具体包括:
通过所述声音传感器采集样本信号,将采集的样本信号转换为数字文件存储到云端数据库中;
将存储的数字文件进行短时傅里叶变换,生成短时幅度谱,将生成的短时幅度谱经过滤波器滤波处理生成声谱图;
通过卷积神经网络对生成的声谱图进行中间特征提取,提取中间特征集;
将提取的中间特征集输入到随机森林作为训练样本,通过自助重采样构建决策树样本集,构建决策树;通过中间特征集每次组合的特征子集构建分类回归树;经过多次特征组合和自助重采样后,生成多棵分类回归树形成的随机森林模型;
根据生成的随机森林模型生成样本信号的分类结果,与所述样本信号的结果集对比,确定分类结果的拟合度;
当拟合度不符合预设的阈值条件时,再次提取中间特征集,并根据提取的中间特征集生成随机森林模型,再次根据生成的随机森林模型生成样本信号的分类结果,直到分类结果的拟合度符合所述阈值条件为止;
当拟合度符合预设的阈值条件时,判定训练的模型符合条件,将卷积神经网络和随机森林存储为所述分类模型。
优选地,所述分类结果的输出过程具体包括:
使用所述分类模型中的卷积神经网络提取所述声谱图的中间特征,得到特征图谱;
将所述特征图谱输入到所述分类模型的分类回归树中,统计每棵分类回归树对特征图谱的预测结果;
将统计次数最多的预测结果作为分类结果输出。
作为一种优选方案,所述根据分类结果控制对所述声音信号进行增强/减弱处理,具体包括:
当所述声音信号的分类结果为噪声信号时,生成并输出与所述声音信号幅值相同、相位相反的声波信号,以减弱所述声音信号;
当所述声音信号的分类结果不为噪声信号时,对所述声音信号进行增强输出。
优选地,所述将所述声音信号经过短时傅里叶变换生成短时幅度谱,具体包括:
使用与时间窗口相关的短时傅里叶变换公式将所述声音信号转换成短时幅度谱;
其中,所述短时傅里叶变换公式为
Figure BDA0003759717950000031
Z(u)为声音信号,g(t)为窗口函数,t是帧索引,f是频率。
优选地,所述将所述短时幅度谱经过滤波器滤波处理,生成声谱图,具体包括:
利用三角带通滤波器将所述短时幅度谱映射至梅尔刻度,得到Mel频谱;对Mel频谱所述取对数,生成Mel能量谱;
对生成的Mel能量谱进行逆傅里叶变换,得到MFCC频谱,作为声谱图;
其中,所述短时幅度谱
Figure BDA0003759717950000032
t是帧索引,f是频率,w(n)是分析窗口函数,S(n)表示待转换的信号,N表示采样点个数,所述Mel能量谱
Figure BDA0003759717950000033
所述MFCC频谱
Figure BDA0003759717950000034
Figure BDA0003759717950000035
其中M(k)表示第k个滤波器输出功率谱,L表示滤波器个数。
作为一种优选方案,所述卷积神经网络包括第一卷积层、第一池化层、第二卷积层、第三卷积层、第二池化层、第一全连接层、第二全连接层和输出层:
其中,所述卷积神经网络输入的能量片段大小为64*64,所述第一卷积层的卷积核个数为32,所述第二卷积层的卷积核个数为64,所述第三卷积层的卷积核个数为64,卷积层的卷积核大小均为3*3,卷积窗口步长均为1,所述第一池化层和所述第二池化层的池化窗大小为2*2,池化窗口步长是2,所述第一全连接层和所述第二全连接层的神经元个数为512。所述输出层的神经元个数为15,各层的激活函数均使用ReLU函数。
本发明实施例还提供一种声音信号处理装置,所述装置包括:
信号获取模块,用于通过配置的声音传感器获取声音信号;
傅里叶变换模块,用于将所述声音信号经过短时傅里叶变换生成短时幅度谱;
滤波模块,用于将所述短时幅度谱经过滤波器滤波处理,生成声谱图;
分类模块,用于将所述声谱图输入到预先根据卷积神经网络和随机森林模型训练得到的分类模型,输出声音的分类结果;
处理模块,用于根据分类结果控制对所述声音信号进行增强/减弱处理。
优选地,所述分类模型的训练过程具体包括:
通过所述声音传感器采集样本信号,将采集的样本信号转换为数字文件存储到云端数据库中;
将存储的数字文件进行短时傅里叶变换,生成短时幅度谱,将生成的短时幅度谱经过滤波器滤波处理生成声谱图;
通过卷积神经网络对生成的声谱图进行中间特征提取,提取中间特征集;
将提取的中间特征集输入到随机森林作为训练样本,通过自助重采样构建决策树样本集,构建决策树;通过中间特征集每次组合的特征子集构建分类回归树;经过多次特征组合和自助重采样后,生成多棵分类回归树形成的随机森林模型;
根据生成的随机森林模型生成样本信号的分类结果,与所述样本信号的结果集对比,确定分类结果的拟合度;
当拟合度不符合预设的阈值条件时,再次提取中间特征集,并根据提取的中间特征集生成随机森林模型,再次根据生成的随机森林模型生成样本信号的分类结果,直到分类结果的拟合度符合所述阈值条件为止;
当拟合度符合预设的阈值条件时,判定训练的模型符合条件,将卷积神经网络和随机森林存储为所述分类模型。
优选地,所述分类模块输出所述分类结果的过程具体包括:
使用所述分类模型中的卷积神经网络提取所述声谱图的中间特征,得到特征图谱;
将所述特征图谱输入到所述分类模型的分类回归树中,统计每棵分类回归树对特征图谱的预测结果;
将统计次数最多的预测结果作为分类结果输出。
优选地,所述处理模块具体用于:
当所述声音信号的分类结果为噪声信号时,生成并输出与所述声音信号幅值相同、相位相反的声波信号,以减弱所述声音信号;
当所述声音信号的分类结果不为噪声信号时,对所述声音信号进行增强输出。
优选地,所述傅里叶变换模块具体用于:
使用与时间窗口相关的短时傅里叶变换公式将所述声音信号转换成短时幅度谱;
使用与时间窗口相关的短时傅里叶变换公式将所述声音信号转换成短时幅度谱;
其中,所述短时傅里叶变换公式为
Figure BDA0003759717950000051
Z(u)为声音信号,g(t)为窗口函数,t是帧索引,f是频率。
优选地,所述滤波块具体用于:
利用三角带通滤波器将所述短时幅度谱映射至梅尔刻度,得到Mel频谱;对Mel频谱所述取对数,生成Mel能量谱;
对生成的Mel能量谱进行逆傅里叶变换,得到MFCC频谱,作为声谱图;
其中,所述短时幅度谱
Figure BDA0003759717950000052
t是帧索引,f是频率,w(n)是分析窗口函数,S(n)表示待转换的信号,N表示采样点个数,所述Mel能量谱
Figure BDA0003759717950000053
所述MFCC频谱
Figure BDA0003759717950000054
Figure BDA0003759717950000055
其中M(k)表示第k个滤波器输出功率谱,L表示滤波器个数。
优选地,所述卷积神经网络包括第一卷积层、第一池化层、第二卷积层、第三卷积层、第二池化层、第一全连接层、第二全连接层和输出层:
其中,所述卷积神经网络输入的能量片段大小为64*64,所述第一卷积层的卷积核个数为32,所述第二卷积层的卷积核个数为64,所述第三卷积层的卷积核个数为64,卷积层的卷积核大小均为3*3,卷积窗口步长均为1,所述第一池化层和所述第二池化层的池化窗大小为2*2,池化窗口步长是2,所述第一全连接层和所述第二全连接层的神经元个数为512。所述输出层的神经元个数为15,各层的激活函数均使用ReLU函数。
本发明实施例还提供一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一项实施例所述的一种声音信号处理方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述任一项实施例所述的一种声音信号处理方法。
本发明提供一种声音信号处理方法、装置、设备及存储介质,通过配置的声音传感器获取声音信号;将所述声音信号经过短时傅里叶变换生成短时幅度谱;将所述短时幅度谱经过滤波器滤波处理,生成声谱图;将所述声谱图输入到预先根据卷积神经网络和随机森林模型训练得到的分类模型,输出声音的分类结果;根据分类结果控制对所述声音信号进行增强/减弱处理。根据卷积神经网络和随机森林模型搭建分类模型;将声音信号得到地声谱图输入到预先训练得到的分类模型,输出声音的分类结果;根据输出的分类结果,控制所述声音信号,将声音信号进行增强输出或减弱输出,以保证当前车辆静谧性的同时,能增强驾驶员声音识别能力,提高行驶安全性。
附图说明
图1是本发明实施例提供的一种声音信号处理方法的流程示意图;
图2是本发明的实施例提供的一种分类模型的训练过程的流程示意图;
图3是本发明另一实施例提供的一种声音信号处理方法的流程示意图;
图4是本发明实施例提供的一种短时幅度谱的波形示意图;
图5是本发明实施例提供的滤波过程的流程示意图;
图6是本发明实施例提供的一种卷积神经网络的结构示意图;
图7是本发明实施例提供的一种声音信号处理装置的结构示意图;
图8是本发明实施例提供的一种终端设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
参见图1,是本发明实施例提供的一种声音信号处理方法的流程示意图,所述方法包括步骤S1~S5;
S1,通过配置的声音传感器获取声音信号;
S2,将所述声音信号经过短时傅里叶变换生成短时幅度谱;
S3,将所述短时幅度谱经过滤波器滤波处理,生成声谱图;
S4,将所述声谱图输入到预先根据卷积神经网络和随机森林模型训练得到的分类模型,输出声音的分类结果;
S5,根据分类结果控制对所述声音信号进行增强/减弱处理。
在本实施例具体实施时,在车辆点火启动后,分布在车辆周围的声音传感器开始工作,检测车辆周围的各种声音,采集声音信号;
通过短时傅里叶变换将获取的声音信号转换为短时幅度谱,使得数据更加标准化,以便于后续模型的训练。
将所述短时幅度谱经过滤波器滤波处理,生成声谱图,声谱图同时包含时域和频域信息的图,能完整反映声音的信息。
根据卷积神经网络和随机森林模型搭建分类模型,在使用之前需要进行训练,训练的样本为采集到的样本信号,随着样本累积,分类模型的识别效果会越好;将所述声谱图输入到预先训练得到的分类模型,输出声音的分类结果;
根据输出的分类结果,控制所述声音信号,将声音信号进行增强输出或减弱输出,以保证当前车辆静谧性的同时,能增强驾驶员声音识别能力,提高行驶安全性。
实施例二
在本发明提供的又一实施例中,所述分类模型的训练过程具体包括:
通过所述声音传感器采集样本信号,将采集的样本信号转换为数字文件存储到云端数据库中;
将存储的数字文件进行短时傅里叶变换,生成短时幅度谱,将生成的短时幅度谱经过滤波器滤波处理生成声谱图;
通过卷积神经网络对生成的声谱图进行中间特征提取,提取中间特征集;
将提取的中间特征集输入到随机森林作为训练样本,通过自助重采样构建决策树样本集,构建决策树;通过中间特征集每次组合的特征子集构建分类回归树;经过多次特征组合和自助重采样后,生成多棵分类回归树形成的随机森林模型;
根据生成的随机森林模型生成样本信号的分类结果,与所述样本信号的结果集对比,确定分类结果的拟合度;
当拟合度不符合预设的阈值条件时,再次提取中间特征集,并根据提取的中间特征集生成随机森林模型,再次根据生成的随机森林模型生成样本信号的分类结果,直到分类结果的拟合度符合所述阈值条件为止;
当拟合度符合预设的阈值条件时,判定训练的模型符合条件,存储训练完成的分类模型。
在本实施例具体实施时,参见图2,是本发明的实施例提供的一种分类模型的训练过程的流程示意图;
训练过程具体包括S201~S206:
S201,采集样本信号;
S202,将样本信号以数字文件形式存储到云端数据库;
S203,进行短时傅里叶变换,转换成短时幅度谱;
S204,进行滤波器滤波,生成声谱图;
S205,卷积神经网络进行中间特征提取,确定中间特征集;
S206,进行随机森林训练,构建随机森林模型;
S207,确定样本信号的分类结果,与结果集对比,确定拟合度;
S208,判断拟合度是否大于设定阈值;
S209,若否,判定训练模型不符合条件,返回步骤S205;
S210,若是,判定训练的模型符合条件,存储训练完成的分类模型。
具体的,通过所述声音传感器预先采集样本声音,所述样本声音包括噪声声音和非噪声声音,用于进行模型训练;
将样本信号转换成数字文件,并把数字文件传输到云端数据库中;
数字文件上传到云端数据库中后,就对上传的数字文件进行短时傅里叶变换;
采用短时傅里叶变换,需要根据情况选择运算所需的窗类型及窗数量,可以选择包括hamming窗、gausswin窗、hann窗等19种窗类型,但为便于深度学习统一,在分类模型训练过程中,只允许选择一种窗类型和窗数量。在传统的傅里叶变换中,会在非平稳的信号中会丢失时间信息,采用短时傅里叶变换进行频谱的生成,可以有效保存时间信息。
将生成的短时幅度谱经过滤波器滤波处理生成声谱图;
通过卷积神经网络对生成的声谱图进行中间特征提取,提取中间特征集;
将提取的中间特征集输入到随机森林作为训练样本,通过自助重采样作为构建决策树样本集,然后构建决策树,通过每次组合的特征子集来构建分类回归树。在经过多次的特征组合和自动重采样后,就能生成多棵分类回归树形成最终的随机森林模型。
根据生成的随机森林模型生成样本信号的分类结果,与所述样本信号的结果集对比,确定分类结果的拟合度;
当拟合度不大于设定阈值时,再次提取中间特征集,并根据提取的中间特征集生成随机森林模型,再次根据生成的随机森林模型生成样本信号的分类结果,直到分类结果的拟合度符合所述阈值条件为止;
当拟合度大于设定阈值时,判定训练的模型符合条件,将卷积神经网络和随机森林存储为所述分类模型。
通过对采集的样本文件进行短时傅里叶变换,避免时间信息的丢失,通过对短时幅度谱进行滤波,能完整反映声音的信息,通过卷积神经网络和随机森林构建分类模型,能够对声音信息进行精准分类。通过对分类模型的分类结果与目标结果的拟合度,对分类模型进行校验,最终得到训练完成的分类模型,存储保护满足条件的分类模型。
实施例三
在本发明提供的又一实施例中,所述分类结果的输出过程具体包括:
使用所述分类模型中的卷积神经网络提取所述声谱图的中间特征,得到特征图谱;
将所述特征图谱输入到所述分类模型的分类回归树中,统计每棵分类回归树对特征图谱的预测结果;
将统计次数最多的预测结果作为分类结果输出。
在本实施例具体实施是,在所述声音信号生成的声谱图分类过程中,
需要采用训练完成的分类模型中的卷积神经网络提取所述声谱图的中间特征,得到特征图谱;
将获得的特征图谱输入到所述分类模型中的随机森林模型中,所述随机森林模型的每一分类回归树对特征图谱进行分类判断,生成预测结果;
统计所述随机森林中每一分类回归树的预测结果,将统计次数最多的预测结果作为分类结果输出。
采用预先训练完成的分类模型,实现声音信号的精准分类。
实施例四
在本发明提供的又一实施例中,所述步骤S5具体包括:
当所述声音信号的分类结果为噪声信号时,生成并输出与所述声音信号幅值相同、相位相反的声波信号,以减弱所述声音信号;
当所述声音信号的分类结果不为噪声信号时,对所述声音信号进行增强输出。
在本实施例具体实施时,所述分类模型对所述声音信号进行分类判定;
当所述声音信号的分类结果为噪声信号时,生成与所述声音信号幅值相同、相位相反的声波信号,通过扬声器输出所述声波信号,所述声波信号与所述声音信号相叠加,幅值相抵消,能够减弱,甚至消除噪声信号;
当所述声音信号的分类结果不为噪声信号时,表明所述声音信号对车内驾驶员安全行驶有提示作用,譬如周围车辆的鸣笛声音信号、救护车的警笛信号或交警做出交通指挥的声音信号等。
此时若屏蔽该声音信号,则存在安全隐患问题,此时需要对所述声音信号进行增强输出,具体可通过车内的扩音器将输出所述声音信号;
需要说明的是,当判断为声音信号时,还可通过车内的震动反馈设备,反馈提示给车内驾驶员,以提醒车内驾驶员注意;
震动反馈设备可具体配置在车内方向盘上,以提高震动反馈接收效率。
本实施例还可通过分布在车内四个方向的声音传感器检测的声音信号来判端所述声音信号的来源方向;
当所述声音信号的分类结果不为噪声信号时,通过配置的多个指示灯反馈提示信息,不同指示灯对应不同方向的警示,以提醒驾驶员警示该方向;
在方案具体实施时,参见图3,是本发明另一实施例提供的一种声音信号处理方法的流程示意图;
通过配置在车外的多个声音传感器进行环境音采集,获取车外的环境声音数据,所述声音传感器包括第一麦克风1、第二麦克风2、第三麦克风3和第四麦克风4;
通过短时傅里叶变换生成短时幅度谱;
通过滤波器进行滤波,进行声纹特征提取,滤波过程包括生成Mel声谱图、GT声谱图和提取其他特征;
将进行滤波后的数据分为离线数据和实时数据;其中,离线数据为预先采集的样本信号生成的数据,用于分类模型的训练;实时数据为实时采集的声音信号生成的数据;
对于离线数据,在模型分类过程中,需要基于卷积神经网络进行深度学习,提取中间特征集,再构建随机森林模型的分类算法,并对分类算法进行分类结果的检验,生成训练完成的分类模型;
训练完成的分类模型用于对实时数据进行场景判断,以根据判断结果对声音信号进行增强,输出车辆警告信号,或通过车辆喇叭反馈给驾驶员,或生成车辆场景提示给车辆终端。
通过增强声音信号,帮助听力障碍者也能进行车辆的驾驶,提高车辆对特殊人群中的普及率。
实施例五
在本发明提供的又一实施例中,所述将所述声音信号经过短时傅里叶变换生成短时幅度谱,具体包括:
使用与时间窗口相关的短时傅里叶变换公式将所述声音信号转换成短时幅度谱;
其中,所述短时傅里叶变换公式为
Figure BDA0003759717950000121
Z(u)为声音信号,g(t)为窗口函数,t是帧索引,f是频率,w(n)是分析窗口函数。
在本实施例具体实施时,短时傅里叶转换就是将整个傅里叶变换加上窗口概念,在窗口时间内进行傅里叶变换,然后再把各个窗口串起来。
根据与时间窗口相关的短时傅里叶变换公式对输入的声音信号进行变换,生成短时幅度谱;
所述短时傅里叶变换公式
Figure BDA0003759717950000131
其中,Z(u)为源信号,g(u-t)为窗口函数,t是帧索引,f是频率。
参见图4,是本发明实施例提供的一种短时幅度谱的波形示意图;
根据与时间窗口相关的短时傅里叶变换公式对输入的声音信号进行变换,能将声音信号转换成图4中的频谱图:
实施例六
在本发明提供的又一实施例中,所述将所述短时幅度谱经过滤波器滤波处理,生成声谱图,具体包括:
利用三角带通滤波器将所述短时幅度谱映射至梅尔刻度,得到Mel频谱;对Mel频谱所述取对数,生成Mel能量谱;
对生成的Mel能量谱进行逆傅里叶变换,得到MFCC频谱,作为声谱图;
其中,所述短时幅度谱
Figure BDA0003759717950000132
t是帧索引,f是频率,w(n)是分析窗口函数,S(n)表示待转换的信号,N表示采样点个数,所述Mel能量谱
Figure BDA0003759717950000133
所述MFCC频谱
Figure BDA0003759717950000134
Figure BDA0003759717950000135
其中M(k)表示第k个滤波器输出功率谱,L表示滤波器个数。
在本实施例具体实施时,参见图5,是本发明实施例提供的滤波过程的流程示意图;
声音传感器获取的声音信号作为时域信号输入到傅里叶变换DFT中,进行短时傅里叶变换,将生成的短时幅度谱作为线性频谱输入到Mel滤波器组,生成滤波后的声音谱图;
Mel滤波器组是根据人耳对高频率段敏感比较弱,而对于低频率敏感比较强的特性设计的,能够针对人耳特征进行滤波,提高声音信号信息的准确性。
Mel滤波器组利用三角带通波滤器将频谱映射至梅尔刻度,得到Mel频谱,再取得对数log,得到对数频域的Mel能量谱;
对Mel能量谱进行逆傅里叶变换DCT后,得到MFCC频谱,作为声谱图;
其中,所述短时幅度谱
Figure BDA0003759717950000141
t是帧索引,f是频率,w(n)是分析窗口函数,S(n)表示待转换的信号,N表示采样点个数,所述Mel能量谱
Figure BDA0003759717950000142
所述MFCC频谱
Figure BDA0003759717950000143
Figure BDA0003759717950000144
其中M(k)表示第k个滤波器输出功率谱,L表示滤波器个数。
实施例七
在本发明提供的又一实施例中,所述卷积神经网络包括第一卷积层、第一池化层、第二卷积层、第三卷积层、第二池化层、第一全连接层、第二全连接层和输出层:
其中,所述卷积神经网络输入的能量片段大小为64*64,所述第一卷积层的卷积核个数为32,所述第二卷积层的卷积核个数为64,所述第三卷积层的卷积核个数为64,卷积层的卷积核大小均为3*3,卷积窗口步长均为1,所述第一池化层和所述第二池化层的池化窗大小为2*2,池化窗口步长是2,所述第一全连接层和所述第二全连接层的神经元个数为512。所述输出层的神经元个数为15,各层的激活函数均使用ReLU函数。
在本实施例具体实施时,参见图6,是本发明实施例提供的一种卷积神经网络的结构示意图:
将滤波后的声谱图作为训练集输入到卷积神经网络中,卷积神经网络包括第一卷积层conv1、第一池化层pool1、第二卷积层conv2、第三卷积层conv3、第二池化层pool2、第一全连接层fullcon1、第二全连接层fullcon2和输出层;
输入的训练集为512张64×64大小的能量片段,第一卷积层conv1、第二卷积层conv2和第三卷积层conv3的卷积核大小均为3×3,卷积窗口步长是1。第一卷积层conv1、第二卷积层conv2和第三卷积层conv3的卷积核个数分别为32,64,64。第一池化层pool1和第二池化层pool2的池化窗大小是2×2,池化窗口步长是2。第一全连接层fullcon1和第二全连接层fullcon1的神经元个数则为512,输出层的神经元个数是15,各层激活函数均使用ReLU。
通过卷积神经网络进行中间特征集提取,保证中间特征的准确性,用于随机森林模型的分类预测,提高分类预测的准确率。
实施例八
参见图7,是本发明实施例提供的一种声音信号处理装置的结构示意图,所述装置包括:信号获取模块、傅里叶变换模块、滤波模块、分类模块和处理模块;
信号获取模块,用于通过配置的声音传感器获取声音信号;
傅里叶变换模块,用于将所述声音信号经过短时傅里叶变换生成短时幅度谱;
滤波模块,用于将所述短时幅度谱经过滤波器滤波处理,生成声谱图;
分类模块,用于将所述声谱图输入到预先根据卷积神经网络和随机森林模型训练得到的分类模型,输出声音的分类结果;
处理模块,用于根据分类结果控制对所述声音信号进行增强/减弱处理。
本实施例提供的声音信号处理装置,能够执行上述任一实施例提供的声音信号处理方法的所有步骤与功能,在此对该装置的具体功能不作赘述。
实施例九
参见图8,是本发明实施例提供的一种终端设备的结构示意图。所述终端设备包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,例如一种声音信号处理程序。所述处理器执行所述计算机程序时实现上述各个一种声音信号处理方法实施例中的步骤,例如图1所示的步骤S~S5。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块的功能。
示例性的,所述计算机程序可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述一种声音信号处理装置中的执行过程。例如,所述计算机程序可以被分割成检测模块、输出功率控制模块和车窗控制模块,各模块具体功能在上述任一实施例提供的一种声音信号处理方法中已作详细说明,在此对该装置的具体功能不作赘述。
所述一种声音信号处理装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述一种声音信号处理装置可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述示意图仅仅是一种声音信号处理装置的示例,并不构成对一种声音信号处理装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述一种声音信号处理装置还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述一种声音信号处理装置的控制中心,利用各种接口和线路连接整个一种声音信号处理装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述一种声音信号处理装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述一种声音信号处理装置集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种声音信号处理方法,其特征在于,所述方法包括:
通过配置的声音传感器获取声音信号;
将所述声音信号经过短时傅里叶变换生成短时幅度谱;
将所述短时幅度谱经过滤波器滤波处理,生成声谱图;
将所述声谱图输入到预先根据卷积神经网络和随机森林模型训练得到的分类模型,输出声音的分类结果;
根据分类结果控制对所述声音信号进行增强/减弱处理。
2.根据权利要求1所述的声音信号处理方法,其特征在于,所述分类模型的训练过程具体包括:
通过所述声音传感器采集样本信号,将采集的样本信号转换为数字文件存储到云端数据库中;
将存储的数字文件进行短时傅里叶变换,生成短时幅度谱,将生成的短时幅度谱经过滤波器滤波处理生成声谱图;
通过卷积神经网络对生成的声谱图进行中间特征提取,提取中间特征集;
将提取的中间特征集输入到随机森林作为训练样本,通过自助重采样构建决策树样本集,构建决策树;通过中间特征集每次组合的特征子集构建分类回归树;经过多次特征组合和自助重采样后,生成多棵分类回归树形成的随机森林模型;
根据生成的随机森林模型生成样本信号的分类结果,与所述样本信号的结果集对比,确定分类结果的拟合度;
当拟合度不符合预设的阈值条件时,再次提取中间特征集,并根据提取的中间特征集生成随机森林模型,再次根据生成的随机森林模型生成样本信号的分类结果,直到分类结果的拟合度符合所述阈值条件为止;
当拟合度符合预设的阈值条件时,判定训练的模型符合条件,将卷积神经网络和随机森林存储为所述分类模型。
3.根据权利要求1所述的声音信号处理方法,其特征在于,所述分类结果的输出过程具体包括:
使用所述分类模型中的卷积神经网络提取所述声谱图的中间特征,得到特征图谱;
将所述特征图谱输入到所述分类模型的分类回归树中,统计每棵分类回归树对特征图谱的预测结果;
将统计次数最多的预测结果作为分类结果输出。
4.根据权利要求1所述的声音信号处理方法,其特征在于,所述根据分类结果控制对所述声音信号进行增强/减弱处理,具体包括:
当所述声音信号的分类结果为噪声信号时,生成并输出与所述声音信号幅值相同、相位相反的声波信号,以减弱所述声音信号;
当所述声音信号的分类结果不为噪声信号时,对所述声音信号进行增强输出。
5.根据权利要求1所述的声音信号处理方法,其特征在于,所述将所述声音信号经过短时傅里叶变换生成短时幅度谱,具体包括:
使用与时间窗口相关的短时傅里叶变换公式将所述声音信号转换成短时幅度谱;
其中,所述短时傅里叶变换公式为
Figure FDA0003759717940000021
Z(u)为声音信号,g(t)为窗口函数,t是帧索引,f是频率。
6.根据权利要求1所述的声音信号处理方法,其特征在于,所述将所述短时幅度谱经过滤波器滤波处理,生成声谱图,具体包括:
利用三角带通滤波器将所述短时幅度谱映射至梅尔刻度,得到Mel频谱;对Mel频谱所述取对数,生成Mel能量谱;
对生成的Mel能量谱进行逆傅里叶变换,得到MFCC频谱,作为声谱图;
其中,所述短时幅度谱
Figure FDA0003759717940000031
t是帧索引,f是频率,w(n)是分析窗口函数,S(n)表示待转换的信号,N表示采样点个数,所述Mel能量谱
Figure FDA0003759717940000032
所述MFCC频谱
Figure FDA0003759717940000033
Figure FDA0003759717940000034
其中M(k)表示第k个滤波器输出功率谱,L表示滤波器个数。
7.根据权利要求1所述的声音信号处理方法,其特征在于,所述卷积神经网络包括第一卷积层、第一池化层、第二卷积层、第三卷积层、第二池化层、第一全连接层、第二全连接层和输出层:
其中,所述卷积神经网络输入的能量片段大小为64*64,所述第一卷积层的卷积核个数为32,所述第二卷积层的卷积核个数为64,所述第三卷积层的卷积核个数为64,卷积层的卷积核大小均为3*3,卷积窗口步长均为1,所述第一池化层和所述第二池化层的池化窗大小为2*2,池化窗口步长是2,所述第一全连接层和所述第二全连接层的神经元个数为512。所述输出层的神经元个数为15,各层的激活函数均使用ReLU函数。
8.一种声音信号处理装置,其特征在于,所述装置包括:
信号获取模块,用于通过配置的声音传感器获取声音信号;
傅里叶变换模块,用于将所述声音信号经过短时傅里叶变换生成短时幅度谱;
滤波模块,用于将所述短时幅度谱经过滤波器滤波处理,生成声谱图;
分类模块,用于将所述声谱图输入到预先根据卷积神经网络和随机森林模型训练得到的分类模型,输出声音的分类结果;
处理模块,用于根据分类结果控制对所述声音信号进行增强/减弱处理。
9.一种终端设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的声音信号处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的声音信号处理方法。
CN202210866984.6A 2022-07-22 2022-07-22 一种声音信号处理方法、装置、设备及存储介质 Pending CN115295011A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210866984.6A CN115295011A (zh) 2022-07-22 2022-07-22 一种声音信号处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210866984.6A CN115295011A (zh) 2022-07-22 2022-07-22 一种声音信号处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115295011A true CN115295011A (zh) 2022-11-04

Family

ID=83824597

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210866984.6A Pending CN115295011A (zh) 2022-07-22 2022-07-22 一种声音信号处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115295011A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116013095A (zh) * 2023-03-24 2023-04-25 中国科学技术大学先进技术研究院 红绿灯时间动态控制方法、装置、设备及可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116013095A (zh) * 2023-03-24 2023-04-25 中国科学技术大学先进技术研究院 红绿灯时间动态控制方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
Dennis et al. Image feature representation of the subband power distribution for robust sound event classification
CN110600059B (zh) 声学事件检测方法、装置、电子设备及存储介质
CN115116232B (zh) 汽车鸣笛的声纹比较方法、装置、设备及存储介质
CN111261189B (zh) 一种车辆声音信号特征提取方法
CN109147798B (zh) 语音识别方法、装置、电子设备及可读存储介质
CN108847253B (zh) 车辆型号识别方法、装置、计算机设备及存储介质
CN107682781A (zh) 一种电动汽车的模拟音频发声方法
CN115295011A (zh) 一种声音信号处理方法、装置、设备及存储介质
Duan et al. Acoustic component detection for automatic species recognition in environmental monitoring
CN112382302A (zh) 婴儿哭声识别方法及终端设备
CN115331656A (zh) 非指令语音的拒识方法、车载语音识别系统及汽车
CN110767215A (zh) 一种训练语音识别模型、识别语音的方法及装置
Murugaiya et al. Probability enhanced entropy (PEE) novel feature for improved bird sound classification
JP2008215874A (ja) エンジン音認識装置および駐車場管理システム
Xie et al. Acoustic feature extraction using perceptual wavelet packet decomposition for frog call classification
CN116312561A (zh) 一种电力调度系统人员声纹识别鉴权降噪和语音增强方法、系统及装置
Hajihashemi et al. Novel time-frequency based scheme for detecting sound events from sound background in audio segments
CN116312516A (zh) 一种用户语音隐私保护方法及系统
CN112908344B (zh) 一种鸟鸣声智能识别方法、装置、设备和介质
Can et al. Recognition of vessel acoustic signatures using non-linear teager energy based features
CN113658607A (zh) 基于数据增强和卷积循环神经网络的环境声音分类方法
CN114763097A (zh) 一种车外鸣笛智能警示控制方法和系统
CN111899724A (zh) 基于希尔伯特黄变换的语音特征系数提取方法及相关设备
JP2968976B2 (ja) 音声認識装置
CN117854540B (zh) 基于神经网络和多维特征融合的水声目标识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination