CN112735467A - 一种基于序列神经网络自动编码解码器的风叶声音边界定位方法和存储设备 - Google Patents
一种基于序列神经网络自动编码解码器的风叶声音边界定位方法和存储设备 Download PDFInfo
- Publication number
- CN112735467A CN112735467A CN202011575238.9A CN202011575238A CN112735467A CN 112735467 A CN112735467 A CN 112735467A CN 202011575238 A CN202011575238 A CN 202011575238A CN 112735467 A CN112735467 A CN 112735467A
- Authority
- CN
- China
- Prior art keywords
- sequence
- result
- input
- label
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及音频数据处理领域,特别涉及一种基于序列神经网络自动编码解码器的风叶声音边界定位方法和存储设备。所述一种基于序列神经网络自动编码解码器的风叶声音边界定位方法,包括步骤:对输入的声音信号进行特征提取得特征序列;输入特征序列至预先设计的编码解码器得标签序列,每个标签对应输入序列的两个点位;根据预设规则对所述标签序列进行调整处理得风叶声音的边界位置。通过实验数据证明,根据以上步骤可取得更准确的风叶声音的边界位置。
Description
技术领域
本发明涉及音频数据处理领域,特别涉及一种基于序列神经网络自动编码解码器的风叶声音边界定位方法和存储设备。
背景技术
风电叶片是风机捕获风能的核心部件,需要长期可靠地运行在极其恶劣的户外环境下,难免会遭受雷击、环境腐蚀等影响,从而造成穿孔、脱漆,变形等损伤。对这些损伤进行检测一般需要通过停机通过望远镜进行检测,也有一些通过无人机拍摄视频进行检测,也有一些通过采集风叶扫风声音进行故障检测,但这种基于声音检测的前提是:可以在复杂的充满各种噪声的环境下准确定界出风叶扫风的声音边界,从而提取出风叶声音的频谱特征,进行下一步的故障判断。
故此如何在复杂环境下,准确地提取出风叶声音的频谱特征成了亟需解决的技术问题。
在申请号201810962524.7《一种寻找非稳态时间序列微弱尖峰的方法》中提出获取一维的时间序列数据作为待处理信号;然后计算所述时间序列数据的一阶差分;根据计算的差分寻找所述时间序列数据中所有尖峰;估算噪声幅值;滤除较小尖峰,保留较大尖峰即为所求的信号尖峰。该方法的不足之处是,当叠加一个周期性背景信号时,可能采集到的尖峰是周期性背景信号,而不是真正想要的真实信号。
在申请号201810101218.4《一种音频句子边界检测方法》提出一种音频句子边界检测方法:针对歌声音频的分句问题,根据人耳听觉感知特性对演唱歌声采用CQT进行时频转换,通过子带谱熵法对演唱歌声进行细粒度的端点检测;在此基础上,利用演唱歌声句子之间停顿和发音间隔较长的特点,基于K-means算法进行聚类分析得到分句端点位置,可较好的得到清唱音频句子之间的边界点,并自适应不同节奏的音乐。该方法的缺点是主要针对清唱音频句子之间分句,但针对风叶声音,由于环境复杂,往往夹杂着连续的背景噪声,效果并不确定。如果背景叠加周期性噪声还可能导致聚类失败。
在申请号201880089324.3《学习装置,声音区间检测装置及声音区间检测方法》提出使用输入声音信号区间叠加噪声区间的混合声音以及噪声作为数据输入网络进行学习,其缺点是,使用的神经网络模型层主要基于多层感知机,并不能学习到某些声音在时间序列上的特性,也不能利用某些声音的周期性特性,因此应用场景有限。
发明内容
为此,需要提供一种基于序列神经网络自动编码解码器的风叶声音边界定位方法,用以解决现有技术无法在复杂的充满各种噪声的环境下准确定界出风叶扫风的声音边界的技术问题。具体技术方案如下:
一种基于序列神经网络自动编码解码器的风叶声音边界定位方法,包括步骤:
对输入的声音信号进行特征提取得特征序列;
输入特征序列至预先设计的编码解码器得标签序列,每个标签对应输入序列的两个点位;
根据预设规则对所述标签序列进行调整处理得风叶声音的边界位置。
进一步的,所述“输入特征序列至预先设计的编码解码器得标签序列,每个标签对应输入序列的两个点位”,具体还包括步骤:
通过编码器将输入的特征序列编码成列的状态信息;
解码器根据所述输入的特征序列和所述状态信息解码出特征序列对应的标签序列。
进一步的,所述“通过编码器将输入的特征序列编码成列的状态信息”,具体还包括步骤:
对输入的特征序列进行一维卷积计算得第一结果;
对所述第一结果进行批标准化得第二结果;
对第二结果进行最大池化计算得第三结果;
输入第三结果至长短时记忆网络得成列的状态信息。
进一步的,所述“解码器根据所述输入的特征序列和所述状态信息解码出特征序列对应的标签序列”,还包括步骤:
对输入的特征序列进行一维卷积计算得第四结果;
对所述第四结果进行批标准化得第五结果;
对第五结果进行最大池化计算得第六结果;
输入所述状态信息和所述第六结果至长短时记忆网络得第七结果;
输入第七结果至全连接层并进行向量尺寸变换得输入的特征序列对应的标签序列。
进一步的,所述“根据预设规则对所述标签序列进行调整处理得风叶声音的边界位置”,具体还包括步骤:
对所述标签序列进行尖峰滤除;
对尖峰滤除后的标签序列进行扩采样;
寻找扩采样后的标签序列的跳变沿,得风叶声音的边界位置。
为解决上述技术问题,还提供了一种存储设备,具体技术方案如下:
一种存储设备,其中存储有指令集,所述指令集用于执行:
对输入的声音信号进行特征提取得特征序列;
输入特征序列至预先设计的编码解码器得标签序列,每个标签对应输入序列的两个点位;
根据预设规则对所述标签序列进行调整处理得风叶声音的边界位置。
进一步的,所述“输入特征序列至预先设计的编码解码器得标签序列,每个标签对应输入序列的两个点位”,具体还包括步骤:
通过编码器将输入的特征序列编码成列的状态信息;
解码器根据所述输入的特征序列和所述状态信息解码出特征序列对应的标签序列。
进一步的,所述指令集还用于执行:所述“通过编码器将输入的特征序列编码成列的状态信息”,具体还包括步骤:
对输入的特征序列进行一维卷积计算得第一结果;
对所述第一结果进行批标准化得第二结果;
对第二结果进行最大池化计算得第三结果;
输入第三结果至长短时记忆网络得成列的状态信息。
进一步的,所述指令集还用于执行:所述“解码器根据所述输入的特征序列和所述状态信息解码出特征序列对应的标签序列”,还包括步骤:
对输入的特征序列进行一维卷积计算得第四结果;
对所述第四结果进行批标准化得第五结果;
对第五结果进行最大池化计算得第六结果;
输入所述状态信息和所述第六结果至长短时记忆网络得第七结果;
输入第七结果至全连接层并进行向量尺寸变换得输入的特征序列对应的标签序列。
进一步的,所述指令集还用于执行:所述“根据预设规则对所述标签序列进行调整处理得风叶声音的边界位置”,具体还包括步骤:
对所述标签序列进行尖峰滤除;
对尖峰滤除后的标签序列进行扩采样;
寻找扩采样后的标签序列的跳变沿,得风叶声音的边界位置。
本发明的有益效果是:通过对输入的声音信号进行特征提取得特征序列;输入特征序列至预先设计的编码解码器得标签序列,每个标签对应输入序列的两个点位;根据预设规则对所述标签序列进行调整处理得风叶声音的边界位置。通过实验数据证明,根据以上步骤可取得更准确的风叶声音的边界位置。
附图说明
图1为具体实施方式所述一种基于序列神经网络自动编码解码器的风叶声音边界定位方法的流程示意图;
图2为具体实施方式所述输入特征序列至预先设计的编码解码器得标签序列的过程示意图;
图3为具体实施方式所述滑动窗口示意图;
图4为具体实施方式所述效果示意图一;
图5为具体实施方式所述效果示意图二;
图6为具体实施方式所述效果示意图三;
图7为具体实施方式所述一种存储设备的模块示意图。
附图标记说明:
700、存储设备。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
请参阅图1至图2,在本实施方式中,所述一种基于序列神经网络自动编码解码器的风叶声音边界定位方法可应用在一种存储设备上,所述存储设备包括但不限于:个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备等。
具体技术方案如下:
步骤S101:对输入的声音信号进行特征提取得特征序列。具体可如下:
输入为声音信号,然后使用python_speech_features库中的梅尔滤波器能量特征对数函数(logfbank)作为特征提取函数(并不局限与这个特征提取函数,也可以使用MFCC等技术,此处只是举出一个例子,将声音信号转化成特征序列。本实施方式中特征提取时的分析窗口参数采用25ms,窗口参数采用10ms,FFT大小使用512,滤波器个数使用40。特征函数的这些参数设定可以根据具体场景调整。
输出为特征序列,本实施方式中特征函数输出序列的尺寸:n*filters,n为特征提取函数计算后输出的序列化长度,filters是特征维数,也就是特征提取函数的滤波器个数决定。
步骤S102:输入特征序列至预先设计的编码解码器得标签序列,每个标签对应输入序列的两个点位。具体还包括步骤:
通过编码器将输入的特征序列编码成列的状态信息;
解码器根据所述输入的特征序列和所述状态信息解码出特征序列对应的标签序列。
以下对预先设计的编码解码器进行说明:
1)、模型的神经网络结构
图2为自构建的基于序列神经网络的自动编码解码器模型的神经网络结构。
模型的神经网络结构实际上是定义了输入的特征序列的计算流程,通过一些基本计算单元的组合实施,得到最终的计算结果。这个神经网络结构一般通过深度学习框架软件进行描述,比如tensorflow、pytorch等。
其中神经网络结构主要由编码器和解码器两大部份组成:
其中编码器将输入的序列特征编码成一些列的状态信息。
解码器通过同样的输入序列和编码的状态信息解码出特征序列每两个点位对应的标签值,标签有0和1两个取值,一个代表有风叶声音,一个代表无风叶声音。
神经网络的一些计算算子说明如下:
InputLayer:输入的序列特征,也就是模块1的输出通过滑动窗口切割,形成sequence*dims的序列输入模型,其中sequence是一次计算的输入序列长度。本次为600(可根据场景调整),设置长度多少需要考虑让网络学习到风叶转动时的周期性特征,另一方面也在训练时间上取个折衷点,样本序列的长度越长,训练学习的时间越长。dims设计为40,与特征提取函数的滤波器个数一致。
Conv1D:一维卷积计算,本模型的中的作用主要是结合MaxPooling1D算子,将输入的特征序列降采样到300*40的序列,以降低后面LSTM(长短时记忆网络)的计算量。
MaxPooling1D:最大池化计算,取出特征窗口的最大值。
BatchNormalization:批标准化,主要用于模型训练时容易收敛。
LSTM:长短时记忆网络,该网络主要用于同时记住空间维度方向及时间轴方向的最主要特征信息。
Dense:全连接层,该设计中将LSTM的每个时间步的解码输出变化成标签值,从而得到一个300*1的向量。
Reshape:向量尺寸变换,变成1*300,从而与降采样后的特征序列一一对应。
需要说明的是,图2中的只是模型的网络结构图,初始时这些网络节点分配的只是按照一定规则产生的随机值,实际应用前还需要通过大量的标注过的特征序列进行训练,从而学习到这些模型的各节点参数。
2)、模型的训练和参数学习
模型的训练采用有监督学习方法,就是根据业界通用的反向传播算法对模型进行训练。训练时输入批量的特征序列以及序列对应的标签值进行训练。
以下是一个样本实例的部份截取:
特征序列:
[[[13.473806 15.516078 15.859507 ... 11.730979 11.734265 11.829893]
[12.427832 15.097347 16.924374...9.337402 9.157328 9.206637]
[14.056462 16.20725 17.047201...9.178602 9.00313 8.57373]
...
[11.858763 10.32936 11.224598...8.918824 8.9645815 8.916272]
[14.911848 12.413799 13.946741...7.3310204 7.0010357 7.371671]
[15.536036 14.476346 13.816524...6.4880443 6.570607 6.5870194]]]
shape=(16,600,40)
对应的标签:
[[[1.1.1....0.0.0.]]
[[0.0.0....0.0.0.]]
[[0.0.0....0.0.0.]]
...
[[0.0.0....0.0.0.]]
[[1.1.1....0.0.0.]]
[[0.0.0....0.0.0.]]],shape=(16,1,300)
上述样例的16代表每次输入16个样本进行训练,可以根据内存或显卡的内存容量进行调整。
3)、模型的实际部署使用
模型实际部署时,将声音信号转化成序列特征,然后对序列特征按窗口滑动截取成sequence*dims,输入到训练好的模型进行计算。最后一个滑动窗口序列特征由结束点往回采集sequence长度来实现。由于模型做了一维卷积的降采样,因此sequence*dims的输入序列,计算后得出的结果是sequence/2长度的序列标签,每个标签对应输入序列的两个点位。如图3所示。
模型的针对序列特征的每个时间步进行计算,计算后的输出实际上是0~1之间的概率值,我们设定阈值为0.7转化为最后的预测标签值。阈值的设计会影响实际的精确率和召回率,可以根据实际场景调整。
经过阈值判断后,输出的标签序列为[1,1,1,1,1,0,0,0,…1,1,1,1…],1的位置代表预测为有风叶声音,0代表无风叶声音。
其中窗口交叠部份的标签输出为两次对同一位置计算结果做逻辑“或”运算,这样可以避免序列特征做窗口切割时,边界部份没有充分利用到时间维度上的信息。
在建立好编码解码器后,进一步的,所述“通过编码器将输入的特征序列编码成列的状态信息”,具体还包括步骤:
对输入的特征序列进行一维卷积计算得第一结果;
对所述第一结果进行批标准化得第二结果;
对第二结果进行最大池化计算得第三结果;
输入第三结果至长短时记忆网络得成列的状态信息。
所述“解码器根据所述输入的特征序列和所述状态信息解码出特征序列对应的标签序列”,还包括步骤:
对输入的特征序列进行一维卷积计算得第四结果;
对所述第四结果进行批标准化得第五结果;
对第五结果进行最大池化计算得第六结果;
输入所述状态信息和所述第六结果至长短时记忆网络得第七结果;
输入第七结果至全连接层并进行向量尺寸变换得输入的特征序列对应的标签序列。
步骤S103:根据预设规则对所述标签序列进行调整处理得风叶声音的边界位置。具体还包括步骤:
对所述标签序列进行尖峰滤除。具体可如下:由于在每个时间步的预测输出是概率值,经过阈值判断后可能某些地方有尖峰,比如出现[…1,1,1,0,1,1,…]或者[…0,0,0,1,0,…]。
第1个标签序列需要将其中的单独的“0”改成“1”,第2个标签序列需要将单独的“1”改成“0”。因为风叶扫风有声音是个连续过程,无声音也是个连续过程,中间不会出现瞬变,因此,这种滤除尖峰的处理可以进一步提升准确率。
对尖峰滤除后的标签序列进行扩采样。具体可如下:由于模型为了降低计算量,用MaxpooLing1D做了一次降采样,因此最后计算出的标签值长度只有输入特征序列长度的一半,需要做一次扩采样与特征序列长度一一对应。方法就是简单的把每个标签值复制一次。
实例:
计算得到的标签序列[1,1,1,1,0,0,0,0,0]
扩采样后的标签序列[1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0]。
寻找扩采样后的标签序列的跳变沿,得风叶声音的边界位置。具体可如下:寻找扩采样后标签序列的跳变沿,从0到1代表风叶声音开始,从1到0代表风叶声音结束,因此就得到风叶声音的边界位置。
请参阅图4至图6,其中线在上方的代表人工听到的声音边界,线在下方的表示本申请方案标注的声音边界。图4为风机1:正常叶片。图5为风机2:其中两个风叶声音持续时间较长,一个风叶持续时间较短,从图中可以看出,即使较短的风叶声音,边界也可以识别出来。图6为风机3:噪声较多环境下的定界结果,抗噪声能力较强。
通过对输入的声音信号进行特征提取得特征序列;输入特征序列至预先设计的编码解码器得标签序列,每个标签对应输入序列的两个点位;根据预设规则对所述标签序列进行调整处理得风叶声音的边界位置。通过实验数据证明,根据以上步骤可取得更准确的风叶声音的边界位置。
请参阅图2至图7,在本实施方式中,一种存储设备700的具体实施方式如下:
一种存储设备700,其中存储有指令集,所述指令集用于执行:
对输入的声音信号进行特征提取得特征序列。具体可如下:
输入为声音信号,然后使用python_speech_features库中的梅尔滤波器能量特征对数函数(logfbank)作为特征提取函数(并不局限与这个特征提取函数,也可以使用MFCC等技术,此处只是举出一个例子,将声音信号转化成特征序列。本实施方式中特征提取时的分析窗口参数采用25ms,窗口参数采用10ms,FFT大小使用512,滤波器个数使用40。特征函数的这些参数设定可以根据具体场景调整。
输出为特征序列,本实施方式中特征函数输出序列的尺寸:n*filters,n为特征提取函数计算后输出的序列化长度,filters是特征维数,也就是特征提取函数的滤波器个数决定。
输入特征序列至预先设计的编码解码器得标签序列,每个标签对应输入序列的两个点位。具体还包括步骤:
通过编码器将输入的特征序列编码成列的状态信息;
解码器根据所述输入的特征序列和所述状态信息解码出特征序列对应的标签序列。
以下对预先设计的编码解码器进行说明:
1)、模型的神经网络结构
图2为自构建的基于序列神经网络的自动编码解码器模型的神经网络结构。模型的神经网络结构实际上是定义了输入的特征序列的计算流程,通过一些基本计算单元的组合实施,得到最终的计算结果。这个神经网络结构一般通过深度学习框架软件进行描述,比如tensorflow、pytorch等。
其中神经网络结构主要由编码器和解码器两大部份组成:
其中编码器将输入的序列特征编码成一些列的状态信息。
解码器通过同样的输入序列和编码的状态信息解码出特征序列每两个点位对应的标签值,标签有0和1两个取值,一个代表有风叶声音,一个代表无风叶声音。
神经网络的一些计算算子说明如下:
InputLayer:输入的序列特征,也就是模块1的输出通过滑动窗口切割,形成sequence*dims的序列输入模型,其中sequence是一次计算的输入序列长度。本次为600(可根据场景调整),设置长度多少需要考虑让网络学习到风叶转动时的周期性特征,另一方面也在训练时间上取个折衷点,样本序列的长度越长,训练学习的时间越长。dims设计为40,与特征提取函数的滤波器个数一致。
Conv1D:一维卷积计算,本模型的中的作用主要是结合MaxPooling1D算子,将输入的特征序列降采样到300*40的序列,以降低后面LSTM(长短时记忆网络)的计算量。
MaxPooling1D:最大池化计算,取出特征窗口的最大值。
BatchNormalization:批标准化,主要用于模型训练时容易收敛。
LSTM:长短时记忆网络,该网络主要用于同时记住空间维度方向及时间轴方向的最主要特征信息。
Dense:全连接层,该设计中将LSTM的每个时间步的解码输出变化成标签值,从而得到一个300*1的向量。
Reshape:向量尺寸变换,变成1*300,从而与降采样后的特征序列一一对应。
需要说明的是,图2中的只是模型的网络结构图,初始时这些网络节点分配的只是按照一定规则产生的随机值,实际应用前还需要通过大量的标注过的特征序列进行训练,从而学习到这些模型的各节点参数。
2)、模型的训练和参数学习
模型的训练采用有监督学习方法,就是根据业界通用的反向传播算法对模型进行训练。训练时输入批量的特征序列以及序列对应的标签值进行训练。
以下是一个样本实例的部份截取:
特征序列:
[[[13.473806 15.516078 15.859507...11.730979 11.734265 11.829893]
[12.427832 15.097347 16.924374...9.337402 9.157328 9.206637]
[14.056462 16.20725 17.047201...9.178602 9.00313 8.57373]
...
[11.858763 10.32936 11.224598...8.918824 8.9645815 8.916272]
[14.911848 12.413799 13.946741...7.3310204 7.0010357 7.371671]
[15.536036 14.476346 13.816524...6.4880443 6.570607 6.5870194]]]
shape=(16,600,40)
对应的标签:
[[[1.1.1....0.0.0.]]
[[0.0.0....0.0.0.]]
[[0.0.0....0.0.0.]]
...
[[0.0.0....0.0.0.]]
[[1.1.1....0.0.0.]]
[[0.0.0....0.0.0.]]],shape=(16,1,300)
上述样例的16代表每次输入16个样本进行训练,可以根据内存或显卡的内存容量进行调整。
3)、模型的实际部署使用
模型实际部署时,将声音信号转化成序列特征,然后对序列特征按窗口滑动截取成sequence*dims,输入到训练好的模型进行计算。最后一个滑动窗口序列特征由结束点往回采集sequence长度来实现。由于模型做了一维卷积的降采样,因此sequence*dims的输入序列,计算后得出的结果是sequence/2长度的序列标签,每个标签对应输入序列的两个点位。如图3所示。
模型的针对序列特征的每个时间步进行计算,计算后的输出实际上是0~1之间的概率值,我们设定阈值为0.7转化为最后的预测标签值。阈值的设计会影响实际的精确率和召回率,可以根据实际场景调整。
经过阈值判断后,输出的标签序列为[1,1,1,1,1,0,0,0,…1,1,1,1…],1的位置代表预测为有风叶声音,0代表无风叶声音。
其中窗口交叠部份的标签输出为两次对同一位置计算结果做逻辑“或”运算,这样可以避免序列特征做窗口切割时,边界部份没有充分利用到时间维度上的信息。
在建立好编码解码器后,进一步的,所述指令集还用于执行:所述“通过编码器将输入的特征序列编码成列的状态信息”,具体还包括步骤:
对输入的特征序列进行一维卷积计算得第一结果;
对所述第一结果进行批标准化得第二结果;
对第二结果进行最大池化计算得第三结果;
输入第三结果至长短时记忆网络得成列的状态信息。
进一步的,所述指令集还用于执行:所述“解码器根据所述输入的特征序列和所述状态信息解码出特征序列对应的标签序列”,还包括步骤:
对输入的特征序列进行一维卷积计算得第四结果;
对所述第四结果进行批标准化得第五结果;
对第五结果进行最大池化计算得第六结果;
输入所述状态信息和所述第六结果至长短时记忆网络得第七结果;
输入第七结果至全连接层并进行向量尺寸变换得输入的特征序列对应的标签序列。
根据预设规则对所述标签序列进行调整处理得风叶声音的边界位置。具体还包括步骤:
对所述标签序列进行尖峰滤除。具体可如下:由于在每个时间步的预测输出是概率值,经过阈值判断后可能某些地方有尖峰,比如出现[…1,1,1,0,1,1,…]或者[…0,0,0,1,0,…]。
第1个标签序列需要将其中的单独的“0”改成“1”,第2个标签序列需要将单独的“1”改成“0”。因为风叶扫风有声音是个连续过程,无声音也是个连续过程,中间不会出现瞬变,因此,这种滤除尖峰的处理可以进一步提升准确率。
对尖峰滤除后的标签序列进行扩采样。具体可如下:由于模型为了降低计算量,用MaxpooLing1D做了一次降采样,因此最后计算出的标签值长度只有输入特征序列长度的一半,需要做一次扩采样与特征序列长度一一对应。方法就是简单的把每个标签值复制一次。
实例:
计算得到的标签序列[1,1,1,1,0,0,0,0,0]
扩采样后的标签序列[1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0]。
寻找扩采样后的标签序列的跳变沿,得风叶声音的边界位置。具体可如下:寻找扩采样后标签序列的跳变沿,从0到1代表风叶声音开始,从1到0代表风叶声音结束,因此就得到风叶声音的边界位置。
请参阅图4至图6,其中线在上方的代表人工听到的声音边界,线在下方的表示本申请方案标注的声音边界。图4为风机1:正常叶片。图5为风机2:其中两个风叶声音持续时间较长,一个风叶持续时间较短,从图中可以看出,即使较短的风叶声音,边界也可以识别出来。图6为风机3:噪声较多环境下的定界结果,抗噪声能力较强。
通过对输入的声音信号进行特征提取得特征序列;输入特征序列至预先设计的编码解码器得标签序列,每个标签对应输入序列的两个点位;根据预设规则对所述标签序列进行调整处理得风叶声音的边界位置。通过实验数据证明,根据以上步骤可取得更准确的风叶声音的边界位置。
需要说明的是,尽管在本文中已经对上述各实施例进行了描述,但并非因此限制本发明的专利保护范围。因此,基于本发明的创新理念,对本文所述实施例进行的变更和修改,或利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接地将以上技术方案运用在其他相关的技术领域,均包括在本发明的专利保护范围之内。
Claims (10)
1.一种基于序列神经网络自动编码解码器的风叶声音边界定位方法,其特征在于,包括步骤:
对输入的声音信号进行特征提取得特征序列;
输入特征序列至预先设计的编码解码器得标签序列,每个标签对应输入序列的两个点位;
根据预设规则对所述标签序列进行调整处理得风叶声音的边界位置。
2.根据权利要求1所述的一种基于序列神经网络自动编码解码器的风叶声音边界定位方法,其特征在于,所述“输入特征序列至预先设计的编码解码器得标签序列,每个标签对应输入序列的两个点位”,具体还包括步骤:
通过编码器将输入的特征序列编码成列的状态信息;
解码器根据所述输入的特征序列和所述状态信息解码出特征序列对应的标签序列。
3.根据权利要求2所述的一种基于序列神经网络自动编码解码器的风叶声音边界定位方法,其特征在于,所述“通过编码器将输入的特征序列编码成列的状态信息”,具体还包括步骤:
对输入的特征序列进行一维卷积计算得第一结果;
对所述第一结果进行批标准化得第二结果;
对第二结果进行最大池化计算得第三结果;
输入第三结果至长短时记忆网络得成列的状态信息。
4.根据权利要求2所述的一种基于序列神经网络自动编码解码器的风叶声音边界定位方法,其特征在于,所述“解码器根据所述输入的特征序列和所述状态信息解码出特征序列对应的标签序列”,还包括步骤:
对输入的特征序列进行一维卷积计算得第四结果;
对所述第四结果进行批标准化得第五结果;
对第五结果进行最大池化计算得第六结果;
输入所述状态信息和所述第六结果至长短时记忆网络得第七结果;
输入第七结果至全连接层并进行向量尺寸变换得输入的特征序列对应的标签序列。
5.根据权利要求1所述的一种基于序列神经网络自动编码解码器的风叶声音边界定位方法,其特征在于,所述“根据预设规则对所述标签序列进行调整处理得风叶声音的边界位置”,具体还包括步骤:
对所述标签序列进行尖峰滤除;
对尖峰滤除后的标签序列进行扩采样;
寻找扩采样后的标签序列的跳变沿,得风叶声音的边界位置。
6.一种存储设备,其中存储有指令集,其特征在于,所述指令集用于执行:
对输入的声音信号进行特征提取得特征序列;
输入特征序列至预先设计的编码解码器得标签序列,每个标签对应输入序列的两个点位;
根据预设规则对所述标签序列进行调整处理得风叶声音的边界位置。
7.根据权利要求6所述的一种存储设备,其特征在于,所述指令集还用于执行:所述“输入特征序列至预先设计的编码解码器得标签序列,每个标签对应输入序列的两个点位”,具体还包括步骤:
通过编码器将输入的特征序列编码成列的状态信息;
解码器根据所述输入的特征序列和所述状态信息解码出特征序列对应的标签序列。
8.根据权利要求7所述的一种存储设备,其特征在于,所述指令集还用于执行:所述“通过编码器将输入的特征序列编码成列的状态信息”,具体还包括步骤:
对输入的特征序列进行一维卷积计算得第一结果;
对所述第一结果进行批标准化得第二结果;
对第二结果进行最大池化计算得第三结果;
输入第三结果至长短时记忆网络得成列的状态信息。
9.根据权利要求7所述的一种存储设备,其特征在于,所述指令集还用于执行:所述“解码器根据所述输入的特征序列和所述状态信息解码出特征序列对应的标签序列”,还包括步骤:
对输入的特征序列进行一维卷积计算得第四结果;
对所述第四结果进行批标准化得第五结果;
对第五结果进行最大池化计算得第六结果;
输入所述状态信息和所述第六结果至长短时记忆网络得第七结果;
输入第七结果至全连接层并进行向量尺寸变换得输入的特征序列对应的标签序列。
10.根据权利要求6所述的一种存储设备,其特征在于,所述指令集还用于执行:所述“根据预设规则对所述标签序列进行调整处理得风叶声音的边界位置”,具体还包括步骤:
对所述标签序列进行尖峰滤除;
对尖峰滤除后的标签序列进行扩采样;
寻找扩采样后的标签序列的跳变沿,得风叶声音的边界位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011575238.9A CN112735467A (zh) | 2020-12-28 | 2020-12-28 | 一种基于序列神经网络自动编码解码器的风叶声音边界定位方法和存储设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011575238.9A CN112735467A (zh) | 2020-12-28 | 2020-12-28 | 一种基于序列神经网络自动编码解码器的风叶声音边界定位方法和存储设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112735467A true CN112735467A (zh) | 2021-04-30 |
Family
ID=75606035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011575238.9A Pending CN112735467A (zh) | 2020-12-28 | 2020-12-28 | 一种基于序列神经网络自动编码解码器的风叶声音边界定位方法和存储设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112735467A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190057683A1 (en) * | 2017-08-18 | 2019-02-21 | Google Llc | Encoder-decoder models for sequence to sequence mapping |
US20190066713A1 (en) * | 2016-06-14 | 2019-02-28 | The Trustees Of Columbia University In The City Of New York | Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments |
CN110875035A (zh) * | 2019-10-24 | 2020-03-10 | 广州多益网络股份有限公司 | 新型多任务联合的语音识别训练架构和方法 |
CN111724809A (zh) * | 2020-06-15 | 2020-09-29 | 苏州意能通信息技术有限公司 | 一种基于变分自编码器的声码器实现方法及装置 |
CN112037798A (zh) * | 2020-09-18 | 2020-12-04 | 中科极限元(杭州)智能科技股份有限公司 | 基于触发式非自回归模型的语音识别方法及系统 |
-
2020
- 2020-12-28 CN CN202011575238.9A patent/CN112735467A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190066713A1 (en) * | 2016-06-14 | 2019-02-28 | The Trustees Of Columbia University In The City Of New York | Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments |
US20190057683A1 (en) * | 2017-08-18 | 2019-02-21 | Google Llc | Encoder-decoder models for sequence to sequence mapping |
CN110875035A (zh) * | 2019-10-24 | 2020-03-10 | 广州多益网络股份有限公司 | 新型多任务联合的语音识别训练架构和方法 |
CN111724809A (zh) * | 2020-06-15 | 2020-09-29 | 苏州意能通信息技术有限公司 | 一种基于变分自编码器的声码器实现方法及装置 |
CN112037798A (zh) * | 2020-09-18 | 2020-12-04 | 中科极限元(杭州)智能科技股份有限公司 | 基于触发式非自回归模型的语音识别方法及系统 |
Non-Patent Citations (1)
Title |
---|
田曼;张艺;: "多模型融合动作识别研究", 电子测量技术, no. 20, pages 112 - 117 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110364143B (zh) | 语音唤醒方法、装置及其智能电子设备 | |
KR102002681B1 (ko) | 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법 | |
CN106874833B (zh) | 一种振动事件的模式识别方法 | |
US11355138B2 (en) | Audio scene recognition using time series analysis | |
CN111880856B (zh) | 语音唤醒方法、装置、电子设备及存储介质 | |
CN105679316A (zh) | 一种基于深度神经网络的语音关键词识别方法及装置 | |
EP3701528B1 (en) | Segmentation-based feature extraction for acoustic scene classification | |
KR20090123396A (ko) | 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템 | |
CN103456301A (zh) | 一种基于环境声音的场景识别方法及装置及移动终端 | |
Akbacak et al. | Environmental sniffing: noise knowledge estimation for robust speech systems | |
CN112183582A (zh) | 一种多特征融合的水下目标识别方法 | |
Vuppala et al. | Improved consonant–vowel recognition for low bit‐rate coded speech | |
CN113823323B (zh) | 一种基于卷积神经网络的音频处理方法、装置及相关设备 | |
CN114822578A (zh) | 语音降噪方法、装置、设备及存储介质 | |
US20210312912A1 (en) | Audio processing apparatus and method for audio scene classification | |
Gupta et al. | Automatic speech recognition technique for voice command | |
CN112733927A (zh) | 一种基于一维卷积神经网络的风叶声音边界定位方法和存储设备 | |
WO2003065352A1 (en) | Method and apparatus for speech detection using time-frequency variance | |
CN112735467A (zh) | 一种基于序列神经网络自动编码解码器的风叶声音边界定位方法和存储设备 | |
CN110930997B (zh) | 一种利用深度学习模型对音频进行标注的方法 | |
Nasr et al. | Arabic speech recognition by bionic wavelet transform and mfcc using a multi layer perceptron | |
Ghaemmaghami et al. | Noise robust voice activity detection using normal probability testing and time-domain histogram analysis | |
CN104715756A (zh) | 音频数据的处理方法及装置 | |
CN106782550A (zh) | 一种基于dsp芯片的自动语音识别系统 | |
CN113470652A (zh) | 一种基于工业互联网的语音识别及处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |