CN107610692A - 基于神经网络堆叠自编码器多特征融合的声音识别方法 - Google Patents
基于神经网络堆叠自编码器多特征融合的声音识别方法 Download PDFInfo
- Publication number
- CN107610692A CN107610692A CN201710864695.1A CN201710864695A CN107610692A CN 107610692 A CN107610692 A CN 107610692A CN 201710864695 A CN201710864695 A CN 201710864695A CN 107610692 A CN107610692 A CN 107610692A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- elm
- msubsup
- mfrac
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于神经网络堆叠自编码器多特征融合的声音识别方法。首先对原始声音数据进行分帧加窗,对分帧加窗后的数据分别提取其典型的时域线性预测倒谱系数与频域Mel频率倒谱系数特征;再对所提取的特征进行拼接,构建声信号的初步特征表示向量并创建训练特征库;然后采用多层神经网络堆叠自编码器进行特征融合与学习;该多层自编码器采用超限学习机算法学习训练;最后所提取的特征再采用超限学习机分类算法训练得到分类器模型;所构建的模型最后用于测试样本分类识别。本发明采用基于超限学习机多层神经网络堆叠自编码器的多特征融合,相比于传统单一特征提取方法,本发明具有更高的识别精度。
Description
技术领域
本发明涉及声音识别技术领域,尤其涉及一种基于神经网络堆叠 自编码器多特征融合的声音识别方法。
背景技术
声音识别是人工智能的目标之一,对声音信号能够进行准确的识 别分类,对于人工智能的发展起到关键作用。现有的技术中,传统的 特征提取加分类器的方法已经得到广泛运用。但特征提取要根据不同 类型的声音来选择,由于声音信号来源不同,特征提取的方法也不相 同,针对不同声音要有相对应的专业知识选择特征提取方法。此外, 某些环境下声音的情况比较复杂,传统的特征提取方法无法取得期望 的识别性能。针对声音的差异导致的特征提取方法选择的差异性,最 直接的方法是采用多种声音特征提取算法分别对声源进行特征提取, 将提取到的多种特征直接进行拼接,然后采用分类器进行训练识别。但这种方法无法保证各个特征之间的无关性,即直接拼接得到的特征 向量中存在冗余性,从而使得导致训练的得到的模型分类效果差。模 型训练效率低等都是制约声音识别技术领域的难点。
发明内容
本发明为了克服上述存在的传统的声音识别技术中的不足,提出 了一种基于多层神经网络堆叠自编码器多特征融合的声音识别方法。 该方法首先提取典型的声信号时域线性预测倒谱系数(LPCC)与频域 Mel频率倒谱系数(MFCC)特征;再对所提取的特征进行拼接,构建声 信号的初步特征表示向量并创建训练特征库;然后采用多层神经网络 堆叠自编码器(Stacked autoencoder,SAE)进行特征融合与学习; 该多层自编码器采用超限学习机算法学习训练;最后所提取的特征再 采用超限学习机分类算法训练得到分类器模型。
本发明解决其技术问题所采用的技术方案,采用声信号的线性预 测倒谱系数和梅尔频率倒谱系数为基础特征构建特征融合算法,具体 步骤如下:
(一)模型训练
步骤1、对原始声音数据进行分帧加窗,帧长为N,帧移为加汉明窗;
步骤2、采用不同的特征提取算法对处理过的原始数据分别提取 不同的特征,将不同的特征拼接获得R维特征向量。
步骤3、将采集到的声源数据按步骤1和2进行处理,得到训练 数据集为X={x1,x2,…,xP},其中xi,i=1,…,P为一帧声源数据的 RLPCC+RMFCC维的特征向量,P为总共的样本个数。同时将需要识别的 声源类型进行标号,即第一类声源记为1,第二类声源记为2,以此类推,总共有M类声源。然后将训练数据集中的每一个样本对应的声 源类号组成集合T={t1,t2,…,tP}。
步骤4、将训练数据集X={x1,x2,…,xP}作为输入,输入至超限学 习机自编码器(Extreme learning machine based autoencoder, ELM-AE)进行特征融合。记第k个ELM-AE的输入为Xk,特别的,第 1个的ELM-AE的输入X1=X。假设总共K个ELM-AE,以第k个ELM-AE为例。首先获得第k个ELM-AE的隐藏层输出为Hk=g(WkXk+bk), 其中Wk为第k个ELM-AE的输入层与隐藏层之间的输入权重矩阵,bk为第k个ELM-AE的隐藏层偏置向量,且Wk和bk均为随机生成,与训 练集无关。
步骤5、求解最小化问题
其中,C是一个权衡系数,用来权衡两项之间的权重。βk是第k个 ELM-AE的输出权重,即ELM-AE训练出的模型参数。求解上述问题得:
其中,Lk是第k个ELM-AE的隐藏层神经元的数量。
步骤6、求解第k+1个ELM-AE的输入为
步骤7、得到最终的ELM分类器的输入为Xk+1。
步骤8、以Xk+1作为输入,得到ELM分类器的隐藏层输出为 HELM=g(WELMXk+1+bELM),其中WELM和bELM分别为随机生成的ELM的输 入权重和隐藏层偏置向量。求解最小化问题
得到输出权重
其中LELM为ELM分类器的隐藏层神经元数量。
(二)声源预测:
对于一个新的未知类型的声源数据,我们对它进行如下处理得到 其类型:
步骤(1)、采用训练中的不同的特征提取算法提取其不同的特征 进行拼接,得到特征向量x。
步骤(2)、求得特征融合的结果xK+1,xK+1=βKβK-1…β1x。
步骤(3)、得到ELM的隐藏层输出h=g(WELMxK+1+bELM)。
步骤(4)、获得未知声源的类型为hβELM。
本发明有益效果如下:
使用自编码器相较于传统的声音识别方法,训练效果较好,泛化 能力强,基于特征融合的自编码器的超限学习机,效率提升效果明显, 对远距离声源识别效果优于传统方法。
相比较于传统特征融合算法及单一的特征提取方法,本发明可以 有效融合声信号时频域的典型特征,采用随机隐层神经元参数的超限 学习机自编码算法能快速实现特征融合与学习,从而有效提高声信号 的识别率与计算效率。本发明对复杂的环境噪声的识别性能有明显的 改进,而且依据本发明的方法,可以降低特征维数,加快模型训练的 速度。
附图说明
图1为基于自编码器的极限学习机构建流程;
图2为单层的基于自编码器的极限学习机结构图;
图3为多隐藏层的基于自编码器的极限学习机结构图。
图4为基于多层神经网络堆叠自编码器多特征融合的声音识别 方法基本流程。
具体实施方式:
下面以4种开挖设备(包括手持电动镐、挖掘机、切割机、液压 冲击锤)为例,使用线性预测倒谱系数特征(Linear Prediction Cepstrum Coefficients,LPCC)和梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficients,MFCC)这两种特征提取方法,对本发明作 进一步说明。以下描述仅作为示范和解释,并不对本发明作任何形式 上的限制。
模型训练:
步骤1、对采集的4种开挖设备作业时的声音数据进行分帧加窗, 帧长为N,帧移为加汉明窗得到声音数据库;
步骤2、使用LPCC特征提取算法对每一帧的声源数据进行特征 提取,其中LPCC的阶数(即LPCC特征个数)我们记为RLPCC。
步骤3、使用MFCC特征提取算法对每一帧的声源数据进行特征 提取,其中MFCC的阶数我们记为RMFCC。
步骤4、将每一帧提取的LPCC特征和MFCC特征进行拼接,组成 RLPCC+RMFCC维的特征向量。
步骤5、将采集到的声源数据按上述步骤进行处理,得到训练数 据集为X={x1,x2,…,xP},其中xi,i=1,…,P为按上述步骤得到的一帧的 RLPCC+RMFCC维的特征向量,P为总共的样本个数。我们将手持电动镐 作业时的声音记为第1类,切割机记为第2类,液压冲击锤记为第3 类,挖掘机记为第4类,其他声源为噪声,记为第5类。然后我们将 训练数据集中的每一个样本对应的声源类号组成集合T={t1,t2,…,tP}。
步骤6、将训练数据集将训练数据集X={x1,x2,…,xP}作为输入, 输入至ELM-AE,训练得到K个ELM-AE的输出权重β1,β2,…βK,同时得 到特征融合后的数据集XK+1=βKβK-1…β1X。
步骤7、以XK+1作为ELM分类器的输入,先随机产生输入权重和 隐藏层偏置WELM和bELM。然后得到LM分类器的隐藏层输出为 HELM=g(WELMXK+1+bELM)。最后求解ELM分类器的输出权重为
其中LELM为ELM分类器的隐藏层神经元数量。
声源预测:
对于一个新的未知类型的声源数据,我们对它进行如下处理得到 其类型:
步骤1、采用LPCC特征提取算法和MFCC特征提取算法对未知类 型的声源数据进行特征提取,将两种提取的特征进行拼接得到特征向 量x。
步骤2、求得特征融合的结果xK+1为xK+1=βKβK-1…β1x。
步骤3、得到ELM的隐藏层输出h=g(WELMxK+1+bELM)。
步骤4、获得未知声源的类型为hβELM。
Claims (1)
1.基于神经网络堆叠自编码器多特征融合的声音识别方法,其特征在于具体包括如下步骤:
(一)模型训练
步骤1、对原始声音数据进行分帧加窗,帧长为N,帧移为加汉明窗;
步骤2、采用不同的特征提取算法对处理过的原始数据分别提取不同的特征,将不同的特征拼接获得R维特征向量;
步骤3、将采集到的声源数据按步骤1和2进行处理,得到训练数据集为X={x1,x2,…,xP},其中xi,i=1,…,P为一帧声源数据的RLPCC+RMFCC维的特征向量,P为总共的样本个数;同时将需要识别的声源类型进行标号,即第一类声源记为1,第二类声源记为2,以此类推,总共有M类声源;然后将训练数据集中的每一个样本对应的声源类号组成集合T={t1,t2,…,tP};
步骤4、将训练数据集X={x1,x2,…,xP}作为输入,输入至超限学习机自编码器进行特征融合;记第k个ELM-AE的输入为Xk,其中第1个的ELM-AE的输入X1=X;假设总共K个ELM-AE,以第k个ELM-AE为例;首先获得第k个ELM-AE的隐藏层输出为Hk=g(WkXk+bk),其中Wk为第k个ELM-AE的输入层与隐藏层之间的输入权重矩阵,bk为第k个ELM-AE的隐藏层偏置向量,且Wk和bk均为随机生成,与训练集无关;
步骤5、求解最小化问题
<mrow>
<munder>
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
<msub>
<mi>&beta;</mi>
<mi>k</mi>
</msub>
</munder>
<mfrac>
<mn>1</mn>
<mn>2</mn>
</mfrac>
<mi>C</mi>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>H</mi>
<mi>k</mi>
</msub>
<msub>
<mi>&beta;</mi>
<mi>k</mi>
</msub>
<mo>-</mo>
<msub>
<mi>X</mi>
<mi>k</mi>
</msub>
<mo>|</mo>
<msubsup>
<mo>|</mo>
<mn>2</mn>
<mn>2</mn>
</msubsup>
<mo>+</mo>
<mfrac>
<mn>1</mn>
<mn>2</mn>
</mfrac>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>&beta;</mi>
<mi>k</mi>
</msub>
<mo>|</mo>
<msubsup>
<mo>|</mo>
<mn>2</mn>
<mn>2</mn>
</msubsup>
</mrow>
其中,C是一个权衡系数,用来权衡两项之间的权重;βk是第k个ELM-AE的输出权重,即ELM-AE训练出的模型参数;求解上述问题得:
<mrow>
<msub>
<mi>&beta;</mi>
<mi>k</mi>
</msub>
<mo>=</mo>
<msubsup>
<mi>H</mi>
<mi>k</mi>
<mi>T</mi>
</msubsup>
<msup>
<mrow>
<mo>(</mo>
<mfrac>
<mi>I</mi>
<mi>C</mi>
</mfrac>
<mo>+</mo>
<msub>
<mi>H</mi>
<mi>k</mi>
</msub>
<msubsup>
<mi>H</mi>
<mi>k</mi>
<mi>T</mi>
</msubsup>
<mo>)</mo>
</mrow>
<mrow>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msup>
<msub>
<mi>X</mi>
<mi>k</mi>
</msub>
<mo>,</mo>
<mi>P</mi>
<mo><</mo>
<msub>
<mi>L</mi>
<mi>k</mi>
</msub>
<mo>,</mo>
</mrow>
<mrow>
<msub>
<mi>&beta;</mi>
<mi>k</mi>
</msub>
<mo>=</mo>
<msup>
<mrow>
<mo>(</mo>
<mfrac>
<mi>I</mi>
<mi>C</mi>
</mfrac>
<mo>+</mo>
<msubsup>
<mi>H</mi>
<mi>k</mi>
<mi>T</mi>
</msubsup>
<msub>
<mi>H</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
</mrow>
<mrow>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msup>
<msubsup>
<mi>H</mi>
<mi>k</mi>
<mi>T</mi>
</msubsup>
<msub>
<mi>X</mi>
<mi>k</mi>
</msub>
<mo>,</mo>
<mi>P</mi>
<mo>&GreaterEqual;</mo>
<msub>
<mi>L</mi>
<mi>k</mi>
</msub>
<mo>.</mo>
</mrow>
其中,Lk是第k个ELM-AE的隐藏层神经元的数量;
步骤6、求解第k+1个ELM-AE的输入为
<mrow>
<msub>
<mi>X</mi>
<mrow>
<mi>k</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>=</mo>
<msub>
<mi>X</mi>
<mi>k</mi>
</msub>
<msubsup>
<mi>&beta;</mi>
<mi>k</mi>
<mi>T</mi>
</msubsup>
</mrow>
步骤7、得到最终的ELM分类器的输入为Xk+1;
步骤8、以Xk+1作为输入,得到ELM分类器的隐藏层输出为HELM=g(WELMXk+1+bELM),其中WELM和bELM分别为随机生成的ELM的输入权重和隐藏层偏置向量;求解最小化问题
<mrow>
<munder>
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
<msub>
<mi>&beta;</mi>
<mrow>
<mi>E</mi>
<mi>L</mi>
<mi>M</mi>
</mrow>
</msub>
</munder>
<mfrac>
<mn>1</mn>
<mn>2</mn>
</mfrac>
<mi>C</mi>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>H</mi>
<mrow>
<mi>E</mi>
<mi>L</mi>
<mi>M</mi>
</mrow>
</msub>
<msub>
<mi>&beta;</mi>
<mrow>
<mi>E</mi>
<mi>L</mi>
<mi>M</mi>
</mrow>
</msub>
<mo>-</mo>
<msub>
<mi>X</mi>
<mrow>
<mi>k</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>|</mo>
<msubsup>
<mo>|</mo>
<mn>2</mn>
<mn>2</mn>
</msubsup>
<mo>+</mo>
<mfrac>
<mn>1</mn>
<mn>2</mn>
</mfrac>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>&beta;</mi>
<mrow>
<mi>E</mi>
<mi>L</mi>
<mi>M</mi>
</mrow>
</msub>
<mo>|</mo>
<msubsup>
<mo>|</mo>
<mn>2</mn>
<mn>2</mn>
</msubsup>
</mrow>
得到输出权重
<mrow>
<msub>
<mi>&beta;</mi>
<mrow>
<mi>E</mi>
<mi>L</mi>
<mi>M</mi>
</mrow>
</msub>
<mo>=</mo>
<msubsup>
<mi>H</mi>
<mrow>
<mi>E</mi>
<mi>L</mi>
<mi>M</mi>
</mrow>
<mi>T</mi>
</msubsup>
<msup>
<mrow>
<mo>(</mo>
<mfrac>
<mi>I</mi>
<mi>C</mi>
</mfrac>
<mo>+</mo>
<msub>
<mi>H</mi>
<mrow>
<mi>E</mi>
<mi>L</mi>
<mi>M</mi>
</mrow>
</msub>
<msubsup>
<mi>H</mi>
<mrow>
<mi>E</mi>
<mi>L</mi>
<mi>M</mi>
</mrow>
<mi>T</mi>
</msubsup>
<mo>)</mo>
</mrow>
<mrow>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msup>
<mi>T</mi>
<mo>,</mo>
<mi>P</mi>
<mo><</mo>
<msub>
<mi>L</mi>
<mrow>
<mi>E</mi>
<mi>L</mi>
<mi>M</mi>
</mrow>
</msub>
<mo>,</mo>
</mrow>
<mrow>
<msub>
<mi>&beta;</mi>
<mrow>
<mi>E</mi>
<mi>L</mi>
<mi>M</mi>
</mrow>
</msub>
<mo>=</mo>
<msup>
<mrow>
<mo>(</mo>
<mfrac>
<mi>I</mi>
<mi>C</mi>
</mfrac>
<mo>+</mo>
<msubsup>
<mi>H</mi>
<mrow>
<mi>E</mi>
<mi>L</mi>
<mi>M</mi>
</mrow>
<mi>T</mi>
</msubsup>
<msub>
<mi>H</mi>
<mrow>
<mi>E</mi>
<mi>L</mi>
<mi>M</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mrow>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msup>
<msubsup>
<mi>H</mi>
<mrow>
<mi>E</mi>
<mi>L</mi>
<mi>M</mi>
</mrow>
<mi>T</mi>
</msubsup>
<mi>T</mi>
<mo>,</mo>
<mi>P</mi>
<mo>&GreaterEqual;</mo>
<msub>
<mi>L</mi>
<mrow>
<mi>E</mi>
<mi>L</mi>
<mi>M</mi>
</mrow>
</msub>
<mo>.</mo>
</mrow>
其中LELM为ELM分类器的隐藏层神经元数量;
(二)声源预测:
对于一个新的未知类型的声源数据,进行如下处理得到其类型:
步骤(1)、采用训练中的不同的特征提取算法提取其不同的特征进行拼接,得到特征向量x;
步骤(2)、求得特征融合的结果xK+1,xK+1=βKβK-1…β1x;
步骤(3)、得到ELM的隐藏层输出h=g(WELMxK+1+bELM);
步骤(4)、获得未知声源的类型为hβELM。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710864695.1A CN107610692B (zh) | 2017-09-22 | 2017-09-22 | 基于神经网络堆叠自编码器多特征融合的声音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710864695.1A CN107610692B (zh) | 2017-09-22 | 2017-09-22 | 基于神经网络堆叠自编码器多特征融合的声音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107610692A true CN107610692A (zh) | 2018-01-19 |
CN107610692B CN107610692B (zh) | 2020-07-21 |
Family
ID=61061879
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710864695.1A Active CN107610692B (zh) | 2017-09-22 | 2017-09-22 | 基于神经网络堆叠自编码器多特征融合的声音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107610692B (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108847252A (zh) * | 2018-04-26 | 2018-11-20 | 杭州电子科技大学 | 基于声信号语谱图纹理分布的声特征提取方法 |
CN108922560A (zh) * | 2018-05-02 | 2018-11-30 | 杭州电子科技大学 | 一种基于混合深度神经网络模型的城市噪声识别方法 |
CN108922556A (zh) * | 2018-07-16 | 2018-11-30 | 百度在线网络技术(北京)有限公司 | 声音处理方法、装置及设备 |
CN109523994A (zh) * | 2018-11-13 | 2019-03-26 | 四川大学 | 一种基于胶囊神经网络的多任务语音分类方法 |
CN109858509A (zh) * | 2018-11-05 | 2019-06-07 | 杭州电子科技大学 | 基于多层随机神经网络单分类器异常检测方法 |
CN109948781A (zh) * | 2019-03-21 | 2019-06-28 | 中国人民解放军国防科技大学 | 用于自动驾驶车辆的连续动作在线学习控制方法及系统 |
CN109961017A (zh) * | 2019-02-26 | 2019-07-02 | 杭州电子科技大学 | 一种基于卷积循环神经网络的心音信号分类方法 |
CN110187321A (zh) * | 2019-05-30 | 2019-08-30 | 电子科技大学 | 基于深度学习的复杂环境下雷达辐射源特征参数提取方法 |
CN110222834A (zh) * | 2018-12-27 | 2019-09-10 | 杭州环形智能科技有限公司 | 一种基于噪声遮蔽的发散式人工智能记忆模型系统 |
CN110364141A (zh) * | 2019-06-04 | 2019-10-22 | 杭州电子科技大学 | 基于深度单分类器的电梯典型异常声音报警方法 |
CN110444225A (zh) * | 2019-09-17 | 2019-11-12 | 中北大学 | 基于特征融合网络的声源目标识别方法 |
CN110491400A (zh) * | 2019-08-21 | 2019-11-22 | 杭州派尼澳电子科技有限公司 | 一种基于深度自编码器的语音信号重建方法 |
CN110580915A (zh) * | 2019-09-17 | 2019-12-17 | 中北大学 | 基于可穿戴式设备的声源目标识别系统 |
CN110751044A (zh) * | 2019-09-19 | 2020-02-04 | 杭州电子科技大学 | 基于深度网络迁移特征与增广自编码的城市噪声识别方法 |
CN111370025A (zh) * | 2020-02-25 | 2020-07-03 | 广州酷狗计算机科技有限公司 | 音频识别方法、装置及计算机存储介质 |
CN111540373A (zh) * | 2020-01-12 | 2020-08-14 | 杭州电子科技大学 | 基于超复数随机神经网络的城市噪声识别方法 |
CN111553427A (zh) * | 2020-04-30 | 2020-08-18 | 中国科学院沈阳自动化研究所 | 未知应用环境下光电信号的反馈堆叠滤波方法 |
CN111816166A (zh) * | 2020-07-17 | 2020-10-23 | 字节跳动有限公司 | 声音识别方法、装置以及存储指令的计算机可读存储介质 |
CN112712820A (zh) * | 2020-12-25 | 2021-04-27 | 广州欢城文化传媒有限公司 | 一种音色分类方法、装置、设备和介质 |
CN113643722A (zh) * | 2021-08-27 | 2021-11-12 | 杭州电子科技大学 | 一种基于多层矩阵随机神经网络的城市噪声识别方法 |
CN114119443A (zh) * | 2021-11-28 | 2022-03-01 | 特斯联科技集团有限公司 | 一种基于多光谱相机的图像融合系统 |
CN115376518A (zh) * | 2022-10-26 | 2022-11-22 | 广州声博士声学技术有限公司 | 一种实时噪声大数据的声纹识别方法、系统、设备和介质 |
CN116453526A (zh) * | 2023-04-24 | 2023-07-18 | 中国长江三峡集团有限公司 | 基于声音识别的水轮发电机组多工况异常监测方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150019463A1 (en) * | 2013-07-12 | 2015-01-15 | Microsoft Corporation | Active featuring in computer-human interactive learning |
CN106485205A (zh) * | 2016-09-20 | 2017-03-08 | 北京工业大学 | 基于多层超限学习机的运动想象脑电信号分类方法 |
CN107085704A (zh) * | 2017-03-27 | 2017-08-22 | 杭州电子科技大学 | 基于elm自编码算法的快速人脸表情识别方法 |
CN107103338A (zh) * | 2017-05-19 | 2017-08-29 | 杭州电子科技大学 | 融合卷积特征和集成超限学习机的sar目标识别方法 |
-
2017
- 2017-09-22 CN CN201710864695.1A patent/CN107610692B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150019463A1 (en) * | 2013-07-12 | 2015-01-15 | Microsoft Corporation | Active featuring in computer-human interactive learning |
CN106485205A (zh) * | 2016-09-20 | 2017-03-08 | 北京工业大学 | 基于多层超限学习机的运动想象脑电信号分类方法 |
CN107085704A (zh) * | 2017-03-27 | 2017-08-22 | 杭州电子科技大学 | 基于elm自编码算法的快速人脸表情识别方法 |
CN107103338A (zh) * | 2017-05-19 | 2017-08-29 | 杭州电子科技大学 | 融合卷积特征和集成超限学习机的sar目标识别方法 |
Cited By (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108847252A (zh) * | 2018-04-26 | 2018-11-20 | 杭州电子科技大学 | 基于声信号语谱图纹理分布的声特征提取方法 |
CN108922560A (zh) * | 2018-05-02 | 2018-11-30 | 杭州电子科技大学 | 一种基于混合深度神经网络模型的城市噪声识别方法 |
CN108922560B (zh) * | 2018-05-02 | 2022-12-02 | 杭州电子科技大学 | 一种基于混合深度神经网络模型的城市噪声识别方法 |
CN108922556B (zh) * | 2018-07-16 | 2019-08-27 | 百度在线网络技术(北京)有限公司 | 声音处理方法、装置及设备 |
CN108922556A (zh) * | 2018-07-16 | 2018-11-30 | 百度在线网络技术(北京)有限公司 | 声音处理方法、装置及设备 |
CN109858509A (zh) * | 2018-11-05 | 2019-06-07 | 杭州电子科技大学 | 基于多层随机神经网络单分类器异常检测方法 |
CN109523994A (zh) * | 2018-11-13 | 2019-03-26 | 四川大学 | 一种基于胶囊神经网络的多任务语音分类方法 |
CN110222834A (zh) * | 2018-12-27 | 2019-09-10 | 杭州环形智能科技有限公司 | 一种基于噪声遮蔽的发散式人工智能记忆模型系统 |
CN110222834B (zh) * | 2018-12-27 | 2023-12-19 | 杭州环形智能科技有限公司 | 一种基于噪声遮蔽的发散式人工智能记忆模型系统 |
CN109961017A (zh) * | 2019-02-26 | 2019-07-02 | 杭州电子科技大学 | 一种基于卷积循环神经网络的心音信号分类方法 |
CN109948781A (zh) * | 2019-03-21 | 2019-06-28 | 中国人民解放军国防科技大学 | 用于自动驾驶车辆的连续动作在线学习控制方法及系统 |
CN110187321A (zh) * | 2019-05-30 | 2019-08-30 | 电子科技大学 | 基于深度学习的复杂环境下雷达辐射源特征参数提取方法 |
CN110364141A (zh) * | 2019-06-04 | 2019-10-22 | 杭州电子科技大学 | 基于深度单分类器的电梯典型异常声音报警方法 |
CN110491400B (zh) * | 2019-08-21 | 2021-05-28 | 浙江树人学院(浙江树人大学) | 一种基于深度自编码器的语音信号重建方法 |
CN110491400A (zh) * | 2019-08-21 | 2019-11-22 | 杭州派尼澳电子科技有限公司 | 一种基于深度自编码器的语音信号重建方法 |
CN110444225B (zh) * | 2019-09-17 | 2022-03-25 | 中北大学 | 基于特征融合网络的声源目标识别方法 |
CN110580915B (zh) * | 2019-09-17 | 2022-03-25 | 中北大学 | 基于可穿戴式设备的声源目标识别系统 |
CN110444225A (zh) * | 2019-09-17 | 2019-11-12 | 中北大学 | 基于特征融合网络的声源目标识别方法 |
CN110580915A (zh) * | 2019-09-17 | 2019-12-17 | 中北大学 | 基于可穿戴式设备的声源目标识别系统 |
CN110751044A (zh) * | 2019-09-19 | 2020-02-04 | 杭州电子科技大学 | 基于深度网络迁移特征与增广自编码的城市噪声识别方法 |
CN110751044B (zh) * | 2019-09-19 | 2022-07-29 | 杭州电子科技大学 | 基于深度网络迁移特征与增广自编码的城市噪声识别方法 |
CN111540373B (zh) * | 2020-01-12 | 2022-12-02 | 杭州电子科技大学 | 基于超复数随机神经网络的城市噪声识别方法 |
CN111540373A (zh) * | 2020-01-12 | 2020-08-14 | 杭州电子科技大学 | 基于超复数随机神经网络的城市噪声识别方法 |
CN111370025A (zh) * | 2020-02-25 | 2020-07-03 | 广州酷狗计算机科技有限公司 | 音频识别方法、装置及计算机存储介质 |
CN111553427B (zh) * | 2020-04-30 | 2023-04-18 | 中国科学院沈阳自动化研究所 | 未知应用环境下光电信号的反馈堆叠滤波方法 |
CN111553427A (zh) * | 2020-04-30 | 2020-08-18 | 中国科学院沈阳自动化研究所 | 未知应用环境下光电信号的反馈堆叠滤波方法 |
CN111816166A (zh) * | 2020-07-17 | 2020-10-23 | 字节跳动有限公司 | 声音识别方法、装置以及存储指令的计算机可读存储介质 |
CN112712820A (zh) * | 2020-12-25 | 2021-04-27 | 广州欢城文化传媒有限公司 | 一种音色分类方法、装置、设备和介质 |
CN113643722B (zh) * | 2021-08-27 | 2024-04-19 | 杭州电子科技大学 | 一种基于多层矩阵随机神经网络的城市噪声识别方法 |
CN113643722A (zh) * | 2021-08-27 | 2021-11-12 | 杭州电子科技大学 | 一种基于多层矩阵随机神经网络的城市噪声识别方法 |
CN114119443B (zh) * | 2021-11-28 | 2022-07-01 | 特斯联科技集团有限公司 | 一种基于多光谱相机的图像融合系统 |
CN114119443A (zh) * | 2021-11-28 | 2022-03-01 | 特斯联科技集团有限公司 | 一种基于多光谱相机的图像融合系统 |
CN115376518A (zh) * | 2022-10-26 | 2022-11-22 | 广州声博士声学技术有限公司 | 一种实时噪声大数据的声纹识别方法、系统、设备和介质 |
CN116453526A (zh) * | 2023-04-24 | 2023-07-18 | 中国长江三峡集团有限公司 | 基于声音识别的水轮发电机组多工况异常监测方法及装置 |
CN116453526B (zh) * | 2023-04-24 | 2024-03-08 | 中国长江三峡集团有限公司 | 基于声音识别的水轮发电机组多工况异常监测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107610692B (zh) | 2020-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107610692A (zh) | 基于神经网络堆叠自编码器多特征融合的声音识别方法 | |
CN107239446B (zh) | 一种基于神经网络与注意力机制的情报关系提取方法 | |
CN108922560B (zh) | 一种基于混合深度神经网络模型的城市噪声识别方法 | |
WO2021073116A1 (zh) | 生成法律文书的方法、装置、设备和存储介质 | |
CN106503805A (zh) | 一种基于机器学习的双模态人人对话情感分析系统及其方法 | |
CN110188047B (zh) | 一种基于双通道卷积神经网络的重复缺陷报告检测方法 | |
CN106855853A (zh) | 基于深度神经网络的实体关系抽取系统 | |
CN111128209B (zh) | 一种基于混合掩蔽学习目标的语音增强方法 | |
CN110176250B (zh) | 一种基于局部学习的鲁棒声学场景识别方法 | |
CN108986798B (zh) | 语音数据的处理方法、装置及设备 | |
CN111182162A (zh) | 基于人工智能的电话质检方法、装置、设备和存储介质 | |
CN110992988B (zh) | 一种基于领域对抗的语音情感识别方法及装置 | |
CN106295717A (zh) | 一种基于稀疏表示和机器学习的西洋乐器分类方法 | |
CN105304078A (zh) | 目标声数据训练装置和目标声数据训练方法 | |
CN111653270A (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
CN114153942B (zh) | 一种基于动态注意力机制的事件时序关系抽取方法 | |
CN116010874A (zh) | 基于深度学习多模态深尺度情感特征融合的情感识别方法 | |
CN111597333A (zh) | 一种面向区块链领域的事件与事件要素抽取方法及装置 | |
CN107403618A (zh) | 基于堆叠基稀疏表示的音频事件分类方法及计算机设备 | |
Espi et al. | Spectrogram patch based acoustic event detection and classification in speech overlapping conditions | |
CN112489689A (zh) | 基于多尺度差异对抗的跨数据库语音情感识别方法及装置 | |
CN113065352A (zh) | 一种电网调度工作文本的操作内容识别方法 | |
CN114547294A (zh) | 一种基于传播过程综合信息的谣言检测方法及系统 | |
CN114357166A (zh) | 一种基于深度学习的文本分类方法 | |
Anderson | Musical instrument classification utilizing a neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |