CN109448749A - 基于有监督学习听觉注意的语音提取方法、系统、装置 - Google Patents

基于有监督学习听觉注意的语音提取方法、系统、装置 Download PDF

Info

Publication number
CN109448749A
CN109448749A CN201811558212.6A CN201811558212A CN109448749A CN 109448749 A CN109448749 A CN 109448749A CN 201811558212 A CN201811558212 A CN 201811558212A CN 109448749 A CN109448749 A CN 109448749A
Authority
CN
China
Prior art keywords
time
pulse
target
frequency
voice signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811558212.6A
Other languages
English (en)
Other versions
CN109448749B (zh
Inventor
许家铭
黄雅婷
徐波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201811558212.6A priority Critical patent/CN109448749B/zh
Publication of CN109448749A publication Critical patent/CN109448749A/zh
Priority to PCT/CN2019/083352 priority patent/WO2020124902A1/zh
Priority to US16/645,447 priority patent/US10923136B2/en
Application granted granted Critical
Publication of CN109448749B publication Critical patent/CN109448749B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明属于语音分离技术领域,具体涉及了一种基于有监督学习听觉注意的语音提取方法、系统、装置,旨在为了解决混叠语音提取收敛过程慢,进一步提高提取的准确性。本发明方法包括:将原始混叠语音信号转换为二维时间‑频率信号表示;稀疏化并将其中的时频单元的强度信息映射到离散强度等级,基于强度等级信息二次稀疏化;采用时间编码的方式转换为脉冲信号;采用训练好的目标脉冲提取网络提取目标脉冲;将目标脉冲转换成目标语音的时间‑频率表示并转换得到目标语音。本发明通过不同的时间编码方式将刺激转换成脉冲序列,有效提高了脉冲神经网络分离语音的准确性;通过改进的远程有监督方法对脉冲神经网络进行训练,大大提高了脉冲神经网络的收敛速度。

Description

基于有监督学习听觉注意的语音提取方法、系统、装置
技术领域
本发明属于语音分离技术领域,具体涉及了一种基于有监督学习听觉注意的语音提取方法、系统、装置。
背景技术
“鸡尾酒会问题”计算机语音识别领域中一个十分具有挑战性的问题,当前语音识别技术已经可以以较高精度识别一个人所讲的话,但是当说话的人数为两人或者多人时,语音识别正确率就会极大的降低。许多语音分离算法均致力于解决“鸡尾酒会问题”。随着深度学习在人工智能各个领域中的成功应用,许多研究者将人工神经网络应用到对“鸡尾酒会问题”的建模中。传统的人工神经网络采用频率编码对刺激进行编码,但是近年来的研究表明,忽略了时间结构的频率编码可能过于简化,语音识别正确率不高。当编码中采用时间结构编码信息时,我们称之为时间编码。语音中蕴含丰富的时空结构,因此采用考虑脉冲序列的时序信息的脉冲神经网络对“鸡尾酒会问题”进行建模是一个新的解决方案,但是脉冲神经网络采用无监督的学习算法,只能分离一些简单的语音混叠,比如两个分离的人声/di/和/da/,对一些复杂的语音混叠,正确率也不能达到要求。
通过有监督学习,可以从训练语料中学习到可区分性的模式,并且数种针对脉冲神经网络的有监督学习算法也获得了一定的成功。因此,在脉冲序列的时序信息的脉冲神经网络对“鸡尾酒会问题”进行建模时,采用有监督学习算法对网络进行训练,有益于脉冲神经网络分离复杂的连续语音混叠。
总的来说,该领域提出的基于有监督学习算法的混叠语音分离方法,虽然较传统的人工神经网络和无监督学习算法的脉冲神经网络,在混叠语音的提取和分离上有了很大的进步,但是收敛过程比较慢,提取的准确性也有待进一步提高。
发明内容
为了解决现有技术中的上述问题,即为了提高混叠语音分离的准确性,本发明提供了一种基于有监督学习听觉注意的语音提取方法,包括:
步骤S10,利用短时傅立叶变换将原始混叠语音信号转换为二维时间-频率信号表示,得到第一混叠语音信号;
步骤S20,对所述第一混叠语音信号稀疏化并将其中的时频单元的强度信息映射到预设的D个强度等级,基于强度等级信息二次稀疏化,得到第二混叠语音信号;
步骤S30,采用时间编码的方式将所述第二混叠语音信号转换为脉冲信号;所述时间编码为时间-频率编码或时间-群体编码;
采用用时间编码方式进行编码,保留语音的时序信息,用擅于处理时序信息的脉冲神经网络学习一个从带噪特征到分离目标(例如理想掩蔽或者感兴趣语音的幅度谱)的映射函数,大大提高了语音分离的准确性。
步骤S40,采用训练好的目标脉冲提取网络从所述脉冲信号中提取目标脉冲;所述目标脉冲提取网络基于脉冲神经网络构建;
步骤S50,将所述目标脉冲转换成目标语音的时间-频率表示,通过逆短时傅立叶变换转换得到目标语音。
在一些优选的实施例中,步骤S10中“利用短时傅立叶变换将原始混叠语音信号转换为二维时间-频率信号表示”,其步骤为:
步骤S11,对原始混叠语音信号进行重采样,降低所述原始混叠语音信号的采样率;
步骤S12,将重采样后的混叠语音信号通过短时快速傅里叶变换进行编码,将语音信号编码为具有时间、频率两个维度的矩阵表示,每一组时间、频率作为一个时频单元。
在一些优选的实施例中,步骤S20中“对所述第一混叠语音信号稀疏化并将其中的时频单元的强度信息映射到预设的D个强度等级,基于强度等级信息二次稀疏化”,其步骤为:
步骤S21,基于预设的背景噪音阈值,选取所述第一混叠语音信号的时频单元中大于所述背景噪音阈值的时频单元,构成第一时频单元集;
步骤S22,对时频单元集的时频单元进行K-means聚类,并将第一时频单元集的时频单元映射到预先设定好的D个强度等级上;
步骤S23,将强度等级最低的时频单元设置为静音单元,得到第二混叠语音信号。
在一些优选的实施例中,所述时间-频率编码为:
采用编码窗口中脉冲的数量和发放时间来反映时频单元的强度;稀疏映射模块中的强度等级为D,最低强度等级的时频单元被设为静音单元;时频单元的强度聚类后映射为强度0<d<D,d为整数,时频单元(t0,f0)对应神经元i的起始时间为t0的时间窗口,时间间隔为Δt,则该编码窗口中以t0为起始时间的时间间隔内则分别在l=0,1,...,d-1处各发放一个脉冲,共发放d个脉冲。
在一些优选的实施例中,所述时间-群体编码为:
采用多个神经元群体对时频单元的强度进行编码,时频单元的强度信息脉冲分布在多个神经元群体中相应神经元的编码窗口中;稀疏映射模块中的强度等级为D,最低强度等级的时频单元被设为静音单元,时间-群体编码采用D-1个神经元群体来进行编码;时频单元的强度聚类后映射为强度0<d<D,d为整数,时频单元(t0,f0)对应各个神经元群体中神经元i的起始时间为t0的时间窗口,神经元i∈Pl,l=1,2,...,d,在该时间窗口的起始时间t0处各发放一个脉冲,总计发放d个脉冲,其中Pl表示第l个神经元群体。
在一些优选的实施例中,所述目标脉冲提取网络为采用随机线性神经元模型构建的一个两层全连接脉冲神经网络;
采用远程监督方法对所述目标脉冲提取网络的权重进行训练;所述目标脉冲提取网络输出层神经元j和输入层神经元i之间在t时刻的权重Δwji(t)为:
其中,Si(t)分别表示期望的输出脉冲序列、实际的输出脉冲序列和输入脉冲序列;a表示非赫布项;W(s)表示学习窗口;所述目标脉冲提取网络的权重通过对Δwji在时间上积分获得。
在一些优选的实施例中,所述学习窗口W(s)为:
其中,s是突触后脉冲发放时间和突触前脉冲发放时间之间相差的时间间隔;A是幅值,A>0;τwin是学习窗口的时间常数。
在一些优选的实施例中,所采用的远程监督方法,为加入冲量的远程监督方法或加入Nesterov加速梯度的远程监督方法;
采用所述加入冲量的远程监督方法时,所述目标脉冲提取网络输出层神经元j和输入层神经元i之间的权重为:
其中,k表示迭代次数;β是冲量系数,β∈[0,1];η是学习率;是用于每次迭代更新的速度向量;
采用所述加入Nesterov加速梯度的远程监督方法时,所述目标脉冲提取网络输出层神经元j和输入层神经元i之间的权重为:
其中,表示在处的权重更新。
在一些优选的实施例中,步骤S50中“将所述目标脉冲转换成目标语音的时间-频率表示,通过逆短时傅立叶变换转换得到目标语音”,包括以下步骤:
步骤S51,将所述目标脉冲转换成对应目标的信息掩蔽,得到对应的掩蔽值;
步骤S52,将掩蔽值与第一混叠语音信号对应点乘并加入第一混叠语音信号的相位信息,得到目标语音的时间-频率信号表示;
步骤S53,采用短时傅立叶逆变换将目标语音时间-频率信号表示转换为语音信息,获取目标语音。
本发明的另一方面,提出了一种基于有监督学习听觉注意的语音提取系统,包括获取模块、转换模块、稀疏映射模块、脉冲转换模块、目标脉冲提取模块、脉冲识别模块、输出模块;
所述获取模块,配置为获取原始混叠语音信号并输入;
所述转换模块,配置为利用短时傅立叶变换将原始混叠语音信号转换为二维时间-频率信号表示,得到第一混叠语音信号;
所述稀疏映射模块,配置为将第一混叠语音信号稀疏化并将其中的时频单元的强度信息映射到预设的D个强度等级,基于强度等级信息二次稀疏化,得到第二混叠语音信号;
所述脉冲转换模块,配置为采用时间编码的方式将第二混叠语音信号转换为脉冲信号;
所述目标脉冲提取模块,配置为采用训练好的目标脉冲提取网络从所述脉冲信号中提取目标脉冲;
所述脉冲识别模块,配置为将目标脉冲转换成目标语音的时间-频率表示,通过逆短时傅立叶变换转换得到目标语音;
所述输出模块,配置为将目标语音输出。
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于有监督学习听觉注意的语音提取方法。
本发明的第四方面,提出了一种处理装置,包括处理器、存储装置;所述处理器,适于执行各条程序;所述存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于有监督学习听觉注意的语音提取方法。
本发明的有益效果:
(1)本发明方法针对语音信号具有丰富的时空结构的特点,设计时间编码方式对混叠语音信号的强度信息进行编码,并采用脉冲神经网络学习从混叠语音的输入脉冲序列到目标语音的输出脉冲序列的映射,有效提高了语音分离的准确性。
(2)本发明设计并使用时间编码对混叠语音信息进行编码,一定程度上保留了语音丰富的时空信息,有效提高了脉冲神经网络分离语音的正确率。
(3)本发明将擅于处理时序数据的脉冲神经网络运用到语音分离中,通过有监督学习,使得网络具有处理复杂混叠语音的能力。
(4)本发明将冲量和Nesterov加速梯度引入到远程监督方法中,采用改进的远程监督方法对脉冲神经网络进行训练,大大提高了脉冲神经网络的收敛速度,并能寻找到更优解。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明基于有监督学习听觉注意的语音提取方法的流程示意图;
图2是本发明基于有监督学习听觉注意的语音提取方法的框架示意图;
图3是本发明基于有监督学习听觉注意的语音提取方法实施例的时域语音转换成时间-频率表示示意图;
图4是本发明基于有监督学习听觉注意的语音提取方法实施例的滑动时间窗口示意图;
图5是本发明基于有监督学习听觉注意的语音提取方法实施例的时间-频率编码示意图;
图6是本发明基于有监督学习听觉注意的语音提取方法实施例的时间-群体编码示意图;
图7是本发明基于有监督学习听觉注意的语音提取方法实施例的脉冲神经网络示意图;
图8是本发明基于有监督学习听觉注意的语音提取方法实施例的语音输出单元示意图;
图9是本发明基于有监督学习听觉注意的语音提取方法实施例的在各个实验设置下的学习收敛数。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明提供了一种基于有监督学习听觉注意的语音提取方法来对混叠语音进行听觉注意,提取目标语音。本方法针对语音信号具有丰富的时空结构的特点,设计时间编码方式对混叠语音信号的强度信息进行编码,并采用脉冲神经网络学习从混叠语音的输入脉冲序列到目标语音的输出脉冲序列的映射。本方法中的脉冲神经网络的权重采用有监督学习算法进行学习。通过将脉冲神经网络的神经元模型限定为线性神经元模型,本方法将冲量和Nesterov加速梯度引入到远程监督方法中,并用改进的远程监督方法对脉冲神经网络进行有监督学习,以加速收敛过程和进一步提高语音分离的准确性。
本发明的一种基于有监督学习听觉注意的语音提取方法的语音提取方法,包括:
步骤S10,利用短时傅立叶变换将原始混叠语音信号转换为二维时间-频率信号表示,得到第一混叠语音信号;
步骤S20,对所述第一混叠语音信号稀疏化并将其中的时频单元的强度信息映射到预设的D个强度等级,基于强度等级信息二次稀疏化,得到第二混叠语音信号;
步骤S30,采用时间编码的方式将所述第二混叠语音信号转换为脉冲信号;所述时间编码为时间-频率编码或时间-群体编码;
步骤S40,采用训练好的目标脉冲提取网络从所述脉冲信号中提取目标脉冲;所述目标脉冲提取网络基于脉冲神经网络构建;
步骤S50,将所述目标脉冲转换成目标语音的时间-频率表示,通过逆短时傅立叶变换转换得到目标语音。
为了更清晰地对本发明基于有监督学习听觉注意的语音提取方法进行说明,下面结合图1对本发明方法实施例中各步骤展开详述。
本发明一种实施例的基于有监督学习听觉注意的语音提取方法,包括步骤S10-步骤S50,各步骤详细描述如下:
步骤S10,利用短时傅立叶变换将原始混叠语音信号转换为二维时间-频率信号表示,得到第一混叠语音信号。
步骤S11,对原始混叠语音信号进行重采样,降低所述原始混叠语音信号的采样率。本发明实施例采用的重采样率为8KHz。
步骤S12,将重采样后的混叠语音信号通过短时快速傅里叶变换(STFT,Short-Time Fourier Transform)进行编码,将语音信号编码为具有时间、频率两个维度的矩阵表示,每一组时间、频率作为一个时频单元。
如图3所示,语音时域信号为时间幅值表示,包含了不同的语音信息,经过短时快速傅里叶变换(STFT,Short-Time Fourier Transform)进行编码,转换为时间频率表示。本实施例中STFT的窗口长度为32ms,采用正弦窗函数(sine window),Hop Size长度为16ms。
步骤S20,对第一混叠语音信号稀疏化并将其中的时频单元的强度信息映射到预设的D个强度等级,基于强度等级信息二次稀疏化,得到第二混叠语音信号。
步骤S21,基于预设的背景噪音阈值,选取所述第一混叠语音信号的时频单元中大于所述背景噪音阈值的时频单元,构成第一时频单元集。本实施例中,背景阈值设为-40dB。
步骤S22,对时频单元集的时频单元进行K-means聚类,并将第一时频单元集的时频单元映射到预先设定好的D个强度等级上。
步骤S23,将强度等级最低的时频单元设置为静音单元,得到第二混叠语音信号。
步骤S30,采用时间编码的方式将所述第二混叠语音信号转换为脉冲信号。
如图4所示,为本发明实施例时间编码的滑动编码窗口:滑动编码窗口长度是时间间隔长度的两倍;t0、t1、t2和t3是在时间维度上均匀分布的四个时间点,t0-t2和t1-t3是两个相邻的编码窗口(encoding window),而t0-t1、t1-t2和t2-t3都是时间间隔(time span)。
时间编码可采用时间-频率编码或时间-群体编码,本发明实施例展示了两种时间编码的示意图。
时间-频率编码,采用编码窗口中脉冲的数量和发放时间来反映时频单元的强度,将稀疏混叠语音时频单元的强度信息转换为脉冲神经网络可以处理的脉冲信号。
稀疏映射模块中的强度等级为D,最低强度等级的时频单元被设为静音单元;时频单元的强度聚类后映射为强度0<d<D,d为整数,时频单元(t0,f0)对应神经元i的起始时间为t0的时间窗口,时间间隔为Δt,则该编码窗口中以t0为起始时间的时间间隔内则分别在l=0,1,...,d-1处各发放一个脉冲,共发放d个脉冲。
如图5所示,为本发明实施例的时间-频率编码示意图,时间-频率编码的强度在对应神经元编码窗口前半部分的时间间隔中进行编码。图示虚线表示时间间隔的边界。假设编码窗口时长为24ms,则时间间隔时长为12ms,总的强度等级D=4。由于最低强度的时频单元被设为静音单元,所以只有1、2、3这三种强度等级。当前起始时间为t0的时频单元的频率对应神经元i,设其强度是2,则在以t0为起始时间的时间间隔内,t0ms和(t0+6)ms的时候均匀分布2个脉冲;其后以该神经元i在随后以t1为起始时间的编码窗口编码的时频单元的强度为3,则在以t1为起始时间的时间间隔内,t1ms、(t1+4)ms和(t1+8)ms的时候均匀分布3个脉冲。
时间-群体编码采用多个神经元群体对时频单元的强度进行编码,时频单元的强度信息脉冲分布在多个神经元群体中相应神经元的编码窗口中,将稀疏混叠语音时频单元的强度信息转换为脉冲神经网络可以处理的脉冲信号。
群体编码是在神经科学中发现的一个重要的编码策略,主要是用多个不精确的神经元对刺激进行编码。受启于时间编码和群体编码,时间-群体编码采用多个神经元群体对时频单元的强度进行编码。具体来说,表示时频单元的强度的脉冲分布在多个神经元群体中的相应神经元的编码窗口中。
稀疏映射模块中的强度等级为D,最低强度等级的时频单元被设为静音单元,时间-群体编码采用D-1个神经元群体来进行编码;时频单元的强度聚类后映射为强度0<d<D,d为整数,时频单元(t0,f0)对应各个神经元群体中神经元i的起始时间为t0的时间窗口,神经元i∈Pl,l=1,2,...,d,在该时间窗口的起始时间t0处各发放一个脉冲,总计发放d个脉冲,其中Pl表示第l个神经元群体。
如图6所示,为本发明实施例的时间-群体编码示意图,时间-群体编码的强度在对应的神经元编码窗口前半部分的时间间隔中进行编码。图示虚线表示时间间隔的边界,图中Pd表示第d个神经元群体。时间-群体编码采用多个神经元组对刺激进行编码。假设总的强度等级D=4,由于最低强度的时频单元被设为静音单元,所以只有1、2、3这三种强度等级,故有3个神经元群体对刺激进行编码。当前起始时间为t0的时频单元的频率对应各个神经元群组中的神经元i,设其强度是2,前两个神经元群体中的神经元i各会在t0处发放一个脉冲,而第三个神经元群体中的神经元i在t0处沉默;其后以该神经元i在随后以t1为起始时间的编码窗口编码的时频单元的强度为3,则三个神经元群体中的神经元i都会在t1处各发放一个脉冲。
步骤S40,采用训练好的目标脉冲提取网络从所述脉冲信号中提取目标脉冲。
目标脉冲提取网络为采用随机线性神经元模型(stochastic linear neuronmodel)构建的一个两层全连接脉冲神经网络,如图7所示。
本发明实施例中,采用了有漏电流的漏电整合发放神经元模型(LIF,LeakyIntegrate-and-Fire)Vj(t),其定义如式(1)所示:
其中,Γj为神经元j的突触前神经元的集合,wji为神经元j和神经元i之间的突触连接权重,为神经元i的脉冲发放时间,ε(t)为脉冲响应函数,Vrest是静息电位。
ε(t)为简单的α-函数,如式(2)所示:
其中,τ为时间常数,表示突触后电位(postsynaptic potential)决定电位上升和下降的快慢;H(t)是阶跃函数(Heaviside function);τref为不应期,表示膜电位累积达到阈值电位Vthre时,神经元恢复到静息电位Vrest并维持的一段时间。
本实施例中Vthre=1.0,Vrest=0,时间编码为时间-频率编码时,τ=0.6,τref=0.8,τwin=0.8,D=8;时间编码为时间-群体编码时,τ=0.45,τref=0.8,τwin=0.7,D=10。
脉冲神经网络的结构和时间编码方式有关。当时间编码方式是时间-频率编码时,输入层的神经元数m和输出层的神经元数n都是F,其中F是时间-频率表示Xt,f的频率维度;当时间编码方式是时间-群体编码时,输入层的神经元数m是(D-1)F,而输出层的神经元数n是F。
采用远程监督方法对目标脉冲提取网络的权重进行训练。
目标脉冲提取网络输出层神经元j和输入层神经元i之间在t时刻的权重Δwji(t)如式(3)所示:
其中,Si(t)分别表示期望的输出脉冲序列、实际的输出脉冲序列和输入脉冲序列;a表示非赫布项;W(s)表示学习窗口;所述目标脉冲提取网络的权重通过对Δwji在时间上积分获得。
学习窗口W(s)定义如式(4)所示:
其中,s是突触后脉冲发放时间和突触前脉冲发放时间之间相差的时间间隔;A是幅值,A>0;τwin是学习窗口的时间常数。
当且仅当神经元模型限制在随机线性神经元模型的时候,远程监督方法可以从另一个角度推导出来,此推导过程类似于随机梯度下降。采用的远程监督方法,为加入冲量的远程监督方法或加入Nesterov加速梯度的远程监督方法。
采用加入冲量的远程监督方法(ReSuMe-M,Remote Supervised Method withMomentum)时,目标脉冲提取网络输出层神经元j和输入层神经元i之间的权重如式(5)和式(6)所示:
其中,k表示迭代次数;β是冲量系数,β∈[0,1];η是学习率;是用于每次迭代更新的速度向量。本实施例中,β=0.9。
采用加入Nesterov加速梯度的远程监督方法(ReSuMe-NAG,Remote SupervisedMethod with Nesterov’s Accelerated Gradient)时,目标脉冲提取网络输出层神经元j和输入层神经元i之间的权重如式(7)和式(8)所示:
其中,表示在处的权重更新。本实施例中,β=0.9。
本实施例中,脉冲神经网络的初始学习率为0.05,如果期望的输出脉冲序列和实际的输出脉冲的距离在5个epoch中连续增长,则以0.95的倍率调整学习率。采用耐心为15个epoch(迭代次数)的早停止策略。对于人工神经网络,则分别用SGD(StochasticGradient Descent)、SGDM(Stochastic Gradient Descent with Momentum,SGDM)和NAG(Nesterov’s Accelerated Gradient)进行优化。
步骤S50,将所述目标脉冲转换成目标语音的时间-频率表示,通过逆短时傅立叶变换转换得到目标语音。
步骤S51,将所述目标脉冲转换成对应目标的信息掩蔽,得到对应的掩蔽值。
根据一定规则将脉冲神经网络预测的输出脉冲序列转换成对应目标的信息掩蔽At,f,其中At,f和第一混叠语音的时间-频率表示维度相同。本发明实施例中采用理想二值掩蔽(IBM,Ideal Binary Mask),当某个神经元的某个时间间隔中有脉冲发放,则其对应的信息掩蔽单元置1,否则为0。
步骤S52,将掩蔽值与第一混叠语音信号对应点乘并加入第一混叠语音信号的相位信息,得到目标语音的时间-频率信号表示。
步骤S53,采用短时傅立叶逆变换(iSTFT,inverse Short-Time FourierTransform)将目标语音时间-频率信号表示转换为语音信息,获取目标语音。
如图8所示,为本发明实施例的目标语音输出示意图,混叠语音信号转换成时间频率表示,通过脉冲神经网络的学习,提取出目标语音的时间-频率表示,最后采用短时傅立叶逆变换(iSTFT,inverse Short-Time Fourier Transform)将时间-频率信号表示转换为语音信息的时间幅值表示,为提取的目标语音。
为了准确评估本发明方法的目标语音分离的性能,本发明采用语音分离中权威的BSS_EVAL工具集中的全局信号失真改善度(GNSDR,global signal-to-distortionimprovement)作为指标,衡量模型的语音分离性能。
本发明的实验采用英文语音数据集Grid语料库。从Grid数据集中选取一男一女两个说话人,各随机抽取出20条语音,分为3部分,其中10条用于生成训练集混叠语音,5条用于生成验证集混合语音,5条用于生成测试集混合语音。最终训练集共有100个样本,验证集有25个样本,测试集有25个样本。每个样本都被剪辑成0.5s以对齐。
为了说明本发明所述时间-频率编码(TR)和时间-群体编码(TP)的有效性,我们在上述数据集中在相同网络结构参数设置下和传统的Time-to-First-Spike(TF)进行对比实验。Time-to-First-Spike通过编码窗口中单个脉冲发放的早晚来编码强度信息,脉冲发放得越早,强度越大。
为了说明本发明所述加入冲量的远程监督方法(ReSuMe-M)和加入Nesterov加速梯度的远程监督方法(ReSuMe-NAG)的有效性,我们在上述数据集中在多种实验设置下和朴素的远程监督方法(ReSuMe)进行对比实验。
为了说明本发明所述基于有监督学习听觉注意的语音提取方法的有效性,我们在上述数据集中在相同网络结构参数设置下和两层人工神经网络中的多层感知机(MLP,Multi-Layer Perceptron)、递归神经网络(RNN,Recurrent Neural Network)和长短时记忆网络(LSTM,Long-Short Term Memory)进行对比实验。其中人工神经网络采用步骤S10得到的时间-频率表示作为输入,步骤S51中采用理想比率掩蔽(IRM,Ideal Ratio Mask),人工神经网络使用IRM比使用IBM的效果好。
传统的Time-to-First-Spike过度简化,只使用单个脉冲表示时频单元的强度,容易受到噪音的干扰。本发明提出的时间-频率编码和时间-群体编码比传统的Time-to-First-Spike编码有明显表现提升。
对比有监督方法(ReSuMe)、加入冲量的有监督方法(ReSuMe-M)和加入Nesterov加速梯度的有监督方法(ReSuMe-NAG),可以发现将冲量和Nesterov加速梯度引入到远程监督方法中后,本发明的模型跳出局部极值,能够寻找到更优解,提升语音提取准确性。
对比脉冲神经网络和人工神经网络的表现,本发明的方法在大多数设置下表现均优于相同网络参数下的人工神经网络,这表明脉冲神经网络处理时序数据的潜在优越性。
对比结果如表1所示:
表1
方法 SNN(TF) SNN(TR) SNN(TP)
ReSuMe 1.81±0.31 3.71±0.32 4.04±0.27
ReSuMe-M 2.16±0.21 4.03±0.29 4.41±0.29
ReSuMe-NAG 2.20±0.24 4.54±0.23 4.23±0.20
方法 MLP RNN LSTM
SGD 3.70±0.07 3.56±0.06 3.80±0.03
SGDM 3.72±0.07 3.58±0.05 3.94±0.07
NAG 3.74±0.06 3.58±0.05 3.94±0.06
如图9所示,从本发明方法在各个实验设置下的学习收敛数中可以看出,远程监督方法加入冲量和Nesterov加速梯度之后,脉冲序列学习的收敛过程明显加快,表明了本发明所述有监督学习算法ReSuMe-M和ReSuMe-NAG的有效性。
本发明第二实施例的基于有监督学习听觉注意的语音提取系统,包括获取模块、转换模块、稀疏映射模块、脉冲转换模块、目标脉冲提取模块、脉冲识别模块、输出模块;
所述获取模块,配置为获取原始混叠语音信号并输入;
所述转换模块,配置为利用短时傅立叶变换将原始混叠语音信号转换为二维时间-频率信号表示,得到第一混叠语音信号;
所述稀疏映射模块,配置为将第一混叠语音信号稀疏化并将其中的时频单元的强度信息映射到预设的D个强度等级,基于强度等级信息二次稀疏化,得到第二混叠语音信号;
所述脉冲转换模块,配置为采用时间编码的方式将第二混叠语音信号转换为脉冲信号;
所述目标脉冲提取模块,配置为采用训练好的目标脉冲提取网络从所述脉冲信号中提取目标脉冲;
所述脉冲识别模块,配置为将目标脉冲转换成目标语音的时间-频率表示,通过逆短时傅立叶变换转换得到目标语音;
所述输出模块,配置为将目标语音输出。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于有监督学习听觉注意的语音提取系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于有监督学习听觉注意的语音提取方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于有监督学习听觉注意的语音提取方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“上”、“下”、“前”、“后”、“左”、“右”等,仅是参考附图的方向,并非用来限制本发明的保护范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (12)

1.一种基于有监督学习听觉注意的语音提取方法,其特征在于,包括:
步骤S10,利用短时傅立叶变换将原始混叠语音信号转换为二维时间-频率信号表示,得到第一混叠语音信号;
步骤S20,对所述第一混叠语音信号稀疏化并将其中的时频单元的强度信息映射到预设的D个强度等级,基于强度等级信息二次稀疏化,得到第二混叠语音信号;
步骤S30,采用时间编码的方式将所述第二混叠语音信号转换为脉冲信号;所述时间编码为时间-频率编码或时间-群体编码;
步骤S40,采用训练好的目标脉冲提取网络从所述脉冲信号中提取目标脉冲;所述目标脉冲提取网络基于脉冲神经网络构建;
步骤S50,将所述目标脉冲转换成目标语音的时间-频率表示,通过逆短时傅立叶变换转换得到目标语音。
2.根据权利要求1所述的基于有监督学习听觉注意的语音提取方法,其特征在于,步骤S10中“利用短时傅立叶变换将原始混叠语音信号转换为二维时间-频率信号表示”,其步骤为:
步骤S11,对原始混叠语音信号进行重采样,降低所述原始混叠语音信号的采样率;
步骤S12,将重采样后的混叠语音信号通过短时快速傅里叶变换进行编码,将语音信号编码为具有时间、频率两个维度的矩阵表示,每一组时间、频率作为一个时频单元。
3.根据权利要求1所述的基于有监督学习听觉注意的语音提取方法,其特征在于,步骤S20中“对所述第一混叠语音信号稀疏化并将其中的时频单元的强度信息映射到预设的D个强度等级,基于强度等级信息二次稀疏化”,其步骤为:
步骤S21,基于预设的背景噪音阈值,选取所述第一混叠语音信号的时频单元中大于所述背景噪音阈值的时频单元,构成第一时频单元集;
步骤S22,对时频单元集的时频单元进行K-means聚类,并将第一时频单元集的时频单元映射到预先设定好的D个强度等级上;
步骤S23,将强度等级最低的时频单元设置为静音单元,得到第二混叠语音信号。
4.根据权利要求1所述的基于有监督学习听觉注意的语音提取方法,其特征在于,所述时间-频率编码为:
采用编码窗口中脉冲的数量和发放时间来反映时频单元的强度;稀疏映射模块中的强度等级为D,最低强度等级的时频单元被设为静音单元;时频单元的强度聚类后映射为强度0<d<D,d为整数,时频单元(t0,f0)对应神经元i的起始时间为t0的时间窗口,时间间隔为Δt,则该编码窗口中以t0为起始时间的时间间隔内则分别会在处各发放一个脉冲,共发放d个脉冲。
5.根据权利要求1所述的基于有监督学习听觉注意的语音提取方法,其特征在于,所述时间-群体编码为:
采用多个神经元群体对时频单元的强度进行编码,时频单元的强度信息脉冲分布在多个神经元群体中相应神经元的编码窗口中;稀疏映射模块中的强度等级为D,最低强度等级的时频单元被设为静音单元,时间-群体编码采用D-1个神经元群体来进行编码;时频单元的强度聚类后映射为强度0<d<D,d为整数,时频单元(t0,f0)对应各个神经元群体中神经元i的起始时间为t0的时间窗口,神经元i∈Pl,l=1,2,...,d,在该时间窗口的起始时间t0处各发放一个脉冲,总计发放d个脉冲,其中Pl表示第l个神经元群体。
6.根据权利要求1所述的基于有监督学习听觉注意的语音提取方法,其特征在于,所述目标脉冲提取网络为采用随机线性神经元模型构建的一个两层全连接脉冲神经网络;
采用远程监督方法对所述目标脉冲提取网络的权重进行训练;所述目标脉冲提取网络输出层神经元j和输入层神经元i之间在t时刻的权重Δwji(t)为:
其中,Si(t)分别表示期望的输出脉冲序列、实际的输出脉冲序列和输入脉冲序列;a表示非赫布项;W(s)表示学习窗口;所述目标脉冲提取网络的权重通过对Δwji在时间上积分获得。
7.根据权利要求4所述的基于有监督学习听觉注意的语音提取方法,其特征在于,所述学习窗口W(s)为:
其中,s是突触后脉冲发放时间和突触前脉冲发放时间之间相差的时间间隔;A是幅值,A>0;τwin是学习窗口的时间常数。
8.根据权利要求4或5所述的基于有监督学习听觉注意的语音提取方法,其特征在于,所采用的远程监督方法,为加入冲量的远程监督方法或加入Nesterov加速梯度的远程监督方法;
采用所述加入冲量的远程监督方法时,所述目标脉冲提取网络输出层神经元j和输入层神经元i之间的权重为:
其中,k表示迭代次数;β是冲量系数,β∈[0,1];η是学习率;是用于每次迭代更新的速度向量;
采用所述加入Nesterov加速梯度的远程监督方法时,所述目标脉冲提取网络输出层神经元j和输入层神经元i之间的权重为:
其中,表示在处的权重更新。
9.根据权利要求1所述的基于有监督学习听觉注意的语音提取方法,其特征在于,步骤S50中“将所述目标脉冲转换成目标语音的时间-频率表示,通过逆短时傅立叶变换转换得到目标语音”,包括以下步骤:
步骤S51,将所述目标脉冲转换成对应目标的信息掩蔽,得到对应的掩蔽值;
步骤S52,将掩蔽值与第一混叠语音信号对应点乘并加入第一混叠语音信号的相位信息,得到目标语音的时间-频率信号表示;
步骤S53,采用短时傅立叶逆变换将目标语音时间-频率信号表示转换为语音信息,获取目标语音。
10.一种基于有监督学习听觉注意的语音提取系统,其特征在于,包括获取模块、转换模块、稀疏映射模块、脉冲转换模块、目标脉冲提取模块、脉冲识别模块、输出模块;
所述获取模块,配置为获取原始混叠语音信号并输入;
所述转换模块,配置为利用短时傅立叶变换将原始混叠语音信号转换为二维时间-频率信号表示,得到第一混叠语音信号;
所述稀疏映射模块,配置为将第一混叠语音信号稀疏化并将其中的时频单元的强度信息映射到预设的D个强度等级,基于强度等级信息二次稀疏化,得到第二混叠语音信号;
所述脉冲转换模块,配置为采用时间编码的方式将第二混叠语音信号转换为脉冲信号;
所述目标脉冲提取模块,配置为采用训练好的目标脉冲提取网络从所述脉冲信号中提取目标脉冲;
所述脉冲识别模块,配置为将目标脉冲转换成目标语音的时间-频率表示,通过逆短时傅立叶变换转换得到目标语音;
所述输出模块,配置为将目标语音输出。
11.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-9任一项所述的基于有监督学习听觉注意的语音提取方法。
12.一种处理装置,包括
处理器,适于执行各条程序;以及
存储装置,适于存储多条程序;
其特征在于,所述程序适于由处理器加载并执行以实现:
权利要求1-9任一项所述的基于有监督学习听觉注意的语音提取方法。
CN201811558212.6A 2018-12-19 2018-12-19 基于有监督学习听觉注意的语音提取方法、系统、装置 Active CN109448749B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201811558212.6A CN109448749B (zh) 2018-12-19 2018-12-19 基于有监督学习听觉注意的语音提取方法、系统、装置
PCT/CN2019/083352 WO2020124902A1 (zh) 2018-12-19 2019-04-19 基于有监督学习听觉注意的语音提取方法、系统、装置
US16/645,447 US10923136B2 (en) 2018-12-19 2019-04-19 Speech extraction method, system, and device based on supervised learning auditory attention

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811558212.6A CN109448749B (zh) 2018-12-19 2018-12-19 基于有监督学习听觉注意的语音提取方法、系统、装置

Publications (2)

Publication Number Publication Date
CN109448749A true CN109448749A (zh) 2019-03-08
CN109448749B CN109448749B (zh) 2022-02-15

Family

ID=65560163

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811558212.6A Active CN109448749B (zh) 2018-12-19 2018-12-19 基于有监督学习听觉注意的语音提取方法、系统、装置

Country Status (3)

Country Link
US (1) US10923136B2 (zh)
CN (1) CN109448749B (zh)
WO (1) WO2020124902A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110609986A (zh) * 2019-09-30 2019-12-24 哈尔滨工业大学 一种基于预训练的结构化数据生成文本的方法
WO2020124902A1 (zh) * 2018-12-19 2020-06-25 中国科学院自动化研究所 基于有监督学习听觉注意的语音提取方法、系统、装置
CN111540367A (zh) * 2020-04-17 2020-08-14 合肥讯飞数码科技有限公司 语音特征提取方法、装置、电子设备和存储介质
CN111739555A (zh) * 2020-07-23 2020-10-02 深圳市友杰智新科技有限公司 基于端到端深度神经网络的音频信号处理方法及装置
CN111768761A (zh) * 2019-03-14 2020-10-13 京东数字科技控股有限公司 一种语音识别模型的训练方法和装置
CN113257282A (zh) * 2021-07-15 2021-08-13 成都时识科技有限公司 语音情感识别方法、装置、电子设备以及存储介质
CN113782006A (zh) * 2021-09-03 2021-12-10 清华大学 一种语音提取方法、装置及设备
CN114882914A (zh) * 2022-06-16 2022-08-09 中国电信股份有限公司 混叠音处理方法、装置和存储介质
CN115587321A (zh) * 2022-12-09 2023-01-10 中国科学院苏州生物医学工程技术研究所 一种脑电信号识别分类方法、系统及电子设备

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112699956B (zh) * 2021-01-08 2023-09-22 西安交通大学 一种基于改进脉冲神经网络的神经形态视觉目标分类方法
CN113192526B (zh) * 2021-04-28 2023-10-31 北京达佳互联信息技术有限公司 音频处理方法和音频处理装置
CN113037781A (zh) * 2021-04-29 2021-06-25 广东工业大学 基于rnn的语音信息加密方法及装置
CN115662409B (zh) * 2022-10-27 2023-05-05 亿铸科技(杭州)有限责任公司 一种语音识别方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150066493A1 (en) * 2008-07-11 2015-03-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs
CN105118503A (zh) * 2015-07-13 2015-12-02 中山大学 一种音频翻录检测方法
CN105957537A (zh) * 2016-06-20 2016-09-21 安徽大学 一种基于l1/2稀疏约束卷积非负矩阵分解的语音去噪方法和系统
CN107863111A (zh) * 2017-11-17 2018-03-30 合肥工业大学 面向交互的语音语料处理方法及装置
CN107945817A (zh) * 2017-11-15 2018-04-20 广东顺德西安交通大学研究院 心肺音信号分类方法、检测方法、装置、介质和计算机设备
CN108109619A (zh) * 2017-11-15 2018-06-01 中国科学院自动化研究所 基于记忆和注意力模型的听觉选择方法和装置
CN109034070A (zh) * 2018-07-27 2018-12-18 河南师范大学 一种置换混叠图像盲分离方法及装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3840684B2 (ja) * 1996-02-01 2006-11-01 ソニー株式会社 ピッチ抽出装置及びピッチ抽出方法
JP3006677B2 (ja) * 1996-10-28 2000-02-07 日本電気株式会社 音声認識装置
ES2678415T3 (es) * 2008-08-05 2018-08-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para procesamiento y señal de audio para mejora de habla mediante el uso de una extracción de característica
JP2014219467A (ja) * 2013-05-02 2014-11-20 ソニー株式会社 音信号処理装置、および音信号処理方法、並びにプログラム
US20170061978A1 (en) * 2014-11-07 2017-03-02 Shannon Campbell Real-time method for implementing deep neural network based speech separation
CN105448302B (zh) * 2015-11-10 2019-06-25 厦门快商通科技股份有限公司 一种环境自适应的语音混响消除方法和系统
CN108680245A (zh) * 2018-04-27 2018-10-19 天津大学 鲸豚类Click类叫声与传统声呐信号分类方法及装置
CN108899048A (zh) * 2018-05-10 2018-11-27 广东省智能制造研究所 一种基于信号时频分解的声音数据分类方法
CN109448749B (zh) * 2018-12-19 2022-02-15 中国科学院自动化研究所 基于有监督学习听觉注意的语音提取方法、系统、装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150066493A1 (en) * 2008-07-11 2015-03-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs
CN105118503A (zh) * 2015-07-13 2015-12-02 中山大学 一种音频翻录检测方法
CN105957537A (zh) * 2016-06-20 2016-09-21 安徽大学 一种基于l1/2稀疏约束卷积非负矩阵分解的语音去噪方法和系统
CN107945817A (zh) * 2017-11-15 2018-04-20 广东顺德西安交通大学研究院 心肺音信号分类方法、检测方法、装置、介质和计算机设备
CN108109619A (zh) * 2017-11-15 2018-06-01 中国科学院自动化研究所 基于记忆和注意力模型的听觉选择方法和装置
CN107863111A (zh) * 2017-11-17 2018-03-30 合肥工业大学 面向交互的语音语料处理方法及装置
CN109034070A (zh) * 2018-07-27 2018-12-18 河南师范大学 一种置换混叠图像盲分离方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
夏莎莎等: "基于优化浮值掩蔽的监督性语音分离", 《自动化学报》 *
张雄伟等: "语音去混响技术的研究进展与展望", 《数据采集与处理》 *
梁尧等: "基于深度神经网络的单通道语音分离算法", 《信息技术》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020124902A1 (zh) * 2018-12-19 2020-06-25 中国科学院自动化研究所 基于有监督学习听觉注意的语音提取方法、系统、装置
US10923136B2 (en) 2018-12-19 2021-02-16 Institute Of Automation, Chinese Academy Of Sciences Speech extraction method, system, and device based on supervised learning auditory attention
CN111768761A (zh) * 2019-03-14 2020-10-13 京东数字科技控股有限公司 一种语音识别模型的训练方法和装置
CN111768761B (zh) * 2019-03-14 2024-03-01 京东科技控股股份有限公司 一种语音识别模型的训练方法和装置
CN110609986B (zh) * 2019-09-30 2022-04-05 哈尔滨工业大学 一种基于预训练的结构化数据生成文本的方法
CN110609986A (zh) * 2019-09-30 2019-12-24 哈尔滨工业大学 一种基于预训练的结构化数据生成文本的方法
CN111540367A (zh) * 2020-04-17 2020-08-14 合肥讯飞数码科技有限公司 语音特征提取方法、装置、电子设备和存储介质
CN111540367B (zh) * 2020-04-17 2023-03-31 合肥讯飞数码科技有限公司 语音特征提取方法、装置、电子设备和存储介质
CN111739555A (zh) * 2020-07-23 2020-10-02 深圳市友杰智新科技有限公司 基于端到端深度神经网络的音频信号处理方法及装置
CN111739555B (zh) * 2020-07-23 2020-11-24 深圳市友杰智新科技有限公司 基于端到端深度神经网络的音频信号处理方法及装置
CN113257282B (zh) * 2021-07-15 2021-10-08 成都时识科技有限公司 语音情感识别方法、装置、电子设备以及存储介质
CN113257282A (zh) * 2021-07-15 2021-08-13 成都时识科技有限公司 语音情感识别方法、装置、电子设备以及存储介质
CN113782006A (zh) * 2021-09-03 2021-12-10 清华大学 一种语音提取方法、装置及设备
CN114882914A (zh) * 2022-06-16 2022-08-09 中国电信股份有限公司 混叠音处理方法、装置和存储介质
CN115587321A (zh) * 2022-12-09 2023-01-10 中国科学院苏州生物医学工程技术研究所 一种脑电信号识别分类方法、系统及电子设备

Also Published As

Publication number Publication date
US20200402526A1 (en) 2020-12-24
WO2020124902A1 (zh) 2020-06-25
CN109448749B (zh) 2022-02-15
US10923136B2 (en) 2021-02-16

Similar Documents

Publication Publication Date Title
CN109448749B (zh) 基于有监督学习听觉注意的语音提取方法、系统、装置
US11694696B2 (en) Method and apparatus for implementing speaker identification neural network
CN102509547B (zh) 基于矢量量化的声纹识别方法及系统
Verma et al. Frequency Estimation from Waveforms Using Multi-Layered Neural Networks.
US5566270A (en) Speaker independent isolated word recognition system using neural networks
CN109616104B (zh) 基于关键点编码和多脉冲学习的环境声音识别方法
CN110680313B (zh) 一种基于脉冲群智能算法并结合stft-psd和pca的癫痫时期分类方法
CN106952649A (zh) 基于卷积神经网络和频谱图的说话人识别方法
CN106782511A (zh) 修正线性深度自编码网络语音识别方法
CN103531199A (zh) 基于快速稀疏分解和深度学习的生态声音识别方法
Murray et al. The neural network classification of false killer whale (Pseudorca crassidens) vocalizations
CN113111786B (zh) 基于小样本训练图卷积网络的水下目标识别方法
CN111899757A (zh) 针对目标说话人提取的单通道语音分离方法及系统
CN109308903A (zh) 语音模仿方法、终端设备及计算机可读存储介质
CN111462737B (zh) 一种训练用于语音分组的分组模型的方法和语音降噪方法
Trivedi Introduction to various algorithms of speech recognition: hidden Markov model, dynamic time warping and artificial neural networks
CN113948067B (zh) 一种具有听觉高保真度特点的语音对抗样本修复方法
CN111091815A (zh) 基于膜电压驱动的聚合标签学习模型的语音识别方法
Djeffal et al. Noise-robust speech recognition: A comparative analysis of LSTM and CNN approaches
CN115273853B (zh) 一种基于仿生神经网络的语音识别系统与方法
Zhipeng et al. Voiceprint recognition based on BP Neural Network and CNN
Barkovska et al. Analysis of the influence of selected audio pre-processing stages on accuracy of speaker language recognition
Mendelev et al. Robust voice activity detection with deep maxout neural networks
Zeng et al. Adversarial training for underwater target recognition in complex marine conditions
Daniel Evolving Recurrent Neural Networks That Process and Classify Raw Audio in a Streaming Fashion.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant