CN112133323A - 一种空间结构性特征相关的无监督分类与有监督修正融合的语音分离方法 - Google Patents

一种空间结构性特征相关的无监督分类与有监督修正融合的语音分离方法 Download PDF

Info

Publication number
CN112133323A
CN112133323A CN202010966976.XA CN202010966976A CN112133323A CN 112133323 A CN112133323 A CN 112133323A CN 202010966976 A CN202010966976 A CN 202010966976A CN 112133323 A CN112133323 A CN 112133323A
Authority
CN
China
Prior art keywords
voice
speech
onset
classification
supervised
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010966976.XA
Other languages
English (en)
Inventor
赵振
刘扬
焦美凤
姜明顺
张雷
张法业
杜泽厚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital Sunshine Co Ltd
Qingdao University of Science and Technology
Original Assignee
Rizhao Civil Air Defense Intelligent Technology Co ltd
Qingdao University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rizhao Civil Air Defense Intelligent Technology Co ltd, Qingdao University of Science and Technology filed Critical Rizhao Civil Air Defense Intelligent Technology Co ltd
Priority to CN202010966976.XA priority Critical patent/CN112133323A/zh
Publication of CN112133323A publication Critical patent/CN112133323A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开一种空间结构性特征相关的无监督分类与有监督修正融合的语音分离方法,包括:基于时滞细胞神经网络的语音片段特征提取、基于动态增长自组织映射神经网络的语音片段无监督自适应分类;基于粒子群优化算法语音分离模型自适应修正和基于二值掩蔽的语音重构。本方案结合无监督分类和有监督修正,更有利于提高说话人数目未知的混合语音分离的泛化性和准确性,为单信道多说话人语音分离这样一个迫切需要解决的实际问题,提供一个理论支撑而且实际可行的方案。

Description

一种空间结构性特征相关的无监督分类与有监督修正融合的 语音分离方法
技术领域
本发明涉及语音信号处理领域,具体涉及一种空间结构性特征相关的无监督分类与有监督修正融合的语音分离方法。
背景技术
在复杂的声学环境下,目标说话人的语音信号经常会受到各种噪声的干扰,从而严重影响目标语音的识别性能。语音分离技术能够有效地去除实际环境中的噪音干扰,为后续的语音信号处理提供更加准确、可靠的信息。语音分离技术的应用场景非常广泛,例如在国防军事领域,在战争环境及会议监听等背景下,单纯利用声纹识别技术无法准确分析从敌方截获的会议录音中有无特定说话人,而语音分离技术可提高声纹识别的准确率。在公共安全领域,在嘈杂的多说话人场景下的街道上,利用语音分离技术能够更为准确地寻找特定词语,锁定具有危险意图的行人;在智能家居领域,通过语音指令控制智能设备时,其他家庭成员经常也在进行语言交流,因此需要语音分离技术准确地得到目标语音的指令,从而正确地执行其意图。
语音分离作为语音识别和语音合成等技术的重要基础,是一项重要、关键的研究课题,得到了研究人员的重点关注。从应用角度层面来看,单信道系统对部署的限制较少,并且不存在多麦克风系统的配置平稳性等潜在的问题,更易于在设备上实现,因此单信道语音分离是最理想的研究对象。单信道语音分离技术包括谱减法、维纳滤波法、基于最小均方差的语谱估计方法、基于听觉场景分析的方法和基于模型的方法,然而已有的语音分离算法对说话人数目未知的混合语音分离仍存在泛化性和精确性不足的问题。
发明内容
本发明针对现有技术中语音片段特征提取、语音片段分类和语音分离模型修正中存在的问题,提出一种空间结构性特征相关的无监督分类与有监督修正融合的语音分离方法。
本发明是采用以下的技术方案实现的:一种空间结构性特征相关的无监督分类与有监督修正融合的语音分离方法,包括以下步骤:
步骤A、基于时滞细胞神经网络提取语音片段的特征;
步骤A1、基于包络检波计算调制幅度谱和相位谱;
步骤A2、基于时滞细胞神经网络提取调试幅度谱的特征;
步骤A3、基于突变点检测方法生成语音片段窗口;
步骤A4、基于多尺度空间金字塔池化统一语音片段特征维度。
步骤B、基于动态增长自组织映射神经网络对经过步骤A获取的的语音片段无监督自适应分类;
步骤C、基于粒子群优化算法自适应修正步骤A和B构建的语音分离模型的参数;
步骤D、基于二值掩蔽对同一类的语音片段语音重构,获得目标语音。
进一步的,所述步骤A1中通过包络检波计算调制幅度谱时,具体采用以下方式:
(1)采用Gammatone滤波器建立128个信道的滤波器组;
(2)利用基于非相干解调的Hilbert变换进行包络检波;
(3)通过1024个点的傅里叶变换获得调制幅度谱;
(4)通过低通滤波器对调制幅度谱进行平滑处理。
进一步的,所述步骤A2中,对平滑处理后的调制幅度谱特征提取时采用以下方式:构建128×1024二维结构的时滞细胞神经网络,网络的输出完全由反馈模板A、控制模板B、时滞反馈模板Aτ、时滞控制模板Bτ、阈值I和时滞τ决定。
进一步的,所述步骤A3中,根据突变点检测方法生成语音片段窗口:
(1)计算每个信道中平滑的调制幅度谱的一阶导数获取候选的onset/offset突变点,其中onset对应极大值点,offset对应极小值点;通过设定阈值进一步筛选onset;保留所有的相邻的onset之间值最小的offset,并且删除其余的offset;
(2)将当前信道中所有的相邻的onset之间距离的平均值作为阈值;筛选与当前信道的onset距离小于阈值的相邻信道的onset集合,选择集合中距离最小的onset连接;对offset采用相同的筛选和连接方式;将跨度少于三个相邻信道的连线取消;
(3)针对个连续信道的onset的连线,选取onset右侧相邻的offset,构建大小为Z的offset集合;选择穿过offset集合中点数最多的一条offset连线,作为与onset连线最佳匹配的offset连线;当连续Z个信道的onset全部匹配成功则结束,否则对匹配失败的信道重复执行此流程;将匹配的onset和offset连线之间的区域作为语音片段;
(4)选取语音片段中的最大的矩形区域作为语音片段窗口,将语音片段窗口内的调制幅度谱特征作为语音片段特征。
进一步的,所述步骤A4中,利用多尺度空间金字塔池化方法统一语音片段特征的维度:
(1)使用10种不同尺度的窗口对语音窗口进行划分,每一种尺度代表金字塔的一层;
(2)对每一个池化窗口内的语音片段采取最大池化操作,展开得到的R维特征向量作为语音片段分类神经网络的输入。
进一步的,所述步骤B中,基于动态增长自组织映射神经网络对语音片段进行无监督自适应分类,具体如下:
(1)根节点的权值向量W(0)赋值为[0,1]区间的随机值;
(2)设置初始学习率η(0)和生长因子α,并计算生长阈值G;
(3)从样本集中选取样本向量v(i),其中i为样本序号,按加权距离寻找与f(n)最近的竞争层节点j*
(4)计算v(i)与竞争层j*节点之间的误差距离E:若此时E>G,则转步骤e执行生长操作,否则转步骤6做调整操作;
(5)生成j*的子节点,其权值
Figure BDA0002682699230000021
(6)调整j*及其子节点权值;
(7)采用由大到小的动态学习率,可按下面公式调整学习率:
η(t+1)=λ.η(t)
(8)重复步骤3-7,直至所有样本训练完毕;
(9)重复步骤8进入下一个训练周期,直至网络中不再有新的节点生成。
进一步的,所述步骤C中,基于粒子群优化算法自适应修正语音分离模型的参数。具体如下:
(1)设定粒子群最大进化代数Gmax,种群规模为S,加速度因子D1,D2,惯性权重ω;
(2)以参数组合[A,Aτ,B,Bτ,I,τ,λ,α]作为粒子,随机产生种群规模个数的参数组合作为粒子的初始位置,并随机初始化每个粒子的移动速度;
(3)选取语音片段分类错误率的均方误差作为适应度函数,根据粒子的位置计算适应度函数的值,利用模拟退火算法对粒子的适应度进行修正;
(4)对比适应度值大小,根据个体局部极值和种群全局极值,更新粒子的速度和位置;
(5)以学习因子、惯性权重和性能评价参数作为模糊控制器的输入,将学习因子和惯性权重变化量的百分比作为输出,利用模糊规则同时调节惯性权重和学习因子;
(6)重复步骤4-6,当迭代次数达到最大进化代数,获得全局最优粒子位置。
进一步的,所述步骤D中,基于二值掩蔽对同一类的语音片段语音重构,获得目标语音。具体如下:
(1)根据语音片段分类的结果,利用二值掩蔽获得分离后的第n个说话者的调制幅度谱;
(2)结合混合语音的调制相位谱,使用逆傅里叶变换得到分离后的语音包络;
(3)结合混合语音的载波,获得不同信道的时域信号;
(4)通过逆Gammatone滤波器合成得到分离后的语音。
与现有技术相比,本发明的优点和积极效果在于:
本方案利用时滞细胞神经网络并行高速以及易于VLSI实现的特性的提取时序信号的特征,进一步提高处理的实时性;同时利用时滞细胞神经网络局部连通的特性,充分考虑细胞之间信息传递的时滞因素,突出频带相关性和空间结构性信息;提出基于动态增长自组织映射神经网络的无监督语音片段自适应分类算法,模拟大脑神经网络中神经元的负载平衡过程,动态生成输出层新的子节点,实现无监督的语音片段的自适应分类;提出空间结构性特征相关的无监督语音片段分类和有监督语音模型自适应修正融合的语音分离算法,通过有监督学习和无监督学习的有机结合,同时提高了语音分离模型的泛化性和精确性。
附图说明
图1为本发明实施例所述语音分离原理框图;
图2为本发明实施例所述调制幅度谱和相位谱计算示意图;
图3为本发明实施例所述语音片段分类示意图;
图4为本发明实施例所述语音重构示意图。
具体实施方式
为了能够更加清楚地理解本发明的上述目的、特征和优点,下面结合附图及实施例对本发明做进一步说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用不同于在此描述的其他方式来实施,因此,本发明并不限于下面公开的具体实施例。
如图1所示,本实施例提出一种空间结构性特征相关的无监督分类与有监督修正融合的语音分离方法,包括以下步骤:
步骤一、基于时滞细胞神经网络提取语音片段特征;
步骤二、基于动态增长自组织映射神经网络对语音片段自适应分类;
步骤三、基于粒子群优化算法对语音分离模型有监督语地自适应修正;
步骤四、基于二值掩蔽合成目标语音。
步骤一、基于时滞细胞神经网络的语音片段特征提取
语音特征提取方法通常不能充分利用相邻频带之间的相关性信息,同时打乱了语音内部的空间结构信息。针对此问题,利用时滞细胞神经网络的反馈模板和控制模板,通过邻域细胞之间的非线性动力学传播效应,获得包含频带相关性和空间结构性信息的调制幅度谱特征,并基于时滞特性提高特征提取的精确性和稳定性;进而,利用突变点检测方法生成语音片段窗口,获取语音片段的特征;最后,使用多尺度空间金字塔池化方法,统一语音片段特征的维度,实现语音片段特征的有效提取。如图2所示,本实施例采用以下方法对语音片段进行特征提取:
1、调制幅度谱和相位谱计算方法
(1)采用Gammatone滤波器建立128个信道的滤波器组,具体的:
①根据Moore和Glasberg提出的经验公式,计算特定频率上的等效矩形带宽(ERB):
ERB(f)=24.7+(0.00437f+1)
②针对等效矩形带宽和固定频率间隔乘积的倒数作积分运算,得到将频率映射到信道编号的函数,进一步求解将信道编号映射到频率的反函数;
③通过求解的固定频率间隔获得所有信道的中心频率,进而获得第k个信道对应的Gammatone滤波器的冲击响应gt(t,k);
④得到第k个信道的输出为:
y(t,k)=y(t)*gt(t,k)
其中y(t)为输入的原始信号,*为卷积运算。
(2)利用基于非相干解调的Hilbert变换进行包络检波:
Figure BDA0002682699230000041
Figure BDA0002682699230000042
其中,e(t,k)和ck(t)分别为混合语音信号第k个信道的包络和载波;Hilbert[.]为Hilbert变换;LPF[.]为低通滤波器;截止频率为20Hz。
通过1024个点的傅里叶变换获得调制幅度谱Ya(i,k):
Figure BDA0002682699230000043
(3)为了消除调制频谱中微弱波动的干扰,通过低通滤波器对调制幅度谱进行平滑处理,第k个信道的调制幅度谱平滑处理后得到:
Ys(i,k)=Ya(i,k)*gs(i)
其中gs(i)为截止频率为s Hz的低通FIR滤波器,*为卷积运算。s的大小决定了滤波之后的平滑程度。
2、调制幅度谱特征提取方法
构建128×1024二维结构的时滞细胞神经网络,网络的输出完全由反馈模板A、控制模板B、时滞反馈模板Aτ、时滞控制模板Bτ、阈值I和时滞τ决定。网络状态和输出的更新方式如下:
Figure BDA0002682699230000051
vyef(t)=tanh(vxef(t))
其中vx(t),vu(t)和vy(t)分别为细胞的状态、输入和输出;C(h,l)为第h行,l列的细胞;Nr(e,f)为第e行f列细胞的r邻域。
经对比实验,本实施例中邻域半径r设置为2,将初始状态vx(0)设置为0,平滑的调制幅度谱Ys(i,k)作为时滞细胞神经网络的初始输入vu(0),网络收敛时的输出为调制幅度谱的特征。
3、语音片段窗口生成方法
利用基于突变点检测的语音片段窗口生成方法获取调制幅度谱特征与语音片段特征之间的映射关系。具体的:
(1)计算每个信道中平滑的调制幅度谱的一阶导数获取候选的onset/offset突变点,其中onset对应极大值点,offset对应极小值点;通过设定阈值进一步筛选onset;保留所有的相邻的onset之间值最小的offset,并且删除其余的offset;
(2)将当前信道中所有的相邻的onset之间距离的平均值作为阈值;筛选与当前信道的onset距离小于阈值的相邻信道的onset集合,选择集合中距离最小的onset连接;对offset采用相同的筛选和连接方式;将跨度少于三个相邻信道的连线取消;
(3)针对个连续信道的onset的连线,选取onset右侧相邻的offset,构建大小为Z的offset集合;选择穿过offset集合中点数最多的一条offset连线,作为与onset连线最佳匹配的offset连线;当连续Z个信道的onset全部匹配成功则结束,否则对匹配失败的信道重复执行此流程;将匹配的onset和offset连线之间的区域作为语音片段;
(4)选取语音片段中的最大的矩形区域作为语音片段窗口,将语音片段窗口内的调制幅度谱特征作为语音片段特征,如图1所示。
4、特征维度统一方法
语音片段分类神经网络的输入层的神经元数目是固定的,而语音片段特征的维度不相同,进一步利用多尺度空间金字塔池化统一语音片段特征的维度,具体的:
(1)使用10种不同尺度(30,20,15,10,8,6,4,3,2,1)的窗口对语音窗口进行划分,每一种尺度代表金字塔的一层,第m层的池化层窗口大小为:
Figure BDA0002682699230000061
其中,win_w和win_h分别为池化窗口的宽度和高度,sm为第m层的尺度,Win和Hin分别为语音片段窗口的宽度和高度。
(2)对每一个池化窗口内的语音片段采取最大池化操作,展开得到的R维特征向量作为语音片段分类神经网络的输入。
Figure BDA0002682699230000062
本实施例中R为1755。
步骤二、基于动态增长自组织映射神经网络的无监督语音片段自适应分类
语音分离模型通常是在训练之前预定义好的静态网络结构,在混合语音说话人数目未知的情况下,必须进行大量尝试获得合适的网络结构,从而导致语音分离模型的泛化性降低。针对此问题,以语音片段的特征为输入,采用灵活的树形结构,基于初始状态的根节点,辨析生长阈值与距离误差之间的关系,模拟大脑神经网络中神经元的负载平衡过程,动态生成输出层新的子节点,实现无监督语音片段的自适应分类。如图3所示,本实施例采用以下方法对语音片段进行分类:
(1)根节点的权值向量W(0)赋值为[0,1]区间的随机值;
(2)设置初始学习率η(0)和生长因子α为0.5,并计算生长阈值G:
Figure BDA0002682699230000063
其中s为增长自组织神经网络中节点总数;
(3)从样本集中选取样本向量v(i),其中i为样本序号,按加权距离寻找与f(n)最近的竞争层节点j*;n∈{1,2,...,N}
(4)计算v(i)与竞争层j*节点之间的误差距离E:
Figure BDA0002682699230000064
其中R为v(i)的维数。若此时E>G,则转步骤e执行生长操作,否则转步骤6做调整操作;
(5)生成j*的子节点,其权值
Figure BDA0002682699230000065
(6)调整j*及其子节点权值:
Figure BDA0002682699230000071
Figure BDA0002682699230000072
其中,
Figure BDA0002682699230000073
为节点j*的优胜邻域;
(7)大的学习率可以加快学习速度,但不容易收敛,所以可采用由大到小的动态学习率,可按下面公式调整学习率:
η(t+1)=λ.η(t)
其中λ为调节因子,取值范围(0,1),本实施例初始化为0.5;
(8)重复步骤3-7,直至所有样本训练完毕;
(9)重复步骤8进入下一个训练周期,直至网络中不再有新的节点生成。
步骤三、基于粒子群优化算法的有监督语音分离模型自适应修正
时滞细胞神经网络的控制模板、反馈模板、时滞、阈值以及邻域半径和动态增长自组织映射神经网络的生长因子、学习率权重参数决定了语音分离模型的精度,然而语音片段分类网络的输出层的节点代表不同的分类模式,难以通过传统的反向传播算法进行参数调整。针对此问题,利用粒子群优化算法,选取控制模板、反馈模板、时滞、阈值、生长因子和学习率权重六个模型参数的组合作为粒子,语音片段分类的错误率作为适应度函数,通过模糊控制器自适应地调节粒子群优化算法的惯性权重和学习因子,利用模拟退火的局部极值突跳能力避免陷入局部极小值,对语音片段特征提取和分类算法中的参数进行全局优化和更新,实现语音分离模型的自适应修正。本实施例采用以下方法对语音模型进行修正:
(1)设定粒子群最大进化代数Gmax=30,种群规模为S=30,加速度因子D1=D2=2,惯性权重ω=1;
(2)以参数组合[A,Aτ,B,Bτ,I,τ,λ,α]作为粒子,随机产生种群规模个数的参数组合作为粒子的初始位置,并随机初始化每个粒子的移动速度;
(3)选取语音片段分类错误率的均方误差作为适应度函数,根据粒子的位置计算适应度函数的值,利用模拟退火算法对粒子的适应度进行修正:
Figure BDA0002682699230000074
其中,g为进化代数,p为衰减因子,T0为模拟退火初始温度,F和Fnew为分别修正前和修正后的适应度;
(4)对比适应度值大小,根据个体局部极值和种群全局极值,更新粒子的速度和位置;
(5)以学习因子、惯性权重和性能评价参数作为模糊控制器的输入,将学习因子和惯性权重变化量的百分比作为输出,利用模糊规则同时调节惯性权重和学习因子;
(6)重复步骤4-6,当迭代次数达到最大进化代数,获得全局最优粒子位置。
步骤四、基于二值掩蔽的语音重构
如图4所示,本实施例采用以下方法对目标语音进行重构:
(1)根据语音片段分类的结果,利用二值掩蔽获得分离后的第n个说话者的调制幅度谱
Figure BDA0002682699230000081
(2)结合混合语音的调制相位谱,使用逆傅里叶变换得到分离后的语音包络:
Figure BDA0002682699230000082
(3)结合混合语音的载波,获得不同信道的时域信号:
y(n)(t,k)=e(n)(t,k).c(t,k)
(4)通过逆Gammatone滤波器合成得到分离后的语音。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其它领域,但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

Claims (8)

1.一种空间结构性特征相关的无监督分类与有监督修正融合的语音分离方法,其特征在于,包括以下步骤:
步骤A、基于时滞细胞神经网络提取语音片段的特征;
步骤A1、基于包络检波计算调制幅度谱和相位谱;
步骤A2、基于时滞细胞神经网络提取调试幅度谱的特征;
步骤A3、基于突变点检测方法生成语音片段窗口;
步骤A4、基于多尺度空间金字塔池化统一语音片段特征维度;
步骤B、基于动态增长自组织映射神经网络对经过步骤A获取的的语音片段进行无监督自适应分类;
步骤C、基于粒子群优化算法自适应修正步骤A和B构建的语音分离模型的参数;
步骤D、基于二值掩蔽对同一类的语音片段语音重构,获得目标语音。
2.根据权利要求1所述的空间结构性特征相关的无监督分类与有监督修正融合的语音分离方法,其特征在于:所述步骤A1中通过包络检波计算调制幅度谱时,具体采用以下方式:
(1)采用Gammatone滤波器建立128个信道的滤波器组;
(2)利用基于非相干解调的Hilbert变换包络检波;
(3)通过1024个点的傅里叶变换获得调制幅度谱;
(4)通过低通滤波器对调制幅度谱平滑处理。
3.根据权利要求1所述的空间结构性特征相关的无监督分类与有监督修正融合的语音分离方法,其特征在于:所述步骤A2中,对平滑处理后的调制幅度谱特征提取时采用以下方式:
构建128×1024二维结构的时滞细胞神经网络,网络的输出完全由反馈模板A、控制模板B、时滞反馈模板Aτ、时滞控制模板Bτ、阈值I和时滞τ决定。网络状态和输出的更新方式如下:
Figure FDA0002682699220000011
vyef(t)=tanh(vxef(t))
其中vx(t),vu(t)和vy(t)分别为细胞的状态、输入和输出;C(h,l)为第h行,l列的细胞;Nr(e,f)为第e行f列细胞的r邻域。
4.根据权利要求1所述的空间结构性特征相关的无监督分类与有监督修正融合的语音分离方法,其特征在于:所述步骤A3中,根据突变点检测方法生成语音片段窗口:
(1)计算每个信道中平滑的调制幅度谱的一阶导数获取候选的onset/offset突变点,其中onset对应极大值点,offset对应极小值点;通过设定阈值进一步筛选onset;保留所有的相邻的onset之间值最小的offset,并且删除其余的offset;
(2)将当前信道中所有的相邻的onset之间距离的平均值作为阈值;筛选与当前信道的onset距离小于阈值的相邻信道的onset集合,选择集合中距离最小的onset连接;对offset采用相同的筛选和连接方式;将跨度少于三个相邻信道的连线取消;
(3)针对个连续信道的onset的连线,选取onset右侧相邻的offset,构建大小为Z的offset集合;选择穿过offset集合中点数最多的一条offset连线,作为与onset连线最佳匹配的offset连线;当连续Z个信道的onset全部匹配成功则结束,否则对匹配失败的信道重复执行此流程;将匹配的onset和offset连线之间的区域作为语音片段;
(4)选取语音片段中的最大的矩形区域作为语音片段窗口,将语音片段窗口内的调制幅度谱特征作为语音片段特征。
5.根据权利要求1所述的空间结构性特征相关的无监督分类与有监督修正融合的语音分离方法,其特征在于,所述步骤A4中,利用多尺度空间金字塔池化方法统一语音片段特征的维度:
(1)使用10种不同尺度(30,20,15,10,8,6,4,3,2,1)的窗口对语音窗口进行划分,每一种尺度代表金字塔的一层,第m层的池化层窗口大小为:
Figure FDA0002682699220000021
其中,win_w和win_h分别为池化窗口的宽度和高度,sm为第m层的尺度,Win和Hin分别为语音片段窗口的宽度和高度。
(2)对每一个池化窗口内的语音片段采取最大池化操作,展开得到的R维特征向量作为语音片段分类神经网络的输入。
6.根据权利要求1所述的空间结构性特征相关的无监督分类与有监督修正融合的语音分离方法,其特征在于,所述步骤B中,基于动态增长自组织映射神经网络对语音片段进行无监督自适应分类,具体如下:
(1)根节点的权值向量W(0)赋值为[0,1]区间的随机值;
(2)设置初始学习率η(0)和生长因子α为0.5,并计算生长阈值G:
Figure FDA0002682699220000022
其中s为增长自组织神经网络中节点总数;
(3)从样本集中选取样本向量v(i),其中i为样本序号,按加权距离寻找与f(n)最近的竞争层节点j*;n∈{1,2,...,N}
(4)计算v(i)与竞争层j*节点之间的误差距离E:
Figure FDA0002682699220000023
其中R为v(i)的维数。若此时E>G,则转步骤e执行生长操作,否则转步骤6做调整操作;
(5)生成j*的子节点,其权值
Figure FDA0002682699220000037
(6)调整j*及其子节点权值:
Figure FDA0002682699220000031
Figure FDA0002682699220000032
其中,
Figure FDA0002682699220000033
为节点j*的优胜邻域。
(7)大的学习率可以加快学习速度,但不容易收敛,所以可采用由大到小的动态学习率,可按下面公式调整学习率:
η(t+1)=λ.η(t)
其中λ为调节因子,取值范围(0,1)。
(8)重复步骤3-7,直至所有样本训练完毕;
(9)重复步骤8进入下一个训练周期,直至网络中不再有新的节点生成。
7.根据权利要求1所述的空间结构性特征相关的无监督分类与有监督修正融合的语音分离方法,其特征在于,所述步骤C中,基于粒子群优化算法自适应修正语音分离模型的参数。具体如下:
(1)设定粒子群最大进化代数Gmax=30,种群规模为S=30,加速度因子D1=D2=2,惯性权重ω=1;
(2)以参数组合[A,Aτ,B,Bτ,I,τ,λ,α]作为粒子,随机产生种群规模个数的参数组合作为粒子的初始位置,并随机初始化每个粒子的移动速度;
(3)选取语音片段分类错误率的均方误差作为适应度函数,根据粒子的位置计算适应度函数的值,利用模拟退火算法对粒子的适应度进行修正:
Figure FDA0002682699220000034
其中,g为进化代数,p为衰减因子,T0为模拟退火初始温度,F和Fnew为分别修正前和修正后的适应度;
(4)对比适应度值大小,根据个体局部极值和种群全局极值,更新粒子的速度和位置;
(5)以学习因子、惯性权重和性能评价参数作为模糊控制器的输入,将学习因子和惯性权重变化量的百分比作为输出,利用模糊规则同时调节惯性权重和学习因子;
(6)重复步骤4-6,当迭代次数达到最大进化代数,获得全局最优粒子位置。
8.根据权利要求1所述的空间结构性特征相关的无监督分类与有监督修正融合的语音分离方法,其特征在于,所述步骤D中,基于二值掩蔽对同一类的语音片段语音重构,获得目标语音。具体如下:
(1)根据语音片段分类的结果,利用二值掩蔽获得分离后的第n个说话者的调制幅度谱
Figure FDA0002682699220000035
(2)结合混合语音的调制相位谱,使用逆傅里叶变换得到分离后的语音包络:
Figure FDA0002682699220000036
(3)结合混合语音的载波,获得不同信道的时域信号:
y(n)(t,k)=e(n)(t,k).c(t,k)
(4)通过逆Gammatone滤波器合成得到分离后的语音。
CN202010966976.XA 2020-09-15 2020-09-15 一种空间结构性特征相关的无监督分类与有监督修正融合的语音分离方法 Pending CN112133323A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010966976.XA CN112133323A (zh) 2020-09-15 2020-09-15 一种空间结构性特征相关的无监督分类与有监督修正融合的语音分离方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010966976.XA CN112133323A (zh) 2020-09-15 2020-09-15 一种空间结构性特征相关的无监督分类与有监督修正融合的语音分离方法

Publications (1)

Publication Number Publication Date
CN112133323A true CN112133323A (zh) 2020-12-25

Family

ID=73846806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010966976.XA Pending CN112133323A (zh) 2020-09-15 2020-09-15 一种空间结构性特征相关的无监督分类与有监督修正融合的语音分离方法

Country Status (1)

Country Link
CN (1) CN112133323A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113380261A (zh) * 2021-05-26 2021-09-10 特斯联科技集团有限公司 一种人工智能语音采集处理器及方法
CN113515048A (zh) * 2021-08-13 2021-10-19 华中科技大学 一种模糊自适应pso-elm声品质预测模型的建立方法
CN117724446A (zh) * 2023-12-14 2024-03-19 广州智业节能科技有限公司 一种预警监控系统、方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113380261A (zh) * 2021-05-26 2021-09-10 特斯联科技集团有限公司 一种人工智能语音采集处理器及方法
CN113515048A (zh) * 2021-08-13 2021-10-19 华中科技大学 一种模糊自适应pso-elm声品质预测模型的建立方法
CN113515048B (zh) * 2021-08-13 2023-04-07 华中科技大学 一种模糊自适应pso-elm声品质预测模型的建立方法
CN117724446A (zh) * 2023-12-14 2024-03-19 广州智业节能科技有限公司 一种预警监控系统、方法及装置

Similar Documents

Publication Publication Date Title
CN112133323A (zh) 一种空间结构性特征相关的无监督分类与有监督修正融合的语音分离方法
CN107703486B (zh) 一种基于卷积神经网络cnn的声源定位方法
Sainath et al. Modeling Time-Frequency Patterns with LSTM vs. Convolutional Architectures for LVCSR Tasks.
CN109993280A (zh) 一种基于深度学习的水下声源定位方法
CN109841226A (zh) 一种基于卷积递归神经网络的单通道实时降噪方法
CN106952649A (zh) 基于卷积神经网络和频谱图的说话人识别方法
CN112364779A (zh) 信号处理与深-浅网络多模型融合的水声目标识别方法
CN109890043B (zh) 一种基于生成式对抗网络的无线信号降噪方法
CN112418014A (zh) 基于小波变换和卷积长短期记忆神经网络的调制信号识别方法
US6038338A (en) Hybrid neural network for pattern recognition
CN114595732B (zh) 基于深度聚类的雷达辐射源分选方法
CN111899757A (zh) 针对目标说话人提取的单通道语音分离方法及系统
Jeong et al. Spectrogram-based automatic modulation recognition using convolutional neural network
CN109884591A (zh) 一种基于麦克风阵列的多旋翼无人机声信号增强方法
Li et al. Automatic modulation classification based on bispectrum and CNN
CN109344751B (zh) 一种车内噪声信号的重构方法
Kong et al. Radar waveform recognition using Fourier-based synchrosqueezing transform and CNN
Zhang et al. A deep learning approach for modulation recognition
US5787408A (en) System and method for determining node functionality in artificial neural networks
CN113343801B (zh) 基于轻量化卷积神经网络的无线信号自动调制识别方法
CN113435276A (zh) 一种基于对抗残差网络的水声目标识别方法
CN112180318A (zh) 声源波达方向估计模型训练和声源波达方向估计方法
CN113420870B (zh) 用于水声目标识别的U-Net结构生成对抗网络及方法
US20050033786A1 (en) Device and method for filtering electrical signals, in particular acoustic signals
Song et al. Research on Scattering Transform of Urban Sound Events Detection Based on Self-Attention Mechanism

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
TA01 Transfer of patent application right

Effective date of registration: 20220512

Address after: 266000 Songling Road, Laoshan District, Qingdao, Shandong Province, No. 99

Applicant after: QINGDAO University OF SCIENCE AND TECHNOLOGY

Applicant after: Digital Sunshine Co., Ltd

Address before: 266000 Songling Road, Laoshan District, Qingdao, Shandong Province, No. 99

Applicant before: QINGDAO University OF SCIENCE AND TECHNOLOGY

Applicant before: Rizhao civil air defense intelligent technology Co., Ltd

TA01 Transfer of patent application right
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination