CN110310658B - 一种基于语音信号处理的语音分离办法 - Google Patents

一种基于语音信号处理的语音分离办法 Download PDF

Info

Publication number
CN110310658B
CN110310658B CN201910542125.XA CN201910542125A CN110310658B CN 110310658 B CN110310658 B CN 110310658B CN 201910542125 A CN201910542125 A CN 201910542125A CN 110310658 B CN110310658 B CN 110310658B
Authority
CN
China
Prior art keywords
voice
speech
separation
fuzzy
signal processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910542125.XA
Other languages
English (en)
Other versions
CN110310658A (zh
Inventor
廖旭
黄沁鹏
冯振邦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN201910542125.XA priority Critical patent/CN110310658B/zh
Publication of CN110310658A publication Critical patent/CN110310658A/zh
Application granted granted Critical
Publication of CN110310658B publication Critical patent/CN110310658B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Filters That Use Time-Delay Elements (AREA)

Abstract

本发明涉及一种基于语音信号处理的语音分离办法,解决的是分离度低的技术问题,通过采用步骤一,定义混合语音信号,步骤二,将混合语音信号通过多通道的伽马通滤波器组,使用自回归与移动平均模型来平滑特征的时间轨迹,步骤三,建立深度神经网络,特征与该特征相邻帧的特征组合为一个标定组,输出标定组预测结果;步骤四,计算语音分离结果的质量评价因子,根据质量评价因子判定当前语音分离结果是否存在模糊效应,如果存在则转入步骤五,否则退出去模糊进程,语音分离结果为最终纯净语音;步骤五,依据能量最小化准则计算模糊核函数,据能量最小化准则计算最优纯净语音,迭代的技术方案,较好的解决了该问题,可用于语音分离中。

Description

一种基于语音信号处理的语音分离办法
技术领域
本发明涉及领域,具体涉及一种基于语音信号处理的语音分离办法。
背景技术
语音分离的目标是把目标语音从背景干扰中分离出来。在信号处理中,语音分离属于很基本的任务类型,应用范围很广泛,包括听力假体、移动通信、鲁棒的自动语音以及说话人识别。人类听觉系统能轻易地将一个人的声音和另一个人的分离开来。即使在鸡尾酒会那样的声音环境中,我们似乎也能毫不费力地在其他人的说话声和环境噪声的包围中听到一个人的说话内容。
现有的语音分离办法存在分离度低的问题,本发明提供一种基于语音信号处理的语音分离办法,解决以上技术问题。
发明内容
本发明所要解决的技术问题是现有技术中存在的分离度低的技术问题。提供一种新的基于语音信号处理的语音分离办法,该基于语音信号处理的语音分离办法具有分离度高的特点。
为解决上述技术问题,采用的技术方案如下:
一种基于语音信号处理的语音分离办法,所述基于语音信号处理的语音分离办法包括:
步骤一,定义混合语音信号为
y(t)=x(t)+n(t)
x(t)=y(t)*ρ(t):
其中,x(t)为纯净语音,n(t)为噪音语音,ρ(t)为模糊函数;
步骤二,将混合语音信号通过多通道的伽马通滤波器组,对伽马通滤波器组的每个通道的输出进行分帧处理后得到时频单元矩阵,对得到的时频单元矩阵进行特征提取得到特征组,所述特征组包括振幅调制谱、感知线性预测,梅尔频率倒谱系数,伽马通频率,使用自回归与移动平均模型来平滑特征的时间轨迹:
Figure BDA0002102868280000021
其中,C(t)是第t帧的特征向量,
Figure BDA0002102868280000022
是滤波后的特征向量,m是伽马通滤波器组中伽马通滤波器的阶数;
步骤三,建立深度神经网络,将某一特征的时间轨迹上的某一时间点轨迹与该时间点相邻的轨迹组合为一个标定组,使用深度神经网络预测前述标定组,输出标定组预测结果作为语音分离结果g(x,y);
步骤四,计算步骤三语音分离结果的质量评价因子,根据前述质量评价因子判定当前语音分离结果是否存在模糊效应,如果存在模糊效应,则转入步骤五,否则,退出去模糊进程,定义语音分离结果为最终纯净语音;
步骤五,根据g(x,y)=y(t)*k(x,y),依据能量最小化准则计算模糊核函数为
Figure BDA0002102868280000023
步骤六,定义当前模糊核函数k(x,y)为已知,依据能量最小化准则计算最优纯净语音
Figure BDA0002102868280000024
步骤七,将最优纯净语音
Figure BDA0002102868280000025
定义为y(t),转到步骤一。
本发明的工作原理:本发明提出一种自适应的语音分离方法,分离出混合语音信号的中噪音信号与纯净信号。基于最小能量准则交互估计核函数和最优纯净语音,构建纯净语音质量评价因子判决条件作为迭代终止条件,实现自适应的语音分离处理。通过融合锐化指数和自然纯净语音质量评价指标构造质量评价因子,用于区分纯净语音和含噪语音,仅对含噪语音进行去模糊处理,并用于控制交互估计的迭代进程。本发明考虑到纯净语音和噪声之间的相关性,,在理论上能够取得最小均方误差意义下的最大信噪比增益。实验结果表明,本发明的方法分离效果好,分离度高。
上述方案中,进一步地,所述质量评价因子Q包括平滑特征的时间轨迹的锐化指数SI,以及待评价语音信号的平滑特征的时间轨迹与自然语音信号的特征的时间轨迹多元高斯模型之间的距离NIQE;
Figure BDA0002102868280000031
进一步地,步骤四中判定当前语音分离结果是否存在模糊效应为:
定义统计模糊语音数据集中的质量评价因子下限Qmin,比较当前质量评价因子Q与质量评价因子下限Qmin的大小,当Q≤HQmin时判定为不模糊,Q>HQmin时判定为模糊,其中H为容差参数。
进一步地,在依据能量最小化准则计算模糊核函数为
Figure BDA0002102868280000032
中,进行迭代得到最优的模糊核函数
Figure BDA0002102868280000033
迭代终止条件为Q>HQmin,迭代公式为
Figure BDA0002102868280000034
其中,n为迭代次数。
进一步地,步骤六中依据能量最小化准则计算最优纯净语名
Figure BDA0002102868280000035
为对
Figure BDA0002102868280000041
进行迭代,
Figure BDA0002102868280000042
其中,
Figure BDA0002102868280000043
为迭代次数。
进一步地,所述深度神经网络包括三个隐层,每层1024个节点,激活函数为线性纠正函数。
本发明的有益效果:本发明提出一种自适应的语音分离方法,分离出混合语音信号的中噪音信号与纯净信号。基于最小能量准则交互估计核函数和最优纯净语音,构建纯净语音质量评价因子判决条件作为迭代终止条件,实现自适应的语音分离处理。通过融合锐化指数和自然纯净语音质量评价指标构造质量评价因子,用于区分纯净语音和含噪语音,仅对含噪语音进行去模糊处理,并用于控制交互估计的迭代进程。本发明考虑到纯净语音和噪声之间的相关性,,在理论上能够取得最小均方误差意义下的最大信噪比增益。实验结果表明,本发明的方法分离效果好,分离度高。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1,实施例1中的基于语音信号处理的语音分离办法示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1
本实施例提供一种基于语音信号处理的语音分离办法,如图1,所述基于语音信号处理的语音分离办法包括:
步骤一,定义混合语音信号为
y(t)=x(t)+n(t)
x(t)=y(t)*ρ(t);
其中,x(t)为纯净语音,n(t)为噪音语音,ρ(t)为模糊函数;
步骤二,将混合语音信号通过多通道的伽马通滤波器组,对伽马通滤波器组的每个通道的输出进行分帧处理后得到时频单元矩阵,对得到的时频单元矩阵进行特征提取得到特征组,所述特征组包括振幅调制谱、感知线性预测,梅尔频率倒谱系数,伽马通频率,使用自回归与移动平均模型来平滑特征的时间轨迹:
Figure BDA0002102868280000051
其中,C(t)是第t帧的特征向量,
Figure BDA0002102868280000052
是滤波后的特征向量,m是伽马通滤波器组中伽马通滤波器的阶数;
步骤三,建立深度神经网络,将某一特征的时间轨迹上的某一时间点轨迹与该时间点相邻的轨迹组合为一个标定组,使用深度神经网络预测前述标定组,输出标定组预测结果作为语音分离结果g(x,y);
步骤四,计算步骤三语音分离结果的质量评价因子,根据前述质量评价因子判定当前语音分离结果是否存在模糊效应,如果存在模糊效应,则转入步骤五,否则,退出去模糊进程,定义语音分离结果为最终纯净语音;
步骤五,根据g(x,y)=y(t)*k(x,y),依据能量最小化准则计算模糊核函数为
Figure BDA0002102868280000053
步骤六,定义当前模糊核函数k(x,y)为已知,依据能量最小化准则计算最优纯净语音
Figure BDA0002102868280000061
步骤七,将最优纯净语音
Figure BDA0002102868280000062
定义为y(t),转到步骤一。
具体地,所述质量评价因子Q包括平滑特征的时间轨迹的锐化指数SI,以及待评价语音信号的平滑特征的时间轨迹与自然语音信号的特征的时间轨迹多元高斯模型之间的距离NIQE;
Figure BDA0002102868280000063
具体地,步骤四中判定当前语音分离结果是否存在模糊效应为:
定义统计模糊语音数据集中的质量评价因子下限Qmin,比较当前质量评价因子Q与质量评价因子下限Qmin的大小,当Q≤HQmin时判定为不模糊,Q>HQmin时判定为模糊,其中H为容差参数。
进一步地,在依据能量最小化准则计算模糊核函数为
Figure BDA0002102868280000064
中,进行迭代得到最优的模糊核函数
Figure BDA0002102868280000065
迭代终止条件为Q>HQmin,迭代公式为
Figure BDA0002102868280000066
其中,n为迭代次数。
具体地,步骤六中依据能量最小化准则计算最优纯净语音
Figure BDA0002102868280000067
为对
Figure BDA0002102868280000068
进行迭代,
Figure BDA0002102868280000069
其中,
Figure BDA00021028682800000610
为迭代次数。
具体地,所述深度神经网络包括三个隐层,每层1024个节点,激活函数为线性纠正函数。
本实施例提出一种自适应的语音分离方法,分离出混合语音信号的中噪音信号与纯净信号。基于最小能量准则交互估计核函数和最优纯净语音,构建纯净语音质量评价因子判决条件作为迭代终止条件,实现自适应的语音分离处理。通过融合锐化指数和自然纯净语音质量评价指标构造质量评价因子,用于区分纯净语音和含噪语音,仅对含噪语音进行去模糊处理,并用于控制交互估计的迭代进程。本发明考虑到纯净语音和噪声之间的相关性,,在理论上能够取得最小均方误差意义下的最大信噪比增益。实验结果表明,本实施例的方法分离效果好,分离度高。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员能够理解本发明,但是本发明不仅限于具体实施方式的范围,对本技术领域的普通技术人员而言,只要各种变化只要在所附的权利要求限定和确定的本发明精神和范围内,一切利用本发明构思的发明创造均在保护之列。

Claims (5)

1.一种基于语音信号处理的语音分离办法,其特征在于:所述基于语音信号处理的语音分离办法包括:
步骤一,定义混合语音信号为
y(t)=x(t)+n(t)
x(t)=y(t)*ρ(t);
其中,x(t)为纯净语音,n(t)为噪音语音,ρ(t)为模糊函数;
步骤二,将混合语音信号通过多通道的伽马通滤波器组,对伽马通滤波器组的每个通道的输出进行分帧处理后得到时频单元矩阵,对得到的时频单元矩阵进行特征提取得到特征组,所述特征组包括振幅调制谱、感知线性预测,梅尔频率倒谱系数,伽马通频率,使用自回归与移动平均模型来平滑特征的时间轨迹:
Figure FDA0003222811660000011
其中,C(t)是第t帧的特征向量,
Figure FDA0003222811660000012
是滤波后的特征向量,m是伽马通滤波器组中伽马通滤波器的阶数;
步骤三,建立深度神经网络,将某一特征的时间轨迹上的某一时间点轨迹与该时间点相邻的轨迹组合为一个标定组,使用深度神经网络预测前述标定组,输出标定组预测结果作为语音分离结果g(x,y);
步骤四,计算步骤三语音分离结果的质量评价因子,根据前述质量评价因子判定当前语音分离结果是否存在模糊效应,如果存在模糊效应,则转入步骤五,否则,退出去模糊进程,定义语音分离结果为最终纯净语音;
步骤五,根据g(x,y)=y(t)*k(x,y),依据能量最小化准则计算模糊核函数为
Figure FDA0003222811660000021
步骤六,定义当前模糊核函数k(x,y)为已知,依据能量最小化准则计算最优纯净语音
Figure FDA0003222811660000022
步骤七,将最优纯净语音
Figure FDA0003222811660000023
定义为y(t),转到步骤一;
所述质量评价因子Q包括平滑特征的时间轨迹的锐化指数SI,以及待评价语音信号的平滑特征的时间轨迹与自然语音信号的特征的时间轨迹多元高斯模型之间的距离NIQE;
Figure FDA0003222811660000024
2.根据权利要求1所述的基于语音信号处理的语音分离办法,其特征在于:步骤四中判定当前语音分离结果是否存在模糊效应为:
定义统计模糊语音数据集中的质量评价因子下限Qmin,比较当前质量评价因子Q与质量评价因子下限Qmin的大小,当Q≤HQmin时判定为不模糊,Q>HQmin时判定为模糊,其中H为容差参数。
3.根据权利要求1所述的基于语音信号处理的语音分离办法,其特征在于:
在依据能量最小化准则计算模糊核函数为
Figure FDA0003222811660000025
中,进行迭代得到最优的模糊核函数
Figure FDA0003222811660000026
迭代终止条件为Q>HQmin,迭代公式为
Figure FDA0003222811660000027
其中,n为迭代次数。
4.根据权利要求1所述的基于语音信号处理的语音分离办法,其特征在于:步骤六中依据能量最小化准则计算最优纯净语音
Figure FDA0003222811660000031
为对
Figure FDA0003222811660000032
进行迭代,
Figure FDA0003222811660000033
其中,
Figure FDA0003222811660000034
为迭代次数。
5.根据权利要求1所述的基于语音信号处理的语音分离办法,其特征在于:所述深度神经网络包括三个隐层,每层1024个节点,激活函数为线性纠正函数。
CN201910542125.XA 2019-06-21 2019-06-21 一种基于语音信号处理的语音分离办法 Active CN110310658B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910542125.XA CN110310658B (zh) 2019-06-21 2019-06-21 一种基于语音信号处理的语音分离办法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910542125.XA CN110310658B (zh) 2019-06-21 2019-06-21 一种基于语音信号处理的语音分离办法

Publications (2)

Publication Number Publication Date
CN110310658A CN110310658A (zh) 2019-10-08
CN110310658B true CN110310658B (zh) 2021-11-30

Family

ID=68077064

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910542125.XA Active CN110310658B (zh) 2019-06-21 2019-06-21 一种基于语音信号处理的语音分离办法

Country Status (1)

Country Link
CN (1) CN110310658B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111816208B (zh) * 2020-06-17 2023-05-05 厦门快商通科技股份有限公司 一种语音分离质量评估方法、装置及计算机存储介质
CN113593529B (zh) * 2021-07-09 2023-07-25 北京字跳网络技术有限公司 说话人分离算法的评估方法、装置、电子设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617798A (zh) * 2013-12-04 2014-03-05 中国人民解放军成都军区总医院 一种强背景噪声下的语音提取方法
EP3057192A1 (en) * 2015-02-12 2016-08-17 Northeastern University An energy internet and a hierarchical control system and a control method thereof
CN108710914A (zh) * 2018-05-22 2018-10-26 常州工学院 一种基于广义模糊聚类算法的无监督数据分类方法
CN108831495A (zh) * 2018-06-04 2018-11-16 桂林电子科技大学 一种应用于噪声环境下语音识别的语音增强方法
CN109493886A (zh) * 2018-12-13 2019-03-19 西安电子科技大学 基于特征选择和优化的语音情感识别方法
CN109711370A (zh) * 2018-12-29 2019-05-03 北京博睿视科技有限责任公司 一种基于wifi探测和人脸聚类的数据融合算法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102339716B1 (ko) * 2017-06-30 2021-12-14 삼성에스디에스 주식회사 음성 인식 방법 및 그 장치

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617798A (zh) * 2013-12-04 2014-03-05 中国人民解放军成都军区总医院 一种强背景噪声下的语音提取方法
EP3057192A1 (en) * 2015-02-12 2016-08-17 Northeastern University An energy internet and a hierarchical control system and a control method thereof
CN108710914A (zh) * 2018-05-22 2018-10-26 常州工学院 一种基于广义模糊聚类算法的无监督数据分类方法
CN108831495A (zh) * 2018-06-04 2018-11-16 桂林电子科技大学 一种应用于噪声环境下语音识别的语音增强方法
CN109493886A (zh) * 2018-12-13 2019-03-19 西安电子科技大学 基于特征选择和优化的语音情感识别方法
CN109711370A (zh) * 2018-12-29 2019-05-03 北京博睿视科技有限责任公司 一种基于wifi探测和人脸聚类的数据融合算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Tracking time-varying mixing system in blind separation";M.Enescu;《Proceedings of the 2000 IEEE Sensor Array 》;20000331;全文 *
"监督性语音分离中训练目标的研究";夏莎莎;《中国优秀硕士学位论文全文数据库 信息科技辑》;20171130;全文 *

Also Published As

Publication number Publication date
CN110310658A (zh) 2019-10-08

Similar Documents

Publication Publication Date Title
CN103871421B (zh) 一种基于子带噪声分析的自适应降噪方法与系统
US7383178B2 (en) System and method for speech processing using independent component analysis under stability constraints
US20040230428A1 (en) Method and apparatus for blind source separation using two sensors
CN112581973B (zh) 一种语音增强方法及系统
CN110310658B (zh) 一种基于语音信号处理的语音分离办法
KR100647286B1 (ko) 교차채널 간섭을 제거하기 위한 후처리장치 및 방법과이를 이용한 다채널 음원 분리장치 및 방법
JP7486266B2 (ja) 深層フィルタを決定するための方法および装置
CN108877831B (zh) 基于多标准融合频点筛选的盲源分离快速方法及系统
CN112435683B (zh) 基于t-s模糊神经网络的自适应噪声估计及语音降噪方法
WO2021007841A1 (zh) 噪声估计方法、噪声估计装置、语音处理芯片以及电子设备
CN112735460A (zh) 基于时频掩蔽值估计的波束成形方法及系统
CN111899750A (zh) 联合耳蜗语音特征和跳变深层神经网络的语音增强算法
Hosseini et al. Time difference of arrival estimation of sound source using cross correlation and modified maximum likelihood weighting function
CN105719658B (zh) 基于新阈值函数和自适应阈值的小波包语音降噪方法
CN112289337A (zh) 一种滤除机器学习语音增强后的残留噪声的方法及装置
Korhonen Wind noise management in hearing aids
CN115440240A (zh) 语音降噪的训练方法、语音降噪系统及语音降噪方法
TWI749547B (zh) 應用深度學習的語音增強系統
CN112530453B (zh) 一种适用于噪声环境下的语音识别方法及装置
CN114373473A (zh) 通过低延迟深度学习实现同时降噪和去混响
CN112951264B (zh) 一种基于混合式概率模型的多通道声源分离方法
CN118250592A (zh) 一种基于阵列麦克风的降风噪方法及系统
Tank et al. Automated Dual-Channel Speech Enhancement Using Adaptive Coherence Function with Optimised Discrete Wavelet Transform
KR102358151B1 (ko) 컨볼루션 순환신경망을 이용한 잡음 제거 방법
CN116778970B (zh) 强噪声环境下的语音检测模型训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant