CN110310658B - 一种基于语音信号处理的语音分离办法 - Google Patents
一种基于语音信号处理的语音分离办法 Download PDFInfo
- Publication number
- CN110310658B CN110310658B CN201910542125.XA CN201910542125A CN110310658B CN 110310658 B CN110310658 B CN 110310658B CN 201910542125 A CN201910542125 A CN 201910542125A CN 110310658 B CN110310658 B CN 110310658B
- Authority
- CN
- China
- Prior art keywords
- voice
- speech
- separation
- fuzzy
- signal processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 54
- 238000012545 processing Methods 0.000 title claims abstract description 28
- 238000013441 quality evaluation Methods 0.000 claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 14
- 238000013528 artificial neural network Methods 0.000 claims abstract description 10
- 230000000694 effects Effects 0.000 claims abstract description 10
- 238000009499 grossing Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 21
- 238000013459 approach Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 230000008447 perception Effects 0.000 claims description 3
- 238000001303 quality assessment method Methods 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Filters That Use Time-Delay Elements (AREA)
Abstract
本发明涉及一种基于语音信号处理的语音分离办法,解决的是分离度低的技术问题,通过采用步骤一,定义混合语音信号,步骤二,将混合语音信号通过多通道的伽马通滤波器组,使用自回归与移动平均模型来平滑特征的时间轨迹,步骤三,建立深度神经网络,特征与该特征相邻帧的特征组合为一个标定组,输出标定组预测结果;步骤四,计算语音分离结果的质量评价因子,根据质量评价因子判定当前语音分离结果是否存在模糊效应,如果存在则转入步骤五,否则退出去模糊进程,语音分离结果为最终纯净语音;步骤五,依据能量最小化准则计算模糊核函数,据能量最小化准则计算最优纯净语音,迭代的技术方案,较好的解决了该问题,可用于语音分离中。
Description
技术领域
本发明涉及领域,具体涉及一种基于语音信号处理的语音分离办法。
背景技术
语音分离的目标是把目标语音从背景干扰中分离出来。在信号处理中,语音分离属于很基本的任务类型,应用范围很广泛,包括听力假体、移动通信、鲁棒的自动语音以及说话人识别。人类听觉系统能轻易地将一个人的声音和另一个人的分离开来。即使在鸡尾酒会那样的声音环境中,我们似乎也能毫不费力地在其他人的说话声和环境噪声的包围中听到一个人的说话内容。
现有的语音分离办法存在分离度低的问题,本发明提供一种基于语音信号处理的语音分离办法,解决以上技术问题。
发明内容
本发明所要解决的技术问题是现有技术中存在的分离度低的技术问题。提供一种新的基于语音信号处理的语音分离办法,该基于语音信号处理的语音分离办法具有分离度高的特点。
为解决上述技术问题,采用的技术方案如下:
一种基于语音信号处理的语音分离办法,所述基于语音信号处理的语音分离办法包括:
步骤一,定义混合语音信号为
y(t)=x(t)+n(t)
x(t)=y(t)*ρ(t):
其中,x(t)为纯净语音,n(t)为噪音语音,ρ(t)为模糊函数;
步骤二,将混合语音信号通过多通道的伽马通滤波器组,对伽马通滤波器组的每个通道的输出进行分帧处理后得到时频单元矩阵,对得到的时频单元矩阵进行特征提取得到特征组,所述特征组包括振幅调制谱、感知线性预测,梅尔频率倒谱系数,伽马通频率,使用自回归与移动平均模型来平滑特征的时间轨迹:
步骤三,建立深度神经网络,将某一特征的时间轨迹上的某一时间点轨迹与该时间点相邻的轨迹组合为一个标定组,使用深度神经网络预测前述标定组,输出标定组预测结果作为语音分离结果g(x,y);
步骤四,计算步骤三语音分离结果的质量评价因子,根据前述质量评价因子判定当前语音分离结果是否存在模糊效应,如果存在模糊效应,则转入步骤五,否则,退出去模糊进程,定义语音分离结果为最终纯净语音;
本发明的工作原理:本发明提出一种自适应的语音分离方法,分离出混合语音信号的中噪音信号与纯净信号。基于最小能量准则交互估计核函数和最优纯净语音,构建纯净语音质量评价因子判决条件作为迭代终止条件,实现自适应的语音分离处理。通过融合锐化指数和自然纯净语音质量评价指标构造质量评价因子,用于区分纯净语音和含噪语音,仅对含噪语音进行去模糊处理,并用于控制交互估计的迭代进程。本发明考虑到纯净语音和噪声之间的相关性,,在理论上能够取得最小均方误差意义下的最大信噪比增益。实验结果表明,本发明的方法分离效果好,分离度高。
上述方案中,进一步地,所述质量评价因子Q包括平滑特征的时间轨迹的锐化指数SI,以及待评价语音信号的平滑特征的时间轨迹与自然语音信号的特征的时间轨迹多元高斯模型之间的距离NIQE;
进一步地,步骤四中判定当前语音分离结果是否存在模糊效应为:
定义统计模糊语音数据集中的质量评价因子下限Qmin,比较当前质量评价因子Q与质量评价因子下限Qmin的大小,当Q≤HQmin时判定为不模糊,Q>HQmin时判定为模糊,其中H为容差参数。
其中,n为迭代次数。
进一步地,所述深度神经网络包括三个隐层,每层1024个节点,激活函数为线性纠正函数。
本发明的有益效果:本发明提出一种自适应的语音分离方法,分离出混合语音信号的中噪音信号与纯净信号。基于最小能量准则交互估计核函数和最优纯净语音,构建纯净语音质量评价因子判决条件作为迭代终止条件,实现自适应的语音分离处理。通过融合锐化指数和自然纯净语音质量评价指标构造质量评价因子,用于区分纯净语音和含噪语音,仅对含噪语音进行去模糊处理,并用于控制交互估计的迭代进程。本发明考虑到纯净语音和噪声之间的相关性,,在理论上能够取得最小均方误差意义下的最大信噪比增益。实验结果表明,本发明的方法分离效果好,分离度高。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1,实施例1中的基于语音信号处理的语音分离办法示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1
本实施例提供一种基于语音信号处理的语音分离办法,如图1,所述基于语音信号处理的语音分离办法包括:
步骤一,定义混合语音信号为
y(t)=x(t)+n(t)
x(t)=y(t)*ρ(t);
其中,x(t)为纯净语音,n(t)为噪音语音,ρ(t)为模糊函数;
步骤二,将混合语音信号通过多通道的伽马通滤波器组,对伽马通滤波器组的每个通道的输出进行分帧处理后得到时频单元矩阵,对得到的时频单元矩阵进行特征提取得到特征组,所述特征组包括振幅调制谱、感知线性预测,梅尔频率倒谱系数,伽马通频率,使用自回归与移动平均模型来平滑特征的时间轨迹:
步骤三,建立深度神经网络,将某一特征的时间轨迹上的某一时间点轨迹与该时间点相邻的轨迹组合为一个标定组,使用深度神经网络预测前述标定组,输出标定组预测结果作为语音分离结果g(x,y);
步骤四,计算步骤三语音分离结果的质量评价因子,根据前述质量评价因子判定当前语音分离结果是否存在模糊效应,如果存在模糊效应,则转入步骤五,否则,退出去模糊进程,定义语音分离结果为最终纯净语音;
具体地,所述质量评价因子Q包括平滑特征的时间轨迹的锐化指数SI,以及待评价语音信号的平滑特征的时间轨迹与自然语音信号的特征的时间轨迹多元高斯模型之间的距离NIQE;
具体地,步骤四中判定当前语音分离结果是否存在模糊效应为:
定义统计模糊语音数据集中的质量评价因子下限Qmin,比较当前质量评价因子Q与质量评价因子下限Qmin的大小,当Q≤HQmin时判定为不模糊,Q>HQmin时判定为模糊,其中H为容差参数。
其中,n为迭代次数。
具体地,所述深度神经网络包括三个隐层,每层1024个节点,激活函数为线性纠正函数。
本实施例提出一种自适应的语音分离方法,分离出混合语音信号的中噪音信号与纯净信号。基于最小能量准则交互估计核函数和最优纯净语音,构建纯净语音质量评价因子判决条件作为迭代终止条件,实现自适应的语音分离处理。通过融合锐化指数和自然纯净语音质量评价指标构造质量评价因子,用于区分纯净语音和含噪语音,仅对含噪语音进行去模糊处理,并用于控制交互估计的迭代进程。本发明考虑到纯净语音和噪声之间的相关性,,在理论上能够取得最小均方误差意义下的最大信噪比增益。实验结果表明,本实施例的方法分离效果好,分离度高。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员能够理解本发明,但是本发明不仅限于具体实施方式的范围,对本技术领域的普通技术人员而言,只要各种变化只要在所附的权利要求限定和确定的本发明精神和范围内,一切利用本发明构思的发明创造均在保护之列。
Claims (5)
1.一种基于语音信号处理的语音分离办法,其特征在于:所述基于语音信号处理的语音分离办法包括:
步骤一,定义混合语音信号为
y(t)=x(t)+n(t)
x(t)=y(t)*ρ(t);
其中,x(t)为纯净语音,n(t)为噪音语音,ρ(t)为模糊函数;
步骤二,将混合语音信号通过多通道的伽马通滤波器组,对伽马通滤波器组的每个通道的输出进行分帧处理后得到时频单元矩阵,对得到的时频单元矩阵进行特征提取得到特征组,所述特征组包括振幅调制谱、感知线性预测,梅尔频率倒谱系数,伽马通频率,使用自回归与移动平均模型来平滑特征的时间轨迹:
步骤三,建立深度神经网络,将某一特征的时间轨迹上的某一时间点轨迹与该时间点相邻的轨迹组合为一个标定组,使用深度神经网络预测前述标定组,输出标定组预测结果作为语音分离结果g(x,y);
步骤四,计算步骤三语音分离结果的质量评价因子,根据前述质量评价因子判定当前语音分离结果是否存在模糊效应,如果存在模糊效应,则转入步骤五,否则,退出去模糊进程,定义语音分离结果为最终纯净语音;
所述质量评价因子Q包括平滑特征的时间轨迹的锐化指数SI,以及待评价语音信号的平滑特征的时间轨迹与自然语音信号的特征的时间轨迹多元高斯模型之间的距离NIQE;
2.根据权利要求1所述的基于语音信号处理的语音分离办法,其特征在于:步骤四中判定当前语音分离结果是否存在模糊效应为:
定义统计模糊语音数据集中的质量评价因子下限Qmin,比较当前质量评价因子Q与质量评价因子下限Qmin的大小,当Q≤HQmin时判定为不模糊,Q>HQmin时判定为模糊,其中H为容差参数。
5.根据权利要求1所述的基于语音信号处理的语音分离办法,其特征在于:所述深度神经网络包括三个隐层,每层1024个节点,激活函数为线性纠正函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910542125.XA CN110310658B (zh) | 2019-06-21 | 2019-06-21 | 一种基于语音信号处理的语音分离办法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910542125.XA CN110310658B (zh) | 2019-06-21 | 2019-06-21 | 一种基于语音信号处理的语音分离办法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110310658A CN110310658A (zh) | 2019-10-08 |
CN110310658B true CN110310658B (zh) | 2021-11-30 |
Family
ID=68077064
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910542125.XA Active CN110310658B (zh) | 2019-06-21 | 2019-06-21 | 一种基于语音信号处理的语音分离办法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110310658B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111816208B (zh) * | 2020-06-17 | 2023-05-05 | 厦门快商通科技股份有限公司 | 一种语音分离质量评估方法、装置及计算机存储介质 |
CN113593529B (zh) * | 2021-07-09 | 2023-07-25 | 北京字跳网络技术有限公司 | 说话人分离算法的评估方法、装置、电子设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617798A (zh) * | 2013-12-04 | 2014-03-05 | 中国人民解放军成都军区总医院 | 一种强背景噪声下的语音提取方法 |
EP3057192A1 (en) * | 2015-02-12 | 2016-08-17 | Northeastern University | An energy internet and a hierarchical control system and a control method thereof |
CN108710914A (zh) * | 2018-05-22 | 2018-10-26 | 常州工学院 | 一种基于广义模糊聚类算法的无监督数据分类方法 |
CN108831495A (zh) * | 2018-06-04 | 2018-11-16 | 桂林电子科技大学 | 一种应用于噪声环境下语音识别的语音增强方法 |
CN109493886A (zh) * | 2018-12-13 | 2019-03-19 | 西安电子科技大学 | 基于特征选择和优化的语音情感识别方法 |
CN109711370A (zh) * | 2018-12-29 | 2019-05-03 | 北京博睿视科技有限责任公司 | 一种基于wifi探测和人脸聚类的数据融合算法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102339716B1 (ko) * | 2017-06-30 | 2021-12-14 | 삼성에스디에스 주식회사 | 음성 인식 방법 및 그 장치 |
-
2019
- 2019-06-21 CN CN201910542125.XA patent/CN110310658B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617798A (zh) * | 2013-12-04 | 2014-03-05 | 中国人民解放军成都军区总医院 | 一种强背景噪声下的语音提取方法 |
EP3057192A1 (en) * | 2015-02-12 | 2016-08-17 | Northeastern University | An energy internet and a hierarchical control system and a control method thereof |
CN108710914A (zh) * | 2018-05-22 | 2018-10-26 | 常州工学院 | 一种基于广义模糊聚类算法的无监督数据分类方法 |
CN108831495A (zh) * | 2018-06-04 | 2018-11-16 | 桂林电子科技大学 | 一种应用于噪声环境下语音识别的语音增强方法 |
CN109493886A (zh) * | 2018-12-13 | 2019-03-19 | 西安电子科技大学 | 基于特征选择和优化的语音情感识别方法 |
CN109711370A (zh) * | 2018-12-29 | 2019-05-03 | 北京博睿视科技有限责任公司 | 一种基于wifi探测和人脸聚类的数据融合算法 |
Non-Patent Citations (2)
Title |
---|
"Tracking time-varying mixing system in blind separation";M.Enescu;《Proceedings of the 2000 IEEE Sensor Array 》;20000331;全文 * |
"监督性语音分离中训练目标的研究";夏莎莎;《中国优秀硕士学位论文全文数据库 信息科技辑》;20171130;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110310658A (zh) | 2019-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103871421B (zh) | 一种基于子带噪声分析的自适应降噪方法与系统 | |
US7383178B2 (en) | System and method for speech processing using independent component analysis under stability constraints | |
US20040230428A1 (en) | Method and apparatus for blind source separation using two sensors | |
CN112581973B (zh) | 一种语音增强方法及系统 | |
CN110310658B (zh) | 一种基于语音信号处理的语音分离办法 | |
KR100647286B1 (ko) | 교차채널 간섭을 제거하기 위한 후처리장치 및 방법과이를 이용한 다채널 음원 분리장치 및 방법 | |
JP7486266B2 (ja) | 深層フィルタを決定するための方法および装置 | |
CN108877831B (zh) | 基于多标准融合频点筛选的盲源分离快速方法及系统 | |
CN112435683B (zh) | 基于t-s模糊神经网络的自适应噪声估计及语音降噪方法 | |
WO2021007841A1 (zh) | 噪声估计方法、噪声估计装置、语音处理芯片以及电子设备 | |
CN112735460A (zh) | 基于时频掩蔽值估计的波束成形方法及系统 | |
CN111899750A (zh) | 联合耳蜗语音特征和跳变深层神经网络的语音增强算法 | |
Hosseini et al. | Time difference of arrival estimation of sound source using cross correlation and modified maximum likelihood weighting function | |
CN105719658B (zh) | 基于新阈值函数和自适应阈值的小波包语音降噪方法 | |
CN112289337A (zh) | 一种滤除机器学习语音增强后的残留噪声的方法及装置 | |
Korhonen | Wind noise management in hearing aids | |
CN115440240A (zh) | 语音降噪的训练方法、语音降噪系统及语音降噪方法 | |
TWI749547B (zh) | 應用深度學習的語音增強系統 | |
CN112530453B (zh) | 一种适用于噪声环境下的语音识别方法及装置 | |
CN114373473A (zh) | 通过低延迟深度学习实现同时降噪和去混响 | |
CN112951264B (zh) | 一种基于混合式概率模型的多通道声源分离方法 | |
CN118250592A (zh) | 一种基于阵列麦克风的降风噪方法及系统 | |
Tank et al. | Automated Dual-Channel Speech Enhancement Using Adaptive Coherence Function with Optimised Discrete Wavelet Transform | |
KR102358151B1 (ko) | 컨볼루션 순환신경망을 이용한 잡음 제거 방법 | |
CN116778970B (zh) | 强噪声环境下的语音检测模型训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |