CN111816208A - 一种语音分离质量评估方法、装置及计算机存储介质 - Google Patents

一种语音分离质量评估方法、装置及计算机存储介质 Download PDF

Info

Publication number
CN111816208A
CN111816208A CN202010554752.8A CN202010554752A CN111816208A CN 111816208 A CN111816208 A CN 111816208A CN 202010554752 A CN202010554752 A CN 202010554752A CN 111816208 A CN111816208 A CN 111816208A
Authority
CN
China
Prior art keywords
voice
quality
data
voice data
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010554752.8A
Other languages
English (en)
Other versions
CN111816208B (zh
Inventor
叶林勇
肖龙源
李稀敏
刘晓葳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Kuaishangtong Technology Co Ltd
Original Assignee
Xiamen Kuaishangtong Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Kuaishangtong Technology Co Ltd filed Critical Xiamen Kuaishangtong Technology Co Ltd
Priority to CN202010554752.8A priority Critical patent/CN111816208B/zh
Publication of CN111816208A publication Critical patent/CN111816208A/zh
Application granted granted Critical
Publication of CN111816208B publication Critical patent/CN111816208B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提出了一种语音分离质量评估方法、装置及计算机存储介质,所述方法包括:获取混合语音训练数据;对所述混合语音训练数据进行预处理,提取出所述混合语音训练数据的MFCC特征以训练生成语音分离模型;获取混合语音测试数据,所述混合语音测试数据中包括多条语音数据,所述语音数据中包括至少两条纯净语音数据;提取出所述语音数据的MFCC特征,将所述语音数据的MFCC特征输入语音分离模型,得到分离完成的单人语音数据;基于混合之前的所述纯净语音数据,计算并整合所述单人语音数据的质量参数,得到经过所述语音分离模型分离后的语音质量评估结果;通过算法整合计算分离后的语音质量评估结果,实现客观合理地进行分离结果质量评估。

Description

一种语音分离质量评估方法、装置及计算机存储介质
技术领域
本发明涉及音频信号处理技术领域,尤其涉及一种语音分离质量评估方法、装置及计算机存储介质。
背景技术
目前,在人们的通信交流或者留言中由于身处的环境不同或者通信设备的原因,在通信过程中难免会掺杂其他无关人员说话声或者噪声,基于声纹识别技术开发如今开发了语音分离技术,现有的语音分离技术对音频进行分离后的分离结果质量评估通常是通过人耳分辨主观判断,然而此质量评估方式效率低,同时受到人为的主观因素的影响,导致不能客观合理地进行分离结果质量评估。
发明内容
鉴于上述状况,实有必要提供一种语音分离质量评估方法、装置及计算机存储介质,以解决上述问题。
本发明提供了一种语音分离质量评估方法,所述方法包括:
获取混合语音训练数据;
对所述混合语音训练数据进行预处理,提取出所述混合语音训练数据的MFCC特征以训练生成语音分离模型;
获取混合语音测试数据,所述混合语音测试数据中包括多条语音数据,所述语音数据中包括至少两条纯净语音数据;
提取出所述语音数据的MFCC特征,将所述语音数据的MFCC特征输入语音分离模型,得到分离完成的单人语音数据;
基于混合之前的所述纯净语音数据,计算并整合所述单人语音数据的质量参数,得到经过所述语音分离模型分离后的语音质量评估结果。
进一步地,计算并整合所述单人语音数据的质量参数的过程具体包括:
分别计算从每条所述语音数据中分离完成的单人语音数据的质量参数;
对所述单人语音数据的质量参数进行评估整合,得到每条所述语音数据的质量评分;
对多条所述语音数据的质量评分进行加和并取平均值,得到经所述语音分离模型分离后的语音质量评估结果。
进一步地,所述单人语音数据的质量参数包括语音质量失真比SDR、语音质量干扰比SIR、语音质量噪声比SNR和语音质量伪造比SAR。
进一步地,对所述单人语音数据的质量参数进行评估整合的过程具体包括:
选取整合因子K1、K2、K3、K4,所述各个整合因子的总和等于1;
将所述整合因子K1、K2、K3、K4与所述语音质量失真比SDR、所述语音质量干扰比SIR、所述语音质量噪声比SNR、所述语音质量伪造比SAR分别相乘并加和,得到每条所述语音数据的质量评分。
进一步地,所述混合语音训练数据或混合语音测试数据可以是通过将目标说话人的纯净语音数据、其他无关说话人的纯净语音数据和噪声的语音数据进行混合得到。
进一步地,本发明还提供了一种语音分离质量评估装置,所述装置包括:
语音采集模块,用于采集需要进行分离的混合语音测试数据,所述混合语音测试数据中包括多条语音数据,所述语音数据中包括至少两条纯净语音数据;
特征提取模块,用于对所述混合语音测试数据进行预处理,提取出所述混合语音测试数据中语音数据的MFCC特征;
神经网络模块,所述神经网络模块中预设语音分离模型,所述神经网络模块用于对所述语音数据的MFCC特征进行处理,分离所述混合语音测试数据得到单人语音数据;
质量评估模块,用于计算并整合所述单人语音数据的语音质量参数,得到经过所述语音分离模型分离后的语音质量评估结果。
结果输出模块,用于输出经过所述语音分离模型分离后的语音质量评估结果。
进一步地,所述质量评估模块还包括:
参数生成模块,用于基于所述纯净语音数据,计算单人语音数据的质量参数;
参数整合模块,用于对所述单人语音数据的质量参数进行评估整合,得到每条所述语音数据的质量评分;
评分生成模块,用于将多条所述语音数据的质量评分加和并取平均值,得到经所述语音分离模型分离后的质量评估结果。
进一步地,所述语音质量参数包括语音质量失真比SDR、语音质量干扰比SIR、语音质量噪声比SNR和语音质量伪造比SAR。
进一步地,所述参数整合模块还包括:
整合因子模块,用于设置整合因子K1、K2、K3、K4,其中各个整合因子的总和等于1;
整合评分模块,用于将所述整合因子K1、K2、K3、K4与所述语音质量失真比SDR、所述语音质量干扰比SIR、所述语音质量噪声比SNR、所述语音质量伪造比SAR分别相乘并加和,得到每条所述语音数据的质量评分。
进一步地,本发明还提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行所述一种语音分离质量评估方法中所描述的部分或全部步骤。
本发明提供的一种语音分离质量评估方法、装置及计算机存储介质,通过提取所述混合语音训练数据的MFCC特征以训练生成所述语音分离模型,然后获取所述混合语音测试数据并提取出所述语音数据的MFCC特征,进而将所述语音数据的MFCC特征输入所述语音分离模型中得到分离完成的所述单人语音数据,最后基于混合之前的所述纯净语音数据,计算并整合所述单人语音数据的质量参数,得到经过所述语音分离模型分离后的语音质量评估结果,实现了语音分离,且通过算法自动计算经所述语音分离模型分离后的语音质量评估结果,避免了现有技术中通过人耳分辨主观判断,受到人为的主观因素的影响,导致不能客观合理地进行分离结果质量评估。
附图说明
图1是本发明的一个实施例中的一种语音分离质量评估方法的流程图。
图2是本发明的一个实施例中的一种语音分离质量评估方法中步骤S50的流程图。
图3是本发明的一个实施例中的一种语音分离质量评估装置的模块示意图。
图4是本发明的一个实施例中的一种语音分离质量评估装置中质量评估模块的组成示意图。
图5是本发明的一个实施例中的一种语音分离质量评估装置中参数整合模块的组成示意图。
主要元件符号说明
100 装置
110 语音采集模块
120 特征提取模块
130 神经网络模块
140 质量评估模块
141 参数生成模块
142 参数整合模块
1421 整合因子模块
1422 整合评分模块
143 评分生成模块
150 结果输出模块
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
请参阅图1,本发明提供了一种语音分离质量评估方法,所述方法包括以下步骤:
步骤S10、获取混合语音训练数据。
在本实施例中,在准备训练数据来训练递归神经网络模型时,所述混合语音训练数据可以是通过将目标说话人的纯净语音数据、其他无关说话人的纯净语音数据和噪声的语音数据进行混合得到,其中所述目标说话人的纯净语音数据、所述其他无关说话人的纯净语音数据和所述噪声的语音数据可以为一条也可以为多条。
步骤S20、对所述混合语音训练数据进行预处理,提取出所述混合语音训练数据的MFCC特征以训练生成语音分离模型。
在本实施例中,所述MFCC特征为梅尔频谱倒谱系数特征MFCC(Mel-frequencycepstral coefficient)。梅尔频率是基于人耳听觉特性提出来的,它与赫兹Hz频率成非线性对应关系。从说话人音频中提取MFCC特征一般包括以下步骤:预加重,分帧,加窗,傅里叶变换,梅尔滤波器组,离散余弦变换(DCT)等。其中预加重用于在一定程度提升高频部分,使信号的频谱变得平坦;分帧用于将语音按时间分成一系列帧;加窗步骤是采用窗函数增加帧左端和右端的连续性。接着,将音频进行傅里叶变换,从而将时域信号转换为频域信号。然后,利用梅尔滤波器组将频域信号的频率对应到梅尔刻度上,从而获得梅尔频谱。之后,通过离散余弦变换获得梅尔频谱的倒谱系数,进而可以获得倒谱梅尔频谱。
进一步地,在进行机器学习及模型训练的过程中,输入数据为所述混合语音训练数据的MFCC特征,从而对所述语音分离模型中的判别器进行训练,完成对所述语音分离模型中的判别器进行参数固化,所述语音分离模型的预期输出数据为混合之前的所述目标说话人的纯净语音数据和/或所述其他无关说话人的纯净语音数据和/或所述噪声的语音数据。
步骤S30、获取混合语音测试数据,所述混合语音测试数据中包括多条语音数据,所述语音数据中包括至少两条纯净语音数据。
在本实施例中,所述混合语音测试数据可以是通过将目标说话人的纯净语音数据、其他无关说话人的纯净语音数据和噪声的语音数据进行混合得到,其中所述目标说话人的纯净语音数据、所述其他无关说话人的纯净语音数据和所述噪声的语音数据可以为一条也可以为多条。
步骤S40、提取出所述语音数据的MFCC特征,将所述语音数据的MFCC特征输入语音分离模型,得到分离完成的单人语音数据。
在本实施例中,通过将已提取出的所述语音数据的MFCC特征输入已训练生成的所述语音分离模型中数据输入端,所述语音分离模型完成对所述混合语音测试数据的语音分离,所述语音分离模型中数据输出端输出分离完成的所述单人语音数据。
步骤S50、基于混合之前的所述纯净语音数据,计算并整合所述单人语音数据的质量参数,得到经过所述语音分离模型分离后的语音质量评估结果。
在本实施例中,计算并整合所述单人语音数据的质量参数的过程具体包括如图2所述的步骤:
步骤S51、分别计算从每条所述语音数据中分离完成的单人语音数据的质量参数。
在本实施例中,所述单人语音数据的质量参数都是基于单人语音数据混合之前的纯净语音数据作为基准参考语音从而计算得出,所述单人语音数据的质量参数包括语音质量失真比SDR、语音质量干扰比SIR、语音质量噪声比SNR和语音质量伪造比SAR。
进一步地,所述单人语音数据的质量参数的具体计算表达式为:
Figure BDA0002543895070000081
Figure BDA0002543895070000082
Figure BDA0002543895070000083
Figure BDA0002543895070000084
其中,starget为各个误差估计值的总和,einterf为干扰的误差估计值,enoise为噪声的误差估计值,eartif为语音失真的误差估计值,由如下表达式计算得出:
Figure BDA0002543895070000085
Figure BDA0002543895070000086
Figure BDA0002543895070000087
Figure BDA0002543895070000088
其中,
Figure BDA0002543895070000089
为总误差的估计值,sj为总误差的权重因子,ni为噪声的权重因子,cj为语音失真权重因子。
步骤S52、对所述单人语音数据的质量参数进行评估整合,得到每条所述语音数据的质量评分。
在本实施例中,对所述单人语音数据的质量参数进行评估整合的过程具体包括:
选取整合因子K1、K2、K3、K4,所述各个整合因子的总和等于1。将所述整合因子K1、K2、K3、K4与所述语音质量失真比SDR、所述语音质量干扰比SIR、所述语音质量噪声比SNR、所述语音质量伪造比SAR分别相乘并加和,得到每条所述语音数据的质量评分。
进一步地,所述整合因子K1、K2、K3、K4的具体取值为经验值,各个整合因子的总和等于1,例如取K1=0.3,K2=0.3,K3=0.3,K4=0.1,K1+K2+K3+K4=1。
步骤S53、对多条所述语音数据的质量评分进行加和并取平均值,得到经所述语音分离模型分离后的语音质量评估结果。
本发明提供的一种语音分离质量评估方法,通过提取所述混合语音训练数据的MFCC特征以训练生成所述语音分离模型,然后获取所述混合语音测试数据并提取出所述语音数据的MFCC特征,进而将所述语音数据的MFCC特征输入所述语音分离模型中得到分离完成的所述单人语音数据,最后基于混合之前的所述纯净语音数据,计算并整合所述单人语音数据的质量参数,得到经过所述语音分离模型分离后的语音质量评估结果,实现了语音分离,且通过算法自动计算经所述语音分离模型分离后的语音质量评估结果,避免了现有技术中通过人耳分辨主观判断,受到人为的主观因素的影响,导致不能客观合理地进行分离结果质量评估。
请参阅图3,作为对上述各图示所示的方法的实现,本发明提供一种语音分离质量评估装置100,所述装置100包括语音采集模块110、特征提取模块120、神经网络模块130、质量评估模块140和结果输出模块150。图3仅示出了所述装置100的部分模块,但是应理解的是,并不要求实施所有示出的模块,可以替代的实施更多或者更少的模块。
所述语音采集模块110,用于采集需要进行分离的混合语音测试数据,所述混合语音测试数据中包括多条语音数据,所述语音数据中包括至少两条纯净语音数据。
所述特征提取模块120,用于对所述混合语音测试数据进行预处理,提取出所述混合语音测试数据中语音数据的MFCC特征。
所述神经网络模块130,所述神经网络模块130中预设语音分离模型,所述神经网络模块130用于对所述语音数据的MFCC特征进行处理,分离所述混合语音测试数据得到单人语音数据。
在本实施例中,所述神经网络模块130存储有经过训练生成的语音分离模型,所述神经网络模块130包括数据输入端,用于输入所述语音数据的MFCC特征;所述神经网络模块130还包括数据输出端,用于输出经所述语音分离模型分离完成的单人语音数据。
质量评估模块140,用于计算并整合所述单人语音数据的语音质量参数,得到经过所述语音分离模型分离后的语音质量评估结果。
在本实施例中,如图4所示,所述质量评估模块140还包括:
参数生成模块141,用于基于所述纯净语音数据,计算单人语音数据的质量参数。
在本实施例中,所述单人语音数据的质量参数都是基于单人语音数据混合之前的纯净语音数据作为基准参考语音从而计算得出,所述单人语音数据的质量参数包括语音质量失真比SDR、语音质量干扰比SIR、语音质量噪声比SNR和语音质量伪造比SAR。
参数整合模块142,用于对所述单人语音数据的质量参数进行评估整合,得到每条所述语音数据的质量评分。
在本实施中,所述参数整合模块142对所述单人语音数据的质量参数进行评估整合的过程具体包括:
选取整合因子K1、K2、K3、K4,所述各个整合因子的总和等于1。将所述整合因子K1、K2、K3、K4与所述语音质量失真比SDR、所述语音质量干扰比SIR、所述语音质量噪声比SNR、所述语音质量伪造比SAR分别相乘并加和,得到每条所述语音数据的质量评分。
评分生成模块143,用于将多条所述语音数据的质量评分加和并取平均值,得到经所述语音分离模型分离后的质量评估结果。
结果输出模块150,用于输出经过所述语音分离模型分离后的语音质量评估结果。
本发明提供的一种语音分离质量评估装置,通过提取所述混合语音训练数据的MFCC特征以训练生成所述语音分离模型,然后获取所述混合语音测试数据并提取出所述语音数据的MFCC特征,进而将所述语音数据的MFCC特征输入所述语音分离模型中得到分离完成的所述单人语音数据,最后基于混合之前的所述纯净语音数据,计算并整合所述单人语音数据的质量参数,得到经过所述语音分离模型分离后的语音质量评估结果,实现了语音分离,且通过算法自动计算经所述语音分离模型分离后的语音质量评估结果,避免了现有技术中通过人耳分辨主观判断,受到人为的主观因素的影响,导致不能客观合理地进行分离结果质量评估。
本发明还提供的一种计算机存储介质,其中所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如上述方法实施例中记载的所述方法的部分或全部步骤。所述计算机存储介质可以作为一个软件安装包。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神。

Claims (10)

1.一种语音分离质量评估方法,其特征在于,所述方法包括:
获取混合语音训练数据;
对所述混合语音训练数据进行预处理,提取出所述混合语音训练数据的MFCC特征以训练生成语音分离模型;
获取混合语音测试数据,所述混合语音测试数据中包括多条语音数据,所述语音数据中包括至少两条纯净语音数据;
提取出所述语音数据的MFCC特征,将所述语音数据的MFCC特征输入语音分离模型,得到分离完成的单人语音数据;
基于混合之前的所述纯净语音数据,计算并整合所述单人语音数据的质量参数,得到经过所述语音分离模型分离后的语音质量评估结果。
2.如权利要求1所述的一种语音分离质量评估方法,其特征在于,计算并整合所述单人语音数据的质量参数的过程具体包括:
分别计算从每条所述语音数据中分离完成的单人语音数据的质量参数;
对所述单人语音数据的质量参数进行评估整合,得到每条所述语音数据的质量评分;
对多条所述语音数据的质量评分进行加和并取平均值,得到经所述语音分离模型分离后的语音质量评估结果。
3.如权利要求2所述的一种语音分离质量评估方法,其特征在于,所述单人语音数据的质量参数包括语音质量失真比SDR、语音质量干扰比SIR、语音质量噪声比SNR和语音质量伪造比SAR。
4.如权利要求3所述的一种语音分离质量评估方法,其特征在于,对所述单人语音数据的质量参数进行评估整合的过程具体包括:
选取整合因子K1、K2、K3、K4,所述各个整合因子的总和等于1;
将所述整合因子K1、K2、K3、K4与所述语音质量失真比SDR、所述语音质量干扰比SIR、所述语音质量噪声比SNR、所述语音质量伪造比SAR分别相乘并加和,得到每条所述语音数据的质量评分。
5.如权利要求1-4中任一项所述的一种语音分离质量评估方法,其特征在于,所述混合语音训练数据或混合语音测试数据可以是通过将目标说话人的纯净语音数据、其他无关说话人的纯净语音数据和噪声的语音数据进行混合得到。
6.一种语音分离质量评估装置,其特征在于,所述装置包括:
语音采集模块,用于采集需要进行分离的混合语音测试数据,所述混合语音测试数据中包括多条语音数据,所述语音数据中包括至少两条纯净语音数据;
特征提取模块,用于对所述混合语音测试数据进行预处理,提取出所述混合语音测试数据中语音数据的MFCC特征;
神经网络模块,所述神经网络模块中预设语音分离模型,所述神经网络模块用于对所述语音数据的MFCC特征进行处理,分离所述混合语音测试数据得到单人语音数据;
质量评估模块,用于计算并整合所述单人语音数据的语音质量参数,得到经过所述语音分离模型分离后的语音质量评估结果。
结果输出模块,用于输出经过所述语音分离模型分离后的语音质量评估结果。
7.如权利要求6所述的一种语音分离质量评估装置,其特征在于,所述质量评估模块还包括:
参数生成模块,用于基于所述纯净语音数据,计算单人语音数据的质量参数;
参数整合模块,用于对所述单人语音数据的质量参数进行评估整合,得到每条所述语音数据的质量评分;
评分生成模块,用于将多条所述语音数据的质量评分加和并取平均值,得到经所述语音分离模型分离后的质量评估结果。
8.如权利要求7所述的一种语音分离质量评估装置,其特征在于,所述语音质量参数包括语音质量失真比SDR、语音质量干扰比SIR、语音质量噪声比SNR和语音质量伪造比SAR。
9.如权利要求8所述的一种语音分离质量评估装置,其特征在于,所述参数整合模块还包括:
整合因子模块,用于设置整合因子K1、K2、K3、K4,其中各个整合因子的总和等于1;
整合评分模块,用于将所述整合因子K1、K2、K3、K4与所述语音质量失真比SDR、所述语音质量干扰比SIR、所述语音质量噪声比SNR、所述语音质量伪造比SAR分别相乘并加和,得到每条所述语音数据的质量评分。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-5中任一项所述的方法。
CN202010554752.8A 2020-06-17 2020-06-17 一种语音分离质量评估方法、装置及计算机存储介质 Active CN111816208B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010554752.8A CN111816208B (zh) 2020-06-17 2020-06-17 一种语音分离质量评估方法、装置及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010554752.8A CN111816208B (zh) 2020-06-17 2020-06-17 一种语音分离质量评估方法、装置及计算机存储介质

Publications (2)

Publication Number Publication Date
CN111816208A true CN111816208A (zh) 2020-10-23
CN111816208B CN111816208B (zh) 2023-05-05

Family

ID=72844757

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010554752.8A Active CN111816208B (zh) 2020-06-17 2020-06-17 一种语音分离质量评估方法、装置及计算机存储介质

Country Status (1)

Country Link
CN (1) CN111816208B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113593529A (zh) * 2021-07-09 2021-11-02 北京字跳网络技术有限公司 说话人分离算法的评估方法、装置、电子设备和存储介质

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070011006A1 (en) * 2005-07-05 2007-01-11 Kim Doh-Suk Speech quality assessment method and system
US20120128165A1 (en) * 2010-10-25 2012-05-24 Qualcomm Incorporated Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal
US20160189730A1 (en) * 2014-12-30 2016-06-30 Iflytek Co., Ltd. Speech separation method and system
CN107093432A (zh) * 2017-05-19 2017-08-25 深圳众厉电力科技有限公司 一种用于通信系统的语音质量评价系统
US20170301354A1 (en) * 2014-10-02 2017-10-19 Sony Corporation Method, apparatus and system
US20190066713A1 (en) * 2016-06-14 2019-02-28 The Trustees Of Columbia University In The City Of New York Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
CN109711468A (zh) * 2018-12-27 2019-05-03 西安交通大学 一种基于单源点的复值盲分离混合矩阵估计方法
CN109979486A (zh) * 2017-12-28 2019-07-05 中国移动通信集团北京有限公司 一种语音质量评估方法及装置
CN110148419A (zh) * 2019-04-25 2019-08-20 南京邮电大学 基于深度学习的语音分离方法
CN110310658A (zh) * 2019-06-21 2019-10-08 桂林电子科技大学 一种基于语音信号处理的语音分离办法
CN110634502A (zh) * 2019-09-06 2019-12-31 南京邮电大学 基于深度神经网络的单通道语音分离算法
CN110663081A (zh) * 2017-10-10 2020-01-07 谷歌有限责任公司 基于网格偏移方法的联合宽带源定位和获取
CN111128211A (zh) * 2019-12-02 2020-05-08 云知声智能科技股份有限公司 一种语音分离方法及装置
CN111128197A (zh) * 2019-12-25 2020-05-08 北京邮电大学 基于声纹特征与生成对抗学习的多说话人语音分离方法
CN111243620A (zh) * 2020-01-07 2020-06-05 腾讯科技(深圳)有限公司 语音分离模型训练方法、装置、存储介质和计算机设备
CN111292762A (zh) * 2018-12-08 2020-06-16 南京工业大学 一种基于深度学习的单通道语音分离方法

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070011006A1 (en) * 2005-07-05 2007-01-11 Kim Doh-Suk Speech quality assessment method and system
US20120128165A1 (en) * 2010-10-25 2012-05-24 Qualcomm Incorporated Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal
US20170301354A1 (en) * 2014-10-02 2017-10-19 Sony Corporation Method, apparatus and system
US20160189730A1 (en) * 2014-12-30 2016-06-30 Iflytek Co., Ltd. Speech separation method and system
US20190066713A1 (en) * 2016-06-14 2019-02-28 The Trustees Of Columbia University In The City Of New York Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
CN107093432A (zh) * 2017-05-19 2017-08-25 深圳众厉电力科技有限公司 一种用于通信系统的语音质量评价系统
CN110663081A (zh) * 2017-10-10 2020-01-07 谷歌有限责任公司 基于网格偏移方法的联合宽带源定位和获取
CN109979486A (zh) * 2017-12-28 2019-07-05 中国移动通信集团北京有限公司 一种语音质量评估方法及装置
CN111292762A (zh) * 2018-12-08 2020-06-16 南京工业大学 一种基于深度学习的单通道语音分离方法
CN109711468A (zh) * 2018-12-27 2019-05-03 西安交通大学 一种基于单源点的复值盲分离混合矩阵估计方法
CN110148419A (zh) * 2019-04-25 2019-08-20 南京邮电大学 基于深度学习的语音分离方法
CN110310658A (zh) * 2019-06-21 2019-10-08 桂林电子科技大学 一种基于语音信号处理的语音分离办法
CN110634502A (zh) * 2019-09-06 2019-12-31 南京邮电大学 基于深度神经网络的单通道语音分离算法
CN111128211A (zh) * 2019-12-02 2020-05-08 云知声智能科技股份有限公司 一种语音分离方法及装置
CN111128197A (zh) * 2019-12-25 2020-05-08 北京邮电大学 基于声纹特征与生成对抗学习的多说话人语音分离方法
CN111243620A (zh) * 2020-01-07 2020-06-05 腾讯科技(深圳)有限公司 语音分离模型训练方法、装置、存储介质和计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
EMMANUEL VINCENT ET AL.: "Performance Measurement in Blind Audio Source Separation", 《IEEE》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113593529A (zh) * 2021-07-09 2021-11-02 北京字跳网络技术有限公司 说话人分离算法的评估方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN111816208B (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
CN106486131B (zh) 一种语音去噪的方法及装置
WO2020181824A1 (zh) 声纹识别方法、装置、设备以及计算机可读存储介质
Zhao et al. CASA-based robust speaker identification
US8972255B2 (en) Method and device for classifying background noise contained in an audio signal
CN102054480B (zh) 一种基于分数阶傅立叶变换的单声道混叠语音分离方法
CN107767859B (zh) 噪声环境下人工耳蜗信号的说话人可懂性检测方法
CN109256127B (zh) 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法
CN110880329B (zh) 一种音频识别方法及设备、存储介质
CN110570880B (zh) 一种鼾声信号识别方法
CN109256138B (zh) 身份验证方法、终端设备及计算机可读存储介质
KR101148671B1 (ko) 오디오 전송 시스템의 음성 명료도 측정 방법 및 시스템
TR201810466T4 (tr) Özellik çıkarımı kullanılarak konuşmanın iyileştirilmesi için bir ses sinyalinin işlenmesine yönelik aparat ve yöntem.
CN110111769B (zh) 一种电子耳蜗控制方法、装置、可读存储介质及电子耳蜗
CN111785285A (zh) 面向家居多特征参数融合的声纹识别方法
CN108198576A (zh) 一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法
CN110767239A (zh) 一种基于深度学习的声纹识别方法、装置及设备
CN113823293B (zh) 一种基于语音增强的说话人识别方法及系统
Murugappan et al. DWT and MFCC based human emotional speech classification using LDA
CN107274887A (zh) 基于融合特征mgfcc的说话人二次特征提取方法
CN111508504B (zh) 基于听觉中枢感知机理的说话人识别方法
CN111489763B (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
CN110570871A (zh) 一种基于TristouNet的声纹识别方法、装置及设备
CN111816208B (zh) 一种语音分离质量评估方法、装置及计算机存储介质
Bhat et al. Smartphone based real-time super gaussian single microphone speech enhancement to improve intelligibility for hearing aid users using formant information
CN109215635A (zh) 用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant