CN108922556B - 声音处理方法、装置及设备 - Google Patents

声音处理方法、装置及设备 Download PDF

Info

Publication number
CN108922556B
CN108922556B CN201810775907.3A CN201810775907A CN108922556B CN 108922556 B CN108922556 B CN 108922556B CN 201810775907 A CN201810775907 A CN 201810775907A CN 108922556 B CN108922556 B CN 108922556B
Authority
CN
China
Prior art keywords
feature vector
audio frame
fusion
type
label value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810775907.3A
Other languages
English (en)
Other versions
CN108922556A (zh
Inventor
李超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810775907.3A priority Critical patent/CN108922556B/zh
Publication of CN108922556A publication Critical patent/CN108922556A/zh
Application granted granted Critical
Publication of CN108922556B publication Critical patent/CN108922556B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Abstract

本发明实施例提供一种声音处理方法、装置及设备,该方法包括:获取音频帧的至少两个特征向量,所述音频帧中包括语音信号和噪声信号,所述至少两个特征向量的声学特征类型不同;对所述至少两个特征向量进行融合处理,得到融合特征向量;根据所述融合特征向量,获取所述音频帧的标签值,所述标签值用于指示所述音频帧中语音信号与噪声信号的功率比;根据所述音频帧的标签值和所述音频帧中噪声信号的功率,确定所述音频帧的处理结果。用于提高对噪声的抑制效果。

Description

声音处理方法、装置及设备
技术领域
本发明实施例涉及声音技术领域,尤其涉及一种声音处理方法、装置及设备。
背景技术
随着声音技术的不断发展,在多种应用场景中,需要在抑制声音(包括语音信号和噪声信号)中抑制噪声信号,即,对声音进行降噪处理。
在现有技术中,在对声音进行降噪处理时,分别对一段声音中的每个音频帧进行处理。针对每一个音频帧,先获取该音频帧的特征向量,并通过预设模型对特征向量进行处理,以实现抑制该音频帧中的噪声信号。然而,在实际应用过程中,由于环境中存在各种类型的噪声,使得音频帧中也可能包括多种类型的噪声,而通过音频帧的特征向量无法表示所有噪声的特征,使得根据预设模型对特征向量进行处理时,根据音频帧的特征向量无法准确的抑制音频帧中的噪声。例如,对噪声的抑制能力低,或者,在抑制噪声的同时对语音也进行了抑制,或者,在抑制噪声的同时对语音造成了损伤。由上可知,在现有技术中,对噪声的抑制效果较差。
发明内容
本发明实施例提供一种声音处理方法、装置及设备,提高了对噪声的抑制效果。
第一方面,本发明实施例提供一种声音处理方法,包括:
获取音频帧的至少两个特征向量,所述音频帧中包括语音信号和噪声信号,所述至少两个特征向量的声学特征类型不同;
对所述至少两个特征向量进行融合处理,得到融合特征向量;
根据所述融合特征向量,获取所述音频帧的标签值,所述标签值用于指示所述音频帧中语音信号与噪声信号的功率比;
根据所述音频帧的标签值和所述音频帧中噪声信号的功率,确定所述音频帧的处理结果。
在一种可能的实施方式中,所述至少两个特征向量包括第一特征向量和第二特征向量;所述对所述至少两个特征向量进行融合处理,得到融合特征向量,包括:
将第二特征向量中的元素插入至所述第一特征向量,得到所述融合特征向量,其中,所述融合特征向量中元素的个数为所述第一特征向量中元素的个数与第二特征向量中元素的个数之和。
在另一种可能的实施方式中,将第二特征向量中的元素插入至所述第一特征向量,包括:
在第一特征向量的尾部依次插入所述第二特征向量中的元素。
在另一种可能的实施方式中,所述将第二特征向量中的元素插入至所述第一特征向量之前,还包括:
对所述第一特征向量中的元素进行归一化处理;
对所述第二特征向量中的元素进行归一化处理。
在另一种可能的实施方式中,所述根据所述融合特征向量,获取所述音频帧的标签值,包括:
根据预设模型,对所述融合特征向量进行处理,得到所述音频帧的标签值;
其中,所述预设模型为通过深度神经网络对多组样本进行学习得到的,每组样本包括融合特征向量样本和对应的标签值样本,所述融合特征向量样本为对至少两种声学特征类型的特征向量样本融合处理得到的。
在另一种可能的实施方式中,所述音频标签值为根据所述音频帧中语音信号在各频率点的功率、和噪声信号在各频率点的功率确定的。
在另一种可能的实施方式中,所述根据所述音频帧的标签值和所述音频帧中噪声信号的功率,对所述音频帧进行处理得到所述音频帧的处理结果,包括:
将所述音频帧的标签值和所述音频帧中信号噪声的功率的乘积确定为所述音频帧的处理结果。
在另一种可能的实施方式中,所述至少两个特征向量的声学特征类型包括如下声学特征类型中的至少两种:
梅尔频率倒谱系数MFCC类型、滤波器组Fbank类型和线性预测分析PLP类型。
第二方面,本发明实施例提供一种声音处理装置,包括第一获取模块、融合模块、第二获取模块和确定模块,其中,
所述第一获取模块用于,获取音频帧的至少两个特征向量,所述音频帧中包括语音信号和噪声信号,所述至少两个特征向量的声学特征类型不同;
所述融合模块用于,对所述至少两个特征向量进行融合处理,得到融合特征向量;
所述第二获取模块用于,根据所述融合特征向量,获取所述音频帧的标签值,所述标签值用于指示所述音频帧中语音信号与噪声信号的功率比;
所述确定模块用于,根据所述音频帧的标签值和所述音频帧中噪声信号的功率,确定所述音频帧的处理结果。
在一种可能的实施方式中,所述至少两个特征向量包括第一特征向量和第二特征向量;所述融合模块具体用于:
将第二特征向量中的元素插入至所述第一特征向量,得到所述融合特征向量,其中,所述融合特征向量中元素的个数为所述第一特征向量中元素的个数与第二特征向量中元素的个数之和。
在另一种可能的实施方式中,所述融合模块具体用于:
在第一特征向量的尾部依次插入所述第二特征向量中的元素。
在另一种可能的实施方式中,所述装置还包括归一化处理模块,其中,
所述归一化处理模块用于,在所述融合模块将第二特征向量中的元素插入至所述第一特征向量之前,对所述第一特征向量中的元素进行归一化处理;对所述第二特征向量中的元素进行归一化处理。
在另一种可能的实施方式中,所述第二获取模块具体用于:
根据预设模型,对所述融合特征向量进行处理,得到所述音频帧的标签值;
其中,所述预设模型为通过深度神经网络对多组样本进行学习得到的,每组样本包括融合特征向量样本和对应的标签值样本,所述融合特征向量样本为对至少两种声学特征类型的特征向量样本融合处理得到的。
在另一种可能的实施方式中,所述音频标签值为根据所述音频帧中语音信号在各频率点的功率、和噪声信号在各频率点的功率确定的。
在另一种可能的实施方式中,所述确定模块具体用于:
将所述音频帧的标签值和所述音频帧中信号噪声的功率的乘积确定为所述音频帧的处理结果。
在另一种可能的实施方式中,所述至少两个特征向量的声学特征类型包括如下声学特征类型中的至少两种:
梅尔频率倒谱系数MFCC类型、滤波器组Fbank类型和线性预测分析PLP类型。
第三方面,本发明实施例提供一种终端设备,包括:处理器,所述处理器与存储器耦合;
所述存储器用于,存储计算机程序;
所述处理器用于,执行所述存储器中存储的计算机程序,以使得所述终端设备执行上述第一方面任一项所述的方法。
第四方面,本发明实施例提供一种可读存储介质,包括程序或指令,当所述程序或指令在计算机上运行时,如上述第一方面任意一项所述的方法被执行。
本发明实施例提供的声音处理方法、装置及设备,获取音频帧的至少两个特征向量,音频帧中包括语音信号和噪声信号,至少两个特征向量的声学特征类型不同;对至少两个特征向量进行融合处理,得到融合特征向量;根据融合特征向量,获取音频帧的标签值,标签值用于指示音频帧中语音信号与噪声信号的功率比;根据音频帧的标签值和音频帧中噪声信号的功率,对音频帧进行处理得到音频帧的处理结果。在上述过程中,每种声学特征类型的特征向量均可以对音频帧中的噪声信号进行刻画,只是每种声学特征类型的特征向量从不同的角度对噪声信号的刻画,使得每种声学特征类型的特征向量对噪声信号的刻画均有利有弊。通过将多种声学特征类型的特征向量进行融合,使得融合后的融合特征向量可以更加全面的刻画音频帧中的噪声信号,这样,预设模型根据融合特征向量可以对音频帧中的噪声进行更加全面的抑制,进而提高对噪声的抑制效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的声音处理方法的架构图;
图2为本发明实施例提供的声音处理方法的流程示意图;
图3为本发明实施例提供的处理流程示意图一;
图4为本发明实施例提供的处理流程示意图二;
图5为本发明实施例提供的处理流程示意图三;
图6为本发明实施例提供的处理流程示意图四;
图7为本发明实施例提供的处理流程示意图四;
图8为本发明实施例提供的声音处理装置的结构示意图一;
图9为本发明实施例提供的声音处理装置的结构示意图二。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的声音处理方法的架构图。请参见图1,在对声音处理的过程中,以音频帧为单位进行处理。在对一个音频帧处理时,先对该音频帧进行特征提取,以提取得到至少两个特征向量,每个特征向量的声学特征类型不同,其中,每一个特征向量均可以表示该音频帧的特征,只是每个特征向量可能从不同的角度对语音帧的特征进行描述。对至少两个特征向量进行特征融合,得到融合特征向量,融合特征向量的维数(融合特征向量中包括的元素个数)是至少两个特征向量的维数之和,将融合特征向量输入至预先训练好的预设模型,由预设模型根据融合特征向量对音频帧进行降噪处理。
在本申请中,每种声学特征类型的特征向量均可以对音频帧中的噪声信号进行刻画,只是每种声学特征类型的特征向量从不同的角度对噪声信号的刻画,使得每种声学特征类型的特征向量对噪声信号的刻画均有利有弊。通过将多种声学特征类型的特征向量进行融合,使得融合后的融合特征向量可以更加全面的刻画音频帧中的噪声信号,这样,预设模型根据融合特征向量可以对音频帧中的噪声进行更加全面的抑制,进而提高对噪声的抑制效果。
下面,通过具体实施例对本申请所示的技术方案进行详细说明。需要说明的是,下面几个具体实施例可以相互结合,对于相同或相似的内容,在不同的实施例中不再进行重复说明。
图2为本发明实施例提供的声音处理方法的流程示意图。请参见图2,该方法可以包括:
S201、获取音频帧的至少两个特征向量,音频帧中包括语音信号和噪声信号,至少两个特征向量的声学特征类型不同。
本发明实施例的执行主体可以为终端设备,也可以为设置在终端设备中的声音处理装置。可选的,声音处理装置可以通过软件实现,或者,声音处理装置也可以通过软件和硬件的结合实现。
可选的,终端设备可以为智能家居设备、手机等设备。
需要说明的是,在对声音处理的过程中,以音频帧为单位进行处理,对每个音频帧的处理过程相同,本发明实施例以对声音中的任意一个音频帧的处理过程为例进行说明。
可选的,音频帧是指一段时长的音频。
例如,音频帧的帧长可以为32ms,帧移可以为10ms,在16KHz采样频率下每个音频帧的长度可以为512个采样点。
当然,在实际应用过程中,可以根据实际需要设置音频帧的帧长、帧移等属性信息,本发明实施例对此不作具体限定。
可选的,至少两个特征向量的声学特征类型包括如下声学特征类型中的至少两种:梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,简称MFCC)、滤波器组(Filter bank,简称Fbank)类型和线性预测分析(Linear Predictive Coding,简称PLP)类型。
需要说明的是,声学特征类型还可以包括其它,例如,离散傅氏变换的快速算法(Fast Fourier Transformation,简称FFT)幅值谱类型,在实际应用过程中,可以根据实际需要设置声学特征类型,本发明实施例对此不作具体限定。
可选的,可以获取音频帧的两个不同声学特征类型的特征向量,例如,可以获取音频帧的MFCC类型的特征向量和Fbank类型的特征向量,或者,可以获取音频帧的MFCC类型的特征向量和PLP类型的特征向量,或者,可以获取音频帧的Fbank类型的特征向量和PLP类型的特征向量。
可选的,可以获取音频帧的三个不同声学特征类型的特征向量,例如可以获取音频帧的MFCC类型的特征向量、Fbank类型的特征向量和PLP类型的特征向量。
可选的,MFCC类型的特征向量的维度可以为13。
当然,在实际应用过程中,可以根据实际需要设置MFCC类型的特征向量的维度,本发明实施例对此不作具体限定。
可选的,Fbank类型的特征向量的维度可以为40。
当然,在实际应用过程中,可以根据实际需要设置Fbank类型的特征向量的维度,本发明实施例对此不作具体限定。
可选的,PLP类型的特征向量的维度可以为40。
当然,在实际应用过程中,可以根据实际需要设置PLP类型的特征向量的维度,本发明实施例对此不作具体限定。
S202、对至少两个特征向量进行融合处理,得到融合特征向量。
可选的,假设至少两个特征向量包括第一特征向量和第二特征向量,相应的,可以通过如下可行的实现方式对至少两个特征向量进行融合处理,得到融合特征向量:将第二特征向量中的元素插入至第一特征向量,得到融合特征向量,其中,融合特征向量中元素的个数为第一特征向量中元素的个数与第二特征向量中元素的个数之和。
可选的,可以在第一特征向量的尾部依次插入第二特征向量中的元素。
例如,假设至少两个特征向量的个数为三个,分别记为特征向量1、特征向量2和特征向量3,假设特征向量1为13维的MFCC类型的特征向量,特征向量2为40维的Fbank类型的特征向量,特征向量3为10维的PLP类型的特征向量。
假设特征向量1为(a1,a2,a3,……,a12,a13)。
假设特征向量2为(b1,b2,b3,……,b39,b40)。
假设特征向量3为(c1,c2,c3,……,c9,c10)。
则对特征向量1、特征向量2和特征向量3进行融合之后的融合特征向量为:
(a1,a2,……,a13,b1,b2,……,b40,c1,c2,……,c9,c10)
由上可知,由于特征向量1的维度为13,特征向量2的维度为40,特征向量3的维度为10,因此,融合特征向量的维度为13+40+10=63。
需要说明的是,在实际应用过程中,可以预先设置融合规则,融合规则可以为:在进行特征融合时,第一声学特征类型的特征向量中的元素位于第二声学特征类型的特征向量中的元素之前。
可选的,融合规则可以为MFCC类型的特征向量中的元素位于Fbank类型的特征向量中的元素之前,Fbank类型的特征向量中的元素位于PLP类型的特征向量中的元素之前。
例如,假设至少两个特征向量包括MFCC类型的特征向量1、Fbank类型的特征向量2和PLP类型的特征向量3,则在进行特征融合时,先将特征向量2中的元素插入至特征向量1的元素之后,再将特征向量3中的元素插入至特征向量2中的元素之后。
需要说明的是,上述只是以示例的形式示意预设的融合规则,并非对融合规则的限定,在实际应用过程中,可以根据实际需要设置融合规则,本发明实施例对此不作具体限定。
在实际应用过程中,不同声学特征类型的特征向量中元素的量化尺度不同。
例如,MFCC类型的特征向量中的元素的量化尺度可以为0-100,即,MFCC类型的特征向量中的元素的取值在0至100之间。
例如,Fbank类型的特征向量中的元素的量化尺度可以为0-1,即,Fbank类型的特征向量中的元素的取值在0至1之间。
在进行特征融合时,若两个特征向量中元素的量化尺度不同,在后续通过预设模型对融合特征向量进行处理时,为了可以对融合特征向量中的各元素进行统一的处理,则需要为融合特征向量中不同的元素设置不同的权重值。而预设模型需要通过训练才能学习到权重值的设置,而权重值的设置很难通过训练学习得到。
在本申请中,为了便于后续对融合特征向量进行处理,可以先对需要进行融合的特征向量中的元素进行归一化处理,然后对归一化处理后的特征向量进行融合处理。
可选的,归一化处理是指,根据特征向量中的元素的量化尺度与预设量化尺度之间的关系,对特征向量中的元素进行处理,以使特征向量中的元素的量化尺度为预设量化尺度。
可选的,预设量化尺度可以为0-1,或0-10,或0-100,当然,在实际应用过程中,可以根据实际需要设置预设量化尺度,本发明实施例对此不作具体下定。
例如,假设至少两个特征向量的个数为三个,分别记为特征向量1、特征向量2和特征向量3,假设特征向量1中元素的量化尺度为0-100,特征向量2中元素的量化尺度为0-10,特征向量3中的元素的量化尺度为0-1。再假设特征向量1-特征向量3分别如下所示:
特征向量1:(20,22,52,78,12,90)。
特征向量2:(2,4,3,7,2,1,6,8)。
特征向量3:(0.1,0.25,0.3,0.6,0.2,0.5)。
假设预设量化尺度为0-1,则需要对特征向量1和特征向量2进行归一化处理,归一化处理后的特征向量1和特征向量2如下所示:
特征向量1:(0.2,0.22,0.52,0.78,0.12,0.9)。
特征向量2:(0.2,0.4,0.3,0.7,0.2,0.1,0.6,0.8)。
对归一化处理后的特征向量进行特征融合之后的融合特征向量为:
(0.2,0.22,0.52,0.78,0.12,0.9,0.2,0.4,0.3,0.7,0.2,0.1,0.6,0.8,0.1,0.25,0.3,0.6,0.2,0.5)。
S203、根据融合特征向量,获取音频帧的标签值,标签值用于指示音频帧中语音信号与噪声信号的功率比。
可选的,音频标签值为根据音频帧中语音信号在各频率点的功率、和噪声信号在各频率点的功率确定的。
可选的,音频帧的标签值为:
其中,f为音频帧的频域点的标号,为音频帧中频点f处的语音信号的功率,为音频帧中频点f处的噪声信号的功率。
可选的,可以根据预设模型,对融合特征向量进行处理,得到音频帧的标签值。
其中,预设模型为通过深度神经网络对多组样本进行学习得到的,每组样本包括融合特征向量样本和对应的标签值样本,融合特征向量样本为对至少两种声学特征类型的特征向量样本融合处理得到的。
可选的,可以通过如下可行的实现方式学习得到预设模型:先获取多个样本语音帧,提取每个样本语音帧的至少两种声学特征类型的特征向量样本,对至少两种声学特征类型的特征向量样本进行融合处理,得到融合特征向量样本,通过预设算法获取每个融合特征向量样本对应的标签值样本。通过深度神经网络对多个融合特征向量和每一个融合特征向量对应的标签值样本进行学习,得到预设模型。
需要说明的是,若预设模型还可以对至少两个特征向量进行融合处理,则在训练预设模型时,每组样本包括一个语音帧的至少两个特征向量样本、及对应的标签值样本,该至少两个特征向量样本的声学特征类型不同。并通过深度神经网络对每组样本进行学习,得到预设模型。
S204、根据音频帧的标签值和音频帧中噪声信号的功率,确定音频帧的处理结果。
将音频帧的标签值和音频帧中信号噪声的功率的乘积确定为处理结果。
本发明实施例提供的声音处理方法,获取音频帧的至少两个特征向量,音频帧中包括语音信号和噪声信号,至少两个特征向量的声学特征类型不同;对至少两个特征向量进行融合处理,得到融合特征向量;根据融合特征向量,获取音频帧的标签值,标签值用于指示音频帧中语音信号与噪声信号的功率比;根据音频帧的标签值和音频帧中噪声信号的功率,对音频帧进行处理得到音频帧的处理结果。在上述过程中,每种声学特征类型的特征向量均可以对音频帧中的噪声信号进行刻画,只是每种声学特征类型的特征向量从不同的角度对噪声信号的刻画,使得每种声学特征类型的特征向量对噪声信号的刻画均有利有弊。通过将多种声学特征类型的特征向量进行融合,使得融合后的融合特征向量可以更加全面的刻画音频帧中的噪声信号,这样,预设模型根据融合特征向量可以对音频帧中的噪声进行更加全面的抑制,进而提高对噪声的抑制效果。
在图2所示实施例的基础上,可选的,当预设模型不同时,对音频帧的处理过程也不同,下面,结合图3-图7所示的处理流程,通过具体示例对音频帧的处理过程进行说明。
图3为本发明实施例提供的处理流程示意图一。请参见图3,预设模型包括卷积层、神经网络和输出层。
假设对音频帧提取得到第一特征向量、第二特征向量和第三特征向量。可选的,第一特征向量为MFCC类型的特征向量,第二特征向量为Fbank类型的特征向量,第三特征向量为PLP类型的特征向量。对第一特征向量、第二特征向量和第三特征向量进行特征融合,得到融合特征向量。
向预设模型输入融合特征向量,预设模型通过卷积层、神经网络层和输出层对融合特征向量进行处理得到音频帧的标签值,并输出音频帧的标签值。
在预设模型输出音频帧的标签值之后,可以将音频帧的标签值乘以音频帧中噪声信号的功率,以得到音频帧的处理结果。
图4为本发明实施例提供的处理流程示意图二。请参见图4,预设模型包括特征融合层、卷积层、神经网络和输出层。
假设对音频帧提取得到第一特征向量、第二特征向量和第三特征向量。可选的,第一特征向量为MFCC类型的特征向量,第二特征向量为Fbank类型的特征向量,第三特征向量为PLP类型的特征向量。
向预设模型输入第一特征向量、第二特征向量和第三特征向量,预设模块通过特征融合层,对第一特征向量、第二特征向量和第三特征向量进行特征融合,得到融合特征向量,并通过卷积层、神经网络层和输出层对融合特征向量进行处理得到音频帧的标签值,并输出音频帧的标签值。
在预设模型输出音频帧的标签值之后,可以将音频帧的标签值乘以音频帧中噪声信号的功率,以得到音频帧的处理结果。
图5为本发明实施例提供的处理流程示意图三。请参见图5,预设模型包括卷积层、神经网络和输出层。
假设对音频帧提取得到第一特征向量、第二特征向量和第三特征向量。可选的,第一特征向量为MFCC类型的特征向量,第二特征向量为Fbank类型的特征向量,第三特征向量为PLP类型的特征向量。分别对第一特征向量、第二特征向量和第三特征向量进行归一化处理,然后将归一化处理后的特征向量进行特征融合,得到融合特征向量。
向预设模型输入融合特征向量,预设模型通过卷积层、神经网络层和输出层对融合特征向量进行处理得到音频帧的标签值,并输出音频帧的标签值。
在预设模型输出音频帧的标签值之后,可以将音频帧的标签值乘以音频帧中噪声信号的功率,以得到音频帧的处理结果。
图6为本发明实施例提供的处理流程示意图四。请参见图6,预设模型包括特征融合层、卷积层、神经网络和输出层。
假设对音频帧提取得到第一特征向量、第二特征向量和第三特征向量。可选的,第一特征向量为MFCC类型的特征向量,第二特征向量为Fbank类型的特征向量,第三特征向量为PLP类型的特征向量。分别对第一特征向量、第二特征向量和第三特征向量进行归一化处理。
向预设模型输入归一化处理后的各个特征向量,通过预设模型的特征融合层对归一化处理后的特征向量进行特征融合,得到融合特征向量,并通过卷积层、神经网络层和输出层对融合特征向量进行处理得到音频帧的标签值,并输出音频帧的标签值。
在预设模型输出音频帧的标签值之后,可以将音频帧的标签值乘以音频帧中噪声信号的功率,以得到音频帧的处理结果。
图7为本发明实施例提供的处理流程示意图四。请参见图6,预设模型包括归一化处理层特征融合层、卷积层、神经网络和输出层。
假设对音频帧提取得到第一特征向量、第二特征向量和第三特征向量。可选的,第一特征向量为MFCC类型的特征向量,第二特征向量为Fbank类型的特征向量,第三特征向量为PLP类型的特征向量。
向预设模型输入第一特征向量、第二特征向量和第三特征向量,通过预设模型的归一化处理层分别对第一特征向量、第二特征向量和第三特征向量进行归一化处理,通过预设模型的特征融合层对归一化处理后的特征向量进行特征融合,得到融合特征向量,并通过卷积层、神经网络层和输出层对融合特征向量进行处理得到音频帧的标签值,并输出音频帧的标签值。
在预设模型输出音频帧的标签值之后,可以将音频帧的标签值乘以音频帧中噪声信号的功率,以得到音频帧的处理结果。
在图3-图7任一个实施例中,由于每种声学特征类型的特征向量均可以对音频帧中的噪声信号进行刻画,只是每种声学特征类型的特征向量从不同的角度对噪声信号的刻画,使得每种声学特征类型的特征向量对噪声信号的刻画均有利有弊。通过将多种声学特征类型的特征向量进行融合,使得融合后的融合特征向量可以更加全面的刻画音频帧中的噪声信号,这样,预设模型根据融合特征向量可以对音频帧中的噪声进行更加全面的抑制,进而提高对噪声的抑制效果。
图8为本发明实施例提供的声音处理装置的结构示意图一。请参见图8,该装置可以包括第一获取模块11、融合模块12、第二获取模块13和确定模块14,其中,
所述第一获取模块11用于,获取音频帧的至少两个特征向量,所述音频帧中包括语音信号和噪声信号,所述至少两个特征向量的声学特征类型不同;
所述融合模块12用于,对所述至少两个特征向量进行融合处理,得到融合特征向量;
所述第二获取模块13用于,根据所述融合特征向量,获取所述音频帧的标签值,所述标签值用于指示所述音频帧中语音信号与噪声信号的功率比;
所述确定模块14用于,根据所述音频帧的标签值和所述音频帧中噪声信号的功率,确定所述音频帧的处理结果。
本发明实施例提供的声音处理装置可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。
在一种可能的实施方式中,所述至少两个特征向量包括第一特征向量和第二特征向量;所述融合模块12具体用于:
将第二特征向量中的元素插入至所述第一特征向量,得到所述融合特征向量,其中,所述融合特征向量中元素的个数为所述第一特征向量中元素的个数与第二特征向量中元素的个数之和。
在另一种可能的实施方式中,所述融合模块12具体用于:
在第一特征向量的尾部依次插入所述第二特征向量中的元素。
图9为本发明实施例提供的声音处理装置的结构示意图二。请参见图9,该装置还可以包括归一化处理模块15,其中,
所述归一化处理模块15用于,在所述融合模块12将第二特征向量中的元素插入至所述第一特征向量之前,对所述第一特征向量中的元素进行归一化处理;对所述第二特征向量中的元素进行归一化处理。
在另一种可能的实施方式中,所述第二获取模块13具体用于:
根据预设模型,对所述融合特征向量进行处理,得到所述音频帧的标签值;
其中,所述预设模型为通过深度神经网络对多组样本进行学习得到的,每组样本包括融合特征向量样本和对应的标签值样本,所述融合特征向量样本为对至少两种声学特征类型的特征向量样本融合处理得到的。
在另一种可能的实施方式中,所述音频标签值为根据所述音频帧中语音信号在各频率点的功率、和噪声信号在各频率点的功率确定的。
在另一种可能的实施方式中,所述确定模块14具体用于:
将所述音频帧的标签值和所述音频帧中信号噪声的功率的乘积确定为所述音频帧的处理结果。
在另一种可能的实施方式中,所述至少两个特征向量的声学特征类型包括如下声学特征类型中的至少两种:
梅尔频率倒谱系数MFCC类型、滤波器组Fbank类型和线性预测分析PLP类型。
本发明实施例提供的声音处理装置可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。
本发明实施例提供一种终端设备,包括:处理器,所述处理器与存储器耦合;
所述存储器用于,存储计算机程序;
所述处理器用于,执行所述存储器中存储的计算机程序,以使得所述终端设备执行上述任意方法实施例所述的方法。
本发明实施例提供一种可读存储介质,包括程序或指令,当所述程序或指令在计算机上运行时,如上述任意方法实施例所述的方法被执行。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例方案的范围。

Claims (18)

1.一种声音处理方法,其特征在于,包括:
获取音频帧的至少两个特征向量,所述音频帧中包括语音信号和噪声信号,所述至少两个特征向量的声学特征类型不同;
对所述至少两个特征向量进行融合处理,得到融合特征向量;
根据所述融合特征向量,获取所述音频帧的标签值,所述标签值用于指示所述音频帧中语音信号与噪声信号的功率比;
根据所述音频帧的标签值和所述音频帧中噪声信号的功率,确定所述音频帧的处理结果。
2.根据权利要求1所述的方法,其特征在于,所述至少两个特征向量包括第一特征向量和第二特征向量;所述对所述至少两个特征向量进行融合处理,得到融合特征向量,包括:
将第二特征向量中的元素插入至所述第一特征向量,得到所述融合特征向量,其中,所述融合特征向量中元素的个数为所述第一特征向量中元素的个数与第二特征向量中元素的个数之和。
3.根据权利要求2所述的方法,其特征在于,将第二特征向量中的元素插入至所述第一特征向量,包括:
在第一特征向量的尾部依次插入所述第二特征向量中的元素。
4.根据权利要求2或3所述的方法,其特征在于,所述将第二特征向量中的元素插入至所述第一特征向量之前,还包括:
对所述第一特征向量中的元素进行归一化处理;
对所述第二特征向量中的元素进行归一化处理。
5.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述融合特征向量,获取所述音频帧的标签值,包括:
根据预设模型,对所述融合特征向量进行处理,得到所述音频帧的标签值;
其中,所述预设模型为通过深度神经网络对多组样本进行学习得到的,每组样本包括融合特征向量样本和对应的标签值样本,所述融合特征向量样本为对至少两种声学特征类型的特征向量样本融合处理得到的。
6.根据权利要求1-3任一项所述的方法,其特征在于,所述音频标签值为根据所述音频帧中语音信号在各频率点的功率、和噪声信号在各频率点的功率确定的。
7.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述音频帧的标签值和所述音频帧中噪声信号的功率,对所述音频帧进行处理得到所述音频帧的处理结果,包括:
将所述音频帧的标签值和所述音频帧中信号噪声的功率的乘积确定为所述音频帧的处理结果。
8.根据权利要求1-3任一项所述的方法,其特征在于,所述至少两个特征向量的声学特征类型包括如下声学特征类型中的至少两种:
梅尔频率倒谱系数MFCC类型、滤波器组Fbank类型和线性预测分析PLP类型。
9.一种声音处理装置,其特征在于,包括第一获取模块、融合模块、第二获取模块和确定模块,其中,
所述第一获取模块用于,获取音频帧的至少两个特征向量,所述音频帧中包括语音信号和噪声信号,所述至少两个特征向量的声学特征类型不同;
所述融合模块用于,对所述至少两个特征向量进行融合处理,得到融合特征向量;
所述第二获取模块用于,根据所述融合特征向量,获取所述音频帧的标签值,所述标签值用于指示所述音频帧中语音信号与噪声信号的功率比;
所述确定模块用于,根据所述音频帧的标签值和所述音频帧中噪声信号的功率,确定所述音频帧的处理结果。
10.根据权利要求9所述的装置,其特征在于,所述至少两个特征向量包括第一特征向量和第二特征向量;所述融合模块具体用于:
将第二特征向量中的元素插入至所述第一特征向量,得到所述融合特征向量,其中,所述融合特征向量中元素的个数为所述第一特征向量中元素的个数与第二特征向量中元素的个数之和。
11.根据权利要求10所述的装置,其特征在于,所述融合模块具体用于:
在第一特征向量的尾部依次插入所述第二特征向量中的元素。
12.根据权利要求10或11所述的装置,其特征在于,所述装置还包括归一化处理模块,其中,
所述归一化处理模块用于,在所述融合模块将第二特征向量中的元素插入至所述第一特征向量之前,对所述第一特征向量中的元素进行归一化处理;对所述第二特征向量中的元素进行归一化处理。
13.根据权利要求9-11任一项所述的装置,其特征在于,所述第二获取模块具体用于:
根据预设模型,对所述融合特征向量进行处理,得到所述音频帧的标签值;
其中,所述预设模型为通过深度神经网络对多组样本进行学习得到的,每组样本包括融合特征向量样本和对应的标签值样本,所述融合特征向量样本为对至少两种声学特征类型的特征向量样本融合处理得到的。
14.根据权利要求9-11任一项所述的装置,其特征在于,所述音频标签值为根据所述音频帧中语音信号在各频率点的功率、和噪声信号在各频率点的功率确定的。
15.根据权利要求9-11任一项所述的装置,其特征在于,所述确定模块具体用于:
将所述音频帧的标签值和所述音频帧中信号噪声的功率的乘积确定为所述音频帧的处理结果。
16.根据权利要求9-11任一项所述的装置,其特征在于,所述至少两个特征向量的声学特征类型包括如下声学特征类型中的至少两种:
梅尔频率倒谱系数MFCC类型、滤波器组Fbank类型和线性预测分析PLP类型。
17.一种终端设备,其特征在于,包括:处理器,所述处理器与存储器耦合;
所述存储器用于,存储计算机程序;
所述处理器用于,执行所述存储器中存储的计算机程序,以使得所述终端设备执行权利要求1-8任一项所述的方法。
18.一种可读存储介质,其特征在于,包括程序或指令,当所述程序或指令在计算机上运行时,权利要求1-8任一项所述的方法被执行。
CN201810775907.3A 2018-07-16 2018-07-16 声音处理方法、装置及设备 Active CN108922556B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810775907.3A CN108922556B (zh) 2018-07-16 2018-07-16 声音处理方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810775907.3A CN108922556B (zh) 2018-07-16 2018-07-16 声音处理方法、装置及设备

Publications (2)

Publication Number Publication Date
CN108922556A CN108922556A (zh) 2018-11-30
CN108922556B true CN108922556B (zh) 2019-08-27

Family

ID=64410283

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810775907.3A Active CN108922556B (zh) 2018-07-16 2018-07-16 声音处理方法、装置及设备

Country Status (1)

Country Link
CN (1) CN108922556B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110047504B (zh) * 2019-04-18 2021-08-20 东华大学 身份矢量x-vector线性变换下的说话人识别方法
CN113393847B (zh) * 2021-05-27 2022-11-15 杭州电子科技大学 基于Fbank特征和MFCC特征融合的声纹识别方法

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101366078A (zh) * 2005-10-06 2009-02-11 Dts公司 从单音音频信号分离音频信源的神经网络分类器
CN101548313A (zh) * 2006-11-16 2009-09-30 国际商业机器公司 话音活动检测系统和方法
EP2226794A1 (en) * 2009-03-06 2010-09-08 Harman Becker Automotive Systems GmbH Background Noise Estimation
CN104183240A (zh) * 2014-08-19 2014-12-03 中国联合网络通信集团有限公司 一种声纹特征融合方法及装置
CN104835507A (zh) * 2015-03-30 2015-08-12 渤海大学 一种串并结合的多模式情感信息融合与识别方法
CN104835498A (zh) * 2015-05-25 2015-08-12 重庆大学 基于多类型组合特征参数的声纹识别方法
CN104867495A (zh) * 2013-08-28 2015-08-26 德州仪器公司 上下文感知的声音标志检测
CN104900235A (zh) * 2015-05-25 2015-09-09 重庆大学 基于基音周期混合特征参数的声纹识别方法
CN105448290A (zh) * 2015-11-16 2016-03-30 南京邮电大学 一种变帧率的音频特征提取方法
CN106205636A (zh) * 2016-07-07 2016-12-07 东南大学 一种基于mrmr准则的语音情感识别特征融合方法
CN106486131A (zh) * 2016-10-14 2017-03-08 上海谦问万答吧云计算科技有限公司 一种语音去噪的方法及装置
CN106782500A (zh) * 2016-12-23 2017-05-31 电子科技大学 一种基于基音周期和mfcc的融合特征参数提取方法
CN107112011A (zh) * 2014-12-22 2017-08-29 英特尔公司 用于音频特征提取的倒谱方差归一化
CN107610692A (zh) * 2017-09-22 2018-01-19 杭州电子科技大学 基于神经网络堆叠自编码器多特征融合的声音识别方法
CN108108357A (zh) * 2018-01-12 2018-06-01 京东方科技集团股份有限公司 口音转换方法及装置、电子设备
CN108198547A (zh) * 2018-01-18 2018-06-22 深圳市北科瑞声科技股份有限公司 语音端点检测方法、装置、计算机设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6189831B2 (ja) * 2011-05-13 2017-08-30 サムスン エレクトロニクス カンパニー リミテッド ビット割り当て方法及び記録媒体

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101366078A (zh) * 2005-10-06 2009-02-11 Dts公司 从单音音频信号分离音频信源的神经网络分类器
CN101548313A (zh) * 2006-11-16 2009-09-30 国际商业机器公司 话音活动检测系统和方法
EP2226794A1 (en) * 2009-03-06 2010-09-08 Harman Becker Automotive Systems GmbH Background Noise Estimation
CN104867495A (zh) * 2013-08-28 2015-08-26 德州仪器公司 上下文感知的声音标志检测
CN104183240A (zh) * 2014-08-19 2014-12-03 中国联合网络通信集团有限公司 一种声纹特征融合方法及装置
CN107112011A (zh) * 2014-12-22 2017-08-29 英特尔公司 用于音频特征提取的倒谱方差归一化
CN104835507A (zh) * 2015-03-30 2015-08-12 渤海大学 一种串并结合的多模式情感信息融合与识别方法
CN104900235A (zh) * 2015-05-25 2015-09-09 重庆大学 基于基音周期混合特征参数的声纹识别方法
CN104835498A (zh) * 2015-05-25 2015-08-12 重庆大学 基于多类型组合特征参数的声纹识别方法
CN105448290A (zh) * 2015-11-16 2016-03-30 南京邮电大学 一种变帧率的音频特征提取方法
CN106205636A (zh) * 2016-07-07 2016-12-07 东南大学 一种基于mrmr准则的语音情感识别特征融合方法
CN106486131A (zh) * 2016-10-14 2017-03-08 上海谦问万答吧云计算科技有限公司 一种语音去噪的方法及装置
CN106782500A (zh) * 2016-12-23 2017-05-31 电子科技大学 一种基于基音周期和mfcc的融合特征参数提取方法
CN107610692A (zh) * 2017-09-22 2018-01-19 杭州电子科技大学 基于神经网络堆叠自编码器多特征融合的声音识别方法
CN108108357A (zh) * 2018-01-12 2018-06-01 京东方科技集团股份有限公司 口音转换方法及装置、电子设备
CN108198547A (zh) * 2018-01-18 2018-06-22 深圳市北科瑞声科技股份有限公司 语音端点检测方法、装置、计算机设备和存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"A comparative study of different speech features for arabic phonemes";Ali Meftah;《2016 European Modelling Symposium》;20161230;全文 *
"Speech recognition features:comparison studies on robustness against environmental distortions";Achmad F .Abka;《IC3INA》;20151007;全文 *
"水下冲击噪声换江夏基于多特征融合的信号调制方式识别";赵自璐;《厦门大学学报(自然科学版)》;20170531;第56卷(第3期);全文 *

Also Published As

Publication number Publication date
CN108922556A (zh) 2018-11-30

Similar Documents

Publication Publication Date Title
CN108630193B (zh) 语音识别方法及装置
CN106504768B (zh) 基于人工智能的电话拨测音频分类方法及装置
WO2021128741A1 (zh) 语音情绪波动分析方法、装置、计算机设备及存储介质
CN108899047B (zh) 音频信号的掩蔽阈值估计方法、装置及存储介质
CN110211565A (zh) 方言识别方法、装置及计算机可读存储介质
CN110600017A (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
WO2017218465A1 (en) Neural network-based voiceprint information extraction method and apparatus
Demircan et al. Feature extraction from speech data for emotion recognition
CN110060665A (zh) 语速检测方法及装置、可读存储介质
CN108648769A (zh) 语音活性检测方法、装置及设备
CN108986798B (zh) 语音数据的处理方法、装置及设备
CN111243602A (zh) 基于性别、国籍和情感信息的声纹识别方法
CN110956957A (zh) 语音增强模型的训练方法及系统
CN107369439A (zh) 一种语音唤醒方法和装置
CN109036460A (zh) 基于多模型神经网络的语音处理方法和装置
CN111916111A (zh) 带情感的智能语音外呼方法及装置、服务器、存储介质
CN108922556B (zh) 声音处理方法、装置及设备
CN114127849A (zh) 语音情感识别方法和装置
CN108564956A (zh) 一种声纹识别方法和装置、服务器、存储介质
CN110931045A (zh) 基于卷积神经网络的音频特征生成方法
CN106297769B (zh) 一种应用于语种识别的鉴别性特征提取方法
CN109545226A (zh) 一种语音识别方法、设备及计算机可读存储介质
CN110176243A (zh) 语音增强方法、模型训练方法、装置和计算机设备
Li et al. PF-Net: Personalized Filter for Speaker Recognition from Raw Waveform
CN115985347B (zh) 基于深度学习的语音端点检测方法、装置和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant