CN110875037A - 语音数据处理方法、装置及电子设备 - Google Patents
语音数据处理方法、装置及电子设备 Download PDFInfo
- Publication number
- CN110875037A CN110875037A CN201911136655.0A CN201911136655A CN110875037A CN 110875037 A CN110875037 A CN 110875037A CN 201911136655 A CN201911136655 A CN 201911136655A CN 110875037 A CN110875037 A CN 110875037A
- Authority
- CN
- China
- Prior art keywords
- voice
- features
- feature
- speech
- voice data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 11
- 238000012545 processing Methods 0.000 claims abstract description 124
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims description 47
- 238000001228 spectrum Methods 0.000 claims description 26
- 230000009466 transformation Effects 0.000 claims description 24
- 238000010606 normalization Methods 0.000 claims description 23
- 238000003062 neural network model Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 8
- 238000009432 framing Methods 0.000 claims description 7
- 230000002441 reversible effect Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 10
- 239000013598 vector Substances 0.000 description 31
- 230000002457 bidirectional effect Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000002829 reductive effect Effects 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005034 decoration Methods 0.000 description 2
- 235000019800 disodium phosphate Nutrition 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请实施例提供了一种语音数据处理方法、装置及电子设备,涉及计算机技术领域。该方法包括:首先获取待处理语音数据,然后从待处理语音数据中提取说话人的语音特征和身份特征;基于语音特征和身份特征,得到语音增强处理后的语音特征,基于语音增强处理后的语音特征,得到待处理语音数据对应的增强语音数据。本申请技术方案,在进行语音增强处理时,除了基于待处理语音数据的语音特征外,还提取了能够表征说话人的语音特性的身份特征,从而能够基于说话人语音特性进行语音增强,有效提高语音增强效果。
Description
技术领域
本申请涉及计算机技术领域,具体而言,本申请涉及一种语音数据处理方法、装置及电子设备。
背景技术
语音增强(Speech Enhancement)是指去除语音信号中的噪声,得到干净的语音信号。实际生活场景中,麦克风采集的语音信号通常是带有不同噪声以及混响的语音信号,其中混响主要是由于房间中的墙壁及各种物体的反射带来的干扰信号,不同的房间类型以及材料决定了混响的程度和房间混响的单位冲激响应。语音增强的主要目的就是将包含噪声的语音恢复成原始的干净语音。通过语音增强可以有效抑制各种干扰信号,增强目标语音信号,不仅可以提高语音可懂度和话音质量,还有助于提高语音识别的准确性。
现有技术中,一般通过使用许多不同人的声音作为训练数据,即说话人无关(speaker independent,SI)训练,提取语音数据的语音特征,训练高斯混合模型(GaussianMixture Models,GMM),训练得到的GMM会涵盖所有人的特征向量,所以在测试时,对于一个新的说话人,也可以期望这个GMM能够涵盖他的特征向量。由于GMM不是说话人本人的语音训练所得的,采用该模型进行语音增强,效果较差。
发明内容
本申请提供了一种语音数据处理方法、装置及电子设备,可以解决现有技术中存在的问题。
本申请实施例提供的具体技术方案如下:
第一方面,本申请实施例提供了一种语音数据处理方法,该方法包括:
获取待处理语音数据;
从待处理语音数据中提取说话人的语音特征和身份特征;
基于语音特征和身份特征,得到语音增强处理后的语音特征;
基于语音增强处理后的语音特征,得到待处理语音数据对应的增强语音数据。
在一种可能的实现方式中,基于语音特征和身份特征,得到语音增强处理后的语音特征,包括:
将语音特征和身份特征进行拼接,将拼接后的组合特征输入语音增强模型,得到语音增强处理后的语音特征。
在一种可能的实现方式中,语音增强模型是通过以下方式训练得到的:
获取训练样本集,训练样本集包括增强处理前的各样本组合特征,以及增强处理前的各样本组合特征各自对应的目标样本组合特征;
基于增强处理前的各样本组合特征对初始神经网络模型进行训练,直至初始神经网络模型的损失函数收敛,将训练结束时的神经网络模型作为语音增强模型,其中,损失函数的值表征了语音增强模型输出的语音特征和对应的目标样本组合特征的差异。
在一种可能的实现方式中,增强处理前的各样本组合特征是由增强处理前的样本语音特征和对应的身份特征拼接得到的,目标样本组合特征是由样本语音特征所对应的目标样本语音特征和对应的身份特征拼接得到的;
样本语音特征是从带噪声的样本语音数据中提取的,目标样本语音特征和身份特征是从不带噪声的样本语音数据中提取的。
在一种可能的实现方式中,将语音特征和身份特征进行拼接,将拼接后的组合特征输入语音增强模型,得到语音增强处理后语音特征,包括:
将语音特征和身份特征进行拼接,并对拼接后的组合特征进行归一化处理;
将归一化处理后的组合特征输入语音增强模型,得到语音增强处理后的语音特征;
基于语音增强处理后的语音特征,得到待处理语音数据对应的增强语音数据,包括:
将语音增强处理后的语音特征进行反归一化处理;
基于反归一化处理后的语音特征,得到待处理语音数据对应的增强语音数据。
在一种可能的实现方式中,从待处理语音数据中提取说话人的语音特征和身份特征,包括:
将待处理语音数据进行时频变换,基于时频变换之后的语音数据,提取说话人的语音特征和身份特征;
基于语音增强处理后的语音特征,得到待处理语音数据对应的增强语音数据,包括:
将语音增强处理后的语音特征进行时频变换,得到待处理语音数据对应的增强语音数据。
在一种可能的实现方式中,语音特征包括以下至少一项:
对数功率谱、梅尔频率倒谱系数(Mel-scale Frequency CepstralCoefficients,MFCC)。
在一种可能的实现方式中,当语音特征为对数功率谱时,从待处理语音数据中提取说话人的语音特征,包括:
将待处理语音数据进行分帧和加窗处理;
对处理之后的每一帧语音数据进行时频变换;
获取时频变换之后的语音数据的离散功率谱;
基于离散功率谱,得到待处理语音数据的对数功率谱。
第二方面,提供了一种语音数据处理装置,该装置包括:
获取模块,用于获取待处理语音数据;
提取模块,用于从待处理语音数据中提取说话人的语音特征和身份特征;
第一确定模块,用于基于语音特征和身份特征,得到语音增强处理后的语音特征;
第二确定模块,用于基于语音增强处理后的语音特征,得到待处理语音数据对应的增强语音数据。
第三方面,提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行根据第一方面或者第一方面任一可能的实现方式所示的语音数据处理方法。
本申请提供的技术方案带来的有益效果是:
本申请提供了一种语音数据处理方法、装置及电子设备,首先获取待处理语音数据,然后从待处理语音数据中提取说话人的语音特征和身份特征;基于语音特征和身份特征,得到语音增强处理后的语音特征,基于语音增强处理后的语音特征,得到待处理语音数据对应的增强语音数据。本申请技术方案,在进行语音增强处理时,除了基于待处理语音数据的语音特征外,还提取了能够表征说话人的语音特性的身份特征,从而能够基于说话人语音特性进行语音增强,有效提高语音增强效果。此外,由于是基于所提取的语音特征和身份特征,共同实现语音增强,因此,在通过语音增强模型实现该增强处理时,可以无需采用与说话人相关的训练,即无需针对每个说话人分别训练对应的语音增强模型,能够大大减少训练数据,提高模型的训练速度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种语音数据处理方法的流程图;
图2为本申请实施例提供的从待处理语音数据中提取说话人身份特征的示意图;
图3为本申请实施例提供的语音数据从时域到频域变换的示意图;
图4为本申请实施例提供的语音特征和身份特征拼接的示意图;
图5为本申请实施例提供的利用语音增强模型进行语音增强的示意图;
图6为本申请实施例提供的语音数据处理装置的结构示意图;
图7为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
现有技术中对语音数据进行增强处理,除了通过SI训练的模型之外,还可以通过说话人相关(speaker dependent,SD)训练的模型来实现,即对于每个人的每个音都训练一个GMM来拟合数据。在测试时,对于每个说话人,使用自己的模型来识别。由于使用的GMM都是由说话人本人的数据来训练的,所以采用SD训练的模型进行语音增强,相对SI训练的模型好得多。然而,SD训练过程中,需要采集大量的数据,需要使用说话人本人训练的模型才能实现语音增强。
对于SD训练的模型,存在着以下几个缺陷:
1、训练时,每个说话人都要采集大量的数据,工作量大;
2、测试时,需要知道说话人是谁,或者再使用一个说话人识别系统识别出说话人是谁,才能据此选择模型;
3、进行语音增强时,对于检测者,若训练中没有对该检测者的数据进行训练,那么无法识别出该测试者,无法对该测试者语音实现语音增强。
本申请技术方案由于是基于所提取的说话人的语音特征和身份特征,共同实现语音增强,因此,在通过语音增强模型实现该增强处理时,可以无需采用与说话人相关的训练,即无需针对每个说话人分别训练对应的语音增强模型,能够大大减少训练数据,提高模型的训练速度。
本申请技术方案的执行主体为计算机设备,包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等。计算机设备包括用户设备与网络设备。其中,用户设备包括但不限于电脑、智能手机、PAD等;网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或于云计算的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,计算机设备可单独运行来实现本申请,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本申请。其中,计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请实施例提供了一种语音数据处理方法,如图1所示,该方法包括:
步骤S101,获取待处理语音数据;
其中,待处理语音数据可以为包含噪声或混响的语音数据。噪声可以包括对待处理的说话人语音造成干扰的各种类型的声音,例如,机器设备产生的噪音、非待处理的其他人的语音等。可以利用声音采集设备获取语音数据,声音采集设备具体包括麦克风、录音设备等。
步骤S102,从待处理语音数据中提取说话人的语音特征和身份特征;
其中,身份特征(identity-vector,i-Vector)是指能够表征说话人语音特性的特征,可以包括但不限于说话人的语音的声纹特征。本申请技术方案在进行语音增强时,不需要利用该说话人的语音数据训练的模型,只是提取该说话人的语音特征和身份特征,而现有技术中需要利用该说话人的语音数据训练模型,也就是说需要针对每个人训练不同的模型,需要的样本数据量大,训练速度慢。
从待处理语音数据中提取i-Vector特征向量,具体的提取方式如下:
如图2所示,从待处理语音数据中提取语音特征(如图2所示的前端的语音特征),将语音特征输入混合高斯-通用背景模型(Gaussian Mixture Model-UniversalBackground Model,GMM-UBM),GMM-UBM将语音特征投影到高维空间上,训练高维的均值超矢量(如图2所示的训练高斯混元),计算高维的均值超矢量的后验概率,通过最大后验概率和最大期望EM算法获得总体变化子空间矩阵(如图2所示的训练T矩阵),在获取子空间矩阵的训练过程中,反复更新的先验分布,得到T。其中,为第i段语音信号的第t帧的语音特征。根据待处理语音数据确定与说话人和信道都无关的超向量,根据公式(1)确定i-Vector特征向量:
M=m+Tw (1)
其中,M表示GMM-UBM训练得到的均值超向量;m为与说话人和信道都无关的超向量;T表示总体变化子空间矩阵,是从高维空间到低维空间的映射;w表示提取后的i-vector特征向量。
在本申请的可选实施例中,语音特征包括以下至少一项:
对数功率谱、MFCC。
在实际应用中,提取待处理语音数据的语音特征和身份特征时,实际上是提取每一帧数据的语音特征和身份特征。对于语音特征,可以为对数功率谱或者MFCC,还可以为其他语音特征,本申请对此不做限定。
在本申请的可选实施例中,当语音特征为对数功率谱时,从待处理语音数据中提取说话人的语音特征,包括:
将待处理语音数据进行分帧和加窗处理;
对处理之后的每一帧语音数据进行时频变换;
获取时频变换之后的语音数据的离散功率谱;
基于离散功率谱,得到待处理语音数据的对数功率谱。
在一示例中,从待处理语音数据中提取对数功率谱,具体的提取方式如下:
对待处理语音数据进行分帧处理,先将N个采样点集合成一帧,N的值通常可以为256或512,涵盖的时间可以为20~30ms左右。为了避免相邻两帧的变化过大,因此会让两相邻帧之间有一段重叠区域,此重叠区域包含了M个取样点,通常M的值约为N的1/2或1/3。对分帧之后的语音数据进行加窗,目的是增加帧左端和右端的连续性。对加窗之后的语音数据进行时域到频域的变换,例如,快速傅里叶变换(Fast Fourier Transformation,FFT)等,如图3所示,图中标注“时域”的部分,每两个虚线表示一帧数据,图中1.5、2、2.5、3表示时间,单位为秒,帧之间有重叠,可以将1.5-2、1.75-2.25、2-2.5每个区间分为5帧,对数据分帧处理之后,对每一帧数据进行FFT,得到每一帧对应的频域数据(图中标注“频域”的部分),针对每一帧频域数据计算离散功率谱,然后对离散功率谱求对数,得到对数功率谱。
在提取对数功率谱的基础上,可以进一步的提取MFCC。
MFCC是在梅尔标度频率域提取出来的倒谱参数,梅尔标度描述了人耳频率的非线性特性,它与频率的关系可以用公式(2)近似表示:
其中,f表示频率。
对于待处理语音数据的MFCC的提取,可以通过对得到的语音数据的对数功率谱进行离散余弦变换来得到。采用MFCC作为语音特征更符合人耳的听觉特性,而且当信噪比降低时仍然具有较好的识别性能。
步骤S103,基于语音特征和身份特征,得到语音增强处理后的语音特征。
本申请技术方案,加入了说话人的身份特征,基于语音特征和身份特征对待处理语音数据进行语音增强,由于增加了说话人的语音特性作为依据,使得语音增强的效果更好。
在一种可能的实现方式中,基于语音特征和身份特征,得到语音增强处理后的语音特征,包括:
将语音特征和所述身份特征进行拼接,将拼接后的组合特征输入语音增强模型,得到语音增强处理后的语音特征。
在实际应用中,通过将说话人语音的i-Vector特征向量和语音特征进行组合,将组合后所得的特征向量输入语音增强模型,例如,双向长短期记忆(Long-Short TermMemory,LSTM)模型,通过双向LSTM模型的处理后,获得增强处理后的语音特征。
对于语音特征和身份特征的具体拼接方式,在一示例中,如图4所示,提取100帧说话人的语音数据,从各帧中获取到语音特征(图中所示的Speech Features)和i-Vector特征,语音特征每帧的维度为257,i-Vector特征的维度为100,得到组合特征的维度为357,将组合特征输入语音增强模型进行语音增强处理,输出增强处理后的语音特征。
在本申请实施例中,由于将包含身份特征的组合特征作为语音增强模型的输入,使得利用语音增强模型对说话人的语音进行增强的效果更好。
步骤S104,基于语音增强处理后的语音特征,得到待处理语音数据对应的增强语音数据。
对于语音增强模型输出的语音特征,不是能够直接播放的语音数据,还需要进一步处理。
在本申请的可选实施例中,将语音特征和身份特征进行拼接,将拼接后的组合特征输入语音增强模型,得到语音增强处理后语音特征,包括:
将语音特征和身份特征进行拼接,并对拼接后的组合特征进行归一化处理;
将归一化处理后的组合特征输入语音增强模型,得到语音增强处理后的语音特征;
基于语音增强处理后的语音特征,得到待处理语音数据对应的增强语音数据,包括:
将语音增强处理后的语音特征进行反归一化处理;
基于反归一化处理后的语音特征,得到待处理语音数据对应的增强语音数据。
在实际应用过程中,对语音特征和身份特征进行组合以后,可以进行归一化处理,将归一化处理之后的组合特征输入语音增强模型进行语音增强处理,例如,对不同特征维度进行伸缩变换,将特征向量调整到合适的概率分布范围。归一化处理的目的是使得各个特征维度对目标函数的影响权重一致。如果将归一化处理之后的组合特征输入语音增强模型,则模型输出时要得到语音增强数据,需要进行反归一化处理,最终得到增强语音数据。
在本申请的可选实施例中,从待处理语音数据中提取说话人的语音特征和身份特征,包括:
将待处理语音数据进行时频变换,基于时频变换之后的语音数据,提取说话人的语音特征和身份特征;
基于语音增强处理后的语音特征,得到待处理语音数据对应的增强语音数据,包括:
将语音增强处理后的语音特征进行时频变换,得到待处理语音数据对应的增强语音数据。
在实际应用中,在提取语音特征和身份特征之前,需要多语音数据进行时域到频域的变换,基于变换之后的频域数据,提取语音特征和身份特征,相应的,语音增强模型输出的增强之后的语音特征为高维特征向量,该高维特征向量为频域数据,需要将频域数据转换为时域数据,再次进行时频变换,例如,反傅里叶变换等,才能够得到增强之后的不含噪声的可以进行播放的语音数据。
在本申请的可选实施例中,语音增强模型是通过以下方式训练得到的:
获取训练样本集,训练样本集包括增强处理前的各样本组合特征,以及增强处理前的各样本组合特征各自对应的目标样本组合特征;
基于增强处理前的各样本组合特征对初始神经网络模型进行训练,直至初始神经网络模型的损失函数收敛,将训练结束时的神经网络模型作为语音增强模型,其中,损失函数的值表征了语音增强模型输出的语音特征和对应的目标样本组合特征的差异。
在实际应用中,初始神经网络模型可以为双向LSTM模型,对双向LSTM模型进行训练,调整双向LSTM模型中的参数,直到损失函数收敛,从而获得最终的双向LSTM模型,作为语音增强模型。
在本申请的可选实施例中,增强处理前的各样本组合特征是由增强处理前的样本语音特征和对应的身份特征拼接得到的,目标样本组合特征是由样本语音特征所对应的目标样本语音特征和对应的身份特征拼接得到的;样本语音特征是从带噪声的样本语音数据中提取的,目标样本语音特征和身份特征是从不带噪声的样本语音数据中提取的。
在实际应用中,增强处理前的各样本组合特征可以为从多个人的含噪声的语音数据提取出的组合特征,目标样本组合特征为对应的多个人的不含噪声的语音数据提取出的组合特征。
具体的,采集多个说话人(非待处理的语音数据的说话人,也就是用其他人的语音数据训练模型)的带噪声语音和不带噪声语音。其中,从带噪声语音提取语音特征a,从不带噪声语音中提取i-Vector特征和语音特征b。将i-Vector与语音特征a进行组合,得到组合特征向量a。将i-Vector和语音特征b进行组合,得到组合特征向量b。以组合特征向量a作为训练输入,组合特征向量b作为训练目标。
需要说明的是,本申请实施例中模型训练过程中的i-Vector特征是从不带噪声的语音数据中提取的,其实也可以从带噪声的语音数据中提取,而采用本实施例中的方案,能够提高模型的训练速度和稳定性,使语音增强的效果更好。
本申请技术方案中,在进行模型训练时,不需要采集每个说话人语音,降低了工作量;将各说话人语音作为训练样本,利用了各说话人语音之间的共同点对双向LSTM模型进行训练;测试时,不需要知道说话人是谁,无需选择特定的双向LSTM模型,直接根据采集的说话人的语音输入双向LSTM模型即可;进行语音增强时,无需采用检测者语音训练的双向LSTM模型,也可对检测者语音进行语音增强处理。
此外,由于训练双向LSTM模型时,添加了i-Vector特征作为输入,训练后所得的双向LSTM模型,具有预测其他各说话人的语音特性,从而提高SI模型的语音增强效果。
下面以一个具体的实施例对本申请技术方案的实现过程进行描述。
从目标环境中采集说话人的带噪声信号,从带噪声信号中提取出语音特征和i-Vector特征,将提取出来的语音特征和i-Vector特征进行拼接,到组合特征向量,并归一化处理。如图5所示,将归一化处理后的组合特征向量输入预训练的双向LSTM模型,进行语音增强处理。其中,双向LSTM模型是利用多个其他人的语音数据训练得到的。将双向LSTM模型的输出进行反归一化处理,以及特征逆变换(即时频变换),从而获得不带噪声的干净语音信号。
本申请实施例提供的语音数据处理方法,首先获取待处理语音数据;然后从待处理语音数据中提取说话人的语音特征和身份特征;基于语音特征和身份特征,得到待处理语音数据对应的增强语音数据。本申请技术方案,由于加入了说话人的身份特征,基于语音特征和身份特征对待处理语音数据进行语音增强,使得语音增强的效果更好。
基于与图1中所示方法相同的原理,本公开的实施例中还提供了一种语音数据处理装置60,如图6所示,该语音数据处理装置60包括:
获取模块61,用于获取待处理语音数据;
提取模块62,用于从待处理语音数据中提取说话人的语音特征和身份特征;
第一确定模块63,用于基于语音特征和身份特征,得到语音增强处理后的语音特征;
第二确定模块64,用于基于语音增强处理后的语音特征,得到待处理语音数据对应的增强语音数据。
在一种可能的实现方式中,第一确定模块63,用于:
将语音特征和身份特征进行拼接,将拼接后的组合特征输入语音增强模型,得到语音增强处理后的语音特征。
在一种可能的实现方式中,语音增强模型是通过以下方式训练得到的:
获取训练样本集,训练样本集包括增强处理前的各样本组合特征,以及增强处理前的各样本组合特征各自对应的目标样本组合特征;
基于增强处理前的各样本组合特征对初始神经网络模型进行训练,直至初始神经网络模型的损失函数收敛,将训练结束时的神经网络模型作为语音增强模型,其中,损失函数的值表征了语音增强模型输出的语音特征和对应的目标样本组合特征的差异。
在一种可能的实现方式中,增强处理前的各样本组合特征是由增强处理前的样本语音特征和对应的身份特征拼接得到的,目标样本组合特征是由样本语音特征所对应的目标样本语音特征和对应的身份特征拼接得到的;
样本语音特征是从带噪声的样本语音数据中提取的,目标样本语音特征和身份特征是从不带噪声的样本语音数据中提取的。
在一种可能的实现方式中,第一确定模块63,用于:
将语音特征和身份特征进行拼接,并对拼接后的组合特征进行归一化处理;
将归一化处理后的组合特征输入语音增强模型,得到语音增强处理后的语音特征;
第二确定模块64,用于:
将语音增强处理后的语音特征进行反归一化处理;
基于反归一化处理后的语音特征,得到待处理语音数据对应的增强语音数据。
在一种可能的实现方式中,提取模块62,用于:
将待处理语音数据进行时频变换,基于时频变换之后的语音数据,提取说话人的语音特征和身份特征;
第二确定模块64,用于:
将语音增强处理后的语音特征进行时频变换,得到待处理语音数据对应的增强语音数据。
在一种可能的实现方式中,语音特征包括以下至少一项:
对数功率谱、梅尔频率倒谱系数MFCC。
在一种可能的实现方式中,提取模块62,用于:
将待处理语音数据进行分帧和加窗处理;
对处理之后的每一帧语音数据进行时频变换;
获取时频变换之后的语音数据的离散功率谱;
基于离散功率谱,得到待处理语音数据的对数功率谱。
本公开实施例的语音数据处理装置可执行本公开的实施例所提供的语音数据处理方法,其实现原理相类似,本公开实施例中的语音数据处理装置中的各模块所执行的动作是与本公开各实施例中的语音数据处理方法中的步骤相对应的,对于语音数据处理装置的各模块的详细功能描述具体可以参见前文中所示的对应的语音数据处理方法中的描述,此处不再赘述。
本申请实施例提供的语音数据处理装置,首先获取待处理语音数据;然后从待处理语音数据中提取说话人的语音特征和身份特征;基于语音特征和身份特征,得到待处理语音数据对应的增强语音数据。本申请技术方案,由于加入了说话人的身份特征,基于语音特征和身份特征对待处理语音数据进行语音增强,使得语音增强的效果更好。
上述实施例从虚拟模块的角度介绍了语音数据处理装置,下述从实体模块的角度介绍一种电子设备,具体如下所示:
本申请实施例提供了一种电子设备,如图7所示,图7所示的电子设备5000包括:处理器5001和存储器5003。其中,处理器5001和存储器5003相连,如通过总线5002相连。可选地,电子设备5000还可以包括收发器5004。需要说明的是,实际应用中收发器5004不限于一个,该电子设备5000的结构并不构成对本申请实施例的限定。
处理器5001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器5001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线5002可包括一通路,在上述组件之间传送信息。总线5002可以是PCI总线或EISA总线等。总线5002可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器5003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器5003用于存储执行本申请方案的应用程序代码,并由处理器5001来控制执行。处理器5001用于执行存储器5003中存储的应用程序代码,以实现前述任一方法实施例所示的内容。
本申请实施例提供了一种电子设备,本申请实施例中的电子设备包括:存储器和处理器;至少一个程序,存储于所述存储器中,用于被所述处理器执行时,首先获取待处理语音数据,然后从待处理语音数据中提取说话人的语音特征和身份特征;基于语音特征和身份特征,得到语音增强处理后的语音特征,基于语音增强处理后的语音特征,得到待处理语音数据对应的增强语音数据。本申请技术方案,在进行语音增强处理时,除了基于待处理语音数据的语音特征外,还提取了能够表征说话人的语音特性的身份特征,从而能够基于说话人语音特性进行语音增强,有效提高语音增强效果。此外,由于是基于所提取的语音特征和身份特征,共同实现语音增强,因此,在通过语音增强模型实现该增强处理时,可以无需采用与说话人相关的训练,即无需针对每个说话人分别训练对应的语音增强模型,能够大大减少训练数据,提高模型的训练速度。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。首先获取待处理语音数据,然后从待处理语音数据中提取说话人的语音特征和身份特征;基于语音特征和身份特征,得到语音增强处理后的语音特征,基于语音增强处理后的语音特征,得到待处理语音数据对应的增强语音数据。本申请技术方案,在进行语音增强处理时,除了基于待处理语音数据的语音特征外,还提取了能够表征说话人的语音特性的身份特征,从而能够基于说话人语音特性进行语音增强,有效提高语音增强效果。此外,由于是基于所提取的语音特征和身份特征,共同实现语音增强,因此,在通过语音增强模型实现该增强处理时,可以无需采用与说话人相关的训练,即无需针对每个说话人分别训练对应的语音增强模型,能够大大减少训练数据,提高模型的训练速度。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种语音数据处理方法,其特征在于,所述方法包括:
获取待处理语音数据;
从所述待处理语音数据中提取说话人的语音特征和身份特征;
基于所述语音特征和身份特征,得到语音增强处理后的语音特征;
基于所述语音增强处理后的语音特征,得到所述待处理语音数据对应的增强语音数据。
2.根据权利要求1所述的方法,其特征在于,所述基于所述语音特征和身份特征,得到语音增强处理后的语音特征,包括:
将所述语音特征和所述身份特征进行拼接,将拼接后的组合特征输入语音增强模型,得到语音增强处理后的语音特征。
3.根据权利要求2所述的方法,其特征在于,所述语音增强模型是通过以下方式训练得到的:
获取训练样本集,所述训练样本集包括增强处理前的各样本组合特征,以及增强处理前的各样本组合特征各自对应的目标样本组合特征;
基于所述增强处理前的各样本组合特征对初始神经网络模型进行训练,直至所述初始神经网络模型的损失函数收敛,将训练结束时的神经网络模型作为语音增强模型,其中,所述损失函数的值表征了所述语音增强模型输出的语音特征和对应的目标样本组合特征的差异。
4.根据权利要求3所述的方法,其特征在于,所述增强处理前的各样本组合特征是由增强处理前的样本语音特征和对应的身份特征拼接得到的,所述目标样本组合特征是由所述样本语音特征所对应的目标样本语音特征和对应的所述身份特征拼接得到的;
所述样本语音特征是从带噪声的样本语音数据中提取的,所述目标样本语音特征和所述身份特征是从不带噪声的样本语音数据中提取的。
5.根据权利要求2所述的方法,其特征在于,将所述语音特征和所述身份特征进行拼接,将拼接后的组合特征输入语音增强模型,得到语音增强处理后语音特征,包括:
将所述语音特征和所述身份特征进行拼接,并对拼接后的组合特征进行归一化处理;
将归一化处理后的组合特征输入所述语音增强模型,得到语音增强处理后的语音特征;
所述基于所述语音增强处理后的语音特征,得到所述待处理语音数据对应的增强语音数据,包括:
将所述语音增强处理后的语音特征进行反归一化处理;
基于反归一化处理后的语音特征,得到所述待处理语音数据对应的增强语音数据。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述从所述待处理语音数据中提取说话人的语音特征和身份特征,包括:
将所述待处理语音数据进行时频变换,基于所述时频变换之后的语音数据,提取说话人的语音特征和身份特征;
所述基于所述语音增强处理后的语音特征,得到所述待处理语音数据对应的增强语音数据,包括:
将所述语音增强处理后的语音特征进行时频变换,得到所述待处理语音数据对应的增强语音数据。
7.根据权利要求1-5任一项所述的方法,其特征在于,所述语音特征包括以下至少一项:
对数功率谱、梅尔频率倒谱系数MFCC。
8.根据权利要求7所述的方法,其特征在于,当所述语音特征为对数功率谱时,从所述待处理语音数据中提取说话人的语音特征,包括:
将所述待处理语音数据进行分帧和加窗处理;
对处理之后的每一帧语音数据进行时频变换;
获取时频变换之后的语音数据的离散功率谱;
基于所述离散功率谱,得到所述待处理语音数据的对数功率谱。
9.一种语音数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取待处理语音数据;
提取模块,用于从所述待处理语音数据中提取说话人的语音特征和身份特征;
第一确定模块,用于基于所述语音特征和身份特征,得到语音增强处理后的语音特征;
第二确定模块,用于基于所述语音增强处理后的语音特征,得到所述待处理语音数据对应的增强语音数据。
10.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据权利要求1~8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911136655.0A CN110875037A (zh) | 2019-11-19 | 2019-11-19 | 语音数据处理方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911136655.0A CN110875037A (zh) | 2019-11-19 | 2019-11-19 | 语音数据处理方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110875037A true CN110875037A (zh) | 2020-03-10 |
Family
ID=69717118
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911136655.0A Pending CN110875037A (zh) | 2019-11-19 | 2019-11-19 | 语音数据处理方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110875037A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111583947A (zh) * | 2020-04-30 | 2020-08-25 | 厦门快商通科技股份有限公司 | 一种语音增强方法和装置以及设备 |
CN112233668A (zh) * | 2020-10-21 | 2021-01-15 | 中国人民解放军海军工程大学 | 一种基于神经网络的语音指令及身份识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108429619A (zh) * | 2018-01-18 | 2018-08-21 | 北京捷通华声科技股份有限公司 | 身份认证方法和系统 |
CN110176243A (zh) * | 2018-08-10 | 2019-08-27 | 腾讯科技(深圳)有限公司 | 语音增强方法、模型训练方法、装置和计算机设备 |
CN110379412A (zh) * | 2019-09-05 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 语音处理的方法、装置、电子设备及计算机可读存储介质 |
-
2019
- 2019-11-19 CN CN201911136655.0A patent/CN110875037A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108429619A (zh) * | 2018-01-18 | 2018-08-21 | 北京捷通华声科技股份有限公司 | 身份认证方法和系统 |
CN110176243A (zh) * | 2018-08-10 | 2019-08-27 | 腾讯科技(深圳)有限公司 | 语音增强方法、模型训练方法、装置和计算机设备 |
CN110379412A (zh) * | 2019-09-05 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 语音处理的方法、装置、电子设备及计算机可读存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111583947A (zh) * | 2020-04-30 | 2020-08-25 | 厦门快商通科技股份有限公司 | 一种语音增强方法和装置以及设备 |
CN112233668A (zh) * | 2020-10-21 | 2021-01-15 | 中国人民解放军海军工程大学 | 一种基于神经网络的语音指令及身份识别方法 |
CN112233668B (zh) * | 2020-10-21 | 2023-04-07 | 中国人民解放军海军工程大学 | 一种基于神经网络的语音指令及身份识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106486131B (zh) | 一种语音去噪的方法及装置 | |
Bhat et al. | A real-time convolutional neural network based speech enhancement for hearing impaired listeners using smartphone | |
El-Moneim et al. | Text-independent speaker recognition using LSTM-RNN and speech enhancement | |
WO2018223727A1 (zh) | 识别声纹的方法、装置、设备及介质 | |
CN110459241B (zh) | 一种用于语音特征的提取方法和系统 | |
CN109256138B (zh) | 身份验证方法、终端设备及计算机可读存储介质 | |
CN109147798B (zh) | 语音识别方法、装置、电子设备及可读存储介质 | |
US9076446B2 (en) | Method and apparatus for robust speaker and speech recognition | |
CN106373559B (zh) | 一种基于对数谱信噪比加权的鲁棒特征提取方法 | |
CN108847253B (zh) | 车辆型号识别方法、装置、计算机设备及存储介质 | |
CN112053702B (zh) | 一种语音处理的方法、装置及电子设备 | |
CN110176243B (zh) | 语音增强方法、模型训练方法、装置和计算机设备 | |
WO2023001128A1 (zh) | 音频数据的处理方法、装置及设备 | |
WO2024139120A1 (zh) | 一种用于带噪语音信号的处理恢复方法和控制系统 | |
CN112599148A (zh) | 一种语音识别方法及装置 | |
CN110875037A (zh) | 语音数据处理方法、装置及电子设备 | |
Kumar et al. | Speaker identification system using Gaussian Mixture Model and Support Vector Machines (GMM-SVM) under noisy conditions | |
CN110197657B (zh) | 一种基于余弦相似度的动态音声特征提取方法 | |
WO2020015546A1 (zh) | 一种远场语音识别方法、语音识别模型训练方法和服务器 | |
KR100571427B1 (ko) | 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법 | |
Liu et al. | Speech enhancement of instantaneous amplitude and phase for applications in noisy reverberant environments | |
Mallidi et al. | Robust speaker recognition using spectro-temporal autoregressive models. | |
Singh et al. | A comparative study of recognition of speech using improved MFCC algorithms and Rasta filters | |
Dhineshkumar et al. | Speaker identification system using gaussian mixture model and support vector machines (GMM-SVM) under noisy conditions | |
Lu et al. | Temporal contrast normalization and edge-preserved smoothing of temporal modulation structures of speech for robust speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40014482 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200310 |
|
RJ01 | Rejection of invention patent application after publication |