CN111554323A - 一种语音处理方法、装置、设备及存储介质 - Google Patents
一种语音处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111554323A CN111554323A CN202010417021.9A CN202010417021A CN111554323A CN 111554323 A CN111554323 A CN 111554323A CN 202010417021 A CN202010417021 A CN 202010417021A CN 111554323 A CN111554323 A CN 111554323A
- Authority
- CN
- China
- Prior art keywords
- frame
- historical
- target
- speech
- speech frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
Abstract
本申请实施例提供一种语音处理方法、装置、设备及存储介质,其中的方法可包括:确定待处理的目标语音帧对应的历史语音帧;获取历史语音帧的频域特征和历史语音帧的时域参数;提取历史语音帧的时域参数的统计特征;调用网络模型对历史语音帧的频域特征、历史语音帧的时域参数及历史语音帧的时域参数的统计特征进行预测处理,得到目标语音帧的参数集,参数集中包含至少两个参数;根据参数集重建目标语音帧。本申请实施例能够弥补传统信号分析处理技术的不足,提升语音处理能力。
Description
技术领域
本申请涉及互联网技术领域,具体涉及VoIP(Voice over Internet Protocol,基于IP的语音传输)通话技术领域,尤其一种语音处理方法,一种语音处理装置、一种语音处理设备及一种计算机可读存储介质。
背景技术
语音信号经VoIP系统传输的过程中可能会产生音质损伤的现象。现有技术中,解决音质损伤的现象的一种主流方案是经典的PLC技术,主要原理是:接收端如果未收到第n(n为正整数)帧语音帧,会对第n-1帧语音帧进行信号分析处理以补偿第n帧语音帧。但实践发现,由于信号分析处理能力有限,经典的PLC技术的语音处理能力有限,无法适用于现网突发丢包的场景。
发明内容
本申请实施例提供一种语音处理方法、装置、设备及存储介质,能够弥补传统信号分析处理技术的不足,提升语音处理能力。
一方面,本申请实施例提供一种语音处理方法,包括:
确定待处理的目标语音帧对应的历史语音帧;
获取历史语音帧的频域特征和历史语音帧的时域参数;
提取历史语音帧的时域参数的统计特征;
调用网络模型对历史语音帧的频域特征、历史语音帧的时域参数及历史语音帧的时域参数的统计特征进行预测处理,得到目标语音帧的参数集,参数集中包含至少两个参数;
根据参数集重建目标语音帧。
一方面,本申请实施例提供另一种语音处理方法,包括:
接收经VoIP系统传输的语音信号;
当语音信号中的目标语音帧丢失时,采用如上述的方法重建目标语音帧;
基于重建的目标语音帧输出语音信号。
一方面,本申请实施例提供一种语音处理装置,包括:
确定单元,用于确定待处理的目标语音帧对应的历史语音帧;
获取单元,用于获取历史语音帧的频域特征和历史语音帧的时域参数;
处理单元,用于提取历史语音帧的时域参数的统计特征,并调用网络模型对历史语音帧的频域特征、历史语音帧的时域参数及历史语音帧的时域参数的统计特征进行预测处理,得到目标语音帧的参数集,参数集中包含至少两个参数;以及用于根据参数集重建目标语音帧。
一方面,本申请实施例提供一种语音处理装置,包括:
接收单元,用于接收经VoIP系统传输的语音信号;
处理单元,用于当语音信号中的目标语音帧丢失时,采用如上述的方法重建目标语音帧;
输出单元,用于基于重建的目标语音帧输出语音信号。
一方面,本申请实施例提供一种语音处理设备,该设备包括:
处理器,适于实现一条或多条指令;以及,
计算机可读存储介质,存储有一条或多条指令,一条或多条指令适于由处理器加载并执行如上述的语音处理方法。
一方面,本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有一条或多条指令,一条或多条指令适于由处理器加载并执行如上述的语音处理方法。
本申请实施例中,当需要对语音信号中的目标语音帧进行重建时,可以调用网络模型对目标语音帧对应的历史语音帧的频域特征、该历史语音帧的时域参数以及该历史语音帧的时域参数的统计特征预测得到目标语音帧的参数集,再通过对参数集进行参数间滤波来实现目标语音帧的重建。这个语音重建恢复的过程将传统信号分析处理技术与深度学习技术相结合,弥补了传统信号分析处理技术的不足,提升了语音处理能力;并且基于通过对历史语音帧进行深度学习预测出目标语音帧的参数集,进而根据目标语音帧的参数集重建目标语音帧,重建过程较为简单高效,更适用于对实时性要求较高的通信场景;另外,用于重建目标语音帧的参数集中包含两个或两个以上的参数,这样就将网络模型的学习目标进行了分解,分解成为若干参数,每个参数分别对应不同的神经网络来进行学习,依据不同的参数集可对不同的神经网络进行灵活的配置组合形成网络模型的结构,通过这样的方式,能够极大的精简网络结构,并且有效降低处理复杂度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请一个示例性实施例提供的一种VoIP系统的结构示意图;
图2示出了本申请一个示例性实施例提供的一种语音处理系统的结构示意图;
图3示出了本申请一个示例性实施例提供的一种语音处理方法的流程图;
图4示出了本申请另一个示例性实施例提供的一种语音处理方法的流程图;
图5示出了本申请另一个示例性实施例提供的一种语音处理方法的流程图;
图6示出了本申请一个示例性实施例提供的STFT的示意图;
图7示出了本申请一个示例性实施例提供的历史语音帧的时域参数的统计特征的示意图;
图8示出了本申请一个示例性实施例提供的一种网络模型的结构示意图;
图9示出了本申请一个示例性实施例提供的基于激励信号的语音生成模型的结构示意图;
图10示出了本申请一个示例性实施例提供的一种语音处理装置的结构示意图;
图11示出了本申请另一个示例性实施例提供的一种语音处理装置的结构示意图;
图12示出了本申请一个示例性实施例提供的一种语音处理设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例涉及VoIP。VoIP是一种语音通话技术,经由IP来达成语音通话与多媒体会议,也即是经由互联网来进行通信。VoIP又可称为IP电话、互联网电话、网络电话、宽带电话、宽带电话服务。图1示出了本申请一个示例性实施例提供的一种VoIP系统的结构示意图;该系统包括发送端和接收端,发送端是指发起经VoIP系统传输的语音信号的终端;相应地,接收端是指接收经VoIP传输的语音信号的终端;此处的终端可包括但不限于:手机、PC(Personal Computer,个人计算机)、PDA等等。语音信号在VoIP系统中的处理流程大致如下:
在发送端侧:
(1)采集输入的语音信号,此处例如可以是通过麦克风来进行采集,该语音信号是模拟信号;对该语音信号进行模数转换,得到数字信号;
(2)对该数字信号进行编码处理,得到多个语音帧;此处,编码处理可以是指OPUS编码处理。其中,OPUS是一种有损声音编码的格式,适用于网络上的实时声音传输,其主要特性包括:①支持从8000Hz(窄带信号)至48000Hz(全频信号)的采样率范围;②支持恒定比特率和可变比特率;③支持从窄带到全频段的音频带宽;④支持语音和音乐;⑤可动态调节比特率、音频带宽和帧大小;⑤具备良好的鲁棒性丢失率和PLC(Packet LossConcealment,丢包补偿)能力。基于OPUS较强的PLC能力和良好的VoIP音质,VoIP系统中通常采用OPUS编码。编码过程中的采样率Fs可根据实际需要设定,Fs可以为8000Hz(赫兹)、16000Hz、32000Hz、48000Hz等等。一般地,语音帧的帧长由编码过程所采用的编码器的结构确定,一帧语音帧的帧长例如可以为10ms(毫秒)、20ms等。
(3)将多个语音帧封装为一个或多个IP数据包。
(4)将IP数据包通过网络发送给接收端。
在接收端侧:
(5)接收网络传输的IP数据包,并对接收到的IP数据包进行解封装,得到多个语音帧。
(6)对语音帧进行解码,恢复为数字信号。
(7)对数字信号进行数模转换,还原为模拟的语音信号并输出,此处的输出例如可以是通过喇叭进行播放。
语音信号经VoIP系统传输的过程中可能会产生音质损伤的现象。所谓音质损伤是指发送端的正常语音信号传输至接收端后,在接收端侧出现播放卡顿、不流畅等异常情况的现象。产生音质损伤现象的一个重要因素是网络原因,数据包在传输过程中,由于网络不稳定或异常等原因使得接收端不能正常接收数据包,导致数据包中的语音帧发生丢失,进而使得接收端无法恢复出语音信号,从而在输出语音信号时出现卡顿等异常情况。现有技术中,针对音质损伤的现象有如下几种主流的解决方案:
一种方案涉及FEC(Feedforward Error Correction,前向纠错)技术。FEC技术一般是部署在发送端。其主要原理是:在发送端将第n(n为正整数)帧语音帧打包发送后,在下一个数据包中,仍然分配一定带宽对该第n帧语音帧再次进行打包发送,再次打包形成的数据包称为“冗余包”,冗余包内封装的第n帧语音帧的信息称为第n帧语音帧的冗余信息。为了节省传输带宽,可以降低第n帧语音帧的精度,将低精度版本的第n帧语音帧的信息打包至冗余包中。在语音传输过程中,如果第n帧语音帧发生丢失,接收端可以等待该第n帧语音帧的冗余包到达后,根据冗余包中第n帧语音帧的冗余信息重建第n帧语音帧,并恢复出相应的语音信号。FEC技术可分为带内FEC和带外FEC,所谓带内FEC是指使用一帧语音帧内的空闲字节来存储冗余信息。所述带外FEC是指在一帧语音帧的结构之外通过数字包封装技术存储冗余信息。但实践发现,基于FEC技术在解决音质损伤的过程中,有如下不足:需要占用额外带宽来编码冗余信息,而接收端在等待冗余信息的过程中,会增加额外延时;并且,不同的编码机制需要特定的FEC适配,成本高且不够灵活。
另一种方案是经典的PLC(Packet Loss Concealment,丢包补偿)技术,该PLC技术通常是部署在接收端。经典的PLC技术的主要原理是:接收端如果未收到第n帧语音帧,会读取第n-1帧语音帧,对该第n-1帧语音帧进行信号分析处理以预测出第n帧语音帧。相比较FEC技术而言,PLC技术无需花费额外带宽。但实践发现,基于PLC技术在解决音质损伤问题的过程中,仍然有其不足的地方:信号分析处理能力有限,只适用于针对一帧语音帧进行丢失的情况,然而现网很多情况下是突发丢包(即连续多帧出现丢失的情况),在此情况下,上述基于PLC技术是失效的。
本申请实施例提出一种语音处理方案,该方案针对上述经典的PLC技术作出了如下几个改进:①将传统信号分析处理技术与深度学习技术相结合,提升语音处理能力;②基于语音信号的数据进行建模,通过对历史语音帧进行深度学习预测出目标语音帧的参数集,进而根据目标语音帧的参数集重建目标语音帧,重建过程较为简单高效,更适用于对实时性要求较高的通信场景;③用于重建目标语音帧的参数集中包含两个或两个以上的参数,这样就将网络模型的学习目标进行了分解,分解成为若干参数,每个参数分别对应不同的神经网络来进行学习,依据不同的参数集可对不同的神经网络进行灵活的配置组合形成网络模型的结构,通过这样的方式,能够极大的精简网络结构,并且有效降低处理复杂度;④支持连续丢包补偿,即在连续多帧语音帧出现丢失的情况下,能够实现对连续多帧语音帧的重建,确保语音通话质量;⑤支持与FEC技术的组合使用,以相对灵活的组合使用方式避免音质损伤带来的不利影响。
下面将结合附图,对本申请实施例所提出的语音处理方案进行详细介绍。
图2示出了本申请一个示例性实施例提供的一种语音处理系统的结构示意图;如图2所示,本申请实施例提出的改进的PLC技术部署在下行接收端侧,这样部署原因在于:1)接收端是系统在端到端通信中的最后一个环节,重建的目标语音帧被恢复成语音信号输出(如通过扬声器、喇叭等播放)后,用户能够直观感知其语音质量;2)在移动通信领域,下行空口到接收端的通信链路是最容易出现质量问题的节点,在此节点处设置PLC机制能够获得较直接的音质改善。
图3示出了本申请一个示例性实施例提供的一种语音处理方法的流程图;由于改进的PLC技术部署在下行接收端,所以图3所示流程以图2所示的接收端为执行主体;该方法包括以下步骤S301-S303。
S301,接收经VoIP系统传输的语音信号。
语音信号是由发送端经网络发送至接收端的,如前述VoIP系统中的处理流程可知,接收端所接收的语音信号是IP数据包形式的语音信号。接收端对该IP数据包进行解封装处理,得到语音帧。
S302,当语音信号中的目标语音帧丢失时,采用本申请实施例提出的改进的PLC技术重建目标语音帧。本申请实施例采用第n帧语音帧来表示目标语音帧,其改进的PLC技术所涉及的语音处理方法将在后续实施例中进行详细描述。
S303,基于所述重建的目标语音帧输出语音信号。
当重建目标语音帧之后,接收端会对目标语音帧进行解码、数模转换等处理,最后通过扬声器、喇叭等播放语音信号,从而实现了语音信号的还原输出。
在一种实施方式中,改进的PLC技术可以被单独使用。此情况下,当接收端确认第n帧语音帧丢失时,就激活丢包补偿的功能,通过改进的PLC技术涉及的处理流程来重建第n帧语音帧(即上述步骤S303)。另一种实施方式中,改进的PLC技术还可以与FEC技术组合使用,此情况下,图3所示流程还可包括如下步骤S304-S305:
S304,获取目标语音帧的冗余信息。
S305,当语音信号中的目标语音帧丢失时,根据目标语音帧的冗余信息重建目标语音帧。如果根据目标语音帧的冗余信息重建目标语音帧失败,再触发执行步骤S302,采用本申请实施例提出的改进的PLC技术重建目标语音帧。
在改进的PLC技术与FEC技术组合使用的场景中,在发送端进行FEC操作,即不仅将第n帧语音帧进行打包发送,还将第n帧语音帧的冗余信息进行打包发送;当第n帧语音帧出现丢失时,接收端先依赖该第n帧语音帧的冗余信息尝试对第n帧语音帧进行重建恢复,如果无法成功恢复该第n帧语音帧,再激活改进的PLC功能,通过改进的PLC技术涉及的处理流程来重建第n帧语音帧。
本申请实施例中,当VoIP语音信号中的目标语音帧丢失时,可以采用改进的PLC技术重建目标语音帧,改进的PLC技术重建过程较为简单高效,更适用于对实时性要求较高的通信场景;另外,支持连续丢包补偿,即在连续多帧语音帧出现丢失的情况下,能够实现对连续多帧语音帧的重建,确保语音通话质量;并且,改进的PLC技术还可与FEC技术的组合使用,以相对灵活的组合使用方式避免音质损伤带来的不利影响。
下面将结合附图,对本申请实施例提出的改进的PLC技术涉及的语音处理方法进行详细介绍。
图4示出了本申请另一个示例性实施例提供的一种语音处理方法的流程图;该方法由图2所示的接收端来执行;该方法包括以下步骤S401-S405。
S401,确定待处理的目标语音帧对应的历史语音帧。
当经VoIP系统传输的语音信号中存在语音帧丢失时,该被丢失的语音帧就被确定为目标语音帧,历史语音帧是指在目标语音帧之前被传输,且能够被成功恢复出语音信号的语音帧。本申请后续实施例中,均以目标语音帧是经VoIP系统传输的语音信号中的第n(n为正整数)帧语音帧;并且以历史语音帧包括经VoIP系统传输的语音信号中的第n-t帧至第n-1帧共t(t为正整数)帧语音帧为例进行说明。t的值可以根据实际需要设定,本申请实施例并不对t的值进行限定;例如:若欲降低运算难度,t的值可以设定得相对小一些,如t=2,即选取第n帧之前的相邻两帧作为历史语音帧;若欲获得更准确的运算结果,t的值可以设定得相对大一些,如t=n-1,即选取第n帧之前的所有帧作为历史语音帧。
S402,获取历史语音帧的频域特征和历史语音帧的时域参数。
时域参数是用来表示时域信号的时域特征的参数;时域参数包括但不限于以下至少一种:短时相关性参数、长时相关性参数和能量参数。各种类型的时域参数的定义详见后续实施例的描述。历史语音帧是时域信号,该历史语音帧的时域参数就是用来反映该历史语音帧的时域特征的参数;该历史语音帧的时域参数可包括但不限于:历史语音帧的短时相关性参数、长时相关性参数和能量参数。另外,要获得历史语音帧的频域特征,需要对该历史语音帧进行时频转换处理,时频转换处理用于将历史语音帧从时域空间转换至频域空间,进而可在频域空间内获取历史语音帧的频域特征。此处,时频转换处理可以采用傅立叶变换、STFT(Short-Term Fourier Transform,短时傅立叶变换)等操作来实现。以采用STFT操作对历史语音帧进行时频转换处理为例,该历史语音帧的频域特征可以包括历史语音帧的STFT系数。在一种实施方式中,历史语音帧的频域特征进一步包括历史语音帧的STFT系数的幅度谱,以简化语音处理过程的复杂度。
S403,提取历史语音帧的时域参数的统计特征。
可以采用统计特征计算公式来计算历史语音帧的时域参数的统计特征。其中,历史语音帧的时域参数的统计特征用于反映该历史语音帧的时域参数随时间变化而产生的变动情况,此处的变动情况可包括但不限于:(1)语音帧的发音变换情况,例如从浊音变换为清音;或者从清音变换为静音等等;(2)语音帧的能量分布区域的变化情况,例如:哪些区域对应爆破音的能量分布,哪些区域对应清音的能量分布。
S404,调用网络模型对历史语音帧的频域特征、历史语音帧的时域参数及历史语音帧的时域参数的统计特征进行预测处理,得到所述目标语音帧的参数集,该参数集中包含至少两个参数。
目标语音帧的参数集中包含至少两个参数,该参数集中的参数是指用于重建恢复目标语音帧所需的目标语音帧的时域参数;参见前述时域参数的相关定义可知,目标语音帧的参数集中的参数可包括但不限于以下至少一种:目标语音帧的短时相关性参数、长时相关性参数和能量参数。目标语音帧的类型可以包括但不限于:浊音帧和清音帧;浊音帧属于类周期性信号,而清音帧属于非周期性信号。目标语音帧的类型不同,其重建所需的参数也不同,则目标语音帧的参数集包含的参数也不同。根据实际需要确定参数集中的参数之后,可调用网络模型对历史语音帧的频域特征、历史语音帧的时域参数和历史语音帧的时域参数的统计特征进行预测处理,得到所述目标语音帧的参数集。该网络模型可包含多个神经网络,神经网络的数量根据参数集中的参数数量确定。根据目标语音帧的参数集,可对网络模型的网络结构进行相应配置,在配置好网络模型的网络结构之后,可采用深度学习的方法对网络模型进行训练,得到优化的网络模型再利用优化的网络模型对历史语音帧的频域特征、历史语音帧的时域参数和历史语音帧的时域参数的统计特征进行预测处理,即可得到目标语音帧的参数集Pa(n)。
S405,根据参数集重建目标语音帧。
参数集Pa(n)中包含的是预测得到的目标语音帧的时域参数,而时域参数是反映时域信号的时域特征的参数,那么,利用预测得到的目标语音帧的时域参数所表征的目标语音帧的时域特征,可以对目标语音帧进行重建恢复。具体实现中,可以对参数集Pa(n)中的参数进行参数间滤波处理来重建目标语音帧。
本申请实施例中,当需要对语音信号中的目标语音帧进行重建时,可以调用网络模型对目标语音帧对应的历史语音帧的频域特征、该历史语音帧的时域参数以及该历史语音帧的时域参数的统计特征预测得到目标语音帧的参数集,再通过对参数集进行参数间滤波来实现目标语音帧的重建。这个语音重建恢复的过程将传统信号分析处理技术与深度学习技术相结合,弥补了传统信号分析处理技术的不足,提升了语音处理能力;并且基于通过对历史语音帧进行深度学习预测出目标语音帧的参数集,进而根据目标语音帧的参数集重建目标语音帧,重建过程较为简单高效,更适用于对实时性要求较高的通信场景;另外,用于重建目标语音帧的参数集中包含两个或两个以上的参数,这样就将网络模型的学习目标进行了分解,分解成为若干参数,每个参数分别对应不同的神经网络来进行学习,依据不同的参数集可对不同的神经网络进行灵活的配置组合形成网络模型的结构,通过这样的方式,能够极大的精简网络结构,并且有效降低处理复杂度。
为了方便描述,本申请后续实施例中以下述示例场景为例进行详细说明,示例场景包括如下信息:(1)语音信号为采样率Fs=16000Hz的宽带信号;根据经验,采样率Fs=16000Hz的宽带信号对应的LPC滤波器的阶数为16;(2)语音帧的帧长为20ms,每帧语音帧包含320个样本。(3)每帧语音帧的320个样本点被分解为两个分帧,第一个分帧对应语音帧的前10ms共160个样本点,第二个分帧对应语音帧的后10ms共160个样本点。(4)每帧语音帧按照5ms进行分帧处理得到4个5ms子帧,根据经验,5ms子帧对应的LTP滤波器的阶数为5。需要说明的是,引用上述示例场景只是为了更清楚地描述本申请实施例的语音处理方法的流程,但并不构成对本申请实施例相关技术的限定,本申请实施例的语音处理方法在其他场景中同样适用,例如,在其他场景中Fs可相应变化,如Fs=8000Hz、32000Hz或48000Hz;语音帧也可相应变化,例如帧长可以为10ms,15ms;分帧和子帧的分解方式均可相应变化;例如:对语音帧进行分解处理形成分帧,及对语音帧进行分帧处理形成子帧时,均可以按照5ms来进行处理,即分帧和子帧的帧长均为5ms;等等,这些其他场景中的语音处理流程可参考本申请实施例的示例场景中的语音处理流程进行类似分析。
图5示出了本申请另一个示例性实施例提供的一种语音处理方法的流程图;该方法由图2所示的接收端来执行;该方法包括以下步骤S501-S509。
S501,确定待处理的目标语音帧对应的历史语音帧。
目标语音帧是指语音信号中的第n帧语音帧;历史语音帧包括语音信号中的第n-t帧至第n-1帧共t帧语音帧,n、t均为正整数,t的值可以根据实际需要设定,本实施例中t=5。需要特别说明的是,历史语音帧是指在目标语音帧之前被传输,且能够被成功恢复出语音信号的语音帧,一种实施方式中,历史语音帧是由接收端完整接收,并能正常通过解码恢复出语音信号的语音帧;另一种实施方式中,历史语音帧是曾发生丢失,但经FEC技术、经典的PLC技术、本申请实施例提出的改进的PLC技术,或上述各种技术的组合已经成功重建的语音帧,该成功重建的语音帧能够被正常解码恢复出语音信号。同理,当经过本申请实施例的语音处理方成功重建第n帧语音帧后,如果第n+1帧语音帧出现丢失需要进行重建,则该第n帧语音帧又可以作为第n+1帧语音帧的历史语音帧,帮助第n+1帧语音帧实现重建。如图5所示,历史语音帧可表示为s_prev(n),它表示由第n-t帧至第n-1帧语音帧包含的样本点按序组成的序列,本实施例所示示例中,设t=5,s_prev(n)共计1600个样本点。
S502,对历史语音帧进行短时傅里叶变换处理,得到历史语音帧对应的频域系数。
S503,从历史语音帧对应的频域系数中提取幅度谱作为历史语音帧的频域特征。
步骤S502-S503中,STFT能够将时域的历史语音帧转换至频域表示。图6示出了本申请一个示例性实施例提供的STFT的示意图;图6所示示例中,t=5,STFT采用50%加窗交叠的操作,消除帧间不平滑。经STFT变换后得到历史语音帧的频域系数,该频域系数包括多组STFT系数;如图6所示,STFT所使用的窗函数可以是Hanning(汉宁)窗,该窗函数的重叠样本数(hop-size)是160点;因此,本实施例可以获得9组STFT系数,每组STFT系数包括320个样本点。在一种实施方式,可以针对各组STFT系数直接提取幅度谱,将提取的幅度谱组成幅度系数序列并作为历史语音帧的频域特征S_prev(n)。
在另一种实施方式中,考虑到STFT系数具备对称特性,即一组STFT系数可平均分成两个部分,所以针对每一组STFT系数可选取其中一部分(如前一部分)的STFT系数来提取幅度谱,将提取的幅度谱组成幅度系数序列并作为历史语音帧的频域特征S_prev(n);本实施例所示示例中,针对9组STFT系数中的每一组STFT系数选择前161个样本点,并计算选择出的各样本点对应幅度谱,最终获得1449个幅度系数,该1449个幅度系数组成幅度系数序列并作为历史语音帧的频域特征S_prev(n)。为了简化计算复杂度,本申请实施例以考虑STFT系数具备对称特性时对应的实施方式为例进行说明。
本申请实施例中,STFT使用的是因果系统,即只基于已经获得的历史语音帧来进行频域特征分析,而并未使用未来语音帧(即在目标语音帧之后被传输的语音帧)来进行频域特征分析,这样能够保证实时通信要求,使得本申请的语音处理方案适用于对实时性要求较高的语音通话场景中。
S504,获取历史语音帧的时域参数。
如前述,时域参数是用来表示时域信号的时域特征的参数;时域参数包括但不限于以下至少一种:短时相关性参数、长时相关性参数和能量参数。各种时域参数与时域信号在语音处理流程中的滤波处理息息相关,本申请实施例涉及重建滤波器,下面结合重建滤波器的定义,对各种时域参数的定义进行介绍。本实施例中,设第i(i为正整数)帧语音帧是语音信号中的任一帧语音帧,以第i帧语音帧为例,各种时域参数的定义如下:
(1)短时相关性参数。
短时相关性参数是反映时域语音信号的短时相关性特征的参数。重建滤波器的核心包括LPC滤波器和LTP滤波器。其中,LPC滤波器负责处理与线性预测的短时相关性有关的参数,所以短时相关性参数可以认为是与LPC滤波器相关的参数。首先,定义一个p阶滤波器如下式1.1所示:
Ap(z)=1+a1z-1+a2z-2+…+apz-p 式1.1
上式1.1中,p为滤波器的阶数。针对LPC滤波器,ai(1≤j≤p)表示LPC系数;针对LTP滤波器,aj(1≤j≤p)表示LTP系数。z表示语音信号。LPC滤波器基于LP(LinearPrediction,线性预测)分析来实现,所谓LP分析是指采用LPC对第i帧语音帧进行滤波处理时,该第i帧语音帧的滤波结果是由该第i帧语音帧的前p个历史语音帧与上式1.1所示的p阶滤波器求卷积获得;这符合语音的短时相关性特点。根据经验,在采样率Fs=8000Hz的场景中,LPC滤波器的阶数p=10;在采样率Fs=16000Hz场景中,LPC滤波器的阶数p=16。
本实施例所示示例中,采样率Fs=16000Hz,则LPC滤波器的阶数可取p=16;上述式1.1所示的p阶滤波器,可以进一步分解为下式1.2:
其中,P(z)=Ap(z)-z-(p+1)Ap(z-1) 式1.3
Q(z)=Ap(z)+z-(p+1)Ap(z-1) 式1.4
从物理意义上来看,式1.3所示的P(z)代表声门张开的周期性变化规律,式1.4所示的Q(z)代表声门闭合的周期性变化规律,P(z)和Q(z)代表声门一张一合的周期性变化规律。
P(z)和Q(z)两个多项式分解形成的根(root)在复平面交替出现,因此被命名为LSF(Line Spectral Frequency,线谱频率),该LSF表示为P(z)和Q(z)的根分布在复平面单位圆上的一系列角频率wk。假定将P(z)和Q(z)在复平面的root定义为θk,那么其对应的角频率定义为如下式1.5:
上式1.5中,Re{θk}表示θk的实数,Im{θk}表示θk的虚数。
通过上述式1.5可以计算得到第i帧语音帧的线谱频率LSF(i),而如前述可知,线谱频率是与语音的短时相关性强相关的参数,故第i帧语音帧的短时相关性参数包含该第i帧语音帧的线谱频率LSF(i)。实际应用中,语音帧通常会进行分解处理,即一个语音帧会被分解成k个分帧,第i帧语音帧的LSF(i)被分解为k个分帧的线谱频率LSFk(i);如本实施例所示示例中,语音帧被分成前10ms和后10ms共两个分帧;第i帧语音帧的LSF(i)被分解为其第一个分帧的线谱频率LSF1(i)和其第二个分帧的线谱频率LSF2(i)。那么为了进一步简化计算复杂度,在一种实施方式中,可通过上式1.5获得第i帧语音帧的第二个分帧的线谱频率LSF2(i);然后,可以基于第i-1帧的第二个分帧的线谱频率LSF2(i-1)与该第i帧语音帧的第二个分帧的线谱频率LSF2(i),通过内插得到该第i帧语音帧的第一个分帧的线谱频率LSF1(i),内插因子表示为αlsf(i)。所以更进一步,第i帧语音帧的短时相关性参数可包括该第i个语音帧的第二个分帧的线谱频率LSF2(i)和内插因子αlsf(i)。
(2)长时相关性参数。
长时相关性参数是反映时域语音信号的长时相关性特征的参数。LTP滤波器负责处理与基音延迟的长时相关性有关的参数,所以长时相关性参数可以认为是与LTP滤波器相关的参数。LTP滤波反映的是语音帧(特别是浊音帧)的长时相关性,长时相关性与语音帧的基音延迟(Pitch Lag)强相关。基音延迟反映了语音帧的类周期性,即第i帧语音帧中的样本点的基音延迟,可以通过对该第i帧语音帧对应的历史语音帧中的样本点的基音延迟进行固定,再基于类周期性对固定的基音延迟进行LTP滤波获得。因此,第i帧语音帧的长时相关性参数包含该第i帧语音帧的各个子帧的基音延迟和LTP系数。
(3)能量参数。
不同语音帧的能量也不尽相同,而能量可以通过语音帧的各个子帧的增益值来体现,所以,第i帧语音帧的能量参数就是指第i帧语音帧中的各个子帧的增益值。
基于上述定义,本实施例所示示例中,t=5,所以设历史语音帧的时域参数表示为P_prev(n),该P_prev(n)包含的内容可以为以下至少一种:①历史语音帧的短时相关性参数,包含的是这t帧历史语音帧的LSF系数;本实施例中LPC滤波器的阶数为16,每一帧历史语音帧的一个分帧对应16个LSF系数,每一帧历史语音帧包含两个分帧,那么每一帧历史语音帧对应32个LSF系数,P_prev(n)包含这t帧的历史语音帧对应的共计160个LSF系数。②历史语音帧的长时相关性参数,包含的是这t帧历史语音帧的各个5ms子帧的基音延迟和5阶LTP滤波器系数,每一帧历史语音帧的每个子帧对应一个基音延迟和5个LTP系数,那么历史语音帧的长时相关性参数共计20个子帧的基音延迟和100个LTP系数。③历史语音帧的能量参数,包含的是这t帧历史语音帧的各个5ms子帧的增益值,共计20个子帧增益值。
S505,提取历史语音帧的时域参数的统计特征。
如前述,历史语音帧的时域参数既可能包含历史语音帧的短时相关性参数,也可能包含历史语音帧的长时相关性参数。不同类型的时域参数的统计特征与重建目标语音帧的相关程度也不同。考虑到历史语音帧的短时相关性参数的统计特征与重建目标语音帧的相关程度更高,例如:历史语音帧的短时相关性参数的统计特征可较好的反映语音帧随时间变化的类型转换情况,适于语段分割,以此为依据预测得到的目标语音帧的参数能获得更为准确的重建效果。本实施例中,以提取历史语音帧的短时相关性参数的统计特征为例进行说明。历史语音帧的短时相关性参数包含t帧历史语音帧的LSF系数;那么,对于第i帧语音帧的LSF系数,可采用下述统计特征计算公式1.6-公式1.9来对该历史语音帧的LSF系数进行计算得到第i帧语音帧的LSF系数的统计特征:
上述式1.6-式1.9中,wk表示第i帧语音帧的LSF系数在复平面单位圆上对应的角频率。第i帧语音帧的LSF的统计特征可包括以下至少一种特征:第一统计特征Shift(i)、第二统计特征Bias(i)和第三统计特征Dev(i)。从物理意义来看,第一统计特征Shift(i)用于反映该第i帧语音帧的LSF系数对应的角频率wk随时间变化而产生的变动情况。第二统计特征Bias(i)用于反映该第i帧语音帧的LSF系数对应的角频率wk的均值。第三统计特征Dev(i)用于反映该第i帧语音帧的LSF系数对应的角频率wk的高阶矩。其中,当β取值为1时,式1.8就考虑了符号对第三统计特征Dev(i)的影响。当第三统计特征Dev(i)为正数时,表示第i帧语音帧的LSF系数偏高频分布;反之,当第三统计特征Dev(i)为负数时,则表示第i帧语音帧的LSF系数偏低频分布。
图7示出了本申请一个示例性实施例提供的历史语音帧的时域参数的统计特征的示意图;图7呈现的是第i帧语音帧的LSF系数的3种统计特征的示例;第一统计特征Shift(i)的峰值,对应于第i帧语音帧的发音变换,例如从浊音转换为清音,或从清音转换为静音,或从浊音-清音-静音的连续变换;该第一统计特征Shift(i)的峰值可用于对语音信号进行语段分割。第二统计特征Bias(i)的峰值区域,对应于该第i帧语音帧的爆破音所在能量区域;第三统计特征Dev(i)的峰值区域,对应于该第i帧语音帧的清音所在能量区域。在一种实施方式中,可以采用上述式1.6-式1.9分别对历史语音帧中的各帧的LSF系数进行计算,得到各帧历史语音帧的LSF系数的上述3种统计特征。在另一种实施方式中,还可以基于上述式1.6-式1.9进行建模,通过建立的模型来提取历史语音帧中的各帧的LSF系数的统计特征。
在一种实施方式中,考虑到第二统计特征Bias(i)和第三统计特征Dev(i)的作用类似,可选择第一统计特征Shift(i)和第二统计特征Bias(i)的组合来交由后续的网络模型进行预测处理。然而,在实际应用中,可以提取第一统计特征Shift(i)、第二统计特征Bias(i)和第三统计特征Dev(i)中的任一种、或者任意两种的组合,或者提取三种交由后续的网络模型进行预测处理,本申请实施例并不对提取的统计特征的种类和数量进行限定。本实施例以提取第一统计特征Shift(i)和第二统计特征Bias(i)的组合来交由后续的网络模型为例进行说明,即步骤S505提取的第i帧语音帧的时域参数的统计特征可表示为{Shift(i),Bias(i)}。进一步,第i帧语音帧包含两个10ms的分帧,则步骤S505分别提取第i帧语音帧的两个分帧的LSF系数的统计特征,则第i帧语音帧的第一个分帧的LSF系数的统计特征可表示为{Shift1(i),Bias1(i)};第i帧语音帧的第二个分帧的LSF系数的统计特征可表示为{Shift2(i),Bias2(i)},该{Shift1(i),Bias1(i)}和{Shift2(i),Bias2(i)}可组成第i帧语音帧对应的一个四维统计特征向量。进一步,本实施例采用SP_prev(n)来表示历史语音帧的时域参数的统计特征,则该SP_prev(n)包含第n-t帧至n-1帧语音帧对应的t个四维统计特征向量。
S506,调用网络模型对历史语音帧的频域特征、历史语音帧的时域参数和历史语音帧的时域参数的统计特征进行预测处理,得到目标语音帧的参数集。参数集中包含至少两个参数,网络模型包含多个神经网络,该神经网络的数量依据参数集中的参数的种类数量确定。
目标语音帧的参数集Pa(n)中包含的是预测得到的目标语音帧的时域参数,基于前述时域参数的相关定义,本申请实施例中,目标语音帧的参数集Pa(n)中可能包含的参数如下:(1)目标语音帧的短时相关性参数。若目标语音帧包括k个分帧,目标语音帧的短时相关性参数包括目标语音帧的第k个分帧的线谱频率及内插因子,k为大于1的整数。本实施例所示示例中,k=2,即目标语音帧包括前10ms对应的第一个分帧和后10ms对应的第二个分帧;所以参数集Pa(n)可能包含参数一和参数二,参数一是指目标语音帧的第二个分帧的线谱频率LSF2(n),共包含16个LSF系数。参数二是指目标语音帧的内插因子αlsf(n),该内插因子αlsf(n)可包含5个候选值,包括0,0.25,0.5,0.75,1.0。(2)目标语音帧的长时相关性参数。目标语音帧包括m个子帧,目标语音帧的长时相关性参数包括目标语音帧的各个子帧的基音延迟和LTP系数,m为正整数。本实施例所示示例中,m=4,所以参数集Pa(n)可能包含参数三和参数四,参数三是指目标语音帧的4个子帧的基音延迟,表示为pitch(n,0)、pitch(n,1)、pitch(n,2)和pitch(n,3)。参数四是指目标语音帧的4个子帧分别对应的LTP系数,假设LTP滤波器为5阶滤波器,则每个子帧对应5个LTP系数,那么参数四共包括20个LTP系数。(3)目标语音帧的能量参数gain(n)。不同语音帧的能量也不尽相同,而能量可以通过语音帧的各个子帧的增益值来体现,这就定义了参数集Pa(n)中的参数五,参数五是指目标语音帧的能量参数gain(n)。本实施例所示示例中,目标语音帧包括4个5ms子帧,目标语音帧的能量参数gain(n)包括该4个5ms子帧的增益值,具体包括gain(n,0)、gain(n,1)、gain(n,2)、gain(n,3)。通过gain(n)来对重建滤波器通过滤波重建得到的目标语音帧进行信号放大,这样可以将重建得到的目标语音帧被放大至原始语音信号的能量级别,从而还原出更准确、更清晰的目标语音帧。
参见步骤S506,本申请实施例通过调用网络模型来预测第n帧语音帧的参数集Pa(n),考虑到参数的多样性,采取不同参数使用不同网络结构的方式,即网络模型的网络结构由参数集Pa(n)所包含的参数数量来决定,具体地,网络模型中包含多个神经网络,神经网络的数量依据参数集Pa(n)所包含的参数数量来确定。基于上述参数集Pa(n)可能包含的各个参数;图8示出了本申请一个示例性实施例提供的一种网络模型的结构示意图;如图8所示,网络模型包括第一神经网络801和多个第二神经网络802,第二神经网络802属于第一神经网络的子网络,即第一神经网络的输出作为各个第二神经网络802的输入。每个第二神经网络802均与第一神经网络801相连接;第二神经网络802的数量与所述参数集中的一个参数相对应,也就是说,一个第二神经网络802可用来预测参数集Pa(n)中的一个参数。由此可见,所述第二神经网络的数量根据参数集中的参数数量确定。在一种实施方式中,第一神经网络801包括一层LSTM(Long Short-Term Memory,长短期记忆网络)和三层FC(Fullyconnected layer,全连接层)。第一神经网络801用于预测目标语音帧(即第n帧语音帧)的虚拟频域特征S(n),该第一神经网络801的输入是步骤S503中所获得的历史语音帧的频域特征S_prev(n),输出是目标语音帧的虚拟频域特征S(n)。本实施例所示示例中,S(n)是预测得到的第n帧语音帧的虚拟的322维的STFT系数的幅度系数序列。本实施例所示示例中,第一神经网络801中的LSTM包括1个隐层,256个处理单元。第一层FC包含512个处理单元和激活函数。第二层FC包含512个处理单元和激活函数。第三层FC包含322个处理单元,该322个处理单元用于输出目标语音帧的虚拟的322维的STFT系数的幅度系数序列。
第二神经网络802用于预测目标语音帧的参数,该第二神经网络802的输出是用于重建目标语音帧的各个参数,而输入除了包括第一神经网络801输出的目标语音帧的虚拟频域特征S(n)之外,根据需要预测的参数的类型不同,该第二神经网络802的输入所包含的信息也可能有所不同;具体地:(1)用于预测目标语音帧的参数集中的参数一(即目标语音帧的LSF系数)的第二神经网络802,其输入包括目标语音帧的虚拟频域特征S(n)、历史语音帧的时域参数P_prev(n)(且此时P_prev(n)包含t帧历史语音帧的LSF系数)及历史语音帧的时域参数的统计特征SP_prev(n)。(2)用于预测目标语音帧的参数集中的参数二(即目标语音帧的内插因子αlsf(n))的第二神经网络802,其输入包括目标语音帧的虚拟频域特征S(n)、历史语音帧的时域参数P_prev(n)(且此时P_prev(n)包含t帧历史语音帧的LSF系数)及历史语音帧的时域参数的统计特征SP_prev(n)。(3)用于预测目标语音帧的参数集中的参数三(即目标语音帧的4个子帧的基音延迟)的第二神经网络802,其输入包括目标语音帧的虚拟频域特征S(n)和历史语音帧的时域参数P_prev(n)(且此时P_prev(n)包含t帧历史语音帧的共计20个子帧的基音延迟)。(4)用于预测目标语音帧的参数集中的参数四(即目标语音帧的20个LTP系数)的第二神经网络802,其输入包括目标语音帧的虚拟频域特征S(n)和历史语音帧的时域参数P_prev(n)(且此时P_prev(n)包含t帧历史语音帧的共计100个LTP系数)。
本实施例所示示例中,每个第二神经网络802分别包含两层FC,最后一层FC不包含激活函数。每个第二神经单元802所要预测的参数不同,FC的结构也不同。其中,①用于预测参数一的第二神经网络802的两层FC中,第一层FC包含512个处理单元和激活函数,该第一层FC的输入包括目标语音帧的虚拟的322维的STFT系数,t帧历史语音帧共计160个LSF系数以及统计特征SP_prev(n);第二层FC包含16个处理单元,此16个处理单元用于输出参数一的16个LSF系数。②用于预测参数二的第二神经网络802的两层FC中,第一层FC包含256个处理单元和激活函数,该第一层FC的输入包括目标语音帧的虚拟的322维的STFT系数,t帧历史语音帧共计160个LSF系数以及统计特征SP_prev(n);第二层FC包含5个处理单元,该5个处理单元用于输出参数二的5个候选值。③用于预测参数三的第二神经网络802的两层FC中,第一层FC包含256个处理单元和激活函数,该第一层FC的输入包括目标语音帧的虚拟的322维的STFT系数,以及t帧历史语音帧共计20个子帧的基音延迟;第二层FC包含4个处理单元,该4个处理单元用于输出参数三的4个子帧的基音延迟。④用于预测参数四的第二神经网络802的两层FC中,第一层FC包含512个处理单元和激活函数,该第一层FC的输入包括目标语音帧的虚拟的322维的STFT系数,以及t帧历史语音帧共计100个LTP系数;第二层FC包含20个处理单元,该20个处理单元用于输出参数四包含的20个LTP系数。
基于图8所示的网络模型,在一种实施方式中,若目标语音帧为清音帧,则历史语音帧的时域参数P_prev(n)包括历史语音帧的短时相关性参数,即t帧历史语音帧共计160个LSF系数;需要预测的目标语音帧的参数集包括目标语音帧的短时相关性参数,即参数一和参数二;那么步骤S506可细化为如下步骤s11-s12:
s11,调用第一神经网络801对历史语音帧的频域特征S_prev(n)进行预测处理,得到目标语音帧的虚拟频域特征S(n)。
s12,将目标语音帧的虚拟频域特征S(n)、历史语音帧的短时相关性参数(t帧历史语音帧共计160个LSF系数)和统计特征SP_prev(n)作为输入信息分别输入至所述第二神经网络中进行预测处理,得到目标语音帧的参数集Pa(n)。
在另一种实施方式中,若所述目标语音帧为浊音帧,则历史语音帧的时域参数P_prev(n)包括历史语音帧的短时相关性参数(即t帧历史语音帧共计160个LSF系数)和长时相关性参数(即t帧历史语音帧共计20个子帧的基音延迟和100个LTP系数),需要预测的目标语音帧的参数集包括目标语音帧的短时相关性参数(即参数一和参数二)和目标语音帧的长时相关性参数(即参数三和参数四);那么步骤S506可细化为如下步骤s13-s15:
s13,调用第一神经网络801对历史语音帧的频域特征S_prev(n)进行预测处理,得到目标语音帧的虚拟频域特征S(n)。
s14,将目标语音帧的虚拟频域特征S(n)、历史语音帧的短时相关性参数(即t帧历史语音帧共计160个LSF系数)和统计特征SP_prev(n)作为输入信息分别输入至用于预测短时相关性参数(即参数一和参数二)的第二神经网络802中进行预测处理,得到参数集Pa(n)中的目标语音帧的短时相关性参数;以及,
s15,将目标语音帧的虚拟频域特征S(n)和历史语音帧的长时相关性参数作为输入信息(即t帧历史语音帧共计20个子帧的基音延迟和100个LTP系数)分别输入至用于预测长时相关性参数(参数三和参数四)的第二神经网络802中进行预测处理,得到参数集Pa(n)中的所述目标语音帧的长时相关性参数。
再请参见图8,网络模型还包括第三神经网络803,第三神经网络与第一神经网络(或第二神经网络)属于并行网络;该第三神经网络803包括一层LSTM和一层FC。基于图8所示的网络模型,在另一种实施方式中,历史语音帧的时域参数还包括历史语音帧的能量参数;所述方法还包括以下步骤s16:
s16,调用第三神经网络对历史语音帧的能量参数进行预测处理,得到目标语音帧的能量参数,该目标语音帧的能量参数属于目标语音帧的参数集Pa(n)中的一种参数;目标语音帧包括m个子帧,目标语音帧的能量参数包括目标语音帧的各个子帧的增益值。
可以使用历史语音帧中的部分或全部语音帧的能量参数来预测目标语音帧的能量参数。本实施例以历史语音帧的能量参数是第n-1和第n-2帧语音帧的能量参数为例进行说明,设第n-1帧语音帧的能量参数表示为gain(n-1),第n-2帧语音帧的能量参数表示为gain(n-2)。本实施例所示示例中,m=4,即每个语音帧包含4个5ms子帧;那么,第n-1帧语音帧的能量参数gain(n-1)包括该第n-1帧语音帧的4个5ms子帧的增益值,具体包括gain(n-1,0)、gain(n-1,1)、gain(n-1,2)、gain(n-1,3);同理,第n-2帧语音帧的能量参数gain(n-2)包括该第n-2帧语音帧的4个5ms子帧的增益值,具体包括gain(n-2,0)、gain(n-2,1)、gain(n-2,2)、gain(n-2,3)。同理,第n帧语音帧的能量参数gain(n)包括该第n帧语音帧的4个5mg子帧的增益值,包括gain(n,0)、gain(n,1)、gain(n,2)、gain(n,3)。本实施例所示示例中,第三神经网络中的LSTM包含128个单元;FC层包含4个处理单元和激活函数,其中,该4个处理单元分别用于输出第n帧语音帧的4个子帧的增益值。
参考图8所示的网络模型的网络结构,根据实际需要(例如目标语音帧的类型)确定参数集Pa(n)中的参数之后,可对网络模型的网络结构进行相应配置,例如:若根据实际需要确定参数集Pa(n)中仅包含参数一、参数二和参数五,那么网络模型的网络结构由第一神经网络801、用于预测参数一的第二神经网络802、用于预测参数二的第二神经网络802和用于预测参数五的第三神经网络803组成;再如:若根据实际需要确定参数集Pa(n)中同时包含参数一至参数五,那么网络模型的网络结构如图8所示。在配置好网络模型的网络结构之后,可采用深度学习的方法对网络模型进行训练,得到优化的网络模型再利用优化的网络模型对历史语音帧的频域特征S_prev(n)、历史语音帧的时域参数P_prev(n)以及历史语音帧的时域参数的统计特征SP_prev(n)进行预测处理,即可得到目标语音帧的参数集Pa(n)。
S507,根据参数集建立重建滤波器。
在获得目标语音帧的参数集Pa(n)之后,就可以使用参数集Pa(n)中的至少两个参数建立重建滤波器,并继续后续重建目标语音帧的流程了。如前述,重建滤波器包括LTP滤波器和LPC滤波器,LTP滤波器可以采用目标语音帧的长时相关性参数(包括参数三和参数四)来建立,LPC滤波器可以采用目标语音帧的短时相关性参数来建立。参见上式1.1,滤波器的建立主要在于确定滤波器的相应系数,LTP滤波器的建立在于确定LTP系数,而参数四已经包含了LTP系数,所以可基于参数四可较为简单地建立LTP滤波器。
LPC滤波器的建立在于确定LPC系数;LPC系数的建立过程如下:
首先,参数一是指目标语音帧的第二个分帧的线谱频率LSF2(n),共包含16个LSF系数;参数二是指目标语音帧的内插因子αlsf(n),可包含5个候选值分别为0,0.25,0.5,0.75,1.0。那么,目标语音帧的第一个分帧的线谱频率LSF1(n)可通过内插完成,具体计算公式如下式2.0所示:
LSF(n,0)=(1-αLSF(n))·LSF(n-1,1)+αLSF(n)·LSF(n,1) 式2.0
上式2.0表示目标语音帧的第一个分帧的线谱频率LSF1(n)是通过第n-1帧语音帧的第二个分帧的线谱频率LSF2(n-1)与目标语音帧的第二个分帧的线谱频率LSF2(n)之间进行加权求和得到,权值即为内任因子的候选值。
其次,根据前述式1.1-式1.5相关推导可知,LPC系数和LSF系数相关,综合式1.1-式1.5可分别获得目标语音帧前10ms的第一个分帧的16阶LPC系数,即LPC1(n);以及获得目标语音帧的后10ms第二个分帧的16阶LPC系数,即LPC2(n)。
经过上述过程可确定LPC系数,由此可建立LPC滤波器。
S508,获取目标语音帧的激励信号。
S509,采用重建滤波器对目标语音帧的激励信号进行滤波处理,得到所述目标语音帧。
图9示出了本申请一个示例性实施例提供的基于激励信号的语音生成模型的结构示意图;基于激励信号的语音生成模型的物理基础是人的声音发生过程,在人的声音发生过程大致可被拆解为两个子过程:(1)当人在进行发声时,人的气管处会产生一定能量的类噪声的冲击信号;这个冲击信号就对应于激励信号,激励信号就是一组随机带符号类噪声序列,具备较强的容错能力。(2)冲击信号冲击人的声带,产生类周期性的开合;通过口腔放大后,发出声音;这个过程对应于重建滤波器,重建滤波器的工作原理就是模拟该过程从而构建出声音。声音分为清音和浊音,所谓浊音是指发音时声带振动的音;而清音是指声带不振动的音。考虑到声音的上述特点,会将上述人的声音发生过程再进行细化:(3)对于浊音这种类周期性信号,重建过程中需要使用LTP滤波器和LPC滤波器,激励信号将分别冲击LTP滤波器和LPC滤波器;(4)对于清音这种非周期信号,重建过程中仅需要使用LPC滤波器,激励信号将只冲击LPC滤波器。
基于上述描述可知,激励信号是一组随机带符号类噪声序列,其作为驱动源用于冲击(或激励)重建滤波器生成目标语音帧。本申请实施例的步骤S508中,可以获取历史语音帧的激励信号,以及根据历史语音帧的激励信号估计目标语音帧的激励信号。
在一种实施方式中,步骤S508可通过复用方式估计目标语音帧的激励信号,复用方式可如下式2.1所示:
ex(n)=ex(n-1) 式2.1
上述式2.1中,ex(n-1)表示第n-1帧语音帧的激励信号;ex(n)表示目标语音帧(即第n帧语音帧)的激励信号。
在另一种实施方式中,步骤S507可以通过平均值方式估计目标语音帧的激励信号,平均值方式可表示如下式2.2所示:
上式1.8表示对第n-t帧至第n-1帧共t帧历史语音帧的激励信号进行平均值计算,得到目标语音帧(即第n帧语音帧)的激励信号ex(n)。式1.8中,ex(n-q)(1≤q≤t)表示第n-t帧至第n-1帧中各帧语音帧的激励信号。
在另一种实施方式中,步骤S508可通过加权求和方式估计目标语音帧的激励信号,加权求和方式可如下式2.3所示:
上式2.3表示对第n-t帧至第n-1帧共t帧历史语音帧的激励信号进行加权求和,得到目标语音帧(即第n帧语音帧)的激励信号ex(n)。式2.3中,∝q表示各帧语音帧的激励信号对应的权值,以t=5为例,一种权值组合可参见如下表1所示:
表1:权值表
项目 | 权值 |
∝<sub>1</sub> | 0.40 |
∝<sub>2</sub> | 0.30 |
∝<sub>3</sub> | 0.15 |
∝<sub>4</sub> | 0.10 |
∝<sub>5</sub> | 0.05 |
结合图9,在一种实施方式中,如果目标语音帧为清音帧这种非周期信号,那么重建滤波器可仅包括LPC滤波器,即只需要使用LPC滤波器来对目标语音帧的激励信号进行滤波处理;此时参数集Pa(n)可仅包括上述参数一和参数二,可选地,还可包含参数五。那么,步骤S509中生成目标语音帧的过程是指LPC滤波阶段的处理过程,包括:
首先,参数一是指目标语音帧的第二个分帧的线谱频率LSF2(n),共包含16个LSF系数;参数二是指目标语音帧的内插因子αlsf(n),可包含5个候选值分别为0,0.25,0.5,0.75,1.0。那么经上式2.0的计算得到目标语音帧的第一个分帧的线谱频率LSF1(n)。
其次,根据前述式1.1-式1.5相关推导可知,LPC系数和LSF系数相关,综合式1.1-式1.5可分别获得目标语音帧前10ms的第一个分帧的16阶LPC系数,即LPC1(n);以及获得目标语音帧的后10ms第二个分帧的16阶LPC系数,即LPC2(n)。
再次,在目标语音帧的激励信号的冲击下,式对LPC1(n)进行LPC滤波以重建目标语音帧的前10ms共160个样本点,并调用gain(n,0)和gain(n,1)对该前160个样本点进行放大处理,得到重建的目标语音帧的前160个样本点。同理,对LPC2(n)进行LPC滤波重建目标语音帧的后10ms共160个样本点,并调用gain(n,2)和gain(n,3)对该后160个样本点进行放大处理,得到重建的目标语音帧的后160个样本点。将目标语音帧的前10ms和后10ms进行合成,得到完整的目标语音帧。
在上述LPC滤波过程中,对第n帧语音帧的LPC滤波使用了第n-1帧语音帧的LSF系数,也就是说,对第n帧语音帧的LPC滤波需要使用与第n帧语音帧相邻的历史语音帧来实现,这就印证了LPC滤波的短时相关性特点。
在另一种实施方式中,如果目标语音帧为浊音帧这种类周期信号,那么重建滤波器包括LPC滤波器和LTP滤波器,即需要使用LTP滤波器和LPC滤波器共同来对目标语音帧的激励信号进行滤波处理,此时参数集Pa(n)可包括上述参数一、参数二、参数三和参数四,可选地,还可包含参数五。那么,步骤S509中生成目标语音帧的过程包括:
(一)LTP滤波阶段:
首先,参数三包括4个子帧的基音延迟,分别为pitch(n,0)、pitch(n,1)、pitch(n,2)和pitch(n,3)。针对每一个子帧的基音延迟均作如下处理:①将子帧的基音延迟与预置阈值进行比较,如果子帧的基音延迟低于预置阈值,则将子帧的基音延迟设置为0,并省略LTP滤波的步骤。②如果子帧的基音延迟不低于预置阈值,那么取该子帧对应的历史样本点,设LTP滤波器的阶数为5,则调用该5阶LTP滤波器对该子帧对应的历史样本点进行LTP滤波,得到该子帧的LTP滤波结果。由于LTP滤波反映的是语音帧的长时相关性,而长时相关性与基音延迟强相关,所以上述步骤②涉及的LTP滤波中,子帧对应的历史样本点是参考该子帧的基音延迟来选取的,具体是以该子帧为起点,往回追溯基音延迟的值对应数量个样本点作为该子帧对应的历史样本点,例如:子帧的基音延迟的值为100,那么该子帧对应的历史样本点是指以该子帧为起点往回追溯的100个样本点。可见,参考子帧的基音延迟来设置该子帧对应的历史样本点,实际上是使用了该子帧之前的历史子帧(如上一个5ms子帧)所包含的样本点来进行LTP滤波,这就印证了LTP滤波的长时相关性特点。
其次,将各个子帧的LTP滤波结果进行合成,包括将第1个子帧的LTP滤波结果和第2个子帧的LTP滤波结果进行合成,得到目标语音帧的前10ms的第一个分帧的LTP合成信号;将第3个子帧的LTP滤波结果和第4个子帧的LTP滤波结果进行合成,得到目标语音帧的后10ms的第二个分帧的LTP合成信号;至此完成LTP滤波阶段的处理。
(二)LPC滤波阶段:
参考上述实施方式中LPC滤波阶段的处理过程,首先基于参数一和参数二获得目标语音帧前10ms的第一个分帧的16阶LPC系数,即LPC1(n);以及获得目标语音帧的后10ms第二个分帧的16阶LPC系数,即LPC2(n)。
其次,使用LTP滤波阶段得到的目标语音帧的前10ms的第一个分帧的LTP合成信号与LPC1(n)共同进行LPC滤波,重建目标语音帧的前10ms共160个样本点,并调用gain(n,0)和gain(n,1)对该前160个样本点进行放大处理,得到重建的目标语音帧的前160个样本点。同理,使用LTP滤波阶段得到的目标语音帧的后10ms的第二个分帧的LTP合成信号与LPC2(n)共同进行LPC滤波,重建目标语音帧的后10ms共160个样本点,并调用gain(n,2)和gain(n,3)对该后160个样本点进行放大处理,得到重建的目标语音帧的后160个样本点。将目标语音帧的前10ms和后10ms进行合成,得到完整的目标语音帧。
通过本实施例的上述描述,当语音信号中的第n帧语音帧需要进行PLC时,基于本实施例的语音处理方法可以重建得到该第n帧语音帧。如果出现连续丢包现象,例如第n+1帧语音帧、第n+2帧语音帧等均出现丢失现象,可以依据上述过程,完成对第n+1帧语音帧、第n+2帧语音帧等的重建恢复,实现连续丢包补偿,确保语音通话质量。
本申请实施例中,当需要对语音信号中的目标语音帧进行重建时,可以调用网络模型对目标语音帧对应的历史语音帧的频域特征、历史语音帧的时域参数及历史语音帧的时域参数的统计特征进行预测处理得到目标语音帧的参数集,再通过对参数集进行参数间滤波来实现目标语音帧的重建。这个语音重建恢复的过程将传统信号分析处理技术与深度学习技术相结合,弥补了传统信号分析处理技术的不足,提升了语音处理能力;并且基于通过对历史语音帧进行深度学习预测出目标语音帧的参数集,进而根据目标语音帧的参数集重建目标语音帧,重建过程较为简单高效,更适用于对实时性要求较高的通信场景;另外,用于重建目标语音帧的参数集中包含两个或两个以上的参数,这样就将网络模型的学习目标进行了分解,分解成为若干参数,每个参数分别对应不同的神经网络来进行学习,依据不同的参数集可对不同的神经网络进行灵活的配置组合形成网络模型的结构,通过这样的方式,能够极大的精简网络结构,并且有效降低处理复杂度,支持连续丢包补偿,即在连续多帧语音帧出现丢失的情况下,能够实现对连续多帧语音帧的重建,确保语音通话质量。
图10示出了本申请一个示例性实施例提供的一种语音处理装置的结构示意图;该语音处理装置可以用于是运行于终端中的一个计算机程序(包括程序代码),例如该语音处理装置可以是终端中的应用程序(如提供VoIP通话功能的App);该运行了语音处理装置的终端可以作为图1或图2所示的接收端;该语音处理装置可以用于执行图4和图5所示的方法实施例中的部分或全部步骤。请参见图10,该语音处理装置包括如下单元:
确定单元1001,用于确定待处理的目标语音帧对应的历史语音帧;
获取单元1002,用于获取历史语音帧的频域特征和历史语音帧的时域参数;
处理单元1003,用于提取历史语音帧的时域参数的统计特征,并调用网络模型对历史语音帧的频域特征、历史语音帧的时域参数及统计特征进行预测处理,得到目标语音帧的参数集,参数集中包含至少两个参数;以及用于根据参数集重建目标语音帧。
一种实施方式中,历史语音帧的时域参数包括历史语音帧的短时相关性参数,历史语音帧的短时相关性参数包括历史语音帧的线谱频率;处理单元1003具体用于:计算历史语音帧的线谱频率得到统计特征;
其中,统计特征包括以下至少一种特征:第一统计特征、第二统计特征和第三统计特征;第一统计特征用于反映历史语音帧的线谱频率对应的角频率随时间变化而产生的变动情况;第二统计特征用于反映历史语音帧的线谱频率对应的角频率的均值;第三统计特征用于反映历史语音帧的线谱频率对应的角频率的高阶矩。
一种实施方式中,历史语音帧的频域特征包括历史语音帧对应的频域系数的幅度谱;若目标语音帧为清音帧,则历史语音帧的时域参数包括历史语音帧的短时相关性参数,参数集包括目标语音帧的短时相关性参数;网络模型包括第一神经网络及至少两个第二神经网络,第二神经网络属于第一神经网络的子网络;一个第二神经网络与参数集中的一种参数相对应;处理单元1003具体用于:
调用第一神经网络对历史语音帧的频域特征进行预测处理,得到目标语音帧的虚拟频域特征;
将目标语音帧的虚拟频域特征、历史语音帧的短时相关性参数和统计特征作为输入信息分别输入至第二神经网络中进行预测处理,得到参数集中的目标语音帧的短时相关性参数;
其中,目标语音帧包括k个分帧,目标语音帧的短时相关性参数包括目标语音帧的第k个分帧的线谱频率及内插因子,k为大于1的整数。
一种实施方式中,历史语音帧的频域特征包括历史语音帧对应的频域系数的幅度谱;若目标语音帧为浊音帧,则历史语音帧的时域参数包括历史语音帧的短时相关性参数和长时相关性参数,参数集包括目标语音帧的短时相关性参数和目标语音帧的长时相关性参数;网络模型包括第一神经网络及至少两个第二神经网络,第二神经网络属于第一神经网络的子网络;一个第二神经网络与参数集中的一种参数相对应;处理单元1003具体用于:
调用第一神经网络对历史语音帧的频域特征进行预测处理,得到目标语音帧的虚拟频域特征;
将目标语音帧的虚拟频域特征、历史语音帧的短时相关性参数和统计特征作为输入信息分别输入至用于预测短时相关性参数的第二神经网络中进行预测处理,得到参数集中的目标语音帧的短时相关性参数;以及,
将目标语音帧的虚拟频域特征和历史语音帧的长时相关性参数作为输入信息分别输入至用于预测长时相关性参数的第二神经网络中进行预测处理,得到参数集中的目标语音帧的长时相关性参数;
其中,目标语音帧包括k个分帧,目标语音帧的短时相关性参数包括目标语音帧的第k个分帧的线谱频率及内插因子,k为大于1的整数;目标语音帧包括m个子帧,目标语音帧的长时相关性参数包括目标语音帧的各个子帧的基音延迟和长时预测系数,m为正整数。
一种实施方式中,处理单元1003具体用于:
根据参数集建立重建滤波器;
获取目标语音帧的激励信号;
采用重建滤波器对目标语音帧的激励信号进行滤波处理,得到目标语音帧;
其中,若目标语音帧为清音帧,重建滤波器包括线性预测编码滤波器;若目标语音帧为浊音帧,重建滤波器包括长时预测滤波器和线性预测编码滤波器。
一种实施方式中,处理单元1003具体用于:
获取历史语音帧的激励信号;
根据历史语音帧的激励信号估计目标语音帧的激励信号。
一种实施方式中,目标语音帧是指经VoIP系统传输的语音信号中的第n帧语音帧;历史语音帧包括经VoIP系统传输的语音信号中的第n-t帧至第n-1帧共t帧语音帧,n、t均为正整数。
一种实施方式中,历史语音帧的激励信号包括第n-1帧语音帧的激励信号;处理单元1003具体用于:将第n-1帧语音帧的激励信号确定为目标语音帧的激励信号。
一种实施方式中,历史语音帧的激励信号包括第n-t帧至第n-1帧中各帧语音帧的激励信号;处理单元1003具体用于:对第n-t帧至第n-1帧共t帧语音帧的激励信号进行平均值计算,得到目标语音帧的激励信号。
一种实施方式中,历史语音帧的激励信号包括第n-t帧至第n-1帧中各帧语音帧的激励信号;处理单元1003具体用于:对第n-t帧至第n-1帧共t帧语音帧的激励信号进行加权求和,得到目标语音帧的激励信号。
一种实施方式中,网络模型还包括第三神经网络,第三神经网络与第一神经网络属于并行网络;历史语音帧的时域参数包括历史语音帧的能量参数;处理单元1003还用于:
调用第三神经网络对历史语音帧的能量参数进行预测处理,得到目标语音帧的能量参数,目标语音帧的能量参数属于目标语音帧的参数集中的一种参数;
目标语音帧包括m个子帧,目标语音帧的能量参数包括目标语音帧的各个子帧的增益值。
本申请实施例中,当需要对语音信号中的目标语音帧进行重建时,可以调用网络模型对目标语音帧对应的历史语音帧的频域特征、历史语音帧的时域参数及历史语音帧的时域参数的统计特征进行预测处理得到目标语音帧的参数集,再通过对参数集进行参数间滤波来实现目标语音帧的重建。这个语音重建恢复的过程将传统信号分析处理技术与深度学习技术相结合,弥补了传统信号分析处理技术的不足,提升了语音处理能力;并且基于通过对历史语音帧进行深度学习预测出目标语音帧的参数集,进而根据目标语音帧的参数集重建目标语音帧,重建过程较为简单高效,更适用于对实时性要求较高的通信场景;另外,用于重建目标语音帧的参数集中包含两个或两个以上的参数,这样就将网络模型的学习目标进行了分解,分解成为若干参数,每个参数分别对应不同的神经网络来进行学习,依据不同的参数集可对不同的神经网络进行灵活的配置组合形成网络模型的结构,通过这样的方式,能够极大的精简网络结构,并且有效降低处理复杂度,支持连续丢包补偿,即在连续多帧语音帧出现丢失的情况下,能够实现对连续多帧语音帧的重建,确保语音通话质量。
图11示出了本申请另一个示例性实施例提供的一种语音处理装置的结构示意图;该语音处理装置可以用于是运行于终端中的一个计算机程序(包括程序代码),例如该语音处理装置可以是终端中的应用程序(如提供VoIP通话功能的App);该运行了语音处理装置的终端可以作为图1或图2所示的接收端;该语音处理装置可以用于执行图3所示的方法实施例中的部分或全部步骤。请参见图11,该语音处理装置包括如下单元:
接收单元1101,用于接收经VoIP系统传输的语音信号;
处理单元1102,用于当语音信号中的目标语音帧丢失时,采用图4或图5所示的方法重建目标语音帧;
输出单元1103,用于基于重建的目标语音帧输出语音信号。
一种实施方式中,处理单元1102还用于:
获取目标语音帧的冗余信息;
当语音信号中的目标语音帧丢失时,根据目标语音帧的冗余信息重建目标语音帧;
若根据目标语音帧的冗余信息重建目标语音帧失败,则采用图4或图5所示的方法重建目标语音帧。
本申请实施例中,当VoIP语音信号中的目标语音帧丢失时,可以采用改进的PLC技术重建目标语音帧,改进的PLC技术重建过程较为简单高效,更适用于对实时性要求较高的通信场景;另外,支持连续丢包补偿,即在连续多帧语音帧出现丢失的情况下,能够实现对连续多帧语音帧的重建,确保语音通话质量;并且,改进的PLC技术还可与FEC技术的组合使用,以相对灵活的组合使用方式避免音质损伤带来的不利影响。
图12示出了本申请一个示例性实施例提供的一种语音处理设备的结构示意图。请参见图12,该语音处理设备可以是图1或图2所示的接收端,该语音处理设备包括处理器1201、输入设备1202、输出设备1203以及计算机可读存储介质1204。其中,处理器1201、输入设备1202、输出设备1203以及计算机可读存储介质1204可通过总线或者其它方式连接。计算机可读存储介质1204可以存储在语音处理设备的存储器中,计算机可读存储介质1204用于存储计算机程序,计算机程序包括程序指令,处理器111用于执行计算机可读存储介质1204存储的程序指令。处理器1201(或称CPU(Central Processing Unit,中央处理器))是语音处理设备的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。
本申请实施例还提供了一种计算机可读存储介质(Memory),其中计算机可读存储介质是语音处理设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括语音处理设备中的内置存储介质,当然也可以包括语音处理设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了语音处理设备的操作系统。并且,在该存储空间中还存放了适于被处理器1201加载并执行的一条或多条的指令,这些指令可以是一个或多个的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器的计算机可读存储介质。
在一个实施例中,该计算机可读存储介质中存储有一条或多条指令;由处理器1201加载并执行计算机可读存储介质中存放的一条或多条指令,以实现图4或图5所示实施例中的语音处理方法的相应步骤;具体实现中,计算机可读存储介质中的一条或多条指令由处理器1201加载并执行如下步骤:
确定待处理的目标语音帧对应的历史语音帧;
获取历史语音帧的频域特征和历史语音帧的时域参数;
提取历史语音帧的时域参数的统计特征;
调用网络模型对历史语音帧的频域特征、历史语音帧的时域参数及统计特征进行预测处理,得到目标语音帧的参数集,参数集中包含至少两个参数;
根据参数集重建目标语音帧。
一种实施方式中,历史语音帧的时域参数包括历史语音帧的短时相关性参数,历史语音帧的短时相关性参数包括历史语音帧的线谱频率;计算机可读存储介质中的一条或多条指令由处理器1201加载并执行提取历史语音帧的时域参数的统计特征的步骤时,具体执行如下步骤:计算历史语音帧的线谱频率得到统计特征;
其中,统计特征包括以下至少一种特征:第一统计特征、第二统计特征和第三统计特征;第一统计特征用于反映历史语音帧的线谱频率对应的角频率随时间变化而产生的变动情况;第二统计特征用于反映历史语音帧的线谱频率对应的角频率的均值;第三统计特征用于反映历史语音帧的线谱频率对应的角频率的高阶矩。
一种实施方式中,历史语音帧的频域特征包括历史语音帧对应的频域系数的幅度谱;若目标语音帧为清音帧,则历史语音帧的时域参数包括历史语音帧的短时相关性参数,参数集包括目标语音帧的短时相关性参数;网络模型包括第一神经网络及至少两个第二神经网络,第二神经网络属于第一神经网络的子网络;一个第二神经网络与参数集中的一种参数相对应;
计算机可读存储介质中的一条或多条指令由处理器1201加载并执行调用网络模型对历史语音帧的频域特征、历史语音帧的时域参数及历史语音帧的时域参数的统计特征进行预测处理,得到目标语音帧的参数集的步骤时,具体执行如下步骤:
调用第一神经网络对历史语音帧的频域特征进行预测处理,得到目标语音帧的虚拟频域特征;
将目标语音帧的虚拟频域特征、历史语音帧的短时相关性参数和统计特征作为输入信息分别输入至第二神经网络中进行预测处理,得到参数集中的目标语音帧的短时相关性参数;
其中,目标语音帧包括k个分帧,目标语音帧的短时相关性参数包括目标语音帧的第k个分帧的线谱频率及内插因子,k为大于1的整数。
一种实施方式中,历史语音帧的频域特征包括历史语音帧对应的频域系数的幅度谱;若目标语音帧为浊音帧,则历史语音帧的时域参数包括历史语音帧的短时相关性参数和长时相关性参数,参数集包括目标语音帧的短时相关性参数和目标语音帧的长时相关性参数;网络模型包括第一神经网络及至少两个第二神经网络,第二神经网络属于第一神经网络的子网络;一个第二神经网络与参数集中的一种参数相对应;
计算机可读存储介质中的一条或多条指令由处理器1201加载并执行调用网络模型对历史语音帧的频域特征、历史语音帧的时域参数及历史语音帧的时域参数的统计特征进行预测处理,得到目标语音帧的参数集的步骤时,具体执行如下步骤:
调用第一神经网络对历史语音帧的频域特征进行预测处理,得到目标语音帧的虚拟频域特征;
将目标语音帧的虚拟频域特征、历史语音帧的短时相关性参数和统计特征作为输入信息分别输入至用于预测短时相关性参数的第二神经网络中进行预测处理,得到参数集中的目标语音帧的短时相关性参数;以及,
将目标语音帧的虚拟频域特征和历史语音帧的长时相关性参数作为输入信息分别输入至用于预测长时相关性参数的第二神经网络中进行预测处理,得到参数集中的目标语音帧的长时相关性参数;
其中,目标语音帧包括k个分帧,目标语音帧的短时相关性参数包括目标语音帧的第k个分帧的线谱频率及内插因子,k为大于1的整数;目标语音帧包括m个子帧,目标语音帧的长时相关性参数包括目标语音帧的各个子帧的基音延迟和长时预测系数,m为正整数。
一种实施方式中,计算机可读存储介质中的一条或多条指令由处理器1201加载并执行根据参数集重建目标语音帧的步骤时,具体执行如下步骤:
根据参数集建立重建滤波器;
获取目标语音帧的激励信号;
采用重建滤波器对目标语音帧的激励信号进行滤波处理,得到目标语音帧;
其中,若目标语音帧为清音帧,重建滤波器包括线性预测编码滤波器;若目标语音帧为浊音帧,重建滤波器包括长时预测滤波器和线性预测编码滤波器。
一种实施方式中,计算机可读存储介质中的一条或多条指令由处理器1201加载并执行获取目标语音帧的激励信号的步骤时,具体执行如下步骤:
获取历史语音帧的激励信号;
根据历史语音帧的激励信号估计目标语音帧的激励信号。
一种实施方式中,目标语音帧是指经VoIP系统传输的语音信号中的第n帧语音帧;历史语音帧包括经VoIP系统传输的语音信号中的第n-t帧至第n-1帧共t帧语音帧,n、t均为正整数。
一种实施方式中,历史语音帧的激励信号包括第n-1帧语音帧的激励信号;计算机可读存储介质中的一条或多条指令由处理器1201加载并执行根据历史语音帧的激励信号估计目标语音帧的激励信号的步骤时,具体执行如下步骤:将第n-1帧语音帧的激励信号确定为目标语音帧的激励信号。
一种实施方式中,历史语音帧的激励信号包括第n-t帧至第n-1帧中各帧语音帧的激励信号;计算机可读存储介质中的一条或多条指令由处理器1201加载并执行根据历史语音帧的激励信号估计目标语音帧的激励信号的步骤时,具体执行如下步骤:对第n-t帧至第n-1帧共t帧语音帧的激励信号进行平均值计算,得到目标语音帧的激励信号。
一种实施方式中,历史语音帧的激励信号包括第n-t帧至第n-1帧中各帧语音帧的激励信号;计算机可读存储介质中的一条或多条指令由处理器1201加载并执行根据历史语音帧的激励信号估计目标语音帧的激励信号的步骤时,具体执行如下步骤:对第n-t帧至第n-1帧共t帧语音帧的激励信号进行加权求和,得到目标语音帧的激励信号。
一种实施方式中,网络模型还包括第三神经网络,第三神经网络与第一神经网络属于并行网络;历史语音帧的时域参数包括历史语音帧的能量参数;计算机可读存储介质中的一条或多条指令由处理器1201加载并且还执行如下步骤:
调用第三神经网络对历史语音帧的能量参数进行预测处理,得到目标语音帧的能量参数,目标语音帧的能量参数属于目标语音帧的参数集中的一种参数;
目标语音帧包括m个子帧,目标语音帧的能量参数包括目标语音帧的各个子帧的增益值。
本申请实施例中,当需要对语音信号中的目标语音帧进行重建时,可以调用网络模型对目标语音帧对应的历史语音帧的频域特征、历史语音帧的时域参数及历史语音帧的时域参数的统计特征进行预测处理得到目标语音帧的参数集,再通过对参数集进行参数间滤波来实现目标语音帧的重建。这个语音重建恢复的过程将传统信号分析处理技术与深度学习技术相结合,弥补了传统信号分析处理技术的不足,提升了语音处理能力;并且基于通过对历史语音帧进行深度学习预测出目标语音帧的参数集,进而根据目标语音帧的参数集重建目标语音帧,重建过程较为简单高效,更适用于对实时性要求较高的通信场景;另外,用于重建目标语音帧的参数集中包含两个或两个以上的参数,这样就将网络模型的学习目标进行了分解,分解成为若干参数,每个参数分别对应不同的神经网络来进行学习,依据不同的参数集可对不同的神经网络进行灵活的配置组合形成网络模型的结构,通过这样的方式,能够极大的精简网络结构,并且有效降低处理复杂度,支持连续丢包补偿,即在连续多帧语音帧出现丢失的情况下,能够实现对连续多帧语音帧的重建,确保语音通话质量。
在另一个实施例中,由处理器1201加载并执行计算机可读存储介质中存放的一条或多条指令,以实现图3所示实施例中的语音处理方法的相应步骤;具体实现中,计算机可读存储介质中的一条或多条指令由处理器1201加载并执行如下步骤:
接收经VoIP系统传输的语音信号;
当语音信号中的目标语音帧丢失时,采用如图4或图5所示的方法重建目标语音帧;
基于重建的目标语音帧输出语音信号。
一种实施方式中,计算机可读存储介质中的一条或多条指令由处理器1201加载并且还执行如下步骤:
获取目标语音帧的冗余信息;
当语音信号中的目标语音帧丢失时,根据目标语音帧的冗余信息重建目标语音帧;
若根据目标语音帧的冗余信息重建目标语音帧失败,则触发采用图4或图5所示的方法重建目标语音帧。
本申请实施例中,当VoIP语音信号中的目标语音帧丢失时,可以采用改进的PLC技术重建目标语音帧,改进的PLC技术重建过程较为简单高效,更适用于对实时性要求较高的通信场景;另外,支持连续丢包补偿,即在连续多帧语音帧出现丢失的情况下,能够实现对连续多帧语音帧的重建,确保语音通话质量;并且,改进的PLC技术还可与FEC技术的组合使用,以相对灵活的组合使用方式避免音质损伤带来的不利影响。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (13)
1.一种语音处理方法,其特征在于,包括:
确定待处理的目标语音帧对应的历史语音帧;
获取所述历史语音帧的频域特征和所述历史语音帧的时域参数;
提取所述历史语音帧的时域参数的统计特征;
调用网络模型对所述历史语音帧的频域特征、所述历史语音帧的时域参数及所述历史语音帧的时域参数的统计特征进行预测处理,得到所述目标语音帧的参数集,所述参数集中包含至少两个参数;
根据所述参数集重建所述目标语音帧。
2.如权利要求1所述的方法,其特征在于,所述历史语音帧的时域参数包括所述历史语音帧的短时相关性参数,所述历史语音帧的短时相关性参数包括所述历史语音帧的线谱频率;
所述提取所述历史语音帧的时域参数的统计特征,包括:采用统计特征计算公式对所述历史语音帧的线谱频率进行计算得到所述统计特征;
其中,所述统计特征包括以下至少一种特征:第一统计特征、第二统计特征和第三统计特征;所述第一统计特征用于反映所述历史语音帧的线谱频率对应的角频率随时间变化而产生的变动情况;所述第二统计特征用于反映所述历史语音帧的线谱频率对应的角频率的均值;所述第三统计特征用于反映所述历史语音帧的线谱频率对应的角频率的高阶矩。
3.如权利要求1所述的方法,其特征在于,所述历史语音帧的频域特征包括所述历史语音帧对应的频域系数的幅度谱;若所述目标语音帧为清音帧,则所述历史语音帧的时域参数包括所述历史语音帧的短时相关性参数,所述参数集包括所述目标语音帧的短时相关性参数;所述网络模型包括第一神经网络及至少两个第二神经网络,所述第二神经网络属于所述第一神经网络的子网络;一个所述第二神经网络与所述参数集中的一种参数相对应;
所述调用网络模型对所述历史语音帧的频域特征、所述历史语音帧的时域参数及所述历史语音帧的时域参数的统计特征进行预测处理,得到所述目标语音帧的参数集,包括:
调用所述第一神经网络对所述历史语音帧的频域特征进行预测处理,得到所述目标语音帧的虚拟频域特征;
将所述目标语音帧的虚拟频域特征、所述历史语音帧的短时相关性参数和所述统计特征作为输入信息分别输入至所述第二神经网络中进行预测处理,得到所述参数集中的所述目标语音帧的短时相关性参数;
其中,所述目标语音帧包括k个分帧,所述目标语音帧的短时相关性参数包括所述目标语音帧的第k个分帧的线谱频率及内插因子,k为大于1的整数。
4.如权利要求1所述的方法,其特征在于,所述历史语音帧的频域特征包括所述历史语音帧对应的频域系数的幅度谱;若所述目标语音帧为浊音帧,则所述历史语音帧的时域参数包括所述历史语音帧的短时相关性参数和长时相关性参数,所述参数集包括所述目标语音帧的短时相关性参数和所述目标语音帧的长时相关性参数;所述网络模型包括第一神经网络及至少两个第二神经网络,所述第二神经网络属于所述第一神经网络的子网络;一个所述第二神经网络与所述参数集中的一种参数相对应;
所述调用网络模型对所述历史语音帧的频域特征、所述历史语音帧的时域参数及所述历史语音帧的时域参数的统计特征进行预测处理,得到所述目标语音帧的参数集,包括:
调用所述第一神经网络对所述历史语音帧的频域特征进行预测处理,得到所述目标语音帧的虚拟频域特征;
将所述目标语音帧的虚拟频域特征、所述历史语音帧的短时相关性参数和所述统计特征作为输入信息分别输入至用于预测短时相关性参数的第二神经网络中进行预测处理,得到所述参数集中的所述目标语音帧的短时相关性参数;以及,
将所述目标语音帧的虚拟频域特征和所述历史语音帧的长时相关性参数作为输入信息分别输入至用于预测长时相关性参数的第二神经网络中进行预测处理,得到所述参数集中的所述目标语音帧的长时相关性参数;
其中,所述目标语音帧包括k个分帧,所述目标语音帧的短时相关性参数包括所述目标语音帧的第k个分帧的线谱频率及内插因子,k为大于1的整数;所述目标语音帧包括m个子帧,所述目标语音帧的长时相关性参数包括所述目标语音帧的各个子帧的基音延迟和长时预测系数,m为正整数。
5.如权利要求1所述的方法,其特征在于,所述根据所述参数集重建所述目标语音帧,包括:
根据所述参数集建立重建滤波器;
获取目标语音帧的激励信号;
采用所述重建滤波器对所述目标语音帧的激励信号进行滤波处理,得到所述目标语音帧;
其中,若所述目标语音帧为清音帧,所述重建滤波器包括线性预测编码滤波器;若所述目标语音帧为浊音帧,所述重建滤波器包括长时预测滤波器和线性预测编码滤波器。
6.如权利要求5所述的方法,其特征在于,所述目标语音帧是指经VoIP系统传输的语音信号中的第n帧语音帧;所述历史语音帧包括经所述VoIP系统传输的语音信号中的第n-t帧至第n-1帧共t帧语音帧,n、t均为正整数;
所述获取目标语音帧的激励信号包括:根据历史语音帧的激励信号估计所述目标语音帧的激励信号;
其中,若所述历史语音帧的激励信号包括第n-1帧语音帧的激励信号,则所述第n-1帧语音帧的激励信号为所述目标语音帧的激励信号;若所述历史语音帧的激励信号包括第n-t帧至第n-1帧中各帧语音帧的激励信号,则所述第n-t帧至第n-1帧共t帧语音帧的激励信号的平均值为所述目标语音帧的激励信号;或者,所述第n-t帧至第n-1帧共t帧语音帧的激励信号的加权求和的结果为所述目标语音帧的激励信号。
7.如权利要求3或4所述的方法,其特征在于,所述网络模型还包括第三神经网络,所述第三神经网络与所述第一神经网络属于并行网络;所述历史语音帧的时域参数包括所述历史语音帧的能量参数;则所述方法还包括:
调用所述第三神经网络对所述历史语音帧的能量参数进行预测处理,得到所述目标语音帧的能量参数,所述目标语音帧的能量参数属于所述目标语音帧的参数集中的一种参数;
所述目标语音帧包括m个子帧,所述目标语音帧的能量参数包括所述目标语音帧的各个子帧的增益值。
8.一种语音处理方法,其特征在于,包括:
接收经VoIP系统传输的语音信号;
当所述语音信号中的目标语音帧丢失时,采用如权利要求1-7任一项所述的方法重建所述目标语音帧;
基于所述重建的目标语音帧输出所述语音信号。
9.如权利要求8所述的方法,其特征在于,所述方法还包括:
获取所述目标语音帧的冗余信息;
当所述语音信号中的目标语音帧丢失时,根据所述目标语音帧的冗余信息重建所述目标语音帧;
若根据所述目标语音帧的冗余信息重建所述目标语音帧失败,则触发采用如权利要求1-7任一项所述的方法重建所述目标语音帧。
10.一种语音处理装置,其特征在于,包括:
确定单元,用于确定待处理的目标语音帧对应的历史语音帧;
获取单元,用于获取所述历史语音帧的频域特征和所述历史语音帧的时域参数;
处理单元,用于提取所述历史语音帧的时域参数的统计特征,并调用网络模型对所述历史语音帧的频域特征、所述历史语音帧的时域参数及所述历史语音帧的时域参数的统计特征进行预测处理,得到所述目标语音帧的参数集,所述参数集中包含至少两个参数;以及用于根据所述参数集重建所述目标语音帧。
11.一种语音处理装置,其特征在于,包括:
接收单元,用于接收经VoIP系统传输的语音信号;
处理单元,用于当所述语音信号中的目标语音帧丢失时,采用如权利要求1-7任一项所述的方法重建所述目标语音帧;
输出单元,用于基于所述重建的目标语音帧输出所述语音信号。
12.一种语音处理设备,其特征在于,所述设备包括:
处理器,适于实现一条或多条指令;以及,
计算机可读存储介质,存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行如权利要求1-9任一项所述的语音处理方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行如权利要求1-9任一项所述的语音处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010417021.9A CN111554323A (zh) | 2020-05-15 | 2020-05-15 | 一种语音处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010417021.9A CN111554323A (zh) | 2020-05-15 | 2020-05-15 | 一种语音处理方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111554323A true CN111554323A (zh) | 2020-08-18 |
Family
ID=72001103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010417021.9A Pending CN111554323A (zh) | 2020-05-15 | 2020-05-15 | 一种语音处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111554323A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112289343A (zh) * | 2020-10-28 | 2021-01-29 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频修复方法、装置及电子设备和计算机可读存储介质 |
WO2022166738A1 (zh) * | 2021-02-08 | 2022-08-11 | 腾讯科技(深圳)有限公司 | 语音增强方法、装置、设备及存储介质 |
-
2020
- 2020-05-15 CN CN202010417021.9A patent/CN111554323A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112289343A (zh) * | 2020-10-28 | 2021-01-29 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频修复方法、装置及电子设备和计算机可读存储介质 |
CN112289343B (zh) * | 2020-10-28 | 2024-03-19 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频修复方法、装置及电子设备和计算机可读存储介质 |
WO2022166738A1 (zh) * | 2021-02-08 | 2022-08-11 | 腾讯科技(深圳)有限公司 | 语音增强方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111554309A (zh) | 一种语音处理方法、装置、设备及存储介质 | |
CN111554322A (zh) | 一种语音处理方法、装置、设备及存储介质 | |
JP5232151B2 (ja) | パケットベースのエコー除去および抑制 | |
JP5226777B2 (ja) | 音声信号中に埋め込まれた隠れデータの回復 | |
RU2677453C2 (ru) | Способы, кодер и декодер для линейного прогнозирующего кодирования и декодирования звуковых сигналов после перехода между кадрами, имеющими различные частоты дискретизации | |
EP3992964B1 (en) | Voice signal processing method and apparatus, and electronic device and storage medium | |
TW200401532A (en) | Distributed voice recognition system utilizing multistream network feature processing | |
WO2012158159A1 (en) | Packet loss concealment for audio codec | |
JP4263412B2 (ja) | 音声符号変換方法 | |
JP5027966B2 (ja) | 入力信号をボコーディングする方法および装置およびそのためのコンピュータ読み出し可能信号を有する媒体を含む製造物品 | |
CN114550732B (zh) | 一种高频音频信号的编解码方法和相关装置 | |
CN111554323A (zh) | 一种语音处理方法、装置、设备及存储介质 | |
WO2022228144A1 (zh) | 音频信号增强方法、装置、计算机设备、存储介质和计算机程序产品 | |
JPH1055199A (ja) | 音声符号化並びに復号化方法及びその装置 | |
CN111554308A (zh) | 一种语音处理方法、装置、设备及存储介质 | |
US7603271B2 (en) | Speech coding apparatus with perceptual weighting and method therefor | |
JP2000155597A (ja) | デジタル音声符号器において使用するための音声符号化方法 | |
JP5604572B2 (ja) | 複雑さ分散によるデジタル信号の転送誤り偽装 | |
JP4006770B2 (ja) | ノイズ推定装置、ノイズ削減装置、ノイズ推定方法、及びノイズ削減方法 | |
CN112634912A (zh) | 丢包补偿方法及装置 | |
JP2024502287A (ja) | 音声強調方法、音声強調装置、電子機器、及びコンピュータプログラム | |
US9111527B2 (en) | Encoding device, decoding device, and methods therefor | |
US6385574B1 (en) | Reusing invalid pulse positions in CELP vocoding | |
CN116110424A (zh) | 一种语音带宽扩展方法及相关装置 | |
RU2394284C1 (ru) | Способ сжатия и восстановления речевых сигналов для систем кодирования с переменной скоростью передачи |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40028873 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |