CN111554308A - 一种语音处理方法、装置、设备及存储介质 - Google Patents

一种语音处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111554308A
CN111554308A CN202010416575.7A CN202010416575A CN111554308A CN 111554308 A CN111554308 A CN 111554308A CN 202010416575 A CN202010416575 A CN 202010416575A CN 111554308 A CN111554308 A CN 111554308A
Authority
CN
China
Prior art keywords
frame
speech
target
historical
speech frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010416575.7A
Other languages
English (en)
Inventor
肖玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010416575.7A priority Critical patent/CN111554308A/zh
Publication of CN111554308A publication Critical patent/CN111554308A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Abstract

本申请实施例提供一种语音处理方法、装置、设备及存储介质,其中的方法可包括:确定待处理的目标语音帧对应的历史语音帧;获取历史语音帧的时域参数;根据历史语音帧的时域参数预测得到目标语音帧的参数集,参数集中包含至少两个参数;根据参数集重建目标语音帧。本申请实施例能够弥补传统信号分析处理技术的不足,提升语音处理能力。

Description

一种语音处理方法、装置、设备及存储介质
技术领域
本申请涉及互联网技术领域,具体涉及VoIP(Voice over Internet Protocol,基于IP的语音传输)通话技术领域,尤其一种语音处理方法,一种语音处理装置、一种语音处理设备及一种计算机可读存储介质。
背景技术
语音信号经VoIP系统传输的过程中可能会产生音质损伤的现象。现有技术中,解决音质损伤的现象的一种主流方案是经典的PLC技术,主要原理是:接收端如果未收到第n(n为正整数)帧语音帧,会对第n-1帧语音帧进行信号分析处理以补偿第n帧语音帧。但实践发现,由于信号分析处理能力有限,经典的PLC技术的语音处理能力有限,无法适用于现网突发丢包的场景。
发明内容
本申请实施例提供一种语音处理方法、装置、设备及存储介质,能够弥补传统信号分析处理技术的不足,提升语音处理能力。
一方面,本申请实施例提供一种语音处理方法,包括:
确定待处理的目标语音帧对应的历史语音帧;
获取历史语音帧的时域参数;
根据历史语音帧的时域参数预测得到目标语音帧的参数集,参数集中包含至少两个参数;
根据参数集重建目标语音帧。
一方面,本申请实施例提供一种语音处理方法,包括:
接收经VoIP系统传输的语音信号;
当语音信号中的目标语音帧丢失时,采用如上述的方法重建目标语音帧;
基于重建的目标语音帧输出语音信号。
一方面,本申请实施例提供一种语音处理装置,包括:
确定单元,用于确定待处理的目标语音帧对应的历史语音帧;
获取单元,用于获取历史语音帧的时域参数;
处理单元,用于根据历史语音帧的时域参数预测得到目标语音帧的参数集,参数集中包含至少两个参数;以及用于根据参数集重建目标语音帧。
一方面,本申请实施例提供另一种语音处理装置,包括:
接收单元,用于接收经VoIP系统传输的语音信号;
处理单元,用于当语音信号中的目标语音帧丢失时,采用如上述的方法重建目标语音帧;
输出单元,用于基于重建的目标语音帧输出语音信号。
一方面,本申请实施例提供一种语音处理设备,该设备包括:
处理器,适于实现一条或多条指令;以及,
计算机可读存储介质,存储有一条或多条指令,一条或多条指令适于由处理器加载并执行如上述的语音处理方法。
一方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质存储有一条或多条指令,一条或多条指令适于由处理器加载并执行如上述的语音处理方法。
本申请实施例中,当需要对语音信号中的目标语音帧进行重建时,可以获取该目标语音帧对应的历史语音帧的时域参数,并根据该历史语音帧的时域参数预测得到目标语音帧的参数集,上述过程将目标语音帧的重建任务分解成为若干参数的预测任务,再通过对参数集进行参数间滤波来实现目标语音帧的重建;这样语音重建方式较为简单高效,能够有效降低处理复杂度,更适用于对实时性要求较高的通信场景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请一个示例性实施例提供的一种VoIP系统的结构示意图;
图2示出了本申请一个示例性实施例提供的一种语音处理系统的结构示意图;
图3示出了本申请一个示例性实施例提供的一种语音处理方法的流程图;
图4示出了本申请另一个示例性实施例提供的一种语音处理方法的流程图;
图5示出了本申请另一个示例性实施例提供的一种语音处理方法的流程图;
图6示出了本申请一个示例性实施例提供的一种网络模型的结构示意图;
图7示出了本申请一个示例性实施例提供的基于激励信号的语音生成模型的结构示意图;
图8示出了本申请另一个示例性实施例提供的一种语音处理方法的流程图;
图9示出了本申请一个示例性实施例提供的历史语音帧的时域参数的统计特征的示意图;
图10示出了本申请一个示例性实施例提供的一种语音处理装置的结构示意图;
图11示出了本申请另一个示例性实施例提供的一种语音处理装置的结构示意图;
图12示出了本申请一个示例性实施例提供的一种语音处理设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例涉及VoIP。VoIP是一种语音通话技术,经由IP来达成语音通话与多媒体会议,也即是经由互联网来进行通信。VoIP又可称为IP电话、互联网电话、网络电话、宽带电话、宽带电话服务。图1示出了本申请一个示例性实施例提供的一种VoIP系统的结构示意图;该系统包括发送端和接收端,发送端是指发起经VoIP系统传输的语音信号的终端;相应地,接收端是指接收经VoIP传输的语音信号的终端;此处的终端可包括但不限于:手机、PC(Personal Computer,个人计算机)、PDA等等。语音信号在VoIP系统中的处理流程大致如下:
在发送端侧:
(1)采集输入的语音信号,此处例如可以是通过麦克风来进行采集,该语音信号是模拟信号;对该语音信号进行模数转换,得到数字信号;
(2)对该数字信号进行编码处理,得到多个语音帧;此处,编码处理可以是指OPUS编码处理。其中,OPUS是一种有损声音编码的格式,适用于网络上的实时声音传输,其主要特性包括:①支持从8000Hz(窄带信号)至48000Hz(全频信号)的采样率范围;②支持恒定比特率和可变比特率;③支持从窄带到全频段的音频带宽;④支持语音和音乐;⑤可动态调节比特率、音频带宽和帧大小;⑤具备良好的鲁棒性丢失率和PLC(Packet LossConcealment,丢包补偿)能力。基于OPUS较强的PLC能力和良好的VoIP音质,VoIP系统中通常采用OPUS编码。编码过程中的采样率Fs可根据实际需要设定,Fs可以为8000Hz(赫兹)、16000Hz、32000Hz、48000Hz等等。一般地,语音帧的帧长由编码过程所采用的编码器的结构确定,一帧语音帧的帧长例如可以为10ms(毫秒)、20ms等。
(3)将多个语音帧封装为一个或多个IP数据包。
(4)将IP数据包通过网络发送给接收端。
在接收端侧:
(5)接收网络传输的IP数据包,并对接收到的IP数据包进行解封装,得到多个语音帧。
(6)对语音帧进行解码,恢复为数字信号。
(7)对数字信号进行数模转换,还原为模拟的语音信号并输出,此处的输出例如可以是通过喇叭进行播放。
语音信号经VoIP系统传输的过程中可能会产生音质损伤的现象。所谓音质损伤是指发送端的正常语音信号传输至接收端后,在接收端侧出现播放卡顿、不流畅等异常情况的现象。产生音质损伤现象的一个重要因素是网络原因,数据包在传输过程中,由于网络不稳定或异常等原因使得接收端不能正常接收数据包,导致数据包中的语音帧发生丢失,进而使得接收端无法恢复出语音信号,从而在输出语音信号时出现卡顿等异常情况。现有技术中,针对音质损伤的现象有如下几种主流的解决方案:
一种方案涉及FEC(Feedforward Error Correction,前向纠错)技术。FEC技术一般是部署在发送端。其主要原理是:在发送端将第n(n为正整数)帧语音帧打包发送后,在下一个数据包中,仍然分配一定带宽对该第n帧语音帧再次进行打包发送,再次打包形成的数据包称为“冗余包”,冗余包内封装的第n帧语音帧的信息称为第n帧语音帧的冗余信息。为了节省传输带宽,可以降低第n帧语音帧的精度,将低精度版本的第n帧语音帧的信息打包至冗余包中。在语音传输过程中,如果第n帧语音帧发生丢失,接收端可以等待该第n帧语音帧的冗余包到达后,根据冗余包中第n帧语音帧的冗余信息重建第n帧语音帧,并恢复出相应的语音信号。FEC技术可分为带内FEC和带外FEC,所谓带内FEC是指使用一帧语音帧内的空闲字节来存储冗余信息。所述带外FEC是指在一帧语音帧的结构之外通过数字包封装技术存储冗余信息。但实践发现,基于FEC技术在解决音质损伤的过程中,有如下不足:需要占用额外带宽来编码冗余信息,而接收端在等待冗余信息的过程中,会增加额外延时;并且,不同的编码机制需要特定的FEC适配,成本高且不够灵活。
另一种方案是经典的PLC(Packet Loss Concealment,丢包补偿)技术,该PLC技术通常是部署在接收端。经典的PLC技术的主要原理是:接收端如果未收到第n帧语音帧,会读取第n-1帧语音帧,对该第n-1帧语音帧进行传统的信号分析处理以补偿第n帧语音帧。相比较FEC技术而言,PLC技术无需花费额外带宽。但实践发现,基于PLC技术在解决音质损伤问题的过程中,仍然有其不足的地方:信号分析处理能力有限,只适用于针对一帧语音帧进行丢失的情况,然而现网很多情况下是突发丢包(即连续多帧出现丢失的情况),在此情况下,上述基于PLC技术是失效的。
本申请实施例提出一种语音处理方案,该方案针对上述经典的PLC技术作出了如下几个改进:①通过对历史语音帧的时域参数进行分析预测出目标语音帧的参数集,进而根据目标语音帧的参数集重建目标语音帧,重建过程较为简单高效,更适用于对实时性要求较高的通信场景;②由于不同类型的参数对预测误差的容忍度不统一,可以针对不同类型的参数采用不同的预测策略,这样能够实现有针对性的预测处理,有效提升语音处理效率;③对预测误差的容忍度较低的参数,可以采用网络模型预测策略;即将传统信号分析处理技术与深度学习技术相结合,基于语音信号的数据进行建模,通过对历史语音帧进行深度学习来预测出目标语音帧的相应的参数,由于只针对对预测误差的容忍度较低的参数来进行建模,这样可以有效控制模型的大小,极大的精简网络结构,降低处理复杂度;④对于预测误差的容忍度较高的参数,可以采用信号推理策略,即通过对历史语音帧的时域参数进行简单的信号推理处理来预测目标语音帧的相应参数,这能有效提升语音处理效率;⑤用于重建目标语音帧的参数集中包含两个或两个以上的参数,这样就将目标语音帧的重建任务分解成为若干参数的预测任务的过程,通过这样的方式,能够有效降低处理复杂度;⑥支持连续丢包补偿,即在连续多帧语音帧出现丢失的情况下,能够实现对连续多帧语音帧的重建,确保语音通话质量;⑤支持与FEC技术的组合使用,以相对灵活的组合使用方式避免音质损伤带来的不利影响。
下面将结合附图,对本申请实施例所提出的语音处理方案进行详细介绍。
图2示出了本申请一个示例性实施例提供的一种语音处理系统的结构示意图;如图2所示,本申请实施例提出的改进的PLC技术部署在下行接收端侧,这样部署原因在于:1)接收端是系统在端到端通信中的最后一个环节,重建的目标语音帧被恢复成语音信号输出(如通过扬声器、喇叭等播放)后,用户能够直观感知其语音质量;2)在移动通信领域,下行空口到接收端的通信链路是最容易出现质量问题的节点,在此节点处设置PLC机制能够获得较直接的音质改善。
图3示出了本申请一个示例性实施例提供的一种语音处理方法的流程图;由于改进的PLC技术部署在下行接收端,所以图3所示流程以图2所示的接收端为执行主体;该方法包括以下步骤S301-S303。
S301,接收经VoIP系统传输的语音信号。
语音信号是由发送端经网络发送至接收端的,如前述VoIP系统中的处理流程可知,接收端所接收的语音信号是IP数据包形式的语音信号。接收端对该IP数据包进行解封装处理,得到语音帧。
S302,当语音信号中的目标语音帧丢失时,采用本申请实施例提出的改进的PLC技术重建目标语音帧。本申请实施例采用第n帧语音帧来表示目标语音帧,其改进的PLC技术所涉及的语音处理方法将在后续实施例中进行详细描述。
S303,基于所述重建的目标语音帧输出语音信号。
当重建目标语音帧之后,接收端会对目标语音帧进行解码、数模转换等处理,最后通过扬声器、喇叭等播放语音信号,从而实现了语音信号的还原输出。
在一种实施方式中,改进的PLC技术可以被单独使用。此情况下,当接收端确认第n帧语音帧丢失时,就激活丢包补偿的功能,通过改进的PLC技术涉及的处理流程来重建第n帧语音帧(即上述步骤S303)。另一种实施方式中,改进的PLC技术还可以与FEC技术组合使用,此情况下,图3所示流程还可包括如下步骤S304-S305:
S304,获取目标语音帧的冗余信息。
S305,当语音信号中的目标语音帧丢失时,根据目标语音帧的冗余信息重建目标语音帧。如果根据目标语音帧的冗余信息重建目标语音帧失败,再触发执行步骤S302,采用本申请实施例提出的改进的PLC技术重建目标语音帧。
在改进的PLC技术与FEC技术组合使用的场景中,在发送端进行FEC操作,即不仅将第n帧语音帧进行打包发送,还将第n帧语音帧的冗余信息进行打包发送;当第n帧语音帧出现丢失时,接收端先依赖该第n帧语音帧的冗余信息尝试对第n帧语音帧进行重建恢复,如果无法成功恢复该第n帧语音帧,再激活改进的PLC功能,通过改进的PLC技术涉及的处理流程来重建第n帧语音帧。
本申请实施例中,当VoIP语音信号中的目标语音帧丢失时,可以采用改进的PLC技术重建目标语音帧,改进的PLC技术重建过程较为简单高效,更适用于对实时性要求较高的通信场景;另外,支持连续丢包补偿,即在连续多帧语音帧出现丢失的情况下,能够实现对连续多帧语音帧的重建,确保语音通话质量;并且,改进的PLC技术还可与FEC技术的组合使用,以相对灵活的组合使用方式避免音质损伤带来的不利影响。
下面将结合附图,对本申请实施例提出的改进的PLC技术涉及的语音处理方法进行详细介绍。
图4示出了本申请另一个示例性实施例提供的一种语音处理方法的流程图;该方法由图2所示的接收端来执行;该方法包括以下步骤S401-S404。
S401,确定待处理的目标语音帧对应的历史语音帧。
当经VoIP系统传输的语音信号中存在语音帧丢失时,该被丢失的语音帧就被确定为目标语音帧,历史语音帧是指在目标语音帧之前被传输,且能够被成功恢复出语音信号的语音帧。本申请后续实施例中,均以目标语音帧是经VoIP系统传输的语音信号中的第n(n为正整数)帧语音帧;并且以历史语音帧包括经VoIP系统传输的语音信号中的第n-t帧至第n-1帧共t(t为正整数)帧语音帧为例进行说明。t的值可以根据实际需要设定,本申请实施例并不对t的值进行限定;例如:若欲降低运算难度,t的值可以设定得相对小一些,如t=1,即选取第n帧之前的相邻一帧作为历史语音帧;或如t=2,即选取第n帧之前的相邻两帧作为历史语音帧。若欲获得更准确的运算结果,t的值可以设定得相对大一些,如t=n-1,即选取第n帧之前的所有帧作为历史语音帧。
S402,获取历史语音帧的时域参数。
时域参数是用来表示时域信号的时域特征的参数;时域参数包括但不限于以下至少一种:短时相关性参数、长时相关性参数和能量参数。各种类型的时域参数的定义详见后续实施例的描述。历史语音帧是时域信号,该历史语音帧的时域参数就是用来反映该历史语音帧的时域特征的参数;该历史语音帧的时域参数可包括以下至少一种:历史语音帧的短时相关性参数、历史语音帧的长时相关性参数和历史语音帧的能量参数。
S403,根据所述历史语音帧的时域参数预测得到所述目标语音帧的参数集,所述参数集中包含至少两个参数。
目标语音帧的参数集中包含至少两个参数,该参数集中的参数是指用于重建恢复目标语音帧所需的目标语音帧的时域参数;参见前述时域参数的相关定义可知,目标语音帧的参数集中的参数可包括以下至少一种:目标语音帧的长时相关性参数、目标语音帧的短时相关性参数和目标语音帧的能量参数。目标语音帧的类型可以包括但不限于:浊音帧和清音帧;浊音帧属于类周期性信号,而清音帧属于非周期性信号。目标语音帧的类型不同,其重建所需的参数也不同,则目标语音帧的参数集包含的参数也不同。根据实际需要确定参数集中的参数之后,可对历史语音帧的时域参数进行预测处理,得到所述目标语音帧的参数集。
不同类型的时域参数对预测误差的容忍度也不一样,某些类型的时域参数对预测误差的容忍度较低,而某些类型的时域参数对预测误差的容忍度较高。所谓对预测误差的容忍度是指所允许的预测误差的范围,例如:预测误差的容忍度为±0.1,表示所允许的预测误差的范围为[-0.1,0.1]。所允许的预测误差的范围越大,则对预测误差的容忍度越高;反之,所允许的预测误差的范围越小,则对预测误差的容忍度越低。在一种实施方式中,若所允许的预测误差的范围小于容忍阈值(此容忍阈值可根据实际需要进行设定),就认为该对预测误差的容忍度较低;反之,若所允许的预测误差的范围大于容忍阈值,就认为对预测误差的容忍度较高。本申请实施例中,针对不同类型的时域参数对预测误差的容忍度的差异,可以对不同类型的时域参数采用不同的预测处理策略;这样能够实现有针对性的预测处理,有效提升语音处理效率;在一种实施方式中,若参数集中包含对预测误差的容忍度较低的参数(如目标语音帧的长时相关性参数),那么可以采用网络模型预测策略对预测该参数所需的历史语音帧的时域参数进行预测处理,该网络模型可包含多个神经网络,在配置好网络模型的网络结构之后,可采用深度学习的方法对网络模型进行训练,得到优化的网络模型
Figure BDA0002493563470000091
再利用优化的网络模型
Figure BDA0002493563470000092
对历史语音帧的相应的时域参数进行预测处理,即可得到目标语音帧的参数集中对预测误差的容忍度较低的参数。这样就将传统信号分析处理技术与深度学习技术相结合,且可以有效控制模型的大小,极大的精简网络结构,降低处理复杂度。在另一种实施方式中,若参数集中包含对预测误差的容忍度较高的参数(如目标语音帧的短时相关性参数),可以采用信号推理策略对预测该参数所需的历史语音帧的时域参数进行信号推理处理,提升语音处理效率。
S404,根据参数集重建目标语音帧。
参数集Pa(n)中包含的是预测得到的目标语音帧的时域参数,而时域参数是反映时域信号的时域特征的参数,那么,利用预测得到的目标语音帧的时域参数所表征的目标语音帧的时域特征,可以对目标语音帧进行重建恢复。具体实现中,可以对参数集Pa(n)中的参数进行参数间滤波处理来重建目标语音帧。
本申请实施例中,当需要对语音信号中的目标语音帧进行重建时,可以获取该目标语音帧对应的历史语音帧的时域参数,并根据该历史语音帧的时域参数预测得到目标语音帧的参数集,上述过程将目标语音帧的重建任务分解成为若干参数的预测任务,再通过对参数集进行参数间滤波来实现目标语音帧的重建;这样语音重建方式较为简单高效,能够有效降低处理复杂度,更适用于对实时性要求较高的通信场景。
为了方便描述,本申请后续实施例中以下述示例场景为例进行详细说明,示例场景包括如下信息:(1)语音信号为采样率Fs=16000Hz的宽带信号;根据经验,采样率Fs=16000Hz的宽带信号对应的LPC滤波器的阶数为16;(2)语音帧的帧长为20ms,每帧语音帧包含320个样本。(3)每帧语音帧的320个样本点被分解为两个分帧,第一个分帧对应语音帧的前10ms共160个样本点,第二个分帧对应语音帧的后10ms共160个样本点。(4)每帧语音帧按照5ms进行分帧处理得到4个5ms子帧,根据经验,5ms子帧对应的LTP滤波器的阶数为5。需要说明的是,引用上述示例场景只是为了更清楚地描述本申请实施例的语音处理方法的流程,但并不构成对本申请实施例相关技术的限定,本申请实施例的语音处理方法在其他场景中同样适用,例如,在其他场景中Fs可相应变化,如Fs=8000Hz、32000Hz或48000Hz;语音帧也可相应变化,例如帧长可以为10ms,15ms;分帧和子帧的分解方式均可相应变化;例如:对语音帧进行分解处理形成分帧,及对语音帧进行分帧处理形成子帧时,均可以按照5ms来进行处理,即分帧和子帧的帧长均为5ms;等等,这些其他场景中的语音处理流程可参考本申请实施例的示例场景中的语音处理流程进行类似分析。
图5示出了本申请另一个示例性实施例提供的一种语音处理方法的流程图;该方法由图2所示的接收端来执行;该方法包括以下步骤S501-S507。
S501,确定待处理的目标语音帧对应的历史语音帧。
目标语音帧是指语音信号中的第n帧语音帧;历史语音帧包括语音信号中的第n-t帧至第n-1帧共t帧语音帧,n、t均为正整数,t的值可以根据实际需要设定,另外,在语音处理的过程中,t的值也可以发生变化。需要特别说明的是,历史语音帧是指在目标语音帧之前被传输,且能够被成功恢复出语音信号的语音帧,一种实施方式中,历史语音帧是由接收端完整接收,并能正常通过解码恢复出语音信号的语音帧;另一种实施方式中,历史语音帧是曾发生丢失,但经FEC技术、经典的PLC技术、本申请实施例提出的改进的PLC技术,或上述各种技术的组合已经成功重建的语音帧,该成功重建的语音帧能够被正常解码恢复出语音信号。同理,当经过本申请实施例的语音处理方成功重建第n帧语音帧后,如果第n+1帧语音帧出现丢失需要进行重建,则该第n帧语音帧又可以作为第n+1帧语音帧的历史语音帧,帮助第n+1帧语音帧实现重建。如图5所示,历史语音帧可表示为s_prev(n),它表示由第n-t帧至第n-1帧语音帧包含的样本点按序组成的序列,此处以t=1为例,s_prev(n)共计320个样本点,即s_prev(n)采用320个样本点组成的时域波形来表达第n-1帧语音帧随时间变化而发生的信号变化情况。
S502,获取历史语音帧的时域参数。
时域参数是用来表示时域信号的时域特征的参数;时域参数包括但不限于以下至少一种:短时相关性参数、长时相关性参数和能量参数。各种时域参数与时域信号在语音处理流程中的滤波处理息息相关,本申请实施例涉及重建滤波器,下面结合重建滤波器的定义,对各种时域参数的定义进行介绍。本实施例中,设第i(i为正整数)帧语音帧是语音信号中的任一帧语音帧,以第i帧语音帧为例,各种时域参数的定义如下:
(1)短时相关性参数。
短时相关性参数是反映时域语音信号的短时相关性特征的参数。重建滤波器的核心包括LPC滤波器和LTP滤波器。其中,LPC滤波器负责处理与线性预测的短时相关性有关的参数,所以短时相关性参数可以认为是与LPC滤波器相关的参数。首先,定义一个p阶滤波器如下式1.1所示:
Ap(z)=1+a1z-1+a2z-2+…+apz-p 式1.1
上式1.1中,p为滤波器的阶数。针对LPC滤波器,aj(1≤j≤p)表示LPC系数;针对LTP滤波器,aj(1≤j≤p)表示LTP系数。z表示语音信号。LPC滤波器基于LP(LinearPrediction,线性预测)分析来实现,所谓LP分析是指采用LPC对第i帧语音帧进行滤波处理时,该第i帧语音帧的滤波结果是由该第i帧语音帧的前p个历史语音帧与上式1.1所示的p阶滤波器求卷积获得;这符合语音的短时相关性特点。根据经验,在采样率Fs=8000Hz的场景中,LPC滤波器的阶数p=10;在采样率Fs=16000Hz场景中,LPC滤波器的阶数p=16。
本实施例所示示例中,采样率Fs=16000Hz,则LPC滤波器的阶数可取p=16;上述式1.1所示的p阶滤波器,可以进一步分解为下式1.2:
Figure BDA0002493563470000111
其中,P(z)=Ap(z)-z-(p+1)Ap(z-1) 式1.3
Q(z)=Ap(z)+z-(p+1)Ap(z-1) 式1.4
从物理意义上来看,式1.3所示的P(z)代表声门张开的周期性变化规律,式1.4所示的Q(z)代表声门闭合的周期性变化规律,P(z)和Q(z)代表声门一张一合的周期性变化规律。
P(z)和Q(z)两个多项式分解形成的根(root)在复平面交替出现,因此被命名为LSF(Line Spectral Frequency,线谱频率),该LSF表示为P(z)和Q(z)的根分布在复平面单位圆上的一系列角频率wk。假定将P(z)和Q(z)在复平面的root定义为θk,那么其对应的角频率定义为如下式1.5:
Figure BDA0002493563470000121
上式1.5中,Re{θk}表示θk的实数,Im{θk}表示θk的虚数。
通过上述式1.5可以计算得到第i帧语音帧的线谱频率LSF(i),而如前述可知,线谱频率是与语音的短时相关性强相关的参数,故第i帧语音帧的短时相关性参数包含该第i帧语音帧的线谱频率LSF(i)。实际应用中,语音帧通常会进行分解处理,即一个语音帧会被分解成k个分帧,第i帧语音帧的LSF(i)被分解为k个分帧的线谱频率LSFk(i);如本实施例所示示例中,语音帧被分成前10ms和后10ms共两个分帧;第i帧语音帧的LSF(i)被分解为其第一个分帧的线谱频率LSF1(i)和其第二个分帧的线谱频率LSF2(i)。那么为了进一步简化计算复杂度,在一种实施方式中,可通过上式1.5获得第i帧语音帧的第二个分帧的线谱频率LSF2(i);然后,可以基于第i-1帧的第二个分帧的线谱频率LSF2(i-1)与该第i帧语音帧的第二个分帧的线谱频率LSF2(i),通过内插得到该第i帧语音帧的第一个分帧的线谱频率LSF1(i),内插因子表示为αlsf(i)。所以更进一步,第i帧语音帧的短时相关性参数可包括该第i个语音帧的第二个分帧的线谱频率LSF2(i);和内插因子αlsf(i)。第i帧语音帧的每一个分帧均包含p个线谱频率,p是对应LPC滤波器的阶数,本实施例中p=16,则第i帧语音帧的每个分帧均包含16个LSF系数。
(2)长时相关性参数。
长时相关性参数是反映时域语音信号的长时相关性特征的参数。LTP滤波器负责处理与基音延迟的长时相关性有关的参数,所以长时相关性参数可以认为是与LTP滤波器相关的参数。LTP滤波反映的是语音帧(特别是浊音帧)的长时相关性,长时相关性与语音帧的基音延迟(Pitch Lag)强相关。基音延迟反映了语音帧的类周期性,即第i帧语音帧中的样本点的基音延迟,可以通过对该第i帧语音帧对应的历史语音帧中的样本点的基音延迟进行固定,再基于类周期性对固定的基音延迟进行LTP滤波获得。因此,第i帧语音帧的长时相关性参数包含该第i帧语音帧的各个子帧的基音延迟和LTP系数。
(3)能量参数。
不同语音帧的能量也不尽相同,而能量可以通过语音帧的各个子帧的增益值来体现,所以,第i帧语音帧的能量参数就是指第i帧语音帧中的各个子帧的增益值。
按照对预测误差的容忍度来进行划分,第i帧语音帧的时域参数可以分为两类,一类是对预测误差的容忍度较低的时域参数,可包括第i帧语音帧的长时相关性参数,还可包含能量参数。另一类是对预测误差的容忍度较高的时域参数,可包括第i帧语音帧的短时相关性参数。
参考上述定义可知,设历史语音帧的时域参数表示为P_prev(n),按照对预测误差的容忍度来进行划分,该P_prev(n)可以包含P_prev1(n)和P_prev2(n),P_prev1(n)表示对预测误差的容忍度较低的时域参数,P_prev2(n)表示对预测误差的容忍度较高的时域参数;其中,该P_prev1(n)可包括以下至少一种:①历史语音帧的长时相关性参数,包含的是这t帧历史语音帧的各个5ms子帧的基音延迟和5阶LTP滤波器系数,每一帧历史语音帧的每个子帧对应一个基音延迟和5个LTP系数;②历史语音帧的能量参数,包含的是这t帧历史语音帧的各个5ms子帧的增益值。该P_prev2(n)包括历史语音帧的短时相关性参数,具体包含的是这t帧历史语音帧的LSF系数;本实施例中LPC滤波器的阶数为16,每一帧历史语音帧的一个分帧包含16个LSF系数,每一帧历史语音帧包含两个分帧,那么每一帧历史语音帧包含32个LSF系数。以t=1为例,P_prev1(n)包含第n-1帧语音帧的4个子帧的基音延迟和20个LTP系数;另外,P_prev1(n)还可包含第n-1帧语音帧的4个子帧增益值。P_prev2(n)包含第n-1帧的历史语音帧的32个LSF系数。
目标语音帧的参数集Pa(n)中包含的是用于重建恢复目标语音帧所需的目标语音帧的时域参数;同理参考上述定义可知,按照对预测误差的容忍度来进行划分,目标语音帧的参数集Pa(n)包含Pa1(n)和Pa2(n),Pa1(n)表示对预测误差的容忍度较低的时域参数,Pa2(n)表示对预测误差的容忍度较高的时域参数;其中,该Pa1(n)可能包含的参数如下:(1)目标语音帧的长时相关性参数。目标语音帧包括m个子帧,目标语音帧的长时相关性参数包括目标语音帧的各个子帧的基音延迟和LTP系数,m为正整数。本实施例所示示例中,m=4,Pa1(n)可能包含参数一和参数二,参数一是指目标语音帧的4个子帧的基音延迟,表示为pitch(n,0)、pitch(n,1)、pitch(n,2)和pitch(n,3)。参数二是指目标语音帧的4个子帧分别对应的LTP系数,设LTP滤波器为5阶滤波器,则每个子帧对应5个LTP系数,那么参数二共包括20个LTP系数。(2)目标语音帧的能量参数gain(n)。不同语音帧的能量也不尽相同,而能量可以通过语音帧的各个子帧的增益值来体现,这就定义了参数集Pa(n)中的参数三,参数三是指目标语音帧的能量参数gain(n)。本实施例所示示例中,目标语音帧包括4个5ms子帧,目标语音帧的能量参数gain(n)包括该4个5ms子帧的增益值,具体包括gain(n,0)、gain(n,1)、gain(n,2)、gain(n,3)。通过gain(n)来对重建滤波器通过滤波重建得到的目标语音帧进行信号放大,这样可以将重建得到的目标语音帧被放大至原始语音信号的能量级别,从而还原出更准确、更清晰的目标语音帧。该Pa2(n)可能包含目标语音帧的短时相关性参数;目标语音帧包括k个分帧,目标语音帧的短时相关性参数包括目标语音帧的第k个分帧的线谱频率LSFk(n)及内插因子αlsf(n)。本实施例所示示例中,k=2,即目标语音帧包括前10ms对应的第一个分帧和后10ms对应的第二个分帧;所以Pa2(n)可能包含参数四和参数五,参数四是指目标语音帧的第二个分帧的线谱频率LSF2(n),共包含16个LSF系数。参数五是指目标语音帧的内插因子αlsf(n),该内插因子αlsf(n)可包含5个候选值,包括0,0.25,0.5,0.75,1.0。也就是说,目标语音帧的参数集Pa(n)包含Pa1(n)和Pa2(n),该Pa1(n)可包含参数一和参数二,另外还可包含参数三;该Pa2(n)可包含参数四和参数五。
由于网络模型是基于深度学习技术对大量训练数据进行训练优化后得到的,该网络模型能够提供精度相对较高的预测结果,适用于对预测误差的容忍度低的时域参数的处理。因此,在一种实施方式中,针对历史语音帧的P_prev1(n)可以采用网络模型预测策略进行预测处理,得到目标语音帧的Pa1(n),具体可参见如下步骤S503:
S503,调用网络模型对历史语音帧的时域波形及历史语音帧的长时相关性参数进行预测处理,得到所述目标语音帧的长时相关性参数。
该网络模型可包含多个神经网络,在配置好网络模型的网络结构之后,可采用深度学习的方法对网络模型进行训练,得到优化的网络模型
Figure BDA0002493563470000141
再利用优化的网络模型
Figure BDA0002493563470000142
对历史语音帧的P_prev1(n)进行预测处理,即可得到目标语音帧的Pa1(n)。这样就将传统信号分析处理技术与深度学习技术相结合,且可以有效控制模型的大小,极大的精简网络结构,降低处理复杂度。图6示出了本申请一个示例性实施例提供的一种网络模型的结构示意图;如图6所示,该网络模型包括第一神经网络601及至少两个第二神经网络602,第二神经网络602属于第一神经网络601的子网络。一个第二神经网络602用于预测所述参数集中的一种长时相关性参数。
在一种实现中,第一神经网络601可包括二维卷积网络(Convolutional NeuralNetwork,CNN),该二维卷积网络包括CNN1和CNN2,其中,CNN1的输入是历史语音帧的时域信号s_prev(n),以t=1为例,s_prev(n)的时域波形是采用320个样本点来表达第n-1帧语音帧随时间变化而发生的信号变化情况。s_prev(n)经CNN1和CNN2进行卷积处理后,CNN2会输出一个中间参数,该中间参数即是s_prev(n)经CNN1和CNN2进行卷积处理后的结果,此中间参数会作为第二神经网络602的输入的一部分。第二神经网络602包括一层FC(Fullyconnected layer,全连接层),一个第二神经网络602用于预测Pa1(n)包含的一种参数(即参数一或参数二)。各个第二神经网络602具备相同的一部分输入,该相同部分即是第一神经网络601输出的中间参数,此处,根据需要预测的参数的类型不同,各个第二神经网络602还包含另一部分不同的输入,该不同的输入部分具体为:(1)用于预测目标语音帧的参数一(即目标语音帧的4个子帧的基音延迟)的第二神经网络602,其输出为目标语音帧的参数一,其输入除了包括第一神经网络601输出的中间参数之外,还需包括P_prev1(n),且此时该P_prev1(n)包含历史语音帧的各个子帧的基音延迟,以t=1为例,此时该P_prev1(n)包含第n-1帧语音帧的4个子帧的基音延迟。(2)用于预测目标语音帧的参数二(即目标语音帧的4个子帧分别对应的共计20个LTP系数)的第二神经网络602,其输出为参数二,其输入除了包括第一神经网络601输出的中间参数之外,还需包括P_prev1(n),且此时该P_prev1(n)包含历史语音帧的各个子帧对应的LTP系数,以t=1为例,此时该P_prev1(n)包含第n-1帧语音帧的4个子帧分别对应的共计20个LTP系数。
基于图6所示的网络模型,在一种实施方式中,步骤S503可细化为如下步骤s11-s13:
s11,调用第一神经网络601对历史语音帧的时域波形进行处理,得到中间参数;
s12,将中间参数和历史语音帧的基音延迟作为输入信息输入至第二神经网络602中进行预测处理,得到目标语音帧的基音延迟;以及,
s13,将中间参数和历史语音帧的LTP系数作为输入信息输入至第二神经网络602中进行预测处理,得到目标语音帧的LTP系数。
再请参见图6,网络模型还包括第三神经网络603,第三神经网络与第一神经网络(或第二神经网络)属于并行网络;该第三神经网络603包括一层LSTM和一层FC。基于图6所示的网络模型,在另一种实现中,所述方法还包括以下步骤s14:
s14,调用第三神经网络603对历史语音帧的能量参数进行预测处理,得到目标语音帧的能量参数,该目标语音帧的能量参数属于Pa1(n)包含的一种参数,即目标语音帧的参数三;目标语音帧包括m个子帧,目标语音帧的能量参数包括目标语音帧的各个子帧的增益值。
可以使用t帧历史语音帧中的部分或全部语音帧的能量参数来预测目标语音帧的能量参数;如前述,在语音处理过程还支持t的值发生变化,此处以t=2为例,即P_prev1(n)包含第n-1帧语音帧的能量参数gain(n-1)和第n-2帧语音帧的能量参数gain(n-2)。本实施例所示示例中,m=4,即每个语音帧包含4个5ms子帧;那么,第n-1帧语音帧的能量参数gain(n-1)包括该第n-1帧语音帧的4个5ms子帧的增益值,具体包括gain(n-1,0)、gain(n-1,1)、gain(n-1,2)、gain(n-1,3);同理,第n-2帧语音帧的能量参数gain(n-2)包括该第n-2帧语音帧的4个5ms子帧的增益值,具体包括gain(n-2,0)、gain(n-2,1)、gain(n-2,2)、gain(n-2,3)。同理,第n帧语音帧的能量参数gain(n)包括该第n帧语音帧的4个5mg子帧的增益值,包括gain(n,0)、gain(n,1)、gain(n,2)、gain(n,3)。本实施例所示示例中,第三神经网络603中的LSTM包含128个单元;FC层包含4个处理单元和激活函数,其中,该4个处理单元分别用于输出第n帧语音帧的4个子帧的增益值。
基于图6所示的网络模型的网络结构,对历史语音帧的P_prev1(n)进行预测处理,即可得到目标语音帧的Pa1(n)。可以理解的是,图6所示的网络模型的网络结构仅为举例,该网络结构可以根据实际需求进行变化,例如:第一神经网络601也可以是一维卷积网络,或三维卷积网络等等;第二神经网络602也可以为是两层FC,或更多层FC;本申请实施例并不对此进行限定。
对预测误差的容忍度较高的参数,可以采用信号推理策略对预测该参数所需的历史语音帧的时域参数进行信号推理处理,这样可以提升语音处理效率。因此,在另一种实施方式中,针对历史语音帧的P_prev2(n)可以采用信号推理策略进行预测处理,得到目标语音帧的Pa2(n),具体可参见如下步骤S504:
S504,比较历史语音帧的帧类型及目标语音帧的帧类型是否发生变化;根据比较结果对历史语音帧的短时相关性参数进行信号推理处理,得到目标语音帧的短时相关性参数。
其中,比较结果包括帧类型发生变化或帧类型未发生变化;帧类型未发生变化是指历史语音帧的帧类型与目标语音帧的帧类型相同,例如:历史语音帧为清音帧,目标语音帧也是清音帧;再如:历史语音帧为浊音帧,目标语音帧也是浊音帧。帧类型发生变化是指历史语音帧的帧类型与目标语音帧的帧类型不同,包括:历史语音帧为浊音帧,而目标语音帧为清音帧;或者,历史语音帧为清音帧,而目标语音帧为浊音帧。
依据比较结果出现的不同情况,步骤S504中的信号推理处理过程也有所不同。具体地:
(1)针对帧类型未发生变化的情况,那么步骤S504可包括以下步骤s21-s22:
s21,若历史语音帧的帧类型与目标语音帧的帧类型相同,则设置目标语音帧的内插因子为第一数值;以及,
s22,将历史语音帧的所有分帧的线谱频率的平均值设置为目标语音帧的第k个分帧的线谱频率。
如前述,语音信号中的第i帧语音帧的每一个分帧均包含p个线谱频率,p是对应LPC滤波器的阶数,本实施例中p=16,则第i帧语音帧的每个分帧均包含16个LSF系数;第i帧语音帧的第k个分帧的线谱频率可表示为LSFk(i,f),f=0,1,2……p。步骤s21-s22中,目标语音帧的帧类型较历史语音帧的帧类型未发生变化,为了方便描述,本实施例以t=1为例进行说明,即第n帧语音帧的帧类型与第n-1帧语音帧的帧类型相同;目标语音帧的第k个分帧的线谱频率表示为LSF2(n,f),该LSF2(n,f)采用下式1.6设置得到:
Figure BDA0002493563470000171
目标语音帧的第k-1个分帧可通过内插获得,在本实例中,目标语音帧的第k-1个分帧的线谱频率可表示LSF1(n,f),第一数值可以为0.5,即αlsf(n)=0.5,如下式1.7:
LSF1(n,f)=(1-0.5)*LSF2(n-1,f)+0.5LSF2(n,f),f=0,1,2……15 式1.7
上式1.7表示目标语音帧的第一个分帧的线谱频率LSF1(n)是通过第n-1帧语音帧的第二个分帧的线谱频率LSF2(n-1)与目标语音帧的第二个分帧的线谱频率LSF2(n)之间进行加权求和得到,权值即为内插因子的候选值。
在帧类型未发生变化的情况,依据上述步骤s21-s22的信号推理过程能够得到Pa2(n),该Pa2(n)包含参数三(即目标语音帧的第k个分帧的线谱频率LSFk(n,f))和参数四(即目标语音帧的内插因子)。
(2)针对帧类型发生变化的情况,进一步,历史语音帧为浊音帧,而目标语音帧为清音帧,即发生浊音帧转清音帧的变化。针对此情况,先对语音帧中的各个分帧包含的p个线谱频率进行两两配对,具体地:语音信号中的每帧语音帧的任一个分帧包含p个线谱频率,且p个线谱频率中,第f个线谱频率与第f+1个线谱频率被配置为关联对;其中,f为整数且为偶数。那么步骤S504可包括以下步骤s31-s34:
s31,若历史语音帧为浊音帧,目标语音帧为清音帧,则设置目标语音帧的内插因子为第二数值;
s32,获取历史语音帧的第k个分帧的第f个线谱频率,历史语音帧的各个分帧的第f个线谱频率之差的绝对值,以及历史语音帧的各个分帧的第f个线谱频率所属关联对中的最大项;
s33,将历史语音帧的第k个分帧的第f个线谱频率和绝对值之和,设置为目标语音帧的第k个分帧中的第f个线谱频率;
s34,将历史语音帧的第k个分帧的第f个线谱频率与最大项之和设置为为目标语音帧的第k个分帧中的第f+1个线谱频率。
为了方便描述,仍然以t=1为例进行说明,目标语音帧的第k个分帧的线谱频率表示为LSF2(n,f),f=0,1,2……15;进行两两配对后,LSF2(n,f)与LSF2(n,f+1)互为关联对,此时f=0,2,4,6,8,10,12,14。其中,LSF2(n,f)为此关联对中的首个元素,LSF2(n,f+1)为此关联对中的第二个元素。步骤s31-s34中,LSF2(n,f)采用下述式1.8获得,LSF2(n,f+1)采用下述式1.9获得:
LSF2(n,f)=LSF2(n-1,f)+|LSF1(n-1,f)-LSF2(n-1,f)| 式1.8
LSF2(n,f+1)=LSF2(n,f)+D(f) 式1.9
其中,
D(f)=max(D1(f),D2(f)) 式2.0
D1(f)=LSF1(n-1,f+1) 式2.1
D2(f)=LSF2(n-1,f+1) 式2.2
f=0,2,4,6,8,10,12,14
另外,在本实例中,第二数值可以为1,即αlsf(n)=1;并且,目标语音帧的第k-1个分帧的线谱频率LSF1(n)=LSF2(n)。
针对帧类型由浊音帧转为清音帧的变化情况,依据上述步骤s31-s34的信号推理过程能够得到Pa2(n),该Pa2(n)包含参数三(即目标语音帧的第k个分帧的线谱频率LSFk(n,f))和参数四(即目标语音帧的内插因子)。
(3)针对帧类型发生变化的情况,进一步,历史语音帧为清音帧,而目标语音帧为浊音帧,即发生清音帧转浊音帧的变化。针对此情况,先对语音帧中的各个分帧包含的p个线谱频率进行两两配对,具体地:语音信号中的每帧语音帧的任一个分帧包含p个线谱频率,且p个线谱频率中,第f个线谱频率与第f+1个线谱频率被配置为关联对;其中,f为整数且为偶数。那么步骤S504可包括以下步骤s41-s44:
s41,若历史语音帧为清音帧,目标语音帧为清音帧,则设置目标语音帧的内插因子为第二数值;
s42,获取历史语音帧的第k个分帧的第f个线谱频率,历史语音帧的各个分帧的第f个线谱频率之差的绝对值,以及历史语音帧的各个分帧的第f个线谱频率所属关联对中的最小项;
s43,将历史语音帧的第k个分帧的第f个线谱频率和绝对值之差,设置为目标语音帧的第k个分帧中的第f个线谱频率;以及,
s44,将历史语音帧的第k个分帧的第f个线谱频率与最小项之和设置为为目标语音帧的第k个分帧中的第f+1个线谱频率。
为了方便描述,仍然以t=1为例进行说明,目标语音帧的第k个分帧的线谱频率表示为LSF2(n,f),f=0,1,2……15;进行两两配对后,LSF2(n,f)与LSF2(n,f+1)互为关联对,此时f=0,2,4,6,8,10,12,14。其中,LSF2(n,f)为此关联对中的首个元素,LSF2(n,f+1)为此关联对中的第二个元素。步骤s41-s44中,LSF2(n,f)采用下述式2.3获得,LSF2(n,f+1)采用下述式2.4获得:
LSF2(n,f)=LSF2(n-1,f)-|LSF1(n-1,f)-LSF2(n-1,f)| 式2.4
LSF2(n,f+1)=LSF2(n,f)+E(f) 式2.4
其中,
E(f)=min(E1(f),E2(f)) 式2.6
E1(f)=LSF1(n-1,f+1) 式2.7
E2(f)=LSF2(n-1,f+1) 式2.8
f=0,2,4,6,8,10,12,14
另外,在本实例中,第二数值可以为1,即αlsf(n)=1;并且,目标语音帧的第k-1个分帧的线谱频率LSF1(n)=LSF2(n)。
针对帧类型由清音帧转为浊音帧的变化情况,依据上述步骤s31-s34的信号推理过程能够得到Pa2(n),该Pa2(n)包含参数三(即目标语音帧的第k个分帧的线谱频率LSFk(n,f))和参数四(即目标语音帧的内插因子αlsf(n))。
下面将对步骤S504中关于帧类型的确定方式进行详细介绍。
在本申请的一个示例性实例中,t=1,首先可以采用图6所示的网络模型,基于第n-1帧语音帧的时域波形和第n-1帧语音帧的4个子帧的基音延迟,来预测得到的目标语音帧的4个子帧的基音延迟;然后,采用第n-1帧语音帧的4个子帧的基音延迟确定第n-1帧语音帧的帧类型,以及采用目标语音帧的4个子帧的基音延迟来确定目标语音帧的帧类型。其中,采用第i帧语音帧的4个子帧的基音延迟确定帧类型的方法包括以下s51-s53:
s51,分别将第i帧语音帧的每个子帧的基音延迟与延迟阈值进行比较,如果子帧的基音延迟低于延迟阈值,则将子帧的基音延迟设置为特定值;
s52,统计第i帧语音帧中基音延迟为特定值的子帧的数量占比;
s53,若数量占比大于预置比例,则确定第i帧为清音帧;若数量占比不大于预置比例,则确定第i帧为浊音帧。
步骤s51-s53中,延迟阈值可以根据实际情况进行设定,例如延迟阈值可设定为2.5ms、2ms等等。特定值是指特定的数值,此处特定值可以为0。预置比例也可根据实际需要进行设定,例如1/2,3/4等等。如果第i帧语音帧的某个子帧的基音延迟小于延迟阈值(如2.5ms),就将该子帧的基音延迟设置为0;统计第i帧语音帧中基音延迟为0值的所有子帧的数量占比,该数量占比是将基音延迟为0的子帧数量与第i帧语音帧的所有子帧数量(本实例为4)相除得到;如果这个数量占比大于预置比例(如1/2),那么第i帧语音帧就为清音帧;否则第i帧语音帧就为浊音帧。
采用上述步骤s51-s53的方法,基于第n-1帧语音帧的4个子帧的基音延迟可以得到第n-1帧语音帧的帧类型,同理,基于目标语音帧的4个子帧的基音延迟来确定目标语音帧的帧类型。步骤S504则可以比较第n-1帧语音帧的帧类型与目标语音帧的帧类型之间的变化情况,再根据不同的变化情况执行有针对性的信号推理处理,从而预测出目标语音帧的Pa2(n)。
再请参见图5,语音处理方法还包括:
S505,根据参数集建立重建滤波器。
目标语音帧的参数集Pa(n)包含Pa1(n)和Pa2(n),Pa1(n)包含目标语音帧的长时相关性参数(参数一和参数二),还包含目标语音帧的能量参数(即参数三);Pa2(n)包含目标语音帧的短时相关性参数(参数四和参数五)。如前述,重建滤波器包括LTP滤波器和LPC滤波器,LTP滤波器可以采用Pa1(n)中的目标语音帧的长时相关性参数(参数一和参数二)来建立,LPC滤波器可以采用Pa2(n)中的目标语音帧的短时相关性参数(参数四和参数五)来建立。参见上式1.1,滤波器的建立主要在于确定滤波器的相应系数,LTP滤波器的建立在于确定LTP系数,而参数二已经包含了LTP系数,所以可基于参数二可较为简单地建立LTP滤波器。
LPC滤波器的建立在于确定LPC系数;LPC系数的建立过程如下:
首先,参数四是指目标语音帧的第二个分帧的线谱频率LSF2(n),共包含16个LSF系数;参数五是指目标语音帧的内插因子αlsf(n)。根据步骤S504可知,针对帧类型未发生变化的情况,目标语音帧的第一个分帧的线谱频率LSF1(n)可通过式1.7所示的内插实现;针对帧类型发生变化的情况,目标语音帧的第一个分帧的线谱频率LSF1(n)=LSF2(n)。
其次,根据前述式1.1-式1.5相关推导可知,LPC系数和LSF系数相关,综合式1.1-式1.5可分别获得目标语音帧前10ms的第一个分帧的16阶LPC系数,即LPC1(n);以及获得目标语音帧的后10ms第二个分帧的16阶LPC系数,即LPC2(n)。
经过上述过程可确定LPC系数,由此可建立LPC滤波器。
S506,获取目标语音帧的激励信号。
S507,采用重建滤波器对目标语音帧的激励信号进行滤波处理,得到所述目标语音帧。
图7示出了本申请一个示例性实施例提供的基于激励信号的语音生成模型的结构示意图;基于激励信号的语音生成模型的物理基础是人的声音发生过程,在人的声音发生过程大致可被拆解为两个子过程:(1)当人在进行发声时,人的气管处会产生一定能量的类噪声的冲击信号;这个冲击信号就对应于激励信号,激励信号就是一组随机带符号类噪声序列,具备较强的容错能力。(2)冲击信号冲击人的声带,产生类周期性的开合;通过口腔放大后,发出声音;这个过程对应于重建滤波器,重建滤波器的工作原理就是模拟该过程从而构建出声音。声音分为清音和浊音,所谓浊音是指发音时声带振动的音;而清音是指声带不振动的音。考虑到声音的上述特点,会将上述人的声音发生过程再进行细化:(3)对于浊音这种类周期性信号,重建过程中需要使用LTP滤波器和LPC滤波器,激励信号将分别冲击LTP滤波器和LPC滤波器;(4)对于清音这种非周期信号,重建过程中仅需要使用LPC滤波器,激励信号将只冲击LPC滤波器。
基于上述描述可知,激励信号是一组随机带符号类噪声序列,其作为驱动源用于冲击(或激励)重建滤波器生成目标语音帧。本申请实施例的步骤S506中,可以获取历史语音帧的激励信号,以及根据历史语音帧的激励信号估计目标语音帧的激励信号。
在一种实施方式中,步骤S506可通过复用方式估计目标语音帧的激励信号,复用方式可如下式2.9所示:
ex(n)=ex(n-1) 式2.9
上述式2.9中,ex(n-1)表示第n-1帧语音帧的激励信号;ex(n)表示目标语音帧(即第n帧语音帧)的激励信号。
在另一种实施方式中,步骤S506可以通过平均值方式估计目标语音帧的激励信号,平均值方式可表示如下式3.0所示:
Figure BDA0002493563470000221
上式3.0表示对第n-t帧至第n-1帧共t帧历史语音帧的激励信号进行平均值计算,得到目标语音帧(即第n帧语音帧)的激励信号ex(n)。式3.0中,ex(n-q)(1≤q≤t)表示第n-t帧至第n-1帧中各帧语音帧的激励信号。
在另一种实施方式中,步骤S506可通过加权求和方式估计目标语音帧的激励信号,加权求和方式可如下式3.1所示:
Figure BDA0002493563470000231
上式3.1表示对第n-t帧至第n-1帧共t帧历史语音帧的激励信号进行加权求和,得到目标语音帧(即第n帧语音帧)的激励信号ex(n)。式3.1中,∝i表示各帧历史语音帧的激励信号对应的权值,以t=5为例,一种权值组合可参见如下表1所示:
表1:权值表
项目 权值
∝<sub>1</sub> 0.40
∝<sub>2</sub> 0.30
∝<sub>3</sub> 0.15
∝<sub>4</sub> 0.10
∝<sub>5</sub> 0.05
结合图7,在一种实施方式中,如果目标语音帧为清音帧这种非周期信号,那么重建滤波器可仅包括LPC滤波器,即只需要使用LPC滤波器来对目标语音帧的激励信号进行滤波处理;此时参数集Pa(n)中,Pa1(n)包含目标语音帧的能量参数(参数三),Pa2(n)包含目标语音帧的短时相关性参数(参数四和参数五)。那么,步骤S507中生成目标语音帧的过程是指LPC滤波阶段的处理过程,包括:
首先,参数四是指目标语音帧的第二个分帧的线谱频率LSF2(n),共包含16个LSF系数;参数五是指目标语音帧的内插因子αlsf(n)。根据步骤S504可知,针对帧类型未发生变化的情况,目标语音帧的第一个分帧的线谱频率LSF1(n)可通过式1.7所示的内插实现;针对帧类型发生变化的情况,目标语音帧的第一个分帧的线谱频率LSF1(n)=LSF2(n)。
其次,根据前述式1.1-式1.5相关推导可知,LPC系数和LSF系数相关,综合式1.1-式1.5可分别获得目标语音帧前10ms的第一个分帧的16阶LPC系数,即LPC1(n);以及获得目标语音帧的后10ms第二个分帧的16阶LPC系数,即LPC2(n)。
再次,在目标语音帧的激励信号的冲击下,式对LPC1(n)进行LPC滤波以重建目标语音帧的前10ms共160个样本点,并调用gain(n,0)和gain(n,1)对该前160个样本点进行放大处理,得到重建的目标语音帧的前160个样本点。同理,对LPC2(n)进行LPC滤波重建目标语音帧的后10ms共160个样本点,并调用gain(n,2)和gain(n,3)对该后160个样本点进行放大处理,得到重建的目标语音帧的后160个样本点。将目标语音帧的前10ms和后10ms进行合成,得到完整的目标语音帧。
在上述LPC滤波过程中,对第n帧语音帧的LPC滤波使用了第n-1帧语音帧的LSF系数,也就是说,对第n帧语音帧的LPC滤波需要使用与第n帧语音帧相邻的历史语音帧来实现,这就印证了LPC滤波的短时相关性特点。
在另一种实施方式中,如果目标语音帧为浊音帧这种类周期信号,那么重建滤波器包括LPC滤波器和LTP滤波器,即需要使用LTP滤波器和LPC滤波器共同来对目标语音帧的激励信号进行滤波处理,此时参数集Pa(n)中,Pa1(n)包括目标语音帧的长时相关性参数(参数一和参数二)与目标语音帧的能量参数(即参数三),Pa2(n)包括目标语音帧的短时相关性参数(参数四和参数五)。那么,步骤S507中生成目标语音帧的过程包括:
(一)LTP滤波阶段:
首先,参数一包括目标语音帧的4个子帧的基音延迟,分别为pitch(n,0)、pitch(n,1)、pitch(n,2)和pitch(n,3)。针对每一个子帧的基音延迟均作如下处理:①将子帧的基音延迟与延迟阈值进行比较,如果子帧的基音延迟低于延迟阈值,则将子帧的基音延迟设置为0,并省略LTP滤波的步骤。②如果子帧的基音延迟不低于延迟阈值,那么取该子帧对应的历史样本点,设LTP滤波器的阶数为5,则调用该5阶LTP滤波器对该子帧对应的历史样本点进行LTP滤波,得到该子帧的LTP滤波结果。由于LTP滤波反映的是语音帧的长时相关性,而长时相关性与基音延迟强相关,所以上述步骤②涉及的LTP滤波中,子帧对应的历史样本点是参考该子帧的基音延迟来选取的,具体是以该子帧为起点,往回追溯基音延迟的值对应数量个样本点作为该子帧对应的历史样本点,例如:子帧的基音延迟的值为100,那么该子帧对应的历史样本点是指以该子帧为起点往回追溯的100个样本点。可见,参考子帧的基音延迟来设置该子帧对应的历史样本点,实际上是使用了该子帧之前的历史子帧(如上一个5ms子帧)所包含的样本点来进行LTP滤波,这就印证了LTP滤波的长时相关性特点。
其次,将各个子帧的LTP滤波结果进行合成,包括将第1个子帧的LTP滤波结果和第2个子帧的LTP滤波结果进行合成,得到目标语音帧的前10ms的第一个分帧的LTP合成信号;将第3个子帧的LTP滤波结果和第4个子帧的LTP滤波结果进行合成,得到目标语音帧的后10ms的第二个分帧的LTP合成信号;至此完成LTP滤波阶段的处理。
(二)LPC滤波阶段:
参考上述实施方式中LPC滤波阶段的处理过程,首先基于参数四和参数五获得目标语音帧前10ms的第一个分帧的16阶LPC系数,即LPC1(n);以及获得目标语音帧的后10ms第二个分帧的16阶LPC系数,即LPC2(n)。
其次,使用LTP滤波阶段得到的目标语音帧的前10ms的第一个分帧的LTP合成信号与LPC1(n)共同进行LPC滤波,重建目标语音帧的前10ms共160个样本点,并调用gain(n,0)和gain(n,1)对该前160个样本点进行放大处理,得到重建的目标语音帧的前160个样本点。同理,使用LTP滤波阶段得到的目标语音帧的后10ms的第二个分帧的LTP合成信号与LPC2(n)共同进行LPC滤波,重建目标语音帧的后10ms共160个样本点,并调用gain(n,2)和gain(n,3)对该后160个样本点进行放大处理,得到重建的目标语音帧的后160个样本点。将目标语音帧的前10ms和后10ms进行合成,得到完整的目标语音帧。
通过本实施例的上述描述,当语音信号中的第n帧语音帧需要进行PLC时,基于本实施例的语音处理方法可以重建得到该第n帧语音帧。如果出现连续丢包现象,例如第n+1帧语音帧、第n+2帧语音帧等均出现丢失现象,可以依据上述过程,完成对第n+1帧语音帧、第n+2帧语音帧等的重建恢复,实现连续丢包补偿,确保语音通话质量。
本申请实施例中,当需要对语音信号中的目标语音帧进行重建时,通过对历史语音帧的时域参数进行分析预测出目标语音帧的参数集,进而根据目标语音帧的参数集重建目标语音帧,重建过程较为简单高效,更适用于对实时性要求较高的通信场景;另外,由于不同类型的参数对预测误差的容忍度不统一,可以针对不同类型的参数采用不同的预测策略,对预测误差的容忍度较低的参数,可以采用网络模型预测策略,可以有效控制模型的大小,极大的精简网络结构,降低处理复杂度;而对于预测误差的容忍度较高的参数,可以采用信号推理策略;这样能够有效提升语音处理效率;并且,本申请实施例还支持连续丢包补偿,即在连续多帧语音帧出现丢失的情况下,能够实现对连续多帧语音帧的重建,确保语音通话质量。
图8示出了本申请另一个示例性实施例提供的一种语音处理方法的流程图;该方法由图2所示的接收端来执行;该方法包括以下步骤S801-S808。
S801,确定待处理的目标语音帧对应的历史语音帧。
S802,获取历史语音帧的时域参数。
S803,调用网络模型对历史语音帧的时域波形及历史语音帧的长时相关性参数进行预测处理,得到所述目标语音帧的长时相关性参数。
S804,提取历史语音帧的各个分帧的线谱频率的统计特征。
历史语音帧的时域参数的统计特征可用于反映该历史语音帧的时域参数随时间变化而产生的变动情况,此处的变动情况可包括但不限于:(1)语音帧的发音变换情况,例如从浊音变换为清音;或者从清音变换为静音等等;(2)语音帧的能量分布区域的变化情况,例如:哪些区域对应爆破音的能量分布,哪些区域对应清音的能量分布。历史语音帧的时域参数P_prev(n)包含P_prev1(n)和P_prev2(n),其中,该P_prev1(n)可包括以下至少一种:①历史语音帧的长时相关性参数,包含的是这t帧历史语音帧的各个5ms子帧的基音延迟和5阶LTP滤波器系数,每一帧历史语音帧的每个子帧对应一个基音延迟和5个LTP系数;②历史语音帧的能量参数,包含的是这t帧历史语音帧的各个5ms子帧的增益值。该P_prev2(n)包括历史语音帧的短时相关性参数,具体包含的是这t帧历史语音帧的LSF系数。考虑到历史语音帧的短时相关性参数的统计特征与重建目标语音帧的相关程度更高,例如:历史语音帧的短时相关性参数的统计特征可较好的反映语音帧随时间变化的类型转换情况,适于语段分割,以此为依据预测得到的目标语音帧的参数能获得更为准确的重建效果。本实施例以提取历史语音帧的短时相关性参数的统计特征为例进行说明。如图8所示,步骤S804则提取P_prev2(n)中的历史语音帧的各个分帧的LSF系数的统计特征;那么,对于第i帧语音帧的LSF系数,可采用下述公式1.6-公式1.9来对该历史语音帧的LSF系数进行计算得到第i帧语音帧的LSF系数的统计特征:
Figure BDA0002493563470000271
Figure BDA0002493563470000272
Figure BDA0002493563470000273
Figure BDA0002493563470000274
上述式3.2-式3.5中,wk表示第i帧语音帧的LSF系数在复平面单位圆上对应的角频率。第i帧语音帧的LSF的统计特征可包括以下至少一种特征:第一统计特征Shift(i)、第二统计特征Bias(i)和第三统计特征Dev(i)。从物理意义来看,第一统计特征Shift(i)用于反映该第i帧语音帧的LSF系数对应的角频率wk随时间变化而产生的变动情况。第二统计特征Bias(i)用于反映该第i帧语音帧的LSF系数对应的角频率wk的均值。第三统计特征Dev(i)用于反映该第i帧语音帧的LSF系数对应的角频率wk的高阶矩。其中,当β取值为1时,式1.8就考虑了符号对第三统计特征Dev(i)的影响。当第三统计特征Dev(i)为正数时,表示第i帧语音帧的LSF系数偏高频分布;反之,当第三统计特征Dev(i)为负数时,则表示第i帧语音帧的LSF系数偏低频分布。
图9示出了本申请一个示例性实施例提供的历史语音帧的时域参数的统计特征的示意图;图9呈现的是第i帧语音帧的LSF系数的3种统计特征的示例;第一统计特征Shift(i)的峰值,对应于第i帧语音帧的发音变换,例如从浊音转换为清音,或从清音转换为静音,或从浊音-清音-静音的连续变换;该第一统计特征Shift(i)的峰值可用于对语音信号进行语段分割。第二统计特征Bias(i)的峰值区域,对应于该第i帧语音帧的爆破音所在能量区域;第三统计特征Dev(i)的峰值区域,对应于该第i帧语音帧的清音所在能量区域。在一种实施方式中,可以采用上述式3.2-式3.5分别对历史语音帧中的各帧的LSF系数进行计算,得到各帧历史语音帧的LSF系数的上述3种统计特征。在另一种实施方式中,还可以基于上述式3.2-式3.5进行建模,通过建立的模型来提取历史语音帧中的各帧的LSF系数的统计特征。
在一种实施方式中,可以提取第一统计特征Shift(i)、第二统计特征Bias(i)和第三统计特征Dev(i)中的任一种、或者任意两种的组合,或者提取三种交由后续的网络模型进行预测处理,本申请实施例并不对提取的统计特征的种类和数量进行限定。本实施例以提取第一统计特征Shift(i)为例进行说明,进一步,第i帧语音帧包含两个10ms的分帧,则分别提取第i帧语音帧的两个分帧的LSF系数的统计特征,则第i帧语音帧的第一个分帧的LSF系数的统计特征可表示为Shift1(i);第i帧语音帧的第二个分帧的LSF系数的统计特征可表示为Shift2(i),该Shift1(i)和Shift2(i)可组成第i帧语音帧对应的一个二维统计特征向量{Shift1(i),Shift2(i)}。为了方便描述,此处以t=2为例,可提取得到第n-2帧语音帧的{Shift1(n-2),Shift2(n-2)}和第n-1帧语音帧的{Shift1(n-1),Shift2(n-1)}。为了后续步骤中能够更好地对该历史语音帧的统计特征进行使用,步骤S804中可将提取到的所有历史语音帧的统计特征向量中的两两元素之间进行求差处理,并将求差处理结果后形成的特征向量记为步骤S804最终提取到的统计特征SP_prev2(n),本实施例所示示例中,该SP_prev2(n)是一个三维特征向量,该SP_prev2(n)表示为{SP_Shift1(n),SP_Shift2(n),SP_Shift3(n)};其中,SP_Shift1(n)= Shift2(n-2)-Shift1(n-2);SP_Shift2(n)=Shift1(n-1)-Shift2(n-2);SP_Shift3(n)=Shift2(n-1)-Shift1(n-1)。该SP_prev2(n)可在步骤S805中被用来对帧类型是否发生变化进行判断。
S805,比较历史语音帧的帧类型及目标语音帧的帧类型是否发生变化;根据比较结果对历史语音帧的短时相关性参数进行信号推理处理,得到目标语音帧的短时相关性参数。
步骤S805中,比较历史语音帧的帧类型及目标语音帧的帧类型是否发生变化的过程可包括以下步骤s61-s62:
s61,对历史语音帧的各个分帧的线谱频率的统计特征进行迭代求差,并对迭代求差结果进行求和计算,得到比较变量;
s62,若比较变量大于变化阈值,则得到帧类型发生变化的比较结果。
步骤s61-s62中,对SP_prev2(n)中的三个元素进行迭代求差,并对迭代求差结果进行求和计算,得到比较变量avgshift(n),具体如下式3.6所示:
avgshift(n)=local_shift1(n)+local_shift2(n) 式3.6
其中,
local_shift1(n)=SP_shift2(n)-SP_shift1(n)
local_shift1(n)=SP_shift3(n)-SP_shift2(n)
在获得比较变量avgshift(n),可以将该avgshift(n)与变化阈值来进行比较,此处变化阈值可以根据经验设定,如果avgshift(n)的值大于变化阈值,表示帧类型发生了变化,即目标语音帧的帧类型相较于历史语音帧的帧类型发生了变化;如果avgshift(n)的值不大于变化阈值,表示帧类型未发生变化,即目标语音帧的帧类型与历史语音帧的帧类型相同。在确定帧类型发生变化的情况下,还需要进一步确定历史语音帧的帧类型和目标语音帧的帧类型,以进一步确定帧类型发生了怎样的变化。在一种实施方式中,参见图5所示实施例中的步骤s51-s53,基于第n-1帧语音帧的4个子帧的基音延迟可以确定出第n-1帧语音帧的帧类型;由于帧类型发生变化,所以在确定了第n-1帧语音帧的帧类型之后,就可快速确定出目标语音帧的帧类型;例如:如果确定第n-1帧语音帧为浊音帧,那么可快速确定目标语音帧为清音帧,帧类型发生由浊音帧转清音帧的变化;再如:如果确定第n-1帧语音帧为清音帧,那么可快速确定目标语音帧为浊音帧,帧类型发生由清音帧向浊音帧的变化。当然,可以理解的是,本实施例中目标语音帧的帧类型也可以采用步骤s51-s53的方式来进行确定,在此不赘述。
S806,根据参数集建立重建滤波器。
S807,获取目标语音帧的激励信号。
S808,采用重建滤波器对目标语音帧的激励信号进行滤波处理,得到所述目标语音帧。
本实施例中的步骤S801-S803及步骤S805-S808中的相关内容可参见图5所示实施例的步骤S501-SS507中的描述,在此不赘述。
本申请实施例中,当需要对语音信号中的目标语音帧进行重建时,通过对历史语音帧的时域参数进行分析预测出目标语音帧的参数集,进而根据目标语音帧的参数集重建目标语音帧,重建过程较为简单高效,更适用于对实时性要求较高的通信场景;另外,由于不同类型的参数对预测误差的容忍度不统一,可以针对不同类型的参数采用不同的预测策略,对预测误差的容忍度较低的参数,可以采用网络模型预测策略,可以有效控制模型的大小,极大的精简网络结构,降低处理复杂度;而对于预测误差的容忍度较高的参数,可以采用信号推理策略;这样能够有效提升语音处理效率;并且,本申请实施例还支持连续丢包补偿,即在连续多帧语音帧出现丢失的情况下,能够实现对连续多帧语音帧的重建,确保语音通话质量。
图10示出了本申请一个示例性实施例提供的一种语音处理装置的结构示意图;该语音处理装置可以用于是运行于终端中的一个计算机程序(包括程序代码),例如该语音处理装置可以是终端中的应用程序(如提供VoIP通话功能的App);该运行了语音处理装置的终端可以作为图1或图2所示的接收端;该语音处理装置可以用于执行如图4、图5或图8所示的方法实施例中的部分或全部步骤。请参见图10,该语音处理装置包括如下单元:
确定单元1001,用于确定待处理的目标语音帧对应的历史语音帧;
获取单元1002,用于获取历史语音帧的时域参数;
处理单元1003,用于根据历史语音帧的时域参数预测得到目标语音帧的参数集,参数集中包含至少两个参数;以及用于根据参数集重建目标语音帧。
一种实施方式中,目标语音帧是指经VoIP系统传输的语音信号中的第n帧语音帧;
历史语音帧包括经VoIP系统传输的语音信号中的第n-t帧至第n-1帧共t帧语音帧,n、t均为正整数;
语音信号中的每帧语音帧包含k个分帧和m个子帧,其中,k为大于1的整数,m为正整数。
在一种实施方式中,历史语音帧的时域参数包含历史语音帧的长时相关性参数;参数集包含目标语音帧的长时相关性参数;处理单元1003具体用于:调用网络模型对历史语音帧的时域波形及历史语音帧的长时相关性参数进行预测处理,得到目标语音帧的长时相关性参数。
一种实施方式中,长时相关性参数包括基音延迟和长时预测系数;网络模型包括第一神经网络及至少两个第二神经网络,第二神经网络属于第一神经网络的子网络;一个第二神经网络用于预测参数集中的一种长时相关性参数;处理单元1003具体用于:
调用第一神经网络对历史语音帧的时域波形进行处理,得到中间参数;
将中间参数和历史语音帧的基音延迟作为输入信息输入至第二神经网络中进行预测处理,得到目标语音帧的基音延迟;以及,
将中间参数和历史语音帧的长时预测系数作为输入信息输入至第二神经网络中进行预测处理,得到目标语音帧的长时预测系数。
一种实施方式中,历史语音帧的时域参数包含历史语音帧的短时相关性参数;历史语音帧的短时相关性参数包括历史语音帧的各个分帧的线谱频率;参数集包含目标语音帧的短时相关性参数;目标语音帧的短时相关性参数包括目标语音帧的第k个分帧的线谱频率及内插因子;处理单元1003具体用于:
比较历史语音帧的帧类型及目标语音帧的帧类型是否发生变化;
根据比较结果对历史语音帧的短时相关性参数进行信号推理处理,得到目标语音帧的短时相关性参数;
其中,比较结果包括:帧类型发生变化或帧类型未发生变化;帧类型未发生变化是指历史语音帧的帧类型与目标语音帧的帧类型相同;
帧类型发生变化包括:历史语音帧为浊音帧,而目标语音帧为清音帧;或者,历史语音帧为清音帧,而目标语音帧为浊音帧。
一种实施方式中,处理单元1003具体用于:
若历史语音帧的帧类型与目标语音帧的帧类型相同,则设置目标语音帧的内插因子为第一数值;以及,
将历史语音帧的所有分帧的线谱频率的平均值设置为目标语音帧的第k个分帧的线谱频率。
一种实施方式中,语音信号中的每帧语音帧的任一个分帧包含p个线谱频率,且p个线谱频率中,第f个线谱频率与第f+1个线谱频率被配置为关联对;其中,f为整数且为偶数,p为正整数,0≤f≤p;处理单元1003具体用于:
若历史语音帧为浊音帧,目标语音帧为清音帧,则设置目标语音帧的内插因子为第二数值;以及,
获取历史语音帧的第k个分帧的第f个线谱频率,历史语音帧的各个分帧的第f个线谱频率之差的绝对值,以及历史语音帧的各个分帧的第f个线谱频率所属关联对中的最大项;
将历史语音帧的第k个分帧的第f个线谱频率和绝对值之和,设置为目标语音帧的第k个分帧中的第f个线谱频率;以及,
将历史语音帧的第k个分帧的第f个线谱频率与最大项之和设置为为目标语音帧的第k个分帧中的第f+1个线谱频率。
一种实施方式中,语音信号中的每帧语音帧的任一个分帧包含p个线谱频率,且p个线谱频率中,第f个线谱频率与第f+1个线谱频率被配置为关联对;其中,f为整数且为偶数,p为正整数,0≤f≤p;处理单元1003具体用于:
若历史语音帧为清音帧,目标语音帧为清音帧,则设置目标语音帧的内插因子为第二数值;以及,
获取历史语音帧的第k个分帧的第f个线谱频率,历史语音帧的各个分帧的第f个线谱频率之差的绝对值,以及历史语音帧的各个分帧的第f个线谱频率所属关联对中的最小项;
将历史语音帧的第k个分帧的第f个线谱频率和绝对值之差,设置为目标语音帧的第k个分帧中的第f个线谱频率;以及,
将历史语音帧的第k个分帧的第f个线谱频率与最小项之和设置为为目标语音帧的第k个分帧中的第f+1个线谱频率。
一种实施方式中,历史语音帧的时域参数包含历史语音帧的长时相关性参数;处理单元1003具体用于:
调用网络模型对历史语音帧的时域波形及历史语音帧的长时相关性参数进行预测处理,得到目标语音帧的长时相关性参数;
采用第n-1帧语音帧的长时相关性参数确定第n-1帧语音帧的帧类型,及采用预测得到的目标语音帧的长时相关性参数确定目标语音帧的帧类型;以及,
比较第n-1帧语音帧的帧类型与目标语音帧的帧类型是否发生变化。
一种实施方式中,处理单元1003还用于:提取历史语音帧的各个分帧的线谱频率的统计特征;以及,
对历史语音帧的各个分帧的线谱频率的统计特征进行迭代求差,并对迭代求差结果进行求和计算,得到比较变量;
若比较变量大于变化阈值,则得到帧类型发生变化的比较结果;
若比较变化量不大于变化阈值,则得到帧类型未发生变化的比较结果。
一种实施方式中,历史语音帧的时域参数包含第n-1帧语音帧的长时相关性参数;处理单元1003还用于:
若比较结果为帧类型发生变化,则采用第n-1帧语音帧的长时相关性参数确定第n-1帧语音帧的帧类型;以及,
根据第n-1帧语音帧的帧类型,确定目标语音帧的帧类型。
一种实施方式中,语音信号中的任一帧语音帧表示为第i帧语音帧,第i帧语音帧的时域参数包含长时相关性参数,长时相关性参数包括第i帧语音帧的m个子帧的基音延迟;采用第i帧的长时相关性参数确定帧类型的方式包括:
分别将第i帧语音帧的每个子帧的基音延迟与延迟阈值进行比较,如果子帧的基音延迟低于延迟阈值,则将子帧的基音延迟设置为特定值;
统计第i帧语音帧中基音延迟为特定值的子帧的数量占比;
若数量占比大于预置比例,则确定第i帧为清音帧;若数量占比不大于预置比例,则确定第i帧为浊音帧。
一种实施方式中,处理单元1003具体用于:
根据参数集建立重建滤波器;
获取目标语音帧的激励信号;
采用重建滤波器对目标语音帧的激励信号进行滤波处理,得到目标语音帧;
其中,若目标语音帧为清音帧,则历史语音帧的时域参数包括历史语音帧的短时相关性参数,参数集包括目标语音帧的短时相关性参数;重建滤波器包括线性预测编码滤波器;若目标语音帧为浊音帧,则历史语音帧的时域参数包括历史语音帧的短时相关性参数和长时相关性参数,参数集包括目标语音帧的短时相关性参数和目标语音帧的长时相关性参数;重建滤波器包括长时预测滤波器和线性预测编码滤波器。
一种实施方式中,处理单元1003具体用于:
获取历史语音帧的激励信号;
根据历史语音帧的激励信号估计目标语音帧的激励信号。
一种实施方式中,历史语音帧的激励信号包括第n-1帧语音帧的激励信号;处理单元1003具体用于:将第n-1帧语音帧的激励信号确定为目标语音帧的激励信号。
一种实施方式中,历史语音帧的激励信号包括第n-t帧至第n-1帧中各帧语音帧的激励信号;处理单元1003具体用于:对第n-t帧至第n-1帧共t帧语音帧的激励信号进行平均值计算,得到目标语音帧的激励信号。
一种实施方式中,历史语音帧的激励信号包括第n-t帧至第n-1帧中各帧语音帧的激励信号;处理单元1003具体用于:对第n-t帧至第n-1帧共t帧语音帧的激励信号进行加权求和,得到目标语音帧的激励信号。
一种实施方式中,网络模型还包括第三神经网络,第三神经网络与第一神经网络或所述第二神经网络属于并行网络;历史语音帧的时域参数包括历史语音帧的能量参数;则处理单元1003还用于:
调用第三神经网络对历史语音帧的能量参数进行预测处理,得到目标语音帧的能量参数,目标语音帧的能量参数属于目标语音帧的参数集中的一种参数;目标语音帧的能量参数包括目标语音帧的各个子帧的增益值。
本申请实施例中,当需要对语音信号中的目标语音帧进行重建时,通过对历史语音帧的时域参数进行分析预测出目标语音帧的参数集,进而根据目标语音帧的参数集重建目标语音帧,重建过程较为简单高效,更适用于对实时性要求较高的通信场景;另外,由于不同类型的参数对预测误差的容忍度不统一,可以针对不同类型的参数采用不同的预测策略,对预测误差的容忍度较低的参数,可以采用网络模型预测策略,可以有效控制模型的大小,极大的精简网络结构,降低处理复杂度;而对于预测误差的容忍度较高的参数,可以采用信号推理策略;这样能够有效提升语音处理效率;并且,本申请实施例还支持连续丢包补偿,即在连续多帧语音帧出现丢失的情况下,能够实现对连续多帧语音帧的重建,确保语音通话质量。
图11示出了本申请另一个示例性实施例提供的一种语音处理装置的结构示意图;该语音处理装置可以用于是运行于终端中的一个计算机程序(包括程序代码),例如该语音处理装置可以是终端中的应用程序(如提供VoIP通话功能的App);该运行了语音处理装置的终端可以作为图1或图2所示的接收端;该语音处理装置可以用于执行图3所示的方法实施例中的部分或全部步骤。请参见图11,该语音处理装置包括如下单元:
接收单元1101,用于接收经VoIP系统传输的语音信号;
处理单元1102,用于当语音信号中的目标语音帧丢失时,采用如图4、图5或图8所示的方法重建目标语音帧;
输出单元1103,用于基于重建的目标语音帧输出语音信号。
一种实施方式中,处理单元1102还用于:
获取目标语音帧的冗余信息;
当语音信号中的目标语音帧丢失时,根据目标语音帧的冗余信息重建目标语音帧;
若根据目标语音帧的冗余信息重建目标语音帧失败,则采用如图4、图5或图8所示的方法重建目标语音帧。
本申请实施例中,当VoIP语音信号中的目标语音帧丢失时,可以采用改进的PLC技术重建目标语音帧,改进的PLC技术重建过程较为简单高效,更适用于对实时性要求较高的通信场景;另外,支持连续丢包补偿,即在连续多帧语音帧出现丢失的情况下,能够实现对连续多帧语音帧的重建,确保语音通话质量;并且,改进的PLC技术还可与FEC技术的组合使用,以相对灵活的组合使用方式避免音质损伤带来的不利影响。
图12示出了本申请一个示例性实施例提供的一种语音处理设备的结构示意图。请参见图12,该语音处理设备可以是图1或图2所示的接收端,该语音处理设备包括处理器1201、输入设备1202、输出设备1203以及计算机可读存储介质1204。其中,处理器1201、输入设备1202、输出设备1203以及计算机可读存储介质1204可通过总线或者其它方式连接。计算机可读存储介质1204可以存储在语音处理设备的存储器中,计算机可读存储介质1204用于存储计算机程序,计算机程序包括程序指令,处理器111用于执行计算机可读存储介质1204存储的程序指令。处理器1201(或称CPU(Central Processing Unit,中央处理器))是语音处理设备的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。
本申请实施例还提供了一种计算机可读存储介质(Memory),其中计算机可读存储介质是语音处理设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括语音处理设备中的内置存储介质,当然也可以包括语音处理设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了语音处理设备的操作系统。并且,在该存储空间中还存放了适于被处理器1201加载并执行的一条或多条的指令,这些指令可以是一个或多个的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器的计算机可读存储介质。
在一个实施例中,该计算机可读存储介质中存储有一条或多条指令;由处理器1201加载并执行计算机可读存储介质中存放的一条或多条指令,以实现如图4、图5或图8所示实施例中的语音处理方法的相应步骤;具体实现中,计算机可读存储介质中的一条或多条指令由处理器1201加载并执行如下步骤:
确定待处理的目标语音帧对应的历史语音帧;
获取历史语音帧的时域参数;
根据历史语音帧的时域参数预测得到目标语音帧的参数集,参数集中包含至少两个参数;
根据参数集重建目标语音帧。
一种实施方式中,目标语音帧是指经VoIP系统传输的语音信号中的第n帧语音帧;
历史语音帧包括经VoIP系统传输的语音信号中的第n-t帧至第n-1帧共t帧语音帧,n、t均为正整数;
语音信号中的每帧语音帧包含k个分帧和m个子帧,其中,k为大于1的整数,m为正整数。
一种实施方式中,历史语音帧的时域参数包含历史语音帧的长时相关性参数;参数集包含目标语音帧的长时相关性参数;计算机可读存储介质中的一条或多条指令由处理器1201加载并执行根据历史语音帧的时域参数预测得到目标语音帧的参数集的步骤时,具体执行如下步骤:
调用网络模型对历史语音帧的时域波形及历史语音帧的长时相关性参数进行预测处理,得到目标语音帧的长时相关性参数。
一种实施方式中,长时相关性参数包括基音延迟和长时预测系数;网络模型包括第一神经网络及至少两个第二神经网络,第二神经网络属于第一神经网络的子网络;一个第二神经网络用于预测参数集中的一种长时相关性参数;计算机可读存储介质中的一条或多条指令由处理器1201加载并执行调用网络模型对历史语音帧的时域波形及历史语音帧的长时相关性参数进行预测处理,得到目标语音帧的长时相关性参数的步骤时,具体执行如下步骤:
调用第一神经网络对历史语音帧的时域波形进行处理,得到中间参数;
将中间参数和历史语音帧的基音延迟作为输入信息输入至第二神经网络中进行预测处理,得到目标语音帧的基音延迟;以及,
将中间参数和历史语音帧的长时预测系数作为输入信息输入至第二神经网络中进行预测处理,得到目标语音帧的长时预测系数。
一种实施方式中,历史语音帧的时域参数包含历史语音帧的短时相关性参数;历史语音帧的短时相关性参数包括历史语音帧的各个分帧的线谱频率;参数集包含目标语音帧的短时相关性参数;目标语音帧的短时相关性参数包括目标语音帧的第k个分帧的线谱频率及内插因子;
计算机可读存储介质中的一条或多条指令由处理器1201加载并执行对历史语音帧的时域参数进行预测处理,得到目标语音帧的参数集的步骤时,具体执行如下步骤:
比较历史语音帧的帧类型及目标语音帧的帧类型是否发生变化;
根据比较结果对历史语音帧的短时相关性参数进行信号推理处理,得到目标语音帧的短时相关性参数;
其中,比较结果包括:帧类型发生变化或帧类型未发生变化;帧类型未发生变化是指历史语音帧的帧类型与目标语音帧的帧类型相同;
帧类型发生变化包括:历史语音帧为浊音帧,而目标语音帧为清音帧;或者,历史语音帧为清音帧,而目标语音帧为浊音帧。
一种实施方式中,计算机可读存储介质中的一条或多条指令由处理器1201加载并执行根据比较结果对历史语音帧的短时相关性参数进行信号推理处理,得到目标语音帧的短时相关性参数的步骤时,具体执行如下步骤:
若历史语音帧的帧类型与目标语音帧的帧类型相同,则设置目标语音帧的内插因子为第一数值;以及,
将历史语音帧的所有分帧的线谱频率的平均值设置为目标语音帧的第k个分帧的线谱频率。
一种实施方式中,语音信号中的每帧语音帧的任一个分帧包含p个线谱频率,且p个线谱频率中,第f个线谱频率与第f+1个线谱频率被配置为关联对;其中,f为整数且为偶数,p为正整数,0≤f≤p;
计算机可读存储介质中的一条或多条指令由处理器1201加载并执行根据比较结果对历史语音帧的短时相关性参数进行信号推理处理,得到目标语音帧的短时相关性参数的步骤时,具体执行如下步骤:
若历史语音帧为浊音帧,目标语音帧为清音帧,则设置目标语音帧的内插因子为第二数值;以及,
获取历史语音帧的第k个分帧的第f个线谱频率,历史语音帧的各个分帧的第f个线谱频率之差的绝对值,以及历史语音帧的各个分帧的第f个线谱频率所属关联对中的最大项;
将历史语音帧的第k个分帧的第f个线谱频率和绝对值之和,设置为目标语音帧的第k个分帧中的第f个线谱频率;以及,
将历史语音帧的第k个分帧的第f个线谱频率与最大项之和设置为为目标语音帧的第k个分帧中的第f+1个线谱频率。
一种实施方式中,语音信号中的每帧语音帧的任一个分帧包含p个线谱频率,且p个线谱频率中,第f个线谱频率与第f+1个线谱频率被配置为关联对;其中,f为整数且为偶数,p为正整数,0≤f≤p;
计算机可读存储介质中的一条或多条指令由处理器1201加载并执行根据比较结果对历史语音帧的短时相关性参数进行信号推理处理,得到目标语音帧的短时相关性参数的步骤时,具体执行如下步骤:
若历史语音帧为清音帧,目标语音帧为清音帧,则设置目标语音帧的内插因子为第二数值;以及,
获取历史语音帧的第k个分帧的第f个线谱频率,历史语音帧的各个分帧的第f个线谱频率之差的绝对值,以及历史语音帧的各个分帧的第f个线谱频率所属关联对中的最小项;
将历史语音帧的第k个分帧的第f个线谱频率和绝对值之差,设置为目标语音帧的第k个分帧中的第f个线谱频率;以及,
将历史语音帧的第k个分帧的第f个线谱频率与最小项之和设置为为目标语音帧的第k个分帧中的第f+1个线谱频率。
一种实施方式中,历史语音帧的时域参数包含历史语音帧的长时相关性参数;计算机可读存储介质中的一条或多条指令由处理器1201加载并且还执行如下步骤:
调用网络模型对历史语音帧的时域波形及历史语音帧的长时相关性参数进行预测处理,得到目标语音帧的长时相关性参数;
采用第n-1帧语音帧的长时相关性参数确定第n-1帧语音帧的帧类型,及采用预测得到的目标语音帧的长时相关性参数确定目标语音帧的帧类型;
比较历史语音帧的帧类型及目标语音帧的帧类型是否发生变化,包括:比较第n-1帧语音帧的帧类型与目标语音帧的帧类型是否发生变化。
一种实施方式中,计算机可读存储介质中的一条或多条指令由处理器1201加载并且还执行如下步骤:提取历史语音帧的各个分帧的线谱频率的统计特征;
在此实施方式下,计算机可读存储介质中的一条或多条指令由处理器1201加载并执行比较历史语音帧的帧类型及目标语音帧的帧类型是否发生变化的步骤时,具体执行如下步骤:
对历史语音帧的各个分帧的线谱频率的统计特征进行迭代求差,并对迭代求差结果进行求和计算,得到比较变量;
若比较变量大于变化阈值,则得到帧类型发生变化的比较结果;
若比较变化量不大于变化阈值,则得到帧类型未发生变化的比较结果。
一种实施方式中,历史语音帧的时域参数包含第n-1帧语音帧的长时相关性参数;计算机可读存储介质中的一条或多条指令由处理器1201加载并且还执行如下步骤:
若比较结果为帧类型发生变化,则采用第n-1帧语音帧的长时相关性参数确定第n-1帧语音帧的帧类型;以及,
根据第n-1帧语音帧的帧类型,确定目标语音帧的帧类型。
一种实施方式中,语音信号中的任一帧语音帧表示为第i帧语音帧,第i帧语音帧的时域参数包含长时相关性参数,长时相关性参数包括第i帧语音帧的m个子帧的基音延迟;采用第i帧的长时相关性参数确定帧类型的方法包括:
分别将第i帧语音帧的每个子帧的基音延迟与延迟阈值进行比较,如果子帧的基音延迟低于延迟阈值,则将子帧的基音延迟设置为特定值;
统计第i帧语音帧中基音延迟为特定值的子帧的数量占比;
若数量占比大于预置比例,则确定第i帧为清音帧;若数量占比不大于预置比例,则确定第i帧为浊音帧。
一种实施方式中,计算机可读存储介质中的一条或多条指令由处理器1201加载并执行根据参数集重建目标语音帧的步骤时,具体执行如下步骤:
根据参数集建立重建滤波器;
获取目标语音帧的激励信号;
采用重建滤波器对目标语音帧的激励信号进行滤波处理,得到目标语音帧;
其中,若目标语音帧为清音帧,则历史语音帧的时域参数包括历史语音帧的短时相关性参数,参数集包括目标语音帧的短时相关性参数;重建滤波器包括线性预测编码滤波器;若目标语音帧为浊音帧,则历史语音帧的时域参数包括历史语音帧的短时相关性参数和长时相关性参数,参数集包括目标语音帧的短时相关性参数和目标语音帧的长时相关性参数;重建滤波器包括长时预测滤波器和线性预测编码滤波器。
一种实施方式中,计算机可读存储介质中的一条或多条指令由处理器1201加载并执行获取目标语音帧的激励信号的步骤时,具体执行如下步骤:
获取历史语音帧的激励信号;
根据历史语音帧的激励信号估计目标语音帧的激励信号。
一种实施方式中,历史语音帧的激励信号包括第n-1帧语音帧的激励信号;计算机可读存储介质中的一条或多条指令由处理器1201加载并执行根据历史语音帧的激励信号估计目标语音帧的激励信号的步骤时,具体执行如下步骤:将第n-1帧语音帧的激励信号确定为目标语音帧的激励信号。
一种实施方式中,历史语音帧的激励信号包括第n-t帧至第n-1帧中各帧语音帧的激励信号;计算机可读存储介质中的一条或多条指令由处理器1201加载并执行根据历史语音帧的激励信号估计目标语音帧的激励信号的步骤时,具体执行如下步骤:对第n-t帧至第n-1帧共t帧语音帧的激励信号进行平均值计算,得到目标语音帧的激励信号。
一种实施方式中,历史语音帧的激励信号包括第n-t帧至第n-1帧中各帧语音帧的激励信号;计算机可读存储介质中的一条或多条指令由处理器1201加载并执行根据历史语音帧的激励信号估计目标语音帧的激励信号的步骤时,具体执行如下步骤:对第n-t帧至第n-1帧共t帧语音帧的激励信号进行加权求和,得到目标语音帧的激励信号。
一种实施方式中,网络模型还包括第三神经网络,第三神经网络与第一神经网络或所述第二神经网络属于并行网络;历史语音帧的时域参数包括历史语音帧的能量参数;则计算机可读存储介质中的一条或多条指令由处理器1201加载并且还执行如下步骤:
调用第三神经网络对历史语音帧的能量参数进行预测处理,得到目标语音帧的能量参数,目标语音帧的能量参数属于目标语音帧的参数集中的一种参数;目标语音帧的能量参数包括目标语音帧的各个子帧的增益值。
本申请实施例中,当需要对语音信号中的目标语音帧进行重建时,通过对历史语音帧的时域参数进行分析预测出目标语音帧的参数集,进而根据目标语音帧的参数集重建目标语音帧,重建过程较为简单高效,更适用于对实时性要求较高的通信场景;另外,由于不同类型的参数对预测误差的容忍度不统一,可以针对不同类型的参数采用不同的预测策略,对预测误差的容忍度较低的参数,可以采用网络模型预测策略,可以有效控制模型的大小,极大的精简网络结构,降低处理复杂度;而对于预测误差的容忍度较高的参数,可以采用信号推理策略;这样能够有效提升语音处理效率;并且,本申请实施例还支持连续丢包补偿,即在连续多帧语音帧出现丢失的情况下,能够实现对连续多帧语音帧的重建,确保语音通话质量。
在另一个实施例中,由处理器1201加载并执行计算机可读存储介质中存放的一条或多条指令,以实现图3所示实施例中的语音处理方法的相应步骤;具体实现中,计算机可读存储介质中的一条或多条指令由处理器1201加载并执行如下步骤:
接收经VoIP系统传输的语音信号;
当语音信号中的目标语音帧丢失时,采用如图4、图5或图8所示的方法重建目标语音帧;
基于重建的目标语音帧输出语音信号。
一种实施方式中,计算机可读存储介质中的一条或多条指令由处理器1201加载并且还执行如下步骤:
获取目标语音帧的冗余信息;
当语音信号中的目标语音帧丢失时,根据目标语音帧的冗余信息重建目标语音帧;
若根据目标语音帧的冗余信息重建目标语音帧失败,则触发采用如图4、图5或图8所示的方法重建目标语音帧。
本申请实施例中,当VoIP语音信号中的目标语音帧丢失时,可以采用改进的PLC技术重建目标语音帧,改进的PLC技术重建过程较为简单高效,更适用于对实时性要求较高的通信场景;另外,支持连续丢包补偿,即在连续多帧语音帧出现丢失的情况下,能够实现对连续多帧语音帧的重建,确保语音通话质量;并且,改进的PLC技术还可与FEC技术的组合使用,以相对灵活的组合使用方式避免音质损伤带来的不利影响。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (24)

1.一种语音处理方法,其特征在于,包括:
确定待处理的目标语音帧对应的历史语音帧;
获取所述历史语音帧的时域参数;
根据所述历史语音帧的时域参数预测得到所述目标语音帧的参数集,所述参数集中包含至少两个参数;
根据所述参数集重建所述目标语音帧。
2.如权利要求1所述的方法,其特征在于,所述目标语音帧是指经VoIP系统传输的语音信号中的第n帧语音帧;
所述历史语音帧包括经所述VoIP系统传输的语音信号中的第n-t帧至第n-1帧共t帧语音帧,n、t均为正整数;
所述语音信号中的每帧语音帧包含k个分帧和m个子帧,其中,k为大于1的整数,m为正整数。
3.如权利要求1或2所述的方法,其特征在于,所述历史语音帧的时域参数包含所述历史语音帧的长时相关性参数;所述参数集包含所述目标语音帧的长时相关性参数;
所述根据所述历史语音帧的时域参数预测得到所述目标语音帧的参数集,包括:
调用网络模型对所述历史语音帧的时域波形及所述历史语音帧的长时相关性参数进行预测处理,得到所述目标语音帧的长时相关性参数。
4.如权利要求3所述的方法,所述长时相关性参数包括基音延迟和长时预测系数;所述网络模型包括第一神经网络及至少两个第二神经网络,所述第二神经网络属于所述第一神经网络的子网络;一个所述第二神经网络用于预测所述参数集中的一种长时相关性参数;
所述调用网络模型对所述历史语音帧的时域波形及所述历史语音帧的长时相关性参数进行预测处理,得到所述目标语音帧的长时相关性参数,包括:
调用所述第一神经网络对所述历史语音帧的时域波形进行处理,得到中间参数;
将所述中间参数和所述历史语音帧的基音延迟作为输入信息输入至所述第二神经网络中进行预测处理,得到所述目标语音帧的基音延迟;以及,
将所述中间参数和所述历史语音帧的长时预测系数作为输入信息输入至所述第二神经网络中进行预测处理,得到所述目标语音帧的长时预测系数。
5.如权利要求2所述的方法,其特征在于,所述历史语音帧的时域参数包含所述历史语音帧的短时相关性参数;所述历史语音帧的短时相关性参数包括所述历史语音帧的各个分帧的线谱频率;所述参数集包含所述目标语音帧的短时相关性参数;所述目标语音帧的短时相关性参数包括所述目标语音帧的第k个分帧的线谱频率及内插因子;
所述对所述历史语音帧的时域参数进行预测处理,得到所述目标语音帧的参数集,包括:
比较所述历史语音帧的帧类型及所述目标语音帧的帧类型是否发生变化;
根据比较结果对所述历史语音帧的短时相关性参数进行信号推理处理,得到所述目标语音帧的短时相关性参数;
其中,所述比较结果包括:帧类型发生变化或帧类型未发生变化;所述帧类型未发生变化是指所述历史语音帧的帧类型与所述目标语音帧的帧类型相同;
所述帧类型发生变化包括:所述历史语音帧为浊音帧,而所述目标语音帧为清音帧;或者,所述历史语音帧为清音帧,而所述目标语音帧为浊音帧。
6.如权利要求5所述的方法,其特征在于,所述根据比较结果对所述历史语音帧的短时相关性参数进行信号推理处理,得到所述目标语音帧的短时相关性参数,包括:
若所述历史语音帧的帧类型与所述目标语音帧的帧类型相同,则设置所述目标语音帧的内插因子为第一数值;以及,
将所述历史语音帧的所有分帧的线谱频率的平均值设置为所述目标语音帧的第k个分帧的线谱频率。
7.如权利要求5所述的方法,其特征在于,所述语音信号中的每帧语音帧的任一个分帧包含p个线谱频率,且所述p个线谱频率中,第f个线谱频率与第f+1个线谱频率被配置为关联对;其中,f为整数且为偶数,p为正整数,0≤f≤p;
所述根据比较结果对所述历史语音帧的短时相关性参数进行信号推理处理,得到所述目标语音帧的短时相关性参数,包括:
若所述历史语音帧为浊音帧,所述目标语音帧为清音帧,则设置所述目标语音帧的内插因子为第二数值;以及,
获取所述历史语音帧的第k个分帧的第f个线谱频率,所述历史语音帧的各个分帧的第f个线谱频率之差的绝对值,以及所述历史语音帧的各个分帧的第f个线谱频率所属关联对中的最大项;
将所述历史语音帧的第k个分帧的第f个线谱频率和所述绝对值之和,设置为所述目标语音帧的第k个分帧中的第f个线谱频率;以及,
将所述历史语音帧的第k个分帧的第f个线谱频率与所述最大项之和设置为所述为所述目标语音帧的第k个分帧中的第f+1个线谱频率。
8.如权利要求5所述的方法,其特征在于,所述语音信号中的每帧语音帧的任一个分帧包含p个线谱频率,且所述p个线谱频率中,第f个线谱频率与第f+1个线谱频率被配置为关联对;其中,f为整数且为偶数,p为正整数,0≤f≤p;
所述根据比较结果对所述历史语音帧的短时相关性参数进行信号推理处理,得到所述目标语音帧的短时相关性参数,包括:
若所述历史语音帧为清音帧,所述目标语音帧为清音帧,则设置所述目标语音帧的内插因子为第二数值;以及,
获取所述历史语音帧的第k个分帧的第f个线谱频率,所述历史语音帧的各个分帧的第f个线谱频率之差的绝对值,以及所述历史语音帧的各个分帧的第f个线谱频率所属关联对中的最小项;
将所述历史语音帧的第k个分帧的第f个线谱频率和所述绝对值之差,设置为所述目标语音帧的第k个分帧中的第f个线谱频率;以及,
将所述历史语音帧的第k个分帧的第f个线谱频率与所述最小项之和设置为所述为所述目标语音帧的第k个分帧中的第f+1个线谱频率。
9.如权利要求5所述的方法,其特征在于,所述历史语音帧的时域参数包含所述历史语音帧的长时相关性参数;所述方法还包括:
调用网络模型对所述历史语音帧的时域波形及所述历史语音帧的长时相关性参数进行预测处理,得到所述目标语音帧的长时相关性参数;
采用所述第n-1帧语音帧的长时相关性参数确定所述第n-1帧语音帧的帧类型,及采用预测得到的所述目标语音帧的长时相关性参数确定所述目标语音帧的帧类型;
所述比较所述历史语音帧的帧类型及所述目标语音帧的帧类型是否发生变化,包括:比较所述第n-1帧语音帧的帧类型与所述目标语音帧的帧类型是否发生变化。
10.如权利要求5所述的方法,其特征在于,所述方法还包括:提取所述历史语音帧的各个分帧的线谱频率的统计特征;
所述比较所述历史语音帧的帧类型及所述目标语音帧的帧类型是否发生变化,包括:
对所述历史语音帧的各个分帧的线谱频率的统计特征进行迭代求差,并对迭代求差结果进行求和计算,得到比较变量;
若所述比较变量大于变化阈值,则得到帧类型发生变化的比较结果;
若所述比较变化量不大于变化阈值,则得到帧类型未发生变化的比较结果。
11.如权利要求10所述的方法,其特征在于,所述历史语音帧的时域参数包含第n-1帧语音帧的长时相关性参数;所述方法还包括:
若所述比较结果为帧类型发生变化,则采用所述第n-1帧语音帧的长时相关性参数确定所述第n-1帧语音帧的帧类型;以及,
根据所述第n-1帧语音帧的帧类型,确定所述目标语音帧的帧类型。
12.如权利要求9或11所述的方法,其特征在于,所述语音信号中的任一帧语音帧表示为第i帧语音帧,所述第i帧语音帧的时域参数包含长时相关性参数,所述长时相关性参数包括所述第i帧语音帧的m个子帧的基音延迟;采用所述第i帧的长时相关性参数确定帧类型的方法包括:
分别将第i帧语音帧的每个子帧的基音延迟与延迟阈值进行比较,如果子帧的基音延迟低于延迟阈值,则将子帧的基音延迟设置为特定值;
统计所述第i帧语音帧中基音延迟为特定值的子帧的数量占比;
若所述数量占比大于预置比例,则确定所述第i帧为清音帧;若所述数量占比不大于所述预置比例,则确定所述第i帧为浊音帧。
13.如权利要求2所述的方法,其特征在于,所述根据所述参数集重建所述目标语音帧,包括:
根据所述参数集建立重建滤波器;
获取目标语音帧的激励信号;
采用所述重建滤波器对所述目标语音帧的激励信号进行滤波处理,得到所述目标语音帧;
其中,若所述目标语音帧为清音帧,则所述历史语音帧的时域参数包括所述历史语音帧的短时相关性参数,所述参数集包括所述目标语音帧的短时相关性参数;所述重建滤波器包括线性预测编码滤波器;若所述目标语音帧为浊音帧,则所述历史语音帧的时域参数包括所述历史语音帧的短时相关性参数和长时相关性参数,所述参数集包括所述目标语音帧的短时相关性参数和所述目标语音帧的长时相关性参数;所述重建滤波器包括长时预测滤波器和线性预测编码滤波器。
14.如权利要求13所述的方法,其特征在于,所述获取目标语音帧的激励信号,包括:
获取所述历史语音帧的激励信号;
根据所述历史语音帧的激励信号估计所述目标语音帧的激励信号。
15.如权利要求14所述的方法,其特征在于,所述历史语音帧的激励信号包括第n-1帧语音帧的激励信号;所述根据所述历史语音帧的激励信号估计所述目标语音帧的激励信号,包括:
将所述第n-1帧语音帧的激励信号确定为所述目标语音帧的激励信号。
16.如权利要求14所述的方法,其特征在于,所述历史语音帧的激励信号包括第n-t帧至第n-1帧中各帧语音帧的激励信号;所述根据所述历史语音帧的激励信号估计所述目标语音帧的激励信号,包括:
对所述第n-t帧至第n-1帧共t帧语音帧的激励信号进行平均值计算,得到所述目标语音帧的激励信号。
17.如权利要求14所述的方法,其特征在于,所述历史语音帧的激励信号包括第n-t帧至第n-1帧中各帧语音帧的激励信号;所述根据所述历史语音帧的激励信号估计所述目标语音帧的激励信号,包括:
对所述第n-t帧至第n-1帧共t帧语音帧的激励信号进行加权求和,得到所述目标语音帧的激励信号。
18.如权利要求4所述的方法,其特征在于,所述网络模型还包括第三神经网络,所述第三神经网络与所述第一神经网络或所述第二神经网络属于并行网络;所述历史语音帧的时域参数包括所述历史语音帧的能量参数;则所述方法还包括:
调用所述第三神经网络对所述历史语音帧的能量参数进行预测处理,得到所述目标语音帧的能量参数,所述目标语音帧的能量参数属于所述目标语音帧的参数集中的一种参数;所述目标语音帧的能量参数包括所述目标语音帧的各个子帧的增益值。
19.一种语音处理方法,其特征在于,包括:
接收经VoIP系统传输的语音信号;
当所述语音信号中的目标语音帧丢失时,采用如权利要求1-18任一项所述的方法重建所述目标语音帧;
基于所述重建的目标语音帧输出所述语音信号。
20.如权利要求19所述的方法,其特征在于,所述方法还包括:
获取所述目标语音帧的冗余信息;
当所述语音信号中的目标语音帧丢失时,根据所述目标语音帧的冗余信息重建所述目标语音帧;
若根据所述目标语音帧的冗余信息重建所述目标语音帧失败,则触发采用如权利要求1-18任一项所述的方法重建所述目标语音帧。
21.一种语音处理装置,其特征在于,包括:
确定单元,用于确定待处理的目标语音帧对应的历史语音帧;
获取单元,用于获取所述历史语音帧的时域参数;
处理单元,用于根据所述历史语音帧的时域参数预测得到所述目标语音帧的参数集,所述参数集中包含至少两个参数;以及用于根据所述参数集重建所述目标语音帧。
22.一种语音处理装置,其特征在于,包括:
接收单元,用于接收经VoIP系统传输的语音信号;
处理单元,用于当所述语音信号中的目标语音帧丢失时,采用如权利要求1-18任一项所述的方法重建所述目标语音帧;
输出单元,用于基于所述重建的目标语音帧输出所述语音信号。
23.一种语音处理设备,其特征在于,所述设备包括:
处理器,适于实现一条或多条指令;以及,
计算机可读存储介质,存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行如权利要求1-20任一项所述的语音处理方法。
24.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行如权利要求1-20任一项所述的语音处理方法。
CN202010416575.7A 2020-05-15 2020-05-15 一种语音处理方法、装置、设备及存储介质 Pending CN111554308A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010416575.7A CN111554308A (zh) 2020-05-15 2020-05-15 一种语音处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010416575.7A CN111554308A (zh) 2020-05-15 2020-05-15 一种语音处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN111554308A true CN111554308A (zh) 2020-08-18

Family

ID=72008356

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010416575.7A Pending CN111554308A (zh) 2020-05-15 2020-05-15 一种语音处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111554308A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112634912A (zh) * 2020-12-18 2021-04-09 北京猿力未来科技有限公司 丢包补偿方法及装置
WO2022228144A1 (zh) * 2021-04-30 2022-11-03 腾讯科技(深圳)有限公司 音频信号增强方法、装置、计算机设备、存储介质和计算机程序产品

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112634912A (zh) * 2020-12-18 2021-04-09 北京猿力未来科技有限公司 丢包补偿方法及装置
CN112634912B (zh) * 2020-12-18 2024-04-09 北京猿力未来科技有限公司 丢包补偿方法及装置
WO2022228144A1 (zh) * 2021-04-30 2022-11-03 腾讯科技(深圳)有限公司 音频信号增强方法、装置、计算机设备、存储介质和计算机程序产品

Similar Documents

Publication Publication Date Title
CN110379412B (zh) 语音处理的方法、装置、电子设备及计算机可读存储介质
CN111554309A (zh) 一种语音处理方法、装置、设备及存储介质
CN111554322A (zh) 一种语音处理方法、装置、设备及存储介质
KR101344174B1 (ko) 오디오 신호 처리 방법 및 오디오 디코더 장치
JP5232151B2 (ja) パケットベースのエコー除去および抑制
EP3992964B1 (en) Voice signal processing method and apparatus, and electronic device and storage medium
US20220270625A1 (en) System and method for enhancement of a degraded audio signal
RU2677453C2 (ru) Способы, кодер и декодер для линейного прогнозирующего кодирования и декодирования звуковых сигналов после перехода между кадрами, имеющими различные частоты дискретизации
JP4263412B2 (ja) 音声符号変換方法
JPH07261797A (ja) 信号符号化装置及び信号復号化装置
WO2012158159A1 (en) Packet loss concealment for audio codec
WO2005117517A2 (en) Neuroevolution-based artificial bandwidth expansion of telephone band speech
CN111554308A (zh) 一种语音处理方法、装置、设备及存储介质
WO2022228144A1 (zh) 音频信号增强方法、装置、计算机设备、存储介质和计算机程序产品
CN111554323A (zh) 一种语音处理方法、装置、设备及存储介质
JP2000155597A (ja) デジタル音声符号器において使用するための音声符号化方法
CN102598126B (zh) 信息处理装置及其附属设备、信息处理系统及其控制方法
JP5604572B2 (ja) 複雑さ分散によるデジタル信号の転送誤り偽装
JP2024502287A (ja) 音声強調方法、音声強調装置、電子機器、及びコンピュータプログラム
JP4236675B2 (ja) 音声符号変換方法および装置
Oostermeijer et al. Speech Enhancement autoencoder with hierarchical latent structure
US9111527B2 (en) Encoding device, decoding device, and methods therefor
Huang et al. A Two-Stage Training Framework for Joint Speech Compression and Enhancement
RU2394284C1 (ru) Способ сжатия и восстановления речевых сигналов для систем кодирования с переменной скоростью передачи
CN116110424A (zh) 一种语音带宽扩展方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40027453

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination