CN116110424A - 一种语音带宽扩展方法及相关装置 - Google Patents
一种语音带宽扩展方法及相关装置 Download PDFInfo
- Publication number
- CN116110424A CN116110424A CN202111335506.4A CN202111335506A CN116110424A CN 116110424 A CN116110424 A CN 116110424A CN 202111335506 A CN202111335506 A CN 202111335506A CN 116110424 A CN116110424 A CN 116110424A
- Authority
- CN
- China
- Prior art keywords
- processed
- frequency
- signal frame
- narrowband
- speech signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 75
- 230000005284 excitation Effects 0.000 claims abstract description 187
- 238000001228 spectrum Methods 0.000 claims abstract description 185
- 238000001914 filtration Methods 0.000 claims abstract description 88
- 238000004364 calculation method Methods 0.000 claims abstract description 38
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 19
- 230000015572 biosynthetic process Effects 0.000 claims description 28
- 238000003786 synthesis reaction Methods 0.000 claims description 28
- 238000005070 sampling Methods 0.000 claims description 26
- 238000002156 mixing Methods 0.000 claims description 25
- 238000003860 storage Methods 0.000 claims description 20
- 238000004458 analytical method Methods 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 9
- 230000003595 spectral effect Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 230000035807 sensation Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 17
- 230000001755 vocal effect Effects 0.000 description 16
- 238000012545 processing Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 11
- 238000013473 artificial intelligence Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000007493 shaping process Methods 0.000 description 4
- 230000015556 catabolic process Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000006731 degradation reaction Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 238000003892 spreading Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请公开一种语音带宽扩展方法及相关装置,在获取到待处理窄带语音信号帧后,根据待处理窄带语音信号帧进行高频功率谱预测,得到待处理窄带语音信号帧对应的高频功率谱,将高频功率谱和待处理窄带语音信号帧对应的低频功率谱进行拼接得到宽带功率谱。对宽带功率谱进行谱包络计算,并根据计算结果确定滤波器参数。基于待处理窄带语音信号帧和滤波器参数进行分析滤波生成待处理窄带语音信号帧对应的低频激励信号,对低频激励信号进行扩展得到高频激励信号,根据低频激励信号和高频激励信号合成得到宽带激励信号。基于宽带激励信号和滤波器参数进行合成滤波得到听感类似人类发声的宽带语音信号帧,进而提高宽带语音信号帧的逼真度和语音质量。
Description
技术领域
本申请涉及语音通信技术领域,特别是涉及一种语音带宽扩展方法及相关装置。
背景技术
在基于网际协议的语音传输(Voice over Internet Protocol,VOIP)的语音通信系统中,例如通过即时通信软件等进行多人音视频通话的时候,可能由于一些情况导致接收端接收到窄带语音信号,进而感受到明显的音质下降。
为了能够在接收端提升收听语音的主观体验,最自然的方法就是对窄带语音信号进行语音带宽扩展,进而人工合成宽带语音信号。
然而,目前的语音带宽扩展方式仅仅是将丢失的高频信息尽量恢复,合成的宽带语音信号给用户的听感较为生硬、机械,难以体现说话人的语言特色,其在逼真度上表现较差,进而导致语音质量较差。
发明内容
为了解决上述技术问题,本申请提供了一种语音带宽扩展方法及相关装置,可以得到听感类似人类发声的宽带语音信号帧,可以体现出说话人的语言特色,从而提高宽带语音信号帧的逼真度,以及提高语音质量。
本申请实施例公开了如下技术方案:
第一方面,本申请实施例提供一种语音带宽扩展方法,所述方法包括:
根据待处理窄带语音信号帧进行高频功率谱预测,得到所述待处理窄带语音信号帧对应的高频功率谱;
将所述高频功率谱和所述待处理窄带语音信号帧对应的低频功率谱进行拼接得到宽带功率谱;
对所述宽带功率谱进行谱包络计算,并根据计算结果确定滤波器参数;
基于所述待处理窄带语音信号帧和所述滤波器参数进行分析滤波,生成所述待处理窄带语音信号帧对应的低频激励信号,所述分析滤波用于滤除所述待处理窄带语音信号帧中的音色信息和声道形状信息;
对所述低频激励信号进行扩展得到高频激励信号;
根据所述低频激励信号和所述高频激励信号进行合成得到宽带激励信号;
基于所述宽带激励信号和所述滤波器参数进行合成滤波得到宽带语音信号帧,所述合成滤波用于为所述宽带激励信号添加音色信息和声道形状信息。
第二方面,本申请实施例提供一种语音带宽扩展装置,所述装置包括预测单元、拼接单元、确定单元、生成单元和滤波单元:
所述预测单元,用于根据待处理窄带语音信号帧进行高频功率谱预测,得到所述待处理窄带语音信号帧对应的高频功率谱;
所述拼接单元,用于将所述高频功率谱和所述待处理窄带语音信号帧对应的低频功率谱进行拼接得到宽带功率谱;
所述确定单元,用于对所述宽带功率谱进行谱包络计算,并根据计算结果确定滤波器参数;
所述生成单元,用于基于所述待处理窄带语音信号帧和所述滤波器参数进行分析滤波,生成所述待处理窄带语音信号帧对应的低频激励信号,所述分析滤波用于滤除所述待处理窄带语音信号帧中的音色信息和声道形状信息;
所述确定单元,还用于对所述低频激励信号进行扩展得到高频激励信号;根据所述低频激励信号和所述高频激励信号进行合成得到宽带激励信号;
所述滤波单元,用于基于所述宽带激励信号和所述滤波器参数进行合成滤波得到宽带语音信号帧,所述合成滤波用于为所述宽带激励信号添加音色信息和声道形状信息。
第三方面,本申请实施例提供一种用于语音带宽扩展的设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面所述的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面所述的方法。
第五方面,本申请实施例提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如第一方面所述的方法。
由上述技术方案可以看出,在获取到待处理窄带语音信号帧后,根据待处理窄带语音信号帧进行高频功率谱预测,得到待处理窄带语音信号帧对应的高频功率谱,将高频功率谱和待处理窄带语音信号帧对应的低频功率谱进行拼接得到宽带功率谱,从而在一定程度上对待处理窄带语音信号帧进行带宽扩展。基于对人类语音产生的分析,人类的声道(口腔、喉咙)相当于一个滤波器,声道产生的震动经过不同形状的声道产生不同音色的语音信号。为此,本申请对宽带功率谱进行谱包络计算,并根据计算结果确定滤波器参数,通过滤波器参数仿真人类的声道。然后基于待处理窄带语音信号帧和滤波器参数进行分析滤波,滤除待处理窄带语音信号帧中的音色信息和声道形状信息生成待处理窄带语音信号帧对应的低频激励信号,对低频激励信号进行扩展得到高频激励信号,进而根据低频激励信号和高频激励信号进行合成确定宽带激励信号,该宽带激励信号相当于人类语音产生过程中声道产生的震动。由于滤波器参数仿真人类的声道,因此基于宽带激励信号和滤波器参数进行合成滤波,为宽带激励信号添加音色信息和声道形状信息得到宽带语音信号帧,相当于对声道产生的震动通过对应的声道进行处理,进而得到类似人类发声的宽带语音信号帧。可见本方案提供的语音带宽扩展方法可以得到听感类似人类发声的宽带语音信号帧,可以体现出说话人的语言特色,从而提高宽带语音信号帧的逼真度,以及提高语音质量。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术成员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的不同语音信号的示例图;
图2为本申请实施例提供的一种语音带宽扩展方法的系统架构示意图;
图3为本申请实施例提供的一种语音带宽扩展方法的流程图;
图4为本申请实施例提供的一种语音带宽扩展方法的流程结构框图;
图5为本申请实施例提供的一种基于低频激励信号得到宽带激励信号的流程结构框图;
图6为本申请实施例提供的一种接收端接收来自多个发送端的窄带语音信号的码流并送去播放的逻辑框图;
图7为本申请实施例提供的一种接收端同时接收到窄带语音信号和宽带语音信号的系统框图;
图8为本申请实施例提供的一种语音带宽扩展装置的结构图;
图9为本申请实施例提供的一种智能手机的结构图;
图10为本申请实施例提供的一种服务器的结构图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
在VOIP语音通信系统中,一般有两种情况会导致接收端接收到窄带语音信号,其中的高频信息丢失,进而感受到明显的音质下降。第一种情况,当进行多方VOIP语音通话时,有不少于一方是通过传统窄带电话接入,比如公共交换电话网络(Public SwitchedTelephone Network,PSTN),进而其它接收端只能收到窄带语音信号;第二种情况,在两方或者多方进行VOIP语音通话时,由于声码器的设置,比如在网络带宽不够或者丢包严重等情况下,声码器工作在窄带编码模式,从而只发送窄带语音信号的码流。为了能够在接收端提升收听语音的主观体验,最自然的方法就是对窄带语音进行语音带宽扩展,进而人工合成宽带语音信号。
为了帮助理解,下面对不同语音信号分别进行介绍。参见图1所示,图1中(a)所标示的图为一个宽带语音信号,采样率为16kHz,根据奈奎斯特采样定理,语音信号带宽为采样率的一半,即该宽带语音信号的带宽为8kHz。图1中(b)所标示的图为一个窄带语音信号,采样率为8kHz,因此该窄带语音信号的带宽只有4kHz(例如图1中(b)所标示的图中,语音信号基本集中在4kHZ以下)。图1中(c)所标示的图为将8kHz采样的窄带语音信号上采样到16kHz采样率的语音信号,此时虽然采样率提升了,但是由于之前是使用8kHz的采样率进行的采样,只能采集到4kHz以下的语音信号,所以即使目前采样率变成了16kHz,但是4kHz以上的语音信号仍然是已经丢失了(例如图1中(c)所标示的图中,4kHz以上完全是黑色的,基本上没有语音信号),从这个意义上讲,上采样之后的语音信号仍然是窄带语音信号。可见,窄带语音信号中高频信息(例如4kHZ以上的语音信号)丢失,导致语音信号质量下降,进而降低收听语音的主观体验。
为此,需要对窄带语音信号的带宽进行扩展,例如图1(d)所标示的图所示,其为对窄带语音信号的高频信息进行预测补全之后的宽带语音信号,可以看到,根据频率在4kHz以下的低频信息可以对4kHz以上的高频信息进行大致的预测,进而得到一个新的宽带语音信号,提升主观听觉感受。
目前的语音带宽扩展方式仅仅是将丢失的高频信息尽量恢复,合成的宽带语音信号给用户的听感较为生硬、机械,难以体现说话人的语言特色,其在逼真度上表现较差,进而导致语音质量较差。
为了解决上述技术问题,本申请实施例提供一种语音带宽扩展方法,该方法在预测得到待处理窄带语音对应的高频功率谱,进而得到宽带功率谱,然后基于宽带功率谱进行谱包络计算得到滤波器参数,通过滤波器参数仿真人类的声道,以便基于滤波器参数得到听感类似人类发声的宽带语音信号帧,这样得到的宽带语音信号帧可以体现出说话人的语言特色,从而提高宽带语音信号帧的逼真度,以及提高语音质量。
为了便于理解本申请的技术方案,下面结合实际应用场景对本申请实施例提供的语音带宽扩展方法进行介绍。
参见图2,图2为本申请实施例提供一种语音带宽扩展方法的系统架构示意图。该系统架构中包括接收端201和发送端202。其中,接收端201和发送端202通过网络进行语音通话。接收端201和发送端202可以是具有语音通话功能的终端设备,该终端设备例如可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能手表、车载终端、智能电视、座机等。若是在通过即时通信软件等进行多人音视频通话的场景下,接收端201和发送端202上可以安装即时通信软件。
在发送端202与接收端201进行语音通话时,由于前述两种情况可能会导致接收端根据窄带语音信号进行播放,进而降低用户在接收端201收听语音的主观体验。为此,接收端201在获取到待处理窄带语音信号帧后,可以根据待处理窄带语音信号帧进行高频功率谱预测,得到待处理窄带语音信号帧对应的高频功率谱,将高频功率谱和待处理窄带语音信号帧对应的低频功率谱进行拼接得到宽带功率谱,从而在一定程度上对待处理窄带语音信号帧进行带宽扩展,补全了高频信息。
其中,待处理窄带语音信号帧是进行语音带宽扩展的基本单元,接收端201获取到的窄带语音信号中包括多个窄带语音信号帧,可以将每个窄带语音信号帧分别作为待处理窄带语音信号帧执行本申请实施例提供的语音带宽扩展方法。
基于对人类语音产生的分析,人类的声道(口腔、喉咙)相当于一个滤波器,声道产生的震动经过不同形状的声道产生不同音色的语音信号。为此,接收端201可以对宽带功率谱进行谱包络计算,并根据计算结果确定滤波器参数,通过滤波器参数仿真人类的声道。然后基于待处理窄带语音信号帧和滤波器参数进行分析滤波,滤除待处理窄带语音信号帧中的音色信息和声道形状信息生成待处理窄带语音信号帧对应的低频激励信号,对低频激励信号进行扩展得到高频激励信号,进而根据低频激励信号和高频激励信号进行合成确定宽带激励信号,该宽带激励信号相当于人类语音产生过程中声道产生的震动。由于滤波器参数仿真人类的声道,因此基于宽带激励信号和滤波器参数进行合成滤波得到宽带语音信号帧,相当于对声道产生的震动通过对应的声道进行处理,进而得到类似人类发声的宽带语音信号帧。
需要说明的是,本申请实施例提供的方法还可以由服务器执行,例如接收端201获取到窄带语音信号是由于上述第二种情况导致的,那么,发送端202通过网络向接收端201发送的即是窄带语音信号。在这种情况下,可以由服务器先对窄带语音信号中包括的待处理窄带语音信号帧执行本申请实施例提供的语音带宽扩展方法,再将得到的宽带语音信号帧发送至接收端201进行播放。当然,也可以由服务器和接收端201配合执行,本申请实施例对此不做限定。其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。接收端201、发送端202以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
接下来,将以接收端为执行主体为例,结合附图对本申请实施例提供的语音带宽扩展方法进行详细介绍。
参见图3,图3示出了一种语音带宽扩展方法的流程图,所述方法包括:
S301、根据待处理窄带语音信号帧进行高频功率谱预测,得到所述待处理窄带语音信号帧对应的高频功率谱。
在VOIP多方语音通话中,某一方的接收端可能接收到来自其它发送端的窄带语音信号。其它发送端可能是电话座机或者手机,通过有线或者无线电信网络发送窄带语音信号,比如G.711或则G.729a等,也可能是其它接入互联网的电脑或者移动端通过VOIP应用程序在特定模式下只对语音的低频窄带能量进行了编码,例如,opus的低码率模式,等等。
由此,可能会导致接收端获取到的是窄带语音信号,进而影响用户在接收端的主观听觉感受。为了避免这种情况的发生,接收端可以对窄带语音信号进行语音带宽扩展。由于窄带语音信号可以包括多个窄带语音信号帧,故可以将每个窄带语音信号帧分别作为待处理窄带语音信号帧,以待处理窄带语音信号帧作为执行语音带宽扩展方法的最小单元。
在进行语音带宽扩展时,首先接收端可以根据待处理窄带语音信号帧进行高频功率谱预测,得到待处理窄带语音信号帧对应的高频功率谱。在一种可能的实现方式中,接收端可以利用预先训练好的预测模型,即人工智能(Artificial Intelligence,AI)模型进行高频功率谱预测。具体的,可以参见图4所示,图4示出了一种语音带宽扩展方法的流程结构框图。接收端对待处理窄带语音信号帧进行特征提取得到对应的特征向量,然后基于该特征向量和预测模型(参见图4中401所示)进行高频功率谱预测得到待处理窄带语音信号帧对应的高频功率谱。
可见本申请实施例可以涉及人工智能领域,人工智能(ArtificialIntelligence,AI)是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。本申请实施例例如涉及语音技术(Speech Technology),尤其涉及语音信号特征提取技术,从而对待处理窄带语音信号帧进行特征提取得到对应的特征向量。
又如涉及到机器学习(Machine learning,ML)技术,机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。本申请实施例中,可以利用机器学习训练预测模型。
其中,特征提取可以是通过特征提取模块(参见图4中402所示)实现。在一种可能的实现方式中,对待处理窄带语音信号帧进行特征提取得到对应的特征向量的实现方式可以是将待处理窄带语音信号帧的频谱分割为多个子带,计算每个子带分别对应的功率谱,以便根据功率谱确定所述特征向量。
多个子带可以是K个子带,K为大于1的整数。每个子带分别对应的功率谱可以是对数功率谱,也可以是其他形式的功率谱,本实施例对此不做限定。若每个子带分别对应的功率谱是对数功率谱,则计算得到的对应子带的对数功率谱可以用Plt(k),k=1,2,…,K来表示,其中,t表示待处理窄带语音信号帧为第t帧窄带语音信号帧,k表示第k个子带。子带的划分方式可以是按照频率均匀分割,也可以是按照符合人耳听觉响应的bark频带进行分割。
在一种可能的实现方式中,在得到每个子带分别对应的功率谱后,可以将每个子带分别对应的功率谱作为特征向量。在另一种可能的实现方式中,为了提高预测的准确性,也可以将当前时刻之前和之后一段时间的对数功率谱合并到一起组成更大的特征向量,例如将之前p帧(即待处理窄带语音信号帧之前p帧)和之后q帧(即待处理窄带语音信号帧之后q帧)对应的对数功率谱一起组合起来,得到最终的特征向量F=[Plt-p(k)Plt(k)Plt+q(k)],其中,t表示待处理窄带语音信号帧为第t帧窄带语音信号帧,t-p表示第t-p帧窄带语音信号帧,t+q表示第t+q帧窄带语音信号帧,Plt-p(k)表示第t-p帧窄带语音信号帧中每个子带对应的功率谱,Plt(k)表示第t帧窄带语音信号帧中每个子带对应的功率谱,Plt+q(k)表示第t+q帧窄带语音信号帧中每个子带对应的功率谱。通过这种方式可以使得特征向量中包括更多的信息,进而提高预测的准确性。
需要说明的是,上述预测模型可以包括前向多层感知机网络(Deep NeuralNetworks,DNN),递归神经网络(Recurrent Neural Network,RNN),卷积神经网络(Convolutional Neural Networks,CNN)等,以及一种或多种上述神经网络层的组合网络模型。预测模型通过预先准备好的训练数据训练好模型参数,进而根据输入的特征向量F与模型参数相互作用,进而能够对待处理窄带语音信号帧的高频功率谱作出预测。其中,高频功率谱预测可以由高频功率谱预测模块(参见图4中403所示)实现。
上述高频功率谱预测模块根据输入的特征向量F和模型参数,根据模型参数指定的模型结构例如DNN模型进行高频功率谱预测。在一种可能的实现方式中,基于特征向量和预测模型得到待处理窄带语音信号帧对应的高频功率谱的方式可以是将特征向量输入至预测模型,通过预测模型输出待处理窄带语音信号帧在高频带上每个频点的功率值,进而基于待处理窄带语音信号帧在高频带上每个频点的功率值构建高频功率谱。例如待处理窄带语音信号帧的高频功率谱表示为PSDht(z),z=1,2,…,N/2,其中N为宽带频谱的频点个数,N/2即表示高频带的频点个数是整个宽带频谱的频点个数的一半,z表示高频带上第z个频点。
在另一种可能的实现方式中,基于特征向量和预测模型得到待处理窄带语音信号帧对应的高频功率谱的方式还可以是将特征向量输入至预测模型,通过预测模型输出待处理窄带语音信号帧在高频带上每个子带的平均功率值,进而基于待处理窄带语音信号帧在高频带上每个子带的平均功率值构建高频功率谱。此时,预测模型的输出不是高频功率谱的所有N/2个频点的功率值,而是将高频带按照预设方式划分为多个子带(例如S个子带),预测模型预测每一个子带的平均功率值作为对应子带所包含频点的功率值,进而基于每个子带的平均功率值构建高频功率谱。通过这种方式无需计算每个频点的功率值,从而大大降低了计算量,提高了预测效率。
S302、将所述高频功率谱和所述待处理窄带语音信号帧对应的低频功率谱进行拼接得到宽带功率谱。
在本申请实施例中,待处理窄带语音信号帧对应的低频功率谱可以通过PSDlt(z)表示,t表示待处理窄带语音信号帧为第t帧窄带语音信号帧,z表示低频带上的第z个频点。然后通过宽带功率谱合成模块(参见图4中404所示)将上述低频功率谱与预测得到的高频功率谱拼接起来,得到宽带功率谱PSDt=[PSDlt PSDht],其中PSDlt表示低频功率谱,PSDht表示高频功率谱。如果低频功率谱和高频功率谱分别是一个256点的实数向量,拼接之后的宽带功率谱就是一个512点的实数向量。
在一种可能的实现方式中,在将高频功率谱和待处理窄带语音信号帧对应的低频功率谱进行拼接得到宽带功率谱之前可以对待处理窄带语音信号帧进行上采样处理,然后基于上采样处理后的待处理窄带语音信号帧计算低频功率谱。
其中,上采样处理可以通过上采样模块(参见图4中405所示)实现,图4中的上采样模块对待处理窄带语音信号帧进行上采样处理,例如一般窄带语音信号的采样率为8kHz采,上采样模块采用标准的上采样方法,例如插值滤波法,将采样率提升到16kHz,进而得到上采样处理后的待处理窄带语音信号帧。
通过这种方式可以使得上采样处理后的待处理窄带语音信号帧的频点与高频功率谱进行对齐,方便后续对待处理窄带语音信号帧的低频功率谱与高频功率谱进行拼接。
然后通过图4中的低频功率谱计算模块(参见图4中406所示)对上采样处理后的待处理窄带语音信号帧加窗之后进行时频域转换。加窗操作采用的窗函数一般采用汉宁窗或者汉明窗等。时频域转换一般采用离散傅里叶变换。时频域转换得到频谱,频谱的低频带频谱系数,即4kHz以下的频谱系数用来计算低频功率谱PSDlt(z)=POW(ABS(s(z))),z=1,2,…,N/2,其中N/2对应于低频带的最高频率点,即4kHz。s(z)为傅里叶变换得到对应于第z个频点的频谱系数,ABS表示求绝对值,对频谱系数求绝对值可以得到幅度谱,POW表示对各个绝对值求平方,进而得到低频功率谱。
S303、对所述宽带功率谱进行谱包络计算,并根据计算结果确定滤波器参数。
在一种可能的实现方式中,对宽带功率谱进行谱包络计算得到线性预测误差和线性预测系数,此时线性预测误差和线性预测系数为计算结果,然后根据线性预测误差和线性预测系数确定滤波器参数。例如,可以直接将线性预测误差和线性预测系数作为滤波器参数,也可以对线性预测误差和线性预测系数进行变换从而得到滤波器参数。
在本申请实施例中,可以通过图4中的宽带谱包络计算模块(参见图4中407所示)进行谱包络计算。例如可以通过经典的Levinson-Durbin递归算法计算代表谱包络的线性预测误差和线性预测系数。由线性预测误差和线性预测系数作为滤波器参数构成滤波器,可以表示为其中G为线性预测误差,αi为P阶线性预测系数,P为预先设定的整数,一般在10到30之间。H(Z)滤波器能够反映语音信号帧的幅度和频谱包络情况,通常称为全极点声道响应滤波器。通过H(Z)进行滤波称为合成滤波,通过其逆滤波器称为分析滤波。
S304、基于所述待处理窄带语音信号帧和所述滤波器参数进行分析滤波,生成所述待处理窄带语音信号帧对应的低频激励信号。
在得到滤波器参数后,接收端可以基于待处理窄带语音信号帧和滤波器参数进行分析滤波,通过分析滤波可以滤除待处理窄带语音信号帧中的音色信息和声道形状信息,生成待处理窄带语音信号帧对应的低频激励信号。该低频激励信号即对待处理窄带语音信号帧滤除了音色信息和声道形状信息得到的,相当于声道产生的基本低频震动。
若对待处理窄带语音信号帧进行了上采样处理,则在S304中可以基于上采样处理后的待处理窄带语音信号帧和滤波器参数进行分析滤波,生成窄带语音信号帧对应的低频激励信号。其中,低频激励信号即分析滤波得到的线性预测残差,分析滤波可以通过图4中的分析滤波模块(参见图4中408所示)实现。
S305、对所述低频激励信号进行扩展得到高频激励信号。
S306、根据所述低频激励信号和所述高频激励信号进行合成得到宽带激励信号。
接收端可以根据低频激励信号确定宽带激励信号,在一种可能的实现方式中,根据低频激励信号确定宽带激励信号的方式可以是对低频激励信号进行扩展得到高频激励信号,根据低频激励信号和高频激励信号进行合成得到宽带激励信号。
具体的,图4中的宽带激励信号生成模块(参见图4中409所示)利用低频激励信号拓展出高频激励信号,将高频激励信号和低频激励信号相加即可得到宽带激励信号。宽带激励信号相当于声道产生的基本震动,宽带激励信号受到声道的影响便可以得到对应的宽带语音信号帧。低频激励信号的扩展一般采用对低频激励信号进行移频的方式,如图5所示。
图5中的高频激励扩展模块(参见图5中501所示)对低频激励信号进行调制频移操作:uh(z)=ul(z)*2cos(Ωz),其中ul(z)为低频激励信号,uh(z)为经过移频操作之后得到的高频激励信号,当Ω=π时,表示采用奈奎斯特频率进行调制,此时高频激励信号在频谱上为低频激励信号的镜像。
在一种可能的实现方式中,根据低频激励信号和高频激励信号进行合成得到宽带激励信号的方式可以是对高频激励信号进行高通滤波,得到滤除掉低频噪声的高频激励信号,对低频激励信号进行延迟补偿,然后将滤除掉低频噪声的高频激励信号和延迟补偿后的低频激励信号相加得到宽带激励信号。
具体的,经过高频激励扩展之后得到的高频激励信号,通过一个截止频率为4kHz的高通滤波器(参见图5中502所示),滤除掉低频噪声。延迟补偿模块(参见图5中503所示)用于补偿高通滤波等操作导致的延迟。最后宽带激励信号生成模块(参见图5中504所示,图5中504相当于图4中的409)将高频激励信号和低频激励信号相加得到宽带激励信号u(z)。
S307、基于所述宽带激励信号和所述滤波器参数进行合成滤波得到宽带语音信号帧。
在本申请实施例中,可以通过图4中的合成滤波模块(参见图4中的410所示)对宽带激励信号进行合成滤波CONV(u,h),合成滤波可以在宽带激励信号的基础上添加音色信息和声道形状信息,得到合成的宽带语音信号帧,即相当于声道影响宽带激励信号,使得宽带激励信号经过声道的作用得到具有音色信息和声道形状信息的宽带语音信号帧。其中CONV表示卷积滤波操作,u为宽带激励信号,h为合成滤波器H的滤波器参数。
在一种可能的实现方式中,在得到宽带激励信号之后,可以对宽带激励信号进行整形处理,这样在执行S307时,便可以基于整形处理后的宽带激励信号和滤波器参数进行合成滤波得到宽带语音信号帧。
具体的,参见图4所示,图4中的激励信号整形模块(参见图4中411),利用预设的滤波器对宽带激励信号进行滤波操作,避免部分频带能量过大导致的语音失真。同时在高频带的部分频率点根据该频带激励信号的能量大小,按比例叠加随机噪声,使得激励信号更接近人类发音在高频的特点,从而得到经过整形处理后的宽带激励信号为其中,该频带激励信号的能量越大,叠加随机噪声的比例可以越大。
通过对宽带激励信号进行整形处理,可以避免部分频带能量过大导致的语音失真,同时可以使得整形处理后的宽带激励信号更接近人类发音在高频的特点,提高听觉体验。
由上述技术方案可以看出,在获取到待处理窄带语音信号帧后,根据待处理窄带语音信号帧进行高频功率谱预测,得到待处理窄带语音信号帧对应的高频功率谱,将高频功率谱和待处理窄带语音信号帧对应的低频功率谱进行拼接得到宽带功率谱,从而在一定程度上对待处理窄带语音信号帧进行带宽扩展。基于对人类语音产生的分析,人类的声道(口腔、喉咙)相当于一个滤波器,声道产生的震动经过不同形状的声道产生不同音色的语音信号。为此,本申请对宽带功率谱进行谱包络计算,并根据计算结果确定滤波器参数,通过滤波器参数仿真人类的声道。然后基于待处理窄带语音信号帧和滤波器参数进行分析滤波,滤除待处理窄带语音信号帧中的音色信息和声道形状信息生成待处理窄带语音信号帧对应的低频激励信号,对低频激励信号进行扩展得到高频激励信号,进而根据低频激励信号和高频激励信号进行合成确定宽带激励信号,该宽带激励信号相当于人类语音产生过程中声道产生的震动。由于滤波器参数仿真人类的声道,因此基于宽带激励信号和滤波器参数进行合成滤波,为宽带激励信号添加音色信息和声道形状信息得到宽带语音信号帧,相当于对声道产生的震动通过对应的声道进行处理,进而得到类似人类发声的宽带语音信号帧。可见本方案提供的语音带宽扩展方法可以得到听感类似人类发声的宽带语音信号帧,可以体现出说话人的语言特色,从而提高宽带语音信号帧的逼真度,以及提高语音质量。
在一种可能的实现方式中,接收端可能获取到多个窄带语音信号,该多个窄带语音信号分别来源于对应的发送端。在这种情况下,为了避免针对每个窄带语音信号都执行本申请实施例提供的语音带宽扩展方法,在获取待处理窄带语音信号帧时,可以对来自不同窄带语音信道的窄带语音信号帧进行窄带混音,得到窄带混音后的窄带语音信号帧,然后将窄带混音后的窄带语音信号帧作为待处理窄带语音信号帧。
为帮助理解,图6为接收端接收来自多个发送端的窄带语音信号的码流并送去播放的逻辑框图。假设M个发送端均发送窄带语音编码的码流,因此接收端的每一个下行窄带语音信道会接收并缓存对应发送端的窄带语音信号的码流,例如图6中包括窄带语音信道1、……、窄带语音信道M,窄带语音信道1用于接收并缓存发送端1发送的窄带语音信号的码流,……,窄带语音信道M用于接收并缓存发送端M发送的窄带语音信号的码流。
然后通过窄带解码器对码流中的每个语音编码帧进行解码得到窄带语音信号帧(每一帧的长度大约是10ms到30ms),然后对M个窄带语音信道的窄带语音信号帧进行窄带混音,混合成一个窄带语音信号帧(即窄带混音后的窄带语音信号帧)。将该窄带混音后的窄带语音信号帧作为待处理窄带语音信号帧,对待处理窄带语音信号帧进行语音带宽扩展之后送去喇叭播放。其中窄带解码器可以是只支持窄带语音解码的解码器,例如G.729a标准的解码器等,也可以是宽带语音解码器工作在窄带模式下,例如opus在低码率模式下解码得到窄带语音信号。
通过上述方法,仅对一个窄带混音后的窄带语音信号帧进行语音带宽扩展,无需针对来自每个窄带语音信道的窄带语音信号帧分别进行语音带宽扩展,从减少计算量,提高语音带宽扩展效率。
在一种可能的实现方式中,接收端可能同时接收到窄带语音信号和宽带语音信号,参见图7所示,图7示出了接收端同时接收到窄带语音信号和宽带语音信号的系统框图。此时接收端不光接收到M个发送端发送的窄带语音信号的码流,同时还有其它最多N个发送端发送的宽带语音信号的码流,M个发送端发送的窄带语音信号的码流被M个窄带语音信道分别接收并缓存,N个发送端发送的宽带语音信号的码流被N个宽带语音信道(宽带语音信道1、……宽带语音信道N)分别接收并缓存。
在这种情况下,由于N个发送端发送的已经是宽带语音信号的码流,因此获取待处理窄带语音信号帧的方式可以是,获取来自不同语音信道的目标语音信号帧,根据高频信号的能量值判断哪个语音信道的目标语音信号帧是窄带语音信号帧,哪个语音信道的目标语音信号帧是宽带语音信号帧。若高频信号的能量值小于预设能量阈值,则可以确定该目标语音信号帧是窄带语音信号帧,故可以从来自不同语音信道的目标语音信号帧中选取高频信号的能量值小于预设能量阈值的目标语音信号帧作为待处理窄带语音信号帧。此时,其对应的语音信道为窄带语音信道,例如图7中的窄带语音信道1、……窄带语音信道M。
若高频信号的能量值达到预设能量阈值,则可以确定该目标语音信号帧是宽带语音信号帧,故从来自不同语音信道的目标语音信号帧中选取高频信号的能量值达到预设能量阈值的目标语音信号帧作为目标宽带语音信号帧(例如图7中宽带解码器1、……宽带解码器N解码后得到的目标语音信号帧)。此时,其对应的语音信道为宽带语音信道,例如图7中的宽带语音信道1、……宽带语音信道N。然后将进行合成滤波得到的宽带语音信号帧与目标宽带语音信号帧进行宽带混音,根据宽带混音后得到的宽带语音信号帧进行播放。
通过上述方法,可以仅针对窄带语音信号帧进行语音带宽扩展,避免对宽带语音信号帧进行语音带宽扩展,从而避免浪费计算资源,以及解决对宽带语音信号帧进行语音带宽扩展而导致降低语音质量的技术问题。
需要说明的是,窄带混音和宽带混音的一个实现方式可以是将这一帧数据里面的对应样本点加权相加。例如窄带语音信号帧的采样率为8kHz,如果是20ms一帧的话,每一帧就是8*20=160个样本点,即第一个窄带语音信道的窄带语音信号帧X1=[x1(1),x1(2),…,x1(160)],第二个窄带语音信道的窄带语音信号帧X2=[x2(1),x2(2),…,x2(160)],以此类推。假设有来自M个窄带语音信道的窄带语音信号帧需要进行窄带混音,则窄带混音之后的窄带语音信号帧为:其中wm(j),j=1,2,…,160为预先设定或者动态设定的权重,xm(j)表示第m个窄带语音信道在第j个样本点对应的窄带语音信号的幅值。
宽带混音与窄带混音的方式类似,仅仅是将窄带语音信号帧的相关表示替换成宽带语音信号帧的相关表示,此处不再详细赘述。
接下来,将结合实际应用场景对本申请实施例提供的语音带宽扩展方法进行介绍。在基于即时通信软件进行多人音视频通话的场景中,由于一些原因例如网络带宽不够或者丢包严重,可能导致发送端向接收端发送的是窄带语音信号。在这种情况下,为了避免接收端由于窄带语音信号中缺少高频信息,影响接收端的用户收听语音的主观体验,本申请实施例提供一种语音带宽扩展方法,该方法具体包括:
待处理窄带语音信号帧经过特征提取之后,与预先训练好的预测模型一起,进行高频功率谱预测,得到预测出的高频功率谱。同时,待处理窄带语音信号帧经过上采样处理之后得到上采样处理后的待处理窄带语音信号帧,用于计算低频功率谱。宽带功率谱合成模块将之前计算得到的低频功率谱与预测得到的高频功率谱拼接得到宽带功率谱。宽带谱包络计算模块根据宽带功率谱计算频谱增益和包络,具体体现为计算线性预测误差和线性预测系数。根据得到的线性预测误差和线性预测系数预测滤波器参数,则可以利用得到的滤波器参数进行分析滤波和合成滤波。分析滤波模块对上采样处理后的待处理窄带语音信号帧进行分析滤波,得到窄带激励信号。宽带激励信号生成模块根据窄带激励信号生成高频激励信号,并与原有的窄带激励信号合并得到宽带激励信号。激励信号整形模块对宽带激励信号进行整形之后,经过合成滤波模块重新合成宽带语音信号帧。最后将合成的宽带语音信号帧送至接收端的喇叭进行播放。这样,接收端的用户听到的就是补全了高频信息的宽带语音信号帧,从而提升用户收听语音的主观体验。
另外由于利用滤波器参数仿真人类的声道,因此基于宽带激励信号和滤波器参数进行合成滤波得到宽带语音信号帧,相当于对喉咙产生的震动通过对应的声道进行处理,进而得到类似人类发声的宽带语音信号帧。可见本方案提供的语音带宽扩展方法可以得到听感类似人类发声的宽带语音信号帧,可以体现出说话人的语言特色,从而提高宽带语音信号帧的逼真度,以及提高语音质量。
基于前述实施例提供的语音带宽扩展方法,本申请实施例还提供一种语音带宽扩展装置,参见图8,所述语音带宽扩展装置800包括预测单元801、拼接单元802、确定单元803、生成单元804和滤波单元805:
所述预测单元801,用于根据待处理窄带语音信号帧进行高频功率谱预测,得到所述待处理窄带语音信号帧对应的高频功率谱;
所述拼接单元802,用于将所述高频功率谱和所述待处理窄带语音信号帧对应的低频功率谱进行拼接得到宽带功率谱;
所述确定单元803,用于对所述宽带功率谱进行谱包络计算,并根据计算结果确定滤波器参数;
所述生成单元804,用于基于所述待处理窄带语音信号帧和所述滤波器参数进行分析滤波,生成所述待处理窄带语音信号帧对应的低频激励信号,所述分析滤波用于滤除所述待处理窄带语音信号帧中的音色信息和声道形状信息;
所述确定单元803,还用于对所述低频激励信号进行扩展得到高频激励信号;根据所述低频激励信号和所述高频激励信号进行合成得到宽带激励信号;
所述滤波单元805,用于基于所述宽带激励信号和所述滤波器参数进行合成滤波得到宽带语音信号帧,所述合成滤波用于为所述宽带激励信号添加音色信息和声道形状信息。
在一种可能的实现方式中,所述确定单元803,用于:
对所述宽带功率谱进行谱包络计算得到线性预测误差和线性预测系数,所述线性预测误差和所述线性预测系数为所述计算结果;
根据所述线性预测误差和所述线性预测系数确定所述滤波器参数。
在一种可能的实现方式中,所述确定单元803,具体用于:
对所述高频激励信号进行高通滤波,得到滤除掉低频噪声的高频激励信号;
对所述低频激励信号进行延迟补偿;
将滤除掉低频噪声的高频激励信号和延迟补偿后的所述低频激励信号相加得到所述宽带激励信号。
在一种可能的实现方式中,所述装置还包括:
上采样单元,用于在将所述高频功率谱和所述待处理窄带语音信号帧对应的低频功率谱进行拼接得到宽带功率谱之前,对所述待处理窄带语音信号帧进行上采样处理;
计算单元,用于基于上采样处理后的所述待处理窄带语音信号帧计算所述低频功率谱;
所述生成单元804,具体用于:
基于上采样处理后的所述待处理窄带语音信号帧和所述滤波器参数进行分析滤波,生成所述窄带语音信号帧对应的低频激励信号。
在一种可能的实现方式中,所述装置还包括获取单元,所述获取单元获取所述待处理窄带语音信号帧,包括:
获取来自不同语音信道的目标语音信号帧;
从所述来自不同语音信道的目标语音信号帧中选取高频信号的能量值小于预设能量阈值的目标语音信号帧作为所述待处理窄带语音信号帧。
在一种可能的实现方式中,所述装置还包括:
选取单元,用于从所述来自不同语音信道的目标语音信号帧中选取高频信号的能量值达到预设能量阈值的目标语音信号帧作为目标宽带语音信号帧;
宽带混音单元,用于将进行合成滤波得到的宽带语音信号帧与所述目标宽带语音信号帧进行宽带混音;
播放单元,用于根据宽带混音后得到的宽带语音信号帧进行播放。
在一种可能的实现方式中,所述装置还包括获取单元,所述获取单元获取所述待处理窄带语音信号帧,包括:
对来自不同窄带语音信道的窄带语音信号帧进行窄带混音,得到窄带混音后的窄带语音信号帧;
将所述窄带混音后的窄带语音信号帧作为所述待处理窄带语音信号帧。
在一种可能的实现方式中,所述预测单元801,具体用于:
对所述待处理窄带语音信号帧进行特征提取得到对应的特征向量;
基于所述特征向量和预测模型得到所述待处理窄带语音信号帧对应的高频功率谱。
在一种可能的实现方式中,所述预测单元801,具体用于:
将所述待处理窄带语音信号帧的频谱分割为多个子带;
计算每个子带分别对应的功率谱;
根据所述功率谱确定所述特征向量。
在一种可能的实现方式中,所述预测单元801,具体用于:
将所述特征向量输入至所述预测模型,通过所述预测模型输出所述待处理窄带语音信号帧在高频带上每个频点的功率值;
基于所述待处理窄带语音信号帧在高频带上每个频点的功率值构建所述高频功率谱;
或者,将所述特征向量输入至所述预测模型,通过所述预测模型输出所述待处理窄带语音信号帧在所述高频带上每个子带的平均功率值;
基于所述待处理窄带语音信号帧在所述高频带上每个子带的平均功率值构建所述高频功率谱。
由上述技术方案可以看出,在获取到待处理窄带语音信号帧后,根据待处理窄带语音信号帧进行高频功率谱预测,得到待处理窄带语音信号帧对应的高频功率谱,将高频功率谱和待处理窄带语音信号帧对应的低频功率谱进行拼接得到宽带功率谱,从而在一定程度上对待处理窄带语音信号帧进行带宽扩展。基于对人类语音产生的分析,人类的声道(口腔、喉咙)相当于一个滤波器,声道产生的震动经过不同形状的声道产生不同音色的语音信号。为此,本申请对宽带功率谱进行谱包络计算,并根据计算结果确定滤波器参数,通过滤波器参数仿真人类的声道。然后基于待处理窄带语音信号帧和滤波器参数进行分析滤波,滤除待处理窄带语音信号帧中的音色信息和声道形状信息生成待处理窄带语音信号帧对应的低频激励信号,对低频激励信号进行扩展得到高频激励信号,进而根据低频激励信号和高频激励信号进行合成确定宽带激励信号,该宽带激励信号相当于人类语音产生过程中声道产生的震动。由于滤波器参数仿真人类的声道,因此基于宽带激励信号和滤波器参数进行合成滤波,为宽带激励信号添加音色信息和声道形状信息得到宽带语音信号帧,相当于对声道产生的震动通过对应的声道进行处理,进而得到类似人类发声的宽带语音信号帧。可见本方案提供的语音带宽扩展方法可以得到听感类似人类发声的宽带语音信号帧,可以体现出说话人的语言特色,从而提高宽带语音信号帧的逼真度,以及提高语音质量。
本申请实施例还提供了一种用于语音带宽扩展的设备,该设备可以是接收端,以接收端为智能手机为例:
图9示出的是与本申请实施例提供的智能手机的部分结构的框图。参考图9,智能手机包括:射频(英文全称:Radio Frequency,英文缩写:RF)电路910、存储器920、输入单元930、显示单元940、传感器950、音频电路960、无线保真(英文全称:wireless fidelity,英文缩写:WiFi)模块970、处理器980、以及电源990等部件。输入单元930可包括触控面板931以及其他输入设备932,显示单元940可包括显示面板941,音频电路960可以包括扬声器961和传声器962。本领域技术人员可以理解,图9中示出的智能手机结构并不构成对智能手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储器920可用于存储软件程序以及模块,处理器980通过运行存储在存储器920的软件程序以及模块,从而执行智能手机的各种功能应用以及数据处理。存储器920可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据智能手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器920可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器980是智能手机的控制中心,利用各种接口和线路连接整个智能手机的各个部分,通过运行或执行存储在存储器920内的软件程序和/或模块,以及调用存储在存储器920内的数据,执行智能手机的各种功能和处理数据,从而对智能手机进行整体监控。可选的,处理器980可包括一个或多个处理单元;优选的,处理器980可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器980中。
在本实施例中,智能手机中的处理器980可以执行以下步骤:
根据待处理窄带语音信号帧进行高频功率谱预测,得到所述待处理窄带语音信号帧对应的高频功率谱;
将所述高频功率谱和所述待处理窄带语音信号帧对应的低频功率谱进行拼接得到宽带功率谱;
对所述宽带功率谱进行谱包络计算,并根据计算结果确定滤波器参数;
基于所述待处理窄带语音信号帧和所述滤波器参数进行分析滤波,生成所述待处理窄带语音信号帧对应的低频激励信号,所述分析滤波用于滤除所述待处理窄带语音信号帧中的音色信息和声道形状信息;
对所述低频激励信号进行扩展得到高频激励信号;
根据所述低频激励信号和所述高频激励信号进行合成得到宽带激励信号;
基于所述宽带激励信号和所述滤波器参数进行合成滤波得到宽带语音信号帧,所述合成滤波用于为所述宽带激励信号添加音色信息和声道形状信息。
本申请实施例还提供服务器,请参见图10所示,图10为本申请实施例提供的服务器1000的结构图,服务器1000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,简称CPU)1022(例如,一个或一个以上处理器)和存储器1032,一个或一个以上存储应用程序1042或数据1044的存储介质1030(例如一个或一个以上海量存储设备)。其中,存储器1032和存储介质1030可以是短暂存储或持久存储。存储在存储介质1030的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1022可以设置为与存储介质1030通信,在服务器1000上执行存储介质1030中的一系列指令操作。
服务器1000还可以包括一个或一个以上电源1026,一个或一个以上有线或无线网络接口1050,一个或一个以上输入输出接口1058,和/或,一个或一个以上操作系统1041,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
前述实施例中由服务器所执行的步骤可以基于图10所示的结构实现。
根据本申请的一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行前述各个实施例所述的语音带宽扩展方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例各种可选实现方式中提供的方法。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术成员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (14)
1.一种语音带宽扩展方法,其特征在于,所述方法包括:
根据待处理窄带语音信号帧进行高频功率谱预测,得到所述待处理窄带语音信号帧对应的高频功率谱;
将所述高频功率谱和所述待处理窄带语音信号帧对应的低频功率谱进行拼接得到宽带功率谱;
对所述宽带功率谱进行谱包络计算,并根据计算结果确定滤波器参数;
基于所述待处理窄带语音信号帧和所述滤波器参数进行分析滤波,生成所述待处理窄带语音信号帧对应的低频激励信号,所述分析滤波用于滤除所述待处理窄带语音信号帧中的音色信息和声道形状信息;
对所述低频激励信号进行扩展得到高频激励信号;
根据所述低频激励信号和所述高频激励信号进行合成得到宽带激励信号;
基于所述宽带激励信号和所述滤波器参数进行合成滤波得到宽带语音信号帧,所述合成滤波用于为所述宽带激励信号添加音色信息和声道形状信息。
2.根据权利要求1所述的方法,其特征在于,对所述宽带功率谱进行谱包络计算,并根据计算结果确定滤波器参数,包括:
对所述宽带功率谱进行谱包络计算得到线性预测误差和线性预测系数,所述线性预测误差和所述线性预测系数为所述计算结果;
根据所述线性预测误差和所述线性预测系数确定所述滤波器参数。
3.根据权利要求1所述的方法,其特征在于,所述根据所述低频激励信号和所述高频激励信号进行合成得到宽带激励信号,包括:
对所述高频激励信号进行高通滤波,得到滤除掉低频噪声的高频激励信号;
对所述低频激励信号进行延迟补偿;
将滤除掉低频噪声的高频激励信号和延迟补偿后的所述低频激励信号相加得到所述宽带激励信号。
4.根据权利要求1所述的方法,其特征在于,所述将所述高频功率谱和所述待处理窄带语音信号帧对应的低频功率谱进行拼接得到宽带功率谱之前,所述方法还包括:
对所述待处理窄带语音信号帧进行上采样处理;
基于上采样处理后的所述待处理窄带语音信号帧计算所述低频功率谱;
所述基于所述待处理窄带语音信号帧和所述滤波器参数进行分析滤波,生成所述待处理窄带语音信号帧对应的低频激励信号,包括:
基于上采样处理后的所述待处理窄带语音信号帧和所述滤波器参数进行分析滤波,生成所述窄带语音信号帧对应的低频激励信号。
5.根据权利要求1-4任一项所述的方法,其特征在于,获取所述待处理窄带语音信号帧,包括:
获取来自不同语音信道的目标语音信号帧;
从所述来自不同语音信道的目标语音信号帧中选取高频信号的能量值小于预设能量阈值的目标语音信号帧作为所述待处理窄带语音信号帧。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
从所述来自不同语音信道的目标语音信号帧中选取高频信号的能量值达到预设能量阈值的目标语音信号帧作为目标宽带语音信号帧;
将进行合成滤波得到的宽带语音信号帧与所述目标宽带语音信号帧进行宽带混音;
根据宽带混音后得到的宽带语音信号帧进行播放。
7.根据权利要求1-4任一项所述的方法,其特征在于,获取所述待处理窄带语音信号帧,包括:
对来自不同窄带语音信道的窄带语音信号帧进行窄带混音,得到窄带混音后的窄带语音信号帧;
将所述窄带混音后的窄带语音信号帧作为所述待处理窄带语音信号帧。
8.根据权利要求1-4任一项所述的方法,其特征在于,所述根据待处理窄带语音信号帧进行高频功率谱预测,得到所述待处理窄带语音信号帧对应的高频功率谱,包括:
对所述待处理窄带语音信号帧进行特征提取得到对应的特征向量;
基于所述特征向量和预测模型得到所述待处理窄带语音信号帧对应的高频功率谱。
9.根据权利要求8所述的方法,其特征在于,所述对所述待处理窄带语音信号帧进行特征提取得到对应的特征向量,包括:
将所述待处理窄带语音信号帧的频谱分割为多个子带;
计算每个子带分别对应的功率谱;
根据所述功率谱确定所述特征向量。
10.根据权利要求8所述的方法,其特征在于,所述基于所述特征向量和预测模型得到所述待处理窄带语音信号帧对应的高频功率谱,包括:
将所述特征向量输入至所述预测模型,通过所述预测模型输出所述待处理窄带语音信号帧在高频带上每个频点的功率值;
基于所述待处理窄带语音信号帧在高频带上每个频点的功率值构建所述高频功率谱;
或者,将所述特征向量输入至所述预测模型,通过所述预测模型输出所述待处理窄带语音信号帧在所述高频带上每个子带的平均功率值;
基于所述待处理窄带语音信号帧在所述高频带上每个子带的平均功率值构建所述高频功率谱。
11.一种语音带宽扩展装置,其特征在于,所述装置包括预测单元、拼接单元、确定单元、生成单元和滤波单元:
所述预测单元,用于根据待处理窄带语音信号帧进行高频功率谱预测,得到所述待处理窄带语音信号帧对应的高频功率谱;
所述拼接单元,用于将所述高频功率谱和所述待处理窄带语音信号帧对应的低频功率谱进行拼接得到宽带功率谱;
所述确定单元,用于对所述宽带功率谱进行谱包络计算,并根据计算结果确定滤波器参数;
所述生成单元,用于基于所述待处理窄带语音信号帧和所述滤波器参数进行分析滤波,生成所述待处理窄带语音信号帧对应的低频激励信号,所述分析滤波用于滤除所述待处理窄带语音信号帧中的音色信息和声道形状信息;
所述确定单元,还用于对所述低频激励信号进行扩展得到高频激励信号;根据所述低频激励信号和所述高频激励信号进行合成得到宽带激励信号;
所述滤波单元,用于基于所述宽带激励信号和所述滤波器参数进行合成滤波得到宽带语音信号帧,所述合成滤波用于为所述宽带激励信号添加音色信息和声道形状信息。
12.一种用于语音带宽扩展的设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-10任一项所述的方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-10任一项所述的方法。
14.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-10任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111335506.4A CN116110424A (zh) | 2021-11-11 | 2021-11-11 | 一种语音带宽扩展方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111335506.4A CN116110424A (zh) | 2021-11-11 | 2021-11-11 | 一种语音带宽扩展方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116110424A true CN116110424A (zh) | 2023-05-12 |
Family
ID=86260310
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111335506.4A Pending CN116110424A (zh) | 2021-11-11 | 2021-11-11 | 一种语音带宽扩展方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116110424A (zh) |
-
2021
- 2021-11-11 CN CN202111335506.4A patent/CN116110424A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8554550B2 (en) | Systems, methods, and apparatus for context processing using multi resolution analysis | |
RU2639952C2 (ru) | Гибридное усиление речи с кодированием формы сигнала и параметрическим кодированием | |
JP7297368B2 (ja) | 周波数帯域拡張方法、装置、電子デバイスおよびコンピュータプログラム | |
JP7297367B2 (ja) | 周波数帯域拡張方法、装置、電子デバイスおよびコンピュータプログラム | |
EP2559026A1 (en) | Audio communication device, method for outputting an audio signal, and communication system | |
CN114550732B (zh) | 一种高频音频信号的编解码方法和相关装置 | |
CN115171709B (zh) | 语音编码、解码方法、装置、计算机设备和存储介质 | |
JP7490894B2 (ja) | 深層生成ネットワークを用いたリアルタイムパケット損失隠蔽 | |
WO2021227749A1 (zh) | 一种语音处理方法、装置、电子设备及计算机可读存储介质 | |
JPH0946233A (ja) | 音声符号化方法とその装置、音声復号方法とその装置 | |
AU2023254936A1 (en) | Multi-channel signal generator, audio encoder and related methods relying on a mixing noise signal | |
US20220148613A1 (en) | Speech signal processing method and apparatus, electronic device, and storage medium | |
US20060149534A1 (en) | Speech coding apparatus and method therefor | |
EP2489036B1 (en) | Method, apparatus and computer program for processing multi-channel audio signals | |
CN113314132A (zh) | 一种应用于交互式音频系统中的音频对象编码方法、解码方法及装置 | |
CN112634912A (zh) | 丢包补偿方法及装置 | |
CN114863942B (zh) | 音质转换的模型训练方法、提升语音音质的方法及装置 | |
JP2024502287A (ja) | 音声強調方法、音声強調装置、電子機器、及びコンピュータプログラム | |
CN116110424A (zh) | 一种语音带宽扩展方法及相关装置 | |
CN113140225B (zh) | 语音信号处理方法、装置、电子设备及存储介质 | |
CN113571072B (zh) | 一种语音编码方法、装置、设备、存储介质及产品 | |
Hosoda et al. | Speech bandwidth extension using data hiding based on discrete hartley transform domain | |
Singh et al. | Design of Medium to Low Bitrate Neural Audio Codec | |
KR20220050924A (ko) | 오디오 코딩을 위한 다중 래그 형식 | |
CN117672254A (zh) | 语音转换方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40086102 Country of ref document: HK |