CN117334204A - 信号处理方法、装置、计算机设备、存储介质及程序产品 - Google Patents

信号处理方法、装置、计算机设备、存储介质及程序产品 Download PDF

Info

Publication number
CN117334204A
CN117334204A CN202210739202.2A CN202210739202A CN117334204A CN 117334204 A CN117334204 A CN 117334204A CN 202210739202 A CN202210739202 A CN 202210739202A CN 117334204 A CN117334204 A CN 117334204A
Authority
CN
China
Prior art keywords
signal
voice
sub
code stream
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210739202.2A
Other languages
English (en)
Inventor
梁俊斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210739202.2A priority Critical patent/CN117334204A/zh
Publication of CN117334204A publication Critical patent/CN117334204A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本申请提供一种信号处理方法、装置、计算机设备、存储介质及程序产品,涉及语音技术、人工智能、智慧交通等技术领域。通基于该目标语音信号的带宽、以及预设的目标频率阈值,将该目标语音信号分解为至少两个子带信号;并分别通过第一语音编码器,获取语谱频率高于目标频率阈值的第一子带信号的第一编码码流,可得到低码率的编码码流,降低了低质量需求的高频子带信号所需的传输带宽;以及通过第二语音编码器,获取语谱频率不高于目标频率阈值的第二子带信号的第二编码码流,得到高质量的编码变流,保证了具备大部分信息量的第二子带信号的编码质量,从而在保证编码质量的前提下,尽可能的降低了所需的传输成本。

Description

信号处理方法、装置、计算机设备、存储介质及程序产品
技术领域
本申请涉及语音技术、人工智能、智慧交通等等技术领域,本申请涉及一种信号处理方法、装置、计算机设备、存储介质及程序产品。
背景技术
语音编解码技术在现代通讯系统中占有重要的地位。例如,语音通话过程中,在语音编码时,发送端通过麦克风采集语音信号、并通过模数转换电路将语音信号由模拟信号转换为数字信号后,采用编码器对语音信号压缩再传输给接收端。在语音解码时,接收端通过解码器还原出语音信号,并通过扬声器进行播放。
语音编码技术可降低语音信号传输过程所占用的资源。并且,在一些业务场景中,存在通话带宽对运营成本影响较大或传输资源非常有限等情况,尤其需要减少语音信信号传输过程的传输成本。因而,在本领域中,如何在语音编解码过程中更有效的降低传输成本,一直是本领域技术人员的重点研究问题。
发明内容
本申请提供了一种信号处理方法、装置、计算机设备、存储介质及程序产品。所述技术方案如下:
一方面,提供了一种信号处理方法,所述方法包括:
获取待传输的目标语音信号;
基于所述目标语音信号的带宽、以及预设的目标频率阈值,将所述目标语音信号分解为至少两个子带信号,任一子带信号的带宽低于所述目标语音信信号的带宽;
对于第一子带信号,通过第一语音编码器,获取所述第一子带信号的第一编码码流,所述第一子带信号是指所述至少两个子带信号中语谱频率高于目标频率阈值的子带信号,所述第一语音编码器是基于深度学习模型的编码器;
对于第二子带信号,通过第二语音编码器,获取所述第二子带信号的第二编码码流,所述第二子带信号是指所述至少两个子带信号中语谱频率不高于目标频率阈值的子带信号,所述第二语音编码器是基于人声语音模型的非深度学习编码器;
向接收端传输所述第一编码码流和所述第二编码码流。
另一方面,提供了一种信号处理方法,所述方法包括:
接收发送端所传输的第一编码码流和第二编码码流;
通过第一语音解码器对所述第一编码码流进行解码,得到第一子带信号,所述第一语音解码器是与第一语音编码器对应的解码器,所述第一语音编码器是基于深度学习模型的编码器;
通过第二语音解码器对所述第二编码码流进行解码,得到第二子带信号,所述第二语音解码器是与第二语音编码器对应的解码器,所述第二语音编码器是基于人声语音模型的非深度学习编码器;
将所述第一子带信号和所述第二子带信号合成为目标语音信号,并播放所述目标语音信号。
另一方面,提供了一种信号处理装置,所述装置包括:
目标语音信号获取模块,用于获取待传输的目标语音信号;
分解模块,用于基于所述目标语音信号的带宽、以及预设的目标频率阈值,将所述目标语音信号分解为至少两个子带信号,任一子带信号的带宽低于所述目标语音信信号的带宽;
第一编码码流获取模块,用于对于第一子带信号,通过第一语音编码器,获取所述第一子带信号的第一编码码流,所述第一子带信号是指所述至少两个子带信号中语谱频率高于目标频率阈值的子带信号,所述第一语音编码器是基于深度学习模型的编码器;
第二编码码流获取模块,用于对于第二子带信号,通过第二语音编码器,获取所述第二子带信号的第二编码码流,所述第二子带信号是指所述至少两个子带信号中语谱频率不高于目标频率阈值的子带信号,所述第二语音编码器是基于人声语音模型的非深度学习编码器;
传输模块,用于向接收端传输所述第一编码码流和所述第二编码码流。
在一个可能实现方式中,所述第二编码码流获取模块,用于:
通过所述第二语音编码器,对所述第二子带信号进行线性预测分析,得到线性预测滤波参数,并基于所述线性预测滤波参数和第一码本参数,确定所述第二子带信号的预测滤波信号;
确定所述预测滤波信号与所述第二子带信号的原始信号之间的残差信号;
重复执行线性预测分析、确定预测滤波信号以及确定残差信号的步骤,以将所述第一码本参数迭代调整为第二码本参数;
将线谱对系数、基音周期、自适应码本增益参数和固定码本参数,确定为所述第二编码码流;
其中,所述线谱对系数用于表征所述线性预测滤波参数,所述基音周期用于表征所述第二码本参数对应的自适应码本,所述固定码本参数用于表征所述第二码本参数对应的固定码本及固定码本增益参数。
在一个可能实现方式中,所述第一编码码流包括基音周期、互相关值以及倒谱系数;所述第一编码码流是通过所述第一语音编码器对所述第一子带信号进行特征提取得到的。
在一个可能实现方式中,所述分解模块,用于基于所述接收端的播放支持采样率,通过正交镜像滤波器组基于所述目标语音信号的带宽对所述目标语音信号进行至少一次带宽分解,得到所述至少两个子带信号;
其中,所述至少两个子带信号包括不高于所述目标频率阈值的子带信号,所述播放支持采样率与所述至少两个子带信号的数量正相关,每次带宽分解将一个第一信号分解为两个第二信号,第二信号的带宽为第一信号的带宽的一半。
另一方面,提供了一种信号处理装置,所述装置包括:
接收模块,用于接收发送端所传输的第一编码码流和第二编码码流;
第一解码模块,用于通过第一语音解码器对所述第一编码码流进行解码,得到第一子带信号,所述第一语音解码器是与第一语音编码器对应的解码器,所述第一语音编码器是基于深度学习模型的编码器;
第二解码模块,用于通过第二语音解码器对所述第二编码码流进行解码,得到第二子带信号,所述第二语音解码器是与第二语音编码器对应的解码器,所述第二语音编码器是基于人声语音模型的非深度学习编码器;
合成模块,用于将所述第一子带信号和所述第二子带信号合成为目标语音信号;
播放模块,用于播放所述目标语音信号。
在一个可能实现方式中,所述第二编码码流包括线谱对系数、基音周期、自适应码本增益参数和固定码本参数;
所述第二解码模块,用于:
通过所述第二语音解码器,对所述线谱对系数进行内插得到线性预测滤波系数;
基于所述固定码本参数所表征的固定码本及固定码本增益参数,生成固定码本激励信号;
基于所述自适应码本增益参数、以及所述基音周期所表征的自适应码本,生成自适应码本激励信号;
通过所述线性预测滤波系数对应的滤波器,对所述固定码本激励信号和所述自适应码本激励信号的合成信号进行滤波,得到所述第二子带信号。
在一个可能实现方式中,所述合成模块,用于基于所述接收端的播放支持采样率,从所述第一子带信号选择至少一个第一目标信号,从所述第二子带信号中选择至少一个第二目标信号;通过正交镜像滤波器组,将所述至少一个第一目标信号和第二目标信号合成为第一信号,所述第一信号的采样率不高于所述播放支持采样率;
所述播放模块,用于将所述第一信号作为所述目标语音信号进行播放。
在一个可能实现方式中,所述装置还包括:
时延码流添加模块,用于基于所述第一语音编码器的第一时延和第二语音编码器的第二时延,在所述第一编码码流或所述第二编码码流中添加时延码流,所述时延码流用于将所述第一编码码流和所述第二编码码流之间的时延对齐。
在一个可能实现方式中,所述第一编码码流包括基音周期、互相关值以及倒谱系数;
所述第一解码模块,用于:
将所述基音周期、互相关值以及倒谱系数输入所述第一语音解码器,并通过所述第一语音解码器中的帧率网络,获取条件向量,以及,通过所述第一语音解码器中的线性预测模块,获取线性预测滤波系数;
通过所述第一语音解码器中的采样频率网络,基于所述线性预测滤波系数和所述条件向量,生成第一子带信号。
另一方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序以实现上述的信号处理方法。
另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的信号处理方法。
另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述的信号处理方法。
本申请实施例提供的技术方案带来的有益效果是:
本申请实施例提供的信号处理方法,可基于该目标语音信号的带宽、以及预设的目标频率阈值,将该目标语音信号分解为至少两个子带信号;并分别通过第一语音编码器,获取语谱频率高于目标频率阈值的第一子带信号的第一编码码流,可得到低码率的编码码流;以及通过第二语音编码器,获取语谱频率不高于目标频率阈值的第二子带信号的第二编码码流,可得到高质量的编码变流;通过针对语音信号中不同语谱频率的子带信号采用不同编码方式,对具备大部分信息量的第二子带信号进行高质量编码,保证了语音编码的质量;同时对第一子带信号进行低码率的编码方式,降低了低质量需求的高频子带信号所需的传输带宽,从而在保证编码质量的前提下,尽可能的降低了所需的传输成本。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种实现信号处理方法的实施环境示意图;
图2为本申请实施例提供的一种信号处理方法的流程示意图;
图3为本申请实施例提供的一种编码流程示意图;
图4为本申请实施例提供的一种CELP编码流程示意图;
图5为本申请实施例提供的一种信号处理方法的流程示意图;
图6为本申请实施例提供的一种LPCNet深度学习模型的网络结构示意图;
图7为本申请实施例提供的一种解码过程示意图;
图8为本申请实施例提供的一种编解码整体流程意图;
图9为本申请实施例提供的一种信号处理装置的结构示意图;
图10为本申请实施例提供的一种信号处理装置的结构示意图;
图11为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面结合本申请中的附图描述本申请的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本申请实施例的技术方案的示例性描述,对本申请实施例的技术方案不构成限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作等。
可以理解的是,在本申请的具体实施方式中,涉及到对象的目标语音信号、对象的接收端的播放支持采样率等任何与对象相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得对象许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
图1为本申请提供的一种信号处理方法的实施环境示意图。如图1所示,该实施环境包括:发送端11和接收端12。
该发送端11可采集目标语音信号,并通过编码器将目标语音信号编码为编码码流,将编码码流传输至接收端12。接收端12通过解码器对接收到的解码码流进行解码,得到目标语音信号,接收端12还可以通过麦克风播放目标语音信号。
一可能应用场景中,发送端11可将目标语音信号对应的编码码流发送给多个接收端12;例如语音广播场景,发送端12作为语音发出方,可以广播的方式将目标语音信号对应的编码码流发送给多个接收端12,该多个接收端12解码并播放目标语音信号;又例如多人在线的大规模语音会议场景,当多人中某个人A发出语音时,A所在设备作为发送端11,其他人所在设备作为接收端12,A所在的发送端11向其他人所在的接收端12传输目标语音信号的编码码流,其他人所在的接收端12对编码码流进行解码并播放,从而会议中A发出的语音能其他人听到。
又一可能应用场景中,发送端11和接收端12之间可以建立一一对应的通信连接,如两人之间电话通话、通过社交应用发送语音消息等一对一的语音交互场景;语音交互过程中,一人所在的发送端11可将目标语音信号对应的编码码流发送给另一人所在的接收端12,接收端12对编码码流进行解码并播放,从而满足双方之间语音交互。
需要说明的是,上述场景示例仅以发送端11和接收端12均为终端进行说明。该发送端11和接收端12也可以是服务器。一示例中,发送端11可以是服务器,该服务器可以是应用程序的后台服务器,例如对于对象A在语音广播室发起广播的场景,该服务器可将对象A发送的高质量语音信号进一步压缩,并将压缩的编码码流发送给进入该语音广播室的各个对象所在的接收端。一示例中,该接收端12也可以是服务器,如某个应用程序的后台服务器,例如,对象A所在的发送端11,可采集并编码对象A的语音信号,将编码的编码码流发送至作为音视频应用的后台服务器,也即是接收端12,以便接收端12在该音视频应用平台上对该对象A的语音信号进行推送。
该应用程序可以是支持语音信号收发的任一应用,例如,社交应用、云会议应用、音视频应用、直播应用、电商应用、内容交互平台、游戏应用、云教育应用、云游戏或者支持拨打电话的插件程序等。
服务器可以是独立的物理服务器,或是多个物理服务器构成的服务器集群或者分布式系统,或是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、以及大数据和人工智能平台等基础云计算服务的云服务器或服务器集群。终端可以是电话、智能手机、智能音箱、平板电脑、笔记本电脑、数字广播接收器、台式计算机、车载终端(例如车载导航终端、车载电脑等)、智能手表等。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,也可基于实际应用场景需求确定,在此不作限定。
本申请提供的信号处理方法,涉及语音技术、人工智能等技术,如利用语音技术,识别对象发出的语音信号,并进行编码处理。如利用人工智能技术,对不同语音信号采用基于深度学习模型的语音编解码器进行编码和对应解码。
应理解的是,语音技术(Speech Technology)的关键技术有自动语音识别技术和语音合成技术以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
应理解的是,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
图2为本申请实施例提供的一种信号处理方法的流程示意图。该方法的执行主体可以为发送端所在的设备,例如终端、服务器等任一支持执行以下信号处理过程的计算机设备,在以下步骤中简称为发送端。如图2所示,该方法包括以下步骤。
步骤201、发送端获取待传输的目标语音信号。
该目标语音信号为待向接收端进行传输的信号,本申请中,可对该目标语音信号进行分解,再采用不同编码方式对分解得到的不同子带信号进行编码,并将不同子带信号的编码码流进行合并发送给接收端。
一可能场景中,该目标语音信号可以是发送端采集得到的语音信号。示例性的,步骤201的执行方式可包括:该发送端可通过语音采集模块,按照目标采样率采集得到目标语音信号。例如,该发送端预先配置有语音采集模块,该语音采集模块可以包括麦克风;该目标语音信号可以是数字信号,该语音采集模块还可以包括模数转换电路,例如,该模数转换电路可以是声卡通过该模数转换电路,将直接采集的模拟信号的语音转换为数字信号的目标语音信号。
另一可能场景中,该目标语音信号可以由语音采集设备发送的语音信号。示例性的,步骤201的执行方式可包括:该发送端接收语音采集设备发送的目标语音信号,该目标语音信号可以是语音采集设备按照目标采样率进行采样得到的语音信号。例如,该语音采集设备可以是终端、独立于该发送端之外的麦克风等。
步骤202、发送端基于该目标语音信号的带宽、以及预设的目标频率阈值,将该目标语音信号分解为至少两个子带信号。
本申请中,该至少两个子带信号中的任一子带信号的带宽低于该目标语音信信号的带宽。该至少两个子带信号包括语谱频率不高于该目标频率阈值的子带信号。由香农定律可知,该目标语音信号的带宽是该目标语音信号的采样率的一半,也即是,该目标语音信号的带宽的数值为目标采样率的一半。该目标频率阈值表征包含人声语音信号的信息量的语谱频率分布范围的临界值;包含人声语音信号的信息量的语谱频率分布范围可以是不高于该目标频率阈值的范围。也即是,语谱频率不高于目标频率阈值的的子带信号包括人声语音信号的大部分信息量,该目标频率阈值可以是预先设置的数值。例如,人声语音信号的语谱频率通常在4khz以下,则该至少两个子带信号中至少包括语谱频率在4khz以下的子带信号。
在一种可能实施方式中,该发送端可结合接收端所支持播放的采样率,采用QMF(Quadrature mirror filters,正交镜像滤波器组)对该目标语音信号进行分解。则步骤202的执行方式可以包括:发送端基于该接收端的播放支持采样率,通过正交镜像滤波器组基于该目标语音信号的带宽对该目标语音信号进行至少一次带宽分解,得到该至少两个子带信号。示例性的,该发送端可通过正交镜像滤波器组,对该目标语音信号进行至少一次带宽分解,直至分解得到的子带信号达到预配置的目标信号条件时,停止分解,得到至少两个子带信号。其中,该目标信号条件可以包括但不限于:该至少两个子带信号包括不高于该目标频率阈值的子带信号,该至少两个子带信号对应的合成信号的语谱频率与接收端的播放至支持采样率匹配。示例性的,每次带宽分解将一个第一信号分解为两个第二信号,第二信号的带宽为第一信号的带宽的一半。也即是,每次带宽分解,将一个信号分解为两个带宽减半的子带信号。示例性的,该至少两个该播放支持采样率与该至少两个子带信号的数量正相关,也即是,该播放支持采样率越高,该发送端对该目标语音信号进行带宽分解的次数越多,分解得到的子带信号的数量越多。
示例性的,该发送端通过正交镜像滤波器组,对该目标语音信号进行一次带宽分解,得到带宽减半的两个子带信号;并继续通过该正交镜像滤波器组,分别对该每个子带信号再次进行一次带宽分解,将每个子带信号分解为带宽再减半的两个子带信号;该发送端可以继续对每次分解得到的子带信号再次分解,直至符合目标信号条件时,停止分解。
图3为本申请提供的一种编码流程示意图,如图3所示,以目标频率阈值为4khz举例;输入信号为采样率32khz的目标语音信号,由香农定理可得到其带宽为16khz。在编码过程,通过QMF进行第一次带宽分解得到语谱带宽为8khz的高频信号S1、以及语谱带宽为8khz的低频信号S2。而后,通过QMF进行第二次带宽分解,也即是分别对S1、S2进行一次分解。其中,对S1分解得到语谱带宽为4khz的高频信号S3、以及语谱带宽为4khz的低频信号S4;对S2分解得到语谱带宽为4khz的高频信号S5、以及语谱带宽为4khz的低频信号S6。其中,S6为语谱频率低于4khz的子带信号。并且,对于接收端1,播放支持采样率为32khz,则接收端1在后续解码时,可对S3、S4、S5、S6对应的解码信号进行合成,得到采样率为32khz的目标语音信号。对于接收端2,播放支持采样率为16khz,则接收端2在后续解码时,可对S5、S6对应的解码信号进行合成,得到采样率为16khz的目标语音信号。
通过基于目标语音信号的带宽对其进行至少一次带宽分解,任一子带信号的带宽低于目标语音信号,且该多个子带信号中至少包括低于目标频率阈值的子带信号,从而将目标语音信号分解为多个窄带信号、且分解出具备人声语音信号大部分信息量的子带信号,从频域上对目标语音信号进行精细划分,降低了目标语音信号的带宽,为后续对不同频率的信号分开解码提供可能性。
并且,还可结合接收端的播放支持采样率进行多次带宽分解,并对多个子带信号进行编码,以使得不同播放支持采样率的不同接收端可基于不同子带信号,可解码并合成出满足自己播放性能的语音信号,以使得不同播放支持采样率的接收端均能够顺利解码并播放,提高了信号处理的实用性。
步骤203、对于第一子带信号,发送端通过第一语音编码器,获取该第一子带信号的第一编码码流。
该第一子带信号是指该至少两个子带信号中语谱频率高于目标频率阈值的子带信号,该第一语音编码器是基于深度学习模型的编码器。示例性的,该第一编码码流是通过该第一语音编码器对该第一子带信号进行特征提取得到的。
一可能实施方式中,该第一语音编码器可以包括特征提取算子,该特征提取算子可以包括传统的基于人声语音模型的非深度学习编码器所采用的特征提取算子,以实现将传统的非深度学习编码技术与该基于深度学习模型的编码技术的有机结合。示例性的,该特征提取算子用于提取该第一子带信号的特征参数,该特征参数可以包括基音周期、互相关值和倒谱系数。示例性的,以基音周期为例,用于提取基音周期的特征提取算子可以基于时域估计法、变换法、混合法等方法展开计算的算子。其中,时域估计法是直接由语音波形来估计基音周期,常用方法包括自相关法、并行处理法、平均幅度差法、数据减少法等。变换法是一种将语音信号变换到频域或者时域来估计基音周期的方法,首先利用同态分析方法将声道的影响消除,得到属于激励部分的信息,然后求取基音周期,常用方法包括倒谱法。混合法是先提取信号声道模型参数,然后利用它对信号进行滤波,得到音源序列,最后再利用自相关法或者平均幅度差法求得基因音周期。例如,特征提取算子具体可以包括但不限于:基于短时平均幅度差函数(AMDF average magnitude difference function)的基音周期估计、基于短时自相关(ACauto-correlation)函数的基音估计、基于变长平均幅度差函数(VLAMDF varied-length average magnitude difference function)和变长自相关(VLAC varied-length auto-correlation)函数的基音估计等。
当然,还可以进一步对第一语音编码器的特征提取算子进行迭代训练,例如特征提取算子可以表现为基于深度学习的特征提取模型,该特征提取模型用于提取第一子带信号的特征参数。该发送端可将该特征参数作为该第一编码码流。在一种可能实施方式中,该特征参数可以包括基音音周期、互相关值以及倒谱系数。该发送端将该语音特征作为该第一编码码流,也即是,该第一编码码流包括该第一子带信号的基音周期、互相关值以及倒谱系数。
示例性的,该基音周期(pitch period)表示该第一子带信号对应的声带震动周期,人声语音经声带发出时,每隔一定时间段,有一个气流从人的声带通过,该时间段可称为基音周期。互相关值表示第一子带信号的基音相关性(Pitch Correlation)。该倒谱系数可以是第一子带信号的巴克(Bark)倒谱系数。
需要说明的是,该基于深度学习模型的编码器可用于提取第一子带信号的特征参数。相应的,该第一语音编码器对应的第一语音解码器,用于基于第一子带信号的特征参数生成第一子带信号。基于深度学习模型的编解码器是在编码端利用预先训练的深度学习模型对第一子带信号进行特征参数的提取,并在解码端利用特征参数生成具备该特征参数特性的子带信号,作为该第一子带信号,基于深度神经网络的强大功能,可实现仅基于几个特征参数生成对应语音信号的过程,基于深度学习模型的编解码器的优势在于,可将语音信号编码为较低码率,大大降低了传输成本。
而该第一子带信号为语谱频率高于目标频率阈值的高频子带信号,可以是不包含人声语音信号的信息量、或是仅包含人声语音信号的小部分信息量的子带信号,也即是,该第一子带信号在整个目标语音信号中能量占比较低、且质量贡献偏低,因此,本申请采用第一语音编码器对第一子带信号进行编码,以将第一子带信号压缩为较低码率,降低第一子带信号所需的传输带宽,从而降低了低质量需求的高频子带所需的传输成本。
步骤204、对于第二子带信号,发送端通过第二语音编码器,获取该第二子带信号的第二编码码流。
该第二子带信号是指该至少两个子带信号中语谱频率不高于目标频率阈值的子带信号,该第二语音编码器是基于人声语音模型的非深度学习编码器。示例性的,该人声语音模型可以是利用码本编码或还原语音信号的模型,该第二编码码流可以包括第二子带信号的线谱对系数、基音周期、自适应码本增益参数和固定码本参数。其中,该线谱对系数是LSP(Linear Spectrum Pairs,线谱对)系数,该LSP系数可表征LPC(Linear PredictiveCoding,线性预测滤波参数),也即是LSP系数在描述人声语音模型方面是与LPC参数等价的另一种表示方法,而LSP系数具有良好的动态范围和滤波稳定性、以及良好的内插特性和量化特性,抗干扰能力比LPC参数更好,因此,编码时可传输LSP系数,后续解码时,再利用LSP系数得到LPC参数。该基音周期可以为表征自适应码本的参数,该固定码本参数可以为表征固定码本和固定码本增益的参数。
在一种可能实施方式中,该基于人声语音模型的编码器可以为CELP(CodeExcited Linear Prediction,码激励线性预测语音编码)编码器,CELP编码器可用线性预测提取声道参数,用一个包含许多典型的激励矢量的码本作为激励参数,每次编码时都在这个码本中搜索一个最佳的激励矢量,这个激励矢量的编码值就是这个序列的码本中的序号。示例性的,该对第二子带信号编码得到第二编码码流的实施方式可以包括:发送端通过该第二语音编码器,对该第二子带信号进行线性预测分析,得到线性预测滤波参数,并基于该线性预测滤波参数和第一码本参数,确定该第二子带信号的预测滤波信号;发送端确定该预测滤波信号与该第二子带信号的原始信号之间的残差信号;发送端重复执行线性预测分析、确定预测滤波信号以及确定残差信号的步骤,以将该第一码本参数迭代调整为第二码本参数;发送端将线谱对系数、基音周期、自适应码本增益参数和固定码本参数,确定为该第二编码码流。其中,该第二码本参数可包括表征固定码本和固定码本增益的参数、以及表征自适应码本和自适应码本增益的参数。该线谱对系数用于表征该线性预测滤波参数,该基音周期用于表征该第二码本参数对应的自适应码本,该固定码本参数用于表征该第二码本参数对应的固定码本及固定码本增益参数。
图4为本申请提供的一种CELP编码流程示意图。如图4所示,CELP模型编码,第二子带信号的原始语音经过预处理后得到表征原始信号的s(n),该预处理过程可包括高通滤波,以过滤掉原始信号中几十赫兹的噪音信号。通过对第二子带信号进行LPC线性预测分析得到一组线性预测滤波系数,并将LPC线性预测滤波参数转换为LSP系数并量化;通过LPC线性预测滤波参数和第一码本参数做预测滤波,得到预测滤波信号计算s(n)与/>的差得到残差信号,基于残差信号经过感觉加权滤波器、最小感觉加权误差分析等得到的残渣,对表征随机码本、自适应码本等的第一码本参数进行调整,基于以上开环闭环基音分析搜索得到最佳基音时延参数,而后固定码本搜索得到最佳脉冲位置和幅值参数,最后计算自适应码本增益参数和固定码本增益参数,这些编码过程中得到的编码参数作为第二编码码流。
需要说明的是,上述仅以基于CELP编码器的编码过程为例进行说明,CELP编码器可以包括amrnb、silk、evrc、g.729、opus等任一编码器;基于CELP编码器的编码过程,通过人声语音模型提取的特征能准确地匹配第二子带信号,再结合残差信号、闭环方式迭代调整第一码本参数等码本量化描述手段,大大降低编码后语音信号的损失,从而达到精确描述语音信号的特性的效果。并且,通过客观质量评测工具pesq测试,上述对第二子带信号编码的方式可以达到MOS分为4.2分以上(满分4.5分)的高分值,主观上很难分辨其与原始输入声音信号的差异,即保真度非常高。当然,该发送端还可以采用具备高质量编码的其它编码方式对第二子带信号进行编码,本申请实施例对此不做限定。
步骤205、发送端向接收端传输该第一编码码流和该第二编码码流。
发送端将第一子带信号和第二子带信号各自的编码码流进行整合后再发送至接收端;也即是,该发送端对第一编码码流和第二编码码流进行合并,得到整合编码码流,并将合并得到的整合编码码流,发送至接收端。
如图3所示,该发送端可对第一子带信号S3、S4和S5,采用基于深度学习模型的第一语音编码器进行编码,对第二子带信号S6采用传统的基于人声语音模型的第二语音编码器进行编码,并对各自的编码码流进行整合后再进行传输。
本申请实施例提供的信号处理方法,可基于该目标语音信号的带宽、以及预设的目标频率阈值,将该目标语音信号分解为至少两个子带信号;并分别通过第一语音编码器,获取语谱频率高于目标频率阈值的第一子带信号的第一编码码流,可得到低码率的编码码流;以及通过第二语音编码器,获取语谱频率不高于目标频率阈值的第二子带信号的第二编码码流,可得到高质量的编码变流;通过针对语音信号中不同语谱频率的子带信号采用不同编码方式,对具备大部分信息量的第二子带信号进行高质量编码,保证了语音编码的质量;同时对第一子带信号进行低码率的编码方式,降低了低质量需求的高频子带信号所需的传输带宽,从而在保证编码质量的前提下,尽可能的降低了所需的传输成本。
图5为本申请实施例提供的一种信号处理方法的流程示意图。该方法的执行主体可以为接收端所在的设备,例如终端、服务器等任一支持执行以下信号处理过程的计算机设备,在以下步骤中简称为接收端。如图2所示,该方法包括以下步骤。
步骤501、接收端接收发送端所传输的第一编码码流和该第二编码码流。
该接收端接收发送端发送的整合编码码流,该整合编码码流是对第一编码码流和第二编码码流进行整合后得到的编码码流。该接收端从该整合编码码流中提取得到第一编码码流和第二编码码流,而后分别通过步骤502和步骤503进行解码得到各自对应的子带信号。
在一种可能实施方式中,该第一编码码流和该第二编码码流为通过不同编码器得到的编码码流,不同编码器的时延也可能不同。在通过后续步骤进行解码之前,该接收端还可以先对第一编码码流和该第二编码码流之间的时延对齐。示例性的,该接收端对该第一编码码流和该第二编码码流之间的时延对齐的过程可以包括:该接收端基于该第一语音编码器的第一时延和第二语音编码器的第二时延,在该第一编码码流或该第二编码码流中添加时延码流,该时延码流用于将该第一编码码流和该第二编码码流之间的时延对齐。例如,该第一语音编码器的第一时延为8ms,第二语音编码器的第二时延为20ms,则该接收端可在第一编码码流中添加12ms的时延码流,从而两个编码码流之间的时延差为0,则两个编码码流之间的时延对齐。其中,该时延码流可基于需要进行配置,例如,时延码流可以是时长为12ms、取值全为0的码流数据。
步骤502、接收端通过第一语音解码器对该第一编码码流进行解码,得到第一子带信号。
该第一语音解码器是与第一语音编码器对应的解码器,该第一语音编码器是基于深度学习模型的编码器。该第一语音解码器也是基于深度学习模型的解码器,该第一语音解码器通过对第一语音编码器提取的特征参数进行解码,还原出具备该特征参数所表征的特征的子带信号。该第一语音解码器可以是预先训练的可基于特征参数还原子带信号的深度学习模型。
在一种可能实施方式中,该第一编码码流包括基音周期、互相关值以及倒谱系数。则该接收端通过第一语音解码器解码得到第一子带信号的过程可以包括:该接收端将该基音周期、互相关值以及倒谱系数输入该第一语音解码器,并通过该第一语音解码器中的帧率网络,获取条件向量,以及,通过该第一语音解码器中的线性预测模块,获取线性预测滤波系数;该接收端通过该第一语音解码器中的采样频率网络,基于该线性预测滤波系数和该条件向量,生成第一子带信号。示例性的,该第一语音解码器可以是LPCNet深度学习模型,图6为本申请实施例提供的一种LPCNet深度学习模型的网络结构示意图,如图6所示,该LPCNet深度学习模型可包括Frame rate network(帧率网络)、Sample rate network(采样频率网络)、以及一个计算LPC线性预测滤波参数的compute LPC模块。通过LPCNet深度学习模型可将特征参数通过激励迭代生成第一子带信号的语音时域pcm信号。LPCNet深度学习模型可通过Sample rate network网络输出pcm样点,而Frame rate network为Samplerate network提供一个条件向量的输入;其中,Frame rate network包括两个1×3的卷积层(conv)以及两个FC(Fully Connected,全连接层);Sample rate network包括特征拼接层(concat)、门控网络层、双FC层以及Softmax层,门控网络层为两个GRU(Gated RecurrentUnit,门控循环单元),包括GRUA和GRUB”。通过compute LPC模块可基于输入的特征参数计算得到线性预测滤波参数,并基于线性预测滤波参数进行预测得到线性预测信号Pt,computeLPC模块可每个采样点计算一次线性预测信号Pt。通过Frame rate network基于所输入的特征参数,计算得到条件向量f,该Sample rate network可每帧计算一次条件向量f。Sample rate network的输入包括条件向量f、利用compute LPC模块计算的当前采样点的线性预测信号Pt、上一个采样点St-1以及上一个采样点的残差et-1,Sample rate network输出就是当前点的残差et。其中,compute prediction(预测计算)模块是基于之前的样本采样点(如之前16个采样点St-16……St-1)以及线性预测滤波参数预测当前采样点的线性预测信号Pt;最后只要将compute LPC模块计算的当前采样点的线性预测信号Pt和当前点的残差et相加,即为最终的输出St,也即是当前采样点的pcm信号。
通过第一语音解码器,只需将特征参数输入至训练好的第一语音解码器,则可以生成具备该特征参数的子带信号,该特征参数的数据量较小,例如,对于采样率16khz的语音信号,LPCNet深度学习模型只需要超低的1.6kbps码率的特征参数,便可得到比较自然流畅的语音信号,与第二语音解码器相比,第一语音编解码器的编码效率提升了好几倍,第一语音编解码器所需的传输带宽降低。
步骤503、接收端通过第二语音解码器对该第二编码码流进行解码,得到第二子带信号。
该第二语音解码器是与第二语音编码器对应的解码器,该第二语音编码器是基于人声语音模型的非深度学习编码器;则该第二语音解码器也可是基于人声语音模型的非深度学习解码器。在一种可能实施方式中,该第二编码码流包括线谱对系数、基音周期、自适应码本增益参数和固定码本参数。则该接收端通过第二语音解码器进行解码的过程包括:该接收端通过该第二语音解码器,对该线谱对系数进行内插得到线性预测滤波系数;该接收端基于该固定码本参数所表征的固定码本及固定码本增益参数,生成固定码本激励信号;该接收端基于该自适应码本增益参数、以及该基音周期所表征的自适应码本,生成自适应码本激励信号;该接收端通过该线性预测滤波系数对应的滤波器,对该固定码本激励信号和该自适应码本激励信号的合成信号进行滤波,得到该第二子带信号。示例性的,第二语音解码器是通过基于码本得到激励信号,该激励信号包括两种分量,一种激励来自自适应码本,另一种激励来自固定码本。该接收端通过对来自两种码本的激励信号进行合成,并将合成信号作为线性预测合成滤波器的输入,结合线性预测滤波参数输出第二子带信号。
步骤504、接收端将该第一子带信号和该第二子带信号合成为目标语音信号,并播放该目标语音信号。
该接收端可通过正交镜像滤波器组,对该第一子带信号和该第二子带信号进行合成,得到目标语音信号。
图7为本申请实施例提供的一种解码过程示意图,如图7所示,接收端对接收到的整合码流进行解析,得到第一编码码流和第二编码码流。然后,分别通过第一语音解码器,如LPCNet深度学习模型对第一编码码流进行解码,得到与第一子带信号S3、S4和S5对应的S3’、S4’和S5’;并采用第二语音解码器,如amrnb解码器对第二编码码流进行解码,得到图3所示的第二子带信号S6’。分别通过正交镜像滤波器组对S3’、S4’进行一次合成得到S1’,对S5’、S6’进行一次合成得到S2’,然后再对S1’、S2’进行一次合成,最终得到采样率32khz的信号并输出。
在一种可能实施方式中,接收端还可结合自己的播放支持采样率进行信号合成,以合成得到自己所支持的采样率的信号进行播放。示例性的,步骤504可包括:接收端基于该接收端的播放支持采样率,从该第一子带信号选择至少一个第一目标信号,从该第二子带信号中选择至少一个第二目标信号;接收端通过正交镜像滤波器组,将该至少一个第一目标信号和第二目标信号合成为第一信号,并将该第一信号作为该目标语音信号进行播放,该第一信号的采样率不高于该播放支持采样率。例如,对于支持32khz采样率的终端,可将S3’、S4’、以及S5’、S6’合成得到采样率32khz的信号并播放。而对于支持16khz采样率的终端,则可选取S5’、S6’进行合成,得到采样率16khz的信号并播放。
需要说明的是,由于本申请中第一子带信号和第二子带信号的编码、解码过程是各自独立进行的,通过结合播放支持采样率,从第一子带信号、第二子带信号中选取不同子带信号进行合成,使得合成的信号可适配不同采样率的设备,例如,即可合成32khz采样率的信号,以满足32khz采样率的终端进行语音播放;还可以合成16khz采样率的信号,以满足仅支持16khz采样率的终端进行语音播放,使得本申请的信号处理过程可灵活适配不同播放能力的终端,从而提高了信号处理方法的灵活性和实用性。
如图8所示,本申请先在编码时发送端通过以上步骤201-205,通过正交镜像滤波器组对输入信号进行子带分解,得到不高于目标频率阈值的低频子带和高于目标频率阈值的高频子带。并分别对低频子带采用传统的基于人声语音模型的非深度学习编码器进行编码,得到第二编码码流;并对高频子带采用深度学习模型的编码器进行编码,得到第一编码码流。对各子带码流进行整合后,将整合码流发送给接收端。接收端通过以上步骤501-504,对各子带码流进行解析,对第二编码码流采用传统的基于人声语音模型的非深度学习解码器进行解码,得到第低频子带;对第一编码码流采用传统的基于人声语音模型的非深度学习解码器进行解码,得到高频子带。通过正交镜像滤波器组,对低频子带和高频子带进行合成,并输出合成后的信号。本申请结合了传统的基于人声语音模型的非深度学习编码器语音编码器的精准编码、以及深度学习模型的编码器的低码率编码特点,更高效的利用传输和存储带宽,得到同等码率下质量更优的语音编解码结果,提升语音播放的听觉体验。并且,本申请能适配不同播放能力的终端设备,例如8khz窄带~48khz全带信号,都有较广的适用性,即便高采样率下也不会增加太多的额外码率,从而提供更优质的听觉体验,提高了信号处理过程的灵活性和实用性。
本申请实施例提供的信号处理方法,分别通过第一语音解码器对该第一编码码流进行解码得到第一子带信号,通过第二语音解码器对该第二编码码流进行解码得到第二子带信号,从而通过不同解码器的解码方式,实现了为不同编码过程的编码码流进行解码的过程。并且,通过将该第一子带信号和该第二子带信号合成为目标语音信号并播放,从而最终还原得到目标语音信。通过提供不同解码器的解码方式,满足在编码过程针对不同语谱频率的子带采用不同编码方式的解码需求,使得编码过程可在高质量编码前提下,尽可能的降低了所需的传输成本。
图9为本申请实施例提供的一种信号处理装置的结构示意图。如图9所示,该装置包括:
目标语音信号获取模块901,用于获取待传输的目标语音信号;
分解模块902,用于基于该目标语音信号的带宽、以及预设的目标频率阈值,将该目标语音信号分解为至少两个子带信号,任一子带信号的带宽低于该目标语音信信号的带宽;
第一编码码流获取模块903,用于对于第一子带信号,通过第一语音编码器,获取该第一子带信号的第一编码码流,该第一子带信号是指该至少两个子带信号中语谱频率高于目标频率阈值的子带信号,该第一语音编码器是基于深度学习模型的编码器;
第二编码码流获取模块904,用于对于第二子带信号,通过第二语音编码器,获取该第二子带信号的第二编码码流,该第二子带信号是指该至少两个子带信号中语谱频率不高于目标频率阈值的子带信号,该第二语音编码器是基于人声语音模型的非深度学习编码器;
传输模块905,用于向接收端传输该第一编码码流和该第二编码码流。
在一个可能实现方式中,该第二编码码流获取模块904,用于:
通过该第二语音编码器,对该第二子带信号进行线性预测分析,得到线性预测滤波参数,并基于该线性预测滤波参数和第一码本参数,确定该第二子带信号的预测滤波信号;
确定该预测滤波信号与该第二子带信号的原始信号之间的残差信号;
重复执行线性预测分析、确定预测滤波信号以及确定残差信号的步骤,以将该第一码本参数迭代调整为第二码本参数;
将线谱对系数、基音周期、自适应码本增益参数和固定码本参数,确定为该第二编码码流;
其中,该线谱对系数用于表征该线性预测滤波参数,该基音周期用于表征该第二码本参数对应的自适应码本,该固定码本参数用于表征该第二码本参数对应的固定码本及固定码本增益参数。
在一个可能实现方式中,该第一编码码流包括基音周期、互相关值以及倒谱系数;该第一编码码流是通过该第一语音编码器对该第一子带信号进行特征提取得到的。
在一个可能实现方式中,该分解模块902,用于基于该接收端的播放支持采样率,通过正交镜像滤波器组基于该目标语音信号的带宽对该目标语音信号进行至少一次带宽分解,得到该至少两个子带信号;
其中,该至少两个子带信号包括不高于该目标频率阈值的子带信号,该播放支持采样率与该至少两个子带信号的数量正相关,每次带宽分解将一个第一信号分解为两个第二信号,第二信号的带宽为第一信号的带宽的一半。
本申请实施例提供的信号处理方法,可基于该目标语音信号的带宽、以及预设的目标频率阈值,将该目标语音信号分解为至少两个子带信号;并分别通过第一语音编码器,获取语谱频率高于目标频率阈值的第一子带信号的第一编码码流,可得到低码率的编码码流;以及通过第二语音编码器,获取语谱频率不高于目标频率阈值的第二子带信号的第二编码码流,可得到高质量的编码变流;通过针对语音信号中不同语谱频率的子带信号采用不同编码方式,对具备大部分信息量的第二子带信号进行高质量编码,保证了语音编码的质量;同时对第一子带信号进行低码率的编码方式,降低了低质量需求的高频子带信号所需的传输带宽,从而在保证编码质量的前提下,尽可能的降低了所需的传输成本。
图10为本申请实施例提供的一种信号处理装置的结构示意图。如图10所示,该装置包括:
接收模块1001,用于接收发送端所传输的第一编码码流和第二编码码流;
第一解码模块1002,用于通过第一语音解码器对该第一编码码流进行解码,得到第一子带信号,该第一语音解码器是与第一语音编码器对应的解码器,该第一语音编码器是基于深度学习模型的编码器;
第二解码模块1003,用于通过第二语音解码器对该第二编码码流进行解码,得到第二子带信号,该第二语音解码器是与第二语音编码器对应的解码器,该第二语音编码器是基于人声语音模型的非深度学习编码器;
合成模块1004,用于将该第一子带信号和该第二子带信号合成为目标语音信号;
播放模块1005,用于播放该目标语音信号。
在一个可能实现方式中,该第二编码码流包括线谱对系数、基音周期、自适应码本增益参数和固定码本参数;
该第二解码模块1003,用于:
通过该第二语音解码器,对该线谱对系数进行内插得到线性预测滤波系数;
基于该固定码本参数所表征的固定码本及固定码本增益参数,生成固定码本激励信号;
基于该自适应码本增益参数、以及该基音周期所表征的自适应码本,生成自适应码本激励信号;
通过该线性预测滤波系数对应的滤波器,对该固定码本激励信号和该自适应码本激励信号的合成信号进行滤波,得到该第二子带信号。
在一个可能实现方式中,该合成模块1004,用于基于该接收端的播放支持采样率,从该第一子带信号选择至少一个第一目标信号,从该第二子带信号中选择至少一个第二目标信号;通过正交镜像滤波器组,将该至少一个第一目标信号和第二目标信号合成为第一信号,该第一信号的采样率不高于该播放支持采样率;
该播放模块1005,用于将该第一信号作为该目标语音信号进行播放。
在一个可能实现方式中,该装置还包括:
时延码流添加模块,用于基于该第一语音编码器的第一时延和第二语音编码器的第二时延,在该第一编码码流或该第二编码码流中添加时延码流,该时延码流用于将该第一编码码流和该第二编码码流之间的时延对齐。
在一个可能实现方式中,该第一编码码流包括基音周期、互相关值以及倒谱系数;
该第一解码模块1002,用于:
将该基音周期、互相关值以及倒谱系数输入该第一语音解码器,并通过该第一语音解码器中的帧率网络,获取条件向量,以及,通过该第一语音解码器中的线性预测模块,获取线性预测滤波系数;
通过该第一语音解码器中的采样频率网络,基于该线性预测滤波系数和该条件向量,生成第一子带信号。
本申请实施例提供的信号处理方法,分别通过第一语音解码器对该第一编码码流进行解码得到第一子带信号,通过第二语音解码器对该第二编码码流进行解码得到第二子带信号,从而通过不同解码器的解码方式,实现了为不同编码过程的编码码流进行解码的过程。并且,通过将该第一子带信号和该第二子带信号合成为目标语音信号并播放,从而最终还原得到目标语音信。通过提供不同解码器的解码方式,满足在编码过程针对不同语谱频率的子带采用不同编码方式的解码需求,使得编码过程可在高质量编码前提下,尽可能的降低了所需的传输成本。
本申请实施例的装置可执行本申请实施例所提供的方法,其实现原理相类似,本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的,对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述,此处不再赘述。
图11是本申请实施例中提供了一种计算机设备的结构示意图。如图11所示,该计算机设备包括:存储器、处理器及存储在存储器上的计算机程序,该处理器执行上述计算机程序以实现信号处理方法的步骤,与相关技术相比可实现:
本申请实施例提供的信号处理方法,可基于该目标语音信号的带宽、以及预设的目标频率阈值,将该目标语音信号分解为至少两个子带信号;并分别通过第一语音编码器,获取语谱频率高于目标频率阈值的第一子带信号的第一编码码流,可得到低码率的编码码流;以及通过第二语音编码器,获取语谱频率不高于目标频率阈值的第二子带信号的第二编码码流,可得到高质量的编码变流;通过针对语音信号中不同语谱频率的子带信号采用不同编码方式,对具备大部分信息量的第二子带信号进行高质量编码,保证了语音编码的质量;同时对第一子带信号进行低码率的编码方式,降低了低质量需求的高频子带信号所需的传输带宽,从而在保证编码质量的前提下,尽可能的降低了所需的传输成本。
本申请实施例提供的信号处理方法,分别通过第一语音解码器对该第一编码码流进行解码得到第一子带信号,通过第二语音解码器对该第二编码码流进行解码得到第二子带信号,从而通过不同解码器的解码方式,实现了为不同编码过程的编码码流进行解码的过程。并且,通过将该第一子带信号和该第二子带信号合成为目标语音信号并播放,从而最终还原得到目标语音信。通过提供不同解码器的解码方式,满足在编码过程针对不同语谱频率的子带采用不同编码方式的解码需求,使得编码过程可在高质量编码前提下,尽可能的降低了所需的传输成本。
在一个可选实施例中提供了一种计算机设备,如图11所示,图11所示的计算机设备1100包括:处理器1101和存储器1103。其中,处理器1101和存储器1103相连,如通过总线1102相连。可选地,计算机设备1100还可以包括收发器1104,收发器1104可以用于该计算机设备与其他计算机设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器1104不限于一个,该计算机设备1100的结构并不构成对本申请实施例的限定。
处理器1101可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器1101也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线1102可包括一通路,在上述组件之间传送信息。总线1102可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线1102可以分为地址总线、数据总线、控制总线等。为便于表示,图11中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器1103可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质\其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质,在此不做限定。
存储器1103用于存储执行本申请实施例的计算机程序,并由处理器1101来控制执行。处理器1101用于执行存储器1103中存储的计算机程序,以实现前述方法实施例所示的步骤。
其中,电子设备包括但不限于:服务器、终端或云计算中心设备等。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
本申请实施例还提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作等。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。
应该理解的是,虽然本申请实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本申请实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本申请实施例对此不限制。
以上所述仅是本申请部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请的方案技术构思的前提下,采用基于本申请技术思想的其他类似实施手段,同样属于本申请实施例的保护范畴。

Claims (14)

1.一种信号处理方法,其特征在于,所述方法包括:
获取待传输的目标语音信号;
基于所述目标语音信号的带宽、以及预设的目标频率阈值,将所述目标语音信号分解为至少两个子带信号,任一子带信号的带宽低于所述目标语音信信号的带宽;
对于第一子带信号,通过第一语音编码器,获取所述第一子带信号的第一编码码流,所述第一子带信号是指所述至少两个子带信号中语谱频率高于目标频率阈值的子带信号,所述第一语音编码器是基于深度学习模型的编码器;
对于第二子带信号,通过第二语音编码器,获取所述第二子带信号的第二编码码流,所述第二子带信号是指所述至少两个子带信号中语谱频率不高于目标频率阈值的子带信号,所述第二语音编码器是基于人声语音模型的非深度学习编码器;
向接收端传输所述第一编码码流和所述第二编码码流。
2.根据权利要求1所述的方法,其特征在于,所述对于第二子带信号,通过第二语音编码器,获取所述第二子带信号的第二编码码流,包括:
通过所述第二语音编码器,对所述第二子带信号进行线性预测分析,得到线性预测滤波参数,并基于所述线性预测滤波参数和第一码本参数,确定所述第二子带信号的预测滤波信号;
确定所述预测滤波信号与所述第二子带信号的原始信号之间的残差信号;
重复执行线性预测分析、确定预测滤波信号以及确定残差信号的步骤,以将所述第一码本参数迭代调整为第二码本参数;
将线谱对系数、基音周期、自适应码本增益参数和固定码本参数,确定为所述第二编码码流;
其中,所述线谱对系数用于表征所述线性预测滤波参数,所述基音周期用于表征所述第二码本参数对应的自适应码本,所述固定码本参数用于表征所述第二码本参数对应的固定码本及固定码本增益参数。
3.根据权利要求1所述的方法,其特征在于,所述第一编码码流包括基音周期、互相关值以及倒谱系数;所述第一编码码流是通过所述第一语音编码器对所述第一子带信号进行特征提取得到的。
4.根据权利要求1所述的方法,其特征在于,所述基于所述目标语音信号的带宽、以及预设的目标频率阈值,将所述目标语音信号分解为至少两个子带信号,包括:
基于所述接收端的播放支持采样率,通过正交镜像滤波器组基于所述目标语音信号的带宽对所述目标语音信号进行至少一次带宽分解,得到所述至少两个子带信号;
其中,所述至少两个子带信号包括不高于所述目标频率阈值的子带信号,所述播放支持采样率与所述至少两个子带信号的数量正相关,每次带宽分解将一个第一信号分解为两个第二信号,第二信号的带宽为第一信号的带宽的一半。
5.一种信号处理方法,其特征在于,所述方法包括:
接收发送端所传输的第一编码码流和第二编码码流;
通过第一语音解码器对所述第一编码码流进行解码,得到第一子带信号,所述第一语音解码器是与第一语音编码器对应的解码器,所述第一语音编码器是基于深度学习模型的编码器;
通过第二语音解码器对所述第二编码码流进行解码,得到第二子带信号,所述第二语音解码器是与第二语音编码器对应的解码器,所述第二语音编码器是基于人声语音模型的非深度学习编码器;
将所述第一子带信号和所述第二子带信号合成为目标语音信号,并播放所述目标语音信号。
6.根据权利要求5所述的方法,其特征在于,所述第二编码码流包括线谱对系数、基音周期、自适应码本增益参数和固定码本参数;
所述通过第二语音解码器对所述第二编码码流进行解码,得到第二子带信号,包括:
通过所述第二语音解码器,对所述线谱对系数进行内插得到线性预测滤波系数;
基于所述固定码本参数所表征的固定码本及固定码本增益参数,生成固定码本激励信号;
基于所述自适应码本增益参数、以及所述基音周期所表征的自适应码本,生成自适应码本激励信号;
通过所述线性预测滤波系数对应的滤波器,对所述固定码本激励信号和所述自适应码本激励信号的合成信号进行滤波,得到所述第二子带信号。
7.根据权利要求5所述的方法,其特征在于,所述将所述第一子带信号和所述第二子带信号合成为目标语音信号,并播放所述目标语音信号,包括:
基于所述接收端的播放支持采样率,从所述第一子带信号选择至少一个第一目标信号,从所述第二子带信号中选择至少一个第二目标信号;
通过正交镜像滤波器组,将所述至少一个第一目标信号和第二目标信号合成为第一信号,并将所述第一信号作为所述目标语音信号进行播放,所述第一信号的采样率不高于所述播放支持采样率。
8.根据权利要求5所述的方法,其特征在于,所述接收发送端所传输的第一编码码流和所述第二编码码流之后,所述方法还包括:
基于所述第一语音编码器的第一时延和第二语音编码器的第二时延,在所述第一编码码流或所述第二编码码流中添加时延码流,所述时延码流用于将所述第一编码码流和所述第二编码码流之间的时延对齐。
9.根据权利要求5所述的方法,其特征在于,所述第一编码码流包括基音周期、互相关值以及倒谱系数;
所述通过第一语音解码器对所述第一编码码流进行解码,得到第一子带信号,包括:
将所述基音周期、互相关值以及倒谱系数输入所述第一语音解码器,并通过所述第一语音解码器中的帧率网络,获取条件向量,以及,通过所述第一语音解码器中的线性预测模块,获取线性预测滤波系数;
通过所述第一语音解码器中的采样频率网络,基于所述线性预测滤波系数和所述条件向量,生成第一子带信号。
10.一种信号处理装置,其特征在于,所述装置包括:
目标语音信号获取模块,用于获取待传输的目标语音信号;
分解模块,用于基于所述目标语音信号的带宽、以及预设的目标频率阈值,将所述目标语音信号分解为至少两个子带信号,任一子带信号的带宽低于所述目标语音信信号的带宽;
第一编码码流获取模块,用于对于第一子带信号,通过第一语音编码器,获取所述第一子带信号的第一编码码流,所述第一子带信号是指所述至少两个子带信号中语谱频率高于目标频率阈值的子带信号,所述第一语音编码器是基于深度学习模型的编码器;
第二编码码流获取模块,用于对于第二子带信号,通过第二语音编码器,获取所述第二子带信号的第二编码码流,所述第二子带信号是指所述至少两个子带信号中语谱频率不高于目标频率阈值的子带信号,所述第二语音编码器是基于人声语音模型的非深度学习编码器;
传输模块,用于向接收端传输所述第一编码码流和所述第二编码码流。
11.一种信号处理装置,其特征在于,所述装置包括:
接收模块用于接收发送端所传输的第一编码码流和第二编码码流;
第一解码模块,用于通过第一语音解码器对所述第一编码码流进行解码,得到第一子带信号,所述第一语音解码器是与第一语音编码器对应的解码器,所述第一语音编码器是基于深度学习模型的编码器;
第二解码模块,用于通过第二语音解码器对所述第二编码码流进行解码,得到第二子带信号,所述第二语音解码器是与第二语音编码器对应的解码器,所述第二语音编码器是基于人声语音模型的非深度学习编码器;
合成模块,用于将所述第一子带信号和所述第二子带信号合成为目标语音信号;
播放模块,用于播放所述目标语音信号。
12.一种计算机设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1至9任一项所述的信号处理方法。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9任一项所述的信号处理方法。
14.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9任一项所述的信号处理方法。
CN202210739202.2A 2022-06-24 2022-06-24 信号处理方法、装置、计算机设备、存储介质及程序产品 Pending CN117334204A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210739202.2A CN117334204A (zh) 2022-06-24 2022-06-24 信号处理方法、装置、计算机设备、存储介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210739202.2A CN117334204A (zh) 2022-06-24 2022-06-24 信号处理方法、装置、计算机设备、存储介质及程序产品

Publications (1)

Publication Number Publication Date
CN117334204A true CN117334204A (zh) 2024-01-02

Family

ID=89277947

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210739202.2A Pending CN117334204A (zh) 2022-06-24 2022-06-24 信号处理方法、装置、计算机设备、存储介质及程序产品

Country Status (1)

Country Link
CN (1) CN117334204A (zh)

Similar Documents

Publication Publication Date Title
Défossez et al. High fidelity neural audio compression
CN1327405C (zh) 分布式语音识别系统中语音识别的方法和设备
CN112767954B (zh) 音频编解码方法、装置、介质及电子设备
JP5226777B2 (ja) 音声信号中に埋め込まれた隠れデータの回復
CN113140225B (zh) 语音信号处理方法、装置、电子设备及存储介质
CN101006495A (zh) 语音编码装置、语音解码装置、通信装置以及语音编码方法
JPWO2007088853A1 (ja) 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法
CN114550732B (zh) 一种高频音频信号的编解码方法和相关装置
CN115171709B (zh) 语音编码、解码方法、装置、计算机设备和存储介质
CN112767955B (zh) 音频编码方法及装置、存储介质、电子设备
JPH09281995A (ja) 信号符号化装置及び方法
CN114333892A (zh) 一种语音处理方法、装置、电子设备和可读介质
CN114333893A (zh) 一种语音处理方法、装置、电子设备和可读介质
CN113314132B (zh) 交互式音频系统中的音频对象编码方法、解码方法及装置
JPH0993135A (ja) 発声音データの符号化装置及び復号化装置
JP3444131B2 (ja) 音声符号化及び復号装置
CN114333891B (zh) 一种语音处理方法、装置、电子设备和可读介质
CN117334204A (zh) 信号处理方法、装置、计算机设备、存储介质及程序产品
Rebolledo et al. A multirate voice digitizer based upon vector quantization
CN113571079A (zh) 语音增强方法、装置、设备及存储介质
CN114333767A (zh) 发声者语音抽取方法、装置、存储介质及电子设备
KR0155798B1 (ko) 음성신호 부호화 및 복호화 방법
CN117238311B (zh) 一种多声源及噪声环境中的语音分离增强方法及系统
KR960015861B1 (ko) 선 스펙트럼 주파수 벡터의 양자화 방법 및 양자화기
JP3984048B2 (ja) 音声/音響信号の符号化方法及び電子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination