CN112885363A - 语音发送方法和装置以及语音接收方法和装置、电子设备 - Google Patents

语音发送方法和装置以及语音接收方法和装置、电子设备 Download PDF

Info

Publication number
CN112885363A
CN112885363A CN202010988943.5A CN202010988943A CN112885363A CN 112885363 A CN112885363 A CN 112885363A CN 202010988943 A CN202010988943 A CN 202010988943A CN 112885363 A CN112885363 A CN 112885363A
Authority
CN
China
Prior art keywords
frequency
low
feature
information
feature extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010988943.5A
Other languages
English (en)
Inventor
温亮
王立众
易安希
闵超
姚梁希
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Samsung Telecom R&D Center
Beijing Samsung Telecommunications Technology Research Co Ltd
Samsung Electronics Co Ltd
Original Assignee
Beijing Samsung Telecommunications Technology Research Co Ltd
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Samsung Telecommunications Technology Research Co Ltd, Samsung Electronics Co Ltd filed Critical Beijing Samsung Telecommunications Technology Research Co Ltd
Publication of CN112885363A publication Critical patent/CN112885363A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本公开提供了一种语音发送方法和装置以及语音接收方法和装置、电子设备,所述语音发送方法包括:利用第一特征提取网络从输入的语音信号中提取低频特征信息;以及将与所述低频特征信息对应的语音信号发送给接收端。

Description

语音发送方法和装置以及语音接收方法和装置、电子设备
技术领域
本申请总体说来涉及语音通话领域,更具体地讲,涉及基于神经网络的语音发送方法和装置以及语音接收方法和装置、电子设备。
背景技术
当前的移动通信网络(2G/3G/4G)只支持窄带(Narrow Band,NB)/宽带(WideBand,WB)的语音采样率,但是当前主流的终端设备都已经支持超宽带(Super Wide Band,SWB)的语音信号采集和记录。因此,当前的移动通信网络无法充分发挥终端设备的性能。
由于人说话的语音带宽范围较宽,而移动通信网络支持的带宽有限。因此,在移动通信中,语音的发送端首先需要将采集到的发音者的语音降采样到通信网络支持的采样率,然后对降采样后的语音进行编码并通过移动通信网络发送。与此同时,接收端可以对接收到的信号进行解码并直接播放给接收者,但是为了提升用户体验,也可以将接收到的信号扩展到更高的带宽和采样率,使得声音听起来更舒适。因此,现有技术在语音的发送端和接收端分别采用降采样技术和带宽扩展技术对语音信号进行采样率转换。
但是现有技术中,终端发送和接收语音时进行采样率转换的效果较差,无法向用户提供优质的听觉体验。
发明内容
为了至少解决现有技术中存在的上述问题,本发明提供了一种实现基于神经网络的语音发送方法和装置以及语音接收方法和装置。
本发明的一方面在于提供一种语音发送方法,包括:利用第一特征提取网络从输入的语音信号中提取低频特征信息;以及将与所述低频特征信息对应的语音信号发送给接收端。通过上述操作可降低基于AI的降采样过程中的低频信息的损失,同时给语音接收装置更多的信息以在语音接收装置获得更好的升采样性能。
第一特征提取网络包含至少一个第一特征提取模块以及至少一个第二特征提取模块,其中,利用第一特征提取网络从输入的语音信号中提取低频特征信息的步骤包括:利用所述至少一个第一特征提取模块,提取输入的语音信号的语音特征信息;利用所述至少一个第二特征提取模块,根据提取的语音特征信息获得低频特征信息。
第一特征提取网络中的至少一个特征提取模块通过至少两种卷积处理参数分别对输入的信息进行特征提取,并输出提取出的特征信息。
所述至少两种卷积处理参数是下述至少两种:与语音信号的邻近采样点间的感受野对应的卷积处理参数、与一个基音长度的感受野对应的卷积处理参数、与至少两个基音长度的感受野对应的卷积处理参数。
所述卷积处理参数包括与卷积操作对应的卷积核大小。
将与所述低频特征信息对应的语音信号发送给接收端的步骤包括:利用第一特征融合网络,将第一特征提取网络输出的各低频特征信息进行融合来获得与所述低频特征信息对应的语音信号;将与所述低频特征信息对应的语音信号发送给接收端。
第一特征提取网络提取出的所述低频特征信息中包括高频特征和低频特征之间的相关信息。
所述语音发送方法还可包括:接收所述接收端发送的语音信号;利用第二特征提取网络从接收到的语音信号中提取低频特征信息并恢复高频特征信息;输出包含所述低频特征信息和所述高频特征信息的语音信号。
本发明的另一方面在于提供一种语音接收方法,所述语音接收方法可包括:接收发送端发送的语音信号;利用第二特征提取网络从接收到的语音信号中提取低频特征信息并恢复高频特征信息;输出包含所述低频特征信息和所述高频特征信息的语音信号。
所述语音接收方法还可包括:在利用第二特征提取网络从接收到的语音信号中提取低频特征信息并恢复高频特征信息的步骤之前,通过对接收的语音信号进行数据复制,以扩充接收的语音信号的数据尺度。
利用第二特征提取网络从接收到的语音信号中提取低频特征信息并恢复高频特征信息的步骤可包括:利用第二特征提取网络中的低频特征提取网络从接收到的语音信号中提取低频特征信息,所述低频特征信息包含高频特征和低频特征之间的相关信息;利用第二特征提取网络中的高频特征提取网络根据所述低频特征信息恢复高频特征信息并将所述高频特征信息和所述低频特征信息进行融合处理,得到包含高频特征信息和低频特征信息的特征信息。
所述低频特征提取网络包含至少一个第三特征提取模块以及至少一个第四特征提取模块,其中,利用第二特征提取网络中的低频特征提取网络从接收到的语音信号中提取低频特征信息的步骤包括:利用所述至少一个第三特征提取模块,提取接收到的语音信号的语音特征信息;利用所述至少一个第四特征提取模块,根据提取的语音特征信息获得低频特征信息,其中,所述高频特征提取网络包含至少一个第五特征提取模块和至少一个第六特征提取模块,其中,利用第二特征提取网络中的高频特征提取网络根据所述低频特征信息恢复高频特征信息并将所述高频特征信息和低频特征信息进行融合处理的步骤包括:利用所述至少一个第五特征提取模块,根据所述低频特征信息来恢复高频特征信息;利用至少一个第六特征提取模块,将所述高频特征信息和对应的第四特征提取模块提取出的低频特征信息进行融合处理,得到包含所述高频特征信息和所述低频特征信息的特征信息。
所述第二特征提取网络中的至少一个特征提取模块通过至少两种卷积处理参数分别对输入的信息进行特征提取,并输出提取得到的特征信息;和/或所述至少一个第六特征提取模块针对输入的至少两种卷积处理参数分别对应的高频特征信息,分别将高频特征信息和对应的第四特征提取模块按照相应的卷积处理参数提取出的低频特征信息进行融合处理,输出包含高频特征信息和低频特征信息的特征信息。
所述卷积处理参数包括卷积操作对应的卷积核大小。
第二特征提取网络包含至少一个第七特征提取模块以及至少一个第八特征提取模块,
利用第二特征提取网络从接收到的语音信号中提取低频特征信息并恢复高频特征信息的步骤包括:利用至少一个第七特征提取模块,提取接收到的语音信号的语音特征信息;利用至少一个第八特征提取模块,根据提取的语音特征信息,提取包含高频特征和低频特征之间的相关信息的低频特征信息,并恢复高频特征信息,得到包含高频特征信息和低频特征信息的特征信息。
所述至少一个第七特征提取模块通过至少两种卷积处理参数分别对输入的信息进行特征提取,并输出提取出的特征信息;和/或所述至少一个第八特征提取模块通过至少两种反卷积处理参数分别对输入的信息提取出低频特征信息,并恢复高频特征信息,得到包含高频特征信息和低频特征信息的特征信息。
输出包含所述低频特征信息和高频特征信息的语音信号的步骤包括:利用第二特征融合网络,将第二特征提取网络输出的包含高频特征信息和低频特征信息的特征信息进行融合,获得与包含高频特征信息和低频特征信息的特征信息对应的语音信号;输出该语音信号。
利用第二特征提取网络从接收到的语音信号中提取低频特征信息并恢复高频特征信息的步骤可包括:利用第二特征提取网络中的低频特征提取网络从接收到的语音信号中提取低频特征信息;利用第二特征融合网络中的低频特征融合网络,将所述低频特征提取网络输出的所述低频特征信息进行融合,获得低频修复的低频时域信号。
所述低频特征提取网络可包括至少一个第九特征提取模块,其中,利用第二特征提取网络中的低频特征提取网络从接收到的语音信号中提取低频特征信息的步骤可包括:利用所述至少一个第九特征提取模块,提取接收到的语音信号的低频特征信息。
利用第二特征提取网络从接收到的语音信号中提取低频特征信息并恢复高频特征信息的步骤还可包括:对所述低频修复的低频时域信号进行上采样处理来获得采样率提升的低频时域信号;利用第二特征提取网络中的高频特征提取网络,从所述采样率提升的低频时域信号提取包含高频特征与低频特征之间的相关信息的低频特征信息,并根据所述相关信息从该低频特征信息恢复高频特征信息;利用第二特征融合网络中的高频特征融合网络,将所述高频特征提取网络输出的高频特征信息进行融合,获得高频时域信号。
所述高频特征提取网络可包括至少一个第十特征提取模块,其中,利用第二特征提取网络中的高频特征提取网络从所述采样率提升的低频时域信号提取包含高频特征与低频特征之间的相关信息的低频特征信息并根据所述相关信息从该低频特征信息恢复高频特征信息的步骤可包括:利用所述至少一个第十特征提取模块,从所述采样率提升的低频时域信号提取包含高频特征与低频特征之间的相关信息的低频特征信息,并根据所述相关信息从该低频特征信息恢复高频特征信息。
所述至少一个第九特征提取模块可通过至少两个卷积处理参数分别对输入的信息进行特征提取,并输出提取出的低频特征信息,其中,所述至少一个第十特征提取模块可通过至少两个卷积处理参数分别对输入的信息提取出低频特征信息,并恢复高频特征信息。
输出包含所述低频特征信息和所述高频特征信息的语音信号的步骤可包括:将所述采样率提升的低频时域信号与所述高频时域信号进行时域加和处理来得到最终的语音信号;输出该语音信号。
本发明的另一方面在于提供一种语音发送装置,语音发送装置可包括:低频特征信息提取单元,被配置为利用第一特征提取网络从输入的语音信号中提取低频特征信息;以及发送单元,被配置为将与所述低频特征信息对应的语音信号发送给接收端。
第一特征提取网络包含至少一个第一特征提取模块以及至少一个第二特征提取模块,其中,低频特征信息提取单元包括:语音特征信息提取单元,被配置为利用所述至少一个第一特征提取模块,提取输入的语音信号的语音特征信息;以及低频特征信息获得单元,利用所述至少一个第二特征提取模块,根据提取的语音特征信息获得低频特征信息。
低频特征信息提取单元被配置为利用第一特征提取网络中的至少一个特征提取模块通过至少两种卷积处理参数分别对输入的信息进行特征提取,并输出提取出的特征信息。
所述至少两种卷积处理参数是下述至少两种:与语音信号的邻近采样点间的感受野对应的卷积处理参数、与一个基音长度的感受野对应的卷积处理参数、与至少两个基音长度的感受野对应的卷积处理参数。
所述卷积处理参数包括与卷积操作对应的卷积核大小。
发送单元被配置为通过以下操作将与所述低频特征信息对应的语音信号发送给接收端:利用第一特征融合网络,将第一特征提取网络输出的各低频特征信息进行融合来获得与所述低频特征信息对应的语音信号;以及将与所述低频特征信息对应的语音信号发送给接收端。
第一特征提取网络提取出的所述低频特征信息中包括高频特征和低频特征之间的相关信息。
所述语音发送装置还可包括:接收单元,被配置为接收所述接收端发送的语音信号;高频特征信息恢复单元,被配置为利用第二特征提取网络从接收到的语音信号中提取低频特征信息并恢复高频特征信息;输出单元,被配置为输出包含所述低频特征信息和所述高频特征信息的语音信号。
本发明的另一方面提供了一种语音接收装置,所述语音接收装置可包括:接收单元,被配置为接收发送端发送的语音信号;高频特征信息恢复单元,被配置为利用第二特征提取网络从接收到的语音信号中提取低频特征信息并恢复高频特征信息;输出单元,输出包含所述低频特征信息和所述高频特征信息的语音信号。
语音接收装置还可包括:预处理单元,被配置为在利用第二特征提取网络从接收到的语音信号中提取低频特征信息并恢复高频特征信息的步骤之前,通过对接收的语音信号进行数据复制,以扩充接收的语音信号的数据尺度。
高频特征信息恢复单元被配置为通过以下操作利用第二特征提取网络从接收到的语音信号中提取低频特征信息并恢复高频特征信息:利用第二特征提取网络中的低频特征提取网络从接收到的语音信号中提取低频特征信息,所述低频特征信息包含高频特征和低频特征之间的相关信息;利用第二特征提取网络中的高频特征提取网络根据所述低频特征信息恢复高频特征信息并将所述高频特征信息和所述低频特征信息进行融合处理,得到包含高频特征信息和低频特征信息的特征信息。
所述低频特征提取网络包含至少一个第三特征提取模块以及至少一个第四特征提取模块,其中,高频特征信息恢复单元被配置为通过以下操作利用第二特征提取网络中的低频特征提取网络从接收到的语音信号中提取低频特征信息:利用所述至少一个第三特征提取模块,提取接收到的语音信号的语音特征信息;利用所述至少一个第四特征提取模块,根据提取的语音特征信息获得低频特征信息,其中,所述高频特征提取网络包含至少一个第五特征提取模块和至少一个第六特征提取模块,高频特征信息恢复单元被配置为通过以下操作利用第二特征提取网络中的高频特征提取网络根据所述低频特征信息恢复高频特征信息并将所述高频特征信息和低频特征信息进行融合处理:利用所述至少一个第五特征提取模块,根据所述低频特征信息来恢复高频特征信息;利用至少一个第六特征提取模块,将所述高频特征信息和对应的第四特征提取模块提取出的低频特征信息进行融合处理,得到包含所述高频特征信息和所述低频特征信息的特征信息。
所述第二特征提取网络中的至少一个特征提取模块通过至少两种卷积处理参数分别对输入的信息进行特征提取,并输出提取得到的特征信息,和/或所述至少一个第六特征提取模块针对输入的至少两种卷积处理参数分别对应的高频特征信息,分别将高频特征信息和对应的第四特征提取模块按照相应的卷积处理参数提取出的低频特征信息进行融合处理,输出包含高频特征信息和低频特征信息的特征信息。
所述卷积处理参数包括卷积操作对应的卷积核大小。
第二特征提取网络包含至少一个第七特征提取模块以及至少一个第八特征提取模块,高频特征信息恢复单元被配置为通过以下操作利用第二特征提取网络从接收到的语音信号中提取低频特征信息并恢复高频特征信息:利用至少一个第七特征提取模块,提取接收到的语音信号的语音特征信息;利用至少一个第八特征提取模块,根据提取的语音特征信息,提取包含高频特征和低频特征之间的相关信息的低频特征信息,并恢复高频特征信息,得到包含高频特征信息和低频特征信息的特征信息。
所述至少一个第七特征提取模块通过至少两种卷积处理参数分别对输入的信息进行特征提取,并输出提取出的特征信息;和/或所述至少一个第八特征提取模块通过至少两种反卷积处理参数分别对输入的信息提取出低频特征信息,并恢复高频特征信息,得到包含高频特征信息和低频特征信息的特征信息。
输出单元被配置为通过以下操作输出包含所述低频特征信息和高频特征信息的语音信号:利用第二特征融合网络,将第二特征提取网络输出的包含高频特征信息和低频特征信息的特征信息进行融合,获得与包含高频特征信息和低频特征信息的特征信息对应的语音信号;输出该语音信号。
高频特征信息恢复单元可被配置为通过以下操作利用第二特征提取网络从接收到的语音信号中提取低频特征信息并恢复高频特征信息:利用第二特征提取网络中的低频特征提取网络从接收到的语音信号中提取低频特征信息;利用第二特征融合网络中的低频特征融合网络,将所述低频特征提取网络输出的所述低频特征信息进行融合,获得低频修复的低频时域信号。
所述低频特征提取网络可包括至少一个第九特征提取模块,其中,高频特征信息恢复单元可被配置为通过以下操作利用第二特征提取网络中的低频特征提取网络从接收到的语音信号中提取低频特征信息:利用所述至少一个第九特征提取模块,提取接收到的语音信号的低频特征信息。
高频特征信息恢复单元还可被配置为通过以下操作利用第二特征提取网络从接收到的语音信号中提取低频特征信息并恢复高频特征信息:对所述低频修复的低频时域信号进行上采样处理来获得采样率提升的低频时域信号;利用第二特征提取网络中的高频特征提取网络,从所述采样率提升的低频时域信号提取包含高频特征与低频特征之间的相关信息的低频特征信息,并根据所述相关信息从该低频特征信息恢复高频特征信息;利用第二特征融合网络中的高频特征融合网络,将所述高频特征提取网络输出的高频特征信息进行融合,获得高频时域信号。
所述高频特征提取网络可包括至少一个第十特征提取模块,其中,高频特征信息恢复单元可被配置为通过以下操作利用第二特征提取网络中的高频特征提取网络提取包含所述相关信息的低频特征信息并根据所述相关信息恢复高频特征信息:利用所述至少一个第十特征提取模块,从所述采样率提升的低频时域信号提取包含高频特征与低频特征之间的相关信息的低频特征信息,并根据所述相关信息从该低频特征信息恢复高频特征信息。
所述至少一个第九特征提取模块可通过至少两个卷积处理参数分别对输入的信息进行特征提取,并输出提取出的低频特征信息,其中,所述至少一个第十特征提取模块可通过至少两个卷积处理参数分别对输入的信息提取出低频特征信息,并恢复高频特征信息。
输出单元可被配置为通过以下操作输出包含所述低频特征信息和高频特征信息的语音信号:将所述采样率提升的低频时域信号与所述高频时域信号进行时域加和处理来得到最终的语音信号;输出该语音信号。
本发明的一方面在于提供一种存储有程序的计算机可读存储介质,所述程序在被处理器执行时实现以上所述的语音发送方法和/或语音接收方法。
本发明的一方面在于提供一种包括存储有计算机程序的可读介质的计算机,所述计算机程序在被计算机执行时实现以上所述的语音发送方法和/或语音接收方法。
本发明的一方面在于提供一种电子设备,所述电子设备包括存储器和处理器;所述存储器中存储有计算机程序;所述处理器,用于在运行所述计算机程序时执行所述的语音发送方法和/或语音接收方法。
附图说明
从下面结合附图对本申请实施例的详细描述中,本申请的这些和/或其他方面和优点将变得更加清楚并更容易理解,其中:
图1是示出现有技术中将采样到的SWB信号降采样到WB的示意图;
图2是示出根据本发明的示例性实施例的语音发送方法的总流程图;
图3是示出根据本发明的示例性实施例的与图2中所示的语音发送方法对应的基于AI的降采样过程的示例的示意图;
图4是示出根据本发明的示例性实施例的不同卷积核大小覆盖不同尺度的特征的示意图;
图5是示出根据本发明的示例性实施例的与图2中所示的语音发送方法对应的基于AI的降采样过程的另一示例的示意图;
图6是示出根据本发明的示例性实施例的语音接收方法的总流程图;
图7是示出根据本发明的一示例性实施例的语音接收方法的具体流程图;
图8是示出根据本发明的示例性实施例的与图6中所示的语音接收方法对应的基于AI的升采样过程的示例的示意图;
图9是示出根据本发明的另一示例性实施例的语音接收方法的具体流程图;
图10a是示出根据本发明的另一示例性实施例的与图6中所示的语音接收方法对应基于AI的升采样过程的示例的示意图;
图10b是示出根据本发明的另一示例性实施例的语音接收方法的具体流程图;
图10c是示出根据本发明的另一示例性实施例的与图6中所示的语音接收方法对应的基于AI的升采样过程的示例的示意图;
图10d是示出根据本发明的图10b所示出的基于AI的升采样方法与传统升采样方法的对比示意图;
图10e是示出根据本发明的示例性实施例的与图6中所示的语音发送方法对应的基于AI的降采样过程的另一示例的示意图;
如图10f是示出根据本发明的示例性实施例的基于AI的降采样方法与基于AI的升采样方法的整体示意图;
如图10g是示出根据本发明的示例性实施例的基于AI的降采样方法与传统降采样方法的对比示意图;
如图10h是示出根据本发明的示例性实施例的适用于语音通话的联合Scale Down和Scale Up的网络架构;
图11是示出根据本发明的示例性实施例的语音发送装置的配置框图;
图12是示出根据本发明的示例性实施例的低频特征信息提取单元的配置框图;
图13是示出根据本发明的示例性实施例的语音接收装置的配置框图。
具体实施方式
现在将详细参照本公开的示例性实施例,所述实施例的示例在附图中示出,其中,相同的标号始终指示相同的部件。以下将通过参照附图来说明所述实施例,以便于解释本发明。
本申请实施例中,应用本申请实施例提出的语音发送方法或语音接收方法的终端可以但不限于包括手机、PAD、智能手表等能够发送或接收语音的终端设备。终端可以在语音通话场景中按照本申请实施例提出的方法来发送或接收语音,如终端作为语音通话中的发送端,可以按照本申请实施例提出的语音发送方法进行采样率转换,并将语音进行编码后发送给接收端,终端也可以作为语音通话中的接收端,按照本申请实施例提出的语音发送方法对接收到的语音信号对应的码流进行解码得到语音信号,对语音信号进行采样率转换后播放给用户。此外,也可以在其他发送或接收语音的场景中应用本申请实施例提出的方法,本申请不做进一步限制。
本申请实施例中,NB语音信号的采样率可以为8kHz;WB语音信号采样率可以为16kHz;SWB语音信号的采样率可以为32kHz。
将语音信号从较低的采样率转化为较高的采样率的过程可以称为升采样(UpSampling),也可以称为带宽扩展、超分辨、Scale Up,例如将语音信号从WB转换为SWB。
将语音信号从较高的采样率转化为较低的采样率的过程可以降采样(DownSampling),也可以称为Scale Down,例如将语音信号从SWB转换为WB,或者从SWB转换为NB,或者从WB转换为NB。
目前,在语音信号的降采样方面,普遍采用传统信号处理方法,将采集到的SWB信号降采样到WB或NB信号。然而,基于滤波器的信号处理降采样方法需要设计通带和阻带的范围以及过渡带的特性,由于通带频率特性的幅度不平坦以及过渡带频率特性对低频信号的衰减,导致最终获得的WB信号的低频部分相对原始SWB信号的低频部分有一定损失,这类损失会降低声音的可懂度。如图1所示,对于语句中存在的清音发音(例如“ask”、“test”中“s”的发音)而言,发音主要集中在高频部分,但是基于滤波器的信号处理降采样方法会导致高频部分丢失(如图1中左侧的“WB”示图中的横线1以上的部分),并且会损失掉一部分截止频率附近的低频部分(如图1中右侧的“NB”示图中顶部的暗色区域),最终导致降采样结果中的“s”发音被很大程度地削弱,进而造成语音信息丢失。
为了尽可能全部保留SWB信号低频部分的信息,降低信号可懂度的损失,需要采用有别于传统的基于滤波器的信号处理方法。
此外,在带宽扩展方面,现有的带宽扩展算法都是基于盲带宽扩展,即在带宽扩展算法设计中,认为接收端对降采样在发送端是如何进行的是完全未知(即认为原始高带宽信号是如何转换为低带宽信号的过程是未知的),也就是说现有的带宽扩展算法不考虑语音信号降采样端的特性以及高频低频信号的相关性,因此无法达到最优化。但由于移动通信是对称的,在发送端完成降采样,在接收端完成升采样或带宽扩展,如果接收端进行升采样时已知发送端进行降采样处理的算法特点,接收端充分利用降采样的算法特点进行升采样处理,将有助于提升升采样的性能。其中,升采样也被称作带宽扩展或超分辨率(superresolution)。
此外,当利用神经网络实现升采样时,通常在神经网络的每一层中采用单一尺度的卷积操作,但由于语音信号的频率周期特性受不同说话人、年龄、性别、说话内容等很多因素的影响,因此如果在每一层用单一尺度的卷积操作,则无法覆盖语音信号的变化范围,这使得利用神经网络获得语音信号特征信息将无法覆盖多样的语音音频特征,从而降低降采样和升采样的性能。
现有在通话中使用的带宽扩展算法存在如下问题:1)由于频域傅里叶变换和反变换以及频谱幅度等,频域操作无法避免算法延时。这个延时限制了频域带宽扩展作为一个后处理模块应用在已有网络中。2)尽管时域方法避免了时频域模型的时频转换带来的帧叠累加的算法延时。但是模型不是因果处理而且过于复杂和计算开销巨大,因此无法在语音通话中部署。3)网络训练中,尽管时频网络和时频损失函数可以获得更好的时域频域指标结果,但是合适的时域频域损失的加权求和计算很难在多样的数据训练中稳定的获得。而且考虑到编解码损失对运行波形的影响,时域相似性会失效从而时域损失函数很难收敛。4)在语音通话系统中,降采样和上采样(带宽扩展)处理都在用户设备上由软件和算法完成,但现有算法实现只在通话中的接收端实现。
因此,需要一种能够克服以上问题,可使接收端向用户提供更优质的听觉体验的方法和装置。
图2是示出根据本申请示例性实施例的语音发送方法的总流程图。图2中所示的语音发送方法是一种基于神经网络的语音发送方法,其中,所述神经网络可以是卷积神经网络(Convolutional Neural Networks,CNN),也就是说,语音发送方法可以是如图3中所示的基于CNN的语音发送方法,如图3中所示,语音发送方法可包括两个过程:多卷积核尺度特征提取(低频)过程和特征融合过程,其中,多卷积核尺度特征提取也可以称为多滤波器尺度特征提取。多卷积核尺度特征提取(低频)过程由CNN的特征提取层和下采样层构成,特征融合过程由CNN的特征融合层构成。图2中的步骤S110可对应于图3中的多卷积核尺度特征提取(低频)过程,步骤S120可对应于图3中的特征融合过程。但是本发明不限于此,本发明发送方法中的特征提取网络也可用深度神经网络(Deep Neural Networks,DNN)实现。
本申请提出了一种适用于语音通话的联合Scale Down和Scale Up的网络架构(可以称作X-net),在语音通话中充分利用设备上的降采样的行为来提升语音通话质量。模型的训练采用两步训练方法。Scale Down和Scale Up网络分别部署在发送端和接收端,以完成语音信号的降采样和升采样(带宽扩展)。两步训练分别采用不同的损失(loss)函数以提升感知相似度。客观测试结果显示X-net能够比只进行传统带宽扩展(BandwidthExtension,BWE)的方法获得显著提升,主观测试结果显示本申请方案可以提升MOS分数和语音质量。
为了便于理解本发明,在下面的描述中,将根据图3所示的基于CNN的语音发送方法的处理过程来对图2的语音发送方法进行详细描述。
如图2中所示,在步骤S110,利用第一特征提取网络从输入的语音信号中提取低频特征信息。
第一特征提取网络可以由一个或多个特征提取模块组成,多个特征提取模块可以级联。每个特征提取模块可以包含一个或多个卷积操作。其中,每个特征提取模块可以进行多尺度卷积操作,即通过至少两种卷积处理参数分别对输入的信息进行特征提取并输出提取出的特征信息。也就是说,特征处理模块可以包含多个卷积操作,且至少两个卷积操作的卷积处理参数不同,不同的卷积处理参数对应不同的感受野,对应不同的频域分辨能力,即对应不同的采样尺度。其中,上述卷积处理参数可包括与卷积操作对应的卷积核大小,卷积操作的卷积核大小不同,卷积层操作对应的感受野不同,频域分辨能力不同,不同的感受野能够针对不同尺度(也可以称为颗粒度)的特征进行提取,而不是单一尺度的滤波器,因此能够避免不同说话人,年龄,性别,说话内容等很多因素的影响,能够覆盖语音信号的较大的变化范围,利用本申请实施例的方案获得的语音信号的特征信息能够覆盖多样的语音音频特征,从而提高了降采样的性能。
特征提取模块中,一种卷积操作的尺度可以对应一个或多个卷积操作,也就是说,特征提取模块中,各卷积操作的卷积核大小可以各不相同,也可以有至少两个卷积操作的卷积核大小相同,即对应同一尺度。
由于第一特征提取网络需要从输入的语音信号中提取出低频特征信息,第一特征提取网络的输入为发送端采集的语音信号,其输出为低频特征信息,输出的低频特征信息要通过通信网络发送给语音接收端,因此第一特征提取网络的语音采样率是由输入的语音信号的采样率和通信网络支持的带宽决定的,如果发送端采集的语音信号为SWB语音信号,而终端间的通信网络支持WB的带宽,因此第一特征提取网络需要从SWB降采样到NB。
当第一特征提取网络中包含多个特征提取模块,多个特征提取模块的步长可以不同,特征提取模块的步长和采样率对应,例如特征提取模块A和特征提取模块B的步长可以相等,均为1,此时输出和输出的采样率并未发生变化,特征提取模块C的步长为2,其进行了采样率的转换。
其中,若特征提取模块中包含了多个卷积操作,那么各卷积操作的步长可以相同。
本申请实施例提出,通过神经网络(也可以称为神经网络模型、深度学习模型、深度神经网络模型、深度网络模型等等)对待发送给发送端的语音信号进行降采样,可以有效的减少低频特征信息的损失。其中,对输入的数据进行卷积操作可以认为是执行一种滤波处理,例如执行有限脉冲响应(Finite Impulse Response,FIR)滤波。
具体地讲,第一特征提取网络可包含至少一个第一特征提取模块以及至少一个第二特征提取模块。如图3中所示,第一特征提取网络可对应于图3中的多卷积核尺度特征提取(低频)过程,所述至少一个第一特征模块可对应于图3中的特征提取层,所述至少一个第二特征提取模块可对应于图3中的下采样层。可以包括一个或多个特征提取层,也可以包括一个或多个下采样层,图3以包含一个特征提取层和一个下采样层为例进行说明。
具体地讲,利用第一特征提取网络从输入的语音信号中提取低频特征信息的步骤可包括:利用所述至少一个第一特征提取模块提取输入的语音信号的语音特征信息。
其中,第一特征提取网络中的至少一个第一特征模块可通过至少两种卷积处理参数分别对输入的信息进行特征提取并输出提取出的特征信息。其中,所述至少两种卷积处理参数是下述至少两种:与语音信号的邻近采样点间的感受野对应的卷积处理参数、与一个基音长度的感受野对应的卷积处理参数、与至少两个基音长度的感受野对应的卷积处理参数,其中,卷积处理参数可包括与卷积操作对应的卷积核大小。
具体地讲,如图3中所示,可通过图3的特征提取层中的多尺度卷积操作在高频采样率下进行学习来学到语音的高频特征和低频特征,也就是说,所述语音特征信息包括高频特征和低频特征。具体地讲,为了学习不同高低频子带的特性,卷积操作可采用不同的卷积核大小,这是因为不同的卷积核大小等效于不同的频域分辨能力,卷积核大小越大,则可拟合的卷积操作越复杂,进而能够学习的相关性信息就越多越精细。因此,在不同的卷积核大小下,卷积操作可以学习覆盖不同频率分辨率的特性。因此,在图3中,所述特征提取层在不同的卷积核大小下对输入的语音信号进行多尺度特征提取,如图3中所示,在所述特征提取层中存在三种卷积核大小,即8、16和32,因此如图4中所示,不同大小的卷积核能够覆盖输入的语音信号的邻近采样点间的感受野(对应图中的“近邻”)、与一个基音长度的感受野(对应图中的“基音内部”)、与至少两个基音长度的感受野(对应图中的“基音之间”),也就是说,对于需要覆盖邻近的采样点尺度的特征,语音发送方法选择小的卷积核大小8,对于需要覆盖同一基音内部尺度的特征,语音发送方法选择中等的卷积核大小16,而对于需要覆盖不同基音间尺度的特征,语音发送方法选择大的卷积核大小32,然而这仅是示例,语音发送方法可以选择任何能够覆盖邻近采样点间的感受野、与一个基音长度的感受野、与至少两个基音长度的感受野的卷积核大小。
此外,所述特征提取层中的多尺度卷积操作中的每种尺度的卷积操作可以包含至少一个卷积操作,在图3中,所述特征提取层中的多尺度卷积操作中的每种尺度的卷积操作包括两个卷积操作,所述特征提取层中的多尺度卷积操作中的每种尺度的卷积操作的步长可以为1,这样可以使得信号尺度不发生改变,例如,如果输入的语音信号的形状为[640,1],其中,640表示输入的语音信号的长度,1表示的是语音的数量,那么从所述特征提取层输出的形状为3*[640,2],3表示的是特征提取层的输出是三种尺度的数据,即,所述特征提取层中的多尺度卷积操作中的每种尺度的卷积操作输出的信号的形状是[640,2],640表示输出的特征信息的长度,2表示输出的特征信息的数量,由于每种尺度的卷积操作包含两个卷积操作,因此每种尺度的卷积操作输出的特征信息的数量为2。
此后,利用第一特征提取网络从输入的语音信号中提取低频特征信息的步骤包括还包括:利用所述至少一个第二特征提取模块根据提取的语音特征信息获得低频特征信息。
具体地讲,获得低频特征信息的步骤可包括:通过至少两种卷积处理参数分别对输入的信息进行特征提取并输出提取出的特征信息。也就是说,第一特征网络中的至少一个第二特征提取模块可通过至少两种卷积处理参数分别对输入的语音特征信息进行特征提取,并输出提取出的特征信息。其中,所述至少两种卷积处理参数是下述至少两种:与语音信号的邻近采样点间的感受野对应的卷积处理参数、与一个基音长度的感受野对应的卷积处理参数、与至少两个基音长度的感受野对应的卷积处理参数,其中,卷积处理参数可包括与卷积操作对应的卷积核大小。由于以上已参照图3对卷积处理参数进行了详细描述,所以此处不再进行赘述。
如图3中所示,通过将所述下采样层中的卷积操作的步长设置为2对所述语音特征进行卷积来获得包括高频特征和低频特征之间的相关信息的低频特征信息。详细地讲,所述语音发送方法能够利用所述下采样层中的多尺度卷积操作对由步骤S110提取的语音特征进行卷积和采样率转换,换句话说,所述语音发送方法能够通过所述下采样层中的多尺度卷积操作对所述语音特征进行卷积来进行卷积和采样率转换,进而将高频特征和低频特征之间的相关信息融入到低频特征信息中以获得包括该相关信息的低频特征信息,语音信号的接收端能够根据该相关信息,更好的恢复高频特征信息。
此外,在图3中所示出的示例中,语音发送方法在所述至少一个第二特征提取模块中使用与所述至少一个第一特征提取模块中的卷积处理参数相同的卷积处理参数,即,所述下采样层中使用与所述特征提取层中的多尺度卷积操作的卷积操作的数量和尺寸相同的多尺度卷积操作,例如,如图3中所示,所述下采样层中的多尺度卷积操作具有三种卷积核大小,即8、16和32,并且多尺度卷积操作中的每种卷积操作都具有两个卷积操作,且每个卷积操作由一个卷积核实现。因此,如图3中所示,为了通过所述下采样层中的多尺度卷积操作进行卷积和采样率转换,图3中所示出的示例将所述下采样层中的多尺度卷积操作中的每种卷积操作的步长设置为2,因此,如果从所述特征提取层输出的信号的形状是3*[640,2],则从所述下采样层输出的信号的形状是3*[320,2],这里,将滤波器的步长设置为2的原因是SWB的频率是WB的频率的两倍。
此外,虽然语音发送方法在所述至少一个第二特征提取模块中使用与所述至少一个第一特征提取模块中的卷积处理参数相同的卷积处理参数,但是本发明不限于此,所述至少一个第二特征提取模块还可以使用与所述至少一个第一特征提取模块所使用的卷积处理参数不同的卷积处理参数,在此情况下,可通过对所述至少一个第一特征提取模块所提取的各语音特征信息进行融合并输出,来得到适合于被所述至少一个第二特征提取模块处理的语音特征信息的形式,例如,假设图3中的下采样层中的多尺度卷积操作共具有三种卷积核大小,即8、16和32,而下采样层中的多尺度卷积操作共具有两种卷积核大小,即,16和32,在这种情况下,特征提取层可通过对各卷积操作输出的语音特征信息进行融合,并输出给下采样层,下采样层的各卷积操作分别针对特征提取层输出的融合后的特征信息进行多尺度卷积操作。
此后,在步骤S120,将与所述低频特征信息对应的语音信号发送给接收端。
具体地讲,将与所述低频特征信息对应的语音信号发送给接收端的步骤可包括:利用第一特征融合网络,将第一特征提取网络输出的各低频特征信息进行融合来获得与所述低频特征信息对应的语音信号,并将与所述低频特征信息对应的语音信号发送给接收端。在图3所示的示例中,第一特征融合网络对应于图3的特征融合层。下采样层输出了各卷积操作得到的操作结果(即提取出的低频特征信息),特征融合层将下采样层输出的各低频特征信息进行融合。详细地讲,通过步骤S110,所述语音发送方法通过所述下采样层获得了不同尺度下的低频特征信息,此后,所述语音发送方法通过将所述特征融合层中的单个卷积操作的步长设置为1来对通过所述下采样层获得的不同尺度下的低频特征信息进行卷积处理以获得与低频特征信息对应的语音信号,如图3中所示,所述语音发送方法通过所述下采样层获得了三种尺度下的低频特征信息,每种尺度也可以包含多个低频特征信息,此后,所述语音发送方法通过所述特征融合层对所述三种尺度下的所述低频特征信息进行卷积处理以获得最终需要输出的与低频特征信息对应的语音信号,并将该语音信号发送给接收端例如,如果从所述下采样层输出的信号的形状是3*[320,2],则从所述特征融合层输出的信号的形状是[320,1]。
特征融合层输出的信号为低频时域信号,该低频时域信号经过编码后形成码流,发送端将该码流发送给接收端。
此外,图3中示出的基于AI的降采样过程中的特征提取层、下采样层和特征融合层中的卷积操作的数量以及每个卷积操作中包括的卷积核的数量仅是示例性的,本发明不限于此。此外,由于卷积操作个数的设计决定了所述语音发送方法能够学习到的不同频率信息的种类的丰富程度,因此在进行卷积操作个数的设计时,与所述语音发送方法对应的模型应该可以在相应的设备(例如智能手机)上运行,并且所述语音发送方法的移动语音质量测试标准(POLQA)的测试结果还必须优于传统的带宽扩展(Bandwidth Extension,BWE)方法的测试结果。因此,在本发明中,所述特征提取层、所述下采样层和所述特征融合层中的卷积操作的总数量可以根据所述语音发送方法被应用到的平台的性能以及基于移动语音质量测试标准的测试结果而确定。
与传统方法相比,以上描述的与基于AI的降采样过程对应的语音发送方法可以完整地保留输入的语音信号的低频特征,同时将高频特征和低频特征之间的相关信息包括到低频特征信息中,其中,所述特征提取层能完整地保留输入的语音信号中的更多信息,使低频信息更加完整,所述下采样层能够将高频特征与低频特征之间的相关信息融入到低频特征信息以使得高频特征在语音接收装置中能够得到更好的重构。此外,传统的降采样方法由于只使用单尺度的简单滤波器,因此在采样率转换过程中会丢失语音信号的低频信息,使得在语音接收装置中很难恢复完整的低频特征,并且在升采样过程中也难以更好地恢复高频特征。本申请实施例所采用的这两种技术将提高语音的清晰度,从而提升用户的主观体验。
此外,在实际应用中,语音发送方实际上也是另一个语音发送方的语音接收方,所以,所述语音发送方法还可包括:接收从所述另一语音发送方端发送的语音信号;利用第二特征提取网络从接收到的语音信号中提取低频特征信息并恢复高频特征信息;并输出包含所述低频特征信息和所述高频特征信息的语音信号。下面将在描述语音接收方法时对此进行详细描述。
其中,接收从所述另一语音发送方端发送的语音信号,包括:通过通信网络接收发送端发送的语音信号对应的码流,对接收到的码流进行过解码得到语音信号。
此外,虽然在以上描述中以CNN为例描述了基于神经网络的语音发送方法,但是本发明的语音方法所基于的神经网络还可以是深度神经网络(DNN),换句话说,可基于DNN来实现第一特征提取网络和第一特征融合网络,如图5所示,首先将输入的高频语音信号从时域变换到频域,然后通过DNN对频域信息进行从高频到低频的变换得到低频频域信息,最后将低频频域信息从频域变换为时域,得到输出的低频时域信号,将低频时域信号经过编码后的码流发送给接收端。
图6是示出根据本发明的示例性实施例的语音接收方法的总流程图。
在步骤S210,接收发送端发送的语音信号。
在步骤S220,利用第二特征提取网络从接收到的语音信号中提取低频特征信息并恢复高频特征信息。
在步骤S230,输出包含所述低频特征信息和所述高频特征信息的语音信号。
下面将参照图7至图10a至图10g对图6所示出的语音接收方法进行详细描述。
接收端通过通信网络接收到语音信号对应的码流后,对码流进行解码,得到语音信号,然后再利用第二特征网络提取低频特征信息,并恢复高频特征信息。
图7是示出根据本发明的一示例性实施例的语音接收方法的具体流程图。图7中所示的语音接收方法是一种基于神经网络的语音接收方法,其中,所述神经网络可以是卷积神经网络(CNN),也就是说,语音接收方法可以是如图8中所示的基于CNN的语音接收方法。
第二特征提取网络可以由一个或多个特征提取模块组成,多个特征提取模块可以级联。每个特征提取模块可以包含一个或多个卷积操作。其中,每个特征提取模块可以进行多尺度卷积操作,不同的卷积处理参数(如卷积核大小)对应不同的感受野,对应不同的频域分辨能力,因此能够避免不同说话人,年龄,性别,说话内容等很多因素的影响,能够覆盖语音信号的较大的变化范围,利用本申请实施例的方案获得的语音信号的特征信息能够覆盖多样的语音音频特征,从而提高了降采样的性能。
特征提取模块中,一种卷积操作的尺度可以对应一个或多个卷积操作,也就是说,特征提取模块中,各卷积操作的卷积核大小可以各不相同,也可以有至少两个卷积操作的卷积核大小相同,即对应同一尺度。
当第二特征提取网络中包含多个特征提取模块,多个特征提取模块的步长可以不同,特征提取模块的步长和采样率对应,例如特征提取模块A和特征提取模块B的步长可以相等,均为1,此时输出和输出的采样率并未发生变化,特征提取模块C的步长为2,其进行了采样率的转换。
其中,若特征提取模块中包含了多个卷积操作,那么各卷积操作的步长可以相同。
如图8中所示,语音接收方法包括三个过程:多滤波器尺度特征提取(低频)过程、多滤波器尺度特征提取(高频)过程和特征融合过程,其中,多滤波器尺度特征提取也可以称为多卷积核尺度特征提取。多卷积核尺度特征提取(低频)过程由特征提取层和下采样层构成并对应于图7中的步骤S310和S320,多卷积核尺度特征提取(高频)过程由CNN的瓶颈层和CNN的上采样层构成并对应于图7中的步骤S330和S340,特征融合过程由CNN的特征融合层构成并对应于图7中的步骤S350和S360。但是本发明不限于此,本发明接收方法中的特征提取网络也可用DNN(深度神经网络)实现。
为了便于理解本发明,在下面的描述中,将根据图8所示的基于CNN的语音发送方法的处理过程来对图7的语音发送方法进行详细描述。
在步骤S310,通过对接收的语音信号进行数据复制,以扩充接收的语音信号的数据尺度。具体地讲,这一步骤相当于预处理过程,即,对接收的数据进行尺度扩充来获得所述待处理数据,此过程对应于图8中的预处理过程。其中,语音接收方法通过对接收的数据进行间隔重复拷贝来完成所述尺度扩充,例如,如果接收的数据是[0,1,2,3,4],则扩充后的数据是[0,0,1,1,2,2,3,3,4,4],这一步可以完成从低频频域信息到高频频域信息的形式上的对称扩展。
在步骤S320,利用第二特征提取网络中的低频特征提取网络从接收到的语音信号中提取低频特征信息,所述低频特征信息包含高频特征和低频特征之间的相关信息。
具体地讲,所述低频特征提取网络包含至少一个第三特征提取模块以及至少一个第四特征提取模块,如图8中所示,第二特征提取网络可对应于图8中的多卷积核尺度特征提取(低频)过程和多卷积核尺度特征提取(高频)过程,所述低频特征提取网络可对应于图8中的多卷积核尺度特征提取(低频)过程,所述至少一个第三特征模块可对应于图8中的特征提取层,所述至少一个第四特征提取模块可对应于图8中的下采样层。低频特征提取网络可以包含一个或多个特征提取层,也可以包含一个或多个下采样层。具体地讲,利用第二特征提取网络中的低频特征提取网络从接收到的语音信号中提取低频特征信息的步骤可包括:利用所述至少一个第三特征提取模块,提取接收到的语音信号的语音特征信息。其中,所述第二特征提取网络中的至少一个第三特征提取模块通过至少两种卷积处理参数分别对输入的信息进行特征提取,并输出提取得到的特征信息。其中,所述至少两种卷积处理参数是下述至少两种:与语音信号的邻近采样点间的感受野对应的卷积处理参数、与一个基音长度的感受野对应的卷积处理参数、与至少两个基音长度的感受野对应的卷积处理参数,其中,卷积处理参数可包括与卷积操作对应的卷积核大小。由于以上已参照图3对此进行了详细描述,因此此处不再对卷积处理参数进行赘述。
具体地讲,如图8中所示,提取语音特征信息的步骤可包括:通过将所述特征提取层中的多尺度卷积操作的步长设置为1来对扩充后的语音信号进行多尺度特征提取以获得所述语音特征信息。在该步骤中,所述语音接收方法不改变信号的尺度,因此将所述特征提取层中的多尺度卷积操作的步长设置为1。此外,所述特征提取层重用了语音发送方法中的特征提取层的设计,换句话说,语音接收方法中的特征提取层中的卷积操作的数量和尺寸与语音发送方法中的特征提取层的卷积操作的数量和尺寸一致,也就是说,语音接收方法中的特征提取层重用了语音发送方法中的特征提取层的设计,这使得语音接收装置的基于AI的升采样过程能够更好地恢复语音发送装置的基于AI的降采样过程得到的信息。因此,与图3中所示出的基于AI的降采样过程的示意图对应,图8中所示的基于AI的升采样过程中的特征提取层中的多尺度卷积操作也具有三种卷积核大小,即8、16和32,并且多尺度卷积操作中的每种尺度的卷积操作具有两个卷积操作,因此,所述语音接收方法能够通过利用不同尺寸的多尺度卷积操作进行语音特征的提取。例如,如果输入的扩充后的语音信号的形状是[640,1],则由于步长设置为1,从特征提取层输出的形状是3*[640,2]。
其中,特征提取层的每种尺度的卷积操作也可以包含一个卷积操作,或包含两个以上的卷积操作。
此外,利用第二特征提取网络中的低频特征提取网络从接收到的语音信号中提取低频特征信息的步骤还可包括:利用所述至少一个第四特征提取模块,根据提取的语音特征信息获得低频特征信息。其中,所述第二特征提取网络中的至少一个第四特征提取模块通过至少两种卷积处理参数分别对输入的信息进行特征提取,并输出提取得到的特征信息。其中,所述至少两种卷积处理参数是下述至少两种:与语音信号的邻近采样点间的感受野对应的卷积处理参数、与一个基音长度的感受野对应的卷积处理参数、与至少两个基音长度的感受野对应的卷积处理参数,其中,卷积处理参数可包括与卷积操作对应的卷积核大小。由于以上已参照图3对此进行了详细描述,因此此处不再对卷积处理参数进行赘述。
具体地讲,例如,如图8中所示,在获得低频特征信息时,可通过将所述下采样层中的多尺度卷积操作的步长设置为2对所述语音特征进行卷积来获得所述低频特征信息。
此外,所述下采样层重用了语音发送方法中的下采样层的设计,换句话说,语音接收方法中的下采样层中的卷积操作的数量和尺寸与语音发送方法中的下采样层的卷积操作的数量和尺寸一致,也就是说,语音接收方法中的下采样层重用了语音发送方法中的下采样层的设计,这使得语音接收装置的基于AI的升采样过程能够更好地恢复语音发送装置的基于AI的降采样过程得到的信息。相应地,所述语音接收方法在所述下采样层中使用与所述特征提取层中的多尺度卷积操作的卷积操作的数量和尺寸相同的多尺度卷积操作,例如,如图8中所示,所述下采样层中的多尺度卷积操作具有三种卷积核尺寸,即8、16和32,并且多尺度卷积操作中的每种卷积操作都具有两个卷积操作,而每个卷积操作具有一个卷积核。因此,如图8中所示,为了通过所述下采样层中的多尺度卷积操作进行卷积来进行采样率转换,图8中所示出的示例将所述下采样中的多尺度卷积操作中的每种卷积操作的步长设置为2,因此,如果从所述特征提取层输出的信号的形状是3*[640,2],则从所述下采样层输出的信号的形状是3*[320,2],这里,将卷积操作的步长设置为2的原因是SWB的频率是WB的频率的两倍。
以上参照图8所描述的描述的语音接收方法的基于AI的升采样过程中的特征提取层和下采样层与语音发送方法的基于AI的降采样过程中的特征提取层和下采样层在相同的信号尺度上使用相同的卷积操作的尺寸和数量,使得语音接收装置的基于AI的升采样过程和语音接收装置的基于AI的降采样过程能够按照一致的行为方式提取低频信息和从信息恢复信号,这样的操作使得语音接收装置的基于AI的升采样过程能够更好地恢复语音接收装置的基于AI的降采样过程处理得到的信息。
在步骤S330,利用第二特征提取网络中的高频特征提取网络根据所述低频特征信息恢复高频特征信息并将所述高频特征信息和所述低频特征信息进行融合处理,得到包含高频特征信息和低频特征信息的特征信息。
具体地讲,所述高频特征提取网络包含至少一个第五特征提取模块和至少一个第六特征提取模块,如图8中所示,所述高频特征提取网络可对应于图8中的多卷积核尺度特征提取(高频)过程,所述至少一个第五特征模块可对应于图8中的瓶颈层或者图8中的上采样层中的卷积层(图中未示出),所述至少一个第六特征提取模块可对应于图8中的上采样层中的拼接层(图中未示出)。具体地讲,利用第二特征提取网络中的高频特征提取网络根据所述低频特征信息恢复高频特征信息并将所述高频特征信息和低频特征信息进行融合处理的步骤可包括:利用所述至少一个第五特征提取模块,根据所述低频特征信息来恢复高频特征信息。
其中,所述第二特征提取网络中的至少一个第五特征提取模块通过至少两种卷积处理参数分别对输入的信息进行特征提取,并输出提取得到的特征信息。其中,所述至少两种卷积处理参数是下述至少两种:与语音信号的邻近采样点间的感受野对应的卷积处理参数、与一个基音长度的感受野对应的卷积处理参数、与至少两个基音长度的感受野对应的卷积处理参数,其中,卷积处理参数可包括与卷积操作对应的卷积核大小。由于以上已参照图3对此进行了详细描述,因此此处不再对卷积处理参数进行赘述。
具体地讲,如图8中所示,恢复高频特征信息的步骤可包括:通过将所述瓶颈层中的多尺度卷积操作的步长设置为2来对所述低频特征信息进行卷积来获得所述卷积后的特征信息。其中,由下采样层得到的低频特征信息实际上是融入了高频特征与低频特征之间的相关信息的低频特征信息,而所述瓶颈层可进一步融合包含该相关信息的低频特征信息。其中,所述瓶颈层可由瓶颈卷积来实现,例如,可通过将所述瓶颈层中的多尺度卷积操作的步长设置为2,进而对从所述下采样层输出的多尺度的低频特征信息进行处理,其中,可在所述瓶颈层中使用与所述下采样层中的多尺度卷积操作的卷积操作的数量和尺寸相同的多尺度卷积操作,如图8中所示,所述瓶颈层中的多尺度卷积操作中的每种尺度的卷积操作包括两个卷积操作,并且如图8中所示,卷积核大小可以是8、16和32。因此,如图8中所示,如果从下采样层输出的信号的形状是3*[320,2],则从所述瓶颈层输出的信号的形状是3*[160,2]。
其中,特征提取层的每种尺度的的卷积操作也可以包含一个卷积操作,或包含两个以上的卷积操作。
此外,如图8中所示,恢复高频特征信息的步骤还可包括:通过将所述上采样层中的多尺度卷积操作的步长设置为1对所述低频特征信息进行卷积并对卷积的结果进行排列来获得所述高频特征信息。其中,所述语音接收方法在所述上采样层中使用与所述瓶颈层中的多尺度卷积操作的卷积操作的数量和尺寸相同的多尺度卷积操作,如图8中所示,所述上采样层中的卷积层的多尺度卷积操作中的每种卷积操作包括四个卷积操作,而每个卷积操作具有一个卷积核,并且如图8中所示,卷积核大小可以是8、16和32。在该步骤中,语音接收方法首先将所述上采样层中的卷积层的多尺度卷积操作的步长设置为1来对由所述瓶颈层输出的低频特征信息进行卷积处理,例如,如果从所述瓶颈层输出的信号的形状是3*[160,2],则卷积的结果是3*[160,4],这一步卷积处理融合了由所述瓶颈层得到的信息。此后,所述上采样层对卷积的结果进行重新排列,进一步得到重新排列后的高频特征信息,例如,如果卷积的结果是3*[160,4],则重新排列后的高频特征信息是3*[320,2],其中,所述重新排列采用的方法是交叉排列方法,例如,如图8中所示,在每种卷积操作下,卷积的结果都是4组数据(如图7中701所指示的4组数据),诸如第一组[a1,a2,a3,a4...an]、第二组[b1,b2,b3,b4...bn]、第三组[c1,c2,c3,c4...cn]和第四组[d1,d2,d3,d4...dn],则重新排列后的结果是[a1,b1,a2,b2,a3,b3,a4,b4...an,bn]和[c1,d1,c2,d2,c3,d3,c4,d4...cn,dn],也就是说,将第一组和第二组中的数据进行交叉排列,并且将第三组和第四组中的数据进行交叉排列,但是所述重新排列采用的这种方法仅是示例性的,本发明不限于此。
通过以上操作,可恢复高频特征信息。
由于本申请实施例中,发送端发送的语音信号的低频特征信息中更包含了高频特征和低频特征之间的相关信息,利用该相关信息,接收端能够学习到高频特征和低频特征之间的关系,能够更好的根据低频特征恢复出高频特征。
此外,利用第二特征提取网络中的高频特征提取网络根据所述低频特征信息恢复高频特征信息并将所述高频特征信息和低频特征信息进行融合处理的步骤还可包括:利用至少一个第六特征提取模块,将所述高频特征信息和对应的第四特征提取模块提取出的低频特征信息进行融合处理,得到包含所述高频特征信息和所述低频特征信息的特征信息。
其中,所述至少一个第六特征提取模块针对输入的至少两种卷积处理参数分别对应的高频特征信息,分别将高频特征信息和对应的第四特征提取模块按照相应的卷积处理参数提取出的低频特征信息进行融合处理,输出包含高频特征信息和低频特征信息的特征信息。其中,所述至少两种卷积处理参数是下述至少两种:与语音信号的邻近采样点间的感受野对应的卷积处理参数、与一个基音长度的感受野对应的卷积处理参数、与至少两个基音长度的感受野对应的卷积处理参数,其中,卷积处理参数可包括与卷积操作对应的卷积核大小。由于以上已参照图3对此进行了详细描述,因此此处不再对卷积处理参数进行赘述。
具体地讲,如图8中所示,可对所述高频特征信息和所述低频特征信息进行拼接来获得所述包含高低频信息的数据。参见图8,可将所述上采样层中的卷积层输出的高频特征信息与所述下采样层中的卷积处理所输出的低频特征信息进行拼接,进而得到了不同尺度下的包含高低频信息和低频特征信息的特征信息。例如,如果从所述上采样层中的卷积层输出的信号的形状是3*[320,2],并且所述下采样层的卷积处理所输出的信号的形状是3*[320,2],则拼接得到的结果是3*[640,2],这一步是简单地将所述高频特征信息拼接在所述低频特征信息前面来得到包含高低频信息和低频特征信息的特征信息。
在步骤S340,利用第二特征融合网络,将第二特征提取网络输出的包含高频特征信息和低频特征信息的特征信息进行融合,获得与包含高频特征信息和低频特征信息的特征信息对应的语音信号。如图8中所示,可通过将CNN的特征融合层中的单个卷积操作的步长设置为1来对所述包含高低频信息和低频特征信息的特征信息进行融合处理以获得所述输出信号。此外,所述特征融合层重用了语音发送方法中的特征融合层的设计,换句话说,所述特征融合层的卷积操作的数量和尺寸与语音发送方法中的特征融合层的卷积操作的数量和尺寸一致,也就是说,语音接收方法中的特征融合层重用了语音发送方法中的特征融合层的设计。参见图8,所述语音接收方法通过利用所述特征融合层将不同尺度下的包含高低频信息和低频特征信息的特征信息进行卷积处理来得到与包含高频特征信息和低频特征信息的特征信息对应的语音信号。例如,如果输入到所述特征融合层的信号的形状是3*[640,2],则从所述特征融合层输出的信号的形状是[640,1]。
在步骤S350,输出与包含高频特征信息和低频特征信息的特征信息对应的语音信号。
与传统的下采样方法相比,本发明的下采样方法可以更好地保存降采样的信息,并且提升语言可懂度。此外,本发明的联合设计上采样和下采样的方法可更有效地提高SNR值以及POLQA测试结果。
图9是示出根据本发明的另一示例性实施例的语音接收方法的具体流程图。图9中所示的语音接收方法是一种基于神经网络的语音接收方法,其中,所述神经网络可以是卷积神经网络(CNN),也就是说,语音接收方法可以是如图10a中所示的基于CNN的语音接收方法。
如图10a中所示,语音接收方法可包括两个过程:多滤波器尺度特征提取(高频)过程和特征融合过程,其中,多滤波器尺度特征提取可以称为多卷积核尺度特征提取。多卷积核尺度特征提取(高频)过程有CNN的特征提取层和上采样层构成并对应于图9中的步骤S410和S420,特征融合过程由CNN的特征融合层构成并对应于图9中的步骤S430和S440。
但是本发明不限于此,本发明接收方法中的特征提取网络也可用DNN(深度神经网络)实现。
为了便于理解本发明,在下面的描述中,将根据图10a所示的基于CNN的语音发送方法的处理过程来对图9的语音发送方法进行详细描述。
在步骤S410,利用至少一个第七特征提取模块,提取接收到的语音信号的语音特征信息。其中,所述至少一个第七特征模块包括在第二特征提取网络中,此外,第二特征提取网络还包括至少一个第八特征提取模块。如图8中所示,第二特征提取网络可对应于图10a中的多卷积核尺度特征提取(高频)过程,所述至少一个第七特征模块可对应于图10a中的特征提取层,所述至少一个第八特征提取模块可对应于图10a中的上采样层。
具体地讲,所述至少一个第七特征提取模块通过至少两种卷积处理参数分别对输入的信息进行特征提取,并输出提取出的语音特征信息。其中,所述至少两种卷积处理参数是下述至少两种:与语音信号的邻近采样点间的感受野对应的卷积处理参数、与一个基音长度的感受野对应的卷积处理参数、与至少两个基音长度的感受野对应的卷积处理参数,其中,卷积处理参数可包括与卷积操作对应的卷积核大小。由于以上已参照图3对此进行了详细描述,因此此处不再对卷积处理参数进行赘述。
具体地讲,如图8中所示,提取语音特征信息的步骤可包括:通过将所述特征提取层中的多尺度卷积操作的步长设置为1来对接收到的语音信号进行多尺度特征提取以获得所述语音特征信息。在该步骤中,所述语音接收方法不改变信号的尺度,因此将所述特征提取层中的多尺度卷积操作的步长设置为1。此外,所述特征提取层重用了语音发送方法中的特征提取层的设计,换句话说,语音接收方法中的特征提取层中的卷积操作的数量和尺寸与语音发送方法中的特征提取层的卷积操作的数量和尺寸一致,也就是说,语音接收方法中的特征融合层重用了语音发送方法中的特征融合层的设计,这使得语音接收装置能够更好地恢复语音发送装置处理得到的信息。因此,与图3中所示出的基于AI的降采样过程的示意图对应,图10a中所示的基于AI的升采样过程中的特征提取层中的多尺度卷积操作也具有三种卷积核大小,即8、16和32,并且多尺度卷积操作中的每种卷积操作具有两个卷积操作,而每个卷积操作具有一个卷积核,因此,所述语音接收方法能够通过利用不同尺寸的多尺度卷积操作进行语音特征的提取。例如,如果输入的待处理数据的形状是[320,1],则由于步长设置为1,从特征提取层输出的形状是3*[320,2]。
在步骤S420,利用至少一个第八特征提取模块,根据提取的语音特征信息,提取包含高频特征和低频特征之间的相关信息的低频特征信息,并恢复高频特征信息,得到包含高频特征信息和低频特征信息的特征信息。所述至少一个第八特征提取模块通过至少两种反卷积处理参数分别对输入的信息提取出低频特征信息,并恢复高频特征信息,得到包含高频特征信息和低频特征信息的特征信息。其中,所述至少两种卷积处理参数是下述至少两种:与语音信号的邻近采样点间的感受野对应的卷积处理参数、与一个基音长度的感受野对应的卷积处理参数、与至少两个基音长度的感受野对应的卷积处理参数,其中,卷积处理参数可包括与卷积操作对应的卷积核大小。由于以上已参照图3对此进行了详细描述,因此此处不再对卷积处理参数进行赘述。
具体地讲,如图8中所示,在提取包含高频特征信息和低频特征信息的特征信息时,可通过将所述上采样层中的多尺度卷积操作的步长设置为2来对所述语音特征进行反卷积以对输入的信息提取出低频特征信息,并恢复高频特征信息,进而得到包括高频特征信息和低频特征信息的特征信息。在该步骤中,所述语音接收方法需要完成特征的尺度扩展和上采样率恢复,因此所述语音接收方法通过对输入到所述上采样层的数据进行反卷积来实现特征的尺度扩展和上采样率恢复以获得包含高低频信息和低频特征信息的特征信息,其中,所述接收方法方法在所述上采样层中使用与所述特征提取层中的多尺度卷积操作的卷积操作的数量和尺寸相同的多尺度卷积操作,如图10a中所示,如果从特征提取层输出的信号的形状是3*[320,2],则从所述上采样层输出的信号的形状是3*[640,2]。
在步骤S430,利用第二特征融合网络,将第二特征提取网络输出的包含高频特征信息和低频特征信息的特征信息进行融合,获得与包含高频特征信息和低频特征信息的特征信息对应的语音信号。如图10a中所示,可通过将CNN的特征融合层中的单个卷积操作的步长设置为1来对所述包含高低频信息和低频特征信息的特征信息进行融合处理以获得所述输出信号。此外,所述特征融合层重用了语音发送方法中的特征融合层的设计,换句话说,所述特征融合层的卷积操作的数量和尺寸与语音发送方法中的特征融合层的卷积操作的数量和尺寸一致,也就是说,语音接收方法中的特征融合层重用了语音发送方法中的特征融合层的设计。参见图10a,所述语音接收方法通过利用所述特征融合层将不同尺度下的包含高低频信息和低频特征信息的特征信息进行卷积处理来得到与包含高频特征信息和低频特征信息的特征信息对应的语音信号。例如,如果输入到所述特征融合层的信号的形状是3*[640,2],则从所述特征融合层输出的信号的形状是[640,1]。
在步骤S440,输出与包含高频特征信息和低频特征信息的特征信息对应的语音信号。图10b是示出根据本发明的另一示例性实施例的语音接收方法的具体流程图。图10b中所示的语音接收方法是一种基于神经网络的语音接收方法,其中,所述神经网络可以是卷积神经网络(CNN),也就是说,语音接收方法可以是如图10c中所示的基于CNN的语音接收方法。
如图10c中所示,语音接收方法可包括三个过程:低频修复过程、高频预测过程和高低频融合过程,其中,低频修复过程包括了多滤波器尺度特征提取(低频修复)过程和低频特征融合过程,高频预测过程包括了升采样过程和多滤波器尺度特征提取(高频)过程,并且多滤波器尺度特征提取(低频修复)过程和多滤波器尺度特征提取(高频)过程均由CNN的特征提取层构成,其中,低频特征融合过程和高频特征融合过程均由CNN的特征融合层构成。
参照图10b和图10c,多滤波器尺度特征提取(低频修复)过程对应于图10b中的步骤S420,低频特征融合过程对应于图10b中的步骤S430,升采样过程对应于图10b中的步骤S440,多滤波器尺度特征提取(高频)过程对应于图10b中的步骤S450,高频特征融合过程对应于图10b中的步骤S460,高低频融合过程对应于图10b中的步骤S470。但是本发明不限于此,本发明接收方法中的特征提取网络也可用DNN(深度神经网络)实现。
为了便于理解本发明,在下面的描述中,将根据图10c所示的基于CNN的语音接收方法的处理过程来对图10b的语音接收方法进行详细描述。
在步骤S410与图6中的步骤S210的操作相同,即,接收发送端发送的语音信号。
在步骤S420,利用第二特征提取网络中的低频特征提取网络从接收到的语音信号中提取低频特征信息。具体地讲,如图10c中所示,第二特征提取网络可对应于图10c中的多滤波器尺度特征提取(低频修复)过程和多滤波器尺度特征提取(高频)过程,所述低频特征提取网络可对应于图10c中的多滤波器尺度特征提取(低频修复)过程,所述至少一个第九特征提取模块可对应于图10c中的多滤波器尺度特征提取(低频修复)过程中的特征提取层。此外,低频特征提取网络可以包含一个或多个特征提取层。
具体地讲,所述低频特征提取网络包括至少一个第九特征提取模块,利用第二特征提取网络中的低频特征提取网络从接收到的语音信号中提取低频特征信息的步骤包括:利用所述至少一个第九特征提取模块,提取接收到的语音信号的低频特征信息。其中,所述至少一个第九特征提取模块通过至少两个卷积处理参数分别对输入的信息进行特征提取,并输出提取出的低频特征信息。其中,所述至少两种卷积处理参数是下述至少两种:与语音信号的邻近采样点间的感受野对应的卷积处理参数、与一个基音长度的感受野对应的卷积处理参数、与至少两个基音长度的感受野对应的卷积处理参数,其中,卷积处理参数可包括与卷积操作对应的卷积核大小。由于以上已参照图3对此进行了详细描述,因此此处不再对卷积处理参数进行赘述。
具体地讲,如图10c中所示,提取低频特征信息的步骤可包括:通过将多滤波器尺度特征提取(低频修复)过程中的特征提取层中的多尺度卷积操作的步长设置为1,来对接收到的语音信号进行多尺度特征提取以获得低频特征信息。在该步骤中,所述语音接收方法不改变信号的尺度,因此将多滤波器尺度特征提取(低频修复)过程中的特征提取层中的多尺度卷积操作的步长设置为1。
此外,所述特征提取层重用了语音发送方法中的特征提取层的设计,换句话说,语音接收方法的多滤波器尺度特征提取(低频修复)过程中的特征提取层中的卷积操作的数量和尺寸与语音发送方法中的特征提取层的卷积操作的数量和尺寸一致,也就是说,语音接收方法的多滤波器尺度特征提取(低频修复)过程中的特征提取层重用了语音发送方法中的特征提取层的设计,这使得语音接收装置的基于AI的升采样过程能够更好地恢复语音发送装置的基于AI的降采样过程得到的信息。因此,与图3中所示出的基于AI的降采样过程的示意图对应,在图10c中所示的基于AI的升采样过程中,多滤波器尺度特征提取(低频修复)过程中的特征提取层中的多尺度卷积操作也具有三种卷积核大小,即8、16和32,并且多尺度卷积操作中的每种尺度的卷积操作具有两个卷积操作,因此,所述语音接收方法能够通过利用不同尺寸的多尺度卷积操作进行语音特征的提取。例如,如果接收到的语音信号的形状是[320,1],则由于步长设置为1,从多滤波器尺度特征提取(低频修复)过程中的特征提取层输出的形状是3*[320,2]。
其中,多滤波器尺度特征提取(低频修复)过程中的特征提取层的每种尺度的卷积操作也可以包含一个卷积操作,或包含两个以上的卷积操作。
在步骤S430,利用第二特征融合网络中的低频特征融合网络,将所述低频特征提取网络输出的所述低频特征信息进行融合,获得低频修复的低频时域信号。
具体地讲,如图10c中所示,第二特征融合网络可对应于图10c中的低频特征融合过程和高频特征融合过程,所述低频特征融合网络对应于图10c中的低频特征融合过程。如图10c中所示,可通过将低频特征融合过程中的特征融合层中的单个卷积操作的步长设置为1来对从多滤波器尺度特征提取(低频修复)过程中的特征提取层输出的低频特征信息进行融合处理以进行低频修复,进而得到低频部分得到修复的低频时域信号。
此外,低频特征融合过程中的特征融合层重用了语音发送方法中的特征融合层的设计,换句话说,低频特征融合过程中的特征融合层的卷积操作的数量和尺寸与语音发送方法中的特征融合层的卷积操作的数量和尺寸一致,也就是说,在语音接收方法中,低频特征融合过程中的特征融合层重用了语音发送方法中的特征融合层的设计。参见图10c,所述语音接收方法通过利用低频特征融合过程中的特征融合层将不同尺度下的低频特征信息进行卷积处理来得到低频修复的低频时域信号。例如,如果输入到低频特征融合过程中的特征融合层的信号的形状是3*[320,2],则从低频特征融合过程中的特征融合层输出的信号的形状是[320,1]。
以上描述的步骤S420和S430用于从接收到的语音信号恢复低频时域信号,该低频时域信号修复了在编码端对语音信号进行编码时丢失的低频频谱,换句话说,步骤S420和S430实现了低频修复过程。
在步骤S440,对所述低频修复的低频时域信号进行上采样处理来获得采样率提升的低频时域信号。
具体地讲,参照图10c,升采样过程可采用现有技术中的基于数字信号处理的上采样方法对从低频特征融合过程输出的低频得到修复的低频时域信号进行上采样,使得该低频时域信号的采样率得到提升,但是上采样后的时域信号并没有新增高频频率信息,如图10c中所示,如果从低频特征融合过程中的特征融合层输出的信号的形状是[320,1],则从升采样过程输出的信号的形状是[640,1]。
在步骤S450,利用第二特征提取网络中的高频特征提取网络,从所述采样率提升的低频时域信号提取包含高频特征与低频特征之间的相关信息的低频特征信息,并根据所述相关信息从该低频特征信息恢复高频特征信息。
具体地讲,所述高频特征提取网络包括至少一个第十特征提取模块,如图10c中所示,所述高频特征提取网络可对应于图10c中的多滤波器尺度特征提取(高频)过程,所述至少一个第十特征提取模块可对应于图10c中的多滤波器尺度特征提取(高频)过程中的特征提取层。
具体地讲,利用第二特征提取网络中的高频特征提取网络从所述采样率提升的低频时域信号提取包含高频特征与低频特征之间的相关信息的低频特征信息的步骤包括:利用所述至少一个第十特征提取模块,提取接收到的语音信号的包含高频特征与低频特征之间的相关信息的低频特征信息,并恢复高频特征信息。其中,所述至少一个第十特征提取模块通过至少两个卷积处理参数分别对输入的信息提取出低频特征信息,并恢复高频特征信息。其中,所述至少两种卷积处理参数是下述至少两种:与语音信号的邻近采样点间的感受野对应的卷积处理参数、与一个基音长度的感受野对应的卷积处理参数、与至少两个基音长度的感受野对应的卷积处理参数,其中,卷积处理参数可包括与卷积操作对应的卷积核大小。由于以上已参照图3对此进行了详细描述,因此此处不再对卷积处理参数进行赘述。
具体地讲,如图10c中所示,提取低频特征信息并恢复高频特征信息的步骤可包括:通过将多滤波器尺度特征提取(高频)过程中的特征提取层中的多尺度卷积操作的步长设置为1来对所述采样率提升的低频时域信号进行卷积处理,在该过程中,首先从所述采样率提升的低频时域信号得到包含高频特征与低频特征之间的相关信息的低频特征信息,然后根据该相关信息从该低频特征信息预测高频特征信息。
此外,多滤波器尺度特征提取(高频)过程中的特征提取层重用了语音发送方法中的特征提取层的设计,换句话说,多滤波器尺度特征提取(高频)过程中的特征提取层中的卷积操作的数量和尺寸与语音发送方法中的特征提取层的卷积操作的数量和尺寸一致。如图10c中所示,如果所述采样率提升的低频时域信号的形状是[640,1],则由于步长设置为1,从多滤波器尺度特征提取(高频)过程中的特征提取层输出的形状是3*[640,2]。
其中,多滤波器尺度特征提取(高频)过程中的特征提取层的每种尺度的卷积操作也可以包含一个卷积操作,或包含两个以上的卷积操作。
在步骤S460,利用第二特征融合网络中的高频特征融合网络,将所述高频特征提取网络输出的高频特征信息进行融合,获得高频时域信号。
具体地讲,如图10c中所示,所述高频特征融合网络对应于图10c中的高频特征融合过程。如图10c中所示,可通过将高频特征融合过程中的特征融合层中的单个卷积操作的步长设置为1来对从多滤波器尺度特征提取(高频)过程中的特征提取层输出的高频特征信息进行融合处理来得到高频时域信号。
此外,高频特征融合过程中的特征融合层重用了语音发送方法中的特征融合层的设计,换句话说,高频特征融合过程中的特征融合层的卷积操作的数量和尺寸与语音发送方法中的特征融合层的卷积操作的数量和尺寸一致,也就是说,在语音接收方法中,高频特征融合过程中的特征融合层重用了语音发送方法中的特征融合层的设计。参见图10c,所述语音接收方法通过利用高频特征融合过程中的特征融合层将不同尺度下的高频特征信息进行卷积处理来得到高频时域信号。例如,如果输入到高频特征融合过程中的特征融合层的信号的形状是3*[640,2],则从高频特征融合过程中的特征融合层输出的信号的形状是[640,1]。
由于步骤S460中,所述语音接收方法在高频预测过程中集中地预测高频信息,而不是预测整个频带的高低频信息,因此能够很好地恢复语音信号的高频频谱,使得高频频谱更加干净准确。
以上描述的步骤S440至S460用于从由步骤S420和S430恢复的低频时域信号恢复高频时域信号,换句话说,步骤S440至S460实现了高频预测过程。
在步骤S470,将所述采样率提升的低频时域信号与所述高频时域信号进行时域加和处理来得到最终的语音信号,并输出该语音信号。换句话说,步骤S470实现了高低频融合过程。
如图10c中所示,可通过将上采样过程输出的采样率提升的低频时域信号与从高频特征融合过程输出的高频时域信号进行时域加和处理,来最终得到待输出的语音信号,例如,如图10c中所示,如果从上采样过程输出的采样率提升的低频时域信号的形状是[640,1],并且从高频特征融合过程输出的高频时域信号的形状是[640,1],则最终得到待输出的语音信号的形状仍然是[640,1]。
如图10d所示,为图10c所示的基于AI的升采样方法(即语音接收方法)与传统升采样方法的对比,左图为传统升采样方法,右图为基于AI的升采样方法。示意图为语谱图,横轴为时间,纵轴为频率,条纹为语音的频谱分布情况,从图10d中的下方框中的区域可知,图10c所示的基于AI的升采样方法可以修复编码端在对语音信号进行编码时丢失的低频频谱,此外,从图10d中的上方框中的区域可知,由于在预测高频信息时,图10c所示的基于AI的升采样方法能够在高频预测过程中集中地预测高频区域,而不是预测整个频带的高低频信息,因此能够很好地恢复语音信号的高频频谱,使得高频频谱更加干净准确,从而提升语言可懂度。
虽然在以上描述中以CNN为例描述了基于神经网络的语音接收方法,但是本发明的语音方法所基于的神经网络还可以是深度神经网络(DNN),换句话说,可基于DNN来实现第二特征提取网络和第二特征融合网络,如图10e所示,首先将输入的低频语音信号从时域变换到频域,然后通过深度神经网络从低频信息中恢复高频信息得到包含高低频信息的频域信息,最后将频域信息从频域变换为时域,得到输出的高频时域信号。
此外,本申请实施例提出,上述语音信号的发送方法可以称为基于AI的降采样方法,上述语音信号的接收方法可以称为基于AI的升采样方法。在设计基于AI的降采样方法和基于AI的升采样方法,可以进行联合设计,如图10f所示,在训练上述基于AI的降采样方法和基于AI的升采样方法时,可以采用联合训练的方式,例如,对第一特征提取网络、第一特征融合网络、第二特征提取网络、第二特征融合网络进行联合训练,那么接收端的基于AI的升采样过程和发送端的基于AI的降采样过程可以用相同的滤波器学习高频特征和低频特征的对应信息,从而有利于提升性能,能够更好的保留低频特征信息,更好的恢复出高频特征信息,高频特征信息质量更高,用户的听觉效果更好。
如图10g所示,为本申请实施例提出的基于AI的降采样方法与传统降采样方法的对比,左图为传统方法,右图为基于AI的降采样方法。示意图为语谱图,横轴为时间,纵轴为频率,条纹为语音的频谱分布情况,从图中框中区域可知,本申请实施例提出的基于AI的降采样方法可以更好的保存降采样的信息,提升语言可懂度。
以信号域的信噪比(SNR)为评价指标,本申请实施例中的联合设计方法比现有方法有至少0.9dB的性能提升。SNR测试恢复的SWB信号与输入的SWB信号的时域相似程度,SNR值越高越好。经过MOS测试比较,申请实施例中的联合设计方法与传统的BWE方法相比,结果显示联合设计方法有效的提高了主观测试分数。
本申请的一个示例中,如图10h所示,适用于语音通话的联合Scale Down和ScaleUp的网络架构可以称作X-net,X-net模型结构类似自编码器和没有跳转连接的U-net,语音编解码流程可以看作U-net中的瓶颈模块。Scale Down模块(也可以称为Scale Down网络)负责把信号从高带宽信号转换为低带宽信号,类似于信号降采样。Scale Up模块(也可以称为Scale Up网络)负责把信号从低带宽转变为高带宽,类似于带宽扩展和超分辨率。这两个模块在语音通话中被联合使用在发送端和接收端。在语音通话中,算法延迟是一个关键指标,Scale Down和Scale Up被设计为采用因果CNN的端到端时域处理,以避免由于频域处理带来的帧叠累加操作和CNN需要的未来采样点信息。Scale Down网络由级联的线性一维CNN构成,不采用激活函数和偏移权重。Scale Up网络采用级联的一维CNN,采用Swish激活函数。在Scale Up网络前先经过逐采样点复制提升采样率。典型的网络参数如下,其中f,k,s分别代表卷积核数量、卷积核大小和步长。Scale Down和Scale Up中对应的参数设置一致。下面的表1和表2提供了两种典型参数设置:
表1--典型参数1:
Scale Down Scale Up
Layer 1 f=16,k=16,s=1 f=16,k=16,s=1
Layer 2 f=2,k=16,s=2 f=2,k=16,s=1
Layer 3 f=1,k=16,s=1 f=1,k=16,s=1
表2--典型参数2:
Scale Down Scale Up
Layer 1 f=16,k=16,s=1 f=16,k=16,s=1
Layer 2 f=1,k=16,s=1 f=1,k=16,s=1
其中,表中的Layer1/Layer2/Layer3分别表示Scale Down和Scale Up网络中的各个网络层。
本申请提出的适用于语音通话的联合Scale Down和Scale Up的网络架构,此网络结合了Unet和自编码器的优点,同时大幅节省了网络参数和计算开销。在实验中,在同样的网络设置下,X-net的性能超过了盲带宽扩展,在语音通话中,X-net获得了显著的MOS分提升。
本申请提出的网络架构在进行模型训练时,采用两步训练,分别使用不同的损失函数训练X-net以最优化听觉体验和适应通话语音编码。
在第一步训练中,采用时域波形的最小均方误差作为损失函数,在第二步训练中,采用频谱幅度的最小均方误差作为损失函数,频谱幅度由时域信号经过短时傅里叶变换得到。第一步训练得到正确的初始相位用于第二步训练,可避免淡出使用频域损失函数时没有使用频谱相位信息造成的结果与输入的相位不匹配。网络的损失函数是Scale Down和Scale Up网络损失函数的加权和。典型的加权和为两者加权系数都为1。
LossX-net=α·Lossscale down+β·Lossscale up
其中,LossX-net是X-net的损失函数,Lossscale down是Scale Down网络的损失函数,α为其权重,Lossscale up是Scale Up网络的损失函数,β为其权重。
图11是示出根据本发明的示例性实施例的语音发送装置100的框图。
图11中所示的语音发送装置是一种基于神经网络的语音发送装置,其中,所述神经网络可以是卷积神经网络(CNN),也就是说,语音发送装置可以是基于图3中所示的基于CNN的语音发送方法的语音发送装置。如图11中所示,语音发送装置100可包括低频特征信息提取单元110和发送单元120。其中,低频特征信息提取单元110对应于图3中的多滤波器尺度特征提取(低频)过程,发送单元120对应于图3中的特征融合过程。但是本发明不限于此,本发明接收方法中的特征提取网络也可用DNN(深度神经网络)实现。
为了便于理解本发明,在下面的描述中,将根据图3所示的基于CNN的语音发送方法的处理过程来对图11的语音发送装置进行详细描述。
低频特征信息提取单元110可被配置为利用第一特征提取网络从输入的语音信号中提取低频特征信息。
具体地讲,第一特征提取网络可包含至少一个第一特征提取模块以及至少一个第二特征提取模块。如图3中所示,第一特征提取网络可对应于图3中的多卷积核尺度特征提取(低频)过程,所述至少一个第一特征模块可对应于图3中的特征提取层,所述至少一个第二特征提取模块可对应于图3中的下采样层。具体地讲,如图12中所述,低频特征信息提取单元110可包括语音特征信息提取单元111和低频特征信息获得单元112。
其中,语音特征信息提取单元111可被配置为利用所述至少一个第一特征提取模块提取输入的语音信号的语音特征信息。其中,第一特征提取网络中的至少一个第一特征模块可通过至少两种卷积处理参数分别对输入的信息进行特征提取并输出提取出的特征信息,并且所述至少两种卷积处理参数是下述至少两种:与语音信号的邻近采样点间的感受野对应的卷积处理参数、与一个基音长度的感受野对应的卷积处理参数、与至少两个基音长度的感受野对应的卷积处理参数,其中,卷积处理参数可包括与卷积操作对应的卷积核大小。
具体地讲,如图3中所示,语音特征信息提取单元111可通过图3的特征提取层中的多尺度卷积操作在高频采样率下进行学习来学到语音的高频特征和低频特征,也就是说,所述语音特征信息包括高频特征和低频特征。具体地讲,为了学习不同高低频子带的特性,卷积操作可采用不同的卷积核大小,这是因为不同的卷积核大小等效于不同的频域分辨能力,卷积核大小越大,则可拟合的卷积操作越复杂,进而能够学习的相关性信息就越多越精细。因此,在不同的卷积核大小下,卷积操作可以学习覆盖不同频率分辨率的特性。因此,在图3中,所述特征提取层在不同的卷积核大小下对输入的语音信号进行多尺度特征提取,如图3中所示,在所述特征提取层中存在三种卷积核大小,即8、16和32,因此如图4中所示,不同大小的卷积核能够覆盖输入的语音信号的邻近采样点间的感受野、与一个基音长度的感受野、与至少两个基音长度的感受野,也就是说,对于需要覆盖邻近的采样点尺度的特征,可选择小的卷积核大小8,对于需要覆盖同一基音内部尺度的特征,可选择中等的卷积核大小16,而对于需要覆盖不同基音间尺度的特征,可选择大的卷积核大小32,然而这仅是示例,可以选择任何能够覆盖邻近采样点间的感受野、与一个基音长度的感受野、与至少两个基音长度的感受野的卷积核大小。
此外,在图3中,所述特征提取层中的多尺度卷积操作中的每种尺度的卷积操作包括两个卷积操作,而每个卷积操作包括一个卷积核,并且所述特征提取层中的多尺度卷积操作中的每种尺度的卷积操作的步长为1,这样可以使得信号尺度不发生改变,例如,如果输入的语音信号的形状为[640,1],其中,640表示输入的语音信号的长度,1表示的是语音的数量,那么从所述特征提取层输出的形状为3*[640,2],3表示的是特征提取层的输出是三种尺度的数据,即,所述特征提取层中的多尺度卷积操作中的每种尺度的卷积操作输出的信号的形状是[640,2]。
低频特征信息获得单元112可利用所述至少一个第二特征提取模块根据提取的语音特征信息获得低频特征信息。
具体地讲,低频特征信息获得单元112可通过至少两种卷积处理参数分别对输入的信息进行特征提取并输出提取出的特征信息。也就是说,第一特征网络中的至少一个第二特征提取模块可通过至少两种卷积处理参数分别对输入的语音特征信息进行特征提取,并输出提取出的特征信息。其中,所述至少两种卷积处理参数是下述至少两种:与语音信号的邻近采样点间的感受野对应的卷积处理参数、与一个基音长度的感受野对应的卷积处理参数、与至少两个基音长度的感受野对应的卷积处理参数,其中,卷积处理参数可包括与卷积操作对应的卷积核大小。由于以上已参照图3对卷积处理参数进行了详细描述,所以此处不再进行赘述。
如图3中所示,低频特征信息提取单元110通过将所述下采样层中的卷积操作的步长设置为2对所述语音特征进行卷积来获得包括高频特征和低频特征之间的相关信息的低频特征信息。详细地讲,低频特征信息提取单元110能够利用所述下采样层中的多尺度卷积操作对提取的语音特征进行卷积和采样率转换,换句话说,低频特征信息提取单元110能够通过所述下采样层中的多尺度卷积操作对所述语音特征进行卷积来进行卷积和采样率转换,进而将高频特征和低频特征之间的相关信息融入到低频特征信息中以获得包括该相关信息的低频特征信息。
此外,在图3中所示出的示例中,低频特征信息提取单元110可在所述至少一个第二特征提取模块中使用与所述至少一个第一特征提取模块中的卷积处理参数相同的卷积处理参数,即,所述下采样层中使用与所述特征提取层中的多尺度卷积操作的卷积操作的数量和尺寸相同的多尺度卷积操作,例如,如图3中所示,所述下采样层中的多尺度卷积操作具有三种卷积核大小,即8、16和32,并且多尺度卷积操作中的每种卷积操作都具有两个卷积操作,且每个卷积操作由一个卷积核实现。因此,如图3中所示,为了通过所述下采样层中的多尺度卷积操作进行卷积和采样率转换,图3中所示出的示例将所述下采样层中的多尺度卷积操作中的每种卷积操作的步长设置为2,因此,如果从所述特征提取层输出的信号的形状是3*[640,2],则从所述下采样层输出的信号的形状是3*[320,2],这里,将卷积操作的步长设置为2的原因是SWB的频率是WB的频率的两倍。
此外,虽然低频特征信息提取单元110在所述至少一个第二特征提取模块中使用与所述至少一个第一特征提取模块中的卷积处理参数相同的卷积处理参数,但是本发明不限于此,所述至少一个第二特征提取模块还可以使用与所述至少一个第一特征提取模块所使用的卷积处理参数不同的卷积处理参数,在此情况下,可通过对所述至少一个第一特征提取模块所提取的语音特征信息进行融合来得到适合于被所述至少一个第二特征提取模块处理的语音特征信息的形式,例如,假设图3中的下采样层中的多尺度卷积操作共具有三种卷积核大小,即8、16和32,而下采样层中的多尺度卷积操作共具有两种卷积核大小,即,16和32,在这种情况下,特征提取层可通过对从卷积核大小为8的卷积操作输出的语音特征信息进行融合以得到与卷积核大小为16或32的卷积操作所输出的语音特征信息相同形式的语音特征信息。
发送单元120可被配置为将与所述低频特征信息对应的语音信号发送给接收端。
具体地讲,发送单元120可被配置为通过以下操作将与所述低频特征信息对应的语音信号发送给接收端:利用第一特征融合网络,将第一特征提取网络输出的各低频特征信息进行融合来获得与所述低频特征信息对应的语音信号,并将与所述低频特征信息对应的语音信号发送给接收端。在图3所示的示例中,第一特征融合网络对应于图3的特征融合过程。详细地讲,在低频特征信息提取单元110通过所述下采样层获得了不同尺度下的低频特征信息之后,发送单元120可通过将所述特征融合层中的单个卷积操作的步长设置为1来对通过所述下采样层获得的不同尺度下的低频特征信息进行卷积处理以获得与低频特征信息对应的语音信号,如图3中所示,低频特征信息提取单元110可通过所述下采样层获得了三种尺度下的低频特征信息,此后,发送单元120可通过所述特征融合层对所述三种尺度下的所述低频特征信息进行卷积处理以获得最终需要输出的与低频特征信息对应的语音信号,并将该语音信号发送给接收端例如,如果从所述下采样层输出的信号的形状是3*[320,2],则从所述特征融合层输出的信号的形状是[320,1]。
此外,在实际应用中,语音发送装置100实际上也是另一个语音接收装置,所以,语音发送装置100还可包括:接收单元,被配置为接收所述接收端发送的语音信号;高频特征信息恢复单元,被配置为利用第二特征提取网络从接收到的语音信号中提取低频特征信息并恢复高频特征信息;输出单元,被配置为输出包含所述低频特征信息和所述高频特征信息的语音信号。下面将在描述语音接收方法时对此进行详细描述。
此外,虽然在以上描述中以CNN为例描述了基于神经网络的语音发送装置100,但是本发明的语音发送装置100所基于的神经网络还可以是深度神经网络(DNN),换句话说,可基于DNN来实现第一特征提取网络和第一特征融合网络,如图5所示,首先将输入的高频语音信号从时域变换到频域,然后通过DNN对频域信息进行从高频到低频的变换得到低频频域信息,最后将低频频域信息从频域变换为时域,得到输出的低频时域信号。
与传统的语音发送装置相比,以上描述的语音发送装置100可以完整地保留输入的语音信号的低频特征,同时将高频特征融入到低频特征中,其中,所述特征提取层能完整地保留输入的语音信号中的更多信息,使低频信息更加完整,所述下采样层能够将语音信号的高频特征融入到低频特征中以使得高频特征在语音接收装置中能够得到更好的重构。此外,传统的降采样方法由于只使用单尺度的简单卷积操作,因此在采样率转换过程中会丢失语音信号的低频信息,使得在语音接收装置中很难恢复完整的低频特征,并且在升采样过程中也难以更好地恢复高频特征。本发明所采用的这两种技术将提高语音的清晰度,从而提升用户的主观体验。
图13是示出根据本发明的示例性实施例的语音接收装置200的配置框图。
如图13中所示,语音接收装置200可包括接收单元210、高频特征信息恢复单元220和输出单元230。
接收单元210可被配置为接收发送端发送的语音信号。高频特征信息恢复单元220可被配置为利用第二特征提取网络从接收到的语音信号中提取低频特征信息并恢复高频特征信息。输出单元230可输出包含所述低频特征信息和所述高频特征信息的语音信号。
图13中所示的语音接收装置是一种基于神经网络的语音接收装置200,其中,所述神经网络可以是卷积神经网络(CNN),也就是说,语音接收装置200可以对应于如图8中所示的基于CNN的语音接收方法。如图8中所示,语音接收过程包括三个过程:多滤波器尺度特征提取(低频)过程、多滤波器尺度特征提取(高频)过程和特征融合过程,其中,多滤波器尺度特征提取也可以称为多卷积核尺度特征提取。多卷积核尺度特征提取(低频)过程和多卷积核尺度特征提取(高频)过程可对应于高频特征信息恢复单元220,特征融合过程可对应于输出单元230。但是本发明不限于此,本发明的语音接收装置中的特征提取网络也可用DNN(深度神经网络)实现。
在一个实施例中,语音接收装置200还可包括预处理单元(未示出),该预处理单元可被被配置为在利用第二特征提取网络从接收到的语音信号中提取低频特征信息并恢复高频特征信息的步骤之前,通过对接收的语音信号进行数据复制,以扩充接收的语音信号的数据尺度。该预处理单元对应于图8中的预处理过程。其中,预处理单元可通过对接收的数据进行间隔重复拷贝来完成所述尺度扩充,例如,如果接收的数据是[0,1,2,3,4],则扩充后的数据是[0,0,1,1,2,2,3,3,4,4],这一步可以完成从低频频域信息到高频频域信息的形式上的对称扩展。
高频特征信息恢复单元220可被配置为通过以下操作利用第二特征提取网络从接收到的语音信号中提取低频特征信息并恢复高频特征信息:利用第二特征提取网络中的低频特征提取网络从接收到的语音信号中提取低频特征信息,所述低频特征信息包含高频特征和低频特征之间的相关信息。
具体地讲,所述低频特征提取网络包含至少一个第三特征提取模块以及至少一个第四特征提取模块,如图8中所示,第二特征提取网络可对应于图8中的多卷积核尺度特征提取(低频)过程和多卷积核尺度特征提取(高频)过程,所述低频特征提取网络可对应于图8中的多卷积核尺度特征提取(低频)过程,所述至少一个第三特征模块可对应于图8中的特征提取层,所述至少一个第四特征提取模块可对应于图8中的下采样层。低频特征提取网络可以包含一个或多个特征提取层,也可以包含一个或多个下采样层。具体地讲,高频特征信息恢复单元220可被配置为通过以下操作利用第二特征提取网络中的低频特征提取网络从接收到的语音信号中提取低频特征信息:利用所述至少一个第三特征提取模块,提取接收到的语音信号的语音特征信息。其中,所述第二特征提取网络中的至少一个第三特征提取模块通过至少两种卷积处理参数分别对输入的信息进行特征提取,并输出提取得到的特征信息。其中,所述至少两种卷积处理参数是下述至少两种:与语音信号的邻近采样点间的感受野对应的卷积处理参数、与一个基音长度的感受野对应的卷积处理参数、与至少两个基音长度的感受野对应的卷积处理参数,其中,卷积处理参数可包括与卷积操作对应的卷积核大小。由于以上已参照图3对此进行了详细描述,因此此处不再对卷积处理参数进行赘述。
具体地讲,如图8中所示,高频特征信息恢复单元220可通过将所述特征提取层中的多尺度卷积操作的步长设置为1来对扩充后的语音信号进行多尺度特征提取以获得所述语音特征信息。在该处理中,高频特征信息恢复单元220不改变信号的尺度,因此将所述特征提取层中的多尺度卷积操作的步长设置为1。此外,所述特征提取层重用了语音发送方法中的特征提取层的设计,换句话说,语音接收装置200中的特征提取层中的卷积操作的数量和尺寸与语音发送装置100中的特征提取层的卷积操作的数量和尺寸一致,也就是说,语音接收装置200中的特征提取层重用了语音发送装置100中的特征提取层的设计,这使得语音接收装置200的基于AI的升采样过程能够更好地恢复语音发送装置100的基于AI的降采样过程得到的信息。因此,与图3中所示出的基于AI的降采样过程的示意图对应,图8中所示的基于AI的升采样过程中的特征提取层中的多尺度卷积操作也具有三种卷积核大小,即8、16和32,并且多尺度卷积操作中的每种卷积操作具有两个卷积操作,因此,语音接收装置200能够通过利用不同尺寸的多尺度卷积操作进行语音特征的提取。例如,如果输入的扩充后的语音信号的形状是[640,1],则由于步长设置为1,从特征提取层输出的形状是3*[640,2]。其中,特征提取层的每种尺度的的卷积操作也可以包含一个卷积操作,或包含两个以上的卷积操作。
此外,高频特征信息恢复单元220可被配置为通过还要以下操作利用第二特征提取网络中的低频特征提取网络从接收到的语音信号中提取低频特征信息:利用所述至少一个第四特征提取模块,根据提取的语音特征信息获得低频特征信息。其中,所述第二特征提取网络中的至少一个第四特征提取模块通过至少两种卷积处理参数分别对输入的信息进行特征提取,并输出提取得到的特征信息。其中,所述至少两种卷积处理参数是下述至少两种:与语音信号的邻近采样点间的感受野对应的卷积处理参数、与一个基音长度的感受野对应的卷积处理参数、与至少两个基音长度的感受野对应的卷积处理参数,其中,卷积处理参数可包括与卷积操作对应的卷积核大小。由于以上已参照图3对此进行了详细描述,因此此处不再对卷积处理参数进行赘述。
具体地讲,例如,如图8中所示,在获得低频特征信息时,可通过将所述下采样层中的多尺度卷积操作的步长设置为2对所述语音特征进行卷积来获得所述低频特征信息。
此外,所述下采样层重用了语音发送装置100中的下采样层的设计,换句话说,语音接收装置200中的下采样层中的卷积操作的数量和尺寸与语音发送装置100中的下采样层的卷积操作的数量和尺寸一致,也就是说,语音接收装置200中的下采样层重用了语音发送装置100中的下采样层的设计,这使得语音接收装置200的基于AI的升采样过程能够更好地恢复语音发送装置100的基于AI的降采样过程得到的信息。相应地,所述语音接收装置200在所述下采样层中使用与所述特征提取层中的多尺度卷积操作的卷积操作的数量和尺寸相同的多尺度卷积操作,例如,如图8中所示,所述下采样层中的多尺度卷积操作具有三种卷积核尺寸,即8、16和32,并且多尺度卷积操作中的每种卷积操作都具有两个卷积操作,而每个卷积操作具有一个卷积核。因此,如图8中所示,为了通过所述下采样层中的多尺度卷积操作进行卷积来进行采样率转换,图8中所示出的示例将所述下采样中的多尺度卷积操作中的每种卷积操作的步长设置为2,因此,如果从所述特征提取层输出的信号的形状是3*[640,2],则从所述下采样层输出的信号的形状是3*[320,2],这里,将卷积操作的步长设置为2的原因是SWB的频率是WB的频率的两倍。
以上参照图8所描述的描述的语音接收装置200的基于AI的升采样过程中的特征提取层和下采样层与语音发送装置100的基于AI的降采样过程中的特征提取层和下采样层在相同的信号尺度上使用相同的卷积操作的尺寸和数量,使得语音接收装置200的基于AI的升采样过程和语音发送装置200的基于AI的降采样过程能够按照一致的行为方式提取低频信息和从信息恢复信号,这样的操作使得语音接收装置200的基于AI的升采样过程能够更好地恢复语音发送装置100的基于AI的降采样过程处理得到的信息。
高频特征信息恢复单元220被配置为还要通过以下操作利用第二特征提取网络从接收到的语音信号中提取低频特征信息并恢复高频特征信息:利用第二特征提取网络中的高频特征提取网络根据所述低频特征信息恢复高频特征信息并将所述高频特征信息和所述低频特征信息进行融合处理,得到包含高频特征信息和低频特征信息的特征信息。
具体地讲,所述高频特征提取网络包含至少一个第五特征提取模块和至少一个第六特征提取模块,如图8中所示,所述高频特征提取网络可对应于图8中的多卷积核尺度特征提取(高频)过程,所述至少一个第五特征模块可对应于图8中的瓶颈层或者图8中的上采样层中的卷积层(图中未示出),所述至少一个第六特征提取模块可对应于图8中的上采样层中的拼接层(图中未示出)。具体地讲,高频特征信息恢复单元220可被配置为通过以下操作利用第二特征提取网络中的高频特征提取网络根据所述低频特征信息恢复高频特征信息并将所述高频特征信息和低频特征信息进行融合处理:利用所述至少一个第五特征提取模块,根据所述低频特征信息来恢复高频特征信息。
其中,所述第二特征提取网络中的至少一个第五特征提取模块通过至少两种卷积处理参数分别对输入的信息进行特征提取,并输出提取得到的特征信息。其中,所述至少两种卷积处理参数是下述至少两种:与语音信号的邻近采样点间的感受野对应的卷积处理参数、与一个基音长度的感受野对应的卷积处理参数、与至少两个基音长度的感受野对应的卷积处理参数,其中,卷积处理参数可包括与卷积操作对应的卷积核大小。由于以上已参照图3对此进行了详细描述,因此此处不再对卷积处理参数进行赘述。
具体地讲,如图8中所示,高频特征信息恢复单元220可通过将所述瓶颈层中的多尺度卷积操作的步长设置为2来对所述低频特征信息进行卷积来获得所述卷积后的特征信息。其中,由下采样层得到的低频特征信息实际上是融入了高频特征与低频特征之间的相关信息的低频特征信息,而所述瓶颈层可进一步融合包含该相关信息的低频特征信息。其中,所述瓶颈层可由瓶颈卷积来实现,例如,可通过将所述瓶颈层中的多尺度卷积操作的步长设置为2,进而对从所述下采样层输出的多尺度的低频特征信息进行处理,其中,可在所述瓶颈层中使用与所述下采样层中的多尺度卷积操作的卷积操作的数量和尺寸相同的多尺度卷积操作,如图8中所示,所述瓶颈层中的多尺度卷积操作中的每种尺度的卷积操作包括两个卷积操作,并且如图8中所示,卷积核大小可以是8、16和32,。因此,如图8中所示,如果从下采样层输出的信号的形状是3*[320,2],则从所述瓶颈层输出的信号的形状是3*[160,2]。
其中,特征提取层的每种尺度的的卷积操作也可以包含一个卷积操作,或包含两个以上的卷积操作。
此外,如图8中所示,高频特征信息恢复单元220可通过将所述上采样层中的多尺度卷积操作的步长设置为1对所述低频特征信息进行卷积并对卷积的结果进行排列来获得所述高频特征信息。其中,高频特征信息恢复单元220可在所述上采样层中使用与所述瓶颈层中的多尺度卷积操作的卷积操作的数量和尺寸相同的多尺度卷积操作,如图8中所示,所述上采样层中的卷积层的多尺度卷积操作中的每种卷积操作包括四个卷积操作,而每个卷积操作具有一个卷积核,并且如图8中所示,卷积核大小可以是8、16和32。在该过程中,高频特征信息恢复单元220首先将所述上采样层中的卷积层的多尺度卷积操作的步长设置为1来对由所述瓶颈层输出的低频特征信息进行卷积处理,例如,如果从所述瓶颈层输出的信号的形状是3*[160,2],则卷积的结果是3*[160,4],这一步卷积处理融合了由所述瓶颈层得到的信息。此后,所述上采样层对卷积的结果进行重新排列,进一步得到重新排列后的高频特征信息,例如,如果卷积的结果是3*[160,4],则重新排列后的高频特征信息是3*[320,2],其中,所述重新排列采用的方法是交叉排列方法,例如,如图8中所示,在每种卷积操作下,卷积的结果都是4组数据(如图7中701所指示的4组数据),诸如第一组[a1,a2,a3,a4...an]、第二组[b1,b2,b3,b4...bn]、第三组[c1,c2,c3,c4...cn]和第四组[d1,d2,d3,d4...dn],则重新排列后的结果是[a1,b1,a2,b2,a3,b3,a4,b4...an,bn]和[c1,d1,c2,d2,c3,d3,c4,d4...cn,dn],也就是说,将第一组和第二组中的数据进行交叉排列,并且将第三组和第四组中的数据进行交叉排列,但是所述重新排列采用的这种方法仅是示例性的,本发明不限于此。
通过以上操作,高频特征信息恢复单元220可恢复高频特征信息。
由于本申请实施例中,发送端发送的语音信号的低频特征信息中更包含了高频特征和低频特征之间的相关信息,利用该相关信息,接收端能够学习到高频特征和低频特征之间的关系,能够更好的根据低频特征恢复出高频特征。
此外,高频特征信息恢复单元220可被配置为还要通过以下操作利用第二特征提取网络中的高频特征提取网络根据所述低频特征信息恢复高频特征信息并将所述高频特征信息和低频特征信息进行融合处理:利用至少一个第六特征提取模块,将所述高频特征信息和对应的第四特征提取模块提取出的低频特征信息进行融合处理,得到包含所述高频特征信息和所述低频特征信息的特征信息。
其中,所述至少一个第六特征提取模块针对输入的至少两种卷积处理参数分别对应的高频特征信息,分别将高频特征信息和对应的第四特征提取模块按照相应的卷积处理参数提取出的低频特征信息进行融合处理,输出包含高频特征信息和低频特征信息的特征信息。其中,所述至少两种卷积处理参数是下述至少两种:与语音信号的邻近采样点间的感受野对应的卷积处理参数、与一个基音长度的感受野对应的卷积处理参数、与至少两个基音长度的感受野对应的卷积处理参数,其中,卷积处理参数可包括与卷积操作对应的卷积核大小。由于以上已参照图3对此进行了详细描述,因此此处不再对卷积处理参数进行赘述。
具体地讲,如图8中所示,可对所述高频特征信息和所述低频特征信息进行拼接来获得所述包含高低频信息的数据。参见图8,可将所述上采样层中的卷积层输出的高频特征信息与所述下采样层中的卷积处理所输出的低频特征信息进行拼接,进而得到了不同尺度下的包含高低频信息和低频特征信息的特征信息。例如,如果从所述上采样层中的卷积层输出的信号的形状是3*[320,2],并且所述下采样层的卷积处理所输出的信号的形状是3*[320,2],则拼接得到的结果是3*[640,2],这一步是简单地将所述高频特征信息拼接在所述低频特征信息前面来得到包含高低频信息和低频特征信息的特征信息。
输出单元230可利用第二特征融合网络,将第二特征提取网络输出的包含高频特征信息和低频特征信息的特征信息进行融合,获得与包含高频特征信息和低频特征信息的特征信息对应的语音信号,并输出该语音信号。如图8中所示,可通过将CNN的特征融合层中的单个卷积操作的步长设置为1来对所述包含高低频信息和低频特征信息的特征信息进行融合处理以获得所述输出信号。此外,所述特征融合层重用了语音发送方法中的特征融合层的设计,换句话说,所述特征融合层的卷积操作的数量和尺寸与语音发送装置100中的特征融合层的卷积操作的数量和尺寸一致,也就是说,语音接收装置200中的特征融合层重用了语音发送方法中的特征融合层的设计。参见图8,所述语音接收装置200通过利用所述特征融合层将不同尺度下的包含高低频信息和低频特征信息的特征信息进行卷积处理来得到与包含高频特征信息和低频特征信息的特征信息对应的语音信号。例如,如果输入到所述特征融合层的信号的形状是3*[640,2],则从所述特征融合层输出的信号的形状是[640,1]。
与传统的下采样方法相比,本发明的下采样方法可以更好地保存降采样的信息,并且提升语言可懂度。此外,本发明的联合设计上采样和下采样的方法可更有效地提高SNR值以及POLQA测试结果。
以上参照图8和图13描述了语音接收装置200的一个示例性实施例,下面将结合图10a和图13来描述语音接收装置200的另一个示例性实施例。
在该实施例中,语音接收装置200可不包括以上描述的预处理单元,而包括接收单元210、高频特征信息恢复单元220和输出单元230。在此情况下,高频特征信息恢复单元220可被配置为通过以下操作利用第二特征提取网络从接收到的语音信号中提取低频特征信息并恢复高频特征信息:利用至少一个第七特征提取模块,提取接收到的语音信号的语音特征信息。其中,所述至少一个第七特征模块包括在第二特征提取网络中,此外,第二特征提取网络还包括至少一个第八特征提取模块。如图8中所示,第二特征提取网络可对应于图10a中的多卷积核尺度特征提取(高频)过程,所述至少一个第七特征模块可对应于图10a中的特征提取层,所述至少一个第八特征提取模块可对应于图10a中的上采样层。
具体地讲,所述至少一个第七特征提取模块通过至少两种卷积处理参数分别对输入的信息进行特征提取,并输出提取出的语音特征信息。其中,所述至少两种卷积处理参数是下述至少两种:与语音信号的邻近采样点间的感受野对应的卷积处理参数、与一个基音长度的感受野对应的卷积处理参数、与至少两个基音长度的感受野对应的卷积处理参数,其中,卷积处理参数可包括与卷积操作对应的卷积核大小。由于以上已参照图3对此进行了详细描述,因此此处不再对卷积处理参数进行赘述。
具体地讲,如图8中所示,高频特征信息恢复单元220可通过将所述特征提取层中的多尺度卷积操作的步长设置为1来对接收到的语音信号进行多尺度特征提取以获得所述语音特征信息。在该过程中,语音接收装置200不改变信号的尺度,因此将所述特征提取层中的多尺度卷积操作的步长设置为1。此外,所述特征提取层重用了语音发送装置100中的特征提取层的设计,换句话说,语音接收装置200中的特征提取层中的卷积操作的数量和尺寸与语音发送装置100中的特征提取层的卷积操作的数量和尺寸一致,也就是说,语音接收装置200中的特征融合层重用了语音发送装置100中的特征融合层的设计,这使得语音接收装置200能够更好地恢复语音发送装置100处理得到的信息。因此,与图3中所示出的基于AI的降采样过程的示意图对应,图10a中所示的基于AI的升采样过程中的特征提取层中的多尺度卷积操作也具有三种卷积核大小,即8、16和32,并且多尺度卷积操作中的每种卷积操作具有两个卷积操作,而每个卷积操作具有一个卷积核,因此,所述语音接收装置200能够通过利用不同尺寸的多尺度卷积操作进行语音特征的提取。例如,如果输入的待处理数据的形状是[320,1],则由于步长设置为1,从特征提取层输出的形状是3*[320,2]。
高频特征信息恢复单元220可被配置为还要通过以下操作利用第二特征提取网络从接收到的语音信号中提取低频特征信息并恢复高频特征信息:利用至少一个第八特征提取模块,根据提取的语音特征信息,提取包含高频特征和低频特征之间的相关信息的低频特征信息,并恢复高频特征信息,得到包含高频特征信息和低频特征信息的特征信息。所述至少一个第八特征提取模块通过至少两种反卷积处理参数分别对输入的信息提取出低频特征信息,并恢复高频特征信息,得到包含高频特征信息和低频特征信息的特征信息。其中,所述至少两种卷积处理参数是下述至少两种:与语音信号的邻近采样点间的感受野对应的卷积处理参数、与一个基音长度的感受野对应的卷积处理参数、与至少两个基音长度的感受野对应的卷积处理参数,其中,卷积处理参数可包括与卷积操作对应的卷积核大小。由于以上已参照图3对此进行了详细描述,因此此处不再对卷积处理参数进行赘述。
具体地讲,如图8中所示,高频特征信息恢复单元220可在包含高频特征信息和低频特征信息的特征信息时,高频特征信息恢复单元220可通过将所述上采样层中的多尺度卷积操作的步长设置为2来对所述语音特征进行反卷积以对输入的信息提取出低频特征信息,并恢复高频特征信息,进而得到包括高频特征信息和低频特征信息的特征信息。在该过程中,所述语音接收装置200需要完成特征的尺度扩展和上采样率恢复,因此所述语音接收装置200通过对输入到所述上采样层的数据进行反卷积来实现特征的尺度扩展和上采样率恢复以获得包含高低频信息和低频特征信息的特征信息,其中,所述语音接收装置200在所述上采样层中使用与所述特征提取层中的多尺度卷积操作的卷积操作的数量和尺寸相同的多尺度卷积操作,如图10a中所示,如果从特征提取层输出的信号的形状是3*[320,2],则从所述上采样层输出的信号的形状是3*[640,2]。
输出单元230可被配置为通过以下操作输出包含所述低频特征信息和高频特征信息的语音信号:利用第二特征融合网络,将第二特征提取网络输出的包含高频特征信息和低频特征信息的特征信息进行融合,获得与包含高频特征信息和低频特征信息的特征信息对应的语音信号,并输出该语音信号。如图10a中所示,输出单元230可通过将CNN的特征融合层中的单个卷积操作的步长设置为1来对所述包含高低频信息和低频特征信息的特征信息进行融合处理以获得所述输出信号。此外,所述特征融合层重用了语音发送装置100中的特征融合层的设计,换句话说,所述特征融合层的卷积操作的数量和尺寸与语音发送方法中的特征融合层的卷积操作的数量和尺寸一致,也就是说,语音接收装置200中的特征融合层重用了语音发送方法中的特征融合层的设计。参见图10a,所述语音接收装置200通过利用所述特征融合层将不同尺度下的包含高低频信息和低频特征信息的特征信息进行卷积处理来得到与包含高频特征信息和低频特征信息的特征信息对应的语音信号。例如,如果输入到所述特征融合层的信号的形状是3*[640,2],则从所述特征融合层输出的信号的形状是[640,1]。
以上参照图10a和图13描述了语音接收装置200的一个示例性实施例,下面将结合图10c和图13来描述语音接收装置200的又一个示例性实施例。
在该实施例中,高频特征信息恢复单元220不仅可修复低频时域信号,还可以恢复高频时域信号,因此,高频特征信息恢复单元220也可以被称为高低频时域信号生成单元或高低频时域信号恢复单元。
首先,高频特征信息恢复单元220需要从接收到的语音信号恢复低频时域信号,该低频时域信号修复了在编码端对语音信号进行编码时丢失的低频频谱。
具体地讲,高频特征信息恢复单元220可被配置为通过以下操作利用第二特征提取网络从接收到的语音信号中提取低频特征信息并恢复高频特征信息:利用第二特征提取网络中的低频特征提取网络从接收到的语音信号中提取低频特征信息。
如图10c中所示,第二特征提取网络可对应于图10c中的多滤波器尺度特征提取(低频修复)过程和多滤波器尺度特征提取(高频)过程,所述低频特征提取网络可对应于图10c中的多滤波器尺度特征提取(低频修复)过程,所述至少一个第九特征提取模块可对应于图10c中的多滤波器尺度特征提取(低频修复)过程中的特征提取层。此外,低频特征提取网络可以包含一个或多个特征提取层。
具体地讲,所述低频特征提取网络包括至少一个第九特征提取模块,其中,高频特征信息恢复单元220可被配置为通过以下操作利用第二特征提取网络中的低频特征提取网络从接收到的语音信号中提取低频特征信息:利用所述至少一个第九特征提取模块,提取接收到的语音信号的低频特征信息。所述至少一个第九特征提取模块通过至少两个卷积处理参数分别对输入的信息进行特征提取,并输出提取出的低频特征信息。其中,所述至少两种卷积处理参数是下述至少两种:与语音信号的邻近采样点间的感受野对应的卷积处理参数、与一个基音长度的感受野对应的卷积处理参数、与至少两个基音长度的感受野对应的卷积处理参数,其中,卷积处理参数可包括与卷积操作对应的卷积核大小。由于以上已参照图3对此进行了详细描述,因此此处不再对卷积处理参数进行赘述。
具体地讲,如图10c中所示,高频特征信息恢复单元220可通过将多滤波器尺度特征提取(低频修复)过程中的特征提取层中的多尺度卷积操作的步长设置为1,来对接收到的语音信号进行多尺度特征提取以获得低频特征信息。在该过程中,高频特征信息恢复单元220不改变信号的尺度,因此将多滤波器尺度特征提取(低频修复)过程中的特征提取层中的多尺度卷积操作的步长设置为1。
此外,所述特征提取层重用了语音发送装置100中的特征提取层的设计,换句话说,在语音接收装置200中,多滤波器尺度特征提取(低频修复)过程中的特征提取层中的卷积操作的数量和尺寸与语音发送装置100中的特征提取层的卷积操作的数量和尺寸一致,也就是说,语音接收装置200中的多滤波器尺度特征提取(低频修复)过程中的特征提取层重用了语音发送装置100中的特征提取层的设计,这使得语音接收装置200的基于AI的升采样过程能够更好地恢复语音发送装置100的基于AI的降采样过程得到的信息。因此,与图3中所示出的基于AI的降采样过程的示意图对应,在图10c中所示的基于AI的升采样过程中,多滤波器尺度特征提取(低频修复)过程中的特征提取层中的多尺度卷积操作也具有三种卷积核大小,即8、16和32,并且多尺度卷积操作中的每种尺度的卷积操作具有两个卷积操作,因此,语音接收装置200能够通过利用不同尺寸的多尺度卷积操作进行语音特征的提取。例如,如果接收到的语音信号的形状是[320,1],则由于步长设置为1,从多滤波器尺度特征提取(低频修复)过程中的特征提取层输出的形状是3*[320,2]。
其中,多滤波器尺度特征提取(低频修复)过程中的特征提取层的每种尺度的卷积操作也可以包含一个卷积操作,或包含两个以上的卷积操作。
此外,高频特征信息恢复单元220可被配置为通过以下操作利用第二特征提取网络从接收到的语音信号中提取低频特征信息并恢复高频特征信息:利用第二特征融合网络中的低频特征融合网络,将所述低频特征提取网络输出的所述低频特征信息进行融合,获得低频修复的低频时域信号。
具体地讲,如图10c中所示,第二特征融合网络可对应于图10c中的低频特征融合过程和高频特征融合过程,所述低频特征融合网络对应于图10c中的低频特征融合过程。如图10c中所示,高频特征信息恢复单元220可通过将低频特征融合过程中的特征融合层中的单个卷积操作的步长设置为1来对从多滤波器尺度特征提取(低频修复)过程中的特征提取层输出的低频特征信息进行融合处理以进行低频修复,进而得到低频部分得到修复的低频时域信号。
此外,在语音接收装置200中,低频特征融合过程中的特征融合层重用了语音发送装置100中的特征融合层的设计,换句话说,低频特征融合过程中的特征融合层的卷积操作的数量和尺寸与语音发送装置100中的特征融合层的卷积操作的数量和尺寸一致,也就是说,在语音接收装置200中,低频特征融合过程中的特征融合层重用了语音发送装置100中的特征融合层的设计。参见图10c,语音接收装置200通过利用低频特征融合过程中的特征融合层将不同尺度下的低频特征信息进行卷积处理来得到低频修复的低频时域信号。例如,如果输入到低频特征融合过程中的特征融合层的信号的形状是3*[320,2],则从低频特征融合过程中的特征融合层输出的信号的形状是[320,1]。
通过以上操作,高频特征信息恢复单元200从接收到的语音信号恢复了低频时域信号,该低频时域信号修复了在编码端对语音信号进行编码时丢失的低频频谱。
此后,高频特征信息恢复单元220需要从恢复的低频时域信号恢复高频时域信号,下面对此进行详细描述。
具体地讲,高频特征信息恢复单元200还被配置为通过以下操作利用第二特征提取网络从接收到的语音信号中提取低频特征信息并恢复高频特征信息:对所述低频修复的低频时域信号进行上采样处理来获得采样率提升的低频时域信号。
具体地讲,参照图10c,升采样过程可采用现有技术中的基于数字信号处理的上采样方法对从低频特征融合过程输出的低频得到修复的低频时域信号进行上采样,使得该低频时域信号的采样率得到提升,但是上采样后的时域信号并没有新增高频频率信息,如图10c中所示,如果从低频特征融合过程中的特征融合层输出的信号的形状是[320,1],则从升采样过程输出的信号的形状是[640,1]。
此外,高频特征信息恢复单元200还被配置为通过以下操作利用第二特征提取网络从接收到的语音信号中提取低频特征信息并恢复高频特征信息:利用第二特征提取网络中的高频特征提取网络,从所述采样率提升的低频时域信号提取包含高频特征与低频特征之间的相关信息的低频特征信息,并根据所述相关信息从该低频特征信息恢复高频特征信息。
具体地讲,所述高频特征提取网络包括至少一个第十特征提取模块,如图10c中所示,所述高频特征提取网络可对应于图10c中的多滤波器尺度特征提取(高频)过程,所述至少一个第十特征提取模块可对应于图10c中的多滤波器尺度特征提取(高频)过程中的特征提取层。
具体地讲,高频特征信息恢复单元220可被配置为通过以下操作利用第二特征提取网络中的高频特征提取网络提取包含所述相关信息的低频特征信息并根据所述相关信息恢复高频特征信息:利用所述至少一个第十特征提取模块,提取接收到的语音信号的包含高频特征与低频特征之间的相关信息的低频特征信息,并恢复高频特征信息。其中,所述至少一个第十特征提取模块通过至少两个卷积处理参数分别对输入的信息提取出低频特征信息,并恢复高频特征信息。其中,所述至少两种卷积处理参数是下述至少两种:与语音信号的邻近采样点间的感受野对应的卷积处理参数、与一个基音长度的感受野对应的卷积处理参数、与至少两个基音长度的感受野对应的卷积处理参数,其中,卷积处理参数可包括与卷积操作对应的卷积核大小。由于以上已参照图3对此进行了详细描述,因此此处不再对卷积处理参数进行赘述。
具体地讲,如图10c中所示,高频特征信息恢复单元220可通过以下操作提取低频特征信息并恢复高频特征信息:通过将多滤波器尺度特征提取(高频)过程中的特征提取层中的多尺度卷积操作的步长设置为1来对所述采样率提升的低频时域信号进行卷积处理,在该过程中,高频特征信息恢复单元220可首先从所述采样率提升的低频时域信号得到包含高频特征与低频特征之间的相关信息的低频特征信息,然后根据该相关信息从该低频特征信息预测高频特征信息。
此外,多滤波器尺度特征提取(高频)过程中的特征提取层重用了语音发送装置100中的特征提取层的设计,换句话说,多滤波器尺度特征提取(高频)过程中的特征提取层中的卷积操作的数量和尺寸与语音发送装置100中的特征提取层的卷积操作的数量和尺寸一致。如图10c中所示,如果所述采样率提升的低频时域信号的形状是[640,1],则由于步长设置为1,从多滤波器尺度特征提取(高频)过程中的特征提取层输出的形状是3*[640,2]。
其中,多滤波器尺度特征提取(高频)过程中的特征提取层的每种尺度的卷积操作也可以包含一个卷积操作,或包含两个以上的卷积操作。
此外,高频特征信息恢复单元220还可被配置为通过以下操作利用第二特征提取网络从接收到的语音信号中提取低频特征信息并恢复高频特征信息:利用第二特征融合网络中的高频特征融合网络,将所述高频特征提取网络输出的高频特征信息进行融合,获得高频时域信号。
具体地讲,如图10c中所示,所述高频特征融合网络对应于图10c中的高频特征融合过程。如图10c中所示,高频特征信息恢复单元220可通过将高频特征融合过程中的特征融合层中的单个卷积操作的步长设置为1来对从多滤波器尺度特征提取(高频)过程中的特征提取层输出的高频特征信息进行融合处理来得到高频时域信号。
此外,高频特征融合过程中的特征融合层重用了语音发送装置100中的特征融合层的设计,换句话说,高频特征融合过程中的特征融合层的卷积操作的数量和尺寸与语音发送装置100中的特征融合层的卷积操作的数量和尺寸一致,也就是说,在语音接收装置200中,高频特征融合过程中的特征融合层重用了语音发送装置100中的特征融合层的设计。参见图10c,语音接收装置200通过利用高频特征融合过程中的特征融合层将不同尺度下的高频特征信息进行卷积处理来得到高频时域信号。例如,如果输入到高频特征融合过程中的特征融合层的信号的形状是3*[640,2],则从高频特征融合过程中的特征融合层输出的信号的形状是[640,1]。
通过以上操作,高频特征信息恢复单元200从恢复的低频时域信号恢复了高频时域信号。
在以上过程中,语音接收装置200在高频预测过程中集中地预测高频信息,而不是预测整个频带的高低频信息,因此能够很好地恢复语音信号的高频频谱,使得高频频谱更加干净准确。
输出单元230可被配置为通过以下操作输出包含所述低频特征信息和高频特征信息的语音信号:将所述采样率提升的低频时域信号与所述高频时域信号进行时域加和处理来得到最终的语音信号,并输出该语音信号。
如图10c中所示,输出单元230可可通过将上采样过程输出的采样率提升的低频时域信号与从高频特征融合过程输出的高频时域信号进行时域加和处理,来最终得到待输出的语音信号,例如,如图10c中所示,如果从上采样过程输出的采样率提升的低频时域信号的形状是[640,1],并且从高频特征融合过程输出的高频时域信号的形状是[640,1],则最终得到待输出的语音信号的形状仍然是[640,1]。
语音接收装置200可通过以上描述的基于AI的升采样过程可以修复语音发送装置100在对语音信号进行编码时丢失的低频频谱,此外,由于在预测高频信息时,语音接收装置200能够在高频预测过程中集中地预测高频区域,而不是预测整个频带的高低频信息,因此能够很好地恢复语音信号的高频频谱,使得高频频谱更加干净准确,从而提升语言可懂度。
以上所描述的语音发送方法和装置以及语音接收方法和装置利用基于AI的降采样方法替换了传统的降采样方法,并且利用基于AI的升采样方法替换了传统的基于深度学习的BWE方法,从而使得接收端能够恢复更好的高频信息,从而给用户提供更优质的视听体验。此外,由于发送端所采用的基于AI的降采样方法的模型与接收端所采样的基于AI的升采样方法的模型可联合训练,因此接收端的基于AI的升采样过程中的特征提取部分可以复用发送端的基于AI的降采样过程中的特征提取部分,进而接收端的基于AI的升采样过程和发送端的基于AI的降采样过程可以用相同的卷积操作学习高频特征和低频特征的对应信息,从而有利于提升性能。
此外,本发明还提供了一种存储有程序的计算机可读存储介质,所述程序在被处理器执行时实现以上所述的语音发送方法和/或语音接收方法。
此外,本发明的一方面在于提供一种包括存储有计算机程序的可读介质的计算机,所述计算机程序在被计算机执行时实现以上所述的语音发送方法和/或语音接收方法。
本发明的一方面在于提供一种电子设备,所述电子设备包括存储器和处理器;所述存储器中存储有计算机程序;所述处理器,用于在运行所述计算机程序时执行所述的语音发送方法和/或语音接收方法。
以上描述了本发明的各示例性实施例,应理解,上述描述仅是示例性的,并非穷尽性的,本发明不限于所披露的各示例性实施例。在不偏离本发明的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此,本发明的保护范围应该以权利要求的范围为准。

Claims (27)

1.一种语音发送方法,包括:
利用第一特征提取网络从输入的语音信号中提取低频特征信息;以及
将与所述低频特征信息对应的语音信号发送给接收端。
2.如权利要求1所述的语音发送方法,其中,第一特征提取网络包含至少一个第一特征提取模块以及至少一个第二特征提取模块,
其中,利用第一特征提取网络从输入的语音信号中提取低频特征信息的步骤包括:
利用所述至少一个第一特征提取模块,提取输入的语音信号的语音特征信息;
利用所述至少一个第二特征提取模块,根据提取的语音特征信息获得低频特征信息。
3.如权利要求2所述的语音发送方法,其中,第一特征提取网络中的至少一个特征提取模块通过至少两种卷积处理参数分别对输入的信息进行特征提取,并输出提取出的特征信息。
4.如权利要求3所述的语音发送方法,其中,所述至少两种卷积处理参数包括下述至少两种:
与语音信号的邻近采样点间的感受野对应的卷积处理参数、与一个基音长度的感受野对应的卷积处理参数、与至少两个基音长度的感受野对应的卷积处理参数。
5.如权利要求4所述的语音发送方法,其中,所述卷积处理参数包括与卷积操作对应的卷积核大小。
6.如权利要求1所述的语音发送方法,其中,将与所述低频特征信息对应的语音信号发送给接收端的步骤包括:
利用第一特征融合网络,将第一特征提取网络输出的各低频特征信息进行融合来获得与所述低频特征信息对应的语音信号;
将与所述低频特征信息对应的语音信号发送给接收端。
7.如权利要求1所述的语音发送方法,其中,第一特征提取网络提取出的所述低频特征信息中包括高频特征和低频特征之间的相关信息。
8.如权利要求1所述的语音发送方法,还包括:
接收所述接收端发送的语音信号;
利用第二特征提取网络从接收到的语音信号中提取低频特征信息并恢复高频特征信息;
输出包含所述低频特征信息和所述高频特征信息的语音信号。
9.一种语音接收方法,包括:
接收发送端发送的语音信号;
利用第二特征提取网络从接收到的语音信号中提取低频特征信息并恢复高频特征信息;
输出包含所述低频特征信息和所述高频特征信息的语音信号。
10.如权利要求9所述的语音接收方法,还包括:在利用第二特征提取网络从接收到的语音信号中提取低频特征信息并恢复高频特征信息的步骤之前,通过对接收的语音信号进行数据复制,以扩充接收的语音信号的数据尺度。
11.如权利要求9或10所述的语音接收方法,其中,利用第二特征提取网络从接收到的语音信号中提取低频特征信息并恢复高频特征信息的步骤包括:
利用第二特征提取网络中的低频特征提取网络从接收到的语音信号中提取低频特征信息,所述低频特征信息包含高频特征和低频特征之间的相关信息;
利用第二特征提取网络中的高频特征提取网络根据所述低频特征信息恢复高频特征信息并将所述高频特征信息和所述低频特征信息进行融合处理,得到包含高频特征信息和低频特征信息的特征信息。
12.如权利要求11所述的语音接收方法,其中,所述低频特征提取网络包含至少一个第三特征提取模块以及至少一个第四特征提取模块,
其中,利用第二特征提取网络中的低频特征提取网络从接收到的语音信号中提取低频特征信息的步骤包括:利用所述至少一个第三特征提取模块,提取接收到的语音信号的语音特征信息;利用所述至少一个第四特征提取模块,根据提取的语音特征信息获得低频特征信息,
其中,所述高频特征提取网络包含至少一个第五特征提取模块和至少一个第六特征提取模块,
其中,利用第二特征提取网络中的高频特征提取网络根据所述低频特征信息恢复高频特征信息并将所述高频特征信息和低频特征信息进行融合处理的步骤包括:利用所述至少一个第五特征提取模块,根据所述低频特征信息来恢复高频特征信息;利用至少一个第六特征提取模块,将所述高频特征信息和对应的第四特征提取模块提取出的低频特征信息进行融合处理,得到包含所述高频特征信息和所述低频特征信息的特征信息。
13.如权利要求12所述的语音接收方法,其中,所述第二特征提取网络中的至少一个特征提取模块通过至少两种卷积处理参数分别对输入的信息进行特征提取,并输出提取得到的特征信息;
和/或
所述至少一个第六特征提取模块针对输入的至少两种卷积处理参数分别对应的高频特征信息,分别将高频特征信息和对应的第四特征提取模块按照相应的卷积处理参数提取出的低频特征信息进行融合处理,输出包含高频特征信息和低频特征信息的特征信息。
14.如权利要求13所述的语音接收方法,其中,所述卷积处理参数包括卷积操作对应的卷积核大小。
15.如权利要求9所述的语音接收方法,其中,第二特征提取网络包含至少一个第七特征提取模块以及至少一个第八特征提取模块,
其中,利用第二特征提取网络从接收到的语音信号中提取低频特征信息并恢复高频特征信息的步骤包括:
利用至少一个第七特征提取模块,提取接收到的语音信号的语音特征信息;
利用至少一个第八特征提取模块,根据提取的语音特征信息,提取包含高频特征和低频特征之间的相关信息的低频特征信息,并恢复高频特征信息,得到包含高频特征信息和低频特征信息的特征信息。
16.如权利要求15所述的语音接收方法,其中,所述至少一个第七特征提取模块通过至少两种卷积处理参数分别对输入的信息进行特征提取,并输出提取出的语音特征信息;
和/或
所述至少一个第八特征提取模块通过至少两种反卷积处理参数分别对输入的信息提取出低频特征信息,并恢复高频特征信息,得到包含高频特征信息和低频特征信息的特征信息。
17.如权利要求9所述的语音接收方法,其中,输出包含所述低频特征信息和高频特征信息的语音信号的步骤包括:
利用第二特征融合网络,将第二特征提取网络输出的包含高频特征信息和低频特征信息的特征信息进行融合,获得与包含高频特征信息和低频特征信息的特征信息对应的语音信号;
输出该语音信号。
18.如权利要求9所述的语音接收方法,其中,利用第二特征提取网络从接收到的语音信号中提取低频特征信息并恢复高频特征信息的步骤包括:
利用第二特征提取网络中的低频特征提取网络从接收到的语音信号中提取低频特征信息;
利用第二特征融合网络中的低频特征融合网络,将所述低频特征提取网络输出的所述低频特征信息进行融合,获得低频修复的低频时域信号。
19.如权利要求18所述的语音接收方法,其中,所述低频特征提取网络包括至少一个第九特征提取模块,
其中,利用第二特征提取网络中的低频特征提取网络从接收到的语音信号中提取低频特征信息的步骤包括:利用所述至少一个第九特征提取模块,提取接收到的语音信号的低频特征信息。
20.如权利要求19所述的语音接收方法,其中,利用第二特征提取网络从接收到的语音信号中提取低频特征信息并恢复高频特征信息的步骤还包括:
对所述低频修复的低频时域信号进行上采样处理来获得采样率提升的低频时域信号;
利用第二特征提取网络中的高频特征提取网络,从所述采样率提升的低频时域信号提取包含高频特征与低频特征之间的相关信息的低频特征信息,并根据所述相关信息从该低频特征信息恢复高频特征信息;
利用第二特征融合网络中的高频特征融合网络,将所述高频特征提取网络输出的高频特征信息进行融合,获得高频时域信号。
21.如权利要求20所述的语音接收方法,其中,所述高频特征提取网络包括至少一个第十特征提取模块,
其中,利用第二特征提取网络中的高频特征提取网络从所述采样率提升的低频时域信号提取包含高频特征与低频特征之间的相关信息的低频特征信息并根据所述相关信息从该低频特征信息恢复高频特征信息的步骤包括:利用所述至少一个第十特征提取模块,从所述采样率提升的低频时域信号提取包含高频特征与低频特征之间的相关信息的低频特征信息,并根据所述相关信息从该低频特征信息恢复高频特征信息。
22.如权利要求21所述的语音接收方法,其中,所述至少一个第九特征提取模块通过至少两个卷积处理参数分别对输入的信息进行特征提取,并输出提取出的低频特征信息,
其中,所述至少一个第十特征提取模块通过至少两个卷积处理参数分别对输入的信息提取出低频特征信息,并恢复高频特征信息。
23.如权利要求22所述的语音接收方法,其中,输出包含所述低频特征信息和所述高频特征信息的语音信号的步骤包括:
将所述采样率提升的低频时域信号与所述高频时域信号进行时域加和处理来得到最终的语音信号;
输出该语音信号。
24.一种语音发送装置,包括:
低频特征信息提取单元,被配置为利用第一特征提取网络从输入的语音信号中提取低频特征信息;以及
发送单元,被配置为将与所述低频特征信息对应的语音信号发送给接收端。
25.一种语音接收装置,包括:
接收单元,被配置为接收发送端发送的语音信号;
高频特征信息恢复单元,被配置为利用第二特征提取网络从接收到的语音信号中提取低频特征信息并恢复高频特征信息;
输出单元,输出包含所述低频特征信息和所述高频特征信息的语音信号。
26.一种电子设备,所述电子设备包括存储器和处理器;
所述存储器中存储有计算机程序;
所述处理器,用于在运行所述计算机程序时执行权利要求1至23中任一项所述的方法。
27.一种存储有程序的计算机可读存储介质,所述程序在被处理器执行时实现如权利要求1-23中任一项所述的方法。
CN202010988943.5A 2019-11-29 2020-09-18 语音发送方法和装置以及语音接收方法和装置、电子设备 Pending CN112885363A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
CN201911196782X 2019-11-29
CN201911196782 2019-11-29
CN2020108140655 2020-08-13
CN202010814065 2020-08-13

Publications (1)

Publication Number Publication Date
CN112885363A true CN112885363A (zh) 2021-06-01

Family

ID=76042846

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010988943.5A Pending CN112885363A (zh) 2019-11-29 2020-09-18 语音发送方法和装置以及语音接收方法和装置、电子设备

Country Status (1)

Country Link
CN (1) CN112885363A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113327604A (zh) * 2021-07-02 2021-08-31 因诺微科技(天津)有限公司 一种超短语音语种识别方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4757517A (en) * 1986-04-04 1988-07-12 Kokusai Denshin Denwa Kabushiki Kaisha System for transmitting voice signal
CN101568959A (zh) * 2006-11-17 2009-10-28 三星电子株式会社 用带宽扩展进行编码和/或解码的方法、介质和设备
KR20120071866A (ko) * 2010-12-23 2012-07-03 주식회사 케이티 저대역 오디오 신호를 디코딩하는 통신 단말기
CN102543086A (zh) * 2011-12-16 2012-07-04 大连理工大学 一种基于音频水印的语音带宽扩展的装置和方法
US20130132099A1 (en) * 2010-12-14 2013-05-23 Panasonic Corporation Coding device, decoding device, and methods thereof
CN105070293A (zh) * 2015-08-31 2015-11-18 武汉大学 基于深度神经网络的音频带宽扩展编码解码方法及装置
WO2016121234A1 (ja) * 2015-01-30 2016-08-04 株式会社テムコジャパン 音声による自動送受切り替え方法及び装置
CN106856623A (zh) * 2017-02-20 2017-06-16 鲁睿 基带语音信号通讯噪声抑制方法及系统
US20180068675A1 (en) * 2016-09-07 2018-03-08 Google Inc. Enhanced multi-channel acoustic models
CN108074578A (zh) * 2016-11-17 2018-05-25 中国科学院声学研究所 一种音频水印的传输与信息交互的系统及方法
KR20190001278A (ko) * 2017-06-27 2019-01-04 한양대학교 산학협력단 인공 잡음에 강인한 음성 대역폭 확장을 위한 심화 신경망 앙상블
CN109710800A (zh) * 2018-11-08 2019-05-03 北京奇艺世纪科技有限公司 模型生成方法、视频分类方法、装置、终端及存储介质
CN110136731A (zh) * 2019-05-13 2019-08-16 天津大学 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4757517A (en) * 1986-04-04 1988-07-12 Kokusai Denshin Denwa Kabushiki Kaisha System for transmitting voice signal
CN101568959A (zh) * 2006-11-17 2009-10-28 三星电子株式会社 用带宽扩展进行编码和/或解码的方法、介质和设备
US20130132099A1 (en) * 2010-12-14 2013-05-23 Panasonic Corporation Coding device, decoding device, and methods thereof
KR20120071866A (ko) * 2010-12-23 2012-07-03 주식회사 케이티 저대역 오디오 신호를 디코딩하는 통신 단말기
CN102543086A (zh) * 2011-12-16 2012-07-04 大连理工大学 一种基于音频水印的语音带宽扩展的装置和方法
WO2016121234A1 (ja) * 2015-01-30 2016-08-04 株式会社テムコジャパン 音声による自動送受切り替え方法及び装置
CN105070293A (zh) * 2015-08-31 2015-11-18 武汉大学 基于深度神经网络的音频带宽扩展编码解码方法及装置
US20180068675A1 (en) * 2016-09-07 2018-03-08 Google Inc. Enhanced multi-channel acoustic models
CN108074578A (zh) * 2016-11-17 2018-05-25 中国科学院声学研究所 一种音频水印的传输与信息交互的系统及方法
CN106856623A (zh) * 2017-02-20 2017-06-16 鲁睿 基带语音信号通讯噪声抑制方法及系统
KR20190001278A (ko) * 2017-06-27 2019-01-04 한양대학교 산학협력단 인공 잡음에 강인한 음성 대역폭 확장을 위한 심화 신경망 앙상블
CN109710800A (zh) * 2018-11-08 2019-05-03 北京奇艺世纪科技有限公司 模型生成方法、视频分类方法、装置、终端及存储介质
CN110136731A (zh) * 2019-05-13 2019-08-16 天津大学 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XING FAN: "Joint encoding of the waveform and speech recognition features using a transform codec", 《2011 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》, 11 July 2011 (2011-07-11) *
彭宝新: "基于DSP的多媒体低频信道通信终端的设计与研究", 《中国优秀硕士学位论文全文数据库》, 15 July 2014 (2014-07-15) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113327604A (zh) * 2021-07-02 2021-08-31 因诺微科技(天津)有限公司 一种超短语音语种识别方法

Similar Documents

Publication Publication Date Title
JP2019531494A (ja) 音声品質評価方法及び装置
Nikzad et al. Deep residual-dense lattice network for speech enhancement
CN111326168B (zh) 语音分离方法、装置、电子设备和存储介质
KR101998950B1 (ko) 인공 잡음에 강인한 음성 대역폭 확장을 위한 심화 신경망 앙상블
JP7490894B2 (ja) 深層生成ネットワークを用いたリアルタイムパケット損失隠蔽
CN102652336A (zh) 声音信号复原装置以及声音信号复原方法
JP2000305599A (ja) 音声合成装置及び方法、電話装置並びにプログラム提供媒体
CN113470667A (zh) 语音信号的编解码方法、装置、电子设备及存储介质
US11854571B2 (en) Method, device and electronic apparatus for transmitting and receiving speech signal
CN112885363A (zh) 语音发送方法和装置以及语音接收方法和装置、电子设备
CN114550732A (zh) 一种高频音频信号的编解码方法和相关装置
Shi et al. Time-Domain Speech Enhancement Assisted by Multi-Resolution Frequency Encoder and Decoder
Gajjar et al. Artificial bandwidth extension of speech & its applications in wireless communication systems: A review
EP4143825A2 (en) Method, apparatus and system for enhancing multi-channel audio in a dynamic range reduced domain
Hao et al. Spatial-temporal graph convolution network for multichannel speech enhancement
Shin et al. Audio coding based on spectral recovery by convolutional neural network
WO2023175197A1 (en) Vocoder techniques
UA114233C2 (uk) Системи та способи для визначення набору коефіцієнтів інтерполяції
CN114333912B (zh) 语音激活检测方法、装置、电子设备和存储介质
CN115273884A (zh) 基于频谱压缩和神经网络的多阶段全频带语音增强方法
Strake et al. Self-attention with restricted time context and resolution in DNN speech enhancement
Xue et al. Towards error-resilient neural speech coding
Chen et al. Inter-subnet: Speech enhancement with subband interaction
Jose Amrconvnet: Amr-coded speech enhancement using convolutional neural networks
Sach et al. EffCRN: An Efficient Convolutional Recurrent Network for High-Performance Speech Enhancement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination