CN113571080A - 语音增强方法、装置、设备及存储介质 - Google Patents
语音增强方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113571080A CN113571080A CN202110181389.4A CN202110181389A CN113571080A CN 113571080 A CN113571080 A CN 113571080A CN 202110181389 A CN202110181389 A CN 202110181389A CN 113571080 A CN113571080 A CN 113571080A
- Authority
- CN
- China
- Prior art keywords
- frame
- target
- glottal
- speech frame
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 96
- 238000001228 spectrum Methods 0.000 claims abstract description 305
- 230000005284 excitation Effects 0.000 claims abstract description 110
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 46
- 238000012545 processing Methods 0.000 claims abstract description 43
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 8
- 238000013528 artificial neural network Methods 0.000 claims description 115
- 238000012549 training Methods 0.000 claims description 28
- 230000015572 biosynthetic process Effects 0.000 claims description 17
- 238000003786 synthesis reaction Methods 0.000 claims description 17
- 238000001914 filtration Methods 0.000 claims description 16
- 230000002708 enhancing effect Effects 0.000 claims description 12
- 230000015654 memory Effects 0.000 claims description 9
- 125000004122 cyclic group Chemical group 0.000 claims description 8
- 230000001131 transforming effect Effects 0.000 claims description 6
- 210000004704 glottis Anatomy 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 205
- 230000008569 process Effects 0.000 description 42
- 238000010586 diagram Methods 0.000 description 38
- 230000006870 function Effects 0.000 description 20
- 238000004891 communication Methods 0.000 description 15
- 238000003062 neural network model Methods 0.000 description 15
- 230000009466 transformation Effects 0.000 description 14
- 230000004044 response Effects 0.000 description 13
- 230000004913 activation Effects 0.000 description 12
- 238000004590 computer program Methods 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 238000009432 framing Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000001629 suppression Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 210000003437 trachea Anatomy 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请涉及语音处理技术领域,具体提供了一种语音增强方法、装置、设备及存储介质,该方法包括:根据目标语音帧对应的复数频谱对所述目标语音帧进行预增强处理,得到第一复数频谱;根据所述第一复数频谱对所述目标语音帧进行语音分解,得到所述目标语音帧对应的声门参数、增益和激励信号;根据所述声门参数、所述增益和所述激励信号进行合成处理,得到所述目标语音帧对应的增强语音信号。本方案可以有效对语音进行增强,可以应用于云会议中。
Description
技术领域
本申请涉及语音处理技术领域,具体而言,涉及一种语音增强方法、装置、设备及存储介质。
背景技术
由于语音通信的便利性和及时性,语音通信的应用越来越广泛,例如,在云会议的会议参与方之间传输语音信号。而在语音通信中,语音信号中可能混有噪声,语音信号中所混有的噪声会导致通信质量差,极大影响用户的听觉体验。因此,如何对语音进行增强处理以去除噪声是现有技术中亟待解决的技术问题。
发明内容
本申请的实施例提供了一种语音增强方法、装置、设备及存储介质,以实现语音增强。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供了一种语音增强方法,包括:根据目标语音帧对应的复数频谱对所述目标语音帧进行预增强处理,得到第一复数频谱;根据所述第一复数频谱对所述目标语音帧进行语音分解,得到所述目标语音帧对应的声门参数、增益和激励信号;根据所述声门参数、所述增益和所述激励信号进行合成处理,得到所述目标语音帧对应的增强语音信号。
根据本申请实施例的一个方面,提供了一种语音增强装置,包括:预增强模块,用于根据目标语音帧的复数频谱对所述目标语音帧进行预增强处理,得到第一复数频谱;语音分解模块,用于根据所述第一复数频谱对所述目标语音帧进行语音分解,得到所述目标语音帧对应的声门参数、增益和激励信号;合成处理模块,用于根据所述声门参数、所述增益和所述激励信号进行合成处理,得到所述目标语音帧对应的增强语音信号。
根据本申请实施例的一个方面,提供了一种电子设备,包括:处理器;存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如上所述语音增强方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被处理器执行时,实现如上所述语音增强方法。
在本申请的方案中,先对目标语音帧进行预增强得到第一复数频谱,然后以第一复数频谱为基础对目标语音帧进行语音分解和合成,实现了分两个阶段对目标语音帧进行增强,可以有效保证语音增强效果。而且,基于对目标语音帧进行预增强所得到的第一复数频谱为基础对目标语音帧进行语音分解,相较于预增强之前的目标语音帧,第一复数频谱中噪声的信息更少,而在语音分解过程中,噪声会影响语音分解的准确度,因此,以第一复数频谱作为语音分解的基础可以降低语音分解的难度,提高语音分解所得到声门参数、激励信号和增益的准确度,进而保证后续所获得增强语音信号的准确度。而且预增强所得到的第一复数频谱中包括相位信息和幅度信息,以该第一复数谱频谱中的相位信息和幅度信息为基础进行语音分解和语音合成,保证了所得到目标语音帧所对应增强语音信号的幅度和相位的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是根据一具体实施例示出的VoIP(Voice over Internet Protocol,网络电话)系统中的语音通信链路的示意图。
图2示出了语音信号产生的数字模型的示意图。
图3示出了根据一原始语音信号分解出激励信号和声门滤波器的频率响应的示意图。
图4是根据本申请的一个实施例示出的语音增强方法的流程图。
图5是根据一具体实施例示出的复数卷积层对复数进行卷积处理的示意图。
图6是根据一具体实施例示出的第一神经网络的结构示意图。
图7是根据一具体实施例示出的第二神经网络的示意图。
图8是根据另一实施例示出的第二神经网络的输入和输出的示意图。
图9是根据一具体实施例示出的第三神经网络的示意图。
图10是根据一具体实施例示出的第四神经网络的示意图。
图11是根据一实施例示出的步骤430的流程图。
图12是根据一具体实施例示出的语音增强方法的流程图。
图13是根据另一实施例示出的步骤420的流程图。
图14是根据另一实施例示出的步骤430的流程图。
图15是根据另一具体实施例示出的语音增强方法的流程图。
图16是根据一具体示出的短时傅里叶变换中加窗交叠的示意图。
图17是根据一实施例示出的语音增强装置的框图。
图18示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
需要说明的是:在本文中提及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
语音信号中的噪声会极大降低语音质量,影响用户的听觉体验,因此,为了提高语音信号的质量,有必要对语音信号进行增强处理,以尽可能能地除去噪声,保留信号中的原始语音信号(即不包括噪声的纯净信号)。为了实现对语音进行增强处理,提出了本申请的方案。
本申请的方案可以应用于语音通话的应用场景中,例如通过即时通讯应用进行的语音通信、游戏应用中的语音通话。具体的,可以在语音的发送端、语音的接收端、或者提供语音通信服务的服务端来按照本方案进行语音增强。
云会议是线上办公中一个重要的环节,在云会议中,云会议的参与方的声音采集装置在采集到发言人的语音信号后,需要将所采集到的语音信号发送至其他会议参与方,该过程涉及到语音信号在多个参与方之间的传输和播放,如果不对语音信号中所混有的噪声信号进行处理,会极大影响会议参与方的听觉体验。在该种场景中,可以应用本申请的方案对云会议中的语音信号进行增强,使会议参与方所听到的语音信号是进行增强后的语音信号,提高语音信号的质量。
云会议是基于云计算技术的一种高效、便捷、低成本的会议形式。使用者只需要通过互联网界面,进行简单易用的操作,便可快速高效地与全球各地团队及客户同步分享语音、数据文件及视频,而会议中数据的传输、处理等复杂技术由云会议服务提供方帮助使用者进行操作。
目前国内云会议主要集中在以SaaS(Software as a Service,软件即服务)模式为主体的服务内容,包括电话、网络、视频等服务形式,基于云计算的视频会议就叫云会议。在云会议时代,数据的传输、处理、存储全部由视频会议提供方的计算机资源处理,用户完全无需再购置昂贵的硬件和安装繁琐的软件,只需打开客户端,进入相应界面,就能进行高效的远程会议。
云会议系统支持多服务器动态集群部署,并提供多台高性能服务器,大大提升了会议稳定性、安全性、可用性。近年来,视频会议因能大幅提高沟通效率,持续降低沟通成本,带来内部管理水平升级,而获得众多用户欢迎,已广泛应用在政府、军队、交通、运输、金融、运营商、教育、企业等各个领域。
图1是根据一具体实施例示出的VoIP(Voice over Intemet Protocol,网络电话)系统中的语音通信链路的示意图。如图1所示,基于发送端110和接收端120的网络连接,发送端110与接收端120可以进行语音传输。
如图1所示,发送端110包括采集模块111、前增强处理模块112和编码模块113,其中,采集模块111用于采集语音信号,其可以将采集到的声学信号转换成数字信号;前增强处理模块112用于对采集到的语音信号进行增强,以除去所采集到语音信号中的噪声,提高语音信号的质量。编码模块113用于对增强后的语音信号进行编码,以提高语音信号在传输过程中的抗干扰性。前增强处理模块112可以按照本申请的方法进行语音增强,对语音进行增强后,再进行编码压缩和传输,这样可以保证接收端接收到的信号不再受噪声影响。
接收端120包括解码模块121、后增强模块122和播放模块123。解码模块121用于对接收到的编码语音进行解码,得到解码信号;后增强模块122用于对解码后的语音信号进行增强处理;播放模块123用于播放增强处理后的语音信号。后增强模块122也可以按照本申请的方法进行语音增强。在一些实施例中,接收端120还可以包括音效调节模块,该音效调节模块用于对增强后的语音信号进行音效调节。
在具体实施例中,可以是仅在接收端120或者仅在发送端110按照本申请的方法进行语音增强,当然,还可以是在发送端110和接收端120均按照本申请的方法进行语音增强。
在一些应用场景中,VoIP系统中的终端设备除了可以支持VoIP通信外,还可以支持其他第三方协议,例如传统PSTN(Public Switched Telephone Network,公用电话交换网)电路域电话,而传统的PSTN服务不能进行语音增强,在该种场景中,可以在作为接收端的终端中按照本申请的方法进行语音增强。
在对本申请的方案进行具体说明,有必要对语音信号的产生进行介绍。语音信号是由人体发音器官在大脑控制下的生理运动产生的,即:在气管处,产生一定能量的类噪声的冲击信号(相当于激励信号);冲击信号冲击人的声带(声带相当于声门滤波器),产生类周期性的开合;通过口腔放大后,发出声音(输出语音信号)。
图2示出了语音信号产生的数字模型的示意图,通过该数字模型可以描述语音信号的产生过程。如图2所示,激励信号冲击声门滤波器后,再进行增益控制后输出语音信号,其中,声门滤波器由声门参数限定。该过程可以通过如下的公式表示:
x(n)=G·r(n)·ar(n); (公式1)
其中,x(n)表示输入的语音信号;G表示增益,又可以称为线性预测增益;r(n)表示激励信号;ar(n)表示声门滤波器。
图3示出了根据一原始语音信号分解出激励信号和声门滤波器的频率响应的示意图,图3a示出了该原始语音信号的频率响应示意图,图3b示出了根据该原始语音信号所分解出声门滤波器的频率响应示意图,图3c示出了根据该原始语音信号所分解出激励信号的频率响应示意图。如图3所示,该原始语音信号的频率响应图中起伏的部分对应于声门滤波器的频率响应图中波峰位置,激励信号相当于对该原始语音信号进行LP(LinearPrediction,线性预测)分析后的残差信号,因此其对应的频率响应较平缓。
由上可以看出,根据一原始语音信号(即不包含噪声的语音信号)可以分解出激励信号、声门滤波器和增益,所分解出的激励信号、声门滤波器和增益可以用于表达该原始语音信号,其中,声门滤波器可以通过声门参数来表达。反之,如果已知一原始语音信号对应的激励信号、用于确定声门滤波器的声门参数和增益,则可以根据所对应的激励信号、声门滤波器和增益来重构该原始语音信号。
本申请的方案正是基于该原理,根据语音帧对应的声门参数、激励信号和增益来重构该语音帧中的原始语音信号,实现语音增强。
以下对本申请实施例的技术方案的实现细节进行详细阐述:
图4是根据本申请的一个实施例示出的语音增强方法的流程图,该方法可以由具备处理能力的计算机设备执行,例如终端、服务器等,在此不进行具体限定。参照图4所示,该方法至少包括步骤410至430,详细介绍如下:
步骤410,根据目标语音帧对应的复数频谱对所述目标语音帧进行预增强处理,得到第一复数频谱。
语音信号是随时间而非平稳随机变化的,但是在短时间内语音信号强相关的,即语音信号具有短时相关性,因此,在本申请的方案中,以语音帧为单位来进行语音增强。目标语音帧是指当前待进行增强处理的语音帧。
目标语音帧对应的复数频谱可以对该目标语音帧的时域信号进行时频变换获得,时频变换例如短时傅里叶变换(Short-term Fourier transform,STFT)。目标语音帧对应的复数频谱中实部的系数用于指示该目标语音帧的幅度信息,虚部的系数用于指示目标语音帧的相位信息。
通过对目标语音帧进行预增强,可以除去目标语音帧中的部分噪声,因此,相较于对目标语音帧对应的复数频谱,预增强所得到的第一复数频谱中含噪量更少。
在本申请的一些实施例中,可以采用深度学习的方式来对目标语音帧进行预增强。通过训练一个神经网络模型来根据语音帧对应的复数频谱预测语音帧中噪声的复数频谱,然后将语音帧的复数频谱与所预测到噪声的复数频谱相减,得到第一复数频谱。为便于描述,将该用于预测语音帧中噪声的复数频谱的神经网络模型称为噪声预测模型。在训练结束后,该噪声预测模型可以根据所输入语音帧的复数频谱输出所预测噪声的复数频谱,然后将语音帧的复数频谱与噪声的复数频谱相减,即得到第一复数频谱。
在本申请的一些实施例中,还可以训练一个神经网络模型来根据语音帧的复数频谱预测增强后该语音帧的第一复数频谱。为便于描述,将该用于预测增强后复数频谱的神经网络模型称为增强复数频谱预测模型。在训练过程中将样本语音帧的复数频谱输入至该增强复数频谱预测模型中,由该增强复数频谱预测模型预测增强后的复数频谱,并根据所预测到增强后的复数频谱和该样本语音帧的标签信息来调整增强复数频谱预测模型的参数,直至所预测到的增强后的复数频谱与标签信息所指示的复数频谱之间的差异满足预设要求。样本语音帧的标签信息用于指示样本语音帧中原始语音信号的复数频谱。训练结束后,该幅度谱预测模型可以根据目标语音帧的复数频谱输出第一复数频谱。
步骤420,根据所述第一复数频谱对所述目标语音帧进行语音分解,得到所述目标语音帧对应的声门参数、增益和激励信号。
语音分解所得到目标语音帧对应的声门参数、对应的增益和对应的激励信号用于按照图2所示的过程重构目标语音帧中原始语音信号。
如上所描述,一原始语音信号是通过激励信号冲击声门滤波器然后进行增益控制得到。该第一复数频谱中包括目标语音帧原始语音信号的信息,因此,基于该第一复数频谱进行线性预测分析,逆向确定用于重构目标语音帧中原始语音信号的声门参数、激励信号和增益。
声门参数是指用于构建声门滤波器的参数,声门参数确定,则声门滤波器对应确定,声门滤波器为数字滤波器。声门参数可以是线性预测编码(Linear PredictionCoefficients,LPC)系数,还可以是线谱频率(Line Spectral Frequency,LSF)参数。目标语音帧所对应声门参数的数量是与声门滤波器的阶数相关的,若所述声门滤波器是K阶滤波器,所述声门参数包括K阶LSF参数或者K阶LPC系数,其中,LSF参数和LPC系数之间可以相互转化。
一个p阶的声门滤波器可以表示为:
Ap(z)=1+a1z-1+a2z-2+…+apz-p; (公式2)
其中,a1,a2,...,ap为LPC系数;p为声门滤波器的阶数;z为声门滤波器的输入信号。
在公式2的基础上,若令:
P(z)=Ap(z)-z-(p+1)Ap(z-1); (公式3)
Q(z)=Ap(z)+z-(p+1)Ap(z-1); (公式4)
可以得到:
从物理意义上讲,P(z)和Q(z)分别代表了声门张开和声门闭合的周期性变化规律。多项式P(z)和Q(z)的根在复平面上交替出现,其分布在复平面单位圆上的一系列角频率,LSF参数即为P(z)和Q(z)的根在复平面单位圆上对应的角频率,第n帧语音帧对应的LSF参数LSF(n)可以表示为ωn,当然,第n帧语音帧对应的LSF参数LSF(n)还可以直接用该第n帧语音帧所对应P(z)的根和所对应Q(z)根来表示。
将第n帧语音帧所对应P(z)和Q(z)在复平面的根定义为θn,则第n帧语音帧对应的LSF参数表示为:
其中,Rel{θn}表示复数θn的实部;Imag{θn}表示复数θn的虚部。
在本申请的一些实施例中,可以采用深度学习的方式进行语音分解。可以先训练分别用于进行声门参数预测、进行激励信号预测和进行增益预测的神经网络模型,使得该三个神经网络模型可以基于第一复数频谱分别预测目标语音帧对应的声门参数、激励信号和增益。
在本申请的一些实施例中,还可以按照线性预测分析的原理,根据第一复数频谱进行信号处理,并计算目标语音帧对应的声门参数、激励信号和增益,具体的过程参见下文描述。
步骤430,根据所述声门参数、所述增益和所述激励信号进行合成处理,得到所述目标语音帧对应的增强语音信号。
在目标语音帧对应的声门参数确定的情况下,其对应的声门滤波器对应确定。在此基础上,可以按照图2所示的原始语音信号的生成过程,通过目标语音帧对应的激励信号冲击所确定的声门滤波器,并按照目标语音帧对应的增益对滤波所得到的信号进行增益控制,实现重构原始语音信号,所重构获得的信号即为目标语音帧对应的增强语音信号。
在本申请的方案中,先对目标语音帧进行预增强得到第一复数频谱,然后以第一复数频谱为基础对目标语音帧进行语音分解和合成,实现了分两个阶段对目标语音帧进行增强,可以有效保证语音增强效果。而且,基于对目标语音帧进行预增强所得到的第一复数频谱为基础对目标语音帧进行语音分解,相较于目标语音帧预增强之前的频谱,第一复数频谱中噪声的信息更少,而在语音分解过程中,噪声会影响语音分解的准确度,因此,以第一复数频谱作为语音分解的基础可以降低语音分解的难度,提高语音分解所得到声门参数、激励信号和增益的准确度,进而保证后续所获得增强语音信号的准确度。预增强所得到的第一复数频谱中包括相位信息和幅度信息,以该第一复数谱频谱中的相位信息和幅度信息为基础进行语音分解和语音合成,保证了所得到目标语音帧所对应增强语音信号的幅度和相位的准确性。
在本申请的一些实施例中,步骤410,包括:将所述目标语音帧对应的复数频谱输入第一神经网络,所述第一神经网络是根据样本语音帧对应的复数频谱和所述样本语音帧中原始语音信号对应的复数频谱进行训练得到的;由所述第一神经网络根据所述目标语音帧对应的复数频谱输出所述第一复数频谱。
第一神经网络可以是通过长短时记忆神经网络、卷积神经网络、循环神经网络、全连接神经网络、门控循环单元等构建的模型,在此不进行具体限定。
在本申请的一些实施例中,可以通过对样本语音信号进行分帧,得到多个样本语音帧。其中,样本语音信号可以是将已知的原始语音信号与已知的噪声信号进行组合得到,那么在原始语音信号已知的情况下,可以对应将样本语音帧中的原始语音信号进行时频变换,得到样本语音帧中原始语音信号对应的复数频谱。样本语音帧对应的复数频谱可以是通过对该样本语音帧的时域信号进行时频变换得到。
在训练过程中,将样本语音帧对应的复数频谱输入第一神经网络,由第一神经网络根据样本语音帧对应的复数频谱进行预测,输出预测第一复数频谱;然后比较预测第一复数频谱和该样本语音帧中原始语音信号对应的复数频谱,如果二者之间的相似度不满足预设要求,则调整第一神经网络的参数,直至第一神经网络所输出预测第一复数频谱与该样本语音帧中原始语音信号对应的复数频谱之间的相似度满足预设要求。其中,预设要求可以是预测第一复数频谱与该样本语音帧中原始语音信号对应的复数频谱之间的相似度不低于相似度阈值,该相似度阈值可根据需要进行设定,例如为100%、98%等。通过如上的训练过程,该第一神经网络可以学习到根据输入的复数频谱预测第一复数频谱的能力。
在本申请的一些实施例中,所述第一神经网络包括复数卷积层、门控循环单元层和全连接层;上述由所述第一神经网络根据所述目标语音帧的复数频谱输出所述第一复数频谱的步骤,进一步包括:由所述复数卷积层根据所述目标语音帧所对应复数频谱中的实部和虚部进行复数卷积处理;由所述门控循环单元层对所述复数卷积层的输出进行变换处理;由所述全连接层对所述门控循环单元的输出进行全连接处理,输出所述第一复数频谱。
在具体实施例中,第一神经网络可以包括一层或者多层复数卷积层,同理,门控循环单元层和全连接层也可以是一层或者多层,具体复数卷积层、门控循环单元层和全连接层的数量可以根据实际需要进行设定。
图5是根据一具体实施例示出的复数卷积层对复数进行卷积处理的示意图,若复数卷积层的输入复数为E+jF,复数卷积层的权重为A+jB。如图5所示,复数卷积层包括二维卷积层(Real_conv、Imag_conv)、连接层(Concat)和激活层(Leaky_Relu)。在将输入复数中的实部E和虚部F输入二维卷积层后,该二维卷积层按照复数卷积层的权重进行卷积,其进行卷积运算的过程如下式所示:
(E+jF)*(A+jB)=(E*A-F*B)+j(E*B+F*A); (公式7)
令C=E*A-F*B;D=E*B+F*A;则上述公式7进一步转化为:
(E+jF)*(A+jB)=C+jD; (公式8)
如图5所示,在二维卷积层输出卷积后的实部和虚部后,由连接层将实部和虚部进行连接,得到连接结果;然后由激活层对连接结果进行激活。图5中,激活层所使用的激活函数为Leaky_Relu激活函数。Leaky_Relu激活函数的表达式为:
f(x)=max(ax,x);a为常数; (公式9)
在其他实施例中,激活层所使用的激活函数还可以是其他函数,例如zRelu函数等,在此不进行具体限定。
图6是根据一具体实施例示出的第一神经网络的结构示意图,如图6所示,该第一神经网络包括依次级联的6层复数卷积层(Conv),1层门控循环单元(Gated RecurrentUnit,GRU)层和2层全连接(Full Connected,FC)层,在将目标语音帧所对应复数频谱S(n)输入该第一神经网络后,先由6层复数卷积层依次进行复数卷积处理,然后由GRU层进行变换,再由两层FC层顺次进行全连接,并由最后一层FC层输出第一复数频谱。其中,每层括号内的数字表示该层所输出变量的维度。在图6所示出的第一神经网络中,最后一层FC层输出的维度为322维,用于表示161个STFT系数中的实部和虚部。
在本申请的一些实施例中,步骤420,包括:根据所述第一复数频谱对所述目标语音帧进行声门参数预测,得到所述目标语音帧对应的声门参数;根据所述第一复数频谱对所述目标语音帧进行激励信号预测,得到所述目标语音帧对应的激励信号;根据所述目标语音帧之前的历史语音帧对应的增益对所述目标语音帧进行增益预测,得到所述目标语音帧对应的增益。
在本申请的一些实施例中,可以分别训练用于进行声门参数预测的神经网络模型(假设为第二神经网络)、进行增益预测的神经网络模型(假设为第三神经网络)和进行激励信号预测的神经网络模型(假设为第四神经网络)。其中,该三种神经网络模型可以是通过长短时记忆神经网络、卷积神经网络、循环神经网络、全连接神经网络等构建的模型,在此不进行具体限定。
在本申请的一些实施例中,上述根据所述第一复数频谱对所述目标语音帧进行声门参数预测,得到所述目标语音帧对应的声门参数的步骤,进一步包括:将所述第一复数频谱输入第二神经网络,所述第二神经网络是根据样本语音帧对应的复数频谱和所述样本语音帧对应的声门参数进行训练得到的;所由所述第二神经网络根据所述第一复数频谱输出所述目标语音帧对应的声门参数。
样本语音帧对应的复数频谱是对样本语音帧的时域信号进行时频变换得到的。在本申请的一些实施例中,可以对样本语音信号进行分帧,得到多个样本语音帧。样本语音信号可以是将已知的原始语音信号与已知的噪声信号进行组合得到,那么在原始语音信号已知的情况下,可以通过对原始语音信号进行线性预测分析得到样本语音帧对应的声门参数,换言之,样本语音帧对应的声门参数是指用于重构样本语音帧中原始语音信号的声门参数。
在训练过程中,将样本语音帧的复数频谱输入至第二神经网络后,由第二神经网络根据样本语音帧的复数频谱进行声门参数预测,输出预测声门参数;然后比较预测声门参数和该样本语音帧对应的声门参数,如果二者不一致,则调整第二神经网络的参数,直至第二神经网络根据样本语音帧的复数频谱所输出的预测声门参数与该样本语音帧对应的声门参数一致。在训练结束后,该第二神经网络学习到根据所输入语音帧的复数频谱准确预测用于重构该语音帧中原始语音信号的声门参数的能力。
图7是根据一具体实施例示出的第二神经网络的示意图,如图7所示,该第二神经网络包括一层LSTM(Long-Short Term Memory,长短期记忆网络)层和三层级联的FC(FullConnected,全连接)层。其中,LSTM层为1个隐层,其包括256个单元,LSTM层的输入为从第n帧语音帧对应的第一复数频谱S′(n)。在本实施例中,LSTM层的输入为321维。三层级联的FC层中,前两层FC层中设有激活函数σ(),所设置的激活函数用于增加第二神经网络的非线性表达能力,最后一层FC层中未设激活函数,该最后一层FC层作为分类器进行分类输出。如图7所示,沿从输入到输出的方向,三层FC层中分别包括512、512、16个单元,最后一层FC层的输出为该第n帧语音帧所对应16维的线谱频率系数LSF(n),即16阶线谱频率参数。
在本申请的一些实施例中,由于语音帧之间是有相关性的,相邻两语音帧之间的频域特征相似性较高,因此,可以结合目标语音帧之前的历史语音帧对应的声门参数来预测目标语音帧对应对的声门参数。在一实施例中,上述根据所述第一复数频谱对所述目标语音帧进行声门参数预测,得到所述目标语音帧对应的声门参数的步骤进一步包括:将所述第一复数频谱和所述目标语音帧之前的历史语音帧对应的声门参数输入第二神经网络,所述第二神经网络是根据样本语音帧对应的复数频谱、样本语音帧之前的历史语音帧对应的声门参数和样本语音帧对应的声门参数进行训练得到的;由所述第一神经网络根据所述第一复数频谱和所述目标语音帧之前的历史语音帧对应的声门参数输出所述目标语音帧对应的声门参数。
由于历史语音帧与目标语音帧与之间具有相关性,目标语音帧的历史语音帧所对应声门参数与目标语音帧对应的声门参数之间具有相似性,因此,以目标语音帧的历史语音帧对应的声门参数作为参考,对目标语音帧的声门参数的预测过程进行监督,可以提高声门参数预测的准确率。
在本申请的一些实施例中,由于时间上越靠近的语音帧的声门参数的相似性越高,因此,可以将距离目标语音帧较近的历史语音帧对应的声门参数作为参考,可以进一步保证预测准确率,例如可以将目标语音帧的上一语音帧对应的声门参数作为参考。在具体实施例中,作为参考的历史语音帧的数量可以是一帧,也可以是多帧,具体可根据实际需要进行选用。
目标语音帧的历史语音帧所对应的声门参数可以是对该历史语音帧进行声门参数预测得到的声门参数。换言之,在声门参数预测的过程中,复用为历史语音帧所预测到的声门参数作为当前语音帧的声门参数预测过程的参考。
本实施例中第二神经网络的训练过程与上一实施例中第二神经网络的训练过程类似,在此不再赘述训练的过程。
图8是根据另一实施例示出的第二神经网络的输入和输出的示意图,其中,图8中第二神经网络的结构与图7中相同,相较于图7,图8中第三神经网络的输入还包括该第n帧语音帧的上一语音帧(即第n-1帧)的线谱频率参数LSF(n-1)。如图8所示,在第二层FC层中嵌入第n帧语音帧的上一语音帧的线谱频率参数LSF(n-1),作为参考信息。由于相邻两语音帧的LSF参数相似性非常高,因此,如果将第n语音帧的历史语音帧对应的LSF参数作为参考信息,可以提升LSF参数预测准确率。
在本申请的一些实施例中,上述根据所述目标语音帧之前的历史语音帧对应的增益对所述目标语音帧进行增益预测,得到所述目标语音帧对应的增益的步骤,可以进一步包括:将所述目标语音帧之前的历史语音帧对应的增益输入第三神经网络中,所述第三神经网络是根据样本语音帧之前的历史语音帧对应的增益和所述样本语音帧对应的增益进行训练得到的;由所述第三神经网络根据所述目标语音帧之前的历史语音帧对应的增益输出所述目标语音帧对应的增益。
目标语音帧的历史语音帧对应的增益可以是该第三神经网络为该历史语音帧进行增益预测得到的,换言之,复用为历史语音帧所预测到的增益作为对目标语音帧进行增益预测过程中第三神经网络模型的输入。
样本语音帧可以是对样本语音信号进行分帧得到,样本语音信号可以是通过已知的原始语音信号和已知的噪声信号进行组合得到。那么,在样本语音中的原始语音信号已知的情况下,可以对该原始语音信号进行线性预测分析,得到用于重构该原始语音信号的声门参数,即样本语音帧对应的声门参数。
图9是根据一具体实施例示出的第三神经网络的示意图,如图9所示,第三神经网络包括一层LSTM层和一层FC层,其中,LSTM层为1个隐层,其包括128个单元;FC层的输入的维度为512,输出为1维的增益。在一具体实施例中,第n帧语音帧的历史语音帧对应的增益G_pre(n)可以定义为第n帧语音帧的前4个语音帧所对应的增益,即:
G_pre(n)={G(n-1),G(n-2),G(n-3),G(n-4)};
当然,所选择用于增益预测的历史语音帧的数量并不限于如上的举例,具体可根据实际需要进行选用。
在如上所示的第二神经网络和第三神经网络整体上呈现一个M-to-N的映射关系(N<<M),即神经网络模型的输入信息的维度为M,输出信息的维度为N,极大地精简了神经网络模型的结构和降低了模型的复杂度。
在本申请的一些实施例中,上述根据所述第一复数频谱对所述目标语音帧进行激励信号预测,得到所述目标语音帧对应的激励信号的步骤,可以进一步包括:将所述第一复数频谱输入第四神经网络,所述第四神经网络是根据样本语音帧对应的复数频谱和所述样本语音帧所对应激励信号的频域表示进行训练得到的;由所述第四神经网络根据所述第一复数频谱输出所述目标语音帧所对应激励信号的频域表示。
样本语音帧对应的激励信号可以是对样本语音帧中已知的原始语音信号进行线性预测分析得到。频域表示可以是幅度谱,也可以是复数频谱,在此不进行具体限定。
在训练第四神经网络的过程中,将样本语音帧的复数频谱输入至第四神经网络模型中,然后由第四神经网络根据所输入样本语音帧的复数频谱进行激励信号预测,输出预测激励信号的频域表示;再根据预测激励信号的频域表示和该样本语音帧所对应激励信号的频域表示来调整第四神经网络的参数,即:若预测激励信号的频域表示与该样本语音帧所对应激励信号的频域表示的相似度不满足预设要求,则调整第四神经网络的参数,直至第四神经网络为样本语音帧输出预测激励信号的频域表示与该样本语音帧所对应激励信号的频域表示之间的相似度满足预设要求。通过如上的训练过程,可以使第四神经网络学习到根据一语音帧的幅度谱来预测该语音帧对应的激励信号的频域表示的能力,从而准确进行激励信号预测。
图10是根据一具体实施例示出的第四神经网络的示意图,如图10所示,该第四神经网络包括一层LSTM层和3层FC层,其中,LSTM层为1个隐层,包括256个单元,LSTM的输入为从第n帧语音帧对应的第一复数频谱S′(n),其维度可以是321维。3层FC层中所包括单元的数量分别为512、512和321,最后一层FC层输出321维的第n帧语音帧所对应激励信号的频域表示R(n)。沿从输入到输出的方向,三层FC层中前两FC层中设有激活函数,用于提升模型的非线性表达能力,最后一层FC层中没有激活函数,用于进行分类输出。
值得一提的是,上述示出第一神经网络、第二神经网络、第三神经网络、和第四神经网络的结构仅仅是示例性举例,在其他实施例中,还可以在深度学习的开源平台中设置相应结构的神经网络模型,并对应进行训练。
在本申请的一些实施例中,如图11所示,步骤430,包括:
步骤1110,通过声门滤波器对所述目标语音帧对应的激励信号进行滤波,得到滤波输出信号;所述声门滤波器是根据所述目标语音帧对应的声门参数构建的。
步骤1120,按照所述目标语音帧对应的增益对所述滤波输出信号进行放大处理,得到所述目标语音帧对应的增强语音信号。
若声门参数是LPC系数,可以直接按照上述的公式(2)进行声门滤波器的构建。若声门滤波器为p阶滤波器,则目标语音帧对应的声门参数包括p阶LPC系数,即上述公式(2)中的a1,a2,…,ap,在其他实施例中,上述公式(2)中的常数1也可以作为LPC系数。
若声门参数为LSF参数,则可以将LSF参数转换为LPC系数,然后对应按照上述公式(2)构建声门滤波器。
滤波处理即为时域上的卷积,因此,如上通过声门滤波器对激励信号进行滤波的过程可以转换到时域进行。则在预测得到目标语音帧所对应激励信号的频域表示的基础上,将激励信号的频域表示向时域进行变换,得到目标语音帧所对应激励信号的时域信号。
在本申请的方案中,目标语音帧中包括多个样本点。通过声门滤波器对激励信号进行滤波,即通过一样本点之前的历史样本点与该声门滤波器进行卷积,得到该样本点对应的目标信号值。
在本申请的一些实施例中,所述目标语音帧包括多个样本点;所述声门滤波器为p阶滤波器,p为正整数;所述激励信号包括所述目标语音帧中多个样本点分别对应的激励信号值;按照如上滤波的过程,步骤1120,进一步包括:将所述目标语音帧中每个样本点的前p个样本点所对应的激励信号值与所述p阶滤波器进行卷积,得到所述目标语音帧中每个样本点的目标信号值;按照时间顺序组合所述目标语音帧中的全部样本点对应的目标信号值,得到所述第一语音信号。其中,p阶滤波器的表达式可参照上述公式(1)。也就是说,针对目标语音帧中的每一样本点,利用其前的p个样本点所对应的激励信号值来与p阶滤波器进行卷积,得到每个样本点对应的目标信号值。
可以理解的是,对于目标语音帧中的首个样本点,其需要借助于该目标语音帧的上一语音帧中的最后p个样本点的激励信号值来计算该首个样本点对应的目标信号值,同理,该目标语音帧中第二个样本点,需要借助于目标语音帧的上一语音帧中最后(p-1)个样本点的激励信号值和目标语音帧中首个样本点的激励信号值与p阶滤波器进行卷积,得到目标语音帧中第二个样本点所对应的目标信号值。
总结来说,步骤1120还需要目标语音帧的历史语音帧所对应的激励信号值的参与。所需要历史语音帧中样本点的数量与声门滤波器的阶数相关,即若声门滤波器为p阶,则需要目标语音帧的上一语音帧中最后p个样本点所对应的激励信号值的参与。
相关技术中存在通过谱估计和谱回归预测的方式来进行语音增强。谱估计的语音增强方式认为一段混合语音包含了语音部分和噪声部分,因此可以通过统计模型等来估计噪声,将混合语音对应的频谱,减去噪声对应的频谱,剩下的就是语音频谱,以此通过混合语音对应的频谱减去噪声对应的频谱所得到的频谱恢复出干净的语音信号。谱回归预测的语音增强方方式通过神经网络预测语音帧对应的掩闭阈值,该掩闭阈值反映了该语音帧中每一个频点中的语音成份和噪声成份的占比;然后根据该掩闭阈值对混合信号频谱进行增益控制,获得增强后的频谱。
以上通过谱估计和谱回归预测的语音增强方式是基于噪声谱后验概率的估计,其可能存在估计的噪声不准确,例如像敲键盘等瞬态噪声,由于瞬时发生,估计的噪声谱非常不准确,导致噪声抑制效果不好。在噪声谱预测不准确的情况下,若按照所估计的噪声谱对原混合语音信号进行处理,则可能会导致混合语音信号中的语音失真,或者导致噪声抑制效果差;因此,在这种情况下,需要在语音保真和噪声抑制之间进行折中。
在以上基于声门参数、激励信号和增益预测来实现语音增强的实施例中,由于声门参数与声音生成物理过程中的声门特征强相关,所预测到的声门参数有效保证了目标语音帧中原始语音信号的语音结构,因此,基于语音分解得到的声门参数、激励信号和增益进行合成来得到目标语音帧的增强语音信号可以有效避免原始语音被削减,有效保护了语音结构;同时在得到目标语音帧对应的声门参数、激励信号和增益后,由于并不会再对原始的带噪语音进行处理,因此,也并不需要在语音保真和噪声抑制这两者之间进行折中。
图12是根据另一具体实施例示出的语音增强方法的流程图。图12所示的实施例中,结合上述的第二神经网络、第三神经网络和第四神经网络来进行语音分解。假设以第n帧语音帧作为目标语音帧,该第n帧语音帧的时域信号为s(n)。如图12所示,该语音增强方法包括步骤1210-1270。
步骤1210,时频变换;将第n帧语音帧的时域信号s(n)转换为第n帧语音帧对应的复数频谱S(n)。
步骤1220,预增强;基于复数频谱S(n)对第n帧语音帧进行预增强,得到第一复数频谱S′(n)。
步骤1230,通过第二神经网络预测声门参数。在该步骤中,第二神经网络的输入可以只有第一复数频谱S′(n),也可以包括第一复数频谱S′(n)和该第n帧语音帧的历史语音帧对应的声门参数P_pre(n),该第二神经网络输出该第n帧语音帧对应的声门参数ar(n),该声门参数可以是LPC系数,也可以是LSF参数。
步骤1240,通过第三神经网络预测激励信号。第三神经网络的输入为第一复数频谱S′(n),输出为该第n帧语音帧所对应激励信号的频域表示R(n)。然后通过步骤1250对R(n)进行频时变换,可以得到第n帧语音帧所对应激励信号的时域信号r(n)。
步骤1260,通过第四神经网络预测增益。第四神经网络的输入为第n帧语音帧的历史语音帧所对应的增益G_pre(n),输出为第n帧语音帧对应的增益G(n)。
在获得第n帧语音帧对应的声门参数ar(n)、对应的激励信号r(n)、和对应的增益G_(n)后,基于该三种参数按照步骤1270进行合成滤波,得到该第n帧语音帧所对应增强语音信号的时域信号s_e(n)。步骤1270的合成滤波过程可以参照图11所示的过程进行。
在本申请的另一些实施例中,如图13所示,步骤420包括:
步骤1310,根据所述第一复数频谱计算得到功率谱。
若第一复数频谱为S′(n),则步骤1310中所得到功率谱Pa(n)为:
Pa(n)=Real(S′(n))2+Imag(S′(n))2; (公式10)
其中,Real(S′(n))表示第一复数频谱S′(n)的实部,Imag(S′(n))表示第一复数频谱S′(n)的虚部。步骤1310中所计算得到的功率谱即为对目标语音帧进行预增强后信号的功率谱。
步骤1320,根据所述功率谱计算得到自相关系数。
根据维纳-辛钦定理:平稳随机过程的功率谱与其自相关函数是一对傅里叶变换关系。在本方案中,一帧语音帧视为平稳的随机信号,因此,在得到目标语音帧所对应预增强后的功率谱的基础上,可以对目标语音帧所对应预增强后的功率谱进行傅里叶反变换,来得到该预增强后的功率谱对应的自相关系数。
具体的,步骤1320包括:对所述功率谱进行傅里叶反变换,得到反变换结果;提取所述反变换结果中的实部,得到所述自相关系数。即:
AC(n)=Real(iFFT(Pa(n))); (公式11)
AC(n)表示第n帧语音帧对应的自相关系数,iFFT(Inverse Fast FourierTransform,快速傅里叶反变换)是指FFT(Fast Fourier Transform,快速傅里叶反变换)反变换,Real表示快速傅里叶反变换所得到结果的实部。AC(n)包括p个参数,p为声门滤波器的阶数,AC(n)中的系数可以进一步表示为ACj(n),1≤j≤p。
步骤1330,根据所述自相关系数计算得到所述声门参数。
根据Yule-Walker(尤尔-沃克方程)方程,对于第n帧语音帧,其对应的自相关系数与所对应的声门参数之间存在如下的关系:
k-KA=0; (公式12)
其中,k为自相关矢量;K为自相关矩阵;A为LPC系数矩阵。具体的,
其中,ACj(n)=E[s(n)s(n-j)],0≤j≤p;(公式13)
p为声门滤波器的阶数;a1(n),a2(n),...,ap(n)均为第n帧语音帧所对应的LPC系数,分别为上述公式2中的a1、a2,...,ap;由于a0(n)为常数1,也可以将a0(n)也视为第n帧语音帧所对应的一个LPC系数。
在得到自相关系数的基础上,自相关矢量和自相关矩阵可以对应确定,然后通过求解公式12,即可得到LPC系数。在具体实施例中,可以采用Levinson-Durbin算法求解公式12,Levinson-Durbin算法利用了自相关矩阵的对称性,利用迭代的方式,计算出自相关系数。
由于LSF参数与LPC系数之间可以相互转换,因此,在计算得到LPC系数时,可以对应确定LSF参数。换言之,不管声门参数是LPC系数还是LSF参数,均可通过如上的过程确定。
步骤1340,根据所述声门参数和所述自相关参数集计算得到所述增益。
可以根据如下的公式计算第n帧语音帧对应的增益。
值得一提的是,根据公式14所计算得到的G(n)是时域表示上目标语音帧所对应增益的平方。
步骤1350,根据所述增益和声门滤波器的功率谱计算得到所述激励信号的功率谱,所述声门滤波器是根据所述声门参数构建的滤波器。
假设目标语音帧对应的复数频谱是针对m(m为正整数)个样本点进行傅里叶变换得到,为了计算声门滤波器的功率谱,先为第n帧语音帧构造一个维度为m的全零数组,s_AR(n);然后,将(p+1)维的aj(n)赋值给该全零数组的前(p+1)维,其中j=0,1,2,...p;通过调用m个样本点的快速傅里叶变换(Fast Fourier Transform,FFT),获得FFT系数:
S_AR(n)=FFT(s_AR(n)); (公式15)
在得到FFT系数S_AR(n)的基础上,可以按照如下的公式16逐个样本获得第n帧语音帧所对应的声门滤波器的功率谱:
AR_LPS(n,k)=(Real(S_AR(n,k)))2+(Imag(S_AR(n,k)))2; (公式16)
其中,Real(S_AR(n,k))表示S_AR(n,k)的实部,Imag(S_AR(n,k))表示S_AR(n,k)的虚部,k表示FFT系数的级数,0≤k≤m,k为正整数。
在得到第n帧语音帧所对应的声门滤波器的频率响应AR_LPS(n)后,为便于计算,按照公式17将声门滤波器的的功率谱AR_LPS(n)从自然数域转换到对数域:
AR_LPS1(n)=log10(AR_LPS(n)); (公式17)
将上述AR_LPS1(n)按照下述公式18取反,即得到声门滤波器逆对应的功率谱AR_LPS2(n):
AR_LPS2(n)=-1*AR_LPS1(n); (公式18)
然后可以按照如下的公式19计算得到目标语音帧所对应激励信号的功率谱R(n):
R(n)=Pa(n)*(G1(n))2*AR_LPS3(n); (公式19)
通过如上的过程,对应计算得到目标语音帧所对应声门参数、增益和激励信号的频率响应,以及由声门参数所限定声门滤波器的频率响应。
在得到目标语音帧所对应的增益、所对应激励信号的功率谱和由声门参数所限定声门滤波器的功率谱后,可以按照如图14所示的过程来进行合成处理。如图14所示,步骤430,包括:
步骤1410,根据所述声门滤波器的功率谱和所述激励信号的功率谱生成第一幅度谱。
可以按照如下的公式22计算得到第一幅度谱S_filt(n):
其中,R1(n)=10*log10(R(n)); (公式23)
步骤1420,按照所述增益对所述第一幅度谱进行放大处理,得到第二幅度谱。
可以按照如下的公式得到第二幅度谱S_e(n):
S_e(n)=G2(n)*S_filt(n); (公式24)
步骤1430,根据所述第二幅度谱和从所述第一复数频谱中提取到的相位谱,确定所述目标语音帧对应的增强语音信号。
在本申请的一些实施例中,步骤1430进一步包括:组合所述第二幅度谱和从所述第一复数频谱中提取到的相位谱,得到第二复数频谱;换言之,将第二幅度谱作为第二复数频谱的实部,将从第一复数频谱中所提取到的相位谱作为第二复数频谱的虚部;将所述第二复数频谱向时域变换,得到所述目标语音帧所对应增强语音信号的时域信号。
图15是根据一具体实施例示出的语音增强方法的流程图,将第n帧语音帧作为目标语音帧,第n帧语音帧的时域信号为s(n)。如图15所示,具体包括步骤1510-1560。
步骤1510,时频变换;通过步骤510将第n帧语音帧的时域信号s(n)转换得到第n帧语音帧对应的复数频谱S(n)。
步骤1520,预增强;基于第n帧语音帧对应的复数频谱S(n)对该第n帧语音帧进行预增强处理,得到第n帧语音帧预的第一复数频谱S′(n)。
步骤1530,频谱分解;通过对第一复数频谱S′(n)进行频谱分解,得到第一复数频谱S′(n)对应的功率谱Pa(n)和对应的相位谱Ph(n)。
步骤1540,语音分解;基于第n帧语音帧的功率谱Pa(n)进行语音分解,确定第n帧语音帧对应的声门参数集P(n)和第n帧语音帧所对应激励信号的频域表示R(n)。声门参数集P(n)包括声门参数ar(n)和增益G(n)。具体可以语音分解的过程可以如图13所示的过程获得声门参数、并对应获得声门滤波器的功率谱AR_LPS(n)、激励信号的功率谱R(n)和增益G(n)。
步骤1550,语音合成。具体语音合成的过程可以如图14所示,根据第n帧语音帧所对应声门滤波器的频率响应AR_LPS(n)、激励信号的频率响应R(n)和增益G(n)进行合成得到第二幅度谱S_e(n)。
步骤1560,频时变换。复用从第一复数频谱S′(n)提取到的相位谱Ph(n),组合相位谱Ph(n)和第二幅度谱S_e(n)得到第n帧语音帧所对应增强后的复数频谱。将所得到增强后的复数频谱向时域进行变换,即得到第n帧语音帧所对应增强语音信号的时域信号s_e(n)。
在本实施例的方案中,基于对目标语音帧进行预增强所得到的第一复数频谱进行语音分解,预增强过程中,滤掉了部分噪声的信息,因此,第一复数频谱中的噪声信息更少;则基于第一复数频谱进行语音分解,可以减少噪声对语音分解的影响,降低语音分解的难度,提高了语音分解所得到声门参数、激励信号和增益的准确度,进而保证后续所获得增强语音信号的准确度。另外,在本方案中,语音合成过程中可以仅关注幅度谱,而不用关注相位信息,直接复用从第一复数频谱中提取到的相位谱,因此,减少了语音合成过程中的计算量。而第一复数频谱是进行预增强得到的,其含噪量更少,因此,在一定程度上保证了相位信息的准确性。
在图15所示的实施例中,步骤1510中可以通过第一神经网络来实现与增强,步骤1540可以按照图13所示的过程实现、步骤1550可以按照图14所示的过程实现,则实现了将传统信号处理与深度学习进行深度结合,对目标语音帧进行二次增强,实现了对目标语音帧进行多阶段增强,即第一阶段采用深度学习方式根据目标语音帧的幅度谱进行预增强,可以降低在第二阶段中语音分解获取声门参数、激励信号和增益的困难;第二阶段,通过信号处理的方式获得用于重构原始语音信号的声门参数、激励信号和增益。而且,在第二阶段中,按照语音产生的数字模型进行语音合成,并不直接对目标语音帧的信号进行处理,因此,可以避免在第二阶段中出现削语音的情况。
在本申请的一些实施例中,步骤410之前,该方法还包括:获取所述目标语音帧的时域信号;对所述目标语音帧的时域信号进行时频变换,得到所述目标语音帧的复数频谱。
时频变换可以是短时傅里叶变换(short-term Fourier transform,STFT)。短时傅里叶变换中采用加窗交叠的操作来消除帧间不平滑。图16是根据一具体示出的短时傅里叶变换中加窗交叠的示意图,在图16中,采用50%加窗交叠的操作,若短时傅里叶变换针对的是640个样本点,则该窗函数的重叠样本数(hop-size)为320。加窗所使用的窗函数可以是汉宁(Hanning)窗、汉明窗等,当然也可以采用其他的窗函数,在此不进行具体限定。
在其他实施例中,也可以采用非50%加窗交叠的操作。例如,若短时傅里叶变换针对的是512个样本点,在这种情况下,若一语音帧中包括320个样本点,则只需要交叠上一语音帧的192个样本点即可。
在本申请的一些实施例中,获取目标语音帧的时域信号的步骤进一步包括:获取待处理的语音信号,所述待处理的语音信号是采集到的语音信号或者对编码语音进行解码所得到的语音信号;对所述待处理的语音信号进行分帧,得到所述目标语音帧的时域信号。
在一些实例中,可以按照设定的帧长来对待处理的语音信号进行分帧,该帧长可根据实际需要进行设定,例如帧长设定为20ms。通过进行分帧,可以得到多个语音帧,而每个语音帧均可作为本申请中的目标语音帧。
如上所描述,本申请的方案可以应用于发送端进行语音增强,也可以应用于接收端进行语音增强。在本申请的方案应用于发送端的情况下,该待处理的语音信号为发送端采集到的语音信号,则对待处理的语音信号进行分帧,得到多个语音帧。分帧后,待处理的语音信号被分割成多个语音帧,然后可以将每一语音帧作为目标语音帧并按照上述步骤410-430的过程对目标语音帧进行增强。进一步的,在得到目标语音帧对应的增强语音信号后,还可以对该增强语音信号进行编码,以基于所得到的编码语音进行传输。
在一实施例中,由于直接采集到的语音信号是模拟信号,为了便于进行信号处理,在进行分帧之前,还进一步需要将信号进行数字化,将时间连续的语音信号变成时间离散的语音信号。在进行数字化过程中,可按照设定的采样率对采集到的语音信号进行采样,设定的采样率可以是16000Hz、8000Hz、32000Hz、48000Hz等,具体可根据实际需要进行设定。
在本申请的方案应用于接收端的情况下,该待处理的语音信号为对所接收到的编码语音进行解码所得到的语音信号。在该种情况下,可能是由于发送端未对所需要传输的语音信号进行增强,因此,为了提高信号质量,需要在接收端对语音进行增强。在通过对待处理的语音信号进行分帧得到多个语音帧后,将其作为目标语音帧并按照如上步骤410-430的过程对目标语音帧进行增强,得到目标语音帧的增强语音信号。进一步的,还可以对目标语音帧对应的增强语音信号进行播放,由于所得到的增强语音信号相较于目标语音帧增强之前的信号,噪声被除去,语音信号的质量更高,因此,对于用户来说,听觉体验更佳。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的方法。对于本申请装置实施例中未披露的细节,请参照本申请上述方法实施例。
图17是根据一实施例示出的语音增强装置的框图,如图17所示,该语音增强装置包括:预增强模块1710,用于根据目标语音帧的复数频谱对所述目标语音帧进行预增强处理,得到第一复数频谱;语音分解模块1720,用于根据所述第一复数频谱对所述目标语音帧进行语音分解,得到所述目标语音帧对应的声门参数、增益和激励信号;合成处理模块1730,用于根据所述声门参数、所述增益和所述激励信号进行合成处理,得到所述目标语音帧对应的增强语音信号。
在本申请的一些实施例中,预增强模块1710,包括:第一输入单元,用于将所述目标语音帧对应的复数频谱输入第一神经网络,所述第一神经网络是根据样本语音帧对应的复数频谱和所述样本语音帧中原始语音信号对应的复数频谱进行训练得到的;第一输出单元,用于由所述第一神经网络根据所述目标语音帧对应的复数频谱输出所述第一复数频谱。
在本申请的一些实施例中,所述第一神经网络包括复数卷积层、门控循环单元层和全连接层;第一输出单元,包括:复数卷积单元,用于由所述复数卷积层根据所述目标语音帧所对应复数频谱中的实部和虚部进行复数卷积处理;变换单元,用于由所述门控循环单元层对所述复数卷积层的输出进行变换处理;全连接单元,用于由所述全连接层对所述门控循环单元的输出进行全连接处理,输出所述第一复数频谱。
在本申请的一些实施例中,语音分解模块1720,包括:第一幅度谱获取单元,用于声门参数预测单元,用于根据所述第一复数频谱对所述目标语音帧进行声门参数预测,得到所述目标语音帧对应的声门参数;激励信号预测单元,用于根据所述第一复数频谱对所述目标语音帧进行激励信号预测,得到所述目标语音帧对应的激励信号;增益预测单元,用于根据所述目标语音帧之前的历史语音帧对应的增益对所述目标语音帧进行增益预测,得到所述目标语音帧对应的增益。
在本申请的一些实施例中,声门参数预测单元,包括:第二输入单元,用于将所述第一复数频谱输入第二神经网络,所述第二神经网络是根据样本语音帧对应的复数频谱和所述样本语音帧对应的声门参数进行训练得到的;第二输出单元,用于所由所述第二神经网络根据所述第一复数频谱输出所述目标语音帧对应的声门参数。
在本申请的另一些实施例中,声门参数预测单元,包括:第三输入单元,用于将所述第一复数频谱和所述目标语音帧之前的历史语音帧对应的声门参数输入第二神经网络,所述第二神经网络是根据样本语音帧对应的复数频谱、样本语音帧之前的历史语音帧对应的声门参数和样本语音帧对应的声门参数进行训练得到的;第三输出单元,用于由所述第一神经网络根据所述第一复数频谱和所述目标语音帧之前的历史语音帧对应的声门参数输出所述目标语音帧对应的声门参数。
在本申请的一些实施例中,增益预测单元,包括:第四输入单元,用于将所述目标语音帧之前的历史语音帧对应的增益输入第三神经网络中,所述第三神经网络是根据样本语音帧之前的历史语音帧对应的增益和所述样本语音帧对应的增益进行训练得到的;第四输出单元,用于由所述第三神经网络根据所述目标语音帧之前的历史语音帧对应的增益输出所述目标语音帧对应的增益。
在本申请的一些实施例中,激励信号预测单元,包括:第五输入单元,用于将所述第一复数频谱输入第四神经网络,所述第四神经网络是根据样本语音帧对应的复数频谱和所述样本语音帧所对应激励信号的频域表示进行训练得到的;第五输出单元,用于由所述第四神经网络根据所述第一复数频谱输出所述目标语音帧所对应激励信号的频域表示。
在本申请的一些实施例中,合成处理模块1730,包括:滤波单元,用于通过声门滤波器对所述目标语音帧对应的激励信号进行滤波,得到滤波输出信号;所述声门滤波器是根据所述目标语音帧对应的声门参数构建的;放大处理单元,用于按照所述目标语音帧对应的增益对所述滤波输出信号进行放大处理,得到所述目标语音帧对应的增强语音信号。
在本申请的一些实施例中,语音分解模块1720,包括:功率谱计算单元,用于根据所述第一复数频谱计算得到功率谱;自相关系数计算单元,用于根据所述功率谱计算得到自相关系数;声门参数计算单元,用于根据所述自相关系数计算得到所述声门参数;增益计算单元,用于根据所述声门参数和所述自相关参数集计算得到所述增益;激励信号确定单元,用于根据所述增益和声门滤波器的功率谱计算得到所述激励信号的功率谱,所述声门滤波器是根据所述声门参数构建的滤波器。
在本申请的一些实施例中,合成处理模块1730,包括:第二幅度谱生成单元,用于根据所述声门滤波器的功率谱和所述激励信号的功率谱生成第一幅度谱;第三幅度谱确定单元,用于按照所述增益对所述第一幅度谱进行放大处理,得到第二幅度谱;增强语音信号确定单元,用于根据所述第二幅度谱和从所述第一复数频谱中提取到的相位谱,确定所述目标语音帧对应的增强语音信号。
在本申请的一些实施例中增强语音信号确定单元,包括:第二复数频谱计算单元,用于组合所述第二幅度谱和从所述第一复数频谱中提取到的相位谱,得到第二复数频谱;时域变换单元,用于将所述第二复数频谱向时域变换,得到所述目标语音帧所对应增强语音信号的时域信号。
图18示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图18示出的电子设备的计算机系统1800仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图18所示,计算机系统1800包括中央处理单元(Central Processing Unit,CPU)1801,其可以根据存储在只读存储器(Read-Only Memory,ROM)1802中的程序或者从存储部分1808加载到随机访问存储器(Random Access Memory,RAM)1803中的程序而执行各种适当的动作和处理,例如执行上述实施例中的方法。在RAM 1803中,还存储有系统操作所需的各种程序和数据。CPU1801、ROM1802以及RAM 1803通过总线1804彼此相连。输入/输出(Input/Output,I/O)接口1805也连接至总线1804。
以下部件连接至I/O接口1805:包括键盘、鼠标等的输入部分1806;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1807;包括硬盘等的存储部分1808;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1809。通信部分1809经由诸如因特网的网络执行通信处理。驱动器1810也根据需要连接至I/O接口1805。可拆卸介质1811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1810上,以便于从其上读出的计算机程序根据需要被安装入存储部分1808。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1809从网络上被下载和安装,和/或从可拆卸介质1811被安装。在该计算机程序被中央处理单元(CPU)1801执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读存储介质承载计算机可读指令,当该计算机可读存储指令被处理器执行时,实现上述任一实施例中的方法。
根据本申请的一个方面,还提供了一种电子设备,其包括:处理器;存储器,存储器上存储有计算机可读指令,计算机可读指令被处理器执行时,实现上述任一实施例中的方法。
根据本申请实施例的一个方面,提供了计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一实施例中的方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (15)
1.一种语音增强方法,其特征在于,包括:
根据目标语音帧对应的复数频谱对所述目标语音帧进行预增强处理,得到第一复数频谱;
根据所述第一复数频谱对所述目标语音帧进行语音分解,得到所述目标语音帧对应的声门参数、增益和激励信号;
根据所述声门参数、所述增益和所述激励信号进行合成处理,得到所述目标语音帧对应的增强语音信号。
2.根据权利要求1所述的方法,其特征在于,所述根据目标语音帧对应的复数频谱对所述目标语音帧进行预增强处理,得到第一复数频谱,包括:
将所述目标语音帧对应的复数频谱输入第一神经网络,所述第一神经网络是根据样本语音帧对应的复数频谱和所述样本语音帧中原始语音信号对应的复数频谱进行训练得到的;
由所述第一神经网络根据所述目标语音帧对应的复数频谱输出所述第一复数频谱。
3.根据权利要求2所述的方法,其特征在于,所述第一神经网络包括复数卷积层、门控循环单元层和全连接层;
所述由所述第一神经网络根据所述目标语音帧的复数频谱输出所述第一复数频谱,包括:
由所述复数卷积层根据所述目标语音帧所对应复数频谱中的实部和虚部进行复数卷积处理;
由所述门控循环单元层对所述复数卷积层的输出进行变换处理;
由所述全连接层对所述门控循环单元的输出进行全连接处理,输出所述第一复数频谱。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第一复数频谱对所述目标语音帧进行语音分解,得到所述目标语音帧对应的声门参数、增益和激励信号,包括:
根据所述第一复数频谱对所述目标语音帧进行声门参数预测,得到所述目标语音帧对应的声门参数;
根据所述第一复数频谱对所述目标语音帧进行激励信号预测,得到所述目标语音帧对应的激励信号;
根据所述目标语音帧之前的历史语音帧对应的增益对所述目标语音帧进行增益预测,得到所述目标语音帧对应的增益。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第一复数频谱对所述目标语音帧进行声门参数预测,得到所述目标语音帧对应的声门参数,包括:
将所述第一复数频谱输入第二神经网络,所述第二神经网络是根据样本语音帧对应的复数频谱和所述样本语音帧对应的声门参数进行训练得到的;
所由所述第二神经网络根据所述第一复数频谱输出所述目标语音帧对应的声门参数。
6.根据权利要求4所述的方法,其特征在于,所述根据所述第一复数频谱对所述目标语音帧进行声门参数预测,得到所述目标语音帧对应的声门参数,包括:
将所述第一复数频谱和所述目标语音帧之前的历史语音帧对应的声门参数输入第二神经网络,所述第二神经网络是根据样本语音帧对应的复数频谱、样本语音帧之前的历史语音帧对应的声门参数和样本语音帧对应的声门参数进行训练得到的;
由所述第一神经网络根据所述第一复数频谱和所述目标语音帧之前的历史语音帧对应的声门参数输出所述目标语音帧对应的声门参数。
7.根据权利要求4所述的方法,其特征在于,所述根据所述目标语音帧之前的历史语音帧对应的增益对所述目标语音帧进行增益预测,得到所述目标语音帧对应的增益,包括:
将所述目标语音帧之前的历史语音帧对应的增益输入第三神经网络中,所述第三神经网络是根据样本语音帧之前的历史语音帧对应的增益和所述样本语音帧对应的增益进行训练得到的;
由所述第三神经网络根据所述目标语音帧之前的历史语音帧对应的增益输出所述目标语音帧对应的增益。
8.根据权利要求4所述的方法,其特征在于,所述根据所述第一复数频谱对所述目标语音帧进行激励信号预测,得到所述目标语音帧对应的激励信号,包括:
将所述第一复数频谱输入第四神经网络,所述第四神经网络是根据样本语音帧对应的复数频谱和所述样本语音帧所对应激励信号的频域表示进行训练得到的;
由所述第四神经网络根据所述第一复数频谱输出所述目标语音帧所对应激励信号的频域表示。
9.根据权利要求4所述的方法,其特征在于,所述根据所述声门参数、所述增益和所述激励信号进行合成处理,得到所述目标语音帧对应的增强语音信号,包括:
通过声门滤波器对所述目标语音帧对应的激励信号进行滤波,得到滤波输出信号;所述声门滤波器是根据所述目标语音帧对应的声门参数构建的;
按照所述目标语音帧对应的增益对所述滤波输出信号进行放大处理,得到所述目标语音帧对应的增强语音信号。
10.根据权利要求1所述的方法,其特征在于,所述根据所述第一复数频谱对所述目标语音帧进行语音分解,得到所述目标语音帧对应的声门参数、增益和激励信号,包括:
根据所述第一复数频谱计算得到功率谱;
根据所述功率谱计算得到自相关系数;
根据所述自相关系数计算得到所述声门参数;
根据所述声门参数和所述自相关参数集计算得到所述增益;
根据所述增益和声门滤波器的功率谱计算得到所述激励信号的功率谱,所述声门滤波器是根据所述声门参数构建的滤波器。
11.根据权利要求10所述的方法,其特征在于,所述根据所述声门参数、所述增益和所述激励信号进行合成处理,得到所述目标语音帧对应的增强语音信号,包括:
根据所述声门滤波器的功率谱和所述激励信号的功率谱生成第一幅度谱;
按照所述增益对所述第一幅度谱进行放大处理,得到第二幅度谱;
根据所述第二幅度谱和从所述第一复数频谱中提取到的相位谱,确定所述目标语音帧对应的增强语音信号。
12.根据权利要求11所述的方法,其特征在于,所述根据所述第二幅度谱和从所述第一复数频谱中提取到的相位谱,确定所述目标语音帧对应的增强语音信号,包括:
组合所述第二幅度谱和从所述第一复数频谱中提取到的相位谱,得到第二复数频谱;
将所述第二复数频谱向时域变换,得到所述目标语音帧所对应增强语音信号的时域信号。
13.一种语音增强装置,其特征在于,包括:
预增强模块,用于根据目标语音帧的复数频谱对所述目标语音帧进行预增强处理,得到第一复数频谱;
语音分解模块,用于根据所述第一复数频谱对所述目标语音帧进行语音分解,得到所述目标语音帧对应的声门参数、增益和激励信号;
合成处理模块,用于根据所述声门参数、所述增益和所述激励信号进行合成处理,得到所述目标语音帧对应的增强语音信号。
14.一种电子设备,其特征在于,包括:
处理器;
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如权利要求1-12中任一项所述的方法。
15.一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被处理器执行时,实现如权利要求1-12中任一项所述的方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110181389.4A CN113571080A (zh) | 2021-02-08 | 2021-02-08 | 语音增强方法、装置、设备及存储介质 |
EP22748989.5A EP4261825A4 (en) | 2021-02-08 | 2022-01-26 | SPEECH ENHANCEMENT APPARATUS AND METHOD, DEVICE AND STORAGE MEDIUM |
PCT/CN2022/074003 WO2022166710A1 (zh) | 2021-02-08 | 2022-01-26 | 语音增强方法、装置、设备及存储介质 |
JP2023527431A JP2023548707A (ja) | 2021-02-08 | 2022-01-26 | 音声強調方法、装置、機器及びコンピュータプログラム |
US18/076,047 US20230097520A1 (en) | 2021-02-08 | 2022-12-06 | Speech enhancement method and apparatus, device, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110181389.4A CN113571080A (zh) | 2021-02-08 | 2021-02-08 | 语音增强方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113571080A true CN113571080A (zh) | 2021-10-29 |
Family
ID=78161113
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110181389.4A Pending CN113571080A (zh) | 2021-02-08 | 2021-02-08 | 语音增强方法、装置、设备及存储介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230097520A1 (zh) |
EP (1) | EP4261825A4 (zh) |
JP (1) | JP2023548707A (zh) |
CN (1) | CN113571080A (zh) |
WO (1) | WO2022166710A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022166710A1 (zh) * | 2021-02-08 | 2022-08-11 | 腾讯科技(深圳)有限公司 | 语音增强方法、装置、设备及存储介质 |
CN115862581A (zh) * | 2023-02-10 | 2023-03-28 | 杭州兆华电子股份有限公司 | 一种重复模式噪声的二次消除方法及系统 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113571079A (zh) * | 2021-02-08 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 语音增强方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140156280A1 (en) * | 2012-11-30 | 2014-06-05 | Kabushiki Kaisha Toshiba | Speech processing system |
CN110808063A (zh) * | 2019-11-29 | 2020-02-18 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和用于处理语音的装置 |
CN111554322A (zh) * | 2020-05-15 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 一种语音处理方法、装置、设备及存储介质 |
CN112242147A (zh) * | 2020-10-14 | 2021-01-19 | 福建星网智慧科技有限公司 | 一种语音增益控制方法及计算机存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10381020B2 (en) * | 2017-06-16 | 2019-08-13 | Apple Inc. | Speech model-based neural network-assisted signal enhancement |
CN108735213B (zh) * | 2018-05-29 | 2020-06-16 | 太原理工大学 | 一种基于相位补偿的语音增强方法及系统 |
CN111653288B (zh) * | 2020-06-18 | 2023-05-09 | 南京大学 | 基于条件变分自编码器的目标人语音增强方法 |
CN113571080A (zh) * | 2021-02-08 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 语音增强方法、装置、设备及存储介质 |
-
2021
- 2021-02-08 CN CN202110181389.4A patent/CN113571080A/zh active Pending
-
2022
- 2022-01-26 JP JP2023527431A patent/JP2023548707A/ja active Pending
- 2022-01-26 EP EP22748989.5A patent/EP4261825A4/en active Pending
- 2022-01-26 WO PCT/CN2022/074003 patent/WO2022166710A1/zh active Application Filing
- 2022-12-06 US US18/076,047 patent/US20230097520A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140156280A1 (en) * | 2012-11-30 | 2014-06-05 | Kabushiki Kaisha Toshiba | Speech processing system |
CN110808063A (zh) * | 2019-11-29 | 2020-02-18 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和用于处理语音的装置 |
CN111554322A (zh) * | 2020-05-15 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 一种语音处理方法、装置、设备及存储介质 |
CN112242147A (zh) * | 2020-10-14 | 2021-01-19 | 福建星网智慧科技有限公司 | 一种语音增益控制方法及计算机存储介质 |
Non-Patent Citations (1)
Title |
---|
OLIVIER PERROTIN: "Glottal Flow Synthesis for Whisper-to-Speech Conversion", ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 28, 6 March 2020 (2020-03-06), pages 889 - 898 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022166710A1 (zh) * | 2021-02-08 | 2022-08-11 | 腾讯科技(深圳)有限公司 | 语音增强方法、装置、设备及存储介质 |
CN115862581A (zh) * | 2023-02-10 | 2023-03-28 | 杭州兆华电子股份有限公司 | 一种重复模式噪声的二次消除方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
US20230097520A1 (en) | 2023-03-30 |
JP2023548707A (ja) | 2023-11-20 |
EP4261825A1 (en) | 2023-10-18 |
WO2022166710A1 (zh) | 2022-08-11 |
EP4261825A4 (en) | 2024-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11894014B2 (en) | Audio-visual speech separation | |
Li et al. | Two heads are better than one: A two-stage complex spectral mapping approach for monaural speech enhancement | |
CN113571080A (zh) | 语音增强方法、装置、设备及存储介质 | |
Lin et al. | Speech enhancement using multi-stage self-attentive temporal convolutional networks | |
Xiang et al. | A nested u-net with self-attention and dense connectivity for monaural speech enhancement | |
US10810993B2 (en) | Sample-efficient adaptive text-to-speech | |
CN112820315B (zh) | 音频信号处理方法、装置、计算机设备及存储介质 | |
CN113345460B (zh) | 音频信号处理方法、装置、设备及存储介质 | |
CN112767959B (zh) | 语音增强方法、装置、设备及介质 | |
CN114333893A (zh) | 一种语音处理方法、装置、电子设备和可读介质 | |
CN114338623A (zh) | 音频的处理方法、装置、设备、介质及计算机程序产品 | |
Rascon | Characterization of deep learning-based speech-enhancement techniques in online audio processing applications | |
US20230050519A1 (en) | Speech enhancement method and apparatus, device, and storage medium | |
CN113744715A (zh) | 声码器语音合成方法、装置、计算机设备及存储介质 | |
CN114333891A (zh) | 一种语音处理方法、装置、电子设备和可读介质 | |
CN114333892A (zh) | 一种语音处理方法、装置、电子设备和可读介质 | |
Chen et al. | CITISEN: A Deep Learning-Based Speech Signal-Processing Mobile Application | |
Schröter et al. | CLC: complex linear coding for the DNS 2020 challenge | |
CN116013343A (zh) | 语音增强方法、电子设备和存储介质 | |
CN111326166B (zh) | 语音处理方法及装置、计算机可读存储介质、电子设备 | |
Kashani et al. | Speech enhancement via deep spectrum image translation network | |
CN113571081A (zh) | 语音增强方法、装置、设备及存储介质 | |
CN116741193B (zh) | 语音增强网络的训练方法、装置、存储介质及计算机设备 | |
WO2024055751A1 (zh) | 音频数据处理方法、装置、设备、存储介质及程序产品 | |
CN113571075B (zh) | 音频处理的方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40052885 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |