CN110797039B - 语音处理方法、装置、终端及介质 - Google Patents

语音处理方法、装置、终端及介质 Download PDF

Info

Publication number
CN110797039B
CN110797039B CN201910752247.1A CN201910752247A CN110797039B CN 110797039 B CN110797039 B CN 110797039B CN 201910752247 A CN201910752247 A CN 201910752247A CN 110797039 B CN110797039 B CN 110797039B
Authority
CN
China
Prior art keywords
signal
enhanced
voice signal
harmonic
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910752247.1A
Other languages
English (en)
Other versions
CN110797039A (zh
Inventor
鲍枫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910752247.1A priority Critical patent/CN110797039B/zh
Publication of CN110797039A publication Critical patent/CN110797039A/zh
Application granted granted Critical
Publication of CN110797039B publication Critical patent/CN110797039B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明实施例提供了一种语音处理方法、装置、终端及介质,其中,所述方法包括:获取第一增强语音信号和第二增强语音信号,所述第一增强语音信号和所述第二增强语音信号分别为对含噪语音信号进行增强处理所得到;对所述第一增强语音信号和第二增强语音信号进行融合,得到融合增强语音信号;对所述融合增强语音信号进行谐波恢复,得到谐波语音信号。可见,通过实施本申请,可以提高谐波恢复的精确性和合理性。

Description

语音处理方法、装置、终端及介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种语音处理方法、装置、终端及介质。
背景技术
在语音增强处理中,传统语音增强方法(如谱减法,统计模型法等)对平稳噪声具有较好的处理能力,而机器学习语音增强方法(DNN,RNN和LSTM等)对非平稳噪声具有较好的处理能力。同时,传统语音增强方法去噪量不足,而机器学习语音增强方法去噪量过多,会引起语音谐波信息的丢失。
目前,在谐波恢复部分仅采用一种增强语音方法处理得到的增强语音信号(或信息)进行谐波恢复,存在一定的局限性,会影响谐波恢复的精确性和合理性。
发明内容
本发明实施例提供了一种语音处理方法、装置、终端及计算机存储介质,可以有效的地对增强语音信号进行谐波恢复处理,得到更精确和合理的增强语音信号。
一方面,本发明实施例提供了一种语音处理方法,所述语音处理方法包括:
获取第一增强语音信号和第二增强语音信号,所述第一增强语音信号和所述第二增强语音信号分别为对含噪语音信号进行增强处理所得到;
对所述第一增强语音信号和第二增强语音信号进行融合,得到融合增强语音信号;
对所述融合增强语音信号进行谐波恢复,得到谐波语音信号。
另一方面,本发明实施例提供了一种语音处理装置,该语音处理装置包括:
处理单元,用于获取第一增强语音信号和第二增强语音信号,所述第一增强语音信号和所述第二增强语音信号分别为对含噪语音信号进行增强处理所得到;
融合单元,用于对所述第一增强语音信号和第二增强语音信号进行融合,得到融合增强语音信号;
恢复单元,用于对所述融合增强语音信号进行谐波恢复,得到谐波语音信号。
再一方面,本发明实施例提供了一种计算机设备,所述终端设备包括:处理器以及和处理器相连的存储器;其中,所述存储器包括计算机可读指令;所述处理器用于执行所述存储器中的计算机可读指令,从而使得所述终端设备执行如下步骤:
获取第一增强语音信号和第二增强语音信号,所述第一增强语音信号和所述第二增强语音信号分别为对含噪语音信号进行增强处理所得到;
对所述第一增强语音信号和第二增强语音信号进行融合,得到融合增强语音信号;
对所述融合增强语音信号进行谐波恢复,得到谐波语音信号。
再一方面,本发明实施例提供了一种计算机存储介质,所述计算机存储介质中存储有指令,当其在计算机上运行时,使得计算机执行如下步骤:
获取第一增强语音信号和第二增强语音信号,所述第一增强语音信号和所述第二增强语音信号分别为对含噪语音信号进行增强处理所得到;
对所述第一增强语音信号和第二增强语音信号进行融合,得到融合增强语音信号;
对所述融合增强语音信号进行谐波恢复,得到谐波语音信号。
本发明实施例在进行语音处理时,可对含噪语音信号进行增强处理,得到第一增强语音信号和第二增强语音信号,该增强处理方法可能使语音信号丢失语音谐波信息,但仅对一种信号进行谐波恢复具有一定得局限性,因此对第一增强语音信号和第二增强语音信号进行融合,得到融合增强语音信号,对融合增强语音信号进行谐波恢复,得到谐波语音信号。上述语音处理过程,根据融合后的增强语音信号进行谐波恢复处理,有效的恢复出语音谐波信息,能有效提高语音增强处理的精确性和合理性。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1(a)是本发明实施例提供的一种含有0dB Babble噪声的语音信号;
图1(b)是本发明实施例提供的一种理想的纯净语音信号;
图1(c)是本发明实施例提供的一种长短期记忆网络进行语音增强得到的语音信号;
图2是本发明实施例公开的一种语音处理方法的流程示意图;
图3是本发明实施例公开的另一种语音处理方法的流程示意图;
图4是本发明实施例公开的另一种语音处理方法的流程示意图;
图5是本发明实施例提供的一种滤波器传递函数示意图;
图6是本发明实施例提供的一种对图1(a)所示的含噪语音信号进行语音处理的结果图;
图7是本发明实施例公开的另一种语音处理方法的流程示意图;
图8(a)是本发明实施例提供的一种时域纯净语音波形;
图8(b)是本发明实施例提供的一种纯净语音频谱;
图8(c)是本发明实施例提供的一种半波整流后时域纯净语音波形;
图8(d)是本发明实施例提供的一种半波整流后纯净语音频谱;
图9是本发明实施例公开的另一种语音处理方法的流程示意图;
图10是本发明实施例提供的一种可能的第二相关系数的示意图;
图11是本发明实施例提供的一种语音处理装置的结构示意图;
图12是本发明实施例提供的另一种语音处理装置的结构示意图;
图13是本发明实施例提供的一种终端的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。另外,在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
本发明使用的术语仅仅是出于描述特定实施例的目的,而非限制本发明。本发明和权利要求书所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其它含义。应当理解的是,本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。
尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,此外,所使用的词语“如果”可以被解释成为“在……时”,或者,“当……时”,或者,“响应于确定”。
本申请中,语音增强的本质是语音降噪,如麦克风采集的语音通常是带有不同噪声的“污染”语音,语音增强的主要目的就是从被“污染”的含噪语音信号中恢复出“纯净”的语音信号。请参阅图1(a)-图1(c),其中,图1(a)所示为含有0dB Babble噪声的语音信号,图1(b)所示为理想的纯净语音信号,对该含有0dB Babble噪声的语音信号进行语音增强处理,使其尽可能的接近理想的纯净语音信号。该语音增强处理可以按照其运用方法的不同,分成如下两大类:数字信号处理的传统语音增强方法和基于机器学习的语音增强方法。其中在传统的数字信号处理的方法中,具体的算法有如下几种:谱减法、维纳滤波法、基于统计模型和自适应滤波的方法。基于机器学习的语音增强方法通过有监督的训练实现语音增强,可以分成以下几类:基于隐马尔科夫模型的语音增强、基于非负矩阵分解的语音增强、基于浅层神经网络的语音增强和基于深层神经网络的语音增强。传统语音增强方法对平稳噪声具有较好的处理能力,但去噪量不足;而机器学习语音增强方法对非平稳噪声具有较好的处理能力,但过多的去噪量则引起了语音谐波信息的丢失,如图1(c)所示,为采取机器学习方法中的长短期记忆网络(Long Short-Term Memory,LSTM)进行语音增强得到的语音信号,与图1(b)进行对比可以看出,其在高频处语音谐波部分丢失,且在中频和高频处还存在较多噪声。
基于上述的描述,本发明实施例提出一种语音处理方法。请参阅图2,图2为本发明实施例公开的一种语音处理方法的流程示意图,该语音处理方法可包括以下步骤S200-S204:
S200,终端获取第一增强语音信号和第二增强语音信号。
终端对含噪语音信号进行增强处理,得到包含第一增强语音信号和第二增强语音信号在内的至少两个增强语音信号。其中,该含噪语音信号可以是终端通过麦克风实时采集语音信息、也可以在语音数据库中获取、还可以是终端从互联网中下载的语音信号;其中,语音信号数据库可以包括:TED-LIUM、CHIME、VoxForge、LibriSpeech、2000HUB5English等;从互联网中下载的语音信号可以包括:从浏览器中下载的语音信号,和/或,从即时通讯应用中下载的语音信号;本发明实施例对此不作限定。
具体地,终端采用第一语音增强算法对含噪语音信号进行增强处理得到第一增强语音信号。由于在计算机处理中,语音信号通常由一些离散的采样点表示,在一些可能的实施例中,本申请涉及的第一增强语音信号也可理解为一些离散的采样点或采样点序列。因此,该第一增强语音信号可表示第一增益因子,该第一增益因子与含噪语音信号进行乘积运算可以得到去噪的语音信号。该第一语音增强算法为系统自定义设置的,用于语音增强处理,例如机器学习的语音增强方法,其可以包括但不限于:基于隐马尔科夫模型的语音增强、基于非负矩阵分解的语音增强、基于浅层神经网络的语音增强和基于深层神经网络的语音增强等。
终端采用第二语音增强算法对含噪语音信号进行增强处理得到第二增强语音信号。同理,在一些可能的实施例中,本申请涉及的第二增强语音信号也可理解为一些离散的采样点或采样点序列,因此,该第二增强语音信号可表示第二增益因子。该第二语音增强算法为系统自定义设置的,用于语音增强处理,例如传统的语音增强方法,其可以包括但不限于:谱减法、维纳滤波法、基于统计模型和自适应滤波的方法等。
同理,终端可采用不同的语音增强算法对含噪语音信号进行增强处理得到相应不同的增强语音信号,便于后续S202基于不同的增强语音信号进行融合得到融合增强语音信号。为方便描述,本申请仅以第一增强语音信号和第二增强语音信号为例进行相关内容的描述,但并不构成限定。
S202,终端对所述第一增强语音信号和第二增强语音信号进行融合,得到融合增强语音信号。
S204,终端对所述融合增强语音信号进行谐波恢复,得到谐波语音信号。
由前述可知,采用机器学习语音增强方法得到的第一增强语音信号去噪量不足,而采用传统语音增强方法去噪量过多而导致语音谐波信息丢失,使得到的第二增强语音信号失真。因此本申请考虑将该第一增强语音信号和第二增强语音信号进行融合,兼顾两种方法的优势,从而达到保证充足的去噪量并不引起过度失真的效果。可理解的,由于人在发浊音时,声带的震动产生带有周期性质的波形,即语音信号具有周期性和谐波性,而噪声信号不具有谐波性。因此,谐波恢复的实质是恢复出部分已丢失的语音谐波信息。
本发明实施例在进行语音处理时,可对含噪语音信号进行增强处理,得到第一增强语音信号和第二增强语音信号,该增强处理方法可能使语音信号丢失语音谐波信息,但仅对一种信号进行谐波恢复具有一定得局限性,因此对第一增强语音信号和第二增强语音信号进行融合,得到融合增强语音信号,对融合增强语音信号进行谐波恢复,得到谐波语音信号。上述语音处理过程,根据融合后的增强语音信号进行谐波恢复处理,有效的恢复出语音谐波信息,提高增强语音信号的精确性和合理性。
请参阅图3,图3为本发明实施例公开的另一种语音处理方法的流程示意图,该语音处理方法可包括以下步骤S300-S306:
S300,终端获取第一增强语音信号和第二增强语音信号。
终端对含噪语音信号进行增强处理,得到包含第一增强语音信号和第二增强语音信号在内的至少两个增强语音信号。其中,该含噪语音信号可以是终端通过麦克风实时采集语音信息、也可以在语音数据库中获取、还可以是终端从互联网中下载的语音信号;其中,语音信号数据库可以包括:TED-LIUM、CHIME、VoxForge、LibriSpeech、2000HUB5English等;从互联网中下载的语音信号可以包括:从浏览器中下载的语音信号,和/或,从即时通讯应用中下载的语音信号;本发明实施例对此不作限定。
具体地,终端采用第一语音增强算法对含噪语音信号进行增强处理得到第一增强语音信号。由于在计算机处理中,语音信号通常由一些离散的采样点表示,在一些可能的实施例中,本申请涉及的第一增强语音信号也可理解为一些离散的采样点或采样点序列。因此,该第一增强语音信号可表示第一增益因子,该第一增益因子与含噪语音信号进行乘积运算可以得到去噪的语音信号。该第一语音增强算法为系统自定义设置的,用于语音增强处理,例如机器学习的语音增强方法,其可以包括但不限于:基于隐马尔科夫模型的语音增强、基于非负矩阵分解的语音增强、基于浅层神经网络的语音增强和基于深层神经网络的语音增强等。
终端采用第二语音增强算法对含噪语音信号进行增强处理得到第二增强语音信号。同理,在一些可能的实施例中,本申请涉及的第二增强语音信号也可理解为一些离散的采样点或采样点序列,因此,该第二增强语音信号可表示第二增益因子。该第二语音增强算法为系统自定义设置的,用于语音增强处理,例如传统的语音增强方法,其可以包括但不限于:谱减法、维纳滤波法、基于统计模型和自适应滤波的方法等。
同理,终端可采用不同的语音增强算法对含噪语音信号进行增强处理得到相应不同的增强语音信号,便于后续S202基于不同的增强语音信号进行融合得到融合增强语音信号。为方便描述,本申请仅以第一增强语音信号和第二增强语音信号为例进行相关内容的描述,但并不构成限定。
S302,终端对所述第一增强语音信号和第二增强语音信号进行融合,得到融合增强语音信号。
在一种实施方式中,终端可采用传统语音融合算法对第一增强语音信号和第二增强语音信号进行融合,得到融合增强语音信号。其中,传统语音融合算法可为系统自定义设置的,例如取平均值、取最大值、取最小值算法等等。
再一种实施方式中,终端基于相关系数对第一增强语音信号和第二增强语音信号进行融合,得到融合增强语音信号。其具体实现,在本申请下文进行阐述。
S304,终端对所述融合增强语音信号进行谐波恢复,得到谐波语音信号。
S306、对所述谐波语音信号进行谐波增强,得到目标增强语音信号。
若谐波语音信号为频域信号,则目标增强语音信号为频域信号。可选地,终端还可对该频域信号进行傅里叶反变换得到目标增强语音信号在时域上的表达式。
本发明实施例在进行语音处理时,可对含噪语音信号进行增强处理,得到第一增强语音信号和第二增强语音信号,该增强处理方法可能使语音信号丢失语音谐波信息,但仅对一种信号进行谐波恢复具有一定得局限性,因此对第一增强语音信号和第二增强语音信号进行融合,得到融合增强语音信号,对融合增强语音信号进行谐波恢复,得到谐波语音信号,对谐波语音信号进行谐波增强,得到目标增强语音信号。上述语音处理过程,根据融合后的增强语音信号进行谐波恢复处理,有效的恢复出语音谐波信息,提高增强语音信号的精确性和合理性。对恢复语音谐波信息的谐波语音信号进行谐波增强,达到增强谐波能量的作用,进一步提升了听觉感知质量和可懂度。
请参阅图4,图4为本发明实施例公开的另一种语音处理方法的流程示意图,图4所示方法详细说明了上述步骤S306中进行谐波增强的具体过程,可包括以下步骤S3060-S3064:
S3060:终端对含噪语音信号进行能量计算,得到所述含噪语音信号在基音周期内的语音能量Ep
语音产生的主要激励源为声带,声带每次开启与闭合的时间是声带的震动周期,其倒数称为基音频率,对应的周期称为基音周期。采用基因估计算法对含噪语音信号进行分析可得到含噪语音信号的基音周期。该基因估计算法包括但不限于:时域估计法、变换法、混合法,其中时域估计法直接由含噪语音波形来估计基音周期,常见的有:自相关法、并行处理法、平均幅度差法、数据减少法等。
进一步的,得到含噪语音信号在基音周期内的语音能量Ep,如公式(3)所示:
其中,s(t)是含噪语音信号,具体采用时域表达方式表达。τ为时延,具体可为系统自定义的。
S3062:终端将预设的滤波器传递函数中包括的周期因子更新为所述Ep,得到新的滤波器传递函数。
滤波器传递函数为预先配置于终端中的,该预设的滤波器传递函数如公式(4)所示:
F(z)=-aZ+1-aZ-1 公式(4)
其中a为周期性因子。
终端将Ep直接赋值给公式(4)中的a,得到新的滤波器传递函数如公式(5)所示:
a=Ep 公式(5)
举例说明,如图5示出一种该滤波器传递函数的示意图,其中图5中周期因子a/Ep为0.5。
S3064:终端采用所述新的滤波器传递函数对所述谐波语音信号进行谐波增强,得到目标增强语音信号。
谐波频点的位置与含噪语音信号的基频相对应,终端通过公式得到基频f0,从而确定谐波频点的位置,即该基频f0对应在谐波语音信号处存在一个谐波频点。其中,fs是含噪语音信号的采样率,P是含噪语音信号的基音周期。在该基音周期内的谐波频点数M,可通过/>计算得到。进一步地,终端将新的滤波器传递函数作用在谐波语音信号中,(具体可作用在谐波语音信号中各个谐波频点上),以进行谐波增强,达到提高谐波能量的作用,得到目标增强语音信号。如图6示例性给出一种采用本发明对图1(a)所示的含噪语音信号进行谐波增强后的结果示意图,与图1(c)对比,可以看出:本发明实施例得到的目标增强语音信号在中频和高频处去除了更多的背景噪声,同时还恢复出部分中高频语音谐波信息,增强了高频处谐波能量,提升了听觉感知质量和可懂度。
请参阅图7,图7为本发明实施例公开的另一种语音处理方法的流程示意图,图7所示方法详细说明了上述步骤204中进行谐波恢复的具体过程,可包括以下步骤S2040-S2044:
S2040:终端将所述融合增强语音信号和所述含噪语音信号进行再融合,得到第一融合增强信号。
终端将融合增强语音信号和含噪语音信号进行再融合,即将融合后的增益因子作用在含噪语音信号上,得到第一融合增强信号,该作用方法可以是进行乘积运算。
S2042:在时域上对所述第一融合增强信号进行谐波分析处理,得到第二融合增强信号。
若第一融合增强信号为频域信号,则终端需先采用傅里叶反变换将频域信号转换为时域信号,进而对该频域信号进行谐波分析处理。若第一融合增强信号为时域信号,则终端直接对该时域信号进行谐波分析处理。可选地,终端在进行谐波分析处理后,还需通过快速傅里叶变换处理得到第二融合增强信号,此时该第二融合增强信号为第一融合增强信号的谐波幅度谱。
其中,终端对第一融合增强信号进行谐波分析处理后的频谱会凸显其谐波性。该谐波分析处理的具体实施方式不做限定,其可包括但不限于正半波整流、负半波整理、绝对值处理等等。举例说明,请参见图8(a)-图8(d)分别示出两种谐波分析处理前后的波形对比示意图。如图8(a)为时域纯净语音波形,理想情况下的图8(a)纯净语音信号经过半波整流处理后得到图8(c)半波整流后时域纯净语音信号。图8(b)为纯净语音频谱,图8(d)为半波整流后纯净语音频谱。对比图8(b)和图8(d),可以看出经过半波整流处理后的纯净语音信号频谱显出了谐波性,同理适用于绝对值处理。
S2044:对所述第一融合增强信号、所述第二融合增强信号及所述融合增强语音信号进行谐波恢复,得到谐波语音信号。
终端将第一融合增强信号的频谱和第二融合增强信号结合用于谐波恢复算法,并结合融合增强语音信号得到谐波语音信号,如公式(6)所示:
其中,代表谐波语音信号的幅度谱,|Xenhanced|代表第一融合增强信号的幅度谱,Xhalf代表第二融合增强信号的幅度谱,/>代表融合增强语音信号。该谐波语音信号恢复出了部分丢失的语音谐波信息。
请参阅图9,图9为本发明实施例公开的另一种语音处理方法的流程示意图,图9所示方法详细说明了上述步骤202中对增强语音信号进行融合的具体过程,可包括以下步骤S2020-S2024:
S2020:对第一噪声信号和含噪语音信号进行相关性计算,得到第一相关系数。
终端通过机器学习语音增强方法可以得到第一噪声信号和第一增强语音信号。对第一噪声信号和含噪语音信号进行相关性计算,通过公式(7)可以计算得到第一相关性系数:
其中,矢量y1代表含噪语音信号的幅度谱,d1代表第一噪声信号的幅度谱,T代表矩阵转置运算。
S2022:对第二噪声信号和含噪语音信号进行相关性计算,得到第二相关系数。
终端通过传统语音增强方法可以得到第二噪声信号和第二增强语音信号。对第二噪声信号和含噪语音信号进行相关性计算,通过公式(8)可以计算得到第二相关性系数:
其中,矢量y2代表含噪语音信号的幅度谱,d2代表第二噪声信号的幅度谱,T代表矩阵转置运算。以第二相关性系数为例,如图10示出一种可能的第二相关系数的示意图。如图10所示,可以直观看出,该第二相关性系数可以有效地跟随输入含噪语音信号能量的变化而变化,是一种自适应参数,不受输入信号能量和类型的约束。
S2024:根据所述第一相关系数和所述第二相关系数,对所述第一增强语音信号和第二增强语音信号进行融合,得到融合增强语音信号。
终端利用相关性系数可以大致分辨出含噪语音信号的语音段或非语音段,从而自适应的调整第一增强语音信号和第二增强语音信号的融合比例。具体可采用如下公式(9)计算得到融合增强语音信号:
其中,为融合增强语音信号,G1为机器学习语音增强方法得到的第一增强语音信号,G2为传统语音增强方法得到的第二增强语音信号。ρ1为第一相关性系数,ρ2为第二相关性系数。由根据公式(9)调整不同区域的两种增益比例,使得语音和非语音段能分别选择最佳增益信息。在非语音段时,ρ值较大,因此G1所占比例大于G2,在语音段时,ρ值较小,因此G1所占比例小于G2。达到自适应的选择最优增益的效果。
本发明实施例在进行语音处理时,可对含噪语音信号进行增强处理,得到第一增强语音信号和第二增强语音信号,该增强处理方法可能使语音信号丢失语音谐波信息,但仅对一种信号进行谐波恢复具有一定得局限性,因此对第一增强语音信号和第二增强语音信号进行融合,得到融合增强语音信号,对融合增强语音信号进行谐波恢复,得到谐波语音信号,对谐波语音信号进行谐波增强,得到目标增强语音信号。上述语音处理过程,根据融合后的增强语音信号进行谐波恢复处理,有效的恢复出语音谐波信息,提高增强语音信号的精确性和合理性。对恢复语音谐波信息的谐波语音信号进行谐波增强,达到增强谐波能量的作用,进一步提升了听觉感知质量和可懂度。
基于上述语音处理方法实施例的描述,本发明实施例还公开了一种语音处理装置10,该语音处理装置可以是运行于终端中的一个计算机程序(包括程序代码)。该语音处理装置可以执行上述语音处理的方法。请参见图11,该语音处理装置10可以运行如下单元:
处理单元100,用于获取第一增强语音信号和第二增强语音信号,所述第一增强语音信号和所述第二增强语音信号分别为对含噪语音信号进行增强处理所得到;
融合单元102,用于对所述第一增强语音信号和第二增强语音信号进行融合,得到融合增强语音信号;
恢复单元104,用于对所述融合增强语音信号进行谐波恢复,得到谐波语音信号。
在一种实施方式中,请参见图12,语音处理装置10包括处理单元100、融合单元102、恢复单元104,还可以包括增强单元106,具体用于:对所述谐波语音信号进行谐波增强,得到目标增强语音信号。
再一种实施方式中,增强单元106在用于对所述谐波语音信号进行谐波增强,得到目标增强语音信号时,具体用于:
对含噪语音信号进行能量计算,得到所述含噪语音信号在基音周期内的语音能量Ep
将预设的滤波器传递函数中包括的周期因子更新为所述Ep,得到新的滤波器传递函数;
采用所述新的滤波器传递函数对所述谐波语音信号进行谐波增强,得到目标增强语音信号。
再一种实施方式中,恢复单元104在用于所述对所述融合增强语音信号进行谐波恢复,得到谐波语音信号时,具体用于:
将所述融合增强语音信号和所述含噪语音信号进行再融合,得到第一融合增强信号;
在时域上对所述第一融合增强信号进行谐波分析处理,得到第二融合增强信号;
对所述第一融合增强信号、所述第二融合增强信号及所述融合增强语音信号进行谐波恢复,得到谐波语音信号。
再一种实施方式中,恢复单元104在用于对所述第一融合增强信号、所述第二融合增强信号及所述融合增强语音信号进行谐波恢复,得到谐波语音信号时,具体用于:采用如下公式计算得到所述谐波语音信号:
其中,谐波语音信号,|Xenhanced|为所述第一融合增强信号,|Xhalf|第二融合增强信号,/>融合增强语音信号。
再一种实施方式中,融合单元102在用于对所述第一增强语音信号和第二增强语音信号进行融合,得到融合增强语音信号时,具体用于:
对第一噪声信号和含噪语音信号进行相关性计算,得到第一相关系数;
对第二噪声信号和含噪语音信号进行相关性计算,得到第二相关系数;
根据所述第一相关系数和所述第二相关系数,对所述第一增强语音信号和第二增强语音信号进行融合,得到融合增强语音信号;
其中,所述第一噪声信号和所述第二噪声信号分别为对所述含噪语音信号进行去噪处理得到的噪声信号。
再一种实施方式中,融合单元102在根据所述第一相关系数和所述第二相关系数,对所述第一增强语音信号和第二增强语音信号进行融合,得到融合增强语音信号时,具体用于:采用如下公式计算得到所述融合增强语音信号:
其中,ρ1为所述第一相关系数,ρ2为所述第二相关系数,G1为所述第一增强语音信号,G2为所述第二增强语音信号。
根据本发明的另一个实施例,图12所示的语音处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本发明的其它实施例中,基于语音处理装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本发明的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行上述的语音处理方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图13中所示的语音处理装置设备,以及来实现本发明实施例的语音处理方法。所述计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
本发明实施例在进行语音处理时,终端可对含噪语音信号进行增强处理,得到第一增强语音信号和第二增强语音信号,该增强处理方法可能使语音信号丢失语音谐波信息,但仅对一种信号进行谐波恢复具有一定得局限性,因此对第一增强语音信号和第二增强语音信号进行融合,得到融合增强语音信号,对融合增强语音信号进行谐波恢复,得到谐波语音信号。上述语音处理过程,根据融合后的增强语音信号进行谐波恢复处理,有效的恢复出语音谐波信息,提高增强语音信号的精确性和合理性。
基于上述方法实施例以及装置实施例的描述,本发明实施例还提供一种终端20。请参见图12,该终端至少包括处理器201、输入设备202、输出设备203以及计算机存储介质204。所述输入设备202中还可包括麦克风,麦克风可用于采集语音信号,所述麦克风可以是终端出厂时配置在终端上的麦克风,也可以是与终端相连接的麦克风。其中,终端内的处理器201、输入设备202、输出设备203以及计算机存储介质204可通过总线或其他方式连接。
计算机存储介质204可以存储在终端的存储器中,所述计算机存储介质204用于存储计算机程序,所述计算机程序包括程序指令,所述处理器201用于执行所述计算机存储介质204存储的程序指令。处理器201(或称CPU(Central Processing Unit,中央处理器))是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能;在一个实施例中,本发明实施例所述的处理器201可以用于对含噪语音信号进行一系列的语音处理,包括:对含噪语音信号进行增强处理,得到第一增强语音信号和第二增强语音信号;对所述第一增强语音信号和第二增强语音信号进行融合,得到融合增强语音信号;对所述融合增强语音信号进行谐波恢复,得到谐波语音信号,等等。
本发明实施例还提供了一种计算机存储介质(Memory),所述计算机存储介质是终端中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括终端中的内置存储介质,当然也可以包括终端所支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器201加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器的计算机存储介质。
在一个实施例中,可由处理器201加载并执行计算机存储介质中存放的一条或一条以上指令,以实现上述有关语音处理方法实施例中的方法的相应步骤;具体实现中,计算机存储介质中的一条或一条以上指令由处理器201加载并执行如下步骤:
获取第一增强语音信号和第二增强语音信号,所述第一增强语音信号和所述第二增强语音信号分别为对含噪语音信号进行增强处理所得到;
对所述第一增强语音信号和第二增强语音信号进行融合,得到融合增强语音信号;
对所述融合增强语音信号进行谐波恢复,得到谐波语音信号。
在一种实施方式中,在对所述融合增强语音信号进行谐波恢复,得到谐波语音信号之后,所述一条或一条以上指令由处理器201加载并具体执行:
对所述谐波语音信号进行谐波增强,得到目标增强语音信号。
再一种实施方式中,在用于对所述谐波语音信号进行谐波增强,得到目标增强语音信号时,所述一条或一条以上指令由处理器201加载并具体执行:
对含噪语音信号进行能量计算,得到所述含噪语音信号在基音周期内的语音能量Ep
将预设的滤波器传递函数中包括的周期因子更新为所述Ep,得到新的滤波器传递函数;
采用所述新的滤波器传递函数对所述谐波语音信号进行谐波增强,得到目标增强语音信号。
再一种实施方式中,在用于所述对所述融合增强语音信号进行谐波恢复,得到谐波语音信号时,所述一条或一条以上指令由处理器201加载并具体执行:
将所述融合增强语音信号和所述含噪语音信号进行再融合,得到第一融合增强信号;
在时域上对所述第一融合增强信号进行谐波分析处理,得到第二融合增强信号;
对所述第一融合增强信号、所述第二融合增强信号及所述融合增强语音信号进行谐波恢复,得到谐波语音信号。
再一种实施方式中,在用于对所述第一融合增强信号、所述第二融合增强信号及所述融合增强语音信号进行谐波恢复,得到谐波语音信号时,所述一条或一条以上指令由处理器201加载并具体执行:
采用如下公式(1)计算得到所述谐波语音信号:
其中,谐波语音信号,|Xenhanced|为所述第一融合增强信号,|Xhalf|第二融合增强信号,/>融合增强语音信号。
再一种实施方式中,在用于对所述第一增强语音信号和第二增强语音信号进行融合,得到融合增强语音信号时,所述一条或一条以上指令由处理器201加载并具体执行:
对第一噪声信号和含噪语音信号进行相关性计算,得到第一相关系数;
对第二噪声信号和含噪语音信号进行相关性计算,得到第二相关系数;
根据所述第一相关系数和所述第二相关系数,对所述第一增强语音信号和第二增强语音信号进行融合,得到融合增强语音信号;
其中,所述第一噪声信号和所述第二噪声信号分别为对所述含噪语音信号进行去噪处理得到的噪声信号。
再一种实施方式中,在用于根据所述第一相关系数和所述第二相关系数,对所述第一增强语音信号和第二增强语音信号进行融合,得到融合增强语音信号时,所述一条或一条以上指令由处理器201加载并具体执行:
采用如下公式(2)计算得到所述融合增强语音信号:
其中,ρ1为所述第一相关系数,ρ2为所述第二相关系数,G1为所述第一增强语音信号,G2为所述第二增强语音信号。
本发明实施例在进行语音处理时,可对含噪语音信号进行增强处理,得到第一增强语音信号和第二增强语音信号,该增强处理方法可能使语音信号丢失语音谐波信息,但仅对一种信号进行谐波恢复具有一定得局限性,因此对第一增强语音信号和第二增强语音信号进行融合,得到融合增强语音信号,对融合增强语音信号进行谐波恢复,得到谐波语音信号,对谐波语音信号进行谐波增强,得到目标增强语音信号。上述语音处理过程,根据融合后的增强语音信号进行谐波恢复处理,有效的恢复出语音谐波信息,提高增强语音信号的精确性和合理性。对恢复语音谐波信息的谐波语音信号进行谐波增强,达到增强谐波能量的作用,进一步提升了听觉感知质量和可懂度。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (9)

1.一种语音处理方法,其特征在于,所述方法包括:
获取第一增强语音信号和第二增强语音信号,所述第一增强语音信号为采用第一语音增强算法对含噪语音信号进行增强处理所得到,所述第二增强语音信号为采用第二语音增强算法对含噪语音信号进行增强处理所得到;
对所述第一增强语音信号和第二增强语音信号进行融合,得到融合增强语音信号;
将所述融合增强语音信号和所述含噪语音信号进行再融合,得到第一融合增强信号;
在时域上对所述第一融合增强信号进行谐波分析以增强其谐波性,得到第二融合增强信号;
将第一融合增强信号的频谱和第二融合增强信号结合用于谐波恢复算法,并结合融合增强语音信号得到谐波语音信号。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
对所述谐波语音信号进行谐波增强,得到目标增强语音信号。
3.如权利要求2所述的方法,其特征在于,所述对所述谐波语音信号进行谐波增强,得到目标增强语音信号包括:
对含噪语音信号进行能量计算,得到所述含噪语音信号在基音周期内的语音能量Ep
将预设的滤波器传递函数中包括的周期因子更新为所述Ep,得到新的滤波器传递函数;
采用所述新的滤波器传递函数对所述谐波语音信号进行谐波增强,得到目标增强语音信号。
4.如权利要求1所述的方法,其特征在于,所述将第一融合增强信号的频谱和第二融合增强信号结合用于谐波恢复算法,并结合融合增强语音信号得到谐波语音信号包括:
采用如下公式(1)计算得到所述谐波语音信号:
其中,为谐波语音信号的幅度谱,|Xenhanced|为所述第一融合增强信号的幅度谱,|Xhalf|为第二融合增强信号的幅度谱,/>为融合增强语音信号。
5.如权利要求1所述的方法,其特征在于,所述对所述第一增强语音信号和第二增强语音信号进行融合,得到融合增强语音信号包括:
对第一噪声信号和含噪语音信号进行相关性计算,得到第一相关系数;
对第二噪声信号和含噪语音信号进行相关性计算,得到第二相关系数;
根据所述第一相关系数和所述第二相关系数,对所述第一增强语音信号和第二增强语音信号进行融合,得到融合增强语音信号;
其中,所述第一噪声信号和所述第二噪声信号分别为对所述含噪语音信号进行去噪处理得到的噪声信号。
6.如权利要求5所述的方法,其特征在于,所述根据所述第一相关系数和所述第二相关系数,对所述第一增强语音信号和第二增强语音信号进行融合,得到融合增强语音信号包括:
采用如下公式(2)计算得到所述融合增强语音信号:
其中,ρ1为所述第一相关系数,ρ2为所述第二相关系数,G1为所述第一增强语音信号,G2为所述第二增强语音信号。
7.一种语音处理装置,其特征在于,所述装置包括:
处理单元,用于获取第一增强语音信号和第二增强语音信号,所述第一增强语音信号为采用第一语音增强算法对含噪语音信号进行增强处理所得到,所述第二增强语音信号为采用第二语音增强算法对含噪语音信号进行增强处理所得到;
融合单元,用于对所述第一增强语音信号和第二增强语音信号进行融合,得到融合增强语音信号;
恢复单元,用于将所述融合增强语音信号和所述含噪语音信号进行再融合,得到第一融合增强信号;在时域上对所述第一融合增强信号进行谐波分析以增强其谐波性,得到第二融合增强信号;将第一融合增强信号的频谱和第二融合增强信号结合用于谐波恢复算法,并结合融合增强语音信号得到谐波语音信号。
8.一种计算机设备,其特征在于,所述计算机设备包括:
存储器,所述存储器包括计算机可读指令;
与所述存储器相连的处理器,所述处理器用于执行所述计算机可读指令,从而使得所述设备执行权利要求1~6任一项所述的语音处理方法。
9.一种计算机存储介质,其特征在于,计算机存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述权利要求1~6中任意一项所述的语音处理方法。
CN201910752247.1A 2019-08-15 2019-08-15 语音处理方法、装置、终端及介质 Active CN110797039B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910752247.1A CN110797039B (zh) 2019-08-15 2019-08-15 语音处理方法、装置、终端及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910752247.1A CN110797039B (zh) 2019-08-15 2019-08-15 语音处理方法、装置、终端及介质

Publications (2)

Publication Number Publication Date
CN110797039A CN110797039A (zh) 2020-02-14
CN110797039B true CN110797039B (zh) 2023-10-24

Family

ID=69427445

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910752247.1A Active CN110797039B (zh) 2019-08-15 2019-08-15 语音处理方法、装置、终端及介质

Country Status (1)

Country Link
CN (1) CN110797039B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111696532B (zh) * 2020-06-17 2023-08-18 北京达佳互联信息技术有限公司 语音识别方法、装置、电子设备以及存储介质
CN114023317A (zh) * 2021-11-04 2022-02-08 五华县昊天电子科技有限公司 一种基于云平台的语音翻译系统
CN114389920B (zh) * 2022-01-21 2023-09-26 哲库科技(北京)有限公司 信道估计结果处理方法、装置、终端及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103038825A (zh) * 2011-08-05 2013-04-10 华为技术有限公司 语音增强方法和设备
CN105632512A (zh) * 2016-01-14 2016-06-01 华南理工大学 一种基于统计模型的双传感器语音增强方法与装置
CN108735229A (zh) * 2018-06-12 2018-11-02 华南理工大学 一种基于信噪比加权的幅度与相位联合补偿抗噪语音增强方法及实现装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7383179B2 (en) * 2004-09-28 2008-06-03 Clarity Technologies, Inc. Method of cascading noise reduction algorithms to avoid speech distortion
KR100667852B1 (ko) * 2006-01-13 2007-01-11 삼성전자주식회사 휴대용 레코더 기기의 잡음 제거 장치 및 그 방법
US8606566B2 (en) * 2007-10-24 2013-12-10 Qnx Software Systems Limited Speech enhancement through partial speech reconstruction

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103038825A (zh) * 2011-08-05 2013-04-10 华为技术有限公司 语音增强方法和设备
CN105632512A (zh) * 2016-01-14 2016-06-01 华南理工大学 一种基于统计模型的双传感器语音增强方法与装置
CN108735229A (zh) * 2018-06-12 2018-11-02 华南理工大学 一种基于信噪比加权的幅度与相位联合补偿抗噪语音增强方法及实现装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"自适应后滤波技术在波形内插编码算法中的应用";王晶等;信号处理;第23卷(第5期);第755-758页 *

Also Published As

Publication number Publication date
CN110797039A (zh) 2020-02-14

Similar Documents

Publication Publication Date Title
Qian et al. Speech Enhancement Using Bayesian Wavenet.
Kaneko et al. Generative adversarial network-based postfilter for STFT spectrograms
JP6876641B2 (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
Giacobello et al. Sparse linear prediction and its applications to speech processing
CN110797039B (zh) 语音处理方法、装置、终端及介质
CN112927707B (zh) 语音增强模型的训练方法和装置及语音增强方法和装置
US9324338B2 (en) Denoising noisy speech signals using probabilistic model
Xu et al. Global variance equalization for improving deep neural network based speech enhancement
JP6195548B2 (ja) 信号解析装置、方法、及びプログラム
CN113345460B (zh) 音频信号处理方法、装置、设备及存储介质
Pannala et al. Robust Estimation of Fundamental Frequency Using Single Frequency Filtering Approach.
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
Saleem et al. Spectral phase estimation based on deep neural networks for single channel speech enhancement
Girirajan et al. Real-Time Speech Enhancement Based on Convolutional Recurrent Neural Network.
Hao et al. Speech enhancement, gain, and noise spectrum adaptation using approximate Bayesian estimation
Enzner et al. Bayesian MMSE filtering of noisy speech by SNR marginalization with global PSD priors
CN113035216B (zh) 麦克风阵列语音的增强方法、及其相关设备
Diaz‐Ramirez et al. Robust speech processing using local adaptive non‐linear filtering
Astudillo et al. Uncertainty propagation
CN111276132A (zh) 一种语音处理方法、电子设备及计算机可读存储介质
CN110648681B (zh) 语音增强的方法、装置、电子设备及计算机可读存储介质
CN111862931A (zh) 一种语音生成方法及装置
KR20130085732A (ko) 음성 존재 확률을 이용한 코드북 기반 음성 향상 방법 및 그 장치
Zhao et al. Online noise estimation using stochastic-gain HMM for speech enhancement
CN111933172A (zh) 人声分离提取方法方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40013163

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant