CN105590629A - 一种语音处理的方法及装置 - Google Patents

一种语音处理的方法及装置 Download PDF

Info

Publication number
CN105590629A
CN105590629A CN201410657804.9A CN201410657804A CN105590629A CN 105590629 A CN105590629 A CN 105590629A CN 201410657804 A CN201410657804 A CN 201410657804A CN 105590629 A CN105590629 A CN 105590629A
Authority
CN
China
Prior art keywords
frequency
voice signal
harmonic
slope
harmonic wave
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410657804.9A
Other languages
English (en)
Other versions
CN105590629B (zh
Inventor
郭李
仇存收
刘立
田立生
常青
王金鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Device Co Ltd
Original Assignee
Huawei Device Dongguan Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Device Dongguan Co Ltd filed Critical Huawei Device Dongguan Co Ltd
Priority to CN201410657804.9A priority Critical patent/CN105590629B/zh
Priority to PCT/CN2015/085209 priority patent/WO2016078439A1/zh
Publication of CN105590629A publication Critical patent/CN105590629A/zh
Application granted granted Critical
Publication of CN105590629B publication Critical patent/CN105590629B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

一种语音处理的方法,用于解决现有技术中语音处理时误判率高的问题,所述方法包括:用户设备将获取的语音信号进行加窗和分帧;加重所述进行加窗和分帧后的语音信号中的高频谐波成分;根据快速傅立叶变换FFT获取所述加重高频谐波成分后的语音信号的频谱;计算所述频谱中各个频点的斜率;根据所述斜率确定所述语音信号的中心频点,并根据所述中心频点确定谐波。本发明实施例还提供一种语音处理的装置。

Description

一种语音处理的方法及装置
技术领域
本发明涉及通信领域,具体涉及一种语音处理方法及装置。
背景技术
在语音通信设备或高质量录音设备中,都需要用到语音编解码、语音前后处理、语音合成、语音识别等技术,所有这些对语音进行处理的技术都需要对语音信号进行分帧,然后逐帧进行处理,其中,谐波检测是语音处理的关键技术。
现有的谐波检测技术主要是应用自相关法,通过计算语音信号的自相关函数,并检测出现峰值的位置,进而确定谐波。
但是,应用自相关法进行谐波检测容易受到语音共振峰的干扰,导致谐波的误判率高。
发明内容
本发明实施例提供一种语音处理方法及装置,用于解决现有技术中语音处理时谐波误判率高的问题。
本发明第一方面提供一种语音处理的方法,包括:
用户设备将获取的语音信号进行加窗和分帧;
所述用户设备加重所述进行加窗和分帧后的语音信号中的高频谐波成分;
所述用户设备根据快速傅立叶变换FFT获取所述加重高频谐波成分后的语音信号的频谱;
所述用户设备计算所述频谱中各个频点的斜率;
所述用户设备根据所述斜率确定所述语音信号的中心频点,并根据所述中心频点确定谐波。
结合第一方面,在第一种可能的实现方式中,所述根据所述中心频点确定谐波之后还包括:
所述用户设备统计所述谐波的个数,并判断所述谐波的个数是否大于预设的阈值,若是,则确定所述语音信号存在语音。
结合第一方面,在第二种可能的实现方式中,所述根据所述中心频点确定谐波之后还包括:
所述用户设备通过计算相邻所述谐波的频率差,确定基音频率。
结合第一方面,在第三种可能的实现方式中,所述用户设备计算所述频谱中各个频点的斜率包括:
所述用户设备采用索贝尔sobel算子计算所述频谱中各个频点的斜率g,所述斜率g=A*B,其中,A为sobel算子,B为所述频谱的矩阵。
结合第一方面,在第四种可能的实现方式中,所述用户设备根据所述斜率确定所述语音信号的中心频点包括:
所述用户设备根据所述斜率获取中心频点的起始沿和下降沿,并通过所述起始沿和下降沿确定所述语音信号的中心频点。
结合第一方面,在第五种可能的实现方式中,所述用户设备通过计算相邻所述谐波的频率差,确定基音频率包括:
所述用户设备通过计算相邻所述谐波的频率差,并统计出现次数最多的频率差,将所述出现次数最多的频率差确定为所述基音频率。
结合第一方面,在第六种可能的实现方式中,所述用户设备计算所述频谱中各个频点的斜率之前还包括:
所述用户设备计算所述语音信号中高能量成分的对数谱XHE(t,f),所述高能量成分的对数谱其中,max为取最大值符号,XSTFT(t,f)为语音信号的频谱,SNN(t,f)为通过计算的背景噪声的频谱。
结合第一方面,在第七种可能的实现方式中,所述用户设备加重所述进行加窗和分帧后的语音信号中的高频谐波成分包括:
所述用户设备采用低阶的高通滤波器加重所述进行加窗和分帧后的语音信号中的高频谐波成分。
本发明第二方面提供一种语音处理的装置,包括:
加窗和分帧模块,用于将获取的语音信号进行加窗和分帧;
加重模块,用于在所述加窗和分帧模块将获取的语音信号进行加窗和分帧后,加重所述进行加窗和分帧后的语音信号中的高频谐波成分;
获取模块,用于在所述加重模块加重所述高频谐波成分后,根据FFT获取所述加重高频谐波成分后的语音信号的频谱;
第一计算模块,用于在所述获取模块获取所述加重高频谐波成分后的语音信号的频谱后,计算所述频谱中各个频点的斜率;
第一确定模块,用于在所述第一计算模块计算所述频谱中各个频点的斜率后,根据所述斜率确定所述语音信号的中心频点,并根据所述中心频点确定谐波。
结合第二方面,在第一种可能的实现方式中,所述装置还包括:
统计模块,用于在所述第一确定模块确定所述语音信号的中心频点后,并根据所述中心频点确定谐波后,统计所述谐波的个数;
判断模块,用于在所述统计模块统计所述谐波的个数后,判断所述谐波的个数是否大于预设的阈值;
第二确定模块,用于当所述判断模块判断所述谐波的个数大于预设的阈值时,则确定所述语音信号存在语音。
结合第二方面,在第二种可能的实现方式中,所述装置还包括:
第二计算模块,用于计算相邻所述谐波的频率差;
第三确定模块,用于根据所述第二计算模块计算的相邻所述谐波的频率差,确定基音频率。
结合第二方面,在第三种可能的实现方式中,
所述第一计算模块,具体用于采用索贝尔sobel算子计算所述频谱中各个频点的斜率g,所述斜率g=A*B,其中,A为sobel算子,B为所述频谱的矩阵。
结合第二方面,在第四种可能的实现方式中,
所述第一确定模块,具体用于根据所述斜率获取中心频点的起始沿和下降沿,并通过所述起始沿和下降沿确定所述语音信号的中心频点。
结合第二方面,在第五种可能的实现方式中,
所述第三确定模块,具体用于根据相邻所述谐波的频率差,并统计出现次数最多的频率差,将所述出现次数最多的频率差确定为所述基音频率。
结合第二方面,在第六种可能的实现方式中,所述装置还包括:
第三计算模块,用于计算所述语音信号中高能量成分的对数谱XHE(t,f),所述高能量成分的对数谱其中,max为取最大值符号,XSTFT(t,f)为语音信号的频谱,SNN(t,f)为通过计算的背景噪声的频谱。
结合第二方面,在第七种可能的实现方式中,
所述加重模块,具体用于采用低阶的高通滤波器加重所述进行加窗和分帧后的语音信号中的高频谐波成分。
本发明第三方面提供一种语音处理的装置,包括处理器;
所述处理器,用于执行如下步骤:
将获取的语音信号进行加窗和分帧;
加重所述进行加窗和分帧后的语音信号中的高频谐波成分;
根据FFT获取所述加重高频谐波成分后的语音信号的频谱;
计算所述频谱中各个频点的斜率;
根据所述斜率确定所述语音信号的中心频点,并根据所述中心频点确定谐波。
结合第三方面,在第一种可能的实现方式中,
所述处理器还用于执行如下步骤:
统计所述谐波的个数,并判断所述谐波的个数是否大于预设的阈值,若是,则确定所述语音信号存在语音;
通过计算相邻所述谐波的频率差,确定基音频率。
应用以上技术方案,用户设备将获取的语音信号进行加窗和分帧,再加重进行加窗和分帧后的语音信号中的高频谐波成分,使各谐波能量变得均匀,再根据快速傅立叶变换FFT获取加重高频谐波成分后的语音信号的频谱,并计算频谱中各个频点的斜率,以根据斜率确定语音信号的中心频点,并根据中心频点确定谐波。采用该技术方案确定谐波的过程,不会受到共振峰的干扰,从而提高语音判别的准确率,提升语音处理的质量。
附图说明
图1为本发明实施例中语音处理的方法的一个实施例示意图;
图2为本发明实施例中语音处理的方法的另一个实施例示意图;
图3为本发明实施例中语音处理的方法的另一个实施例示意图;
图4为本发明实施例中语音处理的装置的一个实施例示意图;
图5为本发明实施例中语音处理的装置的另一个实施例示意图;
图6为本发明实施例中语音处理的装置的另一个实施例示意图。
具体实施方式
本发明实施例提供一种语音处理方法及装置,用于解决现有技术中语音处理时谐波误判率高的问题,提高语音判别的准确率,提升语音处理的质量。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的技术方案,可以应用于各种通信系统,例如:GSM,码分多址(CDMA,CodeDivisionMultipleAccess)系统,宽带码分多址(WCDMA,WidebandCodeDivisionMultipleAccessWireless),通用分组无线业务(GPRS,GeneralPacketRadioService),长期演进(LTE,LongTermEvolution)等。
用户设备(UE,UserEquipment),也可称之为移动终端(MobileTerminal)、移动用户设备等,可以经无线接入网(例如,RAN,RadioAccessNetwork)与一个或多个核心网进行通信,用户设备可以是移动终端,如移动电话(或称为“蜂窝”电话)和具有移动终端的计算机,例如,可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置,它们与无线接入网交换语言和/或数据。
基站,可以是GSM或CDMA中的基站(BTS,BaseTransceiverStation),也可以是WCDMA中的基站(NodeB),还可以是LTE中的演进型基站(eNB或e-NodeB,evolutionalNodeB),本发明并不限定。
由于现有的语音存在检测、基音频率及谐波检测都是分开处理的,现有的单个语音特征参数(或多个特征参数结合)进行语音存在检测时,由于其抗噪声干扰的能力弱导致误判率高;而应用自相关法进行基音频率及谐波检测容易受到语音共振峰的干扰,造成基音频率的误判。
根据本发明实施例,提供一种语音处理方法来解决现有技术中语音处理时谐波误判率高的问题,实现语音存在检测,确定谐波及基音频率的同时处理,是一种全新思路的技术方案。
请参阅图1,本发明实施例中语音处理的方法的一个实施例包括:
101、用户设备将获取的语音信号进行加窗和分帧;
在本发明实施例中,对语音信号的加窗是一个必经的过程,由于用户设备只能处理有限长度的信号,因此原始信号X(t)要以T(采样时间)截断,即有限化,成为XT(t)后再进一步处理,这个过程就是加窗,可以采用哈明窗对语音信号加窗,以减小吉布斯效应的影响。对于一个语音信号而言,它是非平稳的,因此在语音处理时需要进行分帧,连续重复发出好多帧,每帧长度约20ms-30ms,在这一区间内把语音信号看作为稳态信号。
需要说明的是,该用户设备获取的语音信号可以从基站获取,也可以是自身检测获取,此处不做具体限定。
102、用户设备加重进行加窗和分帧后的语音信号中的高频谐波成分;
在本发明实施例中,由于语音信号的高频谐波能量较弱,因此加重语音信号的高频谐波成分,即将该高频谐波的波峰抬高,使其性能提升,使各谐波能量变得均匀。
103、用户设备根据快速傅立叶变换FFT获取加重高频谐波成分后的语音信号的频谱;
在本发明实施例中,根据快速傅立叶变换(FastFourierTransform,FFT)将时域语音信号变换成为语音信号的频谱。
104、用户设备计算频谱中各个频点的斜率;
在本发明实施例中,通过沿频谱中的频率轴计算导数,即计算各个频点的斜率。
105、用户设备根据斜率确定语音信号的中心频点,并根据中心频点确定谐波;
在本发明实施例中,例如,180Hz处的斜率约为+1,而下一个频点220Hz处斜率约为-1,则可以判定在200Hz处为该语音信号的中心频点,并根据一个中心频点确定一个谐波。
本发明实施例中,用户设备将获取的语音信号进行加窗和分帧,再加重进行加窗和分帧后的语音信号中的高频谐波成分,使各谐波能量均匀,再根据FFT获取加重高频谐波成分后的语音信号的频谱,并计算频谱中各个频点的斜率,以根据斜率确定语音信号的中心频点,并根据中心频点确定谐波,采用该技术方案确定谐波的过程,不会受到共振峰的干扰,从而提高语音判别的准确率,提升语音处理的质量。
请参阅图2,在上述实施例的基础上,本发明实施例中语音处理的方法的另一个实施例包括:
201、用户设备将获取的语音信号进行加窗和分帧;
在本发明实施例中,对语音信号的加窗是一个必经的过程,由于用户设备只能处理有限长度的信号,因此原始信号X(t)要以T(采样时间)截断,即有限化,成为XT(t)后再进一步处理,这个过程就是加窗,可以采用哈明窗对语音信号加窗,以减小吉布斯效应的影响。对于一个语音信号而言,它是非平稳的,因此在语音处理时需要进行分帧,连续重复发出好多帧,每帧长度约20ms-30ms,在这一区间内把语音信号看作为稳态信号。
需要说明的是,该用户设备获取的语音信号可以从基站获取,也可以是自身检测获取,此处不做具体限定。
202、用户设备加重进行加窗和分帧后的语音信号中的高频谐波成分;
在本发明实施例中,由于语音信号的高频谐波能量较弱,因此加重语音信号的高频谐波成分,即将该高频谐波的波峰抬高,使其性能提升,使各谐波能量变得均匀。
203、用户设备根据FFT获取加重高频谐波成分后的语音信号的频谱;
在本发明实施例中,根据FFT将时域语音信号变换成为语音信号的频谱。
204、用户设备计算频谱中各个频点的斜率;
在本发明实施例中,通过沿频谱中的频率轴计算导数,即计算各个频点的斜率。
205、用户设备根据斜率确定语音信号的中心频点,并根据中心频点确定谐波;
在本发明实施例中,例如,180Hz处的斜率约为+1,而下一个频点220Hz处斜率约为-1,则可以判定在200Hz处为该语音信号的中心频点,并根据一个中心频点确定一个谐波。
206、用户设备统计谐波的个数;
207、用户设备判断谐波的个数是否大于预设的阈值,若是,则执行步骤208;
208、当谐波的个数大于预设的阈值时,则确定语音信号存在语音;
在本发明实施例中,预设的阈值可以为15,此处不做具体限定。
209、用户设备通过计算相邻谐波的频率差,确定基音频率。
在本发明实施例中,人在发音时,根据声带是否震动可以将语音信号分为清音跟浊音两种。浊音又称有声语言,携带着语言中大部分的能量,浊音在时域上呈现出明显的周期性;而清音类似于白噪声,没有明显的周期性。发浊音时,气流通过声门使声带产生张弛震荡式振动,产生准周期的激励脉冲串。这种声带振动的频率称为基音频率,通常,基音频率与个人声带的长短、薄厚、韧性、劲度和发音习惯等有关系,在很大程度上反应了个人的特征。此外,基音频率还跟随着人的性别、年龄不同而有所不同。一般来说,男性说话者的基音频率较低,而女性说话者和小孩的基音频率相对较高。
本发明实施例中,用户设备将获取的语音信号进行加窗和分帧,再加重进行加窗和分帧后的语音信号中的高频谐波成分,使各谐波能量均匀,再根据FFT获取加重高频谐波成分后的语音信号的频谱,并计算频谱中各个频点的斜率,以根据斜率确定语音信号的中心频点,并根据中心频点确定谐波,进而统计谐波的个数,并判断谐波的个数大于预设的阈值时,则确定语音信号存在语音,最后,通过计算相邻谐波的频率差,确定基音频率,采用该技术方案确定谐波,基音频率和语音存在检测的过程,不会受到共振峰的干扰,从而提高语音判别的准确率,提升语音处理的质量,而且,实现语音存在检测,确定谐波及基音频率的同时处理。
请参阅图3,本发明实施例中语音处理的方法的一个具体实施例包括:
301、用户设备将获取的语音信号进行加窗和分帧;
在本发明实施例中,对语音信号的加窗处理是一个必经的过程,由于用户设备只能处理有限长度的信号,因此原始信号X(t)要以T(采样时间)截断,即有限化,成为XT(t)后再进一步处理,这个过程就是加窗处理,可以采用哈明窗对语音信号加窗,以减小吉布斯效应的影响。对于一个语音信号而言,它是非平稳的,因此在语音处理时需要进行分帧,连续重复发出好多帧,每帧长度约20ms-30ms,在这一区间内把语音信号看作为稳态信号。
302、用户设备采用低阶的高通滤波器加重进行加窗和分帧后的语音信号中的高频谐波成分;
在本发明实施例中,采用高通滤波器,消除低频噪音,加重语音信号中的高频谐波成分,即将该高频谐波的波峰抬高,使其性能提升,使各谐波能量均匀。
303、用户设备根据FFT获取加重高频谐波成分后的语音信号的频谱;
在本发明实施例中,根据FFT将时域语音信号变换成为语音信号的频谱。
304、用户设备计算语音信号中高能量成分的对数谱;
在本发明实施例中,用户设备计算语音信号中高能量成分的对数谱XHE(t,f),高能量成分的对数谱其中,max为取最大值符号,XSTFT(t,f)为语音信号的频谱,SNN(t,f)为通过计算的背景噪声的频谱,计算语音信号中高能量成分的对数谱更有利于计算频谱中各个频点的斜率。
305、用户设备采用索贝尔sobel算子计算频谱中各个频点的斜率;
在本发明实施例中,用户设备采用索贝尔sobel算子计算所述频谱中各个频点的斜率g,所述斜率g=A*B,其中,A为sobel算子,B为频谱的矩阵。
需要说明的是,A可以为 1 2 1 0 0 0 - 1 - 2 - 1 , 此处不做具体限定。
306、用户设备根据斜率确定语音信号的中心频点,并根据中心频点确定谐波;
可选的,用户设备根据所述斜率获取中心频点的起始沿和下降沿,并通过所述起始沿和下降沿确定所述语音信号的中心频点,例如,180Hz处的斜率约为+1,而下一个频点220Hz处斜率约为-1,则可以判定在200Hz处为该语音信号的中心频点,并根据一个中心频点确定一个谐波。
307、用户设备统计所述谐波的个数;
308、用户设备判断谐波的个数是否大于预设的阈值,若是,则执行步骤209;
309、当谐波的个数大于预设的阈值时,则确定语音信号存在语音;
在本发明实施例中,预设的阈值可以为15,此处不做具体限定。
310、用户设备通过计算相邻谐波的频率差,并统计出现次数最多的频率差,将出现次数最多的频率差确定为基音频率。
结合步骤209的说明,在本发明实施例中,例如男性语音的基音频率约为200Hz左右,若相邻谐波的频率差分布为:180、190、200、200、210、190、200,其中出现次数最多的为200Hz,通过统计出现次数最多的频率差为200Hz,即确定该语音的基音频率为200Hz。
本发明实施例中,用户设备将获取的语音信号进行加窗和分帧,后采用低阶的高通滤波器加重所述进行加窗和分帧后的语音信号中的高频谐波成分,使得高频谐波的性能提升,并根据FFT获取所述加重高频谐波成分后的语音信号的频谱,通过计算语音信号中高能量成分的对数谱更有利于计算频谱中各个频点的斜率,进一步采用索贝尔sobel算子计算所述频谱中各个频点的斜率,比单根谱线求斜率更平滑、更准确,并根据所述斜率确定所述语音信号的中心频点,并根据所述中心频点确定谐波,进一步统计所述谐波的个数,当谐波的个数大于预设的阈值,则确定所述语音信号存在语音,通过计算相邻所述谐波的频率差,并统计出现次数最多的频率差,将所述出现次数最多的频率差确定为所述基音频率,采用该技术方案确定谐波,基音频率和语音存在检测的过程,不会受到共振峰的干扰,从而提高语音判别的准确率,提升语音处理的质量,而且,实现语音存在检测、确定谐波及基音频率的同时处理。
为便于更好的实施本发明实施例的上述相关方法,下面还提供用于配合上述方法的相关装置。
请参阅图4,本发明实施例中语音处理的装置400的一个实施例包括:
加窗和分帧模块401,用于将获取的语音信号进行加窗和分帧;
在本发明实施例中,对语音信号的加窗是一个必经的过程,由于用户设备只能处理有限长度的信号,因此原始信号X(t)要以T(采样时间)截断,即有限化,成为XT(t)后再进一步处理,这个过程就是加窗,可以采用哈明窗对语音信号加窗,以减小吉布斯效应的影响。对于一个语音信号而言,它是非平稳的,因此在语音处理时需要进行分帧,连续重复发出好多帧,每帧长度约20ms-30ms,在这一区间内把语音信号看作为稳态信号。
需要说明的是,该用户设备获取的语音信号可以从基站获取,也可以是自身检测获取,此处不做具体限定。
加重模块402,用于在所述加窗和分帧模块401将获取的语音信号进行加窗和分帧后,加重所述进行加窗和分帧后的语音信号中的高频谐波成分;
在本发明实施例中,由于语音信号的高频谐波能量较弱,因此加重语音信号的高频谐波成分,即将该高频谐波的波峰抬高,使其性能提升,使各谐波能量均匀。
获取模块403,用于在所述加重模块402加重所述高频谐波成分后,根据FFT获取所述加重高频谐波成分后的语音信号的频谱;
在本发明实施例中,根据FFT将时域语音信号变换成为语音信号的频谱。
第一计算模块404,用于在所述获取模块403获取所述加重高频谐波成分后的语音信号的频谱后,计算所述频谱中各个频点的斜率;
在本发明实施例中,通过沿频谱中的频率轴计算导数,即计算各个频点的斜率。
第一确定模块405,用于在所述第一计算模块404计算所述频谱中各个频点的斜率后,根据所述斜率确定所述语音信号的中心频点,并根据所述中心频点确定谐波;
在本发明实施例中,例如,180Hz处的斜率约为+1,而下一个频点220Hz处斜率约为-1,则可以判定在200Hz处为该语音信号的中心频点,并根据一个中心频点确定一个谐波。
本发明实施例中,用户设备将获取的语音信号进行加窗和分帧,再加重进行加窗和分帧后的语音信号中的高频谐波成分,使各谐波能量均匀,再根据FFT获取加重高频谐波成分后的语音信号的频谱,并计算频谱中各个频点的斜率,以根据斜率确定语音信号的中心频点,并根据中心频点确定谐波,采用该技术方案确定谐波的过程,不会受到共振峰的干扰,从而提高语音判别的准确率,提升语音处理的质量。
请参阅如5,本发明实施例中语音处理的装置500的另一个实施例包括:
加窗和分帧模块501,用于将获取的语音信号进行加窗和分帧;
加重模块502,用于在所述加窗和分帧模块501将获取的语音信号进行加窗和分帧后,加重所述进行加窗和分帧后的语音信号中的高频谐波成分;
可选的,所述加重模块,具体用于采用低阶的高通滤波器加重所述进行加窗和分帧后的语音信号中的高频谐波成分。
在本发明实施例中,采用高通滤波器,消除低频噪音,加重语音信号中的高频谐波成分,即将该高频谐波的波峰抬高,使其性能提升,使各谐波能量均匀。
获取模块503,用于在所述加重模块502加重所述高频谐波成分后,根据FFT获取所述加重高频谐波成分后的语音信号的频谱;
在本发明实施例中,根据FFT将时域语音信号变换成为语音信号的频谱。
第三计算模块504,用于在所述获取模块获取所述加重高频谐波成分后的语音信号的频谱后,计算所述语音信号中高能量成分的对数谱;高能量成分的对数谱其中,max为取最大值符号,XSTFT(t,f)为语音信号的频谱,SNN(t,f)为通过计算的背景噪声的频谱。
在本发明实施例中,计算语音信号中高能量成分的对数谱更有利于计算频谱中各个频点的斜率。
第一计算模块505,用于在所述第三计算模块504计算所述语音信号中高能量成分的对数谱后,计算所述频谱中各个频点的斜率;
可选的,所述第一计算模块,具体用于采用索贝尔sobel算子计算所述频谱中各个频点的斜率g,所述斜率g=A*B,其中,A为sobel算子,B为频谱的矩阵。
需要说明的是,A可以为 1 2 1 0 0 0 - 1 - 2 - 1 , 此处不做具体限定。
利用索贝尔sobel算子求解各个频点斜率,比单根谱线求斜率更平滑、更准确。
第一确定模块506,用于在所述第一计算模块505计算所述频谱中各个频点的斜率后,根据所述斜率确定所述语音信号的中心频点,并根据所述中心频点确定谐波;
可选的,所述第一确定模块,具体用于根据所述斜率获取中心频点的起始沿和下降沿,并通过所述起始沿和下降沿确定所述语音信号的中心频点。
例如,180Hz处的斜率约为+1,而下一个频点220Hz处斜率约为-1,则可以判定在200Hz处为该语音信号的中心频点,并根据一个中心频点确定一个谐波。
统计模块507,用于在所述第一确定模块506确定所述语音信号的中心频点,并根据所述中心频点确定谐波后,统计所述谐波的个数;
判断模块508,用于在所述统计模块507统计所述谐波的个数后,判断所述谐波的个数是否大于预设的阈值;
在本发明实施例中,预设的阈值可以为15,此处不做具体限定。
第二确定模块509,用于当所述判断模块508判断所述谐波的个数大于预设的阈值时,则确定所述语音信号存在语音;
第二计算模块510,用于在所述第二确定模块509确定所述语音信号存在语音后,计算相邻所述谐波的频率差;
第三确定模块511,用于根据所述第二计算模块510计算的相邻所述谐波的频率差,确定基音频率。
可选的,所述第三确定模块,具体用于根据相邻所述谐波的频率差,并统计出现次数最多的频率差,将所述出现次数最多的频率差确定为所述基音频率。
在本发明实施例中,例如男性语音的基音频率约为200Hz左右,若相邻谐波的频率差分布为:180、190、200、200、210、190、200,其中出现次数最多的为200Hz,通过统计出现次数最多的频率差为200Hz,即确定该语音的基音频率为200Hz。
本发明实施例中,用户设备将获取的语音信号进行加窗和分帧,后采用低阶的高通滤波器加重所述进行加窗和分帧后的语音信号中的高频谐波成分,使得高频谐波的性能提升,并根据FFT获取所述加重高频谐波成分后的语音信号的频谱,通过计算语音信号中高能量成分的对数谱更有利于计算频谱中各个频点的斜率,进一步采用索贝尔sobel算子计算所述频谱中各个频点的斜率,比单根谱线求斜率更平滑、更准确,并根据所述斜率确定所述语音信号的中心频点,并根据所述中心频点确定谐波,进一步统计所述谐波的个数,当谐波的个数大于预设的阈值,则确定所述语音信号存在语音,通过计算相邻所述谐波的频率差,并统计出现次数最多的频率差,将所述出现次数最多的频率差确定为所述基音频率,从而不会受到共振峰的干扰,提高语音判别的准确率,提升语音处理的质量,而且,实现语音存在检测、确定谐波及基音频率的同时处理。
图4至图5所示的实施例从功能模块的角度对语音处理的具体结构进行了说明,以下结合图6的实施例从硬件角度对语音处理的具体结构进行说明:
请参阅图6,图6为本发明实施例提供的语音处理的装置600的一个结构示意图,其中,可包括至少一个处理器601(例如CPU,CentralProcessingUnit)、至少一个网络接口或者其它通信接口、存储器602、至少一个通信总线、至少一个输入装置603、至少一个输出装置604和不间断电源UPS605用于实现这些装置之间的连接通信。处理器601用于执行存储器602中存储的可执行模块,例如计算机程序。存储器602可能包含高速随机存取存储器(RAM,RandomAccessMemory),也可能还包括非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。通过至少一个网络接口(可以是有线或者无线)实现该系统网关与至少一个其它网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
如图6所示,在一些实施方式中,存储器602中存储了程序指令,程序指令可以被处理器601执行,处理器601具体执行以下步骤:
将获取的语音信号进行加窗和分帧;
加重所述进行加窗和分帧后的语音信号中的高频谐波成分;
根据快速傅立叶变换FFT获取所述加重高频谐波成分后的语音信号的频谱;
计算所述频谱中各个频点的斜率;
根据所述斜率确定所述语音信号的中心频点,并根据所述中心频点确定谐波。
在一些实施方式中,处理器601还可以执行以下步骤:
统计所述谐波的个数,并判断所述谐波的个数是否大于预设的阈值,若是,则确定所述语音信号存在语音;
通过计算相邻所述谐波的频率差,确定基音频率。
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。比如,在图6所述的实施例中没有详述的部分,可以参见上述图1到图5的方法或装置实施例的相关描述。
可见,处理器将获取的语音信号进行加窗和分帧,再加重进行加窗和分帧后的语音信号中的高频谐波成分,使各谐波能量均匀,再根据FFT获取加重高频谐波成分后的语音信号的频谱,并计算频谱中各个频点的斜率,以根据斜率确定语音信号的中心频点,并根据中心频点确定谐波,进而统计谐波的个数,并判断谐波的个数大于预设的阈值时,则确定语音信号存在语音,最后,通过计算相邻谐波的频率差,确定基音频率,采用该技术方案确定谐波,基音频率和语音存在检测的过程,不会受到共振峰的干扰,从而提高语音判别的准确率,提升语音处理的质量,而且,实现语音存在检测,确定谐波及基音频率的同时处理。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (18)

1.一种语音处理的方法,其特征在于,包括:
用户设备将获取的语音信号进行加窗和分帧;
所述用户设备加重所述进行加窗和分帧后的语音信号中的高频谐波成分;
所述用户设备根据快速傅立叶变换FFT获取所述加重高频谐波成分后的语音信号的频谱;
所述用户设备计算所述频谱中各个频点的斜率;
所述用户设备根据所述斜率确定所述语音信号的中心频点,并根据所述中心频点确定谐波。
2.根据权利要求1所述的方法,其特征在于,所述根据所述中心频点确定谐波之后还包括:
所述用户设备统计所述谐波的个数,并判断所述谐波的个数是否大于预设的阈值,若是,则确定所述语音信号存在语音。
3.根据权利要求1所述的方法,其特征在于,所述根据所述中心频点确定谐波之后还包括:
所述用户设备通过计算相邻所述谐波的频率差,确定基音频率。
4.根据权利要求1所述的方法,其特征在于,所述用户设备计算所述频谱中各个频点的斜率包括:
所述用户设备采用索贝尔sobel算子计算所述频谱中各个频点的斜率g,所述斜率g=A*B,其中,A为sobel算子,B为所述频谱的矩阵。
5.根据权利要求1所述的方法,其特征在于,所述用户设备根据所述斜率确定所述语音信号的中心频点包括:
所述用户设备根据所述斜率获取中心频点的起始沿和下降沿,并通过所述起始沿和下降沿确定所述语音信号的中心频点。
6.根据权利要求1所述的方法,其特征在于,所述用户设备通过计算相邻所述谐波的频率差,确定基音频率包括:
所述用户设备通过计算相邻所述谐波的频率差,并统计出现次数最多的频率差,将所述出现次数最多的频率差确定为所述基音频率。
7.根据权利要求1所述的方法,其特征在于,所述用户设备计算所述频谱中各个频点的斜率之前还包括:
所述用户设备计算所述语音信号中高能量成分的对数谱XHE(t,f),所述高能量成分的对数谱 X HE ( t , f ) = 10 log 10 max ( 1 , | X STFT ( t , f ) | 2 S NN ( t , f ) ) , 其中,max为取最大值符号,XSTFT(t,f)为语音信号的频谱,SNN(t,f)为通过计算的背景噪声的频谱。
8.根据权利要求1所述的方法,其特征在于,所述用户设备加重所述进行加窗和分帧后的语音信号中的高频谐波成分包括:
所述用户设备采用低阶的高通滤波器加重所述进行加窗和分帧后的语音信号中的高频谐波成分。
9.一种语音处理的装置,其特征在于,包括:
加窗和分帧模块,用于将获取的语音信号进行加窗和分帧;
加重模块,用于在所述加窗和分帧模块将获取的语音信号进行加窗和分帧后,加重所述进行加窗和分帧后的语音信号中的高频谐波成分;
获取模块,用于在所述加重模块加重所述高频谐波成分后,根据FFT获取所述加重高频谐波成分后的语音信号的频谱;
第一计算模块,用于在所述获取模块获取所述加重高频谐波成分后的语音信号的频谱后,计算所述频谱中各个频点的斜率;
第一确定模块,用于在所述第一计算模块计算所述频谱中各个频点的斜率后,根据所述斜率确定所述语音信号的中心频点,并根据所述中心频点确定谐波。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
统计模块,用于在所述第一确定模块确定所述语音信号的中心频点后,并根据所述中心频点确定谐波后,统计所述谐波的个数;
判断模块,用于在所述统计模块统计所述谐波的个数后,判断所述谐波的个数是否大于预设的阈值;
第二确定模块,用于当所述判断模块判断所述谐波的个数大于预设的阈值时,则确定所述语音信号存在语音。
11.根据权利要求9所述的装置,其特征在于,所述装置还包括:
第二计算模块,用于计算相邻所述谐波的频率差;
第三确定模块,用于根据所述第二计算模块计算的相邻所述谐波的频率差,确定基音频率。
12.根据权利要求9所述的装置,其特征在于,
所述第一计算模块,具体用于采用索贝尔sobel算子计算所述频谱中各个频点的斜率g,所述斜率g=A*B,其中,A为sobel算子,B为所述频谱的矩阵。
13.根据权利要求9所述的装置,其特征在于,
所述第一确定模块,具体用于根据所述斜率获取中心频点的起始沿和下降沿,并通过所述起始沿和下降沿确定所述语音信号的中心频点。
14.根据权利要求9所述的装置,其特征在于,
所述第三确定模块,具体用于根据相邻所述谐波的频率差,并统计出现次数最多的频率差,将所述出现次数最多的频率差确定为所述基音频率。
15.根据权利要求9所述的装置,其特征在于,所述装置还包括:
第三计算模块,用于计算所述语音信号中高能量成分的对数谱XHE(t,f),所述高能量成分的对数谱 X HE ( t , f ) = 10 log 10 max ( 1 , | X STFT ( t , f ) | 2 S NN ( t , f ) ) , 其中,max为取最大值符号,XSTFT(t,f)为语音信号的频谱,SNN(t,f)为通过计算的背景噪声的频谱。
16.根据权利要求9所述的装置,其特征在于,
所述加重模块,具体用于采用低阶的高通滤波器加重所述进行加窗和分帧后的语音信号中的高频谐波成分。
17.一种语音处理的装置,其特征在于,包括处理器;
所述处理器,用于执行如下步骤:
将获取的语音信号进行加窗和分帧;
加重所述进行加窗和分帧后的语音信号中的高频谐波成分;
根据FFT获取所述加重高频谐波成分后的语音信号的频谱;
计算所述频谱中各个频点的斜率;
根据所述斜率确定所述语音信号的中心频点,并根据所述中心频点确定谐波。
18.根据权利要求17所述的装置,其特征在于,
所述处理器还用于执行如下步骤:
统计所述谐波的个数,并判断所述谐波的个数是否大于预设的阈值,若是,则确定所述语音信号存在语音;
通过计算相邻所述谐波的频率差,确定基音频率。
CN201410657804.9A 2014-11-18 2014-11-18 一种语音处理的方法及装置 Active CN105590629B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410657804.9A CN105590629B (zh) 2014-11-18 2014-11-18 一种语音处理的方法及装置
PCT/CN2015/085209 WO2016078439A1 (zh) 2014-11-18 2015-07-27 一种语音处理的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410657804.9A CN105590629B (zh) 2014-11-18 2014-11-18 一种语音处理的方法及装置

Publications (2)

Publication Number Publication Date
CN105590629A true CN105590629A (zh) 2016-05-18
CN105590629B CN105590629B (zh) 2018-09-21

Family

ID=55930151

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410657804.9A Active CN105590629B (zh) 2014-11-18 2014-11-18 一种语音处理的方法及装置

Country Status (2)

Country Link
CN (1) CN105590629B (zh)
WO (1) WO2016078439A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105845146A (zh) * 2016-05-23 2016-08-10 珠海市杰理科技有限公司 语音信号处理的方法及装置
CN107767880A (zh) * 2016-08-16 2018-03-06 杭州萤石网络有限公司 一种语音检测方法、摄像机和智能家居看护系统
CN113077806A (zh) * 2021-03-23 2021-07-06 杭州朗和科技有限公司 音频处理方法及装置、模型训练方法及装置、介质和设备

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108281152B (zh) * 2018-01-18 2021-01-12 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法、装置及存储介质
CN117116245B (zh) * 2023-10-18 2024-01-30 武汉海微科技有限公司 声音信号的谐波生成方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020165713A1 (en) * 2000-12-04 2002-11-07 Global Ip Sound Ab Detection of sound activity
CN1527994A (zh) * 2000-07-14 2004-09-08 国际商业机器公司 快速频域音调估计
CN1659625A (zh) * 2002-05-31 2005-08-24 沃伊斯亚吉公司 在基于线性预测的语音编码解码器中有效帧删除隐藏的方法和器件
US20060095254A1 (en) * 2004-10-29 2006-05-04 Walker John Q Ii Methods, systems and computer program products for detecting musical notes in an audio signal
CN101199002A (zh) * 2005-06-09 2008-06-11 A.G.I.株式会社 检测音调频率的语音分析器、语音分析方法以及语音分析程序
CN101496095A (zh) * 2006-07-31 2009-07-29 高通股份有限公司 用于信号变化检测的系统、方法及设备
CN101625860A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 语音端点检测中的背景噪声自适应调整方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1527994A (zh) * 2000-07-14 2004-09-08 国际商业机器公司 快速频域音调估计
US20020165713A1 (en) * 2000-12-04 2002-11-07 Global Ip Sound Ab Detection of sound activity
CN1659625A (zh) * 2002-05-31 2005-08-24 沃伊斯亚吉公司 在基于线性预测的语音编码解码器中有效帧删除隐藏的方法和器件
US20060095254A1 (en) * 2004-10-29 2006-05-04 Walker John Q Ii Methods, systems and computer program products for detecting musical notes in an audio signal
CN101199002A (zh) * 2005-06-09 2008-06-11 A.G.I.株式会社 检测音调频率的语音分析器、语音分析方法以及语音分析程序
CN101496095A (zh) * 2006-07-31 2009-07-29 高通股份有限公司 用于信号变化检测的系统、方法及设备
CN101625860A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 语音端点检测中的背景噪声自适应调整方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105845146A (zh) * 2016-05-23 2016-08-10 珠海市杰理科技有限公司 语音信号处理的方法及装置
CN105845146B (zh) * 2016-05-23 2019-09-06 珠海市杰理科技股份有限公司 语音信号处理的方法及装置
CN107767880A (zh) * 2016-08-16 2018-03-06 杭州萤石网络有限公司 一种语音检测方法、摄像机和智能家居看护系统
CN113077806A (zh) * 2021-03-23 2021-07-06 杭州朗和科技有限公司 音频处理方法及装置、模型训练方法及装置、介质和设备
CN113077806B (zh) * 2021-03-23 2023-10-13 杭州网易智企科技有限公司 音频处理方法及装置、模型训练方法及装置、介质和设备

Also Published As

Publication number Publication date
CN105590629B (zh) 2018-09-21
WO2016078439A1 (zh) 2016-05-26

Similar Documents

Publication Publication Date Title
CN105590629A (zh) 一种语音处理的方法及装置
US20170154640A1 (en) Method and electronic device for voice recognition based on dynamic voice model selection
US10074384B2 (en) State estimating apparatus, state estimating method, and state estimating computer program
CN111128213B (zh) 一种分频段进行处理的噪声抑制方法及其系统
US20210193149A1 (en) Method, apparatus and device for voiceprint recognition, and medium
CN104835498A (zh) 基于多类型组合特征参数的声纹识别方法
KR100930060B1 (ko) 신호 검출 방법, 장치 및 그 방법을 실행하는 프로그램이기록된 기록매체
CN103503060A (zh) 使用听觉注意力线索的语音音节/元音/音素边界检测
WO2013040485A2 (en) Cough detecting methods and devices for detecting coughs
US9396739B2 (en) Method and apparatus for detecting voice signal
CN103165127B (zh) 声音分段设备和方法以及声音检测系统
US10269375B2 (en) Methods and systems for classifying audio segments of an audio signal
CN104123934A (zh) 一种构音识别方法及其系统
US9530434B1 (en) Reducing octave errors during pitch determination for noisy audio signals
US9484044B1 (en) Voice enhancement and/or speech features extraction on noisy audio signals using successively refined transforms
CN109817191A (zh) 颤音建模方法、装置、计算机设备及存储介质
US9208794B1 (en) Providing sound models of an input signal using continuous and/or linear fitting
US20130253920A1 (en) Method and apparatus for robust speaker and speech recognition
CN112133277A (zh) 样本生成方法及装置
US9117456B2 (en) Noise suppression apparatus, method, and a storage medium storing a noise suppression program
US9058820B1 (en) Identifying speech portions of a sound model using various statistics thereof
CN103559893B (zh) 一种水下目标gammachirp倒谱系数听觉特征提取方法
US8725498B1 (en) Mobile speech recognition with explicit tone features
Arsikere et al. Automatic height estimation using the second subglottal resonance
Chittora et al. Classification of normal and pathological infant cries using bispectrum features

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 523808 Southern Factory Building (Phase I) Project B2 Production Plant-5, New Town Avenue, Songshan Lake High-tech Industrial Development Zone, Dongguan City, Guangdong Province

Patentee after: Huawei Device Co., Ltd.

Address before: 523808 Southern Factory Building (Phase I) Project B2 Production Plant-5, New Town Avenue, Songshan Lake High-tech Industrial Development Zone, Dongguan City, Guangdong Province

Patentee before: HUAWEI terminal (Dongguan) Co., Ltd.

CP01 Change in the name or title of a patent holder