CN113851114B - 语音信号的基频确定方法和装置 - Google Patents
语音信号的基频确定方法和装置 Download PDFInfo
- Publication number
- CN113851114B CN113851114B CN202111416502.9A CN202111416502A CN113851114B CN 113851114 B CN113851114 B CN 113851114B CN 202111416502 A CN202111416502 A CN 202111416502A CN 113851114 B CN113851114 B CN 113851114B
- Authority
- CN
- China
- Prior art keywords
- fundamental frequency
- signal
- determining
- voice signal
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 118
- 230000005236 sound signal Effects 0.000 claims abstract description 72
- 238000012545 processing Methods 0.000 claims abstract description 30
- 238000001514 detection method Methods 0.000 claims abstract description 20
- 238000001228 spectrum Methods 0.000 claims description 22
- 230000003595 spectral effect Effects 0.000 claims description 17
- 238000012216 screening Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 15
- 238000004590 computer program Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 9
- 238000000605 extraction Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 4
- 238000005311 autocorrelation function Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 101000806511 Homo sapiens Protein DEPP1 Proteins 0.000 description 1
- 102100037469 Protein DEPP1 Human genes 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
Abstract
本发明提供一种语音信号的基频确定方法和装置,属于数据信号处理领域。所述方法包括:获取待处理的音频信号;在所述待处理的音频信号中,逐音节获取至少一个目标语音信号;确定所述目标语音信号的基频基准值;根据所述基频基准值,确定所述目标语音信号的每帧信号的基频。采用本发明,可以提高基频检测结果的准确性。
Description
技术领域
本发明涉及数字信号领域,尤其涉及一种语音信号的基频确定方法和装置。
背景技术
在数字信号领域,无论是语音分析与合成、语音压缩编码,还是语音识别、说话者身份确认等,都必须以准确可靠地检测基频为前提,它严重影响着整个系统的性能。
传统的基频提取方法大体上可以分为3 类:时域法、频域法和时频域法。时域法主要包括短时自相关函数法、平均幅度差函数法等;频域法包括倒谱法、简单逆滤波器跟踪法等;时频域法包括小波函数法等多种方法。
当前已有的基于自相关的语音信号基频提取方法,都是基于语音信号的短时平稳特性,对原始语音信号进行预处理(预加重、低通滤波、加窗)后,直接将语音信号划分为10ms~30ms 的语音帧,然后提取每一帧的基频候选值。最后通过动态平滑或者求最优解的算法,从帧基频候选值中选取合适的帧基频,并按时间先后顺序组合在一起,最终形成基频曲线。
但是,平均幅度差法、倒谱法在静音环境下或噪声较小时可以取得较好的检测结果,但在语音环境较恶劣、信噪比较低时,检测的结果下降较快。自相关函数方法适合于噪声环境下,但单独使用经常发生基频检测结果为其实际基频的二次倍频或二次分频的情况。
因此,亟需一种新的基频确定方法来提高基频检测结果的准确性。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种语音信号的基频确定方法和装置。技术方案如下:
根据本发明的一方面,提供了一种语音信号的基频确定方法,所述方法包括:
获取待处理的音频信号;
在所述待处理的音频信号中,逐音节获取至少一个目标语音信号;
确定所述目标语音信号的基频基准值;
根据所述基频基准值,确定所述目标语音信号的每帧信号的基频。
根据本发明的另一方面,提供了一种语音信号的基频确定装置,所述装置包括:
音频信号获取模块,用于获取待处理的音频信号;
语音信号获取模块,用于在所述待处理的音频信号中,逐音节获取至少一个目标语音信号;
基频基准确定模块,用于确定所述目标语音信号的基频基准值;
基频确定模块,用于根据所述基频基准值,确定所述目标语音信号的每帧信号的基频。
根据本发明的另一方面,提供了一种电子设备,包括:
处理器;以及
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行上述语音信号的基频确定方法。
根据本发明的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行上述语音信号的基频确定方法。
本发明实施例中,在对待处理的音频信号进行处理时,通过逐音节获取语音信号,并对每个字的语音信号确定基频基准值,以基频基准值为基准来确定每个字的帧信号对应的帧基频,可以提高基频提取的准确性。
附图说明
在下面结合附图对于示例性实施例的描述中,本发明的更多细节、特征和优点被公开,在附图中:
图1示出了根据本发明示例性实施例的语音信号的基频确定方法的流程图;
图2示出了根据本发明示例性实施例的语音检测流程图;
图3示出了根据本发明示例性实施例的复查流程图;
图4示出了根据本发明示例性实施例的音频信号端点示意图;
图5示出了根据本发明示例性实施例的确定基频基准值的流程图;
图6示出了根据本发明示例性实施例的确定基频基准值的流程图;
图7示出了根据本发明示例性实施例的自相关曲线示意图;
图8示出了根据本发明示例性实施例的频谱示意图;
图9示出了根据本发明示例性实施例的确定基频基准值的流程图;
图10示出了根据本发明示例性实施例的语音信号的基频确定方法的流程图;
图11示出了根据本发明示例性实施例的基频选择的流程图;
图12示出了根据本发明示例性实施例的基频选择的流程图;
图13示出了根据本发明示例性实施例的基频曲线示意图;
图14示出了根据本发明示例性实施例的语音信号的基频确定装置的示意性框图;
图15示出了能够用于实现本发明的实施例的示例性电子设备的结构框图。
具体实施方式
下面将参照附图更详细地描述本发明的实施例。虽然附图中显示了本发明的某些实施例,然而应当理解的是,本发明可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本发明。应当理解的是,本发明的附图及实施例仅用于示例性作用,并非用于限制本发明的保护范围。
应当理解,本发明的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本发明的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本发明中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本发明中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本发明实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
本发明实施例提供了一种语音信号的基频确定方法,该方法可以由终端、服务器和/或其他具备处理能力的设备完成。本发明实施例提供的方法可以由上述任一设备完成,也可以由多个设备共同完成,本发明对此不作限定。
下面将参照图1所示的语音信号的基频确定方法的流程图,以终端的实施为例,对该方法进行介绍。
步骤101,获取待处理的音频信号。
在一种可能的实施方式中,终端可以通过麦克风设备采集音频信号,或者还可以接收其他设备采集的音频信号。在一些具体的应用情景中,例如对音频信号进行识别、分析等,可以触发确定音频信号基频的任务。本实施例对具体的应用情景不作限定。
此时,终端可以将音频信号作为待处理的信号。
本实施例提供的是针对语音信号的基频确定方法,因此,上述音频信号中可以包括语音和噪声。一般而言,语音是一段人声,例如一句话或一首歌,因此,语音中可以包括一个或多个音节对应的语音。本申请中一个音节可以表示一个字,例如汉语中声母和韵母组合的拼读音节。当然,音节也可以不表示一个字,例如汉语中两个韵母组合的拼读音节,或单个韵母的音节。本申请对此不作限定。
可选的,终端在获取待处理的音频信号之后,还可以对音频信号进行预处理,该预处理可以包括重采样、滤波、谱减法降噪等处理,本申请对具体的预处理不作限定。
步骤102,在待处理的音频信号中,逐音节获取至少一个目标语音信号。
在一种可能的实施方式中,语音检测是指判断一段音频信号属于语音信号或噪声信号。终端可以对音频信号中的语音进行检测,按照语音中每个字的顺序,确定每个字对应的语音信号并截取出来。
为了便于介绍,将一个字对应的语音信号称为目标语音信号,下文同。
可选的,终端可以采用子带谱熵法和短时能量法进行语音检测,相对应的,上述步骤102的处理可以如下:基于子带谱熵法和短时能量法,在待处理的音频信号中,逐音节获取至少一个目标语音信号。
在一种可能的实施方式中,基于子带谱熵法,在待处理的音频信号中逐音节获取多段初步判定的语音信号之后,可以基于短时能量法对每段初步判定的语音信号进行检测,确定每段初步判定的语音信号是否确实属于语音信号,如果是,则将对应的语音信号判定为目标语音信号。
在另一种可能的实施方式中,可以不对所有初步判定的语音信号均采用短时能量法进行检测,仅对待复查的语音信号进行检测。如图2所示的语音检测流程图,具体处理可以如下:
步骤201,基于子带谱熵法,对待处理的音频信号进行端点检测,获取多段初步判定的语音信号;
步骤202,在多段初步判定的语音信号中,确定第一目标语音信号和待复查的语音信号;
步骤203,基于短时能量法对待复查的语音信号进行检测,确定第二目标语音信号。
其中,为了便于介绍,将基于子带谱熵法确定的目标语音信号称为第一目标语音信号,将基于短时能量法确定的目标语音信号称为第二目标语音信号。
在一种可能的实施方式中,基于子带谱熵法,可以确定上述待处理的音频信号的子带谱熵曲线。由于语音信号的谱熵值一般都低于噪声信号的谱熵值,可以预先设置一个用于区分语音信号和噪声信号的谱熵阈值,不超过谱熵阈值的音频信号可以认为是语音信号,超过谱熵阈值的音频信号可以认为是噪声信号。本实施例对谱熵阈值的具体取值不作限定。
在子带谱熵曲线上确定其与谱熵阈值的交点,对于一段低于谱熵阈值的音频信号,可以将其起始点作为语音信号的起始点,将其终止点作为语音信号的终止点。这个过程即为端点检测的过程。经过端点检测之后,可以在待处理的音频信号中获取多段语音信号。
当个别字的语音信号谱熵值较高(接近谱熵阈值)时,可能会出现端点检测后语音信号较窄的现象,为了提高端点检测的精确度,可以对较窄的部分重新进行语音检测。
在获取的多段语音信号中,可以将时间长度大于长度阈值的语音信号确定为目标语音信号,将时间长度小于等于长度阈值的语音信号确定为待复查的语音信号。本实施例对长度阈值的具体取值不作限定,例如可以是80ms,通常不超过200ms。
进而,可以基于短时能量法对待复查的语音信号进行检测,如图3所示的复查流程图,具体的处理可以如下:
步骤301,在多段初步判定的语音信号中,对待复查的语音信号获取前一段语音信号的终止点和后一段语音信号的起始点;
步骤302,在待处理的音频信号中,获取终止点和起始点之间的音频信号,作为待复查的音频信号;
步骤303,基于短时能量法,确定待复查的音频信号是否属于语音信号;
步骤304,如果是,则在待复查的音频信号中确定第二目标语音信号;
步骤305,如果否,则将待复查的音频信号判定为噪声信号。
如图4所示的音频信号端点示意图,待复查的语音信号的起始点为b2,终止点为e2,其前一段语音信号的终止点为e1(若前一段语音信号不存在, 则e1为待处理的音频信号的起始点),其后一段语音信号的终止点为b3(若后一段目标语音不存在,则b3为待处理的音频信号的终止点)。此时,e1与b3之间的音频信号即为待复查的音频信号。
基于短时能量法,可以计算待复查的音频信号的能量,并判断该能量是否大于能量阈值。由于语音信号的短时能量高于噪声信号的短时能量,因此可以将能量大于能量阈值的音频信号确定为语音信号,将能量不大于能量阈值的音频信号确定为噪声信号。本实施例对能量阈值的具体取值不作限定。
在确定为语音信号后,还可以重新确定语音信号的端点,新的起始点为b_new,新的终止点为e_new,并且可以得到新的语音信号的时间长度。进而,再次判断其时间长度是否大于长度阈值,如果是,可以认为重新确定的语音信号确实属于语音信号,则将新的语音信号判定为目标语音信号;如果否,可以认为重新确定的语音信号属于噪声信号,则判定为噪声信号。
也即是说,基于子带谱熵法初步判定语音信号后,可以基于短时能量法对信号长度小于80ms的语音信号进行复查,重新确定是否为语音信号,进一步提高了语音检测的准确性。
在逐音节获取目标语音信号之后,可以继续执行步骤103的处理。
步骤103,确定目标语音信号的基频基准值。
在一种可能的实施方式中,终端可以采用自相关算法,分别对每个目标语音信号确定相应的基频基准值。
具体的,对于一个目标语音信号而言,如图5所示的确定基频基准值的流程图,上述步骤103的处理可以如下:
步骤501,对目标语音信号进行自相关运算,得到目标语音信号对应的第一自相关曲线;
步骤502,在第一自相关曲线中,获取n个自相关峰值和n个自相关峰值对应的频率值,n为大于1的整数;
步骤503,在n个自相关峰值对应的频率值中,确定目标语音信号的基频基准值。
可选的,如图6所示的确定基频基准值的流程图,在步骤503中可以对n个自相关峰值从大到小进行排序,依次对排序后的n个自相关峰值的频率值执行如下判断处理:
步骤5031,判断当前自相关峰值的频率值,是否在目标语音信号的频谱峰值的频率值的预设范围内;
步骤5032,如果是,则将当前自相关峰值对应的频率值,作为目标语音信号的基频基准值,并停止判断处理;
步骤5033,如果否,则对下一个自相关峰值执行判断处理。
在一种可能的实施方式中,终端可以对目标语音信号进行归一化自相关的计算,得到如图7所示的自相关曲线。为了便于介绍,本实施例将目标语音信号的自相关曲线称为第一自相关曲线。
为了提高频率分辨率,使结果更为准确,可以在第一自相关曲线中对各个波峰进行插值,波峰的纵坐标可以为自相关峰值、横坐标的倒数可以为频率值,因此,可以得到n个自相关峰值。该n个自相关峰值可以是第一自相关曲线中所有的自相关峰值;也可以是最大的n个自相关峰值,此时,可以对n进行预先设置,本实施例对n的具体取值不作限定。
对n个自相关峰值从大到小进行排序,得到一个自相关峰值序列{p1,p2,…,pn},以及对应的频率值序列{f1,f2,…,fn}。
终端可以获取目标语音信号的频谱,频谱图如图8所示。同样,可以对频谱中的各个波峰进行插值,以提高频率分辨率, 使结果更为准确,波峰的纵坐标可以为频谱幅度值、横坐标可以为频率值。然后,获取多个波峰, 选取其中最靠近纵坐标的波峰,将其对应的频率值作为目标语音信号的频谱峰值的频率值。对频谱的处理可以与上述对第一自相关曲线的处理同时进行,也可以在上述对第一自相关曲线的处理之后进行,本实施例对此不作限定。
进而,终端可以按照频率值序列{f1,f2,…,fn}的顺序,依次确定频率值f1、f2、…、fn是否在频谱峰值的频率值的预设范围内,也即是否在频谱峰值的频率值附近。
一旦确定下任一频率值在频谱峰值的频率值附近,便可以将该频率值确定为目标语音信号的基频基准值,并结束判断处理。
一般而言,基于上述n个自相关峰值的频率值可以找到基频基准值。若未找到在频谱峰值的频率值附近的频率值,则可以认为目标语音信号疑似为噪声信号,通过计算谐波比或者其他方法进行判断,当判断出目标语音信号确实属于语音信号时,可以在n个自相关峰值对应的频率值中,将距离频谱峰值的频率值最近的频率值作为基频基准值,本实施例对此不作限定。
可选的,如图9所示的确定基频基准值的流程图,在对排序后的第一个自相关峰值f1执行上述判断处理之前,还可以基于最大峰值和谐波比对噪声信号进一步筛查,相应的处理可以如下:
获取第一自相关曲线的第一最大峰值和目标语音信号的谐波比;
判断是否满足第一最大峰值大于第一峰值阈值,且谐波比大于谐波比阈值;
如果是,则在n个自相关峰值对应的频率值中,确定目标语音信号的基频基准值;
如果否,则将目标语音信号改判为噪声信号。
其中,第一峰值阈值和谐波比阈值可以预先设置,本实施例对其具体取值不作限定。
在一种可能的实施方式中,若满足第一最大峰值大于第一峰值阈值,且谐波比大于谐波比阈值,可以认为目标语音信号不是噪声信号,则可以开始执行图6所示的步骤503,对自相关峰值进行排序后执行上述判断处理,在n个自相关峰值对应的频率值中,确定目标语音信号的基频基准值。若不满足,可以认为此时的目标语音信号是噪声信号,则将该段音频信号改判为噪声信号,不继续执行确定目标语音信号的基频基准值的处理,以避免将噪声信号的频率值作为基频基准值,进一步提高基频的准确性。
可选的,确定目标语音信号的基频基准值之后,还可以基于人声的基频范围进一步筛选,相应的处理可以如下:根据预设的基频范围,筛选处于基频范围的基频基准值。
其中,基频范围可以为50-500Hz,本实施例对具体的基频范围不作限定。
在一种可能的实施方式中,若基频基准值处于该基频范围,则可以认为是正常的人声,保留该基频基准值;若基频基准值处于该基频范围之外,则可以认为不是人声,删除该基频基准值。
可选的,如图10所示的语音信号的基频确定方法的流程图,当存在多个目标语音信号时,确定目标语音信号的基频基准值之后,若存在不连续的基频基准值,则可以对其进行校正,相应的处理可以如下:
在当前的目标语音信号与前一目标语音信号之间,确定基频基准值的差值;
当差值大于差值阈值时,对当前的目标语音信号的基频基准值进行校正;
将当前的目标语音信号的基频基准值,更新为校正后的基频基准值。
其中,差值阈值可以预先设置,本实施例对其具体取值不作限定。
在一种可能的实施方式中,若差值不大于差值阈值,可以认为当前的目标语音信号与前一目标语音信号之间具有连续性,则存储当前的基频基准值。若差值大于差值阈值,可以认为当前的目标语音信号与前一目标语音信号之间不具有连续性,存在音高突变,则可以继续执行上述判断处理,即在频率值序列{f1,f2,…,fn}中,继续对当前基频基准值的下一个频率值执行上述判断处理,重新确定基频基准值。例如,假设在上述过程中确定f2为当前基频基准值,如果f2与前一目标语音信号的基频基准值之间的差值大于差值阈值,则继续在频率值序列{f1,f2,…,fn}中,对f3执行上述步骤5031-5033,重新确定基频基准值。
在重新确定基频基准值后,可以继续确定上述差值并判断是否需要校正,如果需要,则重复上述处理,直至上述差值不大于差值阈值,则存储当前的基频基准值。若在频率值序列{f1,f2,…,fn}中均未找到使上述差值不大于差值阈值的频率值,则可以将当前的目标语音信号改判为噪声信号。
或者,还可以是在频率值序列{f1,f2,…,fn}中将当前基频基准值剔除后,根据基频基准值的连续性查找另一基频基准值。例如,假设在上述过程中确定f2为当前基频基准值,如果f2与前一目标语音信号的基频基准值之间的差值大于差值阈值,则在频率值序列{f1,f2,…,fn}中将f2剔除,得到新的频率值序列{f1,f3,…,fn},进而可以基于频率值序列{f1,f3,…,fn}重新确定基频基准值,从第一个频率值f1开始,依次确定频率值与前一目标语音信号的基频基准值之间的差值,获取最小差值对应的频率值作为当前的基频基准值。判断上述最小差值是否大于差值阈值,如果不大于,则存储当前的基频基准值;如果大于,则可以将当前的目标语音信号改判为噪声信号。
步骤104,根据基频基准值,确定目标语音信号的每帧信号的基频。
此时的终端中可以存储有多个基频基准值,用于基频的选择,其中,一个字的目标语音信号对应于一个基频基准值。
在一种可能的实施方式中,终端可以对每个目标语音信号进行低通滤波后,加窗分帧,对每个目标语音信号划分得到多帧信号。对于一帧信号,终端可以确定该帧信号的多个基频候选值中,选择其中一个基频候选值作为该帧信号的基频。
可选的,如图11所示的基频选择的流程图,终端可以基于自相关算法进行基频的选择,相应的处理可以如下:
步骤1101,对目标语音信号的每帧信号进行自相关运算,得到每帧信号对应的第二自相关曲线;
步骤1102,在第二自相关曲线中,获取m个自相关峰值对应的频率值,m为大于1的整数;
步骤1103,在m个频率值中,获取最接近基频基准值的一个频率值,作为每帧信号的基频。
在一种可能的实施方式中,步骤1101、1102的处理与上述步骤501、502的处理同理,此处不再赘述。
终端可以将每个自相关峰值对应的频率值作为基频候选值,计算每个基频候选值与该帧信号的基频基准值之间的距离,并获取其中的最小距离,也即是获取min(|fSeg-fFrame|),其中,fSeg为该帧信号的基频基准值,fFrame为该帧信号的任一基频候选值。将最小距离对应的基频候选值作为该帧信号的基频。
可选的,如图12所示的基频选择的流程图,获取m个自相关峰值对应的频率值之前,还可以执行如下处理:
获取第二自相关曲线的第二最大峰值;
判断第二最大峰值是否大于第二峰值阈值;
如果是,则获取m个自相关峰值对应的频率值;
如果否,则将对应的一帧信号判定为噪声信号。
其中,第二峰值阈值可以预先设置,本实施例对其具体取值不作限定。
在一种可能的实施方式中,若第二最大峰值大于第二峰值阈值,可以认为该帧信号属于语音信号,则继续执行上述步骤1102;若第二最大峰值不大于第二峰值阈值,可以认为该帧信号属于噪声信号,则忽略该帧信号,或将该帧信号的基频设置为预设的噪声频率,避免将一帧噪声信号确定为语音信号,提高提取语音信号基频的准确性。由于本实施例提供的是一种针对语音信号的基频确定方法,本实施例中的噪声信号均可忽略,或将噪声信号的基频设置为预设的噪声频率。
终端在确定每个目标语音信号的每帧信号的基频之后,可以绘制对应的基频曲线,基频曲线如图13所示。
本发明实施例可以取得如下有益效果:
(1)终端在对待处理的音频信号进行处理时,通过逐音节获取语音信号,并对每个字的语音信号确定基频基准值,以基频基准值为基准来确定每个字的帧信号对应的帧基频,可以提高基频提取的准确性。并且,采用基频基准值作为基准来提取基频,相比于现有技术中采用求解最优解问题来提取基频的方法,计算量较少,可以提高基频提取的效率。
(2)在语音检测的过程中采用子带谱熵法和短时能量法,进一步提高了语音检测的准确性。
(3)通过自相关算法确定基频基准值和基频候选值,相比于平均幅度差法、倒谱法,在噪声环境下具有更好的适应性。并且,本实施例中对自相关算法进行了改进,减少发生二次倍频或二次分频的情况,提高选取自相关峰值的准确性。
(4)在基频基准值不具备连续性时还可以进行校正,进一步提高了基频提取的准确性。
(5)通过人声的基频范围对基频基准值进行筛选,进一步提高了基频提取的准确性。
本发明实施例还提供了一种语音信号的基频确定装置,该装置用于实现上述语音信号的基频确定方法。如图14所示的语音信号的基频确定装置的示意性框图,语音信号的基频确定装置1400包括:音频信号获取模块1401,语音信号获取模块1402,基频基准确定模块1403,基频确定模块1404。
音频信号获取模块1401,用于获取待处理的音频信号;
语音信号获取模块1402,用于在所述待处理的音频信号中,逐音节获取至少一个目标语音信号;
基频基准确定模块1403,用于确定所述目标语音信号的基频基准值;
基频确定模块1404,用于根据所述基频基准值,确定所述目标语音信号的每帧信号的基频。
可选的,所述语音信号获取模块1402用于:
基于子带谱熵法和短时能量法,在所述待处理的音频信号中,逐音节获取至少一个目标语音信号。
可选的,所述语音信号获取模块1402用于:
基于子带谱熵法,对所述待处理的音频信号进行端点检测,获取多段初步判定的语音信号;
在所述多段初步判定的语音信号中,确定第一目标语音信号和待复查的语音信号;
基于短时能量法对所述待复查的语音信号进行检测,确定第二目标语音信号。
可选的,所述语音信号获取模块1402用于:
在所述多段初步判定的语音信号中,对所述待复查的语音信号获取前一段语音信号的终止点和后一段语音信号的起始点;
在所述待处理的音频信号中,获取所述终止点和所述起始点之间的音频信号,作为待复查的音频信号;
基于短时能量法,确定所述待复查的音频信号是否属于语音信号;
如果是,则在所述待复查的音频信号中确定第二目标语音信号。
可选的,所述基频基准确定模块1403用于:
对所述目标语音信号进行自相关运算,得到所述目标语音信号对应的第一自相关曲线;
在所述第一自相关曲线中,获取n个自相关峰值和所述n个自相关峰值对应的频率值,n为大于1的整数;
在所述n个自相关峰值对应的频率值中,确定所述目标语音信号的基频基准值。
可选的,所述基频基准确定模块1403用于:
对所述n个自相关峰值从大到小进行排序,依次对排序后的所述n个自相关峰值的频率值执行如下判断处理:
判断当前自相关峰值的频率值,是否在所述目标语音信号的频谱峰值的频率值的预设范围内;
如果是,则将所述当前自相关峰值对应的频率值,作为所述目标语音信号的基频基准值,并停止判断处理;
如果否,则对下一个自相关峰值执行判断处理。
可选的,所述基频基准确定模块1403还用于:
获取所述第一自相关曲线的第一最大峰值和所述目标语音信号的谐波比;
判断是否满足所述第一最大峰值大于第一峰值阈值,且所述谐波比大于谐波比阈值;
如果是,则在所述n个自相关峰值对应的频率值中,确定所述目标语音信号的基频基准值;
如果否,则将所述目标语音信号改判为噪声信号。
可选的,所述基频基准确定模块1403还用于:
根据预设的基频范围,筛选处于所述基频范围的基频基准值。
可选的,当存在多个目标语音信号时,所述基频基准确定模块1403还用于:
在当前的目标语音信号与前一目标语音信号之间,确定基频基准值的差值;
当所述差值大于差值阈值时,对所述当前的目标语音信号的基频基准值进行校正;
将所述当前的目标语音信号的基频基准值,更新为校正后的基频基准值。
可选的,所述基频确定模块1404用于:
对所述目标语音信号的每帧信号进行自相关运算,得到所述每帧信号对应的第二自相关曲线;
在所述第二自相关曲线中,获取m个自相关峰值对应的频率值,m为大于1的整数;
在m个频率值中,获取最接近所述基频基准值的一个频率值,作为所述每帧信号的基频。
可选的,所述基频确定模块1404还用于:
获取所述第二自相关曲线的第二最大峰值;
判断所述第二最大峰值是否大于第二峰值阈值;
如果是,则获取m个自相关峰值对应的频率值;
如果否,则将对应的一帧信号判定为噪声信号。
本发明实施例中,在对待处理的音频信号进行处理时,通过逐音节获取语音信号,并对每个字的语音信号确定基频基准值,以基频基准值为基准来确定每个字的帧信号对应的帧基频,可以提高基频提取的准确性。
本发明示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本发明实施例的方法。
本发明示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本发明实施例的方法。
本发明示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本发明实施例的方法。
参考图15,现将描述可以作为本发明的服务器或客户端的电子设备1500的结构框图,其是可以应用于本发明的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图15所示,电子设备1500包括计算单元1501,其可以根据存储在只读存储器(ROM)1502中的计算机程序或者从存储单元1508加载到随机访问存储器(RAM)1503中的计算机程序,来执行各种适当的动作和处理。在RAM 1503中,还可存储设备1500操作所需的各种程序和数据。计算单元1501、ROM 1502以及RAM 1503通过总线1504彼此相连。输入/输出(I/O)接口1505也连接至总线1504。
电子设备1500中的多个部件连接至I/O接口1505,包括:输入单元1506、输出单元1507、存储单元1508以及通信单元1509。输入单元1506可以是能向电子设备1500输入信息的任何类型的设备,输入单元1506可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元1507可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1508可以包括但不限于磁盘、光盘。通信单元1509允许电子设备1500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元1501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1501执行上文所描述的各个方法和处理。例如,在一些实施例中,语音信号的基频确定方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1502和/或通信单元1509而被载入和/或安装到电子设备1500上。在一些实施例中,计算单元1501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行语音信号的基频确定方法。
用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
如本发明使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
Claims (14)
1.一种语音信号的基频确定方法,其特征在于,所述方法包括:
获取待处理的音频信号;
在所述待处理的音频信号中,逐音节获取至少一个目标语音信号;
确定所述目标语音信号的基频基准值;
根据所述基频基准值,确定所述目标语音信号的每帧信号的基频。
2.根据权利要求1所述的语音信号的基频确定方法,其特征在于,所述在所述待处理的音频信号中,逐音节获取至少一个目标语音信号,包括:
基于子带谱熵法和短时能量法,在所述待处理的音频信号中,逐音节获取至少一个目标语音信号。
3.根据权利要求2所述的语音信号的基频确定方法,其特征在于,所述基于子带谱熵法和短时能量法,在所述待处理的音频信号中,逐音节获取至少一个目标语音信号,包括:
基于子带谱熵法,对所述待处理的音频信号进行端点检测,获取多段初步判定的语音信号;
在所述多段初步判定的语音信号中,确定第一目标语音信号和待复查的语音信号;
基于短时能量法对所述待复查的语音信号进行检测,确定第二目标语音信号。
4.根据权利要求3所述的语音信号的基频确定方法,其特征在于,所述基于短时能量法对所述待复查的语音信号进行检测,确定第二目标语音信号,包括:
在所述多段初步判定的语音信号中,对所述待复查的语音信号获取前一段语音信号的终止点和后一段语音信号的起始点;
在所述待处理的音频信号中,获取所述终止点和所述起始点之间的音频信号,作为待复查的音频信号;
基于短时能量法,确定所述待复查的音频信号是否属于语音信号;
如果是,则在所述待复查的音频信号中确定第二目标语音信号。
5.根据权利要求1所述的语音信号的基频确定方法,其特征在于,所述确定所述目标语音信号的基频基准值,包括:
对所述目标语音信号进行自相关运算,得到所述目标语音信号对应的第一自相关曲线;
在所述第一自相关曲线中,获取n个自相关峰值和所述n个自相关峰值对应的频率值,n为大于1的整数;
在所述n个自相关峰值对应的频率值中,确定所述目标语音信号的基频基准值。
6.根据权利要求5所述的语音信号的基频确定方法,其特征在于,所述在所述n个自相关峰值对应的频率值中,确定所述目标语音信号的基频基准值,包括:
对所述n个自相关峰值从大到小进行排序,依次对排序后的所述n个自相关峰值的频率值执行如下判断处理:
判断当前自相关峰值的频率值,是否在所述目标语音信号的频谱峰值的频率值的预设范围内;
如果是,则将所述当前自相关峰值对应的频率值,作为所述目标语音信号的基频基准值,并停止判断处理;
如果否,则对下一个自相关峰值的频率值执行判断处理。
7.根据权利要求6所述的语音信号的基频确定方法,其特征在于,对排序后的第一个自相关峰值执行所述判断处理之前,还包括:
获取所述第一自相关曲线的第一最大峰值和所述目标语音信号的谐波比;
判断是否满足所述第一最大峰值大于第一峰值阈值,且所述谐波比大于谐波比阈值;
如果是,则在所述n个自相关峰值对应的频率值中,确定所述目标语音信号的基频基准值;
如果否,则将所述目标语音信号改判为噪声信号。
8.根据权利要求1所述的语音信号的基频确定方法,其特征在于,所述确定所述目标语音信号的基频基准值之后,还包括:
根据预设的基频范围,筛选处于所述基频范围的基频基准值。
9.根据权利要求1所述的语音信号的基频确定方法,其特征在于,当存在多个目标语音信号时,所述确定所述目标语音信号的基频基准值之后,还包括:
在当前的目标语音信号与前一目标语音信号之间,确定基频基准值的差值;
当所述差值大于差值阈值时,对所述当前的目标语音信号的基频基准值进行校正;
将所述当前的目标语音信号的基频基准值,更新为校正后的基频基准值。
10.根据权利要求1所述的语音信号的基频确定方法,其特征在于,所述根据所述基频基准值,确定所述目标语音信号的每帧信号的基频,包括:
对所述目标语音信号的每帧信号进行自相关运算,得到所述每帧信号对应的第二自相关曲线;
在所述第二自相关曲线中,获取m个自相关峰值对应的频率值,m为大于1的整数;
在m个频率值中,获取最接近所述基频基准值的一个频率值,作为所述每帧信号的基频。
11.根据权利要求10所述的语音信号的基频确定方法,其特征在于,所述获取m个自相关峰值对应的频率值之前,还包括:
获取所述第二自相关曲线的第二最大峰值;
判断所述第二最大峰值是否大于第二峰值阈值;
如果是,则获取m个自相关峰值对应的频率值;
如果否,则将对应的一帧信号判定为噪声信号。
12.一种语音信号的基频确定装置,其特征在于,所述装置包括:
音频信号获取模块,用于获取待处理的音频信号;
语音信号获取模块,用于在所述待处理的音频信号中,逐音节获取至少一个目标语音信号;
基频基准确定模块,用于确定所述目标语音信号的基频基准值;
基频确定模块,用于根据所述基频基准值,确定所述目标语音信号的每帧信号的基频。
13.一种电子设备,包括:
处理器;以及
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-11中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1-11中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111416502.9A CN113851114B (zh) | 2021-11-26 | 2021-11-26 | 语音信号的基频确定方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111416502.9A CN113851114B (zh) | 2021-11-26 | 2021-11-26 | 语音信号的基频确定方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113851114A CN113851114A (zh) | 2021-12-28 |
CN113851114B true CN113851114B (zh) | 2022-02-15 |
Family
ID=78982205
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111416502.9A Active CN113851114B (zh) | 2021-11-26 | 2021-11-26 | 语音信号的基频确定方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113851114B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114995638B (zh) * | 2022-05-12 | 2024-08-23 | 北京有竹居网络技术有限公司 | 触觉信号生成方法、装置、可读介质及电子设备 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3576840B2 (ja) * | 1997-11-28 | 2004-10-13 | 松下電器産業株式会社 | 基本周波数パタン生成方法、基本周波数パタン生成装置及びプログラム記録媒体 |
CN101000766B (zh) * | 2007-01-09 | 2011-02-02 | 黑龙江大学 | 基于语调模型的汉语语调基频轮廓生成方法 |
JP2011180308A (ja) * | 2010-02-26 | 2011-09-15 | Masatomo Okumura | 音声認識装置及び記録媒体 |
AT509512B1 (de) * | 2010-03-01 | 2012-12-15 | Univ Graz Tech | Verfahren zur ermittlung von grundfrequenz-verläufen mehrerer signalquellen |
CN103337244B (zh) * | 2013-05-20 | 2015-08-26 | 北京航空航天大学 | 一种孤立音节基频曲线中的野值修改方法 |
CN103426440A (zh) * | 2013-08-22 | 2013-12-04 | 厦门大学 | 利用能量谱熵空间信息的语音端点检测装置及其检测方法 |
CN109346109B (zh) * | 2018-12-05 | 2020-02-07 | 百度在线网络技术(北京)有限公司 | 基频提取方法和装置 |
CN111223491B (zh) * | 2020-01-22 | 2022-11-15 | 深圳市倍轻松科技股份有限公司 | 一种提取音乐信号主旋律的方法、装置及终端设备 |
-
2021
- 2021-11-26 CN CN202111416502.9A patent/CN113851114B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113851114A (zh) | 2021-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9536540B2 (en) | Speech signal separation and synthesis based on auditory scene analysis and speech modeling | |
EP2828856B1 (en) | Audio classification using harmonicity estimation | |
US20150081287A1 (en) | Adaptive noise reduction for high noise environments | |
CN109616098B (zh) | 基于频域能量的语音端点检测方法和装置 | |
CN109801646B (zh) | 一种基于融合特征的语音端点检测方法和装置 | |
KR20090076683A (ko) | 신호 검출 방법, 장치 및 그 방법을 실행하는 프로그램이기록된 기록매체 | |
CN114242098B (zh) | 一种语音增强方法、装置、设备以及存储介质 | |
CN110689885B (zh) | 机器合成语音识别方法、装置、存储介质及电子设备 | |
US20230267947A1 (en) | Noise reduction using machine learning | |
CN112652313B (zh) | 声纹识别的方法、装置、设备、存储介质以及程序产品 | |
CN110688518A (zh) | 节奏点的确定方法、装置、设备及存储介质 | |
CN113851114B (zh) | 语音信号的基频确定方法和装置 | |
CN110875049A (zh) | 语音信号的处理方法及装置 | |
CN112992190A (zh) | 音频信号的处理方法、装置、电子设备和存储介质 | |
CN114333912B (zh) | 语音激活检测方法、装置、电子设备和存储介质 | |
CN113271386B (zh) | 啸叫检测方法及装置、存储介质、电子设备 | |
CN112466328B (zh) | 呼吸音检测方法、装置和电子设备 | |
CN115223584B (zh) | 音频数据处理方法、装置、设备及存储介质 | |
CN115359800A (zh) | 发动机型号检测方法和装置、电子设备、存储介质 | |
CN111028860B (zh) | 音频数据处理方法、装置、计算机设备以及存储介质 | |
WO2021179470A1 (zh) | 一种纯语音数据采样率识别方法、装置、系统 | |
JP5193130B2 (ja) | 電話音声区間検出装置およびそのプログラム | |
JP7152112B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
CN113450812A (zh) | 一种啸叫检测方法、语音通话方法以及相关装置 | |
CN114374912B (zh) | 语音输入的方法、装置、电子设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |