CN106373594B - 一种音调检测方法及装置 - Google Patents

一种音调检测方法及装置 Download PDF

Info

Publication number
CN106373594B
CN106373594B CN201610797829.8A CN201610797829A CN106373594B CN 106373594 B CN106373594 B CN 106373594B CN 201610797829 A CN201610797829 A CN 201610797829A CN 106373594 B CN106373594 B CN 106373594B
Authority
CN
China
Prior art keywords
initial key
key component
audio signal
data frame
signal type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610797829.8A
Other languages
English (en)
Other versions
CN106373594A (zh
Inventor
许丽净
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201610797829.8A priority Critical patent/CN106373594B/zh
Publication of CN106373594A publication Critical patent/CN106373594A/zh
Application granted granted Critical
Publication of CN106373594B publication Critical patent/CN106373594B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Abstract

本发明公开了一种音调检测方法及装置,用于解决现有技术存在的检测的音调分量不准确的问题。该方法包括:获取音频信号的数据帧;确定所述数据帧包括的N种音频信号类型;所述N为大于1的正整数;针对所述数据帧按照第i种音频信号类型对应的初始音调检测规则进行检测,得到所述第i种音频信号类型的初始音调分量;其中,所述第i种音频信号类型为所述N种音频信号类型中的一种,i取遍不大于N的所有正整数;将得到的N种音频信号类型中每种音频信号类型的初始音调分量均作为所述数据帧包括的初始音调分量。

Description

一种音调检测方法及装置
技术领域
本发明实施例涉及音频信号处理技术领域,尤其涉及一种音调检测方法及装置。
背景技术
音调是指音频信号中的基频分量和泛音分量,其中泛音的频率为基频的整数倍。针对语音信号,浊音部分是由基频分量和若干泛音成分组成,针对音乐信号,管乐器和弦乐器等演奏的声音是由基频分量和若干泛音组成。通过分析基频及泛音的不同,可以区分不同的乐器以及不同的人发出的声音。因此,为了准确分析音频信号中的基频成分以及泛音成分,有效的音调检测方式是必需的。
现有技术的音调检测方法一般是通过对音频信号进行快速傅里叶变换(英文:fast fourier transform,简称:FFT)获取功率密度谱,确定每帧功率密度谱是否满足预设的条件,例如预设的条件为pf≥p(f±i)(i=0,1,…,7)以及pf-p(f±i)≥11dB(i=5,6),,7若是,则该谱线f处存在初始音调分量,pf为待检测帧的谱线f处的功率密度谱。如果该待检测帧的初始音调分量的分布在频域上具有周期性或者在时域上具有连续性则初始音调分量为有效的音调分量。
以中文女声+中文男声组合而成的语音序列为例说明,如图1所示。其中,图1中a)为波形图,横轴表示样本点数,纵轴表示幅值;图1中b)为语谱图,横轴表示帧数,纵轴表示频率;图2为音调分量检测结果,横轴表示帧数,纵轴表示频率。图中横轴的样本点数与帧数是相对应的。图2中的白线表示对应帧在纵轴所对应的频率处检测出音调分量,白线的分布与图1中b)语谱图中的频谱分布是对应的。对比图中b)与图2可知,椭圆曲线标识的区域本来是存在音调分量的,但是由于判断规则只适用于部分信号类型,因此利用现有技术提供的检测方式并没有将这些音调分量检测出来,因此导致遗漏了很多音调分量。
发明内容
本发明实施例提供了一种音调检测方法及装置,用于解决现有技术存在的检测的音调分量不准确的问题。
第一方面,本发明实施例提供了一种音调检测方法,该方法包括:
获取音频信号的数据帧后,确定所述数据帧包括的N种音频信号类型;所述N为大于1的正整数;然后针对所述数据帧按照第i种音频信号类型对应的初始音调检测规则进行检测,得到所述第i种音频信号类型的初始音调分量;从而得到N种音频信号类型中每种音频信号类型的初始音调分量。其中,所述第i种音频信号类型为所述N种音频信号类型中的一种,i取遍不大于N的所有正整数。得到的N种音频信号类型中每种音频信号类型的初始音调分量均为所述数据帧包括的初始音调分量。
本发明实施例中,针对音频信号的数据帧可以预确定包括哪几种音频信号类型的信号,因此可以通过针对每一种音频信号类型配置的多种音调检测规则对该音频信号的数据帧进行检测,从而使得配置的多种音调检测规则组合起来能够同时满足多种音频信号类型的检测需求,从而能够避免单一规则检测遗漏音调分量的问题,提高了音调检测的准确率。
在一种可能的设计中,在所述将得到的N种音频信号类型的初始音调分量作为所述数据帧包括的初始音调分量后,所述方法还包括:
获取所述数据帧包括的初始音调分量在频域上分布的周期性,基于获取的周期性验证所述数据帧包括的初始音调分量是否为有效的音调分量。
上述设计中,针对得到的初始音调分量进行周期性验证来筛选有效的音调分量,提高了检测的准确度。
在一种可能的设计中,基于获取的周期性验证所述数据帧包括的初始音调分量是否为有效的音调分量,可以通过如下方式实现:
若验证所述初始音调分量分布具有周期性,则确定所述初始音调分量为有效的音调分量。
若验证所述初始音调分量分布不具有周期性但所述初始音调分量分布具有连续性,并且连续分布的多个初始音调分量中包含具有周期性分布的初始音调分量,则确定所述初始音调分量为有效的音调分量。
若验证所述初始音调分量不具有周期性,但所述音频信号为单频信号,并且所述初始音调分量分布具有连续性,则确定所述初始音调分量为有效的音调分量。
本发明实施例中针对非单频信号不仅凭借确定初始音调分量分布具有连续就验证该初始音调分量为有效音调分量,而是通过周期性分析以及连续性分析相结合,如果某初始音调分量分布仅具有连续性,但是连续分布的多个初始音调分量中不包含具有周期性分布的初始音调分量,则该初始音调分量并非有效的音调分量,从而有效排除干扰项,提高了筛选有效的音调分量的准确度。
在一种可能的设计中,在确定所述初始音调分量分布具有周期性时,可以通过如下方式实现:
确定第一初始音调分量同时满足如下条件1至条件3时,则确定所述初始音调分量分布具有周期性;所述第一初始音调分量为第i种音频信号类型的初始音调分量中的任意一个;
条件1,第一分布间隔与第二分布间隔的差的绝对值小于第一预设阈值;所述第一分布间隔为所述第一初始音调分量与第二初始音调分量之间在频域上的分布间隔;所述第二分布间隔为所述第一初始音调分量与第三初始音调分量在频域上的分布间隔;所述第二初始音调分量以及所述第三初始音调分量为与所述第一初始音调分量在同一数据帧,且在所述第一初始音调分量的第一预设邻域范围内的两个的初始音调分量;
条件2,所述第一初始音调分量与所述第二初始音调分量之间在频域上的分布间隔,以及所述第一初始音调分量与所述第三初始音调分量在频域上的分布间隔均处于第二预设范围内;
条件3,所述第一初始音调分量所在数据帧的信号基频处于第三预设范围内。
其中,针对不同的音频信号类型设置的第一预设阈值可以相同也可以不同,设置的第二预设范围具体可以基于不同的音频信号类型的基频大小确定。针对第i种音频信号类型设置的第三预设范围可以与该第i种音频信号类型的基频范围相同。
上述设计中,在现有技术提供的周期性检测基础上,增加了条件2以及条件3,能够有效的筛除干扰项,提高了检测的准确度。
在一种可能的设计中,在确定所述初始音调分量分布具有连续性时,可以通过如下方式实现:
确定第四初始音调分量与第五初始音调分量所在的谱线位置差处于第四预设范围内,则确定所述第四初始音调分量分布具有连续性;
其中,所述第四初始音调分量为所述数据帧包括的初始音调分量中的任意一个,所述第五初始音调分量为:与所述第四初始音调分量所在的数据帧的第二预设邻域范围内包括的数据帧包括的初始音调分量中的一个。
通过设计提供的确定连续性的方式,能够提高检测的准确度。
在一种可能的设计中,所述第i中音频信号类型对应M个初始音调检测规则,针对所述数据帧按照第i种音频信号类型对应的初始音调检测规则进行检测,可以通过如下方式实现:
获取用于检测音调分量的电子设备所能承受的计算复杂度,根据所述计算复杂度确定所使用的第i种音频信号类型的初始音调检测规则的数量,并从针对第i种音频信号类型对应的M个初始音调检测规则中选择出小于或者等于所述数量的初始音调检测规则,所述M为大于1的正整数。
随着初始音调检测规则数量的增加,电子设备的计算量相对增加,在电子设备对计算复杂度有要求时,通过上述设计,基于电子设备对计算复杂度的要求确定初始音调检测规则的数量,较现有技术提高了检测准确度,但也降低了运算量。
在一种可能的设计中,针对所述数据帧按照第i种音频信号类型对应的初始音调检测规则进行检测,得到所述第i种音频信号类型的初始音调分量,可以通过如下方式实现:
对所述数据帧进行快速傅里叶变换FFT得到功率密度谱;基于针对第i种音频信号类型对应第j个音调检测规则包括的第一条件确定功率密度谱中的局部极大点,并基于所述第j个音调检测规则包括的第二条件确定所述局部极大点处是否存在初始音调分量;
其中,所述第j个音调检测规则为第i种音频信号类型对应的M个音调检测规则中的一个;M为不小于1的正整数;j取遍不大于M的所有正整数;所述第一条件基于所述第i种音频信号类型的基频确定,所述第二条件基于所述第i种音频信号类型的基频、所述第i种音频信号类型的音调分量的邻域能量分布以及音调检测精度确定。
上述设计中,在现有技术提供的初始音调检测规则的基础上,对音调检测规则进行改进,增加音调检测规则的数量,提高了检测的准确度。
在一种可能的设计中,所述第一条件表示如下:
pf≥p(f±i)(i=0,1,…,a);
其中,pf表示待分析帧的谱线f处的功率密度谱系数;a为正整数;a的取值基于所述第i种音频信号类型的基频确定,且基频越高,a值越大;
所述的第二条件表示如下:
pf-p(f±i)≥THdB(i=Δ+1,…,a),0<Δ<a
系数Δ的取值基于所述第i种音频信号类型的基频及所述第i种音频信号类型的音调分量的邻域能量分布确定;系数TH的取值基于音调检测精度确定。
上述设计中,通过音频信号类型的基频以及音调分量的邻域能量分布、音调检测精度来确定每种音频信号类型的初始音调检测规则,从而使得针对该种音频信号类型确定的初始音调检测规则对该种音频信号类型的音频信号检测更准确。
第二方面,本发明实施例还提供了一种音调检测装置,该装置包括:
获取模块,用于获取音频信号的数据帧;
确定模块,用于确定所述获取模块获取的所述数据帧包括的N种音频信号类型;所述N为大于1的正整数;
检测模块,用于针对所述数据帧按照所述确定模块确定的第i种音频信号类型对应的初始音调检测规则进行检测,得到所述第i种音频信号类型的初始音调分量;从而将得到的N种音频信号类型中每种音频信号类型的初始音调分量均作为所述数据帧包括的初始音调分量;
其中,所述第i种音频信号类型为所述N种音频信号类型中的一种,i取遍不大于N的所有正整数;
在一种可能的设计中,所述装置还可以包括:
验证模块,用于在所述检测模块将得到的N种音频信号类型的初始音调分量作为所述数据帧包括的初始音调分量后,获取所述数据帧包括的初始音调分量在频域上分布的周期性,基于获取的周期性验证所述数据帧包括的初始音调分量是否为有效的音调分量。
在一种可能的设计中,所述验证模块在基于获取的周期性验证所述数据帧包括的初始音调分量是否为有效的音调分量时,具体用于:
若验证所述初始音调分量分布具有周期性,则确定所述初始音调分量为有效的音调分量。
在一种可能的设计中,所述验证模块若验证所述初始音调分量分布不具有周期性但所述初始音调分量分布具有连续性,并且连续分布的多个初始音调分量中包含具有周期性分布的初始音调分量,则确定所述初始音调分量为有效的音调分量。
所述验证模块若验证所述初始音调分量不具有周期性,但所述音频信号为单频信号,并且所述初始音调分量分布具有连续性,则确定所述初始音调分量为有效的音调分量。
在一种可能的设计中,所述验证模块,在确定所述初始音调分量分布具有周期性时,具体用于:
确定第一初始音调分量同时满足如下条件1至条件3时,则确定所述初始音调分量分布具有周期性;所述第一初始音调分量为第i种音频信号类型的初始音调分量中的任意一个;
条件1,第一分布间隔与第二分布间隔的差的绝对值小于第一预设阈值;所述第一分布间隔为所述第一初始音调分量与第二初始音调分量之间在频域上的分布间隔;所述第二分布间隔为所述第一初始音调分量与第三初始音调分量在频域上的分布间隔;所述第二初始音调分量以及所述第三初始音调分量为与所述第一初始音调分量在同一数据帧,且在所述第一初始音调分量的第一预设邻域范围内的两个的初始音调分量;
条件2,所述第一初始音调分量与所述第二初始音调分量之间在频域上的分布间隔,以及所述第一初始音调分量与所述第三初始音调分量在频域上的分布间隔均处于第二预设范围内;
条件3,所述第一初始音调分量所在数据帧的信号基频处于第三预设范围内。
在一种可能的设计中,所述验证模块,在确定所述初始音调分量分布具有连续性时,具体用于:
确定第四初始音调分量与第五初始音调分量所在的谱线位置差处于第四预设范围内,则确定所述第四初始音调分量分布具有连续性;
其中,所述第四初始音调分量为所述数据帧包括的初始音调分量中的任意一个,所述第五初始音调分量为:与所述第四初始音调分量所在的数据帧的第二预设邻域范围内包括的数据帧包括的初始音调分量中的一个。
在一种可能的设计中,所述第i中音频信号类型对应M个初始音调检测规则,所述检测模块,具体用于:
获取用于检测音调分量的电子设备所能承受的计算复杂度,根据所述计算复杂度确定所使用的第i种音频信号类型的初始音调检测规则的数量,并从针对第i种音频信号类型对应的M个初始音调检测规则中选择出小于或者等于所述数量的初始音调检测规则,所述M为大于1的正整数。
第三方面,本发明实施例还提供了一种音调检测装置,该装置包括:
通信接口,处理器以及存储器。所述存储器、所述通信接口以及所述处理器分别通过总线相互连接;通信接口用于获取音频信号;存储器用于存储处理器所执行的程序代码;处理器用于执行存储器所存储的程序代码,具体用于执行第一方面或者第一方面的任意一种设计所述的方法。
第四方面,本发明实施例还提供了一种音调检测方法,该方法包括:
获取音频信号的数据帧;然后基于预配置的音调检测规则对所述数据帧进行检测,得到所述数据帧中包括的初始音调分量;在对所述初始音调分量进行连续性检测时,若检测到所述初始音调分量分布具有连续性,并且连续分布的多个初始音调分量中包含具有周期性分布的初始音调分量,则验证所述初始音调分量为有效的音调分量。
本发明实施例中在确定初始音调分量分布的连续性时,并非仅根据初始音调分量分布具有连续性就验证该初始音调分量为有效音调分量,而是通过周期性分析以及连续性分析相结合,如果某初始音调分量分布仅具有连续性,但是连续分布的多个初始音调分量中不包含具有周期性分布的初始音调分量,则该初始音调分量并非有效的音调分量,从而有效排除干扰项,提高了筛选有效的音调分量的准确度。
第五方面,本发明实施例还提供了一种音调检测装置,该装置包括:
获取模块,用于获取音频信号的数据帧;
检测模块,用于基于预配置的音调检测规则对所述数据帧进行检测,得到所述数据帧中包括的初始音调分量;
验证模块,用于在对所述初始音调分量进行连续性检测时,若检测到所述初始音调分量分布具有连续性,并且连续分布的多个初始音调分量中包含具有周期性分布的初始音调分量,则验证所述初始音调分量为有效的音调分量。
本发明实施例中在确定初始音调分量分布的连续性时,并非仅根据初始音调分量分布具有连续性就验证该初始音调分量为有效音调分量,而是通过周期性分析以及连续性分析相结合,如果某初始音调分量分布仅具有连续性,但是连续分布的多个初始音调分量中不包含具有周期性分布的初始音调分量,则该初始音调分量并非有效的音调分量,从而有效排除干扰项,提高了筛选有效的音调分量的准确度。
第六方面,本发明实施例还提供了一种音调检测装置,该装置包括:
通信接口,处理器以及存储器。所述存储器、所述通信接口以及所述处理器分别通过总线相互连接;通信接口用于获取音频信号;存储器用于存储处理器所执行的程序代码;处理器用于执行存储器所存储的程序代码,具体用于执行第四方面所述的方法。
附图说明
图1为现有技术提供的中文女声+中文男声组合而成的语音序列及语谱示意图;
图2为现有技术提供的音调检测结果示意图;
图3为本发明实施例提供的一种音调检测方法流程图;
图4为本发明实施例提供的另一种音调检测方法流程图;
图5a为本发明实施例提供的类型1对应的音调检测规则检测出来的且具有周期性的初始音调分量示意图;
图5b为本发明实施例提供的类型2对应的音调检测规则检测出来的且具有周期性的初始音调分量示意图;
图5c为本发明实施例提供的类型3对应的音调检测规则检测出来的且具有周期性的初始音调分量示意图;
图6a为本发明实施例提供的图5a至图5c包括的具有周期性的初始音调分量合并后的示意图;
图6b为本发明实施例提供的针对图6a中的初始音调分量验证后得到的有效的音调分量示意图;
图7为本发明实施例提供的又一种音调检测方法流程图;
图8a为本发明实施例提供的使用单一规则进行音调分量检测的检测结果示意图;
图8b为本发明实施例提供的使用多种音频信号类型对应的规则对音频信号检测的检测结果示意图;
图9a为本发明实施例提供的中文带噪声男声序列波形图;
图9b为本发明实施例提供的中文带噪声男声序列的语谱图;
图9c为本发明实施例提供的连续性检测结果示意图;
图9d为本发明实施例提供的判断连续性后在根据周期性判断结果结合得到音调分量检测结果示意图;
图10为本发明实施例提供的一种音调检测装置示意图;
图11为本发明实施例提供的另一种音调检测装置示意图;
图12为本发明实施例提供的又一种音调检测装置示意图;
图13为本发明实施例提供的再一种音调检测装置示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例提供了一种音调检测方法及装置,用于解决现有技术存在的检测的音调分量不准确的问题。其中,方法和装置是基于同一发明构思的,由于方法及装置解决问题的原理相似,因此装置与方法的实施可以相互参见,重复之处不再赘述。
本发明实施例可以应用于包括音频编解码器、视频编解码器等的各种电子设备中,例如移动电话、无线装置、手持或编写计算机、个人数据助理(PDA),GPS接收机/导航器、音频或者视频播放器、摄像机、照相机以及监控设备等等。通常上述电子设备中包括音频编码器或者音频解码器。音频编码器或者音频解码器可以直接由数字电路或者芯片,比如数字信号处理器(英文:digital signal processor,简称:DSP)实现,或者由软件代码驱动处理器执行软件代码中的流程来实现。
本发明实施例中通过将现有技术中所提及的音调检测规则由单一规则变为多个规则,以满足多种信号类型的检测需求。
本发明实施例中可以根据音频信号基频分布范围的不同以及声部的不同来划分音频信号类型。例如:器乐信号可以分为高音、中音、次中音及低音等;声乐信号可以分为女高音、女低音、男高音及男低音等;语音信号可以分为男声、女声及童声等。针对每一类信号,可以设计不同的音调检测规则。
下面结合附图对本发明实施例提供的音调检测方法进行具体描述。
参见图3,为本发明实施例提供的一种音调检测方法流程图,该方法可以由上述电子设备实现。
S301,获取音频信号的数据帧。
S302,确定所述数据帧包括的N种音频信号类型。N为大于1的正整数。
在确定数据帧包括哪些音频信号类型时,可以基于用户的输入来确定。用户可以根据具体的场景来确定音频信号的类型,比如男生与女生的通话录音,则确定该段音频信号中包括男声类型和女声类型。
S303,针对所述数据帧按照第i种音频信号类型对应的初始音调检测规则进行检测,得到所述第i种音频信号类型的初始音调分量。
其中,所述第i种音频信号类型为所述N种音频信号类型中的一种,i取遍不大于N的所有正整数。得到的N种音频信号类型中每种音频信号类型的初始音调分量均为所述数据帧包括的初始音调分量。
通过上述步骤S301至S303处理后,得到了N中音频信号类型中每种音频信号类型的初始音调分量,得到的N种音频信号类型中每种音频信号类型的初始音调分量均为所述数据帧包括的初始音调分量。
本发明实施例中所述第i种音频信号类型对应的音调检测规则可以是基于所述第i种音频信号类型的基频范围、所述第i种音频信号类型的音调分量的邻域能量分布以及音调检测精度确定的。
其中,所述第i种音频信号类型的音调分量的邻域能量分布可以是预先基于针对该第i种音调信号类型多次检测后的经验值确定的。
比如,预先已经确定音频信号的数据帧中包括三种音频信号类型,类型1以及类型2以及类型3。在对数据帧进行初始音调检测时,分别采用针对类型1配置的音调检测规则、针对类型2配置的音调检测规则以及针对类型3配置的音调检测规则来确定所述数据帧中所包括初始音调分量,即可能会检测出3组初始音调分量:第一组包括基于类型1对应的音调检测规则检测出的初始音调分量;第二组包括基于类型2对应的音调检测规则检测出的初始音调分量;第三组包括基于类型3对应的音调检测规则检测出的初始音调分量。
其中,本发明实施例中,针对每一种音频信号类型配置一种或者多种音调检测规则,根据检测要求,可以增加或者减少针对每一种音频信号类型配置的音调检测规则的数量。其中,检测要求可以是检测精度,或者进行音调检测的电子设备所能承受的复杂度等。
本发明实施例中,针对音频信号的数据帧可以预确定包括哪几种音频信号类型的信号,因此可以通过针对每一种音频信号类型配置的音调检测规则对该音频信号的数据帧进行检测,从而使得配置的多种音调检测规则组合起来能够同时满足多种音频信号类型的检测需求,从而能够避免单一规则检测遗漏音调分量的问题,提高了音调检测的准确率。
可选地,步骤303中,针对所述数据帧按照第i种音频信号类型对应的初始音调检测规则进行检测,得到所述第i种音频信号类型的初始音调分量,可以通过如下方式实现:
a,对所述音频信号的数据帧进行FFT得到功率密度谱;
b,基于针对第i种音频信号类型对应第j个音调检测规则包括的第一条件确定功率密度谱中的局部极大点,并基于所述第j个音调检测规则包括的第二条件确定所述局部极大点处是否存在初始音调分量。
其中,所述第j个音调检测规则为第i种音频信号类型对应的M个音调检测规则中的一个;M为不小于1的正整数;j取遍不大于M的所有正整数;所述第一条件基于所述第i种音频信号类型的基频确定,所述第二条件基于所述第i种音频信号类型的基频、所述第i种音频信号类型的音调分量的邻域能量分布以及音调检测精度确定。
其中,所述第一条件可以表示如下:
pf≥p(f±i)(i=0,1,…,a);
其中,pf表示待分析帧的谱线f处的功率密度谱系数;a为正整数;a的取值基于所述第i种音频信号类型的基频确定,且基频越高,a值越大。
针对第i种音频信号类型配置的不同的音调检测规则中a的值设置不同,但均根据该第i种音频信号类型的基频范围确定。
所述的第二条件可以表示如下:
pf-p(f±i)≥THdB(i=Δ+1,…,a),0<Δ<a;
系数Δ的取值基于所述第i种音频信号类型的基频及所述第i种音频信号信号类型的音调分量的邻域能量分布确定。第i种音频信号类型的不同的音调检测规则中Δ的值设置不同,但均根据该第i种音频信号类型的基频范围以及所述第i种音频信号类型的音调分量的邻域能量分布确定。
第i种音频信号类型的能量分布情况与FFT变换精度以及音调变化有关。如果能量分布越集中,Δ值更加接近位置0,从而Δ/a值越小;如果能量分布相对不够集中,Δ值更加接近位置a,Δ/a值越大。
系数TH的取值基于音调检测精度确定。如果TH值较大,会排除掉更多的非音调分量,但是也会漏掉一部分有效的音调分量;TH值较小,会检测出更多的有效的音调分量,但是也会将一部分无效的音调分量误检为有效的音调分量。
第i种音频信号类型的不同的音调检测规则中TH的值设置可以相同也可以不同,根据该第i种音频信号类型的音调检测精度确定。
在一种可能的设计中,在所述将得到的N种音频信号类型的初始音调分量作为所述数据帧包括的初始音调分量后,所述方法还可以包括:
获取所述数据帧包括的初始音调分量在频域上分布的周期性,基于获取的周期性验证所述数据帧包括的初始音调分量是否为有效的音调分量。
可选地,基于获取的周期性验证所述数据帧包括的初始音调分量是否为有效的音调分量,可以通过如下方式实现:
若验证所述初始音调分量分布具有周期性,则确定所述初始音调分量为有效的音调分量。
若验证所述初始音调分量分布不具有周期性但所述初始音调分量分布具有连续性,并且连续分布的多个初始音调分量中包含具有周期性分布的初始音调分量,则确定所述初始音调分量为有效的音调分量。
若验证所述初始音调分量不具有周期性,但所述音频信号为单频信号,并且所述初始音调分量分布具有连续性,则确定所述初始音调分量为有效的音调分量。
本发明实施例中针对非单频信号不仅凭借确定初始音调分量分布具有连续就判断该初始音调分量为检测到的音调分量,而是通过周期性分析以及连续性分析相结合,如果某初始音调分量分布仅具有连续性,但是连续分布的多个初始音调分量中不包含具有周期性分布的初始音调分量,则该初始音调分量并有效的音调分量,从而有效排除干扰项,提高了筛选真正音调分量的准确度。
可选地,在确定所述初始音调分量分布具有周期性时,可以通过如下方式实现:
确定第一初始音调分量同时满足如下条件1至条件3时,则确定所述初始音调分量分布具有周期性;所述第一初始音调分量为第i种音频信号类型的初始音调分量中的任意一个;
条件1,第一分布间隔与第二分布间隔的差的绝对值小于第一预设阈值;所述第一分布间隔为所述第一初始音调分量与第二初始音调分量之间在频域上的分布间隔;所述第二分布间隔为所述第一初始音调分量与第三初始音调分量在频域上的分布间隔;所述第二初始音调分量以及所述第三初始音调分量为与所述第一初始音调分量在同一数据帧,且在所述第一初始音调分量的第一预设邻域范围内的两个的初始音调分量;
条件2,所述第一初始音调分量与所述第二初始音调分量之间在频域上的分布间隔,以及所述第一初始音调分量与所述第三初始音调分量在频域上的分布间隔均处于第二预设范围内;
条件3,所述第一初始音调分量所在数据帧的信号基频处于第三预设范围内。
其中,针对不同的音频信号类型设置的第一预设阈值可以相同也可以不同,设置的第二预设范围具体可以基于不同的音频信号类型的基频大小确定。针对第i种音频信号类型设置的第三预设范围可以与该第i种音频信号类型的基频范围相同。
本发明实施例中在确定所述初始音调分量分布具有连续性时,可以通过如下方式实现:
确定第四初始音调分量与第五初始音调分量所在的谱线位置差处于第四预设范围内,则确定所述第四初始音调分量分布具有连续性;
其中,所述第四初始音调分量为所述数据帧包括的初始音调分量中的任意一个,所述第五初始音调分量为:与所述第四初始音调分量所在的数据帧的第二预设邻域范围内包括的数据帧包括的初始音调分量中的一个。
本发明实施例中初始音调分量分布的连续性是指时域上的连续性。
例如,设待分析帧为第i帧。如果第i帧的第m个初始音调分量与第(i-1)帧的第n个初始音调分量(n不一定等于m)位于同一谱线或是相邻谱线,说明第i帧的第m个初始音调分量相对于第(i-1)帧的第n个初始音调分量来说是连续分布的。如果第(i-1)帧的第n个初始音调分量与第(i-2)帧的第k个初始音调分量也是相连的,说明第(i-1)帧的第n个初始音调分量相对于第(i-2)帧的第k个初始音调分量来说也是连续分布的,依次类推,第i帧的第m个初始音调分量、第(i-1)帧的第n个初始音调分量以及第(i-2)帧的第k个初始音调分量等构成一条连续分布的谱线。因此,第i帧的第m个初始音调分量的分布具有连续性。
在确定所述初始音调分量分布不具有周期性但所述初始音调分量分布具有连续性,并且连续分布的多个初始音调分量中包含具有周期性分布的初始音调分量时,如果某个初始音调分量的分布不具有周期性,但是该初始音调分量的分布具有连续性,并且该初始音调分量所在的连续分布的多个初始音调分量中包括具有周期性分布的初始音调分量,则该初始音调分量就是有效的音调分量。举例说明,假设第i帧的第m个初始音调分量分布不具有周期性,但是分布具有连续性,与第(i-1)帧的第n个初始音调分量以及第(i-2)帧的第k个初始音调分量等构成一条连续分布的谱线。通过周期性分析,假设已知第(i-2)帧的第k个初始音调分量的分布具有周期性,则第i帧的第m个初始音调分量就是满足要求的有效的音调分量。
在筛选有效的音调分量时,现有技术一般仅根据周期性或者连续性进行判断有效的音调分量,这样有部分存在连续性的噪声会认为是有效的音调分量,造成误判,通过本发明实施例提供的方案,在判断连续性后在根据周期性判断结果结合,从而使得连续性的噪声会被筛选出去,因此降低了误判的可能性。
在一种可能的设计中,所述第i中音频信号类型对应M个初始音调检测规则,针对所述数据帧按照第i种音频信号类型对应的初始音调检测规则进行检测时,可以通过如下方式实现:
获取用于检测音调分量的电子设备所能承受的计算复杂度,根据所述计算复杂度确定所使用的第i种音频信号类型的初始音调检测规则的数量,并从针对第i种音频信号类型对应的M个音调检测规则中选择出小于或者等于确定数量的音调检测规则,所述M为大于1的正整数。
下面针对具体应用场景,对本发明实施例提供的音调检测方案作具体说明。
本发明实施例以语音信号的数据帧中包括男声类型、女声类型以及男女声类型为例进行说明。后续为了描述方便,将女声类型称为类型1,男女声类型称为类型2,将男声类型称为类型3。其中,本发明实施例中后续描述中涉及的男声类型指的基频相对较低的部分男声,女声类型指的是基频相对较高的部分女声,男女生类型指的是基频相对较高的部分男声以及基频相对较低的部分女声。
参见图4所示,为本发明实施例提供的音调检测方法流程图。
S401,获取音频信号的数据帧,并确定所述数据帧中包括类型1、类型2以及类型3;
S402,对所述音频信号的数据帧进行FFT得到功率密度谱。
S403,基于针对类型1~3中每一种类型对应的音调检测规则确定所述功率密度谱的谱线上存在的初始音调分量。
设待检测帧的谱线f处的功率密度谱为pf,针对配置的音调检测规则举例如下:
针对类型1配置的音调检测规则:
pf≥p(f±i)(i=0,1,…,6)&pf-p(f±i)≥11dB(i=4,5,6)
pf≥p(f±i)(i=0,1,…,7)&pf-p(f±i)≥11dB(i=5,6,7)
pf≥p(f±i)(i=0,1,…,8)&pf-p(f±i)≥11dB(i=6,7,8)
……
pf≥p(f±i)(i=0,1,…,25)&pf-p(f±i)≥11dB(i=23,24,25)
针对类型2配置的音调检测规则:
pf≥p(f±i)(i=0,1,…,3)&pf-p(f±i)≥9dB(i=3)
pf≥p(f±i)(i=0,1,…,4)&pf-p(f±i)≥9dB(i=4)
pf≥p(f±i)(i=0,1,…,5)&pf-p(f±i)≥9dB(i=5)
针对类型3配置的音调检测规则:
pf≥p(f±i)(i=0,1,2)&pf-p(f±i)≥5dB(i=2)
pf≥p(f±i)(i=0,1,…,3)&pf-p(f±i)≥5dB(i=3)
pf≥p(f±i)(i=0,1,…,4)&pf-p(f±i)≥5dB(i=4)
pf≥p(f±i)(i=0,1,…,5)&pf-p(f±i)≥5dB(i=5)
如果pf满足以上任何条件之一,则pf所在谱线处存在音调分量。
类型1用于检测女声类型。该类信号基频高,部分声调处的音调分量的能量分布较为分散。a值取值范围为[6,25],TH的取值为11,Δ/a取值范围为[0.5,0.88]。
类型2用于检测部分女声及部分男声类型。该类信号基频小于类型1信号。与类型1相比,该类信号的音调分量的能量分布更加集中。a值取值范围为[3,5],TH的取值为9,Δ/a取值范围为[0.4,0.8]。
类型3用于检测男声类型。该类信号基频小于或者等于类型2信号。与类型2相比,该类信号的音调分量的能量分布更加集中。a值取值范围为[2,5],TH取值为5,Δ/a取值范围为[0.2,0.8]。
本发明实施例中,针对类型1设置有20种音调检测规则,针对类型2设置有3种音调检测规则,针对类型3设置有4种音调检测规则。
音调检测规则数为27种。在一定的范围内,规则数量越多,音调检测准确性越高,但是算法复杂度也会相应增加。用户可以根据实际应用需求,灵活设定音调检测规则的数量。
因此,基于针对类型1~3中每一种类型配置的音调检测规则确定所述功率密度谱的谱线上存在的初始音调分量时,可以将上述27种音调检测规则全部用于确定所述功率密度谱的谱线上存在的初始音调分量,当然可以根据需要从20种类型1对应的音调检测规则中选择部分,从3种类型2对应的音调检测规则中选择部分,再从4种类型3对应的音调检测规则中选择部分,将3部分组合用于检测所述功率密度谱的谱线上存在的初始音调分量。
本发明实施例中为了后续描述方便,将由类型1对应的音调检测规则检测出来的初始音调分量组成第一组,由类型2对应的音调检测规则检测出来的初始音调分量组成第二组,由类型3对应的音调检测规则检测出来的初始音调分量组成第三组。
S404,对第i组包括的每一个初始音调分量进行周期性分析得到周期性分析结果。其中,i=1,2,3。假设第k组包括5个初始音调分量,针对每一个初始音调分量均进行周期性分析。下面以第一个初始音调分量为例,第一个初始音调分量为5个初始音调分量中一个。
其中,确定第一初始音调分量是否具有周期性需要满足如下三个条件:
条件1,第一分布间隔与第二分布间隔的差的绝对值小于第一预设阈值;所述第一分布间隔为所述第一初始音调分量与第二初始音调分量之间在频域上的分布间隔;所述第二分布间隔为所述第一初始音调分量与第三初始音调分量在频域上的分布间隔;所述第二初始音调分量以及所述第三初始音调分量为与所述第一初始音调分量在同一数据帧,且在所述第一初始音调分量的第一预设邻域范围内的两个的初始音调分量。
这里所述的第一预设邻域范围内,可以与所述初始音调分量相隔一个或者相隔两个,本发明实施例中,用户可以根据需要设定第一预设邻域范围。
条件2,所述第一初始音调分量与所述第二初始音调分量之间在频域上的分布间隔,以及所述第一初始音调分量与所述第三初始音调分量在频域上的分布间隔均处于第二预设范围内。
所述第一初始音调分量所在数据帧的信号基频处于第三预设范围内。
针对不同的组设置的第一预设阈值可以相同也可以不同,设置的第二预设范围具体可以基于不同的组对应的音频信号类型的基频大小确定。针对不同组设置的第三预设范围与该组对应的音频信号类型的基频范围相同。
本发明实施例为了描述方便,针对不同的组设置的第一预设阈值进行区分,针对女声类型称为预设阈值1,针对男女声类型称为预设阈值2,针对男声类型称为预设阈值3;针对不同的组设置的第二预设范围进行区分,针对女声类型称为预设间隔范围1,针对男女声类型称为预设间隔范围2,针对男声类型称为预设间隔范围3;针对不同的组设置的第三预设范围进行区分,针对女声类型称为预设基频范围1,针对男女声类型称为预设基频范围2,针对男声类型称为预设基频范围3。
假设,预设阈值1~3均相同且为0。如果待分析帧共检测出N个初始音调分量,从低频至高频,依次标记为第0、1、……、(n-1)、n、(n+1)、……、(N-1)个初始音调分量。假设第一预设邻域范围为相邻的初始音调分量,因此如果第n个初始音调分量与(n-1)、(n+1)初始音调分量是等间隔分布,则第n个初始音调分量满足条件1)。
如果第n个初始音调分量与相邻的初始音调分量是等间隔分布的,但是分布间隔过大或过小,不处于设定的取值范围内,则该初始音调分量还不是有效的音调分量。由于不同音频信号类型对应的音调检测规则检测出来的初始音调分量,设定的分布间隔的取值范围可以是不同的,因此利用类型1对应的音调检测规则检测出来的第一组包括的初始音调分量的分布间隔应处于预设间隔范围1,利用类型2对应的音调检测规则检测出来的第二组包括的初始音调分量的分布间隔应处于预设间隔范围2,利用类型3对应的音调检测规则检测出来的第三组包括的初始音调分量的分布间隔应处于预设间隔范围3。
如果初始音调分量的分布满足条件1)以及条件2),在再进一步确定每一组中初始音调分量对应的基频是否处于第三预设范围,利用类型1对应的音调检测规则检测出来的第一组包括的初始音调分量对应的基频应处于预设基频范围1,利用类型2对应的音调检测规则检测出来的第二组包括的初始音调分量对应的基频应处于预设基频范围2,利用类型3对应的音调检测规则检测出来的第三组包括的初始音调分量对应的基频应处于预设基频范围3。
以图1中a)所示中文女声+中文男声信号序列为例,针对利用类型1、类型2以及类型3三组对应的音调检测规则检测出来的初始音调分量分别进行周期性分析,如图5a至图5c所示。其中,图5a用于表示类型1对应的音调检测规则检测出来的且具有周期性的初始音调分量;图5b用于表示类型2对应的音调检测规则检测出来的且具有周期性的初始音调分量;图5c用于表示类型3对应的音调检测规则检测出来的且具有周期性的初始音调分量。
S405,基于周期性分析结果验证初始音调分量是否具有周期性,若是执行S406,若否,执行S407或S409。
S406,所述初始音调分量为有效的音调分量。
S407,验证不具有周期性分布的初始音调分量是单频信号,并验证所述初始音调分量分布是否具有连续性,若是,则执行S406,若否,执行S408。
S408,所述初始音调分量不是有效的音调分量。
S409,验证不具有周期性分布的初始音调分量是非单频信号且验证不具有周期性分布的初始音调分量分布是否具有连续性,若是,执行S410,若否,执行S408。
S410,验证在连续分布的多个初始音调分量中是否包含具有周期性分布的初始音调分量,若是,则执行S406,若否,则执行S408。
如图6a以及图6b所示,图6a为图5a至图5c包括的具有周期性的初始音调分量合并后的示意图。图6b为在图6a的基础上增加S409和S410处理后得到的有效的音调分量。
在本发明实施例中将现有技术中的音调检测规则由单一规则变为多个规则时,针对每一帧,原来只进行一次的判断局部极大点的运算,在本发明实施例中可能需要进行多次,由此会导致算法复杂度显著增加。针对该问题,对本发明实施例涉及的局部极大点检测的运算步骤进行优化,主要包括以下两点:
在可能用到的最大范围内,只进行一次确定局部极大点检测的运算;
针对每一帧的每一条谱线,保存局部极大点检测的范围信息作为公用数据。
以上述列举的类型1、类型2及类型3规则为例说明。
在未进行算法优化之前,针对音调检测规则:
pf≥p(f±i)(i=0,1,…,6)&pf-p(f±i)≥11dB(i=4,5,6)
从pf≥p(f±i)(i=0,1,…,6)可以确定将在[f-6,f+6]范围内搜索局部极大点。
以此类推,针对音调检测规则:
pf≥p(f±i)(i=0,1,…,25)&pf-p(f±i)≥11dB(i=23,24,25)
从pf≥p(f±i)(i=0,1,…,25)可以确定将在[f-25,f+25]范围内搜索局部极大点。
针对类型1、类型2及类型3规则,针对每一帧的每一条谱线需要进行27次搜索局部极大点的运算。
在进行算法优化之后,针对类型1、类型2及类型3的所有规则,只在[f-25,f+25]范围内搜索一次局部极大点,并保存局部极大点的范围信息。
假设范围信息为15,就说明在[f-15,f+15]的范围内满足条件pf≥p(f±i)。针对类型1、类型2及类型3所有规则,比较i的最大值与范围值15的大小:当i的最大值≥15时,不满足条件pf≥p(f±i);当i的最大值<15时,满足条件pf≥p(f±i)
即当规则1的i值取值为:
i=0,1,…,6
i=0,1,…,7
……
i=0,1,…,15
能够满足条件pf≥p(f±i)
当规则1的i值取值为:
i=0,1,…,16
i=0,1,…,17
……
i=0,1,…,25
不满足条件pf≥p(f±i)
针对实施例1列举的类型1、类型2及类型3规则,以图1中a)所示的中文女声+中文男声序列为例,设帧长为16ms,现有技术方案及优化后的本发明技术方案均以浮点代码实现,算法复杂度如表1所示。由表1可见,尽管初始音调检测的规则数由1条增加至27条,运算复杂度(WMOPS)值仅有少量增加。
表1
本发明实施例还提供了一种音调检测方法,如图7所示,所述方法包括:
S701,获取音频信号的数据帧。
S702,基于预配置的音调检测规则对所述数据帧进行检测得到所述数据帧中包括的初始音调分量。
其中,预配置的音调检测规则可以是现有技术提供的音调检测规则,当然还可以是本发明图3对应的实施例中提供的多种音调检测规则,本发明实施例在此不作具体限定。
S703,在对所述初始音调分量进行连续性检测时,若检测到所述初始音调分量分布具有连续性,并且连续分布的多个初始音调分量中包含具有周期性分布的初始音调分量,则所述初始音调分量为有效的音调分量。
在筛选有效的音调分量时,现有技术一般仅根据周期性或者连续性进行判断有效的音调分量,即具有周期性的初始音调分量或者具有连续性的初始音调分量均为有效的音调分量,这样有部分存在连续性的噪声会认为是有效的音调分量,造成误判,通过本发明实施例提供的方案,判断具有周期性的初始音调分量时与现有技术相同,在确定具有连续性的初始音调分量后,再根据周期性判断结果结合,从而使得连续性的噪声会被筛选出去,因此降低了误判的可能性。
通过如下示例,对本发明实施例所达到的效果进行说明。
以中文女声+中文男声组合而成的语音序列为例说明,如图1所示。其中,图1中a)为波形图,图1中b)为语谱图;经过现有技术的单一规则进行音调分量检测的检测结果如图8a所示。图8a中的白线表示对应帧在纵轴所对应的频率处检测出音调分量,白线的分布与图1中b)语谱图中的频谱分布是对应的。对比图1中b)与图8a可知,椭圆曲线标识的区域本来是存在音调分量的,但是由于判断规则只适用于部分信号类型,因此利用现有技术提供的检测方式并没有将这些音调分量检测出来,因此导致遗漏了很多音调分量。利用本发明实施例提供的方案,将单一规则变为多种规则组合,从而得到的检测结果如图8b所示。通过8a与8b进行对比可以看出,利用现有技术检测不出来图8a中椭圆曲线标识的区域内的音调分量;相比之下,通过增加初始音调检测规则,利用本发明技术方案能够准确地检测出来图8b中椭圆曲线标识的区域内的音调分量。
在筛选有效的音调分量时,现有技术一般仅根据周期性或者连续性进行判断有效的音调分量,这样有部分存在连续性的噪声会认为是有效的音调分量,造成误判。以中文带噪男声序列为例说明,如图9a至图9b所示。其中,图9a为波形图,图9b为语谱图,通过现有方式得到如图9c所示的音调分量检测结果,图9d为通过本发明实施例提供的连续性检测的检测结果示意图。对比图9c与图9d可知,在图9c的椭圆曲线标识的区域,仅凭连续性来筛选音调分量,导致位于500至1000Hz之间的背景噪声的谱线也被检测为有效的音调分量。
通过本发明实施例提供的方案,在判断连续性后在根据周期性判断结果结合得到音调分量检测结果,如图9d所示,从图9d可以看出,使得连续性的噪声已被筛选出去,因此降低了误判的可能性。
基于与图3或者图4对应的方法实施例同样的发明构思,本发明实施例还提供了一种音调检测装置,如图10所示,该装置包括:
获取模块1001,用于获取音频信号的数据帧;
确定模块1002,用于确定所述获取模块1001获取的所述数据帧包括的N种音频信号类型;所述N为大于1的正整数;
检测模块1003,用于针对所述数据帧按照所述确定模块1002确定的第i种音频信号类型对应的初始音调检测规则进行检测,得到所述第i种音频信号类型的初始音调分量;从而将得到的N种音频信号类型中每种音频信号类型的初始音调分量均作为所述数据帧包括的初始音调分量;
其中,所述第i种音频信号类型为所述N种音频信号类型中的一种,i取遍不大于N的所有正整数;
在一种可能的设计中,所述装置还可以包括:
验证模块1004,用于在所述检测模块1003将得到的N种音频信号类型的初始音调分量作为所述数据帧包括的初始音调分量后,获取所述数据帧包括的初始音调分量在频域上分布的周期性,基于获取的周期性验证所述数据帧包括的初始音调分量是否为有效的音调分量。
在一种可能的设计中,所述验证模块1004在基于获取的周期性验证所述数据帧包括的初始音调分量是否为有效的音调分量时,具体用于:
若验证所述初始音调分量分布具有周期性,则确定所述初始音调分量为有效的音调分量。
在一种可能的设计中,所述验证模块1004若验证所述初始音调分量分布不具有周期性但所述初始音调分量分布具有连续性,并且连续分布的多个初始音调分量中包含具有周期性分布的初始音调分量,则确定所述初始音调分量为有效的音调分量。
所述验证模块1004若验证所述初始音调分量不具有周期性,但所述音频信号为单频信号,并且所述初始音调分量分布具有连续性,则确定所述初始音调分量为有效的音调分量。
在一种可能的设计中,所述验证模块1004,在确定所述初始音调分量分布具有周期性时,具体用于:
确定第一初始音调分量同时满足如下条件1至条件3时,则确定所述初始音调分量分布具有周期性;所述第一初始音调分量为第i种音频信号类型的初始音调分量中的任意一个;
条件1,第一分布间隔与第二分布间隔的差的绝对值小于第一预设阈值;所述第一分布间隔为所述第一初始音调分量与第二初始音调分量之间在频域上的分布间隔;所述第二分布间隔为所述第一初始音调分量与第三初始音调分量在频域上的分布间隔;所述第二初始音调分量以及所述第三初始音调分量为与所述第一初始音调分量在同一数据帧,且在所述第一初始音调分量的第一预设邻域范围内的两个的初始音调分量;
条件2,所述第一初始音调分量与所述第二初始音调分量之间在频域上的分布间隔,以及所述第一初始音调分量与所述第三初始音调分量在频域上的分布间隔均处于第二预设范围内;
条件3,所述第一初始音调分量所在数据帧的信号基频处于第三预设范围内。
在一种可能的设计中,所述验证模块1004,在确定所述初始音调分量分布具有连续性时,具体用于:
确定第四初始音调分量与第五初始音调分量所在的谱线位置差处于第四预设范围内,则确定所述第四初始音调分量分布具有连续性;
其中,所述第四初始音调分量为所述数据帧包括的初始音调分量中的任意一个,所述第五初始音调分量为:与所述第四初始音调分量所在的数据帧的第二预设邻域范围内包括的数据帧包括的初始音调分量中的一个。
在一种可能的设计中,所述第i中音频信号类型对应M个初始音调检测规则,所述检测模块1003,具体用于:
获取用于检测音调分量的电子设备所能承受的计算复杂度,根据所述计算复杂度确定所使用的第i种音频信号类型的初始音调检测规则的数量,并从针对第i种音频信号类型对应的M个初始音调检测规则中选择出小于或者等于所述数量的初始音调检测规则,所述M为大于1的正整数。
本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,另外,在本申请各个实施例中的各功能模块可以集成在一个处理器中,也可以是单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
其中,集成的模块既可以采用硬件的形式实现时,如图11所示,可以包括通信接口1101,处理器1102以及存储器1103。获取模块1001,确定模块1002、检测模块1003以及验证模块1004对应的实体硬件可以是处理器1102。处理器1102,可以是一个中央处理单元(英文:central processing unit,简称CPU),或者为数字处理单元等等。处理器1102通过通信接口1101获取音频信号。存储器1103,用于存储处理器1102执行的程序。
本申请实施例中不限定上述通信接口1101、处理器1102以及存储器1103之间的具体连接介质。本申请实施例在图11中以存储器1103、处理器1102以及通信接口1101之间通过总线1104连接,总线在图11中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图11中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器1103可以是易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器1103也可以是非易失性存储器(英文:non-volatile memory),例如只读存储器(英文:read-only memory,缩写:ROM),快闪存储器(英文:flash memory),硬盘(英文:hard disk drive,缩写:HDD)或固态硬盘(英文:solid-state drive,缩写:SSD)、或者存储器1103是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器1103可以是上述存储器的组合。
处理器1102用于执行存储器1103存储的程序代码,具体用于执行上述图3或图4对应的实施例所述的方法,具体可以参照图3或图4对应的实施例实施,在此不再赘述。
本发明实施例中,针对音频信号的数据帧可以预确定包括哪几种音频信号类型的信号,因此可以通过针对每一种音频信号类型配置的音调检测规则对该音频信号的数据帧进行检测,从而使得配置的多种音调检测规则组合起来能够同时满足多种音频信号类型的检测需求,从而能够避免单一规则检测遗漏音调分量的问题,提高了音调检测的准确率。
基于与图7对应的方法实施例同样的发明构思,本发明实施例还提供了一种音调检测装置,如图12所示,该装置包括:
获取模块1201,用于获取音频信号的数据帧;
检测模块1202,用于基于预配置的音调检测规则对所述数据帧进行检测,得到所述数据帧中包括的初始音调分量;
验证模块1203,用于在对所述初始音调分量进行连续性检测时,若检测到所述初始音调分量分布具有连续性,并且连续分布的多个初始音调分量中包含具有周期性分布的初始音调分量,则验证所述初始音调分量为有效的音调分量。
本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,另外,在本申请各个实施例中的各功能模块可以集成在一个处理器中,也可以是单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
其中,集成的模块既可以采用硬件的形式实现时,如图13所示,可以包括通信接口1301,处理器1302以及存储器1303。获取模块1201,检测模块1202、验证模块1203对应的实体硬件可以是处理器1302。处理器1302,可以是一个CPU,或者为数字处理单元等等。处理器1302通过通信接口1301获取音频信号。存储器1303,用于存储处理器1302执行的程序。
本申请实施例中不限定上述通信接口1301、处理器1302以及存储器1303之间的具体连接介质。本申请实施例在图13中以存储器1303、处理器1302以及通信接口1301之间通过总线1304连接,总线在图13中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图13中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器1303可以是volatile memory,例如RAM;存储器1303也可以是non-volatile memory,例如ROM,flash memory,HDD或SSD、或者存储器1303是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器1303可以是上述存储器的组合。
处理器1302用于执行存储器1303存储的程序代码,具体用于执行上述图7对应的实施例所述的方法,具体可以参照图7对应的实施例实施,在此不再赘述。
本发明实施例中在确定初始音调分量分布的连续性时,并非仅根据初始音调分量分布具有连续性就验证该初始音调分量为有效音调分量,而是通过周期性分析以及连续性分析相结合,如果某初始音调分量分布仅具有连续性,但是连续分布的多个初始音调分量中不包含具有周期性分布的初始音调分量,则该初始音调分量并非有效的音调分量,从而有效排除干扰项,提高了筛选有效的音调分量的准确度。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (17)

1.一种音调检测方法,其特征在于,包括:
获取音频信号的数据帧;
确定所述数据帧包括的N种音频信号类型;所述N为大于1的正整数;
针对所述数据帧按照第i种音频信号类型对应的初始音调检测规则进行检测,得到所述第i种音频信号类型的初始音调分量;其中,所述第i种音频信号类型为所述N种音频信号类型中的一种,i取遍不大于N的所有正整数;
将得到的N种音频信号类型中每种音频信号类型的初始音调分量均作为所述数据帧包括的初始音调分量。
2.如权利要求1所述的方法,其特征在于,在所述将得到的N种音频信号类型的初始音调分量作为所述数据帧包括的初始音调分量后,所述方法还包括:
获取所述数据帧包括的初始音调分量在频域上分布的周期性,基于获取的周期性验证所述数据帧包括的初始音调分量是否为有效的音调分量。
3.如权利要求2所述的方法,其特征在于,基于获取的周期性验证所述数据帧包括的初始音调分量是否为有效的音调分量,包括:
若验证所述初始音调分量分布具有周期性,则确定所述初始音调分量为有效的音调分量。
4.如权利要求2所述的方法,其特征在于,基于获取的周期性验证所述数据帧包括的初始音调分量是否为有效的音调分量,包括:
若验证所述初始音调分量分布不具有周期性但所述初始音调分量分布具有连续性,并且连续分布的多个初始音调分量中包含具有周期性分布的初始音调分量,则确定所述初始音调分量为有效的音调分量。
5.如权利要求2所述的方法,其特征在于,基于获取的周期性验证所述数据帧包括的初始音调分量是否为有效的音调分量,包括:
若验证所述初始音调分量不具有周期性,但所述音频信号为单频信号,并且所述初始音调分量分布具有连续性,则确定所述初始音调分量为有效的音调分量。
6.如权利要求3所述的方法,其特征在于,确定所述初始音调分量分布具有周期性,包括:
确定第一初始音调分量满足如下条件1至条件3时,则确定所述初始音调分量分布具有周期性;所述第一初始音调分量为第i种音频信号类型的初始音调分量中的任意一个;
条件1,第一分布间隔与第二分布间隔的差的绝对值小于第一预设阈值;所述第一分布间隔为所述第一初始音调分量与第二初始音调分量之间在频域上的分布间隔;所述第二分布间隔为所述第一初始音调分量与第三初始音调分量在频域上的分布间隔;所述第二初始音调分量以及所述第三初始音调分量为与所述第一初始音调分量在同一数据帧,且在所述第一初始音调分量的第一预设邻域范围内的两个的初始音调分量;
条件2,所述第一初始音调分量与所述第二初始音调分量之间在频域上的分布间隔,以及所述第一初始音调分量与所述第三初始音调分量在频域上的分布间隔均处于第二预设范围内;
条件3,所述第一初始音调分量所在数据帧的信号基频处于第三预设范围内。
7.如权利要求3所述的方法,其特征在于,确定所述初始音调分量分布具有连续性,包括:
确定第四初始音调分量与第五初始音调分量所在的谱线位置差处于第四预设范围内,则确定所述第四初始音调分量分布具有连续性;
其中,所述第四初始音调分量为所述数据帧包括的初始音调分量中的任意一个,所述第五初始音调分量为:与所述第四初始音调分量所在的数据帧的第二预设邻域范围内包括的数据帧包括的初始音调分量中的一个。
8.如权利要求1至7任一项所述的方法,其特征在于,所述第i种音频信号类型对应M个初始音调检测规则,针对所述数据帧按照第i种音频信号类型对应的初始音调检测规则进行检测,包括:
获取用于检测音调分量的电子设备所能承受的计算复杂度,根据所述计算复杂度确定所使用的第i种音频信号类型的初始音调检测规则的数量,并从针对第i种音频信号类型对应的M个初始音调检测规则中选择出小于或者等于所述数量的初始音调检测规则,所述M为大于1的正整数。
9.一种音调检测装置,其特征在于,包括:
获取模块,用于获取音频信号的数据帧;
确定模块,用于确定所述获取模块获取的所述数据帧包括的N种音频信号类型;所述N为大于1的正整数;
检测模块,用于针对所述数据帧按照所述确定模块确定的第i种音频信号类型对应的初始音调检测规则进行检测,得到所述第i种音频信号类型的初始音调分量;从而将得到的N种音频信号类型中每种音频信号类型的初始音调分量均作为所述数据帧包括的初始音调分量;
其中,所述第i种音频信号类型为所述N种音频信号类型中的一种,i取遍不大于N的所有正整数。
10.如权利要求9所述的装置,其特征在于,还包括:
验证模块,用于在所述检测模块将得到的N种音频信号类型的初始音调分量作为所述数据帧包括的初始音调分量后,获取所述数据帧包括的初始音调分量在频域上分布的周期性,基于获取的周期性验证所述数据帧包括的初始音调分量是否为有效的音调分量。
11.如权利要求10所述的装置,其特征在于,所述验证模块,具体用于:
若验证所述初始音调分量分布具有周期性,则确定所述初始音调分量为有效的音调分量。
12.如权利要求10所述的装置,其特征在于,所述验证模块,具体用于:
若验证所述初始音调分量分布不具有周期性但所述初始音调分量分布具有连续性,并且连续分布的多个初始音调分量中包含具有周期性分布的初始音调分量,则确定所述初始音调分量为有效的音调分量。
13.如权利要求10所述的装置,其特征在于,所述验证模块,具体用于:
若验证所述初始音调分量不具有周期性,但所述音频信号为单频信号,并且所述初始音调分量分布具有连续性,则确定所述初始音调分量为有效的音调分量。
14.如权利要求11所述的装置,其特征在于,所述验证模块,在确定所述初始音调分量分布具有周期性时,具体用于:
确定第一初始音调分量同时满足如下条件1至条件3时,则确定所述初始音调分量分布具有周期性;所述第一初始音调分量为第i种音频信号类型的初始音调分量中的任意一个;
条件1,第一分布间隔与第二分布间隔的差的绝对值小于第一预设阈值;所述第一分布间隔为所述第一初始音调分量与第二初始音调分量之间在频域上的分布间隔;所述第二分布间隔为所述第一初始音调分量与第三初始音调分量在频域上的分布间隔;所述第二初始音调分量以及所述第三初始音调分量为与所述第一初始音调分量在同一数据帧,且在所述第一初始音调分量的第一预设邻域范围内的两个的初始音调分量;
条件2,所述第一初始音调分量与所述第二初始音调分量之间在频域上的分布间隔,以及所述第一初始音调分量与所述第三初始音调分量在频域上的分布间隔均处于第二预设范围内;
条件3,所述第一初始音调分量所在数据帧的信号基频处于第三预设范围内。
15.如权利要求11所述的装置,其特征在于,所述验证模块,在确定所述初始音调分量分布具有连续性时,具体用于:
确定第四初始音调分量与第五初始音调分量所在的谱线位置差处于第四预设范围内,则确定所述第四初始音调分量分布具有连续性;
其中,所述第四初始音调分量为所述数据帧包括的初始音调分量中的任意一个,所述第五初始音调分量为:与所述第四初始音调分量所在的数据帧的第二预设邻域范围内包括的数据帧包括的初始音调分量中的一个。
16.如权利要求9至15任一项所述的装置,其特征在于,所述第i种音频信号类型对应M个初始音调检测规则,所述检测模块,具体用于:
获取用于检测音调分量的电子设备所能承受的计算复杂度,根据所述计算复杂度确定所使用的第i种音频信号类型的初始音调检测规则的数量,并从针对第i种音频信号类型对应的M个初始音调检测规则中选择出小于或者等于所述数量的初始音调检测规则,所述M为大于1的正整数。
17.一种音调检测装置,其特征在于,包括:
通信接口、处理器以及存储器;
所述存储器、所述通信接口以及所述处理器分别通过总线相互连接;
所述通信接口用于获取音频信号;
所述存储器用于存储所述处理器所执行的程序代码;
所述处理器用于执行所述存储器所存储的程序代码,具体用于执行权利要求1至8任一项所述的方法。
CN201610797829.8A 2016-08-31 2016-08-31 一种音调检测方法及装置 Active CN106373594B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610797829.8A CN106373594B (zh) 2016-08-31 2016-08-31 一种音调检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610797829.8A CN106373594B (zh) 2016-08-31 2016-08-31 一种音调检测方法及装置

Publications (2)

Publication Number Publication Date
CN106373594A CN106373594A (zh) 2017-02-01
CN106373594B true CN106373594B (zh) 2019-11-26

Family

ID=57900538

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610797829.8A Active CN106373594B (zh) 2016-08-31 2016-08-31 一种音调检测方法及装置

Country Status (1)

Country Link
CN (1) CN106373594B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110097888B (zh) * 2018-01-30 2021-08-20 华为技术有限公司 人声增强方法、装置及设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008256912A (ja) * 2007-04-04 2008-10-23 Casio Comput Co Ltd 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム
CN103325384A (zh) * 2012-03-23 2013-09-25 杜比实验室特许公司 谐度估计、音频分类、音调确定及噪声估计
CN103329199A (zh) * 2011-01-25 2013-09-25 日本电信电话株式会社 编码方法、编码装置、周期性特征量决定方法、周期性特征量决定装置、程序、记录介质
CN103426441A (zh) * 2012-05-18 2013-12-04 华为技术有限公司 检测基音周期的正确性的方法和装置
CN103794222A (zh) * 2012-10-31 2014-05-14 展讯通信(上海)有限公司 语音基音频率检测方法和装置
CN104217729A (zh) * 2013-05-31 2014-12-17 杜比实验室特许公司 音频处理方法和音频处理装置以及训练方法
CN104321814A (zh) * 2012-05-23 2015-01-28 日本电信电话株式会社 编码方法、解码方法、编码装置、解码装置、程序以及记录介质
CN105659322A (zh) * 2013-09-19 2016-06-08 微软技术许可有限责任公司 推荐音频样本组合

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008256912A (ja) * 2007-04-04 2008-10-23 Casio Comput Co Ltd 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム
CN103329199A (zh) * 2011-01-25 2013-09-25 日本电信电话株式会社 编码方法、编码装置、周期性特征量决定方法、周期性特征量决定装置、程序、记录介质
CN103325384A (zh) * 2012-03-23 2013-09-25 杜比实验室特许公司 谐度估计、音频分类、音调确定及噪声估计
CN103426441A (zh) * 2012-05-18 2013-12-04 华为技术有限公司 检测基音周期的正确性的方法和装置
CN104321814A (zh) * 2012-05-23 2015-01-28 日本电信电话株式会社 编码方法、解码方法、编码装置、解码装置、程序以及记录介质
CN103794222A (zh) * 2012-10-31 2014-05-14 展讯通信(上海)有限公司 语音基音频率检测方法和装置
CN104217729A (zh) * 2013-05-31 2014-12-17 杜比实验室特许公司 音频处理方法和音频处理装置以及训练方法
CN105659322A (zh) * 2013-09-19 2016-06-08 微软技术许可有限责任公司 推荐音频样本组合

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Beep Tone Detection within RTP Streams Based on TK Energy Operator and DESA2 Algorithm;Hao Luo 等;《IEEE》;20111231;全文 *
一种基于音调的语音/音乐实时分类算法;吴顺姝 等;《电声技术》;20101231;第34卷(第2期);全文 *

Also Published As

Publication number Publication date
CN106373594A (zh) 2017-02-01

Similar Documents

Publication Publication Date Title
Kawahara et al. Nearly defect-free F0 trajectory extraction for expressive speech modifications based on STRAIGHT.
Chi et al. Multiresolution spectrotemporal analysis of complex sounds
Brown et al. Perceptual grouping of musical sounds: A computational model
DE112013001343B4 (de) Benutzerschnittstelle für ein virtuelles Musikinstrument und Verfahren zum Bestimmen einer Eigenschaft einer auf einem virtuellen Saiteninstrument gespielten Note
Fernandez et al. Classical and novel discriminant features for affect recognition from speech.
CN104485117B (zh) 一种录音设备检测的方法及其系统
CN105957515B (zh) 声音合成方法、声音合成装置和存储声音合成程序的介质
Quatieri et al. Audio signal processing based on sinusoidal analysis/synthesis
Ramakrishnan et al. Voice source characterization using pitch synchronous discrete cosine transform for speaker identification
Chang et al. Effects of musical and linguistic experience on categorization of lexical and melodic tones
CN104505103B (zh) 语音质量评价设备、方法和系统
CN107170464A (zh) 一种基于音乐节奏的语音变速方法及计算设备
CN105336344B (zh) 杂音检测方法和装置
Park et al. Harmonic-Percussive Source Separation Using Harmonicity and Sparsity Constraints.
CN112420015A (zh) 一种音频合成方法、装置、设备及计算机可读存储介质
CN106373594B (zh) 一种音调检测方法及装置
Vaca et al. An open audio processing platform with zync fpga
Samlan et al. Perceptual consequences of changes in epilaryngeal area and shape
CN109410971A (zh) 一种美化声音的方法和装置
Giannoulis et al. On the disjointess of sources in music using different time-frequency representations
Kim et al. Phase continuity: Learning derivatives of phase spectrum for speech enhancement
Mu et al. An objective analysis method for perceptual quality of a virtual bass system
Toda et al. An evaluation of cost functions sensitively capturing local degradation of naturalness for segment selection in concatenative speech synthesis
CN112086085B (zh) 音频信号的和声处理方法、装置、电子设备和存储介质
Dubnov Polyspectral analysis of musical timbre

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant