CN110415721B - 一种计算截止频率的方法及装置 - Google Patents

一种计算截止频率的方法及装置 Download PDF

Info

Publication number
CN110415721B
CN110415721B CN201810405168.9A CN201810405168A CN110415721B CN 110415721 B CN110415721 B CN 110415721B CN 201810405168 A CN201810405168 A CN 201810405168A CN 110415721 B CN110415721 B CN 110415721B
Authority
CN
China
Prior art keywords
frequency
frequency point
matching function
iteration
energy distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810405168.9A
Other languages
English (en)
Other versions
CN110415721A (zh
Inventor
邵纬航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201810405168.9A priority Critical patent/CN110415721B/zh
Publication of CN110415721A publication Critical patent/CN110415721A/zh
Application granted granted Critical
Publication of CN110415721B publication Critical patent/CN110415721B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种计算截止频率的方法及装置,在该方法中,计算数据帧的每个频点的谱能量,确定谱能量分布;将预设匹配函数与所述谱能量分布进行迭代匹配,直到迭代后得到的目标匹配函数图与所述谱能量分布图的重合度满足预设要求,其中,所述预设匹配函数以频点序号作为自变量;根据所述目标匹配函数图对应的频点序号,确定所述数据帧的截止频率。采用本申请,可获取准确的截止频率,且无须事先针对不同音频序列而人为调节计算参数,普遍适用于各种音频序列的处理。

Description

一种计算截止频率的方法及装置
技术领域
本发明涉及音频技术领域,尤其涉及一种计算截止频率的方法及装置。
背景技术
通过对各大音视频网站和移动终端应用内涉及的音视频内容调研得知,大多数音视频内容的音频序列(即各种声音信息比如语音、音乐、背景声、对白等等)的谱能量分布在某个频率处存在一个下降沿,使得部分频点的谱能量集中于某个频率以下。下降沿的位置(根据需要可以取下降沿的起点到终点之间的任意频点位置,通常取起点到终点的中点效果较佳)所对应的频率可称为音频序列的截止频率。准确地计算截止频率,可以在音频序列的扩频、削波杂音的消除、语音识别等场景中起到非常重要的作用。
在现有技术中,通常对音频序列中包含的数据帧做快速傅里叶变换(FastFourier Transformation,FFT),得到音频序列各个频点的谱能量,然后根据截止频率的特征,可以人工设定一个的阈值,若找到第m个频点的谱能量不小于该阈值,而第m个频点后的谱能量都小于该阈值,则第m个频点就是所要找的截止频率点。虽然人工设置阈值的方法比较简单直观,但是设置好这个阈值参数是非常困难的。因为选择合适的阈值必然需要关于待分析音频序列的一些先验知识。然而这一点对于现实应用场景而言往往是难以满足的。而不理想的阈值参数会使计算结果和真实值偏差较大。事实上,也不存在一个对所有音频序列都适用的阈值参数,比如对图5中的四个例子,无法找到一个固定的阈值参数,使人工设置阈值的方法准确计算它们的截止频率。
发明内容
本申请实施例所要解决的技术问题在于,提供一种计算截止频率的方法及装置。以解决无法获取准确的截止频率的问题。
第一方面,本申请实施例提供了一种计算截止频率的方法,包括:
计算数据帧的每个频点的谱能量,确定谱能量分布;
将预设匹配函数与所述谱能量分布进行迭代匹配,直到迭代后得到的目标匹配函数图与所述谱能量分布图的重合度满足预设要求,其中,所述预设匹配函数以频点序号作为自变量;
根据所述目标匹配函数图对应的频点序号,确定所述数据帧的截止频率。
在一种可能的实施方式中,在计算数据帧的每个频点的谱能量,确定谱能量分布之前,还包括:
根据预设加窗函数对所述数据帧进行加窗处理;
对所述加窗处理后的结果进行幅度归一化处理;
对所述幅度归一化处理后的结果进行快速傅里叶变换FFT处理;
所述计算数据帧的每个频点的谱能量,确定谱能量分布,包括:
根据所述FFT处理的结果计算每个频点归一化的谱能量,确定谱能量分布。
在一种可能的实施方式中,在将预设匹配函数与所述谱能量分布进行迭代匹配之前,还包括:
对所述谱能量分布图进行平移和负值点置0处理,使得所述谱能量分布图位于x轴上方,x轴表示频点序号。
在一种可能的实施方式中,所述预设匹配函数为:
Figure BDA0001646671470000021
其中,k表示频点序号,A表示所述预设匹配函数的幅度,L表示所述预设匹配函数对称中心点所对应的频点序号,α表示所述预设匹配函数下降沿倾斜因子;
所述将预设匹配函数与所述谱能量分布进行迭代匹配,直到迭代后得到的目标匹配函数图与所述谱能量分布图的重合度满足预设要求具体包括:
根据以下公式进行迭代:
Figure BDA0001646671470000022
Figure BDA0001646671470000023
k(n+1)L=knR
k(n+1)R=Ln
其中,n为迭代匹配的次数,knL为第n次迭代时所需的频点区间的左边界点,knR为第n次迭代时所需的频点区间的右边界点,
Figure BDA0001646671470000024
为频点序号为k的频点的谱能量,An表示第n次迭代时所述预设匹配函数的幅度,An根据区间[knL,knR]内频点谱能量的平均值计算得到;Ln为代价函数
Figure BDA0001646671470000025
最小时L的取值,[kdown,kup]为代价函数的求和区间,kdown=knR
Figure BDA0001646671470000026
N为所述数据帧的采样频点数量,q为范数;k(n+1)L为第n+1次迭代时所需的频点区间的左边界点,k(n+1)R为第n+1次迭代时所需的频点区间的右边界点;
直到满足|Ln-Ln+1|<δ,其中,δ为最大允许误差。
在一种可能的实施方式中,α为正无穷。
在一种可能的实施方式中,
所述预设匹配函数为:
Figure BDA0001646671470000027
其中,k表示频点序号,A表示所述预设匹配函数的幅度,L表示所述预设匹配函数对称中心点所对应的频点序号,α表示所述预设匹配函数下降沿倾斜因子;
所述将预设匹配函数与所述谱能量分布进行迭代匹配,直到迭代后得到的目标匹配函数图与所述谱能量分布图的重合度满足预设要求具体包括:
根据以下公式进行迭代:
Figure BDA0001646671470000028
Figure BDA0001646671470000029
k(n+1)L=knR
k(n+1)R=Ln
其中,n为迭代匹配的次数,knL为第n次迭代时所需的频点区间的左边界点,knR为第n次迭代时所需的频点区间的右边界点,
Figure BDA0001646671470000031
为频点序号为k的频点的谱能量,An表示第n次迭代时所述预设匹配函数的幅度,An是根据区间[knL,knR]内频点谱能量的平均值计算得到的;Ln为代价函数
Figure BDA0001646671470000032
最小时L的取值,[kdown,kup]为代价函数的求和区间,N为所述数据帧的采样频点数量,q为范数;k(n+1)L为第n+1次迭代时所需的频点区间的左边界点,k(n+1)R为第n+1次迭代时所需的频点区间的右边界点;
直到满足|Ln-Ln+1|<δ,其中,δ为最大允许误差;
kdown=max(L-mδ,knR),kup=min(L+mδ,N/2);或者
kdown=max(L-mδ,knR),kup=min(kdown+2mδ,N/2);
其中,自然数m用于调节所述求和区间的大小。
第二方面,本申请实施例提供了一种计算截止频率的装置,包括:
谱能量计算单元,用于计算数据帧的每个频点的谱能量,确定谱能量分布;
迭代匹配单元,用于将预设匹配函数与所述谱能量分布进行迭代匹配,直到迭代后得到的目标匹配函数图与所述谱能量分布图的重合度满足预设要求,其中,所述预设匹配函数以频点序号作为自变量;
截止频率确定单元,用于根据所述目标匹配函数图对应的频点序号,确定所述数据帧的截止频率。
在一种可能的实施方式中,所述谱能量计算单元还用于:
根据预设加窗函数对所述数据帧进行加窗处理;
对所述加窗处理后的结果进行幅度归一化处理;
对所述幅度归一化处理后的结果进行快速傅里叶变换FFT处理;
所述计算数据帧的每个频点的谱能量,确定谱能量分布,包括:
根据所述FFT处理的结果计算每个频点归一化的谱能量,确定谱能量分布。
在一种可能的实施方式中,所述装置还包括:
谱能量处理单元,用于对所述谱能量分布图进行平移和负值点置0处理,使得所述谱能量分布图位于x轴上方,x轴表示频点序号。
在一种可能的实施方式中,所述预设匹配函数为:
Figure BDA0001646671470000033
其中,k表示频点序号,A表示所述预设匹配函数的幅度,L表示所述预设匹配函数对称中心点所对应的频点序号,α表示所述预设匹配函数下降沿倾斜因子;
所述将预设匹配函数与所述谱能量分布进行迭代匹配,直到迭代后得到的目标匹配函数图与所述谱能量分布图的重合度满足预设要求具体包括:
Figure BDA0001646671470000034
Figure BDA0001646671470000035
k(n+1)L=knR
k(n+1)R=Ln
其中,n为迭代匹配的次数,knL为第n次迭代时所需的频点区间的左边界点,knR为第n次迭代时所需的频点区间的右边界点,
Figure BDA0001646671470000041
为频点序号为k的频点的谱能量,An表示第n次迭代时所述预设匹配函数的幅度,An根据区间[knL,knR]内频点谱能量的平均值计算得到;Ln为代价函数
Figure BDA0001646671470000042
最小时L的取值,[kdown,kup]为代价函数的求和区间,kdown=knR
Figure BDA0001646671470000043
N为所述数据帧的采样频点数量,q为范数;k(n+1)L为第n+1次迭代时所需的频点区间的左边界点,k(n+1)R为第n+1次迭代时所需的频点区间的右边界点;
直到满足|Ln-Ln+1|<δ,其中,δ为最大允许误差。
在一种可能的实施方式中,α为正无穷。
在一种可能的实施方式中,
所述预设匹配函数为:
Figure BDA0001646671470000044
其中,k表示频点序号,A表示所述预设匹配函数的幅度,L表示所述预设匹配函数对称中心点所对应的频点序号,α表示所述预设匹配函数下降沿倾斜因子;
所述将预设匹配函数与所述谱能量分布进行迭代匹配,直到迭代后得到的目标匹配函数图与所述谱能量分布图的重合度满足预设要求具体包括:
Figure BDA0001646671470000045
Figure BDA0001646671470000046
k(n+1)L=knR
k(n+1)R=Ln
其中,n为迭代匹配的次数,knL为第n次迭代时所需的频点区间的左边界点,knR为第n次迭代时所需的频点区间的右边界点,
Figure BDA0001646671470000047
为频点序号为k的频点的谱能量,An表示第n次迭代时所述预设匹配函数的幅度,An根据区间[knL,knR]内频点谱能量的平均值计算得到;Ln为代价函数
Figure BDA0001646671470000048
最小时L的取值,[kdown,kup]为代价函数的求和区间,kdownnR
Figure BDA0001646671470000049
N为所述数据帧的采样频点数量,q为范数;k(n+1)L为第n+1次迭代时所需的频点区间的左边界点,k(n+1)R为第n+1次迭代时所需的频点区间的右边界点;
直到满足|Ln-Ln+1|<δ,其中,δ为最大允许误差;kdown=max(L-mδ,knR),kup=min(L+mδ,N/2);或者
kdown=max(L-mδ,knR),kup=min(kdown+2mδ,N/2);
其中,自然数m用于调节求和区间的大小。
第三方面,本申请实施例提供了一种计算截止频率的装置,包括:
处理器、存储器、接口电路和总线,所述处理器、存储器和接口电路通过所述总线连接并完成相互间的通信,其中,所述存储器用于存储一组程序代码,所述处理器用于调用所述存储器中存储的程序代码,执行如本申请实施例第一方面或第一方面任一实施方式所述的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,所述指令在计算机上运行时,使得计算机执行如本申请实施例第一方面或第一方面任一实现方式所述的方法。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的计算截止频率的方法应用的系统架构示意图;
图2为本申请实施例提供的一种计算截止频率的方法的流程示意图;
图3为本申请实施例提供的另一种计算截止频率的方法的流程示意图;
图4为根据本申请实施例提供的一种预设匹配函数的曲线示意图;
图5为根据本申请实施例所述方法确定不同谱能量分布的数据帧的截止频率的结果示意图;
图6为本申请实施例提供的一种计算截止频率的装置的组成示意图;
图7为本申请实施例提供的另一种计算截止频率的装置的组成示意图;
图8为本申请实施例提供的又一种计算截止频率的装置的组成示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参照图1,为本申请实施例提供的计算截止频率的方法的应用的系统架构示意图;该系统架构包括音频输入接口、音频处理器、存储器和音频输出接口。
音频输入接口10,用于从网络服务器或本地存储器30获取音频序列并输入到音频处理器20进行处理。
音频处理器20,用于根据写入的各种音频处理算法对音频序列进行各种处理如包括本申请实施例中所述的计算截止频率的处理,其可以是各种终端如智能手机、平板电脑、计算机或其他智能电子设备的音频处理芯片。
存储器30,可用于存储本地的音频序列以及缓存从网络服务器获取的音频序列。
音频输出接口40,用于将音频处理器20处理后的音频序列输出,其可以与终端设备的喇叭或耳机接口相连接。
本申请实施例中的计算截止频率的方法可以作为一种算法程序写入音频处理器中运行。可适用于智能手机、平板电脑、计算机或其他智能电子设备的通话应用、音视频播放应用、游戏应用、语音导航应用等与音频相关的软件中。
其具体应用场景包括但不限于以下几种典型的应用场景:
1.扩频(bandwidth extension)技术可以扩展音频序列的频带,丰富序列的高频信息,从而显著渲染音效和提高音质,尤其在音乐聆听和电影的特效和打斗场景中有重要作用。然而,该技术需要准确地了解音频序列的截止频率,这样才可以从音频序列截止频率开始连续无缝地填充新的频率成分而不造成畸变。
2.音频序列的波峰/波谷的幅度超过器件载体或编码(encoding)规则所能容忍的阈值时,超出的部分会被“削平”,称为削波(clipping)。削波会产生极不悦耳的杂音(noise/artifacts)。该杂音从频谱上看集中体现在音频序列的截止频率以上。准确计算出音频序列截止频率,进而就可以准确地将削波杂音滤除。
3.截止频率作为音频序列的主要特征参数之一,在语音识别、特殊场景识别中起到重要作用;也是如今与音频相关的机器学习/人工智能领域所要考虑或使用的重要参数。例如,当用于语音识别男声/女声时,本申请实施例精确计算出的截止频率可作为重要参考。因为女声的截止频率一般比男声高。进一步的,机器和人类通过语音互动,机器学习语音可进行男声女声分类学习,有助于适应更为复杂有趣的场景。此外本申请实施例计算的截止频率也可用于声源识别,因为不同声源会有不同的截止频率。
下面结合图2-图6对本申请计算截止频率的方法及效果进行详细说明。
请参照图2,为本申请实施例提供的一种计算截止频率的方法的流程示意图;在本申请实施例中,将音频序列进行分帧处理,每帧共N个数据点。对于每一帧数据的处理,可包括如下步骤:
S201.计算数据帧的每个频点的谱能量,确定谱能量分布。
S202.将预设匹配函数与所述谱能量分布进行迭代匹配,直到迭代后得到的目标匹配函数图与所述谱能量分布图的重合度满足预设要求。
其中,所述预设匹配函数以频点序号作为自变量。频点序号可表示频点按顺序排列后的编号,可以用于表征频点的排序以及频点在预设匹配函数图或谱能量分布图中的位置。例如在谱能量分布图中,可以用频点序号作为横坐标,谱能量作为纵坐标;在预设匹配函数图中,可以用频点序号作为横坐标,预设匹配函数的函数值作为纵坐标。
需要说明的是,目标匹配函数图即以频点序号为横坐标,目标匹配函数的函数值为纵坐标的图形,根据不同频点及其对应的函数值可以确定与频点数量对应的位置点,将这些位置点连接后得到的平滑曲线即为目标匹配函数图,也可以称为目标匹配函数的图形或图像,是目标匹配函数在二维空间上的具体体现,二者存在对应关系,在一些场景的描述中二者可以互换。同理,谱能量分布图是以频点序号作为横坐标,谱能量作为纵坐标的图形,根据不同频点及其对应的谱能量值可以确定与频点数量对应的位置点,将这些位置点连接后得到的平滑曲线即为谱能量分布图,也可以称为谱能量分布的图形或图像,是谱能量分布在二维空间上的具体体现,二者同样也存在对应关系,在一些场景的描述中二者可以互换。
目标匹配函数图与谱能量分布图的重合度满足预设要求,可以理解为通过迭代,目标匹配函数的图形越来越逼近谱能量分布的图形,当二者的图形大部分重合尤其是目标匹配函数中类似阶梯状的图形部分与谱能量下降沿的位置重合时,则可以视为二者的重合度满足预设要求。
S203.根据所述目标匹配函数图对应的频点序号,确定所述数据帧的截止频率。
当二者图形的重合度达到预设要求时,此时目标匹配函数图所对应的频点序号可以视为谱能量分布下降沿中心点位置的估计;在迭代匹配完成时可以输出该频点序号,并根据该频点序号对应的采样频率确定数据帧的截止频率。
可选地,所述预设匹配函数为:
Figure BDA0001646671470000071
其中,k表示频点序号,A表示所述预设匹配函数的幅度,L表示所述预设匹配函数对称中心点所对应的频点序号,α表示所述预设匹配函数下降沿倾斜因子;A和L与k相关,也可以理解为是基于自变量k的一种函数。
所述将预设匹配函数与所述谱能量分布进行迭代匹配,直到迭代后得到的目标匹配函数图与所述谱能量分布图的重合度满足预设要求具体包括:
根据以下公式进行迭代:
Figure BDA0001646671470000072
Figure BDA0001646671470000073
k(n+1)L=knR
k(n+1)R=Ln
其中,n为迭代匹配的次数,knL为第n次迭代时所需的频点区间的左边界点,也即第n次迭代时所需的频点区间的最小的频点;knR为第n次迭代时所需的频点区间的右边界点,也即第n次迭代时所需的频点区间的最大的频点;
Figure BDA0001646671470000074
为频点序号为k的频点的谱能量,An表示第n次迭代时所述预设匹配函数的幅度,An根据区间[knL,knR]内频点谱能量的平均值计算得到;Ln为代价函数
Figure BDA0001646671470000075
最小时L的取值,[kdown,kup]为代价函数的求和区间,kup为所述代价函数求和区间的最大边界值,Kdown为所述代价函数求和区间的最小边界值0,在计算时,可以取kdown=knR
Figure BDA0001646671470000076
需要进行下一次迭代计算即第n+1次迭代计算时,可以取kdown=k(n+1)R
Figure BDA0001646671470000077
N为所述数据帧的采样频点数量,q为范数;k(n+1)L为第n+1次迭代时所需的频点区间的左边界点,k(n+1)R为第n+1次迭代时所需的频点区间的右边界点;
直到满足|Ln-Ln+1|<δ,其中,δ为最大允许误差。
可以确定点(Ln+1,(Ln+1;An+1,α,Ln+1))为谱能量分布下降沿中心点位置的估计;将Ln+1作为迭代匹配完成时确定并输出的频点序号,并作为所述数据帧的截止频率所在位置的估计。
于是可以根据如下公式计算截止频率:
f=Ln+1*fs/N
其中,f为截止频率,fs为数据帧的采样频率,N为数据帧的采样频点数量,也即数据帧时域采样点数总和。
或者,也可以确定点(Ln,(Ln;An,α,Ln))为谱能量分布下降沿中心点位置的估计;Ln作为迭代匹配完成时确定并输出的频点序号,并作为所述数据帧的截止频率所在位置的估计。本申请实施例不作任何限定。
若谱能量分布存在截止频率,即有下降沿,忽略谱能量分布的上下波动(fluctuation),则可视之为一个台阶形状。因此在本申请实施例中,也采用一个函数图形类似台阶形状的匹配函数来与谱能量分布进行匹配。通过不断的迭代计算使得函数图形不断向谱能量分布逼近,直至两者的下降沿位置足够靠近或重合,从而确定截止频率。
例如,可参见图3,为根据本申请实施例提供的一种匹配函数的曲线示意图,其中,横坐标为频点,纵坐标为幅值,预设匹配函数为
Figure BDA0001646671470000081
图3所示预设匹配函数图形为A=1,a=0.85,L=20时的曲线示意图,其中频点15到频点25的图形即是预设匹配函数的下降沿,当函数图形通过迭代计算直至它的下降沿与谱能量分布的下降沿足够接近时,它的下降沿所在位置即可以视为截止频率所在位置的一个准确估计。
上述的预设匹配函数对于达到准确计算截止频率的目的是非常有效的。具体地,对于初次迭代所用的区间[k1L,k1R]的选择,考虑到现在的技术标准决定了当前使用的音频序列有明确的截止频率下限finf,所以只要满足k1R<finf即可。一般而言,语音通话类的音频序列截止频率下限不小于4kHz,音乐音效类的音频序列截止频率下限不小于6kHz,可以取
Figure BDA0001646671470000082
其中fs为音频序列的采样频率。随着迭代的进行,区间[knL,knR]会越来越接近谱能量分布的下降沿,而[knL,knR]内的谱能量的平均值An会越来越接近谱能量分布下降沿左侧附近的谱能量值。在迭代收敛/结束时,
Figure BDA0001646671470000083
即关于L的代价函数(cost function),取到最小值的时候就是匹配函数下降沿和谱能量分布下降沿两者位置足够靠近或重合的时候。
需要说明的是,区间[k1L,k1R]可以根据具体finf灵活选取。当k1L选取过小时,因为一般音频序列低频能量比高频能量大,有时甚至可能会大很多。k1L取过小会导致A1值过大,经过迭代An可能难以趋近谱能量分布下降沿左侧附近的谱能量值,这会影响计算精度。对已知finf值是4kHz的情形,可以取
Figure BDA0001646671470000084
Figure BDA0001646671470000085
对大量音频序列测试都获得了理想的效果。对于截止频率下限finf为其他值的情况,可以根据测试结果灵活选择,本申请不作任何限定。
对于α的取值,可以记Δ为匹配函数下降沿的宽度,Δ也可以作为目标匹配函数图与谱能量分布图二者重合度的一个参考值。(可参见图4所示频点15与频点25对应的两条竖线之间的距离),显然Δ是α的函数,Δ也反映了匹配函数下降沿的倾斜度。每个音频序列谱能量分布下降沿的倾斜度存在大小的不同,但经数值测试,若Δ取太大或太小,计算精确度都会有略微的下降。通常可以设定Δ为如图4中大约10个频点的距离,即α=0.85。大量音频序列测试表明这对于处理一帧N=1024个频点的音频数据效果是比较理想的。与之对应的,δ的取值可以为δ=6≈Δ/2。计算结果允许误差控制在半径大约为6的匹配函数下降沿宽度范围内是比较合理的。这样的计算准确度已经足够满足如扩频技术、削波处理、语音/场景识别、音频人工智能等应用的要求。当然,以上仅为示例性的描述,本申请对α和δ的取值不作任何限定。
可选地,如果为了减少计算开销,若不考虑预设匹配函数下降沿倾斜因子,可以将α视为正无穷,此时预设匹配函数即是简单的阶跃阶梯函数:
Figure BDA0001646671470000086
而为了进一步减少计算开销,还可以缩小所述代价函数的求和区间,具体可以根据如下公式进行:
kdown=max(L-mδ,knR),kup=min(L+mδ,N/2);或者
kdown=max(L-mδ,knR),kup=min(kdown+2mδ,N/2);;
其中,kup为所述代价函数求和区间的最大边界值,Kdown为所述代价函数求和区间的最小边界值;自然数m用于调节求和区间的大小。例如,对于N=1024的情形,m可以取4。
经大量序列测试,代价函数的求和区间范围可以收缩到预设匹配函数下降沿附近区域,即不考虑那些远离预设匹配函数下降沿的频点,因为这些频点的信息对于计算精确度影响很小。事实上匹配的重点也确实是在下降沿区域。通过减少计算的频点数便可以减少计算开销,因此可以收缩代价函数的求和区间。但是相应地,求Ln用的代价函数要改为:
Figure BDA0001646671470000091
因为对不同的L,此时求和的总频点数是不同的,故而有分母kup-kdown+1,为的是将频点数平均。如果取到kup=kdown+2mδ,则相当于分母为常数,可以不用除这个分母。求和区间范围收缩策略可以是灵活的,其目的在于减少计算开销但同时保证计算精度,包括但不限于本申请实施例中举例的这两种方式。
此外,因为α是定值,且迭代计算中k和L都是有限范围内的自然数,因此为了进一步节省计算开销,可以穷举匹配函数的
Figure BDA0001646671470000092
因子的所有可能的计算值,预先将它们存储在表格中。这样,这个因子的计算就可以通过查表法(look-up table method)完成,从而显著节省计算开销。
迭代计算中,对于Ln的计算需要对L在[knR,N/2]范围内进行搜索。可以基于每次步进1个频点进行搜索,为节省计算开销,搜索步长可以大于1个频点例如3个或5个等。当然当搜索步长满足小于等于δ时计算更准确。此外,若知道截止频率的上限信息,则搜索到上限对应的频点即可,可以不用搜索到N/2。音频序列的截止频率上限往往可能是人耳可听域上限20kHz。因此,通过改变搜索步长以及缩小搜索上限范围,可以进一步节省计算开销。
对于迭代次数的选择,通过大量测试表明:先不计迭代结束条件,本方法处理每帧数据都能在三次迭代以内(包括三次)准确找到谱能量分布的下降沿。对于下降沿右侧旁瓣比重较大的某些情形,本方法会进行超过三次的迭代并最终收敛到旁瓣区域。当然,大旁瓣也有可能是重要的频域信息从而应该算作主要频率成分。这确实需要看具体应用场景而言。若为有效减小计算开销和减小大旁瓣影响,避免过度迭代,可以设置本方法的迭代计算总次数不超过三次。
另外,如果遇到谱能量分布没有明显下降沿,全频带都有显著的谱能量分布的情形,本方法没有下降沿可以收敛。注意到这样的情形相当于音频序列的截止频率是fs/2(采样频率的1/2),可以将fs/2附近的谱能量强行置为0,这样本方法就会收敛到fs/2附近。对于截止频率小于fs/2的序列,这样的操作并不影响截止频率计算的准确性。事实上现在常见的音频序列采样频率基本上都是48kHz,而人耳可听域上限为20kHz,即高过20kHz的频谱成分意义不大,因此不妨将20kHz到24kHz频带内的谱能量全置为0。这样对于“满频带”序列,本方法迭代计算便可以收敛到20kHz对应的人造下降沿,告知用户这个音频序列的截止频率至少是20kHz。
在本申请实施例中,通过预设匹配函数与数据帧的谱能量分布进行迭代匹配的方法精确地计算出数据帧乃至音频序列的截止频率,可直接使用而无须事先针对不同音频序列而人为调节计算参数,即普遍适用于各种音频序列,使用方便,且计算开销较小,计算效率较高,计算结果准确,可以为多种音频序列的处理提供准确的参考数据。
具体效果可以参见图5所示,图5为根据本申请实施例所述方法确定不同谱能量分布的数据帧的截止频率的结果示意图。
如图5所示,一共包括4种不同的谱能量分布示意图,其横坐标均为频点序号,纵坐标均为谱能量。无论其谱能量分布的幅值差异还是下降沿的差异,采用本申请实施例中的预设匹配函数图对各个谱能量分布图进行迭代逼近,最终预设匹配函数图的下降沿位置与每个谱能量分布图的下降沿位置重合度都满足预设要求,从而准确得到截止频率。本申请实施例所述的方法可以适用于各种音频序列的截止频率计算,具备高适应性及高准确性,且计算开销较小,对硬件的要求较低,利于降低成本。
需要说明的是,本申请实施例通过先对处理对象(音频序列谱能量分布)的目标特征(下降沿)进行认知(cognition),再引入/构造有相似特征的匹配函数,然后通过迭代匹配的方法精确逼近处理对象的目标特征,从而达到精确定位该目标特征的目的。这种方法不仅适用于音频序列截止频率的计算,同样也可以适用于无线电磁信号的截止频率计算,当然还可以推广至其他领域关于模式/特征搜索匹配定位的任务中,本申请实施例不作任何限定。
请参见图3,为本申请实施例提供的另一种计算截止频率的方法的流程示意图,步骤S306-S309与步骤S202-S204基本相同,此处不再赘述,本申请在步骤S306之前,还包括步骤:
S301.根据预设加窗函数对所述数据帧进行加窗处理。
可选地,可以一帧数据(x0 x1 x2…xN-1)写为向量(vector)形式:
x=[x0 x1 x2…xN-1]T,
其中T表示转置(transpose)符号。x即表示数据帧向量。
可选地,为了减小对音频序列分帧截断(truncation)所带来的频谱混叠(overlapping/aliasing)或畸变(distortion),可以对该帧数据做加窗(window)处理:
y=x⊙win,
其中,win是预设加窗函数的向量形式,共N个元素,⊙表示向量元素对应相乘,即Hadamard乘积(product)。预设加窗函数可以使用
Figure BDA0001646671470000101
即半波正弦窗,或者Blackman-Harris窗,本申请实施例不作任何限定。
S302.对所述加窗处理后的结果进行幅度归一化处理。
可选地,在进行幅度归一化处理时,可以根据如下公式进行:
y0=y/max(|y|)
y0表示y中各个元素值归一化后的结果,通过幅度归一化之后,y0中每个元素的绝对值不会超过1。如果y是零向量,截止频率可以认为是0,即这帧数据什么频率成分也没有。此处幅度归一化的步骤也可以省去,但是在实际的音频处理芯片处理过程中,用归一化把数值控制在一定范围内是有好处的,可以避免数值过大带来的复杂计算。
S303.对所述幅度归一化处理后的结果进行快速傅里叶变换FFT处理。
频点数量N一般取2的幂次方,如果不是,则需要先对y0从末尾开始补零使其总长度为2的幂次方。然后引入傅里叶向量
Figure BDA0001646671470000111
将y0根据傅里叶向量进行FFT处理可以得到的结果为:
Figure BDA0001646671470000112
其中,k表示频点序号。
S304.根据所述FFT处理的结果计算每个频点归一化的谱能量,确定谱能量分布。
可选地,可以根据如下公式计算Y的对数域(以10为底)且归一化的谱能量。
Figure BDA0001646671470000113
其中γ>0,γ为求对数lg时的小正数保护,可以避免Y为零向量时分母为0的情况。理想的γ应该足够小,至少满足γ<<max|Yk|2。例如可以取γ=0.000001,对于归一化的y0而言是比较理想的,且对于没有归一化的各种y而言基本也是可接受的。
S305.对所述谱能量分布图进行平移和负值点置0处理,使得所述谱能量分布图位于x轴上方,x轴表示频点序号。
其中,N为所述数据帧的采样频点数量。
可选地,可以根据如下公式来进行谱能量的处理。
Figure BDA0001646671470000114
在具体处理过程中,通过上述公式对每个频点进行谱能量的处理可以将整个谱能量分布图往x轴上方平移,进而使得谱能量分布图全部位于以频点序号为x轴的上方,原来的负值点置0,利于后续的迭代计算,利于提高计算准确度。
通过上述的一系列处理获取到谱能量之后,便可以根据图2所示实施例中的迭代匹配的方式来确定截止频率,此处不再赘述。
需要说明的是,在步骤S303中,为了减少计算的开销,可以对得到的Y做β倍平滑同时减少计算的频点数量及减小计算的长度,此时得到的Y为
Figure BDA0001646671470000115
其中N′满足:(N′-1)β+β-1≤N-1且(N′-1)β+β-1+β>N-1,即N′是在
Figure BDA0001646671470000116
范围内的唯一整数。从而再进行后续计算。可理解为将从S304直至S308中出现的频点数量N都以N′替换。对Y进行这样的β倍平滑操作而得到的谱能量分布其下降沿更为平缓,且由于频点数量变少,从而可以降低计算开销,当然,其中也包括同时减少了代价函数计算时的搜索频点数量。
请参考图6,为本申请实施例提供的一种计算截止频率的装置的组成示意图;在本实施例中,所述装置包括:
谱能量计算单元100,用于计算数据帧的每个频点的谱能量,确定谱能量分布;
迭代匹配单元200,用于将预设匹配函数与所述谱能量分布进行迭代匹配,直到迭代后得到的目标匹配函数图与所述谱能量分布图的重合度满足预设要求,其中,所述预设匹配函数以频点序号作为自变量。;
截止频率确定单元300,用于根据所述目标匹配函数图对应的频点序号,确定所述数据帧的截止频率。
可选地,所述谱能量计算单元100还用于:
根据预设加窗函数对所述数据帧进行加窗处理;
对所述加窗处理后的结果进行幅度归一化处理;
对所述幅度归一化处理后的结果进行快速傅里叶变换FFT处理;
所述计算数据帧的每个频点的谱能量,确定谱能量分布,包括:
根据所述FFT处理的结果计算每个频点归一化的谱能量,确定谱能量分布。
可选地,所述预设匹配函数为:
Figure BDA0001646671470000121
其中,k表示频点序号,A表示所述预设匹配函数的幅度,L表示所述预设匹配函数对称中心点所对应的频点序号,α表示所述预设匹配函数下降沿倾斜因子;
所述将预设匹配函数与所述谱能量分布进行迭代匹配,直到迭代后得到的目标匹配函数图与所述谱能量分布图的重合度满足预设要求具体包括:
Figure BDA0001646671470000122
Figure BDA0001646671470000123
k(n+1)L=knR
k(n+1)R=Ln
其中,n为迭代匹配的次数,knL为第n次迭代时所需的频点区间的左边界点,knR为第n次迭代时所需的频点区间的右边界点,
Figure BDA0001646671470000124
为频点序号为k的频点的谱能量,An表示第n次迭代时所述预设匹配函数的幅度,An根据区间[knL,knR]内频点谱能量的平均值计算得到;Ln为代价函数
Figure BDA0001646671470000125
最小时L的取值,[kdown,kup]为代价函数的求和区间,kdown=knR
Figure BDA0001646671470000126
N为所述数据帧的采样频点数量,q为范数;k(n+1)L为第n+1次迭代时所需的频点区间的左边界点,k(n+1)R为第n+1次迭代时所需的频点区间的右边界点;
直到满足|Ln-Ln+1|<δ,其中,δ为最大允许误差。
可选地,若不考虑所述预设匹配函数下降沿倾斜因子,则α为正无穷,所述预设匹配函数为:
Figure BDA0001646671470000127
其中,k为频点序号,A为所述预设匹配函数的幅度,L为所述预设匹配函数对称中心点所对应的频点序号。
可选地,为了节省计算开销,还可以缩小所述代价函数的求和区间,所述迭代匹配单元200还可以根据如下公式确定代价函数的求和区间以及Ln
kdown=max(L-mδ,knR),kup=min(L+mδ,N/2);或者
kdoon=max(L-mδ,knR),kup=min(kdown+2mδ,N/2);其中,kup为所述代价函数求和区间的最大边界值,Kdown为所述代价函数求和区间的最小边界值;自然数m用于调节求和区间的大小。例如,对于N=1024的情形,m可以取4。
但是相应地,求Ln用的代价函数要改为:
Figure BDA0001646671470000131
因为对不同的L,此时求和的总频点数是不同的,故而有分母kup-kdown+1,为的是将频点数平均。如果取到kup=kdown+2mδ,则相当于分母为常数,可以不用除这个分母。求和区间范围收缩策略可以是灵活的,其目的在于减少计算开销但同时保证计算精度,包括但不限于本申请实施例中举例的这两种方式。
在本申请装置的一种实施例中,该装置可以执行如图2所述方法中的任一操作。
请参考图7,为本申请实施例提供的另一种计算截止频率的装置的组成示意图;在本实施例中,与图6所示实施例相比,所述装置还包括:
谱能量处理单元400,用于对所述谱能量分布图进行平移和负值点置0处理,使得所述谱能量分布图位于x轴上方,x轴表示频点序号。
在本申请装置的一种实施例中,该装置可以执行如图3所述方法中的任一操作。
请参照图8,为本申请实施例提供的另一种计算截止频率的装置的组成示意图,可以包括处理器110、存储器120和总线130。处理器110和存储器120通过总线130连接,该存储器120用于存储指令,该处理器110用于执行该存储器120存储的指令,以实现如上图2和图3所述方法的任一操作。
进一步的,该装置还可以包括、输入口140和输出口150。其中,处理器110、存储器120、输入口140和输出口150可以通过总线130相连。
处理器110用于执行该存储器120存储的指令,以控制输入口140接收信号和数据,并控制输出口150发送信号和数据,完成上述方法中装置执行的步骤。其中,输入口140和输出口150可以为相同或者不同的物理实体。为相同的物理实体时,可以统称为输入输出口。所述存储器120可以集成在所述处理器110中,也可以与所述处理器110分开设置。
作为一种实现方式,输入口140和输出口150的功能可以考虑通过收发电路或者收发的专用芯片实现。处理器110可以考虑通过专用处理芯片、处理电路、处理器或者通用芯片实现。
作为另一种实现方式,可以考虑使用通用计算机的方式来实现本申请实施例提供的装置。即将实现处理器110,输入口140和输出口150功能的程序代码存储在存储器中,通用处理器通过执行存储器中的代码来实现处理器110,输入口140和输出口150的功能。
该装置所涉及的与本申请实施例提供的技术方案相关的概念,解释和详细说明及其他步骤请参见前述方法或其他实施例中关于这些内容的描述,此处不做赘述。
本领域技术人员可以理解,为了便于说明,图8中仅示出了一个存储器和处理器。在实际的控制器中,可以存在多个处理器和存储器。存储器也可以称为存储介质或者存储设备等,本申请实施例对此不做限制。
应理解,在本申请实施例中,处理器可以是中央处理单元(Central ProcessingUnit,简称为“CPU”),该处理器还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。
该总线除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都标为总线。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各种说明性逻辑块(illustrative logical block)和步骤(step),能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种计算截止频率的方法,其特征在于,包括:
计算数据帧的每个频点的谱能量,确定谱能量分布;
将预设匹配函数与所述谱能量分布进行迭代匹配,直到迭代后得到的目标匹配函数图与所述谱能量分布图的重合度满足预设要求,其中,所述预设匹配函数以频点序号作为自变量,所述预设匹配函数为:
Figure FDA0003296290720000011
其中,k表示频点序号,A表示所述预设匹配函数的幅度,L表示所述预设匹配函数对称中心点所对应的频点序号,α表示所述预设匹配函数下降沿倾斜因子;
所述将预设匹配函数与所述谱能量分布进行迭代匹配,直到迭代后得到的目标匹配函数图与所述谱能量分布图的重合度满足预设要求具体包括:
根据以下公式进行迭代:
Figure FDA0003296290720000012
Figure FDA0003296290720000013
k(n+1)L=knR
k(n+1)R=Ln
其中,n为迭代匹配的次数,knL为第n次迭代时所需的频点区间的左边界点,knR为第n次迭代时所需的频点区间的右边界点,
Figure FDA0003296290720000014
为频点序号为k的频点的谱能量,An表示第n次迭代时所述预设匹配函数的幅度,An是根据区间[knL,knR]内频点谱能量的平均值计算得到的;Ln为代价函数
Figure FDA0003296290720000015
最小时L的取值,[kdown,kup]为代价函数的求和区间,kdown=knR
Figure FDA0003296290720000016
N为所述数据帧的采样频点数量,q为范数;k(n+1)L为第n+1次迭代时所需的频点区间的左边界点,k(n+1)R为第n+1次迭代时所需的频点区间的右边界点;
直到满足|Ln-Ln+1|<δ,其中,δ为最大允许误差;
或者,所述将预设匹配函数与所述谱能量分布进行迭代匹配,直到迭代后得到的目标匹配函数图与所述谱能量分布图的重合度满足预设要求具体包括:
根据以下公式进行迭代:
Figure FDA0003296290720000017
Figure FDA0003296290720000018
k(n+1)L=knR
k(n+1)R=Ln
其中,n为迭代匹配的次数,knL为第n次迭代时所需的频点区间的左边界点,knR为第n次迭代时所需的频点区间的右边界点,
Figure FDA0003296290720000019
为频点序号为k的频点的谱能量,An表示第n次迭代时所述预设匹配函数的幅度,An是根据区间[knL,knR]内频点谱能量的平均值计算得到的;Ln为代价函数
Figure FDA0003296290720000021
最小时L的取值,[kdown,kup]为代价函数的求和区间,N为所述数据帧的采样频点数量,q为范数;k(n+1)L为第n+1次迭代时所需的频点区间的左边界点,k(n+1)R为第n+1次迭代时所需的频点区间的右边界点;
直到满足|Ln-Ln+1|<δ,其中,δ为最大允许误差;
kdown=max(L-mδ,knR),kup=min(L+mδ,N/2);或者
kdown=max(L-mδ,knR),kup=min(kdown+2mδ,N/2);
其中,自然数m用于调节所述求和区间的大小;
根据所述目标匹配函数图对应的频点序号,确定所述数据帧的截止频率。
2.根据权利要求1所述的方法,其特征在于,在计算数据帧的每个频点的谱能量,确定谱能量分布之前,还包括:
根据预设加窗函数对所述数据帧进行加窗处理;
对所述加窗处理后的结果进行幅度归一化处理;
对所述幅度归一化处理后的结果进行快速傅里叶变换FFT处理;
所述计算数据帧的每个频点的谱能量,确定谱能量分布,包括:
根据所述FFT处理的结果计算每个频点归一化的谱能量,确定谱能量分布。
3.根据权利要求1所述的方法,其特征在于,在将预设匹配函数与所述谱能量分布进行迭代匹配之前,还包括:
对所述谱能量分布图进行平移和负值点置0处理,使得所述谱能量分布图位于x轴上方,x轴表示频点序号。
4.根据权利要求1所述的方法,其特征在于,α为正无穷。
5.一种计算截止频率的装置,其特征在于,包括:
谱能量计算单元,用于计算数据帧的每个频点的谱能量,确定谱能量分布;
迭代匹配单元,用于将预设匹配函数与所述谱能量分布进行迭代匹配,直到迭代后得到的目标匹配函数图与所述谱能量分布图的重合度满足预设要求,其中,所述预设匹配函数以频点序号作为自变量,所述预设匹配函数为:
Figure FDA0003296290720000022
其中,k表示频点序号,A表示所述预设匹配函数的幅度,L表示所述预设匹配函数对称中心点所对应的频点序号,α表示所述预设匹配函数下降沿倾斜因子;
所述将预设匹配函数与所述谱能量分布进行迭代匹配,直到迭代后得到的目标匹配函数图与所述谱能量分布图的重合度满足预设要求具体包括:
Figure FDA0003296290720000023
Figure FDA0003296290720000024
k(n+1)L=knR
k(n+1)R=Ln
其中,n为迭代匹配的次数,knL为第n次迭代时所需的频点区间的左边界点,knR为第n次迭代时所需的频点区间的右边界点,
Figure FDA0003296290720000031
为频点序号为k的频点的谱能量,An表示第n次迭代时所述预设匹配函数的幅度,An根据区间[knL,knR]内频点谱能量的平均值计算得到;Ln为代价函数
Figure FDA0003296290720000032
最小时L的取值,[kdown,kup]为代价函数的求和区间,kdown=knR
Figure FDA0003296290720000033
N为所述数据帧的采样频点数量,q为范数;k(n+1)L为第n+1次迭代时所需的频点区间的左边界点,k(n+1)R为第n+1次迭代时所需的频点区间的右边界点;
直到满足|Ln-Ln+1|<δ,其中,δ为最大允许误差;
或者,所述将预设匹配函数与所述谱能量分布进行迭代匹配,直到迭代后得到的目标匹配函数图与所述谱能量分布图的重合度满足预设要求具体包括:
Figure FDA0003296290720000034
Figure FDA0003296290720000035
k(n+1)L=knR
k(n+1)R=Ln
其中,n为迭代匹配的次数,knL为第n次迭代时所需的频点区间的左边界点,knR为第n次迭代时所需的频点区间的右边界点,
Figure FDA0003296290720000036
为频点序号为k的频点的谱能量,An表示第n次迭代时所述预设匹配函数的幅度,An根据区间[knL,knR]内频点谱能量的平均值计算得到;Ln为代价函数
Figure FDA0003296290720000037
最小时L的取值,[kdown,kup]为代价函数的求和区间,N为所述数据帧的采样频点数量,q为范数;k(n+1)L为第n+1次迭代时所需的频点区间的左边界点,k(n+1)R为第n+1次迭代时所需的频点区间的右边界点;
直到满足|Ln-Ln+1|<δ,其中,δ为最大允许误差;
kdown=max(L-mδ,knR),kup=min(L+mδ,N/2);或者
kdown=max(L-mδ,knR),kup=min(kdown+2mδ,N/2);
其中,自然数m用于调节求和区间的大小;
截止频率确定单元,用于根据所述目标匹配函数图对应的频点序号,确定所述数据帧的截止频率。
6.根据权利要求5所述的装置,其特征在于,所述谱能量计算单元还用于:
根据预设加窗函数对所述数据帧进行加窗处理;
对所述加窗处理后的结果进行幅度归一化处理;
对所述幅度归一化处理后的结果进行快速傅里叶变换FFT处理;
所述计算数据帧的每个频点的谱能量,确定谱能量分布,包括:
根据所述FFT处理的结果计算每个频点归一化的谱能量,确定谱能量分布。
7.根据权利要求5所述的装置,其特征在于,所述装置还包括:
谱能量处理单元,用于对所述谱能量分布图进行平移和负值点置0处理,使得所述谱能量分布图位于x轴上方,x轴表示频点序号。
8.根据权利要求5所述的装置,其特征在于,α为正无穷。
9.一种计算截止频率的装置,其特征在于,包括:
处理器、存储器和总线,所述处理器和存储器通过总线连接,其中,所述存储器用于存储一组程序代码,所述处理器用于调用所述存储器中存储的程序代码,执行如权利要求1-4任一项所述的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,所述指令在计算机上运行时,使得计算机执行如权利要求1-4任一项所述的方法。
CN201810405168.9A 2018-04-28 2018-04-28 一种计算截止频率的方法及装置 Expired - Fee Related CN110415721B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810405168.9A CN110415721B (zh) 2018-04-28 2018-04-28 一种计算截止频率的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810405168.9A CN110415721B (zh) 2018-04-28 2018-04-28 一种计算截止频率的方法及装置

Publications (2)

Publication Number Publication Date
CN110415721A CN110415721A (zh) 2019-11-05
CN110415721B true CN110415721B (zh) 2022-02-01

Family

ID=68357472

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810405168.9A Expired - Fee Related CN110415721B (zh) 2018-04-28 2018-04-28 一种计算截止频率的方法及装置

Country Status (1)

Country Link
CN (1) CN110415721B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444383B (zh) * 2020-03-30 2021-07-27 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置以及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011123197A1 (en) * 2010-03-29 2011-10-06 Exxonmobil Upstream Research Company Full wavefield inversion using time varying filters
CN105719661A (zh) * 2016-01-29 2016-06-29 西安交通大学 一种弦乐器演奏音质自动判别方法
CN105787459A (zh) * 2016-03-14 2016-07-20 山东大学 一种基于最优评分稀疏判别的erp信号分类方法
CN106683687A (zh) * 2016-12-30 2017-05-17 杭州华为数字技术有限公司 异常声音的分类方法和装置
CN107085829A (zh) * 2017-05-10 2017-08-22 北京航空航天大学 一种用于宽带电磁分布探测的频谱关联超分辨方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150293246A1 (en) * 2014-04-09 2015-10-15 Thomas A. Dickens Frequency-domain augmented time-domain full wavefield inversion

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011123197A1 (en) * 2010-03-29 2011-10-06 Exxonmobil Upstream Research Company Full wavefield inversion using time varying filters
CN105719661A (zh) * 2016-01-29 2016-06-29 西安交通大学 一种弦乐器演奏音质自动判别方法
CN105787459A (zh) * 2016-03-14 2016-07-20 山东大学 一种基于最优评分稀疏判别的erp信号分类方法
CN106683687A (zh) * 2016-12-30 2017-05-17 杭州华为数字技术有限公司 异常声音的分类方法和装置
CN107085829A (zh) * 2017-05-10 2017-08-22 北京航空航天大学 一种用于宽带电磁分布探测的频谱关联超分辨方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
An Adaptive Iterative Learning Control Algorithm With Experiments on an Industrial Robot;Mikael Norrlöf;《IEEE》;20020430;第18卷(第2期);第245-251页 *
子带自适应滤波技术研究及其应用;戚晓慧;《万方》;20190914;全文 *

Also Published As

Publication number Publication date
CN110415721A (zh) 2019-11-05

Similar Documents

Publication Publication Date Title
US9865245B2 (en) Multi-speaker method and apparatus for leakage cancellation
US9143862B2 (en) Correlation based filter adaptation
CN108369494B (zh) 音频信号的频谱校正
CA2593183C (en) Partitioned fast convolution in the time and frequency domain
US20200243061A1 (en) Methods and systems for operating a signal filter device
US11825287B2 (en) Spatial sound rendering
CN110634497A (zh) 降噪方法、装置、终端设备及存储介质
CN109961797B (zh) 一种回声消除方法、装置以及电子设备
CN108234793B (zh) 一种通讯方法、装置、电子设备和存储介质
US20200381002A1 (en) Directional speech separation
US20220345817A1 (en) Audio processing method and device, terminal, and computer-readable storage medium
WO2022141868A1 (zh) 一种提取语音特征的方法、装置、终端及存储介质
EP4254408A1 (en) Speech processing method and apparatus, and apparatus for processing speech
US20200169824A1 (en) Processing of a Multi-Channel Spatial Audio Format Input Signal
CN110415721B (zh) 一种计算截止频率的方法及装置
CN110111811A (zh) 音频信号检测方法、装置和存储介质
CN110400573B (zh) 一种数据处理的方法及装置
CN110889009A (zh) 一种声纹聚类方法、装置、处理设备以及计算机存储介质
CN107924685A (zh) 信号处理装置和方法
US10667055B2 (en) Separated audio analysis and processing
CN110660409A (zh) 一种扩频的方法及装置
EP3777242A1 (en) Spatial sound rendering
CN115457975A (zh) 婴儿哭声和咳嗽声检测方法、装置、存储介质及终端设备
CN110097888B (zh) 人声增强方法、装置及设备
US20070082615A1 (en) Method and system for audio signal processing for bluetooth wireless headsets using a hardware accelerator

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220201