CN103999076B

CN103999076B - 包括将声音信号变换成频率调频域的处理声音信号的系统和方法

Info

Publication number: CN103999076B
Application number: CN201280049465.5A
Authority: CN
Inventors: 大卫·C·布兰得利; 丹尼尔·S·戈尔丁; 罗伯特·N·希尔顿; 尼古拉斯·K·费舍尔; 罗德尼·加托; 德里克·R·鲁斯; 埃里克·维埃维奥拉
Original assignee: Ying Telisiyisi Co
Current assignee: Crossbow Ltd By Share Ltd
Priority date: 2011-08-08
Filing date: 2012-08-08
Publication date: 2017-05-24
Anticipated expiration: 2032-08-08
Also published as: HK1199122A1; US20130041658A1; EP2742435A4; EP2742435A1; US9485597B2; US8548803B2; WO2013022930A1; US20140037095A1; CN103999076A; HK1199506A1; EP2742435B1; KR20140079369A; CA2847689A1

Abstract

一种系统和方法可以被配置为处理音频信号。所述系统和方法可以追踪音高、调频斜率和/或所述音频信号上的谐波包络线，可以重构所述音频信号中表示的声音，和/或可以对所述音频信号进行分段或分类。可以对所述音频信号进行变换以使所述音频信号被变换成增强声音参数追踪、重构和/或分类的频率调频域。

Description

包括将声音信号变换成频率调频域的处理声音信号的系统和方法

相关申请的交叉引用

本申请要求于2011年8月8日提交的、题为“包括将声音信号变换成频率调频域的处理声音信号的系统和方法”的美国专利申请序列号No.13/205,535的权益，该申请的全部内容通过引用的方式并入本申请中。

技术领域

本公开涉及通过利用将音频信号变换到指定与信号强度有关的系数作为频率和分数调频斜率的函数的频率调频域来处理音频信号。

背景技术

一般来讲，常规的声音处理涉及将各个时间窗口的音频信号从时域经变换到频域。然后在进行进一步处理之前可以在频域中对信号进行各种类型的信号处理技术和算法，力图使信号中表示的声音和噪声区分开。然后可以分析处理后的信号以确定声音参数，例如，音高、包络线和/或其他声音参数。可以对信号中表示的声音进行分类。

使谐音与噪声（不论信号还是信号噪声中表现出的声波噪声）区分开的常规做法相当于尝试“净化”信号以使谐音与背景噪声区分开。不幸的是，很多时候这些常规技术导致了信号中表示的与谐音以及噪声有关的信息的损失。这些信息的损失会影响下游处理的准确性和/或精确性，例如，确定谐音的声音参数，将谐音进行分类，和/或进行其他下游处理。

发明内容

本公开的一方面涉及一种被配置为处理音频信号的系统和方法。系统和方法可以追踪音高、调频斜率（chirp rate）和/或声音信号上的谐波包络线，可以重构音频信号中表示的声音，和/或可以对音频信号进行分段或分类。可以对音频信号进行变换以使音频信号被变换成增强声音参数追踪、重构和/或分类的频率调频域。

系统可以包括被配置为执行计算机程序模块的一个或多个处理器。计算机程序模块可以包括第一组、第二组、第三组、第四组和/或第五组计算机程序模块中的一个或多个。

第一组计算机程序模块可以被配置为将音频信号的各个时间采样窗口变换成频率调频域。给定的时间采样窗口的频率调频域的表示可以指定变换系数，作为信号部分的频率和分数调频斜率的函数。第一组计算机程序模块可以包括信号模块、时间采样窗口模块、变换模块和/或其他模块中的一个或多个。

第二组计算机程序模块可以被配置为根据给定的时间采样窗口的经变换的音频信息确定音高似然度量值，作为时间采样窗口中的音频信号的音高和分数调频斜率的函数。第二组计算机程序模块可以被配置为（i）根据给定的时间采样窗口的经变换的音频信息确定时间采样窗口中的音调似然度量值，作为音频信号的频率的函数，并且（ii）根据音调似然度量值确定给定的时间采样窗口的音高似然度量值。第二组计算机程序模块可以包括音调似然模块、音高似然模块和/或其他模块中的一个或多个。

第三组计算机程序模块可以被配置为基于音高似然度量值来确定各个时间采样窗口的估计的音高和估计的分数调频斜率。第三组计算机程序模块可以被配置为（i）在处理时间窗口内将时间采样窗口划分成多个组；（ii）识别给定的处理时间窗口内的主时间采样窗口；并且（iii）通过从主时间采样窗口朝着处理时间窗口的一个或两个边界在处理时间窗口内进行迭代来确定给定的处理时间窗口中的时间采样窗口的音高：，并且根据基于与给定的时间采样窗口相邻的时间采样窗口的所确定的声音的参数对音高似然度量值进行加权所得到的值来确定给定的时间采样窗口的估计的音高和估计的分数调频斜率。第三组一个或多个计算机程序模块可以被配置为使得用于对给定的时间采样窗口中的音高似然度量值进行加权的相邻的时间采样窗口中的声音的参数包括估计的音高、估计的调频或谐波包络线中的一个或多个。第三组计算机程序模块可以包括处理时间窗口模块、主窗口模块、音高估计模块、音高预测模块、包络线矢量模块、包络线相关性模块、加权模块、估计音高累加模块、浊音段模块和/或其他模块中的一个或多个。

第四组计算机程序模块可以被配置为基于由第一组计算机程序模块所产生的经变换的音频信息和/或由第三组计算机程序模块所确定的估计的音高和估计的调频斜率来重构音频信号中表示的声音。第四组计算机程序模块可以包括再合成模块、噪声消减模块、栅栏模型模块、重构模块和/或其他模块中的一个或多个。

第五组计算机程序模块可以被配置为基于由第一组计算机程序模块所产生的经变换的音频信息和/或由第三组计算机程序模块所确定的估计的音高和估计的调频斜率来对说出音频信号中表示的一个或多个声音的一个或多个说话者进行分类。第五组计算机程序模块可以包括音频特征模块、信息简化模块、广谱斜率模块、噪声估计模块、累加得分模块、训练模块和/或其他模块中的一个或多个。

本文所述的系统和/或方法的这些和其他目的、特征和特性以及操作方法和结构的相关元件的功能及制造的零件和经济性的组合在参照附图考虑以下描述和所附权利要求书后会变得更加明显，所有的这些附图、描述和所附权利要求书构成本说明书的一部分，其中在多个附图中相似的附图标记表示对应的零件。然而，应当明确理解的是，附图仅仅用于举例说明和描述的目的并且并非旨在限制本发明的范围。本说明书中和权利要求书中使用的单数形式“一个”、“一种”以及“所述”包括多个指代物，除非上下文中清楚地表明。

附图说明

图1图示了被配置为处理音频信号的系统。

图2图示了声音信号的光谱图。

图3图示了经变换的声音信号在频率调频域中的曲线图。

图4图示了经变换的声音信号在频率调频域中的曲线图。

图5图示了经变换的音频信息的曲线图。

图6图示了音调似然度量值与频率的曲线图。

图7图示了音高似然度量值与音高的曲线图。

图8图示了音高似然度量值作为音高和分数调频斜率的函数的曲线图。

图9图示了包括定义的处理时间窗口和处理时间窗口内的时间采样窗口的信号持续时间的时间线。

图10图示了包括多个重叠的处理时间窗口的信号持续时间的时间线。

图11图示了一组包络线矢量。

图12图示了处理音频信息的方法。

图13图示了分析音频信息的方法。

图14图示了分析音频信息的方法。

图15图示了根据经变换的音频信息重构音频信号的方法。

图16图示了根据经变换的音频信息重构音频信号的方法。

图17图示了根据经变换的音频信息重构音频信号的方法。

图18图示了根据一个或多个实施方式根据经变换的音频信息将音频信号分段和/或分类的方法。

图19图示了根据一个或多个实施方式的用于获得简化的经变换的音频信息作为与音频信号相关联的特征的方法。

图20图示了根据一个或多个实施方式的用于基于经变换的音频信息来获得光谱斜率信息作为与音频信号相关的特征的方法。

图21图示了根据一个或多个实施方式的用于获得与音频信号相关的噪声和/或信噪比估计的方法。

具体实施方式

图1图示了被配置为处理音频信号的系统10。系统10完成的处理可以包括下述的一种或多种：变换音频信号；识别音频信号中表示的声音的一个或多个声音参数；重构音频信号中表示的一个或多个声音；将音频信号的部分分段和/或分类；和/或其他处理。在一些实施方式中，系统10可以包括一个或多个处理器12、电子存储器14、用户接口16和/或其他元件中的一个或多个。

处理器12可以被配置为执行一个或多个计算机程序模块。计算机程序模块可以包括信号模块18、时间采样窗口模块20、变换模块22、音调似然模块24、音高似然模块26、处理窗口模块28、峰值似然模块30、音高估计模块32、音高预测模块34、包络线矢量模块36、包络线相关性模块38、加权模块40、估计音高累加模块42、浊音段模块44、再合成模块46、噪声消减模块48、栅栏模型模块50、重构模块52、音频特征模块54、信息简化模块56、光谱斜率模块58、信噪比（SNR）估计模块60、累加得分模块62、训练模块64和/或其他模块中的一个或多个。

信号模块18可以被配置为获得用于处理的声音信号。信号模块18可以被配置为从电子存储器14、用户接口16（例如，麦克风、变换器和/或其他用户界面组件）、外部声源和/或其他声源获得声音信号。声音信号可以包括表示由声源和/或噪声产生的声音的电子模拟信号和/或电子数字信号。本文中使用的“声源”可以指代产生声音的一个物体或一组物体。例如，弦乐器，例如吉他，可以被当作单个声源，即使其自身可以包括多个配合发声的物体（例如，多根弦、主体和/或其他物体）。类似地，一群歌手可以齐声歌唱来产生单个谐声。

信号模块18可以被配置为使得获得的声音信号可以指定信号强度作为时间的函数。各个声音信号可以具有表现幅值的采样率。采样率可以与采样周期对应。例如，声音信号的光谱密度可以在光谱图中表现。通过图解的方式，图2示出了时域-频域的光谱图70。在光谱图70中，幅值可以是第三个维度，并且可以表示为颜色（例如，颜色越亮，幅值越大）。

在声音信号中，由单个声音和/或声源产生的贡献可以以谐波间距（例如，规格间隔的间距）排列。这些将对声音信号的贡献分离开的间距可以被称为“谐音”或“泛音”。例如，光谱图70包括与第一声音和/或声源相关的第一组泛音（在图2中被标记为泛音72）以及与第二声音和/或声源相关的第二组泛音（在图2中被标记为泛音74）。第一声音和第二声音可以是由共同的声源或独立的声源产生的。与在一个时间点的声音相对应的给定的一组泛音之间的间距可以被称为在该时间点的声音的“音高”。

再参考图1，时间采样窗口模块20可以被配置为将声音信号分成多个信号部分。这些信号部分可以与各个时间采样窗口相关联。时间采样窗口可以在时间上连续，可以重叠，可以间隔开，并且/或者可以按照其他方式在时间上排列。各个时间采样窗口可以与一段时间相对应，这段时间大于被分成多个信号部分的声音信号的采样周期。如此，与时间采样窗口相关的信号部分可以包括多个信号样本。

由时间采样窗口模块20进行的处理的参数可以包括：峰值窗口函数（例如，高斯函数）的类型：这个函数的宽度（对于高斯函数是标准偏差）；窗口的总宽度（对于高斯函数，通常总共有6个标准偏差）；时间采样窗口的排列方式（例如，连续、重叠、间隔和/或其他排列方式）和/或其他参数。可以基于用户选择、预设设置、待处理的声音信号和/或其他因素来设置这个参数的一个或多个。作为非限制性实例，时间采样窗口可以一个时间段相对应，这个时间段在约5毫秒与约50毫秒之间、在约5毫秒与约30毫秒之间、在约5毫秒与约15毫秒之间、和/或在其他范围内。由于系统10对声音信号进行的处理考虑到了信号部分中的声音信号的动态性，时间采样窗口可以与大于常规的声音处理系统的时间量相对应。例如，时间采样窗口可以与大于约15毫秒的时间量相对应。在一些实施方式中，时间采样窗口可以对应于约10毫秒。

调频斜率变量可以是从调频斜率（例如，或频率的变化率）导出的度量值。例如，在一些实施方式中，调频斜率变量可以是分数调频斜率。分数调频斜率可以表示为：

(1)χ=X/ω；

其中χ表示分数调频斜率，X表示调频斜率，并且ω表示频率。

变换模块22进行的处理可以得到音频的多维表示。这种表示或“空间”可以具有由频率和（分数）调频斜率给定的域。这种表示可以具有由变换系数给定的共同域（输出）。如此，在变换模块22执行变换时，经变换的信号部分可以指定变换系数作为与经变换的信号部分相关的时间采样窗口的频率以及分数调频斜率的函数。对于与经变换的信号部分相关联的时间采样窗口内特定的频率和分数调频斜率，特定的频率和分数调频斜率的变换系数可以表示由变换直接产生的复数、该复数的模数或该模数的平方。

通过图解的方式，图3图示了经变换的信号部分的频率调频域内的调频空间36。在图3中，变换系数用颜色表示，大的幅值变换系数被描述为比小的变换系数更亮。可以沿着调频空间36的水平轴线表示频率，并且可以沿着调频空间36的垂直轴线表示分数调频斜率。

再参考图1，变换模块22可以被配置为通过对各个信号部分使用一组滤波器来变换信号部分。这组滤波器中的各个滤波器可以与不同的频率和调频斜率变量对相对应。作为非限制性实例，一组合适的滤波器（Ψ）可以表示为：

其中i是虚数，t表示时间，f表示滤波器的中心频率，c表示滤波器的调频斜率，并且σ表示滤波器的时间采样窗口的标准偏差（例如，宽度）。

变换模块22所使用的滤波器可以是复指数。这可以造成由滤波器所产生的变换系数包括实部和虚部两者。本文中使用的“变换系数”可以指的是包括实部和虚部分量两者的复数、复数的模数、复数的模数的平方和/或复数和/或复数的实部和虚部的其他表示。例如，可以通过求信号部分的时间数据与复数滤波器的内积来完成对信号部分使用滤波器。可以基于用户选择、预设设置、正在处理的声音信号和/或其他因素来设置滤波器的参数，例如，中心频率和调频斜率。

将音频信号变换成频率调频域可以便于识别信号部分内各个声音（例如，谐音）的信号强度贡献。由于给定的声音改变音高，给定的声音的谐波的频率（或调频斜率）的变化可以被表征为音高变化的速率和谐波的当前频率的函数。可以将第n个谐波表征为：

(1) Δφ＝ω₁(X_n/ω_n)

其中，△φ表示音高（φ）的变化率，或声音的“音高速度”，X_n表示第n个谐波的调频斜率，ω_n表示第n个谐波的频率，并且ω₁表示第一谐波（例如，基波）的频率。通过参考方程（1）和（2），可以看出，声音的音高的变化率和声音的第n个谐波的分数调频斜率紧密相关，并且方程（2）可重新书写成：

(2) Δφ＝ω₁·χ_n.

由于音高的变化率是将声音作为整体所具有的声宽参数，在它的全部基础谐波（假设为谐音/声源）的情况下，可以从方程（3）推断，声音的所有谐波的谐波分数调频斜率相同。系统10可以被配置为利用这种现象来识别各个声音在经变换的信号部分中的贡献。

通过图解的方式，再参考图3，穿过各个谐音的谐波的共同的分数调频斜率可以表示的意思是声音的谐波贡献可以沿着与各个声音的共同的分数调频斜率相对应的单个水平行对齐。这行可以被称为“最佳调频行”（例如，参见图3中的最佳调频行78）。如果信号部分中存在的噪声是非结构性的（在时间上不相关），那么信号部分中存在的大部分（否则，就是基本上全部）噪声可以被假设为具有与信号部分中存在的声音的共同的分数调频斜率不同的分数调频斜率。如此，识别经变换的信号部分（例如被图示为调频空间76）中共同的分数调频斜率可以比尚未被变换到频率调频域中的信号部分更不容易受噪声引起的误差的影响。

类似地，可以在频率调频域中区分单个信号部分中存在的多个声音，因为它们可能会具有不同的分数调频斜率。作为非限制性实例，图4示出了频率调频域中的调频空间80。调频空间80可以包括与第一声音相对应的第一最佳调频行82以及与第二声音相对应的第二最佳调频行84。从图4可以看出，第一声音和第二声音的每一个可以具有类似的音高。因此，常规的声音处理技术可能难以区分这两个明显的声音。然而，由于沿着分数调频斜率的分离，调频空间80分别表示第一声音和第二声音的每一个，并且便于识别这两个单独的声音。

应当理解，例如，可以沿着通过与特定的分数调频斜率（例如沿着图3或图4所示的分数调频斜率行78、82或84之一）相对应的频率调频域的切片截取经变换的音频信息的二维视图。通过图解的方式，图5示出了经变换的音频信息的曲线图90。曲线图90可以在示出了作为频率的函数的与信号强度有关的系数的幅值的空间中。由曲线图90表示的经变换的音频信息可以包括谐音，由谐音的谐波频率的系数的幅值的一系列峰值92表示。假设声音是谐波，峰值92能够由与谐音的音高（φ）相对应的间距间隔开。如此，各个峰值92可以与谐音的各个泛音相对应。

在经变换的音频信息中可以存在其他峰值（例如，峰值94和/或96）。这些峰值不会与对应于峰值92的谐音相关联。峰值92与峰值94和/或96之间的差异可以不是幅值，而是频率，因为峰值94和/或96可能不在谐音的谐频上。如此，这些峰值94和/或96以及峰值92之间余下的幅值可以是音频信号中的噪声的表现形式。在这种情况下使用的“噪声”不是指单个听觉噪声，而是除与峰值92相关联的谐音之外的噪声（不论这种噪声是谐音、扩散噪声、白噪声或一些其他类型的噪声）。

如此前所提及的，如从音频信号得到经变换的音频信息的变换可以造成与能量有关的系数成为复数。在这种实施方式中，可以保存通过变换产生的系数的复数。在这种实施方式中，例如，至少首先可以单独分析系数的实部和虚部。通过图解的方式，曲线图90可以表示系数的实部，并且单独的曲线图（未示出）可以表示作为频率的函数的系数的虚部。表示作为频率的函数的系数的虚部的曲线图可以在与峰值92相对应的谐音的谐波处具有峰值。

再参考图1，音调似然模块24可以被配置为根据获得的经变换的音频信息确定时间采样窗口内的音调似然度量值，作为音频信号的频率的函数。给定频率的音调似然度量值可以表示由经变换的音频信息表示的声音在时间采样窗口期间具有给定频率的音调的似然。本文中使用的“音调”指的是谐音的谐波（或泛音）或者非谐音的音调。

再参考图5，在经变换的音频信息的曲线图90中，音调可以由系数的峰值表示，例如，峰值92、94和/或96的任意一个。如此，给定频率的音调似然度量值可以表示曲线图90的峰值在给定频率的似然，这表示在与曲线图90相对应的时间采样窗口中在给定频率的音频信号中存在音调。

确定给定频率的音调似然度量值可以基于给定频率处和/或其附近的经变换的音频信息与在给定频率上具有中心的峰值函数之间的相关性。峰值函数可以包括高斯峰值函数，x²分布和/或其他函数。相关性可以包括确定标准化峰值函数与给定频率处和/或其附近的标准化的经变换的音频信息的点积。点积可以是乘以-1以表示中心在给定频率上的峰值的似然，因为点积单独可以表示不存在中心在给定频率上的峰值的似然。

通过图解的方式，图5进一步示出了示例性峰值函数98。峰值函数98的中心可以是中心频率λ_k。峰值函数98可以具有峰值高度（h）和/或宽度（w）。峰值高度和/或宽度可以是确定音调似然度量值的参数。为了确定音调似然度量值，中心频率可以沿着经变换的音频信息的频率从一些初始的中心频率λ₀移动到一些最终的中心频率λ_n。峰值函数98的中心频率在初始的中心频率与最终的中心频率之间移动的增量可以是确定的量的参数。峰值高度、峰值宽度、初始的中心频率、最终的中心频率、中心频率移动的增量和/或确定的其他参数的一个或多个可以是固定的，基于用户输入进行设置，基于经变换的音频数据的峰值的期望宽度、所考虑的音调频率的范围、经变换的音频数据中的频率间距进行调节（例如，自动和/或手动），和/或按照其他方式进行设置。

确定作为频率的函数的音调似然度量值可以导致建立表示作为频率的函数的音调似然度量值的数据的新的表示。通过图解的方式，图6图示了图5中示出的、作为频率的函数的经变换的音频信号的音调似然度量值的曲线图100。从图5可以看出，可以包括与图5的峰值92相对应的峰值102，并且图6可以包括与图5中的峰值94和96分别对应的峰值104和106。在一些实施方式中，对于经变换的音频信息所指定的给定频率，用于给定频率的音调似然度量值的幅值可能不对应于与能量有关的系数的幅值。相反，基于给定频率处和/其或附近的经变换的音频信息与峰值函数之间的相关性，音调似然度量值可以表示给定频率处存在音调的似然。换句话说，与峰值的大小相比，音调似然度量值会更对应于经变换的音频数据中的峰值的显著性。

再参考图1，在表示能量的系数是复数并且以上参照图5和图6描述的音调似然模块24单独处理系数的实部和虚部的实施方式中，音调似然模块24可以通过累加对系数的实部确定的实音调似然度量值与对系数的虚部的确定的虚音调似然度量值（实音调似然度量值和虚音调似然度量值两者都可以是实数）来确定音调似然度量值。然后可以累加实音调似然度量值和虚音调似然度量值以确定音调似然度量值。该累加可以包括累加用于单个频率的实音调似然度量值和虚音调似然度量值来确定单个频率的音调似然度量值。为了进行该累加，音调似然模块24可以包括对数子模块（未示出）、累加子模块（未示出）和/或其他子模块中的一个或多个。

对数子模块可以被配置为求实音调似然度量值和虚音调似然度量值的对数，例如，自然对数。这会引起将实音调似然度量值和虚音调似然度量值各自的对数确定为频率的函数。累加子模块可以被配置为对共同频率的实音调似然度量值和虚音调似然度量值进行求和（例如，对给定频率的实音调似然度量值和虚音调似然度量值进行求和）以累加实音调似然度量值和虚音调似然度量值。可以实施这种累加作为音调似然度量值，可以求累加值的指数函数用于实施为音调似然度量值，和/或可以在实施为音调似然度量值之前对累加值进行其他处理。

音高似然模块26可以被配置为基于音调似然模块24确定的音调似然度量值来确定时间采样窗口内的音高似然度量值，作为音频信号的音高的函数。给定音高的音高似然度量值可以与音频信号表示的声音在时间采样窗口期间具有给定音高的似然有关。音高似然模块26可以被配置为通过累加所确定用于与给定音高的谐波相对应的音调的音调似然度量值来确定给定音高的音高似然度量值：。

通过图解的方式，再参考图6，对于音高φ_k，可以通过累加预期的音高为φ_k的声音的谐波所在的频率的音调似然度量值来确定音高似然度量值。为了确定作为音高的函数的音高似然度量值，φ_k可以在初始音高φ₀与最终音高φ_n之间增大。初始音高、最终音高、音高之间的增量和/或该确定过程的其他参数可以是固定的，基于用户输入进行设置，基于音高估计所需的分辨率、预期的音高值范围进行调节（例如，自动和/或手动），和/或按照其它方式进行设置。

返回到图1，为了累加音调似然度量值以确定音高似然度量值，音高似然模块26可以包括对数子模块、累加子模块和/或其他的子模块中的一个或多个。

对数子模块可以被配置为求音调似然度量值的对数（例如，自然对数）。在音调似然模块24产生对数形式（例如，如上所述的形式）的音调似然度量值的实施方式中，可以在没有对数子模块的情况下实施音高似然模块26。累加子模块可以被配置为对各音高（例如，φ_k，从k=0至n）求预期的音高的谐波所在的频率的音调似然度量值的对数的求和（例如，如图6所示并且如上所述）。然后该累加值可以实施为音高的音高似然度量值。

音高似然模块26的操作会引起表示作为音高的函数的音高似然度量值的数据的表示。通过图解的方式，图7示出了音高似然度量值的曲线图110，时间采样窗口内音高似然度量值作为音频信号的音高的函数。从图7可以看出，音高似然度量值的全局极大值112可以在时间采样窗口内经变换的音频信息中表示的音高处展开。通常，因为音高的谐波性质，局部极大值还可以在声音的音高的一半处（例如图7中的极大值114）和/或声音的音高的两倍处（例如图7中的极大值116）展开。

如以上提及的，在一些实施方式中，经变换的音频信息可以已经被变换成频率调频域。在这种实施方式中，经变换的音频信息可以被当作与单独的分数调频斜率（例如，从二维频率调频域截取的单独的一维切片，各一维切片与不同的分数调频斜率相对应）相对应的多组经变换的音频信息。这些组的经变换的音频信息由图1所示的模块24和/或26单独处理，然后重新组合到由音高、音高似然度量值和分数调频斜率参数化的空间中。

通过图解的方式，图8示出了空间120，在空间120中音高似然度量值可以被定义为音高和分数调频斜率的函数。在图8中，音高似然度量值的幅值可以由阴影表示（例如，更亮=更大幅值）。可以看出，音高似然度量值的极大值可以是音高和分数调频斜率上的二维局部极大值。极大值可以包括：时间采样窗口内的音频信号中表示的声音的音高处的局部极大值122；音高两倍处的局部极大值124；音高一半处的局部极大值126；和/或其他局部极大值。

再参考图1，处理窗口模块28可以被配置为（例如在信号持续时间上）限定多个处理时间窗口。处理时间窗口可以包括多个时间采样窗口。处理时间窗口可以与共同的时间长度相对应。通过图解的方式，图9图示了时间线130。时间线130可以沿着信号持续时间的长度延伸。处理时间窗口132可以被限定在信号持续时间的一部分上。处理时间窗口132可以包括多个时间采样窗口，例如，时间采样窗口134。

再次参考图1，在一些实施方式中，处理时间模块28可以被配置为使得处理时间窗口可以包括多个重叠的处理时间窗口。例如，对于一些或全部信号持续时间，重叠的处理时间窗口可以通过使处理时间窗口的边界增大某一增量来限定。增量可以是时间采样窗口的整数（例如，1、2、3和/或其他的整数）。通过图解的方式，图10示出了时间线140，该时间线140示出了可以重叠的第一处理时间窗口142、第二处理时间窗口144和第三处理时间窗口146。处理时间窗口142、144和146可以通过使边界增大被图示为148的增量来限定。例如，可以增大边界使得包括窗口142、144和146的一组重叠的处理时间窗口穿过信号持续时间的整体和/或它的任何部分进行延伸。

返回图1，主窗口模块32可以被配置为根据处理时间窗口确定处理时间窗口内的主时间采样窗口。在一些实施方式中，主时间采样窗口可以基于以用户选择和/或其他准则为基础通过规则或参数对音高似然的一些分析而被随机地识别。在一些实施方式中，识别主时间采样窗口可以包括识别最大音高似然。具有最大音高似然的时间采样窗口可以被识别为主时间采样窗口。最大音高似然可以是处理时间窗口内贯穿时间采样窗口的任意音高和/或调频斜率的最大似然。如此，主窗口模块可以被配置为扫描指定时间采样窗口的音高似然度量值的处理时间窗口内的时间采样窗口的音频信息，并且识别所有这些处理时间窗口内的音高似然的极大值。

音高估计模块32可以被配置为根据处理时间窗口内的各个时间采样窗口确定估计的音高和估计的分数调频斜率。对于主时间采样窗口，可以通过规则、用户选择和/或基于其他准则对音高似然度量值进行的分析来随机地确定估计的音高和估计的分数调频斜率。对于处理时间窗口中的其他时间采样窗口，音高估计模块可以被配置为通过以下方式来确定估计的音高和估计的分数调频斜率：从主时间采样窗口在处理时间窗口内进行迭代，并且基于以下各项中的一个或多个来确定给定的时间采样窗口的估计的音高和/或估计的分数调频斜率：由经变换的音频信息指定的用于给定的时间采样窗口的音高似然度量值、基于另一个时间采样窗口的估计的音高和估计的分数调频斜率所确定的给定的时间采样窗口的预测的音高、给定的时间采样窗口中的不同音高处的谐波包络线与和给定的时间采样窗口相邻的时间采样窗口的估计的音高处的谐波包络线之间的相关性和/或其他准则。

音高预测模块34可以被配置为确定时间采样窗口的预测的音高。对于处理时间窗口中的第一时间采样窗口，这可以包括确定第一时间采样窗口的预测的音高。音高预测模块可以被配置为基于此前（例如，通过音高预测模块34）所确定的用于第二时间采样窗口的估计的音高和估计的调频斜率来确定第一时间采样窗口的预测的音高。第二时间采样窗口可以与第一时间采样窗口相邻，在第一时间采样窗口附近，和/或与第一时间采样窗口具有其他关系。第二时间采样窗口可以是主时间采样窗口，和/或处理时间窗口中的一些其他时间采样窗口。第二时间采样窗口可以相对于音频信号的时间线在第一时间采样窗口之前或之后。

确定第一时间采样窗口的预测的音高可以包括，例如，使音高从所确定的用于第二时间采样窗口的估计的音高增大一定量，该量与所确定的用于第二时间采样窗口的估计的分数调频斜率以及第一时间采样窗口与第二时间采样窗口之间的时间差相对应。例如，对于一些实施方式，预测的音高的这种确定结果在数学上可以被表示为：

其中，φ_t1表示用于第一时间采样窗口的估计的音高，φ_t2表示第二时间采样窗口的预测的音高，Δt表示第一时间采样窗口与第二时间采样窗口之间的时间差，并且表示音高φ_t2的基频的估计的分数调频斜率（可以从用于第二时间采样窗口的估计的分数调频斜率来确定）。

谐音可以具有在本文中被称为“谐波包络线”的特征。通过图解的方式，返回到图5，曲线图90中表示的声音可以具有谐波包络线150。谐波包络线150可以通过以下方式来表示：通过在声音的音高的谐波频率处的强度系数的值生成样条曲线。在与对应于峰值92的声音的音高（和与曲线图90相对应的分数调频斜率，如果适用）的曲线图90相对应的时间采样窗口的包络线矢量的坐标可以被指定为在两个或更多个谐波频率（例如峰值92）的强度系数的值。谐波频率可以包括通过第n个谐波的两个或更多个基频。

谐波包络线150可以至少部分地由包络线矢量表征。与峰值92相对应的声音的包络线矢量可以被定义为具有与系数的值相对应的坐标的矢量，该系数与声音在两个或多个谐波频率（例如，两个或多个峰值92）的信号强度有关。

返回来参考图1，包络线矢量模块36可以被配置为在各个时间采样窗口内确定作为音高和/或分数调频斜率的函数的包络线矢量。例如，对于第一时间采样窗口，包络线矢量模块36可以确定作为音高和分数调频斜率的函数的包络线矢量。第一时间采样窗口中给定的音高和给定的分数调频斜率的包络线矢量可以与在给定的音高和给定的分数调频斜率的第一时间采样窗口期间内的音频信号中表示的声音的谐波包络线相对应。

包络线相关性模块38可以被配置为时间采样窗口的相关性度量值的值，作为音高和分数调频斜率的函数。相关性度量值的值可以表示具体的音高和分数调频斜率的时间采样窗口中的包络线矢量与用于其他时间采样窗口的估计的音高和估计的分数调频斜率的另一个时间采样窗口的包络线矢量之间的相关性。其他的时间采样窗口可以是，例如，具有由音高预测模块34实施的估计的音高和估计的分数调频斜率以确定时间采样窗口的预测的音高的时间采样窗口。

例如，包络线相关性模块38可以被配置为基于第二时间采样窗口的估计的音高和估计的分数调频斜率的包络线矢量来确定第一时间采样窗口的相关性度量值的值，作为音高和分数调频斜率的函数。第一时间采样窗口中的给定的音高和给定的分数调频斜率的相关性度量值的值可以表示第一时间采样窗口中的给定的音高和给定的分数调频斜率的包络线矢量与第二时间采样窗口中的估计的音高和估计的分数调频斜率的包络线矢量之间的相关性水平。

通过图解的方式，图11包括表格160，其表示第二时间采样窗口的估计的音高φ₂的第一谐波和第二谐波的强度系数的值。在表格160所提供的表示中，第一谐波的强度系数可以是413，第二谐波的强度系数可以是805。第二时间采样窗口中的音高φ₂的包络线矢量可以是（413，805）。图11进一步示出了第一谐波-第二谐波空间中的包络线矢量的曲线图162。第一包络线矢量164可以表示第二时间窗口中的音高φ₂的包络线矢量。

图11包括表格166，可以表示第一时间采样窗口的几个音高（φ₁、φ₂和φ₃）的第一谐波和第二谐波的强度系数的值。可以在曲线图162中随着第一包络线矢量164来表示这些音高的包络线矢量。这些包络线矢量可以包括与第一时间采样窗口的音高φ₁相对应的第二包络线矢量168、与第一时间采样窗口的音高φ₂相对应的第三包络线矢量170以及与第一时间采样窗口的音高φ₃相对应的第四包络线矢量172。

确定第一时间采样窗口的相关性度量值的值可以包括确定表示第一时间采样窗口中的各个音高的包络线矢量168、170和172与第二时间采样窗口的估计的音高的包络线矢量164的相关性的度量值的值。这种相关性度量值可以包括例如距离度量值、点积、相关性系数和/或表示相关性的其他度量值中的一个或多个。

在图11所提供的实例中，在第一时间采样窗口期间内，音频信号可以表示两个单独的谐音。一个谐音的音高是φ₁，并且另一个谐音的音高是φ₃。这些音高的每个可以从第二时间采样窗口中的估计的音高φ₁偏移（就音高而言）相同的量。然而，可能的情况是，这些谐音中只有一个是具有第二时间采样窗口的音高φ₁的同一个声音。通过量化第二时间采样窗口中两个分别用于第一时间采样窗口中的单独的潜在谐音的谐音的包络线矢量之间的相关性，系统10（如图1所示并如上所述）可以减少正在进行的音高追踪会在第二时间采样窗口的声音之间跳跃并且不经意地开始追踪与此前追踪的声音不同的声音的音高的机会。可以通过这种相关性来提供其他的增强功能。

应当理解，图11的包络线矢量的图示仅仅是示例性的，并非旨在限制。例如，在实施过程中，包络线矢量可以具有多于二维的维度（对应于更多的谐波频率），可以具有负的坐标，可以不包括连续的谐波数，和/或可以按照其他方式变化。作为另一个实例，包络线矢量（和相关性度量值）被确定的音高可以大于三。可以预期其他不同的数值。应当理解，图11提供的实例、包络线矢量168、170和172可以用于第二时间采样窗口期间的各个分数调频斜率。对于其他分数调频斜率的第一时间采样窗口中的音高φ₁、φ₂和φ₃可以确定其他的包络线矢量（以及与第二时间采样窗口中的音高φ₂相对应的相关性度量值）。

返回到图1，加权模块40可以被配置为对各个时间采样窗口的音高似然度量值的确定结果进行加权。可以基于由音高预测模块34所确定的预测的音高、由包络线相关性模块38所确定的相关性度量值和/或其他参数中的一个或多个来进行加权。

在加权模块40被配置为基于由音高估计模块32所确定的预测的音高进行加权的实施方式中，该加权可以对预测的音高处或其附近的下一个时间采样窗口中的音高的音高似然度量值提供较大权重，并且对远离预测的音高的下一个时间采样窗口中的音高的音高似然度量值提供较小权重。例如，该加权可以包括使音高似然度量值与加权函数相乘，该加权函数作为音高的函数而变化并且该加权的中心可以在预测的音高上。加权函数的宽度、形状和/或其他参数可以基于用户选择（例如，通过设置和/或键入或选择）所确定，基于音频信号中存在的噪声、基于样本中的分数调频斜率的范围和/或其他因素而被固定。作为非限制性实例，加权函数可以是高斯函数。

在加权模块40被配置为基于由包络线相关性模块38所确定的相关性度量值来加权的实施方式中，对具有相关性度量值的值的音高的音高似然度量值可以应用相对较大的权重，该相关性度量值表示与其他时间采样窗口中的估计的音高的包络线矢量存在较高相关性。对具有下一个时间采样窗口中的相关性度量值的音高的音高似然度量值可以应用相对较小的权重，该相关性度量值表示与其他时间采样窗口中的估计的音高的包络线矢量存在较低相关性。

音高估计模块32可以被配置为使得对于除主时间采样窗口之外的至少一些时间采样窗口，可以从由加权模块40所产生的加权的音高似然度量值确定估计的音高和估计的分数调频斜率。例如，音高估计模块32可以被配置为使得确定第一时间采样窗口的估计的音高可以包括：识别加权的音高似然度量值中的极大值；并且确定与该极大值相对应的音高和/或分数调频斜率作为第一时间采样窗口的估计的音高和/或估计的分数调频斜率。

应当理解，由于模块28、30、32、34、36、38和40以迭代方式处理多个重叠的处理时间窗口，所以对于两个或多个重叠的处理时间窗口内的各个时间采样窗口可以确定多个估计的音高和/或估计的分数调频斜率。估计的分数调频斜率和/或对于各个时间采样窗口所确定的估计的分数调频斜率可能不会全部相同，因为通过不同的处理时间窗口的不同的音高路径可能会导致差异。估计音高累加模块42可以被配置为累加各个时间采样窗口的估计的音高和/或估计的分数调频斜率的确定结果。作为非限制性实例，确定给定的时间采样窗口的累加的估计的音高可以包括：确定平均的估计的音高；确定中间的估计的音高；选择通常来说对于时间采样窗口确定的估计的音高；和/或其他累加技术。估计音高累加模块42可以被配置为使得可以对平均值的确定、确定的估计的音高的选择和/或其他累加技术进行加权。例如，可以根据它们对应的音高似然度量值来对给定的时间采样窗口的单独确定的估计的音高进行加权。这些音高似然度量值可以包括由音高似然模块26所确定的音高似然度量值、由加权模块40所确定的对于给定的时间采样窗口的加权的音高似然度量值和/或给定的时间采样窗口的其他音高似然度量值。

浊音段模块44可以被配置为将各个时间采样窗口分成浊音类和非浊音类。浊音时间采样窗口可以是音频信号中表示的声音是谐音或“浊音”（例如，说出的元音声）的时间采样窗口。非浊音时间采样窗口可以是音频信号中表示的声音不是谐音或“浊音”（例如，说出的辅音声）的时间采样窗口。

在一些实施方式中，浊音段模块44可以被配置为基于谐音能量比进行确定。可以基于给定的时间采样窗口的经变换的音频信息来确定给定的时间采样窗口的谐波能量比。谐波能量比可以被确定为与时间采样窗口中估计的音高（或累加的估计的音高）的谐波的能量有关的系数的幅值的总和与和时间采样窗口的频谱上的谐波的能量有关的系数的幅值的总和的比率。在该确定过程中实施的经变换的音频信息可以针对时间采样窗口（例如，通过频率调频域沿着共同的分数调频斜率截取的切片）的估计的分数调频斜率（或累加的估计的分数调频斜率）。在该确定过程中实施的经变换的音频信息可以不针对特定的分数调频斜率。

对于给定的时间采样窗口，如果谐波能量比高于某一阈值，那么浊音段模块44可以确定时间采样窗口期间的音频信号表示浊音。另一方面，如果给定的时间采样窗口的谐波能量比低于该阈值，那么可以确定时间采样窗口期间的音频信号表示非浊音。例如，阈值可以基于用户选择（例如，通过设置和/或键入或选择）被确定，基于音频信号中存在的噪声、基于谐波源趋向于活跃（例如，语音停顿）的时间分数和/或其他因素被固定。

在一些实施方式中，浊音段模块44可以被配置为基于估计的音高（或累加的估计的音高）的音高似然度量值来划分各个时间采样窗口。例如，对于给定的时间采样窗口，如果音高似然度量值高于某一阈值，那么可以确定时间采样窗口期间的音频信号表示浊音。另一方面，如果给定的时间采样窗口的音高似然度量值低于该阈值，那么可以确定时间采样窗口期间的音频信号表示非浊音。例如，该阈值可以基于用户选择（例如，通过设置和/或键入或选择）被确定，基于音频信号中存在的噪声、基于谐波源趋向于活跃（例如，语音停顿）的时间分数和/或其他因素被固定。

响应于时间采样窗口期间的音频信号表示非浊音声音的确定，浊音段模块44可以被配置为将时间采样窗口的估计的音高（或累加的估计的音高）设置成某一预定的值。例如，这个值可以被设置为0或一些其他的值。这会使系统10所完成的音高追踪表明时间采样窗口中不存在谐波语音或者谐波语音不占主导。

再合成模块46可以被配置为基于从经变换的音频信息所确定的各个谐波和对应的音高（例如，音高估计模块32和/或估计的音高累加模块42所确定的估计的音高）来再合成音频信号。根据一些实施方式，再合成音频信号可以包括追踪声音的一个或多个音高估计各个音高和对应的幅值。可以使用与各个谐波相对应的振荡器来合成声音的各个谐波。合成的各个谐波可以包括，对于给定的谐波，在时间上对对应的音高进行积分来确定给定的谐波的展开相位。各个振荡器可以基于余弦函数。可以对合成的谐波求和以获得再合成的音频信号。

根据一些实施方式，第i个振荡器的作为时间t的函数的输出y可以被表示为或类似于：

其中φ是作为时间的函数的音高（第一谐波）。该方程可以是固定的，所以声音的整个表示被存储在音高和谐波幅值参数中。可以稀疏地表示时间进程，因为相对于采样率音高和包络线（这组谐波幅值）每次的变化缓慢。例如，具有20个节点的三次样条曲线可以对人声的音高时间进程提供超过一秒的精确匹配。类似地，可以沿着频率维度用约10个节点并且在时间维度上每秒20个节点来形成表示变化的包络线的“幅值表面”（例如，作为频率和时间的函数，和/或经变换的音频信息的幅值）以表示变化的包络线。用于以白噪声源的合成子音的一些或所有的谐波幅值和包络线可以由这样一种幅值表面来形成。

在一些实施方式中，再合成模块46可以被配置为解决任何相位问题，因为可以通过积分来建立音频信号，其中相位是音频信号的结果，而不是需要被计算在内的事物。另外，再合成的音频信号的压缩程度可以使声音降低到每秒1kB以下，这远远优于目前的mp3标准。

可以根据指定音高和谐波幅值作为时间的函数的振荡器和参数（例如，由包络线矢量模块36确定的用于时间采样窗口的估计的音高在时间上的包络线矢量）来建立再合成的音频信号。在不变更相位并且谐波不突然消退的情况下可以独立于其他参数来调节这些参数的一个或多个。

在一些实施方式中，各个振荡器可以包括白噪声源来模拟保持字形（wordshaping）和语音节奏的声音的低声版本。可以变更参数来调节公知的信道失真。例如，手机在它们的通带上精细地变化，但是通常具有大致相同的高频响应衰减频率和低频响应衰减频率。可以通过由响应衰减频率变换函数来划分经变换的音频信息进行校正。

噪声消减模块48可以被配置为从经变换的音频信息减去噪声。消减噪声可以包括在通过将变换的音频信号的谐波音高通道的峰值点之间插值。这些峰值点可以在经变换的音频信息的谐波频率上，并且可以被确定为给定谐波的频率和时间的函数。在一些实施方式中，在峰值点之间插值可以包括多项式内插法、使用样条曲线和/或其他插值技术。

消减噪声可以进一步包括在通过经变换的音频信息的谐波音高通道的槽点之间插值。这些槽点可以位于在经变换的音频信息中相邻的谐波频率的峰值点之间的中间，并且可以被确定为频率和时间的函数。在一些实施方式中，在槽点之间插值可以包括多项式内插法、使用样条曲线和/或其他插值技术。这种样条曲线可以包括一次样条曲线、二次样条曲线、三次样条曲线和/或其他样条曲线。可以从与各个峰值点的插值相关的值减去与各个槽点的插值相关的值得到噪声减小的变换的音频信息。

栅栏模型模块50可以被配置为通过集中在经变换的音频信息中的各个谐波的功能来抑制经变换的音频信息中声音的谐波之间的噪声。这些功能可以用于抑制谐波之间的噪声以便得到噪声减少的变换的音频信息。给定功能的宽度可以基于对应谐波的带宽。

在一些实施方式中，栅栏模型模块50所利用的各个函数可以包括高斯函数。这种高斯函数可以被配置为抑制谐波之间的信息。高斯函数可以被配置为将与各个谐波相关的信息替换为高斯（或其他）曲线以提供噪声减少的变换的音频信息。给定的高斯曲线可以被调整为对应的谐波。

可以根据噪声减少的变换的音频信息重构音频信号，如结合重构模块52所讨论的。这种重构的音频信号可以与未失真的原始音频信号很相似，甚至低于3dB噪声。另外，重构的音频信号可以比原始音频信号更紧凑，因为仅仅需要发送谐波频率和对应的幅值来再合成重构的音频信号。

根据一些实施方式，各个函数可以包括矩形栅栏。这种栅栏可以被配置为谐波之间的零信息，同时保留与谐波相关联的信息。在一些实施方式中，栅栏模型模块50所利用的一个或多个功能可以单独地应用于经变换的音频信息的实部和虚部分量。

重构模块52可以被配置为重构音频信号和/或音频信号的一部分（例如，元音和/或辅音声音）。在一些实施方式中，可以对经变换的音频信息和/或其他非时域信息进行一个或多个逆变换以获得重构的音频信号。也就是说，根据一些实施方式，重构可以包括将频域表示和/或频率调频域转换成时域表示。重构模块52可以被配置为将从噪声消减模块48、栅栏模型模块50和/或噪声减少的经变换的音频信息的另一个声源所获得的噪声减少的经变换的音频信息进行重构。重构模块52所使用的逆变换可以对应于在原始的音频信号上执行以产生经变换的音频信息的逆变换和/或反变换。

音频特征模块54可以被配置为根据经变换的音频信息获得与音频信号相关的特征。一个或多个单独的特征可以对应于获得特征的各个方法和/或技术，比如说，例如结合了信息简化模块56、光谱斜率模块58描述的和/或本文的其他描述的方法和/或技术。特征可以包括一组数字，这组数字在特征空间内确定音频信号的各个段的矢量。特征空间可以是多维空间，其中每个维度对应于特征矢量的一个部分（维度）。与获得特征的两个或多个方法和/或技术相对应的特征矢量可以被结合（例如，矢量求和法）为累加的特征矢量。各个特征矢量和/或累加的特征矢量可以在用于特征空间中以分段和/或分类。

根据一些实施方式，特征可以包括噪声减少的经变换的音频信息、光谱斜率信息、梅尔倒频谱系数矢量、谐波幅值矢量、谐波幅值表面、音高的谐波幅值表面、谐波幅值表面的时间导数、分数谐波导数的伽柏（Gabor）变换和/或其他特征。在一些实施方式中，单个谐波幅值矢量可以对应于单个时间窗口。谐波幅值表面可以被定义在多个时间窗口（例如，约200毫秒或20个时间窗口）上。音高的谐波幅值表面可以具有添加到幅值表面特征矢量的时间对应的音高值。谐波幅值表面的时间导数可以对于谐波幅值进行规范化（例如，分数谐波导数）。分数谐波导数的Gabor变换可以用于压缩特征信息。

各个特征可以与相对于预定的说话者模型的特征得分相关联。说话者模型可以包括具体的人、一群人和/或可听见的语音的其他来源独有的一组语音特征和/或其他语音信息。特征得分可以便于对应的特征与某个说话者模型的一个或多个语音特征的比较。

信息简化模块56可以被配置为获得简化的经变换的音频信息作为与音频信号相关联的特征。例如，声音的谐波可以被描述为被定义为时间的函数的矢量。这种矢量可以是一维的、二维的或三维的，或者可以具有另一个维度。根据一些实施方式，一维矢量可以描述频率与时间，幅值与时间，调频斜率与时间，和/或其他信息。二维矢量可以描述频率和幅值与时间，频率和调频斜率与时间，幅值和调频斜率与时间，和/或其他信息。三维矢量可以描述频率、调频斜率和幅值与时间和/或其他信息。可以在一部分音频信号的跨度（例如，一个元音的跨度）、固定的时间跨度（例如，200毫秒）、整个音频信号和/或另一个时间期间上确定这种信息。

获得简化的经变换的音频信息可以包括在各个时间窗口确定各个谐波的幅值。该幅值可以对应于与给定时间的给定谐波的能量幅值相关的系数的幅值。可以使用与各个时间窗口的谐波位置相对应的单个点来构造简化的经变换的音频信息。这些点可以描述中心频率、调频斜率、时间位置、幅值（或者与信号强度有关的一些其他系数）和/或各个谐波的其他信息。在一些实施方式中，幅值之间的简化的经变换的音频信息内的值可以被设置为零。滤波器组可以应用于简化经变换的音频信息。滤波器组可以包括一个或多个梅尔滤波器和/或其他的滤波器。

光谱斜率模块58可以被配置为基于经变换的音频信息来获得频谱斜率信息，作为与音频信号相关联的特征。在一些实施方式中，获得频谱斜率信息可以包括确定谐波包络线（例如，如图5所示并且如上的谐波包络线150）的瞬时斜率作为频率的函数。在一些实施方式中，经变换的音频信息的瞬时斜率可以包括与作为时间的函数的信号强度有关的系数的频率的导数。瞬时斜率可以通过以下方式确定：在给定时间，求与经变换的音频信息的能量幅值有关的系数对频率的导数。滤波器组可以被应用于频谱斜率信息。滤波器组可以包括一个或多个梅尔滤波器和/或其他的滤波器。

噪声估计模块60可以被配置为获得信噪比估计作为与音频信号相关的时变的量（例如，音频信号的各个时间采样窗口）。根据一些实施方式，获得信噪比估计可以包括确定谐波的能量比。在一些实施方式中，能量比可以在时间上求平均值。噪声估计模块60可以被配置为将确定的谐波能量比与阈值进行比较。

在确定阈值过程中可以存在几个注意事项。例如，设置具体的阈值可以得到当谐波能量与总能量之间的比率达到阈值（例如，语音“开启”）时的时间与当该比率没有达到阈值（例如，语音“关闭”）时的时间的具体比率。该阈值可以被选择为使得时间的比率（例如，语音开启/语音关闭）等于正被考虑的说话者的给定分类（例如，国籍、性别、年龄和/或其他的说话者分类）的平均值。作为另一个示例性的注意事项，对于给定的分类过程，可以导出与对数似然率在多个说话者模型之间的变化相等的量VLL。不论选择的说话者的最后决定或者没有匹配的说话者模型，当分类中包括非浊音时间段时，VLL趋向于更大。因此，可以调节阈值来使VLL最小化。

累加得分模块62可以被配置为基于根据加权方案的特征得分来获得累加的分类得分。加权方案可以与噪声和/或信噪比估计相关。累加分类得分可以用于确定相似的说话者模型以识别音频信号中的声音的来源。在一些实施方式中，累加得分模块62可以被配置为通过对音频特征模块54所获得的一个或多个特征的加权的特征得分进行求和来获得累加分类得分。可以在各个特征得分上进行的加权使得对于给定的音频信号，可能更准确的特征得分以较大的权重进行加权。可以基于例如噪声水平、获得了音频信号的声音设置、所说的语言和/或其他因素来确定准确度的似然，并且因此确定特征得分权重。

根据一些实施方式，可以对一组说话者模型的各个说话者模型确定累加分类得分。可以基于这组说话者模型中的说话者模型的累加得分来识别音频信号中的说话者。例如，与具有这组说话者模型的最高累加分类得分的说话者模型相关的说话者可以被识别为音频信号中的说话者。在一些实施方式中，累加分类得分可以被表示为：

其中，z_ij是来自于适合于第j个说话者和/或说话者模型的第i个方法的特征得分，并且c_i是与第i个方法的噪声估计相关的正实数加权系数。第i个方法可以对应于结合图19和图20描述的方法、由音频特征模块54和/或其他模块执行的方法和/或用于获得与音频信号相关联的特征的其他方法。

训练模块64可以被配置为利用累加得分模块62来确定加权方案。根据一些实施方式，训练模块64可以对音频信号和/或与音频信号有关的其他信息执行训练操作来确定音频信号和/或适于记录音频信号的条件的特征（例如，麦克风的类型、封闭空间与开放空间和/或其他条件），这些特征表示与其他的加权方案相比得到更准确的分类的一个得分权重的特定组。

处理器12可以被配置为在系统10中提供信息处理能力。如此，处理器12可以包括数字处理器、模拟处理器、被设计用于处理信息的数字电路、被设计用于处理信息的模拟电路、状态机和/或用于以电子方式处理信息的其他机构中的一个或多个。虽然处理器12在图1中被图示为单个实体，但是这仅仅用于说明的目的。在一些实施方式中，处理器12可以包括多个处理单元。这些处理单元可以在物理上位于同一装置内，或者处理器12可以表现出多个协同工作的设备（例如，“云端”和/或其他虚拟化处理的解决方案）的处理功能。

应当认识到，虽然模块18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62和64在图1中被图示为共同位于单个处理单元内，但是在处理器12包括多个处理器单元的实施方式中，模块18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62和/或64中的一个或多个可以远离其他模块而放置。以下对不同的模块18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62和/或64所提供的功能的描述是出于说明的目的，并且并非旨在限制，因为任何模块18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62和/或64可以提供比所述的功能更多或更少的功能。例如，可以去除模块18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62和/或64中的一个或多个，并且它的功能中的一些或全部功能可以由模块18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62和/或64中的其他模块来提供。作为另一个实例，处理器12可以被配置为执行一个或多个附加的模块，这些附加的模块可以执行属于以下模块18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62和/或64中的一个模块的功能的一些或全部功能。

电子存储器14可以包括存储信息的电子存储介质。电子存储器14的电子存储介质可以包括系统存储器和/或移动存储器中的，系统存储器与系统10被一体地设置（即，基本上是不可拆除的），并且移动存储器通过例如端口（例如，USB端口、固件端口等）或驱动器（例如，磁盘驱动器）可拆除地连接到系统10上。电子存储器14可以包括光学可读存储介质（例如，光盘等）、磁盘可读存储介质（例如，磁带、磁性硬盘驱动器、软盘驱动器等）、基于电荷的存储介质（例如，EEPROM、RAM等）、固态存储介质（例如，闪存驱动器等。）和/或其他电子可读存储介质中的一个或多个。电子存储器14可以包括虚拟存储资源，例如，通过云端和/或虚拟专用网提供的存储资源。电子存储器14可以存储软件算法、处理器12确定的信息、经由用户接口16接收的信息和/或使系统10能够正常工作的其他信息。电子存储器14可以是系统10内单独的元件，或者电子存储器14可以与系统10的一个或多个其他的元件（例如，处理器12）一体地设置。

用户接口16可以被配置为提供系统10与用户之间的接口。这可以使数据、结果和/或指令以及被统称为“信息”的任何其他的可通信的项目能够在用户与系统10之间通信。适于包括在用户接口16中的接口装置的实例包括小键盘、按钮、开关、键盘、把手、杆、显示屏、触控屏、扬声器、麦克风、指示灯、音响警报器和打印机。应当理解，本发明还可预期其他通信技术，无论是硬接线还是无线，作为用户接口16。例如，本发明预期用户接口16可以与电子存储器14所提供的可拆除的存储器接口结合。在此实例中，信息可以从移动存储器（例如，智能卡、闪存驱动器、可拆卸盘等）被载入系统10，这使用户能够自定义系统10的实施方式。适于作为用户接口14的与系统10一起使用的其他示例性输入设备和技术包括但不限于：RS-232端口、射频链路、红外线链路、调制解调器（电话、电缆或其他）。简而言之，本发明想到了与系统10信息通信的任何技术作为用户接口14。

图12图示了处理声音信号的方法180。在操作182，可以获得声音信号。可以从电子存储器、用户接口和/或其他声源获得声音信号。声音信号可以包括表示声源和/或噪声产生的声音的电子模拟信号和/或电子数字信号。声音信号可以指定幅值作为时间的函数。声音信号可以具有表现幅值/频率的采样率。采样率可以与采样周期对应。在一些实施方式中，操作182可以由信号模块来执行，该信号模块与信号模块18（如图1所示并且如上所述）相同或相似。

在操作184，声音信号可以被分成一组信号部分。这些信号部分可以与各个时间采样窗口相关联。时间采样窗口可以在时间上连续，可以重叠，可以间隔开，和/或可以按照其他方式在时间上排列。各个时间采样窗口可以与一段时间相对应，这段时间大于被分成多个信号部分的声音信号的采样周期。如此，与时间采样窗口相关的信号部分可以包括多个信号采样。在一些实施方式中，操作184可以由时间窗口模块来执行，该时间窗口模块与时间窗口模块20（如图1所示并且如上所述）相同或相似。

在操作186，信号部分可以被变换成频率调频域。频率调频域可以由频率和（分数）调频斜率来给定。频率调频域可以具有由变换系数给定的共同域（输出）。调频斜率变量可以是从调频斜率（例如，或频率的变化率）导出的度量值。如此，当在操作186进行变换时，经变换的信号部分可以指定变换系数作为与经变换的信号部分相关联的时间窗口的频率和分数调频斜率的函数。在一些实施方式中，操作186可以由变换模块来执行，该变换模块与变换模块22（如图1所示并且如上所述）相同或相似。

图13图示了分析音频信息的方法190。在操作192，可以获得表示一个或多个声音的经变换的音频信息。对于时间采样窗口内的音频信号，经变换的音频信息可以指定与信号强度有关的系数的幅值作为频率的函数。在一些实施方式中，操作192可以包括在本文中参照操作180描述（如图12所示并且如上所述）的一些或所有的操作。

在操作194，可以基于获得的经变换的音频信息来确定音调似然度量值。这种确定可以指定时间采样窗口内的音调似然度量值作为音频信号的频率的函数。给定频率的音调似然度量值可以表示音频信号所表示声音在时间采样窗口期间具有给定频率处的音调的似然。在一些实施方式中，操作194可以由音调似然模块来执行，该音调似然模块与音调似然模块24（如图1所示并且如上所述）相同或相似。

在操作196，可以基于音调似然度量值来确定音高似然度量值。对于时间采样窗口内的音频信号，确定音高似然度量值可以指定音高似然度量值作为音高的函数。给定音高的音高似然度量值可以与由音频信号表示的声音具有给定音高的似然有关。在一些实施方式中，操作196可以由音高似然模块来执行，该音高似然模块与音高似然模块26（如图1所示并且如上所述）相同或相似。

在一些实施方式中，经变换的音频信息可以包括多组经变换的音频信息。各个经变换的音频信息组可以与各个分数调频斜率相对应。在这些实施方式中，可以对各组经变换的音频信息迭加操作192、194和196。在操作198，可以进行确定是否应当处理另外组经变换的音频信息。响应于确定应当处理一个或多个另外组经变换的音频信息，方法190可以返回到操作192。响应于确定不对另外组经变换的音频信息进行处理（或者如果没有根据分数调频斜率来划分经变换的音频信息），方法190可以结束。在一些实施方式中，操作198可以由处理器来执行，该处理器与处理器12（如图1所示并且如上所述）相同或相似。

图14图示了分析与声音信号相关的音频信息的方法200。在操作202，可以获得从音频信号导出的音频信息。音频信号可以表示一个或多个声音。音频信号可以具有信号持续时间。音频信息可以包括在一组离散的时间采样窗口期间内与音频信号相对应的音频信息。时间采样窗口可以对应于比音频信号的采样周期大的一段时间（或多段时间）。因此，时间采样窗口的音频信息可以从音频信号中的多个样本中导出和/或代表该多个样本。在一些实施方式中，操作202可以包括在本文中参照方法180（如图12所示并且如上所述）所述的一些或所有的操作。

在操作204，可以在整个信号持续时间内定义多个处理时间窗口。处理时间窗口可以包括多个时间采样窗口。处理时间窗口可以与一般的时间长度相对应。在一些实施方式中，操作204可以由处理窗口模块来执行，该处理窗口模块与处理窗口模块28（如图1所示并且如上所述）相同或相似。

在操作206，对于在操作204定义的处理时间窗口，可以识别处理时间窗口内的主时间采样窗口。在一些实施方式中，主时间采样窗口可以基于以用户选择和/或其他准则为基础通过规则或参数对音高似然的一些分析而被随机地识别。在一些实施方式中，识别主时间采样窗口可以包括识别最大音高似然。在一些实施方式中，操作206可以由主窗口模块来执行，该主窗口模块与主窗口模块30（如图1所示并且如上所述）相同或相似。

在操作48，可以确定主时间采样窗口的估计的音高。在一些实施方式中，估计的音高可以基于以用户选择和/或其他准则为基础通过规则或参数对主时间采样窗口内的音高似然的分析来随机地识别。如以上提及的，音频信息可以表明给定的时间采样窗口的音高似然度量值作为音高的函数。如此，主时间采样窗口的估计的音高可以被确定为用于呈现主时间采样窗口的音高似然度量值的极大值的音高。

如上，在音频信息中，音高似然度量值可以进一步被指定为分数调频斜率的函数。如此，音高似然度量值可以表示作为音高似然度量值和音高的函数的调频似然。在操作208，除估计的音高之外，可以确定用于主时间采样窗口的估计的分数调频斜率。估计的分数调频斜率可以被确定为与估计的音高上的音高似然度量值的极大值相对应的调频斜率。

在操作208，可以确定用于主时间采样窗口的估计的音高的包络线矢量。如本文所述，主时间采样窗口的预测的音高的包络线矢量可以表示在具有预测的音高的主时间采样窗口中的音频信号中表现的声音的谐波包络线。在一些实施方式中，操作48可以由音高估计模块和/或包络线矢量模块来执行，该音高估计模块和/或该包络线矢量模块分别与音高估计模块32和/或包络线矢量模块36相同或相似（如图1所示并且如上所述）。

在操作210，可以确定处理时间窗口中下一个时间采样窗口的预测的音高。时间采样窗口可以包括，例如，与具有在操作210确定的估计的音高和估计的分数调频斜率的时间采样窗口相邻的时间采样窗口。将这个时间采样窗口描述为“下一个”并非旨在将这个时间采样窗口限制为相邻的或连续的时间采样窗口（虽然可以是这种情况）。另外，使用词语“下一个”并不意味着在已经确定了估计的音高和估计的分数调频斜率的时间采样窗口之后在音频信号中暂时到来的下一个时间采样窗口。例如，下一个时间采样窗口可以在已经确定了估计的音高和估计的分数调频斜率的时间采样窗口之前在音频信号中出现。在一些实施方式中，操作201可以由音高预测模块来执行，该音高预测模块与音高预测模块34（如图1所示并且如上所述）相同或相似。

在操作212，下一个时间采样窗口的包络线矢量可以被确定为下一个时间采样窗口的音高的函数。在一些实施方式中，操作212可以由包络线矢量模块来执行，该包络线矢量模块与包络线矢量模块36（如图1所示并且如上所述）相同或相似。

在操作214，下一个时间采样窗口的相关性度量值可以被确定为音高的函数。在一些实施方式中，操作214可以由包络线相关性模块来执行，该包络线相关性模块与包络线相关性模块38（如图1所示并且如上所述）相同或相似。

在操作216，对于下一个时间采样窗口，可以对音高似然度量值进行加权。可以基于在操作210确定的预测的音高、在操作214确定的相关性度量值和/或其他加权度量值中的一个或多个来执行加权。在一些实施方式中，操作216可以由加权模块来执行，该加权模块与加权模块40（如图1所示并且如上所述）相同或相似。

在操作218，可以基于下一个采样窗口的加权的音高似然度量值来确定下一个时间采样窗口的估计的音高。确定下一个时间采样窗口的估计的音高可以包括，例如，识别加权的音高似然度量值中的极大值，并且确定与该极大值相对应的音高作为下一个时间采样窗口的估计的音高。

在操作218，可以确定用于下一个时间采样窗口的估计的分数调频斜率。例如，可以通过识别加权的音高似然度量值沿着时间采样窗口的估计的音高具有极大值的分数调频斜率来确定估计的分数调频斜率。在一些实施方式中，操作218可以由音高估计模块来执行，该音高估计模块与音高估计模块34（如图1所示并且如上所述）相同或相似。

在操作220，可以确定在有待确定估计的音高和/或估计的分数调频斜率的处理时间窗口中是否存在另外的时间采样窗口。响应于存在另外的时间采样窗口，方法200可以返回到操作210和212，并且另外的时间采样窗口可以进行操作210、212、214、216和/或218。在操作210、212、214、216和/或218之间的迭代中，另外的时间采样窗口可以是与刚刚执行了操作210、212、214、216和/或218的下一个时间采样窗口相邻的时间采样窗口。在这种实施方式中，可以在从主时间采样窗口到处理时间窗口的边界的一个或两个暂时的方向上在时间采样窗口内迭代操作210、212、214、216和/或218。在朝着处理时间窗口的边界的（多次）迭代期间，对于与正在迭代操作210、212、214、216和/或218的时间采样窗口相邻的时间采样窗口，在操作210实施的估计的音高和估计的分数调频斜率可以是在操作208确定的估计的音高和估计的分数调频斜率，或者可以是在操作210确定的估计的音高和估计的分数调频斜率。

响应于在操作220确定在处理时间窗口内没有另外的时间采样窗口，方法200可以进行到操作222。在操作222，可以确定是否存在另外的有待处理的处理时间窗口。响应于在操作222确定存在另外的有待处理的处理时间窗口，方法200可以返回到操作206，并且对于另外的处理时间窗口，可以在操作206、208、210、212、214、216、218和/或220之间迭代。应当理解，在处理时间窗口之间的迭代可以按照如图14所示并且本文所述的方式来完成，而不是旨在限制。例如，在一些实施方式中，可以在操作204定义单个处理时间窗口，并且当方法200进行到操作222时可以单独定义另外的处理时间窗口。

响应于在操作222确定不存在另外的有待处理的处理时间窗口，方法200可以进行到操作224。可以在处理时间窗口重叠的实施方式中执行操作224。在这种实施方式中，在处理时间窗口内迭代操作206、208、210、212、214、216、218和/或220会导致至少一些时间采样窗口的估计的音高的多个确定结果。对于已经确定了估计的音高的多个确定结果的时间采样窗口，操作224可以包括累加各个时间采样窗口的这些确定结果来确定各个时间采样窗口的累加的估计的音高。在一些实施方式中，操作224可以由音高估计累加模块来执行，该音高估计累加模块与音高估计累加模块42（如图1所示并且如上所述）相同或相似。

在操作226，各个时间采样窗口可以被分成浊音类和非浊音类。在一些实施方式中，操作226可以由浊音段模块来执行，该浊音段模块与浊音段模块44（如图1所示并且如上所述）相同或相似。

响应于在操作226确定时间采样窗口期间的音频信号表示非浊音声音，在操作228可以将时间采样窗口的估计的音高（或累加的估计的音高）设置成某一预定值。例如，这个值可以被设置为0或某个其他值。这会使方法200所完成的音高追踪表明时间采样窗口中不存在谐波语音或者谐波语音不占主导。

应当理解，对估计时间采样窗口的各个音高的估计的上述描述并非旨在限制。在一些实施方式中，与一个或多个时间采样窗口相对应的音频信号的部分可以表示两个或多个谐音。在这种实施方式中，在不脱离本公开的范围的情况下，可以实施相对于各个音高的上述音高追踪的原理来追踪总是存在的谐音的多个音高。例如，如果音频信息指定音高似然度量值作为音高和分数调频斜率的函数，那么不同的音高和不同的分数调频斜率的极大值可以表示音频信号中存在多个谐音。根据本文所述的技术可以单独地追踪这些音高。

图15图示了分析与音频信号相关的音频信息的方法240。在操作242，可以获得表示声音的经变换的音频信息。经变换的音频信息可以指定与信号强度有关的系数的幅值作为音频信号的频率和时间的函数。在一些实施方式中，操作242可以包括方法180（如图12所示并且如上）的一个或多个操作。

在操作244，可以追踪声音的一个或多个音高来确定作为各个声音的谐波的时间的函数的各个音高和对应的幅值。在一些实施方式中，操作244可以包括方法200（如图14所示并且如上所述）的一些或所有的操作。

在操作246，可以使用与各个谐波相对应的振荡器来合成各个谐波。根据一些实施方式，唯有原始音频信号中与所需的声音（例如，特定的说话者的语音）相关联的谐波可以被合成，因此排除了不需要的声音。在一些实施方式中，操作246可以由再合成模块来执行，该再合成模块与再合成模块46（如图1所示并且如上所述）相同或相似。

在操作248，可以对合成的谐波求和以获得再合成的音频信号。在一些实施方式中，操作248可以由再合成模块来执行，该再合成模块与再合成模块46（如图1所示并且如上所述）相同或相似。

图16图示了根据经变换的音频信息重构音频信号的方法250。在操作252，可以获得表示声音的经变换的音频信息。经变换的音频信息可以指定与信号强度有关的系数的幅值作为音频信号的频率和时间的函数。在一些实施方式中，操作252可以包括方法180（如图12所示并且如上所述）的一些或所有的操作。

在操作254，谐波音高路径的峰值点可以通过经变换的音频信息被插值。这些峰值点可以位于经变换的音频信息的谐波频率上，并且可以被确定为给定谐波的频率和时间的函数。在一些实施方式中，操作254可以由噪声消减模块来执行，该噪声消减模块与噪声消减模块48（如图1所示并且如上所述）相同或相似。

在操作256，谐波音高路径的槽点可以通过经变换的音频信息被插值。这些槽点可以位于经变换的音频信息中在相邻的谐波频率的峰值点之间的中间，并且可以确定为频率和时间的函数。在一些实施方式中，操作256可以由噪声消减模块来执行，该噪声消减模块与噪声消减模块48（如图1所示并且如上所述）相同或相似。

在操作258，可以从与各个峰值点的插值相关的值减去与各个槽点的插值相关的值得到噪声减小的经变换的音频信息。在一些实施方式中，操作258可以由噪声消减模块来执行，该噪声消减模块与噪声消减模块48（如图1所示并且如上所述）相同或相似。

在操作260，可以基于噪声减少的经变换的音频信息的逆经变换来重构音频信号。在一些实施方式中，操作260可以由重构模块来执行，该重构模块与重构模块52（如图1所示并且如上所述）相同或相似。

图17图示了根据经变换的音频信息重构音频信号的方法270。在操作272，可以获得表示声音的经变换的音频信息。经变换的音频信息可以指定与信号能量有关的系数的幅值作为音频信号的频率和时间的函数。在一些实施方式中，操作272可以包括方法120（如图12所示并且如上所述）的一些或所有的操作。

在操作274，通过集中在经变换的音频信息中的各个谐波的功能可以抑制经变换的音频信息中声音的谐波之间的噪声。这些功能可以用于抑制谐波之间的噪声以得到噪声减少的经变换的音频信息。给定功能的宽度可以基于对应谐波的带宽。在一些实施方式中，操作274可以由栅栏模型模块来执行，该栅栏模型模块与栅栏模型模块50（如图1所示并且如上所述）相同或相似。

在操作276，可以基于噪声减少的经变换的音频信息的逆变换来重构音频信号。在一些实施方式中，操作276可以由重构模块来执行，该重构模块与重构模块52（如图1所示并且如上所述）相同或相似。

图18图示了将根据经变换的音频信息对音频信号分段和/或分类的方法280。在操作282，可以获得表示声音的经变换的音频信息。经变换的音频信息可以指定与能量幅值有关的系数的幅值作为音频信号的频率和时间的函数。在一些实施方式中，操作282可以包括方法180（如图12所示并且如上所述）的一些或所有的操作。

在操作284，可以根据经变换的音频信息获得与音频信号相关联的特征。各个特征可以与相对于预定的说话者模型的特征得分相关联。根据一些实施方式，可以根据与信息简化模块58（如图1所示并且如上所述）、光谱斜率模块60（如图1所示并且如上所述）、其他模块和/或另一个声源相同或相似的模块获得一个或多个特征。在一些实施方式中，操作284可以由音频特征模块来执行，该音频特征模块与音频特征模块56（如图1所示并且如上所述）相同或相似。

在操作286，可以基于根据加权方案的特征得分来获得累加得分。加权方案可以与噪声和/或信噪比估计相关联。累加得分可以与预定的说话者模型结合使用以识别音频信号中的声音的声源（例如，具体的人）。在一些实施方式中，操作286可以由累加得分模块来执行，该累加得分模块与累加得分模块62（如图1所示并且如上所述）相同或相似。

图19图示了用于获得作为与音频信号相关联的特征的简化的经变换的音频信息的方法290。在操作292，可以获得表示声音的经变换的音频信息。经变换的音频信息可以指定与能量幅值有关的系数的幅值作为音频信号的频率和时间的函数。在一些实施方式中，操作292可以包括方法180（如图12所示并且如上所述）的一些或所有的操作。

在操作294，可以基于分数调频斜率和谐波次数来确定声音的各个谐波的谐波路径。在一些实施方式中，操作294可以由信息简化模块来执行，该信息简化模块与信息简化模块58（如图1所示并且如上所述）相同或相似。

在操作296，可以在各个时间窗口确定各个谐波的幅值。在一些实施方式中，操作296可以由信息简化模块来执行，该信息简化模块与信息简化模块58（如图1所示并且如上所述）相同或相似。

在操作298，简化的经变换的音频信息可以被构造为包括作为频率和时间的函数的各个谐波的幅值。幅值之间的简化的经变换的音频信息内的值可以被设置为零。在一些实施方式中，操作298可以由信息简化模块来执行，该信息简化模块与信息简化模块58（如图1所示并且如上所述）相同或相似。

在操作300，滤波器组可以被应用于简化经变换的音频信息。在一些实施方式中，操作300可以由信息简化模块来执行，该信息简化模块与信息简化模块58（如图1所示并且如上所述）相同或相似。

图20图示了用于基于经变换的音频信息来获得作为与音频信号相关联的特征的光谱斜率信息的方法310。在操作312，可以获得表示声音的经变换的音频信息。经变换的音频信息可以指定与能量幅值有关的系数的幅值作为音频信号的频率和时间的函数。在一些实施方式中，操作312可以包括方法180（如图12所示并且如上所述）的一些或所有的操作。

在操作314，可以获得当作光谱斜率信息的具有具体的音高的声音的谐波包络线的瞬时斜率作为频率的函数。根据一些实施方式，通过对具体的音高处的谐波包络线求频率的导数可以确定瞬时斜率。在一些实施方式中，操作314可以由光谱斜率模块来执行，该光谱斜率模块与光谱斜率模块60（如图1所示并且如上）相同或相似。

在操作316，滤波器组可以被应用于光谱斜率信息。在一些实施方式中，操作316可以由光谱斜率模块来执行，该光谱斜率模块与光谱斜率模块60（如图1所示并且如上所述）相同或相似。

图21图示了用于获得与音频信号相关联的噪声和/或信噪比估计的方法320。在操作322，可以获得表示声音的经变换的音频信息。经变换的音频信息可以指定与能量幅值有关的系数的幅值作为音频信号的频率和时间的函数。在一些实施方式中，操作322可以包括方法180的一个或多个操作（如图12所示并且如上所述）。

在操作324，可以基于经变换的音频信息来确定作为频率和时间的函数的各个谐波的谐波能量。在一些实施方式中，操作322可以由噪声估计模块来执行，该噪声估计模块与噪声估计模块62（如图1所示并且如上所述）相同或相似。

在操作326，可以基于经变换的音频信息来确定音频信号的总能量。在一些实施方式中，操作324可以由噪声估计模块来执行，该噪声估计模块与噪声估计模块62（如图1所示并且如上所述）相同或相似。

在操作328，可以确定谐波能量与总能量之间比率。在一些实施方式中，操作328可以由噪声估计模块来执行，该噪声估计模块与噪声估计模块62（如图1所示并且如上所述）相同或相似。

在操作330，谐波能量与总能量之间的比率可以以时间求平均。在一些实施方式中，操作330可以由噪声估计模块来执行，该噪声估计模块与噪声估计模块62（如图1所示并且如上所述）相同或相似。

在操作332，噪声可以被估计为比率达到预定阈值的经变换的音频信息的一部分。在一些实施方式中，操作332可以由噪声估计模块来执行，该噪声估计模块与噪声估计模块62（如图1所示并且如上所述）相同或相似。

本文中陈述的方法180、190、200、240、250、270、280、290、310和320的操作旨在说明性的。在一些实施例中，可以使用一个或多个未描述的附加操作和/或不使用一个或多个讨论的操作来完成一个或多个方法180、190、200、240、250、270、280、290、310和/或320。另外，图1所示并且本文所述的方法180、190、200、240、250、270、280、290、310和320的操作的顺序并非旨在限制性的。

在一些实施例中，方法180、190、200、240、250、270、280、290、310和/或320中的一个或多个可以在一个或多个处理装置（例如，数字处理器、模拟处理器、被设计用于处理信息的数字电路、被设计用于处理信息的模拟电路、状态机和/或用于以电子方式处理信息的其他机构）中实施。一个或多个处理装置可以包括响应于电子存储介质上以电子方式存储的指令而执行的一个或多个方法180、190、200、240、250、270、280、290、310和/或320的一些或所有操作的一个或多个装置。该一个或多个处理装置可以包括配置为被专门设计成用于执行一个或多个方法180、190、200、240、250、270、280、290、310和/或320的一个或多个操作的硬件、固件和/或软件的一个或多个装置。

虽然为了说明的目的,基于目前被认为是最实用且优选的实施方式详细描述了本公开的系统和/或方法，应当理解，这些细节仅仅用于说明的目的并且本公开不限于公开的实施方式，但是相反，本公开旨在覆盖在所附权利要求书的精神和范围内的修改和等同配置。例如，应当理解，本发明想到，在可能的情况下，任何实施方式的一个或多个特征可以与任何其他实施方式的一个或多个特征相结合。

Claims

1.一种被配置为处理声音信号的系统，所述系统包括：

被配置为执行计算机程序模块的一个或多个处理器，所述计算机程序模块包括：

被配置为将音频信号的各个时间采样窗口变换成频率调频域的第一组一个或多个模块，其中给定的时间采样窗口的频率调频域的表示指定了变换系数作为信号部分的频率和分数调频斜率的函数，其中分数调频斜率是调频斜率除以频率；

第二组一个或多个计算机程序模块，所述第二组一个或多个计算机程序模块被配置为根据获得的经变换的所述给定的时间采样窗口的音频信息，来确定在所述时间采样窗口内音高似然度量值作为所述音频信号的音高和分数调频斜率的函数；

第三组一个或多个计算机程序模块，所述第三组一个或多个计算机程序模块被配置为(i)在处理时间窗口内将所述时间采样窗口划分成多个组；(ii)在给定的处理时间窗口内识别主时间采样窗口；(iii)通过从所述主时间采样窗口朝着所述处理时间窗口的一个或两个边界在所述处理时间窗口内进行迭代来确定所述给定的处理时间窗口中的时间采样窗口的音高，并且根据基于与所述给定的时间采样窗口相邻的时间采样窗口的所确定声音的参数对音高似然度量值进行加权所得到的值来确定给定的时间采样窗口的估计的音高和估计的分数调频斜率。

2.如权利要求1所述的系统，其中所述第二组一个或多个计算机程序模块被配置为(i)根据获得的经变换的所述给定的时间采样窗口的音频信息确定所述时间采样窗口内音调似然度量值作为所述音频信号的频率的函数，并且(ii)根据所述音调似然度量值确定所述给定的时间采样窗口的所述音高似然度量值。

3.如权利要求1所述的系统，其中所述第三组一个或多个计算机程序模块被配置为使得用于对所述给定的时间采样窗口中的音高似然度量值进行加权的所述相邻的时间采样窗口中的所述声音的参数包括估计的音高、估计的调频或谐波包络线中的一个或多个。

4.如权利要求1所述的系统，其中所述计算机程序模块进一步包括第四组一个或多个计算机程序模块，所述第四组一个或多个计算机程序模块被配置为基于由所述第一组一个或多个计算机程序模块所产生的经变换的音频信息和/或由所述第三组一个或多个计算机程序模块所确定的所述估计的音高和估计的调频斜率来重构所述音频信号中表示的声音。

5.如权利要求1所述的系统，其中所述计算机程序模块进一步包括第五组一个或多个计算机程序模块，所述第五组一个或多个计算机程序模块被配置为基于由所述第一组一个或多个计算机程序模块所产生的经变换的音频信息和/或由所述第三组一个或多个计算机程序模块所确定的所述估计的音高和所述估计的调频斜率来对说出所述音频信号中表示的一个或多个声音的一个或多个说话者进行分类。

6.如权利要求1所述的系统，其中，所述加权包括使音高似然度量值与加权函数相乘，所述加权函数作为音高的函数而变化，并且该加权的中心在预测的音高上。

7.如权利要求6所述的系统，其中，所述加权函数是高斯函数。

8.一种处理声音信号的方法，所述方法包括：

将音频信号的各个时间采样窗口变换成频率调频域，其中给定的时间采样窗口的所述频率调频域的表示指定变换系数作为信号部分的频率和分数调频斜率的函数，其中分数调频斜率是调频斜率除以频率；

根据获得的经变换的所述给定的时间采样窗口的音频信息确定所述时间采样窗口中的音高似然度量值，作为所述音频信号的音高和调频斜率的函数；

在处理时间窗口内将所述时间采样窗口划分成多个组；

识别给定的处理时间窗口内的主时间采样窗口；以及

通过从所述主时间采样窗口朝着所述处理时间窗口的一个或两个边界在所述处理时间窗口内进行迭代来确定所述给定的处理时间窗口中的时间采样窗口的音高，并且根据基于与所述给定的时间采样窗口相邻的时间采样窗口的所确定的声音的参数对音高似然度量值进行加权所得到的值来确定给定的时间采样窗口的估计的音高和估计的分数调频斜率。

9.如权利要求8所述的方法，进一步包括：

根据获得的经变换的所述给定的时间采样窗口的音频信息确定所述时间采样窗口内的音调似然度量值，作为音频信号的频率的函数；并且

根据所述音调似然度量值确定所述给定的时间采样窗口的所述音高似然度量值。

10.如权利要求8所述的方法，其中用于对所述给定的时间采样窗口中的音高似然度量值进行加权的所述相邻的时间采样窗口中的声音的参数包括估计的音高、估计的调频或谐波包络线中的一个或多个。

11.如权利要求8所述的方法，进一步包括基于所述经变换的音频信息和/或所述估计的音高和估计的调频斜率来重构所述音频信号中表示的声音。

12.如权利要求8所述的方法，进一步包括基于所述经变换的音频信息和/或所述估计的音高和估计的调频斜率来对说出所述音频信号中表示的一个或多个声音的一个或多个说话者进行分类。

13.如权利要求8所述的方法，其中，所述加权包括使音高似然度量值与加权函数相乘，所述加权函数作为音高的函数而变化，并且该加权的中心在预测的音高上。

14.如权利要求13所述的方法，其中，所述加权函数是高斯函数。