CN110168641A

CN110168641A - 用于确定音高信息的装置和方法

Info

Publication number: CN110168641A
Application number: CN201780075130.3A
Authority: CN
Inventors: 耶利米·勒孔特; 艾德里安·托马斯克
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2016-10-04
Filing date: 2017-10-02
Publication date: 2019-08-23
Anticipated expiration: 2037-10-02
Also published as: RU2019113346A3; JP6754004B2; WO2018065366A1; EP3523802B1; CA3039290A1; RU2745717C2; JP2019534471A; ES2913979T3; CA3039290C; MX2019003795A; KR20190057376A; BR112019006902A2; EP3523802A1; RU2019113346A; KR102320781B1; US10937449B2; CN110168641B; US20190228794A1; EP3306609A1

Abstract

一种用于基于音频信号确定音高信息的装置。装置被配置为获取与具有给定时移的音频信号的给定部分对相关联的相似性值，其中该装置被配置为取决于给定时移选择用于获取用于给定时移的相似性值的音频信号的信号部分的长度，并且其中装置被配置为选择信号部分的长度以与给定时移线性相关，容差在±1个样本内。

Description

用于确定音高信息的装置和方法

技术领域

本发明涉及音频信号处理，更具体地，涉及从音频信号获取音高信息。

背景技术

在一些算法中，基于音频信号的自相关来进行音高确定。然而，这些算法针对大范围的音高滞后采用了静态量的信号样本。

因此，已知解决方案的问题是，由于用于确定音高信息的音频信号的信号样本的不够灵活考虑而获取不准确的音高信息。

因此，存在对于能够在计算复杂性和音高值确定的准确性之间提供更好折衷的概念的期望。

发明内容

根据本发明的实施例创建了一种用于基于音频信号确定音高信息的装置。装置被配置为获取与具有给定时移的音频信号的给定对部分相关联的相似性值。此外，装置被配置为取决于给定时移选择用于获取用于给定时移的相似性值的音频信号的信号部分的长度。此外，该装置被配置为选择信号部分的长度以与给定时移线性相关，容差在±1个样本内。

装置使能音高信息的准确确定，同时避免对音频信号的不必要的大部分进行评估。通过使用足够的信号部分的长度实现合理准确的音高确定，以及通过使用所考虑的信号部分的合理小长度实现低计算复杂性。因此，信号部分长度与给定时移的线性相关提供了良好的折衷，因为它避免了信号部分的过度长度同时仍然提供足够长的信号部分来获取准确的音高信息。由于音高信息是关于频率的信息，因此周期性与其相关。与音高对应的音高周期的长度的特征是时移，这导致高相似性值。因此，采用其长度与给定时移线性相关的信号部分是有益的。换句话说，例如为了检查信号是否具有与长音高周期对应的低音高，使用大的时移。在这种情况下，当采用具有正斜率的线性相关性时，与检查与相对较短的音高周期对应的较高音高时相比，选择适当较大的信号部分长度用于音高信息的确定。因此，该概念允许调整部分的长度，以便在评估较小的时移和评估较大的时移时都使用正在考虑的信号的合理部分。

根据本发明的优选实施例，装置被配置为基于相似性值序列获取音高信息。考虑多于一个相似性值改进确定的音高的准确性。

根据本发明的优选实施例，装置被配置为基于用于时移的相似性值获取相似性值序列，时移在从1ms和4ms之间开始并扩展到15ms至25ms之间的时移的范围内。所描述的实施例是有益的，因为考虑的时移范围是人类语音的特征范围，与语音的基频对应。此外，将时移范围限于所描述的值降低了确定相似性值序列的计算复杂性，因为它限制了需要确定的相似性值的数量。

根据本发明的进一步优选实施例，装置被配置为当获取具有不同时移的不同部分对的相似性值时，随着时移增加按一个样本的步长逐步长地增加信号部分的长度。所描述的实施例特别有用，因为它能够提供具有最小长度差的信号部分。换句话说，实现长度的精细粒度，使能灵活地选择信号部分长度，从而允许在准确性和计算复杂性之间进行良好的权衡。

根据本发明的优选实施例，装置被配置为当获取具有不同时移的不同部分对的相似性值时，随着时移增加以整数精度增加信号部分的长度。由于所涉及的低计算复杂性，以整数精度增加信号部分的长度尤其有益。换句话说，例如不需要考虑上采样或分数时延。

根据本发明的优选实施例，装置被配置为在预定最小长度预定的最大长度之间，与时移线性相关地增加信号部分的长度。预定最小长度用于与最大音高频率对应的最短时移，以及预定最大长度用于与最小音高频率对应的最长时移。所描述的实施例有助于将计算复杂性保持在由预定最小长度和预定最大长度所确定的规定范围内。而且，预定最小长度和预定最大长度可以根据例如人类声道来选择，以便例如捕捉所考虑的音高周期的整个周期。

根据本发明的优选实施例，装置被配置为基于

Len(d)＝m·d+startlen-Pitmin·m

来选择信号部分的长度，其中d是给定时移，startlen是信号部分的预定最小长度，Pitmin是预定的最小考虑的音高滞后值，表示d的最小值，以及m是按其缩放所述给定时移的因子，其中例如m≤1。此外，装置被配置为选择信号部分的长度为接近Len(d)的整数值。接近Len(d)的整数值的选择可以基于轮函数、下取整函数、上取整函数或截断函数。轮函数将Len(d)的值四舍五入到最接近的整数值，下取整函数将Len(d)的值朝向负无穷四舍五入到最接近的整数，上取整函数将Len(d)的值在正无穷方向四舍五入到下一个整数，以及截断函数移除Len(d)的任何小数位值从而返回整数值。

根据本发明的优选实施例，装置被配置为基于通过给定时移进行时移的音频信号的两个时移信号部分计算自相关值，以便获取相似性值，其中相似性值可以是自相关值，或者从自相关值得出的值。此外，自相关值的计算中所考虑的音频信号的样本值的数量由所选择的长度决定。由于计算自相关涉及的低计算复杂性，使用自相关进行音高估计尤其有益。改变用于计算如所述的自相关值的样本值的数量使能更准确的音高频率的估计，同时避免用于小时移的不必要长的自相关求和长度。

根据本发明的优选实施例，装置被配置为基于

获取相似性值，其中s(n)是时间n处的音频信号的样本，Len(d)是关于用于给定时移d的信号部分长度的信息以及d是给定时移。例如，求和的上限也可以是Len(d)-1，时移的值d可以在区间[Pitmin,Pitmax]内。

以所描述的方式计算相似性值为获得自相关值提供了快速且灵活的方式。特别地，取决于所考虑的时移(d)的求和的上限(Len(d))或(Len(d)-1)可提供足够长的信号部分以包括待确定的音高频率的整个周期。

根据本发明的优选实施例，装置被配置为获取多个相似性值的最大值的位置信息。此外，装置被配置为基于所考虑的最大值的时移对应的位置信息获取音高信息。由于可以以计算复杂性来执行最大值的搜索，所描述的实施例特别有助于降低计算复杂性。例如，这可以公式表示为：

或

其中d∈[Pitmin；Pitmax]，T₀表示找到的最大值的位置。

根据本发明的优选实施例，装置被配置为使用至少两个归一化值对相似性值应用归一化。两个归一化值包括表示给定部分对的第一部分的统计特性(例如能量值)的第一归一化值以及表示给定部分对的第二部分的统计特性(例如能量值)的第二归一化值。为得到归一化相似性值，对相似性值进行归一化处理。所描述的归一化有助于补偿音频信号中的能量波动，例如语音信号中的能量波动。因此，提供了在大时移范围内可比较的相似性值，使得音高确定的更加准确的结果是可行的。

根据本发明的优选实施例，装置被配置为基于

获取归一化相似性值R(d)，其中R′(d)是相似性值以及w(d)是加窗函数。以所描述的方式对相似性值进行归一化，由于相似性值的能量波动小，因此可以更准确地确定音高信息。特别地，所考虑的值R′(d)可以受制于为此次确定所考虑的信号部分的能量变化。使用所述的归一化使值R(d)不受所考虑的信号部分的能量变化的限制。

根据本发明的优选实施例，装置被配置为通过添加包含在新信号部分中而不包含在旧信号部分中的信号样本的一个或多个能量值并且通过减去包含在旧信号部分中而不包含在新信号部分中的信号样本的一个或多个能量值，从用于先前时移(例如d-1，d-2等)的归一化值递归得到用于新时移d的归一化值(例如规范值)。所描述的归一化值的递归计算使能基于先前归一化值的归一化值的快速且节省内存的计算。

根据本发明的优选实施例，装置被配置为基于

获取归一化值norm(d)，其中x_d是包含在根据时移d的信号部分中但不包含在根据时移d-1的信号部分中的音频信号的样本，x_d+Len(d)是不包含在根据时移d的信号部分中而包含在音频信号的根据时移d-1的信号部分中的音频信号的样本，norm(d-1)是根据时移d的新信号部分外的时移d-1为先前所考虑的信号部分获取的归一化值。所描述的获取归一化值的方式使能基于先前的归一化值计算归一化值的快速且简单的方式。此外，由于计算呈现低复杂性以及低内存需求，以所描述的方式估计归一化值特别适用于具有低功耗的便携装置中采用的本发明的实施例。

根据本发明的进一步优选实施例，装置被配置为确定关于为不同时移获取的相似性值序列的识别的最大值的特征的信息，例如索引或局部最大值信息(其是局部最大值校验的结果)。此外，装置被配置为如果关于识别的最大值的特征的信息指示识别的最大值是局部最大值，基于识别的最大值提供音高频率。另外，装置被配置为如果关于最大值的特征的信息不指示最大值是局部最大值，例如如果它指示位置位于搜索区间的边缘，则继续考虑与先前识别的最大值不同的一个或多个其他相似性值用于估计音高频率。不准确的音高信息可以是由于它是基于不是局部最大值的识别的最大值的事实。因此，识别的最大值的检查并由此以描述的方式对待识别的最大值有助于避免不准确的音高信息确定。

根据本发明的优选实施例，装置被配置为如果识别的最大值位于相似性值序列的边界处，确定其作为关于识别的最大值的特征的信息。如果最大值位于相似性值序列的边界处，则超出该边界的值甚至可以高于识别的最大值，因此识别的最大值可能不表示真正的局部最大值。换句话说，最好知道识别的最大值是否位于边界处，以便做出恰当的反应。例如，反应可以是在相似性值序列中选择真正的局部最大值，因为先前识别的最大值位置可能不表示有效的音高滞后值。

根据本发明的优选实施例，装置被配置为如果关于识别的最大值的特征的信息指示识别的最大值位于相似性值序列的边界处，选择性地考虑超出相似性值序列的边界(例如，超出初始搜索区间)的一个或多个其他相似性值。有机会考虑超出相似性值序列的边界的一个或多个其他相似性值有助于确保获得准确且有效的音高信息。

根据本发明的优选实施例，装置被配置为在开环搜索或闭环搜索中确定音高信息。所述实施例对于用于被配置为具有两级音高信息确定(例如开环搜索和闭环搜索)的音频信号编码器中是有益的。

本发明的实施例提供一种用于基于音频信号确定音高信息的方法。方法包括：获取与具有给定时移的音频信号的给定的部分对相关联的相似性值。此外，方法包括取决于给定时移选择用于获取用于给定时移的相似性值的音频信号的信号部分的长度，并且其中信号部分的长度被选择为与给定时移线性相关，容差在±1个样本内。所述方法为基于与所考虑的时移对应的相关信号部分的信息获取相似性值提供可靠的支持。

本发明的进一步优选实施例是具有程序代码的计算机程序，当在计算机或微控制器上运行计算机程序时，程序代码用于执行该方法。所述程序特别适用于移动设备，例如移动电话中。

根据本发明的进一步优选实施例描述具有自适应相关大小的鲁棒音高搜索。

附图说明

在下文中，本发明的实施例将参照附图进行说明，其中：

图1示出根据本发明实施例的装置的流程图；

图2示出根据本发明实施例的装置的流程图；

图3示出根据本发明实施例的曲线图；

图4示出根据本发明实施例的曲线图；

图5示出根据本发明实施例的曲线图；

图6示出信号的示意图；以及

图7示出根据本发明实施例的方法的流程图。

具体实施方式

图1示出根据本发明实施例的用于确定音高信息160的装置100的流程图。装置100使用音频信号110(例如语音信号)和时移值120作为输入。基于时移120，装置100选择信号部分的长度(例如使用块140)并提供描述用于获取130相似性值130a(例如在块或相似性值获取器130中)的部分对的确定135的信号部分的长度的信息140a。基于相似性值130a，可以在可选的音高确定中(例如在块或音高确定器150中)确定音高信息160。信号部分的长度140a被确定为与时移120线性相关。所提供的信号部分的长度140a用于确定135音频信号110的部分对，其中该信号部分对的长度140a灵活地基于时移120。因此，基于部分对获取的相似性值130a为确定音高频率提供可靠的相似性值130a。例如如果考虑长音高周期，对应大时移120，则选择的信号部分的长度140a相应较大，以便能够捕捉到所考虑的音高的整个周期。因此，所述装置为可靠、准确、非复杂和灵活的音高确定提供了依据。此外，需要注意的是，根据图1的装置100可通过本文描述的任何特性和功能(以单独或组合的方式)进行补充。

图2示出根据本发明实施例的装置200的流程图。装置200接收音频信号210和时移值220作为输入，并提供音高信息260作为输出。根据时移220，确定信号部分的长度240a(在块240中)。信号部分的所确定长度240a被提供用于部分对的确定235，部分对的确定235还基于给定的时移220和音频信号210。基于确定的部分对，获得相似性值230a(在块230中)。

在进一步可选步骤(块251)中，基于确定的部分对的能量值对相似性值230a进行归一化251，从而提供归一化的相似性值251a。基于相似性值230a或归一化的相似性值251a，在可选步骤(块252)中可以获得252相似性值序列252a。获得的相似性值序列252a是针对最短时移252b直到最长时移252c获得的。因此，块252可例如提供给定范围内(从最短时移252b到最长时移252c)的时移信息220。

在进一步可选步骤(块253)中，相似性值序列252a经历加窗253。因此，获得相似性值的加窗序列253a，其中加窗253可以通过对相似性值序列252a的某些范围进行强调或弱化而提高待确定音高信息260的准确性。

此外，相似性值的序列252a或相似性值的加窗序列253a可以用于可选的最大值搜索254，以获取最大值位置信息254a。

基于最大值位置信息254a，在进一步可选步骤中，执行对最大值位置信息254a的特征的检查(在块255中)。所识别的最大值位置255的特征的检查是基于最大值位置的信息254a、所考虑的最短时移252b和所考虑的最长时移252c。如果最大值的特征表明最大值与最短时移252b或最长时移252c相符合，则决定考虑新的最大值。待考虑的最大值可以在最短时移252b到最长时移252c的范围内找到，也可以超出最短时移252b或最长时移252c。如果从最短时移252b和最长时移252c之间选择新的最大值，则在这两个值之间选择新的局部最大值，并作为新的局部最大值255a提供。可选地，可以在超过最短时移252b或最长时移252c的范围搜索新的最大值，并且如果找到新的最大值，将提供对应位置或者对应位置的信息255a。在最后的可选步骤中，执行音高频率估计(在块250中)。

音频信号210可以以抽取版本被提供，从而降低计算复杂性。这是由于抽取的信号通常显示降低的采样率，因此每秒呈现较少样本的事实。这反过来导致降低的计算复杂性，原因是对于相同的时间范围，与上采样信号相比需要考虑较少的采样值，或者与具有较高采样率的信号等同地需要考虑较少的采样值。因此，在第一阶段(未显示)，取决于输入采样率，音频信号210可以被抽取为采样频率，例如在5.3到8kHz之间变化。

下面将描述如何可以通过块240确定信号部分的长度信息240a。图3示出根据本发明的一个方面的曲线图300。在横轴310上，示出时移d的值。最短时移310a和最长时移310b被指示在横轴上，分别标记为Pitmin和Pitmax，可对应图2中的最短时移252b和最长时移252b。在纵轴320上示出所考虑的信号部分的长度，其中该长度可由长度信息140a或240a表示。最小长度320a和最大长度320b被指示在纵轴上，分别标记为startlen和stoplen。线330示出信号部分的长度随时移的增长呈线性增长。此外，将最短时移310a标记为所考虑的最小音高值对应的Pitmin，最长时移310b标记为所考虑的最大音高值对应的Pitmax。曲线图300示出用于获取相似性值的信号部分的长度的选择，使高效计算和可靠的音高确定成为可能。

参考图4，示出对最大值位置信息254a或255a的搜索，例如在块254或255中执行的。图4示出根据本发明的一个方面的曲线图400。在横轴410上示出时移d，其可以是时移120或220。在纵轴420上示出相似性值的值(例如自相关值)，其可以是块130或230中获得的相似性值130a、230a或251a。曲线430示出取决于时移d的相似性值(例如相似性值序列252a)的示例演变。曲线430在标记为Pitmin和Pitmax的垂直虚线之间有局部最大值R(T₀)。局部最大值左边的值R(T₀-1)小于R(T₀)，并且R(T₀)右边的值R(T₀+1)小于R(T₀)，因此，R(T₀)可被表征为真正的局部最大值。此外，标记为Pitmin和Pitmax的垂直虚线示出可以执行最大值搜索的范围(例如在块254中)，并且对于其时移的值d，获取相似性值以形成序列252a。最大值搜索可以例如是如装置200中的块254所示的最大值搜索。此外，识别与标记为Pitmin的垂直虚线符合的最大值。但是，这个识别的最大值不是真正的局部最大值，因为在搜索范围之外可获得更高的局部最大值。因此，与Pitmin,相符的最大值R(Pitmin)是假最大值。参考图2，所述曲线430可显示在块254中在其上执行搜索的序列252a。搜索254可识别值R(Pitmin)为最大值，以及因此，返回Pitmin作为最大值位置信息254a。获得的最大值位置信息254a可用于最大值的特征的检查255。检查255可识别最大值位置信息254，以指示最大值位于搜索范围的边界上。响应于这一发现，在实施方式中，检查(块255)可以丢弃Pitmin处的最大值，而是在搜索范围内选择与R(T₀)对应的真正的局部最大值。导致最大值位置信息255a由T₀而不是Pitmin表征。

在下文中，将参照图5描述检查(块255)的替换实施方式。图5示出根据本发明的一个方面的曲线图500。在横轴510上示出时移值。此外，在垂直轴520上示出取决于时移的相似性值。此外，在图500中绘制曲线530，其举例示出相似性值，例如130a,230a或251a。曲线530与图4中的曲线430相似，并且示出如果检查255发现最大值位置信息254a指示最大值位于搜索范围的边界处的替代过程。如已在图4的曲线图400中所示(R(Pitmin)是d＝Pitmin和d＝Pitmax之间的最大值)，曲线图500示出曲线530在与标记为Pitmin的垂直虚线的交点上的关于其右侧的值的最大值。可选地，对于图4所描述的过程，搜索范围扩展到Pitmin之外以检查255找到的最大值是否确实是局部最大值(两侧都是更小的值)。当搜索超过Pitmin时，找到新的局部最大值R(Pitmin-2)，将其作为(新的、修改过的)最大值位置信息255a返回。例如，由于额外的搜索是在图4中曲线430的上采样版本上执行，因此超出相似性值R(Pitmin)的其他相似性值可以是可用的。因此，除了对先前使用的相似性值序列进行上采样外，检索R(Pitmin)以外的值可能不再需要新的计算。

图6示出音频信号的示意图，例如音频信号110和210。信号具有逐帧分段并显示三帧。两个箭头表示最短时移Pitmin和最长时移Pitmax，以及标记为滞后窗口的箭头指示滞后窗口在Pitmin和Pitmax之间缩放的可变性。

图7示出根据本发明一个方面的方法的流程图700。在第一步骤中，信号部分的长度被确定710，其中长度与所考虑的时移线性相关。然后，基于所确定的长度，信号部分对被确定720。此外，基于确定的信号部分对，相似性值被获得730。可选地，在最后步骤中，基于确定的相似性值，音高信息被确定740。

方法700可通过本文也关于装置描述的任何特征和功能进行补充。

进一步的方面和结论

在下文中，对根据本发明的一些方面和思路进行论述。

根据本发明的一个方面是使用自相关方法找到语音信号上的基频，即音高值(也称为时域中的滞后值)。在语音编码器AMR-WB编解码器[1]中，音高搜索分为开环和闭环音高搜索。开环音高搜索是直接从加权语音输入中估计近似最优滞后的过程。取决于模式，每帧一次(每20毫秒)或每帧两次(每10毫秒)地执行开环音高分析，以找到每帧中音高滞后的两个估计。这样做是为了简化音高分析，并将闭环音高搜索限制在开环估计的滞后周围的少量滞后。在某些实施例中，可以可选地使用这种过程。

搜索范围根据人类声道进行调整。因此，以AMR-WB为例，音高搜索算法被约束为仅在55Hz的最小音高值和380Hz的最大音高值之间进行搜索。AMR-WB编解码器[1]使用固定的搜索窗口大小用于自相关。已经发现，这种固定搜索窗口大小不是最优的：有时用于音高滞后估计的相关窗口可能不包含完整的音高周期，从而使相关变得困难或没有意义；如果窗口太大，可能导致复杂性问题，也会增加检测短音高滞后的难度。还发现，过大的窗口的代价是很多额外的复杂性。VMR-WB[2]和EVS编解码器[3]分别使用三个和四个不同长度用于自相关窗口，分为四个部分:[10，16]、[17，31]、[32，61]和[62，115]，其中音高范围从10到115。研究发现，主要的缺点是一个部分的音高值使用相同的自相关大小，因此没有被同等的处理，这可以导致错误的音高值。例如，62和115的音高值使用相同的自相关长度115。在某些编解码器中，最后帧的音高值被考虑在内。然而，关于最后一个音高值的先验知识并不总是可用的，例如在频域中运行的编解码器中，其中正常处理不需要音高值，如AAC-ELD[4]。

在下文中，对本发明的各个方面进行进一步的讨论。

本发明的一个方面提出在整数精度上使用音调自适应自相关大小的低复杂性和鲁棒音高搜索的方法。它不需要信号的任何先验知识，如先前的音高值。例如，这种方法可以使用信号部分的长度的选择来实现，如块140，240所执行的。由于复杂性的原因，音高搜索可以分为两个阶段，类似于AMR-WB编解码器[1]中的音高搜索。

在AMR-WB编解码器[1]中，音高搜索的搜索范围适用于人类声道。因此，在采样率为12.8kHz时，观察到55Hz到376Hz的音高值。在此基础上，在根据本发明的一个方面的方法中将使用采样速率为48kHz的Pitmax＝872样本和Pitmin＝126样本的边界。这对应于从55Hz到380Hz的音高值。

根据本发明的进一步方面，在第一阶段，信号(例如信号110或210)像在AMR-WB编解码器[1]中一样被下采样，例如在装置100和200的未显示阶段中。然而，信号(例如信号110或210)不是被抽取到固定的采样频率6.4kHz，而是抽取到根据输入采样率在5.3到8kHz之间变化的采样频率。抽取因子decim被选择，如:

其中fs是输入采样率。通过具有抽头的FIR滤波器完成下采样：

decim＝2时，[0.0101,0.2203,0.5391,0.2203,0.0101]，

decim＝3时，[0.0068,0.0664,0.2465,0.3608,0.2465,0.0664,0.0068]，

decim＝4时，[0.0051,0.0294,0.1107,0.2193,0.2710,0.2193,0.1107,0.0294,0.0051]，

以及

decim＝6时(例如，为了避免混叠)，[0.0034,0.0106,0.0333,0.0739,0.1236,0.1648,0.1809,0.1648,0.1236,0.0739,0.0333,0.0106,0.0034]。

根据本发明的一个方面，通过从最小滞后到最大滞后值的迭代循环(例如由块252控制)上的自相关方法，可以在下采样版本(例如在信号110，210)上进行音高搜索，自相关大小(例如，以长度信息240a表示)在整数精度上从5ms到10ms。

在某些算法中，自相关函数的最大值有可能对应于音高滞后d的倍数或子倍数，因此估计的音高滞后将不正确。EP0628947[5]通过对自相关函数R应用加权函数w(d)来解决这个问题：

R(d)＝R(d)·w(d),d＝pitmin…pitmax

加权函数的形式如下：K是调整参数，它的值设置得足够低以降低在音高滞后的倍数处获得R(d)的最大值的概率，但同时又足够高以排除音高滞后的子倍数。与AMR-WB编解码器[1]类似，这种方法使用K＝0.7的加权函数。所述的加权可以是如块253中执行的加窗。

在一些算法中，如AMR-WB编解码器[1]中，最大自相关值最终被归一化，这允许跨信号比较该最大值或将该最大值与阈值进行比较。然而，根据本发明的一个方面，为了提高音高搜索的鲁棒性，通过使自相关不受信号中能量波动的影响，在最大化(或最大值搜索)之前对自相关值进行归一化处理(例如在块251中)：

其中R(d)为未移信号与左移d个样本的信号之间的归一化自相关值，R′(d)是未移信号与左移d个样本的信号之间的自相关值，w(d)是d的加权因子，norm(0)是未移信号部分(例如，部分对的第一部分)的点积，以及norm(d)是被左移d个样本的信号部分(例如，部分对的第二部分)的点积。(例如，R(d)可以对应于归一化的相似性值251a，R′(d)可以对应于相似性值230a或130a)

根据本发明的进一步方面，为了节省复杂性，使用更新机制计算可用于归一化并在块251中被估计的归一化值norm(0)和norm(d)。因此，norm(d)可被计算为：

其中x_d是具有长度为len(d)的搜索窗口的左移d个样本的信号样本。只有对于norm(0)和norm(pitmin)的初始值，整个点积必须用len(pitmin)来计算。如果搜索窗口的长度从d-1改为d，则归一化化值需要额外更新len(d-1)-len(d)值。

根据本发明的另一个方面，与基于自相关方法的一些音高搜索算法的另一个主要区别是，该方法只选择表示真实的局部最大值的音高值，例如在块255中所执行的。因此，可以避免错误的音高结果，这发生在自相关的最大值在搜索范围之外时(例如，图4和图5中描述的相关示例)。这意味着，如果R(d-1)≤R(d)≥R(d+1)，只使用d的滞后值。

就像在AMR-WB编解码器[1]中所做的一样，音高搜索的第二阶段(例如闭环)是在原始采样的信号域中进行的，并且只使用上采样的开环估计的滞后T₀周围的少量的滞后。音高搜索，例如254中的最大值搜索，也使用搜索窗口长度Len(在一些实施例中可以是恒定的搜索窗口长度)，但Len现在取决于T₀，如下：

Len＝m·T₀+startlen-Pitmin·m

其中

并且startlen＝5ms和stoplen＝10ms。

根据本发明的另一个方面，例如最大值搜索254中的搜索范围被限制为：

其中δ＝4·decim。

根据本发明的一个方面，算法选择属于最大归一化的自相关值的滞后值T。

根据本发明的另一个方面，所提出的方法的改进之处在于，仔细处理在搜索边界上的音高搜索，如关于块255以及关于图4和图5所描述的。如果在一些方法中选择Pitmin或Pitmax的滞后值，当实际最大值超出搜索范围时，算法存在使用假滞后值的危险。这甚至可以发生在上文描述的音高搜索中，因为由于开环音高搜索的下采样，开环音高搜索和闭环音高搜索在不同的信号分辨率上工作。因此，这种方法最大以相应边界上方的4个样本扩展搜索(在块255中)。如果在[Pitmin Pitmax]的搜索范围之外找到归一化的自相关的第一真实最大值，则音高搜索停止并使用相应的滞后值。否则，选择Pitmin-4或Pitmax+4。

虽然已经在装置的上下文中描述一些方面，但是明显的是，这些方面也表示对相应方法的描述，其中块或设备对应于方法步骤或方法步骤的特征。类似地，在方法步骤的上下文中描述的方面也表示对相应装置的相应块或项或特征的描述。方法步骤的一些或所有可以通过(或使用)硬件装置来执行，例如微处理器、可编程计算机或电子电路。在一些实施例中，最重要的方法步骤的一个或多个可由这样的装置执行。

取决于特定的实施方式要求，本发明的实施例可以以硬件或软件实现。实施方式可以使用其上存储有电子可读控制信号的数字存储介质来执行，例如，软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存，电子可读控制信号与可编程计算机系统协作(或能够协作)，从而执行相应的方法。因此，数字存储介质可以是计算机可读的。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体，电子可读控制信号能够与可编程计算机系统协作，从而执行本文所述的方法中的一个。

通常，本发明的实施例可以实现为带有程序代码的计算机程序产品，当计算机程序产品在计算机上运行时，程序代码被操作用于执行方法中的一个。例如，程序代码可以存储在机器可读载体上。

其他实施例包括存储在机器可读载体上的用于执行本文所述方法中的一个的计算机程序。

换句话说，因此，本发明方法的实施例是具有程序代码的计算机程序，当计算机程序在计算机上运行时，程序代码用于执行本文所述方法中的一个。

因此，本发明方法的进一步实施例是包括记录在其上的用于执行本文所述方法中的一个的计算机程序的数据载体(或数字存储介质，或计算机可读介质)。数据载体、数字存储介质或记录介质通常是有形的和/或非暂时性的。

因此，本发明方法的进一步实施例是表示用于执行本文所述方法中的一个的计算机程序的数据流或信号序列。例如，数据流或信号序列可被配置为通过数据通信连接(例如通过互联网)被传输。

进一步实施例包括处理构件，例如计算机或可编程逻辑设备，被配置为或适于执行本文所述方法中的一个。

进一步实施例包括具有安装其上的用于执行本文所述方法中的一个的计算机程序的计算机。

根据本发明的进一步实施例包括配置为(例如，电子地或光学地)将用于执行本文所述方法中的一个的计算机程序传输至接收器的装置或系统。例如，接收器可以是计算机、移动设备、内存设备等。例如，装置或系统可包括用于将计算机程序传输至接收器的文件服务器。

在一些实施例中，可编程逻辑设备(例如现场可编程门阵列)可用于执行本文所述方法的部分或全部功能。在一些实施例中，现场可编程门阵列可与微处理器协作以执行本文所述的方法中的一个。通常，方法优选地由任何硬件装置执行。

本文所述的装置可以使用硬件装置，或使用计算机，或使用硬件装置和计算机的组合来实现。

本文所述的装置或本文所述装置的任何组件，可至少部分地以硬件和/或软件实现。

本文所述的方法可以使用硬件装置，或使用计算机，或使用硬件装置和计算机的组合来执行。

本文所述的方法，或本文所述装置的任何组件，至少部分地可由硬件和/或软件执行。

上述实施例仅仅是对本发明的原理进行说明。应当理解的是，本文中所述的布置和细节的修改和变化对本领域其他技术人员来说是显而易见的。因此，其意图仅受即将提出的专利权利要求书的范围的限制，而不受通过本实施例的描述和解释所呈现的具体细节的限制。

参考文献

[1]3GPP,TS 26.190,“Speech codec speech processing functions；AdaptiveMulti-Rate-Wideband(AMR-WB)speech codec；Transcoding functions(Release 12),”2014.

[2]3GPP2,C.S0052-A,“Source-Controlled Variable-Rate MultimodeWideband Speech Codec(VMR-WB),Service Options 62and 63for Spread SpectrumSystems”,版本1.0,2005年4月

[3]3GPP,TS 26.445,“Universal Mobile Telecommunitations System(UMTS)；LTE；Codec for enhanced Voice Services(EVS)；Detailed algorithmic description”,版本12.3.0,Release 12

[4]AAC-ELD标准:

http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm？csnumber＝46457

[5]EP0628947“Method and device for speech signal pitch periodestimation and classification in digital speech coders”

Claims

1.一种用于基于音频信号(110；210)确定音高信息(160；260)的装置，

其中所述装置被配置为获取与具有给定时移(120；220)(d)的所述音频信号的给定部分对相关联的相似性值(130a；230a；251a)(R(d)；R′(d))；

其中所述装置被配置为取决于所述给定时移(d)选择用于获取用于所述给定时移(d)的所述相似性值(R(d)；R′(d))的所述音频信号的信号部分的长度(140a；240a)(Len(d))；

其中所述装置被配置为选择所述信号部分的长度(Len(d))以与所述给定时移(d)线性相关，容差在±1个样本内。

2.根据权利要求1所述的装置，其中所述装置被配置为基于相似性值序列(252a)获取音高信息。

3.根据权利要求2所述的装置，其中所述装置被配置为基于用于时移d的相似性值获取所述相似性值序列，所述时移d在从1ms和4ms之间开始并扩展到15ms至25ms之间的时移的范围内。

4.根据权利要求1至3中任一项所述的装置，其中所述装置被配置为随着时移增加而按一个样本的步长逐步长地增加所述信号部分的长度。

5.根据权利要求1至4中任一项所述的装置，其中所述装置被配置为随着时移增加以整数精度增加所述信号部分的长度。

6.根据权利要求1至5中任一项所述的装置，其中所述装置被配置为在预定最小长度(320a)和预定最大长度(320b)之间，与所述给定时移线性相关地增加所述信号部分的长度，

其中所述预定最小长度用于与最大音高频率对应的最短时移(252b)，以及

其中所述预定最大长度用于与最小音高频率对应的最长时移(252c)。

7.根据权利要求1至6中任一项所述的装置，其中所述装置被配置为基于

Len(d)＝m·d+startlen-Pitmin·m

来选择所述信号部分的长度，其中d是所述给定时移，startlen是信号部分的预定最小长度，Pitmin是预定的最小考虑的音高滞后值，以及m是按其缩放所述给定时移的因子，以及

其中所述装置被配置为选择所述信号部分的长度为接近Len(d)的整数值。

8.根据权利要求1至7中任一项所述的装置，其中所述装置被配置为基于由所述给定时移(d)进行时移的所述音频信号的两个时移信号部分计算自相关值(230a)(R′(d))，以便获取所述相似性值，

其中所述自相关值的计算中考虑的所述音频信号的样本值的数量由所选择的长度决定。

9.根据权利要求8所述的装置，其中所述装置被配置为基于

获取所述相似性值，其中s(n)是时间n处的所述音频信号的样本，Len(d)是关于所述给定时移d的所述信号部分的长度的信息以及d是所述给定时移。

10.根据权利要求1至9中任一项所述的装置，其中所述装置被配置为获取多个相似性值的最大值的位置信息(254a)；以及

其中所述装置被配置为基于所述最大值的所述位置信息获取音高信息。

11.根据权利要求1至10中任一项所述的装置，其中所述装置被配置为使用至少两个归一化值(norm(0),norm(d))对所述相似性值(R′(d))应用归一化(251)，以便得出归一化的相似性值(251a)(R(d))；

第一归一化值(norm(0))表示所述给定部分对的第一部分的统计特性，以及

第二归一化值(norm(d))表示所述给定部分对的第二部分的统计特性。

12.根据权利要求11所述的装置，其中所述装置被配置为基于

获取归一化相似性值R(d)，其中R′(d)是相似性值以及w(d)是加窗函数。

13.根据权利要求11至12中任一项所述的装置，其中所述装置被配置为通过添加包括在新信号部分中而不包括在旧信号部分中的信号样本的一个或多个能量值并且通过减去包括在所述旧信号部分中而不包括在所述新信号部分中的信号样本的一个或多个能量值来从先前时移d-1的归一化值递归得到新时移d的归一化值。

14.根据权利要求11至13中任一项所述的装置，其中所述装置被配置为基于

获取归一化值norm(d)，其中x_d是包含在根据时移d的所述信号部分中但不包含在根据时移d-1的所述信号部分中的所述音频信号的样本，x_d+Len(d)是不包含在根据时移d的所述信号部分中而包含在所述音频信号的根据时移d-1的所述信号部分中的所述音频信号的样本，norm(d-1)是根据时移d-1为先前考虑的信号部分获取的归一化值。

15.根据权利要求1至14中任一项所述的装置，其中所述装置被配置为确定关于为不同时移(d)获取的相似性值(R(d)；R′(d))的序列的识别的最大值的特征(255a)的信息；以及

其中所述装置被配置为如果关于所述识别的最大值的特征的所述信息指示所述识别的最大值是局部最大值，基于所述识别的最大值提供音高频率(250)；以及

其中所述装置被配置为如果关于所述最大值的特征的所述信息不指示所述最大值是局部最大值，继续考虑一个或多个其他相似性值用于估计所述音高频率。

16.根据权利要求15所述的装置，其中所述装置被配置为如果识别的最大值位于相似性值序列的边界处，确定其作为关于所述识别的最大值的特征的信息。

17.根据权利要求15至16中任一项所述的装置，其中所述装置被配置为，如果关于识别的最大值的特征的信息指示所述识别的最大值位于所述相似性值序列的边界处，选择性地考虑超出所述相似性值序列的边界的一个或多个其他相似性值。

18.根据权利要求1至17中任一项所述的装置，其中所述装置被配置为在开环搜索或闭环搜索中确定音高信息。

19.一种用于基于音频信号确定音高信息的方法，包括：

获取与具有给定时移(d)的所述音频信号的给定部分对相关联的相似性值(R(d)；R′(d))；

取决于所述给定时移(d)选择用于获取用于所述给定时移(d)的所述相似性值(R(d)；R′(d))的所述音频信号的信号部分的长度(Len(d))；以及

其中所述信号部分的长度(Len(d))被选择为与所述给定时移(d)线性相关，容差在±1个样本内。

20.一种计算机程序，具有用于在计算机或微控制器上运行所述计算机程序时执行权利要求19所述的方法的程序代码。

21.一种用于基于音频信号(110；210)确定音高信息(160；260)的装置，

其中所述装置被配置为选择所述信号部分的长度(Len(d))以与所述给定时移(d)线性相关，容差在±1个样本内；

其中所述装置被配置为基于

Len(d)＝m·d+startlen-Pitmin·m

22.一种用于基于音频信号确定音高信息的方法，包括：

其中所述信号部分的长度(Len(d))被选择为与所述给定时移(d)线性相关，容差在±1个样本内；

其中所述方法包括基于

Len(d)＝m·d+startlen-Pitmin·m

其中所述方法包括选择所述信号部分的长度为接近Len(d)的整数值。

23.一种计算机程序，具有用于当所述计算机程序在计算机或微控制器上运行时，执行权利要求22所述的方法的程序代码。