CN114503607B

CN114503607B - 用于操控音频的双耳化的方法、系统和计算机可读介质

Info

Publication number: CN114503607B
Application number: CN202080066026.XA
Authority: CN
Inventors: 宾清原; 雒利滨; 杨子瑜; 双志伟; 余雪梅; 王贵平
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2019-08-19
Filing date: 2020-08-19
Publication date: 2024-01-02
Anticipated expiration: 2040-08-19
Also published as: US20220279300A1; US11895479B2; EP4018686A2; CN114503607A; WO2021034983A3; WO2021034983A2; JP2022544795A

Abstract

本公开提供一种用于操控音频的双耳化的方法。所述方法包括以下步骤：接收(410)音频输入信号；计算(430)指示所述音频输入信号的当前音频帧包括经双耳化音频的可能性的置信度值；基于所述置信度值来确定(450)状态信号；基于所述置信度值、所述状态信号及所述音频帧的能量值来确定(460)操控信号；及通过根据所述操控信号处理所述音频输入信号来产生(470)具有经操控双耳化的音频输出信号。

Description

用于操控音频的双耳化的方法、系统和计算机可读介质

相关申请案的交叉参考

本申请案主张2019年8月19日申请的第PCT/CN2019/101291号国际专利申请案；2019年9月5日申请的第62/896,321号美国临时专利申请案；2019年12月19日申请的第19218142.8号欧洲专利申请案；及2020年1月2日申请的第62/956,424号美国临时专利申请案的优先权，所述申请案以引用的方式并入本文中。

技术领域

本公开涉及操控音频的双耳化的领域。特定来说，本公开涉及一种用于操控音频的双耳化的方法、非暂时性计算机可读媒体及系统。

背景技术

现今，将空间音频技术实施到音频内容中以提供沉浸式用户体验是常见的。最常见技术之一是双耳化。双耳化使用头部相关传递函数HRTF以产生虚拟音频场景，所述虚拟音频场景可由耳机或扬声器来再现。双耳化也可被称为虚拟化。通过双耳化方法产生的音频可被称为经双耳化音频或经虚拟化音频。

随着消费者娱乐装置，例如智能电话、平板计算机、PC等的兴起，电子游戏变得流行。在游戏使用案例中，双耳化被广泛用以向玩家提供额外信息。例如，第一人称射击游戏中的经双耳化枪声片段可提供方向信息且指示目标位置。

在游戏使用案例中，可在内容创建侧或回放侧动态地产生经双耳化音频。在内容创建侧，各种游戏引擎提供双耳化方法来对音频对象进行双耳化且将所述音频对象混合到[未经双耳化]背景声音。在回放侧，后处理技术也可产生经双耳化音频。

然而，在以上案例中的任一者中，应注意使音频双耳化避免对音频产生可能导致负面用户体验的不利影响。

发明内容

根据第一方面，提供一种操控音频的双耳化的方法。所述方法包括以下步骤：接收音频输入信号，所述音频输入信号包括多个音频帧；计算指示所述音频输入信号的当前音频帧包括经双耳化音频的可能性的置信度值；基于所述置信度值来确定状态信号，所述状态信号指示所述当前音频帧是处于未经双耳化状态还是处于经双耳化状态；确定操控信号，其中在所述状态信号从指示所述未经双耳化状态改变为指示所述经双耳化状态时：通过对所述音频输入信号应用头部相关传递函数HRTF来改变所述操控信号以激活音频的双耳化，从而导致经双耳化音频信号，及产生至少部分地包括所述经双耳化音频信号的音频输出信号；其中在所述状态信号从指示所述经双耳化状态改变为指示所述未经双耳化状态时，将双耳化的取消激活模式设置为真；及在所述双耳化的所述取消激活模式为真，且所述当前音频帧的所述置信度值低于取消激活阈值，且所述当前音频帧的能量值低于所述当前音频帧之前的所述音频输入信号的阈值数目个音频帧的能量值时：将所述双耳化的所述取消激活模式设置为假，改变所述操控信号以取消激活或减少音频的双耳化，及产生至少部分地包括所述音频输入信号的所述音频输出信号。

通过根据此方法来操控所述双耳化，避免所述音频输出信号在所述经双耳化音频输入信号与未经双耳化音频输入信号之间的频繁切换。期望避免频繁切换，因为其可能对所述音频产生不利影响且导致负面用户体验。例如，频繁切换可能令人不快且导致用户不适。

所述操控还避免双重双耳化，即，已双耳化音频的双耳化后处理，即使所述音频输入信号包括未经双耳化背景与短期经双耳化声音的混合也是如此。可期望避免双重双耳化，因为其可能对所述音频产生不利影响且导致负面用户体验。例如，当应用双耳化两次时，由游戏玩家感知到的枪声的方向可能是不正确的。

所述操控进一步具有经恰当设计的切换点，这是因为检查到所述当前音频帧的那个能量值低于所述当前音频帧之前的所述音频输入信号的阈值数目个音频帧的能量值。这避免了负面用户体验。例如，如果一段连续枪声被检测为经双耳化，那么不应立即开启双耳化器，因为其将使所述枪声不稳定。这种不稳定性问题可能被明显感知到且对总体音频质量有害。

根据实施例，在改变所述操控信号以激活音频的双耳化时，产生所述音频输出信号的所述步骤包括：在第一阈值时间段内，将所述经双耳化音频信号与所述音频输入信号混合成经混合音频信号且将所述经混合音频信号设置为音频输出信号，其中在所述第一阈值时段期间逐渐增加所述经混合音频信号中的所述经双耳化音频信号的一部分，且其中在所述第一阈值时段结束时，所述音频输出信号仅包括所述经双耳化音频信号。

所述经混合音频信号是有益的，因为其使从所述音频输入信号到所述经双耳化音频信号的转变平滑使得避免可能引起用户不适的突然变化。

所述经混合音频信号任选地包括作为具有求和为1的权重的线性组合的所述音频输入信号及所述经双耳化音频信号，其中所述权重可取决于所述操控信号的值。求和为1的权重是有益的，因为所述音频输出信号的总能量含量不受所述混合影响。

根据另一实施例，在改变所述操控信号以取消激活或减少音频的双耳化时，产生所述音频输出信号的所述步骤包括：在第二阈值时间段内，将所述经双耳化音频信号与所述音频输入信号混合成经混合音频信号且将所述经混合音频信号设置为音频输出信号，其中在所述第二阈值时段期间逐渐减小所述经混合音频信号中的所述经双耳化音频信号的一部分，且其中在所述第二阈值时段结束时，所述音频输出信号仅包括所述音频输入信号。

所述经混合音频信号是有益的，因为其使从所述经双耳化音频信号到所述音频输入信号的转变平滑使得避免可能引起用户不适的突然变化。

所述经混合音频信号任选地包括作为具有求和为1的权重的线性组合的所述音频输入信号及所述经双耳化音频信号，其中所述权重可取决于所述操控信号的值。求和为1的权重是有益的，因为所述音频输入信号的总能量含量不受所述混合影响。

根据又一实施例，计算置信度值的所述步骤包括提取所述音频输入信号的所述当前音频帧的特征，所述音频输入信号的所述特征包括声道间电平差ICLD、声道间相位差ICPD、声道间相干性ICC、中/侧梅尔频率倒谱系数MFCC及频谱图峰值/陷波特征中的至少一者，及基于所述经提取特征来计算所述置信度值。

所述经提取特征是有益的，因为它们允许更精确地计算所述置信度值。

根据另一实施例，计算置信度值的所述步骤进一步包括：接收所述当前音频帧之前的所述音频输入信号的多个音频帧的特征，所述特征对应于所述当前音频帧的所述经提取特征；将权重施加到所述音频输入信号的所述当前及所述多个先前音频帧的所述特征，其中施加到所述当前音频帧的所述特征的所述权重大于施加到所述多个先前音频帧的所述特征的所述权重；及基于所述经加权特征来计算置所述信度值。

所述权重是有益的，因为它们使较新帧优先化，尤其是所述当前帧，这使结果对从所述帧计算的特征的变化更敏感。

根据再一实施例，计算置信度值的所述步骤进一步包括：根据非对称窗函数来将权重施加到所述音频输入信号的所述当前及所述多个先前音频帧的所述特征。

非对称窗函数是有益的，因为其是一种用以将不同权重施加到所述音频帧的简单且可靠的方法。非对称窗可例如为汉明窗的前半部。

根据第二方面，提供一种存储指令的非暂时性计算机可读媒体，所述指令在由一或多个计算机处理器执行时致使所述一或多个处理器执行根据第一方面所述的方法。

根据第三方面，提供一种用于操控音频的双耳化的系统。所述系统包括：音频接收器，其用于接收音频输入信号，所述音频输入信号包括多个音频帧；双耳化检测器，其用于计算指示所述音频输入信号的当前音频帧包括经双耳化音频的可能性的置信度值；状态决定器，其用于基于所述置信度值来确定状态信号，所述状态信号指示所述当前音频帧是处于未经双耳化状态或还是处于经双耳化状态；切换决定器，其用于确定操控信号，其中在所述状态决定器将所述状态信号从指示所述未经双耳化状态改变为指示所述经双耳化状态时，所述切换决定器经配置以：通过对所述音频输入信号应用头部相关传递函数HRTF来改变所述操控信号以激活音频的双耳化，从而导致经双耳化音频信号，及产生至少部分地包括所述经双耳化音频信号的音频输出信号；其中在所述状态决定器将所述状态信号从指示所述经双耳化状态改变为指示所述未经双耳化状态时，所述切换决定器将双耳化的取消激活模式设置为真；及在所述双耳化的所述取消激活模式为真，且所述当前音频帧的所述置信度值低于取消激活阈值，且所述当前音频帧的能量值低于所述当前音频帧之前的所述音频输入信号的阈值数目个音频帧的能量值时，所述切换决定器经配置以：将所述双耳化的所述取消激活模式设置为假，改变所述操控信号以取消激活或减少音频的双耳化，及产生至少部分地包括所述音频输入信号的所述音频输出信号。

第二及第三方面通常可具有与第一方面相同的特征及优点。

附图说明

举例来说，现在将参考附图描述本公开的实施例，在附图中：

图1是操控双耳化的实例系统的框图。

图2是实例四态状态机的图。

图3A说明实例置信度值。

图3B说明实例状态信号。

图3C说明实例操控信号。

图4是说明双耳化操控的实例过程的流程图。

图5是根据实施例的用于实施参考图1-4所描述的特征及过程的移动装置架构。

具体实施方式

现在将参考附图描述本公开的实施例。然而，本公开可以许多不同形式体现且不应被解释为限于本文中所阐述的实施例。相反，提供这些实施例使得本公开将是透彻且完整的，且将向所属领域的技术人员充分传达本公开的范围。附图中所说明的特定实施例的详细描述中使用的术语并不意在限制本公开。在附图中，类似数字指代类似元件。

常规双耳化技术使用双耳化检测模块及混合模块来产生经双耳化音频。这种方法适用于如同电影的一般娱乐内容。然而，由于游戏内容与其它娱乐内容(例如，电影或音乐)之间的差异，所述方法不适合游戏使用案例。

一般游戏内容含有很多短期的经双耳化声音。这是因为用于游戏内容的特殊双耳化方法。一般来说，通过对所有音频帧应用双耳化器(有时是同时)来获得经双耳化电影内容。然而，针对游戏内容，双耳化器通常应用于特定音频对象[例如，枪声、脚步声等]，所述特定音频对象通常随着时间推移而稀疏地出现。即，与具有相对长的经双耳化时段的其它类型的经双耳化内容相比，游戏内容具有未经双耳化背景与短期经双耳化声音的混合。

双耳化检测模块有益于回放侧双耳化方法自适应地处置经双耳化或未经双耳化音频。这个模块通常采用媒体智能MI技术且提供表示信号是否经双耳化的概率的置信度值。MI是使用机器学习技术及统计信号处理以从多媒体信号导出信息的技术的集合。

双耳化检测模块可实时逐帧分析音频数据且同时输出与多种类型的音频[例如：双耳化/对话/音乐/噪声/VOIP]相关的置信度得分。所述置信度值可用以操控双耳化方法。

因此，本公开致力于解决至少一些以上问题且消除或至少减轻现有技术系统的一些缺点。

本发明的进一步目的是提供一种避免相对频繁的切换的双耳化检测方法。

从图1开始，展示实施用于操控音频的双耳化的方法的实例系统100的框图。

系统100的输入是音频输入信号110。音频输入信号110包括多个音频帧，所述多个音频帧可包括仅前景双耳音频、仅背景非双耳音频或两者的混合。输入信号110可未经压缩或经压缩。可在执行用于操控音频的双耳化的方法之前解压缩及/或解码[未在图1中展示]经压缩及/或经编码信号。

音频输入信号110是到双耳化检测器130的输入。双耳化检测器130输出指示输入音频包括经双耳化音频的可能性的置信度值135。置信度值135任选地被归一化为在0与1之间，其中0指示音频输入信号110不可能包括经双耳化音频，而1指示音频输入信号110包括经双耳化音频的总可能性。

双耳化检测器130可实施计算置信度值135的步骤，所述步骤包括提取指示经双耳化音频的音频输入信号110的特征。

在频域中任选地提取所述特征，这指示它们在提取之前进行变换且在提取之后进行逆向变换。所述变换包括域变换以将信号分解成数个子带[频带]。

根据特定实施方案，双耳化检测器130将每一声道的每一帧变换成六十四个复正交镜像滤波器域子带，且如下将最低的三个子带进一步划分成子子带：将第一子带划分成八个子子带，将第二及第三子带每一者划分成四个子子带。

指示经双耳化音频的音频输入信号的特征可包括声道间电平差ICLD、声道间相位差ICPD、声道间相干性ICC、中/侧梅尔频率倒谱系数MFCC及频谱图峰值/陷波特征中的至少一者。

声道间电平差ICLD是与两个不同子带的子带声能的分贝差成比例的量度。ICLD(其是频域中的ΔL(k))可根据下式来计算：其中x₁(k)及x₂(k)是频域中的两个输入信号子带且*表示复共轭。

声道间相位差ICPD是两个子带的相位差的量度。ICPD(频域中的φ(k))可根据来计算，其中∠表示复数的方向角。

声道间相干性ICC是两个子带的相干性的量度。ICC(频域中的c(k))可根据来计算，其中Φ₁₂(d，k)是归一化互相关函数/> 其中d₁＝max{-d，0}，d₂＝max{d，0}，d是两个输入信号子带之间的时间差且p是均值能量的短时估计，即，p＝x₁(k-d₁)x₂(k-d₂)。

中及侧梅尔频率倒谱系数(MFCC)可包含由HRTF(头部相关传递函数)引起的频谱图修改。用以提取这些特征的程序包含：

1.根据下式从左及右声道信号获得中及侧信号A_M及A_S：

A_M＝0.5*(X_left+X_right)

A_s＝0.5*(X_left-X_right)

2.接着根据经典教科书(例如拉宾纳(Rabiner)及谢弗(Schafer)的《数字语音处理理论及应用》(Theory and Applications of Digital Speech Processing))中找到的方法来计算梅尔频率倒谱系数(MFCC)。

HRTF滤波引起一些频率范围(5～13kHz)内的频谱图中的峰值及陷波。此类频谱图峰值及陷波特征可能有助于通过HRTF找到频谱修改。可使用以下程序针对每一声道计算频谱峰值/陷波特征：

1.找到对数域中的信号量值的局部最大值及最小值且识别特定频率范围(例如5～13kHz)内的最大值Num_max及最小值Num_min的数目

局部最大值需要满足以下条件：

a)X_max-X_-≥MAX_thresh

b)X_max-X₊≥MAX_thresh

其中X_-及X₊是局部最大值或最小值的左及右值，且MAX_thres是选定阈值。

局部最小值满足以下条件：

a)X_min-X_-≤MIN_thresh

b)X_min-X₊≤MIN_thresh

其中MIN_thres是选定阈值。

2.通过预定义值NUM_{norm_factor}将Num_max及Num_min归一化以使其在[0，1]的范围内

Num_{max_norm}＝Num_max/NUM_{norm_factor}

Num_{min_norm}＝Num_min/NUM_{norm_factor}

这些特征被公开为针对两个子带来计算，然而可选择任何两个子带及/或子子带且任选地针对若干对子带及/或子子带计算所述特征，可能将它们组合为单个均值或平均量度。在一个实施例中，针对所有子带计算这些特征，其中如果不能针对至少一个子带准确地计算特征，那么忽略任何此子带。

在另一实施例中，仅特定子带范围用于特定特征，其中其它范围及在这些范围内的不可计算子带被忽略。例如，对于77个混合复正交镜像滤波器HCQMF带，仅子带1-9及10-18的范围可用于计算ICC及ICPD，而子带19-77被忽略。

可将指示经双耳化音频的音频输入信号110的经提取特征累加到加权直方图中。加权直方图将权重施加到计数。在这个实施例中，计算置信度值的步骤进一步包括：将音频输入信号的当前及预定数目个先前音频帧的特征累加到加权直方图中，所述加权直方图根据用以计算所述特征的每一子带中的总能量来对那个子带进行加权，及例如通过将它们用作如下文所解释的机器学习方法中的输入，基于加权直方图的均值或标准差来计算置信度值。

加权直方图包括来自预定数目个帧的特征，例如24、48、96或任何其它合适数目。所述帧任选地按从当前帧开始且向后计数的顺序。加权直方图提供来自若干不同帧的音频输入信号的经提取特征的良好概览。

在一个实施例中，将两个不同权重相乘且施加到所述直方图。一个权重根据所述子带内的每一频带能量比来对所述计数进行加权，且另一权重根据每一子带能量相对于所有子带的总子带能量的比来对所述计数进行加权。

加权直方图可根据下式来计算：其中i＝1，...，n_BarsPerHist，n_BarsPerHist是直方图中的条的数目，/>其中频带能量加权是/>参数带能量加权是/> 其中p(k)是子带k的能量，{k_b}是参数带，r′(k)是部分忽略的特征r(k)。

双耳化检测器130可进一步实施机器学习分类器，所述机器学习分类器将输入变换为从训练数据估计的至少一个参数的函数且输出置信度值135。输入可直接为音频输入信号或其经提取特征，例如上文所举例的那些特征。

在一个实施例中，计算置信度值135的步骤包括：将音频输入信号110的当前音频帧的经提取特征，及当前音频帧之前的音频输入信号110的多个音频帧的特征(如果被接收到或被计算)输入到机器学习分类器中，其中机器学习分类器经训练以基于所述输入来输出置信度值135。

机器学习分类器可经训练以学习如何将所述输入处理成置信度值135且任选地以置信度值135作为一类进行监督。

机器学习分类器可预先训练或使用从输入到双耳化检测器130的相同数据分叉的训练集进行训练。

所述分类器是有益的，因为其使置信度值135的计算更精确。所述分类器可使用例如AdaBoost、k最近邻、k均值聚类、支持向量机、回归、决策树/森林/丛林、神经网络及/或朴素贝叶斯算法来实施。

所述分类器可例如为AdaBoost模型。[-∞，∞]之间的实数值可从AdaBoost模型获得，因为此S型函数可用以将经获得结果映射到为[0，1]的置信度值的范围。此S型函数的实例是：其中x是AdaBoost的输出得分且A及B是通过使用众所周知的技术从训练数据集估计的两个参数。

双耳化检测器130可在计算置信度值135时将权重进一步施加到音频输入信号，其中当前音频帧的权重大于先前音频帧的权重。

这可被实施，因为计算置信度值135的步骤进一步包括：接收当前音频帧之前的音频输入信号110的多个音频帧的特征，所述特征对应于当前音频帧的经提取特征；将权重施加到音频输入信号110的当前及多个先前音频帧的特征，其中施加到当前音频帧的特征的权重大于施加到多个先前音频帧的特征的权重；及基于经加权特征来计算置信度值。

多个音频帧的经接收特征可从例如元数据提取或以与当前音频帧的特征类似的方式进行计算。

当前音频帧的权重大于先前音频帧的权重给予较新帧，尤其是当前帧优先权，这使双耳化检测器130对变化更敏感。

在计算置信度值135时，权重可被实施为常数或函数。权重可被实施为包括音频输入信号110的当前音频帧及最近音频帧的非对称窗。

常规双耳化检测方法基于含有若干连续帧的窗的统计信息来计算特征。然而，其平等地对待每一帧，这导致延时不小于窗长度的一半，这对于游戏内容来说太大。这是因为如果所述窗的所有帧被相等地加权，那么所述窗的帧的至少一半在双耳化检测器130对其作出反应时指示双耳化。通过如本文中所描述那样对置信度值进行加权，减小了音频的双耳化的操控的延时。

所述权重可被实施，因为计算置信度值135的步骤进一步包括：根据非对称窗函数来将权重施加到音频输入信号110的当前及多个先前音频帧的特征。

非对称窗可为汉明窗、汉恩窗或三角窗的前半部。

所述权重可取决于特定实施例的准确度要求而施加到预定数目个帧，例如24、48、64、96或任何其它合适数目。所述帧任选地按从当前帧开始且向后计数的顺序。

双耳化检测器130因此可尤其适于游戏内容，因为其具有相对低的延时且相对高度地适应变化。

游戏中可能发生的一些双耳音频事件具有非常短的持续时间(例如枪声)。这致使具有相对长的窗长度(音频片段)的基于特征的分类器出现问题。尽管可使用更短特征窗(更短片段)来处置这种情况，但一般来说性能(例如延时)将恶化，因为所述分类器将基于更短片段来做出其决策。

为了解决这种问题，本发明的一些实施例应用动态帧特征加权方案。根据这种方法，帧特征权重是基于所述帧相对于这个帧所属的片段的帧能量比。因此，对于高能量帧来说，权重将更大。

此动态加权可通过首先确定音频片段是否包含任何类脉冲帧(即，具有明显比其它帧更高的能量的帧)来实施。在双声道实施方案中，这个确定可通过以下步骤来实现：

1.计算一个片段(N个帧)中的每一帧i的左及右声道的平均帧能量

E_i＝0.5*(E_left,i+E_right,i)，i＝1，...N，

其中E_left及E_right分别是左及右声道中的帧i的能量。

2.将帧能量比R_i计算为

3.当且仅当满足以下条件时，得出帧i是类脉冲的结论：

1)R_i＞R_threshold

2)E_i＞E_threshold

其中R_threshold及E_threshold是定义术语“类脉冲”的第一及第二阈值。

如果发现帧是类脉冲的，那么这可通过设置旗标P＝1来指示。针对没有任何此类帧的片段，加权可如别处所描述那样。然而，针对包含具有旗标P＝1的帧的片段，动态权重可根据以下步骤来确定：

1)计算对数域中的平均帧能量的最大值及最小值：MinE(dB)及MaxE(dB)。

2)计算每一帧i的帧特征权重

其中a是指数，例如等于3。

3)在计算特征向量的均值及标准差时将动态权重施加到帧特征向量fea_i；

计算置信度值可任选地包括将经计算置信度值输入到平滑器140中。平滑使置信度值稳定使得突然变化经平滑为不太突然的变化。平滑是有益的，因为突然变化对操控的影响更小，否则突然的变化可能引起使用户感到不适的快速波动。

这可被实施，其中计算置信度值的步骤包括：接收紧接在当前音频帧之前的音频帧的置信度值；使用单极滤波器来调整当前音频帧的置信度值，其中当前音频帧的置信度值及紧接在当前音频帧之前的音频帧的置信度值是到单极滤波器的输入且经调整置信度值145是来自单极滤波器的输出。

单极滤波器是有益的，因为其是一种用以增加速度并限制平滑的响应时间的有效方法。单极滤波器的一个技术效果是仅使用一个先前帧的置信度值，这减少被检查的帧的数目，由此减小延时。

单极滤波器的实例是：y(n)＝ay(n-1)+(1-a)x(n)，其中y(n)是当前帧的经平滑置信度值145，y(n-1)是先前帧的经平滑置信度值145，x(n)是当前帧的[未经平滑]置信度值135，且a是常数。a可取决于音频信号的采样速率F_s及/或平滑时段τ，例如其中τ是RC时间常数/>其中f_c是截止频率。

RC时间常数是对应于执行计算置信度值的步骤的处理电路的电阻器-电容器电路，即，在这个实施例中是平滑器140的充电或放电速率。

单极滤波器可具有低于平滑阈值的平滑时间，其中平滑阈值是基于RC时间常数来确定。平滑阈值确保平滑时段不会太长且平滑440的响应时间相对低。

置信度值[经平滑145或未经平滑135]经输入到状态决定器150中。状态决定器150实施确定用于操控音频的双耳化的方法的状态信号155的步骤。状态信号155指示当前音频帧是处于未经双耳化状态还是处于经双耳化状态。

状态决定器150确定音频的状态，经双耳化或未经双耳化的状态，最近是否已发生变化。最近可包括在预定数目个先前帧内，例如先前1、2、3、5、10或任何合适数目个先前帧。

状态决定器150任选地是图2中例示且下文进一步描述的四态状态机，其中所述四态状态机的两个状态对应于状态信号155指示当前音频帧处于未经双耳化状态，且四态状态机的剩余两个状态对应于状态信号155指示当前音频帧处于经双耳化状态。

四态状态机包括未经双耳化保持状态UBH 210、经双耳化保持状态BH 230、经双耳化释放计数状态BRC 240及经双耳化攻击计数状态BAC 220；其中UBH 210及BAC 220对应于状态信号155指示当前音频帧处于未经双耳化状态，且BH 230及BRC 240对应于所述状态信号指示当前音频帧处于经双耳化状态。

BAC 220使用松弛计数规则实施短期累加器以确定状态信号何时从BAC 220转变d到BH 230，即，从指示当前音频帧处于未经双耳化状态到指示当前音频帧处于经双耳化状态。所述累加器将例如继续对高于置信度阈值的任何置信度值进行计数c，直到达到预定数目。所述累加器是短期的，因为其是在相对短的预设时段(例如五秒)内实施，即，短期累加器任选地使用松弛计数规则使得其相对地容易退出BAC 220状态。

BRC 240使用严格的计数规则来实施长期监测器以确定状态信号何时从BRC 240转变i到UBH 210，即，从指示当前音频帧处于经双耳化状态到指示当前音频帧处于未经双耳化状态。所述监测器将例如检查h，预定数目个先前置信度值是否低于置信度阈值。所述监测器是长期的，因为其是在相对长的预设时段(例如二十秒)内实施，即，长期监测器任选地使用严格的计数规则使得其相对难以退出BRC 240状态。

短期累加器与长期监测器之间的这种差异减少现有技术中常见的短期经双耳化声音检测的遗漏错误。

四态状态机是有益的，因为其使状态确定步骤的输出155进一步稳定。这避免经双耳化状态与未经双耳化状态之间的频繁切换，所述频繁切换否则可能干扰用户。

下文将关于图2进一步论述四态状态机。

输入音频110可进一步输入到能量分析器120中。能量分析器120分析音频输入信号的音频能量且为切换决定器160提供信息。在另一实施例中，例如经由音频输入信号110的元数据接收音频输入信号110的音频能量。

信号的能量对应于信号的总量值。对于音频信号，所述能量大致对应于信号的响度。例如，音频帧的能量可被计算为由帧长度归一化的振幅的平方绝对值的和。

在一个实施例中，由能量分析器120计算当前帧t的能量值x(t)。可通过下式计算预定数目个帧N内的能量值x(t)的均方根：帧的预定数目N可为任何合适数目，例如N＝1、2、8、16、48、512、1024、2048。在另一实施例中，当前帧的能量值是结合音频输入信号，例如作为元数据来接收。

在一个实施例中，由能量分析器120计算帧t的短期能量p(t)。可通过下式计算经平滑能量信号其中α_enengy是平滑系数。α_enengy可例如为0.8、0.9、0.95、0.99或任何其它真分数。

接着，将能量值的均方根及/或经平滑能量信号或任何其它合适能量信息作为能量定向信号125输出到切换决定器160。

切换决定器160实施确定用于操控音频的双耳化的方法的操控信号165的步骤。切换决定器160具有以下输入：作为双耳化检测器130的结果的置信度值135、145，作为状态决定器150的结果的状态信号155，以及作为能量分析器120的结果或通过其它方式，例如从元数据接收的能量定向信号125。

确定操控信号165的步骤包括在状态信号155从指示未经双耳化状态改变为指示经双耳化状态时：通过对音频输入信号110应用头部相关传递函数HRTF来改变操控信号165以激活音频的双耳化，从而导致经双耳化音频信号，及产生至少部分地包括经双耳化音频信号的音频输出信号175。

确定操控信号165的步骤进一步包括在状态信号155从指示经双耳化状态改变为指示未经双耳化状态时，将双耳化的取消激活模式设置为真；及在双耳化的取消激活模式为真，且当前音频帧的置信度值135、145低于取消激活阈值，且当前音频帧的能量值低于当前音频帧之前的音频输入信号110的阈值数目个音频帧的能量值时：将双耳化的取消激活模式设置为假，改变操控信号165以取消激活或减少音频的双耳化，及产生至少部分地包括音频输入信号110的音频输出信号175。

取消激活模式是有益的，因为改变操控信号165以取消激活或减少音频的双耳化不会立即发生，除非当前音频帧的置信度值135、145低于取消激活阈值，且当前音频帧的能量值低于当前音频帧之前的音频输入信号110的阈值数目个音频帧的能量值。

这避免了经双耳化状态与未经双耳化状态之间的频繁切换，因为取消激活阈值的要求使切换延迟，并且例如如果置信度值从未达到阈值，那么将忽略置信度值的突然及暂时性下降。取消激活阈值可为预设的或用户定义的。

因为当前音频的能量值与先前音频帧的能量值的比较，这还避免了在高能量时段期间的显著变化，这防止不一致的收听体验。

将关于图3C公开确定操控信号165的步骤的进一步细节。

在由图1的系统100实施的用于操控音频的双耳化的方法的最后一个步骤中，通过音频处理170执行产生具有经操控双耳化的音频输出175的步骤。产生音频输出的步骤由操控信号来操控且可由切换决定器160或单独音频处理器170来执行。所述音频处理包括在需要时(根据上文)对音频输入信号110应用HRTF，从而导致经双耳化音频信号。

图2展示根据实施例的四态状态机，其实施确定用于操控音频的双耳化的方法的状态信号的步骤。

状态信号是具有0到1的范围的二元函数。状态信号的值为0指示音频输入信号包括未经双耳化状态，而状态信号的值为1指示音频输入信号包括经双耳化状态。状态信号旨在通过将置信度值四舍五入为1或0的展宽来从置信度值防止在双耳化状态与未经双耳化状态之间频繁切换。

在置信度值高于置信度阈值时所述状态机的状态从UBH 210转变到BAC 220，在达到状态BAC 220的同时阈值数目个帧具有高于置信度阈值的置信度值时所述状态从BAC220转变到BH 230，在所述置信度值低于置信度阈值时所述状态从BH 230转变到BRC 240且在预定数目个连续帧具有低于置信度阈值的置信度值时所述状态从BRC 240转变到UBH210。

在下文中，将描述图2的状态机的使用案例。这仅意图作为用以进一步说明不同状态的功能的非限制性实例。在这个实例中，所述状态机的初始状态是UBH 210，然而例如BH230也可被选择为初始状态。

鉴于最后一个状态是UBH 210(这也是UBH 210状态是初始状态时的情况)，如果置信度值小于置信度阈值T_high，那么所述状态将被保持[图2中的箭头a]且所述状态信号将被设置为或保持为0。在实施例中，T_high是0.6，但任何其它真分数也是可能的。

如果置信度值高于或等于置信度阈值T_high，那么所述状态将改变为BAC 220状态[图2中的箭头b]，而所述状态信号将被保持为0。

当最后一个状态是BAC 220状态时，短期累加器处于活动状态。累加器保存高于置信度阈值T_medianLow的置信度值的计数。如果计数小于预定计数阈值N_acc，那么累加器将保持计数，而所述状态将被保持为BAC 220状态[图2中的箭头c]且所述状态信号被保持在0。在实施例中，T_medianLow是0.45，但任何其它真分数也是可能的。在实施例中，N_acc是对应于5秒的帧的数目，但帧的任何其它数目也是可能的。

一旦累加器的计数等于或大于预定计数阈值N_acc，所述状态就将改变为BH 230状态[图2中的箭头d]。而所述状态信号将被设置为1且累加器将被复位。

如果最后一个状态是BH 230状态，如果置信度值等于或高于置信度阈值T_low，那么所述状态将被保持[图2中的箭头e]且所述状态信号将被保持在1。在实施例中，T_low是0.25，但任何其它真分数也是可能的。

如果置信度值低于置信度阈值T_low，那么所述状态将改变为BRC 240状态[图2中的箭头f]而所述状态信号将被保持为1。

虽然最后一个状态是BRC 240状态，但长期监测器处于活动状态。所述监测器检查最近连续置信度值是否全部小于置信度阈值T_medianHigh。如果出现高于或等于T_medianHigh的任何置信度值，那么所述状态将变回到BH 230状态[图2中的箭头g]而所述状态信号被保持为1。在实施例中，检查20秒的最近连续置信度值，但任何其它秒数也是可能的。在实施例中，T_medianHigh是0.55，但任何其它真分数也是可能的。

虽然置信度值小于置信度阈值T_medianHigh，但所述状态被保持为BRC 240状态[图2中的箭头h]且所述监测器保持等待直到检查连续置信度值的全跨度。

一旦所述监测器观察到连续置信度值全部小于置信度阈值T_medianHigh，所述状态就将改变为UBH 210状态[图2中的箭头i]。同时，所述状态将被设置为0且所述监测器将被复位。

图3A展示随时间推移的实例置信度值330。所展示的置信度值330是经平滑置信度值，然而它们也可未经平滑。

图3B展示由图3A的实例置信度值330产生的实例状态信号350。应注意，仅在几秒的高置信度值330之后，所述状态信号350从0改变为1，这对应于BAC 220累加器达到预定计数阈值N_acc且将状态改变为BH 230。

此外，一旦置信度值330降低，状态信号350就不会从1改变为0，因为未达到对应于BRC 240状态的长期监测器的连续要求且因此所述状态机直到后来才移动到UBH 210状态。

因而，实现状态信号350防止在经双耳化状态与未经双耳化状态之间频繁切换的目的。

图3C展示由图3A的实例置信度值330及图3B的实例状态信号350产生的实例操控信号360。

操控信号360操控音频的处理。如果操控信号360为0，那么不会发生处理。因此，音频输入信号原样作为音频输出信号而输出。如果操控信号360为1，那么双耳化处理通过对音频输入信号应用头部相关传递函数HRTF而发生，从而导致作为音频输出信号的经双耳化音频信号。如果操控信号360是在0与1之间，那么发生混合，且经混合音频信号作为音频输出信号而输出。0与1之间的操控信号360可例如由0与1状态之间的中间斜坡引起，如下文将进一步论述。

为了避免双重双耳化，因为其可能对音频产生不利影响且导致负面用户体验，本发明的目的是仅对尚未包括经双耳化声音的音频输入信号的音频帧进行处理。

因而，许多现有技术的操控信号对应于置信度值或状态信号的倒数。然而，发明人已意识到，操控信号360从1到0的切换点，且任选地反之亦然，应经恰当地设计以避免不稳定性问题。

在密集且响亮的经双耳化声音时段期间不应选择操控信号360的切换点，因为在那个时段中立即开启/关闭HRTF将导致不一致的倾听体验。

确定如同图3C中的实例操控信号360的操控信号360的步骤因此除了包括观察状态信号350的变化之外，还包括将当前音频帧的置信度值330与取消激活阈值进行比较，及将当前音频帧的能量值与先前音频帧的能量值进行比较。

因此，图3C中的实例操控信号360避免在高置信度值330的块的中间从1切换到0，尽管状态信号350发生变化。

这是因为将音频输入信号的当前音频帧的能量值与一组预定先前帧的能量值进行比较，使得如果对于一组预定先前帧来说音频的能量值相对不变，那么操控信号360被保持在其当前值。所述预定组可例如为最近24、48或96个音频帧。

在一个特定实例中，如果当前音频帧的能量值等于或高于最近48个音频帧的90％的能量值，那么操控信号360被保持在其当前值。其它比，例如80％、70％等是可能的，且音频帧的其它计数，例如10、35、42等也是可能的。

一旦完成高置信度值330的块，图3C中的实例性操控信号就从1切换到0。所述切换是通过应用斜坡函数来实施。在斜坡期间，操控信号360具有在0与1之间的值且因此导致将经双耳化音频信号与音频输入信号混合成经混合音频信号并将经混合音频信号设置为音频输出信号。这进一步避免将导致不一致的倾听体验的双耳化的突然变化。

斜坡可被实施，因为在改变操控信号360以激活音频的双耳化时，产生音频输出信号的步骤包括：在第一阈值时间段内，将经双耳化音频信号与音频输入信号混合成经混合音频信号且将经混合音频信号设置为音频输出信号，其中在第一阈值时段期间逐渐增加经混合音频信号中的经双耳化音频信号的一部分，且其中在第一阈值时段结束时，音频输出信号仅包括经双耳化音频信号。

替代地，在改变操控信号360以激活音频的双耳化时，产生音频输出信号的步骤包括将音频输出信号设置为经双耳化音频信号，例如无斜坡。

斜坡可进一步被实施，其中在改变操控信号360以取消激活或减少音频的双耳化时，产生音频输出信号的步骤包括：在第二阈值时间段内，将经双耳化音频信号与音频输入混合成经混合音频信号且将经混合音频信号设置为音频输出信号，其中在第二阈值时段期间逐渐减小经混合音频信号中的经双耳化音频信号的一部分，且其中在第二阈值时段结束时，音频输出信号仅包括音频输入信号。

替代地，在改变操控信号360以取消激活或减少音频的双耳化时，产生音频输出信号的步骤包括将音频输出信号设置为音频输入信号。

图3C中的实例操控信号360根据以下三个规则来实施：

如果状态信号350从1切换到0，那么操控信号360将根据下式开始从0增加到1：w(t)＝I[τ≤t<τ+1/β_a]β_a(t-τ)，其中w(t)是在帧t处的操控信号360，I[·]是特性函数，其当且仅当满足条件[·]时才等于1，τ是状态信号350从1切换到0的时间且β_a是当操控信号360从0改变为1时线的斜率的绝对值。在实施例中，这导致2秒的斜升时间。

如果状态信号350从0切换到1，那么仅在满足以下两个条件时，操控信号360才开始从1减小到0：当前帧c(t)的置信度值330小于取消激活阈值T_switch；及经平滑能量信号小于预定数目M个较早帧的能量值的阈值部分R，其中/> 其中α_enengy是平滑系数。如果满足这些条件，那么根据一些实施例，操控信号360将根据下式开始从1减小到0：w(t)＝I[τ≤t＜τ+1/β_r](1-β_r(t-τ))，其中τ是状态信号350从0切换到1的时间且β_r是当操控信号360从1改变为0时线的斜率的绝对值。在实施例中，T_switch是0.5，α_enengy是0.99，R是10％，M是对应于一秒的帧的数目且/>这导致3秒的斜降时间。

如果状态信号350未发生变化，那么操控信号360将保持其最后一个值。

为了实现双耳化处于活动状态与不处于活动状态之间的平滑转变，如果w(t)∈(0，1)，那么将采用混合程序。即，音频输出信号将是经混合音频信号。鉴于音频输入信号x(t)、经产生经双耳化音频信号B(t)及操控信号360w(t)，输出音频信号y(t)可被表示为y(t)＝w(t)B(t)+(1-w(t))x(t)。

因而，经双耳化音频信号与音频输入信号作为具有求和为1的权重的线性组合而混合，其中所述权重取决于操控信号360的值。如果操控信号360更接近于1而不是0，那么经双耳化音频信号的权重高于音频输入信号的权重，且反之亦然。

图4展示说明用于操控音频的双耳化的方法400的流程图。方法400包括数个步骤，所述数个步骤中的一些是任选的，且一些可以任何次序执行。图4中所展示的方法400是实例实施例且并不意在为限制性的。

方法400的第一步骤是接收410音频输入信号的步骤。音频输入信号可为任何格式且可经压缩及/或经加密或未经压缩及/或未经加密。优选地，接收410音频输入信号的步骤包括在执行方法400的任何其它步骤之前解密任何经加密音频及/或解压缩任何经压缩音频。音频输入信号可包括若干音频声道，所述若干音频声道中的一些可仅包括经双耳化声音，所述若干音频声道中的一些可仅包括未经双耳化声音且所述若干音频声道中的一些可包括未双耳化声音与未经双耳化声音的混合。音频输入信号不需要同时包括经双耳化及未经双耳化声音两者，但在任何其它情况下操控结果将非常简单。

方法400的另一步骤是分析420音频输入信号的能量值的步骤。这个步骤420可包括通过例如计算当前帧t的能量值x(t)的均方根及/或经平滑能量信号或任何其它合适能量信息来计算所述能量值。这个信息接着作为分析420音频输入信号的能量值的步骤的结果而输出。

分析420音频输入信号的能量值的步骤是任选的，且如果被包含，那么这个步骤420是在确定460操控信号的步骤之前执行。作为这个步骤420的替代物，能量信息可从另一源，例如从元数据提取。

方法400的另一步骤是计算430指示音频输入信号的当前音频帧包括经双耳化音频的可能性的置信度值的步骤。

这个步骤430可独立于方法400的其它步骤而执行。

这个步骤430可进一步包括以下步骤：提取音频输入信号的当前音频帧的特征，音频输入信号的特征包括声道间电平差ICLD、声道间相位差ICPD及声道间相干性ICC中的至少一者，且根据经提取特征计算来置信度值；接收当前音频帧之前的音频输入信号的多个音频帧的特征，所述特征对应于当前音频帧的经提取特征；将权重施加到音频输入信号的当前及多个先前音频帧的特征，其中施加到当前音频帧的特征的权重大于施加到多个先前音频帧的特征的权重；及基于经加权特征来计算置信度值。

这个步骤430可进一步包括根据非对称窗函数来将权重施加到音频输入信号的当前及多个先前音频帧的特征，其中非对称窗可为汉明窗的前半部。

这个步骤430可进一步包括将音频输入信号的当前及预定数目个先前音频帧的特征累加到加权直方图中，所述加权直方图根据用以计算所述特征的每一子带中的总能量来对那个子带进行加权，且根据经加权直方图的均值或标准差来计算置信度值。

这个步骤430可进一步包括将音频输入信号的当前及多个先前音频帧的经加权特征输入到机器学习分类器中，其中机器学习分类器经训练以基于所述输入来输出置信度值。

方法400的另一步骤是将置信度值平滑440成经平滑置信度值的步骤。这个步骤440是任选的且如果被包含，那么这个步骤440是作为计算430置信度值的步骤的一部分而执行，然而步骤430、440可由不同电路/单元来实施。因此，除计算430置信度值的步骤之外，这个步骤440可独立于方法400的步骤而执行。

这个步骤440可包括接收紧接在当前音频帧之前的音频帧的置信度值；及使用单极滤波器来调整当前音频帧的置信度值，其中当前音频帧的置信度值及紧接在当前音频帧之前的音频帧的置信度值是到单极滤波器的输入且经调整置信度值是来自单极滤波器的输出。

这个步骤440可进一步包括单极滤波器具有低于平滑阈值的平滑时间，其中平滑阈值是基于RC时间常数来确定。

方法400的另一步骤是基于置信度值来确定450状态信号的步骤。

状态信号是具有0到1的范围的二元函数。状态信号的值为0指示音频输入信号包括未经双耳化状态，而状态信号的值为1指示音频输入信号包括经双耳化状态。

方法400的另一步骤是基于以下项来确定460操控信号的步骤：在分析420音频输入信号的能量值的步骤中分析或通过其它方式接收到的音频帧的能量值；在计算430置信度值的步骤及/或使置信度值平滑440的步骤中计算的置信度值，这取决于是否已发生使置信度值平滑440的步骤；及在确定450状态信号的步骤中确定的状态信号。

操控信号操控产生470音频输出信号的步骤。如果操控信号为0，那么撤销激活或减少音频的双耳化。如果操控信号为1，那么激活音频的双耳化。如果操控信号是在0与1之间，那么发生混合。

产生470音频输出信号的步骤可或可不结合确定460操控信号的步骤而执行且可由或可不由同一电路来执行。

图5展示根据实施例的用于实施参考图1-4所描述的特征及过程的移动装置架构。架构500可在任何电子装置中实施，包含但不限于：桌上型计算机、消费者音频/视觉装置、AV、设备、无线电广播设备或移动装置[例如，智能电话、平板计算机、膝上型计算机或可穿戴装置]。在所展示的实例实施例中，架构500用于智能电话且包含[若干]处理器501、外围接口502、音频子系统503、扬声器504、麦克风505、传感器506[例如，加速度计、陀螺仪、气压计、磁力计、相机]、位置处理器507[例如，GNSS接收器]、无线通信子系统508[例如，Wi-Fi、蓝牙、蜂窝]及[若干]I/O子系统509，所述I/O子系统包含触摸控制器510及其它输入控制器511、触摸表面512及其它输入/控制装置513。具有更多或更少组件的其它架构也可用以实施所公开实施例。

存储器接口514耦合到处理器501、外围接口502及存储器515[例如，快闪存储器、RAM、ROM]。存储器515存储计算机程序指令及数据，包含但不限于：操作系统指令516、通信指令517、GUI指令518、传感器处理指令519、电话指令520、电子消息传递指令521、网页浏览指令522、音频处理指令523、GNSS/导航指令524及应用程序/数据525。音频处理指令523包含用于执行参考图1-4所描述的音频处理的指令。

本文中所描述的系统的方面可在适当的基于计算机的声音处理网络环境中实施以用于处理数字或数字化音频文件。自适应音频系统的部分可包含一或多个网络，所述一或多个网络包括任何期望数目个个别机器，包含用于缓冲及路由在所述计算机当中传输的数据的一或多个路由器[未展示]。此网络可经建置在各种不同网络协议上，且可为因特网、广域网、WAN、局域网、LAN或其任意组合。

组件、块、过程或其它功能组件中的一或多者可通过控制系统的基于处理器的计算装置的执行的计算机程序来实施。还应注意，本文中所公开的各种功能可使用任何数目个硬件、固件的组合及/或作为在各种机器可读或计算机可读媒体中体现的数据及/或指令就其行为、寄存器传递、逻辑组件及/或其它特性进行描述。可在其中体现此类格式化数据及/或指令的计算机可读媒体包含但不限于各种形式的物理[非暂时性]非易失性存储媒体，例如光学、磁性或半导体存储媒体。

在研究以上描述之后，本公开的进一步实施例对于所属领域的技术人员来说将变得显而易见。即使本描述及附图公开实施例及实例，但本公开不限于这些特定实例。在不脱离由所附权利要求书界定的本公开的范围的情况下，可进行众多修改及变动。权利要求书中出现的任何参考符号不应被理解为限制它们的范围。

另外，根据对附图、本公开及所附权利要求书的研究，所属领域的技术人员在实践本公开时可理解及实现对所公开实施例的变动。在相互不同的从属权利要求中引用某些措施的纯粹事实并不指示无法有利地使用这些措施的组合。

上文中所公开的系统及方法可被实施为软件、固件、硬件或其组合。例如，本申请案的方面可至少部分地体现在设备、包含多于一个装置的系统、方法、计算机程序产品等中。在硬件实施方案中，以上描述中所提到的功能单元之间的任务划分不一定对应于物理单元的划分；相反，一个物理组件可具有多个功能，且一个任务可由若干物理组件协同实行。某些组件或所有组件可被实施为由数字信号处理器或微处理器执行的软件，或被实施为硬件或专用集成电路。此软件可经分布在计算机可读媒体上，所述计算机可读媒体可包括计算机存储媒体[或非暂时性媒体]及通信媒体[或暂时性媒体]。如所属领域的技术人员所熟知，术语计算机存储媒体包含在用于存储信息(例如计算机可读指令、数据结构、程序模块或其它数据)的任何方法或技术中实施的易失性及非易失性、可卸除及不可卸除媒体两者。计算机存储媒体包含但不限于RAM、ROM、EEPROM、快闪存储器或其它存储器技术、CD-ROM、数字多功能光盘、DVD或其它光盘存储装置、磁带盒、磁带、磁盘存储装置或其它磁性存储装置，或可用以存储所期望信息且可由计算机存取的任何其它媒体。此外，如所属领域的技术人员所熟知，通信媒体通常在例如载波或其它输送机构的调制数据信号中体现计算机可读指令、数据结构、程序模块或其它数据，且包含任何信息递送媒体。

Claims

1.一种用于操控音频的双耳化的方法，所述方法包括以下步骤：

接收(410)音频输入信号，所述音频输入信号包括多个音频帧；

计算(430)指示所述音频输入信号的当前音频帧包括经双耳化音频的可能性的置信度值；

基于所述置信度值来确定(450)状态信号，所述状态信号指示所述当前音频帧是处于未经双耳化状态还是处于经双耳化状态；

确定(460)操控信号，其中在所述状态信号从指示所述未经双耳化状态改变为指示所述经双耳化状态时：

通过对所述音频输入信号应用头部相关传递函数HRTF来改变所述操控信号以激活音频的双耳化，从而导致经双耳化音频信号，及

产生(470)至少部分地包括所述经双耳化音频信号的音频输出信号；

其中在所述状态信号从指示所述经双耳化状态改变为指示所述未经双耳化状态时，将双耳化的取消激活模式设置为真；及

在所述双耳化的所述取消激活模式为真，且所述当前音频帧的所述置信度值低于取消激活阈值，且所述当前音频帧的能量值低于所述当前音频帧之前的所述音频输入信号的阈值数目个音频帧的能量值时：

将所述双耳化的所述取消激活模式设置为假，

改变所述操控信号以取消激活或减少音频的双耳化，及

产生(470)至少部分地包括所述音频输入信号的所述音频输出信号。

2.根据权利要求1所述的方法，其中在改变所述操控信号以激活音频的双耳化时，产生所述音频输出信号的所述步骤包括：

在第一阈值时间段内，将所述经双耳化音频信号与所述音频输入信号混合成经混合音频信号且将所述经混合音频信号设置为音频输出信号，其中在所述第一阈值时段期间逐渐增加所述经混合音频信号中的所述经双耳化音频信号的一部分，且其中在所述第一阈值时段结束时，所述音频输出信号仅包括所述经双耳化音频信号。

3.根据权利要求1到2中任一权利要求所述的方法，其中在改变所述操控信号以取消激活或减少音频的双耳化时，产生所述音频输出信号的所述步骤包括：

在第二阈值时间段内，将所述经双耳化音频信号与所述音频输入信号混合成经混合音频信号且将所述经混合音频信号设置为音频输出信号，其中在所述第二阈值时段期间逐渐减小所述经混合音频信号中的所述经双耳化音频信号的一部分，且其中在所述第二阈值时段结束时，所述音频输出信号仅包括所述音频输入信号。

4.根据权利要求1所述的方法，其中在改变所述操控信号以激活音频的双耳化时，产生所述音频输出信号的所述步骤包括将所述音频输出信号设置为所述经双耳化音频信号。

5.根据权利要求1或4所述的方法，其中在改变所述操控信号以取消激活或减少音频的双耳化时，产生所述音频输出信号的所述步骤包括将所述音频输出信号设置为所述音频输入信号。

6.根据权利要求1到2中任一权利要求所述的方法，其中计算置信度值的所述步骤包括提取所述音频输入信号的所述当前音频帧的特征且基于所述经提取特征来计算所述置信度值，所述特征包括以下中的至少一者：

声道间电平差ICLD、声道间相位差ICPD、声道间相干性ICC、中/侧梅尔频率倒谱系数MFCC及频谱图峰值/陷波特征。

7.根据权利要求6所述的方法，其中计算置信度值的所述步骤进一步包括：

接收所述当前音频帧之前的所述音频输入信号的多个音频帧的特征，所述特征对应于所述当前音频帧的所述经提取特征；

将权重施加到所述音频输入信号的所述当前及所述多个先前音频帧的所述特征，其中施加到所述当前音频帧的所述特征的所述权重大于施加到所述多个先前音频帧的所述特征的所述权重；及

基于所述经加权特征来计算所述置信度值。

8.根据权利要求7所述的方法，其中计算置信度值的所述步骤进一步包括：

根据非对称窗函数来将权重施加到所述音频输入信号的所述当前及所述多个先前音频帧的所述特征。

9.根据权利要求8所述的方法，其中非对称窗是汉明窗的前半部。

10.根据权利要求7所述的方法，其进一步包括：

确定所述当前音频帧及所述多个先前音频帧是否包含类脉冲信号，及

如果是这种情况，那么将动态权重施加到所述当前音频帧及所述多个先前音频帧的所述特征，

其中所述动态权重是基于帧能量的比。

11.根据权利要求10所述的方法，其中所述确定步骤涉及：

根据下式来计算每一帧的帧能量比R_i：

其中E_i是帧i中的所有声道的能量的平均值，及

如果R_i大于第一阈值且E_i大于第二阈值，那么确定帧i是类脉冲的。

12.根据权利要求7所述的方法，其中计算置信度值的所述步骤进一步包括：

将所述音频输入信号的所述当前及预定数目个先前音频帧的所述特征累加到加权直方图中，所述加权直方图根据用以计算所述特征的每一子带中的总能量来对那个子带进行加权，及

基于所述加权直方图的均值或标准差来计算所述置信度值。

13.根据权利要求6所述的方法，其中计算置信度值的所述步骤包括：

将所述音频输入信号的所述当前音频帧的经提取特征，及如果被接收到那么将所述当前音频帧之前的所述音频输入信号的多个音频帧的特征输入到机器学习分类器中，

其中所述机器学习分类器经训练以基于所述输入来输出置信度值。

14.根据权利要求1到2中任一权利要求所述的方法，其中计算置信度值的所述步骤包括：

接收紧接在所述当前音频帧之前的音频帧的置信度值；

使用单极滤波器来调整所述当前音频帧的所述置信度值，其中所述当前音频帧的所述置信度值及紧接在所述当前音频帧之前的音频帧的所述置信度值是到所述单极滤波器的输入且所述经调整置信度值是来自所述单极滤波器的输出。

15.根据权利要求1到2中任一权利要求所述的方法，其中确定所述状态信号的所述步骤包括：

应用四态状态机，其中所述四态状态机的两个状态对应于所述状态信号指示所述当前音频帧处于未经双耳化状态，且所述四态状态机的剩余两个状态对应于所述状态信号指示所述当前音频帧处于经双耳化状态。

16.根据权利要求14所述的方法，其中所述单极滤波器具有低于平滑阈值的平滑时间，其中所述平滑阈值是基于RC时间常数来确定。

17.根据权利要求15所述的方法，其中所述四态状态机包括未经双耳化保持状态UBH(210)、经双耳化保持状态BH(230)、经双耳化释放计数状态BRC(240)及经双耳化攻击计数状态BAC(220)；

其中UBH(210)及BAC(220)对应于所述状态信号指示所述当前音频帧处于未经双耳化状态且BH(230)及BRC(240)对应于所述状态信号指示所述当前音频帧处于经双耳化状态；且

其中在所述置信度值高于置信度阈值时所述状态从UBH(210)转变到BAC(220)，在所述状态是达到BAC(220)的同时阈值数目个帧具有高于置信度阈值的置信度值时所述状态从BAC(220)转变到BH(230)，在所述置信度值低于置信度阈值时所述状态从BH(230)转变到BRC(240)，且在预定数目个连续帧具有低于置信度阈值的置信度值时所述状态从BRC(240)转变到UBH(210)。

18.一种用于操控音频的双耳化的存储指令的非暂时性计算机可读介质，所述指令在由一或多个计算机处理器执行时致使所述一或多个处理器执行根据权利要求1到17中任一权利要求所述的方法。

19.一种用于操控音频的双耳化的系统，所述系统(100)包括：

音频接收器，其用于接收音频输入信号，所述音频输入信号包括多个音频帧；

双耳化检测器(130)，其用于计算指示所述音频输入信号的当前音频帧包括经双耳化音频的可能性的置信度值；

状态决定器(150)，其用于基于所述置信度值来确定状态信号，所述状态信号指示所述当前音频帧是处于未经双耳化状态或还是处于经双耳化状态；

切换决定器(160)，其用于确定操控信号，其中在所述状态决定器(150)将所述状态信号从指示所述未经双耳化状态改变为指示所述经双耳化状态时，所述切换决定器(160)经配置以：

产生至少部分地包括所述经双耳化音频信号的音频输出信号；

其中在所述状态决定器(150)将所述状态信号从指示所述经双耳化状态改变为指示所述未经双耳化状态时，所述切换决定器(160)将双耳化的取消激活模式设置为真；及

在所述双耳化的所述取消激活模式为真，且所述当前音频帧的所述置信度值低于取消激活阈值，且所述当前音频帧的能量值低于所述当前音频帧之前的所述音频输入信号的阈值数目个音频帧的能量值时，所述切换决定器(160)经配置以：

将所述双耳化的所述取消激活模式设置为假，

改变所述操控信号以取消激活或减少音频的双耳化，及

产生至少部分地包括所述音频输入信号的所述音频输出信号。

20.一种用于操控音频的双耳化的系统，其包括：

一或多个计算机处理器电路；及

非暂时性计算机可读介质，其存储指令，所述指令在由所述一或多个处理器执行时致使所述一或多个处理器执行根据权利要求1到17中任一权利要求所述的方法。