CN112334981A

CN112334981A - 用于自动混合的智能语音启动的系统及方法

Info

Publication number: CN112334981A
Application number: CN201980042047.5A
Authority: CN
Inventors: 迈克尔·莱恩·莱斯特; 乔斯·罗伯托·雷加尔布托; 大卫·格朗·卡森
Original assignee: Shure Acquisition Holdings Inc
Current assignee: Shure Acquisition Holdings Inc
Priority date: 2018-05-31
Filing date: 2019-05-30
Publication date: 2021-02-05
Also published as: WO2019232235A1; TWI831787B; JP7422685B2; US20220093117A1; US10997982B2; EP3803867A1; US20190371354A1; JP2021525903A; TW202004736A; EP3803867B1; US11798575B2

Abstract

实施例允许自动混合器基于话音检测导通及关断麦克风，而不丢失或丢弃话音辨识周期期间接收的话音。实例方法包含接收及存储输入音频信号。所述方法还包含基于所述输入音频信号的第一片段确定所述输入音频信号包括话音，及确定所述输入音频信号与提供到扬声器的对应输出音频信号之间的延迟。所述方法还包含减小所述延迟，其中减小所述延迟包括移除所述经存储输入音频信号的一或多个片段以产生经时间压缩的音频信号及提供所述经时间压缩的音频信号作为所述对应输出音频信号。所述方法还包含确定所述延迟小于阈值持续时间，及响应地提供所述输入音频信号作为所述对应输出音频信号。

Description

用于自动混合的智能语音启动的系统及方法

交叉参考

本申请案主张2018年5月31日申请的第62/678,863号美国临时申请案的优先权，所述申请案的全部内容并入本文中。

技术领域

本申请案大体上涉及用于麦克风自动混合的语音启动。特定来说，本申请案涉及用于在自动混合中启动之前压缩音频以便消除话音检测、决定包含在混合中及可能的通道获取期间丢失的话音的新颖系统及方法的使用。

背景技术

会议及简报环境(例如演讲厅、董事会会议室、视频会议环境及类似者)可能涉及用于捕获来自音频源的声音的麦克风的使用。例如，音频源可包含人用扬声器。经捕获的声音可通过环境中的扬声器、电视广播及/或网络广播传播给听众。

在一些这些环境中，可能在任何给定时间打开一个以上麦克风，从而允许每一扬声器具有其自身的麦克风。自动混合系统可用来使一次能够“接通”一个麦克风以便提供高质量音频输出，同时减小当一个以上麦克风在接收音频且扬声器试图输出所接收音频时可能存在的干扰、反馈及其它音频问题。

在这些环境中，自动混合系统可从麦克风接收音频，分析音频以确定音频是否为话音、错误噪声或其它内容，且仅在确定音频是话音之后将使麦克风“在作用中”且通过扬声器播放所接收音频。这导致在自动混合系统正确定所接收音频是否包含话音的时间期间接收的话音的丢失。在一些情况下，这可能意味着话音片段的第一音节或甚至整个字词可能丢失，由此降低用户体验。

因此，存在解决这些问题的方法及系统的机会。更特定来说，存在可实现用来确定所接收音频是否包含话音的正常丢弃话音的播放的方法及系统的机会。

发明内容

本发明旨在通过提供系统及方法来解决上述问题，所述系统及方法经设计以尤其组合所接收音频的时间压缩与可变速度播放以便尤其在自动混合环境中在话音检测及通道获取期间减小丢失的话音。

在第一实例中，一种方法包含：接收输入音频信号；存储所述输入音频信号；及基于所述输入音频信号的第一片段确定所述输入音频信号包括话音。所述方法还包含确定所述输入音频信号与提供到扬声器的对应输出音频信号之间的延迟。所述方法进一步包含减小所述延迟，其中减小所述延迟包括：移除所述经存储输入音频信号的一或多个片段以产生经时间压缩的音频信号；及提供所述经时间压缩的音频信号作为所述对应输出音频信号。所述方法又进一步包含确定所述延迟小于阈值持续时间。且所述方法又进一步包含响应地提供所述输入音频信号作为所述对应输出音频信号。

在第二实例中，一种用于自动混合音频信号的系统包含：麦克风，其经配置以接收输入音频信号；扬声器，其经配置以播放对应于所述输入音频信号的输出音频信号；及处理器。所述处理器经配置以：接收所述输入音频信号；存储所述输入音频信号；基于所述输入音频信号的第一片段确定所述输入音频信号包括话音；及确定所述输入音频信号与所述对应输出音频信号之间的延迟。所述处理器还经配置以减小所述延迟，其中减小所述延迟包括：移除所述经存储输入音频信号的一或多个片段以产生经时间压缩的音频信号；及提供所述经时间压缩的音频信号作为所述对应输出音频信号。所述处理器进一步经配置以确定所述延迟小于阈值持续时间。且所述处理器又进一步经配置以响应地提供所述输入音频信号作为所述对应输出音频信号。

在第三实例中，一种非暂时性计算机可读存储器具有存储于其上的指令，所述指令在由处理器执行时致使一组动作的执行，包含：接收输入音频信号；存储所述输入音频信号；基于所述输入音频信号的第一片段确定所述输入音频信号包括话音；及确定所述输入音频信号与提供到扬声器的对应输出音频信号之间的延迟。所述组动作进一步包含减小所述延迟，其中减小所述延迟包括：移除所述经存储输入音频信号的一或多个片段以产生经时间压缩的音频信号；及提供所述经时间压缩的音频信号作为所述对应输出音频信号。所述组动作进一步包含确定所述延迟小于阈值持续时间。且所述组动作又进一步包含响应地提供所述输入音频信号作为所述对应输出音频信号。

从阐述指示可采用本发明的原理的各种方式的阐释性实施例的下文详细描述及所附图式，这些及其它实施例以及各种置换及方面将变得显而易见且将更全面地被理解。

附图说明

图1是根据本发明的实施例的包含多个麦克风的实例环境的示意表示。

图2是根据本发明的实施例的实例系统的简化框图。

图3是展示根据本发明的实施例的输入音频信号及输出音频信号及随时间变化的延迟的简化图表。

图4是根据本发明的实施例的音频信号的实例片段。

图5是说明根据本发明的实施例的实例方法的流程图。

具体实施方式

下文描述根据本发明的原理描述、阐释及例示本发明的一或多个特定实施例。提供本描述并非为了将本发明限于本文中所描述的实施例，而是解释及教示本发明的原理，使得所属领域的一般技术人员能够理解这些原理，且凭借所述理解，能够应用其以不仅实践本文中所描述的实施例，而且实践可能根据这些原理想到的其它实施例。本发明的范围旨在涵盖可在字面上或在等效原则下落入所附权利要求书的范围内的所有此类实施例。

应注意，在描述及图式中，类似或大体上类似的元件可用相同参考数字标记。然而，有时这些元件可用不同数字标记，举例来说例如在其中此标记促进更清楚描述的情况下。另外，本文中所阐述的图式不一定按比例绘制，且在一些情况下可能夸大比例以更清楚地描绘特定特征。此标记及图式实践并不一定暗示潜在大体性目的。如上文所述，本说明书旨在被视为整体且根据如本文中所教示及所属领域的一般技术人员所理解的本发明的原理来解释。

关于本文中所描述及说明的实例系统、组件及架构，还应理解，实施例可以众多配置及组件体现或采用，包含一或多个系统、硬件、软件或固件配置或组件或、其任何组合，如所属领域的一般技术人员所理解。据此，虽然图式说明包含用于本文中所预期的一或多个实施例的组件的实例系统，但应理解，关于每一实施例，系统中可不存在或不需要一或多个组件。

如上文所述，许多环境可利用旨在一次一个地通过扬声器接收其音频输出的多个麦克风。例如，小组讨论、会议、董事会会议、聚会等可都包含有时具有一对一关系的多个扬声器及多个麦克风，其中每一扬声器具有对应麦克风。

为了减小由多个麦克风同时紧邻操作致使的反馈、干扰、串扰及其它负面效应，可使用自动混合系统。自动混合系统可实现在给定时间仅一个麦克风在作用中。为了确定哪个麦克风应在作用中，自动混合系统可经配置以分析由每一麦克风接收的音频信号以确定麦克风是否包含话音、噪声、静音或一些其它类别的音频。然而，此分析需要非零时间量来完成。且因此，针对话音分析的音频及在分析完成时接收的音频两者可能丢失。虽然这可能低到几十毫秒，但在一些情况下，分析可能需要一秒或更长时间，其意味着第一秒或更多话音被丢失。此对于发言人及听众来说可能是相当刺耳的，且可能导致不良用户体验。

通常，自动混合系统包含在确定是否正在接收话音所要的时间与系统对所接收音频包含话音所具有的可信度之间的折衷。因而，当自动混合器减小用来确定给定麦克风是否正在接收话音的时间时，自动混合器还减小麦克风是否实际上正接收话音的可信度，此增加自动混合中将包含噪声的机会。因此，尽管通过使用较快话音检测丢失或丢弃较少话音，但即使麦克风仅接收噪声、静音或其它含非话音的音频，仍更可能错误地使麦克风在作用中。

谨记这些问题，本发明的实例实施例可使自动混合系统能够从麦克风接收音频，基于所接收音频确定包含话音，及播放经时间压缩的输入音频而不会丢失任何重要信息。这可通过将音频接收到麦克风中且将音频存储于资料存储器或存储器中来完成。接着可分析所存储音频信号，同时继续接收及存储额外输入音频。可分析所存储音频的第一部分以确定其是否包含话音。如果第一部分包含话音，那么自动混合器可确定应使从中接收话音的麦克风“在作用中”，此意味着由麦克风接收的音频应经由扬声器输出，传输到另一装置，或以其它方式对其执行一些动作。

接着，可连续地存储输入音频，进行时间压缩，且可由系统输出经减小的音频信号，而非立即使由麦克风接收的输入音频能够由系统输出(例如，实时播放)。通过播放经减小的音频信号同时继续接收及压缩额外输入音频，播放可逐渐赶上实时。

如果确定音频是否包含话音的分析的持续时间是一秒，那么将存在通常可能丢失或丢弃的一秒的所接收音频。然而，在本文中所揭示的实施例中，代替地对所接收音频进行时间压缩，且以延迟输出(其中延迟对应于接收输入音频与提供对应输出之间的时间差)。接着，随着接收、压缩及输出更多输入，一秒延迟随时间逐渐减小。压缩且输出额外输入音频，直到输入音频与系统输出之间的延迟减小到小于阈值量(例如，一个音高周期)。当延迟减小到阈值以下时，系统可执行较小时间压缩，使得延迟减小到零(例如，如果系统将执行10ms压缩，那么其可选择匹配仍存在的剩余延迟量的较小压缩量)，之后系统输出简单地是由麦克风接收的未经压缩的输入音频。

作为本文中所揭示的实施例的结果，自动混合系统经配置以输出麦克风中接收的所有相关信息(即，无字词或相关话音丢失)，且系统可在话音检测中具有较高可信度而不丢失大量话音信息或允许错误启动或“导通”麦克风。本文中所揭示的实施例通过以下方式来实现这些目标：在快高达两倍的平均速率下(或在时间维度中压缩两倍)输出来自过往的所接收音频；输出来自过往样本的缓冲器的所接收音频；及利用在相对于当前输出的未来时间中存在的样本的交叉衰落，直到系统赶上实时播放。一旦输出音频信号及经接收的输入音频信号解析时基(例如，输出赶上输入)，系统便可简单地输出新接收的音频且复位压缩系统，直到释放通道且需要话音检测的另一反覆。

图1说明其中可使用本文中所揭示的方法及系统的实例环境。图1展示多个麦克风102A到C、计算装置110及扬声器104A到B。虽然图1说明一种可能环境，但应理解，本文中所揭示的概念及特征可应用于任何合适环境，包含但不限于董事会会议室、会议室、办公室、剧院等。

麦克风102A到C可为经配置以接收输入音频信号的任何麦克风类型。在一些实例中，可存在每个发言的人一个麦克风，一或多个人可共享麦克风，或可存在每个人多个麦克风。可使用的麦克风的类型可包含可定位于表面(例如，桌子)上或中的接口式麦克风(boundary microphone)及钮扣式麦克风，主要对一个方向上的声音敏感的枪式麦克风及许多其它类型的麦克风。每一麦克风或麦克风组可具有为在给定环境中使用而定制的特定拾取模式。麦克风的典型极性模式可包含全向、心形、亚心形、超心形(super-cardioid)、高心形(hyper-cardioid)、双向及阵列波束形成模式。为特定麦克风或匣选择的极性模式可取决于音频源所在的位置，排除非所要噪声的期望及/或其它考量。

麦克风102A到C可电子地及/或通信地耦合到计算装置110。这可经由电线或可无线地完成。

输入音频信号可由对应于麦克风的人112A到C中的一者供应。因而，输入音频信号可包含浊音话音、非浊音话音、静音、噪声等。下文进一步详细讨论关于给定输入音频信号的元素的额外细节。

扬声器104A到B可为经配置以输出音频信号的任何合适扬声器。扬声器104A到B可电子地及/或通信地耦合到计算装置110。这可通过电线或无线地完成。

本文中所揭示的各个实施例描述经由一或多个麦克风接收输入音频及经由扬声器104A到B输出。然而，在一些实施例中，输出可代替地或另外包含传输到另一位置处的远端扬声器(例如，在电话会议环境、网络广播等中)。因而，在各个所揭示的实施例叙述经由扬声器输出或使用扬声器输出信号的情况下，应理解，这些还可或替代地指代将信号输出到具有单独远端扬声器的另一装置或系统(例如，电话会议系统的远端)。

图2说明在一些方面类似或相同于图1的系统的系统的简化框图，包含麦克风102A到N、计算装置110及扬声器104。

计算装置110可为经配置以实行本文中所描述的各种功能及动作的包含处理器210及存储器212的任何合适计算装置。在一些实例中，计算装置110可为自动混合器、膝上型或桌上型计算机、或经配置以接收及分析来自麦克风的音频信号的任何其它装置。

计算装置110可经配置用于执行各种功能或动作，例如本发明(及所附图式)中所描述的所述功能或动作。计算装置110可包含各种组件，包含例如处理器210、存储器212。计算装置110还可包含显示器、用户接口及/或一或多个其它电子组件。应理解，本文中所揭示的实例可指代具有可在物理上或可不在物理上接近彼此而定位的组件的计算装置及/或系统。特定实施例可采取基于云的系统或装置的形式，且术语“计算装置”应被理解为包含分布式系统及装置(例如基于云的所述系统及装置)、以及软件、固件及经配置以实行本文中所描述的一或多个功能的其它组件。此外，如上文所述，计算装置110的一或多个特征可在物理上位于计算装置远端，且可经由例如通信接口通信地耦合到计算装置。

处理器210可包含通用处理器(例如，微处理器)及/或专用处理器(例如，数字信号处理器(DSP))。处理器210可为任何合适处理装置或处理装置组，例如但不限于微处理器、基于微控制器的平台、集成电路、一或多个现场可编程门阵列(FPGA)、图形处理器单元(GPU)及/或一或多个专用集成电路(ASIC)。

存储器212可为易失性存储器(例如，包含非易失性RAM、磁性RAM、铁电RAM等的RAM)、非易失性存储器(例如、磁盘存储器、快闪存储器、EPROM、EEPROM、基于忆阻器的非易失性固态存储器等)、不变存储器(例如，EPROM)、只读存储器及/或高容量存储装置(例如，硬盘驱动器、固态硬盘等)。在一些实例中，存储器212包含多种存储器，尤其是易失性存储器及非易失性存储器。

存储器212可为其上可嵌入一或多个指令集(例如用于操作本发明的方法的软件)的计算机可读媒体。指令可体现如本文中所描述的一或多种方法或逻辑。例如，指令在执行指令期间完全或至少部分地驻留于存储器212、计算机可读媒体及/或处理器210中的任何一或多者内。

术语“非暂时性计算机可读媒体”及“计算机可读媒体”包含单个媒体或多个媒体，例如集中式或分布式数据库，及/或存储一或多个指令集的相关联缓存及服务器。此外，术语“非暂时性计算机可读媒体”及“计算机可读媒体”包含能够存储、编码或携带供处理器执行或致使系统执行本文中所揭示的任何一或多种方法或操作的指令集的任何有形媒体。如本文中所使用，术语“计算机可读媒体”明确地被定义为包含任何类型的计算机可读存储装置及/或存储磁盘且排除传播信号。

处理器210可经配置以从给定麦克风102A接收输入音频信号。接着，处理器210可将经接收的输入音频信号存储于存储器212中。在一些实例中，输入音频信号可经存储于循环缓冲器中。处理器210可经配置以在接收传入音频时连续地存储传入音频。

在继续存储传入的输入音频信号时，处理器110可分析存储于存储器中的输入音频信号的第一片段，以基于输入音频信号的第一片段确定输入音频信号包括话音。在一些实例中，第一片段可为输入音频信号的一秒片段。在其它实例中，可使用更短或更长持续时间的输入音频信号。此外，第一片段可为未经压缩的输入音频。

在分析第一片段时，处理器210可使用一或多个滤波器对输入音频信号及/或输入音频信号的第一片段进行滤波。处理器210还可将一或多种算法应用于音频信号/第一片段，以便检测指示输入音频信号包括话音的各种话音模式及/或信号元素。如果确定第一片段包含话音，那么计算装置110可响应地确定应使麦克风102A(即，提供输入音频信号的麦克风)在作用中或导通。分析及确定应使麦克风导通的此整个过程可能花费近似一秒。但应注意，还可使用其它持续时间，尤其在系统经设计以基于话音检测的可信度或确定性与检测速度之间的折衷操作的情况下。

在一些实例中，计算装置110还可确定关于确定音频信号是否包含可压缩周期性内容的一或多个可信度度量。可关于基本周期及本文中所描述的其它元素的确定确定可信度度量。

计算装置110还可经配置以基于对应于输入音频信号的外部缓冲信号的控制测量输入音频信号与输出音频信号之间的延迟。延迟是接收输入音频信号的给定元素(例如，音频信号的字词、音节或其它离散部分等)时与输出对应元素时之间的时间差的量度。在一些实例中，对应输出元素可相同于输入元素，尤其在元素包含大量音频信息的情况下。

延迟最初可为确定输入音频信号是否包括话音所要的时间。在此分析时间期间，输入音频继续存储于存储器中。然而，因为尚未作出输入音频是否包含话音的决定，所以尚未输出输入音频。因而，如果分析花费一秒，那么计算装置确定输入音频信号包括话音时的初始延迟量是一秒。

接着，随着对输入音频信号进行时间压缩(经由移除一或多个片段，如下文进一步详细讨论)及输出，输入音频信号与对应输出音频信号之间的延迟减小。这是因为可在高达输入速度的两倍的平均速度下播放或输出经时间压缩的音频，从而导致减小延迟。因此，在压缩2倍的情况下，延迟因此可在近似相同于分析以确定音频信号中是否存在话音的持续时间的持续时间内减小到接近零。然而，在压缩较小的情况下，延迟减小可在较长持续时间内实行。因此，延迟减小取决于压缩量、将压缩应用于话音内容的适合性且延迟减小到接近零的持续时间相反地对应于压缩量。

因此，当输出经时间压缩的信号时，延迟随时间变化。在确定输入音频信号包括话音的时间点，初始系统延迟的值是输入音频信号的第一片段的持续时间。此初始值还是此反覆的最大延迟，因为随时间推移且对输入音频信号进行时间压缩及输出，延迟将逐渐减小。

经由处理器210的计算装置110可经配置以减小延迟。减小延迟可包含移除所存储输入音频信号的一或多个片段以产生经时间压缩或经“减小”的音频信号，且输出经减小的音频信号。经减小的音频信号对应于从中产生其的输入音频信号，且当输出经减小的音频信号时，从接收输入音频的给定元素时及输出经减小的音频信号的对应元素时起的延迟减小。

如上文所述，可接收输入音频信号且将其存储于存储器中。这可在滚动基础上完成，使得随着接收越来越多的输入音频信号，将其存储于存储器中的循环缓冲器中。

为了对输入音频信号进行时间压缩，可完成一或多种算法、功能或其它操作。在一些实例中，可对输入音频信号进行滤波以移除高频率且消除信号的DC方面。还可对信号进行下采样且将其分块成离散窗(例如，25ms窗)。

在一些实例中，处理器210可确定对应于输入音频信号的基本周期。可通过将循环平均幅差函数(CAMDF)或其它适当周期估计函数应用于输入音频信号来确定基本周期。可通过应用时域周期检测(例如CAMDF、平均均方差函数(ASMDF)、自相关、零交叉检测或组合算法，例如YIN算法或McLeod音高法(MPM))来最小化算法延迟。频域技术还可在延时的折衷下使用，例如周期图、谐波积谱、倒频谱分析、频谱再指派、Grandke插值及预定义频率图的最大似然估计。CAMDF或其它适当周期估计函数可受限于语音的预期基频范围。

应用CAMDF或其它适当周期估计函数可产生信号自相关的估计，接着可使用所述估计来检测基本周期。

在一些实例中，CAMDF或其它适当周期估计函数可产生经估计的基本周期。接着可将经估计的基本周期传递到高分辨率平均幅差函数以产生更精细且更准确的基本周期的估计。

计算装置110可确定经确定的基本周期可对应于与输入音频信号对应的一或多个声门周期。声门周期可为音频信号的重复周期，其与人的嘴的声门在其发言时的移动相关。在一些实例中，可由处理器210搜寻输入音频信号以确定最突出的声门闭合特征。接着可基于基本周期及经确定的最突出声门闭合特征确定其它声门闭合特征。接着可从此信息确定声门周期。

在一些实例中，输入音频信号可经存储于存储器212中的循环缓冲器中。一旦确定输入音频信号的一或多个经估计的声门周期，便可使用时域音高同步重叠相加(TD-PSOLA)或其它适当时域交叉衰落过程来将音频信号分解成片段。还可使用频域时间移除技术，例如移除窗频域缓冲器。在一些实例中，这些片段可为经估计的声门周期。可从输入音频信号移除一或多个片段以产生经减小的音频信号。可完成一或多个片段的移除，使得信号在时间上减小而不更改信号的音高。

待移除的经识别音频片段可对应于一或多个不同类别的音频。例如，一些片段可包含浊音话音，一些片段可包含非浊音话音，一些片段可包含静音，且一些片段可包含噪声或其它音频信号元素。浊音话音可指代在人的声带在音素发音期间振动时产生的话音。例如，浊音话音可为字词“erase”的前半部分。另一方面，非浊音话音可能不包含使用声带。例如，非浊音话音可为字词“erase”的后半部分。静音片段可为音频信号的不包含浊音或非浊音话音的片段。类别还可被称为周期性内容、非周期性内容及安静或静音内容。

图4说明音频信号的样本部分400。在图4中，片段410可对应于噪声，片段420可对应于静音，片段430可对应于浊音话音，且片段440可对应于非浊音话音。

当移除音频信号的一或多个片段时，移除可取决于片段所属的类型或类别。例如，在给定音频部分包含周期性内容的情况下，可移除一或多个非相邻的经估计周期。在特定实例中，可移除每隔一个经估计的周期。

在音频部分包含非周期性内容的情况下，在一些实例中，以在压缩期间维持良好主观音频质量同时最大化压缩率的方式确定被移除的音频段的长度。

且在音频部分包含静音的情况下，还以在压缩期间维持良好主观音频质量同时最大化压缩的方式确定被移除的音频段的长度。

可使用时域重叠相加或其它适当时域交叉衰落(类似于TD-PSOLA，但并非音高同步)完成非周期性或静音周期的移除。

在一些实例中，给定输入音频信号可包含周期性、非周期性及静音音频片段的组合。在这些实例中，计算装置110可经配置以使静音的移除优先于非周期性内容，且使非周期性内容的移除优先于周期性内容。这可能导致最少量的相关音频资料的移除，同时维持正确音高且减小信号的时间维度。

优先化移除还可包含移除一种类别的数目大于另一类别。例如，在给定信号包含待移除的多个经识别音频片段(包括静音、周期性内容及非周期性内容)的情况下，移除可包含仅移除一些或全部静音片段。在其它实例中，移除可包含针对每个非周期性内容移除成比例量的静音片段，或以相对于彼此的某个其它比率移除经识别的音频片段。以此方式，可减小输入音频信号，而不移除理解输出信号中包含的话音所需的重要音频内容。

一旦移除输入音频信号的一或多个片段，便可组合剩余片段以形成所得减小的输出音频信号。接着可将经减小的输出音频信号提供到扬声器以供输出。

接着，随时间推移，当如上文所描述那样连续地接收额外输入音频且进行时间压缩时，输入音频与输出音频之间的延迟逐渐减小。

如上文所指示，可计算一或多个可信度度量以确定周期性话音内容、非浊音话音或噪声内容、静音及本文中所描述的其它元素的可能性。可使用一或多个其它可信度度量来通知移除音频片段的频率，以便减小主观感知时间压缩的可能性。另外，一或多个可信度度量可告诉您是否执行同步移除、异步移除或等待直到更适当压缩机会出现。

处理器210可经配置以在延迟变化时监测延迟，且确定延迟小于阈值持续时间。一旦延迟小于阈值持续时间，处理器便可直接提供输入音频作为输出，而不执行任何时间压缩。为此，处理器210可执行匹配剩余延迟量的较小压缩以从提供经减小的音频信号转变为直接提供输入音频信号作为输出，而不执行任何压缩、片段移除、或基本或经估计的声门周期移除。

在一些实例中，阈值可为一个基本周期，或对应于输入音频信号或与在静音或噪声期间发生的跳跃相关的一些其它跳跃周期。一旦处理器确定延迟小于此阈值，其便可接着切换到实时播放。

在一些实例中，处理器210可确定当前输入音频信号包括静音(即，等待输入静音)，且接着响应地在静音区域期间进行可适于良好主观音频质量的跳跃。此减小异步跳跃到实时播放在人发言的中间发生的机会，且导致任何有意义的信息丢失的较低概率。其还提供从经时间压缩的减小音频信号的输出到未经压缩的输入音频信号的最无缝转变。

图3说明展示输入音频信号对时间、对应输出音频信号对时间及输入与输出之间的延迟对时间的简化图表。

从T0到T1，计算装置可对输入音频信号执行分析以确定输入音频信号是否包括话音。在一些实例中，此分析可使用所述分析中从T0到T1的输入信号而发生。在其它实例中，所述分析可使用来自T0之前的输入音频信号(即，使用在分析开始之前接收的音频)而发生。这可在计算装置在开始确定输入音频是否包含话音的过程之前接收及存储音频时发生。

在T1处，计算装置已确定输入音频信号包括话音，且响应地确定应使麦克风在作用中或导通。

还在T1处，可见输入音频信号与对应输出之间的延迟是(T1-T0)秒。(T1-T0)秒还是确定输入音频信号包括话音所需的持续时间。因此在T1处，可认为输出滞后于输入达T1-T0秒。

在从T0到T1的时间周期期间或之后，如上文所描述那样存储输入音频信号片段301且进行时间压缩。在图3中所展示的实例中，片段301经压缩到其原始持续时间的一半，而不改变音高。接着经由扬声器在T1处开始且在T1.5处结束而输出经时间压缩的信号。此被展示为图3中的片段311。

在从T1到T1.5输出经减小的音频信号片段311时，如上文所描述那样接收、存储第二输入音频信号片段302且进行时间压缩。在图3中所展示的实例中，片段302经压缩到其原始持续时间的一半，而不改变音高。接着，经由扬声器在时间T1.5处开始且在时间T1.75处结束而输出经时间压缩的信号。此被展示为片段312。

对输入音频信号的连续片段完成此过程，同时输出对应音频信号片段，直到输出赶上输入。输入与对应输出之间的时间差被视觉化为图3中的延迟，其在最大(T1-T0)秒处开始，且随着输出赶上而逐渐减小。在图3中所展示的实例中，每一片段的压缩倍数是两倍，这意味着输出按平均两倍于其作为输入被接收的速度播放。因而，如果T1-T0是1秒，且T2-T1还是一秒(例如，每个时间T对应于1秒变化)，那么可播放两秒的经接收输入音频(从T0到T2)作为所述时间的一半(从T1到T2)的输出。

接着在时间T2处，输出已赶上输入，且延迟几乎为零。此时，计算装置可等待输入信号中的相对静音以在静音区域中进行跳跃以直接提供输入信号作为输出，而不执行任何压缩或时间缩减。

图5说明根据本发明的实施例的实例方法500的流程图。方法500可允许自动混合器基于话音检测导通及关断麦克风，而不丢失或丢弃话音辨识周期期间接收的话音。图5的流程图表示存储于存储器(例如存储器212)中的机器可读指令且可包含一或多个程序，所述一或多个程序在由处理器(例如处理器210)执行时可致使计算装置110及/或一或多个系统或装置实行本文中所描述的一或多个功能。虽然参考图5中所说明的流程图描述实例程序，但可替代地使用用于实行本文中所描述的功能的许多其它方法。例如，可彼此串行地或并行地重新布置或执行块的执行顺序，可改变、消除及/或组合块以执行方法500。此外，因为结合图1到4的组件揭示方法500，所以下文将不详细描述所述组件的一些功能。

方法500可在框502处开始。在框504处，方法500可包含经由麦克风接收输入音频信号。且在框506处，方法500可包含存储输入音频信号。如上文所描述，本文中的实施例可包含在接收输入音频信号与所描述的其它功能或动作同期连续地存储输入音频信号。

在框508处，方法500可包含确定输入音频信号是否包括话音。如上文所述，这可包含分析输入音频信号的第一片段，应用一或多个滤波器，或以其它方式检测信号中话音的存在。如果未检测到话音，那么所述方法返回到框504。

如果检测到话音，那么方法500可包含基于外部缓冲信号的控制测量输入音频信号与对应输出信号之间的延迟。如上文所述，此延迟的初始值可为在框508处确定音频信号中是否存在话音所要的时间量。在确定输入音频信号中存在话音之后，可开始输出输入音频信号。因而，由于确定是否存在话音需要的时间，所以可能引入延迟。

在框512处，方法500可包含确定延迟是否小于阈值。此阈值可为基本周期，或对应于输入或输出音频信号的某个其它周期。当首先输出输入音频信号时，延迟可处于最大值。最大延迟可为确定输入音频信号中是否存在话音所要的时间量。

如果延迟大于阈值，那么方法500可继续进行到框514。在框514处，方法500可包含移除输入音频信号的一或多个片段，尤其是包含静音的片段。在框516处，方法500可包含移除包含非浊音话音的一或多个片段。且在框518处，方法500可包含移除包含浊音话音的一或多个片段。框514、516及518包含移除音频信号的每一个片段，这可如上文关于基本周期所描述那样执行。

在框520处，方法500可包含产生经减小的音频信号。此经减小的音频信号可在时间维度上进行压缩，但可能不具有频率或音高的任何压缩。

在框522处，方法500可包含将经减小的音频信号提供到扬声器以供输出。如上文所指示，应注意，此还可或替代地包含将经减小的音频信号提供到远端扬声器或计算装置，例如在电话会议场景中。

接着，方法500可返回到框512，以确定延迟是否已减小到阈值以下。如果延迟小于阈值，那么方法500可继续进行到框524。

在框524处，方法500可包含将输入音频直接提供到扬声器，而非移除静音、非浊音话音或浊音话音。在一些实例中，框524可包含与浊音话音的基本周期无关的跳跃或从提供经减小的音频信号到提供输入音频信号作为输出的转变。接着，方法500可在框526处结束。

应理解，本文中所揭示的实施例是出于解释目的，且因而可颠倒一或多个动作的顺序及时间依赖性，或各种动作可同时或同期发生。例如，在一些实例中，确定音频信号包含话音可与确定延迟、减小延迟、移除所存储输入音频的一或多个片段等同时实行。一些实例可在本文中被描述为在一个动作跟随另一动作的线性程序中实行。但其它实例可包含同时实行本文中所描述的一或多个动作。

在本申请案中，转折词的使用旨在包含连接词。定冠词或不定冠词的使用并非旨在指示基数。特定来说，对“所述”物件或“一”及“一个”物件的引用旨在还表示可能多个此类物件中的一者。此外，连词“或”可用来传达同时存在的特征代替相互排斥的替代特征。换句话说，连词“或”应被理解为包含“及/或”。术语“包含(includes、including及include)”是包含性的且分别具有相同于“包括(comprises、comprising及comprise)”的范围。

上述实施例及尤其是任何“优选”实施例是实施方案的可能实例且仅仅是为了清楚地理解本发明的原理而阐述。可对上述实施例进行许多变化及修改而大体上不脱离本文中所描述的技术的精神及原理。所有修改旨在在本文中包含于本发明的范围内且受所附权利要求书保护。

Claims

1.一种方法，其包括：

接收输入音频信号；

存储所述输入音频信号；

基于所述输入音频信号的第一片段确定所述输入音频信号包括话音；

基于外部缓冲信号的控制，测量所述输入音频信号与提供到扬声器的对应输出音频信号之间的延迟；

减小所述延迟，其中减小所述延迟包括：

移除所述经存储输入音频信号的一或多个片段以产生经时间压缩的音频信号；及

提供所述经时间压缩的音频信号作为所述对应输出音频信号；

确定所述延迟小于阈值持续时间；及

响应地提供所述输入音频信号作为所述对应输出音频信号。

2.根据权利要求1所述的方法，其中所述输入音频信号与所述对应输出音频信号之间的所述延迟随时间变化，且包括所述输入音频信号的所述第一片段在确定所述输入音频信号包括话音的时间点的持续时间。

3.根据权利要求1所述的方法，其中减小所述延迟进一步包括：

确定对应于所述输入音频信号的基本周期；及

基于所述基本周期，确定对应于所述输入音频信号的一或多个供移除音频片段。

4.根据权利要求3所述的方法，其中通过将循环平均幅差函数应用于所述输入音频信号来确定所述基本周期。

5.根据权利要求3所述的方法，其中通过将以下项中的一或多者应用于所述输入音频信号来确定所述基本周期：(a)平均均方差函数、(b)自相关函数、(c)零交叉检测、(d)YIN算法、(e)McLeod音高方法及(f)周期图。

6.根据权利要求3所述的方法，其中通过将以下项中的一或多者应用于所述输入音频信号的频域表示来确定所述基本周期：(a)谐波积谱、(b)倒频谱音高检测算法、(c)频谱再指派及(d)最大似然估计。

7.根据权利要求3所述的方法，其中将所述供移除音频片段存储于循环缓冲器中，且其中移除所述经存储输入音频信号的一或多个片段包括移除周期性音频内容的一或多个片段。

8.根据权利要求7所述的方法，其中移除周期性音频内容的一或多个片段包括移除多个非相邻周期性区域。

9.根据权利要求1所述的方法，其中移除所述经存储输入音频信号的一或多个片段包括将时域音高同步重叠相加TD-PSOLA函数应用于所述输入音频信号。

10.根据权利要求1所述的方法，其中移除所述经存储输入音频信号的一或多个片段包括将具有重叠及相加的频域缓冲移除应用于所述输入音频信号的频域表示。

11.根据权利要求1所述的方法，其中移除所述经存储输入音频信号的一或多个片段包括移除包含无声话音的一或多个片段。

12.根据权利要求1所述的方法，其中移除所述经存储输入音频信号的一或多个片段包括移除不包含话音的一或多个片段。

13.根据权利要求1所述的方法，其中移除所述经存储输入音频信号的一或多个片段包括基于以下项对所述输入音频信号的片段进行分类：(i)包括静音的片段、(ii)包括非周期性内容的片段及(iii)包括周期性内容的片段，其中所述方法进一步包括将类别(i)片段的移除优先化为第一，将类别(ii)片段的移除优先化为第二，及将类别(iii)片段的移除优先化为第三。

14.根据权利要求1所述的方法，其中确定所述延迟小于所述阈值持续时间包括确定所述延迟小于所述输入音频信号的一个基本周期。

15.根据权利要求1所述的方法，其中响应于确定所述延迟小于所述阈值持续时间，所述方法进一步包括：

确定所述输入音频信号包括静音；及

响应地通过提供所述输入音频信号作为所述对应输出信号来执行跳跃以返回到实时播放。

16.一种用于自动混合音频信号的系统，其包括：

麦克风，其经配置以接收输入音频信号；

扬声器，其经配置以播放对应于所述输入音频信号的输出音频信号；及

处理器，其经配置以：

接收所述输入音频信号；

存储所述输入音频信号；

确定所述输入音频信号与所述对应输出音频信号之间的延迟；

减小所述延迟，其中减小所述延迟包括：

确定所述延迟小于阈值持续时间；及

响应地提供所述输入音频信号作为所述对应输出音频信号。

17.根据权利要求16所述的系统，其进一步包括经配置以接收多个相应麦克风音频信号的多个麦克风，其中所述处理器进一步经配置以：

接收所述多个相应麦克风音频信号；

存储所述多个相应麦克风音频信号的至少一部分；

基于所述多个相应麦克风音频信号中的每一者的相应第一片段，确定第一麦克风音频信号包括话音；及

将所述输入音频信号设置为所述第一麦克风音频信号。

18.根据权利要求16所述的系统，其中减小所述延迟进一步包括：

基于应用于所述输入音频信号的循环平均幅差函数确定对应于所述输入音频信号的基本周期；及

基于所述基本周期，确定含有对应于所述输入音频信号的周期性内容的一或多个音频片段。

19.根据权利要求18所述的系统，其中含有周期性内容的所述音频片段经存储于循环缓冲器中，且其中移除所述经存储输入音频信号的一或多个片段包括移除含有周期性内容的多个非相邻音频片段。

20.根据权利要求16所述的系统，其中减小所述延迟进一步包括：

基于应用于所述输入音频信号的以下项中的一或多者确定对应于所述输入音频信号的基本周期：(a)平均均方差函数、(b)自相关函数、(c)零交叉检测、(d)YIN算法、(e)McLeod音高方法及(f)周期图；及

21.根据权利要求16所述的系统，其中减小所述延迟进一步包括：

基于所述输入音频信号的频域表示的以下项中的一或多者确定对应于所述输入音频信号的基本周期：(a)谐波积谱、(b)倒频谱音高检测算法、(c)频谱再指派及(d)最大似然估计；及

22.根据权利要求21所述的系统，其中移除所述经存储输入音频信号的一或多个片段包括将具有重叠及相加的频域缓冲移除应用于所述输入音频信号的所述频域表示。

23.根据权利要求16所述的系统，其中移除所述经存储输入音频信号的一或多个片段包括将时域音高同步重叠相加TD-PSOLA函数应用于所述输入音频信号。

24.根据权利要求16所述的系统，其中移除所述经存储输入音频信号的一或多个片段包括基于以下项对所述输入音频信号的片段进行分类：(i)包括静音的片段、(ii)包括非周期性内容的片段及(iii)包括周期性内容的片段，其中所述处理器进一步经配置以将类别(i)片段的移除优先化为第一，将类别(ii)片段的移除优先化为第二，及

将类别(iii)片段的移除优先化为第三。

25.根据权利要求16所述的系统，其中响应于确定所述延迟小于所述阈值持续时间，所述处理器进一步经配置以：

确定所述输入音频信号包括静音；及

26.一种包括指令的非暂时性计算机可读存储器，所述指令在由处理器执行时致使一组动作的执行，其包括：

接收输入音频信号；

存储所述输入音频信号；

确定所述输入音频信号与提供到扬声器的对应输出音频信号之间的延迟；

减小所述延迟，其中减小所述延迟包括：

确定所述延迟小于阈值持续时间；及

响应地提供所述输入音频信号作为所述对应输出音频信号。