CN112567331A

CN112567331A - 音频流混合系统和方法

Info

Publication number: CN112567331A
Application number: CN201980052870.4A
Authority: CN
Inventors: N·伦克; C·库夫雷尔
Original assignee: Sereni Run Co
Current assignee: Sereni Run Co; Nuance Communications Inc
Priority date: 2018-08-08
Filing date: 2019-08-02
Publication date: 2021-03-26
Also published as: WO2020033239A1; US20200057601A1; EP3834075A4; US10747497B2; EP3834075A1; US10459686B1; KR20210041553A

Abstract

提供了一种在音频输出装置中使第二音频流与第一音频流混合的系统和方法。该系统被配置为执行该方法，该方法包括：缓冲第一音频流并经由音频输出装置输出第一音频流作为未修改输出；确定第一音频流内的至少一个插入点；在插入点处修改第一音频流以避免内容丢失；在插入点处输出第二音频流；以及在第二音频流的完成处或附近恢复第一音频流的未修改输出。修改第一音频流可以包括在插入点处暂停和/或扭曲第一音频流。音频输出装置可以是运载工具头单元或无线装置，诸如移动电话等。

Description

音频流混合系统和方法

技术领域

本发明构思涉及音频流处理的领域，更特别地涉及组合多个音频输出流。

背景技术

越来越多的音频源正在竞争用户装置的音频通道。例如，在运载工具中，多个不同音频源可能竞争驾驶员和乘客的注意力。在汽车中，作为可能是最常见的示例，竞争音频装置可以包括但不限于：

·无线电

·流音乐、音频书籍和其它媒体

·汽车助理

·导航系统

·小汽车状况和安全公告

在必须播出例如来自小汽车、助理或导航系统的公告的情况下，来自信息娱乐系统的任何持续流可能丢失。传出的信息娱乐流可以包括音乐和/或谈话，并且可以源自多个通道或介质中的任意通道或介质，诸如无线电、移动装置、音乐、运载工具硬盘驱动器、光盘(CD)和统一串行总线(USB)等。

在接收到诸如来自运载工具或导航系统的公告等的第二音频流的情况下，通常使第一(例如，信息娱乐)流静音或抑制，例如通过将信息娱乐流的输出音量设置为0或接近0来进行。在这种情况下，已被静音或抑制的信息娱乐音频输出可能完全丢失。作为结果，例如，她/他正在收听信息娱乐流，收听者可能错过来自无线电新闻节目或来自音频书籍的信息。这可能极大地降低所有收听者的信息娱乐体验。

另外，通常在不考虑第一(例如，信息娱乐)流输出的情况下输出公告。作为结果，公告可以出现在词语或句子的当中，这可以进一步降低所有收听者对信息娱乐内容的消费。

发明内容

根据发明构思的方面，提供了一种在音频输出装置中使第二音频流与第一音频流混合的方法，所述方法包括：缓冲所述第一音频流；确定所述第一音频流内的插入点；输出所缓冲的第一音频流，包括在所述插入点处修改所述第一音频流的至少一部分的输出以容纳所述第二音频流的输出，从而最小化或避免所述第一音频流的内容的劣化或丢失；在所述插入点处输出所述第二音频流；以及在所述第二音频流完成后继续输出所缓冲的第一音频流。

在各个实施例中，所述第二音频流是在所述第一音频流的输出期间接收到的。

在各个实施例中，所述第一音频流的缓冲响应于接收到所述第二音频流而发生。

在各个实施例中，所述第一音频流是无线电流。

在各个实施例中，所述第一音频流是来自所述音频输出装置本地的有形存储介质的内容的重放。

在各个实施例中，所述有形存储介质是光盘、统一串行总线介质、硬盘驱动器或计算机存储器。

在各个实施例中，所述第二音频流是与紧急标识符或最大延迟标识符一起由所述音频输出装置接收到的。

在各个实施例中，同所述方法包括：基于所述紧急标识符或最大延迟标识符来识别所述第二音频流的输出的最大延迟。

在各个实施例中，所述方法还包括至少部分地基于所述紧急标识符或最大延迟标识符来确定所述插入点。

在各个实施例中，确定所述插入点包括查找所述第一音频流内的间隙或暂停。

在各个实施例中，确定所述插入点包括使用一种或多种语音分析技术来分析所述第一音频流以查找句子、短语、词语的结束或其它自然中断点。

在各个实施例中，所述一种或多种语音分析技术包括话音活动检测即VAD、自动语音识别即ASR以及自然语言理解即NLU中至少之一。

在各个实施例中，确定至少一个插入点包括查找所述第一音频流内的低音量水平。

在各个实施例中，在所述插入点处修改所述第一音频流包括在所述插入点处暂停所述第一音频流。

在各个实施例中，在所述插入点处修改所述第一音频流包括修改所述第一音频流的时频结构。

在各个实施例中，在所述插入点处修改所述第一音频流包括在所述插入点处或附近扭曲所述第一音频流。

在各个实施例中，在所述插入点处输出所述第二音频流包括修改所述第二音频流。

在各个实施例中，修改所述第二音频流包括修改所述第二音频流的时频结构。

在各个实施例中，修改所述第二音频流包括修改所述第二音频流的话音风格以相对于所述第一音频流提高可理解度。

在各个实施例中，所述音频输出装置是运载工具头单元的一部分或形成运载工具头单元的一部分。

在各个实施例中，所述第二音频流是来自运载工具导航系统、运载工具监视系统或文本转语音系统的公告或警告。

在各个实施例中，所述第二音频流是来自广告系统的公告或警告。

在各个实施例中，所述音频输出装置是包括移动电话、平板电脑或平板手机的无线便携式装置。

根据发明构思的另一方面，提供了一种音频流混合系统，包括：一个或多个处理器，其耦接至一个或多个计算机存储装置、一个或多个第一音频流源、一个或多个第二音频流源以及一个或多个音频输出装置。一个或多个处理器被配置为：在所述一个或多个计算机存储装置中缓冲来自第一音频流源的第一音频流；确定所述第一音频流内的插入点；经由所述一个或多个音频输出装置来输出所缓冲的第一音频流，其中，所述一个或多个处理器被配置为在所述插入点处修改所述第一音频流的至少一部分的输出以容纳第二音频流的输出，从而最小化或避免所述第一音频流的内容的劣化或丢失，所述第二音频流是从第二音频流源接收到的；在所述插入点处经由所述一个或多个音频输出装置来输出所述第二音频流；以及在所述第二音频流完成后继续经由所述一个或多个音频输出装置来输出所缓冲的第一音频流。

在各个实施例中，所述一个或多个处理器被配置为响应于接收到所述第二音频流而缓冲所述第一音频流。

在各个实施例中，所述第一音频流是无线电流。

在各个实施例中，所述一个或多个处理器被配置为：基于所述紧急标识符或最大延迟标识符来识别所述第二音频流的输出的最大延迟。

在各个实施例中，所述一个或多个处理器被配置为：至少部分地基于所述紧急标识符或最大延迟标识符来确定所述插入点。

在各个实施例中，所述一个或多个处理器被配置为查找所述第一音频流内的间隙或暂停以确定所述插入点。

在各个实施例中，所述一个或多个处理器被配置为使用一种或多种语音分析技术来分析所述第一音频流以查找句子、短语、词语的结束或其它自然中断点，从而确定所述插入点。

在各个实施例中，所述一个或多个处理器被配置为查找所述第一音频流内的低音量水平以确定所述插入点。

在各个实施例中，所述一个或多个处理器被配置为在所述插入点处暂停所述第一音频流，作为对所述第一音频流的修改。

在各个实施例中，所述一个或多个处理器被配置为修改所述第一音频流的时频结构，作为对所述第一音频流的修改。

在各个实施例中，所述一个或多个处理器被配置为在所述插入点处或附近扭曲所述第一音频流，作为对所述第一音频流的修改。

在各个实施例中，所述一个或多个处理器被配置为修改所述第二音频流并在所述插入点处输出所述第二音频流作为修改后第二音频流。

在各个实施例中，所述修改后第二音频流包括修改后的时频结构。

在各个实施例中，所述一个或多个处理器被配置为修改所述第二音频流的话音风格以相对于所述第一音频流提高可理解度。

附图说明

鉴于附图和所附具体实施方式，本发明将变得更明显。其中描绘的实施例通过示例而非限制的方式提供，其中，相同的附图标记指代相同或相似的元件。附图不一定按比例绘制，而是强调示出本发明的方面。在附图中：

图1是可以进行根据发明构思的方面的音频流混合的架构的实施例的框图；

图2是根据发明构思的方面的音频流混合系统的实施例的框图；

图3是根据发明构思的方面的可由图2的系统进行的音频流混合的方法的实施例；

图4A是第一音频流的实施例；

图4B是根据发明构思的方面的被修改以容纳第二音频流的图4A的第一音频流的实施例；

图4C是根据发明构思的方面的被修改以容纳第二音频流的图4A的第一音频流的另一实施例；

图4D是根据发明构思的方面的被修改以容纳第二音频流的图4A的第一音频流的又一实施例；

图5是第一音频流的实施例；

图6是根据发明构思的方面的被修改以容纳第二音频流的图5的第一音频流的实施例；

图7是根据发明构思的方面的被修改以容纳第二音频流的图5的第一音频流的另一实施例。

具体实施方式

以下将参考附图来更全面地描述发明构思的各个方面，其中示出一些典型实施例。然而，本发明构思可以以许多不同的形式体现，并且不应被解释为限于这里所阐述的典型实施例。

应当理解，尽管这里可以使用术语“第一”、“第二”等来描述各种元件，但这些元件不应受这些术语的限制。这些术语用于将一个元件与另一元件区分开，但并不意味着所需的元件序列。例如，第一元件可被称为第二元件，并且类似地，第二元件可被称为第一元件，而不脱离本发明的范围。如这里所使用的，术语“和/或”包括关联列出项中的一个或多个的任何和所有组合。术语“或”不是在排他性意义上使用，而是在包容性意义上使用。

应当理解，在元件被称为“位于另一元件上”或“连接至另一元件”或“耦接至另一元件”的情况下，该元件可以直接位于该另一元件上或连接至该另一个元件或耦接至该另一元件，或者可以存在中间元件。相反，在元件被称为“直接位于另一元件上”或“直接连接至另一元件”或“直接耦接至另一元件”的情况下，不存在任何中间元件。用于描述元件之间的关系的其它词语应当以类似的方式解释(例如，“位于…之间”相对于“直接位于…之间”、“与…相邻”相对于“与…直接相邻”，等等)。

这里使用的术语仅为了描述特定实施例，并且不旨在限制本发明。如这里所使用的，单数形式“a”、“an”和“the”也旨在包括复数形式，除非上下文另有明确指示。还应当理解，术语“comprises”、“comprising”、“includes”和/或“including”在这里使用时指定所述特征、步骤、操作、元件和/或组件的存在，但不排除一个或多个其它特征、步骤、操作、元件、组件和/或其组的存在或添加。

可以使用诸如“在…之下”、“在…下方”、“下部”、“在…上方”、“上部”等的空间相对术语来描述元件和/或特征与另一元件和/或特征的关系，例如，如图所示。应当理解，除了图中所描绘的定向之外，空间相对术语意在还包含使用和/或操作中的装置的不同定向。例如，如果图中的装置被翻转，则被描述为“在其它元件或特征下方”和/或“在其它元件或特征之下”的元件将被定向成“在其它元件或特征上方”。装置可以以其它方式定向(例如，旋转90度或以其它定向旋转)，并且这里所使用的空间相对描述符被相应地解释。

这里参考作为理想化典型实施例(和中间结构)的示意图的截面图来描述典型实施例。正因如此，预期例如由于制造技术和/或公差而引起的相对于图的形状的变化。因此，典型实施例不应被理解为限于这里所示的区域的特定形状，而应包括例如由制造导致的形状的偏差。

就功能特征、操作和/或步骤在这里被描述或以其它方式被理解为包括在发明构思的各个实施例内而言，这种功能特征、操作和/或步骤可以体现在功能框、单元、模块、操作和/或方法中。并且就这种功能框、单元、模块、操作和/或方法包括计算机程序代码而言，这种计算机程序代码可被存储在可由至少一个计算机处理器执行的诸如非暂时性存储器和介质等的计算机可读介质中。

根据发明构思的方面，系统和方法行为对用户(例如，运载工具的驾驶员和/或乘客)来说更方便，并且减少或消除了由于作为第二音频流的中断公告或警告引起的第一(例如，信息娱乐)音频流的内容丢失。

图1是可以进行根据发明构思的方面的音频流混合的架构100的实施例的框图。在图1的整体架构100中，各种系统和装置可以经由一个或多个有线和/或无线通信系统、网络和/或通道(共同地用云10表示)进行通信。通信系统可以包括因特网、全球定位系统(GPS)、蜂窝网络、Wi-Fi和蓝牙等。

在图1中，运载工具一般表示为汽车和卡车40。虽然本发明一般将在运载工具的上下文中描述，但是发明构思可以应用于包括音频输出装置的多种运载工具中的任意运载工具(例如，飞机、自行车和火车等)。另外，在一些实施例中，发明构思可以应用于其它类型的音频输出装置，该其它类型的音频输出装置可以包括但不限于移动电话、平板电脑、平板手机、个人计算机、膝上型计算机和电视(包括智能电视)等(在图1中被共同地以附图标记50和60指示)。在这里的描述指代运载工具或运载工具头单元的情况下，应当理解，除非另有说明，否则相同的描述也可以应用于其它类型的音频输出装置(诸如上述音频输出装置等)。

一般来说，如这里所使用的短语“音频输出装置”意指被配置为至少输出第一音频流和作为中断警告或公告的第二音频流的电子装置。第一音频流可以提供各种类型的内容中的任意内容，诸如信息娱乐等。第二音频流包括要在第一音频流的输出期间输出的内容，这可能导致第一音频流内容的至少一部分的丢失或显著劣化。第二音频流可以包括由用户在第一音频流的输出期间选择性地输出的内容或时间敏感内容。

在图1中，第一音频流源20可以将第一音频流1提供到至少一个音频输出装置(诸如运载工具40和/或一个或多个其它类型的音频输出装置50和60等)。第一音频流1可以是或包括音乐、语音和/或其它形式的音频(例如信息娱乐)。虽然图1示出第一音频流源20在运载工具40的外部，但是第一音频流源20也可以在运载工具40的本地，例如，从本地或车载存储介质或系统输出。

第二音频流源30可以将第二音频流2递送到至少一个音频输出装置(诸如运载工具40和/或一个或多个其它类型的音频输出装置50和60等)。第二音频流2可以包括通常作为对第一音频流的输出的中断而输出以例如引起第一音频流内容的部分的丢失或显著劣化的信息。第二音频流的类型的示例包括但不限于导航系统输出(例如，针对驾驶员的时间敏感方向)、转换为输出语音的传入文本消息以及运载工具状况输出等。虽然图1示出第二音频流源30在运载工具40的外部，但是第二音频流源30也可以在运载工具40的本地，例如，从本地或车载存储介质或系统输出。

在一些实施例中，第二音频流2可以包括(例如，来自外部第二音频流源30的)广告公告、公共警报和警告、或其它时间敏感信息。在一些实施例中，第二音频流2可以基于运载工具40的位置、条件或状况、或运载工具40相对于其它运载工具的接近度、结构、商业(例如，购物中心、餐馆、体育场馆和/或娱乐场馆)、兴趣点、或交通、道路或天气条件而具有时间敏感性。外部第二音频流源30可以例如包括经由一个或多个通信网络和/或系统10将第二音频流2发送到运载工具40的导航系统、广告和营销系统、和/或紧急、警报和咨询系统。

外部应用系统70还可以向运载工具40提供独立于第一音频流1或第二音频流2、但是可用于递送和/或输出第一音频流1和/或第二音频流2的内容。这种外部系统可以包括GPS、蜂窝服务系统、运载工具监视系统、以及/或者递送、接收和/或与运载工具、其系统和/或运载工具内的装置(诸如运载工具乘员的移动电话等)交换信息和数据的其它系统。例如，这种外部应用系统70可用于定位和/或跟踪运载工具和/或其乘员以及/或者评估或报告运载工具或其子系统的状况。

图2是根据发明构思的方面的音频流混合系统200的实施例的框图。图2的音频流混合系统200可以是运载工具40(或其它音频输出装置)的一部分或由其托管。在一些实施例中，音频流混合系统200可以是负责处理并例如向运载工具乘员输出第一音频流1和第二音频流2的运载工具头单元的一部分。在一些实施例中，运载工具头单元(包括音频流混合系统200)和远程系统(例如，第一音频流内容源20或第二音频流内容源30和/或外部应用系统70)可以合作执行音频流混合功能。

在本实施例中，运载工具(或运载工具头单元)40包括至少一个处理器210，其例如经由至少一个总线(BUS)而耦接到至少一个计算机存储装置或存储器220。计算机存储部220可以采取任何现在已知或后来开发的计算机存储装置的形式，例如包括但不限于硬盘驱动器、各种形式的随机存取存储器、各种形式的只读存储器、和/或光盘。计算机存储部220可以存储音频流混合系统200执行其任务(包括进行图3的方法300)所必需的程序代码、指令和数据。计算机存储部220还可被配置为存储和/或缓冲第一音频流1、第二音频流2和/或其修改形式。

至少一个通信接口模块230可被配置为使运载工具40和/或音频流混合系统200能够与运载工具外部和运载工具本地的系统和子系统通信和交换信息和数据。例如，运载工具40和/或音频流混合系统200可被配置为经由通信接口模块230接收来自至少一个第一音频流源20(无论是本地的、是车载的、或还是外部的)的第一音频流1和来自至少一个第二音频流源30(无论是本地的、是车载的、或还是外部的)的第二音频流2。通信接口模块230还能够实现与外部应用70的通信。

在各个实施例中，第一音频流源20可以在运载工具40的音频流混合系统200的外部，诸如AM/FM无线电、卫星无线电或其它形式的远程信息或娱乐系统等。在各个实施例中，第一音频源20可以在运载工具40的音频流混合系统200的本地，诸如位于运载工具40的本地的用于输出来自光盘、本地硬盘驱动器、USB装置或来自经由有线或拴线连接或短距离无线连接(例如，蓝牙)而耦接至运载工具40的本地装置(例如，移动电话或便携式音频播放器)的音乐、音频书籍或其它音频内容的应用240等。

在各个实施例中，第二音频流源30可以在音频流混合系统200的外部，诸如远程导航系统、公共警告或警报系统、文本在运载工具40中被转换为语音(文本转语音(TTS))的文本系统、或广告系统等。在各个实施例中，第二音频流源30可以在音频流混合系统200的本地，诸如位于运载工具40的本地的用于输出来自运载工具内或车载导航系统的导航信息或者来自运载工具监视和/或警报系统的警告和公告的应用240等。

第一音频流1和第二音频流2可以经由一个或多个本地(例如，运载工具内或车载)音频输出装置260(诸如包括一个或多个扬声器的本地或车载运载工具娱乐系统等)输出。

在各个实施例中，图2中的虚线内所指示的音频流混合系统200被配置为利用音频输出装置(例如，运载工具40)的处理器210和计算机存储部220，因此这些共享资产如图2中的音频流混合系统200的虚线内所示。在其它实施例中，音频流混合系统200可以使用不同的或专用的处理器和/或计算机存储部。

在本实施例中，音频流混合系统200包括音频分析处理器270，其被配置为将第一音频流1缓冲在计算机存储部220中并分析第一音频流1以确定用于输出第二音频流2的一个或多个插入点。在一些实施例中，音频分析处理器270可以分析第一音频流1以定位暂停、音频间隙和/或低音频水平作为插入点。在缓冲第一音频流1时，第一音频流可能具有延迟输出(例如，约几秒)。

输入/输出控制模块250可以经由本地音频装置260来管理第一音频流1的缓冲和输出。输入/输出控制模块250还可以管理第二音频流2的接收和存储，该第二音频流2也可以在计算机存储部220中缓冲，直到在第一音频流1的插入点处输出为止。因此，第二音频流的输出可能延迟并在第一音频流的插入点处插入。第二音频流2可以具有关联的紧急标识符，该紧急标识符影响或指示输出第二音频流之前的最大延迟。在一些实施例中，第二音频流源30可以包括具有第二音频流2和紧急标识符或将紧急标识符包括作为第二音频流2的一部分。在一些实施例中，输入/输出控制模块250和/或音频分析处理器270可以根据特定的第二音频流源30来关联紧急水平，其中不同的第二音频流源可以具有不同的关联紧急水平。例如，作为第二音频流的导航指令可以具有带最大延迟的预定紧急水平，例如，必须在10秒或更短的时间内输出。

音频流混合系统200可以包括音频修改处理器280，该音频修改处理器280被配置为修改第一音频流1和可选的第二音频流2以在使第一音频流1的内容的丢失或劣化最小、甚至没有丢失或劣化的情况下完成第二音频流2到第一音频流1中或与第一音频流1的混合。音频修改处理器可以结合输入/输出控制模块250、使用各种技术中的一种或多种来完成混合。

在一些实施例中，当新的进行中断的第二音频流2到达时，音频流源30可以指示紧急性和/或可接受的最大延迟。基于所指示的紧急性和/或最大延迟，分析所缓冲的第一音频流1，以在未来音频中查找中断的破坏性最小的插入点。音频流混合系统200所进行的分析的一部分可以是将第一音频流分类为音乐或语音，然后查找语音中的间隙或暂停作为可能的插入点。可以使用各种语音分析技术中的一种或多种(例如，使用用以查找句子、短语、词语的结束或其它自然中断点的话音活动检测(VAD)、自动语音识别(ASR)和/或自然语言理解(NLU)处理)来查找语音和/或音乐歌词中的间隙或暂停。在一些实施例中，另外或可选地，可以针对作为可能插入点的间隙或暂停或具有低音量的点分析语音和/或音乐。

在各个实施例中，一旦识别出插入点，如果第一音频流1来自可以停止的介质(例如，CD、USB、硬盘驱动器或其它计算机存储介质)，则它将在该点处暂停并随后恢复，而不会丢失任何第一音频流内容。但是，在一些实施例中，作为对第一音频流的修改的一部分，可以省略第一音频流的内容中的暂停或间隙。在各个实施例中，如果第一音频流1不能停止(例如，来自无线电)，则在计划插入第二音频流之前和之后的音频可以在时域和/或频域中被扭曲或以其它方式被修改，以为第二音频流2腾出空间。

在一些实施例中，第一音频流1的在第二音频流2的插入点之前和之后的部分可被扭曲为例如其自然速度的110％或120％。优选地，第一音频流的部分的扭曲不会显著降低扭曲部分的可理解度(intelligibility)。作为示例，如果第二音频流2的长度为6秒、并且使用120％的扭曲，则在5x 6s＝30s秒后，第一音频流将被完全赶上。扭曲可以由音频修改处理器280确定，并由输入/输出控制模块250实现，从而访问所缓冲的第一音频流1和第二音频流2。

在其它实施例中，可用于修改第一音频流1的另一技术是丢弃第一音频流的不需要的位(诸如长暂停等)，这也可以通过音频修改处理器280和输入/输出控制模块250来实现。在其它实施例中，如果第一音频流1是音乐、音频修改处理器280可以将第一音频流的音量调节为低或静音(0或接近0的音量水平)作为背景并且在前景中更显著地输出第二音频流，则文本转语音(TTS)或其它第二音频流公告可被定制为在第一音频流(例如，音乐)的前面而仍然完全可理解。

在各个实施例中，音频修改处理器280和输入/输出控制模块250可以根据第一音频流水平来提升作为第二音频流2的语音输出的水平。在一些实施例中可以使用的另一更复杂的选项是不仅调节输出的水平，而且还调节输出的时频结构。在各个实施例中，这可以与Lombard效应类似地实现——当人处于噪声中时，他们会大声说话并进行音韵学调节：元音加长、共振峰偏移等，以在噪声环境内产生提高的语音可理解度。所得到的音频流语音可以经过一些修改而被输出，以例如通过使用参数编码提高质量来提高在考虑到噪声的情况下的可理解度。

在各个实施例中，音频修改处理器280和输入/输出控制模块250可以利用TTS多风格构思来区别第二音频流与第一音频流。在混合音频流包括播放第二音频流2作为背景第一音频流1的前景的情况下，可以使用这种方法。可以根据第一音频流中所使用的确定话音风格来进行针对第二音频流的语音的选择，其中这两种话音风格之间的区别意在提高前景中的第二音频流的可理解度。例如，根据第一音频流中的话音，可以针对第二音频流使用正式/更清晰的话音或不太正式、更友好(但不够清晰)的话音。在一些实施例中，可以选择第二音频流的语音风格以匹配特定需求(相对于背景的更高可理解度、相对于其它源的定时等)。

图3是根据发明构思的方面的可由图2的系统进行的音频流混合的方法300的实施例。如这里所述，第二音频流(例如，进行中断的公告或警告)与第一音频流(例如，信息娱乐)混合。在一些实施例中，第二音频流是在第一音频流的输出期间接收到的，并且可以发起图3的方法300。例如，在一些实施例中，接收第二音频流可以发起第一音频流中的插入点的缓冲和/或确定。在一些实施例中，第一音频流的插入点的缓冲和确定可以独立于第二音频流的接收而进行。

在步骤310中，从本地或外部第一音频流源20接收第一音频流1，并由音频输出装置(例如，运载工具40或装置50和60)缓冲该第一音频流1。所缓冲的第一音频流1可被缓冲并经由例如运载工具40的音频输出装置而被输出为修改后或未修改的音频流。在步骤312中，由音频输出装置从第二音频流源30接收第二音频流2，该第二音频流2也可被缓冲。缓冲第二音频流2使系统200能够进行分析以确定第一音频流1内的应输出第二音频流2的位置。第二音频流2可以具有相关联的紧急水平标识符或最大延迟标识符，以用于协助确定第一音频流1内的可以插入并由音频输出装置输出第二音频流2的位置。

在步骤314中，分析第一音频流1以确定用于插入第二音频流2(例如，公告或警告)的一个或多个插入点。作为示例，插入点可以是具有暂停、间隙和/或低音量的第一音频流的一部分。一个或多个插入点的确定可以基于一个或多个插入点标准来确定，该插入点标准例如包括音量水平或幅度、音频信号频率、音频信号定时和/或音频的基于内容的特征(诸如自然语言处理属性)。

如果确定了多个潜在插入点，步骤314可以包括从多个插入点中选择插入点。选择插入点可以基于最早的插入点、间隙或暂停最长的插入点、音量最低的插入点、基于对第一音频流的语音和/或自然语言处理的对第一音频流的内容具有最小破坏性影响的插入点、或其两个或更多个的组合。

可以使用各种语音分析技术中的一种或多种(例如，使用用以查找句子、短语、词语的结束或其它自然中断点的话音活动检测(VAD)、自动语音识别(ASR)和/或自然语言理解(NLU)处理)来查找第一音频流1中的语音和/或音乐的间隙或暂停。在一些实施例中，另外或可选地，可以针对作为可能插入点的基于第一音频流的音量水平的间隙和/或暂停，来分析语音和/或音乐，其中零、基本上为零或相对低的音量水平可被确定为指示第一音频流中的语音或音乐的间隙/或暂停。

在一些实施例中，音频流混合系统200和步骤314可以实现间隙、暂停和/或低音量水平的阈值，使得对照一个或多个阈值分析第一音频流1的部分，以判断该部分在要被指定为适合插入点的间隙和/或暂停的足够长的持续时间内是否具有足够低的音量水平。在一些实施例中，在这样的确定中不能利用持续时间，例如，第一音频流1的音量水平(或幅度)为零、基本上为零和/或低于阈值的任何点可被确定为插入点。使用多种话音、语音和/或自然语言处理技术中的任一种，可以将段落、句子、短语或词语的结束处的零、基本上零、低于阈值的音量确定为插入点。关于音量水平阈值，音量水平阈值可以例如是基于幅度的预定绝对值、第一音频流的全部或部分的最大幅度的预定百分比、或第一音频流的全部或部分的平均幅度的预定百分比。

如果紧急性或最大延迟与第二音频流2相关联，则第一音频流1中的要插入第二音频流2的位置可以另外或可选地至少部分地基于紧急性或最大延迟。例如，如果与第二音频流相关联的紧急性水平和/或最大延迟为10秒，则步骤314可以包括在第一音频流的接下来的10秒内确定至少一个插入点。在这种情况下，任何预定阈值可被放宽或暂停，以确保第二音频流2在相关联的最大延迟内播放。例如，在这种最大延迟内，音频流混合系统200和步骤314可以包括例如使用上述的技术来确定最佳插入点(诸如自然语言串中的最低音量部或破坏性最小的位置等)以插入第二音频流。

在步骤316中，在所选择的插入点处修改第一音频流1以容纳第二音频流2的插入。修改第一音频流可以例如包括暂停第一音频流、扭曲第一音频流、调整第一音频流的音量和/或频率方面。第一音频流可以在插入第二音频流之前、期间和/或之后修改。第一音频流的扭曲部分可用于使第一音频流在插入第二音频流后赶上和/或恢复未修改的输出。

如果第一音频流可以停止(例如，从CD、USB或硬盘驱动器输出)，则第一音频流1的修改可以是在插入点处暂停第一音频流，并且在步骤318处，可以在暂停处插入第二音频流。在一些情况下，甚至是来自外部源音频流(例如无线电)的任何被缓冲的第一音频流都可以在必要时暂停。

然而，如果第一音频流不能停止(例如，无线电)，并且如果第二音频流具有规定在第一音频流的间隙、暂停或低音量部分之前输出第二音频流的紧急性或最大延迟，则系统200可以确定输出第二音频流2作为前景音频输出(在步骤318中)，其中第一音频流1同时作为背景音频输出。如以上所讨论的，可以使用各种技术来修改第一音频流1和/或第二音频流2，使得这两者同时被可理解地输出。在一些实施例中，还可以修改第二音频流以增加或增强其可理解度。例如，在一些实施例中，如以上所讨论的，第二音频流作为前景内容在作为背景内容的第一音频流上播放，可以修改第二音频流的话音或话音的各方面以增强可理解度。

在插入第二音频流后，在步骤320中恢复第一音频流的输出，作为修改后或未修改的输出。

图4A是用于描述第一音频流的实施例的图形400。图4B是用于描述根据发明构思的方面的、被修改以容纳第二音频流的图4A的第一音频流的实施例的图形410。图4C是用于描述根据发明构思的方面的、被修改以容纳第二音频流的图4A的第一音频流的另一实施例的图形420。图4D是用于描述根据发明构思的方面的、被修改以容纳第二音频流的图4A的第一音频流的又一实施例的图形430。在这些图形中，以y轴为幅度并且x轴为时间来标绘音频流。

在图4A至4D中，第一音频流是附图标记412，与上面的第一音频流1类似。第二音频流是附图标记414。在图4A中，仅第一音频流412被示出为缓冲，并且其持续时间为时间t1。在图4B中，第二音频流414也被示出，并且其持续时间为d。第二音频流414在插入点I处被插入第一音频流412中。在图4B中，对第一音频流412的修改是在插入点处使第一音频流暂停持续时间d(即，第二音频流418的持续时间或大约是该持续时间)。作为插入第二音频流414后的第一音频流412的结束的时间t2等于或约等于t1+d≈t2。

在图4C中，在插入点I处修改第一音频流414以容纳第一音频流412和第二音频流414的同时输出。第一音频流412的修改部分由附图标记416表示。可以修改第一音频流和第二音频流以容纳第二输出流的可理解输出，而不会使第一音频流中的内容显著劣化或丢失。

在图4D中，在插入点I之前的第一音频流的一部分416a被修改(例如，扭曲)以及第二音频流在插入点处插入。在第二音频流414的输出结束处或附近，对第一音频流的一部分416b进行修改(例如，扭曲)，使得第一音频流保持其原始结束时间t1。在其它实施例中，仅插入第二音频流414之前或之后的第一音频流的一部分可被修改(例如，扭曲)。在其它实施例中，即使在对插入第二音频流之前和/或之后的第一音频流的一部分进行修改的情况下，第一音频流的完成也不必在t1处或基本上在t1处发生，它可以在t1之后但在t1+d之前发生。

图5是第一音频流510的图形500的实施例，该图形以y轴为幅度并且x轴为时间的方式表示。在图5中，音频流混合系统200确定了两个潜在插入点512、514。插入点512出现在时间t2处。各插入点在一时间段内具有零音量或低音量，所述一时间段对于插入点512为d1并且对于插入点514为d2。这里，d1>d2。在各个实施例中，例如，由于插入点512是第一插入点、由于在第二音频流具有规定第二音频流必须在第二插入点514的时间之前输出的关联的紧迫性或最大延迟的情况下插入点512是最长插入点、或者由于其某种组合，因此插入点512可被选择为插入点。在各个实施例中，例如，在应用于第一音频流510的语音或自然语言处理指示第二插入点出现在第一音频流的内容的更自然且破坏性更小的一部分处(例如，出现在音乐内容中的句子或行或节的结束处)的情况下，第二插入点514可被选择为插入点。

图6是根据发明构思的方面的、被修改以容纳第二音频流610的图5的第一音频流的图形600的实施例。在图6中，选择了第一插入点512。在第一音频流510的时间t2处插入了第二音频流610。第二音频流610的持续时间为d’，其大于插入点512的持续时间d2(参见图5)。第一音频流512已被暂停以插入第二音频流610，并且第一音频流510已在第二音频流610完成后恢复。在各个实施例中，如图6所示，第一音频流510的低音量(其可以是第一音频流510的内容中的间隙或暂停)已被完全省略，例如，在输出第二音频流之后恢复第一音频流时不包括。在本实施例中，由于对第一音频流的插入，因此第一音频流510的完成可以在时间t1之后发生。

图7是根据发明构思的方面的、被修改以容纳图6的第二音频流610的图5和图6的第一音频流510的图形700的另一实施例。在图7中，第一音频流510已被修改为包括插入第二音频流610之前的第一部分510’和插入第二音频流610之后的第二部分510”。第一部分510’和第二部分510”已被扭曲(例如，加速)，以使第一音频流在时间t1处完成，该时间t1是图5的未修改的第一音频流510的完成时间。

使第一音频流510的第一部分510’扭曲导致插入点510在时间上向前移动到时间t3，其中t3<t2(在图5中)。如图6中所示，当利用第一音频流510的第二部分510”的输出来恢复第一音频流的输出时，无需包括插入点处的第一音频流的低水平部分。

在其它实施例中，仅第一音频流的第一部分或第二部分可被扭曲。另外或可选地，第二音频流或其部分可被扭曲。在一些实施例中，仅第二音频流可被扭曲以最小化或消除修改第一音频流的需要。例如，如果扭曲第二音频流使得第二音频流在插入点的持续时间内可理解地适配，则可以在前景中播放第二音频流的同时将第一音频流修改为背景或零音量。作为另一示例，可以在输出第二音频流的同时暂停第一音频流；然后可以在插入内的第一音频流的低音量水平被省略的情况下恢复第一音频流。在另一实施例中，第一音频流可以在插入点处扭曲(例如，减速)，直到第二音频流完成为止。

在各个实施例中，利用发明构思的方面，可以实现用于修改第一音频流和/或第二音频流的其它技术以在第一音频流的内容的丢失最小的情况下混合第一音频流和第二音频流。

虽然上文描述了被认为是最佳模式和/或其它优选实施例的内容，但应当理解，可以在其中进行各种修改，并且可以以各种形式和实施例来实现本发明，并且可以在许多应用中应用本发明，这里仅描述了这些应用中的一些。以下权利要求意在要求保护字面描述的内容及其所有等同项，包括落在各权利要求的范围内的所有修改和变化。

应当理解，为了清楚起见，在单独实施例的上下文中描述的本发明的某些特征也可以在单个实施例中组合地提供。相反，为了简洁起见在单个实施例的上下文中描述的本发明的各种特征也可以分开或以任何合适的子组合提供。

例如，应当理解，任何权利要求(无论是独立的还是从属的)中所阐述的所有特征可以以任何给定方式组合。

Claims

1.一种在音频输出装置中使第二音频流与第一音频流混合的方法，所述方法包括：

缓冲所述第一音频流；

确定所述第一音频流内的插入点；

输出所缓冲的第一音频流，包括在所述插入点处修改所述第一音频流的至少一部分的输出以容纳所述第二音频流的输出，从而最小化或避免所述第一音频流的内容的劣化或丢失；

在所述插入点处输出所述第二音频流；以及

在所述第二音频流完成后继续输出所缓冲的第一音频流。

2.根据权利要求1所述的方法，其中，所述第二音频流是在所述第一音频流的输出期间接收到的。

3.根据权利要求1所述的方法，其中，所述第一音频流的缓冲响应于接收到所述第二音频流而发生。

4.根据权利要求1所述的方法，其中，所述第一音频流是无线电流。

5.根据权利要求1所述的方法，其中，所述第一音频流是来自所述音频输出装置本地的有形存储介质的内容的重放。

6.根据权利要求5所述的方法，其中，所述有形存储介质是光盘、统一串行总线介质、硬盘驱动器或计算机存储器。

7.根据权利要求1所述的方法，其中，所述第二音频流是与紧急标识符或最大延迟标识符一起由所述音频输出装置接收到的。

8.根据权利要求7所述的方法，其中，所述方法包括：

基于所述紧急标识符或最大延迟标识符来识别所述第二音频流的输出的最大延迟。

9.根据权利要求7所述的方法，还包括：

至少部分地基于所述紧急标识符或最大延迟标识符来确定所述插入点。

10.根据权利要求1所述的方法，其中，确定所述插入点包括查找所述第一音频流内的间隙或暂停。

11.根据权利要求1所述的方法，其中，确定所述插入点包括使用一种或多种语音分析技术来分析所述第一音频流以查找句子、短语、词语的结束或其它自然中断点。

12.根据权利要求11所述的方法，其中，所述一种或多种语音分析技术包括话音活动检测即VAD、自动语音识别即ASR以及自然语言理解即NLU中至少之一。

13.根据权利要求1所述的方法，其中，确定所述插入点包括查找所述第一音频流内的低音量水平。

14.根据权利要求1所述的方法，其中，在所述插入点处修改所述第一音频流包括在所述插入点处暂停所述第一音频流。

15.根据权利要求1所述的方法，其中，在所述插入点处修改所述第一音频流包括修改所述第一音频流的时频结构。

16.根据权利要求1所述的方法，其中，在所述插入点处修改所述第一音频流包括在所述插入点处或附近扭曲所述第一音频流。

17.根据权利要求1所述的方法，其中，在所述插入点处输出所述第二音频流包括修改所述第二音频流。

18.根据权利要求17所述的方法，其中，修改所述第二音频流包括修改所述第二音频流的时频结构。

19.根据权利要求17所述的方法，其中，修改所述第二音频流包括修改所述第二音频流的话音风格以相对于所述第一音频流提高可理解度。

20.根据权利要求1所述的方法，其中，所述音频输出装置是运载工具头单元的一部分或形成运载工具头单元的一部分。

21.根据权利要求20所述的方法，其中，所述第二音频流是来自运载工具导航系统、运载工具监视系统或文本转语音系统的公告或警告。

22.根据权利要求1所述的方法，其中，所述第二音频流是来自广告系统的公告或警告。

23.根据权利要求1所述的方法，其中，所述音频输出装置是包括移动电话、平板电脑或平板手机的无线便携式装置。

24.一种音频流混合系统，包括：

一个或多个处理器，其耦接至一个或多个计算机存储装置、一个或多个第一音频流源、一个或多个第二音频流源以及一个或多个音频输出装置，其中，所述一个或多个处理器被配置为：

在所述一个或多个计算机存储装置中缓冲来自第一音频流源的第一音频流；

确定所述第一音频流内的插入点；

经由所述一个或多个音频输出装置来输出所缓冲的第一音频流，其中，所述一个或多个处理器被配置为在所述插入点处修改所述第一音频流的至少一部分的输出以容纳第二音频流的输出，从而最小化或避免所述第一音频流的内容的劣化或丢失，所述第二音频流是从第二音频流源接收到的；

在所述插入点处经由所述一个或多个音频输出装置来输出所述第二音频流；以及

在所述第二音频流完成后继续经由所述一个或多个音频输出装置来输出所缓冲的第一音频流。

25.根据权利要求24所述的系统，其中，所述第二音频流是在所述第一音频流的输出期间接收到的。

26.根据权利要求24所述的系统，其中，所述一个或多个处理器被配置为响应于接收到所述第二音频流而缓冲所述第一音频流。

27.根据权利要求24所述的系统，其中，所述第一音频流是无线电流。

28.根据权利要求24所述的系统，其中，所述第一音频流是来自所述音频输出装置本地的有形存储介质的内容的重放。

29.根据权利要求28所述的系统，其中，所述有形存储介质是光盘、统一串行总线介质、硬盘驱动器或计算机存储器。

30.根据权利要求24所述的系统，其中，所述第二音频流是与紧急标识符或最大延迟标识符一起由所述音频输出装置接收到的。

31.根据权利要求30所述的系统，其中，所述一个或多个处理器被配置为：

32.根据权利要求30所述的系统，其中，所述一个或多个处理器被配置为：

33.根据权利要求24所述的系统，其中，所述一个或多个处理器被配置为查找所述第一音频流内的间隙或暂停以确定所述插入点。

34.根据权利要求24所述的系统，其中，所述一个或多个处理器被配置为使用一种或多种语音分析技术来分析所述第一音频流以查找句子、短语、词语的结束或其它自然中断点，从而确定所述插入点。

35.根据权利要求34所述的系统，其中，所述一种或多种语音分析技术包括话音活动检测即VAD、自动语音识别即ASR以及自然语言理解即NLU中至少之一。

36.根据权利要求24所述的系统，其中，所述一个或多个处理器被配置为查找所述第一音频流内的低音量水平以确定所述插入点。

37.根据权利要求24所述的系统，其中，所述一个或多个处理器被配置为在所述插入点处暂停所述第一音频流，作为对所述第一音频流的修改。

38.根据权利要求24所述的系统，其中，所述一个或多个处理器被配置为修改所述第一音频流的时频结构，作为对所述第一音频流的修改。

39.根据权利要求24所述的系统，其中，所述一个或多个处理器被配置为在所述插入点处或附近扭曲所述第一音频流，作为对所述第一音频流的修改。

40.根据权利要求24所述的系统，其中，所述一个或多个处理器被配置为修改所述第二音频流并在所述插入点处输出所述第二音频流作为修改后第二音频流。

41.根据权利要求40所述的系统，其中，所述修改后第二音频流包括修改后的时频结构。

42.根据权利要求40所述的系统，其中，所述一个或多个处理器被配置为修改所述第二音频流的话音风格以相对于所述第一音频流提高可理解度。

43.根据权利要求24所述的系统，其中，所述音频输出装置是运载工具头单元的一部分或形成运载工具头单元的一部分。

44.根据权利要求43所述的系统，其中，所述第二音频流是来自运载工具导航系统、运载工具监视系统或文本转语音系统的公告或警告。

45.根据权利要求24所述的系统，其中，所述第二音频流是来自广告系统的公告或警告。

46.根据权利要求24所述的系统，其中，所述音频输出装置是包括移动电话、平板电脑或平板手机的无线便携式装置。