CN113220259A

CN113220259A - 音频内容制作、音频排序和音频混合的系统和方法

Info

Publication number: CN113220259A
Application number: CN202011478636.9A
Authority: CN
Inventors: 布兰登·帕特里克·卡西迪
Original assignee: Super Fidelity Ltd
Current assignee: Super Fidelity Ltd
Priority date: 2015-10-27
Filing date: 2016-10-27
Publication date: 2021-08-06
Anticipated expiration: 2036-10-27
Also published as: EP3369093A1; US20170115956A1; US11687315B2; US11593063B2; US20220129236A1; US20210389926A1; US10409546B2; US10509622B2; US20200073625A1; WO2017075279A1; US20230280970A1; CN113220259B; US10990350B2; CN108780653B; US20200133628A1; US20250181305A1; CN108780653A; EP4553835A2; US11169765B2; EP3369093A4

Abstract

本发明实施例提供了一种具有计算装置的音频混合系统，计算装置处理包括接收来自用户的转换请求的操作，转换请求包括至少一个配方的至少一个内容项目之间的至少一个转换的退出元素和/或进入元素。配方包括间断的内容的多个元素的序列，其中，至少一个内容项目包括音频内容和/或视频内容。操作包括使得音轨服务器使用有线的或无线的链路耦合到音频文件的元数据文件。元数据文件包括根据音频文件测量或计算的音频内容参数。操作包括计算退出元素和进入元素之间的转换，选择、汇编和调度用于转换的多个元素的序列，以及将退出元素添加到至少一个配方。

Description

音频内容制作、音频排序和音频混合的系统和方法

本申请是分案申请，其原案申请是申请号为PCT/US2016/059209、申请日为2016年10月27日的PCT申请并且于2018年6月22日进入中国国家阶段，国家申请号为201680075648.2，名称为“音频内容制作、音频排序和音频混合的系统和方法”。

相关申请

本申请要求于2015年10月27日提交的美国临时申请62/246,849，于2015年11月11日提交的美国临时申请62/254,072，以及于2016年9月12日提交的美国临时专利申请62/393,522的优先权，其全部内容通过引用并入本文。

背景技术

数字和互联网无线电服务在全球范围内改变了对音频内容的传送。数字格式(诸如压缩数字内容)的广泛使用为广播员提供了几乎无限的内容选择。从一首歌曲(或其它内容)转换到另一首歌曲时，大多数服务不会策略性地选择内容，并基于流派建立内容排序，或基于品牌、DJ和/或听众偏好播放内容。

数字和互联网服务以及其它交互式音频和视听传送服务(例如，诸如iTunes、Spotify、Amazon Prime Music、Tidal、YouTube等)通常包括内容之间的间隙或者通常次优地重叠或并置口头通告、播放简短商业广告，或在广播期间的任何时候渐变到新闻、天气或其它信息内容。内容是不连贯的，在用户消费内容的主要方式(即通过收听和观看)中，项目之间的声音和视觉间隙导致能量损失，缺乏连续性和令人不安。这种内容体验是无差别的，消费者通常无法仅仅通过收听将一个服务与另一个服务相区分。通常，听众对任何引入的内容元素的类型、内容和频率没有控制或影响。对于创建内容以为听众或目标听众提供具有个性化的全部或大部分内容的定制播放体验的制作引擎具有巨大的潜在市场。潜力是通过关注内容的呈现来改善对消费内容的体验：通过调节布局来改善元素之间的流动；增加使用个性和品牌区分体验的机会；动态地调节相邻内容的幅度，以减少刺耳的听觉转换；巧妙地管理内容项目之间的能量差距；并插入额外内容以创建更丰富、更吸引人的整体消费体验。

一些品牌和/或听众更喜欢用更广泛且更可选择的内容进行内容播放个性化，以定义广播内的指定时间段的指定调式或能量级别。提供完全定制和自动化的播放体验的服务具有很大的潜在市场，其中，内容调式或能量能够为听众定制。

发明内容

一些实施例包括音频混合系统，音频混合系统包括计算装置和非暂时性计算机可读介质，计算装置包括至少一个处理器，非暂时性计算机可读介质上存储有指令，指令在由计算装置执行时使计算装置执行操作。操作包括接收来自用户的转换请求，转换请求包括至少一个配方的至少一个内容项目之间的至少一个转换的退出元素和/或进入元素。至少一个配方包括间断的内容的多个元素的序列，并且至少一个内容项目包括音频内容和/或视频内容。操作还包括使得音轨服务器使用有线的或无线的链路耦合到至少一个音频文件的至少一个元数据文件。元数据文件包括根据至少一个音频文件测量或计算的音频内容参数。此外，操作包括计算退出元素和进入元素之间的转换，针对所述转换选择、汇编和调度多个元素的序列，以及将退出元素添加到至少一个配方。

在本发明的一些实施例中，转换请求包括至少部分地控制至少一个转换的至少一个规则。在一些实施例中，音轨服务器至少部分地基于至少一个规则来计算多个元素的序列中的任何一个元素中的位置。在一些实施例中，操作还包括在准备计算转换时确定退出元素之间的音量调节。

一些实施例包括至少部分地基于以下来计算退出元素和进入元素之间的转换：渐变模式，和/或退出元素和进入元素的韵律，和/或退出元素和进入元素之间的调式差异，和/或退出元素和进入元素之间的流派差异，和/或进入元素上的覆盖空间的类型和持续时间，和/或可用内容的类型。

在一些实施例中，元数据文件源自于至少一个音频特征数据库。在一些实施例中，音频特征数据库是音频混合系统的内部数据库和/或第三方源。在一些进一步的实施例中，至少一个第三方源包括AcousticBrainz(https：/acousticbrainz.org)和/或Echonest.com(the.Echonest.com)。

在一些实施例中，元文件包括至少一个音频文件的至少一部分的调式内容。调式内容由计算装置基于存储在非暂时性计算机可读介质上的指令来计算，当所述指令被计算装置执行时，使得计算装置至少部分地基于对以下的测量来计算调式内容：所述部分的节奏和/或可跳舞性和/或节拍响度和/或一般响度。

一些实施例包括操作，其包括基于幅度确定至少一个音频文件的内容的插入和开端。其它实施例包括确定至少一个音频文件的隐藏音轨的存在以及如果找到则移除。一些进一步的实施例包括基于幅度确定至少一个音频文件的淡出内容。一些实施例包括至少部分地基于持续时间和/或幅度来识别渐变类型为平滑或有韵律的操作。

在本发明的一些实施例中，至少一个规则指定内容池类型，和/或旁白品牌化，和/或扩展内容，和/或旁白内容，和/或内容类别，和/或使用的内容或特写，或/和元数据文件来源或创建，和/或用于歌曲覆盖的信任的级别，和/或专辑保护参数，和/或内容的频率和分离，和/或转换质量敏感度，和/或无间隙流派。

在一些实施例中，内容包括旁白，和/或音乐床，和/或声效，和/或采访，和/或引文，和/或琐事，和/或特写，和/或听众呼入，和/或新闻，和/或新闻文章，和/或新闻简讯，和/或新闻事件，和/或新闻快讯，和/或新闻通告，和/或当前新闻事件，和/或过去或历史新闻事件，和/或文章或事件，和/或商业广告或广告，和/或播音员信息，和/或DJ信息，和/或歌曲的至少一部分，和/或音乐，和/或琐事信息，和/或天气信息，和/或采访者或受访者信息。

在一些实施例中，内容包括至少一个属性，其中，至少一个属性包括播放频率规则，和/或何时调度规则，和/或播放该内容一次所需的最短时间。在一些进一步的实施例中，操作包括将音乐床调度到至少一个配方中。一些实施例包括可选地将进入元素包括到至少一个配方中。一些进一步的实施例包括将与任何内容项目相关联的扩展格式化内容添加到至少一个配方中。其它实施例包括将播音员元素包括到至少一个配方中。

在本发明的一些实施例中，针对所述转换，选择、汇编和调度多个元素的序列是至少基于播音员的。在一些其它实施例中，针对所述转换，选择、汇编和调度多个元素的序列是至少部分地基于在来自用户的转换请求中提供的消息信息的类型的。在一些进一步的实施例中，针对所述转换，选择、汇编和调度多个元素的序列是至少基于元素的任何一个的能量级别的。在一些进一步的实施例中，针对所述转换，选择、汇编和调度多个元素的序列是至少基于元素的任何一个的播放长度的。在其它实施例中，针对所述转换，选择、汇编和调度多个元素的序列包括在多个元素中的任意两个元素之间添加至少一个粘合元素。

在一些实施例中，至少一个粘合元素包括声效，和/或声音覆盖，和/或音乐床，和/或音乐，和/或歌曲的至少一部分，和/或通告。在一些实施例中，多个元素的序列的调度基于由计算装置计算的重叠，其中，非暂时性计算机可读介质包括指令，其由计算装置执行时，使计算装置执行操作，所述操作包括至少部分地基于中心声调、韵律模式、淡入类型、淡出类型、旋律、和声结构和幅度来确定元素的一个或更多个重叠。

在一些实施例中，由计算装置基于对一个或更多个重叠的确定来调节元素中的任何一个的幅度。一些实施例包括操作，所述操作包括确定对配方的至少一些内容的无间隙播放的要求，其中，针对所述转换，汇编和调度多个元素的序列包括至少两个元素之间的至少一个非可听间隙。在一些实施例中，多个元素的序列包括由计算装置计算的添加的控制消息，并且操作包括确定随时间的一个或更多个幅度调节作为控制消息。

附图说明

图1A描绘了根据本发明一些实施例的音频混合系统和方法的处理流程。

图1B图示了根据本发明的一些实施例的音频混合系统和方法的系统概述。

图2图示了根据本发明的一些实施例的、用于说明项目之间的间隙的内容项目的音频混合系统和方法的应用和使用。

图3图示了根据本发明的一些实施例的源音轨分析和编码。

图4是根据本发明的一些实施例的内容项目处理方法。

图5表示根据本发明的一些实施例的内容项目的旋律的识别。

图6表示根据本发明的一些实施例的内容项目的节拍帧的识别。

图7图示了根据本发明的一些实施例的、包括LUFS分析的分析内容项目的一部分的方法。

图8图示了根据本发明的一些实施例的LUFS和频率内容分析。

图9图示了根据本发明的一些实施例的3级内容项目分析系统的GUI界面。

图10图示了根据本发明的一些实施例的3级内容项目分析系统的GUI界面中的内容进入类型选择。

图11图示了根据本发明的一些实施例的3级内容项目分析系统的GUI界面中的内容进入调式选择。

图12图示了根据本发明的一些实施例的3级内容项目分析系统的GUI界面中的内容进入调式选择。

图13图示了根据本发明的一些实施例的3级内容项目分析系统的GUI界面中的内容进入特性(character)。

图14图示了根据本发明的一些实施例的3级内容项目分析系统的GUI界面中的整体调式选择。

图15图示了根据本发明的一些实施例的3级内容项目分析系统的GUI界面中的整体调式选择。

图16图示了根据本发明的一些实施例的3级内容项目分析系统的GUI界面中的内容项目部分的硬标杆(post)选择和软标杆选择。

图17图示了根据本发明的一些实施例的3级内容项目分析系统的GUI界面中的内容退出调式选择。

图18图示了根据本发明的一些实施例的3级内容项目分析系统的GUI界面中的内容退出类型。

图19A图示了根据本发明的一些实施例的3级内容项目分析系统的GUI界面中的内容退出特性选择。

图19B图示了根据本发明一些进一步的实施例的3级内容项目分析系统的GUI界面。

图20图示了根据本发明的一些实施例的内容项目之间的转换确定。

图21图示了根据本发明的一些实施例的内容项目之间的转换确定。

图22-24图示了根据本发明的一些实施例的示例间断构建。

图25图示了根据本发明的一些实施例的、被配置为操作和处理音频合成系统的部件和音频合成方法的计算机系统。

图26图示了根据本发明的一些实施例的制作内容创建服务器、系统和方法的制作引擎界面。

图27A图示了根据本发明的一些实施例的图26的制作引擎界面的制作的元素界面。

图27B图示了根据本发明一些进一步的实施例的制作内容创建服务器、系统和方法的制作引擎界面。

图28描绘了根据本发明的一些实施例的制作排序方法。

图29描绘了根据本发明的一些实施例的、在随机选择事件期间从可用于选择的内容池中选择一个内容池或任何池的任何内容的机率。

具体实施方式

在详细解释本发明的任何实施例之前，应当理解的是，本发明在其应用中不限于以下描述中阐述的或下面的附图中示出的部件的布置和构造的细节。本发明能够具有其它实施例并且能够以各种方式实践或执行。而且，应该理解的是，本文使用的措辞和术语是为了描述的目的，并且不应该被认为是限制性的。本文“包括”、“包含”或“具有”及其变型的使用意味着涵盖其后列出的项目及其等同物以及附加项目。除非另外指定或限定，术语“安装”、“连接”、“支撑”和“耦接”及其变型广泛地使用并且涵盖直接的和间接的安装、连接、支撑和耦接。此外，“连接”和“耦接”不限于物理的或机械的连接或耦接。

呈现以下讨论以使本领域技术人员能够制造和使用本发明的实施例。对所说明的实施例的各种修改对于本领域技术人员将是显而易见的，并且在不脱离本发明的实施例的情况下，本文的一般原理能够应用于其它实施例和应用。因此，本发明的实施例并不旨在限于所示的实施例，而是被赋予与本文公开的原理和特征一致的最宽范围。将参照附图来阅读以下详细描述，其中，不同附图中的相同元素具有相同的参考标记。不一定按比例绘制的附图描绘了所选择的实施例，并且不旨在限制本发明的实施例的范围。本领域技术人员将认识到，本文提供的示例具有许多有用的替代方案并且落入本发明的实施例的范围内。

本文公开的本发明的一些实施例包括用于将一个音频或视听内容转换为另一个音频或视听内容的系统和方法。本文公开的本发明的一些实施例包括用于创建音频或视听内容的系统和方法。本文描述的发明能够应用于在固定和/或移动装置上操作的音频内容、视觉(例如视频)内容。例如，在一个非限制性示例中，内容能够包括一首或更多首歌曲(或乐曲)。然而，其它实施例能够包括音频内容块(插入式广告、广告、程序、特写等)或诸如视频帧或图像和/或电影内容等的视频元素。本文描述的本发明的一些实施例能够与纯音频内容和/或视听内容一起使用。如本文所使用的，具有描述音频的过程的系统和方法能够应用于音频和视频。此外，一些实施例能够与不同类型的内容同等地操作(例如，包括被描述为用于音乐的非限制性实施例的方法的内容能够与诸如歌曲、声乐、通告、声效、商业广告等的其它类型的内容一起操作)。此外，在一些实施例中，对于视频内容，能够使用音频和视觉信息两者的特征来确定转换行为。

本文描述的系统和方法的一些实施例能够支持其中内容元素(本文中被称为“元素”)按顺序播放的任何类型的线性内容体验。在一些实施例中，系统和方法也能够驱动非线性行为(诸如用户跳过内容元素)以改善体验的交互行为。这些线性内容体验能够包括但不限于算法无线电(algorithmic radio)、人类程控无线电(human programmed radio)、播放列表播放、随机混排播放、共同编排体验(communally programmed experience)、新闻节目以及它们的任何组合。在一些实施例中，内容能够包括多个内容或元素，多个内容或元素包括但不限于音乐文件、一般音频内容(诸如广告、采访、播客、新闻、声效等)、视频内容或前述元素的任何组合。例如，一些实施例包括包含内容项目或多个内容项目的内容，每一个内容项目能够包括一个或更多个元素。此外，在一些实施例中，一个元素或多个元素能够是内容项目和/或内容。如本文这里所使用的，元素和内容项目可互换使用。此外，在一些实施例中，这些内容体验也能够是交互式的(用户能够使内容前进或后退)，或者能够是非交互式的(像传统的陆地无线电广播)。

一些实施例包括从正在被转换以做出决定的两个内容项目中提取的音频特征。这些音频特征能够被扩展以额外包括用于视频项目转换的视频特征(或音频和视频特征的组合)。在一些实施例中，该特征提取能够使用数字信号处理(DSP)的组合来执行，并且可选地能够包括人类分析(“标记”)。如本文所使用的，该分析和特征提取被称为“splogging(分析和特征提取)”，并且特征数据能够被称为“splog(特征)数据”。在一些实施例中，通过DSP处理和/或人类集合收集的特征能够使得系统和方法引擎能够得出关于任何指定内容覆盖的置信度，其能够用于决定何时以及何处进行覆盖处理。此外，这些特征还允许覆盖的巧妙布局和时间安排与内容中显著时间矩(有时称为“标杆(post)”)一致。例如，随着时间的推移，对歌曲中有韵律的、和弦的和旋律的内容的理解能够驱动系统引擎合适地覆盖播音员或广告消息(具有内容合适的声音和调式)，直到歌曲的声乐开始的点，并且不会与声乐重叠。此外，对幅度信息的理解也是重要的。如本文所使用的，DSP处理有时称为“特征提取”。

在一些实施例中，至少部分基于程序启发法，本文描述的系统和方法能够在转换内容之间或上方插入附加内容。这能够改善转换的质量，并满足控制品牌化体验的一套标准(本文称为“形式化(Formatics)”)。此外，这能够满足控制体验的其它因素(例如广告比率或中断新闻广播的引入比率)。在一些实施例中，这些扩展的转换能够逐元素地、逐层地实时或接近实时地制作，并且能够由多个单独的算法决定来驱动。在其它实施例中，转换能够使几个预制作的内容元素结合。

在一些实施例中，系统和方法能够提取固有属性(诸如从splogging处理导出的属性)、元数据属性(诸如标题、艺术家、声音、剧本/歌词、主题等)、应用属性(诸如任意分组)以及用户特定属性(例如，诸如当用户上次体验内容时和/或当用户上次体验内容的相关属性(诸如声音天赋、艺术家、专辑、流派等)时)。在一些实施例中，系统和方法能够允许单独的内容元素随着时间推移而传播，以便所制作的转换被用户或听众感知为新鲜的和有趣的。

使用如本文所述的一个或更多个实施例，可以通过基于围绕它的元素(及其固有特征)和/或用户的偏好和历史，和/或其中正在体验内容的广播通道的Formatics汇编每个元素，来实时地制作内容。在一些实施例中，这能够使广告与围绕它们的内容“原生制造(made native)”。这些广告(作为插入的内容)能够具有为特定转换、用户和内容通道定制选择的动态的声音天赋、朗读能量、伴音、内容覆盖、声效。元素之间的转换能够用于制作创建新元素的内容，新元素被注入到转换中或者成为内容项或其自身特性的元素。使用这里描述的方法的实施例能够实现创建基本上不间断(每天24小时，每周7天)运行的音频新闻广播，其全部由为听众汇编的内容组成。

本发明的一些实施例包括音频混合系统和方法，其能够表征第一内容(例如一个音轨)的一个或更多个参数、第二内容的一个或更多个参数(例如另一个音轨)并且将第一内容的至少一部分与第二内容混合。在一些实施例中，音频混合能够至少部分地基于第一内容和/或第二内容的一个或更多个参数。在本发明的一些实施例中，音频混合系统和方法能够包括至少一个机器处理，诸如由计算机系统基于音频混合系统和方法的一个或更多个软件模块执行的处理。在一些实施例中，音频混合系统和方法能够包括由人类分析者执行的一个或更多个分析方法。在本发明的一些实施例中，音频混合系统和方法能够使用基于方法的至少一个计算机系统和至少一个人类分析者或操作者来分析一个或更多个内容。

在一些实施例中，音频源能够包括来自计算机网络或服务器的录制音频。在一些实施例中，音频源能够包括来自第三方计算机网络或服务器的录制音频。例如，在一些实施例中，音频源能够包括从第三方网络服务器下载或流传输的录制音频，该第三方网络服务器包括一个或更多个歌曲录音、一个或更多个广告商和/或一个或更多个新闻或天气通告。在一些实施例中，一个或更多个广告商和/或一个或更多个新闻或天气通告能够包括人类播音员的录音。在其它实施例中，一个或更多个广告商和/或一个或更多个新闻或天气通告能够包括根据一个或更多个文本文件生成的合成或机器语音。

通过本文描述的任何音频混合方法处理的音频信息能够从源自一个或更多个个人、任何品牌以及任何第三方或者由一个或更多个个人、任何品牌以及任何第三方拥有的任何音频源得到音频信息。在本发明的一些实施例中，音频源能够包括录制音频、直播的音频或录制和直播的音频的混合。例如，在一些实施例中，直播的或录制的音频能够包括由歌手、声乐家、演员、公众成员、乐器和/或乐队制作的音频。在一些实施例中，直播的或录制的音频能够包括由播音员(诸如唱片骑师(下文中称为“DJ”)、新闻主播或其它播音员)制作的音频。

在一些进一步的实施例中，直播的或录制的音频能够包括至少一个合成的或计算机生成的声音。在一些实施例中，音频源能够包括直播的或录制的比特流(例如通过因特网发送的流音频)。在一些实施例中，音频源能够包括包含一个或更多个混合音频信号的双通道或其它多通道音频源。在本发明的一些实施例中，音频源能够包括覆盖的或嵌入的音频。例如，在一些实施例中，覆盖的或嵌入的音频能够包括口头通告，口头通告包括但不限于DJ通告、新闻通告、天气通告或商业通告。在一些实施例中，音频源能够包括覆盖的或嵌入的数据。

图1A描绘了根据本发明一些实施例的音频混合系统和方法的处理流程100，并且包括内容预处理(特征提取和归因)以及内容被排序的实时处理。在一些实施例中，音频混合系统和方法能够包括预处理或“splogging”处理或一组处理(如110所示)。例如，在一些实施例中，进入音频混合系统和方法的预处理功能的内容项目能够使用一个或更多个数字信号处理来处理，该一个或更多个数字信号处理包括但不限于初始测量(下文中称为“1级处理”并如115所示)和低级测量(下文中称为“2级处理”，如120所示)。在一些实施例中，预处理或“splogging”处理能够包括由一个或更多个人执行的至少一个处理或处理的至少一部分。例如，在一些实施例中，能够使用人类标记处理(下文中称为“3级处理”并且如125所示)。在一些实施例中，使用人类标记处理，人类分析者或操作员能够在视觉上和/或听觉上表征内容项目的一部分并将一个或更多个参数分配给内容项目或内容项目的节段。用于实现人类标记处理的工具的实施例在图14-24中示出，并且在下面进一步讨论。来自预处理或“splogging”处理的任何输出能够基本上实时的排序(如130所示)。下面更详细地描述实时和近实时排序和内容创建。音频混合系统和方法能够执行对特征的splogging并且生成拼接数据(stitch data)(例如，使用处理115、120)，拼接数据包括分析提取的特征文件(例如平均每首歌约5MB)以及制作拼接数据的记录的机制，并且拼接数据能够包括对元素执行拼接动作所需的派生特征(例如，记录大小可以大约为每个元素2k)。

在一些实施例中，音频混合系统和方法能够执行内容的摄取和特征提取。在一些实施例中，对于待摄取的每个文件，能够执行以下步骤：1.将文件复制/下载/移动到系统中，2.将文件从其源格式转码为通用格式，3.从文件或共享数据包中提取任何元数据，4.使用如下执行特征提取：a.标准分析套件(参见Essentia Basid数据集或Acoustic Brainz提取器)，b.扩展的响度描述符(lufs)，c.扩展的音调和旋律描述符(旋律音高、和弦和基调)，d.扩展的基于节拍的增量(幅度以及和声增量)；以及5.生成声学指纹(可选的；使用色度印刷(Chromaprint))作为对音频文件的表示(也称为感知散列)，6.创建波形图像(可选的；使用wave2png)，7.将提取的文件(音频特征、指纹和波形图像)存储在存储器中，8.更新数据库以引用提取的元数据和存储的特征资产。

在一些实施例中，音频混合系统和方法能够执行处理115、120，其中，对于待分析的每个文件，步骤能够包括：1.为项目收集存储的特征资产和元数据；2.使用与具有类似流派的内容(包括节奏、可跳舞性、节拍响度、一般响度等特征)的模式特征平均值相比较的特征，识别内容的总体调式；3.使用细粒度的幅度数据扫描内容的插入和开端；4.识别内容是否有“隐藏音轨(hidden track)”并截断它(隐藏音轨是在一段长时段的静音之后的少量声音数据)；5.识别淡出；6.识别分类的渐变的类型，并基于持续时间和幅度简况识别渐变是否平滑或有韵律的；7.识别项目开始时“阻塞”突出特征出现的位置(演唱或突出的中档旋律元素-如萨克斯管)；8.基于韵律、和声和基于幅度的特征，识别在阻塞突出特征之前的改变或音乐的重要性的其它时刻；9.对内容的开始的类型分类，它是否淡入并且它是否是有韵律的；10.对与一般调式相比的并由早前发现的特征驱动的内容的开始和结束的指定调式进行识别；11.更新“流派规范”以包含该内容的特征；以及12.存储在计算的特征数据库中。在一些实施例中，在节拍分析期间，能够分析每个节拍之间的频谱的节拍位置，并且包括每个节拍之间的频谱的幅度和分布。在一些实施例中，旋律分析能够包括利用能够用于识别放置旁白的位置的置信度分析，来逐帧分析旋律。能够基于与部署搭档相关的内容的分组来计算“流派规范”。他们能够围绕流派或其它分组来组织。该分组中的内容能够用于增加对能够用于特征提取(通过机器和人的收听以及随后的分析)的流派值的规范的理解。该方法能够允许理解一篇内容落在集合规范之外的多远处。例如，“狂野与疯狂(wild andcrazy)”的古典篇与“狂野与疯狂”的朋克摇滚歌大不相同。在情境中，它们都将处于极端，但是相比较起来且它们是不同的，并且该技术针对感知尺度上的这些差异归一化。

一些实施例包括对具有处理115、120特征的3级splog的特征和新拼接数据的生成的“融合”。例如，一些实施例包括数据融合，其中对于待融合的每个文件，一系列处理步骤包括：1.来自处理115、120的数据(并保持所存储的特征分析数据)；2.在3级处理125中，读取splog的数据；3.基于3级处理125的特征的优先级将两个数据集合并；4.基于3级处理125的范围计算新范围数据集；以及5.存储在计算的特征数据库中。

图1B图示了根据本发明的一些实施例的音频混合系统和方法的系统概述175。在一些实施例中，能够使用图29中所示的系统来完成本文所描述的任何接合或混合处理。在一些实施例中，音频混合系统和方法能够建立或处理库数据库186内的元素库180，库数据库186能够在内容池内供排序182a和混合182b处理使用。排序182a能够考虑构建的序列的所有元素，并且使用内容和顺序，拼接处理184能够与由音频混合系统和方法建立的任何库内容一起使用。

在一些实施例中，音频源能够包括音频文件格式，该音频文件格式能够包括未压缩音频格式。在其它实施例中，音频文件格式能够包括压缩音频格式。在一些实施例中，压缩文件格式能够是无损压缩文件格式。在其它实施例中，压缩文件格式能够是有损压缩文件格式。在一些实施例中，音频源能够包括存储为以文件扩展名为特征的音频编码格式的音频内容元素。例如，在一些实施例中，音频内容元素能够被存储为MPEG层III音频格式并且能够包括具有.mp3的文件扩展名的数字文件。在一些进一步的实施例中，音频内容元素能够被存储为以文件扩展名为特征的音频编码格式，文件扩展名包括但不限于，“.3gp”、“.act”、“.aiff”、“.aac”、“.amr”、“.ape”、“.au”、“.awb”、“.dct”、“.dss”、“dvf”、“.flac”、“.gsm”、“.iklax”、“.ivs”、“.ivs”、“.m4a”、“.m4p”、“.mmf”、“.mpc”、“.msv”、“.ogg”、“.oga”、“.opus”、“.ra”、“.rm”、“.raw”、“.sln”、“.tta”、“.vcx”、“.wav”、“.wma”、“.wv”或“.webm”。

在本发明的一些进一步的实施例中，音频源能够包括存储在以一个或更多个编解码器为特征的视频编码格式内的音频内容元素，该一个或更多个编解码器包括但不限于“libtheora”、“Dirac”、“x264”、“Xvid”、“FFmeg”、“FFavs”、“Blackbird”、“DivX”、“3ivx”、“Nero Digital”、“ProRes 422”、“ProRes 4444”、“Sorenson Video”、“Sorenson Spark”、“VP3”、“VP4”、“VP5”、“VP6”、“VP7”、“VP8”、“VP9”、“DNxHD”、“电影工艺编码器SP2(CinemaCraft Encoder SP2)”、“TMGEnc”、“Windows媒体编码器(Windows Media Encoder)”、“Cinepak”、“Indeo Video”、“TrueMotion S”、“RealVideo”、“HffyLuv”、“Lagarith”、“MainConcept”、“Elecard”和“Codec”。

在本发明的一些实施例中，从本文所述的任何源得到的内容项目能够包括静音或近静音的一个或更多个间隙或时段，其中，声级可以是大约零dB或者没有显著听力损伤的人类基本上无法察觉到的任何其它声级。使用本文描述的一个或更多个方法，间隙能够被识别并移除、缩小和/或用其它音频内容替换。例如，图2图示了根据本发明的一些实施例的、对示出项目之间的间隙的内容项目200应用和使用音频混合系统和方法。在一些实施例中，用户能够使用音频混合系统和方法来分析内容项目200的至少一部分，并且确定静音或近静音的一个或更多个间隙或时段的存在(示为内容项目200的第一片段215和第二片段230之间的245)。在一些实施例中，用户能够使用音频混合系统和方法在识别的间隙期间移除、填充或播放音频。在一些进一步的实施例中，用户能够使用音频混合系统和方法来确定静音或近静音的一个或更多个间隙或时段的位置，并且处理从大约间隙的开始处到至少部分地通过间隙的转换。在一些实施例中，转换能够包括来自间隙任一侧的内容的一个或更多个部分，或另一内容项目的一部分，诸如本文所述的歌曲或通告。在一些实施例中，内容项目部分能够使用之前关于图1描述的1级处理和/或2级处理来分析。在一些进一步的实施例中，能够使用3级处理分析内容项目部分。在一些实施例中，能够使用1级和/或2级处理分析任何内容池(例如，包括1200万音频文件)的80-90％，并且能够使用3级处理分析任何内容池的10-20％。在一些实施例中，可以定义围绕死区(间隙)的、手动或自动设定的开始点和结束点。能够基于内容的一个或更多个音频特征(例如内容项目200的第一片段215和第二片段230)来使用本文描述的用于转换的任何方法。此外，能够基于内容的一个或更多个音频特征(例如内容项目200的第一片段215和第二片段230)来改变本文描述的任何方法。同样地，本文描述的用于转换的任何方法应该被认为是非限制性实施例。

在本发明的一些实施例中，音频内容能够被转码成音频文件格式，诸如.WAV文件格式。例如，图3图示了根据本发明一些实施例的源音轨分析和编码300。在一些实施例中，制作内容创建服务器、系统和方法能够执行音频文件格式的分析(例如，通过使用1级、2级和/或3级处理)。在一些实施例中，制作内容创建服务器、系统和方法能够使用转码为通用格式(例如，.WAV格式310)的源记录来执行分析315，并且输出一系列数据对象325(例如JSON数据)，该一系列数据对象325能够被存储在数据库320中以供以后使用和/或分析。在这种情况下，每次音频内容用于制作内容创建和/或播放时，原始源文件305不必被重新分析。在本发明的一些进一步的实施例中，源记录305能够被转码为具有声学指纹的.WAV文件格式。在一些实施例中，能够将HASH(散列)应用于所述源(诸如，MD5、SHA1、512)以及添加到由制作内容创建服务器、系统和方法所处理的文件中的声学指纹。在一些实施例中，包括指纹的音频文件能够使音频内容系统和方法能够在不需要重新处理的情况下使用和重新使用音频内容。在一些实施例中，声学指纹能够使用声学标记来实现音频内容识别。与水印区分开来，这种指纹能够从实际的音频内容得到，并且能够经受一些常规的破坏性动作，诸如立体声到单声道变换、较低的比特率等。在一个非限制性示例中，来自光盘或其它数字格式的一个或更多个音频文件能够使用音频系统和方法中的至少一种方法(例如1级、2级和/或3级)来分析，并被存储以供音频系统和方法播放或使用，而无需音频分析重新处理。在这个示例中，来自记录为FLAC数字文件的另一个源的相同歌曲(例如从Apple

下载)与.WAV文件具有不同的HASH；但是，指纹将是相同的，并且不需要重新处理。在一些实施例中，音频特征能够用于对准相同识别的声学散列文件之间的任何时间差异。

是Apple股份有限公司的注册商标。

在本发明的一些实施例中，音频混合系统和方法能够使用1级处理、2级处理和3级处理来执行对音频文件格式的分析。一些实施例包括一个或更多个处理的输出之间的比较和随后的重新验证。例如，图4图示了内容项目处理方法400的示例实施例，其中，1级(405)处理和2级(410)处理的音频分析能够使用3级(415)处理来进行比较并重新验证。此外，在一些实施例中，来自3级(415)分析的输出能够包括由1级处理和/或2级处理分析和/或重新使用的参数。在一些实施例中，该处理能够用于跳过3级(415)分析。例如，能够通过使用3级(415)处理的比较处理430来比较并重新验证1级(405)处理和2级(410)处理的音频分析。在一些进一步的实施例中，来自3级分析的数据420能够包括能够在1级(405)和/或2级(410)分析中重新使用的信息。

在一些实施例中，1级数据能够包括由第三方生成的JSON文件。例如，一些实施例包括一个或更多个JSON文件，该一个或更多个JSON文件包括从AcousticBrainz(https：/acousticbrainz.org)下载的全文件高级描述符。数据能够包括整个音频文件的平均分析数据集。AcousticBrainz项目包括人群源声学信息并且描述音乐的声学特性并且包括针对流派、调式、声调、音阶等的信息和低级谱的信息。在一些其它实施例中，JSON数据能够从包括Echonest.com(the.Echonest.com)的其它第三方下载。在一些实施例中，2级(410)分析能够包括逐节拍的和/或逐毫秒音轨的详细分析，其包括具有整体响度和逐时刻视图的LUFS分析、节拍分析、旋律分析、淡入和淡出分析、具有和声进行及和弦结构的和声分析。

图5表示根据本发明的一些实施例的内容项目600的旋律识别。在一些实施例中，音频混合系统和方法能够从内容项目的至少一部分识别一个或更多个旋律605。在一些进一步的实施例中，音频混合系统和方法能够使用音频文件的至少一部分来执行节拍帧(beat-frame)分析。在一些实施例中，音频谱中的节拍或其它位置标识符能够基于帧号被标签或被标记。在其它实施例中，位置标识符能够基于时间。在其它实施例中，位置标识符能够是基于音频的节段或片段的，或者基于使音频能够被分成可测量间隔的其它位置标记的。例如，图6表示根据本发明的一些实施例的内容项目600的节拍帧识别650，并且示出了如针对图5所讨论的所识别的节拍帧610和旋律。

在一些实施例中，音频混合系统和方法能够执行音频文件的一部分的响度级别的分析。例如，在一些实施例中，通过使用对音频文件的一部分的单位测量单位响度满刻度(下文“LUFS”)分析来测量响度强度，音频混合系统和方法能够执行对音频文件的一部分的响度级别的分析。LUFS中的响度级别能够以dB(分贝)为单位的实际峰值来表示。例如，图7图示了根据本发明的一些实施例的、包括LUFS分析的分析内容项目700的一部分的方法。在一些实施例中，音频混合系统和方法能够跨内容项目700的一个或更多个节拍帧705执行LUFS分析。例如，一些实施例能够包括将节拍帧715与节拍帧725比较的LUFS分析。在一些实施例中，音频混合系统和方法能够执行节拍帧(例如，节拍帧715、725之间)之间的响度级别增量的分析。在一些进一步的实施例中，音频文件的一个或更多个帧的LUFS分析能够由音频混合系统和方法通过识别音频文件的谱并将其逐频率(例如，从低频到高频范围)压缩来表征。在本发明的一些实施例中，音频混合系统和方法能够分析或比较音频文件的一个或更多个帧的LUFS。

在一些实施例中，音频文件的一部分能够包括谱、幅度和旋律的分析。在一些实施例中，使用该分析，音频混合系统和方法能够确定恰当的时刻，以在能够包括谱、幅度、旋律和/或LUFS的分析的表征之后，跨音频文件的任何部分的一个或更多个帧来混合其它音频。例如，在一些实施例中，使用早前描述的分析音频文件的一部分的方法，音频混合系统和方法能够混合一个或更多个音频文件，该一个或更多个音频文件能够包括播音员和/或另一内容项目(例如一首歌曲)音频文件。在一些进一步的实施例中，基于LUFS分析，能够基于播音员或另一内容项目的音量来提取音量号以设置指定转换。此外，一些实施例包括分析内容项目的一部分并自动调节第一内容项目的至少一部分的LUFS和/或调节第二内容项目的至少一部分的LUFS的方法，以实现对两个内容项目在幅度大约相同处的部分的期望混合。

在一些实施例中，基于LUFS分析，能够基于播音员和内容项目的音量来提取音量号以设置转换。例如，在一些实施例中，音频混合系统和方法能够自动调节播音员或歌曲的至少一部分的LUFS，以实现对歌曲与播音员的部分的期望混合。例如，基于对歌曲的分析，如果歌曲中的目标提示点是-6dB，并且播音员片段的LUFS是-18dB，则音频混合系统和方法能够执行乘法，以达到或接近用于混合歌曲和播音员的目标LUFS值。

参考图8，在一些实施例中，对于任何给定的内容项目，音频混合系统和方法能够实施用于韵律节拍分析的节拍分析引擎。例如，能够将两种类型的分析应用于定义的块，并且能够测量针对每个时段的单独音量度量，其中，能够识别增量和时段的成形增量，并且能够识别连续帧/帧组之间的差异。此外，音频混合系统和方法能够实施频率分析引擎，用于分析简化的频谱800并且用于比较时段805之间的增量810。例如，在一些实施例中，LUFS和频率数据能够在一个时段或多个时段825内量化，并用于分析接合或混合的机会。例如，在一些实施例中，能够将最后两个时段的LUFS增量求和并压缩830以用于识别内容项目的退出或淡出。类似地，该分析能够用于识别LUFS阶梯(stair-step)，以使系统能够识别内容项目的进入或淡入。在一些进一步的实施例中，音频混合系统和方法能够实施节拍分析引擎，用于利用旋律分析进行韵律节拍分析。例如，能够将两种类型的分析应用于定义的块，并且能够测量针对每个时段的单独音量度量，其中，能够识别增量和时段的成形增量。在一些实施例中，音频混合系统和方法能够实施频率分析引擎，用于分析简化的频谱并且用于比较时段之间的增量，并且还能够分析时段内和跨时段的旋律。在一些实施例中，旋律分析能够识别旋律的模式，并且能够识别旋律开始的位置。在一些实施例中，旋律分析能够用于识别声乐家在内容项目内开始的位置。在一些实施例中，然后，处理能够定位硬标杆以供未来的接合和混合处理中使用。在一些实施例中，音频混合系统和方法能够生成多个硬点和软点，并且能够基于显著特征来优先化，该显著特征是旋律与韵律以及和声的反差的混合物，这用于对它们进行优先化和排序。在一些实施例中，系统还采用增强阶梯方法的渐变识别算法。在一些实施例中，这些能够用于帮助识别进入和退出的特性以及动态变化的时刻(对于我们的“标杆”)。

在本发明的一些实施例中，音频混合系统和方法能够包括用于覆盖或混合一个或更多个音频文件的可调节的置信度。在一些实施例中，置信度由分析的特征的细节的一致性来驱动。例如，在一些实施例中，切换或级别选择能够用于内容项目分析。此外，一些实施例包括根据本发明的一些实施例的用于内容项目分析的选择，其中，1级、2级和3级处理中的每一个能够使用一个或更多个属性或由一个或更多个属性控制。

本发明的一些实施例使得音频混合系统和方法能够动态地对准音频文件(诸如歌曲)的一个或更多个版本。例如，一些实施例包括内容项目分析的动态对准方法，其中，如果音频混合系统和方法识别两个内容项目，其中一首歌曲包括一秒偏移，则音频混合系统和方法能够识别偏移并且临时或永久地从文件移除该偏移。在一个非限制性示例中，对于同一首歌曲的两个版本并具有基本上相同的指纹，并具有一秒的对准不匹配的情况下，音频混合系统和方法能够通过识别和校正未对准来动态地对准音频文件。

如前所述，在一些实施例中，3级处理(人类标记处理)能够用于表征内容项目的一部分并将一个或更多个参数赋值给内容项目或内容项目的节段。在本发明的一些实施例中，当两个内容项目之间存在任何间隙时，和/或，如果两个内容项目要被接合或混合，则音频混合系统和方法能够做出关于接合项目的决定。在一些实施例中，音频混合系统和方法能够检查内容以计算对于如何能够混合或接合内容的决定。在一些实施例中，间断或接合能够使用由客户端用户提供的一个或更多个特定信息(诸如偏好)开始分析。信息能够包括包含“退出”元素(该元素正在退出)和“进入”元素(该元素正在进入)的信息。此外，在一些实施例中，附加信息能够包括一个或更多个客户端用户偏好。在一些实施例中，“进入”和“退出”能够是包括至少部分用于引导或指导项目混合的信息的任何音频项目或元素的进入和退出。例如，在一些实施例中，音频项目或元素能够包括歌曲、通告、DJ通告、新闻通告或快讯、天气通告或商业通告或其组合。例如，在一个示例实施例中，音频片段可以包括“退出”元素，该“退出”元素包括新闻通告或快讯，并且“进入”元素可以包括歌曲或音乐项目。在这种情况下，音频混合系统和方法能够分析如上所述的信息以确定“进入”元素和“退出”元素的接合或混合，使得任何接合的或混合的音频对于听众是优选的或者视为听觉可接受的或者期望的。

本发明的一些实施例能够包括音频混合系统和方法，音频混合系统和方法包括用于实施如图9-19中所示的并在下面进一步讨论的3级处理的工具。例如，图9图示了根据本发明一些实施例的3级内容项目分析系统的GUI界面1000。在本发明的一些实施例中，GUI界面1000能够显示内容项目1005的一个或更多个部分(显示为声谱)。在一些实施例中，GUI界面1000能够包括一个或更多个“歌曲进入”参数和一个或更多个“歌曲退出”参数(可选参数1010)。此外，在一些实施例中，GUI界面1000还能够包括标杆赋值，标杆赋值包括“软标杆”1020、“硬标杆”1030和“结束标杆”1040赋值选项。在本发明的一些实施例中，“歌曲进入”1010选项能够包括“歌曲进入类型”、“歌曲进入调式”和“歌曲进入特性”选项。此外，在一些实施例中，“歌曲退出”选项能够包括“歌曲退出类型”，“歌曲退出调式”和“歌曲退出特性”。

在本发明的一些实施例中，至少部分地基于对音频的听觉分析和/或对音频视觉分析的谱的视觉分析，操作者能够将一个或更多个参数赋值给内容项目部分(或整个内容项目)的一个或更多个帧。例如，图10包括示例GUI界面1100(示出了具有内容项目1105的一个或更多个部分)，并且在这种非限制性实施例中，示出了根据本发明一些实施例的3级内容项目分析系统的GUI界面中的歌曲进入类型选择。在一些实施例中，用户能够从下拉菜单1107中选择以设置歌曲进入类型。在一些实施例中，下拉菜单1107中的选项能够包括微弱(cold)和/或渐变选项。此外，图11(示出了GUI界面1200，其示出了内容项目1205的一个或更多个部分)以及图12(示出了GUI界面1300，其示出了内容项目1305的一个或更多个部分)图示了根据本发明一些实施例的3级内容项目分析系统的歌曲进入调式选择。在一些实施例中，GUI界面能够包括具有1-10的刻度的歌曲进入调式选择1207，并且可选地包括但不限于“挽歌”、“非常平静”、“柔和”、“苏醒”、“适中”、“快速”、“动人”、“高能量”、“非常高能量”和“大喜若狂”。此外，图13图示了根据本发明一些实施例的3级内容项目分析系统的GUI界面1400中的歌曲进入特性。在本发明的一些实施例中，操作者能够使用GUI界面1400(显示内容项目1405的一个或更多个部分)来选择诸如“有韵律的”和/或“平滑的”(如下拉菜单1407所示)的歌曲进入特性参数。在一些实施例中，调式能够在具有助手描述符的1-10刻度上定义，助手描述符用于对提供特征的个体的值进行归一化。能够使用包括提供差异性和/或刻度的其它数字或字母的其它刻度描述符。

在一些实施例中，内容项目的整体调式能够被赋值。例如，图14(显示内容项目1505的一个或更多个部分的GUI界面1500)以及图15(显示内容项目1605的一个或更多个部分的GUI界面1600)图示了根据本发明一些实施例的3级内容项目分析系统的整体调式选择。在一些实施例中，操作者能够从包括整体调式赋值的下拉菜单1507中选择，整体调式赋值包括但不限于“挽歌”、“非常平静”、“柔和”、“苏醒”、“适中”、“快速”、“动人”，“高能量”、“非常高能量”和“大喜若狂”。例如，图14示出了“动人”的预选择，并且图15示出了“快速”的预选择。图16图示了根据本发明一些实施例的3级内容项目分析系统的GUI界面1700(显示内容项目1705的一个或更多个部分)中的内容项目部分的硬标杆选择和软标杆选择。在一些实施例中，操作员能够至少部分地基于内容项目的音频和/或视觉特性来调节硬标杆赋值和软标杆赋值。

图17图示了根据本发明一些实施例的3级内容项目分析系统的GUI界面1800(显示内容项目1805的一个或更多个部分)中的歌曲退出调式选择。在一些实施例中，类似于前述实施例，操作者能够使用下拉菜单1807选择并赋值歌曲退出调式，歌曲退出调式包括但不限于“挽歌”、“非常平静”、“柔和”、“苏醒”、“适中”、“快速”、“动人”、“高能量”、“非常高能量”和“大喜若狂”。

图18图示了根据本发明一些实施例的3级内容项目分析系统的GUI界面1900(显示内容项目1905的一个或更多个部分)中的歌曲退出类型。在一些实施例中，操作员能够使用下拉菜单1907来选择和赋值歌曲退出类型，歌曲退出类型包括但不限于“微弱”、“微弱渐变”和“渐变”。此外，图19A图示了根据本发明一些实施例的3级内容项目分析系统的GUI界面2000(显示内容项目2005的一个或更多个部分)中的歌曲退出特性选择。在一些实施例中，操作员能够使用下拉菜单2007来选择和赋值歌曲退出特性，歌曲退出特性包括但不限于“有韵律的”和“平滑的”。

图19B图示了根据本发明一些进一步的实施例的3级内容项目分析系统的GUI界面2300(显示内容项目2305的一个或更多个部分)。一些实施例包括进入元素菜单2310和相关的赋值选择“歌曲进入类型”2312、“歌曲进入调式”2314、“歌曲进入特性”2316、“歌曲进入渐变”2318和“歌曲进入气息”2319。此外，一些实施例包括“块标杆”菜单2320、“软标杆”菜单2322、“硬标杆”菜单2324、“尾标杆”菜单2328和整体调式选择2326。一些实施例包括“结束标杆”菜单和相关联的赋值选择“歌曲退出类型”2332、“歌曲退出调式”2334、“歌曲退出特性”2336、“歌曲退出渐变”2338和“歌曲退出气息”2339以及“退出”菜单2340。在一些实施例中，“歌曲进入渐变”2318能够在进入点处强制退出短的、中等的或长的渐变(用于稍后开始歌曲并使它们在进入点处精巧地淡入)。在一些进一步的实施例中，“歌曲进入气息”2319能够在该歌曲之前强制插入短量、中等量或长量的间隙，如果它对素材合适，则这能够用于周到地帮助区分歌曲。一些其它实施例包括“块标杆”2320，“块标杆”2320能够包括歌曲前面的时间，其中，在该时间之前，不允许覆盖(例如，创建歌曲播放短时段的场景，并且然后能够触发播音员覆盖)。一些实施例包括由于添加先前设置而被省略的“软标杆类型”2322。一些实施例包括在结束处包括歌曲中的点的“尾标杆”2328，在此之后，覆盖播音员将是可以接受的。一些实施例包括“结束标杆”2330，“结束标杆”2330包括在其处停止播放音频的点。一些进一步的实施例包括“歌曲退出渐变”2338，“歌曲退出渐变”2338能够在退出点处强制短的、中等的或长的渐变(用于较早结束歌曲并使它们在退出点处精巧地淡入)。其它实施例包括“歌曲退出气息”2339，“歌曲退出气息”2339能够用于在该歌曲之后强制插入短量、中等量或长量的间隙。在一些实施例中，如果它对素材合适(例如，在开始下一个项目之前，在Heart翻唱的天堂的阶梯之后停顿片刻)，则这能够用于周到地帮助区分歌曲。

在一些实施例中，能够存在影响音频混合系统和方法做出的调度决定的一个或更多个因素。在一些实施例中，这些因素能够由一个或更多个数据库访问。在一些实施例中，用于影响、计算或调节音频混合系统和方法做出的调度决定的因素能够包括用户的历史，诸如用户先前播放的音频内容和选择。在一些实施例中，用户的历史能够包括用户先前的播放历史，其定义用户喜欢或不喜欢包括至少一次间断的内容。例如，在一些实施例中，用户的先前的播放历史能够包括播放时间、内容或偏好，这些时间、内容或偏好证明用户不能容忍大量的新闻快讯、DJ播音员间断、天气快讯等等。在一些进一步的实施例中，另一因素能够是关于内容项目的元数据(即，L1、L2、L3信息)，如早前所述的对包括人类和机器splog特性的内容的理解。在一些实施例中，系统和方法能够测量它们的行为并且使用它们来改变它们的特定体验的Formatics。

本发明的进一步的实施例包括包含品牌偏好的因素。例如，每个品牌能够控制对一个或更多个元素的混合。例如，在一些实施例中，品牌能够提供包括对一小时内仅包括单个间断的指示的偏好，在该一个小时内，间断之间的音频内容能够包括拼接的或混合的内容项目。在另一个示例实施例中，品牌能够提供包括对一个小时内包括多个间断的指示的偏好，在该一小时内，间断之间的音频内容能够包括分散在每两个、三个、四个或更多内容项目的间断内的拼接的或混合的内容项目。在一些实施例中，一个或更多个品牌内容池能够耦接到品牌偏好。例如，在一些实施例中，品牌内容池能够包括多个音频、音乐床、声效(下文中“清扫器(sweeper)”)以及被组合以定义声音的其它因素，该声音是包括画线器(liner)、清扫器、新闻、制作特征、艺术家采访等的内容池。在一些实施例中，当来自池的元素的任何数量或组合被一起用于构建拼接时，能够至少部分地定义品牌。一些实施例包括控制系统是否允许播音员在歌曲结束时讲话的偏好。

在一些实施例中，音频混合系统和方法使用多步骤处理，其中最初执行对正在被拼接的元素的多个内容的分析，并且将该分析与用户偏好和品牌偏好共同混合作为用于执行拼接的模板。例如，该模板能够包含一系列针对一个或更多个特定间断的指导方针，并包括针对能够在未来片段中调度的指令。在一些实施例中，根据模板，通过选择正向的元素来处理多通道调度，并且根据选择的元素，使用反向处理来对元素进行排序。在一些实施例中，能够使用该过程来确定是否存在与可用内容的适配(即挑选元素以加入并且然后执行反向处理以排序)。在一些实施例中，挑选内容并且已经至少部分地基于因素(诸如用户历史)创建元内容播放列表，并且下一步骤能够包括向后移动遍历序列以创建元素的混合列表。在一些实施例中，内容能够包括定义特定覆盖或接合的标志。在一些实施例中，标志不能被重写。在其它实施例中，音频混合系统和方法能够重写标记的项目。在一些实施例中，音频混合系统和方法然后能够搜索不可用的元素。在一些实施例中，即使基于原始模板指令必须放弃一些意图，处理也实时地(例如基本上实时地)“自我修复”以尽可能接近模板。例如，在一些实施例中，来自品牌的偏好或指示能够包括仅在播放乐队或歌手的歌曲之前，定位和混合乐队或歌手的采访。在音频混合系统和方法不能找到或确定从品牌内容池中的至少一个选择的歌曲或乐队或其它内容的采访的位置的情况下，音频混合系统和方法能够放弃混合或接合对任何特定歌曲或乐队或其它内容的采访的指定意图。在另一个示例实施例中，如果选择的歌曲或乐队具有特定的高能量，并且音频混合系统和方法不能找到具有类似匹配能量级别的播音员，则音频混合系统和方法能够自动放弃原始意图。例如，如果原始意图是用于匹配播音员和乐队或歌曲的能量，则音频混合系统和方法能够放弃意图并选择较低能量的播音员。

其它实施例能够包括基于对内容的分析，自动重写意图。例如，在一些实施例中，品牌偏好能够包括在整个内容项目(例如，歌曲)的开头或中途放置通告。然而，在一些实施例中，至少部分地基于播音员元素的可用性，和/或通告和/或歌曲的音频影响特性，音频混合系统和方法能够执行重写动作。例如，重写动作能够包括确定通告的另一个位置，选择不同的通告，选择不同的位置以混合或接合通告，和/或选择可替选的音频项目或元素，诸如清扫器。在一些实施例中，音频混合系统和方法能够使用户或品牌能够选择或调节重写或行为的级别。在一些实施例中，其它因素能够是正在使用的实际声音以及在通告中传递的消息。在一些实施例中，这些能够被耦接到特定内容配对或从特定内容配对排除，以便更好地服务体验。

在一些实施例中，音频混合系统和方法能够使用加权精确系统，以在处理模板时控制系统的行为。例如，在一些实施例中，客户端用户或品牌能够选择加权精确因素，以增加音频混合系统和方法将重写用户或品牌意图的可能性。在一些实施例中，音频混合系统和方法能够在选择和调度期间使用多个因素，该多个因素包括用户的历史、元数据以及使用偏好、客户端偏好和/或品牌偏好。

在一些实施例中，音频混合系统和方法的行为能够由元素的“进入”和“退出”部分的音频特性来指导。例如，图20图示了根据本发明一些实施例的内容项目之间的转换确定。在一些实施例中，对于其中“退出”歌曲2500退出“微弱”并且“进入”歌曲2510包括淡入的内容项目(例如，歌曲)处理，音频混合系统和方法能够确定通过接合两个元素会创建的间隙2525，并且能够决定在“退出”歌曲和“进入”或“渐变”歌曲之间放置一个项目(即，来替换间隙2525)。在这种情况下，音频混合系统和方法能够包括固定间隙的非常高的机率(例如，>95％的被固定的可能性)。

参照图21，其图示了根据本发明的一些实施例的内容项目(例如，歌曲)之间的转换确定，如果歌曲2600结束微弱并且第二首歌曲2610开始微弱，则能够增加被固定(例如，以减少或消除间隙2625)的概率(例如33％的可能性)。在包括淡出和淡入的示例的另一个示例实施例中，如果淡出歌曲是有韵律的并且淡入歌曲是有韵律的，则它们通常不能重叠，并且能够增加音频混合系统和方法处理淡出和淡入的混合的可能性。相似的，在调式存在较大差异的其它示例中，能够存在更高的可能性，或者流派不匹配，或者在歌曲中存在能够接受画线器或讲话的歌曲的区域的地方。此外，在开始时存在大的间隙处(和/或如果有放置访谈的偏好)，音频混合系统和方法能够评估最好机会。例如，如果内容项目之间的调式差异较大，则能够增加音频混合系统和方法处理两个内容项目的混合的可能性。在另一个示例实施例中，如果歌曲开始的开始部分能够更容易地与通告混合，则能够增加音频混合系统和方法处理通告与歌曲开始的混合的可能性。在一些实施例中，音频混合系统和方法能够包括基础概率和特定概率以及特定指示，其任何一个或组合能够是可调节的。

一些实施例包括定时、内容池和影响诸如调式、流派等的选择的其它因素。在一些实施例中，关于定时因素，可以命令或影响系统以错开开始。在一些实施例中，音频混合系统和方法能够经常命中节拍标记(标杆)上的项目，并且对节拍做出动作。在一些实施例中，音乐床和播音员能够错开以允许项目建立。在一些实施例中，音频混合系统和方法能够被命令或影响，以便项目的结束能够基本同步。例如，在一些实施例中，音频混合系统和方法能够引入大约0.25微秒的延迟，以便音乐床和播音员不会同时开始。在一些实施例中，实际延迟时间能够由用户或品牌和/或由音频内容的特性来指定。在一些实施例中，能够增加或减少延迟时间。

在一些实施例中，关于音频混合系统和方法能够调度哪种类型的播音员和/或事件间断，调式和流派的组合能够相互影响。在一些实施例中，音频混合系统和方法能够通过谱平衡处理来辨别调式的类型和流派(诸如高能量爵士和高能量摇滚)之间的差异。

在一些实施例中，音频混合系统和方法能够被配置为辨别最小可用项目的情况，以做出关于如何混合项目的决定。在一些实施例中，项目(诸如引文、画线器或采访片段)的各种因素或参数能够被分析并用于定义混合、接合或重叠行为。例如，在一些实施例中，音频混合系统和方法能够基于引文内容分析和/或接收引文的数据(例如在广播期间可能不接受播放的某些词的使用)。在其它实施例中，音频混合系统和方法能够基于引文的性质和当前环境(例如，理解引文是否涉及指定的公众假期以及在假期时段以外不播放引文)来选择或取消选择(例如，应用重写)。在一些进一步的实施例中，音频混合系统和方法能够包括覆盖或接合因素，该覆盖或接合因素用于定义当与另一个元素混合或接合时，音频混合系统和方法的行为。在一些其它实施例中，音频混合系统和方法能够包括定义音频混合系统和方法是否能够或不能够基于流派播放覆盖内容的流派块(例如，通常，音频混合系统和方法能够被配置为使得在乡村歌曲中将不播放嘻哈引文)。

一些实施例包括使用抑制和对数因子增加随时间的机率的分离度量。例如，通常将不希望在指定的时间段内连续地播放相同的内容项目和/或太频繁地重复内容项目。在一些实施例中，音频混合系统和方法能够抑制或降低在自上次播放特定项目(诸如歌曲或其它诸如新闻项目、天气项目、指定DJ通告等音频项目)以来指定的或计算的时间段期间播放该项目的机率。使用应用于多个用户或品牌内容的该方法，音频混合系统和方法实质上能够使内容项目分布在基本上随机的任何时间时段，和/或以周期或重复的方式向听众呈现(独立于听众连续的收听时段)。在一些实施例中，音频混合系统和方法能够将辛普森多样性指数方法应用到理解内容池，并且调度包括随时间推移呈现多样化的一系列项目的片段。在一些实施例中，这也能够应用于声效、音乐床、播音员的内容的标签(消息、特定词语、主题、概念等)。此外，在一些实施例中，它也能够反向工作以确保对于事物(如带有品牌消息或广告)具有特定频率。

在一些实施例中，如之前所描述的，内容项目能够包括旁白、音乐剪辑、清扫器和其它内容项目。在常规的无线电制作中，能够制作这些类型的项目的各种组合(作为预制作包)。在本文描述的本发明中，音频混合系统和方法能够使用相同或相似类型的内容项目，并且基本上实时地创建制作的节目。例如，对于由系统实时制作的任何产品，系统装载有所有组成元素(其能够表示多个元素)。在一些实施例中，音频混合系统和方法的决定引擎部件，能够基本上实时地处理组合各种元素(例如，组合成上述常规技术的预制作节目的数字版本)的决定。在一些实施例中，通过拉取内容并且遵循定制内容，能够使用用户的装置或平台上的混合引擎，来处理传送给用户的内容。在其它实施例中，服务器能够实时建立表示传送给用户的定制间断。例如，在一些实施例中，能够选择并拉取音乐床、清扫、旁白，使得选择能够实时地基于特性和用户驱动的偏好和/或品牌偏好。在这种情况下，引擎能够实时级联优先级，以制作通过混合引擎或通过服务器来组合的预制作包，该混合引擎或服务器将表示定制间断的音频文件实时建立为单个文件。关于方法的优点，混合引擎方法占用的服务器资源很低。但是，混合引擎方法需要更高的带宽。服务器方法需要更多的服务器CPU周期。

在一些实施例中，音频混合系统和方法能够分解可用内容的现有元素，标注并使元素可变，并且基于周围元素以及任何使用体验和偏好、品牌的偏好，来驱动对间断的构建。在一些实施例中，音频混合系统和方法能够通过处理一个或更多个主要元素和覆盖元素来执行或处理接合分析。例如，主要元素(其能够包括清扫器)能够包括歌曲、音乐床、块(诸如具有剧本的采访)。在一些实施例中，清扫器能够在主要元素和覆盖元素之间弥合。覆盖内容主要能够包括声音内容。

在一些实施例中，音频混合系统和方法能够包括接合分析以定义如通常先前定义的元素之间的内容。在其它实施例中，能够稍后在处理中执行另一类型的接合分析。例如，在一些实施例中，音频混合系统和方法能够确定是否需要清扫器和/或是否需要“夯实(tamping)”(例如，其中，“夯实”被定义为音频混合系统和方法能够降低歌曲或清扫器的结束的音量以加速退出)。在一些实施例中，音频混合系统和方法能够包括分析元素如何结束、下一个元素如何开始、是否需要绑定(例如，具有指定效果)以及是否要求夯实先前元素以获得更好匹配。在一些实施例中，一些分析的特性包括转换的韵律性质和/或声调转换的类型(例如，从三全音转换到半音)。在一些实施例中，音量调节能够包括任一方向的渐变，或者渐变到听不到的级别(我们称为夯实)并因此在不同的时间结束或开始内容，或者渐变到不同的听得见的级别使得它能够更好地与其它内容混合(被称为“浸入(ducking)”)。

在一些实施例中，音频混合系统和方法能够包括时序分析。例如，在一些实施例中，系统能够扩展或减少元素之间的距离。在一些实施例中，音频混合系统和方法能够包括对执行转换的表征(是否平滑、有吸引力)的分析，并且进行该分析来保持或管理能量(或调式)。在一些实施例中，音频混合系统和方法能够包括在分析中使用节奏、幅度和/或和声因素来表征一段时间内的调式或多变型的调式。在一些其它实施例中，音频混合系统和方法能够包括控制内容项目的混合的情感分析。例如，一些实施例能够包括分析正面或负面的词或表情符号以定义内容项目(例如，歌曲)或歌曲的一部分的情感。这是对内容(歌词、播音员消息、新闻项目等)的内容情感分析，并且能够用于驱动混合(例如，以便不将超正面播音员放在一超负面的内容上)。

图22图示了根据本发明一些实施例的示例间断构建2700。在一些实施例中，调式约束参数能够由音频混合系统和方法应用。示例实施例能够包括用于在“退出”元素2710(例如，诸如第一歌曲)和“进入”元素2715(例如，诸如第二歌曲)之间混合的间断。在一些实施例中，能够通过音频混合系统和方法构建间断以包括项目的选择，项目包括但不限于第一清扫器项目2720、音乐床2730、播音员项目2740和第二清扫器项目2750。在一些实施例中，第一和第二清扫器项目2720、2750能够是相同的。在一些进一步的实施例中，第一和第二清扫器项目2720、2750能够是不同的。在一些实施例中，界定间断的第一和第二内容项2710、2715的能量级别能够大约相同。在一些其它实施例中，第一和第二内容项2710、2715的能量级别能够是不同的。例如，在一些实施例中，第一内容项目2710能够包括低能量，并且第二内容项目2715能够包括高能量。在一些实施例中，音频混合系统和方法能够实时地应用使用约束条件的选择处理来选择具有不同能量级别的项目，并且布置项目以平滑地弥合第一和第二内容项目2710、2715的能量级别。例如，对于能量级别3的第一内容项目2710和能量级别7的第二内容项目2715，构建的间断能够包括处于级别3-5的清扫器2720，混合有4-6的音乐床2730，并覆盖和/或混合有级别5的播音员2740，并且最后的具有级别6-8的第二清扫器2750。

在一些其它实施例中，界定间断的第一和第二内容项2710、2715的音乐声调能够大约相同。在一些其它实施例中，第一和第二内容项2710、2715的音乐声调能够是不同的。例如，在一些实施例中，第一歌曲2710能够包括“C”声调，并且第二内容项目2715能够包括“降A大调”声调。在一些实施例中，音频混合系统和方法能够实时地应用使用约束条件的选择处理来选择具有不同音乐声调的项目，并且布置项目以平滑地弥合第一和第二内容项目2710、2715的音乐声调。在一些实施例中，系统包括对和谐关系和转换以及不太和谐的关系的理解并相应地作出决定(例如：A小调+C大调比C大调和C#大调(这是非常不协调的)更和谐。)

在一些其它实施例中，界定间断的第一和第二内容项2710、2715的韵律能够大约相同。在一些其它实施例中，第一和第二内容项2710、2715的韵律能够是不同的。在一些实施例中，音频混合系统和方法能够实时地应用使用约束条件的选择处理来选择具有不同韵律的项目，并且布置项目以平滑地弥合第一和第二内容项目2710、2715的韵律。此外，在一些实施例中，音频混合系统和方法能够在混合期间动态地调节节奏和音高以对准、匹配和/或转换项目之间的韵律。

图23图示了根据本发明的一些实施例的示例间断2800构建并且图示了收紧间断示例，其中，能够进行调节以垫塞(shim)或摆动(调节)混合的位置，来制作紧密或松散的接合。在一些实施例中，实际调节能够至少部分地基于流派和/或第一内容项目和/或第二内容项目。在一些实施例中，能够将最佳实践规则(例如，能够定义最优收听体验的参数)编码到模型中。在一些实施例中，它们是可调节的。在一些实施例中，最佳实践由音频混合系统和方法至少部分地基于用户、用户的历史、品牌或其组合来定义。示例实施例能够包括用于在退出元素(例如第一内容项目2805)和进入元素(例如第二内容项目2810)之间混合的间断。在一些实施例中，能够通过音频混合系统和方法构建间断2800以包括项目的选择，项目包括但不限于清扫器2820和播音员项目2830。在一些实施例中，界定间断的第一内容项目2805的退出转换和第二内容项目2810的进入转换能够大约相同。在一些其它实施例中，界定间断的第一内容项目2805的退出转换和第二内容项目2810的进入转换能够是不同的。例如，在一些实施例中，第一内容项目2805能够包括缓慢渐变，并且第二内容项目2810能够包括间隙2807(例如在硬标杆之前的四秒间隙)。在一些实施例中，音频混合系统和方法能够实时地应用使用约束条件的选择处理来选择项目，并且布置项目以平滑地弥合淡出2806和进入间隙2807。在一些实施例中，音频混合系统和方法能够移动进入间隙2807(例如，打开下一首歌曲)以成形和收紧间断并提供具有改善的收听体验的构建的间断。在一些实施例中，垫塞间断项目的级别能够是可调节的。在一些实施例中，垫塞级别能够由品牌定义。

图24图示了根据本发明一些实施例的示例间断构建2900。在一些实施例中，测量以dB为单位的幅度(LUFS)、元素的级别以用于覆盖，并且音频混合系统和方法能够包括用于覆盖幅度的目标。例如，在一些实施例中，能够通过音频混合系统和方法来构建间断以包括项目的选择，项目包括但不限于清扫器2920、音乐床2930和播音员项目2940。在一些实施例中，界定间断的第一内容项目2905的退出转换和第二内容项目2910的进入转换能够大约相同。在一些其它实施例中，界定间断的第一内容项目2905的退出转换和第二内容项目2910的进入转换能够是不同的。

在一些实施例中，音频混合系统和方法能够实时地应用使用约束条件的选择处理来选择项目，并且布置项目以平滑地弥合两个内容项目。在第一内容项目2905和第二内容项目2910的LUFS不同的实施例中，音频混合系统和方法能够调节音量以接近用于混合的目标。在该示例实施例中，音频混合系统和方法能够包括内部元素间的阶梯，以从退出内容项目2905的一个LUFS转换到进入内容项目2910的LUF。

在一些实施例中，为了调度转换，音频混合系统和方法，转换请求能够包括退出元素、进入元素和“Formatics”的集合。“Formatics”能够包含指定内容池以用于旁白品牌化和内容、允许旁白品牌化以及允许扩展内容(采访、引文、琐事、新闻、广告等)的标志。在其它一些实施例中，其它标志能够设置旁白和内容类别(松散、紧密、允许前部覆盖、允许尾部覆盖等)，使用splog的数据强制数据源转换(1级、2级和/或3级)内容项目覆盖的信任百分比。此外，标志能够指定专辑保护、内容和/或特征，以包括频率、对于内容转换质量敏感度的分离规则以及无间隙流派等。在一些实施例中，Formatics能够重写默认值和行为，例如以允许播音员在歌曲或其它内容的结束时讲话。

在一些实施例中，音频混合系统和方法能够选择或处理内容池，该内容池能够被指定(由服务、电台、流派等指定)以包括但不限于旁白、音乐床、清扫器、采访、引文、琐事特征、听众呼入新闻和/或广告等。

在本发明的一些实施例中，音频混合系统和方法能够为内容分类定义频率和/或分离规则。例如，一些实施例能够指定应该包括特定分类的内容的频率。此外，这些规则能够指一类内容(如旁白)，或者更特别的指一类内的一种内容(例如，旁白，其包括短语“......仅仅是最好的音乐”标签，还能够包括诸如播音员的姓名、采访的主题、引文的来源等其它元素)

在一些进一步的实施例中，全局规则也能够实际上应用于集合体中的元素。例如，全局规则能够指定：“在内容项目之间的插入内容之间至少进行3个内容项目或12分钟(以较长者为准)”。在一些实施例中，该规则还能够具有指示与其它规则相比以及与特别的进入/退出配对的“需要”相比遵守规则有多重要的力度(在0到100的刻度内)。

在一些实施例中，基于对独立的转换的分析的质量，元素配对能够具有固有转换需要。在一些实施例中，来自以上格式的“转换质量敏感度”能够指利用分析的度量来确定“辅助”具有附加内容的转换的倾向。这能够与用于转换的全局的内容/种类规则一起作用，以便作出关于何时参与并辅助具有内容的特别转换的决定。

在一些实施例中，能够利用用于识别这些种类和分类的一个或更多个已知属性来标记内容。例如，在一些实施例中，每个种类或分类规则能够指定播放该分类和/或种类的内容的频率以及何时调度/播放该分类和/或种类的内容。此外，每个分类和种类规则能够指定播放一个特定内容一次的所用的最短时间。

在本发明的一些实施例中，音频混合系统和方法能够处理转换构建排序。在一些实施例中，转换设置和初始元素选择能够包括确定在何处确定在转换中要使用的主要元素。在一些实施例中，音频混合系统和方法能够处理转换构建排序，其包括：1.聚集有关进入和退出元素(流派、专辑、唱片和音轨#、艺术家、融合/人体(meatware)/机器人数据等)的信息，以及2.聚集基于Formatics(可用于旁白、音乐床、清扫器、采访、广告等的内容列表)的信息。该内容能够与用户的播放历史合并，以便了解其播放资格(基于Formatics中的分离规则)。排序还能够包括以下步骤：3.确定需要执行无间隙播放(对于在同一专辑上有顺序的内容，对于特别流派的内容或对于内容或对于禁止覆盖的内容)，以及4.确定正在播放的两个音轨的音量调节(当前音轨已经进行了音量调节)。排序还能够包括步骤5.如果不是无间隙的并且给算法赋予自主权以决定它对于该转换做些什么，则基于因素执行一些计算以制作创建特定类型的间断的概率。这些集中在两个项目的进入和退出点，并且能够包括渐变模式之间的匹配、转换项目的韵律性质、项目之间的调式差异、项目之间的流派距离、两个项目的声调容性、进来项目上的覆盖空间的类型和持续时间、哪些内容是可用的等。此外，进一步的排序能够包括步骤6.基于间断的类型(由Formatics和算法分析来驱动)，基于间断的构建，过滤和挑选内容。例如，播音员、待使用的消息类型以及指定读取(匹配能量和长度)。这能够包括在间断构建中正在使用的所有元素，并且不限于播音员、固定的制作元素、新闻、天气、广告、采访、琐事等。一些实施例能够设计用于交互式系统的转换，当用户在先前内容结束之前点击“下一步”按钮，以创建更巧妙的交互式跳过。

在本发明的音频混合系统和方法的一些实施例中，排序构建引擎能够处理附加元素并且确定用于基础元素排序的间断的结构。一些实施例利用先行和后顾技术来评估间断的两侧，并且表征从最后元素角度使用的时间。这能够在存在可用空间时在进来和离开元素之上启用内容覆盖，但不尝试覆盖可能超出确定为安全覆盖的区域的太多内容。在本发明的一些实施例中，每个项目被添加到表示主要元素的排序的列表。这驱动处理中的下一步，即实际的调度。每个项目只有将特定的元素调度在间断中才算完成。在一些实施例中，包括间断的每个项目被向后分析，并确定它是否被放置在进来内容项目、音乐床或离开的内容项目上(全部基于Formatics)。

在本发明的音频混合系统和方法的一些实施例中，排序构建引擎能够基于两个元素的并列来确定是否强制任何特定元素(例如，如果使用顶部具有旁白的清扫器以弥合不支持重叠的两个项目之间的间隙)。在一个非限制性样本排序处理中，排序构建引擎能够确定在进来内容之上或在该内容之前的放置，并且如果调度播音员则将其添加到排序。此外，排序构建引擎能够确定在进来内容之上或在该内容之前的放置，并且如果调度引文或调度采访则将其添加到排序。

在本发明的音频混合系统和方法的一些实施例中，排序构建引擎能够处理排序调度。在一些实施例中，排序构建引擎能够遍历顺序中的每个元素并采用逻辑以精确的时序来调度该元素。在一些实施例中，该阶段中的附加的粘合元素(清扫器等)能够用于在听觉上将流拼接在一起，并且能够被以任何特别的布置来处理。

在本发明的音频混合系统和方法的一些实施例中，排序构建引擎能够分析两个特定元素并识别它们如何拼接在一起。在具有其它添加的元素(诸如音乐床或制作的元素)的间断中，能够评估每个转换点。两个元素的特性能够驱动关于如何执行特别接合的决定处理。在一些实施例中，所得参数能够是关于如下的信息：需要淡出离开项目和/或淡入进来项目，和/或，应该以何种节奏执行渐变，和/或，是否需要注入清扫器以弥合转换，以及如果注入清扫器，清扫器的形状是什么样的，等等。在一些实施例中，能够基于音频的多个特性以特别的时序来“调度”元素。在一些实施例中，基于兼容的中心声调和/或韵律模式，和/或淡入/淡出类型，和/或严格分析的幅度窗口以及更多标准来识别重叠。在本发明的音频混合系统和方法的一些实施例中，排序构建引擎能够确定何时需要分离元素与何时需要紧密耦接或接合元素。后者的极端情况包括调度“无间隙”转换，其中，引擎使用对该类型转换的特性的理解，来恰好重叠两篇内容使得项目之间似乎根本没有可听见的间隙。

在一些实施例中，对于每两个元素，音频混合系统和方法能够做出关于时序和间隙的决定，以便在元素之间创建有机的艺术计量流。其它决定能够包括调度先前元素的强制淡出(尤其是在歌曲到歌曲的转换或音乐床到歌曲的转换中)。在一些实施例中，渐变和浸入行为被作为“控制消息”插入到顺序中。另外，能够基于每个单独元素在排序中的位置的需要来调节该元素的幅度。

在一些实施例中，调度顺序能够包括添加到最终播放列表配方(recipe)的离开内容项目。例如，在一个非限制性示例中，对于元素排序顺序(来自先前步骤)中的每个项目(基于其类型)，能够按顺序处理以下(每个编号的步骤作为条件语句)：1.我们需要音乐床吗？如果是，评估接合，以及：(a).如果有需要，选择并调度合适的清扫器(具有正确的形状和能量级别)，(b).调度音乐床；以及2.确定我们是否需要为此间断调度进来元素？如果是，评估接合，以及：(a).如果有需要，选择并调度合适的清扫器(具有正确的形状和能量级别)，以及(b).调度进来的内容项目；以及3.我们是否插入需要格式化设置的项目(如采访)，然后调度所需的元素。例如，采访要求特征通告，然后是艺术家的姓名，然后是采访。这些多个项目按排序调度并添加到顺序中，并能够包含步骤4。我们调度播音员元素吗？如果是，则放置它。在一些其它实施例中，基于特别转换的独特内容要求(如在两首歌曲之间播放商业广告)，能够具有超过以上列出的四个元素的更多元素。这个处理的最终结果是所谓的“配方”，或者是构成间断的所有元素和控制信息的播放列表。在离开元素中的某个点开始计时，并控制行为，直到进来元素已经开始后可能发生的最终控制消息。

在本发明的一些实施例中，音频混合系统和方法能够处理内容项目的一个或更多个类型的转换。例如，在一些实施例中，两种类型的转换能够包括歌曲到歌曲的转换和多元素采访间断类型的转换。在一个非限制性示例实施例中，音频混合系统和方法的应用程序编程接口(API)能够制造离开项目和进来项目并且编排转换，返回“配方响应”JSON文档。该文档能够包括从离开项目的播放中的某个预定义点开始计时的转换(其关联到转换定时器中的“零”)。转换排序中的每个元素具有开始的指定时间、初始幅度和随后的控制消息，控制消息可能之后在排序中影响其向上和向下的幅度。在一些实施例中，基础JSON响应包能够包括两个主要对象，诸如细节对象和排序对象。在一些实施例中，细节对象能够包括关于调度的转换的细节。在一些实施例中，这些细节能够包括被调度的转换的类型(0＝歌曲到歌曲；1＝多元素间断；等)。在一些实施例中，这些细节能够包括从离开内容的开始处以秒为单位的开始时间，以将排序的定时器归一化(考虑到下面的排序对象中的每个项目引用的转换定时器的时刻为“时间零”)。

在一些实施例中，这些细节能够包括排序对象，该排序对象包含待触发的元素的定时播放列表或要按顺序执行的控制消息。多种类型的项目分为两个储存桶(bucket)，这两个储存桶包括触发播放音频文件的项目以及用信号发送对播放音频文件的音量控制的项目。在一些实施例中，指示播放音频文件的每个列表项能够包括以秒为单位(相对于细节概述中所引用的“零时间”)的用于待触发事件的时间，以及用于内容对象的共享GUID标识符。在一些实施例中，文件还能够包括正在播放的元素的类型。这能够包括(但不限于)：歌曲、清扫器、床、播音员、采访等。在一些实施例中，文件还能够以包括以秒为单位的元素的持续时间；该值不考虑可能由之后的控制消息引起的任何感知的缩短，并且更多地是文件持续时间的函数。在一些进一步的实施例中，文件能够包括对给定的项目音量进行的调节；针对有关该值的更多细节，参见下面的“关于音量调节的注意事项”。在一些进一步的实施例中，文件能够包括针对源自音频混合系统和方法的服务器或数据库音频存储库的项目的音频元素的url。在一些实施例中，为控制消息的经处理的项目主要将音量级别的调节作为目标。在一些实施例中，控制消息能够包括以秒为单位(相对于细节概述中所引用的“零时间”)的用于待触发事件的时间。一些实施例包括通过使用字符串“控制”来指示控制消息的类型。一些实施例包括包含采用的控制动作的类型的动作。例如，单个动作类型“渐变”能够指单独的元素的幅度的增加和减少。一些进一步的实施例包括持续时间值，该持续时间值指示以秒为单位的执行渐变操作的时间。一些进一步的实施例包括结束值-目标项目的音量的结束调节值。

一些进一步实施例包括包含针对控制消息的目标对象的零指数排序指数(作为整数)的目标。在一些实施例中，对于音量调节，序列中的各个元素以及淡入和淡出内容的控制消息都会改变序列中音频元素的音量。在一些实施例中，这种改变是针对多个因素完成的，主要以管理单独的内容项目的相对音量(例如，用于歌曲到歌曲的转换)，并且以合适地均衡在多元素转换中覆盖的任何项目。在本发明的一些实施例中，能够使用基于LUFS/LKFS刻度的幅度测量(参见ITU-R BS.1770、ITU-R BS.1770-2、ITU-R BS.1770-3和EBU R128)来计算音量均衡。在一些实施例中，结束状态能够将离开和进来平衡的值调节为这些规范。在一些实施例中，这补偿了具有降低的动态范围和增加的感知到的响度的内容以执行类“音量均衡”效果。一些实施例包括被表示为线性乘法器的音量调节，其中，不需要分贝(dB)变换，因为它们已经由转换引擎执行。在一些实施例中，音量调节相对于在播放侧上开拓的任何“净空(headroom)”来执行，这对于渲染装置的播放体系结构是特定的。在本发明的一些实施例中，音量调节主要包含小于1的值(减小来自其原始全音量播放的项目的幅度的值)。

一些实施例包括对于音量调节将存在大于1的值的情况。在一些实施例中，这种被处理的方式取决于播放机制的能力以及它们是否已经将净空引入声场(soundstage)中。例如，在一些实施例中，音频混合系统和方法能够将实体的音量增加为以下中的最小值：a)由乘法器指示的值或者b)最大可用的净空，无论哪个更小。在一些实施例中，类型“渐变”的控制消息改变在定时持续时间上项目向上或向下的幅度。这些操作是相对于当前音量级别的，并且期望在持续时间内线性转换到目标项目的“结束值”。

图25图示了根据本发明一些实施例的、被配置为用于操作和处理音频混合系统的部件和音频混合方法的计算机系统3000。在一些实施例中，计算机系统3000能够处理先前描述的音频混合系统和方法应用的一个或更多个软件模块，以在图形用户界面内将未混合的音频内容转换到混合的音频内容，和/或，显示与未混合的音频内容转换到混合的音频内容相关的信息。此外，在一些实施例中，图1A中所示的音频混合系统和方法的系统框架能够使用计算机系统3000来处理一个或更多个音频混合系统和方法应用服务。系统框架还能够管理音频混合系统和方法应用程序服务、前端系统和外部(第三方)计算机系统之间的数据和数据流的组织。

如图所示，系统3000能够包括至少一个计算装置，该至少一个计算装置包括一个或更多个处理器3200。一些处理器3200能够包括存在于一个或更多个常规服务器平台中的处理器3200。系统3000能够包括耦接到能够运行至少一个操作系统3400的至少一个处理器3200的网络接口3500a和应用接口3500b。此外，系统3000能够包括耦接到能够运行一个或更多个软件模块(例如，企业应用3800)的至少一个处理器3200的网络接口3500a和应用接口3500b。软件模块3800能够包括基于服务器的软件平台，该基于服务器的软件平台能够包括音频混合软件模块，该音频混合软件模块适合托管至少一个用户账户和至少一个客户端账户以及在一个或更多个账户之间传输数据。

考虑到上述实施例，应该理解，本发明能够采用存储在计算机系统中的涉及音频混合数据的各种计算机实施的操作。此外，整个音频混合的上述数据库和模型能够将分析模型和其它数据存储在系统30内的计算机可读存储介质上以及耦接到系统3000的计算机可读存储介质上。另外，音频混合系统的上述应用能够存储在系统3000内的计算机可读存储介质上以及耦接到系统3000的计算机可读存储介质上。这些操作是需要对物理量进行物理操纵的那些操作。通常，但不一定的，这些量采取能够被存储、传输、组合、比较以及其它操纵的电、电磁或磁信号、光学或磁光形式的形式。

一些实施例包括系统3000，该系统3000包括至少一个计算机可读介质36，该至少一个计算机可读介质36耦接到至少一个数据存储装置3700b，和/或至少一个数据源3700a，和/或至少一个输入/输出装置3700c。在一些实施例中，由音频混合系统体现的本发明能够被体现为计算机可读介质3600上的计算机可读代码。计算机可读介质3600能够是能够存储数据的任何数据存储装置，其随后能够由计算机系统(诸如系统3000)读取。计算机可读介质3600的示例能够包括硬盘驱动器、网络附接存储器(NAS)、只读存储器、随机存取存储器、基于FLASH的存储器、CD-ROM、CD-R、CD-RW、DVD、磁带、其它光学和非光学数据存储装置，或能够用于有形地存储所期望的信息或数据或指令并且能够由计算机或处理器(包括处理器3200)访问的任何其它物理或材料的介质。

在本发明的一些实施例中，计算机可读介质3600还能够经由网络接口3500a被分布在常规计算机网络上，使得由计算机可读代码体现的音频混合系统能够以分布式方式被存储和执行。例如，在一些实施例中，系统3000的一个或更多个部件能够被连接以通过局域网(“LAN”)3900a发送和/或接收数据。在一些进一步的实施例中，系统3000的一个或更多个部件能够被连接以通过互联网3900b(例如，无线互联网)发送或接收数据。在一些实施例中，运行在一个或更多个处理器3200上的至少一个软件应用程序3800能够被配置为耦接以通过网络3900a、3900b进行通信。在一些实施例中，网络3900a、3900b中的一个或更多个部件能够包括用于数据存储的一个或更多个资源，其包括用于存储信息的除介质3600之外的任何其它形式的计算机可读介质，并且包括用于从一个电子装置向另一个电子装置传送信息的任何形式的计算机可读介质。

在一些实施例中，网络3900a、3900b能够包括广域网(“WAN”)、直接连接(例如，通过通用串行总线端口)或其它形式的计算机可读介质3600或其任何组合。此外，在一些实施例中，网络3900a、3900b的一个或更多个部件能够包括多个客户端装置，其能够是包括如下的个人计算机4000：例如台式计算机4000d、笔记本计算机4000a、4000e、数字助理和/或个人数字助理(如4000c所示)、蜂窝电话或移动电话或智能电话(如4000b所示)、寻呼机、数字平板电脑、互联网设备和其它基于处理器的装置。通常，客户端装置能够是任何类型的外部或内部装置，诸如鼠标、CD-ROM、DVD、键盘、显示器或其它输入或输出装置3700c。在一些实施例中，各种其它形式的计算机可读介质3600能够将指令传输或携带到计算机4000，包括路由器、私有或公共网络，或者有线的和无线的其它传输装置或信道。软件模块3800能够被配置为发送数据或接收来自数据库(例如，来自包括数据源3700a和能够包括数据库的数据存储3700b的计算机可读介质3600)的数据，并且数据能够由软件模块3800从至少一个其它源来接收。在一些实施例中，软件模块3800中的至少一个能够被配置在系统内以经由至少一个数字显示器(例如，包括数字显示器的计算机4000)将数据输出给至少一个用户3100。在一些实施例中，用户3100能够包括顾客或销售助理。在一些实施例中，计算机4000能够通过车内娱乐系统和视频播放装置(例如

)来体现。

是Apple有限公司的注册商标。

在一些实施例中，如所描述的系统3000能够使得一个或更多个用户3100能够从系统3000接收、分析、进入、修改、创建数据，并且将数据发送到系统3000，包括从运行在系统3000上的一个或更多个企业应用3800接收、分析、进入、修改、创建数据，并且将数据发送到运行在系统3000上的一个或更多个企业应用3800。一些实施例包括耦合到计算机4000的至少一个用户3100，该计算机4000通过LAN 3900a经由固定的I/O装置3700c，访问包括至少一个企业应用3800的音频混合系统的一个或更多个模块。在一些其它实施例中，系统3000能够使至少一个用户3100(通过计算机4000)能够通过互联网3900a经由固定的或移动的I/O装置3700c访问企业应用3800。

本文描述的实施例中的一些包括用于为所制作的元素或音频或其它产品创建定制的和情境化的内容的制作引擎。在一些实施例中，制作内容创建服务器、系统和方法能够选择并接合多个内容元素以创建制作的元素。在一些实施例中，来自制作引擎的制作的元素能够应用于各种广播类型，包括但不限于节目或特写、商业广告、新闻快讯、播音员或DJ间断、采访和/或记录片。本发明的一些实施例包括能够基本上实时地选择和表征音频内容以创建制作的元素的制作内容创建服务器、系统和方法。制作引擎能够使广播的所有部分能够变化。在一些实施例中，能够使用用于制作的元素(例如，新闻快讯)的制作引擎来创建制作的元素，制作的元素能够包括序曲，和/或终曲，和/或自动生成的文本，和/或与音频实况相连接的多个合成语音。

在一些实施例中，制作的内容或元素能够包括诸如一个或更多个歌曲的内容元素，内容元素已经使用早前关于音频混合系统和方法描述的方法中的任何一种来汇编。在一些实施例中，制作的内容或制作的元素能够实施为独立的广播，或者在包括已使用任何常规的汇编方法汇编的、诸如一首或更多首歌曲的内容元素的制作的元素内实施。例如，在一些实施例中，创建的制作的元素能够在任何时候插入到广播中。在一些进一步的实施例中，创建的制作的元素能够在任何时候渐变或混合成广播。在一些实施例中，能够基于广播内容、制作的元素内容、用户偏好或行为、和/或品牌偏好来定时插入、渐变或混合。

在本发明的一些实施例中，制作内容创建服务器、系统和方法能够包括至少一个机器处理，诸如由执行制作内容创建服务器、系统和方法的一个或更多个软件模块的计算机系统或指定配置的服务器(本文称为“计算机系统”)执行的处理。在一些实施例中，制作内容创建服务器、系统和方法还能够包括由人类分析者执行的一个或更多个分析方法。在本发明的一些实施例中，制作内容创建服务器、系统和方法能够使用基于方法的至少一个计算机系统和至少一个人类分析者或操作者来分析一个或更多个音频内容元素。在本发明的一些实施例中，针对广播电台(诸如摇滚电台)，使用配置的计算机系统3000的音频混合系统和方法的制作引擎操作和处理部件能够确保内容项目(例如新闻快讯或新闻特写)与指定内容(例如音乐)一起播放。换句话说，系统能够制作被情境化的内容(例如，以确保内容与其它内容的调式或其它特性一致的方式被分析和汇编)。此外，在一些实施例中，制作的元素的创建能够是个性化的(例如，能够由用户个性化和/或能够基于用户行为修改)。在一些实施例中，音频内容的一个或更多个特性能够至少部分地基于如下中的一个或更多个：内容的参数、听众的偏好、听众的行为、品牌化偏好、制作的元素、类别或流派。在一些实施例中，系统能够基于用户的人口统计、利用界面的点击或选择体验(行为)和/或浏览行为。在一些实施例中，制作内容创建服务器、系统和方法能够包括能够启动交互以访问或发起新闻快讯、跳过新闻快讯的新闻元素、控制新闻快讯的内容的界面。在本发明的一些实施例中，内容能够基于先前的播放历史而改变。

在一些实施例中，除了任何内容元素之外(诸如一个或更多个通告和/或文本到语音内容)，内容元素或片段能够包括旁白(包括播音员)、新闻项目、文本到语音项目、音乐、歌曲或声乐家剪辑、清扫器或包括声音和/或音乐的其它内容项目或其它类型的声音。在常规的无线电制作中，能够制作这些类型的项目的各种组合(作为预制作包)。在本文描述的本发明中，制作内容创建服务器、系统和方法能够使用相同或相似类型的内容项目，并且能够实时地或基本上实时地创建制作的节目。例如，对于由制作内容创建服务器、系统和方法实时生成的任何产品，制作内容创建服务器、系统和方法能够装载有所有组成内容元素(其能够表示多个内容元素)。在一些实施例中，制作内容创建服务器、系统和方法的决定引擎部件(例如制作引擎)能够基本上或完全实时地处理组合各种元素(例如，组合成上述常规技术的预制作节目的数字版本)的决定。在一些实施例中，能够使用先行技术或延迟，近实时地执行各种级别的分析，消除了对内容元素的预分析的需要。

在一些实施例中，使用新闻元素或新闻快讯创建作为非限制性示例，在最终目标是创建新闻特写的情况下，开始元素能够是一个或更多个rss提要(feed)。在一些实施例中，rss提要能够是文本和音频实况，其中，文本描述音频实况。在一个非限制性的示例实施例中，文本能够被操纵以创建序曲和终曲，或者如果没有音频实况，并且存在一块文本，则存在新闻元素。在此之后，制作内容创建服务器、系统和方法能够下载和分析音频实况，并且使用称为“动态压缩”的处理来重新编码和操纵信息。动态印象(impression)能够通过减少音频片段的大声部分和软声部分之间的差异，来允许现场录制的采访或声音具有更大的整体响度。此外，在一些实施例中，内容创建服务器、系统和方法的制作引擎能够处理制作的元素的噪声减少、均等调节和音高修改。在一些实施例中，它能够是任何类型的数据提要，文本的或在某些版本中甚至是音频的。一些实施例包括使用语音到文本，以将音频或视频新闻提要变换成文本，文本然后被翻译并且然后使用文本到语音技术重新呈现。

在一些实施例中，内容创建服务器、系统和方法的制作引擎能够处理包括文本信息的文件。在一些实施例中，文本能够通过文本到语音处理来创建基于声音和语言而改变的音频文件。然后，能够使得到的音频文件经历分析和修改来创建广播就绪文件。文本还能够翻译成所期望的其它语言。例如，在一些实施例中，能够使用翻译器来分析文本部分以制作一个或更多个可替选的语言版本。

在一些实施例中，制作内容创建服务器、系统和方法能够创建与新闻内容相关的内容或新闻特写的库。用户能够决定主题、声音的格式，并且内容能够取决于品牌化或用户偏好。在一些实施例中，新闻特写能够与来自能够执行品牌化的播音员和/或能够具有用LUFS标记的区域的各种长度的音乐床的库的内容一起使用和在其之间使用。在一些实施例中，制作内容创建服务器、系统和方法能够使用这些方法来创建实时动态新闻特写。在一些实施例中，制作内容创建服务器、系统和方法能够基于用户偏好和/或过去的偏好或收听行为、目标持续时间来选择内容，并且能够汇编音乐床、播音员介绍、序曲和终曲、新闻特写，并且基于内容(快、慢、闲散等)调节新闻内容的间隙和类别。制作内容创建服务器、系统和方法能够使用合成声音或人类记录的声音。在一些实施例中，能够特别地基于它正在被使用的位置、品牌、当前音乐主题或流派的情境以及听众来生成特写。对于商业广告或广告元素示例，产品内容创建服务器、系统和方法能够改变声音、音乐、清扫器等。在一些进一步的实施例中，内容标签能够驱动对随附和支持内容的选择。例如，标记为“间断”的内容可能会导致使用不同的支持元素集。

本发明的一些实施例能够提供用于切入和切出直播提要的制作的元素，该直播提要由制作内容创建服务器、系统和方法，和/或听众，和/或听众的偏好，和/或与系统的交互，和/或品牌，和/或基于广播内容的参数来定义，广播内容的参数包括但不限于流派、调式、节奏、节拍等。在本发明的一些实施例中，音频源能够包含覆盖的或嵌入的音频文件。例如，在一些实施例中，覆盖的或嵌入的音频能够包括口头通告，口头通告包括但不限于DJ通告、新闻通告、天气通告或商业通告。在一些实施例中，能够使用其它覆盖的或嵌入的数据。

在本发明的一些实施例中，制作内容创建服务器、系统和方法包括新闻朗读器引擎，其连接到新闻源、渲染音频、处理实况、robosplog文件并将细节注册在数据库中。此外，在本发明的一些实施例中，制作内容创建服务器、系统和方法包括新闻制作引擎，其创建和制作针对呈现给用户的新闻快讯的配方。首先，参照新闻朗读器引擎，对于新闻朗读器所耦合到的每个新闻提要，新闻朗读器读取每个新闻文章的元数据、识别标题、文章的文本、副标题、分类和关键字、任何相关的音频实况，以及任何相关的图像资产。在一些实施例中，制作内容创建服务器、系统和方法能够下载任何音频实况，并下载任何相关的图像资产。此外，制作内容创建服务器、系统和方法能够处理音频实况以修改动态范围、均衡、持续时间等，并且将音频实况转码为所要求的传送格式。此外，在一些实施例中，制作内容创建服务器、系统和方法能够将标题和文章文本翻译成任何所需的目标语言。例如，制作内容创建服务器、系统和方法能够使用语音到文本引擎，来呈现标题和文章文本的各种翻译。该处理能够将每个元素渲染成也与它们的目标语言相对应的多个声音(潜在不同的性别、个性和节奏)。此外，制作内容创建服务器、系统和方法能够处理渲染的语音到文本音频文件以修改动态范围、均衡、持续时间等，并且将渲染的语音文件转码为合适的所要求的传送格式。在一些进一步的实施例中，制作内容创建服务器、系统和方法能够生成波形(可选的)，并将音频资产存储在服务器或数据库中。使用1级和/或2级分析，制作内容创建服务器、系统和方法能够使用将非音乐数据作为目标的完整分析组曲的子集来处理音频文件，并将数据上传到具有所有相应细节的数据库。

参照新闻制作引擎，当新闻快讯请求由服务器调度时，客户端能够发送参数的集合以供制作内容创建服务器、系统和方法来处理。在一些实施例中，这些能够包括但不限于使用什么“流派”的音频类别。这能够控制音乐缓冲和背景的使用，以便更好地将新闻广播适配到品牌化的体验或音乐情境中。在一些进一步的实施例中，参数能够包括使用什么“调式”的音频类别。这还能够帮助选择合适的音乐床、声音以及朗读的风格影响(如节奏和幅度)，以便更好地将新闻广播适配到品牌化的体验或音乐情境中。在一些进一步的实施例中，参数能够包括任何指定的声音覆盖，诸如如果对于预制作的或动态制作的元素期望特别的声音，则在此能够选择这些。在一些其它实施例中，参数能够包括在新闻广播中包括什么分类的内容。从大的分类和关键字的集合中，传送的那些能够被优先化并且能够指示哪些内容作为到终端用户的目标。这些能够从品牌偏好(访问通道)、个人用户偏好(派生或明确选择的)或两者的组合中得到。在一些进一步的实施例中，参数能够包括搜索故事的时间窗口，其能够指示当前的新闻需要如何。例如，最近2小时、最近24小时、上周等。在本发明的一些实施例中，参数能够包括制作多少故事或制作多长时间的广播。该值能够指示预期新闻广播的持续时间或为新闻广播制作的独特故事的数量。

在本发明的一些实施例中，制作内容创建服务器、系统和方法能够使用这些参数来构建新闻广播的配方。例如，在一些实施例中，在第一步骤中，制作内容创建服务器、系统和方法能够检索与待包括在广播中的分类和时间窗口匹配的故事。在另一个步骤中，制作内容创建服务器、系统和方法能够将所识别的故事提炼成时间和主题相关的包。在另一步骤中，制作内容创建服务器、系统和方法能够尝试使用各种内容主题的最新表示来组成新闻广播，由任何共享的优先级或由内容本身中指示的优先级驱动(例如突发新闻优先选择)。在进一步的步骤中，如果不能为请求数量的文章或时间组成简讯，则制作内容创建服务器、系统和方法能够在主题和时间两广度扩展搜索，并再次尝试，直到成功或者在多次通过之后，失败并返回错误代码。在另一个步骤中，制作内容创建服务器、系统和方法能够收集待使用的资产(包括音乐床、缓冲器、播音员、新闻朗读、音频实况等)的音频特征。在另一个步骤中，制作内容创建服务器、系统和方法能够基于音频特征来计算新闻快讯的排序、时序和幅度。在一些实施例中，快讯能够由多种方式组成，与音乐和实况交互、声音之间交替等。例如，播放列表的一个非限制性实施例能够包括：开始新闻、缓冲音乐渐弱、缓冲音乐，转换到循环的音乐床，以及覆盖预制作的播音员介绍，并播放tts播音员1故事1，并针对故事1播放相关的音频实况，针对故事1播放tts播音员1署名，播放tts播音员2故事2。此外，播放列表能够包括播放tts播音员1故事3，针对故事3播放相关音频实况，针对实况3播放tts播音员1署名，转换到结束新闻、缓冲音乐渐强、缓冲音乐，并且将预制作的播音员尾曲排入队列中以将配方返回客户端用于播放。

在一些实施例中，制作内容创建服务器、系统和方法的行为能够由内容元素的“进入”和“退出”部分的音频特性来指导。例如，类似于先前关于图20所描述的，在一些实施例中，在用于创建广播片段的制作的元素的内容处理期间，制作内容创建服务器、系统和方法能够确定是否通过插入内容元素来创建间隙。制作内容创建服务器、系统和方法能够决定将内容项目放置在广播的“退出”内容和“进入”内容之间，以包括在内容项目之间固定任何间隙的非常高的机率(例如，>95％被固定的可能性)。在一些实施例中，制作内容创建服务器、系统和方法能够实时地应用使用约束条件的选择处理来选择内容项目，并且布置内容项目以平滑地弥合制作的元素内的淡出和淡入间隙。在一些实施例中，制作内容创建服务器，系统和方法能够移动淡入间隙(例如，打开另一个内容元素)以用改善的收听体验来成形和收紧制作的元素。

在一些实施例中，制作的元素的处理能够使用由客户端用户提供的一篇或更多个指定信息(诸如偏好)开始分析。该信息能够包括包含“退出”元素和“进入”元素的信息。此外，在一些实施例中，随附信息能够包括一个或更多个客户端用户偏好。在一些实施例中，“进入”和“退出”能够是包括至少部分用于引导或指导项目的制作内容创建的信息的任何音频项目或内容元素的进入和退出。例如，在一些实施例中，项目元素能够包括新闻通告或快讯、歌曲、通告、DJ通告、天气通告或商业通告或其组合。在一个示例实施例中，音频内容元素能够包括“退出”元素，该“退出”元素包括新闻通告或快讯，并且“进入”元素能够包括歌曲或音乐项目。在这种情况下，制作内容创建服务器、系统和方法能够分析如上所述的信息以确定邻近的“进入”元素和“退出”元素的接合或制作内容创建，使得任何制作的元素当被插入到广播片段中时，对于听众是优选的或者视为听觉上可接受的或者期望的。

在一些进一步的实施例中，制作内容创建服务器、系统和方法能够使用音频内容文件的至少一部分来执行对音频内容的节拍-帧分析。在一些实施例中，音频谱中的节拍或其它位置标识符能够基于帧号被标签或标记。在其它实施例中，位置标识符能够基于时间。在其它实施例中，位置标识符能够基于音频的节段或片段，或者使音频能够被分成可测量间隔的其它位置标记。

一些实施例包括用于计算或调节制作内容创建服务器、系统和方法做出的调度决定的一个或更多个因素的影响。例如，一些实施例包括用户历史的因素，诸如用户的先前播放的音频内容和选择。在一些实施例中，用户的历史能够包括用户先前的播放历史，其定义用户喜欢或不喜欢包括至少一次间断的内容。例如，用户的先前的播放历史能够包括播放时间、内容或偏好，这些时间、内容或偏好证明用户不能容忍大量的新闻快讯、DJ播音员间断、天气快讯等等。

随着市场需求或期望的市场渗透改变时，本发明的一些实施例能够实现自动且完全地可定制的品牌修改。在一些实施例中，制作内容创建服务器、系统和方法能够使用多步骤处理以创建制作的元素，其中最初执行对正在被汇编的元素的多个内容的分析，并且将分析与用户偏好和品牌偏好混合在一起作为用于执行内容汇编的模板。

在本发明的一些实施例中，制作内容创建服务器、系统和方法能够搜索不可用的内容元素。在一些实施例中，即使基于原始模板指令必须放弃一些意图或偏好，但处理实时地(例如基本上实时地)“自我修复”以尽可能接近模板。例如，在一些实施例中，来自品牌的偏好或指示能够包括定位和混合各种内容元素。在制作内容创建服务器、系统和方法无法从至少一个品牌内容池中找到或确定相关且正确情境化的内容元素的位置的情况下，制作内容创建服务器、系统和方法能够放弃对制作内容创建的特定意图。

一些实施例包括基于对内容的分析，自动重写意图。在一些实施例中，基于意图的重写能够基于任何前述的Formatics，包括但不限于用于旁白品牌化和内容的指定内容池、旁白品牌化的允许以及扩展的内容(采访、引文、琐事、新闻、广告、音乐床、清扫器等)的允许。例如，在一些实施例中，品牌偏好能够包括将内容元素放置在制作的内容的开始或至少部分穿过所制作的内容。在一些实施例中，至少部分地基于内容元素的可用性，和/或内容元素的音频影响特性，制作内容创建服务器、系统和方法能够执行重写动作。例如，重写动作能够包括确定内容的另一个位置，选择不同的内容，选择不同的位置，和/或选择可替选的音频内容项目或元素，诸如清扫器。在一些实施例中，制作内容创建服务器、系统和方法能够使用户或品牌能够选择重写或行为的级别。

一些实施例包括加权精确系统，以在处理模板时，控制制作内容创建服务器、系统和方法的行为。例如，在一些实施例中，客户端用户或品牌能够选择加权精确因素，以增加或减小制作内容创建服务器、系统和方法重写用户或品牌意图的可能性。在一些实施例中，制作内容创建服务器、系统和方法能够在制作内容汇编期间使用多个因素，该多个因素包括但不限于用户的历史、元数据(诸如splog数据)以及使用偏好、客户端偏好和/或品牌偏好。

在一些实施例中，制作内容创建服务器、系统和方法能够被配置为辨别小的或最小可用项目的情况以做出如何汇编项目的决定。在一些实施例中，项目(诸如引文、画线器、采访、商业广告和/或新闻特写或新闻快讯片段)的各种因素或参数能够被分析，并用于将制作内容创建、接合或重叠行为定义成制作的元素。例如，在一些实施例中，制作内容创建服务器、系统和方法能够基于内容来分析和/或接收引文的数据(例如在广播期间可能不接受播放的某些词的使用)。在其它实施例中，制作内容创建服务器、系统和方法能够基于内容的性质和当前环境来选择或取消选择(例如，应用重写)(例如，理解内容是否涉及特定的公众假期以及在对应的假期时段以外不播放内容)。在一些进一步的实施例中，制作内容创建服务器、系统和方法能够包括覆盖或接合因素，该覆盖或拼接因素用于定义当内容元素被汇编成制作的元素时，制作内容创建服务器、系统和方法的行为。

一些实施例包括使用抑制和对数因子来增加广播随时间的机率的分离度量。在一些实施例中，制作内容创建服务器、系统和方法能够降低在自上次播放特定内容项目(诸如指定新闻项目、天气项目、指定DJ通告等)以来指定的或计算的时间时段期间播放该内容项目的机率。一些实施例允许使用GUI调节抑制。在一些实施例中，制作内容创建服务器、系统和方法实质上能够使内容项目分布在基本上随机的任何时间时段，和/或以周期或重复的方式向听众呈现(独立于听众连续的收听时段)。在一些实施例中，制作内容创建服务器、系统和方法能够将辛普森多样性指数方法应用到理解内容池，并且调度包括随时间推移呈现多样化的一系列项目的片段。

在一些实施例中，通过拉取内容并且遵循来自内容元素池的定制的内容，能够使用用户的装置或耦合的服务器平台上的制作引擎，来处理传送给用户的内容。在其它实施例中，特定配置的服务器能够实时建立是(或代表)定制的制作的元素(例如新闻快讯)的内容，以传送给用户。例如，在一些实施例中，基于特性和用户驱动的偏好和/或品牌偏好，由新闻朗读器、广播员或品牌主播、播音员(诸如唱片骑师)、歌手、声乐家、演员、公众成员、乐器和/或乐队、音乐床、清扫、旁白等制作的音频内容元素能够实时被选择和拉取和汇编。在这种情况下，引擎能够实时级联优先级，以制作通过制作引擎或通过特定配置的服务器来组合的预制作包，该制作引擎或特定配置的服务器将表示定制快讯的音频内容文件实时建立为单个制作的内容元素文件。

在一些实施例中，音频混合系统和方法和/或制作内容创建服务器、系统和方法能够耦合到由用户控制或与用户交互的自主的、人工智能或伪人工智能装置，或者能够使用由用户控制或与用户交互的自主的、人工智能或伪人工智能装置来控制音频混合系统和方法和/或制作内容创建服务器、系统和方法。例如，在一些实施例中，制作内容创建服务器、系统和方法能够耦合到联网装置(诸如Amazon Echo^TM)，或者能够通过联网装置控制制作内容创建服务器、系统和方法。在其它实施例中，制作内容创建服务器、系统和方法能够耦合到汽车娱乐系统，或者能够通过汽车娱乐系统来控制制作内容创建服务器、系统和方法。

在一些实施例中，制作内容创建服务器、系统和方法能够分解可用的汇集成池的内容的内容元素，标注并使元素可变，并且基于可能的周围元素和任何用户体验以及偏好和/或品牌的偏好来驱动对制作的元素的构建。在一些实施例中，制作内容创建服务器、系统和方法能够通过处理一个或更多个主要内容元素和覆盖内容元素来执行或处理接合分析。例如，主要元素(其包括清扫器)能够包括歌曲、音乐床、块(诸如具有剧本的采访)。在一些实施例中，清扫器能够在主要元素和覆盖元素之间弥合。在一些实施例中，覆盖内容主要能够包括声音内容。

在一些实施例中，制作引擎能够处理音乐床，该音乐床能够通过如下根据需要被扩展以适配任何长度：a)具有闭合持续时间的合适的床的初始选择，以及b)循环或切割某些已知的、标记的节段以将床变形为更确切的长度。能够调节覆盖的元素之间的间隔，以便具有几乎完全匹配的音乐元素内的各个同步的点。

一些实施例包括制作内容创建服务器、系统和方法执行接合分析，以判断是否需要清扫器和/或是否需要在内容元素或清扫器的结束处的音量减小。在一些实施例中，制作内容创建服务器、系统和方法能够包括分析内容元素如何结束、下一个内容元素如何开始、是否需要绑定(例如，具有特定效果)以及是否要求先前的内容元素的音量减小以获得内容元素间更好匹配。在一些实施例中，它还能够在覆盖物周围“浸入”音量(以在播音员正在说话时减小音乐音量，并且然后使其返回到默认级别)。

在一些实施例中，制作内容创建服务器、系统和方法能够扩展或减少内容元素之间的距离。一些实施例包括表征转换(是否平滑、有吸引力)，以及确定是否保持或管理能量或调式。在一些实施例中，制作内容创建服务器、系统和方法能够包括在分析中使用节奏、幅度和/或和声因素来表征一段时间内的调式或多变型的调式。一些实施例包括制作内容创建服务器、系统和方法执行对正面或负面词语或情绪的分析，以定义制作的元素或制作的元素或元素的一部分的情感。

在一些实施例中，所制作的内容元素能够由制作内容创建服务器、系统和方法的制作引擎来处理以包括调式约束参数。在一些实施例中，能够包括内容元素以改变调式，内容元素包括但不限于一个或更多个通告、一个或更多个新闻项目、一个或更多个天气项目、一个或更多个特定DJ通告、一个或更多个新闻快讯项目或特写，或商业广告中的至少一部分、文本到语音内容、至少一个清扫器、音乐床等。例如，在一些实施例中，第一音频文件能够包括低能量部分，并且第二音频文件能够包括高能量部分。在一些实施例中，制作内容创建服务器、系统和方法能够实时地应用使用约束条件的选择处理来选择具有不同能量级别的内容项目，并且当制作的元素被插入到广播中时，布置项目以平滑地弥合第一和第二音频文件的能量级别。在一些实施例中，在制作内容的任何部分的音高中没有任何变化的情况下，能够应用时间压缩/扩展以将制作内容约束到指定的时间时段。时间压缩/扩展是将在摄取待调节的内容时完成的DSP处理。这是一种用于精细地改变一些项目(旁白、音乐床、声效等)的长度以创造比原始由人才和/或制作者提供的更多变型的技术。使用这种方法，能够在不用小量改变音高的情况下延长时间。例如，五秒的播音员朗读能够被压缩和扩展到以下持续时间：4.5、4.6、4.7、4.8、4.9、5.1、5.2、5.3、5.4、5.5。这些变型用于更好地适配可用于歌曲覆盖和音乐床中的时间，从而在不必强制人才生成所有需要的变型的情况下，实现非常精确的定时。

在一些实施例中，制作内容创建服务器、系统和方法的上述方法中的一个或更多个能够通过专用GUI来控制。例如，图26图示了根据本发明的一些实施例的制作内容创建服务器、系统和方法的制作引擎界面4200，并且图27A图示了根据本发明的一些实施例的图26的制作引擎界面的制作的元素界面4500。参照图26，在一些实施例中，界面4200能够实现对在退出内容项目4202和进入内容项目4204之间的制作的元素的选择和汇编。图27A示出了用于使用如图所示的新闻或信息内容元素的池4502来选择和汇编制作的元素4510的界面4500。在一些实施例中，界面4500使得能够可视化制作的元素4510内的内容元素4515的级联。在一些实施例中，图27A中示出的制作的元素4515能够拼接到图26的制作的元素4215。在其它实施例中，图27A的制作的元素能够集成在图26中所示的进入内容项目和退出内容项目之间。图27B图示了根据本发明一些进一步的实施例的制作内容创建服务器、系统和方法的制作引擎界面4800。图27B示出了针对退出歌曲4802和进入歌曲4804，用于对制作的内容显示4810中的制作的元素4815选择和汇编的可替选界面4500。

在先前描述的任何实施例中，内容能够被预先排序。本发明的一些进一步的实施例包括为广播片段或音频制作创建预先排序的内容。在一些实施例中，使用选择的内容元素，可以创建排序内容，然后排序内容能够被单独使用或者与一个或更多个其它排序的内容和/或其它选择的内容组合使用，以使用制作引擎来制作所制作的元素。该技术能够应用于各种广播类型，广播类型包括但不限于音乐和/或歌曲节目或特写、商业广告、新闻快讯、播音员或DJ快讯、采访和/或记录片。本发明的一些实施例包括音频排序系统和方法，其能够选择和表征音频内容，以使用排序引擎基本实时地或接近实时地以定义的排序创建广播片段。在一些实施例中，音频排序系统和方法能够以定义的排序来选择和接合多个内容元素以创建广播片段。广播的所有部分能够是可变的，并且能够使用用于广播片段的排序引擎来创建内容片段，广播片段诸如是以特定排序在播放中定义的多个歌曲或音乐的广播，具有新闻的歌曲或音乐、剪辑、采访、商业广告、公告或包括口头词句或文本到语音项目、清扫器或其它音频声音的几乎任何音频内容。

在一些实施例中，排序引擎能够制作排序的内容元素，该排序的内容元素能够使用如前所述的方法来汇编。例如，一些实施例包括一个或更多个排序的内容元素，其能够使用如所描述的方法来汇编或“拼接”。在一些实施例中，制作的内容或广播片段能够包括内容元素，诸如一首或更多首歌曲。在其它实施例中，制作的内容或广播片段能够实施为独立的广播，或者在包括已使用任何常规的汇编方法汇编的、诸如一首或更多首歌曲的内容元素的广播片段内实施。例如，在一些实施例中，创建的内容片段能够在任何时候插入到广播中。在一些进一步的实施例中，创建的内容片段能够在任何时候渐变或混合成广播。在一些实施例中，能够基于广播内容、内容片段内容、用户偏好、和/或品牌偏好来定时插入、渐变或排序。

本发明的一些实施例包括音频排序系统和方法，其能够表征第一内容项目的一个或更多个参数、至少一个其它内容项目的一个或更多个参数，并且准备具有定义的内容项目的排序或布置的内容片段。在一些实施例中，音频排序的一个或更多个特性能够至少部分地基于第一内容项目的一个或更多个参数和/或内容片段中的任何数量的其它内容项目。在本发明的一些实施例中，音频排序系统和方法能够包括至少一个机器处理，诸如由执行音频排序系统和方法的一个或更多个软件模块的计算机系统或特定配置的服务器(本文称为“计算机系统”)执行的处理。在一些实施例中，音频排序系统和方法还能够包括由人类分析者执行的一个或更多个分析方法。在本发明的一些实施例中，音频排序系统和方法能够使用基于方法的至少一个计算机系统和至少一个人类分析者或操作者来分析一个或更多个内容项目。

图28描绘了根据本发明一些实施例的制作排序方法5000。在一些实施例中，排序引擎能够使用一个或更多个内容池5010、5020、5030来制作一个或更多个排序的内容元素。在一些实施例中，从内容池的一个或更多个中检索的内容能够用于创建优化的内容池。内容能够包括任何类型的内容和关联的元数据。例如，如下所述的非限制性示例能够包括歌曲作为内容的类型。在其它实施例中，内容能够包括本文描述的任何音频和/或视听内容。例如，在旁白内容的情况下，内容能够包括声音，和/或朗读的调式，和/或朗读的长度，和/或朗读的核心消息，和/或朗读的确切的文本，和/或消息的分类，和/或旁白的合适流派，和/或朗读的相关内容(艺术家、专辑、音轨、流派、通道、品牌)。

在一些实施例中，优化能够包括按照流派、艺术家、流行度、销量、调式、能量等筛选和选择内容元素。在其它实施例中，能够访问和使用未优化的内容，或者内容池提供者能够提供预先优化的内容。在一些实施例中，排序引擎能够访问与内容元素相关联的参数或属性。这些参数能够存储在由音频排序系统和方法访问或计算的splog文件中。在一些实施例中，splog文件能够包括一个内容项目如何与另一首歌曲、调式、能量级别等相关。在一些实施例中，能够将splog文件数据应用于内容池以确定顺序。splog文件能够用于基于规则引擎和/或一个或更多个可定义的参数，来创建内容项目的顺序或排序。这能够用于创建制作排序的调式或能量，诸如自然的感受。体验选择能够基于用户偏好、品牌偏好、算法和/或系统偏好。在一些实施例中，splog文件能够用作最终过滤器来优化池，以便能够基于所有内容项目的能量属性过滤池，使得播放列表具有最自然的感觉。splog文件数据能够帮助提供排序决定，以使音频排序系统和方法能够定义内容顺序以制作期望的或特定的收听体验。使用排序引擎5060，制作排序5070能够使用来自一个或更多个内容池(例如，5010、5020、5030)的内容元素来生成，并使用splog文件分析5050来处理。包括优化的内容池的内容池能够被使用，并且在广播行业中广为人知和使用。在一些情况下，内容池能够由第三方提供。在一些实施例中，池能够是未经处理的(例如，如提供的和未优化的)使用的，或者能够是优化的池。在一些实施例中，系统和方法能够优化5040任何访问的和/或累积的内容5010、5020、5030。在一些实施例中，音频排序系统和方法能够建立或处理库类数据库内的元素库，库类数据库能够在内容池内供排序使用。在一些实施例中，排序能够考虑构建的排列的所有元素，并且使用内容和顺序，音频排序系统和方法能够使用具有由音频排序系统和方法建立的任何库内容的排序处理。

在常规的内容创建中(例如，对于无线电台)，内容排序通常基于排序顺序(例如，基于时钟面上的位置)使用选择处理来创建，其中，特定排序基于时钟面上的位置(例如，其中特定时间或时间范围能够根据诸如“A”类型内容池、“B”类型内容池或“C”类型内容池的特定内容池指定播放)以及基于任何特定时间来选择，内容选自指定的内容池中的任何一个。已经播放的任何内容被记录在日志中(包括内容项目播放历史)并且基于一个或更多个规则，诸如当来自任何一个内容池的特定艺术家的最后一次已经播放时，艺术家被播放或跳过以支持从池中选择另一个。任何播放的内容都被轮换到内容池的后面(例如，基于原始池的“A”类型内容池，“B”类型内容池或“C”类型内容池)。使用这种方法，内容项目分离能够基于内容池中的内容项目的数量，以及内容池在时钟排序上呈现的次数。通常，由于各种原因，交互性能够阻止常规的内容排序的有效运行。然而，从所描述的常规方法导出，能够使用一个或更多个随机变量、规则或其组合成功地实施内容排序。例如，在一些实施例中，能够从任何一个或更多个池或内容中随机选择内容。此外，在从任一内容池中选择一个或更多个之前或之后，能够在任何时候随机化每个池中的内容。

在一些实施例中，能够修改任一个池或任一个池中的任何内容在随机选择事件期间可用于选择的机率。例如，参照图29的图5500，其示出了内容选择机率随时间的变化，在一些实施例中，在任何时间段期间，正在播放的内容的机率可以为零(示为“夯实可变时段”5510)。在另一个时间段内，能够存在“返回”时段5520，其中，正在播放的内容的机率上升，并最终返回到赋值给内容或内容池的基础机率5530。在一些实施例中，取决于各种因素，返回时段行为能够随着如机率类型1(5540)、类型2(5560)和类型3(5570)所示改变。在一些实施例中，夯实时段也能够改变。例如，在一些实施例中，夯实时段和/或返回以及上升行为能够取决于内容(例如，歌曲或歌曲起源的专辑)、流派、流行度、如本文所公开的一个或更多个splogging变量(例如，在特定时间段内不播放多于三个具有长时间介绍的内容项目)、基准级别机率或其组合等。

在本发明的一些实施例中，内容选择能够是多维的，包括歌曲或项目、视频等，并且另外，内容的属性能够用于调节播放内容(诸如艺术家、专辑、流派、调式、主题(即本文所公开的任何slogging属性))的机率。例如，元素的选择可以通过艺术家选择标准但是不符合调式标准，然而，调节机率选择使得不存在为零的失败(即，内容元素将始终被选择以播放关于对从任意随机或特定选择的内容池中任意随机选择的内容应用的准则)。

在一些实施例中，内容选择能够使用如上关于常规方法所描述的时间定时选择来驱动或影响在图29中定义和描述的机率选择的结果。例如，当时钟位置定义从“A”类型池的选择时，从图29的方法导出的任何选择的内容机率被朝“A”类型内容驱动并远离“B”和“C”类型内容。在其它实施例中，不是基于时间导出“A”类型内容选择，驱动内容(例如，驱动“A”、“B”还是“C”内容)能够基于A、B和C内容的特定排序(例如‘acbcbacbacab’或‘bcacbacbacacb’等)。这种方法允许灵活插入项目，而无需由时间排序单独驱动。例如，能够在排序‘bcacbacbacacb’的第一个bac和第二个bac之间插入ad，并且在插入add后，排序继续从ad到第二个bac排序。

在一些进一步的实施例中，能够为本文描述的任何内容或内容的分类赋值特定的播放机率。例如，第一分类能够被赋值20％的机会，第二分类能够被赋值30％的机会，并且第三分类能够被赋值50％的播放机会。在一些其它实施例中，本文描述的任何内容或内容的分类能够被赋值特定的播放机率，该特定的播放机率能够由如上所述的时间时钟影响。

一些实施例能够包括选择参数的一个或更多个重写。在一些实施例中，能够基于在规则数据库中定义的规则或规则引擎(定义重写)，来按排序布置任何选择的内容。在一些实施例中，排序引擎能够将一个或更多个规则应用于来自任何数量的内容存储桶的任何内容项目。在一些实施例中，能够使用多于一个规则来定义内容排序。在一些实施例中，一个或更多个规则能够支配或者控制一个或更多个其它规则。例如，对于包含分离设置的任何给定内容池，能够在任何时间段内修改设置。例如，对于任何给定的时段，如果初始设置的组合将来自一个分类的选择机率定义为零，则内容可能仍然在指定时间段期间(例如，在从感恩节假期到圣诞节的时段期间)，至少部分基于重写规则(即，在指定的时段期间，从初始为零的可能的待播放的池中指定内容)从该分类播放。作为进一步的非限制性示例实施例，一些实施例包括应用确保两个女声乐家不顺序播放的性别规则。在一些进一步的实施例中，规则能够基于调式级别或类型。在一些实施例中，调式和流派的组合能够使关于音频排序系统和方法能够排序哪种类型的播音员和/或间断事件相互影响。在一些实施例中，音频排序系统和方法能够通过谱平衡处理辨别调式的类型和流派(诸如高能量爵士和高能量摇滚)之间的差异。作为非限制性示例，能够通过使用转换信息选择内容项目来基于splog数据对序列排序以控制调式或能量级别(例如，维持弱拍或中到高能量来鼓励或影响听众的警觉)，来创建午餐后播放内容项目的广播。在一些进一步的实施例中，规则能够至少部分地基于播放和分离的频率。在一些进一步的实施例中，内容排序能够基于一个或更多个收缩规则以确保排序的内容包括非多样化的内容(例如，当特征化来自一个艺术家或有限数量的艺术家的组合的内容时)。在一些其它实施例中，内容排序能够基于一个或更多个多样化规则，以确保排序的内容包括多样化的内容(例如，当特征化来自多个艺术家和/或流派的内容时)以确保排序的内容是多样化的。在一些实施例中，能够基于一个或更多个日期和/或时间段应用一个或更多个规则。在一些实施例中，能够基于内容的分离、平均、峰值和/或谷值限制来应用规则(例如，指定一定数量的内容项目的平均调式，或者在某个内容项目或时间段处达到峰值)。

在一些实施例中，内容池的内容能够至少部分地基于人类输入。在一些进一步的实施例中，内容池的内容能够至少部分地基于自动的选择(例如，通过包括音频排序系统和方法的系统30的计算机)。在一些实施例中，内容池的内容能够至少部分地基于人类输入和系统输入。此外，在一些实施例中，应用于内容池的内容的规则能够至少部分地基于人类输入。在一些进一步的实施例中，内容池的规则能够至少部分地基于自动的选择(例如，通过包括分析内容池的音频排序系统和方法的系统30的计算机)。在一些进一步地实施例中，内容池的内容能够至少部分地基于人类输入和系统输入。在一些实施例中，系统能够重写由人类初始定义的规则的任何组合。在其它实施例中，自动的规则能够被人类输入重写。在一些实施例中，能够放宽一个或更多个规则(使用回软(ease-back)处理)。

在一些实施例中，一个或更多个品牌内容池能够链接到品牌偏好。例如，在一些实施例中，品牌内容池能够包括多个音频、音乐床、清扫器以及正在被排序以定义声音的其它因素，该声音是包括画线器、清扫器、新闻、制作特征、艺术家采访等的内容池。在一些实施例中，来自池的内容元素的任何数量或组合能够以特定排序汇编，以便得到的广播片段至少部分地定义品牌并区分品牌和竞争产品。

在一些实施例中，音频排序系统和方法能够实时地应用选择处理，该选择处理使用应用于所选择的内容的约束条件，所选择的内容包括但不限于一个或更多个特定艺术家、一个或更多个艺术家的专辑、图表数据(例如流行度或销量)以及非解释性元数据、splog数据等。此外，能够使用其它数据，其包括个人用户数据、未来听众数据以及包括排序历史或排序的循环时间参数的历史数据。

在一些实施例中，能够固定排序顺序。在一些实施例中，内容能够选自一个或更多个内容存储桶并且以固定的或随机顺序布置。在一些实施例中，内容存储桶能够包括内容存储桶内的内容的子分类或存储桶。在一些实施例中，能够对内容存储桶分类，并且内容能够选自多个分类的内容存储桶中的任何一个。例如，在一些实施例中，能够通过一个或更多个参数对内容存储桶分类，一个或更多个参数包括但不限于发布数据、播音员音调的下降、新闻快讯等。在一些进一步的实施例中，内容能够选自一个或更多个内容存储桶，并能够实时地按顺序动态布置。在其它实施例中，选自一个或更多个内容存储器的内容能够在一时间百分比内播放(例如，在一时间段内播放至少一次或多次)。在一些实施例中，除了内容的固定的和随机的排序之外，能够基于包括如下中的一种或更多种方法来使用混杂排序：播放的或重复的间隔时间、固定的或硬排序规则、随机选择或其组合。

在一些实施例中，实时音频内容选择能够包括用户实时播放内容，并且能够基于来自池的选择和用户的播放历史，使用先前描述的选择和排序规则的任意组合，来选择下一个内容。音频排序系统和方法能够基本上实时地或接近实时地对用户接下来播放的内容应用选择处理。在一些实施例中，该选择与其它内容项目拼接。在其它实施例中，音频排序系统和方法能够批量应用选择处理以在任何播放时段内制作任何大小的内容。例如，对于离线用户，音频排序系统和方法能够应用选择处理以在指定时间段内，将具有播放列表的总播放内容定义到未来。

在一些实施例中，音频排序系统和方法能够应用回顾处理来搜索在任何特定时间或在任何特定时间段在过去播放的内容。使用这个处理，音频排序系统和方法能够应用选择处理以避免在类似时间段期间选择用于播放的内容。在一些实施例中，回顾处理搜索基于调式、歌曲、专辑、流派、艺术家或任何splogging条件的播放的内容，以避免内容选择的时间段重复。在一些实施例中，音频排序系统和方法能够将任何规则应用于考虑用户收听时段中的间隙的内容。例如，在一些实施例中，在用户不在收听的较长时间段上应用的回顾处理能够被压缩并应用于用户的总收听时间(即，包括分离的收听时间段的收听时间段)。音频排序系统和方法能够邻接每个收听时间，或者减少某一因素。

本文描述的形成本发明一部分的任何操作是有用的机器操作。本发明还涉及用于执行这些操作的装置或设备。设备能够为特定用途专门构建，诸如专用计算机。当被定义为专用计算机时，计算机还能够执行不属于特定用途的其它处理、程序执行或例程，但仍能够用于特定用途的操作。可替选地，操作能够由通用计算机处理，该通用计算机有选择地由存储在计算机存储器、缓存中或通过网络获得的一个或更多个计算机程序激活或配置。当通过网络获得数据时，数据能够由网络上的其它计算机处理，例如，云计算资源。

本发明的实施例也能够被定义为将数据从一种状态转换到另一种状态的机器。数据能够表示文章，该文章能够被表示为电子信号并以电子方式操纵数据。在一些情况下，转换后的数据能够在显示屏上以可视方式显示，表示由数据的转换得到的物理对象。转换后的数据通常能够保存到存储器或以特别的格式存储，使能够构建或描绘物理的和有形对象。在一些实施例中，能够由处理器执行操纵。在这样的例子中，处理器因此将数据从一种形式转换到另一种。更进一步地，方法能够由通过网络连接的一个或更多个机器或处理器来处理。每个机器能够将数据从一种状态或形式转换到另一种，并且还能够处理数据，将数据保存到存储器，通过网络传输数据，显示结果或将结果传送到另一个机器。如本文使用的计算机可读存储介质指物理的或有形的存储器(如与信号相对)并且包括但不限于以任何方法或技术实施的易失的和非易失的、可移动和不可移动存储介质，以有形存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息。

尽管方法操作能够按照特定顺序进行描述，但应该理解的是，只要以期望的方式执行覆盖操作的处理，其它内务处理操作能够在操作之间执行，或者操作能够被调节，以便它们发生在稍微不同的时间，或者能够分布在允许与处理相关联的各种间隔发生处理操作的系统中。

本领域技术人员将会理解，尽管以上已经结合具体实施例和示例描述了本发明，但是本发明不一定限于此，并且许多其它的实施例、示例、用途、修改以及脱离实施例、示例和用途旨在被本文所附权利要求涵盖。本文引用的每个专利和出版物的全部公开内容通过引用并入，如同每个这样的专利或出版物单独地通过引用并入本文。在下面的权利要求中阐述了本发明的各种特征和优点。

Claims

1.一种音频混合方法，包括：

接收来自用户的转换请求，所述转换请求包括至少一个配方的至少一个内容项目之间的至少一个转换的退出元素和/或进入元素中的至少一个，所述至少一个配方包括多个元素，所述多个元素包括音频内容和视频内容中的至少一个；

使音轨服务器使用有线或无线链路耦合到至少一个音频文件的至少一个元数据文件，所述元数据文件包括根据所述至少一个音频文件测量或计算的音频内容参数；

计算所述退出元素和所述进入元素之间的转换；

针对所述转换，选择、汇编和调度所述多个元素的序列；

确定针对所述转换的所述多个元素中的至少一个元素的覆盖的布局和时间安排；以及，

将所述退出元素添加到所述至少一个配方。

2.根据权利要求1所述的音频混合方法，其中，所述转换请求包括至少部分地控制所述至少一个转换的至少一个规则。

3.根据权利要求2所述的音频混合方法，其中，所述多个元素的序列中的任意一个元素的位置由所述音轨服务器至少部分地基于所述至少一个规则来计算。

4.根据权利要求1所述的音频混合方法，其中，所述操作还包括在准备计算所述转换时确定所述退出元素之间的音量调节。

5.根据权利要求1所述的音频混合方法，其中，计算所述退出元素和所述进入元素之间的转换至少部分地基于以下中的至少一个：渐变模式、所述退出元素和所述进入元素的韵律、所述退出元素和所述进入元素之间的调式差异、所述退出元素和所述进入元素之间的流派差异、所述进入元素上的覆盖空间的类型和持续时间以及可用内容的类型。

6.根据权利要求1所述的音频混合方法，其中，所述元数据文件源自至少一个音频特征数据库。

7.根据权利要求6所述的音频混合方法，其中，音频特征数据库是第三方源和所述音频混合系统的内部数据库中的至少一个。

8.根据权利要求7所述的音频混合方法，其中，所述至少一个第三方源包括AcousticBrainz(https：/acousticbrainz.org)和Echonest.com(the.Echonest.com)中的至少一个。

9.根据权利要求1所述的音频混合方法，其中，所述元数据文件包括所述至少一个音频文件的至少一部分的调式内容，所述调式内容由所述计算装置基于存储在非暂时性计算机可读介质上的指令来计算，当所述指令被所述计算装置执行时，使得所述计算装置至少部分地基于对以下中的至少一个的测量来计算调式内容：所述部分的节奏、可跳舞性、节拍响度和一般响度。

10.根据权利要求1所述的音频混合方法，其中，所述非暂时性计算机可读介质包括在由所述计算装置执行时使所述计算装置执行以下操作的指令：

基于幅度确定所述至少一个音频文件的内容的插入和开端。

11.根据权利要求1所述的音频混合方法，其中，所述非暂时性计算机可读介质包括在由所述计算装置执行时使所述计算装置执行以下操作的指令：

确定所述至少一个音频文件的隐藏音轨的存在，如果找到则移除。

12.根据权利要求1所述的音频混合方法，其中，所述非暂时性计算机可读介质包括在由所述计算装置执行时使所述计算装置执行以下操作的指令：

基于幅度确定所述至少一个音频文件的淡出内容。

13.根据权利要求12所述的音频混合方法，还包括至少部分地基于持续时间和幅度中的至少一个来识别渐变类型为平滑或有韵律的操作。

14.根据权利要求2所述的音频混合方法，其中，所述至少一个规则指定如下中的至少一个：内容池的类型、旁白品牌化、扩展内容、旁白内容、内容类别、使用的内容或特写、元数据文件来源或创建、用于歌曲覆盖的信任的级别、专辑保护参数、内容的频率和分离、转换质量敏感度和无间隙流派。

15.根据权利要求1所述的音频混合方法，其中，所述内容包括如下中的至少一个：旁白、音乐床、声效、采访、引文、琐事、特写、听众呼入、新闻、新闻文章、新闻简讯、新闻事件、新闻快讯、新闻通告、当前新闻事件、过去或历史新闻事件、文章或事件、商业或广告、播音员信息、DJ信息、歌曲的至少一部分、音乐、琐事信息、天气信息、采访者或受访者信息。

16.根据权利要求1所述的音频混合方法，其中，所述内容包括至少一个属性，所述至少一个属性包括如下中的至少一个：播放频率规则、何时调度规则以及播放内容一次所用的最短时间。

17.根据权利要求1所述的音频混合方法，其中，所述非暂时性计算机可读介质包括在由所述计算装置执行时使所述计算装置执行以下操作的指令：将音乐床调度到所述至少一个配方中。

18.根据权利要求1所述的音频混合方法，其中，所述非暂时性计算机可读介质包括在由所述计算装置执行时使所述计算装置执行以下操作的指令：可选地将所述进入元素包括到所述至少一个配方中。

19.根据权利要求1所述的音频混合方法，其中，所述非暂时性计算机可读介质包括在由所述计算装置执行时使所述计算装置执行以下操作的指令：将与任何内容项目相关联的扩展格式化内容添加到所述至少一个配方中。

20.根据权利要求1所述的音频混合方法，其中，所述非暂时性计算机可读介质包括在由所述计算装置执行时使所述计算装置执行以下操作的指令：将播音员元素包括到所述至少一个配方中。

21.根据权利要求1所述的音频混合方法，其中，针对所述转换，选择、汇编和调度所述多个元素的序列是至少基于播音员的。

22.根据权利要求1所述的音频混合方法，其中，针对所述转换，选择、汇编和调度所述多个元素的序列是至少部分地基于在来自用户的转换请求中提供的消息信息的类型的。

23.根据权利要求1所述的音频混合方法，其中，针对所述转换，选择、汇编和调度所述多个元素的序列是至少基于所述元素中的任何一个的能量级别的。

24.根据权利要求1所述的音频混合方法，其中，针对所述转换，选择、汇编和调度所述多个元素的序列是至少基于所述元素中的任何一个的播放长度的。

25.根据权利要求1所述的音频混合方法，其中，针对所述转换，选择、汇编和调度所述多个元素的序列包括：在多个元素中的任意两个元素之间添加至少一个粘合元素。

26.根据权利要求25所述的音频混合方法，其中，至少一个粘合元素包括如下中的至少一个：声效、声音覆盖、音乐床、音乐、歌曲的至少一部分和通告。

27.根据权利要求1所述的音频混合方法，其中，所述多个元素的序列的调度是基于由所述计算装置计算的重叠的，其中，所述非暂时性计算机可读介质包括在由所述计算装置执行时使所述计算装置执行以下操作的指令：

至少部分地基于中心声调、韵律模式、淡入类型、淡出类型、旋律、和声结构和幅度来确定元素的一个或更多个重叠。

28.根据权利要求27所述的音频混合方法，其中，由所述计算装置基于对一个或更多个重叠的确定来调节所述元素中的任何一个的幅度。

29.根据权利要求1所述的音频混合方法，其中，所述非暂时性计算机可读介质包括在由所述计算装置执行时使所述计算装置执行以下操作的指令：

确定对所述配方的至少一些内容的无间隙播放的要求；并且

其中，针对所述转换，汇编和调度所述多个元素的序列包括至少两个元素之间的至少一个非可听间隙。

30.根据权利要求1所述的音频混合方法，其中，多个元素的序列包括由所述计算装置计算的添加的控制消息，其中，所述非暂时性计算机可读介质包括在由所述计算装置执行时使所述计算装置执行以下操作的指令：

确定随时间的一个或更多个幅度调节作为控制消息。